JP4855701B2 - 意味管理を用いた言語モデル適応 - Google Patents
意味管理を用いた言語モデル適応 Download PDFInfo
- Publication number
- JP4855701B2 JP4855701B2 JP2005101016A JP2005101016A JP4855701B2 JP 4855701 B2 JP4855701 B2 JP 4855701B2 JP 2005101016 A JP2005101016 A JP 2005101016A JP 2005101016 A JP2005101016 A JP 2005101016A JP 4855701 B2 JP4855701 B2 JP 4855701B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- class
- gram
- adaptive
- background
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006978 adaptation Effects 0.000 title claims description 33
- 230000003044 adaptive effect Effects 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 24
- 238000013138 pruning Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000013479 data entry Methods 0.000 claims 2
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- A—HUMAN NECESSITIES
- A44—HABERDASHERY; JEWELLERY
- A44B—BUTTONS, PINS, BUCKLES, SLIDE FASTENERS, OR THE LIKE
- A44B19/00—Slide fasteners
- A44B19/24—Details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10F—AUTOMATIC MUSICAL INSTRUMENTS
- G10F5/00—Details or accessories
- G10F5/02—Actions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
Description
閉じたクラス:{DAYS(日)、MONTH(月)、INTERVAL(間隔)、CLASS OF SERVICE(サービスクラス)、ZONE(ゾーン)、FOOD SERVICE(フードサービス)、GROUND SERVICE(地上サービス)}
用途ごとに、意味クラスの数およびタイプは大きく変化する可能性がある。しかしながら、飛行機旅行用途などいくつかの用途では、その意味クラスが特定されると、その意味エンティティまたは単語(word)レベルの具現化だけで、別の航空会社による使用のためにその言語モデルを本質的に適応させるために変更する必要のあるすべてとすることができる。
管理された意味情報(supervised semantic information)がクラスベースの言語モデルの使用を通じて言語モデルに組み込まれる。簡潔には、単一の意味クラスc3に属する新しい単語w3の確率推定は以下のように行うことができる。
ここで、Pr(w3|c3w2w1)=Pr(w3|c3)というモデルリングを前提とする。
ここで、Pr(CITY|fly to)は、意味クラスでタグ付けされたトレーニングデータを用いて推定され、Pr(city name|CITY)は、インドメイン意味データベースを用いて適応される。以前のインドメイン知識が利用可能である場合、よくある都市名は、まれな都市名より高い確率で割り当てることができ、そうでなければ、都市名の一様分布が想定される。クラスベースの適応アプローチを用いることの利点は以下の通りである。
図2に例示的な適応手順200を示す。図3Aおよび3Bに、手順200を行うための例示的システム300を示す。上に示したように、適応データの使用はオプションであるが、本発明の別の実施形態である。両方を用いた実施形態について以下に説明するが、これは必須または限定とみなすべきではない。また、説明に進む前に、手順200およびシステム300が、一般に同時にバックグラウンドデータおよびオプションの適応データ上で動作するものとして記述されていることに留意されたい。しかしながら、これは、理解を簡単にするためであり、必要または限定とみなすべきではない。
Pr(microsoft|COMPANY)=0.5
Pr(oracle|COMPANY)=0.25
Pr(verizon wireless|COMPANY)=0.25
であり、
Nグラム「analyst for COMPANY」が5カウントであった
と想定すると、
単語レベルのNグラムカウントデータは、
「analyst for microsoft」=2.5
「analyst for oracle」=1.25
「analyst for verizon wireless」=1.25
になるであろう。
#(「analyst for COMPANY」)・Pr(「x.y.」|COMPANY)
に等しい。
Pr(microsoft|COMPANY)=0.5
Pr(oracle|COMPANY)=0.25
Pr(verizon wireless|COMPANY)=0.25
の意味クラス「COMPANY」の同じ確率で想定すると、その単語レベルのNグラムデータは、
「microsoft analyst said」=2.5
「oracle analyst said」=1.25
「wireless analyst said」=1.25
になり、ここで、「wireless analyst said」は、トライグラムに右端の3ワードだけを取ることにより実現されたものである。
110 コンピュータ
120 処理装置
130 システムメモリ
131 ROM
132 RAM
133 BIOS
134 オペレーティングシステム
135 アプリケーションプログラム
136 その他のプログラムモジュール
137 プログラムデータ
140 非リムーバブル不揮発性メモリインターフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 その他のプログラムモジュール
147 プログラムデータ
150 リムーバブル不揮発性メモリインターフェース
151 磁気ディスクドライブ
152 リムーバブルの不揮発性磁気ディスク
155 光ディスクドライブ
156 リムーバブルの不揮発性光ディスク
160 ユーザ入力インターフェース
161 ポインティング装置
162 キーボード
163 マイクロフォン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ
300 例示的システム
301 意味データベース
302 バックグラウンドデータ
304 適応データ
306 タガー
308 タグ付けしたバックグラウンド
310 タグ付けした適応
312 収集モジュール
314 プルーニングモジュール
316 バックグラウンドN−グラムクラスカウントデータ
318 適応N−グラムクラスカウントデータ
320 ワードN−グラムジェネレータ
322 バックグラウンドN−グラムワードカウントデータ
324 適応N−グラムワードカウントデータ
326 適応された言語モデル
328 トレーニングモジュール
Claims (13)
- コンピュータシステム上でNグラム言語モデルを新しいドメインに適応させる方法であって、
コンピュータシステムが、前記新しいドメインに向けられていない一般的テキストフレーズを示すバックグラウンドデータを受け取ることと、
コンピュータシステムが、前記新しいドメインで使用され、クラスに編成された意味エンティティのセットを受け取ることと、
コンピュータシステムが、前記バックグラウンドデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムクラスカウントデータを生成することと、
コンピュータシステムが、前記新しいドメインで使用されるテキストフレーズを示す適応データを受け取ることと、
コンピュータシステムが、前記適応データ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムクラスカウントデータを生成することと、
コンピュータシステムが、前記バックグラウンドNグラムクラスカウントデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムワードデータを生成することと、
コンピュータシステムが、前記適応Nグラムクラスカウントデータ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムワードデータを生成することと
コンピュータシステムが、前記バックグラウンドNグラムワードデータおよび前記適応Nグラムワードデータに基づいて言語モデルをトレーニングすることと
を備えることを特徴とする方法。 - コンピュータシステムが、前記言語モデルをトレーニングする前に、複数のクラスを含む前記バックグラウンドNグラムクラスカウントデータまたは前記適応Nグラムクラスカウントデータをプルーニングすることをさらに備えることを特徴とする請求項1に記載の方法。
- バックグラウンドNグラムワードデータを生成することは、各データエントリが選択された数のワードを備えるマルチワード意味エンティティのバックグラウンドNグラムワードデータを生成することを備えることを特徴とする請求項1に記載の方法。
- 適応Nグラムワードデータを生成することは、各データエントリが選択された数のワードを備えるマルチワード意味エンティティの適応Nグラムワードデータを生成することを備えることを特徴とする請求項3に記載の方法。
- 前記バックグラウンドデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムクラスカウントデータを生成することは、前記意味エンティティおよびそのクラスに基づいてワードレベルのバックグラウンドデータをタグ付けすることを備えることを特徴とする請求項3に記載の方法。
- 前記適応データ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムクラスカウントデータを生成することは、前記意味エンティティおよびそのクラスに基づいてワードレベルの適応データをタグ付けすることを備えることを特徴とする請求項4に記載の方法。
- 前記バックグラウンドデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムクラスカウントデータを生成することは、前記タグ付けされたバックグラウンドデータの固有のクラスレベルNグラムをカウントすることを備えることを特徴とする請求項5に記載の方法。
- 前記適応データ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムクラスカウントデータを生成することは、前記タグ付けされた適応データの固有のクラスレベルNグラムをカウントすることを備えることを特徴とする請求項6に記載の方法。
- 前記バックグラウンドデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムクラスカウントデータを生成することは、前記タグ付けされたバックグラウンドデータからいくつかのクラスNグラムを廃棄することを備えることを特徴とする請求項7に記載の方法。
- 前記適応データ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムクラスカウントデータを生成することは、前記タグ付けされた適応データからいくつかのクラスNグラムを廃棄することを備えることを特徴とする請求項8に記載の方法。
- 言語モデルを生成するステップをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記ステップは、
選択されたドメインで使用され、クラスに編成された意味エンティティのセットを受け取るステップと、
前記意味エンティティのセットのクラスに相関され、一般テキストを示すバックグラウンドデータに基づくバックグラウンドNグラムクラスカウントデータを受け取るステップと、
前記意味エンティティのセットのクラスに相関され、モデル化される選択されたドメインを示す適応データに基づく適応Nグラムクラスカウントデータを受け取るステップと、
前記バックグラウンドNグラムクラスカウントデータおよび前記意味エンティティのセットに基づいてバックグラウンドワードカウントデータを算出するステップと、
前記適応Nグラムクラスカウントデータおよび前記意味エンティティのセットに基づいて適応ワードカウントデータを算出するステップと、
前記バックグラウンドワードカウントデータおよび前記適応ワードカウントデータに基づいて言語モデルをトレーニングするステップと
を備えたことを特徴とするコンピュータ読み取り可能な記録媒体。 - 前記言語モデルをトレーニングするステップは、Nグラム相対頻度を平滑化するステップを備えたことを特徴とする請求項11に記載のコンピュータ読み取り可能な記録媒体。
- 平滑化するステップは、削除補間アルゴリズムを使用するステップを備えたことを特徴とする請求項12に記載のコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/814,906 US7478038B2 (en) | 2004-03-31 | 2004-03-31 | Language model adaptation using semantic supervision |
US10/814,906 | 2004-03-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005292832A JP2005292832A (ja) | 2005-10-20 |
JP4855701B2 true JP4855701B2 (ja) | 2012-01-18 |
Family
ID=34887730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005101016A Expired - Fee Related JP4855701B2 (ja) | 2004-03-31 | 2005-03-31 | 意味管理を用いた言語モデル適応 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7478038B2 (ja) |
EP (1) | EP1582998A3 (ja) |
JP (1) | JP4855701B2 (ja) |
KR (1) | KR101122954B1 (ja) |
CN (1) | CN1677487B (ja) |
Families Citing this family (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7996219B2 (en) * | 2005-03-21 | 2011-08-09 | At&T Intellectual Property Ii, L.P. | Apparatus and method for model adaptation for spoken language understanding |
US8433558B2 (en) | 2005-07-25 | 2013-04-30 | At&T Intellectual Property Ii, L.P. | Methods and systems for natural language understanding using human knowledge and collected data |
US8924212B1 (en) | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US8825482B2 (en) | 2005-09-15 | 2014-09-02 | Sony Computer Entertainment Inc. | Audio, video, simulation, and user interface paradigms |
US7574349B2 (en) * | 2006-03-29 | 2009-08-11 | Xerox Corporation | Statistical language-model based system for detection of missing attachments |
JPWO2007138875A1 (ja) * | 2006-05-31 | 2009-10-01 | 日本電気株式会社 | 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム |
US20080071533A1 (en) * | 2006-09-14 | 2008-03-20 | Intervoice Limited Partnership | Automatic generation of statistical language models for interactive voice response applications |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US9128926B2 (en) * | 2006-10-26 | 2015-09-08 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
US9070363B2 (en) * | 2007-10-26 | 2015-06-30 | Facebook, Inc. | Speech translation with back-channeling cues |
US8090570B2 (en) * | 2006-10-26 | 2012-01-03 | Mobile Technologies, Llc | Simultaneous translation of open domain lectures and speeches |
US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
US7856351B2 (en) * | 2007-01-19 | 2010-12-21 | Microsoft Corporation | Integrated speech recognition and semantic classification |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US20080221899A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile messaging environment speech processing facility |
US20090030685A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a navigation system |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US20110054896A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20110054900A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20110054898A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Multiple web-based content search user interface in mobile search application |
US20110054897A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Transmitting signal quality information in mobile dictation application |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US20110054895A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Utilizing user transmitted text to improve language model in mobile dictation application |
US20110054894A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US8880405B2 (en) | 2007-03-07 | 2014-11-04 | Vlingo Corporation | Application text entry in a mobile environment using a speech processing facility |
US20090030688A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application |
US20080288252A1 (en) * | 2007-03-07 | 2008-11-20 | Cerra Joseph P | Speech recognition of speech recorded by a mobile communication facility |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
CN101271450B (zh) * | 2007-03-19 | 2010-09-29 | 株式会社东芝 | 裁剪语言模型的方法及装置 |
US8682660B1 (en) * | 2008-05-21 | 2014-03-25 | Resolvity, Inc. | Method and system for post-processing speech recognition results |
US8489399B2 (en) | 2008-06-23 | 2013-07-16 | John Nicholas and Kristin Gross Trust | System and method for verifying origin of input through spoken language analysis |
US9186579B2 (en) | 2008-06-27 | 2015-11-17 | John Nicholas and Kristin Gross Trust | Internet based pictorial game system and method |
TWI383752B (zh) | 2008-10-28 | 2013-02-01 | Ind Tech Res Inst | 結合語音辨識功能之食品製造裝置 |
US9646603B2 (en) * | 2009-02-27 | 2017-05-09 | Longsand Limited | Various apparatus and methods for a speech recognition system |
US8229743B2 (en) * | 2009-06-23 | 2012-07-24 | Autonomy Corporation Ltd. | Speech recognition system |
US8380520B2 (en) | 2009-07-30 | 2013-02-19 | Industrial Technology Research Institute | Food processor with recognition ability of emotion-related information and emotional signals |
US8190420B2 (en) | 2009-08-04 | 2012-05-29 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
US8577670B2 (en) * | 2010-01-08 | 2013-11-05 | Microsoft Corporation | Adaptive construction of a statistical language model |
CN102132945B (zh) * | 2010-01-21 | 2014-04-02 | 财团法人工业技术研究院 | 结合语意辨识功能的食品制造装置 |
US8527534B2 (en) | 2010-03-18 | 2013-09-03 | Microsoft Corporation | Bootstrap and adapt a document search engine |
US8838433B2 (en) | 2011-02-08 | 2014-09-16 | Microsoft Corporation | Selection of domain-adapted translation subcorpora |
US8515746B1 (en) * | 2012-06-20 | 2013-08-20 | Google Inc. | Selecting speech data for speech recognition vocabulary |
US9697821B2 (en) * | 2013-01-29 | 2017-07-04 | Tencent Technology (Shenzhen) Company Limited | Method and system for building a topic specific language model for use in automatic speech recognition |
US9892115B2 (en) | 2013-06-11 | 2018-02-13 | Facebook, Inc. | Translation training with cross-lingual multi-media support |
US9400783B2 (en) * | 2013-11-26 | 2016-07-26 | Xerox Corporation | Procedure for building a max-ARPA table in order to compute optimistic back-offs in a language model |
RU2592395C2 (ru) * | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2642343C2 (ru) * | 2013-12-19 | 2018-01-24 | Общество с ограниченной ответственностью "Аби Продакшн" | Автоматическое построение семантического описания целевого языка |
US20150254233A1 (en) * | 2014-03-06 | 2015-09-10 | Nice-Systems Ltd | Text-based unsupervised learning of language models |
US9972311B2 (en) | 2014-05-07 | 2018-05-15 | Microsoft Technology Licensing, Llc | Language model optimization for in-domain application |
US9679558B2 (en) | 2014-05-15 | 2017-06-13 | Microsoft Technology Licensing, Llc | Language modeling for conversational understanding domains using semantic web resources |
US9437189B2 (en) | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
US9734826B2 (en) | 2015-03-11 | 2017-08-15 | Microsoft Technology Licensing, Llc | Token-level interpolation for class-based language models |
RU2618374C1 (ru) * | 2015-11-05 | 2017-05-03 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Выявление словосочетаний в текстах на естественном языке |
CN109145145A (zh) | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
WO2022252203A1 (en) * | 2021-06-04 | 2022-12-08 | Citrix Systems, Inc. | Interpretation risk detection |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5258909A (en) | 1989-08-31 | 1993-11-02 | International Business Machines Corporation | Method and apparatus for "wrong word" spelling error detection and correction |
US5267345A (en) | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
EP0602296A1 (en) | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptive method for generating field dependant models for intelligent systems |
EP0938077B1 (en) * | 1992-12-31 | 2001-06-13 | Apple Computer, Inc. | A speech recognition system |
US5467425A (en) | 1993-02-26 | 1995-11-14 | International Business Machines Corporation | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models |
US5651095A (en) * | 1993-10-04 | 1997-07-22 | British Telecommunications Public Limited Company | Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class |
US5752052A (en) * | 1994-06-24 | 1998-05-12 | Microsoft Corporation | Method and system for bootstrapping statistical processing into a rule-based natural language parser |
US5937384A (en) | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US6188976B1 (en) * | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
DE59901575D1 (de) * | 1998-10-27 | 2002-07-04 | Siemens Ag | Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen |
AU6065400A (en) * | 1999-07-03 | 2001-01-22 | Ibm | Fundamental entity-relationship models for the generic audio visual data signal description |
AU2000276395A1 (en) | 2000-09-30 | 2002-04-15 | Intel Corporation | Method and system for using rule-based knowledge to build a class-based domain specific statistical language model |
US7043422B2 (en) * | 2000-10-13 | 2006-05-09 | Microsoft Corporation | Method and apparatus for distribution-based language model adaptation |
JP3961780B2 (ja) * | 2001-05-15 | 2007-08-22 | 三菱電機株式会社 | 言語モデル学習装置およびそれを用いた音声認識装置 |
US7080004B2 (en) * | 2001-12-05 | 2006-07-18 | Microsoft Corporation | Grammar authoring system |
-
2004
- 2004-03-31 US US10/814,906 patent/US7478038B2/en not_active Expired - Fee Related
-
2005
- 2005-03-24 EP EP05102379A patent/EP1582998A3/en not_active Ceased
- 2005-03-31 JP JP2005101016A patent/JP4855701B2/ja not_active Expired - Fee Related
- 2005-03-31 KR KR1020050026978A patent/KR101122954B1/ko not_active IP Right Cessation
- 2005-03-31 CN CN2005100562527A patent/CN1677487B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR101122954B1 (ko) | 2012-06-20 |
KR20060045069A (ko) | 2006-05-16 |
JP2005292832A (ja) | 2005-10-20 |
US7478038B2 (en) | 2009-01-13 |
EP1582998A2 (en) | 2005-10-05 |
EP1582998A3 (en) | 2008-01-23 |
US20050228641A1 (en) | 2005-10-13 |
CN1677487A (zh) | 2005-10-05 |
CN1677487B (zh) | 2010-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4855701B2 (ja) | 意味管理を用いた言語モデル適応 | |
US7379867B2 (en) | Discriminative training of language models for text and speech classification | |
JP4724377B2 (ja) | 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル | |
US9934778B2 (en) | Conversion of non-back-off language models for efficient speech decoding | |
JP4974470B2 (ja) | Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 | |
US7493251B2 (en) | Using source-channel models for word segmentation | |
Chen | Bayesian grammar induction for language modeling | |
JP5379155B2 (ja) | Cjk名前検出 | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
US20060074630A1 (en) | Conditional maximum likelihood estimation of naive bayes probability models | |
JP4738753B2 (ja) | 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決 | |
JP5770753B2 (ja) | Cjk名前検出 | |
JP3836607B2 (ja) | 音声認識のための統計的言語モデル作成装置 | |
Zitouni et al. | Statistical language modeling based on variable-length sequences | |
Simunec et al. | N-gram Based Croatian Language Network | |
US7231349B2 (en) | Method and apparatus for compressing asymmetric clustering language models | |
JP7327523B2 (ja) | 生成装置、生成方法及び生成プログラム | |
Jeong et al. | Improving speech recognition and understanding using error-corrective reranking | |
Roukos | Natural language understanding | |
JP2003248496A (ja) | 言語モデルの適応化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111021 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111027 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141104 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |