JP5099953B2 - 情報検索手法による統一化されたタスク依存の言語モデルの生成 - Google Patents
情報検索手法による統一化されたタスク依存の言語モデルの生成 Download PDFInfo
- Publication number
- JP5099953B2 JP5099953B2 JP2002500373A JP2002500373A JP5099953B2 JP 5099953 B2 JP5099953 B2 JP 5099953B2 JP 2002500373 A JP2002500373 A JP 2002500373A JP 2002500373 A JP2002500373 A JP 2002500373A JP 5099953 B2 JP5099953 B2 JP 5099953B2
- Authority
- JP
- Japan
- Prior art keywords
- context
- task
- word
- free grammars
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000001419 dependent effect Effects 0.000 title claims abstract description 35
- 238000012545 processing Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013549 information retrieval technique Methods 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Stored Programmes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Devices For Executing Special Programs (AREA)
Description
発明の背景
本発明は、言語のモデル化に関し、特に言語処理システムのための言語モデルの生成に関する。
【0002】
正確な音声認識には、単にユーザが発する正確な単語を選択する音響モデル以上のものが要求される。言い換えれば、音声認識装置はいずれの単語が発声されたかを選択あるいは決定しなければならず、全ての単語について発声された可能性が同じであれば、その音声認識装置は、通常、不満足な性能しか示さないであろう。言語モデルは、その語彙の中のいずれが一連の単語である可能性があるのかを特定する方法または手段を提供し、また、一般的には種々の一連の単語である可能性についての情報を提供する。
【0003】
音声認識は、しばしばトップダウン型の言語処理であると考えられる。言語処理には、通常、2つの型、トップダウン型とボトムアップ型がある。トップダウン型言語処理では、認識するための最大の単位、例えば文からはじめ、それをより小さな単位、例えばフレーズに区分けする処理を行い、次に、さらにより小さい単位、例えば単語に区分けする。これに対し、ボトムアップ型言語処理は、単語から始まり、それからフレーズ及び/又は文を組み立てるように処理する。両方の型の言語処理とも、言語モデルとしての利点がある。
【0004】
区分けのために通常用いられる手法のひとつは、形式文法(formal grammar)を使用することである。形式文法は、アプリケーションが許容する単語のシーケンスを定義する。よく知られた文法のタイプのひとつに、「文脈自由文法(context−free grammar)」(CFG)があり、これは、文構造に基づき、または意味的に文を特定する。CFGは、発声された言語(口語)においてほとんどの構造を表現するに十分な能力を有するだけでなく、十分に制限的でもあるので、効果的なパーザ(parsers)をも持つことができる。これにもかかわらず、CFGではより深い構造を得られる一方、その文法がほとんど依然として不完全であるため、強力な口語処理には未だ不適切である。CFGベースのシステムは、ユーザが話す文章が何かを知る場合だけならばよいが、これは、そのシステムの価値や有用性を減じることとなる。実際のほとんどのアプリケーションにおいて、CFGの欠点がカバーされないため、したがって、CFGの構造化された解析手法の有利な点は、無に帰すこととなる。アプリケーション開発者にとっても、CFGは、開発に高い労働集約性を要求する。
【0005】
第2の型の言語モデルは、Nグラム(N−gram)モデルである。Nグラムは大量のデータでトレーニングされるため、nワード(n−word)従属性により、多くの場合、構文上のおよび意味上の浅い構造にシームレスに適用させることができる。しかし、この手法の前提条件として、十分な量のトレーニングデータが必要となる。Nグラムモデルの問題は、多くのデータが必要とされることであり、所望のアプリケーションに対し、そのモデルを十分に特定しないかもしれない。単語ベースのNグラムモデルは、nワード従属性に制限されるため、CFGに比べると言語における、より長いコンストレイント(constraint)を含むことができない。
【0006】
(NグラムとCFGの組み合わせで構成される)統一化された言語(unified language)モデルもまた、進展した。統一化された言語モデルは、Nグラム及びCFGの言語モデル双方の弱点を克服する可能性を潜在的に持っている。しかし、ドメインを特定したアプリケーションに対して、ドメインに依存しないトレーニングコーパス(corpus)すなわち、統一化された言語モデルを含めドメインに依存しない言語モデルを改善するための明確な方法はない。
【0007】
したがって、引き続き、言語モデルを生成するための新たな方法の開発が必要となる。技術が進歩し、より多くのアプリケーションにおいて音声認識や手書き認識が提供されるため、所定のアプリケーションに対し適切な言語モデルを生成することができる効果的な方法を、アプリケーション開発者に提供しなければならない。
【0008】
発明の概要
タスク独立のコーパス(corpus)から、言語を生成する方法が提供される。第1の形態においては、選択されたアプリケーションのためのタスク依存の統一化された言語モデルは、タスク独立のコーパスから生成される。タスク依存の統一化された言語モデルは、Nグラムモデルにおける組み込み型文脈自由文法のノンターミナルトークンを含む。この方法には、アプリケーションの意味上または構文上の概念を表すノンターミナルトークンを備える複数の文脈自由文法を取得する処理が含まれる。各々の文脈自由文法は、意味上または構文上の概念を形成するため、タスク独立のコーパスにおいて表された単語またはターミナルを含む。意味上又は構文上の概念及びフレーズの各々のワードオカレンスを特定するために、複数の文脈自由文法をもつタスク独立のコーパスが分析される。各々の特定されたワードオカレンスは、対応するノンターミナルトークンに置き換えられる。Nグラムモデルは、ノンターミナルトークンをもって組み立てられる。意味上又は構文上同一の概念を表す同一のノンターミナルの少なくともいくつかに対して、第2の複数の文脈自由文法が得られる。しかし、選択されたアプリケーションでは、第2の複数の文脈自由文法の各々を用いることがより適切である。
【0009】
第2の形態は、タスク独立のコーパスから選択されたアプリケーションのためのタスク依存の統一化された言語モデルを生成するための方法である。タスク依存の統一化された言語モデルには、Nグラムモデルにおける組み込み型文脈自由文法のノンターミナルトークンを含む。この方法には、タスク依存の意味上又は構文上の概念を表すノンターミナルトークンを持つ文脈自由文法のセット及び所望のタスク依存の意味上又は構文上の概念のひとつと、誤りを許容するフレーズのためのノンターミナルトークンを持つ少なくともひとつの文脈自由文法とを有する複数の文脈自由文法を取得する処理が含まれる。複数の文脈自由文法を持つタスク独立のコーパスは分析され、ワードオカレンスが意味上又は構文上の概念及びフレーズの各々に対し特定される。各々の特定されたワードオカレンスは、対応するノンターミナルトークンに置き換えられる。Nグラムモデルは、次いでノンターミナルトークンをもって組み立てられる。
【0010】
第3の形態は、タスク依存のコーパスから選択されたアプリケーションのための言語モデルを生成するための方法である。この方法には、選択されたアプリケーションの意味上又は構文上の概念を表すノンターミナルトークンを備える複数の文脈自由文保を取得する処理が含まれる。単語フレーズは、複数の文脈自由文法から生成される。文脈自由文法が用いられて、単語フレーズの少なくとも一つから情報検索クエリが定式化される。このタスク独立のコーパスは、定式化されたクエリに基づき照会され、タスク独立のコーパスにおけるテキストはそのクエリに基づき特定される。特定されたテキストを用いて言語モデルが構築される。
【0011】
第4の形態は、タスク独立のコーパスから、選択されたアプリケーションのための言語モデルを生成するための方法である。この方法には、選択されたアプリケーションの意味上又は構文上の概念を表しているノンターミナルトークンを備える複数の文脈自由文法を取得する処理が含まれる。単語フレーズは、複数の文脈自由文法から生成される。第1と第2のNグラム言語モデルは、それぞれ単語フレーズとタスク独立のコーパスから構築される。第1のNグラム言語モデルと第2のNグラム言語モデルは、組み合わされ、第3のNグラム言語モデルを形成する。
【0012】
第5の形態は、あるコーパスから、選択されたアプリケーションのための統一化された言語モデルを生成するための方法である。この方法には、選択されたアプリケーションの意味上又は構文上の概念を表しているノンターミナルトークンを備える複数の文脈自由文法を取得する処理が含まれる。単語の言語モデルは、そのコーパスから構築される。文脈自由文法の少なくともいくつかが終了する確率は、単語の言語モデルから同一のターミナルを得るための対応する確率の関数として正規化され、割り当てられる。
【0013】
例示された実施形態の詳細な説明
図1は、言語入力12を受信して、処理し、出力14を得る言語処理システム10を一般的に示したものである。例えば、言語処理システム10は、言語入力12として、ユーザが発声した又は録音した言葉を受信する音声認識システム又はモジュールのような形態で実施することができる。言語処理システム10では、口語を処理し、出力として、通常は、認識された単語がテキストの形態で得られる。
【0014】
処理中、音声認識システム又はモジュール10は、言語モデル16にアクセスして、どの言葉が発声されたかを決定することができる。言語モデル16は、例えば英語のような、特定の言語を符号化する。例示の実施例では、言語モデル16は、ノンターミナルで意味上又は構文上の概念を指定する文脈自由文法を備えたNグラム言語モデル、又は統一化された言語モデルおよび組み込まれたノンターミナルを有しているハイブリッドNグラムモデルとすることができる。本発明を広範に示した形態は、入手がしばしば困難であるタスク依存のコーパスからよりも、むしろ、数個が既に準備されているタスク独立のコーパスから言語モデル16を生成又は構築する方法である。
【0015】
上述した音声認識システムに加え、他の言語処理システムにおいても言語モデル16を使用することができることが、本技術分野の当業者には理解されるであろう。例えば、上述のタイプの言語処理システムは、手書き認識、光学式文字認識(OCR)、スペルチェッカー、翻訳、標準PCキーボードを用いた中国文字又は日本文字の入力またはテレフォンキーボードを用いた英単語の入力においても使用することができる。音声認識を特に参照して口述するが、本発明は、言語処理システムのこれらの及び他の形式で、人工言語や自然言語のモデルを構築する際に有用である。
【0016】
本発明の詳細を説明する前に、実行環境を概観することが有用であろう。図2およびこれに関連した説明で、本発明を実施可能な好都合のコンピュータ環境について簡単に、一般的な説明を行う。必ずしも必要とはされないが、本発明は少なくとも一部では、例えばプログラムモジュールのようなパーソナルコンピュータで実行されるような、コンピュータ実行可能な命令の一般的コンテクストにおいて記述されるであろう。一般的に、プログラムモジュールは、ルーチンプログラム、オブジェクト、コンポーネント、データ構造などを含み、これらは、特定のタスクを実行したり、又は特定の抽象データタイプを実装する。プログラム及びモジュールによって実行されるタスクについては、ブロック図とフローチャートを用いて後述する。本技術分野の当業者は、プロセッサ実行可能な命令を、記述、ブロック図およびフローチャートから実現することができ、コンピュータ読み取り可能な任意の形式で記述することができるであろう。加えて、本発明はハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースあるいはプログラマブルなコンシューマ向け機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステムの構成で実施することができることが当業者には理解されるであろう。本発明はまた、分散コンピューティング環境でも実施することができ、そこでは、タスクは、通信ネットワークを介して接続された遠隔処理装置により実行される。分散コンピューティング環境では、プログラムモジュールは、ローカル及びリモートの双方のメモリ格納装置に置くことができる。図2に関連して、本発明を実施するための例示のシステムは、従来のパーソナルコンピュータ50の形態の汎用コンピューティングデバイスを含む。これは、プロセッシングユニット51、システムメモリ52及びプロセッシングユニット51とシステムメモリとの連結を含む種々のシステムコンポーネントを連結するシステムバス53を有する。システムバス53は、任意の種々のバス構造を用いたメモリバスまたはメモリコントローラ、ペリフェラルバス、およびローカルバスを含む任意の数タイプのバス構造とすることができる。このシステムメモリは、読取専用メモリ(ROM)54およびランダムアクセスメモリ(RAM)55を含む。基本入出力システム56(BIOS)はROM54に格納され、例えばスタートアップ時にパーソナルコンピュータ50内の部品間の情報転送を補助する基本ルーチンを含む。パーソナルコンピュータ50は、ハードディスク(図示せず)との読み取り、書き込みのためのハードディスクドライブ57、取外し可能な磁気ディスク59との読み取りまたは書き込みのための磁気ディスクドライブ58及びCD ROMその他光媒体のような取外し可能な光ディスクの読み取りまたは書き込みのための光ディスクドライブ60をさらに含む。ハードディスクドライブ57、磁気ディスクドライブ58および光ディスクドライブ60は、それぞれハードディスクドライブインタフェース62、磁気ディスクドライブインタフェース63および光ディスクドライブインタフェース64によってシステムバス53に接続されている。駆動装置および関連するコンピュータ読み取り可能な媒体により、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、その他パーソナルコンピュータ50のためのデータの不揮発性記憶装置を提供する。
【0017】
例示の環境ではハードディスク、取外し可能な磁気ディスク59および取外し可能な光ディスク61が利用されているが、コンピュータによりアクセスするデータを記憶することができる他の種類のコンピュータ読み取り可能な媒体もまた、例示の動作環境で使用可能であることが当業者に理解されるであろう。ここで、コンピュータ読み取り可能な媒体とは、例えば磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイ(bernoulli)カートリッジ、ランダムアクセスメモリ(RAMs)、読取専用メモリ(ROM)その他である。
【0018】
複数のプログラムモジュールは、オペレーティングシステム65、1つまたは2つ以上のアプリケーションモジュール66、その他のプログラムモジュール67およびプログラムデータ68を含み、ハードディスク、磁気ディスク59、光ディスク61、ROM54またはRAM55上に記憶される。ユーザは、入力デバイス、例えばキーボード70、手書きタブレット71、ポインティングデバイス72およびマイクロホン92を介して、コマンドと情報をパーソナルコンピュータ50に入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、サテライトディッシュ(satellite dish)、スキャナその他が含まれる。以上の入力デバイスおよびその他の入力デバイスは、システムバス53に連結しているシリアルポートインタフェース76を介して、プロセッシングユニット51に接続されることが多いが、他のインタフェース、例えば、サウンドカード、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)に接続することもできる。モニタ77またはその他のタイプの表示デバイスもまた、ビデオアダプタ78といったインタフェースを介してシステムバス53に接続される。モニタ77に加えて、パーソナルコンピュータは、通常その他の周辺出力デバイス、例えばスピーカ83およびプリンタ(図示せず)を含む。
【0019】
パーソナルコンピュータ50は、リモートコンピュータ79のような1つまたは2つ以上のリモートコンピュータとの論理接続を用いて、ネットワーク化された環境で動作することができる。リモートコンピュータ79は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピア(peer)デバイスまたはその他のネットワークノードとすることが可能であり、図2にはメモリ記憶デバイス80のみ示されているが、パーソナルコンピュータ50に関連する上述の要素の多くまたは全部を、通常、含む。図2に示された論理接続は、ローカルエリアネットワーク(LAN)81、および広域ネットワーク(WAN)を含む。このようなネットワーク環境はオフィスではありふれたものであり、例えば企業内(enterprise−wide)コンピュータネットワークであるイントラネットおよびインターネットである。
【0020】
LANネットワーク環境で用いられる場合、パーソナルコンピュータ50は、ネットワークインタフェースまたはアダプタ83を介して、ローカルエリアネットワーク81に接続される。WANネットワーク環境で用いられる場合、パーソナルコンピュータ50は、通常、インターネットのような広域ネットワーク82にわたって通信を行うためのモデム84またはその他の方法を含む。モデム84は、内部または外部に置くことができ、シリアルポート76を介してシステムバス53に接続される。プログラムモジュールは、パーソナルコンピュータ50に関連して、あるいはその一部として描かれたが、ネットワーク環境においては、リモートのメモリ記憶装置に記憶することができる。示されたネットワーク接続は例示であり、その他のコンピュータ間の通信リンクを図る方法を使用することができるということが当業者に理解されるであろう。
【0021】
図3は、音声認識システム100の例示の実施形態を示す。音声認識システム100には、マイクロホン92、アナログデジタル(A/D)変換器、トレーニングモジュール105、特徴抽出モジュール106、語彙記憶モジュール110、セノン(senon)ツリーを含む音響モデル112、ツリーサーチエンジン114および言語モデル16が含まれる。全体のシステム100あるいは音声認識システム100の一部は、図2に示す環境において実行することができる点が留意されるべきである。例えば、マイクロホン92は、入力デバイスとして、適切なインタフェースおよびA/Dコンバータ104を介して、コンピュータ50に接続できるのが望ましい。トレーニングモジュール105および特徴抽出モジュール106はコンピュータ50内のハードウェアとするか、または図2に開示された任意の情報記憶装置に記憶され、プロセシングユニット51またはその他の適合したプロセッサからアクセス可能なソフトウェアモジュールのいずれかとすることができる。加えて、語彙記憶モジュール110、音響モデル112および言語モデル16もまた、図2に示される、いずれかのメモリデバイスに記憶されるのが望ましい。さらに、ツリーサーチエンジン114は、(1つまたは2つ以上のプロセッサを含む)プロセッシングユニット51内で実行されるか、または専用の音声認識プロセッサにより実行され、パーソナルコンピュータが利用することもできる。
【0022】
図示された実施形態においては、音声認識中に、ユーザがマイクロホン92に対して発生した音声は、可聴音声信号の形式でシステム100にインプットされる。マイクロホン92は、可聴音声信号をアナログ電気信号に変換し、A/Dコンバータ104に送られる。A/Dコンバータ104は、アナログ音声信号をデジタル信号のシーケンスに変換し、特徴抽出モジュール106に送られる。ある実施形態では、特徴抽出モジュール106は、従来のアレイプロセッサであり、デジタル信号に関しスペクトル分析を実行し、周波数スペクトルの各周波数域に対する出力値を計算する。この信号は、ある例示の実施形態では、およそ16kHzのサンプルレートでA/Dコンバータ104により、特徴抽出モジュール106に与えられる。
【0023】
特徴抽出モジュール106は、A/Dコンバータ104から受け取ったデジタル信号を、複数のデジタル信号を含むフレームに分割する。各フレームはおよそ10msの長さである。次に、このフレームは、特徴抽出モジュール106によって、複数の周波数帯に対するスペクトル特性を反映した特徴ベクトルに符号化される。ディスクリートで半連続な隠れマルコフモデリングの場合、特徴抽出モジュール106はまた、ベクトルの量子化手法とトレーニングデータから導かれたコード表を用いて、特徴ベクトルを1つまたは2つ以上のコードのワードに符号化する。したがって、特徴抽出モジュール106は、発声された音声の各々に対する特徴ベクトル(またはコードのワード)をその出力として与える。特徴出力モジュール106は、ある特徴ベクトル(またはコードのワード)のレートまたは概ね全て10msのレートで、特徴ベクトル(またはコードのワード)を送る。
【0024】
出力である確率配分(probability distributions)は、分析されているそのフレームの特徴ベクトル(またはコードのワード)を用いて、隠れマルコフモデルに対して計算される。これらの確率配分は、その後ビタビ(Viterbi)アルゴリズム又はこれに類似の処理手法を実行する際用いられる。
【0025】
特徴抽出モジュール106からコードのワードを受信する際、ツリーサーチエンジン114は、音響モデル112に記憶された情報にアクセスする。モデル112は、音響モデル、例えば音声認識システム100で検出されるための音声ユニットを表現している隠れマルコフモデルを格納する。一実施例において、音響モデル112には、隠れマルコフモデルにおける各マルコフ状態のセノンツリーが含まれる。隠れマルコフモデルは、例示の一実施例においては、音素を表す。音響モデル112におけるセノンに基づき、ツリーサーチエンジン114は、特徴抽出モジュール106から受信した特徴ベクトル(またはコードのワード)によって表された最も確実な音素、したがってシステムがユーザか受け取った音声を代表的に表現したものを決定する。
【0026】
ツリーサーチエンジン114は、モジュール110に格納された語彙にもアクセスする。音響モデル112へのアクセスに基づいてツリーサーチエンジン114が受信した情報は、語彙格納モジュール110のサーチの際用いられ、特徴抽出モデル106から受信したコードのワードまたは特徴ベクトルを最も確実に表す単語を決定する。また、サーチエンジン114は、言語モデル16にもアクセスする。言語モデル16は、統一化された言語モデルあるいは一単語のNグラムまたは文脈自由文法であり、入力された音声によって表された、最も確実な単語を特定する際使用される。最も確実な単語はテキスト出力で得られる。
【0027】
音声認識システム100において、HMMモデリングおよびセノンツリーが用いられる場合について述べたが、これはほんの一実施例であることが理解されるはずである。音声認識システム100は多くの形態をとることができ、それらが必要とされるのは、言語モデル16を用いること、およびユーザが発声したテキストを出力として提供することだけであることが当業者には理解されるであろう。
【0028】
統計的なNグラム言語モデルによって、ある単語までの所与の単語シーケンス(すなわち、所与の単語履歴H)をもつ単語についての確率が計算されることがよく知られている。Nグラム言語モデルでは、次の単語の確率に影響を与えるものとして、履歴Hにおいては(N−1)個前の単語までしか考慮しない。例えば、バイグラム(すなわち2−グラム)言語モデルでは、次の単語に影響するものとしては、その直前の単語を考慮する。したがって、Nグラム言語モデルにおいては、単語が見出される確率は以下のように表される。
【0029】
【数1】
【0030】
ここで、wは対象とする単語:
w1は、このシーケンス中において単語wのn−1個前に位置する単語;
w2は、単語wのn−2個前に位置する単語;
w(n−1)は、単語wの1個前に位置する単語;
また、単語シーケンスの確率は、その履歴を与えられた各単語の確率の乗法演算に基づいて定められる。したがって、単語シーケンス(w1・・wm)の確率は、以下のように表される。
【0031】
【数2】
【0032】
Nグラムモデルは、原文のままのトレーニングデータのコーパス(フレーズ、文、文章の一部分、段落などの収集物)にNグラムアルゴリズムを適用することによって得られる。Nグラムアルゴリズムは、例えば、カッツの手法(Katz’s technique)のようによく知られた統計手法を使用することもできるし、またバイノミアル ポステリア ディストリビューション バックオフ テクニック(binomial posterior distribution backoff technique)を使用することもできる。これらの手法を用いて、アルゴリズムによって、ある単語w(n)が単語w1、w2・・、w(n−1)の次に来る確率が計算される。この確率の値は、集合してNグラム言語モデルを形成する。標準的統計的なNグラムモデルを構築するために、本発明の後述のいくつかの実施形態を利用することができる。言語モデルはまた、文脈自由文法を備えることが、本技術分野でもよく知られている。文脈自由文法では、ルールベースモデルが提供され文構造や口語の意味上または構文上の概念をキャプチャーすることができる。例えば、例示の目的で、会議の予定を組みまたは電子メールを送信することに関するソフトウェアアプリケーションまたはタスクのためのより多くの文脈自由文法のうちの文脈自由文法のセットの1つは、
【0033】
【表1】
【0034】
を備えることができる。
【0035】
この例では、“< >”は、意味上または構文上の概念を区分けするためのノンターミナルを示し、各ノンターミナルはターミナル(例えば、単語またはフレーズ)および、いくつかの例では階層構造におけるノンターミナルトークンを用いて定義される。
【0036】
この種の文法では、正式な文構造や言語学の錦密な知識は要求されず、むしろ、特定のアプリケーションまたはタスクではどのような単語、フレーズ、文または文章の一部分が用いられるかという知識が要求される。
【0037】
統一化された言語モデルもまた、本技術分野ではよく知られている。図4を参照すると、統一化された言語モデル140には、Nグラム言語モデル142と複数の文脈自由文法144との組み合わせが含まれる。さらに、Nグラム言語モデル142には、組み込まれた複数の文脈自由文法144の同一のノンターミナルのうちの少なくといくつかが含まれので、Nグラム言語モデル142は、単語を予測することに加え、ノンターミナルもまた予測することができる。一般的に、ノンターミナルについての確率は、以下に表すことができる。
【0038】
【数3】
【0039】
ここで、(h1,h2, ... hn)は先行する単語またはノンターミナルとすることができる。基本的に、統一化された言語モデル140のNグラム言語モデル142(ハイブリッドNグラムモデルとしても知られている)には、単語と少なくともいくつかのノンターミナルを有するオーグメント(augment)された語彙が含まれる。
【0040】
使用にあたって、音声認識システムまたはモジュール100は、言語モデル16(本実施形態では、統一化された言語モデル140)にアクセスし、どの単語が話されたかを決定するであろう。Nグラム言語モデル142は、最初に単語とノンターミナルを予測するために用いられる。ノンターミナルが予測されると、複数の文脈自由文法144が用いられ、ノンターミナルの関数としてターミナルが予測される。しかし、特定の方法で統一化された言語モデル140が使用されるということは、本発明では重要なことではないことが理解されるはずである。
【0041】
発明の背景で述べたように、アプリケーション開発者は、選択されたアプリケーションを適正な言語モデル16が生成することを可能する効率的な方法を与えられるはずである。あるアプリケーションにおいては、標準的なNグラム言語モデルは有効に働き、このモデルを開発する際の改良は有益であろう。一方その他のアプリケーションでは、統一化された言語モデル140が最も有効に働き、そのため、このようなモデルを構築する際の改良もまた有益であろう。
【0042】
言語処理のために異なるアプリケーションが開発されるなら、タスク依存(ドメイン依存)の言語モデルは、その具体性が高くなることから、より大きな汎用的言語モデルに比べより正確な言語モデルを創作することができるため、より適切なものとなることができる。しかし、タスク依存の言語モデルは、容易に汎用的言語モデルを生成することができない。Nグラム言語モデルのような汎用的言語モデルを生成するために、トレーニングデータのタスク独立のコーパスを用いて、上述のようにNグラムアルゴリズムに適用することができる。タスク独立のコーパスは既に準備されており、雑誌や新聞などの編集を備えて、ほんの少し命名することができる。タスク独立のコーパスは、いずれかのアプリケーション向けにはなっておらず、というよりむしろある言語において単語がどのように用いられているかについての多くの例示を与えてくれる。一方、タスク依存のコーパスは、通常、利用可能ではない。コーパスは苦労して収集しなければならず、しかも、それでも完全ではないかもしれない。
【0043】
本発明を広範に示す実施形態には、タスク独立のコーパスから選択されたアプリケーションのためのタスクまたはドメイン依存の統一化された言語モデルを生成するための方法が含まれる。タスク依存の統一化された言語モデルには、Nグラム言語モデルにおける組み込み型文脈自由文法のノンターミナルトークンが含まれる。以上検討したように、タスク独立のコーパスは、文やフレーズなどを編集したものであり、いずれかの特定のアプリケーション向けのもではなく、むしろ一般的に非常に多様な例を通して、ある言語で単語がどのようにともされるかを示している。後述の種々の手法が開発され、タスク依存のアプリケーションに適した言語モデルを生成するためのタスク独立のコーパスが用いられている。
【0044】
図5は、言語モデルを生成しまたは構築するための第1のメソッド160を示している。メソッド160は、意味上または構文上の概念を表現するノンターミナルトークンを備える複数の文脈自由文法を取得するためのステップ162を含む。ここで、意味上または構文上の概念には、種々のコマンド、オブジェクト、動作などに特定の単語が使われることを表現する単語または単語フレーズが含まれる。例えば、タスク独立のコーパスには、固有名を使用する方法についての種々の例証が含まれる。例えば、タスク独立のコーパスは、文:「ビル クリントンは会議に出席した」および「ジョン スミスは会議でランチに行った」などを含む。タスク独立のコーパスにおいて意味上または構文上の概念を形成するために用いられる単語は、タスク依存のアプリケーションのために用いられるものではないかもしれないが、タスク独立のコーパスは、意味上または構文上の概念のためのコンテクストを明らかにする使用に適した例を与える。ステップ162は、タスク独立のコーパスにおける意味上または構文上の概念を表すためのノンターミナルトークンをもつ文脈自由文法を取得することを表し、ターミナルを持つノンターミナルトークンは、タスク独立のコーパス中で表される。例として、上記の例の固有名を用いると、CFGは以下のようにすることができる。
【0045】
【表2】
【0046】
通常、種々の意味上または構文上の概念を表現するノンターミナルトークンを備えた複数の文脈自由文法が用いられる。例えば、その他の意味上または構文上の概念としては、少し命名すると、地理上の場所、地域、タイトル、日付、時間、通貨量、パーセントの量がある。しかし、これらの意味上または構文上の概念は単なる例示に過ぎず、本発明を実施するために必要とされることもないし、このリストが、所望のアプリケーションに極めて依存する意味上または構文上の概念の全てのタイプを尽くしているというわけでもない。
【0047】
ステップ164においては、タスク独立のコーパスは、意味上または構文上の概念のタスク独立の各コーパスにおいてワードオカレンスを特定するために、ステップ162で得られた複数の文脈自由文法によって分析される。
【0048】
ステップ166において、特定されたワードオカレンスの各々は、対応するノンターミナルトークンと置き換えられる。Nグラムモデルは、次いでNグラムアルゴリズムを用いてステップ168において構築され、Nグラムモデルにはノンターミナルトークンが組み込まれている。
【0049】
ステップ170において、第2の複数の文脈自由文法は、選択されたアプリケーションにあわせて取得される。特に、第2の複数の文脈自由文法には、ステップ162の同一の意味上または構文上の概念を表すノンターミナルのうちの少なくともいくつかが含まれる。しかし、第2の複数の文脈自由文法の各々は、選択されたアプリケーションにより適合する。上述の例示の固有名に戻って参照すると、第2の複数の文脈自由文法はCFGを含むであろう。:
【0050】
【表3】
【0051】
メソッド160は、コンピュータ50で実施され、文脈自由文法の各々およびタスク独立のコーパスはローカルまたはリモートの記憶デバイスのいずれかに記憶することができる。ノンターミナルトークンをもつNグラムモデルおよびタスク依存の意味上または構文上の概念を表すノンターミナルトークンをもつ第2の複数の文脈自由文法は、音声認識部によってアクセスされるコンピュータ読み取り可能な媒体に記憶される。
【0052】
図6は、タスク独立のコーパスから選択されたアプリケーションに対する統一化された言語モデルを生成するためのメソッド180を示しており、コーパスには、異なるコンテクストである可能性のある大量のフレーズが含まれる。タスク依存のアプリケーションのために文脈自由文法によってタスク独立の言語使用を簡易に分析すると、エラーが発生する可能性があり、Nグラムアルゴリズムのアプリケーションに関するNグラムモデルまで広がるであろう。分析中のエラーの発生を抑えるために、本発明の本実施形態では、所望のタスク依存の意味上または構文上の概念の一つに対して誤りを許容する(that can be mistaken)フレーズ(単語または複数の単語)のためのノンターミナルトークンを持つ少なくとも一つの文脈自由文法を用いる。特に、ステップ182においては、複数の文脈自由文法が得られる。複数の文脈自由文法には、タスク依存の意味上または構文上の概念(すなわち、選択されたアプリケーションに直接、関連する意味上または構文上の概念)を表すノンターミナルトークンを有する文脈自由文法のセット、および所望のタスク依存の意味上または構文上の概念の一つに対し誤りを許容するフレーズのためのノンターミナルトークンを有する少なくとも一の文脈自由文法が含まれる。例えば、タスク依存のアプリケーションは、Nグラムモデルにおける意味上の概念として週のうちの曜日をモデリングすることが要求されるかもしれない。以下の形態の文脈自由文法が、タスク独立のコーパスの分析(パージング)中使用することができる。
【0053】
【表4】
【0054】
しかし、タスク独立のコーパスには、「ジョー フライデイ」と呼ばれる人への参照が含まれるかもしれない。この例で「フライデイ」を姓とし、かつ曜日と分析されるというNグラムモデルにおいてエラーを招くであろう事態を避けるため、複数の文脈自由文法は以下の形態
【0055】
【表5】
【0056】
の文脈自由文法を含むことができる。
【0057】
この方法では、週のうちの曜日というインスタンスは、「フライデイ」が個別の姓である場合のインスタンスから区別されて特定されるであろう。
【0058】
ステップ184は、複数の文脈自由文法によってタスク独立のコーパスを分析し、各々の意味上または構文上の概念に対し、ワードオカレンスを特定することを示している。目的のアプリケーションに関する概念を表すノンターミナルに対し特定されたワードオカレンスの各々は、ステップ186において、対応する文脈自由文法によって定められた対応するノンターミナルトークンに置き換えられる。換言すれば、分析中のエラー(例えば、上記の例では<Person With Last Name Friday>)を回避するため導入された異質なノンターミナルで特定された単語シーケンスは対応するノンターミナルとは置き換えられない。Nグラムモデルは、ステップ188に示すように組み込まれたノンターミナルトークンをもって、構築することができる。ステップ190は、ステップ170に類似しており、選択されたアプリケーションに適した文脈自由文法の第2のセットを取得することを含む。
【0059】
言語処理、例えば音声認識中に使用された場合、ノンターミナルトークンをもつNグラムモデルおよびタスク依存のプリケーションに関連した複数の文脈自由文法は音声認識モジュール100がアクセスすることができるコンピュータ読み取り可能な媒体上に格納される。しかし、以上の文脈自由文法は、タスク独立のコーパスを正式に分析するためにのみ使用されることから、所望のタスク依存の意味上または構文上の概念の一つに対し誤る可能性のあるフレーズに関連した文脈自由文法を含む必要はない。これらの文法に関連したフレーズが、選択されたアプリケーションにおいて話されることは普通ない。したがって、複数の文脈自由文法の範囲またはサイズは、音声認識中ではより小さくなり、これに対応して、コンピュータ50で必要とされる記憶空間はタスク独立のコーパスを分析するために使用されるよりも小さくなる。
【0060】
一実施形態では、Nグラムモデルを構築するステップ188には、所望であるタスク依存の意味上または構文上の概念の一つについて誤りを許容する、少なくともいくつかの関連するテキストをノンターミナルトークンのためのタスク独立のコーパスから除去することが含まれる。この方法では、タスク独立のコーパスのサイズをパージングされる前に縮小させ、メソッド180がより早く実行することができるようにする。
【0061】
メソッド180には、所望であるタスク依存の意味上または構文上の概念の一つについてなされたフレーズ(単語または複数の単語)のための誤りを確認するため、パージングされたタスク独立のコーパスまたは結果得られたNグラムモデルを検査する追加のステップが含まれることにも留意すべきである。次いで、正式な文脈自由文法が決定され、ステップ182における複数の文脈自由文法に含まれる。パージングされたタスク独立のコーパスまたはNグラムモデルを再検査するために必要なものとして、184から188までのステップを実施し、誤りが訂正されたか否かを確かめることができる。必要であれば誤りが訂正され、適切なNグラムモデルが得られるまで、このインタラクティブなプロセスを繰り返すことができる。
【0062】
上記で検討したように、タスク独立のコーパスは汎用的なコーパスであり、事実、ほとんどのコーパスは、開発者が注目するタスクやアプリケーションには無関係であると思われる。それにもかかわらず、タスク独立のコーパスには、タスクまたはアプリケーションに関連するテキストが含まれるかもしれない。一般的に、本発明の他の形態には、情報検索システムにおいてクエリとして使用することができるフレーズ、文章または文章の一部分を形成するため、タスク依存の文脈自由文法を用いることが含まれる。情報検索システムは、タスク独立のコーパスを調べ、このクエリに類似する部分を特定する。タスク独立のコーパスのうちの特定されたテキストは、選択されたタスクまたはアプリケーションにより密接に関連する;したがって、特定されたテキストから導き出された言語モデルは、完全なタスク独立のコーパスに基づいた言語モデルよりも明確でありえる。加えて、たとえ明確なタスクまたはアプリケーションを知るものが文脈自由文法を記述しても、そのタスク又はアプリケーションために使用することができる種々の単語シーケンスの全ては知らないかもしれない。この手法は、タスク独立のコーパスの範囲を限定するが、タスクを特定した文章やフレーズなどのさらに多くの例を特定することができる。
【0063】
図7は、上で検討した仕方でタスク独立のコーパスから言語モデルを生成するための方法200を示している。ステップ202には、選択されたアプリケーションの意味上または構文上の概念を表しているノンターミナルトークンを備えた複数の文脈自由文法を取得することが含まれる。上述のように、普通、文脈自由文法は、意味上または構文上の概念の各々に対し選択されたアプリケーションの中では、どんなフレーズが使用されるかという知識を少なくともいくつかは持っている開発者により記述されるが、このようなフレーズについての知識量は申し分ないものではない。ステップ204において、単語フレーズは複数の文脈自由文法から生成される。単語フレーズには、ノンターミナルトークンが複数の単語を含む、関連する文脈自由文法によって定められた種々の組み合わせまたは置き換えのいくつかまたは全部が含まれる。
【0064】
ステップ206において、少なくとも一つのクエリが、生成された単語フレーズのうちの少なくとも一つを用いて、情報検索システムのために公式化される。このクエリは、TF−IDFベクトルを使用する統計的「単語の集合」(“bag of words”)手法を用いて生成することができる。クエリとタスク独立のコーパスのセグメントとの類似性は、コサインシミラリティメジャー(cosine similarity measure)を用いて、計算することができる。一般に、これらは、情報検索の分野でよく知られた手法である。これに替えて、クエリは、単語フレーズを組み合わせるために必要とされる(“and”や“or”などの)ブール論理を含むことができる。しかし、本技術分野の精通者に理解されるように、各クエリは、単に、分離した単語フレーズとすることができる。
【0065】
ステップ208において、タスク独立のコーパスは、公式化されたクエリに基づいて照会される。タスク独立のコーパスに対してクエリを生成し実行するための特定の情報検索手法は、本発明の本実施形態では重要ではない。むしろ、任意の適切なクエリ開発と情報検索手法を用いることができる。本発明の手法にしたがって、特定されたテキストから生成された言語モデルは、タスク独立のコーパスのより密接に関連したテキストを特定する情報検索手法によって、さらにうまく動作することを簡単に指摘しておくべきである。
【0066】
タスク独立のコーパスにおいて特定されるテキストが、ステップ210に示される。言語モデルは、ステップ212に示すように特定されたテキストを用いて組み立てることができる。
【0067】
ここで、図7に示された方法は、統一化された言語モデルにも、あるいはNグラムにさえ限定されないが、というよりもむしろ、そのモデルがタスク独立のコーパスに基づいている言語処理システムにおいて用いられる、いかなるタイプの言語モデルを形成するときにも役立ち得るということに留意すべきである。とはいっても、方法200は、Nグラムモデルを構築する際には特に有用である。Nグラム言語モデルまたはハイブリッドNグラム言語モデルの場合には、ステップ212は、通常Nグラムアルゴリズムを使用する必要があるであろう。
【0068】
図8は、図7の方法200に類似する方法220を示し、同様のステップを識別するために同じ符号を付した。しかし、方法220は、文脈自由文法のノンターミナルトークンをもって、Nグラム言語モデルを生成するために使用することができる。上述のステップに加えて、方法220にはまた、ステップ222に示すように、各意味上または構文上の概念に対しワードオカレンスを特定するため、複数の文脈自由文法を持つタスク独立のコーパスの特定されたテキストをパージングすることが含まれる。次に、ステップ224には、特定されたワードオカレンスの各々を選択されたノンターミナルに対応するノンターミナルトークンで置き換えることが含まれる(すなわち、パージング中の誤りを回避するために導入されたノンターミナルを除去する)。ステップ212には、ノンターミナルトークンをもって、Nグラムモデルを組み立てることが含まれる。方法200および220の双方において、関連するテキストがタスク独立のコーパスの中で特定される。必要ならば、特定されたテキストは、関連するテキストを分離し、より容易な処理を提供する際の補助として、抽出され、コピーされ、さもなければタスク独立のコーパスとは別に記憶することができる。
【0069】
図9は、本発明の他の実施形態を示すブロック図である。一般に、本実施形態には、文脈自由文法より得られた単語フレーズからNグラム言語モデルを形成し、このNグラム言語モデルを、タスク独立のコーパスに基づいた他のNグラム言語モデルに組み合わせることが含まれる。図9に示された実施例において、ブロック240は、選択されたタスクまたはアプリケーションについて取得された(例えば、開発者により著された)文脈自由文法を表している。文脈自由文法は、方法200または220のステップ204と類似する仕方で、合成されたデータまたは単語フレーズ242を生成するため用いられる。次に、単語フレーズ242は、Nグラムアルゴリズム244に提供され、第1のNグラム言語モデル244が構築される。
【0070】
図9はまた、ブロック図の形式でステップ206、208および210を示しており、ここで、文脈自由文法は、少なくとも一つのフレーズから情報検索クエリを公式化するために使用され、公式化されたクエリに基づいてタスク独立のコーパスを検索し、クエリに基づきタスク独立のコーパスの中で関連するテキストを特定し、および特定されたテキストから第2のNグラム言語モデルを構築する。ブロック248は、第2のNグラム言語モデル250を得るためのNグラムアルゴリズムのアプリケーションを示している。
【0071】
第3のNグラム言語モデル252は、第1のNグラム言語モデル246と第2のNグラム言語モデルを組み合わせて形成される。この組み合わせは、任意の既知のスムージング手法、例えば内挿法、削除補間法または任意の他の適当な手法を用いて実施される。必要であれば、第2の言語モデルは、特定されたテキストが正確であると信じるに足るか否かに基づいて重み付けすることができる。重み付けは、タスク独立のコーパスの中で特定されたテキストの量や使用されたクエリの数などに基づくことができる。
【0072】
他の実施例では、意味上または構文上の概念を表現するノンターミナルトークンは、特定されたテキストまたはタスク独立のコーパスに挿入し、第2のNグラム言語モデルにノンターミナルトークンを含めることができる。このオプションは、ブロック264への断続線と矢印266および268で示される。もちろん、このオプションが選ばれた場合、特定されたテキスト210は、直接Nグラムアルゴリズム248にではなく、むしろブロック264に提供されるであろう。特定されたテキストあるいはタスク独立のコーパスに挿入されたノンターミナルトークンは、ブロック240において取得された文脈自由文法、またはこれと替えて、上で検討した理由で他の文脈自由文法を含む文脈自由文法の別のセット270に基づくことができる。第3のNグラム言語モデルがノンターミナルを持って構築されたとき、一般に、ブロック242における単語フレーズまたは合成データにはまた、同様にノンターミナルも含まれる。
【0073】
文脈自由文法が合成データを生成するため用いられた場合、単語フレーズがノンターミナルおよびノンターミナルのターミナルによって形成される確率は、必要に応じ選択される;例えば、各々を等しい確率とすることができる。
【0074】
タスク独立の統一化された言語モデルには、Nグラムにおける組み込み型文脈自由文法のノンターミナルトークンに加えて、ノンターミナルトークンを定める複数の文脈自由文法が含まれる。各文脈自由文法内では、標準の確率文脈自由文法が使用される。しかし、特定のタスクまたはアプリケーションに関連する実データなければ、簡単に各ターミナルの確率の見積もりを決定することはできない。換言すると、開発者は、複数の文脈自由文法を著すか、さもなければ取得することができる;しかし、各ターミナルの確率の見積もりは、容易には分からないかもしれない。たとえ、一様な確率の配分が用いられても、本発明の別の形態には、少なくともいくつかの文脈自由文法のターミナルに確率を、対応するタスク独立のコーパスにより構築されたNグラム言語モデルから同じターミナルに対し取得された確率の関数として割り当てることが含まれる。文脈自由文法のターミナルへの確率の割当には、各文脈自由文法におけるNグラム言語モデルからのターミナルの確率を、対応する文脈自由文法におけるターミナルの関数として正規化することが含まれるのが望ましい。換言すれば、文脈自由文法は、Nグラム言語モデルからのターミナルの認められるセットを拘束しまたは定める。したがって、Nグラム言語モデルからのターミナルの確率は、対応する文脈自由文法においてあらわされたターミナルと同じ確率空間において、適切に正規化される必要がある。
【0075】
【外1】
【0076】
【数4】
【0077】
である。
【0078】
【外2】
【0079】
【数5】
【0080】
ここで、</s>は、専用の文末の単語を表している。文脈自由文法のノンターミナル内で履歴を付与された単語の可能性を計算するため、3つの異なった方法が用いられる。
【0081】
【外3】
【0082】
【数6】
【0083】
一様なモデルでは、文脈自由文法のノンターミナルの下での経験上の単語の配分は獲得されない。既存のドメイン独立の単語の3−グラム確率を継承することがよりよい代替手段である。これらの確率は、同一の確率空間に適切に正規化されなければならない。本手法を示すため単語の3−グラムモデルを使用したとしても、いかなる単語ベースの言語モデルを、異なるNによる単語レベルのNグラムを含め、ここでは使用することができることに留意すべきである。また、本手法は単語の言語モデルがどのようにトレーニングされるか(特に、タスク独立のコーパスまたはタスク依存のコーパスのいずれを用いるか)にかかわらず適用することができる。これによって、得られる:
【0084】
【数7】
【0085】
特定のCFGのノンターミナルによってカバーされる単語シーケンスのモデル化を改善する別の方法は、各ノンターミナルtに対し特定の単語の3−グラム言語モデルP(wn|wn-2,wn-1)を用いることである。式(7)におけると同一のものが正規化を実施される。
【0086】
自然言語があいまいであるため、Wに対して複数のセグメンテーションが可能となるかも知れない。したがって,Wの可能性は、全てのセグメンテーションに渡る合計値S(W)である:
【0087】
【数8】
【0088】
本発明は、好ましい実施例に関して記述してきたが、本発明の精神と範囲内から出発することなく形式的、詳細な部分に変更を加えることができることが、本技術分野に精通した者には理解されるであろう。
【図面の簡単な説明】
【図1】 言語処理システムのブロック図である。
【図2】 例示のコンピュータ環境のブロック図である。
【図3】 例示の音声認識システムのブロック図である。
【図4】 統一化された言語モデルを模式的に示す図である。
【図5】 本発明の異なる形態についてのフローチャートである。
【図6】 本発明の異なる形態についてのフローチャートである。
【図7】 本発明の異なる形態についてのフローチャートである。
【図8】 本発明の異なる形態についてのフローチャートである。
【図9】 本発明の他の形態のブロック図である。
Claims (4)
- 選択されたアプリケーションのためのタスク依存の統一化された言語モデルを、タスク独立のコーパスから生成し、該タスク依存の統一化された言語モデルは、言語処理システムにおいて使用するために存在し、Nグラムモデル中の組み込み型の文脈自由文法のノンターミナルトークンを有している方法であって、プロセッサに、
前記選択されたアプリケーションの意味上または構文上の概念を表すノンターミナルトークンを含む第1の複数の文脈自由文法を取得するステップであって、該複数の文脈自由文法の各々は、意味上または構文上の概念を形成するために、前記タスク独立のコーパス中に現存する単語を有する、ステップと、
前記第1の複数の文脈自由文法によって前記タスク独立のコーパスをパージングして前記意味上または構文上の概念の各々の単語と一致する単語を特定するステップと、
当該特定された単語の各々を、前記特定された単語に対応するノンターミナルトークンで置き換えるステップと、
当該置き換えられたノンターミナルトークンを有するNグラムモデルを構築するステップと、
当該構築されたNグラムモデルのノンターミナルトークンを用いて、前記第1の複数の文脈自由文法とは異なる複数の文脈自由文法を格納した記憶部を検索することにより、前記第1の複数の文脈自由文法に含まれるノンターミナルトークンと同一の意味上または構文上の概念を表すノンターミナルトークンの少なくとも1つを備えた第2の複数の文脈自由文法を取得するステップと
を実行させることを特徴とする方法。 - 前記ノンターミナルトークンを有する前記Nグラムモデルと、タスク依存の意味上または構文上の概念を表すノンターミナルトークンを有する前記第2の複数の文脈自由文法とをコンピュータ読み取り可能な媒体上に記憶するステップを前記プロセッサにさらに実行させることを特徴とする請求項1に記載の方法。
- 言語処理システムのためのタスク依存の統一化された言語モデルを構築するための方法を実行するためのコンピュータ読み取り可能な命令を格納したコンピュータ読み取り可能な媒体において、前記方法は、
前記選択されたアプリケーションの意味上または構文上の概念を表すノンターミナルトークンを含む第1の複数の文脈自由文法にアクセスするステップであって、該複数の文脈自由文法の各々は、前記タスク独立のコーパスに現存する単語を有し、意味上または構文上の概念を形成するステップと、
前記第1の複数の文脈自由文法によって前記タスク独立のコーパスをパージングして、意味上または構文上の概念の各々の単語と一致する単語を特定するステップと、
当該特定された単語の各々を、前記特定された単語に対応するノンターミナルトークンで置き換えるステップと、
当該置き換えられたノンターミナルトークンを有するNグラムモデルを構築するステップと、
当該構築されたNグラムモデルと、前記第1の複数の文脈自由文法に含まれるノンターミナルトークンと同一の意味上または構文上の概念を表すノンターミナルトークンの少なくとも1つを備えた第2の複数の文脈自由文法とを記憶するステップであって、前記第2の複数の文脈自由文法は、当該構築されたNグラムモデルのノンターミナルトークンを用いて、前記第1の複数の文脈自由文法とは異なる複数の文脈自由文法を格納した記憶部を検索することにより取得される、ステップと
を備えることを特徴とするコンピュータ読み取り可能な媒体。 - 前記方法は、前記ノンターミナルトークンを有する前記Nグラムモデルと、タスク依存の意味上または構文上の概念を表すノンターミナルトークンを有する前記第2の複数の文脈自由文法とをコンピュータ読み取り可能な媒体上に記憶するステップをさらに含むことを特徴とする請求項3に記載のコンピュータ読み取り可能な媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/585,298 US7031908B1 (en) | 2000-06-01 | 2000-06-01 | Creating a language model for a language processing system |
US09/585,298 | 2000-06-01 | ||
PCT/US2001/016851 WO2001093246A2 (en) | 2000-06-01 | 2001-05-23 | Creating a unified task dependent language models with information retrieval techniques |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011203218A Division JP5162697B2 (ja) | 2000-06-01 | 2011-09-16 | 情報検索手法による統一化されたタスク依存の言語モデルの生成 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003535410A JP2003535410A (ja) | 2003-11-25 |
JP2003535410A5 JP2003535410A5 (ja) | 2008-07-17 |
JP5099953B2 true JP5099953B2 (ja) | 2012-12-19 |
Family
ID=24340846
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002500373A Expired - Fee Related JP5099953B2 (ja) | 2000-06-01 | 2001-05-23 | 情報検索手法による統一化されたタスク依存の言語モデルの生成 |
JP2011203218A Expired - Fee Related JP5162697B2 (ja) | 2000-06-01 | 2011-09-16 | 情報検索手法による統一化されたタスク依存の言語モデルの生成 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011203218A Expired - Fee Related JP5162697B2 (ja) | 2000-06-01 | 2011-09-16 | 情報検索手法による統一化されたタスク依存の言語モデルの生成 |
Country Status (7)
Country | Link |
---|---|
US (2) | US7031908B1 (ja) |
EP (1) | EP1290676B1 (ja) |
JP (2) | JP5099953B2 (ja) |
AT (1) | ATE343198T1 (ja) |
AU (1) | AU2001274936A1 (ja) |
DE (1) | DE60123952T2 (ja) |
WO (1) | WO2001093246A2 (ja) |
Families Citing this family (110)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US8793160B2 (en) | 1999-12-07 | 2014-07-29 | Steve Sorem | System and method for processing transactions |
US7243069B2 (en) * | 2000-07-28 | 2007-07-10 | International Business Machines Corporation | Speech recognition by automated context creation |
US7275033B1 (en) * | 2000-09-30 | 2007-09-25 | Intel Corporation | Method and system for using rule-based knowledge to build a class-based domain specific statistical language model |
US7346495B1 (en) * | 2000-09-30 | 2008-03-18 | Intel Corporation | Method and system for building a domain specific statistical language model from rule based grammar specifications |
US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US8020754B2 (en) | 2001-08-13 | 2011-09-20 | Jpmorgan Chase Bank, N.A. | System and method for funding a collective account by use of an electronic tag |
US7716207B2 (en) * | 2002-02-26 | 2010-05-11 | Odom Paul S | Search engine methods and systems for displaying relevant topics |
US7340466B2 (en) * | 2002-02-26 | 2008-03-04 | Kang Jo Mgmt. Limited Liability Company | Topic identification and use thereof in information retrieval systems |
US20060004732A1 (en) * | 2002-02-26 | 2006-01-05 | Odom Paul S | Search engine methods and systems for generating relevant search results and advertisements |
FR2841355B1 (fr) | 2002-06-24 | 2008-12-19 | Airbus France | Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef |
US20040122736A1 (en) | 2002-10-11 | 2004-06-24 | Bank One, Delaware, N.A. | System and method for granting promotional rewards to credit account holders |
WO2004049192A2 (en) * | 2002-11-28 | 2004-06-10 | Koninklijke Philips Electronics N.V. | Method to assign word class information |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US7328147B2 (en) | 2003-04-03 | 2008-02-05 | Microsoft Corporation | Automatic resolution of segmentation ambiguities in grammar authoring |
AU2003902020A0 (en) * | 2003-04-29 | 2003-05-15 | Telstra New Wave Pty Ltd | A process for grammatical inference |
US7197457B2 (en) * | 2003-04-30 | 2007-03-27 | Robert Bosch Gmbh | Method for statistical language modeling in speech recognition |
US7603267B2 (en) * | 2003-05-01 | 2009-10-13 | Microsoft Corporation | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system |
JP2004334193A (ja) * | 2003-05-01 | 2004-11-25 | Microsoft Corp | 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US8306907B2 (en) | 2003-05-30 | 2012-11-06 | Jpmorgan Chase Bank N.A. | System and method for offering risk-based interest rates in a credit instrument |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US7640159B2 (en) * | 2004-07-22 | 2009-12-29 | Nuance Communications, Inc. | System and method of speech recognition for non-native speakers of a language |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US8335688B2 (en) * | 2004-08-20 | 2012-12-18 | Multimodal Technologies, Llc | Document transcription system training |
US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US20130304453A9 (en) * | 2004-08-20 | 2013-11-14 | Juergen Fritsch | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech |
US7584103B2 (en) * | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
US20060253273A1 (en) * | 2004-11-08 | 2006-11-09 | Ronen Feldman | Information extraction using a trainable grammar |
US8229737B2 (en) * | 2004-11-23 | 2012-07-24 | International Business Machines Corporation | Name classifier technique |
US20070005597A1 (en) * | 2004-11-23 | 2007-01-04 | Williams Charles K | Name classifier algorithm |
US7242751B2 (en) * | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7401731B1 (en) | 2005-05-27 | 2008-07-22 | Jpmorgan Chase Bank, Na | Method and system for implementing a card product with multiple customized relationships |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
US8924212B1 (en) * | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
WO2007064639A2 (en) * | 2005-11-29 | 2007-06-07 | Scientigo, Inc. | Methods and systems for providing personalized contextual search results |
US8442828B2 (en) * | 2005-12-02 | 2013-05-14 | Microsoft Corporation | Conditional model for natural language understanding |
US7835911B2 (en) * | 2005-12-30 | 2010-11-16 | Nuance Communications, Inc. | Method and system for automatically building natural language understanding models |
US8229733B2 (en) * | 2006-02-09 | 2012-07-24 | John Harney | Method and apparatus for linguistic independent parsing in a natural language systems |
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US8032375B2 (en) * | 2006-03-17 | 2011-10-04 | Microsoft Corporation | Using generic predictive models for slot values in language modeling |
US7689420B2 (en) * | 2006-04-06 | 2010-03-30 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
US20070239453A1 (en) * | 2006-04-06 | 2007-10-11 | Microsoft Corporation | Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances |
EP2013791A4 (en) * | 2006-05-04 | 2011-04-20 | Jpmorgan Chase Bank Na | SYSTEM AND METHOD FOR RESOLUTION AND FILTERING SERVICES OF LIMITED PARTICIPANTS |
US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
US20070299665A1 (en) | 2006-06-22 | 2007-12-27 | Detlef Koll | Automatic Decision Support |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US8346555B2 (en) * | 2006-08-22 | 2013-01-01 | Nuance Communications, Inc. | Automatic grammar tuning using statistical language model generation |
US8401841B2 (en) * | 2006-08-31 | 2013-03-19 | Orcatec Llc | Retrieval of documents using language models |
KR100822670B1 (ko) | 2006-09-27 | 2008-04-17 | 한국전자통신연구원 | 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치 |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8204738B2 (en) * | 2006-11-03 | 2012-06-19 | Nuance Communications, Inc. | Removing bias from features containing overlapping embedded grammars in a natural language understanding system |
JP5240457B2 (ja) * | 2007-01-16 | 2013-07-17 | 日本電気株式会社 | 拡張認識辞書学習装置と音声認識システム |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7809719B2 (en) * | 2007-02-08 | 2010-10-05 | Microsoft Corporation | Predicting textual candidates |
US7912700B2 (en) * | 2007-02-08 | 2011-03-22 | Microsoft Corporation | Context based word prediction |
US8135578B2 (en) | 2007-08-24 | 2012-03-13 | Nuance Communications, Inc. | Creation and use of application-generic class-based statistical language models for automatic speech recognition |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9129601B2 (en) | 2008-11-26 | 2015-09-08 | At&T Intellectual Property I, L.P. | System and method for dialog modeling |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8515734B2 (en) * | 2010-02-08 | 2013-08-20 | Adacel Systems, Inc. | Integrated language model, related systems and methods |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US8655647B2 (en) * | 2010-03-11 | 2014-02-18 | Microsoft Corporation | N-gram selection for practical-sized language models |
US8725766B2 (en) * | 2010-03-25 | 2014-05-13 | Rovi Technologies Corporation | Searching text and other types of content by using a frequency domain |
KR101196935B1 (ko) * | 2010-07-05 | 2012-11-05 | 엔에이치엔(주) | 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템 |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
US8959102B2 (en) | 2010-10-08 | 2015-02-17 | Mmodal Ip Llc | Structured searching of dynamic structured document corpuses |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
US8990070B2 (en) * | 2011-11-18 | 2015-03-24 | International Business Machines Corporation | Computer-based construction of arbitrarily complex formal grammar expressions |
US9002772B2 (en) | 2011-11-18 | 2015-04-07 | International Business Machines Corporation | Scalable rule-based processing system with trigger rules and rule evaluator |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9361363B2 (en) * | 2012-12-31 | 2016-06-07 | Facebook, Inc. | Modifying structured search queries on online social networks |
US10235358B2 (en) | 2013-02-21 | 2019-03-19 | Microsoft Technology Licensing, Llc | Exploiting structured content for unsupervised natural language semantic parsing |
WO2014189399A1 (en) | 2013-05-22 | 2014-11-27 | Axon Doo | A mixed-structure n-gram language model |
US9251135B2 (en) * | 2013-08-13 | 2016-02-02 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
US9400783B2 (en) * | 2013-11-26 | 2016-07-26 | Xerox Corporation | Procedure for building a max-ARPA table in order to compute optimistic back-offs in a language model |
US10073840B2 (en) | 2013-12-20 | 2018-09-11 | Microsoft Technology Licensing, Llc | Unsupervised relation detection model training |
US9286892B2 (en) | 2014-04-01 | 2016-03-15 | Google Inc. | Language modeling in speech recognition |
US9665560B2 (en) * | 2014-04-15 | 2017-05-30 | Oracle International Corporation | Information retrieval system based on a unified language model |
US9437189B2 (en) * | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
WO2016044290A1 (en) | 2014-09-16 | 2016-03-24 | Kennewick Michael R | Voice commerce |
US9898459B2 (en) * | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9864741B2 (en) * | 2014-09-23 | 2018-01-09 | Prysm, Inc. | Automated collective term and phrase index |
US9767091B2 (en) * | 2015-01-23 | 2017-09-19 | Microsoft Technology Licensing, Llc | Methods for understanding incomplete natural language query |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US11262909B2 (en) | 2016-06-02 | 2022-03-01 | Myscript | System and method for input recognition linguistic resource management |
US10120861B2 (en) * | 2016-08-17 | 2018-11-06 | Oath Inc. | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time |
US10949620B2 (en) * | 2016-10-06 | 2021-03-16 | University Of Massachusetts | Methods for automated controversy detection of content |
US11138506B2 (en) | 2017-10-10 | 2021-10-05 | International Business Machines Corporation | Abstraction and portability to intent recognition |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11521098B2 (en) | 2018-03-28 | 2022-12-06 | University Of Massachusetts | Modeling controversy within populations |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
CN110046350B (zh) * | 2019-04-12 | 2023-04-07 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US641431A (en) * | 1899-07-22 | 1900-01-16 | George Smith Bowers | Acetylene-generator. |
US4831550A (en) | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
DE3723078A1 (de) | 1987-07-11 | 1989-01-19 | Philips Patentverwaltung | Verfahren zur erkennung von zusammenhaengend gesprochenen woertern |
DE3739681A1 (de) | 1987-11-24 | 1989-06-08 | Philips Patentverwaltung | Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens |
US4984178A (en) * | 1989-02-21 | 1991-01-08 | Texas Instruments Incorporated | Chart parser for stochastic unification grammar |
US5263117A (en) | 1989-10-26 | 1993-11-16 | International Business Machines Corporation | Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer |
US5477451A (en) | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5502774A (en) | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
US5625554A (en) * | 1992-07-20 | 1997-04-29 | Xerox Corporation | Finite-state transduction of related word forms for text indexing and retrieval |
US5384892A (en) | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
EP0645757B1 (en) | 1993-09-23 | 2000-04-05 | Xerox Corporation | Semantic co-occurrence filtering for speech recognition and signal transcription applications |
US5615296A (en) | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5675819A (en) | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5752052A (en) | 1994-06-24 | 1998-05-12 | Microsoft Corporation | Method and system for bootstrapping statistical processing into a rule-based natural language parser |
US5689617A (en) | 1995-03-14 | 1997-11-18 | Apple Computer, Inc. | Speech recognition system which returns recognition results as a reconstructed language model with attached data values |
IT1279171B1 (it) | 1995-03-17 | 1997-12-04 | Ist Trentino Di Cultura | Sistema di riconoscimento di parlato continuo |
US5710866A (en) | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5680511A (en) | 1995-06-07 | 1997-10-21 | Dragon Systems, Inc. | Systems and methods for word recognition |
US5899973A (en) | 1995-11-04 | 1999-05-04 | International Business Machines Corporation | Method and apparatus for adapting the language model's size in a speech recognition system |
US5913193A (en) | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
US5937384A (en) | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US5835888A (en) | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
US5963903A (en) | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
US5905972A (en) | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US5819220A (en) | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
US5829000A (en) | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
JP3027543B2 (ja) * | 1996-12-11 | 2000-04-04 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 連続音声認識装置 |
EP0849723A3 (en) * | 1996-12-20 | 1998-12-30 | ATR Interpreting Telecommunications Research Laboratories | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition |
GB9701866D0 (en) | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
DE19708183A1 (de) | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
US6032111A (en) * | 1997-06-23 | 2000-02-29 | At&T Corp. | Method and apparatus for compiling context-dependent rewrite rules and input strings |
US6073091A (en) | 1997-08-06 | 2000-06-06 | International Business Machines Corporation | Apparatus and method for forming a filtered inflected language model for automatic speech recognition |
US6154722A (en) | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
US6182039B1 (en) | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6418431B1 (en) | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
US6141641A (en) | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
US6188976B1 (en) | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
US6081799A (en) | 1999-05-05 | 2000-06-27 | International Business Machines Corporation | Executing complex SQL queries using index screening for conjunct or disjunct index operations |
-
2000
- 2000-06-01 US US09/585,298 patent/US7031908B1/en not_active Expired - Fee Related
-
2001
- 2001-05-23 WO PCT/US2001/016851 patent/WO2001093246A2/en active IP Right Grant
- 2001-05-23 JP JP2002500373A patent/JP5099953B2/ja not_active Expired - Fee Related
- 2001-05-23 AT AT01941597T patent/ATE343198T1/de not_active IP Right Cessation
- 2001-05-23 DE DE60123952T patent/DE60123952T2/de not_active Expired - Lifetime
- 2001-05-23 AU AU2001274936A patent/AU2001274936A1/en not_active Abandoned
- 2001-05-23 EP EP01941597A patent/EP1290676B1/en not_active Expired - Lifetime
-
2006
- 2006-04-11 US US11/401,507 patent/US7286978B2/en not_active Expired - Fee Related
-
2011
- 2011-09-16 JP JP2011203218A patent/JP5162697B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012014189A (ja) | 2012-01-19 |
ATE343198T1 (de) | 2006-11-15 |
EP1290676A2 (en) | 2003-03-12 |
US7286978B2 (en) | 2007-10-23 |
DE60123952T2 (de) | 2007-02-01 |
DE60123952D1 (de) | 2006-11-30 |
WO2001093246A2 (en) | 2001-12-06 |
AU2001274936A1 (en) | 2001-12-11 |
EP1290676B1 (en) | 2006-10-18 |
JP2003535410A (ja) | 2003-11-25 |
WO2001093246A3 (en) | 2002-09-12 |
US7031908B1 (en) | 2006-04-18 |
US20060184354A1 (en) | 2006-08-17 |
JP5162697B2 (ja) | 2013-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5099953B2 (ja) | 情報検索手法による統一化されたタスク依存の言語モデルの生成 | |
US7451089B1 (en) | System and method of spoken language understanding in a spoken dialog service | |
US6865528B1 (en) | Use of a unified language model | |
US8645122B1 (en) | Method of handling frequently asked questions in a natural language dialog service | |
US7869998B1 (en) | Voice-enabled dialog system | |
US7634406B2 (en) | System and method for identifying semantic intent from acoustic information | |
US7529657B2 (en) | Configurable parameters for grammar authoring for speech recognition and natural language understanding | |
US7617093B2 (en) | Authoring speech grammars | |
US5930746A (en) | Parsing and translating natural language sentences automatically | |
US6374224B1 (en) | Method and apparatus for style control in natural language generation | |
US7630892B2 (en) | Method and apparatus for transducer-based text normalization and inverse text normalization | |
US11776533B2 (en) | Building a natural language understanding application using a received electronic record containing programming code including an interpret-block, an interpret-statement, a pattern expression and an action statement | |
US20020123877A1 (en) | Method and apparatus for performing machine translation using a unified language model and translation model | |
EP1475778A1 (en) | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system | |
JPH09505173A (ja) | ルールに基づく自然言語パーザへの統計学的な処理をブートストラップする方法及びシステム | |
JP2003505778A (ja) | 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化 | |
JP2006085160A (ja) | アルファニューメリック概念のための音声認識文法の作成 | |
WO2019169722A1 (zh) | 快捷键识别方法、装置、设备以及计算机可读存储介质 | |
US7328147B2 (en) | Automatic resolution of segmentation ambiguities in grammar authoring | |
JP4653598B2 (ja) | 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム | |
Di Fabbrizio et al. | AT&t help desk. | |
JP5293607B2 (ja) | 略語生成装置およびプログラム、並びに、略語生成方法 | |
JP2005031255A (ja) | 辞書作成装置及び音声認識装置 | |
Collins | Head-driven probabilistic parsing for word lattices | |
Husain et al. | Speech and Language Modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080523 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080523 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080523 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110517 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110817 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120323 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20120621 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120625 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120621 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120723 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120918 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120925 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151005 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5099953 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |