JP2004523004A

JP2004523004A - 階層言語モデル

Info

Publication number: JP2004523004A
Application number: JP2002570227A
Authority: JP
Inventors: エプスタイン、マーク、エドワード
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-03-01
Filing date: 2002-02-28
Publication date: 2004-07-29
Anticipated expiration: 2022-02-28
Also published as: KR100563365B1; EP1366490A2; CN1535460A; CA2437620C; DE60201262D1; US20020123891A1; WO2002071391A2; EP1366490B1; ES2227421T3; ATE276568T1; KR20030076686A; CN1256714C; US6754626B2; JP3940363B2; DE60201262T2; WO2002071391A3; CA2437620A1

Abstract

【課題】文脈モデルの階層を使用して音声をテキストに変換する方法を提供する。
【解決手段】文脈モデルの階層を統計的に平滑化して言語モデルにすることができる。本発明は、複数の文脈モデルを使用してテキストを処理するステップを含むことが可能である。複数の文脈モデルのそれぞれが、複数の文脈モデルの階層におけるノードに対応することが可能である。また、テキストに関連する文脈モデルの少なくとも１つを特定するステップ、およびその特定された少なくとも１つの文脈モデルを使用して後続のユーザの口頭の発話を処理するステップも含まれることが可能である。

Description

【技術分野】
【０００１】
本発明は、音声認識システムおよび対話ベースのシステムの分野に関し、より詳細には、音声をテキストに変換する言語モデルの使用に関する。
【背景技術】
【０００２】
音声認識は、マイクロホンによって受け取られた音響信号が、コンピュータによって１組のテキスト語、数、または記号に変換されるプロセスである。次に、その認識された語を、ドキュメント準備、データ入力、コマンドおよび制御などの目的で様々なコンピュータ・ソフトウェア・アプリケーションにおいて使用することができる。音声認識システムの改良より、ユーザの生産性を高める重要な手立てが提供される。
【０００３】
音声認識システムは、音響信号をモデル化し、分類して、音素と呼ばれる基本言語単位の表現である音響モデルを形成することができる。音響信号を受け取ると、音声認識システムは、その音響信号を解析し、音響信号の中で一続きの音響モデルを特定し、その所与の一続きの音響モデルに対する可能な語の候補リストを導出することができる。
【０００４】
次に、音声認識システムは、言語モデルをガイドとして使用して、可能な語の候補を文脈に応じて解析することができる。具体的には、言語モデルは、文を形成するように語を組み合わせることができる仕方に課せられた制約を表現することができる。言語モデルは、通常、別の語または語群のすぐ隣に現れる語の尤度を表す統計モデルである。言語モデルは、各語に後続して許される語が明示的にリストされる有限状態ネットワークとして規定すること、または文脈依存文法を利用するより高度なやり方で実施することが可能である。その他の例示的な言語モデルには、いずれも当技術分野で周知のｎ−グラム・モデル（n-gram model）および最大エントロピー言語モデルが含まれることが可能であるが、以上には限定されない。言語モデルの一般的な例は、ｎ−グラム・モデルであることが可能である。詳細には、バイグラム（bigram）モデルおよびトライグラム（trigram）モデルが、当技術分野で一般に使用されるｎ−グラム・モデルである。
【０００５】
従来の言語モデルは、訓練テキスト・コーパスの解析から導出することができる。訓練コーパスは、人間の通常の話し方を反映するテキストを含む。訓練コーパスを処理して、音声をテキストに変換するために音声認識システムによって使用される統計言語モデルを決定することができる。音声をテキストに変換することは、音声をデコードするという言い方もされる。そのような方法は、当技術分野で周知であることが理解されよう。例えば、言語モデルのより十分な説明、および言語モデルを構築する方法については、Frederick Jelinek著、「Statistical Methods for Speech Recognition」（TheMIT Press ed. 1997）を参照されたい。現在、当技術分野では、音声認識システムは、言語モデルの組合せを使用してユーザの口頭の発話をテキストに変換することができる。各言語モデルを使用して結果のテキスト・ストリングを決定することができる。各言語モデルからもたらされるテキスト・ストリングに、統計的に重み付けを行って、最も正確な結果、または最も可能性の高い結果を特定することができる。例えば、音声認識システムは、システム内部に含まれる一般的な、つまり汎用の言語モデルを組み込むことができ、それとともに、ユーザによって口述された最初のいくつかの口述セッション、または口述ドキュメントから導出されたユーザ特有の言語モデルも組み込むことができる。一部の音声認識システムは、ユーザが新しいドキュメントを口述する、または新しい口述セッションを開始するにつれ、既存の言語モデルを向上させ続けることができる。したがって、多くの従来の音声認識システムでは、言語モデルは、継続的に更新することができる。
【０００６】
残念ながら、言語モデルが成長し続けるにつれ、主題特有のユーザの口述の重要度が低下する可能性がある。詳細には、より新しい音声セッションの効果が、言語モデル内で増大するデータによって減じられる可能性がある。同様に、主題特有であるか否かにかかわらず、より新しいユーザの口述の重要度が、成長する言語モデル内で低下させられる可能性もある。これは、主に、拡大し続けるデータ・セットによって言語モデルを向上させるのに使用されることが可能な１つの特定のセッションまたはドキュメントの統計上の重要度が減じられる統計言語モデルに関して生じる。この統計上の効果は、例えば、ユーザが、音声認識システムまたは対話ベースのシステムにより馴染み、システムと対話することに慣れるにつれてユーザの音声パターンが変化する場合、相当に大きい可能性がある。具体的には、とりわけ言語モデルに対応するデータ・セット全体を考えると限られた量のデータを生成する可能性がある単一のセッションまたはドキュメントからもたらされる言語モデルの向上は、統計的な音声ベースのシステムの挙動を変更する可能性は低い。したがって、言語モデルは、ユーザの変化する口述スタイルを正確に反映しない可能性がある。
【０００７】
同様な問題が、ユーザが１つまたは複数のシステム・プロンプトに口頭で応答することができる自然言語理解システムなどの対話ベースのシステムのコンテキストにおいても存在する可能性がある。そのようなシステムは、ユーザ応答を処理するための１つまたは複数の言語モデルを含む可能性があるが、不十分な量のデータを使用して特定のプロンプトに適応された言語モデルが構築される可能性がある。したがって、そのような言語モデルは、受け取った音声を正確に処理するには、余りにも特異である可能性がある。具体的には、その言語モデルに、より一般化されたユーザ応答を言語モデルから抽出する能力が欠けている可能性がある。
【非特許文献１】
Frederick Jelinek著、「StatisticalMethods for Speech Recognition」（The MIT Press ed. 1997）
【発明の開示】
【発明が解決しようとする課題】
【０００８】
本明細書で開示する本発明は、文脈モデルの階層を生成し、音声をテキストに変換するためにその文脈モデルを使用する方法に関する。本発明の方法は、音声認識システム内で、また自然言語を理解する対話ベースのシステム内で利用することができる。詳細には、本発明は、異なるユーザ音声セッション、ドキュメント、ドキュメントの部分、またはユーザによる口頭の発話の形態のユーザ応答から複数の文脈モデルを生成することができる。この文脈モデルは、周知の距離測定基準を使用してボトムアップ式に関連するペアに編成する、またはクラスタ化することができる。関連するペアの言語モデルは、ツリー様の構造が構成されるまで、継続的にマージすることができる。文脈モデルのツリー様の構造、つまり文脈モデルの階層は、単一の根底ノードから外に向かって拡張することが可能である。文脈モデルの階層は、削除補間法またはバックオフ法などの当技術分野で周知の技法を使用して、提供されたテキスト・コーパスを使用して補間することができる。留意すべきこととして、本発明は、本明細書で開示する特定の平滑化の技法による限定を受けない。むしろ、当技術分野で周知である任意の適切な平滑化技法を使用することが可能である。
【課題を解決するための手段】
【０００９】
文脈モデルの階層を決定し、平滑化した後、文脈モデルのもたらされた階層を使用して、受け取られたユーザの口頭の発話を処理することができる。１つまたは複数の受け取られたユーザの口頭の発話に対応する文脈モデルの階層内の１つまたは複数の文脈モデルを特定することができる。特定された文脈モデルを使用して、後続の受け取られたユーザの口頭の発話を処理することができる。
【００１０】
本発明の一態様は、文脈モデルの階層を使用して音声をテキストに変換する方法を含むことが可能である。文脈モデルの階層は、統計的に平滑化して言語モデルにすることができる。この方法は、（ａ）複数の文脈モデルの階層内のノードにそれぞれが対応することが可能な複数の文脈モデルを使用してテキストを処理するステップを含むことが可能である。テキストの処理は、逐次に、または並列で行われることが可能である。また、この方法には、（ｂ）受け取られたテキストに関連する文脈モデルの少なくとも１つを特定するステップ、および（ｃ）特定された少なくとも１つの文脈モデルを使用して後続のユーザの口頭の発話を処理するステップも含まれることが可能である。
【００１１】
複数の文脈モデルの少なくとも１つが、ドキュメントまたはドキュメントの一部分、ドキュメントのセクション、対話ベースのシステムにおいて特定の対話状態で受け取られた少なくとも１つのユーザ応答、または対話ベースのシステムにおける特定のトランザクションにおける特定の位置で受け取られた少なくとも１つのユーザ応答に対応することが可能である。さらに、複数の文脈モデルのこの少なくとも１つは、対話ベースのシステム・プロンプトの構文に、特定の既知の対話ベースのシステム・プロンプトに、または受け取られた電子メール・メッセージに対応することが可能である。
【００１２】
本発明の別の実施形態は、文脈モデルの階層を生成する方法を含むことが可能である。その場合、方法は、（ａ）距離測定基準を使用して複数の文脈モデルのそれぞれの間の距離を測定するステップを含むことが可能である。留意すべきこととして、複数の文脈モデルの少なくとも１つが、ドキュメントの一部分、または対話ベースのシステムにおけるユーザ応答に対応することが可能である。また、（ｂ）複数の文脈モデルの他のものより距離がより近いことが可能な複数の文脈モデルの２つを特定するステップも含まれることが可能である。また、（ｃ）特定された文脈モデルをマージして親文脈モデルにするステップも含まれることが可能である。マージするステップ（ｃ）は、特定された文脈モデル間を補間するステップであって、補間により、特定された文脈モデルの結合がもたらされるステップを含むことが可能である。別法として、マージするステップ（ｃ）は、特定された文脈モデルに対応するデータを使用して親文脈モデルを構築するステップを含むことが可能である。また、複数の文脈モデルの階層を生成することができるまで、ステップ（ａ）、（ｂ）、および（ｃ）を繰り返すことができるステップ（ｄ）も含まれることが可能である。その場合、階層は、根底ノードを含むことが可能である。さらに、複数の文脈モデルの階層を統計的に平滑化して、言語モデルをもたらすことも可能である。例えば、削除補間法、バックオフ法、または別の適切な平滑化などの当技術分野において知られている技法を使用して、控えられたテキスト・コーパスを使用して文脈モデルの階層を補間することができる。
【００１３】
複数の文脈モデル、または初期文脈モデルは、音声セッション、ドキュメント・テンプレート、ドキュメント、ならびに段落などのドキュメントの部分、またはドキュメントのセクションなどの１つまたは複数の部分に細分することができるドキュメントの任意の部分から構築することができる。自然言語理解システムなどの対話ベースのシステムの場合、初期文脈モデルは、様々なシステム・プロンプトのすべて、またはサブセットに対する１つまたは複数のユーザ応答から構築することができる。
【００１４】
次に、現在、好ましいものとされる実施形態を図面に示すが、本発明は、図示する構成および手段そのものに限定されないことを理解されたい。
【発明を実施するための最良の形態】
【００１５】
本明細書で開示する実施形態は、文脈モデルの階層を生成し、音声をテキストに変換するためにその文脈モデルを使用する方法に関する。実施形態の方法は、音声認識システム内、および自然言語を理解する対話ベースのシステム内で利用することができる。詳細には、この実施形態は、異なるユーザ音声セッション、ドキュメント、ドキュメントの部分、またはユーザの口頭の発話の形態の応答から複数の文脈モデルを生成することができる。この文脈モデルは、周知の距離測定基準を使用してボトムアップ式に関連するペアに編成する、またはクラスタ化することができる。留意すべきこととして、文脈モデルを関連するペアに編成することは、実行時に自動的に、また動的に行うことができる。関連するペアの文脈モデルをマージして親文脈モデルを形成することができる。このプロセスは、ツリー構造に似た文脈モデルの階層が出現するまで繰り返すことができる。階層は、その他のノードが広がる起点の単一の根底ノードを有することが可能である。留意すべきこととして、文脈モデルの階層の各ノードは、文脈モデルに対応することが可能である。本明細書で使用する「文脈モデル」という用語は、単一のドキュメント、ドキュメントの一部分、あるいは自然言語理解（ＮＬＵ）システムの場合、１つまたは複数のユーザの口頭の発話またはユーザ応答から獲得された訓練データから構築された言語モデルを指すことが可能であることが認められよう。
【００１６】
文脈モデルの結果の階層は、削除補間法またはバックオフ法などの当技術分野で周知の技法を使用して、控えられたテキスト・コーパスを使用して補間することができる。留意すべきこととして、本発明は、本明細書で開示する特定の平滑化の技法によって限定されない。むしろ、当技術分野で周知である任意の適切な平滑化技法を使用することができる。
【００１７】
文脈モデルの階層が決定された後、文脈モデルのもたらされた階層を使用してユーザの口頭の発話を処理することができる。詳細には、１つまたは複数の受け取られたユーザの口頭の発話に対応する、またはそれを最も正確に反映する文脈モデルの階層内の特定の文脈モデルを特定することができる。例えば、この実施形態は、文脈モデルの階層を使用して、受け取られたユーザの口頭の発話を処理し、最も高い信頼スコアを有する結果のテキストをもたらす文脈モデルを特定することができる。この実施形態は、後続のユーザの口頭の発話が、前に受け取られたユーザの口頭の発話、または対応する文脈モデルを特定するのに使用された発話の主題と同様の主題を有する可能性があるという仮定で動作することが可能である。したがって、後続のユーザの口頭の発話を特定された文脈モデルを使用して処理して、より高い音声認識システム・パフォーマンスを実現することができる。
【００１８】
留意すべきこととして、文脈モデルの結果の階層、および結果の平滑化された言語モデルにより、後続のユーザの口頭の発話の処理がより一般化されることが可能になる。これは、「訓練不足の」言語モデルがシステム・パフォーマンスに悪影響を与える可能性があるＮＬＵシステムに適用される際、とりわけ有益である可能性がある。具体的には、文脈モデルの平滑化された階層を根底ノードに向かって辿り、文脈モデルがより一般化されるが、依然、文脈依存であるようにすること、またはリーフに向かって辿り、文脈モデルがより特異になるが、依然、文脈依存であるようにすることが可能である。
【００１９】
図１は、本実施形態に関連して使用される通常のコンピュータ・システム１００を描いている。システムは、中央処理装置１１０（ＣＰＵ）と、１つまたは複数のメモリ・デバイス１１５と、関連する回路を含むコンピュータ１０５を含むことが可能である。メモリ・デバイス１１５は、電子ランダム・アクセス・メモリおよび大量データ記憶媒体から構成されることが可能である。また、システムは、適切なインターフェース回路１２５を介してコンピュータ・システムに動作上、結合されたマイクロホン１２０と、システムに動作上、結合されたビデオ・データ端末装置などのオプションのユーザ・インターフェース表示ユニット１３０も含むことが可能である。ＣＰＵは、当分野の技術者には周知のとおり、任意の適切なマイクロプロセッサ、またはその他の電子処理ユニットから構成されることが可能である。スピーカ１３５および１４０、ならびにマウス１４５およびキーボード１５０などのインターフェース・デバイスをシステムが備えていることが可能であるが、本明細書で説明する本発明の動作には必要ない。本明細書で説明するコンピュータ・システムに関する様々なハードウェア要件は、一般に、多くの市販の高速コンピュータのいずれか１つで満たすことができる。
【００２０】
図２は、コンピュータ・システム１００における音声認識システムのための通常のアーキテクチャを示す概略図である。図２に示すとおり、コンピュータ・システム１００のメモリ１１５内に、オペレーティング・システム２００および音声認識エンジン２１０が存在することが可能である。また、音声テキスト・プロセッサ・アプリケーション２２０および音声ナビゲータ・アプリケーション２３０も含まれることが可能である。ただし、本発明は、この点で限定されず、音声認識エンジン２１０は、音声対応であるべき任意の他のアプリケーション・プログラムで使用することができる。図２では、音声認識エンジン２１０、音声テキスト・プロセッサ・アプリケーション２２０、および音声ナビゲータ・アプリケーション２３０を別々のアプリケーション・プログラムとして示している。ただし、本発明は、この点で限定されず、以上の様々なアプリケーション・プログラムは、単一のより複雑なアプリケーション・プログラムとして実装することが可能であることに留意されたい。例えば、音声認識エンジン２１０は、音声テキスト・プロセッサ・アプリケーション２２０と、または音声対応であるべき任意の他のアプリケーションと組み合わせることができる。また、音声テキスト・プロセッサ・アプリケーション２２０および音声認識エンジン２１０と連携して動作させられる他の音声によって制御されるアプリケーション・プログラムが全く存在しない場合、システムは、音声ナビゲータ・アプリケーション２３０なしで動作するように変更することができる。音声ナビゲータ・アプリケーション２３０は、主に、音声認識エンジン２１０の動作を調整するのに役立つ。
【００２１】
前述した構成要素は、コンピュータ・システム１００内部で集中式に実現することができる。別法では、前述した構成要素は、異なる要素がいくつかの互いに接続されたコンピュータ・システムにわたって分散された分散式で実現することができる。いずれにしても、構成要素は、ハードウェアで、ソフトウェアで、またはハードウェアとソフトウェアの組合せで実現することができる。あらゆる種類のコンピュータ・システム、または本明細書で説明する方法を行うために適合されたその他の装置が適している。本明細書で開示するシステムは、使用される特定のオペレーティング・システムに合った市販の開発ツールを使用するプログラマが実施することができる。
【００２２】
この文脈でコンピュータ・プログラム手段またはコンピュータ・プログラムとは、情報処理能力を有するシステムが、直接に、あるいはａ）別の言語、コード、または表記への変換、ｂ）異なる物的形態における再現のいずれかの後、または両方の後、特定の機能を行うようにさせることを目的とする１組の命令の、任意の言語、コード、または表記の任意の表現を意味する。
【００２３】
動作の際、マイクロホン１２０で受け取られたサウンドを表す音声信号が、従来のコンピュータ音声回路を使用してコンピュータ１００内部で処理されて、デジタル化された形態でオペレーティング・システム２００に供与されるようになることが可能である。別法では、音声信号が、別のコンピュータ・システムからコンピュータ通信網を介してアナログ形式またはデジタル形式で受信されること、または電話機などの別の送受デバイスから受信されることが可能である。コンピュータ・システム１００によって受け取られた音声信号は、従来、音声認識機能を行うためにコンピュータ・オペレーティング・システム２００を介して音声認識エンジン２１０に提供される。従来の音声認識システムにおいてと同様に、音声信号が音声認識エンジン２１０によって処理されて、ユーザによってマイクロホン１２０に発せられた語が特定されることが可能である。図３は、音声認識エンジン２１０を構成することが可能な通常の構成要素を示すブロック図である。図３および４に示すとおり、音声認識エンジン２１０は、オペレーティング・システムからデジタル化された音声信号を受け取る。次に、システムは、表現ブロック３１０で、通常、毎１０〜２０ミリ秒である何らかの固定のレートで信号をサンプリングすることにより、有用な１組のデータに変換される。表現ブロックは、音声信号の新しい表現を生成し、次に、この新しい表現を音声認識プロセスの後続の段階で使用して、解析されたばかりの波形の部分が特定の音声上のイベントに対応する確率を判定することができる。このプロセスは、オペレーティング・システムから受け取られた音声信号の知覚上、重要な話者独立の特徴を強調することを目的とする。モデル化／分類ブロック３２０で、アルゴリズムが音声信号をさらに処理して、話者独立の音響モデルを現在の話者の音響モデルに適合させる。最後に、探索ブロック３３０で、探索アルゴリズムを使用して、探索エンジンが音声信号に対応する最も可能性の高い語に誘導される。探索ブロック３３０における探索プロセスは、音響モデル３４０、語彙モデル３５０、および言語モデル３６０の助けを借りて行われる。
【００２４】
言語モデル３６０は、ある語が、シーケンスの中で他の語と一緒に使用されているとき、音声信号に対応する可能な語の数を制限するのに役立つように使用することができる。言語モデルは、各語に続いて許される語が明示的にリストされる有限状態ネットワークとして規定すること、あるいは文脈依存文法を利用するより高度なやり方で実施することが可能である。その他の例示的な言語モデルには、いずれも当技術分野で周知のｎ−グラム・モデル（n-gram model）および最大エントロピー言語モデルが含まれることが可能であるが、以上には限定されない。いずれにしても、特定のユーザのケースで遭遇する可能性が高い音声パターンに関する情報を使用して言語モデルの内容を更新することが、しばしば、望ましい。探索プロセスにより、テキスト出力として最も高い信頼スコアを有する語の候補が決定される。
【００２５】
信頼スコアは、特定の語の候補が対応するユーザの口頭の発話を正確に反映する尤度を反映する。信頼スコアは、音響モデル、語彙モデル、および言語モデルから導出された値であることが可能である。例えば、信頼スコアは、音響モデルを使用して判定された、特定の語の候補がユーザの口頭の発話を表す尤度を、言語モデルを使用して判定された、特定の語の候補が別の語または語群の隣に位置することが可能な確率に加えて、考慮に入れることが可能である。
【００２６】
認識されたテキストは、言語モデル・セッション・マネージャ（ＬＭＳＭ）３８０に提供されることが可能である。結果のテキストが受け取られたユーザの口頭の発話を正確に反映する確率に基づき、ＬＭＳＭ３８０は、後続で受け取られるユーザの口頭の発話を処理するためのより適切な文脈モデルを決定することができる。より具体的には、ＬＭＳＭ３８０は、結果のテキストが受け取られたユーザの口頭の発話を反映する最も高い確率を有することが可能な、テキストを処理するのに使用することができる文脈モデルを特定することができる。したがって、ＬＭＳＭ３８０は、後続で受け取られる音声を処理する際に使用するための適切な文脈モデルを選択することができる。図示するとおり、ＬＭＳＭ３８０は、音声認識システムにフィードバック・パスを提供することができる。
【００２７】
さらに、ＬＭＳＭ３８０は、ドキュメントのセクションを認識することができる。例えば、ＬＭＳＭ３８０は、ドキュメントにおけるカーソルの位置でドキュメントのセクションを特定することができる。ＬＭＳＭ３８０は、序論、背景、またはドキュメントの他の定義可能なセクションなどの異なるドキュメント・セクションの指示を含むことが可能な１つまたは複数のテンプレートを使用してプログラミングすることができる。セクションは、ユーザによって定義されたセクションであること、または主題特有であることが可能である。例えば、セクションは、真または偽のセクション、簡単な答えのセクション、または多項選択式のセクションを含む主題特有の試験であることも、そうでないことも可能なドキュメントの下位部分であることが可能である。具体的には、従来のワードプロセッシング・プログラムは、ドキュメントのセクション分けを提供することができる。
【００２８】
さらに、ＬＭＳＭ３８０は、新しい文脈モデルを構築するように、また文脈モデルの階層を再構築するように、いつ言語モデル・ビルダ（ＬＭＢ）３９０に命令するかを決定するようにプログラミングすることができる。ＬＭＢ３９０は、新しい初期文脈モデルを動的に構築することができ、また文脈モデルの階層を再構築することができる。例えば、初期文脈モデルがドキュメントから構築される場合、ＬＭＳＭ３８０は、いつドキュメント、またはドキュメントの部分が完成して、新しい文脈モデルを構築することができ、また文脈モデルの階層を再構築できるかを判定することができる。より具体的には、ユーザが、ドキュメントを閉じるか、または別の仕方で、ドキュメント、またはドキュメントの一部分の口述を終えたことを音声認識システムに通知すると、ＬＭＳＭ３８０は、文脈モデルの階層を再構築することを始めるようにＬＭＢ３９０に命令することができる。ＬＭＳＭ３８０は、従来のワードプロセッシング・プログラムで使用される様々なテンプレートおよびドキュメント・セクションを使用してプログラミングして、前述したもののいずれかの完了により、文脈モデルの階層が再構築されることがもたらされることが可能であるようにすることができる。例えば、ＬＭＳＭ３８０は、ドキュメント・セクションに対応する文脈モデルを動的に構築し、テキスト編集プログラムのカーソルがドキュメントのそのセクションを離れたとき、文脈モデルの階層を再構築することができる。同様に、文脈モデルが、段落などのドキュメントの部分から構築される場合、段落の完了、例えば、ハードリターン・コマンドにより、最新の段落に含まれるテキストから新しい文脈モデルを構築するようにＬＭＢ３９０に命令するよう、ＬＭＳＭ３８０に知らせることが可能である。次に、ＬＭＢ３９０が、文脈モデルの階層を再構築することができる。前述したとおり、初期文脈モデルは、ドキュメントのテンプレート、ドキュメント、ドキュメントのセクション、またはドキュメントの部分から構築することができる。
【００２９】
図４は、図３のブロック図と同様の、音声認識エンジン２１０を構成することが可能な通常の構成要素を示すブロック図である。ただし、図４は、ＮＬＵシステムを含むことが可能である。具体的には、ＮＬＵシステムは、コンピュータが、人間によって書かれた言語または話された言語からの情報を理解し、抽出することができるようにすることができる。そのようなシステムは、人間の言語を理解する必要が存在する場合に様々な他のコンピュータ・アプリケーションを補完する形で機能することが可能である。ＮＬＵシステムは、テキストに含まれる妥当な情報を抽出した後、その情報を別のアプリケーション・プログラムに供給することができる。
【００３０】
ＮＬＵシステムは、ＬＭＳＭ３８０と通信して、対話ベースのシステムに対する応答としてのユーザの口頭の発話に関連する情報をＬＭＳＭ３８０に提供することができる。そのような情報には、ユーザが関与している特定のトランザクション・タイプ、トランザクションにおけるユーザの位置、特定の対話ベースのシステム・プロンプト、およびプロンプトの構文が含まれることが可能である。例えば、ＮＬＵシステム３９５は、ユーザの口頭の発話が財務システムにおける引出しトランザクションの文脈でアカウント名を求めるプロンプトに応答するものであったという情報をＬＭＳＭに提供することができる。さらに、ＮＬＵシステムは、予期される応答が番号、特定の構文を有する、または特定の主題に関わるテキスト文、あるいは「はい」または「いいえ」タイプのプロンプトであったことをＬＭＳＭに通知することができる。
【００３１】
例えば、初期文脈モデルは、所与の対話の状態、所与のトランザクションの主題、特定のトランザクションにおけるユーザの位置、特定の既知の対話プロンプトに対するユーザ応答、またはユーザが応答している対話プロンプトの構文に関連するユーザ応答から構築することができる。所与の対話の状態は一般に上記の要因の各々に言及することができる。
【００３２】
所与のトランザクションの主題とは、ユーザが要求しているアクションまたはコマンドを指すことが可能である。例えば、財務管理システムでは、トランザクションは、引出し、振替え、預入れ等が含まれることが可能である。旅行システムの文脈では、トランザクションには、フライトの予約をすること、レンタカーを借りること等が含まれることが可能である。トランザクションは、アプリケーション特有であること、およびＮＬＵシステムがインターフェースを提供するシステムに基づくことが可能である。したがって、文脈モデルは、対話ベースのシステムにおけるそれぞれの識別可能な主題に応じて構築することができる。
【００３３】
トランザクションにおける位置は、ユーザ応答に関する文脈情報を提供することが可能である。具体的には、任意の所与のトランザクションが、１つまたは複数のユーザによって指定されたパラメータを必要とすることが可能である。したがって、開始されたトランザクションの特定のタイプに加え、受け取られたパラメータに基づき、音声認識システムは、ユーザが応答した対話ベース・システム・プロンプトそのものを知ることなく、所与のトランザクションにおけるユーザの位置に関する情報だけに基づいて文脈モデルを構築することができる。
【００３４】
文脈モデルは、ユーザ応答から特定の既知の対話ベース・システム・プロンプトに構築することができる。さらに、文脈モデルは、特定の構文を有する問いに対するユーザ応答から構築することができる。例えば、「はい」または「いいえ」のシステム・プロンプトに対するユーザ応答をグループ化して言語モデルを構築することができる。同様に、「誰か」、「何か」、「どこか」、「いつか」、「なぜ」、または「どのように」という問いに対するユーザ応答、ならびに多項選択タイプのプロンプトまたはリスト・タイプのプロンプトに対するユーザ応答をグループ化することができる。
【００３５】
統計的平滑化により、訓練不足に関する問題、つまり少量の訓練データを使用することに関する問題を軽減することができる。さらに、階層構造により、音声認識システムが、文脈依存であり続けるますます一般化されるモデルを使用してユーザの口頭の発話を処理することが可能になる。したがって、ユーザ応答が以前に収集されたデータに適合しない場合、より一般化された文脈モデルを使用してそのユーザ応答を処理することができる。
【００３６】
したがって、ＬＭＢ３９０は、文脈モデル、例えば、初期文脈モデルを動的に構築することができ、それぞれの文脈モデルは、１つまたは複数のユーザ応答のグループ化から構築されることが可能である。また、ＬＭＢ３９０は、対話プロンプトに応答して与えられたユーザの口頭の発話を受け取ったことに応答して文脈モデルの階層を動的に再構築することができる。図４のシステムは、ＮＬＵシステム３９５が、録音を介して、またはテキスト−音声技術を使用して再生されることが可能な対話プロンプトを生成できることで、図３のシステムとはさらに異なっている。
【００３７】
図５は、図３および４の文脈モデル３６０の例示的な階層を描いている。言語モデル３６０は、根底ノードの下に延びる複数のノードＡ、Ｂ、Ｃ、Ｄ、Ｅ、およびＦを有するツリー構造として描かれている。各ノードが、文脈モデルに対応することが可能である。端末ノードとも呼ばれるリーフ・ノードのペア、ＣとＤ、およびリーフ・ノードのペア、ＥとＦが、既知の距離測定基準を使用して関連する文脈モデル・ペアとして特定されることが可能である。例えば、そのような測定基準には、カルバック−ライブラー（Kullback-Liebler）距離、相対的エントロピー、識別能（discrimination）、または発散（divergence）が含まれることが可能であるが、以上には限定されない。いずれにしても、既知の測定基準を使用して文脈モデルの最低レベルをペアにグループ化することができる。ボトムアップ・クラスタ化として知られるこのプロセスを根底ノードが決定されるまで続けることができる。
【００３８】
本発明の別の実施形態では、文脈モデルは、文脈モデルが導出された口述セッションの主題でグループ化することができる。例えば、音声認識システムは、語探索アルゴリズムおよび自然言語技術を使用して所定の主題に従ってそれぞれの個々の文脈モデル（ノード）を分類することができる。それに応じて文脈モデルにタグを付けて、関連する文脈モデルをペアにすることができるようにするだけでなく、音声認識システムが、特定の主題の下に分類される関連する文脈モデルだけをグループ化することができるようにする。別法として、ユーザが、特定の主題分類を定義することが可能である。その場合、ユーザは、音声認識システムが文脈モデルを分類するのに使用することができる一連のキーワードを入力することが可能である。また、音声認識システムは、ユーザが文脈モデルの分類を取り消すことを許すことも可能である。
【００３９】
文脈モデルのグループ化されたペアをマージして親文脈モデルにすることができる。例えば、ノードＡが、マージされた子、リーフ・ノードＣとＤから導出された親であることが可能である。同様に、ノードＢが、子、リーフ・ノードＥとＦから導出することができる親であることが可能である。２つの子ノードをマージして親を形成することは、様々な方法を使用して達することができる。１つのそのような方法が、補間法であることが可能である。例えば、各子ノード文脈モデルを使用して可能な語の候補を処理することができる。次に、２つの可能な結果の句を比較することができ、確率の高い方の結果を選択することができる。具体的には、各文脈モデル結果に関連する確率に重み付け定数を掛けることができる。その場合、例えば、リーフＣに適用される定数とリーフＤに適用される定数は、１という合計を有することが可能である。２つの子ノードをマージして親を形成する別の方法には、各子ノードに対応するデータを使用して、文脈モデルを構築する既知の方法を使用して新しい文脈モデルを構築することが含まれることが可能である。したがって、あるノードにおいて親文脈モデルを構築するのに使用されるデータは、その親の２つの子の合成データであることが可能である。
【００４０】
２つのノードをマージするのに使用される特定の方法にかかわらず、文脈モデルの階層の各レベルで、ペアにされたノードをグループ化すること、およびそのノードをマージして親ノードにすることが、根底ノードに達するまで続けられることが可能である。親ノードＡとＢは、子の共有の特性を含むことが可能である。同様に、根底ノードは、ノードＡおよびＢに対応する文脈モデルである子の共有の特性を含むことが可能である。したがって、文脈モデルの階層は、ユーザの応じた発話スタイルの混合をそれぞれが組み込んだ文脈モデルの取合せを提供する。具体的には、親文脈モデルが合成データを使用して構築される場合、文脈モデルの結果の階層は、単一の階層言語モデルと呼ぶことができる。したがって、最低の文脈モデルが、最も特異なモデルである。特定の文脈モデルが満足の行く信頼スコアをもたらさない場合、より一般化された文脈モデルまでツリーを上昇することができる。
【００４１】
図６は、図１のコンピュータ・システム、および図２の音声認識エンジンを使用して行われる階層文脈モデルを生成する例示的な方法を示す流れ図５００である。この方法は、音声認識システムが、生成される文脈モデル階層の最低の行であるリーフ・ノードＣ、Ｄ、Ｅ、およびＦに関連する文脈モデルなどの複数の文脈モデルを蓄積した状態で開始する。開始文脈モデルである以上の文脈モデルは、用途に応じて異なる。例えば、一般的な口述の場合、音声認識システムは、特定のユーザに対応するそれぞれの以前に口述されたセッション、ドキュメント、ドキュメントの部分、またはドキュメントのセクションに関して新しい文脈モデルを生成することが可能である。
【００４２】
例として、音声認識システムは、特許出願に関する文脈モデルを生成することができる。さらに、音声認識システムは、特許出願の各部分に関する文脈モデルを生成することができる。例えば、様々な特許出願の特許請求の範囲が、要約書、詳細な説明、ならびに発明の概要などの特許出願のその他の部分と同様の特徴を含むことが可能である。したがって、特許出願などのドキュメントの各部分に関して文脈モデルを構築することができる。別の実施形態は、下位部分に関する文脈モデルを構築することを含むことが可能である。例えば、独立請求項に関してある文脈モデルを構築し、従属請求項に関して別の文脈モデルを構築することが可能である。具体的には、ドキュメントの任意の識別可能な部分を使用して対応する文脈モデルを構築することができる。従来のワードプロセッサは、ドキュメントを１つまたは複数のセクションに細分することができる。例えば、これらの細分も、ドキュメントのそれぞれの識別可能な細分に関する文脈モデルを生成するのに使用することができる。
【００４３】
対話システムにおいて使用される文脈モデルの場合、各開始文脈モデルが、その対話システムによって発行される各プロンプトに対する応答である１組の文に対応することが可能である。いずれにしても、開始文脈モデル、つまり階層の最低の行は、文脈モデル間のあらゆる補間に関して、または新しい親文脈モデルのあらゆる後続の構築に関して基礎の役割をすることができる。文脈モデル間の補間と新しい親文脈モデルの構築はともに、結果の文脈モデル階層を構成することが可能である。
【００４４】
音声認識システムは、最新のｎ個の口述セッション、ドキュメント、または特定のユーザに対応する応答の文脈モデルを記憶するように音声認識システムに命令するためのユーザが調整可能なパラメータを含むことが可能である。別法として、音声認識システムは、文脈モデルの特定の主題分類に対応する最新のｎ個の文脈モデルを記憶することができる。例えば、最新のｎ個のビジネス関連文脈モデルを記憶すること、最新のｎ個の私的書簡文脈モデルを記憶すること等が可能である。さらに、パラメータは、ユーザごとに、また主題分類ごとに指定することができる。したがって、ユーザＡは、各主題分類に関するｎの固有値に加え、ｎの全体的な値を決定することができる。また、ユーザＢも、各主題分類に関するｎの相異なる値に加え、ｎの全体的な値も設定することができる。さらに、ユーザＢによって設定されたｎの値は、ユーザＡによって設定されたｎの値とは全く独立であることが可能である。これにより、システムを必要に応じて一般化することが可能になる。
【００４５】
図６の方法５００は、ユーザごとに行うことができる。さらに、図１のコンピュータ・システムが適切な処理能力を有する場合、方法５００は、それぞれの新しいユーザ口述セッション、ドキュメント、またはユーザ応答の開始時に行うことができる。したがって、特定のユーザに対応する文脈モデルの階層を常に更新することができる。別法として、方法５００は、定期的に、またはユーザ要求に応答してオフライン式で、音声認識システムによって自動的に行われることが可能である。
【００４６】
いずれにしても、ステップ５１０で、音声認識システムは、距離測定基準を使用して、関連する各文脈モデルが、特定のユーザに対応するすべての他の文脈モデルにどれだけ近いかを判定することができる。前述したとおり、音声認識システムは、カルバック−ライブラー距離、ならびに関連度または距離の判定に関する各文脈モデルの主題分類を使用することができる。ステップ５１０の完了の後、方法は、ステップ５２０に進むことが可能である。
【００４７】
ステップ５２０で、音声認識システムは、最小距離を有する文脈モデルのペアを特定することができる。ステップ５２０の完了の後、方法は、ステップ５３０に進むことが可能であり、文脈モデルがマージされることが可能である。前述したとおり、文脈モデルを補間によって、または各子文脈モデルのデータを使用することによってマージして、新しい親文脈モデルを構築することができる。文脈モデルがそれぞれのマージされた親において再構築される場合、根底ノードは、単一の言語モデルを使用することに対応する。その場合、階層文脈モデルのノードは、文脈モデルの初期の導出から控えられる、または除外されることが可能なデータを使用して平滑化することができる。したがって、除外されたデータを使用して結果の階層文脈モデルの統計的平滑化を行うことができる。したがって、文脈モデルは、リーフ・ノードから根底ノードまでのすべての文脈モデルの補間であることが可能である。いずれにしても、ステップ５３０の完了の後、方法は、ステップ５４０に進むことが可能である。
【００４８】
ステップ５４０で、音声認識システムは、単一の根底ノードが決定されたかどうかを判定することができる。より具体的には、音声認識システムは、文脈モデルの階層が単一のノードに終端するかどうかを判定することができる。単一のノードに終端する場合、方法は、終了することが可能である。しかし、単一のノードに終端しない場合、方法は、ステップ５１０にループバックして繰り返される。方法５００は、必要に応じて繰り返されることが可能であり、方法が反復されるたびに、単一の根底ノードに向かって進んで上昇するように文脈モデルの階層に別のレベルが作成されることが認められよう。
【００４９】
図７は、図５の文脈モデルの階層を使用して音声をテキストに変換する例示的な方法を描いた流れ図６００である。詳細には、音声認識システムは、受け取られたユーザの口頭の発話に基づいて後続のユーザの口頭の発話を処理するのに適切な文脈モデルを選択することができる。コンピュータ・システムが法外な遅延なしにリアルタイムで音声をテキストに変換することができるだけ十分な処理能力を有する場合、文脈モデル決定は、音声認識システムによって受け取られた各ユーザ発話または各文に関して行うことができる。例えば、受け取られたユーザの口頭の発話における検出可能な各休止の後、音声認識システムは、方法６００を行うことができる。
【００５０】
別法として、決定は、口述セッションの始めに、音声セッション全体にわたって定期的に、または決定を行うユーザ・コマンドに応答して行われることが可能である。例えば、音声認識システムは、ユーザが所定の時間にわたって口述した後、または信頼スコアが所定のしきい値を下回ったことに応答して、決定を自動的に行うことが可能である。ユーザ要求の場合、ユーザは、自らが異なる口述スタイルまたは異なる主題に切り替えたとき、例えば、ビジネス通信から私信に切り替えたとき、決定が行われることを要求することが可能である。
【００５１】
方法６００は、ステップ６１０で開始し、音声認識システムがテキスト入力を受け取る。テキスト入力は、音声認識システムから導出されること、または既存のドキュメント内のテキストであることが可能である。具体的には、テキストは、受信された電子メール・メッセージであることが可能である。ステップ６１０の完了の後、方法は、ステップ６２０に進むことが可能である。ステップ６２０で、音声認識システムは、文脈モデルの階層を使用して、受け取られたテキストを処理することができる。例えば、テキストは、文脈モデルの階層に含まれる文脈モデルのそれぞれを使用して処理することができる。最高の信頼スコアを有するテキストをもたらす文脈モデルを、後続のユーザの口頭の発話をテキストに変換する際に使用するための正しい、つまり最も適切な文脈モデルとして特定することができる。処理は、逐次に、または並列に進められることが可能である。
【００５２】
例えば、対話ベースのシステムにおいて、ユーザからの「はい」または「いいえ」の応答が、特定の対話プロンプトに対する応答として予期されるが、ユーザは、「はい、ただし、私はＸを望む」のように応答する可能性がある。この場合、ユーザは、応答し、追加の情報を提供している。したがって、対話ベースのシステムは、ユーザが応答したプロンプトに対応する文脈モデルを含むことが可能であるが、ユーザの応答は、別のシステム・プロンプトに対する予期される応答によりよく似ている可能性がある。特に、「はい」または「いいえ」の返答に限定されない予期される応答によりよく似ている可能性がある。いずれにしても、音声認識システムから導出されたテキストは、文脈モデルの階層を使用して処理することができる。最高の信頼スコアを有するテキストをもたらす文脈モデルを特定することができる。留意すべきこととして、ユーザ応答は、ＮＬＵシステムによって予期されるユーザ応答のタイプとは異なっていたため、特定された文脈モデルは、ユーザが応答した特定の対話プロンプトからのユーザ応答を処理することに通常、関連する文脈モデルとは異なる可能性がある。さらに、特定された文脈モデルは、ユーザの口頭の発話をテキストに変換するのに音声認識システムによって使用される文脈モデルとは異なる可能性がある。
【００５３】
本発明の別の実施形態では、識別可能なドキュメント・セクションに対応する文脈モデルを特定することができる。例えば、ユーザがドキュメントを口述しており、音声認識システムによってユーザのカーソルがそのドキュメントの特定のセクション内に位置していることが判定される場合、音声認識システムは、そのドキュメント・セクションに対応する文脈モデルを特定することができる。少なくとも最初、その特定された文脈モデルを使用して、ユーザのカーソルが対応するドキュメント・セクション内に位置している間、後続で受け取られたユーザの口頭の発話を処理することができる。さらに、ユーザは、音声コマンドまたはポインタ・コマンドを介するなどの別の方法で、音声認識システムに対してドキュメント・セクションを指定することができる。留意すべきこととして、文脈モデルを決定するその他の方法も組み込むことができる。例えば、満足の行かない信頼スコアに基づき、音声認識システムは、別の文脈モデルを選好して特定された文脈モデルの使用を中止することが可能である。
【００５４】
音声認識システムは、所定の最低しきい値を超える信頼スコアを有するテキストを生成する１つまたは複数の文脈モデルを特定する可能性があることが認められよう。その場合、音声認識システムは、それぞれの特定された文脈モデルを使用することができ、各モデルを使用した結果に、確率係数を使用して重み付けを行うことができる。例えば、この係数は、結果のテキストの信頼スコアに直接に関連していることが可能である。別法として、音声認識システムは、特定された文脈モデル間で補外を行うことができる。さらに、最高の信頼スコアを有するテキストをもたらす文脈モデルを選択することができる。ステップ６２０の完了の後、方法は、ステップ６３０に進むことが可能である。
【００５５】
ステップ６３０で、特定された文脈モデルを使用して、音声認識システムにおける後続のユーザの口頭の発話を処理することができる。音声認識システムは、文脈モデル決定から特定の時間内に生じる後続のユーザの口頭の発話は、その決定を行うのに使用されたテキストと同様の構文および語彙を有する、または同様の主題に関連する可能性が高いという前提で動作することができる。したがって、主題に基づいて文脈モデルを選択することに加えて、口述システムに関連して、方法は、ＮＬＵシステムにおける対話状態に応じて文脈モデルの階層から文脈モデルを選択することができる。
【００５６】
本発明の別の実施形態は、受信された電子メール・メッセージに基づいて文脈モデルを選択することを含むことが可能である。例えば、受信された電子メール・メッセージを処理して、その電子メールに対応する適切な文脈モデルを決定することができる。特定された文脈モデルを使用して、後続のユーザの口頭の発話をテキストに変換することができる。具体的には、ユーザが受信された電子メール・メッセージに返答していることが可能な口述セッション中に、文脈モデルを使用してユーザの口頭の発話を変換することができる。したがって、受信された電子メールを処理して、その受信された電子メールの主題に対応する文脈モデルを決定することができる。その文脈モデルを使用して、その電子メールに対するユーザの口述の応答を処理することができる。さらに、音声認識システムは、メッセージの主題を含め、受信された電子メール・メッセージの異なる部分を処理することができる。本発明の別の実施形態では、適切な文脈モデルを決定する際に主題に追加の重みを与えることができる。ステップ６３０の完了の後、方法は、ステップ６４０に進むことが可能である。
【００５７】
ステップ６４０で、セグメントが完了している場合、方法は、ステップ６５０に進む。完了していない場合、方法は、ステップ６１０に進み、さらなるテキストを収集する。具体的には、セグメントは、文脈モデルの階層の基礎の役割をする初期文脈モデルを構築するのに使用されるテキスト単位に対応することが可能である。例えば、セグメントは、ドキュメント、段落、文、ドキュメントの一部分、または所与の対話プロンプトに対するユーザ応答に対応することが可能である。所定の量のテキストが収集されると、セグメントは完了する。別法として、ユーザは、テキストに変換されるべきユーザの口頭の発話の開始および終了を音声認識システムに通知することができる。いずれにしても、初期文脈モデルを構築するのに使用される量のテキストが収集されて、セグメントが完了することが可能である。
【００５８】
セグメントが完了している場合、ステップ６５０で、方法は、完了したセグメントに対応する新しい文脈モデルを動的に構築することができる。さらに、方法は、文脈モデルの階層を動的に再構成するための方法５００を実行することができる。ステップ６５０の完了の後、方法は、繰り返されることが可能である。
【図面の簡単な説明】
【００５９】
【図１】本発明を使用することができる例示的なコンピュータ・システムを示す概略図である。
【図２】音声認識のための例示的なアーキテクチャを描いた概略図である。
【図３】音声認識エンジンを構成することが可能な通常の構成要素を示す概略図である。
【図４】音声認識エンジンを構成することが可能な通常の構成要素を示す概略図である。
【図５】文脈モデルの例示的な階層を示すブロック図である。
【図６】本発明の例示的な方法を示す流れ図である。
【図７】本発明の例示的な方法を示す流れ図である。

Claims

統計的に平滑化されて言語モデルにされる文脈モデルの階層を使用して音声をテキストに変換する方法であって、
（ａ）複数の文脈モデルを使用してテキストを処理するステップであって、
前記複数の文脈モデルのそれぞれが、前記複数の文脈モデルの階層におけるノードに対応するステップと、
（ｂ）前記テキストに関連する前記文脈モデルの少なくとも１つを特定するステップと、
（ｃ）前記特定された少なくとも１つの文脈モデルを使用して後続のユーザの口頭の発話を処理するステップとを含む方法。
前記ステップ（ａ）が逐次に、または並列に行われる請求項１に記載の方法。
前記複数の文脈モデルの少なくとも１つが、
（ｉ）ドキュメント、またはドキュメントの一部分、
（ｉｉ）対話ベースのシステムにおける特定の対話状態で受け取られた少なくとも１つのユーザ応答、
（ｉｉｉ）対話ベースのシステムにおける特定のトランザクションにおける特定の位置で受け取られた少なくとも１つのユーザ応答、
（ｉｖ）対話ベースのシステムにおけるプロンプトの構文、
（ｖ）特定の既知の対話ベース・システム・プロンプト、または
（ｖｉ）受信された電子メール・メッセージのうちの１つまたは複数に対応する請求項１または２に記載の方法。
文脈モデルの階層を生成する方法であって、
（ａ）距離測定基準を使用して複数の文脈モデルのそれぞれの間の距離を測定するステップであって、
前記複数の文脈モデルの少なくとも１つが、ドキュメントの一部分、または対話ベースのシステムにおけるユーザ応答に対応するステップと、
（ｂ）前記複数の文脈モデルから２つを特定するステップであって、
前記特定された文脈モデルが、前記複数の文脈モデルのその他の文脈モデルより距離が近いステップと、
（ｃ）前記特定された文脈モデルをマージして親文脈モデルにするステップと、
（ｄ）根底ノードを有する前記複数の文脈モデルの階層が生成されるまで前記ステップ（ａ）、（ｂ）、および（ｃ）を繰り返すステップと、
（ｅ）前記複数の文脈モデルの前記階層を統計的に平滑化して言語モデルをもたらすステップとを含む方法。
前記マージするステップ（ｃ）が、前記特定された文脈モデルの結合をもたらす前記特定された文脈モデル間の補間を行うステップをさらに含む請求項４に記載の方法。
前記ステップ（ｃ）が、前記特定された文脈モデルに対応するデータを使用して親文脈モデルを構築するステップをさらに含む請求項４に記載の方法。
（ａ）複数の文脈モデルを使用してテキストを処理するステップであって、
前記複数の文脈モデルのそれぞれが、前記複数の文脈モデルの階層におけるノードに対応するステップと、
（ｂ）前記テキストに関連する前記文脈モデルの少なくとも１つを特定するステップと、
（ｃ）前記特定された少なくとも１つの文脈モデルを使用して後続のユーザの口頭の発話を処理するステップとをマシンが行うようにさせるための前記マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムを記憶しているマシン可読ストレージ。
（ａ）距離測定基準を使用して複数の文脈モデルのそれぞれの間の距離を測定するステップであって、
前記複数の文脈モデルの少なくとも１つが、ドキュメントの一部分、または対話ベースのシステムにおけるユーザ応答に対応するステップと、
（ｂ）前記複数の文脈モデルから２つを特定するステップであって、
前記特定された文脈モデルが、前記複数の文脈モデルのその他の文脈モデルより距離が近いステップと、
（ｃ）前記特定された文脈モデルをマージして親文脈モデルにするステップと、
（ｄ）根底ノードを有する前記複数の文脈モデルの階層が生成されるまで前記ステップ（ａ）、（ｂ）、および（ｃ）を繰り返すステップと、
（ｅ）前記複数の文脈モデルの前記階層を統計的に平滑化して言語モデルをもたらすステップとをマシンが行うようにさせるための前記マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムを記憶しているマシン可読ストレージ。
前記マージするステップ（ｃ）が、前記特定された文脈モデルの結合をもたらす前記特定された文脈モデル間の補間を行うステップをさらに含む請求項８に記載のマシン可読ストレージ。
前記マージするステップ（ｃ）が、前記特定された文脈モデルに対応するデータを使用して親文脈モデルを構築するステップをさらに含む請求項８に記載のマシン可読ストレージ。