JP2004523004A - 階層言語モデル - Google Patents
階層言語モデル Download PDFInfo
- Publication number
- JP2004523004A JP2004523004A JP2002570227A JP2002570227A JP2004523004A JP 2004523004 A JP2004523004 A JP 2004523004A JP 2002570227 A JP2002570227 A JP 2002570227A JP 2002570227 A JP2002570227 A JP 2002570227A JP 2004523004 A JP2004523004 A JP 2004523004A
- Authority
- JP
- Japan
- Prior art keywords
- context
- model
- context models
- models
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Abstract
【解決手段】文脈モデルの階層を統計的に平滑化して言語モデルにすることができる。本発明は、複数の文脈モデルを使用してテキストを処理するステップを含むことが可能である。複数の文脈モデルのそれぞれが、複数の文脈モデルの階層におけるノードに対応することが可能である。また、テキストに関連する文脈モデルの少なくとも1つを特定するステップ、およびその特定された少なくとも1つの文脈モデルを使用して後続のユーザの口頭の発話を処理するステップも含まれることが可能である。
Description
【0001】
本発明は、音声認識システムおよび対話ベースのシステムの分野に関し、より詳細には、音声をテキストに変換する言語モデルの使用に関する。
【背景技術】
【0002】
音声認識は、マイクロホンによって受け取られた音響信号が、コンピュータによって1組のテキスト語、数、または記号に変換されるプロセスである。次に、その認識された語を、ドキュメント準備、データ入力、コマンドおよび制御などの目的で様々なコンピュータ・ソフトウェア・アプリケーションにおいて使用することができる。音声認識システムの改良より、ユーザの生産性を高める重要な手立てが提供される。
【0003】
音声認識システムは、音響信号をモデル化し、分類して、音素と呼ばれる基本言語単位の表現である音響モデルを形成することができる。音響信号を受け取ると、音声認識システムは、その音響信号を解析し、音響信号の中で一続きの音響モデルを特定し、その所与の一続きの音響モデルに対する可能な語の候補リストを導出することができる。
【0004】
次に、音声認識システムは、言語モデルをガイドとして使用して、可能な語の候補を文脈に応じて解析することができる。具体的には、言語モデルは、文を形成するように語を組み合わせることができる仕方に課せられた制約を表現することができる。言語モデルは、通常、別の語または語群のすぐ隣に現れる語の尤度を表す統計モデルである。言語モデルは、各語に後続して許される語が明示的にリストされる有限状態ネットワークとして規定すること、または文脈依存文法を利用するより高度なやり方で実施することが可能である。その他の例示的な言語モデルには、いずれも当技術分野で周知のn−グラム・モデル(n-gram model)および最大エントロピー言語モデルが含まれることが可能であるが、以上には限定されない。言語モデルの一般的な例は、n−グラム・モデルであることが可能である。詳細には、バイグラム(bigram)モデルおよびトライグラム(trigram)モデルが、当技術分野で一般に使用されるn−グラム・モデルである。
【0005】
従来の言語モデルは、訓練テキスト・コーパスの解析から導出することができる。訓練コーパスは、人間の通常の話し方を反映するテキストを含む。訓練コーパスを処理して、音声をテキストに変換するために音声認識システムによって使用される統計言語モデルを決定することができる。音声をテキストに変換することは、音声をデコードするという言い方もされる。そのような方法は、当技術分野で周知であることが理解されよう。例えば、言語モデルのより十分な説明、および言語モデルを構築する方法については、Frederick Jelinek著、「Statistical Methods for Speech Recognition」(TheMIT Press ed. 1997)を参照されたい。現在、当技術分野では、音声認識システムは、言語モデルの組合せを使用してユーザの口頭の発話をテキストに変換することができる。各言語モデルを使用して結果のテキスト・ストリングを決定することができる。各言語モデルからもたらされるテキスト・ストリングに、統計的に重み付けを行って、最も正確な結果、または最も可能性の高い結果を特定することができる。例えば、音声認識システムは、システム内部に含まれる一般的な、つまり汎用の言語モデルを組み込むことができ、それとともに、ユーザによって口述された最初のいくつかの口述セッション、または口述ドキュメントから導出されたユーザ特有の言語モデルも組み込むことができる。一部の音声認識システムは、ユーザが新しいドキュメントを口述する、または新しい口述セッションを開始するにつれ、既存の言語モデルを向上させ続けることができる。したがって、多くの従来の音声認識システムでは、言語モデルは、継続的に更新することができる。
【0006】
残念ながら、言語モデルが成長し続けるにつれ、主題特有のユーザの口述の重要度が低下する可能性がある。詳細には、より新しい音声セッションの効果が、言語モデル内で増大するデータによって減じられる可能性がある。同様に、主題特有であるか否かにかかわらず、より新しいユーザの口述の重要度が、成長する言語モデル内で低下させられる可能性もある。これは、主に、拡大し続けるデータ・セットによって言語モデルを向上させるのに使用されることが可能な1つの特定のセッションまたはドキュメントの統計上の重要度が減じられる統計言語モデルに関して生じる。この統計上の効果は、例えば、ユーザが、音声認識システムまたは対話ベースのシステムにより馴染み、システムと対話することに慣れるにつれてユーザの音声パターンが変化する場合、相当に大きい可能性がある。具体的には、とりわけ言語モデルに対応するデータ・セット全体を考えると限られた量のデータを生成する可能性がある単一のセッションまたはドキュメントからもたらされる言語モデルの向上は、統計的な音声ベースのシステムの挙動を変更する可能性は低い。したがって、言語モデルは、ユーザの変化する口述スタイルを正確に反映しない可能性がある。
【0007】
同様な問題が、ユーザが1つまたは複数のシステム・プロンプトに口頭で応答することができる自然言語理解システムなどの対話ベースのシステムのコンテキストにおいても存在する可能性がある。そのようなシステムは、ユーザ応答を処理するための1つまたは複数の言語モデルを含む可能性があるが、不十分な量のデータを使用して特定のプロンプトに適応された言語モデルが構築される可能性がある。したがって、そのような言語モデルは、受け取った音声を正確に処理するには、余りにも特異である可能性がある。具体的には、その言語モデルに、より一般化されたユーザ応答を言語モデルから抽出する能力が欠けている可能性がある。
【非特許文献1】
Frederick Jelinek著、「StatisticalMethods for Speech Recognition」(The MIT Press ed. 1997)
【発明の開示】
【発明が解決しようとする課題】
【0008】
本明細書で開示する本発明は、文脈モデルの階層を生成し、音声をテキストに変換するためにその文脈モデルを使用する方法に関する。本発明の方法は、音声認識システム内で、また自然言語を理解する対話ベースのシステム内で利用することができる。詳細には、本発明は、異なるユーザ音声セッション、ドキュメント、ドキュメントの部分、またはユーザによる口頭の発話の形態のユーザ応答から複数の文脈モデルを生成することができる。この文脈モデルは、周知の距離測定基準を使用してボトムアップ式に関連するペアに編成する、またはクラスタ化することができる。関連するペアの言語モデルは、ツリー様の構造が構成されるまで、継続的にマージすることができる。文脈モデルのツリー様の構造、つまり文脈モデルの階層は、単一の根底ノードから外に向かって拡張することが可能である。文脈モデルの階層は、削除補間法またはバックオフ法などの当技術分野で周知の技法を使用して、提供されたテキスト・コーパスを使用して補間することができる。留意すべきこととして、本発明は、本明細書で開示する特定の平滑化の技法による限定を受けない。むしろ、当技術分野で周知である任意の適切な平滑化技法を使用することが可能である。
【課題を解決するための手段】
【0009】
文脈モデルの階層を決定し、平滑化した後、文脈モデルのもたらされた階層を使用して、受け取られたユーザの口頭の発話を処理することができる。1つまたは複数の受け取られたユーザの口頭の発話に対応する文脈モデルの階層内の1つまたは複数の文脈モデルを特定することができる。特定された文脈モデルを使用して、後続の受け取られたユーザの口頭の発話を処理することができる。
【0010】
本発明の一態様は、文脈モデルの階層を使用して音声をテキストに変換する方法を含むことが可能である。文脈モデルの階層は、統計的に平滑化して言語モデルにすることができる。この方法は、(a)複数の文脈モデルの階層内のノードにそれぞれが対応することが可能な複数の文脈モデルを使用してテキストを処理するステップを含むことが可能である。テキストの処理は、逐次に、または並列で行われることが可能である。また、この方法には、(b)受け取られたテキストに関連する文脈モデルの少なくとも1つを特定するステップ、および(c)特定された少なくとも1つの文脈モデルを使用して後続のユーザの口頭の発話を処理するステップも含まれることが可能である。
【0011】
複数の文脈モデルの少なくとも1つが、ドキュメントまたはドキュメントの一部分、ドキュメントのセクション、対話ベースのシステムにおいて特定の対話状態で受け取られた少なくとも1つのユーザ応答、または対話ベースのシステムにおける特定のトランザクションにおける特定の位置で受け取られた少なくとも1つのユーザ応答に対応することが可能である。さらに、複数の文脈モデルのこの少なくとも1つは、対話ベースのシステム・プロンプトの構文に、特定の既知の対話ベースのシステム・プロンプトに、または受け取られた電子メール・メッセージに対応することが可能である。
【0012】
本発明の別の実施形態は、文脈モデルの階層を生成する方法を含むことが可能である。その場合、方法は、(a)距離測定基準を使用して複数の文脈モデルのそれぞれの間の距離を測定するステップを含むことが可能である。留意すべきこととして、複数の文脈モデルの少なくとも1つが、ドキュメントの一部分、または対話ベースのシステムにおけるユーザ応答に対応することが可能である。また、(b)複数の文脈モデルの他のものより距離がより近いことが可能な複数の文脈モデルの2つを特定するステップも含まれることが可能である。また、(c)特定された文脈モデルをマージして親文脈モデルにするステップも含まれることが可能である。マージするステップ(c)は、特定された文脈モデル間を補間するステップであって、補間により、特定された文脈モデルの結合がもたらされるステップを含むことが可能である。別法として、マージするステップ(c)は、特定された文脈モデルに対応するデータを使用して親文脈モデルを構築するステップを含むことが可能である。また、複数の文脈モデルの階層を生成することができるまで、ステップ(a)、(b)、および(c)を繰り返すことができるステップ(d)も含まれることが可能である。その場合、階層は、根底ノードを含むことが可能である。さらに、複数の文脈モデルの階層を統計的に平滑化して、言語モデルをもたらすことも可能である。例えば、削除補間法、バックオフ法、または別の適切な平滑化などの当技術分野において知られている技法を使用して、控えられたテキスト・コーパスを使用して文脈モデルの階層を補間することができる。
【0013】
複数の文脈モデル、または初期文脈モデルは、音声セッション、ドキュメント・テンプレート、ドキュメント、ならびに段落などのドキュメントの部分、またはドキュメントのセクションなどの1つまたは複数の部分に細分することができるドキュメントの任意の部分から構築することができる。自然言語理解システムなどの対話ベースのシステムの場合、初期文脈モデルは、様々なシステム・プロンプトのすべて、またはサブセットに対する1つまたは複数のユーザ応答から構築することができる。
【0014】
次に、現在、好ましいものとされる実施形態を図面に示すが、本発明は、図示する構成および手段そのものに限定されないことを理解されたい。
【発明を実施するための最良の形態】
【0015】
本明細書で開示する実施形態は、文脈モデルの階層を生成し、音声をテキストに変換するためにその文脈モデルを使用する方法に関する。実施形態の方法は、音声認識システム内、および自然言語を理解する対話ベースのシステム内で利用することができる。詳細には、この実施形態は、異なるユーザ音声セッション、ドキュメント、ドキュメントの部分、またはユーザの口頭の発話の形態の応答から複数の文脈モデルを生成することができる。この文脈モデルは、周知の距離測定基準を使用してボトムアップ式に関連するペアに編成する、またはクラスタ化することができる。留意すべきこととして、文脈モデルを関連するペアに編成することは、実行時に自動的に、また動的に行うことができる。関連するペアの文脈モデルをマージして親文脈モデルを形成することができる。このプロセスは、ツリー構造に似た文脈モデルの階層が出現するまで繰り返すことができる。階層は、その他のノードが広がる起点の単一の根底ノードを有することが可能である。留意すべきこととして、文脈モデルの階層の各ノードは、文脈モデルに対応することが可能である。本明細書で使用する「文脈モデル」という用語は、単一のドキュメント、ドキュメントの一部分、あるいは自然言語理解(NLU)システムの場合、1つまたは複数のユーザの口頭の発話またはユーザ応答から獲得された訓練データから構築された言語モデルを指すことが可能であることが認められよう。
【0016】
文脈モデルの結果の階層は、削除補間法またはバックオフ法などの当技術分野で周知の技法を使用して、控えられたテキスト・コーパスを使用して補間することができる。留意すべきこととして、本発明は、本明細書で開示する特定の平滑化の技法によって限定されない。むしろ、当技術分野で周知である任意の適切な平滑化技法を使用することができる。
【0017】
文脈モデルの階層が決定された後、文脈モデルのもたらされた階層を使用してユーザの口頭の発話を処理することができる。詳細には、1つまたは複数の受け取られたユーザの口頭の発話に対応する、またはそれを最も正確に反映する文脈モデルの階層内の特定の文脈モデルを特定することができる。例えば、この実施形態は、文脈モデルの階層を使用して、受け取られたユーザの口頭の発話を処理し、最も高い信頼スコアを有する結果のテキストをもたらす文脈モデルを特定することができる。この実施形態は、後続のユーザの口頭の発話が、前に受け取られたユーザの口頭の発話、または対応する文脈モデルを特定するのに使用された発話の主題と同様の主題を有する可能性があるという仮定で動作することが可能である。したがって、後続のユーザの口頭の発話を特定された文脈モデルを使用して処理して、より高い音声認識システム・パフォーマンスを実現することができる。
【0018】
留意すべきこととして、文脈モデルの結果の階層、および結果の平滑化された言語モデルにより、後続のユーザの口頭の発話の処理がより一般化されることが可能になる。これは、「訓練不足の」言語モデルがシステム・パフォーマンスに悪影響を与える可能性があるNLUシステムに適用される際、とりわけ有益である可能性がある。具体的には、文脈モデルの平滑化された階層を根底ノードに向かって辿り、文脈モデルがより一般化されるが、依然、文脈依存であるようにすること、またはリーフに向かって辿り、文脈モデルがより特異になるが、依然、文脈依存であるようにすることが可能である。
【0019】
図1は、本実施形態に関連して使用される通常のコンピュータ・システム100を描いている。システムは、中央処理装置110(CPU)と、1つまたは複数のメモリ・デバイス115と、関連する回路を含むコンピュータ105を含むことが可能である。メモリ・デバイス115は、電子ランダム・アクセス・メモリおよび大量データ記憶媒体から構成されることが可能である。また、システムは、適切なインターフェース回路125を介してコンピュータ・システムに動作上、結合されたマイクロホン120と、システムに動作上、結合されたビデオ・データ端末装置などのオプションのユーザ・インターフェース表示ユニット130も含むことが可能である。CPUは、当分野の技術者には周知のとおり、任意の適切なマイクロプロセッサ、またはその他の電子処理ユニットから構成されることが可能である。スピーカ135および140、ならびにマウス145およびキーボード150などのインターフェース・デバイスをシステムが備えていることが可能であるが、本明細書で説明する本発明の動作には必要ない。本明細書で説明するコンピュータ・システムに関する様々なハードウェア要件は、一般に、多くの市販の高速コンピュータのいずれか1つで満たすことができる。
【0020】
図2は、コンピュータ・システム100における音声認識システムのための通常のアーキテクチャを示す概略図である。図2に示すとおり、コンピュータ・システム100のメモリ115内に、オペレーティング・システム200および音声認識エンジン210が存在することが可能である。また、音声テキスト・プロセッサ・アプリケーション220および音声ナビゲータ・アプリケーション230も含まれることが可能である。ただし、本発明は、この点で限定されず、音声認識エンジン210は、音声対応であるべき任意の他のアプリケーション・プログラムで使用することができる。図2では、音声認識エンジン210、音声テキスト・プロセッサ・アプリケーション220、および音声ナビゲータ・アプリケーション230を別々のアプリケーション・プログラムとして示している。ただし、本発明は、この点で限定されず、以上の様々なアプリケーション・プログラムは、単一のより複雑なアプリケーション・プログラムとして実装することが可能であることに留意されたい。例えば、音声認識エンジン210は、音声テキスト・プロセッサ・アプリケーション220と、または音声対応であるべき任意の他のアプリケーションと組み合わせることができる。また、音声テキスト・プロセッサ・アプリケーション220および音声認識エンジン210と連携して動作させられる他の音声によって制御されるアプリケーション・プログラムが全く存在しない場合、システムは、音声ナビゲータ・アプリケーション230なしで動作するように変更することができる。音声ナビゲータ・アプリケーション230は、主に、音声認識エンジン210の動作を調整するのに役立つ。
【0021】
前述した構成要素は、コンピュータ・システム100内部で集中式に実現することができる。別法では、前述した構成要素は、異なる要素がいくつかの互いに接続されたコンピュータ・システムにわたって分散された分散式で実現することができる。いずれにしても、構成要素は、ハードウェアで、ソフトウェアで、またはハードウェアとソフトウェアの組合せで実現することができる。あらゆる種類のコンピュータ・システム、または本明細書で説明する方法を行うために適合されたその他の装置が適している。本明細書で開示するシステムは、使用される特定のオペレーティング・システムに合った市販の開発ツールを使用するプログラマが実施することができる。
【0022】
この文脈でコンピュータ・プログラム手段またはコンピュータ・プログラムとは、情報処理能力を有するシステムが、直接に、あるいはa)別の言語、コード、または表記への変換、b)異なる物的形態における再現のいずれかの後、または両方の後、特定の機能を行うようにさせることを目的とする1組の命令の、任意の言語、コード、または表記の任意の表現を意味する。
【0023】
動作の際、マイクロホン120で受け取られたサウンドを表す音声信号が、従来のコンピュータ音声回路を使用してコンピュータ100内部で処理されて、デジタル化された形態でオペレーティング・システム200に供与されるようになることが可能である。別法では、音声信号が、別のコンピュータ・システムからコンピュータ通信網を介してアナログ形式またはデジタル形式で受信されること、または電話機などの別の送受デバイスから受信されることが可能である。コンピュータ・システム100によって受け取られた音声信号は、従来、音声認識機能を行うためにコンピュータ・オペレーティング・システム200を介して音声認識エンジン210に提供される。従来の音声認識システムにおいてと同様に、音声信号が音声認識エンジン210によって処理されて、ユーザによってマイクロホン120に発せられた語が特定されることが可能である。図3は、音声認識エンジン210を構成することが可能な通常の構成要素を示すブロック図である。図3および4に示すとおり、音声認識エンジン210は、オペレーティング・システムからデジタル化された音声信号を受け取る。次に、システムは、表現ブロック310で、通常、毎10〜20ミリ秒である何らかの固定のレートで信号をサンプリングすることにより、有用な1組のデータに変換される。表現ブロックは、音声信号の新しい表現を生成し、次に、この新しい表現を音声認識プロセスの後続の段階で使用して、解析されたばかりの波形の部分が特定の音声上のイベントに対応する確率を判定することができる。このプロセスは、オペレーティング・システムから受け取られた音声信号の知覚上、重要な話者独立の特徴を強調することを目的とする。モデル化/分類ブロック320で、アルゴリズムが音声信号をさらに処理して、話者独立の音響モデルを現在の話者の音響モデルに適合させる。最後に、探索ブロック330で、探索アルゴリズムを使用して、探索エンジンが音声信号に対応する最も可能性の高い語に誘導される。探索ブロック330における探索プロセスは、音響モデル340、語彙モデル350、および言語モデル360の助けを借りて行われる。
【0024】
言語モデル360は、ある語が、シーケンスの中で他の語と一緒に使用されているとき、音声信号に対応する可能な語の数を制限するのに役立つように使用することができる。言語モデルは、各語に続いて許される語が明示的にリストされる有限状態ネットワークとして規定すること、あるいは文脈依存文法を利用するより高度なやり方で実施することが可能である。その他の例示的な言語モデルには、いずれも当技術分野で周知のn−グラム・モデル(n-gram model)および最大エントロピー言語モデルが含まれることが可能であるが、以上には限定されない。いずれにしても、特定のユーザのケースで遭遇する可能性が高い音声パターンに関する情報を使用して言語モデルの内容を更新することが、しばしば、望ましい。探索プロセスにより、テキスト出力として最も高い信頼スコアを有する語の候補が決定される。
【0025】
信頼スコアは、特定の語の候補が対応するユーザの口頭の発話を正確に反映する尤度を反映する。信頼スコアは、音響モデル、語彙モデル、および言語モデルから導出された値であることが可能である。例えば、信頼スコアは、音響モデルを使用して判定された、特定の語の候補がユーザの口頭の発話を表す尤度を、言語モデルを使用して判定された、特定の語の候補が別の語または語群の隣に位置することが可能な確率に加えて、考慮に入れることが可能である。
【0026】
認識されたテキストは、言語モデル・セッション・マネージャ(LMSM)380に提供されることが可能である。結果のテキストが受け取られたユーザの口頭の発話を正確に反映する確率に基づき、LMSM380は、後続で受け取られるユーザの口頭の発話を処理するためのより適切な文脈モデルを決定することができる。より具体的には、LMSM380は、結果のテキストが受け取られたユーザの口頭の発話を反映する最も高い確率を有することが可能な、テキストを処理するのに使用することができる文脈モデルを特定することができる。したがって、LMSM380は、後続で受け取られる音声を処理する際に使用するための適切な文脈モデルを選択することができる。図示するとおり、LMSM380は、音声認識システムにフィードバック・パスを提供することができる。
【0027】
さらに、LMSM380は、ドキュメントのセクションを認識することができる。例えば、LMSM380は、ドキュメントにおけるカーソルの位置でドキュメントのセクションを特定することができる。LMSM380は、序論、背景、またはドキュメントの他の定義可能なセクションなどの異なるドキュメント・セクションの指示を含むことが可能な1つまたは複数のテンプレートを使用してプログラミングすることができる。セクションは、ユーザによって定義されたセクションであること、または主題特有であることが可能である。例えば、セクションは、真または偽のセクション、簡単な答えのセクション、または多項選択式のセクションを含む主題特有の試験であることも、そうでないことも可能なドキュメントの下位部分であることが可能である。具体的には、従来のワードプロセッシング・プログラムは、ドキュメントのセクション分けを提供することができる。
【0028】
さらに、LMSM380は、新しい文脈モデルを構築するように、また文脈モデルの階層を再構築するように、いつ言語モデル・ビルダ(LMB)390に命令するかを決定するようにプログラミングすることができる。LMB390は、新しい初期文脈モデルを動的に構築することができ、また文脈モデルの階層を再構築することができる。例えば、初期文脈モデルがドキュメントから構築される場合、LMSM380は、いつドキュメント、またはドキュメントの部分が完成して、新しい文脈モデルを構築することができ、また文脈モデルの階層を再構築できるかを判定することができる。より具体的には、ユーザが、ドキュメントを閉じるか、または別の仕方で、ドキュメント、またはドキュメントの一部分の口述を終えたことを音声認識システムに通知すると、LMSM380は、文脈モデルの階層を再構築することを始めるようにLMB390に命令することができる。LMSM380は、従来のワードプロセッシング・プログラムで使用される様々なテンプレートおよびドキュメント・セクションを使用してプログラミングして、前述したもののいずれかの完了により、文脈モデルの階層が再構築されることがもたらされることが可能であるようにすることができる。例えば、LMSM380は、ドキュメント・セクションに対応する文脈モデルを動的に構築し、テキスト編集プログラムのカーソルがドキュメントのそのセクションを離れたとき、文脈モデルの階層を再構築することができる。同様に、文脈モデルが、段落などのドキュメントの部分から構築される場合、段落の完了、例えば、ハードリターン・コマンドにより、最新の段落に含まれるテキストから新しい文脈モデルを構築するようにLMB390に命令するよう、LMSM380に知らせることが可能である。次に、LMB390が、文脈モデルの階層を再構築することができる。前述したとおり、初期文脈モデルは、ドキュメントのテンプレート、ドキュメント、ドキュメントのセクション、またはドキュメントの部分から構築することができる。
【0029】
図4は、図3のブロック図と同様の、音声認識エンジン210を構成することが可能な通常の構成要素を示すブロック図である。ただし、図4は、NLUシステムを含むことが可能である。具体的には、NLUシステムは、コンピュータが、人間によって書かれた言語または話された言語からの情報を理解し、抽出することができるようにすることができる。そのようなシステムは、人間の言語を理解する必要が存在する場合に様々な他のコンピュータ・アプリケーションを補完する形で機能することが可能である。NLUシステムは、テキストに含まれる妥当な情報を抽出した後、その情報を別のアプリケーション・プログラムに供給することができる。
【0030】
NLUシステムは、LMSM380と通信して、対話ベースのシステムに対する応答としてのユーザの口頭の発話に関連する情報をLMSM380に提供することができる。そのような情報には、ユーザが関与している特定のトランザクション・タイプ、トランザクションにおけるユーザの位置、特定の対話ベースのシステム・プロンプト、およびプロンプトの構文が含まれることが可能である。例えば、NLUシステム395は、ユーザの口頭の発話が財務システムにおける引出しトランザクションの文脈でアカウント名を求めるプロンプトに応答するものであったという情報をLMSMに提供することができる。さらに、NLUシステムは、予期される応答が番号、特定の構文を有する、または特定の主題に関わるテキスト文、あるいは「はい」または「いいえ」タイプのプロンプトであったことをLMSMに通知することができる。
【0031】
例えば、初期文脈モデルは、所与の対話の状態、所与のトランザクションの主題、特定のトランザクションにおけるユーザの位置、特定の既知の対話プロンプトに対するユーザ応答、またはユーザが応答している対話プロンプトの構文に関連するユーザ応答から構築することができる。所与の対話の状態は一般に上記の要因の各々に言及することができる。
【0032】
所与のトランザクションの主題とは、ユーザが要求しているアクションまたはコマンドを指すことが可能である。例えば、財務管理システムでは、トランザクションは、引出し、振替え、預入れ等が含まれることが可能である。旅行システムの文脈では、トランザクションには、フライトの予約をすること、レンタカーを借りること等が含まれることが可能である。トランザクションは、アプリケーション特有であること、およびNLUシステムがインターフェースを提供するシステムに基づくことが可能である。したがって、文脈モデルは、対話ベースのシステムにおけるそれぞれの識別可能な主題に応じて構築することができる。
【0033】
トランザクションにおける位置は、ユーザ応答に関する文脈情報を提供することが可能である。具体的には、任意の所与のトランザクションが、1つまたは複数のユーザによって指定されたパラメータを必要とすることが可能である。したがって、開始されたトランザクションの特定のタイプに加え、受け取られたパラメータに基づき、音声認識システムは、ユーザが応答した対話ベース・システム・プロンプトそのものを知ることなく、所与のトランザクションにおけるユーザの位置に関する情報だけに基づいて文脈モデルを構築することができる。
【0034】
文脈モデルは、ユーザ応答から特定の既知の対話ベース・システム・プロンプトに構築することができる。さらに、文脈モデルは、特定の構文を有する問いに対するユーザ応答から構築することができる。例えば、「はい」または「いいえ」のシステム・プロンプトに対するユーザ応答をグループ化して言語モデルを構築することができる。同様に、「誰か」、「何か」、「どこか」、「いつか」、「なぜ」、または「どのように」という問いに対するユーザ応答、ならびに多項選択タイプのプロンプトまたはリスト・タイプのプロンプトに対するユーザ応答をグループ化することができる。
【0035】
統計的平滑化により、訓練不足に関する問題、つまり少量の訓練データを使用することに関する問題を軽減することができる。さらに、階層構造により、音声認識システムが、文脈依存であり続けるますます一般化されるモデルを使用してユーザの口頭の発話を処理することが可能になる。したがって、ユーザ応答が以前に収集されたデータに適合しない場合、より一般化された文脈モデルを使用してそのユーザ応答を処理することができる。
【0036】
したがって、LMB390は、文脈モデル、例えば、初期文脈モデルを動的に構築することができ、それぞれの文脈モデルは、1つまたは複数のユーザ応答のグループ化から構築されることが可能である。また、LMB390は、対話プロンプトに応答して与えられたユーザの口頭の発話を受け取ったことに応答して文脈モデルの階層を動的に再構築することができる。図4のシステムは、NLUシステム395が、録音を介して、またはテキスト−音声技術を使用して再生されることが可能な対話プロンプトを生成できることで、図3のシステムとはさらに異なっている。
【0037】
図5は、図3および4の文脈モデル360の例示的な階層を描いている。言語モデル360は、根底ノードの下に延びる複数のノードA、B、C、D、E、およびFを有するツリー構造として描かれている。各ノードが、文脈モデルに対応することが可能である。端末ノードとも呼ばれるリーフ・ノードのペア、CとD、およびリーフ・ノードのペア、EとFが、既知の距離測定基準を使用して関連する文脈モデル・ペアとして特定されることが可能である。例えば、そのような測定基準には、カルバック−ライブラー(Kullback-Liebler)距離、相対的エントロピー、識別能(discrimination)、または発散(divergence)が含まれることが可能であるが、以上には限定されない。いずれにしても、既知の測定基準を使用して文脈モデルの最低レベルをペアにグループ化することができる。ボトムアップ・クラスタ化として知られるこのプロセスを根底ノードが決定されるまで続けることができる。
【0038】
本発明の別の実施形態では、文脈モデルは、文脈モデルが導出された口述セッションの主題でグループ化することができる。例えば、音声認識システムは、語探索アルゴリズムおよび自然言語技術を使用して所定の主題に従ってそれぞれの個々の文脈モデル(ノード)を分類することができる。それに応じて文脈モデルにタグを付けて、関連する文脈モデルをペアにすることができるようにするだけでなく、音声認識システムが、特定の主題の下に分類される関連する文脈モデルだけをグループ化することができるようにする。別法として、ユーザが、特定の主題分類を定義することが可能である。その場合、ユーザは、音声認識システムが文脈モデルを分類するのに使用することができる一連のキーワードを入力することが可能である。また、音声認識システムは、ユーザが文脈モデルの分類を取り消すことを許すことも可能である。
【0039】
文脈モデルのグループ化されたペアをマージして親文脈モデルにすることができる。例えば、ノードAが、マージされた子、リーフ・ノードCとDから導出された親であることが可能である。同様に、ノードBが、子、リーフ・ノードEとFから導出することができる親であることが可能である。2つの子ノードをマージして親を形成することは、様々な方法を使用して達することができる。1つのそのような方法が、補間法であることが可能である。例えば、各子ノード文脈モデルを使用して可能な語の候補を処理することができる。次に、2つの可能な結果の句を比較することができ、確率の高い方の結果を選択することができる。具体的には、各文脈モデル結果に関連する確率に重み付け定数を掛けることができる。その場合、例えば、リーフCに適用される定数とリーフDに適用される定数は、1という合計を有することが可能である。2つの子ノードをマージして親を形成する別の方法には、各子ノードに対応するデータを使用して、文脈モデルを構築する既知の方法を使用して新しい文脈モデルを構築することが含まれることが可能である。したがって、あるノードにおいて親文脈モデルを構築するのに使用されるデータは、その親の2つの子の合成データであることが可能である。
【0040】
2つのノードをマージするのに使用される特定の方法にかかわらず、文脈モデルの階層の各レベルで、ペアにされたノードをグループ化すること、およびそのノードをマージして親ノードにすることが、根底ノードに達するまで続けられることが可能である。親ノードAとBは、子の共有の特性を含むことが可能である。同様に、根底ノードは、ノードAおよびBに対応する文脈モデルである子の共有の特性を含むことが可能である。したがって、文脈モデルの階層は、ユーザの応じた発話スタイルの混合をそれぞれが組み込んだ文脈モデルの取合せを提供する。具体的には、親文脈モデルが合成データを使用して構築される場合、文脈モデルの結果の階層は、単一の階層言語モデルと呼ぶことができる。したがって、最低の文脈モデルが、最も特異なモデルである。特定の文脈モデルが満足の行く信頼スコアをもたらさない場合、より一般化された文脈モデルまでツリーを上昇することができる。
【0041】
図6は、図1のコンピュータ・システム、および図2の音声認識エンジンを使用して行われる階層文脈モデルを生成する例示的な方法を示す流れ図500である。この方法は、音声認識システムが、生成される文脈モデル階層の最低の行であるリーフ・ノードC、D、E、およびFに関連する文脈モデルなどの複数の文脈モデルを蓄積した状態で開始する。開始文脈モデルである以上の文脈モデルは、用途に応じて異なる。例えば、一般的な口述の場合、音声認識システムは、特定のユーザに対応するそれぞれの以前に口述されたセッション、ドキュメント、ドキュメントの部分、またはドキュメントのセクションに関して新しい文脈モデルを生成することが可能である。
【0042】
例として、音声認識システムは、特許出願に関する文脈モデルを生成することができる。さらに、音声認識システムは、特許出願の各部分に関する文脈モデルを生成することができる。例えば、様々な特許出願の特許請求の範囲が、要約書、詳細な説明、ならびに発明の概要などの特許出願のその他の部分と同様の特徴を含むことが可能である。したがって、特許出願などのドキュメントの各部分に関して文脈モデルを構築することができる。別の実施形態は、下位部分に関する文脈モデルを構築することを含むことが可能である。例えば、独立請求項に関してある文脈モデルを構築し、従属請求項に関して別の文脈モデルを構築することが可能である。具体的には、ドキュメントの任意の識別可能な部分を使用して対応する文脈モデルを構築することができる。従来のワードプロセッサは、ドキュメントを1つまたは複数のセクションに細分することができる。例えば、これらの細分も、ドキュメントのそれぞれの識別可能な細分に関する文脈モデルを生成するのに使用することができる。
【0043】
対話システムにおいて使用される文脈モデルの場合、各開始文脈モデルが、その対話システムによって発行される各プロンプトに対する応答である1組の文に対応することが可能である。いずれにしても、開始文脈モデル、つまり階層の最低の行は、文脈モデル間のあらゆる補間に関して、または新しい親文脈モデルのあらゆる後続の構築に関して基礎の役割をすることができる。文脈モデル間の補間と新しい親文脈モデルの構築はともに、結果の文脈モデル階層を構成することが可能である。
【0044】
音声認識システムは、最新のn個の口述セッション、ドキュメント、または特定のユーザに対応する応答の文脈モデルを記憶するように音声認識システムに命令するためのユーザが調整可能なパラメータを含むことが可能である。別法として、音声認識システムは、文脈モデルの特定の主題分類に対応する最新のn個の文脈モデルを記憶することができる。例えば、最新のn個のビジネス関連文脈モデルを記憶すること、最新のn個の私的書簡文脈モデルを記憶すること等が可能である。さらに、パラメータは、ユーザごとに、また主題分類ごとに指定することができる。したがって、ユーザAは、各主題分類に関するnの固有値に加え、nの全体的な値を決定することができる。また、ユーザBも、各主題分類に関するnの相異なる値に加え、nの全体的な値も設定することができる。さらに、ユーザBによって設定されたnの値は、ユーザAによって設定されたnの値とは全く独立であることが可能である。これにより、システムを必要に応じて一般化することが可能になる。
【0045】
図6の方法500は、ユーザごとに行うことができる。さらに、図1のコンピュータ・システムが適切な処理能力を有する場合、方法500は、それぞれの新しいユーザ口述セッション、ドキュメント、またはユーザ応答の開始時に行うことができる。したがって、特定のユーザに対応する文脈モデルの階層を常に更新することができる。別法として、方法500は、定期的に、またはユーザ要求に応答してオフライン式で、音声認識システムによって自動的に行われることが可能である。
【0046】
いずれにしても、ステップ510で、音声認識システムは、距離測定基準を使用して、関連する各文脈モデルが、特定のユーザに対応するすべての他の文脈モデルにどれだけ近いかを判定することができる。前述したとおり、音声認識システムは、カルバック−ライブラー距離、ならびに関連度または距離の判定に関する各文脈モデルの主題分類を使用することができる。ステップ510の完了の後、方法は、ステップ520に進むことが可能である。
【0047】
ステップ520で、音声認識システムは、最小距離を有する文脈モデルのペアを特定することができる。ステップ520の完了の後、方法は、ステップ530に進むことが可能であり、文脈モデルがマージされることが可能である。前述したとおり、文脈モデルを補間によって、または各子文脈モデルのデータを使用することによってマージして、新しい親文脈モデルを構築することができる。文脈モデルがそれぞれのマージされた親において再構築される場合、根底ノードは、単一の言語モデルを使用することに対応する。その場合、階層文脈モデルのノードは、文脈モデルの初期の導出から控えられる、または除外されることが可能なデータを使用して平滑化することができる。したがって、除外されたデータを使用して結果の階層文脈モデルの統計的平滑化を行うことができる。したがって、文脈モデルは、リーフ・ノードから根底ノードまでのすべての文脈モデルの補間であることが可能である。いずれにしても、ステップ530の完了の後、方法は、ステップ540に進むことが可能である。
【0048】
ステップ540で、音声認識システムは、単一の根底ノードが決定されたかどうかを判定することができる。より具体的には、音声認識システムは、文脈モデルの階層が単一のノードに終端するかどうかを判定することができる。単一のノードに終端する場合、方法は、終了することが可能である。しかし、単一のノードに終端しない場合、方法は、ステップ510にループバックして繰り返される。方法500は、必要に応じて繰り返されることが可能であり、方法が反復されるたびに、単一の根底ノードに向かって進んで上昇するように文脈モデルの階層に別のレベルが作成されることが認められよう。
【0049】
図7は、図5の文脈モデルの階層を使用して音声をテキストに変換する例示的な方法を描いた流れ図600である。詳細には、音声認識システムは、受け取られたユーザの口頭の発話に基づいて後続のユーザの口頭の発話を処理するのに適切な文脈モデルを選択することができる。コンピュータ・システムが法外な遅延なしにリアルタイムで音声をテキストに変換することができるだけ十分な処理能力を有する場合、文脈モデル決定は、音声認識システムによって受け取られた各ユーザ発話または各文に関して行うことができる。例えば、受け取られたユーザの口頭の発話における検出可能な各休止の後、音声認識システムは、方法600を行うことができる。
【0050】
別法として、決定は、口述セッションの始めに、音声セッション全体にわたって定期的に、または決定を行うユーザ・コマンドに応答して行われることが可能である。例えば、音声認識システムは、ユーザが所定の時間にわたって口述した後、または信頼スコアが所定のしきい値を下回ったことに応答して、決定を自動的に行うことが可能である。ユーザ要求の場合、ユーザは、自らが異なる口述スタイルまたは異なる主題に切り替えたとき、例えば、ビジネス通信から私信に切り替えたとき、決定が行われることを要求することが可能である。
【0051】
方法600は、ステップ610で開始し、音声認識システムがテキスト入力を受け取る。テキスト入力は、音声認識システムから導出されること、または既存のドキュメント内のテキストであることが可能である。具体的には、テキストは、受信された電子メール・メッセージであることが可能である。ステップ610の完了の後、方法は、ステップ620に進むことが可能である。ステップ620で、音声認識システムは、文脈モデルの階層を使用して、受け取られたテキストを処理することができる。例えば、テキストは、文脈モデルの階層に含まれる文脈モデルのそれぞれを使用して処理することができる。最高の信頼スコアを有するテキストをもたらす文脈モデルを、後続のユーザの口頭の発話をテキストに変換する際に使用するための正しい、つまり最も適切な文脈モデルとして特定することができる。処理は、逐次に、または並列に進められることが可能である。
【0052】
例えば、対話ベースのシステムにおいて、ユーザからの「はい」または「いいえ」の応答が、特定の対話プロンプトに対する応答として予期されるが、ユーザは、「はい、ただし、私はXを望む」のように応答する可能性がある。この場合、ユーザは、応答し、追加の情報を提供している。したがって、対話ベースのシステムは、ユーザが応答したプロンプトに対応する文脈モデルを含むことが可能であるが、ユーザの応答は、別のシステム・プロンプトに対する予期される応答によりよく似ている可能性がある。特に、「はい」または「いいえ」の返答に限定されない予期される応答によりよく似ている可能性がある。いずれにしても、音声認識システムから導出されたテキストは、文脈モデルの階層を使用して処理することができる。最高の信頼スコアを有するテキストをもたらす文脈モデルを特定することができる。留意すべきこととして、ユーザ応答は、NLUシステムによって予期されるユーザ応答のタイプとは異なっていたため、特定された文脈モデルは、ユーザが応答した特定の対話プロンプトからのユーザ応答を処理することに通常、関連する文脈モデルとは異なる可能性がある。さらに、特定された文脈モデルは、ユーザの口頭の発話をテキストに変換するのに音声認識システムによって使用される文脈モデルとは異なる可能性がある。
【0053】
本発明の別の実施形態では、識別可能なドキュメント・セクションに対応する文脈モデルを特定することができる。例えば、ユーザがドキュメントを口述しており、音声認識システムによってユーザのカーソルがそのドキュメントの特定のセクション内に位置していることが判定される場合、音声認識システムは、そのドキュメント・セクションに対応する文脈モデルを特定することができる。少なくとも最初、その特定された文脈モデルを使用して、ユーザのカーソルが対応するドキュメント・セクション内に位置している間、後続で受け取られたユーザの口頭の発話を処理することができる。さらに、ユーザは、音声コマンドまたはポインタ・コマンドを介するなどの別の方法で、音声認識システムに対してドキュメント・セクションを指定することができる。留意すべきこととして、文脈モデルを決定するその他の方法も組み込むことができる。例えば、満足の行かない信頼スコアに基づき、音声認識システムは、別の文脈モデルを選好して特定された文脈モデルの使用を中止することが可能である。
【0054】
音声認識システムは、所定の最低しきい値を超える信頼スコアを有するテキストを生成する1つまたは複数の文脈モデルを特定する可能性があることが認められよう。その場合、音声認識システムは、それぞれの特定された文脈モデルを使用することができ、各モデルを使用した結果に、確率係数を使用して重み付けを行うことができる。例えば、この係数は、結果のテキストの信頼スコアに直接に関連していることが可能である。別法として、音声認識システムは、特定された文脈モデル間で補外を行うことができる。さらに、最高の信頼スコアを有するテキストをもたらす文脈モデルを選択することができる。ステップ620の完了の後、方法は、ステップ630に進むことが可能である。
【0055】
ステップ630で、特定された文脈モデルを使用して、音声認識システムにおける後続のユーザの口頭の発話を処理することができる。音声認識システムは、文脈モデル決定から特定の時間内に生じる後続のユーザの口頭の発話は、その決定を行うのに使用されたテキストと同様の構文および語彙を有する、または同様の主題に関連する可能性が高いという前提で動作することができる。したがって、主題に基づいて文脈モデルを選択することに加えて、口述システムに関連して、方法は、NLUシステムにおける対話状態に応じて文脈モデルの階層から文脈モデルを選択することができる。
【0056】
本発明の別の実施形態は、受信された電子メール・メッセージに基づいて文脈モデルを選択することを含むことが可能である。例えば、受信された電子メール・メッセージを処理して、その電子メールに対応する適切な文脈モデルを決定することができる。特定された文脈モデルを使用して、後続のユーザの口頭の発話をテキストに変換することができる。具体的には、ユーザが受信された電子メール・メッセージに返答していることが可能な口述セッション中に、文脈モデルを使用してユーザの口頭の発話を変換することができる。したがって、受信された電子メールを処理して、その受信された電子メールの主題に対応する文脈モデルを決定することができる。その文脈モデルを使用して、その電子メールに対するユーザの口述の応答を処理することができる。さらに、音声認識システムは、メッセージの主題を含め、受信された電子メール・メッセージの異なる部分を処理することができる。本発明の別の実施形態では、適切な文脈モデルを決定する際に主題に追加の重みを与えることができる。ステップ630の完了の後、方法は、ステップ640に進むことが可能である。
【0057】
ステップ640で、セグメントが完了している場合、方法は、ステップ650に進む。完了していない場合、方法は、ステップ610に進み、さらなるテキストを収集する。具体的には、セグメントは、文脈モデルの階層の基礎の役割をする初期文脈モデルを構築するのに使用されるテキスト単位に対応することが可能である。例えば、セグメントは、ドキュメント、段落、文、ドキュメントの一部分、または所与の対話プロンプトに対するユーザ応答に対応することが可能である。所定の量のテキストが収集されると、セグメントは完了する。別法として、ユーザは、テキストに変換されるべきユーザの口頭の発話の開始および終了を音声認識システムに通知することができる。いずれにしても、初期文脈モデルを構築するのに使用される量のテキストが収集されて、セグメントが完了することが可能である。
【0058】
セグメントが完了している場合、ステップ650で、方法は、完了したセグメントに対応する新しい文脈モデルを動的に構築することができる。さらに、方法は、文脈モデルの階層を動的に再構成するための方法500を実行することができる。ステップ650の完了の後、方法は、繰り返されることが可能である。
【図面の簡単な説明】
【0059】
【図1】本発明を使用することができる例示的なコンピュータ・システムを示す概略図である。
【図2】音声認識のための例示的なアーキテクチャを描いた概略図である。
【図3】音声認識エンジンを構成することが可能な通常の構成要素を示す概略図である。
【図4】音声認識エンジンを構成することが可能な通常の構成要素を示す概略図である。
【図5】文脈モデルの例示的な階層を示すブロック図である。
【図6】本発明の例示的な方法を示す流れ図である。
【図7】本発明の例示的な方法を示す流れ図である。
Claims (10)
- 統計的に平滑化されて言語モデルにされる文脈モデルの階層を使用して音声をテキストに変換する方法であって、
(a)複数の文脈モデルを使用してテキストを処理するステップであって、
前記複数の文脈モデルのそれぞれが、前記複数の文脈モデルの階層におけるノードに対応するステップと、
(b)前記テキストに関連する前記文脈モデルの少なくとも1つを特定するステップと、
(c)前記特定された少なくとも1つの文脈モデルを使用して後続のユーザの口頭の発話を処理するステップとを含む方法。 - 前記ステップ(a)が逐次に、または並列に行われる請求項1に記載の方法。
- 前記複数の文脈モデルの少なくとも1つが、
(i)ドキュメント、またはドキュメントの一部分、
(ii)対話ベースのシステムにおける特定の対話状態で受け取られた少なくとも1つのユーザ応答、
(iii)対話ベースのシステムにおける特定のトランザクションにおける特定の位置で受け取られた少なくとも1つのユーザ応答、
(iv)対話ベースのシステムにおけるプロンプトの構文、
(v)特定の既知の対話ベース・システム・プロンプト、または
(vi)受信された電子メール・メッセージのうちの1つまたは複数に対応する請求項1または2に記載の方法。 - 文脈モデルの階層を生成する方法であって、
(a)距離測定基準を使用して複数の文脈モデルのそれぞれの間の距離を測定するステップであって、
前記複数の文脈モデルの少なくとも1つが、ドキュメントの一部分、または対話ベースのシステムにおけるユーザ応答に対応するステップと、
(b)前記複数の文脈モデルから2つを特定するステップであって、
前記特定された文脈モデルが、前記複数の文脈モデルのその他の文脈モデルより距離が近いステップと、
(c)前記特定された文脈モデルをマージして親文脈モデルにするステップと、
(d)根底ノードを有する前記複数の文脈モデルの階層が生成されるまで前記ステップ(a)、(b)、および(c)を繰り返すステップと、
(e)前記複数の文脈モデルの前記階層を統計的に平滑化して言語モデルをもたらすステップとを含む方法。 - 前記マージするステップ(c)が、前記特定された文脈モデルの結合をもたらす前記特定された文脈モデル間の補間を行うステップをさらに含む請求項4に記載の方法。
- 前記ステップ(c)が、前記特定された文脈モデルに対応するデータを使用して親文脈モデルを構築するステップをさらに含む請求項4に記載の方法。
- (a)複数の文脈モデルを使用してテキストを処理するステップであって、
前記複数の文脈モデルのそれぞれが、前記複数の文脈モデルの階層におけるノードに対応するステップと、
(b)前記テキストに関連する前記文脈モデルの少なくとも1つを特定するステップと、
(c)前記特定された少なくとも1つの文脈モデルを使用して後続のユーザの口頭の発話を処理するステップとをマシンが行うようにさせるための前記マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムを記憶しているマシン可読ストレージ。 - (a)距離測定基準を使用して複数の文脈モデルのそれぞれの間の距離を測定するステップであって、
前記複数の文脈モデルの少なくとも1つが、ドキュメントの一部分、または対話ベースのシステムにおけるユーザ応答に対応するステップと、
(b)前記複数の文脈モデルから2つを特定するステップであって、
前記特定された文脈モデルが、前記複数の文脈モデルのその他の文脈モデルより距離が近いステップと、
(c)前記特定された文脈モデルをマージして親文脈モデルにするステップと、
(d)根底ノードを有する前記複数の文脈モデルの階層が生成されるまで前記ステップ(a)、(b)、および(c)を繰り返すステップと、
(e)前記複数の文脈モデルの前記階層を統計的に平滑化して言語モデルをもたらすステップとをマシンが行うようにさせるための前記マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムを記憶しているマシン可読ストレージ。 - 前記マージするステップ(c)が、前記特定された文脈モデルの結合をもたらす前記特定された文脈モデル間の補間を行うステップをさらに含む請求項8に記載のマシン可読ストレージ。
- 前記マージするステップ(c)が、前記特定された文脈モデルに対応するデータを使用して親文脈モデルを構築するステップをさらに含む請求項8に記載のマシン可読ストレージ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/798,655 US6754626B2 (en) | 2001-03-01 | 2001-03-01 | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
PCT/GB2002/000889 WO2002071391A2 (en) | 2001-03-01 | 2002-02-28 | Hierarchichal language models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004523004A true JP2004523004A (ja) | 2004-07-29 |
JP3940363B2 JP3940363B2 (ja) | 2007-07-04 |
Family
ID=25173942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002570227A Expired - Fee Related JP3940363B2 (ja) | 2001-03-01 | 2002-02-28 | 階層言語モデル |
Country Status (10)
Country | Link |
---|---|
US (1) | US6754626B2 (ja) |
EP (1) | EP1366490B1 (ja) |
JP (1) | JP3940363B2 (ja) |
KR (1) | KR100563365B1 (ja) |
CN (1) | CN1256714C (ja) |
AT (1) | ATE276568T1 (ja) |
CA (1) | CA2437620C (ja) |
DE (1) | DE60201262T2 (ja) |
ES (1) | ES2227421T3 (ja) |
WO (1) | WO2002071391A2 (ja) |
Cited By (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008511024A (ja) * | 2004-08-20 | 2008-04-10 | マルチモーダル・テクノロジーズ・インク | 音声からの意味内容の自動抽出および構造化文書の生成 |
JP2009518678A (ja) * | 2005-12-08 | 2009-05-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンテキストの動的作成のための方法及びシステム |
JP2014222516A (ja) * | 2010-01-18 | 2014-11-27 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9892734B2 (en) | 2006-06-22 | 2018-02-13 | Mmodal Ip Llc | Automatic decision support |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
JP2022534242A (ja) * | 2019-05-31 | 2022-07-28 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030023437A1 (en) * | 2001-01-27 | 2003-01-30 | Pascale Fung | System and method for context-based spontaneous speech recognition |
DE10110977C1 (de) * | 2001-03-07 | 2002-10-10 | Siemens Ag | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem |
KR100480272B1 (ko) * | 2001-10-31 | 2005-04-07 | 삼성전자주식회사 | 소결합 고도 병렬 라우터 내의 라우팅 조정 프로토콜을위한 프리픽스 통합 방법 |
US7143035B2 (en) * | 2002-03-27 | 2006-11-28 | International Business Machines Corporation | Methods and apparatus for generating dialog state conditioned language models |
FR2841355B1 (fr) | 2002-06-24 | 2008-12-19 | Airbus France | Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef |
US6944612B2 (en) * | 2002-11-13 | 2005-09-13 | Xerox Corporation | Structured contextual clustering method and system in a federated search engine |
US7171358B2 (en) * | 2003-01-13 | 2007-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Compression of language model structures and word identifiers for automated speech recognition systems |
US20040138883A1 (en) * | 2003-01-13 | 2004-07-15 | Bhiksha Ramakrishnan | Lossless compression of ordered integer lists |
US7346151B2 (en) * | 2003-06-24 | 2008-03-18 | Avaya Technology Corp. | Method and apparatus for validating agreement between textual and spoken representations of words |
CA2486128C (en) | 2003-10-30 | 2011-08-23 | At&T Corp. | System and method for using meta-data dependent language modeling for automatic speech recognition |
US8656274B2 (en) * | 2003-10-30 | 2014-02-18 | Avaya Inc. | Automatic identification and storage of context information associated with phone numbers in computer documents |
US7295981B1 (en) * | 2004-01-09 | 2007-11-13 | At&T Corp. | Method for building a natural language understanding model for a spoken dialog system |
US7231019B2 (en) * | 2004-02-12 | 2007-06-12 | Microsoft Corporation | Automatic identification of telephone callers based on voice characteristics |
CN1655232B (zh) * | 2004-02-13 | 2010-04-21 | 松下电器产业株式会社 | 上下文相关的汉语语音识别建模方法 |
US8687792B2 (en) * | 2004-04-22 | 2014-04-01 | Hewlett-Packard Development Company, L.P. | System and method for dialog management within a call handling system |
US7908143B2 (en) * | 2004-04-28 | 2011-03-15 | International Business Machines Corporation | Dialog call-flow optimization |
US8768969B2 (en) * | 2004-07-09 | 2014-07-01 | Nuance Communications, Inc. | Method and system for efficient representation, manipulation, communication, and search of hierarchical composite named entities |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US20130304453A9 (en) * | 2004-08-20 | 2013-11-14 | Juergen Fritsch | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech |
US8335688B2 (en) * | 2004-08-20 | 2012-12-18 | Multimodal Technologies, Llc | Document transcription system training |
US7392187B2 (en) * | 2004-09-20 | 2008-06-24 | Educational Testing Service | Method and system for the automatic generation of speech features for scoring high entropy speech |
US7840404B2 (en) * | 2004-09-20 | 2010-11-23 | Educational Testing Service | Method and system for using automatic generation of speech features to provide diagnostic feedback |
US7630976B2 (en) * | 2005-05-10 | 2009-12-08 | Microsoft Corporation | Method and system for adapting search results to personal information needs |
US7590536B2 (en) * | 2005-10-07 | 2009-09-15 | Nuance Communications, Inc. | Voice language model adjustment based on user affinity |
US8265933B2 (en) * | 2005-12-22 | 2012-09-11 | Nuance Communications, Inc. | Speech recognition system for providing voice recognition services using a conversational language model |
US7835911B2 (en) * | 2005-12-30 | 2010-11-16 | Nuance Communications, Inc. | Method and system for automatically building natural language understanding models |
US8301448B2 (en) | 2006-03-29 | 2012-10-30 | Nuance Communications, Inc. | System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy |
US7992091B2 (en) * | 2006-03-30 | 2011-08-02 | At&T Intellectual Property I, L.P. | Message-oriented divergence and convergence of message documents |
US9497314B2 (en) * | 2006-04-10 | 2016-11-15 | Microsoft Technology Licensing, Llc | Mining data for services |
US8831943B2 (en) * | 2006-05-31 | 2014-09-09 | Nec Corporation | Language model learning system, language model learning method, and language model learning program |
EP1887562B1 (en) * | 2006-08-11 | 2010-04-28 | Harman/Becker Automotive Systems GmbH | Speech recognition by statistical language model using square-root smoothing |
US8418217B2 (en) | 2006-09-06 | 2013-04-09 | Verizon Patent And Licensing Inc. | Systems and methods for accessing media content |
US8464295B2 (en) * | 2006-10-03 | 2013-06-11 | Verizon Patent And Licensing Inc. | Interactive search graphical user interface systems and methods |
US8316320B2 (en) * | 2006-10-03 | 2012-11-20 | Verizon Patent And Licensing Inc. | Expandable history tab in interactive graphical user interface systems and methods |
US20080091423A1 (en) * | 2006-10-13 | 2008-04-17 | Shourya Roy | Generation of domain models from noisy transcriptions |
EP2089877B1 (en) * | 2006-11-16 | 2010-04-07 | International Business Machines Corporation | Voice activity detection system and method |
JP5229216B2 (ja) * | 2007-02-28 | 2013-07-03 | 日本電気株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US8285539B2 (en) * | 2007-06-18 | 2012-10-09 | International Business Machines Corporation | Extracting tokens in a natural language understanding application |
US9058319B2 (en) * | 2007-06-18 | 2015-06-16 | International Business Machines Corporation | Sub-model generation to improve classification accuracy |
US8521511B2 (en) | 2007-06-18 | 2013-08-27 | International Business Machines Corporation | Information extraction in a natural language understanding system |
US9342588B2 (en) * | 2007-06-18 | 2016-05-17 | International Business Machines Corporation | Reclassification of training data to improve classifier accuracy |
US8019760B2 (en) * | 2007-07-09 | 2011-09-13 | Vivisimo, Inc. | Clustering system and method |
US8983841B2 (en) * | 2008-07-15 | 2015-03-17 | At&T Intellectual Property, I, L.P. | Method for enhancing the playback of information in interactive voice response systems |
US8447608B1 (en) * | 2008-12-10 | 2013-05-21 | Adobe Systems Incorporated | Custom language models for audio content |
US8457967B2 (en) * | 2009-08-15 | 2013-06-04 | Nuance Communications, Inc. | Automatic evaluation of spoken fluency |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
US8959102B2 (en) | 2010-10-08 | 2015-02-17 | Mmodal Ip Llc | Structured searching of dynamic structured document corpuses |
US8977537B2 (en) | 2011-06-24 | 2015-03-10 | Microsoft Technology Licensing, Llc | Hierarchical models for language modeling |
US9733901B2 (en) | 2011-07-26 | 2017-08-15 | International Business Machines Corporation | Domain specific language design |
US10229139B2 (en) | 2011-08-02 | 2019-03-12 | Cavium, Llc | Incremental update heuristics |
WO2013020001A1 (en) * | 2011-08-02 | 2013-02-07 | Cavium, Inc. | Lookup front end output processor |
US8965763B1 (en) | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US9275411B2 (en) | 2012-05-23 | 2016-03-01 | Google Inc. | Customized voice action system |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US10354650B2 (en) * | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US8880398B1 (en) | 2012-07-13 | 2014-11-04 | Google Inc. | Localized speech recognition with offload |
US8700396B1 (en) * | 2012-09-11 | 2014-04-15 | Google Inc. | Generating speech data collection prompts |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US20140136210A1 (en) * | 2012-11-14 | 2014-05-15 | At&T Intellectual Property I, L.P. | System and method for robust personalization of speech recognition |
US9070366B1 (en) * | 2012-12-19 | 2015-06-30 | Amazon Technologies, Inc. | Architecture for multi-domain utterance processing |
US9761225B2 (en) | 2013-03-11 | 2017-09-12 | Nuance Communications, Inc. | Semantic re-ranking of NLU results in conversational dialogue applications |
US9269354B2 (en) | 2013-03-11 | 2016-02-23 | Nuance Communications, Inc. | Semantic re-ranking of NLU results in conversational dialogue applications |
US9361884B2 (en) | 2013-03-11 | 2016-06-07 | Nuance Communications, Inc. | Communicating context across different components of multi-modal dialog applications |
US10083200B2 (en) | 2013-03-14 | 2018-09-25 | Cavium, Inc. | Batch incremental update |
US10229144B2 (en) | 2013-03-15 | 2019-03-12 | Cavium, Llc | NSP manager |
US9595003B1 (en) | 2013-03-15 | 2017-03-14 | Cavium, Inc. | Compiler with mask nodes |
US9195939B1 (en) | 2013-03-15 | 2015-11-24 | Cavium, Inc. | Scope in decision trees |
US9626960B2 (en) * | 2013-04-25 | 2017-04-18 | Nuance Communications, Inc. | Systems and methods for providing metadata-dependent language models |
US9558749B1 (en) * | 2013-08-01 | 2017-01-31 | Amazon Technologies, Inc. | Automatic speaker identification using speech recognition features |
US9412365B2 (en) * | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US20150309984A1 (en) * | 2014-04-25 | 2015-10-29 | Nuance Communications, Inc. | Learning language models from scratch based on crowd-sourced user text input |
US9972311B2 (en) | 2014-05-07 | 2018-05-15 | Microsoft Technology Licensing, Llc | Language model optimization for in-domain application |
US9437189B2 (en) * | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
EP3161666A1 (en) * | 2014-06-25 | 2017-05-03 | Nuance Communications, Inc. | Semantic re-ranking of nlu results in conversational dialogue applications |
KR101610151B1 (ko) * | 2014-10-17 | 2016-04-08 | 현대자동차 주식회사 | 개인음향모델을 이용한 음성 인식장치 및 방법 |
US9734826B2 (en) | 2015-03-11 | 2017-08-15 | Microsoft Technology Licensing, Llc | Token-level interpolation for class-based language models |
US10108603B2 (en) * | 2015-06-01 | 2018-10-23 | Nuance Communications, Inc. | Processing natural language text with context-specific linguistic model |
US10274911B2 (en) * | 2015-06-25 | 2019-04-30 | Intel Corporation | Conversational interface for matching text of spoken input based on context model |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
CN109313896B (zh) * | 2016-06-08 | 2020-06-30 | 谷歌有限责任公司 | 可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质 |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
CN108573697B (zh) * | 2017-03-10 | 2021-06-01 | 北京搜狗科技发展有限公司 | 一种语言模型更新方法、装置及设备 |
US10832658B2 (en) | 2017-11-15 | 2020-11-10 | International Business Machines Corporation | Quantized dialog language model for dialog systems |
CN108922543B (zh) * | 2018-06-11 | 2022-08-16 | 平安科技(深圳)有限公司 | 模型库建立方法、语音识别方法、装置、设备及介质 |
US11372823B2 (en) * | 2019-02-06 | 2022-06-28 | President And Fellows Of Harvard College | File management with log-structured merge bush |
CN114078469B (zh) * | 2022-01-19 | 2022-05-10 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、终端和存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4320522A (en) * | 1980-05-09 | 1982-03-16 | Harris Corporation | Programmable frequency and signalling format tone frequency encoder/decoder circuit |
CH662224A5 (de) * | 1982-10-01 | 1987-09-15 | Zellweger Uster Ag | Digitalfilter fuer fernsteuerempfaenger, insbesondere fuer rundsteuerempfaenger. |
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US5257313A (en) * | 1990-07-09 | 1993-10-26 | Sony Corporation | Surround audio apparatus |
US5465318A (en) * | 1991-03-28 | 1995-11-07 | Kurzweil Applied Intelligence, Inc. | Method for generating a speech recognition model for a non-vocabulary utterance |
US5694558A (en) * | 1994-04-22 | 1997-12-02 | U S West Technologies, Inc. | Method and system for interactive object-oriented dialogue management |
US5742797A (en) * | 1995-08-11 | 1998-04-21 | International Business Machines Corporation | Dynamic off-screen display memory manager |
US5832492A (en) * | 1995-09-05 | 1998-11-03 | Compaq Computer Corporation | Method of scheduling interrupts to the linked lists of transfer descriptors scheduled at intervals on a serial bus |
US6278973B1 (en) * | 1995-12-12 | 2001-08-21 | Lucent Technologies, Inc. | On-demand language processing system and method |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
US5913038A (en) * | 1996-12-13 | 1999-06-15 | Microsoft Corporation | System and method for processing multimedia data streams using filter graphs |
EP0903727A1 (en) | 1997-09-17 | 1999-03-24 | Istituto Trentino Di Cultura | A system and method for automatic speech recognition |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6061653A (en) * | 1998-07-14 | 2000-05-09 | Alcatel Usa Sourcing, L.P. | Speech recognition system using shared speech models for multiple recognition processes |
US6185530B1 (en) * | 1998-08-14 | 2001-02-06 | International Business Machines Corporation | Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system |
US6188976B1 (en) * | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
JP4244423B2 (ja) * | 1999-01-28 | 2009-03-25 | 株式会社デンソー | 適正単語列推定装置 |
US6253179B1 (en) * | 1999-01-29 | 2001-06-26 | International Business Machines Corporation | Method and apparatus for multi-environment speaker verification |
US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6308151B1 (en) * | 1999-05-14 | 2001-10-23 | International Business Machines Corp. | Method and system using a speech recognition system to dictate a body of text in response to an available body of text |
-
2001
- 2001-03-01 US US09/798,655 patent/US6754626B2/en not_active Expired - Lifetime
-
2002
- 2002-02-28 KR KR1020037010835A patent/KR100563365B1/ko not_active IP Right Cessation
- 2002-02-28 CA CA002437620A patent/CA2437620C/en not_active Expired - Fee Related
- 2002-02-28 DE DE60201262T patent/DE60201262T2/de not_active Expired - Lifetime
- 2002-02-28 CN CNB02805640XA patent/CN1256714C/zh not_active Expired - Fee Related
- 2002-02-28 AT AT02700489T patent/ATE276568T1/de not_active IP Right Cessation
- 2002-02-28 JP JP2002570227A patent/JP3940363B2/ja not_active Expired - Fee Related
- 2002-02-28 ES ES02700489T patent/ES2227421T3/es not_active Expired - Lifetime
- 2002-02-28 WO PCT/GB2002/000889 patent/WO2002071391A2/en active IP Right Grant
- 2002-02-28 EP EP02700489A patent/EP1366490B1/en not_active Expired - Lifetime
Cited By (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP4940139B2 (ja) * | 2004-08-20 | 2012-05-30 | マルチモーダル・テクノロジーズ・インク | 音声からの意味内容の自動抽出および構造化文書の生成 |
JP2008511024A (ja) * | 2004-08-20 | 2008-04-10 | マルチモーダル・テクノロジーズ・インク | 音声からの意味内容の自動抽出および構造化文書の生成 |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP2009518678A (ja) * | 2005-12-08 | 2009-05-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンテキストの動的作成のための方法及びシステム |
JP2013122599A (ja) * | 2005-12-08 | 2013-06-20 | Nuance Communications Austria Gmbh | コンテキストの動的作成のための方法及びシステム |
US8473296B2 (en) | 2005-12-08 | 2013-06-25 | Nuance Communications, Inc. | Method and system for dynamic creation of contexts |
US8798997B2 (en) | 2005-12-08 | 2014-08-05 | Nuance Communications, Inc. | Method and system for dynamic creation of contexts |
US9412370B2 (en) | 2005-12-08 | 2016-08-09 | Nuance Communications, Inc. | Method and system for dynamic creation of contexts |
US9892734B2 (en) | 2006-06-22 | 2018-02-13 | Mmodal Ip Llc | Automatic decision support |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP2014222517A (ja) * | 2010-01-18 | 2014-11-27 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
JP2014222516A (ja) * | 2010-01-18 | 2014-11-27 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
KR101775708B1 (ko) | 2010-01-18 | 2017-09-06 | 애플 인크. | 지능형 자동화 어시스턴트 |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
JP2022534242A (ja) * | 2019-05-31 | 2022-07-28 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 |
JP7343087B2 (ja) | 2019-05-31 | 2023-09-12 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
KR100563365B1 (ko) | 2006-03-22 |
EP1366490A2 (en) | 2003-12-03 |
CN1535460A (zh) | 2004-10-06 |
CA2437620C (en) | 2005-04-12 |
DE60201262D1 (de) | 2004-10-21 |
US20020123891A1 (en) | 2002-09-05 |
WO2002071391A2 (en) | 2002-09-12 |
EP1366490B1 (en) | 2004-09-15 |
ES2227421T3 (es) | 2005-04-01 |
ATE276568T1 (de) | 2004-10-15 |
KR20030076686A (ko) | 2003-09-26 |
CN1256714C (zh) | 2006-05-17 |
US6754626B2 (en) | 2004-06-22 |
JP3940363B2 (ja) | 2007-07-04 |
DE60201262T2 (de) | 2005-11-17 |
WO2002071391A3 (en) | 2002-11-21 |
CA2437620A1 (en) | 2002-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3940363B2 (ja) | 階層言語モデル | |
CN110050302B (zh) | 语音合成 | |
EP1696421B1 (en) | Learning in automatic speech recognition | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US7603278B2 (en) | Segment set creating method and apparatus | |
US7072837B2 (en) | Method for processing initially recognized speech in a speech recognition session | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
JP4510953B2 (ja) | 音声認識におけるノンインタラクティブ方式のエンロールメント | |
US10713289B1 (en) | Question answering system | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
Watts | Unsupervised learning for text-to-speech synthesis | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
Baljekar | Speech synthesis from found data | |
KR100930714B1 (ko) | 음성인식 장치 및 방법 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2017194510A (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
TWI731921B (zh) | 語音識別方法及裝置 | |
Jackson | Automatic speech recognition: Human computer interface for kinyarwanda language | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis | |
WO2022074760A1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
Wiggers | HIDDEN MARKOV MODELS FOR AUTOMATIC SPEECH RECOGNITION | |
Teshite et al. | Research Article Afan Oromo Speech-Based Computer Command and Control: An Evaluation with Selected Commands | |
Stiles et al. | Testing and improvement of the triple scoring method for applications of wake-up word technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060322 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060613 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070327 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070330 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100406 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100406 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110406 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110406 Year of fee payment: 4 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110406 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120406 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120406 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130406 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130406 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140406 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |