JP5322655B2

JP5322655B2 - 莫大な語彙を有する音声認識システム

Info

Publication number: JP5322655B2
Application number: JP2008543980A
Authority: JP
Inventors: ソルトサッフェル
Original assignee: ニュアンスコミュニケーションズオーストリアゲーエムベーハー
Priority date: 2005-12-08
Filing date: 2006-12-06
Publication date: 2013-10-23
Anticipated expiration: 2026-12-06
Also published as: US20080294441A1; US20130185073A1; JP2013068970A; US8666745B2; DE602006012218D1; CN101326572A; CN101326572B; US20120136662A1; ATE457510T1; CN102176310B; US8140336B2; CN102176310A; EP1960997A1; EP1960997B1; RU2008127509A; JP2009518677A; JP5968774B2; WO2007066297A1; US8417528B2

Description

本発明は、音声ブロックから単語を識別するための音声認識システムに関し、特に連続的音声認識装置に関する。さらに、本発明は、音声ブロックから単語を識別するための装置及び方法、並びに当該方法を実施するためのコンピュータ可読コードに関する。

音声認識システムにおいて、入力音声ブロックは、音声ブロックの口頭コンテントの音声的特徴を認識単語に変換するコンピュータシステムによって処理される。音声の認識は、複数のステップを含む複雑な作業である。第１のステップは、一般的に何らかの音響特徴抽出を含み、音響リソースに基づいて、単語又は単語のパーツを表す音声特徴が、音声ブロックから抽出される。前記音声特徴が続いて採点され、音響得点は、特徴が音声ブロック中の所与の位置で特定の単語又は単語の一部によって引き起こされた確率を表す。パターンマッチング技術は、音声特徴のシーケンスから単語又は単語のパーツの有望なシーケンスを決定するために用いられる。単語又は単語の一部及び与えられた得点は、グラフ構造中に順序づけられ、次のステップにおいて、前記グラフ中で最も有望な単語シーケンスが導き出される。最も有望な単語シーケンスが、認識単語として採用される。

米国特許6,542,866B1は、複数の特徴ベクトルが入力信号のセグメントに対して生成される方法及び装置を開示する。復号器は、単語が入力信号のセグメントによって表される確率を表す経路スコアを生成する。経路スコアは、各々のセグメントに用いるのに最良の特徴ベクトルを選択することによって生成される。経路スコアは、セグメントに対する異なる特徴ベクトルに基づく。

従来技術のシステムは、限られた数の単語だけを認識することが可能な大語彙連続音声認識装置（Large Vocabulary Continuous Speech Recognizer: LVCSR）と考えられる。上記した音響処理及びパターンマッチングに加えて、そのようなシステムは、ユーザ辞書（User Lexicon: ULX）及び古典的な単語言語モデル（Language Model: LM）に基づく。ULXは、単語パーツ（音素）のシーケンスから、システムによって知られている単語を識別するために用いられる。単語LMは、単語のシーケンスを採点するために用いられ、それによって、音響レベルより上の言語レベルでのモデリングを実現する。古典的な単語LMは、各々の既知の単語に対して、共にn個の単語からなる複数の単語履歴の統計に基づく。そのようなLMは、有意な統計を得るために十分に大きな数の単語履歴を観測するため、多数のコーパスで訓練される。一般的に、約64000個のモデル化された単語を持つトライグラム（trigram）LM（n = 3）に対して、必要なコーパスは、何百万もの単語の規模のサイズを有する。したがって、最高水準のLVCSRによって認識できる単語の数を増加させるための主要な課題は、十分に多数のコーパスを収集する必要があることである。ユーザ辞書及び計算機パワーは、より多くの単語を扱うことができるように着実に増加しているが、限られた数の単語のみしか認識されることができない。

本発明の発明者は、原則として無制限の数の単語を認識することが可能な改善された音声認識システムが有益であることを認識し、その結果、本発明を発明した。好ましくは、本発明は、単独で又は任意の組み合わせにおいて、従来技術の上記の又は他の不利な点の一つ以上を緩和し、軽減し、又は排除する。

本発明の第１の態様によれば、音声ブロックから単語を識別するための音声認識システムが提供され、
当該音声認識システムは、
- 単語グラフ中の最良の経路を導き出すための単語認識部を有し、各々の単語は、単語スコア及び音素表記を割り当て、単語が、前記最良の経路に基づいて音声ブロックに割り当てられ、単語グラフ中の各々の単語の単語スコアが、音素言語モデル（LM）を単語グラフの各々の単語に適用することから取得される単語スコアを含む。

当該音声認識システムは、一般的にコンピュータ化されたシステムであり、音声は、例えば、マイクロフォンによるユーザからの直接の音声として、コンピュータシステムから音声ファイルとして、音声を出力することが可能なアナログ装置から等、音声ブロックとして入力される。音声認識システムは、連続音声のためのオンライン又はオフライン認識装置として、及び"コマンド制御"認識装置のために用いられることができる。その場合、（文法）構文情報が、音素LMの代わりに、又は音素LMと一緒に用いられることができる。音声認識システムは、ユーザとコンピュータシステムとの間のインタフェースシステムとして例えば用いられることができる。

音声認識システムは、各々の単語が単語スコア及び音素表記を割り当てた単語グラフ生成することができ、そのような単語グラフは、他のソースによって生成され又は提供されることができ、単語認識装置によって利用されることができる。当該単語グラフは、各々の単語の単語スコアが、音素言語モデル（LM）を当該単語グラフの各々の単語に適用することから取得される単語スコアを含むようなグラフである。単語スコアは、音響音素スコア及び音素LMスコアの合計として取得されることができる。スコアは、通常、見つけ出された確率の負の対数である。

本発明は、多くの理由によって有利である。音素表記及び音素LMに単語グラフの基礎をおくことによって、単語LMの必要性がなく、認識できる単語の数は、認識システムの単語LM中の単語の数によって制限されない。その代わりに、認識可能な単語の数は、許容単語の辞書中に記憶される単語の数のみによって制限され、莫大な又は無制限の数の単語が利用可能である。音素言語モデルは基本単位として音素を用いるので、莫大な数の単語を取り扱うことができる。したがって、システムは、音素レベルで言語モデリングを処理することを必要とするだけであり、単語レベルでの処理は必要ない。莫大な語彙を処理することによる有利な帰結として、辞書外単語（out of vocabulary word: OOV）は、わずかな量しか存在しないか、又は殆ど全く存在せず、したがって、OOV単語から生じる状況及び重大なエラー等のための特別処理を設定する必要はない。さらに、音素LMが、従来の単語LMにおいて行われていたように一定のペナルティを用いる代わりにバックオフ（backing-off）によって、見たことのない単語の確率に関する情報を有するので、音素LMモデルを用いることにより、見たことのない単語は、従来の単語LMの場合よりも効率的に処理される。さらに、単語グラフの各々の単語への音素言語モデルの適用に単語グラフの基礎をおくことによって、LM適応は、実行されることができるとしても、必要性はない。音声認識システムは、任意の音素LM適応技術を含むように拡張されることもできる。これは、例えば、形態学的に正しい単語シーケンスが欠如しているフリースタイルテキストにとって有用である。さらに、音声認識が音素LMに基づくので、システムは、従来の単語ベースの統計的なLMよりも良好に、フリースタイルの言語、予想外の単語シーケンス又はランダムな単語シーケンスを取り扱うように設定されることができる。従来の認識システムは、そのような状況では動作が悪化するが、本発明の認識システムは容認できるように動作する。

本発明によるシステムの有利な実施の形態は、従属請求項2に規定され、当該音声認識システムは、200000個を超える単語、100万個を超える単語、10億個を超える単語、又は実際にはそれらより多くの無制限の数の単語からなる許容単語の辞書に基づく。単語の書記素表記及び音声表記に加えて、辞書の各々の単語エントリは、単語の語幹を含むことができる。許容単語の辞書は、莫大単語辞書（Huge word Lexicon: HwLex）とも呼ばれる。莫大な数の単語がシステムによって取り扱われることができるので、HwLex適応は必要ない。しかし、HwLex適応が実行されることができ、新たな単語が追加され、対応するデータが生成される。HwLexは、いかなる音素LM適応も伴わずに適応されることができる。

本発明のシステムの有利な実施の形態は従属請求項3及び4に規定され、音声認識システムは、音素グラフを音声ブロックから抽出するための音素認識部をさらに有し、音素グラフは、音素を各々の辺に割り当て、単語グラフ中の単語の音声表記は音素グラフに基づき、音響音素スコアが各々の音素に割り当てられる。音素認識部は、任意の標準的な音響特徴抽出技術（例えばメル周波数ケプストラム係数（MFCC）、線形予測符号化（LPC）、相対スペクトル係数（RASTA）、知覚線形予測（PLP）など）を適用することによって、音響的に音声ブロックを処理することができる。音響モデリングは、任意の音素ベースの音響モデリング（例えば（任意の）状態モデル（ラプラス分布又はガウス分布との混合）による音素モデルである隠れマルコフモデル（HMM））に基づくことができる。音素認識の中核は、任意のパターンマッチングに基づくものであることができる。

本発明のシステムの有利な実施の形態は、従属請求項5に規定され、音声認識システムは、音素グラフを単語-音素グラフに変換するための単語-音素グラフ発生部をさらに有し、単語-音素グラフは、単語及び関連する音声表記を各々の辺に割り当てる。音素グラフから単語-音素グラフを提供することは有利である。それは、このようにして、音素のシーケンスを単語のシーケンスにデコードするために、単語-音素グラフの単語と対応する音素との間の直接的な繋がりが提供されるからである。

本発明のシステムの有利な実施の形態が従属請求項6に規定され、音素シーケンス仮説が決定されて音素グラフに追加され、単語-音素グラフは拡張された音素グラフに基づく。音素シーケンス仮説は、音素シーケンス仮説発生部によって、音素グラフに追加される。音素シーケンス仮説によって音素グラフを拡張することは利点である。それは、このようにして、音素シーケンス仮説が、音素認識部の音響エラーを、そのようなエラーが存在する場合に、少なくともある程度補償することができるからである。さらに、不明確な音声も、仮説の生成によって少なくともある程度認識されることができる。

本発明のシステムの有利な実施の形態は、従属請求項7に規定され、拡張された音素グラフは、辞書中に存在しない単語からなる拡張された音素グラフの音素シーケンスを除去するために、許容単語の辞書（HwLex）を適用することによってフィルタリングされる。このようにして、許容単語だけが処理されることが保証される。さらに、そのフィルタリングステップを音素シーケンス仮説発生部に一体化することは有効である。それは、このようにして、重要でない音素シーケンス（例えば、いかなる許容単語にもマッチしないシーケンス）が考慮されないことが保証されるからである。それによって、拡張された音素グラフのより効率的な処理が提供される。

本発明のシステムの有利な実施の形態は、従属請求項8に規定され、時間同期した単語-音素グラフが提供され、時間的に順方向又は逆方向の繋がりのない単語は単語音素グラフから除去される。このようにして、単語-音素グラフの無効な経路が除去されることが保証され、単語-音素シーケンスのより効率的な処理を提供する。

従属請求項6〜8の実施の形態は、有効に組み合わせられることができ、それにより、重要な音素シーケンスのみが単語-音素グラフにおいて考慮されることが保証される。

本発明のシステムの有利な実施の形態が従属請求項9に規定され、音声認識システムは、単語-音素グラフを単語グラフに変換するための単語グラフ発生部をさらに有し、単語グラフは単語を各々の辺に割り当てる。基本単位として単語を用いるよりも、基本単位として音素を用いて動作することがより効率的なので、単語を直接デコードする代わりに、音素の分析から音声ブロックの可能性のある単語を割り当てることは有効である。

本発明のシステムの有利な実施の形態は、従属請求項10に規定され、音素言語モデルは、m-gram言語モデル又はコンパクトなvariagramである。そのような種類の言語モデルは周知であり、それによって、堅固な言語モデルを保証する。

本発明の第２の態様によると、音声ブロックから単語を識別する方法が提供され、各々の単語が単語スコアを割り当てた単語グラフ中の最良の経路が導き出され、単語は前記最良の経路に基づいて前記音声ブロックに割り当てられ、単語グラフ中の各々の単語のスコアは、音素言語モデルを単語グラフの各々の単語に適用することから得られる単語スコアを含む。

本発明の第３の態様によると、音声ブロックから単語を識別するための装置が提供され、当該装置は、
- 音声ブロックから音声を取り込むための音声変換部、
- 音声認識システム、
- 認識単語を出力するための出力モジュール、
を有し、前記音声認識システムが、
- 単語グラフ中の最良の経路を導き出すための単語認識部を有し、
各々の単語は、単語スコアを割り当て、単語が、最良の経路に基づいて音声ブロックに割り当てられ、単語グラフ中の各々の単語の単語スコアが、音素言語モデルを単語グラフの各々の単語に適用することから取得される単語スコア含む。

音声変換部は、マイクロフォン、又は取り込まれた音声を音声認識システムで取り扱うためのデジタル表現に変換する他の手段であることができる。出力モジュールは、デジタル形式又は非デジタル形式（例えばテキスト形式）のいずれかで、単語を出力するための任意の種類のモジュールであることができる。本装置は、ディクタホン（登録商標）のような装置、任意の形式の音声制御装置等であることができる。

本発明の第３の態様によると、本発明の第２の態様の方法を実施するためのコンピュータ可読コードが提供される。

一般的に、本発明の様々な態様が、本発明の範囲内で可能な任意の態様で組み合わせられ、結合されることができる。本発明のこれらの及び他の態様、特徴及び／又は利点が、以下に記載される実施の形態から明らかになり、それらを参照して説明される。

本発明の実施の形態は、図面を参照して、単なる例として記載される。

標準的な大語彙連続音声認識装置（LVCSR）アーキテクチャにおいて、とりわけ、ユーザ辞書（User Lexicon: ULX）及び言語モデル（LM）が、基本コンポーネントである。それらは共に、認識可能な単語の数を制限する。

ここで示される音声認識システムはこの制限を克服し、ここで示される音声認識システムは、莫大な量の単語を認識することが可能であり、原理的には無制限の数の単語を認識することが可能であるので、莫大連続音声認識装置（HVCSR）と呼ばれる。HVCSRは、従来のLMを持たず、実際に用いられる言語の許容単語を決定するために、従来のULXの代わりにいわゆる莫大単語辞書（Huge word Lexicon: HwLex）を適用する。HwLexは、実際の言語の単語及びそれらの音声表記（phonetic transcription）を記憶する。HwLexは、以下でさらに詳しく述べられる。HVCSRにおいて、情報ソースは、多数の認識可能な単語を取り扱うことができるように、LVCSRと比較すると異なって組み合わせられる。HwLexは、通常、一体化されたLVCSRのように、それを音素ツリーとして認識プロセスに一体化するには、あまりに大きい。

図1は、本発明の莫大語彙連続音声認識装置（Huge Vocabulary Continuous Speech Recognizer: HVCSR）の実施の形態を示す。認識装置は、3つのリソース、HwLex 12、音響リソース29、音素LM 36を利用し、これらは、図2〜4と共にさらに論じられる。

第１のステップにおいて、音素認識装置41が、音声ブロック40に適用される。音素認識装置は音響リソース29を用いることにより入力音声ブロックを処理し、音素グラフ42が出力される。音素グラフは、有望な音素の表示であり、各々の音素は、所与の音素が特定の音声位置で発音された確率を表す音響スコアを持つ。

次のステップとして、単語-音素グラフ発生器43が、生じた音素グラフに適用される。単語-音素グラフ発生器の出力は、単語-音素グラフ44である。音声表記も、各々の単語辺（word-edge）に対して利用可能である。単語-音素発生器には、音素シーケンス仮説を生成してそれらによって音素グラフを拡張すること、及び拡張された音素グラフを単語-音素グラフに変換すること、の２つのタスクがある。

この発生器は、音素グラフ中に見出すことができるものに似た音素シーケンス仮説を生成して、この仮説によって音素グラフを拡張する。その後、拡張された音素グラフは、許容単語のシーケンスのみから構成されるグラフ経路をフィルタリングするために、HwLex 12を適用することによって解析される。HwLexは、各々の単語に対して、主たる音素シーケンス仮説として参照されることもできる、より許容され得る表記を備えることができる。HwLex解析の結果、グラフ経路上で単語を識別する単語-音素グラフ44が形成される。

次の処理ステップにおいて、単語グラフ発生器45は、単語-音素グラフを単語グラフに変換する。ここで、音素LM 36が、それぞれの単語シーケンス仮説を採点するために単語-音素グラフに適用される。それは、平均履歴長さm（mは一般的に8〜10）によって、必要ならば単語の境界を超えて、音素履歴をモデル化する。したがって、音素LMは、単語LM（bigram, trigram）によって表される情報も取り込む。音素LMスコアは、実際の単語シーケンスが現在の音声位置で発音された確率の決定に寄与する。仮説の組み換えによって、単語-音素グラフが変化し、同様に音素コンテント情報はもはや必要でなく、そして単語グラフ46が生成される。

最後の処理ステップにおいて、最良経路計算機47は、認識単語48として示される最も有望な単語シーケンスを単語グラフから選択する。

上記したように、HwLexは実際の言語の単語及びそれらの音声表記を記憶する。これは、言語の許容単語を識別して、それらの発音を記述する音素シーケンスを検索することを可能にする。いくつかの理想的でない状態の下では、単語は、標準的な発音と比べて異なって発音される。そのような状態は、例えばあまりに速い音声、不明確な音声などである。そのような場合の認識を同様にサポートするために、HwLexは、単語の「劣化した（degraded）」発音を含むことができる。形式上、これらは、音素を挿入して、削除して又は置換することによって標準の表記から導き出されることができる。そのようなバイアスされた表記の作成は、人工的な方法又はより自然な方法に基づくことができる。人工的な方法は、例えば、いくつかの音声距離測度によって正確な基準を適用することにより、標準的な表記からこれらの表記変種を導き出すことである。音声距離測度は、例えば、比較される表記間の音素差分の数であることができる。距離測度基準は、表記変種の音素長さに依存することができる。語幹は、不明確さによって変化しないか又は僅かしか変化しないので、不明確な音声を認識するためにある程度用いられることができる。語幹の発音を用いること、又はそのような条件の下で統計学的により頻繁に発生する発音を収集することは、より自然な構成である。とにかく、そのような表記変種の作成は、それらが属する単語に依存することができる。加えて、それらは、単語がオリジナルの表記形式の代わりに特定の表記変種によって発音される確率を表すペナルティを有することができる。用いられる構成方法にかかわらず、そのような表記変種は、また、許容表記として考慮される。

図2は、許容単語の辞書（HwLex）を生成するプロセスのフローチャートを示す。HwLexは、莫大な数の単語の書かれたテキストユニット（例えばデータファイル）と実際の言語の対応する文法フォームとからなるコーパス1に基づくことができる。前処理ステップ2において、句読点、数字などのようないくつかの非単語形式が、排除されることができ、又は単語形式（書記素シーケンス）に変換されることができる。単語反復部3は、前処理されたコーパスの各々の単語に、以下の処理をシーケンシャルに適用する。各々の単語から、その「標準的な」音声表記9及びその語幹7が生成され、それらは単語の書記素シーケンスフォーム8と共に、生のHwLexへのエントリを生成するための入力を供給する。音声表記を生成する音声転写部5は、統計学的に又は確定的に、実際の設定及び言語に依存していることができる。語幹識別部4は、例えば自動的言語特有接頭辞及び接尾辞フィルタを適用することによって機能する。生のHwLex 10は、それによって生成される。生のHwLexは、許容表記ビルダー11によって続いて処理され、許容表記ビルダー11は、生のHwLexの各々のエントリに対して更なる許容表記及びペナルティを割り当てることができる。許容表記ビルダーは、例えば単語の中心部分だけが発音される不明確な音声において、より頻繁に発生する発音変種の前もって記憶されたリスト、いくつかの音声距離測度又は言語考察のいずれかを用いることができる。最終的に、修正されたエントリは、生成されたHwLexに12になる。

図3は、音響リソースを訓練するフローチャートを示す。

音響リソースは、認識に用いられる音素の音響特性を表す。それは、実際の言語の音素の音響モデルから構成される。

音響リソースは、入力されたトレーニング素材20に基づく。トレーニング素材は素材アイテムのリスト（例えば素材ファイルのリスト）から構成されており、それは記録された音声及び対応する参照テキストから構成されていることができる。

素材反復部21は、トレーニング素材全体を反復し、素材アイテムに分解する。各々の素材アイテムに対して、それはとりわけ音声及びテキストユニット対（例えばファイル）を返す。テキスト22は、音素シーケンス発生器25に供給される。音素シーケンス発生器は、HwLex12から必要な音声表記を読み込むことによって、単語ベースで入力テキストを音素シーケンスに変換する。音声及びテキストユニットの音声23は、音響プロセッサ26に供給される。音響プロセッサは、重要な情報を音声から抽出する。結果として生じる音響表記24は、圧縮形式の情報であり、いくつかの情報が失われるから、厳密な原音へ逆変換されることができない。音響リソース訓練部27は、新たな音響リソース29を生成するために、（例えば、トライフォンモデリング、音素状態拘束又はクロスワードモデリングのような）いくつかの音響モデル関連技術を音素シーケンス及び対応する音声パーツの音響表記に適用する。音響プロセッサ26及び音響リソース訓練部27は、選択的に実際の音響リソース28を参照することができる。音響リソース訓練部27は、以前に訓練された音響リソース28を繰り返し更新する。しかし、適切な初めの音響リソース28が無い場合には、それは無から開始する。

既に述べられたように、音素LMは、基本単位として音素を用いるmグラム（m-gram）LMであり、mは音素の数の履歴長さである。通常、mはnより大きく（nは１つの単語中の音素の平均の数）、モデルは単語を飛び越える。したがって、単語間の間隔は、また、特別な音素としてモデル化される。

音素LMはまた、単語のパーツが参照済みであることに起因して、見たことのない単語に関する情報を有する。これは、それが、一定のペナルティの代わりに、単語パーツにバッキングオフ（backing-off）することによって、見たことのない単語をモデル化することを意味する。例えば、単語"pro-fuse"はLMトレーニングコーパスに存在しなかったが、"pro-found"及び"con-fuse"は存在したとする。音素LMを利用することで、"pro-fuse"の確率は、例えば"pro-found"において参照された"pro"の確率と、例えば"con-fuse"において参照された"fuse"の確率とを組み合わせることによって、推定される。言語単位のシーケンスの確率をそのパーツの確率を組み合わせることによってモデル化することは、バッキングオフ（backing-off）と呼ばれている。一般に、音素LMは、単語内及び単語間の両方の形態的な情報を組み込み、この結果として、仮説の選択に音素LMを適用する場合、音素LMは、形態学的に正しい単語シーケンスを好む。

hによって単語履歴長さを表現し、m = h*nとしてみよう。単語バイグラム（bigram）又はトライグラム（trigram）情報を組み込むために、hを2〜3.5とすることができ、その結果、m>8となる。加えて、HwLex中の全ての単語に対して少なくとも単語バイグラム（bigram）履歴を有するために、mは、莫大単語辞書中の最も長い単語より大きくなければならない。単語LMに対して実行されることができるように、音素LMはまた、よりコンパクトなvarigramとして編成されることができる。

音素LMを生成する処理シーケンスのフローチャートが、図4に示される。

音素LMは、HwLexと同様に、書かれたテキストユニットからなるコーパス1に基づき、HwLex作成に関して説明されるように、コーパスの前処理31が非単語形式を回避するために実行される。

音声翻訳部32は、書記素シーケンスを音素シーケンスに変換して、コーパスの音素表記を出力する。音声翻訳部32は、表記リソース33を利用する。コーパスの音素表記は、音素シーケンス反復部34に入力され、音素シーケンス反復部は各々の音素シーケンスに繰り返し適用され、各々の音素シーケンスは音素シーケンス反復部を通過して統計計算ブロック35に至り、そこで音素シーケンス統計計算、LMグラム推定が実行される。最終的に、音素LM 36が確立される。

図2は莫大単語辞書を作成する方法の実施の形態を示し、図3は音響リソースを作り上げる実施の形態を示し、そして図4は音素LMを提供する実施の形態を示す。しかしながら、説明された実施の形態は、リソースの提供の仕方の例を提供するだけであり、莫大単語辞書、音響リソース及び音素LMを提供する他の手段が構想されることができることが理解されるべきである。

図1に示される莫大語彙連続音声認識装置は、図5〜7と共にさらに詳しく述べられる。

図1に41によって示される音素認識装置は、図5において更に詳細に示される。

音声ブロック40は、最初に音響的に処理される50。音響処理50は、基本的情報を音声から抽出して、パターンマッチングブロック52に入力される音響表記51を出力する。パターンマッチングブロックは、音声の入力音響表記51の最も有望な音素シーケンスを捜す。結果は、一連の音素グラフ42である。音素グラフにおいて、各々の音素は、それがかつてその時間位置で発音された確率を表すスコアを有する。各々の音素グラフは、時間間隔に対応する。つまり、同じ時間間隔（及びそれらのスコア）を有している全ての経路は、同等である。

図1で43によって示される単語-音素グラフ発生器が、図6で更に詳細に示される。

第１のステップとして、新たな音素シーケンス仮説は、音素シーケンス仮説発生器60によって作成されて、拡張された音素グラフ61を作成するために音素グラフに挿入される。各々の新たな音素シーケンス仮説は、元の音素シーケンス仮説の累積的なスコアを継承する。加えて、各々の新たな音素シーケンス仮説は、ペナルティと呼ばれて元の音素シーケンス仮説を新たなものに置き換える確率を表す付加的なスコアを有することができる。音素の数が、新たな音素シーケンス仮説と元の音素シーケンス仮説とで異なる場合には、適切なスコア平滑化技術が、新たな音素シーケンス仮説の音素のスコアを計算するために適用される。

新たな音素シーケンス仮説を作成する典型的な態様は、それらの認識エラーに従って混同行列から音素を挿入することである。これは、音素認識装置の音響エラーを補償するために実行される。これは、HwLexから独立した方法であり、実際的には、グラフの扱い易さを維持するために、最もありそうな認識エラーだけが新たな音素シーケンス仮説中に表されなければならない。これは、枝刈り技術（pruning technique）によって達成されることができる。

新たな音素シーケンス仮説を作成する他の態様は、HwLexから単語の許容表記を適用することである。ここでは、許容表記が新たな音素シーケンス仮説の役割をする。それらはHwLexから音素グラフに直接挿入されないが、それらは単語仮説パーサ62において検出され、同様に、適切な場合には、それらは生の単語-音素グラフ63に挿入される。この場合、新たな音素シーケンス仮説のペナルティはHwLexに由来する。音素シーケンス仮説作成方法は、混同行列、許容語幹、収集された発音リスト、音素距離ベースのような方法であることができ、又はそのような方法を含むことができる。

以降の処理ステップにおいて、単語仮説パーサ62は、拡張された音素グラフを処理する。それは、単語の許容表記を探すことによって、拡張された音素グラフ中の有効な音素シーケンス仮説をフィルタリングするために、HwLex 12を利用する。この処理の間、生の単語-音素グラフ63が構築される。これは、例えば時間同期した単語挿入を適用することによって実行されることができる。各々の時点に対して、全ての見つけ出された許容単語が、ちょうどその時点で終了する生の単語-音素グラフに挿入される。同じ開始及び終了時刻をもつ同じ単語の１つのコピーだけが、そのグラフに挿入されることができる。全ての挿入された単語は、また、その音素コンテントを含む。このようにして、いくつかの無効な経路も生の単語-音素グラフ中に生じ、それらはグラフの終了点への順方向の接続又は開始点への逆方向の接続を持たない。他の設定において、単語仮説パーサは、有効な音素シーケンス仮説をフィルタリングする間に、重要な、従ってより少ない音素シーケンス仮説だけを処理するために、音素シーケンス仮説生成プロセスに直接組み込まれる。

無効の経路が経路後処理64において削除され、選択的に、単語仮説は枝刈りされる。結果として生じる単語-音素グラフ44はまた、次のステップにおいて必要である単語の音素シーケンスコンテントへのアクセスを提供する。単語が構成音素の累積的なスコア及びペナルティを継承することに留意すべきである。

図1中に45によって示される単語グラフ発生器が、図7中に更に詳細に示される。

単語-音素グラフは、生単語グラフ発生器71に挿入される。生単語グラフ発生器は、単語-音素グラフの単語の各々の音素を採点するために音素LM36を利用する。ここで、実際の言語ユニットは現在の単語の最初の音素であり、履歴構成している以前の言語ユニットは残りのm-1個の音素である。辞書中の最も長い単語より大きなmを有し、m-1個の長さの音素シーケンスは、明らかに、常に実際の単語をカバーする。音素スコア全体は、音響スコア及び音素LMスコアの組み合わせとして得られる。単語は、それらの音素の蓄積されたスコアを継承する。採点した後に、単語は再び結合される。再結合によって新たな単語グラフが発生し、音素シーケンス情報は、もはや必要でない。また、無効の経路が存在する可能性があり、経路後処理73が、無効の経路をキャンセルするために適用され、選択的に枝刈りを同様に実行する。後処理73の後、最終的な単語グラフ46が出力される。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組み合わせを含む任意の適切な形式で実施されることができる。本発明又はいくつかの本発明の特徴は、１つ以上のデータプロセッサ及び／又はデジタルシグナルプロセッサ上で動作するコンピュータソフトウェアとして実施されることができる。本発明の実施の形態の構成要素及びコンポーネントは、任意の適切な態様で、物理的、機能的及び論理的に実施されることができる。実際に、機能は、単一のユニット、複数のユニットとして、又は他の機能ユニットの一部として、実施されることができる。このように、本発明は単一のユニットで実施されることができ、又は異なるユニット及びプロセッサ間で物理的及び機能的に分布することができる。

本発明が好ましい実施の形態に関して説明されたが、本願明細書に記載される特定の形式に限定されることを意図しない。むしろ、本発明の範囲は、添付の請求の範囲だけによって制限される。

開示された実施の形態の特定の具体的な詳細は、本発明の明白な及び詳細な理解を提供するために、限定のためではなく説明のために記載される。しかしながら、この開示の精神及び範囲から著しく逸脱せずに、本願明細書に記載される詳細に厳密には従わない他の実施の形態として本発明が実践されることが、当業者によって理解されるべきである。さらに、この文脈において、簡潔さ及び明快さのために、よく知られた装置、回路及び方法論の詳細な説明は、不必要な詳細及び起こりうる混乱を回避するために省略された。

参照符号が請求項中に含まれるが、これは単に明快さのためであって、請求の範囲を制限するものとして解釈されてはならない。

単語認識装置の実施の形態を示す図。 HwLexを生成する実施の形態を示す図。音響トレーニングを実行する実施の形態を示す図。音素LMを生成する実施の形態を示す図。音素認識装置の実施の形態を示す図。単語-音素グラフ発生器の実施の形態を示す図。単語グラフ発生器の実施の形態を示す図。

Claims

入力音声ブロックから単語シーケンスを認識する音声認識システムであって、
前記入力音声ブロックから音素グラフを抽出する音素認識部と、
前記音素認識部で抽出された音素グラフを、各単語に対する劣化した発音の音素列も含む莫大単語辞書を用いて、単語及び関連する音素表記を各辺に割り当てた単語-音素グラフに変換する単語-音素グラフ生成部と、
前記単語-音素グラフ生成部で得られた単語-音素グラフに、音素を用いたｍ−ｇｒａｍを適用して単語スコアを得ると共に、単語-音素グラフの音素表記を不要なものとして単語グラフを生成する単語グラフ発生部と、
前記単語スコアを用いて単語グラフ中の最良の経路を単語シーケンスとして導き出し、前記単語シ−ケンスを前記入力音声ブロックの認識結果とする単語認識部と、
を備えた音声認識システム。
前記莫大単語辞書は200000語より多い単語を含む許容単語の辞書である、請求項１に記載の音声認識システム。
音響音素スコアが各音素に割り当てられる、請求項１に記載の音声認識システム。
音素シーケンス仮説を決定して前記音素グラフに追加し、それにより、拡張された音素グラフを提供する音素シーケンス仮設発生部をさらに有し、
前記単語-音素グラフは当該拡張された音素グラフに基づく、請求項１に記載の音声認識システム。
前記拡張された音素グラフを、前記莫大単語辞書を適用することにより、当該辞書中に存在しない単語からなる前記拡張された音素グラフの音素シーケンスを除去するためにフィルタリングするフィルタリング手段をさらに有する、請求項４に記載の音声認識システム。
時間同期した単語-音素グラフが提供され、時間的に順方向又は逆方向の繋がりを持たない単語が前記単語-音素グラフから除去される、請求項１に記載の音声認識システム。