JP2004534275A

JP2004534275A - 音声認識における高速検索

Info

Publication number: JP2004534275A
Application number: JP2003511229A
Authority: JP
Inventors: フランクティービーセイデ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-07-06
Filing date: 2002-06-21
Publication date: 2004-11-11
Also published as: KR20030046434A; WO2003005343A1; EP1407447A1; US20030110032A1; CN1524260A; TW575868B

Abstract

音声認識が、音声信号が与えられた場合に、複数の語の系列のうちの最も確かそうな語系列を検索する処理を含んでいる。斯様な系列の各々は、連続した状態の系列からなるような複合系列である。検索処理は、各々が状態系列の部分集合を含む対応する検索空間におけるもののような、複数の検索を含んでいる。各検索においては、当該検索空間におけるより確かそうな状態系列のみが考慮される。第１実施例においては、異なる検索空間が、語の系列のクラスからの先行する系列に後続する状態系列から形成される。異なるクラスは、検索空間の異なるものを規定する。クラスは、上記検索空間における当該状態系列までの上記複合系列における状態系列により表される、語の履歴というよりは発音的履歴に基づいて区別される。このように、異なるクラスを区別するために識別子が使用された語又は斯かる語の一部の数は、上記複合系列により表される１以上の最後の語の長さに応じて変化される。第２実施例においては、複数の異なる複合系列が連結状態系列を介しての検索に含まれ、該検索に関しては、当該検索において系列を破棄するか否かを判断するために上記複数のものにとっての代表的な確度情報が使用される。当該検索の終了時においては、当該検索を切り抜けた場合は異なる複合系列に関する確度が上記連結系列から再発生される。そして、更なる検索は、該再発生された確度に基づくものとなる。第３実施例においては、この技法は部分語レベルにおいて検索内で適用される。

Description

【技術分野】
【０００１】
コンピュータ化連続音声認識の目的は、音声信号の一連の観測されたセグメントに最も確かに対応する語系列を識別することである。各語は、音声信号の表現として発生される状態系列により表される。結果として、認識は、異なる語に対応する異なる系列間で、より確かな状態系列の複合系列を検索することを伴う。音声認識のキーとなる性能特性は、この検索の結果の信頼度、及び該検索を実行するのに要する計算的努力である。これらの特性は、検索に関わる系列の数（検索空間）に相反するように依存する。即ち、より大きな系列の数は一層信頼性のある結果を与えるが、より多くの計算的努力を必要とし、及びこれらの逆となる。認識技術は、最小の信頼度の損失で検索の大きさを制限するような効率的な検索技術を追求している。
【背景技術】
【０００２】
米国特許第5,995,930号公報は状態レベル検索を使用する音声認識技術を開示しており、該検索は可能性のある状態系列のうちの、より確かそうな状態系列を検索する。状態レベル検索は、観測された音声信号に最も密に結合される。この検索は、観測された音声信号の連続するフレームに対応する可能性のある状態系列の間での検索を伴う。異なる系列の確度（likelihood）が、観測された音声信号の関数として計算される。より確かな系列が選択される。
【０００３】
確度の計算は、モデルに基づくものである。このモデルは、従来、異なる語系列の演繹的確度を記述する言語的成分と、或る語が発生したとして、異なる状態系列が発生する演繹的確度を記述する語彙的成分とを有している。最後に、該モデルは、或る状態が与えられたとして、時間間隔（フレーム）内の当該音声信号の特性が特定の値を有するであろう確度を指定する。このように、音声信号は状態系列及び語系列により表され、該状態系列は連続する語に関する（部分）系列に副分割される。連続するフレーム内の観測された音声信号の特性が与えられたとして、これら系列の帰納的確度が計算される。
【０００４】
計算的労力を合理的な限界内に維持するためには、米国特許第5,995,930号公報に開示された検索は完全なものではない。より確かであると期待される候補状態系列及び候補語系列のみが考慮されている。これは、新たな候補系列が前の系列を新たな状態で延長することにより発生されるような漸進的確度制限検索により実現されている。より確かそうな前の系列のみが延長される。即ち、前の系列の確度が検索空間の大きさを制限するために使用されている。しかしながら、検索空間を制限することは、信頼度と妥協することになる。何故なら、破棄された確度の低い前の系列が、延長された場合に、１以上の語に対応する複数の状態の後でのみ、より確かな系列になる可能性が依然としてあるからである。
【０００５】
米国特許第5,995,930号は、状態レベル検索を、確度の限界が別個になされるような異なる検索に分割する。即ち、或る検索におけるより確かそうな系列は、他の検索がもっと確かそうな系列を含んでいるかに無関係に、延長される。異なる検索が如何にして区別されるかを理解するために、或る語に対する終端的状態で終わるような状態系列が発生され、該状態系列の最終部分が語系列に対応すると仮定されたい。当該語系列のこれら最後のＮ語は、後続の状態系列の検索を定義するために使用される。（Ｎは、言語的モデルが確度を特定するような連続する語の数であり、Ｎ＝１,２,…であるが、典型的には３以上である）。異なる検索は、各々が異なる前の“履歴”のＮ語に対して開示される。このように、各検索は、同一の履歴のＮ語に対応する系列に後続するような状態で開始する状態系列を含むことになる。同一の検索における異なる系列は、異なる開始時刻を有し得る。このように、各検索内では、これらの一番最近に生成されたＮ語が終了する最も確かそうな時点を検索することが可能である。
【０００６】
このようにして、延長されるべきより確かそうな系列の検索が、その都度異なる履歴のＮ個の一番最近の語に対応する状態系列に関して、複数回実行される。当該検索から破棄される系列は、各検索につき個々に破棄される。即ち、Ｎ個の特定の語に後続する状態系列は、これらのＮ語に続く検索においては、この状態系列がこれらＮ語に充分確かに続きそうなら、この状態系列が最も確かそうなＮ語の系列に鑑みてあまり確かそうでない場合でも、破棄されない。
【０００７】
語の認識を可能にすることとは別に、語レベル検索及び状態レベル検索への分割は、計算的労力の最小限の増加で信頼度の損失を制限する助けとなる。何故なら、語レベルの履歴の使用は、状態レベル検索よりも、音声信号のおける一層長い期間にわたる系列の選択に対する制御を可能にするからである。幾つかの余り確かそうでない状態系列（それらの語の前後関係の確かさにより、長い期間においては、より確かそうになり得る）は、検索空間の過度な増加なしで破棄することから保護される。
【０００８】
しかしながら、一番最近の語の異なる組に対しては異なる検索が実行されねばならないので、依然として検索空間のかなりの増加が存在する。これは、信頼度と計算的労力との間の取引きを意味する。即ち、より多くの最近の語を使用して異なる検索を区別すると、信頼度は増加するが、より多くの検索、従ってより多くの計算的労力が必要となるであろう。単一の一番最近の語のみ又は僅かの一番最近の語を使用して検索を区別すると信頼度は減少する。何故なら、後に確かそうになり得る状態系列が破棄される危険があるからである。
【０００９】
信頼度と計算的労力との間の他の取引は、２パス方法により実現することができる。今まで説明した方法は、音声信号が或る時間まで一旦処理されたら、当該検索の結果が直接利用可能になるので、単一パス方法と呼ばれている。２パスアルゴリズムにおいては、検索結果に第２パスを適用し、第１パスで見付かった語の代わりを見付ける。音響、音声及び信号処理に関する１９９１年の国際会議（１９９１年、トロント）の会報で公開されたSchwartz及びAustinによる論文には、語系列の検索を効率的且つ高信頼度で実施するための種々の２パス技術が述べられている。
【００１０】
Schwartz及びAustinは単一パス技術を改善する１つの解決策を述べている。この解決策においては、語レベル検索で破棄された語が、見方をして斯かる破棄された語が破棄された保持された語に関連付けて記憶される。更に、破棄された位置における破棄された語の確度も記憶される。第１パスにおいて最も確かそうな語系列が一旦見付かると、第２パスが実行され、該第２パスでは当該系列において保持された語を破棄された語により置換することにより得られる語系列に関して確度が計算される（第１パスにおいて破棄された語に関して計算された確度を用いて）。この技術は最も確かそうな語系列を失う危険性は低減するが、結果は依然として信頼性がない。何故なら、該技術は、破棄された語に続く語の間における最適な時点に対して状態レベル検索を実行しないからである。
【００１１】
Schwartz及びAustinは、この技術の第１パスの改善を述べており、該改善においては、先行する語に対応する系列に後続する最も確かそうな状態系列を検索している。最も確かそうな先行する語に対して行う代わりに、異なる先行語に対して各々、別個の検索が行われる。即ち、余り確かそうでない先行語を表す状態系列に後続する状態の確度の計算は、これら先行語の終端的状態において即座に停止されるのではなく、余り確かそうでない各先行語に続く最も確かそうな次の語が一旦見付かったら場合のみ停止する。これは、検索の信頼度を向上させる。何故なら、語が破棄される時点を遅延させ、初期に余り確かでない語系列が、もっと確かになる前に破棄されてしまう危険性を低減させるからである。更に、該方法は、先行語に後続する語を開始する最適時点を検索するのを可能にする。しかしながら、該信頼度の向上は、大きな検索の犠牲によるものである。何故なら、多数の先行語の各々に関して語彙的状態を検索しなければならないからである。
【発明の開示】
【発明が解決しようとする課題】
【００１２】
本発明の目的は、なかでも、観測された音声信号に最も確かに対応する状態系列の検索において信頼度と計算的労力との間の一層良好な取引を実現するのを可能にすることである。
【課題を解決するための手段】
【００１３】
一実施例において、本発明は、各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列より観測された音声信号を一層確かに表しそうな少なくとも１つの系列を検索するステップを有するような音声認識方法であって、該検索するステップが、
− 前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索と、
− 各々が複合系列のクラスの一部を形成するための状態系列を有するような前記検索の異なるものの検索空間であって、前記検索空間の異なるものを定義する異なるクラスは当該検索空間における状態系列までの前記複合系列における状態系列により表される語又はその一部の数の識別に基づいて区別され、異なるクラスを区別するために識別が使用された前記語又はその一部の数は当該検索空間における前記系列までの前記複合系列により表される１以上の最後の語の長さに応じて変化され、同一の１以上の最後の語に対応する複合系列は、前記最後の語の前記１以上が比較的短い場合は異なるクラスに区別されるが、前記１以上の最後の語が比較的長い場合は異なるクラスに区別されないような検索空間と、
を有するような音声認識方法を提供する。
【００１４】
この実施例においては、異なる状態レベルの検索が、各々が異なるクラスの先行系列により先行されるような状態系列に対して実行される。好ましくは、上記クラスは、異なる語履歴に基づくというよりは、異なる発音的履歴に基づいて区別される。信頼度と計算的労力との間のバランスは、異なるクラスを、従って異なる検索を区別するために使用される語情報の長さを柔軟に適応化することにより実現される。語又は斯かる語の断片の数に関する長さは、使用される特定の語に依存する。幾つかの先行する状態系列が、同一の短い語で終わるような語の系列（即ち、Ｎ語）に対応する場合は、より古い語が相違するようなこれら系列の異なるものに対して、別個の状態レベルの検索が実行される。一方、最も新しい語又はＮ語が、より長い場合は、該語又は該Ｎ語で終了するような全ての候補の語系列に対して１つの状態レベルの検索を実行することができる。
【００１５】
このことは、過度に多くの検索が実行されなければならないことを防止する。先行する語が長い場合、異なる検索を良好な信頼度で規定するには幾つかの語又は斯かる語の部分で充分である。先行する語の異なる系列が短い語で終わる場合、より早期の語のより多くの部分により区別される異なる先行系列に続いて、別個の検索が使用される。このようにして、この場合に信頼度が低下することが防止される。これは、例えば、当該検索における最も確かそうな系列の開始時点の選択が、続いて同一の検索が実行されるような異なる先行系列のより早期の語により影響されるからである。
【００１６】
好ましくは、続いて異なる検索が実行されるような先行する系列のクラスの選択は、発音的履歴に依存するようにし、言語的レベルでより確かそうな系列を選択するのに使用される語履歴の長さとは独立したものとする。典型的には、言語的モデルは３以上の語の系列に関する確度を指定する一方、同一の検索が、この数の語よりも大幅に短く広がる複数の音素を共有するような系列に対して実行される。
【００１７】
一実施例においては、先行する系列において認識された語の所定数の音素が、異なる検索を区別するために使用される。同一のＮ音素で終わる語履歴に対して連結検索が実行され、これらの音素が一部であるような実際の語とは無関係に、これらのＮ個の最後の音素が相違する語履歴に対して別個の検索が実行される。このことは、複数の検索への上記分離が語のレベルにおいてというよりは発音的レベルで決定され、従ってより信頼性があるという効果を有している。このように、複数の最も新しい音素で、即ち語の断片で相違するような最も新しい候補語の系列に対して、別個の状態レベル検索を定義することができる。
【００１８】
他の実施例においては、異なる検索を区別するために使用される音素の数は、例えば異なる検索を区別するために使用される音素が少なくとも１つの音節の終了又は少なくとも１つの母音又は少なくとも１つの子音を含むようにして、これら音素の性質に適応化される。
【００１９】
本発明による方法の他の実施例においては、状態レベルの検索の少なくとも一部を複合系列のクラスを表すような単一の状態系列を用いて実行することにより、信頼度が、検索空間を増加させることなく増加される。該クラスにとって代表的な確度情報が、検索の間において余り確かでない状態系列の破棄を制御するために使用される。当該検索（の一部）の後に、上記クラスの個々のメンバの確度が、将来の検索において使用するために、別個に再発生される。即ち、上記の代表的確度の選択は、永久的影響は有さない。後続の状態レベル検索における破棄処理は、必ずしも上記代表により決定された確度により制御されることはない。このように、既に第１パスにおいて実施された破棄された語が再考されるような２パス検索の場合と同様な信頼度の向上が実現される。また、信頼度の付加的増加が存在する。何故なら、上記クラスの個々のメンバの確度が当該検索の終了時に再発生され、将来の検索において、他のメンバを除外して単一のメンバを選択すること無しに、使用されるからである。このことは、後に余り確かでなさそうになるような代表的な語系列に基づいた誤った状態レベルの破棄の危険性を低減する。
【００２０】
この実施例においては、好ましくは、上記代表的確度から開始し、当該検索の間において最終状態に関して計算された確度が、上記異なるメンバの確度を再発生するために使用される。他の例として、これら確度は、上記初期状態から開始する個々のメンバに関して再計算することができるが、これは、より多くの計算的労力を伴う。
【００２１】
この実施例は、好ましくは、検索を定義するクラスを選択するために発音的履歴が使用される前記実施例と組み合わされるものとする。このように、クラスの発音的選択が、言語的情報に基づく後の系列の破棄において有利でないことは、クラスの形成により著しく影響されることはない。何故なら、上記クラスの個々のメンバの確度は再発生されるからである。
【００２２】
他の実施例においては、複数の異なる先行状態系列において部分語の終了に続く状態レベルの検索の一部を実行するために単一の状態系列で進めることにより、検索の労力が低減される。好ましくは、上記単一の検索が実行される系列のクラスは、先行する系列が最も新しい部分語の共有の組に対応するという事実により区別される。この組は語の境界にまたがって延びても良く、かくして、信頼度と計算的労力との間の取引は語の境界をまたぐか否かに依存しない。
【発明を実施するための最良の形態】
【００２３】
以下、本発明の上記及び他の目的及び利点を、添付図面を参照して詳細に説明する。
【００２４】
図１は、音声認識システムの一例を示す。該システムは、音声サンプリングユニット１１と、メモリ１３と、プロセッサ１４と、表示制御ユニット１５とを接続するバス１２を有している。マイクロフォン１０が、サンプリングユニット１１に接続されている。モニタ１６が、表示制御ユニット１５に結合されている。
【００２５】
動作時に、マイクロフォン１０は音声サウンドを入力して、これらサウンドを電気信号に変換し、該電気信号はサンプリングユニット１１によりサンプリングされる。サンプリングユニット１１は上記信号のサンプルをメモリ１３に記憶する。プロセッサ１４は、上記サンプルをメモリ１３から読み出し、上記音声サウンドに最も確かに対応する語系列を識別するデータ（例えば、斯かる語を表す文字のコード）を計算して出力する。表示制御ユニット１５はモニタ１６を制御して、上記語を表すグラフィック的文字を表示する。
【００２６】
勿論、マイクロフォン１０からの直接入力及びモニタ１６への出力は、音声認識の使用のほんの一例に過ぎない。マイクロフォンから入力される音声の代わりに事前記録された音声を使用することもでき、認識された語は如何なる目的にも使用することができる。図１のシステムにおいて実行される種々の機能は、異なるハードウェアユニットに如何なる方法でも分散させることができる。
【００２７】
図２は、マイクロフォン２０、サンプリングユニット２１、第１メモリ２２、パラメータ抽出ユニット２３、第２メモリ２４、認識ユニット２５、第３メモリ２６及び結果プロセッサ２７の縦続接続にわたる機能の分散を示している。図２は、異なる機能を実行する異なるハードウェアユニットによる表現と見ることができるが、該図はソフトウェアユニットの表現としても有効であり、例えば図１の構成要素のような種々の適切なハードウェア構成要素を用いて実施化することができる。
【００２８】
動作時において、サンプリングユニット２１は音声サウンドを表す信号のサンプルを第１メモリ２２に記憶する。パラメータ抽出ユニット２３は、上記音声を期間毎にセグメント化し、連続する期間の各々に対してパラメータの組を抽出する。該パラメータはサンプルを、例えば当該期間におけるサンプルにより表される信号のスペクトルのピークの強度及び相対周波数に関して記述する。パラメータ抽出ユニット２３は、該抽出されたパラメータを第２メモリ２４に記憶する。認識ユニット２５は、第２メモリ２４から上記パラメータを読み出し、一連の期間のパラメータに対応する最も確かそうな語系列を検索する。認識ユニット２５は、この最も確かそうな系列を識別するデータを第３メモリ２６に出力する。結果プロセッサ２７は、このデータを、ワードプロセッサ処理におけるような又はコンピュータの機能を制御するためのような更なる使用のために読み出す。
【００２９】
本発明は、認識ユニット２５の動作、又はプロセッサ若しくは該プロセッサの均等物により実行される認識機能に主に関するものである。認識ユニット２５は、音声信号の連続するセグメントに対し、パラメータに基づいて語系列を計算する。この計算は、音声信号のモデルに基づくものである。
【００３０】
斯様なモデルの例は、音声認識分野では良く知られている。参考のために、斯様なモデルの一例を簡単に述べるが、当業者であれば、斯かるモデルを規定するのに当業技術を頼りにするであろう。モデルの該例は、状態のタイプに関して定義される。特定のタイプの状態は、セグメント内のパラメータの可能性のある値に対する特定の確率に対応する。この確率は、状態のタイプ及びパラメータ値に依存し、例えば該確率が実例信号から推定されるような学習フェーズ後に、当該モデルにより定義される。これらの確率が如何にして得られるかは本発明にとり関係がない。
【００３１】
状態と語との間の関係は、状態レベルモデル（語彙モデル）及び語レベルモデル（言語モデル）を使用してモデル化される。言語モデルは、特定の語系列が発話されるであろう演繹的確度を指定する。これは、例えば特定の語が通常使用される確率、又は特定の語が他の特定の語により後続される確率、又はＮ個の連続した語の組が一緒に発生する確率等に関して指定される。これらの確率は、例えば学習フェーズにおいて得られた推定を用いて当該モデルに入力される。これらの確率が如何にして得られるかは、本発明には関係しない。
【００３２】
語彙モデルは、各語に関して、状態系列における当該語に対応し得る状態の連続するタイプ、及び該語に対してどの様な演繹的確度で斯様な系列が発生するかを指定する。典型的には、該モデルは各状態に関して、当該音声信号に或る語が存在する場合に該状態が後続され得る次の状態、及びどの様な確率で異なる次の状態が発生するかを指定する。該モデルは、異なる語に関する個々の下位モデルの集合として、又は語の集まりに関する単一のツリーモデルとして設けることができる。典型的には、例えば学習の間において指定された確率で、マルコフモデルが使用される。これらの確率が如何にして得られるかは本発明とは無関係である。
【００３３】
認識の間において、認識ユニット２５は異なる状態系列及び語系列の帰納的確度を、語系列が発生する演繹的確度、斯かる語系列が上記状態系列に対応する演繹的確度及び状態が異なるセグメントに関して決定されたパラメータに対応する確度から計算する。ここで使用される“確度”は、確率を表す何らかの尺度を記述するものである。例えば、既知の因数倍の確率を表す数も確度と呼ばれ、同様に、確度の対数又は他の１対１関数も確度と呼ばれる。使用される実際の確度は、便宜上の事項であり、本発明に影響を与えるものではない。
【００３４】
認識ユニット２５は、全ての可能性のある語系列及び状態系列に関する確度を計算するのではなく、該認識ユニット２５が最も確かそうな系列であることがより確かそうだと認めるものだけを計算する。
【００３５】
図３は、語及び状態の系列を確度の計算に関して図示している。該図は、状態を、音声信号の異なるセグメントに対するノード３０ａ〜ｃ、３２ａ〜ｆ、３４ａ〜ｇとして示している（明瞭化の理由で、幾つかのノードのみしか符号を付されていない）。これらノードは、認識のために使用される語彙モデルにおいて特定される状態に対応する。ノード３０ａからの異なるブランチ３１ａ〜ｂは後続のノード３０ｂ〜ｃへの可能性のある移行を示している。これらの移行は、当該語彙モデルにおいて指定されるような状態系列における連続する状態の連続に対応する。このように、時間は左から右に進み、より遅く開始する時間のセグメントに対するノードは、より右側に示されている。
【００３６】
認識ユニット２５が語を表すために状態系列を検索する場合、該ユニットは何の状態を考察するかを決定する。これらの状態に対して、該ユニットはメモリ空間を確保する。該ユニットは、斯かるメモリ空間内に状態のタイプ（例えば、語彙モデルを参照することにより）、その確度及びどの様に発生されたかに関する情報を記憶する。図３におけるノードの図示は、当該認識ユニットがメモリを確保すると共に対応する状態に関して情報を記憶したことを示している。従って、語のノード及び状態は入れ換えて使用され得るであろう。当該ユニットが情報を記憶した状態３０ａから開始すると、該認識ユニット２５は当該モデルにより許容される何の次の状態に対してメモリ空間を確保するか否かを決定する（これは“発生モード”と呼ばれる）。認識ユニット２５がその様にする状態３０ｂ〜ｃは、前のノード３０ａからブランチ３１ａ〜ｂにより接続されたノードにより表される。認識ユニット２５は、前のノード３０ａに関する情報をノード３０ａ,ｂにより表される状態に対して確保されたメモリに記憶することもできるが、代わりに、関連する情報（認識されている語の開始時刻の指示子及び該開始時刻より前の語の履歴等）を上記前のノード３０ａからコピーすることもできる。
【００３７】
ノード３０ｂ〜ｃから、可能性のある後続のノードへの移行が発生し得、等々となる。このように、異なる状態系列が表され、ノード間には当該系列における連続する状態を表すような遷移を伴う。これら系列は、当該語彙モデルが特定の語に関する状態系列が終了することを示すような語の終端状態（ノード３２ａ〜ｆにより表される）に到達する。
【００３８】
各終端ノード３２ａ〜ｆは、次の語に関する状態系列の初期ノード３４ａ〜ｆへの移行３３ａ〜ｆを有するように示されている。異なる初期ノード３４ａ〜ｆは“検索”３５ａ〜ｇと呼ぶ異なるバンド３５ａ〜ｇに示されているが、これについては後述する。上記検索３５ａ〜ｇの各々においては、状態の系列が発生し、これら系列は終端ノード３２ａ〜ｆで終了する。これらの終端ノード３２ａ〜ｆからは、後続の検索における初期ノード３４ａ〜ｆへの異なる移行が生じ、等々となる。
【００３９】
検索３５ａ〜ｆからは、当該検索３５ａ〜ｆにおいて、終端ノード３２ａ〜ｆで終了する系列の開始における初期ノード３４ａ〜ｆへ、及び該ノードから前の終端ノード３２ａ〜ｆへ逆追跡することができる。このように、終端ノード３２ａ〜ｆの系列は、如何なる終端ノード３２ａ〜ｆに関しても識別することができる。斯様な系列における各終端ノード３２ａ〜ｆは、暫定的に認識された語に対応する。従って、各終端ノード３２ａ〜ｆは、暫定的に認識された語の系列にも対応する。これらの語系列から、言語モデルを使用して、より確かそうな語系列が選択され、余り確かそうでない系列は破棄される。或る従来技術においては、このことは、例えば、異なる余り最近でない語で開始し、それ以外では同一の語を含むような複数の系列から、最も確かそうな系列以外の全ての系列（即ち、複数のより確かそうな系列）をその都度破棄することにより実行される。
【００４０】
一例において、認識ユニット２５は上記ノードを時間の関数として、即ち図において左から右へと発生し、新たに発生された各ノードに関して、当該新たに発生されたノードへの移行が生じた１つ前のノードを選択する。該前のノードは、上記の新たに発生されたノードにより後続される場合に最も高い確度の系列を生じるように選択される。例えば、時刻ｔにおける状態Ｓまでの系列の確度Ｌ(S,t)を、
Ｌ(S,t)＝Ｐ(S,S’)Ｌ(S,t-1)
により計算する場合（ここで、Ｓ’は先行する状態であり、Ｐ(S,S’)は状態タイプＳ’の状態がタイプＳの状態により後続される確率である）、当該状態Ｓに対しては、利用可能な状態から最も高いＬ(S,t)となるような先行する状態Ｓ’が選択され、Ｓと該Ｓ’との間の状態移行が発生される。このように、余り確かでない状態系列を表す移行は選択されない。即ち、最も確かそうな系列の検索においては、斯かる状態系列は考慮されない（“破棄”される）。本発明から逸脱すること無しに、状態系列を破棄する他の方法も使用することができ、例えば、或る時点までの状態系列の確度を計算し、確度が最も確かそうな系列の確度から或る閾距離内であるような系列のみに状態を追加するようにする（この場合、同一の時点に関して、同一の状態が２回以上発生し得る）。
【００４１】
認識ユニット２５が検索３５ａ〜ｇにおいて終端状態３２ａ〜ｆを一旦発生すると、該認識ユニット２５は該終端状態３２ａ〜ｆに対応する語を識別する。このように、認識は、終端状態３２ａ〜ｆが発生された時点において終了する当該語を暫定的に認識している。認識ユニット２５は同一の検索３５ａ〜ｇにおいて多くの時点で多数の終端状態を発生し得るので、該ユニットは検索３５ａ〜ｇにおいては一般的に単一の語を、又は同一の語に対して単一の時点さえも認識することはない。
【００４２】
次に、検索３５ａ〜ｇの意味を、より詳細に説明する。終端状態３２ａ〜ｆを検出した後、認識ユニット２５は、時間的に前の検索３５ａ〜ｇの終端状態３２ａ〜ｆに続く状態のより確かそうな部分系列の新たな検索３５ａ〜ｇに入る（このような状態の部分系列も、混乱を招かない限り系列と呼ぶ）。該新たな検索は好ましくは所謂“ツリー検索”であり、該ツリー検索においては同一の検索において全ての可能性のある語に関して状態系列を一度に検索するのを可能にするようなツリーモデルが使用される。これは図に示すような場合である。しかしながら、本発明から逸脱すること無しに、上記の新たな検索は、選択された語又は語の集合を表すような確かそうな状態の検索とすることもできる。
【００４３】
同一の新たな検索３５ａ〜ｇにおいて、異なる終端状態３２ａ〜ｆに続いて初期状態３４ａ〜ｆが発生される。これらの異なる終端状態は、例えば同一の検索における同一の語に対応するが、異なる時点で発生するような異なる終端状態３２ａ〜ｆを含む。新たな検索における初期状態３４ａも、種々の検索３５ａ〜ｇの終端状態３２ａ〜ｆに続く初期状態３４ａ〜ｆを含むことができる。一般的に、所定のクラスの系列の最終状態３２ａ〜ｆに続く初期状態３４ａ〜ｆは、同一の検索３５ａ〜ｇに含まれるであろう。異なるクラスの終端状態３２ａ〜ｆは、異なる検索３５ａ〜ｇにおける初期状態へ移行するであろう。
【００４４】
検索３５ａ〜ｇ内において、且つ、確度が計算されるであろう状態系列の選択の間において、認識ユニット２５は余り確かでない系列は破棄する（延長しない）。このように、検索３５ａ〜ｇにおける或る初期状態から開始した状態系列は、検索３５ａ〜ｇにおける他の初期状態から開始した系列が一層確かそうである場合は破棄され得る。同一の検索３５ａ〜ｇ内の初期状態３４ａ〜ｆのみが、このようして互いに競合する。このように、例えば、当該検索に異なる開始時刻に関する初期状態３４ａ〜ｆが含まれている場合、最も確かそうな開始時刻は、異なる時刻に関する同一の前の検索の同一の語に対応する終端状態３２ａ〜ｆに続く初期状態３４ａ〜ｆから開始する系列の確度を比較することにより選択することができる。（検索当たり単一の開始時刻のみが許容される場合は、最良の先行する最終状態の選択は各検索３５ａ〜ｇ内でも実施することができる。この場合、最適な開始時刻の選択は、異なる検索からの系列が新たな検索へと組み合わされ得る場合は、検索３５ａ〜ｇの終了でなされる。）或る検索３５ａ〜ｇにおける系列の確度は、他の検索３５ａ〜ｇにおいて破棄されるべき個々の系列の選択には影響を与えないであろう。
【００４５】
即ち、認識ユニット２５は互いに効果的に分離された異なる検索３５ａ〜ｇを実行する。このことは、或る検索３５ａ〜ｇにおける系列の発生及び破棄が、少なくとも終端状態３２ａ〜ｆに到達するまでは、他の検索３５ａ〜ｇにおける発生及び破棄に影響を与えないことを意味する。例えば、新たに発生された各状態に関して或る時点で或る先行状態が選択されるような場合においては、各検索３５ａ〜ｇに対して新たな状態が発生され、各検索３５ａ〜ｇにおいては新たに発生された各状態に対して先行状態が当該検索から選択される。
【００４６】
或る検索における発生及び破棄が他の検索に対して影響しないという点では検索３５ａ〜ｇは“別個”であるが、検索３５ａ〜ｇは他の方法では同様に別個である必要はないことに注意すべきである。例えば、異なる検索からのノードを表す情報はメモリ内に混ぜて記憶してもよく、該情報内のデータは、例えばノードに先行する語の履歴（又は語の履歴のクラス）を識別することにより該ノードが何の検索に属するかを示す。他の例では、検索３５ａ〜ｇのうちの異なるものに関するノードの発生及び破棄は、当該ノードが属する検索に３５ａ〜ｇに関して必要な場合に考慮される限りにおいて、異なる検索３５ａ〜ｇのノードを互いに混ぜて処理することにより実行することもできる。
【００４７】
本発明の第１の態様は、同一の新たな検索３５ａ〜ｇへの遷移を有するような系列のクラスの選択に関するものである。従来技術においては、同一の新たな検索は、同一の履歴のＮ個の語に対応する終端状態に後続している（当該終端ノード３２ａ〜ｆで終わった系列に沿って逆に辿ることにより決定することができるように）。従来技術においては、Ｎ個の特定の語の一番最近の履歴に対応する終端ノード３２ａ〜ｆから、これらの特定のＮ語のうちの最も古いものを除くＮ−１により先行される語Ｗに対応する検索空間へ遷移が生じる。
【００４８】
このように、従来技術においては、異なる検索３５ａ〜ｇの終端ノード３２ａ〜ｆは、これら終端ノードが同一のＮ個の先行する語に対応するならば、特定の次の検索への遷移３３ａ〜ｆを有し得る。同一の時点に関して発生する終端ノードから、最も確かそうな終端ノードが選択され、次の検索における初期ノードへの遷移３３ａ〜ｆが与えられる。このことは、各時点に対して別個に実行される。各時点に関する最も確かそうな終端ノード３２ａ〜ｆは（これらの検索３５ａ〜ｇの何れからの）、新たな検索３５ａ〜ｇの自身の初期ノードへの遷移を有している。これは、新たな検索３５ａ〜ｇが開始時間と新たな語との最も確かそうな組み合わせを検索するのを可能にする。
【００４９】
このようにして、履歴における語の数Ｎは、計算の労力に対して大きな影響を有する。Ｎが益々大きく設定されるにつれて、異なる履歴の数が増加し、これにより検索の数も増加する。しかしながら、Ｎを小さく維持することは（計算労力を限界内に維持するために）、後続の音声信号に鑑みて一層確かそうだと分かったかも知れない語系列の破棄に繋がり得るので、信頼を低下させる。更に、従来技術においては、単一パス技術が使用された場合、Ｎは言語モデルをＮ字（Ｎ-gram）モデルとして決定する。より小さなＮを選択することは、このモデルの品質を低下させる。
【００５０】
本発明は、品質を過度に低下させることなく検索の数を減少させることを狙いとする。本発明によれば、同一の検索３５ａ〜ｇへの遷移３３ａ〜ｆを有するような系列のクラスが、整数個の一番最近に認識された語に基づくというよりは、発音的履歴に基づいて選択される。
【００５１】
本発明は、或る語の最も確かそうな開示時間は、同一の発音的履歴で終了するような異なる履歴に対しては一般的に同一であるという観察に基づいている。実際には、新たな各検索３５ａ〜ｇは、前の検索３５ａ〜ｇにより、斯かる前の検索３５ａ〜ｇが新たな語の異なる開示時間の確度を特定するという点で影響を受ける。このことは、上記新たな検索が上記新たな語の開始時間と素性との最も確かそうな組み合わせを検索することを可能にする。或る語の最も確かそうな開始時間は、同一の発音的履歴で終了するような異なる履歴に対しては一般的に同一であり、当該検索において見付かる該開始時間の信頼度は、当該発音的履歴の長さに依存するであろう。一定数の語の語履歴は、これら語が長ければ長い発音的履歴を有し、これら語が短ければ短い発音的履歴を有する。このように、信頼度は、従来技術におけるように、検索を選択するために固定長の語履歴が使用される場合は、語の大きさと共に変化する。最小の信頼度を得るために、従来技術は最悪の場合（短い語）に対して履歴の長さを設定する必要があり、結果として当該履歴において長い語が発生すると計算労力は不必要に大きくなる。発音的履歴に基づいて検索を選択することにより、最小の信頼度を得るための検索の数は、より良好に制御することができる。
【００５２】
発音的履歴に基づいて区別するために、認識ユニット２５は、例えば異なる語を形成する音素を識別するような記憶された情報を使用し、当該クラスにおける系列が、認識された語における所定数の一番最近の音素が同一であるような語履歴に全て対応するかをチェックする。上記所定数は、これら音素が単一の語で発生するか若しくは２以上の語にわたって広がるか、又は、これら音素が一緒に全体の語若しくは或る語の不完全何断片を形成するかに無関係に選択される。このように、終端ノード３２ａ〜ｆが短い語に対応する場合は、当該終端ノード３２ａ〜ｆが属するクラスを選択するために、該終端ノード３２ａ〜ｆに繋がる状態系列において該終端ノード３２ａ〜ｆが長い語に対応する場合よりも多くの語の音素を用いる。
【００５３】
一実施例においては、クラスを区別するために使用される該所定数の音素は予め設定される。他の実施例においては、クラスを決定するために使用される音素の数は、例えば、これら音素が少なくとも子音、又は少なくとも母音若しくは少なくとも音節若しくはこれらの組み合わせを含むように音素の性質に依存する。
【００５４】
図４は、異なる終端ノード４０が全て新たな検索４６における同一の初期ノード４４への遷移を有するような検索を図示している。本発明の一態様によれば、これらの終端ノード４０のうちの最も確かそうなものの確度（又は、例えばｎ番目の最も確かそうな終端ノードの確度、若しくは複数のより確かそうなノードの確度の平均）が、上記新たな検索４６における初期ノード４４から始まる系列の破棄を制御するために使用される。確度の低い終端ノード４０の確度と当該検索に使用される確度との間の関係に関する情報が、例えば確度の低いノード“ｉ”のＬｍである確度Ｌｉと当該検索４６において使用される確度Ｌｍとの間の比Ｒｉ：
Ｒｉ＝Ｌｉ／Ｌｍ
の形態で保持される。検索４６が終端ノード４８に到達する際に、この情報は、該終端ノード４８で終了する系列の開始時における初期ノード４４への遷移４２を有する全ての前の系列のクラスの個々のメンバに関して確度情報を再発生するために使用される。これは、例えば上記因数Ｒｉを再導入することにより実行される。Ｌ’ｍを、検索４６の間に終端ノード４８に関して計算され、初期ノード４４から開始する系列に関して例えば初期ノード４４への遷移４２を有する最も確かそうな終端ノード４０に基づく確度で計算された確度であるとする。次いで、新たに見付かった終端ノード４８の確度Ｌ’ｍから、検索４６において認識された語により後続される終端ノード４０により関連される語履歴に対応するような複数の語履歴“ｉ”に関する確度が、
Ｌ’ｉ＝ＲｉＬ’ｍ
から計算される。（Ｒｉは当該履歴に関連する終端ノード４０に関して決定される因数である。）異なる履歴“ｉ”に関する再発生された確度Ｌ’ｉは、当該終端ノードまでの異なる系列の確度が言語的モデルを使用して計算される場合に使用される。このように、検索４６における単一の各系列は実際には履歴のクラスを表すが、検索４６の間においては単一の履歴に対する計算労力しか必要としない。これは、重大な信頼度の損失なしに計算労力を大幅に低減する。
【００５５】
ノードに関して確度情報を再発生する該方法は、検索３５ａ〜ｇの最も確かそうな開始時間が当該クラスの全てのメンバに対して同一であると仮定することができる場合は、正しい確度を取り込むことを示すことができる。
【００５６】
この第２の技法（クラスの１つのメンバの検索を実行し、該クラスの最も確かそうなメンバに対して実行された検索の終了時に該クラスの個々のメンバの確度を再発生する）は、好ましくは第１の技法（同一の発音的履歴を共有する語履歴の共同検索３５ａ〜ｇを実行する）と組み合わされる。このように、上記第１の技法は、同一の時点に関して初期ノードにおいて開始するような発音的に選択されたクラスの異なるメンバに対する個々に異なる確度の使用と組み合わせることができる。しかしながら、第２の技法は、検索労力を低減するために、必ずしも第１の技法を使用して選択されることのないような、異なる種類のクラスに対して使用することもできる。
【００５７】
図５は、上記第２の技法の部分語レベルでのアプリケーションを図示している。該図は、或る検索におけるノードの系列と遷移とを示している。斯かる系列を発生するために使用される語彙モデルにおいては、或る状態は部分語境界として符号が付されている。これらは、例えば、音素の間の遷移点に対応する。該図には、斯様な状態を表す境界ノード５０が示されている。
【００５８】
当該検索の各時点に対して、前記認識ユニットは境界ノード５０が発生されているかを検出する。もしそうなら、該認識ユニットは境界ノードのクラス５２ａ〜ｄを識別し、そこでは、同一のクラス５２ａ〜ｄにおける全ての境界ノードは当該クラスに固有の例えば所定数の音素の通常の発音的履歴に対応するような状態系列により先行される。認識ユニットは各クラスから代表的な境界ノード（好ましくは、最高の確度のノード）を選択し、当該検索をクラス５２ａ〜ｄの該選択された境界ノード５０のみから継続する。当該クラスにおける他の各境界ノード５０に対しては、当該境界ノードの確度を当該検索が継続される境界ノードの確度に関連付ける因数のような情報が記憶される。
【００５９】
当該検索が、次いで、当該クラスの上記代表的境界ノードから他の境界ノード５４又は終端ノード５６に到達すると、当該クラスの他のメンバに関して、これら他のクラスのメンバの種々の因数により上記の新たな境界ノード５４又は終端ノード５６の確度を因数分解することにより確度が再発生される。次いで、当該クラス選択処理は繰り返され、等々となる。
【００６０】
このようにして、計算労力が大幅に低減されることが分かるであろう。何故なら、新たなノードはノードのクラスの代表的なものに対してのみしか発生する必要がないからである。
【図面の簡単な説明】
【００６１】
【図１】図１は、音声認識システムを示す。
【図２】図２は、他の音声認識システムを示す。
【図３】図３は、状態系列を示す。
【図４】図４は、他の状態系列を示す。
【図５】図５は、下位語レベルでの技術の適用を示す。

Claims

各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列より観測された音声信号を一層確かに表しそうな少なくとも１つの系列を検索するステップを有するような音声認識方法において、前記検索するステップが、
− 前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索と、
− 各々が複合系列のクラスの一部を形成するための状態系列を有するような前記検索の異なるものの検索空間であって、前記検索空間の異なるものを定義する異なるクラスは当該検索空間における状態系列までの前記複合系列における状態系列により表される語又はその一部の数の識別に基づいて区別され、異なるクラスを区別するために識別が使用された前記語又はその一部の数は当該検索空間における前記系列までの前記複合系列により表される１以上の最後の語の長さに応じて変化され、同一の１以上の最後の語に対応する複合系列は、前記最後の語の前記１以上が比較的短い場合は異なるクラスに区別されるが、前記１以上の最後の語が比較的長い場合は異なるクラスに区別されないような検索空間と、
を有していることを特徴とする音声認識方法。
請求項１に記載の音声認識方法において、前記異なるクラスは、各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される自身の最後の音素に対応するような複合系列を含むように発音に基づいて区別され、異なるクラスは最後の音素の異なる組に対応し、複合系列は異なるクラスに区別され及び／又は前記音素が一部であるような語又は複数の語に無関係に同一のクラスに配置されることを特徴とする音声認識方法。
請求項１に記載の音声認識方法において、前記異なるクラスは、各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される所定数Ｎの最後の音素が同一であるような複合系列を含むように区別され、異なるクラスは前記音素が一部であるような語又は複数の語に無関係に異なるＮ個の最後の音素に対応することを特徴とする音声認識方法。
請求項１に記載の音声認識方法において、前記異なるクラスは、各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される複数の最後の音素が同一であるような複合系列を含むように区別され、前記複数の最後の音素は少なくとも１つの音節の終了を含むように選択され、異なるクラスは前記音素が一部であるような語又は複数の語に無関係に音節の終了を伴う異なる最後の音素に対応することを特徴とする音声認識方法。
請求項１に記載の音声認識方法において、前記複合系列におけるＭ個の各連続する状態系列に対応するＭ語の系列の確度を特定する語レベルのモデルに基づいて、より確かそうな複合系列を選択すると共に更なる検索から他の複合系列を破棄するステップを有し、前記Ｍ語は前記複合系列を前記クラスの異なるものに区別するような語又はその一部の数より長く、前記クラスの特定の１つの検索のうちの少なくとも１つは前記検索における当該状態系列までの複合系列を有する状態系列により表される異なるＮ個の最後の語に対応するような異なる複合系列の検索の共同した確度制限を伴い、前記特定のクラスにおける前記複合系列の間での更なる検索のための前記より確かそうな複合系列を選択するステップが、前記検索の前記少なくとも１つにおける終端状態に到達した後に実行されることを特徴とする音声認識方法。
請求項１に記載の音声認識方法であって、前記検索の特定の１つが、
− 前記検索の特定の１つに状態の連結系列を、全てが該連結系列までの最後の状態系列の終了時における同一の時点に対して終端ノードを有するような複数の複合系列に対して入力するステップであって、前記状態の連結系列には前記複数の複合系列に対して代表的な初期確度が割り当てられているようなステップと、
− 前記検索の特定の１つにおいて前記状態系列における状態に関しての確度情報に基づいて、確度の低い状態系列を破棄すると共に１以上のより確かそうな状態系列を維持するステップと、
− 前記保持された各状態系列に関する確度情報を、前記保持された状態系列における連続する各状態に関して、前記観測された音声信号及び前記保持された状態系列における先行する状態に関する確度情報の関数として増加的に計算すると共に、前記破棄するステップを繰り返すステップと、
を有するような音声認識方法において、
− 前記検索の特定の１つの終端状態に到達した際に、前記複数の複合系列における個々の複合系列に関して更なる確度情報を再発生するステップであって、前記更なる確度は、前記終端状態に繋がる前記連結系列の初期状態が前記個々の複合系列の対応する系列により先行される場合に前記終端状態に対応するようなステップと、
− 更なる検索を実行するステップであって、該更なる状態レベルの検索の間における前記計算する及び破棄するステップが前記更なる確度情報に基づくものであるようなステップと、
を有することを特徴とする音声認識方法。
請求項６に記載の音声認識方法において、前記更なる確度情報は、前記終端状態に関して前記代表的確度に基づいて増加的に計算された終端確度情報から、前記個々の複合系列に関して前記終端確度情報に補正因数を適用することにより計算されることを特徴とする音声認識方法。
各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列における他の系列より観測された音声信号を一層確かに表しそうな少なくとも１つの系列を検索するステップを有するような音声認識方法であって、前記検索するステップが、
− 前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索、
を有し、前記検索のうちの第１の検索が、
− 前記検索のうちの前記第１の検索に状態の連結系列を、全てが該連結系列までの最後の状態系列の終了時における同一の時点に対して終端ノードを有するような複数の複合系列に関して入力するステップであって、前記状態の連結系列には前記複数の複合系列に対して代表的な初期確度が割り当てられているようなステップと、
− 前記検索のうちの前記第１の検索において前記状態系列における状態に関する確度情報に基づいて、確度の低い状態系列を破棄すると共に１以上の確かそうな状態系列を維持するステップと、
− 前記保持された各状態系列に関する確度情報を、前記保持された状態系列における連続する各状態に関して、前記観測された音声信号及び前記保持された状態系列における先行する状態に関する確度情報の関数として増加的に計算すると共に、前記破棄するステップを繰り返すステップと、
を有するような音声認識方法において、
− 前記検索のうちの前記第１の検索の終端状態に到達した際に、前記複数の複合系列における個々の複合系列に関して更なる確度情報を再発生するステップであって、前記更なる確度は、前記終端状態に繋がる前記連結系列の初期状態が前記複数の個々の複合系列の対応する系列により先行される場合に前記終端状態に対応するようなステップと、
− 更なる検索を実行するステップであって、該更なる検索の間における前記計算する及び破棄するステップが、前記個々の複合系列に関する前記更なる確度情報に基づくものであるようなステップと、
を有することを特徴とする音声認識方法。
各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列より観測された音声信号を一層確かに表しそうな少なくとも１つの系列を検索するステップであって、前記各状態系列が語を表すようなステップを有する音声認識方法において、前記検索するステップが、
− 前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索と、
− 前記状態系列において部分語境界状態に対応する状態を識別するステップと、
− 前記状態系列の対応するものに対して前記音声信号における共通の時点に関して発生する前記部分語境界状態のクラスを識別するステップであって、前記状態系列の各々は全て、前記共通の時点で終了する発音的に等価な履歴を表すような状態系列から形成された対応する複合系列の一部であるようなステップと、
− 当該クラスにおける全ての部分語境界状態により共有される単一の後継状態から前記漸進的な確度の制限された検索を、前記単一の後継状態に対して前記クラスにとり代表的な確度情報を用いることにより継続して、後続の状態に関する確度情報を計算すると共に、次の部分語境界状態又は終端状態が識別されるまで後続の検索を制御するステップと、
− 前記次の部分語境界状態又は終端状態に関する複数の確度情報を、前記部分語境界状態のクラスの対応するメンバを含む場合に前記次の部分語境界状態及び終端状態に先行する状態系列に対応して計算するステップと、
− 更なる検索を実行するステップであって、該更なる検索が前記対応するメンバに関して計算された確度情報を個々に用いるようなステップと、
を有することを特徴とする音声認識方法。
請求項９に記載の音声認識方法において、前記クラスのメンバである部分語境界状態は前記クラスのメンバでない部分語境界状態から、前記複合系列を介して当該部分語境界状態が一部であるような状態系列の開始状態を超えて延びる先行する状態の系列の間の差に基づいて区別され、これにより、前記クラスは所定量の発音的履歴に基づいて、該発音的履歴が語の境界をまたがって延びるかに無関係に区別されることを特徴とする音声認識方法。
音声認識システムにおいて、
− 音声信号を入力する入力端と、
− 各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列より観測された音声信号を一層確かに表しそうな少なくとも１つの系列を検索するように構成された認識ユニットであって、前記検索が、前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索を有するような認識ユニットと、
を有し、
− 前記認識ユニットは、各々が複合系列のクラスの一部を形成するための状態系列を有するような検索空間に対して前記検索のうちの異なるものを開始し、前記検索空間の異なるものを定義する異なるクラスは、前記複合系列における前記検索空間内の当該状態系列までの状態系列により表される語又はその一部の数の識別に基づいて区別され、異なるクラスを区別するために識別が使用された語又はその一部の数は、前記検索空間における当該系列までの前記複合系列により表される１以上の最後の語の長さに依存して変化され、同一の１以上の最後の語に対応する複合系列は、前記１以上の最後の語が相対的に短い場合には異なるクラスに区別されるが、前記１以上の最後の語が相対的に長い場合は異なるクラスに区別されない、
ことを特徴とする音声認識システム。
請求項１１に記載の音声認識システムにおいて、前記認識ユニットは異なるクラスを発音に基づいて、各クラスが前記検索における当該状態系列までの前記複合系列を有するような状態系列により表される最後の音素の自身の組に対応するような複合系列を含むように区別し、異なるクラスは最後の音素の異なる組に対応し、複合系列は異なるクラスに区別され及び又は前記音素が一部であるような語又は複数の語に無関係に同一のクラスに配置されることを特徴とする音声認識システム。
請求項１１に記載の音声認識システムにおいて、前記認識ユニットは前記異なるクラスを各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される所定数Ｎの最後の音素が同一であるような複合系列を含むように区別し、異なるクラスは前記音素が一部であるような語又は複数の語に無関係に異なるＮ個の最後の音素に対応することを特徴とする音声認識システム。
請求項１１に記載の音声認識システムにおいて、前記音声認識ユニットは前記異なるクラスを各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される複数の最後の音素が同一であるような複合系列を含むように区別され、前記複数の最後の音素は少なくとも１つの音節の終了を含むように選択され、異なるクラスは前記音素が一部であるような語又は複数の語に無関係に音節の終了を伴う異なる最後の音素に対応することを特徴とする音声認識システム。
請求項１１に記載の音声認識システムにおいて、前記認識ユニットは、前記複合系列におけるＭ個の各連続する状態系列に対応するＭ語の系列の確度を特定するような語レベルのモデルに基づいて、より確かそうな複合系列を選択すると共に更なる検索から他の複合系列を破棄し、前記Ｍ語は前記複合系列を前記クラスの異なるものに区別するような語又はその一部の数より長く、前記クラスの特定の１つの検索のうちの少なくとも１つは前記検索における当該状態系列までの複合系列を有する状態系列により表される異なるＮ個の最後の語に対応するような異なる複合系列の検索の共同した確度制限を伴い、前記特定のクラスにおける前記複合系列の間での更なる検索のための前記より確かそうな複合系列の選択が、前記検索の前記少なくとも１つにおける終端状態に到達した後に実行されることを特徴とする音声認識システム。
請求項１１に記載の音声認識システムにおいて、前記認識ユニットは前記検索のうちの特定の１つを、
− 前記検索のうちの前記特定の１つに状態の連結系列を、全てが該連結系列までの最後の状態系列の終了時における同一の時点に対して終端ノードを有するような複数の複合系列に対して入力し、ここで前記状態の連結系列には前記複数の複合系列に対して代表的な初期確度が割り当てられるようにし、
− 前記検索における前記特定の１つにおいて前記状態系列における状態に関しての確度情報に基づいて、確度の低い状態系列を破棄すると共に１以上のより確かそうな状態系列を維持し、
− 前記保持された各状態系列に関する確度情報を、前記保持された状態系列における連続する各状態に関して、前記観測された音声信号及び前記保持された状態系列における先行する状態に関する確度情報の関数として増加的に計算すると共に、前記破棄するステップを繰り返す、
ように実行するよう構成され、前記認識ユニットは、
− 前記検索の特定の１つの終端状態に到達した際に、前記複数の複合系列における個々の複合系列に関して更なる確度情報を再発生し、ここで前記更なる確度は、前記終端状態に繋がる前記連結系列の初期状態が前記個々の複合系列の対応する系列により先行される場合に前記終端状態に対応するようにし、
− 更なる検索を実行し、該更なる状態レベルの検索の間における前記計算及び破棄が前記更なる確度情報に基づくものであるようにする、
ことを有することを特徴とする音声認識システム。
請求項１６に記載の音声認識システムにおいて、前記更なる確度情報は、前記終端状態に関して前記代表的確度に基づいて増加的に計算された終端確度情報から、前記個々の複合系列に関して前記終端確度情報に補正因数を適用することにより計算されることを特徴とする音声認識システム。
音声認識システムにおいて、
− 音声信号を入力する入力端と、
− 各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列よりも観測された音声信号を一層確かに表しそうな少なくとも１つの系列を検索するように構成された認識ユニットであって、前記検索が、前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索を有するような認識ユニットと、
を有し、前記検索のうちの第１の検索が、
− 前記検索のうちの前記第１の検索に状態の連結系列を、全てが該連結系列までの最後の状態系列の終了時における同一の時点に対して終端ノードを有するような複数の複合系列に関して入力するステップであって、前記状態の連結系列には前記複数の複合系列に対して代表的な初期確度が割り当てられているようなステップと、
− 前記検索のうちの前記第１の検索において前記状態系列における状態に関する確度情報に基づいて、確度の低い状態系列を破棄すると共に１以上の確かそうな状態系列を維持するステップと、
− 前記保持された各状態系列に関する確度情報を、前記保持された状態系列における連続する各状態に関して、前記観測された音声信号及び前記保持された状態系列における先行する状態に関する確度情報の関数として増加的に計算すると共に、前記破棄するステップを繰り返すステップと、
を有し、前記認識ユニットが、
− 前記検索のうちの前記第１の検索の終端状態に到達した際に、前記複数の複合系列における個々の複合系列に関して更なる確度情報を再発生し、ここで、前記更なる確度は、前記終端状態に繋がる前記連結系列の初期状態が前記複数の個々の複合系列の対応する系列により先行される場合に前記終端状態に対応するようなものであり、
− 更なる検索を実行し、ここで、該更なる検索の間における前記計算する及び破棄するステップが、前記個々の複合系列に関する前記更なる確度情報に基づくものである、
ことを特徴とする音声認識システム。
音声認識システムにおいて、
− 音声信号を入力する入力端と、
− 各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列よりも観測された音声信号を一層確かに表しそうな少なくとも１つの系列を検索するように構成された認識ユニットであって、前記検索が、前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索を有するような認識ユニットと、
を有し、前記認識ユニットが、
− 前記状態系列において部分語境界状態に対応する状態を識別し、
− 前記状態系列の対応するものに対して前記音声信号における共通の時点に関して発生する前記部分語境界状態のクラスを識別し、ここで、前記状態系列の各々は全て、前記共通の時点で終了する発音的に等価な履歴を表すような状態系列から形成された対応する複合系列の一部であり、
− 当該クラスにおける全ての部分語境界状態により共有される単一の後継状態から前記漸進的な確度の制限された検索を、前記単一の後継状態に対して前記クラスにとり代表的な確度情報を用いることにより継続して、後続の状態に関する確度情報を計算すると共に、次の部分語境界状態又は終端状態が識別されるまで後続の検索を制御し、
− 前記次の部分語境界状態又は終端状態に関する複数の確度情報を、前記部分語境界状態のクラスの対応するメンバを含む場合に前記次の部分語境界状態及び終端状態に先行する状態系列に対応して計算し、
− 前記対応するメンバに関して計算された確度情報を個々に用いるような更なる検索を実行する、
ように構成されていることを特徴とする音声認識システム。
請求項１９に記載の音声認識システムにおいて、前記クラスのメンバである部分語境界状態は前記クラスのメンバでない部分語境界状態から、前記複合系列を介して当該部分語境界状態が一部であるような状態系列の開始状態を超えて延びる先行する状態の系列の間の差に基づいて区別され、これにより、前記クラスは所定量の発音的履歴に基づいて、該発音的履歴が語の境界をまたがって延びるかに無関係に区別されることを特徴とする音声認識システム。