JP2004534275A - 音声認識における高速検索 - Google Patents

音声認識における高速検索 Download PDF

Info

Publication number
JP2004534275A
JP2004534275A JP2003511229A JP2003511229A JP2004534275A JP 2004534275 A JP2004534275 A JP 2004534275A JP 2003511229 A JP2003511229 A JP 2003511229A JP 2003511229 A JP2003511229 A JP 2003511229A JP 2004534275 A JP2004534275 A JP 2004534275A
Authority
JP
Japan
Prior art keywords
state
sequence
search
composite
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003511229A
Other languages
English (en)
Inventor
フランク ティー ビー セイデ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004534275A publication Critical patent/JP2004534275A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

音声認識が、音声信号が与えられた場合に、複数の語の系列のうちの最も確かそうな語系列を検索する処理を含んでいる。斯様な系列の各々は、連続した状態の系列からなるような複合系列である。検索処理は、各々が状態系列の部分集合を含む対応する検索空間におけるもののような、複数の検索を含んでいる。各検索においては、当該検索空間におけるより確かそうな状態系列のみが考慮される。第1実施例においては、異なる検索空間が、語の系列のクラスからの先行する系列に後続する状態系列から形成される。異なるクラスは、検索空間の異なるものを規定する。クラスは、上記検索空間における当該状態系列までの上記複合系列における状態系列により表される、語の履歴というよりは発音的履歴に基づいて区別される。このように、異なるクラスを区別するために識別子が使用された語又は斯かる語の一部の数は、上記複合系列により表される1以上の最後の語の長さに応じて変化される。第2実施例においては、複数の異なる複合系列が連結状態系列を介しての検索に含まれ、該検索に関しては、当該検索において系列を破棄するか否かを判断するために上記複数のものにとっての代表的な確度情報が使用される。当該検索の終了時においては、当該検索を切り抜けた場合は異なる複合系列に関する確度が上記連結系列から再発生される。そして、更なる検索は、該再発生された確度に基づくものとなる。第3実施例においては、この技法は部分語レベルにおいて検索内で適用される。

Description

【技術分野】
【0001】
コンピュータ化連続音声認識の目的は、音声信号の一連の観測されたセグメントに最も確かに対応する語系列を識別することである。各語は、音声信号の表現として発生される状態系列により表される。結果として、認識は、異なる語に対応する異なる系列間で、より確かな状態系列の複合系列を検索することを伴う。音声認識のキーとなる性能特性は、この検索の結果の信頼度、及び該検索を実行するのに要する計算的努力である。これらの特性は、検索に関わる系列の数(検索空間)に相反するように依存する。即ち、より大きな系列の数は一層信頼性のある結果を与えるが、より多くの計算的努力を必要とし、及びこれらの逆となる。認識技術は、最小の信頼度の損失で検索の大きさを制限するような効率的な検索技術を追求している。
【背景技術】
【0002】
米国特許第5,995,930号公報は状態レベル検索を使用する音声認識技術を開示しており、該検索は可能性のある状態系列のうちの、より確かそうな状態系列を検索する。状態レベル検索は、観測された音声信号に最も密に結合される。この検索は、観測された音声信号の連続するフレームに対応する可能性のある状態系列の間での検索を伴う。異なる系列の確度(likelihood)が、観測された音声信号の関数として計算される。より確かな系列が選択される。
【0003】
確度の計算は、モデルに基づくものである。このモデルは、従来、異なる語系列の演繹的確度を記述する言語的成分と、或る語が発生したとして、異なる状態系列が発生する演繹的確度を記述する語彙的成分とを有している。最後に、該モデルは、或る状態が与えられたとして、時間間隔(フレーム)内の当該音声信号の特性が特定の値を有するであろう確度を指定する。このように、音声信号は状態系列及び語系列により表され、該状態系列は連続する語に関する(部分)系列に副分割される。連続するフレーム内の観測された音声信号の特性が与えられたとして、これら系列の帰納的確度が計算される。
【0004】
計算的労力を合理的な限界内に維持するためには、米国特許第5,995,930号公報に開示された検索は完全なものではない。より確かであると期待される候補状態系列及び候補語系列のみが考慮されている。これは、新たな候補系列が前の系列を新たな状態で延長することにより発生されるような漸進的確度制限検索により実現されている。より確かそうな前の系列のみが延長される。即ち、前の系列の確度が検索空間の大きさを制限するために使用されている。しかしながら、検索空間を制限することは、信頼度と妥協することになる。何故なら、破棄された確度の低い前の系列が、延長された場合に、1以上の語に対応する複数の状態の後でのみ、より確かな系列になる可能性が依然としてあるからである。
【0005】
米国特許第5,995,930号は、状態レベル検索を、確度の限界が別個になされるような異なる検索に分割する。即ち、或る検索におけるより確かそうな系列は、他の検索がもっと確かそうな系列を含んでいるかに無関係に、延長される。異なる検索が如何にして区別されるかを理解するために、或る語に対する終端的状態で終わるような状態系列が発生され、該状態系列の最終部分が語系列に対応すると仮定されたい。当該語系列のこれら最後のN語は、後続の状態系列の検索を定義するために使用される。(Nは、言語的モデルが確度を特定するような連続する語の数であり、N=1,2,…であるが、典型的には3以上である)。異なる検索は、各々が異なる前の“履歴”のN語に対して開示される。このように、各検索は、同一の履歴のN語に対応する系列に後続するような状態で開始する状態系列を含むことになる。同一の検索における異なる系列は、異なる開始時刻を有し得る。このように、各検索内では、これらの一番最近に生成されたN語が終了する最も確かそうな時点を検索することが可能である。
【0006】
このようにして、延長されるべきより確かそうな系列の検索が、その都度異なる履歴のN個の一番最近の語に対応する状態系列に関して、複数回実行される。当該検索から破棄される系列は、各検索につき個々に破棄される。即ち、N個の特定の語に後続する状態系列は、これらのN語に続く検索においては、この状態系列がこれらN語に充分確かに続きそうなら、この状態系列が最も確かそうなN語の系列に鑑みてあまり確かそうでない場合でも、破棄されない。
【0007】
語の認識を可能にすることとは別に、語レベル検索及び状態レベル検索への分割は、計算的労力の最小限の増加で信頼度の損失を制限する助けとなる。何故なら、語レベルの履歴の使用は、状態レベル検索よりも、音声信号のおける一層長い期間にわたる系列の選択に対する制御を可能にするからである。幾つかの余り確かそうでない状態系列(それらの語の前後関係の確かさにより、長い期間においては、より確かそうになり得る)は、検索空間の過度な増加なしで破棄することから保護される。
【0008】
しかしながら、一番最近の語の異なる組に対しては異なる検索が実行されねばならないので、依然として検索空間のかなりの増加が存在する。これは、信頼度と計算的労力との間の取引きを意味する。即ち、より多くの最近の語を使用して異なる検索を区別すると、信頼度は増加するが、より多くの検索、従ってより多くの計算的労力が必要となるであろう。単一の一番最近の語のみ又は僅かの一番最近の語を使用して検索を区別すると信頼度は減少する。何故なら、後に確かそうになり得る状態系列が破棄される危険があるからである。
【0009】
信頼度と計算的労力との間の他の取引は、2パス方法により実現することができる。今まで説明した方法は、音声信号が或る時間まで一旦処理されたら、当該検索の結果が直接利用可能になるので、単一パス方法と呼ばれている。2パスアルゴリズムにおいては、検索結果に第2パスを適用し、第1パスで見付かった語の代わりを見付ける。音響、音声及び信号処理に関する1991年の国際会議(1991年、トロント)の会報で公開されたSchwartz及びAustinによる論文には、語系列の検索を効率的且つ高信頼度で実施するための種々の2パス技術が述べられている。
【0010】
Schwartz及びAustinは単一パス技術を改善する1つの解決策を述べている。この解決策においては、語レベル検索で破棄された語が、見方をして斯かる破棄された語が破棄された保持された語に関連付けて記憶される。更に、破棄された位置における破棄された語の確度も記憶される。第1パスにおいて最も確かそうな語系列が一旦見付かると、第2パスが実行され、該第2パスでは当該系列において保持された語を破棄された語により置換することにより得られる語系列に関して確度が計算される(第1パスにおいて破棄された語に関して計算された確度を用いて)。この技術は最も確かそうな語系列を失う危険性は低減するが、結果は依然として信頼性がない。何故なら、該技術は、破棄された語に続く語の間における最適な時点に対して状態レベル検索を実行しないからである。
【0011】
Schwartz及びAustinは、この技術の第1パスの改善を述べており、該改善においては、先行する語に対応する系列に後続する最も確かそうな状態系列を検索している。最も確かそうな先行する語に対して行う代わりに、異なる先行語に対して各々、別個の検索が行われる。即ち、余り確かそうでない先行語を表す状態系列に後続する状態の確度の計算は、これら先行語の終端的状態において即座に停止されるのではなく、余り確かそうでない各先行語に続く最も確かそうな次の語が一旦見付かったら場合のみ停止する。これは、検索の信頼度を向上させる。何故なら、語が破棄される時点を遅延させ、初期に余り確かでない語系列が、もっと確かになる前に破棄されてしまう危険性を低減させるからである。更に、該方法は、先行語に後続する語を開始する最適時点を検索するのを可能にする。しかしながら、該信頼度の向上は、大きな検索の犠牲によるものである。何故なら、多数の先行語の各々に関して語彙的状態を検索しなければならないからである。
【発明の開示】
【発明が解決しようとする課題】
【0012】
本発明の目的は、なかでも、観測された音声信号に最も確かに対応する状態系列の検索において信頼度と計算的労力との間の一層良好な取引を実現するのを可能にすることである。
【課題を解決するための手段】
【0013】
一実施例において、本発明は、各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列より観測された音声信号を一層確かに表しそうな少なくとも1つの系列を検索するステップを有するような音声認識方法であって、該検索するステップが、
− 前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索と、
− 各々が複合系列のクラスの一部を形成するための状態系列を有するような前記検索の異なるものの検索空間であって、前記検索空間の異なるものを定義する異なるクラスは当該検索空間における状態系列までの前記複合系列における状態系列により表される語又はその一部の数の識別に基づいて区別され、異なるクラスを区別するために識別が使用された前記語又はその一部の数は当該検索空間における前記系列までの前記複合系列により表される1以上の最後の語の長さに応じて変化され、同一の1以上の最後の語に対応する複合系列は、前記最後の語の前記1以上が比較的短い場合は異なるクラスに区別されるが、前記1以上の最後の語が比較的長い場合は異なるクラスに区別されないような検索空間と、
を有するような音声認識方法を提供する。
【0014】
この実施例においては、異なる状態レベルの検索が、各々が異なるクラスの先行系列により先行されるような状態系列に対して実行される。好ましくは、上記クラスは、異なる語履歴に基づくというよりは、異なる発音的履歴に基づいて区別される。信頼度と計算的労力との間のバランスは、異なるクラスを、従って異なる検索を区別するために使用される語情報の長さを柔軟に適応化することにより実現される。語又は斯かる語の断片の数に関する長さは、使用される特定の語に依存する。幾つかの先行する状態系列が、同一の短い語で終わるような語の系列(即ち、N語)に対応する場合は、より古い語が相違するようなこれら系列の異なるものに対して、別個の状態レベルの検索が実行される。一方、最も新しい語又はN語が、より長い場合は、該語又は該N語で終了するような全ての候補の語系列に対して1つの状態レベルの検索を実行することができる。
【0015】
このことは、過度に多くの検索が実行されなければならないことを防止する。先行する語が長い場合、異なる検索を良好な信頼度で規定するには幾つかの語又は斯かる語の部分で充分である。先行する語の異なる系列が短い語で終わる場合、より早期の語のより多くの部分により区別される異なる先行系列に続いて、別個の検索が使用される。このようにして、この場合に信頼度が低下することが防止される。これは、例えば、当該検索における最も確かそうな系列の開始時点の選択が、続いて同一の検索が実行されるような異なる先行系列のより早期の語により影響されるからである。
【0016】
好ましくは、続いて異なる検索が実行されるような先行する系列のクラスの選択は、発音的履歴に依存するようにし、言語的レベルでより確かそうな系列を選択するのに使用される語履歴の長さとは独立したものとする。典型的には、言語的モデルは3以上の語の系列に関する確度を指定する一方、同一の検索が、この数の語よりも大幅に短く広がる複数の音素を共有するような系列に対して実行される。
【0017】
一実施例においては、先行する系列において認識された語の所定数の音素が、異なる検索を区別するために使用される。同一のN音素で終わる語履歴に対して連結検索が実行され、これらの音素が一部であるような実際の語とは無関係に、これらのN個の最後の音素が相違する語履歴に対して別個の検索が実行される。このことは、複数の検索への上記分離が語のレベルにおいてというよりは発音的レベルで決定され、従ってより信頼性があるという効果を有している。このように、複数の最も新しい音素で、即ち語の断片で相違するような最も新しい候補語の系列に対して、別個の状態レベル検索を定義することができる。
【0018】
他の実施例においては、異なる検索を区別するために使用される音素の数は、例えば異なる検索を区別するために使用される音素が少なくとも1つの音節の終了又は少なくとも1つの母音又は少なくとも1つの子音を含むようにして、これら音素の性質に適応化される。
【0019】
本発明による方法の他の実施例においては、状態レベルの検索の少なくとも一部を複合系列のクラスを表すような単一の状態系列を用いて実行することにより、信頼度が、検索空間を増加させることなく増加される。該クラスにとって代表的な確度情報が、検索の間において余り確かでない状態系列の破棄を制御するために使用される。当該検索(の一部)の後に、上記クラスの個々のメンバの確度が、将来の検索において使用するために、別個に再発生される。即ち、上記の代表的確度の選択は、永久的影響は有さない。後続の状態レベル検索における破棄処理は、必ずしも上記代表により決定された確度により制御されることはない。このように、既に第1パスにおいて実施された破棄された語が再考されるような2パス検索の場合と同様な信頼度の向上が実現される。また、信頼度の付加的増加が存在する。何故なら、上記クラスの個々のメンバの確度が当該検索の終了時に再発生され、将来の検索において、他のメンバを除外して単一のメンバを選択すること無しに、使用されるからである。このことは、後に余り確かでなさそうになるような代表的な語系列に基づいた誤った状態レベルの破棄の危険性を低減する。
【0020】
この実施例においては、好ましくは、上記代表的確度から開始し、当該検索の間において最終状態に関して計算された確度が、上記異なるメンバの確度を再発生するために使用される。他の例として、これら確度は、上記初期状態から開始する個々のメンバに関して再計算することができるが、これは、より多くの計算的労力を伴う。
【0021】
この実施例は、好ましくは、検索を定義するクラスを選択するために発音的履歴が使用される前記実施例と組み合わされるものとする。このように、クラスの発音的選択が、言語的情報に基づく後の系列の破棄において有利でないことは、クラスの形成により著しく影響されることはない。何故なら、上記クラスの個々のメンバの確度は再発生されるからである。
【0022】
他の実施例においては、複数の異なる先行状態系列において部分語の終了に続く状態レベルの検索の一部を実行するために単一の状態系列で進めることにより、検索の労力が低減される。好ましくは、上記単一の検索が実行される系列のクラスは、先行する系列が最も新しい部分語の共有の組に対応するという事実により区別される。この組は語の境界にまたがって延びても良く、かくして、信頼度と計算的労力との間の取引は語の境界をまたぐか否かに依存しない。
【発明を実施するための最良の形態】
【0023】
以下、本発明の上記及び他の目的及び利点を、添付図面を参照して詳細に説明する。
【0024】
図1は、音声認識システムの一例を示す。該システムは、音声サンプリングユニット11と、メモリ13と、プロセッサ14と、表示制御ユニット15とを接続するバス12を有している。マイクロフォン10が、サンプリングユニット11に接続されている。モニタ16が、表示制御ユニット15に結合されている。
【0025】
動作時に、マイクロフォン10は音声サウンドを入力して、これらサウンドを電気信号に変換し、該電気信号はサンプリングユニット11によりサンプリングされる。サンプリングユニット11は上記信号のサンプルをメモリ13に記憶する。プロセッサ14は、上記サンプルをメモリ13から読み出し、上記音声サウンドに最も確かに対応する語系列を識別するデータ(例えば、斯かる語を表す文字のコード)を計算して出力する。表示制御ユニット15はモニタ16を制御して、上記語を表すグラフィック的文字を表示する。
【0026】
勿論、マイクロフォン10からの直接入力及びモニタ16への出力は、音声認識の使用のほんの一例に過ぎない。マイクロフォンから入力される音声の代わりに事前記録された音声を使用することもでき、認識された語は如何なる目的にも使用することができる。図1のシステムにおいて実行される種々の機能は、異なるハードウェアユニットに如何なる方法でも分散させることができる。
【0027】
図2は、マイクロフォン20、サンプリングユニット21、第1メモリ22、パラメータ抽出ユニット23、第2メモリ24、認識ユニット25、第3メモリ26及び結果プロセッサ27の縦続接続にわたる機能の分散を示している。図2は、異なる機能を実行する異なるハードウェアユニットによる表現と見ることができるが、該図はソフトウェアユニットの表現としても有効であり、例えば図1の構成要素のような種々の適切なハードウェア構成要素を用いて実施化することができる。
【0028】
動作時において、サンプリングユニット21は音声サウンドを表す信号のサンプルを第1メモリ22に記憶する。パラメータ抽出ユニット23は、上記音声を期間毎にセグメント化し、連続する期間の各々に対してパラメータの組を抽出する。該パラメータはサンプルを、例えば当該期間におけるサンプルにより表される信号のスペクトルのピークの強度及び相対周波数に関して記述する。パラメータ抽出ユニット23は、該抽出されたパラメータを第2メモリ24に記憶する。認識ユニット25は、第2メモリ24から上記パラメータを読み出し、一連の期間のパラメータに対応する最も確かそうな語系列を検索する。認識ユニット25は、この最も確かそうな系列を識別するデータを第3メモリ26に出力する。結果プロセッサ27は、このデータを、ワードプロセッサ処理におけるような又はコンピュータの機能を制御するためのような更なる使用のために読み出す。
【0029】
本発明は、認識ユニット25の動作、又はプロセッサ若しくは該プロセッサの均等物により実行される認識機能に主に関するものである。認識ユニット25は、音声信号の連続するセグメントに対し、パラメータに基づいて語系列を計算する。この計算は、音声信号のモデルに基づくものである。
【0030】
斯様なモデルの例は、音声認識分野では良く知られている。参考のために、斯様なモデルの一例を簡単に述べるが、当業者であれば、斯かるモデルを規定するのに当業技術を頼りにするであろう。モデルの該例は、状態のタイプに関して定義される。特定のタイプの状態は、セグメント内のパラメータの可能性のある値に対する特定の確率に対応する。この確率は、状態のタイプ及びパラメータ値に依存し、例えば該確率が実例信号から推定されるような学習フェーズ後に、当該モデルにより定義される。これらの確率が如何にして得られるかは本発明にとり関係がない。
【0031】
状態と語との間の関係は、状態レベルモデル(語彙モデル)及び語レベルモデル(言語モデル)を使用してモデル化される。言語モデルは、特定の語系列が発話されるであろう演繹的確度を指定する。これは、例えば特定の語が通常使用される確率、又は特定の語が他の特定の語により後続される確率、又はN個の連続した語の組が一緒に発生する確率等に関して指定される。これらの確率は、例えば学習フェーズにおいて得られた推定を用いて当該モデルに入力される。これらの確率が如何にして得られるかは、本発明には関係しない。
【0032】
語彙モデルは、各語に関して、状態系列における当該語に対応し得る状態の連続するタイプ、及び該語に対してどの様な演繹的確度で斯様な系列が発生するかを指定する。典型的には、該モデルは各状態に関して、当該音声信号に或る語が存在する場合に該状態が後続され得る次の状態、及びどの様な確率で異なる次の状態が発生するかを指定する。該モデルは、異なる語に関する個々の下位モデルの集合として、又は語の集まりに関する単一のツリーモデルとして設けることができる。典型的には、例えば学習の間において指定された確率で、マルコフモデルが使用される。これらの確率が如何にして得られるかは本発明とは無関係である。
【0033】
認識の間において、認識ユニット25は異なる状態系列及び語系列の帰納的確度を、語系列が発生する演繹的確度、斯かる語系列が上記状態系列に対応する演繹的確度及び状態が異なるセグメントに関して決定されたパラメータに対応する確度から計算する。ここで使用される“確度”は、確率を表す何らかの尺度を記述するものである。例えば、既知の因数倍の確率を表す数も確度と呼ばれ、同様に、確度の対数又は他の1対1関数も確度と呼ばれる。使用される実際の確度は、便宜上の事項であり、本発明に影響を与えるものではない。
【0034】
認識ユニット25は、全ての可能性のある語系列及び状態系列に関する確度を計算するのではなく、該認識ユニット25が最も確かそうな系列であることがより確かそうだと認めるものだけを計算する。
【0035】
図3は、語及び状態の系列を確度の計算に関して図示している。該図は、状態を、音声信号の異なるセグメントに対するノード30a〜c、32a〜f、34a〜gとして示している(明瞭化の理由で、幾つかのノードのみしか符号を付されていない)。これらノードは、認識のために使用される語彙モデルにおいて特定される状態に対応する。ノード30aからの異なるブランチ31a〜bは後続のノード30b〜cへの可能性のある移行を示している。これらの移行は、当該語彙モデルにおいて指定されるような状態系列における連続する状態の連続に対応する。このように、時間は左から右に進み、より遅く開始する時間のセグメントに対するノードは、より右側に示されている。
【0036】
認識ユニット25が語を表すために状態系列を検索する場合、該ユニットは何の状態を考察するかを決定する。これらの状態に対して、該ユニットはメモリ空間を確保する。該ユニットは、斯かるメモリ空間内に状態のタイプ(例えば、語彙モデルを参照することにより)、その確度及びどの様に発生されたかに関する情報を記憶する。図3におけるノードの図示は、当該認識ユニットがメモリを確保すると共に対応する状態に関して情報を記憶したことを示している。従って、語のノード及び状態は入れ換えて使用され得るであろう。当該ユニットが情報を記憶した状態30aから開始すると、該認識ユニット25は当該モデルにより許容される何の次の状態に対してメモリ空間を確保するか否かを決定する(これは“発生モード”と呼ばれる)。認識ユニット25がその様にする状態30b〜cは、前のノード30aからブランチ31a〜bにより接続されたノードにより表される。認識ユニット25は、前のノード30aに関する情報をノード30a,bにより表される状態に対して確保されたメモリに記憶することもできるが、代わりに、関連する情報(認識されている語の開始時刻の指示子及び該開始時刻より前の語の履歴等)を上記前のノード30aからコピーすることもできる。
【0037】
ノード30b〜cから、可能性のある後続のノードへの移行が発生し得、等々となる。このように、異なる状態系列が表され、ノード間には当該系列における連続する状態を表すような遷移を伴う。これら系列は、当該語彙モデルが特定の語に関する状態系列が終了することを示すような語の終端状態(ノード32a〜fにより表される)に到達する。
【0038】
各終端ノード32a〜fは、次の語に関する状態系列の初期ノード34a〜fへの移行33a〜fを有するように示されている。異なる初期ノード34a〜fは“検索”35a〜gと呼ぶ異なるバンド35a〜gに示されているが、これについては後述する。上記検索35a〜gの各々においては、状態の系列が発生し、これら系列は終端ノード32a〜fで終了する。これらの終端ノード32a〜fからは、後続の検索における初期ノード34a〜fへの異なる移行が生じ、等々となる。
【0039】
検索35a〜fからは、当該検索35a〜fにおいて、終端ノード32a〜fで終了する系列の開始における初期ノード34a〜fへ、及び該ノードから前の終端ノード32a〜fへ逆追跡することができる。このように、終端ノード32a〜fの系列は、如何なる終端ノード32a〜fに関しても識別することができる。斯様な系列における各終端ノード32a〜fは、暫定的に認識された語に対応する。従って、各終端ノード32a〜fは、暫定的に認識された語の系列にも対応する。これらの語系列から、言語モデルを使用して、より確かそうな語系列が選択され、余り確かそうでない系列は破棄される。或る従来技術においては、このことは、例えば、異なる余り最近でない語で開始し、それ以外では同一の語を含むような複数の系列から、最も確かそうな系列以外の全ての系列(即ち、複数のより確かそうな系列)をその都度破棄することにより実行される。
【0040】
一例において、認識ユニット25は上記ノードを時間の関数として、即ち図において左から右へと発生し、新たに発生された各ノードに関して、当該新たに発生されたノードへの移行が生じた1つ前のノードを選択する。該前のノードは、上記の新たに発生されたノードにより後続される場合に最も高い確度の系列を生じるように選択される。例えば、時刻tにおける状態Sまでの系列の確度L(S,t)を、
L(S,t)=P(S,S’)L(S,t-1)
により計算する場合(ここで、S’は先行する状態であり、P(S,S’)は状態タイプS’の状態がタイプSの状態により後続される確率である)、当該状態Sに対しては、利用可能な状態から最も高いL(S,t)となるような先行する状態S’が選択され、Sと該S’との間の状態移行が発生される。このように、余り確かでない状態系列を表す移行は選択されない。即ち、最も確かそうな系列の検索においては、斯かる状態系列は考慮されない(“破棄”される)。本発明から逸脱すること無しに、状態系列を破棄する他の方法も使用することができ、例えば、或る時点までの状態系列の確度を計算し、確度が最も確かそうな系列の確度から或る閾距離内であるような系列のみに状態を追加するようにする(この場合、同一の時点に関して、同一の状態が2回以上発生し得る)。
【0041】
認識ユニット25が検索35a〜gにおいて終端状態32a〜fを一旦発生すると、該認識ユニット25は該終端状態32a〜fに対応する語を識別する。このように、認識は、終端状態32a〜fが発生された時点において終了する当該語を暫定的に認識している。認識ユニット25は同一の検索35a〜gにおいて多くの時点で多数の終端状態を発生し得るので、該ユニットは検索35a〜gにおいては一般的に単一の語を、又は同一の語に対して単一の時点さえも認識することはない。
【0042】
次に、検索35a〜gの意味を、より詳細に説明する。終端状態32a〜fを検出した後、認識ユニット25は、時間的に前の検索35a〜gの終端状態32a〜fに続く状態のより確かそうな部分系列の新たな検索35a〜gに入る(このような状態の部分系列も、混乱を招かない限り系列と呼ぶ)。該新たな検索は好ましくは所謂“ツリー検索”であり、該ツリー検索においては同一の検索において全ての可能性のある語に関して状態系列を一度に検索するのを可能にするようなツリーモデルが使用される。これは図に示すような場合である。しかしながら、本発明から逸脱すること無しに、上記の新たな検索は、選択された語又は語の集合を表すような確かそうな状態の検索とすることもできる。
【0043】
同一の新たな検索35a〜gにおいて、異なる終端状態32a〜fに続いて初期状態34a〜fが発生される。これらの異なる終端状態は、例えば同一の検索における同一の語に対応するが、異なる時点で発生するような異なる終端状態32a〜fを含む。新たな検索における初期状態34aも、種々の検索35a〜gの終端状態32a〜fに続く初期状態34a〜fを含むことができる。一般的に、所定のクラスの系列の最終状態32a〜fに続く初期状態34a〜fは、同一の検索35a〜gに含まれるであろう。異なるクラスの終端状態32a〜fは、異なる検索35a〜gにおける初期状態へ移行するであろう。
【0044】
検索35a〜g内において、且つ、確度が計算されるであろう状態系列の選択の間において、認識ユニット25は余り確かでない系列は破棄する(延長しない)。このように、検索35a〜gにおける或る初期状態から開始した状態系列は、検索35a〜gにおける他の初期状態から開始した系列が一層確かそうである場合は破棄され得る。同一の検索35a〜g内の初期状態34a〜fのみが、このようして互いに競合する。このように、例えば、当該検索に異なる開始時刻に関する初期状態34a〜fが含まれている場合、最も確かそうな開始時刻は、異なる時刻に関する同一の前の検索の同一の語に対応する終端状態32a〜fに続く初期状態34a〜fから開始する系列の確度を比較することにより選択することができる。(検索当たり単一の開始時刻のみが許容される場合は、最良の先行する最終状態の選択は各検索35a〜g内でも実施することができる。この場合、最適な開始時刻の選択は、異なる検索からの系列が新たな検索へと組み合わされ得る場合は、検索35a〜gの終了でなされる。)或る検索35a〜gにおける系列の確度は、他の検索35a〜gにおいて破棄されるべき個々の系列の選択には影響を与えないであろう。
【0045】
即ち、認識ユニット25は互いに効果的に分離された異なる検索35a〜gを実行する。このことは、或る検索35a〜gにおける系列の発生及び破棄が、少なくとも終端状態32a〜fに到達するまでは、他の検索35a〜gにおける発生及び破棄に影響を与えないことを意味する。例えば、新たに発生された各状態に関して或る時点で或る先行状態が選択されるような場合においては、各検索35a〜gに対して新たな状態が発生され、各検索35a〜gにおいては新たに発生された各状態に対して先行状態が当該検索から選択される。
【0046】
或る検索における発生及び破棄が他の検索に対して影響しないという点では検索35a〜gは“別個”であるが、検索35a〜gは他の方法では同様に別個である必要はないことに注意すべきである。例えば、異なる検索からのノードを表す情報はメモリ内に混ぜて記憶してもよく、該情報内のデータは、例えばノードに先行する語の履歴(又は語の履歴のクラス)を識別することにより該ノードが何の検索に属するかを示す。他の例では、検索35a〜gのうちの異なるものに関するノードの発生及び破棄は、当該ノードが属する検索に35a〜gに関して必要な場合に考慮される限りにおいて、異なる検索35a〜gのノードを互いに混ぜて処理することにより実行することもできる。
【0047】
本発明の第1の態様は、同一の新たな検索35a〜gへの遷移を有するような系列のクラスの選択に関するものである。従来技術においては、同一の新たな検索は、同一の履歴のN個の語に対応する終端状態に後続している(当該終端ノード32a〜fで終わった系列に沿って逆に辿ることにより決定することができるように)。従来技術においては、N個の特定の語の一番最近の履歴に対応する終端ノード32a〜fから、これらの特定のN語のうちの最も古いものを除くN−1により先行される語Wに対応する検索空間へ遷移が生じる。
【0048】
このように、従来技術においては、異なる検索35a〜gの終端ノード32a〜fは、これら終端ノードが同一のN個の先行する語に対応するならば、特定の次の検索への遷移33a〜fを有し得る。同一の時点に関して発生する終端ノードから、最も確かそうな終端ノードが選択され、次の検索における初期ノードへの遷移33a〜fが与えられる。このことは、各時点に対して別個に実行される。各時点に関する最も確かそうな終端ノード32a〜fは(これらの検索35a〜gの何れからの)、新たな検索35a〜gの自身の初期ノードへの遷移を有している。これは、新たな検索35a〜gが開始時間と新たな語との最も確かそうな組み合わせを検索するのを可能にする。
【0049】
このようにして、履歴における語の数Nは、計算の労力に対して大きな影響を有する。Nが益々大きく設定されるにつれて、異なる履歴の数が増加し、これにより検索の数も増加する。しかしながら、Nを小さく維持することは(計算労力を限界内に維持するために)、後続の音声信号に鑑みて一層確かそうだと分かったかも知れない語系列の破棄に繋がり得るので、信頼を低下させる。更に、従来技術においては、単一パス技術が使用された場合、Nは言語モデルをN字(N-gram)モデルとして決定する。より小さなNを選択することは、このモデルの品質を低下させる。
【0050】
本発明は、品質を過度に低下させることなく検索の数を減少させることを狙いとする。本発明によれば、同一の検索35a〜gへの遷移33a〜fを有するような系列のクラスが、整数個の一番最近に認識された語に基づくというよりは、発音的履歴に基づいて選択される。
【0051】
本発明は、或る語の最も確かそうな開示時間は、同一の発音的履歴で終了するような異なる履歴に対しては一般的に同一であるという観察に基づいている。実際には、新たな各検索35a〜gは、前の検索35a〜gにより、斯かる前の検索35a〜gが新たな語の異なる開示時間の確度を特定するという点で影響を受ける。このことは、上記新たな検索が上記新たな語の開始時間と素性との最も確かそうな組み合わせを検索することを可能にする。或る語の最も確かそうな開始時間は、同一の発音的履歴で終了するような異なる履歴に対しては一般的に同一であり、当該検索において見付かる該開始時間の信頼度は、当該発音的履歴の長さに依存するであろう。一定数の語の語履歴は、これら語が長ければ長い発音的履歴を有し、これら語が短ければ短い発音的履歴を有する。このように、信頼度は、従来技術におけるように、検索を選択するために固定長の語履歴が使用される場合は、語の大きさと共に変化する。最小の信頼度を得るために、従来技術は最悪の場合(短い語)に対して履歴の長さを設定する必要があり、結果として当該履歴において長い語が発生すると計算労力は不必要に大きくなる。発音的履歴に基づいて検索を選択することにより、最小の信頼度を得るための検索の数は、より良好に制御することができる。
【0052】
発音的履歴に基づいて区別するために、認識ユニット25は、例えば異なる語を形成する音素を識別するような記憶された情報を使用し、当該クラスにおける系列が、認識された語における所定数の一番最近の音素が同一であるような語履歴に全て対応するかをチェックする。上記所定数は、これら音素が単一の語で発生するか若しくは2以上の語にわたって広がるか、又は、これら音素が一緒に全体の語若しくは或る語の不完全何断片を形成するかに無関係に選択される。このように、終端ノード32a〜fが短い語に対応する場合は、当該終端ノード32a〜fが属するクラスを選択するために、該終端ノード32a〜fに繋がる状態系列において該終端ノード32a〜fが長い語に対応する場合よりも多くの語の音素を用いる。
【0053】
一実施例においては、クラスを区別するために使用される該所定数の音素は予め設定される。他の実施例においては、クラスを決定するために使用される音素の数は、例えば、これら音素が少なくとも子音、又は少なくとも母音若しくは少なくとも音節若しくはこれらの組み合わせを含むように音素の性質に依存する。
【0054】
図4は、異なる終端ノード40が全て新たな検索46における同一の初期ノード44への遷移を有するような検索を図示している。本発明の一態様によれば、これらの終端ノード40のうちの最も確かそうなものの確度(又は、例えばn番目の最も確かそうな終端ノードの確度、若しくは複数のより確かそうなノードの確度の平均)が、上記新たな検索46における初期ノード44から始まる系列の破棄を制御するために使用される。確度の低い終端ノード40の確度と当該検索に使用される確度との間の関係に関する情報が、例えば確度の低いノード“i”のLmである確度Liと当該検索46において使用される確度Lmとの間の比Ri:
Ri=Li/Lm
の形態で保持される。検索46が終端ノード48に到達する際に、この情報は、該終端ノード48で終了する系列の開始時における初期ノード44への遷移42を有する全ての前の系列のクラスの個々のメンバに関して確度情報を再発生するために使用される。これは、例えば上記因数Riを再導入することにより実行される。L’mを、検索46の間に終端ノード48に関して計算され、初期ノード44から開始する系列に関して例えば初期ノード44への遷移42を有する最も確かそうな終端ノード40に基づく確度で計算された確度であるとする。次いで、新たに見付かった終端ノード48の確度L’mから、検索46において認識された語により後続される終端ノード40により関連される語履歴に対応するような複数の語履歴“i”に関する確度が、
L’i=RiL’m
から計算される。(Riは当該履歴に関連する終端ノード40に関して決定される因数である。)異なる履歴“i”に関する再発生された確度L’iは、当該終端ノードまでの異なる系列の確度が言語的モデルを使用して計算される場合に使用される。このように、検索46における単一の各系列は実際には履歴のクラスを表すが、検索46の間においては単一の履歴に対する計算労力しか必要としない。これは、重大な信頼度の損失なしに計算労力を大幅に低減する。
【0055】
ノードに関して確度情報を再発生する該方法は、検索35a〜gの最も確かそうな開始時間が当該クラスの全てのメンバに対して同一であると仮定することができる場合は、正しい確度を取り込むことを示すことができる。
【0056】
この第2の技法(クラスの1つのメンバの検索を実行し、該クラスの最も確かそうなメンバに対して実行された検索の終了時に該クラスの個々のメンバの確度を再発生する)は、好ましくは第1の技法(同一の発音的履歴を共有する語履歴の共同検索35a〜gを実行する)と組み合わされる。このように、上記第1の技法は、同一の時点に関して初期ノードにおいて開始するような発音的に選択されたクラスの異なるメンバに対する個々に異なる確度の使用と組み合わせることができる。しかしながら、第2の技法は、検索労力を低減するために、必ずしも第1の技法を使用して選択されることのないような、異なる種類のクラスに対して使用することもできる。
【0057】
図5は、上記第2の技法の部分語レベルでのアプリケーションを図示している。該図は、或る検索におけるノードの系列と遷移とを示している。斯かる系列を発生するために使用される語彙モデルにおいては、或る状態は部分語境界として符号が付されている。これらは、例えば、音素の間の遷移点に対応する。該図には、斯様な状態を表す境界ノード50が示されている。
【0058】
当該検索の各時点に対して、前記認識ユニットは境界ノード50が発生されているかを検出する。もしそうなら、該認識ユニットは境界ノードのクラス52a〜dを識別し、そこでは、同一のクラス52a〜dにおける全ての境界ノードは当該クラスに固有の例えば所定数の音素の通常の発音的履歴に対応するような状態系列により先行される。認識ユニットは各クラスから代表的な境界ノード(好ましくは、最高の確度のノード)を選択し、当該検索をクラス52a〜dの該選択された境界ノード50のみから継続する。当該クラスにおける他の各境界ノード50に対しては、当該境界ノードの確度を当該検索が継続される境界ノードの確度に関連付ける因数のような情報が記憶される。
【0059】
当該検索が、次いで、当該クラスの上記代表的境界ノードから他の境界ノード54又は終端ノード56に到達すると、当該クラスの他のメンバに関して、これら他のクラスのメンバの種々の因数により上記の新たな境界ノード54又は終端ノード56の確度を因数分解することにより確度が再発生される。次いで、当該クラス選択処理は繰り返され、等々となる。
【0060】
このようにして、計算労力が大幅に低減されることが分かるであろう。何故なら、新たなノードはノードのクラスの代表的なものに対してのみしか発生する必要がないからである。
【図面の簡単な説明】
【0061】
【図1】図1は、音声認識システムを示す。
【図2】図2は、他の音声認識システムを示す。
【図3】図3は、状態系列を示す。
【図4】図4は、他の状態系列を示す。
【図5】図5は、下位語レベルでの技術の適用を示す。

Claims (20)

  1. 各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列より観測された音声信号を一層確かに表しそうな少なくとも1つの系列を検索するステップを有するような音声認識方法において、前記検索するステップが、
    − 前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索と、
    − 各々が複合系列のクラスの一部を形成するための状態系列を有するような前記検索の異なるものの検索空間であって、前記検索空間の異なるものを定義する異なるクラスは当該検索空間における状態系列までの前記複合系列における状態系列により表される語又はその一部の数の識別に基づいて区別され、異なるクラスを区別するために識別が使用された前記語又はその一部の数は当該検索空間における前記系列までの前記複合系列により表される1以上の最後の語の長さに応じて変化され、同一の1以上の最後の語に対応する複合系列は、前記最後の語の前記1以上が比較的短い場合は異なるクラスに区別されるが、前記1以上の最後の語が比較的長い場合は異なるクラスに区別されないような検索空間と、
    を有していることを特徴とする音声認識方法。
  2. 請求項1に記載の音声認識方法において、前記異なるクラスは、各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される自身の最後の音素に対応するような複合系列を含むように発音に基づいて区別され、異なるクラスは最後の音素の異なる組に対応し、複合系列は異なるクラスに区別され及び/又は前記音素が一部であるような語又は複数の語に無関係に同一のクラスに配置されることを特徴とする音声認識方法。
  3. 請求項1に記載の音声認識方法において、前記異なるクラスは、各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される所定数Nの最後の音素が同一であるような複合系列を含むように区別され、異なるクラスは前記音素が一部であるような語又は複数の語に無関係に異なるN個の最後の音素に対応することを特徴とする音声認識方法。
  4. 請求項1に記載の音声認識方法において、前記異なるクラスは、各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される複数の最後の音素が同一であるような複合系列を含むように区別され、前記複数の最後の音素は少なくとも1つの音節の終了を含むように選択され、異なるクラスは前記音素が一部であるような語又は複数の語に無関係に音節の終了を伴う異なる最後の音素に対応することを特徴とする音声認識方法。
  5. 請求項1に記載の音声認識方法において、前記複合系列におけるM個の各連続する状態系列に対応するM語の系列の確度を特定する語レベルのモデルに基づいて、より確かそうな複合系列を選択すると共に更なる検索から他の複合系列を破棄するステップを有し、前記M語は前記複合系列を前記クラスの異なるものに区別するような語又はその一部の数より長く、前記クラスの特定の1つの検索のうちの少なくとも1つは前記検索における当該状態系列までの複合系列を有する状態系列により表される異なるN個の最後の語に対応するような異なる複合系列の検索の共同した確度制限を伴い、前記特定のクラスにおける前記複合系列の間での更なる検索のための前記より確かそうな複合系列を選択するステップが、前記検索の前記少なくとも1つにおける終端状態に到達した後に実行されることを特徴とする音声認識方法。
  6. 請求項1に記載の音声認識方法であって、前記検索の特定の1つが、
    − 前記検索の特定の1つに状態の連結系列を、全てが該連結系列までの最後の状態系列の終了時における同一の時点に対して終端ノードを有するような複数の複合系列に対して入力するステップであって、前記状態の連結系列には前記複数の複合系列に対して代表的な初期確度が割り当てられているようなステップと、
    − 前記検索の特定の1つにおいて前記状態系列における状態に関しての確度情報に基づいて、確度の低い状態系列を破棄すると共に1以上のより確かそうな状態系列を維持するステップと、
    − 前記保持された各状態系列に関する確度情報を、前記保持された状態系列における連続する各状態に関して、前記観測された音声信号及び前記保持された状態系列における先行する状態に関する確度情報の関数として増加的に計算すると共に、前記破棄するステップを繰り返すステップと、
    を有するような音声認識方法において、
    − 前記検索の特定の1つの終端状態に到達した際に、前記複数の複合系列における個々の複合系列に関して更なる確度情報を再発生するステップであって、前記更なる確度は、前記終端状態に繋がる前記連結系列の初期状態が前記個々の複合系列の対応する系列により先行される場合に前記終端状態に対応するようなステップと、
    − 更なる検索を実行するステップであって、該更なる状態レベルの検索の間における前記計算する及び破棄するステップが前記更なる確度情報に基づくものであるようなステップと、
    を有することを特徴とする音声認識方法。
  7. 請求項6に記載の音声認識方法において、前記更なる確度情報は、前記終端状態に関して前記代表的確度に基づいて増加的に計算された終端確度情報から、前記個々の複合系列に関して前記終端確度情報に補正因数を適用することにより計算されることを特徴とする音声認識方法。
  8. 各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列における他の系列より観測された音声信号を一層確かに表しそうな少なくとも1つの系列を検索するステップを有するような音声認識方法であって、前記検索するステップが、
    − 前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索、
    を有し、前記検索のうちの第1の検索が、
    − 前記検索のうちの前記第1の検索に状態の連結系列を、全てが該連結系列までの最後の状態系列の終了時における同一の時点に対して終端ノードを有するような複数の複合系列に関して入力するステップであって、前記状態の連結系列には前記複数の複合系列に対して代表的な初期確度が割り当てられているようなステップと、
    − 前記検索のうちの前記第1の検索において前記状態系列における状態に関する確度情報に基づいて、確度の低い状態系列を破棄すると共に1以上の確かそうな状態系列を維持するステップと、
    − 前記保持された各状態系列に関する確度情報を、前記保持された状態系列における連続する各状態に関して、前記観測された音声信号及び前記保持された状態系列における先行する状態に関する確度情報の関数として増加的に計算すると共に、前記破棄するステップを繰り返すステップと、
    を有するような音声認識方法において、
    − 前記検索のうちの前記第1の検索の終端状態に到達した際に、前記複数の複合系列における個々の複合系列に関して更なる確度情報を再発生するステップであって、前記更なる確度は、前記終端状態に繋がる前記連結系列の初期状態が前記複数の個々の複合系列の対応する系列により先行される場合に前記終端状態に対応するようなステップと、
    − 更なる検索を実行するステップであって、該更なる検索の間における前記計算する及び破棄するステップが、前記個々の複合系列に関する前記更なる確度情報に基づくものであるようなステップと、
    を有することを特徴とする音声認識方法。
  9. 各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列より観測された音声信号を一層確かに表しそうな少なくとも1つの系列を検索するステップであって、前記各状態系列が語を表すようなステップを有する音声認識方法において、前記検索するステップが、
    − 前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索と、
    − 前記状態系列において部分語境界状態に対応する状態を識別するステップと、
    − 前記状態系列の対応するものに対して前記音声信号における共通の時点に関して発生する前記部分語境界状態のクラスを識別するステップであって、前記状態系列の各々は全て、前記共通の時点で終了する発音的に等価な履歴を表すような状態系列から形成された対応する複合系列の一部であるようなステップと、
    − 当該クラスにおける全ての部分語境界状態により共有される単一の後継状態から前記漸進的な確度の制限された検索を、前記単一の後継状態に対して前記クラスにとり代表的な確度情報を用いることにより継続して、後続の状態に関する確度情報を計算すると共に、次の部分語境界状態又は終端状態が識別されるまで後続の検索を制御するステップと、
    − 前記次の部分語境界状態又は終端状態に関する複数の確度情報を、前記部分語境界状態のクラスの対応するメンバを含む場合に前記次の部分語境界状態及び終端状態に先行する状態系列に対応して計算するステップと、
    − 更なる検索を実行するステップであって、該更なる検索が前記対応するメンバに関して計算された確度情報を個々に用いるようなステップと、
    を有することを特徴とする音声認識方法。
  10. 請求項9に記載の音声認識方法において、前記クラスのメンバである部分語境界状態は前記クラスのメンバでない部分語境界状態から、前記複合系列を介して当該部分語境界状態が一部であるような状態系列の開始状態を超えて延びる先行する状態の系列の間の差に基づいて区別され、これにより、前記クラスは所定量の発音的履歴に基づいて、該発音的履歴が語の境界をまたがって延びるかに無関係に区別されることを特徴とする音声認識方法。
  11. 音声認識システムにおいて、
    − 音声信号を入力する入力端と、
    − 各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列より観測された音声信号を一層確かに表しそうな少なくとも1つの系列を検索するように構成された認識ユニットであって、前記検索が、前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索を有するような認識ユニットと、
    を有し、
    − 前記認識ユニットは、各々が複合系列のクラスの一部を形成するための状態系列を有するような検索空間に対して前記検索のうちの異なるものを開始し、前記検索空間の異なるものを定義する異なるクラスは、前記複合系列における前記検索空間内の当該状態系列までの状態系列により表される語又はその一部の数の識別に基づいて区別され、異なるクラスを区別するために識別が使用された語又はその一部の数は、前記検索空間における当該系列までの前記複合系列により表される1以上の最後の語の長さに依存して変化され、同一の1以上の最後の語に対応する複合系列は、前記1以上の最後の語が相対的に短い場合には異なるクラスに区別されるが、前記1以上の最後の語が相対的に長い場合は異なるクラスに区別されない、
    ことを特徴とする音声認識システム。
  12. 請求項11に記載の音声認識システムにおいて、前記認識ユニットは異なるクラスを発音に基づいて、各クラスが前記検索における当該状態系列までの前記複合系列を有するような状態系列により表される最後の音素の自身の組に対応するような複合系列を含むように区別し、異なるクラスは最後の音素の異なる組に対応し、複合系列は異なるクラスに区別され及び又は前記音素が一部であるような語又は複数の語に無関係に同一のクラスに配置されることを特徴とする音声認識システム。
  13. 請求項11に記載の音声認識システムにおいて、前記認識ユニットは前記異なるクラスを各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される所定数Nの最後の音素が同一であるような複合系列を含むように区別し、異なるクラスは前記音素が一部であるような語又は複数の語に無関係に異なるN個の最後の音素に対応することを特徴とする音声認識システム。
  14. 請求項11に記載の音声認識システムにおいて、前記音声認識ユニットは前記異なるクラスを各クラスが前記検索における当該状態系列までの前記複合系列を有する状態系列により表される複数の最後の音素が同一であるような複合系列を含むように区別され、前記複数の最後の音素は少なくとも1つの音節の終了を含むように選択され、異なるクラスは前記音素が一部であるような語又は複数の語に無関係に音節の終了を伴う異なる最後の音素に対応することを特徴とする音声認識システム。
  15. 請求項11に記載の音声認識システムにおいて、前記認識ユニットは、前記複合系列におけるM個の各連続する状態系列に対応するM語の系列の確度を特定するような語レベルのモデルに基づいて、より確かそうな複合系列を選択すると共に更なる検索から他の複合系列を破棄し、前記M語は前記複合系列を前記クラスの異なるものに区別するような語又はその一部の数より長く、前記クラスの特定の1つの検索のうちの少なくとも1つは前記検索における当該状態系列までの複合系列を有する状態系列により表される異なるN個の最後の語に対応するような異なる複合系列の検索の共同した確度制限を伴い、前記特定のクラスにおける前記複合系列の間での更なる検索のための前記より確かそうな複合系列の選択が、前記検索の前記少なくとも1つにおける終端状態に到達した後に実行されることを特徴とする音声認識システム。
  16. 請求項11に記載の音声認識システムにおいて、前記認識ユニットは前記検索のうちの特定の1つを、
    − 前記検索のうちの前記特定の1つに状態の連結系列を、全てが該連結系列までの最後の状態系列の終了時における同一の時点に対して終端ノードを有するような複数の複合系列に対して入力し、ここで前記状態の連結系列には前記複数の複合系列に対して代表的な初期確度が割り当てられるようにし、
    − 前記検索における前記特定の1つにおいて前記状態系列における状態に関しての確度情報に基づいて、確度の低い状態系列を破棄すると共に1以上のより確かそうな状態系列を維持し、
    − 前記保持された各状態系列に関する確度情報を、前記保持された状態系列における連続する各状態に関して、前記観測された音声信号及び前記保持された状態系列における先行する状態に関する確度情報の関数として増加的に計算すると共に、前記破棄するステップを繰り返す、
    ように実行するよう構成され、前記認識ユニットは、
    − 前記検索の特定の1つの終端状態に到達した際に、前記複数の複合系列における個々の複合系列に関して更なる確度情報を再発生し、ここで前記更なる確度は、前記終端状態に繋がる前記連結系列の初期状態が前記個々の複合系列の対応する系列により先行される場合に前記終端状態に対応するようにし、
    − 更なる検索を実行し、該更なる状態レベルの検索の間における前記計算及び破棄が前記更なる確度情報に基づくものであるようにする、
    ことを有することを特徴とする音声認識システム。
  17. 請求項16に記載の音声認識システムにおいて、前記更なる確度情報は、前記終端状態に関して前記代表的確度に基づいて増加的に計算された終端確度情報から、前記個々の複合系列に関して前記終端確度情報に補正因数を適用することにより計算されることを特徴とする音声認識システム。
  18. 音声認識システムにおいて、
    − 音声信号を入力する入力端と、
    − 各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列よりも観測された音声信号を一層確かに表しそうな少なくとも1つの系列を検索するように構成された認識ユニットであって、前記検索が、前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索を有するような認識ユニットと、
    を有し、前記検索のうちの第1の検索が、
    − 前記検索のうちの前記第1の検索に状態の連結系列を、全てが該連結系列までの最後の状態系列の終了時における同一の時点に対して終端ノードを有するような複数の複合系列に関して入力するステップであって、前記状態の連結系列には前記複数の複合系列に対して代表的な初期確度が割り当てられているようなステップと、
    − 前記検索のうちの前記第1の検索において前記状態系列における状態に関する確度情報に基づいて、確度の低い状態系列を破棄すると共に1以上の確かそうな状態系列を維持するステップと、
    − 前記保持された各状態系列に関する確度情報を、前記保持された状態系列における連続する各状態に関して、前記観測された音声信号及び前記保持された状態系列における先行する状態に関する確度情報の関数として増加的に計算すると共に、前記破棄するステップを繰り返すステップと、
    を有し、前記認識ユニットが、
    − 前記検索のうちの前記第1の検索の終端状態に到達した際に、前記複数の複合系列における個々の複合系列に関して更なる確度情報を再発生し、ここで、前記更なる確度は、前記終端状態に繋がる前記連結系列の初期状態が前記複数の個々の複合系列の対応する系列により先行される場合に前記終端状態に対応するようなものであり、
    − 更なる検索を実行し、ここで、該更なる検索の間における前記計算する及び破棄するステップが、前記個々の複合系列に関する前記更なる確度情報に基づくものである、
    ことを特徴とする音声認識システム。
  19. 音声認識システムにおいて、
    − 音声信号を入力する入力端と、
    − 各々が連続する状態の系列からなる複合系列の間で、前記複合系列のうちの該複合系列の他の系列よりも観測された音声信号を一層確かに表しそうな少なくとも1つの系列を検索するように構成された認識ユニットであって、前記検索が、前記複合系列が作成される状態系列のための、各確度が前記状態系列の部分集合を含む対応する検索空間に制限されるような漸進的な確度の制限された検索を有するような認識ユニットと、
    を有し、前記認識ユニットが、
    − 前記状態系列において部分語境界状態に対応する状態を識別し、
    − 前記状態系列の対応するものに対して前記音声信号における共通の時点に関して発生する前記部分語境界状態のクラスを識別し、ここで、前記状態系列の各々は全て、前記共通の時点で終了する発音的に等価な履歴を表すような状態系列から形成された対応する複合系列の一部であり、
    − 当該クラスにおける全ての部分語境界状態により共有される単一の後継状態から前記漸進的な確度の制限された検索を、前記単一の後継状態に対して前記クラスにとり代表的な確度情報を用いることにより継続して、後続の状態に関する確度情報を計算すると共に、次の部分語境界状態又は終端状態が識別されるまで後続の検索を制御し、
    − 前記次の部分語境界状態又は終端状態に関する複数の確度情報を、前記部分語境界状態のクラスの対応するメンバを含む場合に前記次の部分語境界状態及び終端状態に先行する状態系列に対応して計算し、
    − 前記対応するメンバに関して計算された確度情報を個々に用いるような更なる検索を実行する、
    ように構成されていることを特徴とする音声認識システム。
  20. 請求項19に記載の音声認識システムにおいて、前記クラスのメンバである部分語境界状態は前記クラスのメンバでない部分語境界状態から、前記複合系列を介して当該部分語境界状態が一部であるような状態系列の開始状態を超えて延びる先行する状態の系列の間の差に基づいて区別され、これにより、前記クラスは所定量の発音的履歴に基づいて、該発音的履歴が語の境界をまたがって延びるかに無関係に区別されることを特徴とする音声認識システム。
JP2003511229A 2001-07-06 2002-06-21 音声認識における高速検索 Withdrawn JP2004534275A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01202609 2001-07-06
PCT/IB2002/002440 WO2003005343A1 (en) 2001-07-06 2002-06-21 Fast search in speech recognition

Publications (1)

Publication Number Publication Date
JP2004534275A true JP2004534275A (ja) 2004-11-11

Family

ID=8180607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003511229A Withdrawn JP2004534275A (ja) 2001-07-06 2002-06-21 音声認識における高速検索

Country Status (7)

Country Link
US (1) US20030110032A1 (ja)
EP (1) EP1407447A1 (ja)
JP (1) JP2004534275A (ja)
KR (1) KR20030046434A (ja)
CN (1) CN1524260A (ja)
TW (1) TW575868B (ja)
WO (1) WO2003005343A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055503B2 (en) * 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
AU2004267846B2 (en) 2003-08-22 2010-08-26 InContact Inc. System for and method of automated quality monitoring
JP2006228135A (ja) * 2005-02-21 2006-08-31 Brother Ind Ltd コンテンツ提供システム,出力制御装置およびプログラム
US20080162129A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process
US20080162128A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a fast speech recognition search process
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US11183194B2 (en) * 2019-09-13 2021-11-23 International Business Machines Corporation Detecting and recovering out-of-vocabulary words in voice-to-text transcription systems

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
DE4130631A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
DE19639844A1 (de) * 1996-09-27 1998-04-02 Philips Patentverwaltung Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
AUPQ131099A0 (en) * 1999-06-30 1999-07-22 Silverbrook Research Pty Ltd A method and apparatus (IJ47V8)

Also Published As

Publication number Publication date
KR20030046434A (ko) 2003-06-12
WO2003005343A1 (en) 2003-01-16
EP1407447A1 (en) 2004-04-14
US20030110032A1 (en) 2003-06-12
CN1524260A (zh) 2004-08-25
TW575868B (en) 2004-02-11

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
CN107045870B (zh) 一种基于特征值编码的语音信号端点检测方法
US6374219B1 (en) System for using silence in speech recognition
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JPH11191000A (ja) テキストを音声信号と整列する方法
CN111797632B (zh) 信息处理方法、装置及电子设备
EP1022723A2 (en) Unsupervised adaptation of a speech recognizer using reliable information among N-best strings
EP0535929A2 (en) Speech recognition system
JP2003515778A (ja) 別々の言語モデルによる音声認識方法及び装置
JP2002215187A (ja) 音声認識方法及びその装置
JPH05197393A (ja) 音声信号のワードシーケンス認識方法および装置
JP2004534275A (ja) 音声認識における高速検索
WO2003060878A1 (fr) Appareil de reconnaissance de la parole continue, procede de reconnaissance de la parole continue, programme de reconnaissance de la parole continue et support d'enregistrement de programme
WO2012150658A1 (ja) 音声認識装置および音声認識方法
KR100277690B1 (ko) 화행 정보를 이용한 음성 인식 방법
JP2000356997A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2000075885A (ja) 音声認識装置
JP6274015B2 (ja) 音響モデル調整装置及びプログラム
Vereecken et al. Improving the phonetic annotation by means of prosodic phrasing.
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH11202886A (ja) 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
CN113284487B (zh) 基于语音识别结果的匹配方法
JP3818154B2 (ja) 音声認識方法
JP2000276189A (ja) 日本語ディクテーションシステム
JP3583930B2 (ja) 音声認識装置及びその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050620

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20061013