JP3549681B2

JP3549681B2 - 連結数字の認識のための発声識別立証

Info

Publication number: JP3549681B2
Application number: JP24243696A
Authority: JP
Inventors: チョーウー; ジョアンビーイング−ホワン; リーチン−フイ; ジー．レイムマズィン
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-09-15
Filing date: 1996-09-13
Publication date: 2004-08-04
Anticipated expiration: 2016-09-13
Also published as: EP0763816B1; US5737489A; JPH09127972A; DE69620324T2; CA2181205C; EP1184840A1; EP0763816A3; EP0763816A2; DE69634784D1; CA2181205A1; EP1184840B1; DE69620324D1; DE69634784T2

Description

【０００１】
【発明の属する技術分野】
本発明は、一般的に音声認識と立証の分野に関し、特に、音声立証訓練の分野に関する。
【０００２】
【従来の技術】
音声認識は、未知の話された発声が識別されるプロセスである。訓練として知られているプロセスを通して、知られている単語または単語ストリングがテストされ、単語または単語ストリングの特徴は音声認識装置メモリー内の認識モデルとしてサンプリングされて、記録される。認識モデルは、知られている発声の典型的な音響的解釈を表している。訓練プロセスにおいて、訓練アルゴリズムが認識モデルに適用され、将来の未知の単語および単語のストリングを認識するために利用されるこれらの格納された表現を形成する。
【０００３】
動作において、音声認識装置は未知の発声を受信し、未知の発声を認識するために、未知の発声から特徴を抽出する。未知の発声の抽出された特徴は、テストパターンとして参照される。
【０００４】
認識装置は、その後、未知の発声のためのテストパターンとメモリー内の１つ以上の認識モデルの組合せとを比較する。認識モデルの各組合せがテストパターンとどれほどよくマッチするかの相対的な測定を提供するために、スコアをカウントする技術が用いられる。未知の発声と最もはっきりとマッチする１つ以上の認識プロセッサモデルの組合せと関連する単語として未知の発声は認識される。
【０００５】
従来の音声認識の実際では、音声認識モデル化とモデル訓練のために妥当な可能性またはクラスの数「Ｎ」が利用された。そのようなＮ−クラスモデルにおいては、認識されるべきすべての発声入力は妥当であると仮定される。「Ｎ」個の存在可能なクラスの各々に対する認識モデルは、認識装置メモリーに格納されている。妥当であるかどうかにかかわらず、認識されるべき全ての音声入力は、Ｎクラスのうちの１つとして分類される。認識装置は、Ｎ個のモデルの各々に対する発声のスコアを計算し、発声を、最もよいスコアを持つ（Ｎ個のクラスの内の）あるクラスにマッチさせる。
【０００６】
付加的な、または「Ｎ＋１」のクラスの概念が、Ｎ個の妥当なクラスの認識に加えて、（「フィラー」モデルと指定される）関連したＮ＋１モデルを提供するように開発されている。そのようなシステムにおいては、認識されるべき入力発声がＮ個の妥当なクラスの入力に対するＮ個のモデルの各々に対して、また付加的に、Ｎ＋１フィラークラスモデルに対して、スコアが数えられる。Ｎ＋１モデルは、すべての無効の入力を表すように設計されている。Ｎ＋１フィラーモデルの使用により、認識プロセスはさらに洗練され、入力発声または入力発声のセグメントが妥当ではないかもしれないことを考慮するようになった。
【０００７】
いったん未知の発声が音声認識プロセスによって分類されると、音声認識装置によりなされる分類決定の確実性を評価することがしばしば、望ましい。これは、２パスプロセスにより達成され、未知の発声は最初にＮ個の可能な妥当なクラスを表すＮ個のモデルに対してそれのスコアを数えることにより認識される（分類される）。最もよいスコアを提供する認識モデルは、その関連したクラスにマッチされ、それは、後で立証されるべき仮定発声として認識される。仮定認識発声は、その後、フィラー立証モデルに対して第２のパスにおいて立証され、そのモデルは、上述のＮ＋１認識フィラーモデルと同様であるはずである。
【０００８】
２パス音声認識プロセスは、未知の発声の認識を可能にし、続いて、システムが認識決定についてどれほど信用できるかの計算される判定が続く。例えば、認識装置は未知の発声を特定の単語として分類し、立証器は、フィラーモデルを使って分類が正しいことを示す。立証器は、認識装置が適切に分類したかどうかにかかわらず、立証器は、２進の決定、「はい」、または「いいえ」を作成するために使用される。
【０００９】
発声立証は音声認識システム開発の重要な観点を表している。発声立証は、計算された信用スコアに基づいて全体の発声のうちの拒絶する部分またはすべてを含んでいる。信用スコアは、尤度比距離に基づくことができ、それは、単語が音声のあるセグメント中に存在するかどうかをテストする。尤度比距離は、発声が妥当な単語なしでなされ、認識される発声が乏しい状況で、あるいは重要な混乱が高いエラーレートを発生する単語間に存在するとき、特に有益である。
【００１０】
音声認識システムの文脈での発声立証の成功した性能は、立証モデルを訓練するために用いられる技術の有効性と密接に関連し、そのモデルは立証プロセスにおいて使用される。従来の訓練方法には欠陥が存在し、それは、訓練と立証エラーレートの間の直接的な関係の不足に起因している。立証エラーレートを直接最小化する訓練方法を見つけることが、目下の問題である。
【００１１】
【発明の概要】
音声認識技術の進歩が、本発明により提供され、それでは、接続された単語のストリングを認識するために２つのパスの認識と立証戦略を採用する。本発明の図示される実施例によれば、音声認識システムは、認識プロセッサを具備するか、または仮定ストリングを生成し、未知の接続された単語の音響的入力ストリングに基づいて接続された単語の仮定ストリングを発生するための認識プロセッサと、接続された単語の仮定ストリングに応答するストリングベース信用測定信号を生成する立証プロセッサとを具備する。認識データベースは、認識プロセッサによって使用される認識モデルを格納する。立証データベースは、立証プロセッサによって使用される立証モデルを格納する。
【００１２】
第１のパスでの認識は、隠れマルコフモデルのセットを使用して従来のビタービ（Ｖｉｔｅｒｂｉ）ビームサーチアルゴリズムで実行され、そのモデルは、ストリング分類エラーを最小化するように訓練されている。第２のパスでの発声立証は、本発明による最小ストリング立証エラー（ＭＳＶＥ）訓練プロセスで訓練された隠れマルコフモデルのセットを使用して、仮定認識ストリングを立証するために実行される。
【００１３】
立証エラーを最小限にするために立証データベースに格納された立証モデルを訓練する方法が利用される。訓練方法は、予期されるストリング立証エラーを計算し、最小化することを含んでいる。
【００１４】
訓練プロセスにおいて、最初に、立証データベースの立証モデルが初期設定される。既知の仮定ストリングが選ばれる。立証プロセッサは、既知の仮定ストリングのための現在の立証モデルに基づいて第１のストリングベース信用測定信号を生成する。
【００１５】
既知の仮定ストリングのための現在の立証モデルと混同するほど似た１つ以上の競合ストリングモデルが生成される。１つ以上の競合ストリングモデルは立証プロセッサに提供され、それは、既知の仮定ストリングと１つ以上の競合ストリングモデルに基づいて１つ以上のストリングベース信用測定信号を生成する。
【００１６】
誤立証信号は、既知の仮定ストリングのための第１のストリングベース信用測定信号に基づいて立証プロセッサにより生成され、１つ以上の競合ストリングモデルに基づいてストリングベース信用測定信号が生成される。誤立証信号に基づく損失関数信号は、その既知の仮定ストリングのための現在の立証モデルに基づく既知の仮定ストリングの立証を、１つ以上の他の競合立証モデルをもつ既知の仮定ストリングの立証に関係づける勾配に提供する。勾配決定は、損失関数信号の導関数を利用して達成される。
【００１７】
立証モデルは、未知の仮定ストリングを誤立証する尤度を最小化するために更新される。更新プロセスは、予期される損失関数信号を評価し、立証エラーの尤度を最小化するために、評価される損失関数信号に応答する立証モデルを繰り返し調整する。
【００１８】
本発明の音声認識システムは、立証プロセッサにより生成される信用測定信号を立証するために最適立証しきい値信号値を生成するように動作させられることができる。立証しきい値信号値は、仮定認識ストリングを拒絶する決定のための基礎を提供し、立証エラーレートを維持するように選ばれる。
【００１９】
既知の仮定ストリングは、立証プロセッサに入力され、それは、立証データベースに格納された立証モデルをアクセスするように結合されている。１つ以上の競合ストリングモデルが既知の仮定ストリングに基づいて生成される。１つ以上の競合ストリングモデルは立証プロセッサに提供される。
【００２０】
立証プロセッサは、予め選択された数の場に対して、既知の仮定ストリングのための現在の立証モデルに基づいて第１のストリングベース信用測定信号を生成し、既知の仮定ストリングに基づいて１つ以上の競合ストリングモデルのうちの各々に対するストリングベース信用測定信号を生成するように動作させられる。既知の仮定ストリングに対する現在の立証モデルに基づくストリングベース信用測定信号値の第１の分布は記録される。既知の仮定ストリングに対するストリングベース信用測定信号値の第２の分布と競合モデルは記録される。立証しきい値信号値は、第１の平均と第２の平均とに基づいて選択され、調整される。
【００２１】
ここに、教示される技術は、ストリング立証エラーレートを最小化することと直接関連する。
本発明の他の目的、利点、および顕著な特徴は、本発明の好適実施例を開示し、添付図面と関連してなされる以下の詳細な説明から明らかとなるであろう
【００２２】
【発明の実施の形態】
説明の明瞭化のために、本発明の図示される実施例は、（「プロセッサ」とラベルされた機能ブロックを含めて）個々の機能ブロックを具備するとして提供される。これらのブロックが表している機能は、それに制限されないが、ソフトウェアを実行可能なハードウェアを含めて、共有されたまたは専用とされたハードウェアのいずれかの使用によって提供される。例えば、図１から図４において提供されるプロセッサの機能は、単一な共有プロセッサによって提供されても良い。（ソフトウェアを実行可能なハードウェアを排他的に参照するように、用語「プロセッサ」の使用が解釈されるべきでない。）
【００２３】
図示される実施例は、ＡＴ＆ＴＤＳＰ１６またはＤＳＰ３２Ｃなどのデジタル・シグナル・プロセッサ（ＤＳＰ）ハードウェア、下で議論される動作を実行するソフトウェアを格納するためのリード・オンリー・メモリ（ＲＯＭ）、ＤＳＰ結果を格納するためのランダム・アクセス・メモリ（ＲＡＭ）を具備する。汎用ＤＳＰ回路と組合せてのカスタムＶＬＳＩ回路だけでなく、超大規模集積（ＶＬＳＩ）ハードウェア実施例が、また提供されてもよい。
【００２４】
図１は、ＨＭＭベース音声認識システムの文脈の一般的説明の目的のために本発明の図示される実施例を提供する。音声認識システム８は、認識プロセッサ１０、別個の隠れマルコフモデル（”ＨＭＭ”）認識モデルのセットを含む認識データベース１２、立証プロセッサ１４および別個のＨＭＭ立証モデルのセットを含む立証データベース１６を具備する。
【００２５】
認識プロセッサは、単語の未知の音声ストリング１８（発声）を入力として受信する。認識プロセッサ１０は、未知の音声ストリング１８入力に応答して認識データベース１２をアクセスし、未知の単語ストリングを分類して、仮定認識ストリング信号を生成するために、認識データベース１２の認識モデルに対する未知の単語音声ストリングのスコアを数える。立証プロセッサは、仮定ストリング信号２０を、立証されるべき入力として受信する。立証プロセッサ１４は、立証データベース１６をアクセスして、立証データベースに格納されている立証モデルに対する仮定ストリング信号をテストする。立証テストに基づいて、立証プロセッサ１４は、信用測定信号２２を測定して、測定された信号値を生成する。測定された信号値は、立証しきい値信号値に対して比較されるべきしきい値コンパレーター２４に通され、認識プロセッサ１０によりなされた分類決定の精度を決定する。
【００２６】
図２は、音声認識システム８の立証訓練およびテストプロセスを説明するためのより詳細な図を提供する。図２を参照して、音声認識システムは、訓練音声データベース２６、特徴抽出器２８、第１のモードスイッチ３０、第２のモードスイッチ３２、単語ベース信用スコア計算器３４、平均単語ベース信用スコアプロセッサ３６、ストリングベース信用測定信号発生器３８、しきい値比較器４０、従来のＨＭＭ訓練器４２、ＨＭＭパラメーターデータベース４４、Ｎ最良ストリングモデル発生器４６、および強化された訓練器４８を具備する。
【００２７】
訓練音声データベース２６は、デジタル形式での既知の音声信号のサンプルを具備する。各音声信号は、１語以上の話された単語のストリングに対応する。これらのサンプルは従来の訓練器４２と強化された訓練器４８のためにそれぞれ使われる。訓練音声データベース２６からの既知の音声ストリングのサンプルは、第１のモードスイッチ３０を介してシステムの他の構成要素に提供される。
【００２８】
第１のモードスイッチ３０は、システムの２つの動作モードを反映する：訓練（Ｔ）モードとテストのための立証（Ｖ）モードである。第１のモードスイッチ３０が（図示のように）Ｔ位置にあるとき、訓練データベース２６からの訓練ストリング信号は、訓練がシステムの訓練部５０によって実行できるように、システムのバランスに提供される。第１のモードスイッチがＶ位置にあるとき、デジタル形式の仮定認識音声ストリング信号が、システムの立証部５２により立証のためにシステムのバランスに提供される。
【００２９】
システムの特徴抽出器２８は、第１のモードスイッチ３０に結合されている。第１のモードスイッチの状態に依存して、特徴抽出器２８は、訓練ストリング信号または仮定音声ストリング信号を受信する。これらの受信ストリング信号に基づいて、特徴抽出器は、立証または訓練の目的でストリング信号を特徴付ける１つ以上の特徴ベクトルＯを作成する。
【００３０】
特徴抽出器からの特徴ベクトル出力は、第２のモードスイッチ３２に提供される。第２のモードスイッチは、第１のモードスイッチとタンデム形式で動作する。すなわち、両方のスイッチは、両方のスイッチに提供されるモード信号５４に基づいて、同時に同じ状態（ＴまたはＶ）にセットされる。第２のモードスイッチ３２は、特徴抽出器２８の出力をシステムの立証部５２または訓練部５０に向ける。
【００３１】
システムの立証部５２は、認識プロセッサ１０によりなされた認識決定をテストするために選択されることができる（図１）。図２に示される立証部５２は、単語ベース信用スコア計算器３４、平均単語ベース信用スコアプロセッサ３６、およびストリングベース信用測定信号発生器３８を具備する。
【００３２】
特徴抽出器２８は、一連のフレーム特徴ベクトルを出力する。特徴ベクトルのフレームに基づく単語信号は、単語ベース信用スコア計算器３４に提供される。単語ベース信用スコア計算器は、離散的な単語信号について計算を実行する。単語ベース信用スコア計算器３４は、１つ以上の立証モデル（この場合隠れマルコフモデル「ＨＭＭ」）のストリングを、仮定認識音声ストリング信号の各単語信号にマッチさせる。信用スコア計算器３４は、仮定ストリング信号の各単語信号に対して単語ベース信用スコアを生成する。ストリングの各単語セグメントに対して計算される単語ベース信用スコアは、信用のレベルを示し、それは、仮定ストリングの各特定の単語が正しく認識され、音声認識システムに提供された入力発声の単語に正確に対応しているレベルである。
【００３３】
平均単語ベース信用スコアプロセッサ３６は、仮定ストリング信号の各単語セグメント信号に対して生成される単語ベース信用スコアのセットについて算術平均演算を実行して、平均単語ベース信用スコア信号を生成するための手段を提供する。平均信用スコア信号は、ストリングベース信用測定信号発生器３８に通される。
【００３４】
ストリングベース信用測定信号発生器３８は、平均信用スコア信号を受信するように結合されていて、ストリングベース信用測定信号を測定して、測定された信号値を生成するように応答する。ストリングベース信用測定信号の測定された信号値は、立証テスト結果を具体化し、立証プロセッサに提供される仮定ストリング信号が実際の話された単語ストリングを正確に表しているという信用度の測定を提供する。
【００３５】
立証プロセッサに提供される仮定（の）認識（される）音声ストリング信号が音声認識システムに元々入力される未知の音声単語ストリングであることを立証するために、信用測定信号の測定された信号値は、立証しきい値信号値４０と比較される。この測定された信号値がしきい値信号値以下ならば、仮定ストリング信号は、実際の話された入力発声を間違って表しているとして拒絶される。すなわち、立証プロセッサに提供される仮定ストリング信号は立証されることができないであろう。
【００３６】
システムの訓練部５０は、従来のＨＭＭ訓練器４２、ＨＭＭパラメーターデータベース４４、Ｎ最良ストリングモデル発生器４６、および強化された訓練器４８を具備する。従来のＨＭＭ訓練器４２は、米国特許番号４，７８３，８０４により説明されるようであり、ＨＭＭの従来の訓練を提供する。従来の訓練器の出力は、ＨＭＭのセットが基づく訓練音声ストリングの特徴ベクトルＯだけでなく、１つ以上の従来のように訓練された複数のＨＭＭの組Θ_Ｉを具備する。従来の訓練器４２の出力は、初期化パラメーターとしてＮ最良ストリング発生器４６および強化された訓練器４８による使用のためにＨＭＭパラメーターデータベース４４に記録される。
【００３７】
強化された訓練器４８は、初期のパラメーターΘ_Ｉを受信して、ＨＭＭパラメーターデータベースに強化されたまたは更新されたＨＭＭのセットΘ_Ｕを戻す。強化されたモデルΘ_Ｕは、最終的に、立証モード処理の間に単語ベース信用スコア計算器３４に提供される。従来のように訓練されたＨＭＭΘ_Ｉよりもむしろ強化されたＨＭＭΘ_Ｕの単語ベース信用スコア計算器の使用は、ストリング立証エラーレートの減少を達成するために提供される。
【００３８】
Ｎ最良ストリングモデル発生器４６は、ＨＭＭパラメーターデータベース４４から、隠れマルコフモデル（ＨＭＭ）パラメーターΘ_Ｘと訓練音声ストリングＯを受信するように結合されている。Ｎ最良ストリングモデル発生器４６は、ストリングモデルのセットを生成するように動作し、そのモデルは、仮定認識ストリング信号のための現在の立証モデルと高度に競合する。これらの競合するストリングモデルは、強化された訓練器４８の区別的な訓練のための基礎を提供する。即ち、立証プロセッサへの正しい仮定ストリング信号入力が立証プロセッサに極めて高い信用測定信号を生成させるように、また、間違った仮定ストリング入力は、立証プロセッサに低い信用測定信号を生成させるように、立証モデルを訓練するためである。
【００３９】
Ｎ最良ストリング発生器４６は、”Ｎ”個の最良の（競合する）単語ストリングと、各そのような単語ストリングのための最良のＨＭＭ立証モデル列とを決定することにより、”Ｎ”個の最良の（あるいは最も競合する）単語ストリングを発生する。Ｎ最良単語ストリングの決定は、修正されたビタービデコーダーのＤＳＰ実行の使用によってなされる。
【００４０】
修正されたビタービデコーダは、部分的なパスマップ、即ち瞬間毎にいずれかの文法ノード（即ち単語の結合点）に通じるすべての部分的なパスのすべてのスコアのリスト（または、マトリクス）を準備する。その後、修正されたビタービ前検索の終了時に、デコーダは、当業界でよく知られたＡ＊トレースバックツリー検索を使用する。発生器は、「スタック」（位付けられたデータリスト）の先頭にある先頭（ベスト）部分的パスを育てることによりツリー検索を実行する。スタック上のすべての部分的パスの位付けは、完了されるときに部分的パスが達成できる最良の可能なスコアにより決定される。ビタービ前検索において準備される部分的パスマップは、後方ツリー検索においていかなる不完全な部分的パスに対してもスコアを提供する。Ａ＊手続の「最良が１番」という性質のため、先頭のＮストリングは逐次生成される。
【００４１】
スタック深さがいずれの検索エラーも回避するように十分に深いとすると、Ａ＊アルゴリズムの許容性、または最適なパスの確実な発見は、部分的なパスの不完全な部分の上限がスタックデコーダーとして使用されるときに保証される。ツリートレリス手順において、同じＨＭＭが両方向に沿っての検索において使われれば、最もしっかりとした上限、あるいはそのパスの実際のスコアが得られる。
【００４２】
発生器は、Ｎ最良ストリングリスト中の各単語ストリングに対するモデルのセットに対して入力音声ストリングＯのビタービ整列によりＮ最良単語ストリングに基づいてＮ最良ストリングモデルを生成する。このステップは、同じ単語ストリングに対応する多くのストリングモデルが存在するかもしれないので、発生器により実行される、しかし、あるモデルのセットに対する入力発声に最もよくマッチするストリングモデルは独特である。
【００４３】
発生器が、未知の競合ストリングをモデル化する能力を提供することに注意すべきである。これは、Ｎ最良デコーディングによって生成される競合する単語ストリングモデルが、訓練資料により制限されないという事実に起因している。Ｎ最良ストリングリストは、動的で、音声立証モデルの組に基づいてストリングレベル音響分解能を反映する。
【００４４】
従って、ＨＭＭパラメーターデータベース４４の基礎的な立証モデルは、Ｎ最良ストリングモデル発生器（一種の音声認識装置）により生成されるストリングモデルにより訓練される。生成されたストリングモデルは、元の訓練資料に無い単語ストリングに基づくことができるが、認識装置が、既知の仮定ストリング信号と混同してそれを見つける。認識装置が既知の仮定ストリング信号と混同して見つけるこれらの知られていない競合単語ストリングは、そのような知られていない混同しやすい同様なストリングに対する立証モデル化を改善するように識別的にモデル化される。（正しいストリングと混同されそうである）知られていないストリングを識別するための基礎を提供するように立証モデルを準備するモデル化は、訓練資料の貧しいストリング範囲によりそのようなモデル化が連続的な音声認識と立証において遭遇する困難さを減少させるので、有益である。
【００４５】
Ｎ最良ストリングモデル発生器の動作は、同時継続の米国特許出願番号０８／０３０，８９５に詳細に説明されており、それは本願の所有者に譲渡され、ここにそれに述べられているまま引用により組み込まれる。
【００４６】
最小ストリング立証エラーレート訓練では、Ｎ最良ストリングモデルは、ストリングエラーを表し、減らすために特に設計されている識別関数のセットに組み込まれる。これは、以下に説明するように、強化された訓練器４８の動作によりなされる。
【００４７】
発声立証プロセッサ１４（図１）は、仮定ストリング信号という形で提案された仮定認識発声を立証するために、統計的仮定テストを公式化し、適用するように動作する。立証プロセスのタスクは、仮定のキーワードまたはキーワードの組が、未知の発声に存在しない（すなわち、提案された認識された仮定発声２０は不正確である）という他の仮定に対して、仮定のキーワードまたはキーワードのセットが、未知の発声内に存在するという無効仮定をテストすることである。
【００４８】
立証プロセスは、提案された仮定発声の精度を立証するために、尤度比距離計算を用いるように設計されている。本発明によれば、発声立証モデルは、ストリングレベルについて作られ（訓練され）、立証テストは、ストリングレベルについて実施される。ここで教示される発声立証は、仮定ストリング信号に対するストリングベース信用測定信号を生成するために単語信号セグメントの単語ベース信用スコアの寄与を結合する幾何学的平均化の形式を使用する。ストリングベース信用測定信号は、仮定ストリング信号のすべてまたは一部分を受け入れ、あるいは拒絶するために、しきい値信号値４０（図２）に対して立証される。
【００４９】
図２を参照して、立証テストモードでは、仮定された単語ストリング５５は、立証部５２への提供のために第１のモードスイッチ３０を介して特徴抽出器２８に通される。単語ｉの仮定されたストリング（信号５５）は、認識プロセスの結果としてＮ個の単語｛Ｏ_ｑ｝に分割される。
【００５０】
立証部５２は、立証のために、与えられたモデル組Θ_Ｕを利用する。立証部５２は、ＨＭＭパラメーターデータベース４４の現在のモデルのセットに基づいて仮定単語ストリングに基づいて信用測定信号を生成する。仮定単語ストリングは、生成された測定信号
【数１】

が、予め定義された立証しきい値信号値τ以下であれば、拒絶される。ここで、ｋは、負の定数であり、Ｌ（Ｏ_ｑ；Θ，ｌ）は、数字（フレーム）ｌと認識される音声セグメントｑの信用スコアを示す。従って、信用測定信号は、ストリング信号の各音声セグメントｑ（単語フレーム）の信用スコアの平均と数学的に関連付けられる。
【００５１】
ＨＭＭベース立証モデルは、立証部５２によりアクセスされて、利用されるための立証データベース４４に格納されている。立証データベース４４内の立証モデルΘは、３つの異なる組からなる。即ち、キーワード間の混同可能性を扱うキーワード｛θ_１ ^（ｋ）｝、と反キーワード｛θ_１ ^（ａ）｝、及び無キーワード（無効の入力）を識別するための一般的音響フィラーモデルθ^（ｆ）である。
【００５２】
音声セグメントｑ，Ｌ（Ｏ_ｑ；Θ、ｌ）の単語ベース信用スコア３４は、キーワード仮定とその競合する他の仮定の間で優度比のログ（ｌｏｇ）を用いて構成されることができる。即ち、
【数２】

ここで、ｇ_１（Ｏ_ｑ）＝ｌｏｇｐ（Ｏ_ｑ｜θ_１ ^（ｋ））であり、
【数３】

従って、音声セグメントｑに対する信用スコア計算は、単語モデルスコアとフィラーモデルを用いて反単語モデルで計算されたスコアの間の比較を関連づける。
【００５３】
式（１）で信用測定信号ｓ_ｉ（Ｏ；Θ）を最大化する方法の１つは、Θのパラメーターが、データベース４４に格納されるように訓練するために、最大尤度手続を適用することである。しかしながら、音声認識実験に基づいてこの種の訓練は、立証または認識エラーレートを最小化することについて最良の性能を与えないことが示されている。
【００５４】
このため、最小ストリング分類エラー（ＭＳＣＥ）訓練プロセスが、認識データベース１２（図１）に認識モデルを創造するために開発された。そのような音声認識訓練方法は、１つ以上の既知の音声信号と現在の認識モデルのセットとに基づいて音声認識データベースを提供するために用いられる。ＭＳＣＥ訓練プロセスにおいて、第１の認識装置スコア信号は、既知の音声信号と、その信号のための現在の認識モデルに基づいて生成される。混同しやすい仮定のセットは、各々既知の音声信号および別の現在の認識モデルに基づいて１つ以上の他の認識装置スコア信号を生成するために生成されて、認識装置に適用される。
【００５５】
認識プロセッサは、第１の認識装置スコア信号および他の競合認識装置スコア信号に基づいて誤分類（誤認識）信号を生成する。認識モデルパラメーターは、誤認識信号に基づいて修正されて、訓練における既知の音声信号またはテスト動作における未知の音声信号を誤認識する優度を減少させる。実施例の説明と手続は、本願の所有者に譲渡された上記同時継続米国特許出願０８／０３０，８９５に提供される。
【００５６】
ストリングベース最小ストリング分類エラー（ＭＳＣＥ）訓練におけるゴールは、予期されるストリング分類エラーレートを最小化することである。対照的に、最小ストリング立証エラー（ＭＳＶＥ）訓練におけるゴールは、予期されるストリング立証エラーレートを最小化することである。従って、ＭＳＣＥアプローチにおいて使われる数学的な戦略と採用される特定の目的関数は、最適な発声立証性能とは一致しない。
【００５７】
本発明は、ＭＳＣＥと同じ精神で最小ストリング立証エラー（ＭＳＶＥ）訓練プロセスを利用するが、ＨＭＭパラメーターデータベース４４の立証モデルに対して設計されている。誤立証測定は計算されて、予期されるストリング立証エラーレートを最小化するために使用される。
【００５８】
ＭＳＶＥ訓練は、ストリングレベルにおいて適用されて、式（１）において使われる目的関数と一致している。ＭＳＶＥ訓練は、予期される関数を最小化するように実行される。
【数４】

ここで、Ｓ（）は、なめらかな０−１シグモイド非線形関数である。
【００５９】
図３を参照して、強化された訓練器４８は、ストリング誤立証測定プロセッサ５６、ストリングモデル損失関数プロセッサ５８、及びＨＭＭ更新プロセッサ６０を具備する。強化された訓練プロセスは、目的として、式（４）について説明された予期される損失関数を最小化して、ストリング立証エラーを実質的に減少させる。好適実施例において、強化された訓練プロセスは、音声認識システムにおいて上記プロセッサにより実行される２つのプロセスステップとして実現される。
【００６０】
Ａ．ストリング誤立証測定プロセッサ。
ストリング誤立証測定プロセッサ５６は、Ｎ最良ストリングモデル発生器４６からＨＭＭパラメーターΘ_Ｉ、ＮストリングモデルＳ_ｊ、および訓練音声ストリングサンプルＯを受信する。ストリングサンプルＯ、モデルＳ_ｊ、及びΘ_Ｉに基づいて、誤立証プロセッサ５６は、第１のプロセスステップとして、ｉ番目の仮定ストリングｄ_ｉ（Ｏ；Θ）ためのストリング誤立証測定値を決定する
【数５】

ここで、ｓ_ｉ（Ｏ；Θ）は、式（１）により定義される発声ベース識別関数であり、Ｓ_ｉ（Ｏ；Θ）は、以下のように定義される反識別関数である。
【数６】

ここで、Ｎは、競合ストリング仮定の全体数であり、ηは、図では２に設定される正の数である。
【００６１】
ストリング誤立証プロセッサ５６は、図３に示される後続のプロセッサによって使用されるためのスカラーｄの値を決定し、以下の間の差を説明する誤立証信号を生成する：（ａ）既知の仮定ストリング信号に対する現在の立証モデルと既知の仮定ストリング信号に基づく信用測定信号、および（ｂ）その既知の仮定ストリング信号に対するＮ最良競合立証モデルに基づく１つ以上の他の信用測定信号の平均。
【００６２】
Ｂ．ストリングモデル損失関数プロセッサ
第２のプロセスステップは、立証エラーカウントを近似する。これは、シグモイド非線形関数を用いてなされる。ストリングモデル損失関数プロセッサ５８は、誤立証測定プロセッサ５６から受信されるスカラー値ｄ_ｉ（Ｏ；Θ）に基づいてなめらかなストリング損失関数ｌ_ｉ（Ｏ；Θ）を評価する。この損失関数は以下のように定義される。
【数７】

ここで、αとβは、それぞれ、シグモイド非線形平滑化関数の傾きとシフトを制御する定数である。
【００６３】
ストリングモデル損失関数プロセッサ５８は、出力として、スカラーｌを損失関数信号の形でＨＭＭ更新プロセッサ６０に提供する。
【００６４】
上記のパラメーターαとβは、ストリング損失関数ｌ_ｉ（Ｏ；Θ）に平滑化された近似を提供するのを助ける。ストリング損失関数の傾きは、ＨＭＭ更新プロセッサ６０により使用され、現在の立証モデルＨＭＭパラメーターΘ_Ｉを更新する。その傾きは、その仮定ストリング信号に対する現在の立証モードモデルに基づく既知の仮定ストリング信号の信用測定を、１つ以上の他の現在の立証モデルに基づく既知の仮定ストリング信号の信用測定に関連づける。従って、この損失関数の予期されるストリング損失の最小化は、ストリング立証エラー確率の最小化と直接結び付けられる。
【００６５】
Ｃ．ＨＭＭ更新プロセッサ
立証モデルパラメーター更新の説明に先立ち、ＨＭＭ更新プロセッサ６０の動作の背景が提供される。最小ストリング立証エラー（ＭＳＶＥ）訓練は、式（７）の予期される損失関数を最小化する１組のパラメーターΘを見つけることに導かれ、それはＥ［ｌ_ｉ（Ｏ；Θ）］として指定される。
【００６６】
最小化パラメーターΘの組を見つけるために、パラメーターセットΘは、以下の式に従って、各繰り返しｎ毎に更新される。
【数８】

式（８）では、Θ_ｎは初期ＨＭＭパラメーターセット評価である。Ｅ［ｌ_ｉ（Ｏ；Θ）］は、予期される損失関数である。∇は、数学的導関数演算を表している。Θ_ｎ＋１は、予期される損失関数Ｅ［ｌ_ｉ（Ｏ；Θ）］を最小にするＨＭＭパラメーターセットに対する最良評価である。
【００６７】
この式は、立証モデルパラメーターを調整するための勾配下降繰り返しを遂行して、予期される損失関数の最小化を達成する。ここで、ε_ｎは、繰り返しの際に使用される一連のステップサイズパラメーターあるいは学習レートであり、Ｖ_ｎは、以下に定義される正の有限の学習マトリクスである。
【数９】

ならば、予期される損失の静止点に収束する。
【００６８】
図３の実施例では、ＨＭＭパラメーターは、ＨＭＭ更新プロセッサ６０により（８）に従って適応的に調整される。ＨＭＭの構造により、それらのパラメーターは、ある制約条件を満たさなければならない。ＨＭＭ更新プロセッサは、すべてのそのような制約条件を満たすように、パラメーター更新プロセスの一部として、変換されたＨＭＭパラメーターを使用する。以下の変換は、ＨＭＭ更新プロセッサにより使われる。
【００６９】
（１）分散の対数
【数１０】

ここで、各立証モデルが、例えば単語またはサブ単語を反映する場合、σ^２ _{ｉ，ｊ，ｋ，ｄ} はｉ番目の立証モデル、ｊ番目の状態、ｋ番目の混合要素、及びｄ特徴ベクトルのｄ次元の分散である。
【００７０】
（２）混合重みの変換された対数
元の混合重みＣ_{ｉ，ｊ，ｋ} は、次の通りに、変換された混合重みＣ_{ｉ，ｊ，ｋ} と関連づけられる。
【数１１】

ここで、Ｌは、ｉ番目の立証モデル中のｊ番目の状態にある混合重みの全体数である。
【００７１】
（３）遷移確率の変換された対数
元の遷移確率ａ_ｉ，ｊは、以下のようにして、変換された遷移確率に関連づけられる。
【数１２】

ここで、Ｍは、ｉ番目の立証モデルの全体の状態数である。
【００７２】
図示される実施例の重要な観点は、小さい分散を扱うことに関する。正しくなく扱われると、逆効果になるので、過去に提案されたいくつかの補正訓練アルゴリズムにおいては、分散調整は避けられていた。
【００７３】
ＨＭＭの分散は、１０^４から１０^６程異なる。これらの分散は、観察確率密度関数ｂ^ｉ _１（ｘ）の指数項に生じ、ＨＭＭの尤度スコアの支配的な効果を持つ。図示される実施例において、これは、ＨＭＭパラメーター調整特に、ＨＭＭの観察確率密度関数の平均パラメーターの調整への異なる感度に導く。
【００７４】
この巨大な感度の差を補償するために、実施例は、正の有限のマトリクスＶ_ｎを使用する。正の有限のマトリクスＶ_ｎは、各状態に対して、
【数１３】

である対角マトリクスである。ここで、σ^２（ｎ）は、時間ｎにおけるＨＭＭΘ_Ｉの分散である。
【００７５】
図４は、ＨＭＭ更新プロセッサ６０のブロック図を示す。図に示すように、ＨＭＭ更新プロセッサ６０は、Θ_Ｉ、Ｏ、ｌに基づいて、パラメーターμ、σ^２、ｃ、ａを更新し、ＨＭＭパラメーターデータベース４４に更新されたΘ_Ｕを戻す。Θ_ＩとΘ_Ｕは、パラメーターμ、σ^２、ｃ、ａからなり、Θ_ＩとΘ_Ｕは、それぞれ更新されない、及び更新された量を表している。
【００７６】
最小ストリング立証エラー訓練では、式（８）に示されるモデルパラメーターを更新することは、損失関数∇の導関数を見つけることを含んでいる。項∂ｌ／∂Θは、各モデルパラメーターに対して特に計算され、目下のＨＭＭがキーワードモデルか、反キーワードモデル、またはフィラーモデルであるかに依存して異なっている。このステップは、導関数∂ｌ／∂Θが全てのモデルに共通であれば、最小ストリング分類エラー訓練において使われるものとは異なっている。
【００７７】
ＭＳＶＥでは、∂ｌ／∂Θは、項∂ｌ／∂Ｌが全ての立証モデルに共通であれば、∂ｌ／∂Θ＝∂ｌ／∂Ｌ・∂Ｌ／∂Θのようなチェーン規則として書かれることができる。∂ｌ／∂Ｌは、以下の部分導関数からなる。
【数１４】

【００７８】
導関数∂Ｌ／∂ｅは、更新されたモデルがキーワードΘ^（ｋ）であるか、反キーワードΘ^（ａ）、またはフィラーモデルΘ^（ｆ）であるかに依存して異なる。
Θ^（ｋ）では、
【数１５】

Θ^（ａ）では、
【数１６】

Θ^（ｆ）では、
【数１７】

【００７９】
項∂ｐ（）／∂Θは、全ての立証モデルに共通であり、更新されたモデルの特定のパラメーターだけが異なる。この確率ｐ（）は、以下のように定義される。
【数１８】

【００８０】
ＨＭＭ更新プロセッサ６０により提供されるパラメーター更新は以下の通りである。
（１）平均更新
【数１９】

ここで、Ｏ_ｎｎ（ｄ）は、特徴ベクトルＯ_ｎｎのｄ次元要素であり、ω_ｊは、最適パスが最初に状態ｊに入るタイムフレームに対応し、ω_ｊ＋１は、最適パスが状態ｊ＋１に入るタイムフレームに対応し、ｌ（Ｏ，Θ）は（７）に従って構成されている損失関数であり、ε_ｎはステップサイズで有り、
【数２０】

ここで、Ｄは特徴ベクトルの次元である。平均更新は、図４のブロック６２により提供される。
【００８１】
（２）分散更新
σ^２＝ｌｏｇσ^２の更新は、以下の公式に従って行われる。
【数２１】

ここで、Ｙ_{ｉ，ｊ，ｋ} （Ｏ_ｎｎ）は、（１４）に示されるように定義される。従って、時間Ｎ＋１における分散は以下の通りである。
【数２２】

分散は、１０^−６で下にクリップされ、制約条件σ_{ｉ，ｊ，ｋ，ｄ} ^２（ｎ）＞１０^−６を満足する。分散更新は、図４のブロック６４により提供される。
【００８２】
（３）混合重み更新
パラメーター化された混合重みは、以下の式（１７）に従って調整される。
【数２３】

従って、時間ｎ＋１における混合重みは、式（１８）により与えられる。
【数２４】

従って、調整された混合重みは、本発明の訓練プロセスの間に以下の制約条件に合致する。
Σ_ｋＣ_{ｉ，ｊ，ｋ} （ｎ）＝１とＣ_{ｉ、ｊ、ｋ} （ｎ）＞０
混合重み更新は、図４のブロック６６により提供される。
【００８３】
(４)状態遷移確率更新
左から右へのＨＭＭにおいて、ｌ番目の単語モデルのパラメーター化された遷移確率は以下のように調整される。
【数２５】

ここで、ｇ_ｌはｌ番目の立証モデルのＯの尤度スコアであり、ｉは終了状態であり、状態ｉ内の自己遷移の全体数は以下の式により示される。
【数２６】

結論として、時間（ｎ＋１）における遷移確率は、以下のように与えられる。
【数２７】

これはまた、Σ_ｊａ^ｌ _ｉ，ｊ（ｎ）＝１、ａ^ｌ _ｉ，ｉ＞０と、ａ^ｌ _{ｉ，ｉ＋１}＞０の制約条件を満足する。状態遷移確率更新は図４のブロック６８により提供される。
【００８４】
ＨＭＭ更新プロセッサ６０により計算された更新表現（１５−１８）は、式（２２）に従って、ｊ番目の状態のｉ番目の立証モデルの更新された観察確率密度関数と関係付けられる。
【数２８】

ここで、ｃ_{ｉ，ｊ，ｋ} は混合重みであり、Ｎ（Ｏ，μ_{ｉ，ｊ，ｋ} ，Ｖ_{ｉ，ｊ，ｋ} ）は、ｉ番目の認識ユニットモデル、ｊ番目の状態、対角共分散マトリクスＶ_{ｉ，ｊ，ｋ} とのｋ番目の混合のＤ次元の通常のガウス分布である。ブロック６２、６４、６６から出力されるのμ（ｎ＋１）、σ^２（ｎ＋１）及びｃ（ｎ＋１）の値は、ブロック６８により提供される状態遷移確率ａ（ｎ＋１）に対する値と共に、ＨＭＭパラメーターデータベース４４に戻される。図４に例示するように、Θ_Ｕは、μ、σ^２、ｃ及びａのための更新された値を具備する。
【００８５】
上に提供されるＨＭＭパラメーター更新のための表現は、ＨＭＭパラメーターデータベース４４からの単一音声訓練ストリング信号の使用を関連づけＨＭＭパラメーターを強化する。しかしながら、ＨＭＭパラメーターを改善するために、強化された訓練器４８が複数回繰り返される。例えば、強化された訓練器４８は、完全なＨＭＭパラメーターデータベースを通るいくつかのパスまたは繰返し動作してもよい。強化された訓練器は、いくつかの方法のうちの処理サンプルを止めるようにされてもよい。例えば、強化された訓練器４８は、サンプルのＨＭＭパラメーターデータベースを通って固定数の繰返しが行われるときには、停止してもよい。強化された訓練器は、現在の繰返しの全ての音声訓練ストリング信号を処理するため、ストリング立証エラーレートの増加的改良の記録も維持し得る。増分的改良がしきい値以下に落ちるとき、処理は停止してもよい（図４の７０、及びＳＴＯＰ信号を参照）。
【００８６】
ＭＳＶＥ訓練は、実行され、好適音声認識システム実施例に適用されることができ、サブ単語特定キーワードおよび反キーワードのモデルパラメーターを設計する。各訓練では、式（１）により定義された識別関数Ｓ_ｉ（Ｏ；Θ）が、現在の立証モデルに基づいて既知の仮定ストリング信号のための信用測定信号値に設定され、式（６）により定義される反識別関数Ｓ_ｉ（Ｏ；Θ）は、Ｎ最良ストリング仮定を用いて１つ以上の競合ストリングモデルに基づいて既知の仮定ストリング信号に対する信用測定信号値により近似される。誤立証測定信号は、式（５）におけるように決定される。訓練場に対する誤立証測定と信用測定信号値の分布は、メモリーに記録されて、臨界しきい値を決定するために利用される。
【００８７】
発声立証システムの性能は、適切な臨界しきい値の選択により強化できる。しきい値は、最小合計エラーレートを得るか、または誤り拒絶エラー（タイプＩ）が誤り受け入れエラー（タイプＩＩ）に等しくなる等しいエラーレートを達成するために、あらかじめ決められた基準に従ってセットできる。立証しきい値は、誤り拒絶エラー（タイプＩ）と誤り受け入れエラー（タイプＩＩ）の間に望ましいトレードオフを得るために初めに設定されてもよい。各エラーレートは、訓練データとテストデータの間の環境の不均衡によりもたらされるかもしれない。環境の不均衡は、異なるアクセントをもつ異なる話者、または異なる周辺ノイズも含んでいる。
【００８８】
タイプＩとタイプＩＩのエラーの両方のための等しい立証エラーレートは、本発明の音声認識システムにより達成できる。しかしながら、等しいエラーレートは、異なる選択されたしきい値信号値に対して変わることができる。異なる選択されたしきい値において、タイプＩエラーレートは、タイプＩＩエラーレートより高いか、またはより低いに違いない。従って、特定の環境条件の下での仮定単語ストリング信号の立証を実行するための演算しきい値信号値は、異なる環境条件に対して適切ではないかもしれない。
【００８９】
タイプＩとタイプＩＩに対する異なるエラーレートは、商業的アプリケーションにおいて有利であるかもしれず、それでは誤り拒絶エラーが誤り受け入れエラーより有害であるかもしれず、あるいは逆もまた同様かもしれない。本発明は、タイプＩとタイプＩＩ間の望ましいトレードオフを維持するために、立証プロセッサにより生成される信用測定信号の臨界しきい値値を調整するためのメカニズムを提供する。
【００９０】
本発明によるしきい値適応化技術は、既知の仮定ストリング信号に応答して生成される信用測定信号値を利用して、立証しきい値信号値を適応化する。しきい値動作点は、仮定ストリング信号のグループが利用可能になるにつれて、調整される。（式（１）からの）信用測定信号値の分布は、図５に示されるように、正しい仮定ストリング信号７２のクラスと正しくない仮定ストリング信号７４のために記録される。右の分布７２は、単語ストリングが妥当で、正しく（認識されている）分類されているとき発生される信用測定信号を提供する。左の分布７４は、無効の単語ストリング、および間違って認識されていた他のストリングに対して生成された信用測定信号を提供する。
【００９１】
２つの分布７２と７４は、同様な形を持ち、２つの分布の分散はほとんど等しい。この特徴は、しきい値適応化を実行するために、ここで教示されるように、利用される。
【００９２】
Ｏ⊂ＣであるようにＸ_Ｈ０をＳ（Ｏ；Θ）の平均信用測定信号値に対応させ、Ｘ_Ｈ１を要素Ｏが集合Ｃに属さないように平均信用測定信号値Ｓ（Ｏ；Θ）に対応させる。ここで、Ｃは正しく認識された仮定ストリング信号である。等しいエラーレートあるいは最小全体エラーレートを達成するために、両方の分布に対して等しい分散を仮定して、臨界しきい値τ_Ｓは、
【数２９】

におかれる。
【００９３】
しきい値適応化は、演算立証テストの間に２つの分布の間にτを位置決めし、Ｘ_Ｈ０−τ_Ｓ ≠τ_Ｓ −Ｘ_Ｈ１のときτ_Ｓの値を調整するように導かれる。実際、システムが走っている間に２つの分布の実際の瞬間的平均を決定することは難しい。結果として、立証処理は、Ｘ_ＨＯとＸ_Ｈ１に対するある初期評価値で開始される。これらの値は、十分な数のストリング（”Ｒ”）が受信され、τ_Ｓが適応化されることができる度毎に、調整される。このプロセスは次の通りに実行される。
【００９４】
ストリング信用測定信号値の数Ｒを用いて、Ｘ_ＨＯとＸ_Ｈ１の値は、評価され、以下のエラー測定を計算するために使用される。
【数３０】

図５に示される分布７２と７４の長い末部のために平均をバイアスすることを回避するために、あらかじめ定義された最大と最小のしきい値を越える信用測定は、クリップされる。さらに、エラー関数は、以下の形のシフトされたシグモイドを用いて、平滑化される。
【数３１】

ここで、α_１は、平滑化の程度を決定し、０．１に設定された。ｎストリングを処理した後の臨界しきい値τ_Ｓ（ｎ）は、以下のように更新される。
【数３２】

ここで、Ｂ１はステップサイズであり、Δτ_Ｓ（ｎ）＝τ_Ｓ（ｎ）−τ_Ｓ（ｎ−１）。適応の間に、τ_Ｓの値はτ_Ｓ（０）±２を越えることは許されない。
【００９５】
本発明による立証しきい値の適応化の間に、ストリングは、平均を評価するために等しく、十分な情報を確保するために、ランダムな認識と立証命令のために提供される。臨界しきい値は、最初、最小のエラーレート点に設定され、２０ストリング毎（即ち、Ｒ＝２０）に調整され、各分布の平均を計算するために十分な、しかし最小の数のストリングの利用可能性を確保する。立証しきい値信号値を調整するこの方法は、適応化の前後でタイプＩとタイプＩＩのエラーレートの前選択と維持のために提供する。
【００９６】
話者独立電話ベースの接続される数字データベースは、本発明による実験的な訓練と動作上のテストの際に使用された。１から１６桁の長さの範囲の数字ストリングは、異なるフィールドトライアルでのコレクションから抽出された。フィールドトライアルでのコレクションは、異なる環境条件と音響トランスデューサー機器を表した。
【００９７】
訓練セットは、１６０８９数字ストリングから構成された。テストセットは、２７７０２数字ストリングから成っていた。発生の約２２％は、語彙外の単語、誤り開始、および重要な背景ノイズを含んでいた。３０００の音声学上の豊かな文からなる別のデータベースが、フィラーモデルを訓練するために提供された。立証結果は、９９％を越える正確な拒絶であった。
【００９８】
上記から、本発明は、発生立証のためのストリングベース最小立証エラー訓練プロセスを提供することは明らかである。立証プロセッサモデルを訓練することへの識別的なアプローチは、発声立証のために使われた目的関数と一致し、予期されるストリング立証エラーレートを最小化することに直接関連する。
【００９９】
上記の観点で、本発明は話者依存及び話者独立の音声認識の両方に適用可能であることは当業者には明らかであろう。音声認識の文脈の中で説明されたが、モデルを訓練するために使用される技術は、一般にパターン認識にも適用可能であることも更に明らかであろう。
【０１００】
上記実施例は、単に図示されたに過ぎず、特許請求の範囲の記載に基づいて定義される本発明の範囲から離れることなく、当業者により種々の変形がなされることができることは理解されよう。
【図面の簡単な説明】
【図１】本発明によるＨＭＭベース音声認識システムを示す図である。
【図２】図１のＨＭＭベース音声認識システムの立証部の詳細な図である。
【図３】図２の強化された訓練器を示す図である。
【図４】図３の強化された訓練器のＨＭＭ更新プロセッサを示す図である。
【図５】立証しきい値信号値決定のための信用測定信号値分布を示す図である。
【符号の説明】
２６訓練音声データベース
２８特徴抽出器
３０第１のモードスイッチ
３２第２のモードスイッチ
３４スコア計算器
３６平均単語ベース信用スコアプロセッサ
３８ストリングベース信用測定信号発生器
４０しきい値比較器
４２従来のＨＭＭ訓練器
４４立証データベース
４６Ｎ最良ストリングモデル発生器
４８強化された訓練器
５０システムの訓練部
５２システムの立証部

Claims

既知の音声の発声を表わす１つ又は２つ以上の既知の仮定ストリング信号と現在の立証モデルのセットに基づいて音声認識装置立証モデルデータベースを作成する音声信号処理方法であって、
（Ａ）既知の音声の発声を表わす既知の仮定ストリング信号を受信するステップと、
（Ｂ）既知の音声の発声を表わす既知の仮定ストリング信号と、その信号のための現在の立証モデルとに基づいて第１のストリング−ベース信用測定信号を生成するステップと、
（Ｃ）各々が、既知の音声発話を表わす既知の仮定ストリング信号と、別の現在の立証モデルとに基づくものである１つ又は２つ以上の他のストリング−ベース信用測定信号を生成するステップと、
（Ｄ）前記第１のストリング−ベース信用測定信号と前記他のストリング−ベース信用測定信号に基づいて誤立証信号を計算するステップと、
（Ｅ）前記誤立証信号と既知の音声の発声を表わす前記既知の仮定ストリング信号に基づいて、前記現在の立証モデルのうちの１つ又は２つ以上を修正して未知の音声の発声を表わす未知の仮定ストリング信号を誤立証する尤度を減少させるステップと、及び
（Ｆ）１つ又は２つ以上の修正された立証モデルをメモリーに格納するステップと
を具備する方法。
前記立証データベースの前記立証モデルを初期化するステップを更に具備する請求項１に記載の方法。
前記誤立証信号に基づいて損失関数信号を計算するステップと、
前記損失関数信号の導関数を計算するステップを含めて、前記損失関数信号の勾配を決定するステップとを更に具備する請求項１に記載の方法。
前記ステップ（Ｂ）は、
前記既知の仮定ストリング信号を一連の単語信号に分割するステップと、
前記一連の単語信号の各々ごとに１つの単語ベース信用スコアを計算するステップと、
各単語信号に対して計算された単語ベース信用スコアを平均するステップとを具備する請求項１に記載の方法。
前記ステップ（Ｃ）は、
前記既知の仮定ストリング信号に基づいて混同しやすいストリングモデルのセットを生成するステップと、前記混同しやすいストリングモデルは、１つ又は２つ以上の単語モデルを具備していて、
前記セットの混同しやすいストリングモデルのうちのそれぞれに対してストリング−ベース信用測定信号を生成するステップと、及び
前記セットの混同しやすいストリングモデルのそれぞれに対するストリング−ベース信用測定信号の平均を計算するステップとを具備する請求項１に記載の方法。
前記ステップ（Ｃ）は、
前記セットの混同しやすいストリングモデルのそれぞれの単語モデルごとに単語ベース信用スコアを決定するステップと、
前記セットの混同しやすいストリングモデルのそれぞれの各単語モデルに対して決定された単語ベース信用スコアを平均化して前記セットの混同しやすいストリングモデルのそれぞれに対する前記ストリング−ベース信用測定信号を生成するステップとを具備する請求項５に記載の方法。
ステップ（Ｄ）は、
（ａ）その仮定ストリング信号に対する現在の立証モデルに基づく前記既知の仮定ストリング信号に対する信用測定信号の発生を、
（ｂ）１つ又は２つ以上の他の現在の立証モデルに基づく前記既知の仮定ストリング信号に対する信用測定信号の発生に
関連づける関数の勾配を決定するステップを具備する請求項１に記載の方法。
ステップ（Ｅ）は、
前記勾配に基づいて前記現在の立証モデルの１つ又は２つ以上のパラメーターを調整するステップを具備する請求項７に記載の方法。
ステップ（Ｄ）は、
（ａ）前記第１のストリング−ベース信用測定信号と
（ｂ）前記１つ又は２つ以上の他の信用測定信号の平均との差を形成するステップ
を具備する請求項１に記載の方法。
期待値をとった損失関数信号を評価するステップと、及び前記評価された損失関数信号に応答して繰り返し前記立証モデルを調整して立証エラーの尤度を最小にするステップとを具備する請求項３に記載の方法。
接続され発声された単語のストリングを認識するための音声認識システムであって、
接続され発声された単語の音響入力ストリングに応答して未知の音声の発声を表わす仮定ストリング信号を生成するための認識プロセッサと、
複数の認識モデルを格納するための認識データベースと、
未知の音声の発声を表わす前記仮定ストリング信号に応答してストリング−ベース信用測定信号を生成するための立証プロセッサと、
複数の立証モデルを格納するための立証データベースとを具備する音声認識システム。
前記立証プロセッサに接続され、ストリング−ベース信用測定信号の立証しきい値信号値を計算するための手段と、
前記ストリング−ベース信用測定信号を測定して測定された信号値を生成するための手段と、
前記測定された信号値をしきい値と比較するための手段とを更に具備する請求項１１に記載の音声認識システム。
前記立証モデルは、隠れマルコフモデルパラメーターのセットを具備する請求項１１に記載の音声認識システム。
前記立証モデルは、キーワードモデル、反キーワードモデル、音響のフィラーモデル、およびそれらの組合せから成るグループから選択される請求項１１に記載の音声認識システム。
前記立証モデルは、識別訓練を反映する請求項１１に記載の音声認識システム。
前記仮定ストリング信号は、分割された一連の単語信号からなり、
前記立証プロセッサは、
前記分割された一連の単語信号の各々に対する単語ベース信用スコアを計算するための手段と、
前記分割された一連の単語信号の各々に対する単語ベース信用スコアの平均に応答して前記ストリング−ベース信用測定信号を生成するための手段とを具備する請求項１１に記載の音声認識システム。
音声認識システムの立証プロセッサにより生成された信用測定信号の立証しきい値信号サンプルを発生する音声信号処理方法であって、
（Ａ）（ｉ）既知の音声の発声を表わす既知の仮定ストリング信号と、既知の音声の発声を表わす該既知の仮定ストリング信号のための現在の立証モデルとに基づいて第１のストリング−ベース信用測定信号を生成し、
（ｉｉ）各々が既知の音声の発声を表わす前記既知の仮定ストリング信号と、別の立証モデルに基づく１つ以上の他のストリング−ベース信用測定信号を生成するよう機能する立証プロセッサの一巡の動作を実行するステップと、
（Ｂ）予め選択された回数についてステップ（Ａ）を繰り返すステップと、
（Ｃ）前記予め選択された回数について第１のストリング−ベース信用測定信号の値の第１の分布を記録するステップと、
（Ｄ）前記予め選択された回数について、前記１つ又は２つ以上の他のストリング−ベース信用測定信号の値の第２の分布を記録するステップと、
（Ｅ）前記第１の分布のための第１の平均を計算するステップと、
（Ｆ）第２の分布のための第２の平均を計算するステップと、
（Ｇ）前記第１の平均と、前記第２の平均に基づいて前記立証しきい値信号サンプルを生成するステップとを具備する方法。
誤り拒絶立証エラーレートを選択するステップと、
誤り受け入れ立証エラーレートを選択するステップと、
前記選択された誤り拒絶立証エラーレートと前記選択された誤り受け入れ立証エラーレートに基づいて初期立証しきい値信号値を評価するステップとを更に具備する請求項１７に記載の方法。
前記音声認識システムが動作している間に前記立証しきい値信号値を発生するステップと、
前記認識システムが動作している間、前記誤り拒絶立証エラーレートと前記誤り受け入れ立証エラーレートを維持するステップとをさらに具備する請求項１８に記載の方法。