JPH09127972A

JPH09127972A - 連結数字の認識のための発声識別立証

Info

Publication number: JPH09127972A
Application number: JP8242436A
Authority: JP
Inventors: Wu Chou; チョーウー; Biing-Hwang Juang; ジョアンビーイング−ホワン; Chin-Hui Lee; リーチン−フイ; Mazin G Rahim; ジー．レイムマズィン
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-09-15
Filing date: 1996-09-13
Publication date: 1997-05-16
Anticipated expiration: 2016-09-13
Also published as: DE69620324D1; DE69620324T2; EP0763816A3; DE69634784T2; CA2181205C; EP0763816B1; DE69634784D1; EP1184840A1; EP0763816A2; JP3549681B2; US5737489A; EP1184840B1; CA2181205A1

Abstract

(57)【要約】【課題】本発明は、一般的に音声認識と立証の分野に
関し、特に、音声立証訓練の分野に関する。【解決手段】音声認識システムでは、認識プロセッサ
は、入力として未知の発声信号を受信する。認識プロセ
ッサは、未知の発声信号入力に応答して、認識データベ
ースをアクセスし、未知の発声を分類し、仮定音声信号
を生成するために、認識データベースの認識モデルに対
して発声信号のスコアをカウントする。立証プロセッサ
は、立証されるべき入力として、仮定音声信号を受信す
る。立証プロセッサは、立証データベースに格納される
予め選択された形式の訓練を反映する立証モデルに対し
て仮定音声信号をテストするために、立証データベース
をアクセスする。立証テストに基づき、立証プロセッサ
は、信用測定信号を生成する。信用測定信号は、立証し
きい値に対して比較され、認識プロセッサによりなされ
る認識決定の精度を決定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的に音声認識
と立証の分野に関し、特に、音声立証訓練の分野に関す
る。

【０００２】

【従来の技術】音声認識は、未知の話された発声が識別
されるプロセスである。訓練として知られているプロセ
スを通して、知られている単語または単語ストリングが
テストされ、単語または単語ストリングの特徴は音声認
識装置メモリー内の認識モデルとしてサンプリングされ
て、記録される。認識モデルは、知られている発声の典
型的な音響的解釈を表している。訓練プロセスにおい
て、訓練アルゴリズムが認識モデルに適用され、将来の
未知の単語および単語のストリングを認識するために利
用されるこれらの格納された表現を形成する。

【０００３】動作において、音声認識装置は未知の発声
を受信し、未知の発声を認識するために、未知の発声か
ら特徴を抽出する。未知の発声の抽出された特徴は、テ
ストパターンとして参照される。

【０００４】認識装置は、その後、未知の発声のための
テストパターンとメモリー内の１つ以上の認識モデルの
組合せとを比較する。認識モデルの各組合せがテストパ
ターンとどれほどよくマッチするかの相対的な測定を提
供するために、スコアをカウントする技術が用いられ
る。未知の発声と最もはっきりとマッチする１つ以上の
認識プロセッサモデルの組合せと関連する単語として未
知の発声は認識される。

【０００５】従来の音声認識の実際では、音声認識モデ
ル化とモデル訓練のために妥当な可能性またはクラスの
数「Ｎ」が利用された。そのようなＮ-クラスモデルに
おいては、認識されるべきすべての発声入力は妥当であ
ると仮定される。「Ｎ」個の存在可能なクラスの各々に
対する認識モデルは、認識装置メモリーに格納されてい
る。妥当であるかどうかにかかわらず、認識されるべき
全ての音声入力は、Ｎクラスのうちの１つとして分類さ
れる。認識装置は、Ｎ個のモデルの各々に対する発声の
スコアを計算し、発声を、最もよいスコアを持つ（Ｎ個
のクラスの内の）あるクラスにマッチさせる。

【０００６】付加的な、または「Ｎ＋１」のクラスの概
念が、Ｎ個の妥当なクラスの認識に加えて、（「フィラ
ー」モデルと指定される）関連したＮ＋１モデルを提供
するように開発されている。そのようなシステムにおい
ては、認識されるべき入力発声がＮ個の妥当なクラスの
入力に対するＮ個のモデルの各々に対して、また付加的
に、Ｎ＋１フィラークラスモデルに対して、スコアが数
えられる。Ｎ＋１モデルは、すべての無効の入力を表す
ように設計されている。Ｎ＋１フィラーモデルの使用に
より、認識プロセスはさらに洗練され、入力発声または
入力発声のセグメントが妥当ではないかもしれないこと
を考慮するようになった。

【０００７】いったん未知の発声が音声認識プロセスに
よって分類されると、音声認識装置によりなされる分類
決定の確実性を評価することがしばしば、望ましい。こ
れは、２パスプロセスにより達成され、未知の発声は最
初にＮ個の可能な妥当なクラスを表すＮ個のモデルに対
してそれのスコアを数えることにより認識される（分類
される）。最もよいスコアを提供する認識モデルは、そ
の関連したクラスにマッチされ、それは、後で立証され
るべき仮定発声として認識される。仮定認識発声は、そ
の後、フィラー立証モデルに対して第２のパスにおいて
立証され、そのモデルは、上述のＮ＋１認識フィラーモ
デルと同様であるはずである。

【０００８】２パス音声認識プロセスは、未知の発声の
認識を可能にし、続いて、システムが認識決定について
どれほど信用できるかの計算される判定が続く。例え
ば、認識装置は未知の発声を特定の単語として分類し、
立証器は、フィラーモデルを使って分類が正しいことを
示す。立証器は、認識装置が適切に分類したかどうかに
かかわらず、立証器は、２進の決定、「はい」、または
「いいえ」を作成するために使用される。

【０００９】発声立証は音声認識システム開発の重要な
観点を表している。発声立証は、計算された信用スコア
に基づいて全体の発声のうちの拒絶する部分またはすべ
てを含んでいる。信用スコアは、優度比距離に基づくこ
とができ、それは、単語が音声のあるセグメント中に存
在するかどうかをテストする。優度比距離は、発声が妥
当な単語なしでなされ、認識される発声が乏しい状況
で、あるいは重要な混乱が高いエラーレートを発生する
単語間に存在するとき、特に有益である。

【００１０】音声認識システムの文脈での発声立証の成
功した性能は、立証モデルを訓練するために用いられる
技術の有効性と密接に関連し、そのモデルは立証プロセ
スにおいて使用される。従来の訓練方法には欠陥が存在
し、それは、訓練と立証エラーレートの間の直接的な関
係の不足に起因している。立証エラーレートを直接最小
化する訓練方法を見つけることが、目下の問題である。

【００１１】

【発明の概要】音声認識技術の進歩が、本発明により提
供され、それでは、接続された単語のストリングを認識
するために２つのパスの認識と立証戦略を採用する。本
発明の図示される実施例によれば、音声認識システム
は、認識プロセッサを具備するか、または仮定ストリン
グを生成し、未知の接続された単語の音響的入力ストリ
ングに基づいて接続された単語の仮定ストリングを発生
するための認識プロセッサと、接続された単語の仮定ス
トリングに応答するストリングベース信用測定信号を生
成する立証プロセッサとを具備する。認識データベース
は、認識プロセッサによって使用される認識モデルを格
納する。立証データベースは、立証プロセッサによって
使用される立証モデルを格納する。

【００１２】第１のパスでの認識は、隠れマルコフモデ
ルのセットを使用して従来のビタービ（Viterbi）ビー
ムサーチアルゴリズムで実行され、そのモデルは、スト
リング分類エラーを最小化するように訓練されている。
第２のパスでの発声立証は、本発明による最小ストリン
グ立証エラー（ＭＳＶＥ）訓練プロセスで訓練された隠
れマルコフモデルのセットを使用して、仮定認識ストリ
ングを立証するために実行される。

【００１３】立証エラーを最小限にするために立証デー
タベースに格納された立証モデルを訓練する方法が利用
される。訓練方法は、予期されるストリング立証エラー
を計算し、最小化することを含んでいる。

【００１４】訓練プロセスにおいて、最初に、立証デー
タベースの立証モデルが初期設定される。既知の仮定ス
トリングが選ばれる。立証プロセッサは、既知の仮定ス
トリングのための現在の立証モデルに基づいて第１のス
トリングベース信用測定信号を生成する。

【００１５】既知の仮定ストリングのための現在の立証
モデルと混同するほど似た１つ以上の競合ストリングモ
デルが生成される。１つ以上の競合ストリングモデルは
立証プロセッサに提供され、それは、既知の仮定ストリ
ングと１つ以上の競合ストリングモデルに基づいて１つ
以上のストリングベース信用測定信号を生成する。

【００１６】誤立証信号は、既知の仮定ストリングのた
めの第１のストリングベース信用測定信号に基づいて立
証プロセッサにより生成され、１つ以上の競合ストリン
グモデルに基づいてストリングベース信用測定信号が生
成される。誤立証信号に基づく損失関数信号は、その既
知の仮定ストリングのための現在の立証モデルに基づく
既知の仮定ストリングの立証を、１つ以上の他の競合立
証モデルをもつ既知の仮定ストリングの立証に関係づけ
る勾配に提供する。勾配決定は、損失関数信号の導関数
を利用して達成される。

【００１７】立証モデルは、未知の仮定ストリングを誤
立証する優度を最小化するために更新される。更新プロ
セスは、予期される損失関数信号を評価し、立証エラー
の優度を最小化するために、評価される損失関数信号に
応答する立証モデルを繰り返し調整する。

【００１８】本発明の音声認識システムは、立証プロセ
ッサにより生成される信用測定信号を立証するために最
適立証しきい値信号値を生成するように動作させられる
ことができる。立証しきい値信号値は、仮定認識ストリ
ングを拒絶する決定のための基礎を提供し、立証エラー
レートを維持するように選ばれる。

【００１９】既知の仮定ストリングは、立証プロセッサ
に入力され、それは、立証データベースに格納された立
証モデルをアクセスするように結合されている。１つ以
上の競合ストリングモデルが既知の仮定ストリングに基
づいて生成される。１つ以上の競合ストリングモデルは
立証プロセッサに提供される。

【００２０】立証プロセッサは、予め選択された数の場
に対して、既知の仮定ストリングのための現在の立証モ
デルに基づいて第１のストリングベース信用測定信号を
生成し、既知の仮定ストリングに基づいて１つ以上の競
合ストリングモデルのうちの各々に対するストリングベ
ース信用測定信号を生成するように動作させられる。既
知の仮定ストリングに対する現在の立証モデルに基づく
ストリングベース信用測定信号値の第１の分布は記録さ
れる。既知の仮定ストリングに対するストリングベース
信用測定信号値の第２の分布と競合モデルは記録され
る。立証しきい値信号値は、第１の平均と第２の平均と
に基づいて選択され、調整される。

【００２１】ここに、教示される技術は、ストリング立
証エラーレートを最小化することと直接関連する。本発
明の他の目的、利点、および顕著な特徴は、本発明の好
適実施例を開示し、添付図面と関連してなされる以下の
詳細な説明から明らかとなるであろう

【００２２】

【発明の実施の形態】説明の明瞭化のために、本発明の
図示される実施例は、（「プロセッサ」とラベルされた
機能ブロックを含めて）個々の機能ブロックを具備する
として提供される。これらのブロックが表している機能
は、それに制限されないが、ソフトウェアを実行可能な
ハードウェアを含めて、共有されたまたは専用とされた
ハードウェアのいずれかの使用によって提供される。例
えば、図１から図４において提供されるプロセッサの機
能は、単一な共有プロセッサによって提供されても良
い。（ソフトウェアを実行可能なハードウェアを排他的
に参照するように、用語「プロセッサ」の使用が解釈さ
れるべきでない。）

【００２３】図示される実施例は、ＡＴ＆ＴＤＳＰ１
６またはＤＳＰ３２Ｃなどのデジタル・シグナル・プロ
セッサ（ＤＳＰ）ハードウェア、下で議論される動作を
実行するソフトウェアを格納するためのリード・オンリ
ー・メモリ（ＲＯＭ）、ＤＳＰ結果を格納するためのラ
ンダム・アクセス・メモリ（ＲＡＭ）を具備する。汎用
ＤＳＰ回路と組合せてのカスタムＶＬＳＩ回路だけでな
く、超大規模集積（ＶＬＳＩ）ハードウェア実施例が、
また提供されてもよい。

【００２４】図１は、ＨＭＭベース音声認識システムの
文脈の一般的説明の目的のために本発明の図示される実
施例を提供する。音声認識システム８は、認識プロセッ
サ１０、別個の隠れマルコフモデル（”ＨＭＭ”）認識
モデルのセットを含む認識データベース１２、立証プロ
セッサ１４および別個のＨＭＭ立証モデルのセットを含
む立証データベース１６を具備する。

【００２５】認識プロセッサは、単語の未知の音声スト
リング１８（発声）を入力として受信する。認識プロセ
ッサ１０は、未知の音声ストリング１８入力に応答して
認識データベース１２をアクセスし、未知の単語ストリ
ングを分類して、仮定認識ストリング信号を生成するた
めに、認識データベース12の認識モデルに対する未知の
単語音声ストリングのスコアを数える。立証プロセッサ
は、仮定ストリング信号20を、立証されるべき入力とし
て受信する。立証プロセッサ１４は、立証データベース
１６をアクセスして、立証データベースに格納されてい
る立証モデルに対する仮定ストリング信号をテストす
る。立証テストに基づいて、立証プロセッサ１４は、信
用測定信号２２を生成する。信用測定信号は、立証しき
い値信号値に対して比較されるべきしきい値コンパレー
ター２４に通され、認識プロセッサ１０によりなされた
分類決定の精度を決定する。

【００２６】図２は、音声認識システム８の立証訓練お
よびテストプロセスを説明するためのより詳細な図を提
供する。図２を参照して、音声認識システムは、訓練音
声データベース２６、特徴抽出器２８、第１のモードス
イッチ３０、第２のモードスイッチ３２、単語ベース信
用スコア計算器３４、平均単語ベース信用スコアプロセ
ッサ３６、ストリングベース信用測定信号発生器３８、
しきい値比較器４０、従来のＨＭＭ訓練器４２、ＨＭＭ
パラメーター立証データベース４４、Ｎ最良ストリング
モデル発生器４６、および強化された訓練器４８を具備
する。

【００２７】訓練音声データベース２６は、デジタル形
式での既知の音声信号のサンプルを具備する。各音声信
号は、１語以上の話された単語のストリングに対応す
る。これらのサンプルは従来の訓練器４２と強化された
訓練器４８のためにそれぞれ使われる。訓練音声データ
ベース２６からの既知の音声ストリングのサンプルは、
第１のモードスイッチ３０を介してシステムの他の構成
要素に提供される。

【００２８】第１のモードスイッチ３０は、システムの
２つの動作モードを反映する：訓練（Ｔ）モードとテス
トのための立証（Ｖ）モードである。第１のモードスイ
ッチ３０が（図示のように）Ｔ位置にあるとき、訓練デ
ータベース２６からの訓練ストリング信号は、訓練がシ
ステムの訓練部５０によって実行できるように、システ
ムのバランスに提供される。第１のモードスイッチがＶ
位置にあるとき、デジタル形式の仮定認識音声ストリン
グ信号が、システムの立証部５２により立証のためにシ
ステムのバランスに提供される。

【００２９】システムの特徴抽出器２８は、第１のモー
ドスイッチ３０に結合されている。第１のモードスイッ
チの状態に依存して、特徴抽出器２８は、訓練ストリン
グ信号または仮定音声ストリング信号を受信する。これ
らの受信ストリング信号に基づいて、特徴抽出器は、立
証または訓練の目的でストリング信号を特徴付ける１つ
以上の特徴ベクトルＯを作成する。

【００３０】特徴抽出器からの特徴ベクトル出力は、第
２のモードスイッチ32に提供される。第２のモードスイ
ッチは、第１のモードスイッチとタンデム形式で動作す
る。すなわち、両方のスイッチは、両方のスイッチに提
供されるモード信号５４に基づいて、同時に同じ状態
（ＴまたはＶ）にセットされる。第２のモードスイッチ
３２は、特徴抽出器２８の出力をシステムの立証部５２
または訓練部５０に向ける。

【００３１】システムの立証部５２は、認識プロセッサ
１０によりなされた認識決定をテストするために選択さ
れることができる（図１）。図２に示される立証部５２
は、単語ベース信用スコア計算器３４、平均単語ベース
信用スコアプロセッサ３６、およびストリングベース信
用測定信号発生器３８を具備する。

【００３２】特徴抽出器２８は、一連のフレーム特徴ベ
クトルを出力する。特徴ベクトルのフレームに基づく単
語信号は、単語ベース信用スコア計算器３４に提供され
る。単語ベース信用スコア計算器は、離散的な単語信号
について計算を実行する。単語ベース信用スコア計算器
３４は、１つ以上の立証モデル（この場合隠れマルコフ
モデル「ＨＭＭ」）のストリングを、仮定認識音声スト
リング信号の各単語信号にマッチさせる。信用スコア計
算器３４は、仮定ストリング信号の各単語信号に対して
単語ベース信用スコアを生成する。ストリングの各単語
セグメントに対して計算される単語ベース信用スコア
は、信用のレベルを示し、それは、仮定ストリングの各
特定の単語が正しく認識され、音声認識システムに提供
された入力発声の単語に正確に対応しているレベルであ
る。

【００３３】平均単語ベース信用スコアプロセッサ３６
は、仮定ストリング信号の各単語セグメント信号に対し
て生成される単語ベース信用スコアのセットについて算
術平均演算を実行して、平均単語ベース信用スコア信号
を生成するための手段を提供する。平均信用スコア信号
は、ストリングベース信用測定信号発生器３８に通され
る。

【００３４】ストリングベース信用測定信号発生器３８
は、平均信用スコア信号を受信するように結合されてい
て、ストリングベース信用測定信号を生成するように応
答する。ストリングベース信用測定信号は、立証テスト
結果を具体化し、立証プロセッサに提供される仮定スト
リング信号が実際の話された単語ストリングを正確に表
しているという信用度の測定を提供する。

【００３５】立証プロセッサに提供される仮定（の）認
識（される）音声ストリング信号が音声認識システムに
元々入力される未知の音声単語ストリングであることを
立証するために、信用測定信号は、立証しきい値信号値
４０と比較される。信用測定信号がしきい値信号値以下
ならば、仮定ストリング信号は、実際の話された入力発
声を間違って表しているとして拒絶される。すなわち、
立証プロセッサに提供される仮定ストリング信号は立証
されることができないであろう。

【００３６】システムの訓練部５０は、従来のＨＭＭ訓
練器４２、ＨＭＭパラメーターデータベース４４、Ｎ最
良ストリングモデル発生器４６、および強化された訓練
器４８を具備する。従来のＨＭＭ訓練器４２は、米国特
許番号４，７８３，８０４により説明されるようであ
り、ＨＭＭの従来の訓練を提供する。従来の訓練器の出
力は、ＨＭＭのセットが基づく訓練音声ストリングの特
徴ベクトルＯだけでなく、１つ以上の従来のように訓練
されたＨＭＭｓの組Θ_I を具備する。従来の訓練器42の
出力は、初期化パラメーターとしてＮ最良ストリング発
生器４６および強化された訓練器４８による使用のため
にＨＭＭパラメーターデータベース４４に記録される。

【００３７】強化された訓練器４８は、初期のパラメー
ターΘ_I を受信して、ＨＭＭパラメーターデータベース
に強化されたまたは更新されたＨＭＭのセットΘ_U を戻
す。強化されたモデルΘ_U は、最終的に、立証モード処
理の間に単語ベース信用スコア計算器３４に提供され
る。従来のように訓練されたＨＭＭΘ_I よりもむしろ強
化されたＨＭＭΘ_U の単語ベース信用スコア計算器の使
用は、ストリング立証エラーレートの減少を達成するた
めに提供される。

【００３８】Ｎ最良ストリングモデル発生器４６は、Ｈ
ＭＭパラメーターデータベース４４から、隠れマルコフ
モデル（ＨＭＭ）パラメーターΘ_I と訓練音声ストリン
グＯを受信するように結合されている。Ｎ最良ストリン
グモデル発生器46は、ストリングモデルのセットを生成
するように動作し、そのモデルは、仮定認識ストリング
信号のための現在の立証モデルと高度に競合する。これ
らの競合するストリングモデルは、強化された訓練器４
８の区別的な訓練のための基礎を提供する。即ち、立証
プロセッサへの正しい仮定ストリング信号入力が立証プ
ロセッサに極めて高い信用測定信号を生成させるよう
に、また、間違った仮定ストリング入力は、立証プロセ
ッサに低い信用測定信号信号を生成させるように、立証
モデルを訓練するためである。

【００３９】Ｎ最良ストリング発生器４６は、”Ｎ”個
の最良の（競合する）単語ストリングと、各そのような
単語ストリングのための最良のＨＭＭ立証モデル列とを
決定することにより、”Ｎ”個の最良の（あるいは最も
競合する）単語ストリングを発生する。Ｎ最良単語スト
リングの決定は、修正されたビタービデコーダーのＤＳ
Ｐ実行の使用によってなされる。

【００４０】修正されたビタービデコーダは、部分的な
パスマップ、即ち瞬間毎にいずれかの文法ノード（即ち
単語の結合点）に通じるすべての部分的なパスのすべて
のスコアのリスト（または、マトリクス）を準備する。
その後、修正されたビタービ前検索の終了時に、デコー
ダは、当業界でよく知られたＡ＊トレースバックツリー
検索を使用する。発生器は、「スタック」（位付けられ
たデータリスト）の先頭にある先頭（ベスト）部分的パ
スを育てることによりツリー検索を実行する。スタック
上のすべての部分的パスの位付けは、完了されるときに
部分的パスが達成できる最良の可能なスコアにより決定
される。ビタービ前検索において準備される部分的パス
マップは、後方ツリー検索においていかなる不完全な部
分的パスに対してもスコアを提供する。Ａ＊手続の「最
良が１番」という性質のため、先頭のＮストリングは逐
次生成される。

【００４１】スタック深さがいずれの検索エラーも回避
するように十分に深いとすると、Ａ＊アルゴリズムの許
容性、または最適なパスの確実な発見は、部分的なパス
の不完全な部分の上限がスタックデコーダーとして使用
されるときに保証される。ツリートレリス手順におい
て、同じＨＭＭが両方向に沿っての検索において使われ
れば、最もしっかりとした上限、あるいはそのパスの実
際のスコアが得られる。

【００４２】発生器は、Ｎ最良ストリングリスト中の各
単語ストリングに対するモデルのセットに対して入力音
声ストリングＯのビタービ整列によりＮ最良単語ストリ
ングに基づいてＮ最良ストリングモデルを生成する。こ
のステップは、同じ単語ストリングに対応する多くのス
トリングモデルが存在するかもしれないので、発生器に
より実行される、しかし、あるモデルのセットに対する
入力発声に最もよくマッチするストリングモデルは独特
である。

【００４３】発生器が、未知の競合ストリングをモデル
化する能力を提供することに注意すべきである。これ
は、Ｎ最良デコーディングによって生成される競合する
単語ストリングモデルが、訓練資料により制限されない
という事実に起因している。Ｎ最良ストリングリスト
は、動的で、音声立証モデルの組に基づいてストリング
レベル音響分解能を反映する。

【００４４】従って、ＨＭＭパラメーターデータベース
44の基礎的な立証モデルは、Ｎ最良ストリングモデル発
生器（一種の音声認識装置）により生成されるストリン
グモデルにより訓練される。生成されたストリングモデ
ルは、元の訓練資料に無い単語ストリングに基づくこと
ができるが、認識装置が、既知の仮定ストリング信号と
混同してそれを見つける。認識装置が既知の仮定ストリ
ング信号と混同して見つけるこれらの知られていない競
合単語ストリングは、そのような知られていない混同し
やすい同様なストリングに対する立証モデル化を改善す
るように識別的にモデル化される。（正しいストリング
と混同されそうである）知られていないストリングを識
別するための基礎を提供するように立証モデルを準備す
るモデル化は、訓練資料の貧しいストリング範囲により
そのようなモデル化が連続的な音声認識と立証において
遭遇する困難さを減少させるので、有益である。

【００４５】Ｎ最良ストリングモデル発生器の動作は、
同時継続の米国特許出願番号０８／０３０，８９５に詳
細に説明されており、それは本願の所有者に譲渡され、
ここにそれに述べられているまま引用により組み込まれ
る。

【００４６】最小ストリング立証エラーレート訓練で
は、Ｎ最良ストリングモデルは、ストリングエラーを表
し、減らすために特に設計されている識別関数のセット
に組み込まれる。これは、以下に説明するように、強化
された訓練器４８の動作によりなされる。

【００４７】発声立証プロセッサ１４（図１）は、仮定
ストリング信号という形で提案された仮定認識発声を立
証するために、統計的仮定テストを公式化し、適用する
ように動作する。立証プロセスのタスクは、仮定のキー
ワードまたはキーワードの組が、未知の発声に存在しな
い（すなわち、提案された認識された仮定発声20は不正
確である）という他の仮定に対して、仮定のキーワード
またはキーワードのセットが、未知の発声内に存在する
という無効仮定をテストすることである。

【００４８】立証プロセスは、提案された仮定発声の精
度を立証するために、優度比距離計算を用いるように設
計されている。本発明によれば、発声立証モデルは、ス
トリングレベルについて作られ（訓練され）、立証テス
トは、ストリングレベルについて実施される。ここで教
示される発声立証は、仮定ストリング信号に対するスト
リングベース信用測定信号を生成するために単語信号セ
グメントの単語ベース信用スコアの寄与を結合する幾何
学的平均化の形式を使用する。ストリングベース信用測
定信号は、仮定ストリング信号のすべてまたは一部分を
受け入れ、あるいは拒絶するために、しきい値信号値40
（図２）に対して立証される。

【００４９】図２を参照して、立証テストモードでは、
仮定された単語ストリング５５は、立証部５２への提供
のために第１のモードスイッチ３０を介して特徴抽出器
２８に通される。単語ｉの仮定されたストリング（信号
５５）は、認識プロセスの結果としてＮ個の単語｛Ｏ
_q ｝に分割される。

【００５０】立証部５２は、立証のために、与えられた
モデル組Θ_U を利用する。立証部５２は、ＨＭＭパラメ
ーターデータベース４４の現在のモデルのセットに基づ
いて仮定単語ストリングに基づいて信用測定信号を生成
する。仮定単語ストリングは、不合格にされる。生成さ
れた測定信号

【数１】が、予め定義された立証しきい値信号値τ以下であれ
ば、拒絶される。ここで、ｋは、負の定数であり、Ｌ
（Ｏ_q ；Θ，ｌ）は、数字（フレーム）ｌと認識される
音声セグメントｑの信用スコアを示す。従って、信用測
定信号は、ストリング信号の各音声セグメントｑ（単語
フレーム）の信用スコアの平均と数学的に関連付けられ
る。

【００５１】ＨＭＭベース立証モデルは、立証部５２に
よりアクセスされて、利用されるための立証データベー
ス４４に格納されている。立証データベース４４内の立
証モデルΘは、３つの異なる組からなる。即ち、キーワ
ード間の混同可能性を扱うキーワード｛θ₁ ^(k)｝、と反
キーワード｛θ₁ ^(a)｝、及び無キーワード（無効の入
力）を識別するための一般的音響フィラーモデルθ^(f)
である。

【００５２】音声セグメントｑ，Ｌ（Ｏ_q ；Θ、ｌ）の
単語ベース信用スコア34は、キーワード仮定とその競合
する他の仮定の間で優度比のログ（ｌｏｇ）を用いて構
成されることができる。即ち、

【数２】ここで、ｇ₁（Ｏ_q）＝ｌｏｇｐ（Ｏ_q ｜θ₁ ^(k)）であ
り、

【数３】従って、音声セグメントｑに対する信用スコア計算は、
単語モデルスコアとフィラーモデルを用いて反単語モデ
ルで計算されたスコアの間の比較を関連づける。

【００５３】式（１）で信用測定信号ｓ_i （Ｏ；Θ）を
最大化する方法の１つは、Θのパラメーターが、データ
ベース４４に格納されるように訓練するために、最大優
度手続を適用することである。しかしながら、音声認識
実験に基づいてこの種の訓練は、立証または認識エラー
レートを最小化することについて最良の性能を与えない
ことが示されている。

【００５４】このため、最小ストリング分類エラー（Ｍ
ＳＣＥ）訓練プロセスが、認識データベース12（図１）
に認識モデルを創造するために開発された。そのような
音声認識訓練方法は、１つ以上の既知の音声信号と現在
の認識モデルのセットとに基づいて音声認識データベー
スを提供するために用いられる。ＭＳＣＥ訓練プロセス
において、第１の認識装置スコア信号は、既知の音声信
号と、その信号のための現在の認識モデルに基づいて生
成される。混同しやすい仮定のセットは、各々既知の音
声信号および別の現在の認識モデルに基づいて１つ以上
の他の認識装置スコア信号を生成するために生成され
て、認識装置に適用される。

【００５５】認識プロセッサは、第１の認識装置スコア
信号および他の競合認識装置スコア信号に基づいて誤分
類（誤認識）信号を生成する。認識モデルパラメーター
は、誤認識信号に基づいて修正されて、訓練における既
知の音声信号またはテスト動作における未知の音声信号
を誤認識する優度を減少させる。実施例の説明と手続
は、本願の所有者に譲渡された上記同時継続米国特許出
願０８／０３０，８９５に提供される。

【００５６】ストリングベース最小ストリング分類エラ
ー（ＭＳＣＥ）訓練におけるゴールは、予期されるスト
リング分類エラーレートを最小化することである。対照
的に、最小ストリング立証エラー（ＭＳＶＥ）訓練にお
けるゴールは、予期されるストリング立証エラーレート
を最小化することである。従って、ＭＳＣＥアプローチ
において使われる数学的な戦略と採用される特定の目的
関数は、最適な発声立証性能とは一致しない。

【００５７】本発明は、ＭＳＣＥと同じ精神で最小スト
リング立証エラー（ＭＳＶＥ）訓練プロセスを利用する
が、ＨＭＭパラメーターデータベース４４の立証モデル
に対して設計されている。誤立証測定は計算されて、予
期されるストリング立証エラーレートを最小化するため
に使用される。

【００５８】ＭＳＶＥ訓練は、ストリングレベルにおい
て適用されて、式（１）において使われる目的関数と一
致している。ＭＳＶＥ訓練は、予期される関数を最小化
するように実行される。

【数４】ここで、Ｓ（）は、なめらかな０−１シグモイド非線形
関数である。

【００５９】図３を参照して、強化された訓練器４８
は、ストリング誤立証測定プロセッサ５６、ストリング
モデル損失関数プロセッサ５８、及びＨＭＭ更新プロセ
ッサ６０を具備する。強化された訓練プロセスは、目的
として、式（４）について説明された予期される損失関
数を最小化して、ストリング立証エラーを実質的に減少
させる。好適実施例において、強化された訓練プロセス
は、音声認識システムにおいて上記プロセッサにより実
行される２つのプロセスステップとして実現される。

【００６０】Ａ．ストリング誤立証測定プロセッサ。ストリング誤立証測定プロセッサ５６は、Ｎ最良ストリ
ングモデル発生器４６からＨＭＭパラメーターΘ_I 、Ｎ
ストリングモデルＳ_j 、および訓練音声ストリングサン
プルＯを受信する。ストリングサンプルＯ、モデルＳ
_j 、及びΘ_I に基づいて、誤立証プロセッサ５６は、第
１のプロセスステップとして、ｉ番目の仮定ストリング
ｄ_i （Ｏ；Θ）ためのストリング誤立証測定値を決定す
る

【数５】ここで、ｓ_i （Ｏ；Θ）は、式（１）により定義される
発声ベース識別関数であり、ｓ_i（Ｏ；Θ）は、以下の
ように定義される反識別関数である。

【数６】ここで、Ｎは、競合ストリング仮定の全体数であり、η
は、図では２に設定される正の数である。

【００６１】ストリング誤立証プロセッサ５６は、図３
に示される後続のプロセッサによって使用されるための
スカラーｄの値を決定し、以下の間の差を説明する誤立
証信号を生成する：（ａ）既知の仮定ストリング信号に
対する現在の立証モデルと既知の仮定ストリング信号に
基づく信用測定信号、および（ｂ）その既知の仮定スト
リング信号に対するＮ最良競合立証モデルに基づく１つ
以上の他の信用測定信号の平均。

【００６２】Ｂ．ストリングモデル損失関数プロセッサ第２のプロセスステップは、立証エラーカウントを近似
する。これは、シグモイド非線形関数を用いてなされ
る。ストリングモデル損失関数プロセッサ５８は、誤立
証測定プロセッサ５６から受信されるスカラー値ｄ_i
（Ｏ；Θ）に基づいてなめらかなストリング損失関数ｌ
_i （Ｏ；Θ）を評価する。この損失関数は以下のように
定義される。

【数７】ここで、αとβは、それぞれ、シグモイド非線形平滑化
関数の傾きとシフトを制御する定数である。

【００６３】ストリングモデル損失関数プロセッサ５８
は、出力として、スカラーｌを損失関数信号の形でＨＭ
Ｍ更新プロセッサ６０に提供する。

【００６４】上記のパラメーターαとβは、ストリング
損失関数ｌ_i （Ｏ；Θ）に平滑化された近似を提供する
のを助ける。ストリング損失関数の傾きは、ＨＭＭ更新
プロセッサ６０により使用され、現在の立証モデルＨＭ
ＭパラメーターΘ_I を更新する。その傾きは、その仮定
ストリング信号に対する現在の立証モードモデルに基づ
く既知の仮定ストリング信号の信用測定を、１つ以上の
他の現在の立証モデルに基づく既知の仮定ストリング信
号の信用測定に関連づける。従って、この損失関数の予
期されるストリング損失の最小化は、ストリング立証エ
ラー確率の最小化と直接結び付けられる。

【００６５】Ｃ．ＨＭＭ更新プロセッサ立証モデルパラメーター更新の説明に先立ち、ＨＭＭ更
新プロセッサ６０の動作の背景が提供される。最小スト
リング立証エラー（ＭＳＶＥ）訓練は、式（７）の予期
される損失関数を最小化する１組のパラメーターΘを見
つけることに導かれ、それはＥ［ｌ_i （Ｏ；Θ）］とし
て指定される。

【００６６】最小化パラメーターΘの組を見つけるため
に、パラメーターセットΘは、以下の式に従って、各繰
り返しｎ毎に更新される。

【数８】式（８）では、Θ_n は初期ＨＭＭパラメーターセット評
価である。Ｅ［ｌ_i （Ｏ；Θ）］は、予期される損失関
数である。∇は、数学的導関数演算を表している。Θ
_n+1 は、予期される損失関数Ｅ［ｌ_i （Ｏ；Θ）］を最
小にするＨＭＭパラメーターセットに対する最良評価で
ある。

【００６７】この式は、立証モデルパラメーターを調整
するための勾配下降繰り返しを遂行して、予期される損
失関数の最小化を達成する。ここで、ε_n は、繰り返し
の際に使用される一連のステップサイズパラメーターあ
るいは学習レートであり、Ｖ_n は、以下に定義される正
の有限の学習マトリクスである。

【数９】ならば、予期される損失の静止点に収束する。

【００６８】図３の実施例では、ＨＭＭパラメーター
は、ＨＭＭ更新プロセッサ６０により（８）に従って適
応的に調整される。ＨＭＭの構造により、それらのパラ
メーターは、ある制約条件を満たさなければならない。
ＨＭＭ更新プロセッサは、すべてのそのような制約条件
を満たすように、パラメーター更新プロセスの一部とし
て、変換されたＨＭＭパラメーターを使用する。以下の
変換は、ＨＭＭ更新プロセッサにより使われる。

【００６９】（１）分散の対数

【数１０】ここで、各立証モデルが、例えば単語またはサブ単語を
反映する場合、σ² _i,j,k _,d はｉ番目の立証モデル、ｊ
番目の状態、ｋ番目の混合要素、及びｄ特徴ベクトルの
ｄ次元の分散である。

【００７０】（２）混合重みの変換された対数元の混合重みＣ_i,j,k は、次の通りに、変換された混合
重みＣ_i,j,k と関連づけられる。

【数１１】ここで、Ｌは、ｉ番目の立証モデル中のｊ番目の状態に
ある混合重みの全体数である。

【００７１】（３）遷移確率の変換された対数元の遷移確率ａ_i,j は、以下のようにして、変換された
遷移確率に関連づけられる。

【数１２】ここで、Ｍは、ｉ番目の立証モデルの全体の状態数であ
る。

【００７２】図示される実施例の重要な観点は、小さい
分散を扱うことに関する。正しくなく扱われると、逆効
果になるので、過去に提案されたいくつかの補正訓練ア
ルゴリズムにおいては、分散調整は避けられていた。

【００７３】ＨＭＭの分散は、１０⁴ から１０⁶ 程異な
る。これらの分散は、観察確率密度関数ｂⁱ ₁（ｘ）の指
数項に生じ、ＨＭＭの優度スコアの支配的な効果を持
つ。図示される実施例において、これは、ＨＭＭパラメ
ーター調整特に、ＨＭＭの観察確率密度関数の平均パラ
メーターの調整への異なる感度に導く。

【００７４】この巨大な感度の差を補償するために、実
施例は、正の有限のマトリクスＶ_nを使用する。正の有
限のマトリクスＶ_nは、各状態に対して、

【数１３】である対角マトリクスである。ここで、σ²（ｎ）は、
時間ｎにおけるＨＭＭΘ_Iの分散である。

【００７５】図４は、ＨＭＭ更新プロセッサ６０のブロ
ック図を示す。図に示すように、ＨＭＭ更新プロセッサ
６０は、Θ_I 、Ｏ、ｌに基づいて、パラメーターμ、σ
² 、ｃ、ａを更新し、ＨＭＭパラメーターデータベース
44に更新されたΘ_U を戻す。Θ_I とΘ_U は、パラメータ
ーμ、σ² 、c、ａからなり、Θ_I とΘ_U は、それぞれ
更新されない、及び更新された量を表している。

【００７６】最小ストリング立証エラー訓練では、式
（８）に示されるモデルパラメーターを更新すること
は、損失関数∇の導関数を見つけることを含んでいる。
項∂ｌ／∂Θは、各モデルパラメーターに対して特に計
算され、目下のＨＭＭがキーワードモデルか、反キーワ
ードモデル、またはフィラーモデルであるかに依存して
異なっている。このステップは、導関数∂ｌ／∂Θが全
てのモデルに共通であれば、最小ストリング分類エラー
訓練において使われるものとは異なっている。

【００７７】ＭＳＶＥでは、∂ｌ／∂Θは、項∂ｌ／∂
Ｌが全ての立証モデルに共通であれば、∂ｌ／∂Θ＝∂
ｌ／∂Ｌ・∂Ｌ／∂Θのようなチェーン規則として書か
れることができる。∂ｌ／∂Ｌは、以下の部分導関数か
らなる。

【数１４】

【００７８】導関数∂Ｌ／∂ｅは、更新されたモデルが
キーワードΘ^(k) であるか、反キーワードΘ^(a) 、また
はフィラーモデルΘ^(f) であるかに依存して異なる。Θ
^(k)では、

【数１５】 Θ^(a)では、

【数１６】 Θ^(f)では、

【数１７】

【００７９】項∂ｐ（）／∂Θは、全ての立証モデルに
共通であり、更新されたモデルの特定のパラメーターだ
けが異なる。この確率ｐ（）は、以下のように定義され
る。

【数１８】

【００８０】ＨＭＭ更新プロセッサ６０により提供され
るパラメーター更新は以下の通りである。（１）平均更新

【数１９】ここで、Ｏ_nn（ｄ）は、特徴ベクトルＯ_nnのｄ次元要素
であり、ω_j は、最適パスが最初に状態ｊに入るタイム
フレームに対応し、ω_j+1 は、最適パスが状態ｊ＋１に
入るタイムフレームに対応し、ｌ（Ｏ，Θ）は（７）に
従って構成されている損失関数であり、ε_n はステップ
サイズで有り、

【数２０】ここで、Ｄは特徴ベクトルの次元である。平均更新は、
図４のブロック６２により提供される。

【００８１】（２）分散更新 σ² ＝ｌｏｇσ² の更新は、以下の公式に従って行われ
る。

【数２１】ここで、Ｙ_i,j,k （Ｏ_nn）は、（１４）に示されるよう
に定義される。従って、時間Ｎ＋１における分散は以下
の通りである。

【数２２】分散は、１０^-6で下にクリップされ、制約条件σ
_i,j,k,d ²（ｎ）＞１０^-6を満足する。分散更新は、図４
のブロック６４により提供される。

【００８２】(３)混合重み更新パラメーター化された混合重みは、以下の式（１７）に
従って調整される。

【数２３】従って、時間ｎ＋１における混合重みは、式（１８）に
より与えられる。

【数２４】従って、調整された混合重みは、本発明の訓練プロセス
の間に以下の制約条件に合致する。 Σ_k Ｃ_i,j,k （ｎ）＝１とＣ_i、j、k （ｎ）＞０混合重み更新は、図４のブロック６６により提供され
る。

【００８３】(４)状態遷移確率更新左から右へのＨＭＭにおいて、ｌ番目の単語モデルのパ
ラメーター化された遷移確率は以下のように調整され
る。

【数２５】ここで、ｇ_l はｌ番目の立証モデルのＯの優度スコアで
あり、ｉは終了状態であり、状態ｉ内の自己遷移の全体
数は以下の式により示される。

【数２６】結論として、時間（ｎ＋１）における遷移確率は、以下
のように与えられる。

【数２７】これはまた、Σ_j ａ^l _i,j（ｎ）＝１、ａ^l _i,i＞０と、ａ
^l _i,i+1＞０の制約条件を満足する。状態遷移確率更新は
図４のブロック６８により提供される。

【００８４】ＨＭＭ更新プロセッサ６０により計算され
た更新表現（１５−１８）は、式（２２）に従って、ｊ
番目の状態のｉ番目の立証モデルの更新された観察確率
密度関数と関係付けられる。

【数２８】ここで、ｃ_i,j,k は混合重みであり、Ｎ（Ｏ，μ
_i,j,k ，Ｖ_i,j,k ）は、ｉ番目の認識ユニットモデル、
ｊ番目の状態、対角共分散マトリクスＶ_i,j,k とのｋ番
目の混合のＤ次元の通常のガウス分布である。ブロック
６２、６４、６６から出力されるのμ（ｎ＋１）、σ²
（ｎ＋１）及びｃ（ｎ＋１）の値は、ブロック６８によ
り提供される状態遷移確率ａ（ｎ＋１）に対する値と共
に、ＨＭＭパラメーターデータベース４４に戻される。
図４に例示するように、Θ_U は、μ、σ²、ｃ及びａの
ための更新された値を具備する。

【００８５】上に提供されるＨＭＭパラメーター更新の
ための表現は、ＨＭＭパラメーターデータベース４４か
らの単一音声訓練ストリング信号の使用を関連づけＨＭ
Ｍパラメーターを強化する。しかしながら、ＨＭＭパラ
メーターを改善するために、強化された訓練器４８が複
数回繰り返される。例えば、強化された訓練器４８は、
完全なＨＭＭパラメーターデータベースを通るいくつか
のパスまたは場で動作してもよい。強化された訓練器
は、いくつかの方法のうちの処理サンプルを止めるよう
にされてもよい。例えば、強化された訓練器48は、サン
プルのＨＭＭパラメーターデータベースを通って固定数
の場が行われるときには、停止してもよい。強化された
訓練器は、現在の場の全ての音声訓練ストリング信号を
処理するため、ストリング立証エラーレートの増加的改
良のレコードも維持できる。増加的改良がしきい値以下
に落ちるとき、処理は停止してもよい（図４の７０、及
びＳＴＯＰ信号を参照）。

【００８６】ＭＳＶＥ訓練は、実行され、好適音声認識
システム実施例に適用されることができ、サブ単語特定
キーワードおよび反キーワードのモデルパラメーターを
設計する。各訓練では、式（１）により定義された識別
関数Ｓ_i （Ｏ；Θ）が、現在の立証モデルに基づいて既
知の仮定ストリング信号のための信用測定信号値に設定
され、式（１６）により定義される反識別関数Ｓ_i
（Ｏ；Θ）は、Ｎ最良ストリング仮定を用いて１つ以上
の競合ストリングモデルに基づいて既知の仮定ストリン
グ信号に対する信用測定信号値により近似される。誤立
証測定信号は、式（５）におけるように決定される。訓
練場に対する誤立証測定と信用測定信号値の分布は、メ
モリーに記録されて、臨界しきい値を決定するために利
用される。

【００８７】発声立証システムの性能は、適切な臨界し
きい値の選択により強化できる。しきい値は、最小合計
エラーレートを得るか、または偽拒絶エラー（タイプ
Ｉ）が偽受け入れエラー（タイプＩＩ）に等しくなる等
しいエラーレートを達成するために、あらかじめ決めら
れた基準に従ってセットできる。立証しきい値は、偽拒
絶エラー（タイプＩ）と偽受け入れエラー（タイプＩ
Ｉ）の間に望ましいトレードオフを得るために初めに設
定されてもよい。各エラーレートは、訓練データとテス
トデータの間の環境の不均衡によりもたらされるかもし
れない。環境の不均衡は、異なるアクセントをもつ異な
る話者、または異なる周辺ノイズも含んでいる。

【００８８】タイプＩとタイプＩＩのエラーの両方のた
めの等しい立証エラーレートは、本発明の音声認識シス
テムにより達成できる。しかしながら、等しいエラーレ
ートは、異なる選択されたしきい値信号値に対して変わ
ることができる。異なる選択されたしきい値において、
タイプＩエラーレートは、タイプIIエラーレートより高
いか、またはより低いに違いない。従って、特定の環境
条件の下での仮定単語ストリング信号の立証を実行する
ための演算しきい値信号値は、異なる環境条件に対して
適切ではないかもしれない。

【００８９】タイプＩとタイプＩＩに対する異なるエラ
ーレートは、商業的アプリケーションにおいて有利であ
るかもしれず、それでは偽拒絶エラーが偽受け入れエラ
ーより有害であるかもしれず、あるいは逆もまた同様か
もしれない。本発明は、タイプＩとタイプＩＩ間の望ま
しいトレードオフを維持するために、立証プロセッサに
より生成される信用測定信号の臨界しきい値値を調整す
るためのメカニズムを提供する。

【００９０】本発明によるしきい値適応化技術は、既知
の仮定ストリング信号に応答して生成される信用測定信
号値を利用して、立証しきい値信号値を適応化する。し
きい値動作点は、仮定ストリング信号のグループが利用
可能になるにつれて、調整される。（式（１）からの）
信用測定信号値の分布は、図５に示されるように、正し
い仮定ストリング信号７２のクラスと正しくない仮定ス
トリング信号７４のために記録される。右の分布７２
は、単語ストリングが妥当で、正しく（認識されてい
る）分類されているとき発生される信用測定信号を提供
する。左の分布７４は、無効の単語ストリング、および
間違って認識されていた他のストリングに対して生成さ
れた信用測定信号を提供する。

【００９１】２つの分布７２と７４は、同様な形を持
ち、２つの分布の分散はほとんど等しい。この特徴は、
しきい値適応化を実行するために、ここで教示されるよ
うに、利用される。

【００９２】Ｏ⊂ＣであるようにＸ_H0をＳ（Ｏ；Θ）の
平均信用測定信号値に対応させ、Ｘ_H1を要素Ｏが集合Ｃ
に属さないように平均信用測定信号値Ｓ（Ｏ；Θ）に対
応させる。ここで、Ｃは正しく認識された仮定ストリン
グ信号である。等しいエラーレートあるいは最小全体エ
ラーレートを達成するために、両方の分布に対して等し
い分散を仮定して、臨界しきい値τ_S は、

【数２９】におかれる。

【００９３】しきい値適応化は、演算立証テストの間に
２つの分布の間にτを位置決めし、Ｘ_H0−τ_S ≠τ_S −
Ｘ_H1のときτ_S の値を調整するように導かれる。実際、
システムが走っている間に２つの分布の実際の瞬間的平
均を決定することは難しい。結果として、立証処理は、
X_HOとX_H1に対するある初期評価値で開始される。これら
の値は、十分な数のストリング（”Ｒ”）が受信され、
τ_S が適応化されることができる度毎に、調整される。
このプロセスは次の通りに実行される。

【００９４】ストリング信用測定信号値の数Rを用い
て、X_HOとX_H1の値は、評価され、以下のエラー測定を計
算するために使用される。

【数３０】図５に示される分布７２と７４の長い末部のために平均
をバイアスすることを回避するために、あらかじめ定義
された最大と最小のしきい値を越える信用測定は、クリ
ップされる。さらに、エラー関数は、以下の形のシフト
されたシグモイドを用いて、平滑化される。

【数３１】ここで、α₁ は、平滑化の程度を決定し、０．１に設定
された。ｎストリングを処理した後の臨界しきい値τ_S
（ｎ）は、以下のように更新される。

【数３２】ここで、Ｂ１はステップサイズであり、Δτ_S （ｎ）＝
τ_S（ｎ）−τ_S （ｎ−１）。適応の間に、τ_S の値は
τ_S （０）±２を越えることは許されない。

【００９５】本発明による立証しきい値の適応化の間
に、ストリングは、平均を評価するために等しく、十分
な情報を確保するために、ランダムな認識と立証命令の
ために提供される。臨界しきい値は、最初、最小のエラ
ーレート点に設定され、２０ストリング毎（即ち、Ｒ＝
２０）に調整され、各分布の平均を計算するために十分
な、しかし最小の数のストリングの利用可能性を確保す
る。立証しきい値信号値を調整するこの方法は、適応化
の前後でタイプＩとタイプIIのエラーレートの前選択と
維持のために提供する。

【００９６】話者独立電話ベースの接続される数字デー
タベースは、本発明による実験的な訓練と動作上のテス
トの際に使用された。１から１６桁の長さの範囲の数字
ストリングは、異なるフィールドトライアルでのコレク
ションから抽出された。フィールドトライアルでのコレ
クションは、異なる環境条件と音響トランスデューサー
機器を表した。

【００９７】訓練セットは、１６０８９数字ストリング
から構成された。テストセットは、２７７０２数字スト
リングから成っていた。発生の約２２％は、語彙外の単
語、誤り開始、および重要な背景ノイズを含んでいた。
３０００の音声学上の豊かな文からなる別のデータベー
スが、フィラーモデルを訓練するために提供された。立
証結果は、９９％を越える正確な拒絶であった。

【００９８】上記から、本発明は、発生立証のためのス
トリングベース最小立証エラー訓練プロセスを提供する
ことは明らかである。立証プロセッサモデルを訓練する
ことへの識別的なアプローチは、発声立証のために使わ
れた目的関数と一致し、予期されるストリング立証エラ
ーレートを最小化することに直接関連する。

【００９９】上記の観点で、本発明は話者依存及び話者
独立の音声認識の両方に適用可能であることは当業者に
は明らかであろう。音声認識の文脈の中で説明された
が、モデルを訓練するために使用される技術は、一般に
パターン認識にも適用可能であることも更に明らかであ
ろう。

【０１００】上記実施例は、単に図示されたに過ぎず、
特許請求の範囲の記載に基づいて定義される本発明の範
囲から離れることなく、当業者により種々の変形がなさ
れることができることは理解されよう。

【図面の簡単な説明】

【図１】本発明によるＨＭＭベース音声認識システムを
示す図である。

【図２】図１のＨＭＭベース音声認識システムの立証部
の詳細な図である。

【図３】図２の強化された訓練器を示す図である。

【図４】図３の強化された訓練器のＨＭＭ更新プロセッ
サを示す図である。

【図５】立証しきい値信号値決定のための信用測定信号
値分布を示す図である。

【符号の説明】

２６訓練音声データベース２８特徴抽出器３０第１のモードスイッチ３２第２のモードスイッチ３４スコア計算器３６平均単語ベース信用スコアプロセッサ３８ストリングベース信用測定信号発生器４０しきい値比較器４２従来のＨＭＭ訓練器４４立証データベース４６Ｎ最良ストリングモデル発生器４８強化された訓練器５０システムの訓練部５２システムの立証部

───────────────────────────────────────────────────── フロントページの続き (72)発明者ビーイング−ホワンジョアンアメリカ合衆国 07059 ニュージャーシィ，ウォーレン，サウスレーン８ (72)発明者チン−フイリーアメリカ合衆国 07974 ニュージャーシィ，ニュープロヴィデンス，ラニーメドパークウェイ 118 (72)発明者マズィンジー．レイムアメリカ合衆国 07726 ニュージャーシィ，マナラパン，キンバリーコート 31

Claims

【特許請求の範囲】

【請求項１】１つ以上の既知の仮定ストリング信号と
現在の立証モデルのセットに基づいて音声認識装置立証
モデルデータベースを作成する方法であって、（Ａ）既知の仮定ストリング信号を受信するステップ
と、（Ｂ）既知の仮定ストリング信号と、その信号のための
現在の立証モデルとに基づいて第１のストリングベース
信用測定信号を生成するステップと、（Ｃ）１つ以上の他のストリングベース信用測定信号を
生成するステップと、そのような各ストリングベース信
用測定信号は、既知の仮定ストリング信号と他の現在の
立証モデルに基づいていて、（Ｄ）前記第１のストリングベース信用測定信号と前記
他のストリングベース信用測定信号に基づいて誤立証信
号を計算するステップと、（Ｅ）前記誤立証信号と前記既知の仮定ストリング信号
に基づいて、前記現在の立証モデルのうちの１つ以上を
修正して未知の仮定ストリング信号を誤立証する優度を
減少させるステップと、及び（Ｆ）１以上の修正された立証モデルをメモリーに格納
するステップとを具備する方法。
【請求項２】前記立証データベースの前記立証モデル
を初期化するステップを更に具備する請求項１に記載の
方法。
【請求項３】前記誤立証信号に基づいて損失関数信号
を計算するステップと、及び前記損失関数信号の導関数
を計算するステップを含めて、前記損失関数信号の勾配
を決定するステップとを更に具備する請求項１に記載の
方法。。
【請求項４】前記ステップ（Ｂ）は、前記既知の仮定ストリング信号を一連の単語信号に分割
するステップと、前記一連の単語信号の各々ごとに１つの単語ベース信用
スコアを計算するステップと、及び各単語信号に対して
計算された単語ベース信用スコアを平均するステップと
を具備する請求項１に記載の方法。
【請求項５】前記ステップ（Ｃ）は、前記既知の仮定ストリング信号に基づいて混同しやすい
ストリングモデルのセットを生成するステップと、前記
混同しやすいストリングモデルは、１つ以上の単語モデ
ルを具備していて、前記セットの混同しやすいストリングモデルのうちのそ
れぞれに対してストリングベース信用測定信号を生成す
るステップと、及び前記セットの混同しやすいストリン
グモデルのそれぞれに対するストリングベース信用測定
信号の平均を計算するステップとを具備する請求項１に
記載の方法。
【請求項６】前記ステップ（Ｃ）は、前記セットの混同しやすいストリングモデルのそれぞれ
の単語モデルごとに単語ベース信用スコアを決定するス
テップと、及び前記セットの混同しやすいストリングモ
デルのそれぞれの各単語モデルに対して決定された単語
ベース信用スコアを平均化して前記セットの混同しやす
いストリングモデルのそれぞれに対する前記ストリング
ベース信用測定信号を生成するステップとを具備する請
求項５に記載の方法。
【請求項７】ステップ（Ｄ）は、（ａ）その仮定ストリング信号に対する現在の立証モデ
ルに基づく前記既知の仮定ストリング信号に対する信用
測定信号の発生を、（ｂ）１つ以上の他の現在の立証モデルに基づく前記既
知の仮定ストリング信号に対する信用測定信号の発生に
関連づける関数の勾配を決定するステップを具備する請
求項１に記載の方法。
【請求項８】ステップ（E）は、前記勾配に基づいて前記現在の立証モデルの１つ以上の
パラメーターを調整するステップを具備する請求項７に
記載の方法。
【請求項９】ステップ（Ｄ）は、（ａ）前記第１のストリングベース信用測定信号と
（ｂ）前記１つ以上の他の信用測定信号の平均との差を
形成するステップを具備する請求項１に記載の方法。
【請求項１０】予期される損失関数信号を評価するス
テップと、及び前記評価された損失関数信号に応答して
繰り返し前記立証モデルを調整して立証エラーの優度を
最小にするステップとを具備する請求項３に記載の方
法。
【請求項１１】接続された単語ストリングを認識する
ための音声認識システムであって、接続された単語の音響入力ストリングに応答して仮定ス
トリング信号を生成するための認識プロセッサと、認識モデルを格納するための認識データベースと、前記仮定ストリング信号に応答してストリングベース信
用測定信号を生成するための立証プロセッサと、及び立
証モデルを格納するための立証データベースとを具備す
る音声認識システム。
【請求項１２】前記立証プロセッサに接続され、スト
リングベース信用測定信号の立証しきい値信号値を計算
するための手段と、前記ストリングベース信用測定信号を測定して測定信号
値を生成するための手段と、及び前記測定信号値をしき
い値と比較するための手段とを更に具備する請求項１１
に記載の音声認識システム。
【請求項１３】前記立証モデルは、隠れマルコフモデ
ルパラメーターのセットを具備する請求項１１に記載の
音声認識システム。
【請求項１４】前記立証モデルは、キーワードモデ
ル、反キーワードモデル、音響のフィラーモデル、およ
びそれらの組合せから成るグループから選択される請求
項１１に記載の音声認識システム。
【請求項１５】前記立証モデルは、予め選択された形
式の訓練を反映する請求項１１に記載の音声認識システ
ム。
【請求項１６】前記仮定ストリング信号は、分割され
た一連の単語信号からなり、前記立証プロセッサは、前記分割された一連の単語信号の各々に対する単語ベー
ス信用スコアを計算するための手段と、及び前記分割さ
れた一連の単語信号の各々に対する単語ベース信用スコ
アの平均に応答して前記ストリングベース信用測定信号
を生成するための手段とを具備する請求項１１に記載の
音声認識システム。
【請求項１７】音声認識システムにおいて、立証プロ
セッサにより生成された信用測定信号の立証しきい値信
号サンプルを発生する方法であって、（Ａ）（ｉ）既知の仮定ストリング信号と該既知の仮定
ストリング信号のための現在の立証モデルに基づいて第
１のストリングベース信用測定信号を生成し、（ｉｉ）
各ストリングベース信用測定信号が前記既知の仮定スト
リング信号と他の立証モデルに基づく１つ以上の他のス
トリングベース信用測定信号を生成するように立証プロ
セッサを動作させる場を達成するステップと、（Ｂ）予め選択された数の場に対してステップ（Ａ）を
繰り返すステップと、（Ｃ）前記予め選択された数の場に対して前記第１のス
トリングベース信用測定信号の第１の分布を記録するス
テップと、（Ｄ）前記予め選択された数の場に対して、前記１つ以
上の他のストリングベース信用測定信号の第２の分布を
記録するステップと、（Ｅ）前記第１の分布のための第１の平均を計算するス
テップと、（Ｆ）第２の分布のための第２の平均を計算するステッ
プと、及び（Ｇ）前記第１の平均と前記第２の平均に基づいて前記
立証しきい値信号サンプルを生成するステップとを具備
する方法。
【請求項１８】偽拒絶立証エラーレートを選択するス
テップと、偽受け入れ立証エラーレートを選択するステップと、及
び前記選択された偽拒絶立証エラーレートと前記選択さ
れた偽受け入れ立証エラーレートに基づいて初期立証し
きい値信号値を評価するステップとを更に具備する請求
項１７に記載の方法。
【請求項１９】前記音声認識システムが動作している
間に前記立証しきい値信号値を発生するステップと、及
び前記認識システムが動作している間、前記偽拒絶立証
エラーレートと前記偽受け入れ立証エラーレートを維持
するステップとをさらに具備する請求項１８に記載の方
法。