JP3549681B2 - 連結数字の認識のための発声識別立証 - Google Patents
連結数字の認識のための発声識別立証 Download PDFInfo
- Publication number
- JP3549681B2 JP3549681B2 JP24243696A JP24243696A JP3549681B2 JP 3549681 B2 JP3549681 B2 JP 3549681B2 JP 24243696 A JP24243696 A JP 24243696A JP 24243696 A JP24243696 A JP 24243696A JP 3549681 B2 JP3549681 B2 JP 3549681B2
- Authority
- JP
- Japan
- Prior art keywords
- string
- signal
- verification
- model
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012795 verification Methods 0.000 title claims description 125
- 238000005259 measurement Methods 0.000 claims description 73
- 238000012549 training Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 44
- 238000009826 distribution Methods 0.000 claims description 19
- 239000000945 filler Substances 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims 2
- 230000008569 process Effects 0.000 description 26
- 238000012360 testing method Methods 0.000 description 18
- 230000007704 transition Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000002860 competitive effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Complex Calculations (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、一般的に音声認識と立証の分野に関し、特に、音声立証訓練の分野に関する。
【0002】
【従来の技術】
音声認識は、未知の話された発声が識別されるプロセスである。訓練として知られているプロセスを通して、知られている単語または単語ストリングがテストされ、単語または単語ストリングの特徴は音声認識装置メモリー内の認識モデルとしてサンプリングされて、記録される。認識モデルは、知られている発声の典型的な音響的解釈を表している。訓練プロセスにおいて、訓練アルゴリズムが認識モデルに適用され、将来の未知の単語および単語のストリングを認識するために利用されるこれらの格納された表現を形成する。
【0003】
動作において、音声認識装置は未知の発声を受信し、未知の発声を認識するために、未知の発声から特徴を抽出する。未知の発声の抽出された特徴は、テストパターンとして参照される。
【0004】
認識装置は、その後、未知の発声のためのテストパターンとメモリー内の1つ以上の認識モデルの組合せとを比較する。認識モデルの各組合せがテストパターンとどれほどよくマッチするかの相対的な測定を提供するために、スコアをカウントする技術が用いられる。未知の発声と最もはっきりとマッチする1つ以上の認識プロセッサモデルの組合せと関連する単語として未知の発声は認識される。
【0005】
従来の音声認識の実際では、音声認識モデル化とモデル訓練のために妥当な可能性またはクラスの数「N」が利用された。そのようなN−クラスモデルにおいては、認識されるべきすべての発声入力は妥当であると仮定される。「N」個の存在可能なクラスの各々に対する認識モデルは、認識装置メモリーに格納されている。妥当であるかどうかにかかわらず、認識されるべき全ての音声入力は、Nクラスのうちの1つとして分類される。認識装置は、N個のモデルの各々に対する発声のスコアを計算し、発声を、最もよいスコアを持つ(N個のクラスの内の)あるクラスにマッチさせる。
【0006】
付加的な、または「N+1」のクラスの概念が、N個の妥当なクラスの認識に加えて、(「フィラー」モデルと指定される)関連したN+1モデルを提供するように開発されている。そのようなシステムにおいては、認識されるべき入力発声がN個の妥当なクラスの入力に対するN個のモデルの各々に対して、また付加的に、N+1フィラークラスモデルに対して、スコアが数えられる。N+1モデルは、すべての無効の入力を表すように設計されている。N+1フィラーモデルの使用により、認識プロセスはさらに洗練され、入力発声または入力発声のセグメントが妥当ではないかもしれないことを考慮するようになった。
【0007】
いったん未知の発声が音声認識プロセスによって分類されると、音声認識装置によりなされる分類決定の確実性を評価することがしばしば、望ましい。これは、2パスプロセスにより達成され、未知の発声は最初にN個の可能な妥当なクラスを表すN個のモデルに対してそれのスコアを数えることにより認識される(分類される)。最もよいスコアを提供する認識モデルは、その関連したクラスにマッチされ、それは、後で立証されるべき仮定発声として認識される。仮定認識発声は、その後、フィラー立証モデルに対して第2のパスにおいて立証され、そのモデルは、上述のN+1認識フィラーモデルと同様であるはずである。
【0008】
2パス音声認識プロセスは、未知の発声の認識を可能にし、続いて、システムが認識決定についてどれほど信用できるかの計算される判定が続く。例えば、認識装置は未知の発声を特定の単語として分類し、立証器は、フィラーモデルを使って分類が正しいことを示す。立証器は、認識装置が適切に分類したかどうかにかかわらず、立証器は、2進の決定、「はい」、または「いいえ」を作成するために使用される。
【0009】
発声立証は音声認識システム開発の重要な観点を表している。発声立証は、計算された信用スコアに基づいて全体の発声のうちの拒絶する部分またはすべてを含んでいる。信用スコアは、尤度比距離に基づくことができ、それは、単語が音声のあるセグメント中に存在するかどうかをテストする。尤度比距離は、発声が妥当な単語なしでなされ、認識される発声が乏しい状況で、あるいは重要な混乱が高いエラーレートを発生する単語間に存在するとき、特に有益である。
【0010】
音声認識システムの文脈での発声立証の成功した性能は、立証モデルを訓練するために用いられる技術の有効性と密接に関連し、そのモデルは立証プロセスにおいて使用される。従来の訓練方法には欠陥が存在し、それは、訓練と立証エラーレートの間の直接的な関係の不足に起因している。立証エラーレートを直接最小化する訓練方法を見つけることが、目下の問題である。
【0011】
【発明の概要】
音声認識技術の進歩が、本発明により提供され、それでは、接続された単語のストリングを認識するために2つのパスの認識と立証戦略を採用する。本発明の図示される実施例によれば、音声認識システムは、認識プロセッサを具備するか、または仮定ストリングを生成し、未知の接続された単語の音響的入力ストリングに基づいて接続された単語の仮定ストリングを発生するための認識プロセッサと、接続された単語の仮定ストリングに応答するストリングベース信用測定信号を生成する立証プロセッサとを具備する。認識データベースは、認識プロセッサによって使用される認識モデルを格納する。立証データベースは、立証プロセッサによって使用される立証モデルを格納する。
【0012】
第1のパスでの認識は、隠れマルコフモデルのセットを使用して従来のビタービ(Viterbi) ビームサーチアルゴリズムで実行され、そのモデルは、ストリング分類エラーを最小化するように訓練されている。第2のパスでの発声立証は、本発明による最小ストリング立証エラー(MSVE)訓練プロセスで訓練された隠れマルコフモデルのセットを使用して、仮定認識ストリングを立証するために実行される。
【0013】
立証エラーを最小限にするために立証データベースに格納された立証モデルを訓練する方法が利用される。訓練方法は、予期されるストリング立証エラーを計算し、最小化することを含んでいる。
【0014】
訓練プロセスにおいて、最初に、立証データベースの立証モデルが初期設定される。既知の仮定ストリングが選ばれる。立証プロセッサは、既知の仮定ストリングのための現在の立証モデルに基づいて第1のストリングベース信用測定信号を生成する。
【0015】
既知の仮定ストリングのための現在の立証モデルと混同するほど似た1つ以上の競合ストリングモデルが生成される。1つ以上の競合ストリングモデルは立証プロセッサに提供され、それは、既知の仮定ストリングと1つ以上の競合ストリングモデルに基づいて1つ以上のストリングベース信用測定信号を生成する。
【0016】
誤立証信号は、既知の仮定ストリングのための第1のストリングベース信用測定信号に基づいて立証プロセッサにより生成され、1つ以上の競合ストリングモデルに基づいてストリングベース信用測定信号が生成される。誤立証信号に基づく損失関数信号は、その既知の仮定ストリングのための現在の立証モデルに基づく既知の仮定ストリングの立証を、1つ以上の他の競合立証モデルをもつ既知の仮定ストリングの立証に関係づける勾配に提供する。勾配決定は、損失関数信号の導関数を利用して達成される。
【0017】
立証モデルは、未知の仮定ストリングを誤立証する尤度を最小化するために更新される。更新プロセスは、予期される損失関数信号を評価し、立証エラーの尤度を最小化するために、評価される損失関数信号に応答する立証モデルを繰り返し調整する。
【0018】
本発明の音声認識システムは、立証プロセッサにより生成される信用測定信号を立証するために最適立証しきい値信号値を生成するように動作させられることができる。立証しきい値信号値は、仮定認識ストリングを拒絶する決定のための基礎を提供し、立証エラーレートを維持するように選ばれる。
【0019】
既知の仮定ストリングは、立証プロセッサに入力され、それは、立証データベースに格納された立証モデルをアクセスするように結合されている。1つ以上の競合ストリングモデルが既知の仮定ストリングに基づいて生成される。1つ以上の競合ストリングモデルは立証プロセッサに提供される。
【0020】
立証プロセッサは、予め選択された数の場に対して、既知の仮定ストリングのための現在の立証モデルに基づいて第1のストリングベース信用測定信号を生成し、既知の仮定ストリングに基づいて1つ以上の競合ストリングモデルのうちの各々に対するストリングベース信用測定信号を生成するように動作させられる。既知の仮定ストリングに対する現在の立証モデルに基づくストリングベース信用測定信号値の第1の分布は記録される。既知の仮定ストリングに対するストリングベース信用測定信号値の第2の分布と競合モデルは記録される。立証しきい値信号値は、第1の平均と第2の平均とに基づいて選択され、調整される。
【0021】
ここに、教示される技術は、ストリング立証エラーレートを最小化することと直接関連する。
本発明の他の目的、利点、および顕著な特徴は、本発明の好適実施例を開示し、添付図面と関連してなされる以下の詳細な説明から明らかとなるであろう
【0022】
【発明の実施の形態】
説明の明瞭化のために、本発明の図示される実施例は、(「プロセッサ」とラベルされた機能ブロックを含めて)個々の機能ブロックを具備するとして提供される。これらのブロックが表している機能は、それに制限されないが、ソフトウェアを実行可能なハードウェアを含めて、共有されたまたは専用とされたハードウェアのいずれかの使用によって提供される。例えば、図1から図4において提供されるプロセッサの機能は、単一な共有プロセッサによって提供されても良い。(ソフトウェアを実行可能なハードウェアを排他的に参照するように、用語「プロセッサ」の使用が解釈されるべきでない。)
【0023】
図示される実施例は、AT&T DSP16またはDSP32Cなどのデジタル・シグナル・プロセッサ(DSP)ハードウェア、下で議論される動作を実行するソフトウェアを格納するためのリード・オンリー・メモリ(ROM)、DSP結果を格納するためのランダム・アクセス・メモリ(RAM)を具備する。汎用DSP回路と組合せてのカスタムVLSI回路だけでなく、超大規模集積(VLSI)ハードウェア実施例が、また提供されてもよい。
【0024】
図1は、HMMベース音声認識システムの文脈の一般的説明の目的のために本発明の図示される実施例を提供する。音声認識システム8は、認識プロセッサ10、別個の隠れマルコフモデル(”HMM”)認識モデルのセットを含む認識データベース12、立証プロセッサ14および別個のHMM立証モデルのセットを含む立証データベース16を具備する。
【0025】
認識プロセッサは、単語の未知の音声ストリング18(発声)を入力として受信する。認識プロセッサ10は、未知の音声ストリング18入力に応答して認識データベース12をアクセスし、未知の単語ストリングを分類して、仮定認識ストリング信号を生成するために、認識データベース12の認識モデルに対する未知の単語音声ストリングのスコアを数える。立証プロセッサは、仮定ストリング信号20を、立証されるべき入力として受信する。立証プロセッサ14は、立証データベース16をアクセスして、立証データベースに格納されている立証モデルに対する仮定ストリング信号をテストする。立証テストに基づいて、立証プロセッサ14は、信用測定信号22を測定して、測定された信号値を生成する。測定された信号値は、立証しきい値信号値に対して比較されるべきしきい値コンパレーター24に通され、認識プロセッサ10によりなされた分類決定の精度を決定する。
【0026】
図2は、音声認識システム8の立証訓練およびテストプロセスを説明するためのより詳細な図を提供する。図2を参照して、音声認識システムは、訓練音声データベース26、特徴抽出器28、第1のモードスイッチ30、第2のモードスイッチ32、単語ベース信用スコア計算器34、平均単語ベース信用スコアプロセッサ36、ストリングベース信用測定信号発生器38、しきい値比較器40、従来のHMM訓練器42、HMMパラメーターデータベース44、N最良ストリングモデル発生器46、および強化された訓練器48を具備する。
【0027】
訓練音声データベース26は、デジタル形式での既知の音声信号のサンプルを具備する。各音声信号は、1語以上の話された単語のストリングに対応する。これらのサンプルは従来の訓練器42と強化された訓練器48のためにそれぞれ使われる。訓練音声データベース26からの既知の音声ストリングのサンプルは、第1のモードスイッチ30を介してシステムの他の構成要素に提供される。
【0028】
第1のモードスイッチ30は、システムの2つの動作モードを反映する:訓練(T)モードとテストのための立証(V)モードである。第1のモードスイッチ30が(図示のように)T位置にあるとき、訓練データベース26からの訓練ストリング信号は、訓練がシステムの訓練部50によって実行できるように、システムのバランスに提供される。第1のモードスイッチがV位置にあるとき、デジタル形式の仮定認識音声ストリング信号が、システムの立証部52により立証のためにシステムのバランスに提供される。
【0029】
システムの特徴抽出器28は、第1のモードスイッチ30に結合されている。第1のモードスイッチの状態に依存して、特徴抽出器28は、訓練ストリング信号または仮定音声ストリング信号を受信する。これらの受信ストリング信号に基づいて、特徴抽出器は、立証または訓練の目的でストリング信号を特徴付ける1つ以上の特徴ベクトルOを作成する。
【0030】
特徴抽出器からの特徴ベクトル出力は、第2のモードスイッチ32に提供される。第2のモードスイッチは、第1のモードスイッチとタンデム形式で動作する。すなわち、両方のスイッチは、両方のスイッチに提供されるモード信号54に基づいて、同時に同じ状態(TまたはV)にセットされる。第2のモードスイッチ32は、特徴抽出器28の出力をシステムの立証部52または訓練部50に向ける。
【0031】
システムの立証部52は、認識プロセッサ10によりなされた認識決定をテストするために選択されることができる(図1)。図2に示される立証部52は、単語ベース信用スコア計算器34、平均単語ベース信用スコアプロセッサ36、およびストリングベース信用測定信号発生器38を具備する。
【0032】
特徴抽出器28は、一連のフレーム特徴ベクトルを出力する。特徴ベクトルのフレームに基づく単語信号は、単語ベース信用スコア計算器34に提供される。単語ベース信用スコア計算器は、離散的な単語信号について計算を実行する。単語ベース信用スコア計算器34は、1つ以上の立証モデル(この場合隠れマルコフモデル「HMM」)のストリングを、仮定認識音声ストリング信号の各単語信号にマッチさせる。信用スコア計算器34は、仮定ストリング信号の各単語信号に対して単語ベース信用スコアを生成する。ストリングの各単語セグメントに対して計算される単語ベース信用スコアは、信用のレベルを示し、それは、仮定ストリングの各特定の単語が正しく認識され、音声認識システムに提供された入力発声の単語に正確に対応しているレベルである。
【0033】
平均単語ベース信用スコアプロセッサ36は、仮定ストリング信号の各単語セグメント信号に対して生成される単語ベース信用スコアのセットについて算術平均演算を実行して、平均単語ベース信用スコア信号を生成するための手段を提供する。平均信用スコア信号は、ストリングベース信用測定信号発生器38に通される。
【0034】
ストリングベース信用測定信号発生器38は、平均信用スコア信号を受信するように結合されていて、ストリングベース信用測定信号を測定して、測定された信号値を生成するように応答する。ストリングベース信用測定信号の測定された信号値は、立証テスト結果を具体化し、立証プロセッサに提供される仮定ストリング信号が実際の話された単語ストリングを正確に表しているという信用度の測定を提供する。
【0035】
立証プロセッサに提供される仮定(の)認識(される)音声ストリング信号が音声認識システムに元々入力される未知の音声単語ストリングであることを立証するために、信用測定信号の測定された信号値は、立証しきい値信号値40と比較される。この測定された信号値がしきい値信号値以下ならば、仮定ストリング信号は、実際の話された入力発声を間違って表しているとして拒絶される。すなわち、立証プロセッサに提供される仮定ストリング信号は立証されることができないであろう。
【0036】
システムの訓練部50は、従来のHMM訓練器42、HMMパラメーターデータベース44、N最良ストリングモデル発生器46、および強化された訓練器48を具備する。従来のHMM訓練器42は、米国特許番号4,783,804により説明されるようであり、HMMの従来の訓練を提供する。従来の訓練器の出力は、HMMのセットが基づく訓練音声ストリングの特徴ベクトルOだけでなく、1つ以上の従来のように訓練された複数のHMMの組ΘI を具備する。従来の訓練器42の出力は、初期化パラメーターとしてN最良ストリング発生器46および強化された訓練器48による使用のためにHMMパラメーターデータベース44に記録される。
【0037】
強化された訓練器48は、初期のパラメーターΘI を受信して、HMMパラメーターデータベースに強化されたまたは更新されたHMMのセットΘU を戻す。強化されたモデルΘU は、最終的に、立証モード処理の間に単語ベース信用スコア計算器34に提供される。従来のように訓練されたHMMΘI よりもむしろ強化されたHMMΘU の単語ベース信用スコア計算器の使用は、ストリング立証エラーレートの減少を達成するために提供される。
【0038】
N最良ストリングモデル発生器46は、HMMパラメーターデータベース44から、隠れマルコフモデル(HMM)パラメーターΘX と訓練音声ストリングOを受信するように結合されている。N最良ストリングモデル発生器46は、ストリングモデルのセットを生成するように動作し、そのモデルは、仮定認識ストリング信号のための現在の立証モデルと高度に競合する。これらの競合するストリングモデルは、強化された訓練器48の区別的な訓練のための基礎を提供する。即ち、立証プロセッサへの正しい仮定ストリング信号入力が立証プロセッサに極めて高い信用測定信号を生成させるように、また、間違った仮定ストリング入力は、立証プロセッサに低い信用測定信号を生成させるように、立証モデルを訓練するためである。
【0039】
N最良ストリング発生器46は、”N”個の最良の(競合する)単語ストリングと、各そのような単語ストリングのための最良のHMM立証モデル列とを決定することにより、”N”個の最良の(あるいは最も競合する)単語ストリングを発生する。N最良単語ストリングの決定は、修正されたビタービデコーダーのDSP実行の使用によってなされる。
【0040】
修正されたビタービデコーダは、部分的なパスマップ、即ち瞬間毎にいずれかの文法ノード(即ち単語の結合点)に通じるすべての部分的なパスのすべてのスコアのリスト(または、マトリクス)を準備する。その後、修正されたビタービ前検索の終了時に、デコーダは、当業界でよく知られたA*トレースバックツリー検索を使用する。発生器は、「スタック」(位付けられたデータリスト)の先頭にある先頭(ベスト)部分的パスを育てることによりツリー検索を実行する。スタック上のすべての部分的パスの位付けは、完了されるときに部分的パスが達成できる最良の可能なスコアにより決定される。ビタービ前検索において準備される部分的パスマップは、後方ツリー検索においていかなる不完全な部分的パスに対してもスコアを提供する。A*手続の「最良が1番」という性質のため、先頭のNストリングは逐次生成される。
【0041】
スタック深さがいずれの検索エラーも回避するように十分に深いとすると、A*アルゴリズムの許容性、または最適なパスの確実な発見は、部分的なパスの不完全な部分の上限がスタックデコーダーとして使用されるときに保証される。ツリートレリス手順において、同じHMMが両方向に沿っての検索において使われれば、最もしっかりとした上限、あるいはそのパスの実際のスコアが得られる。
【0042】
発生器は、N最良ストリングリスト中の各単語ストリングに対するモデルのセットに対して入力音声ストリングOのビタービ整列によりN最良単語ストリングに基づいてN最良ストリングモデルを生成する。このステップは、同じ単語ストリングに対応する多くのストリングモデルが存在するかもしれないので、発生器により実行される、しかし、あるモデルのセットに対する入力発声に最もよくマッチするストリングモデルは独特である。
【0043】
発生器が、未知の競合ストリングをモデル化する能力を提供することに注意すべきである。これは、N最良デコーディングによって生成される競合する単語ストリングモデルが、訓練資料により制限されないという事実に起因している。N最良ストリングリストは、動的で、音声立証モデルの組に基づいてストリングレベル音響分解能を反映する。
【0044】
従って、HMMパラメーターデータベース44の基礎的な立証モデルは、N最良ストリングモデル発生器(一種の音声認識装置)により生成されるストリングモデルにより訓練される。生成されたストリングモデルは、元の訓練資料に無い単語ストリングに基づくことができるが、認識装置が、既知の仮定ストリング信号と混同してそれを見つける。認識装置が既知の仮定ストリング信号と混同して見つけるこれらの知られていない競合単語ストリングは、そのような知られていない混同しやすい同様なストリングに対する立証モデル化を改善するように識別的にモデル化される。(正しいストリングと混同されそうである)知られていないストリングを識別するための基礎を提供するように立証モデルを準備するモデル化は、訓練資料の貧しいストリング範囲によりそのようなモデル化が連続的な音声認識と立証において遭遇する困難さを減少させるので、有益である。
【0045】
N最良ストリングモデル発生器の動作は、同時継続の米国特許出願番号08/030,895に詳細に説明されており、それは本願の所有者に譲渡され、ここにそれに述べられているまま引用により組み込まれる。
【0046】
最小ストリング立証エラーレート訓練では、N最良ストリングモデルは、ストリングエラーを表し、減らすために特に設計されている識別関数のセットに組み込まれる。これは、以下に説明するように、強化された訓練器48の動作によりなされる。
【0047】
発声立証プロセッサ14(図1)は、仮定ストリング信号という形で提案された仮定認識発声を立証するために、統計的仮定テストを公式化し、適用するように動作する。立証プロセスのタスクは、仮定のキーワードまたはキーワードの組が、未知の発声に存在しない(すなわち、提案された認識された仮定発声20は不正確である)という他の仮定に対して、仮定のキーワードまたはキーワードのセットが、未知の発声内に存在するという無効仮定をテストすることである。
【0048】
立証プロセスは、提案された仮定発声の精度を立証するために、尤度比距離計算を用いるように設計されている。本発明によれば、発声立証モデルは、ストリングレベルについて作られ(訓練され)、立証テストは、ストリングレベルについて実施される。ここで教示される発声立証は、仮定ストリング信号に対するストリングベース信用測定信号を生成するために単語信号セグメントの単語ベース信用スコアの寄与を結合する幾何学的平均化の形式を使用する。ストリングベース信用測定信号は、仮定ストリング信号のすべてまたは一部分を受け入れ、あるいは拒絶するために、しきい値信号値40(図2)に対して立証される。
【0049】
図2を参照して、立証テストモードでは、仮定された単語ストリング55は、立証部52への提供のために第1のモードスイッチ30を介して特徴抽出器28に通される。単語iの仮定されたストリング(信号55)は、認識プロセスの結果としてN個の単語{Oq }に分割される。
【0050】
立証部52は、立証のために、与えられたモデル組ΘU を利用する。立証部52は、HMMパラメーターデータベース44の現在のモデルのセットに基づいて仮定単語ストリングに基づいて信用測定信号を生成する。仮定単語ストリングは、生成された測定信号
【数1】
が、予め定義された立証しきい値信号値τ以下であれば、拒絶される。ここで、kは、負の定数であり、L(Oq ;Θ,l)は、数字(フレーム)lと認識される音声セグメントqの信用スコアを示す。従って、信用測定信号は、ストリング信号の各音声セグメントq(単語フレーム)の信用スコアの平均と数学的に関連付けられる。
【0051】
HMMベース立証モデルは、立証部52によりアクセスされて、利用されるための立証データベース44に格納されている。立証データベース44内の立証モデルΘは、3つの異なる組からなる。即ち、キーワード間の混同可能性を扱うキーワード{θ1 (k)}、と反キーワード{θ1 (a)}、及び無キーワード(無効の入力)を識別するための一般的音響フィラーモデルθ(f) である。
【0052】
音声セグメントq,L(Oq ;Θ、l)の単語ベース信用スコア34は、キーワード仮定とその競合する他の仮定の間で優度比のログ(log)を用いて構成されることができる。即ち、
【数2】
ここで、g1(Oq)=logp(Oq |θ1 (k))であり、
【数3】
従って、音声セグメントqに対する信用スコア計算は、単語モデルスコアとフィラーモデルを用いて反単語モデルで計算されたスコアの間の比較を関連づける。
【0053】
式(1)で信用測定信号si (O;Θ)を最大化する方法の1つは、Θのパラメーターが、データベース44に格納されるように訓練するために、最大尤度手続を適用することである。しかしながら、音声認識実験に基づいてこの種の訓練は、立証または認識エラーレートを最小化することについて最良の性能を与えないことが示されている。
【0054】
このため、最小ストリング分類エラー(MSCE)訓練プロセスが、認識データベース12(図1)に認識モデルを創造するために開発された。そのような音声認識訓練方法は、1つ以上の既知の音声信号と現在の認識モデルのセットとに基づいて音声認識データベースを提供するために用いられる。MSCE訓練プロセスにおいて、第1の認識装置スコア信号は、既知の音声信号と、その信号のための現在の認識モデルに基づいて生成される。混同しやすい仮定のセットは、各々既知の音声信号および別の現在の認識モデルに基づいて1つ以上の他の認識装置スコア信号を生成するために生成されて、認識装置に適用される。
【0055】
認識プロセッサは、第1の認識装置スコア信号および他の競合認識装置スコア信号に基づいて誤分類(誤認識)信号を生成する。認識モデルパラメーターは、誤認識信号に基づいて修正されて、訓練における既知の音声信号またはテスト動作における未知の音声信号を誤認識する優度を減少させる。実施例の説明と手続は、本願の所有者に譲渡された上記同時継続米国特許出願08/030,895に提供される。
【0056】
ストリングベース最小ストリング分類エラー(MSCE)訓練におけるゴールは、予期されるストリング分類エラーレートを最小化することである。対照的に、最小ストリング立証エラー(MSVE)訓練におけるゴールは、予期されるストリング立証エラーレートを最小化することである。従って、MSCEアプローチにおいて使われる数学的な戦略と採用される特定の目的関数は、最適な発声立証性能とは一致しない。
【0057】
本発明は、MSCEと同じ精神で最小ストリング立証エラー(MSVE)訓練プロセスを利用するが、HMMパラメーターデータベース44の立証モデルに対して設計されている。誤立証測定は計算されて、予期されるストリング立証エラーレートを最小化するために使用される。
【0058】
MSVE訓練は、ストリングレベルにおいて適用されて、式(1)において使われる目的関数と一致している。MSVE訓練は、予期される関数を最小化するように実行される。
【数4】
ここで、S()は、なめらかな0−1シグモイド非線形関数である。
【0059】
図3を参照して、強化された訓練器48は、ストリング誤立証測定プロセッサ56、ストリングモデル損失関数プロセッサ58、及びHMM更新プロセッサ60を具備する。強化された訓練プロセスは、目的として、式(4)について説明された予期される損失関数を最小化して、ストリング立証エラーを実質的に減少させる。好適実施例において、強化された訓練プロセスは、音声認識システムにおいて上記プロセッサにより実行される2つのプロセスステップとして実現される。
【0060】
A.ストリング誤立証測定プロセッサ。
ストリング誤立証測定プロセッサ56は、N最良ストリングモデル発生器46からHMMパラメーターΘI 、NストリングモデルSj 、および訓練音声ストリングサンプルOを受信する。ストリングサンプルO、モデルSj 、及びΘI に基づいて、誤立証プロセッサ56は、第1のプロセスステップとして、i番目の仮定ストリングdi (O;Θ)ためのストリング誤立証測定値を決定する
【数5】
ここで、si (O;Θ)は、式(1)により定義される発声ベース識別関数であり、Si(O;Θ)は、以下のように定義される反識別関数である。
【数6】
ここで、Nは、競合ストリング仮定の全体数であり、ηは、図では2に設定される正の数である。
【0061】
ストリング誤立証プロセッサ56は、図3に示される後続のプロセッサによって使用されるためのスカラーdの値を決定し、以下の間の差を説明する誤立証信号を生成する:(a)既知の仮定ストリング信号に対する現在の立証モデルと既知の仮定ストリング信号に基づく信用測定信号、および(b)その既知の仮定ストリング信号に対するN最良競合立証モデルに基づく1つ以上の他の信用測定信号の平均。
【0062】
B.ストリングモデル損失関数プロセッサ
第2のプロセスステップは、立証エラーカウントを近似する。これは、シグモイド非線形関数を用いてなされる。ストリングモデル損失関数プロセッサ58は、誤立証測定プロセッサ56から受信されるスカラー値di (O;Θ)に基づいてなめらかなストリング損失関数li (O;Θ)を評価する。この損失関数は以下のように定義される。
【数7】
ここで、αとβは、それぞれ、シグモイド非線形平滑化関数の傾きとシフトを制御する定数である。
【0063】
ストリングモデル損失関数プロセッサ58は、出力として、スカラーlを損失関数信号の形でHMM更新プロセッサ60に提供する。
【0064】
上記のパラメーターαとβは、ストリング損失関数li (O;Θ)に平滑化された近似を提供するのを助ける。ストリング損失関数の傾きは、HMM更新プロセッサ60により使用され、現在の立証モデルHMMパラメーターΘI を更新する。その傾きは、その仮定ストリング信号に対する現在の立証モードモデルに基づく既知の仮定ストリング信号の信用測定を、1つ以上の他の現在の立証モデルに基づく既知の仮定ストリング信号の信用測定に関連づける。従って、この損失関数の予期されるストリング損失の最小化は、ストリング立証エラー確率の最小化と直接結び付けられる。
【0065】
C.HMM更新プロセッサ
立証モデルパラメーター更新の説明に先立ち、HMM更新プロセッサ60の動作の背景が提供される。最小ストリング立証エラー(MSVE)訓練は、式(7)の予期される損失関数を最小化する1組のパラメーターΘを見つけることに導かれ、それはE[li (O;Θ)]として指定される。
【0066】
最小化パラメーターΘの組を見つけるために、パラメーターセットΘは、以下の式に従って、各繰り返しn毎に更新される。
【数8】
式(8)では、Θn は初期HMMパラメーターセット評価である。E[li (O;Θ)]は、予期される損失関数である。∇は、数学的導関数演算を表している。Θn+1 は、予期される損失関数E[li (O;Θ)]を最小にするHMMパラメーターセットに対する最良評価である。
【0067】
この式は、立証モデルパラメーターを調整するための勾配下降繰り返しを遂行して、予期される損失関数の最小化を達成する。ここで、εn は、繰り返しの際に使用される一連のステップサイズパラメーターあるいは学習レートであり、Vn は、以下に定義される正の有限の学習マトリクスである。
【数9】
ならば、予期される損失の静止点に収束する。
【0068】
図3の実施例では、HMMパラメーターは、HMM更新プロセッサ60により(8)に従って適応的に調整される。HMMの構造により、それらのパラメーターは、ある制約条件を満たさなければならない。HMM更新プロセッサは、すべてのそのような制約条件を満たすように、パラメーター更新プロセスの一部として、変換されたHMMパラメーターを使用する。以下の変換は、HMM更新プロセッサにより使われる。
【0069】
(1)分散の対数
【数10】
ここで、各立証モデルが、例えば単語またはサブ単語を反映する場合、σ2 i,j,k,d はi番目の立証モデル、j番目の状態、k番目の混合要素、及びd特徴ベクトルのd次元の分散である。
【0070】
(2)混合重みの変換された対数
元の混合重みCi,j,k は、次の通りに、変換された混合重みCi,j,k と関連づけられる。
【数11】
ここで、Lは、i番目の立証モデル中のj番目の状態にある混合重みの全体数である。
【0071】
(3)遷移確率の変換された対数
元の遷移確率ai,j は、以下のようにして、変換された遷移確率に関連づけられる。
【数12】
ここで、Mは、i番目の立証モデルの全体の状態数である。
【0072】
図示される実施例の重要な観点は、小さい分散を扱うことに関する。正しくなく扱われると、逆効果になるので、過去に提案されたいくつかの補正訓練アルゴリズムにおいては、分散調整は避けられていた。
【0073】
HMMの分散は、104 から106 程異なる。これらの分散は、観察確率密度関数bi 1(x)の指数項に生じ、HMMの尤度スコアの支配的な効果を持つ。図示される実施例において、これは、HMMパラメーター調整特に、HMMの観察確率密度関数の平均パラメーターの調整への異なる感度に導く。
【0074】
この巨大な感度の差を補償するために、実施例は、正の有限のマトリクスVn を使用する。正の有限のマトリクスVnは、各状態に対して、
【数13】
である対角マトリクスである。ここで、σ2(n)は、時間nにおけるHMMΘIの分散である。
【0075】
図4は、HMM更新プロセッサ60のブロック図を示す。図に示すように、HMM更新プロセッサ60は、ΘI 、O、lに基づいて、パラメーターμ、σ2 、c、aを更新し、HMMパラメーターデータベース44に更新されたΘU を戻す。ΘI とΘU は、パラメーターμ、σ2 、c、aからなり、ΘI とΘU は、それぞれ更新されない、及び更新された量を表している。
【0076】
最小ストリング立証エラー訓練では、式(8)に示されるモデルパラメーターを更新することは、損失関数∇の導関数を見つけることを含んでいる。項∂l/∂Θは、各モデルパラメーターに対して特に計算され、目下のHMMがキーワードモデルか、反キーワードモデル、またはフィラーモデルであるかに依存して異なっている。このステップは、導関数∂l/∂Θが全てのモデルに共通であれば、最小ストリング分類エラー訓練において使われるものとは異なっている。
【0077】
MSVEでは、∂l/∂Θは、項∂l/∂Lが全ての立証モデルに共通であれば、∂l/∂Θ=∂l/∂L・∂L/∂Θのようなチェーン規則として書かれることができる。∂l/∂Lは、以下の部分導関数からなる。
【数14】
【0078】
導関数∂L/∂eは、更新されたモデルがキーワードΘ(k) であるか、反キーワードΘ(a) 、またはフィラーモデルΘ(f) であるかに依存して異なる。
Θ(k)では、
【数15】
Θ(a)では、
【数16】
Θ(f)では、
【数17】
【0079】
項∂p()/∂Θは、全ての立証モデルに共通であり、更新されたモデルの特定のパラメーターだけが異なる。この確率p()は、以下のように定義される。
【数18】
【0080】
HMM更新プロセッサ60により提供されるパラメーター更新は以下の通りである。
(1)平均更新
【数19】
ここで、Onn(d)は、特徴ベクトルOnnのd次元要素であり、ωj は、最適パスが最初に状態jに入るタイムフレームに対応し、ωj+1 は、最適パスが状態j+1に入るタイムフレームに対応し、l(O,Θ)は(7)に従って構成されている損失関数であり、εn はステップサイズで有り、
【数20】
ここで、Dは特徴ベクトルの次元である。平均更新は、図4のブロック62により提供される。
【0081】
(2)分散更新
σ2 =logσ2 の更新は、以下の公式に従って行われる。
【数21】
ここで、Yi,j,k (Onn)は、(14)に示されるように定義される。従って、時間N+1における分散は以下の通りである。
【数22】
分散は、10−6で下にクリップされ、制約条件σi,j,k,d 2(n)>10−6を満足する。分散更新は、図4のブロック64により提供される。
【0082】
(3)混合重み更新
パラメーター化された混合重みは、以下の式(17)に従って調整される。
【数23】
従って、時間n+1における混合重みは、式(18)により与えられる。
【数24】
従って、調整された混合重みは、本発明の訓練プロセスの間に以下の制約条件に合致する。
Σk Ci,j,k (n)=1とCi、j、k (n)>0
混合重み更新は、図4のブロック66により提供される。
【0083】
(4)状態遷移確率更新
左から右へのHMMにおいて、l番目の単語モデルのパラメーター化された遷移確率は以下のように調整される。
【数25】
ここで、gl はl番目の立証モデルのOの尤度スコアであり、iは終了状態であり、状態i内の自己遷移の全体数は以下の式により示される。
【数26】
結論として、時間(n+1)における遷移確率は、以下のように与えられる。
【数27】
これはまた、Σj al i,j(n)=1、al i,i>0と、al i,i+1>0の制約条件を満足する。状態遷移確率更新は図4のブロック68により提供される。
【0084】
HMM更新プロセッサ60により計算された更新表現(15−18)は、式(22)に従って、j番目の状態のi番目の立証モデルの更新された観察確率密度関数と関係付けられる。
【数28】
ここで、ci,j,k は混合重みであり、N(O,μi,j,k ,Vi,j,k )は、i番目の認識ユニットモデル、j番目の状態、対角共分散マトリクスVi,j,k とのk番目の混合のD次元の通常のガウス分布である。ブロック62、64、66から出力されるのμ(n+1)、σ2 (n+1)及びc(n+1)の値は、ブロック68により提供される状態遷移確率a(n+1)に対する値と共に、HMMパラメーターデータベース44に戻される。図4に例示するように、ΘU は、μ、σ2 、c及びaのための更新された値を具備する。
【0085】
上に提供されるHMMパラメーター更新のための表現は、HMMパラメーターデータベース44からの単一音声訓練ストリング信号の使用を関連づけHMMパラメーターを強化する。しかしながら、HMMパラメーターを改善するために、強化された訓練器48が複数回繰り返される。例えば、強化された訓練器48は、完全なHMMパラメーターデータベースを通るいくつかのパスまたは繰返し動作してもよい。強化された訓練器は、いくつかの方法のうちの処理サンプルを止めるようにされてもよい。例えば、強化された訓練器48は、サンプルのHMMパラメーターデータベースを通って固定数の繰返しが行われるときには、停止してもよい。強化された訓練器は、現在の繰返しの全ての音声訓練ストリング信号を処理するため、ストリング立証エラーレートの増加的改良の記録も維持し得る。増分的改良がしきい値以下に落ちるとき、処理は停止してもよい(図4の70、及びSTOP信号を参照)。
【0086】
MSVE訓練は、実行され、好適音声認識システム実施例に適用されることができ、サブ単語特定キーワードおよび反キーワードのモデルパラメーターを設計する。各訓練では、式(1)により定義された識別関数Si (O;Θ)が、現在の立証モデルに基づいて既知の仮定ストリング信号のための信用測定信号値に設定され、式(6)により定義される反識別関数Si (O;Θ)は、N最良ストリング仮定を用いて1つ以上の競合ストリングモデルに基づいて既知の仮定ストリング信号に対する信用測定信号値により近似される。誤立証測定信号は、式(5)におけるように決定される。訓練場に対する誤立証測定と信用測定信号値の分布は、メモリーに記録されて、臨界しきい値を決定するために利用される。
【0087】
発声立証システムの性能は、適切な臨界しきい値の選択により強化できる。しきい値は、最小合計エラーレートを得るか、または誤り拒絶エラー(タイプI)が誤り受け入れエラー(タイプII)に等しくなる等しいエラーレートを達成するために、あらかじめ決められた基準に従ってセットできる。立証しきい値は、誤り拒絶エラー(タイプI)と誤り受け入れエラー(タイプII)の間に望ましいトレードオフを得るために初めに設定されてもよい。各エラーレートは、訓練データとテストデータの間の環境の不均衡によりもたらされるかもしれない。環境の不均衡は、異なるアクセントをもつ異なる話者、または異なる周辺ノイズも含んでいる。
【0088】
タイプIとタイプIIのエラーの両方のための等しい立証エラーレートは、本発明の音声認識システムにより達成できる。しかしながら、等しいエラーレートは、異なる選択されたしきい値信号値に対して変わることができる。異なる選択されたしきい値において、タイプIエラーレートは、タイプIIエラーレートより高いか、またはより低いに違いない。従って、特定の環境条件の下での仮定単語ストリング信号の立証を実行するための演算しきい値信号値は、異なる環境条件に対して適切ではないかもしれない。
【0089】
タイプIとタイプIIに対する異なるエラーレートは、商業的アプリケーションにおいて有利であるかもしれず、それでは誤り拒絶エラーが誤り受け入れエラーより有害であるかもしれず、あるいは逆もまた同様かもしれない。本発明は、タイプIとタイプII間の望ましいトレードオフを維持するために、立証プロセッサにより生成される信用測定信号の臨界しきい値値を調整するためのメカニズムを提供する。
【0090】
本発明によるしきい値適応化技術は、既知の仮定ストリング信号に応答して生成される信用測定信号値を利用して、立証しきい値信号値を適応化する。しきい値動作点は、仮定ストリング信号のグループが利用可能になるにつれて、調整される。(式(1)からの)信用測定信号値の分布は、図5に示されるように、正しい仮定ストリング信号72のクラスと正しくない仮定ストリング信号74のために記録される。右の分布72は、単語ストリングが妥当で、正しく(認識されている)分類されているとき発生される信用測定信号を提供する。左の分布74は、無効の単語ストリング、および間違って認識されていた他のストリングに対して生成された信用測定信号を提供する。
【0091】
2つの分布72と74は、同様な形を持ち、2つの分布の分散はほとんど等しい。この特徴は、しきい値適応化を実行するために、ここで教示されるように、利用される。
【0092】
O⊂CであるようにXH0をS(O;Θ)の平均信用測定信号値に対応させ、XH1を要素Oが集合Cに属さないように平均信用測定信号値S(O;Θ)に対応させる。ここで、Cは正しく認識された仮定ストリング信号である。等しいエラーレートあるいは最小全体エラーレートを達成するために、両方の分布に対して等しい分散を仮定して、臨界しきい値τS は、
【数29】
におかれる。
【0093】
しきい値適応化は、演算立証テストの間に2つの分布の間にτを位置決めし、XH0−τS ≠τS −XH1のときτS の値を調整するように導かれる。実際、システムが走っている間に2つの分布の実際の瞬間的平均を決定することは難しい。結果として、立証処理は、XHOとXH1に対するある初期評価値で開始される。これらの値は、十分な数のストリング(”R”)が受信され、τS が適応化されることができる度毎に、調整される。このプロセスは次の通りに実行される。
【0094】
ストリング信用測定信号値の数Rを用いて、XHOとXH1の値は、評価され、以下のエラー測定を計算するために使用される。
【数30】
図5に示される分布72と74の長い末部のために平均をバイアスすることを回避するために、あらかじめ定義された最大と最小のしきい値を越える信用測定は、クリップされる。さらに、エラー関数は、以下の形のシフトされたシグモイドを用いて、平滑化される。
【数31】
ここで、α1 は、平滑化の程度を決定し、0.1に設定された。nストリングを処理した後の臨界しきい値τS (n)は、以下のように更新される。
【数32】
ここで、B1はステップサイズであり、ΔτS (n)=τS(n)−τS (n−1)。適応の間に、τS の値はτS (0)±2を越えることは許されない。
【0095】
本発明による立証しきい値の適応化の間に、ストリングは、平均を評価するために等しく、十分な情報を確保するために、ランダムな認識と立証命令のために提供される。臨界しきい値は、最初、最小のエラーレート点に設定され、20ストリング毎(即ち、R=20)に調整され、各分布の平均を計算するために十分な、しかし最小の数のストリングの利用可能性を確保する。立証しきい値信号値を調整するこの方法は、適応化の前後でタイプIとタイプIIのエラーレートの前選択と維持のために提供する。
【0096】
話者独立電話ベースの接続される数字データベースは、本発明による実験的な訓練と動作上のテストの際に使用された。1から16桁の長さの範囲の数字ストリングは、異なるフィールドトライアルでのコレクションから抽出された。フィールドトライアルでのコレクションは、異なる環境条件と音響トランスデューサー機器を表した。
【0097】
訓練セットは、16089数字ストリングから構成された。テストセットは、27702数字ストリングから成っていた。発生の約22%は、語彙外の単語、誤り開始、および重要な背景ノイズを含んでいた。3000の音声学上の豊かな文からなる別のデータベースが、フィラーモデルを訓練するために提供された。立証結果は、99%を越える正確な拒絶であった。
【0098】
上記から、本発明は、発生立証のためのストリングベース最小立証エラー訓練プロセスを提供することは明らかである。立証プロセッサモデルを訓練することへの識別的なアプローチは、発声立証のために使われた目的関数と一致し、予期されるストリング立証エラーレートを最小化することに直接関連する。
【0099】
上記の観点で、本発明は話者依存及び話者独立の音声認識の両方に適用可能であることは当業者には明らかであろう。音声認識の文脈の中で説明されたが、モデルを訓練するために使用される技術は、一般にパターン認識にも適用可能であることも更に明らかであろう。
【0100】
上記実施例は、単に図示されたに過ぎず、特許請求の範囲の記載に基づいて定義される本発明の範囲から離れることなく、当業者により種々の変形がなされることができることは理解されよう。
【図面の簡単な説明】
【図1】本発明によるHMMベース音声認識システムを示す図である。
【図2】図1のHMMベース音声認識システムの立証部の詳細な図である。
【図3】図2の強化された訓練器を示す図である。
【図4】図3の強化された訓練器のHMM更新プロセッサを示す図である。
【図5】立証しきい値信号値決定のための信用測定信号値分布を示す図である。
【符号の説明】
26 訓練音声データベース
28 特徴抽出器
30 第1のモードスイッチ
32 第2のモードスイッチ
34 スコア計算器
36 平均単語ベース信用スコアプロセッサ
38 ストリングベース信用測定信号発生器
40 しきい値比較器
42 従来のHMM訓練器
44 立証データベース
46 N最良ストリングモデル発生器
48 強化された訓練器
50 システムの訓練部
52 システムの立証部
【発明の属する技術分野】
本発明は、一般的に音声認識と立証の分野に関し、特に、音声立証訓練の分野に関する。
【0002】
【従来の技術】
音声認識は、未知の話された発声が識別されるプロセスである。訓練として知られているプロセスを通して、知られている単語または単語ストリングがテストされ、単語または単語ストリングの特徴は音声認識装置メモリー内の認識モデルとしてサンプリングされて、記録される。認識モデルは、知られている発声の典型的な音響的解釈を表している。訓練プロセスにおいて、訓練アルゴリズムが認識モデルに適用され、将来の未知の単語および単語のストリングを認識するために利用されるこれらの格納された表現を形成する。
【0003】
動作において、音声認識装置は未知の発声を受信し、未知の発声を認識するために、未知の発声から特徴を抽出する。未知の発声の抽出された特徴は、テストパターンとして参照される。
【0004】
認識装置は、その後、未知の発声のためのテストパターンとメモリー内の1つ以上の認識モデルの組合せとを比較する。認識モデルの各組合せがテストパターンとどれほどよくマッチするかの相対的な測定を提供するために、スコアをカウントする技術が用いられる。未知の発声と最もはっきりとマッチする1つ以上の認識プロセッサモデルの組合せと関連する単語として未知の発声は認識される。
【0005】
従来の音声認識の実際では、音声認識モデル化とモデル訓練のために妥当な可能性またはクラスの数「N」が利用された。そのようなN−クラスモデルにおいては、認識されるべきすべての発声入力は妥当であると仮定される。「N」個の存在可能なクラスの各々に対する認識モデルは、認識装置メモリーに格納されている。妥当であるかどうかにかかわらず、認識されるべき全ての音声入力は、Nクラスのうちの1つとして分類される。認識装置は、N個のモデルの各々に対する発声のスコアを計算し、発声を、最もよいスコアを持つ(N個のクラスの内の)あるクラスにマッチさせる。
【0006】
付加的な、または「N+1」のクラスの概念が、N個の妥当なクラスの認識に加えて、(「フィラー」モデルと指定される)関連したN+1モデルを提供するように開発されている。そのようなシステムにおいては、認識されるべき入力発声がN個の妥当なクラスの入力に対するN個のモデルの各々に対して、また付加的に、N+1フィラークラスモデルに対して、スコアが数えられる。N+1モデルは、すべての無効の入力を表すように設計されている。N+1フィラーモデルの使用により、認識プロセスはさらに洗練され、入力発声または入力発声のセグメントが妥当ではないかもしれないことを考慮するようになった。
【0007】
いったん未知の発声が音声認識プロセスによって分類されると、音声認識装置によりなされる分類決定の確実性を評価することがしばしば、望ましい。これは、2パスプロセスにより達成され、未知の発声は最初にN個の可能な妥当なクラスを表すN個のモデルに対してそれのスコアを数えることにより認識される(分類される)。最もよいスコアを提供する認識モデルは、その関連したクラスにマッチされ、それは、後で立証されるべき仮定発声として認識される。仮定認識発声は、その後、フィラー立証モデルに対して第2のパスにおいて立証され、そのモデルは、上述のN+1認識フィラーモデルと同様であるはずである。
【0008】
2パス音声認識プロセスは、未知の発声の認識を可能にし、続いて、システムが認識決定についてどれほど信用できるかの計算される判定が続く。例えば、認識装置は未知の発声を特定の単語として分類し、立証器は、フィラーモデルを使って分類が正しいことを示す。立証器は、認識装置が適切に分類したかどうかにかかわらず、立証器は、2進の決定、「はい」、または「いいえ」を作成するために使用される。
【0009】
発声立証は音声認識システム開発の重要な観点を表している。発声立証は、計算された信用スコアに基づいて全体の発声のうちの拒絶する部分またはすべてを含んでいる。信用スコアは、尤度比距離に基づくことができ、それは、単語が音声のあるセグメント中に存在するかどうかをテストする。尤度比距離は、発声が妥当な単語なしでなされ、認識される発声が乏しい状況で、あるいは重要な混乱が高いエラーレートを発生する単語間に存在するとき、特に有益である。
【0010】
音声認識システムの文脈での発声立証の成功した性能は、立証モデルを訓練するために用いられる技術の有効性と密接に関連し、そのモデルは立証プロセスにおいて使用される。従来の訓練方法には欠陥が存在し、それは、訓練と立証エラーレートの間の直接的な関係の不足に起因している。立証エラーレートを直接最小化する訓練方法を見つけることが、目下の問題である。
【0011】
【発明の概要】
音声認識技術の進歩が、本発明により提供され、それでは、接続された単語のストリングを認識するために2つのパスの認識と立証戦略を採用する。本発明の図示される実施例によれば、音声認識システムは、認識プロセッサを具備するか、または仮定ストリングを生成し、未知の接続された単語の音響的入力ストリングに基づいて接続された単語の仮定ストリングを発生するための認識プロセッサと、接続された単語の仮定ストリングに応答するストリングベース信用測定信号を生成する立証プロセッサとを具備する。認識データベースは、認識プロセッサによって使用される認識モデルを格納する。立証データベースは、立証プロセッサによって使用される立証モデルを格納する。
【0012】
第1のパスでの認識は、隠れマルコフモデルのセットを使用して従来のビタービ(Viterbi) ビームサーチアルゴリズムで実行され、そのモデルは、ストリング分類エラーを最小化するように訓練されている。第2のパスでの発声立証は、本発明による最小ストリング立証エラー(MSVE)訓練プロセスで訓練された隠れマルコフモデルのセットを使用して、仮定認識ストリングを立証するために実行される。
【0013】
立証エラーを最小限にするために立証データベースに格納された立証モデルを訓練する方法が利用される。訓練方法は、予期されるストリング立証エラーを計算し、最小化することを含んでいる。
【0014】
訓練プロセスにおいて、最初に、立証データベースの立証モデルが初期設定される。既知の仮定ストリングが選ばれる。立証プロセッサは、既知の仮定ストリングのための現在の立証モデルに基づいて第1のストリングベース信用測定信号を生成する。
【0015】
既知の仮定ストリングのための現在の立証モデルと混同するほど似た1つ以上の競合ストリングモデルが生成される。1つ以上の競合ストリングモデルは立証プロセッサに提供され、それは、既知の仮定ストリングと1つ以上の競合ストリングモデルに基づいて1つ以上のストリングベース信用測定信号を生成する。
【0016】
誤立証信号は、既知の仮定ストリングのための第1のストリングベース信用測定信号に基づいて立証プロセッサにより生成され、1つ以上の競合ストリングモデルに基づいてストリングベース信用測定信号が生成される。誤立証信号に基づく損失関数信号は、その既知の仮定ストリングのための現在の立証モデルに基づく既知の仮定ストリングの立証を、1つ以上の他の競合立証モデルをもつ既知の仮定ストリングの立証に関係づける勾配に提供する。勾配決定は、損失関数信号の導関数を利用して達成される。
【0017】
立証モデルは、未知の仮定ストリングを誤立証する尤度を最小化するために更新される。更新プロセスは、予期される損失関数信号を評価し、立証エラーの尤度を最小化するために、評価される損失関数信号に応答する立証モデルを繰り返し調整する。
【0018】
本発明の音声認識システムは、立証プロセッサにより生成される信用測定信号を立証するために最適立証しきい値信号値を生成するように動作させられることができる。立証しきい値信号値は、仮定認識ストリングを拒絶する決定のための基礎を提供し、立証エラーレートを維持するように選ばれる。
【0019】
既知の仮定ストリングは、立証プロセッサに入力され、それは、立証データベースに格納された立証モデルをアクセスするように結合されている。1つ以上の競合ストリングモデルが既知の仮定ストリングに基づいて生成される。1つ以上の競合ストリングモデルは立証プロセッサに提供される。
【0020】
立証プロセッサは、予め選択された数の場に対して、既知の仮定ストリングのための現在の立証モデルに基づいて第1のストリングベース信用測定信号を生成し、既知の仮定ストリングに基づいて1つ以上の競合ストリングモデルのうちの各々に対するストリングベース信用測定信号を生成するように動作させられる。既知の仮定ストリングに対する現在の立証モデルに基づくストリングベース信用測定信号値の第1の分布は記録される。既知の仮定ストリングに対するストリングベース信用測定信号値の第2の分布と競合モデルは記録される。立証しきい値信号値は、第1の平均と第2の平均とに基づいて選択され、調整される。
【0021】
ここに、教示される技術は、ストリング立証エラーレートを最小化することと直接関連する。
本発明の他の目的、利点、および顕著な特徴は、本発明の好適実施例を開示し、添付図面と関連してなされる以下の詳細な説明から明らかとなるであろう
【0022】
【発明の実施の形態】
説明の明瞭化のために、本発明の図示される実施例は、(「プロセッサ」とラベルされた機能ブロックを含めて)個々の機能ブロックを具備するとして提供される。これらのブロックが表している機能は、それに制限されないが、ソフトウェアを実行可能なハードウェアを含めて、共有されたまたは専用とされたハードウェアのいずれかの使用によって提供される。例えば、図1から図4において提供されるプロセッサの機能は、単一な共有プロセッサによって提供されても良い。(ソフトウェアを実行可能なハードウェアを排他的に参照するように、用語「プロセッサ」の使用が解釈されるべきでない。)
【0023】
図示される実施例は、AT&T DSP16またはDSP32Cなどのデジタル・シグナル・プロセッサ(DSP)ハードウェア、下で議論される動作を実行するソフトウェアを格納するためのリード・オンリー・メモリ(ROM)、DSP結果を格納するためのランダム・アクセス・メモリ(RAM)を具備する。汎用DSP回路と組合せてのカスタムVLSI回路だけでなく、超大規模集積(VLSI)ハードウェア実施例が、また提供されてもよい。
【0024】
図1は、HMMベース音声認識システムの文脈の一般的説明の目的のために本発明の図示される実施例を提供する。音声認識システム8は、認識プロセッサ10、別個の隠れマルコフモデル(”HMM”)認識モデルのセットを含む認識データベース12、立証プロセッサ14および別個のHMM立証モデルのセットを含む立証データベース16を具備する。
【0025】
認識プロセッサは、単語の未知の音声ストリング18(発声)を入力として受信する。認識プロセッサ10は、未知の音声ストリング18入力に応答して認識データベース12をアクセスし、未知の単語ストリングを分類して、仮定認識ストリング信号を生成するために、認識データベース12の認識モデルに対する未知の単語音声ストリングのスコアを数える。立証プロセッサは、仮定ストリング信号20を、立証されるべき入力として受信する。立証プロセッサ14は、立証データベース16をアクセスして、立証データベースに格納されている立証モデルに対する仮定ストリング信号をテストする。立証テストに基づいて、立証プロセッサ14は、信用測定信号22を測定して、測定された信号値を生成する。測定された信号値は、立証しきい値信号値に対して比較されるべきしきい値コンパレーター24に通され、認識プロセッサ10によりなされた分類決定の精度を決定する。
【0026】
図2は、音声認識システム8の立証訓練およびテストプロセスを説明するためのより詳細な図を提供する。図2を参照して、音声認識システムは、訓練音声データベース26、特徴抽出器28、第1のモードスイッチ30、第2のモードスイッチ32、単語ベース信用スコア計算器34、平均単語ベース信用スコアプロセッサ36、ストリングベース信用測定信号発生器38、しきい値比較器40、従来のHMM訓練器42、HMMパラメーターデータベース44、N最良ストリングモデル発生器46、および強化された訓練器48を具備する。
【0027】
訓練音声データベース26は、デジタル形式での既知の音声信号のサンプルを具備する。各音声信号は、1語以上の話された単語のストリングに対応する。これらのサンプルは従来の訓練器42と強化された訓練器48のためにそれぞれ使われる。訓練音声データベース26からの既知の音声ストリングのサンプルは、第1のモードスイッチ30を介してシステムの他の構成要素に提供される。
【0028】
第1のモードスイッチ30は、システムの2つの動作モードを反映する:訓練(T)モードとテストのための立証(V)モードである。第1のモードスイッチ30が(図示のように)T位置にあるとき、訓練データベース26からの訓練ストリング信号は、訓練がシステムの訓練部50によって実行できるように、システムのバランスに提供される。第1のモードスイッチがV位置にあるとき、デジタル形式の仮定認識音声ストリング信号が、システムの立証部52により立証のためにシステムのバランスに提供される。
【0029】
システムの特徴抽出器28は、第1のモードスイッチ30に結合されている。第1のモードスイッチの状態に依存して、特徴抽出器28は、訓練ストリング信号または仮定音声ストリング信号を受信する。これらの受信ストリング信号に基づいて、特徴抽出器は、立証または訓練の目的でストリング信号を特徴付ける1つ以上の特徴ベクトルOを作成する。
【0030】
特徴抽出器からの特徴ベクトル出力は、第2のモードスイッチ32に提供される。第2のモードスイッチは、第1のモードスイッチとタンデム形式で動作する。すなわち、両方のスイッチは、両方のスイッチに提供されるモード信号54に基づいて、同時に同じ状態(TまたはV)にセットされる。第2のモードスイッチ32は、特徴抽出器28の出力をシステムの立証部52または訓練部50に向ける。
【0031】
システムの立証部52は、認識プロセッサ10によりなされた認識決定をテストするために選択されることができる(図1)。図2に示される立証部52は、単語ベース信用スコア計算器34、平均単語ベース信用スコアプロセッサ36、およびストリングベース信用測定信号発生器38を具備する。
【0032】
特徴抽出器28は、一連のフレーム特徴ベクトルを出力する。特徴ベクトルのフレームに基づく単語信号は、単語ベース信用スコア計算器34に提供される。単語ベース信用スコア計算器は、離散的な単語信号について計算を実行する。単語ベース信用スコア計算器34は、1つ以上の立証モデル(この場合隠れマルコフモデル「HMM」)のストリングを、仮定認識音声ストリング信号の各単語信号にマッチさせる。信用スコア計算器34は、仮定ストリング信号の各単語信号に対して単語ベース信用スコアを生成する。ストリングの各単語セグメントに対して計算される単語ベース信用スコアは、信用のレベルを示し、それは、仮定ストリングの各特定の単語が正しく認識され、音声認識システムに提供された入力発声の単語に正確に対応しているレベルである。
【0033】
平均単語ベース信用スコアプロセッサ36は、仮定ストリング信号の各単語セグメント信号に対して生成される単語ベース信用スコアのセットについて算術平均演算を実行して、平均単語ベース信用スコア信号を生成するための手段を提供する。平均信用スコア信号は、ストリングベース信用測定信号発生器38に通される。
【0034】
ストリングベース信用測定信号発生器38は、平均信用スコア信号を受信するように結合されていて、ストリングベース信用測定信号を測定して、測定された信号値を生成するように応答する。ストリングベース信用測定信号の測定された信号値は、立証テスト結果を具体化し、立証プロセッサに提供される仮定ストリング信号が実際の話された単語ストリングを正確に表しているという信用度の測定を提供する。
【0035】
立証プロセッサに提供される仮定(の)認識(される)音声ストリング信号が音声認識システムに元々入力される未知の音声単語ストリングであることを立証するために、信用測定信号の測定された信号値は、立証しきい値信号値40と比較される。この測定された信号値がしきい値信号値以下ならば、仮定ストリング信号は、実際の話された入力発声を間違って表しているとして拒絶される。すなわち、立証プロセッサに提供される仮定ストリング信号は立証されることができないであろう。
【0036】
システムの訓練部50は、従来のHMM訓練器42、HMMパラメーターデータベース44、N最良ストリングモデル発生器46、および強化された訓練器48を具備する。従来のHMM訓練器42は、米国特許番号4,783,804により説明されるようであり、HMMの従来の訓練を提供する。従来の訓練器の出力は、HMMのセットが基づく訓練音声ストリングの特徴ベクトルOだけでなく、1つ以上の従来のように訓練された複数のHMMの組ΘI を具備する。従来の訓練器42の出力は、初期化パラメーターとしてN最良ストリング発生器46および強化された訓練器48による使用のためにHMMパラメーターデータベース44に記録される。
【0037】
強化された訓練器48は、初期のパラメーターΘI を受信して、HMMパラメーターデータベースに強化されたまたは更新されたHMMのセットΘU を戻す。強化されたモデルΘU は、最終的に、立証モード処理の間に単語ベース信用スコア計算器34に提供される。従来のように訓練されたHMMΘI よりもむしろ強化されたHMMΘU の単語ベース信用スコア計算器の使用は、ストリング立証エラーレートの減少を達成するために提供される。
【0038】
N最良ストリングモデル発生器46は、HMMパラメーターデータベース44から、隠れマルコフモデル(HMM)パラメーターΘX と訓練音声ストリングOを受信するように結合されている。N最良ストリングモデル発生器46は、ストリングモデルのセットを生成するように動作し、そのモデルは、仮定認識ストリング信号のための現在の立証モデルと高度に競合する。これらの競合するストリングモデルは、強化された訓練器48の区別的な訓練のための基礎を提供する。即ち、立証プロセッサへの正しい仮定ストリング信号入力が立証プロセッサに極めて高い信用測定信号を生成させるように、また、間違った仮定ストリング入力は、立証プロセッサに低い信用測定信号を生成させるように、立証モデルを訓練するためである。
【0039】
N最良ストリング発生器46は、”N”個の最良の(競合する)単語ストリングと、各そのような単語ストリングのための最良のHMM立証モデル列とを決定することにより、”N”個の最良の(あるいは最も競合する)単語ストリングを発生する。N最良単語ストリングの決定は、修正されたビタービデコーダーのDSP実行の使用によってなされる。
【0040】
修正されたビタービデコーダは、部分的なパスマップ、即ち瞬間毎にいずれかの文法ノード(即ち単語の結合点)に通じるすべての部分的なパスのすべてのスコアのリスト(または、マトリクス)を準備する。その後、修正されたビタービ前検索の終了時に、デコーダは、当業界でよく知られたA*トレースバックツリー検索を使用する。発生器は、「スタック」(位付けられたデータリスト)の先頭にある先頭(ベスト)部分的パスを育てることによりツリー検索を実行する。スタック上のすべての部分的パスの位付けは、完了されるときに部分的パスが達成できる最良の可能なスコアにより決定される。ビタービ前検索において準備される部分的パスマップは、後方ツリー検索においていかなる不完全な部分的パスに対してもスコアを提供する。A*手続の「最良が1番」という性質のため、先頭のNストリングは逐次生成される。
【0041】
スタック深さがいずれの検索エラーも回避するように十分に深いとすると、A*アルゴリズムの許容性、または最適なパスの確実な発見は、部分的なパスの不完全な部分の上限がスタックデコーダーとして使用されるときに保証される。ツリートレリス手順において、同じHMMが両方向に沿っての検索において使われれば、最もしっかりとした上限、あるいはそのパスの実際のスコアが得られる。
【0042】
発生器は、N最良ストリングリスト中の各単語ストリングに対するモデルのセットに対して入力音声ストリングOのビタービ整列によりN最良単語ストリングに基づいてN最良ストリングモデルを生成する。このステップは、同じ単語ストリングに対応する多くのストリングモデルが存在するかもしれないので、発生器により実行される、しかし、あるモデルのセットに対する入力発声に最もよくマッチするストリングモデルは独特である。
【0043】
発生器が、未知の競合ストリングをモデル化する能力を提供することに注意すべきである。これは、N最良デコーディングによって生成される競合する単語ストリングモデルが、訓練資料により制限されないという事実に起因している。N最良ストリングリストは、動的で、音声立証モデルの組に基づいてストリングレベル音響分解能を反映する。
【0044】
従って、HMMパラメーターデータベース44の基礎的な立証モデルは、N最良ストリングモデル発生器(一種の音声認識装置)により生成されるストリングモデルにより訓練される。生成されたストリングモデルは、元の訓練資料に無い単語ストリングに基づくことができるが、認識装置が、既知の仮定ストリング信号と混同してそれを見つける。認識装置が既知の仮定ストリング信号と混同して見つけるこれらの知られていない競合単語ストリングは、そのような知られていない混同しやすい同様なストリングに対する立証モデル化を改善するように識別的にモデル化される。(正しいストリングと混同されそうである)知られていないストリングを識別するための基礎を提供するように立証モデルを準備するモデル化は、訓練資料の貧しいストリング範囲によりそのようなモデル化が連続的な音声認識と立証において遭遇する困難さを減少させるので、有益である。
【0045】
N最良ストリングモデル発生器の動作は、同時継続の米国特許出願番号08/030,895に詳細に説明されており、それは本願の所有者に譲渡され、ここにそれに述べられているまま引用により組み込まれる。
【0046】
最小ストリング立証エラーレート訓練では、N最良ストリングモデルは、ストリングエラーを表し、減らすために特に設計されている識別関数のセットに組み込まれる。これは、以下に説明するように、強化された訓練器48の動作によりなされる。
【0047】
発声立証プロセッサ14(図1)は、仮定ストリング信号という形で提案された仮定認識発声を立証するために、統計的仮定テストを公式化し、適用するように動作する。立証プロセスのタスクは、仮定のキーワードまたはキーワードの組が、未知の発声に存在しない(すなわち、提案された認識された仮定発声20は不正確である)という他の仮定に対して、仮定のキーワードまたはキーワードのセットが、未知の発声内に存在するという無効仮定をテストすることである。
【0048】
立証プロセスは、提案された仮定発声の精度を立証するために、尤度比距離計算を用いるように設計されている。本発明によれば、発声立証モデルは、ストリングレベルについて作られ(訓練され)、立証テストは、ストリングレベルについて実施される。ここで教示される発声立証は、仮定ストリング信号に対するストリングベース信用測定信号を生成するために単語信号セグメントの単語ベース信用スコアの寄与を結合する幾何学的平均化の形式を使用する。ストリングベース信用測定信号は、仮定ストリング信号のすべてまたは一部分を受け入れ、あるいは拒絶するために、しきい値信号値40(図2)に対して立証される。
【0049】
図2を参照して、立証テストモードでは、仮定された単語ストリング55は、立証部52への提供のために第1のモードスイッチ30を介して特徴抽出器28に通される。単語iの仮定されたストリング(信号55)は、認識プロセスの結果としてN個の単語{Oq }に分割される。
【0050】
立証部52は、立証のために、与えられたモデル組ΘU を利用する。立証部52は、HMMパラメーターデータベース44の現在のモデルのセットに基づいて仮定単語ストリングに基づいて信用測定信号を生成する。仮定単語ストリングは、生成された測定信号
【数1】
が、予め定義された立証しきい値信号値τ以下であれば、拒絶される。ここで、kは、負の定数であり、L(Oq ;Θ,l)は、数字(フレーム)lと認識される音声セグメントqの信用スコアを示す。従って、信用測定信号は、ストリング信号の各音声セグメントq(単語フレーム)の信用スコアの平均と数学的に関連付けられる。
【0051】
HMMベース立証モデルは、立証部52によりアクセスされて、利用されるための立証データベース44に格納されている。立証データベース44内の立証モデルΘは、3つの異なる組からなる。即ち、キーワード間の混同可能性を扱うキーワード{θ1 (k)}、と反キーワード{θ1 (a)}、及び無キーワード(無効の入力)を識別するための一般的音響フィラーモデルθ(f) である。
【0052】
音声セグメントq,L(Oq ;Θ、l)の単語ベース信用スコア34は、キーワード仮定とその競合する他の仮定の間で優度比のログ(log)を用いて構成されることができる。即ち、
【数2】
ここで、g1(Oq)=logp(Oq |θ1 (k))であり、
【数3】
従って、音声セグメントqに対する信用スコア計算は、単語モデルスコアとフィラーモデルを用いて反単語モデルで計算されたスコアの間の比較を関連づける。
【0053】
式(1)で信用測定信号si (O;Θ)を最大化する方法の1つは、Θのパラメーターが、データベース44に格納されるように訓練するために、最大尤度手続を適用することである。しかしながら、音声認識実験に基づいてこの種の訓練は、立証または認識エラーレートを最小化することについて最良の性能を与えないことが示されている。
【0054】
このため、最小ストリング分類エラー(MSCE)訓練プロセスが、認識データベース12(図1)に認識モデルを創造するために開発された。そのような音声認識訓練方法は、1つ以上の既知の音声信号と現在の認識モデルのセットとに基づいて音声認識データベースを提供するために用いられる。MSCE訓練プロセスにおいて、第1の認識装置スコア信号は、既知の音声信号と、その信号のための現在の認識モデルに基づいて生成される。混同しやすい仮定のセットは、各々既知の音声信号および別の現在の認識モデルに基づいて1つ以上の他の認識装置スコア信号を生成するために生成されて、認識装置に適用される。
【0055】
認識プロセッサは、第1の認識装置スコア信号および他の競合認識装置スコア信号に基づいて誤分類(誤認識)信号を生成する。認識モデルパラメーターは、誤認識信号に基づいて修正されて、訓練における既知の音声信号またはテスト動作における未知の音声信号を誤認識する優度を減少させる。実施例の説明と手続は、本願の所有者に譲渡された上記同時継続米国特許出願08/030,895に提供される。
【0056】
ストリングベース最小ストリング分類エラー(MSCE)訓練におけるゴールは、予期されるストリング分類エラーレートを最小化することである。対照的に、最小ストリング立証エラー(MSVE)訓練におけるゴールは、予期されるストリング立証エラーレートを最小化することである。従って、MSCEアプローチにおいて使われる数学的な戦略と採用される特定の目的関数は、最適な発声立証性能とは一致しない。
【0057】
本発明は、MSCEと同じ精神で最小ストリング立証エラー(MSVE)訓練プロセスを利用するが、HMMパラメーターデータベース44の立証モデルに対して設計されている。誤立証測定は計算されて、予期されるストリング立証エラーレートを最小化するために使用される。
【0058】
MSVE訓練は、ストリングレベルにおいて適用されて、式(1)において使われる目的関数と一致している。MSVE訓練は、予期される関数を最小化するように実行される。
【数4】
ここで、S()は、なめらかな0−1シグモイド非線形関数である。
【0059】
図3を参照して、強化された訓練器48は、ストリング誤立証測定プロセッサ56、ストリングモデル損失関数プロセッサ58、及びHMM更新プロセッサ60を具備する。強化された訓練プロセスは、目的として、式(4)について説明された予期される損失関数を最小化して、ストリング立証エラーを実質的に減少させる。好適実施例において、強化された訓練プロセスは、音声認識システムにおいて上記プロセッサにより実行される2つのプロセスステップとして実現される。
【0060】
A.ストリング誤立証測定プロセッサ。
ストリング誤立証測定プロセッサ56は、N最良ストリングモデル発生器46からHMMパラメーターΘI 、NストリングモデルSj 、および訓練音声ストリングサンプルOを受信する。ストリングサンプルO、モデルSj 、及びΘI に基づいて、誤立証プロセッサ56は、第1のプロセスステップとして、i番目の仮定ストリングdi (O;Θ)ためのストリング誤立証測定値を決定する
【数5】
ここで、si (O;Θ)は、式(1)により定義される発声ベース識別関数であり、Si(O;Θ)は、以下のように定義される反識別関数である。
【数6】
ここで、Nは、競合ストリング仮定の全体数であり、ηは、図では2に設定される正の数である。
【0061】
ストリング誤立証プロセッサ56は、図3に示される後続のプロセッサによって使用されるためのスカラーdの値を決定し、以下の間の差を説明する誤立証信号を生成する:(a)既知の仮定ストリング信号に対する現在の立証モデルと既知の仮定ストリング信号に基づく信用測定信号、および(b)その既知の仮定ストリング信号に対するN最良競合立証モデルに基づく1つ以上の他の信用測定信号の平均。
【0062】
B.ストリングモデル損失関数プロセッサ
第2のプロセスステップは、立証エラーカウントを近似する。これは、シグモイド非線形関数を用いてなされる。ストリングモデル損失関数プロセッサ58は、誤立証測定プロセッサ56から受信されるスカラー値di (O;Θ)に基づいてなめらかなストリング損失関数li (O;Θ)を評価する。この損失関数は以下のように定義される。
【数7】
ここで、αとβは、それぞれ、シグモイド非線形平滑化関数の傾きとシフトを制御する定数である。
【0063】
ストリングモデル損失関数プロセッサ58は、出力として、スカラーlを損失関数信号の形でHMM更新プロセッサ60に提供する。
【0064】
上記のパラメーターαとβは、ストリング損失関数li (O;Θ)に平滑化された近似を提供するのを助ける。ストリング損失関数の傾きは、HMM更新プロセッサ60により使用され、現在の立証モデルHMMパラメーターΘI を更新する。その傾きは、その仮定ストリング信号に対する現在の立証モードモデルに基づく既知の仮定ストリング信号の信用測定を、1つ以上の他の現在の立証モデルに基づく既知の仮定ストリング信号の信用測定に関連づける。従って、この損失関数の予期されるストリング損失の最小化は、ストリング立証エラー確率の最小化と直接結び付けられる。
【0065】
C.HMM更新プロセッサ
立証モデルパラメーター更新の説明に先立ち、HMM更新プロセッサ60の動作の背景が提供される。最小ストリング立証エラー(MSVE)訓練は、式(7)の予期される損失関数を最小化する1組のパラメーターΘを見つけることに導かれ、それはE[li (O;Θ)]として指定される。
【0066】
最小化パラメーターΘの組を見つけるために、パラメーターセットΘは、以下の式に従って、各繰り返しn毎に更新される。
【数8】
式(8)では、Θn は初期HMMパラメーターセット評価である。E[li (O;Θ)]は、予期される損失関数である。∇は、数学的導関数演算を表している。Θn+1 は、予期される損失関数E[li (O;Θ)]を最小にするHMMパラメーターセットに対する最良評価である。
【0067】
この式は、立証モデルパラメーターを調整するための勾配下降繰り返しを遂行して、予期される損失関数の最小化を達成する。ここで、εn は、繰り返しの際に使用される一連のステップサイズパラメーターあるいは学習レートであり、Vn は、以下に定義される正の有限の学習マトリクスである。
【数9】
ならば、予期される損失の静止点に収束する。
【0068】
図3の実施例では、HMMパラメーターは、HMM更新プロセッサ60により(8)に従って適応的に調整される。HMMの構造により、それらのパラメーターは、ある制約条件を満たさなければならない。HMM更新プロセッサは、すべてのそのような制約条件を満たすように、パラメーター更新プロセスの一部として、変換されたHMMパラメーターを使用する。以下の変換は、HMM更新プロセッサにより使われる。
【0069】
(1)分散の対数
【数10】
ここで、各立証モデルが、例えば単語またはサブ単語を反映する場合、σ2 i,j,k,d はi番目の立証モデル、j番目の状態、k番目の混合要素、及びd特徴ベクトルのd次元の分散である。
【0070】
(2)混合重みの変換された対数
元の混合重みCi,j,k は、次の通りに、変換された混合重みCi,j,k と関連づけられる。
【数11】
ここで、Lは、i番目の立証モデル中のj番目の状態にある混合重みの全体数である。
【0071】
(3)遷移確率の変換された対数
元の遷移確率ai,j は、以下のようにして、変換された遷移確率に関連づけられる。
【数12】
ここで、Mは、i番目の立証モデルの全体の状態数である。
【0072】
図示される実施例の重要な観点は、小さい分散を扱うことに関する。正しくなく扱われると、逆効果になるので、過去に提案されたいくつかの補正訓練アルゴリズムにおいては、分散調整は避けられていた。
【0073】
HMMの分散は、104 から106 程異なる。これらの分散は、観察確率密度関数bi 1(x)の指数項に生じ、HMMの尤度スコアの支配的な効果を持つ。図示される実施例において、これは、HMMパラメーター調整特に、HMMの観察確率密度関数の平均パラメーターの調整への異なる感度に導く。
【0074】
この巨大な感度の差を補償するために、実施例は、正の有限のマトリクスVn を使用する。正の有限のマトリクスVnは、各状態に対して、
【数13】
である対角マトリクスである。ここで、σ2(n)は、時間nにおけるHMMΘIの分散である。
【0075】
図4は、HMM更新プロセッサ60のブロック図を示す。図に示すように、HMM更新プロセッサ60は、ΘI 、O、lに基づいて、パラメーターμ、σ2 、c、aを更新し、HMMパラメーターデータベース44に更新されたΘU を戻す。ΘI とΘU は、パラメーターμ、σ2 、c、aからなり、ΘI とΘU は、それぞれ更新されない、及び更新された量を表している。
【0076】
最小ストリング立証エラー訓練では、式(8)に示されるモデルパラメーターを更新することは、損失関数∇の導関数を見つけることを含んでいる。項∂l/∂Θは、各モデルパラメーターに対して特に計算され、目下のHMMがキーワードモデルか、反キーワードモデル、またはフィラーモデルであるかに依存して異なっている。このステップは、導関数∂l/∂Θが全てのモデルに共通であれば、最小ストリング分類エラー訓練において使われるものとは異なっている。
【0077】
MSVEでは、∂l/∂Θは、項∂l/∂Lが全ての立証モデルに共通であれば、∂l/∂Θ=∂l/∂L・∂L/∂Θのようなチェーン規則として書かれることができる。∂l/∂Lは、以下の部分導関数からなる。
【数14】
【0078】
導関数∂L/∂eは、更新されたモデルがキーワードΘ(k) であるか、反キーワードΘ(a) 、またはフィラーモデルΘ(f) であるかに依存して異なる。
Θ(k)では、
【数15】
Θ(a)では、
【数16】
Θ(f)では、
【数17】
【0079】
項∂p()/∂Θは、全ての立証モデルに共通であり、更新されたモデルの特定のパラメーターだけが異なる。この確率p()は、以下のように定義される。
【数18】
【0080】
HMM更新プロセッサ60により提供されるパラメーター更新は以下の通りである。
(1)平均更新
【数19】
ここで、Onn(d)は、特徴ベクトルOnnのd次元要素であり、ωj は、最適パスが最初に状態jに入るタイムフレームに対応し、ωj+1 は、最適パスが状態j+1に入るタイムフレームに対応し、l(O,Θ)は(7)に従って構成されている損失関数であり、εn はステップサイズで有り、
【数20】
ここで、Dは特徴ベクトルの次元である。平均更新は、図4のブロック62により提供される。
【0081】
(2)分散更新
σ2 =logσ2 の更新は、以下の公式に従って行われる。
【数21】
ここで、Yi,j,k (Onn)は、(14)に示されるように定義される。従って、時間N+1における分散は以下の通りである。
【数22】
分散は、10−6で下にクリップされ、制約条件σi,j,k,d 2(n)>10−6を満足する。分散更新は、図4のブロック64により提供される。
【0082】
(3)混合重み更新
パラメーター化された混合重みは、以下の式(17)に従って調整される。
【数23】
従って、時間n+1における混合重みは、式(18)により与えられる。
【数24】
従って、調整された混合重みは、本発明の訓練プロセスの間に以下の制約条件に合致する。
Σk Ci,j,k (n)=1とCi、j、k (n)>0
混合重み更新は、図4のブロック66により提供される。
【0083】
(4)状態遷移確率更新
左から右へのHMMにおいて、l番目の単語モデルのパラメーター化された遷移確率は以下のように調整される。
【数25】
ここで、gl はl番目の立証モデルのOの尤度スコアであり、iは終了状態であり、状態i内の自己遷移の全体数は以下の式により示される。
【数26】
結論として、時間(n+1)における遷移確率は、以下のように与えられる。
【数27】
これはまた、Σj al i,j(n)=1、al i,i>0と、al i,i+1>0の制約条件を満足する。状態遷移確率更新は図4のブロック68により提供される。
【0084】
HMM更新プロセッサ60により計算された更新表現(15−18)は、式(22)に従って、j番目の状態のi番目の立証モデルの更新された観察確率密度関数と関係付けられる。
【数28】
ここで、ci,j,k は混合重みであり、N(O,μi,j,k ,Vi,j,k )は、i番目の認識ユニットモデル、j番目の状態、対角共分散マトリクスVi,j,k とのk番目の混合のD次元の通常のガウス分布である。ブロック62、64、66から出力されるのμ(n+1)、σ2 (n+1)及びc(n+1)の値は、ブロック68により提供される状態遷移確率a(n+1)に対する値と共に、HMMパラメーターデータベース44に戻される。図4に例示するように、ΘU は、μ、σ2 、c及びaのための更新された値を具備する。
【0085】
上に提供されるHMMパラメーター更新のための表現は、HMMパラメーターデータベース44からの単一音声訓練ストリング信号の使用を関連づけHMMパラメーターを強化する。しかしながら、HMMパラメーターを改善するために、強化された訓練器48が複数回繰り返される。例えば、強化された訓練器48は、完全なHMMパラメーターデータベースを通るいくつかのパスまたは繰返し動作してもよい。強化された訓練器は、いくつかの方法のうちの処理サンプルを止めるようにされてもよい。例えば、強化された訓練器48は、サンプルのHMMパラメーターデータベースを通って固定数の繰返しが行われるときには、停止してもよい。強化された訓練器は、現在の繰返しの全ての音声訓練ストリング信号を処理するため、ストリング立証エラーレートの増加的改良の記録も維持し得る。増分的改良がしきい値以下に落ちるとき、処理は停止してもよい(図4の70、及びSTOP信号を参照)。
【0086】
MSVE訓練は、実行され、好適音声認識システム実施例に適用されることができ、サブ単語特定キーワードおよび反キーワードのモデルパラメーターを設計する。各訓練では、式(1)により定義された識別関数Si (O;Θ)が、現在の立証モデルに基づいて既知の仮定ストリング信号のための信用測定信号値に設定され、式(6)により定義される反識別関数Si (O;Θ)は、N最良ストリング仮定を用いて1つ以上の競合ストリングモデルに基づいて既知の仮定ストリング信号に対する信用測定信号値により近似される。誤立証測定信号は、式(5)におけるように決定される。訓練場に対する誤立証測定と信用測定信号値の分布は、メモリーに記録されて、臨界しきい値を決定するために利用される。
【0087】
発声立証システムの性能は、適切な臨界しきい値の選択により強化できる。しきい値は、最小合計エラーレートを得るか、または誤り拒絶エラー(タイプI)が誤り受け入れエラー(タイプII)に等しくなる等しいエラーレートを達成するために、あらかじめ決められた基準に従ってセットできる。立証しきい値は、誤り拒絶エラー(タイプI)と誤り受け入れエラー(タイプII)の間に望ましいトレードオフを得るために初めに設定されてもよい。各エラーレートは、訓練データとテストデータの間の環境の不均衡によりもたらされるかもしれない。環境の不均衡は、異なるアクセントをもつ異なる話者、または異なる周辺ノイズも含んでいる。
【0088】
タイプIとタイプIIのエラーの両方のための等しい立証エラーレートは、本発明の音声認識システムにより達成できる。しかしながら、等しいエラーレートは、異なる選択されたしきい値信号値に対して変わることができる。異なる選択されたしきい値において、タイプIエラーレートは、タイプIIエラーレートより高いか、またはより低いに違いない。従って、特定の環境条件の下での仮定単語ストリング信号の立証を実行するための演算しきい値信号値は、異なる環境条件に対して適切ではないかもしれない。
【0089】
タイプIとタイプIIに対する異なるエラーレートは、商業的アプリケーションにおいて有利であるかもしれず、それでは誤り拒絶エラーが誤り受け入れエラーより有害であるかもしれず、あるいは逆もまた同様かもしれない。本発明は、タイプIとタイプII間の望ましいトレードオフを維持するために、立証プロセッサにより生成される信用測定信号の臨界しきい値値を調整するためのメカニズムを提供する。
【0090】
本発明によるしきい値適応化技術は、既知の仮定ストリング信号に応答して生成される信用測定信号値を利用して、立証しきい値信号値を適応化する。しきい値動作点は、仮定ストリング信号のグループが利用可能になるにつれて、調整される。(式(1)からの)信用測定信号値の分布は、図5に示されるように、正しい仮定ストリング信号72のクラスと正しくない仮定ストリング信号74のために記録される。右の分布72は、単語ストリングが妥当で、正しく(認識されている)分類されているとき発生される信用測定信号を提供する。左の分布74は、無効の単語ストリング、および間違って認識されていた他のストリングに対して生成された信用測定信号を提供する。
【0091】
2つの分布72と74は、同様な形を持ち、2つの分布の分散はほとんど等しい。この特徴は、しきい値適応化を実行するために、ここで教示されるように、利用される。
【0092】
O⊂CであるようにXH0をS(O;Θ)の平均信用測定信号値に対応させ、XH1を要素Oが集合Cに属さないように平均信用測定信号値S(O;Θ)に対応させる。ここで、Cは正しく認識された仮定ストリング信号である。等しいエラーレートあるいは最小全体エラーレートを達成するために、両方の分布に対して等しい分散を仮定して、臨界しきい値τS は、
【数29】
におかれる。
【0093】
しきい値適応化は、演算立証テストの間に2つの分布の間にτを位置決めし、XH0−τS ≠τS −XH1のときτS の値を調整するように導かれる。実際、システムが走っている間に2つの分布の実際の瞬間的平均を決定することは難しい。結果として、立証処理は、XHOとXH1に対するある初期評価値で開始される。これらの値は、十分な数のストリング(”R”)が受信され、τS が適応化されることができる度毎に、調整される。このプロセスは次の通りに実行される。
【0094】
ストリング信用測定信号値の数Rを用いて、XHOとXH1の値は、評価され、以下のエラー測定を計算するために使用される。
【数30】
図5に示される分布72と74の長い末部のために平均をバイアスすることを回避するために、あらかじめ定義された最大と最小のしきい値を越える信用測定は、クリップされる。さらに、エラー関数は、以下の形のシフトされたシグモイドを用いて、平滑化される。
【数31】
ここで、α1 は、平滑化の程度を決定し、0.1に設定された。nストリングを処理した後の臨界しきい値τS (n)は、以下のように更新される。
【数32】
ここで、B1はステップサイズであり、ΔτS (n)=τS(n)−τS (n−1)。適応の間に、τS の値はτS (0)±2を越えることは許されない。
【0095】
本発明による立証しきい値の適応化の間に、ストリングは、平均を評価するために等しく、十分な情報を確保するために、ランダムな認識と立証命令のために提供される。臨界しきい値は、最初、最小のエラーレート点に設定され、20ストリング毎(即ち、R=20)に調整され、各分布の平均を計算するために十分な、しかし最小の数のストリングの利用可能性を確保する。立証しきい値信号値を調整するこの方法は、適応化の前後でタイプIとタイプIIのエラーレートの前選択と維持のために提供する。
【0096】
話者独立電話ベースの接続される数字データベースは、本発明による実験的な訓練と動作上のテストの際に使用された。1から16桁の長さの範囲の数字ストリングは、異なるフィールドトライアルでのコレクションから抽出された。フィールドトライアルでのコレクションは、異なる環境条件と音響トランスデューサー機器を表した。
【0097】
訓練セットは、16089数字ストリングから構成された。テストセットは、27702数字ストリングから成っていた。発生の約22%は、語彙外の単語、誤り開始、および重要な背景ノイズを含んでいた。3000の音声学上の豊かな文からなる別のデータベースが、フィラーモデルを訓練するために提供された。立証結果は、99%を越える正確な拒絶であった。
【0098】
上記から、本発明は、発生立証のためのストリングベース最小立証エラー訓練プロセスを提供することは明らかである。立証プロセッサモデルを訓練することへの識別的なアプローチは、発声立証のために使われた目的関数と一致し、予期されるストリング立証エラーレートを最小化することに直接関連する。
【0099】
上記の観点で、本発明は話者依存及び話者独立の音声認識の両方に適用可能であることは当業者には明らかであろう。音声認識の文脈の中で説明されたが、モデルを訓練するために使用される技術は、一般にパターン認識にも適用可能であることも更に明らかであろう。
【0100】
上記実施例は、単に図示されたに過ぎず、特許請求の範囲の記載に基づいて定義される本発明の範囲から離れることなく、当業者により種々の変形がなされることができることは理解されよう。
【図面の簡単な説明】
【図1】本発明によるHMMベース音声認識システムを示す図である。
【図2】図1のHMMベース音声認識システムの立証部の詳細な図である。
【図3】図2の強化された訓練器を示す図である。
【図4】図3の強化された訓練器のHMM更新プロセッサを示す図である。
【図5】立証しきい値信号値決定のための信用測定信号値分布を示す図である。
【符号の説明】
26 訓練音声データベース
28 特徴抽出器
30 第1のモードスイッチ
32 第2のモードスイッチ
34 スコア計算器
36 平均単語ベース信用スコアプロセッサ
38 ストリングベース信用測定信号発生器
40 しきい値比較器
42 従来のHMM訓練器
44 立証データベース
46 N最良ストリングモデル発生器
48 強化された訓練器
50 システムの訓練部
52 システムの立証部
Claims (19)
- 既知の音声の発声を表わす1つ又は2つ以上の既知の仮定ストリング信号と現在の立証モデルのセットに基づいて音声認識装置立証モデルデータベースを作成する音声信号処理方法であって、
(A)既知の音声の発声を表わす既知の仮定ストリング信号を受信するステップと、
(B)既知の音声の発声を表わす既知の仮定ストリング信号と、その信号のための現在の立証モデルとに基づいて第1のストリング−ベース信用測定信号を生成するステップと、
(C)各々が、既知の音声発話を表わす既知の仮定ストリング信号と、別の現在の立証モデルとに基づくものである1つ又は2つ以上の他のストリング−ベース信用測定信号を生成するステップと、
(D)前記第1のストリング−ベース信用測定信号と前記他のストリング−ベース信用測定信号に基づいて誤立証信号を計算するステップと、
(E)前記誤立証信号と既知の音声の発声を表わす前記既知の仮定ストリング信号に基づいて、前記現在の立証モデルのうちの1つ又は2つ以上を修正して未知の音声の発声を表わす未知の仮定ストリング信号を誤立証する尤度を減少させるステップと、及び
(F)1つ又は2つ以上の修正された立証モデルをメモリーに格納するステップと
を具備する方法。 - 前記立証データベースの前記立証モデルを初期化するステップを更に具備する請求項1に記載の方法。
- 前記誤立証信号に基づいて損失関数信号を計算するステップと、
前記損失関数信号の導関数を計算するステップを含めて、前記損失関数信号の勾配を決定するステップとを更に具備する請求項1に記載の方法。 - 前記ステップ(B)は、
前記既知の仮定ストリング信号を一連の単語信号に分割するステップと、
前記一連の単語信号の各々ごとに1つの単語ベース信用スコアを計算するステップと、
各単語信号に対して計算された単語ベース信用スコアを平均するステップとを具備する請求項1に記載の方法。 - 前記ステップ(C)は、
前記既知の仮定ストリング信号に基づいて混同しやすいストリングモデルのセットを生成するステップと、前記混同しやすいストリングモデルは、1つ又は2つ以上の単語モデルを具備していて、
前記セットの混同しやすいストリングモデルのうちのそれぞれに対してストリング−ベース信用測定信号を生成するステップと、及び
前記セットの混同しやすいストリングモデルのそれぞれに対するストリング−ベース信用測定信号の平均を計算するステップとを具備する請求項1に記載の方法。 - 前記ステップ(C)は、
前記セットの混同しやすいストリングモデルのそれぞれの単語モデルごとに単語ベース信用スコアを決定するステップと、
前記セットの混同しやすいストリングモデルのそれぞれの各単語モデルに対して決定された単語ベース信用スコアを平均化して前記セットの混同しやすいストリングモデルのそれぞれに対する前記ストリング−ベース信用測定信号を生成するステップとを具備する請求項5に記載の方法。 - ステップ(D)は、
(a)その仮定ストリング信号に対する現在の立証モデルに基づく前記既知の仮定ストリング信号に対する信用測定信号の発生を、
(b)1つ又は2つ以上の他の現在の立証モデルに基づく前記既知の仮定ストリング信号に対する信用測定信号の発生に
関連づける関数の勾配を決定するステップを具備する請求項1に記載の方法。 - ステップ(E)は、
前記勾配に基づいて前記現在の立証モデルの1つ又は2つ以上のパラメーターを調整するステップを具備する請求項7に記載の方法。 - ステップ(D)は、
(a)前記第1のストリング−ベース信用測定信号と
(b)前記1つ又は2つ以上の他の信用測定信号の平均との差を形成するステップ
を具備する請求項1に記載の方法。 - 期待値をとった損失関数信号を評価するステップと、及び前記評価された損失関数信号に応答して繰り返し前記立証モデルを調整して立証エラーの尤度を最小にするステップとを具備する請求項3に記載の方法。
- 接続され発声された単語のストリングを認識するための音声認識システムであって、
接続され発声された単語の音響入力ストリングに応答して未知の音声の発声を表わす仮定ストリング信号を生成するための認識プロセッサと、
複数の認識モデルを格納するための認識データベースと、
未知の音声の発声を表わす前記仮定ストリング信号に応答してストリング−ベース信用測定信号を生成するための立証プロセッサと、
複数の立証モデルを格納するための立証データベースとを具備する音声認識システム。 - 前記立証プロセッサに接続され、ストリング−ベース信用測定信号の立証しきい値信号値を計算するための手段と、
前記ストリング−ベース信用測定信号を測定して測定された信号値を生成するための手段と、
前記測定された信号値をしきい値と比較するための手段とを更に具備する請求項11に記載の音声認識システム。 - 前記立証モデルは、隠れマルコフモデルパラメーターのセットを具備する請求項11に記載の音声認識システム。
- 前記立証モデルは、キーワードモデル、反キーワードモデル、音響のフィラーモデル、およびそれらの組合せから成るグループから選択される請求項11に記載の音声認識システム。
- 前記立証モデルは、識別訓練を反映する請求項11に記載の音声認識システム。
- 前記仮定ストリング信号は、分割された一連の単語信号からなり、
前記立証プロセッサは、
前記分割された一連の単語信号の各々に対する単語ベース信用スコアを計算するための手段と、
前記分割された一連の単語信号の各々に対する単語ベース信用スコアの平均に応答して前記ストリング−ベース信用測定信号を生成するための手段とを具備する請求項11に記載の音声認識システム。 - 音声認識システムの立証プロセッサにより生成された信用測定信号の立証しきい値信号サンプルを発生する音声信号処理方法であって、
(A)(i)既知の音声の発声を表わす既知の仮定ストリング信号と、既知の音声の発声を表わす該既知の仮定ストリング信号のための現在の立証モデルとに基づいて第1のストリング−ベース信用測定信号を生成し、
(ii)各々が既知の音声の発声を表わす前記既知の仮定ストリング信号と、別の立証モデルに基づく1つ以上の他のストリング−ベース信用測定信号を生成するよう機能する立証プロセッサの一巡の動作を実行するステップと、
(B)予め選択された回数についてステップ(A)を繰り返すステップと、
(C)前記予め選択された回数について第1のストリング−ベース信用測定信号の値の第1の分布を記録するステップと、
(D)前記予め選択された回数について、前記1つ又は2つ以上の他のストリング−ベース信用測定信号の値の第2の分布を記録するステップと、
(E)前記第1の分布のための第1の平均を計算するステップと、
(F)第2の分布のための第2の平均を計算するステップと、
(G)前記第1の平均と、前記第2の平均に基づいて前記立証しきい値信号サンプルを生成するステップとを具備する方法。 - 誤り拒絶立証エラーレートを選択するステップと、
誤り受け入れ立証エラーレートを選択するステップと、
前記選択された誤り拒絶立証エラーレートと前記選択された誤り受け入れ立証エラーレートに基づいて初期立証しきい値信号値を評価するステップとを更に具備する請求項17に記載の方法。 - 前記音声認識システムが動作している間に前記立証しきい値信号値を発生するステップと、
前記認識システムが動作している間、前記誤り拒絶立証エラーレートと前記誤り受け入れ立証エラーレートを維持するステップとをさらに具備する請求項18に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/528902 | 1995-09-15 | ||
US08/528,902 US5737489A (en) | 1995-09-15 | 1995-09-15 | Discriminative utterance verification for connected digits recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09127972A JPH09127972A (ja) | 1997-05-16 |
JP3549681B2 true JP3549681B2 (ja) | 2004-08-04 |
Family
ID=24107677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24243696A Expired - Fee Related JP3549681B2 (ja) | 1995-09-15 | 1996-09-13 | 連結数字の認識のための発声識別立証 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5737489A (ja) |
EP (2) | EP1184840B1 (ja) |
JP (1) | JP3549681B2 (ja) |
CA (1) | CA2181205C (ja) |
DE (2) | DE69634784T2 (ja) |
Families Citing this family (110)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3536471B2 (ja) * | 1995-09-26 | 2004-06-07 | ソニー株式会社 | 識別装置および識別方法、並びに音声認識装置および音声認識方法 |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US6490555B1 (en) * | 1997-03-14 | 2002-12-03 | Scansoft, Inc. | Discriminatively trained mixture models in continuous speech recognition |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US5920838A (en) * | 1997-06-02 | 1999-07-06 | Carnegie Mellon University | Reading and pronunciation tutor |
EP0902417B1 (de) * | 1997-09-12 | 2003-12-10 | Siemens Aktiengesellschaft | Verfahren und Einrichtung zur Spracherkennung von verwirrenden Wörtern |
US6049768A (en) * | 1997-11-03 | 2000-04-11 | A T & T Corp | Speech recognition system with implicit checksum |
ATE254328T1 (de) * | 1998-03-09 | 2003-11-15 | Lernout & Hauspie Speechprod | Vorrichtung und verfahren zum gleichzeitigen multimodalen diktieren |
JP2000020089A (ja) * | 1998-07-07 | 2000-01-21 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置、並びに音声制御システム |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
US6292778B1 (en) * | 1998-10-30 | 2001-09-18 | Lucent Technologies Inc. | Task-independent utterance verification with subword-based minimum verification error training |
DE69829187T2 (de) | 1998-12-17 | 2005-12-29 | Sony International (Europe) Gmbh | Halbüberwachte Sprecheradaptation |
US6922669B2 (en) * | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US6205426B1 (en) * | 1999-01-25 | 2001-03-20 | Matsushita Electric Industrial Co., Ltd. | Unsupervised speech model adaptation using reliable information among N-best strings |
CN1343337B (zh) * | 1999-03-05 | 2013-03-20 | 佳能株式会社 | 用于产生包括音素数据和解码的字的注释数据的方法和设备 |
DE19933524A1 (de) * | 1999-07-16 | 2001-01-18 | Nokia Mobile Phones Ltd | Verfahren zur Eingabe von Daten in ein System |
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
JP3834169B2 (ja) * | 1999-09-22 | 2006-10-18 | 日本放送協会 | 連続音声認識装置および記録媒体 |
US6473735B1 (en) * | 1999-10-21 | 2002-10-29 | Sony Corporation | System and method for speech verification using a confidence measure |
KR100307623B1 (ko) * | 1999-10-21 | 2001-11-02 | 윤종용 | 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 |
US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
WO2001031627A2 (en) * | 1999-10-28 | 2001-05-03 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
US7310600B1 (en) * | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US7031923B1 (en) | 2000-03-06 | 2006-04-18 | International Business Machines Corporation | Verbal utterance rejection using a labeller with grammatical constraints |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
US6438519B1 (en) * | 2000-05-31 | 2002-08-20 | Motorola, Inc. | Apparatus and method for rejecting out-of-class inputs for pattern classification |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
GB2364814A (en) | 2000-07-12 | 2002-02-06 | Canon Kk | Speech recognition |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
GB0027178D0 (en) | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
GB0028277D0 (en) | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US20020178182A1 (en) * | 2001-05-04 | 2002-11-28 | Kuansan Wang | Markup language extensions for web enabled recognition |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7103543B2 (en) * | 2001-05-31 | 2006-09-05 | Sony Corporation | System and method for speech verification using a robust confidence measure |
JP2005500580A (ja) * | 2001-08-14 | 2005-01-06 | ソニー エレクトロニクス インク | ロバストな信頼度尺度を用いて音声検証を行う装置及び方法 |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
GB2385697B (en) * | 2002-02-14 | 2005-06-15 | Canon Kk | Speech processing apparatus and method |
US7016842B2 (en) * | 2002-03-26 | 2006-03-21 | Sbc Technology Resources, Inc. | Method and system for evaluating automatic speech recognition telephone services |
EP1377000B1 (en) * | 2002-06-11 | 2009-04-22 | Swisscom (Schweiz) AG | Method used in a speech-enabled automatic directory system |
US7502737B2 (en) * | 2002-06-24 | 2009-03-10 | Intel Corporation | Multi-pass recognition of spoken dialogue |
TWI223791B (en) * | 2003-04-14 | 2004-11-11 | Ind Tech Res Inst | Method and system for utterance verification |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
DE10341305A1 (de) * | 2003-09-05 | 2005-03-31 | Daimlerchrysler Ag | Intelligente Nutzeradaption bei Dialogsystemen |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
WO2005088607A1 (de) * | 2004-03-12 | 2005-09-22 | Siemens Aktiengesellschaft | Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen |
GB0410248D0 (en) | 2004-05-07 | 2004-06-09 | Isis Innovation | Signal analysis method |
US7788103B2 (en) * | 2004-10-18 | 2010-08-31 | Nuance Communications, Inc. | Random confirmation in speech based systems |
US7844465B2 (en) * | 2004-11-30 | 2010-11-30 | Scansoft, Inc. | Random confirmation in speech based systems |
US7509259B2 (en) * | 2004-12-21 | 2009-03-24 | Motorola, Inc. | Method of refining statistical pattern recognition models and statistical pattern recognizers |
JP4753412B2 (ja) * | 2005-01-20 | 2011-08-24 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
KR100631786B1 (ko) | 2005-02-18 | 2006-10-12 | 삼성전자주식회사 | 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치 |
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
US8688451B2 (en) * | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
CN101118745B (zh) * | 2006-08-04 | 2011-01-19 | 中国科学院声学研究所 | 语音识别系统中的置信度快速求取方法 |
WO2008022157A2 (en) * | 2006-08-15 | 2008-02-21 | Vxv Solutions, Inc. | Adaptive tuning of biometric engines |
AU2007335251B2 (en) * | 2006-12-19 | 2014-05-15 | Validvoice, Llc | Confidence levels for speaker recognition |
US8423364B2 (en) * | 2007-02-20 | 2013-04-16 | Microsoft Corporation | Generic framework for large-margin MCE training in speech recognition |
US7437291B1 (en) * | 2007-12-13 | 2008-10-14 | International Business Machines Corporation | Using partial information to improve dialog in automatic speech recognition systems |
US8180641B2 (en) * | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
TWI420433B (zh) * | 2009-02-27 | 2013-12-21 | Ind Tech Res Inst | 語音互動系統與方法 |
TWI421857B (zh) * | 2009-12-29 | 2014-01-01 | Ind Tech Res Inst | 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統 |
CN102117615B (zh) * | 2009-12-31 | 2013-01-02 | 财团法人工业技术研究院 | 产生词语确认临界值的装置、方法及系统 |
JP5949550B2 (ja) * | 2010-09-17 | 2016-07-06 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US9118669B2 (en) | 2010-09-30 | 2015-08-25 | Alcatel Lucent | Method and apparatus for voice signature authentication |
US9734153B2 (en) | 2011-03-23 | 2017-08-15 | Audible, Inc. | Managing related digital content |
US8862255B2 (en) | 2011-03-23 | 2014-10-14 | Audible, Inc. | Managing playback of synchronized content |
US8948892B2 (en) | 2011-03-23 | 2015-02-03 | Audible, Inc. | Managing playback of synchronized content |
US9703781B2 (en) | 2011-03-23 | 2017-07-11 | Audible, Inc. | Managing related digital content |
US9760920B2 (en) | 2011-03-23 | 2017-09-12 | Audible, Inc. | Synchronizing digital content |
US9706247B2 (en) | 2011-03-23 | 2017-07-11 | Audible, Inc. | Synchronized digital content samples |
US8855797B2 (en) | 2011-03-23 | 2014-10-07 | Audible, Inc. | Managing playback of synchronized content |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
EP2842124A4 (en) * | 2012-04-27 | 2015-12-30 | Interactive Intelligence Inc | IMPROVING THE RESULTS OF SPEECH RECOGNITION BASED ON NEGATIVE EXAMPLES (ANTI-WORDS) |
US9075760B2 (en) | 2012-05-07 | 2015-07-07 | Audible, Inc. | Narration settings distribution for content customization |
US9269349B2 (en) * | 2012-05-24 | 2016-02-23 | Nuance Communications, Inc. | Automatic methods to predict error rates and detect performance degradation |
US9317500B2 (en) | 2012-05-30 | 2016-04-19 | Audible, Inc. | Synchronizing translated digital content |
US8972265B1 (en) | 2012-06-18 | 2015-03-03 | Audible, Inc. | Multiple voices in audio content |
US9141257B1 (en) | 2012-06-18 | 2015-09-22 | Audible, Inc. | Selecting and conveying supplemental content |
US9536439B1 (en) | 2012-06-27 | 2017-01-03 | Audible, Inc. | Conveying questions with content |
US9679608B2 (en) | 2012-06-28 | 2017-06-13 | Audible, Inc. | Pacing content |
US10109278B2 (en) * | 2012-08-02 | 2018-10-23 | Audible, Inc. | Aligning body matter across content formats |
CN103631802B (zh) * | 2012-08-24 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 歌曲信息检索方法、装置及相应的服务器 |
US9367196B1 (en) | 2012-09-26 | 2016-06-14 | Audible, Inc. | Conveying branched content |
US9632647B1 (en) | 2012-10-09 | 2017-04-25 | Audible, Inc. | Selecting presentation positions in dynamic content |
US9223830B1 (en) | 2012-10-26 | 2015-12-29 | Audible, Inc. | Content presentation analysis |
US9159319B1 (en) * | 2012-12-03 | 2015-10-13 | Amazon Technologies, Inc. | Keyword spotting with competitor models |
CN103971678B (zh) * | 2013-01-29 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
US9280906B2 (en) | 2013-02-04 | 2016-03-08 | Audible. Inc. | Prompting a user for input during a synchronous presentation of audio content and textual content |
US9472113B1 (en) | 2013-02-05 | 2016-10-18 | Audible, Inc. | Synchronizing playback of digital content with physical content |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9317486B1 (en) | 2013-06-07 | 2016-04-19 | Audible, Inc. | Synchronizing playback of digital content with captured physical content |
US9489360B2 (en) | 2013-09-05 | 2016-11-08 | Audible, Inc. | Identifying extra material in companion content |
US9899021B1 (en) * | 2013-12-20 | 2018-02-20 | Amazon Technologies, Inc. | Stochastic modeling of user interactions with a detection system |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US11232788B2 (en) * | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
KR102637025B1 (ko) * | 2021-03-26 | 2024-02-16 | 구글 엘엘씨 | 자동 음성 인식을 위한 다언어 리스코어링 모델들 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4348553A (en) * | 1980-07-02 | 1982-09-07 | International Business Machines Corporation | Parallel pattern verifier with dynamic time warping |
US5303299A (en) * | 1990-05-15 | 1994-04-12 | Vcs Industries, Inc. | Method for continuous recognition of alphanumeric strings spoken over a telephone network |
US5125022A (en) * | 1990-05-15 | 1992-06-23 | Vcs Industries, Inc. | Method for recognizing alphanumeric strings spoken over a telephone network |
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
DE69322894T2 (de) * | 1992-03-02 | 1999-07-29 | At & T Corp., New York, N.Y. | Lernverfahren und Gerät zur Spracherkennung |
US5440662A (en) * | 1992-12-11 | 1995-08-08 | At&T Corp. | Keyword/non-keyword classification in isolated word speech recognition |
US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
-
1995
- 1995-09-15 US US08/528,902 patent/US5737489A/en not_active Expired - Fee Related
-
1996
- 1996-07-15 CA CA002181205A patent/CA2181205C/en not_active Expired - Fee Related
- 1996-09-03 DE DE69634784T patent/DE69634784T2/de not_active Expired - Fee Related
- 1996-09-03 DE DE69620324T patent/DE69620324T2/de not_active Expired - Fee Related
- 1996-09-03 EP EP01202827A patent/EP1184840B1/en not_active Expired - Lifetime
- 1996-09-03 EP EP96306361A patent/EP0763816B1/en not_active Expired - Lifetime
- 1996-09-13 JP JP24243696A patent/JP3549681B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CA2181205A1 (en) | 1997-03-16 |
CA2181205C (en) | 2001-01-02 |
EP1184840A1 (en) | 2002-03-06 |
EP0763816A3 (en) | 1998-05-13 |
EP1184840B1 (en) | 2005-05-25 |
JPH09127972A (ja) | 1997-05-16 |
DE69620324D1 (de) | 2002-05-08 |
DE69634784T2 (de) | 2006-03-23 |
EP0763816A2 (en) | 1997-03-19 |
DE69634784D1 (de) | 2005-06-30 |
EP0763816B1 (en) | 2002-04-03 |
DE69620324T2 (de) | 2002-10-31 |
US5737489A (en) | 1998-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3549681B2 (ja) | 連結数字の認識のための発声識別立証 | |
EP0635820B1 (en) | Minimum error rate training of combined string models | |
CA2609247C (en) | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition | |
JP3053711B2 (ja) | 音声認識装置およびそのトレーニング方法ならびに装置 | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US6125345A (en) | Method and apparatus for discriminative utterance verification using multiple confidence measures | |
JP5134751B2 (ja) | 連続音声認識における識別訓練された混合モデル | |
Pellom et al. | An experimental study of speaker verification sensitivity to computer voice-altered imposters | |
US7324941B2 (en) | Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these | |
Chou | Discriminant-function-based minimum recognition error rate pattern-recognition approach to speech recognition | |
Lleida et al. | Efficient decoding and training procedures for utterance verification in continuous speech recognition | |
JPH06332497A (ja) | ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム | |
CN101452701B (zh) | 基于反模型的置信度估计方法及装置 | |
JP2002358096A (ja) | リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム | |
Juang et al. | Statistical and discriminative methods for speech recognition | |
Wang et al. | L2 mispronunciation verification based on acoustic phone embedding and Siamese networks | |
Xie et al. | L2 mispronunciation verification based on acoustic phone embedding and siamese networks | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
JP3368989B2 (ja) | 音声認識方法 | |
JPH08241096A (ja) | 音声認識方法 | |
Modi et al. | Discriminative utterance verification using multiple confidence measures. | |
Homma et al. | Iterative unsupervised speaker adaptation for batch dictation | |
McDermott et al. | Prototype-based MCE/GPD training for word spotting and connected word recognition | |
Cao et al. | A stochastic polynomial tone model for continuous Mandarin speech. | |
Dong et al. | A boosting approach for utterance verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040421 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |