JP3672595B2 - 結合されたストリングモデルの最小誤認率訓練 - Google Patents
結合されたストリングモデルの最小誤認率訓練 Download PDFInfo
- Publication number
- JP3672595B2 JP3672595B2 JP16986594A JP16986594A JP3672595B2 JP 3672595 B2 JP3672595 B2 JP 3672595B2 JP 16986594 A JP16986594 A JP 16986594A JP 16986594 A JP16986594 A JP 16986594A JP 3672595 B2 JP3672595 B2 JP 3672595B2
- Authority
- JP
- Japan
- Prior art keywords
- string
- speech
- utterance
- model
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012549 training Methods 0.000 title claims description 85
- 238000000034 method Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 description 18
- 239000013598 vector Substances 0.000 description 10
- 239000000203 mixture Substances 0.000 description 7
- 230000036961 partial effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000002860 competitive effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 238000002922 simulated annealing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010048669 Terminal state Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【産業上の利用分野】
本発明は一般的にはパターンデータベース(pattern database)の訓練、より詳細には、音声認識などの音声処理タスクのための音声パターンデータベースの訓練に関する。
【0002】
【従来の背景】
連続音声認識の目的は入力音声発声からの底辺に横たわるワードシーケンス(underlying word sequence)を識別(つまり、認識)することにある。認識は、セットの音声認識パターンあるいはモデル(以降モデルと呼ばれる)を使用して遂行される。これらの基本音声認識モデルは、句(phrase)あるいは文(sentence)等のワードやワードストリングに対する構築ブロックである。近年、これらの基本音声認識ユニットを連続音声認識のためにいかに選択及び表現するかの問題に大きな研究努力が集中されている。
【0003】
連続音声認識問題に対する一つの従来の手法は、例えば、テンプレートあるいは隠れマルコフモデル(hidden Markov model(HMM))等の音響認識モデルを使用する統計的パターン認識手法である。語彙の辞書的記述(lexical description)に基づいて音響音声認識モデルが規定され、これらのパラメータが次に「訓練(training)」として知られているプロセスを通じて統計的に決定される。これらの基本モデルは語彙表上のワード(word:単語)あるいはサブワード(subword:例えば、言語学に基づく音素の音響的表明である単音など)を反映する。連続音声認識に対するこの手法において一般的に行なわれる一つの想定は、流暢に話されたワードのシーケンス、つまり、ワード「ストリング(string)」は、そのストリング内のワードの辞書的記述に従って(ワードあるいはサブワードの)基本音声認識モデルの線形連結(linear concatenation)によって十分に表現できるという想定である。慣習的には、これは、音声認識モデルの連結が訓練トークン(例えば、ワード)から直接に推定できることを意味する。音響認識モデルの連結はワードストリングのモデルを形成し、ワード「ストリング・モデル(string model)」の形式である。連続的な音声認識においては、ある与えられた認識タスクに対して複数のストリングモデルを仮定する。個々の比較の一致の程度が認識スコア(recognition score)によって示される。連続発声と最も良く一致するストリングモデルがその発声を「認識(recognizes)」するものとされる。
【0004】
連続音声認識に対するもう一つの従来の手法は、ワードストリングモデルを「非」音響認識モデルにて補強(augment)する方法である。この非音響認識モデルは様々あるが、強いて挙げれば、言語モデル、音韻に基づくモデル、意味論的モデル、統語論的モデル(syntactic models)、及び他の認識源(例えば、ピッチ、エネルギ、会話速度、継続期間等)が含まれる。このような手法の一つにおいては、あるワード・ストリングは音響モデル、言語モデル等のある一つの結合としてモデル化される。個々のモデルからの認識スコアが一つの全体としてのストリングモデル認識スコアと合体される。複数のスコアをある一つのストリングモデル認識スコアへ合体させることは、例えば、個々の複数のストリングモデルからの個々の複数の認識スコアの重み付けされた総和(weighted sum)によって達成される。
【0005】
従来的には、個々の複数の認識モデルの訓練は、個別ベースで遂行される。例えば、音響モデル訓練においては、訓練音声が、個別の複数のワードあるいはサブワードの訓練トークン(training tokens)にセグメント化される。従って、個々の複数の音響モデルが、より長い訓練発声から隔離した複数の訓練トークンにて訓練される。さらに、音響と他の複数のモデルとが個別に訓練され、認識の目的でこれら複数のモデルを結合するために使用される複数のパラメータが発見論的に選択され、他のモデルの訓練から分離され隔離される。
【0006】
これら個別化された訓練の全ては、このような複数のモデルが連続音声認識の目的に対して「一体となって」使用できるという事実を「信じて」行なわれる。即ち、連続的な音声認識は、複数のモデルの「結合」(つまり、ストリングモデル)がいかにして良好に全体として未知のストリングと一致するかに立脚する。複数のモデルのある一つの結合が各ストリングモデルがその「集団(aggregate)」内の未知のストリングとどれぐらい良く一致するかに基づいて他の結合に優先して選択される。この集団比較(aggregate comparison)はその結合の「グローバルスコア(global score)」と呼ばれる。従って、ある連続音声認識器が誤認を行なったような場合でも、これは、グローバルあるいは「ストリングレベル(string level)」において行なわれた比較において誤認を起こしたものであり、複数のモデルあるいは他の情報源が訓練された個別化されたレベルにおいて誤認を起こしたものではないと信じられる。この訓練思想と認識思想との間のレベルの「食い違い(discrepacy)」のために、連続音声認識の性能は要求されるものよりも低いのが現状である。
【0007】
【発明の概要】
本発明は、ワードストリング誤認率をグローバルストリングレベルにて低減、例えば、最小化するための複数の音声認識モデル(複数の音響モデル、言語モデル、及び他の認識源を含む)を訓練するために適当な技法を提供する。本発明はストリングレベルモデルのマッチングに対して差別的分析(discriminative analysis )を適用する。
【0008】
本発明の一例としての実現によると、訓練データベースからの単一の辞書的ストリング(lexical string)に基づいて、混同し易いストリングモデル(confusable string models)のセットが生成される。各ストリングモデルは複数の音響と言語モデルとの結合から構成される。訓練データベースからある訓練ストリング・トークンを与えられると、音響、言語及び結合モデルのパラメータが推定され、その辞書的ストリングモデルがそのセットの複数の混同し易いストリングモデル間で最良の認識スコアを示す確率を改善させる。このようにして、ストリング誤認率が低減される。
【0009】
最小の誤認率を提供するパラメータ推定はある特別に設計された損失関数(loss function)の使用によって得られる。この損失関数は競合する複数のストリングモデルを考慮に入れることによって複数の音声認識ユニットモデル内のストリングレベルの異音変化(allophonic variations)を収容する。競合するストリングモデルのスコアリング差(scoring differential)と期待されるストリング誤認との間の関係を確立することによって、期待される誤差の最小化が、辞書的ストリングモデルと他の複数の混同し易いストリングモデルとの間に正しいスコアランク順位(crrect score rank order)を有する確率の最大化と直接に関係付けられる。
【0010】
【発明の詳細な記述】
A.一例としてのハードウエア実現
説明を簡潔にするために、本発明の一例としての実現は個々の機能ブロック(「プロセッサ(processors)」と呼ばれる機能ブロックを含む)から構成されるものとして説明される。これらブロックが表す機能は共有のあるいは専用のハードウエアの使用を通じて提供され、これらハードウエアには、これに限定されるものではないが、ソフトウエアを実行する能力のあるハードウエアが含まれる。例えば、図1、2、あるいは3に表わされるプロセッサの機能は、単一の共有プロセッサによって提供される。(用語「プロセッサ」の使用は、ソフトウエアを実行する能力をハードウエアを排他的に指すものと解釈されるべきではない。)
【0011】
一例としての実現は、例えば、以下に述べられる動作を遂行するソフトウエアを格納するデジタル信号プロセッサ(digital signal processor、DSP)ハードウエア、例えば、AT&T DSP16あるいはDSP32C読出し専用メモリ(ROM)、及びDSPの結果を格納するランダムアクセスメモリ(RAM)から構成される。大規模集積(VLSI)ハードウエアの実装、及び汎用DSP回路と組合わせられたカスタムVLSI回路を提供することもできる。
【0012】
B.一例としての実現
音声認識は、これによって未知の音声発声(unknown speech utterance、通常、デジタルPCM信号の形式である)で識別されるプロセスである。一般的には、音声認識は「未知」の発声の特徴を「既知」のワードあるいはワードストリングの特徴と比較することによって遂行される。
【0013】
未知の発声を認識するために、音声認識器はそれを特徴化するために発声から特徴を抽出する。未知の発声の特徴は「テストパターン」と呼ばれる。認識器は次にデータベース内の一つあるいは複数の参照パターン(reference pattern)の複数の結合を未知の発声のテストパターンと比較する。参照パターンの個々の結合がテストパターンとどれくらい良く一致するかの相対的尺度を提供するためにスコアリング技法が使用される。未知の発声は一つまたはそれ以上の参照パターンのその未知の発声と最も良く一致する結合と関連する複数のワードであると認識される。
【0014】
図1は本発明に従う一例としての解説のための音声認識システム1を示す。このシステムは、訓練音声データベース(training speech database)10、特徴抽出器(feature extractor)20、モードスイッチ15、30、スコアリング比較器(scoring comparator)40、スコアプロセッサ(score processor)50、従来のHMMトレイナ60、認識モデルパラメータデータベース(recognition model parameter database)70、N−最良ストリングモデル発生器(N-best string model generator)、及び改善されたトレイナ(enhanced trainer)80を含む。
【0015】
システム1の訓練音声データベース10は、デジタル形式の既知の音声信号のサンプルを含む。個々の音声信号は一つまたはそれ以上の発声されたワードのストリングに対応する。これらサンプルは、それぞれ、従来のトレイナ60及び改善されたトレイナ80の目的のために使用される。データベース10からの既知の音声ストリングのサンプルがモードスイッチ15を介してシステム1の他の要素に提供される。
【0016】
モードスイッチ15はシステム1の2つの動作モード:つまり、訓練(T)モード及び認識(R)モードを反映する。スイッチ15がT位置(あるいは状態)にあるときは、データベース10からの訓練音声は、訓練セクション90によって訓練が遂行されるようなシステム1のバランスに対して提供される。スイッチ15がR位置にあるときは、デジタル形式での未知の音声発声(信号)が認識セクション95にって認識されるようなシステム1のバランスに対して提供される。
【0017】
システム1の特徴抽出器20はモードスイッチ15に結合される。モードスイッチ15の状態に依存して、抽出器20は、訓練あるいは未知の音声信号ストリングを受信する。受信された音声信号に基づいて、抽出器20は、受信された音声を特性化する一つまたはそれ以上の特徴ベクルトXを生成する。特徴抽出器20は、例えば、フィルタバンク特徴抽出器(filter bank feature extractor )、線型予測符号化(linear predictive coding、LPC)特徴抽出器、あるいは離散フーリエ変換(discrete Fourier transform、DFT)特徴抽出器などのような任意の従来の特徴抽出器であり得る。
【0018】
抽出器20からの特徴ベクトル出力は第2のモードスイッチ30に提供される。このモードスイッチ30はモードスイッチ15と協調動作する。つまり、両方のスイッチ15、30に提供されるモード信号に基づいて、同時に、同一状態、TあるいはRに両方のスイッチがセットされる。モードスイッチ30は、抽出器20の出力をシステム1の認識セクションあるいは訓練セクションのいずれかに向ける。
【0019】
システム1の認識セクション95はスコアリング比較器40及びスコアプロセッサ50を含む。スコアリング比較器40は従来のものである。比較器40はストリングモデルを未知の音声信号ストリングと関連付け、一致の程度を示すスコアを決定する。これらストリングモデルは、例えば、複数の音響ストリングモデル及び複数の言語ストリングモデルの結合から構成される。複数の音響モデル及び言語モデルのための従来のスコアリング比較器を比較器40のために使用することができる。これに関しては、例えば、ここにあたかも完全に明らかにされているものとして参考のために編入される、Lee 及びRabiner による「接続されたワード認識のためのフレーム同期網探索アルゴリズム(A Frame Synchronous Network Search Algorithm for Connected Word Recognition )」(IEEE Trans. Acoust., Speech ,Sig. Pro. Vol.37、No.4、1649-58(1989))に掲載の論文を参照されたい。また、本出願人と譲受人を同一とし、ここにあたかも完全に明らかにされているものとして参考のために導入される「隠れマルコフモデル音声認識構成(Hidden Markov Model Speech Recognition Arrangement)」という名称の合衆国特許第4,783,804号を参照されたい。比較器40によって生成されるスコアはスコアプロセッサ50に提供される。スコアプロセッサ50は提供されたスコアのどちらが大きいかを決定し、そのスコアに対するワードのストリングを識別する。プロセッサ50によって、識別されたストリングモデルと関連する既知の音声として未知の音声信号ストリングが認識される。プロセッサ50は出力のための識別された音声の表現をモデルパラメータデータベース70(以下を参照)から得る。
【0020】
システム1の訓練セクション90は、従来のHMMトレイナ60、モデムパラメータデータベース70、N−最良ストリングモデル発生器75、及び改善されたトレイナ80から構成される。例えば、合衆国特許第4,783,804号において説明されているようなHMMトレイナ60が音響HMMの従来の訓練を提供する。
【0021】
モデルパラメータデータベース70は、例えば、音響、言語等に基づいた、複数の認識モデルのm個のセットの収集Λ={Λ1 、...、Λm }を格納する。本発明のこの一例としての実現においては、Λ={ΛA 、ΛL 、ΛC }であり、ここで、ΛA はセットの複数の音響モデル、ΛL はセットの複数の言語モデル、そしてΛC は結合モデルを表す。(ΛC はグローバル・ストリングモデルを形成する目的でΛA 及びΛL を結合するときに使用されるパラメータのセットから構成される。)
【0022】
トレイナ60の出力は、従来のように訓練された1またはそれ以上のセット音響HMM、ΛA 、及びHMMのセットが基礎となる訓練音声ストリングの特徴ベクトルXから構成される。本発明のこの一例としての実施例の目的に対しては、従来のトレイナ60によって提供される訓練の程度は特に重要ではない。事実、従来のトレイナ60は(ささいなものであっても)HMMパラメータの初期セットΛI を提供すること以上は要求されず、これは、読出し専用メモリから検索される。
【0023】
トレイナ60の出力ΛA(0)は、初期化パラメータとして発生器75及び改善されたトレイナ80によって使用されるためにモデルデータベース70に記録される。改善されたトレイナ80はデータベース70からΛ及びXを受信し、データベース70にセットの「改善された」あるいは「更新された(updated)」HHMモデルΛU を帰す。最終的に、改善されたモデルΛU は、認識モードの際にスコアリング比較器40に提供される。このスコアリング比較器40は改善されたモデルΛU を使用し、低減されたストリング認識エラー率を提供する。
【0024】
N−最良ストリングモデル発生器75はモデルΛ及び訓練音声ストリングXを受信し、辞書的ストリングモデルと高度に競合する複数のストリングモデルのセットを生成する。これら競合する複数のストリングモデルが改善されたトレイナ80の弁別訓練(discriminative training)に対する基礎を提供する。
【0025】
発生器75は、N個の最良(あるいは最も混同しやすい)ストリングモデルをN個の最良(混同しやすい)ワードストリング、及びこれら個々のワードストリングに対する複数の対応するストリングモデルを決定することによって生成する。このN個の最良ワードストリングの決定は、ここにあたかも完全に説明されているかのように編入されるF.K.Soog及びE.F.Huang による論文『連続音声認識においてN個の最良文仮説を発見するための木格子に基づく高速探索(A tree-trellis based fast search for finding N-best sentence hypotheses in continuous speech recognition)』(Proc.ICASSP(1991))において説明されるタイプの修正ビタビ復号器(modified Viterbi decorder)の使用を通じて行なわれる。この復号器は、部分パスマップ(partial path map)、つまり、個々の時間瞬間において任意の文法ノード(つまり、ワード接合点)へと導く全ての部分パスの全てのスコア(あるいはマトリクスのリストを準備する。文法ノード(grammar nodes)において、ユニグラムタイプ(uingram-type)の言語モデルスコアがこのパススコアに加えられる。例えば、任意のワードに対するユニグラム確率の対数がこのパスがその与えられたワードの終端状態に到達したときにパススコアに加えられる。修正ビタビ前向き探索(modified Viterbi forward search)の終端において、復号器はA*トレースバック木探索手順(A* traceback tree-search procedure)を使用する。発生器75は木探索を遂行することによって「スタック(stack)」(ランク順に並べられたデータリスト)の最上部の所に最上(最良)部分パスを成長させる。スタック上の全ての部分パスのランク順序はある部分パスが完結したとき達成することができる最良の可能なスコアによって決定される。前向きビタビ探索において準備されたこの部分パスマップは後ろ向き木探索(backward tree search)における任意の完結されてないパスに対するスコアを提供する。A* 手順の「最良優先(best first)」性質のために、最上のN個のストリングが順次に生成される。
【0026】
A* アルゴリズムの認容性(admissibility)、あるいは最適パス(optimal path)の確かな発見は、スタックの深さが任意の探索エラーを回避するために十分に深いという条件の下、部分パスの完結されてない部分の上側境界がスタック復号器内で使用された場合に保証される。この木格子アルゴリズムにおいては、同一のHMM及び言語モデルがその探索内で両方向に沿って使用されたとき、パスの最も固い上側境界(tightest upper bound)あるいは実スコア(actual score)が得られ、結果として、アルゴリズムの探索効率が最大にされるが、このためにN個の項目のスタックが必要とされる。
【0027】
発生器75は入力音声ストリングXをN個の最良ストリングリスト内の個々の与えられたワードストリングに対するモデルセットに対してビタビ整合することによって、N個の最良ストリングモデルをN個の最良ワードストリングに基づいて生成する。このステップは、同一ワードストリングに対応する多くのストリングモデルが存在するが、但しある与えられたモデルセットに対する入力発声に最も良く一致するストリングモデルは唯一であることを利用して発生器75によって遂行される。
【0028】
発生器75は「未見(unseen)」の複数の競合ストリングをモデル化する能力も提供することに注意する。これは、N個の最良復号化を通じて生成される複数の競合ワードストリングが訓練教材によって制約されることがないという事実に起因する。ある訓練発声はある単一のワードストリングに対応するが、その発声と関連するN個の最良ストリングリストは動的であり、与えられた音声認識ユニットモデルセットに基づくストリング・レベル・モデル分解能を反映する。基本認識ユニットモデルは、従って、N個の最良ストリングモデル発生器によって生成されたワードストリングによって訓練される。これらワードストリングには、元の訓練教材内には存在しないが、そのストリングモデルを認識器が辞書的ストリングのストリングモデルと混乱しやすいと発見したワードストリングが含まれる。認識器が辞書的ワードストリングと混乱し易いと発見した未見のワードストリングが差別的にモデル化される。こうして、未見のストリングに対するモデル化の範囲(modeling coverage)が改善される。未見のストリングのモデル化は、このようなモデル化が訓練教材の乏しいストリングの範囲(string coverage)に起因して連続音声認識において遭遇する困難を低減するのに有効である。
【0029】
上に説明の発生器75の動作は以下のように要約することができる。S=W1、...、Wlsを任意のワードストリングであるものとする。音響モデル、言語及びその他の認識ソースを含むモデルセットΛが与えられた場合、最適状態シーケンスΘS は観察X及びワードストリングSの関数である。このN最良ストリング仮説{S1 、...SN }は帰納的に数式[数1]のように定義することができる。
【数1】
ここで、log f(X、Θs、S|Λ)は音響モデルスコアリングを表し、logf(S|Λ)は言語モデル及び他の認識ソーススコアリングを表す。最小ストリングエラー率訓練においては、これらのストリングレベル音響訓練トークンがストリングエラーを表すために特別に設計されたセットの差別的関数(discriminant function)内に組み込まれる。これは、以下に説明されるように、改善されたトレイナ80の動作によって行なわれる。
【0030】
図2は図1内に現われる改善されたトレイナ80の一例としての実現を表す。改善されたトレイナ80はデータベース70によって提供される訓練音声に作用を及ぼす。改善されたトレイナ80の動作の結果として、更新された認識モデルのセットΛUをデータベース70に返す。Λuは、その後、認識モードの際に認識器1のセットの参照パターンとして使用され、あるいは同一あるいは追加の訓練音声の処理の結果としてさらに更新されるべき新たなΛとして使用される。
【0031】
説明の明快さ及び計算の単純化のために、更新プロセッサ88は、一例として、一度に一つの訓練ストリングを処理するものとして説明される。下に説明されるのとは少し異なり、この実現は複数の訓練音声サンプルに基づいてΛを更新することも可能である(議論のセクションを参照)。
【0032】
図2に示されるように、改善されたトレイナ80は、ストリング誤認尺度プロセッサ(string misrecognition measure processor)82、ストリングモデル損失関数プロセッサ(string model loss function processor)84、及びストリングモデル更新プロセッサ88を含む。
【0033】
1.ストリング誤認尺度プロセッサ
ストリング誤認尺度プロセッサ82は、データベース70からモデルΛ、及び訓練音声ストリングサンプルXを受信する。ストリングサンプルX、及びΛに基づいて、プロセッサ82はストリング誤認尺度d(X、Λ)を以下のように決定する。
【数2】
ここで、g(X、Slex 、Λ1 、...、Λm )はSlex を正しいストリングとして与えられたときの入力発声Xの認識器スコアであり、g(X、Sk 、Λ1 、...、Λm )は各競合ストリングに対する認識器ソースであり、ηは一例として2にセットされた正の数であり、そしてNは発生器75によって提供された競合ストリングの総数である。一例として、gは以下のような認識器スコアの重み付けされた総和の形式をとる。
【数3】
あるいは、この実装の場合は、
【数4】
ここで、αA、αLは結合モデルΛcのパラメータであり、
【数5】
であり、そしてALはバイグラムに基づく言語モデルであり、SはW1、W2、・・・、Wnに並べられた単語から構成される、順位付けされた単語ストリングであり、P(W)はユニグラム言語モデルからの確率であり、そしてP(Wτ|Wτ -1)はバイグラム言語モデルからの確率である。
【0034】
ストリング誤認尺度プロセッサ82は図2に示される後続のプロセッサによって使用されるためのスカラ値dを決定する。
【0035】
2.ストリングモデル損失関数プロセッサ
ストリングモデル損失関数プロセッサ84はプロセッサ82から受信されたスカラ値d(X、Λ)に基づいて平滑ストリング損失関数(smooth string loss function )lを評価する。
【数6】
ここで、γは、一例として1にセットされ、d0 は、一例として零にセットされるバイアス項である。
プロセッサ84はスカラlを出力としてストリングモデル更新プロセッサ88に提供する。
【0036】
パラメータγ及びη(上述)はストリング損失関数lへ平滑にされた近似を提供することを助ける。ストリング損失関数(11)の勾配はストリングモデル更新プロセッサ88によってモデルパラメータΛを更新するために使用される。従って、この損失関数の期待されるストリング損失の最小化はストリングエラー確率の最小化に直接にリンクされる。バイアスパラメータd0 は訓練プロセスにおいて競合ストリングモデルの影響を改善するために使用される。
【0037】
3.ストリングモデル更新プロセッサ
図3はストリングモデル更新プロセッサ88の一例としてのブロック図を表す。図面に示されるように、プロセッサ88は、Λ、X及びlに基づいて、音響HMMパラメータμ、σ2 、c、及びa、言語モデルパラメータP(Wj)及びP(Wj|Wj-1)、並びに結合モデルパラメータαiを更新する。プロセッサ88は更新されたパラメータΛu をパラメータデータベース70に返す。Λ及びΛU の両者は、パラメータμ、σ2 、c、a、P(Wj)、P(Wj|Wj-1)、及びαiを含むが、Λ及びΛU は、それぞれ、未更新及び更新された量を表す。
【0038】
プロセッサ88によるモデルパラメータ更新の詳細な説明を行なう前に、この動作に対する幾らかな背景について説明する。
【0039】
ストリングエラー率と関連する期待される損失は、以下の式(12)によって与えられる。
【数7】
最小ストリングエラー率訓練においては、目標は訓練サンプルを通じて期待される損失(12)を最小にすることにある。期待される損失式(12)は更新されたパラメータによって以下のように最小にされる。
【数8】
【外1】
【0040】
図2の一例としての実現においては、モデルΛは、更新プロセッサ88によって式(13)に従って適応的に調節される。
【0041】
a.音響モデルの更新
音響HMMの構造のために、それらのパラメータは幾つかの制約を満たさなければならない。ストリングモデル更新プロセッサ88は、これらの全ての制約を満足させるために音響モデルパラメータ更新プロセスの一部として変換HMMパラメータを採用する。以下の変換がプロセッサ88によって遂行される。
【0042】
(1)分散の対数
【数9】
ここで、σ2 i,j,k,dは、ある特徴ベクトルのi番目の認識ユニットモデル、j番目の状態、k番目の混合成分(mixture component)及びd番目の次元の分散であり、ここで、個々の認識ユニットモデルは、例えば、あるワードあるいはサブワードを反映する。
【0043】
(2)混合重みの変換された対数
【外2】
【数10】
ここで、Lはi番目の認識ユニットモデル内のj番目の状態内の混合重みの総数である。
【0044】
(3)遷移確率の変換された対数
元の遷移確率ai,j は以下のように変換された遷移確率と関連付けられる。
【数11】
ここで、Mはi番目の認識ユニットモデル内の状態の総数である。
【0045】
この一例としての実現の重要な特徴は小さな分散(small variance)の取り扱いに関する。過去において提案された幾つかの修正訓練アルゴリズムにおいては、分散の調節は、誤って扱われた場合に悪影響を与えることがあるために回避されてきた。
【0046】
【外3】
【0047】
この感度における膨大な差異を補償するために、この実現は正の有限行列Unを採用する。この正の有限行列Unは、各状態に対する対角行列:
【数12】
である。ここで、σ2 (n)は時刻nにおけるHMMの分散である。
【0048】
【外4】
【0049】
更新プロセッサ88によって提供される音響モテルパラメータの更新は以下の通りである。
【0050】
(4)平均の更新
【数13】
ここで、xnn(d)は特徴ベクトルxnnのd次元成分であり、θjは最適パスが最初に状態jに入る時間フレームに対応し、θj+1は最適パスが状態j+1に入る時間フレームに対応し、l(X、Λ)は数式(11)に従って構成された損失関数であり、εn はステップサイズであり、そして、
【数14】
である。ここで、Dは特徴ベクトルの次元である。平均の更新は図3のブロック88−1によって提供される。
【0051】
(5)分散の更新
【外5】
【数15】
ここで、γi,j,kが式(19)に定義されるとおりである。従って、時刻n+1における分散は以下によって与えられる。
【数16】
分散は10-6以下において切り取られ、これは、σ2 i,j,k,d(n)>10-6の制約を満足する。この分散の更新は図3のブロック88−2によって提供される。
【0052】
(6)混合重みの更新
パラメータ化された重みは以下に従って調節される。
【数17】
従って、時刻n+1における混合重みは以下によって与えられる。
【数18】
こうして、調節された混合重みは、訓練プロセスの際にΣk ci,j,k (n)=1及びci,j,k (n)>0の制約を満たす。混合重みの更新は図3のブロック88−3によって提供される。
【0053】
(7)状態遷移確率の更新:
左から右へのHMMにおいては、l番目のワードモデルのパラメータ化された遷移確率は以下によって調節される。
【数19】
【外6】
【0054】
従って、時刻(n+1)における遷移確率は以下によって与えられる。
【数20】
【外7】
【0055】
更新プロセッサ88によって計算される更新式(20−23)は、i番目の状態内でのi−番目の音響HMM認識ユニットモデルの更新された観察確率密度関数に、
【数21】
に従って関連付けられる。ここで、ci,j,k は混合重みであり、N(x、μi,j,k,Vi,j,k )はi番目の認識ユニットモデル、j番目の状態、及び対角共分散行列Vi,j,k を持つk番目の混合に対するD次元正規ガウス分布である。
【0056】
b.言語モデルの更新
言語モデルに対しては、音響モデルと同様に、更新は変換領域内で起こる。例えば、以下の変換がプロセッサ88によって使用される。
【0057】
(1)ユニグラム言語モデルからの確率の変換
【数22】
【外8】
【0058】
(2)バイグラム言語モデルからの確率の変換
【数23】
【外9】
【0059】
プロセッサ88によって遂行される言語モデルパラメータの更新は以下のように遂行される。
【外10】
【0060】
(3)ユニグラム言語モデル確率の更新:
【数24】
このユニグラム確率の更新は図3のブロック88−5によって提供される。
【0061】
(4)バイグラム言語モデル確率の更新:
【数25】
このバイグラム確率の更新は図3のブロック88−6によって提供される。
【0062】
c.結合モデルパラメータの更新
【外11】
【数26】
この結合モデルパラメータの更新は、図3のブロック88−7によって提供される。
【0063】
μ(n+1)、σ2(n+1)、c(n+1)、a(n+1)、P(Wi)(n+1)、P(Wi|Wj)(n+1)、及びαi(n+1)に対する値はブロック88−1乃至88−7によって出力される。図3に示されるように、Λu はμ、σ2、c、aP(Wi)、P(Wi|Wj)、及びαiから構成される。
【0064】
上に提供されるパラメータ更新に対する式はモデルパラメータを改善(enchance)するデータベース70からの単一音声訓練ストリングサンプルの使用に関する。ただし、改善されたトレイナ80はモデルパラメータを改善させるために複数回反復することも可能である。例えば、改善されたトレイナ80は、データベース70内の全ての訓練ストリングサンプルについて動作することもできる。但し、必要であれば、トレイナ80は、データベース70全体を通じて数回のパスについてあるいは「数ラウンド(rounds)」動作される。トレイナ80はサンプルの処理を複数の方法の任意の一つを使用して停止することができる。例えば、トレイナ80はサンプルのデータベース70を通じて固定されたランウド数が完了したとき停止する。但し、好ましくは、トレイナ80は、現ラウンドの全ての音声訓練ストリングの処理によってストリングエラー率が増分的にどれだけ改善されたかの記録を保持する。
【0065】
C.議論
本発明による実現の音響モデルは、特にHMMと関連するが、他のタイプの音響モデルを採用する認識器、例えば、スコアリングの方法として時間軸正規化法(D ynamic T ime W arping :DTW法)を採用するテンプレートに基づく音響認識器にも適用する。本発明を他のタイプの認識器に適応させるためには、式(8)内に関数gによって表わされるスコアリングの方法がその認識器のタイプを反映するように修正されなければならない。この修正はまたlの項内の認識ユニットモデルの更新プロセスにも影響を与える。
【0066】
上に説明の実施例においては、訓練音声の各サンプルストリングが順番に使用される。ストリングモデル更新プロセッサ88は識別器によって提供された情報を現サンプルストリングに取り入れ、上に提供された更新式に従ってモデルパラメータを更新する。プロセッサ88の計算上の複雑さは、主に、幾つの競合する候補ストリングモデルがモデルパラメータの推定のために使用されるべきかを決定する誤認尺度(misrecognition measure)の形式に依存する。
上に説明のように、改善されたトレイナ80の各反復は単一の音声訓練サンプルに関して動作する。但し、トレイナが複数のサンプルに基づいて更新されたセットのモデルパラメータΛU を提供するようにすることも可能である。これを行なうためには、ストリング誤認尺度プロセッサ82はdに対する値のベクトルを得るために音声ストリングサンプルのベクトルに関して動作し、ここで、各値はある与えられたストリングサンプルに対応する。ストリングモデル損失関数プロセッサ84はd値のベクトルを受信し、l値のベクトルを得るが、これらの各々は対応するdの値に基づく。ストリングモデル更新プロセッサ88は、上に説明のようにパラメータを更新するが、ここで、Λ(n)からΛ(n+1)への各更新は(N個のストリングサンプルの)単一の音声ストリングサンプルによって提供される。但し、全てのストリングサンプルは、一つのサンプルを処理した結果としてのΛ(n+1)が後続のサンプルを処理するためのΛ(n)として機能するように順番に使用される。複数のストリングサンプルに基づくΛの更新においては、(式18、20、22、24、30、31及び32)の右側のΛの値は一定に留まることに注意する。全てのストリングサンプルが処理された後に初めてΛI がAu としてデータベースに更新される。
【0067】
式(11)内に与えられた損失関数は本発明に適用される関数の一つのタイプにすぎないことに注意する。他のタイプの関数、例えば、双曲線正接(hyperbolic tangent)に基づく関数も提供可能である。即ち、l(d(X,Λ))=tanh(γd(X、Λ)である。
【0068】
式(13)によって一般的に、そして式(18、20、22、24、30、31及び32)によって具体的に記述されるプロセスは、ストリング損失関数の局所極小の識別を提供する。但し、損失関数のグローバル極小を見つけるための従来の技法、例えば、シミュレーテッド・アニーリング (simulated annealing)を適用することもできる。
【0069】
上記の観点から、当業者においては、本発明は話者に依存する音声認識及び話者とは独立の音声認識の両方に適用することが明らかである。
【0070】
加えて、本発明のこの一例としての実現は、音響及び言語モデルを線型的に結合するストリングモデルに関するが、当業者においては、本発明は、意味論モデル、音声学的モデル、シンタックスモデルなどの他の/追加の認識ソース及びモデルタイプ、並びに、非線型結合モデルを含む他の結合モデルを導入するストリングモデルにも適用できることが明白である。
【図面の簡単な説明】
【図1】本発明に従う一例としての音声認識システムを示す図である。
【図2】図1に現われる改善されたトレイナの一例としての実現を示す図である。
【図3】図2に現われるストリングモデル更新プロセッサの一つの実現を示す図である。
【符号の説明】
10 訓練音声
15、30 モードスイッチ
20 抽出器
40 比較器
50 スコアプロセッサ
60 従来のHMMトレイナ
70 認識モデルパラメータデータベース
75 発生器
80 改善されたトレイナ
90 訓練セクション
95 認識セクション
Claims (10)
- 訓練音声発声信号と現在の音声認識モデルの複数のセットとに基づいて音声認識モデルデータベースを作成する方法であって、この方法が、
a.1つ以上の混同し易いストリングモデルのセットを生成する段階からなり、該混同し易いストリングモデルは、該現在の音声認識モデルの2つ以上のセットからの複数の現在の音声認識モデルからなり、該モデルの少なくとも2つのセットの各々は異なる音声特性に相当し、該混同し易いストリングモデルは、訓練音声発声を表すことを選択したときには、訓練音声発声の誤認識となるであろうモデルであり、該方法はさらに、
b.訓練音声発声信号とその発声に対するストリングモデルとに基づいて第1のスコアリング信号を生成する段階からなり、該発声に対するストリングモデルは、該現在の音声認識モデルの2つ以上のセットからの複数の音声認識モデルからなり、該方法はさらに、
c.1つ以上の第2のスコアリング信号を生成する段階からなり、該第2のスコアリング信号は、訓練音声発声信号と混同し易いストリングモデルとに基づいており、該方法はさらに、
d.訓練音声発声を正確に認識する可能性と訓練音声発声を誤って認識する可能性との比較を反映した信号を生成する段階からなり、該訓練音声発声を正確に認識する該可能性は該第1のスコアリング信号に基づいており、該訓練音声発声を誤って認識する可能性は1つ以上の第2のスコアリング信号に基づいており、該方法は更に、
e.該発声に対するストリングモデルが該混同し易いストリングモデルよりも高いランク順位を有する確率を増加するよう、該可能性の比較を反映する信号に基づいて、該現在の音声認識モデルの1つ以上を修正する段階からなることを特徴とする方法。 - 請求項1に記載の方法において、該1つ以上の混同し易いストリングモデルのセットを生成する段階は、N個の最良ワードストリングモデルを生成する段階からなることを特徴とする方法。
- 請求項1に記載の方法において、該第1のスコアリング信号は、訓練音声発声信号とその発声に対するストリングモデルとの間の類似の尺度を反映することを特徴とする方法。
- 請求項1に記載の方法において、該第2のスコアリング信号は、訓練音声発声信号と該混同し易いストリングモデルの1つとの間の類似の尺度を反映することを特徴とする方法。
- 請求項1に記載の方法において、該比較を反映した信号を生成する段階は、該第1のスコアリング信号と該1つ以上の第2のスコアリング信号の結合との差異を形成する段階からなることを特徴とする方法。
- 請求項1に記載の方法において、該現在の音声認識モデルの1つ以上を修正する段階は、
1.ある関数の勾配を反映する認識モデル修正信号を生成する段階からなり、該関数は、その発声に対するストリングモデルに基づく訓練音声発声の認識スコアと、1つ以上の混同し易いストリングモデルに基づく訓練音声発声の1つ以上の認識スコアとを反映するものであり、該段階はさらに、
2.修正信号に基づいて該1つ以上の現在の音声認識モデルを適合する段階からなることを特徴とする方法。 - 訓練音声発声信号と現在の音声認識モデルの複数のセットとに基づいて音声認識モデルデータベースを作成する音声認識トレイナであって、
a.1つ以上の混同し易いストリングモデルのセットを生成する手段からなり、該混同し易いストリングモデルは、該現在の音声認識モデルの2つ以上のセットからの複数の現在の音声認識モデルからなり、該モデルの少なくとも2つのセットの各々は異なる音声特性に相当し、該混同し易いストリングモデルは、訓練音声発声を表すことを選択したときには、訓練音声発声の誤認識となるであろうモデルであり、該トレイナはさらに、
b.音声発声信号とその発声に対するストリングモデルとに基づいて第1のスコアリング信号を生成する手段からなり、該発声に対するストリングモデルは、該現在の音声認識モデルの2つ以上のセットからの複数の音声認識モデルからなり、該トレイナがさらに、
c.1つ以上の第2のスコアリング信号を生成する手段からなり、該第2のスコアリング信号は、訓練音声発声信号と混同し易いストリングモデルとに基づいており、該トレイナはさらに、
d.訓練音声発声を正確に認識する可能性と訓練音声発声を誤って認識する可能性との比較を反映した信号を生成する手段からなり、該訓練音声発声を正確に認識する可能性は該第1のスコアリング信号に基づいており、該訓練音声発声を誤って認識する可能性は1つ以上の第2のスコアリング信号に基づいており、該トレイナはさらに、
e.該発声に対するストリングモデルが該混同し易いストリングモデルよりも高いランク順位を有する確率を増加するよう、該可能性の比較を反映する信号に応動して、該現在の音声認識モデルの1つ以上を修正する手段とからなることを特徴とするトレイナ。 - 請求項7に記載のトレイナにおいて、該比較を反映した信号を生成する手段は、該第1のスコアリング信号と該1つ以上の第2のスコアリング信号の結合との間の差異を形成する手段からなることを特徴とするトレイナ。
- 請求項7に記載のトレイナにおいて、該1つ以上の現在の音声認識モデルを修正する手段は、
1.ある関数の勾配を反映する認識モデル修正信号を生成する手段からなり、該関数は、その発声に対するストリングモデルに基づく訓練音声発声の認識スコアと、1つ以上の混同し易いストリングモデルに基づく訓練音声発声の1つ以上の認識スコアとを反映するものであり、該トレイナはさらに、
2.修正信号に基づいて1つ以上の該現在の音声認識モデルを適合する手段からなることを特徴とするトレイナ。 - 音声認識システムであって、
a.未知の音声信号を受信して、該未知の音声信号を特性化する特徴信号を生成する特徴抽出器と、
b.音声認識モデルの複数のセットを格納するメモリからなり、正しいストリングモデルが他の複数の混同し易いストリングモデルよりも高いランク順位を有する確率を増加するよう、予め定められた音声認識モデルのパラメータを修正するプロセスに従って、1つ以上の該音声認識モデルが生成されるものであり、
該音声認識モデルの該少なくとも2つのセットの各々は異なる音声特性に相当し、該混同し易いストリングモデルは、訓練音声発声を表すことを選択したときには、訓練音声発声の誤認識となるであろうモデルであり、
該パラメータの修正は、訓練音声発声を正確に認識する可能性と訓練音声発声を誤って認識する可能性との比較に基づくものであり、該訓練音声発声を正確に認識する可能性は該第1のスコアリング信号に基づいており、該訓練音声発声を誤って認識する可能性は1つ以上の第2のスコアリング信号に基づいており、
該第1のスコアリング信号は、訓練音声発声信号とその発声に対するストリングモデルとに基づいており、該発声に対するストリングモデルは、該音声認識モデルの該少なくとも2つのセットからの複数の該音声認識モデルからなり、そして、
該第2のスコアリング信号の各々は、訓練音声発声信号と該混同しやすいストリングモデルの1つとに基づいて生成されており、該システムはさらに、
c.機能抽出器とメモリとに結合されたスコアプロセッサからなり、該スコアプロセッサは、音声認識モデルの該複数のセットからの1つ以上の該音声認識モデルからなるストリングモデルを未知の音声信号の特徴と比較し、そして未知の音声信号の特徴と最も良く一致する複数のストリングモデルの1つに基づいて未知の音声信号を認識する、ことを特徴とする音声認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US9614293A | 1993-07-22 | 1993-07-22 | |
US096142 | 1998-08-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07152394A JPH07152394A (ja) | 1995-06-16 |
JP3672595B2 true JP3672595B2 (ja) | 2005-07-20 |
Family
ID=22255736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16986594A Expired - Lifetime JP3672595B2 (ja) | 1993-07-22 | 1994-07-22 | 結合されたストリングモデルの最小誤認率訓練 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5606644A (ja) |
EP (1) | EP0635820B1 (ja) |
JP (1) | JP3672595B2 (ja) |
CA (1) | CA2126380C (ja) |
DE (1) | DE69422097T2 (ja) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
US5832430A (en) * | 1994-12-29 | 1998-11-03 | Lucent Technologies, Inc. | Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification |
US5845246A (en) * | 1995-02-28 | 1998-12-01 | Voice Control Systems, Inc. | Method for reducing database requirements for speech recognition systems |
JP3535292B2 (ja) * | 1995-12-27 | 2004-06-07 | Kddi株式会社 | 音声認識システム |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
US5895448A (en) * | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US5870706A (en) * | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6076057A (en) * | 1997-05-21 | 2000-06-13 | At&T Corp | Unsupervised HMM adaptation based on speech-silence discrimination |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US5950158A (en) * | 1997-07-30 | 1999-09-07 | Nynex Science And Technology, Inc. | Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models |
US5963902A (en) * | 1997-07-30 | 1999-10-05 | Nynex Science & Technology, Inc. | Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition |
US6076058A (en) * | 1998-03-02 | 2000-06-13 | Lucent Technologies Inc. | Linear trajectory models incorporating preprocessing parameters for speech recognition |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6076053A (en) * | 1998-05-21 | 2000-06-13 | Lucent Technologies Inc. | Methods and apparatus for discriminative training and adaptation of pronunciation networks |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
US6922669B2 (en) * | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US6574596B2 (en) * | 1999-02-08 | 2003-06-03 | Qualcomm Incorporated | Voice recognition rejection scheme |
GB9920257D0 (en) * | 1999-08-26 | 1999-10-27 | Canon Kk | Signal processing system |
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
KR100307623B1 (ko) * | 1999-10-21 | 2001-11-02 | 윤종용 | 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 |
US6847734B2 (en) * | 2000-01-28 | 2005-01-25 | Kabushiki Kaisha Toshiba | Word recognition method and storage medium that stores word recognition program |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
EP1199704A3 (de) * | 2000-10-17 | 2003-10-15 | Philips Intellectual Property & Standards GmbH | Auswahl der alternativen Wortfolgen für diskriminative Anpassung |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6754627B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Detecting speech recognition errors in an embedded speech recognition system |
US20030225719A1 (en) * | 2002-05-31 | 2003-12-04 | Lucent Technologies, Inc. | Methods and apparatus for fast and robust model training for object classification |
US7149687B1 (en) | 2002-07-29 | 2006-12-12 | At&T Corp. | Method of active learning for automatic speech recognition |
US8793127B2 (en) * | 2002-10-31 | 2014-07-29 | Promptu Systems Corporation | Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US20060235698A1 (en) * | 2005-04-13 | 2006-10-19 | Cane David A | Apparatus for controlling a home theater system by speech commands |
US7680659B2 (en) * | 2005-06-01 | 2010-03-16 | Microsoft Corporation | Discriminative training for language modeling |
EP2013869B1 (en) * | 2006-05-01 | 2017-12-13 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
WO2007142102A1 (ja) * | 2006-05-31 | 2007-12-13 | Nec Corporation | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム |
WO2008105263A1 (ja) * | 2007-02-28 | 2008-09-04 | Nec Corporation | 重み係数学習システム及び音声認識システム |
US7844456B2 (en) * | 2007-03-09 | 2010-11-30 | Microsoft Corporation | Grammar confusability metric for speech recognition |
US7925505B2 (en) * | 2007-04-10 | 2011-04-12 | Microsoft Corporation | Adaptation of language models and context free grammar in speech recognition |
US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
JP5141687B2 (ja) * | 2007-07-31 | 2013-02-13 | 富士通株式会社 | 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 |
GB2453366B (en) * | 2007-10-04 | 2011-04-06 | Toshiba Res Europ Ltd | Automatic speech recognition method and apparatus |
TWI372384B (en) * | 2007-11-21 | 2012-09-11 | Ind Tech Res Inst | Modifying method for speech model and modifying module thereof |
US8843370B2 (en) * | 2007-11-26 | 2014-09-23 | Nuance Communications, Inc. | Joint discriminative training of multiple speech recognizers |
CN102150156B (zh) * | 2008-07-03 | 2015-06-10 | 谷歌公司 | 优化用于机器翻译的参数 |
WO2010086044A1 (en) * | 2009-01-30 | 2010-08-05 | Siemens Aktiengesellschaft | Measurement of vibration characteristics of an object |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
US8438028B2 (en) * | 2010-05-18 | 2013-05-07 | General Motors Llc | Nametag confusability determination |
US8965763B1 (en) * | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US10297250B1 (en) * | 2013-03-11 | 2019-05-21 | Amazon Technologies, Inc. | Asynchronous transfer of audio data |
US9317736B1 (en) * | 2013-05-08 | 2016-04-19 | Amazon Technologies, Inc. | Individual record verification based on features |
US9159317B2 (en) * | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
US8868409B1 (en) * | 2014-01-16 | 2014-10-21 | Google Inc. | Evaluating transcriptions with a semantic parser |
KR102386854B1 (ko) | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
CN110675864A (zh) * | 2019-09-12 | 2020-01-10 | 上海依图信息技术有限公司 | 一种语音识别方法及装置 |
CN111883172B (zh) * | 2020-03-20 | 2023-11-28 | 珠海市杰理科技股份有限公司 | 用于音频丢包修复的神经网络训练方法、装置和系统 |
CN113707134B (zh) * | 2021-08-17 | 2024-05-17 | 北京搜狗科技发展有限公司 | 一种模型训练方法、装置和用于模型训练的装置 |
CN115512696B (zh) * | 2022-09-20 | 2024-09-13 | 中国第一汽车股份有限公司 | 模拟训练方法及车辆 |
CN117238276B (zh) * | 2023-11-10 | 2024-01-30 | 深圳市托普思维商业服务有限公司 | 一种基于智能化语音数据识别的分析纠正系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4882759A (en) * | 1986-04-18 | 1989-11-21 | International Business Machines Corporation | Synthesizing word baseforms used in speech recognition |
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5293451A (en) * | 1990-10-23 | 1994-03-08 | International Business Machines Corporation | Method and apparatus for generating models of spoken words based on a small number of utterances |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
US5280563A (en) * | 1991-12-20 | 1994-01-18 | Kurzweil Applied Intelligence, Inc. | Method of optimizing a composite speech recognition expert |
-
1994
- 1994-06-21 CA CA002126380A patent/CA2126380C/en not_active Expired - Lifetime
- 1994-07-13 EP EP94305139A patent/EP0635820B1/en not_active Expired - Lifetime
- 1994-07-13 DE DE69422097T patent/DE69422097T2/de not_active Expired - Lifetime
- 1994-07-22 JP JP16986594A patent/JP3672595B2/ja not_active Expired - Lifetime
-
1996
- 1996-04-26 US US08/638,408 patent/US5606644A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5606644A (en) | 1997-02-25 |
JPH07152394A (ja) | 1995-06-16 |
DE69422097T2 (de) | 2000-08-24 |
DE69422097D1 (de) | 2000-01-20 |
CA2126380A1 (en) | 1995-01-23 |
EP0635820B1 (en) | 1999-12-15 |
CA2126380C (en) | 1998-07-07 |
EP0635820A1 (en) | 1995-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3672595B2 (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
US6125345A (en) | Method and apparatus for discriminative utterance verification using multiple confidence measures | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US6076057A (en) | Unsupervised HMM adaptation based on speech-silence discrimination | |
US5953701A (en) | Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence | |
US5797123A (en) | Method of key-phase detection and verification for flexible speech understanding | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
US5857169A (en) | Method and system for pattern recognition based on tree organized probability densities | |
JP3053711B2 (ja) | 音声認識装置およびそのトレーニング方法ならびに装置 | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
Lee et al. | Improved acoustic modeling for large vocabulary continuous speech recognition | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
JPH0422276B2 (ja) | ||
JPH09127972A (ja) | 連結数字の認識のための発声識別立証 | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
Ney et al. | The RWTH large vocabulary continuous speech recognition system | |
Schlüter et al. | Interdependence of language models and discriminative training | |
Hain et al. | The cu-htk march 2000 hub5e transcription system | |
JP2004170765A (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
Lee et al. | Recent progress in the sphinx speech recognition system | |
Sukkar | Subword-based minimum verification error (SB-MVE) training for task independent utterance verification | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
JP2886118B2 (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JP2731133B2 (ja) | 連続音声認識装置 | |
JPH0822296A (ja) | パターン認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050420 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110428 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120428 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130428 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |