JP5134751B2 - 連続音声認識における識別訓練された混合モデル - Google Patents
連続音声認識における識別訓練された混合モデル Download PDFInfo
- Publication number
- JP5134751B2 JP5134751B2 JP2001573458A JP2001573458A JP5134751B2 JP 5134751 B2 JP5134751 B2 JP 5134751B2 JP 2001573458 A JP2001573458 A JP 2001573458A JP 2001573458 A JP2001573458 A JP 2001573458A JP 5134751 B2 JP5134751 B2 JP 5134751B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- state
- segment
- recognition
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 17
- 239000012634 fragment Substances 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000002864 sequence alignment Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 30
- 239000013598 vector Substances 0.000 description 27
- 238000009826 distribution Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000001783 ELP Anatomy 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
- G10L15/146—Training of HMMs with insufficient amount of training data, e.g. state sharing, tying, deleted interpolation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Display Devices Of Pinball Game Machines (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Pens And Brushes (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measuring Temperature Or Quantity Of Heat (AREA)
- Electrophonic Musical Instruments (AREA)
- Document Processing Apparatus (AREA)
Description
発明の分野
本発明は一般に自動音声認識に関し、更に詳しくは自動音声認識に用いられている隠れマルコフモデルの混合成分を調整する技術に関する。
【0002】
発明の背景
自動音声認識(ASR)システムの目的は、発声された語彙の識別を確定することである。認識プロセス(分類とも称される)は、音響信号をその信号の特定時点における重要な特性を記述するスペクトルベクトル又はスペクトルフレームのストリームに変換することから始まる。分類は、様々な単語に対応するスペクトルフレームの挙動アスペクトを記述する参照モデルを先ず形成するように試みられている。
【0003】
様々なモデルが開発されてきたが、これらのモデルは全て、特定の単語又は単語の部分に対して典型的なスペクトルの時間特性を示すという性質を共有する。入力発声から生じるスペクトルの系列がそれらのモデルと比較されて、様々なモデルが入力フレームの挙動を予測する成果によって、語彙の推定される識別が確定する。
【0004】
現在の殆どのシステムは、隠れマルコフモデル(hidden Markov Model:HMM)と称される統計モデルの何らかの変形を利用する。このようなモデルはアークによって結合される状態の系列からなり、各状態と関係付けられた確率密度関数(pdf)がその状態における所定のスペクトルベクトルが観測される尤度を記述する。別の系(set)の確率が状態の間の遷移を確定する。
【0005】
HMMの状態と関係付けられて観測されたスペクトルを記述する確率密度の場合には、様々なレベルのモデリング能力を利用可能である。それには2つの主要な手法、即ち離散的pdfと連続的pdfとがある。連続的pdfによれば、パラメータ関数が所定の状態に対する任意の入力スペクトルベクトルの確率を指定する。この目的のために使用する最も一般的な関数族は混合ガウス分布であり、ここでは任意のpdfが正規分布の重み付け合計によりモデル化される。連続的pdfを用いることの一つの欠点は、モデル化されるpdfの性質について、設計者が何らかの明確な仮定をたてねばならないことであり、これは、音声信号の実際の分布形態が知られていないことから非常に困難である。更に、連続的pdfモデルは、コンピュータ処理に関して離散的pdfモデルよりもはるかに多くの費用がかさむ。
【0006】
認識システムにおけるpdfの全数は、別個のHMM状態の個数に依存し、そのHMM状態の個数は使用されたモデルの形式(例えば音声モデルか単語モデルか)によって定まる。多くのシステムにおいては、異なるモデルからの状態をプールできる。即ち異なるモデルからの状態が共通の系又はプールからのpdfを共有できる。例えば、異なる音声文脈における所定の音素(即ち異音)を表す2つの異なるモデルからの幾つかの状態は、同様なpdfを持ち得る。幾つかのシステムにおいては、これらpdfは両方の状態により共有されるべき1つのpdfへ組み合わせられる。これはメモリを節約するために、また幾つかの例では訓練未了として知られている問題を解決するために実行し得る。
【0007】
モデルpdfは、それが離散的か連続的かによらず、最尤推定法(maximum likelihood method)を用いて最も普通に訓練されている。この方式においては、モデルパラメータは、所定のモデルに対し観測される訓練データの尤度が最大になるように調整される。しかしながら、この試みは必ずしも最適の認識性能を導かないことが知られている。この認識は、識別として知られる新たな訓練基準の開発を導き、その目的は、モデルパラメータを調整して、分布をデータへ適合させるのではなく、誤認識の数を最小化させることである。
【0008】
図1は、多次元ベクトル空間における入力音声フレームを表す特性ベクトル10、入力音声に対応するモデルからの「適正」状態SC11、及び入力音声に対応しないモデルからの「不適正」状態SI12を示す。図1に示すように、特性ベクトル10から適正状態SC11の最適分岐13(最も近接した混合成分)へのベクトル空間距離が、特性ベクトル10から不適正状態SI12の最適分岐14へのベクトル空間距離と同程度に非常に近似する。この状態では、適正状態SC11を不適正状態SI12から識別するための状態レベルにおける基礎が極めて乏しい。
【0009】
識別訓練は、適正状態SC11の最適分岐13を特性ベクトル10のベクトル空間位置に少しばかりより近いものに調整し、且つ不適正状態SI12の最適分岐14を特性ベクトル10のベクトル空間位置から更に少しばかり離れたものに調整するように試みる。従って特性ベクトル10のベクトル空間に近い新たな特性ベクトルは、不適正状態SI12によるよりも、適正状態SC11によるほうがより識別され易くなる。勿論、識別訓練は、多数の不適正状態に関して適正状態のベクトル空間を調整し得る。同様に、状態の最適分岐を調整するよりもむしろ各状態内の成分の混合系を調整し得る。
【0010】
識別訓練はかなり有望であることを示しているが、今迄は短い語彙や孤立語の認識作業に対して最も首尾よく適用されてきた。更に、識別訓練は多数の新たな問題を呈示し、この問題は例えば、識別訓練されたpdfを如何に適切に円滑にするか、これらのシステムを訓練データが比較的に少量の新たなユーザーへ如何に適合させるかということである。
【0011】
係属中の米国特許出願第08/818,072号(1997年3月14日出願、発明の名称”Speech Recognition System Employing Discriminatively Trained Models”)は、孤立語の文脈における識別訓練された多重解像度モデルを用いるシステムを説明している。しかしながら、それに説明された技術は、連続音声認識システムへ拡張するには非効率的である。
【0012】
発明の概要
本発明の代表的な実施形態は、システム認識語彙のために隠れマルコフを識別訓練する連続音声認識システムの方法を含む。入力語句は連続した標本フレームへ変換される。標本フレームの系列を伴う適正状態系列対応付け(alignment)が決定され、この適正状態系列対応付けは入力語句の単語のモデルに対応する。複数の不適正認識仮定の各々の仮定が音響モデルデータベースにおける単語モデルに基づく状態系列としたときに、その複数の不適正な認識は、入力語句に対応しない認識語彙における複数の単語を表すようになる。適正単語モデル状態系列対応付けの適正分節が識別訓練のために選択される。標本フレームの系列におけるフレームのフレーム分節が適正分節に対応して決定される。不適正認識仮定における状態系列の不適正分節がフレーム分節に対応して選択される。識別調整が、適正分節における選択された状態及び不適正分節における対応する状態について実行される。
【0013】
更なる実施形態においては、識別調整の実行は、音声認識システムによるユーザーセッションの終わりにおける一括訓練モードにおいて生じ、選択された状態及び対応する状態で実行された識別調整は、セッションに亘って計算された調整の和を表す。これに代えて、識別調整の実行は、選択された状態及び対応する状態が各入力語句について識別調整されるオンラインモードにおいて生じてもよい。
【0014】
識別調整の実行は、選択された状態及び対応する状態の言語モデル重み付けを用いることを含んでもよく、その場合、不適正認識仮定の選択された分節が単語モデル状態系列の断片部分であるときは、断片部分のための語彙モデル重み付けは、断片部分が表す単語モデルの断片量に対応する。識別調整は、適正仮定モデルにおける選択された状態及び不適正仮定における対応する状態の選択された分岐に対する勾配調整の実行を含む。勾配調整は各状態モデルにおける最適分岐に対して行い得る。
【0015】
本発明は添付図面を参照してなされる以下の詳細な説明を斟酌することにより一層容易に理解されよう。
【0016】
特定実施形態の詳細な説明
混合ガウス分布を用いる連続密度pdfにおいて、標準混合ガウス分布対数確率密度関数GMLPは、次のように表される。
【数1】
ここでN(Sr)は混合成分の数であり、a(Sr,k)は混合成分kが状態Srの重みであり、G(x;μ;Σ)は平均μ及び共分散Σを有する多変量ガウス分布の場合に観測されるx(t)の確率を示す。
【0017】
しかしながら、実験的検証は、混合ガウス分布の計算単純化形式をpdfとして採用し得ることを示している。単純化混合モデルの使用は計算負荷を低減させるのみならず、更には、このモデルにおける自由パラメータの数の結果的な減少が、限られた少量のデータによる訓練能力を相当に改善させる。従って一実施形態において使用される連続密度対数pdfは次のように表される。
【数2】
ここで、
【数3】
である。従って状態qi,pについての連続pdfモデルはN(qi,p)24次元平均ベクトルμからなる。正規化項が欠如しているため、CDLPは真の対数確率ではない。
【0018】
参照モデルiを有する入力発声の対応付けに対応する経路についてのスコアは、次のように表される。
【数4】
連続密度pdfの訓練における第1段階は下記の平均ベクトル
【数5】
の初期化である。これはモデルの離散的pdf成分を用いる状態に整合する入力発声フレームから各モデル状態についての従来の最尤 混合ガウス分布pdfを訓練することにより実行できる。平均ベクトルの全数は反復訓練の間に各状態に整合するデータフレームの変数を反映するように設定することができる。初期訓練が収束すると、高い確率を有する平均ベクトルが保持されて、一方、標準混合ガウス分布モデルに関連する他の全てのパラメータは放棄される。
【0019】
次の段階は平均ベクトルの識別訓練からなる。これは、誤認識率を反映する適切な訓練目標関数を規定すると共に、平均パラメータを最適化して、この関数を最小化させることにより達成される。目標関数の最小化に適用可能な従来の一つの技法は、勾配減少最適化である。勾配減少最適化は、例えばD. E.Rumelhart他著”Parallel Distributed Processing, Vol.1”(マサチューセッツ工科大学出版局)の第322頁−328頁に説明されており、その内容は本明細書に参照により組み込まれている。この試みにおいては、目標関数がモデルパラメータに関して微分されて、次いでこれらのパラメータが、比例する勾配の付加により変更される。次いで、変更されたパラメータを反映する新たな勾配が計算されて、パラメータが更に調整される。反復は収束が達成されるまで継続し、通常は、訓練データから独立する評価データにおける能力を監視することにより決定される。
【0020】
訓練データベースは、各訓練発声について候補認識モデルの短いリストを得ることにより前置処理される。孤立語(isolated word)音声認識システムにおいては、これらのリストは単一語モデルのリストとなるが、連続音声認識システムにおいては、このようなリストはモデル系列の説明を包含する。米国特許第5,386,492号(Wilson他)は、参照により本明細書に組み込まれており、孤立語音声入力についての候補モデルの小さな系を発生する一つの試みを説明している。各候補リストは例えば幾つかの適正モデル(部分集合C)、及び多数の不適正モデル(部分集合I)を包含する。各リストはスコアDiにより分類され、また増加された対応付け経路構造がリスト内の各参照モデルについて保持される。付加的に記憶された経路情報は次のように与えられる。
【数6】
ここでbiは特定の経路点において最適平均ベクトルの指数を記憶するのに用いられる。例えば、pがフレームx(fi,p)及び状態qi,pを結合すると、
【数7】
を得る。
【0021】
特定の訓練発声μについてのエラー関数εμは対ごとのエラー(the pair-wise error)関数oi,jから次のように計算される。
【数8】
ここで
【数9】
であり、βはスカラー乗数であり、Diは入力特徴及び適正モデル
【数10】
の対応付けスコアであり、Djは入力特徴及び不適正モデル
【数11】
の対応付けスコアである。これら系C及びIの大きさは、幾つの適正モデル及び不適正又は潜在的割り込みモデルを訓練に用いるかを決定するように制御できる。
【0022】
エラー関数oi,jは、適正モデルスコアDiが割り込みスコアDjよりも非常に大きい(即ち悪い)場合には1に近い値をとり、逆が真である場合は0に近い値をとる。0.5よりも大きなoi,jの値は誤認識を表し、一方、0.5未満の値は適正認識を表す。スカラー乗数パラメータβは訓練における「近似エラー」の影響を調整する。
【0023】
上述したように、発声と目標モデルiとの間のスコアDiは、対応付け経路をスコア付けすることにより次のように得られる。
【数12】
この式は次のように書き換えることができる。
【数13】
同様な表記によりDjについても書き換えることができる。エラー関数を平均ベクトルμ(s,k,l)の特定の成分に関して微分すると次式が与えられる。
【数14】
ここでδ(a,b)は、クロネッカーのデルタであって、a=bならば1に等しく、それ以外では0である。
【0024】
一括モード処理については、勾配は、全ての発声と適正−不適正対との全体に亘って次のように平均化される。
【数15】
ここでNC,I,μは、発声μについての適正−不適正モデル対の数である。平均成分は、比例する勾配の付加により次のように変形される。
【数16】
ここでwは重みであり、一つの反復におけるパラメータ系に対する変化の大きさを決める。
【0025】
一括モード識別訓練の各反復において、全ての訓練発声は、モデルパラメータが調整される前に処理される。これは、音声認識システムにおいて、或るユーザーが当人だけの発話者プロファイルを最初に形成するときの代表的な初期エンロールメントセッション(initial enrollment session)である。これは、各訓練発声が処理された後にモデルが調整される適応アルゴリズムを用いるモデルパラメータのオンライン訓練を実行させることも可能である。このモードは、標準的な使用期間中にユーザーが認識モデルを補正及び再訓練することの典型である。
【0026】
一括訓練と同様に、オンライン訓練は、特定の入力発声μについての候補系における適正及び不適正対応付け経路により特定された全ての現在のモデルパラメータについて、エラー関数勾配の計算を必要とする。しかしながら、一括訓練とは異なり、勾配は蓄積されずに、モデルパラメータへ直ちに適用されて、
【数17】
となる。記号Δμは、発声μが勾配を計算するのに用いられたことを示し、この手順は、先行する発声μ−1でおそらく適合した現在のモデルμ(s,k,l)μ―1で実行される。オンライン訓練の場合は、
【数18】
(一括モード訓練で用いられた重み)である。これは単独の発声から評価された変化の信頼性が完全な訓練系から評価されたものよりも低いと考えられるためである。認識エンジンは完璧には働かないので、オンライン勾配調整を実行しない形態も含むようにすることが都合がよく、これは例えば係属中の米国特許出願第08/818,072号などに説明されている。
【0027】
以上の説明は、孤立語音声認識システムにおけるモデルに対して識別訓練を与えるのに充分である。しかしながら、連続音声認識システムは、訓練モデル状態を識別するには複雑な試みである多重識別仮定を生成する。従って、連続音声認識システムにおける識別訓練を説明する前に、このような多重識別仮定を取り扱う技術について説明する。
【0028】
図2に示すように、連続音声認識システムは、入力発声20をとり、これをフレームベクトル22の系列へ分割して、入力発生に対応する多重認識仮定を表す音響出力ネットワーク(acoustic output network;AON)23を生成する。AON23においては、水平軸は時間であり、各ノード26は所定の単語を表し、一方、各アーク24は処理単語から所定の単語への経路を表す。
【0029】
AON23は、多機能を実行する小型で効率的なアークノードデータ構造である。AON23の主要な機能は、単語列又は「発音モデル」観点で認識装置の最適仮定を包含させると共に、各系列におけるモデルの様々な可能な「結合」時間に関する情報を記憶させることである。好ましくは、これらの結合点における各音響及び言語モデルスコアを記憶して、各々の文(sentence)仮定についての完全な経路の成分スコアを計算するのが比較的容易になるようにする。また、個々のモデルを通じた全ての可能な「経路」区画、それらの与えられた結合時間を記憶して、「経路」又は「音声フレーム/モデル状態対応付け」を所定の仮定について計算し得るようにすることも望ましい。
【0030】
一つの特定実施形態においては、図6において、各AONノード26に関連したスコアアレイ61があり、これは音響スコアのみと、単語認識及び言語モデル認識とを綴り62に加えて包含する。各アーク24には、スコアアレイ内の各時間についての状態追跡構造63、音響デルタ及びバイグラム(bigram)スコア64が関連している。一実施形態においては、最適経路からの汎音響デルタも各アーク24について保持される。単語の語頭及び語尾の綴り字の音素がそれぞれのアーク24において記憶される。局所的音響スコア及び言語モデルスコアはそれぞれのアークにおいてアクセス可能にせねばならず、時間情報も高速最尤エンロールメントのために有益である。AON23は上位N仮定のための抽出機能を包含してもよい。所定のノード24を通過する任意のスコアの最適スコアもAON23に記憶してもよく、これは上位N識別アルゴリズムの特定の実行を高速化するという効率的理由のためである。
【0031】
所定の入力発声20のためには、適正経路は、適正単語モデルの系列に対する入力フレーム22の制約された認識又は強制された対応付けにより決定し得る。識別訓練の最適化に応じて、部分的に制約された認識を、ユーザーが発声の一部のみを補正するときに実行してもよい。この場合、最初の認識単語列に割り当てられていたフレーム系列は、適正単語列に対して整合される。発声の残りの部分(即ちユーザーにより補正されていない部分)については、AON23から得られた対応付け及び経路を使用し得る。適正経路がAON23内に既に存在したか否かに関係なく、適正経路はAON23と共存する(AONの外側)。一実施形態は「拡張された(Extended)AON、即ちEAON」と称される構造を利用し、この構造は適性経路情報及び認識出力を包含する。EAONにおける各アークと、アークを通る全ての有効経路とに「適正」対応付けが得られると、経路の時間分節は、対応する一単語、又は適正モデル系列内で同時に存する複数の単語と比較される。もし、アークにより表される単語が特定の時間間隔において適正単語列で発見されたならば、このアークは「適正」としてマークを付け得る。
【0032】
更なる実施形態においては、標準的な認識装置が生成し得る仮定よりも、より多くの代替的な仮定を生成させることが望ましいこともあろう。この試みは「適正」単語を不利にさせて、AON23内に表れるそれらの単語に対する偏倚を生じるようにする。従って、より「不適正な」候補を識別訓練のために生成し得る。このように、より多くの「不適正な」単語を人為的に生成する技術は、状態混合モデルの一括訓練とは無関係の話者にとっては特に有益である。
【0033】
上述のように連続音声認識及びAONの説明に基づき、ここで識別訓練を単語モデル状態へ如何に適用するかについて検討する。識別訓練は、適正モデルと不適正モデルとの間の識別に関係する訓練発声情報のグループから学習するように試みられる。代表的な実施形態においては、この情報ひいては学習事項は、混合モデル平均(これは入力フレームと音響モデル状態との間の距離又はスコアを計算するための認識において使用し得る)に適用される。
【0034】
一般的な識別訓練の試みは、制約された認識を介して入力発声と適正モデル又は発音との「適正な」対応付けを得ることにより開始される。様々な可能な代替候補及び代替対応付けも標準的認識から得られる。これら二つの要請は、上述したようにEAONを形成することにより充足する。次いで、識別情報を学習するための代替候補のグループが選ばれる。或る共通入力分節についての適正及び不適正成分のためのスコアを、これらのスコアに基づいて識別情報を学習するための重みと共に計算する。勾配ベクトルを上述の対応付け及び重みに基づいて計算し、この勾配ベクトルを混合モデル平均へ加えて混合モデルを更新させる。
【0035】
図3に示すように、所定の適正単語認識モデル31は、初期状態S0 C で開始されるモデル状態の系列と最終状態S m C である。適正単語認識モデル31における各非ゼロ状態は、その垂直上方向のフレーム30a0乃至amの入力系列における非ゼロ状態は、その垂直上方の音響フレームに整合且つ対応する。図3
おいて、適正認識モデル31の初期及び最終状態内の黒丸は単語境界を示す。図3は4つの代替認識仮定A1 32、A2 33,A2 34,A4 35についての状態系列も示す。代替認識仮定における様々な状態の黒丸は単語境界を示す。
【0036】
図3に示される単語境界の位置から明らかなように、フレーム30a0乃至amの入力系列(これは適正単語認識モデル31により示されている)に対応する代替認識仮定における状態は、1つ以上の単語の不完全部分を示し得る。かかる状況の下では、状態に対する識別訓練調整を計算するに当たり、この効果を如何に考慮するかは、直観的には明らかでない。
【0037】
図4は一実施形態において用いるコスト関数の形状を示す。この関数の形状は基本的にS字状関数の形状であり、即ちここでは、
【数19】
である。
【0038】
図4の左は領域41であり、ここでは適正モデルが既に高精度である(即ち、識別訓練を必要としない)。図4の右は領域42であり、ここでは不適正モデルが適正モデルよりも入力信号へより近接しており、この場合、適正モデルは、識別訓練からの恩恵を受けるには(如何なる理由でも)入力信号から離れすぎている。図4の中心にあるのは領域40であり、ここでは適正モデル及び不適正モデルが共に入力信号へ比較的に近接している。この領域40は、モデルの識別訓練が、その結果としてのシステム性能に最大の有益な効果を持つことになる領域である。
【0039】
図5は図4のS字状コスト関数の導関数をとることから得られる重み付け関数を示す。領域41及び42は既に説明したように識別訓練についての良好な候補であることを示すので、図5の対応する領域51及び52においては、重み付け関数が定められない。中心領域50においては、重み付け関数が最大になり、ここでは適正及び不適正モデルが互いに近接する個所で(即ち垂直軸において)重み付け関数が最大となる。代替実施形態においては、コスト及び重み付け関数を個別に形成し得る。例えば、線形重み付け関数は適正モデルからのコスト関数を着実に更に増大させるので有益であろう。
【0040】
一つの特定実施形態においては、識別訓練についての代替認識候補の選択が、AONからの全ての「有効」アークを集めることにより開始される。有効経路は、初期雑音から最終雑音までAONを通じての完全な仮定の一部分を形成するものであり、また有効アークは、有効仮定の部分である少なくとも1つの経路を包含するものである。次いで、「適正」としてマークを付けられた有効アークが全て放棄される。各「不適正」アークについて、少なくとも1つの有効(及び独特な)経路が不適正経路として集められる。即ち、同一の経路が多くの完全な仮定の一部をなすならば、これは一回記憶されるのみである。次いで、このような不適正経路の各々について、局所的スコアが計算されて経路長により正規化される。スコアは、混合音響スコアのみか、或いは音響スコアと言語モデルスコアとの混合組合せかの何れかである。分節が複数の部分的な単語に亘る場合、言語モデルスコアは、考えられるフレームの数を反映するように調整し得る。また、言語モデルスコアは、例えば、0が純粋な音響スコアである0乃至1のスケールで重み付けし得る。
【0041】
この不適正経路のリストは、正規化音響又は混合スコア(最下1位)に従って記憶される。上記リストにおける各候補について、その候補と、この候補のT個のフレームの時間ウィンドウ内で開始されるN個のベストの経路とが識別訓練のために選ばれる。
【0042】
代替認識候補のグループが識別訓練のために選ばれると、「適正」及び「代替」スコア及び重みを計算する必要がある。上述のような不適正経路の各々について、適正経路からの対応経路を抽出し得るので、混合モデル音響スコア及び言語モデルスコアが計算される。次いで重みを、事前に規定された重み付け関数に従って適正及び不適正候補スコアから計算し得る。これは、適正及びそれに対応する不適正/代替経路区分の長さ正規化スコア差の関数としての重みを与える。
【0043】
平均勾配の計算は、適正及び不適正経路分節が得られれば有効となれば実行し得る。デルタベクトル(状態平均、フレーム対の間のチャンネル値における差)を上述の重みを用いて計算して重み付け得る。差は、それらが「適正」対応付けから導出されたならば正であり、また「不適正」対応付けから導出されたならば負である。一実施形態においては、適正経路と不適正経路とが所定のフレームについて同一の状態を包含するならば、適正分節からの正チャンネルデルタのみが計算されて識別訓練に用いられる。他の実施形態においては、このような共有状態について、正及び負の寄与は相殺される。
【0044】
適正モデルと不適正代替モデルとが同一状態を共有する場合、このような共有状態を識別訓練の目的のためには無視することが望ましいであろう。この選択は、そのような共有状態からの押し寄せ現象(swamping effect)を回避する。
【0045】
識別のために最も有力な代替モデルを最初に選ぶことが好ましい。これは、比較的小さな影響を有する間隔ごとに多数の代替モデルを処理する必要を避けるためである。例えば、正規化された個々のスコアではなく、正規化されたデルタスコアにより代替モデルを分類することが望ましいであろう。
【0046】
本発明の様々な例示的実施形態について説明したが、当業者には、本発明の趣旨から逸脱することなく、本発明の幾つかの利点を達成する多数の変形例及び変更例を実施し得ることが明白である。
【図面の簡単な説明】
【図1】 図1は識別訓練の一般的な原理を示す図である。
【図2】 図2は連続音声認識システムにおける認識仮定の音響出力ネットワークを示す図である。
【図3】 図3は入力フレームに関する適正認識モデル及び様々な代替認識モデルの状態系列を示す図である。
【図4】 図4は本発明の一実施形態における識別調整のためのコスト関数を示す図である。
【図5】 図5は図4のコスト関数のための識別訓練重み付け関数を示す図である。
【図6】 図6は音響出力ネットワークにおけるノード及びアークの構造的詳細を示す図である。
Claims (7)
- システム認識語彙のための隠れマルコフモデルを識別訓練する連続音声認識システムの方法であって、
入力語句を標本フレーム系列へ変換する段階と、
音響出力ネットワークを形成する段階であり、その音響出力ネットワークは、
i.前記標本フレーム系列に整合する適正状態系列であり、その適正状態系列整合は、前記入力語句における単語のモデルに対応する適正状態系列と、
ii.前記入力語句に対応しない認識語彙内の単語を表す複数の不適正認識仮定であり、各仮定は音響モデルデータベース内の単語モデルに基づく状態系列である不適正認識仮定とを含み、
認識訓練のために前記音響出力ネットワークから適正単語モデル状態系列整合の適正分節を選択して、
前記適正分節に対応する前記標本フレーム系列におけるフレームのフレーム分節を決定し、
不適正認識仮定における単語モデル状態系列の断片部分の不適正分節を選択し、その不適正分節は前記フレーム分節に対応し、
前記適正分節における選択された状態と前記不適正分節における対応する状態とにおいて識別調整を実行し、この識別調整には、前記断片部分が表す単語モデルの断片的な量について前記選択された適正状態及び対応する不適正状態の重み付けをする言語モデルを用いる方法。 - 請求項1の方法において、識別訓練の実行が前記音声認識システムとのユーザーセッションの終端における一括訓練モードにおいて生じ、且つ前記選択された状態及び対応する状態で実行される前記識別訓練が、前記セッションに亘って計算された調整の和を表す方法。
- 請求項1の方法において、前記識別調整の実行がオンラインモードで生じ、ここで前記選択された状態及び対応する状態が各入力語句について識別的に調整される方法。
- 請求項1の方法において、前記識別調整が、前記適正仮定モデルにおける選択された状態と前記不適正仮定における対応する状態との選択された分岐に対して勾配調整を実行することを含む方法。
- 請求項4の方法において、前記勾配調整が、各状態モデルにおける最適分岐に対してなされる方法。
- 請求項1の方法において、前記隠れマルコフモデルが話者独立モデルである方法。
- 請求項1の方法において、前記隠れマルコフモデルが話者依存モデルである方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/543,202 US6490555B1 (en) | 1997-03-14 | 2000-04-05 | Discriminatively trained mixture models in continuous speech recognition |
US09/543,202 | 2000-04-05 | ||
PCT/IB2001/000726 WO2001075862A2 (en) | 2000-04-05 | 2001-04-03 | Discriminatively trained mixture models in continuous speech recognition |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004512544A JP2004512544A (ja) | 2004-04-22 |
JP2004512544A5 JP2004512544A5 (ja) | 2011-03-24 |
JP5134751B2 true JP5134751B2 (ja) | 2013-01-30 |
Family
ID=24167006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001573458A Expired - Fee Related JP5134751B2 (ja) | 2000-04-05 | 2001-04-03 | 連続音声認識における識別訓練された混合モデル |
Country Status (7)
Country | Link |
---|---|
US (1) | US6490555B1 (ja) |
EP (1) | EP1269464B1 (ja) |
JP (1) | JP5134751B2 (ja) |
AT (1) | ATE398323T1 (ja) |
AU (1) | AU2001250579A1 (ja) |
DE (1) | DE60134395D1 (ja) |
WO (1) | WO2001075862A2 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7020845B1 (en) * | 1999-11-15 | 2006-03-28 | Gottfurcht Elliot A | Navigating internet content on a television using a simplified interface and a remote control |
US7003455B1 (en) * | 2000-10-16 | 2006-02-21 | Microsoft Corporation | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech |
DE10120513C1 (de) | 2001-04-26 | 2003-01-09 | Siemens Ag | Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache |
AUPR579601A0 (en) * | 2001-06-19 | 2001-07-12 | Syrinx Speech Systems Pty Limited | On-line environmental and speaker model adaptation |
US20040150676A1 (en) * | 2002-03-25 | 2004-08-05 | Gottfurcht Elliot A. | Apparatus and method for simple wide-area network navigation |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
FI121583B (fi) * | 2002-07-05 | 2011-01-14 | Syslore Oy | Symbolijonon etsintä |
US7752045B2 (en) * | 2002-10-07 | 2010-07-06 | Carnegie Mellon University | Systems and methods for comparing speech elements |
EP1450350A1 (en) * | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Method for Recognizing Speech with attributes |
US20040193412A1 (en) * | 2003-03-18 | 2004-09-30 | Aurilab, Llc | Non-linear score scrunching for more efficient comparison of hypotheses |
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
US8019602B2 (en) * | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
GB0420464D0 (en) | 2004-09-14 | 2004-10-20 | Zentian Ltd | A speech recognition circuit and method |
EP1743897A1 (en) * | 2005-07-15 | 2007-01-17 | Gesellschaft für Biotechnologische Forschung mbH | Biologically active compounds obtainable from Sorangium cellulosum |
US20070083373A1 (en) * | 2005-10-11 | 2007-04-12 | Matsushita Electric Industrial Co., Ltd. | Discriminative training of HMM models using maximum margin estimation for speech recognition |
US8301449B2 (en) * | 2006-10-16 | 2012-10-30 | Microsoft Corporation | Minimum classification error training with growth transformation optimization |
US7885812B2 (en) * | 2006-11-15 | 2011-02-08 | Microsoft Corporation | Joint training of feature extraction and acoustic model parameters for speech recognition |
US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
US7856351B2 (en) * | 2007-01-19 | 2010-12-21 | Microsoft Corporation | Integrated speech recognition and semantic classification |
US8423364B2 (en) * | 2007-02-20 | 2013-04-16 | Microsoft Corporation | Generic framework for large-margin MCE training in speech recognition |
EP2133868A4 (en) * | 2007-02-28 | 2013-01-16 | Nec Corp | WEIGHT COEFFICIENT LEARNING SYSTEM AND AUDIO RECOGNITION SYSTEM |
US20080243503A1 (en) * | 2007-03-30 | 2008-10-02 | Microsoft Corporation | Minimum divergence based discriminative training for pattern recognition |
US8239332B2 (en) | 2007-11-20 | 2012-08-07 | Microsoft Corporation | Constrained line search optimization for discriminative training of HMMS |
US8843370B2 (en) * | 2007-11-26 | 2014-09-23 | Nuance Communications, Inc. | Joint discriminative training of multiple speech recognizers |
WO2009078256A1 (ja) * | 2007-12-18 | 2009-06-25 | Nec Corporation | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
US9240184B1 (en) * | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
US9817881B2 (en) * | 2013-10-16 | 2017-11-14 | Cypress Semiconductor Corporation | Hidden markov model processing engine |
JP6461308B2 (ja) * | 2015-04-16 | 2019-01-30 | 三菱電機株式会社 | 音声認識装置およびリスコアリング装置 |
CN111354344B (zh) * | 2020-03-09 | 2023-08-22 | 第四范式(北京)技术有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4741036A (en) | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5388183A (en) | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
US5280563A (en) | 1991-12-20 | 1994-01-18 | Kurzweil Applied Intelligence, Inc. | Method of optimizing a composite speech recognition expert |
EP0559349B1 (en) | 1992-03-02 | 1999-01-07 | AT&T Corp. | Training method and apparatus for speech recognition |
US5832430A (en) * | 1994-12-29 | 1998-11-03 | Lucent Technologies, Inc. | Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification |
US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
US5737489A (en) * | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US5991720A (en) * | 1996-05-06 | 1999-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech recognition system employing multiple grammar networks |
JPH10207485A (ja) * | 1997-01-22 | 1998-08-07 | Toshiba Corp | 音声認識装置及び話者適応方法 |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US6292778B1 (en) * | 1998-10-30 | 2001-09-18 | Lucent Technologies Inc. | Task-independent utterance verification with subword-based minimum verification error training |
US7216079B1 (en) | 1999-11-02 | 2007-05-08 | Speechworks International, Inc. | Method and apparatus for discriminative training of acoustic models of a speech recognition system |
-
2000
- 2000-04-05 US US09/543,202 patent/US6490555B1/en not_active Expired - Lifetime
-
2001
- 2001-04-03 JP JP2001573458A patent/JP5134751B2/ja not_active Expired - Fee Related
- 2001-04-03 WO PCT/IB2001/000726 patent/WO2001075862A2/en active IP Right Grant
- 2001-04-03 DE DE60134395T patent/DE60134395D1/de not_active Expired - Lifetime
- 2001-04-03 AT AT01923898T patent/ATE398323T1/de not_active IP Right Cessation
- 2001-04-03 AU AU2001250579A patent/AU2001250579A1/en not_active Abandoned
- 2001-04-03 EP EP01923898A patent/EP1269464B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ATE398323T1 (de) | 2008-07-15 |
EP1269464A2 (en) | 2003-01-02 |
US6490555B1 (en) | 2002-12-03 |
WO2001075862A3 (en) | 2002-01-10 |
DE60134395D1 (de) | 2008-07-24 |
JP2004512544A (ja) | 2004-04-22 |
WO2001075862A2 (en) | 2001-10-11 |
EP1269464B1 (en) | 2008-06-11 |
AU2001250579A1 (en) | 2001-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5134751B2 (ja) | 連続音声認識における識別訓練された混合モデル | |
EP0966736B1 (en) | Method for discriminative training of speech recognition models | |
JP3549681B2 (ja) | 連結数字の認識のための発声識別立証 | |
EP0635820B1 (en) | Minimum error rate training of combined string models | |
JP3683177B2 (ja) | 音声認識のための文脈依存モデルの作成方法 | |
US7693713B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
JP4109063B2 (ja) | 音声認識装置及び音声認識方法 | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
WO1998040876A9 (en) | Speech recognition system employing discriminatively trained models | |
JP6110945B2 (ja) | 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム | |
EP0788649A2 (en) | Method and system for pattern recognition based on tree organised probability densities | |
JPH11272291A (ja) | 音響判断ツリ―を用いたフォネティック・モデル化方法 | |
JPH07506198A (ja) | 複合エキスパート | |
McDermott et al. | Prototype-based discriminative training for various speech units | |
JP2000298495A (ja) | 音声認識装置用の回帰クラス木構造の指定方法 | |
JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
JP2886118B2 (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JPH0822296A (ja) | パターン認識方法 | |
JP3105708B2 (ja) | 音声認識装置 | |
JPH10207485A (ja) | 音声認識装置及び話者適応方法 | |
JPH06175678A (ja) | 音声認識装置 | |
Zheng et al. | Effective acoustic modeling for rate-of-speech variation in large vocabulary conversational speech recognition | |
CN112599121A (zh) | 基于辅助数据正则化的说话人自适应方法 | |
MRÓWKA et al. | Some comments about the existing theory of sound with comparison to the experimental research of vector effects in real-life acoustic near fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100803 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101104 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101111 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101203 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101210 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110104 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110112 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20110203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121016 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |