JP5134751B2

JP5134751B2 - 連続音声認識における識別訓練された混合モデル

Info

Publication number: JP5134751B2
Application number: JP2001573458A
Authority: JP
Inventors: イェグナナラヤナン、ジリジャ; セージノハ、ウラジミール; サルッカイ、ラメシュ
Original assignee: スキャンソフト・インク
Priority date: 2000-04-05
Filing date: 2001-04-03
Publication date: 2013-01-30
Anticipated expiration: 2021-04-03
Also published as: ATE398323T1; EP1269464A2; US6490555B1; WO2001075862A3; DE60134395D1; JP2004512544A; WO2001075862A2; EP1269464B1; AU2001250579A1

Description

【０００１】
発明の分野
本発明は一般に自動音声認識に関し、更に詳しくは自動音声認識に用いられている隠れマルコフモデルの混合成分を調整する技術に関する。
【０００２】
発明の背景
自動音声認識(ASR)システムの目的は、発声された語彙の識別を確定することである。認識プロセス（分類とも称される）は、音響信号をその信号の特定時点における重要な特性を記述するスペクトルベクトル又はスペクトルフレームのストリームに変換することから始まる。分類は、様々な単語に対応するスペクトルフレームの挙動アスペクトを記述する参照モデルを先ず形成するように試みられている。
【０００３】
様々なモデルが開発されてきたが、これらのモデルは全て、特定の単語又は単語の部分に対して典型的なスペクトルの時間特性を示すという性質を共有する。入力発声から生じるスペクトルの系列がそれらのモデルと比較されて、様々なモデルが入力フレームの挙動を予測する成果によって、語彙の推定される識別が確定する。
【０００４】
現在の殆どのシステムは、隠れマルコフモデル(hidden Markov Model:HMM)と称される統計モデルの何らかの変形を利用する。このようなモデルはアークによって結合される状態の系列からなり、各状態と関係付けられた確率密度関数(pdf)がその状態における所定のスペクトルベクトルが観測される尤度を記述する。別の系(set)の確率が状態の間の遷移を確定する。
【０００５】
ＨＭＭの状態と関係付けられて観測されたスペクトルを記述する確率密度の場合には、様々なレベルのモデリング能力を利用可能である。それには２つの主要な手法、即ち離散的ｐｄｆと連続的ｐｄｆとがある。連続的ｐｄｆによれば、パラメータ関数が所定の状態に対する任意の入力スペクトルベクトルの確率を指定する。この目的のために使用する最も一般的な関数族は混合ガウス分布であり、ここでは任意のｐｄｆが正規分布の重み付け合計によりモデル化される。連続的ｐｄｆを用いることの一つの欠点は、モデル化されるｐｄｆの性質について、設計者が何らかの明確な仮定をたてねばならないことであり、これは、音声信号の実際の分布形態が知られていないことから非常に困難である。更に、連続的ｐｄｆモデルは、コンピュータ処理に関して離散的ｐｄｆモデルよりもはるかに多くの費用がかさむ。
【０００６】
認識システムにおけるｐｄｆの全数は、別個のＨＭＭ状態の個数に依存し、そのＨＭＭ状態の個数は使用されたモデルの形式（例えば音声モデルか単語モデルか）によって定まる。多くのシステムにおいては、異なるモデルからの状態をプールできる。即ち異なるモデルからの状態が共通の系又はプールからのｐｄｆを共有できる。例えば、異なる音声文脈における所定の音素（即ち異音）を表す２つの異なるモデルからの幾つかの状態は、同様なｐｄｆを持ち得る。幾つかのシステムにおいては、これらｐｄｆは両方の状態により共有されるべき１つのｐｄｆへ組み合わせられる。これはメモリを節約するために、また幾つかの例では訓練未了として知られている問題を解決するために実行し得る。
【０００７】
モデルｐｄｆは、それが離散的か連続的かによらず、最尤推定法(maximum likelihood method)を用いて最も普通に訓練されている。この方式においては、モデルパラメータは、所定のモデルに対し観測される訓練データの尤度が最大になるように調整される。しかしながら、この試みは必ずしも最適の認識性能を導かないことが知られている。この認識は、識別として知られる新たな訓練基準の開発を導き、その目的は、モデルパラメータを調整して、分布をデータへ適合させるのではなく、誤認識の数を最小化させることである。
【０００８】
図１は、多次元ベクトル空間における入力音声フレームを表す特性ベクトル１０、入力音声に対応するモデルからの「適正」状態Ｓ_Ｃ１１、及び入力音声に対応しないモデルからの「不適正」状態Ｓ_Ｉ１２を示す。図１に示すように、特性ベクトル１０から適正状態Ｓ_Ｃ１１の最適分岐１３（最も近接した混合成分）へのベクトル空間距離が、特性ベクトル１０から不適正状態Ｓ_Ｉ１２の最適分岐１４へのベクトル空間距離と同程度に非常に近似する。この状態では、適正状態Ｓ_Ｃ１１を不適正状態Ｓ_Ｉ１２から識別するための状態レベルにおける基礎が極めて乏しい。
【０００９】
識別訓練は、適正状態Ｓ_Ｃ１１の最適分岐１３を特性ベクトル１０のベクトル空間位置に少しばかりより近いものに調整し、且つ不適正状態Ｓ_Ｉ１２の最適分岐１４を特性ベクトル１０のベクトル空間位置から更に少しばかり離れたものに調整するように試みる。従って特性ベクトル１０のベクトル空間に近い新たな特性ベクトルは、不適正状態Ｓ_Ｉ１２によるよりも、適正状態Ｓ_Ｃ１１によるほうがより識別され易くなる。勿論、識別訓練は、多数の不適正状態に関して適正状態のベクトル空間を調整し得る。同様に、状態の最適分岐を調整するよりもむしろ各状態内の成分の混合系を調整し得る。
【００１０】
識別訓練はかなり有望であることを示しているが、今迄は短い語彙や孤立語の認識作業に対して最も首尾よく適用されてきた。更に、識別訓練は多数の新たな問題を呈示し、この問題は例えば、識別訓練されたｐｄｆを如何に適切に円滑にするか、これらのシステムを訓練データが比較的に少量の新たなユーザーへ如何に適合させるかということである。
【００１１】
係属中の米国特許出願第０８／８１８，０７２号（１９９７年３月１４日出願、発明の名称”Speech Recognition System Employing Discriminatively Trained Models”）は、孤立語の文脈における識別訓練された多重解像度モデルを用いるシステムを説明している。しかしながら、それに説明された技術は、連続音声認識システムへ拡張するには非効率的である。
【００１２】
発明の概要
本発明の代表的な実施形態は、システム認識語彙のために隠れマルコフを識別訓練する連続音声認識システムの方法を含む。入力語句は連続した標本フレームへ変換される。標本フレームの系列を伴う適正状態系列対応付け(alignment)が決定され、この適正状態系列対応付けは入力語句の単語のモデルに対応する。複数の不適正認識仮定の各々の仮定が音響モデルデータベースにおける単語モデルに基づく状態系列としたときに、その複数の不適正な認識は、入力語句に対応しない認識語彙における複数の単語を表すようになる。適正単語モデル状態系列対応付けの適正分節が識別訓練のために選択される。標本フレームの系列におけるフレームのフレーム分節が適正分節に対応して決定される。不適正認識仮定における状態系列の不適正分節がフレーム分節に対応して選択される。識別調整が、適正分節における選択された状態及び不適正分節における対応する状態について実行される。
【００１３】
更なる実施形態においては、識別調整の実行は、音声認識システムによるユーザーセッションの終わりにおける一括訓練モードにおいて生じ、選択された状態及び対応する状態で実行された識別調整は、セッションに亘って計算された調整の和を表す。これに代えて、識別調整の実行は、選択された状態及び対応する状態が各入力語句について識別調整されるオンラインモードにおいて生じてもよい。
【００１４】
識別調整の実行は、選択された状態及び対応する状態の言語モデル重み付けを用いることを含んでもよく、その場合、不適正認識仮定の選択された分節が単語モデル状態系列の断片部分であるときは、断片部分のための語彙モデル重み付けは、断片部分が表す単語モデルの断片量に対応する。識別調整は、適正仮定モデルにおける選択された状態及び不適正仮定における対応する状態の選択された分岐に対する勾配調整の実行を含む。勾配調整は各状態モデルにおける最適分岐に対して行い得る。
【００１５】
本発明は添付図面を参照してなされる以下の詳細な説明を斟酌することにより一層容易に理解されよう。
【００１６】
特定実施形態の詳細な説明
混合ガウス分布を用いる連続密度ｐｄｆにおいて、標準混合ガウス分布対数確率密度関数ＧＭＬＰは、次のように表される。
【数１】

ここでＮ（Ｓ_ｒ）は混合成分の数であり、ａ（Ｓ_ｒ，ｋ）は混合成分ｋが状態Ｓ_ｒの重みであり、Ｇ（ｘ；μ；Σ）は平均μ及び共分散Σを有する多変量ガウス分布の場合に観測されるｘ（ｔ）の確率を示す。
【００１７】
しかしながら、実験的検証は、混合ガウス分布の計算単純化形式をｐｄｆとして採用し得ることを示している。単純化混合モデルの使用は計算負荷を低減させるのみならず、更には、このモデルにおける自由パラメータの数の結果的な減少が、限られた少量のデータによる訓練能力を相当に改善させる。従って一実施形態において使用される連続密度対数ｐｄｆは次のように表される。
【数２】

ここで、
【数３】

である。従って状態ｑ_ｉ，ｐについての連続ｐｄｆモデルはＮ（ｑ_ｉ，ｐ）２４次元平均ベクトルμからなる。正規化項が欠如しているため、ＣＤＬＰは真の対数確率ではない。
【００１８】
参照モデルｉを有する入力発声の対応付けに対応する経路についてのスコアは、次のように表される。
【数４】

連続密度ｐｄｆの訓練における第１段階は下記の平均ベクトル
【数５】

の初期化である。これはモデルの離散的ｐｄｆ成分を用いる状態に整合する入力発声フレームから各モデル状態についての従来の最尤混合ガウス分布ｐｄｆを訓練することにより実行できる。平均ベクトルの全数は反復訓練の間に各状態に整合するデータフレームの変数を反映するように設定することができる。初期訓練が収束すると、高い確率を有する平均ベクトルが保持されて、一方、標準混合ガウス分布モデルに関連する他の全てのパラメータは放棄される。
【００１９】
次の段階は平均ベクトルの識別訓練からなる。これは、誤認識率を反映する適切な訓練目標関数を規定すると共に、平均パラメータを最適化して、この関数を最小化させることにより達成される。目標関数の最小化に適用可能な従来の一つの技法は、勾配減少最適化である。勾配減少最適化は、例えばD. E.Rumelhart他著”Parallel Distributed Processing, Vol.1”（マサチューセッツ工科大学出版局）の第３２２頁−３２８頁に説明されており、その内容は本明細書に参照により組み込まれている。この試みにおいては、目標関数がモデルパラメータに関して微分されて、次いでこれらのパラメータが、比例する勾配の付加により変更される。次いで、変更されたパラメータを反映する新たな勾配が計算されて、パラメータが更に調整される。反復は収束が達成されるまで継続し、通常は、訓練データから独立する評価データにおける能力を監視することにより決定される。
【００２０】
訓練データベースは、各訓練発声について候補認識モデルの短いリストを得ることにより前置処理される。孤立語(isolated word)音声認識システムにおいては、これらのリストは単一語モデルのリストとなるが、連続音声認識システムにおいては、このようなリストはモデル系列の説明を包含する。米国特許第５，３８６，４９２号（Wilson他）は、参照により本明細書に組み込まれており、孤立語音声入力についての候補モデルの小さな系を発生する一つの試みを説明している。各候補リストは例えば幾つかの適正モデル（部分集合Ｃ）、及び多数の不適正モデル（部分集合Ｉ）を包含する。各リストはスコアＤ_ｉにより分類され、また増加された対応付け経路構造がリスト内の各参照モデルについて保持される。付加的に記憶された経路情報は次のように与えられる。
【数６】

ここでｂ_ｉは特定の経路点において最適平均ベクトルの指数を記憶するのに用いられる。例えば、ｐがフレームｘ（ｆ_ｉ，ｐ）及び状態ｑ_ｉ，ｐを結合すると、
【数７】

を得る。
【００２１】
特定の訓練発声μについてのエラー関数ε_μは対ごとのエラー(the pair-wise error)関数ｏ_ｉ，ｊから次のように計算される。
【数８】

ここで
【数９】

であり、βはスカラー乗数であり、Ｄ_ｉは入力特徴及び適正モデル
【数１０】

の対応付けスコアであり、Ｄ_ｊは入力特徴及び不適正モデル
【数１１】

の対応付けスコアである。これら系Ｃ及びＩの大きさは、幾つの適正モデル及び不適正又は潜在的割り込みモデルを訓練に用いるかを決定するように制御できる。
【００２２】
エラー関数ｏ_ｉ，ｊは、適正モデルスコアＤ_ｉが割り込みスコアＤ_ｊよりも非常に大きい（即ち悪い）場合には１に近い値をとり、逆が真である場合は０に近い値をとる。０．５よりも大きなｏ_ｉ，ｊの値は誤認識を表し、一方、０．５未満の値は適正認識を表す。スカラー乗数パラメータβは訓練における「近似エラー」の影響を調整する。
【００２３】
上述したように、発声と目標モデルｉとの間のスコアＤ_ｉは、対応付け経路をスコア付けすることにより次のように得られる。
【数１２】

この式は次のように書き換えることができる。
【数１３】

同様な表記によりＤ_ｊについても書き換えることができる。エラー関数を平均ベクトルμ（ｓ，ｋ，ｌ）の特定の成分に関して微分すると次式が与えられる。
【数１４】

ここでδ（ａ，ｂ）は、クロネッカーのデルタであって、ａ＝ｂならば１に等しく、それ以外では０である。
【００２４】
一括モード処理については、勾配は、全ての発声と適正−不適正対との全体に亘って次のように平均化される。
【数１５】

ここでＮ_{Ｃ，Ｉ，μ}は、発声μについての適正−不適正モデル対の数である。平均成分は、比例する勾配の付加により次のように変形される。
【数１６】

ここでｗは重みであり、一つの反復におけるパラメータ系に対する変化の大きさを決める。
【００２５】
一括モード識別訓練の各反復において、全ての訓練発声は、モデルパラメータが調整される前に処理される。これは、音声認識システムにおいて、或るユーザーが当人だけの発話者プロファイルを最初に形成するときの代表的な初期エンロールメントセッション(initial enrollment session)である。これは、各訓練発声が処理された後にモデルが調整される適応アルゴリズムを用いるモデルパラメータのオンライン訓練を実行させることも可能である。このモードは、標準的な使用期間中にユーザーが認識モデルを補正及び再訓練することの典型である。
【００２６】
一括訓練と同様に、オンライン訓練は、特定の入力発声μについての候補系における適正及び不適正対応付け経路により特定された全ての現在のモデルパラメータについて、エラー関数勾配の計算を必要とする。しかしながら、一括訓練とは異なり、勾配は蓄積されずに、モデルパラメータへ直ちに適用されて、
【数１７】

となる。記号Δ_μは、発声μが勾配を計算するのに用いられたことを示し、この手順は、先行する発声μ−１でおそらく適合した現在のモデルμ（ｓ，ｋ，ｌ）_μ―１で実行される。オンライン訓練の場合は、
【数１８】

（一括モード訓練で用いられた重み）である。これは単独の発声から評価された変化の信頼性が完全な訓練系から評価されたものよりも低いと考えられるためである。認識エンジンは完璧には働かないので、オンライン勾配調整を実行しない形態も含むようにすることが都合がよく、これは例えば係属中の米国特許出願第０８／８１８，０７２号などに説明されている。
【００２７】
以上の説明は、孤立語音声認識システムにおけるモデルに対して識別訓練を与えるのに充分である。しかしながら、連続音声認識システムは、訓練モデル状態を識別するには複雑な試みである多重識別仮定を生成する。従って、連続音声認識システムにおける識別訓練を説明する前に、このような多重識別仮定を取り扱う技術について説明する。
【００２８】
図２に示すように、連続音声認識システムは、入力発声２０をとり、これをフレームベクトル２２の系列へ分割して、入力発生に対応する多重認識仮定を表す音響出力ネットワーク（acoustic output network;ＡＯＮ）２３を生成する。ＡＯＮ２３においては、水平軸は時間であり、各ノード２６は所定の単語を表し、一方、各アーク２４は処理単語から所定の単語への経路を表す。
【００２９】
ＡＯＮ２３は、多機能を実行する小型で効率的なアークノードデータ構造である。ＡＯＮ２３の主要な機能は、単語列又は「発音モデル」観点で認識装置の最適仮定を包含させると共に、各系列におけるモデルの様々な可能な「結合」時間に関する情報を記憶させることである。好ましくは、これらの結合点における各音響及び言語モデルスコアを記憶して、各々の文(sentence)仮定についての完全な経路の成分スコアを計算するのが比較的容易になるようにする。また、個々のモデルを通じた全ての可能な「経路」区画、それらの与えられた結合時間を記憶して、「経路」又は「音声フレーム／モデル状態対応付け」を所定の仮定について計算し得るようにすることも望ましい。
【００３０】
一つの特定実施形態においては、図６において、各ＡＯＮノード２６に関連したスコアアレイ６１があり、これは音響スコアのみと、単語認識及び言語モデル認識とを綴り６２に加えて包含する。各アーク２４には、スコアアレイ内の各時間についての状態追跡構造６３、音響デルタ及びバイグラム(bigram)スコア６４が関連している。一実施形態においては、最適経路からの汎音響デルタも各アーク２４について保持される。単語の語頭及び語尾の綴り字の音素がそれぞれのアーク２４において記憶される。局所的音響スコア及び言語モデルスコアはそれぞれのアークにおいてアクセス可能にせねばならず、時間情報も高速最尤エンロールメントのために有益である。ＡＯＮ２３は上位Ｎ仮定のための抽出機能を包含してもよい。所定のノード２４を通過する任意のスコアの最適スコアもＡＯＮ２３に記憶してもよく、これは上位Ｎ識別アルゴリズムの特定の実行を高速化するという効率的理由のためである。
【００３１】
所定の入力発声２０のためには、適正経路は、適正単語モデルの系列に対する入力フレーム２２の制約された認識又は強制された対応付けにより決定し得る。識別訓練の最適化に応じて、部分的に制約された認識を、ユーザーが発声の一部のみを補正するときに実行してもよい。この場合、最初の認識単語列に割り当てられていたフレーム系列は、適正単語列に対して整合される。発声の残りの部分（即ちユーザーにより補正されていない部分）については、ＡＯＮ２３から得られた対応付け及び経路を使用し得る。適正経路がＡＯＮ２３内に既に存在したか否かに関係なく、適正経路はＡＯＮ２３と共存する（ＡＯＮの外側）。一実施形態は「拡張された(Extended)ＡＯＮ、即ちＥＡＯＮ」と称される構造を利用し、この構造は適性経路情報及び認識出力を包含する。ＥＡＯＮにおける各アークと、アークを通る全ての有効経路とに「適正」対応付けが得られると、経路の時間分節は、対応する一単語、又は適正モデル系列内で同時に存する複数の単語と比較される。もし、アークにより表される単語が特定の時間間隔において適正単語列で発見されたならば、このアークは「適正」としてマークを付け得る。
【００３２】
更なる実施形態においては、標準的な認識装置が生成し得る仮定よりも、より多くの代替的な仮定を生成させることが望ましいこともあろう。この試みは「適正」単語を不利にさせて、ＡＯＮ２３内に表れるそれらの単語に対する偏倚を生じるようにする。従って、より「不適正な」候補を識別訓練のために生成し得る。このように、より多くの「不適正な」単語を人為的に生成する技術は、状態混合モデルの一括訓練とは無関係の話者にとっては特に有益である。
【００３３】
上述のように連続音声認識及びＡＯＮの説明に基づき、ここで識別訓練を単語モデル状態へ如何に適用するかについて検討する。識別訓練は、適正モデルと不適正モデルとの間の識別に関係する訓練発声情報のグループから学習するように試みられる。代表的な実施形態においては、この情報ひいては学習事項は、混合モデル平均（これは入力フレームと音響モデル状態との間の距離又はスコアを計算するための認識において使用し得る）に適用される。
【００３４】
一般的な識別訓練の試みは、制約された認識を介して入力発声と適正モデル又は発音との「適正な」対応付けを得ることにより開始される。様々な可能な代替候補及び代替対応付けも標準的認識から得られる。これら二つの要請は、上述したようにＥＡＯＮを形成することにより充足する。次いで、識別情報を学習するための代替候補のグループが選ばれる。或る共通入力分節についての適正及び不適正成分のためのスコアを、これらのスコアに基づいて識別情報を学習するための重みと共に計算する。勾配ベクトルを上述の対応付け及び重みに基づいて計算し、この勾配ベクトルを混合モデル平均へ加えて混合モデルを更新させる。
【００３５】
図３に示すように、所定の適正単語認識モデル３１は、初期状態Ｓ_０ ^Ｃで開始されるモデル状態の系列と最終状態Ｓ _ｍ ^Ｃである。適正単語認識モデル３１における各非ゼロ状態は、その垂直上方向のフレーム３０ａ_０乃至ａ_ｍの入力系列における非ゼロ状態は、その垂直上方の音響フレームに整合且つ対応する。図３
おいて、適正認識モデル３１の初期及び最終状態内の黒丸は単語境界を示す。図３は４つの代替認識仮定Ａ１３２、Ａ２３３，Ａ２３４，Ａ４３５についての状態系列も示す。代替認識仮定における様々な状態の黒丸は単語境界を示す。
【００３６】
図３に示される単語境界の位置から明らかなように、フレーム３０ａ_０乃至ａ_ｍの入力系列（これは適正単語認識モデル３１により示されている）に対応する代替認識仮定における状態は、１つ以上の単語の不完全部分を示し得る。かかる状況の下では、状態に対する識別訓練調整を計算するに当たり、この効果を如何に考慮するかは、直観的には明らかでない。
【００３７】
図４は一実施形態において用いるコスト関数の形状を示す。この関数の形状は基本的にＳ字状関数の形状であり、即ちここでは、
【数１９】

である。
【００３８】
図４の左は領域４１であり、ここでは適正モデルが既に高精度である（即ち、識別訓練を必要としない）。図４の右は領域４２であり、ここでは不適正モデルが適正モデルよりも入力信号へより近接しており、この場合、適正モデルは、識別訓練からの恩恵を受けるには（如何なる理由でも）入力信号から離れすぎている。図４の中心にあるのは領域４０であり、ここでは適正モデル及び不適正モデルが共に入力信号へ比較的に近接している。この領域４０は、モデルの識別訓練が、その結果としてのシステム性能に最大の有益な効果を持つことになる領域である。
【００３９】
図５は図４のＳ字状コスト関数の導関数をとることから得られる重み付け関数を示す。領域４１及び４２は既に説明したように識別訓練についての良好な候補であることを示すので、図５の対応する領域５１及び５２においては、重み付け関数が定められない。中心領域５０においては、重み付け関数が最大になり、ここでは適正及び不適正モデルが互いに近接する個所で（即ち垂直軸において）重み付け関数が最大となる。代替実施形態においては、コスト及び重み付け関数を個別に形成し得る。例えば、線形重み付け関数は適正モデルからのコスト関数を着実に更に増大させるので有益であろう。
【００４０】
一つの特定実施形態においては、識別訓練についての代替認識候補の選択が、ＡＯＮからの全ての「有効」アークを集めることにより開始される。有効経路は、初期雑音から最終雑音までＡＯＮを通じての完全な仮定の一部分を形成するものであり、また有効アークは、有効仮定の部分である少なくとも１つの経路を包含するものである。次いで、「適正」としてマークを付けられた有効アークが全て放棄される。各「不適正」アークについて、少なくとも１つの有効（及び独特な）経路が不適正経路として集められる。即ち、同一の経路が多くの完全な仮定の一部をなすならば、これは一回記憶されるのみである。次いで、このような不適正経路の各々について、局所的スコアが計算されて経路長により正規化される。スコアは、混合音響スコアのみか、或いは音響スコアと言語モデルスコアとの混合組合せかの何れかである。分節が複数の部分的な単語に亘る場合、言語モデルスコアは、考えられるフレームの数を反映するように調整し得る。また、言語モデルスコアは、例えば、０が純粋な音響スコアである０乃至１のスケールで重み付けし得る。
【００４１】
この不適正経路のリストは、正規化音響又は混合スコア（最下１位）に従って記憶される。上記リストにおける各候補について、その候補と、この候補のＴ個のフレームの時間ウィンドウ内で開始されるＮ個のベストの経路とが識別訓練のために選ばれる。
【００４２】
代替認識候補のグループが識別訓練のために選ばれると、「適正」及び「代替」スコア及び重みを計算する必要がある。上述のような不適正経路の各々について、適正経路からの対応経路を抽出し得るので、混合モデル音響スコア及び言語モデルスコアが計算される。次いで重みを、事前に規定された重み付け関数に従って適正及び不適正候補スコアから計算し得る。これは、適正及びそれに対応する不適正／代替経路区分の長さ正規化スコア差の関数としての重みを与える。
【００４３】
平均勾配の計算は、適正及び不適正経路分節が得られれば有効となれば実行し得る。デルタベクトル（状態平均、フレーム対の間のチャンネル値における差）を上述の重みを用いて計算して重み付け得る。差は、それらが「適正」対応付けから導出されたならば正であり、また「不適正」対応付けから導出されたならば負である。一実施形態においては、適正経路と不適正経路とが所定のフレームについて同一の状態を包含するならば、適正分節からの正チャンネルデルタのみが計算されて識別訓練に用いられる。他の実施形態においては、このような共有状態について、正及び負の寄与は相殺される。
【００４４】
適正モデルと不適正代替モデルとが同一状態を共有する場合、このような共有状態を識別訓練の目的のためには無視することが望ましいであろう。この選択は、そのような共有状態からの押し寄せ現象(swamping effect)を回避する。
【００４５】
識別のために最も有力な代替モデルを最初に選ぶことが好ましい。これは、比較的小さな影響を有する間隔ごとに多数の代替モデルを処理する必要を避けるためである。例えば、正規化された個々のスコアではなく、正規化されたデルタスコアにより代替モデルを分類することが望ましいであろう。
【００４６】
本発明の様々な例示的実施形態について説明したが、当業者には、本発明の趣旨から逸脱することなく、本発明の幾つかの利点を達成する多数の変形例及び変更例を実施し得ることが明白である。
【図面の簡単な説明】
【図１】図１は識別訓練の一般的な原理を示す図である。
【図２】図２は連続音声認識システムにおける認識仮定の音響出力ネットワークを示す図である。
【図３】図３は入力フレームに関する適正認識モデル及び様々な代替認識モデルの状態系列を示す図である。
【図４】図４は本発明の一実施形態における識別調整のためのコスト関数を示す図である。
【図５】図５は図４のコスト関数のための識別訓練重み付け関数を示す図である。
【図６】図６は音響出力ネットワークにおけるノード及びアークの構造的詳細を示す図である。

Claims

システム認識語彙のための隠れマルコフモデルを識別訓練する連続音声認識システムの方法であって、
入力語句を標本フレーム系列へ変換する段階と、
音響出力ネットワークを形成する段階であり、その音響出力ネットワークは、
ｉ．前記標本フレーム系列に整合する適正状態系列であり、その適正状態系列整合は、前記入力語句における単語のモデルに対応する適正状態系列と、
ｉｉ．前記入力語句に対応しない認識語彙内の単語を表す複数の不適正認識仮定であり、各仮定は音響モデルデータベース内の単語モデルに基づく状態系列である不適正認識仮定とを含み、
認識訓練のために前記音響出力ネットワークから適正単語モデル状態系列整合の適正分節を選択して、
前記適正分節に対応する前記標本フレーム系列におけるフレームのフレーム分節を決定し、
不適正認識仮定における単語モデル状態系列の断片部分の不適正分節を選択し、その不適正分節は前記フレーム分節に対応し、
前記適正分節における選択された状態と前記不適正分節における対応する状態とにおいて識別調整を実行し、この識別調整には、前記断片部分が表す単語モデルの断片的な量について前記選択された適正状態及び対応する不適正状態の重み付けをする言語モデルを用いる方法。
請求項１の方法において、識別訓練の実行が前記音声認識システムとのユーザーセッションの終端における一括訓練モードにおいて生じ、且つ前記選択された状態及び対応する状態で実行される前記識別訓練が、前記セッションに亘って計算された調整の和を表す方法。
請求項１の方法において、前記識別調整の実行がオンラインモードで生じ、ここで前記選択された状態及び対応する状態が各入力語句について識別的に調整される方法。
請求項１の方法において、前記識別調整が、前記適正仮定モデルにおける選択された状態と前記不適正仮定における対応する状態との選択された分岐に対して勾配調整を実行することを含む方法。
請求項４の方法において、前記勾配調整が、各状態モデルにおける最適分岐に対してなされる方法。
請求項１の方法において、前記隠れマルコフモデルが話者独立モデルである方法。
請求項１の方法において、前記隠れマルコフモデルが話者依存モデルである方法。