JP4510517B2

JP4510517B2 - 音響モデル雑音適応化方法およびこの方法を実施する装置

Info

Publication number: JP4510517B2
Application number: JP2004156037A
Authority: JP
Inventors: 厚徳小川; 哲小橋川; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-26
Filing date: 2004-05-26
Publication date: 2010-07-28
Anticipated expiration: 2024-05-26
Also published as: JP2005338358A

Description

この発明は、音響モデル雑音適応化方法およびこの方法を実施する装置に関し、特に、既存の音響モデル雑音適応化結果に基づいて別の音響モデルの雑音適応化を低コストかつ高速に実行する音響モデル雑音適応化方法およびこの方法を実施する装置に関する。

先ず、図を参照して、音声認識装置について説明しておく。
図６において、入力音声６０１は、音声分析部６０２において特徴ベクトル６０３の時系列に変換され、探索処理部６０５に入力される。探索処理部６０５においては、音響モデル６０４を用いて、文法６０６で表現される単語或いは単語列と特徴ベクトル６０３の時系列との間の照合、即ち、探索処理が行われ、最も尤度が高い単語或いは単語列が認識結果６０７として出力される。
音声分析部６０２における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）、△ＭＦＣＣ、△△ＭＦＣＣ、対数パワー、△対数パワーその他があり、それらが、１０〜１００次元程度の特徴量ベクトルを構成する。分析フレーム幅３０ｍｓ程度、分析フレームシフト幅１０ｍｓ程度で分析が実行される。音響モデル６０４は、先のＭＦＣＣその他の音声特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声の或る区間の特徴量に対して、各標準パターンとの音響的な近さを尤度として計算し、それがどのカテゴリに属するかを推定する。現在、音響モデル６０４としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル（Hidden Markov Model、略して、ＨＭＭ）が汎用されている。通常、ＨＭＭは音素カテゴリ単位で作成され、音素ＨＭＭの集合として一つの音響モデルが構築される。

音素ＨＭＭの種類としては、当該音素に先行および後続する音素の両方を音素環境として考慮しないmonophone−ＨＭＭ（例えば、＊−ａ−＊は、音素ａのmonophone−ＨＭＭと言う。＊は任意の音素を表す）、当該音素に先行する音素のみ音素環境として考慮する先行音素環境依存biphone−ＨＭＭ（例えば、ｐ−ａ−＊は、先行音素がｐである音素ａの先行音素環境依存biphone−ＨＭＭ、と言う）、当該音素に後続する音素のみ音素環境として考慮する後続音素環境依存biphone−ＨＭＭ（例えば、＊−ａ−ｔは、後続音素がｔである音素ａの後続音素環境依存biphone−ＨＭＭと言う）、当該音素に先行および後続する音素の両方を音素環境として考慮するtriphone−ＨＭＭ（例えば、ｐ−ａ−ｔは、先行音素がｐ、後続音素がｔである音素ａのtriphone−ＨＭＭ）が最もよく用いられる。

また、音素ＨＭＭが表現する音素カテゴリの種類については、音響モデルの学習データに依存するが、例えば、ｔ−ｔ−ｔの如く日本語の音素連鎖としてあり得ないものは含まれないので、一般的には、数千〜数万種類程度になる。
音響モデル６０４の構造を図７を参照して説明する。
先ず、図７に示される如く、状態Ｓが混合確率分布Ｍとして表現される。混合確率分布の各要素分布としては、離散確率分布と連続確率分布があるが、現在、最もよく用いられているのは、連続確率分布の一つである多次元正規（ガウス）分布であり、その内でも次元間の相関がない（共分散行列の対角成分が０である）多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、先の特徴量ベクトルの各次元に対応する。図７においては、状態Ｓが４つの多次元正規分布を要素分布とする多次元混合正規分布Ｍとして表現されている。図７においては、特徴量ベクトルの或る次元ｉについて示しているが、特徴量ベクトルの各次元について同様に表現される。図７に示される状態の数個〜十数個程度の確率連鎖によって、音素ＨＭＭが構築される。音素ＨＭＭが、幾つの状態の如何なる確率連鎖によって構築されるかに関しては、様々なバリエーションがある。また、音素ＨＭＭ毎に異なる構造をとることもある。現在、最も一般的に用いられている構造は、例えば、図８に示す音素ＨＭＭの如き３状態のleft−to−right型ＨＭＭと呼ばれるもので、３つの状態Ｓ₁（第１状態）、Ｓ₂（第２状態）、Ｓ₃（第３状態）を左から右に並べたものであり、状態の確率連鎖（状態遷移）としては、自分自身への遷移（自己遷移）Ｓ₁→Ｓ₁、Ｓ₂→Ｓ₂、Ｓ₃→Ｓ₃と、次状態への遷移Ｓ₁→Ｓ₂、Ｓ₂→Ｓ₃から成る。音響モデル中の全ての音素ＨＭＭがこの３状態left−to−right型ＨＭＭの構造をとることが多い。

図８を参照して音素ＨＭＭを用いた尤度計算について説明する。
図８の音素ＨＭＭに、或る特徴ベクトルの時系列が入力されたときの尤度計算について解説する。例えば、６フレーム分の特徴量ベクトルの時系列Ｘ＝Ｘ₁、Ｘ₂、Ｘ₃、Ｘ₄、Ｘ₅、Ｘ₆が、音素ＨＭＭの或る一つの状態遷移系列Ｓ=Ｓ₁→Ｓ₁→Ｓ₂→Ｓ₂→Ｓ₃→Ｓ₃から出力される確率（尤度）Ｐ（Ｘ｜Ｓ、ＨＭＭ）は、以下の通りに計算される。
Ｐ（Ｘ｜Ｓ、ＨＭＭ）＝ｂ₁（Ｘ₁）ａ₁₁ｂ₁（Ｘ₂）ａ₁₂ｂ₂（Ｘ₃）ａ₂₂ｂ₂（Ｘ₄）ａ₂₃ｂ₃（Ｘ₅）ａ₃₃ｂ₃（Ｘ₆）・・・・・式（１）
ここで、ａ_jkは、状態Ｓ_jから状態Ｓ_kへの遷移確率である。また、ｂ_j（Ｘ_t）は、時刻ｔ（ｔ番目のフレーム）における特徴ベクトルＸ_tが状態Ｓ_jを表現する混合正規分布Ｍ_jから出力される確率であり、混合正規分布Ｍ_jを構成するｍ番目の正規分布の出力確率Ｐ_jm（Ｘt）を用いて以下の通りに計算される。

ここで、Ｍ_jは混合正規分布Ｍ_jを構成する正規分布の数（混合数）、Ｗ_jmは混合正規分布Ｍ_jを構成するｍ番目の正規分布の分布重みである。Ｗ_jmについては以下の式を満足する。

また、混合正規分布Ｍ_jを構成する正規分布が多次元無相関正規分布の場合、Ｐ_jm（Ｘ_t）は以下の通りに計算される。

ここで、μ_jmi、σ² _jmiは混合正規分布Ｍ_jを構成するｍ番目の多次元無相関正規分布の次元ｉにおける平均値、分散である。Ｘ_tiは、特徴ベクトルＸ_tの次元ｉの値である。Ｉは特徴ベクトル（多次元無相関正規分布）の次元数である。
以上の尤度計算は、或る一つの状態遷移系列Ｓに対するものであるが、このような状態遷移系列は他にもあげることができる。このような状態遷移系列全てに対して、特徴ベクトルの時系列Ｘを出力する確率を計算し、それらを加算したものを音素ＨＭＭに特徴ベクトルの時系列Ｘが入力されたときの尤度とする方法はトレリス（trellis）アルゴリズムと呼ばれる。一方、全ての状態遷移系列のなかで最も高い尤度を与える状態遷移系列を特徴ベクトルの時系列によりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素ＨＭＭに特徴ベクトルの時系列Ｘが入力されたときの尤度とする方法をビタービ（Viterbi）アルゴリズムという。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減することができるビタービアルゴリズムが用いられることが多い。

また、以上の尤度計算は、或る一つの音素ＨＭＭに対するものであるが、実際には、探索処理部６０５において、探索処理を行う前に、音素ＨＭＭを連結して文法６０６で表現される単語或いは単語列のＨＭＭのネットワーク（探索ネットワーク）が作成され、そして、入力音声の特徴ベクトル６０３の時系列と探索ネットワークで表現される単語或いは単語列との照合が行われ（探索処理）、最も尤度が高い単語或いは単語列が認識結果６０７として出力される。
また、以上の尤度計算では、確率値をそのまま扱ったが、実際には、アンダーフローを防ぐために、確率値の対数をとって計算を行う。

また、音響モデル６０４の各種パラメータ（状態遷移確率ａ_jk、分布重みＷ_jm、正規分布の各次元の平均μ_jmiおよび分散σ_jmi ²）の推定アルゴリズムとしては、バウムーウェルチ（Baum−Welch）アルゴリズムが最もよく用いられる。また、一つの音響モデルの学習（パラメータ推定）には、数十〜数千時間という大量の音声データとその発声内容ラベルデータが用いられる（非特許文献１参照）。
ところで、以上の音声認識装置の従来例が実際に使用される環境には様々な種類の雑音が存在しており、これが音声認識精度の低下を招く要因となっている。雑音は大きく分けて二種類に分類することができる。一つは、音声に畳み込みの関係で影響を及ぽす乗算性歪みと呼ばれるもので、例えば、話者の口からマイクまでの空間の伝達特性、電話回線の伝達特性である。もう一つは、伝達特性の影響を受けた音声に加算の関係で影響を及ぼす加算性雑音と呼ばれるもので、例えば、オフィスにおいては、計算機が出す雑音、紙をめくる音の如き雑音であり、自動車内においてはエンジンの回転音を挙げることができる。時刻ｔにおける雑音のない、クリーンな音声をｓ（ｔ）、乗法性歪み（伝達特性）をｈ（ｔ）、加算性雑音をｎ（ｔ）とすると、雑音のある音声のｙ（ｔ）は以下の式で与えられる。以下で、※は畳み込みを表す。

ｙ（ｔ）＝ｓ（ｔ）※ｈ（ｔ）＋ｎ（ｔ）・・・・・式（５）
近年、音声認識装置の雑音対策として、音響モデルのマルチコンディション（マルチスタイル）学習が研究されており、非常に単純でありながら、様々な雑音への耐性の高い雑音適応音響モデルが得られる学習方法として注目されている。
音響モデルのマルチコンディション学習について図を参照して解説する。
図９は音響モデルのマルチコンディション学習の流れを図示したものである。先ず、雑音のないクリーン音声データ９０８とその発声内容ラベルデータ９０９を用いて音響モデル学習部９１０によりクリーン音響モデル９０４を作成しておく。また、音声認識装置の使用環境に存在する雑音の情報として、乗算性歪みを表す伝達特性データ９１１と加算性雑音データを表す雑音データ９１２をそれぞれ想定される分だけ組み合わせで準備しておく。ここにおいては、Ｎ個の伝達特性データ９１１−１〜９１１−Ｎと雑音データ９１２−１〜９１２−Ｎの組み合わせがあるものとする。そして、クリーン音声データ９０８に対して、伝達特性畳み込み部９１３において伝達特性データ９１１を畳み込み、その後、雑音加算部９１４において雑音データ９１２を加算する。この操作をＮ個の伝達特性データ９１１と雑音データ９１２の組み合わせ全てに対して行い、それらの集合としてマルチコンディション音声データ９１５が作成される。元のクリーン音声データ９０８もマルチコンディション音声データ９１５に含める場合があり、ここにおいてはその様にしている。次に、音響モデル追加学習部９１６において、マルチコンディション音声データ９１５と発声内容ラベルデータ９０９を用いて、クリーン音響モデル９０４に対して、追加学習により音響モデルの学習を行い、その結果として雑音適応音響モデル９１８が作成される。クリーン音響モデル９０４に対する追加学習ではなく、マルチコンディション音声データ９１５を用いて最初から雑音適応音響モデル９１８を学習する方法も考えられるが、ここにおいては、追加学習を行うものとする。なお、追加学習であるため、クリーン音響モデル９０４と雑音適応音響モデル９１８の状態連鎖構造、状態における確率分布数を含む構造は等しい。

上述の通りにして作成された雑音適応音響モデル９１８を用いることにより、想定した全ての雑音環境下で高い認識精度を得ることがでぎる。マルチコンディション学習に関する従来の実験報告としては、乗算性歪みはない状態で、地下鉄、自動車内、レストランなど加算性雑音のみを想定したもの（非特許文献２参照）、自動車内の雑音環境で、マイクをサンバイザーまたは前方室内ランプの位置に設置するため、乗算性歪みは話者の口からサンバイザーまたは前方室内ランプまでの空間伝達特性の２種類、加算性雑音として、アイドリング時、一般道路走行時、高速道路走行時などいくっかの雑音を想定したもの（非特許文献３参照）、電話音声の認識において、様々な電話機の周波数特性による乗算性歪みと、幾つかのＳＮ比の展示会場騒音を想定したもの（非特許文献４参照）その他がある。
財団法人電子情報通信学会編、中川聖一著『確率モデルによる音声認識』 J.C.Segura,A.de la Torre,M.C.Benitez,A.M.Peinado,"Model-based compensation of the additivenoise for continuous speech recognition．Experiments using the AURORA II database and tasks",Proc. EUROSPEECH' 2001, vol.1, pp.221-24, Scandinavia,2001 滝口哲也、西村雅史、"車内音声認識におけるマルチスタイル学習法の効果について"、日本音響学会２００１年秋季研究発表会講演論文集、１−Ｑ−８、pp．１５５−１５６國枝伸行、木村達也、石田明、"Multi-Style学習で作成した電話音声認識向け音響モデルの評価−ＳＮ比と電話機特性に対する効果−"

上述した通り、音響モデルのマルチコンディション学習は非常に単純な方法でありながら、様々な雑音への耐性の高い雑音適応音響モデルが得られる学習方法である、しかし、図９に示した通り、その学習の過程において、想定する雑音の種類に応じて音声データを準備して使用するので、データ記憶容量と計算時間が大幅に増大する。例えば、想定する雑音の種類がＮ種類であれば、クリーン音声のみでクリーン音響モデルを学習する場合と比較してＮ倍のデータ記憶容量と計算時間が必要となる。元々、音響モデルの学習はデータ記憶容量および計算時間に関してコストの高い作業であるが、マルチコンディション学習ではそのコストが更に大幅に高くなり、これは望ましいことではない。

この発明は、マルチコンディション学習にあるコストが高くなるという問題点に鑑みてなされたものであり、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、音響モデルの雑音適応を行うことができる音響モデル雑音適応化方法およびこの方法を実施する装置を提供することをその目的としている。

請求項１：雑音のない音声データで学習されたクリーン音響モデルＡ：１０４−Ａと当該クリーン音響モデルＡ：１０４Ａを元に雑音適応化された雑音適応音響モデルＢ：１１８−Ｂとを準備し、クリーン音響モデルＡ：１０４−Ａから雑音適応音響モデルＢ：１１８−Ｂへの雑音適応化による各パラメータの変化量を計算し、雑音のない音声データで学習された別のクリーン音響モデルＣ：１０４−Ｃの各状態および各分布によりクリーン音響モデルＡを参照してその各状態および各分布を決定し、別のクリーン音響モデルＣとクリーン音響モデルＡの各状態および各分布の参照関係と、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化による各パラメータの変化量とを基に別のクリーン音響モデルＣの各パラメータを調整して、新規の雑音適応化された音響モデルＤ：１１８−Ｄを作成する音響モデル雑音適応化方法を構成した。

請求項２：雑音のない音声データで学習されたクリーン音響モデルＡ：１０４−Ａを具備し、クリーン音響モデルＡ：１０４−Ａを入力してこれを雑音適応化する雑音適応化部１１７を具備し、クリーン音響モデルＡ：１０４−Ａを元に雑音適応化された雑音適応音響モデルＢ：１１８−Ｂを具備し、クリーン音響モデルＡ：１０４−Ａと雑音適応音響モデルＢ：１１８−Ｂとを入力して、クリーン音響モデルＡ：１０４−Ａの雑音適応化による各パラメータの変化量を計算する音響モデルパラメータ変化量計算部１１９を具備し、雑音のない音声データで学習された別のクリーン音響モデルＣ：１０４−Ｃおよびクリーン音響モデルＡ：１０４−Ａとを入力し、別のクリーン音響モデルＣ：１０４−Ｃの各パラメータが参照するクリーン音響モデルＡ：１０４−Ａの各パラメータを決定する音響モデル構造参照関係決定部１２０を具備し、音響モデルパラメータ変化量計算部１１９において計算されたクリーン音響モデルＡ：１０４−Ａの雑音適応化による各パラメータの変化量と音響モデル構造参照関係決定部１２０において決定されたクリーン音響モデルＡ：l０４−Ａと別のクリーン音響モデルＣ：１０４−Ｃとの間の参照関係とを入力し、別のクリーン音響モデルＣ：１０４−Ｃの各パラメータを調整して新規の雑音適応音響モデルＤ：１１８−Ｄを作成する音響モデルパラメータ調整部１２１を具備する音響モデル雑音適応化装置を構成した。

請求項３：請求項２に記載される音響モデル雑音適応化装置において、音響モデルパラメータ変化量計算部は、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルＡの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とする音響モデル雑音適応化装置を構成した。
請求項４：請求項２に記載される音響モデル雑音適応化装置において、音響モデルパラメータ変化量計算部は、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルＡの各状態と対応する雑音適応音響モデルＢの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とする音響モデル雑音適応化装置を構成した。

請求項５：請求項２ないし請求項４の内の何れかに記載される音響モデル雑音適応化装置において、音響モデル構造参照関係決定部は、別のクリーン音響モデルＣの各状態および各分布が参照するクリーン音響モデルＡの各状態および各分布を決定するに際して、別のクリーン音響モデルＣの各状態と対応するクリーン音響モデルＡの各状態における分布同士の対応を、分布間距離の近さを基準として決定する音響モデル雑音適応化装置を構成した。
請求項６：請求項２ないし請求項５の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いる音響モデル雑音適応化装置を構成した。

請求項７：請求項２ないし請求項５の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、バタチャリヤ距離を用いる音響モデル雑音適応化装置を構成した。
請求項８：請求項２ないし請求項５の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の尤度差分を用いる音響モデル雑音適応化装置を構成した。
請求項９：請求項２ないし請求項５の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いる音響モデル雑音適応化装置を構成した。

この発明によれば、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、瞬時に音響モデルの雑音適応を行うことができる。即ち、一例として、多数の女性の雑音のない音声データを用いて学習された入力される別のクリーン音響モデルである、クリーン女声音響モデルの雑音適応化を実施する様な場合、多数の男性の雑音のない音声データを用いて学習されたクリーン男声音響モデルと、それをマルチコンディション学習により雑音適応化した雑音適応男声音響モデルがあれば、新たに雑音が付加された女声音声データを準備してマルチコンディション学習する必要はなく、男声音響モデルの雑音適応化結果をそのまま用いて瞬時に雑音適応を行うことができる。

この発明による音響モデル雑音適応化は、雑音のない音声データで学習されたクリーン音響モデルＡと、クリーン音響モデルＡを元に雑音適応化された雑音適応音響モデルＢを備え、音響モデルパラメータ変化量計算部において、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化による各パラメータの変化量を計算しておき、雑音のない音声データで学習された別のクリーン音響モデルＣが入力された場合に、音響モデル構造参照関係決定部において、別のクリーン音響モデルＣの各状態および各分布が参照するクリーン音響モデルＡの各状態および各分布を決定し、音響モデルパラメータ調整部において、別のクリーン音響モデルＣとクリーン音響モデルＡの各状態および各分布の参照関係と、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化による各パラメータの変化量を基に、別のクリーン音響モデルＣの各パラメータを調整し、雑音適応化された音響モデルＤを新たに作成する。この発明による音響モデル雑音適応化装置は、音響モデルパラメータ変化量計算部において、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルＡの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とする。この発明による音響モデル雑音適応化装置は、音響モデルパラメータ変化量計算部において、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルＡの各状態と対応する雑音適応音響モデルＢの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とする。この発明による音響モデル雑音適応化装置は、音響モデル構造参照関係決定部において、入力される音響モデルＣの各状態および各分布が参照するクリーン音響モデルＡの各状態および各分布を決定するに際して、別のクリーン音響モデルＣの各状態と対応するクリーン音響モデルＡの各状態における分布同士の対応を、分布間距離の近さを基準として決定する。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、バタチャリヤ距離を用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、分布統合前後の尤度差分を用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、分布統合前後の変分ベイズ法に基づく評価関数値の差分を用いる。

以下、発明を実施するための最良の形態を図を参照して具体的に説明する。
図１はこの発明による音響モデル雑音適応化装置の実施例の概要を説明する図である。ここにおいては、入力される別のクリーン音響モデルＣ：１０４−Ｃの雑音適応化を行い、新規の雑音適応音響モデルＤ：１１８−Ｄを得ることを目的としている。
先ず、クリーン音響モデルＡ：１０４−Ａの雑音適応化が雑音適応化部１１７において行われ、雑音適応音響モデルＢ：１１８−Ｂが予め得られているものとする。なお、雑音適応化部１１７は、図９を参照して先に説明された点線内の雑音適応化部９１７に相当する。ここにおいては、クリーン音響モデルＡ：１０４Ａと雑音適応音響モデルＢ：１１８−Ｂの状態連鎖構造、状態における確率分布数を含む構造は等しいものとするが、構造が異なる場合でも容易に拡張することができる。このクリーン音響モデルＡ：１０４−Ａと雑音適応音響モデルＢ：１１８−Ｂを入力として、音響モデルパラメータ変化量計算部１１９において、雑音適応化によるクリーン音響モデルＡ：１０４−Ａの各パラメータ、状態遷移確率、要素確率分布の平均・分散・分布重み、の変化量を計算する。一方、音響モデル構造参照関係決定部１２０において、別のクリーン音響モデルＣ：１０４−Ｃの各パラメータが参照するクリーン音響モデルＡ：１０４−Ａの各パラメータを決定する。次に、音響モデルパラメータ調整部１２１において、雑音適応化によるクリーン音響モデルＡ：１０４−Ａの各パラメータの変化量と、別のクリーン音響モデルＣ：１０４−Ｃとクリーン音響モデルＡ：l０４−Ａの参照関係を基に、別のクリーン音響モデルＣ：１０４−Ｃの各パラメータを調整し、雑音適応音響モデルＤ：１１８−Ｄを作成する。

図２は図１における４つの音響モデルを音素ＨＭＭのレベルで示した図である。この図２を参照して、この発明による音響モデル雑音適応化装置において、別のクリーン音響モデルＣ：２０４−Ｃの状態遷移確率が調整される仕組みについて説明する。なお、ここにおける説明は、音素ＨＭＭの構造が上述した３状態のleft−to−right型であるものとするが、他の構造の場合でも容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部２１９において、クリーン音響モデルＡ：２０４−Ａと雑音適応音響モデルＢ：２１８−Ｂの対応する状態の遷移確率（クリーン音響モデルＡ：２０４Ａと雑音適応音響モデルＢ：２１８−Ｂは構造が同じであるので、状態遷移確率の対応は１対１にとることができる）より、雑音適応化によるクリーン音響モデルＡ：２０４−Ａの状態遷移確率の変化率を計算する。次に、音響モデル構造参照決定部２２０における処理を説明するが、ここにおいては、別のクリーン音響モデルＣ：２０４−Ｃに含まれる音素ＨＭＭとして、音素ｐ−ａ−ｔ（triphone）を例に挙げて説明する。音響モデル構造参照決定部２２０おける、別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔ（triphone）が参照するクリーン音響モデルＡ：２０４−Ａの音素ＨＭＭの検索方法には、幾つかのバリエーションが考えられるが、最も一般的な方法としては、前後の音素環境依存性を段階的に無視して行く方法である。この方法は、先ず、クリーン音響モデルＡ：２０４−Ａに音素ｐ−ａ−ｔ（triphone）が存在するか否かを検索し、存在すれば、別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔ（tripbone）が参照するクリーン音響モデルＡ：２０４−Ａの音素ＨＭＭを音素ｐ−ａ−ｔ（triphone）とする。クリーン音響モデルＡ：２０４−Ａに音素ｐ−ａ−ｔ（triphone）が存在しない場合は、音素ｐ−ａ−ｔ（triphone）に近い音素ＨＭＭとして、音素ｐ−ａ−＊（先行音素環境依存biphone）を検索する。クリーン音響モデルＡ：２０４−Ａに音素ｐ−ａ−＊（先行音素環境依存biphone）が存在すれば、別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔ（triphone）が参照するクリーン音響モデルＡ：２０４−Ａの音素ＨＭＭを音素ｐ−ａ−＊（先行音素環境依存biphone）とする。クリーン音響モデルＡ：２０４−Ａに音素ｐ−ａ−＊（先行音素環境依存biphone）が存在しない場合は、音素ｐ−ａ−＊（先行音素環境依存biphone）の次に音素ｐ−ａ−ｔ（triphone）に近い音素ＨＭＭとして、音素＊−ａ−ｔ（後続音素環境依存biphone）を検索する。先行音素環境依存biphoneと後続音素環境依存biphoneの何れを優先させるかというバリエーションも考えられる。クリーン音響モデルＡ：２０４−Ａに音素＊−ａ−ｔ（後続音素環境依存biphone）が存在すれば、別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔ（triphone）が参照するクリーン音響モデルＡ：２０４−Ａの音素ＨＭＭを音素＊−ａ−ｔ（後続音素環境依存biphone）とする。クリーン音響モデルＡ：２０４−Ａに音素＊−ａ−ｔ（後続音素環境依存biphone）が存在しない場合は、音素＊−ａ−ｔ（後続音素環境依存biphone）の次に音素ｐ−ａ−ｔ（triphone）に近い音素ＨＭＭとして、音素＊−ａ−＊（monophone）を検索する。通常、各音素のmonophone−ＨＭＭは音響モデルに含まれるので、音素＊−ａ−＊（monophone）は必ず見つかると考えてよい。この様に、最終的には、別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔ（triphone）が参照するクリーン音響モデルＡ：２０４−Ａの音素ＨＭＭが音素＊−ａ−＊（monophone）となる。以上は、前後の音素環境依存性を段階的に無視して行く方法であるが、例えば、別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔ（triphone）が参照するクリーン音響モデルＡ：２０４−Ａの音素ＨＭＭとして、初めから音素＊−ａ−＊（monophone）を選択する方法も考えられる。図２の場合は、前後の音素環境依存性を段階的に無視していく方法で、クリーン音響モデルＡ：２０４−Ａに音素ｐ−ａ−ｔ（triphone）は存在しなかったが、音素ｐ−ａ−＊（先行音素環境依存biphone）が存在したため、別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔ（triphone）が参照するクリーン音響モデルＡ：２０４−Ａの音素ＨＭＭは音素ｐ−ａ−＊（先行音素環境依存biphone）となっている。この様にして、別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔ（triphone）とクリーン音響モデルＡ：２０４−Ａの音素ＨＭＭは、音素ｐ−ａ−＊（先行音素環境依存biphone）の対応が取れれば、両音素ＨＭＭは、３状態のleft−to−right型の構造をとるので、両音素ＨＭＭの状態同士の対応もとれる。最後に、音響モデルパラメータ調整部２２１において、音響モデルパラメータ変化量計算部２１９で計算された雑音適応化によるクリーン音響モデルＡ：２０４−Ａの状態遷移確率の変化率と、音響モデル構造参照関係決定部２２０において決定された別のクリーン音響モデルＣ：２０４−Ｃの各状態とクリーン音響モデルＡ：２０４−Ａの各状態の対応関係を基に、別のクリーン音響モデルＣ：２０４−Ｃの各状態遷移確率を調整し、雑音適応音響モデルＤ：２１８−Ｄの各状態遷移確率とする。

図３は図１における４つの音響モデルを状態のレベルで示した図である。図３を参照して、図２において例とした別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔの状態Ｓ_C1に含まれる要素確率分布のパラメータが調整される仕組みの一例について説明する。なお、この説明は、各状態に含まれる要素確率分布の数は４、かつ各要素確率分布は多次元無相関正規分布であり、その次元ｉについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部３１９において、クリーン音響モデルＡ：３０４−Ａの状態Ｓ_A1と対応する雑音適応音響モデルＢ：３１８−Ｂの状態Ｓ_B1から状態Ｓ_A1の各要素正規分布Ｎ_A1、Ｎ_A2、Ｎ_A3、Ｎ_A4のパラメータ（平均、分散、分布重み）の変化量を求めるが、この例は、状態Ｓ_A1の最も分布重みの大きい要素正規分布Ｎ_A3のパラメータ変化量をもって状態Ｓ_A1における全ての要素正規分布Ｎ_A1、Ｎ_A2、Ｎ_A3、Ｎ_A4のパラメータ変化量（平均、分散）とする。これは状態Ｓ_A1に付随するパラメータ変化量と見ることができる。一方、音響モデル構造参照関係決定部３２０においては、別のクリーン音響モデルＣ：３０４−Ｃの状態Ｓ_C1とクリーン音響モデルＡ：３０４−Ａの状態Ｓ_A1の対応がとれており、この例の場合は、要素正規分布同士の対応は取る必要はない。そして、音響モデルパラメータ調整部３２１において、音響モデルパラメータ変化量計算部３１９において計算された状態Ｓ_A1の最も分布重みの大きい要素正規分布Ｎ_A3のパラメータ変化量と、音響モデル構造参照関係決定部３２０において決定された状態Ｓ_C1と状態Ｓ_A1の対応を基に、状態Ｓ_C1の各要素正規分布のパラメータ（平均、分散）の調整を行い、雑音適応音響モデルＤ：３１８−Ｄの状態Ｓ_D1の各要素正規分布のパラメータ（平均、分散）とする。この例は、分布重みの調整は行わない。

図４は、図１における４つの音響モデルを状態のレベルで示した図である。図４を参照して、図２において例とした別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔの状態Ｓ_Clに含まれる要素確率分布のパラメータが調整される仕組みについて、図３とは異なった一例を説明する。なお、この説明は、各状態に含まれる要素確率分布の数は４、かつ各要素確率分布は多次元無相関正規分布であり、その次元ｉについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部４１９において、クリーン音響モデルＡ：４０４−Ａの状態Ｓ_A1と対応する雑音適応音響モデルＢ：４１８−Ｂの状態Ｓ_B1から状態Ｓ_A1の各要素正規分布のパラメータ（平均、分散、分布重み）の変化量を求めるが、この例は、状態Ｓ_A1における各要素正規分布Ｎ_A1、Ｎ_A2、Ｎ_A3、Ｎ_A4を統合して一つの統合分布Ｎ_Aを作成すると共に、状態Ｓ_Blにおける各要素正規分布Ｎ_B1、Ｎ_B2、Ｎ_B3、Ｎ_B4を統合して一つの統合分布Ｎ_Bを作成し、統合分布Ｎ_Aから統合分布Ｎ_Bへのパラメータ変化量をもって状態Ｓ_A1における全ての要素正規分布Ｎ_A1、Ｎ_A2、Ｎ_A3、Ｎ_A4のパラメータ変化量（平均、分散）とする。これは、状態Ｓ_A1に付随するパラメータ変化量と見ることができる。統合分布Ｎ_Aの次元ｉの平均μ_Ai、分散σ² _Aiおよび分布重みＷ_Aは、各要素正規分布Ｎ_A1、Ｎ_A2、Ｎ_A3、Ｎ_A4の次元ｉの平均μ_A1i、μ_A2i、μ_A3i、μ_A4i、分散σ² _A1i、σ² _A2i、σ² _A3i、σ² _A4i;、および分布重みＷ_A1、Ｗ_A2、Ｗ_A3、Ｗ_A4を用いて以下の式で得られる。

統合分布Ｎ_Bについても同様の式で得られる。一方、音響モデル構造参照関係決定部４２０においては、別のクリーン音響モデルＣ：４０４−Ｃの状態Ｓ_C1とクリーン音響モデルＡ：４０４−Ａの状態Ｓ_A1の対応がとれており、この例の場合は、要素正規分布同士の対応は取る必要はない。そして、音響モデルパラメータ調整部４２１において、音響モデルパラメータ変化量計算部４１９において計算された状態Ｓ_A1の統合分布Ｎ_Aのパラメータ変化量と、音響モデル構造参照関係決定部４２０において決定された状態Ｓ_C1と状態Ｓ_A1の対応を基に、状態Ｓ_C1の各要素正規分布のパラメータ（平均、分散）の調整を行い、雑音適応音響モデルＤ：４１８−Ｄの状態Ｓ_D1の各要素正規分布のパラメータ（平均、分散）とする。この例は、分布重みの調整は行わない。

図５は図１における４つの音響モデルを状態のレベルで示した図である。図５を参照して、図２において例とした別のクリーン音響モデルＣ：２０４−Ｃの音素ｐ−ａ−ｔの状態Ｓ_Clに含まれる要素確率分布のパラメータが調整される仕組みについて、図３および図４とは異なった一例を説明する。なお、この説明は、各状態に含まれる要素確率分布の数は４、かつ各要素確率分布は多次元無相関正規分布であり、その次元ｉについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部５１９−Ａにおいて、クリーン音響モデルＡ：５０４−Ａの状態Ｓ_A1と対応する雑音適応音響モデルＢ：５１８−Ｂの状態Ｓ_B1から状態Ｓ_A1の各要素正規分布のパラメータ（平均、分散、分布重み）の変化量を求めるが、この例は、状態Ｓ_A1における各要素正規分布Ｎ_A1、Ｎ_A2、Ｎ_A3、Ｎ_A4と状態Ｓ_B1における各要素正規分布Ｎ_B1、Ｎ_B2、Ｎ_B3、Ｎ_B4の対応から、状態Ｓ_A1における各要素正規分布Ｎ_A1、Ｎ_A2、Ｎ_A3、Ｎ_A4のパラメ一タ変化量（平均、分散、分布重み）を個別に計算しておく。一方、音響モデル構造参照関係決定部５２０においては、別のクリーン音響モデルＣ：５０４−Ｃの状態Ｓ_C1とクリーン音響モデルＡ：４０４−Ａの状態Ｓ_A1の対応がとれており、更に、状態Ｓ_C1の各要素正規分布Ｎ_C1、Ｎ_C2、Ｎ_C3、Ｎ_C4がそれぞれ参照する状態Ｓ_A1における要素正規分布を決めるが、この参照関係を、分布間距離を基準に決める。ここにおいては、Ｎ_C1との分布間距離が最も近い状態Ｓ_A1の要素正規分布としてＮ_A1が選ばれており、以下、同様に、Ｎ_C2に対してＮ_A2、Ｎ_C3に対してＮ_A4、Ｎ_C4に対してＮ_A4が選ばれている。この様に、状態Ｓ_C1と状態Ｓ_A1の要素正規分布数が同じであったとしても、必ずしも要素正規分布同士の対応は１対１になるとは限らない。そして、音響モデルパラメータ調整部５２１において、音響モデルパラメータ変化量計算部５１９において計算された状態Ｓ_A1の各要素正規分布Ｎ_A1、Ｎ_A2、Ｎ_A3、Ｎ_A4のパラメータ変化量と、音響モデル構造参照関係決定部５２０において決定された状態Ｓ_C1における各要素正規分布Ｎ_C1、Ｎ_C2、Ｎ_C3、Ｎ_C4とそれが参照する状態Ｓ_A1における各要素正規分布Ｎ_A1、Ｎ_A2、Ｎ_A4を基に、状態Ｓ_C1の各要素正規分布Ｎ_C1、Ｎ_C2、Ｎ_C3、Ｎ_C4のパラメータ（平均、分散、分布重み）の調整を行い、雑音適応音響モデルＤ：５１８−Ｄの状態Ｓ_D1の各要素正規分布Ｎ_D1、Ｎ_D2、Ｎ_D3、Ｎ_D4のパラメータ（平均、分散、分布重み）とする。

図５の例における分布間距離尺度としては、Kullback−Leiblerダイバージェンスを用いることができる。多次元無相関正規分布Ｎ１、Ｎ２の次元ｉにおける平均、分散および分布重みをそれぞれ、（μ_1i、σ² _1i）、（μ_2i、σ² _2i）とすると、Ｎ₁、Ｎ₂間のKullback−LeiblerダイバージェンスＫ（Ｎ₁、Ｎ₂）は、以下の通りに計算することができる。以下、Ｉは次元数である。

また、図５の例における他の分布間距離尺度としては、バタチャリヤ距離を用いることができる。多次元無相関正規分布Ｎ１、Ｎ２間のバタチャリヤ距離Ｂ（Ｎ１、Ｎ２）は、以下の通りに計算することができる。

また、図５の例における他の分布間距離尺度としては、分布を統合してみたときの前後の尤度差分を用いることができる。多次元無相関正規分布Ｎ_kの次元ｉにおける平均、分散および学習データフレーム数をそれぞれ（μ_ki、σ² _ki、Γ_k）とすると、Ｎ_kの尤度（期待値）は、以下の通りに計算することができる。

統合前の多次元無相関正規分布Ｎ₁、Ｎ₂の尤度をそれぞれＰ₁、Ｐ₂とし、統合後の多次元無相関正規分布Ｎの尤度をＰとすると、統合前後の尤度差分△Ｐ（Ｎ₁、Ｎ₂→Ｎ）は、以下の通りに計算することができる。
△Ｐ（Ｎ₁、Ｎ₂→Ｎ）＝Ｐ₁＋Ｐ₂−Ｐ・・・・・式（１２）
また、図５の例における他の分布間距離尺度としては、分布統合前後の変分ベイズ法に基づく評価関数値の差分を用いることができる。変分ベイズ法に基づく評価関数値については、参考文献（渡部晋治、南泰浩、中村篤、上田修功、“ベイズ的基準を用いた状態共有型ＨＭＭ構造の選択”、電子情報通信学会論文誌、D-II,Vol.J86-D-II, No.6, pp．776-786, 2003年6月）に開示されている。

以上の通りであって、図１から図５までを参照して説明してきた音響モデル雑音適応化装置を用いれば、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、瞬時に音響モデルの雑音適応を行うことができる。即ち、一例として、多数の女性の雑音のない音声データを用いて学習されたクリーン女声音響モデルの雑音適応化を実施しようとする場合、多数の男性の雑音のない音声データを用いて学習されたクリーン男声音響モデルと、それをマルチコンディション学習により雑音適応化した雑音適応男声音響モデルがあれば、新たに雑音が付加された女声音声データを準備してマルチコンディション学習する必要はなく、男声音響モデルの雑音適応化結果をそのまま用いて瞬時に雑音適応を行うことができる。

また、雑音適応化によるパラメータの変化量が、話者の個別の音声の特徴などによらないと仮定すれば、図１から図５までのクリーン音響モデルＡとしては、多数の話者の大量の音声データを用いて学習した音響モデルでなくとも、例えば、一人の話者の少量の音声データを用いて学習した音響モデルでも差し支えない。この様な少量の音声データで学習された音響モデルであれば、マルチコンディション学習に必要なデータ記憶容量も計算時間も少なく抑えることができ、雑音適応化も容易である。更に簡単化するのであれば、音素ＨＭＭとしてmonophone−ＨＭＭのみで構成される様なクリーン音響モデルＡを用いることもできる。

実施例を説明する図。実施例において状態遷移確率の調整をする仕方を説明する図。実施例において最も分布重みの大きい要素分布のパラメータ変化量を基に分布パラメータを調整する仕方を説明する図。実施例において統合分布のパラメータ変化量を基に分布パラメータを調整する仕方を説明する図。実施例において各要素分布のパラメータ変化量を基に分布パラメータを調整する仕方を説明する図。音声認識装置の従来例を説明する図。音響モデルにおける状態の構造の一例を説明する図。音響モデルにおける音素ＨＭＭの構造の一例を説明する図。マルチコンディション学習を説明する図。

符号の説明

１０４−Ａクリーン音響モデルＡ
１０４−Ｃ別のクリーン音響モデルＣ
１１７雑音適応化部
１１８−Ｂ雑音適応音響モデルＢ
１１８−Ｄ新規の雑音適応音響モデルＤ
１１９音響モデルパラメータ変化量計算部
１２０音響モデル構造参照関係決定部
１２１音響モデルパラメータ調整部

Claims

雑音のない音声データで学習されたクリーン音響モデルＡと当該クリーン音響モデルＡを元に雑音適応化された雑音適応音響モデルＢとを準備し、
クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化によるクリーン音響モデルＡの各状態のパラメータ変化量を計算し、
雑音のない音声データで学習された別のクリーン音響モデルＣとクリーン音響モデルＡとを入力し、別のクリーン音響モデルＣの各状態とクリーン音響モデルＡの各状態の対応関係を音素環境依存性により決定し、
計算されたクリーン音響モデルＡの雑音適応化による各状態のパラメータ変化量と、決定されたクリーン音響モデルＡの各状態と別のクリーン音響モデルＣの各状態との対応関係とを入力し、別のクリーン音響モデルＣの各状態のパラメータを、該音響モデルＣに対応すると決定された音響モデルＡの各状態の雑音適応化によるパラメータ変化量を用いて調整して、新規の雑音適応音響モデルＤを作成することを特徴とする音響モデル雑音適応化方法。
雑音のない音声データで学習されたクリーン音響モデルＡを具備し、
クリーン音響モデルＡを入力してこれを雑音適応化する雑音適応化部を具備し、
クリーン音響モデルＡを元に雑音適応化された雑音適応音響モデルＢを具備し、
クリーン音響モデルＡと雑音適応音響モデルＢとを入力して、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化によるクリーン音響モデルＡの各状態のパラメータ変化量を計算する音響モデルパラメータ変化量計算部を具備し、
雑音のない音声データで学習された別のクリーン音響モデルＣとクリーン音響モデルＡとを入力し、別のクリーン音響モデルＣの各状態とクリーン音響モデルＡの各状態の対応関係を音素環境依存性により決定する音響モデル構造参照関係決定部を具備し、
音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルＡの雑音適応化による各状態のパラメータ変化量と、音響モデル構造参照関係決定部において決定されたクリーン音響モデルＡの各状態と別のクリーン音響モデルＣの各状態との対応関係とを入力し、別のクリーン音響モデルＣの各状態のパラメータを音響モデル構造参照関係決定部において決定された該音響モデルＣに対応する音響モデルＡの各状態の雑音適応化によるパラメータ変化量を用いて調整して新規の雑音適応音響モデルＤを作成する音響モデルパラメータ調整部を具備することを特徴とする音響モデル雑音適応化装置。
雑音のない音声データで学習されたクリーン音響モデルＡを具備し、
クリーン音響モデルＡを入力してこれを雑音適応化する雑音適応化部を具備し、
クリーン音響モデルＡを元に雑音適応化された雑音適応音響モデルＢを具備し、
クリーン音響モデルＡと雑音適応音響モデルＢとを入力して、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化によるクリーン音響モデルＡの各状態の状態遷移確率の変化率と各状態において重みの最も大きい分布のパラメータ変化量を計算する音響モデルパラメータ変化量計算部を具備し、
雑音のない音声データで学習された別のクリーン音響モデルＣとクリーン音響モデルＡとを入力し、別のクリーン音響モデルＣの各状態とクリーン音響モデルＡの各状態の対応関係を音素環境依存性により決定する音響モデル構造参照関係決定部を具備し、
音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルＡの雑音適応化による各状態の状態遷移確率の変化率と各状態において重みの最も大きい分布のパラメータ変化量と、音響モデル構造参照関係決定部において決定されたクリーン音響モデルＡの各状態と別のクリーン音響モデルＣの各状態との対応関係とを入力し、別のクリーン音響モデルＣの各状態の状態遷移確率と各状態における全ての分布のパラメータを、音響モデル構造参照関係決定部において決定された該音響モデルＣに対応する音響モデルＡの各状態の雑音適応化による状態遷移確率の変化率と各状態において重みの最も大きい分布のパラメータ変化量を用いて調整して新規の雑音適応音響モデルＤを作成する音響モデルパラメータ調整部を具備することを特徴とする音響モデル雑音適応化装置。
請求項２に記載される音響モデル雑音適応化装置において、
音響モデルパラメータ変化量計算部は、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルＡの各状態と対応する雑音適応音響モデルＢの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とすることを特徴とする音響モデル雑音適応化装置。
請求項２に記載される音響モデル雑音適応化装置において、
音響モデルパラメータ変化量計算部は、さらに、クリーン音響モデルＡから雑音適応音響モデルＢへの雑音適応化によるクリーン音響モデルＡの各状態の各分布のパラメータ変化量である分布パラメータ変化量を計算し、
音響モデル構造参照関係決定部は、さらに、別のクリーン音響モデルＣの各状態と対応するクリーン音響モデルＡの各状態における分布同士の対応を、分布間距離の近さを基準として決定し、
音響モデルパラメータ調整部は、音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルＡの雑音適応化による各状態の各分布パラメータ変化量と、音響モデル構造参照関係決定部において決定されたクリーン音響モデルＡの各状態の各分布と別のクリーン音響モデルＣの各状態の各分布との対応関係とを入力し、別のクリーン音響モデルＣの各状態の各分布パラメータを、音響モデル構造参照関係決定部において決定された該音響モデルＣに対応する音響モデルＡの各状態の各分布の雑音適応化による分布パラメータ変化量を用いて調整して新規の雑音適応音響モデルＤを作成することを特徴とする音響モデル雑音適応化装置。
請求項５に記載される音響モデル雑音適応化装置において、
分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いることを特徴とする音響モデル雑音適応化装置。
請求項５に記載される音響モデル雑音適応化装置において、
分布間距離尺度として、バタチャリヤ距離を用いることを特徴とする音響モデル雑音適応化装置。
請求項５に記載される音響モデル雑音適応化装置において、
分布間距離尺度として、分布統合前後の尤度差分を用いることを特徴とする音響モデル雑音適応化装置。
請求項５に記載される音響モデル雑音適応化装置において、
分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いることを特徴とする音響モデル雑音適応化装置。