JP2005234214A

JP2005234214A - 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Info

Publication number: JP2005234214A
Application number: JP2004043048A
Authority: JP
Inventors: Shinji Watabe; 晋治渡部; Atsushi Nakamura; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-02-19
Filing date: 2004-02-19
Publication date: 2005-09-02
Anticipated expiration: 2024-02-19
Also published as: JP4394972B2

Abstract

【課題】モデル構造の探索空間と各モデル構造評価関数計算時間との両方を削減することにより、短時間で高性能な音響モデルを構築する。
【解決手段】学習音声信号を変換した時系列特徴ベクトルをもとに、(s1)音素決定木を用いてクラスタリングを行い、(s2)クラスタリングにより得られた音響モデルであって、(s3)１状態あたり異なる混合数を有する複数の音響モデルからベイズ基準評価関数が最大であるモデル構造を選択し、(s1)のクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いる。
【選択図】図８

Description

本発明は、音声認識用音響モデルの生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体に関する。

音響モデルが用いられる音声認識装置の概略を説明する（図１参照）。
音声認識装置は、フレームごとに学習音声信号データと時系列特徴ベクトルに変換する特徴量変換部と、モデルパラメータ学習及び適切なモデル構造決定を行う音響モデル生成部と、得られた音響モデルを用いて未知入力音声の時系列特徴量ベクトルに対しスコアを算出し、これに発音辞書や言語モデル等に対するスコアを考慮して認識結果を与える認識部とから構成される。

音響モデル生成部について説明を行う。
現在音響モデルで主流となっているのは図２（状態数３、混合数３）にあるように、１音素の特徴量時系列を隠れマルコフモデル（ＨＭＭ）で表現し、ＨＭＭ状態の出力分布として混合ガウス分布を用いる手法である。
ＨＭＭは音声の区分定常的な性質を、定常的確率過程と状態遷移の組み合わせで表現することができる。また、混合ガウス分布を用いることにより、様々な要因により作られる音声の揺らぎを統計的に表現することができる。
状態系列集合をＳ＝｛ｓ⁰，ｓ¹，・・・，ｓ^T｝とし、混合ガウス成分系列をＶ＝｛ｖ⁰，ｖ¹，・・・，ｖ^T｝とし、Ｄ次元時系列特徴量ベクトルＯ＝｛Ｏ^T∈Ｒ^D｜ｔ＝１，・・・，Ｔ｝とすると、Ｏ，Ｓ，Ｖからなる完全データを出力とするＨＭＭ出力分布は各音素カテゴリー毎に次のように表現される。

また、文中において上付き添字とべき乗を区別するために、べき乗の場合は必ずその変数に括弧（）を付ける。

次に音素カテゴリーについて述べる。発話機構の物理的制約や抑揚などにより、前後の音素に応じて発声は変化するため、近年では直前直後の音素環境を考慮したトライフォンを音素カテゴリーとするのが一般的である。トライフォンは音素環境を考慮しない音素カテゴリー（モノフォン）に比べて、複雑なモデルである。
トライフォンの総数は膨大であり、全てのトライフォンを十分に学習できるほどのデータを容易するのは困難である。そのため、音響的に性質の似ているトライフォンをＨＭＭ状態単位でクラスタリングし、１つの音素カテゴリーとみなすことにより、データ不足により生じる過学習を回避する手法がとられる（図３参照）。このような状態クラスタリングの仕方や総状態数の決定を音響モデルにおけるモデル構造の選択と呼ぶ（音素環境状態クラスタリング）。モデル構造選択には状態あたりの混合数の設定も含まれる（混合数決定）。

最適モデル構造は学習データに依存するため、学習データに応じたモデル構造選択が必要となる。従来法である最尤法はデータが十分大きい時の推定を保証しているだけでモデル構造選択についての妥当性を議論することができない。そのため、モデル構造選択には経験則の介在が不可欠となっている。さらに、音声認識用音響モデルは、総計数が１００万個にも及ぶ複雑なパラメータがＨＭＭや音素環境状態クラスタリング、混合ガウス分布で階層的に表現されており、またＨＭＭ状態系列や混合ガウス成分系列といった隠れ変数を含んでいるため、そのモデル構造は極めて複合的である。従って、現在の音響モデル構築は、この複合的構造を把握した限定された人（専門家）の経験則を利用せざるを得ないという問題を抱える。一方で、実際の音声認識の応用においては、事前に学習に用いられたデータとは異なる環境での用途が必ずでてくるため、日々得られる異環境音声データをもとに音響モデルを再構築することが頻繁に起こる。このような場合、その都度経験則が必要となり、そのコストは大変膨大となる。

（経験則法）
経験則による従来型の音響モデル構築について説明する（図４：s11〜s18 参照）。
(s11)学習データに対して、学習データ量や学習データの性質（時系列特徴量ベクトル
）をもとに、経験からクラスタリング状態の総数（状態数）と混合数を設定する。その後、(s12)音素決定木法や逐次状態分割法などの状態クラスタリングを、あらかじめ定めた総状態数に達するまで行い、状態クラスタリング構造を設定する（図４参照）。ここで、従来法においてはクラスタリングの基準として尤度や平均ベクトルの距離といった分布の近さをあらわす評価関数が用いられる（図５参照）。しかし、これらの評価関数は総状態数などのモデル構造の良し悪しとは無関係なため、学習データから得られる経験則による総状態数の設定が必要となる。また状態クラスタリングにおいて、１）状態を表現する出力分布は混合数１の単一ガウス分布である、２）状態に割り当てられた学習データは固定、と仮定することにより隠れ変数を取り払っている。１）に関して、本来は様々な要因により作られる音声の揺らぎを表現する混合ガウス分布を用いたクラスタリングが妥当であるが、混合ガウス分布とした場合、評価関数計算において、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算を行う期待値最大化法が必要となり、それを状態の組み合わせ各々に対して計算する必要があるため計算量が膨大である。一方、混合数１の単一ガウス分布とした場合、状態ｊ＝１と状態ｊ＝２を共有化させた状態Ｊ＝｛１＋２｝の統計量（フレーム数ζ₁₊₂、平均ベクトルμ₁₊₂、対角共分散行列σ₁₊₂）は、状態１と状態２の統計量（フレーム数ζ₁，ζ₂、平均ベクトルμ₁，μ₂、対角共分散行列σ₁，σ₂）を用いて次のように求められる（s12-1)。

ここで（μ）²＝｛（μ_d=1）²，・・・，（μ_d=D）²｝’（「’」は転置を表す）である。ここでは計算時間短縮の理由から対角共分散行列を用いる。よって共分散行列は対角成分から構成されるＤ次元ベクトルで表現される（つまり、σ＝（σ₁₁，・・・σ_DD）’，σ_yzは共分散行列のｙ行ｚ列成分）。計算結果は極めてシンプルであり、期待値最大化法を必要とせず、それぞれの統計量によって所望のクラスター状態の統計量を解析的に得られ、それらの関数である評価関数も解析的に算出される(s12-2)。そのため最小クラスター（トライフォン音素カテゴリーの場合はトライフォン状態）の統計量を事前に計算し、記憶してしておけば、式（２）を用いて高速に評価関数を計算することができる(s12-1)。その後、１）及び２）の仮定を取り払い、混合ガウス分布モデルのＨＭＭ最尤学習を行う(s13)。このとき、混合数を変化させて複数の音響モデルを作る(s16)。また、総状態数を変化させて先ほどの作業を繰り返すことにより(s17)、状態数・混合数が異なる複数の音響モデル構造を作ることができる(s14)。最後に、その音響モデルの良し悪しを決めるために、評価データをもとに認識を行い(s15)、認識率が最も良いものが音響モデルとして採用される(s18)。しかし、認識率を評価基準とした場合、音響モデルは実際の認識データではなく評価データに特化されることになるため、未知データに対する認識が前提の音声認識システムにとって、必ずしも良い評価とはなっていない。また、音声認識は言語モデル等が複雑に絡まった大規模システムであるため、認識結果を出すにも経験則の介在が不可欠であり、かつ時間もかかる（これを経験則法と呼ぶ）。

（２段階法）
ＭＤＬ（最小記述長）、ＢＩＣ（ベイズ的情報基準）、ＡＩＣ（赤池情報基準）の漸近情報量基準（漸近：学習データが十分多い領域でのみ機能する）や変分ベイズ基準評価関数を用いた音響モデル構造決定は、評価関数によりモデルの良し悪しを決めることができるため、経験則による総状態数の設定や認識率算出（モデル構造の良し悪しを評価に用いる）をする必要がない[特許文献１，非特許文献１，２参照]。これらは、混合数決定においても評価関数を用いることにより同様の利点を持つ[非特許文献３参照]。しかし、[非特許文献１，２]は評価関数にＭＤＬ，ＢＩＣ，ＡＩＣを用いており、学習データが少ない領域ではその構造決定が十分に機能しない。また音響モデルは隠れ変数を含んでおり、そのような場合においてもＭＤＬ，ＢＩＣ，ＡＩＣはモデル構造を正確に決定することができない。変分ベイズ評価関数は学習データの量に依存せず、また隠れ変数が存在しかつ複雑に構造化された音響モデルにおいても、その構造を評価関数に正確に反映できる。しかし、実際の音響モデルは音素環境クラスタリング、混合数決定の組み合わせで表現され、それらの最適な音響モデルをしらみつぶしに探していくのは変分ベイズ評価関数を用いた場合でも大変時間がかかる。

それを回避するために、(s21)まず初めに状態クラスタリングに際し、先ほど同様１）及び２）の仮定を用いて隠れ変数を除き、あらかじめ計算された各状態の統計量をもとに状態クラスタリングを行う（図７参照）。この場合経験則法とは違い、評価関数の最も高くなる状態クラスタリングを選択することにより、状態クラスタリングに関しては経験則の介在なく構築することができる。その後(s22)１）及び２）の仮定を取り払い、混合ガウス分布モデルのＨＭＭ最尤学習を行う。このとき、混合数を変化させて複数の音響モデルを構築し、(s23)最も評価関数の高い音響モデルをもって最適音響モデルとする手法が提案されている（このような２段階操作によるモデル構造の自動決定法を２段階法とよぶ）[非特許文献３参照]。２段階法は経験則を必要とせず、計算機で音響モデルを構築できる上に、状態共有構造は１種類を作ればいいのでモデル構造探索空間は削減され、従来法よりも短い時間で音響モデルを構築できる。しかし、状態クラスタリング・混合数決定それぞれの工程で独立に最適モデル構造探索を行うため、局所最適モデル構造を選択することになり、認識性能が経験則を用いる従来法に比べて下回る（図６及び表１参照）。
このように、従来の２段階法は局所最適モデル探索であるため、最適音響モデルの自動構築が機能的に不可能である。
本発明は、音素環境状態クラスタリング、混合数決定を同時に最適化することにより、最適音響モデルを構築する。
篠田浩一．特開２００２−２６８６７５「音声認識装置」篠田浩一，渡辺隆夫"情報量基準を用いた状態クラスタリングによる音響モデルの作成"信学技報，SP1996-79，pp.9-15，1996．渡部晋治，南泰浩，中村篤，上田修功"ベイズ的アプローチに基づく状態共有型ＨＭＭ構造の選択"電子情報通信学会論文誌 D-II，Vol.86-D-II，pp.776-786，2003. S.Watanabe,Y.Minami,A.Nakamura,and N.Ueda."Bayesian acoustic modeling for spontaneous speech recognition." In Proc. SSPR2003, pp.47-50, 2003.

音響モデル構築は２つの異なる方法によって行われる。第１の方法は音響モデル構造を熟知する専門家が経験に基づき構築する方法であり、第２の方法は自動的に構築する方法である。
第１の方法は多大なコストを要するという問題を有する。その原因は人手の介在、、又は経験則に頼ることにある。すなわち、実際の音声認識の応用においては、事前に学習に用いられたデータとは異なる環境での用途が必ず出てくるため、日々得られる異環境音声データをもとに音響モデルを再構築することが頻繁に起こる。このような場合、その都度経験則が必要となり、そのコストが膨大となる。
第２の方法は、多大な計算量を要するという問題を有する、この問題は音響モデル構造決定の計算量が膨大であるという事実に起因する、これは次の２つに起因する。すなわち、最適モデル構造を探索する際の膨大な探索空間と個々の構造を評価する際の多大な評価関数計算量とである。

探索空間は、モデル構造決定が、音素環境状態クラスタリングと混合ガウス分布の混合選択との２つを同時に最適化することによって成されるために、膨大になる。評価関数計算は、学習データの各フレームごとに混合ガウス分布における隠れ変数の事後確率を収束するまで計算することを必要とするため、多大な計算時間を必要とする。また評価関数計算時間を低減するために提案された２段階法は局所最適モデル構造を選択するため、計算時間低減の反面、性能が劣化するという問題を有する。

本発明は、前記第２の方法に属し、ベイズ基準による音響モデル構造の自動決定に際し、音素環境状態クラスタリングを混合ガウス分布で行うことにより、モデル構造探索空間を削減する。そのとき、ベイズ基準で用いるモデル構造評価関数の計算において、混合ガウス分布の統計量を事前知識を用いて近似し、あらかじめ計算された統計量のみから評価関数を近似的に算出することにより、計算量を削減する。

経験則を用いる音響モデルと同等の性能を保ちながら、２段階法とほぼ同程度の計算時間で最適音響モデルの自動構築を実現する。
表１は、実際に、経験則を用いた手法（経験則法）と２段階法、及び本発明で紹介した音響モデル作成法（混合ガウス分布を用いた音素環境状態クラスタリング法および実施例の最後に示した評価関数近似法の併用）に対して計算時間及び認識性能を比較したものである。発明法は経験則法に対して認識性能がほぼ同程度であると共に計算時間の短縮された最適音響モデルを経験則を用いず自動で構築できる。また、従来型の自動構築法である２段階法と比べて、計算時間がほぼ同程度で、かつ最適音響モデルを構築できたため認識性能は自動構築法を上回った。このように本発明は最適音響モデル構造を実用的計算時間で自動構築することを可能とした。

本発明を図８〜図１０を参照して説明する。
音素環境状態クラスタリング、混合数決定を同時に最適化する音響モデルを構築するための手段として、混合ガウス分布を用いた決定木の構築を提案する。決定木の構築法としては音素質問を利用して節の併合・分割により効率よくクラスタリングを行う音素決定木法を用いる。時系列状態方向の構造決定を考慮した逐次状態分割法でも同様の議論が可能である。これらのクラスタリングによって得られる、状態あたりの混合数が異なる複数の音響モデルの中から最もベイズ基準評価関数の高いモデルをもって最適モデル構造とする（図８(s1) 参照）。

本方法は、評価関数の最も高くなる状態クラスタリングを選択することにより、状態クラスタリングに関しては経験則の介在なく構築することができるため、２段階法同様、モデル構造探索空間を削減する（図９(s1-1) 参照）。この探索方法は音声認識用音響モデル構造の単峰性を利用しており、最適性を保証する。また、状態クラスタリング時に混合ガウス分布を用いるため、単一ガウス分布で状態クラスタリングを行う２段階法と比べて、より正確な音響モデルパラメータ（ベイズ基準のため、Θに対する事後分布パラメータがそれにあたる）および音響モデル構造を作成することができる。この場合、各クラスタリングにおける評価関数計算において混合ガウス分布モデルの隠れ変数が存在するため、最尤法同様、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算する（変分ベイズ期待値最大化法）必要があるため、最終的に混合ガウス分布の状態クラスタリング構造を得るためには、莫大な計算時間がかかる。

そこで、計算時間短縮のために、混合ガウス分布の統計量を各状態の十分統計量を用いて近似的に導出し、変分ベイズ期待値最大化法なしでベイズ基準評価関数を近似的に導出する手法を提案する（図１０(s1-2) 参照）。
初めに、学習データが状態だけでなく各混合成分においても割り当てが固定であると仮定する。このとき、隠れ変数によるベイズ基準評価関数への寄与は−Σ_kｗ_jklogｗ_jk と近似できるため、状態ｊの評価関数は次のように近似的に表現することができる。

各混合成分あたりの統計量ζ_jk，ｗ_jk，μ_jk，σ_jkはビタービ・アライメントやk-meansクラスタリング等で与えることができる。また事前分布パラメータのうちφ_jk ⁰，ξ_jk ⁰，η_jk ⁰，σ_jk ⁰，Ｒ_jk ⁰ はモノフォンＨＭＭ状態や音素を混合分布で表現したときの各混合成分あたりの統計量（フレーム数ζ・平均μ・分散σ）などから与えることができる。事前分布パラメータをベイズ基準評価関数Ｆ^mが最も高くなるように学習により求める方法もある。しかし、音声認識用音響モデルの学習時間は膨大なため、特にφ_jk ⁰，ξ_jk ⁰，η_jk ⁰に関しては固定されたパラメータを割り振り、ν_jk ⁰，Ｒ_jk ⁰のみをモノフォンＨＭＭ状態の混合分布統計量で与える方が現実的である。従って以降では任意の状態および任意の混合成分に関して一様な事前分布パラメータφ⁰，ξ⁰，η⁰を用いて議論を進める。

次に、各混合成分あたりの統計量μ_jk,σ_jkは状態辺り一様であると仮定し、かわりにν_jk ⁰，σ_jk ⁰を事前に学習したモノフォンＨＭＭ状態の混合分布統計量とし、フレーム数はモノフォンＨＭＭ状態の混合重み係数に比例させる手法も考えられる（つまりμ_jk＝μ_j，σ_jk＝σ_j，ζ_jk＝ζ_jζ_k／Σ_kζ_k，ν_jk ⁰＝μ_k，Ｒ_jk ⁰＝η〜_jkσ_k）。このような事後分布パラメータは次のように表現される。

フレーム数及び分散事後分布が同一であると仮定する（つまりζ_jk＝ζ_j／Ｌ，Ｌは混合数であり、学習データ量に応じて１０〜３０に設定する）ことにより、上記方法と比較して混合分布を用いた事前統計量を必要としないで事後分布パラメータを求めることができる。

以上の近似を用いることにより、混合ガウス分布における評価関数計算が事前に計算された統計量のみから構成されるため、フレーム数に隠れ変数の事後確率値を計算することなく容易に評価関数を計算することができる。
このように、本発明は図８と図６の違いからわかるように、混合ガウス分布を用いた状態クラスタリングを行うことにより、従来法（２段階法）では機能的に不可能であった最適音響モデルの自動構築を実現可能とする。そのとき、式（５）と式（７）を利用して混合ガウス分布統計量を近似的に求めてベイズ評価関数を計算することにより、混合ガウス分布を用いた状態クラスタリングを実用的計算時間で行うことを可能とする。
次に、混合数を変えて繰り返し評価関数を計算して(s2)、最も評価関数の高い音響モデルを選ぶ(s3)。
なお、図８において、音響モデル構築部を構成するモデル作成部は(s1)，(s2)の処理、音響モデル選択部は(s3)の処理を行う。

本発明の音響モデル生成装置をコンピュータにより構成することができる。その場合は図に示された方法の各手順をコンピュータに実行させるための音響モデル生成プログラムを、ＣＤ−ＲＯＭ、磁気ディスク装置などの記録媒体又は通信回線を介してコンピュータ内にダウンロードして、そのプログラムをコンピュータに実行させる。

音声認識装置の概略構成を示す図。１音素を表現する音響モデルを説明する図。中心音素/ａ/のTriphoneＨＭＭ状態のクラスタリングを説明する図。経験則による音響モデル構築の手順を示す図。経験則による混合数１として音素環境状態クラスタリングの手順を示す図。計算機による音響モデル自動構築（２段階法）の手順を示す図。計算機による混合数１として音素環境状態クラスタリング(s21)の手順を示す図。計算機による音響モデル自動構築（混合ガウス分布を用いた音素環境状態のクラスタリング）の手順を示す図。混合ガウス分布を用いた音素環境状態クラスタリング（変分ベイズ期待値最大化法）(s1-1)の手順を示す図。混合ガウス分布を用いた音素環境状態クラスタリング（混合統計量を用いた近似）(s1-2)の手順を示す図。

Claims

学習音声信号を時系列特徴量に変換するステップと、
時系列特徴量をもとに音素決定木法を用いてクラスタリングを行い、このクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いて行うステップと、
クラスタリングにより得られた音響モデルであって、１状態当たり異なる混合数を有する音響モデルを生成し、ベイズ基準評価関数を計算するステップと、
ベイズ基準評価関数値が最大である音響モデル構造を選択するステップと、
を有することを特徴とする音声認識用音響モデル生成方法。
請求項１に記載の音声認識用音響モデル生成方法において、
音素環境状態クラスタリングに逐次状態分割法を用いることを特徴とする音声認識用音響モデル生成方法。
請求項１に記載の音声認識用音響モデル生成方法において、
ベイズ基準におけるモデル構造評価関数の計算は、変分ベイズ法による評価関数計算法を用いて、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算するすることにより、評価関数を求めることを特徴とする音声認識用音響モデル生成方法。
請求項１に記載の音声認識用音響モデル生成方法において、
ベイズ基準におけるモデル構造評価関数の計算は、混合ガウス分布の統計量を事前知識を用いて近似し、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算することなく評価関数を求めることを特徴とする音声認識用音響モデル生成方法。
学習音声信号を時系列特徴量に変換する手段と、
時系列特徴量をもとに音素決定木法を用いてクラスタリングを行い、このクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いて行う手段と、
クラスタリングにより得られた音響モデルであって、１状態当たり異なる混合数を有する音響モデルを生成し、ベイズ基準評価関数を計算する手段と、
ベイズ基準評価関数値が最大である音響モデル構造を選択する手段と、
を備えたことを特徴とする音声認識用音響モデル生成装置。
請求項５に記載の音声認識用音響モデル生成装置において、
音素環境状態クラスタリングに逐次状態分割法を用いることを特徴とする音声認識用音響モデル生成装置。
請求項５に記載の音声認識用音響モデル生成装置において、
ベイズ基準におけるモデル構造評価関数の計算は、変分ベイズ法による評価関数計算法を用いて、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算するすることにより、評価関数を求めることを特徴とする音声認識用音響モデル生成装置。
請求項５に記載の音声認識用音響モデル生成装置において、
ベイズ基準におけるモデル構造評価関数の計算は、混合ガウス分布の統計量を事前知識を用いて近似し、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算することなく評価関数を求めることを特徴とする音声認識用音響モデル生成装置。
学習音声信号を時系列特徴量に変換する処理と、
時系列特徴量をもとに音素決定木法を用いてクラスタリングを行い、このクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いて行う処理と、
クラスタリングにより得られた音響モデルであって、１状態当たり異なる混合数を有する音響モデルを生成し、ベイズ基準評価関数を計算する処理と、
ベイズ基準評価関数値が最大である音響モデル構造を選択する処理と、
をコンピュータに実行させる音声認識用音響モデル生成プログラムを記録した記録媒体。
請求項９に記載の音声認識用音響モデル生成プログラムを記録した記録媒体において、
音素環境状態クラスタリングに逐次状態分割法を用いる音声認識用音響モデル生成プログラムを記録した記録媒体。
請求項９に記載の音声認識用音響モデル生成プログラムを記録した記録媒体において、
ベイズ基準におけるモデル構造評価関数の計算は、変分ベイズ法による評価関数計算法を用いて、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算するすることにより、評価関数を求める音声認識用音響モデル生成プログラムを記録した記録媒体。
請求項９に記載の音声認識用音響モデル生成プログラムを記録した記録媒体において、
ベイズ基準におけるモデル構造評価関数の計算は、混合ガウス分布の統計量を事前知識を用いて近似し、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算することなく評価関数を求めることを特徴とする音声認識用音響モデル生成プログラムを記録した記録媒体。