JP5161183B2

JP5161183B2 - 音響モデル適応装置、その方法、プログラム、及び記録媒体

Info

Publication number: JP5161183B2
Application number: JP2009224140A
Authority: JP
Inventors: 義和山口; 哲小橋川; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-09-29
Filing date: 2009-09-29
Publication date: 2013-03-13
Anticipated expiration: 2029-09-29
Also published as: JP2011075622A

Description

本発明は、音響モデルの適応を教師あり適応と教師なし適応とを併用して行う音響モデル適応装置、その方法、プログラム、及び記録媒体に関する。

音声認識に使用する音響モデルを更新する際には、学習データ中の事例ができるだけ多く成り立つようにモデルのパラメータの最適化処理を行う。この処理を「音響モデルの適応」と呼び、一般に、音声ファイルと当該音声ファイルの発話内容を表す正解テキストとを学習（適応）データとして用いる。音響モデルの適応は、正解テキストを、音声ファイルに対応する読みを人間が書き起こすことにより得る教師あり適応と、音声ファイルの音声認識結果として得る教師なし適応とに大別される。

教師なし適応は人手を介さないため、コストや時間の面で優れているが、音声認識結果には誤認識が含まれうるため、適応処理を行うことで逆に音響モデルの精度を低下させてしまう場合がある。そこで、そのような問題に対し、音声認識結果に音声認識結果の信頼性を示す信頼尺度を付与して、この信頼尺度の高さに応じて適応データを選択し、選択した音声認識結果を用いて音響モデルの適応を行う手法が特許文献１などにおいて開示されている。具体的には、信頼尺度が或る閾値を超えた適応データのみを選択して教師なし適応を行う手法、更には、信頼尺度が閾値を下回った適応データについても、人手で正解テキストを与える教師あり適応を併用することにより適応の効果を高める手法等が挙げられている。

特開２００７−２４８７３０号公報

教師なし適応の際に、ある閾値以上の信頼尺度の適応データのみを用いることにすると、適応に利用できるデータ量が少なくなるため、統計モデルである音響モデルの適応に十分なデータ量が得られない恐れがある。それに加え、データ量の少なさから、適応データに含まれる音素環境のバリエーションが偏り、適応の効果が薄れる恐れがある。音素環境とは隣接する音素を考慮した音素のカテゴリであり、前後の音素を考慮するトライフォン、先行音素のみまたは後続音素のみを考慮するバイフォン、前後の音素を考慮しないモノフォンがあり、一般にデータ量が多いほど含まれるバリエーションが増加する。また、適応に利用するデータ量を増やすために閾値を下げれば、誤認識を含む割合が高くなるため適応の効果が薄れる。一方、信頼尺度が閾値を下回った全ての適応データについて人手で正解テキストを与える教師あり適応を適用する場合には、そのための費用や時間を余分に要する。

本発明は、適応に利用できるデータ量や音素環境のバリエーションを十分に確保して音響モデルの適応効果を享受しつつ、コストの増加を抑えることが可能な音響モデル適応装置、その方法、プログラム、及び記録媒体を提供することを目的とする。

本発明の音響モデル適応装置は、音声データと当該音声データの音声認識結果として得られた信頼尺度が付されたテキストとからなる複数の適応用データを用いて音響モデルの適応を行う装置であって、音響モデル記憶手段と適応用基礎データ記憶手段と信頼尺度選択手段と音素環境抽出手段と音素環境発話選択手段とテキスト修正手段と第１更新情報計算手段と第２更新情報計算手段と第３更新情報計算手段と更新情報合成手段とモデルパラメータ更新手段とを備える。また、処理過程のデータの記憶手段として、第１適応用データ記憶手段、第４適応用データ記憶手段、音素環境リスト記憶手段、第２適応用データ記憶手段、第３適応用データ記憶手段、修正第２適応用データ記憶手段、第１更新情報記憶手段、第２更新情報記憶手段、及び第３更新情報記憶手段を備える。

音響モデル記憶手段は、適応対象の音響モデルを記憶する。

適応用基礎データ記憶手段は、予め用意された複数の適応用データを記憶する。

信頼尺度選択手段は、適応用基礎データ記憶手段から適応用データを順次読み込み、信頼尺度が所定の閾値α以上である適応用データを第１適応用データとして第１適応用データ記憶手段に書き込み、信頼尺度が所定の閾値β以上でα未満である適応用データを第４適応用データとして第４適応用データ記憶手段に書き込む。

音素環境抽出手段は、全ての第１適応用データを参照し、当該第１適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段に書き込む。

音素環境発話選択手段は、第４適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、音素環境リストと対照して、当該音素環境リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第４適応用データを第２適応用データとして第２適応用データ記憶手段に書き込み、γ個未満含まれている場合には当該第４適応用データを第３適応用データとして第３適応用データ記憶手段に書き込む。

テキスト修正手段は、第２適応用データに対する正解テキストが入力され、当該第２適応用データを参照してそのテキストを当該正解テキストに修正した修正第２適応用データを生成し、修正第２適応用データ記憶手段に書き込む。

第１更新情報計算手段は、適応対象の音響モデルと第１適応用データとを参照し、当該音響モデルのパラメータの更新に必要な十分統計量である第１更新情報を音素環境ごとに計算して第１更新情報記憶手段に書き込む。

第２更新情報計算手段は、適応対象の音響モデルと修正第２適応用データとを参照し、当該音響モデルのパラメータの更新に必要な十分統計量である第２更新情報を音素環境ごとに計算して第２更新情報記憶手段に書き込む。

第３更新情報計算手段は、適応対象の音響モデルと第３適応用データとを参照し、当該音響モデルのパラメータの更新に必要な十分統計量である第３更新情報を音素環境ごとに計算して第３更新情報記憶手段に書き込む。

更新情報合成手段は、音素環境ごとに各更新情報を参照し、第１更新情報に対しては所定の重みｗ１（０＜ｗ１≦１）を乗じて加重第１更新情報を、第２更新情報に対しては所定の重みｗ２（０＜ｗ２≦１）を乗じて加重第２更新情報を、第３更新情報に対しては所定の重みｗ３（０＜ｗ３＜ｗ１、ｗ２）を乗じて加重第３更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する。

モデルパラメータ更新手段は、合成更新情報を用い、音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成する。

本発明の音響モデル適応装置、その方法、プログラム、及び記録媒体においては、相対的に信頼尺度が高い適応用データについてはそのまま用いて教師なし適応を行い、相対的に信頼尺度が低い適応用データのうち信頼尺度が高い適応用データに含まれない音素環境を多く持つデータについては優先的に人手による音声認識テキストの修正を施して教師あり適応を行い、相対的に信頼尺度が低くかつ音声認識テキストの修正を施さないデータについては他のデータより低い重みをかけて教師なし適応を行う。このように適応用データを分類加工して教師なし適応と教師あり適応とを併用して行うことで、適応できる音素環境のバリエーションを広く確保できるため幅広い音素環境において適応の効果を得ることができ、なおかつ音素環境の偏りによる適応の効果の低下を避けることできる。また、適応データ量を多く確保しつつ誤認識による悪影響を軽減することができる。更に、教師あり適応を限定的に採用するため、費用や時間についても抑制することができる。

音響モデル適応装置１００の機能構成例を示す図。音響モデル適応装置１００の処理フローを示す図。未分類の適応用データを第１〜３適応用データに分類する過程を示す図。連続混合分布ＨＭＭのモデルパラメータを説明する図。

図１に本発明の音響モデル適応装置１００の装置構成例を、図２に処理フロー例をそれぞれ示す。

音響モデル適応装置１００は、音響モデル記憶手段１０１と適応用基礎データ記憶手段１０２と信頼尺度選択手段１０３と音素環境抽出手段１０６と音素環境発話選択手段１０８とテキスト修正手段１１１と第１更新情報計算手段１１３と第２更新情報計算手段１１５と第３更新情報計算手段１１７と更新情報合成手段１１９とモデルパラメータ更新手段１２０とを備える。また、処理過程のデータの記憶手段として、第１適応用データ記憶手段１０４、第４適応用データ記憶手段１０５、音素環境リスト記憶手段１０７、第２適応用データ記憶手段１０９、第３適応用データ記憶手段１１０、修正第２適応用データ記憶手段１１２、第１更新情報記憶手段１１４、第２更新情報記憶手段１１６、及び第３更新情報記憶手段１１８を備える。

音響モデル記憶手段１０１は、適応対象の音響モデルを記憶する。

適応用基礎データ記憶手段１０２は、予め用意された複数の適応用データ（例えば１００００データ）を記憶する。適応用データは、音響モデル適応用に収集された音声データと当該音声データの音声認識結果として得られたテキストとからなり、更に当該テキストが正解である尤もらしさを表す数値である信頼尺度が付されている。音声認識処理及び信頼尺度の計算は、例えば特許文献１や参考文献１に記載された処理であり、信頼尺度が高ければ高いほど正解である尤もらしさが高い。
〔参考文献１〕特許第３８１９８９６号公報
信頼尺度選択手段１０３は、適応用データを信頼尺度によって選択する。具体的には、適応用基礎データ記憶手段１０２から適応用データを順次読み込み、信頼尺度が所定の閾値α以上である適応用データを教師なし適応に用いる第１適応用データとして第１適応用データ記憶手段１０４に書き込み、信頼尺度が所定の閾値β以上でα未満である適応用データを第４適応用データとして第４適応用データ記憶手段１０５に書き込む（Ｓ１）。なお、信頼尺度が閾値β未満である適応用データは適応に不適切なデータとして除外する。教師なし適応においては、適応用データとして音声認識結果テキストに正解が含まれる割合が多いほど適応の効果が高く、つまり適応音響モデルによる音声認識の認識率が高いため、信頼尺度が相対的に高いもの（第１適応用データ）については、この時点で教師なし適応処理に用いるデータとして抽出する。

音素環境抽出手段１０６は、第１適応用データ記憶手段１０４に記憶された全ての第１適応用データを参照し、当該第１適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段１０７に書き込む（Ｓ２）。音素環境の抽出方法としては例えば参考文献２に記載の、詳細度の異なるラベルを１種類（詳細度：高）あるいは全種類を生成して音素環境として抽出する方法が挙げられる。
〔参考文献２〕特許第３９２６７１６号公報
音素環境発話選択手段１０８は、第４適応用データ記憶手段１０５に記憶された第４適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、音素環境リスト記憶手段１０７に記憶された音素環境リストと対照して、当該音素環境リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第４適応用データを第２適応用データとして第２適応用データ記憶手段１０９に書き込み、γ個未満含まれている場合には当該第４適応用データを第３適応用データとして第３適応用データ記憶手段１１０に書き込む（Ｓ３）。

図３は、上記各処理により５個の未分類の適応用データを第１〜３適応用データに分類する例をα＝0.8、β＝0.6、γ＝３の場合について示したものである。適応用基礎データ記憶手段１０２に予め記憶された各適応用データの音声データの認識結果であるテキスト（信頼尺度）が、t ou k y ou(0.92)、w a k a y a m a(0.89)、a i ch i(0.78)、k y ou t o(0.61)、o k a y a m a(0.65)であったとき、まず信頼尺度選択手段１０３において、信頼尺度が0.8以上のt ou k y ouとw a k a y a m aとが第１適応用データとして抽出され、信頼尺度が0.6以上0.8未満である残りの３個が第４適応用データとして抽出される。続いて、音素環境抽出手段１０６において、第１適応用データとして抽出された２個の適応用データの認識結果テキストに含まれる全ての音素環境を図４に示すように抽出し、音素環境リストを生成する。なお、図３においては、例えば中心音素ou、先行音素t、後続音素kのトライフォンをt-ou+kと表記し、中心音素t、後続音素ouのバイフォンをt+ouと表記し、先行音素y、中心音素ouのバイフォンをy-ouと表記している。続いて、音素環境発話選択手段１０８において、まず３個の第４適応用データを参照し、それぞれのテキストに含まれる音素環境を図４に示すように抽出する。続いて各第４適応用データについて、音素環境リストを参照し、当該音素環境リストに含まれない音素環境が当該テキストに含まれる個数に応じて、第２適応用データ（３個以上）と第３適応用データ（３個未満）に分類する。例えば、a i ch iは４個の音素環境がすべて音素環境リストに含まれないため第２適応用データに分類され、k y ou t oも５個の音素環境のうち４個が音素環境リストに含まれないため第２適応用データに分類されるが、o k a y a m aは７個の音素環境のうち２個だけが音素環境リストに含まれないため第３適応用データに分類される。

テキスト修正手段１１１は、第２適応用データに対する正解テキストが入力され、第２適応用データ記憶手段１０９に記憶された当該第２適応用データを参照してそのテキストを当該正解テキストに修正した修正第２適応用データを生成し、修正第２適応用データ記憶手段１１２に書き込む（Ｓ４）。正解テキストは、例えば市販の再生装置、再生ソフトなどにより第２適応用データの音声データを再生し、人がそれを聞くことで得ることができる。修正は正誤を問わず全ての第２適応用データのテキストに対してファイル置き換えなどより一括で行ってもよいし、誤っている第２適応用データのテキストのみに対してテキストエディタなどを用いて個別に修正を施しても構わない。このように第２適応用データに対してのみテキストに修正を施して教師あり適応を行うことで、人手による費用や時間を抑えつつ、第１適応用データに含まれない音素環境をより幅広く適応に用いることができる。なお、対象となる第２適応用データが多いことなどにより正解テキストを用意できなかった第２適応用データについては、第３適応用データとして扱うべく第３適応用データ記憶手段１１０に追記することとしても構わない。

第１更新情報計算手段１１３は、適応対象の音響モデルを音響モデル記憶手段１０１から、また第１適応用データを第１適応用データ記憶手段１０４からそれぞれ参照し、第１更新情報を音素環境ごとに計算して第１更新情報記憶手段１１４に書き込む（Ｓ５−１）。なお更新情報とは、音響モデル、例えば図４に示すような連続混合分布ＨＭＭ(Hidden Markov Model)のモデルパラメータである状態遷移確率、複数の正規分布（平均、分散）及びそれらの混合重みを計算するために必要な十分統計量である。更新情報の具体的な計算方法は、例えば参考文献１において開示されている。

第２更新情報計算手段１１５は、適応対象の音響モデルを音響モデル記憶手段１０１から、また修正第２適応用データを修正第２適応用データ記憶手段１１２からそれぞれ参照し、第２更新情報を音素環境ごとに計算して第２更新情報記憶手段１１６に書き込む（Ｓ５−２）。

第３更新情報計算手段１１７は、適応対象の音響モデルを音響モデル記憶手段１０１から、また第３適応用データを第３適応用データ記憶手段１１０からそれぞれ参照し、第３更新情報を音素環境ごとに計算して第３更新情報記憶手段１１８に書き込む（Ｓ５−３）。

更新情報合成手段１１９は、音素環境ごとに第１〜３の全ての更新情報を各更新情報記憶手段１１３、１１５、１１７から参照し、第１更新情報に対しては所定の重みｗ１（０＜ｗ１≦１）を乗じて加重第１更新情報を、第２更新情報に対しては所定の重みｗ２（０＜ｗ２≦１）を乗じて加重第２更新情報を、第３更新情報に対しては所定の重みｗ３（０＜ｗ３＜ｗ１、ｗ２）を乗じて加重第３更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する（Ｓ６）。通常ｗ１、ｗ２はテキストが正解である可能性が高い（第１適応用データ）、あるいは正解（第２適応用データ）であるため１に近く、またｗ３は第３適応用データの信頼尺度が相対的に低いため、ｗ１、ｗ２より低い０．７などの値を設定する。このように重みを設定することで、適応の精度を損なうことなく適応に利用できるデータ量を多く確保することができる。

モデルパラメータ更新手段１２０は、音素環境ごとに計算した合成更新情報を用い、音響モデル記憶手段１０１に記憶された音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成する（Ｓ７）。学習方法としては、例えば最尤推定法（ＭＬ）、最大事後確率推定法（ＭＡＰ）、最尤線形回帰法（ＭＬＬＲ）など、いずれの方法を用いても構わない。

以上のように、本発明の音響モデル適応装置、その方法、プログラム、及び記録媒体においては、相対的に信頼尺度が高い適応用データについてはそのまま用いて教師なし適応を行い、相対的に信頼尺度が低い適応用データのうち信頼尺度が高い適応用データに含まれない音素環境を多く持つデータについては優先的に人手による音声認識テキストの修正を施して教師あり適応を行い、相対的に信頼尺度が低くかつ音声認識テキストの修正を施さないデータについては他のデータより低い重みをかけて教師なし適応を行う。このように適応用データを分類加工して教師なし適応と教師あり適応とを併用して行うことで、適応できる音素環境のバリエーションを広く確保できるため幅広い音素環境において適応の効果を得ることができ、なおかつ音素環境の偏りによる適応の効果の低下を避けることできる。また、適応データ量を多く確保しつつ誤認識による悪影響を軽減することができる。更に、教師あり適応を限定的に採用するため、費用や時間についても抑制することができる。

上記の各装置をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。具体的には、信頼尺度選択手段１０３、音素環境抽出手段１０６、音素環境発話選択手段１０８、テキスト修正手段１１１、第１更新情報計算手段１１３、第２更新情報計算手段１１５、第３更新情報計算手段１１７、更新情報合成手段１１９、及びモデルパラメータ更新手段１２０における処理がこれに該当する。そしてコンピュータ上で、適応用データや上記各手段での処理で得られた中間データなどが記憶された各記憶手段とＣＰＵなどの処理手段とのデータのやりとりを通じてこのプログラムを実行することにより、ハードウェアとソフトウェアが協働し、上記処理機能がコンピュータ上で実現されて音響モデルの適応が果たされる。なおこの場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。また、上記の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

Claims

音声データと当該音声データの音声認識結果として得られた信頼尺度が付されたテキストとからなる複数の適応用データを用いて音響モデルの適応を行う音響モデル適応装置であって、
上記音響モデルを記憶する音響モデル記憶手段と、
予め用意された上記複数の適応用データを記憶する適応用基礎データ記憶手段と、
上記適応用基礎データ記憶手段から適応用データを順次読み込み、上記信頼尺度が所定の閾値α以上である適応用データを第１適応用データとして第１適応用データ記憶手段に書き込み、上記信頼尺度が所定の閾値β以上で上記α未満である適応用データを第４適応用データとして第４適応用データ記憶手段に書き込む信頼尺度選択手段と、
全ての上記第１適応用データを参照し、当該上記第１適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段に書き込む音素環境抽出手段と、
上記第４適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、上記リストと対照して、当該リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第４適応用データを第２適応用データとして第２適応用データ記憶手段に書き込み、γ個未満含まれている場合には当該第４適応用データを第３適応用データとして第３適応用データ記憶手段に書き込む音素環境発話選択手段と、
上記第２適応用データに対する正解テキストが入力され、当該第２適応用データを参照してそのテキストを当該正解テキストに修正した修正第２適応用データを生成し、修正第２適応用データ記憶手段に書き込むテキスト修正手段と、
上記音響モデルと上記第１適応用データとを参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第１更新情報を音素環境ごとに計算して第１更新情報記憶手段に書き込む第１更新情報計算手段と、
上記音響モデルと上記修正第２適応用データとを参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第２更新情報を音素環境ごとに計算して第２更新情報記憶手段に書き込む第２更新情報計算手段と、
上記音響モデルと上記第３適応用データとを参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第３更新情報を音素環境ごとに計算して第３更新情報記憶手段に書き込む第３更新情報計算手段と、
音素環境ごとに各更新情報を参照し、上記第１更新情報に対しては所定の重みｗ１（０＜ｗ１≦１）を乗じて加重第１更新情報を、上記第２更新情報に対しては所定の重みｗ２（０＜ｗ２≦１）を乗じて加重第２更新情報を、上記第３更新情報に対しては所定の重みｗ３（０＜ｗ３＜ｗ１、ｗ２）を乗じて加重第３更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する更新情報合成手段と、
上記合成更新情報を用い、上記音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成するモデルパラメータ更新手段と、
を備える音響モデル適応装置。
音声データと当該音声データの音声認識結果として得られた信頼尺度が付されたテキストとからなる複数の適応用データを用いて音響モデルの適応を行う音響モデル適応方法であって、
上記複数の適応用データが順次入力され、上記信頼尺度が所定の閾値α以上である適応用データを第１適応用データとして第１適応用データ記憶手段に書き込み、上記信頼尺度が所定の閾値β以上で上記α未満である適応用データを第４適応用データとして第４適応用データ記憶手段に書き込む信頼尺度選択ステップと、
全ての上記第１適応用データを参照し、当該上記第１適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段に書き込む音素環境抽出ステップと、
上記第４適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、上記音素環境リストと対照して、当該音素環境リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第４適応用データを第２適応用データとして第２適応用データ記憶手段に書き込み、γ個未満含まれている場合には当該第４適応用データを第３適応用データとして第３適応用データ記憶手段に書き込む音素環境発話選択ステップと、
上記第２適応用データに対する正解テキストが入力され、当該第２適応用データを参照してそのテキストを当該正解テキストに修正した修正第２適応用データを生成し、修正第２適応用データ記憶手段に書き込むテキスト修正ステップと、
上記音響モデルと上記第１適応用データをそれぞれ参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第１更新情報を音素環境ごとに計算して第１更新情報記憶手段に書き込む第１更新情報計算ステップと、
上記音響モデルと上記修正第２適応用データをそれぞれ参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第２更新情報を音素環境ごとに計算して第２更新情報記憶手段に書き込む第２更新情報計算ステップと、
上記音響モデルと上記第３適応用データをそれぞれ参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第３更新情報を音素環境ごとに計算して第３更新情報記憶手段に書き込む第３更新情報計算ステップと、
音素環境ごとに各更新情報を参照し、上記第１更新情報に対しては所定の重みｗ１（０＜ｗ１≦１）を乗じて加重第１更新情報を、上記第２更新情報に対しては所定の重みｗ２（０＜ｗ２≦１）を乗じて加重第２更新情報を、上記第３更新情報に対しては所定の重みｗ３（０＜ｗ３＜ｗ１、ｗ２）を乗じて加重第３更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する更新情報合成ステップと、
上記合成更新情報を用い、上記音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成するモデルパラメータ更新ステップと、
を実行する音響モデル適応方法。
請求項１に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。
請求項１に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラムを記録したコンピュータが読み取り可能な記録媒体。