JP4571921B2

JP4571921B2 - 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体

Info

Publication number: JP4571921B2
Application number: JP2006071111A
Authority: JP
Inventors: 厚徳小川; 浩和政瀧; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-03-15
Filing date: 2006-03-15
Publication date: 2010-10-27
Anticipated expiration: 2026-03-15
Also published as: JP2007248742A

Description

本発明は、音声認識装置における音響モデルの適応化に関する発明である。具体的には、適応化に必要な音素モデルクラスタ生成を自動・高速・省メモリで行う音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体に関するものである。

まず、図１を参照して、音声認識装置について説明する。
図１に記載の音声認識装置において、入力音声は、音声分析部１１０において特徴ベクトルの時系列に変換されて、探索処理部１３０に入力される。探索処理部１３０においては、音響モデル１２０を用いて、文法１４０で表現される単語（列）と特徴ベクトル６０３の時系列との照合が行われ（探索処理）、最も尤度の高い単語（列）が認識結果として出力される。
音声分析部１１０における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）、ΔＭＦＣＣ、ΔΔＭＦＣＣ、対数パワー、Δ対数パワーなどがあり、それらが、１０〜１００次元程度の特徴量ベクトルを構成する。分析フレーム幅３０ｍｓ程度、分析フレームシフト幅１０ｍｓ程度で分析が実行される。

音響モデル１２０は、前記ＭＦＣＣなどの音声の特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声のある区間の特徴量に対して、各標準パターンとの音響的な近さを尤度として計算し、それがどのカテゴリに属するかを推定する。
現在、音響モデル６０４として、確率・統計理論に基づいてモデル化された隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，略してＨＭＭ）が汎用される。通常、ＨＭＭは音素カテゴリ単位で作成され、この音素モデルの集合として１つの音響モデルが構築される。

音素モデルの種類としては、（１）当該中心音素に先行および後続する音素の両方を音素環境として考慮しない（音素環境非依存）ｍｏｎｏｐｈｏｎｅ−ＨＭＭ、（２）当該音素に先行する音素のみを音素環境として考慮する先行音素環境依存ｂｉｐｈｏｎｅ−ＨＭＭ、（３）当該音素に後続する音素のみを音素環境として考慮する後続音素環境依存ｂｉｐｈｏｎｅ−ＨＭＭ、（４）当該音素に先行及び後続する音素の両方を音素環境として考慮するｔｒｉｐｈｏｎｅ−ＨＭＭが最もよく用いられる。
例えば、＊を任意の音素を表わすとした場合、（１）＊−ａ−＊は、音素ａのｍｏｎｏｐｈｏｎｅ−ＨＭＭ、（２）ｐ−ａ−＊は、先行音素がｐである音素ａの先行音素環境依存ｂｉｐｈｏｎｅ−ＨＭＭ、（３）＊−ａ−ｔは、後続音素がｔである音素ａの後続音素環境依存ｂｉｐｈｏｎｅ−ＨＭＭ、（４）ｐ−ａ−ｔは、先行音素がｐ、後続音素がｔである音素ａのｔｒｉｐｈｏｎｅ−ＨＭＭである。

前記から明らかなように、ｍｏｎｏｐｈｏｎｅ−ＨＭＭよりもｂｉｐｈｏｎｅ−ＨＭＭ、さらには、ｂｉｐｈｏｎｅ−ＨＭＭよりもｔｈｉｐｈｏｎｅ−ＨＭＭの方が音素環境を詳細に表現したモデルである。逆の表現をすれば、ｍｏｎｏｐｈｏｎｅ−ＨＭＭはｂｉｐｈｏｎｅ−ＨＭＭを包含する関係にあり、ｂｉｐｈｏｎｅ−ＨＭＭはｔｈｉｐｈｏｎｅ−ＨＭＭを包含する関係にある。例えば、＊−ａ−＊は、ｐ−ａ−＊や＊−ａ−ｔを包含する。そして、ｐ−ａ−＊や＊−ａ−ｔは、ｐ−ａ−ｔを包含する。
また、音素モデルが表現する音素カテゴリの種類については、音響モデル学習データに依存するが、例えば、ｔ−ｔ−ｔなど、日本語の音素連鎖としてあり得ないものは含まれないため、一般的には数千〜数万程度になる。

音響モデル１２０に含まれる音素モデルの構造について、図２，３を用いて説明する。
まず、図２に示すように、状態Ｓが混合確率分布Ｍとして表現される。混合確率分布の各要素分布としては、離散確率分布と連続確率分布があるが、現在、最もよく用いられているのは、連続確率分布の１つである多次元正規（ガウス）分布であり、そのうちでも次元間の相関がない（共分散行列の対角成分が０である）多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、前記特徴量ベクトルの各次元に対応する。図２では、状態Ｓが４つの多次元正規分布を要素分布とする多次元混合正規分布Ｍとして表現されている。また、図２では、特徴量ベクトルのある次元ｉについて示しているが、前記特徴量ベクトルの各次元について同様に表現される。

図２のような状態の数個〜十数個程度の確率連鎖によって、音素モデルが構築される。音素モデルが、いくつの状態のどのような確率連鎖によって構築されるかに関しては、様々なバリエーションがある。また、音素モデルごとに異なる構造をとることもある。現在、最も一般的に用いられている構造は、例えば、図３に示す音素モデルのような３状態のｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭと呼ばれるもので、３つの状態Ｓ_１（第１状態）、Ｓ_２（第２状態）、Ｓ_３（第３状態）を左から右に並べたものであり、状態の確率連鎖（状態遷移）としては、自分自身への遷移（自己遷移）Ｓ_１−＞Ｓ_１、Ｓ_２−＞Ｓ_２、Ｓ_３−＞Ｓ_３と次状態への遷移Ｓ_１−＞Ｓ_２、Ｓ_２−＞Ｓ_３からなる。音響モデル中の全ての音素モデルがこの３状態ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭの構造をとることが多い。

音素モデルを用いた尤度計算について説明する。
図３に示した音素モデルに、ある特徴ベクトルの時系列が入力されたときの尤度計算について解説する。例えば、６フレーム分の特徴量ベクトルの時系列Ｘ＝Ｘ_１，Ｘ_２，Ｘ_３，Ｘ_４，Ｘ_５，Ｘ_６が、音素モデルのある１つの状態遷移系列Ｓ＝Ｓ_１−＞Ｓ_１−＞Ｓ_２−＞Ｓ_２−＞Ｓ_３−＞Ｓ_３から出力される確率（尤度）Ｐ（Ｘ｜Ｓ，ＨＭＭ）は、以下のように計算される。

ここで、ａ_ｊｋは、状態Ｓ_ｊから状態Ｓ_ｋへの遷移確率である。また、ｂ_ｊ（Ｘ_ｔ）は、時刻ｔ（ｔ番目のフレーム）における特徴ベクトルＸ_ｔが状態Ｓ_ｊを表現する混合正規分布Ｍ_ｊから出力される確率であり、混合正規分布Ｍ_ｊを構成するｍ番目の正規分布の出力確率Ｐ_ｊｍ（Ｘ_ｔ）を用いて以下のように計算される。

ここで、ｎ（Ｍ_ｊ）は、混合正規分布Ｍ_ｊを構成する正規分布の数（混合数）、Ｗ_ｊｍは混合正規分布Ｍ_ｊを構成するｍ番目の正規分布の分布重みである。Ｗ_ｊｍについては以下の式が満たされる。

また、混合正規分布Ｍ_ｊを構成する正規分布が多次元無相関正規分布の場合、Ｐ_ｊｍ（Ｘ_ｔ）は以下のように計算される。

ここで、μ_ｊｍｉ、σ_ｊｍｉ ^２は、混合正規分布Ｍ_ｊを構成するｍ番目の多次元無相関正規分布Ｎ_ｍの次元ｉにおける平均値、分散である。Ｘ_ｔｉは、特徴ベクトルＸ_ｔの次元ｉの値である。Ｉは、特徴ベクトル（多次元無相関正規分布）の次元数である。
前記の尤度計算は、ある１つの状態遷移系列Ｓに対するものであるが、このような状態遷移系列は他にもあげることができる。このような状態遷移系列全てに対して、特徴ベクトルの時系列Ｘを出力する確率を計算し、それらを加算したものを音素モデルに特徴ベクトルの時系列Ｘが入力されたときの尤度とする方法はトレリス（ｔｒｅｌｌｉｓ）アルゴリズムと呼ばれる。

一方、全ての状態遷移系列の中で最も高い尤度を与える状態遷移系列を特徴ベクトルの時系列Ｘによりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素モデルに特徴ベクトルの時系列Ｘが入力されたときの尤度とする方法をビタービ（ｖｉｔｅｒｂｉ）アルゴリズムという。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減できるビタービアルゴリズムが用いられることが多い。
また、前記の尤度計算は、ある１つの音素モデルに対するものであるが、実際には、探索処理部１３０において、探索処理を行う前に、音素モデルを連結して文法１４０で表現される単語（列）のＨＭＭのネットワーク（探索ネットワーク）を作成し、そして、入力音声の特徴ベクトルの時系列と探索ネットワークで表現される単語（列）との照合が行われ（探索処理）、最も尤度が高い単語（列）が認識結果として出力される。

また、前記の尤度計算では、確率値をそのまま扱ったが、実際には、アンダーフローを防ぐために、確率値の対数をとって計算を行う。
また、音響モデル１２０に含まれる音素モデルの各種パラメータ（状態遷移確率ａ_ｊｋ、分布重みＷ_ｊｍ、正規分布の各次元の平均μ_ｊｍｉ、および、分散σ_ｊｍｉ ^２）の推定アルゴリズムとしては、バウム−ウェルチ（Ｂａｕｍ−Ｗｅｌｃｈ）アルゴリズムが最もよく用いられる。また、１つの音響モデルの学習（パラメータ推定）には、数十〜数百時間という大量の音声データとその発声内容ラベルデータが用いられる。

前記の従来の音声認識装置の詳細は、例えば、非特許文献１に開示されている。
ところで、前記のように、音響モデルの学習には、数十〜数百時間という大量の音声データとその発声内容ラベルデータ（以下ではこれらを合わせて学習データと呼ぶ）が用いられるが、これだけの量の学習データを一人の話者から収集することは不可能であり、通常は、数十人〜数千人の話者から収集する。また、学習データは、雑音のない（または比較的静かな）クリーン環境（例えば、防音室など）で収録されることが多い。このため、ここで得られる音響モデルは、比較的静かな環境という条件の下では、どのような話者にもある程度の認識精度を示す音響モデルとなる。

しかし、音声認識装置を使用する場面においては、話者や環境を特定できることも多い。このような場合は、前記のような音響モデルではなく、その話者や環境に特化した音響モデルを使うことができれば、認識精度を大幅に向上させることが可能である。しかし、これも前記したように一人の話者や１つの環境（例えば、走行車内で音声認識装置を使うならば、走行車内で収録された学習データ）から音響モデルを学習するほどの大量の学習データを収集することは困難であるため、話者や環境に特化した音響モデルを作成することは難しい。

この問題を解決する手法として音響モデル適応化技術がある。これは、前記のよう大量の学習データで学習された音響モデルを、ターゲットの話者や環境から収集された少量の適応化用データを用いて、ターゲットの話者や環境に特化・適応する技術である。
例えば、図４に示すように、音響モデル適応化装置４００に、大量の学習データで学習された適応化前音響モデル４０５Ａとターゲットの話者や環境から収集された少量の適応化用データ４６０が入力される。適応化前音響モデル４０５Ａは、適応化用データ４６０を用いて適応されて、適応化後音響モデル４０５Ｂとして出力される。

代表的な音響モデル適応化技術としては、非特許文献２に示すＭＡＰ（ＭａｘｉｍｕｍａＰｏｓｔｅｒｉｏｒｉ）適応と、非特許文献３に示すＭＬＬＲ（ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ）適応がある。
ＭＡＰ適応では、適応化前音響モデルのパラメータと、適応化用データから前記のバウムウェルチアルゴリズムを用いて推定されるパラメータとの内分点を取る形で、適応化後音響モデルのパラメータを推定する。また、ＭＡＰ適応では、適応化用データ中に出現する音素環境に対応する音素モデルに対してのみパラメータ更新が行われる。

例えば、適応化前音響モデルが音素モデルｐ−ａ＋ｔを含んでいても、適応化用データ中に音素環境ｐ−ａ＋ｔが出現しなければ、音素モデルｐ−ａ＋ｔのパラメータは更新されない。
このことから推察されるように、一般に、ＭＡＰ適応は、次のＭＬＬＲ適応との比較において、適応化用データの量に対して認識精度の改善速度（ターゲットへの特化の度合い）は遅いが、適応化用データが得られるほど認識精度の改善の度合いは大きい、という特徴を持つ適応化手法である。

ＭＬＬＲ適応は、ＭＡＰ適応における「適応化用データ中に出現する音素環境に対応する音素モデルに対してのみパラメータ更新が行われるため、適用化用データの量に対して認識精度の改善速度（ターゲットへの特化の度合い）は遅い」という問題点を解決した手法である。
ＭＬＬＲ適応では、事前に適応化前音響モデルに含まれる音素モデルをクラスタリングし、音素モデルクラスタを生成しておく。そして、各音素モデルクラスタに含まれる音素モデル同士で、適応化用データを共用する。例えば、音素モデルｐ−ａ＋ｔと音素モデルｐ−ａ＋ｋが同じ音素モデルクラスタに含まれていれば、適応化用データに音素環境ｐ−ａ＋ｋしか出現しない場合でも、これを利用して、音素モデルｐ−ａ＋ｋだけでなく、音素モデルｐ−ａ＋ｔのパラメータも更新する。

以上から推察されるように、ＭＬＬＲ適応は、適応化用データの量に対して改善速度（ターゲットへの特化の度合い）が速いという特性を持つ手法である。ＭＬＬＲ適応におては、その特性を得るために、一般に、更新されるパラメータは、正規分布の各次元の平均μ_ｊｍｉ（図２参照）のみである。このため、ＭＡＰ適応のように、「適応化用データが得られるほど認識精度の改善の度合いは大きくなる」訳ではなく、ある量以上の適応化用データが得られた時点で、認識精度の改善の度合いは飽和する。
また、以上は、音素モデルクラスタを基に適応化を行う場合について述べたが、さらに詳細には、音素モデルを構成する正規分布のレベル（図２参照）でクラスタリングを行い、同じクラスタに入った正規分布同士で適応化用データを共用する場合もある。

音素モデルクラスタ、正規分布クラスタのどちらを基に適応する場合においても、クラスタ数をいくつにするのかを事前に決めておく必要がある。容易に推察されるように、クラスタ数を少なく設定するほど、適応化用データ量に対する認識精度の改善の速度は大きくなるが、適応化用データ量が増えたときに到達できる認識精度は低くなる。クラスタ数を多く設定すれば、逆の傾向となる。
ここで、ＭＬＬＲ適応における音素モデルクラスタまたは正規分布クラスタの代表的な生成手法について述べる。

音素モデルクラスタ生成の代表的な手法としては、音韻論や音声学の知識に基づくものがある。これらは、例えば、「音素ｂ，ｄ，ｇは同じ音声破裂音である。」、「音素ｐ，ｔ，ｋは同じ無声破裂音である」などの知識を基に、音素モデルをクラスタリングする手法である。例えば、音素ｐ，ｔ，ｋが同じクラスタへとクラスタリングされたならば、音素ｐ，ｔ，ｋを中心音素に持つ音素モデルは、ｍｏｎｏｐｈｏｎｅ−ＨＭＭ、ｂｉｐｈｏｎｅ−ＨＭＭ、ｔｒｉｐｈｏｎｅ−ＨＭＭの区別なく、全て同じクラスタへとクラスタリングをする。日本語では、音素数は一般的に２５〜５０程度と定義することが多い。このため、この手法で指定できるクラスタ数は、１から最大で５０程度となる。

一方、正規分布クラスタ生成の代表的な手法としては、分布間距離尺度に基づく正規分布のクラスタリングがある。最も簡単には、音響モデルに含まれる全音素モデルから正規分布を集め、Ｋｕｌｌｂａｃｋ−ＬｅｉｂｌｅｒダイバージェンスやＢｈａｔｔａｃｈａｒｙｙａ距離などの分布間距離尺度に基づき、ｋ−ｍｅａｎｓクラスタリングや階層的ボトムアップクラスタリングなどによりこれらをクラスタリングする手法がある。１つの音響モデルに含まれる正規分布の数は、数万〜数十万にも達するため、この手法で指定できるクラスタ数の幅は非常に大きい。

音素モデルクラスタの生成方法については非特許文献３に、正規分布クラスタの代表的な生成方法については非特許文献３及び非特許文献４で詳細に述べられている。
鹿野清弘宏，伊藤克亘，河原達也，武田一哉，山本幹雄，「ＩＴＴｅｘｔ音声認識システム」，ｐｐ．１−５１，２００１，オーム社Ｊ．Ｌ．ＧａｕｖａｉｎａｎｄＣ．Ｈ．Ｌｅｅ，"ＭａｘｉｍｕｍａＰｏｓｔｅｒｉｏｒｉＥｓｔｉｍａｔｉｏｎｆｏｒＭｕｌｔｉｖａｒｉａｔｅＧａｕｓｓｉａｎＭｉｘｔｕｒｅＯｂｓｅｒｖａｔｉｏｎｓｏｆＭａｒｋｏｖＣｈａｉｎｓ，"ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．２，ｎｏ．２，ｐｐ．２９１−２９８，Ａｐｒ．１９４４．Ｃ．Ｊ．ＬｅｇｇｅｔｔｅｒａｎｄＰ．Ｃ．Ｗｏｏｄｌａｎｄ，"ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎｆｏｒＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎｏｆＣｏｎｔｉｎｕｏｕｓＤｅｎｓｉｔｙＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ，"ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，Ｓｅｐ．１９９５，ｐｐ．１７１−１８５．Ｓ．Ｙｏｕｎｇｅｔ．ａｌ．"ＴｈｅＨＴＫＢｏｏｋ（ｆｏｒＨＴＫＶｅｒｓｉｏｎ３．０），"http://htk.eng.cam.ac.jk/, ｐｐ．１２９−１３０．小川厚徳，山口義和，高橋敏，"混合重み係数を考慮した分布間距離尺度による音響モデルの分布数削減"日本音響学会講演論文集，２−１−２３，ｐｐ．８１−８２，Ｓｅｐ．２００４．

前記したように、ＭＬＬＲ適応は、特に適応化データが少ない場合に効果が大きい適応化手法であり、音素モデルクラスタまたは正規分布クラスタに基づいて適応処理が行われる。しかし、前記の音素モデルクラスタまたは正規分布クラスタの生成にはそれぞれ問題点がある。
前記の音素モデルクラスタの生成は、人手で行われる。指定可能なクラスタ数（前記したように、日本語の場合、１から最大５０程度）の分だけ、音素モデルクラスタを、あらかじめ人手で生成しておく必要がある。この作業には音韻論や音声学の高度な知識が必要であり、かつ、非常にコストの高い作業となる。また、もし、定義する音素体系が変われば、この作業を繰り返す必要がある。

一方、正規分布のクラスタの生成は、前記したように、分布距離尺度などを用いて自動的に行われるため、音素モデルクラスタ生成のように人手をかける必要はない。しかし、ひとつの音響モデルの中に含まれる正規分布の数は、数万〜数百万に達することもあり、話者適応（または音声認識）の準備段階で、音響モデルを読み込んでから正規分布クラスタ生成の処理を始めると、実際に話者適応（または音声認識）を行うまで、ユーザを待たせることになる。このため、正規分布クラスタの生成は、事前に行われることが多く、生成された正規分布クラスタは、音響モデルに情報として追加される。このため、音響モデルのサイズが非常に大きくなるという問題点がある。

この発明は、前記のＭＬＬＲ適応における音素モデルクラスタ生成の音韻論や音声学の高度な知識が必要でかつコストが高いという問題点と、同じくＭＬＬＲ適応における正規分布クラスタ生成の音響モデルサイズが大きくなるという問題点に鑑みてなされたものであり、音響モデルのサイズを増加させることなく（音響モデルの中身はそのままで変更することなく）、話者適応（または音声認識）の準備段階において、音素モデルクラスタを高速に自動生成する音響モデル対応化装置を提供することを目的としている。

本発明によれば、音素モデル環境依存性分類部が、適応化前音響モデルに含まれる音素モデルを、音素環境非依存モデル集合と音素環境依存モデル集合に分類する。音素環境非依存モデルクラスタリング部が、音素環境非依存モデル集合を、定義される最大音素数以下の所定のクラスタ数になるようにクラスタリングをする。音素環境依存モデルクラスタリング部が、音素環境依存モデル音素環境依存モデルを、それを包含する音素環境非依存モデルが所属する音素環境非依存モデルクラスタへとクラスタリングをし、音素モデルクラスタを生成する。音素モデルパラメータ更新部が、音響モデル適応化用データと音素モデルクラスタから、音素モデルのパラメータを更新して、適応化後音響モデルを生成する。

本発明によれば、音韻論や音声学の高度な知識を必要とせず、クラスタ生成に人手をかける必要もなく、また、音響モデルのサイズを増加させることなく、すなわち、音響モデルの中身はそのままで変更することなく、音響モデル適応化をすることができる。

以下、図面を参照して本発明の実施形態の例、その処理の例について述べる。図５に、本発明による音響モデル適応化装置５００の構成例を示す。また、図６に、音響モデル適応化装置５００の処理フロー例を示す。
音響モデル適応化装置５００は、音素モデル環境依存性分類部５１０、音素環境非依存モデル集合記憶部５１５、音素環境依存モデル集合記憶部５２０、音素環境非依存モデルクラスタリング部５２５、クラスタ数入力部５３０、クラスタ数記憶部５３５、音素環境非依存モデルクラスタ記憶部５４０、音素環境依存モデルクラスタリング部５４５、音素モデルクラスタ記憶部５５０、及び、音素モデルパラメータ更新部５５５から構成される。
［ステップ１］
まず、音素モデル環境依存性分類部５１０は、適応化の対象となる適応化前音響モデルを適応化前音響モデル記憶部５０５Ａから読み出し、適応化前音響モデルに含まれる音素モデルを、音素環境非依存モデル集合（ｍｏｎｏｐｈｏｎｅ−ＨＭＭ：＊−ａ−＊，＊−ｋ−＊など）と音素環境依存モデル集合（ｂｉｐｈｏｎｅ−ＨＭＭ：ｐ−ａ−＊，＊−ａ−ｔ，ｉ−ｋ−＊，＊−ｋ−ａなどやｔｒｉｐｈｏｎｅ−ＨＭＭ：ｐ−ａ−ｔ，ｉ−ｋ−ａなど）とに分類してそれぞれ出力する。音素環境非依存モデル集合は音素環境非依存モデル集合記憶部５１５に格納され、音素環境依存モデル集合は音素環境依存モデル集合記憶部５２０に格納される（［ステップ１］終わり。）。
［ステップ２］
次に、音素環境非依存モデルクラスタリング部５２５は、音素環境非依存モデル集合記憶部５１５に格納された音素環境非依存モデル集合と、クラスタ数記憶部５３５に格納された所望のクラスタ数とを読み出し、当該音素環境非依存モデルを当該所望のクラスタ数になるようにクラスタリングを行い、音素環境非依存モデルクラスタを出力する。音声環境非依存モデルクラスタは音素環境非依存モデルクラスタ記憶部５４０に格納される。

日本語の音素の数は、一般的には２５〜５０程度であり、英語をはじめとする外国語の音素の数は一般的には４０〜１００程度と定義される。したがって、音素環境非依存モデルの数は高々１００個程度であり、上記の音素環境非依存モデルのクラスタリングは、高速かつ少ないメモリ消費量で実行可能である。
ここで、所望のクラスタ数は、クラスタ数入力部５３０から予め入力され、クラスタ数記憶部５３５に格納されているものとする。
指定可能なクラスタ数は、１〜定義される最大音素数（先に述べたように、日本語なら２５〜５０程度、英語をはじめとする外国語なら４０〜１００程度）である。

指定すべきクラスタ数は、基本的には、得られる適応化データの量を基準に設定すればよい。すなわち、得られる適応化データが少なければ小さなクラスタ数を、逆に、得られる適応化データが多ければ大きなクラスタ数を設定すればよい。典型的には、日本語の場合であれば、１０秒以下の適応化データしか得られない場合にはクラスタ数を１に、それ以上の場合には徐々にクラスタ数を増やし、５分程度の適応化データが得られるならクラスタ数を３０程度に設定すればよい。もっとも、適応化前音響モデルのサイズ、適応前音響モデルと適応化ターゲット（話者、環境等）との統計的な近さなどの条件が異なれば、適切なクラスタ数は上記の数から変動し得る。

なお、この音素環境非依存モデルクラスタリング部５２５の詳細については後述する（［ステップ２］終わり。）。
［ステップ３］
次に、音素環境依存モデルクラスタリング部５４５は、音素環境依存モデル集合記憶部５２０に格納された音素環境依存モデル集合と、音素環境非依存モデルクラスタ記憶部５４０に格納された音素環境非依存モデルクラスタとを読み出し、音素モデルクラスタを生成し、出力する。音素モデルクラスタは、音素モデルクラスタ記憶部５５０に格納される。

ここで、音素モデルクラスタは、音素環境依存モデル集合に含まれる個々の音素環境依存モデルのうち、音素環境非依存モデルに包含されるものを、その音素環境非依存モデルが所属するクラスタへとクラスタリングしたものである。
例えば、音素環境依存モデルｂｉｐｈｏｎｅ−ＨＭＭ：ｐ−ａ−＊，＊−ａ−ｔやｔｒｉｐｈｏｎｅ−ＨＭＭ：ｐ−ａ−ｔなどは、音素環境非依存モデルｍｏｎｏｐｈｏｎｅ−ＨＭＭ：＊−ａ−＊に包含される関係にあるため、この音素環境非依存モデルｍｏｎｏｐｈｏｎｅ−ＨＭＭ：＊−ａ−＊が所属するクラスタへとクラスタリングされる。同様に、例えば、音素環境依存モデルｂｉｐｈｏｎｅ−ＨＭＭ：ｉ−ｋ−＊，＊−ｋ−ａやｔｒｉｐｈｏｎｅ−ＨＭＭ：ｉ−ｋ−ａなどは、音素環境非依存モデルｍｏｎｏｐｈｏｎｅ−ＨＭＭ：＊−ｋ−＊に包含される関係にあるため、この音素環境非依存モデルｍｏｎｏｐｈｏｎｅ−ＨＭＭ：＊−ｋ−＊が所属するクラスタへとクラスタリングされる。

このクラスタリング処理は、音素環境非依存モデルと音素環境依存モデルの包含関係を参照するのみであるので、高速かつ少ない計算量で実行可能である（［ステップ３］終わり。）。
［ステップ４］
最後に、音素モデルパラメータ更新部５５５は、音素モデルクラスタ記憶部５５０に格納された音素モデルクラスタと、音響モデル適応化用データ記憶部５６０に格納された音響モデル適応化用データとを読み出し、各音素モデルのパラメータを更新し、適応化後音響モデルを出力する。出力された適応化後音響モデルは、適応化後音響モデル記憶部５０５Ｂに格納される。なお、音素モデルのパラメータの更新の手順は、例えば、非特許文献３等に記載された従来の技術の通りである（［ステップ４］終わり。）。

以上が、本発明による音響モデル適応化装置の実施形態の例、及び、その処理の例である。このように、上記実施例においては、音素環境非依存モデルのみをクラスタリングし、音素環境依存モデルと音素環境非依存モデルの包含関係を参照して、音素環境依存モデルを音素環境非依存モデルのクラスタにクラスタリングを行うという構成を取ることにより、音素モデルの全体を自動、高速かつ省メモリでのクラスタリングすることができる。そして、このようにして生成されたクラスタについて、音素モデルパラメータの更新を行うことにより、自動、高速、省メモリで音響モデルの適応化を行うことができる。
［音素環境非依存モデルクラスタリング部５２５の詳細］
まず、クラスタリングをする際に必要になる距離の概念について説明する。具体的には、クラスタ間距離ｄ（Ｃ_ｉ，Ｃ_ｊ）、モデル間距離ｄ（Ｐ_ｉ，Ｐ_ｊ）、状態間距離ｄ（Ｓ_ｉ，Ｓ_ｊ）、及び、分布間距離ｄ（Ｎ_ｉ，Ｎ_ｊ）の各概念について説明する。
〈クラスタ間距離ｄ（Ｃ_ｉ，Ｃ_ｊ）〉
音素環境非依存モデルクラスタをＣ_ｉ（ｉ＝１，…，Ｉ）とし、Ｃ_ｉに含まれる音素環境非依存モデルをＰ_ｉｍ（ｍ＝１，…，Ｍ）とする。このとき、音素環境非依存モデルクラスタＣ_ｉと他の音素環境非依存モデルクラスタＣ_ｊの距離ｄ（Ｃ_ｉ，Ｃ_ｊ）には、例えば、最近隣距離ｍｉｎ_ｍ，ｎｄ（Ｐ_ｉｍ，Ｐ_ｊｎ）、最遠隣距離ｍａｘ_ｍ，ｎｄ（Ｐ_ｉｍ，Ｐ_ｊｎ）、群平均距離（１／（Ｍ×Ｎ））Σ_ｍ＝１ ^ＭΣ_ｎ＝１ ^Ｎｄ（Ｐ_ｉｍ，Ｐ_ｉｎ）の３種類がある。これらを、Ｍ＝４，Ｎ＝５の場合である図９の例を参照して説明する。

最近隣距離ｄ（Ｃ_ｉ，Ｃ_ｊ）--＝ｍｉｎ_ｍ，ｎｄ（Ｐ_ｉｍ，Ｐ_ｊｎ）は、Ｃ_ｉに含まれるＰ_ｉｍとＣ_ｊに含まれるＰ_ｉｎの組み合わせで得られる距離のうちで最も小さいものを、Ｃ_ｉとＣ_ｊの距離とするものである。図９の例では、Ｐ_ｉ４とＰ_ｊ１の距離が、最近隣距離となる。
最遠隣距離ｄ（Ｃ_ｉ，Ｃ_ｊ）＝ｍａｘ_ｍ，ｎｄ（Ｐ_ｉｍ，Ｐ_ｊｎ）は、Ｃ_ｉに含まれるＰ_ｉｍとＣ_ｊに含まれるＰ_ｉｎの組み合わせで得られる距離のうちで最も大きいものを、Ｃ_ｉとＣ_ｊの距離とするものである。図９の例では、Ｐ_ｉ１とＰ_ｊ２の距離が、最遠隣距離となる。

群平均距離ｄ（Ｃ_ｉ，Ｃ_ｊ）＝（１／（Ｍ×Ｎ））Σ_ｍ＝１ ^ＭΣ_ｎ＝１ ^Ｎｄ（Ｐ_ｉｍ，Ｐ_ｉｎ）は、Ｃ_ｉに含まれる各Ｐ_ｉｍとＣ_ｊに含まれる各Ｐ_ｉｎとの各距離の加算平均値をＣ_ｉとＣ_ｊの距離とするものである（〈クラスタ間距離ｄ（Ｃ_ｉ，Ｃ_ｊ）〉の説明終わり。）。
〈モデル間距離ｄ（Ｐ_ｉ，Ｐ_ｊ）〉
音素環境非依存モデルをＰ_ｉ（ｉ＝１，…，Ｉ）とし、Ｐ_ｉを構成する音素環境非依存モデル状態をＳ_ｉｍ（ｍ＝１，…，Ｍ）とする。このとき、音素環境非依存モデルＰｉと他の音素環境非依存モデルＰ_ｊの距離ｄ（Ｐ_ｉ，Ｐ_ｊ）には、例えば、状態位置ごとの状態間距離の加算平均（１／Ｍ）Σ_ｍ＝１ ^Ｍｄ（Ｓ_ｉｍ，Ｓ_ｊｍ）、状態間群平均距離（１／（Ｍ×Ｎ））Σ_ｍ＝１ ^ＭΣ_ｎ＝１ ^Ｎｄ（Ｓ_ｉｍ，Ｓ_ｊｎ）の２種類がある。これらを、Ｐ_ｉが３状態Ｓ_ｉ１，Ｓ_ｉ２，Ｓ_ｉ３、Ｐ_ｊが３状態Ｓ_ｊ１，Ｓ_ｊ２，Ｓ_ｊ３から構成される図１０の例を参照して説明する。

状態位置ごとの状態間距離の加算平均は、対応する状態位置ごとの状態間距離ｄ（Ｓ_ｉ１，Ｓ_ｊ１）、ｄ（Ｓ_ｉ２，Ｓ_ｊ２）、ｄ（Ｓ_ｉ３，Ｓ_ｊ３）をそれぞれ求め、それらの加算平均値（１／３）Σ_ｍ＝１ ^３ｄ（Ｓ_ｉｍ，Ｓ_ｊｍ）をＰ_ｉとＰ_ｊの距離ｄ（Ｐ_ｉ，Ｐ_ｊ）-とするものである。
状態間群平均距離は、各状態間の距離ｄ（Ｓ_ｉ１，Ｓ_ｊ１）、ｄ（Ｓ_ｉ１，Ｓ_ｊ２）、…、ｄ（Ｓ_ｉ３，Ｓ_ｊ２）、ｄ（Ｓ_ｉ３，Ｓ_ｊ３）をそれぞれ求め、それらの加算平均値（１／（３×３））Σ_ｍ＝１ ^３Σ_ｎ＝１ ^３ｄ（Ｓ_ｉｍ，Ｓ_ｊｎ）を、Ｐ_ｉとＰ_ｊの距離ｄ（Ｐ_ｉ，Ｐ_ｊ）とするものである（〈モデル間距離ｄ（Ｐ_ｉ，Ｐ_ｊ）〉の説明終わり。）。
〈状態間距離ｄ（Ｓ_ｉ，Ｓ_ｊ）〉
音素環境非依存モデル状態をＳ_ｉ（ｉ＝１，…，Ｉ）とし、Ｓ_ｉを構成する音素環境非依存モデル分布をＮ_ｉｍ（ｍ＝１，…，Ｍ）、その重みをＷ_ｉｍ（ｍ＝１，…，Ｍ）、Ｎ_ｉｍを重みＷ_ｉｍの大きい順にソートしたものをＮ_ｉｒｍ（ｍ＝１，…，Ｍ）とする。このとき、音素環境非依存モデル状態Ｓ_ｉと他の音素環境非依存モデル状態Ｓ_ｊの距離ｄ（Ｓ_ｉ，Ｓ_ｊ）には、例えば、重みでソートしたランクごとの分布間距離の加算平均（１／Ｍ）Σ_ｍ＝１ ^Ｍｄ（Ｎ_ｉｒｍ，Ｎ_ｊｒｍ）、分布間群平均距離（１／（Ｍ×Ｍ））Σ_ｍ＝１ ^ＭΣ_Ｎ＝１ ^Ｎｄ（Ｎ_ｉｍ，Ｎ_ｊｎ）の２種類がある。これらを、Ｓ_ｉが４分布Ｎ_ｉ１，Ｎ_ｉ２，Ｎ_ｉ３，Ｎ_ｉ４、Ｓ_ｊが３状態Ｎ_ｊ１，Ｎ_ｊ２，Ｎ_ｊ３，Ｎ_ｊ４から構成される図１１の例を参照して説明する。

重みでソートしたランクごとの分布間距離の加算平均は、状態内の分布をソートしてランクが同じ分布間の距離ｄ（Ｎ_ｉｒ１，Ｎ_ｊｒ１），ｄ（Ｎ_ｉｒ２，Ｎ_ｊｒ２），ｄ（Ｎ_ｉｒ３，Ｎ_ｊｒ３），ｄ（Ｎ_ｉｒ４２，Ｎ_ｊｒ４）をそれぞれ求め、その加算平均値（１／４）Σ_ｍ＝１ ^４ｄ（Ｎ_ｉｒｍ，Ｎ_ｊｒｍ）を、Ｓ_ｉとＳ_ｊの距離ｄ（Ｓ_ｉ，Ｓ_ｊ）とするものである。
分布間群平均距離は、各分布間距離ｄ（Ｎ_ｉ１，Ｎ_ｊ１），ｄ（Ｎ_ｉ１，Ｎ_ｊ２），…，ｄ（Ｎ_ｉ４，Ｎ_ｊ３），ｄ（Ｎ_ｉ４，Ｎ_ｊ４）をそれぞれ求め、その加算平均値（１／（４×４））Σ_ｍ＝１ ^４Σ_Ｎ＝１ ^４ｄ（Ｎ_ｉｍ，Ｎ_ｊｎ）を、Ｓ_ｉとＳ_ｊの距離ｄ（Ｓ_ｉ，Ｓ_ｊ）とするものである（〈状態間距離ｄ（Ｓ_ｉ，Ｓ_ｊ）〉の説明終わり。）。
〈分布間距離ｄ（Ｎ_ｉ，Ｎ_ｊ）〉
音素環境非依存モデル分布をＮ_ｉとし、Ｎ_ｉを構成するＫ次元無相関ガウス分布（各次元をｋ＝１，…，Ｋと表記）の平均をμ_ｉｋ、分散をσ_ｉｋ ^２、Ｎ_ｉの重みをＷ_ｉとする。このとき、音素環境非依存モデル分布Ｎ_ｉと他の音素環境非依存モデル分布Ｎ_ｊの距離ｄ（Ｎ_ｉ，Ｎ_ｊ）には、例えば、以下の式（５）で定義されるＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、

以下の式（６）で定義されるＢｈａｔｔａｃｈａｒｙｙａ距離

以下の式（７）で定義される重み付きＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、

以下の式（８）で定義される重み付きＢｈａｔｔａｃｈａｒｙｙａ距離

の４種類がある（例えば、非特許文献５参照。）（〈分布間距離ｄ（Ｎ_ｉ，Ｎ_ｊ）〉の説明終わり。）。
このように、クラスタ間距離ｄ（Ｃ_ｉ，Ｃ_ｊ）はモデル間距離ｄ（Ｐ_ｉ，Ｐ_ｊ）から定義され、モデル間距離ｄ（Ｐ_ｉ，Ｐ_ｊ）は状態間距離ｄ（Ｓ_ｉ，Ｓ_ｊ）から定義され、状態間距離ｄ（Ｓ_ｉ，Ｓ_ｊ）は分布間距離ｄ（Ｎ_ｉ，Ｎ_ｊ）から定義される関係にある。
次に、音素環境非依存モデルクラスタリング部５２５の詳細について説明する。音素環境非依存モデルクラスタリング部５２５は、例えば、音素環境非依存モデルクラスタ間距離に基づく階層的ボトムアップクラスタリングや、音素環境非依存モデル間距離に基づくｋ−ｍｅａｎｓクラスタリングを行うことができる。
〈階層的ボトムアップクラスタリング〉
音素環境非依存モデルクラスタ間距離に基づく階層的ボトムアップクラスタリングは、図５において破線で示した、音素環境非依存モデルクラスタリング部５２５内にある階層的ボトムアップクラスタリング部５２５１が行う。

階層的ボトムアップクラスタリングとは、以下のようなクラスタリング手法のことである。例えば、Ｐ_１，…，Ｐ_ＭのＭ個の対象からなるデータが与えられたとき、１個の対象だけを含むＭ個のクラスタがある初期状態をまず作る。この状態から始めて，対象Ｐ_ｉとＰ_ｊの間の距離ｄ（Ｐ_ｉ，Ｐ_ｊ）(非類似度)からクラスタ間の距離ｄ（Ｃ_ｉ，Ｃ_ｊ）を計算し、最もこの距離の近い２つのクラスタを逐次的に併合する。この併合を、全ての対象が１つのクラスタに併合されるまで繰り返すことで階層構造を獲得する。階層的ボトムアップクラスタリングは、このようなクラスタリング手法のことである。

図７に示すように、階層的ボトムアップクラスタリング部５２５１はクラスタ間距離計算部１０００を備え、クラスタ間距離計算部１０００はモデル間距離計算部１０１０を備え、モデル間距離計算部１０１０はモデル状態間距離計算部１０２０を備え、モデル状態間距離計算部１０２０はモデル分布間距離計算部１０３０を備える。
クラスタ間距離計算部１０００は、例えば、上記説明した最近隣距離、最遠隣距離、群平均距離の何れかの距離概念を用いて、階層的ボトムアップクラスタリングをする際に必要になる音素環境非依存モデルクラスタ間距離ｄ（Ｃ_ｉ，Ｃ_ｊ）を計算する。

モデル間距離計算部１０１０は、例えば、上記説明した状態位置ごとの状態間距離の加算平均、状態間群平均距離の何れかの距離概念を用いて、音素環境非依存モデルクラスタ間距離ｄ（Ｃ_ｉ，Ｃ_ｊ）を計算する際に必要になる音素環境非依存モデル間距離ｄ（Ｐ_ｉ，Ｐ_ｊ）を計算する。
モデル状態間距離計算部１０２０は、例えば、上記説明した重みでソートしたランクごとの分布間距離の加算平均、分布間群平均距離の何れかの距離概念を用いて、音素環境非依存モデル間距離ｄ（Ｐ_ｉ，Ｐ_ｊ）を計算する際に必要になる音素環境非依存モデル状態間距離ｄ（Ｓ_ｉ，Ｓ_ｊ）を計算する。

モデル分布間距離計算部１０３０は、例えば、Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、Ｂｈａｔｔａｃｈａｒｙｙａ距離、重み付きＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、重み付きＢｈａｔｔａｃｈａｒｙｙａ距離の何れかの距離概念を用いて、音素環境非依存モデル状態間距離ｄ（Ｓ_ｉ，Ｓ_ｊ）を計算する際に必要になる音素環境非依存モデル分布間距離ｄ（Ｎ_ｉ，Ｎ_ｊ）を計算する（〈階層的ボトムアップクラスタリング〉の説明終わり。）。
〈ｋ−ｍｅａｎｓクラスタリング〉
音素環境非依存モデル間距離に基づくｋ−ｍｅａｎｓクラスタリングは、図５において破線で示した、音素環境非依存モデルクラスタリング部５２５内にあるｋ−ｍｅａｎｓクラスタリング部５２５２が行う。

ｋ−ｍｅａｎｓクラスタリングは、あらかじめ固定された数（例えば，ｋ個）のクラスタの各々にその代表であるプロトタイプを与え、それぞれの個体を最も近いプロトタイプに割り当てることでクラスタリングを行う。個体が割り当てられたら、次は、割り当てられた個体から新たなプロトタイプを算出する。このように、プロトタイプの算出と個体の割り当てを収束するまで繰り返す。ｋ−ｍｅａｎｓクラスタリングとは、このようなクラスタリング手法のことである。
図８に示すように、ｋ−ｍｅａｎｓクラスタリング部はモデル間距離計算部１０１０を備え、モデル間距離計算部１０１０はモデル状態間距離計算部１０２０を備え、モデル状態間距離計算部１０２０はモデル分布間距離計算部１０３０を備える。

モデル間距離計算部１０１０は、例えば、上記説明した状態位置ごとの状態間距離の加算平均、状態間群平均距離の何れかの距離概念を用いて、ｋ−ｍｅａｎｓクラスタリングをする際に必要になる音素環境非依存モデル間距離ｄ（Ｐ_ｉ，Ｐ_ｊ）を計算する。
モデル状態間距離計算部１０２０は、例えば、上記説明した重みでソートしたランクごとの分布間距離の加算平均、分布間群平均距離の何れかの距離概念を用いて、音素環境非依存モデル間距離ｄ（Ｐ_ｉ，Ｐ_ｊ）を計算する際に必要になる音素環境非依存モデル状態間距離ｄ（Ｓ_ｉ，Ｓ_ｊ）を計算する。

モデル分布間距離計算部１０３０は、例えば、Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、Ｂｈａｔｔａｃｈａｒｙｙａ距離、重み付きＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、重み付きＢｈａｔｔａｃｈａｒｙｙａ距離の何れかの距離概念を用いて、音素環境非依存モデル状態間距離ｄ（Ｓ_ｉ，Ｓ_ｊ）を計算する際に必要になる音素環境非依存モデル分布間距離ｄ（Ｎ_ｉ，Ｎ_ｊ）を計算する（〈ｋ−ｍｅａｎｓクラスタリング〉の説明終わり。）（［音素環境非依存モデルクラスタリング部５２５の詳細］の説明終わり。）。

本発明による音響モデルの適応装置をコンピュータに機能させるためのプログラムとして記述し、このプログラムをコンピュータに実行させて、この発明装置として機能させてもよい。また、そのプログラムは、コンピュータで読み取り可能な記録媒体に記録しておき、そのプログラムを読み出して実行してもよい。
例えば、図１２に示すように、各部がバス６に接続され、ＲＡＭ２に音響モデル適応化プログラムが、ＣＤ−ＲＯＭ、ハードディスクなどから、あるいは通信回線を介してインストールされてある。ＣＰＵ１がこの音響モデル適応化プログラムを実行することにより、音響モデル適応化プログラムを実行することができる。補助記憶装置３は、一時的にデータを記憶するためなどに用いられる。

音声認識装置における音声認識の処理の一般的な流れを例示した図。音響モデルにおける状態の構造を例示した図。音響モデルにおける音素モデルの構造を例示した図。音響モデル適応化装置の処理の流れを例示した図。本発明による音響モデル適応化装置の機能構成を例示した図。本発明による音響モデル適応化方法の処理フローを例示した図。音素環境非依存モデルクラスタリング部５２５内の階層的ボトムアップクラスタリング部５２５１の機能構成を例示した図。音素環境非依存モデルクラスタリング部５２５内のｋ−ｍｅａｎｓクラスタリング部５２５２の機能構成を例示した図。本発明による音響モデル適応化装置で用いる３種類のクラスタ間距離尺度を説明するための図。本発明による音響モデル適応化装置で用いる２種類のモデル間距離尺度を説明するための図。本発明による音響モデル適応化装置で用いる３種類の状態間距離尺度を説明するための図。本発明による音響モデル適応化装置を、コンピュータにより実行するときの機能構成を例示した図。

Claims

音響モデルを入力とし、その音響モデルに含まれる音素モデル集合を音素環境非依存モデル集合と音素環境依存モデル集合とに分類してそれぞれ出力する音素モデル環境依存性分類部と、
前記音素環境非依存モデル集合を入力とし、この音素環境非依存モデル集合に対して定義される最大音素数以下の予め指定されたクラスタ数になるようにクラスタリングを実行して音素環境非依存モデルクラスタを出力する音素環境非依存モデルクラスタリング部と、
前記音素環境依存モデル集合を入力とし、この音素環境依存モデル集合に含まれる個々の音素環境依存モデルを、それを包含する音素環境非依存モデルが所属する音素環境非依存モデルクラスタへとクラスタリングし、音素モデルクラスタを出力する音素環境依存モデルクラスタリング部と、
前記音素モデルクラスタと音響モデル適応化用データとを入力とし、これらを基に前記音素モデル集合に含まれる各音素モデルのパラメータを更新し、適応化後音響モデルを出力する音素モデルパラメータ更新部と、
を備えることを特徴とする音響モデル適応化装置。
請求項１に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルクラスタ間距離に基づき、階層的ボトムアップクラスタリングを行うことを特徴とする音響モデル適応化装置。
請求項２に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデルクラスタ間距離として、最近隣距離、最遠隣距離、又は、群平均距離を用いることを特徴とする音響モデル適応化装置。
請求項１に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデル間距離に基づき、ｋ−ｍｅａｎｓクラスタリングを行うことを特徴とする音響モデル適応化装置。
請求項３又は請求項４に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル間距離として、対応する位置にある状態間距離の加算平均、又は、状態間群平均距離を用いることを特徴とする音響モデル適応化装置。
請求項５に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル状態間距離として、分布重みでソートした順位ごとの分布間距離の加算平均、又は、分布間群平均距離を用いることを特徴とする音響モデル適応化装置。
請求項６に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル分布間距離として、Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、Ｂｈａｔｔａｃｈａｒｙｙａ距離、重み付きＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、又は、重み付きＢｈａｔｔａｃｈａｒｙｙａ距離を用いることを特徴とする音響モデル適応化装置。
音素モデル環境依存性分類手段が、入力された音響モデルに含まれる音素モデル集合を音素環境非依存モデル集合と音素環境依存モデル集合とに分類する音素モデル環境依存性分類ステップと、
音素環境非依存モデルクラスタリング手段が、前記音素環境非依存モデル集合に対して定義される最大音素数以下の予め指定されたクラスタ数になるようにクラスタリングを実行して音素環境非依存モデルクラスタを求める音素環境非依存モデルクラスタリングステップと、
音素環境依存モデルクラスタリング手段が、前記音素環境依存モデル集合に含まれる個々の音素環境依存モデルを、それを包含する音素環境非依存モデルが所属する音素環境非依存モデルクラスタへとクラスタリングをし、音素モデルクラスタを求める音素環境依存モデルクラスタリングステップと、
音素モデルパラメータ更新手段が、前記音素モデルクラスタと入力された音響モデル適応化用データとを基に前記音素モデル集合に含まれる各音素モデルのパラメータを更新し、適応化後音響モデルを求める音素モデルパラメータ更新ステップと、
を有することを特徴とする音響モデル適応化方法。
請求項８に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルクラスタ間距離に基づき、階層的ボトムアップクラスタリングを行うことを特徴とする音響モデル適応化方法。
請求項９に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデルクラスタ間距離として、最近隣距離、最遠隣距離、又は、群平均距離を用いることを特徴とする音響モデル適応化方法。
請求項８に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデル間距離に基づき、ｋ−ｍｅａｎｓクラスタリングを行うことを特徴とする音響モデル適応化方法。
請求項１０又は請求項１１に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル間距離として、対応する位置にある状態間距離の加算平均、又は、状態間群平均距離を用いることを特徴とする音響モデル適応化方法。
請求項１２に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル状態間距離として、分布重みでソートした順位ごとの分布間距離の加算平均、又は、分布間群平均距離を用いることを特徴とする音響モデル適応化方法。
請求項１３に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル分布間距離として、Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、Ｂｈａｔｔａｃｈａｒｙｙａ距離、重み付きＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒダイバージェンス、又は、重み付きＢｈａｔｔａｃｈａｒｙｙａ距離を用いることを特徴とする音響モデル適応化方法。
請求項１から請求項７の何れかに記載の音響モデル適応化装置としてコンピュータを機能させるための音響モデル適応化プログラム。
請求項１５に記載の音響モデル適応化プログラムを記録したコンピュータ読み取り可能な記録媒体。