JP2008216672A

JP2008216672A - 話者適応化装置

Info

Publication number: JP2008216672A
Application number: JP2007054461A
Authority: JP
Inventors: Tomohiro Narita; 知宏成田; Jun Ishii; 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-03-05
Filing date: 2007-03-05
Publication date: 2008-09-18

Abstract

【課題】話者クラスタの個数が増えても、必要な演算量やメモリ量を抑制することができる話者適応化装置を得ることを目的とする。
【解決手段】不特定話者モデルを用いて、ユーザの音響特徴量を固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルＷを算出する写像ベクトル算出部４を設け、話者クラスタ選択部５が話者クラスタ参照ベクトル記憶部３に記憶されている話者クラスタｉの参照ベクトルＹ_iの中で、その写像ベクトルＷとの距離値Ｄ_iが最も短い参照ベクトルＹ_iを検索し、その参照ベクトルＹ_iに係る話者クラスタのＩＤを出力する。
【選択図】図１

Description

この発明は、適正な話者クラスタを選択することで話者の適応化を図る話者適応化装置に関するものである。

一般的な音声認識システムでは、多数の話者の音声データにおけるパラメータを学習することにより得られる不特定話者モデルを用いて、ユーザの音声を認識する音声認識処理が実施される。
しかしながら、このような音声認識処理では、ユーザの音響特徴量が不特定話者モデルのパラメータと不整合を生じる場合、そのユーザの音声を正確に認識することができず、音声認識性能が低下する問題がある。

上記の問題を解決する技術として話者適応化手法がある。
話者適応化手法には様々なものがあるが、比較的少量の適応化語彙数で適応化効果が得られる手法として、適正な話者クラスタを選択する手法が知られている。
適正な話者クラスタを選択することで話者の適応化を図る話者適応化装置は、例えば、以下の非特許文献１に開示されており、この話者適応化装置では、各話者クラスタに属する音響パラメータに対して尤度計算を実施し、最大の尤度を与える話者クラスタを選択するようにしている。

「木構造話者クラスタリングを用いた話者適応」電子情報通信学会論文誌Ｄ−ＩＩＶｏｌ．Ｊ７８―Ｄ−ＩＩＮｏ．１ｐｐ．１−９，１９９５

従来の話者適応化装置は以上のように構成されているので、各話者クラスタに属する音響パラメータに対して尤度計算を実施し、最大の尤度を与える話者クラスタを選択するようにしている。しかし、１クラスタ当りの音響パラメータのサイズは、例えば、平均ベクトルだけでも次元数×混合数×モデル数となるため、クラスタ数が増えるにしたがって演算量及びメモリ量が増加するなどの課題があった。

この発明は上記のような課題を解決するためになされたもので、話者クラスタの個数が増えても、必要な演算量やメモリ量を抑制することができる話者適応化装置を得ることを目的とする。

この発明に係る話者適応化装置は、不特定話者モデル記憶手段に記憶されている不特定話者モデルを用いて、ユーザの音響特徴量を固有ベクトル記憶手段に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する写像ベクトル算出手段を設け、話者クラスタ選択手段が話者クラスタ参照ベクトル記憶手段に記憶されている参照ベクトルの中で、写像ベクトル算出手段により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択するようにしたものである。

この発明によれば、不特定話者モデル記憶手段に記憶されている不特定話者モデルを用いて、ユーザの音響特徴量を固有ベクトル記憶手段に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する写像ベクトル算出手段を設け、話者クラスタ選択手段が話者クラスタ参照ベクトル記憶手段に記憶されている参照ベクトルの中で、写像ベクトル算出手段により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択するように構成したので、話者クラスタの個数が増えても、必要な演算量やメモリ量を抑制することができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による話者適応化装置を示す構成図であり、図において、不特定話者モデル記憶部１は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、多数の話者の音声データを学習することにより得られる不特定話者モデルを記憶している。なお、不特定話者モデル記憶部１は不特定話者モデル記憶手段を構成している。
固有ベクトル記憶部２は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、話者空間に対する固有ベクトルを記憶している。なお、固有ベクトル記憶部２は固有ベクトル記憶手段を構成している。
話者クラスタ参照ベクトル記憶部３は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルを記憶している。なお、話者クラスタ参照ベクトル記憶部３は話者クラスタ参照ベクトル記憶手段を構成している。

写像ベクトル算出部４は例えばＭＰＵなどを実装している半導体集積回路基板から構成されており、不特定話者モデル記憶部１に記憶されている不特定話者モデルのパラメータ及び音声認識装置から出力された音声認識結果（または、正解文字列）を用いて、ユーザの音響特徴量を固有ベクトル記憶部２に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する処理を実施する。なお、写像ベクトル算出部４は写像ベクトル算出手段を構成している。
因みに、写像ベクトル算出部４では、話者適応化装置を教師なしで用いる場合は音声認識結果が入力され、話者適応化装置を教師ありで用いる場合は正解文字列が入力されることになる。

話者クラスタ選択部５は例えばＭＰＵなどを実装している半導体集積回路基板から構成されており、話者クラスタ参照ベクトル記憶部３に記憶されている参照ベクトルの中で、写像ベクトル算出部４により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択する処理を実施する。なお、話者クラスタ選択部５は話者クラスタ選択手段を構成している。

図１の例では、話者適応化装置の構成要素である写像ベクトル算出部４及び話者クラスタ選択部５がそれぞれ専用のハードウェアで構成されているものを想定しているが、例えば、話者適応化装置がコンピュータで構成される場合、写像ベクトル算出部４及び話者クラスタ選択部５の処理内容を示すプログラムをコンピュータのメモリに格納し、当該コンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにしてもよい。
図４はこの発明の実施の形態１による話者適応化装置の処理内容を示すフローチャートである。

次に動作について説明する。
不特定話者モデル記憶部１には、予め、多数の話者の音声データを学習することにより得られる不特定話者モデルが記憶されている。
例えば、不特定話者モデルがＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）のモデルである場合、例えば、ＭＬ（ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄ）法で学習された音素毎の平均ベクトル、共分散行列、遷移確率や分岐確率が、不特定話者モデルのパラメータとして記憶される。

固有ベクトル記憶部２には、予め、話者空間に対する固有ベクトルが記憶されている。
話者空間に対する固有ベクトルは、以下の手順で算出される。
（１）不特定話者モデルを初期モデルとして、学習データの各話者（Ｎ人）別に音響パラメータを再学習する。
このとき、話者ｐの音素ｍの平均ベクトルをμ^p _m、共分散行列をＣ^p _mとする。また、話者ｐの音素ｍの学習データ量Ｌ^p _mを記憶する。
（２）話者ｐの音素ｍの平均ベクトルμ^p _mをｍ＝１〜Ｍまで並べたベクトルを話者ｐの話者ベクトルＸ_pとして、話者ベクトルＸ_p（ｐ＝１〜Ｎ）の共分散行列のＫ個の固有ベクトルｅ（ｋ）（ｋ＝１〜Ｋ）を算出する。

ここで、図２は話者空間に対する固有ベクトルを示す説明図である。
図２において、“●”の点は、話者空間に対する各話者の位置を示している。
各話者の座標を話者ベクトルとして固有ベクトルを算出すると点線のようになる。つまり、話者空間に対する固有ベクトルは、最も分散が大きい方向を軸と定めて、話者空間を写像したものである。

話者クラスタ参照ベクトル記憶部３には、予め、多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルが記憶されている。
話者クラスタの参照ベクトルは、以下の手順で算出される。
（１）不特定話者モデルを初期モデルとして、ＥｉｇｅｎＶｏｉｃｅ法を実施することにより、各学習話者に対する適応化処理を行う。
ＥｉｇｅｎＶｏｉｃｅ法については、以下の非特許文献２に開示されている。
「ＥＩＧＥＮＶＯＩＣＥＳＦＯＲＳＰＥＡＫＥＲＡＤＡＰＴＡＴＩＯＮ」ＩＣＳＬＰ−９８，ｐｐ．１７７１−１７７４，１９９８

ＥｉｇｅｎＶｏｉｃｅ法では、下記の式（１）の連立方程式を解くことにより、固有ベクトルｅ（ｋ）の重みｗ（ｋ）を算出する。

ただし、ｅ_m（ｋ）は固有ベクトルｅ（ｋ）の音素ｍに対応する要素、Ｃ_mは不特定話者モデルにおける音素ｍの共分散行列、γ_m（ｔ）は時刻ｔにおいて音素ｍに存在する事後確率、ｏ_tは時刻ｔの適応化用の特徴量ベクトルである。
また、Ｍは音素数、Ｋは特徴量の次元数、Ｔは適応化データの総フレーム数である。

（２）例えば、ＬＢＧアルゴリズムを実施して、固有ベクトルｅ（ｋ）の重みｗ（ｋ）に対するクラスタリングを行う。
（３）同一クラスタ内の話者モデルを合成して各話者クラスタのモデルを合成する。また、同一クラスタ内の写像ベクトルの平均ベクトルを各クラスタの参照ベクトルとする。
なお、後述する距離値計算のために、同一クラスタ内の写像ベクトルの分散ベクトルを記憶しておくようにする。

ここで、図３は話者クラスタの参照ベクトルの算出手順を示す説明図である。
各学習話者の音響特徴量を固有ベクトルが張る空間に写像した後にクラスタリングを行うことで、クラスタリングに要する処理時間やクラスタリング精度を改善することができる。
上記の例では、同一クラスタ内の写像ベクトルの平均ベクトルを話者クラスタの参照ベクトルを記憶するようにしているが、同一クラスタ内の各話者の写像ベクトルを話者クラスタの参照ベクトルとして記憶しておくようにしてもよい。

写像ベクトル算出部４は、図示せぬ音声認識装置から音声認識結果（または、正解文字列）を受けると、不特定話者モデル記憶部１に記憶されている不特定話者モデルのパラメータと、その音声認識結果（または、正解文字列）とを用いて、ユーザの音響特徴量を固有ベクトル記憶部２に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する。
具体的には、以下の通りである。

写像ベクトル算出部４は、図示せぬ音声認識装置から出力された音声認識結果（または、正解文字列）をリファレンスとして、ユーザの音響特徴量の時系列を音素毎にセグメンテーションする（ステップＳＴ１）。
音響特徴量の時系列のセグメンテーションは、例えば、Ｖｉｔｅｒｂｉアルゴリズムを実施することにより行う。
Ｖｉｔｅｒｂｉアルゴリズムは、音声特徴量の時系列［ｏ（１），ｏ（２），・・・ｏ（ｔ）］に対する１本の最適状態系列［ｑ（１），ｑ（２），・・・，ｑ（ｔ）］を算出するものである。
例えば、リファレンスが４つの音素からなり、１音素当り１状態のＨＭＭであるとすると、各状態はｓ１〜ｓ４で表現することができる。
ここで、Ｖｉｔｅｒｂｉアルゴリズムによる最適パスが［ｓ１，ｓ１，ｓ２，ｓ３，ｓ４，ｓ４］であるならば、時刻１〜２が状態１、時刻３が状態２、時刻４が状態３、時刻５〜６が状態４にセグメンテーションされる。

次に、写像ベクトル算出部４は、上記のセグメンテーション結果と、ユーザの音声特徴量と、不特定話者モデル記憶部１に記憶されている不特定話者モデルのパラメータと、固有ベクトル記憶部２に記憶されている固有ベクトルとを用いて、適応化話者の固有ベクトルが張る空間への写像ベクトルＷを算出する（ステップＳＴ２）。
なお、適応化話者の写像ベクトルＷは、話者のクラスタリングを実施する場合と同様に、上記の式（１）によるＥｉｇｅｎＶｏｉｃｅ法で適応化処理を実施することにより算出することができる。

話者クラスタ選択部５は、写像ベクトル算出部４が写像ベクトルＷを算出すると、話者クラスタ参照ベクトル記憶部３に記憶されている参照ベクトルの中で、その写像ベクトルＷとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択する。
具体的には、以下の通りである。

話者クラスタ選択部５は、写像ベクトル算出部４が写像ベクトルＷを算出すると、話者クラスタ数カウンタｉを“０”、最小距離値ｍｉｎ＿ｄｉｓを“ＭＡＸ＿ＶＡＬ”、最小距離値となるクラスタのＩＤであるｍｉｎ＿ｉｄを“−１”とする初期化を実施する（ステップＳＴ３）。

話者クラスタ選択部５は、話者クラスタ数カウンタｉと話者クラスタ数Ｎを比較し、話者クラスタ数カウンタｉが話者クラスタ数Ｎよりも小さければ、後述するステップＳＴ５の処理に移行し、話者クラスタ数カウンタｉが話者クラスタ数Ｎよりも小さくなければ、後述するステップＳＴ９の処理に移行する（ステップＳＴ４）。
なお、同一クラスタ内の各話者の写像ベクトルを話者クラスタの参照ベクトルとして記憶しておく場合は、Ｎを総学習話者数に置き換えて同様の処理を行う。

話者クラスタ選択部５は、話者クラスタ数カウンタｉが話者クラスタ数Ｎよりも小さい場合、写像ベクトル算出部４により算出された写像ベクトルＷと、話者クラスタ参照ベクトル記憶部３に記憶されている話者クラスタｉの参照ベクトルＹ_iの距離値Ｄ_iを以下の式（２）で算出する（ステップＳＴ５）。

ただし、λ_kはｋ番目の固有ベクトルに対応する固有値、Ｓ_iは参照ベクトルＹ_iの分散ベクトルである。

次に、話者クラスタ選択部５は、距離値Ｄ_iと現時点までの最小距離値ｍｉｎ＿ｄｉｓを比較し、距離値Ｄ_iが最小距離値ｍｉｎ＿ｄｉｓより小さければ、ステップＳＴ７の処理に移行し、距離値Ｄ_iが最小距離値ｍｉｎ＿ｄｉｓより小さくなければ、ステップＳＴ８の処理に移行する（ステップＳＴ６）。

話者クラスタ選択部５は、距離値Ｄ_iが最小距離値ｍｉｎ＿ｄｉｓより小さければ、現時点までの最小距離値ｍｉｎ＿ｄｉｓに距離値Ｄ_iを代入して、その最小距離値ｍｉｎ＿ｄｉｓを更新する。
また、最小距離値となるクラスタのＩＤであるｍｉｎ＿ｉｄに話者クラスタ数カウンタｉを代入する（ステップＳＴ７）。
話者クラスタ選択部５は、話者クラスタ数カウンタｉを１インクリメントして、ステップＳＴ４の処理に戻る（ステップＳＴ８）。

話者クラスタ選択部５は、話者クラスタ数カウンタｉと話者クラスタ数Ｎを比較し、話者クラスタ数カウンタｉが話者クラスタ数Ｎよりも小さくなくなると、ステップＳＴ９の処理に移行する（ステップＳＴ４）。
話者クラスタ選択部５は、話者クラスタ数カウンタｉが話者クラスタ数Ｎよりも小さくなくなると、最小距離値となるクラスタのＩＤであるｍｉｎ＿ｉｄを最近傍話者クラスタのＩＤとして出力する（ステップＳＴ９）。

以上で明らかなように、この実施の形態１によれば、不特定話者モデル記憶部１に記憶されている不特定話者モデルを用いて、ユーザの音響特徴量を固有ベクトル記憶部２に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルＷを算出する写像ベクトル算出部４を設け、話者クラスタ選択部５が話者クラスタ参照ベクトル記憶部３に記憶されている話者クラスタｉの参照ベクトルＹ_iの中で、写像ベクトル算出部４により算出された写像ベクトルＷとの距離値Ｄ_iが最も短い参照ベクトルＹ_iを検索し、その参照ベクトルＹ_iに係る話者クラスタのＩＤを出力するように構成したので、話者クラスタの個数が増えても、必要な演算量やメモリ量を抑制することができる効果を奏する。

即ち、この実施の形態１によれば、適応化話者の音響特徴量を固有ベクトルが張る空間に写像した上で最近傍となる話者クラスタを選択するようにしているため、話者クラスタを選択するに際して、話者クラスタモデルの音響パラメータを必要としない。
このため、必要なメモリ量は、固有ベクトルｅ（ｋ）のサイズと、不特定話者モデルのサイズと、話者クラスタｉの参照ベクトルＹ_iとの和となり、話者クラスタの数が大きい場合には、従来の話者適応化装置と比較して、選択に必要な演算量やメモリ量を削減することが可能となる。

例えば、１つの話者クラスタモデルがＭ音素Ｌ混合Ｄ次元のＨＭＭである場合、１クラスタ当りに必要なパラメータ数はＭＬ（Ｄ（Ｄ＋１）＋１）となるので、話者クラスタ数がＮの場合には、従来の話者適応化装置では、必要なパラメータ数は不特定話者モデル分を足して、（Ｎ＋１）×ＭＬ（Ｄ（Ｄ＋１）＋１）となる。
これに対して、この実施の形態１における話者適応化装置では、固有ベクトル数をＫとすると、固有ベクトルのパラメータ数がＭＬＤＫ、参照ベクトルのパラメータ数がＮＫであるため、不特定話者モデル分を足して、合計ＭＬＤＫ＋ＭＬ（Ｄ（Ｄ＋１）＋１）＋ＮＫとなる。

したがって、例えば、Ｍ＝３１６，Ｌ＝８，Ｄ＝３９，Ｎ＝１００，Ｋ＝２０とすると、従来の話者適応化装置では、必要なパラメータ数が４億個弱であるのに対し、この実施の形態１における話者適応化装置では、必要なパラメータ数が６００万個程度であり、約１／７０に圧縮している。
また、予め、多数話者の話者ベクトルから固有ベクトルを算出することは話者間の差異が小さい次元を圧縮することと等価であり、固有ベクトルの数を適切に選択すれば、従来の話者適応化装置による話者クラスタ選択と比較して、適応化性能の低下は殆どない。

なお、この実施の形態１では、適応化対象となる不特定話者モデルの認識最小単位を音素として説明しているが、これに限るものではなく、例えば、認識最小単位が音節であってもよい。

実施の形態２．
図５はこの発明の実施の形態２による話者適応化装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
話者クラスタモデル記憶部６は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶している。なお、話者クラスタモデル記憶部６は話者クラスタモデル記憶手段を構成している。

話者クラスタ適応化部７は例えばＭＰＵなどを実装している半導体集積回路基板から構成されており、話者クラスタモデル記憶部６から話者クラスタ選択部５により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部４により算出された写像ベクトルＷを用いて、その話者クラスタモデルの音響パラメータを適応化する処理を実施する。即ち、固有ベクトル記憶部２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部４により算出された写像ベクトルＷを合成し、合成後のベクトルと話者クラスタモデルの音響パラメータとの重み付け和を適応化パラメータとして、その話者クラスタモデルの音響パラメータを更新する。重み係数は、写像ベクトル算出部４により音響特徴量の写像ベクトルＷが算出される際に使用されたユーザの音素毎のデータ量（以下、「適応化データ量」と称する）と、多数の話者をクラスタリングして、話者クラスタの参照ベクトルを得る際に使用された話者の音素毎のデータ量（以下、「学習データ量」と称する）から決定する。
なお、話者クラスタ適応化部７は話者クラスタ適応化手段を構成している。

適応化話者クラスタ記憶部８は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、話者クラスタ適応化部７により適応化された話者クラスタモデルの音響パラメータを記憶している。
図６はこの発明の実施の形態２による話者適応化装置の処理内容を示すフローチャートである。

上記実施の形態１では、話者クラスタ選択部５が最近傍話者の話者クラスタを選択するものについて示したが、この実施の形態２では、最近傍話者の話者クラスタを選択するだけではなく、話者クラスタモデルの音響パラメータを適応化して、さらに、音声認識性能を高めるようにしている。

次に動作について説明する。
話者クラスタモデル記憶部６には、予め、多数の話者をクラスタリングすることにより得られる話者クラスタモデルが記憶されている。
例えば、話者クラスタモデルがＨＭＭのモデルである場合、例えば、ＭＬ法で学習された音素毎の平均ベクトル、共分散行列、遷移確率や分岐確率が、話者クラスタモデルのパラメータとして記憶される。

なお、話者クラスタ参照ベクトル記憶部３には、上記実施の形態１と同様に、多数の話者をクラスタリングすることにより得られる話者クラスタｉの参照ベクトルＹ_iが記憶されているが、この実施の形態２では、多数の話者をクラスタリングして、話者クラスタｉの参照ベクトルＹ_iを得る際に使用された話者の音素毎のデータ量である学習データ量も記憶されている。

写像ベクトル算出部４は、図示せぬ音声認識装置から音声認識結果（または、正解文字列）を受けると、上記実施の形態１と同様に、不特定話者モデル記憶部１に記憶されている不特定話者モデルのパラメータと、その音声認識結果（または、正解文字列）とを用いて、ユーザの音響特徴量を固有ベクトル記憶部２に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルＷを算出する（ステップＳＴ１〜ＳＴ２）。
ただし、この実施の形態２では、写像ベクトル算出部４は、写像ベクトルＷの他に、その写像ベクトルＷを算出する際に用いた音素毎のデータ量である適応化データ量を出力する。

話者クラスタ選択部５は、写像ベクトル算出部４が写像ベクトルＷを算出すると、上記実施の形態１と同様に、話者クラスタ参照ベクトル記憶部３に記憶されている話者クラスタｉの参照ベクトルＹ_iの中で、その写像ベクトルＷとの距離が最も短い参照ベクトルＹ_iを検索し、その参照ベクトルＹ_iに係る話者クラスタを選択する（ステップＳＴ３〜ＳＴ９）。

話者クラスタ適応化部７は、話者クラスタ選択部５が話者クラスタを選択すると、話者クラスタモデル記憶部６から話者クラスタ選択部５により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部４により算出された写像ベクトルＷを用いて、その話者クラスタモデルの音響パラメータを適応化する。
具体的には、以下の通りである。

話者クラスタ適応化部７は、話者クラスタ選択部５から最近傍話者クラスタのＩＤであるｍｉｎ＿ｉｄを受けると、話者クラスタモデル記憶部６からｍｉｎ＿ｉｄに対応する話者クラスタモデルの音響パラメータと学習データ量の読み出しを行う（ステップＳＴ１０）。
例えば、話者クラスタモデルがＨＭＭのモデルである場合には、音素ｍ毎の平均ベクトルμ_mと共分散行列Ｃ_mの読み出しを行う。

次に、話者クラスタ適応化部７は、固有ベクトル記憶部２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部４により算出された写像ベクトルＷを以下の式（３）に代入して、音素ｍに対する適応化ベクトルＶ_mを算出する（ステップＳＴ１１）。

次に、話者クラスタ適応化部７は、話者クラスタモデルの音素ｍの学習データ量Ｌ_mと音素ｍの適応化データ量Ａ_mを以下の式（４）に代入して、適応化後の平均ベクトルμ^_mを算出する（ステップＳＴ１２）。

式（４）によれば、学習データ量Ｌ_mと比較して、適応化データ量Ａ_mが少ない場合には、元の話者クラスタの音響パラメータが選択され、学習データ量Ｌ_mと比較して、適応化データ量Ａ_mが多い場合には、適応化ベクトルＶ_mに近い音響パラメータが選択されることになり、適応化データ量Ａ_mに依存しない頑健な適応化を行うことができる。

話者クラスタ適応化部７は、最近傍話者クラスタの平均ベクトルμ_mを適応化後の平均ベクトルμ^_mで置き換えたものを適応化後の話者クラスタの音響パラメータとして、適応化話者クラスタ記憶部８に記憶する（ステップＳＴ１３）。

以上で明らかなように、この実施の形態２によれば、話者クラスタモデル記憶部６から話者クラスタ選択部５により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部４により算出された写像ベクトルＷを用いて、その話者クラスタモデルの音響パラメータを適応化するように構成したので、最近傍話者の話者クラスタを選択するだけでは、音声認識性能の改善が小さい場合でも、演算量やメモリ量の増加を招くことなく、音声認識性能を改善することができる効果を奏する。

実施の形態３．
図７はこの発明の実施の形態３による話者適応化装置を示す構成図であり、図において、不特定話者モデル記憶部１１は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別に多数の話者の音声データを学習することにより得られる性別依存性の不特定話者モデルを記憶している。なお、不特定話者モデル記憶部１１は不特定話者モデル記憶手段を構成している。
固有ベクトル記憶部１２は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別の話者空間に対する性別依存性の固有ベクトルを記憶している。なお、固有ベクトル記憶部１２は固有ベクトル記憶手段を構成している。

話者クラスタ参照ベクトル記憶部１３は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルを記憶している。なお、話者クラスタ参照ベクトル記憶部１３は話者クラスタ参照ベクトル記憶手段を構成している。
性別判別部１４は例えばＭＰＵなどを実装している半導体集積回路基板から構成されており、ユーザの音響特徴量からユーザの性別を判別する処理を実施する。なお、性別判別部１４は性別判別手段を構成している。

写像ベクトル算出部１５は例えばＭＰＵなどを実装している半導体集積回路基板から構成されており、不特定話者モデル記憶部１１から性別判別部１４により判別されたユーザの性別に属する不特定話者モデルを取得するとともに、固有ベクトル記憶部１２からユーザの性別に属する固有ベクトルを取得し、その不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する処理を実施する。なお、写像ベクトル算出部１５は写像ベクトル算出手段を構成している。
因みに、写像ベクトル算出部１５では、話者適応化装置を教師なしで用いる場合は音声認識結果が入力され、話者適応化装置を教師ありで用いる場合は正解文字列が入力されることになる。

話者クラスタ選択部１６は例えばＭＰＵなどを実装している半導体集積回路基板から構成されており、話者クラスタ参照ベクトル記憶部１３に記憶されている参照ベクトルのうち、性別判別部１４により判別されたユーザの性別に属する参照ベクトルの中で、写像ベクトル算出部１５により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択する処理を実施する。なお、話者クラスタ選択部１６は話者クラスタ選択手段を構成している。

図７の例では、話者適応化装置の構成要素である写像ベクトル算出部１５及び話者クラスタ選択部１６がそれぞれ専用のハードウェアで構成されているものを想定しているが、例えば、話者適応化装置がコンピュータで構成される場合、写像ベクトル算出部１５及び話者クラスタ選択部１６の処理内容を示すプログラムをコンピュータのメモリに格納し、当該コンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにしてもよい。
図８はこの発明の実施の形態３による話者適応化装置の処理内容を示すフローチャートである。

次に動作について説明する。
一般に話者クラスタリングは性別毎に実施することにより、その精度を高めることができる。
この実施の形態３では、話者適応化処理を実施する前に、ユーザの性別を区別することで、話者適応化による音声認識性能の改善率を高めることを目的としている。

不特定話者モデル記憶部１１には、図１の不特定話者モデル記憶部１と同様に、不特定話者モデルが記憶されるが、図１の不特定話者モデル記憶部１と異なり、男女別に多数の話者の音声データを学習することにより得られる性別依存性の不特定話者モデルが記憶される。
また、固有ベクトル記憶部１２には、図１の固有ベクトル記憶部２と同様の手順で算出される固有ベクトルが記憶されるが、図１の固有ベクトル記憶部２と異なり、男女別の話者空間に対する性別依存性の固有ベクトルが記憶される。
また、話者クラスタ参照ベクトル記憶部１３には、図１の話者クラスタ参照ベクトル記憶部３と同様の手順で算出される話者クラスタの参照ベクトルが記憶されるが、図１の話者クラスタ参照ベクトル記憶部３と異なり、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルが記憶される。

性別判別部１４は、ユーザの音響特徴量を受けると、例えば、ＶＱ（ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎ）の手法を用いて、ユーザの音響特徴量からユーザの性別を判別する（ステップＳＴ２１）。
ただし、例えば、ユーザ情報からユーザの性別が明示的に分かる場合には、その性別を性別判別部１４が判別した性別とすることも可能である。

写像ベクトル算出部１５は、性別判別部１４がユーザの性別を判別すると、不特定話者モデル記憶部１１からユーザの性別に属する不特定話者モデルを取得するとともに、固有ベクトル記憶部１２からユーザの性別に属する固有ベクトルを取得し、その不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する。
具体的には、以下の通りである。

写像ベクトル算出部１５は、図示せぬ音声認識装置から出力された音声認識結果（または、正解文字列）をリファレンスとして、ユーザの音響特徴量の時系列を音素毎にセグメンテーションする（ステップＳＴ２２）。
音響特徴量の時系列のセグメンテーションは、例えば、Ｖｉｔｅｒｂｉアルゴリズムを実施することにより行う。
Ｖｉｔｅｒｂｉアルゴリズムは、音声特徴量の時系列［ｏ（１），ｏ（２），・・・ｏ（ｔ）］に対する１本の最適状態系列［ｑ（１），ｑ（２），・・・，ｑ（ｔ）］を算出するものである。
例えば、リファレンスが４つの音素からなり、１音素当り１状態のＨＭＭであるとすると、各状態はｓ１〜ｓ４で表現することができる。
ここで、Ｖｉｔｅｒｂｉアルゴリズムによる最適パスが［ｓ１，ｓ１，ｓ２，ｓ３，ｓ４，ｓ４］であるならば、時刻１〜２が状態１、時刻３が状態２、時刻４が状態３、時刻５〜６が状態４にセグメンテーションされる。

次に、写像ベクトル算出部１５は、上記のセグメンテーション結果と、ユーザの音声特徴量と、不特定話者モデル記憶部１に記憶されている不特定話者モデルのうち、性別判別部１４により判別されたユーザの性別に属する不特定話者モデルのパラメータと、固有ベクトル記憶部２に記憶されている固有ベクトルのうち、性別判別部１４により判別されたユーザの性別に属する固有ベクトルとを用いて、適応化話者の固有ベクトルが張る空間への写像ベクトルＷを算出する（ステップＳＴ２３）。
なお、適応化話者の写像ベクトルＷは、話者のクラスタリングを実施する場合と同様に、上記の式（１）によるＥｉｇｅｎＶｏｉｃｅ法で適応化処理を実施することにより算出することができる。

話者クラスタ選択部１６は、写像ベクトル算出部１５が写像ベクトルＷを算出すると、話者クラスタ参照ベクトル記憶部１３に記憶されている参照ベクトルのうち、性別判別部１４により判別されたユーザの性別に属する参照ベクトルの中で、その写像ベクトルＷとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択する。
具体的には、以下の通りである。

話者クラスタ選択部１６は、写像ベクトル算出部１５が写像ベクトルＷを算出すると、話者クラスタ数カウンタｉを“０”、最小距離値ｍｉｎ＿ｄｉｓを“ＭＡＸ＿ＶＡＬ”、最小距離値となるクラスタのＩＤであるｍｉｎ＿ｉｄを“−１”とする初期化を実施する（ステップＳＴ２４）。
なお、話者クラスタＩＤは、予め、ユーザが属する性別毎にソートされているものとして、話者クラスタ数カウンタｉには、性別判別部１４により判別された性別に属する話者クラスタの先頭ＩＤであるｉｄ＿ｓｔａｒｔを代入する。

話者クラスタ選択部１６は、話者クラスタ数カウンタｉと、ユーザの性別に属する話者クラスタの最終ＩＤであるｉｄ＿ｅｎｄとを比較し、話者クラスタ数カウンタｉが話者クラスタの最終ＩＤであるｉｄ＿ｅｎｄよりも小さければ、後述するステップＳＴ２６の処理に移行し、話者クラスタ数カウンタｉが話者クラスタの最終ＩＤであるｉｄ＿ｅｎｄよりも小さくなければ、後述するステップＳＴ３０の処理に移行する（ステップＳＴ２５）。

話者クラスタ選択部１６は、話者クラスタ数カウンタｉが話者クラスタの最終ＩＤであるｉｄ＿ｅｎｄよりも小さい場合、写像ベクトル算出部１５により算出された写像ベクトルＷと、話者クラスタ参照ベクトル記憶部１３に記憶されているユーザの性別に属する話者クラスタｉの参照ベクトルＹ_iの距離値Ｄ_iを上記の式（２）で算出する（ステップＳＴ２６）。

次に、話者クラスタ選択部１６は、距離値Ｄ_iと現時点までの最小距離値ｍｉｎ＿ｄｉｓを比較し、距離値Ｄ_iが最小距離値ｍｉｎ＿ｄｉｓより小さければ、ステップＳＴ２８の処理に移行し、距離値Ｄ_iが最小距離値ｍｉｎ＿ｄｉｓより小さくなければ、ステップＳＴ２９の処理に移行する（ステップＳＴ２７）。

話者クラスタ選択部１６は、距離値Ｄ_iが最小距離値ｍｉｎ＿ｄｉｓより小さければ、現時点までの最小距離値ｍｉｎ＿ｄｉｓに距離値Ｄ_iを代入して、その最小距離値ｍｉｎ＿ｄｉｓを更新する。
また、最小距離値となるクラスタのＩＤであるｍｉｎ＿ｉｄに話者クラスタ数カウンタｉを代入する（ステップＳＴ２８）。
話者クラスタ選択部１６は、話者クラスタ数カウンタｉを１インクリメントして、ステップＳＴ２５の処理に戻る（ステップＳＴ２９）。

話者クラスタ選択部１５は、話者クラスタ数カウンタｉと、ユーザの性別に属する話者クラスタの最終ＩＤであるｉｄ＿ｅｎｄとを比較し、話者クラスタ数カウンタｉが話者クラスタの最終ＩＤであるｉｄ＿ｅｎｄよりも小さくなくなると、ステップＳＴ３０の処理に移行する（ステップＳＴ２５）。
話者クラスタ選択部５は、話者クラスタ数カウンタｉが話者クラスタの最終ＩＤであるｉｄ＿ｅｎｄよりも小さくなくなると、最小距離値となるクラスタのＩＤであるｍｉｎ＿ｉｄを最近傍話者クラスタのＩＤとして出力する（ステップＳＴ３０）。

以上で明らかなように、この実施の形態３によれば、話者クラスタリング及び固有ベクトルの算出を男女別に行うようにしたので、上記実施の形態１よりも更に、クラスタリング及び固有ベクトルの精度を高めることができる。また、話者適応化時にはユーザの性別を判別した後、その性別に属する話者クラスタを選択するようにしたので、更に、話者適応化による音声認識性能を改善することができる効果を奏する。

実施の形態４．
図７はこの発明の実施の形態３による話者適応化装置を示す構成図であり、図において、図７と同一符号は同一または相当部分を示すので説明を省略する。
話者クラスタモデル記憶部１７は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶している。なお、話者クラスタモデル記憶部１７は話者クラスタモデル記憶手段を構成している。

話者クラスタ適応化部１８は例えばＭＰＵなどを実装している半導体集積回路基板から構成されており、話者クラスタモデル記憶部１７から話者クラスタ選択部１６により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部１２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部１５により算出された写像ベクトルＷを用いて、その話者クラスタモデルの音響パラメータを適応化する処理を実施する。即ち、固有ベクトル記憶部１２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部１５により算出された写像ベクトルＷを合成し、合成後のベクトルと話者クラスタモデルの音響パラメータとの重み付け和を適応化パラメータとして、その話者クラスタモデルの音響パラメータを更新する。重み係数は、写像ベクトル算出部１５により音響特徴量の写像ベクトルＷが算出される際に使用されたユーザの音素毎のデータ量である適応化データ量と、多数の話者をクラスタリングして、話者クラスタの参照ベクトルを得る際に使用された話者の音素毎のデータ量である学習データ量とから決定する。
なお、話者クラスタ適応化部１８は話者クラスタ適応化手段を構成している。

適応化話者クラスタ記憶部１９は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、話者クラスタ適応化部１８により適応化された話者クラスタモデルの音響パラメータを記憶している。
図１０はこの発明の実施の形態４による話者適応化装置の処理内容を示すフローチャートである。

上記実施の形態３では、話者クラスタ選択部１６が最近傍話者の話者クラスタを選択するものについて示したが、この実施の形態４では、最近傍話者の話者クラスタを選択するだけではなく、話者クラスタモデルの音響パラメータを適応化して、さらに、音声認識性能を高めるようにしている。

次に動作について説明する。
話者クラスタモデル記憶部１７には、図５の話者クラスタモデル記憶部６と同様に、話者クラスタモデルが記憶されるが、図５の話者クラスタモデル記憶部６と異なり、男女別に多数の話者の音声データを学習することにより得られる性別依存性の話者クラスタモデルが記憶される。

なお、話者クラスタ参照ベクトル記憶部１３には、上記実施の形態３と同様に、多数の話者をクラスタリングすることにより得られる話者クラスタｉの参照ベクトルＹ_iが記憶されているが、この実施の形態４では、多数の話者をクラスタリングして、話者クラスタｉの参照ベクトルＹ_iを得る際に使用された話者の音素毎のデータ量である学習データ量も記憶されている。

性別判別部１４は、ユーザの音響特徴量を受けると、上記実施の形態３と同様に、ユーザの音響特徴量からユーザの性別を判別する（ステップＳＴ２１）。
写像ベクトル算出部１５は、性別判別部１４がユーザの性別を判別すると、上記実施の形態３と同様に、不特定話者モデル記憶部１１からユーザの性別に属する不特定話者モデルを取得するとともに、固有ベクトル記憶部１２からユーザの性別に属する固有ベクトルを取得し、その不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する（ステップＳＴ２２〜ＳＴ２３）。
ただし、この実施の形態４では、写像ベクトル算出部１５は、写像ベクトルＷの他に、その写像ベクトルＷを算出する際に用いた音素毎のデータ量である適応化データ量を出力する。

話者クラスタ選択部１６は、写像ベクトル算出部１５が写像ベクトルＷを算出すると、話者クラスタ参照ベクトル記憶部１３に記憶されている参照ベクトルのうち、性別判別部１４により判別されたユーザの性別に属する参照ベクトルの中で、その写像ベクトルＷとの距離が最も短い参照ベクトルＹ_iを検索し、その参照ベクトルＹ_iに係る話者クラスタを選択する（ステップＳＴ２４〜ＳＴ３０）。

話者クラスタ適応化部１８は、話者クラスタ選択部１６が話者クラスタを選択すると、話者クラスタモデル記憶部１７から話者クラスタ選択部１６により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部１２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部１５により算出された写像ベクトルＷを用いて、その話者クラスタモデルの音響パラメータを適応化する。
具体的には、以下の通りである。

話者クラスタ適応化部１８は、話者クラスタ選択部１６から最近傍話者クラスタのＩＤであるｍｉｎ＿ｉｄを受けると、話者クラスタモデル記憶部１７からｍｉｎ＿ｉｄに対応する話者クラスタモデルの音響パラメータと学習データ量の読み出しを行う（ステップＳＴ３１）。
例えば、話者クラスタモデルがＨＭＭのモデルである場合には、音素ｍ毎の平均ベクトルμ_mと共分散行列Ｃ_mの読み出しを行う。

次に、話者クラスタ適応化部１８は、固有ベクトル記憶部１２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部１５により算出された写像ベクトルＷを上記の式（３）に代入して、音素ｍに対する適応化ベクトルＶ_mを算出する（ステップＳＴ３２）。
次に、話者クラスタ適応化部１８は、話者クラスタモデルの音素ｍの学習データ量Ｌ_mと音素ｍの適応化データ量Ａ_mを上記の式（４）に代入して、適応化後の平均ベクトルμ^_mを算出する（ステップＳＴ３３）。
式（４）によれば、学習データ量Ｌ_mと比較して、適応化データ量Ａ_mが少ない場合には、元の話者クラスタの音響パラメータが選択され、学習データ量Ｌ_mと比較して、適応化データ量Ａ_mが多い場合には、適応化ベクトルＶ_mに近い音響パラメータが選択されることになり、適応化データ量Ａ_mに依存しない頑健な適応化を行うことができる。

話者クラスタ適応化部１８は、最近傍話者クラスタの平均ベクトルμ_mを適応化後の平均ベクトルμ^_mで置き換えたものを適応化後の話者クラスタの音響パラメータとして、適応化話者クラスタ記憶部１９に記憶する（ステップＳＴ３４）。

以上で明らかなように、この実施の形態４によれば、話者クラスタモデル記憶部１７から話者クラスタ選択部１６により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部１２に記憶されている固有ベクトルｅ（ｋ）と写像ベクトル算出部１５により算出された写像ベクトルＷを用いて、その話者クラスタモデルの音響パラメータを適応化するように構成したので、最近傍話者の話者クラスタを選択するだけでは、音声認識性能の改善が小さい場合でも、演算量やメモリ量の増加を招くことなく、音声認識性能を改善することができる効果を奏する。

この発明の実施の形態１による話者適応化装置を示す構成図である。話者空間に対する固有ベクトルを示す説明図である。話者クラスタの参照ベクトルの算出手順を示す説明図である。この発明の実施の形態１による話者適応化装置の処理内容を示すフローチャートである。この発明の実施の形態２による話者適応化装置を示す構成図である。この発明の実施の形態２による話者適応化装置の処理内容を示すフローチャートである。この発明の実施の形態３による話者適応化装置を示す構成図である。この発明の実施の形態３による話者適応化装置の処理内容を示すフローチャートである。この発明の実施の形態４による話者適応化装置を示す構成図である。この発明の実施の形態４による話者適応化装置の処理内容を示すフローチャートである。

符号の説明

１不特定話者モデル記憶部（不特定話者モデル記憶手段）、２固有ベクトル記憶部（固有ベクトル記憶手段）、３話者クラスタ参照ベクトル記憶部（話者クラスタ参照ベクトル記憶手段）、４写像ベクトル算出部（写像ベクトル算出手段）、５話者クラスタ選択部（話者クラスタ選択手段）、６話者クラスタモデル記憶部（話者クラスタモデル記憶手段）、７話者クラスタ適応化部（話者クラスタ適応化手段）、８適応化話者クラスタ記憶部、１１不特定話者モデル記憶部（不特定話者モデル記憶手段）、１２固有ベクトル記憶部（固有ベクトル記憶手段）、１３話者クラスタ参照ベクトル記憶部（話者クラスタ参照ベクトル記憶手段）、１４性別判別部（性別判別手段）、１５写像ベクトル算出部（写像ベクトル算出手段）、１６話者クラスタ選択部（話者クラスタ選択手段）、１７話者クラスタモデル記憶部（話者クラスタモデル記憶手段）、１８話者クラスタ適応化部（話者クラスタ適応化手段）、１９適応化話者クラスタ記憶部。

Claims

多数の話者の音声データを学習することにより得られる不特定話者モデルを記憶する不特定話者モデル記憶手段と、話者空間に対する固有ベクトルを記憶する固有ベクトル記憶手段と、多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルを記憶する話者クラスタ参照ベクトル記憶手段と、上記不特定話者モデル記憶手段に記憶されている不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトル記憶手段に記憶されている固有ベクトルが張る空間に写像して、上記音響特徴量の写像ベクトルを算出する写像ベクトル算出手段と、上記話者クラスタ参照ベクトル記憶手段に記憶されている参照ベクトルの中で、上記写像ベクトル算出手段により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、上記参照ベクトルに係る話者クラスタを選択する話者クラスタ選択手段とを備えた話者適応化装置。
多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶する話者クラスタモデル記憶手段と、上記話者クラスタモデル記憶手段から話者クラスタ選択手段により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶手段に記憶されている固有ベクトルと写像ベクトル算出手段により算出された写像ベクトルを用いて、上記話者クラスタモデルの音響パラメータを適応化する話者クラスタ適応化手段とを設けたことを特徴とする請求項１記載の話者適応化装置。
男女別に多数の話者の音声データを学習することにより得られる性別依存性の不特定話者モデルを記憶する不特定話者モデル記憶手段と、男女別の話者空間に対する性別依存性の固有ベクトルを記憶する固有ベクトル記憶手段と、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルを記憶する話者クラスタ参照ベクトル記憶手段と、ユーザの音響特徴量からユーザの性別を判別する性別判別手段と、上記不特定話者モデル記憶手段から上記性別判別手段により判別されたユーザの性別に属する不特定話者モデルを取得するとともに、上記固有ベクトル記憶手段からユーザの性別に属する固有ベクトルを取得し、上記不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトルが張る空間に写像して、上記音響特徴量の写像ベクトルを算出する写像ベクトル算出手段と、上記話者クラスタ参照ベクトル記憶手段に記憶されている参照ベクトルのうち、上記性別判別手段により判別されたユーザの性別に属する参照ベクトルの中で、上記写像ベクトル算出手段により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、上記参照ベクトルに係る話者クラスタを選択する話者クラスタ選択手段とを備えた話者適応化装置。
男女別に多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶する話者クラスタモデル記憶手段と、上記話者クラスタモデル記憶手段から話者クラスタ選択手段により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶手段に記憶されている固有ベクトルと写像ベクトル算出手段により算出された写像ベクトルを用いて、上記話者クラスタモデルの音響パラメータを適応化する話者クラスタ適応化手段とを設けたことを特徴とする請求項３記載の話者適応化装置。
話者クラスタ参照ベクトル記憶手段は、各話者クラスタに属する学習話者の音響特徴量が、話者空間に対する固有ベクトルが張る空間に写像されて算出された写像ベクトルを話者クラスタの参照ベクトルとして記憶することを特徴とする請求項１から請求項４のうちのいずれか１項記載の話者適応化装置。
話者クラスタ参照ベクトル記憶手段は、写像ベクトルの平均ベクトル及び分散ベクトルを記憶することを特徴とする請求項５記載の話者適応化装置。
話者クラスタ適応化手段は、固有ベクトル記憶手段に記憶されている固有ベクトルと写像ベクトル算出手段により算出された写像ベクトルを合成し、合成後のベクトルと話者クラスタモデルの音響パラメータとの重み付け和を適応化パラメータとして、上記話者クラスタモデルの音響パラメータを更新することを特徴とする請求項２または請求項４記載の話者適応化装置。
話者クラスタ適応化手段は、写像ベクトル算出手段により音響特徴量の写像ベクトルが算出される際に使用されたユーザの音素毎のデータ量と、多数の話者をクラスタリングして、話者クラスタの参照ベクトルを得る際に使用された話者の音素毎のデータ量から重み係数を決定して、合成後のベクトルと話者クラスタモデルの音響パラメータとの重み付け和を求めることを特徴とする請求項７記載の話者適応化装置。