JP2008216672A - 話者適応化装置 - Google Patents
話者適応化装置 Download PDFInfo
- Publication number
- JP2008216672A JP2008216672A JP2007054461A JP2007054461A JP2008216672A JP 2008216672 A JP2008216672 A JP 2008216672A JP 2007054461 A JP2007054461 A JP 2007054461A JP 2007054461 A JP2007054461 A JP 2007054461A JP 2008216672 A JP2008216672 A JP 2008216672A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- cluster
- vector
- speaker cluster
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】話者クラスタの個数が増えても、必要な演算量やメモリ量を抑制することができる話者適応化装置を得ることを目的とする。
【解決手段】不特定話者モデルを用いて、ユーザの音響特徴量を固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルWを算出する写像ベクトル算出部4を設け、話者クラスタ選択部5が話者クラスタ参照ベクトル記憶部3に記憶されている話者クラスタiの参照ベクトルYiの中で、その写像ベクトルWとの距離値Diが最も短い参照ベクトルYiを検索し、その参照ベクトルYiに係る話者クラスタのIDを出力する。
【選択図】図1
【解決手段】不特定話者モデルを用いて、ユーザの音響特徴量を固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルWを算出する写像ベクトル算出部4を設け、話者クラスタ選択部5が話者クラスタ参照ベクトル記憶部3に記憶されている話者クラスタiの参照ベクトルYiの中で、その写像ベクトルWとの距離値Diが最も短い参照ベクトルYiを検索し、その参照ベクトルYiに係る話者クラスタのIDを出力する。
【選択図】図1
Description
この発明は、適正な話者クラスタを選択することで話者の適応化を図る話者適応化装置に関するものである。
一般的な音声認識システムでは、多数の話者の音声データにおけるパラメータを学習することにより得られる不特定話者モデルを用いて、ユーザの音声を認識する音声認識処理が実施される。
しかしながら、このような音声認識処理では、ユーザの音響特徴量が不特定話者モデルのパラメータと不整合を生じる場合、そのユーザの音声を正確に認識することができず、音声認識性能が低下する問題がある。
しかしながら、このような音声認識処理では、ユーザの音響特徴量が不特定話者モデルのパラメータと不整合を生じる場合、そのユーザの音声を正確に認識することができず、音声認識性能が低下する問題がある。
上記の問題を解決する技術として話者適応化手法がある。
話者適応化手法には様々なものがあるが、比較的少量の適応化語彙数で適応化効果が得られる手法として、適正な話者クラスタを選択する手法が知られている。
適正な話者クラスタを選択することで話者の適応化を図る話者適応化装置は、例えば、以下の非特許文献1に開示されており、この話者適応化装置では、各話者クラスタに属する音響パラメータに対して尤度計算を実施し、最大の尤度を与える話者クラスタを選択するようにしている。
話者適応化手法には様々なものがあるが、比較的少量の適応化語彙数で適応化効果が得られる手法として、適正な話者クラスタを選択する手法が知られている。
適正な話者クラスタを選択することで話者の適応化を図る話者適応化装置は、例えば、以下の非特許文献1に開示されており、この話者適応化装置では、各話者クラスタに属する音響パラメータに対して尤度計算を実施し、最大の尤度を与える話者クラスタを選択するようにしている。
「木構造話者クラスタリングを用いた話者適応」電子情報通信学会論文誌D−II Vol.J78―D−II No.1 pp.1−9,1995
従来の話者適応化装置は以上のように構成されているので、各話者クラスタに属する音響パラメータに対して尤度計算を実施し、最大の尤度を与える話者クラスタを選択するようにしている。しかし、1クラスタ当りの音響パラメータのサイズは、例えば、平均ベクトルだけでも次元数×混合数×モデル数となるため、クラスタ数が増えるにしたがって演算量及びメモリ量が増加するなどの課題があった。
この発明は上記のような課題を解決するためになされたもので、話者クラスタの個数が増えても、必要な演算量やメモリ量を抑制することができる話者適応化装置を得ることを目的とする。
この発明に係る話者適応化装置は、不特定話者モデル記憶手段に記憶されている不特定話者モデルを用いて、ユーザの音響特徴量を固有ベクトル記憶手段に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する写像ベクトル算出手段を設け、話者クラスタ選択手段が話者クラスタ参照ベクトル記憶手段に記憶されている参照ベクトルの中で、写像ベクトル算出手段により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択するようにしたものである。
この発明によれば、不特定話者モデル記憶手段に記憶されている不特定話者モデルを用いて、ユーザの音響特徴量を固有ベクトル記憶手段に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する写像ベクトル算出手段を設け、話者クラスタ選択手段が話者クラスタ参照ベクトル記憶手段に記憶されている参照ベクトルの中で、写像ベクトル算出手段により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択するように構成したので、話者クラスタの個数が増えても、必要な演算量やメモリ量を抑制することができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による話者適応化装置を示す構成図であり、図において、不特定話者モデル記憶部1は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、多数の話者の音声データを学習することにより得られる不特定話者モデルを記憶している。なお、不特定話者モデル記憶部1は不特定話者モデル記憶手段を構成している。
固有ベクトル記憶部2は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、話者空間に対する固有ベクトルを記憶している。なお、固有ベクトル記憶部2は固有ベクトル記憶手段を構成している。
話者クラスタ参照ベクトル記憶部3は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルを記憶している。なお、話者クラスタ参照ベクトル記憶部3は話者クラスタ参照ベクトル記憶手段を構成している。
図1はこの発明の実施の形態1による話者適応化装置を示す構成図であり、図において、不特定話者モデル記憶部1は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、多数の話者の音声データを学習することにより得られる不特定話者モデルを記憶している。なお、不特定話者モデル記憶部1は不特定話者モデル記憶手段を構成している。
固有ベクトル記憶部2は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、話者空間に対する固有ベクトルを記憶している。なお、固有ベクトル記憶部2は固有ベクトル記憶手段を構成している。
話者クラスタ参照ベクトル記憶部3は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルを記憶している。なお、話者クラスタ参照ベクトル記憶部3は話者クラスタ参照ベクトル記憶手段を構成している。
写像ベクトル算出部4は例えばMPUなどを実装している半導体集積回路基板から構成されており、不特定話者モデル記憶部1に記憶されている不特定話者モデルのパラメータ及び音声認識装置から出力された音声認識結果(または、正解文字列)を用いて、ユーザの音響特徴量を固有ベクトル記憶部2に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する処理を実施する。なお、写像ベクトル算出部4は写像ベクトル算出手段を構成している。
因みに、写像ベクトル算出部4では、話者適応化装置を教師なしで用いる場合は音声認識結果が入力され、話者適応化装置を教師ありで用いる場合は正解文字列が入力されることになる。
因みに、写像ベクトル算出部4では、話者適応化装置を教師なしで用いる場合は音声認識結果が入力され、話者適応化装置を教師ありで用いる場合は正解文字列が入力されることになる。
話者クラスタ選択部5は例えばMPUなどを実装している半導体集積回路基板から構成されており、話者クラスタ参照ベクトル記憶部3に記憶されている参照ベクトルの中で、写像ベクトル算出部4により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択する処理を実施する。なお、話者クラスタ選択部5は話者クラスタ選択手段を構成している。
図1の例では、話者適応化装置の構成要素である写像ベクトル算出部4及び話者クラスタ選択部5がそれぞれ専用のハードウェアで構成されているものを想定しているが、例えば、話者適応化装置がコンピュータで構成される場合、写像ベクトル算出部4及び話者クラスタ選択部5の処理内容を示すプログラムをコンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにしてもよい。
図4はこの発明の実施の形態1による話者適応化装置の処理内容を示すフローチャートである。
図4はこの発明の実施の形態1による話者適応化装置の処理内容を示すフローチャートである。
次に動作について説明する。
不特定話者モデル記憶部1には、予め、多数の話者の音声データを学習することにより得られる不特定話者モデルが記憶されている。
例えば、不特定話者モデルがHMM(Hidden Markov Model)のモデルである場合、例えば、ML(Maximum Likelihood)法で学習された音素毎の平均ベクトル、共分散行列、遷移確率や分岐確率が、不特定話者モデルのパラメータとして記憶される。
不特定話者モデル記憶部1には、予め、多数の話者の音声データを学習することにより得られる不特定話者モデルが記憶されている。
例えば、不特定話者モデルがHMM(Hidden Markov Model)のモデルである場合、例えば、ML(Maximum Likelihood)法で学習された音素毎の平均ベクトル、共分散行列、遷移確率や分岐確率が、不特定話者モデルのパラメータとして記憶される。
固有ベクトル記憶部2には、予め、話者空間に対する固有ベクトルが記憶されている。
話者空間に対する固有ベクトルは、以下の手順で算出される。
(1)不特定話者モデルを初期モデルとして、学習データの各話者(N人)別に音響パラメータを再学習する。
このとき、話者pの音素mの平均ベクトルをμp m、共分散行列をCp mとする。また、話者pの音素mの学習データ量Lp mを記憶する。
(2)話者pの音素mの平均ベクトルμp mをm=1〜Mまで並べたベクトルを話者pの話者ベクトルXpとして、話者ベクトルXp(p=1〜N)の共分散行列のK個の固有ベクトルe(k)(k=1〜K)を算出する。
話者空間に対する固有ベクトルは、以下の手順で算出される。
(1)不特定話者モデルを初期モデルとして、学習データの各話者(N人)別に音響パラメータを再学習する。
このとき、話者pの音素mの平均ベクトルをμp m、共分散行列をCp mとする。また、話者pの音素mの学習データ量Lp mを記憶する。
(2)話者pの音素mの平均ベクトルμp mをm=1〜Mまで並べたベクトルを話者pの話者ベクトルXpとして、話者ベクトルXp(p=1〜N)の共分散行列のK個の固有ベクトルe(k)(k=1〜K)を算出する。
ここで、図2は話者空間に対する固有ベクトルを示す説明図である。
図2において、“●”の点は、話者空間に対する各話者の位置を示している。
各話者の座標を話者ベクトルとして固有ベクトルを算出すると点線のようになる。つまり、話者空間に対する固有ベクトルは、最も分散が大きい方向を軸と定めて、話者空間を写像したものである。
図2において、“●”の点は、話者空間に対する各話者の位置を示している。
各話者の座標を話者ベクトルとして固有ベクトルを算出すると点線のようになる。つまり、話者空間に対する固有ベクトルは、最も分散が大きい方向を軸と定めて、話者空間を写像したものである。
話者クラスタ参照ベクトル記憶部3には、予め、多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルが記憶されている。
話者クラスタの参照ベクトルは、以下の手順で算出される。
(1)不特定話者モデルを初期モデルとして、EigenVoice法を実施することにより、各学習話者に対する適応化処理を行う。
EigenVoice法については、以下の非特許文献2に開示されている。
「EIGENVOICES FOR SPEAKER ADAPTATION」ICSLP−98,pp.1771−1774,1998
話者クラスタの参照ベクトルは、以下の手順で算出される。
(1)不特定話者モデルを初期モデルとして、EigenVoice法を実施することにより、各学習話者に対する適応化処理を行う。
EigenVoice法については、以下の非特許文献2に開示されている。
「EIGENVOICES FOR SPEAKER ADAPTATION」ICSLP−98,pp.1771−1774,1998
EigenVoice法では、下記の式(1)の連立方程式を解くことにより、固有ベクトルe(k)の重みw(k)を算出する。
ただし、em(k)は固有ベクトルe(k)の音素mに対応する要素、Cmは不特定話者モデルにおける音素mの共分散行列、γm(t)は時刻tにおいて音素mに存在する事後確率、otは時刻tの適応化用の特徴量ベクトルである。
また、Mは音素数、Kは特徴量の次元数、Tは適応化データの総フレーム数である。
また、Mは音素数、Kは特徴量の次元数、Tは適応化データの総フレーム数である。
(2)例えば、LBGアルゴリズムを実施して、固有ベクトルe(k)の重みw(k)に対するクラスタリングを行う。
(3)同一クラスタ内の話者モデルを合成して各話者クラスタのモデルを合成する。また、同一クラスタ内の写像ベクトルの平均ベクトルを各クラスタの参照ベクトルとする。
なお、後述する距離値計算のために、同一クラスタ内の写像ベクトルの分散ベクトルを記憶しておくようにする。
(3)同一クラスタ内の話者モデルを合成して各話者クラスタのモデルを合成する。また、同一クラスタ内の写像ベクトルの平均ベクトルを各クラスタの参照ベクトルとする。
なお、後述する距離値計算のために、同一クラスタ内の写像ベクトルの分散ベクトルを記憶しておくようにする。
ここで、図3は話者クラスタの参照ベクトルの算出手順を示す説明図である。
各学習話者の音響特徴量を固有ベクトルが張る空間に写像した後にクラスタリングを行うことで、クラスタリングに要する処理時間やクラスタリング精度を改善することができる。
上記の例では、同一クラスタ内の写像ベクトルの平均ベクトルを話者クラスタの参照ベクトルを記憶するようにしているが、同一クラスタ内の各話者の写像ベクトルを話者クラスタの参照ベクトルとして記憶しておくようにしてもよい。
各学習話者の音響特徴量を固有ベクトルが張る空間に写像した後にクラスタリングを行うことで、クラスタリングに要する処理時間やクラスタリング精度を改善することができる。
上記の例では、同一クラスタ内の写像ベクトルの平均ベクトルを話者クラスタの参照ベクトルを記憶するようにしているが、同一クラスタ内の各話者の写像ベクトルを話者クラスタの参照ベクトルとして記憶しておくようにしてもよい。
写像ベクトル算出部4は、図示せぬ音声認識装置から音声認識結果(または、正解文字列)を受けると、不特定話者モデル記憶部1に記憶されている不特定話者モデルのパラメータと、その音声認識結果(または、正解文字列)とを用いて、ユーザの音響特徴量を固有ベクトル記憶部2に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する。
具体的には、以下の通りである。
具体的には、以下の通りである。
写像ベクトル算出部4は、図示せぬ音声認識装置から出力された音声認識結果(または、正解文字列)をリファレンスとして、ユーザの音響特徴量の時系列を音素毎にセグメンテーションする(ステップST1)。
音響特徴量の時系列のセグメンテーションは、例えば、Viterbiアルゴリズムを実施することにより行う。
Viterbiアルゴリズムは、音声特徴量の時系列[o(1),o(2),・・・o(t)]に対する1本の最適状態系列[q(1),q(2),・・・,q(t)]を算出するものである。
例えば、リファレンスが4つの音素からなり、1音素当り1状態のHMMであるとすると、各状態はs1〜s4で表現することができる。
ここで、Viterbiアルゴリズムによる最適パスが[s1,s1,s2,s3,s4,s4]であるならば、時刻1〜2が状態1、時刻3が状態2、時刻4が状態3、時刻5〜6が状態4にセグメンテーションされる。
音響特徴量の時系列のセグメンテーションは、例えば、Viterbiアルゴリズムを実施することにより行う。
Viterbiアルゴリズムは、音声特徴量の時系列[o(1),o(2),・・・o(t)]に対する1本の最適状態系列[q(1),q(2),・・・,q(t)]を算出するものである。
例えば、リファレンスが4つの音素からなり、1音素当り1状態のHMMであるとすると、各状態はs1〜s4で表現することができる。
ここで、Viterbiアルゴリズムによる最適パスが[s1,s1,s2,s3,s4,s4]であるならば、時刻1〜2が状態1、時刻3が状態2、時刻4が状態3、時刻5〜6が状態4にセグメンテーションされる。
次に、写像ベクトル算出部4は、上記のセグメンテーション結果と、ユーザの音声特徴量と、不特定話者モデル記憶部1に記憶されている不特定話者モデルのパラメータと、固有ベクトル記憶部2に記憶されている固有ベクトルとを用いて、適応化話者の固有ベクトルが張る空間への写像ベクトルWを算出する(ステップST2)。
なお、適応化話者の写像ベクトルWは、話者のクラスタリングを実施する場合と同様に、上記の式(1)によるEigenVoice法で適応化処理を実施することにより算出することができる。
なお、適応化話者の写像ベクトルWは、話者のクラスタリングを実施する場合と同様に、上記の式(1)によるEigenVoice法で適応化処理を実施することにより算出することができる。
話者クラスタ選択部5は、写像ベクトル算出部4が写像ベクトルWを算出すると、話者クラスタ参照ベクトル記憶部3に記憶されている参照ベクトルの中で、その写像ベクトルWとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択する。
具体的には、以下の通りである。
具体的には、以下の通りである。
話者クラスタ選択部5は、写像ベクトル算出部4が写像ベクトルWを算出すると、話者クラスタ数カウンタiを“0”、最小距離値min_disを“MAX_VAL”、最小距離値となるクラスタのIDであるmin_idを“−1”とする初期化を実施する(ステップST3)。
話者クラスタ選択部5は、話者クラスタ数カウンタiと話者クラスタ数Nを比較し、話者クラスタ数カウンタiが話者クラスタ数Nよりも小さければ、後述するステップST5の処理に移行し、話者クラスタ数カウンタiが話者クラスタ数Nよりも小さくなければ、後述するステップST9の処理に移行する(ステップST4)。
なお、同一クラスタ内の各話者の写像ベクトルを話者クラスタの参照ベクトルとして記憶しておく場合は、Nを総学習話者数に置き換えて同様の処理を行う。
なお、同一クラスタ内の各話者の写像ベクトルを話者クラスタの参照ベクトルとして記憶しておく場合は、Nを総学習話者数に置き換えて同様の処理を行う。
話者クラスタ選択部5は、話者クラスタ数カウンタiが話者クラスタ数Nよりも小さい場合、写像ベクトル算出部4により算出された写像ベクトルWと、話者クラスタ参照ベクトル記憶部3に記憶されている話者クラスタiの参照ベクトルYiの距離値Diを以下の式(2)で算出する(ステップST5)。
ただし、λkはk番目の固有ベクトルに対応する固有値、Siは参照ベクトルYiの分散ベクトルである。
次に、話者クラスタ選択部5は、距離値Diと現時点までの最小距離値min_disを比較し、距離値Diが最小距離値min_disより小さければ、ステップST7の処理に移行し、距離値Diが最小距離値min_disより小さくなければ、ステップST8の処理に移行する(ステップST6)。
話者クラスタ選択部5は、距離値Diが最小距離値min_disより小さければ、現時点までの最小距離値min_disに距離値Diを代入して、その最小距離値min_disを更新する。
また、最小距離値となるクラスタのIDであるmin_idに話者クラスタ数カウンタiを代入する(ステップST7)。
話者クラスタ選択部5は、話者クラスタ数カウンタiを1インクリメントして、ステップST4の処理に戻る(ステップST8)。
また、最小距離値となるクラスタのIDであるmin_idに話者クラスタ数カウンタiを代入する(ステップST7)。
話者クラスタ選択部5は、話者クラスタ数カウンタiを1インクリメントして、ステップST4の処理に戻る(ステップST8)。
話者クラスタ選択部5は、話者クラスタ数カウンタiと話者クラスタ数Nを比較し、話者クラスタ数カウンタiが話者クラスタ数Nよりも小さくなくなると、ステップST9の処理に移行する(ステップST4)。
話者クラスタ選択部5は、話者クラスタ数カウンタiが話者クラスタ数Nよりも小さくなくなると、最小距離値となるクラスタのIDであるmin_idを最近傍話者クラスタのIDとして出力する(ステップST9)。
話者クラスタ選択部5は、話者クラスタ数カウンタiが話者クラスタ数Nよりも小さくなくなると、最小距離値となるクラスタのIDであるmin_idを最近傍話者クラスタのIDとして出力する(ステップST9)。
以上で明らかなように、この実施の形態1によれば、不特定話者モデル記憶部1に記憶されている不特定話者モデルを用いて、ユーザの音響特徴量を固有ベクトル記憶部2に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルWを算出する写像ベクトル算出部4を設け、話者クラスタ選択部5が話者クラスタ参照ベクトル記憶部3に記憶されている話者クラスタiの参照ベクトルYiの中で、写像ベクトル算出部4により算出された写像ベクトルWとの距離値Diが最も短い参照ベクトルYiを検索し、その参照ベクトルYiに係る話者クラスタのIDを出力するように構成したので、話者クラスタの個数が増えても、必要な演算量やメモリ量を抑制することができる効果を奏する。
即ち、この実施の形態1によれば、適応化話者の音響特徴量を固有ベクトルが張る空間に写像した上で最近傍となる話者クラスタを選択するようにしているため、話者クラスタを選択するに際して、話者クラスタモデルの音響パラメータを必要としない。
このため、必要なメモリ量は、固有ベクトルe(k)のサイズと、不特定話者モデルのサイズと、話者クラスタiの参照ベクトルYiとの和となり、話者クラスタの数が大きい場合には、従来の話者適応化装置と比較して、選択に必要な演算量やメモリ量を削減することが可能となる。
このため、必要なメモリ量は、固有ベクトルe(k)のサイズと、不特定話者モデルのサイズと、話者クラスタiの参照ベクトルYiとの和となり、話者クラスタの数が大きい場合には、従来の話者適応化装置と比較して、選択に必要な演算量やメモリ量を削減することが可能となる。
例えば、1つの話者クラスタモデルがM音素L混合D次元のHMMである場合、1クラスタ当りに必要なパラメータ数はML(D(D+1)+1)となるので、話者クラスタ数がNの場合には、従来の話者適応化装置では、必要なパラメータ数は不特定話者モデル分を足して、(N+1)×ML(D(D+1)+1)となる。
これに対して、この実施の形態1における話者適応化装置では、固有ベクトル数をKとすると、固有ベクトルのパラメータ数がMLDK、参照ベクトルのパラメータ数がNKであるため、不特定話者モデル分を足して、合計MLDK+ML(D(D+1)+1)+NKとなる。
これに対して、この実施の形態1における話者適応化装置では、固有ベクトル数をKとすると、固有ベクトルのパラメータ数がMLDK、参照ベクトルのパラメータ数がNKであるため、不特定話者モデル分を足して、合計MLDK+ML(D(D+1)+1)+NKとなる。
したがって、例えば、M=316,L=8,D=39,N=100,K=20とすると、従来の話者適応化装置では、必要なパラメータ数が4億個弱であるのに対し、この実施の形態1における話者適応化装置では、必要なパラメータ数が600万個程度であり、約1/70に圧縮している。
また、予め、多数話者の話者ベクトルから固有ベクトルを算出することは話者間の差異が小さい次元を圧縮することと等価であり、固有ベクトルの数を適切に選択すれば、従来の話者適応化装置による話者クラスタ選択と比較して、適応化性能の低下は殆どない。
また、予め、多数話者の話者ベクトルから固有ベクトルを算出することは話者間の差異が小さい次元を圧縮することと等価であり、固有ベクトルの数を適切に選択すれば、従来の話者適応化装置による話者クラスタ選択と比較して、適応化性能の低下は殆どない。
なお、この実施の形態1では、適応化対象となる不特定話者モデルの認識最小単位を音素として説明しているが、これに限るものではなく、例えば、認識最小単位が音節であってもよい。
実施の形態2.
図5はこの発明の実施の形態2による話者適応化装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
話者クラスタモデル記憶部6は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶している。なお、話者クラスタモデル記憶部6は話者クラスタモデル記憶手段を構成している。
図5はこの発明の実施の形態2による話者適応化装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
話者クラスタモデル記憶部6は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶している。なお、話者クラスタモデル記憶部6は話者クラスタモデル記憶手段を構成している。
話者クラスタ適応化部7は例えばMPUなどを実装している半導体集積回路基板から構成されており、話者クラスタモデル記憶部6から話者クラスタ選択部5により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部2に記憶されている固有ベクトルe(k)と写像ベクトル算出部4により算出された写像ベクトルWを用いて、その話者クラスタモデルの音響パラメータを適応化する処理を実施する。即ち、固有ベクトル記憶部2に記憶されている固有ベクトルe(k)と写像ベクトル算出部4により算出された写像ベクトルWを合成し、合成後のベクトルと話者クラスタモデルの音響パラメータとの重み付け和を適応化パラメータとして、その話者クラスタモデルの音響パラメータを更新する。重み係数は、写像ベクトル算出部4により音響特徴量の写像ベクトルWが算出される際に使用されたユーザの音素毎のデータ量(以下、「適応化データ量」と称する)と、多数の話者をクラスタリングして、話者クラスタの参照ベクトルを得る際に使用された話者の音素毎のデータ量(以下、「学習データ量」と称する)から決定する。
なお、話者クラスタ適応化部7は話者クラスタ適応化手段を構成している。
なお、話者クラスタ適応化部7は話者クラスタ適応化手段を構成している。
適応化話者クラスタ記憶部8は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、話者クラスタ適応化部7により適応化された話者クラスタモデルの音響パラメータを記憶している。
図6はこの発明の実施の形態2による話者適応化装置の処理内容を示すフローチャートである。
図6はこの発明の実施の形態2による話者適応化装置の処理内容を示すフローチャートである。
上記実施の形態1では、話者クラスタ選択部5が最近傍話者の話者クラスタを選択するものについて示したが、この実施の形態2では、最近傍話者の話者クラスタを選択するだけではなく、話者クラスタモデルの音響パラメータを適応化して、さらに、音声認識性能を高めるようにしている。
次に動作について説明する。
話者クラスタモデル記憶部6には、予め、多数の話者をクラスタリングすることにより得られる話者クラスタモデルが記憶されている。
例えば、話者クラスタモデルがHMMのモデルである場合、例えば、ML法で学習された音素毎の平均ベクトル、共分散行列、遷移確率や分岐確率が、話者クラスタモデルのパラメータとして記憶される。
話者クラスタモデル記憶部6には、予め、多数の話者をクラスタリングすることにより得られる話者クラスタモデルが記憶されている。
例えば、話者クラスタモデルがHMMのモデルである場合、例えば、ML法で学習された音素毎の平均ベクトル、共分散行列、遷移確率や分岐確率が、話者クラスタモデルのパラメータとして記憶される。
なお、話者クラスタ参照ベクトル記憶部3には、上記実施の形態1と同様に、多数の話者をクラスタリングすることにより得られる話者クラスタiの参照ベクトルYiが記憶されているが、この実施の形態2では、多数の話者をクラスタリングして、話者クラスタiの参照ベクトルYiを得る際に使用された話者の音素毎のデータ量である学習データ量も記憶されている。
写像ベクトル算出部4は、図示せぬ音声認識装置から音声認識結果(または、正解文字列)を受けると、上記実施の形態1と同様に、不特定話者モデル記憶部1に記憶されている不特定話者モデルのパラメータと、その音声認識結果(または、正解文字列)とを用いて、ユーザの音響特徴量を固有ベクトル記憶部2に記憶されている固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルWを算出する(ステップST1〜ST2)。
ただし、この実施の形態2では、写像ベクトル算出部4は、写像ベクトルWの他に、その写像ベクトルWを算出する際に用いた音素毎のデータ量である適応化データ量を出力する。
ただし、この実施の形態2では、写像ベクトル算出部4は、写像ベクトルWの他に、その写像ベクトルWを算出する際に用いた音素毎のデータ量である適応化データ量を出力する。
話者クラスタ選択部5は、写像ベクトル算出部4が写像ベクトルWを算出すると、上記実施の形態1と同様に、話者クラスタ参照ベクトル記憶部3に記憶されている話者クラスタiの参照ベクトルYiの中で、その写像ベクトルWとの距離が最も短い参照ベクトルYiを検索し、その参照ベクトルYiに係る話者クラスタを選択する(ステップST3〜ST9)。
話者クラスタ適応化部7は、話者クラスタ選択部5が話者クラスタを選択すると、話者クラスタモデル記憶部6から話者クラスタ選択部5により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部2に記憶されている固有ベクトルe(k)と写像ベクトル算出部4により算出された写像ベクトルWを用いて、その話者クラスタモデルの音響パラメータを適応化する。
具体的には、以下の通りである。
具体的には、以下の通りである。
話者クラスタ適応化部7は、話者クラスタ選択部5から最近傍話者クラスタのIDであるmin_idを受けると、話者クラスタモデル記憶部6からmin_idに対応する話者クラスタモデルの音響パラメータと学習データ量の読み出しを行う(ステップST10)。
例えば、話者クラスタモデルがHMMのモデルである場合には、音素m毎の平均ベクトルμmと共分散行列Cmの読み出しを行う。
例えば、話者クラスタモデルがHMMのモデルである場合には、音素m毎の平均ベクトルμmと共分散行列Cmの読み出しを行う。
次に、話者クラスタ適応化部7は、固有ベクトル記憶部2に記憶されている固有ベクトルe(k)と写像ベクトル算出部4により算出された写像ベクトルWを以下の式(3)に代入して、音素mに対する適応化ベクトルVmを算出する(ステップST11)。
次に、話者クラスタ適応化部7は、話者クラスタモデルの音素mの学習データ量Lmと音素mの適応化データ量Amを以下の式(4)に代入して、適応化後の平均ベクトルμ^mを算出する(ステップST12)。
式(4)によれば、学習データ量Lmと比較して、適応化データ量Amが少ない場合には、元の話者クラスタの音響パラメータが選択され、学習データ量Lmと比較して、適応化データ量Amが多い場合には、適応化ベクトルVmに近い音響パラメータが選択されることになり、適応化データ量Amに依存しない頑健な適応化を行うことができる。
話者クラスタ適応化部7は、最近傍話者クラスタの平均ベクトルμmを適応化後の平均ベクトルμ^mで置き換えたものを適応化後の話者クラスタの音響パラメータとして、適応化話者クラスタ記憶部8に記憶する(ステップST13)。
以上で明らかなように、この実施の形態2によれば、話者クラスタモデル記憶部6から話者クラスタ選択部5により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部2に記憶されている固有ベクトルe(k)と写像ベクトル算出部4により算出された写像ベクトルWを用いて、その話者クラスタモデルの音響パラメータを適応化するように構成したので、最近傍話者の話者クラスタを選択するだけでは、音声認識性能の改善が小さい場合でも、演算量やメモリ量の増加を招くことなく、音声認識性能を改善することができる効果を奏する。
実施の形態3.
図7はこの発明の実施の形態3による話者適応化装置を示す構成図であり、図において、不特定話者モデル記憶部11は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別に多数の話者の音声データを学習することにより得られる性別依存性の不特定話者モデルを記憶している。なお、不特定話者モデル記憶部11は不特定話者モデル記憶手段を構成している。
固有ベクトル記憶部12は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別の話者空間に対する性別依存性の固有ベクトルを記憶している。なお、固有ベクトル記憶部12は固有ベクトル記憶手段を構成している。
図7はこの発明の実施の形態3による話者適応化装置を示す構成図であり、図において、不特定話者モデル記憶部11は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別に多数の話者の音声データを学習することにより得られる性別依存性の不特定話者モデルを記憶している。なお、不特定話者モデル記憶部11は不特定話者モデル記憶手段を構成している。
固有ベクトル記憶部12は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別の話者空間に対する性別依存性の固有ベクトルを記憶している。なお、固有ベクトル記憶部12は固有ベクトル記憶手段を構成している。
話者クラスタ参照ベクトル記憶部13は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルを記憶している。なお、話者クラスタ参照ベクトル記憶部13は話者クラスタ参照ベクトル記憶手段を構成している。
性別判別部14は例えばMPUなどを実装している半導体集積回路基板から構成されており、ユーザの音響特徴量からユーザの性別を判別する処理を実施する。なお、性別判別部14は性別判別手段を構成している。
性別判別部14は例えばMPUなどを実装している半導体集積回路基板から構成されており、ユーザの音響特徴量からユーザの性別を判別する処理を実施する。なお、性別判別部14は性別判別手段を構成している。
写像ベクトル算出部15は例えばMPUなどを実装している半導体集積回路基板から構成されており、不特定話者モデル記憶部11から性別判別部14により判別されたユーザの性別に属する不特定話者モデルを取得するとともに、固有ベクトル記憶部12からユーザの性別に属する固有ベクトルを取得し、その不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する処理を実施する。なお、写像ベクトル算出部15は写像ベクトル算出手段を構成している。
因みに、写像ベクトル算出部15では、話者適応化装置を教師なしで用いる場合は音声認識結果が入力され、話者適応化装置を教師ありで用いる場合は正解文字列が入力されることになる。
因みに、写像ベクトル算出部15では、話者適応化装置を教師なしで用いる場合は音声認識結果が入力され、話者適応化装置を教師ありで用いる場合は正解文字列が入力されることになる。
話者クラスタ選択部16は例えばMPUなどを実装している半導体集積回路基板から構成されており、話者クラスタ参照ベクトル記憶部13に記憶されている参照ベクトルのうち、性別判別部14により判別されたユーザの性別に属する参照ベクトルの中で、写像ベクトル算出部15により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択する処理を実施する。なお、話者クラスタ選択部16は話者クラスタ選択手段を構成している。
図7の例では、話者適応化装置の構成要素である写像ベクトル算出部15及び話者クラスタ選択部16がそれぞれ専用のハードウェアで構成されているものを想定しているが、例えば、話者適応化装置がコンピュータで構成される場合、写像ベクトル算出部15及び話者クラスタ選択部16の処理内容を示すプログラムをコンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにしてもよい。
図8はこの発明の実施の形態3による話者適応化装置の処理内容を示すフローチャートである。
図8はこの発明の実施の形態3による話者適応化装置の処理内容を示すフローチャートである。
次に動作について説明する。
一般に話者クラスタリングは性別毎に実施することにより、その精度を高めることができる。
この実施の形態3では、話者適応化処理を実施する前に、ユーザの性別を区別することで、話者適応化による音声認識性能の改善率を高めることを目的としている。
一般に話者クラスタリングは性別毎に実施することにより、その精度を高めることができる。
この実施の形態3では、話者適応化処理を実施する前に、ユーザの性別を区別することで、話者適応化による音声認識性能の改善率を高めることを目的としている。
不特定話者モデル記憶部11には、図1の不特定話者モデル記憶部1と同様に、不特定話者モデルが記憶されるが、図1の不特定話者モデル記憶部1と異なり、男女別に多数の話者の音声データを学習することにより得られる性別依存性の不特定話者モデルが記憶される。
また、固有ベクトル記憶部12には、図1の固有ベクトル記憶部2と同様の手順で算出される固有ベクトルが記憶されるが、図1の固有ベクトル記憶部2と異なり、男女別の話者空間に対する性別依存性の固有ベクトルが記憶される。
また、話者クラスタ参照ベクトル記憶部13には、図1の話者クラスタ参照ベクトル記憶部3と同様の手順で算出される話者クラスタの参照ベクトルが記憶されるが、図1の話者クラスタ参照ベクトル記憶部3と異なり、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルが記憶される。
また、固有ベクトル記憶部12には、図1の固有ベクトル記憶部2と同様の手順で算出される固有ベクトルが記憶されるが、図1の固有ベクトル記憶部2と異なり、男女別の話者空間に対する性別依存性の固有ベクトルが記憶される。
また、話者クラスタ参照ベクトル記憶部13には、図1の話者クラスタ参照ベクトル記憶部3と同様の手順で算出される話者クラスタの参照ベクトルが記憶されるが、図1の話者クラスタ参照ベクトル記憶部3と異なり、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルが記憶される。
性別判別部14は、ユーザの音響特徴量を受けると、例えば、VQ(Vector Quantization)の手法を用いて、ユーザの音響特徴量からユーザの性別を判別する(ステップST21)。
ただし、例えば、ユーザ情報からユーザの性別が明示的に分かる場合には、その性別を性別判別部14が判別した性別とすることも可能である。
ただし、例えば、ユーザ情報からユーザの性別が明示的に分かる場合には、その性別を性別判別部14が判別した性別とすることも可能である。
写像ベクトル算出部15は、性別判別部14がユーザの性別を判別すると、不特定話者モデル記憶部11からユーザの性別に属する不特定話者モデルを取得するとともに、固有ベクトル記憶部12からユーザの性別に属する固有ベクトルを取得し、その不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する。
具体的には、以下の通りである。
具体的には、以下の通りである。
写像ベクトル算出部15は、図示せぬ音声認識装置から出力された音声認識結果(または、正解文字列)をリファレンスとして、ユーザの音響特徴量の時系列を音素毎にセグメンテーションする(ステップST22)。
音響特徴量の時系列のセグメンテーションは、例えば、Viterbiアルゴリズムを実施することにより行う。
Viterbiアルゴリズムは、音声特徴量の時系列[o(1),o(2),・・・o(t)]に対する1本の最適状態系列[q(1),q(2),・・・,q(t)]を算出するものである。
例えば、リファレンスが4つの音素からなり、1音素当り1状態のHMMであるとすると、各状態はs1〜s4で表現することができる。
ここで、Viterbiアルゴリズムによる最適パスが[s1,s1,s2,s3,s4,s4]であるならば、時刻1〜2が状態1、時刻3が状態2、時刻4が状態3、時刻5〜6が状態4にセグメンテーションされる。
音響特徴量の時系列のセグメンテーションは、例えば、Viterbiアルゴリズムを実施することにより行う。
Viterbiアルゴリズムは、音声特徴量の時系列[o(1),o(2),・・・o(t)]に対する1本の最適状態系列[q(1),q(2),・・・,q(t)]を算出するものである。
例えば、リファレンスが4つの音素からなり、1音素当り1状態のHMMであるとすると、各状態はs1〜s4で表現することができる。
ここで、Viterbiアルゴリズムによる最適パスが[s1,s1,s2,s3,s4,s4]であるならば、時刻1〜2が状態1、時刻3が状態2、時刻4が状態3、時刻5〜6が状態4にセグメンテーションされる。
次に、写像ベクトル算出部15は、上記のセグメンテーション結果と、ユーザの音声特徴量と、不特定話者モデル記憶部1に記憶されている不特定話者モデルのうち、性別判別部14により判別されたユーザの性別に属する不特定話者モデルのパラメータと、固有ベクトル記憶部2に記憶されている固有ベクトルのうち、性別判別部14により判別されたユーザの性別に属する固有ベクトルとを用いて、適応化話者の固有ベクトルが張る空間への写像ベクトルWを算出する(ステップST23)。
なお、適応化話者の写像ベクトルWは、話者のクラスタリングを実施する場合と同様に、上記の式(1)によるEigenVoice法で適応化処理を実施することにより算出することができる。
なお、適応化話者の写像ベクトルWは、話者のクラスタリングを実施する場合と同様に、上記の式(1)によるEigenVoice法で適応化処理を実施することにより算出することができる。
話者クラスタ選択部16は、写像ベクトル算出部15が写像ベクトルWを算出すると、話者クラスタ参照ベクトル記憶部13に記憶されている参照ベクトルのうち、性別判別部14により判別されたユーザの性別に属する参照ベクトルの中で、その写像ベクトルWとの距離が最も短い参照ベクトルを検索し、その参照ベクトルに係る話者クラスタを選択する。
具体的には、以下の通りである。
具体的には、以下の通りである。
話者クラスタ選択部16は、写像ベクトル算出部15が写像ベクトルWを算出すると、話者クラスタ数カウンタiを“0”、最小距離値min_disを“MAX_VAL”、最小距離値となるクラスタのIDであるmin_idを“−1”とする初期化を実施する(ステップST24)。
なお、話者クラスタIDは、予め、ユーザが属する性別毎にソートされているものとして、話者クラスタ数カウンタiには、性別判別部14により判別された性別に属する話者クラスタの先頭IDであるid_startを代入する。
なお、話者クラスタIDは、予め、ユーザが属する性別毎にソートされているものとして、話者クラスタ数カウンタiには、性別判別部14により判別された性別に属する話者クラスタの先頭IDであるid_startを代入する。
話者クラスタ選択部16は、話者クラスタ数カウンタiと、ユーザの性別に属する話者クラスタの最終IDであるid_endとを比較し、話者クラスタ数カウンタiが話者クラスタの最終IDであるid_endよりも小さければ、後述するステップST26の処理に移行し、話者クラスタ数カウンタiが話者クラスタの最終IDであるid_endよりも小さくなければ、後述するステップST30の処理に移行する(ステップST25)。
話者クラスタ選択部16は、話者クラスタ数カウンタiが話者クラスタの最終IDであるid_endよりも小さい場合、写像ベクトル算出部15により算出された写像ベクトルWと、話者クラスタ参照ベクトル記憶部13に記憶されているユーザの性別に属する話者クラスタiの参照ベクトルYiの距離値Diを上記の式(2)で算出する(ステップST26)。
次に、話者クラスタ選択部16は、距離値Diと現時点までの最小距離値min_disを比較し、距離値Diが最小距離値min_disより小さければ、ステップST28の処理に移行し、距離値Diが最小距離値min_disより小さくなければ、ステップST29の処理に移行する(ステップST27)。
話者クラスタ選択部16は、距離値Diが最小距離値min_disより小さければ、現時点までの最小距離値min_disに距離値Diを代入して、その最小距離値min_disを更新する。
また、最小距離値となるクラスタのIDであるmin_idに話者クラスタ数カウンタiを代入する(ステップST28)。
話者クラスタ選択部16は、話者クラスタ数カウンタiを1インクリメントして、ステップST25の処理に戻る(ステップST29)。
また、最小距離値となるクラスタのIDであるmin_idに話者クラスタ数カウンタiを代入する(ステップST28)。
話者クラスタ選択部16は、話者クラスタ数カウンタiを1インクリメントして、ステップST25の処理に戻る(ステップST29)。
話者クラスタ選択部15は、話者クラスタ数カウンタiと、ユーザの性別に属する話者クラスタの最終IDであるid_endとを比較し、話者クラスタ数カウンタiが話者クラスタの最終IDであるid_endよりも小さくなくなると、ステップST30の処理に移行する(ステップST25)。
話者クラスタ選択部5は、話者クラスタ数カウンタiが話者クラスタの最終IDであるid_endよりも小さくなくなると、最小距離値となるクラスタのIDであるmin_idを最近傍話者クラスタのIDとして出力する(ステップST30)。
話者クラスタ選択部5は、話者クラスタ数カウンタiが話者クラスタの最終IDであるid_endよりも小さくなくなると、最小距離値となるクラスタのIDであるmin_idを最近傍話者クラスタのIDとして出力する(ステップST30)。
以上で明らかなように、この実施の形態3によれば、話者クラスタリング及び固有ベクトルの算出を男女別に行うようにしたので、上記実施の形態1よりも更に、クラスタリング及び固有ベクトルの精度を高めることができる。また、話者適応化時にはユーザの性別を判別した後、その性別に属する話者クラスタを選択するようにしたので、更に、話者適応化による音声認識性能を改善することができる効果を奏する。
実施の形態4.
図7はこの発明の実施の形態3による話者適応化装置を示す構成図であり、図において、図7と同一符号は同一または相当部分を示すので説明を省略する。
話者クラスタモデル記憶部17は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶している。なお、話者クラスタモデル記憶部17は話者クラスタモデル記憶手段を構成している。
図7はこの発明の実施の形態3による話者適応化装置を示す構成図であり、図において、図7と同一符号は同一または相当部分を示すので説明を省略する。
話者クラスタモデル記憶部17は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶している。なお、話者クラスタモデル記憶部17は話者クラスタモデル記憶手段を構成している。
話者クラスタ適応化部18は例えばMPUなどを実装している半導体集積回路基板から構成されており、話者クラスタモデル記憶部17から話者クラスタ選択部16により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部12に記憶されている固有ベクトルe(k)と写像ベクトル算出部15により算出された写像ベクトルWを用いて、その話者クラスタモデルの音響パラメータを適応化する処理を実施する。即ち、固有ベクトル記憶部12に記憶されている固有ベクトルe(k)と写像ベクトル算出部15により算出された写像ベクトルWを合成し、合成後のベクトルと話者クラスタモデルの音響パラメータとの重み付け和を適応化パラメータとして、その話者クラスタモデルの音響パラメータを更新する。重み係数は、写像ベクトル算出部15により音響特徴量の写像ベクトルWが算出される際に使用されたユーザの音素毎のデータ量である適応化データ量と、多数の話者をクラスタリングして、話者クラスタの参照ベクトルを得る際に使用された話者の音素毎のデータ量である学習データ量とから決定する。
なお、話者クラスタ適応化部18は話者クラスタ適応化手段を構成している。
なお、話者クラスタ適応化部18は話者クラスタ適応化手段を構成している。
適応化話者クラスタ記憶部19は例えば記憶素子、記憶回路又は記憶媒体などから構成されており、話者クラスタ適応化部18により適応化された話者クラスタモデルの音響パラメータを記憶している。
図10はこの発明の実施の形態4による話者適応化装置の処理内容を示すフローチャートである。
図10はこの発明の実施の形態4による話者適応化装置の処理内容を示すフローチャートである。
上記実施の形態3では、話者クラスタ選択部16が最近傍話者の話者クラスタを選択するものについて示したが、この実施の形態4では、最近傍話者の話者クラスタを選択するだけではなく、話者クラスタモデルの音響パラメータを適応化して、さらに、音声認識性能を高めるようにしている。
次に動作について説明する。
話者クラスタモデル記憶部17には、図5の話者クラスタモデル記憶部6と同様に、話者クラスタモデルが記憶されるが、図5の話者クラスタモデル記憶部6と異なり、男女別に多数の話者の音声データを学習することにより得られる性別依存性の話者クラスタモデルが記憶される。
話者クラスタモデル記憶部17には、図5の話者クラスタモデル記憶部6と同様に、話者クラスタモデルが記憶されるが、図5の話者クラスタモデル記憶部6と異なり、男女別に多数の話者の音声データを学習することにより得られる性別依存性の話者クラスタモデルが記憶される。
なお、話者クラスタ参照ベクトル記憶部13には、上記実施の形態3と同様に、多数の話者をクラスタリングすることにより得られる話者クラスタiの参照ベクトルYiが記憶されているが、この実施の形態4では、多数の話者をクラスタリングして、話者クラスタiの参照ベクトルYiを得る際に使用された話者の音素毎のデータ量である学習データ量も記憶されている。
性別判別部14は、ユーザの音響特徴量を受けると、上記実施の形態3と同様に、ユーザの音響特徴量からユーザの性別を判別する(ステップST21)。
写像ベクトル算出部15は、性別判別部14がユーザの性別を判別すると、上記実施の形態3と同様に、不特定話者モデル記憶部11からユーザの性別に属する不特定話者モデルを取得するとともに、固有ベクトル記憶部12からユーザの性別に属する固有ベクトルを取得し、その不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する(ステップST22〜ST23)。
ただし、この実施の形態4では、写像ベクトル算出部15は、写像ベクトルWの他に、その写像ベクトルWを算出する際に用いた音素毎のデータ量である適応化データ量を出力する。
写像ベクトル算出部15は、性別判別部14がユーザの性別を判別すると、上記実施の形態3と同様に、不特定話者モデル記憶部11からユーザの性別に属する不特定話者モデルを取得するとともに、固有ベクトル記憶部12からユーザの性別に属する固有ベクトルを取得し、その不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトルが張る空間に写像して、その音響特徴量の写像ベクトルを算出する(ステップST22〜ST23)。
ただし、この実施の形態4では、写像ベクトル算出部15は、写像ベクトルWの他に、その写像ベクトルWを算出する際に用いた音素毎のデータ量である適応化データ量を出力する。
話者クラスタ選択部16は、写像ベクトル算出部15が写像ベクトルWを算出すると、話者クラスタ参照ベクトル記憶部13に記憶されている参照ベクトルのうち、性別判別部14により判別されたユーザの性別に属する参照ベクトルの中で、その写像ベクトルWとの距離が最も短い参照ベクトルYiを検索し、その参照ベクトルYiに係る話者クラスタを選択する(ステップST24〜ST30)。
話者クラスタ適応化部18は、話者クラスタ選択部16が話者クラスタを選択すると、話者クラスタモデル記憶部17から話者クラスタ選択部16により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部12に記憶されている固有ベクトルe(k)と写像ベクトル算出部15により算出された写像ベクトルWを用いて、その話者クラスタモデルの音響パラメータを適応化する。
具体的には、以下の通りである。
具体的には、以下の通りである。
話者クラスタ適応化部18は、話者クラスタ選択部16から最近傍話者クラスタのIDであるmin_idを受けると、話者クラスタモデル記憶部17からmin_idに対応する話者クラスタモデルの音響パラメータと学習データ量の読み出しを行う(ステップST31)。
例えば、話者クラスタモデルがHMMのモデルである場合には、音素m毎の平均ベクトルμmと共分散行列Cmの読み出しを行う。
例えば、話者クラスタモデルがHMMのモデルである場合には、音素m毎の平均ベクトルμmと共分散行列Cmの読み出しを行う。
次に、話者クラスタ適応化部18は、固有ベクトル記憶部12に記憶されている固有ベクトルe(k)と写像ベクトル算出部15により算出された写像ベクトルWを上記の式(3)に代入して、音素mに対する適応化ベクトルVmを算出する(ステップST32)。
次に、話者クラスタ適応化部18は、話者クラスタモデルの音素mの学習データ量Lmと音素mの適応化データ量Amを上記の式(4)に代入して、適応化後の平均ベクトルμ^mを算出する(ステップST33)。
式(4)によれば、学習データ量Lmと比較して、適応化データ量Amが少ない場合には、元の話者クラスタの音響パラメータが選択され、学習データ量Lmと比較して、適応化データ量Amが多い場合には、適応化ベクトルVmに近い音響パラメータが選択されることになり、適応化データ量Amに依存しない頑健な適応化を行うことができる。
次に、話者クラスタ適応化部18は、話者クラスタモデルの音素mの学習データ量Lmと音素mの適応化データ量Amを上記の式(4)に代入して、適応化後の平均ベクトルμ^mを算出する(ステップST33)。
式(4)によれば、学習データ量Lmと比較して、適応化データ量Amが少ない場合には、元の話者クラスタの音響パラメータが選択され、学習データ量Lmと比較して、適応化データ量Amが多い場合には、適応化ベクトルVmに近い音響パラメータが選択されることになり、適応化データ量Amに依存しない頑健な適応化を行うことができる。
話者クラスタ適応化部18は、最近傍話者クラスタの平均ベクトルμmを適応化後の平均ベクトルμ^mで置き換えたものを適応化後の話者クラスタの音響パラメータとして、適応化話者クラスタ記憶部19に記憶する(ステップST34)。
以上で明らかなように、この実施の形態4によれば、話者クラスタモデル記憶部17から話者クラスタ選択部16により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶部12に記憶されている固有ベクトルe(k)と写像ベクトル算出部15により算出された写像ベクトルWを用いて、その話者クラスタモデルの音響パラメータを適応化するように構成したので、最近傍話者の話者クラスタを選択するだけでは、音声認識性能の改善が小さい場合でも、演算量やメモリ量の増加を招くことなく、音声認識性能を改善することができる効果を奏する。
1 不特定話者モデル記憶部(不特定話者モデル記憶手段)、2 固有ベクトル記憶部(固有ベクトル記憶手段)、3 話者クラスタ参照ベクトル記憶部(話者クラスタ参照ベクトル記憶手段)、4 写像ベクトル算出部(写像ベクトル算出手段)、5 話者クラスタ選択部(話者クラスタ選択手段)、6 話者クラスタモデル記憶部(話者クラスタモデル記憶手段)、7 話者クラスタ適応化部(話者クラスタ適応化手段)、8 適応化話者クラスタ記憶部、11 不特定話者モデル記憶部(不特定話者モデル記憶手段)、12 固有ベクトル記憶部(固有ベクトル記憶手段)、13 話者クラスタ参照ベクトル記憶部(話者クラスタ参照ベクトル記憶手段)、14 性別判別部(性別判別手段)、15 写像ベクトル算出部(写像ベクトル算出手段)、16 話者クラスタ選択部(話者クラスタ選択手段)、17 話者クラスタモデル記憶部(話者クラスタモデル記憶手段)、18 話者クラスタ適応化部(話者クラスタ適応化手段)、19 適応化話者クラスタ記憶部。
Claims (8)
- 多数の話者の音声データを学習することにより得られる不特定話者モデルを記憶する不特定話者モデル記憶手段と、話者空間に対する固有ベクトルを記憶する固有ベクトル記憶手段と、多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルを記憶する話者クラスタ参照ベクトル記憶手段と、上記不特定話者モデル記憶手段に記憶されている不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトル記憶手段に記憶されている固有ベクトルが張る空間に写像して、上記音響特徴量の写像ベクトルを算出する写像ベクトル算出手段と、上記話者クラスタ参照ベクトル記憶手段に記憶されている参照ベクトルの中で、上記写像ベクトル算出手段により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、上記参照ベクトルに係る話者クラスタを選択する話者クラスタ選択手段とを備えた話者適応化装置。
- 多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶する話者クラスタモデル記憶手段と、上記話者クラスタモデル記憶手段から話者クラスタ選択手段により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶手段に記憶されている固有ベクトルと写像ベクトル算出手段により算出された写像ベクトルを用いて、上記話者クラスタモデルの音響パラメータを適応化する話者クラスタ適応化手段とを設けたことを特徴とする請求項1記載の話者適応化装置。
- 男女別に多数の話者の音声データを学習することにより得られる性別依存性の不特定話者モデルを記憶する不特定話者モデル記憶手段と、男女別の話者空間に対する性別依存性の固有ベクトルを記憶する固有ベクトル記憶手段と、男女別に多数の話者をクラスタリングすることにより得られる話者クラスタの参照ベクトルを記憶する話者クラスタ参照ベクトル記憶手段と、ユーザの音響特徴量からユーザの性別を判別する性別判別手段と、上記不特定話者モデル記憶手段から上記性別判別手段により判別されたユーザの性別に属する不特定話者モデルを取得するとともに、上記固有ベクトル記憶手段からユーザの性別に属する固有ベクトルを取得し、上記不特定話者モデルを用いて、ユーザの音響特徴量を上記固有ベクトルが張る空間に写像して、上記音響特徴量の写像ベクトルを算出する写像ベクトル算出手段と、上記話者クラスタ参照ベクトル記憶手段に記憶されている参照ベクトルのうち、上記性別判別手段により判別されたユーザの性別に属する参照ベクトルの中で、上記写像ベクトル算出手段により算出された写像ベクトルとの距離が最も短い参照ベクトルを検索し、上記参照ベクトルに係る話者クラスタを選択する話者クラスタ選択手段とを備えた話者適応化装置。
- 男女別に多数の話者をクラスタリングすることにより得られる話者クラスタモデルを記憶する話者クラスタモデル記憶手段と、上記話者クラスタモデル記憶手段から話者クラスタ選択手段により選択された話者クラスタに対応する話者クラスタモデルの音響パラメータを取得し、固有ベクトル記憶手段に記憶されている固有ベクトルと写像ベクトル算出手段により算出された写像ベクトルを用いて、上記話者クラスタモデルの音響パラメータを適応化する話者クラスタ適応化手段とを設けたことを特徴とする請求項3記載の話者適応化装置。
- 話者クラスタ参照ベクトル記憶手段は、各話者クラスタに属する学習話者の音響特徴量が、話者空間に対する固有ベクトルが張る空間に写像されて算出された写像ベクトルを話者クラスタの参照ベクトルとして記憶することを特徴とする請求項1から請求項4のうちのいずれか1項記載の話者適応化装置。
- 話者クラスタ参照ベクトル記憶手段は、写像ベクトルの平均ベクトル及び分散ベクトルを記憶することを特徴とする請求項5記載の話者適応化装置。
- 話者クラスタ適応化手段は、固有ベクトル記憶手段に記憶されている固有ベクトルと写像ベクトル算出手段により算出された写像ベクトルを合成し、合成後のベクトルと話者クラスタモデルの音響パラメータとの重み付け和を適応化パラメータとして、上記話者クラスタモデルの音響パラメータを更新することを特徴とする請求項2または請求項4記載の話者適応化装置。
- 話者クラスタ適応化手段は、写像ベクトル算出手段により音響特徴量の写像ベクトルが算出される際に使用されたユーザの音素毎のデータ量と、多数の話者をクラスタリングして、話者クラスタの参照ベクトルを得る際に使用された話者の音素毎のデータ量から重み係数を決定して、合成後のベクトルと話者クラスタモデルの音響パラメータとの重み付け和を求めることを特徴とする請求項7記載の話者適応化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007054461A JP2008216672A (ja) | 2007-03-05 | 2007-03-05 | 話者適応化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007054461A JP2008216672A (ja) | 2007-03-05 | 2007-03-05 | 話者適応化装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008216672A true JP2008216672A (ja) | 2008-09-18 |
Family
ID=39836783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007054461A Pending JP2008216672A (ja) | 2007-03-05 | 2007-03-05 | 話者適応化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008216672A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473409A (zh) * | 2010-04-22 | 2012-05-23 | 松下电器产业株式会社 | 基准模型适应装置、集成电路、av设备、在线自适应方法以及其程序 |
JP2013037108A (ja) * | 2011-08-05 | 2013-02-21 | Nippon Telegr & Teleph Corp <Ntt> | 話者クラスタリング方法、話者クラスタリング装置、プログラム |
-
2007
- 2007-03-05 JP JP2007054461A patent/JP2008216672A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473409A (zh) * | 2010-04-22 | 2012-05-23 | 松下电器产业株式会社 | 基准模型适应装置、集成电路、av设备、在线自适应方法以及其程序 |
JP2013037108A (ja) * | 2011-08-05 | 2013-02-21 | Nippon Telegr & Teleph Corp <Ntt> | 話者クラスタリング方法、話者クラスタリング装置、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Siohan et al. | Structural maximum a posteriori linear regression for fast HMM adaptation | |
EP0771461B1 (en) | Method and apparatus for speech recognition using optimised partial probability mixture tying | |
EP0966736B1 (en) | Method for discriminative training of speech recognition models | |
US5864810A (en) | Method and apparatus for speech recognition adapted to an individual speaker | |
Woodland | Speaker adaptation for continuous density HMMs: A review | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
US7054810B2 (en) | Feature vector-based apparatus and method for robust pattern recognition | |
US5956679A (en) | Speech processing apparatus and method using a noise-adaptive PMC model | |
JP4410265B2 (ja) | 音声認識装置及び方法 | |
Mao et al. | Automatic training set segmentation for multi-pass speech recognition | |
WO1996022514A9 (en) | Method and apparatus for speech recognition adapted to an individual speaker | |
Gales et al. | State-based Gaussian selection in large vocabulary continuous speech recognition using HMMs | |
WO1998040876A9 (en) | Speech recognition system employing discriminatively trained models | |
JP2002511609A (ja) | 音声認識システムのための動的にコンフィギュレーション可能な音響モデル | |
EP1269464A2 (en) | Discriminatively trained mixture models in continuous speech recognition | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
Lugosch et al. | DONUT: CTC-based query-by-example keyword spotting | |
Potamianos et al. | Joint audio-visual speech processing for recognition and enhancement | |
Sankar | Experiments with a Gaussian merging-splitting algorithm for HMM training for speech recognition | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
Sankar et al. | Training data clustering for improved speech recognition. | |
JP2002132286A (ja) | 音声認識方法 | |
JP2008216672A (ja) | 話者適応化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080707 |