JP3920749B2 - 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 - Google Patents
音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 Download PDFInfo
- Publication number
- JP3920749B2 JP3920749B2 JP2002277225A JP2002277225A JP3920749B2 JP 3920749 B2 JP3920749 B2 JP 3920749B2 JP 2002277225 A JP2002277225 A JP 2002277225A JP 2002277225 A JP2002277225 A JP 2002277225A JP 3920749 B2 JP3920749 B2 JP 3920749B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- variational
- acoustic model
- posterior distribution
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、確率統計的な音声認識に用いられる音響モデルの作成方法、その装置、そのプログラムおよびその記録媒体と、上記音響モデルを用いた音声認識装置に関する。
【0002】
【従来の技術】
まず音声認識装置の概略を説明する(詳しくは例えば非特許文献1参照)。音声認識装置は図1に示すように主に、フレームごとに学習音声信号データ(以下単に学習データと書く)を時系列特徴量ベクトルに変換する特徴量ベクトル変換部11と、モデルパラメータ学習及び適切なモデル構造決定を行う音響モデル作成部12と、得られた音響モデルを用いて未知入力音声の時系列特徴量ベクトルに対しスコアを算出し、これに発音辞書や言語モデル等に対するスコアを考慮して認識結果を与える認識部13とからなる。
【0003】
音響モデルについて説明する。通常音声認識用音響モデルでは各音素を隠れマルコフモデル(HMM)で表現する。図2に示すようにHMMは1乃至複数の各状態S1,S2,S3に対して出力分布D1,D2,D3がそれぞれ与えられる。通常この出力分布D1,D2,D3には図2に示すように混合ガウス分布が用いられる。図2において矢印14,15は状態遷移を表わし、HMM状態数は3、出力分布の混合数も3の場合である。学習データに対してはその何れの部分が何れの音素であるかを示すラベル情報が与えられている。ラベル情報により得られる学習データ中の各音素に対応するデータから、尤度を最大化するようにモデルパラメータ(ガウス分布の平均、分散、混合重み係数、状態遷移確率)を推定することをモデルパラメータの学習と呼ぶ。そのモデルパラメータを推定する最尤法は、データが十分大きいという近似のもとに成り立つ手法であるため、データが小さいとモデルパラメータの推定が不正確であるという問題がある。また、1音素あたりのHMM状態数や、出力分布の混合数をいくつに設定するかがモデル構造の決定にあたる。他にも音素カテゴリーをどのように設定するかや、ベイズ法の場合、事前分布をどう設定するかといった問題もモデル構造決定にあたる。
【0004】
ここで従来の音響モデル作成法について図3を参照して説明する。まず、複数の与えられたモデル構造1〜Nに対し、仮モデル作成部12−1〜12−Nにおいて、まず最尤学習によるモデルパラメータの推定をモデルパラメータ推定部121で入力された特徴量ベクトル系列について行うことにより、それぞれ仮音響モデルを作成する。モデル構造の決定は、認識率を基準に評価する。上記課程で得られたそれぞれの仮音響モデルを用いて、認識部122でそれぞれの認識結果を出力し、さらにそれらを用いて評価部123でそれぞれの認識率を出力する。モデル選択部124でこれらN個の認識率を比較して認識率の高さで仮音響モデルを評価し、最も高い認識率の仮音響モデルを、音響モデル構造と決定する。このように従来法では、認識部122と評価部123で認識率を得ることによってはじめてモデル構造の評価を行うことができる。このようなモデル評価は、計算時間がかかる、認識用のデータによって結果が変わる、自動化が難しいといった問題を抱えている。
【0005】
一方、様々なモデル構造を用意してモデルパラメータの学習を行い、それをもとに記述長、ベイズ情報量といった評価関数を計算して、それを用いてモデル構造決定を行う手法もある(例えば非特許文献2、3参照)。つまり図4に示すように、モデル作成部12−1〜12−Nではそれぞれまず入力された特徴量ベクトル系列について、そのモデル構造に対するモデルパラメータをモデルパラメータ推定部121で最尤学習法により推定する。次にこれら各推定したモデルパラメータについて評価関数値(非特許文献2では記述長、非特許文献3ではベイズ情報量)を評価関数計算部125でそれぞれ計算し、モデル選択部124でこれら評価関数値中の最も高い仮音響モデルを選択して、音響モデル構造と決定する。
【0006】
このようにこれらの手法は認識部で認識結果を出力し、評価部で認識率を出力するといった操作が必要ではないため、図3に示した手法における上記の問題点を解決することができる。しかしこれらの評価関数はいずれもデータが十分大きいという近似のもとに成り立つ評価関数である。そのため、少量データのときは適切なモデル構造決定が行われないという問題が生じる。また、これらの評価関数はいずれも、音声認識用音響モデルのような潜在変数を含むモデルに対しては正確な評価関数値を与えることができないため、このような観点からも適切なモデル構造決定が行われないという問題が生じる。さらに、モデルパラメータ推定時の評価関数は尤度であり、モデルの評価関数は記述長又はベイズ情報量であり、複数の評価関数がモデル作成において使われることになり、これにより適切な音響モデルが作成されないという問題が生じる。
【0007】
音響モデルの学習ではないが、一般にベイズ法を用いると、学習対象に対し事前知識を事前分布として導入でき、学習データが少ないときに他の学習法と比べ汎化能力が高い学習ができ、またモデル選択の自動決定も可能であることが知られている(例えば非特許文献4参照)。しかしベイズ法では事後分布の推定が重要であるが、モデルに潜在変数が含まれる場合(潜在モデル)、複雑な期待値操作が必要となるため、これを解析的に扱うことは一般的に難しい。音声認識用音響モデルに利用されるHMMや混合ガウス分布モデルは、潜在モデルであるため、ベイズ法に適用するのは困難であった。
【0008】
近年、期待値計算に変分近似を利用した、変分ベイズ法による事後分布(変分事後分布)推定に基づく学習法が提案されている(例えば非特許文献4参照)。しかし、変分ベイズ法を用いて音響モデルを作成することは提案されていない。音響モデルの作成にはモデルパラメータの学習だけでなく、コンテキスト依存HMMにおける状態共有の仕方や総状態数、および状態ごとの出力分布混合数の設定といったモデル構造選択を含んだより複雑な学習法を必要とする。
なおこの発明の実施形態中に1具体例として状態共有HMM構造の選択を音素決定木法に基づいて行うが、この手法は例えば非特許文献5に示されている。
【0009】
【非特許文献1】
古井貞煕著「近代科学社」出版、2001年P.174−210
【非特許文献2】
篠田浩一、渡辺隆夫著「情報量基準を用いた状態クラスタリングによる音響モデルの作成」信学技報、SP96−79、1996年、PP.9−15
【非特許文献3】
ダブリュ.チョウ(W.Chou),ダブリュ.ライヒル(W.Reichl)著「デイシジョン ツリ ステート タイング ベースド オン ペナライズド ベイジアン インフォメーション クリテリオン(Decision Tree State Tying Based on Penalized Bayesian Information Criterion)プロシ.アイシイエイエスエスピー(Proc.ICASSP)'99、第1巻、PP.345−348(1999).
【非特許文献4】
上田修功著「最小モデル探索のための変分ベイズ学習」人工知能学会論文誌、16巻、2号、PP.299−308、2001年
【非特許文献5】
ジェイ.ジェイ.オデル(J.J.Odell)著「ザ ユース オブ コンテックスイン ラージ ボキアブラリ スピーチ リコグナイション(The Use of Context in Large Vocabulary Speech Recognition)」1995年ピーエッチデー ゼイシス,ケンブリッジ ユニバーシテイ(PhD thesis,Cambridge University)
【0010】
【発明が解決しようとする課題】
この発明の目的は記述長最小化(MDL)基準や最尤基準による手法と比べ、少量データでも性能のよいものを作ることができ、しかも計算を効率的に行うことができる音響モデル作成方法、その装置、そのプログラム及びその記録媒体と、その音響モデルを用いる音声認識装置を提供することにある。
【0011】
【課題を解決するための手段】
この発明によれば、音響モデルのモデル構造及びベイズ的事前分布を複数用意して、学習データから変分ベイズ法により、モデルパラメータ学習とモデル構造評価関数値を算出し、これら算出されたモデル構造評価関数値をもとにモデル構造を決定してそのモデルを音響モデルとする。
【0012】
【発明の実施の形態】
この発明による音響モデル作成装置の1実施形態の機能構成を図5に示す。学習データは特徴量ベクトル変換部11で特徴量ベクトル系列に変換される。複数のモデル構造1〜Mを用意し、それぞれに対し、評価部21−1〜21−Mの事後分布推定部211で、変分ベイズ法を用いて、変分ベイズ評価関数をもとに特徴量ベクトル系列についてモデルパラメータ学習を行う。つまりラベル情報により得られる学習データ中の各音素に対応するデータ(特徴量ベクトル)から、変分ベイズ評価関数を最大化するようにモデルパラメータの変分事後分布を推定する。
【0013】
これら各推定された変分事後分布をもとに再び変分ベイズ評価関数値をそれぞれの評価関数計算部212で計算し、これらの評価関数1〜Mを用いて、モデル選択部22で音素カテゴリー全体としての評価関数が最も多くなるように各カテゴリーのモデル構造を決定し、これと、その対応するモデルパラメータの変分事後分布とを音素カテゴリーの音響モデルとする。
この発明は変分ベイズ法を用いることによりモデルパラメータ学習と、モデル構造決定に同様の評価関数を用いるため、複数の評価関数を用いる従来手法と比べて最適性がより保証される。
【0014】
また、初期モデル構造及び事前分布に既存の音響モデルを用いて、適応用学習音響信号に対し上記の音響モデル作成処理を行うことにより、その適応用学習音声信号に適応化された音響モデルを作成することができる。
このようにして得られた音響モデルは、モデルパラメータそのものではなくそれの変分事後分布で構成される。そのため、この音響モデルと音声認識に用いる装置は、この変分事後分布と未知音声入力データからベイズ予測に基づいて音響スコアが計算される。
【0015】
実施例
次により具体的に、つまりこの発明の実施例を説明するが、この説明に先立ち、ベイズ法を用いて音響モデルを作成しようとすると、大変であることを示し、その後、この発明の実施例を説明する。
図6に示すように入力されたラベル付き学習データに対し、必要に応じて例えば聴覚特性を考慮した波形処理(フィルタ処理)などの前処理を行い(S1)、LPC(線形予測)分析などの相関処理をフレームごとに行い、更に必要に応じて周波数帯域の制限などスペクトル処理を施して、D次元時系列特徴量ベクトルO={O t ∈RD :t=1,…,T}に変換する(S2)。ここでTは全フレーム数を表す。特徴量としてはケプストラム、Δケプストラム、メル周波数ケプストラムなどが用いられる。
【0016】
この時系列特徴量ベクトルOに対し、初期モデル構造を設定する(S3)。
初期モデル構造設定では、まず初めに初期音素カテゴリーを設定する(S3−1)。初期音素カテゴリーとしては前後の音素環境を考慮した環境依存音素や環境独立音素を用いる。次に1つの音素カテゴリーを複数個のHMM状態に細分化し、その各状態に出力分布を設定する(S3−2)。さらに、ベイズ的事前分布をHMM状態遷移確率及び出力分布に対して設定する(S3−3)。
この事前分布は、統計的に信頼性の高いパラメータを与える。例えば、カテゴリーを細分化すると、つまり例えば環境依存音素の環境音素(前後の音素)数を多くして、モデル数を多くすると、それに伴い各カテゴリーに割り当てられる学習データ(特徴量ベクトル、以下同様)が不足し、統計的信頼性が低くなる。そのため、複数の環境依存音素に割り当てられる学習データを共有し、例えばトライホン(triphone:連続する3つの音素)の中心の音素が等しい学習データを、その全てのtriphoneカテゴリーに対し共通に用い、それによって得られるモデルパラメータを環境依存音素の事前分布として与える。また、各カテゴリーに含まれるHMM状態数を増加させると、それに伴い各出力分布に割り当てられる学習データが不足し、統計的信頼性が低くなる。そのため、複数のHMM状態に割り当てられる学習データを共有し、例えば隣接する状態に割り当てる学習データ、その両状態に対し共通に用い、それによって得られるモデルパラメータを事前分布として与える。また、出力分布中の混合数を増加させると、それに伴い各ガウス分布に割り当てられる学習データが不足し、統計的信頼性が低くなる。そのため、複数のガウス分布に割り当てられる学習データを共有し、それによって得られるモデルパラメータを事前分布として与える。
【0017】
なお、不特定話者用モデルを料金話者用に適応化する話者適応タスクでは、不特定話者のモデルパラメータを事前分布として与える。雑音抑圧や音源分離による前処理によって歪んだ音声信号入力に対する適応タスクでは、歪みのない入力音声信号により作られたモデルパラメータを事前分布として与える。
このように事前分布の多様性を含めたモデルをモデル構造と呼ぶ。ベイズ学習では、このモデル構造の自由度を確率変数m∈Mとすることにより、mの事後分布を導入することができる。ここでMはmの集合を表す。
【0018】
次に、前記初期モデル構造からモデルパラメータ学習をベイズ学習を用いて行う(S4)。ベイズ学習で重要なのは確率変数に対する事後分布を求めることであるが、通常これを求めるのは容易ではない。例えば、ある固定されたモデル構造mでの、音素カテゴリーcに関するモデルパラメータθc に対する事後分布p(θc |O,m)を求めるとする。非特許文献4に示すベイズ法の手法を参考にすると、p(θc |O,m)は、出力分布p(O,Z|Θ,m)と事前分布p(Θ|m)から、次のように表現される。
【数1】
ここで、Θ={θc :c=1,…,C}、Cは音素カテゴリーの数であり、Θ-cはθc の補集合を表し、Zは潜在変数の集合である。モデルパラメータは具体的にはHMM状態遷移確率や、HMM状態中の出力分布を混合ガウス分布で表したときの混合重み係数及びガウス分布における平均、分散である。また、Zは具体的には、HMM状態系列変数、つまり1音素がどのようにしていくつの状態を通るかのとり得る数や混合ガウス系列変数、つまり、1つの音素が各状態の何番目のガウス分布を通るかのあらゆる組合せの数である。p(O,Z|Θ,m)p(Θ,|m)はモデル構造設定時に具体的な関数形を与えることができる。
式(1)の計算により得られた事後分布を用いて式(2)
【数2】
を計算してベイズ評価関数を計算し(S5)、更に各mについての式(2)の計算結果からそれが最大のものmを選択する(S6)。つまり次式を求める。
m^=argm maxp(m|O) (3)
このm^のモデル構造を当該音素カテゴリーの音響モデルとする。全ての音素カテゴリーについて同様の処理を行って各音響モデルを求める。
このようにすればベイズ法により音響モデルを作ることができるが、実際には式(1)の計算は多重積分などを含むため、解析的な扱いが困難である。また、モンテカルロシュミレーションにより求める方法もあるが計算時間の問題からそのようなアプローチは非現実的である。
よって、ベイズ法により音響モデルを作ることは現実的でない。
この発明では変分ベイズ法を用いて音響モデルを作成する。その実施例を図7に示す。前処理(S1)、特徴量ベクトル変数(S2)、初期モデル機能設定(S3)は図6のそれと同様である。
【0019】
次にこの実施例では式(4)で与える変分ベイズ評価関数を基準にして変分法による近似計算でモデルパラメータの事後分布(変分事後分布)を分布推定する(S4)。
【数3】
ここで<u(y)>p(y) は分布p(y)に対するu(y)の期待値をあらわす。q(Θ,Z|O,m)は変分法により近似的に求まる事後分布である。Fm は変分事後分布q(Θ,Z|O,m)に対する汎関数である。式(4)は非特許文献4に示す積分ベイズ法の手法を参考とすると得られる。
確率変数の統計的独立性q(Θ,Z|O,m)=q(Z|O,m)Πc=1 Cq(θc |O,m)を仮定し、Fm をq(θc |O,m),q(Z|O,m)に関して変分法を用いて最大化することにより、固定されたmに対する適切なq(θc |O,m),q(Z|O,m)を次式で表現することができる。
【数4】
q(θc |O,m),q(Z|O,m)は相互に依存しているため、バウム−ウェルチアルゴリズムもしくはビタービアルゴリズムに基づく反復計算を用いて効率的に求めることができる。このようにして、ある固定されたmに対する変分事後分布q(θc |O,m),q(Z|O,m)を変分ベイズ法で、事後分布推定部211(図5)において求めることにより、モデルパラメータを学習する。
【0020】
次にモデル構造決定の指標となる評価関数について考察する。mの事前分布を一様と仮定すると、変分事後分布q(m|O)とFm は次式に示す関係を持つ。
【数5】
により適切なモデル構造m^を事後確率最大化(MAP)の意味で決定することができる。つまり、Fm はある固定されたmにおけるq(Θ|O,m),q(Z|O,m)の最適性を与える評価汎関数であると同時に、モデル構造mの最適性を与える評価関数であると言える。従って、Fm を用いることにより、HMMや混合ガウス分布モデルのような潜在変数を含むモデル学習およびモデル構造の決定を、変分ベイズ評価関数を用いて統一的に議論できる。モデルパラメータ学習で得られた変分事後分布q(Θ,Z|O,m)を式(4)に代入して固定されたmにおけるモデル構造決定関数である変分ベイズ評価関数を評価関数計算部212(図5)で計算する(S5)。
Fm を集合Mにおける全てのmに対して計算することにより、モデル選択部22(図5)で式(7)に基づき適切なモデル構造を決定する(S6)。つまりステップS5で求めた評価関数値が最も大きいモデル構造と、その事後分布q(θc |O,m),q(Z|O,m)を最大化する事後分布とを当該音素カテゴリーcの音響モデルとする。
全ての音素カテゴリーcを選択したかを調べ(S7)、選択していないものがあればその1つを選択してステップS3に戻る(S8)。全ての音素カテゴリーについての音響モデルの決定をすると処理を終了する。
【0021】
モデル選択部22におけるモデル構造の決定はモデル構造の変化を木構造を用いて階層的に表現することにより、効率よく適切なモデル構造を探索することができる。以下この実施例において、木構造を用いた環境依存音素の共有に関するモデル構造決定例を示すが、木構造以外であっても、全ての組み合わせを考慮して最もFm が大きくなるようにモデル構造を決定する手法や、最も細分化されたモデル構造における各状態やガウス分布をボトムアップ的に併合させ、最もFm が大きくなるようにモデル構造を決定する手法を用いてもよい。また同様の議論が、環境依存音素の共有に関するモデル構造決定のみならず、1音素あたりのHMM状態数及び、HMM状態を混合ガウス分布で表したときの混合数をいくつにするかといったモデル構造決定においても有効である。なぜなら、環境依存音素の共有問題は環境独立音素を複数の環境依存音素でクラスタリングする問題とみなすことができ、同様にHMM状態数、混合数の決定問題もそれぞれ環境依存音素、HMM状態におけるクラスタリング問題とみなすことができるため、これらは本質的には同様のクラスタリング問題として扱うことができるからである。そのため、この3つの種類のクラスタリングを同時に行う、もしくは、それぞれ独立に行うことにより、モデル構造を決定していくことができる。
【0022】
環境依存音素の共有問題について実施例を示す。この手法は例えば非特許文献5に示されている。まず環境独立音素カテゴリーが3つのHMM状態を含み、その各状態に含まれる出力分布が1混合ガウス分布で表される初期モデルを用意して説明を行う。またこのときの環境依存音素カテゴリーとして当該音素の直前直後の音素を考慮したtriphoneカテゴリーを用いる。ある木の節nに対応付けられたHMM状態集合をΩ(n)とする。初めに、ルートノード(n=0)を用意する。つまりルートノードには、同一の中心音素を持つtriphone HMM状態の集合を対応付けさせる。このとき、質問群から適切に選ばれた質問Qを用いて、図8に示すように集合Ω(n)を質問Qの回答(Yes又はNo)に応じてΩ(nY Q)とΩ(nN Q)に分割し、それらを新たなノードnY QとnN Qに対応付ける適切な質問の選び方は後で述べる。
【0023】
以下では分枝数を2として話を進めるが、分枝数が2以上であっても同様に話を進めることができる。この分割により新しく得られたノードに含まれる状態集合に対してそれぞれ再び質問による分割を行い、これを繰り返すことによって、図9に示すように、最終的に木構造が構築される。各リーフノードに対応付けられた状態集合を共有することによって、状態共有型HMM構造が構築される。用いる質問群は音声学の知見により得られた、前後の音素環境に対する質問群である。質問の具体例を図10に示す。このとき、各ノードにおける分割前後でq(Θ|O,m),q(Z|O,m)を変分ベイズ学習によりそれぞれ求め、それをもとに評価関数Fm の値をそれぞれ算出する。Fm 値の変化が最も大きい質問を採用することによって適切な分割を行うことができる。これを全てのノードに対して行うことにより、Fm 値で最適化された木構造を得ることができる。またFm がこれ以上増減しないノードをリーフノードとすることにより木構造におけるリーフノード数を決定することができる。これにより適切なモデル構造を決定することができる。つまり各リーフノードに残った複数のtriphoneカテゴリーに対し、そのリーフノードのモデル構造をモデル構造として共通に用いる。質問を用いるのではなくΩ(0)を分割する場合の全ての分割のやり方、つまり分割に対する全組み合わせを考えその各組み合わせについて分割前後のq(Θ|O,m),q(Z|O,m)を変分ベイズ法によりそれぞれ求め、それをもとにFm を算出し、Fm の変化が最も大きい分割を採用するようにしてもよい。
【0024】
HMM状態数、混合ガウス数の決定も同様に行うことができる。例えばHMM状態数についてみれば、各ノードにおいて、共有した学習データ集合を状態数が1のもの、それ以外のものとして分割した時の分割前後におけるFm の値を求め、同様に状態数が2,3,…それぞれのものと、その他のものとにそれぞれ分割した時の各分割前後の各Fm を求め、これら分割前後におけるFm の変化の最も大きな分割のやり方を採用して、これにより分割された学習データ集合をそれぞれ次のノードの学習データ集合とする。
以上のようにして、Fm を評価関数とした変分ベイズ的アプローチにより、モデルパラメータの学習と適切なモデル構造決定により音響モデルを作成することができる。前記モデル構造決定、HMM状態数決定、混合ガウス数決定を例えば各分割条件を同時に与えることにより同時処理で決定してもよい。
【0025】
更に必要に応じて図7中に破線で示すように、ステップS7で全ての音素カテゴリーを選択した場合は、処理を終了とすることなく、得られた音響モデルに基づき、モデルパラメータの学習を変分ベイズ法により行う(S9)。この場合はステップS4において行ったと同様のことを行うがその際に用いるモデル構造は前記モデル構造1〜Mではなく、ステップS6で得られた音響モデルについて行う。この再モデルパラメータ学習で得られたモデルパラメータの事後分布を、その音響モデルに採用する。図7では各音素カテゴリーごとにそのモデル構造とモデルパラメータの変分事後分布を決定したが、全音素カテゴリーについて図7中のステップS3以後を実行し、音素カテゴリー全体としての評価関数値が最大になるように、各音素カテゴリーのモデル構造を決定し、これと、その対応するモデルパラメータの変分事後分布とをその音素カテゴリーの音響モデルとし、全音素カテゴリーの音響モデルを同時に決定してもよい。
【0026】
このようにモデルパラメータを再学習する場合は、次のようにしてもよい。つまり先にモデル構造の決定(選択)を、音素決定木法に基づいて行う例を示した場合と同様に、各HMM状態の出力分布を単一ガウス分布とし、かつ各HMM状態への学習データの割り当てを固定とすることにより、変分事後分布の推定に反復計算を省略して、評価関数値を求めることができ、つまり計算時間を大幅に短縮して評価関数値を求め、その後、ステップS9におけるモデルパラメータの再学習において、実際に用いるモデルパラメータの変分事後分布を求め、かつHMMの状態あたりの出力分布の混合数を増加し、また学習データのHMM状態への割り当てを可変にする。
【0027】
前述したように、特定話者用モデルを作る場合、つまり話者適応タスクでは、既存の不特定話者用音響モデルを初期モデル構造とし、かつそのモデルパラメータをベイズ的事前分布として、図7中のステップS4以後の処理を行えばよい。入力音声学習データとしては、その特定話者の音声信号を用いる。また歪みを受けている音声信号に対する認識用音響モデルを作る場合、つまり歪み音声に対する適応タスクでは歪みのない入力音声により作られた既存の音響モデルを初期モデル構造とし、かつそのモデルパラメータをベイズ的事前分布として、図7中のステップS4以下の処理を行えばよい。入力音声学習データとしてはその歪みを受けている音声信号を用いる。
【0028】
次にこの発明により作成された音響モデルを用いる音声認識装置の実施例を、図11を参照して説明する。図12にその処理の流れを示す。
未知入力音声信号は特徴量ベクトル変換部31でフレームごとに特徴量ベクトルxに変換される(S1)。この場合の特徴量はモデル格納部32に格納されている音響モデルを作成する際に用いた特徴量と同一のものとする。モデル格納部32にはこの発明の方法により作成された音響モデルにあって、各音素カテゴリーごとにそのモデルパラメータθc 、つまりガウス分布の平均や分散などの変分事後分布q(θc |O,m)とモデル構造とが格納されている。実際的には、ガウス分布の平均の平均、分散の平均などが変分事後分布q(θc |O,m)として格納されている。また各音素カテゴリーcごとに、そのモデルパラメータθc とモデル構造mに対する音声データxの分布p(x|θc ,m)、つまりその分布の平均と分散が格納されている。
【0029】
フレームごとの特徴量ベクトルxについて、各音素カテゴリーcについてモデル格納部32内のその音響モデルを用いてベイズ予測に基づく音響スコアs(c)を、次式によりスコア計算部33で計算する。
s(c)=∫dθc q(θc |O,m)p(x|θc ,m) (8)
この積分を次のように事後確率最大化近似をしてもよい。
【数6】
このようにして計算したフレームごとの各音素カテゴリーcごとの音響スコアs(c)を用いて音素カテゴリー決定部34において、例えばビダビアルゴリズムにより音素カテゴリー又はその候補を決定し(S3)、更にこれら音素カテゴリーについて単語認識部35で、メモリ36内の発音辞書、言語モデルを組み合わせることにより、単語列の認識結果を出力する(S4)。
この発明の有効性を実証するために、非特許文献2に示す最尤法と記述長最小化(MDL)基準の組み合わせによるパラメータ学習、モデル構造選択法を従来法とし、これと、この発明方法とについて、学習データの変化に伴う単語認識率の推移について実験を行った。実験にあたり図13に示す音声分析条件と図14に示す初期HMMを用意する。事前分布パラメータは、音素決定木のルートノードにおけるtriphone HMM状態集合に割り当てられた学習データの平均、分散により与える。図15に学習と評価に用いたデータを示す。学習データに対して、乱数を用いてランダムに文を抜き取ることによりデータ量を変化させた。学習データの変化に伴う発明法と従来法の認識率及び木分割時の分割総数(≒モデル構造)をそれぞれ図16、図17に示す。従来法(1)は状態共有型HMMの構築においてルートノードのサンプル数を元に記述長を求め、MDL基準でモデル構造を選択したものである。なおこの実験では出力分布混合数を1に保った。この発明のベイズ的基準と従来法(1)を比較すると、小規模学習データ領域(60文以下)では発明法の認識結果が従来法(1)と比較して、最大で50%近く上回っているのが図19からわかる。これは発明法が、MDL基準の適用範囲外であるような小規模学習データ領域に対しても、十分機能することを示している。実際図16において学習データが少なくなるに従い、発明法は分割数0のモデル構造を選択するが、従来法(1)では分割数が0に近づかない。
【0030】
一方、MDL基準で小規模学習データ領域での上述の問題を回避するために記述長を調節したのが、従来法(2)のグラフである。ここでは記述長を、小規模学習データ領域での分割数がこの発明のベイズ法の場合と一致するように調節した。このようにほぼモデル構造を等しくした場合でも発明法が従来法と比べて10%ほど上回っているのがわかる。これは、変分事後分布の推定や、ベイズ推測に基づく音響スコア計算における期待値操作により、過学習が緩和されたために生じた差であると考えられる。
次に、学習データを3,000文に固定し、状態あたりの出力分布混合数を一律に変化させた際のベイズ的評価関数値と、それに伴う認識率の変化を示したグラフを図18に示す。認識率は混合数の増加に伴って向上するが、15混合以上になると過学習の効果により逆に劣化していく。このとき評価関数値の変化は認識率の変化とほぼ一致しており、このことから発明法が出力分布混合数の設定に対しても効果的であることがわかる。
【0031】
図5に示したこの発明による音響モデル作成装置をコンピュータにより機能させることもできる。その場合は、例えば図7に示した方法の各ステップをコンピュータに実行させるための音響モデル作成プログラムを、CD−ROM、磁気ディスクなどの記録媒体又は通信回線を介してコンピュータ内にダウンロードして、そのプログラムをコンピュータに実行させればよい。同様に図11に示した音声認識装置をコンピュータに機能させてもよい。
【0032】
【発明の効果】
以上述べたようにこの発明によれば小規模学習データでも高性能な音響モデル構造決定、音響モデルのパラメータ学習を実現することができる。
【図面の簡単な説明】
【図1】音響モデル作成と、音声認識の一般的機能構成を示す図。
【図2】隠れマルコフモデルの例を説明するための図。
【図3】音声認識により評価を行う従来の音響モデル作成装置の機能構成を示す図。
【図4】評価関数により評価を行う従来の音響モデル作成装置の機能構成を示す図。
【図5】この発明による音響モデル作成装置の機能構成例を示す図。
【図6】ベイズ法を用いる音響モデル作成方法の考えられる手法を示す流れ図。
【図7】この発明による音響モデル作成方法の例を示す流れ図。
【図8】木構造を用いるモデル構造決定の際の質問に対するHMM状態集合の分割を説明するための図。
【図9】モデル構造決定に用いた木構造の例を示す図。
【図10】HMM状態集合の分割に用いる質問の具体例を示す図。
【図11】この発明による音声認識装置の機能構成例を示す図。
【図12】この発明による音声認識方法の処理手順の例を示す流れ図。
【図13】実験に用いた音声分析条件を示す図。
【図14】実験に用いた初期HMMを示す図。
【図15】実験に用いた学習・評価データを示す図。
【図16】学習データに応じた認識率の実験結果を示す図。
【図17】学習データに応じた分割数の実験結果を示す図。
【図18】状態あたりの出力分布混合数を一律に変化させた場合の認識率と評価関数値の実験結果を示す図。
Claims (11)
- 学習音声信号を時系列特徴量ベクトルに変換するステップと、
音響モデルのモデル構造及びベイズ的事前分布を複数用意して、これらについて、上記時系列特徴量ベクトルから変分ベイズ評価関数を最大化するように、確率変数の統計的独立性を近似した上で変分ベイズ法により、各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布を指数関数型の分布として解析的に導出するステップと、
上記導出された各音素カテゴリーごとのモデルパラメータの変分事後分布と上記導出された音響モデルの潜在変数の変分事後分布をバウムーウェルチアルゴリズムもしくはビタービアルゴリズムに基づく反復計算で求めて、当該求められた各音素カテゴリーごとのモデルパラメータの変分事後分布と当該求められた音響モデルの潜在変数の変分事後分布とを用いて複数の変分ベイズ評価関数値を計算するステップと、
上記計算した複数の変分ベイズ評価関数値をもとに変分ベイズ評価関数を最大とする複数のモデル構造を決定し、その各モデル構造及び対応する上記各音素カテゴリーごとのモデルパラメータの変分事後分布と、上記音響モデルの潜在変数の変分事後分布を組として音響モデルを得るステップとを有する音声認識用音響モデル作成方法。 - 上記決定されたモデル構造について、上記時系列特徴量ベクトルから、変分ベイズ評価関数を最大化するように、各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布を再び推定して、上記音響モデルの各音素カテゴリーごとのモデルパラメータの変分事後分布と上記音響モデルの潜在変数の変分事後分布を修正するステップを有することを特徴とする請求項1記載の音声認識用音響モデル作成方法。
- 上記初期モデル構造及びベイズ的事前分布に既存の音響モデルを用い、上記学習音声信号として適応用学習音声信号を用い、上記既存の音響モデルを上記適応用学習音声信号に適応させた音響モデルを作成することを特徴とする請求項1又は2記載の音声認識用音響モデル作成方法。
- 上記音響モデルとして状態共有型隠れマルコフモデル構造とし、各時系列特徴量ベクトルの各隠れマルコフモデル状態への割り当てを固定し、各状態の出力分布を単一ガウス分布として、上記各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布の推定、上記変分ベイズ評価関数値の推定、上記モデル構造の決定を行い、
上記各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布の修正ステップで、上記時系列特徴量ベクトルの割り当てを可変とし、1状態あたり複数混合ガウス分布を用いることを特徴とする請求項2記載の音声認識用音響モデル作成方法。 - 学習音声信号が入力され、その時系列特徴量ベクトルを出力する特徴量ベクトル変換部と、
互いに異なるモデル構造及びベイズ的事前分布がそれぞれ設定され、上記時系列特徴量ベクトルがそれぞれ入力され、変分ベイズ評価関数を最大化するように、確率変数の統計的独立性を近似した上で変分ベイズ法により、各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布を指数関数型の分布として解析的に導出する複数の事後分布推定部と、
これら事後分布推定部よりの導出された各音素カテゴリーごとのモデルパラメータの変分事後分布と、導出された音響モデルの潜在変数の変分事後分布とがそれぞれ入力され、上記導出された各音素カテゴリーごとのモデルパラメータの変分事後分布と上記導出され た音響モデルの潜在変数の変分事後分布をバウムーウェルチアルゴリズムもしくはビタービアルゴリズムに基づく反復計算で求めて、当該求められた各音素カテゴリーごとのモデルパラメータの変分事後分布と当該求められた音響モデルの潜在変数の変分事後分布とを用いて複数の変分ベイズ評価関数値をそれぞれ計算する複数の評価関数計算部と、
これら評価関数計算部からの変分ベイズ評価関数値が入力され、変分ベイズ評価関数値を最大とする各モデル構造を決定し、その各モデル構造と対応する上記各音素カテゴリーごとのモデルパラメータの変分事後分布と、上記音響モデルの潜在変数の変分事後分布とを組とした音響モデルを出力するモデル選択部とを具備する音声認識用音響モデル作成装置。 - 請求項1乃至4の何れかに記載した音声認識用音響モデル作成方法の各ステップをコンピュータに実行させるための音響モデル作成プログラム。
- 請求項6に記載した音響モデル作成プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 請求項1乃至4の何れかに記載した音声認識用音響モデル作成方法によって作成された音響モデルが格納されたモデル格納部と、
未知入力音声信号の特徴量ベクトルをフレームごとに求める特徴量ベクトル変換部と、
上記特徴量ベクトルに対する、上記モデル格納部に格納されている各カテゴリーの音響スコアをそのモデルパラメータの変分事後分布を用いて計算するスコア計算部と、
その計算されたスコアから未知入力音声信号のカテゴリーを決定するカテゴリー決定部とを具備する音声認識装置。 - 未知入力音声信号をフレームごとにその特徴量を求めて特徴量ベクトルに変換し、
上記特徴量ごとに、上記請求項1乃至4の何れかに記載した音声認識用音響モデル作成方法により作成した音響モデルを用いて、ベイズ予測に基づく各カテゴリーごとの音響スコアを計算し、
上記特徴量ごとに得られる上記各カテゴリーごとの音響スコアの系列から上記未知入力音響信号のカテゴリーを決定する
ことを特徴とする音声認識方法。 - 請求項9記載の音声認識方法の各ステップをコンピュータに実行させるための音声認識プログラム。
- 請求項10記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002277225A JP3920749B2 (ja) | 2002-09-24 | 2002-09-24 | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002277225A JP3920749B2 (ja) | 2002-09-24 | 2002-09-24 | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004117503A JP2004117503A (ja) | 2004-04-15 |
JP3920749B2 true JP3920749B2 (ja) | 2007-05-30 |
Family
ID=32272882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002277225A Expired - Fee Related JP3920749B2 (ja) | 2002-09-24 | 2002-09-24 | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3920749B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006098425A (ja) * | 2004-09-28 | 2006-04-13 | Advanced Telecommunication Research Institute International | 混合分布モデル作成装置、音声認識装置、及び混合分布モデル作成プログラム |
JP4612435B2 (ja) * | 2005-02-25 | 2011-01-12 | 日本電信電話株式会社 | 音響モデル学習装置および音声認識装置 |
JP4950600B2 (ja) * | 2006-09-05 | 2012-06-13 | 日本電信電話株式会社 | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 |
WO2008108232A1 (ja) * | 2007-02-28 | 2008-09-12 | Nec Corporation | 音声認識装置、音声認識方法及び音声認識プログラム |
US8107735B2 (en) | 2007-04-10 | 2012-01-31 | Denso Corporation | Three dimensional shape reconstitution device and estimation device |
JP4405542B2 (ja) | 2007-10-24 | 2010-01-27 | 株式会社東芝 | 音素モデルをクラスタリングする装置、方法およびプログラム |
JP4528839B2 (ja) * | 2008-02-29 | 2010-08-25 | 株式会社東芝 | 音素モデルクラスタリング装置、方法及びプログラム |
JP4881357B2 (ja) * | 2008-08-26 | 2012-02-22 | 日本電信電話株式会社 | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 |
CN111667009B (zh) * | 2020-06-08 | 2023-04-04 | 长安大学 | 一种基于样本熵和贝叶斯的时间序列突变检测方法 |
-
2002
- 2002-09-24 JP JP2002277225A patent/JP3920749B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004117503A (ja) | 2004-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551708B2 (en) | Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium | |
KR100800367B1 (ko) | 음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체 | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
EP1557823B1 (en) | Method of setting posterior probability parameters for a switching state space model | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
US20060111905A1 (en) | Method and apparatus for training a text independent speaker recognition system using speech data with text labels | |
CN102982799A (zh) | 一种融合引导概率的语音识别优化解码方法 | |
JP2013148697A (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
CN114299920A (zh) | 用于语音识别的语言模型的训练、语音识别方法及装置 | |
JPH08211889A (ja) | 木構造を用いたパターン適応化方式 | |
CN102237082B (zh) | 语音识别系统的自适应方法 | |
Zen et al. | Decision tree-based context clustering based on cross validation and hierarchical priors | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP2013182261A (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2019078857A (ja) | 音響モデルの学習方法及びコンピュータプログラム | |
Shinozaki | HMM state clustering based on efficient cross-validation | |
CN109872721A (zh) | 语音认证方法、信息处理设备以及存储介质 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
JP2734828B2 (ja) | 確率演算装置及び確率演算方法 | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040727 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070215 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110223 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110223 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120223 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130223 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |