JP2006201265A

JP2006201265A - 音声認識装置

Info

Publication number: JP2006201265A
Application number: JP2005010392A
Authority: JP
Inventors: Maki Yamada; 麻紀山田; Yoshihisa Nakato; 良久中藤; Akira Ishida; 明石田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-01-18
Filing date: 2005-01-18
Publication date: 2006-08-03

Abstract

【課題】音響モデルを格納するメモリ容量及び認識時の計算量を削減でき、かつ学習データ量が対角共分散行列を用いる場合と同程度でも環境の変化に頑健で高精度に認識することができる音声認識装置を提供すること。
【解決手段】音響モデル格納部１２に、音響モデルの各状態をカテゴリー分けした各カテゴリー毎に共通の全共分散行列の逆行列Ｗ_ck ^-1と、音響尤度Ｄ_iを求める式Ｄ_i＝Ｘ^tＷ_ck ^-1Ｘ＋Ａ_i ^tＸ＋Ｂ_iの各状態毎のＡ_i及びＢ_iとを格納しておき、特徴量算出部１１が未知入力音声のフレームを音響分析して求めた特徴パラメータＸに対し、音響尤度計算部１４で、認識辞書１３に格納されている全ての単語を構成する状態における音響尤度Ｄ_iを上式で計算し、計算した音響尤度Ｄ_iに基づいて各状態におけるフレームの累積尤度を求め、認識結果出力部１５で、終端フレームの単語終端状態における累積尤度が最高の単語を認識結果とする。
【選択図】図１

Description

本発明は、音声認識装置に関し、特に隠れマルコフモデルを用いた音声認識装置に関するものである。

従来、音声認識のための音響モデルとして、音響的特徴を確率的にモデル化した隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）などが用いられている。

通常は、学習データ量や計算量が多くならないように、共分散行列の対角項以外の要素を０とし、対角項のみを残した共分散行列（以下、対角共分散行列と呼ぶ）を用いた混合ガウス分布ＨＭＭを用いることが多い。

しかしながら、対角共分散行列を用いる場合、特徴パラメータ間の相関を無視することになるため、識別性能がそれほど良くならない。

共分散行列の対角項のみを用いるのではなく、共分散行列の全要素を用いる（以下、全共分散行列と呼ぶ）方が認識性能が良いことは一般に知られている（例えば、非特許文献１参照）。

山本一公、中川聖一、「セグメント単位入力の混合分布型ＨＭＭの評価」、日本音響学会平成８年秋季研究発表会講演論文２−３−１、平成８年９月

しかしながら、全共分散行列を用いる場合、学習に使用する音声データの量、音響モデルを格納しておくメモリ容量、及び認識時の計算量が膨大になるという課題を有している。

また、学習データ量が充分でないと、学習時と認識時の環境が異なる場合に、認識性能が大きく劣化してしまうという問題が発生してしまう。

本発明は、かかる点に鑑みなされたものであり、音響モデルを格納するメモリ容量及び認識時の計算量を削減でき、かつ学習データ量が対角共分散行列を用いる場合と同程度でも環境の変化に頑健で高精度に認識することができる音声認識装置を提供することを目的とする。

本発明の音声認識装置は、全体でＭ個の状態を持つ隠れマルコフモデルで表現される音響モデルを用いた音声認識装置において、前記状態をＫ個のカテゴリーに分け、前記カテゴリー毎に共通の全共分散行列Ｗ_ck（ｋ＝１，２，…，Ｋ）を定め、前記カテゴリー毎の全共分散行列Ｗ_ckと前記状態毎の−２μ_i ^tＷ_ck ^-1，μ_i ^tＷ_ck ^-1μ_i（μ_i（ｉ＝１，２，…，Ｍ）は状態Ｓｉの平均値ベクトル）及び属する前記カテゴリーとを格納する音響モデル格納手段と、未知入力音声をフレーム毎に音響分析して特徴パラメータを算出する特徴量算出手段と、認識対象語彙を登録しておく認識辞書と、前記特徴パラメータの前記各状態における音響尤度Ｄ_iを前記音響モデル格納手段を参照して式Ｄ_i＝Ｘ^tＷ_ck ^-1Ｘ−２μ_i ^tＷ_ck ^-1Ｘ＋μ_i ^tＷ_ck ^-1μ_iにより計算する音響尤度計算手段とを備える構成を有している。

この構成により、全ての状態の分だけ全共分散行列を記憶しておかなくてもよく、音響尤度Ｄ_iの計算においては、全共分散行列のみに関する項はカテゴリー分だけ計算すればよいこととなる。

ここで、前記カテゴリーとして、音素群が同じで前記隠れマルコフモデルの状態位置が同じものを同じカテゴリーとする構成とした。

この構成により、認識性能を低下させずに全共分散行列を共通化することができる。

また、前記状態毎の−２μ_i ^tＷ_ck ^-1の要素のうち、絶対値の大きいものから設定された数分の要素を選択し、選択された要素と要素番号のみを前記音響モデル格納手段に格納しておき、音響尤度計算手段は、前記選択された要素のみを使って計算を行う構成とした。

この構成により、計算量を削減することができる。

また、本発明のプログラムは、全体でＭ個の状態を持つ隠れマルコフモデルで表現される音響モデルを用いた音声認識プログラムであって、コンピュータを、前記状態をＫ個のカテゴリーに分けたカテゴリー毎に共通の全共分散行列Ｗ_ck（ｋ＝１，２，…，Ｋ）と前記状態毎の−２μ_i ^tＷ_ck ^-1，μ_i ^tＷ_ck ^-1μ_i（μ_i（ｉ＝１，２，…，Ｍ）は状態Ｓｉの平均値ベクトル）及び属する前記カテゴリーとを格納する音響モデル格納手段、未知入力音声をフレーム毎に音響分析して特徴パラメータを算出する特徴量算出手段、認識対象語彙を登録しておく認識辞書、前記特徴パラメータの前記各状態における音響尤度Ｄ_iを前記音響モデル格納手段を参照して式Ｄ_i＝Ｘ^tＷ_ck ^-1Ｘ−２μ_i ^tＷ_ck ^-1Ｘ＋μ_i ^tＷ_ck ^-1μ_iにより計算する音響尤度計算手段、として機能させる構成を有している。

本発明によれば、音響モデルの各状態をカテゴリー分けし、各カテゴリーで全共分散行列を共通化し、音響尤度を求めるとき平均値ベクトルの項と全共分散行列の項とに分けて計算しているので、使用するメモリ容量及び計算量を削減することができるとともに、認識性能を向上させることができ、さまざまな小型機器でも音声認識機能を実現することができる。

以下、本発明の実施の形態について、図面を参照して説明する。

図１は本発明の一実施の形態の音声認識装置を示す図である。

図１において、本実施の形態の音声認識装置は、入力された未知入力音声を音響分析の時間単位であるフレーム（例えば、１０ｍｓ）毎に音響分析し認識に必要な特徴パラメータを算出する特徴量算出部１１と、音素や音節などサブワード毎の音響的特徴を統計的にモデル化した音響モデルを予め格納しておく音響モデル格納部１２と、音声認識装置で受理できる単語もしくは単語列を記述した辞書を格納しておく認識辞書１３と、特徴量算出部１１が算出した特徴パラメータに基づき音響モデル格納部１２の音響モデル及び認識辞書１３を照合して音響尤度を計算する音響尤度計算部１４と、音響尤度計算部１４が計算した音響尤度が最高となる単語もしくは単語列を認識結果として出力する認識結果出力部１５とを備えている。

本実施の形態では、図２に示すように、音素毎に３状態３ループを持つＨＭＭを音響モデルとする。ここでは、簡単のために、各状態の出力確率分布を単一ガウス分布とするが、混合ガウス分布でもかまわない。

このＨＭＭでは、Ｍ個の状態Ｓｉ（ｉ＝１，２，……，Ｍ）があり、各状態は、それぞれ固有の、特徴パラメータベクトルの平均値ベクトルμ_i（ｉ＝１，２，……，Ｍ）を持つ。

本実施の形態においては、全状態をＫ個のカテゴリーｋ（ｋ＝１，２，……，Ｋ）に分類し、全共分散行列をカテゴリー毎に共通化している。なお、平均値ベクトルは共通化せずに状態毎に持つようにしている。

共通化する方法としては、予め別々に学習して求めた全共分散行列の要素を同じカテゴリー内で平均する方法や、最初から全共分散行列を結び（tied）としてＨＭＭを学習する方法などがある。

カテゴリーの分類の仕方は、図２に示すように、同じ音素群（/k/と/t/または/m/と/n/）であって同じ状態位置であるものを同じカテゴリーとする。音素群は、無声破裂音群（/p/,/t/,/k/,/c/）、有声破裂音群（/b/,/d/,/g/,/r/,/z/）、無声摩擦音群（/s/,/h/,/f/）、鼻音群（/m/,/n/）とする。なお、この他に、音素環境毎に自動クラスタリングする方法や、音声学的知見に基づいて似通った特徴を持つ状態をカテゴライズする方法などが考えられる。

このように音響的特徴の似通った音素間では、状態位置が同じであれば、スペクトルの平均値ベクトルは異なっていても、その全共分散行列はほぼ同じであり、本件発明者の実験により、全共分散行列を共通化しても認識性能が劣化しないことが確認されている。

一般に、前後の音素環境を考慮した音素モデル（triphone）の場合、全ての音素環境をカバーする学習データを用意することは困難であるため、状態クラスタリングによって状態間の分布共有が行われることが多いが、このようないくつかの状態で共有化された分布に対しても、同様に全共分散行列を共通化することが可能である。

また、Ｎ個のガウス分布の重み付き和で表される混合分布において、平均値ベクトルはＮ個それぞれ固有のベクトルを持ち、全共分散行列のみ１つまたはいくつかに共通化することも可能である。

次に、音響尤度計算部１４における音響尤度計算方法について説明する。

特徴量算出部１１で算出された特徴パラメータベクトルをＸ、状態Ｓｉの平均値ベクトルをμ_i、全共分散行列をＷ_iとすると、入力Ｘの状態Ｓｉにおける出力確率Ｐ（Ｘ，μ_i，Ｗ_i）は式１で与えられる。

全共分散行列の行列式｜Ｗ_i｜は予め求めておくことができるため、認識時に必要な計算は音響尤度Ｄ_iを求めることである。

音響尤度Ｄ_iは、入力ベクトルＸから平均値ベクトルμ_iを引いたベクトルをＶ_iとすると、式２のようになり、これには（ｎ！＋ｎ）回の積和演算が必要である（詳しくは後述する）。したがって、全状態に対してこの演算を行うとＭ（ｎ！＋ｎ）回の積和演算が必要となる。
Ｄ_i＝Ｖ_i ^tＷ_i ^-1Ｖ_i （ただし、Ｖ_i＝Ｘ−μ_i）（式２）

本実施の形態においては、全共分散行列Ｗ_iをカテゴリー毎に共通化し、一つのカテゴリー内では同じ全共分散行列を用いる。すなわち、Ｍ個の全共分散行列をＫ個のカテゴリーに分け、Ｋ個の全共分散行列のみを用いる。

共通化後のカテゴリーｋ（ｋ＝１，２，……，Ｋ）に対する全共分散行列をＷ_ck（ｋ＝１，２，……，Ｋ）とすると、Ｄ_iは式３のようになる。
Ｄ_i＝(Ｘ−μ_i)^tＷ_ck ^-1（Ｘ−μ_i）（式３）

これをそのまま計算すると平均値ベクトルの種類数分だけ計算が必要となってしまう。そこで、平均値ベクトルの項と全共分散行列の項とに分けるため、式４のように展開する。
Ｄ_i＝Ｘ^tＷ_ck ^-1Ｘ−２μ_i ^tＷ_ck ^-1Ｘ＋μ_i ^tＷ_ck ^-1μ_i （式４）

そして、Ａ_i、Ｂ_iを式５のようにすると、
Ａ_i ^t＝−２μ_i ^tＷ_ck ^-1 ，Ｂ_i＝μ_i ^tＷ_ck ^-1μ_i （式５）
Ｄ_iは式６のようになる。
Ｄ_i＝Ｘ^tＷ_ck ^-1Ｘ＋Ａ_i ^tＸ＋Ｂ_i （式６）

ここで、Ａ_iはｎ次元ベクトル、Ｂ_iはスカラー量であるので、予め求めておくことができる。したがって、式６の第２項はｎ次元の内積となり、状態Ｓｉ（ｉ＝１，２，……，Ｍ）毎にｎ回の積和演算回数となる。

次に、式６の第１項について考えてみる。第１項は入力ベクトルＸについて、全状態に対してではなく、全カテゴリーｋ（ｋ＝１，２，……，Ｋ）に対してのみ求めればよい。

全共分散行列Ｗ_ckの逆行列Ｗ_ck ^-1と入力ベクトルＸの転置行列Ｘ^tを式７のようであるとする。

すると、全共分散行列Ｗ_ckは対称行列であるため全共分散行列Ｗ_ckの逆行列Ｗ_ck ^-1も対称行列となり、ｗ_ij＝ｗ_jiが成り立つ。よって、式６の第１項は式８のようになる。
Ｘ^tＷ_ck ^-1Ｘ＝ｘ₁（ｘ₁ｗ₁₁＋２ｘ₂ｗ₂₁＋２ｘ₃ｗ₃₁＋……＋２ｘ_nｗ_n1）
＋ｘ₂（ｘ₂ｗ₂₂＋２ｘ₃ｗ₃₂＋……＋２ｘ_nｗ_n2）
……
＋ｘ_nｘ_nｗ_nn （式８）

さらに、２ｗ_ijは予め計算しておけばよいので、２ｗ_ij＝ｗ'_ijとすれば式９のようになり、カテゴリー毎に（ｎ！＋ｎ）回の積和演算で計算できるようになる。これは式２と同じ形であるが、式２は状態毎に計算しなくてはならない点が異なる。
Ｘ^tＷ_ck ^-1Ｘ＝ｘ₁（ｘ₁ｗ₁₁＋ｘ₂ｗ'₂₁＋ｘ₃ｗ'₃₁＋……＋ｘ_nｗ'_n1）
＋ｘ₂（ｘ₂ｗ₂₂＋ｘ₃ｗ'₃₂＋……＋ｘ_nｗ'_n2）
……
＋ｘ_nｘ_nｗ_nn （式９）

したがって、本実施の形態での入力１フレームにおける全状態に対する音響尤度計算は、（Ｋ（ｎ！＋ｎ）＋Ｍｎ）回の積和演算回数となる。

実質的なパラメータの値を考えると、例えば、ベクトル次元数ｎ＝１２、総状態数Ｍ＝３０００、総カテゴリー数Ｋ＝３００のとき、式６により全状態について音響尤度を求めるために必要な積和演算回数は６３０００回となる。

これに対し、全共分散行列を共通化しない場合は、式２によりＭ（ｎ！＋ｎ）回、すなわち２７００００回の積和演算が必要となる。

したがって、式６を用いれば、３０００個の全共分散行列を３００個に共通化することによって、認識時の積和演算回数を従来の２３％にまで削減することができる。なお、全共分散行列を共通化しない場合（Ｋ＝Ｍ）は、式６よりも式２の方が演算回数が少ないため、式６を用いる必要はない。

さらに、式６において、第２項はＡ_iとＸの内積であるため、Ａ_iの要素のうち０に近い値の要素は内積値にほとんど寄与しない。よって、予めＡ_iの要素のうち絶対値の大きいものを上位Ｐ個選択しておき、認識時にはそのＰ個の要素についてのみ内積を計算するようにすれば、さらに計算量を削減することができる。その場合は、どの要素を選択したのかという要素番号を表すインデックスも音響モデル格納部１２に格納しておく必要がある。

次に、音響モデル格納部１２に格納されるデータについて説明する。

音響モデル格納部１２には、図３に示すように、状態Ｓｉ（ｉ＝１，２，……，Ｍ）毎に式５で示されるｎ次元ベクトルＡ_iとスカラー量Ｂ_i及び各状態が属するカテゴリーのカテゴリー番号が格納されており、さらにカテゴリーｋ（ｋ＝１，２，……，Ｋ）毎に全共分散行列の逆行列Ｗ_ck ^-1が格納されている。全共分散行列の逆行列Ｗ_ck ^-1はｎ×ｎ次元の行列であるが、全共分散行列の逆行列Ｗ_ck ^-1は対称行列であるため、実際に必要なパラメータ数はｎ！個である。

したがって、各データを２Byteで表すとすれば、本実施の形態ではカテゴリー番号を示すインデックスを含め、音響モデルを格納しておくのに必要なメモリ容量は（Ｍ（ｎ＋２）＋Ｋｎ！）×２Byteである。

これに対し、全共分散行列を共通化せずに状態毎に平均値ベクトルと全共分散行列を持つ場合には、音響モデルを格納しておくのに必要なメモリ容量はＭ（ｎ＋ｎ！）×２Byteとなり、対角共分散行列を用い対角共分散行列を共通化せずに状態毎に平均値ベクトルと対角共分散行列を持つ場合には、音響モデルを格納しておくのに必要なメモリ容量は２Ｍｎ×２Byteとなる。

例えば、ベクトル次元数ｎ＝１２、総状態数Ｍ＝３０００、総カテゴリー数Ｋ＝３００のときは、本実施の形態では４０６KByte、共通化なしの全共分散行列では、１７３８KByte、共通化無しの対角共分散行列では４６０KByteとなり、対角共分散行列を用いた場合よりも少ない容量でよい。

また、ＨＭＭの学習において、状態毎に全共分散行列を学習しようとすると、１状態あたりの学習データ量が充分得られないために学習ができない場合があるが、同じカテゴリーの状態間で全共分散行列を結び（tied）の条件で学習することにより、推定パラメータ数が少なくなり、少ない学習データ量でも全共分散行列を安定に推定することができるようになる。

また、全共分散行列を共通化することにより、対角共分散行列と同程度の学習データ量で、学習時の環境とは異なるノイズ環境下においても、認識性能の劣化が少ないことが本件発明者の評価実験により分かっている。

次に、本実施の形態の音声認識装置の動作について図４のフローチャートを用いて説明する。

まず、特徴量算出部１１が、未知入力音声を音響分析の時間単位であるフレーム毎に音響分析し、特徴パラメータＸを算出する（Ｓ１１）。

次いで、音響尤度計算部１４が、認識辞書１３に格納されている認識対象である単語を１つずつ読み出し、単語を構成する音素のＨＭＭの各状態を繋げて単語のＨＭＭを構成する（Ｓ１２）。例えば、「あさひ」という単語の場合、図５に示すように、/a/,/s/,/a/,/h/,/i/の音素ＨＭＭを繋げて構成する。

そして、音響尤度計算部１４は、構成したＨＭＭの各状態に対して、特徴パラメータＸの各状態における音響尤度Ｄ_iを、音響モデル格納部１２に格納されている音響モデルを参照しながら式６により計算する（Ｓ１３）。なおこのとき、計算した音響尤度Ｄ_iは、状態Ｓｉ毎に特徴パラメータＸに関する処理が全て（全ての単語の状態について）終了するまで記憶しておき、既に音響尤度Ｄ_iが計算された状態Ｓｉが出てきた場合は、再度計算せずに記憶されている音響尤度Ｄ_iを使用するようにする。

そして、音響尤度計算部１４は、算出した各状態の音響尤度Ｄ_iを各状態での前フレームまでの累積尤度に加算し、各状態での現フレームの累積尤度を求める（Ｓ１４）。

そして、全ての状態に対して処理が終了したかを判定し（Ｓ１５）、処理が終了していなければＳ１３に戻って、音響尤度の計算と累積尤度の計算の処理を繰り返す。

１単語の全ての状態に対して音響尤度の計算と累積尤度の計算の処理が終了したら、認識辞書１３の全ての単語について処理が終了したかを判定し（Ｓ１６）、処理が終了していなければＳ１２に戻って、次の単語を読み出し、以降の処理を繰り返す。

認識辞書の全ての単語に対して各状態の音響尤度の計算と累積尤度の計算の処理が終了したら、未知入力音声の終端フレームまで処理が終了したかを判定し（Ｓ１７）、処理が終了していなければＳ１１に戻って、次フレームの特徴パラメータベクトルＸを算出し、以降の処理を繰り返す。

未知入力音声の終端フレームまで処理が終了したら、認識結果出力部１５が、各単語の終端状態の終端フレームの累積尤度が最高となる単語を認識結果として出力する（Ｓ１８）。

このように本実施の形態においては、音響モデルの各状態をカテゴリー分けし、各カテゴリーで全共分散行列を共通化し、共通化した全共分散行列のみ音響モデル格納部１２に格納しているので、使用するメモリ容量を削減することができる。

また、全共分散行列を共通化しているので、学習時の推定パラメータが少なくなるために、学習データ量が対角共分散行列を用いる場合と同程度でも頑健な音響モデルを学習することができ、認識性能を向上させることができる。

また、式２のような音響尤度Ｄ_iを、式６のように平均値ベクトルの項と全共分散行列の項とに分け、式６のＡ_i、Ｂ_iを予め計算して音響モデル格納部１２に格納しておいて、特徴パラメータベクトルＸの状態Ｓｉにおける音響尤度Ｄ_iを求めているので、計算量を削減することができる。

以上のように、本発明にかかる音声認識装置は、少ないメモリ容量及び計算量で頑健な音声認識を実現することができるという効果を有し、さまざまな機器のインターフェース等として有用である。

本発明の一実施の形態における音声認識装置のブロック図本発明の一実施の形態における音声認識装置のＨＭＭの構造を示す図本発明の一実施の形態における音声認識装置の音響モデルの格納方法を示す図本発明の一実施の形態における音声認識装置の動作説明のためのフローチャート本発明の一実施の形態における音声認識装置の単語の音素ＨＭＭを繋げて構成したＨＭＭを示す図

符号の説明

１１特徴量算出部
１２音響モデル格納部
１３認識辞書
１４音響尤度計算部
１５認識結果出力部

Claims

全体でＭ個の状態を持つ隠れマルコフモデルで表現される音響モデルを用いた音声認識装置において、前記状態をＫ個のカテゴリーに分け、前記カテゴリー毎に共通の全共分散行列Ｗ_ck（ｋ＝１，２，…，Ｋ）を定め、
前記カテゴリー毎の全共分散行列Ｗ_ckと前記状態毎の−２μ_i ^tＷ_ck ^-1，μ_i ^tＷ_ck ^-1μ_i（μ_i（ｉ＝１，２，…，Ｍ）は状態Ｓｉの平均値ベクトル）及び属する前記カテゴリーとを格納する音響モデル格納手段と、未知入力音声をフレーム毎に音響分析して特徴パラメータを算出する特徴量算出手段と、認識対象語彙を登録しておく認識辞書と、前記特徴パラメータの前記各状態における音響尤度Ｄ_iを前記音響モデル格納手段を参照して式
Ｄ_i＝Ｘ^tＷ_ck ^-1Ｘ−２μ_i ^tＷ_ck ^-1Ｘ＋μ_i ^tＷ_ck ^-1μ_i
により計算する音響尤度計算手段とを備えることを特徴とする音声認識装置。
前記カテゴリーとして、音素群が同じで前記隠れマルコフモデルの状態位置が同じものを同じカテゴリーとすることを特徴とする請求項１記載の音声認識装置。
前記状態毎の−２μ_i ^tＷ_ck ^-1の要素のうち、絶対値の大きいものから設定された数分の要素を選択し、選択された要素と要素番号のみを前記音響モデル格納手段に格納しておき、音響尤度計算手段は、前記選択された要素のみを使って計算を行うことを特徴とする請求項１または２記載の音声認識装置。
全体でＭ個の状態を持つ隠れマルコフモデルで表現される音響モデルを用いた音声認識プログラムであって、
コンピュータを、前記状態をＫ個のカテゴリーに分けたカテゴリー毎に共通の全共分散行列Ｗ_ck（ｋ＝１，２，…，Ｋ）と前記状態毎の−２μ_i ^tＷ_ck ^-1，μ_i ^tＷ_ck ^-1μ_i（μ_i（ｉ＝１，２，…，Ｍ）は状態Ｓｉの平均値ベクトル）及び属する前記カテゴリーとを格納する音響モデル格納手段、未知入力音声をフレーム毎に音響分析して特徴パラメータを算出する特徴量算出手段、認識対象語彙を登録しておく認識辞書、前記特徴パラメータの前記各状態における音響尤度Ｄ_iを前記音響モデル格納手段を参照して式
Ｄ_i＝Ｘ^tＷ_ck ^-1Ｘ−２μ_i ^tＷ_ck ^-1Ｘ＋μ_i ^tＷ_ck ^-1μ_i
により計算する音響尤度計算手段、として機能させるためのプログラム。