JP4901657B2

JP4901657B2 - 音声認識装置、その方法、そのプログラム、その記録媒体

Info

Publication number: JP4901657B2
Application number: JP2007230795A
Authority: JP
Inventors: 泰浩南
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-09-05
Filing date: 2007-09-05
Publication date: 2012-03-21
Anticipated expiration: 2027-09-05
Also published as: JP2009063773A

Description

この発明は、例えば、隠れマルコフモデルを利用した音声認識装置、その方法、そのプログラム、その記録媒体に関する。

音響モデルを用いた音声認識技術は多数存在する。そして、音響モデルとは例えば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。従来のＨＭＭを用いた音声認識では、尤度を計算する際に基準となるトラジェクトリ（ＨＭＭの平均値の時系列）がＨＭＭの状態遷移部分で滑らかではなくなり、認識精度の劣化を引き起こしていた。非特許文献１（従来技術１）、非特許文献２（従来技術２）、非特許文献３（従来技術３）の手法では、入力音声の静的特徴量と動的特徴量の関係を利用し、滑らかなトラジェクトリを合成し、音声認識精度の向上を図っていた。しかし、これらの手法は、ＨＭＭの各状態に１つのガウス分布しか持たないと仮定していたため、複数のガウス分布をもつ混合ガウス分布型のＨＭＭへの拡張が困難であった。そこで、混合ガウス分布型のＨＭＭを扱う非特許文献４（従来技術４）がある。非特許文献４の手法は、ＨＭＭを使ったビタービアルゴリズムにより入力音声に対するＨＭＭの尤度が最大となる状態系列と分布系列を求め、当該状態系列と分布系列に対してトラジェクトリを合成し、入力音声とトラジェクトリとの間の尤度を計算する手法である。この手法では、１つの分布系列のトラジェクトリしか求めていないため、混合ガウス分布の分布数が増加した場合に、認識精度が劣化するという問題があった。そこで、混合ガウス分布型のＨＭＭに対して、トラジェクトリの合成を実現するために、スイッチング線形動的システムを使った手法が特許文献１（従来技術５）に記載されている。以下に、特許文献１に記載されている音声特徴学習装置、音声認識装置、を簡単に説明する。

図１に従来技術５の音声特徴学習装置５の機能構成例を示し、図２に従来技術５の音声認識装置１１の機能構成例を示し、図３に音声特徴学習装置５と音声認識装置１１の構成を統合したものを示す。まず、図１、図３を用いて、音声特徴学習装置５による学習モードについて説明する。なお、図３中の各構成部間の矢印において、破線の矢印は、学習モード時の情報の移動を示し、実践の矢印は、認識モード時の情報の移動を示す。

まず、特徴量抽出部２が学習用音声から静的特徴量および動的特徴量を抽出する。ここで、動的特徴量とは、例えば、静的特徴量（ｙ）の一次微分成分（Δ成分）と二次微分成分（ΔΔ成分）のような、静的特徴量の時間変化を表すパラメータ（Δｙ、ΔΔｙ）である。音響モデル学習部４は、静的特徴量と動的特徴量とから、音響モデルを学習する。具体的には、音響モデル学習部４は、例えば、特徴パターンとして静的特徴量の平均値および分散を求め、動的特徴量として静的特徴量の微分係数の平均値Δｕ_ＳＫおよび分散値Δσ_ＳＫ ^２と、静的特徴量の２次微分係数の平均値ΔΔｕ_ＳＫおよび分散値ΔΔσ_ＳＫ ^２とを計算する。この保存の際に、ＨＭＭの状態数と混合ガウス分布数（各状態での混合ガウス分布がいくつのガウス分布の和として表現されるのか）も決まる。ＨＭＭデータベース６には、ＨＭＭの各状態の各ガウス分布に対する平均値Ｍ_ＳＫ＝［ｕ_ＳＫ，Δｕ_ＳＫ，ΔΔｕ_ＳＫ］と分散［σ_ＳＫ ^２，Δσ_ＳＫ ^２，ΔΔσ_ＳＫ ^２］が保存される。ここで、ＳはＨＭＭの状態番号、Ｋはガウス分布の番号を表している。

モデル変換部８は、静的特徴量と動的特徴量との関係を使って、音響モデルをスイッチング線形動的システムに変換する。静的特徴量と動的特徴量との関係は、特徴量間関係式データベース１０に保存されている。ここで、線形動的システムとは、以下のような状態方程式、観測方程式である。

Ｍ_ＳＫ＝ＣＸ^ｔ＋Ｗ_ＳＫ
Ｘ^ｔ+１＝ＡＸ^ｔ+Ｎ_ｔ（１）
上述のように、ＳはＨＭＭの状態番号、Ｋはガウス分布の番号を表している。Ｘ^ｔは、トラジェクトリ時系列を５フレーム分まとめたものであり、Ｘ^ｔ＝［ｘ_ｔ＋２ｘ_ｔ＋１ｘ_ｔｘ_ｔ−１ｘ_ｔ―２］^Ｑと表すことができる。ｘ_ｔは時刻ｔの時のトラジェクトリを示し、「^Ｑ」は転置を表す。また、行列Ｃ、Ａ、Ｍ、Ｎについては、「発明を実施するための最良の形態」で詳細に説明する。式（１）からも理解できるように、１つの状態がＳ個の状態からなる混合ガウス分布において、１つずつの混合ガウス分布を状態方程式、観測方程式に変換し、Ｓ個の線形動的システムを作成する。また、スイッチング線形動的システムとは、複数の状態方程式と観測方程式とが時間とともに、線形動的システムが切り替わるモデルである。トラジェクトリ合成部１４は、スイッチング線形動的システムデータベース１２に保存されたスイッチング線形動的システムと特徴量抽出部２よりの静的特徴量と動的特徴量から、スイッチングカルマンフィルタを用いてトラジェクトリを求める。この処理では、まずスイッチングカルマンフィルタがスイッチング線形動的システムデータベース中の式（１）に示す状態方程式と観測方程式を使って、個々にカルマンフィルタを動作させる。

この様子を図４に示す。図４の例では、スイッチング線形動的システムのＫの最大値が２、すなわち２つの状態方程式と観測方程式のセットを持っている場合を示している。ｔを時刻とする。図４では、あらかじめ時刻ｔ−１までのトラジェクトリの混合ガウス分布が求まっているものとする。このときのトラジェクトリの分布は２つのガウス分布の和となっている。この２つのガウス分布の平均値と分散を（平均値、分散）＝（ｘ^１ _{ｔ−１｜ｔ−１}，Ｖ^１ _{ｔ−１｜ｔ−１}）、（ｘ^２ _{ｔ−１｜ｔ−１}，Ｖ^２ _{ｔ−１｜ｔ−１}）と表す。前向き処理では、この個々のｔ−１のガウス分布からｔのトラジェクトリの分布を計算する。これは、ｔ−１の個々のガウス分布にＫ＝１およびＫ＝２の状態方程式と観測方程式をそれぞれ用いてカルマンフィルタ１０５１、１０５２を動作させることで実現できる。このような操作を行うと、図４のように２つのトラジェクトリから４つのトラジェクトリを計算することになる。しかし、このような処理を時刻Ｔ分だけ行うと、最終的には、２^Ｔ個のトラジェクトリを求めることになる。これを防ぐためにスイッチングフィルタでは、４つのトラジェクトリを統合器１０５３、１０５４により、統合して２つのトラジェクトリに減らす。この操作を順次行っていくことにより、学習用音声に近いトラジェクトリを得る。また、最後に後ろ向きの処理を行い、トラジェクトリをなめらかにする。具体的には、ＨＭＭの各状態各分布の平均値ｕ^ｉｊ，Δｕ^ｉｊ，ΔΔｕ^ｉｊと分散Σ^ｉｊ，ΔΣ^ｉｊ，ΔΔΣ^ｉｊとから計算される学習用音声ｙ，Δｙ，ΔΔｙに対する尤度が高くなるような重みを設定し、この重みをかける。これによって、最終的に学習用音声に近いトラジェクトリを得ることができる。トラジェクトリの導入に伴って新しい分散の計算が必要になるが、分散計算部２０は、ＥＭアルゴリズムにより分散を計算し、分散データベース２２に保存する。

次に、図２、図３を用いて、従来技術５の認識モードを説明する。特徴量抽出部１００は、入力音声の静的特徴量（ｙ）および動的特徴量（Δｙ，ΔΔｙ）を抽出する。トラジェクトリ合成部１４は、スイッチング線形動的システムデータベース１０５に保存されているスイッチング線形動的システムを参照することで、辞書に保存されている音素、単語、あるいは文章の候補からトラジェクトリを生成する。このようなスイッチングカルマンフィルタの前向き処理と後ろ向き処理で、複数のトラジェクトリが合成される。必要に応じて、モデル変換部８は、ＨＭＭデータベース６の音響モデルを、スイッチング線形動的システムに変換する。既に、線形動的システムが得られている場合は、ＨＭＭデータベース６、モデル変換部８は無くても良い。

尤度計算部１８は、分散データベース２２に保存された分散値を参照して、トラジェクトリができるごとにトラジェクトリと入力音声との間の尤度を求める。この尤度が最も大きな音素系列を音声認識の結果とする。このように、従来技術５は、今までのトラジェクトリを用いる手法で使っていた尤度最大化によるトラジェクトリ合成手法の定式化に替えて、混合ガウス分布への拡張を考え、スイッチング線形動的システムによる定式化を行っている。
Y.Minami,E,McDermott,A Nakamura,and S,Katagiri,"A recognition method using synthesis-scoring that incorporates direct relations between static and dynamic feature vector time series "Workshop for Consistent & Reliable Acoustic Cues for Sound Analysis 2001. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,"A recognition method with parametric trajectory synthesized using direct relations between static and dynamic feature vector time eries,"Proc.ICASSP,pp.957-960,2002. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,"A Theoretical Analysis of Speech Recognition based on Feature Trajectory Models," in Proc ICSLP,vol.I,2004. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,"A recognition method with parametric generated from mixture distoribution HMMs,"Proc.ICASSP,pp.124-127 2003. 特開２００６−１７１０２０号

従来技術５で示したトラジェクトリ合成部１４の処理において、図４に示すように、統合器１０５３、１０５４によりトラジェクトリが統合され、トラジェクトリが平均化されるため、認識精度が劣化するという問題があった。また、従来技術４は上述のように、１つの分布系列のトラジェクトリしか求めていないため、混合ガウス分布の分布数が増加した場合に、認識精度が劣化するという問題があった。そこで、本発明は、従来技術４の問題点を解決するためのものである。つまり、本発明は、混合ガウス分布の分布数が増加した場合でも、認識精度が劣化することがない音声認識装置、その方法、そのプログラム、およびその記録媒体を提供することを目的とする。

音声特徴学習装置は、特徴量抽出部と、音響モデル学習部と、ＨＭＭデータベースと、モデル変換部と、線形動的システムデータベースと、尤度最大計算部と、トラジェクトリ合成部と、尤度関数最大化部と、最大化関数データベースと、を備える。特徴量抽出部は、学習用音声から静的特徴量と動的特徴量を抽出する。音響モデル学習部は、静的特徴量と動的特徴量とから、音響モデルを学習する。ＨＭＭデータベースは、音響モデルを記憶する。モデル変換部は、静的特徴量と動的特徴量との関係を使って、音響モデルを線形動的システムに変換する。線形動的システムデータベースは、線形動的システムを記憶する。尤度最大計算部は、ＨＭＭデータベースに記憶されている音響モデルを用いて、当該音響モデルに対する学習用音声の尤度が最大になるよう音響モデルの状態系列と分布系列を求める。トラジェクトリ合成部は、線形動的システムと状態系列と分布系列とを用いてトラジェクトリを合成する。尤度関数最大化部は、静的特徴量と動的特徴量と、トラジェクトリと、状態系列と分布系列とによる分散と、からなる尤度関数を最大化する最大化関数を求める。最大化関数データベースは、最大化関数を記憶する。

この発明の音声認識装置は、特徴量抽出部と、ＨＭＭデータベースと、線形動的システムデータベースと、トラジェクトリ合成部と、尤度関数生成部と、尤度計算部と、を備える。また、尤度関数計算部は、尤度を補正するための補正手段を備える。特徴量抽出部は、入力音声から静的特徴量と動的特徴量を抽出する。ＨＭＭデータベースは、音響モデルを記録する。線形動的システムデータベースは、線形動的システムを記憶する。トラジェクトリ合成部は、線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データとを用いて、トラジェクトリを合成する。尤度関数生成部は、最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する。尤度計算部は、尤度関数に静的特徴量と動的特徴量とを代入して、尤度を計算する。

上記の構成により、混合ガウス分布の分布数が増加した場合でも、ＨＭＭの状態遷移部分でも滑らかなトラジェクトリの生成を確保できながら、認識精度を向上できる。

以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。図５に音声特徴学習装置２００の機能構成例を示し、図６に音声認識装置３００の機能構成例を示し、図７に音声特徴学習装置２００の構成と音声認識装置３００の構成を統合したものを示し、図８に音声特徴学習装置２００の主な処理の流れを示し、図９に音声認識装置３００の主な処理の流れを示す。まず、図５と図７と図８を用いて、音声特徴学習装置２００による学習モードについて説明する。

［学習モード］
まず、学習用音声が入力されると、特徴量抽出部２は、静的特徴量、動的特徴量、を抽出する（ステップＳ１０２）。ここで、動的特徴量とは、例えば、静的特徴量（ｙ）の一次微分成分（Δ成分）と二次微分成分（ΔΔ成分）のような、静的特徴量の時間変化を表すパラメータ（Δｙ、ΔΔｙ）である。

音響モデル学習部４は、静的特徴量と動的特徴量とから、音響モデルを学習する（ステップＳ１０４）。具体的には、音響モデル学習部４は、例えば、特徴パターンとして静的特徴量の平均値および分散を求め、動的特徴量として静的特徴量の微分係数の平均値Δｕ_ＳＫおよび分散値Δσ_ＳＫ ^２と、静的特徴量の２次微分係数の平均値ΔΔｕ_ＳＫおよび分散値ΔΔσ_ＳＫ ^２とを計算する。ＨＭＭデータベース６には、ＨＭＭの各状態の各ガウス分布に対する平均値Ｍ_ＳＫ＝［ｕ_ＳＫ，Δｕ_ＳＫ，ΔΔｕ_ＳＫ］と分散［σ_ＳＫ ^２，Δσ_ＳＫ ^２，ΔΔσ_ＳＫ ^２］が保存される（ステップＳ１０６）。この保存の際に、ＨＭＭの状態数と混合ガウス分布数（各状態での混合ガウス分布がいくつのガウス分布の和として表現されるのか）も決まる。ここで、ＳはＨＭＭの状態番号、Ｋはガウス分布の番号を表している。

モデル変換部８は、静的特徴量と動的特徴量との関係を使って、音響モデルを線形動的システムに変換する（ステップＳ１０８）。静的特徴量と動的特徴量との関係は予め特徴量間関係式データベース１０に記憶されている。線形動的システムの一例を説明する。

音響モデルの各状態、各分布に関して、以下のような状態方程式、観測方程式に変換することが好ましい。以下で説明するトラジェクトリ合成部１０４によるトラジェクトリの合成演算量が削減されるからである。この状態方程式、観測方程式は上記式（１）と同様である。

Ｍ_ＳＫ＝ＣＸ^ｔ+Ｗ_ＳＫ
Ｘ^ｔ+１＝ＡＸ^ｔ+Ｎ_ｔ（１）
ただし、ｔは時間を表し、Ｘ^ｔは、トラジェクトリ時系列を５フレーム分まとめたものであり、Ｘ^ｔ＝［ｘ_ｔ＋２ｘ_ｔ＋１ｘ_ｔｘ_ｔ−１ｘ_ｔ―２］^Ｑと表すことができる。ｘ_ｔは時刻ｔの時のトラジェクトリを示し、「^Ｑ」は転置を表す。そして、行列ＡとＣに関して、ここでは、以下のような行列を用いる。

ここで、θは正の大きな値である。

Ｗ_ＳＫは、平均が［０００］^Ｑで、
分散がΣ_ＳＫ＝ｄｉａｇ［σ_ＳＫ ^２ Δσ_ＳＫ ^２ ΔΔσ_ＳＫ ^２］であるガウス分布に従う確率変数である。ここで、ｄｉａｇは［］内を対角要素にもつ対角行列を作成する関数である。Ｍ_ＳＫには次のようにＨＭＭの平均値が代入される。
Ｍ_ＳＫ＝［ｕ_ＳＫ Δｕ_ＳＫ ΔΔｕ_ＳＫ］^Ｑ

また、行列Ａはｘ_ｔ＋２＝ｘ_ｔ＋２ｘ_ｔ＋１＝ｘ_ｔ＋１ｘ_ｔ＝ｘ_ｔｘ_ｔ−１＝ｘ_ｔ−１を示しており、この演算では、雑音による影響以外の変化が無いことを示している。行列Ａはこれに限られるものではない。行列Ｃは、一次微分と二次微分を近似的に実現する行列であれば、どんな行列でも用いることができる。行列Ｃについては、列の数は、Ｘ^ｔで定義したフレーム数であり、行数の数は、動的特徴量の微分次数＋１（この例では、２＋１）と同数であればよい。行列Ｃの第１行目は静的特徴量を求める計算、第２行目はΔ特徴量を求める計算、第３行目はΔΔ特徴量を求める計算となる。

尤度最大計算部１０６は、ＨＭＭデータベース６に記憶されている音響モデルを用いて、当該音響モデルに対する前記学習用音声の尤度が最大になるよう音響モデルの状態系列と分布系列を求める（ステップＳ１１０）。例えば、この最大化処理には、ビタービアルゴリズムを用いれば良い。

トラジェクトリ合成部１０４は、線形動的システムデータベース１０２よりの線形動的システム（状態方程式と観測方程式）と、尤度最大計算部１０６よりの状態系列と分布系列を用いて、トラジェクトリｘ_ｔを合成する（ステップＳ１１２）。具体的には尤度最大計算部１０６よりの状態系列と分布系列を、状態方程式と観測方程式に代入して、代入された状態方程式と観測方程式のｘ_ｔについて解く事で、ｘ_ｔを求める。

そして、尤度関数最大化部１１０は、静的特徴量と動的特徴量と、トラジェクトリと、状態系列と分布系列とによる分散と、からなる尤度関数を最大化する最大化関数を求める（ステップＳ１１４）。以下、詳細に説明すると、トラジェクトリｘ_ｔに関して、時刻ｔでの尤度関数Ｐ（ｙ_ｔ）は以下の式（２）で表すことができる。

この尤度関数Ｐ（ｙ_ｔ）は、トラジェクトリｘ_ｔが音響モデルの状態と分布の値がＳ_ｔＫ_ｔである線形動的モデルから生成されたときに使われる。トラジェクトリがどの線形動的モデルから生成されたかによって、尤度関数を切り替え、以上の尤度関数の時刻ｔでの積が最大になる最大化関数を学習する。ここで、この関数を学習するＥＭアルゴリズムを計算するのは大変なので、近似計算を用いる。これには、尤度最大計算部１０６よりの状態系列と分布系列を利用する。この状態系列と分布系列から全ての学習データのトラジェクトリを計算し、尤度関数Ｐ（ｙ_ｔ）を最大化するような最大化関数を求める。そして、最大化関数は、最大化関数データベース１１２に記憶される（ステップＳ１１６）。最大化関数は、ｙ_ｔ、ｘ_ｔ、Δｙ_ｔ、Δｘ_ｔ、ΔΔｙ_ｔ、ΔΔｘ_ｔが変数になっており、

が、定数になっている。

［認識モード］
次に、図６と図７と図９を用いて、音声認識装置３００による認識モードについて説明する。特徴量抽出部２は、入力音声の静的特徴量ｙ_ｔと動的特徴量（Δｙ_ｔ、ΔΔｙ_ｔ）を抽出する（ステップＳ２０２）。トラジェクトリ合成部１０４は、線形動的システムデータベース１０２よりの線形動的システムを参照することで、辞書データベース１６に保存されている音素、単語、あるいは文章の候補から可能な全てのトラジェクトリを合成する（ステップＳ２０４）。また、必要に応じて、モデル変換部８が、ＨＭＭデータベース６に記憶されている音響モデルを線形動的システムに変換して、線形動的システムデータベースに記憶させてもよい。線形動的システムデータベース１０２が既に得られている場合は、モデル変換部８はなくてもよい。

尤度関数生成部１０８は、最大化関数データベース１１２に記憶されている最大化関数にトラジェクトリ合成部１０４よりのトラジェクトリを代入して、トラジェクトリの入力に対する入力音声の確率密度である尤度関数Ｐ_１（Ｙ_１：Ｔ）、もしくはトラジェクトリの入力に対する尤度の最大値をとる尤度関数Ｐ_２（Ｙ_１：Ｔ）を生成する（ステップＳ２０６）。Ｐ_１（Ｙ_１：Ｔ）、Ｐ_２（Ｙ_１：Ｔ）は例えば、以下のように定義できる。

ここで、ｍａｘＡはＡの最大値を取ることを示し、Ｐ（Ａ│Ｂ）はＢである場合にＡである条件付確率であり、１：Ｔは１，．．．，Ｔを示し、Ｓ_１：ＴはＨＭＭの状態系列を示し、Ｋ_１：ＴはＨＭＭの分布系列を示し、Ｘ_１：Ｔ（Ｓ_１：Ｔ，Ｋ_１：Ｔ）はこの状態系列と分布系列から合成されるトラジェクトリ系列を示し、Ｐ（Ｓ_１：Ｔ，Ｋ_１：Ｔ）は状態の遷移確率と分布を選ぶ確率を状態と分布の系列に対して求めたものであり、ＨＭＭで利用している値と同じ値を用いる。また、「＾」が使用されている記号は、トラジェクトリに対しての値であり、「＾」が使用されていない記号は、ＨＭＭに対しての値である。また、イメージで記載された式中では「＾」は記号の真上に付され、テキストで記載された式中では「＾」は記号の右斜上に付されているが、これらの値は同値である。Ｙ_ｔとＹ_１：Ｔは以下の式により定義される。
Ｙ_ｔ＝［ｙ_ｔ、Δｙ_ｔ、ΔΔｙ_ｔ］^Ｑ
Ｙ_１：Ｔ＝Ｙ_１，Ｙ_２，．．．，Ｙ_Ｔ

以下の説明では、Ｐ_１（Ｙ_１：Ｔ）、Ｐ_２（Ｙ_１：Ｔ）をまとめて、Ｐ（Ｙ_１：Ｔ）という。ＨＭＭの状態数が少ない場合（例えば、状態数が１）には、尤度計算部１１４は、式（３）もしくは（３’）に示す尤度関数に、特徴量抽出部２よりの静的特徴量、動的特徴量を代入して、尤度を計算する。そして、尤度を最大にするモデルを最終的な認識結果とする。

［変形例１］
次に音声認識装置３００の変形例１である音声認識装置３００−１について説明する。ＨＭＭの状態数が多い場合には、式（３）において、可能な全てのトラジェクトリを生成し、入力音声と比較しなければならないので、実現できない。

そこで、音声認識装置３００−１は尤度計算部１１４に尤度関数を近似するための近似手段１１６４を保持する。尤度関数Ｐ（Ｙ_１：Ｔ）は尤度近似手段１１６４に入力され、尤度関数Ｐ（Ｙ_１：Ｔ）は近似され、近似尤度関数Ｐ’（Ｙ_１：Ｔ）が求められる（ステップＳ２０７）。尤度関数Ｐ（Ｙ_１：Ｔ）の近似の手法について説明する。まず、あらかじめ音響モデルのビタービアルゴリズムで音響モデルの尤度が最大になる状態系列Ｓ＾_１：Ｔと分布系列Ｋ＾_１：Ｔを求める。状態系列Ｓ＾_１：Ｔと分布系列Ｋ＾_１：Ｔの求めかたは以下の式（４）で表すことができる。

式（５）のトラジェクトリｘ＾_１：Ｔは線形動的モデルを用いて、上記式（１）による状態方程式と観測方程式によるカルマンフィルタを実現することにより求めることが好ましい。計算量が削減されるからである。このトラジェクトリｘ＾_１：Ｔを使って、得られる尤度は以下の式（６）のように、近似尤度関数Ｐ’（Ｙ_１：Ｔ）を求めることができる。

そして、尤度計算部１１４は、近似尤度関数Ｐ’（Ｙ_１：Ｔ）に特徴量抽出部２よりの静的特徴量、動的特徴量を代入して、尤度を計算する。そして、尤度を最大にするモデルを最終的な認識結果とする。

この近似尤度関数Ｐ’（Ｙ_１：Ｔ）は非特許文献４で述べているものとほぼ等しいが、上記式（５）によるトラジェクトリを求める際に、状態方程式と観測方程式によるカルマンフィルタを実現させている所が従来技術４とは異なる。

［変形例２］
次に音声認識装置３００の変形例２である音声認識装置３００−２について説明する。近似尤度関数Ｐ’（Ｙ_１：Ｔ）では、以下に示すＨＭＭによる最大状態系列と分布系列以外のトラジェクトリの尤度を無視していることになり、高精度な認識をできない。そこで、尤度関数計算１１４は、更に、補正手段１１６を持たせる。補正手段１１６などの機能構成例を図１０に示す。補正手段１１６は誤差近似手段１１６８と加算手段１１７０とで構成されている。誤差近似手段１１６８は、近似尤度関数Ｐ’（Ｙ_１：Ｔ）と尤度関数Ｐ（Ｙ_１：Ｔ）との誤差ｅをＨＭＭの尤度を用いて近似することで、近似誤差ｅ’を生成する。まず、誤差ｅは以下の式（７）で表すことができる。誤差ｅはｅ＝│Ｐ（Ｙ_１：Ｔ）−Ｐ’（Ｙ_１：Ｔ）│で表すことができる。

しかし、誤差ｅを直接求めることはできない。従って、誤差近似手段１１６６は、ＨＭＭの尤度を利用して、誤差ｅを近似して、近似誤差ｅ’を生成する。近似誤差ｅ’は以下の式（８）になる。

この式（８）の２行目の式は例えば、ＨＭＭのビタービアルゴリズムを用いて得られる。

加算手段１１７０は、尤度近似手段１１６４よりの近似尤度関数Ｐ’（Ｙ_１：Ｔ）と、近似誤差ｅ’とを加算することで、補正尤度関数Ｐ’’（Ｙ_１：Ｔ）を求める（ステップＳ２０８）。つまり、以下の式（９）が演算される。

加算手段１１７０から補正尤度関数Ｐ’’（Ｙ_１：Ｔ）が出力される。そして、尤度計算部１１４は、特徴量抽出部２よりの静的特徴量と動的特徴量を用いて、式（９）の補正尤度関数Ｐ’’（Ｙ_１：Ｔ）の関数値である尤度を求め（ステップＳ２１０）、尤度を最大にするモデルを最終的な認識結果とする。

このようにして、尤度関数Ｐ（Ｙ_１：Ｔ）を補正手段１１６により補正することで、補正尤度関数Ｐ’’（Ｙ_１：Ｔ）を求める。その結果、ＨＭＭによる最大状態系列と分布系列以外のトラジェクトリの尤度も考慮していることになる。従って、この実施例の音声認識装置３００は、混合ガウス分布の分布数が増加した場合であっても、従来技術４、５よりも、認識精度を向上させることが出来る。

［実験結果］
次に、本発明の音声認識装置と、従来技術４の音声認識装置と、ＨＭＭを用いた音声認識装置と、を比較した実験結果を説明する。実験では、話者独立、タスク独立の認識を行った。サンプリングレートを１６ｋＨｚとし、フレームシフトを１０ｍｓとし、各状態のガウス分布数が２もしくは３である環境依存HMMを学習した。学習データとして、ＪＮＡＳデータの全ての男性話者を用いた。利用したデータは２００７８文章である。評価データとして、学習データと同条件で分析した男性７５人による１００都市発声を用いた。相発声数は、７１９８である。認識実験においては、ひとつの条件下では、誤差によって偶然性能が良くなるという可能性がある。この点を排除するために、作成する状態数を変化させて、複数の実験を行った。図１１に混合ガウス分布数が２の場合の単語誤認識率の結果を示し、図１２に混合ガウス分布数が３の場合の単語誤認識率の結果を示す。また、混合ガウス分布数が２の場合は、作成ＨＭＭの状態数を２５８９、１９９２、１６１１の３種類を用い、混合ガウス分布数が３の場合は、作成ＨＭＭの状態数を１９９２の１種類を用いた。図１１、図１２より、作成ＨＭＭの状態数がどの場合であっても、本発明の音声認識装置が、従来技術４の音声認識装置やＨＭＭを用いた音声認識装置よりも認識精度が向上していることが分かる。

従来の音声特徴学習装置の機能構成例を示す図。従来の音声認識装置の機能構成例を示す図。従来の音声特徴学習装置と音声認識装置とをまとめたものを示す図。従来のトラジェクトリを求める流れを示した図。実施例の音声特徴学習装置の機能構成例を示す図。実施例の音声認識装置の機能構成例を示す図。実施例の音声特徴学習装置と音声認識装置とをまとめたものを示す図。実施例の音声特徴学習装置の主な処理の流れを示す図。実施例の音声認識装置の主な処理の流れを示す図。補正手段１１６の機能構成例を示す図。混合ガウス分布が２の場合の実験結果を示す図。混合ガウス分布が３の場合の実験結果を示す図。

Claims

入力音声から静的特徴量と動的特徴量を抽出する特徴量抽出部と、
音響モデルを記憶するＨＭＭデータベースと、
前記線形動的システムを記憶する線形動的システムデータベースと、
線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データと、を用いて、トラジェクトリを合成するトラジェクトリ合成部と、
最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する尤度関数生成部と、
前記音響モデルの尤度を用いて、前記尤度関数を近似して近似尤度関数を生成する近似手段と、前記近似尤度関数と前記尤度関数との誤差を前記音響モデルの尤度を用いて近似することで近似誤差を生成し、前記近似尤度関数と前記近似誤差とを加算することで前記尤度関数を補正し補正尤度関数を生成する補正手段とを備え、当該補正尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算する尤度計算部と、
を備えることを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記トラジェクトリ合成部は、状態方程式と観測方程式を用いて、前記トラジェクトリを合成するものであることを特徴とする音声認識装置。
請求項１又は２に記載の音声認識装置において、
前記トラジェクトリ合成部は、カルマンフィルタを用いて前記トラジェクトリを合成するものであることを特徴とする音声認識装置。
入力音声から静的特徴量と動的特徴量を抽出する特徴量抽出過程と、
線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データと、を用いて、トラジェクトリを合成するトラジェクトリ合成過程と、
最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する尤度関数生成過程と、
前記音響モデルの尤度を用いて、前記尤度関数を近似して近似尤度関数を生成する近似ステップと、前記近似尤度関数と前記尤度関数との誤差を前記音響モデルの尤度を用いて近似することで近似誤差を生成し、前記近似尤度関数と前記近似誤差とを加算することで前記尤度関数を補正し補正尤度関数を生成する補正ステップとを含み、当該補正尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算する尤度計算過程と、
を有することを特徴とする音声認識方法。
請求項１〜３に記載の音声認識装置の各処理をコンピュータに実行させるための音声認識プログラム。
請求項５記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。