JP2004117530A

JP2004117530A - 音声認識システム

Info

Publication number: JP2004117530A
Application number: JP2002277541A
Authority: JP
Inventors: Kaishen Yao; ヤオ・カイシェン; Satoru Nakamura; 中村　哲; Tatsutake To; 党　建武
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-09-24
Filing date: 2002-09-24
Publication date: 2004-04-15
Anticipated expiration: 2022-09-24
Also published as: JP4004368B2

Abstract

【課題】モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能な音声認識システムを提供する。
【解決手段】音声認識システムにおいて隠れマルコフモデルの各々は、隠れ状態に依存するｍｔ番目の混合ガウス分布により観測ベクトルの出力確率を与える手段と、隠れ状態に独立した第１の潜在ベクトルｚ_ｔを生成する手段と、隠れ状態と第１の潜在ベクトルｚ_ｔとに依存して第２の潜在ベクトルｘ_ｔを導出し、第２の潜在ベクトルｘ_ｔに応じて観測ベクトルｙ_ｔの出力確率を与える手段とを含む。
【選択図】　　　　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識を行なうための音声認識システムの構成に関する。
【０００２】
【従来の技術】
近年の音声認識技術は、統計的手法の導入と、大規模なデータベースの構築により、不特定話者連続音声認識においても、飛躍的に認識率が向上している。
【０００３】
このような音声認識システムへの統計的手法の導入においては、いわゆる、「隠れマルコフモデル（以下、ＨＭＭと呼ぶ）」が採用されている。すなわち、ＨＭＭとは、一般的なマルコフモデルの確率的な自由度をより拡大したモデルといえる。
【０００４】
このＨＭＭでは、状態（内部状態）と出力シンボルの２過程を考え、状態が確率的に遷移するとともに、それに応じてシンボルを確率的に出力すると考える。そのとき、外部からは状態の遷移は直接的には観測できず、出力シンボルのみが観測可能である。この意味で、このようなモデルが「ＨＭＭ（”隠れ”マルコフモデル）」と呼ばれる。
【０００５】
図５は、このようなＨＭＭを図解的に示す概念図である。
図５においては、状態数はｎ個であり、各状態間の遷移に対応して遷移確率ａｉｊが定義され、かつ各遷移にはシンボル出力確率が対応している。図５においては、遷移確率ａ１１の状態１から状態１への自己遷移に対応する出力確率のみを例示的に示している。
【０００６】
ここでＨＭＭは、次の諸量を規定することによって定義される。
１）　状態の集合：Ｓ＝｛ｓ_ｉ｝
２）　出力シンボルの集合：Ｙ＝｛ｙ_ｉ｝
３）　初期状態とその正規確率
４）　状態遷移確率の集合Ａ＝｛ａ_ｉｊ｝
状態ｓ_ｉから状態ｓ_ｊに遷移する確率。マトリックス［ａ_ｉｊ］で表わす。
【０００７】
５）　各状態におけるシンボル出力確率の集合Ｂ＝｛ｂ_ｊ（ｙ）｝
状態ｓ_ｉから状態ｓ_ｊに遷移して、シンボルｙを出力する確率である。
【０００８】
６）　終端状態の集合Ｑ＝｛ｑ_ｊ｝
以下、ＨＭＭによる音声認識についてさらに詳しく説明する。
【０００９】
（１）　音声情報の離散シンボル化
マルコフモデルを利用するためには、観測シンボルに対して、音声情報を（有限個の）シンボル集合からのシンボル系列で表現しなければならない。
【００１０】
しかも、そのシンボルの総数があまり多くては処理が複雑化して実用的ではなくなる。このような音声情報を離散化する１つの方法としては、いわゆるケプストラム分析が用いられる。このケプストラム分析においては、まず波形を所定の時間間隔のフレームで切出した後、各フレーム毎にフーリエ変換および所定の演算処理を行なうことで、音声情報を有限個のケプストラム係数等の諸係数の集合として表現する。さらに、このようなケプストラム係数等に対して、ベクトル量子化が行なわれる。
【００１１】
たとえば、このようなケプストラム分析によって、音声情報は、１３次元のケプストラム係数と１３次元のΔケプストラム係数と１３次元のΔΔケプストラム係数との合計３９次元の係数によって表現される。
【００１２】
図５において、出力確率の横軸は、このような３９次元の係数のうちの１つを表わし、縦軸は、そのような係数の値が出力される連続的な確率を表現している。
【００１３】
図５に示した例では、たとえば、２つのピークを有する連続的な確率分布となっている。
【００１４】
（２）　認識の原理
ＨＭＭを用いた音声認識では、以下のような手続が行なわれる。
【００１５】
ａ）　認識すべき各音声（たとえば単語）に対応して、ＨＭＭが作られているとする。
【００１６】
ｂ）　入力未知音声を分析し、音声シンボル系列を得る。
ｃ）　観測された音声シンボル系列が、各単語モデルに従って得られる事後確率を計算する。
【００１７】
ｄ）　事後確率を相互に比較して、最大の事後確率を与えるモデルに対応する単語を認識の結果とする。
【００１８】
したがって、音声情報をどのような離散化された係数で表現するかは、ＨＭＭを用いた音声認識の計算量に直結する。
【００１９】
図６は、上述したようなケプストラム係数等のうち、第１のケプストラム係数Ｃ１および第２のケプストラム係数Ｃ２との相関関係を示す図である。
【００２０】
図６において、点線で示す分布が母集団分布であるものとする。このような母集団分布を近似するためのモデル分布を実線で示す。
【００２１】
上述したような３９次元の係数のすべての組合せについて、モデル分布を表現しようとする場合、各係数相互間でのすべての共分散のパラメータを用いることとすると、たとえば３９^２個のパラメータが必要となる。
【００２２】
これだけのすべての共分散を用いてモデルを構築することとすると、上述したような、音声認識を行なう際の計算量が膨大となってしまう。
【００２３】
そこで、一般には、このような３９個の係数要素に対して、対角共分散のみを考慮し、複数のガウス分布の混合分布としてシンボル出力確率を近似することが行なわれる。
【００２４】
図７は、このようにして、混合分布を採用した場合のモデル分布の構成を示す図である。
【００２５】
なお図７においては、４つのガウス分布によって、母集団分布が近似されている。より一般的には、Ｎ個（Ｎ：自然数）のガウス分布によって、母集団分布が近似されているものとする。
【００２６】
この場合、各ガウス分布を表現するためには、その各々の平均と分散との２つのパラメータが必要となるため、３９個の要素に対して、必要となるパラメータの個数は、たとえば、（３９×２×Ｎ）個となる。これにより、前述したような対角も非対角もすべての共分散を用いる場合の３９^２個のパラメータを用いる場合に比べて、著しくパラメータ数を低減することが可能となる。
【００２７】
図８は、実測されるケプストラム係数間の共分散を示す図である。
図８において、Ｘ軸およびＹ軸はケプストラムの次元を表わし、Ｚ軸は、共分散の値を示す。したがって、Ｘ軸とＹ軸の対角方向は、自己相関の大きさを示している。上述したような各出力確率を複数のガウス分布の混合分布として近似する場合には、共分散のうち、図８における対角方向の成分のみを考慮していることに相当する。
【００２８】
図８を参照すればわかるように、確かに対角方向の共分散の値が大きな値を有するものの、非対角な共分散の成分も実際には存在しており、より正確な音声認識を行なうためには、このような非対角の共分散成分も考慮したモデル化が必要であることがわかる。
【００２９】
しかしながら、単純に共分散の対角成分も考慮することとしてしまうと、上述したとおり、計算量が増大してしまい、実用的でない。
【００３０】
一方で、近年、観測ベクトルに対する連続値を有する潜在的な表現が、パターン認識のために役立つことが見出されている。なぜならば、それらは観測ベクトル間の相関をコンパクトに表現することができるからである。
【００３１】
たとえば、このような潜在的表現は、プリンシプルコンポーネント分析（ＰＣＡ）（たとえば、非特許文献１を参照）および要因分析（ＦＡ）（たとえば、非特許文献２）によって実行されている。これらの潜在的表現は、イメージプロセッシングや、特に音声認識（たとえば、非特許文献３）における因子分析ＨＭＭ（Ｆａｃｔｅｒ　Ａｎａｌｙｓｉｓ　　ＨＭＭ：ＦＡ−ＨＭＭ）法などさまざまな応用が見出されている。
【００３２】
【非特許文献１】
Ｉ．　Ｔ．　Ｊｏｌｌｉｆｆｅ，　Ｐｒｉｎｃｉｐｌｅ　Ｃｏｍｐｏｎｅｎｔ　Ａｎａｌｙｓｉｓ，　Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，　１９８６．
【００３３】
【非特許文献２】
Ｄ．　Ｒｕｂｉｎ　ａｎｄ　Ｄ．　Ｔｈａｙｅｒ，　“ＥＭ　ａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　ＭＬ　ｆａｃｔｏｒ　ａｎａｌｙｓｉｓ，”　Ｐｓｙｃｈｏｍｅｔｒｉｋａ，　ｖｏｌ．　４７，　ｎｏ．１，　ｐｐ．　６９−７６，　１９８２．
【００３４】
【非特許文献３】
Ｌ．　Ｋ．　Ｓａｕｌ　ａｎｄ　Ｍ．　Ｇ．　Ｒａｈｉｍ，　“Ｍａｘｉｍｕｍ　ｌｉｋｅｌｉｈｏｏｄ　ａｎｄ　ｍｉｎｉｍｕｍ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｅｒｒｏｒ　ｆａｃｔｏｒ　ａｎａｌｙｓｉｓ　ｆｏｒ　ａｕｔｏｍａｔｉｃ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ，”　ＩＥＥＥ　Ｔｒａｎｓ．　ｏｎ　ＳＡＰ，　ｖｏｌ．　８，　ｎｏ．２，　ｐｐ．　１１５−１２５，　Ｍａｒｃｈ　２０００．
【００３５】
【発明が解決しようとする課題】
上述したような従来の潜在表現の方法においては、導入された潜在的な空間におけるベクトルは、その空間をＸで表わすとすると、ガウス分布Ｎ（・；０，Ｉ）分布するものとしている。すなわち、平均値０であって、単位共分散を有するガウス分布であるものとされている。
【００３６】
しかしながら、このような潜在表現（潜在ベクトル）を音声認識に用いた場合に、シンボル出現確率を表現するための確率分布のパラメータ数を抑制しつつ、認識精度を向上させる構成をいかにするべきかについては、必ずしもあきらかでない。
【００３７】
本発明は、上記のような上記のような問題点を解決するためになされたものであって、その目的は、モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能な音声認識システムを提供することである。
【００３８】
【課題を解決するための手段】
上記のような課題を解決するために本発明に係る音声認識システムは、発話に対応する音声に基づいて、音声を測定するフレームごとに特徴情報を抽出するための特徴抽出手段と、予め学習された複数の隠れマルコフモデルを格納するための記憶手段とを備え、隠れマルコフモデルの各々は、隠れ状態に依存する混合ガウス分布により観測ベクトルの出力確率を与える第１の出力確率導出手段と、隠れ状態に独立した第１の潜在ベクトルを生成するための潜在ベクトル生成手段と、隠れ状態と第１の潜在ベクトルとに依存して第２の潜在ベクトルを導出して、第２の潜在ベクトルに応じて観測ベクトルの出力確率を与える第２の出力確率導出手段とを含み、特徴抽出部の出力を受けて、隠れマルコフモデルに基づく音響モデルとのマッチングをとりつつ探索を行うことで音声認識を行う探索手段とを備える。
【００３９】
好ましくは、第１の潜在ベクトルの次元は、第２の潜在ベクトルの次元よりも小さい。
【００４０】
【発明の実施の形態】
［システムの構成］
図１は、本発明の実施の形態１の音声認識システム１００の構成を示す概略ブロック図である。
【００４１】
図１を参照して、音声認識システム１００は、話者（システム利用者）２からの音声を受け取るためのマイクロフォン１０２と、マイクロフォン１０２からの音声入力を受けて音声認識を行うための認識処理部１１０と、認識処理部１１０からの認識結果を表示するための表示出力部（たとえば、ディスプレイ）１２０とを備える。
【００４２】
認識処理部１１０は、認識処理部１１０と外部とのデータの授受を制御するためのデータ入出力部７０と、音声入力を受けて、デジタル信号に変換するためのＡ／Ｄ変換器１０と、Ａ／Ｄ変換器１０の出力を受けて、フィルタリング等の信号処理を行なうための信号処理部２０と、信号処理部２０の出力を受けて、ケプストラム係数等の特徴ベクトルを抽出するための特徴ベクトル抽出部３０と、予め学習等により生成されるＨＭＭによる音韻モデルデータを格納しておくための音響モデルデータベース４０と、認識するべき単語の事前確率に対応する統計データを格納している言語モデルデータベース５０と、特徴ベクトル抽出部３０からの出力を受けて、音響モデルデータベース４０中のデータおよび言語モデルデータベース５０中のデータとに基づいて、入力された特徴ベクトルに対応する認識すべき各音声（たとえば単語）を探索するための探索部６０とを備える。探索部６０は、データ入出力部７０を介して、音声認識の結果を表示出力部１２０出力する。
【００４３】
なお、以下に説明するような音声認識システム１００の処理は、特徴ベクトル抽出部３０や探索部６０が行う処理を記述するためのプログラムと音響モデルデータベース４０と言語モデルデータベース５０とに保持されるべき初期データとを格納した記録媒体から、音声入力機能を有するコンピュータにこれらのプログラムおよびデータをインストールすることによっても実現可能である。このような記録媒体としては、特に限定されないが、たとえば、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等を用いることができる。あるいは、これらのプログラムやデータは、インターネット等の通信回線を介して、音声入力機能を有するコンピュータにダウンロードすることも可能である。
【００４４】
［音響モデルデータベース４０中の音響モデル］
以下、音響モデルデータベース４０に格納される本発明の音響モデルデータについてさらに詳しく説明する。
【００４５】
［一般的な因子分析ＨＭＭ］
以下に説明するように、本発明におけるアプローチの重要な点は、観測ベクトルｙ_ｔ∈Ｒ^Ｎについての音響単位（音素）従属な潜在表現ベクトルｘ_ｔ∈Ｒ^Ｌを導入することと、さらに、潜在ベクトルｘ_ｔについての音響単位独立な潜在表現ベクトルｚ_ｔ∈Ｒ^Ｋを導入することである。潜在表現ベクトルｚ_ｔは、音響単位独立であるために、音響単位従属負荷マトリックスによって、音響単位従属な潜在ベクトルｘ_ｔを生成するためのソースと考えることができる。以下このような潜在ベクトルを２段階に用いて、ＨＭＭを表現する本発明のモデルを「一般的な因子分析ＨＭＭ」と呼ぶ。
【００４６】
図２は、一般化された因子分析ＨＭＭの図形的なモデルを示す図である。
図２において、丸い円と四角とは、それぞれ連続数値および離散数値のノードを示している。ハッチングされたノードは、観測シンボルｙ_ｔ（時刻ｔ）およびｙ_ｔ＋１（時刻ｔ＋１）を示している。また、ｑｔは、ＨＭＭにおける内部状態｛１，…，Ｓ｝のうち、時刻ｔにおける離散的な状態を示している。Ｑ（ｔ）＝（ｑ１，…，ｑｔ，ｑｔ＋１，…，ｑ_Ｔ）は、状態ｐから状態ｑへの一次の状態遷移確率ａ_ｐｑによる離散状態系列を示している。この状態系列は、音声における意味論的な系列を示すものである。
【００４７】
２つの連続値変数ｘ_ｔおよびｙ_ｔは、離散的な状態系列に従属するものであるのに対し、連続変数ｚ_ｔは、離散的な状態系列とは独立なものである。
【００４８】
状態ｑｔにおいて、混合ガウス分布のうちｍｔで表わされるガウス分布（平均μ_ｑｍ，対角分散Σ_ｑｍ）で表わされる分布確率と後に説明するようにベクトルｘ_ｔおよびΛｑに依存して、観測ベクトルｙ_ｔが出力される。
【００４９】
連続値のノードであるｙ_ｔ、ｘ_ｔおよびｚ_ｔは、階層的な構造を有している。最も高い階層においては、ベクトルｘ_ｔは、状態ｑにおける次元Ｌ×Ｋの状態依存負荷マトリックスＣ_ｑによって、以下に示す式（１）〜（２）にしたがって、因子分析によりベクトルｚ_ｔから生成される。
【００５０】
【数１】

【００５１】
ここで、ベクトルζ_ｑｔは、潜在空間Ｘにおけるノイズを表わしている。添え字ｑは状態を示し、添え字ｔは時刻を示す。このノイズは、混合ガウス分布によってモデル化される。この混合ガウス分布は以下の式で表わされる。
【００５２】
【数２】

【００５３】
ここで、この混合ガウス分布においては、各ガウス分布は係数ｃ_ｑｊの重みを有している。また、このガウス分布において、Ｖ_ｑｊは対角共分散である。さらに、Ｍ_ｑ ^ｘは、潜在空間Ｘにおいて、状態ｑに対する混合状態要素の数を示している。
【００５４】
対角共分散Ｖ_ｑｊにおける要素は、同一の値を有するようには制限されているわけではないので、上述した関数は、状態ｑにおける各要素ｊ∈｛１，…，Ｍ_ｑ ^ｘ｝における潜在ベクトルｘ_ｔについての因子分析である。観測値ｙ_ｔは、以下のモデルによって潜在ベクトルｘ_ｔと関連している。
【００５５】
【数３】

【００５６】
この式（３）では、潜在ベクトルｘ_ｔは、ＦＡ−ＨＭＭのモデルとして表現されることを示す。ここで、観測ノイズｖ_ｑｔは、以下の混合ガウス分布に従って分布しているものとする。
【００５７】
【数４】

【００５８】
ここで、各ガウス分布は係数π_ｑｍの重みを有しているものとする。また、Ｍ_ｑ ^ｙは、Ｙ空間における状態ｑの混合要素の数を表わしている。さらに、Σ_ｑｍは、要素（ｎ，ｎ）に対するσ^２ _ｑｍｎを有する対角要素である。
【００５９】
σ^２ _ｑｍｎの値は、ｎ∈（１，…，Ｎ）に対してすべて同一の値をとるように制限されているわけではない。Λ_ｑは、次元Ｎ×Ｌの状態依存の負荷マトリックスである。
【００６０】
図２において見られるように、潜在ベクトルｘ_ｔから観測値ｙ_ｔへのリンクおよびΛ_ｑのリンクが存在しない場合は、このモデルは一般的なＨＭＭとなる。
【００６１】
図３は、このような一般的なＨＭＭの例を示す図である。
従来のＨＭＭにおいては、状態ｑｔにおいて、混合ガウス分布のうちｍｔで表わされるガウス分布（平均μ_ｑｍ，分散Σ_ｑｍ）で表わされる分布確率で、観測ベクトルｙ_ｔが出力される。
【００６２】
さらに、図２において、ベクトルｚ_ｔからｙ_ｔへの確率的なリンクを付加し、かつベクトルｘ_ｔから観測値ｙ_ｔへのリンクを消去すると、これは、上述した非特許文献３に示される因子分析ＨＭＭ（ＦＡ−ＨＭＭ）が得られる。
【００６３】
図４は、このような従来のＦＡ−ＨＭＭの構成を示す図である。
図２と図４とを比べると、図４では、潜在ベクトルｘ_ｔと観測ベクトルｙ_ｔとは同一の次元である必要があるのに対し、図２では、潜在ベクトルｚ_ｔの導入により、より少ない次元のベクトルｚ_ｔから潜在ベクトルｘ_ｔが生成されるので、より少ないパラメータで、非対角の共分散の効果を表す潜在ベクトルｘ_ｔを表現することができる。
【００６４】
すなわち、上述した関数（１）および（２）は潜在ベクトルｘ_ｔの簡潔な表現である。ベクトルｚｔは、意味論的には独立である（すなわち音響的に独立である）。状態に依存するＣ_ｑは、いわゆる「ボーカルトラクトフィルタ（Ｖｏｃａｌ　Ｔｒａｃｔ　Ｆｉｌｔｅｒ）」として動作するので、意味論的に従属したベクトルｘ_ｔが生成され得る。このようなわけで、上述したようなモデルを「一般化された因子分析ＨＭＭ」と呼ぶ。
【００６５】
［一般化された因子分析ＨＭＭ（ＧＦＡ−ＨＭＭ）における最尤パラメータ評価］
系列Ｑ（Ｔ）、Ｘ（Ｔ）、Ｚ（Ｔ）、Ｍ（Ｔ）およびＪ（Ｔ）は、隠れ状態であるため、モデルパラメータΘの最尤評価を反復的ないわゆるＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムによって実行することができる。ＥＭアルゴリズムにおいては、以前のモデルパラメータΘから計算された隠れ状態系列の事後確率について、現在のモデルパラメータΘハット（Θの上部に“＾”がつけられたもの、以下他の変数でも“＾”がつけられたものをハットと呼ぶ）で計算された結合ログ尤度の平均として補助関数Ｑが定義される。
【００６６】
すなわち以下のとおりの定義が行なわれる。
【００６７】
【数５】

【００６８】
つまり、モデルパラメータΘの初期値を設定したのち、補助関数Ｑを最大とするΘハットを最尤推定し、モデルパラメータΘの値をΘハットに設定して、所定の収束条件が満たされるまで、補助関数ＱによるΘハットの最尤推定を繰り返すという手続きをとる。
【００６９】
ここで、δ_ｑｍｊ（ｔ）は、以前のステップで得られているモデルパラメータΘから計算されるものである。
【００７０】
各要素は、それぞれ、｛ａ_ｑｐハット，π_ｑｍハット｝、｛Ｃ_ｑハット，ｃ_ｑｊハット，ξ_ｑｊハット，Ｖ_ｑｊハット｝および｛μ_ｑｍハット，Σ_ｑｍハット｝のそれぞれの関数であるので、パラメータ評価は、これらに対して各々別々に実施することができる。補助関数を解くことは、それらの事後統計が必要となる。
【００７１】
（事後統計の計算）
時刻ｔにおける、状態ｑにおける尤度、空間Ｙにおける混合要素ｍ、空間Ｘにおける混合要素ｊの値が以下のとおり与えられる。
【００７２】
【数６】

【００７３】
ここで、上付き添え字のＴは転置を意味している。マージナライズをすることによって、確率ｐ（ｙ_ｔ｜ｑ，ｍ）と確率ｐ（ｙ_ｔ｜ｑ）とを得ることができる。
【００７４】
以前のモデルパラメータΘ、状態ｑにいる事後確率、空間Ｙにおける混合要素ｍと空間Ｘにおける混合要素ｊの時刻ｔにおける値とが与えられているものとすると、γｑｍｊ（ｔ）＝ｐ（ｑｍｊ｜Ｙ（Ｔ）；　Θ）は、上述した尤度を用いたフォワードバックウォードアルゴリズムによって以下のように得ることができる。
【００７５】
【数７】

【００７６】
上述した事後確率をマージナライズすることで、状態ｑと混合要素ｍにおける事後確率γ_ｑｍ（ｔ）、状態ｑにおける事後確率γ_ｑ（ｔ）とを得ることができる。
【００７７】
連続値の隠れ系列Ｘ（Ｔ）の事後分布に関しては、ベイズの規則に従えば、以下のとおり与えられる。
【００７８】
【数８】

【００７９】
上述した関数の各要素は、ガウス分布であるので、事後分布は、またガウス分布である。事後分布ｐ（ｘ_ｔ｜ｙ_ｔ，ｑ，ｍ，ｊ；Θ）は、ガウス分布Ｎ（ｘ_ｔ；φ^ｘｑｍｊ（ｔ），Ψ^ｘｑｍｊ）として与えられる。
【００８０】
ここで、以下の式が成り立つ。
【００８１】
【数９】

【００８２】
さらに、関数Φ^ｘｑｍｊ（ｔ）を以下のとおり定義する。
【００８３】
【数１０】

【００８４】
式（９）と式（１０）を組合せることとすると、事後平均φ^ｘ _ｑｍ（ｔ）と、事後分散Ψ^ｘ _ｑｍ（ｔ）とは以下のとおり表わされる。
【００８５】
【数１１】

【００８６】
同様に、φ^ｘ _ｑ（ｔ）とΦ^ｘ _ｑ（ｔ）も表わすことができる。
ここで、ｐ（ｚ_ｔ）〜Ｎ（ｚ_ｔ；０，Ｉ）とｐ（ｘ_ｔ｜ｚ_ｔ，ｑ，ｍ，ｊ；Θ）はガウス分布であるので、潜在ベクトルｚ_ｔの事後分布もまたガウス分布Ｎ（ｚ_ｔ；φ^ｚｑｍｊ（ｔ），Ψ^ｚｑｍｊ（ｔ））である。
【００８７】
このようにして、第１および第２のオーダの統計のみが必要となるだけである。
【００８８】
潜在ベクトルｚ_ｔに対する事後統計の計算をこのようにして簡略化することができる。なぜならば、ｘ_ｔの事後平均ベクトルであるφ^ｘ _ｑｍｊ（ｔ）は、関数（１）および（２）に対して変数ｘ_ｔの観測ベクトルとして得られるからである。
【００８９】
このようなわけで同様にして式（９）および（１０）において、変数ｚ_ｔの事後統計は、以下の式で与えられる。
【００９０】
【数１２】

【００９１】
ここでも、関数Φ^ｚｑｍｊ（ｔ）を以下のとおり定義する。
【００９２】
【数１３】

【００９３】
ここで、モデルパラメータΘハットを更新するためのＥＭアルゴリズムは、上述した事後統計の積算を含んでいる。このようなパラメータ評価のためのＥＭアルゴリズムの手続きは次のとおりである。
【００９４】
（パラメータ評価のためのＥＭアルゴリズム）
再評価のための式は以下の式（１３）〜（１５）として与えられる。
【００９５】
【数１４】

【００９６】
負荷行列Λ_ｑハットは、行ごとに評価される。新たな負荷行列Λ_ｑハットの第ｎ番目の行ベクトルλ_ｑｎハットは、以下の式（１６）で表現される。
【００９７】
【数１５】

【００９８】
ここで、Ｌ×Ｌ行列のＧ_ｑｎとＬ次元のベクトルｋ_ｑｎは、以下のとおり定義される。
【００９９】
【数１６】

【０１００】
ここで、ｙ_ｔｎとμ_ｑｍｎとは、それぞれ、現在の観測ベクトルと観測ノイズの平均ベクトルのｎ番目の要素である。
【０１０１】
空間Ｘにおける「観測ベクトル」をφ^ｘｑｍｊ（ｔ）とすると｛Ｃ_ｑハット，ξ_ｑｊハット，Ｖ_ｑｊハット｝の再評価式も上記の式と同様にして導き出される。このような再評価式は以下のとおりである。
【０１０２】
【数１７】

【０１０３】
式（１３）におけるのと同様に、負荷行列Ｃ_ｑハットも、行ごとに計算される。混合分布の重みについての最大化の補助関数（５）は、最終的に以下のような更新式（２２）〜（２３）になる。
【０１０４】
【数１８】

【０１０５】
以上のような手続きにより、モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能となる。
【０１０６】
［実験結果］
（実験条件）
上述したような一般化された因子分析ＨＭＭ（ＧＦＡ−ＨＭＭ）を、通常のＨＭＭと比較した結果を以下説明する。
【０１０７】
このような比較は、オーロラ２データベースに対して行なわれた。このようなオーロラ２データベースについては、文献：Ｄ．　Ｐｅａｒｃｅ，　“Ａｕｒｏｒａ　ｐｒｏｊｅｃｔ：　Ｅｘｐｅｒｉｍｅｎｔａｌ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｅｖａｌｕａｔｉｏｎ　ｏｆ　ｄｉｓｔｒｉｂｕｔｅｄ　ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ　ｆｒｏｎｔ−ｅｎｄｓ，”　ｉｎ　ＩＳＣＡ　ＩＴＲＷ　ＡＳＲ２０００，　Ｓｅｐ．　２０００．に開示されている。
【０１０８】
認識のための特徴は、３９次元の、ケプストラム係数およびその第１および第２次の係数であった。データベースにおける雑音のないトレーニングセット中の１０００個の発声がトレーニングのための音響モデルとして用いられた。
【０１０９】
すべてのシステムにおける音響モデルは６回の反復を有するＥＭアルゴリズムによって訓練された。すべての音響モデルにおいて、状態の数は数字に対しては１０個であり、無音状態に対しては３個であった。
【０１１０】
従来のＨＭＭは、単に、混合要素の数Ｍ^ｙ _ｑの数を適合させることができるのみである。したがって、モデルに対するパラメータの自由度（ＮｏＦＰ）は、Ｓ×（２Ｎ）×Ｍ^ｙ _ｑである。
【０１１１】
ＧＦＡ−ＨＭＭの構成はよりフレキシブルである。空間Ｘにおける混合要素の数、Ｍ^ｘ _ｑおよび空間Ｘの次元Ｌとを変化させた。空間Ｚの次元は一次元としている。また、混合要素の数Ｍ^ｙ _ｑも１とされている。潜在的なパラメータ｛Λ_ｑ，η_ｑｊ，Ｖ_ｑｊ，Ｃ_ｑ｝は、各音響モデルに対する状態間で共有されている。ＧＦＡ−ＨＭＭの単語モデルに対しては、パラメータの自由度ＮｏＦＰは、Ｓ×（２Ｎ）＋（ｎ＋１）×Ｌ＋（２×Ｌ）×Ｍ^ｘ _ｑである。
【０１１２】
（実験結果）
表１は、混合モデルに対するパラメータの自由度と単語の認識精度を従来のＨＭＭのテストによって得られたものである。表１においては、これらの値が空間Ｙにおける混合要素の数Ｍ^ｙ _ｑの関数として示されている。
【０１１３】
【表１】

【０１１４】
表１では、混合要素の数Ｍ^ｙ _ｑを４と設定することにより、最高の認識精度８８．９３％が得られている。そのような場合においてパラメータの自由度ＮｏＦＰは、単語モデルに対して２４９６となっている。
【０１１５】
一方、表２は、ＧＦＡ−ＨＭＭにおける結果である。
【０１１６】
【表２】

【０１１７】
ＧＦＡ−ＨＭＭにおいては、同数のトレーニングデータに対して、従来のＨＭＭを越えるより高い認識精度が達成されている。たとえば、Ｌ＝１を維持したまま、空間Ｘにおける混合要素を増やしていくことによって、認識精度は向上していく。最高の単語認識精度は、Ｌ＝１およびＭ^ｘ _ｑ＝４と設定した場合において９０．９３％である。さらに、従来のＨＭＭによるものに比べてずっと少ないパラメータの自由度でよい。たとえば、この場合においては、パラメータの自由度ＮｏＦＰは６７２である。
【０１１８】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【０１１９】
【発明の効果】
以上説明したとおり、本発明に係る音声認識システムにおいては、モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能である。
【図面の簡単な説明】
【図１】本発明の実施の形態１の音声認識システム１００の構成を示す概略ブロック図である。
【図２】一般化された因子分析ＨＭＭの図形的なモデルを示す図である。
【図３】一般的なＨＭＭの例を示す図である。
【図４】従来のＦＡ−ＨＭＭの構成を示す図である。
【図５】ＨＭＭを図解的に示す概念図である。
【図６】第１のケプストラム係数Ｃ１および第２のケプストラム係数Ｃ２との相関関係を示す図である。
【図７】混合分布を採用した場合のモデル分布の構成を示す図である。
【図８】実測されるケプストラム係数間の共分散を示す図である。
【符号の説明】
２　話者、１０　Ａ／Ｄ変換器、２０　信号処理部、３０　特徴ベクトル抽出部、４０　音響モデルデータベース、５０　言語モデルデータベース、６０　探索部、７０　データ入出力部、１００　音声認識システム、１０２　マイクロフォン、１１０　認識処理部、１２０　表示出力部。

Claims

音声認識システムであって、
発話に対応する音声に基づいて、前記音声を測定するフレームごとに特徴情報を抽出するための特徴抽出手段と、
予め学習された複数の隠れマルコフモデルを格納するための記憶手段とを備え、
前記隠れマルコフモデルの各々は、
隠れ状態に依存する混合ガウス分布により観測ベクトルの出力確率を与える第１の出力確率導出手段と、
前記隠れ状態に独立した第１の潜在ベクトルを生成するための潜在ベクトル生成手段と、
前記隠れ状態と前記第１の潜在ベクトルとに依存して第２の潜在ベクトルを導出して、前記第２の潜在ベクトルに応じて前記観測ベクトルの出力確率を与える第２の出力確率導出手段とを含み、
前記特徴抽出部の出力を受けて、前記隠れマルコフモデルに基づく音響モデルとのマッチングをとりつつ探索を行うことで音声認識を行う探索手段とを備える、音声認識システム。
前記第１の潜在ベクトルの次元は、前記第２の潜在ベクトルの次元よりも小さい、請求項１記載の音声認識システム。