JP5150542B2

JP5150542B2 - パターン認識装置、パターン認識方法、及び、プログラム

Info

Publication number: JP5150542B2
Application number: JP2009076965A
Authority: JP
Inventors: 浩司藤村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-03-26
Filing date: 2009-03-26
Publication date: 2013-02-20
Anticipated expiration: 2029-03-26
Also published as: JP2010230868A; US20100246966A1; US9147133B2

Description

本発明は、パターン認識装置、パターン認識方法、及び、プログラムに関する。

音声認識を行う際には、あらかじめ音声の特徴を学習したモデルと認識対象音声の特徴を比較して認識対象音声がどのモデルに近いかを判定する。不特定話者音声認識では、モデルの学習時と認識時では話者・雑音環境が異なるため、モデルと入力音声特徴との間にバイアスが生じる。このバイアスによる影響を減らすための代表的な手法としてＣＭＮ法（非特許文献１参照。）が挙げられる。

ＣＭＮ法は、ある定められた時間区間の特徴量を平均し、その平均値を特徴量から引くことによってバイアスの影響を取り除く。ＣＭＮ法はバイアスを減らすための手法として効果的でかつ計算量も少ない。

バイアスの影響を取り除く他の方法としてＭＬＬＲ法（非特許文献２参照。）とＳＢＲ法（特許文献１参照。）とがある。ＭＬＬＲ法では、バイアスが時間変化しないという条件を仮定している。一方、ＳＢＲ法はガウス分布によって表現されたＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）をモデルとしている。ＳＢＲ法のバイアスの補正は、ＭＬＬＲ法のバイアス部の計算部においてガウス分布の分散を単位行列により近似したものである。

ＳＢＲ法は、各モデルの平均ベクトルと特徴ベクトルの差の平均を補正ベクトルとして特徴ベクトルから差し引くことによって特徴ベクトルを補正し、雑音の影響等も考慮した補正が可能である。

米国特許第５５９０２４２号明細書

B. Atal, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification," J.Acoust. Soc. AM., vol.55, pp.1304-1312, 1974. C.J. Leggetter and P.C. Woodland, "Maximum likelihood linear regression for speaker adaptation of continuous-density hidden Markov models," Computer Speech and Language, vol.9, pp.171-185, 1995.

しかしながら、ＳＢＲ法は、モデル分布の分散を近似しているため、バイアスの補正性能が劣化することがある。一方、ＭＬＬＲ法では、補正ベクトルが、モデルの平均ベクトルと特徴ベクトルとの差に標準偏差の重みを掛けた加重平均であり、バイアスが時間変化しないという条件を仮定しているため、バイアスが逐次変化するような場合には、補正性能が劣化する。

本発明は、上記の点に鑑みて、これらの問題を解消するために発明されたものであり、逐次変化するバイアスに対して，モデル分布のばらつきに対応して性能の良いバイアス補正を行うことを目的としている。

上述した課題を解決し、目的を達成するために、本発明のパターン認識装置は、入力データから特徴ベクトルを計算する特徴ベクトル計算部と、１以上の平均ベクトル及び１以上のパターンの分散を表す分散ベクトルで表される複数のモデルから、前記特徴ベクトルとの距離が所定の範囲内である選択モデルを選択するモデル選択部と、前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値に、該成分と次元が同一の前記差ベクトルの成分と同一の正負の符号を乗じた値が成分である修正方向ベクトルを、前記選択モデル毎に計算し、さらに、前記特徴ベクトルを補正するための補正ベクトルを前記修正方向ベクトルに基づいて計算する補正ベクトル計算部と、前記補正ベクトルを用いて前記特徴ベクトルを補正する特徴ベクトル補正部と、補正された前記特徴ベクトルとの距離が近いモデルを前記複数のモデルから選択し、選択したモデルを用いて補正された前記特徴ベクトルに対するパターン認識を行うパターン認識部と、を有することを特徴とする。

本発明のパターン認識装置、パターン認識方法、及び、プログラムによれば、逐次変化するバイアスに対して，モデル分布のばらつきに対応して性能の良いバイアス補正を行うことが可能になる。

第１の実施形態に係るパターン認識装置を示すブロック図である。第１の実施形態に係るパターン認識方法を示すフローチャートを示す図である。第２の実施形態に係るパターン認識装置を示すブロック図である。第２の実施形態に係るパターン認識方法を説明するフローチャートを示す図である。実施の形態にかかるパターン認識装置のハードウェア構成を示す説明図である。

以下、本実施の形態を図面に基づき説明する。「入力パターン」は、音声データ、文字データ、又は、画像データ等が含まれる。また、「パターン」は、信号の波形等に限らず、波形に係るパラメータ等を含む。

（第１の実施形態）
図１は、第１の実施形態に係るパターン認識装置を示すブロック図である。図１のパターン認識装置は、特徴ベクトル計算部１０１、モデル格納部１０２、モデル選択部１０３、補正ベクトル計算部１０４、補正ベクトル格納部１０５、及び、特徴ベクトル補正部１０６を有する。

特徴ベクトル計算部１０１は、入力パターンを音声認識処理に用いる特徴ベクトルに変換する。モデル格納部１０２は、学習データにより取得された、特徴ベクトルのモデルを格納する。特徴ベクトルのモデルは、モデル選択部１０３、パターン認識部１０７で使用される。

モデル選択部１０３は、特徴ベクトル計算部１０６で出力される特徴ベクトルを入力として、その特徴ベクトルに対して距離の近いモデルを選択し、そのモデルパラメータを補正ベクトル計算部１０４に出力する。なお、複数のモデルが選択されてもよい。

補正ベクトル計算部１０４は、モデル選択部１０３で選択されたモデルと、特徴ベクトル計算部１０１で計算された特徴ベクトルと、から、補正ベクトルを計算する。補正ベクトル格納部１０５は、補正ベクトル計算部１０４が出力する補正ベクトルを格納する。

特徴ベクトル補正部１０６では、補正ベクトル格納部１０５に保存されている補正ベクトルを用いて、特徴ベクトル計算部１０１から出力される特徴ベクトルを補正する。パターン認識部１０７では、特徴ベクトル補正部１０６から出力される補正後の特徴ベクトルを用いてパターン認識を行う。より詳細には、モデル格納部１０２に格納されているモデルのうち、補正後の特徴ベクトルとの距離が近いモデルを選択し、そのモデルに対応する情報が、パターン認識の結果として出力される。

図２は第１の実施形態に係るパターン認識方法を示すフローチャートである。本実施の形態では、パターン認識方法として、音声認識装置による音声認識方法について説明する。なお、モデルは混合ガウス分布を出力確率分布とするモデルであればよく、例えば、ＨＭＭ、又は、ＤＰマッチング等でよい。

図２のステップＳ１０１では、特徴ベクトル計算部１０１が、デジタル化された音声波形を一定時間周期（以下、「フレーム」という。）毎に特徴ベクトルに変換する。ステップＳ１０２では、認識対象の入力パターンが存在するかを判断する。入力パターンである音声波形がなければ音声認識処理を終了し、存在すればステップＳ１０３に進む。なお、特徴ベクトルはどのような方法で作成されたものであってもよく、例えば、ＭＦＣＣやＬＰＣ係数でもよい。

ステップＳ１０３からステップＳ１０８の処理は、フレーム毎に行う。ステップＳ１０３では、モデル選択部１０３が、ステップＳ１０１において特徴ベクトル計算部１０１が作成した特徴ベクトルとの“距離”が近いモデルＭ個選択する。“距離”が近いモデルとは、その特徴ベクトルに対する尤度の高いモデルである。

本実施例のモデルは、混合ガウス分布を出力分布とするＨＭＭであるが、ここでは、ＨＭＭを構成する各状態の各混合分布を構成するガウス分布をそれぞれでひとつのモデルとみなし、その上で尤度の高いガウス分布をＭ個選択する。

なお、特徴ベクトルとの“距離”は尤度に制限されず、例えば、特徴ベクトルと平均ベクトルとのユークリッド距離なども適用してよい。

ステップＳ１０４では、補正ベクトル計算部１０４において、モデル選択部１０３で選択されたガウス分布と、特徴ベクトル計算部１０１で出力される特徴ベクトルと、から補正ベクトルを計算する。補正ベクトルの計算方法は次のように行う。
まず、各モデルｍについて、修正値ｌ_ｍｎを式（１）によって求める。

式（１）中、係数αの値は、予め認識により得られる情報が対応づけられている学習データのテストセットを用い、実験的に定められるとよい。例えば、音声認識に用いるテストセットは、音声の周辺の環境、音声が入力される装置の特性等によって異なるとよい。係数αは、また、音声認識処理を行う際に、認識結果をフィードバックすることにより、動的に変更されてもよい。

次に、次式（２）により、選択されたモデルＭ個のモデルに対して修正値ｌ_ｍｎを平均し、ｘｎに対するｎ次元目の修正値ｌ_ｎを求める。この修正値ｌ_ｎを第ｎ次元成分とするベクトルを修正方向ベクトルと呼ぶ。

なお、ｌ_ｎの求め方は式（２）に限定されず、式（３）のように尤度による荷重平均であってもよい。

次に、修正方向ベクトルを用いて補正ベクトルを式（４）によって求める。

なお、ｂ_{ｎ、ｔ−１}は、補正ベクトル格納部１０５に格納される。

なお、補正ベクトル計算式は、式（４）に限定されず、式（５）のように修正方向ベクトルを時間区間Ｔで平均したものでもよい。

なお、ｔａ＜Ｔであれば、式（５）に代えて、ｂ_ｎｔａを、ｔ＝０からｔ＝ｔ_ａまでの時間平均とする。

補正ベクトルは、また、式（６）のように、荷重平均であってもよい。

ｂ_ｎｔを求めた後、さらに、次式（７）により、補正具合を調整する定数γを掛け最終的な補正ベクトルｂ_ｎｔ’を求める。

ステップＳ１０５では、式（１）から式（７）により算出した補正ベクトルを補正ベクトル格納部１０５に格納するか否か判定する。格納する場合には、ステップＳ１０６に進み、格納しない場合には、ステップＳ１０７に進む。判定はどのような基準で行ってもよく、例えば、算出された補正ベクトルを無条件に毎時刻格納してもよい。また、一定フレーム間隔毎、例えば３フレーム毎に１回格納してもよい。

ステップＳ１０６では、補正ベクトルが、補正ベクトル格納部１０５に格納される。なお、補正ベクトル格納部１０５に格納されている補正ベクトルの初期値は、どのような値であってもよく、例えば、全次元の値が０である零ベクトル、又は、入力信号中の無声区間の特徴ベクトルを平均することによって得られた雑音を表すベクトル等を用いるとよい。

ステップＳ１０７では、特徴ベクトル補正部１０６が、補正ベクトル格納部１０５に格納された補正ベクトルを用いて、ステップＳ１０４で算出された特徴ベクトルを補正する。補正ベクトル格納部１０５に補正ベクトルが格納されていない時刻の補正は、最後に格納された補正ベクトルをその時刻の補正ベクトルとして使用するとよい。

補正方法は、時刻tの補正ベクトルをb_t、時刻tの特徴ベクトルをx_t、補正された特徴ベクトルをx’_t、とすると、次式（８）で表される。

ステップＳ１０８では、パターン認識部１０７が、特徴ベクトル補正部１０６で補正された特徴ベクトルを用いて音声認識を行う。混合分布ＨＭＭを用いた音声認識の具体的な方法に関しては、公知の文献を参照するとよい。

なお、本例では音声認識装置を例として説明した。本実施の形態では、モデルが平均と分布のばらつき表す量によって表現されており、特徴ベクトルの修正量を式（１）によって定義し、選択されたモデルに関する修正量の平均から補正量を求める。

なお、この量は、ベクトルのような複数次元の量でも、スカラー値（1次元の値）でもよい。したがって、モデルが平均と分布の特性を表現する量（例えば分散、尖度等）であるパターン認識装置に適用できる。

また、本実施の形態では、特徴ベクトルは時系列データであったが、修正方向ベクトルをそのまま補正ベクトルとすることにより、入力特徴ベクトルが時系列データではない場合に適用できる。より詳細には、補正ベクトルの計算の際に、式（４）においてβ＝１、式（７）においてγ＝１とする。

（第２の実施形態）
本実施の形態では、混合ガウス分布を出力確率分布にもつＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を使った音声認識装置において、“枝刈り”（ｐｒｕｎｉｎｇ）と呼ばれる手法を適用した音声認識を行う。より詳細には、モデル選択において、この枝刈りの結果を利用する。

図３は、第２の実施形態に係るパターン認識装置を示すブロック図である。なお、図１と図３において同一の符号を付した各部の動作は同一であるので、ここでは説明を省略する。

パターン認識部２０７は、出力結果を算出する機能はパターン認識部１０７と同じであるが、モデル選択部２０３に対しモデル選択候補を出力する。モデル選択部２０３は、パターン認識部２０７から出力されるモデル選択候補の中から、モデルを選択する。モデルを選択する動作は、モデル選択部１０３と同様である。

図４は第２の実施形態に係るパターン認識方法を説明するフローチャートである。図４のステップＳ２０１では、音声波形をフレーム毎に特徴ベクトルに変換する。ステップＳ２０２では、認識対象となる入力パターンが存在するか否かを判断する。認識対象である処理すべき音声波形がなければ音声認識処理を終了し、音声波形がある場合には、ステップＳ２０３に進む。

ステップＳ２０３では、特徴ベクトル補正部１０６が、補正ベクトル格納部１０５に格納されている補正ベクトルを読み出し、入力特徴ベクトルを補正する。

ステップＳ２０４では、パターン認識部２０７が、補正された特徴ベクトルを用いて音声認識を実行する。この際、時刻ｔにおいて、尤度が所定の閾値以上である認識結果候補のみを時刻（ｔ＋１）での計算対象とし、閾値以下のものは計算対象から除外する。これを、“枝狩り”という。

第１の実施例では、モデルの選択基準は、入力された特徴ベクトルとの“距離”の近いものを選択する。ステップＳ２０５では、枝刈りにより計算対象として残ったモデル候補の中から、計算に使用するモデルを選択する。

ステップＳ２０６及びステップＳ２０７の処理は、図２のステップＳ１０３及びステップＳ１０４の処理と同一であるので、ここでは説明を省略する。なお、ステップＳ２０７で算出された補正ベクトルは、次の時刻である（ｔ＋１）のステップＳ２０３において使用する。

なお、モデル選択方法の別法として、枝刈りで残った候補の中から、さらに入力特徴ベクトルに距離が近い上位Ｘ個のモデルだけを選択するような方法であってもよい。

ステップＳ２０８では、式（１）から式（７）により算出した補正ベクトルを補正ベクトル格納部１０５に格納するか否か判定する。格納する場合には、ステップＳ２０９に進み、格納しない場合には、ステップＳ２０１に戻って処理を繰り返す。判定はどのような基準で行ってもよく、例えば、算出された補正ベクトルを無条件に毎時刻格納してもよい。また、一定フレーム間隔毎、例えば３フレーム毎に１回格納してもよい。

ステップＳ２０９では、補正ベクトルが、補正ベクトル格納部１０５に格納される。なお、補正ベクトル格納部１０５に格納されている補正ベクトルの初期値は、どのような値であってもよく、例えば、全次元の値が０である零ベクトル、又は、入力信号中の無声区間の特徴ベクトルを平均することによって得られた雑音を表すベクトル等を用いるとよい。

（コンピュータ等による実現）
次に、第１の実施の形態及び第２の実施の形態の何れか一以上の実施の形態に係るパターン認識装置のハードウェア構成について図５を用いて説明する。図５は、実施の形態にかかるパターン認識装置のハードウェア構成を示す説明図である。

実施の形態にかかるパターン認識装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５１などの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５２やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

実施の形態にかかるパターン認識装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

実施の形態にかかるパターン認識装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｋＲｅｃｏｒｄａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、実施の形態にかかるパターン認識装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかるパターン認識装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施の形態にかかるパターン認識装置で実行されるプログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。

以上のように、本発明の実施の形態にかかるパターン認識装置は、バイアスが逐次変化する入力パターンの認識に有用であり、特に、音声認識に適している。

１０１特徴ベクトル計算部
１０３モデル選択部
１０４補正ベクトル計算部
１０６特徴ベクトル補正部
１０７パターン認識部
２０７パターン認識部

Claims

入力データから特徴ベクトルを計算する特徴ベクトル計算部と、
１以上の平均ベクトル及び１以上のパターンの分散を表す分散ベクトルで表される複数のモデルから、前記特徴ベクトルとの距離が所定の範囲内である選択モデルを選択するモデル選択部と、
前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値に、該成分と次元が同一の前記差ベクトルの成分と同一の正負の符号を乗じた値が成分である修正方向ベクトルを、前記選択モデル毎に計算し、さらに、前記特徴ベクトルを補正するための補正ベクトルを前記修正方向ベクトルに基づいて計算する補正ベクトル計算部と、
前記補正ベクトルを用いて前記特徴ベクトルを補正する特徴ベクトル補正部と、
補正された前記特徴ベクトルとの距離が近いモデルを前記複数のモデルから選択し、選択したモデルを用いて補正された前記特徴ベクトルに対するパターン認識を行うパターン認識部と、
を有することを特徴とするパターン認識装置。
前記複数のモデルは、それぞれ混合ガウス分布を出力確率密度に持つことを特徴とする請求項１に記載のパターン認識装置。
前記補正ベクトルは、前記修正方向ベクトルの平均、前記修正方向ベクトル毎に該修正方向ベクトルの尤度を乗じる荷重平均、又は、前記選択モデルのうち、最も尤度の高い選択モデルの修正方向ベクトルであることを特徴とする請求項１又は２に記載のパターン認識装置。
前記特徴ベクトル計算部は、前記入力パターンに対し、異なる時刻毎に前記特徴ベクトルを計算し、
前記補正ベクトル計算部は、さらに、前記補正ベクトルを、時間方向に逐次平均することを特徴とする請求項１乃至３の何れか一項に記載のパターン認識装置。
前記補正ベクトル計算部は、
前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値が負の値を有する場合に、該成分に対応する前記修正方向ベクトルの成分の値を所定の値とすることを特徴とする請求項１乃至４の何れか一項に記載のパターン認識装置。
コンピュータを、
入力データから特徴ベクトルを計算する特徴ベクトル計算部、
１以上の平均ベクトル及び１以上のパターンの分散を表す分散ベクトルで表される複数のモデルから、前記特徴ベクトルとの距離が所定の範囲内である選択モデルを選択するモデル選択部、
前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値に、該成分と次元が同一の前記差ベクトルの成分と同一の正負の符号を乗じた値が成分である修正方向ベクトルを、前記選択モデル毎に計算し、さらに、前記特徴ベクトルを補正するための補正ベクトルを前記修正方向ベクトルに基づいて計算する補正ベクトル計算部、
前記補正ベクトルを用いて前記特徴ベクトルを補正する特徴ベクトル補正部、
補正された前記特徴ベクトルとの距離が近いモデルを前記複数のモデルから選択し、選択したモデルを用いて補正された前記特徴ベクトルに対するパターン認識を行うパターン認識部、
として機能させるためのプログラム。
特徴ベクトル計算部が、入力データから特徴ベクトルを計算する特徴ベクトル計算ステップと、
モデル選択部が、１以上の平均ベクトル及び１以上のパターンの分散を表す分散ベクトルで表される複数のモデルから、前記特徴ベクトルとの距離が所定の範囲内である選択モデルを選択するモデル選択ステップと、
補正ベクトル計算部が、前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値に、該成分と次元が同一の前記差ベクトルの成分と同一の正負の符号を乗じた値が成分である修正方向ベクトルを、前記選択モデル毎に計算し、さらに、前記特徴ベクトルを補正するための補正ベクトルを前記修正方向ベクトルに基づいて計算する補正ベクトル計算ステップと、
特徴ベクトル補正部が、前記補正ベクトルを用いて前記特徴ベクトルを補正する特徴ベクトル補正ステップと、
パターン認識部が、補正された前記特徴ベクトルとの距離が近いモデルを前記複数のモデルから選択し、選択したモデルを用いて補正された前記特徴ベクトルに対するパターン認識を行うパターン認識ステップと、
を含むことを特徴とするパターン認識方法。