JP2011164336A

JP2011164336A - 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム

Info

Publication number: JP2011164336A
Application number: JP2010026456A
Authority: JP
Inventors: Shinji Watabe; 晋治渡部; Takaaki Hori; 貴明堀; Atsushi Nakamura; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-02-09
Filing date: 2010-02-09
Publication date: 2011-08-25
Anticipated expiration: 2030-02-09
Also published as: JP5249967B2

Abstract

【課題】ＷＦＳＴを用いたネットワーク表現を利用した音声認識パラメータの最適化を図る。
【解決手段】本発明の音声認識装置は、記録部、ＷＦＳＴ合成部、特徴量抽出部、ＷＦＳＴ型ログリニアデコーダ、出力シンボル抽出部を備える。記録部は、発音辞書モデルと言語モデルと音響モデルと重みベクトルαとを記録する。ＷＦＳＴ合成部は、発音辞書モデルと言語モデルと音響モデルを合成し、ＷＦＳＴネットワークを出力する。ＷＦＳＴ型ログリニアデコーダは、特徴量ベクトルの時系列が与えられたときの対数領域でのアーク系列ＡのスコアＷ（Ｘ，Ａ）を、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と、重みベクトルαとの線形表現で表現し、最もスコアの高いアーク系列を出力する。出力シンボル抽出部は、アーク系列に対する単語系列を求め、出力する。
【選択図】図３

Description

本発明は、音声認識装置と音声認識方法、音声認識装置または音声認識方法に用いる重みベクトルを学習するための重みベクトル学習装置と重みベクトル学習方法、およびこれらの装置としてコンピュータを動作させるプログラムに関する。

音声認識装置は、音声データＸ（多くの場合はＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）などのＤ次元特徴量ベクトルの時系列Ｘ＝｛ｘ_１，ｘ_２，…，ｘ_ｔ，…｜ｘ_ｔ∈Ｒ^Ｄ｝）を入力として、単語や音素などの単語系列ｙを出力する装置として考えることができる。現在の確率統計的音声認識装置はこれらの問題を確率論的に解釈し、音声データＸが与えられた際に、単語系列ｙが出力される確率分布ｐ（ｙ｜Ｘ）に対して、確率値が最大となる単語系列ｙ⁻を次のようにして求める問題に帰着させる。

ここで、確率分布ｐ（ｙ｜Ｘ）は大量の学習データから、統計的に推定する。確率分布ｐ（ｙ｜Ｘ）はあらゆる単語系列ｙとそれに相当する音声データＸを用意すれば、原理的に求めることが可能である。しかし一般にそれらのデータを集めるのは困難であるため、次のように式（１）の確率分布を音響モデル、発音辞書モデル、言語モデルと分解するのが一般的である。

ここで、ｓは音素系列もしくは隠れマルコフモデル（ＨＭＭ）の状態系列である。つまり、確率分布ｐ（ｙ｜Ｘ）を直接求めるのではなく、分解された分布である音響モデル、発音辞書モデル、言語モデルを個別に学習し、音声認識をする際には式（２）を用いてそれぞれを合成した上で、認識を行う。

図１は、従来の音声認識装置の機能構成例を示す図である。音声認識装置９００は、特徴量抽出部９１０、単語列探索部９２０、記録部９９０を備える。記録部９９０には、発音辞書モデル、言語モデル、音響モデルが記録されている。特徴量抽出部９１０は、音声データを特徴量ベクトルの時系列に変換する。単語列探索部９２０は、音響モデル・発音辞書モデル・言語モデルを組み合わせたネットワークにおいて、ｐ（Ｘ｜ｓ）ｐ（ｓ｜ｙ）ｐ（ｙ）によって与えられるスコアを算出し、スコアが最大となる単語系列を探索し、その単語系列を認識結果として出力する。単語列探索部９２０は、デコーダと呼ばれることもある。単語列探索部９２０は、モデルの合成、スコアの算出、単語系列探索を一手に担う。音響モデルｐ（Ｘ｜ｓ）は、音素ラベルと音声データから求めることができる。発音辞書モデルｐ（ｓ｜ｙ）は、発音辞書から与えられる。言語モデルｐ（ｙ）は大量のコーパスから学習すればよい。

図１に示した音声認識装置９００では、音声データが与えられた際の単語系列の出力確率ｐ（ｙ｜Ｘ）をダイレクトに求めるのではなく、それを近似的に音響モデルｐ（Ｘ｜ｓ）・発音辞書モデルｐ（ｓ｜ｙ）・言語モデルｐ（ｙ）に分解して、それぞれのモデルパラメータを最適化する。例えば非特許文献１は識別的に音響モデルを、非特許文献２は識別的に言語モデルを最適化している。

また、非特許文献３、４では、ＷＦＳＴ（重み付有限状態トランスデューサ）を利用した音声認識デコーダ（ＷＦＳＴ型デコーダ）が示されている。ＷＦＳＴ型デコーダでは、図１の通常のデコーダ（単語列探索部９２０）のように、音響モデル・発音辞書モデル・言語モデルの合成を行うのではなく、そのような複雑なネットワークの合成および冗長なアークの除去などのネットワークの最適化をＷＦＳＴ合成部で行い、ＷＦＳＴネットワークを出力する。ＷＦＳＴ型デコーダを用いた音声認識装置では、ＷＦＳＴネットワークと音声データから、スコアの最も高い単語系列を出力する。図２は、ＷＦＳＴ型デコーダを用いた音声認識装置の機能構成例を示す図である。音声認識装置８００は、特徴量抽出部９１０、ＷＦＳＴ型デコーダ８２０、ＷＦＳＴ合成部８３０、出力シンボル抽出部８４０、記録部８９０を備える。記録部８９０には、発音辞書モデル、言語モデル、音響モデルが記録されている。ＷＦＳＴ合成部８３０は、音響モデル内のＨＭＭネットワークＨ、音響モデル内のトライフォンなどの音素コンテクストネットワークＣ、発音辞書モデル内のネットワークＬ、言語モデル内のｎ−ｇｒａｍネットワークＧを合成し、ＷＦＳＴネットワークＲを出力し、記録部８９０に記録する。ＷＦＳＴの枠組みにおいては、これらのそれぞれのネットワークを合成し、かつネットワークに対して最適化を行う演算が用意されている。例えば、ＷＦＳＴネットワークＲは下記のような合成演算であらわすことができる。

ここで、○はＷＦＳＴの合成演算を表わす。実際には、ＷＦＳＴ合成演算のみでは冗長なアークが多数生成されてしまう。そのため、ＷＦＳＴ合成部８３０は、決定化や最小化などのＷＦＳＴ演算によってネットワークに対する最適化を行う。ＷＦＳＴの利点は上記の合成演算のみならず、決定化や最小化などのオートマトン理論に基づく様々なアルゴリズムが存在するため、容易にネットワークの最適化が可能な点である（非特許文献３，４参照）。本明細書内ではこのような合成及びネットワーク最適化等の操作を行うモジュールを総称してＷＦＳＴ合成部と呼ぶ。

特徴量抽出部９１０は、音声データを特徴量ベクトルの時系列に変換する。ＷＦＳＴ型デコーダ８２０は、ＷＦＳＴネットワーク内の経路に注目する。ここで、ある経路は、アークの系列で表現される（つまり、Ｍ個のアーク系列はＡ＝｛ａ_１，…，ａ_ｍ，…，ａ_Ｍ｝で表現される）。このときｍ番目のアークａ_ｍには以下のような情報が付随する。

例えば、入力シンボルと出力シンボルは、それぞれＨＭＭの状態ＩＤ、単語（音素認識などの場合は音素）ＩＤとなる。ＷＦＳＴネットワークにファクトライズ演算が施された場合は、入力・出力シンボルが単一のＩＤではなくＩＤの系列で表現される場合もある。ＷＦＳＴ型デコーダでは、式（２）で表現される複雑な階層構造での探索問題を考えるのではなく、アーク系列Ａの探索問題として考える。このとき、探索問題は音声認識用ＷＦＳＴネットワークＲに含まれるあらゆるアーク系列の候補の中から最適な（スコアの高い）アーク系列Ａ⁻＝｛ａ_１ ⁻，…，ａ_ｍ ⁻，…，ａ_Ｍ ⁻｝を求める問題に帰着される。

そして、出力シンボル抽出部８４０が、アークの付随情報を用いて次のように単語系列ｙ⁻を求める。

式（５）のｗ（Ｘ，Ａ）は対数領域でのアークごとの重み係数であり、ＨＭＭの場合は以下のように計算される。

ここで、ｇ（ｘ_ｔ，ｉ［ａ_ｍ］）はＨＭＭ状態ｉ［ａ_ｍ］と音声データｘ_ｔが与えられた上でのフレームｔでの音響スコア（音響モデルから計算可能）である。ちなみに、もし入力シンボルｉ［ａ_ｍ］が何もない場合(イプシロンシンボルが割り当てられる)、ｇは０を返す。γは言語スコアと音響スコアを調節するスケーリングパラメータである。ｂ（ａ_ｍ）とｅ（ａ_ｍ）はａ_ｍにどのフレームの特徴量ベクトルが属するかを示す割り当て情報であり、それぞれ開始時刻と終了時刻をあらわす。この割り当て情報も実際にはＷＦＳＴ型デコーダ８２０の探索過程（式（５））で選ばれる。

D. Povey and P. C. Woodland, "Minimum phone error and I-smoothing for improved discriminative training", In Proc. ICASSP’02, Vol. 1, pp. 13-17, 2002. B. Roark, M. Saraclar, M. Collins, and M. Johnson, "Discriminative language modeling with conditional random fields and the perceptron algorithm", In Proc. ACL’04, 2004. M. Mohri, F. Pereira, and M. Riley, "Weighted finite-state transducers in speech recognition", In Proc. ASR2000, pp. 97-106, 2000. T. Hori, C. Hori, Y. Minami, and A. Nakamura, "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Transactions on Audio, Speech, and Language Processing, Vol. 15, No. 4, pp. 1352-1365, 2007.

図１に示した音声認識装置９００では、単語系列の出力確率ｐ（ｙ｜Ｘ）を近似的に音響モデルｐ（Ｘ｜ｓ）・発音辞書モデルｐ（ｓ｜ｙ）・言語モデルｐ（ｙ）に分解して、それぞれのモデルパラメータを最適化する。したがって、部分的な最適化に留まり、単語列探索部９２０が扱う各モデルが合成されたモデルを直接最適化しているわけではない。よって、この方法では、音声認識装置全体の性能を高める最適化が行われていない。非特許文献１は識別的に音響モデルを、非特許文献２は識別的に言語モデルを最適化しているが、両手法とも各モデルが合成されたモデルを直接最適化してはいない。また、合成されたモデルの直接最適化するという問題に対しても、実際に合成されたモデルは非常に大規模なネットワークとなる。したがって、膨大なネットワークを如何に効率よく表現し、適切に学習を行うかというのが重要な課題である。

一方、図２に示した音声認識装置８００では、従来の音響モデル・発音辞書モデル・言語モデルが合成されたＷＦＳＴネットワークＲでのアーク系列を一つの経路とした最適経路探索問題として音声認識の探索問題を置き換えるアプローチである。その際、式(７)で示したスコアを用いることにより、従来の音声認識と同様に扱うことができる。つまり、音声認識装置８００のメリットの一つは従来階層的に表現されていた音響モデル・発音辞書モデル・言語モデルを、それぞれのネットワークを合成した単一のネットワークで表現できることである。しかし、ＷＦＳＴネットワーク表現を利用し、音響・発音辞書・言語情報を十分に考慮した音声認識パラメータの最適化は従来実現されていなかった。

そこで、本発明では、ＷＦＳＴを用いたネットワーク表現を利用した音声認識パラメータの最適化を目的とする。

本発明の音声認識装置は、記録部、ＷＦＳＴ合成部、特徴量抽出部、ＷＦＳＴ型ログリニアデコーダ、出力シンボル抽出部を備える。記録部は、発音辞書モデルと言語モデルと音響モデルと重みベクトルαとを記録する。ＷＦＳＴ合成部は、発音辞書モデルと言語モデルと音響モデルを合成し、ＷＦＳＴネットワークを出力する。特徴量抽出部は、音声データから特徴量を抽出し、特徴量ベクトルの時系列Ｘを出力する。ＷＦＳＴ型ログリニアデコーダは、特徴量ベクトルの時系列が与えられたときの対数領域でのアーク系列ＡのスコアＷ（Ｘ，Ａ）を、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と、重みベクトルαとの線形表現で表現し、最もスコアの高いアーク系列を出力する。出力シンボル抽出部は、アーク系列に対する単語系列を求め、出力する。なお、重みベクトルαは、あらかじめ定めた数の学習データを用いてアーク系列Ａと素性ベクトルφ（Ｘ，Ａ）のペアを蓄積し、蓄積した結果から推定したものである。

本発明の重みベクトル学習装置は、あらかじめ定めた数の正解単語系列と対応する特徴量ベクトルの時系列Ｘを入力される学習データとし、学習記録部、仮説ＷＦＳＴ型ログリニアデコーダ、正解ＷＦＳＴ合成部、正解ＷＦＳＴ型ログリニアデコーダ、パラメータ更新部を備える。学習記録部は、あらかじめ定められたＷＦＳＴネットワークと重みベクトルαとを記録する。仮説ＷＦＳＴ型ログリニアデコーダは、ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と最もスコアの高い正解アーク系列Ａを、仮説素性ベクトルφ（Ｘ，Ａ⁻）、仮説アーク系列Ａ⁻として出力する。正解ＷＦＳＴ合成部は、ＷＦＳＴネットワークと単語系列を合成し、正解アーク系列Ａ＾を出力する正解ＷＦＳＴネットワークを出力する。正解ＷＦＳＴ型ログリニアデコーダは、正解ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘと正解アーク系列Ａ＾から得られる正解素性ベクトルφ（Ｘ，Ａ＾）と、最もスコアの高い正解アーク系列Ａ＾を出力する。パラメータ更新部は、仮説ＷＦＳＴ型ログリニアデコーダが出力した仮説アーク系列Ａ⁻に対する単語系列が正解単語系列と異なる場合に、重みベクトルαを、正解素性ベクトルφ（Ｘ，Ａ＾）と仮説素性ベクトルφ（Ｘ，Ａ⁻）を用いて更新する。

本発明では、ＷＦＳＴネットワークの各アークに依存するモデルパラメータをシンプルな対数線形モデル（ログリニアモデル）を用いる。したがって、本発明の音声認識装置は、膨大なネットワーク中のパラメータを効率よく推定できる。また、本発明の重みベクトル学習装置は、適した重みベクトルを学習できる。

従来の音声認識装置の機能構成例を示す図。従来のＷＦＳＴ型デコーダを用いた音声認識装置の機能構成例を示す図。実施例１の音声認識装置の機能構成例を示す図。実施例１の音声認識装置の処理フローを示す図。実施例１変形例の音声認識装置の機能構成例を示す図。重みベクトルの学習の処理フローを示す図。重みベクトルを更新する処理で使用される情報とそれらの情報の流れを付加した実施例２の重みベクトル学習装置の機能構成例を示す図。重みベクトルを平均化する処理で使用される情報とそれらの情報の流れを付加した実施例２の重みベクトル学習装置の機能構成例を示す図。重みベクトル学習装置の処理フローを示す図。効果を確認する実験の条件を示す図。音素コンテクスト非依存ＨＭＭ（ＣＩ）による実験結果を示す図。音素コンテクスト依存ＨＭＭ（ＣＤ）による実験結果を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施例１の音声認識装置の機能構成例を図３に、実施例１の音声認識装置の処理フローを図４に示す。図４（Ａ）は、ＷＦＳＴネットワークを合成する処理フローを、図４（Ｂ）は音声認識の処理フローを示している。音声認識装置１００は、記録部１９０、ＷＦＳＴ合成部８３０、特徴量抽出部９１０、ＷＦＳＴ型ログリニアデコーダ１２０、出力シンボル抽出部８４０を備える。記録部１９０は、あらかじめ発音辞書モデルと言語モデルと音響モデルと重みベクトルαとを記録している。ＷＦＳＴ合成部８３０は、記録部１９０に記録されている発音辞書モデルと言語モデルと音響モデルを合成し、ＷＦＳＴネットワークを出力し、記録部１９０に記録する（Ｓ８３０）。音声認識フローでは、まず、特徴量抽出部９１０が、音声データから特徴量を抽出し、特徴量ベクトルの時系列Ｘを出力する（Ｓ９１０）。次に、ＷＦＳＴ型ログリニアデコーダ１２０は、特徴量ベクトルの時系列が与えられたときの対数領域でのアーク系列ＡのスコアＷ（Ｘ，Ａ）を、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と、重みベクトルαとの線形表現で表現し、最もスコアの高いアーク系列を出力する（Ｓ１２０）。出力シンボル抽出部８４０は、アーク系列に対するシンボル系列（単語系列）を求め、出力する（Ｓ８４０）。なお、重みベクトルαは、あらかじめ定めた数の学習データを用いてアーク系列Ａと素性ベクトルφ（Ｘ，Ａ）のペアを蓄積し、蓄積した結果から推定したものである。

ＷＦＳＴ型ログリニアデコーダ１２０の原理
次に、ＷＦＳＴ型ログリニアデコーダ１２０の原理について説明する。本発明では、式（７）に示されたスコア計算式を、次式のようにベクトル同士の内積で表現する。

ここで、φ（Ｘ，ａ_ｍ）は音声データＸとアークａ_ｍにより得られる素性ベクトル、α_ａｍはアークａ_ｍの重みベクトルであり、学習データから推定可能である。学習データＸからアークａ_ｍの重みベクトルを推定する方法の例としては、後述の平均化パーセプトロンアルゴリズムなどがある。本発明では、このように対数領域でのスコアを素性ベクトルの線形表現であらわすモデル（ログリニアモデルと呼ぶ）を用いる。つまり，本発明のＷＦＳＴでは、アークに付随する重みｈ（式（４））をスカラーで表現するのではなく、変わりにα_ａｍを与える。ちなみに、

と設定したときに、Ｗ（Ｘ，ａ_ｍ）は式（７）のｗ（Ｘ，ａ_ｍ）になることから、式（８）は従来のＷＦＳＴ型デコーダで用いられるスコア（式（７））の一般表現と考えることもできる。素性ベクトルに関しては、音響・発音辞書・言語モデルから様々なものを与えることができる。またはリッチトランスクリプションと総称される、音声データに付随する単語系列以外の話者情報や感情情報・環境情報などの様々なトランスクリプション情報を素性ベクトルに加えることができる。例えば、次のシンプルな素性ベクトルを用いればよい。

ここで、右辺第１行は従来の音響スコア（たとえば、ＨＭＭに対するフォワードアルゴリズムで算出した音響スコア）、第２行は割り当てられたフレーム数、第３行は割り当てられた音声データ（特徴量ベクトル）の和である。この素性表現は非常にシンプルであるが（例えば、特徴量ベクトル次元を３９としたときには、アークごとに４１次元のベクトル）、アーク数が大変膨大になるため、全ての素性ベクトルの次元は音響モデルや言語モデルの総パラメータ数を時には上回るほど膨大な数に上る。このようにして、本発明で提案するログリニアモデルは従来の音響モデルや言語モデル以上の表現力を持つ。

このログリニアモデルを用いることにより、経路Ａに対する総スコアＷ（Ｘ，Ａ）はアーク系列の和から、アークＩＤごとの和に書き換えることができる。

ここで、ＫはＷＦＳＴネットワーク内のアークの総数であり、ｋ番目のアークａ_ｋに対して、素性ベクトルφ_ｋ（Ｘ，Ａ）を次のように定義する。

ここで、δ_ａｍ，ｋはクロネッカーのデルタ関数であり、ａ_ｍ＝ｋのとき１を、それ以外のとき０を返す。さらに、素性ベクトルφ（Ｘ，Ａ）と重みベクトルαを、
φ（Ｘ，Ａ）＝（φ_１（Ｘ，Ａ），φ_２（Ｘ，Ａ），…，φ_Ｋ（Ｘ，Ａ））^Ｔ
α＝（α_１，α_２，…，α_Ｋ）^Ｔ
とし、アークＩＤごとの素性・重みベクトルを連結させると、音声データＸが与えられた際の経路Ａに対するスコアＷ（Ｘ，Ａ）は次のように重みベクトルと素性ベクトルの内積で表現される。

Ｗ（Ｘ，Ａ）＝φ（Ｘ，Ａ）・α （１２）
つまり、図３のＷＦＳＴ型ログリニアデコーダ１２０の“対数領域でのアーク系列ＡのスコアＷ（Ｘ，Ａ）を、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と、重みベクトルαとの線形表現で表現する”とは、例えば式（１２）の表現である。

このように本発明の音声認識装置では、ある仮説が与えられた上での認識過程を高次元重みベクトルと高次元素性ベクトルの内積で表現することができる。本発明の音声認識装置はこの表現を用いるので、膨大なネットワーク中のパラメータを効率よく推定できる。また、この表現は重みベクトルのαの推定の際に便利な表現である。したがって、重みベクトルの学習でも容易に、適した重みベクトルを学習できる。

［変形例］
図５は、重みベクトル学習装置を備えた音声認識装置の機能構成を示す図であり、図６は重みベクトルの学習の処理フローを示している。音声認識装置２００は、重みベクトル学習装置３００も備えており、その他の構成は音声認識装置１００と同じである。本発明の場合、従来のＷＦＳＴネットワークのアークに付随する情報（式（４））において、重みｗをベクトル表現に拡張する必要がある。また、ＷＦＳＴ型のデコーディングのみを目的とする場合は、ＷＦＳＴネットワークのアークにＩＤ情報を付与しないのが通常である。そこで、本発明の重みベクトル学習装置３００は、アークＩＤをＷＦＳＴネットワークのアークに埋め込む。したがって、重みベクトル学習装置３００は、アーク系列Ａごとに素性ベクトルφ（Ｘ，Ａ）を蓄積し、重みベクトルαをＮ個の学習データ｛（Ｘ^１，ｙ^１），…，（Ｘ^Ｎ，ｙ^Ｎ）｝を用いて推定する（Ｓ３００）。ここで、Ｘ^ｎはｎ番目の特徴量ベクトルの時系列、ｙ^ｎはｎ番目のシンボル系列（単語系列）を示している。本変形例の音声認識装置は、このような構成なので、実施例１と同様の効果が得られる。

なお、重みベクトル学習装置３００を音声認識装置の外部に備え、学習結果である重みベクトルαのデータのみを音声認識装置の記録部に記録してもよい（このように配置した場合が実施例１の音声認識装置１００になる）。

本実施例では、重みベクトル学習について詳細に説明する。本実施例では、まず、原理の説明を行う。重みベクトルの推定は、最尤法や識別学習法、最急降下法などの様々な最適化アプローチが存在する。本実施例では、近年系列データを対象にしたログリニアモデルの学習問題としてよく用いられる平均化パーセプトロンアルゴリズムを例にして説明を行う。ｎ番目の学習サンプル（音声データＸ^ｎと対応する正解シンボル系列ｙ^ｎが与えられる）に注目したとき、ＷＦＳＴネットワークＲ内の最適仮説ｙ^−ｎは次のようなＷＦＳＴ型デコーダによって得ることができる。

ここで、ａ^−ｎは仮説アーク系列である。本発明における平均化パーセプトロンでは、正解単語系列（正解シンボル系列）ｙ^ｎを出力するアーク系列を求める必要がある。これを正解アーク系列ａ＾^ｎと呼ぶ。正解アーク系列を得るために、正解アーク系列を出力することが可能なアクセプター型のＷＦＳＴネットワークＹ^ｎを用意する。そのとき、正解アーク系列は次のように求めることができる。

ここで合成されたネットワーク内のアークのインデックスは、音声認識用ＷＦＳＴネットワークのインデックスと同じものが付与される。このとき、もしＸ^ｎが誤って認識されたすなわちｙ^ｎ≠ｙ^−ｎの場合に、重みベクトルα^ｎを以下の式でα^ｎ＋１に更新する。

これは一般的なパーセプトロンによる更新式であり、ρは学習係数である。式（１５）の更新式は全ての学習データ（Ｎ個の学習データ）に対して行われ、更にそれらの手続きが反復的に実行される（例えば、Ｊ回反復される。なお、Ｊはあらかじめ定めた数とする）。平均化パーセプトロンでは、次のような学習データごと、反復計算のステップごとに得られる全ての重みベクトルα^ｎ，ｊを、次のように平均化することにより得られる。

ここで、ｊは反復計算における各ステップをあらわす指標であり、Ｊは反復の回数である。

次に、重みベクトル学習装置の具体例について説明する。図７と図８は重みベクトル学習装置の機能構成例を、図９は重みベクトル学習装置の処理フローを示している。なお、図７は、重みベクトルを更新する処理で使用される情報とそれらの情報の流れを付加した図である。図８は、重みベクトルを平均化する処理で使用される情報とそれらの情報の流れを付加した図である。

重みベクトル学習装置３００は、Ｎ個の正解単語系列と対応する特徴量ベクトルの時系列を入力される学習データ｛（Ｘ^１，ｙ^１），…，（Ｘ^Ｎ，ｙ^Ｎ）｝とし、学習記録部３９０、仮説ＷＦＳＴ型ログリニアデコーダ３２５、正解ＷＦＳＴ合成部３３０、正解ＷＦＳＴ型ログリニアデコーダ３２０、パラメータ更新部３５０、重みベクトル平均化部３６０を備える。学習記録部３９０は、あらかじめ定められたＷＦＳＴネットワークと重みベクトルα（重みベクトルαの初期状態）とを記録しておく。初期状態となる重みベクトルが特にない場合には、最初の重みベクトルとしてα^１＝（０，０，…，０）のように、アークの総数Ｋのすべてに対して重みを０としておいてもよい。

重みベクトル学習装置３００は、ｎ（学習データの順番を示す１〜Ｎの整数）に１を、ｊ（現在の処理が何回目の繰返しかを示す１〜Ｊの整数、Ｊは学習の繰返し回数）に１を代入する（Ｓ３０１）。そして、重みベクトル学習装置３００は、ｎ番目の単語系列ｙ^ｎと特徴量ベクトルの時系列Ｘ^ｎとを入力データとする（Ｓ３０２）。仮説ＷＦＳＴ型ログリニアデコーダ３２５は、ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘ^ｎとアーク系列Ａから得られる素性ベクトルφ（Ｘ^ｎ，Ａ）と最もスコアの高い正解アーク系列Ａを、仮説素性ベクトルφ（Ｘ^ｎ，Ａ^−ｎ）、仮説アーク系列Ａ^−ｎとして出力し、学習記録部３９０に記録する（Ｓ３２５）。例えば、式（１３）のように仮説アーク系列Ａ^−ｎを求めればよい。

正解ＷＦＳＴ合成部３３０は、ＷＦＳＴネットワークと単語系列ｙ^ｎを合成し、正解アーク系列Ａ＾を出力する正解ＷＦＳＴネットワークを出力する（Ｓ３３０）。正解ＷＦＳＴ型ログリニアデコーダ３２０は、正解ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘと正解アーク系列Ａ＾^ｎから得られる正解素性ベクトルφ（Ｘ^ｎ，Ａ＾^ｎ）と、最もスコアの高い正解アーク系列Ａ＾^ｎを出力し、学習記録部３９０に記録する（Ｓ３２０）。例えば、式（１４）のように正解アーク系列Ａ＾^ｎを求めればよい。

パラメータ更新部３５０は、仮説ＷＦＳＴ型ログリニアデコーダ３２５が出力した仮説アーク系列Ａ^−ｎに対する単語系列ｙ^−ｎが正解単語系列ｙ^ｎと異なる場合に、重みベクトルα^ｎ，ｊを、正解素性ベクトルφ（Ｘ^ｎ，Ａ＾^ｎ）と仮説素性ベクトルφ（Ｘ，Ａ^−ｎ）を用いて更新し、重みベクトルα^{ｎ＋１，ｊ}を得る（Ｓ３５０）。例えば、式（１５）のように重みベクトルα^{ｎ＋１，ｊ}を求めればよい。重みベクトル学習装置３００は、ｎ＝Ｎ−１かを確認し（Ｓ３０３）、Ｎｏの場合にはｎの値に１を加え（Ｓ３０６）、ステップＳ３０２に戻る。ステップＳ３０３がＹｅｓの場合には、ｊ＝Ｊかを確認し（Ｓ３０４）、Ｎｏの場合には重みベクトルα^Ｎ，ｊを重みベクトルα^{１，ｊ＋１}とし（Ｓ３０７）、ｎに１を代入し、ｊの値に１を加え（Ｓ３０８）、ステップＳ３０２に戻る。ステップＳ３０４がＹｅｓの場合には、重みベクトル更新手段３０５の処理を終了し、ステップＳ３６０に進む。

重みベクトル平均化部３６０は、学習データごと、反復計算のステップごとに得られる全ての重みベクトルα^ｎ，ｊを、式（１６）のように平均化し、学習記録部３９０に記録する（Ｓ３６０）。

実施例１で説明したように、本発明の音声認識装置では、ある仮説が与えられた上での認識過程を高次元重みベクトルと高次元素性ベクトルの内積で表現することができる。この表現は重みベクトルのαの推定の際に便利な表現である。したがって、重みベクトル学習装置は、容易に適した重みベクトルを学習できる。

効果の確認
本発明の音声認識装置は、従来のモデルでは表現できないコンテクストや単語モデルなどが表現でき、全体最適化ができる。以下では連続音素認識実験を使って本発明の効果を検証する。ＴＩＭＩＴ連続音素認識実験では、音素音響モデルと音素言語モデル（音素バイグラム）モデルを用いた。この場合、ＷＦＳＴ型デコーダは音素音響モデルと音素言語モデルを合成したネットワークの探索問題を扱うことになる。本発明では従来法として、音素音響モデルと音素言語モデル各々を学習データから個別に求める従来法と、それらが合成されたネットワーク上でのモデルを学習データにより求める本発明との比較を行う。合成されたネットワークにおいては、音素バイグラムの制約から、音素コンテクスト表現が内包されており、従来法に比べてより精細なモデルを構築していると期待される。

実験条件を図１０に示す。音声データの特徴量ベクトルは１２次元ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）と対数パワー、それらの１階差分Δ、２階差分値からなる３９次元ベクトルを用いた。音響モデルはleft to right 型ＨＭＭを用い、時間軸方向の状態数は音素ごとに３状態とした。音素カテゴリー数は４８個であり、音素誤り率を計算する際には４８カテゴリーを３９カテゴリーに縮約した。言語モデルは音素バイグラムを用いた。

学習データは３，６９６発話からなり、評価データは１９２発話である。ＨＭＭ内のガウス分布の共分散行列は対角行列（diag.）もしくは非対角要素も考慮した通常の全共分散行列（full）の２種類を用意し、それぞれ混合数を１，２，４，８，１６，３２混合としてモデルを構築し実験を行った。音素コンテクスト非依存ＨＭＭ（ＣＩ）及び音素コンテクスト依存ＨＭＭ（ＣＤ）による実験結果をそれぞれ図１１及び図１２に示す。本発明（ＤＭ）の比較として、従来アプローチで音響モデルに対する最尤学習（ＭＬ）法、識別学習法（誤り最小化学習（ＭＣＥ：E. McDermott and S. Katagiri, “String-level MCE for continuous phoneme recognition”, In Proc. Eurospeech, pp. 123-126, 1997.）、マージン最大化学習（LM：F. Sha and L. K. Saul, “Comparison of large margin training to other discriminative methods for phonetic recognition by hidden Markov models”, In ICASSP’07, Vol. 4, pp. 313-316, 2007.）を用いた。なお、図１１の実験結果は、各混合数（n mix.）、共分散行列が対角行列（diag.）か通常の行列（Full）の場合の本発明（DM）と最尤学習法（ML）、識別学習法（誤り最小化学習（MCE）、マージン最大化学習（LM））との音素誤り率による比較を示している。図１１の実験においては、音響モデルは音素コンテクスト非依存モデルである。図１２の実験結果は、各混合数（n mix.）、共分散行列が対角行列（diag.）か通常の行列（Full）の場合の本発明（DM）と最尤学習法（ML）の音素誤り率による比較を示している。図１２の実験においては、音響モデルは音素コンテクスト依存モデルである。なお本発明（DM）に必要な素性ベクトルの要素である音響スコアは、最尤学習法（ML）によって得られた音響モデルから算出した。従って本発明（DM）の図１１、図１２における認識性能は、混合数・共分散行列の種類・コンテクスト依存性等の各実験条件により得られるML音響モデルの音響スコアを用いて本発明（DM）を実施した際の性能である。実験結果より、モデルの複雑度が小さい（混合数が少ない、コンテクスト非依存、対角表分散行列）の場合は、顕著に本発明が従来法を上回っているのがわかる。例えば、本実験中で最もモデルの複雑度が小さい音素コンテクスト非依存（ＣＩ）、対角共分散（Diag.）、１混合（1mix.）モデルの場合、ＭＬと比較して最大で５．８％、識別学習法と比べても３％の改善効果が得られているのがわかる。本発明は認識ネットワーク全体の最適化を考慮することによって表現力が向上しているといえる。

また、モデルの複雑度が増すごとに提案法との差分が小さくなるという結果も、従来法の表現力が向上し、本発明とのモデル表現力における差が小さくなるという考察から道理的な結果であるといえる。

プログラム
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１００、２００、８００、９００音声認識装置
１２０ＷＦＳＴ型ログリニアデコーダ
１９０、８９０、９９０記録部
３００重みベクトル学習装置３０５重みベクトル更新手段
３２０正解ＷＦＳＴ型ログリニアデコーダ
３２５仮説ＷＦＳＴ型ログリニアデコーダ
３３０正解ＷＦＳＴ合成部３５０パラメータ更新部
３６０重みベクトル平均化部３９０学習記録部
８２０ＷＦＳＴ型デコーダ８３０ＷＦＳＴ合成部
８４０出力シンボル抽出部９１０特徴量抽出部
９２０単語列探索部

Claims

発音辞書モデルと言語モデルと音響モデルと重みベクトルαとを記録する記録部と、
前記発音辞書モデルと前記言語モデルと前記音響モデルを合成し、ＷＦＳＴネットワークを出力するＷＦＳＴ合成部と、
音声データから特徴量を抽出し、特徴量ベクトルの時系列Ｘを出力する特徴量抽出部と、
特徴量ベクトルの時系列が与えられたときの対数領域でのアーク系列ＡのスコアＷ（Ｘ，Ａ）を、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と、重みベクトルαとの線形表現で表現し、最もスコアの高いアーク系列を出力するＷＦＳＴ型ログリニアデコーダと、
アーク系列に対する単語系列を求め、出力する出力シンボル抽出部と
を備える音声認識装置。
請求項１記載の音声認識装置であって、
前記記録部に記録された重みベクトルαは、あらかじめ定めた数の学習データを用いてアーク系列Ａと素性ベクトルφ（Ｘ，Ａ）のペアを蓄積し、蓄積した結果から推定したものである
ことを特徴とする音声認識装置。
請求項１記載の音声認識装置であって、
あらかじめ定めた数の正解単語系列と対応する特徴量ベクトルの時系列Ｘを入力される学習データとし、
ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と最もスコアの高い正解アーク系列Ａを、仮説素性ベクトルφ（Ｘ，Ａ⁻）、仮説アーク系列Ａ⁻として出力する仮説ＷＦＳＴ型ログリニアデコーダと、
前記ＷＦＳＴネットワークと前記単語系列を合成し、正解アーク系列Ａ＾を出力する正解ＷＦＳＴネットワークを出力する正解ＷＦＳＴ合成部と、
前記正解ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘと正解アーク系列Ａ＾から得られる正解素性ベクトルφ（Ｘ，Ａ＾）と、最もスコアの高い正解アーク系列Ａ＾を出力する正解ＷＦＳＴ型ログリニアデコーダと、
前記仮説ＷＦＳＴ型ログリニアデコーダが出力した仮説アーク系列Ａ⁻に対する単語系列が前記正解単語系列と異なる場合に、前記重みベクトルαを、前記正解素性ベクトルφ（Ｘ，Ａ＾）と前記仮説素性ベクトルφ（Ｘ，Ａ⁻）を用いて更新するパラメータ更新部
も備えることを特徴とする音声認識装置。
あらかじめ定めた数の正解単語系列と対応する特徴量ベクトルの時系列Ｘを入力される学習データとし、
あらかじめ定められたＷＦＳＴネットワークと重みベクトルαとを記録する学習記録部と、
前記ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と最もスコアの高い正解アーク系列Ａを、仮説素性ベクトルφ（Ｘ，Ａ⁻）、仮説アーク系列Ａ⁻として出力する仮説ＷＦＳＴ型ログリニアデコーダと、
前記ＷＦＳＴネットワークと前記単語系列を合成し、正解アーク系列Ａ＾を出力する正解ＷＦＳＴネットワークを出力する正解ＷＦＳＴ合成部と、
前記正解ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘと正解アーク系列Ａ＾から得られる正解素性ベクトルφ（Ｘ，Ａ＾）と、最もスコアの高い正解アーク系列Ａ＾を出力する正解ＷＦＳＴ型ログリニアデコーダと、
前記仮説ＷＦＳＴ型ログリニアデコーダが出力した仮説アーク系列Ａ⁻に対する単語系列が前記正解単語系列と異なる場合に、前記重みベクトルαを、前記正解素性ベクトルφ（Ｘ，Ａ＾）と前記仮説素性ベクトルφ（Ｘ，Ａ⁻）を用いて更新するパラメータ更新部
を備える重みベクトル学習装置。
あらかじめ記録部に、発音辞書モデルと言語モデルと音響モデルと重みベクトルαとを記録しておき、
前記発音辞書モデルと前記言語モデルと前記音響モデルを合成し、ＷＦＳＴネットワークを出力するＷＦＳＴ合成ステップと、
音声データから特徴量を抽出し、特徴量ベクトルの時系列Ｘを出力する特徴量抽出ステップと、
特徴量ベクトルの時系列が与えられたときの対数領域でのアーク系列ＡのスコアＷ（Ｘ，Ａ）を、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と、重みベクトルαとの線形表現で表現し、最もスコアの高いアーク系列を出力するＷＦＳＴ型ログリニアデコードステップと、
アーク系列に対する単語系列を求め、出力する出力シンボル抽出ステップと
を有する音声認識方法。
請求項５記載の音声認識方法であって、
前記記録部に記録された重みベクトルαは、アーク系列Ａごとに素性ベクトルφ（Ｘ，Ａ）を蓄積し、重みベクトルをあらかじめ定めた数の学習データを用いて推定したものである
ことを特徴とする音声認識方法。
請求項５記載の音声認識方法であって、
あらかじめ定めた数の正解単語系列と対応する特徴量ベクトルの時系列Ｘを入力される学習データとし、
ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と最もスコアの高い正解アーク系列Ａを、仮説素性ベクトルφ（Ｘ，Ａ⁻）、仮説アーク系列Ａ⁻として出力する仮説ＷＦＳＴ型ログリニアデコードステップと、
前記ＷＦＳＴネットワークと前記単語系列を合成し、正解アーク系列Ａ＾を出力する正解ＷＦＳＴネットワークを出力する正解ＷＦＳＴ合成ステップと、
前記正解ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘと正解アーク系列Ａ＾から得られる正解素性ベクトルφ（Ｘ，Ａ＾）と、最もスコアの高い正解アーク系列Ａ＾を出力する正解ＷＦＳＴ型ログリニアデコードステップと、
前記仮説ＷＦＳＴ型ログリニアデコードステップが出力した仮説アーク系列Ａ⁻に対する単語系列が前記正解単語系列と異なる場合に、前記重みベクトルαを、前記正解素性ベクトルφ（Ｘ，Ａ＾）と前記仮説素性ベクトルφ（Ｘ，Ａ⁻）を用いて更新するパラメータ更新ステップ
も有することを特徴とする音声認識方法。
あらかじめ定めた数の正解単語系列と対応する特徴量ベクトルの時系列Ｘを入力される学習データとし、
学習記録部に、あらかじめ定められたＷＦＳＴネットワークと重みベクトルαとを記録しておき、
前記ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘとアーク系列Ａから得られる素性ベクトルφ（Ｘ，Ａ）と最もスコアの高い正解アーク系列Ａを、仮説素性ベクトルφ（Ｘ，Ａ⁻）、仮説アーク系列Ａ⁻として出力する仮説ＷＦＳＴ型ログリニアデコードステップと、
前記ＷＦＳＴネットワークと前記単語系列を合成し、正解アーク系列Ａ＾を出力する正解ＷＦＳＴネットワークを出力する正解ＷＦＳＴ合成ステップと、
前記正解ＷＦＳＴネットワークを用いて、特徴量ベクトルの時系列Ｘと正解アーク系列Ａ＾から得られる正解素性ベクトルφ（Ｘ，Ａ＾）と、最もスコアの高い正解アーク系列Ａ＾を出力する正解ＷＦＳＴ型ログリニアデコードステップと、
前記仮説ＷＦＳＴ型ログリニアデコードステップが出力した仮説アーク系列Ａ⁻に対する単語系列が前記正解単語系列と異なる場合に、前記重みベクトルαを、前記正解素性ベクトルφ（Ｘ，Ａ＾）と前記仮説素性ベクトルφ（Ｘ，Ａ⁻）を用いて更新するパラメータ更新ステップ
を有する重みベクトル学習方法。
請求項１から３のいずれかに記載の音声認識装置、もしくは請求項４記載の重みベクトル学習装置としてコンピュータを動作させるプログラム。