JP6193726B2

JP6193726B2 - 音声認識用ｗｆｓｔ作成装置と音声認識装置とそれらの方法とプログラムと記録媒体

Info

Publication number: JP6193726B2
Application number: JP2013226121A
Authority: JP
Inventors: 山口　義和; 義和山口; 祥子山畠
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-10-31
Filing date: 2013-10-31
Publication date: 2017-09-06
Anticipated expiration: 2033-10-31
Also published as: JP2015087556A

Description

この発明は、複数種類の音響モデル及び言語モデルを用いた重み付有限状態トランスデューサ(以下、ＷＦＳＴと称する)を作成する音声認識用ＷＦＳＴ作成装置と、音声認識装置と、それらの方法とプログラムと記録媒体に関する。

ＷＦＳＴを用いた音声認識は、音響モデルや辞書、言語モデルなど音声認識に必要な情報を統合したＷＦＳＴに変換し、入力である音声認識対象音声を、ＷＦＳＴを探索空間と見たててデコードし、音声認識結果文字列に変換する手法である。ＷＦＳＴを用いた音声認識については、例えば特許文献１や２に開示されている。

特許第５１７５３２５号公報特許第４４７８０８８号公報

様々な話者、環境、話題を対象とした音声認識サービスで認識精度の高いＷＦＳＴを用いた音声認識で実現するためには、複数の音響モデルと複数の言語モデルを同時に利用する必要がある。同時に利用する音響モデルと言語モデルの数が増えるとＷＦＳＴサイズが増大し、音声認識処理に要するメモリが膨大になる課題がある。

この発明は、このような課題に鑑みてなされたものであり、複数の音声認識サービスに対応する場合でもメモリサイズの増加を少なくしたＷＦＳＴを作成できる音声認識用ＷＦＳＴ作成装置と、音声認識装置と、それらの方法とプログラムと記録媒体を提供することを目的とする。

この発明の音声認識用ＷＦＳＴ作成装置は、共通ユニグラムＷＦＳＴ作成部と、共通ユニグラムＷＦＳＴ記憶部と、第１段ＷＦＳＴ作成部と、第２段ＷＦＳＴ作成部と、を具備する。共通ユニグラムＷＦＳＴ作成部は、複数の言語モデルからそれぞれの単語の出現頻度を読み込んで共通ユニグラム値を計算し、当該共通ユニグラム値から共通ユニグラムＷＦＳＴを作成し、当該共通ユニグラム値と上記共通ユニグラムＷＦＳＴを出力する。共通ユニグラムＷＦＳＴ記憶部は、共通ユニグラム値と共通ユニグラムＷＦＳＴを記憶する。第１段ＷＦＳＴ作成部は、Ｎ個（Ｎ≧１）の音響モデルのＷＦＳＴとトライフォンＷＦＳＴと辞書ＷＦＳＴと共通ユニグラムＷＦＳＴとを合成演算した音響モデルごとのＷＦＳＴを作成し、全ての上記音響モデルごとのＷＦＳＴを結合させて第１段ＷＦＳＴを構成する。第２段ＷＦＳＴ作成部は、共通ユニグラム値を入力として、複数の言語モデルのそれぞれを参照して各言語モデルごとのｎグラム確率に対して共通ユニグラム値を除去したｎグラム確率を算出して当該ｎグラム確率のＷＦＳＴを作成し、全ての言語モデルの各言語モデルのｎグラム確率のＷＦＳＴを結合させて第２段ＷＦＳＴを構成する。

また、この発明の音声認識装置は、上記音声認識用ＷＦＳＴ作成装置で作成した第１段ＷＦＳＴを記憶した第１段ＷＦＳＴ記憶部と、第２段ＷＦＳＴを記憶した第２段ＷＦＳＴ記憶部と、音声認識部と、を具備する。音声認識部は、第１段ＷＦＳＴ記憶部と第２段ＷＦＳＴ記憶部を参照して多段on-the-fly合成による音声認識を実行する。

本発明の音声認識用ＷＦＳＴ作成装置によれば、複数の言語モデルからそれぞれの単語の出現頻度を読み込んで共通ユニグラム値を計算して共通ユニグラムＷＦＳＴを作成する。そして、複数の音響モデルの各音響モデルごとに共通ユニグラムで共有化した第１段ＷＦＳＴを構成するので、第１段ＷＦＳＴのメモリサイズを抑制することができる。また、この発明の音声認識装置は、上記した音声認識用ＷＦＳＴ作成装置で作成した第１段ＷＦＳＴと第２段ＷＦＳＴを用いて音声認識を行うので、複数の音声認識サービスに対応する場合でも、少ないメモリ量で高精度な音声認識を可能にする。

この発明の音声認識用ＷＦＳＴ作成装置１００の機能構成例を示す図。音声認識用ＷＦＳＴ作成装置１００の動作フローを示す図。単語ｗの共通ユニグラムＷＦＳＴを示す図。第１段ＷＦＳＴの例を示す図。この発明の音声認識装置２００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音声認識用ＷＦＳＴ作成装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識用ＷＦＳＴ作成装置１００は、共通ユニグラムＷＦＳＴ作成部１１と、共通ユニグラムＷＦＳＴ記憶部１２と、第１段ＷＦＳＴ作成部１６と、第２段ＷＦＳＴ作成部１７と、を具備する。音声認識用ＷＦＳＴ作成装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現される。

共通ユニグラムＷＦＳＴ作成部１１は、複数の言語モデル１０_１,１０_２,…,１０_Ｎからそれぞれの単語の出現頻度を読み込んで共通ユニグラム値を計算し、当該共通ユニグラム値から共通ユニグラムＷＦＳＴを作成し、当該共通ユニグラム値と上記共通ユニグラムＷＦＳＴを出力する。言語モデル１０_１は例えばスポーツ分野の言語モデル、言語モデル１０_２は例えば芸能分野の言語モデル、言語モデル１０_Ｎは例えば政治分野の言語モデルである。このように複数の分野ごとに言語モデルが用意されている。なお、各言語モデルには単語（ユニグラムのみで良い）の出現頻度情報も含むものとする。

言語モデル１０_＊（１≦＊≦Ｎ）における単語ｗの共通ユニグラム値（出現確率）Ｐｃ（ｗ）は次式で計算される。

ここでＣ_＊（ｗ）は言語モデル１０_＊における単語ｗの出現頻度、Ｗは全ての言語モデルに含まれる単語数である。共通ユニグラムＷＦＳＴ作成部１１は、全ての単語ｗについて共通ユニグラム値（式（１））を計算して求め、共通ユニグラムモデルを形成する。共通ユニグラムモデルとは、全ての単語ｗを含む共通ユニグラム値の集合（例えば、ファイル）のことである。

図３に、共通ユニグラムＷＦＳＴを示す。共通ユニグラムＷＦＳＴは３つのノード（node）で構成され、各ノードには状態番号が記される。初期状態は状態０とする。二重線で囲まれた状態２は終了状態を表す。アークは状態遷移を表す。状態０から状態１へ遷移するアークに併記されている＜ｓ＞は文頭を表す。状態１から出て状態１に戻るアークが、単語ｗの入力に対して単語ｗを共通ユニグラム値で表される出現確率で出力されることを表している。このアークが単語数分作成される。状態１から状態２へのアークに併記されている＜／ｓ＞は文末を表す。共通ユニグラムＷＦＳＴは、共通ユニグラムＷＦＳＴ記憶部１２に記憶される。

第１段ＷＦＳＴ作成部１６は、Ｍ個（Ｍ≧１）の音響モデル１３_１,１３_２,…１３_Ｍと、トライフォンＷＦＳＴ１４と、辞書ＷＦＳＴ１５と、共通ユニグラム作成部１１で作成した共通ユニグラムＷＦＳＴとを合成演算した音響モデルごとのＷＦＳＴを求め、その音響モデルごとのＷＦＳＴを全て結合させて第１段ＷＦＳＴを作成する（ステップＳ１６）。

合成演算した音響モデル１３_＊（１≦＊≦Ｍ）ごとのＷＦＳＴを次式に示す。

ここでｏｐｔはＷＦＳＴの最適化演算、○はＷＦＳＴの合成演算を表す。Ｈ_＊は各音響モデルのＷＦＳＴである。ＣはトライフォンＷＦＳＴであり、音響モデルＷＦＳＴが出力するトライフォンを音素に変換するＷＦＳＴである。Ｌは音素を単語に変換する辞書ＷＦＳＴである。Ｇｃは共通ユニグラムＷＦＳＴである。ＷＦＳＴの合成・最適化方法は、例えば参考文献１（堀貴明,塚田元,「重み付き有限状態トランスデューサによる音声認識」情報処理,2004年10月15日,第45巻10号）に記載されているように周知である。

第１段ＷＦＳＴ作成部１６は、合成・最適化した音響モデルごとのＷＦＳＴ（Ｈ_＊ＣＬＧｃ）を、全て結合して第１段ＷＦＳＴを構成する。図４に、第１段ＷＦＳＴの例を示す。図４を参照して、第１段ＷＦＳＴ作成部１３の動作を説明する。

第１段ＷＦＳＴ作成部１３は、状態ｓ１（初期状態）と状態ｓ２を作成する。次に入力シンボルと出力シンボルが共にε（空）で、状態ｓ１から音響モデル１を含むＨ_１ＣＬＧｃの初期状態へ接続する遷移を作成する。同様に全ての音響モデルに対応するＨ_２ＣＬＧｃ,…,Ｈ_ＭＣＬＧｃについても状態ｓ１からの遷移を作成する。次に入力シンボルと出力シンボルが共にεで、全てのＨ_１ＣＬＧｃ〜Ｈ_ＭＣＬＧｃのそれぞれの終了状態から状態ｓ２へ接続する遷移を作成して１つの第１段ＷＦＳＴを構成する。

このように第１段ＷＦＳＴは、音響モデルごとのＷＦＳＴ（Ｈ_＊ＣＬＧｃ）が並列に結合されて構成される。第１段ＷＦＳＴは、第１段ＷＦＳＴ作成部１６から外部に出力される。若しくは第１段ＷＦＳＴ記憶部１９に記憶するようにしても良い。

第２段ＷＦＳＴ作成部１７は、共通ユニグラム値Ｐｃ（ｗ）を入力として、複数の言語モデル１０_１,１０_２,…１０_Ｎを参照して各言語モデルごとのｎグラム確率に対して共通ユニグラム値Ｐｃ（ｗ）を除去したｎグラム確率を算出して当該ｎグラム確率のＷＦＳＴを作成し、全ての言語モデルの上記ｎグラム確率のＷＦＳＴを並列に結合した第２段ＷＦＳＴを作成する（ステップＳ１７）。共通ユニグラム値Ｐｃ（ｗ）を除去した各言語モデルごとのｎグラム確率Ｐｃ_＊（ｗ｜ｕｖ）（ｕ,ｖ,ｗは単語）は、次式で計算できる。

第２段ＷＦＳＴ作成部１７は、全ての言語モデルについて、共通ユニグラム値Ｐｃ（ｗ）を除去した各言語モデルごとのｎグラム確率Ｐ_＊（ｗ｜ｕｖ）から、言語モデルごとのＷＦＳＴを作成する。そして、その各言語モデルごとのＷＦＳＴを並列に結合して第２段ＷＦＳＴを構成する。第２段ＷＦＳＴは、式（３）から明らかなようにトライグラム確率Ｐ_＊（ｗ｜ｕｖ）から、共通ユニグラム値Ｐｃ（ｗ）を除去したｎグラム確率に基づくＷＦＳＴである。

各言語モデルごとのＷＦＳＴを並列に結合して第２段ＷＦＳＴを構成する方法は、図４を参照して説明した第１段ＷＦＳＴと同じである。作成された第２段ＷＦＳＴは外部に出力される。若しくは第２段ＷＦＳＴ記憶部２０に記憶するようにしても良い。

以上説明した共通ユニグラム作成部１１と第１段ＷＦＳＴ作成部１６と第２段ＷＦＳＴ作成部１７の処理は、全ての音響モデルと言語モデルについての処理が終了するまで繰り返される（ステップＳ１８のＮｏ）。このステップＳ１１とステップＳ１６とステップＳ１７の時系列動作の制御と動作終了の制御は制御部１８が行う。この制御部１８の機能は、この実施例の特別な技術的特徴では無く一般的なものである。

以上説明した音声認識用ＷＦＳＴ作成装置１００は、共通ユニグラムＷＦＳＴ（Ｇｃ）を用いることで第１段ＷＦＳＴのサイズを大きく削減することができる。具体的には、第１段ＷＦＳＴの数をＮ−１個削減することができる。

なお、共通ユニグラム作成部１１では、言語モデルごとの単語ｗの出現頻度を数えて共通ユニグラム値を計算して求める例を説明したが、単語ｗの出現頻度を利用しないで共通ユニグラム値を求めるようにしても良い。その場合は、言語モデルがそもそも持っている単語ｗのユニグラム確率Ｐ_＊（ｗ）を用いて共通ユニグラム値Ｐｃ（ｗ）を次式で計算する。

共通ユニグラム値Ｐｃ（ｗ）を求めた後の第１段ＷＦＳＴを作成する方法は、上記したものと同じである。ユニグラム確率Ｐ_＊（ｗ）は、各言語モデルにおいて既知の値であるので、単語ｗの出現頻度を別途準備する必要が無い。

なお、以上の説明は、全ての言語モデル１０_＊に含まれる単語は共通しておなじである前提で行って来た。各言語モデル１０_＊に含まれる単語は異なっていても良い。言語モデル１０_＊に含まれる単語が異なる場合は、辞書ＷＦＳＴ１５に言語モデル１０_＊に含まれる全ての単語を登録しておき、その全ての単語に対して式（１）若しくは式（４）により算出した共通ユニグラム値Ｐｃ（ｗ）を求めれば良い。その後の第１段ＷＦＳＴを作成する方法は、上記した方法と同じである。

〔音声認識装置〕
図５に、この発明の音声認識装置２００の機能構成例を示す。音声認識装置２００は、上記した音声認識用ＷＦＳＴ作成装置１００で作成した第１段ＷＦＳＴを記憶した第１段ＷＦＳＴ記憶部１９と、第２段ＷＦＳＴを記憶した第２段ＷＦＳＴ記憶部２０と、音声認識部２１０とを具備する。

音声認識部２１０は、第１段ＷＦＳＴ記憶部１９と第２段ＷＦＳＴ記憶部２０に記憶された第１段ＷＦＳＴと第２段ＷＦＳＴを用いて多段on-the-fly合成による音声認識を実行する。音声認識部２１０は、共通ユニグラムＷＦＳＴ（Ｇｃ）を用いることでサイズを縮小した第１段ＷＦＳＴと、共通ユニグラムを、トライグラムに変換する第２段ＷＦＳＴを探索して音声認識処理を行うので、少ないメモリサイズでも精度の良い音声認識処理を行うことができる。多段on-the-fly音声認識については参考文献２（Takaaki Hori,Atsushi Nakamura “Generalized Fast On-the-fly Composition Algorithm fot WFST-Based Speech Recognition”,Proc. Of INTERSPEECH 2005.）に記載されているように周知である。

本発明の音声認識用ＷＦＳＴ作成装置１００は、複数の音響モデルのそれぞれに対応したＷＦＳＴを、共有ユニグラムで共有化したＷＦＳＴを第１段ＷＦＳＴとするので、音響モデルごとに作成する第１段ＷＦＳＴのサイズを抑制することが出来る。また、本発明の音声認識装置２００は、この発明の音声認識用ＷＦＳＴ作成装置１００で作成した第１段ＷＦＳＴと第２段ＷＦＳＴを用いて多段on-the-fly音声認識を行うので、小さなメモリサイズでも高精度な音声認識を行うことが可能である。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数の言語モデルに含まれる各単語について全言語モデルにおける当該単語の出現頻度の総和と全言語モデルにおける全単語の出現頻度の総和の比である共通ユニグラム値を計算し、当該共通ユニグラム値から共通ユニグラムＷＦＳＴを作成し、当該共通ユニグラム値と上記共通ユニグラムＷＦＳＴを出力する共通ユニグラムＷＦＳＴ作成部と、
上記共通ユニグラム値と上記共通ユニグラムＷＦＳＴを記憶する共通ユニグラムＷＦＳＴ記憶部と、
Ｎ個（Ｎ≧１）の音響モデルについて各音響モデルのＷＦＳＴとトライフォンＷＦＳＴと辞書ＷＦＳＴと上記共通ユニグラムＷＦＳＴとを合成演算した音響モデルごとのＷＦＳＴを作成し、全ての上記音響モデルごとのＷＦＳＴを結合させて第１段ＷＦＳＴを構成する第１段ＷＦＳＴ作成部と、
上記共通ユニグラム値を入力として、複数の言語モデルのそれぞれを参照して各言語モデルごとのｎグラム確率に対して上記共通ユニグラム値を除去したｎグラム確率を算出して当該ｎグラム確率のＷＦＳＴを作成し、全ての言語モデルの上記各言語モデルのｎグラム確率のＷＦＳＴを結合させて第２段ＷＦＳＴを構成する第２段ＷＦＳＴ作成部と、
を具備する音声認識用ＷＦＳＴ作成装置。
複数の言語モデルに含まれる各単語について全言語モデルにおける当該単語のユニグラム確率の総和と全言語モデルにおける全単語のユニグラム確率の総和の比である共通ユニグラム値を計算し、当該共通ユニグラム値から共通ユニグラムＷＦＳＴを作成し、当該共通ユニグラム値と上記共通ユニグラムＷＦＳＴを出力する共通ユニグラムＷＦＳＴ作成部と、
上記共通ユニグラム値と上記共通ユニグラムＷＦＳＴを記憶する共通ユニグラムＷＦＳＴ記憶部と、
Ｎ個（Ｎ≧１）の音響モデルについて各音響モデルのＷＦＳＴとトライフォンＷＦＳＴと辞書ＷＦＳＴと上記共通ユニグラムＷＦＳＴとを合成演算した音響モデルごとのＷＦＳＴを作成し、全ての上記音響モデルごとのＷＦＳＴを結合させて第１段ＷＦＳＴを構成する第１段ＷＦＳＴ作成部と、
上記共通ユニグラム値を入力として、複数の言語モデルのそれぞれを参照して各言語モデルごとのｎグラム確率に対して上記共通ユニグラム値を除去したｎグラム確率を算出して当該ｎグラム確率のＷＦＳＴを作成し、全ての言語モデルの上記各言語モデルのｎグラム確率のＷＦＳＴを結合させて第２段ＷＦＳＴを構成する第２段ＷＦＳＴ作成部と、
を具備する音声認識用ＷＦＳＴ作成装置。
請求項１又は２に記載した音声認識用ＷＦＳＴ作成装置で作成した第１段ＷＦＳＴを記憶した第１段ＷＦＳＴ記憶部と、第２段ＷＦＳＴを記憶した第２段ＷＦＳＴ記憶部と、
上記第１段ＷＦＳＴ記憶部と上記第２段ＷＦＳＴ記憶部を参照して多段on-the-fly合成による音声認識を実行する音声認識部と、
を具備する音声認識装置。
複数の言語モデルに含まれる各単語について全言語モデルにおける当該単語の出現頻度の総和と全言語モデルにおける全単語の出現頻度の総和の比である共通ユニグラム値を計算し、当該共通ユニグラム値から共通ユニグラムＷＦＳＴを作成し、当該共通ユニグラム値と上記共通ユニグラムＷＦＳＴを出力する共通ユニグラムＷＦＳＴ作成過程と、
Ｎ個（Ｎ≧１）の音響モデルについて各音響モデルのＷＦＳＴとトライフォンＷＦＳＴと辞書ＷＦＳＴと上記共通ユニグラムＷＦＳＴを合成演算した音響モデルごとのＷＦＳＴを作成し、全ての上記音響モデルごとのＷＦＳＴを結合させて第１段ＷＦＳＴを構成する第１段ＷＦＳＴ作成過程と、
上記共通ユニグラム値を入力として、複数の言語モデルのそれぞれを参照して各言語モデルごとのｎグラム確率に対して上記共通ユニグラム値を除去したｎグラム確率を算出して当該ｎグラム確率のＷＦＳＴを作成し、全ての言語モデルの上記各言語モデルのｎグラム確率のＷＦＳＴを結合させて第２段ＷＦＳＴを構成する第２段ＷＦＳＴ作成過程と、
を備える音声認識用ＷＦＳＴ作成方法。
複数の言語モデルに含まれる各単語について全言語モデルにおける当該単語のユニグラム確率の総和と全言語モデルにおける全単語のユニグラム確率の総和の比である共通ユニグラム値を計算し、当該共通ユニグラム値から共通ユニグラムＷＦＳＴを作成し、当該共通ユニグラム値と上記共通ユニグラムＷＦＳＴを出力する共通ユニグラムＷＦＳＴ作成過程と、
Ｎ個（Ｎ≧１）の音響モデルについて各音響モデルのＷＦＳＴとトライフォンＷＦＳＴと辞書ＷＦＳＴと上記共通ユニグラムＷＦＳＴとを合成演算した音響モデルごとのＷＦＳＴを作成し、全ての上記音響モデルごとのＷＦＳＴを結合させて第１段ＷＦＳＴを構成する第１段ＷＦＳＴ作成過程と、
上記共通ユニグラム値を入力として、複数の言語モデルのそれぞれを参照して各言語モデルごとのｎグラム確率に対して上記共通ユニグラム値を除去したｎグラム確率を算出して当該ｎグラム確率のＷＦＳＴを作成し、全ての言語モデルの上記各言語モデルのｎグラム確率のＷＦＳＴを結合させて第２段ＷＦＳＴを構成する第２段ＷＦＳＴ作成過程と、
を具備する音声認識用ＷＦＳＴ作成方法。
請求項４又は５に記載した音声認識用ＷＦＳＴ作成方法で作成した第１段ＷＦＳＴと第２段ＷＦＳＴを用いて多段on-the-fly合成による音声認識を実行する音声認識過程を、
含む音声認識方法。
請求項１又は２に記載した音声認識用ＷＦＳＴ作成装置、請求項３に記載した音声認識装置、の何れかの装置の各部の機能を、コンピュータに実行させるためのプログラム。
請求項７に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。