JP5875569B2

JP5875569B2 - 音声認識装置とその方法とプログラムとその記録媒体

Info

Publication number: JP5875569B2
Application number: JP2013226120A
Authority: JP
Inventors: 山口　義和; 義和山口; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-10-31
Filing date: 2013-10-31
Publication date: 2016-03-02
Anticipated expiration: 2033-10-31
Also published as: JP2015087555A

Description

この発明は、複数種類の音響モデルを用いた重み付有限状態トランスデューサ(以下、ＷＦＳＴと称する)を探索することで音声認識処理を実行する音声認識装置とその方法と、プログラムとその記録媒体に関する。

ＷＦＳＴを探索することで音声認識処理を実行する音声認識装置において、複数の音響モデルを利用する場合は、音響モデルの数にほぼ比例してＷＦＳＴのメモリサイズが増大する。メモリサイズの増大を抑制する目的で、異なる音響モデルの状態構造の共通性に着目して音響モデルＷＦＳＴを併合する考えが、例えば特許文献１に開示されている。

特許第５１７５３２５号公報

最近の音声認識装置は、ＣＰＵパワーの拡大に伴い１台の装置で複数の入力音声を同時に音声認識処理するものも存在する。そのような複数の音声認識サービスに対応しようとした場合、従来の音響モデルＷＦＳＴを併合してメモリサイズを縮小する考えでは対応が難しくなって来ている。つまり、複数の音声認識サービスに対応するためには、サービスごとに音響モデルを含むＷＦＳＴを個別に構成する必要がある。従来の方法で個々の音響モデルＷＦＳＴのサイズを小さくしても音響モデルＷＦＳＴの数が増えてしまう。その結果、メモリサイズが増大してしまう課題がある。

この発明は、このような課題に鑑みてなされたものであり、メモリサイズの増加を少なくできると共に複数の音声に対応できるようにした音声認識装置とその方法とプログラムとその記録媒体を提供することを目的とする。

この発明の音声認識装置は、第１段ＷＦＳＴと、第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴと、音声認識部とを具備する音声認識装置であって、その音声認識部は、利用音響モデル情報記憶部と、結合ＷＦＳＴ作成部と、探索部と、を備える。第１段ＷＦＳＴは、Ｎ個（Ｎ≧２）の音響モデルのＷＦＳＴとトライフォンＷＦＳＴと辞書ＷＦＳＴとユニグラムＷＦＳＴを合成したＮ個のＷＦＳＴである。第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴは、第１段ＷＦＳＴに含まれない１個以上のＷＦＳＴである。利用音響モデル情報記憶部は、上記Ｎ個の音響モデルを特定する音響モデル情報を記憶する。結合ＷＦＳＴ作成部は、利用音響モデル情報記憶部に記憶された音響モデル情報に対応する上記第１段ＷＦＳＴに接続するための結合ＷＦＳＴを作成する。探索部は、結合ＷＦＳＴと第１段ＷＦＳＴと第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴの何れかとを用いて多段on-the-fly合成によるＷＦＳＴ音声認識を行う。

本発明の音声認識装置によれば、Ｎ個の音響モデルに対応する第１段ＷＦＳＴを、結合ＷＦＳＴで組み合わせ、その組み合わせた既存の第１段ＷＦＳＴと、既存の第２段ＷＦＳＴ〜第Ｍ段ＷＦＳＴの何れかとを用いて音声認識を行う。したがって、音声認識サービスに対応させて新たに音響モデルＷＦＳＴを用意する必要が無いので、メモリサイズを増大させることなく複数の音声認識サービスに対応可能な音声認識装置を実現することができる。

この発明の音声認識装置１００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。結合ＷＦＳＴと第１段ＷＦＳＴの接続例を示す図。この発明の音声認識装置２００の機能構成例を示す図。実施例２の結合ＷＦＳＴの例を示す図。第２段ＷＦＳＴに付加する状態遷移の例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音声認識装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識装置１００は、Ｎ個の第１段ＷＦＳＴ１０_１,１０_２,…,１０_Ｎと、第１段ＷＦＳＴに含まれない１個以上のＷＦＳＴの第２段ＷＦＳＴ３０_２乃至第Ｍ段ＷＦＳＴ３０_Ｍと、複数の音声認識部２０_１,…,２０_Ｌと、を具備する。音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現される。

第１段ＷＦＳＴ１０_ｎは、音響モデルｎ（１≦ｎ≦Ｎ）のＷＦＳＴと、トライフォンＷＦＳＴと、辞書ＷＦＳＴと、ユニグラムＷＦＳＴを予め合成し、最適化演算したＷＦＳＴである。例えば、音響モデル１は男性の声、音響モデル２は女性の声、の音響モデルのＷＦＳＴである。ＷＦＳＴの合成・最適化方法は、例えば参考文献１（堀貴明,塚田元,「重み付き有限状態トランスデューサによる音声認識」情報処理,2004年10月15日,第45巻10号）に記載された公知の方法を用いる。

複数（Ｌ個）ある音声認識部の１つの音声認識部２０_１は、利用音響モデル情報記憶部２１_１と、結合ＷＦＳＴ作成部２２_１と、探索部２４_１と、を備える。音声認識装置１００は、この音声認識部２０_１をＬ個備える。音声認識部２０_１と音声認識部２０_Ｌとは、添え字を変えてそれぞれが独立したものであることを表すが、その構成は全く同じである。

利用音響モデル情報記憶部２１_１は、サービスごとに振り分けられるＮ個の音響モデルを特定する音響モデル情報を記憶している。例えば、音声認識部２０_１が音響モデル１と３と５を用いてＡサービス用の音声認識をすると仮定した場合、利用音響モデル情報記憶部２１_１は、例えば「１,３,５」の音響モデルを識別する情報を記憶している。例えば、音響モデル１は「男性の声」、音響モデル３は「壮年の声」、音響モデル５は「女性の声」、でそれぞれ学習した音響モデルと仮定する。

結合ＷＦＳＴ作成部２２_１は、利用音響モデル情報記憶部２１_１に記憶された音響モデル情報に対応する第１段ＷＦＳＴ１０_ｎに接続するための結合ＷＦＳＴを作成する（ステップＳ２２）。図３に、結合ＷＦＳＴと第１段ＷＦＳＴ１０_ｎの接続例を示して結合ＷＦＳＴを説明する。

結合ＷＦＳＴ作成部２２_１は、利用音響モデル情報記憶部２１_１の記憶している音響モデルに対応する第１段ＷＦＳＴ１０_ｎの初期状態及び終了状態に接続する結合ＷＦＳＴを作成する（ステップＳ２２）。利用音響モデル情報記憶部２１_１に、「１,３,５」を記憶している場合を例に説明する。先ず、結合ＷＦＳＴ作成部２２_１は、状態ｓ１（初期状態）と状態ｓ２を作成する。次に入力シンボルと出力シンボルが共にε（空）で、状態ｓ１から音響モデル１を含む第１段ＷＦＳＴ１０_１の初期状態へ接続する遷移を作成する。同様に音響モデル３と５に対応する第１段ＷＦＳＴ１０_３と１０_５についても状態ｓ１からの遷移を作成する。次に入力シンボルと出力シンボルが共にεで、第１段ＷＦＳＴ１０_１,１０_３,１０_５のそれぞれの終了状態から状態ｓ２へ接続する遷移を作成する。

作成した結合ＷＦＳＴは、状態ｓ１から各第１段ＷＦＳＴ１０_ｎの初期状態に接続する遷移と、各第１段ＷＦＳＴ１０_ｎの終了状態から状態ｓ２へ接続する遷移の、比較的に少ない情報量である。よって、その情報を結合ＷＦＳＴ作成部２２_１の内部に保持するようにしても良い。又は、図１に結合ＷＦＳＴ記憶部２３_＊（１≦＊≦Ｌ）を破線で示すように、作成した結合ＷＦＳＴを記憶する手段を設けても良い。

探索部２４_１は、結合ＷＦＳＴと第１段ＷＦＳＴ１０_ｎと第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍを用いて多段on-the-fly合成によるＷＦＳＴ音声認識を行う（ステップＳ２４）。ここでの第１段ＷＦＳＴ１０_ｎは、例えば上記した第１段ＷＦＳＴ１０_１,１０_３,１０_５の３個のＷＦＳＴである。また、第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍは、第１段ＷＦＳＴ１０_ｎに含まれないＷＦＳＴであり、Ｍ個用意されている。なお、第Ｍ段のＷＦＳＴの添え字を分かり易くする目的で２（３０_２）から記載している関係で、第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍの数は正しくは（Ｍ−１）個である。

式（１）に第１段ＷＦＳＴ１０_ｎと第２段ＷＦＳＴ３０_２との関係の一例を示す。

ここで、ＨはＨＭＭの状態から文脈依存音素へのＷＦＳＴ、Ｃは文脈依存音素から文脈非依存音素へのＷＦＳＴ、Ｌは文脈非依存音素から単語へのＷＦＳＴ、Ｇ_１は単語からユニグラム単語へのＷＦＳＴである。（・）のＷＦＳＴは事前に合成される。Ｇ_３／１は、第２段ＷＦＳＴ３０_２を表し、この式（１）では単語トライグラム確率を単語ユニグラム確率で割った値を持つＷＦＳＴである。○は、ＷＦＳＴの合成演算を表す記号である。このＷＦＳＴの合成演算については、参考文献２（Takaaki Hori,Atsushi Nakamura “Generalized Fast On-the-fly Composition Algorithm fot WFST-Based Speech Recognition”,Proc. Of INTERSPEECH 2005.）に記載されているように周知である。

式（１）は、第２段ＷＦＳＴ３０_２がＧ_３／１の１個の場合を示すが、第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍの数は任意の複数個を接続することが可能である。例えば次式に示すようにクラス言語モデルを利用する場合は複数のＷＦＳＴを縦続に接続しても良い。

ここでＴ_０は、ユニグラム単語を単語クラスに変換するＷＦＳＴである。式（２）に示す例では、第２段ＷＦＳＴ３０_２がＴ_０、第３段ＷＦＳＴ３０_３がＧ^ｃ _３／１となる。

このように単語言語モデルを利用する場合はＭ＝２であり、第２段ＷＦＳＴ３０_２は単語トライグラムＷＦＳＴである。また、クラス言語モデルを利用する場合はＭ＝３であり、第２段ＷＦＳＴ３０_２は単語からクラスへの変換ＷＦＳＴ、第３段ＷＦＳＴ３０_３はクラストライグラムＷＦＳＴである。このようにＭ段は、ＷＦＳＴの段数を表す数値である。

式（１）の例では、第２段ＷＦＳＴ３０_２は音声認識部２０_＊が変わっても固定である。また、式（２）の例では第１段ＷＦＳＴ１０_ｎが音響モデルに対応して変わっても、第２段ＷＦＳＴ３０_２と第３段ＷＦＳＴ３０_３の２つのＷＦＳＴが用いられる点で変化がない。ＷＦＳＴの探索は、各音声認識部２０_＊の探索部２４_＊が行う。このように合成可能なＷＦＳＴを、第２段ＷＦＳＴ３０_２の後に複数個接続するようにしても良い。

なお、第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍの構成は、各音声認識部２０_＊のそれぞれに対応させて変えても良い。図４に、各音声認識部２０_＊において、第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍの構成を任意に変えられるようにした音声認識装置２００の機能構成例を示す。

音声認識装置２００は、音声認識装置１００に対して各音声認識部２０_＊′が第２段ＷＦＳＴ組合せ部２１１_＊を備える点でのみ異なる。第２段ＷＦＳＴ組合せ部２１１_１は、例えば探索部２４_１に対して探索する第２段ＷＦＳＴ３０_２がＧ_３／１のＷＦＳＴの１個であることを指示する情報を保持している。探索部２４_１は、第２段ＷＦＳＴ組合せ部２１１_１を参照して、式（１）で合成されたＷＦＳＴを用いて音声認識を行う。

第２段ＷＦＳＴ組合せ部２１１_２は、例えば、第２段ＷＦＳＴ３０_２のＴ_０と第３段ＷＦＳＴ３０_３のＧ_３／１の２個のＷＦＳＴの縦続接続であることを指示する情報を保持している。探索部２４_２は、第２段ＷＦＳＴ組み合わせ部２１１_２を参照して、式（２）で合成されるＷＦＳＴを用いて音声認識を行う。このように、各音声認識部２０_＊′毎に第２段ＷＦＳＴ以降の構成を変化させるようにしても良い。

音声認識部２０_＊′は、それぞれ異なる入力音声を音声認識する。入力音声１を音声認識する音声認識部２０_１′の探索部２４_１には、入力音声１が入力される。入力音声Ｌを音声認識する音声認識部２０_Ｌ′の探索部２４_Ｌには、入力音声Ｌが入力される。例えば、入力音声１は男性の声、入力音声Ｌは女性の声のように異なる。入力音声の音声認識部２０_＊′への振り分けは、音声認識装置１００,２００を構成する例えばコンピュータの入力ポートの番号に一対一に対応付けることで行っても良い。又は、音声信号分配部５０を設け、入力音声の特徴に応じて入力音声を接続する音声認識部２０_＊′を自動的に選択するようにしても良い。

音声認識部２０_＊′の音声認識処理は、入力音声信号が一定時間以上の間入力されない場合、又は、図示しない動作停止信号が制御部４０に入力されるまで繰り返される（ステップＳ４０のＮｏ）。このステップＳ２２とステップＳ２４の時系列動作の制御と動作終了の制御は制御部４０が行う。この制御部４０の機能は、この実施例の特別な技術的特徴では無く一般的なものである。

以上説明した音声認識装置１００,２００によれば、異なるサービスや利用環境などにより、音声認識部２０_＊（２０_＊′）で利用する音響モデルが異なる場合でも、増加するＷＦＳＴは結合ＷＦＳＴの分だけである。つまり、状態ｓ１,ｓ２が２×Ｌ個、遷移数が最大でも２×Ｎ×Ｌ個であり、メモリ増加を抑制することができる。

実施例１では、結合ＷＦＳＴの入力シンボルと出力シンボルを共にε（空）で説明した。出力シンボルをεとすると、音声認識結果で用いられた音響モデル情報を知ることができないが、分かると便利である。

そこで、音声認識結果に用いた音響モデルの情報を付加する方法について説明する。図５に、音声認識結果に音響モデルの情報を付加する場合の結合ＷＦＳＴの例を示す。図５に示す結合ＷＦＳＴは、状態ｓ１から各第１段ＷＦＳＴ１０_ｎの初期状態へ接続する遷移に出力シンボルとして音響モデル情報を示す数値が付加されている点で、上記した結合ＷＦＳＴ（図３）と異なる。

図５は、状態ｓ１から第１段ＷＦＳＴ１０_１への遷移の出力シンボルは音響モデル情報を表す数値１、同じく第１段ＷＦＳＴ１０_３への遷移の出力シンボルには数値３、第１段ＷＦＳＴ１０_５への遷移の出力シンボルには数値５、がそれぞれ付加された例を示す。そして更に、第１段ＷＦＳＴ１０_ｎに縦続接続される第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍの初期状態の前に状態ｓ３を追加し、状態ｓ３とその初期状態との間の遷移の入出力シンボルに音響モデル情報を示す数値を付加する。付加された状態ｓ３と入出力シンボルは、第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍのそれぞれと一体となって記憶される。

図６に、第２段ＷＦＳＴに付加する状態遷移の例を示す。第１段ＷＦＳＴ１０_ｎに縦続に接続される第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍは、単独の場合と２個以上の複数個が接続される場合があるが、状態ｓ３と入出力シンボルの追加は縦続接続される全てのＷＦＳＴにそれぞれ付加する。

以上の工夫により、結合ＷＦＳＴが出力した音響モデル情報が第２段〜第Ｍ段ＷＦＳＴへの入力となり、音声認識結果として出力されることとなる。例えば「１お電話ありがとうございます」、「３東京から大阪まで行きたい」というように、音声認識結果の冒頭に音響モデル情報を付与して出力することが可能になる。音響モデル情報を知ることができれば、音声認識結果に加えて認識対象の入力音声の種別等を知ることが可能になる。実施例２の考えは、音声認識装置１００,２００に適応が可能である。なお、状態遷移に音響モデル情報を示す数値を付加する例で説明を行ったが、音響モデルが識別可能であれば数値以外の記号を付加するようにしても良い。

以上説明したように音声認識装置１００,２００は、利用する音響モデルごとにそれを含む第１段ＷＦＳＴ１０_ｎを作成しておき、各音声認識部２０_＊で利用する１つあるいは複数の第１段ＷＦＳＴ１０_ｎを選択し、それらを結合させる結合ＷＦＳＴを作成する。結合ＷＦＳＴは第１段ＷＦＳＴ１０_ｎの記憶領域を参照するので、新たに第１段ＷＦＳＴ１０_ｎを作成する必要が無い。そして、複数の音響モデルに対応した複数の第１段ＷＦＳＴ１０_ｎと、更には合成可能な第２段ＷＦＳＴ３０_２乃至第Ｍ段ＷＦＳＴ３０_Ｍを多段on-the-fly合成をすることにより、複数の音響モデルに対応させた音声認識処理を実現する。第１段ＷＦＳＴ１０_ｎと第２段ＷＦＳＴ３０_２〜第Ｍ段ＷＦＳＴ３０_Ｍは、既存のものを組み合わせて用いるので、メモリサイズを増大させることなく複数の音声認識サービスに対応可能な音声認識装置を実現することができる。音声認識装置１００,２００は、１台の装置で複数の音声認識サービスを共有するサーバ型音声認識に好適である。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｎ個（Ｎ≧２）の音響モデルのＷＦＳＴとトライフォンＷＦＳＴと辞書ＷＦＳＴとユニグラムＷＦＳＴを合成したＮ個の第１段ＷＦＳＴと、
上記第１段ＷＦＳＴに含まれない１個以上のＷＦＳＴの第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴと、
上記第１段ＷＦＳＴと上記第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴを用いて複数の入力音声を音声認識する複数の音声認識部と、
を具備する音声認識装置であって、
上記音声認識部は、
上記Ｎ個の音響モデルを特定する音響モデル情報を記憶した利用音響モデル情報記憶部と、
上記利用音響モデル情報記憶部に記憶された音響モデル情報に対応する上記第１段ＷＦＳＴに接続するための結合ＷＦＳＴを作成する結合ＷＦＳＴ作成部と、
上記結合ＷＦＳＴと上記第１段ＷＦＳＴと、上記第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴの何れかとを用いて多段on-the-fly合成によるＷＦＳＴ音声認識を行う探索部と、
を備えることを特徴とする音声認識装置。
請求項１に記載した音声認識装置において、
上記結合ＷＦＳＴの初期状態から各第１段ＷＦＳＴの初期状態へ接続する遷移に出力シンボルとして音響モデル情報を示す記号が付加されると共に、第１段ＷＦＳＴに縦続接続される第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴの何れかの初期状態の前に新たな状態を追加し、当該新たな状態と上記初期状態との間の遷移の入出力シンボルに音響モデル情報を示す記号を付加したことを特徴とする音声認識装置。
Ｎ個（Ｎ≧２）の音響モデルのＷＦＳＴとトライフォンＷＦＳＴと辞書ＷＦＳＴとユニグラムＷＦＳＴを合成したＮ個の第１段ＷＦＳＴと、当該第１段ＷＦＳＴに含まれない１個以上のＷＦＳＴの第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴとを用いて複数の入力音声を音声認識する複数の音声認識過程を、備える音声認識方法であって、
上記音声認識過程は、
利用音響モデル情報記憶部に記憶された音響モデル情報に対応する上記第１段ＷＦＳＴに接続するための結合ＷＦＳＴを作成する結合ＷＦＳＴ作成ステップと、
上記結合ＷＦＳＴと上記第１段ＷＦＳＴと、上記第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴの何れかとを用いて多段on-the-fly合成によるＷＦＳＴ音声認識を行う探索過程と、
を含むことを特徴とする音声認識方法。
請求項３に記載した音声認識方法において、
上記結合ＷＦＳＴの初期状態から各第１段ＷＦＳＴの初期状態へ接続する遷移に出力シンボルとして音響モデル情報を示す記号が付加されると共に、第１段ＷＦＳＴに縦続接続される第２段ＷＦＳＴ乃至第Ｍ段ＷＦＳＴの何れかの初期状態の前に新たな状態を追加し、当該新たな状態と上記初期状態との間の遷移の入出力シンボルに音響モデル情報を示す記号を付加したことを特徴とする音声認識方法。
請求項１または２に記載した音声認識装置の各部の機能を、コンピュータに実行させるためのプログラム。
請求項５に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。