JP2008152043A

JP2008152043A - 音声認識装置及び音声認識方法

Info

Publication number: JP2008152043A
Application number: JP2006340275A
Authority: JP
Inventors: Yutaka Deguchi; 豊出口
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-12-18
Filing date: 2006-12-18
Publication date: 2008-07-03

Abstract

【課題】利用者による再発声を不必要とし、音響モデルの変更に対応した発声登録語彙情報を生成できる音声認識装置及び音声認識方法を提供する。
【解決手段】発声登録モード時、利用者の発声による入力音声は、音響分析部３で音響分析された後、認識語彙作成部６に入力され、使用される音響モデルに依存した例えば音素列情報が生成されると共に、複数の音響モデルに対応した特徴量１５が保存される。そして、音響モデルが切り替えられた場合、特徴量１５を用いて特徴量・語彙変換処理部１６は、切り替えられた音響モデルに対応した利用者登録認識語彙を作成する。
【選択図】図１

Description

本発明は、音声による認識語彙登録が可能な音声認識装置及び音声認識方法に関する。

近年のCPUの高速化、メモリの大容量化及び音声認識技術の性能向上に伴い、音声認識装置が数多く実用されるようになってきている。
音声認識装置は、特に、カーナビゲーションシステムやモバイル機器など入力装置が限定されるような状況下では、そのニーズが大きい。
音声認識装置は、音の特徴を保持する音響モデルを基に作成した認識語彙と、入力音声から抽出した特徴量とを比較し、基本的には比較結果の数値(以下、尤度と記す)が最も高い値の認識語彙を認識結果として出力する。
認識語彙の指定方法は、あらかじめシステム側で規定されている語彙に加えて、利用者が独自の語彙を登録できるが一般的となっている。

利用者が登録する場合の語彙指定方法は、テキスト入力や音声入力が想定されている。音声入力による語彙登録の代表的な方法は、入力された音声に対して音響モデルを用いた音声認識を行い、得られる音素系列に基づいて語彙情報を作成し、作成された語彙情報を登録する。
したがって、音響モデルが変更される際には、利用者は、再度語彙情報を作成し直す必要が生じる。例えば、利用者が英語で語彙登録を行い、その後、認識しようとする言語をドイツ語に変更したとする。この場合には、英語で登録された語彙登録の情報は、そのまま用いることはできないため、利用者は、ドイツ語での彙登録を再度作成する必要が生じる。

再度作成する方法としては、利用者が再発声する、もしくは入力音声波形を別途保持しておくなどの方法があるが、このような方法は、利用者もしくはシステムの負担が大きくなる。
また、２つの音響モデルを同時に使用することにより、以前の登録語彙を利用する方法も考えられるが、２つの音響モデルを同時に用いることは、音声認識装置の負担が大きくなってしまう。また、扱う言語数が増加すると、同時に必要となる音響モデルの数も増え、音声認識装置の負担量が非常に増大する。
なお、特許文献１には、入力音声の特徴パラメータを単語標準パターンと音韻標準パターンとの２種類のマッチングによる単語認識を併用することにより、語彙の変更や追加を容易として、認識性能を向上する音声認識装置が開示されている。
しかし、この特許文献１は、音響モデルの変更に対して利用者による再発声を不必要にするものでない。
特開平８−２１１８９３号公報

本発明は上述した点に鑑みてなされたもので、利用者が再度の発声登録語彙を作成するための発声を必要としないで、音響モデルの変更に対応した発声登録語彙情報を生成できる音声認識装置及び音声認識方法を提供することを目的とする。

本発明の一実施形態に係る音声認識装置は、利用者により発声される入力音声に対して音響分析する音響分析部と、前記音響分析部の分析出力に基づき、音声認識する際に用いられる互いに異なる第１及び第２の音響モデルに対応した特徴量を保存する特徴量保存部と、前記特徴量を用いて前記第１の音響モデル及び前記第２の音響モデルに対応した利用者用音声登録認識語彙を生成可能とする認識語彙作成部と、を具備することを特徴とする。

本発明によれば、音響モデルを変更した際に、利用者が発声登録語彙を行うための発声を行うことなく、変更された音響モデルに対応した発声登録語彙情報を生成できる。

（第１の実施形態）
以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は本発明の第１の実施形態に係る音声認識装置１を示すブロック図である。
この音声認識装置１は、利用者が音声入力を行うことによって認識語彙を登録できるものであ。
また、この音声認識装置１は、以下に説明するように既に登録済の認識語彙が存在する状況下において、認識言語切り替え等、音響モデルを切り替えた際に、新しい音響モデルに対応した認識語彙情報を作成可能とする。
これにより、音声認識装置１は、新しい音響モデルに対応して再発声などを行うことを必要としない。このため、利用者の負担を軽減するものである。
なお、本実施形態は、認識しようとする認識言語の切り替えに限らず、音響モデルを別のものに切り替える場合にも適用可能である。

図１に示す音声認識装置１は、マイク２を経て入力される音声に対する音響分析を行う音響分析部３を有し、この音響分析部３は、入力された音声を音響分析して分析結果を出力する。この分析結果は、切替スイッチ４を介して音声認識部５と、認識語彙作成部６とに入力される。
音響分析部３は、入力される音声を一定時間間隔(フレーム)で分析し、分析結果としてケプストラムやパワースペクトル等、音声の特徴量（単に特徴量と略記）の時系列や入力音声の開始・終了時刻などを出力する。
この音声認識装置１は、マイク２から入力される音声に対して音声認識する音声認識モードと、利用者に応じて適切な音声認識ができるよう、利用者の音声（発声）により認識語彙の登録を行う発声登録モードとの２つの処理モードを備えている。

そして、利用者は、例えば操作部７に設けられたモード選択ボタン７ａの選択操作により、制御部８を介して２つの処理モードを選択することができる。音声認識モードが選択された場合には、制御部８は、切替スイッチ４の接点ａを選択し、発声登録モードが選択された場合には接点ｂを選択する。
また、利用者は、操作部７に設けられた音響モデル選択ボタン７ｂの選択操作を行うことにより、使用する音響モデルを選択することもできる。
音声認識モード時には、音響分析部３から出力される分析結果の特徴量が接点ａを介して音声認識部５に入力される。

この音声認識部５は、音響分析部３を経て入力される特徴量に対して、音響モデル格納部９に格納された音響モデルを用いて、この音響モデルに対応して利用者登録認識語彙格納部１０及びシステム認識語彙格納部１１に格納されている利用者登録語彙とシステム認識語彙との両語彙との間でパターンマッチングを行う。
そして、音声認識部５は、尤度が最も高い認識語彙を認識結果として、表示デバイス１２やスピーカ１３に出力する。
この音声認識装置１は、音響モデル等の情報保存手段として、例えば不揮発性の半導体メモリとしてのフラッシュメモリ１４を備える。

そしてこのフラッシュメモリ１４には、複数の音響モデル、各音響モデルに対応した複数のシステム認識語彙、少なくとも１つの音響モデルに対応した利用者登録認識語彙及び複数の音響モデルに対応した特徴量１５とが保存される。
なお、情報保存手段としては、不揮発性の半導体メモリに限定されるものでなく、ハードディスク等の記録装置を用いても良い。
利用者が音響モデル選択ボタン７ｂの選択操作を行うことにより、制御部８は、フラッシュメモリ１４に保存されている複数の音響モデルから選択された音響モデルがロードされ、音響モデル格納部９に格納されて使用可能になる。
これと共に制御部８は、フラッシュメモリ１４から利用者により選択された音響モデルに対応した利用者登録認識語彙、システム認識語彙がそれぞれロードされ、利用者登録認識語彙格納部１０、システム認識語彙格納部１１に格納されて使用可能な状態になる。

なお、音響モデル格納部９、利用者登録認識語彙格納部１０及びシステム認識語彙格納部１１は、例えばＲＡＭ等、高速の処理に適した半導体メモリにより構成されている（勿論、これに限定されるものでなく、例えば不揮発性の半導体メモリなどにより構成しても良い）。
フラッシュメモリ１４に保存されている複数の音響モデルは、例えば英語、ドイツ語等にそれぞれ対応した互いに異なる音響モデルである。
図１では、最初に使用される音響モデルとして第１音響モデルが、利用者登録認識語彙、システム認識語彙として第１利用者登録語彙、第１システム認識語彙が、それぞれ音響モデル格納部９、利用者登録認識語彙格納部１０及びシステム認識語彙格納部１１に格納された状態を示している。

なお、図１の構成の場合、フラッシュメモリ１４に保存されている利用者登録認識語彙は、認識語彙作成部６を介して利用者登録認識語彙格納部１０に格納される例で示している。また、利用者登録認識語彙格納部１０に格納された利用者登録認識語彙をフラッシュメモリ１４に保存し直すこともできる。
本実施形態に係る音声認識装置１は、例えばフラッシュメモリ１４には、１つの音響モデルに対応した利用者登録語彙を格納する他に、利用者により登録された特徴量１５も保存している。
つまり、通常は図１０に示す参考例のように利用者登録認識語彙として、１つの音響モデルに対応した例えば音素列情報ｄ、ｅ、ｇ、ｕ、ｃ、ｈ、ｉ、…を保持する。

これに対して、本実施形態においては図２に示すように利用者登録認識語彙として、図１０の参考例のように１つの音響モデルに対応した例えば音素列情報ｄ、ｅ、ｇ、ｕ、ｃ、ｈ、ｉ、…を保持する他に、１つの音響モデルに依存しない、つまり少なくとも複数の音響モデルに共通して使用できる特徴量１５も保存する。
本実施形態においては、特徴量１５は、発声登録モード時には、認識語彙作成部６或いは利用者登録認識語彙格納部１０に一時保持されるようにして生成されるが、別の音響モデルの際に利用できるようにフラッシュメモリ１４に保存する構成にしている。特徴量１５をフラッシュメモリ１４に保存する構成に限らず、利用者登録認識語彙格納部１０に保持するようにしても良い。
また、認識語彙作成部６は、特徴量１５を用いて、１つの音響モデルとは異なる他の音響モデル、例えば図１に示す第１音響モデルとは異なる別の音響モデル（例えば第２音響モデル）に対応した別の利用者登録語彙を作成可能とする特徴量・語彙変換処理部１６を有する。

このように本実施形態に係る音声認識装置１は、特徴量１５を保存すると共に、特徴量・語彙変換処理部１６を有することにより、音響モデルを変更する場合にも、利用者に再度の発声登録を行わないでも、特徴量１５を用いて変更した音響モデルに対応した利用者登録語彙を作成できるようにしている。
換言すると、一度、利用者は発声登録を行えば、以後は互いに異なる複数の音響モデルに対応した利用者登録語彙の作成が可能になる。
図３は、本実施形態における発声登録モード時において図２に示すような音素列情報及び特徴量１５を登録する処理内容（処理手順）を示すフローチャートを示す。なお、図３においては、入力される音声における例えばＸフレームに対する利用者登録認識語彙登録を行う場合で説明する。

発声登録モード時がスタートすると、ステップＳ１に示すようにフレーム番号のパラメータＮが１（Ｎ＝１）にセットされる。そして、Ｎフレームの音声がマイク２を経て音響分析部３に入力される。ステップＳ２に示すように音響分析部３は音響分析を行い、その音響分析結果としての特徴量を認識語彙作成部６に出力する。
ステップＳ３に示すようにこの認識語彙作成部６は、Ｎフレームの特徴量に対して現在選択されている音響モデル（図１の場合には、第１音響モデル）に対応した各音素とのパターンマッチングの処理を行う。
そして、ステップＳ４に示すようにこの認識語彙作成部６は、最適な音素系列を作成する。なお、ステップＳ２からステップＳ４は、Ｎフレームの音声に対する一連の処理となる。

ステップＳ４の次のステップＳ５において認識語彙作成部６は、Ｎフレームが登録処理しようとするＸフレームに一致するか否かの判定を行う。
そして、Ｎ＝Ｘでない場合には、ステップＳ６に移り、パラメータＮを１つインクリメントしてステップＳ２の処理に戻る。
一方、Ｎ＝Ｘとなる場合には、ステップＳ７に移り、このステップＳ７において認識語彙作成部６は、ステップＳ４における最適な音素系列を最尤系列の音素列情報として利用者登録認識語彙として登録する。
また、認識語彙作成部６は、各時刻の特徴量を（利用者登録認識語彙作成用の情報として）特徴量１５として登録する。
認識語彙作成部６は、生成した特徴量１５をフラッシュメモリ１４に保存する。一方、認識語彙作成部６は、生成した音素列情報を利用者登録認識語彙として利用者登録認識語彙格納部１０に格納する。そして、この処理を終了する。

ステップＳ７の処理により、利用者登録認識語彙として、図２に示すように音素列情報としてのｄ、ｅ、…が生成されると共に、特徴量１５として１時刻目の特徴量、２時刻目の特徴量、３時刻目の特徴量、…、Ｍ時刻目の特徴量が生成される。
なお、生成された音素列情報としてのｄ、ｅ、…も、利用者登録認識語彙として、フラッシュメモリ１４に保存される。
なお、図２に示すものは、図３におけるＸフレームとして、複数のフレームに設定した場合に得られるものに対応する。
このようにして、利用者登録認識語彙が生成されると、この利用者登録認識語彙及びシステム認識語彙とを用いて音声認識モード時における音声認識を円滑に行うことができる。

なお、図１０に示した参考例の場合の音素列情報は、図１１に示すような処理により生成される。図１１においては、入力音声における例えばＸフレームに対する利用者登録認識語彙登録を行う場合で説明する。
発声登録モード時がスタートすると、ステップＳ５１に示すようにフレーム番号のパラメータＮが１（Ｎ＝１）にセットされる。そして、Ｎフレームの音声がマイクを経て音響分析部に入力される。ステップＳ５２に示すように音響分析部は音響分析を行い、その音響分析結果としての特徴量を認識語彙作成部に出力する。
ステップＳ５３に示すようにこの認識語彙作成部は、Ｎフレームの特徴量に対して現在選択されている音響モデルに対応した各音素とのパターンマッチングの処理を行う。

そして、ステップＳ５４に示すようにこの認識語彙作成部は、最適な音素系列を作成する。なお、ステップＳ５２からステップＳ５４は、Ｎフレームの音声に対する一連の処理となる。
ステップＳ５４の次のステップＳ５５において認識語彙作成部は、Ｎフレームが登録処理しようとするＸフレームに一致するか否かの判定を行う。
そして、Ｎ＝Ｘでない場合には、ステップＳ５６に移り、パラメータＮを１つインクリメントしてステップＳ５２の処理に戻る。一方、Ｎ＝Ｘとなる場合には、ステップＳ５７に移り、このステップＳ５７において認識語彙作成部は、ステップＳ５４における最適な音素系列を最尤系列の音素列情報として利用者登録認識語彙として登録し、この処理を終了する。

この参考例の場合には、図３に示した本実施形態に係る音声認識方法とは異なり、特徴量１５を保存しないので、異なる音響モデルに切り替えた場合、従来例と同様に切り替えられた音響モデルに対応した利用者登録認識語彙を生成できない。このため、この参考例の場合には、再度の発声登録が必要になってしまうことになる。
これに対して、本実施形態においては、特徴量１５を保存しているので、後述するように再度の発声登録を必要としないで、異なる音響モデルに対処できる。
図４は、本実施形態における音声認識モード時における音声認識の処理手順を示すフローチャートを示す。なお、図４においては、入力される音声における例えばＸフレームに対する音声認識を行う場合で説明する。
音声認識モード時がスタートすると、ステップＳ１１に示すようにフレーム番号のパラメータＮが１（Ｎ＝１）にセットされる。そして、Ｎフレームの音声がマイク２を経て音響分析部３に入力される。ステップＳ１２に示すように音響分析部３は音響分析を行い、その音響分析結果としての特徴量を音声認識部５に出力する。

ステップＳ１３に示すようにこの音声認識部５は、Ｎフレームの特徴量に対して現在選択されている音響モデル（図１の場合には第１音響モデル）に対応した各音素とのパターンマッチングの処理を行う。
このパターンマッチングは、利用者登録認識語彙格納部１０に格納されている（音響モデルに対応した）利用者登録認識語彙（図１の場合には、第１利用者登録認識語彙）と、システム認識語彙（図１の場合には、第１システム認識語彙）とを用いて行われる。
これによって、システム認識語彙の場合だけの場合よりも、利用者により適切に対応した音声認識を行うことができる。
そして、パターンマッチングの処理によりステップＳ１４に示すようにこの音声認識部５は、各語彙に対する尤度を計算する。なお、ステップＳ１２からステップＳ１４は、Ｎフレームの音声に対する一連の処理となる。

ステップＳ１４の次のステップＳ１５において音声認識部５は、Ｎフレームが登録処理しようとするＸフレームに一致するか否かの判定を行う。
そして、Ｎ＝Ｘでない場合には、ステップＳ１６に移り、パラメータＮを１つインクリメントしてステップＳ１２の処理に戻る。一方、Ｎ＝Ｘとなる場合には、ステップＳ１７に移り、このステップＳ１７において音声認識部５は、ステップＳ１４において計算された尤度におけるその尤度が高い語彙を認識結果として出力し、この処理を終了する。
また、本実施形態は、図１に示した例えば第１音響モデルとは異なる音響モデルを用いて音声認識を行うことも可能であり、この場合発声登録モードにより生成した特徴量１５を用いて異なる音響モデルに対応した音素列情報等の利用者登録認識語彙を生成する。なお、音素列情報に限定されるものでない。
図５は、音響モデルを切り替えた場合の動作手順の１例を示す。なお、図５では、最初は、前の音響モデル（図１の場合には第１音響モデルとなる）で使用しているとして、説明する。

図５の処理がスタートすると、ステップＳ２１に示すように制御部８は、利用者による操作部７の操作により、別の音響モデル（例えば第２音響モデル）への切り替えの指示操作が行われるのを待つ状態である。
そして、別の音響モデルの切り替えの指示操作が行われると、ステップＳ２２に示すように制御部８は、フラッシュメモリ１４から別の音響モデルと、別のシステム認識語彙をロードし、それぞれ音響モデル格納部９とシステム認識語彙格納部１１にそれぞれ書く方して、これらを使用可能な状態にする。なお、これらをロードする前に、以前の音響モデルとシステム認識語彙を、必要に応じてフラッシュメモリ１４に退避する。

次のステップＳ２３において制御部８は、例えば予め利用者登録認識語彙を保存している例えばフラッシュメモリ１４の保存情報を参照して別の音響モデルに対応した利用者登録認識語彙が作成されているか否かを判定する。
別の音響モデルの利用者登録認識語彙がまだ作成されていない場合には、ステップＳ２４に示すように制御部８は、認識語彙作成部６に対して、この別の音響モデルに対応した別の利用者登録認識語彙を作成させる処理を開始させるように制御する。
この場合、制御部８は認識語彙作成部６に対して、この別の音響モデルの利用者登録認識語彙を作成させる制御信号を送る。
そして、この制御信号を受けて認識語彙作成部６は、フラッシュメモリ１４に保存されている特徴量１５を取り込み、特徴量・語彙変換処理部１６を用いて別の音響モデルに対応した別の利用者登録認識語彙を作成する。

なお、この場合、表示デバイス１２等を用いて利用者に対して別の音響モデルの利用者登録認識語彙を作成する処理を行います等の告知を行うようにしても良い。
そして、ステップＳ２５に示すようにこの作成された別の利用者登録認識語彙を利用者登録認識語彙格納部１０に転送して使用可能な状態に設定する。なお、初めて別の利用者登録認識語彙を作成した場合には、この別の利用者登録認識語彙をフラッシュメモリ１４にも保存し、以後はこれを単にロードすることにより使用できるようにする。
一方、ステップＳ２３の判定処理において、既に別の音響モデルの利用者登録認識語彙が作成されている場合には、ステップＳ２５に移り、その別の利用者登録認識語彙を保存している例えばフラッシュメモリ１４から利用者登録認識語彙をロードし、利用者登録認識語彙格納部１０に格納して使用可能な状態にする。

ステップＳ２５の処理が終了した場合には、表示デバイス１２等により利用者に対して別の音響モデルで使用できる利用者登録認識語彙が利用できる状態になった旨を告知するようにしても良い。
次のステップＳ２６において制御部８は、利用者により音声認識を行う指示操作が行われているかの判定を行う。そして、音声認識を行う指示操作が行われていない場合には、図５の処理を終了する。
一方、利用者により音声認識を行う指示操作が行われている場合には、次のステップＳ２７において別の音響モデルを用いて音声認識の処理を行うことになる。
ステップＳ２７の音声認識は、音響モデルが変更になったことを除けば、図４に示した音声認識の処理を行うことになる。

上述したように本実施形態に係る音声認識装置１は、複数の音響モデルにおいて共通に利用可能な特徴量１５を保存すると共に、特徴量１５から少なくとも１つの音響モデルとは異なる別の音響モデルに対する利用者登録認識語彙を作成可能にしている。
従って、本実施形態によれば、１つの音響モデルとは異なる別の音響モデルを使用する場合にも利用者が再度発声して発声登録の作業を行わないでも、その別の音響モデルに対応した利用者登録認識語彙を作成でき、利用者に対する操作性ないしは利便性を大幅に向上できる。
なお、図４の方法においては、１つの音響モデルに対応した音素列情報と、複数の音響モデルに対応可能な特徴量１５とを登録（保存）する場合で説明したが、この場合においてこの特徴量１５のみを保存し、この特徴量１５を用いて図５のような処理により音素列情報を作成するようにしても良い。

本実施形態に係る音声認識装置１を例えば図６に示すカーナビゲーション装置（車載用経路案内誘導装置）３１に適用しても良い。
このカーナビゲーション装置３１は、このカーナビゲーション装置３１が搭載された自動車の位置検出手段としての位置検出器３２を有している。
この位置検出器３２は、地磁気センサ３３、ジャイロスコープ３４、車速センサ３５、ＧＰＳ受信機３６とを有する。ＧＰＳ受信機３６により受信するＧＰＳ信号には、車両位置情報や時刻情報が含まれている。車速センサ３５の速度情報は、位置検出器３２においては車両距離測定に用いられる。
位置検出器３２の情報は、ナビゲーションに必要な各種処理を実行する制御装置３７に入力される。この制御装置３７は、ＣＰＵ、ＲＯＭ、ＲＡＭなどを有して構成される。

制御装置３７には、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の地図データ記録媒体３８から地図データを読み取り、その情報を入力する地図データ入力器３９が接続される。
また、この制御装置３７には、地図などの表示を行う表示装置４０と、ナビゲーションに必要な各種操作を行なうための操作スイッチ群４１、及び音声認識装置１とが接続される。
なお、この音声認識装置１は、例えばドイツ語で利用者登録語彙認識語彙が作成されているものとし、その際、特徴量１５が保存される。そして、フランス語の音響モデルに変更された場合、特徴量１５からフランス語の音響モデルに対応した利用者登録語彙認識語彙が作成されているものとする。
そして、このカーナビゲーション装置３１は、例えば１つの国（例えばドイツ）内においては音声認識装置１をドイツ語の音響モデルにより、使用することができる。

そして、このカーナビゲーション装置３１を搭載した自動車で、フランス内に移動するような場合には、例えばフランス内に入国した場合には、音声認識装置１の音響モデルをドイツ語からフランス語の音響モデルに切り替えることにより、フランス内での経路案内を円滑に行うことができる。
つまり、フランス内では道路標識等がフランス語で表示されるので、（フランス語を理解できる搭乗者の場合には）ドイツ語のままよりはフランス語に変更した場合の方が目的地に円滑に到達できる場合がある。
また、この場合には、経路案内の地図の表示もフランス語に変更できる方が良い。勿論、音響モデルを切り替えることなく利用しても良い。
このように本実施形態に係る音声認識装置１は、例えば異なる言語に対応した複数の音響モデルの場合にも有効に対応ができる。そして、この音声認識装置１は、利用者に対する利便性を向上することができる。

（第２の実施形態）
図７は、本発明の第２の実施形態に係る音声認識装置１Ｂの全体構成を示す。この音声認識装置１Ｂは、図１の音声認識装置１において特徴量１５を作成して保存する代わりに、ガウス分布情報２１を作成して保存する。
また、認識語彙作成部６は、図１の特徴量・語彙変換処理部１６の代わりにガウス分布情報２１から別の音響モデルに対応した利用者登録認識語彙を作成する分布情報・語彙変換処理部２２を備えている。
本実施形態においては、発声登録モード時に、認識語彙作成部６は、音響分析部３から出力される特徴量に対して、使用している１つの音響モデルに対応したガウス分布を適用して、ガウス分布情報として抽出する。

その際、入力される特徴量に対して、その特徴量に適合或いは反映するガウス分布の中心周波数（中心ベクトル）、分散値の情報をガウス分布情報２１として作成する。この場合、適合するガウス分布は、入力される特徴量に応じて単数の場合と、複数の組み合わせになる場合がある。
複数の組み合わせの場合には、それらの重み付け係数等もガウス分布情報２１として保存する。また、使用されるガウス分布は、識別可能なコード或いは番号等として保存することができる。
その他の構成は、図１の音声認識装置１の場合の構成と同様である。
図８は、本実施形態における発声登録モード時における利用者登録認識語彙を生成する動作の処理手順のフローチャートを示す。

この動作手順は、図３のフローチャートにおける処理手順において、ステップＳ７の処理がステップＳ７′に変更されている。
つまり、ステップＳ５の判定処理においてＮ＝Ｘと判定された場合にはステップＳ７′に進む。そして、このステップＳ７′において認識語彙作成部６は、ステップＳ４における最適な音素系列を最尤系列の音素列情報として利用者登録認識語彙として登録する。また、認識語彙作成部６は、この音響モデルに対応した各時刻のガウス分布情報を（利用者登録認識語彙作成用の情報としての）ガウス分布情報２１として登録する。
認識語彙作成部６は、生成したガウス分布情報２１をフラッシュメモリ１４に保存する。一方、認識語彙作成部６は、生成した音素列情報を利用者登録認識語彙として利用者登録認識語彙格納部１０に格納する。そして、この処理を終了する。

ステップＳ７′の処理により、利用者登録認識語彙として、図８に示すように音素列情報としてのｄ、ｅ、…が生成されると共に、ガウス分布情報２１として１時刻目のガウス分布情報、２時刻目のガウス分布情報、３時刻目のガウス分布情報、…、Ｎ時刻目のガウス分布情報が生成される。
このようにして、利用者登録認識語彙が生成されると、第１の実施形態と同様にこの利用者登録認識語彙及びシステム認識語彙とを用いて音声認識モード時における音声認識を円滑に行うことができる。
また、本実施形態における音声認識モード時における音声認識の処理手順は、図４で示したものと同様となり、その説明を省略する。

また、本実施形態において音響モデルを変更した場合の動作は、図５のフローチャートにおいて、ステップＳ２４による特徴量１５を用いて別の利用者登録認識語彙を作成する処理が、ガウス分布情報２１を用いて別の利用者登録認識語彙を作成する処理に変更される。
この場合、認識語彙作成部６は、フラッシュメモリ１４に保存されているガウス分布情報２１を取り込み、分布情報・語彙変換処理部２２を用いて別の音響モデルに対応した別の利用者登録認識語彙を作成する。
その他は、図５の場合で説明した内容と同様である。このように本実施形態においても１つの音響モデルから別の音響モデルに変更した場合、利用者が再度発声して発声登録の作業を行わないでも済む。つまり、利用者が再度発声しなくても、その別の音響モデルに対応した利用者登録認識語彙を作成でき、利用者に対する操作性ないしは利便性を大幅に向上できる。

また、本実施形態によれば、音素列情報を求める際に参照した音響モデルに使用されるガウス分布に対応した情報で代用することにより、特徴量１５として保存する場合よりも保存に必要な記録量を削減できる効果を有する。

本発明の第１の実施形態に係る音声認識装置の構成を示すブロック図。発声登録モードにより利用者登録認識語彙として保持される音素列情報と特徴量を示す図。発声登録モード時における利用者登録認識語彙を生成する動作の処理手順を示すフローチャート。音声認識モード時における音声認識の動作の処理手順を示すフローチャート。音響モデルを切り替えた場合の動作手順例を示すフローチャート。第１の実施形態に係る音声認識装置が搭載されたカーナビゲーション装置の構成を示すブロック図。本発明の第２の実施形態に係る音声認識装置の構成を示すブロック図。発声登録モード時における利用者登録認識語彙を生成する動作の処理手順を示すフローチャート。発声登録モードにより利用者登録認識語彙として保持される音素列情報とガウス分布情報を示す図。参考例において利用者登録認識語彙として登録される音素列情報を示す図。参考例における発声登録モード時において利用者登録認識語彙を生成する処理手順のフローチャート。

符号の説明

１…音声認識装置
３…音響分析部、
５…音声認識部、
６…認識語彙作成部
９…音響モデル格納部
１０…利用者登録認識語彙格納部
１５…特徴量
２１…ガウス分布情報

Claims

利用者により発声される入力音声に対して音響分析する音響分析部と、
前記音響分析部の分析出力に基づき、音声認識する際に用いられる互いに異なる第１及び第２の音響モデルに対応した特徴量を保存する特徴量保存部と、
前記特徴量を用いて前記第１の音響モデル及び前記第２の音響モデルに対応した利用者用音声登録認識語彙を生成可能とする認識語彙作成部と、
を具備することを特徴とする音声認識装置。
利用者により発声される入力音声に対して音響分析する音響分析部と、
前記音響分析部の分析出力に基づき、音声認識する際に用いられる第１の音響モデルを用いて、該第１の音響モデルに対応した分布情報を保存する分布情報保存部と、
前記分布情報を用いて前記第１の音響モデルとは異なる第２の音響モデルに対応した利用者用音声登録認識語彙を生成可能とする認識語彙作成部と、
を具備することを特徴とする音声認識装置。
前記分析情報は、前記第１の音響モデルに用いられるガウス分布情報もしくはガウス分布の中心ベクトル情報として保存されることを特徴とする請求項２に記載の音声認識装置。
前記第１及び前記第２の音響モデルは、互いに異なる言語に対応した音響モデルであることを特徴とする請求項１又は２に記載の音声認識装置。
利用者により発声される入力音声に対して音響分析する音響分析ステップと、
前記音響分析ステップの分析出力に基づき、音声認識を行う際に用いられる互いに異なる第１及び第２の音響モデルに対応した特徴量を保存する特徴量保存ステップと、
前記特徴量を用いて前記第１の音響モデル又は前記第２の音響モデルに対応した利用者用音声登録認識語彙を生成する認識語彙作成ステップと、
を具備することを特徴とする音声認識方法。