JP2008152043A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP2008152043A
JP2008152043A JP2006340275A JP2006340275A JP2008152043A JP 2008152043 A JP2008152043 A JP 2008152043A JP 2006340275 A JP2006340275 A JP 2006340275A JP 2006340275 A JP2006340275 A JP 2006340275A JP 2008152043 A JP2008152043 A JP 2008152043A
Authority
JP
Japan
Prior art keywords
vocabulary
acoustic
recognition
acoustic model
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006340275A
Other languages
English (en)
Inventor
Yutaka Deguchi
豊 出口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006340275A priority Critical patent/JP2008152043A/ja
Publication of JP2008152043A publication Critical patent/JP2008152043A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】利用者による再発声を不必要とし、音響モデルの変更に対応した発声登録語彙情報を生成できる音声認識装置及び音声認識方法を提供する。
【解決手段】発声登録モード時、利用者の発声による入力音声は、音響分析部3で音響分析された後、認識語彙作成部6に入力され、使用される音響モデルに依存した例えば音素列情報が生成されると共に、複数の音響モデルに対応した特徴量15が保存される。そして、音響モデルが切り替えられた場合、特徴量15を用いて特徴量・語彙変換処理部16は、切り替えられた音響モデルに対応した利用者登録認識語彙を作成する。
【選択図】図1

Description

本発明は、音声による認識語彙登録が可能な音声認識装置及び音声認識方法に関する。
近年のCPUの高速化、メモリの大容量化及び音声認識技術の性能向上に伴い、音声認識装置が数多く実用されるようになってきている。
音声認識装置は、特に、カーナビゲーションシステムやモバイル機器など入力装置が限定されるような状況下では、そのニーズが大きい。
音声認識装置は、音の特徴を保持する音響モデルを基に作成した認識語彙と、入力音声から抽出した特徴量とを比較し、基本的には比較結果の数値(以下、尤度と記す)が最も高い値の認識語彙を認識結果として出力する。
認識語彙の指定方法は、あらかじめシステム側で規定されている語彙に加えて、利用者が独自の語彙を登録できるが一般的となっている。
利用者が登録する場合の語彙指定方法は、テキスト入力や音声入力が想定されている。音声入力による語彙登録の代表的な方法は、入力された音声に対して音響モデルを用いた音声認識を行い、得られる音素系列に基づいて語彙情報を作成し、作成された語彙情報を登録する。
したがって、音響モデルが変更される際には、利用者は、再度語彙情報を作成し直す必要が生じる。例えば、利用者が英語で語彙登録を行い、その後、認識しようとする言語をドイツ語に変更したとする。この場合には、英語で登録された語彙登録の情報は、そのまま用いることはできないため、利用者は、ドイツ語での彙登録を再度作成する必要が生じる。
再度作成する方法としては、利用者が再発声する、もしくは入力音声波形を別途保持しておくなどの方法があるが、このような方法は、利用者もしくはシステムの負担が大きくなる。
また、2つの音響モデルを同時に使用することにより、以前の登録語彙を利用する方法も考えられるが、2つの音響モデルを同時に用いることは、音声認識装置の負担が大きくなってしまう。また、扱う言語数が増加すると、同時に必要となる音響モデルの数も増え、音声認識装置の負担量が非常に増大する。
なお、特許文献1には、入力音声の特徴パラメータを単語標準パターンと音韻標準パターンとの2種類のマッチングによる単語認識を併用することにより、語彙の変更や追加を容易として、認識性能を向上する音声認識装置が開示されている。
しかし、この特許文献1は、音響モデルの変更に対して利用者による再発声を不必要にするものでない。
特開平8−211893号公報
本発明は上述した点に鑑みてなされたもので、利用者が再度の発声登録語彙を作成するための発声を必要としないで、音響モデルの変更に対応した発声登録語彙情報を生成できる音声認識装置及び音声認識方法を提供することを目的とする。
本発明の一実施形態に係る音声認識装置は、利用者により発声される入力音声に対して音響分析する音響分析部と、前記音響分析部の分析出力に基づき、音声認識する際に用いられる互いに異なる第1及び第2の音響モデルに対応した特徴量を保存する特徴量保存部と、前記特徴量を用いて前記第1の音響モデル及び前記第2の音響モデルに対応した利用者用音声登録認識語彙を生成可能とする認識語彙作成部と、を具備することを特徴とする。
本発明によれば、音響モデルを変更した際に、利用者が発声登録語彙を行うための発声を行うことなく、変更された音響モデルに対応した発声登録語彙情報を生成できる。
(第1の実施形態)
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の第1の実施形態に係る音声認識装置1を示すブロック図である。
この音声認識装置1は、利用者が音声入力を行うことによって認識語彙を登録できるものであ。
また、この音声認識装置1は、以下に説明するように既に登録済の認識語彙が存在する状況下において、認識言語切り替え等、音響モデルを切り替えた際に、新しい音響モデルに対応した認識語彙情報を作成可能とする。
これにより、音声認識装置1は、新しい音響モデルに対応して再発声などを行うことを必要としない。このため、利用者の負担を軽減するものである。
なお、本実施形態は、認識しようとする認識言語の切り替えに限らず、音響モデルを別のものに切り替える場合にも適用可能である。
図1に示す音声認識装置1は、マイク2を経て入力される音声に対する音響分析を行う音響分析部3を有し、この音響分析部3は、入力された音声を音響分析して分析結果を出力する。この分析結果は、切替スイッチ4を介して音声認識部5と、認識語彙作成部6とに入力される。
音響分析部3は、入力される音声を一定時間間隔(フレーム)で分析し、分析結果としてケプストラムやパワースペクトル等、音声の特徴量(単に特徴量と略記)の時系列や入力音声の開始・終了時刻などを出力する。
この音声認識装置1は、マイク2から入力される音声に対して音声認識する音声認識モードと、利用者に応じて適切な音声認識ができるよう、利用者の音声(発声)により認識語彙の登録を行う発声登録モードとの2つの処理モードを備えている。
そして、利用者は、例えば操作部7に設けられたモード選択ボタン7aの選択操作により、制御部8を介して2つの処理モードを選択することができる。音声認識モードが選択された場合には、制御部8は、切替スイッチ4の接点aを選択し、発声登録モードが選択された場合には接点bを選択する。
また、利用者は、操作部7に設けられた音響モデル選択ボタン7bの選択操作を行うことにより、使用する音響モデルを選択することもできる。
音声認識モード時には、音響分析部3から出力される分析結果の特徴量が接点aを介して音声認識部5に入力される。
この音声認識部5は、音響分析部3を経て入力される特徴量に対して、音響モデル格納部9に格納された音響モデルを用いて、この音響モデルに対応して利用者登録認識語彙格納部10及びシステム認識語彙格納部11に格納されている利用者登録語彙とシステム認識語彙との両語彙との間でパターンマッチングを行う。
そして、音声認識部5は、尤度が最も高い認識語彙を認識結果として、表示デバイス12やスピーカ13に出力する。
この音声認識装置1は、音響モデル等の情報保存手段として、例えば不揮発性の半導体メモリとしてのフラッシュメモリ14を備える。
そしてこのフラッシュメモリ14には、複数の音響モデル、各音響モデルに対応した複数のシステム認識語彙、少なくとも1つの音響モデルに対応した利用者登録認識語彙及び複数の音響モデルに対応した特徴量15とが保存される。
なお、情報保存手段としては、不揮発性の半導体メモリに限定されるものでなく、ハードディスク等の記録装置を用いても良い。
利用者が音響モデル選択ボタン7bの選択操作を行うことにより、制御部8は、フラッシュメモリ14に保存されている複数の音響モデルから選択された音響モデルがロードされ、音響モデル格納部9に格納されて使用可能になる。
これと共に制御部8は、フラッシュメモリ14から利用者により選択された音響モデルに対応した利用者登録認識語彙、システム認識語彙がそれぞれロードされ、利用者登録認識語彙格納部10、システム認識語彙格納部11に格納されて使用可能な状態になる。
なお、音響モデル格納部9、利用者登録認識語彙格納部10及びシステム認識語彙格納部11は、例えばRAM等、高速の処理に適した半導体メモリにより構成されている(勿論、これに限定されるものでなく、例えば不揮発性の半導体メモリなどにより構成しても良い)。
フラッシュメモリ14に保存されている複数の音響モデルは、例えば英語、ドイツ語等にそれぞれ対応した互いに異なる音響モデルである。
図1では、最初に使用される音響モデルとして第1音響モデルが、利用者登録認識語彙、システム認識語彙として第1利用者登録語彙、第1システム認識語彙が、それぞれ音響モデル格納部9、利用者登録認識語彙格納部10及びシステム認識語彙格納部11に格納された状態を示している。
なお、図1の構成の場合、フラッシュメモリ14に保存されている利用者登録認識語彙は、認識語彙作成部6を介して利用者登録認識語彙格納部10に格納される例で示している。また、利用者登録認識語彙格納部10に格納された利用者登録認識語彙をフラッシュメモリ14に保存し直すこともできる。
本実施形態に係る音声認識装置1は、例えばフラッシュメモリ14には、1つの音響モデルに対応した利用者登録語彙を格納する他に、利用者により登録された特徴量15も保存している。
つまり、通常は図10に示す参考例のように利用者登録認識語彙として、1つの音響モデルに対応した例えば音素列情報d、e、g、u、c、h、i、…を保持する。
これに対して、本実施形態においては図2に示すように利用者登録認識語彙として、図10の参考例のように1つの音響モデルに対応した例えば音素列情報d、e、g、u、c、h、i、…を保持する他に、1つの音響モデルに依存しない、つまり少なくとも複数の音響モデルに共通して使用できる特徴量15も保存する。
本実施形態においては、特徴量15は、発声登録モード時には、認識語彙作成部6或いは利用者登録認識語彙格納部10に一時保持されるようにして生成されるが、別の音響モデルの際に利用できるようにフラッシュメモリ14に保存する構成にしている。特徴量15をフラッシュメモリ14に保存する構成に限らず、利用者登録認識語彙格納部10に保持するようにしても良い。
また、認識語彙作成部6は、特徴量15を用いて、1つの音響モデルとは異なる他の音響モデル、例えば図1に示す第1音響モデルとは異なる別の音響モデル(例えば第2音響モデル)に対応した別の利用者登録語彙を作成可能とする特徴量・語彙変換処理部16を有する。
このように本実施形態に係る音声認識装置1は、特徴量15を保存すると共に、特徴量・語彙変換処理部16を有することにより、音響モデルを変更する場合にも、利用者に再度の発声登録を行わないでも、特徴量15を用いて変更した音響モデルに対応した利用者登録語彙を作成できるようにしている。
換言すると、一度、利用者は発声登録を行えば、以後は互いに異なる複数の音響モデルに対応した利用者登録語彙の作成が可能になる。
図3は、本実施形態における発声登録モード時において図2に示すような音素列情報及び特徴量15を登録する処理内容(処理手順)を示すフローチャートを示す。なお、図3においては、入力される音声における例えばXフレームに対する利用者登録認識語彙登録を行う場合で説明する。
発声登録モード時がスタートすると、ステップS1に示すようにフレーム番号のパラメータNが1(N=1)にセットされる。そして、Nフレームの音声がマイク2を経て音響分析部3に入力される。ステップS2に示すように音響分析部3は音響分析を行い、その音響分析結果としての特徴量を認識語彙作成部6に出力する。
ステップS3に示すようにこの認識語彙作成部6は、Nフレームの特徴量に対して現在選択されている音響モデル(図1の場合には、第1音響モデル)に対応した各音素とのパターンマッチングの処理を行う。
そして、ステップS4に示すようにこの認識語彙作成部6は、最適な音素系列を作成する。なお、ステップS2からステップS4は、Nフレームの音声に対する一連の処理となる。
ステップS4の次のステップS5において認識語彙作成部6は、Nフレームが登録処理しようとするXフレームに一致するか否かの判定を行う。
そして、N=Xでない場合には、ステップS6に移り、パラメータNを1つインクリメントしてステップS2の処理に戻る。
一方、N=Xとなる場合には、ステップS7に移り、このステップS7において認識語彙作成部6は、ステップS4における最適な音素系列を最尤系列の音素列情報として利用者登録認識語彙として登録する。
また、認識語彙作成部6は、各時刻の特徴量を(利用者登録認識語彙作成用の情報として)特徴量15として登録する。
認識語彙作成部6は、生成した特徴量15をフラッシュメモリ14に保存する。一方、認識語彙作成部6は、生成した音素列情報を利用者登録認識語彙として利用者登録認識語彙格納部10に格納する。そして、この処理を終了する。
ステップS7の処理により、利用者登録認識語彙として、図2に示すように音素列情報としてのd、e、…が生成されると共に、特徴量15として1時刻目の特徴量、2時刻目の特徴量、3時刻目の特徴量、…、M時刻目の特徴量が生成される。
なお、生成された音素列情報としてのd、e、…も、利用者登録認識語彙として、フラッシュメモリ14に保存される。
なお、図2に示すものは、図3におけるXフレームとして、複数のフレームに設定した場合に得られるものに対応する。
このようにして、利用者登録認識語彙が生成されると、この利用者登録認識語彙及びシステム認識語彙とを用いて音声認識モード時における音声認識を円滑に行うことができる。
なお、図10に示した参考例の場合の音素列情報は、図11に示すような処理により生成される。図11においては、入力音声における例えばXフレームに対する利用者登録認識語彙登録を行う場合で説明する。
発声登録モード時がスタートすると、ステップS51に示すようにフレーム番号のパラメータNが1(N=1)にセットされる。そして、Nフレームの音声がマイクを経て音響分析部に入力される。ステップS52に示すように音響分析部は音響分析を行い、その音響分析結果としての特徴量を認識語彙作成部に出力する。
ステップS53に示すようにこの認識語彙作成部は、Nフレームの特徴量に対して現在選択されている音響モデルに対応した各音素とのパターンマッチングの処理を行う。
そして、ステップS54に示すようにこの認識語彙作成部は、最適な音素系列を作成する。なお、ステップS52からステップS54は、Nフレームの音声に対する一連の処理となる。
ステップS54の次のステップS55において認識語彙作成部は、Nフレームが登録処理しようとするXフレームに一致するか否かの判定を行う。
そして、N=Xでない場合には、ステップS56に移り、パラメータNを1つインクリメントしてステップS52の処理に戻る。一方、N=Xとなる場合には、ステップS57に移り、このステップS57において認識語彙作成部は、ステップS54における最適な音素系列を最尤系列の音素列情報として利用者登録認識語彙として登録し、この処理を終了する。
この参考例の場合には、図3に示した本実施形態に係る音声認識方法とは異なり、特徴量15を保存しないので、異なる音響モデルに切り替えた場合、従来例と同様に切り替えられた音響モデルに対応した利用者登録認識語彙を生成できない。このため、この参考例の場合には、再度の発声登録が必要になってしまうことになる。
これに対して、本実施形態においては、特徴量15を保存しているので、後述するように再度の発声登録を必要としないで、異なる音響モデルに対処できる。
図4は、本実施形態における音声認識モード時における音声認識の処理手順を示すフローチャートを示す。なお、図4においては、入力される音声における例えばXフレームに対する音声認識を行う場合で説明する。
音声認識モード時がスタートすると、ステップS11に示すようにフレーム番号のパラメータNが1(N=1)にセットされる。そして、Nフレームの音声がマイク2を経て音響分析部3に入力される。ステップS12に示すように音響分析部3は音響分析を行い、その音響分析結果としての特徴量を音声認識部5に出力する。
ステップS13に示すようにこの音声認識部5は、Nフレームの特徴量に対して現在選択されている音響モデル(図1の場合には第1音響モデル)に対応した各音素とのパターンマッチングの処理を行う。
このパターンマッチングは、利用者登録認識語彙格納部10に格納されている(音響モデルに対応した)利用者登録認識語彙(図1の場合には、第1利用者登録認識語彙)と、システム認識語彙(図1の場合には、第1システム認識語彙)とを用いて行われる。
これによって、システム認識語彙の場合だけの場合よりも、利用者により適切に対応した音声認識を行うことができる。
そして、パターンマッチングの処理によりステップS14に示すようにこの音声認識部5は、各語彙に対する尤度を計算する。なお、ステップS12からステップS14は、Nフレームの音声に対する一連の処理となる。
ステップS14の次のステップS15において音声認識部5は、Nフレームが登録処理しようとするXフレームに一致するか否かの判定を行う。
そして、N=Xでない場合には、ステップS16に移り、パラメータNを1つインクリメントしてステップS12の処理に戻る。一方、N=Xとなる場合には、ステップS17に移り、このステップS17において音声認識部5は、ステップS14において計算された尤度におけるその尤度が高い語彙を認識結果として出力し、この処理を終了する。
また、本実施形態は、図1に示した例えば第1音響モデルとは異なる音響モデルを用いて音声認識を行うことも可能であり、この場合発声登録モードにより生成した特徴量15を用いて異なる音響モデルに対応した音素列情報等の利用者登録認識語彙を生成する。なお、音素列情報に限定されるものでない。
図5は、音響モデルを切り替えた場合の動作手順の1例を示す。なお、図5では、最初は、前の音響モデル(図1の場合には第1音響モデルとなる)で使用しているとして、説明する。
図5の処理がスタートすると、ステップS21に示すように制御部8は、利用者による操作部7の操作により、別の音響モデル(例えば第2音響モデル)への切り替えの指示操作が行われるのを待つ状態である。
そして、別の音響モデルの切り替えの指示操作が行われると、ステップS22に示すように制御部8は、フラッシュメモリ14から別の音響モデルと、別のシステム認識語彙をロードし、それぞれ音響モデル格納部9とシステム認識語彙格納部11にそれぞれ書く方して、これらを使用可能な状態にする。なお、これらをロードする前に、以前の音響モデルとシステム認識語彙を、必要に応じてフラッシュメモリ14に退避する。
次のステップS23において制御部8は、例えば予め利用者登録認識語彙を保存している例えばフラッシュメモリ14の保存情報を参照して別の音響モデルに対応した利用者登録認識語彙が作成されているか否かを判定する。
別の音響モデルの利用者登録認識語彙がまだ作成されていない場合には、ステップS24に示すように制御部8は、認識語彙作成部6に対して、この別の音響モデルに対応した別の利用者登録認識語彙を作成させる処理を開始させるように制御する。
この場合、制御部8は認識語彙作成部6に対して、この別の音響モデルの利用者登録認識語彙を作成させる制御信号を送る。
そして、この制御信号を受けて認識語彙作成部6は、フラッシュメモリ14に保存されている特徴量15を取り込み、特徴量・語彙変換処理部16を用いて別の音響モデルに対応した別の利用者登録認識語彙を作成する。
なお、この場合、表示デバイス12等を用いて利用者に対して別の音響モデルの利用者登録認識語彙を作成する処理を行います等の告知を行うようにしても良い。
そして、ステップS25に示すようにこの作成された別の利用者登録認識語彙を利用者登録認識語彙格納部10に転送して使用可能な状態に設定する。なお、初めて別の利用者登録認識語彙を作成した場合には、この別の利用者登録認識語彙をフラッシュメモリ14にも保存し、以後はこれを単にロードすることにより使用できるようにする。
一方、ステップS23の判定処理において、既に別の音響モデルの利用者登録認識語彙が作成されている場合には、ステップS25に移り、その別の利用者登録認識語彙を保存している例えばフラッシュメモリ14から利用者登録認識語彙をロードし、利用者登録認識語彙格納部10に格納して使用可能な状態にする。
ステップS25の処理が終了した場合には、表示デバイス12等により利用者に対して別の音響モデルで使用できる利用者登録認識語彙が利用できる状態になった旨を告知するようにしても良い。
次のステップS26において制御部8は、利用者により音声認識を行う指示操作が行われているかの判定を行う。そして、音声認識を行う指示操作が行われていない場合には、図5の処理を終了する。
一方、利用者により音声認識を行う指示操作が行われている場合には、次のステップS27において別の音響モデルを用いて音声認識の処理を行うことになる。
ステップS27の音声認識は、音響モデルが変更になったことを除けば、図4に示した音声認識の処理を行うことになる。
上述したように本実施形態に係る音声認識装置1は、複数の音響モデルにおいて共通に利用可能な特徴量15を保存すると共に、特徴量15から少なくとも1つの音響モデルとは異なる別の音響モデルに対する利用者登録認識語彙を作成可能にしている。
従って、本実施形態によれば、1つの音響モデルとは異なる別の音響モデルを使用する場合にも利用者が再度発声して発声登録の作業を行わないでも、その別の音響モデルに対応した利用者登録認識語彙を作成でき、利用者に対する操作性ないしは利便性を大幅に向上できる。
なお、図4の方法においては、1つの音響モデルに対応した音素列情報と、複数の音響モデルに対応可能な特徴量15とを登録(保存)する場合で説明したが、この場合においてこの特徴量15のみを保存し、この特徴量15を用いて図5のような処理により音素列情報を作成するようにしても良い。
本実施形態に係る音声認識装置1を例えば図6に示すカーナビゲーション装置(車載用経路案内誘導装置)31に適用しても良い。
このカーナビゲーション装置31は、このカーナビゲーション装置31が搭載された自動車の位置検出手段としての位置検出器32を有している。
この位置検出器32は、地磁気センサ33、ジャイロスコープ34、車速センサ35、GPS受信機36とを有する。GPS受信機36により受信するGPS信号には、車両位置情報や時刻情報が含まれている。車速センサ35の速度情報は、位置検出器32においては車両距離測定に用いられる。
位置検出器32の情報は、ナビゲーションに必要な各種処理を実行する制御装置37に入力される。この制御装置37は、CPU、ROM、RAMなどを有して構成される。
制御装置37には、CD−ROM、DVD−ROM等の地図データ記録媒体38から地図データを読み取り、その情報を入力する地図データ入力器39が接続される。
また、この制御装置37には、地図などの表示を行う表示装置40と、ナビゲーションに必要な各種操作を行なうための操作スイッチ群41、及び音声認識装置1とが接続される。
なお、この音声認識装置1は、例えばドイツ語で利用者登録語彙認識語彙が作成されているものとし、その際、特徴量15が保存される。そして、フランス語の音響モデルに変更された場合、特徴量15からフランス語の音響モデルに対応した利用者登録語彙認識語彙が作成されているものとする。
そして、このカーナビゲーション装置31は、例えば1つの国(例えばドイツ)内においては音声認識装置1をドイツ語の音響モデルにより、使用することができる。
そして、このカーナビゲーション装置31を搭載した自動車で、フランス内に移動するような場合には、例えばフランス内に入国した場合には、音声認識装置1の音響モデルをドイツ語からフランス語の音響モデルに切り替えることにより、フランス内での経路案内を円滑に行うことができる。
つまり、フランス内では道路標識等がフランス語で表示されるので、(フランス語を理解できる搭乗者の場合には)ドイツ語のままよりはフランス語に変更した場合の方が目的地に円滑に到達できる場合がある。
また、この場合には、経路案内の地図の表示もフランス語に変更できる方が良い。勿論、音響モデルを切り替えることなく利用しても良い。
このように本実施形態に係る音声認識装置1は、例えば異なる言語に対応した複数の音響モデルの場合にも有効に対応ができる。そして、この音声認識装置1は、利用者に対する利便性を向上することができる。
(第2の実施形態)
図7は、本発明の第2の実施形態に係る音声認識装置1Bの全体構成を示す。この音声認識装置1Bは、図1の音声認識装置1において特徴量15を作成して保存する代わりに、ガウス分布情報21を作成して保存する。
また、認識語彙作成部6は、図1の特徴量・語彙変換処理部16の代わりにガウス分布情報21から別の音響モデルに対応した利用者登録認識語彙を作成する分布情報・語彙変換処理部22を備えている。
本実施形態においては、発声登録モード時に、認識語彙作成部6は、音響分析部3から出力される特徴量に対して、使用している1つの音響モデルに対応したガウス分布を適用して、ガウス分布情報として抽出する。
その際、入力される特徴量に対して、その特徴量に適合或いは反映するガウス分布の中心周波数(中心ベクトル)、分散値の情報をガウス分布情報21として作成する。この場合、適合するガウス分布は、入力される特徴量に応じて単数の場合と、複数の組み合わせになる場合がある。
複数の組み合わせの場合には、それらの重み付け係数等もガウス分布情報21として保存する。また、使用されるガウス分布は、識別可能なコード或いは番号等として保存することができる。
その他の構成は、図1の音声認識装置1の場合の構成と同様である。
図8は、本実施形態における発声登録モード時における利用者登録認識語彙を生成する動作の処理手順のフローチャートを示す。
この動作手順は、図3のフローチャートにおける処理手順において、ステップS7の処理がステップS7′に変更されている。
つまり、ステップS5の判定処理においてN=Xと判定された場合にはステップS7′に進む。そして、このステップS7′において認識語彙作成部6は、ステップS4における最適な音素系列を最尤系列の音素列情報として利用者登録認識語彙として登録する。また、認識語彙作成部6は、この音響モデルに対応した各時刻のガウス分布情報を(利用者登録認識語彙作成用の情報としての)ガウス分布情報21として登録する。
認識語彙作成部6は、生成したガウス分布情報21をフラッシュメモリ14に保存する。一方、認識語彙作成部6は、生成した音素列情報を利用者登録認識語彙として利用者登録認識語彙格納部10に格納する。そして、この処理を終了する。
ステップS7′の処理により、利用者登録認識語彙として、図8に示すように音素列情報としてのd、e、…が生成されると共に、ガウス分布情報21として1時刻目のガウス分布情報、2時刻目のガウス分布情報、3時刻目のガウス分布情報、…、N時刻目のガウス分布情報が生成される。
このようにして、利用者登録認識語彙が生成されると、第1の実施形態と同様にこの利用者登録認識語彙及びシステム認識語彙とを用いて音声認識モード時における音声認識を円滑に行うことができる。
また、本実施形態における音声認識モード時における音声認識の処理手順は、図4で示したものと同様となり、その説明を省略する。
また、本実施形態において音響モデルを変更した場合の動作は、図5のフローチャートにおいて、ステップS24による特徴量15を用いて別の利用者登録認識語彙を作成する処理が、ガウス分布情報21を用いて別の利用者登録認識語彙を作成する処理に変更される。
この場合、認識語彙作成部6は、フラッシュメモリ14に保存されているガウス分布情報21を取り込み、分布情報・語彙変換処理部22を用いて別の音響モデルに対応した別の利用者登録認識語彙を作成する。
その他は、図5の場合で説明した内容と同様である。このように本実施形態においても1つの音響モデルから別の音響モデルに変更した場合、利用者が再度発声して発声登録の作業を行わないでも済む。つまり、利用者が再度発声しなくても、その別の音響モデルに対応した利用者登録認識語彙を作成でき、利用者に対する操作性ないしは利便性を大幅に向上できる。
また、本実施形態によれば、音素列情報を求める際に参照した音響モデルに使用されるガウス分布に対応した情報で代用することにより、特徴量15として保存する場合よりも保存に必要な記録量を削減できる効果を有する。
本発明の第1の実施形態に係る音声認識装置の構成を示すブロック図。 発声登録モードにより利用者登録認識語彙として保持される音素列情報と特徴量を示す図。 発声登録モード時における利用者登録認識語彙を生成する動作の処理手順を示すフローチャート。 音声認識モード時における音声認識の動作の処理手順を示すフローチャート。 音響モデルを切り替えた場合の動作手順例を示すフローチャート。 第1の実施形態に係る音声認識装置が搭載されたカーナビゲーション装置の構成を示すブロック図。 本発明の第2の実施形態に係る音声認識装置の構成を示すブロック図。 発声登録モード時における利用者登録認識語彙を生成する動作の処理手順を示すフローチャート。 発声登録モードにより利用者登録認識語彙として保持される音素列情報とガウス分布情報を示す図。 参考例において利用者登録認識語彙として登録される音素列情報を示す図。 参考例における発声登録モード時において利用者登録認識語彙を生成する処理手順のフローチャート。
符号の説明
1…音声認識装置
3…音響分析部、
5…音声認識部、
6…認識語彙作成部
9…音響モデル格納部
10…利用者登録認識語彙格納部
15…特徴量
21…ガウス分布情報

Claims (5)

  1. 利用者により発声される入力音声に対して音響分析する音響分析部と、
    前記音響分析部の分析出力に基づき、音声認識する際に用いられる互いに異なる第1及び第2の音響モデルに対応した特徴量を保存する特徴量保存部と、
    前記特徴量を用いて前記第1の音響モデル及び前記第2の音響モデルに対応した利用者用音声登録認識語彙を生成可能とする認識語彙作成部と、
    を具備することを特徴とする音声認識装置。
  2. 利用者により発声される入力音声に対して音響分析する音響分析部と、
    前記音響分析部の分析出力に基づき、音声認識する際に用いられる第1の音響モデルを用いて、該第1の音響モデルに対応した分布情報を保存する分布情報保存部と、
    前記分布情報を用いて前記第1の音響モデルとは異なる第2の音響モデルに対応した利用者用音声登録認識語彙を生成可能とする認識語彙作成部と、
    を具備することを特徴とする音声認識装置。
  3. 前記分析情報は、前記第1の音響モデルに用いられるガウス分布情報もしくはガウス分布の中心ベクトル情報として保存されることを特徴とする請求項2に記載の音声認識装置。
  4. 前記第1及び前記第2の音響モデルは、互いに異なる言語に対応した音響モデルであることを特徴とする請求項1又は2に記載の音声認識装置。
  5. 利用者により発声される入力音声に対して音響分析する音響分析ステップと、
    前記音響分析ステップの分析出力に基づき、音声認識を行う際に用いられる互いに異なる第1及び第2の音響モデルに対応した特徴量を保存する特徴量保存ステップと、
    前記特徴量を用いて前記第1の音響モデル又は前記第2の音響モデルに対応した利用者用音声登録認識語彙を生成する認識語彙作成ステップと、
    を具備することを特徴とする音声認識方法。
JP2006340275A 2006-12-18 2006-12-18 音声認識装置及び音声認識方法 Pending JP2008152043A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006340275A JP2008152043A (ja) 2006-12-18 2006-12-18 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006340275A JP2008152043A (ja) 2006-12-18 2006-12-18 音声認識装置及び音声認識方法

Publications (1)

Publication Number Publication Date
JP2008152043A true JP2008152043A (ja) 2008-07-03

Family

ID=39654269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006340275A Pending JP2008152043A (ja) 2006-12-18 2006-12-18 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP2008152043A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510978A (zh) * 2018-04-18 2018-09-07 中国人民解放军62315部队 一种应用于语种识别的英语声学模型的建模方法及系统
CN111128186A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 多音字标音方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510978A (zh) * 2018-04-18 2018-09-07 中国人民解放军62315部队 一种应用于语种识别的英语声学模型的建模方法及系统
CN108510978B (zh) * 2018-04-18 2020-08-21 中国人民解放军62315部队 一种应用于语种识别的英语声学模型的建模方法及系统
CN111128186A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 多音字标音方法及装置
CN111128186B (zh) * 2019-12-30 2022-06-17 云知声智能科技股份有限公司 多音字标音方法及装置

Similar Documents

Publication Publication Date Title
JP4260788B2 (ja) 音声認識機器制御装置
JP5323212B2 (ja) 複数言語音声認識
JP6495850B2 (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
US8099290B2 (en) Voice recognition device
US20060100871A1 (en) Speech recognition method, apparatus and navigation system
US20060041429A1 (en) Text-to-speech system and method
JP2002006878A (ja) 音声フレーズ認識方法及び音声認識装置
JP2009169139A (ja) 音声認識装置
JP4867622B2 (ja) 音声認識装置、および音声認識方法
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP3803029B2 (ja) 音声認識装置
JP4104313B2 (ja) 音声認識装置、プログラム及びナビゲーションシステム
JPH09127978A (ja) 音声認識方法及び装置及びコンピュータ制御装置
JP5181533B2 (ja) 音声対話装置
JP4914632B2 (ja) ナビゲーション装置
JP2008152043A (ja) 音声認識装置及び音声認識方法
JP4440502B2 (ja) 話者認証システム及び方法
JP4520555B2 (ja) 音声認識装置および音声認識ナビゲーション装置
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JP4930014B2 (ja) 音声認識装置、および音声認識方法
JP2005114964A (ja) 音声認識方法および音声認識処理装置
JP4093394B2 (ja) 音声認識装置
US20090254335A1 (en) Multilingual weighted codebooks