JP3914709B2 - 音声認識方法およびシステム - Google Patents
音声認識方法およびシステム Download PDFInfo
- Publication number
- JP3914709B2 JP3914709B2 JP2000523663A JP2000523663A JP3914709B2 JP 3914709 B2 JP3914709 B2 JP 3914709B2 JP 2000523663 A JP2000523663 A JP 2000523663A JP 2000523663 A JP2000523663 A JP 2000523663A JP 3914709 B2 JP3914709 B2 JP 3914709B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- speech
- ordered
- frame
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 77
- 238000011156 evaluation Methods 0.000 claims description 95
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000004065 semiconductor Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 31
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
【0002】
本発明は、音素モデルおよび言語モデルを用いて、入力された音声を認識する音声認識方法およびそれを用いた音声認識システムに関する。
【従来の技術】
【0003】
近年、携帯型音声翻訳機、個人デジタル支援装置(PDA)に代表される小型情報機器、あるいはカーナビゲーションシステムその他の多くの装置あるいはシステムにおいて、音声認識機能あるいは音声認識装置が組み込まれつつある。
【0004】
従来の音声認識方法は、例えば国際電気通信基礎技術研究所編集の「自動翻訳電話」(オーム社、平成6年発行、第10頁から第29頁)に解説されているように、主として、音素モデルと言語モデルを予め記憶し、入力された音声をこれらの記憶されたモデルに基づいて認識する。言語モデルは、異なる単語等の読みおよび文法上の制約を含み、各音素モデルは、複数の音声認識単位のそれぞれのスペクトル特性等を含む。音声認識単位としては、音素あるいはそれより小さな音素片がよく使用される。以下では、音声認識単位として音素を用いる場合を例にして従来の技術を説明する。各音素に対して記憶されたスペクトル特性等もその音素の音素モデルと呼ぶことがある。
【0005】
言語モデルにより許される複数の音素列が決定される。音声認識時にこれらの許される複数の音素列の一つにそれぞれ対応する複数の音素モデル列が生成され、各音素モデル列と入力音声との照合が行われ、最もよく一致する音素モデル列が選択される。各音素モデル列と入力音声の照合においては、入力音声をフレームと呼ばれる区間に区分し、各フレームを一つの音素モデル列を構成する複数の音素モデルと順次照合され、その音素モデルと入力音声の類似度を表す評価値が計算される。この照合を異なる音素モデル列に対して繰り返される。この照合がさらに異なるフレームに対して繰り返される。各音素モデル列の各音素モデルと入力音声のあるフレームとの照合により得られた評価値は、次のフレームにおける照合にも使用される。
【0006】
このように、従来の音声認識方法では、入力音声の全フレームを、全音素モデル列内の全音素モデルと照合するために処理時間が長くなる。さらに、各音素モデル列内の各音素モデルと入力音声のあるフレームとの照合により得られる評価値は、次のフレームでの照合のために記憶する必要がある。このために、音素モデル列の総数が多くなるほど必要なメモリ量が多くなる。
【0007】
上記処理時間を低減するために、入力音声の各フレームに対する照合時に、照合すべき音素モデルを、最終的な認識結果の候補となる見込みのある一部の音素モデルのみに制限するビーム探索法と呼ばれる方法が知られている。具体的には、全音素モデル列に対してあるフレームで計算された評価値によりそれぞれの音素モデルを次のフレームでの照合対象に残すかどうかが判定される。その判定方法として、評価値が高い音素モデルから順に一定数の音素モデルを残す第1の方法、評価値の閾値を計算し、この閾値より高い評価値を有する音素モデルのみを残す第2の方法あるいは両者の方法を併用する方法等が用いられる。
【発明が解決しようとする課題】
【0008】
従来のビーム探索法では、一部の音素モデルを選択するための処理に時間が掛かるという問題がある。すなわち、評価値が高い音素モデルから順に一定数の音素モデルを残す上記第1の方法では、全音素モデルに対する評価値をソートしなければならない。一般にソート処理は時間が掛かる。さらに、閾値よりも高い評価値を有する音素モデルのみを残す上記第2の方法でも、閾値を求める計算が必要になり、この計算に時間が掛かる。
本発明の目的は、計算時間あるいは必要となるメモリ容量を低減できる音声認識方法およびそれを用いた音声認識システムを提供することである。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本発明による音声認識方法は、一つの部分音声(たとえばフレーム)と音声候補を表す複数の音声認識単位(たとえば音素あるいは音素片)との照合にあたっては、これらの複数の音声認識単位の一部と上記部分音声とを照合する。このために、先行する部分音声との照合結果に応じて、次の部分音声と照合されるべき一部の音声認識単位を動的に選択する。この結果、照合が必要な一部の音声認識単位についてのみ照合を行えばよく、照合のための処理時間とメモリ領域を大幅に削減できる。
【0010】
すなわち、本発明による音声認識方法は、
認識対象音声を認識するために認識対象音声を複数の音声候補の各々と照合する音声認識方法であって、
上記複数の音声候補の一つを、上記認識対象音声を分割することによって得る順序付けされた複数の音声フレームと順次照合するステップ(a)と、
他の複数の音声候補に対して上記ステップ(a)を実行するステップ(b)とを具備し、
上記ステップ(a)は、HMM( Hidden Marcov Model )に基づいて実行され、
上記ステップ(a)は、
上記順序付けされた複数の音声フレームの一つと、上記複数の音声候補の一つを表す複数の音素列の中にある順序付けされた連続する音素列範囲との間の類似度を表す複数の尤度を決定するステップ(a1)と、
上記ステップ(a1)で決定された複数の類似度と上記順序付けされた連続する音素列範囲の異なる組み合わせに対応した複数の遷移確率とに基づいて、上記順序付けされた連続する音素列範囲と上記認識対象音声との間の類似度を表す複数の評価値を決定するステップ(a2)と、
上記順序付けされた連続する音素列範囲の中にある先頭の音素に対する評価値が上記順序付けされた連続する音素列範囲の中にある末尾の音素の評価値よりも小さい場合に、上記音声フレームの次の音声フレームに対して照合されるべき連続する音素列範囲を新たな連続する音素列範囲に変更するステップ(a3)であって、上記新たな連続する音素列範囲が、変更前の連続する音素列範囲から除去した先頭の音素を含まず、変更後の連続する音素列範囲の中に変更前の連続する音素列範囲の次の音素を含んでいるステップ(a3)とを備え、
上記順序付けされた連続する音素列範囲は、上記ステップ(a)が上記順序付けされた複数の音声フレームの中の次の音声フレームに対して実行される場合に用いられる。
【発明の実施の形態】
【0011】
図1において、101は音声入力用マイク、102は入力された音声に対するアンプおよびA/D変換器、103が入力された音声を一時的に蓄積するためのFIFO型のバッファである。104は、認識候補音声を表す単語等の語彙と文法上の制限を記憶した辞書・文法ファイル、105は複数の音声認識単位に対する音素モデルを記憶した音素モデルファイルであり、ファイル104と105は、いずれも半導体ROMまたはCD−ROMなどのROMにより構成される。本実施例では音声認識単位として音素を使用する。107は音声認識プログラムを記憶したメモリであり、ROMにより構成される。108はプログラムがワーク用に用いるメモリであり、書き換え可能なランダムアクセスメモリ(RAM)により構成される。109は表示装置(図示せず)へ認識結果データを転送しあるいは他の装置に認識結果データを通信路を介して伝送するためのいろいろの外部インターフェース回路の一つを例示する。106は以上の回路あるいはメモリをバス110あるいは図示しない信号線を介して制御するマイクロプロセッサ(CPU)である。図示された装置の内、マイク101以外の部分は、単一の半導体チップ上に集積回路技術により構成されることが望ましい。
【0012】
POWER−ON−RESETなどのコマンドによりCPUを初期化すると、CPUは、ROM107から音声認識プログラムを、RAM108に転送する。これはRAM108の方がROM107よりもアクセス速度が速いためである。このプログラムの転送完了後は、CPUは転送されたプログラムを実行する。
【0013】
音声認識プログラムの処理の流れを図2のフローチャートを用いて説明する。このプログラムが起動されると、まず音素モデルファイル105をRAM108に読み込む(201)。音素モデルファイル105には、音声の認識単位として使用される複数の音素のそれぞれを分析して得られる特徴ベクトルを保持する。この特徴ベクトルは、後に説明する入力音声に対して生成されるものと同じものである。本実施の形態では、音声認識は、通常よく使用される隠れマルコフモデル(Hidden Marcov Model)(以下、HMMモデルと呼ぶことがある)に基づいて行われる。このモデルに従う音声認識では、各音素に対する音素モデルは、さらに、その音素からその音素もしくは他の音素への遷移確率を有する。
【0014】
その後、辞書・文法ファイル104をRAM108に読み込む(202)。辞書・文法ファイル104は、認識対象の単語等の語彙を含む。各単語等は、認識すべき単語を構成する複数の音声認識単位を表す文字列からなり、具体的には、認識すべき単語を構成する一連の音素を表す一連のローマ字からなる。例えば、氏名「鈴木」は、3つの音素の列「su zu ki」で表される。なお、このファイルはさらに文法上の制限も含むが、以下では、単語のみを用いた音声認識処理について説明し、文法上の制限を使用した音声認識の説明は省略する。
【0015】
次に、辞書・文法ファイル104内の各単語を対応する音素モデル列に変換する(203)。この変換では、ステップ202で読み込まれた各単語を構成する音素列のそれぞれの音素が、ステップ201で読み込まれたそれぞれの音素に対する音素モデルで置換され、各単語を構成する音素列に対応する音素モデル列が得られる。
【0016】
マイク101から入力された音声は、アンプおよびA/D変換器102により増幅され、さらにディジタル信号に変換される。得られたディジタル信号は、FIFOバッファ103を介してあらかじめ決められた時間単位でサンプリングされ、数ポイントのサンプリングされた音声情報がまとめてRAM108に送られる(205)。このまとめられた数ポイントの音声情報はフレームと呼ばれる。1フレームは、通常15〜30ms程度の期間の音声情報である。次のフレームは、通常そうであるように、1フレーム時間より短い時間(5〜20ms程度)だけシフトして入力音声から生成される。各フレームのスペクトルが分析され、そのフレームの特徴をあらわす特徴ベクトル列が生成される(206)。この分析には、一般的に用いられている線形予測分析(Linear Predictive Cording−LPC)が使用され、特徴パラメータとしては、LPCケプストラムが生成される。しかし、本発明は他の音声分析も使用でき、特徴ベクトルとしてもLPGデルタケプストラム、メルケプストラム、対数パワーなども用いることができる。
【0017】
生成された特徴ベクトル列と、ステップ203により求められた各単語を構成する音素モデル列にしたがって、各単語を構成する音素のそれぞれと入力されたフレームとがHMMモデルで定められる方法に従って照合される。すなわち、それぞれの音素と入力フレームとの間の尤度が算出され、その尤度に基づいて、その単語に対応する音素列の一つの音素と入力フレームとの類似度を表す複数の評価値が計算される(207)。この計算の詳細は後に説明する。この照合は、辞書・文法ファイル104に登録されたすべての単語に対して実行される。その後、ステップ205から207が後続のフレームに対して繰り返される。この繰り返しの中でステップ204において、入力音声が終了したか否かが入力音声のパワー値に基づいて判定される。入力音声が終了した場合は、それまでの照合結果に基づいて最も高い評価値を有する音素を含む単語が選択され(208)、図示しない表示装置またはデータ処理装置に外部インターフェース回路109を介して転送される(209)。上記照合処理207では、それ自体公知の前向き計算アルゴリズムに従って音声モデル列の各音素に対する評価値を算出する。本実施の形態では、この評価値を算出する対象の音素モデルを簡単な方法で制限するところに特徴がある。
【0018】
以下では、前向き計算アルゴリズムを用いた、本実施の形態による評価値の計算方法を説明する前に、同じアルゴリズムを用いた従来の評価値の計算方法を説明する。
【0019】
図5は、前向き計算アルゴリズムを用いた、従来の各音素モデル列内の各音素モデルに対する評価値の計算方法を示すトレリス図である。HMMモデルに基づく音声認識では、いずれかの単語に対応する音素モデル列を構成する複数の音素モデルの各々が一つの状態を表すと見なして処理される。図5において、縦軸は一つの単語に対応する一つの音素モデル列を構成する4つの音素モデルに対応する状態1,2,,4を表す。これらの4つの状態は、その音素モデル列を構成する音素モデルの順番と同じ順に順序付けられている。例えば、状態1、、、4は、その音素モデル列に出現する第1、、、第4の音素モデルに対応する。横軸は順次入力されるフレームを表す。
【0020】
図中の丸印は、一つのフレームと一つの状態との組み合わせに対応して設けられ、その中の数字は、そのフレームに対する、その状態に対応する音素モデルの評価値を表し、その丸印の右肩には、そのフレームとその音素モデルとの間の、後に説明する方法で計算される尤度が示されている。丸印の右向きの矢印に付加された数字は、その状態が次のフレームにおいて同じ状態に遷移する確率で、この遷移確率は入力フレームに依らないで予め決定されている。同様に、丸印の右下向きの矢印は、その状態が次のフレームにおいて次の状態に遷移する確率で、この遷移確率も入力フレームに依らないで予め決定されている。
【0021】
フレーム0に対する各状態の評価値は初期値として予め与えられる。0フレームは、入力音声信号の先頭と考えられるため、演算対象の単語を構成する音素モデル列の先頭の音素モデル(状態1)のみの評価値を“0”とし、他は“−∞”を初期値として与えておく。これは入力音声の最初のフレームはかならず先頭の音素モデルと一致するであろうと想定していることになる。フレーム1以降のフレームにおける各状態の評価値は、そのフレームの一つ前のフレームに対して計算された、当該一つ前のフレームとその状態とに関する尤度と、その状態に関連して予め定められた遷移確率により以下のようにして決定される。
【0022】
図6において、ある単語を構成する音素モデル列内の二つの状態i、jに対するあるフレームnでの評価値がそれぞれA、Bであると仮定する。これらの評価値は、このフレームに先行するフレームにおける照合により決まるか、あるいはこれらの状態に対する初期値として与えられる。フレームnと各状態i、jとの間の尤度が計算される。尤度は、各状態が対応する音素モデルとフレームnの間の類似度であり、具体的には、それ自体公知であるように、各状態が対応する音素モデルの特徴ベクトルと、フレームnを分析して得られる特徴ベクトルとの間の距離で表される。この距離は実際にはユークリッド距離などである。ユークリッド距離は、それ自体公知であるように、二つのベクトルの各次元の座標の差の2乗の和により与えられる。またそれぞれの次元に正規化が必要な場合はそれぞれの次元があらかじめ決められた係数によって正規化された後に2乗加算される。これらの係数には、特長ベクトルとして前記したLPCケプストラムが使用される場合、これの係数には、このケプストラムの係数が使用される。ここでは、状態i、jとフレームnとの間の尤度は、それぞれNi,Njと仮定する。
【0023】
次のフレームn+1に対する状態iの評価値Cは、この状態iに先行する状態がない場合には、上記尤度Niと、状態iから状態iへの遷移確率Piiとの和で表される。フレームn+1に対する状態jの評価値は、次の方法により計算される。今、フレームnにおける状態iからフレームn+1における状態jに遷移したと仮定したとき、フレームn+1における状態jの評価値Diは、フレームnにおける状態iの評価値A、フレームnに対する状態iの尤度Ni、状態iからjへの遷移確率Pijの和により与えられる。一方、フレームnにおける状態jからフレームn+1における状態jに遷移したと仮定したとき、フレームn+1における状態jの評価値Djは、フレームnにおける状態jの評価値B、フレームnに対する状態jの尤度Nj、状態jからjへの遷移確率Pjjの和により与えられる。最終的には、フレームn+1での状態jに対する評価値は、以上の評価値DiとDjの内の大きな方が使用される。なお、フレームn+1における状態i、jに対する尤度も計算されるが、これらは、次のフレームn+2におけるこれらの状態の評価値を計算するのに使用される。
【0024】
図5には、フレーム0から5に対してこのようにして計算された評価値が示される。最終フレームまで行った場合に、各単語に対する複数の評価値の内の最大の評価値がその単語に対する評価値として使用される。図5の例では319がこの単語に対する評価値となる。なお、図5では、各状態の遷移先としては、同じ状態あるいは次の状態という二つの状態のみを仮定したが、一般には、各状態はより多くの状態に遷移可能である。しかし、この場合にも同様にして遷移後の各状態の評価値が計算される。
【0025】
このようにして得られたトレリス図に基づいて、各フレーム毎に最大の評価値を有する状態を選択し異なるフレームに対して選択された状態を連ねて得られるパスは、ビタビ経路として知られている。例えば、図5の場合、(フレーム0、状態1)、(フレーム1、状態2)、(フレーム2、状態2)、(フレーム3、状態3)、(フレーム4、状態3)、(フレーム5、状態4)を連ねた経路がビタビ経路である。各フレームでの最大の評価値を有する状態が、そのフレームに対する、処理中の単語内の最も類似した音素を表すことになる。したがって、ビタビ経路により連結された状態列が、処理中の単語に関する、入力音声に類似する音素列を表すことになる。
【0026】
以上の計算から分かるように、従来の評価値の計算方法では、計算対象の音素モデル列に対応するすべての状態の評価値をすべてのフレームに渡り計算する必要がある。従って、必要な演算回数は、次式で与えられ、単語数、フレーム数が増大すると計算回数が増大する。また、途中の評価値を記憶するためのメモリ量も同様に増大する。
【0027】
演算回数=フレーム数×単語数×各単語に対する音素モデル数の平均値
本実施の形態では、このような問題点を軽減するために、照合処理207(図2)では、各単語に対応する音素モデル列を構成する全ての音素モデルの一部に対してのみ評価値を算出するように、評価値を計算する対象の音素モデルを制限する。以下、この処理207を説明する。
【0028】
図3に示すように、照合処理207は、辞書・文法ファイル104に登録された各単語について、その単語に対応する音素モデル列の内、照合対照として選ばれた一部の音素モデル群の各々と入力フレームとの間の評価値を算出する(404)。各単語に対する音素モデル列の内、照合対象とする音素モデル群は、最初のフレームに対しては、その音素モデル列の先頭に位置する所定の複数(m+1)の音素モデルとする。処理404での処理結果に基づいて、同じ単語に対する音素モデル列の内、次のフレームにおいて照合対象とする音素モデル群の先頭の音素モデルを決定する(406)。その後、次の単語を照合対象として選んで(407)、以上の処理404、406を繰り返す。この繰り返しは、辞書・文法ファイル104内の全ての単語がなくなるまで行われる(401)。
【0029】
より具体的には、図4に示すように、処理404では、処理中のフレームが最初のフレームか否かが判断され(801)、もしそうであるならば、照合対象の単語に対応する音素モデル列の内、照合開始すべき音素モデルの位置nとして、値1が設定される。すなわち、この音素モデル列の先頭の音素モデルから照合を開始することが指定される。もし処理中のフレームが最初のフレームでない場合には、その最初のフレームに対して処理406により決定された、照合開始位置nの値が使用される。処理803では、こうして決定された第n音素モデルから第(n+m)音素モデルのそれぞれと入力フレームに対する評価値Pn(I)〜Pn+m(I)を計算する。ここで、Iはフレームの番号である。このときの計算は図5に関連して説明した従来の方法が使用される。また、これらの音素モデルの各々と入力フレームとの間の尤度も計算されるのも従来と同じである。
【0030】
その後、処理406では、同じ単語に対する次のフレームでの照合開始位置が、これらの決定された評価値を使用して決定される。すなわち、照合したm+1個の音素モデル群の両端に位置する、第n音素モデルと第(n+m)音素モデルに対する評価値Pn(I)とPn+m(I)とを比較する(805)。後者が前者より大きければ、次のフレームでの照合開始位置nの値を1だけ大きくする(806)。判定804が成立したときには、入力フレームはすでに第n音素モデルよりも後続の音素モデルに類似するようになったと判断されるからである。この判定が成立しないときには、照合開始位置nは変更されない。図5に関して説明したように、ある単語に対する音素モデル列と入力音声との照合においては、ビタビ経路を正しく判別でき、その経路上の各状態(音素モデル)に対する評価値が正しく計算できればよい。上記判定805が成立したことは、処理中の単語に対するトレリス図上のビタビ経路が、処理中のフレームにおいては、第n音素モデルより後の音素モデルを通過するようになったことを意味すると考えることができる。したがって、後続のフレームにおいては、第n音素モデルに関する評価値の計算を省略しても、処理中の単語に関する評価値の計算に誤りが出ないと期待される。
【0031】
以上の処理が、後続の各フレームに対して繰り返される。但し、判定805の前に、判定804を実行し、新たに照合対象に変更できる他の状態があるか否かを判定する。具体的には、現在の照合対象の音素モデル群内の最後に位置する音素モデルの番号(n+m)が、処理中の単語に対する状態の総数に等しいか否かを判定する。すなわち、処理中の音素モデル列の最後に位置する第(n+m)音素モデルが、処理中の単語に対する音素モデル列の最後の音素モデルであるか否かを判定する。もし、この判定が成立すると、上記処理805、806は実行しない。したがって、その後に入力されるフレームがあるときには、音素モデル列の最後に位置する(m+1)個の音素モデルに対する評価値の算出を続けることになる。こうして、一つのフレームに対する一つの単語に対応する音素モデル列との照合が終了する。
【0032】
例えば、図7は、図5に示した音素モデル列と同じ入力フレーム列0,1,,,との間において、m+1=2とした場合のトレリス図である。状態1から4の内、m+1=2個の状態のみに対して以下の処理がなされる。
【0033】
最初のフレーム0に対しては、処理801での判定が成立し、処理802において、状態1,2に対する照合開始位置nがともに1に設定され、状態1と2が照合対象に選ばれる。しかし、処理803では、これらの状態に対する評価値P1(0)〜P2(0)の計算は行われないで、状態1、2に対して予め定められた初期値0および−∞がそのままそれらの状態の評価値として使用される。この処理803では、フレーム0に対する状態1,2の尤度が計算される。これらの尤度はここではそれぞれ30,20と仮定している。現在の照合対象音素モデル群に対しては判定804は成立しない。上記の二つの評価値に対しては判定805は成立しないので、照合開始位置nは変更されないで、フレーム0に対するこの単語の照合が終了する。
【0034】
次のフレーム1に対して同じ単語が照合されるときには、判定801は成立しない。処理803では、第1から第2の音素モデルに対する評価値P1(1)〜P2(1)が計算される。ここでは、これらの評価値はそれぞれ33,37となる。処理803では、フレーム1と状態1,2の各々との尤度も計算され、それらはそれぞれ10、40となると仮定している。現在の照合対象音素モデル群に対しては判定804は成立しない。上記二つの評価値に対しては判定805が成立するために、処理806により、照合開始位置nは2に更新される。
【0035】
この時の状態1と状態2に対する評価値を比較すると、状態2の評価値が大きい。つまり、入力フレームは状態2により類似していると考えられる。もし、このとき実際に入力フレームが状態2と一致するならば、状態1の評価値はビタビ経路探索では単語内の最終状態の確率値には影響しないと考えられる。よって、次のフレーム2に対して照合を開始する状態を次の状態に進める。
【0036】
次のフレーム2に対して同じ単語が照合されるときには、判定801は成立しない。照合開始位置nが2に更新されたので、処理803では、第2から第3の音素モデルに対する評価値P2(2)〜P3(2)が計算される。ここでは、これらの評価値はそれぞれ85,84となると仮定している。処理803では、フレーム2と状態2,3の各々との尤度も計算され、それらはそれぞれ50、40となると仮定している。現在の照合対象音素モデル群に対しては判定804は成立しない。上記二つの評価値に対しては判定805が成立しないために、処理806が実行されず、照合開始位置nは2のままである。
【0037】
次のフレーム3に対して同じ単語が照合されるときには、判定801は成立しない。照合開始位置nが2のままであるので、処理803では、第2から第3の音素モデルに対する評価値P2(3)〜P3(3)が計算される。ここでは、これらの評価値はそれぞれ142,143となると仮定している。処理803では、フレーム3と状態2,3の各々との尤度も計算され、それらはそれぞれ10、90となると仮定している。現在の照合対象音素モデル群に対しては判定804は成立しない。上記二つの評価値に対しては判定805が成立するために、処理806が実行され、照合開始位置nは3に更新される。
【0038】
次のフレーム4に対して同じ単語が照合されるときには、判定801は成立しない。照合開始位置nが3に更新されたので、処理803では、第3から第4の音素モデルに対する評価値P3(4)〜P4(4)が計算される。ここでは、これらの評価値はそれぞれ241,240となると仮定している。処理803では、フレーム4と状態3,4の各々との尤度も計算され、それらはそれぞれ70、30となると仮定している。現在の照合対象音素モデル群に対しては判定804は成立しない。上記二つの評価値に対しては判定805が成立しないために、処理806は実行されず、照合開始位置nは3のままである。
【0039】
次のフレーム5に対して同じ単語が照合されるときには、判定801は成立しない。照合開始位置nは3のままであるので、処理803では、第3から第4の音素モデルに対する評価値P3(5)〜P4(5)が計算される。ここでは、これらの評価値はそれぞれ318,319になると仮定している。処理803では、フレーム5と状態3,4の各々との尤度も計算される。図では、それらの尤度は省略している。現在の照合対象音素モデル群に対しては判定804が成立するために、処理805、806は実行されない。照合開始位置nは3のままである。さらに後続のフレームがある場合にもフレーム5に対するのと同じ処理が実行される。
【0040】
フレーム5までの入力音声に対する、この処理中の単語に対する評価値は、以上で得られた評価値の最大値、今の場合には319となる。この値は、図5に示したように、従来の計算方法により得られる値と同じである。しかし、以上の計算から明らかなように、本実施の形態では、各フレームに対しては、各単語に対する音素モデル列内の全モデル(あるいはその単語に対する全状態)の内、上記所定数(m+1)の音素モデル(あるいは状態)についてのみ、評価値および尤度を計算する。したがって、各単語に対する音素モデルの総数(あるいは状態の総数)の平均値を例えば10ないし12とし、m+1=2とすると、本実施の形態での計算回数は、図5に示した従来方法が必要とする計算回数の約1/5ないし1/6になる。同様に、途中の計算結果を保持するためのバッファの容量も、図5を用いて説明した従来方法に比べて1/5ないし1/6となる。さらに、従来のビーム探索方法に比べても、計算回数あるいは必要なメモリ容量の点で有利である。
【0041】
変形例
本発明は、以上の実施の形態に限定されるものではなく、以下に例示するいくつかの変形例を含めて他のいろいろの形態で実施できる。
【0042】
(1)照合対象の音素モデルを変更すべきか否かに関する上記判定805(図4)に代えて、次の方法も採用できる。すなわち、第nから第(n+m)音素モデル群に対する評価値Pn(I)〜Pn+m(I)の内、最大の評価値を有する音素モデルを検出し、その音素モデルがそれらの音素モデル群の中央より末尾側に位置するか否かを判別する。すなわち、その最大の評価値を有する音素が、第(n+g)番の音素モデルであるときには、g>m/2が成立するか否かを判定する。もし、最大の評価値を有する音素モデルが、音素モデル群の末端側にあれば、処理806(図4)を実行し、次のフレームに対する照合開始位置nを1だけ更新する。なお、mが1に等しいときには、この実施の形態での判定結果は、実施の形態1での判定結果と一致する。従って、本実施の形態の結果が実施の形態1と異なるためには、(m+1)は2より大きいことが必要である。この変形例に記載した、照合対象の音素モデルを変更すべきか否かに関する判定方法は、先に実施の形態で述べた判定方法805よりも正確に照合対象の先頭位置の切り替えの要否を判断できる。しかし、先に実施の形態で述べた方法は計算が簡単ではある。
【0043】
(2)上記変形例1において、照合開始位置nを1だけ更新するのではなく、最大の評価値を持つ音素モデルを照合対象音素モデル群のほぼ中央にするように状態開始位置nを更新することも可能である。この場合も、(m+1)は2より大きいことが必要である。この方法は、実施の形態で述べた、照合対象の音素モデルを変更すべきか否かに関する判定方法あるいは上記変形例1に判定方法よりもより正確に照合対象の切り替えの要否を判定することができる。
【0044】
(3)実施の形態および変形例のいずれにおいても、音声認識単位として音素が使用された。すなわち、辞書・文法ファイル106には、各単語を構成する音素列を表す文字列が記憶され、音素モデルファイル105にはいろいろの音素のHMMモデルが記憶され、音声認識プログラムは、これらのファイルを使用して各単語に対応する音素モデル列を生成した。しかし、本発明は、音声認識単位として、音素より小さな単位である音素片を使用する音声認識システムにも適用できる。すなわち、音素モデルファイル105には、音素より小さな単位である音素片に対するモデルを記憶する。例えば、音素「su」に代えて、音素片「ss」「su」が記憶され、音素「zu」に代えて音素片「zz」「zu」が記憶され、音素「ki」に代えて音素片「kk」「ki」が記憶される。音声認識プログラムは、単語「su zu ki」に対応して音素片列「ss」「su」「zz」「zu」「kk」「ki」を生成する。この場合にも各音素片を実施の形態1における一つの状態と見なして処理される。
【発明の効果】
【0045】
以上から明らかなように、本発明によれば、同じ認識対象の音声に対する複数の音声認識単位と入力音声との照合に必要な計算時間を短くでき、また、計算に必要なメモリ容量も減らすことができる。
【図面の簡単な説明】
【0046】
【図1】 本発明による音声認識方法を使用する音声認識システムの概略ブロック図である。
【図2】 図1の装置に使用される音声認識プログラムの概略フローチャートである。
【図3】 図2のフローチャート内の照合処理(207)の概略フローチャートである。
【図4】 図3のフローチャート内の評価値計算処理(404)と照合開始位置更新処理(406)との概略フローチャートである。
【図5】 音声モデル列に対する評価値を算出する従来の手順を示す図である。
【図6】 遷移確率を使用して評価値を算出する手順を説明する図である。
【図7】 音声モデル列に対する評価値を算出する本発明による手順を示す図である。
Claims (7)
- アナログ信号の認識対象音声を入力する音声入力装置と、
上記音声入力装置に接続され、上記アナログ信号の認識対象音声をディジタル信号に変換して上記ディジタル信号を順序付けられた音声フレームに変換する変換装置と、
音声認識プログラムと複数の音声候補の各々を表す音素列とを格納し、各音素列が順序付けられた音素を含む記憶装置と、
上記音声認識プログラムを実行して上記音声入力装置から入力された上記認識対象音声を上記複数の音声候補と照合する、上記記憶装置と上記変換装置に接続された照合装置とを具備し、
処理装置が、
上記順序付けられた音声フレームを上記記憶装置に記憶する記憶手順と、
上記順序付けられた音声フレームを上記音素列と照合する照合手順と、
照合結果を提供する提供手順とを含む上記音声認識プログラムをHMM( Hidden Marcov Model )に基づいて実行し、
上記照合手順が、
上記順序付けられた音声フレームの一つを上記音素列の各々の部分と比較し、上記部分が順序付けられた連続する音素列範囲を含む比較手順と、
比較結果に基づいて、上記フレームの一つと上記音素列の各々の部分との間の類似度を表す尤度を取得する取得手順と、
上記尤度と上記音素列の各々の上記部分の異なる組み合わせに対応した複数の遷移確率とに基づいて、上記音素列の各々の上記部分と上記認識対象の音声との間の類似度を表す評価値を計算する計算手順と、
上記部分の先頭の音素に対する評価値が上記部分の中の末尾の音素の評価値よりも小さい場合に、上記音声フレームの次の音声フレームに対して照合されるべき部分を上記音素列の中にある新たな部分に変える変更手順であって、上記新たな部分が上記部分から除去した先頭の音素を含まず、変更後の部分の中に変更前の部分の次の音素を含んでいる変更手順を備えていることを特徴とする音声認識システム。 - 上記記憶装置は、上記複数の音声候補を表す上記音素列と上記音声認識プログラムを格納するROMと、上記順序付けされた音声フレームが記憶されるRAMとを含み、上記ROMに格納された上記複数の音声候補を表す上記音素列と上記音声認識プログラムとが上記音声認識プログラムの初期化に応じて上記RAMに転送されることを特徴とする請求項1に記載の音声認識システム。
- 上記ROMは、上記音声認識プログラムを格納する第1のROMと、上記複数の音声候補を表す上記音素列を記憶する第2のROMとを含み、
上記変換装置、上記照合装置及び上記第1のROMが一個の半導体チップ上に形成されていることを特徴とする請求項2に記載の音声認識システム。 - 上記照合装置がCPUであることを特徴とする請求項3に記載の音声認識システム。
- 上記システムがナビゲーションシステムであることを特徴とする請求項4に記載の音声認識システム。
- 認識対象音声を認識するために認識対象音声を複数の音声候補の各々と照合する音声認識方法であって、
上記複数の音声候補の一つを、上記認識対象音声を分割することによって得る順序付けされた複数の音声フレームと順次照合するステップ(a)と、
他の複数の音声候補に対して上記ステップ(a)を実行するステップ(b)とを具備し、
上記ステップ(a)は、HMM( Hidden Marcov Model )に基づいて実行され、
上記ステップ(a)は、
上記順序付けされた複数の音声フレームの一つと、上記複数の音声候補の一つを表す複数の音素列の中にある順序付けされた連続する音素列範囲との間の類似度を表す複数の尤度を決定するステップ(a1)と、
上記ステップ(a1)で決定された複数の類似度と上記順序付けされた連続する音素列範囲の異なる組み合わせに対応した複数の遷移確率とに基づいて、上記順序付けされた連続する音素列範囲と上記認識対象音声との間の類似度を表す複数の評価値を決定するステップ(a2)と、
上記順序付けされた連続する音素列範囲の中にある先頭の音素に対する評価値が上記順序付けされた連続する音素列範囲の中にある末尾の音素の評価値よりも小さい場合に、上記音声フレームの次の音声フレームに対して照合されるべき連続する音素列範囲を新たな連続する音素列範囲に変更するステップ(a3)であって、上記新たな連続する音素列範囲が、変更前の連続する音素列範囲から除去した先頭の音素を含まず、変更後の連続する音素列範囲の中に変更前の連続する音素列範囲の次の音素を含んでいるステップ(a3)とを備え、
上記順序付けされた連続する音素列範囲は、上記ステップ(a)が上記順序付けされた複数の音声フレームの中の次の音声フレームに対して実行される場合に用いられることを特徴とする音声認識方法。 - 上記ステップ(a3)は、上記順序付けされた連続する音素列範囲の中にある先頭の音素に対する評価値が上記順序付けされた連続する音素列範囲の中にある末尾の音素の評価値よりも小さくない場合、今度は、上記順序付けされた連続する音素列範囲を、順序付けされた新たな連続する音素列範囲として修正することなく決定するステップを含むことを特徴とする請求項6に記載の音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP1997/004324 WO1999028898A1 (fr) | 1997-11-27 | 1997-11-27 | Systeme et procede de reconnaissance vocale |
Publications (1)
Publication Number | Publication Date |
---|---|
JP3914709B2 true JP3914709B2 (ja) | 2007-05-16 |
Family
ID=14181546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000523663A Expired - Fee Related JP3914709B2 (ja) | 1997-11-27 | 1997-11-27 | 音声認識方法およびシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US6631349B1 (ja) |
JP (1) | JP3914709B2 (ja) |
WO (1) | WO1999028898A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2151683A3 (en) * | 1999-11-15 | 2010-07-28 | Panasonic Corporation | Biosensor, thin film electrode forming method, quantification apparatus, and quantification method |
JP4072718B2 (ja) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
US20090204702A1 (en) * | 2008-02-08 | 2009-08-13 | Autiq As | System and method for network management using self-discovering thin agents |
TWI412019B (zh) * | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
TWI559300B (zh) * | 2015-01-21 | 2016-11-21 | 宇智網通股份有限公司 | 基於時域運算之聲音事件偵測方法及相關裝置 |
US11217245B2 (en) * | 2019-08-29 | 2022-01-04 | Sony Interactive Entertainment Inc. | Customizable keyword spotting system with keyword adaptation |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4803729A (en) * | 1987-04-03 | 1989-02-07 | Dragon Systems, Inc. | Speech recognition method |
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
US5515475A (en) * | 1993-06-24 | 1996-05-07 | Northern Telecom Limited | Speech recognition method using a two-pass search |
KR0149303B1 (ko) * | 1995-03-30 | 1998-12-15 | 김광호 | 전자식 안정기를 연속적으로 궤환 제어하는 시스템 |
US5983180A (en) * | 1997-10-23 | 1999-11-09 | Softsound Limited | Recognition of sequential data using finite state sequence models organized in a tree structure |
-
1997
- 1997-11-27 WO PCT/JP1997/004324 patent/WO1999028898A1/ja active Application Filing
- 1997-11-27 JP JP2000523663A patent/JP3914709B2/ja not_active Expired - Fee Related
- 1997-11-27 US US09/554,003 patent/US6631349B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6631349B1 (en) | 2003-10-07 |
WO1999028898A1 (fr) | 1999-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4465564B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
US7881935B2 (en) | Speech recognition device and speech recognition method and recording medium utilizing preliminary word selection | |
US5983177A (en) | Method and apparatus for obtaining transcriptions from multiple training utterances | |
US7487091B2 (en) | Speech recognition device for recognizing a word sequence using a switching speech model network | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
US8532990B2 (en) | Speech recognition of a list entry | |
EP0769184B1 (en) | Speech recognition methods and apparatus on the basis of the modelling of new words | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
JPH0422276B2 (ja) | ||
JP3803029B2 (ja) | 音声認識装置 | |
JP5274191B2 (ja) | 音声認識装置 | |
JP3914709B2 (ja) | 音声認識方法およびシステム | |
JPH0247760B2 (ja) | ||
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
US6411929B1 (en) | Speech recognition method and system | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
JP3042455B2 (ja) | 連続音声認識方式 | |
JPH0823758B2 (ja) | 話者適応形音声認識装置 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
JP4600705B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP2005091504A (ja) | 音声認識装置 | |
JP4696400B2 (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
US20070271096A1 (en) | Voice Recognition Method And System Based On The Contexual Modeling Of Voice Units | |
JP4678464B2 (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060523 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060724 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070205 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120209 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |