JP2882088B2 - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP2882088B2 JP2882088B2 JP3111408A JP11140891A JP2882088B2 JP 2882088 B2 JP2882088 B2 JP 2882088B2 JP 3111408 A JP3111408 A JP 3111408A JP 11140891 A JP11140891 A JP 11140891A JP 2882088 B2 JP2882088 B2 JP 2882088B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- recognition
- standard pattern
- input
- equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【産業上の利用分野】本発明は、機械に人間の声を認識
させる音声認識方法に関するものである。
させる音声認識方法に関するものである。
【0002】
【従来の技術】従来から、認識率の向上のみを意図せず
耐雑音性をも重視した音声認識方法が提案されている。
例えば、特開昭62−111293号公報に示されてい
るように、耐雑音性を向上させる方法として、次に述べ
るようなものがある。
耐雑音性をも重視した音声認識方法が提案されている。
例えば、特開昭62−111293号公報に示されてい
るように、耐雑音性を向上させる方法として、次に述べ
るようなものがある。
【0003】まず、認識すべき音声とその前後の騒音を
含む十分長い区間を入力信号区間とし、この入力信号区
間に、ある時間的な基準点を設ける。この基準点を端点
としてその端点から最短音声区間のN1フレームの区間
から最長音声区間のN2フレームの区間までのN2−N1
+1とおりの音声区間候補のそれぞれに対して、音声区
間長を一定時間長に伸縮しながら認識対象の標準パター
ンとの照合を行なう。
含む十分長い区間を入力信号区間とし、この入力信号区
間に、ある時間的な基準点を設ける。この基準点を端点
としてその端点から最短音声区間のN1フレームの区間
から最長音声区間のN2フレームの区間までのN2−N1
+1とおりの音声区間候補のそれぞれに対して、音声区
間長を一定時間長に伸縮しながら認識対象の標準パター
ンとの照合を行なう。
【0004】この照合により各認識対象の類似度または
距離を求めるという操作を、入力信号の全区間の最初か
ら最後まで基準点を走査して行ない、全ての基準点位置
の全ての音声区間候補に対する類似度を各認識対象につ
いて求める。そして類似度が最大となる認識対象を認識
結果として出力することにより、音声区間の検出を行う
ことなく騒音環境下で発声した音声を、認識対象音声と
その前後に騒音を含んだ十分長い入力の中から切り出
し、認識するというものであった。
距離を求めるという操作を、入力信号の全区間の最初か
ら最後まで基準点を走査して行ない、全ての基準点位置
の全ての音声区間候補に対する類似度を各認識対象につ
いて求める。そして類似度が最大となる認識対象を認識
結果として出力することにより、音声区間の検出を行う
ことなく騒音環境下で発声した音声を、認識対象音声と
その前後に騒音を含んだ十分長い入力の中から切り出
し、認識するというものであった。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来技術では、認識対象音声とその前後に雑音を含んだ入
力信号を分析して得られるパラメータ時系列に対して、
あらゆる部分区間について各認識対象音声の標準パター
ンとの照合を行ない、各標準パターンごとに最も類似し
た入力の部分区間を切り出し、類似度の一番高い認識対
象音声を認識結果とするという処理で認識結果を決定し
ていた。
来技術では、認識対象音声とその前後に雑音を含んだ入
力信号を分析して得られるパラメータ時系列に対して、
あらゆる部分区間について各認識対象音声の標準パター
ンとの照合を行ない、各標準パターンごとに最も類似し
た入力の部分区間を切り出し、類似度の一番高い認識対
象音声を認識結果とするという処理で認識結果を決定し
ていた。
【0006】この方法では、ある入力に対して正解の標
準パターン(入力に含まれている認識対象音声と一致し
た音声の標準パターン)との照合を行なうときにはほと
んどの場合、図9に示すように、(a)に示す入力「じ
ゅういち」は、(b)に示す標準パターン「じゅうい
ち」に対し正しい区間を切り出すことができるが、図1
0に示すように、(a)で示す入力「じゅういち」は、
(b)に示す正解でない標準パターン「いち」との照合
を行なう場合に正しい区間を切り出せないことがある。
即ちこのときの類似度が正解の標準パターン「じゅうい
ち」と照合を行なって計算された類似度よりも高くなる
ことがあり、誤認識してしまう可能性が高かった。
準パターン(入力に含まれている認識対象音声と一致し
た音声の標準パターン)との照合を行なうときにはほと
んどの場合、図9に示すように、(a)に示す入力「じ
ゅういち」は、(b)に示す標準パターン「じゅうい
ち」に対し正しい区間を切り出すことができるが、図1
0に示すように、(a)で示す入力「じゅういち」は、
(b)に示す正解でない標準パターン「いち」との照合
を行なう場合に正しい区間を切り出せないことがある。
即ちこのときの類似度が正解の標準パターン「じゅうい
ち」と照合を行なって計算された類似度よりも高くなる
ことがあり、誤認識してしまう可能性が高かった。
【0007】特に顕著な例は、図9、図10に示した
「いち」と「じゅういち」のようにある認識対象単語に
別の認識対象単語を含んでいるような場合である。この
例では「じゅういち」と発声した入力に対して「いち」
の標準パターンとの照合を行なう際に「じゅういち」の
後半の「〜いち」の部分区間と「いち」の標準パターン
がよく似ているため、入力のうち後半の「〜いち」の部
分区間を切り出し、なおかつ高い類似度を示してしま
う。
「いち」と「じゅういち」のようにある認識対象単語に
別の認識対象単語を含んでいるような場合である。この
例では「じゅういち」と発声した入力に対して「いち」
の標準パターンとの照合を行なう際に「じゅういち」の
後半の「〜いち」の部分区間と「いち」の標準パターン
がよく似ているため、入力のうち後半の「〜いち」の部
分区間を切り出し、なおかつ高い類似度を示してしま
う。
【0008】さらに、この「いち」の標準パターンに対
する類似度が「じゅういち」の標準パターンに対する類
似度を凌ぐことがしばしば起こり、「じゅういち」と発
声した入力に対して認識結果が「いち」に誤ることが多
かった。実際に計算機シミュレーションにより「ぜろ」
から「じゅうさん」までの14種類の数字を認識させる
実験を行なった結果により、80人が「じゅういち」と
発声した入力のうち、27.5%にあたる22人の認識
結果が「いち」に誤ることを確かめている。
する類似度が「じゅういち」の標準パターンに対する類
似度を凌ぐことがしばしば起こり、「じゅういち」と発
声した入力に対して認識結果が「いち」に誤ることが多
かった。実際に計算機シミュレーションにより「ぜろ」
から「じゅうさん」までの14種類の数字を認識させる
実験を行なった結果により、80人が「じゅういち」と
発声した入力のうち、27.5%にあたる22人の認識
結果が「いち」に誤ることを確かめている。
【0009】本発明の目的は、以上のような従来の課題
を解決するものであり、従来の方法に比べて音声の認識
率を向上させることができるようにした音声認識方法を
提供することを目的とするものである。
を解決するものであり、従来の方法に比べて音声の認識
率を向上させることができるようにした音声認識方法を
提供することを目的とするものである。
【0010】
【課題を解決するための手段】上記目的を達成するため
の本発明の技術的解決手段は、入力音声信号を分析し、
予め作成しておいた全認識対象の標準パターンとの照合
を行ない、結果を類似度の列で出力する一次照合部と、
この一次照合部が出力する類似度の列を認識のためのパ
ラメータとして、予め前記一次照合部からの類似度の列
を正規化し統計的な処理により求めた二次照合部用の標
準パターンとの照合を行う二次照合部とから構成され、
上記一次照合部から類似度の列として出力される結果を
上記二次照合部において再度照合するようにしたもので
ある。二次照合部は、認識対象単語に別の認識対象単語
を含むような場合における従来例における認識誤りを補
正し、正しい認識結果を出力する機能を持つ。
の本発明の技術的解決手段は、入力音声信号を分析し、
予め作成しておいた全認識対象の標準パターンとの照合
を行ない、結果を類似度の列で出力する一次照合部と、
この一次照合部が出力する類似度の列を認識のためのパ
ラメータとして、予め前記一次照合部からの類似度の列
を正規化し統計的な処理により求めた二次照合部用の標
準パターンとの照合を行う二次照合部とから構成され、
上記一次照合部から類似度の列として出力される結果を
上記二次照合部において再度照合するようにしたもので
ある。二次照合部は、認識対象単語に別の認識対象単語
を含むような場合における従来例における認識誤りを補
正し、正しい認識結果を出力する機能を持つ。
【0011】
【作用】例えば数字の認識を行う場合には「じゅうい
ち」と「いち」の例のように、認識の誤り方に一定した
傾向が観察できる。即ち、図8(a)に示すように「じ
ゅういち」を入力した場合、入力は、図8(d)に示す
「じゅういち」の標準パターンとは大変よく似ており高
い類似度を示し、入力のうち正しい区間を切り出すこと
ができる。ところが、後半の「〜いち」の部分は図8
(b)に示す「いち」の標準パターンとよく似ており、
「いち」の標準パターンと照合を行うと正しくない区間
である入力の後半の「〜いち」を切り出しなおかつ高い
類似度を示す。同様に図8(c)に示す「じゅう」の標
準パターンとの照合を行う場合にも前半の「じゅう〜」
を切り出し高い類似度を示す。他の標準パターンとの照
合を行う場合にも同様に、切り出す区間と類似度の一定
した傾向を観察することができる。
ち」と「いち」の例のように、認識の誤り方に一定した
傾向が観察できる。即ち、図8(a)に示すように「じ
ゅういち」を入力した場合、入力は、図8(d)に示す
「じゅういち」の標準パターンとは大変よく似ており高
い類似度を示し、入力のうち正しい区間を切り出すこと
ができる。ところが、後半の「〜いち」の部分は図8
(b)に示す「いち」の標準パターンとよく似ており、
「いち」の標準パターンと照合を行うと正しくない区間
である入力の後半の「〜いち」を切り出しなおかつ高い
類似度を示す。同様に図8(c)に示す「じゅう」の標
準パターンとの照合を行う場合にも前半の「じゅう〜」
を切り出し高い類似度を示す。他の標準パターンとの照
合を行う場合にも同様に、切り出す区間と類似度の一定
した傾向を観察することができる。
【0012】このような傾向を「いち」、「じゅう」、
「じゅういち」の3単語の相互について調べると(表
1)のようになる。
「じゅういち」の3単語の相互について調べると(表
1)のようになる。
【0013】
【表1】
【0014】すなわち、たとえば「じゅういち」はその
中に「じゅう」や「いち」を含んでいるので、「じゅ
う」や「いち」の標準パターンに対する類似度が高くな
るが、その逆、たとえば「じゅう」や「いち」はその中
に「じゅういち」を含んでいないので「じゅういち」の
標準パターンに対する類似度は高くならない。このよう
な理由により、(表1)のように、ある入力に対して全
認識対象の標準パターンと照合を行って得られる各認識
対象の標準パターンに対する類似度に認識対象単語ごと
に異なった傾向が表れる。したがって、一次照合して得
られる類似度を特徴パラメータとして扱い、その類似度
の傾向を標準パターンとしてパターンマッチングによる
音声の認識に利用することができる。すなわち、一次照
合によって、多くの人が発声した音声を、全認識対象の
標準パターンとの照合を行い、その結果得られる類似度
の統計的な傾向を求め、これを二次照合のための標準パ
ターンとし、この類似度傾向を表現する標準パターンを
用いて二次照合を行なって音声を認識する手段により、
一次照合における認識誤りを修正でき、前記課題を解決
することができる。
中に「じゅう」や「いち」を含んでいるので、「じゅ
う」や「いち」の標準パターンに対する類似度が高くな
るが、その逆、たとえば「じゅう」や「いち」はその中
に「じゅういち」を含んでいないので「じゅういち」の
標準パターンに対する類似度は高くならない。このよう
な理由により、(表1)のように、ある入力に対して全
認識対象の標準パターンと照合を行って得られる各認識
対象の標準パターンに対する類似度に認識対象単語ごと
に異なった傾向が表れる。したがって、一次照合して得
られる類似度を特徴パラメータとして扱い、その類似度
の傾向を標準パターンとしてパターンマッチングによる
音声の認識に利用することができる。すなわち、一次照
合によって、多くの人が発声した音声を、全認識対象の
標準パターンとの照合を行い、その結果得られる類似度
の統計的な傾向を求め、これを二次照合のための標準パ
ターンとし、この類似度傾向を表現する標準パターンを
用いて二次照合を行なって音声を認識する手段により、
一次照合における認識誤りを修正でき、前記課題を解決
することができる。
【0015】従って本発明によれば、従来の方法を用い
て音声の認識を行えば誤認識してしまうような場合にも
誤認識を防止することができ、従来の音声認識の方法に
比べて認識率を向上させることができる。
て音声の認識を行えば誤認識してしまうような場合にも
誤認識を防止することができ、従来の音声認識の方法に
比べて認識率を向上させることができる。
【0016】
【実施例】以下に本発明の実施例を図面を参照しながら
詳細に説明する。
詳細に説明する。
【0017】図1は本発明の一実施例における音声認識
方法を具現化する機能ブロック図である。
方法を具現化する機能ブロック図である。
【0018】本発明は、図1に示したように、一次照合
部1と二次照合部2とに大別される。一次照合部1は従
来例による認識方法に相当する。すなわち、認識すべき
音声とその前後の騒音を含む十分長い区間を入力とし、
一定の基準に基づいたあらゆる音声区間候補に対して各
認識対象の一次照合用の標準パターンとの照合を行な
い、各認識対象ごとの類似度の最大値を求め、入力中か
ら各認識対象単語を切り出し、全単語の標準パターンに
対する最大類似度を要素とした類似度列を結果として出
力するという処理を行なっている。
部1と二次照合部2とに大別される。一次照合部1は従
来例による認識方法に相当する。すなわち、認識すべき
音声とその前後の騒音を含む十分長い区間を入力とし、
一定の基準に基づいたあらゆる音声区間候補に対して各
認識対象の一次照合用の標準パターンとの照合を行な
い、各認識対象ごとの類似度の最大値を求め、入力中か
ら各認識対象単語を切り出し、全単語の標準パターンに
対する最大類似度を要素とした類似度列を結果として出
力するという処理を行なっている。
【0019】二次照合部2では上記作用で述べた、標準
パターンに対する類似度に認識対象単語ごとに異なった
傾向が表れるという性質を利用し、一次照合で得られた
結果の類似度列(入力中から各認識対象単語を切り出し
たときの類似度を要素とする)を入力とし、この入力の
類似度列を特徴パラメータとして扱い、パターンマッチ
ングによる音声の認識を行ない、一次照合部1における
認識誤りを補正するという処理を行なう。
パターンに対する類似度に認識対象単語ごとに異なった
傾向が表れるという性質を利用し、一次照合で得られた
結果の類似度列(入力中から各認識対象単語を切り出し
たときの類似度を要素とする)を入力とし、この入力の
類似度列を特徴パラメータとして扱い、パターンマッチ
ングによる音声の認識を行ない、一次照合部1における
認識誤りを補正するという処理を行なう。
【0020】まず、一次照合部についての考え方につい
て図2〜図6を用いて説明する。同じ言葉を発声して
も、発声の時間的な長さ(音声長)は発声方法によって
も異なるし、人の違いによっても異なる。パターンマッ
チングによる音声認識方法では入力音声の長さを標準的
な音声長に正規化した上で類似度計算を行なって音声の
認識を行なう。図2は音声長の正規化の様子を示したも
のである。入力音声の長さの最小長をN1、最大長をN2
とし、音声の標準的な長さ(標準パターン長)をIとす
ると、図2に示すように、長さN(N1≦N≦N2)の音
声長を伸縮して長さIに正規化することになる。図2で
は音声の終端を一致させて伸縮するようになっている。
伸縮には(数1)に示す線形伸縮式を用いる。
て図2〜図6を用いて説明する。同じ言葉を発声して
も、発声の時間的な長さ(音声長)は発声方法によって
も異なるし、人の違いによっても異なる。パターンマッ
チングによる音声認識方法では入力音声の長さを標準的
な音声長に正規化した上で類似度計算を行なって音声の
認識を行なう。図2は音声長の正規化の様子を示したも
のである。入力音声の長さの最小長をN1、最大長をN2
とし、音声の標準的な長さ(標準パターン長)をIとす
ると、図2に示すように、長さN(N1≦N≦N2)の音
声長を伸縮して長さIに正規化することになる。図2で
は音声の終端を一致させて伸縮するようになっている。
伸縮には(数1)に示す線形伸縮式を用いる。
【0021】
【数1】
【0022】未知入力と標準パターンの類似度を計算す
る場合、未知入力の音声長Nを(数1)によって標準パ
ターン長に伸縮することになるが、この様子を図示した
のが図3である。横軸に入力長、縦軸に標準パターン長
をとり、終端を一致させると、入力音声長はN1〜N2の
範囲であるから、入力と標準パターンとのマッチングル
ートは、入力軸のN1≦N≦N2内の1点を始点とし、P
を終端とする直線となる。したがって、類似度計算はす
べて三角形の内側で行なわれることになる。
る場合、未知入力の音声長Nを(数1)によって標準パ
ターン長に伸縮することになるが、この様子を図示した
のが図3である。横軸に入力長、縦軸に標準パターン長
をとり、終端を一致させると、入力音声長はN1〜N2の
範囲であるから、入力と標準パターンとのマッチングル
ートは、入力軸のN1≦N≦N2内の1点を始点とし、P
を終端とする直線となる。したがって、類似度計算はす
べて三角形の内側で行なわれることになる。
【0023】いま、時間長Nuの未知入力があり、その
内容が音声kであったとする。ただし、未知入力の終端
は既知であるが、始端は未知である(したがって、Nu
も未知である)とする。この未知入力と単語kの標準パ
ターンSkの照合を行なう場合、NをN1からN2まで、
1フレームずつずらせながら、各フレームに対して(数
1)を用いて時間長をIに伸縮し、未知入力パラメータ
と標準パターンとの類似度を求める。このとき標準パタ
ーンはSkであるので、発声が正確であるならば、N=
Nuにおいて類似度は最大となるはずである。
内容が音声kであったとする。ただし、未知入力の終端
は既知であるが、始端は未知である(したがって、Nu
も未知である)とする。この未知入力と単語kの標準パ
ターンSkの照合を行なう場合、NをN1からN2まで、
1フレームずつずらせながら、各フレームに対して(数
1)を用いて時間長をIに伸縮し、未知入力パラメータ
と標準パターンとの類似度を求める。このとき標準パタ
ーンはSkであるので、発声が正確であるならば、N=
Nuにおいて類似度は最大となるはずである。
【0024】さて、図3においては終端が既知として説
明を行なったが、両端が未知の場合、すなわち、音声区
間が不明である場合にも、この方法を拡張することがで
きる。図4はその説明図である。図において、終端点の
横軸(入力の時間軸)座標をjとする。ここで、もしj
の位置が入力音声の終端に一致していれば図3の場合と
同じであるが、今度は両端点が未知という仮定であるの
で、必ずしもjが音声の終端点と一致するとは限らな
い。しかしながら、jを音声区間が十分に入る広い範囲
j1≦j≦j2でスキャンすれば、jが音声の終端と一致
する時点j=j0 が必ず存在する。その場合、始端点は
j0−N2〜j0−N1の範囲内の点j0−Nuに存在するは
ずである。そして、このようなスキャンした場合におい
ても、発声した言葉と標準パターンが一致していれば、
始端がj0−Nu、終端がj0のときの類似度が、他のど
のようなjおよびNの組合せよりも大きくなる。しか
も、この類似度は他標準パターンに対する類似度よりも
大きい。
明を行なったが、両端が未知の場合、すなわち、音声区
間が不明である場合にも、この方法を拡張することがで
きる。図4はその説明図である。図において、終端点の
横軸(入力の時間軸)座標をjとする。ここで、もしj
の位置が入力音声の終端に一致していれば図3の場合と
同じであるが、今度は両端点が未知という仮定であるの
で、必ずしもjが音声の終端点と一致するとは限らな
い。しかしながら、jを音声区間が十分に入る広い範囲
j1≦j≦j2でスキャンすれば、jが音声の終端と一致
する時点j=j0 が必ず存在する。その場合、始端点は
j0−N2〜j0−N1の範囲内の点j0−Nuに存在するは
ずである。そして、このようなスキャンした場合におい
ても、発声した言葉と標準パターンが一致していれば、
始端がj0−Nu、終端がj0のときの類似度が、他のど
のようなjおよびNの組合せよりも大きくなる。しか
も、この類似度は他標準パターンに対する類似度よりも
大きい。
【0025】このように図4に示した方法は、騒音と音
声が混在した信号から、標準パターンに最も類似した部
分を切り出すことができる。したがって、一般に用いら
れているような複雑な音声区間検出の手続きを必要とし
ない。
声が混在した信号から、標準パターンに最も類似した部
分を切り出すことができる。したがって、一般に用いら
れているような複雑な音声区間検出の手続きを必要とし
ない。
【0026】類似度の計算は以下に述べるように、特徴
パラメータの時系列パターンを用い、統計的距離尺度
(事後確率に基づく距離)によって計算する。
パラメータの時系列パターンを用い、統計的距離尺度
(事後確率に基づく距離)によって計算する。
【0027】1フレームあたりの特徴パラメータの個数
をDとすると、Iフレームの時系列パターンはD×I次
元のベクトルとなる。いま、未知入力の第iフレームの
パラメータを
をDとすると、Iフレームの時系列パターンはD×I次
元のベクトルとなる。いま、未知入力の第iフレームの
パラメータを
【0028】
【外1】
【0029】、単語kの標準パターンの第iフレームの
成分を
成分を
【0030】
【外2】
【0031】とすると、それぞれ(数2)、(数3)で
求められる。
求められる。
【0032】
【数2】
【0033】
【数3】
【0034】時系列パターンをそれぞれ
【0035】
【外3】
【0036】とすると、(数4)、(数5)で求められ
る。
る。
【0037】
【数4】
【0038】
【数5】
【0039】単語kに対する類似度をLkとすると、次
式で求められる。
式で求められる。
【0040】
【数6】
【0041】ここで、
【0042】
【外4】
【0043】は単語kの標準パターンであり、(数
7)、(数8)で示される。
7)、(数8)で示される。
【0044】
【数7】
【0045】
【数8】
【0046】ただし、
【0047】
【外5】
【0048】は単語kの平均値ベクトル、
【0049】
【外6】
【0050】は全ての単語の周囲情報の平均値ベクトル
である。また
である。また
【0051】
【外7】
【0052】は共分散行列であり、各単語の共分散行列
【0053】
【外8】
【0054】と周囲情報の共分散行列
【0055】
【外9】
【0056】を用いて(数9)で作成できる。
【0057】
【数9】
【0058】
【外10】
【0059】は、各単語に属する多くのサンプルを用い
て次のように作成する。図5に示すように、音声とその
周囲の区間に対して、1フレームずつずらせながら複数
の区間(区間長は1フレーム)を設定する。このような
操作を各単語の多くのサンプルに対して行ない、それら
の区間のパラメータの平均値ベクトル
て次のように作成する。図5に示すように、音声とその
周囲の区間に対して、1フレームずつずらせながら複数
の区間(区間長は1フレーム)を設定する。このような
操作を各単語の多くのサンプルに対して行ない、それら
の区間のパラメータの平均値ベクトル
【0060】
【外11】
【0061】と共分散行列
【0062】
【外12】
【0063】を作成する。図1において10は入力信号
をディジタル信号に変換するAD変換部、11は音声分
析区間(フレーム)ごとに分析する音響分析部、12は
特徴パラメータ抽出部であり、低次のLPCケプストラ
ム係数をフレームごとに出力する。特徴パラメータはL
PCケプストラム係数の他に、自己相関係数、PARC
OR係数、帯域通過フィルタの出力などがある。
をディジタル信号に変換するAD変換部、11は音声分
析区間(フレーム)ごとに分析する音響分析部、12は
特徴パラメータ抽出部であり、低次のLPCケプストラ
ム係数をフレームごとに出力する。特徴パラメータはL
PCケプストラム係数の他に、自己相関係数、PARC
OR係数、帯域通過フィルタの出力などがある。
【0064】以下、各ブロックの機能を図6のフローチ
ャートを参照しながら説明する。フレーム同期信号発生
部13は、1フレームごとに同期信号を発生する。フレ
ーム番号をjとし、入力音声を含む十分広い区間j1≦
j≦j2で類似度の計算を行なうものとする。1フレー
ムの期間で次の操作を行なう。
ャートを参照しながら説明する。フレーム同期信号発生
部13は、1フレームごとに同期信号を発生する。フレ
ーム番号をjとし、入力音声を含む十分広い区間j1≦
j≦j2で類似度の計算を行なうものとする。1フレー
ムの期間で次の操作を行なう。
【0065】標準パターン選択部18は、認識対象とす
る音声(ここでは単語)の1つ1つを選択する(単語数
をKとする)。選択された標準パターンに対して、区間
候補設定部15では、各単語の最小音声区間長N
1(k)と最大音声区間長N2(k)を設定する。そし
て、区間長N(N1(k)≦N<N2(k))に対して、特徴パ
ラメータ抽出部12で得られた未知入力パラメータをj
−N〜jフレームの時間分だけ並べて、入力パラメータ
の時系列を作り、時間軸正規化部14において、時系列
パラメータの時間を(数1)を用いてIフレームに伸縮
し、(数4)に相当するパラメータ系列を得る。類似度
計算部16はこのパラメータ系列と、標準パターン選択
部18で選ばれた標準パターン格納部17中の標準パタ
ーン
る音声(ここでは単語)の1つ1つを選択する(単語数
をKとする)。選択された標準パターンに対して、区間
候補設定部15では、各単語の最小音声区間長N
1(k)と最大音声区間長N2(k)を設定する。そし
て、区間長N(N1(k)≦N<N2(k))に対して、特徴パ
ラメータ抽出部12で得られた未知入力パラメータをj
−N〜jフレームの時間分だけ並べて、入力パラメータ
の時系列を作り、時間軸正規化部14において、時系列
パラメータの時間を(数1)を用いてIフレームに伸縮
し、(数4)に相当するパラメータ系列を得る。類似度
計算部16はこのパラメータ系列と、標準パターン選択
部18で選ばれた標準パターン格納部17中の標準パタ
ーン
【0066】
【外13】
【0067】との間で(数6)を用いて類似度L
k(N)を計算する。類似度比較部20では、Lk
(N)と1次記憶19に蓄積されているこの時点までの
単語kに対する最大類似度値maxLkを比較し、L
k(N)>maxLkならばmaxLkをLk(N)に置きかえて
1次記憶19を更新し、Lk(N)≦maxLkならば1次
記憶19の内容は変更しない。
k(N)を計算する。類似度比較部20では、Lk
(N)と1次記憶19に蓄積されているこの時点までの
単語kに対する最大類似度値maxLkを比較し、L
k(N)>maxLkならばmaxLkをLk(N)に置きかえて
1次記憶19を更新し、Lk(N)≦maxLkならば1次
記憶19の内容は変更しない。
【0068】このような一連の操作を、1つの標準パタ
ーンに対してN2(k)−N1(k)+1回ずつ、1フレームの
間にK個の標準パターンに対して行なう。そして区間長
N1(k)と最大音声区間長N2(k)を設定する。
ーンに対してN2(k)−N1(k)+1回ずつ、1フレームの
間にK個の標準パターンに対して行なう。そして区間長
N1(k)と最大音声区間長N2(k)を設定する。
【0069】対象とする入力の全区間(j=j1〜j2)
に対してこのような操作を行うと、j=j2フレームを
終了した時点では、(数10)に示す、全区間j1〜j2
における各標準パターンに対する類似度の最大値の列
に対してこのような操作を行うと、j=j2フレームを
終了した時点では、(数10)に示す、全区間j1〜j2
における各標準パターンに対する類似度の最大値の列
【0070】
【外14】
【0071】が求められる。
【0072】
【数10】
【0073】ここで単語kの標準パターンに対する最大
類似度maxLkを改めてMkとすると(数10)に示した
一次処理部1から出力される結果の類似度の列は(数1
1)のようになる。
類似度maxLkを改めてMkとすると(数10)に示した
一次処理部1から出力される結果の類似度の列は(数1
1)のようになる。
【0074】
【数11】
【0075】次に、二次照合部2の考え方を説明する。
一次照合部1は騒音環境下で発声された音声の認識を音
声区間の検出をすることなく行うという従来の方法と同
じ考え方に基づく処理を行っているため、一次照合1の
結果として求められた(数11)の要素のうち最大値を
与える単語を結果としたのでは前記図9、図10を用い
て説明したような誤認識が起こるという問題がある。二
次照合部2は、一次照合部1の結果として求められた
(数11)を入力として、この誤認識を修正する動作を
行っている。
一次照合部1は騒音環境下で発声された音声の認識を音
声区間の検出をすることなく行うという従来の方法と同
じ考え方に基づく処理を行っているため、一次照合1の
結果として求められた(数11)の要素のうち最大値を
与える単語を結果としたのでは前記図9、図10を用い
て説明したような誤認識が起こるという問題がある。二
次照合部2は、一次照合部1の結果として求められた
(数11)を入力として、この誤認識を修正する動作を
行っている。
【0076】同じ言葉を発声しても人によって声の質が
違ったり発声速度が異なる。また、同じ人が発声しても
毎回同じ発声ができるとは限らない。このため、二次照
合部2の入力
違ったり発声速度が異なる。また、同じ人が発声しても
毎回同じ発声ができるとは限らない。このため、二次照
合部2の入力
【0077】
【外15】
【0078】にはバラツキがある。よって二次照合部2
ではこのバラツキを吸収するため入力を正規化してから
音声の認識を行う。正規化は入力の類似度列(数11)
に含まれる要素の最大値を基準に行なう。正規化された
値をM´kとすると、正規化に用 いる式は(数12)に
示すとおりである。
ではこのバラツキを吸収するため入力を正規化してから
音声の認識を行う。正規化は入力の類似度列(数11)
に含まれる要素の最大値を基準に行なう。正規化された
値をM´kとすると、正規化に用 いる式は(数12)に
示すとおりである。
【0079】
【数12】
【0080】(数12)を用いて(数11)を正規化し
た類似度列は(数13)に示すとおりになる。
た類似度列は(数13)に示すとおりになる。
【0081】
【数13】
【0082】ここで、Kは認識対象の個数である。前記
図9および図10を用いて説明した一次照合部の認識誤
りを補正するために、前記(表1)を用いて説明した一
次照合の結果得られる類似度の列に単語ごとに異なる傾
向が表れるという性質を用いて認識を行う。前記(表
1)は「いち」、「じゅう」、「じゅういち」の3単語
についてのみこの性質を概念的に表したものであるが、
この傾向を「じゅういち」と発声した場合と「いち」と
発声した場合について「ぜろ」から「じゅうさん」まで
の14単語の標準パターンに対する類似度の傾向を30
0人分の音声データの平均で定量的に表したものを図7
に示す。同図から各標準パターンに対する類似どの平均
値はそれぞれ異なる値を示すことがわかる。また同図中
には標準偏差の値は示されていないが、その値は0.0
04〜0.122であり分布には強い傾向がある。この
ことから、一次照合部1の出力である、全単語の標準パ
ターンに対する類似度には強い傾向があることがわか
る。この傾向は認識対象の単語ごとに固有であり異なる
特徴を示す。これは図7に示した「じゅういち」と「い
ち」の類似度の傾向を比較すると「きゅう」から「じゅ
うさん」の標準パターンに対する類似度の特徴の違いが
表れており、認識対象の単語ごとに類似傾向が異なるこ
とがわかる。この類似傾向を利用してパターンマッチン
グにより二次照合を行い音声の認識を行う。このような
処理を行うことにより、前記図9および図10を用いて
説明した一次照合部1の認識誤りを補正することができ
る。
図9および図10を用いて説明した一次照合部の認識誤
りを補正するために、前記(表1)を用いて説明した一
次照合の結果得られる類似度の列に単語ごとに異なる傾
向が表れるという性質を用いて認識を行う。前記(表
1)は「いち」、「じゅう」、「じゅういち」の3単語
についてのみこの性質を概念的に表したものであるが、
この傾向を「じゅういち」と発声した場合と「いち」と
発声した場合について「ぜろ」から「じゅうさん」まで
の14単語の標準パターンに対する類似度の傾向を30
0人分の音声データの平均で定量的に表したものを図7
に示す。同図から各標準パターンに対する類似どの平均
値はそれぞれ異なる値を示すことがわかる。また同図中
には標準偏差の値は示されていないが、その値は0.0
04〜0.122であり分布には強い傾向がある。この
ことから、一次照合部1の出力である、全単語の標準パ
ターンに対する類似度には強い傾向があることがわか
る。この傾向は認識対象の単語ごとに固有であり異なる
特徴を示す。これは図7に示した「じゅういち」と「い
ち」の類似度の傾向を比較すると「きゅう」から「じゅ
うさん」の標準パターンに対する類似度の特徴の違いが
表れており、認識対象の単語ごとに類似傾向が異なるこ
とがわかる。この類似傾向を利用してパターンマッチン
グにより二次照合を行い音声の認識を行う。このような
処理を行うことにより、前記図9および図10を用いて
説明した一次照合部1の認識誤りを補正することができ
る。
【0083】二次照合部のマッチングで全ての単語の標
準パターンに対する類似度を用いるのは、どの単語の標
準パターンに対する類似度も二次照合での音声の認識に
有効に作用するためである。
準パターンに対する類似度を用いるのは、どの単語の標
準パターンに対する類似度も二次照合での音声の認識に
有効に作用するためである。
【0084】上述したとおり一次照合によって得られる
結果の類似度を正規化した300人分の分類に単語ごと
に異った強い傾向がある。この分布が多次元正規分布に
従うものと仮定し、類似度の傾向を統計的な量として二
次照合用の標準パターンに反映させ、統計的距離尺度を
用いて類似度計算することで、統計的な許容範囲にある
入力と標準パターンのずれを吸収しながら二次照合を行
なうことができる。
結果の類似度を正規化した300人分の分類に単語ごと
に異った強い傾向がある。この分布が多次元正規分布に
従うものと仮定し、類似度の傾向を統計的な量として二
次照合用の標準パターンに反映させ、統計的距離尺度を
用いて類似度計算することで、統計的な許容範囲にある
入力と標準パターンのずれを吸収しながら二次照合を行
なうことができる。
【0085】二次照合部2で用いる統計的距離尺度はベ
イズ判定に基づいた距離尺度を用いており二次照合部2
における単語kに対する距離をPkとすると、(数14)
のようになる。
イズ判定に基づいた距離尺度を用いており二次照合部2
における単語kに対する距離をPkとすると、(数14)
のようになる。
【0086】
【数14】
【0087】ここで、
【0088】
【外16】
【0089】は単語kの標準パターンであり、
【0090】
【外17】
【0091】は単語kの正規化された類似度の平均値ベ
クトル、
クトル、
【0092】
【外18】
【0093】は単語kの共分散行列である。実際に計算
に用いる式は(数14)の両辺の対数をとって定数を除
いて簡略化した式
に用いる式は(数14)の両辺の対数をとって定数を除
いて簡略化した式
【0094】
【数15】
【0095】を用いる。二次照合部2用の標準パターン
の作成は標準パターン作成用の音声データ(概ね300
〜1000人分)すべてに対し、前記一次照合部1の処
理を行ない認識対象ごとに正規化された類似度の平均値
ベクトル
の作成は標準パターン作成用の音声データ(概ね300
〜1000人分)すべてに対し、前記一次照合部1の処
理を行ない認識対象ごとに正規化された類似度の平均値
ベクトル
【0096】
【外19】
【0097】、共分散行列
【0098】
【外20】
【0099】を求めることにより行なわれる。以上述べ
た考え方に基づき、図1を用いて二次照合部の機能ブロ
ックの説明を行なう。入力バッファ31は一次照合部1
から一次照合の過程で出力される類似度を蓄え、入力正
規化部32の要求に応じて(数11)に示した類似度列
を出力する。入力正規化部32は(数12)の正規化の
式を用いて(数11)を正規化し(数13)で示した正
規化された類似度列を求める。類似度計算部33はこの
正規化された類似度列(数15)を用いて、標準パター
ン格納部34に格納された標準パターン全てとのマッチ
ングを行ない、類似度Qkを計算する。類似度比較部3
5においてQkを最大にする単語kを認識結果として選
択し出力する。
た考え方に基づき、図1を用いて二次照合部の機能ブロ
ックの説明を行なう。入力バッファ31は一次照合部1
から一次照合の過程で出力される類似度を蓄え、入力正
規化部32の要求に応じて(数11)に示した類似度列
を出力する。入力正規化部32は(数12)の正規化の
式を用いて(数11)を正規化し(数13)で示した正
規化された類似度列を求める。類似度計算部33はこの
正規化された類似度列(数15)を用いて、標準パター
ン格納部34に格納された標準パターン全てとのマッチ
ングを行ない、類似度Qkを計算する。類似度比較部3
5においてQkを最大にする単語kを認識結果として選
択し出力する。
【0100】本実施例の方法を用いて、成人の男女計3
00人が発声した「ぜろ」から「じゅうさん」の14数
字を単語セットとした音声データから作成した標準パタ
ーンを用いて、成人男女計100人が発声した同じ単語
セットについて認識実験を行い評価した結果、平均認識
率は従来の方法(一次照合部のみ)を用いて認識を行っ
た場合は93.07%であったものが96.66%に向
上した。これを平均の誤り率という観点でとらえると
6.93%であったものが3.34%へ誤りが半減して
いる。また、前記図9および図10で説明した認識誤り
についても(表2)と(表3)を比較すると顕著な改善
が見られる。
00人が発声した「ぜろ」から「じゅうさん」の14数
字を単語セットとした音声データから作成した標準パタ
ーンを用いて、成人男女計100人が発声した同じ単語
セットについて認識実験を行い評価した結果、平均認識
率は従来の方法(一次照合部のみ)を用いて認識を行っ
た場合は93.07%であったものが96.66%に向
上した。これを平均の誤り率という観点でとらえると
6.93%であったものが3.34%へ誤りが半減して
いる。また、前記図9および図10で説明した認識誤り
についても(表2)と(表3)を比較すると顕著な改善
が見られる。
【0101】
【表2】
【0102】
【表3】
【0103】(表2)は従来の方法(一次照合部のみ)
を用いて認識を行い得られたコンフュージョンマトリク
ス(入力に対する認識結果の度数を表すマトリクス)、
(表3)は本実施例を用いて認識を行い得られたコンフ
ュージョンマトリクスである。(表2)では「じゅうい
ち」を入力して「いち」に誤認識した場合が80人のう
ち22人もあったが(表3)では4人に減っている。こ
のように本実施例によれば、前記課題で述べた認識誤り
の大半を修正し、全体の認識誤りを半減させるという顕
著な効果が確認された。
を用いて認識を行い得られたコンフュージョンマトリク
ス(入力に対する認識結果の度数を表すマトリクス)、
(表3)は本実施例を用いて認識を行い得られたコンフ
ュージョンマトリクスである。(表2)では「じゅうい
ち」を入力して「いち」に誤認識した場合が80人のう
ち22人もあったが(表3)では4人に減っている。こ
のように本実施例によれば、前記課題で述べた認識誤り
の大半を修正し、全体の認識誤りを半減させるという顕
著な効果が確認された。
【0104】なお、本実施例で述べた一次照合部は、標
準パターンと入力のマッチングを行なう際のマッチング
ルートを線形に伸縮する方法を採っているが、例えば特
開昭63−125999号公報に示されているようにマ
ッチングルートが逐次計算により算出される方法を用い
て標準パターンと入力のマッチングを行ない、音声の前
後に騒音を含んだ入力中から音声を切り出すという認識
方法を用いても良い。この場合、一次照合部において
(数10)に示した、入力と全単語の標準パターンとの
類似度の最大値の列を求めるようにし、二次照合を行な
うことによって同様の効果を得ることができる。
準パターンと入力のマッチングを行なう際のマッチング
ルートを線形に伸縮する方法を採っているが、例えば特
開昭63−125999号公報に示されているようにマ
ッチングルートが逐次計算により算出される方法を用い
て標準パターンと入力のマッチングを行ない、音声の前
後に騒音を含んだ入力中から音声を切り出すという認識
方法を用いても良い。この場合、一次照合部において
(数10)に示した、入力と全単語の標準パターンとの
類似度の最大値の列を求めるようにし、二次照合を行な
うことによって同様の効果を得ることができる。
【0105】
【発明の効果】以上説明したように、本発明は、全認識
対象の標準パターンと一次照合を行って得られる認識対
象の標準パターンに対する類似度の列に認識対象単語ご
とに異なった傾向が表れるという性質を用いた二次照合
により音声の認識を行うものである。本発明によれば、
従来の方法では多く誤認識してしまうような場合にも誤
認識をほとんど防ぐことができ、このような点で優れた
効果を示しており、従来の方法に比べて認識率を向上さ
せることができる。また、(数11)に示したように二
次照合部2における入力は単語数分の次元しかないた
め、(数15)を用いた二次照合部2の計算量は少な
く、従来の方法に比べ計算量の増加も少ないという点で
も効果がある。
対象の標準パターンと一次照合を行って得られる認識対
象の標準パターンに対する類似度の列に認識対象単語ご
とに異なった傾向が表れるという性質を用いた二次照合
により音声の認識を行うものである。本発明によれば、
従来の方法では多く誤認識してしまうような場合にも誤
認識をほとんど防ぐことができ、このような点で優れた
効果を示しており、従来の方法に比べて認識率を向上さ
せることができる。また、(数11)に示したように二
次照合部2における入力は単語数分の次元しかないた
め、(数15)を用いた二次照合部2の計算量は少な
く、従来の方法に比べ計算量の増加も少ないという点で
も効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識方法を具現
化する機能ブロック図
化する機能ブロック図
【図2】同実施例における音声区間長の伸縮を説明する
第1の概念図
第1の概念図
【図3】同実施例における音声区間長の伸縮を説明する
第2の概念図
第2の概念図
【図4】同実施例における音声区間長の伸縮を説明する
第3の概念図
第3の概念図
【図5】同実施例の標準パターン作成時の周囲情報の標
準パターン作成法を説明する概念図
準パターン作成法を説明する概念図
【図6】同実施例の処理手順を説明するフローチャート
【図7】同実施例における14単語の標準パターンに対
する類似度の傾向を示す特性図
する類似度の傾向を示す特性図
【図8】本発明の基本的な考え方を説明するための概念
図
図
【図9】従来法における課題を説明するための第1の概
念図
念図
【図10】従来法における課題を説明するための第2の
概念図
概念図
1 一次照合部 2 二次照合部 10 AD変換部 11 音響分析部 12 特徴パラメータ抽出部 13 フレーム同期信号発生部 14 時間軸正規化部 15 区間候補設定部 16 類似度計算部 17 標準パターン格納部 18 標準パターン選択部 19 一次記憶 20 類似度比較部 31 入力バッファ 32 入力正規化部 33 類似度計算部 34 標準パターン 35 類似度比較部
フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 531 G10L 3/00 521 G10L 5/06 JICSTファイル(JOIS)
Claims (1)
- 【請求項1】 入力音声信号を分析し、予め作成してお
いた全認識対象の標準パターンとの照合を行ない、結果
を類似度の列で出力する一次照合部と、前記一次照合部
が出力する類似度の列を認識のためのパラメータとし
て、予め前記一次照合部からの類似度の列を正規化し統
計的な処理により求めた二次照合部用の標準パターンと
の照合を行なう二次照合部とから構成され、前記一次照
合部から類似度の列として出力される結果を二次照合部
において再度照合を行うことにより最終的な認識結果を
得ることを特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3111408A JP2882088B2 (ja) | 1990-05-18 | 1991-05-16 | 音声認識方法 |
US07/805,142 US5369727A (en) | 1991-05-16 | 1991-12-11 | Method of speech recognition with correlation of similarities |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12959190 | 1990-05-18 | ||
JP2-129591 | 1990-05-18 | ||
JP3111408A JP2882088B2 (ja) | 1990-05-18 | 1991-05-16 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04230797A JPH04230797A (ja) | 1992-08-19 |
JP2882088B2 true JP2882088B2 (ja) | 1999-04-12 |
Family
ID=26450803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3111408A Expired - Fee Related JP2882088B2 (ja) | 1990-05-18 | 1991-05-16 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2882088B2 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0823758B2 (ja) * | 1988-02-24 | 1996-03-06 | 日本電信電話株式会社 | 話者適応形音声認識装置 |
-
1991
- 1991-05-16 JP JP3111408A patent/JP2882088B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH04230797A (ja) | 1992-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5167004A (en) | Temporal decorrelation method for robust speaker verification | |
KR100631786B1 (ko) | 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치 | |
DE60124408T2 (de) | System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung | |
US6134527A (en) | Method of testing a vocabulary word being enrolled in a speech recognition system | |
JPS59121100A (ja) | 連続音声認識装置 | |
JP2853418B2 (ja) | 音声認識方法 | |
JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
JP2002366192A (ja) | 音声認識方法及び音声認識装置 | |
US7043430B1 (en) | System and method for speech recognition using tonal modeling | |
JPH03167600A (ja) | 音声認識装置 | |
JP3428058B2 (ja) | 音声認識装置 | |
JP2882088B2 (ja) | 音声認識方法 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP3091537B2 (ja) | 音声パターン作成方法 | |
JP3477751B2 (ja) | 連続単語音声認識装置 | |
JP2502880B2 (ja) | 音声認識方法 | |
JP2001350494A (ja) | 照合装置及び照合方法 | |
JP2506730B2 (ja) | 音声認識方法 | |
JP2705061B2 (ja) | 音声認識方法 | |
JP3100180B2 (ja) | 音声認識方法 | |
JPH0451037B2 (ja) | ||
JP3461789B2 (ja) | 音声認識装置および音声認識方法、並びに、プログラム記録媒体 | |
JPH0619491A (ja) | 音声認識装置 | |
JP2710045B2 (ja) | 音声認識方法 | |
JPH01185599A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |