JPH0635499A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0635499A JPH0635499A JP21096092A JP21096092A JPH0635499A JP H0635499 A JPH0635499 A JP H0635499A JP 21096092 A JP21096092 A JP 21096092A JP 21096092 A JP21096092 A JP 21096092A JP H0635499 A JPH0635499 A JP H0635499A
- Authority
- JP
- Japan
- Prior art keywords
- distance
- feature vector
- standard pattern
- input
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 周囲の騒音による誤認識を低減することがで
き、高精度の認識結果を得ることが可能である。 【構成】 類似度計算部4は、標準パターンの特徴ベク
トルと入力パターンの特徴ベクトルとの距離成分を求め
るだけでなく、標準パターンの特徴ベクトルと入力パタ
ーンの特徴ベクトルとの距離の時間変化成分をも求め、
距離成分と距離の時間変化成分とに基づき類似度を求め
る。これにより、騒音下で、特に、周囲騒音の特徴ベク
トルが標準パターンの特徴ベクトルの中の1つと似てい
る場合においても、音声パターンの照合精度を高め、誤
認識を低減することができる。
き、高精度の認識結果を得ることが可能である。 【構成】 類似度計算部4は、標準パターンの特徴ベク
トルと入力パターンの特徴ベクトルとの距離成分を求め
るだけでなく、標準パターンの特徴ベクトルと入力パタ
ーンの特徴ベクトルとの距離の時間変化成分をも求め、
距離成分と距離の時間変化成分とに基づき類似度を求め
る。これにより、騒音下で、特に、周囲騒音の特徴ベク
トルが標準パターンの特徴ベクトルの中の1つと似てい
る場合においても、音声パターンの照合精度を高め、誤
認識を低減することができる。
Description
【0001】
【産業上の利用分野】本発明は、音声の入力パターンと
標準パターンとの類似度を求めて、音声認識処理を行な
う音声認識装置に関する。
標準パターンとの類似度を求めて、音声認識処理を行な
う音声認識装置に関する。
【0002】
【従来の技術】一般に、音声認識装置では、音声の入力
パターンと標準パターンとを照合し、その類似度に基づ
いて音声認識結果を出力するようになっている。入力パ
ターンと標準パターンとの類似度を求めるのに、従来で
は、DPマッチング法が良く知られている。このDPマ
ッチング法は、標準パターンと入力パターンの局所距離
(i番目の入力ベクトルとj番目の標準ベクトルとの距
離)から、標準パターンと入力パターンの累積距離が最
小となる最適累積距離を見つけ、この最適累積距離が最
小となる標準パターンを照合結果として出力するもので
あり、局所距離としては、例えば、ユークリッド距離,
マハラノビスの距離などを用いることができる。例え
ば、i番目の入力パターンのfチャンネル目のデータを
X(i,f)、i番目の標準パターンのfチャンネル目
の特徴量をY(j,f)とした場合に、ユークリッド距
離de(i,j)は、次式によって求められる。
パターンと標準パターンとを照合し、その類似度に基づ
いて音声認識結果を出力するようになっている。入力パ
ターンと標準パターンとの類似度を求めるのに、従来で
は、DPマッチング法が良く知られている。このDPマ
ッチング法は、標準パターンと入力パターンの局所距離
(i番目の入力ベクトルとj番目の標準ベクトルとの距
離)から、標準パターンと入力パターンの累積距離が最
小となる最適累積距離を見つけ、この最適累積距離が最
小となる標準パターンを照合結果として出力するもので
あり、局所距離としては、例えば、ユークリッド距離,
マハラノビスの距離などを用いることができる。例え
ば、i番目の入力パターンのfチャンネル目のデータを
X(i,f)、i番目の標準パターンのfチャンネル目
の特徴量をY(j,f)とした場合に、ユークリッド距
離de(i,j)は、次式によって求められる。
【0003】
【数1】
【0004】
【発明が解決しようとする課題】しかしながら、このよ
うにして求めた局所距離に基づく音声認識処理では、例
えば工場や自動車内の騒音下において問題が生ずる。す
なわち、上記のようにして求めた局所距離は、周囲の騒
音が小さい場合は、非常に有効であるが、周囲の騒音が
大きい場合、特に、周囲の騒音の特徴ベクトルが、標準
パターンの特徴ベクトルの中の1つと似ている場合に
は、不都合が生じる。
うにして求めた局所距離に基づく音声認識処理では、例
えば工場や自動車内の騒音下において問題が生ずる。す
なわち、上記のようにして求めた局所距離は、周囲の騒
音が小さい場合は、非常に有効であるが、周囲の騒音が
大きい場合、特に、周囲の騒音の特徴ベクトルが、標準
パターンの特徴ベクトルの中の1つと似ている場合に
は、不都合が生じる。
【0005】図10(a),(b),(c)はこのよう
な不都合の生ずる具体例を示す図である。図10
(a),(b),(c)では、標準パターンに“あ”と
“い”の2つが用意されていると仮定し、図10(a)
には、発話者が“あ”を発声したときの音声パワーPW
の時間的変化が示されている。また、図10(b)は周
囲の騒音が標準パターン“あ”,“い”のいずれにも似
ていない場合における入力パターンと各標準パターン
“あ”,“い”との距離を示したものであり、図10
(c)は周囲の騒音が標準パターン“い”に似ている場
合における入力パターンと各標準パターン“あ”,
“い”との距離を示したものである。
な不都合の生ずる具体例を示す図である。図10
(a),(b),(c)では、標準パターンに“あ”と
“い”の2つが用意されていると仮定し、図10(a)
には、発話者が“あ”を発声したときの音声パワーPW
の時間的変化が示されている。また、図10(b)は周
囲の騒音が標準パターン“あ”,“い”のいずれにも似
ていない場合における入力パターンと各標準パターン
“あ”,“い”との距離を示したものであり、図10
(c)は周囲の騒音が標準パターン“い”に似ている場
合における入力パターンと各標準パターン“あ”,
“い”との距離を示したものである。
【0006】周囲の騒音が標準パターン“あ”,“い”
のいずれにも似ていない場合には、図10(b)のよう
に、入力パターンは標準パターン“あ”と距離が最も小
さくなり、これにより、“あ”の発声に対して、“あ”
の音声認識結果を得ることができる。しかしながら、周
囲の騒音が標準パターン“い”に似ている場合には、
“あ”の発声がなされたにもかかわらず、図10(c)
のように、入力パターンは標準パターン“い”と距離が
最も小さくなり、“あ”の発声に対して“い”の音声認
識結果が得られてしまうことがある。
のいずれにも似ていない場合には、図10(b)のよう
に、入力パターンは標準パターン“あ”と距離が最も小
さくなり、これにより、“あ”の発声に対して、“あ”
の音声認識結果を得ることができる。しかしながら、周
囲の騒音が標準パターン“い”に似ている場合には、
“あ”の発声がなされたにもかかわらず、図10(c)
のように、入力パターンは標準パターン“い”と距離が
最も小さくなり、“あ”の発声に対して“い”の音声認
識結果が得られてしまうことがある。
【0007】このように、従来の音声認識装置では、周
囲の騒音の特徴ベクトルが標準パターンの特徴ベクトル
の中の1つに似ている場合には、正しい発声がなされる
場合にも、誤まった認識結果が得られてしまうという問
題があった。
囲の騒音の特徴ベクトルが標準パターンの特徴ベクトル
の中の1つに似ている場合には、正しい発声がなされる
場合にも、誤まった認識結果が得られてしまうという問
題があった。
【0008】本発明は、周囲の騒音による誤認識を低減
することができ、高精度の認識結果を得ることの可能な
音声認識装置を提供することを目的としている。
することができ、高精度の認識結果を得ることの可能な
音声認識装置を提供することを目的としている。
【0009】
【課題を解決するための手段および作用】上記目的を達
成するために、請求項1記載の発明は、音声を入力する
音声入力手段と、音声入力手段より入力された入力信号
を特徴ベクトルの時系列に変換する入力パターン生成手
段と、予め登録された音声を1つ以上の状態に分け、各
状態毎の特徴ベクトルで構成される標準パターンを記憶
する標準パターン記憶手段と、入力パターン生成手段で
生成された特徴ベクトルの時系列と標準パターン記憶部
に記憶されている標準パターンとの類似度を求める類似
度計算手段と、類似度計算手段で求めた類似度結果を用
いて認識処理を行なう認識処理手段とを有し、類似度計
算手段は、標準パターンの状態毎の特徴ベクトルと入力
信号の特徴ベクトルとの距離成分と、標準パターンの状
態毎の特徴ベクトルと入力信号の特徴ベクトルとの距離
の時間変化成分とを求め、距離成分と距離の時間変化成
分とに基づき類似度を求めるようになっていることを特
徴としている。距離の時間変化成分を求め、この時間変
化成分を加味することで、騒音下での音声パタ−ンの照
合精度を高めることができる。
成するために、請求項1記載の発明は、音声を入力する
音声入力手段と、音声入力手段より入力された入力信号
を特徴ベクトルの時系列に変換する入力パターン生成手
段と、予め登録された音声を1つ以上の状態に分け、各
状態毎の特徴ベクトルで構成される標準パターンを記憶
する標準パターン記憶手段と、入力パターン生成手段で
生成された特徴ベクトルの時系列と標準パターン記憶部
に記憶されている標準パターンとの類似度を求める類似
度計算手段と、類似度計算手段で求めた類似度結果を用
いて認識処理を行なう認識処理手段とを有し、類似度計
算手段は、標準パターンの状態毎の特徴ベクトルと入力
信号の特徴ベクトルとの距離成分と、標準パターンの状
態毎の特徴ベクトルと入力信号の特徴ベクトルとの距離
の時間変化成分とを求め、距離成分と距離の時間変化成
分とに基づき類似度を求めるようになっていることを特
徴としている。距離の時間変化成分を求め、この時間変
化成分を加味することで、騒音下での音声パタ−ンの照
合精度を高めることができる。
【0010】また、請求項2記載の発明では、類似度計
算手段は、標準パターンの状態毎の特徴ベクトルと入力
信号の特徴ベクトルとの距離の時間変化成分を、標準パ
ターン記憶手段に記憶されている各状態毎の特徴ベクト
ルと入力パターンの類似度計算を行なっているフレーム
の特徴ベクトルとの第1の距離と、入力パターンの類似
度計算を行なっているフレームよりも前のフレームの特
徴ベクトルとの第2の距離との差として求めることを特
徴としている。
算手段は、標準パターンの状態毎の特徴ベクトルと入力
信号の特徴ベクトルとの距離の時間変化成分を、標準パ
ターン記憶手段に記憶されている各状態毎の特徴ベクト
ルと入力パターンの類似度計算を行なっているフレーム
の特徴ベクトルとの第1の距離と、入力パターンの類似
度計算を行なっているフレームよりも前のフレームの特
徴ベクトルとの第2の距離との差として求めることを特
徴としている。
【0011】また、請求項3記載の発明では、類似度計
算手段は、標準パターン記憶手段に記憶されている各状
態毎の特徴ベクトルと入力パターンの類似度計算を行な
っているフレームの特徴ベクトルとの第1の距離と、類
似度計算を行なっているフレームよりも前のフレームの
特徴ベクトルとの第2の距離との差を第1の成分として
求め、また、類似度計算を行なっているフレームよりも
後のフレームの特徴ベクトルとの第3の距離との差を第
2の成分として求め、標準パターンの状態毎の特徴ベク
トルと入力信号の特徴ベクトルとの距離の時間変化成分
を上記第1および第2の成分に基づき求めることを特徴
としている。このように、類似度計算を行なっているフ
レームよりも前のフレームの特徴ベクトルとの距離との
差の他に、さらに類似度計算を行なっているフレームよ
りも後のフレームの特徴ベクトルとの距離との差をも考
慮して距離の時間変化成分を求めることにより、騒音下
での音声パタ−ンの照合精度をより一層高めることがで
きる。
算手段は、標準パターン記憶手段に記憶されている各状
態毎の特徴ベクトルと入力パターンの類似度計算を行な
っているフレームの特徴ベクトルとの第1の距離と、類
似度計算を行なっているフレームよりも前のフレームの
特徴ベクトルとの第2の距離との差を第1の成分として
求め、また、類似度計算を行なっているフレームよりも
後のフレームの特徴ベクトルとの第3の距離との差を第
2の成分として求め、標準パターンの状態毎の特徴ベク
トルと入力信号の特徴ベクトルとの距離の時間変化成分
を上記第1および第2の成分に基づき求めることを特徴
としている。このように、類似度計算を行なっているフ
レームよりも前のフレームの特徴ベクトルとの距離との
差の他に、さらに類似度計算を行なっているフレームよ
りも後のフレームの特徴ベクトルとの距離との差をも考
慮して距離の時間変化成分を求めることにより、騒音下
での音声パタ−ンの照合精度をより一層高めることがで
きる。
【0012】また、請求項4記載の発明では、類似度計
算手段は、入力パターンの類似度計算を行なっているフ
レームよりも前のフレームでの距離との差、あるいは、
類似度計算を行なっているフレームよりも後のフレーム
での距離との差が負値となった場合には、この差の値を
“0”として距離の時間変化成分を求めることを特徴と
している。入力パターンの類似度計算を行なっているフ
レームよりも前のフレームでの距離との差、あるいは、
類似度計算を行なっているフレームよりも後のフレーム
での距離との差が負値となった場合には、差の値を
“0”として距離の時間変化成分を求めることで、さら
に一層音声パタ−ンの照合精度を高めることができる。
算手段は、入力パターンの類似度計算を行なっているフ
レームよりも前のフレームでの距離との差、あるいは、
類似度計算を行なっているフレームよりも後のフレーム
での距離との差が負値となった場合には、この差の値を
“0”として距離の時間変化成分を求めることを特徴と
している。入力パターンの類似度計算を行なっているフ
レームよりも前のフレームでの距離との差、あるいは、
類似度計算を行なっているフレームよりも後のフレーム
での距離との差が負値となった場合には、差の値を
“0”として距離の時間変化成分を求めることで、さら
に一層音声パタ−ンの照合精度を高めることができる。
【0013】また、請求項5記載の発明では、類似度計
算手段は、標準パターン記憶手段に予め記憶されている
特徴ベクトルと入力信号の特徴ベクトルとの距離の基準
値を各状態毎に予め決めておき、標準パターンの状態毎
の特徴ベクトルと入力信号の特徴ベクトルとの距離の時
間変化成分を、標準パターンの状態毎の特徴ベクトルと
入力信号の特徴ベクトルとの距離と、基準値との差とし
て求めることを特徴としている。この時間変化成分を加
味することにより、騒音下での音声パタ−ンの照合精度
を高めることができる。
算手段は、標準パターン記憶手段に予め記憶されている
特徴ベクトルと入力信号の特徴ベクトルとの距離の基準
値を各状態毎に予め決めておき、標準パターンの状態毎
の特徴ベクトルと入力信号の特徴ベクトルとの距離の時
間変化成分を、標準パターンの状態毎の特徴ベクトルと
入力信号の特徴ベクトルとの距離と、基準値との差とし
て求めることを特徴としている。この時間変化成分を加
味することにより、騒音下での音声パタ−ンの照合精度
を高めることができる。
【0014】また、請求項6記載の発明では、標準パタ
ーン記憶手段には、各状態毎の特徴ベクトルで構成され
る標準パターンとともに、周囲騒音の標準パターンも記
憶されることを特徴としている。これにより、周囲騒音
が発話者による音声のものであるとして認識されてしま
う事態を低減することができる。
ーン記憶手段には、各状態毎の特徴ベクトルで構成され
る標準パターンとともに、周囲騒音の標準パターンも記
憶されることを特徴としている。これにより、周囲騒音
が発話者による音声のものであるとして認識されてしま
う事態を低減することができる。
【0015】また、請求項7記載の発明では、周囲騒音
が小さい場合には、類似度計算手段は、標準パターンの
状態毎の特徴ベクトルと入力信号の特徴ベクトルとの距
離成分のみに基づき類似度を計算するようになっている
ことを特徴としている。周囲騒音が小さい場合には、距
離の時間変化成分を求めないことによって、処理速度の
低下を抑えることができる。
が小さい場合には、類似度計算手段は、標準パターンの
状態毎の特徴ベクトルと入力信号の特徴ベクトルとの距
離成分のみに基づき類似度を計算するようになっている
ことを特徴としている。周囲騒音が小さい場合には、距
離の時間変化成分を求めないことによって、処理速度の
低下を抑えることができる。
【0016】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る音声認識装置の第1の実施例
のブロック図である。図1を参照すると、この音声認識
装置は、音声を入力する音声入力部1と、音声入力部1
より入力された入力信号を特徴ベクトルの時系列に変換
する入力パターン生成部2と、予め登録された音声を1
つ以上の状態に分割し、各状態毎の特徴ベクトルで構成
される標準パターンを記憶する標準パターン記憶部3
と、入力パターン生成部2で生成された特徴ベクトルの
時系列と標準パターン記憶部3に記憶されている標準パ
ターンとの類似度を求める類似度計算部4と、類似度計
算部4で求めた類似度結果を用いて認識処理を行なう認
識処理部5とを有している。ここで、類似度計算部4
は、例えば特開昭64−23299号に開示されている
ような仕方で、標準パターンの状態毎の特徴ベクトルと
入力信号の特徴ベクトルとの距離を求めるが、本発明で
は、その際に、標準パターンの状態毎の特徴ベクトルと
入力信号の特徴ベクトルとの距離を求めるだけでなく、
標準パターンの状態毎の特徴ベクトルと入力信号の特徴
ベクトルとの距離の時間変化をも求め、距離成分と距離
の時間変化成分とによって類似度を求めるようになって
いる。
する。図1は本発明に係る音声認識装置の第1の実施例
のブロック図である。図1を参照すると、この音声認識
装置は、音声を入力する音声入力部1と、音声入力部1
より入力された入力信号を特徴ベクトルの時系列に変換
する入力パターン生成部2と、予め登録された音声を1
つ以上の状態に分割し、各状態毎の特徴ベクトルで構成
される標準パターンを記憶する標準パターン記憶部3
と、入力パターン生成部2で生成された特徴ベクトルの
時系列と標準パターン記憶部3に記憶されている標準パ
ターンとの類似度を求める類似度計算部4と、類似度計
算部4で求めた類似度結果を用いて認識処理を行なう認
識処理部5とを有している。ここで、類似度計算部4
は、例えば特開昭64−23299号に開示されている
ような仕方で、標準パターンの状態毎の特徴ベクトルと
入力信号の特徴ベクトルとの距離を求めるが、本発明で
は、その際に、標準パターンの状態毎の特徴ベクトルと
入力信号の特徴ベクトルとの距離を求めるだけでなく、
標準パターンの状態毎の特徴ベクトルと入力信号の特徴
ベクトルとの距離の時間変化をも求め、距離成分と距離
の時間変化成分とによって類似度を求めるようになって
いる。
【0017】次に、このような構成の音声認識装置の処
理動作を図2のフローチャートを用いて説明する。な
お、実際の音声認識処理を行なうに先立って、標準パタ
ーン記憶部3には、認識対象語の各標準パターンが予め
記憶されているとする。具体的には、標準パターン記憶
部3には、認識対象語を1つ以上の状態に分け、各状態
毎に求めた特徴ベクトルY(j,f)(j:状態番号、
f:分析チャンネル)が記憶されているとする。また、
この特徴ベクトルY(j,f)には、入力パターン生成
部2で使用される特徴ベクトルと同じ種類の特徴ベクト
ルが用いられるとする。
理動作を図2のフローチャートを用いて説明する。な
お、実際の音声認識処理を行なうに先立って、標準パタ
ーン記憶部3には、認識対象語の各標準パターンが予め
記憶されているとする。具体的には、標準パターン記憶
部3には、認識対象語を1つ以上の状態に分け、各状態
毎に求めた特徴ベクトルY(j,f)(j:状態番号、
f:分析チャンネル)が記憶されているとする。また、
この特徴ベクトルY(j,f)には、入力パターン生成
部2で使用される特徴ベクトルと同じ種類の特徴ベクト
ルが用いられるとする。
【0018】このような標準パターンの生成方法として
は、認識対象語を一定の状態数J個に分け、各状態毎
に、状態内の全フレームの特徴ベクトルの平均ベクトル
を求める方法や、全音素の特徴ベクトルを記憶してお
き、認識対象語の音素記号列に応じて、標準パターンを
生成する方法などがある。例えば、“さっぽろ”の場
合、/saqporo/という音素記号列で表わすこと
ができるので、/s/,/a/,/q/,/p/,/o
/,/r/,/o/の各音素の特徴ベクトルから標準パ
ターンを生成することができる。
は、認識対象語を一定の状態数J個に分け、各状態毎
に、状態内の全フレームの特徴ベクトルの平均ベクトル
を求める方法や、全音素の特徴ベクトルを記憶してお
き、認識対象語の音素記号列に応じて、標準パターンを
生成する方法などがある。例えば、“さっぽろ”の場
合、/saqporo/という音素記号列で表わすこと
ができるので、/s/,/a/,/q/,/p/,/o
/,/r/,/o/の各音素の特徴ベクトルから標準パ
ターンを生成することができる。
【0019】このようにして、標準パターン記憶部3に
標準パターンを予め記憶した後、先づ、音声入力部1で
は、マイクロホンのような音響/電気信号変換器を用い
て、入力音を電気信号X(t)に変換する(ステップS
1)。次いで、入力パターン生成部2では、音声入力部
1で得られた入力信号X(t)を10m秒程度のフレー
ム単位に分析を行ない、特徴ベクトルの時系列X(i,
f)(i:フレーム番号、f:分析チャンネル)を求め
る(ステップS2)。なお、フレーム単位の分析方法と
しては、バンドパスフィルタ群を用いて、入力信号X
(t)のスペクトラムを得る方法や、入力信号X(t)
をデジタル信号に変換した後、LPC分析を行ない、線
形予測係数,LPCケプストラムを求める方法などがあ
る。
標準パターンを予め記憶した後、先づ、音声入力部1で
は、マイクロホンのような音響/電気信号変換器を用い
て、入力音を電気信号X(t)に変換する(ステップS
1)。次いで、入力パターン生成部2では、音声入力部
1で得られた入力信号X(t)を10m秒程度のフレー
ム単位に分析を行ない、特徴ベクトルの時系列X(i,
f)(i:フレーム番号、f:分析チャンネル)を求め
る(ステップS2)。なお、フレーム単位の分析方法と
しては、バンドパスフィルタ群を用いて、入力信号X
(t)のスペクトラムを得る方法や、入力信号X(t)
をデジタル信号に変換した後、LPC分析を行ない、線
形予測係数,LPCケプストラムを求める方法などがあ
る。
【0020】次いで、類似度計算部4では、入力パター
ン生成部2で生成された入力パターンの特徴ベクトルX
(i,f)と、標準パターン記憶部3に記憶されている
標準パターンの特徴ベクトルY(j,f)との距離成分
de(i,j)を次式により求める(ステップS3)。
ン生成部2で生成された入力パターンの特徴ベクトルX
(i,f)と、標準パターン記憶部3に記憶されている
標準パターンの特徴ベクトルY(j,f)との距離成分
de(i,j)を次式により求める(ステップS3)。
【0021】
【数2】
【0022】類似度計算部4では、上記距離成分de
(i,j)の他にさらに、この距離の時間変化成分dc
1(i,j)をも求める(ステップS4)。例えば、類
似度計算を行なっているフレームより10フレーム前の
距離de(i−10,j)を用いて、次式のように距離
の時間変化成分dc1(i,j)を求める。
(i,j)の他にさらに、この距離の時間変化成分dc
1(i,j)をも求める(ステップS4)。例えば、類
似度計算を行なっているフレームより10フレーム前の
距離de(i−10,j)を用いて、次式のように距離
の時間変化成分dc1(i,j)を求める。
【0023】
【数3】 dc1(i,j)=de(i,j)−de(i−10,j)
【0024】しかる後、類似度計算部4は、この2つの
尺度de(i,j),dc1(i,j)を用いて、例え
ば次式のように、入力パターンと標準パターンとの局所
距離d(i,j)を求め(ステップS5)、これに基づ
き既知の仕方で類似度Dを求め、認識処理を行なうこと
ができる(ステップS6)。
尺度de(i,j),dc1(i,j)を用いて、例え
ば次式のように、入力パターンと標準パターンとの局所
距離d(i,j)を求め(ステップS5)、これに基づ
き既知の仕方で類似度Dを求め、認識処理を行なうこと
ができる(ステップS6)。
【0025】
【数4】 d(i,j)=de(i,j)+dc1(i,j)
【0026】なお、類似度Dは、例えば特開昭64−2
3299号に開示されているような動的計画法や山登り
法等を用いたパターンマッチングにより局所距離d
(i,j)から求めることができる。具体的には、動的
計画法を用いたパターンマッチングでは、D(i,j)
を格子点(i,j)に到達する最適累積距離、Iを入力
音声のフレーム数、Nを状態数とすると、D(i,j)
をD(1,1)=d(1,1)のように初期設定した
後、状態番号jが1であり、入力フレーム番号iが2≦
i≦Iの場合、D(i,1)は、次式によりd(i,
1)から求まる。
3299号に開示されているような動的計画法や山登り
法等を用いたパターンマッチングにより局所距離d
(i,j)から求めることができる。具体的には、動的
計画法を用いたパターンマッチングでは、D(i,j)
を格子点(i,j)に到達する最適累積距離、Iを入力
音声のフレーム数、Nを状態数とすると、D(i,j)
をD(1,1)=d(1,1)のように初期設定した
後、状態番号jが1であり、入力フレーム番号iが2≦
i≦Iの場合、D(i,1)は、次式によりd(i,
1)から求まる。
【0027】
【数5】 D(i,1)=D(i−1,1)+d(i,1)
【0028】また、状態番号jが2≦j≦Jで入力フレ
ーム番号iが2≦i≦Iの場合には、D(i,j)は、
次式によりd(i,j)から求まる。
ーム番号iが2≦i≦Iの場合には、D(i,j)は、
次式によりd(i,j)から求まる。
【0029】
【数6】
【0030】数6において、Wは状態遷移の重みであ
り、この状態遷移の重みWは入力パターンと標準パター
ンとの対応において極端な時間伸縮を防止するために,
すなわち時間長制御のために設けられている。この時間
長制御を行うため(重みWを決定するため)、特開昭6
4−23299号では、標準パターンは、各状態毎に、
状態を代表する特徴ベクトルとともに状態の継続時間を
も有している。このようにして、数5,数6により、D
(i,j)を求め、最終的に類似度Dを累積距離D
(I,J)として求めることができる。従って、特開昭
64−23299号に開示の仕方で類似度Dを計算しよ
うとする場合には、標準パターン記憶部3に記憶する特
徴ベクトルに、各状態の継続時間も加えておく必要があ
る。
り、この状態遷移の重みWは入力パターンと標準パター
ンとの対応において極端な時間伸縮を防止するために,
すなわち時間長制御のために設けられている。この時間
長制御を行うため(重みWを決定するため)、特開昭6
4−23299号では、標準パターンは、各状態毎に、
状態を代表する特徴ベクトルとともに状態の継続時間を
も有している。このようにして、数5,数6により、D
(i,j)を求め、最終的に類似度Dを累積距離D
(I,J)として求めることができる。従って、特開昭
64−23299号に開示の仕方で類似度Dを計算しよ
うとする場合には、標準パターン記憶部3に記憶する特
徴ベクトルに、各状態の継続時間も加えておく必要があ
る。
【0031】このように図2の処理例では、距離de
(i,j)の他に、距離の時間変化成分dc1(i,
j)を考慮して類似度Dを求め、認識処理を行なってい
るので、騒音下においても、すなわち、周囲の騒音の特
徴ベクトルが標準パタ−ンの特徴ベクトルの中の1つと
似ている場合であっても、誤認識を低減することができ
る。
(i,j)の他に、距離の時間変化成分dc1(i,
j)を考慮して類似度Dを求め、認識処理を行なってい
るので、騒音下においても、すなわち、周囲の騒音の特
徴ベクトルが標準パタ−ンの特徴ベクトルの中の1つと
似ている場合であっても、誤認識を低減することができ
る。
【0032】図3は他の音声認識処理例を示すフローチ
ャートである。図3において、ステップS11乃至S1
3の処理およびステップS16の処理は、図2のステッ
プS1乃至S3の処理およびステップS6の処理と同じ
であり、ステップS14,S15の類似度計算部4にお
ける処理だけが図2の処理と異なっている。すなわち、
図3の処理では、類似度計算部4は、数2で距離de
(i,j)を求めることの他に、例えば、類似度計算を
行なっているフレームよりも10フレーム前の距離de
(i−10,j)と、10フレーム後の距離de(i+
10,j)とを用いて、次式のように、距離の2つの時
間変化成分dc1(i,j)およびdc2(i,j)を
求める(ステップS14)。
ャートである。図3において、ステップS11乃至S1
3の処理およびステップS16の処理は、図2のステッ
プS1乃至S3の処理およびステップS6の処理と同じ
であり、ステップS14,S15の類似度計算部4にお
ける処理だけが図2の処理と異なっている。すなわち、
図3の処理では、類似度計算部4は、数2で距離de
(i,j)を求めることの他に、例えば、類似度計算を
行なっているフレームよりも10フレーム前の距離de
(i−10,j)と、10フレーム後の距離de(i+
10,j)とを用いて、次式のように、距離の2つの時
間変化成分dc1(i,j)およびdc2(i,j)を
求める(ステップS14)。
【0033】
【数7】 dc1(i,j)=de(i,j)−de(i−10,j) dc2(i,j)=de(i,j)−de(i+10,j)
【0034】しかる後、3つの尺度de(i,j),d
c1(i,j),dc2(i,j)を用いて、次式のよ
うに、入力パターンと標準パターンとの局所距離d
(i,j)を求め(ステップS15)、これに基づき、
例えば前述したと同様の仕方で類似度Dを求め、認識処
理を行なうことができる(ステップS16)。
c1(i,j),dc2(i,j)を用いて、次式のよ
うに、入力パターンと標準パターンとの局所距離d
(i,j)を求め(ステップS15)、これに基づき、
例えば前述したと同様の仕方で類似度Dを求め、認識処
理を行なうことができる(ステップS16)。
【0035】
【数8】 d(i,j)=de(i,j)+dc1(i,j)+dc2(i,j)
【0036】このように、図3の処理では、類似度を計
算しているフレームよりも前のフレームでの距離との差
dc1(i,j)の他に、後のフレームでの距離との差
dc2(i,j)をも考慮しているので、図2の処理に
比べ、騒音下での音声パターンの照合精度をより高め、
誤認識をより低減することができる。
算しているフレームよりも前のフレームでの距離との差
dc1(i,j)の他に、後のフレームでの距離との差
dc2(i,j)をも考慮しているので、図2の処理に
比べ、騒音下での音声パターンの照合精度をより高め、
誤認識をより低減することができる。
【0037】図4はさらに他の音声認識処理例を示すフ
ローチャートである。図4において、ステップS21乃
至S24の処理は図3のステップS11乃至S14の処
理と同じであり、また、ステップS29乃至S30の処
理は図3のステップS15乃至S16の処理と同じであ
って、図3のステップS14の処理とステップS15の
処理との間に、ステップS25乃至S28の処理が行な
われる点で、図3の処理と異なっている。すなわち、図
4の処理では、数2,数7により、de(i,j),d
c1(i,j),dc2(i,j)の3つの尺度を求め
た後、ステップS25,S27において、dc1(i,
j),dc2(i,j)が負値であるかをそれぞれ判定
し、dc1(i,j),dc2(i,j)が負値である
ときには、ステップS26,S28でこれらを“0”に
補正した上で、距離d(i,j)の計算を行なってい
る。
ローチャートである。図4において、ステップS21乃
至S24の処理は図3のステップS11乃至S14の処
理と同じであり、また、ステップS29乃至S30の処
理は図3のステップS15乃至S16の処理と同じであ
って、図3のステップS14の処理とステップS15の
処理との間に、ステップS25乃至S28の処理が行な
われる点で、図3の処理と異なっている。すなわち、図
4の処理では、数2,数7により、de(i,j),d
c1(i,j),dc2(i,j)の3つの尺度を求め
た後、ステップS25,S27において、dc1(i,
j),dc2(i,j)が負値であるかをそれぞれ判定
し、dc1(i,j),dc2(i,j)が負値である
ときには、ステップS26,S28でこれらを“0”に
補正した上で、距離d(i,j)の計算を行なってい
る。
【0038】図8(a),(b)は、発話者が“あ”を
発声したときに図2の処理がなされる場合,図4の処理
がなされる場合のそれぞれの場合における入力パターン
と標準パターン“あ”との距離を示したものである。な
お、図8(a),(b)において、一点鎖線PRは従来
の音声確認装置における入力パターンと標準パターン
“あ”との距離を示している。図2の処理がなされる場
合には、図8(a)に示すように、Aの区間(すなわち
距離の立ち下がり区間)では、従来に比べて距離を小さ
くすることができて効果的であるが、Bの区間(距離の
立ち上がり区間)では従来に比べて距離が大きくなり、
逆に悪影響を及ぼす。これに対し、図4の処理がなされ
る場合には、図8(b)に示すように、Bの区間におい
て従来に比べて距離が大きくなるという悪影響を取り除
くことができる。すなわち、図4の処理がなされること
によって、図2の処理に比べて騒音下での音声パタ−ン
の照合精度をより一層向上させることができる。
発声したときに図2の処理がなされる場合,図4の処理
がなされる場合のそれぞれの場合における入力パターン
と標準パターン“あ”との距離を示したものである。な
お、図8(a),(b)において、一点鎖線PRは従来
の音声確認装置における入力パターンと標準パターン
“あ”との距離を示している。図2の処理がなされる場
合には、図8(a)に示すように、Aの区間(すなわち
距離の立ち下がり区間)では、従来に比べて距離を小さ
くすることができて効果的であるが、Bの区間(距離の
立ち上がり区間)では従来に比べて距離が大きくなり、
逆に悪影響を及ぼす。これに対し、図4の処理がなされ
る場合には、図8(b)に示すように、Bの区間におい
て従来に比べて距離が大きくなるという悪影響を取り除
くことができる。すなわち、図4の処理がなされること
によって、図2の処理に比べて騒音下での音声パタ−ン
の照合精度をより一層向上させることができる。
【0039】また、図5はさらに他の処理例を示すフロ
ーチャートである。図5において、ステップS31乃至
S33の処理およびステップS37の処理は、図2のス
テップS1乃至S3の処理およびステップS6の処理と
同じであり、ステップS34乃至S36の類似度計算部
4における処理だけが図2の処理と異なっている。すな
わち、図5の処理では、類似度計算部4は、数2に従っ
て距離de(i,j)を求めることの他に、音声が入力
されていない状態での音声入力部1からの入力信号X
(t)の特徴ベクトルの平均値を求めることなどによ
り、騒音の特徴ベクトルN(f)を求め、この騒音の特
徴ベクトルN(f)と標準パターンの各特徴ベクトルY
(j,f)とから、次式により標準パターンの各特徴ベ
クトルごとの基準値S(j)を求める(ステップS3
4)。
ーチャートである。図5において、ステップS31乃至
S33の処理およびステップS37の処理は、図2のス
テップS1乃至S3の処理およびステップS6の処理と
同じであり、ステップS34乃至S36の類似度計算部
4における処理だけが図2の処理と異なっている。すな
わち、図5の処理では、類似度計算部4は、数2に従っ
て距離de(i,j)を求めることの他に、音声が入力
されていない状態での音声入力部1からの入力信号X
(t)の特徴ベクトルの平均値を求めることなどによ
り、騒音の特徴ベクトルN(f)を求め、この騒音の特
徴ベクトルN(f)と標準パターンの各特徴ベクトルY
(j,f)とから、次式により標準パターンの各特徴ベ
クトルごとの基準値S(j)を求める(ステップS3
4)。
【0040】
【数9】
【0041】次いで、この基準値S(j)と数2により
求めた距離de(i,j)とから、次式により距離の時
間変化成分dc3(i,j)を求める(ステップS3
5)。
求めた距離de(i,j)とから、次式により距離の時
間変化成分dc3(i,j)を求める(ステップS3
5)。
【0042】
【数10】 dc3(i,j)=de(i,j)−S(j)
【0043】しかる後、2つの尺度de(i,j),d
c3(i,j)を用いて、入力パターンと標準パターン
の局所距離d(i,j)を次式により計算する(ステッ
プS36)。
c3(i,j)を用いて、入力パターンと標準パターン
の局所距離d(i,j)を次式により計算する(ステッ
プS36)。
【0044】
【数11】 d(i,j)=de(i,j)+dc3(i,j)
【0045】図9(a)乃至(c)には、図5の処理が
なされるときの具体例が示されている。なお、図9
(a)乃至(c)は図10(a)乃至(c)に対応した
ものとなっている。図5の処理がなされるときには、周
囲の騒音が標準パターン“あ”,“い”のいずれにも似
ていない場合には、図9(b)のように、入力パターン
は標準パターン“あ”と距離が最も小さくなり、これに
より、“あ”の発声に対して、“あ”の音声認識結果を
得ることができる。また、周囲の騒音が標準パターン
“い”に似ている場合であっても、“あ”の発声がなさ
れたときには、図9(c)のように、入力パターンは標
準パターン“あ”と距離が最も小さくなり、“あ”の発
声に対して“あ”の音声認識結果を得ることができる。
このように、図5の処理においても、図2乃至図4の処
理と同様に、音声パタ−ンの照合精度を高め、誤認識を
低減することができる。但し、図5の処理は、図2乃至
図4の処理に比べて、予め基準値を定めておく必要があ
る点で複雑となる。
なされるときの具体例が示されている。なお、図9
(a)乃至(c)は図10(a)乃至(c)に対応した
ものとなっている。図5の処理がなされるときには、周
囲の騒音が標準パターン“あ”,“い”のいずれにも似
ていない場合には、図9(b)のように、入力パターン
は標準パターン“あ”と距離が最も小さくなり、これに
より、“あ”の発声に対して、“あ”の音声認識結果を
得ることができる。また、周囲の騒音が標準パターン
“い”に似ている場合であっても、“あ”の発声がなさ
れたときには、図9(c)のように、入力パターンは標
準パターン“あ”と距離が最も小さくなり、“あ”の発
声に対して“あ”の音声認識結果を得ることができる。
このように、図5の処理においても、図2乃至図4の処
理と同様に、音声パタ−ンの照合精度を高め、誤認識を
低減することができる。但し、図5の処理は、図2乃至
図4の処理に比べて、予め基準値を定めておく必要があ
る点で複雑となる。
【0046】また、上述各処理例において、標準パター
ン記憶部3には、認識対象語を1つ以上の状態に分け、
各状態毎に求めた特徴ベクトルY(j,f)が記憶され
ることの他に、周囲騒音の特徴ベクトルN(f)をさら
に記憶することができる。ここで、周囲騒音の特徴ベク
トルN(f)は、例えば音声を入力していない状態での
音声入力部1からの入力信号X(t)の特徴ベクトルの
平均値として求めることができる。
ン記憶部3には、認識対象語を1つ以上の状態に分け、
各状態毎に求めた特徴ベクトルY(j,f)が記憶され
ることの他に、周囲騒音の特徴ベクトルN(f)をさら
に記憶することができる。ここで、周囲騒音の特徴ベク
トルN(f)は、例えば音声を入力していない状態での
音声入力部1からの入力信号X(t)の特徴ベクトルの
平均値として求めることができる。
【0047】標準パターン記憶部3にこのように周囲騒
音の特徴ベクトルN(f)がさらに記憶される場合、認
識処理部5は、類似度計算部4で求めた類似度Dが最小
となる認識対象語を認識結果として出力するが、周囲騒
音の類似度が一番最小になった場合は、認識結果を出力
しないような処理を行なうことができる。このように、
標準パターンに、周囲騒音の特徴ベクトルをも加えるこ
とにより、周囲騒音による装置の誤動作を低減すること
ができる。すなわち、騒音があるとき、音声のパワ−が
小さい子音や無音区間において、騒音が、発話者による
音声のものであるとして認識されてしまうことを低減す
ることができる。
音の特徴ベクトルN(f)がさらに記憶される場合、認
識処理部5は、類似度計算部4で求めた類似度Dが最小
となる認識対象語を認識結果として出力するが、周囲騒
音の類似度が一番最小になった場合は、認識結果を出力
しないような処理を行なうことができる。このように、
標準パターンに、周囲騒音の特徴ベクトルをも加えるこ
とにより、周囲騒音による装置の誤動作を低減すること
ができる。すなわち、騒音があるとき、音声のパワ−が
小さい子音や無音区間において、騒音が、発話者による
音声のものであるとして認識されてしまうことを低減す
ることができる。
【0048】図6は本発明に係る音声認識装置の第2の
実施例のブロック図である。なお、図6において、図1
と同様の箇所には同じ符号を付している。この第2の実
施例の音声認識装置では、騒音の大小を判定する騒音大
小判定部6が設けられており、類似度計算部4は、騒音
大小判定部6で判定された騒音の大きさ(大小)に応じ
て類似度Dを計算するようになっている。すなわち、周
囲騒音が小さいと判定されたときには、類似度計算部4
は、距離の時間変化成分を計算せず、距離成分de
(i,j)だけにより類似度Dを計算するようになって
いる。
実施例のブロック図である。なお、図6において、図1
と同様の箇所には同じ符号を付している。この第2の実
施例の音声認識装置では、騒音の大小を判定する騒音大
小判定部6が設けられており、類似度計算部4は、騒音
大小判定部6で判定された騒音の大きさ(大小)に応じ
て類似度Dを計算するようになっている。すなわち、周
囲騒音が小さいと判定されたときには、類似度計算部4
は、距離の時間変化成分を計算せず、距離成分de
(i,j)だけにより類似度Dを計算するようになって
いる。
【0049】次にこのような構成の音声認識装置の動作
を図7のフローチャートを用いて説明する。なお、図7
において、ステップS41乃至S43の処理およびステ
ップS48の処理は、図2のステップS1乃至S3およ
びステップS6の処理と同じであり、ステップS44乃
至S47の処理が図2の処理と異なっている。すなわ
ち、この第2の実施例の音声認識装置では、騒音大小判
定部6は、例えば、音声を入力していない状態での音声
入力部1からの入力信号X(t)の2乗値の短時間平均
値を求め、この短時間平均値が予め定められている基準
値以上となったか否かにより、周囲騒音の大小を判定す
る(ステップS44)。この判定の結果、騒音が大きい
と判定された場合には、図2のステップS4,S5と同
様の処理を行なう。すなわち、類似度計算部4は、先
づ、入力パターン生成部2で生成された特徴ベクトルX
(i,f)と、標準パターン記憶部3に記憶されている
標準パターンの特徴ベクトルY(j,f)との距離de
(i,j)を数2に従って求めることの他に、類似度計
算を行なっているフレームよりも10フレーム前の距離
de(i−10,j)を数3により求めて、距離の時間
変化成分dc1(i,j)を数3に従って求める(ステ
ップS45)。しかる後、類似度計算部4は、この2つ
の尺度de(i,j),dc1(i,j)を用いて、入
力パターンと標準パターンとの局所距離d(i,j)を
数4に従って求め(ステップS46)、これに基づき例
えば前述したと同様の仕方で類似度Dを求め、認識処理
を行なうことができる(ステップS48)。
を図7のフローチャートを用いて説明する。なお、図7
において、ステップS41乃至S43の処理およびステ
ップS48の処理は、図2のステップS1乃至S3およ
びステップS6の処理と同じであり、ステップS44乃
至S47の処理が図2の処理と異なっている。すなわ
ち、この第2の実施例の音声認識装置では、騒音大小判
定部6は、例えば、音声を入力していない状態での音声
入力部1からの入力信号X(t)の2乗値の短時間平均
値を求め、この短時間平均値が予め定められている基準
値以上となったか否かにより、周囲騒音の大小を判定す
る(ステップS44)。この判定の結果、騒音が大きい
と判定された場合には、図2のステップS4,S5と同
様の処理を行なう。すなわち、類似度計算部4は、先
づ、入力パターン生成部2で生成された特徴ベクトルX
(i,f)と、標準パターン記憶部3に記憶されている
標準パターンの特徴ベクトルY(j,f)との距離de
(i,j)を数2に従って求めることの他に、類似度計
算を行なっているフレームよりも10フレーム前の距離
de(i−10,j)を数3により求めて、距離の時間
変化成分dc1(i,j)を数3に従って求める(ステ
ップS45)。しかる後、類似度計算部4は、この2つ
の尺度de(i,j),dc1(i,j)を用いて、入
力パターンと標準パターンとの局所距離d(i,j)を
数4に従って求め(ステップS46)、これに基づき例
えば前述したと同様の仕方で類似度Dを求め、認識処理
を行なうことができる(ステップS48)。
【0050】これに対し、ステップS44において、騒
音が小さいと判定された場合には、距離の時間変化成分
を計算せず、数2により求まる距離成分de(i,j)
を局所距離d(i,j)として用い(ステップS4
7)、これにより類似度Dを求め、認識処理を行なう
(ステップS48)。このように、第2の実施例では、
周囲騒音が小さい場合には、距離の時間変化成分を求め
ないので、処理を高速に行なうことができる。
音が小さいと判定された場合には、距離の時間変化成分
を計算せず、数2により求まる距離成分de(i,j)
を局所距離d(i,j)として用い(ステップS4
7)、これにより類似度Dを求め、認識処理を行なう
(ステップS48)。このように、第2の実施例では、
周囲騒音が小さい場合には、距離の時間変化成分を求め
ないので、処理を高速に行なうことができる。
【0051】なお、上記例では、騒音大小判定部6は、
音声を入力していない状態での入力信号の2乗値の短時
間平均値が、予め定めておいた基準値以上になった場合
に、周囲騒音が大きいと判定するようになっているが、
他の方法により騒音の大小を判定することも可能であ
る。
音声を入力していない状態での入力信号の2乗値の短時
間平均値が、予め定めておいた基準値以上になった場合
に、周囲騒音が大きいと判定するようになっているが、
他の方法により騒音の大小を判定することも可能であ
る。
【0052】
【発明の効果】以上に説明したように、請求項1乃至7
記載の発明によれば、標準パターンの特徴ベクトルと入
力パターンの特徴ベクトルとの距離成分を求めるだけで
なく、標準パターンの特徴ベクトルと入力パターンの特
徴ベクトルとの距離の時間変化成分をも求め、距離成分
と距離の時間変化成分とに基づき類似度を求めるように
なっているので、騒音下で、特に、周囲騒音の特徴ベク
トルが標準パターンの特徴ベクトルの中の1つと似てい
る場合においても、音声パターンの照合精度を高め、誤
認識を低減することができる。
記載の発明によれば、標準パターンの特徴ベクトルと入
力パターンの特徴ベクトルとの距離成分を求めるだけで
なく、標準パターンの特徴ベクトルと入力パターンの特
徴ベクトルとの距離の時間変化成分をも求め、距離成分
と距離の時間変化成分とに基づき類似度を求めるように
なっているので、騒音下で、特に、周囲騒音の特徴ベク
トルが標準パターンの特徴ベクトルの中の1つと似てい
る場合においても、音声パターンの照合精度を高め、誤
認識を低減することができる。
【0053】すなわち、請求項2記載の発明によれば、
標準パターン記憶手段に記憶されている各状態毎の特徴
ベクトルと入力パターンの類似度計算を行なっているフ
レームの特徴ベクトルとの第1の距離と、入力パターン
の類似度計算を行なっているフレームよりも前のフレー
ムの特徴ベクトルとの第2の距離との差を時間変化成分
として求めており、この時間変化成分を加味すること
で、騒音下での音声パタ−ンの照合精度を高めることが
できる。
標準パターン記憶手段に記憶されている各状態毎の特徴
ベクトルと入力パターンの類似度計算を行なっているフ
レームの特徴ベクトルとの第1の距離と、入力パターン
の類似度計算を行なっているフレームよりも前のフレー
ムの特徴ベクトルとの第2の距離との差を時間変化成分
として求めており、この時間変化成分を加味すること
で、騒音下での音声パタ−ンの照合精度を高めることが
できる。
【0054】また、請求項3記載の発明によれば、類似
度計算を行なっているフレームよりも前のフレームの特
徴ベクトルとの距離との差の他に、さらに類似度計算を
行なっているフレームよりも後のフレームの特徴ベクト
ルとの距離との差をも考慮して距離の時間変化成分を求
めているので、騒音下での音声パタ−ンの照合精度をよ
り一層高めることができる。
度計算を行なっているフレームよりも前のフレームの特
徴ベクトルとの距離との差の他に、さらに類似度計算を
行なっているフレームよりも後のフレームの特徴ベクト
ルとの距離との差をも考慮して距離の時間変化成分を求
めているので、騒音下での音声パタ−ンの照合精度をよ
り一層高めることができる。
【0055】また、請求項4記載の発明によれば、入力
パターンの類似度計算を行なっているフレームよりも前
のフレームでの距離との差、あるいは、類似度計算を行
なっているフレームよりも後のフレームでの距離との差
が負値となった場合には、差の値を“0”として距離の
時間変化成分を求めているので、さらに一層音声パタ−
ンの照合精度を高めることができる。
パターンの類似度計算を行なっているフレームよりも前
のフレームでの距離との差、あるいは、類似度計算を行
なっているフレームよりも後のフレームでの距離との差
が負値となった場合には、差の値を“0”として距離の
時間変化成分を求めているので、さらに一層音声パタ−
ンの照合精度を高めることができる。
【0056】また、請求項5記載の発明によれば、標準
パターン記憶手段に予め記憶されている特徴ベクトルと
入力信号の特徴ベクトルとの距離の基準値を各状態毎に
予め決めておき、標準パターンの状態毎の特徴ベクトル
と入力信号の特徴ベクトルとの距離の時間変化成分を、
標準パターンの状態毎の特徴ベクトルと入力信号の特徴
ベクトルとの距離成分と前記基準値との差として求めて
おり、この時間変化成分を加味することにより、騒音下
での音声パタ−ンの照合精度を高めることができる。
パターン記憶手段に予め記憶されている特徴ベクトルと
入力信号の特徴ベクトルとの距離の基準値を各状態毎に
予め決めておき、標準パターンの状態毎の特徴ベクトル
と入力信号の特徴ベクトルとの距離の時間変化成分を、
標準パターンの状態毎の特徴ベクトルと入力信号の特徴
ベクトルとの距離成分と前記基準値との差として求めて
おり、この時間変化成分を加味することにより、騒音下
での音声パタ−ンの照合精度を高めることができる。
【0057】また、請求項6記載の発明によれば、標準
パターン記憶手段には、各状態毎の特徴ベクトルで構成
される標準パターンとともに、周囲騒音の標準パターン
も記憶されるので、周囲騒音が発話者による音声のもの
であるとして認識されてしまう事態を低減することがで
きる。
パターン記憶手段には、各状態毎の特徴ベクトルで構成
される標準パターンとともに、周囲騒音の標準パターン
も記憶されるので、周囲騒音が発話者による音声のもの
であるとして認識されてしまう事態を低減することがで
きる。
【0058】また、請求項7記載の発明によれば、周囲
騒音が小さい場合には、標準パターンの状態毎の特徴ベ
クトルと入力信号の特徴ベクトルとの距離成分のみに基
づき類似度を計算し、距離の時間変化成分を求めないの
で、処理速度の低下を抑えることができる。
騒音が小さい場合には、標準パターンの状態毎の特徴ベ
クトルと入力信号の特徴ベクトルとの距離成分のみに基
づき類似度を計算し、距離の時間変化成分を求めないの
で、処理速度の低下を抑えることができる。
【図1】本発明に係る音声認識装置の第1の実施例のブ
ロック図である。
ロック図である。
【図2】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
ローチャートである。
【図3】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
ローチャートである。
【図4】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
ローチャートである。
【図5】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
ローチャートである。
【図6】本発明に係る音声認識装置の第2の実施例のブ
ロック図である。
ロック図である。
【図7】図6の音声認識装置の処理動作の一例を示すフ
ローチャートである。
ローチャートである。
【図8】(a),(b)は発話者が“あ”を発声したと
きに図2の処理がなされる場合,図4の処理がなされる
場合のそれぞれの場合における入力パターンと標準パタ
ーン“あ”との距離を示す図である。
きに図2の処理がなされる場合,図4の処理がなされる
場合のそれぞれの場合における入力パターンと標準パタ
ーン“あ”との距離を示す図である。
【図9】(a)乃至(c)は図5の処理がなされるとき
の具体例を示す図である。
の具体例を示す図である。
【図10】(a)乃至(c)は従来の音声認識装置の処
理の具体例を示す図である。
理の具体例を示す図である。
1 音声入力部 2 入力パタ−ン生成部 3 標準パターン記憶部 4 類似度計算部 5 認識処理部 6 騒音大小判定部
Claims (7)
- 【請求項1】 音声を入力する音声入力手段と、前記音
声入力手段より入力された入力信号を特徴ベクトルの時
系列に変換する入力パターン生成手段と、予め登録され
た音声を1つ以上の状態に分け、各状態毎の特徴ベクト
ルで構成される標準パターンを記憶する標準パターン記
憶手段と、前記入力パターン生成手段で生成された特徴
ベクトルの時系列と前記標準パターン記憶部に記憶され
ている標準パターンとの類似度を求める類似度計算手段
と、前記類似度計算手段で求めた類似度結果を用いて認
識処理を行なう認識処理手段とを有し、前記類似度計算
手段は、標準パターンの状態毎の特徴ベクトルと入力信
号の特徴ベクトルとの距離成分と、標準パターンの状態
毎の特徴ベクトルと入力信号の特徴ベクトルとの距離の
時間変化成分とを求め、距離成分と距離の時間変化成分
とに基づき類似度を求めるようになっていることを特徴
とする音声認識装置。 - 【請求項2】 請求項1記載の音声認識装置において、
前記類似度計算手段は、標準パターン記憶手段に記憶さ
れている各状態毎の特徴ベクトルと入力パターンの類似
度計算を行なっているフレームの特徴ベクトルとの距離
を第1の距離として求め、また、標準パターン記憶手段
に記憶されている各状態毎の特徴ベクトルと入力パター
ンの類似度計算を行なっているフレームよりも前のフレ
ームの特徴ベクトルとの距離を第2の距離として求め、
標準パターンの状態毎の特徴ベクトルと入力信号の特徴
ベクトルとの距離の時間変化成分を、第1の距離と第2
の距離との差として求めることを特徴とする音声認識装
置。 - 【請求項3】 請求項1記載の音声認識装置において、
前記類似度計算手段は、標準パターン記憶手段に記憶さ
れている各状態毎の特徴ベクトルと入力パターンの類似
度計算を行なっているフレームの特徴ベクトルとの距離
を第1の距離として求め、また、標準パターン記憶手段
に記憶されている各状態毎の特徴ベクトルと入力パター
ンの類似度計算を行なっているフレームよりも前のフレ
ームの特徴ベクトルとの距離を第2の距離として求め、
また、標準パターン記憶手段に記憶されている各状態毎
の特徴ベクトルと入力パターンの類似度計算を行なって
いるフレームよりも後のフレームの特徴ベクトルとの距
離を第3の距離として求め、前記第1の距離と第2の距
離との差をの差を第1の成分として求め、第1の距離と
第3の距離との差を第2の成分として求めて、標準パタ
ーンの状態毎の特徴ベクトルと入力信号の特徴ベクトル
との距離の時間変化成分を、第1および第2の成分に基
づき求めることを特徴とする音声認識装置。 - 【請求項4】 請求項2または請求項3記載の音声認識
装置において、前記類似度計算手段は、入力パターンの
類似度計算を行なっているフレームよりも前のフレーム
の距離との差、あるいは、類似度計算を行なっているフ
レームよりも後のフレームの距離との差が負値となった
場合には、この差の値を“0”として距離の時間変化成
分を求めるようになっていることを特徴とする音声認識
装置。 - 【請求項5】 請求項1記載の音声認識装置において、
類似度計算手段は、標準パターン記憶手段に予め記憶さ
れている特徴ベクトルと入力信号の特徴ベクトルとの距
離の基準値を各状態毎に予め決めておき、標準パターン
の状態毎の特徴ベクトルと入力信号の特徴ベクトルとの
距離の時間変化成分を、標準パターンの状態毎の特徴ベ
クトルと入力信号の特徴ベクトルとの距離と、前記基準
値との差として求めることを特徴とする音声認識装置。 - 【請求項6】 請求項1記載の音声認識装置において、
標準パターン記憶手段には、各状態毎の特徴ベクトルで
構成される標準パターンとともに、周囲騒音の標準パタ
ーンも記憶されるようになっていることを特徴とする音
声認識装置。 - 【請求項7】 請求項1記載の音声認識装置において、
周囲騒音が小さい場合には、類似度計算手段は、標準パ
ターンの状態毎の特徴ベクトルと入力信号の特徴ベクト
ルとの距離成分のみに基づき類似度を計算するようにな
っていることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21096092A JPH0635499A (ja) | 1992-07-15 | 1992-07-15 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21096092A JPH0635499A (ja) | 1992-07-15 | 1992-07-15 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0635499A true JPH0635499A (ja) | 1994-02-10 |
Family
ID=16597964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21096092A Pending JPH0635499A (ja) | 1992-07-15 | 1992-07-15 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0635499A (ja) |
-
1992
- 1992-07-15 JP JP21096092A patent/JPH0635499A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
US6029130A (en) | Integrated endpoint detection for improved speech recognition method and system | |
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP2955297B2 (ja) | 音声認識システム | |
JP3535292B2 (ja) | 音声認識システム | |
JPH11184491A (ja) | 音声認識装置 | |
JP2003177779A (ja) | 音声認識のための話者学習法 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JPH08211897A (ja) | 音声認識装置 | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JP3400474B2 (ja) | 音声認識装置および音声認識方法 | |
JPH0635499A (ja) | 音声認識装置 | |
JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
JPH0635495A (ja) | 音声認識装置 | |
JPH0786758B2 (ja) | 音声認識装置 | |
JP3029654B2 (ja) | 音声認識装置 | |
JP3316352B2 (ja) | 音声認識方法 | |
JPH10143190A (ja) | 音声認識装置 | |
JPH06230798A (ja) | 音声認識装置 |