JPH0635499A

JPH0635499A - 音声認識装置

Info

Publication number: JPH0635499A
Application number: JP21096092A
Authority: JP
Inventors: Mitsugi Matsushita; 貢松下
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1992-07-15
Filing date: 1992-07-15
Publication date: 1994-02-10

Abstract

(57)【要約】【目的】周囲の騒音による誤認識を低減することがで
き、高精度の認識結果を得ることが可能である。【構成】類似度計算部４は、標準パターンの特徴ベク
トルと入力パターンの特徴ベクトルとの距離成分を求め
るだけでなく、標準パターンの特徴ベクトルと入力パタ
ーンの特徴ベクトルとの距離の時間変化成分をも求め、
距離成分と距離の時間変化成分とに基づき類似度を求め
る。これにより、騒音下で、特に、周囲騒音の特徴ベク
トルが標準パターンの特徴ベクトルの中の１つと似てい
る場合においても、音声パターンの照合精度を高め、誤
認識を低減することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声の入力パターンと
標準パターンとの類似度を求めて、音声認識処理を行な
う音声認識装置に関する。

【０００２】

【従来の技術】一般に、音声認識装置では、音声の入力
パターンと標準パターンとを照合し、その類似度に基づ
いて音声認識結果を出力するようになっている。入力パ
ターンと標準パターンとの類似度を求めるのに、従来で
は、ＤＰマッチング法が良く知られている。このＤＰマ
ッチング法は、標準パターンと入力パターンの局所距離
（ｉ番目の入力ベクトルとｊ番目の標準ベクトルとの距
離）から、標準パターンと入力パターンの累積距離が最
小となる最適累積距離を見つけ、この最適累積距離が最
小となる標準パターンを照合結果として出力するもので
あり、局所距離としては、例えば、ユークリッド距離，
マハラノビスの距離などを用いることができる。例え
ば、ｉ番目の入力パターンのｆチャンネル目のデータを
Ｘ（ｉ，ｆ）、ｉ番目の標準パターンのｆチャンネル目
の特徴量をＹ（ｊ，ｆ）とした場合に、ユークリッド距
離ｄｅ（ｉ，ｊ）は、次式によって求められる。

【０００３】

【数１】

【０００４】

【発明が解決しようとする課題】しかしながら、このよ
うにして求めた局所距離に基づく音声認識処理では、例
えば工場や自動車内の騒音下において問題が生ずる。す
なわち、上記のようにして求めた局所距離は、周囲の騒
音が小さい場合は、非常に有効であるが、周囲の騒音が
大きい場合、特に、周囲の騒音の特徴ベクトルが、標準
パターンの特徴ベクトルの中の１つと似ている場合に
は、不都合が生じる。

【０００５】図１０（ａ），（ｂ），（ｃ）はこのよう
な不都合の生ずる具体例を示す図である。図１０
（ａ），（ｂ），（ｃ）では、標準パターンに“あ”と
“い”の２つが用意されていると仮定し、図１０（ａ）
には、発話者が“あ”を発声したときの音声パワーＰＷ
の時間的変化が示されている。また、図１０（ｂ）は周
囲の騒音が標準パターン“あ”，“い”のいずれにも似
ていない場合における入力パターンと各標準パターン
“あ”，“い”との距離を示したものであり、図１０
（ｃ）は周囲の騒音が標準パターン“い”に似ている場
合における入力パターンと各標準パターン“あ”，
“い”との距離を示したものである。

【０００６】周囲の騒音が標準パターン“あ”，“い”
のいずれにも似ていない場合には、図１０（ｂ）のよう
に、入力パターンは標準パターン“あ”と距離が最も小
さくなり、これにより、“あ”の発声に対して、“あ”
の音声認識結果を得ることができる。しかしながら、周
囲の騒音が標準パターン“い”に似ている場合には、
“あ”の発声がなされたにもかかわらず、図１０（ｃ）
のように、入力パターンは標準パターン“い”と距離が
最も小さくなり、“あ”の発声に対して“い”の音声認
識結果が得られてしまうことがある。

【０００７】このように、従来の音声認識装置では、周
囲の騒音の特徴ベクトルが標準パターンの特徴ベクトル
の中の１つに似ている場合には、正しい発声がなされる
場合にも、誤まった認識結果が得られてしまうという問
題があった。

【０００８】本発明は、周囲の騒音による誤認識を低減
することができ、高精度の認識結果を得ることの可能な
音声認識装置を提供することを目的としている。

【０００９】

【課題を解決するための手段および作用】上記目的を達
成するために、請求項１記載の発明は、音声を入力する
音声入力手段と、音声入力手段より入力された入力信号
を特徴ベクトルの時系列に変換する入力パターン生成手
段と、予め登録された音声を１つ以上の状態に分け、各
状態毎の特徴ベクトルで構成される標準パターンを記憶
する標準パターン記憶手段と、入力パターン生成手段で
生成された特徴ベクトルの時系列と標準パターン記憶部
に記憶されている標準パターンとの類似度を求める類似
度計算手段と、類似度計算手段で求めた類似度結果を用
いて認識処理を行なう認識処理手段とを有し、類似度計
算手段は、標準パターンの状態毎の特徴ベクトルと入力
信号の特徴ベクトルとの距離成分と、標準パターンの状
態毎の特徴ベクトルと入力信号の特徴ベクトルとの距離
の時間変化成分とを求め、距離成分と距離の時間変化成
分とに基づき類似度を求めるようになっていることを特
徴としている。距離の時間変化成分を求め、この時間変
化成分を加味することで、騒音下での音声パタ−ンの照
合精度を高めることができる。

【００１０】また、請求項２記載の発明では、類似度計
算手段は、標準パターンの状態毎の特徴ベクトルと入力
信号の特徴ベクトルとの距離の時間変化成分を、標準パ
ターン記憶手段に記憶されている各状態毎の特徴ベクト
ルと入力パターンの類似度計算を行なっているフレーム
の特徴ベクトルとの第１の距離と、入力パターンの類似
度計算を行なっているフレームよりも前のフレームの特
徴ベクトルとの第２の距離との差として求めることを特
徴としている。

【００１１】また、請求項３記載の発明では、類似度計
算手段は、標準パターン記憶手段に記憶されている各状
態毎の特徴ベクトルと入力パターンの類似度計算を行な
っているフレームの特徴ベクトルとの第１の距離と、類
似度計算を行なっているフレームよりも前のフレームの
特徴ベクトルとの第２の距離との差を第１の成分として
求め、また、類似度計算を行なっているフレームよりも
後のフレームの特徴ベクトルとの第３の距離との差を第
２の成分として求め、標準パターンの状態毎の特徴ベク
トルと入力信号の特徴ベクトルとの距離の時間変化成分
を上記第１および第２の成分に基づき求めることを特徴
としている。このように、類似度計算を行なっているフ
レームよりも前のフレームの特徴ベクトルとの距離との
差の他に、さらに類似度計算を行なっているフレームよ
りも後のフレームの特徴ベクトルとの距離との差をも考
慮して距離の時間変化成分を求めることにより、騒音下
での音声パタ−ンの照合精度をより一層高めることがで
きる。

【００１２】また、請求項４記載の発明では、類似度計
算手段は、入力パターンの類似度計算を行なっているフ
レームよりも前のフレームでの距離との差、あるいは、
類似度計算を行なっているフレームよりも後のフレーム
での距離との差が負値となった場合には、この差の値を
“０”として距離の時間変化成分を求めることを特徴と
している。入力パターンの類似度計算を行なっているフ
レームよりも前のフレームでの距離との差、あるいは、
類似度計算を行なっているフレームよりも後のフレーム
での距離との差が負値となった場合には、差の値を
“０”として距離の時間変化成分を求めることで、さら
に一層音声パタ−ンの照合精度を高めることができる。

【００１３】また、請求項５記載の発明では、類似度計
算手段は、標準パターン記憶手段に予め記憶されている
特徴ベクトルと入力信号の特徴ベクトルとの距離の基準
値を各状態毎に予め決めておき、標準パターンの状態毎
の特徴ベクトルと入力信号の特徴ベクトルとの距離の時
間変化成分を、標準パターンの状態毎の特徴ベクトルと
入力信号の特徴ベクトルとの距離と、基準値との差とし
て求めることを特徴としている。この時間変化成分を加
味することにより、騒音下での音声パタ−ンの照合精度
を高めることができる。

【００１４】また、請求項６記載の発明では、標準パタ
ーン記憶手段には、各状態毎の特徴ベクトルで構成され
る標準パターンとともに、周囲騒音の標準パターンも記
憶されることを特徴としている。これにより、周囲騒音
が発話者による音声のものであるとして認識されてしま
う事態を低減することができる。

【００１５】また、請求項７記載の発明では、周囲騒音
が小さい場合には、類似度計算手段は、標準パターンの
状態毎の特徴ベクトルと入力信号の特徴ベクトルとの距
離成分のみに基づき類似度を計算するようになっている
ことを特徴としている。周囲騒音が小さい場合には、距
離の時間変化成分を求めないことによって、処理速度の
低下を抑えることができる。

【００１６】

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図１は本発明に係る音声認識装置の第１の実施例
のブロック図である。図１を参照すると、この音声認識
装置は、音声を入力する音声入力部１と、音声入力部１
より入力された入力信号を特徴ベクトルの時系列に変換
する入力パターン生成部２と、予め登録された音声を１
つ以上の状態に分割し、各状態毎の特徴ベクトルで構成
される標準パターンを記憶する標準パターン記憶部３
と、入力パターン生成部２で生成された特徴ベクトルの
時系列と標準パターン記憶部３に記憶されている標準パ
ターンとの類似度を求める類似度計算部４と、類似度計
算部４で求めた類似度結果を用いて認識処理を行なう認
識処理部５とを有している。ここで、類似度計算部４
は、例えば特開昭６４−２３２９９号に開示されている
ような仕方で、標準パターンの状態毎の特徴ベクトルと
入力信号の特徴ベクトルとの距離を求めるが、本発明で
は、その際に、標準パターンの状態毎の特徴ベクトルと
入力信号の特徴ベクトルとの距離を求めるだけでなく、
標準パターンの状態毎の特徴ベクトルと入力信号の特徴
ベクトルとの距離の時間変化をも求め、距離成分と距離
の時間変化成分とによって類似度を求めるようになって
いる。

【００１７】次に、このような構成の音声認識装置の処
理動作を図２のフローチャートを用いて説明する。な
お、実際の音声認識処理を行なうに先立って、標準パタ
ーン記憶部３には、認識対象語の各標準パターンが予め
記憶されているとする。具体的には、標準パターン記憶
部３には、認識対象語を１つ以上の状態に分け、各状態
毎に求めた特徴ベクトルＹ（ｊ，ｆ）（ｊ：状態番号、
ｆ：分析チャンネル）が記憶されているとする。また、
この特徴ベクトルＹ（ｊ，ｆ）には、入力パターン生成
部２で使用される特徴ベクトルと同じ種類の特徴ベクト
ルが用いられるとする。

【００１８】このような標準パターンの生成方法として
は、認識対象語を一定の状態数Ｊ個に分け、各状態毎
に、状態内の全フレームの特徴ベクトルの平均ベクトル
を求める方法や、全音素の特徴ベクトルを記憶してお
き、認識対象語の音素記号列に応じて、標準パターンを
生成する方法などがある。例えば、“さっぽろ”の場
合、／ｓａｑｐｏｒｏ／という音素記号列で表わすこと
ができるので、／ｓ／，／ａ／，／ｑ／，／ｐ／，／ｏ
／，／ｒ／，／ｏ／の各音素の特徴ベクトルから標準パ
ターンを生成することができる。

【００１９】このようにして、標準パターン記憶部３に
標準パターンを予め記憶した後、先づ、音声入力部１で
は、マイクロホンのような音響／電気信号変換器を用い
て、入力音を電気信号Ｘ（ｔ）に変換する（ステップＳ
１）。次いで、入力パターン生成部２では、音声入力部
１で得られた入力信号Ｘ（ｔ）を１０ｍ秒程度のフレー
ム単位に分析を行ない、特徴ベクトルの時系列Ｘ（ｉ，
ｆ）（ｉ：フレーム番号、ｆ：分析チャンネル）を求め
る（ステップＳ２）。なお、フレーム単位の分析方法と
しては、バンドパスフィルタ群を用いて、入力信号Ｘ
（ｔ）のスペクトラムを得る方法や、入力信号Ｘ（ｔ）
をデジタル信号に変換した後、ＬＰＣ分析を行ない、線
形予測係数，ＬＰＣケプストラムを求める方法などがあ
る。

【００２０】次いで、類似度計算部４では、入力パター
ン生成部２で生成された入力パターンの特徴ベクトルＸ
（ｉ，ｆ）と、標準パターン記憶部３に記憶されている
標準パターンの特徴ベクトルＹ（ｊ，ｆ）との距離成分
ｄｅ（ｉ，ｊ）を次式により求める（ステップＳ３）。

【００２１】

【数２】

【００２２】類似度計算部４では、上記距離成分ｄｅ
（ｉ，ｊ）の他にさらに、この距離の時間変化成分ｄｃ
１（ｉ，ｊ）をも求める（ステップＳ４）。例えば、類
似度計算を行なっているフレームより１０フレーム前の
距離ｄｅ（ｉ−１０，ｊ）を用いて、次式のように距離
の時間変化成分ｄｃ１（ｉ，ｊ）を求める。

【００２３】

【数３】ｄｃ１（ｉ，ｊ）＝ｄｅ（ｉ，ｊ）−ｄｅ（ｉ−１０，ｊ）

【００２４】しかる後、類似度計算部４は、この２つの
尺度ｄｅ（ｉ，ｊ），ｄｃ１（ｉ，ｊ）を用いて、例え
ば次式のように、入力パターンと標準パターンとの局所
距離ｄ（ｉ，ｊ）を求め（ステップＳ５）、これに基づ
き既知の仕方で類似度Ｄを求め、認識処理を行なうこと
ができる（ステップＳ６）。

【００２５】

【数４】ｄ（ｉ，ｊ）＝ｄｅ（ｉ，ｊ）＋ｄｃ１（ｉ，ｊ）

【００２６】なお、類似度Ｄは、例えば特開昭６４−２
３２９９号に開示されているような動的計画法や山登り
法等を用いたパターンマッチングにより局所距離ｄ
（ｉ，ｊ）から求めることができる。具体的には、動的
計画法を用いたパターンマッチングでは、Ｄ（ｉ，ｊ）
を格子点（ｉ，ｊ）に到達する最適累積距離、Ｉを入力
音声のフレーム数、Ｎを状態数とすると、Ｄ（ｉ，ｊ）
をＤ（１，１）＝ｄ（１，１）のように初期設定した
後、状態番号ｊが１であり、入力フレーム番号ｉが２≦
ｉ≦Ｉの場合、Ｄ（ｉ，１）は、次式によりｄ（ｉ，
１）から求まる。

【００２７】

【数５】Ｄ（ｉ，１）＝Ｄ（ｉ−１，１）＋ｄ（ｉ，１）

【００２８】また、状態番号ｊが２≦ｊ≦Ｊで入力フレ
ーム番号ｉが２≦ｉ≦Ｉの場合には、Ｄ（ｉ，ｊ）は、
次式によりｄ（ｉ，ｊ）から求まる。

【００２９】

【数６】

【００３０】数６において、Ｗは状態遷移の重みであ
り、この状態遷移の重みＷは入力パターンと標準パター
ンとの対応において極端な時間伸縮を防止するために，
すなわち時間長制御のために設けられている。この時間
長制御を行うため（重みＷを決定するため）、特開昭６
４−２３２９９号では、標準パターンは、各状態毎に、
状態を代表する特徴ベクトルとともに状態の継続時間を
も有している。このようにして、数５，数６により、Ｄ
（ｉ，ｊ）を求め、最終的に類似度Ｄを累積距離Ｄ
（Ｉ，Ｊ）として求めることができる。従って、特開昭
６４−２３２９９号に開示の仕方で類似度Ｄを計算しよ
うとする場合には、標準パターン記憶部３に記憶する特
徴ベクトルに、各状態の継続時間も加えておく必要があ
る。

【００３１】このように図２の処理例では、距離ｄｅ
（ｉ，ｊ）の他に、距離の時間変化成分ｄｃ１（ｉ，
ｊ）を考慮して類似度Ｄを求め、認識処理を行なってい
るので、騒音下においても、すなわち、周囲の騒音の特
徴ベクトルが標準パタ−ンの特徴ベクトルの中の１つと
似ている場合であっても、誤認識を低減することができ
る。

【００３２】図３は他の音声認識処理例を示すフローチ
ャートである。図３において、ステップＳ１１乃至Ｓ１
３の処理およびステップＳ１６の処理は、図２のステッ
プＳ１乃至Ｓ３の処理およびステップＳ６の処理と同じ
であり、ステップＳ１４，Ｓ１５の類似度計算部４にお
ける処理だけが図２の処理と異なっている。すなわち、
図３の処理では、類似度計算部４は、数２で距離ｄｅ
（ｉ，ｊ）を求めることの他に、例えば、類似度計算を
行なっているフレームよりも１０フレーム前の距離ｄｅ
（ｉ−１０，ｊ）と、１０フレーム後の距離ｄｅ（ｉ＋
１０，ｊ）とを用いて、次式のように、距離の２つの時
間変化成分ｄｃ１（ｉ，ｊ）およびｄｃ２（ｉ，ｊ）を
求める（ステップＳ１４）。

【００３３】

【数７】ｄｃ１（ｉ，ｊ）＝ｄｅ（ｉ，ｊ）−ｄｅ（ｉ−１０，ｊ）ｄｃ２（ｉ，ｊ）＝ｄｅ（ｉ，ｊ）−ｄｅ（ｉ＋１０，ｊ）

【００３４】しかる後、３つの尺度ｄｅ（ｉ，ｊ），ｄ
ｃ１（ｉ，ｊ），ｄｃ２（ｉ，ｊ）を用いて、次式のよ
うに、入力パターンと標準パターンとの局所距離ｄ
（ｉ，ｊ）を求め（ステップＳ１５）、これに基づき、
例えば前述したと同様の仕方で類似度Ｄを求め、認識処
理を行なうことができる（ステップＳ１６）。

【００３５】

【数８】ｄ（ｉ，ｊ）＝ｄｅ（ｉ，ｊ）＋ｄｃ１（ｉ，ｊ）＋ｄｃ２（ｉ，ｊ）

【００３６】このように、図３の処理では、類似度を計
算しているフレームよりも前のフレームでの距離との差
ｄｃ１（ｉ，ｊ）の他に、後のフレームでの距離との差
ｄｃ２（ｉ，ｊ）をも考慮しているので、図２の処理に
比べ、騒音下での音声パターンの照合精度をより高め、
誤認識をより低減することができる。

【００３７】図４はさらに他の音声認識処理例を示すフ
ローチャートである。図４において、ステップＳ２１乃
至Ｓ２４の処理は図３のステップＳ１１乃至Ｓ１４の処
理と同じであり、また、ステップＳ２９乃至Ｓ３０の処
理は図３のステップＳ１５乃至Ｓ１６の処理と同じであ
って、図３のステップＳ１４の処理とステップＳ１５の
処理との間に、ステップＳ２５乃至Ｓ２８の処理が行な
われる点で、図３の処理と異なっている。すなわち、図
４の処理では、数２，数７により、ｄｅ（ｉ，ｊ），ｄ
ｃ１（ｉ，ｊ），ｄｃ２（ｉ，ｊ）の３つの尺度を求め
た後、ステップＳ２５，Ｓ２７において、ｄｃ１（ｉ，
ｊ），ｄｃ２（ｉ，ｊ）が負値であるかをそれぞれ判定
し、ｄｃ１（ｉ，ｊ），ｄｃ２（ｉ，ｊ）が負値である
ときには、ステップＳ２６，Ｓ２８でこれらを“０”に
補正した上で、距離ｄ（ｉ，ｊ）の計算を行なってい
る。

【００３８】図８（ａ），（ｂ）は、発話者が“あ”を
発声したときに図２の処理がなされる場合，図４の処理
がなされる場合のそれぞれの場合における入力パターン
と標準パターン“あ”との距離を示したものである。な
お、図８（ａ），（ｂ）において、一点鎖線ＰＲは従来
の音声確認装置における入力パターンと標準パターン
“あ”との距離を示している。図２の処理がなされる場
合には、図８（ａ）に示すように、Ａの区間（すなわち
距離の立ち下がり区間）では、従来に比べて距離を小さ
くすることができて効果的であるが、Ｂの区間（距離の
立ち上がり区間）では従来に比べて距離が大きくなり、
逆に悪影響を及ぼす。これに対し、図４の処理がなされ
る場合には、図８（ｂ）に示すように、Ｂの区間におい
て従来に比べて距離が大きくなるという悪影響を取り除
くことができる。すなわち、図４の処理がなされること
によって、図２の処理に比べて騒音下での音声パタ−ン
の照合精度をより一層向上させることができる。

【００３９】また、図５はさらに他の処理例を示すフロ
ーチャートである。図５において、ステップＳ３１乃至
Ｓ３３の処理およびステップＳ３７の処理は、図２のス
テップＳ１乃至Ｓ３の処理およびステップＳ６の処理と
同じであり、ステップＳ３４乃至Ｓ３６の類似度計算部
４における処理だけが図２の処理と異なっている。すな
わち、図５の処理では、類似度計算部４は、数２に従っ
て距離ｄｅ（ｉ，ｊ）を求めることの他に、音声が入力
されていない状態での音声入力部１からの入力信号Ｘ
（ｔ）の特徴ベクトルの平均値を求めることなどによ
り、騒音の特徴ベクトルＮ（ｆ）を求め、この騒音の特
徴ベクトルＮ（ｆ）と標準パターンの各特徴ベクトルＹ
（ｊ，ｆ）とから、次式により標準パターンの各特徴ベ
クトルごとの基準値Ｓ（ｊ）を求める（ステップＳ３
４）。

【００４０】

【数９】

【００４１】次いで、この基準値Ｓ（ｊ）と数２により
求めた距離ｄｅ（ｉ，ｊ）とから、次式により距離の時
間変化成分ｄｃ３（ｉ，ｊ）を求める（ステップＳ３
５）。

【００４２】

【数１０】ｄｃ３（ｉ，ｊ）＝ｄｅ（ｉ，ｊ）−Ｓ（ｊ）

【００４３】しかる後、２つの尺度ｄｅ（ｉ，ｊ），ｄ
ｃ３（ｉ，ｊ）を用いて、入力パターンと標準パターン
の局所距離ｄ（ｉ，ｊ）を次式により計算する（ステッ
プＳ３６）。

【００４４】

【数１１】ｄ（ｉ，ｊ）＝ｄｅ（ｉ，ｊ）＋ｄｃ３（ｉ，ｊ）

【００４５】図９（ａ）乃至（ｃ）には、図５の処理が
なされるときの具体例が示されている。なお、図９
（ａ）乃至（ｃ）は図１０（ａ）乃至（ｃ）に対応した
ものとなっている。図５の処理がなされるときには、周
囲の騒音が標準パターン“あ”，“い”のいずれにも似
ていない場合には、図９（ｂ）のように、入力パターン
は標準パターン“あ”と距離が最も小さくなり、これに
より、“あ”の発声に対して、“あ”の音声認識結果を
得ることができる。また、周囲の騒音が標準パターン
“い”に似ている場合であっても、“あ”の発声がなさ
れたときには、図９（ｃ）のように、入力パターンは標
準パターン“あ”と距離が最も小さくなり、“あ”の発
声に対して“あ”の音声認識結果を得ることができる。
このように、図５の処理においても、図２乃至図４の処
理と同様に、音声パタ−ンの照合精度を高め、誤認識を
低減することができる。但し、図５の処理は、図２乃至
図４の処理に比べて、予め基準値を定めておく必要があ
る点で複雑となる。

【００４６】また、上述各処理例において、標準パター
ン記憶部３には、認識対象語を１つ以上の状態に分け、
各状態毎に求めた特徴ベクトルＹ（ｊ，ｆ）が記憶され
ることの他に、周囲騒音の特徴ベクトルＮ（ｆ）をさら
に記憶することができる。ここで、周囲騒音の特徴ベク
トルＮ（ｆ）は、例えば音声を入力していない状態での
音声入力部１からの入力信号Ｘ（ｔ）の特徴ベクトルの
平均値として求めることができる。

【００４７】標準パターン記憶部３にこのように周囲騒
音の特徴ベクトルＮ（ｆ）がさらに記憶される場合、認
識処理部５は、類似度計算部４で求めた類似度Ｄが最小
となる認識対象語を認識結果として出力するが、周囲騒
音の類似度が一番最小になった場合は、認識結果を出力
しないような処理を行なうことができる。このように、
標準パターンに、周囲騒音の特徴ベクトルをも加えるこ
とにより、周囲騒音による装置の誤動作を低減すること
ができる。すなわち、騒音があるとき、音声のパワ−が
小さい子音や無音区間において、騒音が、発話者による
音声のものであるとして認識されてしまうことを低減す
ることができる。

【００４８】図６は本発明に係る音声認識装置の第２の
実施例のブロック図である。なお、図６において、図１
と同様の箇所には同じ符号を付している。この第２の実
施例の音声認識装置では、騒音の大小を判定する騒音大
小判定部６が設けられており、類似度計算部４は、騒音
大小判定部６で判定された騒音の大きさ（大小）に応じ
て類似度Ｄを計算するようになっている。すなわち、周
囲騒音が小さいと判定されたときには、類似度計算部４
は、距離の時間変化成分を計算せず、距離成分ｄｅ
（ｉ，ｊ）だけにより類似度Ｄを計算するようになって
いる。

【００４９】次にこのような構成の音声認識装置の動作
を図７のフローチャートを用いて説明する。なお、図７
において、ステップＳ４１乃至Ｓ４３の処理およびステ
ップＳ４８の処理は、図２のステップＳ１乃至Ｓ３およ
びステップＳ６の処理と同じであり、ステップＳ４４乃
至Ｓ４７の処理が図２の処理と異なっている。すなわ
ち、この第２の実施例の音声認識装置では、騒音大小判
定部６は、例えば、音声を入力していない状態での音声
入力部１からの入力信号Ｘ（ｔ）の２乗値の短時間平均
値を求め、この短時間平均値が予め定められている基準
値以上となったか否かにより、周囲騒音の大小を判定す
る（ステップＳ４４）。この判定の結果、騒音が大きい
と判定された場合には、図２のステップＳ４，Ｓ５と同
様の処理を行なう。すなわち、類似度計算部４は、先
づ、入力パターン生成部２で生成された特徴ベクトルＸ
（ｉ，ｆ）と、標準パターン記憶部３に記憶されている
標準パターンの特徴ベクトルＹ（ｊ，ｆ）との距離ｄｅ
（ｉ，ｊ）を数２に従って求めることの他に、類似度計
算を行なっているフレームよりも１０フレーム前の距離
ｄｅ（ｉ−１０，ｊ）を数３により求めて、距離の時間
変化成分ｄｃ１（ｉ，ｊ）を数３に従って求める（ステ
ップＳ４５）。しかる後、類似度計算部４は、この２つ
の尺度ｄｅ（ｉ，ｊ），ｄｃ１（ｉ，ｊ）を用いて、入
力パターンと標準パターンとの局所距離ｄ（ｉ，ｊ）を
数４に従って求め（ステップＳ４６）、これに基づき例
えば前述したと同様の仕方で類似度Ｄを求め、認識処理
を行なうことができる（ステップＳ４８）。

【００５０】これに対し、ステップＳ４４において、騒
音が小さいと判定された場合には、距離の時間変化成分
を計算せず、数２により求まる距離成分ｄｅ（ｉ，ｊ）
を局所距離ｄ（ｉ，ｊ）として用い（ステップＳ４
７）、これにより類似度Ｄを求め、認識処理を行なう
（ステップＳ４８）。このように、第２の実施例では、
周囲騒音が小さい場合には、距離の時間変化成分を求め
ないので、処理を高速に行なうことができる。

【００５１】なお、上記例では、騒音大小判定部６は、
音声を入力していない状態での入力信号の２乗値の短時
間平均値が、予め定めておいた基準値以上になった場合
に、周囲騒音が大きいと判定するようになっているが、
他の方法により騒音の大小を判定することも可能であ
る。

【００５２】

【発明の効果】以上に説明したように、請求項１乃至７
記載の発明によれば、標準パターンの特徴ベクトルと入
力パターンの特徴ベクトルとの距離成分を求めるだけで
なく、標準パターンの特徴ベクトルと入力パターンの特
徴ベクトルとの距離の時間変化成分をも求め、距離成分
と距離の時間変化成分とに基づき類似度を求めるように
なっているので、騒音下で、特に、周囲騒音の特徴ベク
トルが標準パターンの特徴ベクトルの中の１つと似てい
る場合においても、音声パターンの照合精度を高め、誤
認識を低減することができる。

【００５３】すなわち、請求項２記載の発明によれば、
標準パターン記憶手段に記憶されている各状態毎の特徴
ベクトルと入力パターンの類似度計算を行なっているフ
レームの特徴ベクトルとの第１の距離と、入力パターン
の類似度計算を行なっているフレームよりも前のフレー
ムの特徴ベクトルとの第２の距離との差を時間変化成分
として求めており、この時間変化成分を加味すること
で、騒音下での音声パタ−ンの照合精度を高めることが
できる。

【００５４】また、請求項３記載の発明によれば、類似
度計算を行なっているフレームよりも前のフレームの特
徴ベクトルとの距離との差の他に、さらに類似度計算を
行なっているフレームよりも後のフレームの特徴ベクト
ルとの距離との差をも考慮して距離の時間変化成分を求
めているので、騒音下での音声パタ−ンの照合精度をよ
り一層高めることができる。

【００５５】また、請求項４記載の発明によれば、入力
パターンの類似度計算を行なっているフレームよりも前
のフレームでの距離との差、あるいは、類似度計算を行
なっているフレームよりも後のフレームでの距離との差
が負値となった場合には、差の値を“０”として距離の
時間変化成分を求めているので、さらに一層音声パタ−
ンの照合精度を高めることができる。

【００５６】また、請求項５記載の発明によれば、標準
パターン記憶手段に予め記憶されている特徴ベクトルと
入力信号の特徴ベクトルとの距離の基準値を各状態毎に
予め決めておき、標準パターンの状態毎の特徴ベクトル
と入力信号の特徴ベクトルとの距離の時間変化成分を、
標準パターンの状態毎の特徴ベクトルと入力信号の特徴
ベクトルとの距離成分と前記基準値との差として求めて
おり、この時間変化成分を加味することにより、騒音下
での音声パタ−ンの照合精度を高めることができる。

【００５７】また、請求項６記載の発明によれば、標準
パターン記憶手段には、各状態毎の特徴ベクトルで構成
される標準パターンとともに、周囲騒音の標準パターン
も記憶されるので、周囲騒音が発話者による音声のもの
であるとして認識されてしまう事態を低減することがで
きる。

【００５８】また、請求項７記載の発明によれば、周囲
騒音が小さい場合には、標準パターンの状態毎の特徴ベ
クトルと入力信号の特徴ベクトルとの距離成分のみに基
づき類似度を計算し、距離の時間変化成分を求めないの
で、処理速度の低下を抑えることができる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の第１の実施例のブ
ロック図である。

【図２】図１の音声認識装置の処理動作の一例を示すフ
ローチャートである。

【図３】図１の音声認識装置の処理動作の一例を示すフ
ローチャートである。

【図４】図１の音声認識装置の処理動作の一例を示すフ
ローチャートである。

【図５】図１の音声認識装置の処理動作の一例を示すフ
ローチャートである。

【図６】本発明に係る音声認識装置の第２の実施例のブ
ロック図である。

【図７】図６の音声認識装置の処理動作の一例を示すフ
ローチャートである。

【図８】（ａ），（ｂ）は発話者が“あ”を発声したと
きに図２の処理がなされる場合，図４の処理がなされる
場合のそれぞれの場合における入力パターンと標準パタ
ーン“あ”との距離を示す図である。

【図９】（ａ）乃至（ｃ）は図５の処理がなされるとき
の具体例を示す図である。

【図１０】（ａ）乃至（ｃ）は従来の音声認識装置の処
理の具体例を示す図である。

【符号の説明】

１音声入力部２入力パタ−ン生成部３標準パターン記憶部４類似度計算部５認識処理部６騒音大小判定部

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力手段と、前記音
声入力手段より入力された入力信号を特徴ベクトルの時
系列に変換する入力パターン生成手段と、予め登録され
た音声を１つ以上の状態に分け、各状態毎の特徴ベクト
ルで構成される標準パターンを記憶する標準パターン記
憶手段と、前記入力パターン生成手段で生成された特徴
ベクトルの時系列と前記標準パターン記憶部に記憶され
ている標準パターンとの類似度を求める類似度計算手段
と、前記類似度計算手段で求めた類似度結果を用いて認
識処理を行なう認識処理手段とを有し、前記類似度計算
手段は、標準パターンの状態毎の特徴ベクトルと入力信
号の特徴ベクトルとの距離成分と、標準パターンの状態
毎の特徴ベクトルと入力信号の特徴ベクトルとの距離の
時間変化成分とを求め、距離成分と距離の時間変化成分
とに基づき類似度を求めるようになっていることを特徴
とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、
前記類似度計算手段は、標準パターン記憶手段に記憶さ
れている各状態毎の特徴ベクトルと入力パターンの類似
度計算を行なっているフレームの特徴ベクトルとの距離
を第１の距離として求め、また、標準パターン記憶手段
に記憶されている各状態毎の特徴ベクトルと入力パター
ンの類似度計算を行なっているフレームよりも前のフレ
ームの特徴ベクトルとの距離を第２の距離として求め、
標準パターンの状態毎の特徴ベクトルと入力信号の特徴
ベクトルとの距離の時間変化成分を、第１の距離と第２
の距離との差として求めることを特徴とする音声認識装
置。
【請求項３】請求項１記載の音声認識装置において、
前記類似度計算手段は、標準パターン記憶手段に記憶さ
れている各状態毎の特徴ベクトルと入力パターンの類似
度計算を行なっているフレームの特徴ベクトルとの距離
を第１の距離として求め、また、標準パターン記憶手段
に記憶されている各状態毎の特徴ベクトルと入力パター
ンの類似度計算を行なっているフレームよりも前のフレ
ームの特徴ベクトルとの距離を第２の距離として求め、
また、標準パターン記憶手段に記憶されている各状態毎
の特徴ベクトルと入力パターンの類似度計算を行なって
いるフレームよりも後のフレームの特徴ベクトルとの距
離を第３の距離として求め、前記第１の距離と第２の距
離との差をの差を第１の成分として求め、第１の距離と
第３の距離との差を第２の成分として求めて、標準パタ
ーンの状態毎の特徴ベクトルと入力信号の特徴ベクトル
との距離の時間変化成分を、第１および第２の成分に基
づき求めることを特徴とする音声認識装置。
【請求項４】請求項２または請求項３記載の音声認識
装置において、前記類似度計算手段は、入力パターンの
類似度計算を行なっているフレームよりも前のフレーム
の距離との差、あるいは、類似度計算を行なっているフ
レームよりも後のフレームの距離との差が負値となった
場合には、この差の値を“０”として距離の時間変化成
分を求めるようになっていることを特徴とする音声認識
装置。
【請求項５】請求項１記載の音声認識装置において、
類似度計算手段は、標準パターン記憶手段に予め記憶さ
れている特徴ベクトルと入力信号の特徴ベクトルとの距
離の基準値を各状態毎に予め決めておき、標準パターン
の状態毎の特徴ベクトルと入力信号の特徴ベクトルとの
距離の時間変化成分を、標準パターンの状態毎の特徴ベ
クトルと入力信号の特徴ベクトルとの距離と、前記基準
値との差として求めることを特徴とする音声認識装置。
【請求項６】請求項１記載の音声認識装置において、
標準パターン記憶手段には、各状態毎の特徴ベクトルで
構成される標準パターンとともに、周囲騒音の標準パタ
ーンも記憶されるようになっていることを特徴とする音
声認識装置。
【請求項７】請求項１記載の音声認識装置において、
周囲騒音が小さい場合には、類似度計算手段は、標準パ
ターンの状態毎の特徴ベクトルと入力信号の特徴ベクト
ルとの距離成分のみに基づき類似度を計算するようにな
っていることを特徴とする音声認識装置。