JPH10177393A

JPH10177393A - 音声認識装置

Info

Publication number: JPH10177393A
Application number: JP8339223A
Authority: JP
Inventors: Shigeki Aoshima; 滋樹青島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 1996-12-19
Filing date: 1996-12-19
Publication date: 1998-06-30

Abstract

(57)【要約】【課題】騒音下においても、パターンマッチング法を
用いて音声を確実に認識する。【解決手段】発声前の騒音区間において、入力信号の
スペクトルを算出し、騒音コードブック２２を用いて騒
音スペクトルベクトル量子化回路２０でコード化する。
コード化された騒音スペクトルは重み付け制御回路２４
に供給される。重み付け制御回路２４は、予め用意され
た騒音パターン／重み付け変換テーブル２６を参照し
て、入力騒音スペクトルコードに対応する重み付け係数
を読み出し、認識部に供給する。発声区間においては、
入力信号の特徴パターンを抽出し、音素標準パターン記
憶部３０に記憶された標準パターンとのマッチングを行
う。音素認識部２８は、パターンマッチングに際し、騒
音スペクトルに応じて読み出された重み付け係数を用い
てパターン距離を算出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識装置、特に
騒音を含む入力音声信号のパターンと予め用意された標
準パターンとのパターンマッチングにより音声を認識す
る装置に関する。

【０００２】

【従来の技術】従来より、騒音下における音声を確実に
認識するための技術が鋭意検討されており、一つの方法
として、パターンマッチングを行う際のパターン間距離
算出で周波数軸上の重み付けを行う方法がある。すなわ
ち、入力音声信号のパターンをａi、標準パターンをｂi
（ｉはチャンネル番号で周波数に対応）とした場合、通
常のパターン間距離Ｄabは、

【数１】Ｄab＝Σ｜ａi−ｂi｜・・・（１）であるところ、ｋiを重み付け係数として

【数２】Ｄab＝Σｋi｜ａi−ｂi｜・・・（２）あるいは、

【数３】Ｄab＝Σ｜ａi−ｋi・ｂi｜・・・（３）により算出するのである。但し、重み付け係数ｋiは実
験的に最適な値が設定され、例えばｋi＝（０．８、
０．９、１．０、１．２、１．０、０．９、０．８、
０．９）（但し、ｉ＝１〜８）等と設定される。これに
より、騒音下においてもパターンマッチングを確実に行
い、認識率低下を防ぐことができる。

【０００３】

【発明が解決しようとする課題】しかしながら、上記従
来技術では周波数上の重み付け係数ｋiが固定であるた
め、騒音がある範囲内のみに限定されている状況下には
有効であるものの、騒音の種類が大きく変化するような
状況下では重み付け係数ｋiが必ずしも最適値とならな
いため、パターンマッチングが精度良く実行できない問
題があった。

【０００４】なお、特開平４−２６４５９６号公報に
は、背景雑音下で入力した音声により予め作成した標準
パターンに対して、背景雑音のパワー変動を考慮した変
形を加えて入力音声信号パターンと比較することが開示
されているが、騒音のパワー変動に対する対処にとどま
り、騒音のスペクトル特性が大きく変化する環境下には
十分対処することができない問題がある。

【０００５】本発明は、上記従来技術の有する課題に鑑
みなされたものであり、その目的は、騒音の種類が種々
変化するような環境下においても、パターンマッチング
を用いて精度良く音声認識を行うことが可能な音声認識
装置を提供することにある。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、標準パターンと入力音声信号とのパター
ンマッチングにより騒音を含む入力音声信号から音声を
認識する音声認識装置であって、入力騒音のスペクトル
を算出するスペクトル算出手段と、前記パターンマッチ
ングにおける重み付け係数を前記スペクトルに基づいて
変化させる係数制御手段とを有することを特徴とする。

【０００７】

【発明の実施の形態】以下、図面に基づき本発明の実施
形態について説明する。

【０００８】図１には、本実施形態の構成ブロック図が
示されている。マイク１０からの入力音声信号は、Ａ／
Ｄコンバータ１２でデジタル信号に変換され、音響分析
部に供給される。音響分析部は、Ｌｏｇ｜ＦＦＴ｜回路
１４、特徴抽出部１６、騒音学習回路１８、騒音スペク
トルベクトル量子化（ＶＱ）回路２０、騒音コードブッ
ク２２、重み付け制御回路２４及び騒音パターン／重み
付け変換テーブル２６を有しており、発声前の騒音区間
では、Ｌｏｇ｜ＦＦＴ｜回路１４で高速フーリエ変換さ
れた信号は騒音学習回路１８に供給される。騒音学習回
路１８では、数〜数十フレーム分の騒音区間の騒音スペ
クトルの平均を算出して騒音スペクトルベクトル量子化
（ＶＱ）回路２０に出力する。騒音スペクトルベクトル
量子化（ＶＱ）回路２０は、予めスペクトルエンベロー
プ毎に対応するコードが用意された騒音コードブック２
２を用いて入力された騒音スペクトルをコード化するも
のであり、コード化された騒音スペクトル（騒音スペク
トルコード）は重み付け制御回路２４に供給される。重
み付け制御回路２４は、予め用意された騒音パターン／
重み付け変換テーブル２６を参照して入力騒音スペクト
ルコードに対応する重み付け係数を読み出す。騒音パタ
ーン／重み付け変換テーブル２６は、音声認識を実行す
る前に予め複数の騒音サンプルについて、その騒音スペ
クトルコードと最適重み付け係数との関係を求めてテー
ブルとしたものである。一方、発声区間では、Ｌｏｇ｜
ＦＦＴ｜回路１４からの信号は特徴抽出部１６に供給さ
れてその特徴パターンが抽出され、認識部に供給され
る。

【０００９】認識部は、音素認識部２８、音素標準パタ
ーン記憶部３０、単語認識部３２及び単語辞書３４を含
んで構成されており、音素認識部２８で特徴抽出部１６
からの信号パターンａiと音素標準パターン記憶部３０
に予め記憶された標準パターンｂiとのパターンマッチ
ングを行って音素を認識する。この際、パターン間距離
は、

【数４】Ｄab＝Σｃi｜ａi−ｂi｜・・・（４）により算出される。但し、重み付け係数ｃiは、重み付
け係数制御回路２４が入力騒音スペクトルコードに応じ
て変換テーブル２６から読み出したものである。上述し
たように、この重み付け係数ｃiは従来のように固定で
はなく騒音スペクトルに応じて決定されるものであり、
これにより騒音スペクトルの変化にも対応することがで
きる。音素認識部２８で認識された音素、すなわちパタ
ーン間距離が最も小さい音素パターンは単語認識部３２
に順次供給され、単語辞書３４に格納された単語と比較
することで単語認識を行う。

【００１０】図２及び図３には、騒音パターン／重み付
け変換テーブル２６の内容が模式的に示されている。両
図において、（ａ）は騒音パターン（騒音スペクトル）
を示し、（ｂ）は対応する重み付け係数を示している。
図２は低域成分にピークがある騒音の場合で、（ｂ）に
示すように重み付け係数ｃiは低域では相対的に小さ
く、高域では相対的に大きくなるように設定される。こ
れは、マイク１０からの入力音声信号の低域に騒音が多
く含まれているため、パターン間距離の計算において低
域成分の距離に比べて高域成分の距離をより重視するこ
とを意味する。また、図３は低域成分及び高域成分にピ
ークがある騒音の場合で、（ｂ）に示すように重み付け
係数ｃiは騒音の少ない中域において相対的に大きく、
低域及び高域では相対的に小さく設定される。これも、
騒音の影響が大きい低域及び高域のパターン間距離に比
べて中域のパターン間距離を重視するためである。な
お、図３において、騒音スペクトルのピークレベルが低
域と高域でほとんど同一であるにもかかわらず重み付け
係数ｃiは低域の方が高域よりも大きく設定されている
のは、音声認識にとって重要な情報は低域成分（１ｋＨ
ｚ以下）に多く含まれていることに鑑みたものである。
図２及び図３を参照することで、本実施形態におけるパ
ターンマッチング処理が、騒音スペクトルの変化に応じ
て動的に変化することが理解されよう。

【００１１】図４には、本実施形態の処理フローチャー
トが示されている。まず、マイク１０から入力した信号
を所定の時間窓（例えば２０〜３０ｍｓ）で切り出し
（Ｓ１０１）、騒音区間であるか否か、すなわち発声前
の区間であるか否かを判定する（Ｓ１０２）。騒音区間
である場合には、入力騒音信号のＬｏｇ｜ＦＦＴ｜を演
算してスペクトルを算出し（Ｓ１０３）、数〜数十フレ
ームの平均を算出する（騒音スペクトルの学習）（Ｓ１
０４）。そして、予め用意されたコードブックを参照し
て騒音スペクトルをベクトル量子化し（Ｓ１０５）、変
換テーブルを用いてコード化された騒音スペクトルに対
応する重み付け係数ｃiを決定する（Ｓ１０６）。従っ
て、この重み付け係数ｃiは、発声直前の騒音の種類が
変化した場合には、それに伴って変化することになる。
一方、騒音区間が終了して発声区間に入った場合には
（Ｓ１０２でＮＯ）、入力音声信号（騒音を含む）の特
徴パターンと予め用意された標準パターンとのパターン
マッチングにより音素を認識する（Ｓ１０７）。この
際、上述したように重み付け係数ｃiを用いた重み付け
パターン間距離Ｄabが演算される。そして、認識された
音素に基づいて単語を認識する（Ｓ１０８）。

【００１２】このように、本実施形態では、パターン間
距離を算出する際の重み付け係数を騒音スペクトルに応
じて変化させるので、騒音が種々変化する環境下におい
ても安定した音声認識率を得ることができる。

【００１３】なお、本実施形態では、（４）式を用いて
パターン間距離を算出したが、もちろん

【数５】Ｄab＝Σ｜ａi−ｃi・ｂi｜・・・（５）により算出することもできる。

【００１４】また、図２及び図３に示された騒音パター
ンと重み付け係数との対応関係も一例に過ぎず、実験に
より最適の関係を見いだせば良い。

【００１５】

【発明の効果】以上説明したように、本発明によれば、
騒音の種類が種々変化するような環境下においても、パ
ターンマッチングを用いて精度良く音声認識を行うこと
ができる。従って、特に車両などの移動体に搭載する音
声認識システムに好適である。

【図面の簡単な説明】

【図１】本発明の実施形態の構成ブロック図である。

【図２】騒音パターン（スペクトル）と重み付け係数
との関係を示す説明図である。

【図３】他の騒音パターン（スペクトル）と重み付け
係数との関係を示す説明図である。

【図４】実施形態の処理フローチャートである。

【符号の説明】

１０マイク、１２Ａ／Ｄコンバータ、１４Ｌｏｇ
｜ＦＦＴ｜回路、１６特徴抽出部、１８騒音学習回
路、２０騒音スペクトルベクトル量子化回路、２２
騒音コードブック、２４重み付け係数制御回路、２６
騒音パターン／重み付け変換テーブル、２８音素認
識部、３０音素標準パターン記憶部、３２単語認識
部、３４単語辞書。

Claims

【特許請求の範囲】

【請求項１】標準パターンと入力音声信号とのパター
ンマッチングにより騒音を含む入力音声信号から音声を
認識する音声認識装置であって、入力騒音のスペクトルを算出するスペクトル算出手段
と、前記パターンマッチングにおける重み付け係数を前記ス
ペクトルに基づいて変化させる係数制御手段と、を有することを特徴とする音声認識装置。