JP2701431B2

JP2701431B2 - 音声認識装置

Info

Publication number: JP2701431B2
Application number: JP1053200A
Authority: JP
Inventors: 公治清水; 晴康山岡; 邦一鈴木; 一雄中村; 豊宇尾野; 博重浅田
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1989-03-06
Filing date: 1989-03-06
Publication date: 1998-01-21
Anticipated expiration: 2013-01-21
Also published as: JPH02232697A

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、音声情報を判定する音声認識装置に関し、
特に、非定常騒音の多い環境下における音声認識装置に
関する。

［従来の技術］従来より、キーワードとなる操作者の発声する音声信
号と、登録済みの音声信号との類似度により、音声信号
を認識して、各種機器の運転を制御する音声認識装置が
知られている。そして、音声認識装置の用いられる周囲
の環境からの騒音によって、例えば、空気調和装置に音
声認識装置を組み込んだ場合に、空気調和装置の持つ騒
音、振動音、及びその他の外部の騒音によって、音声の
誤認識を起こす場合があり、その対策が取られている。

例えば、空気調和装置の運転中には、音声信号を第５
図に示すような低周波帯域をカットする特性を有する騒
音カットフィルタを通すことによって、騒音の信号を減
衰させている。その結果、第６図に示すような低周波数
の空気調和装置の発生する騒音あるいは外部の騒音を第
７図に示すように減衰することができる。そして、騒音
カットフィルタを通した音声信号から特徴データを抽出
し、予め記憶された標準データとを比較して、そのマッ
チングによって音声情報を判定し、空気調和装置等を制
御していた。

［発明が解決しようとする課題］しかしながら、こうした従来の音声認識装置では、入
力される音声信号を騒音カットフィルタにより処理する
ので、騒音を低減することはできるが、騒音の低減と共
に音声信号の一部までをも減衰してしまう場合があっ
た。例えば、音声信号として、母音「あ」が入力された
場合には、第８図に示すような周波数成分の音声信号が
マイクロフォンから出力される。そして、この音声信号
を前述した特性を有する騒音カットフィルタにより処理
すると、音声を特徴付けるホルマント周波数の内、低周
波数の第１、第２ホルマント等を第８図に示す斜線の如
く減衰させてしまい、そのスペクトルのピークを欠落さ
せてしまう。その為、フィルタ処理後の特徴抽出の際
に、音声信号の内、認識時最も重要となる特徴量を減少
させることとなってしまい、認識率の低下を招くという
問題があった。

そこで本発明は上記の課題を解決することを目的と
し、騒音を減衰させるフィルタの影響を受けることなく
音声信号の特徴を抽出し、認識率の向上を図った音声認
識装置を提供することにある。

［課題を解決するための手段］かかる目的を達成すべく、本発明は課題を解決するた
めの手段として次の構成を取った。即ち、音声に応じた標準データを予め記憶する音声記憶手段
を有し、前記標準データとマイクロフォンから入力され
る音声信号に応じた特徴データとを比較する比較手段を
備えた音声認識装置において、人間の聴感特性に合致あるいは近似の補正特性に基づ
いて、前記音声信号の内の騒音成分を多く含む周波数帯
域を減衰して出力する騒音カットフィルタと、該騒音カットフィルタからの信号により音声区間を検
出する音声区間検出手段と、前記マイクロフォンからの音声信号の内、前記音声区
間に応じた前記音声信号から特徴データを抽出して前記
比較手段に出力する音響分析手段と、を備えたことを特徴とする音声認識装置の構成がそれ
である。

［作用］前記構成を有する音声認識装置は、騒音カットフィル
タが、人間の聴感特性に合致あるいは近似の補正特性に
基づいて、音声信号の内の騒音成分を多く含む周波数帯
域を減衰して出力し、音声区間検出手段が、騒音カット
フィルタからの信号により音声区間を検出する。そし
て、音響分析手段が、マイクロフォンからの音声信号の
内、音声区間に応じた音声信号から特徴データを抽出し
て比較手段に出力し、比較手段が音声記憶手段に記憶さ
れた標準データと前記特徴データとを比較する。よっ
て、騒音カットフィルタを通すことなく入力された音声
信号から特徴データを抽出でき、この特徴データに基づ
いて音声の認識ができるので認識率が向上する。

［実施例］以下本発明の実施例を図面に基づいて詳細に説明す
る。

第１図は本発明の一実施例である音声認識装置の概略
構成図である。１は周知のマイクロフォンであり、操作
者の発した音声を電気信号に変換し音声信号として出力
するものである。このマイクロフォン１は、騒音カット
フィルタ２と、バンドパスフィルタ４とにそれぞれ接続
されている。騒音カットフィルタ２は、マイクロフォン
１から入力される騒音を含んだ音声信号から騒音成分を
含んでいる周波数帯域を減衰させるものである。本実施
例では、第２図に示すような低周波数と高周波数の領域
の音声を大きく減衰させ2kHz〜4kHz付近で最も感度が高
い、人間の聴感特性に合致した補正特性を有するもので
ある。

あるいは、このような聴感補正特性を有するもの以外
でも、その環境により、騒音のスペクトル成分に高い周
波数成分が多い場合には、騒音カットフィルタとしてハ
イカットフィルタを用いればよい。又、第６図に示すよ
うな低周波成分を多く含む騒音特性を有する環境下にお
かれている場合には、その環境に応じて第５図に示すよ
うな低周波成分を減衰させる周波数特性を有するもので
あってもよい。若しくは、騒音が特定の中域に集中して
いる場合には、騒音カットフィルタとして中域カットフ
ィルタを用いればよい。更には、プログラムによってそ
の特性を変えることができる自由度の大きなディジタル
フィルタを用い、周囲の騒音状態等によって、その特性
を切り換える構成としてもよい。尚、フィルタの減衰率
等の特性を強く設定し過ぎると、騒音はより減衰させら
れるが、同時に純粋な音声信号も減衰させられてしま
う。又、特性を弱くすると騒音の減衰が弱く、後述する
音声区間の検出に影響がでる。

そして、もう一方のバンドパスフィルタ４は、マイク
ロフォン１から入力される騒音を含んだ音声信号を、音
声帯域、例えばおおよそ200Hz〜4KHzの周波数帯域以外
の成分をカットするものである。このフィルタとして、
ディジタルフィルタを用いてもよい。

前記騒音カットフィルタ２は、音声区間検出部６に接
続されており、この音声区間検出部６は、騒音カットフ
ィルタ２から出力された音声信号のパワー情報と予め設
定された所定のしきい値とを比較し、音声区間の始端と
終端を検出し、しきい値のレベルより高いときは音声区
間として、低いときは無音区間として出力するものであ
る。このしきい値は、固定した１つだけでもよいが、複
数のしきい値や周囲の騒音に合わせてしきい値を可変に
してもよい。また、音声スペクトルの傾きやピッチ情報
などと併せて、音声区間を検出するものであってもよ
い。この音声区間検出部６は、前記バンドパスフィルタ
４と共に音響分析部８に接続されており、音響分析部８
には、バンドパスフィルタ４を通った音声帯域の音声信
号と、音声区間信号とが入力される。尚、騒音カットフ
ィルタ２を通過した信号によって音声区間を検出するだ
けでなく、この信号に基づいて図示しないアンプのゲイ
ンをコントロールするようにしてもよい。入力信号が大
きければアンプのゲインを下げ、小さければアンプのゲ
インを上げることによって、音声信号のダイナミックレ
ンジを大きくすることができる。この時、基準となる信
号に騒音成分が多く含まれていると正確なゲインコント
ロールは不可能であり、騒音カットフィルタ２により騒
音成分をカットした信号を基準にすることにより、より
正確なゲインコントロールが可能となる。

この音響分析部８は、入力された音声区間信号に基づ
いて、その音声区間内のバンドパスフィルタ４を通った
音声帯域の音声信号のスペクトルを分析し、音声の特徴
を表す特徴パラメータを抽出するものである。この抽出
に当たっては、例えば、周知の高速フーリエ変換（FF
T）、バンドパスフィルタバンクや、線形予測分析など
により一定周期毎に、入力された音声区間内の音声信号
から特徴パラメータを抽出して、特徴ベクトルの時系列
として出力するものである。尚、音響分析部８におい
て、更に、騒音成分を低減するような処理を行って音声
信号の分析をするようにしてもよい。

この音響分析部８は、切換スイッチ10を介して、音声
記憶部12若しくは音声比較部14に選択的に接続できるよ
うになされている。前記音声記憶部12は、抽出された特
徴データ、例えば、ベクトルの時系列を標準データとし
て記憶するものである。そして、前記音声比較部14は、
この音声記憶部12に記憶された標準データと、切換スイ
ッチ10を介して入力される特徴データとを比較し、その
類似度を計算して出力するものである。この音声比較部
14は、判定部16に接続されており、判定部16は、音声比
較部14からの類似度に応じてそれと最も似通ったかつ予
め決められた一定の条件を満たした場合に、それに対応
した信号を出力するものである。この信号は出力端子18
から出力されるようになされており、この出力端子18に
接続された他の機器20、例えば空気調和装置を制御する
ようになされている。

次に、本実施例の作動について説明する。

まず、操作者が音声を発声すると、例えば「うんて
ん」と発声すると、それがマイクロフォン１によって捨
われて、電気信号に変換されて音声信号として出力され
る。この時、マイクロフォン１によって、発声された音
声の前後での音声以外の外部からの騒音も入力され、第
３図に示すような騒音が重畳された音声信号が出力され
る。

この出力される音声信号は、それぞれ騒音カットフィ
ルタ２とバンドパスフィルタ４とに入力される。騒音カ
ットフィルタ２に入力された音声信号は、第４図に示す
如く音声信号に重畳された騒音成分を減衰させられ音声
区間検出部６に出力される。音声区間検出部６では、入
力された音声信号のパワー情報と所定のしきい値とを比
較して、このしきい値より低い区間は無音区間と判定
し、しきい値よりも高い区間は音声区間と判定し、音声
区間信号を温厚分析部８に出力する。尚、騒音カットフ
ィルタ２に人間の聴感補正特性に合致した特性をもた
せ、人間の感覚に似た分析を行って、理想的な音声認識
の分析とすることができる。

一方、バンドパスフィルタ４は、入力された音声信号
を音声帯域以外を減衰させて音響分析部８に出力する。
音響分析部８では、このバンドパスフィルタ４からの出
力された音声信号と、音声区間検出部６からの音声区間
信号とから、音声区間内の音声信号を分析して特徴デー
タを抽出する。即ち、操作者によって音声を発声された
区間の音声信号のみに基づいて特徴データを抽出し、そ
れ以外の区間は、騒音であるとして特徴データを抽出す
る処理を行わない。

そして、切換スイッチ10が音声記憶部12側に切り換え
られているときには、前記音響分析部８から出力される
特徴データを標準データとして音声記憶部12に記憶す
る。こうして、音声記憶部12には、特定話者が発声した
単語や短文等の音声の特徴データ、例えば、音声が「う
んてん」である場合にはその特徴データが標準データと
して記憶される。

切換スイッチ10が音声比較部14側に切り換えられてい
るときには、前記音響分析部８から出力される特徴デー
タと、前記音声記憶部12に記憶された標準データとが、
音声比較部14が比較される。そして、音声比較部14で
は、特徴データと標準との類似度を計算して出力する。
判定部16では、この音声比較部14から出力される類似度
に基づいて操作者が発した音声が何であるかを判断し、
その発声した音声に応じた信号を出力する。そして、出
力端子18を介して、その信号を他の機器20に出力する。

例えば、空気調和装置に用いた場合には、その発声が
「うんてん」である場合には、空気調和装置の運転を開
始する信号を出力する。あるいはその発声に応じた信号
を出力して、設定温度を上げたりする制御を実行する。

尚、本実施例では、特定話者の音声認識を例にした
が、不特定話者の音声認識であっても同様に実施可能で
ある。

前述した如く、本実施例の音声認識装置は、騒音カッ
トフィルタ２により騒音を減衰し、音声区間検出部６が
その音声信号に基づいて音声区間を検出する。そして、
この音声区間と騒音カットフィルタ２を通らない音声信
号とに基づいて音響分析部８が特徴データを抽出する。
切換スイッチ10を切り換えて、この特徴データを標準デ
ータとして音声記憶部12に記憶し、又、音声比較部14に
よって、特徴データと標準データとを比較する。

従って、音響分析部８においては、騒音カットフィル
タ２を通らない音声信号から特徴データを抽出する。よ
って、騒音カットフィルタ２により音声成分までおも減
衰された音声信号からの音声の特等データの抽出ではな
く、減衰されていない音声信号から適正に特徴データを
抽出することができる。これにより、的確に音声の特徴
を掴むことができ、音声比較部14で特徴データと標準デ
ータとの類似度の計算精度が向上し、音声の認識率が向
上する。

又、騒音が発声音声にオーバラップしていても、騒音
カットフィルタにより騒音成分を減衰させた信号から音
声区間検出を実行することで、精度よく音声区間検出を
行うことが可能である。従来は、発声音声の音声区間に
騒音が重なって、音声区間が広く取られ、これによっ
て、特徴データを抽出していたので、認識エラーを引き
起こす場合があったが、適正に音声区間を検出すること
によって、認識率の向上を図ることができる。

以上本発明はこの様な実施例に何等限定されるもので
はなく、本発明の要旨を逸脱しない範囲において種々な
る態様で実施し得る。

［発明の効果］以上詳述したように本発明の音声認識装置は、騒音カ
ットフィルタにより騒音成分を含んだ入力音声から騒音
成分を、入力音声信号の全周波数帯のうち、音声信号が
含まれる周波数帯においては低レベルで減算され、低周
波数帯及び高周波数帯といった音声信号が含まれない周
波数帯においては高レベルで減算されるという、人間の
聴感特性に合致あるいは近似の補正特性に基づいて減衰
させ、音声区間を精度よく判断し、かつ、音響分析部で
は、音声区間に応じてマイクロフォンからの音声信号か
ら特徴データを抽出するので音声情報を何ら欠落させる
ことなく入力して分析することができる。従って、音声
信号の内、認識時に最も重要となる特徴量を減衰させる
ことなく、音響分析部に音声情報を入力して分析するこ
とを可能とし、騒音が大きい環境、特に非定常的な騒音
の多い環境での認識性能向上にすぐれた効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例としての音声認識装置の概略
構成図、第２図は聴感補正特性を有する騒音カットフィ
ルタの特性を示すグラフ、第３図はマイクロフォンから
の音声信号を示すグラフ、第４図は騒音カットフィルタ
により処理した信号のグラフ、第５図はローカットフィ
ルタの特性を示すグラフ、第６図は低域に集中した騒音
のレベルを示すグラフ、第７図はローカットフィルタに
より第６図の騒音を処理したレベルのグラフ、第８図は
ホルマント周波数を説明するグラフである。１……マイクロフォン２……騒音カットフィルタ６……音声区間検出部、８……音響分析部 12……音声記憶部、14……音声比較部

フロントページの続き (72)発明者中村一雄愛知県刈谷市昭和町１丁目１番地日本電装株式会社内 (72)発明者宇尾野豊愛知県刈谷市昭和町１丁目１番地日本電装株式会社内 (72)発明者浅田博重愛知県刈谷市昭和町１丁目１番地日本電装株式会社内 (56)参考文献特開昭60−254100（ＪＰ，Ａ) 特開昭59−195291（ＪＰ，Ａ) 特公昭63−67199（ＪＰ，Ｂ２)

Claims

(57)【特許請求の範囲】

【請求項１】音声に応じた標準データを予め記憶する音
声記憶手段を有し、前記標準データとマイクロフォンか
ら入力される音声信号に応じた特徴データとを比較する
比較手段を備えた音声認識装置において、人間の聴感特性に合致あるいは近似の補正特性に基づい
て、前記音声信号の内の騒音成分を多く含む周波数帯域
を減衰して出力する騒音カットフィルタと、該騒音カットフィルタからの信号により音声区間を検出
する音声区間検出手段と、前記マイクロフォンからの音声信号の内、前記音声区間
に応じた前記音声信号から特徴データを抽出して前記比
較手段に出力する音響分析手段と、を備えたことを特徴とする音声認識装置。