JP3342740B2

JP3342740B2 - 雑音環境下で使用する音声認識装置

Info

Publication number: JP3342740B2
Application number: JP11091093A
Authority: JP
Inventors: 弘文矢島
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 1993-04-14
Filing date: 1993-04-14
Publication date: 2002-11-11
Anticipated expiration: 2017-11-11
Also published as: JPH06301398A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置とりわけ
雑音環境下で使用する音声認識装置に関するものであ
る。

【０００２】

【従来の技術】従来、雑音環境下で使用する音声認識装
置には、スピーカから出力される音が雑音成分である環
境下で、スピーカのライン信号をリファレンス信号と
し、発声音声つまり認識させることを目的とした音声
と、前記スピーカからの雑音が混合されたマイク入力信
号をメイン信号とし、前記メイン信号から前記リファレ
ンス信号を引き去ることで雑音成分を除去する、ツイン
フィルタバンク・サブトラクション法が使用されてい
る。

【０００３】例えば図１５に示す、従来の音声認識装置
２００の構成例では、メイン信号処理手段２１０におい
て、マイク２１１の検出した音声をアンプ２１２で増幅
後、音声周波数帯域において複数個の異なる狭帯域バン
ドパスフィルタ（チャネルｊとして表示）で構成される
フィルタバンク２１３にて周波数分割後、ＡＤ変換器２
１４でデジタル信号となし、これをメイン信号ｍｊ（ｊ
はチャネルナンバー）として制御手段２０１に入力す
る。

【０００４】一方、既知定常雑音はリファレンス信号処
理手段２２０において、スピーカ２２１のライン信号と
して検出され、アンプ２２２で増幅後、音声周波数帯域
において複数個の異なる狭帯域バンドパスフィルタ（チ
ャネルｊとして表示）で構成されるフィルタバンク２２
３にて周波数分割後、ＡＤ変換器２２４でデジタル信号
となし、これをリファレンス信号ｒｊ（ｊはチャネルナ
ンバー）として制御手段２０１に入力する。

【０００５】制御手段２０１は、メイン信号ｍｊが基準
音声データであればデータ認識手段２３０の音声データ
部２３２に登録する。メイン信号ｍｊが認識すべき音声
データであれば、サブトラクション手段２０２にリファ
レンス信号ｒｊとともに送出する。ここでサブトラクシ
ョン手段２０２は、（数１）に基づきメイン信号ｍｊか
らリファレンス信号ｒｊを引き去ることによって、既知
雑音分を除去する。

【数１】ｍｊは、サブトラクション前のメイン信号（ｊチャネ
ル）ｍ’ｊは、サブトラクション後のメイン信号（ｊチ
ャネル）ｒｊは、リファレンス信号（ｊチャネル）αｊ
は、各チャネル毎にメイン信号のレベルとリファレンス
信号のレベルとを調整するための補正係数

【０００６】補正係数αｊは非音声区間において適応的
に最適値が計算される。例えばＮフレームのデータの最
小２乗誤差を極小にするよう、各チャネル毎にαｊが決
定される。つまり、音声区間ではサブトラクション後の
メイン信号が音声信号のみとなり、雑音成分が払拭され
るよう、各チャネル毎にαｊを決定する。

【０００７】図１６は処理過程の信号波形を示し、実線
は処理前のメイン信号ｍｊを、破線はα・ｒｊ波形を示
す。さらに図１７は処理済波形を示す。破線はサブトラ
クション後のメイン信号ｍ’ｊである。

【０００８】

【発明が解決しようとする課題】しかし、従来のツイン
フィルタバンク・サブトラクション法を用いた既知雑音
環境下の音声認識装置では発声音声のない時、音声処理
後のリファレンス信号のレベルを適応的にメイン信号と
調整することにより両信号間の伝送特性差の補正を行う
際、リファレンス信号がメイン信号に比して非常に小さ
い場合や、逆にダイナミックレンジを越える程大きい場
合には適切なレベル調整が困難になるという問題があっ
た。

【０００９】また、従来の２入力サブトラクション法に
よる既知雑音環境下の音声認識装置では、未知雑音成分
がメイン信号（マイクから入力される信号）に混入した
場合、未知雑音成分が予測できないゆえに認識率が低下
するという問題があった。

【００１０】本発明はこのような問題や欠点を解決する
ためになされたもので、その目的は既知雑音源のリファ
レンス信号のレベルならびにメイン信号のレベルの影響
を受けることがなく認識率向上が可能な、また未知定常
雑音が存在する環境下においての認識率向上が可能な音
声認識装置を提供することにある。

【００１１】

【課題を解決するための手段】前記課題を解決するため
この発明の第１の構成は、基準となる基準音声又は認識
すべき音声を受けて基準音声データ又は認識用音声デー
タをメイン信号として生成するメイン信号処理手段と、
スピーカからの雑音成分にて構成されるライン信号を受
けてリファレンス信号を生成するリファレンス信号処理
手段と、前記メイン信号から前記リファレンス信号を引
き去ることにて雑音成分を除去するサブトラクション手
段と、前記基準音声データを登録音声データとして登録
し、前記認識用音声データを前記登録音声データと比較
照合して音声認識を行うデータ認識手段と、前記各手段
への信号及びデータの授受を制御する制御手段を備え
た、ツインフィルタバンク・サブトラクション法による
音声認識装置において、前記リファレンス信号処理手段
にゲイン調整可能なプログラマブル・ゲインアンプを設
け、前記プログラマブル・ゲインアンプのゲインを調整
して、前記メイン信号とリファレンス信号とのアナログ
信号の段階におけるアナログマッチングを実行するゲイ
ン決定手段を備えたことを特徴とする。

【００１２】また、第２の構成は、前記アナログマッチ
ングに使用するファジイ推論のためのメンバーシップ関
数を格納したメンバーシップ関数メモリと、前記メンバ
ーシップ関数を使用して、メイン信号のレベルに基づき
ファジイ的手法によりアナログマッチングの調整を実行
するゲイン決定手段とを備えたことを特徴とする。

【００１３】本発明の第３の構成は、基準となる基準音
声又は認識すべき音声を受けて基準音声データ又は認識
用音声データをメイン信号として生成するメイン信号処
理手段と、スピーカからの雑音成分にて構成されるライ
ン信号を受けてリファレンス信号を生成するリファレン
ス信号処理手段と、前記メイン信号から前記リファレン
ス信号を引き去ることにて雑音成分を除去するサブトラ
クション手段と、前記基準音声データを登録音声データ
として登録し、前記認識用音声データを前記登録音声デ
ータと比較照合して音声認識を行うデータ認識手段と、
前記各手段への信号及びデータの授受を制御する制御手
段を備えた、ツインフィルタバンク・サブトラクション
法による音声認識装置において、フレーム毎のデータの
差分をとることにより未知定常雑音分を除去する差分演
算手段を備えたことを特徴とする。

【００１４】

【作用】第１の構成による音声認識装置では、ツインフ
ィルタバンク・サブトラクション法について、ゲイン決
定手段がプログラマブル・ゲインアンプを制御して、ア
ナログ信号の段階でメイン信号とリファレンス信号のレ
ベルをマッチングさせる（アナログマッチング）。この
結果、既知雑音のリファレンス信号のレベルの影響を受
けることがなくなり、認識率が改善される。

【００１５】第２の構成による音声認識装置では、ツイ
ンフィルタバンク・サブトラクション法におけるアナロ
グマッチングの際に、メイン信号のレベルに応じてファ
ジイ的手法によりゲイン決定手段がプログラマブル・ゲ
インアンプを制御してマッチングの程度を変化させて調
整する。この結果、メイン信号レベルが低い場合にも正
確なサブトラクションが実行され、またメイン信号レベ
ルが高い場合にも歪の影響を受けないサブトラクション
が実行される。

【００１６】第３の構成による音声認識装置では、差分
演算手段が算出したフレーム毎の差分データに基づき、
未知定常雑音成分をキャンセルしたのちに音声認識を行
う。この結果、未知定常雑音が存在する環境下において
の認識率が改善される。

【００１７】

【実施例】以下、この発明の第１乃至第３の実施例を添
付図面に基づいて説明する。図１は第１の実施例の概略
ブロック図を示す。図１における音声認識装置１は、音
声を音声信号に変換するマイク２１、音声信号を増幅す
るアンプ２２、音声信号を周波数分割して複数の音声信
号を生成するフィルタバンク２３、音声信号をデジタル
信号の音声データに変換してメイン信号となすＡＤ変換
器２４からなるメイン信号処理手段２を備える。

【００１８】また、既知定常雑音をライン信号として発
生させるスピーカ３１、ゲインが調整可能なプログラマ
ブル・ゲインアンプ３２、ライン信号を周波数分割して
複数のアナログ信号となすフィルタバンク３３、前記ア
ナログ信号をデジタル信号に変換してリファレンス信号
となすＡＤ変換器３４からなるリファレンス信号処理手
段３を備える。

【００１９】さらに、パターンマッチング方式による音
声認識を実行する音声認識部４１と基準音声データＰｊ
を格納した音声データ部４２からなるデータ認識手段
４、前記メイン信号から前記リファレンス信号をサブト
ラクトして雑音成分をキャンセルするサブトラクション
手段７、前記プログラマブル・ゲインアンプ３２のゲイ
ン調整のためのゲイン決定手段６、前記各手段との信号
ならびにデータの授受を司る制御手段５を、それぞれ備
える。

【００２０】図２に、サブトラクション手段７の実行す
るフローチャートを示す。ｊはチャネルナンバーを表
す。調整のための補正係数αの最適値の設定は、ステッ
プＳ１で初期値１にて開始し、非音声区間の時（ステッ
プＳ３）に最小２乗誤差算出（ステップＳ６〜Ｓ７）し
てループを実行する。

【００２１】音声区間が開始になると（ステップＳ
３）、サブトラクションを実行（ステップＳ４）して既
知雑音成分をキャンセルする。サブトラクション結果の
メイン信号ｍ’ｊが信号７ａとして音声認識部４１に出
力される（ステップＳ５）。

【００２２】プログラマブル・ゲインアンプ３２の回路
構成を図４に示す。アナログスイッチ３２１はＯＰアン
プ３２３のゲイン切り換えを司るもので、ゲイン決定手
段６からのコントロール信号６ａにて制御される。また
アナログスイッチ３２２は、アナログスイッチ３２１の
オン抵抗補償用の回路である。

【００２３】ゲイン決定手段６の処理フローチャート図
３に基づき、ゲイン決定手段６の機能を説明する。ステ
ップＳ３１にて、利用者に最大許容オ−ディオ音を出力
させる（βを最大値に設定）。これは、最大許容値から
スタートして収束をかけていく方式である。

【００２４】最大許容オ−ディオ音にてメイン信号とリ
ファレンス信号をＮフレーム分取り込み（ステップＳ３
２）、最小２乗誤差を（数２）に基づき計算する（ステ
ップＳ３３）。

【数２】

【００２５】（数２）の式が最小を実現する値をもっ
て、求めるゲインとする（ステップＳ３５、Ｓ３８）。
ステップＳ３３ではｒｉｊの最大値も計算し、これがダ
イナミックレンジの最大値以下でないならば（ステップ
Ｓ３４）、ゲインを１段下げて再度試みる（ステップＳ
３７）。

【００２６】前記のゲイン決定の結果、アナログ信号の
レベルでメイン信号とリファレンス信号とのマッチング
が可能となり、既知雑音源のリファレンス信号のレベル
の大小により認識率が左右されることがない。よって、
補正前のリファレンス信号がメイン信号に比して非常に
小さい場合の、雑音成分キャンセル不十分による認識率
の低下や、逆にリファレンス信号が非常に大きい場合
の、歪による雑音成分キャンセル不備が解消される。

【００２７】図５はゲイン決定手段非動作時の波形比較
図を、図６はゲイン決定手段動作時の波形比較図を、ま
た図７はサブトラクション手段の出力波形比較図を、夫
々示す。図７において顕著な効果が現われている。

【００２８】図８は第２の実施例による音声認識装置の
概略ブロック図を示す。図８における音声認識装置５０
は、音声を音声信号に変換するマイク６１、音声信号を
増幅するアンプ６２、音声信号を周波数分割して複数の
音声信号を生成するフィルタバンク６３、音声信号をデ
ジタル信号の音声データに変換してメイン信号となすＡ
Ｄ変換器６４からなるメイン信号処理手段６０を備え
る。

【００２９】また、既知定常雑音をライン信号として発
生させるスピーカ７１、ゲインが調整可能なプログラマ
ブル・ゲインアンプ７２、ライン信号を周波数分割して
複数のアナログ信号となすフィルタバンク７３、前記ア
ナログ信号をデジタル信号に変換してリファレンス信号
となすＡＤ変換器７４からなるリファレンス信号処理手
段７０を備える。

【００３０】さらに、パターンマッチング方式による音
声認識を実行する音声認識部８１と基準音声データＰｊ
を格納した音声データ部８２からなるデータ認識手段８
０、前記メイン信号から前記リファレンス信号をサブト
ラクトして雑音成分をキャンセルするサブトラクション
手段５２、前記各手段との信号ならびにデータの授受を
司る制御手段５１、前記プログラマブル・ゲインアンプ
７２のゲイン調整のためのゲイン決定手段５３、ファジ
イ推論のためのメンバーシップ関数を格納するメンバー
シップ関数メモリ５４を、それぞれ備える。

【００３１】図９および図１０のフローチャートに基づ
き、サブトラクション手段５２とゲイン決定手段５３の
動作を説明する。図９のステップＳ９３にて非音声区間
が選択されると、サブトラクション手段５２はメイン信
号ｍｊとリファレンス信号ｒｊをＮフレーム分、取り込
む。ついでゲイン決定手段５３がプログラマブル・ゲイ
ンアンプ７２のゲインを初期値βに設定し（ステップＳ
１０１）、メイン信号の平均値を各チャネル毎に（数
３）に基づき計算する（ステップＳ１０２）。

【数３】

【００３２】ついでゲイン決定手段５３は、図１１のメ
ンバーシップ関数を用いてファジイルールに従い、リフ
ァレンスレベルの理想値を求める（ステップＳ１０
３）。さらに、既に取り込んだリファレンス信号を用い
て、（数４）に基づき２乗誤差εを求める（ステップＳ
１０４）。

【数４】

【００３３】ゲイン決定手段５３はプログラマブル・ゲ
インアンプ７２のゲインを変えつつループを反復し、最
小となるεを与えるゲインに固定する（ステップＳ１０
８）。

【００３４】図１１にファジイ推論手法の例を示す。図
で、（ａ）は準備するメンバーシップ関数の例で、
（ｂ）〜（ｄ）は推論方法の説明図である。（ｂ）に示
すメイン信号（平均値）の入力レベルを分岐値として、
（ｃ）のように低高両レベル分のグレードをカットし、
得られた図形を重畳させて、その重心位置をもってリフ
ァレンス信号レベルの理想値とする。

【００３５】図１２に、図８の音声認識装置の出力波形
比較を示す。図で、（ｃ）の破線が示すように、サブト
ラクション手段出力（音声認識部への入力信号）である
メイン信号に顕著な効果が見られる。

【００３６】前記で明らかなように、第２の実施例によ
る音声認識装置は、簡単なプログラマブル・ゲインアン
プとメンバーシップ関数により、既知雑音源のメイン信
号のレベルの大小によって認識率が影響を受けない、安
定した動作の音声認識装置が実現できるのみならず、利
用者が前以て最大許容レベルのスピーカ出力を調整する
操作が不要となるから、利用者の手間を軽減させうる利
点がある。

【００３７】図１３は第３の実施例による音声認識装置
の概略ブロック図を示す。図１３における音声認識装置
９０は、音声を音声信号に変換するマイク１０１、音声
信号を増幅するアンプ１０２、音声信号を周波数分割し
て複数の音声信号を生成するフィルタバンク１０３、音
声信号をデジタル信号の音声データに変換してメイン信
号となすＡＤ変換器１０４からなるメイン信号処理手段
１００を備える。

【００３８】また、既知ならびに未知定常雑音をライン
信号として発生させるスピーカ１１１、アンプ１１２、
ライン信号を周波数分割して複数のアナログ信号となす
フィルタバンク１１３、前記アナログ信号をデジタル信
号に変換してリファレンス信号となすＡＤ変換器１１４
からなるリファレンス信号処理手段１１０を備える。

【００３９】さらに、パターンマッチング方式による音
声認識を実行する音声認識部１２１と基準音声データＰ
ｊを格納した音声データ部１２２からなるデータ認識手
段１２０、前記メイン信号から前記リファレンス信号を
サブトラクトして既知雑音成分をキャンセルするサブト
ラクション手段９２、前記各手段との信号ならびにデー
タの授受を司る制御手段９１、フレーム毎のデータの差
分をとって、未知定常雑音成分をキャンセルする差分演
算手段９３を、それぞれ備える。

【００４０】本実施例では、メイン信号処理手段１００
の機能構成は図１５に示す従来の音声認識装置２００の
メイン信号処理手段２１０の機能構成と同様であり、さ
らにリファレンス信号処理手段１１０の機能構成はリフ
ァレンス信号処理手段２２０と、データ認識手段１２０
の機能構成はデータ認識手段２３０と、夫々同様であ
る。

【００４１】図１４に、サブトラクション手段９２の実
行するフローチャートを示す。ｉはフレームナンバー
を、ｊはチャネルナンバーを表す。調整のための補正係
数αの最適値の設定は、ステップＳ１４１で初期値１に
て開始し、非音声区間の時（ステップＳ１４３）に最小
２乗誤差算出（ステップＳ１４７〜Ｓ１４８）してルー
プを実行する。

【００４２】音声区間が開始になると、サブトラクショ
ンを実行（ステップＳ１４４）して既知雑音成分をキャ
ンセルする。ステップＳ１４５は差分演算で、差分演算
手段９３が実行する。すなわち、ステップＳ１４２にて
入力された２フレームのデータに基づき、（数５）の演
算にてフレーム間の差分をとる。

【数５】この差分にて、未知定常雑音成分のキャンセルが可能と
なる。すなわち、既知雑音環境下での２入力サブトラク
ション法による音声認識装置において、簡単な差分計算
により、未知定常雑音による影響をキャンセルして認識
率を向上させることができる。

【００４３】この第３の実施例による音声認識装置は、
とりわけ特定話者の音声認識に対して効果的である。

【００４４】尚、本発明に係る音声認識装置の制御手
段、サブトラクション手段、ゲイン決定手段、差分演算
手段等はストアードプログラム方式のマイコン（マイク
ロプロセッサ）で構成するのが望ましいが、その他のあ
らゆる制御機、論理回路等で構成することも可能であ
る。

【００４５】

【発明の効果】以上説明したように本発明の音声認識装
置は、ツインフィルタバンク・サブトラクション法につ
いて、ゲイン決定手段がプログラマブル・ゲインアンプ
を制御して、アナログ信号の段階でメイン信号とリファ
レンス信号のレベルをマッチングさせる構成（アナログ
マッチング）としたから、既知雑音のリファレンス信号
のレベルの影響を受けることがなく、よって認識率の向
上が実現できる。

【００４６】また、ツインフィルタバンク・サブトラク
ション法におけるアナログマッチングの際に、メイン信
号のレベルに応じてファジイ的手法によりゲイン決定手
段がプログラマブル・ゲインアンプを制御してマッチン
グの程度を変化させて調整する構成としたから、メイン
信号レベルが低い場合にも正確なサブトラクションが出
来、またメイン信号レベルが高い場合にも歪の影響を受
けないサブトラクションが出来、よってメイン信号のレ
ベルの影響を排除することで認識率向上が実現できる。

【００４７】更に、２入力サブトラクション法による特
定話者音声認識において、差分演算手段が算出したフレ
ーム毎の差分データに基づき未知定常雑音成分をキャン
セルしたのちに音声認識を行う構成としたから、未知定
常雑音が存在する環境下においての認識率向上が実現で
きる。

【図面の簡単な説明】

【図１】本発明の第１の実施例による音声認識装置のブ
ロック図である。

【図２】図１のサブトラクション手段のフローチャート
である。

【図３】図１のゲイン決定手段のフローチャートであ
る。

【図４】図１のプログラマブル・ゲインアンプの回路図
である。

【図５】図１の音声認識装置のゲイン決定手段非動作時
の波形比較図である。

【図６】図１の音声認識装置のゲイン決定手段動作時の
波形比較図である。

【図７】図１のサブトラクション手段の出力波形比較図
である。

【図８】本発明の第２の実施例による音声認識装置のブ
ロック図である。

【図９】図８のサブトラクション手段のフローチャート
である。

【図１０】図８のゲイン決定手段のフローチャートであ
る。

【図１１】ファジイ推論の方法の例の説明図である。

【図１２】図８の音声認識装置における波形比較図であ
る。

【図１３】本発明の第３の実施例による音声認識装置の
ブロック図である。

【図１４】図１３のサブトラクション手段のフローチャ
ートである。

【図１５】従来の音声認識装置のブロック図である。

【図１６】従来の音声認識装置の処理過程の信号波形図
である。

【図１７】従来の音声認識装置の処理済の信号波形図で
ある。

【符号の説明】

１音声認識装置２メイン信号処理手段３リファレンス信号処理手段４データ認識手段５制御手段６ゲイン決定手段７サブトラクション手段２１マイク２２アンプ２３フィルタバンク２４ＡＤ変換器３１スピーカ３２プログラマブル・ゲインアンプ３３フィルタバンク３４ＡＤ変換器４１音声認識部４２音声データ部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 21/02

Claims

(57)【特許請求の範囲】

【請求項１】基準となる基準音声又は認識すべき音声
を受けて基準音声データ又は認識用音声データをメイン
信号として生成するメイン信号処理手段と、スピーカか
らの雑音成分にて構成されるライン信号を受けてリファ
レンス信号を生成するリファレンス信号処理手段と、前
記メイン信号から前記リファレンス信号を引き去ること
にて雑音成分を除去するサブトラクション手段と、前記
基準音声データを登録音声データとして登録し、前記認
識用音声データを前記登録音声データと比較照合して音
声認識を行うデータ認識手段と、前記各手段への信号及
びデータの授受を制御する制御手段を備えた、ツインフ
ィルタバンク・サブトラクション法による音声認識装置
において、前記リファレンス信号処理手段にゲイン調整可能なプロ
グラマブル・ゲインアンプを設け、前記プログラマブル
・ゲインアンプのゲインを調整して、前記メイン信号と
リファレンス信号とのアナログ信号の段階におけるアナ
ログマッチングを実行するゲイン決定手段を備えたこと
を特徴とする音声認識装置。
【請求項２】前記アナログマッチングに使用するファ
ジイ推論のためのメンバーシップ関数を格納したメンバ
ーシップ関数メモリと、前記メンバーシップ関数を使用
して、メイン信号のレベルに基づきファジイ的手法によ
りアナログマッチングの調整を実行するゲイン決定手段
とを備えたことを特徴とする請求項１記載の音声認識装
置。
【請求項３】基準となる基準音声又は認識すべき音声
を受けて基準音声データ又は認識用音声データをメイン
信号として生成するメイン信号処理手段と、スピーカか
らの雑音成分にて構成されるライン信号を受けてリファ
レンス信号を生成するリファレンス信号処理手段と、前
記メイン信号から前記リファレンス信号を引き去ること
にて雑音成分を除去するサブトラクション手段と、前記
基準音声データを登録音声データとして登録し、前記認
識用音声データを前記登録音声データと比較照合して音
声認識を行うデータ認識手段と、前記各手段への信号及
びデータの授受を制御する制御手段を備えた、ツインフ
ィルタバンク・サブトラクション法による音声認識装置
において、フレーム毎のデータの差分をとることにより
未知定常雑音分を除去する差分演算手段を備えたことを
特徴とする音声認識装置。