JP3342740B2 - 雑音環境下で使用する音声認識装置 - Google Patents
雑音環境下で使用する音声認識装置Info
- Publication number
- JP3342740B2 JP3342740B2 JP11091093A JP11091093A JP3342740B2 JP 3342740 B2 JP3342740 B2 JP 3342740B2 JP 11091093 A JP11091093 A JP 11091093A JP 11091093 A JP11091093 A JP 11091093A JP 3342740 B2 JP3342740 B2 JP 3342740B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- voice
- data
- reference signal
- main signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
雑音環境下で使用する音声認識装置に関するものであ
る。
置には、スピーカから出力される音が雑音成分である環
境下で、スピーカのライン信号をリファレンス信号と
し、発声音声つまり認識させることを目的とした音声
と、前記スピーカからの雑音が混合されたマイク入力信
号をメイン信号とし、前記メイン信号から前記リファレ
ンス信号を引き去ることで雑音成分を除去する、ツイン
フィルタバンク・サブトラクション法が使用されてい
る。
200の構成例では、メイン信号処理手段210におい
て、マイク211の検出した音声をアンプ212で増幅
後、音声周波数帯域において複数個の異なる狭帯域バン
ドパスフィルタ(チャネルjとして表示)で構成される
フィルタバンク213にて周波数分割後、AD変換器2
14でデジタル信号となし、これをメイン信号mj(j
はチャネルナンバー)として制御手段201に入力す
る。
理手段220において、スピーカ221のライン信号と
して検出され、アンプ222で増幅後、音声周波数帯域
において複数個の異なる狭帯域バンドパスフィルタ(チ
ャネルjとして表示)で構成されるフィルタバンク22
3にて周波数分割後、AD変換器224でデジタル信号
となし、これをリファレンス信号rj(jはチャネルナ
ンバー)として制御手段201に入力する。
音声データであればデータ認識手段230の音声データ
部232に登録する。メイン信号mjが認識すべき音声
データであれば、サブトラクション手段202にリファ
レンス信号rjとともに送出する。ここでサブトラクシ
ョン手段202は、(数1)に基づきメイン信号mjか
らリファレンス信号rjを引き去ることによって、既知
雑音分を除去する。
ル)m’jは、サブトラクション後のメイン信号(jチ
ャネル)rjは、リファレンス信号(jチャネル)αj
は、各チャネル毎にメイン信号のレベルとリファレンス
信号のレベルとを調整するための補正係数
に最適値が計算される。例えばNフレームのデータの最
小2乗誤差を極小にするよう、各チャネル毎にαjが決
定される。つまり、音声区間ではサブトラクション後の
メイン信号が音声信号のみとなり、雑音成分が払拭され
るよう、各チャネル毎にαjを決定する。
は処理前のメイン信号mjを、破線はα・rj波形を示
す。さらに図17は処理済波形を示す。破線はサブトラ
クション後のメイン信号m’jである。
フィルタバンク・サブトラクション法を用いた既知雑音
環境下の音声認識装置では発声音声のない時、音声処理
後のリファレンス信号のレベルを適応的にメイン信号と
調整することにより両信号間の伝送特性差の補正を行う
際、リファレンス信号がメイン信号に比して非常に小さ
い場合や、逆にダイナミックレンジを越える程大きい場
合には適切なレベル調整が困難になるという問題があっ
た。
よる既知雑音環境下の音声認識装置では、未知雑音成分
がメイン信号(マイクから入力される信号)に混入した
場合、未知雑音成分が予測できないゆえに認識率が低下
するという問題があった。
ためになされたもので、その目的は既知雑音源のリファ
レンス信号のレベルならびにメイン信号のレベルの影響
を受けることがなく認識率向上が可能な、また未知定常
雑音が存在する環境下においての認識率向上が可能な音
声認識装置を提供することにある。
この発明の第1の構成は、基準となる基準音声又は認識
すべき音声を受けて基準音声データ又は認識用音声デー
タをメイン信号として生成するメイン信号処理手段と、
スピーカからの雑音成分にて構成されるライン信号を受
けてリファレンス信号を生成するリファレンス信号処理
手段と、前記メイン信号から前記リファレンス信号を引
き去ることにて雑音成分を除去するサブトラクション手
段と、前記基準音声データを登録音声データとして登録
し、前記認識用音声データを前記登録音声データと比較
照合して音声認識を行うデータ認識手段と、前記各手段
への信号及びデータの授受を制御する制御手段を備え
た、ツインフィルタバンク・サブトラクション法による
音声認識装置において、前記リファレンス信号処理手段
にゲイン調整可能なプログラマブル・ゲインアンプを設
け、前記プログラマブル・ゲインアンプのゲインを調整
して、前記メイン信号とリファレンス信号とのアナログ
信号の段階におけるアナログマッチングを実行するゲイ
ン決定手段を備えたことを特徴とする。
ングに使用するファジイ推論のためのメンバーシップ関
数を格納したメンバーシップ関数メモリと、前記メンバ
ーシップ関数を使用して、メイン信号のレベルに基づき
ファジイ的手法によりアナログマッチングの調整を実行
するゲイン決定手段とを備えたことを特徴とする。
声又は認識すべき音声を受けて基準音声データ又は認識
用音声データをメイン信号として生成するメイン信号処
理手段と、スピーカからの雑音成分にて構成されるライ
ン信号を受けてリファレンス信号を生成するリファレン
ス信号処理手段と、前記メイン信号から前記リファレン
ス信号を引き去ることにて雑音成分を除去するサブトラ
クション手段と、前記基準音声データを登録音声データ
として登録し、前記認識用音声データを前記登録音声デ
ータと比較照合して音声認識を行うデータ認識手段と、
前記各手段への信号及びデータの授受を制御する制御手
段を備えた、ツインフィルタバンク・サブトラクション
法による音声認識装置において、フレーム毎のデータの
差分をとることにより未知定常雑音分を除去する差分演
算手段を備えたことを特徴とする。
ィルタバンク・サブトラクション法について、ゲイン決
定手段がプログラマブル・ゲインアンプを制御して、ア
ナログ信号の段階でメイン信号とリファレンス信号のレ
ベルをマッチングさせる(アナログマッチング)。この
結果、既知雑音のリファレンス信号のレベルの影響を受
けることがなくなり、認識率が改善される。
ンフィルタバンク・サブトラクション法におけるアナロ
グマッチングの際に、メイン信号のレベルに応じてファ
ジイ的手法によりゲイン決定手段がプログラマブル・ゲ
インアンプを制御してマッチングの程度を変化させて調
整する。この結果、メイン信号レベルが低い場合にも正
確なサブトラクションが実行され、またメイン信号レベ
ルが高い場合にも歪の影響を受けないサブトラクション
が実行される。
演算手段が算出したフレーム毎の差分データに基づき、
未知定常雑音成分をキャンセルしたのちに音声認識を行
う。この結果、未知定常雑音が存在する環境下において
の認識率が改善される。
付図面に基づいて説明する。図1は第1の実施例の概略
ブロック図を示す。図1における音声認識装置1は、音
声を音声信号に変換するマイク21、音声信号を増幅す
るアンプ22、音声信号を周波数分割して複数の音声信
号を生成するフィルタバンク23、音声信号をデジタル
信号の音声データに変換してメイン信号となすAD変換
器24からなるメイン信号処理手段2を備える。
生させるスピーカ31、ゲインが調整可能なプログラマ
ブル・ゲインアンプ32、ライン信号を周波数分割して
複数のアナログ信号となすフィルタバンク33、前記ア
ナログ信号をデジタル信号に変換してリファレンス信号
となすAD変換器34からなるリファレンス信号処理手
段3を備える。
声認識を実行する音声認識部41と基準音声データPj
を格納した音声データ部42からなるデータ認識手段
4、前記メイン信号から前記リファレンス信号をサブト
ラクトして雑音成分をキャンセルするサブトラクション
手段7、前記プログラマブル・ゲインアンプ32のゲイ
ン調整のためのゲイン決定手段6、前記各手段との信号
ならびにデータの授受を司る制御手段5を、それぞれ備
える。
るフローチャートを示す。jはチャネルナンバーを表
す。調整のための補正係数αの最適値の設定は、ステッ
プS1で初期値1にて開始し、非音声区間の時(ステッ
プS3)に最小2乗誤差算出(ステップS6〜S7)し
てループを実行する。
3)、サブトラクションを実行(ステップS4)して既
知雑音成分をキャンセルする。サブトラクション結果の
メイン信号m’jが信号7aとして音声認識部41に出
力される(ステップS5)。
構成を図4に示す。アナログスイッチ321はOPアン
プ323のゲイン切り換えを司るもので、ゲイン決定手
段6からのコントロール信号6aにて制御される。また
アナログスイッチ322は、アナログスイッチ321の
オン抵抗補償用の回路である。
3に基づき、ゲイン決定手段6の機能を説明する。ステ
ップS31にて、利用者に最大許容オ−ディオ音を出力
させる(βを最大値に設定)。これは、最大許容値から
スタートして収束をかけていく方式である。
ファレンス信号をNフレーム分取り込み(ステップS3
2)、最小2乗誤差を(数2)に基づき計算する(ステ
ップS33)。
て、求めるゲインとする(ステップS35、S38)。
ステップS33ではrijの最大値も計算し、これがダ
イナミックレンジの最大値以下でないならば(ステップ
S34)、ゲインを1段下げて再度試みる(ステップS
37)。
レベルでメイン信号とリファレンス信号とのマッチング
が可能となり、既知雑音源のリファレンス信号のレベル
の大小により認識率が左右されることがない。よって、
補正前のリファレンス信号がメイン信号に比して非常に
小さい場合の、雑音成分キャンセル不十分による認識率
の低下や、逆にリファレンス信号が非常に大きい場合
の、歪による雑音成分キャンセル不備が解消される。
図を、図6はゲイン決定手段動作時の波形比較図を、ま
た図7はサブトラクション手段の出力波形比較図を、夫
々示す。図7において顕著な効果が現われている。
概略ブロック図を示す。図8における音声認識装置50
は、音声を音声信号に変換するマイク61、音声信号を
増幅するアンプ62、音声信号を周波数分割して複数の
音声信号を生成するフィルタバンク63、音声信号をデ
ジタル信号の音声データに変換してメイン信号となすA
D変換器64からなるメイン信号処理手段60を備え
る。
生させるスピーカ71、ゲインが調整可能なプログラマ
ブル・ゲインアンプ72、ライン信号を周波数分割して
複数のアナログ信号となすフィルタバンク73、前記ア
ナログ信号をデジタル信号に変換してリファレンス信号
となすAD変換器74からなるリファレンス信号処理手
段70を備える。
声認識を実行する音声認識部81と基準音声データPj
を格納した音声データ部82からなるデータ認識手段8
0、前記メイン信号から前記リファレンス信号をサブト
ラクトして雑音成分をキャンセルするサブトラクション
手段52、前記各手段との信号ならびにデータの授受を
司る制御手段51、前記プログラマブル・ゲインアンプ
72のゲイン調整のためのゲイン決定手段53、ファジ
イ推論のためのメンバーシップ関数を格納するメンバー
シップ関数メモリ54を、それぞれ備える。
き、サブトラクション手段52とゲイン決定手段53の
動作を説明する。図9のステップS93にて非音声区間
が選択されると、サブトラクション手段52はメイン信
号mjとリファレンス信号rjをNフレーム分、取り込
む。ついでゲイン決定手段53がプログラマブル・ゲイ
ンアンプ72のゲインを初期値βに設定し(ステップS
101)、メイン信号の平均値を各チャネル毎に(数
3)に基づき計算する(ステップS102)。
ンバーシップ関数を用いてファジイルールに従い、リフ
ァレンスレベルの理想値を求める(ステップS10
3)。さらに、既に取り込んだリファレンス信号を用い
て、(数4)に基づき2乗誤差εを求める(ステップS
104)。
インアンプ72のゲインを変えつつループを反復し、最
小となるεを与えるゲインに固定する(ステップS10
8)。
で、(a)は準備するメンバーシップ関数の例で、
(b)〜(d)は推論方法の説明図である。(b)に示
すメイン信号(平均値)の入力レベルを分岐値として、
(c)のように低高両レベル分のグレードをカットし、
得られた図形を重畳させて、その重心位置をもってリフ
ァレンス信号レベルの理想値とする。
比較を示す。図で、(c)の破線が示すように、サブト
ラクション手段出力(音声認識部への入力信号)である
メイン信号に顕著な効果が見られる。
る音声認識装置は、簡単なプログラマブル・ゲインアン
プとメンバーシップ関数により、既知雑音源のメイン信
号のレベルの大小によって認識率が影響を受けない、安
定した動作の音声認識装置が実現できるのみならず、利
用者が前以て最大許容レベルのスピーカ出力を調整する
操作が不要となるから、利用者の手間を軽減させうる利
点がある。
の概略ブロック図を示す。図13における音声認識装置
90は、音声を音声信号に変換するマイク101、音声
信号を増幅するアンプ102、音声信号を周波数分割し
て複数の音声信号を生成するフィルタバンク103、音
声信号をデジタル信号の音声データに変換してメイン信
号となすAD変換器104からなるメイン信号処理手段
100を備える。
信号として発生させるスピーカ111、アンプ112、
ライン信号を周波数分割して複数のアナログ信号となす
フィルタバンク113、前記アナログ信号をデジタル信
号に変換してリファレンス信号となすAD変換器114
からなるリファレンス信号処理手段110を備える。
声認識を実行する音声認識部121と基準音声データP
jを格納した音声データ部122からなるデータ認識手
段120、前記メイン信号から前記リファレンス信号を
サブトラクトして既知雑音成分をキャンセルするサブト
ラクション手段92、前記各手段との信号ならびにデー
タの授受を司る制御手段91、フレーム毎のデータの差
分をとって、未知定常雑音成分をキャンセルする差分演
算手段93を、それぞれ備える。
の機能構成は図15に示す従来の音声認識装置200の
メイン信号処理手段210の機能構成と同様であり、さ
らにリファレンス信号処理手段110の機能構成はリフ
ァレンス信号処理手段220と、データ認識手段120
の機能構成はデータ認識手段230と、夫々同様であ
る。
行するフローチャートを示す。iはフレームナンバー
を、jはチャネルナンバーを表す。調整のための補正係
数αの最適値の設定は、ステップS141で初期値1に
て開始し、非音声区間の時(ステップS143)に最小
2乗誤差算出(ステップS147〜S148)してルー
プを実行する。
ンを実行(ステップS144)して既知雑音成分をキャ
ンセルする。ステップS145は差分演算で、差分演算
手段93が実行する。すなわち、ステップS142にて
入力された2フレームのデータに基づき、(数5)の演
算にてフレーム間の差分をとる。
なる。すなわち、既知雑音環境下での2入力サブトラク
ション法による音声認識装置において、簡単な差分計算
により、未知定常雑音による影響をキャンセルして認識
率を向上させることができる。
とりわけ特定話者の音声認識に対して効果的である。
段、サブトラクション手段、ゲイン決定手段、差分演算
手段等はストアードプログラム方式のマイコン(マイク
ロプロセッサ)で構成するのが望ましいが、その他のあ
らゆる制御機、論理回路等で構成することも可能であ
る。
置は、ツインフィルタバンク・サブトラクション法につ
いて、ゲイン決定手段がプログラマブル・ゲインアンプ
を制御して、アナログ信号の段階でメイン信号とリファ
レンス信号のレベルをマッチングさせる構成(アナログ
マッチング)としたから、既知雑音のリファレンス信号
のレベルの影響を受けることがなく、よって認識率の向
上が実現できる。
ション法におけるアナログマッチングの際に、メイン信
号のレベルに応じてファジイ的手法によりゲイン決定手
段がプログラマブル・ゲインアンプを制御してマッチン
グの程度を変化させて調整する構成としたから、メイン
信号レベルが低い場合にも正確なサブトラクションが出
来、またメイン信号レベルが高い場合にも歪の影響を受
けないサブトラクションが出来、よってメイン信号のレ
ベルの影響を排除することで認識率向上が実現できる。
定話者音声認識において、差分演算手段が算出したフレ
ーム毎の差分データに基づき未知定常雑音成分をキャン
セルしたのちに音声認識を行う構成としたから、未知定
常雑音が存在する環境下においての認識率向上が実現で
きる。
ロック図である。
である。
る。
である。
の波形比較図である。
波形比較図である。
である。
ロック図である。
である。
る。
る。
ブロック図である。
ートである。
である。
ある。
Claims (3)
- 【請求項1】 基準となる基準音声又は認識すべき音声
を受けて基準音声データ又は認識用音声データをメイン
信号として生成するメイン信号処理手段と、スピーカか
らの雑音成分にて構成されるライン信号を受けてリファ
レンス信号を生成するリファレンス信号処理手段と、前
記メイン信号から前記リファレンス信号を引き去ること
にて雑音成分を除去するサブトラクション手段と、前記
基準音声データを登録音声データとして登録し、前記認
識用音声データを前記登録音声データと比較照合して音
声認識を行うデータ認識手段と、前記各手段への信号及
びデータの授受を制御する制御手段を備えた、ツインフ
ィルタバンク・サブトラクション法による音声認識装置
において、 前記リファレンス信号処理手段にゲイン調整可能なプロ
グラマブル・ゲインアンプを設け、前記プログラマブル
・ゲインアンプのゲインを調整して、前記メイン信号と
リファレンス信号とのアナログ信号の段階におけるアナ
ログマッチングを実行するゲイン決定手段を備えたこと
を特徴とする音声認識装置。 - 【請求項2】 前記アナログマッチングに使用するファ
ジイ推論のためのメンバーシップ関数を格納したメンバ
ーシップ関数メモリと、前記メンバーシップ関数を使用
して、メイン信号のレベルに基づきファジイ的手法によ
りアナログマッチングの調整を実行するゲイン決定手段
とを備えたことを特徴とする請求項1記載の音声認識装
置。 - 【請求項3】 基準となる基準音声又は認識すべき音声
を受けて基準音声データ又は認識用音声データをメイン
信号として生成するメイン信号処理手段と、スピーカか
らの雑音成分にて構成されるライン信号を受けてリファ
レンス信号を生成するリファレンス信号処理手段と、前
記メイン信号から前記リファレンス信号を引き去ること
にて雑音成分を除去するサブトラクション手段と、前記
基準音声データを登録音声データとして登録し、前記認
識用音声データを前記登録音声データと比較照合して音
声認識を行うデータ認識手段と、前記各手段への信号及
びデータの授受を制御する制御手段を備えた、ツインフ
ィルタバンク・サブトラクション法による音声認識装置
において、フレーム毎のデータの差分をとることにより
未知定常雑音分を除去する差分演算手段を備えたことを
特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11091093A JP3342740B2 (ja) | 1993-04-14 | 1993-04-14 | 雑音環境下で使用する音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11091093A JP3342740B2 (ja) | 1993-04-14 | 1993-04-14 | 雑音環境下で使用する音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06301398A JPH06301398A (ja) | 1994-10-28 |
JP3342740B2 true JP3342740B2 (ja) | 2002-11-11 |
Family
ID=14547748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11091093A Expired - Fee Related JP3342740B2 (ja) | 1993-04-14 | 1993-04-14 | 雑音環境下で使用する音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3342740B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3526911B2 (ja) | 1993-04-20 | 2004-05-17 | クラリオン株式会社 | 音声認識装置及び音声認識方法 |
-
1993
- 1993-04-14 JP JP11091093A patent/JP3342740B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3526911B2 (ja) | 1993-04-20 | 2004-05-17 | クラリオン株式会社 | 音声認識装置及び音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH06301398A (ja) | 1994-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5375188A (en) | Music/voice discriminating apparatus | |
KR100860805B1 (ko) | 음성 강화 시스템 | |
JP2962732B2 (ja) | 補聴器用信号処理システム | |
JP4583781B2 (ja) | 音声補正装置 | |
US7778426B2 (en) | Feedback suppression in sound signal processing using frequency translation | |
US7418379B2 (en) | Circuit for improving the intelligibility of audio signals containing speech | |
JP2002519719A (ja) | 重み付け利得平滑化手段を含むノイズサプレッサ | |
JPH0918291A (ja) | 雑音消去方法及び雑音消去装置 | |
JP2773656B2 (ja) | ハウリング防止装置 | |
JP3069535B2 (ja) | 音響再生装置 | |
JP2000047697A (ja) | ノイズキャンセラ | |
JP3342740B2 (ja) | 雑音環境下で使用する音声認識装置 | |
JP3549120B2 (ja) | 車両用能動振動制御装置 | |
JP4888163B2 (ja) | カラオケ装置 | |
JPH06334457A (ja) | 自動音量制御装置 | |
JP3822397B2 (ja) | 音声入出力方式 | |
JP2002258899A (ja) | 雑音抑圧方法および雑音抑圧装置 | |
JP2000316199A (ja) | ハウリング防止装置 | |
JP2008227680A (ja) | 音響特性補正システム | |
JPH075895A (ja) | 音声認識装置及び騒音環境での音声認識方法 | |
JP2001024459A (ja) | オーディオ装置 | |
JPH0530588A (ja) | 自動音量調整装置 | |
JPH056193A (ja) | 音声区間検出方式及び音声認識装置 | |
JP2007184820A (ja) | 受信装置及び受信音声信号の補正方法 | |
US20230276172A1 (en) | Method and system for improving the restitution of low frequencies of an audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080823 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090823 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100823 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110823 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |