JPH02272499A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH02272499A JPH02272499A JP1094085A JP9408589A JPH02272499A JP H02272499 A JPH02272499 A JP H02272499A JP 1094085 A JP1094085 A JP 1094085A JP 9408589 A JP9408589 A JP 9408589A JP H02272499 A JPH02272499 A JP H02272499A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- spectrum
- value
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 71
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 abstract description 13
- 230000001105 regulatory effect Effects 0.000 abstract 1
- 238000011410 subtraction method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
五夏分互
本発明は、音声認識装置、より詳細には、騒音下での音
声入力に対する音声認識技術に関し、例えば、オフィス
内、工場内、自動車内、家庭内での音声認識に応用にて
好適なものである。
声入力に対する音声認識技術に関し、例えば、オフィス
内、工場内、自動車内、家庭内での音声認識に応用にて
好適なものである。
従来挟遵
周囲雑音の多い環境の中で発声される音声には、この周
囲雑音が重畳されてしまい、この事がそのような環境下
の音声認識において、音声認識率を低下させる原因の一
つとなっている。従って、雑音の重畳した音声情報から
できるだけ雑音成分を除去する必要がある。
囲雑音が重畳されてしまい、この事がそのような環境下
の音声認識において、音声認識率を低下させる原因の一
つとなっている。従って、雑音の重畳した音声情報から
できるだけ雑音成分を除去する必要がある。
従来、バンドパスフィルタバンクを用いた音声認識装置
などにおける雑音除去方式として、スペクトラルサブト
ラクション法がある。この方法は。
などにおける雑音除去方式として、スペクトラルサブト
ラクション法がある。この方法は。
予め定められた期間、又は、音声が検出されていない期
間のスペクトルパターンを雑音のスペクトルパターンと
して保持し、音声が検出された期間のスペクトルパター
ンからこの雑音のスペクトルパターンを減じる事により
、入力信号に含まれる雑音成分を除去するものである。
間のスペクトルパターンを雑音のスペクトルパターンと
して保持し、音声が検出された期間のスペクトルパター
ンからこの雑音のスペクトルパターンを減じる事により
、入力信号に含まれる雑音成分を除去するものである。
しかしながら、音声認識装置において、入力音声信号の
レベルは、マイクの位置による変動の他にも、周囲雑音
の大きい環境では1発声する音声レベルも10dB程度
大きくなるので、入力音声信号のレベルを適正な範囲に
保つためにAGC(Auto Ga1n Contro
ller)が用いられることがあるが、AGCを使った
音声認識装置でこのスペクトラルサブトラクション法を
用いると、雑音のスペクトルを求めた時、即ち、音声区
間以外の時。
レベルは、マイクの位置による変動の他にも、周囲雑音
の大きい環境では1発声する音声レベルも10dB程度
大きくなるので、入力音声信号のレベルを適正な範囲に
保つためにAGC(Auto Ga1n Contro
ller)が用いられることがあるが、AGCを使った
音声認識装置でこのスペクトラルサブトラクション法を
用いると、雑音のスペクトルを求めた時、即ち、音声区
間以外の時。
音声区間のゲインが異なるために雑音を含んだ音声のス
ペクトルから雑音のスペクトルを単純に減じても正しい
音声のスペクトルが出て来ないという問題点があった。
ペクトルから雑音のスペクトルを単純に減じても正しい
音声のスペクトルが出て来ないという問題点があった。
目 的。
本発明は、上記従来技術の問題点に鑑みて成されたもの
で、AGCを用いた音声認識装置において、スペクトラ
ルサブトラクション法によって周囲雑音の除去を行うた
めに、雑音のスペクトルの推定値を保持した時のAGC
のゲインと、音声区間中のAGCのゲインとの違いによ
る雑音のスペクトルの変化に対応できるようにして、雑
音を含む音声のスペクトルから雑音のスペクトルを正確
に除去する事を目的としてなされたものである。
で、AGCを用いた音声認識装置において、スペクトラ
ルサブトラクション法によって周囲雑音の除去を行うた
めに、雑音のスペクトルの推定値を保持した時のAGC
のゲインと、音声区間中のAGCのゲインとの違いによ
る雑音のスペクトルの変化に対応できるようにして、雑
音を含む音声のスペクトルから雑音のスペクトルを正確
に除去する事を目的としてなされたものである。
構 成
本発明は、上記目的を達成するために、音声を入力する
ためのマイクから入力された信号の増幅を行うマイクア
ンプと、音声信号のレベルを適正な値に調整するAGC
と、音声信号のスペクトルを求めるための複数個の帯域
から成るバンドパスフィルタバンクと、音声区間を検出
する音声区間検出部と、該音声区間検出部で音声が検出
されていない時に、上記バンドパスフィルタバンクの出
力スペクトルから雑音スペクトルを推定し、該雑音スペ
クトル推定値を保持する雑音推定部と、該雑音推定部が
保持している雑音スペクトル推定値を推定した時の上記
AGCのゲインと、上記音声区間検出部で音声が検出さ
れている時の上記AGCのゲインとの比を求めるゲイン
比算出部と、上記音声区間検出部で音声が検出されてい
る時に、上記バンドパスフィルタバンクの出力スペクト
ルの値から、上記雑音推定部で推定された雑音スペクト
ル推定値に上記ゲイン比算出部で求められたゲイン比を
乗じた値を減じるスペクトル減算部と、上記音声区間検
出部で音声が検出されている時の、上記スペクトル減算
部の出力から入力された音声のパターンを生成する入力
パターン生成部と、予め登録された音声の標準パターン
を記憶する標準音声パターンメモリと、上記入力パター
ンと上記標準パターンとで認識処理を行う認識部とを具
備して成る音声認識装置を特徴とするものであり、更に
は、上記音声認識装置において、上記ゲイン比算出部が
、上記音声区間検出部で音声が検出されている時に、上
記バンドパスフィルタバンクの出力スペクトルと上記雑
音推定部で保持された雑音スペクトル推定値の各帯域毎
の比のうちで最も小さい値をゲイン比とする事を特徴と
するものである。以下、本発明の実施例に基づいて説明
する。
ためのマイクから入力された信号の増幅を行うマイクア
ンプと、音声信号のレベルを適正な値に調整するAGC
と、音声信号のスペクトルを求めるための複数個の帯域
から成るバンドパスフィルタバンクと、音声区間を検出
する音声区間検出部と、該音声区間検出部で音声が検出
されていない時に、上記バンドパスフィルタバンクの出
力スペクトルから雑音スペクトルを推定し、該雑音スペ
クトル推定値を保持する雑音推定部と、該雑音推定部が
保持している雑音スペクトル推定値を推定した時の上記
AGCのゲインと、上記音声区間検出部で音声が検出さ
れている時の上記AGCのゲインとの比を求めるゲイン
比算出部と、上記音声区間検出部で音声が検出されてい
る時に、上記バンドパスフィルタバンクの出力スペクト
ルの値から、上記雑音推定部で推定された雑音スペクト
ル推定値に上記ゲイン比算出部で求められたゲイン比を
乗じた値を減じるスペクトル減算部と、上記音声区間検
出部で音声が検出されている時の、上記スペクトル減算
部の出力から入力された音声のパターンを生成する入力
パターン生成部と、予め登録された音声の標準パターン
を記憶する標準音声パターンメモリと、上記入力パター
ンと上記標準パターンとで認識処理を行う認識部とを具
備して成る音声認識装置を特徴とするものであり、更に
は、上記音声認識装置において、上記ゲイン比算出部が
、上記音声区間検出部で音声が検出されている時に、上
記バンドパスフィルタバンクの出力スペクトルと上記雑
音推定部で保持された雑音スペクトル推定値の各帯域毎
の比のうちで最も小さい値をゲイン比とする事を特徴と
するものである。以下、本発明の実施例に基づいて説明
する。
第1図は1本発明の一実施例を説明するための構成図で
1図中、1はマイクアンプ、2はAGC13はバンドパ
スフィルター(B、P、F)群、4はA/D変換器、5
は音声区間検出部、6は雑音推宇部、7はゲイン比算出
部、8はスペクトル減算部、9は入力パターン生成部、
10は認識部。
1図中、1はマイクアンプ、2はAGC13はバンドパ
スフィルター(B、P、F)群、4はA/D変換器、5
は音声区間検出部、6は雑音推宇部、7はゲイン比算出
部、8はスペクトル減算部、9は入力パターン生成部、
10は認識部。
11は標準音声パターンメモリで、マイクアンプ1は、
音声を入力するためのマイクから入力された音声入力信
号の増幅を行う、AGC2は、マイクアンプ1から出力
された音声信号のレベルを適正な値に調整するが、この
AGCには、高域のスペクトルを強調するプリエンファ
シスを含めても良い。バンドパスフィルタバンク3は、
250土から6.3KHz迄の15の帯域(15チヤン
ネル)から成るバンドパスフィルタ(BPF)と、各チ
ャンネルに対する15の検波器(DET)と、各チャン
ネルに対する15のローパスフィルタ(LPF)で構成
されていて、AGCの出力の音声信号のスペクトルを求
める。A/D変換器4は、バンドパスフィルタバンク3
の各チャンネルの出力をフレーム周期10m5毎にデジ
タル値に変換する。
音声を入力するためのマイクから入力された音声入力信
号の増幅を行う、AGC2は、マイクアンプ1から出力
された音声信号のレベルを適正な値に調整するが、この
AGCには、高域のスペクトルを強調するプリエンファ
シスを含めても良い。バンドパスフィルタバンク3は、
250土から6.3KHz迄の15の帯域(15チヤン
ネル)から成るバンドパスフィルタ(BPF)と、各チ
ャンネルに対する15の検波器(DET)と、各チャン
ネルに対する15のローパスフィルタ(LPF)で構成
されていて、AGCの出力の音声信号のスペクトルを求
める。A/D変換器4は、バンドパスフィルタバンク3
の各チャンネルの出力をフレーム周期10m5毎にデジ
タル値に変換する。
音声区間検出部5は、フレーム毎のスペクトル差分が予
め定められたしきい値を越えているかどうか、スペクト
ルの総和が予め定められたしきい値を越えているかどう
か、音声区間の候補のフレームが連続して予め定められ
た音声区間と見なす最小のフレーム数より多く現れたか
、などから音声区間を検出する。
め定められたしきい値を越えているかどうか、スペクト
ルの総和が予め定められたしきい値を越えているかどう
か、音声区間の候補のフレームが連続して予め定められ
た音声区間と見なす最小のフレーム数より多く現れたか
、などから音声区間を検出する。
雑音推定部6は、音声区間検出部5で音声が検出されて
いない時(非音声区間)に、20フレ一ム程度のA/D
変換器の出力のスペクトルの平均を雑音スペクトルとし
、この雑音スペクトル推定値を再度この値が更新される
まで保持する。但し、非音声区間検出でも、平均すべき
2oフレームの間にスペクトル差分の大きい部分がある
場合は、非定常雑音であるとして、雑音スペクトルの更
新は行わない。
いない時(非音声区間)に、20フレ一ム程度のA/D
変換器の出力のスペクトルの平均を雑音スペクトルとし
、この雑音スペクトル推定値を再度この値が更新される
まで保持する。但し、非音声区間検出でも、平均すべき
2oフレームの間にスペクトル差分の大きい部分がある
場合は、非定常雑音であるとして、雑音スペクトルの更
新は行わない。
ゲイン比算出部7は、音声区間検出部5で音声が検出さ
れている時(音声区間)は、フレーム毎に、A/D変換
器の出力のスペクトルの値と保持されている雑音スペク
トルの値を各チャンネル毎に比を計算して、15個の比
のうち最小の比の値を、雑音スペクトル推定値を推定し
た時のAGCのゲインと、音声区間のAGCのゲインと
の比とする。
れている時(音声区間)は、フレーム毎に、A/D変換
器の出力のスペクトルの値と保持されている雑音スペク
トルの値を各チャンネル毎に比を計算して、15個の比
のうち最小の比の値を、雑音スペクトル推定値を推定し
た時のAGCのゲインと、音声区間のAGCのゲインと
の比とする。
スペクトル減算部8は、音声区間で、A/D変換器の出
力のスペクトルの値から、雑音スペクトル推定値にゲイ
ン比算出部で求められたゲイン比を乗じた値を減じて、
雑音を除去した音声のスペクトルとする。
力のスペクトルの値から、雑音スペクトル推定値にゲイ
ン比算出部で求められたゲイン比を乗じた値を減じて、
雑音を除去した音声のスペクトルとする。
この方式は、音声のスペクトルが全ての帯域に同時には
現れない性質から、雑音を除去した音声のスペクトルが
15チヤンネルのうち少なくとも1つのチャンネルの値
がOになるようなゲイン比。
現れない性質から、雑音を除去した音声のスペクトルが
15チヤンネルのうち少なくとも1つのチャンネルの値
がOになるようなゲイン比。
即ち、15チヤンネルの比のうちの最小の比を用いて雑
音を除去している。また、フレーム毎にゲイン比を計算
し直しているので、音声区間中の八〇〇の変化にも対応
できる。
音を除去している。また、フレーム毎にゲイン比を計算
し直しているので、音声区間中の八〇〇の変化にも対応
できる。
入力パターン生成部9は、音声区間の、スペクトル減算
部で得られたスペクトルから、入力された音声のパター
ン(入力パターン)を生成する。
部で得られたスペクトルから、入力された音声のパター
ン(入力パターン)を生成する。
ここで生成されるパターンは、従来の音声認識技術で用
いられている公知のパターンであり、例えば、最小2乗
近似直線による補正を行う2値化パターン(BTSP)
である。標準音声パターンメモリは、予め登録された音
声のBTSPの標準パターンを記憶する。認識部は、公
知のBTSP方式の認識アルゴリズムで、入力パターン
と標準パターンとで認識処理を行う。
いられている公知のパターンであり、例えば、最小2乗
近似直線による補正を行う2値化パターン(BTSP)
である。標準音声パターンメモリは、予め登録された音
声のBTSPの標準パターンを記憶する。認識部は、公
知のBTSP方式の認識アルゴリズムで、入力パターン
と標準パターンとで認識処理を行う。
効 果
以上の説明から明らかなように、請求項第1項の発明に
より、AGCを用いた音声認識装置において、雑音のス
ペクトルの推定値を保持した時のAGCのゲインと、音
声区間中のAGCのゲインとの比を求めて、この比によ
り雑音のスペクトルの推定値を調整して、雑音を含む音
声のスペクトルから雑音のスペクトルを減じて雑音除去
を行い、雑音のスペクトルの推定値を保持した時のAG
Cのゲインと、音声区間中のAGCのゲインとの違いに
よる雑音スペクトルの変化に対応できるので、スペクト
ラルサブトラクション法によって周囲雑音の除去を行う
事が出来るようになった。その結果として雑音環境での
音声認識率が向上する。また、請求項第2項の発明によ
ると、音声のスペクトルが全ての帯域に同時には現れな
い性質から。
より、AGCを用いた音声認識装置において、雑音のス
ペクトルの推定値を保持した時のAGCのゲインと、音
声区間中のAGCのゲインとの比を求めて、この比によ
り雑音のスペクトルの推定値を調整して、雑音を含む音
声のスペクトルから雑音のスペクトルを減じて雑音除去
を行い、雑音のスペクトルの推定値を保持した時のAG
Cのゲインと、音声区間中のAGCのゲインとの違いに
よる雑音スペクトルの変化に対応できるので、スペクト
ラルサブトラクション法によって周囲雑音の除去を行う
事が出来るようになった。その結果として雑音環境での
音声認識率が向上する。また、請求項第2項の発明によ
ると、音声のスペクトルが全ての帯域に同時には現れな
い性質から。
雑音を除去した音声のスペクトルが15チヤンネルのう
ち少なくとも1つのチャンネルの値がOになるようなゲ
イン比、即ち、15チヤンネルの比のうちの最小の比を
用いているので、ゲイン比が正確で、雑音を含む音声の
雑音除去を正確に行うことができる。
ち少なくとも1つのチャンネルの値がOになるようなゲ
イン比、即ち、15チヤンネルの比のうちの最小の比を
用いているので、ゲイン比が正確で、雑音を含む音声の
雑音除去を正確に行うことができる。
第1図は1本発明の一実施例を説明するための構成図で
ある。 1・・・マイクアンプ、2− A G C(Auto
Ga1n Controller) 、 3・・・バ
ンドパスフィルター群、4・・・A/D変換器、5・・
・音声区間検出部、6・・・雑音推定部、7・・・ゲイ
ン比算出部、8・・・スペクトル減算部、9・・・入力
パターン生成部、10・・・認識部、11・・・標準音
声パターンメモリ・
ある。 1・・・マイクアンプ、2− A G C(Auto
Ga1n Controller) 、 3・・・バ
ンドパスフィルター群、4・・・A/D変換器、5・・
・音声区間検出部、6・・・雑音推定部、7・・・ゲイ
ン比算出部、8・・・スペクトル減算部、9・・・入力
パターン生成部、10・・・認識部、11・・・標準音
声パターンメモリ・
Claims (1)
- 【特許請求の範囲】 1、音声を入力するためのマイクから入力された信号の
増幅を行うマイクアンプと、音声信号のレベルを適正な
値に調整するAGCと、音声信号のスペクトルを求める
ための複数個の帯域から成るバンドパスフィルタバンク
と、音声区間を検出する音声区間検出部と、該音声区間
検出部で音声が検出されていない時に、上記バンドパス
フィルタバンクの出力スペクトルから雑音スペクトルを
推定し、該雑音スペクトル推定値を保持する雑音推定部
と、該雑音推定部が保持している雑音スペクトル推定値
を推定した時の上記AGCのゲインと、上記音声区間検
出部で音声が検出されている時の上記AGCのゲインと
の比を求めるゲイン比算出部と、上記音声区間検出部で
音声が検出されている時に、上記バンドパスフィルタバ
ンクの出力スペクトルの値から、上記雑音推定部で推定
された雑音スペクトル推定値に上記ゲイン比算出部で求
められたゲイン比を乗じた値を減じるスペクトル減算部
と、上記音声区間検出部で音声が検出されている時の、
上記スペクトル減算部の出力から入力された音声のパタ
ーンを生成する入力パターン生成部と、予め登録された
音声の標準パターンを記憶する標準音声パターンメモリ
と、上記入力パターンと上記標準パターンとで認識処理
を行う認識部とを具備して成る事を特徴とする音声認識
装置。 2、請求項1記載の音声認識装置であって、更に、上記
ゲイン比算出部は、上記音声区間検出部で音声が検出さ
れている時に、上記バンドパスフィルタバンクの出力ス
ペクトルと上記雑音推定部で保持された雑音スペクトル
推定値の各帯域毎の比のうちで最も小さい値をゲイン比
とする事を特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1094085A JPH02272499A (ja) | 1989-04-13 | 1989-04-13 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1094085A JPH02272499A (ja) | 1989-04-13 | 1989-04-13 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02272499A true JPH02272499A (ja) | 1990-11-07 |
Family
ID=14100632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1094085A Pending JPH02272499A (ja) | 1989-04-13 | 1989-04-13 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02272499A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2007029536A1 (ja) * | 2005-09-02 | 2009-03-19 | 日本電気株式会社 | 雑音抑圧の方法及び装置並びにコンピュータプログラム |
JP2010230814A (ja) * | 2009-03-26 | 2010-10-14 | Fujitsu Ltd | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 |
-
1989
- 1989-04-13 JP JP1094085A patent/JPH02272499A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2007029536A1 (ja) * | 2005-09-02 | 2009-03-19 | 日本電気株式会社 | 雑音抑圧の方法及び装置並びにコンピュータプログラム |
US8233636B2 (en) | 2005-09-02 | 2012-07-31 | Nec Corporation | Method, apparatus, and computer program for suppressing noise |
JP5092748B2 (ja) * | 2005-09-02 | 2012-12-05 | 日本電気株式会社 | 雑音抑圧の方法及び装置並びにコンピュータプログラム |
US8477963B2 (en) | 2005-09-02 | 2013-07-02 | Nec Corporation | Method, apparatus, and computer program for suppressing noise |
US8489394B2 (en) | 2005-09-02 | 2013-07-16 | Nec Corporation | Method, apparatus, and computer program for suppressing noise |
JP2010230814A (ja) * | 2009-03-26 | 2010-10-14 | Fujitsu Ltd | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2962732B2 (ja) | 補聴器用信号処理システム | |
US7171357B2 (en) | Voice-activity detection using energy ratios and periodicity | |
US7155385B2 (en) | Automatic gain control for adjusting gain during non-speech portions | |
EP0750291B1 (en) | Speech processor | |
EP0683482B1 (en) | Method for reducing noise in speech signal and method for detecting noise domain | |
US20090276213A1 (en) | Robust downlink speech and noise detector | |
WO2000041169A1 (en) | Method and apparatus for adaptively suppressing noise | |
EP1607939B1 (en) | Speech signal compression device, speech signal compression method, and program | |
KR20060094078A (ko) | 음성 동작 검출 장치 및 방법 | |
EP3428918B1 (en) | Pop noise control | |
JPS632500A (ja) | 収音装置 | |
EP2828853B1 (en) | Method and system for bias corrected speech level determination | |
KR20050053139A (ko) | 피크 및 딥 성분을 이용한 음장 보정 방법 및 그 장치 | |
JPH02272499A (ja) | 音声認識装置 | |
JP3135937B2 (ja) | 雑音除去装置 | |
JP3118023B2 (ja) | 音声区間検出方式及び音声認識装置 | |
KR101254989B1 (ko) | 2채널 디지털 보청기 및 2채널 디지털 보청기의 빔포밍 방법 | |
JPH04238399A (ja) | 音声認識装置 | |
JPH06303689A (ja) | ノイズ除去装置 | |
JP2859634B2 (ja) | 雑音除去装置 | |
JPH0422999A (ja) | 信号処理回路及び音声認識装置 | |
KR100198019B1 (ko) | 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법 | |
EP1211671A2 (en) | Automatic gain control with noise suppression | |
JPH06332491A (ja) | 音声区間検出装置と雑音抑圧装置 | |
JPH0416900A (ja) | 音声認識装置 |