JP2006163231A - 雑音除去装置、雑音除去プログラム、及び雑音除去方法 - Google Patents

雑音除去装置、雑音除去プログラム、及び雑音除去方法 Download PDF

Info

Publication number
JP2006163231A
JP2006163231A JP2004357821A JP2004357821A JP2006163231A JP 2006163231 A JP2006163231 A JP 2006163231A JP 2004357821 A JP2004357821 A JP 2004357821A JP 2004357821 A JP2004357821 A JP 2004357821A JP 2006163231 A JP2006163231 A JP 2006163231A
Authority
JP
Japan
Prior art keywords
noise
signal
stationary
stationary noise
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004357821A
Other languages
English (en)
Other versions
JP4283212B2 (ja
Inventor
Osamu Ichikawa
治 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2004357821A priority Critical patent/JP4283212B2/ja
Priority to US11/298,318 priority patent/US7698133B2/en
Publication of JP2006163231A publication Critical patent/JP2006163231A/ja
Priority to US12/185,954 priority patent/US7890321B2/en
Application granted granted Critical
Publication of JP4283212B2 publication Critical patent/JP4283212B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

【課題】定常雑音に加え、CDプレーヤやラジオの音声等の非定常雑音が存在する環境における耐雑音性を向上させることができる雑音除去技術を提供する。
【解決手段】所定の定数、及び周波数領域の所定の参照信号Rω(T)について、それぞれの適応係数Wω(m)を用いた演算を行うことにより、周波数領域の所定の観測信号Xω(T)に含まれる、定常雑音成分及び前記参照信号に対応する非定常雑音成分の各推定値Nω、Qω(T)を取得する手段11と、観測信号について、各推定値に基づく雑音除去処理を行い、その結果に基づいて各適応係数の更新を行う手段11、14と、前記推定値の取得及び適応係数の更新を繰り返すことにより、各適応係数の学習を行う適応学習手段11、14とを用いて雑音除去装置を構成する。
【選択図】図1

Description

本発明は、定常雑音及び非定常雑音の推定値を得るための各適応係数の学習を同時に行うことにより、雑音抑圧効果の向上を図り、もって、定常雑音及び非定常雑音の双方が存在する環境下における音声認識に適した音声強調を行うことができるようにした雑音除去装置、雑音除去プログラム、及び雑音除去方法に関する。
まず、この発明の背景となる自動車内音声認識の現状について説明する。自動車内音声認識は、主にカー・ナビゲーション・システムにおけるコマンド入力、住所入力等の用途において実用化の域に入っている。しかし、現状では、音声認識の実行中にはCDの音楽を止めたり、同乗者には発話を慎んでもらったりする必要がある。また、踏切の警報機が鳴っている場合には音声認識を実行することができない。したがって、現段階では使用上の制限も多く、技術的にはまだ過渡期にあると考えられる。
自動車内音声認識の耐雑音性は、図11の表に示すような発達段階1〜5を経て進化していくものと考えられる。すなわち、段階1において自動車内音声認識が耐性を有する雑音は定常走行音のみの雑音、段階2では定常走行音及びCDプレーヤやラジオ(以下、「CD・ラジオ」という。)が発する音声を混合した雑音、段階3では定常走行音及び非定常環境騒音(ロードバンプの音、他車通過音、ワイパ音等)を混合した雑音、段階4では定常走行音、非定常環境騒音及びCD・ラジオ音声を混合した雑音、そして、段階5では定常走行音、非定常環境騒音、CD・ラジオ音声及び同乗者の発話を混合した雑音である。現状は段階1にあり、段階2及び段階3の実現に向けて、積極的に研究が進められている。
段階1においては、マルチスタイル・トレーニングとスペクトル・サブトラクションの技術が耐雑音性の向上に大きく貢献したと考えられる。マルチスタイル・トレーニングは、人間の発話に様々な雑音を重畳した音響を、音響モデルの学習に使用するものである。さらに、スペクトル・サブトラクションによって、定常雑音成分を、認識実行時と音響モデル学習時の両方の時点で、観測信号から減算する。これにより、耐雑音性が飛躍的に向上し、定常走行音環境では、音声認識は実用レベルになっている。
段階2のCD・ラジオ音声は、段階3の非定常環境騒音と同じく非定常雑音であるが、特定の車載機器から出力される音声である。このため、その音声に変換される前の電気信号を、参照信号として、雑音の抑圧に利用することが可能である。その仕組みはエコー・キャンセラと呼ばれ、CD・ラジオ音声以外の雑音が無い静かな環境では高い性能を発揮することが知られている。すなわち、段階2では、エコー・キャンセラとスペクトル・サブトラクションの両方を使用することが期待される。しかし、走行中の車内では、参照信号とは関係のない走行音等の雑音が同時に観測されるため、通常のエコー・キャンセラの性能は低下することがわかっている。
図12は通常のエコー・キャンセラのみを用いた従来の雑音除去装置の構成を示すブロック図である。通常は、エコー・キャンセラというと、時間領域のエコー・キャンセラ40を指す。ここでは、説明のため、話者の発話sと背景雑音nがないものと仮定する。スピーカ3に入力されるCD・ラジオ2の音声信号をr、マイク1で受音されるエコー信号をxとすると、これらは室内のインパルス応答gを用いてx=r*gと関係付けられる。*は畳み込み演算を意味する。
そこで、エコー・キャンセラ40は、適応フィルタ42においてこのgの推定値hを求め、推定エコー信号r*hをつくり、これをマイク1による受音信号Inから、減算部43において差し引くことによって、エコー信号xをキャンセルすることができる。フィルタ係数hは、通常、最小平均二乗(LMS)又は正規化した最小平均二乗(N−LMS)のアルゴリズムにより、非発話区間において学習される。これによれば、位相と振幅の両方が考慮されるため、静かな環境では、高い性能が期待できる。しかしながら、高い環境騒音の下では、性能が低下することが知られている。
図13は前段のエコー・キャンセラ40及び後段のノイズ・リダクション部50を備えた従来の雑音除去装置の構成を示すブロック図である。ノイズ・リダクション部50は定常雑音を除去するものであり、ここでは、スペクトル・サブトラクション方式のものを用いている。この装置は、エコー・キャンセラのみ又はスペクトル・サブトラクションのみを行う方法に比べ、性能が高い。しかし、前段のエコー・キャンセラ40への入力Inに、後段で除去されるべき定常雑音も含まれているため、エコー・キャンセルの性能が低下するという問題がある(たとえば非特許文献1参照)。
雑音下におけるエコー・キャンセラの性能を上げるには、エコー・キャンセルを行う前にノイズ・リダクションを行うことが考えられる。しかし、時間領域のエコー・キャンセラの前においては、原理的に、スペクトル・サブトラクション方式のノイズ・リダクションを行うことはできない。また、ノイズ・リダクションをフィルタで行うようにすると、エコー・キャンセラはフィルタの変化に追従することができない。さらに、ノイズ・リダクションのための定常雑音成分の推定を行う際にエコー成分が邪魔になるといった問題もある。したがって、エコー・キャンセルの前にノイズ・リダクションを行う例は数少ない。
図14はこの例を示すブロック図である。前段にスペクトル・サブトラクションによるノイズ・リダクション部60を備え、後段にエコー・キャンセラ70を備える。この構成を含む非特許文献2のものにおいては、エコー・キャンセラの前段及び後段の2箇所においてノイズ・リダクションを試みているが、前段のノイズ・リダクションは、あくまでプリ・プロセスという位置づけである。
後段のエコー・キャンセラ70として、周波数領域のスペクトル・サブトラクション又はウィナー・フィルタによるものを採用することによって、ノイズ・リダクションをエコー・キャンセルの前又はエコー・キャンセルと同時に行うことができる。しかし、この場合、ノイズ・リダクション部60においては、除去すべき雑音成分に対しエコー成分が含まれるので、定常雑音成分の正確な推定が困難である。そこで、特許文献1のものにおいては、適用対象を電話による通話の場合に限定し、通話者の双方が黙っている時間、すなわち背景雑音のみが存在する時間において、定常雑音成分を測定するようにしている。
図15はさらに別の従来例を示す。この例は、図14のものにおいて、定常雑音成分をより正確に推定するために、さらにノイズ・リダクション部60の前段に時間領域のエコー・キャンセラ40を設け、予めエコー成分を除去するようにしている(たとえば非特許文献3及び4参照)。この場合、エコー・キャンセラ40によるプリ・プロセスを行ってもなお、エコー成分は残留する。しかし、適用対象がハンズフリー通話であるので、通話者の双方が黙っている時間、すなわち背景雑音のみの存在する時間が生じるのを期待することができる。したがって定常雑音成分のより正確な測定はそのタイミングにおいて行えばよい。
この従来例では、エコー・キャンセラは2段構成となっているので、エコーはより確実に除去することができる。しかし、非特許文献3及び4のいずれの例においても、エコー成分をエコー推定値の大きさのまま除去しているので、完全に除去できるわけではない。また、非特許文献3の例ではプリ・プロセスの出力値によるフロアリングがなされており、非特許文献4の例では聴感改善のための原音付加方式を採用しているので、いずれの例においてもエコー成分はゼロにならない。その一方、音声認識においては、残留した雑音が音楽やニュースなどの場合、そのパワーがどんなに弱められても、人間の発話として扱われやすく、誤認識に結びつきやすいという背景がある。
非特許文献4では、エコーの残響への対処方式についても言及している。この対処方式では、エコー・キャンセルの際に、前フレームで求めたエコー推定値の係数倍を、現フレームのエコー推定値に追加することにより、残響成分も含めてエコー・キャンセルを行うようにしている。しかし、その係数は部屋の環境に合わせて事前に与えておく必要があり、自動的に決定されるものではないという問題がある。
周波数領域のパワー・スペクトルを使用したエコー・キャンセラにおいては、エコー及びこれを除去するために参照する参照信号がモノラル信号である場合に限らず、ステレオ信号である場合にも対応することができる。具体的には、非特許文献5において述べられているように、参照信号のパワー・スペクトルを、左右の参照信号の重み付け平均とし、重みを、観測信号と左右の参照信号との相関の度合いにより決定すればよい。時間領域のエコー・キャンセラのプリ・プロセスがある場合、その部分については既に研究成果が多数発表されているステレオ・エコー・キャンセラの技術を適用すればよい。
特開平9−252268号公報 F. Basbug, K Swaminathan, S.Nandkumar, "Integrated Noise Reduction and Echo Cancellation For IS-136Systems", ICASSP 2000 B. Ayad, G.Faucon, R.L.B-Jeannes,"Optimization Of a Noise Reduction PreProcessing in an Acoustic Echo and NoiseController", ICASSP 96 P.Dreiseitel, H.Puder, "ACombination of Noise Reduction and Improved Echo Cancelation", IWAENC '97, London,1997, Conference Proceedings, pp. 180 - 183 Sumitaka Sakauchi, AkiraNakagawa, Yoichi Haneda, Akitoshi Kataoka, "Implementing and Evaluating anAudio Teleconferencing Terminal with Noise and Echo Reduction", pp.191-194,IWAENC 2003 Sabine Deligne, Ramesh Gopinath, "RobustSpeech Recognition with Multi-channel Codebook Dependent Cepstral Normalization(MCDCN)", ASRU 2001
上述のように、スペクトル・サブトラクションは、現在、音声認識において広く用いられている。そこで、本発明の目的の1つは、スペクトル・サブトラクションの枠組みを大きく変えることなく、現存する音響モデル等の有効利用を図りながら、定常雑音に加えCD・ラジオ音声等の非定常雑音が存在する環境における耐雑音性を向上させることができる雑音除去技術を提供することにある。
また、車載用のCD・ラジオの音声がエコー音源となっている場合には、エコーが存在しない時間は期待できないため、定常雑音のみが存在する時間が生じることを前提としている図14や図15の従来技術によれば、定常雑音成分を正確に推定することができない。そこで本発明の他の目的は、エコー音が常に存在する状況下においても、定常雑音成分の推定を行うことができる雑音除去技術を提供することにある。
また、上述のように、図15の従来技術によれば、エコー成分の除去性能をより向上させることはできるものの、音声認識に適用した場合、わずかに残留したエコー成分を人間の発話であると誤認するおそれがある。かかる問題点に鑑み、本発明の別の目的は、定常雑音の除去については音響モデルとの互換性を保持しながら、認識文字湧き出しエラーの主要因となるエコー成分をより完全に消去することができる雑音除去技術を提供することにある。
また、上述のエコーの残響についての対処方式によれば、エコー・キャンセルの際に、前フレームで求めたエコー推定値に乗ずる係数を、部屋の環境に合わせて事前に与えておく必要があり、自動的に決定することができないという問題がある。したがって、本発明のさらに別の目的は、エコーの残響についても、随時学習しながら除去することができる雑音除去技術を提供することにある。
上記目的を達成するため、本発明の雑音除去装置、雑音除去プログラム、及び雑音除去方法では、所定の定数についてのその適応係数を用いた演算、及び周波数領域の所定の参照信号についてのその適応係数を用いた演算を行うことにより、周波数領域の所定の観測信号に含まれる定常雑音成分及び参照信号に対応する非定常雑音成分の各推定値を取得し、観測信号について、各推定値に基づく雑音除去処理を行い、その結果に基づいて各適応係数の更新を行うようにしている。前記推定値の取得及び適応係数の更新を繰り返すことにより、各適応係数の学習が行われる。
ここで、雑音除去装置、雑音除去プログラム、及び雑音除去方法としては、たとえば、音声認識やハンズフリー電話器に使用されるものが該当する。雑音除去処理としては、たとえば、スペクトル・サブトラクションや、ウィナー・フィルタによる雑音除去処理が該当する。
この構成において、観測信号に含まれる定常雑音成分及び非定常雑音成分の各推定値が得られると、観測信号について、各推定値に基づく雑音除去処理が行われる。この結果に基づいて、各適応係数が更新され、更新された各適応係数に基づき、さらに、各推定値が求められる。この学習ステップを繰り返すことにより各適応係数の学習が行われる。つまり学習ステップ毎に、順次、定常雑音成分及び非定常雑音成分双方の推定値による雑音除去処理結果に基づいて双方の適応係数の更新が行われ、双方の適応係数の学習が同時に進行する。この学習により得られる最終的な各適応係数を適用して得られる各推定値に基づき、雑音除去処理を観測信号に対して施すことにより、観測信号から定常雑音成分及び非定常雑音成分を良好に除去することができる。
本発明によれば、このようにして、定常雑音成分及び非定常雑音成分双方の適応係数を同時に学習するようにしているので、従来行われていたような、一方の成分についての学習結果に基づいて雑音除去処理を行った後の観測信号に対し、さらに別個に他方の成分についての学習を行い、その結果を反映するという手法に比べ、高い精度で雑音除去を行うことができる。
本発明の好ましい態様においては、観測信号は、音波を電気信号に変換し、さらに周波数領域の信号に変換して取得することができる。また、参照信号は、観測信号に含まれる非定常雑音成分の原因となる非定常雑音源による発音に対応する信号を周波数領域の信号に変換して取得することができる。音波の電気信号への変換は、たとえば、マイクロホンにより行うことができる。周波数領域の信号への変換は、たとえば、離散的なフーリエ変換(DFT)により行うことができる。非定常雑音源としては、たとえば、CDプレーヤ、ラジオ、非定常的な動作音を発する機械、及び電話器におけるスピーカが該当する。非定常雑音源による発音に対応する信号としては、たとえば、非定常雑音源において生成される電気信号としての音声信号や、非定常雑音源の発する音響を電気信号に変換したものが該当する。
この場合、電気信号を周波数領域の信号に変換するのに先立ち、電気信号に対し、周波数領域の信号に変換する前の参照信号に基づき、時間領域におけるエコー・キャンセルを施すようにしてもよい。
本発明の好ましい態様においては、観測信号及び参照信号は、時間領域の信号を所定のフレーム毎に周波数領域の信号に変換して取得することができる。この場合、非定常雑音成分の推定値の取得は、所定の各フレームについて、それに先立つ所定の複数個のフレームの参照信号に基づいて行い、参照信号についての適応係数は、前記複数フレームの各参照信号に係る複数の係数とすることができる。
この場合、雑音除去処理は観測信号から定常雑音成分及び非定常雑音成分の各推定値を減算することにより行い、前記学習は、前記所定の各フレームについての定常雑音成分及び非定常雑音成分の推定値の加算値と観測信号との差の二乗の平均値が小さくなるように適応係数を更新することによって行うことができる。
本発明の好ましい態様においては、観測信号中に非雑音成分が含まれない雑音区間において前記学習により得られた各適応係数を用い、観測信号中に非雑音成分が含まれる非雑音区間において、参照信号に基づき、観測信号に含まれる定常雑音成分及び非定常雑音成分の各推定値を取得し、観測信号について、各推定値に基づく雑音除去処理を行うことができる。この場合、非雑音成分が話者の発話に基づくものであれば、雑音除去処理結果としての出力は、話者の発話についての音声認識を行うために用いることができる。
この場合、雑音除去処理を、観測信号から定常雑音成分及び非定常雑音成分の各推定値を減算することにより行い、その際、減算処理に先立ち、該定常雑音成分の推定値に対し第1の減算係数を乗算するようにしてもよい。第1減算係数の値として、前記音声認識に使用される音響モデルの学習に際し、スペクトル減算による定常雑音の除去のために用いた減算係数と同様の値を用いることができる。「同様の値」には、「同一の値」に限らず、発明の所期の効果が得られると考えられる範囲内の値も含まれる。また、この場合、減算処理に先立ち、該非定常雑音成分の推定値に対し第2の減算係数を乗算し、第2減算係数の値として、第1減算係数の値よりも大きい値を用いるようにしてもよい。
本発明によれば、周波数領域の観測信号及び参照信号に基づき、定常雑音成分及び非定常雑音成分の推定値の算出に用いられる各適応係数の学習を同時に行うようにしたため、両成分が存在する区間においても各適応係数の学習をより精確に行い、両成分のより精確な推定値を取得することができる。その際に、両成分の雑音除去を、スペクトル・サブトラクションの手法によって行うことができるので、現状の音声認識において広く用いられているスペクトル・サブトラクションの枠組みを大きく変更することはない。
このため、上述のように、音声認識に使用される音響モデルの学習に際し、スペクトル減算による定常雑音の除去のために用いた減算係数と同様の値を有する第1減算係数を採用することにより、その音響モデルに適合した雑音除去を行うことができる。したがって既存の音響モデルを有効に利用することができる。
さらにこの場合、上述のように、第1減算係数よりも値が大きな第2減算係数を採用することにより、オーバ・サブトラクションのテクニックを導入することができる。すなわち、非定常雑音成分としてのエコー成分についての第2減算係数についてのみ、音響モデルが想定している減算係数よりも大きい値を設定することにより、定常雑音に対しては音響モデルとの互換性を保ちながら、認識文字湧き出しエラーの主原因となるエコー成分をより多く消し去ることができる。
また、上述のように、非定常雑音成分の推定値の取得を、所定の各フレームについて、それに先立つ所定の複数フレームの参照信号に基づいて行い、参照信号についての適応係数を、該複数フレームの各参照信号に係る複数の係数とすることにより、非定常雑音成分としてのエコーの残響をも含めて除去するように学習を行うことができる。
図1は本発明の一実施形態に係る雑音除去システムの構成を示すブロック図である。同図に示すように、このシステムは、周囲からの音響を電気信号としての観測信号x(t)に変換するマイクロホン1、観測信号x(t)を所定の音声フレーム毎にパワー・スペクトルとしての観測信号Xω(T)に変換する離散フーリエ変換部4、車載用のCD・ラジオ2からスピーカ3への出力信号が参照信号r(t)として入力され、これを前記音声フレーム毎にパワー・スペクトルとしての参照信号Rω(T)に変換する離散フーリエ変換部5、並びに参照信号Rω(T)を参照し、観測信号Xω(T)についてのエコー・キャンセル及び定常雑音の除去を行う雑音除去部10を備える。ここで、Tは音声フレームの番号であり、時間に対応する。ωは離散フーリエ変換(DFT)のビン(bin)番号であり、周波数に対応する。観測信号Xω(T)には、通過自動車等からの定常雑音n、話者からの発話s、及びスピーカ3からのエコーeの各成分が含まれ得る。雑音除去部10における処理は、ビン番号毎に行われる。
雑音除去部10は、エコー・キャンセラ及びスペクトル・サブトラクションによる定常雑音の除去を一体化して行うものである。すなわち雑音除去部10は、発話sが存在しない非発話区間において、観測信号Xω(T)に含まれるエコーのパワー・スペクトル推定値Qω(T)を算出するための適応係数Wω(m)を適応学習により取得し、その過程において、観測信号Xω(T)に含まれる定常雑音のパワー・スペクトル推定値Nωを同時に求め、その結果に基づき、発話sが存在する発話区間において、エコー・キャンセル及び定常雑音の除去を行う。
雑音除去部10は、適応係数Wω(m)に基づき推定値Qω(T)及びNωを算出する適応部11、推定値Nω及びQω(T)に対しそれぞれ減算重みα及びαを乗算する乗算部12及び13、観測信号Xω(T)から乗算部12及び13の出力を減算し、減算結果Yω(T)を出力する減算部14、推定値Nωにフロアリング係数βを乗算する乗算部15、減算部14の出力Yω(T)及び乗算部15の出力βNωに基づき、発話sについての音声認識に使用されるパワー・スペクトルZω(T)を出力するフロアリング部16を備える。適応部11は、非発話区間における適応学習時には、音声フレーム毎に、参照信号Rω(T)を参照し、減算部14の出力Yω(T)をエラー信号Eω(T)として、適応係数Wω(m)の更新を行い、更新された適応係数Wω(m)に基づく推定値Nω及びQω(T)の算出を行うとともに、発話区間においては、音声フレーム毎に、参照信号Rω(T)及び学習済みの適応係数Wω(m)に基づく推定値Qω(T)の算出及び推定値Nωの出力を行う。
図2は離散フーリエ変換部4及び5並びに雑音除去部10を構成するコンピュータを示すブロック図である。このコンピュータは、プログラムに基づくデータ処理や各部の制御を行う中央処理装置21、中央処理装置21が実行中のプログラムや関連するデータを高速にアクセスできるように記憶する主記憶装置22、プログラムやデータを記憶する補助記憶装置23、データや指令を入力するための入力装置24、中央処理装置21による処理結果の出力や、入力装置24との協働によるGUI機能を行うための出力装置25等を備える。図中の実線はデータの流れ、破線は制御信号の流れを示している。このコンピュータには、離散フーリエ変換部4及び5並びに雑音除去部10としてコンピュータを機能させる雑音除去プログラムがインストールされている。また、入力装置24には、図1におけるマイクロホン1等が含まれる。
図1中の乗算部12及び13において乗算される減算重みα及びαは、適応係数Wω(m)の学習時には1にセットされ、音声認識に使用されるパワー・スペクトルZω(T)の出力時には、それぞれ所定の値にセットされる。適応学習のためのエラー信号Eω(T)は、観測信号Xω(T)、エコーの推定値Qω(T)、及び定常雑音の推定値Nωを用いて、次のように記述される。
Figure 2006163231
エコーの推定値Qω(T)は、過去M−1フレーム分の参照信号Rω(T−m)及び適応係数Wω(m)を用いて次のように表現される。
Figure 2006163231
過去の参照信号Rω(T−m)を参照するようにしたのは、1フレームを超える長さの残響に対処するためである。定常雑音の推定値Nωは、便宜上、(3)式で定義される。Constは任意の定数である。
Figure 2006163231
(2)式及び(3)式の定義により、(1)式は(4)式で表すことができる。
Figure 2006163231
適応係数Wω(m)は、非発話区間において、(5)式を最小化するように、適応学習によって求められる。Expect[]は期待値操作を表す。
Figure 2006163231
期待値操作としては、非発話区間の各フレームの平均を算出する操作が行われる。ここでは、非発話区間のTフレーム目までの総和を、次の記号で表す。
Figure 2006163231
(5)式が最小化するとき、次式が成立する。
Figure 2006163231
したがって、次のような関係が得られる。
Figure 2006163231
したがって、適応係数Wω(m)は、次式により求めることができる。
Figure 2006163231
以上の方法によれば行列Aωの逆行列を求める必要があるので、比較的演算量が多い。行列Aωに対して対角化の近似を施せば、次のように、Wω(m)の近似値を逐次的に求めることもできる。△Wω(m)は、Wω(m)についてのフレームTにおける更新量である。ALMSは更新係数、BLMSは安定化のための定数である。
Figure 2006163231
このようにして非発話区間において求められるWω(m)を用い、発話区間においては(12)式、すなわちこれに(2)式及び(3)式を適用した(13)式に従い、観測信号Xω(T)から定常雑音及びエコーを除去したパワー・スペクトルYω(T)を得ることができる。
Figure 2006163231
音声認識に用いられる音響モデルの学習は、従来、定常雑音のみを考慮して行われる。したがって、定常雑音の推定値Nωに対する減算重みαの値として、音響モデルの学習時に施したスペクトル・サブトラクションにおける減算重みの値と同じ値を用いることにより、その音響モデルを、本システムの出力Zω(T)に基づく音声認識において流用することができる。これにより、エコーが存在しない場合の音声認識性能をベストチューンの状態とすることができる。一方、エコーの推定値Qω(T)に対する減算重みαの値として、αより大きい値を採用することによって、音響モデルの学習時には含まれていないエコーをより完全に除去し、エコーが存在する場合の音声認識性能を飛躍的に高めることができる。
一般に、音声認識の前処理としての雑音除去においてスペクトル・サブトラクションを適用する際には、適切なフロアリングが不可欠である。このフロアリングは、定常雑音の推定値Nωを用い、(14a)及び(14b)式に従って行うことができる。βはフロアリング係数である。βの値として、本システムの出力Zω(T)に基づく音声認識に使用する音響モデルの学習時における雑音除去に際して使用したフロアリング係数と同じ値を用いることにより、その音声認識の精度を高めることができる。
Figure 2006163231
このフロアリングを経て、音声認識への入力となる、定常雑音及びエコーが除去されたパワー・スペクトルZω(T)が得られる。Zω(T)に対して逆離散的フーリエ変換(I−DFT)を施し、観測信号の位相を流用することにより、実際に人間の耳で聞くことのできる時間領域の音声z(t)を得ることもできる。
図3及び図4は、適応学習のためのエラー信号Eω(T)を現す式(4)において定数項Constを追加したことにより、定常雑音成分を、参照信号Rに係る適応係数Wと同時に推定することができる様子を示す。ただし簡単のため、エコー成分の推定値の算出に使用する参照信号Rのフレーム数Mの値を1とした場合について示している。図3(a)は、エコー源が存在し、かつ定常雑音としての背景雑音が無い場合の非発話区間において観測された各フレームについての参照信号Rのパワー及び観測信号Xのパワーの観測値を対応付けてプロットしたものである。図3(b)には、これらの観測値に基づいて適応推定がなされた適応係数Wによる参照信号Rに対する観測信号Xの関係が、直線X=W・Rとして示されている。
一方、図4(a)はエコー源及び背景雑音の双方が存在する場合の非発話区間において観測された各フレームについての参照信号Rのパワー及び観測信号Xのパワーの観測値をプロットしたものである。図4(b)には、これらの観測値に基づいて適応推定がなされた適応係数Wによる参照信号Rに対する観測信号Xの関係が、直線X=W・R+Nとして示されている。つまり、定数項Constを追加したことにより、定常雑音成分Nが各フレームにわたる一定の値として、同時に推定されていることがわかる。しかも、図3(b)のエコー源のみが存在する場合と同様の雑音推定精度が得られることがわかる。
図5は図1の雑音除去システムにおける処理を示すフローチャートである。処理を開始すると、まず、ステップ31及び32において、システムは離散フーリエ変換部4及び5により、観測信号及び参照信号のパワー・スペクトルXω(T)及びRω(T)を、それぞれ1フレーム分取得する。
次に、ステップ33において、システムは、今回パワー・スペクトルXω(T)及びRω(T)を取得したフレームの属する区間が、話者が発話を行っている発話区間であるか否かを、観測信号のパワー等に基づく周知の方法を用いて判定する。発話区間でないと判定した場合にはステップ34へ進み、発話区間であると判定した場合にはステップ35へ進む。
ステップ34では、定常雑音の推定値及びエコー・キャンセラ適応係数の更新を行う。すなわち、適応部11は、式(7)〜(10)により、適応係数Wω(m)を求め、式(3)により、観測信号に含まれる定常雑音のパワー・スペクトル推定値Nωを求める。なお、これに代えて、式(11a)及び(11b)を用い、逐次的に適応係数Wω(m)及び定常雑音のパワー・スペクトル推定値Nωを更新するようにしてもよい。この後、ステップ35へ進む。
ステップ35において、適応部11は、適応係数Wω(m)及び過去M−1フレーム分の参照信号に基づき、式(2)により、観測信号に含まれるエコーのパワー・スペクトル推定値Qω(T)を求める。さらに、ステップ36において、乗算部12及び13は、求められた推定値Nω及びQω(T)に対して減算重みα及びαを乗算し、減算部14は式(12)に従い、これらの乗算結果を、観測信号のパワー・スペクトルXω(T)から減算し、定常雑音及びエコーが除去されたパワー・スペクトルYω(T)を取得する。
次に、ステップ37において、定常雑音の推定値Nωによるフロアリングを行う。すなわち、乗算部15は適応部11が求めた定常雑音の推定値Nωに対しフロアリング係数βを乗算する。フロアリング部16は、式(14a)及び(14b)に従い、この乗算結果β・Nωと減算部14の出力Yω(T)との比較を行い、Yω(T)≧β・NωであればYω(T)を、Yω(T)<β・Nωであればβ・Nωを、出力すべきパワー・スペクトルZω(T)の値として採用する。このようにしてフロアリングが施された1フレーム分のパワー・スペクトルZω(T)を、フロアリング部16は、ステップ38において出力する。
次に、システムは、ステップ39において、今回パワー・スペクトルXω(T)及びRω(T)を取得して処理した音声フレームが最後のものであるか否かを判定する。最後のものではないと判定した場合にはステップ31に戻り、次のフレームについて処理を続行する。最後のものであると判定した場合には、図5の処理を終了する。
以上の図5の処理により、非発話区間において適応係数Wω(m)の学習を行うとともに、この学習結果に基づき、発話区間において、定常雑音成分及びエコー成分が除去されてフロアリングが施された音声認識用のパワー・スペクトルZω(T)を出力することができる。
以上説明したように、本実施形態によれば、定常雑音成分及び非定常雑音成分の推定値Nω及びQω(T)の算出に用いられる各適応係数Wω(M)及びWω(m)(m=0〜M−1)の学習を同時に行うようにしているので、各適応係数の学習を精確に行うことができる。したがって、前述の発達段階における段階2、すなわち定常走行音及びCD・ラジオからのエコーが存在する自動車内における音声認識に必要な耐雑音性を達成することができる。
また、定常雑音の推定値Nωに対する減算重みαの値として、段階1の音声認識で使用される音響モデルの学習時における定常雑音の除去に使用した減算重みの値と同じ値を用いることにより、段階2の音声認識において、段階1の音響モデルをそのまま利用することができる。つまり、現行の製品で用いられている音響モデルとの整合性が高い。
また、雑音除去部10では、エコー・キャンセルを含め、スペクトル・サブトラクション方式により雑音成分の除去を行うようにしているため、現行の音声認識システムに対して、その音声認識エンジンのアーキテクチャを大きく変更することなく、本システムを実装することができる。
また、エコーの推定値Qω(T)に対する減算重みαとして、減算重みαよりも大きい値を採用することにより、認識文字湧き出しエラーの主原因となるエコー成分をより多く消し去ることができる。
また、各フレームについてのエコーの推定値Qω(T)の取得を、それに先立つM−1フレーム分の参照信号をも参照して行い、参照信号についての適応係数を、該M−1フレームの各参照信号に係るM個の係数とすることにより、エコーの残響をも含めて除去するように学習を行うことができる。
図6は本発明の別の実施形態に係る雑音除去システムの構成を示すブロック図である。このシステムは、図1の構成において、離散フーリエ変換部4の前に時間領域でのエコー・キャンセラ40を追加したものであり、図15の従来例の場合と同様に、エコー・キャンセラ40によるプリ・プロセスを行うようにしている。エコー・キャンセラ40は、観測信号x(t)に対して所定の遅延を生じさせる遅延部41、参照信号r(t)に基づいて観測信号x(t)に含まれるエコー成分の推定値を出力する適応フィルタ42、観測信号x(t)からエコー成分の推定値を減算する減算部43を備える。減算部43の出力は離散フーリエ変換部4への入力とされる。また、適応フィルタ42は、減算部43の出力をエラー信号e(t)として参照し、自身のフィルタ特性を調整する。これによれば、CPUの負担が増えることとの引替えに、さらに雑音除去性能を向上させることができる。
実施例1として、まず、自動車内のバイザ位置に、図1のマイクロホン1を設置し、アイドリング(車速0[km])、市街地走行(車速50[km])、及び高速走行(車速100[km])の3速度における自動車内の実環境において、男女各12名の話者による連続数字13文及びコマンド13文の発話を収録した。この収録発話データにおけるトータルの収録文数は、連続数字が936文、コマンドが936文である。実環境下における収録であるため、雑音としては定常走行音の他に多少の他車通過音、環境騒音、エアコン音等を含んでいる。このため、走行速度が0[km/h]であったとしても、雑音の影響は受けている。
別途、自動車の停止時において、CD・ラジオ2を動作させてスピーカ3により楽音を出力し、マイクロホン1からの観測信号及びCD・ラジオ2からの参照信号をそれぞれ同時に収録した。そして、収録した観測信号(以下、「収録楽音データ」という。)を、収録発話データに対し適切なレベルで重畳することにより、車速が0[km]、50[km]及び100[km]の場合の実験用観測信号x(t)を作成した。
そして、収録した参照信号r(t)及び作成した実験用観測信号x(t)について、図1の装置を用いて雑音除去を施し、音声認識を行った。ただし、音響モデルとしては、様々な定常走行音を重畳し、スペクトル・サブトラクションを施して作成した不特定話者モデルを用い、音声認識タスクとしては、「1」、「3」、「9」、「2」、「4」等の桁読みなし連続数字タスク(以下、「ディジットタスク」という。)及び「ルート変更」、「住所検索」等の368の単語についてのコマンドタスクを実施した。また、よりフェアな比較を行うために、音声認識実行時には、サイレンス・ディテクタは使用せずに、発話毎に作成されたファイルの全区間を認識対象とした。また、エコーの推定値Qω(T)の算出に使用する参照信号のフレーム数Mの値は5とし、減算重みα及びαの値はそれぞれ1.0及び2.0とした。
なお、ディジットタスクにおいては、桁数指定が無いので、非発話区間における認識文字の誤湧き出しに敏感であり、エコーすなわちここでは楽音による雑音の除去量を観測するのに向いている。一方、コマンドタスクにおいては、文法が1文1単語であるので、認識文字の誤湧き出しの心配は無い。そのため、発話部分の音声歪みの度合いを観測するのに向いていると考える。
図7の表2における実施例1の欄に、図1のシステムの雑音除去方式及びその方式を表すブロック図を示す。表中の「SS」はスペクトル・サブトラクション、「NR」はノイズ・リダクション、「EC」はエコー・キャンセルを意味する。この方式では、上述したように、観測信号X及び参照信号Rに基づいて定常雑音の推定値N”、及びエコーの推定値WRを算出するための適応係数Wについての学習を行い、学習後の推定値N”及びWRを観測信号から減算することによって、出力Yを得るようにしている。つまり、定常雑音の推定値N”が、適応係数Wの学習過程で自然に求められるようになっている。
図8の表3における実施例1の欄に、ディジットタスクによる音声認識の結果として、車速が0[km]、50[km]及び100[km]の各実験用観測信号についての単語誤り率(%)並びにこれらの平均値を示す。また、図9の表4における実施例1の欄に、コマンドタスクによる音声認識の結果として、各実験用観測信号についての単語誤り率(%)並びにこれらの平均値を示す。
実施例2として、図6のシステムを用いた以外は実施例1の場合と同様の条件で音声認識を行った。このシステムの雑音除去方式及びその方式を表すブロック図を表2中の実施例2の欄に示す。この方式は、上述のように、実施例1の方式において、時間領域のエコー・キャンセルをプリ・プロセッサとして加えたものである。また、各タスクによる音声認識の結果を、表3及び表4中の実施例2の欄に示す。
比較例1として、表2中の比較例1の欄に示した雑音除去方式を用い、かつ実験用観測信号の代わりに収録楽音データを重畳していない収録発音データを音声認識に用いた以外は実施例1の場合と同様の条件で音声認識を行った。各タスクによる音声認識の結果を、表3及び表4中の比較例1の欄に示す。この雑音除去方式では、定常雑音及びエコーに対する対策としては、スペクトル・サブトラクションのみが施されている。この方式であっても、定常走行音のみの環境下では、音声認識の精度は十分に高い。
比較例2〜5として、表2中の比較例2〜5の欄にそれぞれ示した雑音除去方式を用いた以外は実施例1の場合と同様の条件で音声認識を行った。各音声認識の結果を、表3及び表4中の比較例2〜5の欄に示す。
比較例2の雑音除去方式では、表2の比較例2の欄に示されるように、エコー・キャンセルは行わず、従来のスペクトル・サブトラクションのみを行っている。この場合、エコー・キャンセルを行っていないため、表3及び4に示されるように、同じ実験用観測信号を使用した、比較例3〜5に比べ、音声認識の精度がかなり低いことがわかる。
比較例3の雑音除去方式では、表2の比較例3の欄に示されるように、定常雑音及びエコーについての対策として、前段でエコー・キャンセルを行い、後段でスペクトル・サブトラクションを行うようにしている。前段のエコー・キャンセルはタップ数2048のN−LMS(正規化された平均二乗)アルゴリズムによるものである。この方式は、図13の従来技術に相当する。エコー・キャンセルを行っているため、表3及び4に示されるように、比較例2に比べ、音声認識の精度がかなり向上しているのがわかる。
比較例4の雑音除去方式では、表2中の対応欄に示されるように、前段でスペクトル・サブトラクションによる定常雑音の除去を行い、後段でスペクトル・サブトラクション形式のエコー・キャンセラによるエコー除去を行うようにしている。この方式は、図14の従来技術に相当する。ただし、よりフェアな比較を可能にするために、実施例1及び2におけると同様の残響対策だけは、この比較例4のものにおいても施してある。比較例4の場合、表3及び4に示されるように、比較例2よりは高い性能を示すものの、定常雑音成分の推定に誤差が大きいため、比較例3よりも性能は劣っている。
比較例4に対する実施例1の最大の相違は、定常雑音成分がエコー・キャンセラの適応の過程で同時に求められる点にある。これにより、実施例1の方式は、比較例3及び4の方式の性能を大きく上回っている。
比較例5の雑音除去方式は、比較例4の方式において、その前段に、時間領域のエコー・キャンセラをプリ・プロセッサとして導入したものである。この方式は、前述の図15の従来技術に相当する。ただし、よりフェアな比較を可能にするために、実施例1及び2における残響対策だけは比較例5のものにおいても施してある。比較例5の場合、表3及び4に示されるように、プリ・プロセッサの効果によって、比較例4に比べ、性能は大きく改善されている。しかし、実施例1はプリ・プロセッサを有していないにも拘わらず、実施例1の性能を超えるには至っていない。
実施例1及び2の結果が比較例3や4に比べて優れているのは、次のような理由によるものと考えられる。すなわち、比較例3の方式によれば、前段のエコー・キャンセラへ入力される観測信号には定常雑音成分が除かれずにそのまま含まれているため、高騒音環境下において、エコー・キャンセラの性能が低下する。また、比較例4の方式によれば、前段において観測信号Xから減算する平均パワーN’にエコーの影響が含まれるので、定常雑音を精確に除去することができない。
これに対し、実施例1によれば、表2中の実施例1の欄に示されるように、定常雑音成分の推定値N”及びエコー・キャンセラにおける適応係数Wについての学習を同時に行い、その結果に基づき雑音除去を行うようにしているため、定常雑音及びエコーの双方を適切に除去することができる。さらに実施例2では、時間領域のエコー・キャンセラをプリ・プロセッサとして導入しているため、表3及び4に示されるように、さらに性能を向上させることができる。
図10は実施例1の方式により学習を行った定常雑音成分のパワー推定値が、学習をエコーが常に存在する環境において行った場合でも、真の定常雑音のパワーに良く一致することを示すグラフである。図中の曲線は、ある1つの発話についての、収録楽音データが重畳されていない収録発話データに基づく、正しい定常雑音パワーを示す。三角(△)は、該1つの発話に対応する実験用観測信号部分に基づき実施例1の方式で学習した定常雑音パワーの推定値を示す。四角(□)は、エコーが除去されていない同じ実験用観測信号部分の雑音区間(非発話区間)についての平均パワーを示す。実施例1の方式で学習した定常雑音成分の推定値は、正しい定常雑音成分を良く近似していることがわかる。
表3(図8)において、比較例3による単語誤り率の平均値は2.8[%]であるのに対し、実施例2による単語誤り率の平均値は1.6[%]となっている。したがって、実施例2によれば、ディジットタスクについて、比較例3に比べ、単語誤り率を43[%]削減したことになる。また、表4(図9)において、比較例3による単語誤り率の平均値は4.6[%]であるのに対し、実施例2による単語誤り率の平均値は2.6[%]となっている。したがって、実施例2によれば、コマンドタスクについて、比較例3に比べ、単語誤り率を43[%]削減したことになる。単語誤り率の40[%]以上の削減は、音声認識の分野においては、顕著な改善である。
なお、本発明は、上述の実施形態に限定されることなく、適宜変形して実施することができる。たとえば、上述においては、雑音除去の処理をパワー・スペクトルの減算により行っているが、この代わりに、強度(マグニチュード)の減算により行うようにしてもよい。一般に、スペクトル・サブトラクションの分野では、パワー及び強度双方の減算によるインプリメントが行われている。
また、上述においては、定常雑音(背景雑音)を除去するために、スペクトル・サブトラクションを用いているが、この代わりに、ウィナー・フィルタ等のような、背景雑音のスペクトラムを除去する他の手法を用いるようにしてもよい。
また、上述においては、エコー及び参照信号として、モノラル信号のものを用いて説明しているが、本発明は、これに限らず、ステレオ信号のものにも対応することができる。具体的には、背景技術の欄で説明したように、参照信号のパワー・スペクトルを、左右の参照信号の重み付け平均とし、時間領域エコー・キャンセラのプリ・プロセスについては、ステレオ・エコー・キャンセラの技術を適用すればよい。
また、上述においては、CD・ラジオ2の音声出力信号を参照信号としているが、この代わりに、カー・ナビゲーション・システムの音声出力信号を参照信号とするようにしてもよい。これによれば、システムが運転者に音声でメッセージを伝えている最中に、ユーザの発話による割込みを音声認識により受け入れるバージインが可能となる。
また、上述においては、自動車内での音声認識を目的として雑音除去を行うようにしているが、これに限らず他の環境における音声認識を目的として本発明を適用することもできる。たとえば、ポータブル・パーソナル・コンピュータ(以下、「ノートPC」という。)によって本発明に従った雑音除去を行う音声認識システムを構成し、ノートPCの音声出力信号を、該システムにおける参照信号とすることにより、ノートPCによってMP3形式の音声ファイルやCD等の楽音を再生している間に、ノートPCによって音声認識を行うことができるようにしてもよい。
また、ロボットにおいて、本発明に従った雑音除去を行う音声認識システムを構成し、ロボットの体内に参照信号取得用のマイクロホンを設置するとともに、体外に向けたコマンド入力用のマイクロホンを設置することにより、ロボットの動作中に顕著となるサーボモータ音などの内部雑音をキャンセルしながら発話によるロボットへのコマンド入力を行うことができるようにしてもよい。また、家庭用テレビにおいて、本発明に従った雑音除去を行う音声認識システムを構成し、テレビの音声出力を参照信号とすることにより、テレビの視聴中に、チャンネル変更や予約録画等のコマンドを、発話によりテレビに与えることができるようにしてもよい。
また、上述においては、本発明を、音声認識に適用した場合について説明したが、これに限らず本発明は、定常雑音及びエコーの除去を必要とする種々の用途に適用することができる。たとえば、ハンズフリー電話機による通話においては、相手からの送話信号はスピーカにより音声に変換され、この音声が、自身の発話を入力するためのマイクロホンを介し、エコーとして入力されてしまう。そこで、該電話機に本発明を適用し、相手からの送話信号を参照信号とすることにより、入力信号からエコー成分を除去し、通話品質を改善することができる。
本発明の一実施形態に係る雑音除去システムの構成を示すブロック図である。 図1のシステムを構成するコンピュータを示すブロック図である。 図1のシステムにより、定常雑音成分Nを、参照信号Rに係る適応係数Wと同時に推定することができる様子を示す図である。 図1のシステムにより、定常雑音成分Nを、参照信号Rに係る適応係数Wと同時に推定することができる様子を、図3との協働により示す図である。 図1の雑音除去システムにおける処理を示すフローチャートである。 本発明の別の実施形態に係る雑音除去システムの構成を示すブロック図である。 各実施例及び比較例で用いられる雑音除去方式及びその方式を表すブロック図を示す表2の図である。 各実施例及び比較例についての、ディジットタスクによる音声認識の結果を示す表3の図である。 各実施例及び比較例についての、コマンドタスクによる音声認識の結果を示す表4の図である。 実施例1の方式により学習を行った定常雑音成分のパワー推定値が真の定常雑音のパワーに良く一致することを示すグラフである。 自動車内音声認識における耐雑音性の発達段階を示す表11の図である。 通常のエコー・キャンセラのみを用いた従来の雑音除去装置の構成を示すブロック図である。 前段のエコー・キャンセラ後段のノイズ・リダクション部を備えた従来の雑音除去装置の構成を示すブロック図である。 前段にスペクトル・サブトラクションによるノイズ・リダクション部を備え、後段にエコー・キャンセラを備える従来の雑音除去装置を示すブロック図である。 図14の装置の前段に時間領域のエコー・キャンセラを設けた従来の雑音除去装置を示すブロック図である。
符号の説明
1:マイクロホン、2:CD・ラジオ、3:スピーカ、4,5:離散フーリエ変換部、10:雑音除去部、11:適応部、12,13,15:乗算部、14:減算部、16:フロアリング部、21:中央処理装置、22:主記憶装置、23:補助記憶装置、24:入力装置、25:出力装置、40:時間領域のエコー・キャンセラ、41:遅延部、42:適応フィルタ、43:減算部、50,60:ノイズ・リダクション部、70:エコー・キャンセラ。

Claims (12)

  1. 所定の定数についてのその適応係数を用いた演算、及び周波数領域の所定の参照信号についてのその適応係数を用いた演算を行うことにより、周波数領域の所定の観測信号に含まれる定常雑音成分及び前記参照信号に対応する非定常雑音成分の各推定値を取得する手段と、
    前記観測信号について、各推定値に基づく雑音除去処理を行い、その結果に基づいて各適応係数の更新を行う手段と、
    前記推定値の取得及び適応係数の更新を繰り返すことにより、各適応係数の学習を行う適応手段とを具備する雑音除去装置。
  2. 音波を電気信号に変換する手段と、前記電気信号を周波数領域の信号に変換して前記観測信号を取得する手段と、前記非定常雑音成分の原因となる非定常雑音源による発音に対応する信号を周波数領域の信号に変換して前記参照信号を取得する手段とを有する請求項1に記載の雑音除去装置。
  3. 前記観測信号及び参照信号は、時間領域の信号を所定の時間フレーム毎に周波数領域の信号に変換して得たものであり、前記非定常雑音成分の推定値の取得は、所定の各フレームについて、それに先立つ所定の複数フレームの前記参照信号に基づいて行われ、前記参照信号についての適応係数は、前記複数フレームの各参照信号に係る複数の係数である請求項1に記載の雑音除去装置。
  4. 前記観測信号中に非雑音成分が含まれない雑音区間において前記学習により得られた各適応係数を用い、前記観測信号中に非雑音成分が含まれる非雑音区間において、前記参照信号に基づき、前記定常雑音成分及び非定常雑音成分の各推定値を取得し、前記観測信号について、各推定値に基づく雑音除去処理を行う雑音除去手段を有する請求項1に記載の雑音除去装置。
  5. 前記非雑音成分は話者の発話に基づくものであり、前記雑音除去手段の出力は話者の発話についての音声認識を行うために用いられる請求項4に記載の雑音除去装置。
  6. 前記雑音除去処理は前記観測信号から前記定常雑音成分及び非定常雑音成分の各推定値を減算する処理であり、前記雑音除去手段は、前記減算処理に先立ち、該定常雑音成分の推定値に対し第1の減算係数を乗算する手段を備え、前記第1減算係数の値は、前記音声認識に使用される音響モデルの学習に際し、スペクトル減算による定常雑音の除去のために用いた減算係数と同様の値である請求項5に記載の雑音除去装置。
  7. 前記雑音除去手段は、前記減算処理に先立ち、該非定常雑音成分の推定値に対し第2の減算係数を乗算する手段を備え、前記第2減算係数の値は、前記第1減算係数の値よりも大きい請求項6に記載の雑音除去装置。
  8. 前記非定常雑音源による発音に対応する信号は、前記非定常雑音源が発する音波を電気信号に変換することによって得られるものである請求項2に記載の雑音除去装置。
  9. 前記電気信号を周波数領域の信号に変換するのに先立ち、前記電気信号に対し、前記周波数領域の信号に変換する前の参照信号に基づき、時間領域におけるエコー・キャンセルを施す手段を有する請求項2に記載の雑音除去装置。
  10. 前記雑音除去処理は前記観測信号から前記定常雑音成分及び非定常雑音成分の各推定値を減算する処理であり、前記学習は、前記所定の各フレームについての前記定常雑音成分及び非定常雑音成分の推定値の加算値と観測信号との差の二乗の平均値が小さくなるように前記適応係数の更新を行うことによって行われる請求項3に記載の雑音除去装置。
  11. 所定の定数についてその適応係数を用いた演算、及び周波数領域の所定の参照信号についてその適応係数を用いた演算を行うことにより、周波数領域の所定の観測信号に含まれる定常雑音成分及び前記参照信号に対応する非定常雑音成分の各推定値を取得する手順と、
    前記観測信号について、各推定値に基づく雑音除去処理を行い、その結果に基づいて各適応係数の更新を行う手順と、
    前記推定値の取得及び適応係数の更新を繰り返すことにより、各適応係数の学習を行う適応手順とをコンピュータに実行させる雑音除去プログラム。
  12. 音波を電気信号に変換する工程と、
    前記電気信号を周波数領域の信号に変換した観測信号を取得する工程と、
    非定常雑音源による発音に対応する信号を周波数領域の信号に変換した参照信号を取得する工程と、
    所定の定数についてその適応係数を用いた演算、及び周波数領域の所定の参照信号についてその適応係数を用いた演算を行うことにより、前記観測信号に含まれる定常雑音成分及び前記非定常雑音源からの音波に基づく非定常雑音成分の各推定値を取得する工程と、
    前記観測信号について、各推定値に基づく雑音除去処理を行い、その結果に基づいて各適応係数の更新を行う工程と、
    前記推定値の取得及び適応係数の更新を繰り返すことにより、各適応係数の学習を行う適応工程とを具備する雑音除去方法。
JP2004357821A 2004-12-10 2004-12-10 雑音除去装置、雑音除去プログラム、及び雑音除去方法 Expired - Fee Related JP4283212B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004357821A JP4283212B2 (ja) 2004-12-10 2004-12-10 雑音除去装置、雑音除去プログラム、及び雑音除去方法
US11/298,318 US7698133B2 (en) 2004-12-10 2005-12-08 Noise reduction device
US12/185,954 US7890321B2 (en) 2004-12-10 2008-08-05 Noise reduction device, program and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004357821A JP4283212B2 (ja) 2004-12-10 2004-12-10 雑音除去装置、雑音除去プログラム、及び雑音除去方法

Publications (2)

Publication Number Publication Date
JP2006163231A true JP2006163231A (ja) 2006-06-22
JP4283212B2 JP4283212B2 (ja) 2009-06-24

Family

ID=36597225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004357821A Expired - Fee Related JP4283212B2 (ja) 2004-12-10 2004-12-10 雑音除去装置、雑音除去プログラム、及び雑音除去方法

Country Status (2)

Country Link
US (2) US7698133B2 (ja)
JP (1) JP4283212B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008085613A (ja) * 2006-09-27 2008-04-10 Toyota Motor Corp 音声認識装置、音声認識方法、移動体、及びロボット
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2008203800A (ja) * 2007-02-23 2008-09-04 Matsushita Electric Works Ltd 音声コントローラ
JP2008224960A (ja) * 2007-03-12 2008-09-25 Nippon Seiki Co Ltd 音声認識装置
JP2009042754A (ja) * 2007-08-09 2009-02-26 Honda Motor Co Ltd 音源分離システム
WO2010001508A1 (ja) * 2008-07-02 2010-01-07 パナソニック株式会社 音声信号処理装置
JP2010102204A (ja) * 2008-10-24 2010-05-06 Yamaha Corp 雑音抑圧装置及び雑音抑圧方法
JP2010185975A (ja) * 2009-02-10 2010-08-26 Denso Corp 車載音声認識装置
WO2012063963A1 (ja) * 2010-11-11 2012-05-18 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム
JP2012208406A (ja) * 2011-03-30 2012-10-25 Nikon Corp 信号処理装置、撮像装置、および、信号処理プログラム
WO2014112023A1 (ja) * 2013-01-17 2014-07-24 日本電気株式会社 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム
US9460731B2 (en) 2010-08-04 2016-10-04 Fujitsu Limited Noise estimation apparatus, noise estimation method, and noise estimation program

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US7720681B2 (en) * 2006-03-23 2010-05-18 Microsoft Corporation Digital voice profiles
US9462118B2 (en) * 2006-05-30 2016-10-04 Microsoft Technology Licensing, Llc VoIP communication content control
US8971217B2 (en) * 2006-06-30 2015-03-03 Microsoft Technology Licensing, Llc Transmitting packet-based data items
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
US8615393B2 (en) * 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
US7752040B2 (en) * 2007-03-28 2010-07-06 Microsoft Corporation Stationary-tones interference cancellation
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
JP5423966B2 (ja) 2007-08-27 2014-02-19 日本電気株式会社 特定信号消去方法、特定信号消去装置、適応フィルタ係数更新方法、適応フィルタ係数更新装置及びコンピュータプログラム
DE602007004217D1 (de) * 2007-08-31 2010-02-25 Harman Becker Automotive Sys Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung
US8326617B2 (en) 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
US8015002B2 (en) 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
EP2148325B1 (en) * 2008-07-22 2014-10-01 Nuance Communications, Inc. Method for determining the presence of a wanted signal component
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8548802B2 (en) * 2009-05-22 2013-10-01 Honda Motor Co., Ltd. Acoustic data processor and acoustic data processing method for reduction of noise based on motion status
US9009039B2 (en) * 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8462193B1 (en) * 2010-01-08 2013-06-11 Polycom, Inc. Method and system for processing audio signals
US8700394B2 (en) * 2010-03-24 2014-04-15 Microsoft Corporation Acoustic model adaptation using splines
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
WO2012014451A1 (ja) * 2010-07-26 2012-02-02 パナソニック株式会社 多入力雑音抑圧装置、多入力雑音抑圧方法、プログラムおよび集積回路
KR101726737B1 (ko) * 2010-12-14 2017-04-13 삼성전자주식회사 다채널 음원 분리 장치 및 그 방법
CN103238182B (zh) * 2010-12-15 2015-07-22 皇家飞利浦电子股份有限公司 具有远程噪声检测器的降噪系统
US10218327B2 (en) * 2011-01-10 2019-02-26 Zhinian Jing Dynamic enhancement of audio (DAE) in headset systems
JP5649488B2 (ja) * 2011-03-11 2015-01-07 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
US8615394B1 (en) * 2012-01-27 2013-12-24 Audience, Inc. Restoration of noise-reduced speech
US9373338B1 (en) * 2012-06-25 2016-06-21 Amazon Technologies, Inc. Acoustic echo cancellation processing based on feedback from speech recognizer
WO2014063104A2 (en) * 2012-10-19 2014-04-24 Audience, Inc. Keyword voice activation in vehicles
KR20140111480A (ko) * 2013-03-11 2014-09-19 삼성전자주식회사 보코더 잡음 억제 방법 및 장치
US9484044B1 (en) 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9208794B1 (en) * 2013-08-07 2015-12-08 The Intellisis Corporation Providing sound models of an input signal using continuous and/or linear fitting
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
WO2016013667A1 (ja) * 2014-07-24 2016-01-28 株式会社エー・アール・アイ エコーキャンセラ装置
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
CN105651533B (zh) * 2014-12-02 2020-05-15 中国国际航空股份有限公司 一种机载空调系统测试装置和测试方法
CN107210824A (zh) 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
US9712866B2 (en) 2015-04-16 2017-07-18 Comigo Ltd. Cancelling TV audio disturbance by set-top boxes in conferences
CN104980337B (zh) * 2015-05-12 2019-11-22 腾讯科技(深圳)有限公司 一种音频处理的性能提升方法及装置
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US20180166073A1 (en) * 2016-12-13 2018-06-14 Ford Global Technologies, Llc Speech Recognition Without Interrupting The Playback Audio
JP6948609B2 (ja) * 2018-03-30 2021-10-13 パナソニックIpマネジメント株式会社 騒音低減装置
DE102018213367B4 (de) * 2018-08-09 2022-01-05 Audi Ag Verfahren und Telefonievorrichtung zur Geräuschunterdrückung eines systemgenerierten Audiosignals bei einem Telefonat sowie ein Fahrzeug mit der Telefonievorrichtung
EP3667662B1 (en) * 2018-12-12 2022-08-10 Panasonic Intellectual Property Corporation of America Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program
JP2020094928A (ja) * 2018-12-13 2020-06-18 本田技研工業株式会社 経路案内装置およびその制御方法、情報処理サーバ、ならびに経路案内システム
KR102569365B1 (ko) 2018-12-27 2023-08-22 삼성전자주식회사 가전기기 및 이의 음성 인식 방법
US10963316B2 (en) 2019-03-25 2021-03-30 Flaist, Inc. Artificial intelligence-powered cloud for the financial services industry
CN110620600B (zh) * 2019-09-11 2021-10-26 华为技术有限公司 车载收音机及控制方法
US11694113B2 (en) 2020-03-05 2023-07-04 International Business Machines Corporation Personalized and adaptive learning audio filtering
CN113506582A (zh) * 2021-05-25 2021-10-15 北京小米移动软件有限公司 声音信号识别方法、装置及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
CA2153170C (en) * 1993-11-30 2000-12-19 At&T Corp. Transmitted noise reduction in communications systems
JP3008763B2 (ja) * 1993-12-28 2000-02-14 日本電気株式会社 適応フィルタによるシステム同定の方法および装置
JPH09304489A (ja) 1996-05-09 1997-11-28 Matsushita Electric Ind Co Ltd 誘導電動機のモータ定数測定方法
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
US6266663B1 (en) * 1997-07-10 2001-07-24 International Business Machines Corporation User-defined search using index exploitation
US6212273B1 (en) * 1998-03-20 2001-04-03 Crystal Semiconductor Corporation Full-duplex speakerphone circuit including a control interface
JPH11307625A (ja) 1998-04-24 1999-11-05 Hitachi Ltd 半導体装置およびその製造方法
DE19957221A1 (de) 1999-11-27 2001-05-31 Alcatel Sa Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
US7171003B1 (en) * 2000-10-19 2007-01-30 Lear Corporation Robust and reliable acoustic echo and noise cancellation system for cabin communication
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US7274794B1 (en) * 2001-08-10 2007-09-25 Sonic Innovations, Inc. Sound processing system including forward filter that exhibits arbitrary directivity and gradient response in single wave sound environment
US20030079937A1 (en) * 2001-10-30 2003-05-01 Siemens Vdo Automotive, Inc. Active noise cancellation using frequency response control
US7167568B2 (en) * 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
JP4161628B2 (ja) * 2002-07-19 2008-10-08 日本電気株式会社 エコー抑圧方法及び装置
JP3984526B2 (ja) * 2002-10-21 2007-10-03 富士通株式会社 音声対話システム及び方法
US7003099B1 (en) * 2002-11-15 2006-02-21 Fortmedia, Inc. Small array microphone for acoustic echo cancellation and noise suppression

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2008085613A (ja) * 2006-09-27 2008-04-10 Toyota Motor Corp 音声認識装置、音声認識方法、移動体、及びロボット
JP2008203800A (ja) * 2007-02-23 2008-09-04 Matsushita Electric Works Ltd 音声コントローラ
JP2008224960A (ja) * 2007-03-12 2008-09-25 Nippon Seiki Co Ltd 音声認識装置
JP2009042754A (ja) * 2007-08-09 2009-02-26 Honda Motor Co Ltd 音源分離システム
WO2010001508A1 (ja) * 2008-07-02 2010-01-07 パナソニック株式会社 音声信号処理装置
JP2010016564A (ja) * 2008-07-02 2010-01-21 Panasonic Corp 音声信号処理装置
JP2010102204A (ja) * 2008-10-24 2010-05-06 Yamaha Corp 雑音抑圧装置及び雑音抑圧方法
JP2010185975A (ja) * 2009-02-10 2010-08-26 Denso Corp 車載音声認識装置
US9460731B2 (en) 2010-08-04 2016-10-04 Fujitsu Limited Noise estimation apparatus, noise estimation method, and noise estimation program
WO2012063963A1 (ja) * 2010-11-11 2012-05-18 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム
US9245524B2 (en) 2010-11-11 2016-01-26 Nec Corporation Speech recognition device, speech recognition method, and computer readable medium
JP5949553B2 (ja) * 2010-11-11 2016-07-06 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム
JP2012208406A (ja) * 2011-03-30 2012-10-25 Nikon Corp 信号処理装置、撮像装置、および、信号処理プログラム
US9734840B2 (en) 2011-03-30 2017-08-15 Nikon Corporation Signal processing device, imaging apparatus, and signal-processing program
WO2014112023A1 (ja) * 2013-01-17 2014-07-24 日本電気株式会社 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム
US9449616B2 (en) 2013-01-17 2016-09-20 Nec Corporation Noise reduction system, speech detection system, speech recognition system, noise reduction method, and noise reduction program
JPWO2014112023A1 (ja) * 2013-01-17 2017-01-19 日本電気株式会社 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム

Also Published As

Publication number Publication date
US20080294430A1 (en) 2008-11-27
US20060136203A1 (en) 2006-06-22
JP4283212B2 (ja) 2009-06-24
US7890321B2 (en) 2011-02-15
US7698133B2 (en) 2010-04-13

Similar Documents

Publication Publication Date Title
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
JP4333369B2 (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
CN106663445B (zh) 声音处理装置、声音处理方法及程序
JP4753821B2 (ja) 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP5528538B2 (ja) 雑音抑圧装置
US20180190306A1 (en) Voice interface and vocal entertainment system
US9002027B2 (en) Space-time noise reduction system for use in a vehicle and method of forming same
JP5071480B2 (ja) エコー抑制装置、エコー抑制システム、エコー抑制方法及びコンピュータプログラム
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
CN109389990B (zh) 加强语音的方法、系统、车辆和介质
US11089404B2 (en) Sound processing apparatus and sound processing method
JP2003500936A (ja) エコー抑止システムにおけるニアエンド音声信号の改善
CN104637491A (zh) 用于内部mmse计算的基于外部估计的snr的修改器
US8199928B2 (en) System for processing an acoustic input signal to provide an output signal with reduced noise
JP2000330597A (ja) 雑音抑圧装置
EP2490218B1 (en) Method for interference suppression
US20060184361A1 (en) Method and apparatus for reducing an interference noise signal fraction in a microphone signal
JP5466581B2 (ja) 反響消去方法、反響消去装置及び反響消去プログラム
JP2005514668A (ja) スペクトル出力比依存のプロセッサを有する音声向上システム
US20160372132A1 (en) Voice enhancement device and voice enhancement method
CN113519169B (zh) 用于音频啸叫衰减的方法和装置
JP4924652B2 (ja) 音声認識装置及びカーナビゲーション装置
CN111226278A (zh) 低复杂度的浊音语音检测和基音估计
JP2003099100A (ja) 音声認識装置およびその方法
Ichikawa et al. Simultaneous adaptation of echo cancellation and spectral subtraction for in-car speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071112

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071226

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080728

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090304

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20090304

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090318

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees