JP2013527493A

JP2013527493A - 複数のマイクによるロバストな雑音抑制

Info

Publication number: JP2013527493A
Application number: JP2013508256A
Authority: JP
Inventors: エヴリ，マーク; アヴェンダノ，カーロス; ソルバッハ，ラッジャー; ジャン，イー; ムルジア，カルロ
Original assignee: オーディエンス，インコーポレイテッド
Priority date: 2010-04-29
Filing date: 2011-04-28
Publication date: 2013-06-27
Also published as: US8538035B2; US20120027218A1; US20130322643A1; TW201205560A; KR20130108063A; TWI466107B; US9438992B2; WO2011137258A1

Abstract

【解決手段】ロバストな雑音抑制システムは、音響信号の雑音成分とエコー成分を同時に低減することが可能であり、同時に音声歪みのレベルを制限する、当該システムは、接話型、手持ち型又は他の構成の、二以上のマイクからの音響信号を受信することができる。受信した音響信号は、蝸牛（cochlea）領域のサブバンド信号へと変換され、エコー成分と雑音成分が、そのサブバンド信号から取り去れられる。音響サブバンド信号の特徴が特定され、乗算マスクを生成するために用いられる。乗算マスクは、雑音が取り去られたサブバンド信号に適用され、サブバンド信号は、時間領域にて再構成される。

Description

本発明は、音声処理に関し、特に、音声信号の雑音抑制処理に関する。

現在、都合の悪い音声環境において、背景雑音を低減するための、数多くの方法が存在する。定常雑音抑制システムは、固定あるいは変動するｄＢにより、定常雑音を抑制する。固定の抑制システムは、固定値のｄＢにより、定常雑音又は非定常雑音を抑制する。定常雑音抑制器の欠点は、非定常雑音を抑制しないことである。一方で、固定の抑制システムの弱点は、低いＳＮＲにおける音声歪みを避けるため、控えめなレベルにより、雑音を抑制しなければならないことである。

雑音抑制の別の方式は、動的雑音抑制である。一般的な種類の動的雑音抑制システムは、信号対雑音比（ＳＮＲ）に基づく。ＳＮＲは、抑制値（suppression value）を決定するために用いられ得る。不幸なことに、ＳＮＲそのものは、音声環境における異なる種類の雑音の存在に起因する音声歪みについての、良い判断材料ではない。一般的に、既定の時間における音声エネルギーは、発話、無音、発話、無音等を含む。さらに、その音声環境において、定常雑音と動的雑音とが、生じ得る。ＳＮＲは、定常及び非定常の音声成分及び雑音成分を全て平均化する。雑音信号の特性についてのＳＮＲの決定においては、単に、雑音の全体的なレベルが考慮されるに過ぎない。

先行技術の弱点を克服するために、音声信号を処理するための、改良された雑音抑制システムが必要とされている。

本技術は、音響信号の雑音成分とエコー成分を同時に低減することが可能であり、同時に音声歪みのレベルを制限する、ロバストな雑音抑制システムを提供する。当該システムは、接話型、手持ち型又は他の構成の、二以上のマイクからの音響信号を受信することができる。受信した音響信号は、蝸牛（cochlea）領域のサブバンド信号へと変換され、エコー成分と雑音成分が、そのサブバンド信号から取り去られる（subtracted）。音響サブバンド信号の特徴（量）（features）が特定され、乗算（multiplicative）マスクを生成するために用いられる。乗算マスクは、雑音が取り去られたサブバンド信号に適用され、サブバンド信号は、時間領域にて再構成される。

一実施形態におけるシステムは、音声信号における雑音低減を実行するシステムであって、メモリを含み得る。前記メモリに保管され、プロセッサにより実行される周波数分析モジュールは、時間領域の音響信号から、蝸牛領域のサブバンド信号を生成することができる。前記メモリに保管され、プロセッサにより実行される雑音消去モジュールは、前記サブバンド信号の少なくとも一部を消去することができる。前記メモリに保管され、プロセッサにより実行される調整モジュールは、変更された前記サブバンド信号の雑音成分又はエコー成分を抑制することができる。前記メモリに保管され、プロセッサにより実行される再構成モジュールは、前記調整モジュールにより提供される、前記成分が抑制された前記サブバンド信号から、変更された時間領域信号を再構成することができる。

雑音低減は、プロセッサ及びメモリを備えるコンピュータにより実行される処理として、さらに実行され得る。また、プログラムが具体化される、コンピュータ読取可能な記憶媒体が、実装され得る。該プログラムは、プロセッサにより実行可能であり、音声信号の雑音を低減する方法を実行する。

本技術において用いられる実施形態の環境を例示する図。例示的なオーディオ装置のブロック図。例示的な音声処理システムのブロック図。音響信号の雑音低減を実行する例示的な方法のフローチャート。音響信号から特徴を抽出する例示的な方法のフローチャート。

本技術は、音響信号の雑音成分とエコー成分を同時に低減することが可能であり、同時に音声歪みのレベルを制限する、ロバストな雑音抑制システムを提供する。当該システムは、接話型、手持ち型又は他の構成の、二以上のマイクからの音響信号を受信することができる。受信した音響信号は、蝸牛（cochlea）領域のサブバンド信号へと変換され、エコー成分と雑音成分が、そのサブバンド信号から取り去られる。音響サブバンド信号の特徴が特定され、乗算（multiplicative）マスクを生成するために用いられる。乗算マスクは、雑音が取り去られたサブバンド信号に適用され、サブバンド信号は、時間領域にて再構成される。本技術は、動的雑音抑制システムと非定常雑音抑制システムの双方を実現し、雑音の特性とユースケースに基づいて、「知覚的に最適な」雑音抑制量を提供する。

雑音消去と雑音抑制の組み合わせによる雑音（及びエコー）低減を実行により、オーディオ装置の柔軟な設計が可能となる。特に、減算（subtractive）と乗算（multiplicative）の段階の組み合わせは、有利である。なぜなら、オーディオ装置のマイクの配置とユースケース（例えば、接話／非接話（far-talk））を柔軟にし、同時に、音声品質と雑音抑制の全体的なトレードオフを最適化するためである。マイクは、「近接したマイク構成」に対して、それぞれ、４センチメートル以内に配置されてもよい。あるいは、「広げられたマイク構成」に対して、４センチメートルより広く配置されてもよい。また、二つより多いマイクを用いる構成の組み合わせであってもよい。

図１は、本技術の実施形態が用いられ得る環境の例を表す図である。ユーザは、オーディオ装置１０４への音源１０２として、振舞う。例示的なオーディオ装置１０４は、二つのマイク：音源１０２に対する主たる（primary）マイク１０６と、主たるマイク１０６から離れて配置される補助的な（secondary）マイク１０８を含む。代わりに、オーディオ装置１０４は、単一のマイクを含んでもよい。さらなる他の実施形態において、オーディオ装置１０４は、二以上のマイク、例えば、３、４、５、６、７、８、９、１０又はそれより多くのマイクを含んでもよい。

主たるマイク１０６及び補助的なマイク１０８は、全方位マイクであってもよい。代わりの実施形態は、指向性マイクのような、他の方式のマイク又は音響センサを利用してもよい。

マイク１０６、１０８は、音源１０２からの音（すなわち、音響信号）を受信するが、マイク１０６、１０８は、さらに、雑音１１２を拾う。図１において、雑音１１０は、単一の場所から到来するように示されているが、音源１０２の位置と異なる、一以上の場所からの、あらゆる音を含み得る。さらに、雑音１１０は、反射とエコーを含み得る。雑音１１０は、定常雑音、非定常雑音及び／又はそれらの組み合わせであり得る。

いくつかの実施形態は、二つのマイク１０６、１０８によって受信される音響信号の間のレベルの差（例えば、エネルギーの差）を利用することができる。接話によるユースケースにおいて、主たるマイク１０６は、補助的なマイク１０８よりも音源１０２に非常に近いため、主たるマイク１０６の強度レベルは、より高くなり、例えば、音声区間（speech/voice segment）に主たるマイク１０６によって受信される、より大きなエネルギーレベルをもたらす。

レベルの差は、時間周波数領域において、音声と雑音を区別するために用いられ得る。さらなる実施形態は、音声を区別するために、エネルギーレベルの差と、時間遅延との組み合わせを用いることができる。両耳キュー符号化に基づいて、音声信号抽出又は音声強調が、実施され得る。

図２は、例示的なオーディオ装置１０４のブロック図である。図示される実施形態において、オーディオ装置１０４は、受信器２００と、プロセッサ２０２と、主たるマイク１０６と、任意の補助的なマイク１０８と、音声処理システム２１０と、出力デバイス２０６を含む。オーディオ装置１０４は、動作に必要な、さらなる、あるいは他の部品を含んでもよい。同様に、オーディオ装置１０４は、図２に示される部品と同様又は同等の機能を実行する、より少ない部品を含んでもよい。

プロセッサ２０２は、オーディオ装置１０４のメモリ（図２において図示されない）に保管された命令及びモジュールを実行し、本明細書で説明される、音響信号に対する雑音低減を含む機能を実行する。プロセッサ２０２は、演算装置として具体化される、ハードウェア及びソフトウェアを含み得る。演算装置は、プロセッサ２０２の、浮動小数点演算や、他の演算を行うことができる。

例示的な受信器２００は、通信ネットワークから信号を受信するよう構成された音響センサである。いくつかの実施形態において、受信器２００は、アンテナデバイスを含んでもよい。その信号は、音声処理システム２１０へと転送され、本明細書で説明される技術を用いて、雑音を低減し、音声信号を、出力デバイス２０６へと提供する。本技術は、オーディオ装置１０４の送信経路及び受信経路の一方又は両方において、使用され得る。

音声処理システム２１０は、主たるマイク１６０と補助的なマイク１０８を用いて、音源から音響信号を受信し、その音響信号を処理するよう構成される。処理は、音響信号において雑音低減を実行する段階を含み得る。音声処理システム２１０は、以下で、より詳細に説明される。主たるマイク１０６と補助的なマイク１０８は、それらの間で、エネルギーレベルの差、時間の差、又は位相の差の検出を可能にするために、一定の距離、離れて配置され得る。主たるマイク１０６と補助的なマイク１０８により受信される音響信号は、電気信号（すなわち、主たる電気信号及び補助的な電気信号）へと変換され得る。電気信号そのものは、アナログデジタル変換器（図示しない）により、デジタル信号へと変換され、いくつかの実施形態に従って処理される。明確化を目的として、音響信号を区別するために、本明細書では、主たるマイク１０６により受信された音響信号は、主たる音響信号と呼び、補助的なマイク１０８で受信された音響信号は、補助的な音響信号と呼ぶ。主たる音響信号及び補助的な音響信号は、音声処理システム２１０によって処理され、信号対雑音比の改善した信号を生成する。本明細書で説明される技術についての実施形態は、主たるマイク１０６のみを利用して、実施され得ることに留意する。

出力デバイス２０６は、音声出力をユーザに提供する、あらゆるデバイスである。例えば、出力デバイス２０６は、スピーカ、ヘッドセット若しくはハンドセットのイヤホン又は会議装置のスピーカを含み得る。

様々な実施形態において、主たるマイク及び補助的なマイクが、近接して配置される（例えば、１−２ｃｍ）全方位マイクである場合には、前方対向（forwards-facing）及び後方対向（backwards- facing）な方向性マイクをシミュレートするために、ビームフォーミング技術が用いられ得る。レベルの差は、時間周波数領域での音声と雑音を区別するために用いられ、雑音低減において利用され得る。

図３は、本明細書で説明される雑音低減方法を実行するための、例示的な音声処理システム２１０のブロック図である。例示的な実施形態において、音声処理システム２１０は、オーディオ装置１０４の中のメモリの中に具体化される。音声処理システム２１０は、周波数分析モジュール３０２、特徴抽出モジュール３０４、音源推定エンジンモジュール３０６、マスク生成モジュール３０８、雑音消去（ＮＰＮＳ）モジュール３１０、調整モジュール３１２及び再構成モジュール３１４を含むことができる。音声処理システム２１０は、図３に示されるより、より多くの部品、あるいはより少ない部品を含み得る。また、複数のモジュールの機能は、より少ないモジュールか、又は追加のモジュールへ、組み合わされるか、または拡張され得る。例示的な通信ラインが、図３及び本明細書の他の図面において、様々なモジュールとの間に示されている。通信ラインは、どのモジュールが通信により他のモジュールと接続されているかを限定することを意図するものではない。また、モジュール間で通信される信号の数や種類を限定することを意図するものではない。

動作において、主たるマイク１０６及び補助的なマイク１０８から受信した音響信号は、電気信号へと変換され、その電気信号は、周波数分析モジュール３０２を通じて処理される。音響信号は、周波数分析モジュール３０２により処理される前に、時間領域において、前処理され得る。時間領域の前処理は、入力リミッタゲインの適用と、音声時間の伸張（stretching）と、ＦＩＲ又はＩＩＲフィルタを用いたフィルタリングを含み得る。

周波数分析モジュール３０２は、音響信号を取得し、フィルタバンクによりシミュレーションされる、蝸牛の周波数分析（例えば、蝸牛領域（cochlear domain））を模倣する。周波数分析モジュール３０２は、主たる音響信号と補助的な音響信号のそれぞれを、二つ以上の周波数サブバンド信号へと、分離する。サブバンド信号は、入力信号に関するフィルタリング処理の結果である。ここで、フィルタの帯域幅は、周波数分析モジュール３０２により受信される信号の帯域幅よりも狭い。そのフィルタバンクは、一連の、直列で、複素数の、一次ＩＩＲフィルタにより、実装され得る。代わりに、短時間フーリエ変換（ＳＴＦＴ）のような他のフィルタ、サブバンドフィルタバンク、変調複素重ね（lapped）変換、蝸牛モデル、ウェーブレット等を、周波数分析及び合成のために、用いることができる。周波数サブバンド信号のサンプルは、連続して、時間フレーム（例えば、既定の期間にわたって）へと区分され得る。例えば、フレームの長さは、４ｍｓ、８ｍｓ又は他の時間長であってもよい。いくつかの実施形態において、全くフレームが存在しなくてもよい。その結果は、高速蝸牛変換（ＦＣＴ；fast cochlea transform）領域において、サブバンド信号を含み得る。

サブバンドのフレーム信号は、周波数分析モジュール３０２から、分析パスサブシステム３２０と、信号パスサブシステム３３０へと提供される。分析パスサブシステム３２０は、その信号を処理し、信号の特徴を識別し、サブバンド信号の音声成分と雑音成分とを区別し、信号調整器（modifier）を生成する。信号パスサブシステム３３０は、サブバンド信号の雑音を低減することにより、主たる音響信号のサブバンド信号を調整する責任を有する。雑音低減は、分析パスサブシステム３２０において生成される、乗法ゲインマスクか、あるいは、サブバンド信号から成分を減算するような、調整器を適用する段階を含むことができる。雑音低減は、サブバンド信号の雑音を低減し、望ましい音声成分を保存することができる。

信号パスサブシステム３３０は、雑音消去モジュール３１０及び調整モジュール３１２を含む。雑音消去モジュール３１０は、周波数分析モジュール３０２から、サブバンドのフレーム信号を受信する。雑音消去モジュール３１０は、主たる音響信号の、一以上のサブバンド信号から、雑音成分を取り去る（すなわち、消去する）ことができる。または、雑音消去モジュール３１０は、主たる信号の中の雑音成分のサブバンド推定と、雑音除去済みのサブバンド信号の形式による音声成分のサブバンド推定を、出力する。

雑音消去モジュール３１０は、例えば、二つのマイク構成を有するシステムにおいて、減算（subtractive）アルゴリズムによる音源決定に基づき、雑音消去を提供することができる。雑音消去モジュール３１０は、さらに、エコー消去を提供することができ、スピーカとＲｘパスの線形性に対して、本質的にロバストである。ほとんど音声品質の劣化がないか、あるいはまったくない雑音消去及びエコー消去（例えば、主たる信号のサブバンドから成分を取り去る）を適用することにより、雑音消去モジュール３１０は、周波数分析モジュール３０２から受信され、調整モジュール３１２と事後的なフィルタリングモジュールへ提供されるサブバンド信号の信号対雑音比（ＳＮＲ）を増加させることができる。実行される雑音消去の量は、雑音源の拡散と、マイク間の距離に依存し得る。これらは、共に、マイク間の雑音のコヒーレンス（coherence）に寄与し、より大きなコヒーレンスは、よりよい消去をもたらす。

雑音消去モジュール３１０は、様々な方法で、実装され得る。いくつかの実施形態において、雑音消去モジュール３１０は、単一のＮＰＮＳモジュールによって、実装され得る。代わりに、雑音消去モジュール３１０は、例えば、直接接続によって配置され得る、二以上のＮＰＮＳモジュールを含み得る。

いくつかの実施形態において、雑音消去器モジュール３１０により実行される、雑音消去の例は、
米国特許出願第１２／２１５，９８０号（タイトル「System and Method for Providing Noise Suppression Utilizing Null Processing Noise Subtraction」、２００８年６月３０日出願）、
米国特許出願第１２／４２２，９１７号（タイトル「Adaptive Noise Cancellation」、２００９年４月１３日出願）、
米国特許出願第１２／６９３，９９８号（タイトル「Adaptive Noise Reduction Using Level Cues」、２０１０年１月２６日出願）、
において開示される。ここで、これらの内容を、本明細書に援用する。

分析パスサブシステム３２０の特徴抽出モジュール３０４は、周波数分析モジュール３０２及びＮＰＮＳモジュール３１０の出力により提供される、主たる音響信号及び補助的な音響信号に由来する、サブバンドのフレーム信号を受信する。特徴抽出モジュール３０４は、サブバンド信号のフレームのエネルギー推定と、主たる音響信号と補助的な音響信号との間のマイク間レベル差（ＩＬＤ）、マイク間時間差（ＩＴＤ）及びマイク間位相差（ＩＰＤ）と、主たるマイクと補助的なマイクの自己雑音推定とを計算する。同様に、マイク信号間のピッチの推定や、相互相関のような、他のモジュールによって利用され得る、他のモノラル又はステレオの特徴が、計算され得る。特徴抽出モジュール３０４は、ＮＰＮＳモジュール３１０への入力を提供し、ＮＰＮＳモジュール３１０からの出力を処理する。

特徴抽出モジュール３０４は、ゼロ化処理（null-processing）のマイク間レベル差（ＮＰ−ＩＬＤ）を生成することができる。ＮＰ−ＩＬＤは、未処理のＩＬＤを用いる本システムにおいて、代わりに用いられてもよい。主たるマイクと補助的なマイクの間の、未処理のＩＬＤは、特徴抽出モジュール３０４内のＩＬＤモジュールにより、決定され得る。一実施形態におけるＩＬＤモジュールによって計算されるＩＬＤは、数学的に、以下のように表すことができる。

ここで、E1とE2は、それぞれ、主たるマイク１０６と補助的なマイク１０８のエネルギー出力であり、重複しない時間間隔（「フレーム」）にわたって、各サブバンド信号において計算される。かかる数式は、要素cにより正規化され、[-1,+1]の範囲に制限された、ｄＢのＩＬＤを表す。従って、音源１０２が、E1の、主たるマイク１０６に近くにあり、雑音がない場合には、ＩＬＤ＝１となり、雑音が追加されると、ＩＬＤが減少する。

いくつかの場合において、マイク間の距離が、主たるマイクと口との間の距離に関して小さい場合に、未処理のＩＬＤは、他の音源（distracter）から正しい音源を区別するために、有益でない場合がある。なぜなら、それらの音源が、およそ等しい値の未処理のＩＬＤを有し得るためである。他の音源から正しい音源を区別するために用いられる、未処理のＩＬＤに関する制限を避けるために、雑音消去モジュール３３０の出力は、音声信号に対して正の値を有し、雑音成分に対して小さいか負の値を有するＩＬＤを求めるために、用いられ得る。なぜなら、これらは、雑音消去モジュール３１０の出力において、著しく減衰するためである。雑音消去モジュールＩＬＤ３３０から求められるＩＬＤは、ゼロ化処理のマイク間レベル差（ＮＰ−ＩＬＤ）から求められ、数学的に、以下のように表される。

ここで、E_NPは、ＮＰＮＳの出力エネルギーである。ＮＰ−ＩＬＤの使用により、オーディオ装置内のマイクの柔軟な配置が可能となる。例えば、ＮＰ−ＩＬＤにより、マイクが、２−１５ｃｍの距離を隔てて、前後に構成されるよう配置され、かつ、全体的な抑制レベルの性能の変動を、数dBとすることが可能となる。

ＮＰＮＳモジュールは、雑音消去済のサブバンド信号を、特徴抽出モジュール３０４のＩＬＤブロックに提供することができる。ＩＬＤは、ＮＰＮＳ出力信号エネルギーの、補助的なマイクエネルギーに対する割合として決定され得るため、しばしば、ＮＰ−ＩＬＤと交換可能である。「未処理のＩＬＤ（Ｒａｗ−ＩＬＤ）」は、ＩＬＤが「未処理の」主たるマイク信号及び補助的なマイク信号から計算される場合に対する曖昧さを除去するために、用いられ得る。

エネルギーレベル推定とマイク間レベル差の決定は、詳しくは、米国特許出願第１１／３４３，５２４号（タイトル「System and Method for Utilizing Inter-Microphone Level Differences for Speech Enhancement」）において説明されており、ここで、これらの内容を、本明細書に援用する。

音源推定エンジンモジュール３０６は、特徴抽出モジュール３０４によって提供される、フレームのエネルギー推定（量）を処理し、雑音推定を計算する。そして、サブバンド信号における雑音と音声のモデルを得る。音源推定エンジンモジュール３０６は、ＮＰＮＳモジュール３１０の出力信号のエネルギースペクトルのような、音源の属性を、適応的に見積もる。エネルギースペクトル属性は、マイク生成モジュール３０８において、乗法マスクを生成するために用いられ得る。

音源推定エンジンモジュール３０６は、特徴抽出モジュール３０４からＮＰ−ＩＬＤを受信し、ＮＰ−ＩＬＤの確率分布又は対象音源１０２、背景雑音及び任意でエコーの「クラスタ」を追跡する。

かかる情報は、他の聴覚のキュー（cue）とともに用いられ、音源及び雑音の分類の間の分類境界を定義する。音声、雑音及びエコーのＮＰ−ＩＬＤ分布は、環境条件、オーディオ装置１０４の移動、ユーザの手及び／又は顔の位置及びオーディオ装置１０４に対する他の物体の変動や、他の要因により、時間と共に変動し得る。クラスタ追跡器は、音声又は雑音源について時間で変化するＮＰ−ＩＬＤを、適応させる。

一般性を失うことなく、エコーを無視し、音源と雑音のＩＬＤ分布が重複しない場合に、ＳＮＲが十分に正であるときには、信号を音声として、あるいは、ＳＮＲが十分に負であるときには、信号を雑音として分類するように、二つの分布の間の分類境界又は優性（dominance）閾値を特定することが可能である。かかる分類は、優性マスクとして、サブバンド及び時間フレームごとに決定され、クラスタ追跡モジュールによって、音源推定エンジンモジュール３０６の雑音推定モジュールへと出力され得る。

クラスタ追跡器は、音響信号に由来する音響の特徴に（少なくとも部分的に）基づいて、音響特性の全体的な（global）要旨（summary）を決定する。全体的に実行する（running）推定は、更新され得る。そして、瞬間の局所的な（local）分類が、少なくとも一以上の音響特性に基づいて、求められる。次に、スペクトルエネルギー分類が、その瞬間の局所的な分類と、一以上の音響特性に（少なくとも部分的に）基づいて、決定され得る。

いくつかの実施形態において、クラスタ追跡モジュールは、かかる局所的なクラスタと観測に基づいて、エネルギースペクトルにおける複数の点を、音声又は雑音として、分類する。そのため、そのエネルギースペクトルの各点に対する、局所的な二値（binary）マスクが、音声か、あるいは雑音として、特定される。

クラスタ追跡モジュールは、サブバンドごとに、雑音／音声分類信号を生成し、その分類を、ＮＰＮＳモジュール３１０に提供することができる。いくつかの実施形態において、その分類は、雑音と音声との間の差を示す制御信号である。雑音消去モジュール３１０は、その分類信号を利用し、受信したマイク信号の雑音を推定する。いくつかの実施形態において、クラスタ追跡モジュールの結果は、音源推定エンジンモジュール３０６内の雑音推定モジュールへと転送され得る。言い換えれば、現在の雑音推定が、音声処理システム２１０内で雑音信号を処理するために、エネルギースペクトルにおける雑音であると示される位置とともに、提供される。

クラスタ追跡モジュールによるクラスタの追跡の例は、米国特許出願第１２／００４，８９７号（タイトル「System and method for Adaptive Classification of Audio Sources」、２００７年１２月２１日出願）に開示される。ここで、これらの内容を、本明細書に援用する。

音源推定エンジンモジュール３０６は、雑音N(t,w)を推定するために、クラスタ追跡モジュールからの雑音／音声分類制御信号と、雑音消去モジュール３１０からの出力を受信し得る、雑音推定モジュールを含むことができる。ここで、tは、時間における点であり、Wは、周波数又はサブバンドを表す。雑音推定モジュールにより決定される雑音推定は、マスク生成モジュール３０８へと提供される。いくつかの実施形態において、マスク生成モジュール３０８は、雑音消去モジュール３１０の雑音推定出力と、クラスタ追跡モジュールの出力を受信する。

音源推定エンジンモジュール３０６内の雑音推定モジュールは、ＮＰ−ＩＬＤ雑音推定器及び定常雑音推定器を含んでもよい。雑音推定値は、例えば、max()演算を用いて、結合され得る。そうして、結合された雑音推定から得られる雑音抑制性能は、少なくとも個別の雑音推定値の雑音抑制性能となる。

ＮＰ−ＩＬＤ雑音推定は、優性マスクと雑音消去モジュール３１０の出力信号エネルギーから求められ得る。あるサブバンドにおける優性マスクが１（音声を示す）である場合に、雑音推定は凍結され、あるサブバンドにおける優性マスクが０（雑音を示す）である場合に、雑音推定が、ＮＰＮＳ出力信号エネルギーと等しくなるように設定される。定常雑音推定は、一般的に音声が変動するよりもゆっくりと変動する、ＮＰＮＳ出力信号の成分を追跡する。そして、かかるモジュールへの主な入力は、ＮＰＮＳ出力エネルギーである。

マスク生成器モジュール３０８は、音源推定エンジンモジュール３０６により推定された、サブバンドの音声成分と雑音成分のモデルを受信し、乗算マスクを生成する。乗算マスクは、ＮＰＮＳ３１０により調整器３１２へと提供される、推定された、雑音除去済サブバンド信号へと適用される。調整器モジュール３１２は、そのゲインマスクを、ＮＰＮＳモジュール３１０により出力された、雑音除去済の、主たる音響信号のサブバンド信号に、乗算する。そのマスクの適用により、主たる音響信号のサブバンド信号における雑音成分のエネルギーレベルが低減され、雑音低減がもたらされる。

乗算マスクは、ウィーナフィルタ及び音質最適化抑制システムによって定義される。ウィーナフィルタは、雑音のパワースペクトル密度と、主たる音響信号のパワースペクトル密度とに基づき得る。ウィーナフィルタは、雑音推定に基づくゲインを導く。導かれたゲインは、雑音のある信号を前提として、完全な（clean）音声信号の理論上のＭＭＳＥの推定を生成するために、用いられる。マスクを適用した結果としての、音声歪みの量を制限するために、ウィーナゲインは、知覚的に求められるゲイン下限（lower bound）を用いて、下端において制限され得る。

マスク生成モジュール３０８からのゲインマスク出力値は、時間と、サブバンド信号に依存し、サブバンドごとに、雑音低減を最適化する。雑音低減は、音声損失歪みが、許容される閾値制限に従うという制約を受け得る。閾値制限は、例えば、音声品質最適化抑制（VQOS；voice quality optimized suppression）レベルのような、多くの要因に基づき得る。ＶＱＯＳレベルは，雑音低減により取り込まれる、サブバンド信号内の音声損失歪みの、推定される最大の閾値レベルである。ＶＱＯＳは調整可能であり、サブバンド信号の特性を考慮し、システム及び音響設計者に、完全な設計の柔軟性を提供する。サブバンド信号において実行される雑音低減の量の下限は、ＶＱＯＳ閾値に従って決定されることにより、サブバンド信号の音声損失歪みの量を制限する。結果として、あるサブバンド信号において、可能であれば、大きな量の雑音低減がなされ得る。そして、大きな量の雑音低減に対する、大きな音声損失歪みが許容されないような場合には、雑音低減は、より小さくなり得る。

いくつかの実施形態において、サブバンド信号における雑音成分のエネルギーレベルは、少なくとも、残留雑音目標レベルまで低減され得る。残留雑音目標レベルは、固定されるか、ゆっくりと時間において変動し得る。いくつかの実施形態においては、残留雑音目標レベルは、各サブバンド信号に対して同一であり、他の実施形態においては、サブバンドにわたって変化してもよい。かかる目標レベルとは、雑音成分が知覚されなくなるレベルか、主たる音響信号を取得するために用いられるマイクの自己雑音レベルより低いレベルか、ベースバンドチップ上のある成分のノイズゲート若しくは雑音低減技術を実装するシステム内の内部ノイズゲートより低いレベルとして定義され得る。

調整モジュール３１２は、雑音消去モジュール３１０から、信号パスの蝸牛（cochlear）サンプルを受信し、その受信されたサンプルに、マスク生成器３０８から受信したゲインマスクを適用する。信号パスの蝸牛サンプルは、主たる音響信号の、雑音除去済のサブバンド信号を含み得る。ウィーナフィルタ推定により提供されたマスクは、フレームからフレームへと、すぐに変動し得る。また、雑音推定及び音声推定は、フレーム間で、変動し得る。その変動に対応するために、マスクの上方（upwards）及び下方（downwards）時間（temporal）スルーレート（slew rate）が、調節器３１２により、合理的な制限の中で、制約され得る。そのマスクは、フレームレートから、サンプリングレートまで、単純線形補間を用いて補間され、乗算の雑音抑制により、サブバンド信号に適用される。調節モジュール３１２は、マスク済の周波数サブバンド信号を出力することができる。

再構成モジュール３１４は、マスク済の周波数サブバンド信号を、蝸牛領域から、時間領域へと、変換することができる。その変換は、マスク済の周波数サブバンド信号と、位相シフト済の信号とを、加算する段階を含み得る。代わりに、当該変換は、マスク済の周波数サブバンド信号を、蝸牛チャンネルの逆周波数と乗算する段階を含んでもよい。時間領域への変換が完了すると、合成された音響信号は、出力装置２０６を介してユーザへ出力され、かつ／あるいはエンコーディングのためにコーデックへと提供される。

いくつかの実施形態において、合成された時間領域の音響信号についての、追加の事後処理が実行され得る。例えば、快適雑音生成器により生成される、快適雑音（comfort noise）が、ユーザに信号を提供する前に、合成された音響信号に追加され得る。快適雑音は、通常、聞き手にとって認識できない、一様な快適雑音（例えば、ピンク雑音）であり得る。かかる快適雑音は、合成された音響信号に加えられ、可聴性についての閾値を強制し、低レベルの非定常出力雑音成分をマスクする。いくつかの実施形態において、快適雑音レベルは、可聴性についての閾値よりちょうど上になるよう選択され、さらに、ユーザによって設定可能とされ得る。いくつかの実施形態において、マスク生成モジュール３０８は、雑音を、快適雑音のレベルか、又はそれより低いレベルに抑えるゲインマスクを生成するために、快適雑音のレベルへのアクセスを有する。

図３のシステムは、オーディオ装置によって受信される、複数の種類の信号を処理することができる。本システムは、一以上のマイクにより受信される音響信号に適用され得る。本システムは、デジタルのＲｘ信号のような、アンテナ又は他の接続を通じて受信される信号を、さらに処理することができる。

図４及び図５は、本技術を実行する例示的な方法のフローチャートを含む。図４及び図５の各ステップは、任意の順番で実行され得る。また、図４及び図５の方法は、図示されるよりも、さらに追加のステップを含んでもよいし、より少ないステップで実行されてもよい。

図４は、音響信号の雑音低減を実行する例示的な方法のフローチャートである。ステップ４０５において、マイクの音響信号が受信される。マイク１０６、１０８により受信される音響信号は、音声及び雑音の少なくとも一部を、それぞれ含み得る。ステップ４１０において、音響信号についての前処理が実行され得る。前処理は、音響信号への、ゲイン、均等化及び他の信号処理を適用する段階を含んでもよい。

ステップ４１５において、蝸牛（cochlea）領域における、サブバンド信号が生成される。サブバンド信号は、複素フィルタの直列接続を用いて、時間領域の信号から、生成され得る。

ステップ４２０において、特徴抽出が実行される。特徴抽出は、サブバンド信号から、雑音成分を消去し、サブバンド信号が雑音又はエコーを有するかを推定し、マスクを生成するために用いられる、特徴を抽出することができる。特徴抽出の実行は、図５に関して、より詳細に説明される。

ステップ４２５において、雑音消去が実行される。雑音消去は、ＮＰＮＳモジュール３３０により、周波数分析モジュール３０２から受信された、一以上のサブバンド信号について、実行され得る。雑音消去は、主たる音響信号のサブバンドから、雑音成分を取り去る段階を含み得る。いくつかの実施形態において、エコー成分は、主たる音響信号のサブバンドから消去され得る。雑音消去済（又はエコー消去済）信号は、雑音成分エネルギー推定を決定するために特徴抽出モジュール３０４に提供され、さらに、音源推定エンジン３０６に提供され得る。

ステップ４３０において、雑音推定（値）、エコー推定（値）及び音声推定（値）が、サブバンドに対して決定され得る。それぞれの推定は、音響信号の各サブバンドと、音響音声信号の各フレームに対して決定され得る。エコーは、音源推定エンジン３０６により受信されるＲｘ信号の、少なくとも一部から、決定されてもよい。ある時間フレーム内のサブバンドが、雑音か、音声か、又はエコーであるかの決定に関する推定は、マスク生成モジュール３０８に提供される。

ステップ４３５において、マスクが生成される。マスクは、マスク生成器３０８により、生成され得る。マスクが生成され、特定のサブバンドが、雑音か、音声か、又はエコーであるかの決定に基づいて、各フレームの、各サブバンドに適用され得る。マスクは、音声品質最適化抑制、すなわち、音声歪みの特定のレベルに最適化されるよう決定された抑制レベルに基づいて、生成され得る。ステップ４４０において、マスクは、サブバンドに適用され得る。マスクは、調整器３１２によって、ＮＰＮＳ３１０により出力されたサブバンド信号へ適用され得る。マスクは、調整器３１２により、フレームレートから、サンプリングレートまで、補間され得る。

ステップ４４５において、サブバンド信号から、時間領域の信号が再構成される。時間バンド信号は、再構成モジュール３１４が、サブバンド信号に対する一連の遅延及び複素数乗算演算を適用することにより、再構成され得る。ステップ４５０において、再構成された時間領域の信号について、後処理が実行され得る。後処理は、後処理器によって実行され、再構成された信号に出力リミッタの適用、自動ゲイン制御の適用又は他の後処理を含んでもよい。ステップ４５５において、再構成された出力信号が、出力され得る。

図５は、音声信号から特徴を抽出する例示的な方法のフローチャートである。図５の方法は、図４の方法のステップ４２０の詳細を提供する。ステップ５０５において、サブバンド信号が受信される。特徴抽出モジュール３０４は、周波数分析モジュール３０２からサブバンド信号を受信し、雑音消去モジュール３１０から出力信号を受信することができる。ステップ５１０において、例えば、サブバンドエネルギーレベルのような、二次統計（値）が、決定される。エネルギーサブバンドレベルは、各フレームの、各サブバンドに対して、決定され得る。ステップ５１５において、マイク間の相互相関や、マイク信号の自己相関が、計算され得る。ステップ５２０において、マイク間レベル差（ＩＬＤ）が、決定される。ステップ５２５において、ゼロ化処理（null processing）のマイク間レベル差（ＮＰ−ＩＬＤ）が決定される。ＩＬＤとＮＰ−ＩＬＤは、共に、サブバンド信号エネルギーと、雑音推定エネルギーの、少なくとも一部から、決定される。抽出された特徴は、サブバンド信号の雑音を低減する、音声処理システムによって、利用される。

図３、４に関して説明されたものを含む、上述したモジュールは、コンピュータ読取可能な媒体（例えば、コンピュータ読取可能な媒体）のような、記憶媒体に保管される命令として、含まれ得る。これらの命令は、プロセッサ２０２によって読み出され、実行され、上述した機能を実行することができる。いくつかの命令の例は、ソフトウェア、プログラムコード及びファームウェアを含む。記憶媒体の例は、メモリ装置及び集積回路を含む。

本発明は、上述した、好ましい実施形態及び実施例への参照によって開示されるが、かかる例は、例示的なものであり、限定する意図をもってなされたものではない点に留意する。修正及び組み合わせは、容易に当業者の頭に思い浮かぶであろうことが予期される。これらの修正及び組み合わせは、本発明の精神及び以下のクレームの範囲内にある。

Claims

音声信号の雑音低減を実行するシステムであって：
メモリと；
前記メモリに保管され、プロセッサによって実行される周波数分析モジュールであって、時間領域の音響信号から、蝸牛領域のサブバンド信号を生成する、周波数分析モジュールと；
前記メモリに保管され、プロセッサにより実行される雑音消去モジュールであって、前記サブバンド信号の少なくとも一部を消去する、雑音消去モジュールと；
前記メモリに保管され、プロセッサにより実行される調整モジュールであって、変更された前記サブバンド信号の雑音成分又はエコー成分を抑制する、調整モジュールと；
前記メモリに保管され、プロセッサにより実行される再構成モジュールであって、前記調整モジュールにより提供される、成分が抑制された前記サブバンド信号から、変更された時間領域の信号を再構成する、再構成モジュールと；
を有する、システム。
前記時間領域の音響信号は、オーディオ装置の一以上のマイクの信号から受信される、
請求項１に記載のシステム。
前記メモリに保管され、プロセッサにより実行される特徴抽出モジュールであって、前記サブバンド信号の特徴を決定し、前記特徴は、前記音響信号の一連のフレームのうちの各フレームに対して決定される、特徴抽出モジュール
をさらに有する、請求項１に記載のシステム。
前記特徴抽出モジュールは、第一の音響信号と、第二の音響信号、第三の音響信号又は他の音響信号との間の、マイク間のレベル差又はマイク間の時間差若しくは位相差に基づいて、前記雑音消去モジュール又は前記調整モジュールの適応を制御するよう構成される、
請求項３に記載のシステム。
前記雑音消去モジュールは、前記サブバンド信号から、雑音成分を取り去るか、又は、エコー成分を取り去ることにより、前記サブバンド信号の少なくとも一部分を消去する、
請求項１に記載のシステム。
前記メモリに保管され、プロセッサにより実行される特徴抽出モジュールであって、前記サブバンド信号の特徴を決定し、前記特徴は、前記音響信号の一連のフレームのうちの各フレームに対して決定される、特徴抽出モジュール
をさらに有し、
前記特徴は、前記特徴抽出モジュールにおいて、前記雑音消去モジュールの出力と、ゼロ化処理のマイク間のレベル差のような、受信した入力信号とから算出される、
請求項５に記載のシステム。
前記メモリに保管され、プロセッサにより実行されるマスク生成モジュールであって、マスクを生成し、前記マスクは、前記調整モジュールによって、前記雑音消去モジュールにより出力されたサブバンド信号へと適用されるよう構成される、マスク生成モジュール
をさらに有する、請求項１に記載のシステム。
前記メモリに保管され、プロセッサにより実行される特徴抽出モジュールであって、前記サブバンド信号の特徴を決定し、前記特徴は、前記音響信号の一連のフレームのうちの各フレームに対して決定される、特徴抽出モジュール
をさらに有し、
前記マスクは、前記特徴抽出モジュールにおいて求められた一以上の特徴の一部に基づいて決定される、
請求項７に記載のシステム。
前記マスクは、前記第一の音響信号の各サブバンドの、音声損失歪みの閾値レベル、雑音若しくはエコー抑制の所望のレベル、又は推定される信号対雑音比のうちの少なくとも一部に基づいて決定される、
請求項８に記載のシステム。
音響信号の雑音低減を実行する方法であって：
プロセッサが、周波数分析モジュールを実行し、時間領域の音響信号から、蝸牛領域のサブバンド信号を生成する段階と；
プロセッサが、雑音消去モジュールを実行し、前記サブバンド信号の少なくとも一部を消去する段階と；
プロセッサが、調整モジュールを実行し、変更された前記サブバンド信号の雑音成分又はエコー成分を抑制する段階と；
プロセッサが、再構成モジュールを実行し、前記抑制する段階において提供される、成分が抑制された前記サブバンド信号から、変更された時間領域の信号を再構成する段階と；
を有する、方法。
オーディオ装置の一以上のマイクの信号から前記時間領域の音響信号を受信する段階
をさらに有する、請求項１０に記載の方法。
前記サブバンド信号の特徴を決定する段階であって、前記特徴は、前記音響信号の一連のフレームのうちの各フレームに対して決定される、段階
をさらに有する、請求項１０に記載の方法。
第一の音響信号と、第二の音響信号、第三の音響信号又は他の音響信号との間の、マイク間のレベル差又はマイク間の時間差若しくは位相差に基づいて、前記雑音消去モジュール又は前記調整モジュールの適応を制御する段階
をさらに有する、請求項１２に記載の方法。
前記サブバンド信号から、雑音成分を取り去るか、又は、エコー成分を取り去ることにより、前記サブバンド信号の少なくとも一部分を消去する段階
をさらに有する、請求項１０に記載の方法。
前記サブバンド信号の特徴を決定する段階であって、前記特徴は、前記音響信号の一連のフレームのうちの各フレームに対して決定される、段階
をさらに有し、
前記特徴は、前記特徴抽出モジュールにおいて、前記雑音消去モジュールの出力と、受信した入力信号とから算出される、
請求項１４に記載の方法。
マスクを生成する段階であって、前記マスクは、前記調整モジュールによって、前記雑音消去モジュールにより出力されたサブバンド信号へと適用されるよう構成される、段階
をさらに有する、請求項１０に記載の方法。
前記サブバンド信号の特徴を決定する段階であって、前記特徴は、前記音響信号の一連のフレームのうちの各フレームに対して決定される、段階
をさらに有し、
前記マスクは、前記特徴抽出モジュールにおいて求められた一以上の特徴の一部に基づいて決定される、
請求項１６に記載の方法。
前記マスクは、前記第一の音響信号の各サブバンドの、音声損失歪みの閾値レベル、雑音若しくはエコー抑制の所望のレベル、又は推定される信号対雑音比のうちの少なくとも一部に基づいて決定される、
請求項１７に記載の方法。
プロセッサに音響信号の雑音低減を実行する方法を実行させるプログラムを保管するコンピュータ読取可能な記憶媒体であって、前記方法は：
時間領域の音響信号から、蝸牛領域のサブバンド信号を生成する段階と；
前記サブバンド信号の少なくとも一部を消去する段階と；
変更された前記サブバンド信号の雑音成分又はエコー成分を抑制する段階と；
前記抑制する段階において提供される、成分が抑制された前記サブバンド信号から、変更された時間領域の信号を再構成する段階と；
を有する、記憶媒体。