JP2012517613A

JP2012517613A - 複数マイクロフォンベースの方向性音フィルタ

Info

Publication number: JP2012517613A
Application number: JP2011548846A
Authority: JP
Inventors: クリストフ・ファーラー
Original assignee: ウェーブス・オーディオ・リミテッド
Priority date: 2009-02-09
Filing date: 2010-02-09
Publication date: 2012-08-02
Anticipated expiration: 2030-02-09
Also published as: JP5845090B2; EP2393463B1; EP2393463A4; EP2393463A1; US8654990B2; US20110286609A1; WO2010092568A1

Abstract

所望の出力指向性の既定パラメータ、および拡散音の必要とされる減衰の既定パラメータに応じて拡散音の量が減衰された出力信号を生成するために、音響信号のフィルタリングに使用するシステムおよび方法が提供される。このシステムは、フィルタリングモジュールと、方向分析モジュールおよびフィルタ構築モジュールを含むフィルタ生成モジュールとを含む。

Description

本発明は、一般に音響信号のフィルタリングの分野に関し、2つ以上のマイクロフォンからの音響信号をフィルタリングする方法およびシステムに関連する。

参照文献
以下の参照文献は、本発明の背景を理解する目的に適切と考えられるものである。
[1] C. Faller、「Multi-loudspeaker playback of stereo signals」、J. of the Aud、Eng. Soc、vol. 54、no. 11、1051〜1064頁、2006年11月
[2] Barry D. Van Veen、Kevin M. Buckley「Beam Forming, a Versatile approach to spatial filtering」、IEEE ASSP、1988年4月、4〜24頁
[3] Otis Lamont Frost「An algorithm for linearly constraint adaptive array processing」、Proc. Of IEEE、vol. 60、number 8、1972年
[4] Alexis Favrot、Christof Faller、「Perceptually Motivated Gain Filter Smoothing for Noise Suppression」Audio Engineering Society (AES) Convention Paper 7169 presented at the AES 123^rd Convention、New York、NY、2007年10月5〜8日

雑音抑制技術は、音声信号の雑音低減、または音声再生に広く使用されている。ほとんどの雑音抑制アルゴリズムは、入力音声信号のスペクトル変調に基づいている。入力チャネルから受信した音声信号の短時間スペクトルに利得フィルタが適用され、それによって雑音が抑制された出力信号が生成される。

利得フィルタは通常、実数値の利得であり、前記入力信号の各時間-周波数タイル(時間スロット(窓)および周波数帯域(BIN))ごとに、それぞれの時間-周波数タイル内の雑音パワーの推定値に応じて計算される。異なる時間-周波数タイル内の雑音量の推定精度は、出力信号に重大な影響を及ぼす。各タイル内の雑音量が実際より低く推定されると、雑音のある出力信号になりうるが、雑音量が実際より高く推定されると、あるいは整合性のない推定値があると、出力信号に様々なアーチファクトが生じる。

音声信号中の雑音を低減することは非常に望ましいが、雑音抑制は、雑音低減の程度と、それに伴うアーチファクトとのトレードオフになる。一般に、出力信号中のアーチファクトの程度は、雑音推定の精度、および求められる雑音低減の程度によって決まる。除去される雑音が多いほど、エイリアジング効果および利得フィルタの時間変化によりアーチファクトが多くなりやすい。しかし、入力信号中の雑音の推定がより高精度になると、高度の雑音低減を得ることが、それに伴ってアーチファクトが増加することなく可能になる。参照文献[4]は、本発明の発明者の提案による雑音低減のための利得フィルタリング技法の一例である。

入力信号中の雑音量を推定するための多くの技法がある。これらの技法のほとんどは、入力信号、所望の出力信号または雑音の性質に関係がある何らかの仮定に基づいている。例えば、このような技法の1つは、入力信号中の雑音成分のパワーが、得られるべき純信号よりも一般に低いという仮定に基づいている。したがって、パワーが低い(例えば、ある閾値未満)時間-周波数タイルは雑音が多いとみなされ、したがって抑制される。別の技法によれば、雑音低減フィルタは、希望入力信号および雑音にそれぞれ付随するとみなされる特定の増強および抑制するスペクトル帯域(例えば、音声関連帯域)が対象となる。

本発明の発明者の提案による別の方法によれば、雑音量は、雑音だけを含む「雑音のある」時間フレームを決定することによって推定される(例えば、音声活動検出器VADを使用する)。この場合、先行および/または後続の時間フレーム(この中で音声が検出される)の各時間-周波数タイル内の雑音のパワーは、対応する「雑音のある」時間フレームのタイルのパワーに基づいて推定される。

いくつかの技法では、特定の方向からの特定の音源の音を他の音よりも増強するための指向性ビーム形成が、複数の音源が存在する音響状況において利用される。一般に、これらの技法によれば、複数のマイクロフォンから受信した入力信号は、特定の方向からマイクロフォンに到達する音声成分を増強するように、適切な位相遅延を加えて組み合わされる。これにより、音源の分離、および背景雑音の低減が可能になり、また特定の人の声をその人の周囲の複数の話し手から分離することが可能になる。

指向性ビーム形成は、無指向性(または指向性が高くない)マイクロフォンでもよい複数のマイクロフォンのアレイから受信した入力信号を利用して行うことができる。例えば参照文献[2]および[3]に記載されているように、多くのタイプの複数マイクロフォン指向性アレイが過去50年間に構築されてきた。

マルチマイクロフォンアレイはまた、音源信号対背景雑音比の向上と、音源の方向を決定する精度とのトレードオフによっても特徴付けられる。仮想カージオイドと呼ばれることもある遅延減算法(delay-and-subtract methods)では、広い指向性ビームおよび低い音源信号対背景雑音比がもたらされるが、適応フィルタビーム形成器では、音源の方向が分かっており、かつ正確に追跡される場合に限り、正確な音源の方向に向いている細いビームを得ることができる。同時に、ビームを広くするとまた、アルゴリズムが室の反射および反響の影響を受けやすくなる。

当分野では、入力チャネルからの音響信号の高SNRフィルタリングが可能な新規のフィルタリング技法が、背景雑音を抑制するために、かつこのようなチャネルを介して受け取られる音響場内の前景音響信号を増強するために必要とされている。現在、携帯電話、ラップトップ型コンピュータ、電話および遠隔会議デバイスなどの様々な電子デバイスに2つ以上のマイクロフォンが備えられているが、マイクロフォンの信号は、前景信号対背景雑音比を向上し、遠端聴取者のそばで明瞭度を改善するように処理される必要がある。

入力信号の信号対雑音比を向上させる既存の技法は、一般に、マイクロフォン位相アレイを利用する「ビーム形成」技法、つまり適切な遅延(例えば、位相遅延)がある複数のチャネル(複数のマイクロフォンと結合)からの信号入力を、指向性が向上した出力信号になるように組み合わせる技法と、出力信号が通常、単一入力信号に適用される雑音フィルタリング手法によって生成される「雑音抑制」技法とに分類される。

雑音抑制技法およびシステムは一般に、入力信号yをy[n]=x[n]+v[n]として、すなわち、増強/保存されるべき前景信号xと、フィルタリングされるべき背景信号v(雑音)との合計としてモデル化することに基づいている(nは時間サンプル指数)。雑音フィルタリングは、雑音推定手法に基づいており、この手法によれば、入力信号中の雑音のパワーは通常、個別の応用例、および雑音抑制/低減が求められる音場の性質に応じて選択される。

既存の雑音抑制技法では、高SNR出力を得ることができるようにする適切な雑音推定方法/アルゴリズムが実現されず、したがって雑音抑制技法の性能が低下する。既存の雑音推定法は通常、音声強調などの特定の用途向けに設計されている。これらの方法は一般に、信号に関する仮定に依拠し、この仮定は、各時間フレームおよび各周波数帯域内の雑音量を推定するためのベースとしての役割を果たす。

「ビーム形成」は一般に、特定の方向に置かれた音源からの音に対して方向感度が高められた出力信号を得ることを目的とする。この目的は、適切な遅延および増幅率を用いて加算または減算された2つ以上の音声チャネルからの入力信号を重ね合わせることによって達成される。この遅延および増幅率は、加算された出力信号が、特定の所望の方向から感知システムに到着する信号に対しより高い感度を有するように、感知システムのセットアップ(マイクロフォンの指向性および位置)に応じて設計される。一般にこれらの技法によれば、所望の方向からの音に対応する1つまたは複数のチャネルからの入力信号は、同相で重ね合わされ、したがって増幅される一方で、所望の方向以外からの音に対応する信号は、位相をずらして重ね合わされ、抑制される。

典型的なビーム形成応用例の感知システムでは、マイクロフォンのアレイを利用する。コストを低減し処理量を低減するために、このようなアレイに使用されるマイクロフォン(音声チャネル)の数は最小限にすることが望ましい。しかし、ビーム形成がマイクロフォン間の距離と、マイクロフォンによって感知される音波の波長との間の関係に関連しているので、少数のマイクロフォンを利用してビーム形成を行うと、出力信号に様々なアーチファクトが生じる一方で、指向性でフィルタリングできる周波数範囲に厳しい制限が課され、また必要な処理速度およびサンプリング速度(スペクトル帯域間隔に対応する)にも厳しい制限が課される。

例えば、間隔を置いて離れた2つのマイクロフォンを含むビーム形成セットアップを考えると、マイクロフォン間の間隔/距離よりもずっと長い波長の入力信号では、両方のマイクロフォンでほとんど同一の出力信号が生成するはずである。非常に短い波長では、マイクロフォンで雑音が多く、合算した計算結果が不正確になる。マイクロフォン間の距離程度の波長では、応答性が周波数に大きく依存するようになり、異なるマイクロフォンに到達する信号の位相を同期させることは困難であり、さらには不可能でもある。したがって、典型的なビーム形成システムでは、前述のアーチファクトを低減することが、複数のマイクロフォン(3つ以上)のアレイを利用すること、およびより強力な処理ユニットを使用することによって達成される。したがって、ビーム形成システムは、その数のマイクロフォンで限定された空間、および限定された処理資源によりコストが高く、また携帯電話などの小型デバイスに使用するにはあまり適さない。ビーム形成技法の別の種類のアーチファクトは、アレイ内の異なるマイクロフォンカプセルの応答性の差(製造および音響設置の際の制限事項に起因する)から生じる。これらのアーチファクトは本質的に、異なる応答性を有する複数のマイクロフォンからの信号を重ね合わせることによって、出力信号中に生成される。本発明は、指向性音響(特に音声)フィルタに関連し、このフィルタでは、少数の音響(音声)チャネル(2つまで減る)を利用してある指向性を実現できるようになる一方で、上記のビーム形成技法のアーチファクトが最小限になる。本発明は、ある既定のフィルタモジュールで前記信号の指向性フィルタリングの動作パラメータを決定することによって、音響信号からの雑音抑制を可能にする。動作パラメータは、既定のフィルタモジュールに応じて、かつ音場の方向分析を利用することによって決定される。典型的には、使用されるフィルタモジュールは適応フィルタモジュールであり、その動作パラメータ(例えば、フィルタ係数)が、フィルタリングされるべき信号の部分(時間フレーム)ごとに連続して決定される。あるいは、フィルタモジュールは、短時間フーリエ変換(STFT)領域などの短時間スペクトルまたはフィルタバンク領域で実施することができる。この場合、動作パラメータは、フィルタリングされるべき信号の部分(時間-周波数タイル)ごとに連続して決定することができる。

この点で限定されないが、音場の方向分析は、異なる方向からの音響場を感知することに対応する2つ(以上)の音響チャネル(入力信号)に基づいて実施することができる。音響チャネルは、異なる指向性を有する2つ以上のマイクロフォンから、および/またはフィルタリングされる音響場に対して別々の位置に置かれた2つ以上のマイクロフォンから(直接、または入力信号の録音によって)得ることができる。

より具体的には、本発明は、音声域の音響信号をフィルタリングするために使用され、したがって、この具体的な応用例に関して以下で説明する。しかし、本発明は、音関連の応用例に限定されないことを理解されたい。

本発明は、音場の方向分析により、雑音抑制システムの動作を最適にできる正確な方向性雑音推定を行うことができるという理解に基づいている。より具体的には、音場についてのパラメータの方向分析が、2つ以上のチャネル/マイクロフォンから受信した入力信号に基づいて実施される(以下で説明するように)。方向分析は、例えば、入力信号の各部分(タイル)(特定の時間フレームおよび/または特定の周波数帯域と関連している)の拡散信号および直接信号のパワーと、直接音が生じる方向とを含む、音場の方向特性(データ)を良好な精度で決定することを目的とする。

この点において、雑音低減フィルタの動作パラメータを決定することは、方向性雑音推定を行うための音場の前記方向特性を利用して、フィルタリング後に得られて出力信号中で強調されなければならない特定の所望の方向に対して(例えば、特定の所望の出力指向性について)行われると共に、入力信号中の直接音および拡散音の大きさに基づいている。一般に、前記所望の方向と異なる方向から生じる入力信号の一部分は、フィルタリングされるべき入力信号中の雑音部(または拡散音成分)とみなされ、したがって、フィルタリングされた出力信号中では減衰していなければならない。したがって、フィルタリングされるべき信号からの雑音低減のための動作パラメータ/フィルタ係数は、所望の出力指向性に基づいて、また直接音が生じるそのような方向に基づいて構築して、出力信号中の雑音成分を低減/減衰することができる。通常は、動作フィルタパラメータは、出力信号中のそのような信号の別々の部分の増幅(または抑制)にそれぞれ関連する複数の係数を含む。

しかし、出力信号から全ての、またはほとんどの拡散音(雑音部)をフィルタで除去しようとすると、出力音信号中に可聴のアーチファクトが生じるおそれがある。一般に、出力信号からフィルタで除去される雑音が多いほど、信号中のアーチファクトのレベルが高くなる。したがって、本発明によれば、最適な雑音フィルタリングを可能にするために、動作パラメータは、出力信号中の拡散音の必要とされる量を示す別のパラメータに応じて構築される。このパラメータを利用すると、雑音抑制のレベル、および出力信号中のフィルタリングアーチファクトのレベルを最適化することが可能になる。また、システムの少なくとも2つの入力チャネルのいずれか1つに雑音抑制を適用することによって出力信号が得られるので、方向性雑音抑制が複数の入力信号の加算/重ね合わせ(ビーム形成技法)に基づく場合に生じるアーチファクトを回避することも可能になる。

したがって、本発明の技法によって得られる出力信号は、少数のチャネルのビーム形成の結果として生じる前述のアーチファクトを伴わずに、指向性が高まっている。また、複数のマイクロフォンからの出力信号が、雑音推定に役立つだけで出力信号の最終生成には役立たないので、異なる指向性の波長感度の差によるアーチファクトも低減される。また、方向分析を目的とする本発明の文脈では、ビーム形成を利用する場合、以下でさらに説明するように、振幅補正フィルタをビーム形成信号に適用することによってビーム形成の特定のアーチファクトをさらに抑制することもできる。

これに関連して、雑音抑制および前記動作パラメータの決定が音場の方向分析に基づく本発明の文脈では、直接音および拡散音という用語は、それぞれ入力信号の無雑音部および雑音部を示すために使用されることに留意されたい。直接音は一般に、音源からマイクロフォンに直接到達する音とみなされ、通常はマイクロフォン間で互いに関連している。拡散音は、例えば直接音の反射から生じる周囲音とみなされ、音場を感知するマイクロフォン間で互いに関連することが一般に少ない。出力信号のフィルタリングに関して、出力信号からの拡散を抑制することが好ましく、また、出力信号が増強されるべき所望の方向(前記所望の出力方向と一致する)とは異なる方向から生じる直接音の部分を抑制することも好ましい。

したがって、以下では、フィルタ係数の構築との関連において、感知システムによって特定(規定/既定)の感知ビーム内の方向(所望の出力指向性)から受け取られる音波は、直接音とみなされ、他の方向からの音波は拡散音とみなされる。感知ビームという用語は、出力信号で得られるべき特定の所望の出力指向性と関連している。

上記のように、感知システムから入力音信号が受け取られ、この感知システムは、マイクロフォンのアレイを含むことができ、このマイクロフォンは、無指向性のマイクロフォンとすることができ、または特定の好ましい指向性を伴うことができる。本発明のいくつかの特定の実施形態では、2つのマイクロフォンを含む感知システムが、2つの入力音信号を得るのに役立つ。2つのマイクロフォンは、実質的に無指向性とすることができる。異なる指向性を有する2つの音響ビーム信号を生成するために2つの入力信号を重ね合わせることは、いわゆる遅延減算法を利用する勾配処理(gradient processing)によって実施して、2つの勾配(カージオイド)信号を形成することができ、この信号から直接音および拡散音の量が計算される。本発明のいくつかの実施形態による方向分析は、2つの異なる指向性(少なくとも一方は非等方性)に対応する少なくとも2つの音響ビーム信号を得ること、および/または形成(計算)することを含む。特定の指向性(例えば、特定の増強(抑制)の方向)に関して音響ビーム信号を形成(計算)することは、感知システムから受け取られる、それぞれ異なる信号間の時間遅延がある入力音信号を重ね合わせることによって得ることができる。感知システムから音響ビーム信号を得る(受信する)ことは一般に、特定の好ましい感度方向を本質的に有する実質的に指向性のマイクロフォンを感知システムが含む場合に、可能である。

したがって、本発明の広範な一態様によれば、音響信号のフィルタリングに使用するための、かつ拡散音の量が減衰された出力信号を生成するためのシステムが提供される。このシステムは、フィルタリングモジュールと、方向分析モジュールおよびフィルタ構築モジュールを備えるフィルタ生成モジュールとを含む。フィルタ生成モジュールは、音響場に対応する少なくとも2つの入力信号を受信するように構成される。

方向分析モジュールは、第1の処理を施して前記少なくとも2つの受信した入力信号を分析するように、かつ分析される信号中の拡散音の量を示すデータを含む方向データを決定するように構成され動作可能である。フィルタ構築モジュールは、所望の出力指向性と、出力信号中の拡散音の必要とされる減衰との各既定パラメータを利用して前記方向データを分析するように、かつフィルタリングモジュールの動作パラメータ(フィルタ係数)を示す出力データを生成するように構成される。出力信号からのアーチファクトを低減するために、フィルタ構築モジュールはまた、動作パラメータに時間平滑化を施すように適合させることもできる。

このフィルタリングモジュールは、動作パラメータを利用して入力信号の少なくとも1つに第2の処理を施し、前記所望の出力指向性と、拡散音の必要とされる減衰に対応する拡散音の量とを伴う出力音響信号を生成するように構成される。本発明のいくつかの実施形態では、フィルタリングモジュールは、前記動作パラメータを利用して入力信号の1つにスペクトル修正を加えるように構成され動作可能である。フィルタリングモジュールは、様々なタイプのフィルタ(例えば、利得フィルタ/ウィーナフィルタ)によって実施することができる。

本発明のいくつかの実施形態によれば、フィルタ生成モジュールは、入力信号にビーム形成を適用して異なる指向性と関連する少なくとも2つの音響ビーム信号を得るように構成され動作可能であるビーム形成モジュールを含む。これらの実施形態では通常、方向分析モジュールは、音響ビーム信号の第1の処理を施して方向データを決定するように構成される。音響ビーム信号は、任意のビーム形成技法によって、例えば入力信号間に遅延(時間遅延または位相遅延)がある入力信号の重ね合わせを利用することによって、得ることができる。信号のビーム形成に伴うアーチファクトを低減するために、ビーム形成モジュールは、前記音響ビーム信号に振幅補正フィルタを適用するように適合させることができる。

少数の入力信号が供給される場合、遅延減算技法をビーム形成に使用することができる。例えば、本発明のいくつかの実施形態では、入力信号は無指向性マイクロフォンから生じることができ、遅延減算技法が、カージオイド指向性の音響ビーム信号を得るために使用される。

本発明のいくつかの実施形態によれば、フィルタ生成モジュールは、信号を複数の部分(例えば、時間-周波数タイル)に分解するように構成される。前記部分について方向分析を実施して、前記部分に対応する直接の音響成分および拡散音響成分のパワーを得ること、および前記直接の音響成分が生じる方向を決定することができる。

本発明のいくつかの実施形態によれば、システムは、例えば短時間フーリエ変換を利用して信号を時間フレームおよび周波数帯域に分割することを場合により利用することによって、前記分析される信号を時間および/または周波数部分に分解するように構成された時間-スペクトル変換モジュールを含む。あるいは、または加えて、入力信号の一部をフーリエ領域に供給することもできる。

本発明の別の広範な態様によれば、音響信号のフィルタリングに使用する方法が提供される。この方法は、所望の出力指向性の既定パラメータ、および音響信号のフィルタリングによって出力信号中に得られるべき拡散音の必要とされる減衰の既定パラメータを示すデータを利用する。この方法は、音響場に対応する少なくとも2つの異なる入力信号を受信する段階と、入力信号に第1の処理を施して処理信号中の拡散音の量を示す方向データを得る段階とを含む。次に、この方向データと、出力指向性の既定パラメータおよび拡散音の必要とされる量を示すデータとを利用して、入力信号のうちの1つをフィルタリングするための動作パラメータを生成する。

本発明のいくつかの実施形態によれば、動作パラメータを利用する第2の処理を入力信号のうちの1つに施して、信号をフィルタリングし、前記出力指向性の出力音響信号を生成し、出力信号の拡散音の必要とされる減衰を得る。

本発明のいくつかの実施形態では、方向推定および拡散音推定の方法は、適切な方向情報を得るのに適した任意の既知の処理法、または将来まださらに考案されるべき処理法を使用して実施することができ、必ずしも勾配法に限定されない。

本発明によるシステムは、適切にプログラムされたコンピュータであってよいこともまた理解されたい。同様に、本発明は、本発明の方法を実行するコンピュータによって読み取り可能なコンピュータプログラムを企図している。本発明はさらに、本発明の方法を実行する機械によって実行可能な命令のプログラムを明確に具体化する機械可読メモリを企図している。

したがって、本発明のいくつかの実施形態によれば、2つ以上のマイクロフォンから到来する信号を処理するシステム、方法および装置が提供される。本発明のいくつかの実施形態によれば、処理のための装置は、2つ以上の時間同期化音声信号を受信するための、かつ受信した音声信号のうちの1つがフィルタリングされた音である単一の音声信号を出力するための音声処理回路を含み、この装置では、あらかじめ規定された空間方向とは異なる方向から到来する音が減衰される。

本発明を理解し、それが実際にどのように実施されるかが分かるように、次に、諸実施形態を非限定的な例だけで、添付の図面を参照して説明する。

本発明による一般時間領域における方向音響(音)フィルタリングシステムの概略図である。本発明による複数の周波数帯域で動作するように適合された方向音フィルタリングシステムの概略図である。 2つのマイクロフォンからの入力信号に基づく方向性フィルタを実施するように構成された方向音フィルタリングシステムの概略図である。短時間フーリエ変換を利用して入力信号の複数バンドへの帯域分割が得られる、図2Aのシステムのより詳細な図である。本発明による方向音フィルタリング方法の一例を示す図である。 2つのマイクロフォンからの入力信号の勾配処理によって得られる2つの音ビーム信号の指向性を示す概略図である。方向φ₀=0°および異なるVの値に対する出力信号の指向性を示す図である。異なる幅Vの値での方向φ₀=90°に対する出力信号の指向性を示す図である。方向φ₀=60°および異なる幅Vの値に対する出力信号の指向性を示す図である。幅V=2で様々な方向φ₀に対する出力信号の指向性を示す図である。

図を簡単に分かりやすくするために、図示の要素は必ずしも原寸に比例して示されていないことを理解されたい。例えば、分かりやすくするために、要素のうちのいくつかは大きさが他の要素に対して誇張されていることがある。さらに、適切と考えられる場合には、相当または類似する要素を示すために参照数字が複数の図の中で繰り返されることがある。

以下の詳細な説明では、本発明の完全な理解が得られるように、多数の具体的詳説が示される。しかし、本発明は、これらの具体的詳説がなくても実施できることが当業者には理解されよう。他の例では、よく知られている方法、手順、構成要素および回路は、本発明を不明瞭にしないように詳細に説明していない。

本発明のいくつかの実施形態は、それぞれのマイクロフォンから、場合により信号の増幅後および/またはアナログデジタル変換および時間同期化の後に到来する、複数の入力音声信号(音声チャンネル)を処理するシステム、方法および回路に関する。また場合により、追加のマイクロフォン較正がマイクロフォン較正モジュールによって施されることがある。このような較正モジュールの使用は任意選択である。すなわち較正モジュールは本発明の要素ではなく、説明のために言及するだけである。適切なマイクロフォン較正は、本発明の処理の入力部のマイクロフォン信号の一部分とみなされ、そのモジュールは、2つのマイクロフォン間の整合を改善することが目的である任意の種類のフィルタとすることができる。このフィルタは、あらかじめ取り付けることができ、あるいは受け取られる信号に応じて適合させることができる。したがって、本明細書の実施形態および図面では、マイクロフォン信号に言及することが較正フィルタリング後の信号と関係がありうる。

図1Aを参照すると、本発明による音響(音)フィルタリングシステム100Aの動作の一般的原理が例示されている。システム100Aは、フィルタ生成モジュール150を含み、このフィルタ生成モジュールは、感知システム110と連係し、また特定のフィルタリングモジュール160とも連係し、かつフィルタリングモジュールの動作パラメータを決定するように構成され動作可能である。後者は、システム100Aの構成部分であってもなくてもよく、フィルタ生成モジュール150の出力に応答する。

本発明によるシステムのモジュールは、任意選択で電子回路によって、およびまたはソフトウェアまたはハードウェアモジュールによって、あるいは両方の組合せによって実施できることを理解されたい。この点において、図には特に示されていないが、本発明のモジュールには、本発明の方法を実施するように動作可能な1つまたは複数のプロセッサ(例えば、デジタル信号プロセッサ)および記憶ユニットが付随する。また、フィルタ生成モジュール150およびフィルタリングモジュール160には、システムによって処理されるべき入力信号を受信するための、および/またはフィルタリングされた信号を出力するための1つまたは複数の音響ポートが付随する。

フィルタ生成モジュール150は、音響場(例えば音場)と関連する少なくとも2つの入力信号(この例では、n個の入力信号x₁、x₂ ... x_n)を感知システム110から受け取り、これらの入力信号を処理および分析して、フィルタリングモジュールの動作パラメータを決定するように構成され動作可能であり、フィルタリングモジュールがこの動作パラメータで動作することによって、前記入力信号のうちの1つにさらなる処理を施すことが可能になる。フィルタ生成モジュール150は、n個の入力信号に処理を施し、信号の差異を示すデータを含む方向データを得る。そうして得られたデータは次に、フィルタ生成モジュール150によって、所望の出力指向性および出力信号中の拡散の必要とされる量の各既定パラメータを示す特定の理論データを利用して分析される。この分析により、音場に対応する入力信号x₀をフィルタリングする既定のフィルタモジュールに使用するのに適した動作パラメータ(フィルタ係数)Wが決定される。フィルタリングモジュール160は、最適動作パラメータ(フィルタ係数)を用いて加えられた場合に雑音が低減された(背景雑音が低減された)出力信号xが得られるようにする入力信号x₀に、方向性フィルタリングを施すように構成され動作可能である。

好ましくは、前記既定のフィルタリングモジュール160は、時間領域および/またはスペクトル領域のいずれかで、入力信号x₀に適合フィルタリングを施すように構成され動作可能である。したがって、最適フィルタ係数Wは、フィルタリングモジュール160による入力信号x₀の適合フィルタリングを可能にするために、適合フィルタリング時間フレーム/スペクトル帯域ごとに動的に決定される。フィルタ生成モジュール150は、方向分析モジュール130、フィルタ構築モジュール140を含み、場合によりビーム形成モジュール120も含む。方向分析モジュール130は、異なる指向性の音ビーム信号を利用して音場の方向特性を決定するように構成される一方で、フィルタ構築モジュール140は、前記方向特性を利用して既定のフィルタモジュール(例えば、適合スペクトル修正フィルタ)の動作パラメータを決定する。

本発明のいくつかの実施形態では、入力信号x₁〜x_nは、異なる指向性に対応する。この場合、前記音ビーム信号y₁〜y_mのうちの少なくともいくつかは入力の一部で構成され、したがって、ビーム形成モジュール120の使用が不要になりうる。あるいは、または加えて、ビーム形成モジュール120を使用して音ビーム信号y₁〜y_mを生成する。ビーム形成モジュール120は、複数の入力信号x₁〜x_nを受信するように、またこれら入力信号から、それぞれ異なる指向性を有する少なくとも2つの音ビーム信号(この例では、複数m個の音ビーム信号y₁〜y_m)を形成するように適合される。ビーム形成は、供給される入力信号に使用するのに適した任意のビーム形成技法により実現できることに留意されたい。少数の入力信号が使用される場合には、音ビーム信号からの低周波アーチファクトを低減するために、振幅補正フィルタが音響ビーム信号に適用されることが好ましい。

方向分析モジュール130は、複数の音ビーム信号y₁〜y_mを受け取り分析し、音場内の音(例えば音波)の伝搬の推定方向を示すデータ、および音場を特徴付ける方向(パラメータ)データDDを得る。このような方向データDDは、一般に音場内の音の方向に対応し、また場合により、拡散/周囲音成分および直接音成分の量/パワーと、直接音成分が生じる方向とに対応する。方向データ/パラメータDDは、方向分析モジュール130、およびフィルタ構築モジュール140への入力によって生成される。フィルタ構築モジュール140では、方向データDDを利用して、既定のフィルタリングモジュール(160)に使用するのに適した動作パラメータ(係数)Wを決定する。フィルタリングモジュールは、音響場に対応する入力信号x₀に適用されるべき方向性フィルタを実施する。このx₀は、n個の入力信号のうちの1つでありうる。係数Wは通常、フィルタリングされた出力信号で得られるべき所望の出力指向性DRおよび拡散の必要とされる量Gに関する所与の基準に基づいて、フィルタ構築モジュール140によって決定される。

その動作パラメータWが決定されるフィルタリングモジュール160は、入力音響信号に特定のフィルタリング機能を適用することによって入力音響信号x₀をフィルタリングして、雑音が減衰された出力信号を得るように構成される。フィルタリング機能は、動作パラメータWに基づく場合、所望の出力指向性DRと類似の出力指向性と、拡散の必要とされる量Gとを有する出力信号を得ることを可能にする。したがって、雑音減衰は、拡散音の抑制/減衰と、所望の出力指向性の感知ビームの外側の方向から生じる音の抑制/減衰とで達成される。雑音減衰の程度はまた、出力信号x₀中の拡散の必要とされる量Gにも依存する。

出力指向性という用語は、出力信号に望まれるどんな指向性関数にも対応しうることに留意されたい。このような指向性を規定するパラメータは、例えば、音が増強または減衰されるべき指向性ビームの1つまたは複数の方向および幅を含むことができる。出力音響信号xの拡散音成分(拡散)の量/利得Gは、入力(マイクロフォン)信号中の拡散音の量に対するdB値として、出力信号の所望のアンビエンスを表すことができる。

雑音フィルタリングの従来の手法では、フィルタリングされるべき音声チャネル(信号)の内容だけが、そのチャネルで抑制されるべき雑音を推定するのに使用されることを理解されたい。本発明によれば、雑音推定は、音響場/音場を示す追加データ(複数のチャネル/入力信号)に基づく。これにより、より正確な雑音推定および優れた結果が得られる。

したがって、本発明では、複数のチャネルを組み合わせるために、また音場の方向分析を実施するために、ビーム形成技法を利用する。音場の方向分析が得られた後、動作パラメータ(フィルタ係数)が決定される。これにより、単一の音声チャネル(入力信号)をフィルタリングするための動作パラメータを適用することが可能になり、それによってビーム形成のアーチファクトがなくなる。

本発明によれば、雑音推定およびフィルタ構築は、音場の方向分析に基づく。これは、実質的に無指向性の入力音信号(例えば、x₁およびx_n)を受信することによって(例えば、音感知システム110の実質的に無指向性マイクロフォンM₁〜M_nから)、また特定の好ましい指向性を有する(すなわち特定の方向に対し感度が高められた)音ビーム信号(例えば、y₁およびy_m)を生成するようにビーム形成を利用する(例えば、ビーム形成モジュール120を利用する)ことによって、実現することができる。しかし、ビーム形成モジュール120は任意選択であり、感知システム110自体が、異なる指向性の入力信号(例えば、y₁およびy₂)(例えば、そのうちの少なくとも1つが非無指向性のマイクロフォンから生じる、または非等方的指向性を有する)を供給する場合には、省略することができる。この場合、感知システムからの入力信号はそれ自体、特定の方向に対して高められた(または抑制された)指向性を有し、したがって、方向分析モジュール130用の音ビーム信号として役立ちうる。

音波の方向を決定するための方向推定は一般に、異なる指向性を有する2つ以上の音ビーム(入力信号から生成されたビーム形成信号)の対応する各部分の強度/パワーを比較することによって行うことができる。例えば、2つの異なる非等方的指向性の2つの音ビーム(例えば、音の増強/抑制のそれぞれ異なる主方向を有する)を考えると、平面音波は通常、波の伝搬の方向で、その主方向の投射がより大きい音ビームによって、より大きな強度で感知される。したがって、2つ以上の音ビーム中の同じ音波に対応する各信号部分の強度を比較することによって、また音ビームの指向性に関する知識を利用することによって、信号発生の方向φ(音波がこの方向から伝搬する)を推定/分析することができる。

さらに、信号部分の直接音成分の強度P^DIR(すなわちその方向から伝搬する)および拡散音成分P^DIFFは、例えば2つの音ビームの信号部分間の相関に基づいて推定することができる。この点について、異なる音ビームの信号間の高い相関値は一般に、直接音P^DIRの高い強度と関連し、比較的低い相関値は通常、信号部分内の拡散音P^DIFFの高い強度に対応する。

音発生の方向ならびに直接音および拡散音の量は、音ビーム信号の部分(例えば、時間フレームおよび周波数帯域)ごとに(また入力音信号の各部分、例えばフィルタリングされるべき音信号の部分に応じて)推定できることに留意されたい。したがって、音信号の部分という用語は、音信号の特定のデータ片を示すのに用いられる。デジタル信号に関して、この信号は、時間領域で(個別サンプル指数/時間フレームの関数としての強度)、スペクトル領域で(周波数帯域(周波数bin指数)の関数としての強度および任意選択で位相)、あるいは強度および任意選択で位相が時間フレーム指数および周波数帯域指数の両方の関数として表される組合せ領域で、表すことができる。したがって、以下では、また他の意味が示唆されない場合には、信号の部分という用語は、特定の時間フレーム指数、または周波数帯域指数と関連する、あるいは両方の指数と関連するデータ片を示す。

上記のように、出力信号中の雑音量を低減することは、本発明により、フィルタリングされるべき信号に、その信号から所望の指向性DRの出力信号が発生するように適用される方向性フィルタ(フィルタ係数)を構築することによって実現される。例えば、これは、増強されるべき音源が想定されている特定の1つまたは複数の方向(指向性データDRに含まれる)から生じる音声などの音を増強する一方で、他の方向からの音は抑制することを目的とする。指向性データDRは、どの音が増強されるべきかに関するいくつか固定の所与の方向(感知システム110に対する)によって、フィルタ構築モジュール140に供給することができ、または構成することができる。これらの方向DRにより、フィルタリングモジュール160の動作パラメータは、異なる音波(したがって、フィルタリングされるべき音信号の異なる部分)が生じる方向の上記方向分析に基づいて、フィルタ計算モジュール140によって決定される。

フィルタリングされるべき音信号x₀(およびその各部分)は、特定の方向DRからの音(直接音)の強度を示す信号成分x₀ ^DIRと、前記方向DRに対して非方向性音の特定の方向外の音(拡散音を示す)の強度を示す雑音音成分x₀ ^DIFF(不要信号または雑音信号とみなされることが多い)とを含むと考えられる(例えばX₀=x₀ ^DIR+x₀ ^DIFF)。この点について、音場の方向分析を利用して推定される直接音成分の強度P^DIRおよび拡散音成分の強度P^DIFFと直接音の到来の方向φとは、フィルタリングされるべき信号中の信号成分x₀ ^DIRおよび拡散音成分x₀ ^DIFFの強度またはパワーの推定に役立ちうる。x₀ ^DIFFおよびP^DIRは、それぞれ拡散音の信号およびパワーを指し、これらは雑音とみなすことができるが、従来の意味の雑音とは必ずしも関連がないことを理解されたい。実際には、入力信号チャネル間で独立している信号もまた、拡散音と特定されることがある。

上記により、方向性フィルタは、音信号の各部分が生じる推定方向である方向データDD(例えば、P^DIR、P^DIFFおよびφ)に基づいて得ることができる。様々なタイプのフィルタリング方式を、このような方向性フィルタを生成するのに適合させることができる。例えば、非常に狭い指向性ビームを想定するフィルタ方式が、厳密な方向DRから生じないフィルタリングされるべき信号の各部分の音声強度を減衰することによって得られることがある。上述の方向推定を利用することによって、フィルタリングされるべき信号の各部分の直接音成分および拡散音成分の量が、特定の方向DR、およびこれらの方向の特定の幅に関して推定される。

本発明のいくつかの実施形態によれば、その方向からの音が増強されるべき方向DR(対象の音源の方向)は、感知システム110(例えば、感知システム110の前で生じる音を増強する)に対して固定されることに留意されたい。あるいは、これらの方向DRは、フィルタ生成モジュール150への入力として与えられる。これらの方向DRは、ユーザが入力することができ、あるいは、例えば音場内の特定の音源を検出することに基づいた処理によって得ることができる。本例では、音源検出モジュール190が、システム100によって増強されるべき音源がある方向DRの検出のために、システム100と連係して使用される。これは、例えば音声活動検出器VADを利用することによって実現することができる。

図1Aおよび図1Bの例では、最終的にフィルタリングされる信号x₀は、任意選択でフィルタ生成モジュール150の入力信号としても供給される。通常、少数のマイクロフォンからなる音感知システムが使用される場合では、フィルタリングされるべき信号は、実際にはフィルタ生成モジュール150に供給される。しかし、これは不必要であり、多くの場合、フィルタリングされるべき実際の入力信号は、方向分析に使用されるものではない。例えば、ある種類のマイクロフォンが方向分析およびフィルタ生成に使用され、別の種類のマイクロフォンが、フィルタリングされるべき音声信号の感知に使用される。

図1Aの例では、音信号(x₁〜x_n)および後に続く信号処理が、信号が供給され、処理が行われる領域(時間/周波数)は示さずに大まかに描写されている。しかし、このシステムは、時間領域、スペクトル/周波数領域での動作/信号処理をするように、または音場の短時間スペクトル分析である信号の処理をするように構成できることに留意されたい。

提案するアルゴリズムのいくつかの実施形態は、複数の周波数帯域で実行するのに有利であり、図1Bに例示的に示されているように、マイクロフォン信号が、変換またはフィルタバンクを使用してサブ帯域表示に変換される。複数の帯域への周波数分割を行うために、図2Bに示されている、分割に離散フーリエ変換を使用する非限定的な例を示す。離散時間信号が小文字でサンプル添え字n、例えばx(n)と共に示されている。信号x(n)の離散短時間フーリエ変換(STFT)はX(k,i)で示され、ここでkはスペクトル時間添え字、iは周波数添え字である。

次に図1Bに移ると、本発明による、音信号がスペクトル領域で処理されるシステム100Bが示されている。本発明の全ての実施形態に共通の要素が、対応する図に同じ参照数字と共に示されている。

この例では、時間/サンプル領域の信号x(n)は、帯域分割モジュール180Aで、特定の時間フレームにおける特定の周波数帯域内の音の強度(また場合により位相)をそれぞれ示す時間フレームおよびスペクトル帯域タイル/部分X(k,i)に分割される。上記のように、この入力信号の分割は、入力信号x(n)にSTFTを適用することによって得られる。例えば、これは、入力信号を時間フレームに分割し、次に、各時間フレームに離散フーリエ変換を適用することによって達成される。一般に、各時間フレームの持続時間(各時間フレーム内の音サンプルの数)は、信号(x(n))のスペクトル構成が、時間方向に沿って静止していると仮定できるように十分に短く選択される一方でまた、信号xの十分な数のサンプルを含むのに十分なだけ長い。例えば、音声信号は短時間フレームにわたって、例えば10msから40msの間、安定していると想定することができる。20kHzの音サンプリング速度および20msの音安定持続時間を考えると、各時間フレームkは、入力信号の400個のサンプルを含み、これらのサンプルにDFT(離散フーリエ変換)が施されてX(k,i)が得られる。上記と同様に、時間-周波数領域の信号タイルX(k,i)=X^DIR(k,i)+X(k,i)^DIFFは、直接X^DIR(k,i) (増強されるべき信号)音成分、および拡散X(k,i)^DIFF (雑音)音成分を含むと想定される。信号タイル中の雑音内容X'₀(k,i)^DIFFの推定は、本発明の方向性フィルタ生成モジュール150を利用して、入力信号X₀(k,i)〜X_n(k,i)のうちの少なくとも2つの方向分析に基づいて、上述のように実現される。時間フレームkの各スペクトル帯域i内の拡散音X(k,i)^DIFFの量は、音場の方向分析に基づいて推定される(音場のパラメータ特徴付けが得られる複数の入力信号を利用して)。したがって、フィルタGは、例えば出力信号X'₀中の拡散音(雑音と関連する)の量を低減するために、出力信号中のそれぞれのスペクトル帯域を修正するように構築される。

利得フィルタWは、推定された雑音X'₀(k,i)^DIFFに応じて構築される。利得フィルタは、フィルタリングモジュール160によって、フィルタリングされるべき信号X₀の1つに適用され、X'₀〜X₀ ^DIR+(X₀ ^DIFF-X'₀ ^DIFF)という形の出力信号が得られる。フィルタリングモジュール160は、実際には入力信号X₀の時間スペクトルタイル部分X₀(k,i)上でスペクトル修正(SM)を行う。その後、短時間フーリエ変換(STFT)の逆が、適用されるスペクトル-時間変換モジュール180Bによって行われ、実質的に無雑音の音信号x₀'(n)が得られる。

出力信号X'₀(時間-周波数領域内)は、実際の雑音X₀ ^DIFFのスペクトル内容と推定された雑音のスペクトル内容X'₀ ^DIFFとの差だけ、望ましい無雑音信号X₀とは異なることに留意されたい。したがって、正確な雑音推定を実現することは、高い信号対雑音比の出力が伴う雑音抑制技法を実施するのに非常に望ましい。一般に、雑音推定は、使用される雑音推定方式(フィルタリング方式)に応じて、1つまたは複数の時間フレームごとに実施される適合処理とすることができる。また、人間の知覚が位相破綻に対し相対的に低感度であるので、雑音X'₀ ^DIFFの推定位相は、使用される雑音推定方式により大まかに評価することができる。したがって、所望の音信号を回復するには、雑音X'₀ ^DIFFの推定のためのSTFT入力信号|X(k,i)|の振幅(強度)(位相ではない)を利用するだけで十分でありうる。ひいてはこれにより、本発明の技法における雑音推定および方向分析で必要な処理が簡単になり低減されるが、出力信号中の信号対雑音SNT(または少なくとも可聴SNR)は阻害されない。

上記のように、本発明の技法の主な利点の1つは、少数の(2つまで減る)音受容器/マイクロフォンを使用して音信号の方向性フィルタリングを行うことが、そのような少数のマイクロフォンに基づく出力信号の生成にビーム形成が使用されるときに生じるアーチファクトを伴わずに、可能になることである。以下の説明では、2つのマイクロフォン信号の、デジタル領域での処理を論じる。しかし、上でも述べたように、本発明のいくつかの実施形態はこの点に限定されず、本発明は、3つ以上のマイクロフォン、および3つ以上の信号/音声チャネルに対して実施することもできる。また、本発明は、アナログ信号を処理するために(例えば、アナログ電子回路によって)実施できることにも留意されたい。しかし、デジタル領域では、本発明のシステムのモジュールは、電子回路(ハードウェア)、またはソフトウェアモジュール、または両方の組合せとして実施することができる。図2Aは、マルチバンドの場合の2つのマイクロフォン信号の方向処理の説明図であり、本発明の一実施形態による同じ処理を実施するシステム200Aを示す。2つのマイクロフォンの信号は、場合により増幅され、デジタル領域に変換され、システム200Aで処理される前に時間同期されて、フィルタリングされた単一の出力音声信号が得られる。

システム200Aの処理モジュールは、事前処理モジュールおよび事後処理モジュール、すなわち時間-スペクトル変換モジュール180Aおよびスペクトル-時間変換モジュール180Bを含み、これらはそれぞれ、2つの(またはそれより多い)入力マイクロフォン信号の事前周波数帯域分割と、時間領域の出力信号を得るための事後周波数-帯域加算処理とを行う。音フィルタの主要な処理は、少なくとも2つのマイクロフォンから(帯域分割後に)信号を受け取り利用して方向性フィルタを生成するフィルタ生成モジュール150と、そのように生成されたフィルタに基づいて入力信号のうちの少なくとも1つをスペクトル修正(SM)するように構成されたフィルタリングモジュール160とによって行われる。フィルタ生成モジュール150は、この例では、入力信号の勾配処理(GP)を行ってこの入力信号から音ビーム(カージオイド)信号を生成するように構成されたビーム形成モジュール120と、方向パラメータ推定モジュール130と、利得フィルタ計算(GFC)モジュール140とを含む、3つのサブモジュールを含む。

図1Bの実施形態と同様に、ここでもまた、フィルタ生成(フィルタ生成モジュール150で実行される)および入力信号のフィルタリング(フィルタリングモジュール160で実行される)は、スペクトル領域(例えば、STFTによって得られる時間スペクトルタイル)の入力音信号の表示X₁およびX₂を利用して行われる。それに応じて、帯域分割モジュール180A(時間-スペクトル変換モジュール)が使用されて入力信号が、異なるスペクトル帯域に対応する複数の部分に分割される。これにより、本発明によるフィルタ生成および入力信号のフィルタリングをスペクトル帯域部分ごとに独立して実行することが可能になる。最終的に、フィルタリングされるべき入力信号の別々のスペクトル部分(フィルタリング後)は、スペクトル-時間変換モジュール180Bで加算される。

時間-スペクトル変換モジュール180Aおよびスペクトル-時間変換モジュール180Bは、必ずしもシステム200の一部ではなく、その帯域分割動作および加算動作が、本発明の音フィルタリングシステム(200)外のモジュールによって行われることもあることに留意されたい。また、時間-スペクトル変換(帯域分割)モジュール180Aの出力はマルチバンド信号であり、したがって、この場合の勾配処理(GP)モジュールは、それぞれの帯域に対して繰返し適用される。

図2Bは、マルチバンド処理が短時間離散フーリエ変換(STFT)を用いて行われる場合の処理のより詳細な説明図である。この図のシステム200Bは、上述のシステム200Aのものと類似のモジュールを含む。

図2Aおよび図2Bの両方の音フィルタリングシステム200Aおよび200Bは、2つのマイクロフォン信号を入力として受け取り処理する方向性フィルタモジュールと、これらの信号に基づき信号の一方に適用されてフィルタリングされた単一の音声信号が出力として得られるフィルタリングモジュールとを実施する。システム200Aおよび200Bは、電子回路として、および/または、異なるモジュールがソフトウェアモジュール、ハードウェア要素、またはこれらの組合せによって実施される、コンピュータシステムとして実施することができる。

ここで、スペクトル-時間モジュール180Aは、入力信号に対し短時間フーリエ変換(STFT)を実行するように構成され、時間-スペクトルモジュール180Bでは、逆STFT(ISTFT)を実施して時間領域の出力信号を得る。この例では、2つの時間領域マイクロフォン信号が、各FFTフレームの間で固定時間領域ステップ(ホップサイズ)を用いて短時間離散フーリエ変換され、その結果、固定フレーム重複部分が生じるようになる。サイン分析STFT窓、および同じサイン合成STFT窓が使用されることがある。いくつかの実施形態では、時間変化フレームサイズおよび窓ホップサイズもまた、場合により使用されることがある。以下で詳細に説明するように、方向性フィルタが生成され、入力信号のうちの1つのスペクトル帯域に適用された後、フィルタリングの結果が逆フーリエ変換され、変換窓が重なり合って出力信号が生成される。この例では、FFTモジュールの出力は複素周波数領域にあり、そのため、ビーム形成(勾配処理(GP))は、周波数領域binに対し複素操作(complex operation)として施されることにも留意されたい。この例では、方向性フィルタ生成モジュール150およびフィルタリングモジュール160は、2つのマイクロフォン信号(x₁およびx₂)を受信する。これらの信号は、この例ではデジタル形式で供給され、時間同期される。信号x₁およびx₂は、STFTによってスペクトル領域X₁およびX₂に変換され、方向性フィルタ生成モジュール150で処理されてフィルタが得られ(フィルタリングモジュールの動作パラメータ)、このフィルタは次に、フィルタリングされた単一の音声信号が出力として得られるように、上述のスペクトル修正フィルタリングにより入力信号の1つ(この例ではX₁)に適用される。

前記のように、フィルタ生成モジュール150は、ビーム形成モジュール120、方向分析モジュール130、およびフィルタ計算モジュール140の3つのサブモジュールを含む。次に、これらのモジュールの動作を、図2Bおよび図2Cを共に参照して詳細に例示する。図2Cは、本発明のいくつかの実施形態による、図2Bのシステム200Bで使用するのに適したフィルタ生成方法300の主要な段階を示す。

第1の段階320で(図2Aのビーム形成モジュール120で実施される)、ビーム形成が2つの入力音信号X₁およびX₂に施されて、これらの信号から2つの音ビーム信号Y₁およびY₂が、特定の非等方的指向性(指向性の少なくとも1つが非等方的)を有して生成される。一般に、ビーム形成は、任意の適切なビーム形成技法により実施して、異なる指向性をそれぞれが有する少なくとも2つの音ビーム信号を生成することができる。本例では、入力音声信号X₁およびX₂のビーム形成が遅延減算法を利用して行われて、いわゆるカージオイド指向性の2つの音ビーム信号Y₁およびY₂が得られる。したがって、以下では、2つの音ビーム信号Y₁およびY₂はまた、カージオイド信号または音ビーム信号と区別なく呼ばれる。この例では、ビーム形成モジュール120は、勾配処理ユニットGPを含み、このユニットは、2つの入力信号X₁およびX₂(スペクトル領域で示される)を遅延および減算し、2つの音ビーム信号Y₁およびY₂を出力するように適合される。

勾配処理(GP)は、マイクロフォン信号を遅延および減算することを含み、遅延および減算の両方を広い意味で参照することができる。例えば、遅延を時間領域または周波数領域に導入することができ、また全通過フィルタを使用して導入することもでき、減算では、重み付け差分を使用することができる。非限定的な例として、本発明のいくつかの実施形態についての以下の説明では、周波数領域での複素乗算を使用して遅延を実施する。マイクロフォンが無指向性の場合、上記のGPの後の勾配信号は、仮想カージオイドマイクロフォンと呼ぶことができ、傾斜処理信号は、本明細書では単に説明を簡単にするために「カージオイド」と呼ぶ。

この例では、後続の方向分析がカージオイドSTFTスペクトルに基づいて行われる場合、傾斜処理(GP)が入力信号に施されて、反対の方向に向いている2つのカージオイド信号が得られる。

以下の説明で、カージオイド信号がマイクロフォン間隔の関数としてどのように計算されるかを示す。2つの無指向性マイクロフォンの間の間隔をd_mメートルと想定する。マイクロフォン1および2の方に向く2つのカージオイド信号は、周波数領域で遅延および減算動作を実施することによって得られる(この動作は、当業者によれば時間領域でも実施できることに留意されたい)。
Y₁(k,i)=X₁(k,i)-exp(-j×(I×Tao×Fs)/N_FFT)×X₂(k,i)
Y₂(k,i)=X₂(k,i)-exp(-j×(I×Tao×Fs)/N_FFT)×X₁(k,i)
ここで、N_FFTはFFTサイズ、Taoは音が一方のマイクロフォンから他方のマイクロフォンまで進むのに必要な時間であり、Tao=dm/Vsで与えられ、ここでVsは空気中の音の速度、すなわち340m/sである。

入力信号X₁およびX₂が2つの無指向性マイクロフォンから生じると考えると、図2Dに示された2つのカージオイド信号Y₁およびY₂の指向性は、それぞれ(φは音の到来方向)、
Dy1(φ)=0.5+0.5cos(φ)
Dy2(φ)=0.5-0.5cos(φ)
である。

これらの指向性は、カージオイド信号を生成するように施された特定の遅延減算処理によって決まることに留意されたい。この例では、2つのカージオイド信号は、図に示された無指向性D_omniを有する2つの無指向性マイクロフォンからの入力信号を処理することにより得られる。

好ましくは、低周波数で値が大きくなることを防止するために、振幅補償フィルタH(i)が2つのカージオイド信号に以下のように適用される。
Y₁(k,i)=H(i)×(X₁(k,i)-exp(-j×(I×Tao×Fs)/N_FFT)×X₂(k,i))
Y₂(k,i)=H(i)×(X₂(k,i)-exp(-j×(I×Tao×Fs)/N_FFT)×X₁(k,i))

振幅補償フィルタの一例は、H(i)=min(Hmax,0.5/sin(Tao×wi))で与えられ、ここでw_i=2×Pi×I×f_s/N_FFTであり、H_maxはこのフィルタの上限である。カージオイド信号の所望の周波数応答によっては、他の振幅補償フィルタを使用することもできる。

いくつかの実施形態によれば、遅延および減算動作は、第1および第2のマイクロフォンx₁(n)およびx₂(n)からのサンプリングされた入力信号(時間領域内)に対し、時間領域でまず行われることに留意されたい。これらの実施形態によれば、マイクロフォンからの信号x₁(n)およびx₂(n)は、まずビーム形成モジュール120(例えば、勾配処理ユニット(GP))に供給されて音ビーム信号y₁(n)およびy₂(n)が得られ、次に、これらの時間領域の音ビーム信号は、帯域分割モジュール180Aで(例えばSTFTによって)スペクトル領域に変換される。

第2の段階330で(図2Aの方向分析モジュール130で実施される)、勾配処理ユニット(GP)は、出力として勾配信号Y₁およびY₂を供給する。時間インスタンスnの勾配信号Y₁およびY₂が方向分析モジュール130に供給されて、方向推定、直接音推定および拡散音推定が計算される。提案された、この段階で実行される方向分析アルゴリズムは、指向性音を異なる方向と区別し、さらに指向性音を拡散音と区別するように適合される。これは、前の段階で遅延減算処理によって得られた2つのカージオイド信号を利用して実現される。

音場の方向分析は一般に、2つの音ビーム(カージオイド)信号Y₁(k,i)およびY₂(k,i)が同じ音場と関連していると想定することによって得られる。この例では、カージオイド信号Y₁(k,i)およびY₂(k,i)は、ステレオ信号分析(参照文献[2]に記載)で使用される信号モデルと同様に次式のようにモデル化することができる。
Y₁(k,i)=S(k,i)+N₁(k,i)
Y₂(k,i)=a(k,i)S(k,i)+N₂(k,i)
ここで、a(k,i)は、2つの信号の異なる指向性から生じる利得係数であり、S(k,i)は直接音であり、N₁(k,i)およびN₂(k,i)は拡散音を表す。

表記を簡単にするために、以下では時間および周波数の添え字kおよびiを無視することが多いことに留意されたい。以下の説明では、拡散音のパワーP^DIFF(k,i)、直接音のパワーP^DIR(k,i)、および直接音の到来方向(例えば、利得係数a(k,i)で示される)に対応する方向パラメータデータDDは、フィルタリングされるべき入力信号の時間フレーム-スペクトル帯域タイルのそれぞれについて導出/推定される。これらは次に、出力信号を生成するのに適用されるフィルタを導出するために後で使用される。

本発明のこの実施形態では、音場の方向分析は、音ビームの統計的分析に基づく。音ビーム信号Yのタイル中の拡散音のパワーP^DIFFは、一般にP^DIFF(k,i)=E{|N(k,i)|²}に等しく、直接音のパワーP^DIR(k,i)=E{|S(k,i)|²}であり、ここでE{.}は信号タイルの短時間平均動作を表し(例えば、1つまたは複数の時間フレームにわたる、または繰返し「単極平均」による)、|S|²=S・S^*であり、ここで^*は複素共役を示す。したがって、上記のパラメータ(P^DIFF、P^DIR、および到来方向)の導出は、以下の想定を考慮に入れることによって、時間フレームおよび周波数バンク(k,i)ごとに統計的に得ることができる。
両方のカージオイド信号の拡散音のパワーは等しく、すなわちE{N₁×N₁ ^*}=E{N₂×N₂ ^*}=E{|N|²}である。

2つのカージオイド信号N₁およびN₂中の拡散音の間の正規化相互相関係数は、ある一定値Φ_diffになる(本発明のこの実施形態ではΦ_diff=1/3がよく当てはまる)。

直接音と拡散音は直交する信号であり、したがってその平均はゼロになり、E{S*・N₁*}=E{S*・N₂*}=0である。

したがって、直接音成分および拡散音成分は、音ビーム(カージオイド)信号Y₁(k,i)およびY₂(k,i)の対相関E{|Y₁|²}、E{|Y₂|²}、E{Y₁・Y₂}の統計的計算を利用することによって次式のように取り出すことができる。
E{|Y₁|²}=E{|S|²}+E{|N|²}
E{|Y₂|²}=a²×E{|S|²}+E{N|²}
E{Y₁Y₂ ^*}=aE{|S|²}+Φ_diff×E{|N|²}

したがって、この例では段階330で、2つの音ビーム信号の間の相関が計算され(例えば、信号対E{|Y₁|²}、E{|Y₂|²}、E{Y₁×Y₂}の短時間平均によって)、結果として生じた相関値を用いて上記の3式を解き、直接音のパワーP^DIR(k,i)=E{|S(k,i)|²}、拡散音のパワーP^DIFF(k,i)=E{|N(k,i)|²}、および方向表示データa(k,i)を決定する。

感知システムに向かって到来する直接音(音波)の到来方向φ(k,i)は、そうして得られた利得係数a(k,i)に基づいて、また音ビーム信号Y₁およびY₂の指向性Dy1(φ)、Dy2(φ)に基づいて決定することができる。一般にa(k,i)は、スペクトル帯域i内の各音波がそれぞれの音ビーム信号Y₁およびY₂によって時間フレームk中に感知された強度間の比を示す。したがって、方向φから到来する指向性音に関し、利得係数aはY₁とY₂の2つの指向性の比に等しく、すなわち、音波が生じる方向(角度)φ(k,i)は、aを比Dy2/Dy1と等しくすることによって、得ることができる。
-a(k,i)=Dy2(φ(k,i))/Dy1(φ(k,i))

この例では、2つのカージオイド音ビームの上記の特定の指向性Dy2およびDy1を置換することによる。
a=(1-cos(φ))/(1+cos(φ))→φ(k,i)=cos^-1((1-a(k,i))/(1+a(k,i)))

第3の段階340で、方向データDD(φ、P^DIR、方向推定に対応するP^DIFF、直接音(パワー)推定、および拡散音(パワー)推定)が、これらのパラメータの少なくとも一部に基づいてフィルタ構築を行うフィルタ計算モジュール140(GFC)に供給される。実際にこの例では、φ(k,i)、P^DIR(k,i)、P^DIFF(k,i)が、信号の時間フレームkおよび周波数帯域iの一部分とそれぞれ関連する方向データのデータ片DDを構成する。モジュール140(GFC)によって構築されるフィルタは、それが入力信号の1つ(この例ではx1(n))に適用された場合に、方向性フィルタリングされた出力信号が所望の指向性を有して得られるように構成される。

出力信号は元のマイクロフォン信号のうちの1つからのみ生成される(音ビーム(カージオイド)信号からは生成されない)ことに留意することは重要である。これにより、低周波数で信号対雑音比(SNR)(音ビーム信号のビーム形成の1つのアーチファクト)が低くなることが防止される。

上記のように、入力信号x₁(n)の方向性フィルタは、対象の音が感知システムに到来する特定の方向(および信号x₁が生じるマイクロフォン)に対して構成/実施される。したがって、出力信号で得られるべき所望の指向性の方向および幅を含む出力指向性パラメータDRが得られる。本例では、方向データは、出力信号指向性の方向を示す角度φ₀パラメータ、および幅パラメータVを含む。

出力信号が導出される、フィルタリングされるべき入力(マイクロフォン)信号X₁は、出力指向性パラメータDRに関する直接音成分X^DIRと拡散音成分X^DIFFの合計を含むと考えられる。
X₁=X^DIR+X^DIFF
ここで、X^DIRとX^DIFFは直交すると想定され、これらのパワーはP^DIRおよびP^DIFFによって明示される。カージオイド(Y₁,Y₂)から得られる直接音成分P^DIRおよび拡散音成分P^DIFFは、無指向性マイクロフォン(無指向性を有する)で受け取られる直接音および拡散音のパワーに相当することを理解されたい。したがって、これらのパワーを用いて、フィルタリングされるべき信号X₁中の直接音成分および拡散音成分を決定することができる。

以下では、フィルタ係数を計算して上記で説明した単一のマイクロフォン信号を処理する非限定的な例を説明する。以下の例では、周波数領域処理に言及するが、当業者には理解できるように、時間領域で同様な処理を施すこともまた可能である。

好ましくは、フィルタWは、それが入力信号X₁に適用されたときにX=w₁X^DIR+w₂X^DIFFという形の出力信号が得られるように、フィルタ計算モジュール140によって構築され、ここで、重みw₁およびw₂は、所望の出力信号X中の直接音X^DIRおよび拡散音X^DIFFの量を決定する。

重みw₁(k,i)は、結果として生じる信号が所望の指向性(本例ではφ₀)を有するように、出力信号指向性の所望の方向φ₀と、それぞれの音部分(k,i)音中の直接音の到来方向φ(k,i)とに基づいて得られる。重みw₂は、出力信号X中の拡散音の量を決定し、多くの場合、所望の出力指向性の所望の幅パラメータVに応じて(例えば、ユーザが)選択/選別することができる。

フィルタW(本明細書ではウィーナフィルタとも呼ばれる)は、入力信号X₁の1つから、所望の出力信号Xの推定値である出力信号Xest、すなわちXest=W×X₁を得るために使用される。

この特定の例では、フィルタ係数W(k,i)は次式で与えられる。
W(k,i)=E{X(k,i)・Xl(k,i)}/E{X²(k_,i)}=(w₁ ²(k,i)・P^DIR(k,i)+w₂ ²(k,i)×P^DIFF(k,i))/(P^DIR(k,i)+P^DIFF(k,i))

上記のように、重みw₁およびw₂は出力信号の特性を決定する。:重みw₁は、所望の指向性を実現するように制御され、本例では下記が用いられる。
w₁(k,i)=0.5×(1+cos(max(min(V(abs(φ(k,i))-φ_o),pi),-pi)))

所望のdB単位の拡散音利得G_diffを考えると、w₂はw₂=10^Λ(0.05×G_diff)と計算できる。

一般に、フィルタWはこのように得られ、入力信号X₁に対してスペクトル修正を行うように適用され、それによって所望の指向性の出力信号Xが得られる。しかし、フィルタWが適合フィルタであるので(例えば、1つまたは複数の時間フレームごとに計算される)、別々のフレームでの方向分析の変化により音楽性雑音が出力信号に導入されることがある。このような変化は、可聴周波数の場合、フィルタ係数の変化に影響を及ぼし、出力信号中に可聴のアーチファクトを生じさせる可能性がある。したがって、これらの変化、および結果として生じる音楽性雑音アーチファクトを低減するために、周波数および時間平滑化がフィルタWに適用されることがある。

例えば、周波数領域で適用される適合ウィーナフィルタWの音声品質を改善することは(上記で導出されたように)、以下で説明するように信号に依存して、フィルタWを適時に平滑化することによって実現することができる。ウィーナフィルタが経時的に生成する速度は、信号統計データを計算するのに用いられるE{.}演算に使用する時定数によって決まる。ある時間周波数タイル中の所望の直接音の相対量D(k,j)は、D(k,i)=w₁ ²×P^DIR/(P^DIR+P^DIFF)で計算される。d(k,i)が、ある特定の閾値THRより小さいときはいつも、フィルタWは、その以前の値を用いて経時的に次式のように平滑化される。
W(k,i)= alpha×W(k,i)+(1-alpha)×W(k-1,i)
ここで、αは平滑化フィルタ係数であり、フィルタリングの時間領域アーチファクトを低減するように計算される。

上記では、2つの無指向性入力信号の場合の(フィルタ生成モジュール150で実行される)フィルタ生成の方法300を特定の実施形態200Bに関して詳細に説明した。ここでフィルタ係数は、各時間フレーム、および入力信号の周波数(スペクトル)帯域タイルに対して(別々に)計算されることに留意されたい。

本発明の技法によれば、フィルタWは、フィルタリングモジュール160によって、元のマイクロフォン入力信号(X₁)のうちの1つの短時間スペクトルに対して適用される。結果として生じるスペクトルは時間領域に変換されて、提案された方式の出力信号が生じる。これらのフィルタ係数W(I,K)を時間フレームおよびスペクトル帯域タイルに適用することによって、入力信号に対する1つの入力フィルタリングモジュール160スペクトル修正が行われる。

入力マイクロフォン信号のうちの1つだけにフィルタを適用することによって所望の指向性の出力信号を得ることには、同様の指向性の出力を得るのにビーム形成技法を使用することに比べて、いくつかの利点がある(特に、小数のマイクロフォン/入力信号だけが使用される場合)。

・前記入力信号のビーム形成(例えば、遅延および減算)によって得られる導出カージオイド信号は、SNRが低周波数で相対的に低く、したがって、出力信号波形を生成するには、これらのカージオイド信号を直接使用しないことが好ましい。

・出力信号を生成するために両方の入力マイクロフォン信号を組み合わせると、コムフィルタおよび着色アーチファクトが生じ、したがって品質が悪い結果を伴うことになりうる。

図2Bおよび図2Cの実施形態によるフィルタ生成技法は、複素短時間スペクトル領域(STFT)を用いて説明したが、別の実施形態では、非複素時間周波数変換またはフィルタバンクを使用できることに留意されたい。非複素時間周波数変換またはフィルタバンクが使用される場合、以下の説明にあるような統計値は、STFTの例で示されたものと意図が類似の動作により推定することができる。例えば、現実のフィルタバンク出力信号では、振幅の2乗を得るための複素共役をする必要がないので、E{X1X1^Λ*}は簡単にE{X1^Λ2}と置き換えられる。同様に、E{X1X2^Λ*}を用いることとは対照的に、E{X1X2}を用いることもできる。

次に図3に移ると、図2Bおよび図2Cを参照して上で説明したシステム200Bによって得られる縦型アンテナアレイ構成(例えばビーム方向は、マイクロフォン位置をつなぐラインとほぼ平行である)に対応する出力指向性の例が示されている。これらの出力指向性は、例えば、φ₀=0であるような指向性パラメータDR、およびビーム幅パラメータvの様々な値を利用して、出力信号で得られる。

図4〜6に、本発明の方向性音フィルタリングシステムからの出力信号の、別の出力指向性の追加例が示されている。図4に、ラインアレイ構成の出力指向性(φ₀=90°設定で得られた)が示されている。それに相当するが、側方に60度向けられたビームが図5に示されている。ビーム幅パラメータV=2で様々な方向φ₀に向けられたビームが図6に示されている。

図2A、2Bおよび2Cを参照して説明した上記の2マイクロフォン処理のシステムおよび方法は、3つ以上のマイクロフォンと共に次のようにして、すなわち、3つ以上のマイクロフォン信号から2対以上のマイクロフォン信号を前記3つ以上のマイクロフォン信号のうちで選択して、使用できることに留意されたい。各対の信号に対して、前述の段階320および330で2マイクロフォン方向推定処理を行う。次に、3つ以上のマイクロフォン信号の推定到来方向が、マイクロフォンの対の可能な組合せのいくつかから、各時間インスタンスおよび各サブ帯域において得られた個々の推定を組み合わせることによって得られる。非限定的な一例として、このような組合せは、全ての対のうちで最も低い拡散音レベル推定を生じる対が選択されたものとすることができる。

また、方向性フィルタWを生成する方法300は、本発明のいくつかの実施形態についての説明が目的の、単なる具体的な一例として提示するにすぎないことにも留意されたい。また、代替的やり方が、ビーム形成(例えば、勾配処理)、および/または方向分析、および/またはフィルタリングを実施するために、本発明の範囲内で、本発明の一般性を低下させることなく考案できることは、当業者には理解されよう。

一般に、いくつかの実施形態によれば、本発明のフィルタリング技法は、アナログ音入力信号(例えば、x₁(t)、x₂(t)、tは時間を表す)に直接適用される。これらの実施形態では、本発明によるシステムは通常、前記アナログ入力信号を受け取り、方向性フィルタ生成をアナログ的に行い、適切なフィルタリングを入力信号の1つに適用することができるアナログ電子回路によって実施される。あるいは、いくつかの実施形態によれば、本発明のフィルタリング技法は、デジタル化入力音信号に適用され、この場合システムのモジュールは、ソフトウェアモジュールまたはハードウェアモジュールとして実施することができる。

本発明のいくつかの実施形態によれば、音声処理システムはさらに、以下の、追加のフィルタ、および/または利得、および/またはデジタル遅延、および/または全通過フィルタのうちの1つ以上を含むことができる。

また、本明細書全体にわたって説明したシステム(回路/コンピュータシステム)は、コンピュータソフトウェア、特注コンピュータ化デバイス、標準コンピュータ化デバイス(例えば、市販のコンピュータ化デバイス)、およびこれらの任意の組合せとして実施できることも理解されたい。同様に、本発明のいくつかの実施形態では、本発明の方法を実行するコンピュータによって読み取り可能なコンピュータプログラムを企図することができる。本発明の別の実施形態ではさらに、機械可読メモリを企図することができ、このメモリは、本発明のいくつかの実施形態による方法を実行する機械によって実行可能な命令のプログラムを明確に具体化するものである。

本明細書では、本発明のいくつかの特徴を図示し説明してきたが、当業者によれば、同様な結果が伴う多くの修正、置換え、変更、および処理段階を適用することができる。したがって、添付の特許請求の範囲は、このような修正および変更の全てを本発明の真の趣旨の範囲内に入るものとして包含するものであることを理解されたい。

100A 音響(音)フィルタリングシステム
100B 音信号がスペクトル領域で処理されるシステム
110 感知システム
120 ビーム形成モジュール
130 方向分析モジュール
140 フィルタ構築モジュール
150 フィルタ生成モジュール
160 フィルタリングモジュール
180A 帯域分割モジュール
180B スペクトル-時間変換モジュール
190 音源検出モジュール
200A 音フィルタリングシステム
200B 音フィルタリングシステム
300 フィルタ生成方法
320 第1の段階
330 第2の段階
340 第3の段階

Claims

音響信号のフィルタリングに使用するシステムであって、
フィルタリングモジュールと、
方向分析モジュールおよびフィルタ構築モジュールを含むフィルタ生成モジュールと、
を備え、
前記フィルタ生成モジュールが、音響場に対応する少なくとも2つの入力信号を受信するように構成され、
前記方向分析モジュールが、前記少なくとも2つの受信した信号を分析する第1の処理を施して、分析される信号中の拡散音の量を示すデータを含む方向データを決定するように構成され、
前記フィルタ構築モジュールが、所望の出力指向性の既定パラメータ、および出力信号中の拡散音の必要とされる減衰の既定パラメータを示すデータを利用して前記方向データを分析するように、かつ前記フィルタリングモジュールの動作パラメータを示す出力データを生成するように構成され、
前記フィルタリングモジュールが、前記入力信号のうちの少なくとも1つに前記動作パラメータを利用する第2の処理を施すように、かつ前記所望の出力指向性と前記拡散音の必要とされる減衰とに対応する出力音響信号を生成するように構成されることを特徴とするシステム。
前記フィルタ生成モジュールは、前記少なくとも2つの入力信号にビーム形成を適用するように、かつ少なくとも2つの異なる指向性に対応する少なくとも2つの音響ビーム信号を得るように構成され動作可能なビーム形成モジュールをさらに備え、
前記方向分析モジュールは、前記第1の処理を前記少なくとも2つの音響ビーム信号に施して前記方向データを決定するように構成されることを特徴とする請求項1に記載のシステム。
前記ビーム形成モジュールは、遅延減算技法を利用することを特徴とする請求項2に記載のシステム。
前記ビーム形成モジュールは、前記音響ビーム信号に振幅補正フィルタを適用するように構成され動作可能であることを特徴とする請求項2に記載のシステム。
前記方向データは、前記分析される信号の別々の部分における、直接の音響成分および拡散音響成分のパワーと、前記直接の音響成分が生じる方向とを示すことを特徴とする請求項1に記載のシステム。
前記フィルタ生成モジュールは、前記分析される信号の少なくとも時間部分および周波数部分を示す前記分析される信号の別々の部分を処理するように構成され、
前記方向分析モジュールは、前記分析される信号の前記部分を分析して、前記分析される信号の前記部分の直接の音響成分および拡散音響成分のパワーを得るように、かつ前記直接の音響成分が生じる方向を得るように構成されることを特徴とする請求項1に記載のシステム。
前記分析される信号を周波数部分に分解するように構成された時間-スペクトル変換モジュールをさらに備えることを特徴とする請求項6に記載のシステム。
前記時間-スペクトル変換モジュールは、前記分析される信号を時間フレームに分割するように構成されることを特徴とする請求項7に記載のシステム。
前記フィルタ構築モジュールは、前記動作パラメータを示す前記データに時間平滑化を適用するように適合されることを特徴とする請求項1に記載のシステム。
前記フィルタリングモジュールは、前記動作パラメータを利用して前記少なくとも1つの入力信号にスペクトル修正を適用するように構成され動作可能であることを特徴とする請求項1に記載のシステム。
音響信号のフィルタリングに使用する方法であって、
所望の出力指向性の既定パラメータ、およびフィルタリングによって得られるべき出力信号の拡散音の必要とされる減衰の既定パラメータを示すデータを供給する段階と、
音響場に対応する少なくとも2つの異なる入力信号を受信する段階と、
前記少なくとも2つの受信した入力信号を分析する第1の処理を適用し、分析される信号中の拡散音の量を示すデータを含む方向データを得る段階と、
前記出力指向性の既定パラメータ、および前記出力信号の拡散音の必要とされる量の既定パラメータを示す前記データを利用して前記得られた方向データを分析し、前記入力信号のうちの1つをフィルタリングするための動作パラメータを生成する段階と、
前記動作パラメータを使用する第2の処理を適用し、前記出力指向性と前記出力信号中の拡散音の必要とされる減衰とに対応する出力音響信号を生成する段階とを含むことを特徴とする方法。
前記少なくとも2つの入力信号にビーム形成を適用して、少なくとも2つの異なる指向性に対応する少なくとも2つの音響ビーム信号を得る段階をさらに含むことを特徴とする請求項11に記載の方法。
前記ビーム形成を適用する前記段階は、前記音響ビーム信号に振幅補正フィルタを適用する段階を含むことを特徴とする請求項12に記載の方法。
前記ビーム形成は、遅延減算技法を利用して行われることを特徴とする請求項13に記載の方法。
前記分析される信号を、少なくとも時間フレームおよび周波数帯域パラメータによって特徴付けられる別々の部分に分解する段階を含むことを特徴とする請求項14に記載の方法。
前記方向データは、前記分析される信号の別々の部分の直接の音響成分および拡散音響成分のパワーと、前記直接の音響成分が生じる方向とを示すことを特徴とする請求項15に記載の方法。
前記第2の処理は、前記1つの信号の、前記動作パラメータを利用するスペクトル修正を含むことを特徴とする請求項11に記載の方法。
前記少なくとも2つの入力信号を複数の周波数帯域に変換する段階を含み、
前記第1の処理は、複数の周波数帯域のそれぞれに施され、処理されたサブ帯域信号を生成し、
出力信号を生成する前記第2の処理は、前記処理されたサブ帯域信号を時間領域の単一の信号に変換することを含むことを特徴とする請求項11に記載の方法。
前記周波数帯域は、離散フーリエ変換を適用することによって得られ、
前記第1および第2の処理は、フーリエ領域で施されることを特徴とする請求項18に記載の方法。
前記動作パラメータは、適時に平滑化されることを特徴とする請求項11に記載の方法。
機械によって読み取り可能なプログラム記憶デバイスであって、
音響信号のフィルタリングに使用する方法の諸段階を実施する前記機械によって実行可能な命令のプログラムを明確に具体化し、前記方法が、
所望の出力指向性の既定パラメータ、およびフィルタリングによって得られるべき出力信号の拡散音の必要とされる減衰の既定パラメータを示すデータを供給する段階と、
音響場に対応する少なくとも2つの異なる入力信号を受信する段階と、
前記少なくとも2つの受信した入力信号を分析する第1の処理を施して、分析される信号中の拡散音の量を示すデータを含む方向データを得る段階と、
前記出力指向性の既定パラメータ、および前記出力信号の拡散音の必要とされる量の既定パラメータを示す前記データを利用して前記得られた方向データを分析し、前記入力信号のうちの1つをフィルタリングするための動作パラメータを生成する段階と、
前記動作パラメータを使用する第2の処理を施して、前記出力指向性と前記出力信号中の拡散音の必要とされる減衰とに対応する出力音響信号を生成する段階と、
を含むことを特徴とするプログラム記憶デバイス。
音響信号のフィルタリングに使用するためのコンピュータ可読プログラムコードが中に具体化されているコンピュータ使用可能媒体を備えるコンピュータプログラム製品であって、
所望の出力指向性の既定パラメータ、および前記フィルタリングによって得られるべき前記出力信号の拡散音の必要とされる減衰の既定パラメータを示すデータを前記コンピュータに供給させるコンピュータ可読プログラムコードと、
音響場に対応する少なくとも2つの異なる入力信号を前記コンピュータに受け取らせるコンピュータ可読プログラムコードと、
前記少なくとも2つの受信した信号を分析する第1の処理を前記コンピュータに施させて、分析される信号中の拡散音の量を示すデータを含む方向データを得るコンピュータ可読プログラムコードと、
前記出力指向性の既定パラメータ、および前記出力信号の拡散音の必要とされる量の既定パラメータを示す前記データを利用して前記得られた方向データを前記コンピュータに分析させ、前記入力信号のうちの1つをフィルタリングするための動作パラメータを生成するコンピュータ可読プログラムコードと、
前記動作パラメータを使用する第2の処理を前記コンピュータに施させて、前記出力指向性と前記出力信号中の拡散音の必要とされる減衰とに対応する出力音響信号を生成するコンピュータ可読プログラムコードと、
を含むことを特徴とするコンピュータプログラム製品。