JP6196320B2

JP6196320B2 - 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法

Info

Publication number: JP6196320B2
Application number: JP2015548311A
Authority: JP
Inventors: エマヌエル・ハベツ; オリベル・ティエルガルト; ゼバスティアン・ブラウン; マージャ・タセスカ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2012-12-21
Filing date: 2013-11-25
Publication date: 2017-09-13
Anticipated expiration: 2033-11-25
Also published as: ES2612528T3; BR112015014380B1; RU2641319C2; US10331396B2; US20150286459A1; EP2936830B8; RU2015129784A; CN105165026A; EP2936830A1; EP2936830B1; WO2014095250A1; BR112015014380A2; JP2016506664A; CN105165026B; EP2747451A1

Description

本発明は、オ-ディオ信号処理に関し、具体的には、複数の瞬間的な到来方向推定を用いるインフォ-ムド空間フィルタリングのためのフィルタおよび方法に関する。

雑音が多くかつ残響のある状態における音源の抽出は、最新の通信システムにおいて一般的に行われている。過去４０年に渡り、この課題を達成するために多様な空間フィルタリング技術が提案されてきた。既存の空間フィルタは、観察される信号が信号モデルに一致する場合、かつフィルタの計算に必要な情報が正確である場合には最適である。しかしながら、実際には、信号モデルは損なわれることが多く、また必要な情報の推定も大きな課題である。

既存の空間フィルタは、線形空間フィルタ（例えば、［非特許文献１、２、３、４］参照）と、パラメトリック空間フィルタ（例えば、［非特許文献５、６、７、８］参照）とに大きく分類することができる。概して、線形空間フィルタは、所望される１つ以上の音源(source)の１つ以上の伝搬ベクトルまたは二次統計量（ＳＯＳ：second-order statistics）の推定、それに干渉ＳＯＳの推定を必要とする。一部の空間フィルタは、残響状態、残響除去状態を問わず単一の音源信号を抽出するように設計される（例えば、［非特許文献９、１０、１１、１２、１３、１４、１５、１６］参照）が、他は、２つ以上の残響音源信号の合計を抽出するように設計されている（例えば、［非特許文献１７、１８］参照）。前述の方法は、所望される１つ以上の音源の方向、または所望される音源のみが活性状態である期間について、個別的または同時的に予め認識していることを必要とする。

これらの方法の欠点は、新しい状況、例えば音源の移動、または所望される音源が活性状態である時に活性状態となる競合話者に対して、十分迅速に適応できないことにある。パラメトリック空間フィルタは、比較的単純な信号モデル、例えば単一の平面波プラス拡散音より成る時間-周波数領域における受信信号、に基づく場合が多く、モデルパラメ-タの瞬間推定に基づいて計算される。パラメトリック空間フィルタの優位点は、高度にフレキシブルな指向性応答、拡散音および干渉の比較的強い抑制、および新しい状況に迅速に適応する能力にある。しかしながら、［非特許文献１９］に示されているように、基礎を成す単一の平面波信号モデルは、実際には、容易に損なわれる可能性があり、これにより、パラメトリック空間フィルタの性能が著しく劣化する。最新技術のパラメトリック空間フィルタは、モデルパラメ-タを推定するために入手可能な全てのマイクロフォン信号を用いるが、最終的な出力信号の計算には、１つのマイクロフォン信号および１つの実数値利得しか使用されないことは留意されるべきである。入手可能な複数のマイクロフォン信号を結合して増強された出力信号を見出すための拡大適用は、簡単ではない。

したがって、音源に対する望ましい空間応答を得るための改良された概念が提供されれば、高く評価されるものと思われる。

[1] J. Benesty, J. Chen, and Y. Huang, Microphone Array Signal Processing. Berlin, Germany: Springer-Verlag, 2008. [2] S. Doclo, S. Gannot, M. Moonen, and A. Spriet, "Acoustic beamforming for hearing aid applications," in Handbook on Array Processing and Sensor Networks, S. Haykin and K. Ray Liu, Eds. Wiley, 2008, ch. 9. [3] S. Gannot and I. Cohen, "Adaptive beamforming and postfiltering," in Springer Handbook of Speech Processing, J. Benesty, M. M. Sondhi, and Y. Huang, Eds. Springer-Verlag, 2008, ch. 47. [4] J. Benesty, J. Chen, and E. A. P. Habets, Speech Enhancement in the STFT Domain, ser. SpringerBriefs in Electrical and Computer Engineering. Springer-Verlag, 2011. [5] I. Tashev, M. Seltzer, and A. Acero, "Microphone array for headset with spatial noise suppressor," in Proc. Ninth International Workshop on Acoustic, Echo and Noise Control (IWAENC), Eindhoven, The Netherlands, 2005. [6] M. Kallinger, G. Del Galdo, F. Kuech, D. Mahne, and R. Schultz-Amling, "Spatial filtering using directional audio coding parameters," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Apr. 2009, pp. 217-220. [7] M. Kallinger, G. D. Galdo, F. Kuech, and O. Thiergart, "Dereverberation in the spatial audio coding domain," in Audio Engineering Society Convention 130, London UK, May 2011. [8] G. Del Galdo, O. Thiergart, T. Weller, and E. A. P. Habets, "Generating virtual microphone signals using geometrical information gathered by distributed arrays," in Proc. Hands-Free Speech Communication and Microphone Arrays (HSCMA), Edinburgh, United Kingdom, May 2011. [9] S. Nordholm, I. Claesson, and B. Bengtsson, "Adaptive array noise suppression of handsfree speaker input in cars," IEEE Trans. Veh. Technol., vol. 42, no. 4, pp. 514-518, Nov. 1993. [10] O. Hoshuyama, A. Sugiyama, and A. Hirano, "A robust adaptive beamformer for microphone arrays with a blocking matrix using constrained adaptive filters," IEEE Trans. Signal Process., vol. 47, no. 10, pp. 2677-2684, Oct. 1999. [11] S. Gannot, D. Burshtein, and E. Weinstein, "Signal enhancement using beamforming and nonstationarity with applications to speech," IEEE Trans. Signal Process., vol. 49, no. 8, pp. 1614-1626, Aug. 2001. [12] W. Herbordt and W. Kellermann, "Adaptive beamforming for audio signal acquisition," in Adaptive Signal Processing: Applications to real-world problems, ser. Signals and Communication Technology, J. Benesty and Y. Huang, Eds. Berlin, Germany: Springer-Verlag, 2003, ch. 6, pp. 155-194. [13] R. Talmon, I. Cohen, and S. Gannot, "Convolutive transfer function generalized sidelobe canceler," IEEE Trans. Audio, Speech, Lang. Process., vol. 17, no. 7, pp. 1420-1434, Sep. 2009. [14] A. Krueger, E. Warsitz, and R. Haeb-Umbach, "Speech enhancement with a GSC-like structure employing eigenvector-based transfer function ratios estimation," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 1, pp. 206-219, Jan. 2011. [15] E. A. P. Habets and J. Benesty, "Joint dereverberation and noise reduction using a two-stage beamforming approach," in Proc. Hands-Free Speech Communication and Microphone Arrays (HSCMA), 2011, pp. 191-195. [16] M. Taseska and E. A. P. Habets, "MMSE-based blind source extraction in diffuse noise fields using a complex coherence-based a priori SAP estimator," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Sep. 2012. [17] G. Reuven, S. Gannot, and I. Cohen, "Dual source transfer-function generalized sidelobe canceller," IEEE Trans. Speech Audio Process., vol. 16, no. 4, pp. 711-727, May 2008. [18] S. Markovich, S. Gannot, and I. Cohen, "Multichannel eigenspace beamforming in a reverberant noisy environment with multiple interfering speech signals," IEEE Trans. Audio, Speech, Lang. Process., vol. 17, no. 6, pp. 1071-1086, Aug. 2009. [19] O. Thiergart and E. A. P. Habets, "Sound field model violations in parametric spatial sound processing," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Sep. 2012. [20] R. K. Cook, R. V. Waterhouse, R. D. Berendt, S. Edelman, and M. C. Thompson Jr., "Measurement of correlation coefficients in reverberant sound fields," The Journal of the Acoustical Society of America, vol. 27, no. 6, pp. 1072-1077, 1955. [21] O. L. Frost, III, "An algorithm for linearly constrained adaptive array processing," Proc. IEEE, vol. 60, no. 8, pp. 926-935, Aug. 1972. [22] R. Roy and T. Kailath, "ESPRIT-estimation of signal parameters via rotational invariance techniques," Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 37, no. 7, pp. 984-995, July 1989. [23] B. Rao and K. Hari, "Performance analysis of root-music*," in Signals, Systems and Computers, 1988. Twenty-Second Asilomar Conference on, vol. 2, 1988, pp. 578-582. [24] H. Cox, R. M. Zeskind, and M. M. Owen, "Robust adaptive beamforming," IEEE Trans. Acoust., Speech, Signal Process., vol. 35, no. 10, pp. 1365-1376, Oct. 1987. [25] J. B. Allen and D. A. Berkley, "Image method for efficiently simulating small-room acoustics," J. Acoust. Soc. Am., vol. 65, no. 4, pp.・・・・・・・・, Apr. 1979. [26] E. A. P. Habets. (2008, May) Room impulse response (RIR) generator. [Online]. Available: http://home.tiscali.nl/ehabets/rirgenerator.html; see also: http://web. archive.org/web/20120730003147/http://home.tiscali.nl/ehabets/rir_generator.html [27] I. CVX Research, "CVX: Matlab software for disciplined convex programming, version 2.0 beta," http://cvxr.com/cvx, September 2012. [28] M. Grant and S. Boyd, "Graph implementations for nonsmooth convex programs," in Recent Advances in Learning and Control, ser. Lecture Notes in Control and Information Sciences, V. Blondel, S. Boyd, and H. Kimura, Eds. Springer-Verlag Limited, 2008, pp. 95-110. [29] H. L. Van Trees, Detection, Estimation, and Modulation Theory: Part IV: Optimum Array Processing. John Wiley & Sons, April 2002, vol. 1.

したがって、本発明の目的は、音源を抽出するための改良された概念を提供することにある。

本発明のこの目的は、請求項１に記載のフィルタ、請求項１７に記載の方法および請求項１８に記載のコンピュ-タプログラムによって解決される。

複数のオ-ディオ出力信号サンプルを含むオ-ディオ出力信号を、２つ以上の入力マイクロフォン信号に基づいて発生するためのフィルタを提供する。オ-ディオ出力信号および２つ以上の入力マイクロフォン信号は時間-周波数領域において表現され、複数のオ-ディオ出力信号サンプルの各々は複数の時間-周波数ビンのうちの１つの時間-周波数ビンへ割り当てられる。

このフィルタは、複数の時間-周波数ビンの各々について１つ以上の音源の１つ以上の音成分の到来方向情報、または１つ以上の音源の位置情報を受信するように適合化され、かつ複数の時間-周波数ビンの各々に関する重み情報を、その時間-周波数ビンの１つ以上の音源の１つ以上の音成分の到来方向情報に依存して、またはその時間-周波数ビンの１つ以上の音源の位置情報に依存して発生するように適合化されている重み発生器を備えている。

さらに、このフィルタは、オ-ディオ出力信号を、複数の時間-周波数ビンの各々について複数のオ-ディオ出力信号サンプルのうちの１つを発生することにより発生するための出力信号発生器を備えている。複数の時間-周波数ビンの各々について発生されられるオ-ディオ出力信号サンプルは、その時間-周波数ビンの重み情報に依存して、かつその時間-周波数ビンへ割り当てられる、２つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルに依存して、その時間-周波数ビンへ割り当てられる。

実施形態は、同時に活性な最大Ｌ個の音源に対する望ましい応答を得るための空間フィルタを提供する。提供される空間フィルタは、フィルタ出力における拡散プラス雑音電力をＬ個の線形制約に従って最小にすることにより達成される。最新技術による概念とは対照的に、Ｌ個の制約は、瞬間的な狭帯域到来方向推定に基づく。さらに、拡散対雑音比／拡散電力の新しい推定器を提供し、それは残響除去および雑音低減の双方を達成するに足る高い時間的かつ空間的分解能を示す。

幾つかの実施形態によれば、時間-周波数の瞬間毎の同時活性である最大Ｌ個の音源に対する望ましい任意の空間応答を得るための概念が提供される。この目的に沿って、音響シ-ンに関する瞬間的パラメトリック情報（ＩＰＩ：instantaneous parametric information）が空間フィルタの設計に組み込まれ、「インフォ-ムド空間フィルタ（informed spatial filter）」となる。

実施形態によっては、このようなインフォ-ムド空間フィルタは、例えば、増強された出力信号を提供するために、複素重みに基づいて、利用可能な全てのマイクロフォン信号を結合する。

実施形態によれば、インフォ-ムド空間フィルタは、例えば、線形制約付き最小分散（ＬＣＭＶ：linearly constrained minimum variance）空間フィルタとして、またはパラメトリックなマルチチャネル・ウィ-ナ・フィルタ（Wiener filter）として実現することができる。

実施形態によっては、提供されるインフォ-ムド空間フィルタは、例えば、Ｌ個の線形制約に従って拡散プラス自己雑音電力を最小限に抑えることによって達成される。

実施形態によっては、従来技術とは対照的に、Ｌ個の制約は、瞬間的な到来方向（ＤＯＡ：direction-of-arrival）推定に基づき、かつ結果的に得られるＬ個のＤＯＡに対する応答は、具体的な望ましい指向性に対応する。

さらに、必要とされる信号と雑音の統計、例えば拡散対雑音比（ＤＮＲ：diffuse-to-noise ratio）のための新しい推定器を提供し、それは例えば残響と雑音の双方を低減するに足る高い時間的かつ空間的分解能を示す。

さらに、複数のオ-ディオ出力信号サンプルを含むオ-ディオ出力信号を、２つ以上の入力マイクロフォン信号に基づいて発生するための方法も提供する。オ-ディオ出力信号および２つ以上の入力マイクロフォン信号は時間-周波数領域において表現され、複数のオ-ディオ出力信号サンプルの各々は、複数の時間-周波数ビンのうちの１つの時間-周波数ビンへ割り当てられる。本方法は、
複数の時間-周波数ビン（(k, n)）の各々について、１つ以上の音源の１つ以上の音成分の到来方向情報、または１つ以上の音源の位置情報を受信するステップと、
複数の時間-周波数ビンの各々について、重み情報を、その時間-周波数ビンの１つ以上の音源の１つ以上の音成分の到来方向情報に依存して、またはその時間-周波数ビンの１つ以上の音源の位置情報に依存して発生するステップと、
オ-ディオ出力信号を、複数の時間-周波数ビン（(k, n)）の各々について、複数のオ-ディオ出力信号サンプルのうちの１つを発生することにより発生するステップと、を含み、複数の時間-周波数ビン（(k, n)）の各々について発生されられるオ-ディオ出力信号サンプルは、その時間-周波数ビン（(k, n)）の重み情報に依存して、かつその時間-周波数ビン（(k, n)）へ割り当てられる、２つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルに依存して、その時間-周波数ビン（(k, n)）へ割り当てられる。

さらに、コンピュ-タまたは信号プロセッサ上で実行されると、上述の方法を実装するためのコンピュ-タプログラムも提供する。

図１Ａはある実施形態によるフィルタを示す。図１Ｂはある実施形態によるフィルタの可能なアプリケ-ションシナリオを示す。図２はある実施形態によるフィルタと、複数のマイクロフォンとを示す。図３はある実施形態による重み発生器を示す。図４はある実施形態による２つの応答例の大きさを示す。図５は、線形制約付き最小分散手法を実装する、別の実施形態による重み発生器を示す。図６は、パラメトリックなマルチチャネル・ウィ-ナ・フィルタ手法を実装する、さらなる実施形態による重み発生器を示す。図７は時間および周波数の関数としての真の拡散対雑音比と推定された拡散対雑音比を示す。図８は比較された空間フィルタの指向性指数と白色雑音利得を示す。図９は推定された到来方向と結果的に生じる利得を示す。図１０はステレオラウドスピ-カ再生の場合の一例を示す。

以下、図面を参照して、本発明の実施形態をより詳細に説明する。

図１Ａは、２つ以上の入力マイクロフォン信号に基づいて複数のオ-ディオ出力信号サンプルを含むオ-ディオ出力信号を発生するためのフィルタ１００を示す。オ-ディオ出力信号および２つ以上の入力マイクロフォン信号は時間-周波数領域において表現され、複数のオ-ディオ出力信号サンプルは各々、複数の時間-周波数ビン(k, n)のうちの１つの時間-周波数ビン(k, n)へ割り当てられる。

フィルタ１００は、複数の時間-周波数ビン(k, n)の各々について、１つ以上の音源の１つ以上の音成分の到来方向情報、または１つ以上の音源の位置情報を受信するように適合化され、かつ複数の時間-周波数ビン(k, n)の各々に関する重み情報を、その時間-周波数ビン(k, n)の１つ以上の音源の１つ以上の音成分の到来方向情報に依存して、またはその時間-周波数ビン(k, n)の１つ以上の音源の位置情報に依存して発生するように適合化されている重み発生器１１０を備えている。

さらに、このフィルタは、オ-ディオ出力信号を、複数の時間-周波数ビン(k, n)の各々について複数のオ-ディオ出力信号サンプルのうちの１つを発生することにより発生するための出力信号発生器１２０を備え、複数の時間-周波数ビンの各々について発生されられるオ-ディオ出力信号サンプルは、その時間-周波数ビン(k, n)の重み情報に依存して、かつその時間-周波数ビン(k, n)へ割り当てられる、２つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルに依存して、その時間-周波数ビン(k, n)へ割り当てられる。

例えば、２つ以上の入力マイクロフォン信号は各々、複数のオ-ディオ入力サンプルを含み、オ-ディオ入力サンプルは各々、時間-周波数ビン(k, n)のうちの１つへ割り当てられ、かつオ-ディオ信号発生器１２０は、複数のオ-ディオ出力信号サンプルのうちの１つを発生するように適合化することができ、この複数のオ-ディオ出力信号サンプルのうちの１つは、その時間-周波数ビン(k, n)の重み情報に依存して、かつ２つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルのうちの１つに依存して、即ち、例えば２つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルのうちの１つであってその時間-周波数ビン(k, n)へ割り当てられるものに依存して、その時間-周波数ビン(k, n)へ割り当てられる。

各時間-周波数ビン(k, n)の発生されるべき各オ-ディオ出力信号サンプルについて、重み発生器１１０は個々の重み情報を新たに発生する。出力信号発生器１２０は、次に、考察された時間-周波数ビン(k, n)のオ-ディオ出力信号サンプルを、その時間-周波数ビンについて発生された重み情報に基づいて発生する。言い替えれば、新しい重み情報は、重み発生器１１０により、オ-ディオ出力信号サンプルが発生される各時間-周波数ビンに関して計算される。

重み情報を発生する際、重み発生器１１０は１つ以上の音源の情報を考慮するように適合化される。

例えば、重み発生器１１０は第１の音源の位置を考慮することができる。ある実施形態では、重み発生器は第２の音源の位置も考慮することができる。

あるいは、例えば、第１の音源は第１の音成分を有する第１の音波を発することができる。第１の音成分を有するその第１の音波はマイクロフォンに到達し、そして重み発生器１１０は第１の音成分／音波の到来方向を考慮することができる。これにより、重み発生器１１０は第１の音源に関する情報を考慮する。さらに、第２の音源は第２の音成分を有する第２の音波を発することができる。第２の音成分を有するその第２の音波はマイクロフォンに到達し、そして重み発生器１１０は第２の音成分／第２の音波の到来方向を考慮することができる。これにより、重み発生器１１０は第２の音源に関する情報も考慮する。

図１Ｂはある実施形態によるフィルタ１００の可能なアプリケ-ションシナリオを示す。第１の音成分を有する第１の音波は、第１のラウドスピ-カ１２１（第１の音源）によって発せられ、第１のマイクロフォン１１１に達する。第１のマイクロフォン１１１では、第１の音成分の到来方向（＝第１の音波の到来方向）が考慮される。さらに、第２の音成分を有する第２の音波は、第２のラウドスピ-カ１２２（第２の音源）によって発せられ、第１のマイクロフォン１１１に達する。重み発生器１１０は、重み情報を決定するために、第１のマイクロフォン１１１における第２の音成分の到来方向も考慮することができる。さらに、重み情報を決定するために、マイクロフォン１１２等の他のマイクロフォンにおける音成分の到来方向（＝音波の到来方向）も、重み発生器により考慮することができる。

音源が、例えば、環境内に物理的に存在する物理的音源、例えば、ラウドスピ-カ、楽器または話し声とすることができることは留意されるべきである。

しかしながら、虚音源もまた音源であることは留意されるべきである。例えば、スピ-カ１２２により発せられる音波は、壁１２５によって反射される場合があり、この場合は音波は実際にこの音波を発したスピ-カの位置とは異なる位置１２３から発せられたように現出する。このような虚音源１２３もまた、音源と見なされる。重み発生器１１０は、重み情報を、虚音源に関する到来方向情報に依存して、または１つ、２つまたはそれ以上の虚音源に関する位置情報に依存して発生するように適合化することができる。

図２は、ある実施形態によるフィルタ１００と、複数のマイクロフォン１１１、１１２、１１３、…、１１ｎとを示す。図２の実施形態において、フィルタ１００は、さらに、フィルタバンク１０１を備えている。さらに、図２の実施形態において、重み発生器１１０は、情報計算モジュ-ル１０２と、重み計算モジュ-ル１０３と、伝達関数選択モジュ-ル１０４とを備えている。

その処理は、ｋが周波数指数を示し、ｎが時間指数を示す時間-周波数領域において実行される。この装置（フィルタ１００）への入力はマイクロフォン１１１、１１２、１１３、…、１１ｎからのＭ個の時間領域マイクロフォン信号ｘ_1...M（ｔ）であり、これらはフィルタバンク１０１によって時間-周波数領域へ変換される。その変換されたマイクロフォン信号は、ベクトル、
ｘ(k, n)＝［Ｘ₁(k, n)Ｘ₂(k, n)…Ｘ_M(k, n)］^T
によって与えられる。

フィルタ１００は、所望される信号Ｙ(k, n)（オ-ディオ出力信号）を出力する。オ-ディオ出力信号（所望される信号）Ｙ(k, n)は、例えば、モノラル再生のための強化信号、ステレオ再生のためのヘッドフォン信号、または任意のラウドスピ-カ配置による空間音再生のためのラウドスピ-カ信号を表わすことができる。

所望される信号Ｙ(k, n)は、出力信号発生器１２０により、例えばＭ個のマイクロフォン信号ｘ(k, n)の線形結合を瞬間的な複素重みｗ(k, n)＝［Ｗ₁(k, n)Ｗ₂(k, n)…Ｗ_M(k, n)］^T に基づいて、例えば、式、
Ｙ(k, n)＝ｗ^H(k, n)ｘ(k, n) （１）
を用いて実行することにより、発生される。

重みｗ(k, n)は、重み計算モジュ-ル１０３によって決定される。重みｗ(k, n)は、各ｋおよび各ｎについて新しく決定される。言い替えれば、各時間-周波数ビン(k, n)について重みｗ(k, n)の決定が行われる。より具体的には、重みｗ(k, n)は、例えば、瞬間的パラメトリック情報（ＩＰＩ）Ｊ(k, n)に基づいて、かつ対応する所望される伝達関数Ｇ(k, n)に基づいて計算される。

情報計算モジュ-ル１０２は、マイクロフォン信号ｘ(k, n)からパラメトリック情報（ＩＰＩ）Ｊ(k, n)を計算するように構成されている。ＩＰＩは、所定の時間-周波数の時点(k, n)に関して、マイクロフォン信号ｘ(k, n)内に含まれる信号および雑音成分の固有の特性を記述する。

図３はある実施形態による重み発生器１１０を示す。この重み発生器１１０は、情報計算モジュ-ル１０２、重み計算モジュ-ル１０３、および伝達関数選択モジュ-ル１０４を備えている。

図３における例に示されているように、ＩＰＩは、主として、１つ以上の指向性音成分（例えば、平面波）の瞬間的な到来方向（ＤＯＡ：direction-of-arrival）を含み、瞬間的な到来方向は例えばＤＯＡ推定モジュ-ル２０１により計算される。

後に説明するように、ＤＯＡ情報は、角度として（例えば、［方位角ρ(k, n)、仰角α(k, n)によって］）表現することができ、空間周波数によって（例えば、μ［ｋ｜ρ(k, n)］によって）、マイクロフォン間の時間遅延による位相シフトによって（例えば、ａ［ｋ｜ρ(k, n)］によって）、伝搬ベクトルによって（例えば、ａ［ｋ｜ρ(k, n)］によって）、または両耳間レベル差（ＩＬＤ：interaural level difference）もしくは両耳間時間差（ＩＴＤ：interaural time difference）によって表現することができる。

さらに、パラメトリック情報（ＩＰＩ）Ｊ(k, n)は、例えば、追加的な情報、例えば信号成分または雑音成分の二次統計量（ＳＯＳ）を含むことができる。

ある実施形態において、重み発生器１１０は、複数の時間-周波数ビン(k, n)の各々の重み情報を、２つ以上の入力マイクロフォン信号の信号成分または雑音成分に関する統計的情報に依存して発生するように適合化されている。このような統計的情報は、例えば、ここで述べた二次統計量である。その統計的情報は、例えば、２つ以上の入力マイクロフォン信号の、雑音成分の電力、信号対拡散情報、信号対雑音情報、拡散対雑音情報、拡散対雑音情報、信号成分の電力、拡散成分の電力、または信号成分もしくは雑音成分の電力スペクトル密度行列とすることができる。

その二次統計量は統計量計算モジュ-ル２０５によって計算することができる。この二次統計量情報は、例えば、定常雑音成分（例えば、自己雑音）の電力、非定常雑音成分（例えば、拡散音）の電力、信号対拡散比（ＳＤＲ）、信号対雑音比（ＳＮＲ）、または拡散対雑音比（ＤＮＲ）を含むことができる。この情報は、特有の最適化基準に依存して最適重みｗ(k, n)を計算することを可能にする。

「定常雑音成分」／「ゆっくりと変動する雑音成分」は、例えば、統計が時間的に変化しない、またはゆっくりと変化する雑音成分である。

「非定常雑音成分」は、例えば、統計が経時的に急速に変化する雑音成分である。

ある実施形態において、重み発生器１１０は、複数の時間-周波数ビン(k, n)の各々の重み情報を、２つ以上の入力マイクロフォン信号の第１の雑音成分に関する情報を示す第１の雑音情報に依存して、かつ２つ以上の入力マイクロフォン信号の第２の雑音成分に関する情報を示す第２の雑音情報に依存して発生するように適合化されている。

例えば、第１の雑音成分は非定常雑音成分であってもよく、かつ第１の雑音情報は非定常雑音成分に関する情報であってもよい。

第２の雑音成分は、例えば、定常雑音成分／ゆっくりと変動する雑音成分であってもよく、かつ第２の雑音情報は定常雑音成分／ゆっくりと変動する雑音成分に関する情報であってもよい。

ある実施形態において、重み発生器１１０は第１の雑音情報（例えば、非定常雑音成分／ゆっくりではなく変動する雑音成分に関する情報）を、例えば予め規定された統計的情報（例えば、非定常雑音成分から結果的に生じる２つ以上の入力マイクロフォン信号間の空間的コヒ-レンスに関する情報）を使用することによって発生するように構成され、かつ重み発生器１１０は第２の雑音情報（定常雑音成分／ゆっくりと変動する雑音成分に関する情報）を、統計的情報を使用することなく発生するように構成されている。

高速で変わる雑音成分に関しては、入力マイクロフォン信号が単独でこのような雑音成分に関する情報を決定するに足る情報を提供するわけではない。急速に変わる雑音成分に関する情報の決定には、統計的情報が例えば追加的に必要とされる。

しかしながら、変化しないか、またはゆっくりと変化する雑音成分に関しては、これらの雑音成分に関する情報の決定に統計的情報は不要である。その代わりに、マイクロフォン信号を評価することで足りる。

統計的情報は、図３に示されているように推定されるＤＯＡ情報を活用して計算できることは留意されるべきである。さらに、ＩＰＩは外部から提供することもできる点は留意されるべきである。例えば、人である話者が音響シ-ンを形成するものとすれば、音のＤＯＡ（それぞれの音源の位置）は、顔認識アルゴリズムつきのビデオカメラによって決定することができる。

伝達関数選択モジュ-ル１０４は伝達関数Ｇ(k, n)を提供するように構成されている。図２および図３の（潜在的には複素）伝達関数Ｇ(k, n)は、（例えば、現行のパラメトリックな）瞬間的パラメトリック情報（ＩＰＩ）Ｊ(k, n)が与えられたとすると、システムの所望される応答を記述する。例えば、Ｇ(k, n)は、モノラル再生における信号増強のための所望される空間マイクロフォンの任意のピックアップパタ-ン、ラウドスピ-カ再生のためのＤＯＡ依存ラウドスピ-カ利得、またはステレオ再生のための頭部伝達関数（ＨＲＴＦ：head-related transfer function）を記述することができる。

通常、録音された音響シ-ンの統計が時間および周波数に渡って急速に変動することは、留意されるべきである。結果的に、瞬間的パラメトリック情報（ＩＰＩ）Ｊ(k, n)および対応する最適重みｗ(k, n)は、特有の時間-周波数指数に対してのみ有効であり、よって、各ｋおよびｎ毎に計算し直される。したがって、システムは現在の録音状況に瞬時に適応することができる。

さらに、Ｍ個の入力マイクロフォンが、単一のマイクロフォンアレイを形成するか、分散されて異なる場所で複数のアレイを形成するか、の何れかであり得ることは留意されるべきである。さらに、瞬間的パラメトリック情報（ＩＰＩ）Ｊ(k, n)は、ＤＯＡ情報の代わりに、位置情報、例えば、三次元室内の音源の位置、を含むことができる。これにより、所望される特有の方向だけでなく、録音シ-ンの三次元空間領域をもフィルタリングする空間フィルタを規定することができる。

ＤＯＡに関して行われる全ての説明は、音源の位置情報を利用可能である場合に等しく適用することができる。例えば、位置情報は、ＤＯＡ（角度）と距離によって表現することができる。このような位置表現が使用される場合には、ＤＯＡを、位置情報から即座に入手することができる。あるいは、位置情報は、例えば、ｘ,ｙ,ｚ座標によって記述することもできる。よって、ＤＯＡは、音源の位置情報に基づいて、かつ個々の入力マイクロフォン信号を記録するマイクロフォンの位置に基づいて、容易に計算することができる。

以下、さらなる実施形態について説明する。

幾つかの実施形態は、残響除去および雑音低減を用いる空間選択的録音を可能にする。この点に関し、音源抽出、残響除去および雑音低減に関連する、信号増強のための空間フィルタリングのアプリケ-ションのための実施形態を提供する。このような実施形態の目的は、任意のピックアップパタ-ンを有する指向性マイクロフォンの出力に対応する信号Ｙ(k, n)を計算することにある。これは、指向性の音（例えば、単一の平面波）はそのＤＯＡに依存して所望される通りに減衰または持続されるが、拡散音またはマイクロフォンの自己雑音は抑制されることを意味する。実施形態によれば、提供される空間フィルタは、最新技術の空間フィルタの利点、特に、高いＤＮＲを有する状況では高い指向性指数（ＤＩ：directivity index）を提供し、そうでない状況では高い白色雑音利得（ＷＮＧ：white noise gain）を提供するという利点、を兼ね備える。幾つかの実施形態によれば、空間フィルタに線形制約だけを課してもよく、これにより、重みの高速計算が可能になる。例えば、図２および図３の伝達関数Ｇ(k, n)は、例えば、指向性マイクロフォンの所望されるピックアップパタ-ンを表すことができる。

以下、問題の定式化について述べる。次いで、残響除去および雑音低減を用いる空間選択的録音のための重み計算モジュ-ル１０３およびＩＰＩ計算モジュ-ル１０２の実施形態について述べる。さらに、対応するＴＦ選択モジュ-ル１０４の実施形態について述べる。

まず、問題の定式化を行う。ｄ_1….Mに位置決めされたＭ個の全方向性マイクロフォンのアレイについて考察する。(k, n)毎に、音場は、等方性かつ空間的に均質な拡散音場において伝搬するＬ＜Ｍ個の平面波（指向性の音）で構成されるものとする。マイクロフォン信号ｘ(k, n)は、

と書くことができる。但し、ｘ_ι(k, n)＝［Ｘ_ι(k, n, d₁)…Ｘ_ι(k, n, d_M)］^Tは、ι番目の平面波の音圧に比例するマイクロフォン信号を含み、ｘ_d(k, n)は測定された非定常雑音（例えば、拡散音）であり、ｘ_n(k, n)は定常雑音／ゆっくりと変動する雑音（例えば、マイクロフォン自己雑音）である。

式（２）における３つの成分が相互に無相関であるものとすると、マイクロフォン信号の電力スペクトル密度（ＰＳＤ：power spectral density）行列は、

によって記述することができる。但し、
Φ_d(k, n)＝φ_d(k, n)Γ_d（ｋ）（４）
である。ここで、Φ_n(k, n)は、定常雑音／ゆっくりと変動する雑音のＰＳＤ行列であり、φ_d(k, n)は非定常雑音の期待電力であり、時間および周波数にわたって急速に変動する可能性がある。コヒ-レンス行列Γ_d（ｋ）のｉｊ番目の要素は、γ_ij（ｋ）で示され、非定常雑音から結果的に生じるマイクロフォンｉとｊとの間のコヒ-レンスである。例えば、球状等方性の拡散音場の場合、γ_ij（ｋ）＝ｓｉｎｃ（κ ｒ_ij）［非特許文献２０］である。κは波数、ｒ_ij＝||ｄｊ-ｄ_i||である。コヒ-レンス行列Γ_n（ｋ）のｉｊ番目の要素は、定常雑音／ゆっくりと変動する雑音から結果的に生じるマイクロフォンｉとｊとの間のコヒ-レンスである。マイクロフォン自己雑音の場合、Φ_n(k, n)＝φ_n(k, n)Ｉであり、ここで、Ｉは恒等行列、φ_n(k, n)は自己雑音の期待電力である。

式（２）における指向性の音ｘ_ι(k, n)は、
ｘ_ι(k, n)＝ａ［ｋ｜ρ_ι(k, n)］Ｘ_ι（ｋ,ｎ,ｄ₁）（５）
と書くことができる。但し、ρ_ιはι番目の平面波のＤＯＡの方位角（ρ＝０はマイクロフォンアレイの並び方向（broadside）を示す）であり、
ａ［ｋ｜ρ_ι(k, n)］＝［ａ₁［ｋ｜ρ_ι(k, n)］…ａ_M［ｋ｜ρ_ι(k, n)］］^Tは伝搬ベクトルである。ａ［ｋ｜ρ_ι(k, n)］のｉ番目の要素、
ａ_i［ｋ｜ρ_ι(k, n)］＝ｅｘｐ｛ｊκｒ_iｓｉｎρ_ι(k, n)｝（６）
は、ι番目の平面波による第１のマイクロフォンからｉ番目のマイクロフォンまでの位相シフトを記述する。ｒ_i＝||ｄｉ-ｄ１||が、第１のマイクロフォンとｉ番目のマイクロフォンとの距離に等しいことは、留意されるべきである。

は空間周波数と称される場合が多い。ι番目の波のＤＯＡは、ρ_ι(k, n)、ａ_i［ｋ｜ρ_ι(k, n)］、ａ［ｋ｜ρ_ι(k, n)］またはμ_i［ｋ｜ρ_ι(k, n)］によって表すことができる。

先に説明したように、この実施形態の目的は、特定の空間領域から到来する指向性の音が所望される通りに減衰または増幅され、一方で定常雑音と非定常雑音は抑制されるように、マイクロフォン信号ｘ(k, n)をフィルタリングすることにある。したがって、所望される信号は、

と表すことができる。ここで、Ｇ［ｋ｜ρ(k, n)］は、周波数依存性であることが可能な実数値または複素数値の任意の、例えば予め定義された指向性関数である。

図４は、ある実施形態による、２つの任意の指向性関数および音源位置によるシナリオに関連している。具体的には、図４は、指向性の２例、Ｇ₁［ｋ｜ρ(k, n)］およびＧ₂［ｋ｜ρ(k, n)］の大きさを示す。Ｇ₁［ｋ｜ρ(k, n)］を用いる場合（図４における実線参照）、ρ＜４５゜から到来する指向性の音は２１ｄＢ減衰されるが、他の方向から到来する指向性の音は減衰されない。原則的には、任意の指向性は、Ｇ₂［ｋ｜ρ(k, n)］（図４における破線参照）等の偶関数に設計することができる。さらに、Ｇ［ｋ｜ρ(k, n)］は、例えば、移動するまたは出現する音源を、その位置が特定された時点で抽出するために、時変的に設計することができる。

信号Ｙ(k, n)の推定値は、マイクロフォン信号ｘ(k, n)の線形結合により、例えば、

によって得られる。但し、ｗ(k, n)は長さＭの複素重みベクトルである。対応する最適重みベクトルｗ(k, n)は、次のように導出される。以下では、簡潔さのために、重みｗ(k, n)のｋおよびｎに対する依存性は除外する。

では、図２および図３における重み計算モジュ-ル１０３の２つの実施形態について述べる。

式（５）および式（７）から、ｗ(k, n)は、線形制約、
ｗ^H(k, n)ａ［ｋ｜ρ_ι(k, n)］＝Ｇ［ｋ｜ρ_ι(k, n)］,
ι∈｛１,２,…,Ｌ｝
（９）
を満たさなければならないことになる。

さらに、フィルタ出力における非定常および定常／ゆっくりと変動する雑音電力は、最小にされるべきである。

図５は、空間フィルタリングを適用するための本発明の一実施形態を描いたものである。具体的には、図５は、別の実施形態による重み発生器１１０を示す。この場合もやはり、重み発生器１１０は、情報計算モジュ-ル１０２、重み計算モジュ-ル１０３、および伝達関数選択モジュ-ル１０４を備えている。

より具体的には、図５は線形制約付き最小分散（ＬＣＭＶ：linearly constrained minimum variance）手法を示す。本実施形態（図５参照）において、重みｗ(k, n)は、Ι個の平面波のＤＯＡを含むＩＰＩＩ(k, n)、並びに定常雑音および非定常雑音の統計に基づいて計算される。後者の情報は、ＤＮＲ、２つの雑音成分の個別電力φ_n(k, n)およびφ_d(k, n)、または２つの雑音成分のＰＳＤ行列Φ_nおよびΦ_dを含むことができる。

例えば、Φ_dは２つの雑音成分のうちの第１の雑音成分に関する第１の雑音情報とみなすことができ、Φ_nは２つの雑音成分のうちの第２の雑音成分に関する第２の雑音情報とみなすことができる。

例えば、重み発生器１１０は、第１の雑音情報Φ_dを１つ以上のマイクロフォン入力信号の少なくとも幾つかの第１の雑音成分間の１つ以上のコヒ-レンスに依存して決定するように構成することができる。例えば、重み発生器１１０は、第１の雑音情報を、２つ以上の入力マイクロフォン信号の第１の雑音成分から結果的に生じるコヒ-レンスを示すコヒ-レンス行列Γ_d（ｋ）に依存して、例えば、式
Φ_d(k, n)＝φ_d(k, n)Γ_d（ｋ）
を適用することによって決定するように構成することができる。

式（８）における問題を解くための重みｗ(k, n)は、フィルタ出力における自己雑音電力（定常雑音／ゆっくりと変動する雑音）と拡散音電力（非定常雑音）との和を最小にすること、即ち、

によって求められる。

式（４）を用い、かつΦ_n(k, n)＝φ_n(k, n)Ｉであるものとすると、この最適化問題は、

として表すことができる。ここで、

は、マイクロフォンにおける時変性入力ＤＮＲである。制約（９）が与えられたとすると、式（１０）および式（１２）の解は、
ｗ_nd＝Φ_u ^-1Ａ［Ａ^HΦ_u ^-1Ａ］^-1ｇ（１４）
＝Ｃ^-1Ａ［Ａ^HＣ^-1Ａ］^-1ｇ（１５）
である［非特許文献２１］。ここで、
Ａ(k, n)＝［ａ［ｋ｜ρ₁(k, n)］…ａ［ｋ｜ρ_ι(k, n)］］は、伝搬ベクトルに関連するＬ個の平面波のＤＯＡ情報を含む。対応する所望される利得は、
ｇ(k, n)＝［Ｇ［ｋ｜ρ₁(k, n)］…Ｇ［ｋ｜ρ_ι(k, n)］］^T （１６）
によって与えられる。

Ψ(k, n)の推定および他の必要なＩＰＩの実施形態については後述する。

他の実施形態は、パラメトリックなマルチチャネル・ウィ-ナ・フィルタに基づく。このような実施形態では、図６に示されているように、ＩＰＩは、さらに、信号統計に関する情報、例えば、Ｌ個の平面波（指向性の音）の電力を含む信号ＰＳＤ行列Φ_s(k, n)を含む。さらに、Ｌ個の平面波の各々について信号歪の程度を制御するために、任意選択の制御パラメ-タλ_1…L(k, n)が考察される。

図６は、パラメトリックなマルチチャネル・ウィ-ナ・フィルタを使用する重み発生器１１０を実装する空間フィルタリングを適用するための一実施形態を示す。この場合もやはり、重み発生器１１０は、情報計算モジュ-ル１０２、重み計算モジュ-ル１０３、および伝達関数選択モジュ-ル１０４を備えている。

重みｗ(k, n)はマルチチャネル・ウィ-ナ・フィルタ手法を介して計算される。ウィ-ナ・フィルタは、出力における残留信号の電力を最小にし、即ち、

となる。

最小化されるべき費用関数Ｃ(k, n)は、

＝［ｇ-Ａ^H(k, n)ｗ］^HΦ_s(k, n)［ｇ-Ａ^H(k, n)ｗ］
＋ｗ^HΦ_u(k, n)ｗ（１９）
と書くことができる。ここで、Φ_s(k, n)＝Ｅ｛ｘ_s(k, n)ｘ_s(k, n)^H｝は指向性の音ＰＳＤを含み、ｘ_s(k, n)＝［Ｘ₁（ｋ,ｎ,ｄ₁）Ｘ₂（ｋ,ｎ,ｄ₁）….Ｘ_Ｌ（ｋ,ｎ,ｄ₁）］は参照マイクロフォンにおけるＬ個の平面波の音圧に比例する信号を含む。Φ_s(k, n)は対角行列であって、対角要素ｄｉａｇ｛Φ_s(k, n)｝＝［φ₁(k, n)…φ_L(k, n)］^Tは到来する平面波の電力であることに留意されたい。導入される信号歪に対する制御を有するために、時間と周波数に依存性の制御パラメ-タ
ｄｉａｇ｛Λ｝＝［λ₁(k, n)λ₂(k, n)…λ_L(k, n)］^T、即ち、
Ｃ_PW(k, n)＝
［ｇ-Ａ^H(k, n)ｗ］^HΛ(k, n)Φ_s(k, n)［ｇ-Ａ^H(k, n)ｗ］
＋ｗ^HΦ_u(k, n)ｗ（２０）
を含む対角行列Λ(k, n)を包含することができる。

Ｃ_PW(k, n)が与えられたとすると、式（１７）における最小化問題に対する解は、
ｗ＝［Ａ^HΛ(k, n)Φ_s(k, n)Ａ＋Φ_u］^-1ＡΛ(k, n)Φ_s(k, n)ｇ
（２１）
である。これは、
ｗ＝Φ_u ^-1Ａ［Λ^-1Φ_s ^-1＋Ａ^HΦ_u ^-1Ａ］^-1ｇ（２２）
に等しい。

Λ^-1＝０であれば、式（１４）におけるＬＣＭＶの解が得られることは留意されるべきである。Λ^-1＝Ｉの場合、マルチチャネル・ウィ-ナ・フィルタが得られる。他の値λ_1…L(k, n)の場合、対応する音源信号の歪の量および残留雑音抑制の量を各々制御することができる。したがって、通常、λ_ι ^-1(k, n)は、利用可能なパラメトリック情報に依存して、即ち、
λ_ι ^-1(k, n)＝ｆ（Ｊ(k, n)）（２３）
として定義される。但し、ｆ（・）はユ-ザが定義する任意の関数である。例えば、
λ_1…L(k, n)を、

に従って選ぶことができる。但し、φ_ι(k, n)はι番目の信号（ι番目の平面波）の電力、φ_u(k, n)＝φ_n(k, n)＋φ_d(k, n)は望ましくない信号（定常雑音／ゆっくりと変動する雑音および非定常雑音）の電力である。これにより、パラメトリック・ウィ-ナ・フィルタは２つ以上の入力マイクロフォン信号の信号成分に関する統計的情報に依存し、よって、パラメトリック・ウィ-ナ・フィルタは、さらに、２つ以上の入力マイクロフォン信号の雑音成分に関する統計的情報にも依存する。

音源ιが雑音よりも強力であれば、ゼロに近いλ_ι ^-1(k, n)が得られるが、これは、ＬＣＭＶの解が得られること（音源信号の歪はなし）を意味する。雑音が音源電力より強力であれば、１に近いλ_ι ^-1(k, n)が得られ、マルチチャネル・ウィ-ナ・フィルタが得られること（強力な雑音抑制）を意味する。

Φ_s(k, n)およびΦ_u(k, n)の推定については後述する。

次に、瞬間パラメ-タ推定モジュ-ル１０２の実施形態について述べる。

重みを計算するには、その前に、異なるＩＰＩを推定する必要がある。モジュ-ル２０１において計算されるＬ個の平面波のＤＯＡは、ＥＳＰＲＩＴ［非特許文献２２］もしくはル-トＭＵＳＩＣ［非特許文献２３］等の周知の狭帯域ＤＯＡ推定器、または最新技術による他の推定器を用いて得ることができる。これらのアルゴリズムは、例えば、アレイに到達する１つ以上の波の方位角ρ(k, n)、空間周波数μ［ｋ｜ρ(k, n)］、位相シフトａ［ｋ｜ρ(k, n)］、または伝搬ベクトルａ［ｋ｜ρ(k, n)］を提供することができる。ＤＯＡの推定は、それ自体技術上周知であることから、これ以上は論じない。

次に、拡散対雑音比（ＤＮＲ）の推定について述べる。具体的には、入力されるＤＮＲΨ(k, n)の推定、即ち、図５におけるモジュ-ル２０２の実現について論じる。ＤＮＲの推定は、モジュ-ル２０１において得られるＤＯＡ情報を活用する。Ψ(k, n)を推定するためには、拡散音のみが捕捉されるようにＬ個の平面波を打ち消す追加的な空間フィルタを使用することができる。この空間フィルタの重みは、例えば、アレイのＷＮＧを最大にすることにより、即ち、

によって求められる。但し、
ｗ^Hａ［ｋ｜ρ_ι(k, n)］＝０, ι∈｛１,２,…,Ｌ｝（２６）
ｗ^Hａ［ｋ｜ρ₀(k, n)］＝１（２７）
を条件とする。

制約（２７）は、非ゼロの重みＷ_Ψを保証する。伝搬ベクトルａ［ｋ｜ρ₀(k, n)］は、Ｌ個の平面波のＤＯＡρ_ι(k, n)とは異なる特定の方向ρ₀(k, n)に対応する。次には、ρ₀(k, n)について、全てのρ_ι(k, n)に対して最大距離を有する方向、即ち、

が選択される。但し、

である。重みＷ_Ψが与えられたとすると、追加的な空間フィルタの出力電力は、

によって与えられる。

これで、式（１３）および式（２９）により、即ち、

によって、入力されるＤＮＲを計算することができる。

必要とされる、マイクロフォン自己雑音の推定電力φ_n(k, n)は、例えば、この電力が経時的に一定であるか、またはゆっくりと変動するものとして、無音の間に推定するとができる。提案するＤＮＲ推定器は、実際には、選択される最適化基準（４５）に起因して、必ずしも最低の推定分散を提供するものではなく、不偏（unbiased）結果を提供することに留意されたい。

次に、非定常ＰＳＤ φ_d(k, n)の推定、即ち、図５におけるモジュ-ル（２０２）の別の実現、について論じる。非定常雑音の電力（ＰＳＤ）は、

を用いて推定することができる。但し、Ｗ_Ψは先の段落で定義している。定常雑音／ゆっくりと変動する雑音のＰＳＤ行列Φ_n(k, n)は、無音の間（即ち、信号および非定常雑音が存在しない間）に推定することができ、すなわち、
Φ_n(k, n)＝Ｅ｛ｘ(k, n)ｘ^H(k, n)｝（３２）
となることは留意されるべきである。但し、期待値は無音フレ-ムｎにわたって平均することにより近似される。無音フレ-ムは、最新技術による方法によって検出することができる。

次に、望ましくない信号のＰＳＤ行列の推定（モジュ-ル２０３参照）について論じる。

望ましくない信号（定常雑音／ゆっくりと変動する雑音および非定常雑音）のＰＳＤ行列Φ_u(k, n)は、
Φ_u(k, n)＝φ_n(k, n)（Ψ(k, n)Γ_d（ｋ）＋Γ_n（ｋ））（３３）
を用いて、または、より一般的には、
Φ_u(k, n)＝φ_d(k, n)Γ_d（ｋ）＋Φ_n(k, n) （３４）
を用いて得ることができる。但し、Γ_d（ｋ）とΓ_n（ｋ）は先験的情報として入手できる（上記参照）。ＤＮＲ Ψ(k, n)、定常雑音／ゆっくりと変動する雑音の電力φ_n(k, n)および必要とされる他の量は前述のように計算することができる。したがって、Φ_u(k, n)の推定は、モジュ-ル２０１によって得られるＤＯＡ情報を活用する。

次に、信号のＰＳＤ行列の推定（モジュ-ル２０４参照）について述べる。

Φ_s(k, n)の計算に必要とされる、到来する平面波の電力φ_1…L(k, n)は、

を用いて計算することができる。但し、重みｗ_ιは、ι番目の波を除く、到来する全ての平面波を抑制し、すなわち、

となる。

例えば、式（３６）に従えば、

となる。Φ_s(k, n)の推定は、モジュ-ル（２０１）において得られるＤＯＡ情報を活用する。必要とされる、望ましくない信号のＰＳＤ行列Φ_u(k, n)は、先の段落で説明したように計算することができる。

次に、ある実施形態による伝達関数選択モジュ-ル１０４について述べる。

このアプリケ-ションにおいて、対応する平面波ιの利得Ｇ［ｋ｜ρ_ι(k, n)］は、ＤＯＡ情報ρ_ι(k, n)に依存して求めることができる。このシステムは、異なるＤＯＡρ(k, n)の伝達関数Ｇ［ｋ｜ρ(k, n)］を、例えばユ-ザが定義する先験的情報として利用可能である。利得は、画像の解析に基づいて、例えば検出される顔の位置を用いて計算することもできる。図４には２例が描かれている。これらの伝達関数は、指向性マイクロフォンの所望されるピックアップパタ-ンに対応する。伝達関数Ｇ［ｋ｜ρ(k, n)］は、例えばルックアップテ-ブルとして提供することが可能であり、即ち、推定されるρ_ι(k, n)に対して、対応する利得Ｇ［ｋ｜ρ_ι(k, n)］がこのルックアップテ-ブルから選択される。伝達関数は、方位角ρ_ι(k, n)の代わりに空間周波数μ［ｋ｜ρ(k, n)］の関数としても定義でき、即ち、Ｇ［ｋ｜ρ(k, n)］の代わりにＧ（ｋ,μ）としても定義できることに留意されたい。また、利得は、ＤＯＡ情報の代わりに音源位置情報に基づいて計算することもできる。

ここで、実験結果について述べる。以下のシミュレ-ション結果は、上述の実施形態の実際的な適用性を実証するものである。以下、提案するシステムと最新技術によるシステムとを比較して説明する。次いで、実験装置を論じ、かつ結果を述べる。

まず、既存の空間フィルタについて考察する。

ＰＳＤ φ_n(k, n)は無音期間中に推定することができるが、φ_d(k, n)は、通常、未知であって観測できないものとされている。したがって、この知識なしに計算されることのできる既存の２つの空間フィルタについて考察する。

第１の空間フィルタは、遅延和ビ-ムフォ-マ（delay-and-sum beamformer）として知られ、フィルタ出力における自己雑音電力を最小にする［即ち、ＷＮＧを最大にする］［非特許文献１］。よって、式（９）に従って式（７）と式（８）との間の平均二乗誤差（ＭＳＥ）を最小にする最適重みベクトルは、

によって得られる。

式（３８）に対しては、ｗ_nの高速計算を可能にする閉形式解（closed-form solution）が存在する。このフィルタは、必ずしも最大ＤＩを提供しないことは留意されるべきである。

第２の空間フィルタは、ロバストな超指向性（ＳＤ：superdirective）ビ-ムフォ-マとして知られ、フィルタ出力における拡散音電力を最小にし［即ち、ＤＩを最大にし］、ＷＮＧを下限値とする［非特許文献２４］。ＷＮＧの下限値は、伝搬ベクトルにおける誤差に対するロバスト性を高め、かつ自己雑音の増幅を制限する［非特許文献２４］。よって、式（９）に従って式（７）と式（８）との間のＭＳＥを最小にし、かつＷＮＧの下限値を満たす最適重みベクトルは、

によって、かつ二次制約ｗ^H ｗ＜βに従って得られる。パラメ-タβ^-1は、最小ＷＮＧを画定し、かつフィルタの達成可能ＤＩを決定する。実際には、低ＳＮＲ状況における十分なＷＮＧと、高ＳＮＲ状況における十分に高いＤＩとの間の最適なトレ-ドオフを発見することは、困難である場合が多い。さらに、式（３９）を解くことは、二次制約に起因して非凸最適化問題（non-convex optimization problem）に繋がり、解くには時間を要する。これは、時変性制約（９）に起因して各ｋおよびｎの複素重みベクトルを計算し直す必要があるという理由で、特に問題である。

次に、実験装置について考察する。式（２）におけるモデル内のＬ＝２個の平面波、およびマイクロフォン間のスペ-シングが３ｃｍであるＭ＝４個のマイクロフォンによる均一線形アレイ（ＵＬＡ：uniform linear array）を想定し、方位角が各々ρ_A＝８６°とρ_B＝１１°である２つの音源（距離１.７５ｍ、図４参照）を有する音源画像方法［非特許文献２５、２６］を用いて、狭い部屋（７.０×５.４×２.４ｍ³、ＲＴ₆₀≒３８０ｍｓ）をシミュレ-トした。信号構成は、無音０.６秒およびこれに続くダブルト-クであった。マイクロフォン信号に白色ガウス雑音を追加し、２６ｄＢのセグメンタル信号対雑音比（ＳＳＮＲ：segmental signal-to-noise ratio）とした。音を１６ｋＨｚでサンプリングし、５１２ポイントのＳＴＦＴを用いて時間-周波数領域へ５０％のオ-バ-ラップで変換した。

図４の指向性関数Ｇ₁（ρ）について考察する。即ち、音源Ａは歪なしに抽出され、一方音源Ｂの電力が２１ｄＢ減衰される。前述の２つの空間フィルタと提供する空間フィルタについて考察する。ロバストなＳＤビ-ムフォ-マ（３９）に対しては、最小ＷＮＧが-１２ｄＢに設定されている。提供する空間フィルタ（１２）に対しては、ＤＮＲ Ψ(k, n)が先の説明のように推定される。自己雑音電力φ_n(k, n)は、最初の無音信号部分から計算される。式（３）における期待値は、τ＝５０ｍｓにわたる再帰時間平均（recursive temporal average）によって近似される。

次に、時不変指向性制約について考察する。

このシミュレ-ションに対しては、２つの音源位置ρ_Aおよびρ_Bに関する事前知識が想定されている。全ての処理ステップにおいて、ρ₁(k, n)＝ρ_Aおよびρ₂(k, n)＝ρ_Bを用いた。したがって、式（９）および式（２６）における指向性制約に経時的変化はない。

図７は、真のＤＮＲ Ψ(k, n)と推定されたＤＮＲ Ψ(k, n)を示す。マ-キングされた２つのエリアは、それぞれ信号の無音部分と活性部分を示す。具体的には、図７は、真のＤＮＲ Ψ(k, n)と推定されたＤＮＲ Ψ(k, n)を時間と周波数の関数として描いている。音声活動の間は、残響環境に起因して比較的高いＤＮＲが得られる。図７（Ｂ）における推定されたＤＮＲは、組み込まれた時間平均プロセスに起因して限定された時間分解能を有する。それにもかかわらず、Ψ(k, n)推定値は、以下の結果により示されるように、十分正確である。

図８（Ａ）は、ｗ_nおよびｗ_d（共に信号独立性）の平均ＤＩと、提案する空間フィルタｗ_nd（信号依存性）の平均ＤＩを描いている。提案する空間フィルタに関しては、信号の無音部分のＤＩと音声活動の間のＤＩ［これらの信号部分は共に、図７（Ｂ）においてマ-キングされている］を示している。無音の間、提案する空間フィルタ（一点鎖線のｗ_nd）は、ｗ_nと同じく低いＤＩを与える。音声活動の間（実線のｗ_nd）、得られるＤＩは、ロバストなＳＤビ-ムフォ-マ（ｗ_d）と同程度に高い。図８（Ｂ）は、対応するＷＮＧを示す。無音の間、提案する空間フィルタ（一点鎖線のｗ_nd）は高いＷＮＧを達成し、一方、信号活動の間のＷＮＧは比較的低い。

図８：比較される空間フィルタのＤＩおよびＷＮＧ。ｗ_dの場合、空間フィルタをマイクロフォン自己雑音に対してロバストにするために、最小ＷＮＧを-１２ｄＢに設定した。

概して、図８は、提案する空間フィルタが、既存の双方の空間フィルタの優位点、即ち、無音部分の間に最小自己雑音増幅、即ち高いロバスト性に繋がる最大ＷＮＧが提供されるという優位点、を兼ね備えていることを示している。

信号活動と高い残響の間は、自己雑音は通常マスキングされ、（低いＷＮＧを代償として）拡散音の最適減少に繋がる高いＤＩが与えられる。この場合は、比較的小さいＷＮＧであっても許容できる。

より高い周波数（ｆ＞５ｋＨｚ）の場合、式（３９）と式（１２）におけるコヒ-レンス行列Γ_d（ｋ）が恒等行列にほぼ等しいことから、全ての空間フィルタの性能はほとんど等しいことに留意されたい。

次に、瞬間指向性制約について考察する。

このシミュレ-ションに関しては、ρ_Aおよびρ_Bに関する先験的情報を利用できないことが想定されている。ＤＯＡρ₁(k, n)とρ₂(k, n)をＥＳＰＲＩＴを用いて推定する。したがって、制約（９）は経時的に変化する。ロバストなＳＤビ-ムフォ-マ（ｗ_d）に関してのみ、ρ_A＝８６゜である一定の視方向に対応する単一かつ時不変な制約（９）を用いる。このビ-ムフォ-マは参照として機能する。

図９は、推定されたＤＯＡ ρ₁(k, n)と結果的に生じる利得Ｇ［ｋ｜ρ₁(k, n)］を描いたものである。具体的には、図９は、推定されたＤＯＡ ρ₁(k, n)と結果的に生じる利得｜Ｇ［ｋ｜ρ₁(k, n)］｜²を示している。到来する平面波は、ＤＯＡが図４（実線）における空間窓内に存在すれば減衰されない。そうでなければ、波の電力は２１ｄＢ減衰される。

表１は、全ての空間フィルタの性能を示す［^*未処理］。括弧内の値は時不変指向性制約を指し、括弧外の値は瞬間指向性制約を指す。信号は、ＳＩＲ、ＳＲＲおよびＳＳＮＲを計算する前にＡ加重された。

具体的には、表１は、フィルタ出力における信号対干渉比（ＳＩＲ：signal-to-interference ratio）、信号対残響比（ＳＲＲ：signal-to-reverberation ratio）およびＳＳＮＲに関する空間フィルタの全体的性能をまとめたものである。ＳＩＲとＳＲＲ（音源分離、残響除去）に関しては、提案の手法（ｗ_nd）とロバストなＳＤビ-ムフォ-マ（ｗ_d）が最も高い性能を与える。しかしながら、提案するｗ_ndのＳＳＮＲはｗ_dのＳＳＮＲより６ｄＢ高く、明らかな聴覚的利点を表した。ＳＳＮＲに関する最良性能はｗ_nを用いて得られた。ＰＥＳＱに関しては、ｗ_ndとｗ_dはｗ_nより性能がよい。時不変制約（括弧内の値）の代わりに瞬間指向性制約を用いると、大概は達成可能なＳＩＲを低減させたが、変動する音源位置の場合に迅速に適応できる。必要とされる全ての複素重みの時間フレ-ム当たりの計算時間は、ｗ_dで８０秒より長く（ＣＶＸツ-ルボックス［非特許文献２７、２８］）、提案手法で０.０８秒より短い（ＭＡＴＬＡＢＲ２０１２ｂ、ＭａｃＢｏｏｋＰｒｏ２００８）ことは、留意されるべきである。

次に、空間音再生の実施形態について述べる。実施形態の目的は、音響シ-ンを例えばマイクロフォンアレイを用いて捕捉し、かつ空間音響を任意の音響再生システム（例えば、５.１ラウドスピ-カ装置、ヘッドフォン再生）を用いて、元の空間印象が再現されるように再生することにある。音響再生システムは、Ｎ個のチャネルを備えるものとし、即ちＮ個の出力信号Ｙ(k, n)を計算するものとする。

まず、問題を定式化する。信号モデル（先の式（２）参照）を考察し、類似の問題を定式化する。定常雑音／ゆっくりと変動する雑音は望ましくないマイクロフォン自己雑音に対応し、一方、非定常雑音は所望される拡散音に対応する。このアプリケ-ションにおいて拡散音が所望される理由は、録音シ-ンの元の空間印象を再生することが極めて重要であることにある。

次に、対応するＤＯＡ ρ_ι(k, n)からの指向性の音Ｘ_ι（ｋ,ｎ,ｄ₁）の歪のない再生を達成する。さらに、拡散音を全方向からの適正なエネルギ-によって再生し、同時にマイクロフォン自己雑音を抑制する。したがって、この時点で式（７）における所望される信号Ｙ(k, n)は、

で表される。ここで、Ｙ_i(k, n)は音響再生システムのｉ番目（ｉ＝｛１,…,Ｎ｝）のチャネルの信号であり、Ｘ_d,i（ｋ,ｎ,ｄ）はラウドスピ-カｉから再生されるべき任意のポイントに（例えば、第１のマイクロフォンｄ₁における）おける測定された拡散音であり、Ｇ_d(k, n)は、再生中の拡散音の適正電力を保証するための、拡散音の利得関数

である。理想的には、信号Ｘ_d,i(k, n)は、適正な拡散音電力を有し、かつチャネルｉ間では互いに相関されず、よって、

となる。

指向性音成分の伝達関数Ｇ_i［ｋ｜ρ_ι(k, n)］は、ＤＯＡ依存ラウドスピ-カ利得関数に相当する。ステレオラウドスピ-カ再生の場合の一例が図１０に描かれている。波ιがρ_ι(k, n)＝３０°から到来すれば、Ｇ₁＝１およびＧ₂＝０である。これは、この指向性の音が、再生システムのチャネルｉ＝１（左チャネル）からのみ再生されることを意味する。ρ_ι(k, n)＝０゜の場合、

になり、即ち、指向性の音は両ラウドスピ-カから等しい電力で再生される。あるいは、ステレオ再生が所望される場合は、Ｇ_i［ｋ｜ρ_ι(k, n)］はＨＲＴＦに相当することができる。

信号Ｙ_i(k, n)は、先に述べたように、複素重みｗ(k, n)に基づいてマイクロフォン信号の線形結合を介して、即ち、特定の制約に従って

として推定される。重みｗ_i(k, n)の制約と計算については次の小項目で説明する。

次に、対応する実施形態による重み計算モジュ-ル１０３について考察する。これに関して、図２の重み計算モジュ-ル１０３の２つの実施形態を示す。式（５）および式（４０）から、ｗ_i(k, n)は、線形制約
ｗ_i ^H(k, n)ａ［ｋ｜ρ_ι(k, n)］＝Ｇ_i［ｋ｜ρ_ι(k, n)］,
ι∈｛１,２,…,Ｌ｝,
ｉ∈｛１,２,…,Ｎ｝
（４３）
を満たすべきであるということになる。

さらに、拡散音電力は保持されるべきである。したがって、ｗ_i(k, n)は、二次制約
ｗ_i ^HΓ_d(k, n)ｗ_i＝｜Ｇ_d(k, n)］², ∀ｉ（４４）
を満たすことができる。

さらに、フィルタ出力における自己雑音電力は最小にされるべきである。したがって、最適重みは、式（４３）および式（４４）に従って、

と計算することができる。これは、例えば周知の数値的方法［非特許文献２９］を用いて解くことのできる凸最適化問題に帰着する。

瞬間パラメ-タ推定モジュ-ル１０２に関連して、対応する実施形態によれば、Ｌ個の平面波のＤＯＡ ρ_ι(k, n)は、ＥＳＰＲＩＴ［非特許文献２２］もしくはル-トＭＵＳＩＣ［非特許文献２３］などの周知の狭帯域ＤＯＡ推定器、または他の最新技術による推定器によって得ることができる。

次に、対応する実施形態による伝達関数選択モジュ-ル１０４について考察する。このアプリケ-ションでは、対応する指向性の音ιに関して、チャネルｉの利得Ｇ_i［ｋ｜ρ_ι(k, n)］がＤＯＡ情報ρ_ι(k, n)に依存して求められる。システムは、異なるＤＯＡ ρ(k, n)およびチャネルｉの伝達関数Ｇ_i［ｋ｜ρ(k, n)］を、例えばユ-ザが定義する先験的情報として利用することができる。その利得は、画像の解析に基づいて、例えば検出された顔の位置を用いて計算することもできる。

伝達関数Ｇ_i［ｋ｜ρ(k, n)］は、通常、ルックアップテ-ブルとして提供され、即ち、ある推定されたρ_ι(k, n)に対して対応する利得Ｇ_i［ｋ｜ρ_ι(k, n)］がそのルックアップテ-ブルから選択される。伝達関数は、方位角ρ_ι(k, n)の代わりに空間周波数μ［ｋ｜ρ(k, n)］の関数として、即ちＧ_i［ｋ｜ρ(k, n)］の代わりにＧ_i（ｋ,μ）として定義できることに留意されたい。さらに、伝達関数は、ステレオ音再生を有効化するＨＲＴＦにも相当し得ることに留意されたい。この場合、Ｇ_i［ｋ｜ρ(k, n)］は、通常、複素数である。利得または伝達関数は、ＤＯＡ情報の代わりに音源位置情報に基づいて計算することもできることに留意されたい。

図１０には、ステレオラウドスピ-カ再生の一例が描かれている。具体的には、図１０はステレオ再生の利得関数を示している。

幾つかの態様を、装置に関して説明したが、これらの態様が対応する方法に関する説明でもあることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に相当する。同様に、方法ステップに関して記述されている態様は、対応する装置の対応するブロック、単位体または特徴に関する説明でもある。

本発明による分解信号は、デジタル記憶媒体に格納することができ、または伝送媒体、例えば無線伝送媒体もしくはインタ-ネット等の有線伝送媒体、で伝送することができる。

所定の実装要件に依存して、本発明の実施形態は、ハ-ドウェアまたはソフトウェアにおいて実装することができる。その実装は、デジタル記憶媒体、例えばフロッピ-ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを用いて実行することができ、それらは個々の方法が実行されるようにプログラマブル・コンピュ-タ・システムと協働する（または協働することのできる）電子的に読出し可能な制御信号をもっている。

本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの１つが実行されるようにプログラマブル・コンピュ-タ・システムと協働することができる電子的に読取り可能な制御信号を有する非一時的デ-タキャリアを含む。

概して、本発明の実施形態は、プログラムコ-ドを有するコンピュ-タ・プログラム・プロダクトとして実装することができ、そのプログラムコ-ドは、そのコンピュ-タ・プログラム・プロダクトがコンピュ-タ上で実行されると本発明の方法のうちの１つを実行するように作動する。そのプログラムコ-ドは、例えば、機械読取り可能なキャリア上に格納することができる。

他の実施形態は、機械読取り可能なキャリア上に格納され、本明細書に記述されている方法のうちの１つを実行するためのコンピュ-タプログラムを含む。

したがって、言い替えれば、本発明による方法の一実施形態は、コンピュ-タ上で実行されると本明細書に記述されている方法のうちの１つを実行するためのプログラムコ-ドを有するコンピュ-タプログラムである。

したがって、本発明による方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュ-タプログラムを記録しているデ-タキャリア（または、デジタル記憶媒体もしくはコンピュ-タ読取り可能媒体）である。

したがって、本発明による方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュ-タプログラムを表すデ-タストリ-ムまたは信号シ-ケンスである。そのデ-タストリ-ムまたは信号シ-ケンスは、例えば、デ-タ通信接続を介して、例えばインタ-ネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するように構成または適合化された処理手段、例えばコンピュ-タまたはプログラマブル論理デバイスを含む。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュ-タプログラムをインスト-ルしているコンピュ-タを含む。

実施形態によっては、本明細書に記述されている方法の機能のうちの一部または全てを実行するために、プログラマブル論理デバイス（例えば、フィ-ルド・プログラマブル・ゲ-ト・アレイ）を使用することができる。実施形態によっては、本明細書に記述されている方法のうちの１つを実行するために、フィ-ルド・プログラマブル・ゲ-ト・アレイがマイクロプロセッサと協働することができる。概して、これらの方法は、好ましくは、あらゆるハ-ドウェア装置によって実行される。

これまでに述べた実施形態は、単に、本発明の原理を例示するものである。言うまでもなく、当業者である他の者には本明細書に記述されている装置および詳細の変更および変形は明らかである。したがって、意図するところは、本発明は添付の特許請求の範囲によってのみ限定されるべきものであり、本明細書において実施形態を記述しかつ説明するために提示されている具体的な詳細によって限定されるべきではないということである。

Claims

複数のオーディオ出力信号サンプルを含むオーディオ出力信号を、２つ以上の入力マイクロフォン信号に基づいて発生するためのフィルタ（１００）であって、前記オーディオ出力信号および前記２つ以上の入力マイクロフォン信号は時間−周波数領域において表現され、前記複数のオーディオ出力信号サンプルの各々は複数の時間−周波数ビン（(k, n)）のうちの１つの時間−周波数ビン（(k, n)）へ割り当てられ、
該フィルタ（１００）は、
前記複数の時間−周波数ビン（(k, n)）の各々について、１つ以上の音源の１つ以上の音成分の到来方向情報または１つ以上の音源の位置情報を受信するように適合化され、かつ前記複数の時間−周波数ビン（(k, n)）の各々に関する重み情報を、前記時間−周波数ビン（(k, n)）の前記１つ以上の音源の前記１つ以上の音成分の前記到来方向情報に依存して、または前記時間−周波数ビン（(k, n)）の前記１つ以上の音源の前記位置情報に依存して発生するように適合化されている重み発生器（１１０）と、
前記オーディオ出力信号を、前記複数の時間−周波数ビン（(k, n)）の各々について前記複数のオーディオ出力信号サンプルのうちの１つを発生することにより発生するための出力信号発生器（１２０）であって、前記複数の時間−周波数ビン（(k, n)）の各々について発生されられるオーディオ出力信号サンプルは、前記時間−周波数ビン（(k, n)）の前記重み情報に依存して、かつ前記時間−周波数ビン（(k, n)）へ割り当てられる、前記２つ以上の入力マイクロフォン信号の各々のオーディオ入力サンプルに依存して、前記時間−周波数ビン（(k, n)）へ割り当てられる出力信号発生器（１２０）と、を備え、
前記重み発生器（１１０）は、前記複数の時間−周波数ビン（(k, n)）の各々の前記重み情報を、前記２つ以上の入力マイクロフォン信号の第１の雑音成分の第１のコヒーレンス行列に関する情報を示す第１の雑音情報に依存して、かつ前記２つ以上の入力マイクロフォン信号の第２の雑音成分の第２のコヒーレンス行列に関する情報を示す第２の雑音情報に依存して発生するように適合化されているフィルタ（１００）。
前記重み発生器（１１０）は、前記第１の雑音情報を、統計的情報を使用することによって発生するように構成され、かつ前記重み発生器（１１０）は、前記第２の雑音情報を、前記統計的情報を使用することなく発生するように構成されており、前記統計的情報は予め規定されている請求項１に記載のフィルタ（１００）。
前記重み発生器（１１０）は、前記重み発生器（１１０）は、前記複数の時間−周波数ビン（(k, n)）の各々の前記重み情報を、式
ｗ_nd＝Φ_u ^-1Ａ［Ａ^HΦ_u ^-1Ａ］^-1ｇ
に依存して発生するように適合化されている請求項１または２に記載のフィルタ（１００）。
ただし、Φ_u＝Φ_d＋Φ_nであり、
Φ_dは前記２つ以上の入力マイクロフォン信号の前記第１の雑音成分の第１の電力スペクトル密度行列であり、
Φ_nは前記２つ以上の入力マイクロフォン信号の前記第２の雑音成分の第２の電力スペクトル密度行列であり、
Ａは前記到来方向情報を示し、
ｗ_ndは前記重み情報を示すベクトルであり、
ｇ(k, n)＝［Ｇ［ｋ｜ρ₁(k, n)］…Ｇ［ｋ｜ρ_ι(k, n)］］^T
であり、［Ｇ［ｋ｜ρ₁(k, n)］は前記到来方向情報に依存する第１の実数値または複素数値の予め規定された指向性関数であり、Ｇ［ｋ｜ρ_ι(k, n)］は前記到来方向情報に依存するさらなる実数値または複素数値の予め規定された指向性関数である、
前記重み発生器（１１０）は、前記第１の雑音情報を、前記２つ以上の入力マイクロフォン信号の前記第１の雑音成分のうちの少なくとも幾つかの間の１つ以上のコヒーレンスに依存して決定するように構成されており、前記１つ以上のコヒーレンスは予め規定されている請求項１から３のいずれか一項に記載のフィルタ（１００）。
前記重み発生器（１１０）は、前記第１の雑音情報を、前記２つ以上の入力マイクロフォン信号の前記第１の雑音成分から結果的に生じるコヒーレンスを示すコヒーレンス行列Γ_d（ｋ）に依存して決定するように構成されており、前記コヒーレンス行列Γ_d（ｋ）は予め規定されている請求項１から４のいずれか一項に記載のフィルタ（１００）。
前記重み発生器（１１０）は、前記第１の雑音情報を、式
Φ_d(k, n)＝φ_d(k, n)Γ_d（ｋ）
に従って決定するように構成されている請求項５に記載のフィルタ（１００）。
ただし、Γ_d（ｋ）は前記コヒーレンス行列であり、前記コヒーレンス行列は予め規定されたものであり、
Φ_d(k, n)は前記第１の雑音情報であり、かつ、
φ_d(k, n)は前記２つ以上の入力マイクロフォン信号の前記第１の雑音成分の期待電力である。
前記重み発生器（１１０）は、前記第１の雑音情報を、前記第２の雑音情報に依存して、かつ前記到来方向情報に依存して決定するように構成されている請求項１から６のいずれか一項に記載のフィルタ（１００）。
前記重み発生器（１１０）は、前記重み情報を第１の重み情報ｗ _Ψとして発生するように構成され、かつ、
前記重み発生器（１１０）は、前記第１の重み情報を第２の重み情報を決定することによって発生するように構成されており、
前記重み発生器（１１０）は、前記第１の重み情報ｗ _Ψ を、式
ｗ ^H ａ［ｋ｜ρ _l (k, n)］＝０
が満たされるように、式

を適用することによって発生するように構成されている請求項１から７のいずれか一項に記載のフィルタ（１００）。
ただし、ρ_ι(k, n)は前記到来方向情報を示し、ａ［ｋ｜ρ_ι(k, n)］は伝搬ベクトルを示し、ｗは前記第２の重み情報を示す。
前記重み発生器（１１０）は、前記第１の重み情報を決定するために、拡散対雑音情報または拡散成分電力を、前記第２の重み情報に依存して、かつ前記２つ以上の入力マイクロフォン信号に依存して発生するように構成されている請求項８に記載のフィルタ（１００）。
前記重み発生器（１１０）は、前記重み情報を、パラメトリック・ウィーナ・フィルタを適用することによって決定するように構成されており、前記パラメトリック・ウィーナ・フィルタは前記２つ以上の入力マイクロフォン信号の信号成分に関する統計的情報に依存し、かつ前記パラメトリック・ウィーナ・フィルタは前記２つ以上の入力マイクロフォン信号の雑音成分に関する統計的情報に依存する請求項１から請求項３のいずれか一項に記載のフィルタ（１００）。
前記重み発生器（１１０）は、前記重み情報を、１つ以上の平面波の到来方向を示す前記到来方向情報に依存して決定するように構成されている請求項１から１０のいずれか一項に記載のフィルタ（１００）。
前記重み発生器（１１０）は予め規定された伝達関数を提供するための伝達関数選択モジュール（１０４）を備え、かつ、
前記重み発生器（１１０）は、前記重み情報を、前記到来方向情報に依存して、かつ前記予め規定された伝達関数に依存して発生するように構成されている請求項１から１１のいずれか一項に記載のフィルタ（１００）。
前記伝達関数選択モジュール（１０４）は、前記予め規定された伝達関数を、前記予め規定された伝達関数が前記到来方向情報に依存して任意のピックアップパターンを示すように、前記予め規定された伝達関数が前記到来方向情報に依存してラウドスピーカ利得を示すように、または前記予め規定された伝達関数が前記到来方向情報に依存して頭部伝達関数を示すように提供すべく構成されている請求項１２に記載のフィルタ（１００）。
複数のオーディオ出力信号サンプルを含むオーディオ出力信号を、２つ以上の入力マイクロフォン信号に基づいて発生するための方法であって、前記オーディオ出力信号および前記２つ以上の入力マイクロフォン信号は時間−周波数領域において表現され、前記複数のオーディオ出力信号サンプルの各々は複数の時間−周波数ビン（(k, n)）のうちの１つの時間−周波数ビン（(k, n)）へ割り当てられ、
該方法は、
前記複数の時間−周波数ビン（(k, n)）の各々について、１つ以上の音源の１つ以上の音成分の到来方向情報、または１つ以上の音源の位置情報を受信するステップと、
前記複数の時間−周波数ビン（(k, n)）の各々に関する重み情報を、前記時間−周波数ビン（(k, n)）の前記１つ以上の音源の前記１つ以上の音成分の前記到来方向情報に依存して、または前記時間−周波数ビン（(k, n)）の前記１つ以上の音源の前記位置情報に依存して発生するステップと、
前記オーディオ出力信号を、前記複数の時間−周波数ビン（(k, n)）の各々について前記複数のオーディオ出力信号サンプルのうちの１つを発生することにより発生するステップであって、前記複数の時間−周波数ビン（(k, n)）の各々について発生されられるオーディオ出力信号サンプルは、前記時間−周波数ビン（(k, n)）の前記重み情報に依存して、かつ前記時間−周波数ビン（(k, n)）へ割り当てられる、前記２つ以上の入力マイクロフォン信号の各々のオーディオ入力サンプルに依存して、前記時間−周波数ビン（(k, n)）へ割り当てられるステップと、を含み、
前記複数の時間−周波数ビン（(k, n)）の各々について前記重み情報を発生するステップは、前記２つ以上の入力マイクロフォン信号の第１の雑音成分の第１のコヒーレンス行列に関する情報を示す第１の雑音情報に依存して、かつ前記２つ以上の入力マイクロフォン信号の第２の雑音成分の第２のコヒーレンス行列に関する情報を示す第２の雑音情報に依存して実行される方法。
コンピュータまたは信号プロセッサ上で実行されると、請求項１４に記載の方法を実装するためのコンピュータプログラム。