JP2016506664A - 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法 - Google Patents

複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法 Download PDF

Info

Publication number
JP2016506664A
JP2016506664A JP2015548311A JP2015548311A JP2016506664A JP 2016506664 A JP2016506664 A JP 2016506664A JP 2015548311 A JP2015548311 A JP 2015548311A JP 2015548311 A JP2015548311 A JP 2015548311A JP 2016506664 A JP2016506664 A JP 2016506664A
Authority
JP
Japan
Prior art keywords
information
time
noise
weight
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015548311A
Other languages
English (en)
Other versions
JP6196320B2 (ja
Inventor
エマヌエル・ハベツ
オリベル・ティエルガルト
ゼバスティアン・ブラウン
マージャ・タセスカ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2016506664A publication Critical patent/JP2016506664A/ja
Application granted granted Critical
Publication of JP6196320B2 publication Critical patent/JP6196320B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • G10K11/341Circuits therefor
    • G10K11/346Circuits therefor using phase variation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Abstract

複数のオ-ディオ出力信号サンプルを含むオ-ディオ出力信号を、2つ以上の入力マイクロフォン信号に基づいて発生するためのフィルタ(100)を提供する。オ-ディオ出力信号および2つ以上の入力マイクロフォン信号は、時間-周波数領域において表現され、複数のオ-ディオ出力信号サンプルの各々は、複数の時間-周波数ビン((k, n))のうちの1つの時間-周波数ビン((k, n))へ割り当てられる。フィルタ(100)は、複数の時間-周波数ビン((k, n))の各々について、1つ以上の音源の1つ以上の音成分の到来方向情報、または1つ以上の音源の位置情報を受信するように適合化され、かつ複数の時間-周波数ビン((k, n))の各々に関する重み情報を、前記時間-周波数ビン((k, n))の1つ以上の音源の1つ以上の音成分の到来方向情報に依存して、または前記時間-周波数ビン((k, n))の1つ以上の音源の位置情報に依存して発生するように適合化されている重み発生器(110)を備えている。さらに、本フィルタは、オ-ディオ出力信号を、複数の時間-周波数ビン((k, n))の各々について複数のオ-ディオ出力信号サンプルのうちの1つを発生することにより発生するための出力信号発生器(120)を備え、複数のオ-ディオ出力信号サンプルのうちの1つは、前記時間-周波数ビン((k, n))の重み情報に依存して、かつ前記時間-周波数ビン((k, n))へ割り当てられる、2つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルに依存して、前記時間-周波数ビン((k, n))へ割り当てられる。【選択図】図1A

Description

本発明は、オ-ディオ信号処理に関し、具体的には、複数の瞬間的な到来方向推定を用いるインフォ-ムド空間フィルタリングのためのフィルタおよび方法に関する。
雑音が多くかつ残響のある状態における音源の抽出は、最新の通信システムにおいて一般的に行われている。過去40年に渡り、この課題を達成するために多様な空間フィルタリング技術が提案されてきた。既存の空間フィルタは、観察される信号が信号モデルに一致する場合、かつフィルタの計算に必要な情報が正確である場合には最適である。しかしながら、実際には、信号モデルは損なわれることが多く、また必要な情報の推定も大きな課題である。
既存の空間フィルタは、線形空間フィルタ(例えば、[非特許文献1、2、3、4]参照)と、パラメトリック空間フィルタ(例えば、[非特許文献5、6、7、8]参照)とに大きく分類することができる。概して、線形空間フィルタは、所望される1つ以上の音源(source)の1つ以上の伝搬ベクトルまたは二次統計量(SOS:second-order statistics)の推定、それに干渉SOSの推定を必要とする。一部の空間フィルタは、残響状態、残響除去状態を問わず単一の音源信号を抽出するように設計される(例えば、[非特許文献9、10、11、12、13、14、15、16]参照)が、他は、2つ以上の残響音源信号の合計を抽出するように設計されている(例えば、[非特許文献17、18]参照)。前述の方法は、所望される1つ以上の音源の方向、または所望される音源のみが活性状態である期間について、個別的または同時的に予め認識していることを必要とする。
これらの方法の欠点は、新しい状況、例えば音源の移動、または所望される音源が活性状態である時に活性状態となる競合話者に対して、十分迅速に適応できないことにある。パラメトリック空間フィルタは、比較的単純な信号モデル、例えば単一の平面波プラス拡散音より成る時間-周波数領域における受信信号、に基づく場合が多く、モデルパラメ-タの瞬間推定に基づいて計算される。パラメトリック空間フィルタの優位点は、高度にフレキシブルな指向性応答、拡散音および干渉の比較的強い抑制、および新しい状況に迅速に適応する能力にある。しかしながら、[非特許文献19]に示されているように、基礎を成す単一の平面波信号モデルは、実際には、容易に損なわれる可能性があり、これにより、パラメトリック空間フィルタの性能が著しく劣化する。最新技術のパラメトリック空間フィルタは、モデルパラメ-タを推定するために入手可能な全てのマイクロフォン信号を用いるが、最終的な出力信号の計算には、1つのマイクロフォン信号および1つの実数値利得しか使用されないことは留意されるべきである。入手可能な複数のマイクロフォン信号を結合して増強された出力信号を見出すための拡大適用は、簡単ではない。
したがって、音源に対する望ましい空間応答を得るための改良された概念が提供されれば、高く評価されるものと思われる。
[1] J. Benesty, J. Chen, and Y. Huang, Microphone Array Signal Processing. Berlin, Germany: Springer-Verlag, 2008. [2] S. Doclo, S. Gannot, M. Moonen, and A. Spriet, "Acoustic beamforming for hearing aid applications," in Handbook on Array Processing and Sensor Networks, S. Haykin and K. Ray Liu, Eds. Wiley, 2008, ch. 9. [3] S. Gannot and I. Cohen, "Adaptive beamforming and postfiltering," in Springer Handbook of Speech Processing, J. Benesty, M. M. Sondhi, and Y. Huang, Eds. Springer-Verlag, 2008, ch. 47. [4] J. Benesty, J. Chen, and E. A. P. Habets, Speech Enhancement in the STFT Domain, ser. SpringerBriefs in Electrical and Computer Engineering. Springer-Verlag, 2011. [5] I. Tashev, M. Seltzer, and A. Acero, "Microphone array for headset with spatial noise suppressor," in Proc. Ninth International Workshop on Acoustic, Echo and Noise Control (IWAENC), Eindhoven, The Netherlands, 2005. [6] M. Kallinger, G. Del Galdo, F. Kuech, D. Mahne, and R. Schultz-Amling, "Spatial filtering using directional audio coding parameters," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Apr. 2009, pp. 217-220. [7] M. Kallinger, G. D. Galdo, F. Kuech, and O. Thiergart, "Dereverberation in the spatial audio coding domain," in Audio Engineering Society Convention 130, London UK, May 2011. [8] G. Del Galdo, O. Thiergart, T. Weller, and E. A. P. Habets, "Generating virtual microphone signals using geometrical information gathered by distributed arrays," in Proc. Hands-Free Speech Communication and Microphone Arrays (HSCMA), Edinburgh, United Kingdom, May 2011. [9] S. Nordholm, I. Claesson, and B. Bengtsson, "Adaptive array noise suppression of handsfree speaker input in cars," IEEE Trans. Veh. Technol., vol. 42, no. 4, pp. 514-518, Nov. 1993. [10] O. Hoshuyama, A. Sugiyama, and A. Hirano, "A robust adaptive beamformer for microphone arrays with a blocking matrix using constrained adaptive filters," IEEE Trans. Signal Process., vol. 47, no. 10, pp. 2677-2684, Oct. 1999. [11] S. Gannot, D. Burshtein, and E. Weinstein, "Signal enhancement using beamforming and nonstationarity with applications to speech," IEEE Trans. Signal Process., vol. 49, no. 8, pp. 1614-1626, Aug. 2001. [12] W. Herbordt and W. Kellermann, "Adaptive beamforming for audio signal acquisition," in Adaptive Signal Processing: Applications to real-world problems, ser. Signals and Communication Technology, J. Benesty and Y. Huang, Eds. Berlin, Germany: Springer-Verlag, 2003, ch. 6, pp. 155-194. [13] R. Talmon, I. Cohen, and S. Gannot, "Convolutive transfer function generalized sidelobe canceler," IEEE Trans. Audio, Speech, Lang. Process., vol. 17, no. 7, pp. 1420-1434, Sep. 2009. [14] A. Krueger, E. Warsitz, and R. Haeb-Umbach, "Speech enhancement with a GSC-like structure employing eigenvector-based transfer function ratios estimation," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 1, pp. 206-219, Jan. 2011. [15] E. A. P. Habets and J. Benesty, "Joint dereverberation and noise reduction using a two-stage beamforming approach," in Proc. Hands-Free Speech Communication and Microphone Arrays (HSCMA), 2011, pp. 191-195. [16] M. Taseska and E. A. P. Habets, "MMSE-based blind source extraction in diffuse noise fields using a complex coherence-based a priori SAP estimator," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Sep. 2012. [17] G. Reuven, S. Gannot, and I. Cohen, "Dual source transfer-function generalized sidelobe canceller," IEEE Trans. Speech Audio Process., vol. 16, no. 4, pp. 711-727, May 2008. [18] S. Markovich, S. Gannot, and I. Cohen, "Multichannel eigenspace beamforming in a reverberant noisy environment with multiple interfering speech signals," IEEE Trans. Audio, Speech, Lang. Process., vol. 17, no. 6, pp. 1071-1086, Aug. 2009. [19] O. Thiergart and E. A. P. Habets, "Sound field model violations in parametric spatial sound processing," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Sep. 2012. [20] R. K. Cook, R. V. Waterhouse, R. D. Berendt, S. Edelman, and M. C. Thompson Jr., "Measurement of correlation coefficients in reverberant sound fields," The Journal of the Acoustical Society of America, vol. 27, no. 6, pp. 1072-1077, 1955. [21] O. L. Frost, III, "An algorithm for linearly constrained adaptive array processing," Proc. IEEE, vol. 60, no. 8, pp. 926-935, Aug. 1972. [22] R. Roy and T. Kailath, "ESPRIT-estimation of signal parameters via rotational invariance techniques," Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 37, no. 7, pp. 984-995, July 1989. [23] B. Rao and K. Hari, "Performance analysis of root-music*," in Signals, Systems and Computers, 1988. Twenty-Second Asilomar Conference on, vol. 2, 1988, pp. 578-582. [24] H. Cox, R. M. Zeskind, and M. M. Owen, "Robust adaptive beamforming," IEEE Trans. Acoust., Speech, Signal Process., vol. 35, no. 10, pp. 1365-1376, Oct. 1987. [25] J. B. Allen and D. A. Berkley, "Image method for efficiently simulating small-room acoustics," J. Acoust. Soc. Am., vol. 65, no. 4, pp.・・・・・・・・, Apr. 1979. [26] E. A. P. Habets. (2008, May) Room impulse response (RIR) generator. [Online]. Available: http://home.tiscali.nl/ehabets/rirgenerator.html; see also: http://web. archive.org/web/20120730003147/http://home.tiscali.nl/ehabets/rir_generator.html [27] I. CVX Research, "CVX: Matlab software for disciplined convex programming, version 2.0 beta," http://cvxr.com/cvx, September 2012. [28] M. Grant and S. Boyd, "Graph implementations for nonsmooth convex programs," in Recent Advances in Learning and Control, ser. Lecture Notes in Control and Information Sciences, V. Blondel, S. Boyd, and H. Kimura, Eds. Springer-Verlag Limited, 2008, pp. 95-110. [29] H. L. Van Trees, Detection, Estimation, and Modulation Theory: Part IV: Optimum Array Processing. John Wiley & Sons, April 2002, vol. 1.
したがって、本発明の目的は、音源を抽出するための改良された概念を提供することにある。
本発明のこの目的は、請求項1に記載のフィルタ、請求項17に記載の方法および請求項18に記載のコンピュ-タプログラムによって解決される。
複数のオ-ディオ出力信号サンプルを含むオ-ディオ出力信号を、2つ以上の入力マイクロフォン信号に基づいて発生するためのフィルタを提供する。オ-ディオ出力信号および2つ以上の入力マイクロフォン信号は時間-周波数領域において表現され、複数のオ-ディオ出力信号サンプルの各々は複数の時間-周波数ビンのうちの1つの時間-周波数ビンへ割り当てられる。
このフィルタは、複数の時間-周波数ビンの各々について1つ以上の音源の1つ以上の音成分の到来方向情報、または1つ以上の音源の位置情報を受信するように適合化され、かつ複数の時間-周波数ビンの各々に関する重み情報を、その時間-周波数ビンの1つ以上の音源の1つ以上の音成分の到来方向情報に依存して、またはその時間-周波数ビンの1つ以上の音源の位置情報に依存して発生するように適合化されている重み発生器を備えている。
さらに、このフィルタは、オ-ディオ出力信号を、複数の時間-周波数ビンの各々について複数のオ-ディオ出力信号サンプルのうちの1つを発生することにより発生するための出力信号発生器を備えている。複数の時間-周波数ビンの各々について発生されられるオ-ディオ出力信号サンプルは、その時間-周波数ビンの重み情報に依存して、かつその時間-周波数ビンへ割り当てられる、2つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルに依存して、その時間-周波数ビンへ割り当てられる。
実施形態は、同時に活性な最大L個の音源に対する望ましい応答を得るための空間フィルタを提供する。提供される空間フィルタは、フィルタ出力における拡散プラス雑音電力をL個の線形制約に従って最小にすることにより達成される。最新技術による概念とは対照的に、L個の制約は、瞬間的な狭帯域到来方向推定に基づく。さらに、拡散対雑音比/拡散電力の新しい推定器を提供し、それは残響除去および雑音低減の双方を達成するに足る高い時間的かつ空間的分解能を示す。
幾つかの実施形態によれば、時間-周波数の瞬間毎の同時活性である最大L個の音源に対する望ましい任意の空間応答を得るための概念が提供される。この目的に沿って、音響シ-ンに関する瞬間的パラメトリック情報(IPI:instantaneous parametric information)が空間フィルタの設計に組み込まれ、「インフォ-ムド空間フィルタ(informed spatial filter)」となる。
実施形態によっては、このようなインフォ-ムド空間フィルタは、例えば、増強された出力信号を提供するために、複素重みに基づいて、利用可能な全てのマイクロフォン信号を結合する。
実施形態によれば、インフォ-ムド空間フィルタは、例えば、線形制約付き最小分散(LCMV:linearly constrained minimum variance)空間フィルタとして、またはパラメトリックなマルチチャネル・ウィ-ナ・フィルタ(Wiener filter)として実現することができる。
実施形態によっては、提供されるインフォ-ムド空間フィルタは、例えば、L個の線形制約に従って拡散プラス自己雑音電力を最小限に抑えることによって達成される。
実施形態によっては、従来技術とは対照的に、L個の制約は、瞬間的な到来方向(DOA:direction-of-arrival)推定に基づき、かつ結果的に得られるL個のDOAに対する応答は、具体的な望ましい指向性に対応する。
さらに、必要とされる信号と雑音の統計、例えば拡散対雑音比(DNR:diffuse-to-noise ratio)のための新しい推定器を提供し、それは例えば残響と雑音の双方を低減するに足る高い時間的かつ空間的分解能を示す。
さらに、複数のオ-ディオ出力信号サンプルを含むオ-ディオ出力信号を、2つ以上の入力マイクロフォン信号に基づいて発生するための方法も提供する。オ-ディオ出力信号および2つ以上の入力マイクロフォン信号は時間-周波数領域において表現され、複数のオ-ディオ出力信号サンプルの各々は、複数の時間-周波数ビンのうちの1つの時間-周波数ビンへ割り当てられる。本方法は、
複数の時間-周波数ビン((k, n))の各々について、1つ以上の音源の1つ以上の音成分の到来方向情報、または1つ以上の音源の位置情報を受信するステップと、
複数の時間-周波数ビンの各々について、重み情報を、その時間-周波数ビンの1つ以上の音源の1つ以上の音成分の到来方向情報に依存して、またはその時間-周波数ビンの1つ以上の音源の位置情報に依存して発生するステップと、
オ-ディオ出力信号を、複数の時間-周波数ビン((k, n))の各々について、複数のオ-ディオ出力信号サンプルのうちの1つを発生することにより発生するステップと、を含み、複数の時間-周波数ビン((k, n))の各々について発生されられるオ-ディオ出力信号サンプルは、その時間-周波数ビン((k, n))の重み情報に依存して、かつその時間-周波数ビン((k, n))へ割り当てられる、2つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルに依存して、その時間-周波数ビン((k, n))へ割り当てられる。
さらに、コンピュ-タまたは信号プロセッサ上で実行されると、上述の方法を実装するためのコンピュ-タプログラムも提供する。
図1Aはある実施形態によるフィルタを示す。 図1Bはある実施形態によるフィルタの可能なアプリケ-ションシナリオを示す。 図2はある実施形態によるフィルタと、複数のマイクロフォンとを示す。 図3はある実施形態による重み発生器を示す。 図4はある実施形態による2つの応答例の大きさを示す。 図5は、線形制約付き最小分散手法を実装する、別の実施形態による重み発生器を示す。 図6は、パラメトリックなマルチチャネル・ウィ-ナ・フィルタ手法を実装する、さらなる実施形態による重み発生器を示す。 図7は時間および周波数の関数としての真の拡散対雑音比と推定された拡散対雑音比を示す。 図8は比較された空間フィルタの指向性指数と白色雑音利得を示す。 図9は推定された到来方向と結果的に生じる利得を示す。 図10はステレオラウドスピ-カ再生の場合の一例を示す。
以下、図面を参照して、本発明の実施形態をより詳細に説明する。
図1Aは、2つ以上の入力マイクロフォン信号に基づいて複数のオ-ディオ出力信号サンプルを含むオ-ディオ出力信号を発生するためのフィルタ100を示す。オ-ディオ出力信号および2つ以上の入力マイクロフォン信号は時間-周波数領域において表現され、複数のオ-ディオ出力信号サンプルは各々、複数の時間-周波数ビン(k, n)のうちの1つの時間-周波数ビン(k, n)へ割り当てられる。
フィルタ100は、複数の時間-周波数ビン(k, n)の各々について、1つ以上の音源の1つ以上の音成分の到来方向情報、または1つ以上の音源の位置情報を受信するように適合化され、かつ複数の時間-周波数ビン(k, n)の各々に関する重み情報を、その時間-周波数ビン(k, n)の1つ以上の音源の1つ以上の音成分の到来方向情報に依存して、またはその時間-周波数ビン(k, n)の1つ以上の音源の位置情報に依存して発生するように適合化されている重み発生器110を備えている。
さらに、このフィルタは、オ-ディオ出力信号を、複数の時間-周波数ビン(k, n)の各々について複数のオ-ディオ出力信号サンプルのうちの1つを発生することにより発生するための出力信号発生器120を備え、複数の時間-周波数ビンの各々について発生されられるオ-ディオ出力信号サンプルは、その時間-周波数ビン(k, n)の重み情報に依存して、かつその時間-周波数ビン(k, n)へ割り当てられる、2つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルに依存して、その時間-周波数ビン(k, n)へ割り当てられる。
例えば、2つ以上の入力マイクロフォン信号は各々、複数のオ-ディオ入力サンプルを含み、オ-ディオ入力サンプルは各々、時間-周波数ビン(k, n)のうちの1つへ割り当てられ、かつオ-ディオ信号発生器120は、複数のオ-ディオ出力信号サンプルのうちの1つを発生するように適合化することができ、この複数のオ-ディオ出力信号サンプルのうちの1つは、その時間-周波数ビン(k, n)の重み情報に依存して、かつ2つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルのうちの1つに依存して、即ち、例えば2つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルのうちの1つであってその時間-周波数ビン(k, n)へ割り当てられるものに依存して、その時間-周波数ビン(k, n)へ割り当てられる。
各時間-周波数ビン(k, n)の発生されるべき各オ-ディオ出力信号サンプルについて、重み発生器110は個々の重み情報を新たに発生する。出力信号発生器120は、次に、考察された時間-周波数ビン(k, n)のオ-ディオ出力信号サンプルを、その時間-周波数ビンについて発生された重み情報に基づいて発生する。言い替えれば、新しい重み情報は、重み発生器110により、オ-ディオ出力信号サンプルが発生される各時間-周波数ビンに関して計算される。
重み情報を発生する際、重み発生器110は1つ以上の音源の情報を考慮するように適合化される。
例えば、重み発生器110は第1の音源の位置を考慮することができる。ある実施形態では、重み発生器は第2の音源の位置も考慮することができる。
あるいは、例えば、第1の音源は第1の音成分を有する第1の音波を発することができる。第1の音成分を有するその第1の音波はマイクロフォンに到達し、そして重み発生器110は第1の音成分/音波の到来方向を考慮することができる。これにより、重み発生器110は第1の音源に関する情報を考慮する。さらに、第2の音源は第2の音成分を有する第2の音波を発することができる。第2の音成分を有するその第2の音波はマイクロフォンに到達し、そして重み発生器110は第2の音成分/第2の音波の到来方向を考慮することができる。これにより、重み発生器110は第2の音源に関する情報も考慮する。
図1Bはある実施形態によるフィルタ100の可能なアプリケ-ションシナリオを示す。第1の音成分を有する第1の音波は、第1のラウドスピ-カ121(第1の音源)によって発せられ、第1のマイクロフォン111に達する。第1のマイクロフォン111では、第1の音成分の到来方向(=第1の音波の到来方向)が考慮される。さらに、第2の音成分を有する第2の音波は、第2のラウドスピ-カ122(第2の音源)によって発せられ、第1のマイクロフォン111に達する。重み発生器110は、重み情報を決定するために、第1のマイクロフォン111における第2の音成分の到来方向も考慮することができる。さらに、重み情報を決定するために、マイクロフォン112等の他のマイクロフォンにおける音成分の到来方向(=音波の到来方向)も、重み発生器により考慮することができる。
音源が、例えば、環境内に物理的に存在する物理的音源、例えば、ラウドスピ-カ、楽器または話し声とすることができることは留意されるべきである。
しかしながら、虚音源もまた音源であることは留意されるべきである。例えば、スピ-カ122により発せられる音波は、壁125によって反射される場合があり、この場合は音波は実際にこの音波を発したスピ-カの位置とは異なる位置123から発せられたように現出する。このような虚音源123もまた、音源と見なされる。重み発生器110は、重み情報を、虚音源に関する到来方向情報に依存して、または1つ、2つまたはそれ以上の虚音源に関する位置情報に依存して発生するように適合化することができる。
図2は、ある実施形態によるフィルタ100と、複数のマイクロフォン111、112、113、…、11nとを示す。図2の実施形態において、フィルタ100は、さらに、フィルタバンク101を備えている。さらに、図2の実施形態において、重み発生器110は、情報計算モジュ-ル102と、重み計算モジュ-ル103と、伝達関数選択モジュ-ル104とを備えている。
その処理は、kが周波数指数を示し、nが時間指数を示す時間-周波数領域において実行される。この装置(フィルタ100)への入力はマイクロフォン111、112、113、…、11nからのM個の時間領域マイクロフォン信号x1...M(t)であり、これらはフィルタバンク101によって時間-周波数領域へ変換される。その変換されたマイクロフォン信号は、ベクトル、
x(k, n)=[X1(k, n)X2(k, n)…XM(k, n)]T
によって与えられる。
フィルタ100は、所望される信号Y(k, n)(オ-ディオ出力信号)を出力する。オ-ディオ出力信号(所望される信号)Y(k, n)は、例えば、モノラル再生のための強化信号、ステレオ再生のためのヘッドフォン信号、または任意のラウドスピ-カ配置による空間音再生のためのラウドスピ-カ信号を表わすことができる。
所望される信号Y(k, n)は、出力信号発生器120により、例えばM個のマイクロフォン信号x(k, n)の線形結合を瞬間的な複素重み w(k, n)=[W1(k, n)W2(k, n)…WM(k, n)]T に基づいて、例えば、式、
Y(k, n)=wH(k, n)x(k, n) (1)
を用いて実行することにより、発生される。
重みw(k, n)は、重み計算モジュ-ル103によって決定される。重みw(k, n)は、各kおよび各nについて新しく決定される。言い替えれば、各時間-周波数ビン(k, n)について重みw(k, n)の決定が行われる。より具体的には、重みw(k, n)は、例えば、瞬間的パラメトリック情報(IPI)J(k, n)に基づいて、かつ対応する所望される伝達関数G(k, n)に基づいて計算される。
情報計算モジュ-ル102は、マイクロフォン信号x(k, n)からパラメトリック情報(IPI)J(k, n)を計算するように構成されている。IPIは、所定の時間-周波数の時点(k, n)に関して、マイクロフォン信号x(k, n)内に含まれる信号および雑音成分の固有の特性を記述する。
図3はある実施形態による重み発生器110を示す。この重み発生器110は、情報計算モジュ-ル102、重み計算モジュ-ル103、および伝達関数選択モジュ-ル104を備えている。
図3における例に示されているように、IPIは、主として、1つ以上の指向性音成分(例えば、平面波)の瞬間的な到来方向(DOA:direction-of-arrival)を含み、瞬間的な到来方向は例えばDOA推定モジュ-ル201により計算される。
後に説明するように、DOA情報は、角度として(例えば、[方位角ρ(k, n)、仰角α(k, n)によって])表現することができ、空間周波数によって(例えば、μ[k|ρ(k, n)]によって)、マイクロフォン間の時間遅延による位相シフトによって(例えば、a[k|ρ(k, n)]によって)、伝搬ベクトルによって(例えば、a[k|ρ(k, n)]によって)、または両耳間レベル差(ILD:interaural level difference)もしくは両耳間時間差(ITD:interaural time difference)によって表現することができる。
さらに、パラメトリック情報(IPI)J(k, n)は、例えば、追加的な情報、例えば信号成分または雑音成分の二次統計量(SOS)を含むことができる。
ある実施形態において、重み発生器110は、複数の時間-周波数ビン(k, n)の各々の重み情報を、2つ以上の入力マイクロフォン信号の信号成分または雑音成分に関する統計的情報に依存して発生するように適合化されている。このような統計的情報は、例えば、ここで述べた二次統計量である。その統計的情報は、例えば、2つ以上の入力マイクロフォン信号の、雑音成分の電力、信号対拡散情報、信号対雑音情報、拡散対雑音情報、拡散対雑音情報、信号成分の電力、拡散成分の電力、または信号成分もしくは雑音成分の電力スペクトル密度行列とすることができる。
その二次統計量は統計量計算モジュ-ル205によって計算することができる。この二次統計量情報は、例えば、定常雑音成分(例えば、自己雑音)の電力、非定常雑音成分(例えば、拡散音)の電力、信号対拡散比(SDR)、信号対雑音比(SNR)、または拡散対雑音比(DNR)を含むことができる。この情報は、特有の最適化基準に依存して最適重みw(k, n)を計算することを可能にする。
「定常雑音成分」/「ゆっくりと変動する雑音成分」は、例えば、統計が時間的に変化しない、またはゆっくりと変化する雑音成分である。
「非定常雑音成分」は、例えば、統計が経時的に急速に変化する雑音成分である。
ある実施形態において、重み発生器110は、複数の時間-周波数ビン(k, n)の各々の重み情報を、2つ以上の入力マイクロフォン信号の第1の雑音成分に関する情報を示す第1の雑音情報に依存して、かつ2つ以上の入力マイクロフォン信号の第2の雑音成分に関する情報を示す第2の雑音情報に依存して発生するように適合化されている。
例えば、第1の雑音成分は非定常雑音成分であってもよく、かつ第1の雑音情報は非定常雑音成分に関する情報であってもよい。
第2の雑音成分は、例えば、定常雑音成分/ゆっくりと変動する雑音成分であってもよく、かつ第2の雑音情報は定常雑音成分/ゆっくりと変動する雑音成分に関する情報であってもよい。
ある実施形態において、重み発生器110は第1の雑音情報(例えば、非定常雑音成分/ゆっくりではなく変動する雑音成分に関する情報)を、例えば予め規定された統計的情報(例えば、非定常雑音成分から結果的に生じる2つ以上の入力マイクロフォン信号間の空間的コヒ-レンスに関する情報)を使用することによって発生するように構成され、かつ重み発生器110は第2の雑音情報(定常雑音成分/ゆっくりと変動する雑音成分に関する情報)を、統計的情報を使用することなく発生するように構成されている。
高速で変わる雑音成分に関しては、入力マイクロフォン信号が単独でこのような雑音成分に関する情報を決定するに足る情報を提供するわけではない。急速に変わる雑音成分に関する情報の決定には、統計的情報が例えば追加的に必要とされる。
しかしながら、変化しないか、またはゆっくりと変化する雑音成分に関しては、これらの雑音成分に関する情報の決定に統計的情報は不要である。その代わりに、マイクロフォン信号を評価することで足りる。
統計的情報は、図3に示されているように推定されるDOA情報を活用して計算できることは留意されるべきである。さらに、IPIは外部から提供することもできる点は留意されるべきである。例えば、人である話者が音響シ-ンを形成するものとすれば、音のDOA(それぞれの音源の位置)は、顔認識アルゴリズムつきのビデオカメラによって決定することができる。
伝達関数選択モジュ-ル104は伝達関数G(k, n)を提供するように構成されている。図2および図3の(潜在的には複素)伝達関数G(k, n)は、(例えば、現行のパラメトリックな)瞬間的パラメトリック情報(IPI)J(k, n)が与えられたとすると、システムの所望される応答を記述する。例えば、G(k, n)は、モノラル再生における信号増強のための所望される空間マイクロフォンの任意のピックアップパタ-ン、ラウドスピ-カ再生のためのDOA依存ラウドスピ-カ利得、またはステレオ再生のための頭部伝達関数(HRTF:head-related transfer function)を記述することができる。
通常、録音された音響シ-ンの統計が時間および周波数に渡って急速に変動することは、留意されるべきである。結果的に、瞬間的パラメトリック情報(IPI)J(k, n)および対応する最適重みw(k, n)は、特有の時間-周波数指数に対してのみ有効であり、よって、各kおよびn毎に計算し直される。したがって、システムは現在の録音状況に瞬時に適応することができる。
さらに、M個の入力マイクロフォンが、単一のマイクロフォンアレイを形成するか、分散されて異なる場所で複数のアレイを形成するか、の何れかであり得ることは留意されるべきである。さらに、瞬間的パラメトリック情報(IPI)J(k, n)は、DOA情報の代わりに、位置情報、例えば、三次元室内の音源の位置、を含むことができる。これにより、所望される特有の方向だけでなく、録音シ-ンの三次元空間領域をもフィルタリングする空間フィルタを規定することができる。
DOAに関して行われる全ての説明は、音源の位置情報を利用可能である場合に等しく適用することができる。例えば、位置情報は、DOA(角度)と距離によって表現することができる。このような位置表現が使用される場合には、DOAを、位置情報から即座に入手することができる。あるいは、位置情報は、例えば、x,y,z座標によって記述することもできる。よって、DOAは、音源の位置情報に基づいて、かつ個々の入力マイクロフォン信号を記録するマイクロフォンの位置に基づいて、容易に計算することができる。
以下、さらなる実施形態について説明する。
幾つかの実施形態は、残響除去および雑音低減を用いる空間選択的録音を可能にする。この点に関し、音源抽出、残響除去および雑音低減に関連する、信号増強のための空間フィルタリングのアプリケ-ションのための実施形態を提供する。このような実施形態の目的は、任意のピックアップパタ-ンを有する指向性マイクロフォンの出力に対応する信号Y(k, n)を計算することにある。これは、指向性の音(例えば、単一の平面波)はそのDOAに依存して所望される通りに減衰または持続されるが、拡散音またはマイクロフォンの自己雑音は抑制されることを意味する。実施形態によれば、提供される空間フィルタは、最新技術の空間フィルタの利点、特に、高いDNRを有する状況では高い指向性指数(DI:directivity index)を提供し、そうでない状況では高い白色雑音利得(WNG:white noise gain)を提供するという利点、を兼ね備える。幾つかの実施形態によれば、空間フィルタに線形制約だけを課してもよく、これにより、重みの高速計算が可能になる。例えば、図2および図3の伝達関数G(k, n)は、例えば、指向性マイクロフォンの所望されるピックアップパタ-ンを表すことができる。
以下、問題の定式化について述べる。次いで、残響除去および雑音低減を用いる空間選択的録音のための重み計算モジュ-ル103およびIPI計算モジュ-ル102の実施形態について述べる。さらに、対応するTF選択モジュ-ル104の実施形態について述べる。
まず、問題の定式化を行う。d1….Mに位置決めされたM個の全方向性マイクロフォンのアレイについて考察する。(k, n)毎に、音場は、等方性かつ空間的に均質な拡散音場において伝搬するL<M個の平面波(指向性の音)で構成されるものとする。マイクロフォン信号x(k, n)は、
Figure 2016506664
と書くことができる。但し、xι(k, n)=[Xι(k, n, d1)…Xι(k, n, dM)]Tは、ι番目の平面波の音圧に比例するマイクロフォン信号を含み、xd(k, n)は測定された非定常雑音(例えば、拡散音)であり、xn(k, n)は定常雑音/ゆっくりと変動する雑音(例えば、マイクロフォン自己雑音)である。
式(2)における3つの成分が相互に無相関であるものとすると、マイクロフォン信号の電力スペクトル密度(PSD:power spectral density)行列は、
Figure 2016506664
によって記述することができる。但し、
Φd(k, n)=φd(k, n)Γd(k) (4)
である。ここで、Φn(k, n)は、定常雑音/ゆっくりと変動する雑音のPSD行列であり、φd(k, n)は非定常雑音の期待電力であり、時間および周波数にわたって急速に変動する可能性がある。コヒ-レンス行列Γd(k)のij番目の要素は、γij(k)で示され、非定常雑音から結果的に生じるマイクロフォンiとjとの間のコヒ-レンスである。例えば、球状等方性の拡散音場の場合、γij(k)=sinc(κ rij)[非特許文献20]である。κは波数、rij=||dj-di||である。コヒ-レンス行列Γn(k)のij番目の要素は、定常雑音/ゆっくりと変動する雑音から結果的に生じるマイクロフォンiとjとの間のコヒ-レンスである。マイクロフォン自己雑音の場合、Φn(k, n)=φn(k, n)Iであり、ここで、Iは恒等行列、φn(k, n)は自己雑音の期待電力である。
式(2)における指向性の音xι(k, n)は、
ι(k, n)=a[k|ρι(k, n)]Xι(k,n,d1) (5)
と書くことができる。但し、ριはι番目の平面波のDOAの方位角(ρ=0はマイクロフォンアレイの並び方向(broadside)を示す)であり、
a[k|ρι(k, n)]=[a1[k|ρι(k, n)]…aM[k|ρι(k, n)]]Tは伝搬ベクトルである。a[k|ρι(k, n)]のi番目の要素、
i[k|ρι(k, n)]=exp{jκrisinρι(k, n)} (6)
は、ι番目の平面波による第1のマイクロフォンからi番目のマイクロフォンまでの位相シフトを記述する。ri=||di-d1||が、第1のマイクロフォンとi番目のマイクロフォンとの距離に等しいことは、留意されるべきである。
Figure 2016506664
は空間周波数と称される場合が多い。ι番目の波のDOAは、ρι(k, n)、ai[k|ρι(k, n)]、a[k|ρι(k, n)]またはμi[k|ρι(k, n)]によって表すことができる。
先に説明したように、この実施形態の目的は、特定の空間領域から到来する指向性の音が所望される通りに減衰または増幅され、一方で定常雑音と非定常雑音は抑制されるように、マイクロフォン信号x(k, n)をフィルタリングすることにある。したがって、所望される信号は、
Figure 2016506664
と表すことができる。ここで、G[k|ρ(k, n)]は、周波数依存性であることが可能な実数値または複素数値の任意の、例えば予め定義された指向性関数である。
図4は、ある実施形態による、2つの任意の指向性関数および音源位置によるシナリオに関連している。具体的には、図4は、指向性の2例、G1[k|ρ(k, n)]およびG2[k|ρ(k, n)]の大きさを示す。G1[k|ρ(k, n)]を用いる場合(図4における実線参照)、ρ<45゜から到来する指向性の音は21dB減衰されるが、他の方向から到来する指向性の音は減衰されない。原則的には、任意の指向性は、G2[k|ρ(k, n)](図4における破線参照)等の偶関数に設計することができる。さらに、G[k|ρ(k, n)]は、例えば、移動するまたは出現する音源を、その位置が特定された時点で抽出するために、時変的に設計することができる。
信号Y(k, n)の推定値は、マイクロフォン信号x(k, n)の線形結合により、例えば、
Figure 2016506664
によって得られる。但し、w(k, n)は長さMの複素重みベクトルである。対応する最適重みベクトルw(k, n)は、次のように導出される。以下では、簡潔さのために、重みw(k, n)のkおよびnに対する依存性は除外する。
では、図2および図3における重み計算モジュ-ル103の2つの実施形態について述べる。
式(5)および式(7)から、w(k, n)は、線形制約、
H(k, n)a[k|ρι(k, n)]=G[k|ρι(k, n)],
ι∈{1,2,…,L}
(9)
を満たさなければならないことになる。
さらに、フィルタ出力における非定常および定常/ゆっくりと変動する雑音電力は、最小にされるべきである。
図5は、空間フィルタリングを適用するための本発明の一実施形態を描いたものである。具体的には、図5は、別の実施形態による重み発生器110を示す。この場合もやはり、重み発生器110は、情報計算モジュ-ル102、重み計算モジュ-ル103、および伝達関数選択モジュ-ル104を備えている。
より具体的には、図5は線形制約付き最小分散(LCMV:linearly constrained minimum variance)手法を示す。本実施形態(図5参照)において、重みw(k, n)は、Ι個の平面波のDOAを含むIPII(k, n)、並びに定常雑音および非定常雑音の統計に基づいて計算される。後者の情報は、DNR、2つの雑音成分の個別電力φn(k, n)およびφd(k, n)、または2つの雑音成分のPSD行列ΦnおよびΦdを含むことができる。
例えば、Φdは2つの雑音成分のうちの第1の雑音成分に関する第1の雑音情報とみなすことができ、Φnは2つの雑音成分のうちの第2の雑音成分に関する第2の雑音情報とみなすことができる。
例えば、重み発生器110は、第1の雑音情報Φdを1つ以上のマイクロフォン入力信号の少なくとも幾つかの第1の雑音成分間の1つ以上のコヒ-レンスに依存して決定するように構成することができる。例えば、重み発生器110は、第1の雑音情報を、2つ以上の入力マイクロフォン信号の第1の雑音成分から結果的に生じるコヒ-レンスを示すコヒ-レンス行列Γd(k)に依存して、例えば、式
Φd(k, n)=φd(k, n)Γd(k)
を適用することによって決定するように構成することができる。
式(8)における問題を解くための重みw(k, n)は、フィルタ出力における自己雑音電力(定常雑音/ゆっくりと変動する雑音)と拡散音電力(非定常雑音)との和を最小にすること、即ち、
Figure 2016506664
によって求められる。
式(4)を用い、かつΦn(k, n)=φn(k, n)Iであるものとすると、この最適化問題は、
Figure 2016506664
として表すことができる。ここで、
Figure 2016506664
は、マイクロフォンにおける時変性入力DNRである。制約(9)が与えられたとすると、式(10)および式(12)の解は、
nd=Φu -1A[AHΦu -1A]-1g (14)
=C-1A[AH-1A]-1g (15)
である[非特許文献21]。ここで、
A(k, n)=[a[k|ρ1(k, n)]…a[k|ρι(k, n)]]は、伝搬ベクトルに関連するL個の平面波のDOA情報を含む。対応する所望される利得は、
g(k, n)=[G[k|ρ1(k, n)]…G[k|ρι(k, n)]]T (16)
によって与えられる。
Ψ(k, n)の推定および他の必要なIPIの実施形態については後述する。
他の実施形態は、パラメトリックなマルチチャネル・ウィ-ナ・フィルタに基づく。このような実施形態では、図6に示されているように、IPIは、さらに、信号統計に関する情報、例えば、L個の平面波(指向性の音)の電力を含む信号PSD行列Φs(k, n)を含む。さらに、L個の平面波の各々について信号歪の程度を制御するために、任意選択の制御パラメ-タλ1…L(k, n)が考察される。
図6は、パラメトリックなマルチチャネル・ウィ-ナ・フィルタを使用する重み発生器110を実装する空間フィルタリングを適用するための一実施形態を示す。この場合もやはり、重み発生器110は、情報計算モジュ-ル102、重み計算モジュ-ル103、および伝達関数選択モジュ-ル104を備えている。
重みw(k, n)はマルチチャネル・ウィ-ナ・フィルタ手法を介して計算される。ウィ-ナ・フィルタは、出力における残留信号の電力を最小にし、即ち、
Figure 2016506664
となる。
最小化されるべき費用関数C(k, n)は、
Figure 2016506664
=[g-AH(k, n)w]HΦs(k, n)[g-AH(k, n)w]
+wHΦu(k, n)w (19)
と書くことができる。ここで、Φs(k, n)=E{xs(k, n)xs(k, n)H}は指向性の音PSDを含み、xs(k, n)=[X1(k,n,d1)X2(k,n,d1)….X(k,n,d1)]は参照マイクロフォンにおけるL個の平面波の音圧に比例する信号を含む。Φs(k, n)は対角行列であって、対角要素diag{Φs(k, n)}=[φ1(k, n)…φL(k, n)]Tは到来する平面波の電力であることに留意されたい。導入される信号歪に対する制御を有するために、時間と周波数に依存性の制御パラメ-タ
diag{Λ}=[λ1(k, n)λ2(k, n)…λL(k, n)]T、即ち、
PW(k, n)=
[g-AH(k, n)w]HΛ(k, n)Φs(k, n)[g-AH(k, n)w]
+wHΦu(k, n)w (20)
を含む対角行列Λ(k, n)を包含することができる。
PW(k, n)が与えられたとすると、式(17)における最小化問題に対する解は、
w=[AHΛ(k, n)Φs(k, n)A+Φu-1AΛ(k, n)Φs(k, n)g
(21)
である。これは、
w=Φu -1A[Λ-1Φs -1+AHΦu -1A]-1g (22)
に等しい。
Λ-1=0であれば、式(14)におけるLCMVの解が得られることは留意されるべきである。Λ-1=Iの場合、マルチチャネル・ウィ-ナ・フィルタが得られる。他の値λ1…L(k, n)の場合、対応する音源信号の歪の量および残留雑音抑制の量を各々制御することができる。したがって、通常、λι -1(k, n)は、利用可能なパラメトリック情報に依存して、即ち、
λι -1(k, n)=f(J(k, n)) (23)
として定義される。但し、f(・)はユ-ザが定義する任意の関数である。例えば、
λ1…L(k, n)を、
Figure 2016506664
に従って選ぶことができる。但し、φι(k, n)はι番目の信号(ι番目の平面波)の電力、φu(k, n)=φn(k, n)+φd(k, n)は望ましくない信号(定常雑音/ゆっくりと変動する雑音および非定常雑音)の電力である。これにより、パラメトリック・ウィ-ナ・フィルタは2つ以上の入力マイクロフォン信号の信号成分に関する統計的情報に依存し、よって、パラメトリック・ウィ-ナ・フィルタは、さらに、2つ以上の入力マイクロフォン信号の雑音成分に関する統計的情報にも依存する。
音源ιが雑音よりも強力であれば、ゼロに近いλι -1(k, n)が得られるが、これは、LCMVの解が得られること(音源信号の歪はなし)を意味する。雑音が音源電力より強力であれば、1に近いλι -1(k, n)が得られ、マルチチャネル・ウィ-ナ・フィルタが得られること(強力な雑音抑制)を意味する。
Φs(k, n)およびΦu(k, n)の推定については後述する。
次に、瞬間パラメ-タ推定モジュ-ル102の実施形態について述べる。
重みを計算するには、その前に、異なるIPIを推定する必要がある。モジュ-ル201において計算されるL個の平面波のDOAは、ESPRIT[非特許文献22]もしくはル-トMUSIC[非特許文献23]等の周知の狭帯域DOA推定器、または最新技術による他の推定器を用いて得ることができる。これらのアルゴリズムは、例えば、アレイに到達する1つ以上の波の方位角ρ(k, n)、空間周波数μ[k|ρ(k, n)]、位相シフトa[k|ρ(k, n)]、または伝搬ベクトルa[k|ρ(k, n)]を提供することができる。DOAの推定は、それ自体技術上周知であることから、これ以上は論じない。
次に、拡散対雑音比(DNR)の推定について述べる。具体的には、入力されるDNRΨ(k, n)の推定、即ち、図5におけるモジュ-ル202の実現について論じる。DNRの推定は、モジュ-ル201において得られるDOA情報を活用する。Ψ(k, n)を推定するためには、拡散音のみが捕捉されるようにL個の平面波を打ち消す追加的な空間フィルタを使用することができる。この空間フィルタの重みは、例えば、アレイのWNGを最大にすることにより、即ち、
Figure 2016506664
によって求められる。但し、
Ha[k|ρι(k, n)]=0, ι∈{1,2,…,L} (26)
Ha[k|ρ0(k, n)]=1 (27)
を条件とする。
制約(27)は、非ゼロの重みWΨを保証する。伝搬ベクトルa[k|ρ0(k, n)]は、L個の平面波のDOAρι(k, n)とは異なる特定の方向ρ0(k, n)に対応する。次には、ρ0(k, n)について、全てのρι(k, n)に対して最大距離を有する方向、即ち、
Figure 2016506664
が選択される。但し、
Figure 2016506664
である。重みWΨが与えられたとすると、追加的な空間フィルタの出力電力は、
Figure 2016506664
によって与えられる。
これで、式(13)および式(29)により、即ち、
Figure 2016506664
によって、入力されるDNRを計算することができる。
必要とされる、マイクロフォン自己雑音の推定電力φn(k, n)は、例えば、この電力が経時的に一定であるか、またはゆっくりと変動するものとして、無音の間に推定するとができる。提案するDNR推定器は、実際には、選択される最適化基準(45)に起因して、必ずしも最低の推定分散を提供するものではなく、不偏(unbiased)結果を提供することに留意されたい。
次に、非定常PSD φd(k, n)の推定、即ち、図5におけるモジュ-ル(202)の別の実現、について論じる。非定常雑音の電力(PSD)は、
Figure 2016506664
を用いて推定することができる。但し、WΨは先の段落で定義している。定常雑音/ゆっくりと変動する雑音のPSD行列Φn(k, n)は、無音の間(即ち、信号および非定常雑音が存在しない間)に推定することができ、すなわち、
Φn(k, n)=E{x(k, n)xH(k, n)} (32)
となることは留意されるべきである。但し、期待値は無音フレ-ムnにわたって平均することにより近似される。無音フレ-ムは、最新技術による方法によって検出することができる。
次に、望ましくない信号のPSD行列の推定(モジュ-ル203参照)について論じる。
望ましくない信号(定常雑音/ゆっくりと変動する雑音および非定常雑音)のPSD行列Φu(k, n)は、
Φu(k, n)=φn(k, n)(Ψ(k, n)Γd(k)+Γn(k)) (33)
を用いて、または、より一般的には、
Φu(k, n)=φd(k, n)Γd(k)+Φn(k, n) (34)
を用いて得ることができる。但し、Γd(k)とΓn(k)は先験的情報として入手できる(上記参照)。DNR Ψ(k, n)、定常雑音/ゆっくりと変動する雑音の電力φn(k, n)および必要とされる他の量は前述のように計算することができる。したがって、Φu(k, n)の推定は、モジュ-ル201によって得られるDOA情報を活用する。
次に、信号のPSD行列の推定(モジュ-ル204参照)について述べる。
Φs(k, n)の計算に必要とされる、到来する平面波の電力φ1…L(k, n)は、
Figure 2016506664
を用いて計算することができる。但し、重みwιは、ι番目の波を除く、到来する全ての平面波を抑制し、すなわち、
Figure 2016506664
となる。
例えば、式(36)に従えば、
Figure 2016506664
となる。Φs(k, n)の推定は、モジュ-ル(201)において得られるDOA情報を活用する。必要とされる、望ましくない信号のPSD行列Φu(k, n)は、先の段落で説明したように計算することができる。
次に、ある実施形態による伝達関数選択モジュ-ル104について述べる。
このアプリケ-ションにおいて、対応する平面波ιの利得G[k|ρι(k, n)]は、DOA情報ρι(k, n)に依存して求めることができる。このシステムは、異なるDOAρ(k, n)の伝達関数G[k|ρ(k, n)]を、例えばユ-ザが定義する先験的情報として利用可能である。利得は、画像の解析に基づいて、例えば検出される顔の位置を用いて計算することもできる。図4には2例が描かれている。これらの伝達関数は、指向性マイクロフォンの所望されるピックアップパタ-ンに対応する。伝達関数G[k|ρ(k, n)]は、例えばルックアップテ-ブルとして提供することが可能であり、即ち、推定されるρι(k, n)に対して、対応する利得G[k|ρι(k, n)]がこのルックアップテ-ブルから選択される。伝達関数は、方位角ρι(k, n)の代わりに空間周波数μ[k|ρ(k, n)]の関数としても定義でき、即ち、G[k|ρ(k, n)]の代わりにG(k,μ)としても定義できることに留意されたい。また、利得は、DOA情報の代わりに音源位置情報に基づいて計算することもできる。
ここで、実験結果について述べる。以下のシミュレ-ション結果は、上述の実施形態の実際的な適用性を実証するものである。以下、提案するシステムと最新技術によるシステムとを比較して説明する。次いで、実験装置を論じ、かつ結果を述べる。
まず、既存の空間フィルタについて考察する。
PSD φn(k, n)は無音期間中に推定することができるが、φd(k, n)は、通常、未知であって観測できないものとされている。したがって、この知識なしに計算されることのできる既存の2つの空間フィルタについて考察する。
第1の空間フィルタは、遅延和ビ-ムフォ-マ(delay-and-sum beamformer)として知られ、フィルタ出力における自己雑音電力を最小にする[即ち、WNGを最大にする][非特許文献1]。よって、式(9)に従って式(7)と式(8)との間の平均二乗誤差(MSE)を最小にする最適重みベクトルは、
Figure 2016506664
によって得られる。
式(38)に対しては、wnの高速計算を可能にする閉形式解(closed-form solution)が存在する。このフィルタは、必ずしも最大DIを提供しないことは留意されるべきである。
第2の空間フィルタは、ロバストな超指向性(SD:superdirective)ビ-ムフォ-マとして知られ、フィルタ出力における拡散音電力を最小にし[即ち、DIを最大にし]、WNGを下限値とする[非特許文献24]。WNGの下限値は、伝搬ベクトルにおける誤差に対するロバスト性を高め、かつ自己雑音の増幅を制限する[非特許文献24]。よって、式(9)に従って式(7)と式(8)との間のMSEを最小にし、かつWNGの下限値を満たす最適重みベクトルは、
Figure 2016506664
によって、かつ二次制約wH w<βに従って得られる。パラメ-タβ-1は、最小WNGを画定し、かつフィルタの達成可能DIを決定する。実際には、低SNR状況における十分なWNGと、高SNR状況における十分に高いDIとの間の最適なトレ-ドオフを発見することは、困難である場合が多い。さらに、式(39)を解くことは、二次制約に起因して非凸最適化問題(non-convex optimization problem)に繋がり、解くには時間を要する。これは、時変性制約(9)に起因して各kおよびnの複素重みベクトルを計算し直す必要があるという理由で、特に問題である。
次に、実験装置について考察する。式(2)におけるモデル内のL=2個の平面波、およびマイクロフォン間のスペ-シングが3cmであるM=4個のマイクロフォンによる均一線形アレイ(ULA:uniform linear array)を想定し、方位角が各々ρA=86°とρB=11°である2つの音源(距離1.75m、図4参照)を有する音源画像方法[非特許文献25、26]を用いて、狭い部屋(7.0×5.4×2.4m3、RT60≒380ms)をシミュレ-トした。信号構成は、無音0.6秒およびこれに続くダブルト-クであった。マイクロフォン信号に白色ガウス雑音を追加し、26dBのセグメンタル信号対雑音比(SSNR:segmental signal-to-noise ratio)とした。音を16kHzでサンプリングし、512ポイントのSTFTを用いて時間-周波数領域へ50%のオ-バ-ラップで変換した。
図4の指向性関数G1(ρ)について考察する。即ち、音源Aは歪なしに抽出され、一方音源Bの電力が21dB減衰される。前述の2つの空間フィルタと提供する空間フィルタについて考察する。ロバストなSDビ-ムフォ-マ(39)に対しては、最小WNGが-12dBに設定されている。提供する空間フィルタ(12)に対しては、DNR Ψ(k, n)が先の説明のように推定される。自己雑音電力φn(k, n)は、最初の無音信号部分から計算される。式(3)における期待値は、τ=50msにわたる再帰時間平均(recursive temporal average)によって近似される。
次に、時不変指向性制約について考察する。
このシミュレ-ションに対しては、2つの音源位置ρAおよびρBに関する事前知識が想定されている。全ての処理ステップにおいて、ρ1(k, n)=ρAおよびρ2(k, n)=ρBを用いた。したがって、式(9)および式(26)における指向性制約に経時的変化はない。
図7は、真のDNR Ψ(k, n)と推定されたDNR Ψ(k, n)を示す。マ-キングされた2つのエリアは、それぞれ信号の無音部分と活性部分を示す。具体的には、図7は、真のDNR Ψ(k, n)と推定されたDNR Ψ(k, n)を時間と周波数の関数として描いている。音声活動の間は、残響環境に起因して比較的高いDNRが得られる。図7(B)における推定されたDNRは、組み込まれた時間平均プロセスに起因して限定された時間分解能を有する。それにもかかわらず、Ψ(k, n)推定値は、以下の結果により示されるように、十分正確である。
図8(A)は、wnおよびwd(共に信号独立性)の平均DIと、提案する空間フィルタwnd(信号依存性)の平均DIを描いている。提案する空間フィルタに関しては、信号の無音部分のDIと音声活動の間のDI[これらの信号部分は共に、図7(B)においてマ-キングされている]を示している。無音の間、提案する空間フィルタ(一点鎖線のwnd)は、wnと同じく低いDIを与える。音声活動の間(実線のwnd)、得られるDIは、ロバストなSDビ-ムフォ-マ(wd)と同程度に高い。図8(B)は、対応するWNGを示す。無音の間、提案する空間フィルタ(一点鎖線のwnd)は高いWNGを達成し、一方、信号活動の間のWNGは比較的低い。
図8:比較される空間フィルタのDIおよびWNG。wdの場合、空間フィルタをマイクロフォン自己雑音に対してロバストにするために、最小WNGを-12dBに設定した。
概して、図8は、提案する空間フィルタが、既存の双方の空間フィルタの優位点、即ち、無音部分の間に最小自己雑音増幅、即ち高いロバスト性に繋がる最大WNGが提供されるという優位点、を兼ね備えていることを示している。
信号活動と高い残響の間は、自己雑音は通常マスキングされ、(低いWNGを代償として)拡散音の最適減少に繋がる高いDIが与えられる。この場合は、比較的小さいWNGであっても許容できる。
より高い周波数(f>5kHz)の場合、式(39)と式(12)におけるコヒ-レンス行列Γd(k)が恒等行列にほぼ等しいことから、全ての空間フィルタの性能はほとんど等しいことに留意されたい。
次に、瞬間指向性制約について考察する。
このシミュレ-ションに関しては、ρAおよびρBに関する先験的情報を利用できないことが想定されている。DOAρ1(k, n)とρ2(k, n)をESPRITを用いて推定する。したがって、制約(9)は経時的に変化する。ロバストなSDビ-ムフォ-マ(wd)に関してのみ、ρA=86゜である一定の視方向に対応する単一かつ時不変な制約(9)を用いる。このビ-ムフォ-マは参照として機能する。
図9は、推定されたDOA ρ1(k, n)と結果的に生じる利得G[k|ρ1(k, n)]を描いたものである。具体的には、図9は、推定されたDOA ρ1(k, n)と結果的に生じる利得|G[k|ρ1(k, n)]|2を示している。到来する平面波は、DOAが図4(実線)における空間窓内に存在すれば減衰されない。そうでなければ、波の電力は21dB減衰される。
表1は、全ての空間フィルタの性能を示す[*未処理]。括弧内の値は時不変指向性制約を指し、括弧外の値は瞬間指向性制約を指す。信号は、SIR、SRRおよびSSNRを計算する前にA加重された。
Figure 2016506664
具体的には、表1は、フィルタ出力における信号対干渉比(SIR:signal-to-interference ratio)、信号対残響比(SRR:signal-to-reverberation ratio)およびSSNRに関する空間フィルタの全体的性能をまとめたものである。SIRとSRR(音源分離、残響除去)に関しては、提案の手法(wnd)とロバストなSDビ-ムフォ-マ(wd)が最も高い性能を与える。しかしながら、提案するwndのSSNRはwdのSSNRより6dB高く、明らかな聴覚的利点を表した。SSNRに関する最良性能はwnを用いて得られた。PESQに関しては、wndとwdはwnより性能がよい。時不変制約(括弧内の値)の代わりに瞬間指向性制約を用いると、大概は達成可能なSIRを低減させたが、変動する音源位置の場合に迅速に適応できる。必要とされる全ての複素重みの時間フレ-ム当たりの計算時間は、wdで80秒より長く(CVXツ-ルボックス[非特許文献27、28])、提案手法で0.08秒より短い(MATLAB R2012b、MacBook Pro2008)ことは、留意されるべきである。
次に、空間音再生の実施形態について述べる。実施形態の目的は、音響シ-ンを例えばマイクロフォンアレイを用いて捕捉し、かつ空間音響を任意の音響再生システム(例えば、5.1ラウドスピ-カ装置、ヘッドフォン再生)を用いて、元の空間印象が再現されるように再生することにある。音響再生システムは、N個のチャネルを備えるものとし、即ちN個の出力信号Y(k, n)を計算するものとする。
まず、問題を定式化する。信号モデル(先の式(2)参照)を考察し、類似の問題を定式化する。定常雑音/ゆっくりと変動する雑音は望ましくないマイクロフォン自己雑音に対応し、一方、非定常雑音は所望される拡散音に対応する。このアプリケ-ションにおいて拡散音が所望される理由は、録音シ-ンの元の空間印象を再生することが極めて重要であることにある。
次に、対応するDOA ρι(k, n)からの指向性の音Xι(k,n,d1)の歪のない再生を達成する。さらに、拡散音を全方向からの適正なエネルギ-によって再生し、同時にマイクロフォン自己雑音を抑制する。したがって、この時点で式(7)における所望される信号Y(k, n)は、
Figure 2016506664
で表される。ここで、Yi(k, n)は音響再生システムのi番目(i={1,…,N})のチャネルの信号であり、Xd,i(k,n,d)はラウドスピ-カiから再生されるべき任意のポイントに(例えば、第1のマイクロフォンd1における)おける測定された拡散音であり、Gd(k, n)は、再生中の拡散音の適正電力を保証するための、拡散音の利得関数
Figure 2016506664
である。理想的には、信号Xd,i(k, n)は、適正な拡散音電力を有し、かつチャネルi間では互いに相関されず、よって、
Figure 2016506664
となる。
指向性音成分の伝達関数Gi[k|ρι(k, n)]は、DOA依存ラウドスピ-カ利得関数に相当する。ステレオラウドスピ-カ再生の場合の一例が図10に描かれている。波ιがρι(k, n)=30°から到来すれば、G1=1およびG2=0である。これは、この指向性の音が、再生システムのチャネルi=1(左チャネル)からのみ再生されることを意味する。ρι(k, n)=0゜の場合、
Figure 2016506664
になり、即ち、指向性の音は両ラウドスピ-カから等しい電力で再生される。あるいは、ステレオ再生が所望される場合は、Gi[k|ρι(k, n)]はHRTFに相当することができる。
信号Yi(k, n)は、先に述べたように、複素重みw(k, n)に基づいてマイクロフォン信号の線形結合を介して、即ち、特定の制約に従って
Figure 2016506664
として推定される。重みwi(k, n)の制約と計算については次の小項目で説明する。
次に、対応する実施形態による重み計算モジュ-ル103について考察する。これに関して、図2の重み計算モジュ-ル103の2つの実施形態を示す。式(5)および式(40)から、wi(k, n)は、線形制約
i H(k, n)a[k|ρι(k, n)]=Gi[k|ρι(k, n)],
ι∈{1,2,…,L},
i∈{1,2,…,N}
(43)
を満たすべきであるということになる。
さらに、拡散音電力は保持されるべきである。したがって、wi(k, n)は、二次制約
i HΓd(k, n)wi=|Gd(k, n)]2, ∀i (44)
を満たすことができる。
さらに、フィルタ出力における自己雑音電力は最小にされるべきである。したがって、最適重みは、式(43)および式(44)に従って、
Figure 2016506664
と計算することができる。これは、例えば周知の数値的方法[非特許文献29]を用いて解くことのできる凸最適化問題に帰着する。
瞬間パラメ-タ推定モジュ-ル102に関連して、対応する実施形態によれば、L個の平面波のDOA ρι(k, n)は、ESPRIT[非特許文献22]もしくはル-トMUSIC[非特許文献23]などの周知の狭帯域DOA推定器、または他の最新技術による推定器によって得ることができる。
次に、対応する実施形態による伝達関数選択モジュ-ル104について考察する。このアプリケ-ションでは、対応する指向性の音ιに関して、チャネルiの利得Gi[k|ρι(k, n)]がDOA情報ρι(k, n)に依存して求められる。システムは、異なるDOA ρ(k, n)およびチャネルiの伝達関数Gi[k|ρ(k, n)]を、例えばユ-ザが定義する先験的情報として利用することができる。その利得は、画像の解析に基づいて、例えば検出された顔の位置を用いて計算することもできる。
伝達関数Gi[k|ρ(k, n)]は、通常、ルックアップテ-ブルとして提供され、即ち、ある推定されたρι(k, n)に対して対応する利得Gi[k|ρι(k, n)]がそのルックアップテ-ブルから選択される。伝達関数は、方位角ρι(k, n)の代わりに空間周波数μ[k|ρ(k, n)]の関数として、即ちGi[k|ρ(k, n)]の代わりにGi(k,μ)として定義できることに留意されたい。さらに、伝達関数は、ステレオ音再生を有効化するHRTFにも相当し得ることに留意されたい。この場合、Gi[k|ρ(k, n)]は、通常、複素数である。利得または伝達関数は、DOA情報の代わりに音源位置情報に基づいて計算することもできることに留意されたい。
図10には、ステレオラウドスピ-カ再生の一例が描かれている。具体的には、図10はステレオ再生の利得関数を示している。
幾つかの態様を、装置に関して説明したが、これらの態様が対応する方法に関する説明でもあることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に相当する。同様に、方法ステップに関して記述されている態様は、対応する装置の対応するブロック、単位体または特徴に関する説明でもある。
本発明による分解信号は、デジタル記憶媒体に格納することができ、または伝送媒体、例えば無線伝送媒体もしくはインタ-ネット等の有線伝送媒体、で伝送することができる。
所定の実装要件に依存して、本発明の実施形態は、ハ-ドウェアまたはソフトウェアにおいて実装することができる。その実装は、デジタル記憶媒体、例えばフロッピ-ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができ、それらは個々の方法が実行されるようにプログラマブル・コンピュ-タ・システムと協働する(または協働することのできる)電子的に読出し可能な制御信号をもっている。
本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの1つが実行されるようにプログラマブル・コンピュ-タ・システムと協働することができる電子的に読取り可能な制御信号を有する非一時的デ-タキャリアを含む。
概して、本発明の実施形態は、プログラムコ-ドを有するコンピュ-タ・プログラム・プロダクトとして実装することができ、そのプログラムコ-ドは、そのコンピュ-タ・プログラム・プロダクトがコンピュ-タ上で実行されると本発明の方法のうちの1つを実行するように作動する。そのプログラムコ-ドは、例えば、機械読取り可能なキャリア上に格納することができる。
他の実施形態は、機械読取り可能なキャリア上に格納され、本明細書に記述されている方法のうちの1つを実行するためのコンピュ-タプログラムを含む。
したがって、言い替えれば、本発明による方法の一実施形態は、コンピュ-タ上で実行されると本明細書に記述されている方法のうちの1つを実行するためのプログラムコ-ドを有するコンピュ-タプログラムである。
したがって、本発明による方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュ-タプログラムを記録しているデ-タキャリア(または、デジタル記憶媒体もしくはコンピュ-タ読取り可能媒体)である。
したがって、本発明による方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュ-タプログラムを表すデ-タストリ-ムまたは信号シ-ケンスである。そのデ-タストリ-ムまたは信号シ-ケンスは、例えば、デ-タ通信接続を介して、例えばインタ-ネットを介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成または適合化された処理手段、例えばコンピュ-タまたはプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュ-タプログラムをインスト-ルしているコンピュ-タを含む。
実施形態によっては、本明細書に記述されている方法の機能のうちの一部または全てを実行するために、プログラマブル論理デバイス(例えば、フィ-ルド・プログラマブル・ゲ-ト・アレイ)を使用することができる。実施形態によっては、本明細書に記述されている方法のうちの1つを実行するために、フィ-ルド・プログラマブル・ゲ-ト・アレイがマイクロプロセッサと協働することができる。概して、これらの方法は、好ましくは、あらゆるハ-ドウェア装置によって実行される。
これまでに述べた実施形態は、単に、本発明の原理を例示するものである。言うまでもなく、当業者である他の者には本明細書に記述されている装置および詳細の変更および変形は明らかである。したがって、意図するところは、本発明は添付の特許請求の範囲によってのみ限定されるべきものであり、本明細書において実施形態を記述しかつ説明するために提示されている具体的な詳細によって限定されるべきではないということである。

Claims (18)

  1. 複数のオ-ディオ出力信号サンプルを含むオ-ディオ出力信号を、2つ以上の入力マイクロフォン信号に基づいて発生するためのフィルタ(100)であって、前記オ-ディオ出力信号および前記2つ以上の入力マイクロフォン信号は時間-周波数領域において表現され、前記複数のオ-ディオ出力信号サンプルの各々は複数の時間-周波数ビン((k, n))のうちの1つの時間-周波数ビン((k, n))へ割り当てられ、
    該フィルタ(100)は、
    前記複数の時間-周波数ビン((k, n))の各々について、1つ以上の音源の1つ以上の音成分の到来方向情報または1つ以上の音源の位置情報を受信するように適合化され、かつ前記複数の時間-周波数ビン((k, n))の各々に関する重み情報を、前記時間-周波数ビン((k, n))の前記1つ以上の音源の前記1つ以上の音成分の前記到来方向情報に依存して、または前記時間-周波数ビン((k, n))の前記1つ以上の音源の前記位置情報に依存して発生するように適合化されている重み発生器(110)と、
    前記オ-ディオ出力信号を、前記複数の時間-周波数ビン((k, n))の各々について前記複数のオ-ディオ出力信号サンプルのうちの1つを発生することにより発生するための出力信号発生器(120)であって、前記複数の時間-周波数ビン((k, n))の各々について発生されられるオ-ディオ出力信号サンプルは、前記時間-周波数ビン((k, n))の前記重み情報に依存して、かつ前記時間-周波数ビン((k, n))へ割り当てられる、前記2つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルに依存して、前記時間-周波数ビン((k, n))へ割り当てられる出力信号発生器(120)と、を備えているフィルタ(100)。
  2. 前記重み発生器(110)は、前記複数の時間-周波数ビン((k, n))の各々の前記重み情報を、前記2つ以上の入力マイクロフォン信号の信号または雑音成分に関する統計的情報に依存して、かつ前記時間-周波数ビン((k, n))の前記1つ以上の音源の前記到来方向情報、または前記時間-周波数ビン((k, n))の前記1つ以上の音源の前記位置情報に依存して発生するように適合化されている請求項1に記載のフィルタ(100)。
  3. 前記重み発生器(110)は、前記複数の時間-周波数ビン((k, n))の各々の前記重み情報を、前記2つ以上の入力マイクロフォン信号の信号または雑音成分に関する前記統計的情報に依存して発生するように適合化され、前記統計的情報は、前記2つ以上の入力マイクロフォン信号の信号成分、雑音成分または拡散成分の、雑音成分電力、信号対拡散情報、信号対雑音情報、拡散対雑音情報、信号成分電力、拡散成分電力または電力スペクトル密度行列である請求項2に記載のフィルタ(100)。
  4. 前記重み発生器(110)は、前記複数の時間-周波数ビン((k, n))の各々の前記重み情報を、前記2つ以上の入力マイクロフォン信号の第1の雑音成分に関する情報を示す第1の雑音情報に依存して、かつ前記2つ以上の入力マイクロフォン信号の第2の雑音成分に関する情報を示す第2の雑音情報に依存して発生するように適合化されている請求項1に記載のフィルタ(100)。
  5. 前記重み発生器(110)は、前記複数の時間-周波数ビン((k, n))の各々の前記重み情報を、前記2つ以上の入力マイクロフォン信号の前記第1の雑音成分に関する前記情報を示す前記第1の雑音情報に依存して、かつ前記2つ以上の入力マイクロフォン信号の前記第2の雑音成分に関する前記情報を示す前記第2の雑音情報に依存して発生するように適合化され、前記重み発生器(110)は、前記第1の雑音情報を、統計的情報を使用することによって発生するように構成され、かつ前記重み発生器(110)は、前記第2の雑音情報を、前記統計的情報を使用することなく発生するように構成されており、前記統計的情報は予め規定されている請求項4に記載のフィルタ(100)。
  6. 前記重み発生器(110)は、前記複数の時間-周波数ビン((k, n))の各々の前記重み情報を、前記2つ以上の入力マイクロフォン信号の前記第1の雑音成分に関する前記第1の雑音情報に依存して、かつ前記2つ以上の入力マイクロフォン信号の前記第2の雑音成分に関する前記第2の雑音情報に依存して発生するように適合化され、前記重み発生器(110)は、前記複数の時間-周波数ビン((k, n))の各々の前記重み情報を、式
    nd=Φu -1A[AHΦu -1A]-1
    に依存して発生するように適合化されている請求項4または5に記載のフィルタ(100)。
    ただし、Φu=Φd+Φnであり、
    Φdは前記第1の雑音情報であって、前記1つ以上のマイクロフォン入力信号の前記第1の雑音成分の第1の電力スペクトル密度行列を示す第1の行列であり、
    Φnは前記第2の雑音情報であって、前記1つ以上のマイクロフォン入力信号の前記第2の雑音成分の第2の電力スペクトル密度行列を示す第2の行列であり、
    Aは前記到来方向情報を示し、
    ndは前記重み情報を示すベクトルであり、
    g(k, n)=[G[k|ρ1(k, n)]…G[k|ρι(k, n)]]T
    であり、[G[k|ρ1(k, n)]は前記到来方向情報に依存する第1の実数値または複素数値の予め規定された指向性関数であり、G[k|ρι(k, n)]は前記到来方向情報に依存するさらなる実数値または複素数値の予め規定された指向性関数である、
  7. 前記重み発生器(110)は、前記第1の雑音情報を、前記1つ以上のマイクロフォン入力信号の前記第1の雑音成分のうちの少なくとも幾つかの間の1つ以上のコヒ-レンスに依存して決定するように構成されており、前記1つ以上のコヒ-レンスは予め規定されている請求項4から6のいずれか一項に記載のフィルタ(100)。
  8. 前記重み発生器(110)は、前記第1の雑音情報を、前記2つ以上の入力マイクロフォン信号の前記第1の雑音成分から結果的に生じるコヒ-レンスを示すコヒ-レンス行列Γd(k)に依存して決定するように構成されており、前記コヒ-レンス行列Γd(k)は予め規定されている請求項4から7のいずれか一項に記載のフィルタ(100)。
  9. 前記重み発生器(110)は、前記第1の雑音情報を、式
    Φd(k, n)=φd(k, n)Γd(k)
    に従って決定するように構成されている請求項8に記載のフィルタ(100)。
    ただし、Γd(k)は前記コヒ-レンス行列であり、前記コヒ-レンス行列は予め規定されたものであり、
    Φd(k, n)は前記第1の雑音情報であり、かつ、
    φd(k, n)は前記2つ以上の入力マイクロフォン信号の前記第1の雑音成分の期待電力である。
  10. 前記重み発生器(110)は、前記第1の雑音情報を、前記第2の雑音情報に依存して、かつ前記到来方向情報に依存して決定するように構成されている請求項4から9のいずれか一項に記載のフィルタ(100)。
  11. 前記重み発生器(110)は、前記重み情報を第1の重み情報として発生するように構成され、かつ、
    前記重み発生器(110)は、前記第1の重み情報を、式
    Ha[k|ρι(k, n)]=0
    が満たされるような第2の重み情報を決定することによって発生するように構成されている請求項1から10のいずれか一項に記載のフィルタ(100)。
    ただし、ρι(k, n)は前記到来方向情報を示し、a[k|ρι(k, n)]は伝搬ベクトルを示し、wは前記第2の重み情報を示す。
  12. 前記重み発生器(110)は、前記第1の重み情報を決定するために、拡散対雑音情報または拡散成分電力を、前記第2の重み情報に依存して、かつ前記2つ以上の入力マイクロフォン信号に依存して発生するように構成されている請求項11に記載のフィルタ(100)。
  13. 前記重み発生器(110)は、前記重み情報を、パラメトリック・ウィ-ナ・フィルタを適用することによって決定するように構成されており、前記パラメトリック・ウィ-ナ・フィルタは前記2つ以上の入力マイクロフォン信号の信号成分に関する統計的情報に依存し、かつ前記パラメトリック・ウィ-ナ・フィルタは前記2つ以上の入力マイクロフォン信号の雑音成分に関する統計的情報に依存する請求項1から請求項3のいずれか一項に記載のフィルタ(100)。
  14. 前記重み発生器(110)は、前記重み情報を、1つ以上の平面波の到来方向を示す前記到来方向情報に依存して決定するように構成されている請求項1から13のいずれか一項に記載のフィルタ(100)。
  15. 前記重み発生器(110)は予め規定された伝達関数を提供するための伝達関数選択モジュ-ル(104)を備え、かつ、
    前記重み発生器(110)は、前記重み情報を、前記到来方向情報に依存して、かつ前記予め規定された伝達関数に依存して発生するように構成されている請求項1から14のいずれか一項に記載のフィルタ(100)。
  16. 前記伝達関数選択モジュ-ル(104)は、前記予め規定された伝達関数を、前記予め規定された伝達関数が前記到来方向情報に依存して任意のピックアップパタ-ンを示すように、前記予め規定された伝達関数が前記到来方向情報に依存してラウドスピ-カ利得を示すように、または前記予め規定された伝達関数が前記到来方向情報に依存して頭部伝達関数を示すように提供すべく構成されている請求項15に記載のフィルタ(100)。
  17. 複数のオ-ディオ出力信号サンプルを含むオ-ディオ出力信号を、2つ以上の入力マイクロフォン信号に基づいて発生するための方法であって、前記オ-ディオ出力信号および前記2つ以上の入力マイクロフォン信号は時間-周波数領域において表現され、前記複数のオ-ディオ出力信号サンプルの各々は複数の時間-周波数ビン((k, n))のうちの1つの時間-周波数ビン((k, n))へ割り当てられ、
    該方法は、
    前記複数の時間-周波数ビン((k, n))の各々について、1つ以上の音源の1つ以上の音成分の到来方向情報、または1つ以上の音源の位置情報を受信するステップと、
    前記複数の時間-周波数ビン((k, n))の各々に関する重み情報を、前記時間-周波数ビン((k, n))の前記1つ以上の音源の前記1つ以上の音成分の前記到来方向情報に依存して、または前記時間-周波数ビン((k, n))の前記1つ以上の音源の前記位置情報に依存して発生するステップと、
    前記オ-ディオ出力信号を、前記複数の時間-周波数ビン((k, n))の各々について前記複数のオ-ディオ出力信号サンプルのうちの1つを発生することにより発生するステップであって、前記複数の時間-周波数ビン((k, n))の各々について発生されられるオ-ディオ出力信号サンプルは、前記時間-周波数ビン((k, n))の前記重み情報に依存して、かつ前記時間-周波数ビン((k, n))へ割り当てられる、前記2つ以上の入力マイクロフォン信号の各々のオ-ディオ入力サンプルに依存して、前記時間-周波数ビン((k, n))へ割り当てられるステップと、を含む方法。
  18. コンピュ-タまたは信号プロセッサ上で実行されると、請求項17に記載の方法を実装するためのコンピュ-タプログラム。
JP2015548311A 2012-12-21 2013-11-25 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法 Active JP6196320B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261740866P 2012-12-21 2012-12-21
US61/740,866 2012-12-21
EP13169163.6A EP2747451A1 (en) 2012-12-21 2013-05-24 Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
EP13169163.6 2013-05-24
PCT/EP2013/074650 WO2014095250A1 (en) 2012-12-21 2013-11-25 Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates

Publications (2)

Publication Number Publication Date
JP2016506664A true JP2016506664A (ja) 2016-03-03
JP6196320B2 JP6196320B2 (ja) 2017-09-13

Family

ID=48607016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015548311A Active JP6196320B2 (ja) 2012-12-21 2013-11-25 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法

Country Status (8)

Country Link
US (1) US10331396B2 (ja)
EP (2) EP2747451A1 (ja)
JP (1) JP6196320B2 (ja)
CN (1) CN105165026B (ja)
BR (1) BR112015014380B1 (ja)
ES (1) ES2612528T3 (ja)
RU (1) RU2641319C2 (ja)
WO (1) WO2014095250A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019512740A (ja) * 2016-03-18 2019-05-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング
JP2019515323A (ja) * 2016-03-18 2019-06-06 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法
CN113203987A (zh) * 2021-07-05 2021-08-03 成都启英泰伦科技有限公司 一种基于k均值聚类的多声源方位估计方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9788128B2 (en) * 2013-06-14 2017-10-10 Gn Hearing A/S Hearing instrument with off-line speech messages
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
EP2975609A1 (en) * 2014-07-15 2016-01-20 Ecole Polytechnique Federale De Lausanne (Epfl) Optimal acoustic rake receiver
US9949041B2 (en) 2014-08-12 2018-04-17 Starkey Laboratories, Inc. Hearing assistance device with beamformer optimized using a priori spatial information
WO2016056410A1 (ja) * 2014-10-10 2016-04-14 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2016093854A1 (en) 2014-12-12 2016-06-16 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
CN106028227B (zh) * 2016-07-08 2019-05-24 乐鑫信息科技(上海)股份有限公司 分布式麦克风阵列及其适用的声源定位系统
CN106060743A (zh) * 2016-08-03 2016-10-26 上海山景集成电路股份有限公司 麦克风、麦克风组合及麦克风信号处理方法
CN106569773A (zh) * 2016-10-31 2017-04-19 努比亚技术有限公司 一种终端和语音交互的处理方法
CN106782590B (zh) * 2016-12-14 2020-10-09 南京信息工程大学 基于混响环境下麦克风阵列波束形成方法
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
GB2563952A (en) * 2017-06-29 2019-01-02 Cirrus Logic Int Semiconductor Ltd Speaker identification
EP3460795A1 (en) * 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
CN111201784B (zh) 2017-10-17 2021-09-07 惠普发展公司,有限责任合伙企业 通信系统、用于通信的方法和视频会议系统
US10679617B2 (en) * 2017-12-06 2020-06-09 Synaptics Incorporated Voice enhancement in audio signals through modified generalized eigenvalue beamformer
TWI690218B (zh) 2018-06-15 2020-04-01 瑞昱半導體股份有限公司 耳機
CN110636400B (zh) * 2018-06-25 2021-03-16 瑞昱半导体股份有限公司 耳机
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN109839612B (zh) * 2018-08-31 2022-03-01 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法及装置
CN109286875B (zh) * 2018-09-29 2021-01-01 百度在线网络技术(北京)有限公司 用于定向拾音的方法、装置、电子设备和存储介质
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
US20200184994A1 (en) * 2018-12-07 2020-06-11 Nuance Communications, Inc. System and method for acoustic localization of multiple sources using spatial pre-filtering
CN111025233B (zh) * 2019-11-13 2023-09-15 阿里巴巴集团控股有限公司 一种声源方向定位方法和装置、语音设备和系统
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
CN111175693A (zh) * 2020-01-19 2020-05-19 河北科技大学 一种波达方向估计方法及波达方向估计装置
CN112116920B (zh) * 2020-08-10 2022-08-05 北京大学 一种说话人数未知的多通道语音分离方法
US11823707B2 (en) 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system
DE202022105574U1 (de) 2022-10-01 2022-10-20 Veerendra Dakulagi Ein System zur Klassifizierung mehrerer Signale für die Schätzung der Ankunftsrichtung

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
US20070127736A1 (en) * 2003-06-30 2007-06-07 Markus Christoph Handsfree system for use in a vehicle
WO2008041878A2 (en) * 2006-10-04 2008-04-10 Micronas Nit System and procedure of hands free speech communication using a microphone array
US20110232989A1 (en) * 2008-12-16 2011-09-29 Koninklijke Philips Electronics N.V. Estimating a sound source location using particle filtering

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2793629B1 (fr) * 1999-05-12 2001-08-03 Matra Nortel Communications Procede et dispositif d'annulation d'echo stereophonique a filtrage dans le domaine frequentiel
CA2354858A1 (en) * 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
CA2399159A1 (en) * 2002-08-16 2004-02-16 Dspfactory Ltd. Convergence improvement for oversampled subband adaptive filters
EP1538867B1 (en) * 2003-06-30 2012-07-18 Nuance Communications, Inc. Handsfree system for use in a vehicle
US20070050441A1 (en) * 2005-08-26 2007-03-01 Step Communications Corporation,A Nevada Corporati Method and apparatus for improving noise discrimination using attenuation factor
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
DE602006006664D1 (de) * 2006-07-10 2009-06-18 Harman Becker Automotive Sys Reduzierung von Hintergrundrauschen in Freisprechsystemen
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
JP4455614B2 (ja) * 2007-06-13 2010-04-21 株式会社東芝 音響信号処理方法及び装置
PL2198632T3 (pl) * 2007-10-09 2014-08-29 Koninklijke Philips Nv Sposób i urządzenie do generowania dwuusznego sygnału audio
US8457328B2 (en) * 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
EP2375779A3 (en) * 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
CN102859591B (zh) * 2010-04-12 2015-02-18 瑞典爱立信有限公司 用于语音编码器中的噪声消除的方法和装置
US8639499B2 (en) * 2010-07-28 2014-01-28 Motorola Solutions, Inc. Formant aided noise cancellation using multiple microphones
AR084091A1 (es) 2010-12-03 2013-04-17 Fraunhofer Ges Forschung Adquisicion de sonido mediante la extraccion de informacion geometrica de estimativos de direccion de llegada
WO2012158168A1 (en) * 2011-05-18 2012-11-22 Google Inc. Clock drift compensation method and apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
US20070127736A1 (en) * 2003-06-30 2007-06-07 Markus Christoph Handsfree system for use in a vehicle
WO2008041878A2 (en) * 2006-10-04 2008-04-10 Micronas Nit System and procedure of hands free speech communication using a microphone array
US20110232989A1 (en) * 2008-12-16 2011-09-29 Koninklijke Philips Electronics N.V. Estimating a sound source location using particle filtering
JP2012512413A (ja) * 2008-12-16 2012-05-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パーティクルフィルタリングを利用した音源位置の推定

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019512740A (ja) * 2016-03-18 2019-05-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング
JP2019515323A (ja) * 2016-03-18 2019-06-06 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法
US10607630B2 (en) 2016-03-18 2020-03-31 Fraunhofer-Gesellschaft Zur Förderung Der Encoding by reconstructing phase information using a structure tensor on audio spectrograms
US10770051B2 (en) 2016-03-18 2020-09-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
CN113203987A (zh) * 2021-07-05 2021-08-03 成都启英泰伦科技有限公司 一种基于k均值聚类的多声源方位估计方法

Also Published As

Publication number Publication date
WO2014095250A1 (en) 2014-06-26
CN105165026A (zh) 2015-12-16
RU2015129784A (ru) 2017-01-27
EP2936830B8 (en) 2017-01-25
EP2936830A1 (en) 2015-10-28
ES2612528T3 (es) 2017-05-17
JP6196320B2 (ja) 2017-09-13
US20150286459A1 (en) 2015-10-08
RU2641319C2 (ru) 2018-01-17
US10331396B2 (en) 2019-06-25
EP2936830B1 (en) 2016-10-05
BR112015014380B1 (pt) 2022-10-11
EP2747451A1 (en) 2014-06-25
CN105165026B (zh) 2019-08-13
BR112015014380A2 (pt) 2020-01-28

Similar Documents

Publication Publication Date Title
JP6196320B2 (ja) 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法
TWI713844B (zh) 用於語音處理的方法及積體電路
US10079026B1 (en) Spatially-controlled noise reduction for headsets with variable microphone array orientation
Thiergart et al. An informed parametric spatial filter based on instantaneous direction-of-arrival estimates
US10827263B2 (en) Adaptive beamforming
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
US10250975B1 (en) Adaptive directional audio enhancement and selection
Thiergart et al. An informed LCMV filter based on multiple instantaneous direction-of-arrival estimates
RU2760097C2 (ru) Способ и устройство для захвата аудиоинформации с использованием формирования диаграммы направленности
JP2011527025A (ja) ヌル処理雑音除去を利用した雑音抑制を提供するシステム及び方法
US10283139B2 (en) Reverberation suppression using multiple beamformers
Braun et al. A multichannel diffuse power estimator for dereverberation in the presence of multiple sources
CN111078185A (zh) 录制声音的方法及设备
JP2001309483A (ja) 収音方法および収音装置
Thiergart et al. An informed MMSE filter based on multiple instantaneous direction-of-arrival estimates
CN111354368B (zh) 补偿处理后的音频信号的方法
US20190348056A1 (en) Far field sound capturing
As’ad et al. Beamforming designs robust to propagation model estimation errors for binaural hearing aids
Moore et al. Improving robustness of adaptive beamforming for hearing devices
Reindl et al. An acoustic front-end for interactive TV incorporating multichannel acoustic echo cancellation and blind signal extraction
CN110140171B (zh) 使用波束形成的音频捕获
Thiergart Flexible Multi-Microphone Acquisition and Processing of Spatial Sound Using Parametric Sound Field Representations
Kowalczyk et al. On the extraction of early reflection signals for automatic speech recognition
Habets Towards multi-microphone speech dereverberation using spectral enhancement and statistical reverberation models
US10204638B2 (en) Integrated sensor-array processor

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160809

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20161005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161005

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170817

R150 Certificate of patent or registration of utility model

Ref document number: 6196320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250