JP6466968B2

JP6466968B2 - インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法

Info

Publication number: JP6466968B2
Application number: JP2016564300A
Authority: JP
Inventors: エマヌエルハベツ; オリヴァーティールガルト; コンラートコヴァルチク
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2014-05-05
Filing date: 2015-04-23
Publication date: 2019-02-06
Anticipated expiration: 2035-04-23
Also published as: CN106664485A; RU2016146936A3; EP2942982A1; EP2942981A1; JP6466969B2; US20170078819A1; RU2016147370A; JP2017517947A; EP3141001B1; CN106664501B; BR112016025771B1; BR112016025767B1; WO2015169617A1; EP3141000B1; RU2663343C2; RU2665280C2; BR112016025767A2; RU2016147370A3; US10015613B2; BR112016025771A2

Description

本発明は、音声信号処理、特に、インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法に関する。

空間音再生において、録音位置（近端側）の音は、複数のマイクロフォンで捕らえられて、それから、再生側（遠端側）で、複数のスピーカーまたはヘッドホーンを使って再生される。多くの応用において、遠端側で再生された空間イメージが、近端側のオリジナルの空間イメージと矛盾しないように、録音された音を再生することが望ましい。これは、例えば、音源の音が、音源がオリジナルの録音シナリオの中で提供された方向から再生されることを意味する。あるいは、例えば、映像が、録音された音声を誉めているとき、音は、再創成された音響イメージが映像イメージと矛盾しないように、再生されることが望ましい。これは、例えば、音源の音が、音源がビデオの中で見える方向から再生されることを意味している。さらに、映像カメラは、映像ズーム関数を装備している。または、遠端側のユーザーは、デジタルズームを、視覚イメージを変更する映像に適用する。この場合、それに応じて、再生された空間音の音響イメージが変わる。多くの場合において、例えばビデオイメージが関係するとき、再生された音が矛盾しない空間イメージを決定する遠端側は、遠端側又は再生中のいずれかで決定される。その結果、近端側の空間音は、遠端側で私達が再生された音響イメージをコントロールできるように、録音され、処理され、送信されなければならない。

多くの現代の応用において、録音された音響場面は、望ましい空間イメージに矛盾しないで再生可能することが要求されている。デジタルカメラや携帯電話などの例えば現代の消費者機器は、しばしば映像カメラおよび複数のマイクロフォンを装備される。これは、空間音、例えばステレオの音と共に映像を録音することを可能にする。映像と共に録音された音声を再生するとき、映像イメージと音響イメージとが矛盾しないことが望ましい。ユーザーがカメラでズームするとき、映像を見る時に映像イメージと音響イメージとが合わされるように、映像ズーム効果を音響的に再創成することが望ましい。例えば、ユーザーが人をズームするとき、この人の声は、人がカメラにより接近していると思えるほど鳴り響かない。さらに、人の音声は、人が映像イメージに出現するのと同じ方向から再生されるべきである。音響的にカメラの映像ズームを擬態することは、以下の音響ズームのように関連し、矛盾のない音声映像再生の１例を表す。音響ズームに関係する矛盾しない音声映像再生は、また、テレビ会議で有益である。そこでは、近端側の空間音が、映像イメージと共に遠端側で再生される。さらに、映像イメージと音響イメージとが合わされるように映像ズーム効果を音響的に再創成することが望ましい。

音響ズームの最初の実施は、［１］において提供された。［１］では、ズーミング効果が、２次方向マイクロフォンの方向性を増大させることによって得られた。その信号は、線形のマイクロフォン配列の信号に基づいて生成された。この取り組みは［２］においてステレオのズームに拡張された。モノーラルまたはステレオのズームのためのより最近の取り組みは、［３］において提供された。［３］では、前面の方向からの音源が守られるけれども、他の方向から来る音源および拡散音が弱められるように、音源レベルを変更することを含む。［１］および［２］において提案された取り組みは、直進対反射比率（ＤＲＲ）の増加を結果として招き、［３］の取り組みは、望まない音源の抑圧を更に許す。前記の取り組みは、音源がカメラの前に位置すると仮定し、映像イメージと矛盾しない音響イメージを捕らえることを目的としない。

柔軟な空間音の録音と再生のための周知の取り組みは、方向音声コード化（ＤｉｒＡＣ）［４］に表されている。ＤｉｒＡＣにおいて、近端側の空間音は、音声信号およびパラメータ副情報、すなわち、音の到来方向（ＤＯＡ）および拡散性について説明される。パラメータの説明は、任意のスピーカーセットアップによって、オリジナルの空間イメージの再生を可能にする。これは、遠端側で再創成された空間イメージが、近端側で録音されている間、空間イメージと矛盾しないことを意味する。しかし、仮に、例えば、映像が、録音された音声を誉めているならば、再生された空間音は必ずしも映像イメージに合わされない。さらに、映像イメージが変化するとき、例えば、カメラの視方向とズームとが変更されるとき、再生された音響イメージは調整できない。これは、ＤｉｒＡＣが、再生された音響イメージを、任意の望ましい空間イメージに適合させる可能性を提供しないことを意味している。

［５］において、音響ズームは、ＤｉｒＡＣに基づいて実現された。ＤｉｒＡＣは、時間−周波数領域のサウンドフィールドが１つの平面波と拡散音とにより構成されていると仮定している簡素でまだ強力な信号モデルに基づいているので、音響ズームを実現するために妥当な基礎を表している。潜在的なモデルパラメータ、例えばＤＯＡと拡散性とは、直進音と拡散音とを分離し、音響ズーム効果を創成するために利用される。空間音のパラメータの説明は、ズーム効果および空間音再生に亘るユーザーの完全なコントロールを提供しながら、遠端側への音場面の効率的な送信を可能にする。けれども、たとえＤｉｒＡＣが、モデルパラメータを推定するために、複数のマイクロフォンを使用しても、１つのチャネルのフィルタだけが、直進音および拡散音を取り出すために適用され、再生された音の品質を制限する。さらに、音場面の全ての音源が円上に位置していると仮定され、空間音再生が、映像ズームと矛盾する音声−映像カメラの変動位置に関連して実行される。事実、イメージの中の映像対象物までの距離およびそれらの相対的位置が不変であり続けながら、ズーミングはカメラの視角度を変える。それは、カメラを動かすことと対比される。

関連した取り組みは、いわゆる仮想マイクロフォン（ＶＭ）技術［６］および［７］である。これらは、ＤｉｒＡＣと同じ信号モデルを考慮するけれども、音場面の任意の位置の不存在の（仮想の）マイクロフォンの信号を統合することを可能にする。ＶＭを音源に向かって動かすことは、新しい位置にカメラを移動することと相似である。ＶＭは、音の品質を高めるために、マルチチャネルフィルタを使用して実現されるけれども、モデルパラメータを推定するために、いくつかの分布されたマイクロフォン配列を必要とする。

しかし、仮に、音声信号処理のための更に改善された概念が提供されるならば、それの真価が高く認められるであろう。

[1] Y. Ishigaki, M. Yamamoto, K. Totsuka, and N. Miyaji, "Zoom microphone," in Audio Engineering Society Convention 67, Paper 1713, October 1980. [2] M. Matsumoto, H. Naono, H. Saitoh, K. Fujimura, and Y. Yasuno, "Stereo zoom microphone for consumer video cameras," Consumer Electronics, IEEE Transactions on, vol. 35, no. 4, pp. 759-766, November 1989. August 13, 2014 [3] T. van Waterschoot, W. J. Tirry, and M. Moonen, "Acoustic zooming by multi microphone sound scene manipulation," J. Audio Eng. Soc, vol. 61, no. 7/8, pp. 489-507, 2013. [4] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, June 2007. [5] R. Schultz-Amling, F. Kuech, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, Paper 8120, London UK, May 2010. [6] O. Thiergart, G. Del Galdo, M. Taseska, and E. Habets, "Geometry-based spatial sound acquisition using distributed microphone arrays," Audio, Speech, and Language Processing, IEEE Transactions on, vol. 21, no. 12, pp. 2583-2594, December 2013. [7] K. Kowalczyk, O. Thiergart, A. Craciun, and E. A. P. Habets, "Sound acquisition in noisy and reverberant environments using virtual microphones," in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on, October 2013. [8] O. Thiergart and E. A. P. Habets, "An informed LCMV filter based on multiple instantaneous direction-of-arrival estimates," in Acoustics Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, 2013, pp. 659-663. [9] O. Thiergart and E. A. P. Habets, "Extracting reverberant sound using a linearly constrained minimum variance spatial filter," Signal Processing Letters, IEEE, vol. 21, no. 5, pp. 630-634, May 2014. [10] R. Roy and T. Kailath, "ESPRIT-estimation of signal parameters via rotational invariance techniques," Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 37, no. 7, pp. 984-995, July 1989. [11] B. Rao and K. Hari, "Performance analysis of root-music," in Signals, Systems and Computers, 1988. Twenty-Second Asilomar Conference on, vol. 2, 1988, pp. 578-582. [12] H. Teutsch and G. Elko, "An adaptive close-talking microphone array," in Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, 2001, pp. 163-166. [13] O. Thiergart, G. D. Galdo, and E. A. P. Habets, "On the spatial coherence in mixed sound fields and its application to signal-to-diffuse ratio estimation," The Journal of the Acoustical Society of America, vol. 132, no. 4, pp. 2337-2346, 2012. [14] V. Pulkki, "Virtual sound source positioning using vector base amplitude panning," J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997. [15] J. Blauert, Spatial hearing, 3rd ed. Hirzel-Verlag, 2001. [16] T. May, S. van de Par, and A. Kohlrausch, "A probabilistic model for robust localization based on a binaural auditory front-end," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 1, pp. 1-13, 2011. [17] J. Ahonen, V. Sivonen, and V. Pulkki, "Parametric spatial sound processing applied to bilateral hearing aids," in AES 45th International Conference, Mar. 2012.

従って、本発明の目的は、音声信号処理のための改善された概念を提供することである。本発明の目的は、請求項１に従うシステム、請求項１３に従う装置、請求項１４に従う方法、請求項１５に従う方法、および請求項１６に従うコンピュータプログラムにより解決される。

１つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、２つ以上の音声入力信号を受信するように構成され、分解モジュールは、２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散コンポーネント信号および方向情報を受信するように構成され、方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成されている。１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と１つ以上の処理された拡散信号のうちの１つとを結合するように構成されている。出力インタフェースは、１つ以上の音声出力信号を出力するように構成されている。

実施の形態に従って、概念は、再創成された音響イメージが、例えば、望ましい空間イメージに矛盾しないように、空間音録音および再生を達成するために提供され、例えば、遠端側のユーザーまたは映像イメージによって決定される。提案された取り組みは、捕らえられた音を直進音コンポーネントと拡散音コンポーネントとに分解することを我々に許す近端側で、マイクロフォン配列を用いる。取り出された音コンポーネントは、その時、遠端側に送信される。矛盾しない空間音再生は、例えば、取り出された直進音および拡散音の重み付けされた合計によって実現される。重み付けは、再生された音が矛盾しない望ましい空間イメージに依存し、例えば、重み付けは、音声録音を誉める、例えばビデオカメラの視方向およびズーミングファクターに依存する。直進音および拡散音を取り出すためのインフォームドマルチチャネルフィルタを採用する概念が、提供される。

実施の形態に従って、信号プロセッサは、例えば、２つ以上の音声出力信号を決定するように構成され、２つ以上の音声出力信号のそれぞれの音声出力信号のために、パンニング利得関数は、例えば、前記音声出力信号に割り当てられ、２つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、例えば、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数が、前記パンニング関数議論値の１つを受信するとき、前記パンニング利得関数が、例えば、前記パンニング関数議論値の前記１つに割り当てられているパンニング関数リターン値を戻すように構成され、そして、信号プロセッサは、例えば、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の方向依存議論値に依存している２つ以上の音声出力信号のそれぞれを決定するように構成され、前記方向依存議論値は、到来方向に依存する。

実施の形態において、２つ以上の音声出力信号のそれぞれのパンニング利得関数は、パンニング関数議論値のうちの１つである１つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の１つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値より大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、２つ以上の音声出力信号の第１の音声出力信号および第２の音声出力信号のペアのそれぞれについて、第１の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値の少なくとも１つが、例えば、第２の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値の何れとも異なる。

実施の形態に従って、信号プロセッサは、例えば、窓利得関数に依存している１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成され、窓利得関数は、例えば、窓関数議論値を受信するとき、窓関数リターン値を戻すように構成され、仮に窓関数議論値が、例えば、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、窓利得関数は、例えば、何れの窓関数リターン値よりも大きい窓関数リターン値を戻すように構成され、仮に窓関数議論値が、例えば、下部の窓閾値より小さく、あるいは、上部の窓閾値より大きいならば、窓利得関数は、窓利得関数によって戻されるように構成されている。

実施の形態において、信号プロセッサは、例えば、到来方向について視方向の角度シフトを示している配向情報をさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも１つが、配向情報に依存する。または、利得関数計算モジュールは、例えば、ズーム情報をさらに受信するように構成され、ズーム情報は、カメラの開口角度を示し、パンニング利得関数と窓利得関数との少なくとも１つが、ズーム情報に依存する。または、利得関数計算モジュールは、例えば、測定パラメータをさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも１つが、測定パラメータに依存する。

実施の形態に従って、信号プロセッサは、例えば、距離情報を受信するように構成されている。信号プロセッサは、例えば、距離情報に依存している１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。

実施の形態に従って、信号プロセッサは、例えば、２つ以上の音声入力信号の直進信号コンポーネントの到来方向であるオリジナルの到来方向に依存しているオリジナルの角度値を受信するように構成され、そして、例えば、距離情報を受信するように構成されている。信号プロセッサは、例えば、オリジナル角度値に依存し、かつ、距離情報に依存している修正された角度値を計算するように構成されている。そして、信号プロセッサは、例えば、修正された角度値に依存している１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。

実施の形態に従って、信号プロセッサは、例えば、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、到来方向の拡がりを実行することによって、または、非相関性を実行することによって、１つ以上の音声出力信号を生成するように構成されている。

実施の形態において、信号プロセッサは、例えば、２つ以上の音声出力チャンネルを生成するように構成されている。信号プロセッサは、例えば、中間的拡散信号を得るために、拡散利得を拡散コンポーネント信号に適用するように構成されている。そして、信号プロセッサは、例えば、非相関性を実行することによって、中間的拡散信号から１つ以上の非相関性信号を生成するように構成されている。１つ以上の非相関性信号は、１つ以上の処理された拡散信号を形成する。または、中間的拡散信号および１つ以上の非相関性信号は、１つ以上の処理された拡散信号を形成する。

実施の形態に従って、直進コンポーネント信号および１つ以上の別の直進コンポーネント信号は、２つ以上の直進コンポーネント信号のグループを形成する。分解モジュールは、例えば、２つ以上の音声入力信号の別の直進信号コンポーネントを含む１つ以上の別の直進コンポーネント信号を生成するように構成されている。到来方向および１つ以上の別の到来方向は、２つ以上の到来方向のグループを形成する。２つ以上の到来方向のグループのそれぞれの到来方向は、例えば、２つ以上の直進コンポーネント信号のグループの正確に１つの直進コンポーネント信号に割り当てられる。２つ以上の直進コンポーネント信号の直進コンポーネント信号の数と２つの到来方向の到来方向の数とは、例えば等しい。信号プロセッサは、例えば、２つ以上の直進コンポーネント信号のグループと２つ以上の到来方向のグループとを受信するように構成されている。そして、１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、例えば、２つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の到来方向に依存している直進利得を決定するように構成されている。信号プロセッサは、例えば、２つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の直進利得を前記直進コンポーネント信号に適用することによって、２つ以上の処理された直進信号のグループを生成するように構成されている。そして、信号プロセッサは、例えば、前記音声出力信号を生成するために、１つ以上の処理された拡散信号のうちの１つと、２つ以上の処理された信号のグループのそれぞれの処理された信号と、を結合するように構成されている。

実施の形態において、２つ以上の直進コンポーネント信号のグループの直進コンポーネント信号の数プラス１は、例えば、受信インタフェースによって受信されている音声入力信号の数より小さい。

さらに、上述したシステムを含む補聴器または補助聞き取り装置が、例えば、提供される。

さらに、１つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成されている。信号プロセッサは、２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成されている、信号プロセッサは、方向情報を受信するように構成され、方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成されている。１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成されている。信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成されている。そして、信号プロセッサは、音声出力信号を生成するために、前記処理された直進信号と１つ以上の処理された拡散信号のうちの１つとを結合するように構成されている。出力インタフェースは、１つ以上の音声出力信号を出力するように構成されている。

さらに、１つ以上の音声出力信号を生成するための方法が提供される。方法は、
２つ以上の音声入力信号を受信し、
２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
１つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号の１つとを結合し、そして、
１つ以上の音声出力信号を出力すること、を含む。

さらに、１つ以上の音声出力信号を生成するための方法が提供される。方法は、
２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
１つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号の１つとを結合し、そして、
１つ以上の音声出力信号を出力すること、を含む。

さらに、コンピュータプログラムが提供される。コンピュータプログラムのそれぞれは、コンピュータ上もしくは信号プロセッサ上で実行されると、前述の方法の１つを実行するように構成され、その結果、前述の方法のそれぞれが、コンピュータプログラムの１つによって実行される。

さらに、１つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、２つ以上の音声入力信号を受信するように構成され、分解モジュールは、２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散信号コンポーネント信号および方向情報を受信するように構成され、方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成されている。１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と１つ以上の処理された拡散信号のうちの１つとを結合するように構成されている。出力インタフェースは、１つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、１つ以上の利得関数を計算するための利得関数計算モジュールを含み、１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の１つを受信するとき、前記利得関数は、前記利得関数議論値のうちの１つに割り当てられている利得関数リターン値に戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた利得関数リターン値に依存する１つ以上の音声出力信号のうちの少なくとも１つの音声出力信号の利得値を決定するために、到来方向に依存して、１つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。

実施の形態に従って、利得関数計算モジュールは、例えば、１つ以上の利得関数のそれぞれの利得関数のために、ルックアップ・テーブルを生成するように構成され、ルックアップ・テーブルは複数のエントリーを含み、ルックアップ・テーブルのそれぞれのエントリーは利得関数議論値のうちの１つと、１つの利得関数議論値に割り当てられている利得関数リターン値とを含み、利得関数計算モジュールは、例えば、それぞれの利得関数のルックアップ・テーブルを持続的な又は非持続的なメモリーに記憶するように構成され、信号変更器は、例えば、メモリーに記憶されている１つ以上のルックアップ・テーブルのうちの１つから、前記利得関数リターン値を読み出すことによって、前記方向依存議論値に割り当てられている利得関数リターン値を得るように構成されている。

実施の形態において、信号プロセッサは、例えば、２つ以上の音声出力信号を決定するように構成され、利得関数計算モジュールは、例えば、２つ以上の利得関数を計算するように構成され、２つ以上の音声出力信号のそれぞれの音声出力信号のために、利得関数計算モジュールは、例えば、２つ以上の利得関数のうちの１つとして、前記音声出力信号に割り当てられているパンニング（パノラマ的効果を得るために上下左右に回転すること）利得関数を計算するように構成され、信号変更器は、例えば、前記パンニング利得関数に依存している前記音声出力信号を生成するように構成されている。

実施の形態に従って、２つ以上の音声出力信号のそれぞれのパンニング利得関数は、例えば、前記パンニング利得関数の利得関数議論値のうちの１つである１つ以上のグローバル最大値を持ち、前記パンニング利得関数の１つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値のためより大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、２つ以上の音声出力信号の第１の音声出力信号および第２の音声出力信号のペアのそれぞれについて、第１の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値の少なくとも１つが、例えば、第２の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値の何れとも異なる。

実施の形態に従って、２つ以上の音声出力信号のそれぞれの音声出力信号のために、利得関数計算モジュールは、例えば、２つ以上の利得関数のうちの１つとして、前記音声出力信号に割り当てられている窓利得関数を計算するように構成され、信号変更器は、例えば、前記窓利得関数に依存している前記音声出力信号を生成するように構成され、仮に前記窓利得関数の議論値が、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、窓利得関数は、何れの利得関数リターン値よりも大きい利得関数リターン値を戻すように構成され、仮に窓関数議論値が下部の窓閾値より小さく、あるいは、上部の窓閾値より大きいならば、窓利得関数は、前記窓利得関数によって戻されるように構成されている。

実施の形態において、２つ以上の音声出力信号のそれぞれの窓利得関数は、前記窓利得関数の利得関数議論値のうちの１つである１つ以上のグローバル最大値を持ち、前記窓利得関数の１つ以上のグローバル最大値のそれぞれのために、窓利得関数が前記グローバル最大値より大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、２つ以上の音声出力信号の第１の音声出力信号および第２の音声出力信号のペアのそれぞれについて、第１の音声出力信号の窓利得関数の１つ以上のグローバル最大値の少なくとも１つが、例えば、第２の音声出力信号の窓利得関数の１つ以上のグローバル最大値の１つと等しい。

実施の形態に従って、利得関数計算モジュールは、例えば、到来方向についての視方向の角度シフトを示している配向情報を更に受信するように構成され、利得関数計算モジュールは、例えば、配向情報に依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。

実施の形態において、利得関数計算モジュールは、例えば、配向情報に依存している音声出力信号のそれぞれの窓利得関数を生成するように構成されている。

実施の形態に従って、利得関数計算モジュールは、例えば、ズーム情報を更に受信するように構成され、ズーム情報はカメラの開口角度を示し、利得関数計算モジュールは、例えば、ズーム情報に依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。

実施の形態において、利得関数計算モジュールは、例えば、ズーム情報に依存している音声出力信号のそれぞれの窓利得関数を生成するように構成されている。

実施の形態に従って、利得関数計算モジュールは、例えば、映像イメージと音響イメージとを位置合わせするための測定パラメータを更に受信するように構成され、利得関数計算モジュールは、例えば、測定パラメータに依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。

実施の形態において、利得関数計算モジュールは、例えば、測定パラメータに依存している音声出力信号のそれぞれの窓利得関数を生成するように構成されている。

前述の実施の形態の１つに従って、利得関数計算モジュールは、例えば、映像イメージについての情報を受信するように構成され、利得関数計算モジュールは、例えば、映像イメージについての情報に依存して、音源の知覚的拡がりを実現するために、複合利得を戻すぼけ関数を生成するように構成されている。

さらに、１つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、信号プロセッサは、２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、信号プロセッサは、方向情報を受信するように構成され、前記方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成されている。１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号のうちの１つとを結合するように構成されている。出力インタフェースは、１つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、１つ以上の利得関数を計算するための利得関数計算モジュールを含み、１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の１つを受信するとき、前記利得関数が、前記利得関数議論値のうちの１つに割り当てられた利得関数リターン値を戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存している１つ以上の音声出力信号のうちの少なくとも１つの音声出力信号の利得値を決定するために、到来方向に依存して、１つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。

さらに、１つ以上の音声出力信号を生成するための方法が提供される。方法は、
２つ以上の音声入力信号を受信し、
２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
１つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号の１つとを結合し、そして、
１つ以上の音声出力信号を出力すること、を含む。

１つ以上の音声出力信号を生成することは、１つ以上の利得関数を計算することを含み、１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの１つを受信するとき、前記利得関数が、前記利得関数議論値のうちの１つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、１つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する１つ以上の音声出力信号のうちの少なくとも１つの音声出力信号の利得値を決定するために、到来方向に依存して、１つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。

さらに、１つ以上の音声出力信号を生成するための方法が提供される。方法は、
２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、方向情報は２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
１つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号の１つとを結合し、そして、
１つ以上の音声出力信号を出力すること、を含む。

以下において、本発明の実施の形態が図面を参照して詳細に説明される。

図１ａは、実施の形態に従うシステムを説明する。図１ｂは、実施の形態に従う装置を説明する。図１ｃは、別の実施の形態に従うシステムを説明する。図１ｄは、別の実施の形態に従う装置を説明する。図２は、別の実施の形態に従うシステムを示す。図３は、実施の形態に従う直進／拡散分解およびシステムの推定のパラメータのためのモジュールを記載する。図４は、実施の形態に従う音響ズームと共に音響場面再生のための第１の幾何学図面を示し、音源は焦点面上に置かれている。図５ａは、ＶＢＡＰパンニング関数を示すグラフである。図５ｂは、矛盾のない再生のためのパンニング関数を示すグラフである。図６ａは、実施の形態に従うＶＢＡＰパンニング関数を示すグラフである。図６ｂは、実施の形態に従う音響ズーム後のパンニング関数を示すグラフである。図６ｃは、実施の形態に従うシフトを伴う音響ズーム後のパンニング関数を示すグラフである。図７ａは、実施の形態に従う窓利得関数を示すグラフである。図７ｂは、実施の形態に従う音響ズーム後の窓利得関数を示すグラフである。図７ｃは、実施の形態に従うシフトを伴う音響ズーム後の窓利得関数を示すグラフである。図８は、実施の形態に従う拡散利得関数を示すグラフである。図９は、実施の形態に従う音響ズームと共に音響場面再生のための第２の幾何学図面を示し、音源は焦点面上に置かれていない。図１０ａは、直進音ぼやけを説明するためのフィールドの深さの関数を示すグラフである図１０ｂは、直進音ぼやけを説明するためのローパス遮断周波数関数を示すグラフである図１０ｃは、直進音ぼやけを説明するための繰り返し直進音の遅延時間関数を示すグラフである。図１１は、実施の形態に従う補聴器を視覚化する。

図１ａは、１つ以上の音声出力信号を生成するためのシステムを説明する。システムは、分解モジュール１０１と信号プロセッサ１０５と出力インタフェース１０６とを含む。

分解モジュール１０１は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の直進信号コンポーネントを含む直進コンポーネント信号Ｘ_dir（ｋ，ｎ）を生成するように構成されている。さらに、分解モジュール１０１は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の拡散信号コンポーネントを含む拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）を生成するように構成されている。

信号プロセッサ１０５は、直進コンポーネント信号Ｘ_dir（ｋ，ｎ）と拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）と方向情報とを受信するように構成され、前記方向情報は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向に依存している。

さらに、信号プロセッサ１０５は、拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）に依存している１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）を生成するように構成されている。

１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）のそれぞれの音声出力信号Ｙ_i（ｋ，ｎ）のために、信号プロセッサ１０５は、到来方向に依存して直進利得Ｇ_i（ｋ，ｎ）を決定するように構成されている。信号プロセッサ１０５は、処理された直進信号Ｙ_dir,i（ｋ，ｎ）を得るために、前記直進利得Ｇ_i（ｋ，ｎ）を直進コンポーネント信号Ｘ_dir（ｋ，ｎ）に適用するように構成されている。そして、信号プロセッサ１０５は、音声出力信号Ｙ_i（ｋ，ｎ）を生成するために、前記処理された直進信号Ｙ_dir,i（ｋ，ｎ）と１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）の１つＹ_diff,i（ｋ，ｎ）とを結合するように構成されている。

出力インタフェース１０６は、１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）を出力するように構成されている。

概説したように、方向情報は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向φ（ｋ，ｎ）に依存する。例えば、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向は、例えば方向情報自身である。または、例えば方向情報は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の直進信号コンポーネントの伝播方向である。到来方向が、受信マイクロフォン配列から音源までを示しながら、伝播方向は、音源から受信マイクロフォン配列までを示す。従って、伝播方向は、到来方向の逆方向を正確に示し、それ故、到達の方向に依存する。

１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）の１つＹ_i（ｋ，ｎ）を生成するために、信号プロセッサ１０５は、
到来方向に依存して、直進利得Ｇ_i（ｋ，ｎ）を決定し、
処理された直進信号Ｙ_dir,i（ｋ，ｎ）を得るために、前記直進利得Ｇ_i（ｋ，ｎ）を直進コンポーネント信号Ｘ_dir（ｋ，ｎ）に適用し、
前記音声出力信号Ｙ_i（ｋ，ｎ）を生成するために、前記処理された直進信号Ｙ_dir,i（ｋ，ｎ）と１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）の１つＹ_diff,i（ｋ，ｎ）とを結合する。

これは、Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）を生成するべき１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）のそれぞれに対して実行される。信号プロセッサは、例えば、１つ、２つ、３つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）を生成するように構成される。

１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）に関して、実施の形態に従って、信号プロセッサ１０５は、例えば、拡散利得Ｑ（ｋ，ｎ）を拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）に適用することによって、１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）を生成するように構成されている。

分解モジュール１０１は、例えば、１つ以上の音声入力信号を、直進コンポーネント信号と拡散コンポーネント信号とに分解することによって、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の直進信号コンポーネントを含む直進コンポーネント信号Ｘ_dir（ｋ，ｎ）と、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の拡散信号コンポーネントを含む拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）とを生成するように構成されている。

特定の実施の形態において、信号プロセッサ１０５は、例えば、２つ以上の音声出力チャンネルＹ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）を生成するように構成されている。信号プロセッサ１０５は、例えば、中間的な拡散信号を得るために、拡散利得Ｑ（ｋ，ｎ）を拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）に適用するように構成されている。さらに、信号プロセッサ１０５は、例えば、非相関性を実施して、中間的な拡散信号から１つ以上の非相関性信号を生成するように構成されている。１つ以上の非相関性信号は、１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）を形成する。または、中間的な拡散信号および１つ以上の非相関性信号は、１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）を形成する。

例えば、処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）の数と、音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）と、は等しい。

中間的な拡散信号から１つ以上の非相関性信号を生成することは、例えば、遅延を中間的な拡散信号に適用することによって、あるいは、ノイズ爆発によって中間的な拡散信号を巻き込むことによって、あるいは、インパルス反応などによって中間的な拡散信号を巻き込むことによって実行される。最先端非相関性技術のどのような別の主張も、例えば、代わりに又は付加的に適用される。

ｖ個の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）に対して、ｖ個の直進利得Ｇ₁（ｋ，ｎ）、Ｇ₂（ｋ，ｎ）、…、Ｇ_v（ｋ，ｎ）のｖ個の決定と、１つ以上の直進コンポーネント信号Ｘ_dir（ｋ，ｎ）に各利得のｖ個の応用が、例えば、ｖ個の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）を得るために用いられる。

ただ１つの拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）と、ただ１つの信号拡散利得Ｑ（ｋ，ｎ）のただ１つの決定と、拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）への拡散利得Ｑ（ｋ，ｎ）のただ１つの応用とが、例えば、ｖ個の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）を得るために必要である。非相関性を達成するために、非相関性技術が、拡散コンポーネント信号に既に適用された後の拡散利得にのみ適用される。

図１ａの実施の形態に従って、同じ処理された拡散信号Ｙ_diff（ｋ，ｎ）は、音声出力信号のうちの対応する一つ（Ｙ_i（ｋ，ｎ））を得るために、処理された直進信号のうちの対応する一つ（Ｙ_dir,i（ｋ，ｎ））と結合される。

図１ａの実施の形態は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向を考慮する。従って、音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）は、直進コンポーネント信号Ｘ_dir（ｋ，ｎ）と到来方向に依存している拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）とを柔軟に適合することによって生成される。高度な適応化可能性が達成される。

実施の形態に従って、音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）は、例えば、時間−周波数領域のそれぞれの時間−周波数ビン（ｋ，ｎ）のために決定される。

実施の形態に従って、分解モジュール１０１は、例えば、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）を受信するように構成されている。別の実施の形態において、分解モジュール１０１は、例えば、３つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）を受信するように構成されている。分解モジュール１０１は、例えば、２つ以上（または、３つ以上）の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）を、マルチチャネル信号でない拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）と、１つ以上の直進コンポーネント信号Ｘ_dir（ｋ，ｎ）とに分解するように構成されている。音声信号がマルチチャネル信号でないことは、音声信号が１つより多い音声チャンネルを含まないことを意味する。従って、複数の音声入力信号の音声情報は、２つのコンポーネント信号（Ｘ_dir（ｋ，ｎ），Ｘ_diff（ｋ，ｎ））の中で（そして、可能ならば、追加の副情報の中で）送信される。それは効率的な送信を許す。

信号プロセッサ１０５は、例えば、前記音声出力信号Ｙ_i（ｋ，ｎ）のための直進利得Ｇ_i（ｋ，ｎ）を決定することによって、そして、前記音声出力信号Ｙ_i（ｋ，ｎ）のための処理された直進信号Ｙ_dir,i（ｋ，ｎ）を得るために、前記直進利得Ｇ_i（ｋ，ｎ）を１つ以上の直進コンポーネント信号Ｘ_dir（ｋ，ｎ）に適用することによって、そして、前記音声出力信号Ｙ_i（ｋ，ｎ）を生成するために、前記前記音声出力信号Ｙ_i（ｋ，ｎ）のための処理された直進信号Ｙ_dir,i（ｋ，ｎ）と、処理された拡散信号Ｙ_diff（ｋ，ｎ）と、を結合することによって、２つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）のそれぞれの音声出力信号Ｙ_i（ｋ，ｎ）を生成するように構成されている。出力インタフェース１０６は、２つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）を出力するように構成されている。ただ１つの処理された拡散信号Ｙ_diff（ｋ，ｎ）を決定することによって、２つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）を生成することは、特に有利である。

図１ｂは、１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）を生成するための装置を、実施の形態に従って説明する。装置は、図１ａのシステムのいわゆる「遠端」側を実施する。

図１ｂの装置は、信号プロセッサ１０５と出力インタフェース１０６とを含む。

信号プロセッサ１０５は、２つ以上のオリジナルの音声信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）（例えば、図１ａの音声入力信号）の直進信号コンポーネントを含む直進コンポーネント信号Ｘ_dir（ｋ，ｎ）を受信するように構成されている。さらに、信号プロセッサ１０５は、２つ以上のオリジナルの音声信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の拡散信号コンポーネントを含む拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）を受信するように構成されている。さらに、信号プロセッサ１０５は、方向情報を受信するように構成されている。前記方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。

信号プロセッサ１０５は、拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）に依存している１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）を生成するように構成されている。

１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）のそれぞれの音声出力信号Ｙ_i（ｋ，ｎ）のために、信号プロセッサ１０５は、到来方向に依存して、直進利得Ｇ_i（ｋ，ｎ）を決定するように構成されている。信号プロセッサ１０５は、処理された直進信号Ｙ_dir,i（ｋ，ｎ）を得るために、前記直進利得Ｇ_i（ｋ，ｎ）を直進コンポーネント信号Ｘ_dir（ｋ，ｎ）に適用するように構成されている。そして、信号プロセッサ１０５は、前記音声出力信号Ｙ_i（ｋ，ｎ）を生成するために、前記処理された直進信号Ｙ_dir,i（ｋ，ｎ）と１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）の１つＸ_diff,i（ｋ，ｎ）とを結合するように構成されている。

以下のシステムに関連して説明された信号プロセッサ１０５の全ての構成は、また、図１ｂに従っている装置の中で実施される。これは、特に、以下に説明される信号変更器１０３および利得関数計算モジュール１０４の様々な構成と関連する。同ことが、以下に説明された概念の様々な応用例のために適用される。

図１ｃは別の実施の形態に従っているシステムを示す。図１ｃにおいて、図１ａの信号生成器１０５は、１つ以上の利得関数を計算するための利得関数計算モジュール１０４を更に含む。１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含む。利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられる。前記利得関数が前記利得関数議論値の１つを受信するとき、前記利得関数は、前記利得関数議論値の前記１つに割り当てられている利得関数リターン値を戻すように構成されている。

さらに、信号プロセッサ１０５は、到来方向に依存して、直進依存議論値を、１つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している１つ以上の音声出力のうちの少なくとも１つの利得値を決定するための信号変更器１０３を更に含む。

図１ｄは別の実施の形態に従っているシステムを説明する。図１ｄにおいて、図１ｂの信号生成器１０５は、１つ以上の利得関数を計算するための利得関数計算モジュール１０４を更に含む。１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含む。利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられる。前記利得関数が、前記利得関数議論値の１つを受信するとき、前記利得関数は、前記利得関数議論値の前記１つに割り当てられている利得関数リターン値を戻すように構成されている。

実施の形態は、音響イメージが、例えば遠端側で音声を誉めている映像によって決定される望ましい空間イメージに矛盾しないように、空間音を録音して再生することを提供する。いくつかの実施の形態が、騒々しい近端側に置かれたマイクロフォン配列による録音に基づいている。実施の形態は、例えば、カメラの映像ズームに矛盾しない音響ズームを提供する。例えば、ズーミングしているとき、スピーカーの直進音は、映像イメージおよび音響イメージが位置合わせされるように、スピーカーが、ズームされた映像イメージの中に置かれた方向から再生される。仮に、スピーカーが、ズーミングした後に、映像イメージの外に（または、望ましい空間領域の外に）置かれているならば、これらのスピーカーの直進音は、これらのスピーカーがもう見えないように、または、例えば、これらのスピーカーからの直進音が望まれないように弱められる。さらに、直進対反射比率は、例えば、映像カメラのより小さい開口角度を擬態するためにズーミングするとき、増大する。

実施の形態は、近端側の２つの最近のマルチチャネルフィルタを適用することによって、録音されたマイクロフォン信号を、音源の直進音と拡散音（例えば鳴り響く音）とに分離する概念に基づく。これらのマルチチャネルフィルタは、例えば、直進音のＤＯＡのような音フィールドのパラメータ情報に基づく。いくつかの実施の形態において、直進音と拡散音の分離は、例えば、パラメータ情報と共に遠端側に送信される。

例えば、遠端側で、特定の重み付けが、例えば、結果として生じている音声出力信号が、望ましい空間イメージに矛盾しないように、再生された音響イメージを適合する取り出された直進音と拡散音とに適用される。これらの重み付けは、例えば音響ズーム効果および依存を、例えば直進音の到来方向（ＤＯＡ）上に、および、例えばズーミングファクターおよび／またはカメラの視方向上にモデルを作る。最終的な音声出力信号は、例えば、それ故、重み付けされた直進音と拡散音とを合計することによって得られる。

提供された概念は、消費者装置で前記ビデオ録音シナリオまたはテレビ会議シナリオにおいて、有効な使用を実現する。例えば、ビデオ録音シナリオにおいて、それは、例えば、再創成された空間イメージをまだコントロールすることができる間、取り出された直進音および拡散音（あるいは、すべてのマイクロフォン信号）を蓄えるまたは送信することについて十分である。

これは、仮に例えば、映像ズームがポスト処理ステップ（デジタルズーム）に応用されるならば、音響イメージが、オリジナルのマイクロフォン信号を蓄えてアクセスする必要なく、従ってまだ修正できることを意味している。テレビ会議シナリオにおいても、提案された概念は有効に使われる。なぜなら、遠端側で空間音再生をコントロールして（例えばスピーカーセットアップを変更して）、音響イメージおよび映像イメージを位置合わせすることがまだできる間、直進音および拡散音の取り出しは、近端側で実行されるからである。従って、副情報として、少しの音声信号および推定ＤＯＡのみを送信することが必要であるけれども、遠端側のコンピュータ処理の複雑さは低い。

図２は実施の形態に従っているシステムを説明する。近端側はモジュール１０１と１０２とを含む。遠端側はモジュール１０５と１０６とを含む。モジュール１０５自身は、モジュール１０３と１０４とを含む。参照が近端側と遠端側にされるとき、いくつかの実施の形態において、第１の装置が近端側（例えば、モジュール１０１と１０２とを含む）を実行し、第２の装置が遠端側（例えば、モジュール１０３と１０４とを含む）を実行することが理解される。一方、別の実施の形態において、１つの装置が、遠端側だけでなく近端側を実行する。そのような１つの装置は、例えば、モジュール１０１と１０２と１０３と１０４とを含む。

特に、図２は、分解モジュール１０１と、パラメータ推定モジュール１０２と、信号プロセッサ１０５と、出力インタフェース１０６とを含む実施の形態に従っているシステムを説明する。図２において、信号プロセッサ１０５は、利得関数計算モジュール１０４と信号変更器１０３とを含む。信号プロセッサ１０５と出力インタフェース１０６とは、例えば、図１ｂによって説明される装置を実現する。

図２において、とりわけ、パラメータ推定モジュール１０２は、例えば、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）を受信するように構成されている。さらに、パラメータ推定モジュール１０２は、例えば、２つ以上の音声入力信号に依存している２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向を推定するように構成されている。信号プロセッサ１０５は、例えば、パラメータ推定モジュール１０２から２つ以上の音声入力信号の直進信号コンポーネントの到来方向を含む到来方向情報を受信するように構成されている。

図２のシステムの入力は、時間−周波数領域（周波数はｋを示し、時間はｎを示す）のＭ個のマイクロフォン信号Ｘ_1...M（ｋ，ｎ）から成る。マイクロフォンにより捕らえられる音フィールドが、それぞれの（ｋ，ｎ）のために、等方性拡散フィールドを伝播している平面波から成ることが、例えば、推定される。平面波が音源（例えばスピーカー）の直進音をモデル作成する一方、拡散音が反射をモデル作成する。

そのようなモデルに従って、ｍ番目のマイクロフォン信号は式（１）として書かれる。

Ｘ_m（ｋ，ｎ）＝Ｘ_dir,m（ｋ，ｎ）＋Ｘ_diff,m（ｋ，ｎ）＋Ｘ_n,m（ｋ，ｎ）（１）

ここで、Ｘ_dir,m（ｋ，ｎ）は、測定された直進音（平面波）であり、Ｘ_diff,m（ｋ，ｎ）は、測定された拡散音であり、Ｘ_n,m（ｋ，ｎ）は、雑音コンポーネント（例えば、マイクロフォン自身の雑音）である。

図２の分解（直進／拡散分解）モジュール１０１において、直進音Ｘ_dir（ｋ，ｎ）および拡散音Ｘ_diff（ｋ，ｎ）は、マイクロフォン信号から取り出される。例えば、この目的のために、以下に説明されるインフォームドマルチチャネルフィルタが用いられる。直進／拡散分解のために、音フィールドについての特定のパラメータ情報は、例えば、直進音φ（ｋ，ｎ）のＤＯＡを採用する。このパラメータ情報は、例えば、パラメータ推定モジュール１０２の中のマイクロフォン信号から推定される。直進音のＤＯＡφ（ｋ，ｎ）以外、いくつかの実施の形態において、距離情報ｒ（ｋ，ｎ）が、例えば推定される。この距離情報は、例えば、マイクロフォン配列と平面波を放出している音源との間の距離を示す。パラメータ推定のために、距離推定器および／または最先端のＤＯＡ推定器が、例えば、用いられる。対応する推定器が、例えば、以下で示される。

取り出された直進音Ｘ_dir（ｋ，ｎ）と取り出された拡散音Ｘ_diff（ｋ，ｎ）と推定された直進音のパラメータ情報（例えば、ＤＯＡφ（ｋ，ｎ）および／または距離ｒ（ｋ，ｎ））は、例えば、望ましい空間イメージと共に空間音を生成するために、例えば、音響ズーム効果を創生するために、記憶されて遠端側に送信され、または、直ぐに使用される。

望ましい音響イメージ、例えば、音響ズーム効果は、取り出された直進音Ｘ_dir（ｋ，ｎ）と、取り出された拡散音Ｘ_diff（ｋ，ｎ）と、推定されたパラメータ情報φ（ｋ，ｎ）、および／または、ｒ（ｋ，ｎ）と、を使って信号変更器１０３の中で生成される。

信号変更器１０３は、例えば、それが、望ましい空間イメージと矛盾しないように、音響イメージを再創成する時間−周波数領域の中の１つ以上の出力信号Ｙ_i（ｋ，ｎ）を計算する。例えば、出力信号Ｙ_i（ｋ，ｎ）は、音響ズーム効果を擬態する。これらの信号は、最終的に、時間領域に戻して変換され、例えばスピーカーまたはヘッドホーンで再生される。ｉ番目の出力信号Ｙ_i（ｋ，ｎ）は、取りだされた直進音Ｘ_dir（ｋ，ｎ）および拡散音Ｘ_diff（ｋ，ｎ）の重み付けされた合計として、例えば、式（２ａ）と式（２ｂ）とで計算される。

式（２ａ）および式（２ｂ）において、重み付けＧ_i（ｋ，ｎ）およびＱは、望ましい音響イメージ、例えば音響ズーム効果を創生するために用いられるパラメータである。例えば、ズーミングのとき、パラメータＱは、再生された拡散音が弱められるように、減らされる。

さらに、重み付けＧ_i（ｋ，ｎ）と共に、それは、直進音が、映像および音響イメージが位置合わせされるように再生される方向からコントロールされる。さらに、音響ぼやけ効果は、直進音に位置合わせされる。

いくつかの実施の形態において、重み付けＧ_i（ｋ，ｎ）およびＱは、例えば、利得選択ユニット２０１および２０２の中で決定される。これらのユニットは、例えば、推定されたパラメータ情報φ（ｋ，ｎ）およびｒ（ｋ，ｎ）に依存している、ｇ_iとｑとによって示された２つの利得関数から、適切な重み付けＧ_i（ｋ，ｎ）およびＱを選択する。数学的に式（３ａ）と式（３ｂ）とによって表現する。

Ｇ_i（ｋ，ｎ）＝ｇ_i（φ，ｒ）（３ａ）

Ｑ（ｋ，ｎ）＝ｑ（ｒ）（３ｂ）

いくつかの実施の形態において、利得関数ｇ_iおよびｑは、応用に依存し、例えば、利得関数計算モジュール１０４の中で生成される。利得関数は、重み付けＧ_i（ｋ，ｎ）およびＱが、望ましい矛盾のない空間イメージが得られるように、与えられたパラメータ情報φ（ｋ，ｎ）および／またはｒ（ｋ，ｎ）のための式（２ａ）において使われるべきことを示す。

例えば、映像カメラでズーミングするとき、利得関数は適合され、その結果、音は、音源がビデオの中で見える方向から再生される。重み付けＧ_i（ｋ，ｎ）とＱ、および、潜在的な利得関数ｇ_iとｑは、更に以下に説明される。重み付けＧ_i（ｋ，ｎ）とＱ、および、潜在的な利得関数ｇ_iとｑは、例えば、複雑な値であることに注目するべきである。利得関数を計算することは、ズーミングファクターや映像イメージの幅や望ましい視方向やスピーカーセットアップなどの情報を必要とする。

別の実施の形態において、重み付けＧ_i（ｋ，ｎ）およびＱは、モジュール１０４において最初に利得関数を計算して、それから、利得選択ユニット２０１および２０２の中で計算された利得関数から重み付けＧ_i（ｋ，ｎ）およびＱを選択する代わりに、信号変更器１０３内で直接に計算される。

実施の形態に従って、１つの時間−周波数当たり１つ以上の平面波が、例えば、特に処理される。例えば、２つの異なる方向から同じ周波数帯の２つ以上の平面波が、例えば、マイクロフォン配列によって同じ時間ポイントに録音されるように到達する。これらの２つの平面波は、それぞれ、異なる到来方向を持つ。そのようなシナリオにおいて、２つ以上の平面波の直進信号コンポーネントおよびそれらの到来方向が、例えば、別々に考慮される。

実施の形態に従って、直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）と１つ以上の別の直進コンポーネント信号Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）は、例えば、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）…、Ｘ_{dir q}（ｋ）のグループを形成する。分解モジュール１０１は、例えば、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の別の直進信号コンポーネントを含む１つ以上の別の直進コンポーネント信号Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）を生成するように構成されている。

到来方向と１つ以上の別の到来方向は、２つ以上の到来方向のグループを形成する。２つ以上の到来方向のグループのそれぞれの到来方向は、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q,m}（ｋ，ｎ）のグループの１つの直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）に正確に割り当てられる。２つ以上の直進コンポーネント信号の直進コンポーネント信号の数と、２つの到来方向の到来方向の数とは等しい。

信号プロセッサ１０５は、例えば、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）のグループと、２つ以上の到来方向のグループとを受信するように構成されている。

１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）のそれぞれの音声出力信号Ｙ_i（ｋ，ｎ）のために、
信号プロセッサ１０５は、例えば、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）のグループのそれぞれの直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）のために、前記直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）の到来方向に依存している直進利得Ｇ_j,i（ｋ，ｎ）を決定するように構成され、
信号プロセッサ１０５は、例えば、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）のグループのそれぞれの直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）のために、前記直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）の直進利得Ｇ_j,i（ｋ，ｎ）を前記直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）に適用することによって、２つ以上の処理された直進信号Ｙ_dir1,i（ｋ，ｎ）、Ｙ_dir2,i（ｋ，ｎ）、…、Ｙ_{dir q,i}（ｋ，ｎ）のグループを生成するように構成され、そして、
信号プロセッサ１０５は、例えば、前記音声出力信号Ｙ_i（ｋ，ｎ）を生成するために、１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）の１つＹ_diff,i（ｋ，ｎ）と、２つ以上の処理された信号Ｙ_dir1,i（ｋ，ｎ）、Ｙ_dir2,i（ｋ，ｎ）、…、Ｙ_{dir q,i}（ｋ，ｎ）のグループのそれぞれの処理された信号Ｙ_{dir j,i}（ｋ，ｎ）とを結合するように構成されている。

従って、仮に、２つ以上の平面波が別々に考慮されるならば、式（１）のモデルは次のようになる。

Ｘ_m（ｋ，ｎ）＝Ｘ_dir1,m（ｋ，ｎ）＋Ｘ_dir2,m（ｋ，ｎ）＋…＋Ｘ_{dir q,m}（ｋ，ｎ）＋Ｘ_diff,m（ｋ，ｎ）＋Ｘ_n,m（ｋ，ｎ）

そして、重み付けは、例えば、式（２ａ）および式（２ｂ）に相似して、次のように計算される。

Ｙ_i（ｋ，ｎ）＝Ｇ_1,i（ｋ，ｎ）Ｘ_dir1（ｋ，ｎ）＋Ｇ_2,i（ｋ，ｎ）Ｘ_dir2（ｋ，ｎ）＋…＋Ｇ_q,i（ｋ，ｎ）Ｘ_{dir q}（ｋ，ｎ）＋ＱＸ_diff,m（ｋ，ｎ）

＝Ｙ_dir1,i（ｋ，ｎ）＋Ｙ_dir2,i（ｋ，ｎ）＋…＋Ｙ_{dir q,i}（ｋ，ｎ）＋Ｙ_diff,i（ｋ，ｎ）

ほんのわずかの直進コンポーネント信号と拡散コンポーネント信号と副情報が、近端側から遠端側に送信されるだけで十分である。実施の形態において、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）プラス１のグループの直進コンポーネント信号の数は、受信インタフェース１０１によって受信されている音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の数より小さい。（インデックス：ｑ＋１＜ｐを使って）「プラス１」は、必要な拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）を表す。

以下において、説明は、１つの平面波と、１つの到来方向と、１つの直進コンポーネント信号とについて提供される。説明された概念は、１つ以上の平面波、１つ以上の到来方向と、１つ以上の直進コンポーネント信号とについて、等しく適用可能であることが理解される。

以下において、直進音および拡散音取り出しが説明される。直進／拡散分解を実現する図２の分解モジュール１０１の実用的な実現が、提供される。

実施の形態において、矛盾のない空間音再生を実現するために、［８］および［９］に記載された２つの最近提案されたインフォームド線形的強制最小変化（ＬＣＭＶ）フィルタの出力が結合される。それは、ＤｉｒＡＣ（方向性音声コード化）の中の同様な音フィールドモデルを推定する望ましい任意の反応と共に、直進音および拡散音の正確なマルチチャネルの取り出しを可能にする。これらのフィルタを結合するための具体的な方法は、以下において説明される。

先ず、実施の形態に従って直進音の取り出しが説明される。

直進音は、［８］に記載された最近提案されたインフォームド空間フィルタを使って取り出される。このフィルタは、以下において簡単に報告され、それから、図２に従って実施の形態において使われるように公式化される。

ここで、ａ（ｋ，φ）は、いわゆる配列伝播ベクトルである。このベクトルのｍ番目の要素は、配列のｍ番目のマイクロフォンと参照マイクロフォンとの間の直進音の相対的移転関数である（一般性の損失なく、ポジションｄ１の最初のマイクロフォンが、以下の説明において使われる）。このベクトルは、直進音のＤＯＡφ（ｋ，ｎ）に依存する。

配列伝播ベクトルは、例えば、［８］において定義される。［８］の式（６）において、配列伝播ベクトルは以下の式に従って定義される。

ａ（ｋ，φ_l）＝［ａ₁（ｋ，φ_l）・・・ａ_M（ｋ，φ_l）］^T

ここで、φ_lは、ｌ番目の平面波の到来方向の方位角度である。従って、配列伝播ベクトルは到来方向に依存する。仮に、１つの平面波ｍのみが存在するか、または考慮されるならば、インデックスｌは省略される。

［８］の式（６）に従って、１番目からｉ番目へのマイクロフォンにｌ番目の平面波の移相シフトを説明する配列伝播ベクトルａのｉ番目の要素ａ_iは、以下の式に従って定義される。

ａ_i（ｋ，φ_l）＝ｅｘｐ｛ｊｋｒ_iｓｉｎφ_l（ｋ，ｎ）｝

例えば、ｒ_iは、１番目とｉ番目のマイクロフォンとの間の距離に等しく、κは平面波の波数を示し、ｊは虚数である。

配列伝播ベクトルａとその要素ａ_iについてのより多くの情報は、明示的に含まれている［８］の中に見付けられる。

式（５）のＭ×Ｍ行列Φ_u（ｋ，ｎ）は、［８］で説明されたように決定されるノイズおよび拡散音のパワースペクトル密度（ＰＳＤ）行列である。式（５）に対する解決策は、以下の式（７）と式（８）によって与えられる。

フィルタを計算するのには、配列伝播ベクトルａ（ｋ，φ）が必要である。それは、直進音のＤＯＡφ（ｋ，ｎ）が［８］で推定された後に決定できる。上述のように、配列伝播ベクトルとそのようなフィルタとは、ＤＯＡに依存する。ＤＯＡは以下で説明されるように推定される。

［８］において提案されたインフォームド空間フィルタ、例えば、式（４）と（７）とを使って直進音を取り出すことは、図２の実施の形態において直接使えない。事実、計算は、直進音利得Ｇ_i（ｋ，ｎ）と同様にマイクロフォン信号ｘ（ｋ，ｎ）を必要とする。図２において見られように、マイクロフォン信号ｘ（ｋ，ｎ）は近端側でのみ入手可能であり、一方、直進音利得Ｇ_i（ｋ，ｎ）は遠端側でのみ入手可能である。

本発明の実施の形態においてインフォームド空間フィルタを使うために、修正が提供される。我々は式（７）を式（４）に代入して、以下の式（９）を導く。

従って、実施の形態に従って、分解モジュール１０１は、例えば、フィルタを、以下の式に従う２つ以上の音声入力信号に適用することによって、直進コンポーネント信号を生成するように構成されている。

ここで、Φ_u（ｋ，ｎ）は、２つ以上の音声入力信号の雑音および拡散音のパワースペクトル密度行列を示す。ａ（ｋ，φ）は配列伝播ベクトルを示す。そして、φは、２つ以上の音声入力信号の直進信号コンポーネントの到来方向の方位角度を示す。

図３は、実施の形態に従って、直進／拡散分解を実施しているパラメータ推定モジュール１０２と分解モジュール１０１とを示す。

図３によって示された実施の形態は、直進音取り出しモジュール２０３による直進音取り出しと、拡散音取り出しモジュール２０４による拡散音取り出しを実現する。

直進音の取り出しは、直進音取り出しモジュール２０３の中で、式（１０）において与えられるように、フィルタの重み付けをマイクロフォン信号に適用することによって実行される。直進フィルタの重み付けは、例えば式（８）によって実現できる直進重み付け計算ユニット３０１の中で計算される。例えば式（９）の利得Ｇ_i（ｋ，ｎ）は、その時、図２に示されるように遠端側で適用される。

以下において、拡散音の取り出しが説明される。拡散音取り出しは、例えば、図３の拡散音取り出しモジュール２０４によって実施される。拡散フィルタの重み付けは、例えば、以下において説明されるように、図３の拡散重み付け計算ユニット３０２の中で計算される。

実施の形態において、拡散音は、例えば、［９］において最近提案された空間フィルタを使って取り出される。式（２ａ）および図２の中の拡散音Ｘ_diff（ｋ，ｎ）は、例えば、第２空間フィルタをマイクロフォン信号に適用することによって推定される。例えば、

拡散音ｈ_diff（ｋ，ｎ）のために最適なフィルタを見つけるために、我々は、［９］において最近提案されたフィルタを考慮する。そのフィルタは、フィルタ出力でのノイズを最小化しながら、望ましい任意の反応によって、拡散音を取り出すことができる。空間白色ノイズのために、フィルタは、式（１２）によって与えられる。

図３は、実施の形態に従って、拡散音取り出しを更に示す。拡散音取り出しは、式（１１）において与えられるよう、フィルタの重み付けをマイクロフォン信号に適用することによって、拡散音取り出しモジュール２０４の中で実行される。フィルタの重み付けは、例えば式（１３）を採用することによって実現される拡散重み付け計算ユニット３０２の中で計算される。

以下において、パラメータ推定が示される。パラメータ推定は、例えば、パラメータ推定モジュール１０２によって指揮される。その中で、録音された音場面についてパラメータ情報が、例えば、推定される。このパラメータの情報は、分解モジュール１０１の中の２つの空間フィルタを計算するために、そして、信号変更器１０３の中の矛盾しない空間音声再生における利得選択のために採用される。

先ず、ＤＯＡ情報の決定／推定が示される。

以下において、実施の形態が示される。パラメータ推定モジュール（１０２）は、直進音のための、例えば、音源位置から発生し、マイクロフォン配列に到達する平面波のためのＤＯＡ推定器を含む。一般性の損失無しで、１つの平面波が、時間および周波数毎に存在することが仮定される。別の実施の形態は、複数の平面波が存在する場合を考慮し、ここで示された１つの平面波概念を複数の平面波に拡張することは容易である。従って、本発明は複数の平面波を持つ実施の形態もカバーする。

狭周波数帯域ＤＯＡは、ＥＳＰＲＩＴ［１０］やルートＭＵＳＩＣ［１１］などの最先端の狭周波数帯域ＤＯＡ推定器の１つを使って、マイクロフォン信号から推定される。方位角度φ（ｋ，ｎ）の代わりに、ＤＯＡ情報も、マイクロフォン配列に到達する１つ以上の波のために、空間周波数μ［ｋ｜φ（ｋ，ｎ）］または移相シフトまたは伝播ベクトルａ［ｋ｜φ（ｋ，ｎ）］の形式で提供される。ＤＯＡ情報が、また、外的に提供されることは注目するべきである。例えば、平面波のＤＯＡは、人の話し手が音響場面を形成すると仮定している顔面認識アルゴリズムと共にビデオカメラによって決定される。

最後に、ＤＯＡ情報は、また、３Ｄにおいて（３次元において）推定されることに注目するべきである。その場合、方位角度φ（ｋ，ｎ）および昇降角度θ（ｋ，ｎ）は、パラメータ推定モジュール１０２の中で推定され、平面波のＤＯＡは、そのような場合において、例えば、（φ，θ）として提供される。

従って、参照が、以下でＤＯＡの方位角度にされるとき、全ての説明が、ＤＯＡの昇降角度に、または、ＤＯＡの方位角度から引き出された角度に、または、ＤＯＡの昇降角度から引き出された角度に、またはＤＯＡの方位角度および昇降角度から引き出された角度に適用可能であることが理解される。より一般的には、下に提供された全ての説明は、ＤＯＡに依存しているどの角度にも等しく適用可能である。

次に、距離情報決定／推定が示される。

いくつかの実施の形態が、ＤＯＡと距離とに基づいて、一番上の音響ズームと関連する。そのような実施の形態において、パラメータ推定モジュール１０２は、例えば、２つのサブモジュール、例えば、上述のＤＯＡ推定器サブモジュールと、録音位置から音源ｒ（ｋ，ｎ）までの距離を推定する距離推定サブモジュールとを含む。そのような実施の形態において、例えば、録音しているマイクロフォン配列に到達するそれぞれの平面波が、音源から創生し、直線に沿ってマイクロフォン配列に伝播すること（それは、また、直進伝播パスとしても知られている）が仮定される。

いくつかの最先端の取り組みが、マイクロフォン信号を使う距離推定のために存在する。例えば、音源までの距離は、［１２］の中に示されているように、マイクロフォン信号間のパワー比率を計算することによって見付けられる。あるいは、音響の囲い（例えば部屋）の中の音源ｒ（ｋ，ｎ）までの距離が、推定された信号対拡散比率（ＳＤＲ）［１３］に基づいて計算される。ＳＤＲ推定は、その時、距離を計算するために、（既知の、または、最先端の方法を用いて推定された）部屋の反響時間と結合される。高ＳＤＲに対して、直進音エネルギーは、音源までの距離が小さいことを示す拡散音に比較して高い。ＳＤＲ値が低いとき、直進音パワーは部屋反響に比べて弱い。それは音源までの大きな距離を示す。

別の実施の形態において、パラメータ推定モジュール１０２の中の距離計算モジュールを採用することによって、距離を計算／推定する代わりに、外部の距離情報が、例えば、映像システムから受信される。例えば、映像において使用される最先端の技術が、例えば採用される。それは、距離情報、例えば飛行時間（ＴｏＦ）と、ステレオスコープ映像と、構造化された光とを提供できる。例えば、ＴｏＦカメラにおいて、音源までの距離は、カメラによって放射され、音源まで伝達し、そして、カメラセンサーに戻った光信号の測定された飛行時間から計算される。コンピュータステレオ映像は、例えば、音源までの距離を計算するために、映像イメージが捕らえられる２つの有利な地点を利用する。

または、例えば、構造化された光カメラが採用される。そこでは、画素の既知のパターンが、映像場面に投影される。投影後の変形の分析は、映像システムが、音源までの距離を推定することを可能にする。それぞれの時間−周波数ビンのための距離情報ｒ（ｋ，ｎ）が、矛盾のない音声場面再生のために必要であることは注目するべきである。仮に、距離情報が、映像システムによって外部的に提供されるならば、ＤＯＡφ（ｋ，ｎ）に対応する音源ｒ（ｋ，ｎ）までの距離は、例えば、その特定の方向φ（ｋ，ｎ）に対応する映像システムから、距離値として選択される。

以下において、矛盾のない音響場面再生が考慮される。先ず、ＤＯＡに基づく音響場面再生が考慮される。

音響場面再生は、録音された音響場面と矛盾しないように実行される。または、音響場面再生は、映像イメージに矛盾しないように実行される。対応している映像情報は、映像イメージに一貫して達成するために提供される。

いくつかの実施の形態において、パラメータＧ_i（ｋ，ｎ）とＱとは、利得関数計算モジュール１０４によって提供された２つの利得関数ｇ_i（φ（ｋ，ｎ））とｑ（ｋ，ｎ）とから、それぞれ利得選択ユニット２０１と２０２との中で選択される。

実施の形態に従って、Ｇ_i（ｋ，ｎ）は、例えば、ＤＯＡ情報のみに基づいて選択され、Ｑは、例えば、一定値を持つ。しかし、別の実施の形態において、別の重み付けＧ_i（ｋ，ｎ）は、例えば、別の情報に基づいて決定され、重み付けＱは、例えば、変化して決定される。

先ず、実施が考慮され、それは、録音された音響場面と矛盾なく実現する。後に、考えられるイメージ情報／映像イメージと矛盾なく実現する実施の形態が考慮される。

以下において、重み付けＧ_i（ｋ，ｎ）とＱとの計算が、録音された音響場面と矛盾しない音響場面を再生するために示される。例えば、その結果、再生システムのスイートスポットに置かれた聴衆は、録音された音場面の中の音源のＤＯＡから到達し、そして、音源録音された場面の中の同じパワーを持ち、そして、サラウンド拡散音の同じ知覚を再生する音源に気づく。

既知のスピーカーセットアップのために、方向φ（ｋ，ｎ）から音源の再生が、例えば、推定ＤＯＡφ（ｋ，ｎ）のための利得関数計算モジュール１０４によって提供された固定ルックアップ・テーブルから、利得選択ユニット２０１の中の直進音利得Ｇ_i（ｋ，ｎ）を選択すること（「直進利得選択」）によって達成される。それは、以下の式のように書かれる。

Ｇ_i（ｋ，ｎ）＝ｇ_i（φ（ｋ，ｎ））（１５）

ここで、ｇ_i（φ）＝ｐ_i（φ）は、ｉ番目のスピーカーのために全てのＤＯＡに亘ってパンニング利得を戻す関数である。パンニング利得関数ｐ_i（φ）は、スピーカーセットアップとパンニング体系に依存する。

ステレオの再生において左右のスピーカーのためのベクトルに基づいた振幅パンニング（ＶＢＡＰ）［１４］によって定義されるパンニング利得関数ｐ_i（φ）の例は、図５ａにおいて示される。

図５ａにおいて、ステレオセットアップのためのＶＢＡＰパンニング利得関数ｐ_b,iの例が示され、図５ｂにおいて、矛盾しない再生のためのパンニング利得が示される。

例えば、仮に、直進音がφ（ｋ，ｎ）＝３０°から到達するならば、右のスピーカー利得はＧ_r（ｋ，ｎ）＝ｇ_r（３０°）＝ｐ_r（３０°）＝１であり、左のスピーカー利得はＧ_l（ｋ，ｎ）＝ｇ_l（３０°）＝ｐ_l（３０°）＝０である。φ（ｋ，ｎ）＝０°から到達する直進音に対して、最終的なステレオスピーカー利得は、Ｇ_r（ｋ，ｎ）＝Ｇ_l（ｋ，ｎ）＝√（０．５）である。

実施の形態において、パンニング利得関数、例えばｐ_i（φ）は、例えば、立体音再生の場合の中のヘッド関連移転関数（ＨＲＴＦ）である。

例えば、仮に、ＨＲＴＦｇ_i（φ）＝ｐ_i（φ）が複合値を戻すならば、利得選択ユニット２０１において選択された直進音利得Ｇ_i（ｋ，ｎ）は、例えば、複合値にされる。

仮に、３つ以上の音声出力信号が生成されるならば、対応している最先端パンニング概念は、例えば、入力信号を３以上の音声出力信号へパンニングすることが採用される。例えば、３つ以上の音声出力信号のためのＶＢＡＰが採用される。

矛盾しない音響場面再生において、拡散音のパワーは、録音された場面の中と同じであり続ける。従って、例えば、等しく間隔をおいて配置されたスピーカーを持つスピーカーシステムに対して、拡散音利得は、以下の式（１６）のように一定の値を持つ。

Ｑ＝ｑ_i＝１／√Ｉ（１６）

ここで、Ｉは、出力スピーカーチャンネルの数である。これは、利得関数計算モジュール１０４が、再生で利用可能なスピーカーの数に依存しているｉ番目のスピーカー（または、ヘッドホーンチャンネル）のための１つの出力値を提供することを意味する、この値は、全ての周波数に亘る拡散利得Ｑとして使われる。ｉ番目のスピーカーチャンネルのための最終的な拡散音Ｙ_diff,i（ｋ，ｎ）は、式（２ｂ）の中に得られたＹ_diff（ｋ，ｎ）を無関連にすることによって得られる。

今や、映像場面との一貫性を達成する実施の形態に従う音声出力信号生成が、示される。特に、映像場面と矛盾しない音響場面を再生するために採用される実施の形態に従う重み付きＧ_i（ｋ，ｎ）およびＱの計算が、示される。それは、音源からの直進音が、映像／イメージの中で音源が見える方向から再生される音響イメージを再創生することを目指す。

図４に描かれた幾何学が考慮される。Ｉは映像カメラの視方向に対応する。一般性を損失することなく、Ｉは座標系のＹ軸を定義する。

描かれた（ｘ、ｙ）座標系の中の直進音のＤＯＡの方位は、φ（ｋ，ｎ）によって与えられる。ｘ軸上の音源の位置は、ｘ_g（ｋ，ｎ）によって与えられる。ここで、全ての音源がｘ軸に対して同じ距離ｇに置かれることが仮定される。例えば、音源位置は、光学において焦点面として参照される左の点線上に置かれる。この仮定が、映像イメージおよび音響イメージが位置合わせされ、実際の距離値ｇが、提供された処理のために必要ではないことを保証するためのみに作られることに注目するべきである。

再生側（遠端側）では、ディスプレイはｂに置かれ、ディスプレイ上の音源の位置はｘ_b（ｋ，ｎ）によって与えられる。さらに、ｘ_dは、ディスプレイサイズ（または、いくつかの実施の形態において、例えばｘ_dはディスプレイサイズの半分を示す）である。φ_dは、対応している最大映像角度である。Ｓは、音再生システムのスイートスポットである。φ_b（ｋ，ｎ）は、直進音が映像イメージおよび音響のイメージが位置合わせされるように再生されるべき角度である。φ_b（ｋ，ｎ）は、ｘ_b（ｋ，ｎ）、および、スイートスポットＳとｂに置かれたディスプレイとの間の距離に依存する。さらに、ｘ_b（ｋ，ｎ）は、カメラから音源までの距離ｇや、イメージセンサーサイズや、ディスプレイサイズｘ_dなどのいくつかのパラメータに依存する。あいにく、これらのパラメータのうちの少なくともいくつかは、しばしば、実際に未知である。その結果、ｘ_b（ｋ，ｎ）およびφ_b（ｋ，ｎ）は、与えられたＤＯＡ φ_g（ｋ，ｎ）のために決定できない。しかし、光学システムが線形であると仮定すると、式（１７）に従う。

ｔａｎφ_b（ｋ，ｎ）＝ｃｔａｎφ（ｋ，ｎ）（１７）

ここで、ｃは、前記の未知のパラメータを補償している未知の定数である。仮に、全ての音源位置がｘ軸に対して同じ距離ｇを持つなら、ｃは定数のみであることは注目するべきである。

以下において、ｃは、映像イメージおよび音響イメージが矛盾しないまでの測定段階の間、適合されるべき測定パラメータであると仮定される。測定を実行するため、音源は焦点面上に置かれるべきで、ｃの値は、映像イメージおよび音響イメージが位置合わせされるように見つけられる。いったん測定されたら、ｃの値は不変のままであり、直進音が再生されるべき角度は、以下の式（１８）によって与えられる。

φ_b（ｋ，ｎ）＝ｔａｎ^-1［ｃｔａｎ（φ（ｋ，ｎ））］）（１８）

音響場面および映像場面の両方が矛盾しないことを保証するために、オリジナルのパンニング関数ｐ_i（φ）は、矛盾のない（修正された）のパンニング関数ｐ_b,i（φ）に修正される。直進音利得Ｇ_i（ｋ，ｎ）は、以下の式（１９）と（２０）とに従って選択される。

Ｇ_i（ｋ，ｎ）＝ｇ_i（φ（ｋ，ｎ））（１９）

ｇ_i（φ）＝ｐ_b,i（φ）（２０）

ここで、ｐ_b,i（φ）は、全ての可能な音源ＤＯＡに亘るｉ番目のスピーカーのためのパンニング利得を戻している、矛盾のないパンニング関数である。ｃの固定値に対して、そのような矛盾のないパンニング関数は、利得関数計算モジュール１０４の中で、以下の式（２１）のようなオリジナル（例えばＶＢＡＰ）のパンニング利得表から計算される。

ｐ_b,i（φ）＝ｐ_i（ｔａｎ^-1［ｃｔａｎφ］）（２１）

従って、実施の形態において、信号プロセッサ１０５は、例えば、１つ以上の音声出力信号のそれぞれの音声出力信号のために、直進利得Ｇ_i（ｋ，ｎ）が以下の式に従って定義されるように、決定するように構成される。

Ｇ_i（ｋ，ｎ）＝ｐ_i（ｔａｎ^-1［ｃｔａｎ（φ（ｋ，ｎ））］）

ここで、ｉは前記音声出力信号のインデックスを示す。ｋは周波数を示す。ｎは時間を示す。Ｇ_i（ｋ，ｎ）は直進利得を示す。φ（ｋ，ｎ）は、到来方向（例えば、到来方向の方位角度）に依存している角度を示す。ｃは定数値を示す。ｐ_iはパンニング関数を示す。

実施の形態において、直進音利得Ｇ_i（ｋ，ｎ）は、推定されたＤＯＡ φ（ｋ，ｎ）に基づいて、式（１９）を使って１回（測定段階の後で）計算される利得関数計算モジュール１０４によって提供された固定ルックアップ・テーブルから、利得選択ユニット２０１の中で選択される。

それから、実施の形態に従って、信号プロセッサ１０５は、例えば、１つ以上の音声出力信号のそれぞれの音声出力信号毎に、前記音声出力信号のための直進利得を、到来方向に依存しているルックアップ・テーブルから得るように構成されている。

実施の形態において、信号プロセッサ１０５は、直進利得関数ｇ_i（ｋ，ｎ））のためのルックアップ・テーブルを計算する。例えば、全ての可能な十分な角度、例えば１°、２°、３°…のために、ＤＯＡの方位値φ毎に、直進利得Ｇ_i（ｋ，ｎ）が事前に計算されて記憶される。そして、到来方向の現在の方位値φが受信されるとき、信号プロセッサ１０５は、ルックアップ・テーブルから現在の方位値φのための直進利得Ｇ_i（ｋ，ｎ）を読み取る。（現在の方位値φは、例えばルックアップ・テーブル議論値であり、直進利得Ｇ_i（ｋ，ｎ）は、例えばルックアップ・テーブルリターン値である。）。ＤＯＡの方位φの代わりに、別の実施の形態において、ルックアップ・テーブルは、到来方向に依存しているどのような角度に対しても計算される。これは利点を持つ。利得値は、いつも全ての時間ポイントのために、または、全ての時間−周波数ビンのために計算される必要があるわけではない。けれども代わりに、ルックアップ・テーブルは１回計算されると、それからは、受信された角度φのために、直進利得Ｇ_i（ｋ，ｎ）がルックアップ・テーブルから読み取られる。

従って、実施の形態に従って、信号プロセッサ１０５は、例えば、ルックアップ・テーブルを計算するように構成されている。ルックアップ・テーブルは複数のエントリーを含む。エントリーのそれぞれは、ルックアップ・テーブル議論値と、前記議論値に割り当てられているルックアップ・テーブルリターン値とを含む。信号プロセッサ１０５は、例えば、到来方向に依存しているルックアップ・テーブルのルックアップ・テーブル議論値のうちの１つを選択することによって、ルックアップ・テーブルからルックアップ・テーブルリターン値のうちの１つを得るように構成されている。さらに、信号プロセッサ１０５は、例えば、ルックアップ・テーブルから得られたルックアップ・テーブルリターン値のうちの前記１つに依存している１つ以上の音声出力信号の少なくとも１つのために、利得値を決定するように構成されている。

信号プロセッサ１０５は、例えば、別の利得値を決定するために、別の到来方向に依存しているルックアップ・テーブル議論値のうちの別の１つを選択することによって（同じ）ルックアップ・テーブルから、ルックアップ・テーブルリターン値のうちの別の１つを得るように構成されている。例えば、信号プロセッサは、例えば、前記別の到来方向に依存する後の方の時間ポイントに、別の方向の情報を受信する。

ＶＢＡＰパンニングおよび矛盾のないパンニング利得関数の例が、図５ａと５ｂの中に示される。

パンニング利得表を再計算する代わりに、ディスプレイのためのＤＯＡφ_b（ｋ，ｎ）を二者択一的に推定し、それをφ_i（φ_b（ｋ，ｎ））としてオリジナルのパンニング関数に適用することに注目するべきである。以下の関係が続く限り、これは真実である。

ｐ_b,i（φ（ｋ，ｎ））＝ｐ_i（φ_b（ｋ，ｎ））（２２）

しかし、これは、利得関数計算モジュール１０４が、入力として推定されたＤＯＡ φ（ｋ，ｎ）を受信することを必要とする。そして、例えば、式（１８）に従って実行したＤＯＡ再推定が、その時、時間インデックスｎ毎に実施される。

拡散音再生に関して、映像無しの場合のために示されたと同じ方法で処理されるとき、例えば、拡散音のパワーが、録音された場面の中の拡散パワーと同じままで、そして、スピーカー信号がＹ_diff（ｋ，ｎ）の無相関のバージョンであるとき、音響イメージおよび映像イメージが矛盾なく再生される。等しく間隔をおいて配置されたスピーカーのために、拡散音利得は、例えば式（１６）によって与えられる一定の値を持つ。結果として、利得関数計算モジュール１０４は、全ての周波数に亘る拡散利得Ｑとして使われるｉ番目のスピーカー（または、ヘッドホーンチャンネル）のための１つの出力値を提供する。ｉ番目のスピーカーチャンネルのための最終的な拡散音Ｙ_diff,i（ｋ，ｎ）が、例えば、式（２ｂ）によって与えられるように、Ｙ_diff（ｋ，ｎ）を無相関にすることによって得られる。

今や、ＤＯＡに基づく音響ズームが提供される実施の形態が考慮される。そのような実施の形態において、映像ズームと矛盾しない音響ズームのための処理が考慮される。この矛盾のない音声−映像ズームは、例えば、図２の信号変更器１０３の中で描かれた式（２ａ）の中で採用された重み付けＧ_i（ｋ，ｎ）とＱとを適合することによって達成される。

実施の形態において、直進利得Ｇ_i（ｋ，ｎ）は、例えば、利得選択ユニット２０１の中で、パラメータ推定モジュール１０２の中で推定されたＤＯＡに基づいて、利得関数計算モジュール１０４において計算された直進利得関数ｇ_i（ｋ，ｎ）から選択される。拡散利得Ｑは、利得選択ユニット２０２の中で、利得関数計算モジュール１０４において計算された拡散利得関数ｑ（β）から選択される。別の実施の形態において、直進利得Ｇ_i（ｋ，ｎ）および拡散利得Ｑは、先ずそれぞれの利得関数を計算して次に利得を選択すること無く、信号変更器１０３によって計算される。

上で説明した実施の形態と対比すると、拡散利得関数ｑ（β）は、ズームファクターβに基づいて決定されることに注目するべきである。実施の形態において、距離情報は使用されず、従って、そのような実施の形態においては、それはパラメータ推定モジュール１０２の中で推定されない。

式（２ａ）の中のズームパラメータＧ_i（ｋ，ｎ）およびＱを引き出すために、図４の幾何学が考慮される。図の中に示されたパラメータは、上記実施の形態の図４について説明されたそれらと相似である。

上で説明された実施の形態と同様に、全ての音源は焦点面上に置かれることが仮定される。焦点面は、ｘ軸に対して距離ｇで平行に置かれる。いくつかの自動焦点システムは、ｇ、例えば焦点面までの距離を提供することができることに注目するべきである。これは、イメージの中の全ての音源が鋭いと仮定することを可能にする。再生（遠端）側において、ディスプレイ上のＤＯＡ φ_b（ｋ，ｎ）および位置ｘ_b（ｋ，ｎ）は、カメラからの音源の距離ｇやイメージセンサーサイズやディスプレイサイズｘ_dやカメラのズーミングファクター（例えば、カメラの開口角度）βなどの多くのパラメータに依存する。光学システムが線形であると仮定すると、式（２３）に従う。

ｔａｎφ_b（ｋ，ｎ）＝βｃｔａｎφ（ｋ，ｎ）（２３）

ここで、ｃは、未知の光学パラメータを補償する測定パラメータである。β≧１は、ユーザーコントロールされたズーミングファクターである。映像カメラにおいて、ファクターβでのズーミングは、βをｘ_b（ｋ，ｎ）に乗算することと等しいことに注目するべきである。さらに、仮に、全ての音源位置が、ｘ軸まで同じ距離ｇを持つならば、ｃは定数のみである。この場合において、ｃは、映像イメージと音響イメージとが位置合わせされるように、１回適合される測定パラメータとして考慮される。直進音利得Ｇ_i（ｋ，ｎ）は、式（２４）および（２５）のように、直進利得関数ｇ_i（φ）から選択される。

Ｇ_i（ｋ，ｎ）＝ｇ_i（φ（ｋ，ｎ））（２４）

ｇ_i（φ）＝ｐ_b,i（φ）ｗ_b（φ）（２５）

ここで、ｐ_b,i（φ）は、パンニング利得関数を示す。ｗ_b（φ）は、矛盾のない音声−映像ズームのための窓利得関数である。矛盾のない音声−映像ズームのためのパンニング利得関数は、利得関数計算モジュール１０４の中で、以下の式（２６）のように、オリジナル（例えばＶＢＡＰ）のパンニング利得関数ｐ_i（φ）から計算される。

ｐ_b,i（φ）＝ｐ_i（ｔａｎ^-1［βｃｔａｎφ］）（２６）

従って、例えば利得選択ユニット２０１の中で選択された直進音利得Ｇ_i（ｋ，ｎ）は、利得関数計算モジュール１０４の中で計算された検索パンニング表から、推定されたＤＯＡ φ（ｋ，ｎ）に基づいて決定される。仮に、βが変わらないならば、それは固定される。いくつかの実施の形態において、ｐ_b,i（φ）は、例えば、ズームファクターβが修正されるたびに、式（２６）を採用することによって、再計算される必要があることに注目するべきである。

β＝１とβ＝３のためのステレオパンニング利得関数の例が、図６において示される（図６ａおよび図６ｂを参照してください）。特に、図６ａは、β＝１のためのパンニング利得関数ｐ_b,iの一例を示す。図６ｂは、β＝３でズーミングした後のパンニング利得を示す。図６ｃは、角度シフトを伴うβ＝３でズーミングした後のパンニング利得を示す。

例において認められるように、直進音がφ（ｋ，ｎ）＝１０°から到達するとき、左のスピーカーのためのパンニング利得は、大きいβ値のために増大する一方、右のスピーカーおよびβ＝３のためのパンニング関数は、β＝１のためより小さい値を戻す。そのようなパンニングは、ズームファクターβが増大されるとき、知覚された音源位置を外側方向にもっと効果的に移動する。

実施の形態に従って、信号プロセッサ１０５は、例えば、２つ以上の音声出力信号を決定するように構成されている。２つ以上の音声出力信号の音声出力信号のそれぞれのために、パンニング利得関数は、前記音声出力信号に割り当てられる。

２つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含む。パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられる。前記パンニング関数が、前記パンニング関数議論値の１つを受信するとき、前記パンニング関数は、前記パンニング関数議論値のうちの前記１つに割り当てられているパンニング関数リターン値を戻すように構成される。

信号プロセッサ１０５は、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の直進依存議論値に依存して、２つ以上の音声出力信号のそれぞれを決定するように構成されている。前記直進依存議論値は、到来方向に依存する。

実施の形態に従って、２つ以上の音声出力信号のそれぞれのパンニング利得関数は、パンニング関数議論値のうちの１つである１つ以上のグローバル最大値を持つ。それぞれのパンニング利得関数の１つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が前記グローバル最大値のためより大きいパンニング関数リターン値を戻すための別のパンニング関数議論値は、存在しない。

２つ以上の音声出力信号の第１音声出力信号および第２音声出力信号のペアのそれぞれについて、第１の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値のうちの少なくとも１つは、第２の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値のうちの何れとも相違する。

要するに、パンニング関数は、種々のパンニング関数のグローバル最大値（の少なくとも１つ）が相違するように実施される。

例えば、図６ａにおいて、ｐ_b,l（φ）のローカル最大値は、−４５°から−２８°までの範囲内にあり、ｐ_b,r（φ）のローカル最大値は、＋２８°から＋４５°までの範囲内にある。従って、グローバル最大値は相違する。

例えば、図６ｂにおいて、ｐ_b,l（φ）のローカル最大値は、−４５°から−８°までの範囲内にあり、ｐ_b,r（φ）のローカル最大値は、＋８°から＋４５°までの範囲内にある。従って、グローバル最大値も相違する。

例えば、図６ｃにおいて、ｐ_b,l（φ）のローカル最大値は、−４５°から＋２°までの範囲内にあり、ｐ_b,r（φ）のローカル最大値は、＋１８°から＋４５°までの範囲内にある。従って、グローバル最大値も相違する。

パンニング利得関数は、例えば、ルックアップ・テーブルとして実施される。

そのような実施の形態において、信号プロセッサ１０５は、例えば、音声出力信号のうちの少なくとも１つのパンニング利得関数のためのパンニングルックアップ・テーブルを計算するように構成されている。

音声出力信号のうちの前記少なくとも１つのそれぞれの音声出力信号のパンニングルックアップ・テーブルは、例えば、複数のエントリーからなる。エントリーのそれぞれは、前記音声出力信号のパンニング利得関数のパンニング関数議論値と、前記パンニング関数議論値に割り当てられているパンニング利得関数のパンニング関数リターン値とからなる。信号プロセッサ１０５は、到来方向に依存して、パンニングルックアップ・テーブルから方向依存議論値を選択することによって、前記パンニングルックアップ・テーブルからパンニング関数リターン値の１つを得るように構成されている。信号プロセッサ１０５は、前記パンニングルックアップ・テーブルから得られた前記パンニング関数リターン値のうちの１つに依存して、前記音声出力信号のための利得値を決定するように構成されている。

以下において、直進音窓を採用する実施の形態が示される。そのような実施の形態に従って、矛盾しないズームｗ_b（φ）のための直進音窓が、式（２７）に従って計算される。

ｗ_b（φ）＝ｗ（ｔａｎ^-1［βｃｔａｎφ］）（２７）

ここで、仮に、音源が、ズームファクターβのための映像イメージの外の位置に写像されるならば、ｗ_b（φ）は、直進音を弱める音響ズームのための窓利得関数である。

窓関数ｗ（φ）が例えばβ＝１に設定されると、その結果、映像イメージの外にある音源の直進音は、望みのレベルに減らされる。そして、それは、例えば、式（２７）を採用されることによって再計算され、毎回、ズームパラメータが変わる。ｗ_b（φ）は、全てのスピーカーチャンネルに対して同じであることに注目するべきである。β＝１とβ＝３の窓関数例が、図７ａと図７ｂに示される。そこでは、β値が増大すると、窓幅が減少する。

図７において、矛盾のない窓利得関数の例が示される。特に、図７ａは、ズーミング無し（ズームファクターβ＝１）の窓利得関数ｗ_bを示す。図７ｂは、ズーミング（ズームファクターβ＝３）した後の窓利得関数を示す。図７ｃは、角度シフトを伴うズーミング（ズームファクターβ＝３）した後の窓利得関数を示す。例えば、角度シフトは、視方向に対して窓の回転を実現する。

例えば、図７ａと図７ｂと図７ｃとにおいて、仮に、ＤＯＡ φが窓内に位置するならば、窓利得関数は１の利得に戻る。仮に、ＤＯＡ φが窓外に位置するならば、窓利得関数は０．１８の利得に戻る。仮に、ＤＯＡ φが窓の境界に位置するならば、窓利得関数は０．１８と１との間の利得に戻る。

実施の形態に従って、信号プロセッサ１０５は、窓利得関数に依存して、１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。窓利得関数は、窓関数議論値を受信すると、窓関数リターン値を戻すように構成されている。

仮に、窓関数議論値が、下部の窓閾値より大きく、上部の窓閾値より小さいならば、窓利得関数は、何れの窓関数リターン値より大きい窓関数リターン値を戻すように構成され、仮に、窓関数議論値が、下部の窓閾値より小さいか、または、上部の窓閾値より大きいならば、窓利得関数は、窓利得関数によって戻されるように構成されている。

例えば、以下の式（２７）において、

ｗ_b（φ）＝ｗ（ｔａｎ^-1［βｃｔａｎφ］）（２７）

到来方向φの方位角度は、窓利得関数ｗ_b（φ）の窓関数議論値である。窓利得関数ｗ_b（φ）は、ズーム情報、ここでは、ズームファクターβに依存する。

窓利得関数の定義を説明するために、図７ａが参照される。

仮に、ＤＯＡ φの方位角度が、−２０°（下部の閾値）より大きく、＋２０°（上部の閾値）より小さいならば、窓利得関数によって戻された全ての値は０．６より大きい。さもなければ、仮に、ＤＯＡ φの方位角度が、−２０°（下部の閾値）より小さく、または、＋２０°（上部の閾値）より大きいならば、窓利得関数によって戻された全ての値は０．６より小さい。

実施の形態において、信号プロセッサ１０５は、ズーム情報を受信するように構成されている。さらに、信号プロセッサ１０５は、窓利得関数がズーム情報に依存する窓利得関数に依存している１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。

これは、仮に、別の値が下部／上部の閾値として考慮される、または、仮に、別の値がリターン値として考慮されるならば、図７ｂと図７ｃの（修正された）窓利得関数に対して認められる。図７ａと図７ｂと図７ｃとにおいて、窓利得関数はズーム情報（ズームファクターβ）に依存することが認められる。

窓利得関数は、例えば、ルックアップ・テーブルとして実施される。そのような実施の形態において、信号プロセッサ１０５は、窓ルックアップ・テーブルを計算するように構成されている。窓ルックアップ・テーブルは、複数のエントリーを含む。エントリーのそれぞれは、窓利得関数の窓関数議論値と、前記窓関数議論値に割り当てられている窓利得関数の窓関数リターン値とからなる。信号プロセッサ１０５は、到来方向に依存している窓ルックアップ・テーブルの窓関数議論値のうちの１つを選択することによって、窓ルックアップ・テーブルから窓関数リターン値のうちの１つを得るように構成されている。さらに、信号プロセッサ１０５は、窓ルックアップ・テーブルから得られた窓関数リターン値のうちの前記１つに依存している１つ以上の音声出力信号の少なくとも１つのための利得値を決定するように構成されている。

ズーミング概念に加えて、窓とパンニング関数とは、シフト角度θによってシフトされる。この角度は、カメラの視方向Ｉの回転に、または、カメラのデジタルズームとの相似によって映像イメージ内での移動に対応する。前者の場合において、カメラの回転角度は、ディスプレイ上の角度のために、例えば式（２３）と同様に再計算される。後者の場合において、θは、窓の直進シフトと、矛盾しない音響ズームのためのパンニング関数（例えば、ｗ_b（φ）およびｐ_b,i（φ））とである。両方の関数をシフトする例示が図５ｃおよび図６ｃに記載されている。

パンニング利得と窓関数を再計算する代わりに、例えば式（２３）に従って、ディスプレイのためのＤＯＡ φ_b（ｋ，ｎ）を計算し、それを、ｐ_i（φ）およびｗ（φｂ）として、オリジナルのパンニングおよび窓関数の中にそれぞれ適用することに注目するべきである。以下の関係が続く間、そのような処理は等価である。

ｐ_b,i（φ（ｋ，ｎ））＝ｐ_i（φ_b（ｋ，ｎ））（２８）

ｗ_b（φ（ｋ，ｎ））＝ｗ（φ_b（ｋ，ｎ））（２９）

しかし、これは、利得関数計算モジュール１０４が、入力として推定されたＤＯＡ φ（ｋ，ｎ）と、例えば式（１８）に従うＤＯＡ再計算を受信することを必要とする。式（１８）は、例えば、それぞれの連続的な時間フレームの中で、仮にβが変更されるか、または、変更されないかに関係無く、実行される。

拡散音について、例えば利得関数計算モジュール１０４の中で、拡散利得関数ｑ（β）を計算することは、再生のために利用可能なスピーカーＩの数の知識だけを必要とする。従って、それは、映像カメラまたはディスプレイのパラメータから独立して設定される。

例えば、等しく間隔をおいて配置されたスピーカーのために、式（２ａ）の実数値の拡散音利得Ｑ∈［０，１／√Ｉ］が、ズームパラメータβに基づいて、利得選択ユニット２０２の中で選択される。拡散利得を使用する目的は、ズーミングファクター、例えば、再生された信号のＤＲＲを増大させるズーミングに依存している拡散音を弱めることである。これは、より大きいβのためにＱを下げることによって達成される。事実、カメラの開口角度がより小さくなる手段の中のズーミングは、例えば、自然な音響の対応は、より少ない拡散音を捕える、より多い直進的なマイクロフォンである。

この効果を擬態するために、実施の形態は、例えば、図８に示された利得関数を採用する。図８は、拡散利得関数ｑ（β）の例を示す。

別の実施の形態において、利得関数は異なって定義される。ｉ番目のスピーカーチャンネルのための最終的な拡散音Ｙ_diff,i（ｋ，ｎ）は、例えば式（２ｂ）に従って、Ｙ_diff（ｋ，ｎ）を無相関にすることによって達成される。

以下において、ＤＯＡと距離とに基づく音響ズームが考慮される。

いくつかの実施の形態に従って、信号プロセッサ１０５は、例えば、距離情報を受信するように構成されている。信号プロセッサ１０５は、例えば、距離情報に依存している１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。

いくつかの実施の形態は、推定されたＤＯＡ φ（ｋ，ｎ）と距離値ｒ（ｋ，ｎ）との両方に基づく矛盾しない音響ズームのための処理を採用する。これらの実施の形態の概念も、録音された音響の場面を位置合わせするために、ズーミング無しで映像に適用される。そこでは、音源は、映像イメージの中で鋭く現れない音源のために、例えば、カメラの焦点面上に置かれない音源のために、音響のぼやけている効果を創成することを我々に入手可能にする距離情報ｒ（ｋ，ｎ）において、以前に推定されたと同じ距離に置かれない。

矛盾のない音再生、例えば、異なる距離に置かれた音源のためにぼやけている音響ズームを容易にするため、利得Ｇ_i（ｋ，ｎ）およびＱは、２つの推定されたパラメータ、つまりφ（ｋ，ｎ）とｒ（ｋ，ｎ）とに基づいて、そしてズームファクターβに依存して、図２の信号変更器１０３の中に描かれた式（２ａ）において適合される。仮にズーミングが関係しないならば、βはβ＝１に設定される。

パラメータφ（ｋ，ｎ）およびｒ（ｋ，ｎ）は、例えば、上で説明したパラメータ推定モジュール１０２の中で推定される。この実施の形態において、直進利得Ｇ_i（ｋ，ｎ）は、１つ以上の直進利得関数ｇ_i,j（ｋ，ｎ）（それは、例えば、利得関数計算モジュール１０４の中で計算される。）からのＤＯＡと距離情報とに基づいて、（例えば、利得選択ユニット２０１の中で選択されることによって）決定される。上の実施の形態で示されたと同様に、拡散利得Ｑは、利得関数計算モジュール１０４の中でズームファクターβに基づいて計算された拡散利得関数ｑ（β）から、例えば、利得選択ユニット２０２の中で選択される。

別の実施の形態において、直進利得Ｇ_i（ｋ，ｎ）および拡散利得Ｑは、先ずそれぞれの利得関数を計算してそれから利得を選択すること無く、信号変更器１０３によって計算される。

異なる距離の音源のための音響場面再生および音響ズーミングを説明するために、図９が参照される。図９において示されたパラメータは、上で説明されたそれらと相似である。

図９において、音源は、ｘ軸に対して距離Ｒ（ｋ，ｎ）の位置Ｐ′に置かれる。距離ｒ、例えば、（ｋ，ｎ）−特定（時間−周波数−特定：ｒ（ｋ，ｎ）は、音源位置と焦点面（ｇを通過している左の垂直線）との間の距離を示すである。いくつかの自動焦点システムが、ｇ、例えば焦点面までの距離を提供することができることに注目するべきである。

マイクロフォン配列の観点から直進音のＤＯＡは、φ’（ｋ，ｎ）によって示される。
別の実施の形態と対比すると、全ての音源がカメラレンズから同じ距離ｇに置かれることは仮定されない。従って、例えば位置Ｐ′は、ｘ軸に対して任意の距離Ｒ（ｋ，ｎ）を持つことができる。

仮に、音源が焦点面に置かれないならば、音源は映像の中でぼやけているように見える。さらに、実施の形態は、仮に音源が点線９１０上の何れかの位置に置かれるならば、それは映像の中の同じ位置ｘ_b（ｋ，ｎ）に見えるという発見に基づく。しかし、実施の形態は、仮に、点線９１０に沿って音源が動くならば、直進音の推定されたＤＯＡ φ’
（ｋ，ｎ）が変更するという発見に基づく。すなわち、仮に、音源がＹ軸に対して平行に移動するならば、実施の形態によって採用された発見に基づいて、推定されたＤＯＡ φ’
（ｋ，ｎ）は、ｘ_b（それから、音が再生されるべきＤＯＡ φ_b（ｋ，ｎ））が同じであり続ける間は、変化する。その結果、仮に、推定されたＤＯＡ φ’（ｋ，ｎ）が遠端
側に送信されて、前の実施の形態において示された音の再生のために使われるならば、仮に音源がその距離Ｒ（ｋ，ｎ）を変更するならば、音響および映像イメージはもう位置合わせされない。

この効果を補償して、矛盾のない音再生を達成するために、例えば、パラメータ推定モジュール１０２の中で実行されるＤＯＡ推定が、まるで音源が位置Ｐの焦点面上に置かれるかのように直進音のＤＯＡを推定する。この位置は焦点面のＰ′の投影を表す。対応するＤＯＡは、図９のφ（ｋ，ｎ）によって示され、前の実施の形態と同様に、矛盾のない音再生のために遠端側で使われる。仮に、ｒとｇとが知られているならば、（修正された）ＤＯＡ φ（ｋ，ｎ）は、幾何学の考慮に基づいて、推定された（オリジナルの）ＤＯＡ φ’（ｋ，ｎ）から計算される。

例えば、図９において、信号プロセッサ１０５は、以下の式に従ってφ’（ｋ，ｎ）ｒ
とｇとからφ（ｋ，ｎ）を計算する。

φ＝ａｒｃｔａｎ［ｔａｎφ´・（ｒ＋ｇ）／ｇ］

従って、実施の形態に従って、信号プロセッサ１０５は、例えば、２つ以上の音声入力信号の直進信号コンポーネントの到来方向である到来方向のオリジナルの方位角度φ’（ｋ，ｎ）を受信するように構成され、そして、距離情報ｒを更に受信するように構成されている。信号プロセッサ１０５は、例えば、オリジナルの到来方向の方位角度φ’（ｋ，ｎ）、および、距離情報ｒとｇとに依存して、到来方向の修正された方位角度φ（ｋ，ｎ）を計算するように構成されている。信号プロセッサ１０５は、例えば、修正された到来方向の方位角度φ（ｋ，ｎ）に依存して、１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。

必要な距離情報は、上で説明したように推定される（焦点面の距離ｇは、レンズシステムまたは自動焦点情報から得られる）。例えば、この実施の形態において、音源と焦点面との間の距離ｒ（ｋ，ｎ）は、（写像された）ＤＯＡ φ（ｋ，ｎ）と共に遠端側に送信されることは注目するべきである。

さらに、映像ズームに対する相似によって、焦点面から大きな距離ｒにある音源は、イメージの中で鋭く見えない。この効果は、光学においていわゆるフィールド深さ（ＤＯＦ）として有名である。それは、映像イメージの中で満足して鋭く見える音源距離の範囲を定義する。

距離ｒの関数としてのＤＯＦ曲線の例が、図１０ａに示される。

図１０は、フィールド深さの図例（図１０ａ）と、ローパスフィルタの遮断周波数の図例（図１０ｂ））と、繰り返し直進音のためのミリ秒の時間遅延の図例（図１０ｃ）とを示す。

図１０ａにおいて、焦点面から小さい距離の音源は、まだ鋭い。けれども、焦点面から大きい距離（より近いまたはカメラから更に遠いのいずれか一方）の音源は、ぼやけるように見える。従って、実施の形態に従って、対応する音源は、それらの映像および音響イメージが矛盾のないようにぼやける。

音響のぼやけと矛盾のない空間音再生を実現する式（２ａ）の利得Ｇ_i（ｋ，ｎ）およびＱを引き出すために、Ｐ（φ，ｒ）に置かれた音源がディスプレイ上に現われる角度が、考慮される。ぼやけた音源は、以下の式（３０）で表示される。

ｔａｎφ_b（ｋ，ｎ）＝βｃｔａｎφ（ｋ，ｎ）（３０）

ここで、ｃは測定パラメータである。β≧１は、ユーザーコントロールされたズームファクターである。φ（ｋ，ｎ）は、（写像された）ＤＯＡであり、例えば、パラメータ推定モジュール１０２の中で推定される。前述したように、そのような実施の形態の直進利得Ｇ_i（ｋ，ｎ）は、例えば、複数の直進利得関数ｇ_i,jから計算される。特に、２つの利得関数ｇ_i,1（φ（ｋ，ｎ））およびｇ_i,2（ｒ（ｋ，ｎ））が、例えば使われる。最初の利得関数はＤＯＡ φ（ｋ，ｎ）に依存し、２番目の利得関数は距離ｒ（ｋ，ｎ）に依存する。直進利得Ｇ_i（ｋ，ｎ）は、式（３１）と式（３２）と式（３３）とで計算される。

Ｇ_i（ｋ，ｎ）＝ｇ_i、1（φ（ｋ，ｎ））ｇ_i、2（ｒ（ｋ，ｎ））（３１）

ｇ_i、1（φ）＝ｐ_b,i（φ）ｗ_b(φ) （３２）

ｇ_i、2（ｒ）＝ｂ（ｒ）（３３）

ここで、ｐ_b,i（φ）は、パンニング利得関数を示す（音が右の方向から再生されることを保証するために）。ｗ_b（φ）は、窓利得関数である（仮に音源が映像の中で見えないならば、直進音が弱められることを保証するために）。ｂ（ｒ）は、ぼけ関数である（仮に、それらが焦点面上に置かれないならば、音源を音響的にぼやけさせるために）。

全ての利得関数が、定義された周波数依存（簡潔さのためにここでは省略される）であることは注目するべきである。この実施の形態において、直進利得Ｇ_iが、式（３２）に示すように、２つの異なる利得関数から選択されて乗算される利得によって見つけられることは更に注目するべきである。

両方の利得関数ｐ_b,i（φ）とｗ_b（φ）とは、上の説明のように相似に定義される。それらは、例えば式（２６）と（２７）とを使用して、例えば、利得関数計算モジュール１０４の中で計算される。それらは、ズームファクターβが変わらない限り、固定され続ける。これらの２つの関数の詳細な説明は、上で提供されている。ぼけ関数ｂ（ｒ）は、音源のぼやけ（例えば知覚の拡がり）を引き起こす複合利得を戻す。従って、全体利得関数ｇ_iが、一般に、複素数も戻す。シンプルさのために、以下において、ぼやけることは焦点面までの距離の関数ｂ（ｒ）として示される。

ぼやけ効果は、以下のぼやけ効果、ローパスフィルタリングや、遅延された直進音の追加や、直進音減衰や、時間的円滑化および／またはＤＯＡ拡がりの選択された１つまたは組み合わせとして得られる。従って、実施の形態に従って、信号プロセッサ１０５は、例えば、ローパスフィルタリングを実施することによって、または、遅延された直進音を追加することによって、または、直進音の減衰を実施することによって、または、時間的円滑化を実施することによって、または、到来方向の拡がりを実施することによって、１つ以上の音声出力信号を生成するように構成されている。

ローパスフィルタリング：映像において、鋭くない映像イメージはローパスフィルタリングによって得られる。それは、映像イメージの中の隣接ピクセルを効果的に合併する。相似によって、音響のぼやけ効果は、焦点面までの音源の推定距離ｒに基づいて選択された遮断周波数を持つ直進音のローパスフィルタリングによって、得られる。この場合、ぼけ関数ｂ（ｒ，ｋ）は、周波数ｋと距離ｒとのためのローパスフィルタ利得を戻す。１６ｋＨｚのサンプリング周波数のための一次のローパスフィルタの遮断周波数のための例示曲線が、図１０ｂに示される。小さい距離ｒに対して、遮断周波数はナイキスト周波数に近く、殆んどのローパスフィルタリングは効果的に実行されない。より大きい距離値に対して、遮断周波数は、音響イメージが十分にぼやける３ｋＨｚで、それが平らになるまで減少する。

遅延された直進音の追加：音源の音響イメージが鋭くないようにするために、例えば、我々は、いくらかの遅延τ（例えば１ｍ秒と３０ｍ秒との間）の後に、直進音を弱めることを繰り返すことによって、直進音を無相関にする。そのような処理は、例えば、式（３４）の複雑な利得関数に従って実行される。

ｂ（ｒ，ｋ）＝１＋α（ｒ）ｅ^-jωτ^(r) （３４）

ここで、αは、繰り返された音のための減衰利得を示す。τは、直進音が繰り返される後の遅延である。（ｍ秒の）例示遅延曲線は、図１０ｃの中で示される。小さな距離に対して、遅延された信号は繰り返されない。αは０に設定される。より大きい距離に対して、時間遅延は増加する距離と共に増大する。それは、音源を知覚的に拡げることを引き起こす。

直進音減衰：直進音は一定のファクターによって弱められるとき、音源もぼやけるように知覚される。この場合、ｂ（ｒ）＝定数＜１である。上述されたように、ぼけ関数ｂ（ｒ）は、記述のぼやけ効果のいくつか、または、これらの効果の組み合わせから成る。さらに、音源をぼやけさせる二者択一的処理が、使われる。

時間的円滑化：時間に亘る直進音の円滑化は、例えば、音源を知覚的にぼやけさせるために使用される。これは、時間に亘る取り出された直進信号の包絡線を円滑にすることによって達成される。

ＤＯＡ拡がり：音源を鋭くしないための別の方法は、推定された方向だけの代わりに方向の範囲から音源信号を再生することの中に存在する。これは、角度をランダム化すること、例えば、ランダムな角度を、推定されたφの周りに集中されたガウス分布から取り去ることによって達成される。そのような分布の変化を増大させること、そして、可能なＤＯＡの範囲を広げることが、ぼやけの知覚を増大する。

上で説明した相似により、利得関数計算モジュール１０４の中で拡散利得関数ｑ（β）を計算することは、いくつかの実施の形態において、再生のために利用可能なスピーカーの数Ｉの知識だけを必要とする。従って、拡散利得関数ｑ（β）は、そのような実施の形態において、応用のために要求されるように設定される。例えば、等しく間隔をおいて配置されたスピーカーのために、式（２ａ）の中の実数値の拡散音利得Ｑ∈［０，１／√Ｉ］が、ズームパラメータβに基づいて、利得選択ユニット２０２の中で選択される。拡散利得を使うことの目的は、ズーミングファクターに依存して、拡散音を弱めることである。例えば、ズーミングは、再生された信号のＤＲＲを増大する。これは、より大きいβに対して、Ｑを下げることによって達成される。事実、カメラの開口角度がより小さくなる手段の中のズーミング、例えば自然な音響の一致は、より小さい拡散音を捕える、より直進的なマイクロフォンである。この効果を擬態するために、私達は、例えば、図８の中で示された利得関数を使うことができる。明らかに、利得関数も異なって定義される。任意で、ｉ番目のスピーカーチャンネルのための最終的な拡散音Ｙ_diff,i（ｋ，ｎ）が、式（２ｂ）の中で得られたＹ_diff（ｋ，ｎ）を無相関にすることによって得られる。

今や、実施の形態は、補聴器および補助聞き取り装置への応用を実現することが考慮される。図１１はそのような補聴器応用を示す。

いくつかの実施の形態は、立体音の補聴器に関連する。この場合、それぞれの補聴器は、少なくとも１つのマイクロフォンを装備され、２つの補聴器の間で情報が交換されると仮定される。いくらかの補聴損失のため、聴覚障害の人は、望みの音に焦点を絞ること（例えば、特定のポイントまたは方向から来る音に集中すること）が難しいことを経験する。聴覚障害の人の脳が、補聴器によって再生される音を処理することを助けるために、音響イメージは、補聴器ユーザーの焦点ポイントまたは焦点方向と矛盾しない。焦点ポイントまたは焦点方向が、予め決められる、または、ユーザーが定義する、または、脳−機械インタフェースにより定義される、ことは想像可能である。そのような実施の形態は、望ましい音（焦点ポイントまたは焦点方向から到達するように仮定される）と、望ましくない音とが、空間的に分離して現れることを保証する。

そのような実施の形態において、直進音の方向は、異なる方法で推定される。実施の形態に従って、方向は、両方の補聴器を使って決定される相互聴覚レベル差（ＩＬＤ）および／または相互聴覚時間差（ＩＴＤ）に基づいて決定される（［１５］と［１６］とを参照してください）。

別の実施の形態に従って、左右の直進音の方向は、少なくとも２つのマイクロフォンを装備される補聴器を独立して使用して推定される（［１７］を参照してください）。推定された方向は、左右の補聴器で音圧レベルに基づいて、または、左右の補聴器で空間的コヒーレンスに基づいて、細かい。頭を影で覆っている効果（ヘッドシャドウ効果）のため、異なる推定器が、異なる周波数帯のために採用される（例えば、高周波のＩＬＤおよび低周波のＩＴＤ）。

いくつかの実施の形態において、直進音信号および拡散音信号は、例えば、前述のインフォームド空間フィルタリング技術を使用して推定される。この場合、左右の補聴器で受信されるような直進音および拡散音は、別々に（例えば、参照マイクロフォンを交換することによって）推定される。または、左右の出力信号は、それぞれ、左右の補聴器出力のための利得関数を使用して生成される。同様に、異なるスピーカーまたはヘッドホーン信号は、前の実施の形態において得られる。

望ましい音と望ましくない音を空間的に分離するために、前記の実施の形態の中で説明した音響ズームが適用される。この場合、焦点ポイントまたは焦点方向は、ズームファクターを決定する。

従って、実施の形態に従って、補聴器または補助聞き取り装置が提供される。補聴器または補助聞き取り機器は、上で説明したシステムを含む。信号プロセッサ１０５は、例えば焦点方向または焦点ポイントに依存して、１つ以上の音声出力信号のそれぞれのための直進利得を決定する。

実施の形態において、上で説明したシステムの信号プロセッサ１０５は、例えば、ズーム情報を受信するように構成されている。上で説明したシステムの信号プロセッサ１０５は、例えば、窓利得関数に依存して、１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。窓利得関数はズーム情報に依存する。図７ａと図７ｂと図７ｃに関連して説明したと同じ概念が、採用される。

仮に、窓関数議論が、焦点方向または焦点ポイントに依存して、下部の閾値より大きく、上部の閾値より小さいならば、窓利得関数は、どの窓利得より大きい窓利得に戻すように、仮に、窓関数議論が下部の閾値より小さいか、または、上部の閾値より大きいならば、窓利得関数は、窓利得関数によって戻されるように、構成されている。

例えば、焦点方向の場合、焦点方向自身は窓関数議論である（従って、窓関数議論は焦点方向に依存する）。焦点位置の場合、窓関数議論は、例えば、焦点位置から引き出される。

同様に、本発明は、補助聞き取り装置またはグーグル・グラス（商標名）などの装置を含む他の装着可能な装置に適用される。いくつかの装着可能な装置も、対象物から装置を装着している人までの距離を推定するために使用される１つ以上のカメラまたはＴｏＦセンサーを装備されることに注目するべきである。

いくつかの面が装置の文脈の中で説明されるけれども、これらの面も、対応する方法の説明を表すことは明確である。ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。相似的に、方法ステップの文脈の中で説明した面も、対応するブロックまたはアイテムまたは対応する装置の特徴を表す。

本発明の分解された信号は、デジタル記憶媒体に記録される、または、無線送信媒体などの送信媒体、または、インターネットなどの有線送信媒体で送信される。

特定の実施要件に依存して、本発明の実施の形態は、ハードウェアまたはソフトウェアにおいて実施される。実施は、それぞれの方法が実行されるプログラム化可能なコンピュータシステムと協働する（または、協働する可能性がある）、その上に記録された電気的に読み取り可能な制御信号を持っているデジタル記憶媒体（例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはフラッシュメモリ〉を使用して実行される。

本発明に従って、いくつかの実施の形態は、プログラム化可能なコンピュータシステムと協働する可能性がある電気的に読み取り可能な制御信号を持っている非一時的なデータキャリアから成る。ここに説明された方法のうちの１つは実行される。

一般に、本発明の実施の形態は、プログラムコードを持つコンピュータプログラム製品として実施される。コンピュータプログラム製品がコンピュータ上を稼働するとき、プログラムコードは、方法のうちの１つを実行するために働く。プログラムコードは、例えば、機械読み取り可能なキャリアに記録される。

別の実施の形態は、ここに説明された方法のうちの１つを実行するためのコンピュータプログラムから成り、機械読み取り可能なキャリア上に記録される。

すなわち、本発明の方法の実施の形態は、従って、コンピュータプログラムがコンピュータ上を稼働するとき、ここに説明された方法のうちの１つを実行するためのプログラムコードを持っているコンピュータプログラムである。

本発明の方法の別の実施の形態は、従って、ここに説明された方法のうちの１つを実行するためのコンピュータプログラムを含み、そこに記録されたデータキャリア（または、デジタル記憶媒体、または、コンピュータ可読メディア）である。

本発明の方法の別の実施の形態は、従って、ここに説明された方法のうちの１つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。データストリームまたは信号の連続は、例えばデータ通信接続を経て（例えばインターネットを経て）、転送されるように構成される。

別の実施の形態は、例えば、処理手段、例えば、ここに説明された方法のうちの１つを実行するように構成または採用された、コンピュータまたはプログラム可能な論理装置から成る。

別の実施の形態は、ここに説明された方法のうちの１つを実行するためのコンピュータプログラムを、その上にインストールしているコンピュータから成る。

いくつかの実施の形態において、プログラム可能な論理装置（例えば、フィールドプログラム可能ゲートアレイ）は、ここに説明された方法の関数のうちの幾つかまたは全てを実行するために使用される。幾つかの実施の形態において、フィールドプログラム可能ゲートアレイは、ここに説明された方法のうちの１つを実行するために、マイクロプロセッサーと協働される。一般に、方法は、好ましくは、どのハードウェア装置によっても実行される。

上記の説明された実施の形態は、単に、本発明の原則のために説明される。ここに説明された配列と詳細の部分変形と変化とが当業者に明白であることは理解される。それは意思である。従って、ここの実施の形態の記述と説明を経て提供された特定の詳細ではなく、差し迫った特許請求の範囲によってのみ制限される。

参考文献
[1] Y. Ishigaki, M. Yamamoto, K. Totsuka, and N. Miyaji, "Zoom microphone," in Audio Engineering Society Convention 67, Paper 1713, October 1980.

[2] M. Matsumoto, H. Naono, H. Saitoh, K. Fujimura, and Y. Yasuno, "Stereo zoom microphone for consumer video cameras," Consumer Electronics, IEEE Transactions on, vol. 35, no. 4, pp. 759-766, November 1989. August 13, 2014

[3] T. van Waterschoot, W. J. Tirry, and M. Moonen, "Acoustic zooming by multi microphone sound scene manipulation," J. Audio Eng. Soc, vol. 61, no. 7/8, pp. 489-507, 2013.

[4] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, June 2007.

[5] R. Schultz-Amling, F. Kuech, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, Paper 8120, London UK, May 2010.

[6] O. Thiergart, G. Del Galdo, M. Taseska, and E. Habets, "Geometry-based spatial sound acquisition using distributed microphone arrays," Audio, Speech, and Language Processing, IEEE Transactions on, vol. 21, no. 12, pp. 2583-2594, December 2013.

[7] K. Kowalczyk, O. Thiergart, A. Craciun, and E. A. P. Habets, "Sound acquisition in noisy and reverberant environments using virtual microphones," in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on, October 2013.

[8] O. Thiergart and E. A. P. Habets, "An informed LCMV filter based on multiple instantaneous direction-of-arrival estimates," in Acoustics Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, 2013, pp. 659-663.

[9] O. Thiergart and E. A. P. Habets, "Extracting reverberant sound using a linearly constrained minimum variance spatial filter," Signal Processing Letters, IEEE, vol. 21, no. 5, pp. 630-634, May 2014.

[10] R. Roy and T. Kailath, "ESPRIT-estimation of signal parameters via rotational invariance techniques," Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 37, no. 7, pp. 984-995, July 1989.

[11] B. Rao and K. Hari, "Performance analysis of root-music," in Signals, Systems and Computers, 1988. Twenty-Second Asilomar Conference on, vol. 2, 1988, pp. 578-582.

[12] H. Teutsch and G. Elko, "An adaptive close-talking microphone array," in Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, 2001, pp. 163-166.

[13] O. Thiergart, G. D. Galdo, and E. A. P. Habets, "On the spatial coherence in mixed sound fields and its application to signal-to-diffuse ratio estimation," The Journal of the Acoustical Society of America, vol. 132, no. 4, pp. 2337-2346, 2012.

[14] V. Pulkki, "Virtual sound source positioning using vector base amplitude panning," J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997.

[15] J. Blauert, Spatial hearing, 3rd ed. Hirzel-Verlag, 2001.

[16] T. May, S. van de Par, and A. Kohlrausch, "A probabilistic model for robust localization based on a binaural auditory front-end," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 1, pp. 1-13, 2011.

[17] J. Ahonen, V. Sivonen, and V. Pulkki, "Parametric spatial sound processing applied to bilateral hearing aids," in AES 45th International Conference, Mar. 2012.

Claims

２つ以上の音声出力信号を生成するためのシステムであって、
分解モジュール（１０１）と、
信号プロセッサ（１０５）と、
出力インタフェース（１０６）と、を備え、
前記分解モジュール（１０１）は、２つ以上の音声入力信号を受信するように構成され、前記分解モジュール（１０１）は、前記２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、前記分解モジュール（１０１）は、前記２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成され、
前記信号プロセッサ（１０５）は、前記直進コンポーネント信号および前記拡散コンポーネント信号および方向情報を受信するように構成され、前記方向情報は、前記２つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存し、
前記信号プロセッサ（１０５）は、前記拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成され、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、前記信号プロセッサ（１０５）は、前記到来方向に依存して直進利得を決定するように構成され、前記信号プロセッサ（１０５）は、処理された直進信号を得るために、前記直進利得を前記直進コンポーネント信号に適用するように構成され、そして、前記信号プロセッサ（１０５）は、前記音声出力信号を生成するために、前記処理された直進信号と前記１つ以上の処理された拡散信号のうちの１つとを結合するように構成され、そして
前記出力インタフェース（１０６）は、前記２つ以上の音声出力信号を出力するように構成され、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、
前記２つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数が、前記パンニング関数議論値のうちの１つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記１つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、
前記信号プロセッサ（１０５）は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存して、かつ、窓利得関数に依存している前記２つ以上の音声出力信号のそれぞれについて、直進利得関数を計算するための利得関数計算モジュール（１０４）を備え、そして、
前記信号プロセッサ（１０５）は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも１つは、前記配向情報に依存する、または、
前記利得関数計算モジュール（１０４）は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも１つは、前記ズーム情報に依存すること、
を特徴とするシステム。
前記２つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、前記パンニング関数議論値のうちの１つである１つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の前記１つ以上のグローバル最大値のそれぞれについて、前記パンニング利得関数が前記グローバル最大値に対してよりも大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、そして、
前記２つ以上の音声出力信号の第１の音声出力信号および第２の音声出力信号のペアのそれぞれについて、前記第１の音声出力信号の前記パンニング利得関数の前記１つ以上のグローバル最大値の少なくとも１つが、前記第２の音声出力信号の前記パンニング利得関数の前記１つ以上のグローバル最大値の何れとも異なること、
を特徴とする請求項１に記載のシステム。
前記信号プロセッサ（１０５）は、窓利得関数に依存して、前記２つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成され、
前記窓利得関数は、窓関数議論値を受信するとき、窓関数リターン値を戻すように構成され、
仮に前記窓関数議論値が、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、前記窓利得関数は、何れの窓関数リターン値よりも大きい窓関数リターン値を戻すように構成され、仮に前記窓関数議論値が、前記下部の窓閾値より小さく、あるいは、前記上部の窓閾値より大きいならば、前記窓利得関数は、前記窓利得関数によって戻されるように構成されていること、
を特徴とする請求項１又は請求項２に記載のシステム。
前記利得関数計算モジュール（１０４）は、測定パラメータをさらに受信するように構成され、前記パンニング利得関数と前記窓利得関数との少なくとも１つが、前記測定パラメータに依存すること、
を特徴とする請求項１〜請求項３のいずれかに記載のシステム。
前記信号プロセッサ（１０５）は、距離情報を受信するように構成され、
前記信号プロセッサ（１０５）は、前記距離情報に依存している前記２つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されていること、
を特徴とする請求項１〜請求項４のいずれかに記載のシステム。
前記信号プロセッサ（１０５）は、前記２つ以上の音声入力信号の前記直進信号コンポーネントの前記到来方向であるオリジナルの到来方向に依存して、オリジナルの角度値を受信するように構成され、かつ、前記距離情報を受信するように構成され、
前記信号プロセッサ（１０５）は、前記オリジナル角度値に依存して、かつ、前記距離情報に依存して、修正された角度値を計算するように構成され、そして、
前記信号プロセッサ（１０５）は、前記修正された角度値に依存して、前記２つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されていること、
を特徴とする請求項５に記載のシステム。
前記信号プロセッサ（１０５）は、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、到来方向の拡がりを実行することによって、または、非相関性を実行することによって、前記２つ以上の音声出力信号を生成するように構成されていること、
を特徴とする請求項５または請求項６に記載のシステム。
前記信号プロセッサ（１０５）は、２つ以上の音声出力チャンネルを生成するように構成され、
前記信号プロセッサ（１０５）は、中間的拡散信号を得るために、拡散利得を前記拡散コンポーネント信号に適用するように構成され、そして、
前記信号プロセッサ（１０５）は、非相関性を実行することによって、前記中間的拡散信号から１つ以上の非相関性信号を生成するように構成され、
前記１つ以上の非相関性信号は、前記１つ以上の処理された拡散信号を形成する、または、前記中間的拡散信号および前記１つ以上の非相関性信号は、前記１つ以上の処理された拡散信号を形成すること、
を特徴とする請求項１〜請求項７のいずれかに記載のシステム。
前記直進コンポーネント信号および１つ以上の別の直進コンポーネント信号は、２つ以上の直進コンポーネント信号のグループを形成し、前記分解モジュール（１０１）は、前記２つ以上の音声入力信号の別の直進信号コンポーネントを含む前記１つ以上の別の直進コンポーネント信号を生成するように構成され、
前記到来方向および１つ以上の別の到来方向は、２つ以上の到来方向のグループを形成し、前記２つ以上の到来方向の前記グループのそれぞれの到来方向は、前記２つ以上の直進コンポーネント信号の前記グループの正確に１つの直進コンポーネント信号に割り当てられ、前記２つ以上の直進コンポーネント信号の直進コンポーネント信号の数と前記２つの到達方向の前記到来方向の数とが等しく、
前記信号プロセッサ（１０５）は、前記２つ以上の直進コンポーネント信号の前記グループと前記２つ以上の到達方向の前記グループとを受信するように構成され、そして、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、
前記信号プロセッサ（１０５）は、前記２つ以上の直進コンポーネント信号の前記グループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の前記到来方向に依存して、直進利得を決定するように構成され、
前記信号プロセッサ（１０５）は、前記２つ以上の直進コンポーネント信号の前記グループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の前記直進利得を前記直進コンポーネント信号に適用することによって、２つ以上の処理された直進信号のグループを生成するように構成され、そして、
前記信号プロセッサ（１０５）は、前記音声出力信号を生成するために、前記１つ以上の処理された拡散信号のうちの１つと、前記２つ以上の処理された信号の前記グループのそれぞれの処理された信号と、を結合するように構成されていること、
を特徴とする請求項１〜請求項８のいずれかに記載のシステム。
前記２つ以上の直進コンポーネント信号の前記グループの前記直進コンポーネント信号の数プラス１は、前記システムの受信インタフェース（１０１）によって受信されている前記音声入力信号の数より小さいこと、を特徴とする請求項９に記載のシステム。
請求項１〜請求項１０のいずれか１つに記載されたシステムを含むことを特徴とする補聴器または補助聞き取り装置。
２つ以上の音声出力信号を生成するための装置であって、
信号プロセッサ（１０５）と、
出力インタフェース（１０６）と、を備え、
前記信号プロセッサ（１０５）は、２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、前記信号プロセッサ（１０５）は、前記２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、前記信号プロセッサ（１０５）は、方向情報を受信するように構成され、前記方向情報は、前記２つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存し、
前記信号プロセッサ（１０５）は、前記拡散コンポーネント信号に依存して、１つ以上の処理された拡散信号を生成するように構成され、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、前記信号プロセッサ（１０５）は、前記到来方向に依存して直進利得を決定するように構成され、前記信号プロセッサ（１０５）は、処理された直進信号を得るために、前記直進利得を前記直進コンポーネント信号に適用するように構成され、そして、前記信号プロセッサ（１０５）は、前記音声出力信号を生成するために、前記処理された直進信号と前記１つ以上の処理された拡散信号のうちの１つとを結合するように構成され、そして、
前記出力インタフェース（１０６）は、前記２つ以上の音声出力信号を出力するように構成され、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、
前記２つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数は、前記パンニング関数議論値のうちの１つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記１つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、
前記信号プロセッサ（１０５）は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存し、かつ、窓利得関数に依存している前記２つ以上の音声出力信号のそれぞれのために、直進利得関数を計算するための利得関数計算モジュール（１０４）を備え、そして、
前記信号プロセッサ（１０５）は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも１つは、前記配向情報に依存する、または、
前記利得関数計算モジュール（１０４）は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも１つは、前記ズーム情報に依存すること、
を特徴とする装置。
２つ以上の音声出力信号を生成するための方法であって、
２つ以上の音声入力信号を受信し、
前記２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
前記２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
前記２つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存している方向情報を受信し、
前記拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、前記到来方向に依存して直進利得を決定し、処理された直進信号を得るために、前記直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、前記処理された直進信号と前記１つ以上の処理された拡散信号のうちの１つとを結合し、そして、
前記２つ以上の音声出力信号を出力し、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、前記２つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数は、前記パンニング関数議論値のうちの１つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記１つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、そして、
前記方法は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存して、かつ、窓利得関数に依存して、前記２つ以上の音声出力信号のそれぞれについて、直進利得関数を計算することをさらに含み、
前記方法は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数との少なくとも１つは、前記配向情報に依存する、または、
前記方法は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも１つは、前記ズーム情報に依存すること、
を特徴とする方法。
２つ以上の音声出力信号を生成するための方法であって、
２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
前記２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は前記２つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存し、
前記拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、前記到来方向に依存して直進利得を決定し、処理された直進信号を得るために、前記直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、前記処理された直進信号と前記１つ以上の処理された拡散信号のうちの１つとを結合し、そして、
前記２つ以上の音声出力信号を出力し、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、
前記２つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数が、前記パンニング関数議論値のうちの１つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記１つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、そして、
前記方法は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存して、かつ、窓利得関数に依存して、前記２つ以上の音声出力信号のそれぞれについて、直進利得関数を計算することをさらに含み、
前記方法は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数との少なくとも１つは、前記配向情報に依存する、または、
前記方法は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも１つは、前記ズーム情報に依存すること、
を特徴とする方法。
コンピュータプログラムがコンピュータ上もしくは信号プロセッサ上で実行されると、前記コンピュータもしくは前記信号プロセッサが請求項１３または請求項１４の方法を実行する、コンピュータプログラム。