JP2017517948A5

JP2017517948A5 -

Info

Publication number: JP2017517948A5
Application number: JP2016564335A
Authority: JP
Filing date: 2015-04-23
Publication date: 2018-08-16
Anticipated expiration: 2035-04-23

Description

柔軟な空間音の録音と再生のための周知の取り組みは、方向音声コード化（ＤｉｒＡＣ）［４］に表されている。ＤｉｒＡＣにおいて、近端側の空間音は、音声信号およびパラメータ副情報、すなわち、音の到来方向（ＤＯＡ）および拡散性について説明される。パラメータの説明は、任意のスピーカーセットアップによって、オリジナルの空間イメージの再生を可能にする。これは、遠端側で再創成された空間イメージが、近端側で録音されている間、空間イメージと矛盾しないことを意味する。しかし、仮に、例えば、映像が、録音された音声を誉めているならば、再生された空間音は必ずしも映像イメージに合わされない。さらに、映像イメージが変化するとき、例えば、カメラの視方向とズームとが変更されるとき、再生された音響イメージは調整できない。これは、ＤｉｒＡＣが、再生された音響イメージを、任意の望ましい空間イメージに適合させる可能性を提供しないことを意味している。

１つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、２つ以上の音声入力信号を受信するように構成され、分解モジュールは、２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散信号コンポーネント信号および方向情報を受信するように構成され、方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成されている。１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と１つ以上の処理された拡散信号のうちの１つとを結合するように構成されている。出力インタフェースは、１つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、１つ以上の利得関数を計算するための利得関数計算モジュールを含み、１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の１つを受信するとき、前記利得関数は、前記利得関数議論値のうちの１つに割り当てられている利得関数リターン値に戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた利得関数リターン値に依存する１つ以上の音声出力信号のうちの少なくとも１つの音声出力信号の利得値を決定するために、到来方向に依存して、１つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。

実施の形態に従って、利得関数計算モジュールは、例えば、１つ以上の利得関数のそれぞれの利得関数のために、ルックアップ・テーブルを生成するように構成され、ルックアップ・テーブルは複数のエントリーを含み、ルックアップ・テーブルのそれぞれのエントリーは利得関数議論値のうちの１つと、１つの利得関数議論値に割り当てられている利得関数リターン値とを含み、利得関数計算モジュールは、例えば、それぞれの利得関数のルックアップ・テーブルを持続的な又は非持続的なメモリーに記憶するように構成され、信号変更器は、例えば、メモリーに記憶されている１つ以上のルックアップ・テーブルのうちの１つから、前記利得関数リターン値を読み出すことによって、前記方向依存議論値に割り当てられている利得関数リターン値を得るように構成されている。

実施の形態に従って、２つ以上の音声出力信号のそれぞれのパンニング利得関数は、例えば、前記パンニング利得関数の利得関数議論値のうちの１つである１つ以上のグローバル最大値を持ち、前記パンニング利得関数の１つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値のためより大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、２つ以上の音声出力信号の第１の音声出力信号および第２の音声出力信号のペアのそれぞれについて、第１の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値の少なくとも１つが、例えば、第２の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値の何れとも異なる。

実施の形態において、２つ以上の音声出力信号のそれぞれの窓利得関数は、前記窓利得関数の利得関数議論値のうちの１つである１つ以上のグローバル最大値を持ち、前記窓利得関数の１つ以上のグローバル最大値のそれぞれのために、窓利得関数が前記グローバル最大値より大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、２つ以上の音声出力信号の第１の音声出力信号および第２の音声出力信号のペアのそれぞれについて、第１の音声出力信号の窓利得関数の１つ以上のグローバル最大値の少なくとも１つが、例えば、第２の音声出力信号の窓利得関数の１つ以上のグローバル最大値の１つと等しい。

実施の形態に従って、利得関数計算モジュールは、例えば、到来方向についての視方向の角度シフトを示している配向情報を更に受信するように構成され、利得関数計算モジュールは、例えば、配向情報に依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。

さらに、１つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、信号プロセッサは、２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、信号プロセッサは、方向情報を受信するように構成され、前記方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成されている。１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号のうちの１つとを結合するように構成されている。出力インタフェースは、１つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、１つ以上の利得関数を計算するための利得関数計算モジュールを含み、１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の１つを受信するとき、前記利得関数が、前記利得関数議論値のうちの１つに割り当てられた利得関数リターン値を戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存している１つ以上の音声出力信号のうちの少なくとも１つの音声出力信号の利得値を決定するために、到来方向に依存して、１つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。

さらに、１つ以上の音声出力信号を生成するための方法が提供される。方法は、
２つ以上の音声入力信号を受信し、
２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
１つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号の１つとを結合し、そして、
１つ以上の音声出力信号を出力すること、を含む。

１つ以上の音声出力信号を生成することは、１つ以上の利得関数を計算することを含み、１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの１つを受信するとき、前記利得関数が、前記利得関数議論値のうちの１つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、１つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する１つ以上の音声出力信号のうちの少なくとも１つの音声出力信号の利得値を決定するために、到来方向に依存して、１つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。

さらに、１つ以上の音声出力信号を生成するための方法が提供される。方法は、
２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、方向情報は２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
１つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号の１つとを結合し、そして、
１つ以上の音声出力信号を出力すること、を含む。

さらに、１つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、２つ以上の音声入力信号を受信するように構成され、分解モジュールは、２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散コンポーネント信号および方向情報を受信するように構成され、方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成されている。１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と１つ以上の処理された拡散信号のうちの１つとを結合するように構成されている。出力インタフェースは、１つ以上の音声出力信号を出力するように構成されている。

実施の形態に従って、信号プロセッサは、例えば、２つ以上の音声出力信号を決定するように構成され、２つ以上の音声出力信号のそれぞれの音声出力信号のために、パンニング利得関数は、例えば、前記音声出力信号に割り当てられ、２つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、例えば、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数が、前記パンニング関数議論値の１つを受信するとき、前記パンニング利得関数が、例えば、前記パンニング関数議論値の前記１つに割り当てられているパンニング関数リターン値を戻すように構成され、そして、信号プロセッサは、例えば、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の方向依存議論値に依存している２つ以上の音声出力信号のそれぞれを決定するように構成され、前記方向依存議論値は、到来方向に依存する。

実施の形態において、２つ以上の音声出力信号のそれぞれのパンニング利得関数は、パンニング関数議論値のうちの１つである１つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の１つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値より大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、２つ以上の音声出力信号の第１の音声出力信号および第２の音声出力信号のペアのそれぞれについて、第１の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値の少なくとも１つが、例えば、第２の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値の何れとも異なる。

実施の形態において、信号プロセッサは、例えば、到来方向について視方向の角度シフトを示している配向情報をさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも１つが、配向情報に依存する。または、利得関数計算モジュールは、例えば、ズーム情報をさらに受信するように構成され、ズーム情報は、カメラの開口角度を示し、パンニング利得関数と窓利得関数との少なくとも１つが、ズーム情報に依存する。または、利得関数計算モジュールは、例えば、測定パラメータをさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも１つが、測定パラメータに依存する。

実施の形態に従って、信号プロセッサは、例えば、２つ以上の音声入力信号の直進信号コンポーネントの到来方向であるオリジナルの到来方向に依存しているオリジナルの角度値を受信するように構成され、そして、例えば、距離情報を受信するように構成されている。信号プロセッサは、例えば、オリジナル角度値に依存し、かつ、距離情報に依存している修正された角度値を計算するように構成されている。そして、信号プロセッサは、例えば、修正された角度値に依存している１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。

実施の形態に従って、信号プロセッサは、例えば、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、到来方向の拡がりを実行することによって、または、非相関性を実行することによって、１つ以上の音声出力信号を生成するように構成されている。

実施の形態に従って、直進コンポーネント信号および１つ以上の別の直進コンポーネント信号は、２つ以上の直進コンポーネント信号のグループを形成する。分解モジュールは、例えば、２つ以上の音声入力信号の別の直進信号コンポーネントを含む１つ以上の別の直進コンポーネント信号を生成するように構成されている。到来方向および１つ以上の別の到来方向は、２つ以上の到来方向のグループを形成する。２つ以上の到来方向のグループのそれぞれの到来方向は、例えば、２つ以上の直進コンポーネント信号のグループのちょうど１つの直進コンポーネント信号に割り当てられる。２つ以上の直進コンポーネント信号の直進コンポーネント信号の数と２つの到来方向の到来方向の数とは、例えば等しい。信号プロセッサは、例えば、２つ以上の直進コンポーネント信号のグループと２つ以上の到来方向のグループとを受信するように構成されている。そして、１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、例えば、２つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の到来方向に依存している直進利得を決定するように構成されている。信号プロセッサは、例えば、２つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の直進利得を前記直進コンポーネント信号に適用することによって、２つ以上の処理された直進信号のグループを生成するように構成されている。そして、信号プロセッサは、例えば、前記音声出力信号を生成するために、１つ以上の処理された拡散信号のうちの１つと、２つ以上の処理された信号のグループのそれぞれの処理された信号と、を結合するように構成されている。

さらに、上述したシステムを含む補聴器または補助聞き取り装置が、例えば、提供される。

さらに、１つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成されている。信号プロセッサは、２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成されている、信号プロセッサは、方向情報を受信するように構成され、方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成されている。１つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成されている。信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成されている。そして、信号プロセッサは、音声出力信号を生成するために、前記処理された直進信号と１つ以上の処理された拡散信号のうちの１つとを結合するように構成されている。出力インタフェースは、１つ以上の音声出力信号を出力するように構成されている。

さらに、１つ以上の音声出力信号を生成するための方法が提供される。方法は、
２つ以上の音声入力信号を受信し、
２つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
２つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
１つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号の１つとを結合し、そして、
１つ以上の音声出力信号を出力すること、を含む。

さらに、１つ以上の音声出力信号を生成するための方法が提供される。方法は、
２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成し、
１つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、音声出力信号を生成するために、処理された直進信号と１つ以上の処理された拡散信号の１つとを結合し、そして、
１つ以上の音声出力信号を出力すること、を含む。

図１ａは、１つ以上の音声出力信号を生成するためのシステムを説明する。システムは、分解モジュール１０１と信号プロセッサ１０５と出力インタフェース１０６とを含む。

分解モジュール１０１は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の直進信号コンポーネントを含む直進コンポーネント信号Ｘ_dir（ｋ，ｎ）を生成するように構成されている。さらに、分解モジュール１０１は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の拡散信号コンポーネントを含む拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）を生成するように構成されている。

信号プロセッサ１０５は、直進コンポーネント信号Ｘ_dir（ｋ，ｎ）と拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）と方向情報とを受信するように構成され、前記方向情報は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向に依存している。

１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）のそれぞれの音声出力信号Ｙ_i（ｋ，ｎ）のために、信号プロセッサ１０５は、到来方向に依存して直進利得Ｇ_i（ｋ，ｎ）を決定するように構成されている。信号プロセッサ１０５は、処理された直進信号Ｙ_dir,i（ｋ，ｎ）を得るために、前記直進利得Ｇ_i（ｋ，ｎ）を直進コンポーネント信号Ｘ_dir（ｋ，ｎ）に適用するように構成されている。そして、信号プロセッサ１０５は、音声出力信号Ｙ_i（ｋ，ｎ）を生成するために、前記処理された直進信号Ｙ_dir,i（ｋ，ｎ）と１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）の１つＹ_diff,i（ｋ，ｎ）とを結合するように構成されている。

概説したように、方向情報は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向φ（ｋ，ｎ）に依存する。例えば、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向は、例えば方向情報自身である。または、例えば方向情報は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の直進信号コンポーネントの伝播方向である。到来方向が、受信マイクロフォン配列から音源までを示しながら、伝播方向は、音源から受信マイクロフォン配列までを示す。従って、伝播方向は、到来方向の逆方向を正確に示し、それ故、到来方向に依存する。

１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）の１つＹ_i（ｋ，ｎ）を生成するために、信号プロセッサ１０５は、
到来方向に依存して、直進利得Ｇ_i（ｋ，ｎ）を決定し、
処理された直進信号Ｙ_dir,i（ｋ，ｎ）を得るために、前記直進利得Ｇ_i（ｋ，ｎ）を直進コンポーネント信号Ｘ_dir（ｋ，ｎ）に適用し、
前記音声出力信号Ｙ_i（ｋ，ｎ）を生成するために、前記処理された直進信号Ｙ_dir,i（ｋ，ｎ）と１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）の１つＹ_diff,i（ｋ，ｎ）とを結合する。

分解モジュール１０１は、例えば、１つ以上の音声入力信号を、直進コンポーネント信号と拡散コンポーネント信号とに分解することによって、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の直進信号コンポーネントを含む直進コンポーネント信号Ｘ_dir（ｋ，ｎ）と、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…ｘ_p（ｋ，ｎ）の拡散信号コンポーネントを含む拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）とを生成するように構成されている。

図１ａの実施の形態は、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向を考慮する。従って、音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）は、直進コンポーネント信号Ｘ_dir（ｋ，ｎ）と到来方向に依存している拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）とを柔軟に適合することによって生成される。高度な適応化可能性が達成される。

図１ｂの装置は、信号プロセッサ１０５と出力インタフェース１０６とを含む。

信号プロセッサ１０５は、２つ以上のオリジナルの音声信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）（例えば、図１ａの音声入力信号）の直進信号コンポーネントを含む直進コンポーネント信号Ｘ_dir（ｋ，ｎ）を受信するように構成されている。さらに、信号プロセッサ１０５は、２つ以上のオリジナルの音声信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の拡散信号コンポーネントを含む拡散コンポーネント信号Ｘ_diff（ｋ，ｎ）を受信するように構成されている。さらに、信号プロセッサ１０５は、方向情報を受信するように構成されている。前記方向情報は、２つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。

１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）のそれぞれの音声出力信号Ｙ_i（ｋ，ｎ）のために、信号プロセッサ１０５は、到来方向に依存して、直進利得Ｇ_i（ｋ，ｎ）を決定するように構成されている。信号プロセッサ１０５は、処理された直進信号Ｙ_dir,i（ｋ，ｎ）を得るために、前記直進利得Ｇ_i（ｋ，ｎ）を直進コンポーネント信号Ｘ_dir（ｋ，ｎ）に適用するように構成されている。そして、信号プロセッサ１０５は、前記音声出力信号Ｙ_i（ｋ，ｎ）を生成するために、前記処理された直進信号Ｙ_dir,i（ｋ，ｎ）と１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）の１つＸ_diff,i（ｋ，ｎ）とを結合するように構成されている。

図１ｃは別の実施の形態に従っているシステムを示す。図１ｃにおいて、図１ａの信号生成器１０５は、１つ以上の利得関数を計算するための利得関数計算モジュール１０４を更に含む。１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含む。利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられる。前記利得関数が前記利得関数議論値の１つを受信するとき、前記利得関数は、前記利得関数議論値の前記１つに割り当てられている利得関数リターン値を戻すように構成されている。

さらに、信号プロセッサ１０５は、到来方向に依存して、直進依存議論値を、１つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している１つ以上の音声出力のうちの少なくとも１つの利得値を決定するための信号変更器１０３を更に含む。

例えば、遠端側で、特定の重み付けが、例えば、結果として生じている音声出力信号が、望ましい空間イメージに矛盾しないように、再生された音響イメージを適合する取り出された直進音と拡散音とに適用される。これらの重み付けは、例えば音響ズーム効果および依存を、例えば直進音の到来方向（ＤＯＡ）上に、および、例えばズーミングファクターおよび／またはカメラの視方向上にモデルを作る。最終的な音声出力信号は、例えば、それ故、重み付けされた直進音と拡散音とを合計することによって得られる。

図２は実施の形態に従っているシステムを説明する。近端側はモジュール１０１と１０２とから成っている。遠端側はモジュール１０５と１０６とを含む。モジュール１０５自身は、モジュール１０３と１０４とから成っている。参照が近端側と遠端側にされるとき、いくつかの実施の形態において、第１の装置が近端側（例えば、モジュール１０１と１０２とから成っている）を実行し、第２の装置が遠端側（例えば、モジュール１０３と１０４とから成っている）を実行することが理解される。一方、別の実施の形態において、１つの装置が、遠端側だけでなく近端側を実行する。そのような１つの装置は、例えば、モジュール１０１と１０２と１０３と１０４とから成っている。

特に、図２は、分解モジュール１０１と、パラメータ推定モジュール１０２と、信号プロセッサ１０５と、出力インタフェース１０６とを含む実施の形態に従っているシステムを説明する。図２において、信号プロセッサ１０５は、利得関数計算モジュール１０４と信号変更器１０３とを含む。信号プロセッサ１０５と出力インタフェース１０６とは、例えば、図１ｂによって説明される装置を実現する。

図２において、とりわけ、パラメータ推定モジュール１０２は、例えば、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）を受信するように構成されている。さらに、パラメータ推定モジュール１０２は、例えば、２つ以上の音声入力信号に依存している２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の直進信号コンポーネントの到来方向を推定するように構成されている。信号プロセッサ１０５は、例えば、パラメータ推定モジュール１０２から２つ以上の音声入力信号の直進信号コンポーネントの到来方向を含む到来方向情報を受信するように構成されている。

実施の形態に従って、１つの時間−周波数当たり１つ以上の平面波が、例えば、特に処理される。例えば、２つの異なる方向から同じ周波数帯の２つ以上の平面波が、例えば、マイクロフォン配列によって同じ時間ポイントに録音されるように到達する。これらの２つの平面波は、それぞれ、異なる到来方向を持つ。そのようなシナリオにおいて、２つ以上の平面波の直進信号コンポーネントおよびそれらの到来方向が、例えば、別々に考慮される。

実施の形態に従って、直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）と１つ以上の別の直進コンポーネント信号Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）は、例えば、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）…、Ｘ_{dir q}（ｋ）のグループを形成する。分解モジュール１０１は、例えば、２つ以上の音声入力信号ｘ₁（ｋ，ｎ）、ｘ₂（ｋ，ｎ）、…、ｘ_p（ｋ，ｎ）の別の直進信号コンポーネントを含む１つ以上の別の直進コンポーネント信号Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）を生成するように構成されている。

到来方向と１つ以上の別の到来方向は、２つ以上の到来方向のグループを形成する。２つ以上の到来方向のグループのそれぞれの到来方向は、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q,m}（ｋ，ｎ）のグループの１つの直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）に正確に割り当てられる。２つ以上の直進コンポーネント信号の直進コンポーネント信号の数と、２つの到来方向の到来方向の数とは等しい。

信号プロセッサ１０５は、例えば、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）のグループと、２つ以上の到来方向のグループとを受信するように構成されている。

１つ以上の音声出力信号Ｙ₁（ｋ，ｎ）、Ｙ₂（ｋ，ｎ）、…、Ｙ_v（ｋ，ｎ）のそれぞれの音声出力信号Ｙ_i（ｋ，ｎ）のために、
信号プロセッサ１０５は、例えば、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）のグループのそれぞれの直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）のために、前記直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）の到来方向に依存している直進利得Ｇ_j,i（ｋ，ｎ）を決定するように構成され、
信号プロセッサ１０５は、例えば、２つ以上の直進コンポーネント信号Ｘ_dir1（ｋ，ｎ）、Ｘ_dir2（ｋ，ｎ）、…、Ｘ_{dir q}（ｋ，ｎ）のグループのそれぞれの直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）のために、前記直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）の直進利得Ｇ_j,i（ｋ，ｎ）を前記直進コンポーネント信号Ｘ_{dir j}（ｋ，ｎ）に適用することによって、２つ以上の処理された直進信号Ｙ_dir1,i（ｋ，ｎ）、Ｙ_dir2,i（ｋ，ｎ）、…、Ｙ_{dir q,i}（ｋ，ｎ）のグループを生成するように構成され、そして、
信号プロセッサ１０５は、例えば、前記音声出力信号Ｙ_i（ｋ，ｎ）を生成するために、１つ以上の処理された拡散信号Ｙ_diff,1（ｋ，ｎ）、Ｙ_diff,2（ｋ，ｎ）、…、Ｙ_diff,v（ｋ，ｎ）の１つＹ_diff,i（ｋ，ｎ）と、２つ以上の処理された信号Ｙ_dir1,i（ｋ，ｎ）、Ｙ_dir2,i（ｋ，ｎ）、…、Ｙ_{dir q,i}（ｋ，ｎ）のグループのそれぞれの処理された信号Ｙ_{dir j,i}（ｋ，ｎ）とを結合するように構成されている。

以下において、説明は、１つの平面波と、１つの到来方向と、１つの直進コンポーネント信号とについて提供される。説明された概念は、１つ以上の平面波、１つ以上の到来方向と、１つ以上の直進コンポーネント信号とについて、等しく適用可能であることが理解される。

配列伝播ベクトルは、例えば、［８］において定義される。［８］の式（６）において、配列伝播ベクトルは以下の式に従って定義される。

ａ（ｋ，φ_l）＝［ａ₁（ｋ，φ_l）・・・ａ_M（ｋ，φ_l）］^T

ここで、φ_lは、ｌ番目の平面波の到来方向の方位角度である。従って、配列伝播ベクトルは到来方向に依存する。仮に、１つの平面波ｍのみが存在するか、または考慮されるならば、インデックスｌは省略される。

従って、実施の形態に従って、分解モジュール１０１は、例えば、フィルタを、以下の式に従う２つ以上の音声入力信号に適用することによって、直進コンポーネント信号を生成するように構成されている。

ここで、Φ_u（ｋ，ｎ）は、２つ以上の音声入力信号の雑音および拡散音のパワースペクトル密度行列を示す。ａ（ｋ，φ）は配列伝播ベクトルを示す。そして、φは、２つ以上の音声入力信号の直進信号コンポーネントの到来方向の方位角度を示す。

従って、実施の形態において、信号プロセッサ１０５は、例えば、１つ以上の音声出力信号のそれぞれの音声出力信号のために、直進利得Ｇ_i（ｋ，ｎ）が以下の式に従って定義されるように、決定するように構成される。

Ｇ_i（ｋ，ｎ）＝ｐ_i（ｔａｎ^-1［ｃｔａｎ（φ（ｋ，ｎ））］）

ここで、ｉは前記音声出力信号のインデックスを示す。ｋは周波数を示す。ｎは時間を示す。Ｇ_i（ｋ，ｎ）は直進利得を示す。φ（ｋ，ｎ）は、到来方向（例えば、到来方向の方位角度）に依存している角度を示す。ｃは定数値を示す。ｐ_iはパンニング関数を示す。

それから、実施の形態に従って、信号プロセッサ１０５は、例えば、１つ以上の音声出力信号のそれぞれの音声出力信号毎に、前記音声出力信号のための直進利得を、到来方向に依存しているルックアップ・テーブルから得るように構成されている。

実施の形態において、信号プロセッサ１０５は、直進利得関数ｇ_i（ｋ，ｎ））のためのルックアップ・テーブルを計算する。例えば、全ての可能な十分な角度、例えば１°、２°、３°…のために、ＤＯＡの方位値φ毎に、直進利得Ｇ_i（ｋ，ｎ）が事前に計算されて記憶される。そして、到来方向の現在の方位値φが受信されるとき、信号プロセッサ１０５は、ルックアップ・テーブルから現在の方位値φのための直進利得Ｇ_i（ｋ，ｎ）を読み取る。（現在の方位値φは、例えばルックアップ・テーブル議論値であり、直進利得Ｇ_i（ｋ，ｎ）は、例えばルックアップ・テーブルリターン値である。）。ＤＯＡの方位φの代わりに、別の実施の形態において、ルックアップ・テーブルは、到来方向に依存しているどのような角度に対しても計算される。これは利点を持つ。利得値は、いつも全ての時間ポイントのために、または、全ての時間−周波数ビンのために計算される必要があるわけではない。けれども代わりに、ルックアップ・テーブルは１回計算されると、それからは、受信された角度φのために、直進利得Ｇ_i（ｋ，ｎ）がルックアップ・テーブルから読み取られる。

従って、実施の形態に従って、信号プロセッサ１０５は、例えば、ルックアップ・テーブルを計算するように構成されている。ルックアップ・テーブルは複数のエントリーを含む。エントリーのそれぞれは、ルックアップ・テーブル議論値と、前記議論値に割り当てられているルックアップ・テーブルリターン値とを含む。信号プロセッサ１０５は、例えば、到来方向に依存しているルックアップ・テーブルのルックアップ・テーブル議論値のうちの１つを選択することによって、ルックアップ・テーブルからルックアップ・テーブルリターン値のうちの１つを得るように構成されている。さらに、信号プロセッサ１０５は、例えば、ルックアップ・テーブルから得られたルックアップ・テーブルリターン値のうちの前記１つに依存している１つ以上の音声出力信号の少なくとも１つのために、利得値を決定するように構成されている。

信号プロセッサ１０５は、例えば、別の利得値を決定するために、別の到来方向に依存しているルックアップ・テーブル議論値のうちの別の１つを選択することによって（同じ）ルックアップ・テーブルから、ルックアップ・テーブルリターン値のうちの別の１つを得るように構成されている。例えば、信号プロセッサは、例えば、前記別の到来方向に依存する後の方の時間ポイントに、別の方向の情報を受信する。

２つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含む。パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられる。前記パンニング関数が、前記パンニング関数議論値の１つを受信するとき、前記パンニング関数は、前記パンニング関数議論値のうちの前記１つに割り当てられているパンニング関数リターン値を戻すように構成される。そして

信号プロセッサ１０５は、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の直進依存議論値に依存して、２つ以上の音声出力信号のそれぞれを決定するように構成されている。前記直進依存議論値は、到来方向に依存する。

２つ以上の音声出力信号の第１音声出力信号および第２音声出力信号のペアのそれぞれについて、第１の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値のうちの少なくとも１つは、第２の音声出力信号のパンニング利得関数の１つ以上のグローバル最大値のうちの何れとも相違する。

音声出力信号のうちの前記少なくとも１つのそれぞれの音声出力信号のパンニングルックアップ・テーブルは、例えば、複数のエントリーからなる。エントリーのそれぞれは、前記音声出力信号のパンニング利得関数のパンニング関数議論値と、前記パンニング関数議論値に割り当てられているパンニング利得関数のパンニング関数リターン値とからなる。信号プロセッサ１０５は、到来方向に依存して、パンニングルックアップ・テーブルから方向依存議論値を選択することによって、前記パンニングルックアップ・テーブルからパンニング関数リターン値の１つを得るように構成されている。信号プロセッサ１０５は、前記パンニングルックアップ・テーブルから得られた前記パンニング関数リターン値のうちの１つに依存して、前記音声出力信号のための利得値を決定するように構成されている。

例えば、以下の式（２７）において、

ｗ_b（φ）＝ｗ（ｔａｎ^-1［βｃｔａｎφ］）（２７）

到来方向φの方位角度は、窓利得関数ｗ_b（φ）の窓関数議論値である。窓利得関数ｗ_b（φ）は、ズーム情報、ここでは、ズームファクターβに依存する。

窓利得関数は、例えば、ルックアップ・テーブルとして実施される。そのような実施の形態において、信号プロセッサ１０５は、窓ルックアップ・テーブルを計算するように構成されている。窓ルックアップ・テーブルは、複数のエントリーを含む。エントリーのそれぞれは、窓利得関数の窓関数議論値と、前記窓関数議論値に割り当てられている窓利得関数の窓関数リターン値とからなる。信号プロセッサ１０５は、到来方向に依存している窓ルックアップ・テーブルの窓関数議論値のうちの１つを選択することによって、窓ルックアップ・テーブルから窓関数リターン値のうちの１つを得るように構成されている。さらに、信号プロセッサ１０５は、窓ルックアップ・テーブルから得られた窓関数リターン値のうちの前記１つに依存している１つ以上の音声出力信号の少なくとも１つのための利得値を決定するように構成されている。

従って、実施の形態に従って、信号プロセッサ１０５は、例えば、２つ以上の音声入力信号の直進信号コンポーネントの到来方向である到来方向のオリジナルの方位角度φ’
（ｋ，ｎ）を受信するように構成され、そして、距離情報ｒを更に受信するように構成されている。信号プロセッサ１０５は、例えば、オリジナルの到来方向の方位角度φ’（ｋ
，ｎ）、および、距離情報ｒとｇとに依存して、到来方向の修正された方位角度φ（ｋ，ｎ）を計算するように構成されている。信号プロセッサ１０５は、例えば、修正された到来方向の方位角度φ（ｋ，ｎ）に依存して、１つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。

ぼやけ効果は、以下のぼやけ効果、ローパスフィルタリングや、遅延された直進音の追加や、直進音減衰や、時間的円滑化および／またはＤＯＡ拡がりの選択された１つまたは組み合わせとして得られる。従って、実施の形態に従って、信号プロセッサ１０５は、例えば、ローパスフィルタリングを実施することによって、または、遅延された直進音を追加することによって、または、直進音の減衰を実施することによって、または、時間的円滑化を実施することによって、または、到来方向の拡がりを実施することによって、１つ以上の音声出力信号を生成するように構成されている。

Claims

１つ以上の音声出力信号を生成するための装置であって、
信号プロセッサ（１０５）と、
出力インタフェース（１０６）と、を備え、
前記信号プロセッサ（１０５）は、２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、前記信号プロセッサ（１０５）は、前記２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、前記信号プロセッサ（１０５）は、方向情報を受信するように構成され、前記方向情報は、前記２つ以上のオリジナル音声信号の前記直進信号コンポーネントの到来方向に依存し、
前記信号プロセッサ（１０５）は、前記拡散コンポーネント信号に依存している１つ以上の処理された拡散信号を生成するように構成され、
前記１つ以上の音声出力信号のそれぞれの音声出力信号について、前記信号プロセッサ（１０５）は、前記到来方向に依存して、利得値である直進利得を決定するように構成され、前記信号プロセッサ（１０５）は、処理された直進信号を得るために、前記直進利得を前記直進コンポーネント信号に適用するように構成され、そして、前記信号プロセッサ（１０５）は、前記音声出力信号を生成するために、前記処理された直進信号と前記１つ以上の処理された拡散信号のうちの１つとを結合するように構成され、
前記出力インタフェース（１０６）は、前記１つ以上の音声出力信号を出力するように構成され、
前記信号プロセッサ（１０５）は、１つ以上の利得関数を計算するための利得関数計算モジュール（１０４）を含み、前記１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の１つを受信するとき、前記利得関数は、前記利得関数議論値のうちの前記１つに割り当てられている前記利得関数リターン値に戻すように構成され、
前記信号プロセッサ（１０５）は、前記利得関数から方向依存議論値に割り当てられている前記利得関数リターン値を得て、そして、前記利得関数から得られた前記利得関数リターン値に依存する前記１つ以上の音声出力信号のうちの少なくとも１つの音声出力信号の利得値を決定するために、前記到来方向に依存して、前記１つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択するための信号変更器（１０３）を更に含むこと、
を特徴とする装置。
１つ以上の音声出力信号を生成するためのシステムであって、
請求項１に記載された装置と、
分解モジュール（１０１）と、を備え、
前記分解モジュール（１０１）は、前記２つ以上のオリジナル音声信号である２つ以上の音声入力信号を受信するように構成され、
前記分解モジュール（１０１）は、前記２つ以上のオリジナル音声信号の前記直進信号コンポーネントを含む前記直進コンポーネント信号を生成するように構成され、そして、
前記分解モジュール（１０１）は、前記２つ以上のオリジナル音声信号の前記拡散信号コンポーネントを含む前記拡散コンポーネント信号を生成するように構成されていること、
を特徴とするシステム。
前記利得関数計算モジュール（１０４）は、前記１つ以上の利得関数のそれぞれの利得関数について１つのルックアップ・テーブルを生成するように構成され、前記ルックアップ・テーブルは複数のエントリーを含み、前記ルックアップ・テーブルのそれぞれのエントリーは前記利得関数議論値のうちの１つと、前記１つの利得関数議論値に割り当てられている前記利得関数リターン値とを含み、
前記利得関数計算モジュール（１０４）は、それぞれの利得関数の前記ルックアップ・テーブルを持続的な又は非持続的なメモリーに記憶するように構成され、
前記信号変更器（１０３）は、前記メモリーに記憶されている１つ以上の前記ルックアップ・テーブルのうちの１つから、前記利得関数リターン値を読み出すことによって、前記方向依存議論値に割り当てられている前記利得関数リターン値を得るように構成されていること、
を特徴とする請求項２に記載のシステム。
前記信号プロセッサ（１０５）は、２つ以上の音声出力信号を決定するように構成され、
前記利得関数計算モジュール（１０４）は、２つ以上の利得関数を計算するように構成され、
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、前記利得関数計算モジュール（１０４）は、前記２つ以上の利得関数のうちの１つとして、前記音声出力信号に割り当てられているパンニング利得関数を計算するように構成され、前記信号変更器（１０３）は、前記パンニング利得関数に依存して前記音声出力信号を生成するように構成されていること、
を特徴とする請求項２または請求項３に記載のシステム。
前記２つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、前記パンニング利得関数の前記利得関数議論値のうちの１つである１つ以上のグローバル最大値を持ち、前記パンニング利得関数の前記１つ以上のグローバル最大値のそれぞれについて、前記パンニング利得関数が、前記グローバル最大値のためよりも大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、
前記２つ以上の音声出力信号の第１の音声出力信号および第２の音声出力信号のペアのそれぞれについて、前記第１の音声出力信号の前記パンニング利得関数の前記１つ以上のグローバル最大値の少なくとも１つが、前記第２の音声出力信号の前記パンニング利得関数の前記１つ以上のグローバル最大値の何れとも異なること、
を特徴とする請求項４に記載のシステム。
前記２つ以上の音声出力信号のそれぞれの音声出力信号について、前記利得関数計算モジュール（１０４）は、前記２つ以上の利得関数のうちの１つとして、前記音声出力信号に割り当てられている窓利得関数を計算するように構成され、
前記信号変更器（１０３）は、前記窓利得関数に依存している前記音声出力信号を生成するように構成され、
仮に窓関数議論値が、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、前記窓利得関数は、どの利得関数リターン値よりも大きい利得関数リターン値を戻すように構成され、仮に前記窓関数議論値が前記下部の窓閾値より小さく、あるいは、前記上部の窓閾値より大きいならば、前記窓利得関数は、前記窓利得関数によって戻すように構成されていること
を特徴とする請求項４または請求項５のいずれかに記載のシステム。
前記２つ以上の音声出力信号のそれぞれの前記窓利得関数は、前記窓利得関数の前記利得関数議論値のうちの１つである１つ以上のグローバル最大値を持ち、前記窓利得関数の前記１つ以上のグローバル最大値のそれぞれについて、前記窓利得関数が前記グローバル最大値に対してよりも大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、
前記２つ以上の音声出力信号の第１の音声出力信号および第２の音声出力信号のペアのそれぞれについて、前記第１の音声出力信号の前記窓利得関数の前記１つ以上のグローバル最大値の少なくとも１つが、前記第２の音声出力信号の前記窓利得関数の前記１つ以上のグローバル最大値の１つと等しいこと、
を特徴とする請求項６に記載のシステム。
前記利得関数計算モジュール（１０４）は、到来方向に対する視方向の角度シフトを示している配向情報を更に受信するように構成され、
前記利得関数計算モジュール（１０４）は、前記配向情報に依存して、前記音声出力信号のそれぞれの前記パンニング利得関数を生成するように構成されていること、
を特徴とする請求項６または請求項７のいずれかに記載のシステム。
前記利得関数計算モジュール（１０４）は、前記配向情報に依存して、前記音声出力信号のそれぞれの前記窓利得関数を生成するように構成されていること、を特徴とする請求項８に記載のシステム。
前記利得関数計算モジュール（１０４）は、ズーム情報を更に受信するように構成され、前記ズーム情報がカメラの開口角度を示し、
前記利得関数計算モジュール（１０４）は、前記ズーム情報に依存して、前記音声出力信号のそれぞれの前記パンニング利得関数を生成するように構成されていること、
を特徴とする請求項６〜請求項９のいずれかに記載のシステム。
前記利得関数計算モジュール（１０４）は、前記ズーム情報に依存して、前記音声出力信号のそれぞれの前記窓利得関数を生成するように構成されていること、を特徴とする請求項１０に記載のシステム。
前記利得関数計算モジュール（１０４）は、映像イメージおよび音響イメージを位置合わせするための測定パラメータを更に受信するように構成され、
前記利得関数計算モジュール（１０４）は、前記測定パラメータに依存して、前記音声出力信号のそれぞれの前記パンニング利得関数を生成するように構成されていること、
を特徴とする請求項６〜請求項１１のいずれかに記載のシステム。
前記利得関数計算モジュール（１０４）は、前記測定パラメータに依存して、前記音声出力信号のそれぞれの前記窓利得関数を生成するように構成されていること、を特徴とする請求項１２に記載のシステム。
前記利得関数計算モジュール（１０４）は、映像イメージについての情報を受信するように構成され、
前記利得関数計算モジュール（１０４）は、映像イメージについての前記情報に依存して、音源の知覚的拡がりを実現するために、複合利得を戻す、ぼけ関数を生成するように構成されていること、
を特徴とする請求項２〜請求項１３のいずれかに記載のシステム。
１つ以上の音声出力信号を生成するための方法であって、
２つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
前記２つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は、前記２つ以上のオリジナル音声信号の前記直進信号コンポーネントの到来方向に依存し、
前記拡散コンポーネント信号に依存して、１つ以上の処理された拡散信号を生成し、
前記１つ以上の音声出力信号のそれぞれの音声出力信号について、到来方向に依存して直進利得を決定し、処理された直進信号を得るために前記直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、前記処理された直進信号と前記１つ以上の処理された拡散信号の１つとを結合し、
前記１つ以上の音声出力信号を出力し、
前記１つ以上の音声出力信号を生成することは、１つ以上の利得関数を計算することを含み、前記１つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの１つを受信するとき、前記利得関数が、前記利得関数議論値のうちの前記１つに割り当てられている前記利得関数リターン値を戻すように構成され、
前記１つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている前記利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存して、前記１つ以上の音声出力信号のうちの少なくとも１つの音声出力信号の利得値を決定するために、前記到来方向に依存して、前記１つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択することを含むこと、
を特徴とする方法。
前記２つ以上のオリジナル音声信号である２つ以上の音声入力信号を受信し、
前記２つ以上のオリジナル音声信号の前記直進信号コンポーネントを含む前記直進コンポーネント信号を生成し、
前記２つ以上のオリジナル音声信号の前記拡散信号コンポーネントを含む前記拡散コンポーネント信号を生成すること、
を特徴とする請求項１５に記載の方法。
コンピュータプログラムがコンピュータ上もしくは信号プロセッサ上で実行されると、前記コンピュータもしくは前記信号プロセッサが請求項１５または請求項１６の方法を実行する、コンピュータプログラム。