JP2017517947A5 - - Google Patents

Download PDF

Info

Publication number
JP2017517947A5
JP2017517947A5 JP2016564300A JP2016564300A JP2017517947A5 JP 2017517947 A5 JP2017517947 A5 JP 2017517947A5 JP 2016564300 A JP2016564300 A JP 2016564300A JP 2016564300 A JP2016564300 A JP 2016564300A JP 2017517947 A5 JP2017517947 A5 JP 2017517947A5
Authority
JP
Japan
Prior art keywords
signal
audio output
straight
signals
panning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016564300A
Other languages
English (en)
Other versions
JP6466968B2 (ja
JP2017517947A (ja
Filing date
Publication date
Priority claimed from EP14183855.7A external-priority patent/EP2942982A1/en
Application filed filed Critical
Publication of JP2017517947A publication Critical patent/JP2017517947A/ja
Publication of JP2017517947A5 publication Critical patent/JP2017517947A5/ja
Application granted granted Critical
Publication of JP6466968B2 publication Critical patent/JP6466968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

柔軟な空間音の録音と再生のための周知の取り組みは、方向音声コード化(DirAC)[4]に表されている。DirACにおいて、近端側の空間音は、音声信号およびパラメータ副情報、すなわち、音の到来方向(DOA)および拡散性について説明される。パラメータの説明は、任意のスピーカーセットアップによって、オリジナルの空間イメージの再生を可能にする。これは、遠端側で再創成された空間イメージが、近端側で録音されている間、空間イメージと矛盾しないことを意味する。しかし、仮に、例えば、映像が、録音された音声を誉めているならば、再生された空間音は必ずしも映像イメージに合わされない。さらに、映像イメージが変化するとき、例えば、カメラの視方向とズームとが変更されるとき、再生された音響イメージは調整できない。これは、DirACが、再生された音響イメージを、任意の望ましい空間イメージに適合させる可能性を提供しないことを意味している。
1つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、2つ以上の音声入力信号を受信するように構成され、分解モジュールは、2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散コンポーネント信号および方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。
実施の形態に従って、信号プロセッサは、例えば、2つ以上の音声出力信号を決定するように構成され、2つ以上の音声出力信号のそれぞれの音声出力信号のために、パンニング利得関数は、例えば、前記音声出力信号に割り当てられ、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、例えば、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数が、前記パンニング関数議論値の1つを受信するとき、前記パンニング利得関数が、例えば、前記パンニング関数議論値の前記1つに割り当てられているパンニング関数リターン値を戻すように構成され、そして、信号プロセッサは、例えば、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の方向依存議論値に依存している2つ以上の音声出力信号のそれぞれを決定するように構成され、前記方向依存議論値は、到来方向に依存する。
実施の形態において、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、パンニング関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値より大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の何れとも異なる。
実施の形態において、信号プロセッサは、例えば、到来方向について視方向の角度シフトを示している配向情報をさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも1つが、配向情報に依存する。または、利得関数計算モジュールは、例えば、ズーム情報をさらに受信するように構成され、ズーム情報は、カメラの開口角度を示し、パンニング利得関数と窓利得関数との少なくとも1つが、ズーム情報に依存する。または、利得関数計算モジュールは、例えば、測定パラメータをさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも1つが、測定パラメータに依存する。
実施の形態に従って、信号プロセッサは、例えば、2つ以上の音声入力信号の直進信号コンポーネントの到来方向であるオリジナルの到来方向に依存しているオリジナルの角度値を受信するように構成され、そして、例えば、距離情報を受信するように構成されている。信号プロセッサは、例えば、オリジナル角度値に依存し、かつ、距離情報に依存している修正された角度値を計算するように構成されている。そして、信号プロセッサは、例えば、修正された角度値に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
実施の形態に従って、信号プロセッサは、例えば、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、到来方向の拡がりを実行することによって、または、非相関性を実行することによって、1つ以上の音声出力信号を生成するように構成されている。
実施の形態に従って、直進コンポーネント信号および1つ以上の別の直進コンポーネント信号は、2つ以上の直進コンポーネント信号のグループを形成する。分解モジュールは、例えば、2つ以上の音声入力信号の別の直進信号コンポーネントを含む1つ以上の別の直進コンポーネント信号を生成するように構成されている。到来方向および1つ以上の別の到来方向は、2つ以上の到来方向のグループを形成する。2つ以上の到来方向のグループのそれぞれの到来方向は、例えば、2つ以上の直進コンポーネント信号のグループの正確に1つの直進コンポーネント信号に割り当てられる。2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と2つの到来方向到来方向の数とは、例えば等しい。信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループと2つ以上の到来方向のグループとを受信するように構成されている。そして、1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の到来方向に依存している直進利得を決定するように構成されている。信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の直進利得を前記直進コンポーネント信号に適用することによって、2つ以上の処理された直進信号のグループを生成するように構成されている。そして、信号プロセッサは、例えば、前記音声出力信号を生成するために、1つ以上の処理された拡散信号のうちの1つと、2つ以上の処理された信号のグループのそれぞれの処理された信号と、を結合するように構成されている。
さらに、上述したシステムを含む補聴器または補助聞き取り装置が、例えば、提供される。
さらに、1つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成されている。信号プロセッサは、2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成されている、信号プロセッサは、方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成されている。信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成されている。そして、信号プロセッサは、音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
さらに、1つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、2つ以上の音声入力信号を受信するように構成され、分解モジュールは、2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散信号コンポーネント信号および方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、1つ以上の利得関数を計算するための利得関数計算モジュールを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値に戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。
実施の形態に従って、利得関数計算モジュールは、例えば、1つ以上の利得関数のそれぞれの利得関数のために、ルックアップ・テーブルを生成するように構成され、ルックアップ・テーブルは複数のエントリーを含み、ルックアップ・テーブルのそれぞれのエントリーは利得関数議論値のうちの1つと、1つの利得関数議論値に割り当てられている利得関数リターン値とを含み、利得関数計算モジュールは、例えば、それぞれの利得関数のルックアップ・テーブルを持続的な又は非持続的なメモリーに記憶するように構成され、信号変更器は、例えば、メモリーに記憶されている1つ以上のルックアップ・テーブルのうちの1つから、前記利得関数リターン値を読み出すことによって、前記方向依存議論値に割り当てられている利得関数リターン値を得るように構成されている。
実施の形態に従って、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、例えば、前記パンニング利得関数の利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記パンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値のためより大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の何れとも異なる。
実施の形態において、2つ以上の音声出力信号のそれぞれの窓利得関数は、前記窓利得関数の利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記窓利得関数の1つ以上のグローバル最大値のそれぞれのために、窓利得関数が前記グローバル最大値より大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、第1の音声出力信号の窓利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号の窓利得関数の1つ以上のグローバル最大値の1つと等しい。
実施の形態に従って、利得関数計算モジュールは、例えば、到来方向についての視方向の角度シフトを示している配向情報を更に受信するように構成され、利得関数計算モジュールは、例えば、配向情報に依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。
さらに、1つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、信号プロセッサは、2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、信号プロセッサは、方向情報を受信するように構成され、前記方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、1つ以上の利得関数を計算するための利得関数計算モジュールを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられた利得関数リターン値を戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
1つ以上の音声出力信号を生成することは、1つ以上の利得関数を計算することを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、1つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、方向情報は2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
1つ以上の音声出力信号を生成することは、1つ以上の利得関数を計算することを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、1つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。
図1aは、1つ以上の音声出力信号を生成するためのシステムを説明する。システムは、分解モジュール101と信号プロセッサ105と出力インタフェース106とを含む
分解モジュール101は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントを含む直進コンポーネント信号Xdir(k,n)を生成するように構成されている。さらに、分解モジュール101は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の拡散信号コンポーネントを含む拡散コンポーネント信号Xdiff(k,n)を生成するように構成されている。
信号プロセッサ105は、直進コンポーネント信号Xdir(k,n)と拡散コンポーネント信号Xdiff(k,n)と方向情報とを受信するように構成され、前記方向情報は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントの到来方向に依存している。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)のために、信号プロセッサ105は、到来方向に依存して直進利得Gi(k,n)を決定するように構成されている。信号プロセッサ105は、処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用するように構成されている。そして、信号プロセッサ105は、音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)とを結合するように構成されている。
概説したように、方向情報は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントの到来方向φ(k,n)に依存する。例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントの到来方向は、例えば方向情報自身である。または、例えば方向情報は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントの伝播方向である。到来方向が、受信マイクロフォン配列から音源までを示しながら、伝播方向は、音源から受信マイクロフォン配列までを示す。従って、伝播方向は、到来方向の逆方向を正確に示し、それ故、到達の方向に依存する。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)の1つYi(k,n)を生成するために、信号プロセッサ105は、
到来方向に依存して、直進利得Gi(k,n)を決定し、
処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用し、
前記音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)とを結合する。
分解モジュール101は、例えば、1つ以上の音声入力信号を、直進コンポーネント信号と拡散コンポーネント信号とに分解することによって、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントを含む直進コンポーネント信号Xdir(k,n)と、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の拡散信号コンポーネントを含む拡散コンポーネント信号Xdiff(k,n)とを生成するように構成されている。
図1aの実施の形態は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントの到来方向を考慮する。従って、音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)は、直進コンポーネント信号Xdir(k,n)と到来方向に依存している拡散コンポーネント信号Xdiff(k,n)とを柔軟に適合することによって生成される。高度な適応化可能性が達成される。
図1bの装置は、信号プロセッサ105と出力インタフェース106とを含む
信号プロセッサ105は、2つ以上のオリジナルの音声信号x1(k,n)、x2(k,n)、…、xp(k,n)(例えば、図1aの音声入力信号)の直進信号コンポーネントを含む直進コンポーネント信号Xdir(k,n)を受信するように構成されている。さらに、信号プロセッサ105は、2つ以上のオリジナルの音声信号x1(k,n)、x2(k,n)、…、xp(k,n)の拡散信号コンポーネントを含む拡散コンポーネント信号Xdiff(k,n)を受信するように構成されている。さらに、信号プロセッサ105は、方向情報を受信するように構成されている。前記方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)のために、信号プロセッサ105は、到来方向に依存して、直進利得Gi(k,n)を決定するように構成されている。信号プロセッサ105は、処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用するように構成されている。そして、信号プロセッサ105は、前記音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つXdiff,i(k,n)とを結合するように構成されている。
図1cは別の実施の形態に従っているシステムを示す。図1cにおいて、図1aの信号生成器105は、1つ以上の利得関数を計算するための利得関数計算モジュール104を更に含む。1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含む。利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられる。前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値の前記1つに割り当てられている利得関数リターン値を戻すように構成されている。
さらに、信号プロセッサ105は、到来方向に依存して、直進依存議論値を、1つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力のうちの少なくとも1つの利得値を決定するための信号変更器103を更に含む。
さらに、信号プロセッサ105は、到来方向に依存して、直進依存議論値を、1つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力のうちの少なくとも1つの利得値を決定するための信号変更器103を更に含む。
例えば、遠端側で、特定の重み付けが、例えば、結果として生じている音声出力信号が、望ましい空間イメージに矛盾しないように、再生された音響イメージを適合する取り出された直進音と拡散音とに適用される。これらの重み付けは、例えば音響ズーム効果および依存を、例えば直進音の到来方向(DOA)上に、および、例えばズーミングファクターおよび/またはカメラの視方向上にモデルを作る。最終的な音声出力信号は、例えば、それ故、重み付けされた直進音と拡散音とを合計することによって得られる。
図2は実施の形態に従っているシステムを説明する。近端側はモジュール101と102とを含む。遠端側はモジュール105と106とを含む。モジュール105自身は、モジュール103と104とを含む。参照が近端側と遠端側にされるとき、いくつかの実施の形態において、第1の装置が近端側(例えば、モジュール101と102とを含む)を実行し、第2の装置が遠端側(例えば、モジュール103と104とを含む)を実行することが理解される。一方、別の実施の形態において、1つの装置が、遠端側だけでなく近端側を実行する。そのような1つの装置は、例えば、モジュール101と102と103と104とを含む
特に、図2は、分解モジュール101と、パラメータ推定モジュール102と、信号プロセッサ105と、出力インタフェース106とを含む実施の形態に従っているシステムを説明する。図2において、信号プロセッサ105は、利得関数計算モジュール104と信号変更器103とを含む。信号プロセッサ105と出力インタフェース106とは、例えば、図1bによって説明される装置を実現する。
図2において、とりわけ、パラメータ推定モジュール102は、例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)を受信するように構成されている。さらに、パラメータ推定モジュール102は、例えば、2つ以上の音声入力信号に依存している2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントの到来方向を推定するように構成されている。信号プロセッサ105は、例えば、パラメータ推定モジュール102から2つ以上の音声入力信号の直進信号コンポーネントの到来方向を含む到来方向情報を受信するように構成されている。
実施の形態に従って、1つの時間−周波数当たり1つ以上の平面波が、例えば、特に処理される。例えば、2つの異なる方向から同じ周波数帯の2つ以上の平面波が、例えば、マイクロフォン配列によって同じ時間ポイントに録音されるように到達する。これらの2つの平面波は、それぞれ、異なる到来方向を持つ。そのようなシナリオにおいて、2つ以上の平面波の直進信号コンポーネントおよびそれらの到来方向が、例えば、別々に考慮される。
実施の形態に従って、直進コンポーネント信号Xdir1(k,n)と1つ以上の別の直進コンポーネント信号Xdir2(k,n)、…、Xdir q(k,n)は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)…、Xdir q(k)のグループを形成する。分解モジュール101は、例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の別の直進信号コンポーネントを含む1つ以上の別の直進コンポーネント信号Xdir2(k,n)、…、Xdir q(k,n)を生成するように構成されている。
到来方向と1つ以上の別の到来方向は、2つ以上の到来方向のグループを形成する。2つ以上の到来方向のグループのそれぞれの到来方向は、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q,m(k,n)のグループの1つの直進コンポーネント信号Xdir j(k,n)に正確に割り当てられる。2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と、2つの到来方向到来方向の数とは等しい。
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループと、2つ以上の到来方向のグループとを受信するように構成されている。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)のために、
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループのそれぞれの直進コンポーネント信号Xdir j(k,n)のために、前記直進コンポーネント信号Xdir j(k,n)の到来方向に依存している直進利得Gj,i(k,n)を決定するように構成され、
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループのそれぞれの直進コンポーネント信号Xdir j(k,n)のために、前記直進コンポーネント信号Xdir j(k,n)の直進利得Gj,i(k,n)を前記直進コンポーネント信号Xdir j(k,n)に適用することによって、2つ以上の処理された直進信号Ydir1,i(k,n)、Ydir2,i(k,n)、…、Ydir q,i(k,n)のグループを生成するように構成され、そして、
信号プロセッサ105は、例えば、前記音声出力信号Yi(k,n)を生成するために、1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)と、2つ以上の処理された信号Ydir1,i(k,n)、Ydir2,i(k,n)、…、Ydir q,i(k,n)のグループのそれぞれの処理された信号Ydir j,i(k,n)とを結合するように構成されている。
以下において、説明は、1つの平面波と、1つの到来方向と、1つの直進コンポーネント信号とについて提供される。説明された概念は、1つ以上の平面波、1つ以上の到来方向と、1つ以上の直進コンポーネント信号とについて、等しく適用可能であることが理解される。
Figure 2017517947
配列伝播ベクトルは、例えば、[8]において定義される。[8]の式(6)において、配列伝播ベクトルは以下の式に従って定義される。

a(k,φl)=[a1(k,φl)・・・aM(k,φl)]T

ここで、φlは、l番目の平面波の到来方向の方位角度である。従って、配列伝播ベクトルは到来方向に依存する。仮に、1つの平面波mのみが存在するか、または考慮されるならば、インデックスlは省略される。
従って、実施の形態に従って、分解モジュール101は、例えば、フィルタを、以下の式に従う2つ以上の音声入力信号に適用することによって、直進コンポーネント信号を生成するように構成されている。
Figure 2017517947
ここで、Φu(k,n)は、2つ以上の音声入力信号の雑音および拡散音のパワースペクトル密度行列を示す。a(k,φ)は配列伝播ベクトルを示す。そして、φは、2つ以上の音声入力信号の直進信号コンポーネントの到来方向の方位角度を示す。
Figure 2017517947
従って、実施の形態において、信号プロセッサ105は、例えば、1つ以上の音声出力信号のそれぞれの音声出力信号のために、直進利得Gi(k,n)が以下の式に従って定義されるように、決定するように構成される。

i(k,n)=pi(tan-1[c tan(φ(k,n))])

ここで、iは前記音声出力信号のインデックスを示す。kは周波数を示す。nは時間を示す。Gi(k,n)は直進利得を示す。φ(k,n)は、到来方向(例えば、到来方向の方位角度)に依存している角度を示す。cは定数値を示す。piはパンニング関数を示す。
それから、実施の形態に従って、信号プロセッサ105は、例えば、1つ以上の音声出力信号のそれぞれの音声出力信号毎に、前記音声出力信号のための直進利得を、到来方向に依存しているルックアップ・テーブルから得るように構成されている。
実施の形態において、信号プロセッサ105は、直進利得関数gi(k,n))のためのルックアップ・テーブルを計算する。例えば、全ての可能な十分な角度、例えば1°、2°、3°…のために、DOAの方位値φ毎に、直進利得Gi(k,n)が事前に計算されて記憶される。そして、到来方向の現在の方位値φが受信されるとき、信号プロセッサ105は、ルックアップ・テーブルから現在の方位値φのための直進利得Gi(k,n)を読み取る。(現在の方位値φは、例えばルックアップ・テーブル議論値であり、直進利得Gi(k,n)は、例えばルックアップ・テーブルリターン値である。)。DOAの方位φの代わりに、別の実施の形態において、ルックアップ・テーブルは、到来方向に依存しているどのような角度に対しても計算される。これは利点を持つ。利得値は、いつも全ての時間ポイントのために、または、全ての時間−周波数ビンのために計算される必要があるわけではない。けれども代わりに、ルックアップ・テーブルは1回計算されると、それからは、受信された角度φのために、直進利得Gi(k,n)がルックアップ・テーブルから読み取られる。
従って、実施の形態に従って、信号プロセッサ105は、例えば、ルックアップ・テーブルを計算するように構成されている。ルックアップ・テーブルは複数のエントリーを含む。エントリーのそれぞれは、ルックアップ・テーブル議論値と、前記議論値に割り当てられているルックアップ・テーブルリターン値とを含む。信号プロセッサ105は、例えば、到来方向に依存しているルックアップ・テーブルのルックアップ・テーブル議論値のうちの1つを選択することによって、ルックアップ・テーブルからルックアップ・テーブルリターン値のうちの1つを得るように構成されている。さらに、信号プロセッサ105は、例えば、ルックアップ・テーブルから得られたルックアップ・テーブルリターン値のうちの前記1つに依存している1つ以上の音声出力信号の少なくとも1つのために、利得値を決定するように構成されている。
信号プロセッサ105は、例えば、別の利得値を決定するために、別の到来方向に依存しているルックアップ・テーブル議論値のうちの別の1つを選択することによって(同じ)ルックアップ・テーブルから、ルックアップ・テーブルリターン値のうちの別の1つを得るように構成されている。例えば、信号プロセッサは、例えば、前記別の到来方向に依存する後の方の時間ポイントに、別の方向の情報を受信する。
2つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含む。パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられる。前記パンニング関数が、前記パンニング関数議論値の1つを受信するとき、前記パンニング関数は、前記パンニング関数議論値のうちの前記1つに割り当てられているパンニング関数リターン値を戻すように構成される。
信号プロセッサ105は、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の直進依存議論値に依存して、2つ以上の音声出力信号のそれぞれを決定するように構成されている。前記直進依存議論値は、到来方向に依存する。
2つ以上の音声出力信号の第1音声出力信号および第2音声出力信号のペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値のうちの少なくとも1つは、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値のうちの何れとも相違する。
音声出力信号のうちの前記少なくとも1つのそれぞれの音声出力信号のパンニングルックアップ・テーブルは、例えば、複数のエントリーからなる。エントリーのそれぞれは、前記音声出力信号のパンニング利得関数のパンニング関数議論値と、前記パンニング関数議論値に割り当てられているパンニング利得関数のパンニング関数リターン値とからなる。信号プロセッサ105は、到来方向に依存して、パンニングルックアップ・テーブルから方向依存議論値を選択することによって、前記パンニングルックアップ・テーブルからパンニング関数リターン値の1つを得るように構成されている。信号プロセッサ105は、前記パンニングルックアップ・テーブルから得られた前記パンニング関数リターン値のうちの1つに依存して、前記音声出力信号のための利得値を決定するように構成されている。
例えば、以下の式(27)において、

b(φ)=w(tan-1[βc tanφ]) (27)

到来方向φの方位角度は、窓利得関数wb(φ)の窓関数議論値である。窓利得関数wb(φ)は、ズーム情報、ここでは、ズームファクターβに依存する。
窓利得関数は、例えば、ルックアップ・テーブルとして実施される。そのような実施の形態において、信号プロセッサ105は、窓ルックアップ・テーブルを計算するように構成されている。窓ルックアップ・テーブルは、複数のエントリーを含む。エントリーのそれぞれは、窓利得関数の窓関数議論値と、前記窓関数議論値に割り当てられている窓利得関数の窓関数リターン値とからなる。信号プロセッサ105は、到来方向に依存している窓ルックアップ・テーブルの窓関数議論値のうちの1つを選択することによって、窓ルックアップ・テーブルから窓関数リターン値のうちの1つを得るように構成されている。さらに、信号プロセッサ105は、窓ルックアップ・テーブルから得られた窓関数リターン値のうちの前記1つに依存している1つ以上の音声出力信号の少なくとも1つのための利得値を決定するように構成されている。
従って、実施の形態に従って、信号プロセッサ105は、例えば、2つ以上の音声入力信号の直進信号コンポーネントの到来方向である到来方向のオリジナルの方位角度φ’(k,n)を受信するように構成され、そして、距離情報rを更に受信するように構成されている。信号プロセッサ105は、例えば、オリジナルの到来方向の方位角度φ’(k,n)、および、距離情報rとgとに依存して、到来方向の修正された方位角度φ(k,n)を計算するように構成されている。信号プロセッサ105は、例えば、修正された到来方向の方位角度φ(k,n)に依存して、1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
ぼやけ効果は、以下のぼやけ効果、ローパスフィルタリングや、遅延された直進音の追加や、直進音減衰や、時間的円滑化および/またはDOA拡がりの選択された1つまたは組み合わせとして得られる。従って、実施の形態に従って、信号プロセッサ105は、例えば、ローパスフィルタリングを実施することによって、または、遅延された直進音を追加することによって、または、直進音の減衰を実施することによって、または、時間的円滑化を実施することによって、または、到来方向の拡がりを実施することによって、1つ以上の音声出力信号を生成するように構成されている。

Claims (15)

  1. 2つ以上の音声出力信号を生成するためのシステムであって、
    分解モジュール(101)と、
    信号プロセッサ(105)と、
    出力インタフェース(106)と、を備え、
    前記分解モジュール(101)は、2つ以上の音声入力信号を受信するように構成され、前記分解モジュール(101)は、前記2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、前記分解モジュール(101)は、前記2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成され、
    前記信号プロセッサ(105)は、前記直進コンポーネント信号および前記拡散コンポーネント信号および方向情報を受信するように構成され、前記方向情報は、前記2つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存し、
    前記信号プロセッサ(105)は、前記拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成され、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記信号プロセッサ(105)は、前記到来方向に依存して直進利得を決定するように構成され、前記信号プロセッサ(105)は、処理された直進信号を得るために、前記直進利得を前記直進コンポーネント信号に適用するように構成され、そして、前記信号プロセッサ(105)は、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号のうちの1つとを結合するように構成され、そして
    前記出力インタフェース(106)は、前記2つ以上の音声出力信号を出力するように構成され、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、
    前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数、前記パンニング関数議論値のうちの1つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記1つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、
    前記信号プロセッサ(105)は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存し、かつ、窓利得関数に依存している前記2つ以上の音声出力信号のそれぞれについて、直進利得関数を計算するための利得関数計算モジュール(104)を備え、そして、
    前記信号プロセッサ(105)は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記配向情報に依存する、または、
    前記利得関数計算モジュール(104)は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記ズーム情報に依存すること、
    を特徴とするシステム。
  2. 前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、前記パンニング関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の前記1つ以上のグローバル最大値のそれぞれについて、前記パンニング利得関数が前記グローバル最大値に対してより大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、そして、
    前記2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、前記第1の音声出力信号の前記パンニング利得関数の前記1つ以上のグローバル最大値の少なくとも1つが、前記第2の音声出力信号の前記パンニング利得関数の前記1つ以上のグローバル最大値の何れとも異なること、
    を特徴とする請求項1に記載のシステム。
  3. 前記信号プロセッサ(105)は、窓利得関数に依存して、前記2つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成され、
    前記窓利得関数は、窓関数議論値を受信するとき、窓関数リターン値を戻すように構成され、
    仮に前記窓関数議論値が、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、前記窓利得関数は、何れの窓関数リターン値よりも大きい窓関数リターン値を戻すように構成され、仮に前記窓関数議論値が、前記下部の窓閾値より小さく、あるいは、前記上部の窓閾値より大きいならば、前記窓利得関数は、前記窓利得関数によって戻されるように構成されていること、
    を特徴とする請求項1又は請求項2に記載のシステム。
  4. 前記利得関数計算モジュール(104)は、測定パラメータをさらに受信するように構成され、前記パンニング利得関数と前記窓利得関数との少なくとも1つが、前記測定パラメータに依存すること、
    を特徴とする請求項1〜請求項3のいずれかに記載のシステム。
  5. 前記信号プロセッサ(105)は、距離情報を受信するように構成され、
    前記信号プロセッサ(105)は、前記距離情報に依存している前記2つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されていること、
    を特徴とする請求項1〜請求項4のいずれかに記載のシステム。
  6. 前記信号プロセッサ(105)は、前記2つ以上の音声入力信号の前記直進信号コンポーネントの前記到来方向であるオリジナルの到来方向に依存して、オリジナルの角度値を受信するように構成され、かつ、前記距離情報を受信するように構成され、
    前記信号プロセッサ(105)は、前記オリジナル角度値に依存し、かつ、前記距離情報に依存して、修正された角度値を計算するように構成され、そして、
    前記信号プロセッサ(105)は、前記修正された角度値に依存して、前記2つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されていること、
    を特徴とする請求項5に記載のシステム。
  7. 前記信号プロセッサ(105)は、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、到来方向の拡がりを実行することによって、または、非相関性を実行することによって、前記2つ以上の音声出力信号を生成するように構成されていること、
    を特徴とする請求項5または請求項6に記載のシステム。
  8. 前記信号プロセッサ(105)は、2つ以上の音声出力チャンネルを生成するように構成され、
    前記信号プロセッサ(105)は、中間的拡散信号を得るために、拡散利得を前記拡散コンポーネント信号に適用するように構成され、そして、
    前記信号プロセッサ(105)は、非相関性を実行することによって、前記中間的拡散信号から1つ以上の非相関性信号を生成するように構成され、
    前記1つ以上の非相関性信号は、前記1つ以上の処理された拡散信号を形成する、または、前記中間的拡散信号および前記1つ以上の非相関性信号は、前記1つ以上の処理された拡散信号を形成すること、
    を特徴とする請求項1〜請求項7のいずれかに記載のシステム。
  9. 前記直進コンポーネント信号および1つ以上の別の直進コンポーネント信号は、2つ以上の直進コンポーネント信号のグループを形成し、前記分解モジュール(101)は、前記2つ以上の音声入力信号の別の直進信号コンポーネントを含む前記1つ以上の別の直進コンポーネント信号を生成するように構成され、
    前記到来方向および1つ以上の別の到来方向は、2つ以上の到来方向のグループを形成し、前記2つ以上の到来方向の前記グループのそれぞれの到来方向は、前記2つ以上の直進コンポーネント信号の前記グループの正確に1つの直進コンポーネント信号に割り当てられ、前記2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と前記2つの到達方向の前記到来方向の数とが等しく、
    前記信号プロセッサ(105)は、前記2つ以上の直進コンポーネント信号の前記グループと前記2つ以上の到達方向の前記グループとを受信するように構成され、そして、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について
    前記信号プロセッサ(105)は、前記2つ以上の直進コンポーネント信号の前記グループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の前記到来方向に依存して、直進利得を決定するように構成され、
    前記信号プロセッサ(105)は、前記2つ以上の直進コンポーネント信号の前記グループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の前記直進利得を前記直進コンポーネント信号に適用することによって、2つ以上の処理された直進信号のグループを生成するように構成され、そして、
    前記信号プロセッサ(105)は、前記音声出力信号を生成するために、前記1つ以上の処理された拡散信号のうちの1つと、前記2つ以上の処理された信号の前記グループのそれぞれの処理された信号と、を結合するように構成されていること、
    を特徴とする請求項1〜請求項8のいずれかに記載のシステム。
  10. 前記2つ以上の直進コンポーネント信号の前記グループの前記直進コンポーネント信号の数プラス1は、前記システムの受信インタフェース(101)によって受信されている前記音声入力信号の数より小さいこと、を特徴とする請求項9に記載のシステム。
  11. 請求項1〜請求項10のいずれか1つに記載されたシステムを含むことを特徴とする補聴器または補助聞き取り装置。
  12. 2つ以上の音声出力信号を生成するための装置であって、
    信号プロセッサ(105)と、
    出力インタフェース(106)と、を備え、
    前記信号プロセッサ(105)は、2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、前記信号プロセッサ(105)は、前記2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、前記信号プロセッサ(105)は、方向情報を受信するように構成され、前記方向情報は、前記2つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存し、
    前記信号プロセッサ(105)は、前記拡散コンポーネント信号に依存して、1つ以上の処理された拡散信号を生成するように構成され、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記信号プロセッサ(105)は、前記到来方向に依存して直進利得を決定するように構成され、前記信号プロセッサ(105)は、処理された直進信号を得るために、前記直進利得を前記直進コンポーネント信号に適用するように構成され、そして、前記信号プロセッサ(105)は、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号のうちの1つとを結合するように構成され、そして、
    前記出力インタフェース(106)は、前記2つ以上の音声出力信号を出力するように構成され、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、
    前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数は、前記パンニング関数議論値のうちの1つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記1つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、
    前記信号プロセッサ(105)は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存し、かつ、窓利得関数に依存している前記2つ以上の音声出力信号のそれぞれのために、直進利得関数を計算するための利得関数計算モジュール(104)を備え、そして、
    前記信号プロセッサ(105)は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記配向情報に依存する、または、
    前記利得関数計算モジュール(104)は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記ズーム情報に依存すること、
    を特徴とする装置。
  13. 2つ以上の音声出力信号を生成するための方法であって、
    2つ以上の音声入力信号を受信し、
    前記2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
    前記2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
    前記2つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存している方向情報を受信し、
    前記拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記到来方向に依存して直進利得を決定し、処理された直進信号を得るために、前記直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号のうちの1つとを結合し、そして、
    前記2つ以上の音声出力信号を出力し、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数は、前記パンニング関数議論値のうちの1つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記1つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、そして、
    前記方法は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存し、かつ、窓利得関数に依存して、前記2つ以上の音声出力信号のそれぞれについて、直進利得関数を計算することをさらに含み、
    前記方法は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数との少なくとも1つは、前記配向情報に依存する、または、
    前記方法は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記ズーム情報に依存すること、
    を特徴とする方法。
  14. 2つ以上の音声出力信号を生成するための方法であって、
    2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
    前記2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
    方向情報を受信し、前記方向情報は前記2つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存し、
    前記拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記到来方向に依存して直進利得を決定し、処理された直進信号を得るために、前記直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号のうちの1つとを結合し、そして、
    前記2つ以上の音声出力信号を出力し、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、
    前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数、前記パンニング関数議論値のうちの1つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記1つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、そして、
    前記方法は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存し、かつ、窓利得関数に依存して、前記2つ以上の音声出力信号のそれぞれについて、直進利得関数を計算することをさらに含み、
    前記方法は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数との少なくとも1つは、前記配向情報に依存する、または、
    前記方法は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記ズーム情報に依存すること、
    を特徴とする方法。
  15. コンピュータプログラムがコンピュータ上もしくは信号プロセッサ上で実行されると、前記コンピュータもしくは前記信号プロセッサが請求項13または請求項14の方法を実行する、コンピュータプログラム。
JP2016564300A 2014-05-05 2015-04-23 インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法 Active JP6466968B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14167053.9 2014-05-05
EP14167053 2014-05-05
EP14183855.7A EP2942982A1 (en) 2014-05-05 2014-09-05 System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
EP14183855.7 2014-09-05
PCT/EP2015/058859 WO2015169618A1 (en) 2014-05-05 2015-04-23 System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering

Publications (3)

Publication Number Publication Date
JP2017517947A JP2017517947A (ja) 2017-06-29
JP2017517947A5 true JP2017517947A5 (ja) 2018-08-16
JP6466968B2 JP6466968B2 (ja) 2019-02-06

Family

ID=51485417

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016564335A Active JP6466969B2 (ja) 2014-05-05 2015-04-23 適応性のある関数に基づく矛盾しない音響場面再生のためのシステムおよび装置および方法
JP2016564300A Active JP6466968B2 (ja) 2014-05-05 2015-04-23 インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016564335A Active JP6466969B2 (ja) 2014-05-05 2015-04-23 適応性のある関数に基づく矛盾しない音響場面再生のためのシステムおよび装置および方法

Country Status (7)

Country Link
US (2) US9936323B2 (ja)
EP (4) EP2942981A1 (ja)
JP (2) JP6466969B2 (ja)
CN (2) CN106664501B (ja)
BR (2) BR112016025767B1 (ja)
RU (2) RU2665280C2 (ja)
WO (2) WO2015169617A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108604454B (zh) * 2016-03-16 2020-12-15 华为技术有限公司 音频信号处理装置和输入音频信号处理方法
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US10440469B2 (en) * 2017-01-27 2019-10-08 Shure Acquisitions Holdings, Inc. Array microphone module and system
US10219098B2 (en) * 2017-03-03 2019-02-26 GM Global Technology Operations LLC Location estimation of active speaker
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
CN109857360B (zh) * 2017-11-30 2022-06-17 长城汽车股份有限公司 车内音频设备音量控制系统及控制方法
GB2571949A (en) 2018-03-13 2019-09-18 Nokia Technologies Oy Temporal spatial audio parameter smoothing
US11854566B2 (en) 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
WO2020037555A1 (zh) * 2018-08-22 2020-02-27 深圳市汇顶科技股份有限公司 评估麦克风阵列一致性的方法、设备、装置和系统
JP7208365B2 (ja) * 2018-09-18 2023-01-18 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 仮想3dオーディオを現実の室内に適応させる装置及び方法
BR112021010964A2 (pt) 2018-12-07 2021-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho e método para gerar uma descrição de campo de som
JP2022522748A (ja) 2019-03-01 2022-04-20 マジック リープ, インコーポレイテッド 発話処理エンジンのための入力の決定
EP3912365A1 (en) * 2019-04-30 2021-11-24 Huawei Technologies Co., Ltd. Device and method for rendering a binaural audio signal
CN116828383A (zh) 2019-05-15 2023-09-29 苹果公司 音频处理
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
WO2021086624A1 (en) * 2019-10-29 2021-05-06 Qsinx Management Llc Audio encoding with compressed ambience
CN115380311A (zh) 2019-12-06 2022-11-22 奇跃公司 环境声学持久性
EP3849202B1 (en) * 2020-01-10 2023-02-08 Nokia Technologies Oy Audio and video processing
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
US11595775B2 (en) 2021-04-06 2023-02-28 Meta Platforms Technologies, Llc Discrete binaural spatialization of sound sources on two audio channels
WO2023069946A1 (en) * 2021-10-22 2023-04-27 Magic Leap, Inc. Voice analysis driven audio parameter modifications
CN114268883A (zh) * 2021-11-29 2022-04-01 苏州君林智能科技有限公司 一种选择麦克风布放位置的方法与系统
WO2023118078A1 (en) 2021-12-20 2023-06-29 Dirac Research Ab Multi channel audio processing for upmixing/remixing/downmixing applications

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
RU2363116C2 (ru) * 2002-07-12 2009-07-27 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
WO2007127757A2 (en) * 2006-04-28 2007-11-08 Cirrus Logic, Inc. Method and system for surround sound beam-forming using the overlapping portion of driver frequency ranges
US20080232601A1 (en) 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US9015051B2 (en) 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US8064624B2 (en) * 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
KR101410575B1 (ko) * 2010-02-24 2014-06-23 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 강화 다운믹스 신호를 생성하는 장치, 강화 다운믹스 신호를 생성하는 방법 및 컴퓨터 프로그램
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2464146A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams

Similar Documents

Publication Publication Date Title
JP2017517947A5 (ja)
JP2017517948A5 (ja)
JP6466968B2 (ja) インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法
KR102470962B1 (ko) 사운드 소스들을 향상시키기 위한 방법 및 장치
US20160189728A1 (en) Voice Signal Processing Method and Apparatus
CN112567763B (zh) 用于音频信号处理的装置和方法
US20180206038A1 (en) Real-time processing of audio data captured using a microphone array
US9838821B2 (en) Method, apparatus, computer program code and storage medium for processing audio signals
KR20200089339A (ko) 회의를 위한 서브밴드 공간 처리 및 크로스토크 제거 시스템
JP2015070578A (ja) 音響制御装置
JP5454375B2 (ja) 音響処理装置
EP3029671A1 (en) Method and apparatus for enhancing sound sources
CN116320908A (zh) 一种虚拟立体声的生成方法及电子设备
JP2015119393A (ja) 音響信号受聴装置
WO2016136284A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム並びに端末装置