JP2017517948A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2017517948A5 JP2017517948A5 JP2016564335A JP2016564335A JP2017517948A5 JP 2017517948 A5 JP2017517948 A5 JP 2017517948A5 JP 2016564335 A JP2016564335 A JP 2016564335A JP 2016564335 A JP2016564335 A JP 2016564335A JP 2017517948 A5 JP2017517948 A5 JP 2017517948A5
- Authority
- JP
- Japan
- Prior art keywords
- gain function
- signal
- audio output
- gain
- straight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004091 panning Methods 0.000 claims description 65
- 230000001419 dependent Effects 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000005236 sound signal Effects 0.000 claims description 22
- 238000000354 decomposition reaction Methods 0.000 claims description 17
- 239000003607 modifier Substances 0.000 claims description 8
- 238000009792 diffusion process Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 230000002085 persistent Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 2
- 239000002131 composite material Substances 0.000 claims 1
- 235000020127 ayran Nutrition 0.000 description 4
- 230000003111 delayed Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Description
柔軟な空間音の録音と再生のための周知の取り組みは、方向音声コード化(DirAC)[4]に表されている。DirACにおいて、近端側の空間音は、音声信号およびパラメータ副情報、すなわち、音の到来方向(DOA)および拡散性について説明される。パラメータの説明は、任意のスピーカーセットアップによって、オリジナルの空間イメージの再生を可能にする。これは、遠端側で再創成された空間イメージが、近端側で録音されている間、空間イメージと矛盾しないことを意味する。しかし、仮に、例えば、映像が、録音された音声を誉めているならば、再生された空間音は必ずしも映像イメージに合わされない。さらに、映像イメージが変化するとき、例えば、カメラの視方向とズームとが変更されるとき、再生された音響イメージは調整できない。これは、DirACが、再生された音響イメージを、任意の望ましい空間イメージに適合させる可能性を提供しないことを意味している。
1つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、2つ以上の音声入力信号を受信するように構成され、分解モジュールは、2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散信号コンポーネント信号および方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、1つ以上の利得関数を計算するための利得関数計算モジュールを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値に戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。
実施の形態に従って、利得関数計算モジュールは、例えば、1つ以上の利得関数のそれぞれの利得関数のために、ルックアップ・テーブルを生成するように構成され、ルックアップ・テーブルは複数のエントリーを含み、ルックアップ・テーブルのそれぞれのエントリーは利得関数議論値のうちの1つと、1つの利得関数議論値に割り当てられている利得関数リターン値とを含み、利得関数計算モジュールは、例えば、それぞれの利得関数のルックアップ・テーブルを持続的な又は非持続的なメモリーに記憶するように構成され、信号変更器は、例えば、メモリーに記憶されている1つ以上のルックアップ・テーブルのうちの1つから、前記利得関数リターン値を読み出すことによって、前記方向依存議論値に割り当てられている利得関数リターン値を得るように構成されている。
実施の形態に従って、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、例えば、前記パンニング利得関数の利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記パンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値のためより大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の何れとも異なる。
実施の形態において、2つ以上の音声出力信号のそれぞれの窓利得関数は、前記窓利得関数の利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記窓利得関数の1つ以上のグローバル最大値のそれぞれのために、窓利得関数が前記グローバル最大値より大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、第1の音声出力信号の窓利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号の窓利得関数の1つ以上のグローバル最大値の1つと等しい。
実施の形態に従って、利得関数計算モジュールは、例えば、到来方向についての視方向の角度シフトを示している配向情報を更に受信するように構成され、利得関数計算モジュールは、例えば、配向情報に依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。
さらに、1つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、信号プロセッサは、2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、信号プロセッサは、方向情報を受信するように構成され、前記方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、1つ以上の利得関数を計算するための利得関数計算モジュールを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられた利得関数リターン値を戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
1つ以上の音声出力信号を生成することは、1つ以上の利得関数を計算することを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、1つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、方向情報は2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、方向情報は2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
1つ以上の音声出力信号を生成することは、1つ以上の利得関数を計算することを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、1つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。
さらに、1つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、2つ以上の音声入力信号を受信するように構成され、分解モジュールは、2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散コンポーネント信号および方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。
実施の形態に従って、信号プロセッサは、例えば、2つ以上の音声出力信号を決定するように構成され、2つ以上の音声出力信号のそれぞれの音声出力信号のために、パンニング利得関数は、例えば、前記音声出力信号に割り当てられ、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、例えば、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数が、前記パンニング関数議論値の1つを受信するとき、前記パンニング利得関数が、例えば、前記パンニング関数議論値の前記1つに割り当てられているパンニング関数リターン値を戻すように構成され、そして、信号プロセッサは、例えば、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の方向依存議論値に依存している2つ以上の音声出力信号のそれぞれを決定するように構成され、前記方向依存議論値は、到来方向に依存する。
実施の形態において、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、パンニング関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値より大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の何れとも異なる。
実施の形態において、信号プロセッサは、例えば、到来方向について視方向の角度シフトを示している配向情報をさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも1つが、配向情報に依存する。または、利得関数計算モジュールは、例えば、ズーム情報をさらに受信するように構成され、ズーム情報は、カメラの開口角度を示し、パンニング利得関数と窓利得関数との少なくとも1つが、ズーム情報に依存する。または、利得関数計算モジュールは、例えば、測定パラメータをさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも1つが、測定パラメータに依存する。
実施の形態に従って、信号プロセッサは、例えば、2つ以上の音声入力信号の直進信号コンポーネントの到来方向であるオリジナルの到来方向に依存しているオリジナルの角度値を受信するように構成され、そして、例えば、距離情報を受信するように構成されている。信号プロセッサは、例えば、オリジナル角度値に依存し、かつ、距離情報に依存している修正された角度値を計算するように構成されている。そして、信号プロセッサは、例えば、修正された角度値に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
実施の形態に従って、信号プロセッサは、例えば、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、到来方向の拡がりを実行することによって、または、非相関性を実行することによって、1つ以上の音声出力信号を生成するように構成されている。
実施の形態に従って、直進コンポーネント信号および1つ以上の別の直進コンポーネント信号は、2つ以上の直進コンポーネント信号のグループを形成する。分解モジュールは、例えば、2つ以上の音声入力信号の別の直進信号コンポーネントを含む1つ以上の別の直進コンポーネント信号を生成するように構成されている。到来方向および1つ以上の別の到来方向は、2つ以上の到来方向のグループを形成する。2つ以上の到来方向のグループのそれぞれの到来方向は、例えば、2つ以上の直進コンポーネント信号のグループのちょうど1つの直進コンポーネント信号に割り当てられる。2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と2つの到来方向の到来方向の数とは、例えば等しい。信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループと2つ以上の到来方向のグループとを受信するように構成されている。そして、1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の到来方向に依存している直進利得を決定するように構成されている。信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の直進利得を前記直進コンポーネント信号に適用することによって、2つ以上の処理された直進信号のグループを生成するように構成されている。そして、信号プロセッサは、例えば、前記音声出力信号を生成するために、1つ以上の処理された拡散信号のうちの1つと、2つ以上の処理された信号のグループのそれぞれの処理された信号と、を結合するように構成されている。
さらに、上述したシステムを含む補聴器または補助聞き取り装置が、例えば、提供される。
さらに、1つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成されている。信号プロセッサは、2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成されている、信号プロセッサは、方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成されている。信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成されている。そして、信号プロセッサは、音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
図1aは、1つ以上の音声出力信号を生成するためのシステムを説明する。システムは、分解モジュール101と信号プロセッサ105と出力インタフェース106とを含む。
分解モジュール101は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントを含む直進コンポーネント信号Xdir(k,n)を生成するように構成されている。さらに、分解モジュール101は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の拡散信号コンポーネントを含む拡散コンポーネント信号Xdiff(k,n)を生成するように構成されている。
信号プロセッサ105は、直進コンポーネント信号Xdir(k,n)と拡散コンポーネント信号Xdiff(k,n)と方向情報とを受信するように構成され、前記方向情報は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントの到来方向に依存している。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)のために、信号プロセッサ105は、到来方向に依存して直進利得Gi(k,n)を決定するように構成されている。信号プロセッサ105は、処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用するように構成されている。そして、信号プロセッサ105は、音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)とを結合するように構成されている。
概説したように、方向情報は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントの到来方向φ(k,n)に依存する。例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントの到来方向は、例えば方向情報自身である。または、例えば方向情報は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントの伝播方向である。到来方向が、受信マイクロフォン配列から音源までを示しながら、伝播方向は、音源から受信マイクロフォン配列までを示す。従って、伝播方向は、到来方向の逆方向を正確に示し、それ故、到来方向に依存する。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)の1つYi(k,n)を生成するために、信号プロセッサ105は、
到来方向に依存して、直進利得Gi(k,n)を決定し、
処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用し、
前記音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)とを結合する。
到来方向に依存して、直進利得Gi(k,n)を決定し、
処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用し、
前記音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)とを結合する。
分解モジュール101は、例えば、1つ以上の音声入力信号を、直進コンポーネント信号と拡散コンポーネント信号とに分解することによって、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントを含む直進コンポーネント信号Xdir(k,n)と、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の拡散信号コンポーネントを含む拡散コンポーネント信号Xdiff(k,n)とを生成するように構成されている。
図1aの実施の形態は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントの到来方向を考慮する。従って、音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)は、直進コンポーネント信号Xdir(k,n)と到来方向に依存している拡散コンポーネント信号Xdiff(k,n)とを柔軟に適合することによって生成される。高度な適応化可能性が達成される。
図1bの装置は、信号プロセッサ105と出力インタフェース106とを含む。
信号プロセッサ105は、2つ以上のオリジナルの音声信号x1(k,n)、x2(k,n)、…、xp(k,n)(例えば、図1aの音声入力信号)の直進信号コンポーネントを含む直進コンポーネント信号Xdir(k,n)を受信するように構成されている。さらに、信号プロセッサ105は、2つ以上のオリジナルの音声信号x1(k,n)、x2(k,n)、…、xp(k,n)の拡散信号コンポーネントを含む拡散コンポーネント信号Xdiff(k,n)を受信するように構成されている。さらに、信号プロセッサ105は、方向情報を受信するように構成されている。前記方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)のために、信号プロセッサ105は、到来方向に依存して、直進利得Gi(k,n)を決定するように構成されている。信号プロセッサ105は、処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用するように構成されている。そして、信号プロセッサ105は、前記音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つXdiff,i(k,n)とを結合するように構成されている。
図1cは別の実施の形態に従っているシステムを示す。図1cにおいて、図1aの信号生成器105は、1つ以上の利得関数を計算するための利得関数計算モジュール104を更に含む。1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含む。利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられる。前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値の前記1つに割り当てられている利得関数リターン値を戻すように構成されている。
さらに、信号プロセッサ105は、到来方向に依存して、直進依存議論値を、1つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力のうちの少なくとも1つの利得値を決定するための信号変更器103を更に含む。
さらに、信号プロセッサ105は、到来方向に依存して、直進依存議論値を、1つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力のうちの少なくとも1つの利得値を決定するための信号変更器103を更に含む。
例えば、遠端側で、特定の重み付けが、例えば、結果として生じている音声出力信号が、望ましい空間イメージに矛盾しないように、再生された音響イメージを適合する取り出された直進音と拡散音とに適用される。これらの重み付けは、例えば音響ズーム効果および依存を、例えば直進音の到来方向(DOA)上に、および、例えばズーミングファクターおよび/またはカメラの視方向上にモデルを作る。最終的な音声出力信号は、例えば、それ故、重み付けされた直進音と拡散音とを合計することによって得られる。
図2は実施の形態に従っているシステムを説明する。近端側はモジュール101と102とから成っている。遠端側はモジュール105と106とを含む。モジュール105自身は、モジュール103と104とから成っている。参照が近端側と遠端側にされるとき、いくつかの実施の形態において、第1の装置が近端側(例えば、モジュール101と102とから成っている)を実行し、第2の装置が遠端側(例えば、モジュール103と104とから成っている)を実行することが理解される。一方、別の実施の形態において、1つの装置が、遠端側だけでなく近端側を実行する。そのような1つの装置は、例えば、モジュール101と102と103と104とから成っている。
特に、図2は、分解モジュール101と、パラメータ推定モジュール102と、信号プロセッサ105と、出力インタフェース106とを含む実施の形態に従っているシステムを説明する。図2において、信号プロセッサ105は、利得関数計算モジュール104と信号変更器103とを含む。信号プロセッサ105と出力インタフェース106とは、例えば、図1bによって説明される装置を実現する。
図2において、とりわけ、パラメータ推定モジュール102は、例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)を受信するように構成されている。さらに、パラメータ推定モジュール102は、例えば、2つ以上の音声入力信号に依存している2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントの到来方向を推定するように構成されている。信号プロセッサ105は、例えば、パラメータ推定モジュール102から2つ以上の音声入力信号の直進信号コンポーネントの到来方向を含む到来方向情報を受信するように構成されている。
実施の形態に従って、1つの時間−周波数当たり1つ以上の平面波が、例えば、特に処理される。例えば、2つの異なる方向から同じ周波数帯の2つ以上の平面波が、例えば、マイクロフォン配列によって同じ時間ポイントに録音されるように到達する。これらの2つの平面波は、それぞれ、異なる到来方向を持つ。そのようなシナリオにおいて、2つ以上の平面波の直進信号コンポーネントおよびそれらの到来方向が、例えば、別々に考慮される。
実施の形態に従って、直進コンポーネント信号Xdir1(k,n)と1つ以上の別の直進コンポーネント信号Xdir2(k,n)、…、Xdir q(k,n)は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)…、Xdir q(k)のグループを形成する。分解モジュール101は、例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の別の直進信号コンポーネントを含む1つ以上の別の直進コンポーネント信号Xdir2(k,n)、…、Xdir q(k,n)を生成するように構成されている。
到来方向と1つ以上の別の到来方向は、2つ以上の到来方向のグループを形成する。2つ以上の到来方向のグループのそれぞれの到来方向は、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q,m(k,n)のグループの1つの直進コンポーネント信号Xdir j(k,n)に正確に割り当てられる。2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と、2つの到来方向の到来方向の数とは等しい。
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループと、2つ以上の到来方向のグループとを受信するように構成されている。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)のために、
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループのそれぞれの直進コンポーネント信号Xdir j(k,n)のために、前記直進コンポーネント信号Xdir j(k,n)の到来方向に依存している直進利得Gj,i(k,n)を決定するように構成され、
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループのそれぞれの直進コンポーネント信号Xdir j(k,n)のために、前記直進コンポーネント信号Xdir j(k,n)の直進利得Gj,i(k,n)を前記直進コンポーネント信号Xdir j(k,n)に適用することによって、2つ以上の処理された直進信号Ydir1,i(k,n)、Ydir2,i(k,n)、…、Ydir q,i(k,n)のグループを生成するように構成され、そして、
信号プロセッサ105は、例えば、前記音声出力信号Yi(k,n)を生成するために、1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)と、2つ以上の処理された信号Ydir1,i(k,n)、Ydir2,i(k,n)、…、Ydir q,i(k,n)のグループのそれぞれの処理された信号Ydir j,i(k,n)とを結合するように構成されている。
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループのそれぞれの直進コンポーネント信号Xdir j(k,n)のために、前記直進コンポーネント信号Xdir j(k,n)の到来方向に依存している直進利得Gj,i(k,n)を決定するように構成され、
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループのそれぞれの直進コンポーネント信号Xdir j(k,n)のために、前記直進コンポーネント信号Xdir j(k,n)の直進利得Gj,i(k,n)を前記直進コンポーネント信号Xdir j(k,n)に適用することによって、2つ以上の処理された直進信号Ydir1,i(k,n)、Ydir2,i(k,n)、…、Ydir q,i(k,n)のグループを生成するように構成され、そして、
信号プロセッサ105は、例えば、前記音声出力信号Yi(k,n)を生成するために、1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)と、2つ以上の処理された信号Ydir1,i(k,n)、Ydir2,i(k,n)、…、Ydir q,i(k,n)のグループのそれぞれの処理された信号Ydir j,i(k,n)とを結合するように構成されている。
以下において、説明は、1つの平面波と、1つの到来方向と、1つの直進コンポーネント信号とについて提供される。説明された概念は、1つ以上の平面波、1つ以上の到来方向と、1つ以上の直進コンポーネント信号とについて、等しく適用可能であることが理解される。
配列伝播ベクトルは、例えば、[8]において定義される。[8]の式(6)において、配列伝播ベクトルは以下の式に従って定義される。
a(k,φl)=[a1(k,φl)・・・aM(k,φl)]T
ここで、φlは、l番目の平面波の到来方向の方位角度である。従って、配列伝播ベクトルは到来方向に依存する。仮に、1つの平面波mのみが存在するか、または考慮されるならば、インデックスlは省略される。
a(k,φl)=[a1(k,φl)・・・aM(k,φl)]T
ここで、φlは、l番目の平面波の到来方向の方位角度である。従って、配列伝播ベクトルは到来方向に依存する。仮に、1つの平面波mのみが存在するか、または考慮されるならば、インデックスlは省略される。
従って、実施の形態に従って、分解モジュール101は、例えば、フィルタを、以下の式に従う2つ以上の音声入力信号に適用することによって、直進コンポーネント信号を生成するように構成されている。
ここで、Φu(k,n)は、2つ以上の音声入力信号の雑音および拡散音のパワースペクトル密度行列を示す。a(k,φ)は配列伝播ベクトルを示す。そして、φは、2つ以上の音声入力信号の直進信号コンポーネントの到来方向の方位角度を示す。
ここで、Φu(k,n)は、2つ以上の音声入力信号の雑音および拡散音のパワースペクトル密度行列を示す。a(k,φ)は配列伝播ベクトルを示す。そして、φは、2つ以上の音声入力信号の直進信号コンポーネントの到来方向の方位角度を示す。
従って、実施の形態において、信号プロセッサ105は、例えば、1つ以上の音声出力信号のそれぞれの音声出力信号のために、直進利得Gi(k,n)が以下の式に従って定義されるように、決定するように構成される。
Gi(k,n)=pi(tan-1[c tan(φ(k,n))])
ここで、iは前記音声出力信号のインデックスを示す。kは周波数を示す。nは時間を示す。Gi(k,n)は直進利得を示す。φ(k,n)は、到来方向(例えば、到来方向の方位角度)に依存している角度を示す。cは定数値を示す。piはパンニング関数を示す。
Gi(k,n)=pi(tan-1[c tan(φ(k,n))])
ここで、iは前記音声出力信号のインデックスを示す。kは周波数を示す。nは時間を示す。Gi(k,n)は直進利得を示す。φ(k,n)は、到来方向(例えば、到来方向の方位角度)に依存している角度を示す。cは定数値を示す。piはパンニング関数を示す。
それから、実施の形態に従って、信号プロセッサ105は、例えば、1つ以上の音声出力信号のそれぞれの音声出力信号毎に、前記音声出力信号のための直進利得を、到来方向に依存しているルックアップ・テーブルから得るように構成されている。
実施の形態において、信号プロセッサ105は、直進利得関数gi(k,n))のためのルックアップ・テーブルを計算する。例えば、全ての可能な十分な角度、例えば1°、2°、3°…のために、DOAの方位値φ毎に、直進利得Gi(k,n)が事前に計算されて記憶される。そして、到来方向の現在の方位値φが受信されるとき、信号プロセッサ105は、ルックアップ・テーブルから現在の方位値φのための直進利得Gi(k,n)を読み取る。(現在の方位値φは、例えばルックアップ・テーブル議論値であり、直進利得Gi(k,n)は、例えばルックアップ・テーブルリターン値である。)。DOAの方位φの代わりに、別の実施の形態において、ルックアップ・テーブルは、到来方向に依存しているどのような角度に対しても計算される。これは利点を持つ。利得値は、いつも全ての時間ポイントのために、または、全ての時間−周波数ビンのために計算される必要があるわけではない。けれども代わりに、ルックアップ・テーブルは1回計算されると、それからは、受信された角度φのために、直進利得Gi(k,n)がルックアップ・テーブルから読み取られる。
従って、実施の形態に従って、信号プロセッサ105は、例えば、ルックアップ・テーブルを計算するように構成されている。ルックアップ・テーブルは複数のエントリーを含む。エントリーのそれぞれは、ルックアップ・テーブル議論値と、前記議論値に割り当てられているルックアップ・テーブルリターン値とを含む。信号プロセッサ105は、例えば、到来方向に依存しているルックアップ・テーブルのルックアップ・テーブル議論値のうちの1つを選択することによって、ルックアップ・テーブルからルックアップ・テーブルリターン値のうちの1つを得るように構成されている。さらに、信号プロセッサ105は、例えば、ルックアップ・テーブルから得られたルックアップ・テーブルリターン値のうちの前記1つに依存している1つ以上の音声出力信号の少なくとも1つのために、利得値を決定するように構成されている。
信号プロセッサ105は、例えば、別の利得値を決定するために、別の到来方向に依存しているルックアップ・テーブル議論値のうちの別の1つを選択することによって(同じ)ルックアップ・テーブルから、ルックアップ・テーブルリターン値のうちの別の1つを得るように構成されている。例えば、信号プロセッサは、例えば、前記別の到来方向に依存する後の方の時間ポイントに、別の方向の情報を受信する。
2つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含む。パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられる。前記パンニング関数が、前記パンニング関数議論値の1つを受信するとき、前記パンニング関数は、前記パンニング関数議論値のうちの前記1つに割り当てられているパンニング関数リターン値を戻すように構成される。そして
信号プロセッサ105は、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の直進依存議論値に依存して、2つ以上の音声出力信号のそれぞれを決定するように構成されている。前記直進依存議論値は、到来方向に依存する。
2つ以上の音声出力信号の第1音声出力信号および第2音声出力信号のペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値のうちの少なくとも1つは、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値のうちの何れとも相違する。
音声出力信号のうちの前記少なくとも1つのそれぞれの音声出力信号のパンニングルックアップ・テーブルは、例えば、複数のエントリーからなる。エントリーのそれぞれは、前記音声出力信号のパンニング利得関数のパンニング関数議論値と、前記パンニング関数議論値に割り当てられているパンニング利得関数のパンニング関数リターン値とからなる。信号プロセッサ105は、到来方向に依存して、パンニングルックアップ・テーブルから方向依存議論値を選択することによって、前記パンニングルックアップ・テーブルからパンニング関数リターン値の1つを得るように構成されている。信号プロセッサ105は、前記パンニングルックアップ・テーブルから得られた前記パンニング関数リターン値のうちの1つに依存して、前記音声出力信号のための利得値を決定するように構成されている。
例えば、以下の式(27)において、
wb(φ)=w(tan-1[βc tanφ]) (27)
到来方向φの方位角度は、窓利得関数wb(φ)の窓関数議論値である。窓利得関数wb(φ)は、ズーム情報、ここでは、ズームファクターβに依存する。
wb(φ)=w(tan-1[βc tanφ]) (27)
到来方向φの方位角度は、窓利得関数wb(φ)の窓関数議論値である。窓利得関数wb(φ)は、ズーム情報、ここでは、ズームファクターβに依存する。
窓利得関数は、例えば、ルックアップ・テーブルとして実施される。そのような実施の形態において、信号プロセッサ105は、窓ルックアップ・テーブルを計算するように構成されている。窓ルックアップ・テーブルは、複数のエントリーを含む。エントリーのそれぞれは、窓利得関数の窓関数議論値と、前記窓関数議論値に割り当てられている窓利得関数の窓関数リターン値とからなる。信号プロセッサ105は、到来方向に依存している窓ルックアップ・テーブルの窓関数議論値のうちの1つを選択することによって、窓ルックアップ・テーブルから窓関数リターン値のうちの1つを得るように構成されている。さらに、信号プロセッサ105は、窓ルックアップ・テーブルから得られた窓関数リターン値のうちの前記1つに依存している1つ以上の音声出力信号の少なくとも1つのための利得値を決定するように構成されている。
従って、実施の形態に従って、信号プロセッサ105は、例えば、2つ以上の音声入力信号の直進信号コンポーネントの到来方向である到来方向のオリジナルの方位角度φ’
(k,n)を受信するように構成され、そして、距離情報rを更に受信するように構成されている。信号プロセッサ105は、例えば、オリジナルの到来方向の方位角度φ’(k
,n)、および、距離情報rとgとに依存して、到来方向の修正された方位角度φ(k,n)を計算するように構成されている。信号プロセッサ105は、例えば、修正された到来方向の方位角度φ(k,n)に依存して、1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
(k,n)を受信するように構成され、そして、距離情報rを更に受信するように構成されている。信号プロセッサ105は、例えば、オリジナルの到来方向の方位角度φ’(k
,n)、および、距離情報rとgとに依存して、到来方向の修正された方位角度φ(k,n)を計算するように構成されている。信号プロセッサ105は、例えば、修正された到来方向の方位角度φ(k,n)に依存して、1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
ぼやけ効果は、以下のぼやけ効果、ローパスフィルタリングや、遅延された直進音の追加や、直進音減衰や、時間的円滑化および/またはDOA拡がりの選択された1つまたは組み合わせとして得られる。従って、実施の形態に従って、信号プロセッサ105は、例えば、ローパスフィルタリングを実施することによって、または、遅延された直進音を追加することによって、または、直進音の減衰を実施することによって、または、時間的円滑化を実施することによって、または、到来方向の拡がりを実施することによって、1つ以上の音声出力信号を生成するように構成されている。
Claims (17)
- 1つ以上の音声出力信号を生成するための装置であって、
信号プロセッサ(105)と、
出力インタフェース(106)と、を備え、
前記信号プロセッサ(105)は、2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、前記信号プロセッサ(105)は、前記2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、前記信号プロセッサ(105)は、方向情報を受信するように構成され、前記方向情報は、前記2つ以上のオリジナル音声信号の前記直進信号コンポーネントの到来方向に依存し、
前記信号プロセッサ(105)は、前記拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成され、
前記1つ以上の音声出力信号のそれぞれの音声出力信号について、前記信号プロセッサ(105)は、前記到来方向に依存して、利得値である直進利得を決定するように構成され、前記信号プロセッサ(105)は、処理された直進信号を得るために、前記直進利得を前記直進コンポーネント信号に適用するように構成され、そして、前記信号プロセッサ(105)は、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号のうちの1つとを結合するように構成され、
前記出力インタフェース(106)は、前記1つ以上の音声出力信号を出力するように構成され、
前記信号プロセッサ(105)は、1つ以上の利得関数を計算するための利得関数計算モジュール(104)を含み、前記1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値のうちの前記1つに割り当てられている前記利得関数リターン値に戻すように構成され、
前記信号プロセッサ(105)は、前記利得関数から方向依存議論値に割り当てられている前記利得関数リターン値を得て、そして、前記利得関数から得られた前記利得関数リターン値に依存する前記1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、前記到来方向に依存して、前記1つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択するための信号変更器(103)を更に含むこと、
を特徴とする装置。 - 1つ以上の音声出力信号を生成するためのシステムであって、
請求項1に記載された装置と、
分解モジュール(101)と、を備え、
前記分解モジュール(101)は、前記2つ以上のオリジナル音声信号である2つ以上の音声入力信号を受信するように構成され、
前記分解モジュール(101)は、前記2つ以上のオリジナル音声信号の前記直進信号コンポーネントを含む前記直進コンポーネント信号を生成するように構成され、そして、
前記分解モジュール(101)は、前記2つ以上のオリジナル音声信号の前記拡散信号コンポーネントを含む前記拡散コンポーネント信号を生成するように構成されていること、
を特徴とするシステム。 - 前記利得関数計算モジュール(104)は、前記1つ以上の利得関数のそれぞれの利得関数について1つのルックアップ・テーブルを生成するように構成され、前記ルックアップ・テーブルは複数のエントリーを含み、前記ルックアップ・テーブルのそれぞれのエントリーは前記利得関数議論値のうちの1つと、前記1つの利得関数議論値に割り当てられている前記利得関数リターン値とを含み、
前記利得関数計算モジュール(104)は、それぞれの利得関数の前記ルックアップ・テーブルを持続的な又は非持続的なメモリーに記憶するように構成され、
前記信号変更器(103)は、前記メモリーに記憶されている1つ以上の前記ルックアップ・テーブルのうちの1つから、前記利得関数リターン値を読み出すことによって、前記方向依存議論値に割り当てられている前記利得関数リターン値を得るように構成されていること、
を特徴とする請求項2に記載のシステム。 - 前記信号プロセッサ(105)は、2つ以上の音声出力信号を決定するように構成され、
前記利得関数計算モジュール(104)は、2つ以上の利得関数を計算するように構成され、
前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記利得関数計算モジュール(104)は、前記2つ以上の利得関数のうちの1つとして、前記音声出力信号に割り当てられているパンニング利得関数を計算するように構成され、前記信号変更器(103)は、前記パンニング利得関数に依存して前記音声出力信号を生成するように構成されていること、
を特徴とする請求項2または請求項3に記載のシステム。 - 前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、前記パンニング利得関数の前記利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記パンニング利得関数の前記1つ以上のグローバル最大値のそれぞれについて、前記パンニング利得関数が、前記グローバル最大値のためよりも大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、
前記2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、前記第1の音声出力信号の前記パンニング利得関数の前記1つ以上のグローバル最大値の少なくとも1つが、前記第2の音声出力信号の前記パンニング利得関数の前記1つ以上のグローバル最大値の何れとも異なること、
を特徴とする請求項4に記載のシステム。 - 前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記利得関数計算モジュール(104)は、前記2つ以上の利得関数のうちの1つとして、前記音声出力信号に割り当てられている窓利得関数を計算するように構成され、
前記信号変更器(103)は、前記窓利得関数に依存している前記音声出力信号を生成するように構成され、
仮に窓関数議論値が、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、前記窓利得関数は、どの利得関数リターン値よりも大きい利得関数リターン値を戻すように構成され、仮に前記窓関数議論値が前記下部の窓閾値より小さく、あるいは、前記上部の窓閾値より大きいならば、前記窓利得関数は、前記窓利得関数によって戻すように構成されていること
を特徴とする請求項4または請求項5のいずれかに記載のシステム。 - 前記2つ以上の音声出力信号のそれぞれの前記窓利得関数は、前記窓利得関数の前記利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記窓利得関数の前記1つ以上のグローバル最大値のそれぞれについて、前記窓利得関数が前記グローバル最大値に対してよりも大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、
前記2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、前記第1の音声出力信号の前記窓利得関数の前記1つ以上のグローバル最大値の少なくとも1つが、前記第2の音声出力信号の前記窓利得関数の前記1つ以上のグローバル最大値の1つと等しいこと、
を特徴とする請求項6に記載のシステム。 - 前記利得関数計算モジュール(104)は、到来方向に対する視方向の角度シフトを示している配向情報を更に受信するように構成され、
前記利得関数計算モジュール(104)は、前記配向情報に依存して、前記音声出力信号のそれぞれの前記パンニング利得関数を生成するように構成されていること、
を特徴とする請求項6または請求項7のいずれかに記載のシステム。 - 前記利得関数計算モジュール(104)は、前記配向情報に依存して、前記音声出力信号のそれぞれの前記窓利得関数を生成するように構成されていること、を特徴とする請求項8に記載のシステム。
- 前記利得関数計算モジュール(104)は、ズーム情報を更に受信するように構成され、前記ズーム情報がカメラの開口角度を示し、
前記利得関数計算モジュール(104)は、前記ズーム情報に依存して、前記音声出力信号のそれぞれの前記パンニング利得関数を生成するように構成されていること、
を特徴とする請求項6〜請求項9のいずれかに記載のシステム。 - 前記利得関数計算モジュール(104)は、前記ズーム情報に依存して、前記音声出力信号のそれぞれの前記窓利得関数を生成するように構成されていること、を特徴とする請求項10に記載のシステム。
- 前記利得関数計算モジュール(104)は、映像イメージおよび音響イメージを位置合わせするための測定パラメータを更に受信するように構成され、
前記利得関数計算モジュール(104)は、前記測定パラメータに依存して、前記音声出力信号のそれぞれの前記パンニング利得関数を生成するように構成されていること、
を特徴とする請求項6〜請求項11のいずれかに記載のシステム。 - 前記利得関数計算モジュール(104)は、前記測定パラメータに依存して、前記音声出力信号のそれぞれの前記窓利得関数を生成するように構成されていること、を特徴とする請求項12に記載のシステム。
- 前記利得関数計算モジュール(104)は、映像イメージについての情報を受信するように構成され、
前記利得関数計算モジュール(104)は、映像イメージについての前記情報に依存して、音源の知覚的拡がりを実現するために、複合利得を戻す、ぼけ関数を生成するように構成されていること、
を特徴とする請求項2〜請求項13のいずれかに記載のシステム。 - 1つ以上の音声出力信号を生成するための方法であって、
2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
前記2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は、前記2つ以上のオリジナル音声信号の前記直進信号コンポーネントの到来方向に依存し、
前記拡散コンポーネント信号に依存して、1つ以上の処理された拡散信号を生成し、
前記1つ以上の音声出力信号のそれぞれの音声出力信号について、到来方向に依存して直進利得を決定し、処理された直進信号を得るために前記直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号の1つとを結合し、
前記1つ以上の音声出力信号を出力し、
前記1つ以上の音声出力信号を生成することは、1つ以上の利得関数を計算することを含み、前記1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの前記1つに割り当てられている前記利得関数リターン値を戻すように構成され、
前記1つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている前記利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存して、前記1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、前記到来方向に依存して、前記1つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択することを含むこと、
を特徴とする方法。 - 前記2つ以上のオリジナル音声信号である2つ以上の音声入力信号を受信し、
前記2つ以上のオリジナル音声信号の前記直進信号コンポーネントを含む前記直進コンポーネント信号を生成し、
前記2つ以上のオリジナル音声信号の前記拡散信号コンポーネントを含む前記拡散コンポーネント信号を生成すること、
を特徴とする請求項15に記載の方法。 - コンピュータプログラムがコンピュータ上もしくは信号プロセッサ上で実行されると、前記コンピュータもしくは前記信号プロセッサが請求項15または請求項16の方法を実行する、コンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14167053 | 2014-05-05 | ||
EP14167053.9 | 2014-05-05 | ||
EP14183854.0A EP2942981A1 (en) | 2014-05-05 | 2014-09-05 | System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions |
EP14183854.0 | 2014-09-05 | ||
PCT/EP2015/058857 WO2015169617A1 (en) | 2014-05-05 | 2015-04-23 | System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017517948A JP2017517948A (ja) | 2017-06-29 |
JP2017517948A5 true JP2017517948A5 (ja) | 2018-08-16 |
JP6466969B2 JP6466969B2 (ja) | 2019-02-06 |
Family
ID=51485417
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016564300A Active JP6466968B2 (ja) | 2014-05-05 | 2015-04-23 | インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法 |
JP2016564335A Active JP6466969B2 (ja) | 2014-05-05 | 2015-04-23 | 適応性のある関数に基づく矛盾しない音響場面再生のためのシステムおよび装置および方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016564300A Active JP6466968B2 (ja) | 2014-05-05 | 2015-04-23 | インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US10015613B2 (ja) |
EP (4) | EP2942981A1 (ja) |
JP (2) | JP6466968B2 (ja) |
CN (2) | CN106664485B (ja) |
BR (2) | BR112016025767B1 (ja) |
RU (2) | RU2663343C2 (ja) |
WO (2) | WO2015169618A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017157427A1 (en) * | 2016-03-16 | 2017-09-21 | Huawei Technologies Co., Ltd. | An audio signal processing apparatus and method for processing an input audio signal |
US10187740B2 (en) * | 2016-09-23 | 2019-01-22 | Apple Inc. | Producing headphone driver signals in a digital audio signal processing binaural rendering environment |
US10440469B2 (en) * | 2017-01-27 | 2019-10-08 | Shure Acquisitions Holdings, Inc. | Array microphone module and system |
US10219098B2 (en) * | 2017-03-03 | 2019-02-26 | GM Global Technology Operations LLC | Location estimation of active speaker |
JP6472824B2 (ja) * | 2017-03-21 | 2019-02-20 | 株式会社東芝 | 信号処理装置、信号処理方法および音声の対応づけ提示装置 |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
GB2563606A (en) | 2017-06-20 | 2018-12-26 | Nokia Technologies Oy | Spatial audio processing |
CN109857360B (zh) * | 2017-11-30 | 2022-06-17 | 长城汽车股份有限公司 | 车内音频设备音量控制系统及控制方法 |
GB2571949A (en) | 2018-03-13 | 2019-09-18 | Nokia Technologies Oy | Temporal spatial audio parameter smoothing |
EP3811360A4 (en) * | 2018-06-21 | 2021-11-24 | Magic Leap, Inc. | PORTABLE SYSTEM VOICE PROCESSING |
CN109313909B (zh) * | 2018-08-22 | 2023-05-12 | 深圳市汇顶科技股份有限公司 | 评估麦克风阵列一致性的方法、设备、装置和系统 |
CN112740324A (zh) * | 2018-09-18 | 2021-04-30 | 华为技术有限公司 | 用于使虚拟3d音频适应现实房间的设备和方法 |
EP4191580A1 (en) | 2018-12-07 | 2023-06-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using diffuse compensation |
CN113748462A (zh) | 2019-03-01 | 2021-12-03 | 奇跃公司 | 确定用于语音处理引擎的输入 |
EP3912365A1 (en) * | 2019-04-30 | 2021-11-24 | Huawei Technologies Co., Ltd. | Device and method for rendering a binaural audio signal |
CN113597777B (zh) | 2019-05-15 | 2023-07-07 | 苹果公司 | 音频处理 |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
CN113519023A (zh) * | 2019-10-29 | 2021-10-19 | 苹果公司 | 具有压缩环境的音频编码 |
CN115380311A (zh) * | 2019-12-06 | 2022-11-22 | 奇跃公司 | 环境声学持久性 |
EP3849202B1 (en) * | 2020-01-10 | 2023-02-08 | Nokia Technologies Oy | Audio and video processing |
US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
US11595775B2 (en) | 2021-04-06 | 2023-02-28 | Meta Platforms Technologies, Llc | Discrete binaural spatialization of sound sources on two audio channels |
WO2023069946A1 (en) * | 2021-10-22 | 2023-04-27 | Magic Leap, Inc. | Voice analysis driven audio parameter modifications |
CN114268883A (zh) * | 2021-11-29 | 2022-04-01 | 苏州君林智能科技有限公司 | 一种选择麦克风布放位置的方法与系统 |
WO2023118078A1 (en) | 2021-12-20 | 2023-06-29 | Dirac Research Ab | Multi channel audio processing for upmixing/remixing/downmixing applications |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
BRPI0305434B1 (pt) * | 2002-07-12 | 2017-06-27 | Koninklijke Philips Electronics N.V. | Methods and arrangements for encoding and decoding a multichannel audio signal, and multichannel audio coded signal |
WO2007127757A2 (en) * | 2006-04-28 | 2007-11-08 | Cirrus Logic, Inc. | Method and system for surround sound beam-forming using the overlapping portion of driver frequency ranges |
US9015051B2 (en) | 2007-03-21 | 2015-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reconstruction of audio channels with direction parameters indicating direction of origin |
US20080232601A1 (en) | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
US8180062B2 (en) * | 2007-05-30 | 2012-05-15 | Nokia Corporation | Spatial sound zooming |
US8064624B2 (en) * | 2007-07-19 | 2011-11-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for generating a stereo signal with enhanced perceptual quality |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
JP5508550B2 (ja) * | 2010-02-24 | 2014-06-04 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 拡張ダウンミックス信号を発生するための装置、拡張ダウンミックス信号を発生するための方法及びコンピュータプログラム |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
EP2464145A1 (en) * | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a downmixer |
EP2600343A1 (en) * | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for merging geometry - based spatial audio coding streams |
-
2014
- 2014-09-05 EP EP14183854.0A patent/EP2942981A1/en not_active Withdrawn
- 2014-09-05 EP EP14183855.7A patent/EP2942982A1/en not_active Withdrawn
-
2015
- 2015-04-23 RU RU2016147370A patent/RU2663343C2/ru active
- 2015-04-23 BR BR112016025767-7A patent/BR112016025767B1/pt active IP Right Grant
- 2015-04-23 EP EP15720034.6A patent/EP3141000B1/en active Active
- 2015-04-23 RU RU2016146936A patent/RU2665280C2/ru active
- 2015-04-23 WO PCT/EP2015/058859 patent/WO2015169618A1/en active Application Filing
- 2015-04-23 JP JP2016564300A patent/JP6466968B2/ja active Active
- 2015-04-23 EP EP15721604.5A patent/EP3141001B1/en active Active
- 2015-04-23 BR BR112016025771-5A patent/BR112016025771B1/pt active IP Right Grant
- 2015-04-23 JP JP2016564335A patent/JP6466969B2/ja active Active
- 2015-04-23 WO PCT/EP2015/058857 patent/WO2015169617A1/en active Application Filing
- 2015-04-23 CN CN201580036833.6A patent/CN106664485B/zh active Active
- 2015-04-23 CN CN201580036158.7A patent/CN106664501B/zh active Active
-
2016
- 2016-11-04 US US15/344,076 patent/US10015613B2/en active Active
- 2016-11-04 US US15/343,901 patent/US9936323B2/en active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017517948A5 (ja) | ||
JP2017517947A5 (ja) | ||
US10015613B2 (en) | System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions | |
JP6703525B2 (ja) | 音源を強調するための方法及び機器 | |
CN112567763B (zh) | 用于音频信号处理的装置和方法 | |
CN113597776A (zh) | 参数化音频中的风噪声降低 | |
JP2015070578A (ja) | 音響制御装置 | |
JP5454375B2 (ja) | 音響処理装置 | |
EP3029671A1 (en) | Method and apparatus for enhancing sound sources | |
WO2016136284A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム並びに端末装置 |