JP6466968B2 - インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法 - Google Patents

インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法 Download PDF

Info

Publication number
JP6466968B2
JP6466968B2 JP2016564300A JP2016564300A JP6466968B2 JP 6466968 B2 JP6466968 B2 JP 6466968B2 JP 2016564300 A JP2016564300 A JP 2016564300A JP 2016564300 A JP2016564300 A JP 2016564300A JP 6466968 B2 JP6466968 B2 JP 6466968B2
Authority
JP
Japan
Prior art keywords
signal
straight
audio output
function
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016564300A
Other languages
English (en)
Other versions
JP2017517947A5 (ja
JP2017517947A (ja
Inventor
エマヌエル ハベツ
エマヌエル ハベツ
オリヴァー ティールガルト
オリヴァー ティールガルト
コンラート コヴァルチク
コンラート コヴァルチク
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2017517947A publication Critical patent/JP2017517947A/ja
Publication of JP2017517947A5 publication Critical patent/JP2017517947A5/ja
Application granted granted Critical
Publication of JP6466968B2 publication Critical patent/JP6466968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/552Binaural
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Description

本発明は、音声信号処理、特に、インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法に関する。
空間音再生において、録音位置(近端側)の音は、複数のマイクロフォンで捕らえられて、それから、再生側(遠端側)で、複数のスピーカーまたはヘッドホーンを使って再生される。多くの応用において、遠端側で再生された空間イメージが、近端側のオリジナルの空間イメージと矛盾しないように、録音された音を再生することが望ましい。これは、例えば、音源の音が、音源がオリジナルの録音シナリオの中で提供された方向から再生されることを意味する。あるいは、例えば、映像が、録音された音声を誉めているとき、音は、再創成された音響イメージが映像イメージと矛盾しないように、再生されることが望ましい。これは、例えば、音源の音が、音源がビデオの中で見える方向から再生されることを意味している。さらに、映像カメラは、映像ズーム関数を装備している。または、遠端側のユーザーは、デジタルズームを、視覚イメージを変更する映像に適用する。この場合、それに応じて、再生された空間音の音響イメージが変わる。多くの場合において、例えばビデオイメージが関係するとき、再生された音が矛盾しない空間イメージを決定する遠端側は、遠端側又は再生中のいずれかで決定される。その結果、近端側の空間音は、遠端側で私達が再生された音響イメージをコントロールできるように、録音され、処理され、送信されなければならない。
多くの現代の応用において、録音された音響場面は、望ましい空間イメージに矛盾しないで再生可能することが要求されている。デジタルカメラや携帯電話などの例えば現代の消費者機器は、しばしば映像カメラおよび複数のマイクロフォンを装備される。これは、空間音、例えばステレオの音と共に映像を録音することを可能にする。映像と共に録音された音声を再生するとき、映像イメージと音響イメージとが矛盾しないことが望ましい。ユーザーがカメラでズームするとき、映像を見る時に映像イメージと音響イメージとが合わされるように、映像ズーム効果を音響的に再創成することが望ましい。例えば、ユーザーが人をズームするとき、この人の声は、人がカメラにより接近していると思えるほど鳴り響かない。さらに、人の音声は、人が映像イメージに出現するのと同じ方向から再生されるべきである。音響的にカメラの映像ズームを擬態することは、以下の音響ズームのように関連し、矛盾のない音声映像再生の1例を表す。音響ズームに関係する矛盾しない音声映像再生は、また、テレビ会議で有益である。そこでは、近端側の空間音が、映像イメージと共に遠端側で再生される。さらに、映像イメージと音響イメージとが合わされるように映像ズーム効果を音響的に再創成することが望ましい。
音響ズームの最初の実施は、[1]において提供された。[1]では、ズーミング効果が、2次方向マイクロフォンの方向性を増大させることによって得られた。その信号は、線形のマイクロフォン配列の信号に基づいて生成された。この取り組みは[2]においてステレオのズームに拡張された。モノーラルまたはステレオのズームのためのより最近の取り組みは、[3]において提供された。[3]では、前面の方向からの音源が守られるけれども、他の方向から来る音源および拡散音が弱められるように、音源レベルを変更することを含む。[1]および[2]において提案された取り組みは、直進対反射比率(DRR)の増加を結果として招き、[3]の取り組みは、望まない音源の抑圧を更に許す。前記の取り組みは、音源がカメラの前に位置すると仮定し、映像イメージと矛盾しない音響イメージを捕らえることを目的としない。
柔軟な空間音の録音と再生のための周知の取り組みは、方向音声コード化(DirAC)[4]に表されている。DirACにおいて、近端側の空間音は、音声信号およびパラメータ副情報、すなわち、音の到来方向(DOA)および拡散性について説明される。パラメータの説明は、任意のスピーカーセットアップによって、オリジナルの空間イメージの再生を可能にする。これは、遠端側で再創成された空間イメージが、近端側で録音されている間、空間イメージと矛盾しないことを意味する。しかし、仮に、例えば、映像が、録音された音声を誉めているならば、再生された空間音は必ずしも映像イメージに合わされない。さらに、映像イメージが変化するとき、例えば、カメラの視方向とズームとが変更されるとき、再生された音響イメージは調整できない。これは、DirACが、再生された音響イメージを、任意の望ましい空間イメージに適合させる可能性を提供しないことを意味している。
[5]において、音響ズームは、DirACに基づいて実現された。DirACは、時間−周波数領域のサウンドフィールドが1つの平面波と拡散音とにより構成されていると仮定している簡素でまだ強力な信号モデルに基づいているので、音響ズームを実現するために妥当な基礎を表している。潜在的なモデルパラメータ、例えばDOAと拡散性とは、直進音と拡散音とを分離し、音響ズーム効果を創成するために利用される。空間音のパラメータの説明は、ズーム効果および空間音再生に亘るユーザーの完全なコントロールを提供しながら、遠端側への音場面の効率的な送信を可能にする。けれども、たとえDirACが、モデルパラメータを推定するために、複数のマイクロフォンを使用しても、1つのチャネルのフィルタだけが、直進音および拡散音を取り出すために適用され、再生された音の品質を制限する。さらに、音場面の全ての音源が円上に位置していると仮定され、空間音再生が、映像ズームと矛盾する音声−映像カメラの変動位置に関連して実行される。事実、イメージの中の映像対象物までの距離およびそれらの相対的位置が不変であり続けながら、ズーミングはカメラの視角度を変える。それは、カメラを動かすことと対比される。
関連した取り組みは、いわゆる仮想マイクロフォン(VM)技術[6]および[7]である。これらは、DirACと同じ信号モデルを考慮するけれども、音場面の任意の位置の不存在の(仮想の)マイクロフォンの信号を統合することを可能にする。VMを音源に向かって動かすことは、新しい位置にカメラを移動することと相似である。VMは、音の品質を高めるために、マルチチャネルフィルタを使用して実現されるけれども、モデルパラメータを推定するために、いくつかの分布されたマイクロフォン配列を必要とする。
しかし、仮に、音声信号処理のための更に改善された概念が提供されるならば、それの真価が高く認められるであろう。
[1] Y. Ishigaki, M. Yamamoto, K. Totsuka, and N. Miyaji, "Zoom microphone," in Audio Engineering Society Convention 67, Paper 1713, October 1980. [2] M. Matsumoto, H. Naono, H. Saitoh, K. Fujimura, and Y. Yasuno, "Stereo zoom microphone for consumer video cameras," Consumer Electronics, IEEE Transactions on, vol. 35, no. 4, pp. 759-766, November 1989. August 13, 2014 [3] T. van Waterschoot, W. J. Tirry, and M. Moonen, "Acoustic zooming by multi microphone sound scene manipulation," J. Audio Eng. Soc, vol. 61, no. 7/8, pp. 489-507, 2013. [4] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, June 2007. [5] R. Schultz-Amling, F. Kuech, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, Paper 8120, London UK, May 2010. [6] O. Thiergart, G. Del Galdo, M. Taseska, and E. Habets, "Geometry-based spatial sound acquisition using distributed microphone arrays," Audio, Speech, and Language Processing, IEEE Transactions on, vol. 21, no. 12, pp. 2583-2594, December 2013. [7] K. Kowalczyk, O. Thiergart, A. Craciun, and E. A. P. Habets, "Sound acquisition in noisy and reverberant environments using virtual microphones," in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on, October 2013. [8] O. Thiergart and E. A. P. Habets, "An informed LCMV filter based on multiple instantaneous direction-of-arrival estimates," in Acoustics Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, 2013, pp. 659-663. [9] O. Thiergart and E. A. P. Habets, "Extracting reverberant sound using a linearly constrained minimum variance spatial filter," Signal Processing Letters, IEEE, vol. 21, no. 5, pp. 630-634, May 2014. [10] R. Roy and T. Kailath, "ESPRIT-estimation of signal parameters via rotational invariance techniques," Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 37, no. 7, pp. 984-995, July 1989. [11] B. Rao and K. Hari, "Performance analysis of root-music," in Signals, Systems and Computers, 1988. Twenty-Second Asilomar Conference on, vol. 2, 1988, pp. 578-582. [12] H. Teutsch and G. Elko, "An adaptive close-talking microphone array," in Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, 2001, pp. 163-166. [13] O. Thiergart, G. D. Galdo, and E. A. P. Habets, "On the spatial coherence in mixed sound fields and its application to signal-to-diffuse ratio estimation," The Journal of the Acoustical Society of America, vol. 132, no. 4, pp. 2337-2346, 2012. [14] V. Pulkki, "Virtual sound source positioning using vector base amplitude panning," J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997. [15] J. Blauert, Spatial hearing, 3rd ed. Hirzel-Verlag, 2001. [16] T. May, S. van de Par, and A. Kohlrausch, "A probabilistic model for robust localization based on a binaural auditory front-end," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 1, pp. 1-13, 2011. [17] J. Ahonen, V. Sivonen, and V. Pulkki, "Parametric spatial sound processing applied to bilateral hearing aids," in AES 45th International Conference, Mar. 2012.
従って、本発明の目的は、音声信号処理のための改善された概念を提供することである。本発明の目的は、請求項1に従うシステム、請求項13に従う装置、請求項14に従う方法、請求項15に従う方法、および請求項16に従うコンピュータプログラムにより解決される。
1つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、2つ以上の音声入力信号を受信するように構成され、分解モジュールは、2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散コンポーネント信号および方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。
実施の形態に従って、概念は、再創成された音響イメージが、例えば、望ましい空間イメージに矛盾しないように、空間音録音および再生を達成するために提供され、例えば、遠端側のユーザーまたは映像イメージによって決定される。提案された取り組みは、捕らえられた音を直進音コンポーネントと拡散音コンポーネントとに分解することを我々に許す近端側で、マイクロフォン配列を用いる。取り出された音コンポーネントは、その時、遠端側に送信される。矛盾しない空間音再生は、例えば、取り出された直進音および拡散音の重み付けされた合計によって実現される。重み付けは、再生された音が矛盾しない望ましい空間イメージに依存し、例えば、重み付けは、音声録音を誉める、例えばビデオカメラの視方向およびズーミングファクターに依存する。直進音および拡散音を取り出すためのインフォームドマルチチャネルフィルタを採用する概念が、提供される。
実施の形態に従って、信号プロセッサは、例えば、2つ以上の音声出力信号を決定するように構成され、2つ以上の音声出力信号のそれぞれの音声出力信号のために、パンニング利得関数は、例えば、前記音声出力信号に割り当てられ、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、例えば、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数が、前記パンニング関数議論値の1つを受信するとき、前記パンニング利得関数が、例えば、前記パンニング関数議論値の前記1つに割り当てられているパンニング関数リターン値を戻すように構成され、そして、信号プロセッサは、例えば、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の方向依存議論値に依存している2つ以上の音声出力信号のそれぞれを決定するように構成され、前記方向依存議論値は、到来方向に依存する。
実施の形態において、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、パンニング関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値より大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の何れとも異なる。
実施の形態に従って、信号プロセッサは、例えば、窓利得関数に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成され、窓利得関数は、例えば、窓関数議論値を受信するとき、窓関数リターン値を戻すように構成され、仮に窓関数議論値が、例えば、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、窓利得関数は、例えば、何れの窓関数リターン値よりも大きい窓関数リターン値を戻すように構成され、仮に窓関数議論値が、例えば、下部の窓閾値より小さく、あるいは、上部の窓閾値より大きいならば、窓利得関数は、窓利得関数によって戻されるように構成されている。
実施の形態において、信号プロセッサは、例えば、到来方向について視方向の角度シフトを示している配向情報をさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも1つが、配向情報に依存する。または、利得関数計算モジュールは、例えば、ズーム情報をさらに受信するように構成され、ズーム情報は、カメラの開口角度を示し、パンニング利得関数と窓利得関数との少なくとも1つが、ズーム情報に依存する。または、利得関数計算モジュールは、例えば、測定パラメータをさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも1つが、測定パラメータに依存する。
実施の形態に従って、信号プロセッサは、例えば、距離情報を受信するように構成されている。信号プロセッサは、例えば、距離情報に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
実施の形態に従って、信号プロセッサは、例えば、2つ以上の音声入力信号の直進信号コンポーネントの到来方向であるオリジナルの到来方向に依存しているオリジナルの角度値を受信するように構成され、そして、例えば、距離情報を受信するように構成されている。信号プロセッサは、例えば、オリジナル角度値に依存し、かつ、距離情報に依存している修正された角度値を計算するように構成されている。そして、信号プロセッサは、例えば、修正された角度値に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
実施の形態に従って、信号プロセッサは、例えば、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、到来方向の拡がりを実行することによって、または、非相関性を実行することによって、1つ以上の音声出力信号を生成するように構成されている。
実施の形態において、信号プロセッサは、例えば、2つ以上の音声出力チャンネルを生成するように構成されている。信号プロセッサは、例えば、中間的拡散信号を得るために、拡散利得を拡散コンポーネント信号に適用するように構成されている。そして、信号プロセッサは、例えば、非相関性を実行することによって、中間的拡散信号から1つ以上の非相関性信号を生成するように構成されている。1つ以上の非相関性信号は、1つ以上の処理された拡散信号を形成する。または、中間的拡散信号および1つ以上の非相関性信号は、1つ以上の処理された拡散信号を形成する。
実施の形態に従って、直進コンポーネント信号および1つ以上の別の直進コンポーネント信号は、2つ以上の直進コンポーネント信号のグループを形成する。分解モジュールは、例えば、2つ以上の音声入力信号の別の直進信号コンポーネントを含む1つ以上の別の直進コンポーネント信号を生成するように構成されている。到来方向および1つ以上の別の到来方向は、2つ以上の到来方向のグループを形成する。2つ以上の到来方向のグループのそれぞれの到来方向は、例えば、2つ以上の直進コンポーネント信号のグループの正確に1つの直進コンポーネント信号に割り当てられる。2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と2つの到来方向到来方向の数とは、例えば等しい。信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループと2つ以上の到来方向のグループとを受信するように構成されている。そして、1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の到来方向に依存している直進利得を決定するように構成されている。信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の直進利得を前記直進コンポーネント信号に適用することによって、2つ以上の処理された直進信号のグループを生成するように構成されている。そして、信号プロセッサは、例えば、前記音声出力信号を生成するために、1つ以上の処理された拡散信号のうちの1つと、2つ以上の処理された信号のグループのそれぞれの処理された信号と、を結合するように構成されている。
実施の形態において、2つ以上の直進コンポーネント信号のグループの直進コンポーネント信号の数プラス1は、例えば、受信インタフェースによって受信されている音声入力信号の数より小さい。
さらに、上述したシステムを含む補聴器または補助聞き取り装置が、例えば、提供される。
さらに、1つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成されている。信号プロセッサは、2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成されている、信号プロセッサは、方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成されている。信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成されている。そして、信号プロセッサは、音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
さらに、コンピュータプログラムが提供される。コンピュータプログラムのそれぞれは、コンピュータ上もしくは信号プロセッサ上で実行されると、前述の方法の1つを実行するように構成され、その結果、前述の方法のそれぞれが、コンピュータプログラムの1つによって実行される。
さらに、1つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、2つ以上の音声入力信号を受信するように構成され、分解モジュールは、2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散信号コンポーネント信号および方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、1つ以上の利得関数を計算するための利得関数計算モジュールを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値に戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。
実施の形態に従って、利得関数計算モジュールは、例えば、1つ以上の利得関数のそれぞれの利得関数のために、ルックアップ・テーブルを生成するように構成され、ルックアップ・テーブルは複数のエントリーを含み、ルックアップ・テーブルのそれぞれのエントリーは利得関数議論値のうちの1つと、1つの利得関数議論値に割り当てられている利得関数リターン値とを含み、利得関数計算モジュールは、例えば、それぞれの利得関数のルックアップ・テーブルを持続的な又は非持続的なメモリーに記憶するように構成され、信号変更器は、例えば、メモリーに記憶されている1つ以上のルックアップ・テーブルのうちの1つから、前記利得関数リターン値を読み出すことによって、前記方向依存議論値に割り当てられている利得関数リターン値を得るように構成されている。
実施の形態において、信号プロセッサは、例えば、2つ以上の音声出力信号を決定するように構成され、利得関数計算モジュールは、例えば、2つ以上の利得関数を計算するように構成され、2つ以上の音声出力信号のそれぞれの音声出力信号のために、利得関数計算モジュールは、例えば、2つ以上の利得関数のうちの1つとして、前記音声出力信号に割り当てられているパンニング(パノラマ的効果を得るために上下左右に回転すること)利得関数を計算するように構成され、信号変更器は、例えば、前記パンニング利得関数に依存している前記音声出力信号を生成するように構成されている。
実施の形態に従って、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、例えば、前記パンニング利得関数の利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記パンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値のためより大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の何れとも異なる。
実施の形態に従って、2つ以上の音声出力信号のそれぞれの音声出力信号のために、利得関数計算モジュールは、例えば、2つ以上の利得関数のうちの1つとして、前記音声出力信号に割り当てられている窓利得関数を計算するように構成され、信号変更器は、例えば、前記窓利得関数に依存している前記音声出力信号を生成するように構成され、仮に前記窓利得関数の議論値が、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、窓利得関数は、何れの利得関数リターン値よりも大きい利得関数リターン値を戻すように構成され、仮に窓関数議論値が下部の窓閾値より小さく、あるいは、上部の窓閾値より大きいならば、窓利得関数は、前記窓利得関数によって戻されるように構成されている。
実施の形態において、2つ以上の音声出力信号のそれぞれの窓利得関数は、前記窓利得関数の利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記窓利得関数の1つ以上のグローバル最大値のそれぞれのために、窓利得関数が前記グローバル最大値より大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、第1の音声出力信号の窓利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号の窓利得関数の1つ以上のグローバル最大値の1つと等しい。
実施の形態に従って、利得関数計算モジュールは、例えば、到来方向についての視方向の角度シフトを示している配向情報を更に受信するように構成され、利得関数計算モジュールは、例えば、配向情報に依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。
実施の形態において、利得関数計算モジュールは、例えば、配向情報に依存している音声出力信号のそれぞれの窓利得関数を生成するように構成されている。
実施の形態に従って、利得関数計算モジュールは、例えば、ズーム情報を更に受信するように構成され、ズーム情報はカメラの開口角度を示し、利得関数計算モジュールは、例えば、ズーム情報に依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。
実施の形態において、利得関数計算モジュールは、例えば、ズーム情報に依存している音声出力信号のそれぞれの窓利得関数を生成するように構成されている。
実施の形態に従って、利得関数計算モジュールは、例えば、映像イメージと音響イメージとを位置合わせするための測定パラメータを更に受信するように構成され、利得関数計算モジュールは、例えば、測定パラメータに依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。
実施の形態において、利得関数計算モジュールは、例えば、測定パラメータに依存している音声出力信号のそれぞれの窓利得関数を生成するように構成されている。
前述の実施の形態の1つに従って、利得関数計算モジュールは、例えば、映像イメージについての情報を受信するように構成され、利得関数計算モジュールは、例えば、映像イメージについての情報に依存して、音源の知覚的拡がりを実現するために、複合利得を戻すぼけ関数を生成するように構成されている。
さらに、1つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、信号プロセッサは、2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、信号プロセッサは、方向情報を受信するように構成され、前記方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、1つ以上の利得関数を計算するための利得関数計算モジュールを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられた利得関数リターン値を戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
1つ以上の音声出力信号を生成することは、1つ以上の利得関数を計算することを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、1つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
方向情報を受信し、方向情報は2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
1つ以上の音声出力信号を生成することは、1つ以上の利得関数を計算することを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、1つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。
さらに、コンピュータプログラムが提供される。コンピュータプログラムのそれぞれは、コンピュータ上もしくは信号プロセッサ上で実行されると、前述の方法の1つを実行するように構成され、その結果、前述の方法のそれぞれが、コンピュータプログラムの1つによって実行される。
以下において、本発明の実施の形態が図面を参照して詳細に説明される。
図1aは、実施の形態に従うシステムを説明する。 図1bは、実施の形態に従う装置を説明する。 図1cは、別の実施の形態に従うシステムを説明する。 図1dは、別の実施の形態に従う装置を説明する。 図2は、別の実施の形態に従うシステムを示す。 図3は、実施の形態に従う直進/拡散分解およびシステムの推定のパラメータのためのモジュールを記載する。 図4は、実施の形態に従う音響ズームと共に音響場面再生のための第1の幾何学図面を示し、音源は焦点面上に置かれている。 図5aは、VBAPパンニング関数を示すグラフである。 図5bは、矛盾のない再生のためのパンニング関数を示すグラフである。 図6aは、実施の形態に従うVBAPパンニング関数を示すグラフである。 図6bは、実施の形態に従う音響ズーム後のパンニング関数を示すグラフである。 図6cは、実施の形態に従うシフトを伴う音響ズーム後のパンニング関数を示すグラフである。 図7aは、実施の形態に従う窓利得関数を示すグラフである。 図7bは、実施の形態に従う音響ズーム後の窓利得関数を示すグラフである。 図7cは、実施の形態に従うシフトを伴う音響ズーム後の窓利得関数を示すグラフである。 図8は、実施の形態に従う拡散利得関数を示すグラフである。 図9は、実施の形態に従う音響ズームと共に音響場面再生のための第2の幾何学図面を示し、音源は焦点面上に置かれていない。 図10aは、直進音ぼやけを説明するためのフィールドの深さの関数を示すグラフである 図10bは、直進音ぼやけを説明するためのローパス遮断周波数関数を示すグラフである 図10cは、直進音ぼやけを説明するための繰り返し直進音の遅延時間関数を示すグラフである。 図11は、実施の形態に従う補聴器を視覚化する。
図1aは、1つ以上の音声出力信号を生成するためのシステムを説明する。システムは、分解モジュール101と信号プロセッサ105と出力インタフェース106とを含む
分解モジュール101は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントを含む直進コンポーネント信号Xdir(k,n)を生成するように構成されている。さらに、分解モジュール101は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の拡散信号コンポーネントを含む拡散コンポーネント信号Xdiff(k,n)を生成するように構成されている。
信号プロセッサ105は、直進コンポーネント信号Xdir(k,n)と拡散コンポーネント信号Xdiff(k,n)と方向情報とを受信するように構成され、前記方向情報は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントの到来方向に依存している。
さらに、信号プロセッサ105は、拡散コンポーネント信号Xdiff(k,n)に依存している1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)を生成するように構成されている。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)のために、信号プロセッサ105は、到来方向に依存して直進利得Gi(k,n)を決定するように構成されている。信号プロセッサ105は、処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用するように構成されている。そして、信号プロセッサ105は、音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)とを結合するように構成されている。
出力インタフェース106は、1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)を出力するように構成されている。
概説したように、方向情報は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントの到来方向φ(k,n)に依存する。例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントの到来方向は、例えば方向情報自身である。または、例えば方向情報は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントの伝播方向である。到来方向が、受信マイクロフォン配列から音源までを示しながら、伝播方向は、音源から受信マイクロフォン配列までを示す。従って、伝播方向は、到来方向の逆方向を正確に示し、それ故、到達の方向に依存する。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)の1つYi(k,n)を生成するために、信号プロセッサ105は、
到来方向に依存して、直進利得Gi(k,n)を決定し、
処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用し、
前記音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)とを結合する。
これは、Y1(k,n)、Y2(k,n)、…、Yv(k,n)を生成するべき1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれに対して実行される。信号プロセッサは、例えば、1つ、2つ、3つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)を生成するように構成される。
1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)に関して、実施の形態に従って、信号プロセッサ105は、例えば、拡散利得Q(k,n)を拡散コンポーネント信号Xdiff(k,n)に適用することによって、1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)を生成するように構成されている。
分解モジュール101は、例えば、1つ以上の音声入力信号を、直進コンポーネント信号と拡散コンポーネント信号とに分解することによって、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の直進信号コンポーネントを含む直進コンポーネント信号Xdir(k,n)と、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…xp(k,n)の拡散信号コンポーネントを含む拡散コンポーネント信号Xdiff(k,n)とを生成するように構成されている。
特定の実施の形態において、信号プロセッサ105は、例えば、2つ以上の音声出力チャンネルY1(k,n)、Y2(k,n)、…、Yv(k,n)を生成するように構成されている。信号プロセッサ105は、例えば、中間的な拡散信号を得るために、拡散利得Q(k,n)を拡散コンポーネント信号Xdiff(k,n)に適用するように構成されている。さらに、信号プロセッサ105は、例えば、非相関性を実施して、中間的な拡散信号から1つ以上の非相関性信号を生成するように構成されている。1つ以上の非相関性信号は、1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)を形成する。または、中間的な拡散信号および1つ以上の非相関性信号は、1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)を形成する。
例えば、処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の数と、音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)と、は等しい。
中間的な拡散信号から1つ以上の非相関性信号を生成することは、例えば、遅延を中間的な拡散信号に適用することによって、あるいは、ノイズ爆発によって中間的な拡散信号を巻き込むことによって、あるいは、インパルス反応などによって中間的な拡散信号を巻き込むことによって実行される。最先端非相関性技術のどのような別の主張も、例えば、代わりに又は付加的に適用される。
v個の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)に対して、v個の直進利得G1(k,n)、G2(k,n)、…、Gv(k,n)のv個の決定と、1つ以上の直進コンポーネント信号Xdir(k,n)に各利得のv個の応用が、例えば、v個の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)を得るために用いられる。
ただ1つの拡散コンポーネント信号Xdiff(k,n)と、ただ1つの信号拡散利得Q(k,n)のただ1つの決定と、拡散コンポーネント信号Xdiff(k,n)への拡散利得Q(k,n)のただ1つの応用とが、例えば、v個の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)を得るために必要である。非相関性を達成するために、非相関性技術が、拡散コンポーネント信号に既に適用された後の拡散利得にのみ適用される。
図1aの実施の形態に従って、同じ処理された拡散信号Ydiff(k,n)は、音声出力信号のうちの対応する一つ(Yi(k,n))を得るために、処理された直進信号のうちの対応する一つ(Ydir,i(k,n))と結合される。
図1aの実施の形態は、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントの到来方向を考慮する。従って、音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)は、直進コンポーネント信号Xdir(k,n)と到来方向に依存している拡散コンポーネント信号Xdiff(k,n)とを柔軟に適合することによって生成される。高度な適応化可能性が達成される。
実施の形態に従って、音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)は、例えば、時間−周波数領域のそれぞれの時間−周波数ビン(k,n)のために決定される。
実施の形態に従って、分解モジュール101は、例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)を受信するように構成されている。別の実施の形態において、分解モジュール101は、例えば、3つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)を受信するように構成されている。分解モジュール101は、例えば、2つ以上(または、3つ以上)の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)を、マルチチャネル信号でない拡散コンポーネント信号Xdiff(k,n)と、1つ以上の直進コンポーネント信号Xdir(k,n)とに分解するように構成されている。音声信号がマルチチャネル信号でないことは、音声信号が1つより多い音声チャンネルを含まないことを意味する。従って、複数の音声入力信号の音声情報は、2つのコンポーネント信号(Xdir(k,n),Xdiff(k,n))の中で(そして、可能ならば、追加の副情報の中で)送信される。それは効率的な送信を許す。
信号プロセッサ105は、例えば、前記音声出力信号Yi(k,n)のための直進利得Gi(k,n)を決定することによって、そして、前記音声出力信号Yi(k,n)のための処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を1つ以上の直進コンポーネント信号Xdir(k,n)に適用することによって、そして、前記音声出力信号Yi(k,n)を生成するために、前記前記音声出力信号Yi(k,n)のための処理された直進信号Ydir,i(k,n)と、処理された拡散信号Ydiff(k,n)と、を結合することによって、2つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)を生成するように構成されている。出力インタフェース106は、2つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)を出力するように構成されている。ただ1つの処理された拡散信号Ydiff(k,n)を決定することによって、2つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)を生成することは、特に有利である。
図1bは、1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)を生成するための装置を、実施の形態に従って説明する。装置は、図1aのシステムのいわゆる「遠端」側を実施する。
図1bの装置は、信号プロセッサ105と出力インタフェース106とを含む
信号プロセッサ105は、2つ以上のオリジナルの音声信号x1(k,n)、x2(k,n)、…、xp(k,n)(例えば、図1aの音声入力信号)の直進信号コンポーネントを含む直進コンポーネント信号Xdir(k,n)を受信するように構成されている。さらに、信号プロセッサ105は、2つ以上のオリジナルの音声信号x1(k,n)、x2(k,n)、…、xp(k,n)の拡散信号コンポーネントを含む拡散コンポーネント信号Xdiff(k,n)を受信するように構成されている。さらに、信号プロセッサ105は、方向情報を受信するように構成されている。前記方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの到来方向に依存している。
信号プロセッサ105は、拡散コンポーネント信号Xdiff(k,n)に依存している1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)を生成するように構成されている。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)のために、信号プロセッサ105は、到来方向に依存して、直進利得Gi(k,n)を決定するように構成されている。信号プロセッサ105は、処理された直進信号Ydir,i(k,n)を得るために、前記直進利得Gi(k,n)を直進コンポーネント信号Xdir(k,n)に適用するように構成されている。そして、信号プロセッサ105は、前記音声出力信号Yi(k,n)を生成するために、前記処理された直進信号Ydir,i(k,n)と1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つXdiff,i(k,n)とを結合するように構成されている。
出力インタフェース106は、1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)を出力するように構成されている。
以下のシステムに関連して説明された信号プロセッサ105の全ての構成は、また、図1bに従っている装置の中で実施される。これは、特に、以下に説明される信号変更器103および利得関数計算モジュール104の様々な構成と関連する。同ことが、以下に説明された概念の様々な応用例のために適用される。
図1cは別の実施の形態に従っているシステムを示す。図1cにおいて、図1aの信号生成器105は、1つ以上の利得関数を計算するための利得関数計算モジュール104を更に含む。1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含む。利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられる。前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値の前記1つに割り当てられている利得関数リターン値を戻すように構成されている。
さらに、信号プロセッサ105は、到来方向に依存して、直進依存議論値を、1つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力のうちの少なくとも1つの利得値を決定するための信号変更器103を更に含む。
図1dは別の実施の形態に従っているシステムを説明する。図1dにおいて、図1bの信号生成器105は、1つ以上の利得関数を計算するための利得関数計算モジュール104を更に含む。1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含む。利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられる。前記利得関数が、前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値の前記1つに割り当てられている利得関数リターン値を戻すように構成されている。
さらに、信号プロセッサ105は、到来方向に依存して、直進依存議論値を、1つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力のうちの少なくとも1つの利得値を決定するための信号変更器103を更に含む。
実施の形態は、音響イメージが、例えば遠端側で音声を誉めている映像によって決定される望ましい空間イメージに矛盾しないように、空間音を録音して再生することを提供する。いくつかの実施の形態が、騒々しい近端側に置かれたマイクロフォン配列による録音に基づいている。実施の形態は、例えば、カメラの映像ズームに矛盾しない音響ズームを提供する。例えば、ズーミングしているとき、スピーカーの直進音は、映像イメージおよび音響イメージが位置合わせされるように、スピーカーが、ズームされた映像イメージの中に置かれた方向から再生される。仮に、スピーカーが、ズーミングした後に、映像イメージの外に(または、望ましい空間領域の外に)置かれているならば、これらのスピーカーの直進音は、これらのスピーカーがもう見えないように、または、例えば、これらのスピーカーからの直進音が望まれないように弱められる。さらに、直進対反射比率は、例えば、映像カメラのより小さい開口角度を擬態するためにズーミングするとき、増大する。
実施の形態は、近端側の2つの最近のマルチチャネルフィルタを適用することによって、録音されたマイクロフォン信号を、音源の直進音と拡散音(例えば鳴り響く音)とに分離する概念に基づく。これらのマルチチャネルフィルタは、例えば、直進音のDOAのような音フィールドのパラメータ情報に基づく。いくつかの実施の形態において、直進音と拡散音の分離は、例えば、パラメータ情報と共に遠端側に送信される。
例えば、遠端側で、特定の重み付けが、例えば、結果として生じている音声出力信号が、望ましい空間イメージに矛盾しないように、再生された音響イメージを適合する取り出された直進音と拡散音とに適用される。これらの重み付けは、例えば音響ズーム効果および依存を、例えば直進音の到来方向(DOA)上に、および、例えばズーミングファクターおよび/またはカメラの視方向上にモデルを作る。最終的な音声出力信号は、例えば、それ故、重み付けされた直進音と拡散音とを合計することによって得られる。
提供された概念は、消費者装置で前記ビデオ録音シナリオまたはテレビ会議シナリオにおいて、有効な使用を実現する。例えば、ビデオ録音シナリオにおいて、それは、例えば、再創成された空間イメージをまだコントロールすることができる間、取り出された直進音および拡散音(あるいは、すべてのマイクロフォン信号)を蓄えるまたは送信することについて十分である。
これは、仮に例えば、映像ズームがポスト処理ステップ(デジタルズーム)に応用されるならば、音響イメージが、オリジナルのマイクロフォン信号を蓄えてアクセスする必要なく、従ってまだ修正できることを意味している。テレビ会議シナリオにおいても、提案された概念は有効に使われる。なぜなら、遠端側で空間音再生をコントロールして(例えばスピーカーセットアップを変更して)、音響イメージおよび映像イメージを位置合わせすることがまだできる間、直進音および拡散音の取り出しは、近端側で実行されるからである。従って、副情報として、少しの音声信号および推定DOAのみを送信することが必要であるけれども、遠端側のコンピュータ処理の複雑さは低い。
図2は実施の形態に従っているシステムを説明する。近端側はモジュール101と102とを含む。遠端側はモジュール105と106とを含む。モジュール105自身は、モジュール103と104とを含む。参照が近端側と遠端側にされるとき、いくつかの実施の形態において、第1の装置が近端側(例えば、モジュール101と102とを含む)を実行し、第2の装置が遠端側(例えば、モジュール103と104とを含む)を実行することが理解される。一方、別の実施の形態において、1つの装置が、遠端側だけでなく近端側を実行する。そのような1つの装置は、例えば、モジュール101と102と103と104とを含む
特に、図2は、分解モジュール101と、パラメータ推定モジュール102と、信号プロセッサ105と、出力インタフェース106とを含む実施の形態に従っているシステムを説明する。図2において、信号プロセッサ105は、利得関数計算モジュール104と信号変更器103とを含む。信号プロセッサ105と出力インタフェース106とは、例えば、図1bによって説明される装置を実現する。
図2において、とりわけ、パラメータ推定モジュール102は、例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)を受信するように構成されている。さらに、パラメータ推定モジュール102は、例えば、2つ以上の音声入力信号に依存している2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の直進信号コンポーネントの到来方向を推定するように構成されている。信号プロセッサ105は、例えば、パラメータ推定モジュール102から2つ以上の音声入力信号の直進信号コンポーネントの到来方向を含む到来方向情報を受信するように構成されている。
図2のシステムの入力は、時間−周波数領域(周波数はkを示し、時間はnを示す)のM個のマイクロフォン信号X1...M(k,n)から成る。マイクロフォンにより捕らえられる音フィールドが、それぞれの(k,n)のために、等方性拡散フィールドを伝播している平面波から成ることが、例えば、推定される。平面波が音源(例えばスピーカー)の直進音をモデル作成する一方、拡散音が反射をモデル作成する。
そのようなモデルに従って、m番目のマイクロフォン信号は式(1)として書かれる。

m(k,n)=Xdir,m(k,n)+Xdiff,m(k,n)+Xn,m(k,n) (1)

ここで、Xdir,m(k,n)は、測定された直進音(平面波)であり、Xdiff,m(k,n)は、測定された拡散音であり、Xn,m(k,n)は、雑音コンポーネント(例えば、マイクロフォン自身の雑音)である。
図2の分解(直進/拡散分解)モジュール101において、直進音Xdir(k,n)および拡散音Xdiff(k,n)は、マイクロフォン信号から取り出される。例えば、この目的のために、以下に説明されるインフォームドマルチチャネルフィルタが用いられる。直進/拡散分解のために、音フィールドについての特定のパラメータ情報は、例えば、直進音φ(k,n)のDOAを採用する。このパラメータ情報は、例えば、パラメータ推定モジュール102の中のマイクロフォン信号から推定される。直進音のDOAφ(k,n)以外、いくつかの実施の形態において、距離情報r(k,n)が、例えば推定される。この距離情報は、例えば、マイクロフォン配列と平面波を放出している音源との間の距離を示す。パラメータ推定のために、距離推定器および/または最先端のDOA推定器が、例えば、用いられる。対応する推定器が、例えば、以下で示される。
取り出された直進音Xdir(k,n)と取り出された拡散音Xdiff(k,n)と推定された直進音のパラメータ情報(例えば、DOAφ(k,n)および/または距離r(k,n))は、例えば、望ましい空間イメージと共に空間音を生成するために、例えば、音響ズーム効果を創生するために、記憶されて遠端側に送信され、または、直ぐに使用される。
望ましい音響イメージ、例えば、音響ズーム効果は、取り出された直進音Xdir(k,n)と、取り出された拡散音Xdiff(k,n)と、推定されたパラメータ情報φ(k,n)、および/または、r(k,n)と、を使って信号変更器103の中で生成される。
信号変更器103は、例えば、それが、望ましい空間イメージと矛盾しないように、音響イメージを再創成する時間−周波数領域の中の1つ以上の出力信号Yi(k,n)を計算する。例えば、出力信号Yi(k,n)は、音響ズーム効果を擬態する。これらの信号は、最終的に、時間領域に戻して変換され、例えばスピーカーまたはヘッドホーンで再生される。i番目の出力信号Yi(k,n)は、取りだされた直進音Xdir(k,n)および拡散音Xdiff(k,n)の重み付けされた合計として、例えば、式(2a)と式(2b)とで計算される。
Figure 0006466968
式(2a)および式(2b)において、重み付けGi(k,n)およびQは、望ましい音響イメージ、例えば音響ズーム効果を創生するために用いられるパラメータである。例えば、ズーミングのとき、パラメータQは、再生された拡散音が弱められるように、減らされる。
さらに、重み付けGi(k,n)と共に、それは、直進音が、映像および音響イメージが位置合わせされるように再生される方向からコントロールされる。さらに、音響ぼやけ効果は、直進音に位置合わせされる。
いくつかの実施の形態において、重み付けGi(k,n)およびQは、例えば、利得選択ユニット201および202の中で決定される。これらのユニットは、例えば、推定されたパラメータ情報φ(k,n)およびr(k,n)に依存している、giとqとによって示された2つの利得関数から、適切な重み付けGi(k,n)およびQを選択する。数学的に式(3a)と式(3b)とによって表現する。

i(k,n)=gi(φ,r) (3a)

Q(k,n)=q(r) (3b)
いくつかの実施の形態において、利得関数giおよびqは、応用に依存し、例えば、利得関数計算モジュール104の中で生成される。利得関数は、重み付けGi(k,n)およびQが、望ましい矛盾のない空間イメージが得られるように、与えられたパラメータ情報φ(k,n)および/またはr(k,n)のための式(2a)において使われるべきことを示す。
例えば、映像カメラでズーミングするとき、利得関数は適合され、その結果、音は、音源がビデオの中で見える方向から再生される。重み付けGi(k,n)とQ、および、潜在的な利得関数giとqは、更に以下に説明される。重み付けGi(k,n)とQ、および、潜在的な利得関数giとqは、例えば、複雑な値であることに注目するべきである。利得関数を計算することは、ズーミングファクターや映像イメージの幅や望ましい視方向やスピーカーセットアップなどの情報を必要とする。
別の実施の形態において、重み付けGi(k,n)およびQは、モジュール104において最初に利得関数を計算して、それから、利得選択ユニット201および202の中で計算された利得関数から重み付けGi(k,n)およびQを選択する代わりに、信号変更器103内で直接に計算される。
実施の形態に従って、1つの時間−周波数当たり1つ以上の平面波が、例えば、特に処理される。例えば、2つの異なる方向から同じ周波数帯の2つ以上の平面波が、例えば、マイクロフォン配列によって同じ時間ポイントに録音されるように到達する。これらの2つの平面波は、それぞれ、異なる到来方向を持つ。そのようなシナリオにおいて、2つ以上の平面波の直進信号コンポーネントおよびそれらの到来方向が、例えば、別々に考慮される。
実施の形態に従って、直進コンポーネント信号Xdir1(k,n)と1つ以上の別の直進コンポーネント信号Xdir2(k,n)、…、Xdir q(k,n)は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)…、Xdir q(k)のグループを形成する。分解モジュール101は、例えば、2つ以上の音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の別の直進信号コンポーネントを含む1つ以上の別の直進コンポーネント信号Xdir2(k,n)、…、Xdir q(k,n)を生成するように構成されている。
到来方向と1つ以上の別の到来方向は、2つ以上の到来方向のグループを形成する。2つ以上の到来方向のグループのそれぞれの到来方向は、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q,m(k,n)のグループの1つの直進コンポーネント信号Xdir j(k,n)に正確に割り当てられる。2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と、2つの到来方向到来方向の数とは等しい。
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループと、2つ以上の到来方向のグループとを受信するように構成されている。
1つ以上の音声出力信号Y1(k,n)、Y2(k,n)、…、Yv(k,n)のそれぞれの音声出力信号Yi(k,n)のために、
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループのそれぞれの直進コンポーネント信号Xdir j(k,n)のために、前記直進コンポーネント信号Xdir j(k,n)の到来方向に依存している直進利得Gj,i(k,n)を決定するように構成され、
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)のグループのそれぞれの直進コンポーネント信号Xdir j(k,n)のために、前記直進コンポーネント信号Xdir j(k,n)の直進利得Gj,i(k,n)を前記直進コンポーネント信号Xdir j(k,n)に適用することによって、2つ以上の処理された直進信号Ydir1,i(k,n)、Ydir2,i(k,n)、…、Ydir q,i(k,n)のグループを生成するように構成され、そして、
信号プロセッサ105は、例えば、前記音声出力信号Yi(k,n)を生成するために、1つ以上の処理された拡散信号Ydiff,1(k,n)、Ydiff,2(k,n)、…、Ydiff,v(k,n)の1つYdiff,i(k,n)と、2つ以上の処理された信号Ydir1,i(k,n)、Ydir2,i(k,n)、…、Ydir q,i(k,n)のグループのそれぞれの処理された信号Ydir j,i(k,n)とを結合するように構成されている。
従って、仮に、2つ以上の平面波が別々に考慮されるならば、式(1)のモデルは次のようになる。

m(k,n)=Xdir1,m(k,n)+Xdir2,m(k,n)+…+Xdir q,m(k,n)+Xdiff,m(k,n)+ Xn,m(k,n)

そして、重み付けは、例えば、式(2a)および式(2b)に相似して、次のように計算される。

i(k,n)=G1,i(k,n)Xdir1(k,n)+G2,i(k,n)Xdir2(k,n)+…+Gq,i(k,n)Xdir q(k,n)+QXdiff,m(k,n)

=Ydir1,i(k,n)+Ydir2,i(k,n)+…+Ydir q,i(k,n)+Ydiff,i(k,n)
ほんのわずかの直進コンポーネント信号と拡散コンポーネント信号と副情報が、近端側から遠端側に送信されるだけで十分である。実施の形態において、2つ以上の直進コンポーネント信号Xdir1(k,n)、Xdir2(k,n)、…、Xdir q(k,n)プラス1のグループの直進コンポーネント信号の数は、受信インタフェース101によって受信されている音声入力信号x1(k,n)、x2(k,n)、…、xp(k,n)の数より小さい。(インデックス:q+1<pを使って)「プラス1」は、必要な拡散コンポーネント信号Xdiff(k,n)を表す。
以下において、説明は、1つの平面波と、1つの到来方向と、1つの直進コンポーネント信号とについて提供される。説明された概念は、1つ以上の平面波、1つ以上の到来方向と、1つ以上の直進コンポーネント信号とについて、等しく適用可能であることが理解される。
以下において、直進音および拡散音取り出しが説明される。直進/拡散分解を実現する図2の分解モジュール101の実用的な実現が、提供される。
実施の形態において、矛盾のない空間音再生を実現するために、[8]および[9]に記載された2つの最近提案されたインフォームド線形的強制最小変化(LCMV)フィルタの出力が結合される。それは、DirAC(方向性音声コード化)の中の同様な音フィールドモデルを推定する望ましい任意の反応と共に、直進音および拡散音の正確なマルチチャネルの取り出しを可能にする。これらのフィルタを結合するための具体的な方法は、以下において説明される。
先ず、実施の形態に従って直進音の取り出しが説明される。
直進音は、[8]に記載された最近提案されたインフォームド空間フィルタを使って取り出される。このフィルタは、以下において簡単に報告され、それから、図2に従って実施の形態において使われるように公式化される。
Figure 0006466968
ここで、a(k,φ)は、いわゆる配列伝播ベクトルである。このベクトルのm番目の要素は、配列のm番目のマイクロフォンと参照マイクロフォンとの間の直進音の相対的移転関数である(一般性の損失なく、ポジションd1の最初のマイクロフォンが、以下の説明において使われる)。このベクトルは、直進音のDOAφ(k,n)に依存する。
配列伝播ベクトルは、例えば、[8]において定義される。[8]の式(6)において、配列伝播ベクトルは以下の式に従って定義される。

a(k,φl)=[a1(k,φl)・・・aM(k,φl)]T

ここで、φlは、l番目の平面波の到来方向の方位角度である。従って、配列伝播ベクトルは到来方向に依存する。仮に、1つの平面波mのみが存在するか、または考慮されるならば、インデックスlは省略される。
[8]の式(6)に従って、1番目からi番目へのマイクロフォンにl番目の平面波の移相シフトを説明する配列伝播ベクトルaのi番目の要素aiは、以下の式に従って定義される。

i(k,φl)=exp{jkrisinφl(k,n)}

例えば、riは、1番目とi番目のマイクロフォンとの間の距離に等しく、κは平面波の波数を示し、jは虚数である。
配列伝播ベクトルaとその要素aiについてのより多くの情報は、明示的に含まれている[8]の中に見付けられる。
式(5)のM×M行列Φu(k,n)は、[8]で説明されたように決定されるノイズおよび拡散音のパワースペクトル密度(PSD)行列である。式(5)に対する解決策は、以下の式(7)と式(8)によって与えられる。
Figure 0006466968
フィルタを計算するのには、配列伝播ベクトルa(k,φ)が必要である。それは、直進音のDOAφ(k,n)が[8]で推定された後に決定できる。上述のように、配列伝播ベクトルとそのようなフィルタとは、DOAに依存する。DOAは以下で説明されるように推定される。
[8]において提案されたインフォームド空間フィルタ、例えば、式(4)と(7)とを使って直進音を取り出すことは、図2の実施の形態において直接使えない。事実、計算は、直進音利得Gi(k,n)と同様にマイクロフォン信号x(k,n)を必要とする。図2において見られように、マイクロフォン信号x(k,n)は近端側でのみ入手可能であり、一方、直進音利得Gi(k,n)は遠端側でのみ入手可能である。
本発明の実施の形態においてインフォームド空間フィルタを使うために、修正が提供される。我々は式(7)を式(4)に代入して、以下の式(9)を導く。
Figure 0006466968
Figure 0006466968
従って、実施の形態に従って、分解モジュール101は、例えば、フィルタを、以下の式に従う2つ以上の音声入力信号に適用することによって、直進コンポーネント信号を生成するように構成されている。
Figure 0006466968
ここで、Φu(k,n)は、2つ以上の音声入力信号の雑音および拡散音のパワースペクトル密度行列を示す。a(k,φ)は配列伝播ベクトルを示す。そして、φは、2つ以上の音声入力信号の直進信号コンポーネントの到来方向の方位角度を示す。
図3は、実施の形態に従って、直進/拡散分解を実施しているパラメータ推定モジュール102と分解モジュール101とを示す。
図3によって示された実施の形態は、直進音取り出しモジュール203による直進音取り出しと、拡散音取り出しモジュール204による拡散音取り出しを実現する。
直進音の取り出しは、直進音取り出しモジュール203の中で、式(10)において与えられるように、フィルタの重み付けをマイクロフォン信号に適用することによって実行される。直進フィルタの重み付けは、例えば式(8)によって実現できる直進重み付け計算ユニット301の中で計算される。例えば式(9)の利得Gi(k,n)は、その時、図2に示されるように遠端側で適用される。
以下において、拡散音の取り出しが説明される。拡散音取り出しは、例えば、図3の拡散音取り出しモジュール204によって実施される。拡散フィルタの重み付けは、例えば、以下において説明されるように、図3の拡散重み付け計算ユニット302の中で計算される。
実施の形態において、拡散音は、例えば、[9]において最近提案された空間フィルタを使って取り出される。式(2a)および図2の中の拡散音Xdiff(k,n)は、例えば、第2空間フィルタをマイクロフォン信号に適用することによって推定される。例えば、
Figure 0006466968
拡散音hdiff(k,n)のために最適なフィルタを見つけるために、我々は、[9]において最近提案されたフィルタを考慮する。そのフィルタは、フィルタ出力でのノイズを最小化しながら、望ましい任意の反応によって、拡散音を取り出すことができる。空間白色ノイズのために、フィルタは、式(12)によって与えられる。
Figure 0006466968
図3は、実施の形態に従って、拡散音取り出しを更に示す。拡散音取り出しは、式(11)において与えられるよう、フィルタの重み付けをマイクロフォン信号に適用することによって、拡散音取り出しモジュール204の中で実行される。フィルタの重み付けは、例えば式(13)を採用することによって実現される拡散重み付け計算ユニット302の中で計算される。
以下において、パラメータ推定が示される。パラメータ推定は、例えば、パラメータ推定モジュール102によって指揮される。その中で、録音された音場面についてパラメータ情報が、例えば、推定される。このパラメータの情報は、分解モジュール101の中の2つの空間フィルタを計算するために、そして、信号変更器103の中の矛盾しない空間音声再生における利得選択のために採用される。
先ず、DOA情報の決定/推定が示される。
以下において、実施の形態が示される。パラメータ推定モジュール(102)は、直進音のための、例えば、音源位置から発生し、マイクロフォン配列に到達する平面波のためのDOA推定器を含む。一般性の損失無しで、1つの平面波が、時間および周波数毎に存在することが仮定される。別の実施の形態は、複数の平面波が存在する場合を考慮し、ここで示された1つの平面波概念を複数の平面波に拡張することは容易である。従って、本発明は複数の平面波を持つ実施の形態もカバーする。
狭周波数帯域DOAは、ESPRIT[10]やルートMUSIC[11]などの最先端の狭周波数帯域DOA推定器の1つを使って、マイクロフォン信号から推定される。方位角度φ(k,n)の代わりに、DOA情報も、マイクロフォン配列に到達する1つ以上の波のために、空間周波数μ[k|φ(k,n)]または移相シフトまたは伝播ベクトルa[k|φ(k,n)]の形式で提供される。DOA情報が、また、外的に提供されることは注目するべきである。例えば、平面波のDOAは、人の話し手が音響場面を形成すると仮定している顔面認識アルゴリズムと共にビデオカメラによって決定される。
最後に、DOA情報は、また、3Dにおいて(3次元において)推定されることに注目するべきである。その場合、方位角度φ(k,n)および昇降角度θ(k,n)は、パラメータ推定モジュール102の中で推定され、平面波のDOAは、そのような場合において、例えば、(φ,θ)として提供される。
従って、参照が、以下でDOAの方位角度にされるとき、全ての説明が、DOAの昇降角度に、または、DOAの方位角度から引き出された角度に、または、DOAの昇降角度から引き出された角度に、またはDOAの方位角度および昇降角度から引き出された角度に適用可能であることが理解される。より一般的には、下に提供された全ての説明は、DOAに依存しているどの角度にも等しく適用可能である。
次に、距離情報決定/推定が示される。
いくつかの実施の形態が、DOAと距離とに基づいて、一番上の音響ズームと関連する。そのような実施の形態において、パラメータ推定モジュール102は、例えば、2つのサブモジュール、例えば、上述のDOA推定器サブモジュールと、録音位置から音源r(k,n)までの距離を推定する距離推定サブモジュールとを含む。そのような実施の形態において、例えば、録音しているマイクロフォン配列に到達するそれぞれの平面波が、音源から創生し、直線に沿ってマイクロフォン配列に伝播すること(それは、また、直進伝播パスとしても知られている)が仮定される。
いくつかの最先端の取り組みが、マイクロフォン信号を使う距離推定のために存在する。例えば、音源までの距離は、[12]の中に示されているように、マイクロフォン信号間のパワー比率を計算することによって見付けられる。あるいは、音響の囲い(例えば部屋)の中の音源r(k,n)までの距離が、推定された信号対拡散比率(SDR)[13]に基づいて計算される。SDR推定は、その時、距離を計算するために、(既知の、または、最先端の方法を用いて推定された)部屋の反響時間と結合される。高SDRに対して、直進音エネルギーは、音源までの距離が小さいことを示す拡散音に比較して高い。SDR値が低いとき、直進音パワーは部屋反響に比べて弱い。それは音源までの大きな距離を示す。
別の実施の形態において、パラメータ推定モジュール102の中の距離計算モジュールを採用することによって、距離を計算/推定する代わりに、外部の距離情報が、例えば、映像システムから受信される。例えば、映像において使用される最先端の技術が、例えば採用される。それは、距離情報、例えば飛行時間(ToF)と、ステレオスコープ映像と、構造化された光とを提供できる。例えば、ToFカメラにおいて、音源までの距離は、カメラによって放射され、音源まで伝達し、そして、カメラセンサーに戻った光信号の測定された飛行時間から計算される。コンピュータステレオ映像は、例えば、音源までの距離を計算するために、映像イメージが捕らえられる2つの有利な地点を利用する。
または、例えば、構造化された光カメラが採用される。そこでは、画素の既知のパターンが、映像場面に投影される。投影後の変形の分析は、映像システムが、音源までの距離を推定することを可能にする。それぞれの時間−周波数ビンのための距離情報r(k,n)が、矛盾のない音声場面再生のために必要であることは注目するべきである。仮に、距離情報が、映像システムによって外部的に提供されるならば、DOAφ(k,n)に対応する音源r(k,n)までの距離は、例えば、その特定の方向φ(k,n)に対応する映像システムから、距離値として選択される。
以下において、矛盾のない音響場面再生が考慮される。先ず、DOAに基づく音響場面再生が考慮される。
音響場面再生は、録音された音響場面と矛盾しないように実行される。または、音響場面再生は、映像イメージに矛盾しないように実行される。対応している映像情報は、映像イメージに一貫して達成するために提供される。
Figure 0006466968
いくつかの実施の形態において、パラメータGi(k,n)とQとは、利得関数計算モジュール104によって提供された2つの利得関数gi(φ(k,n))とq(k,n)とから、それぞれ利得選択ユニット201と202との中で選択される。
実施の形態に従って、Gi(k,n)は、例えば、DOA情報のみに基づいて選択され、Qは、例えば、一定値を持つ。しかし、別の実施の形態において、別の重み付けGi(k,n)は、例えば、別の情報に基づいて決定され、重み付けQは、例えば、変化して決定される。
先ず、実施が考慮され、それは、録音された音響場面と矛盾なく実現する。後に、考えられるイメージ情報/映像イメージと矛盾なく実現する実施の形態が考慮される。
以下において、重み付けGi(k,n)とQとの計算が、録音された音響場面と矛盾しない音響場面を再生するために示される。例えば、その結果、再生システムのスイートスポットに置かれた聴衆は、録音された音場面の中の音源のDOAから到達し、そして、音源録音された場面の中の同じパワーを持ち、そして、サラウンド拡散音の同じ知覚を再生する音源に気づく。
既知のスピーカーセットアップのために、方向φ(k,n)から音源の再生が、例えば、推定DOAφ(k,n)のための利得関数計算モジュール104によって提供された固定ルックアップ・テーブルから、利得選択ユニット201の中の直進音利得Gi(k,n)を選択すること(「直進利得選択」)によって達成される。それは、以下の式のように書かれる。

i(k,n)=gi(φ(k,n)) (15)

ここで、gi(φ)=pi(φ)は、i番目のスピーカーのために全てのDOAに亘ってパンニング利得を戻す関数である。パンニング利得関数pi(φ)は、スピーカーセットアップとパンニング体系に依存する。
ステレオの再生において左右のスピーカーのためのベクトルに基づいた振幅パンニング(VBAP)[14]によって定義されるパンニング利得関数pi(φ)の例は、図5aにおいて示される。
図5aにおいて、ステレオセットアップのためのVBAPパンニング利得関数pb,iの例が示され、図5bにおいて、矛盾しない再生のためのパンニング利得が示される。
例えば、仮に、直進音がφ(k,n)=30°から到達するならば、右のスピーカー利得はGr(k,n)=gr(30°)=pr(30°)=1であり、左のスピーカー利得はGl(k,n)=gl(30°)=pl(30°)=0である。φ(k,n)=0°から到達する直進音に対して、最終的なステレオスピーカー利得は、Gr(k,n)=Gl(k,n)=√(0.5)である。
実施の形態において、パンニング利得関数、例えばpi(φ)は、例えば、立体音再生の場合の中のヘッド関連移転関数(HRTF)である。
例えば、仮に、HRTF gi(φ)=pi(φ)が複合値を戻すならば、利得選択ユニット201において選択された直進音利得Gi(k,n)は、例えば、複合値にされる。
仮に、3つ以上の音声出力信号が生成されるならば、対応している最先端パンニング概念は、例えば、入力信号を3以上の音声出力信号へパンニングすることが採用される。例えば、3つ以上の音声出力信号のためのVBAPが採用される。
矛盾しない音響場面再生において、拡散音のパワーは、録音された場面の中と同じであり続ける。従って、例えば、等しく間隔をおいて配置されたスピーカーを持つスピーカーシステムに対して、拡散音利得は、以下の式(16)のように一定の値を持つ。

Q=qi=1/√I (16)

ここで、Iは、出力スピーカーチャンネルの数である。これは、利得関数計算モジュール104が、再生で利用可能なスピーカーの数に依存しているi番目のスピーカー(または、ヘッドホーンチャンネル)のための1つの出力値を提供することを意味する、この値は、全ての周波数に亘る拡散利得Qとして使われる。i番目のスピーカーチャンネルのための最終的な拡散音Ydiff,i(k,n)は、式(2b)の中に得られたYdiff(k,n)を無関連にすることによって得られる。
Figure 0006466968
今や、映像場面との一貫性を達成する実施の形態に従う音声出力信号生成が、示される。特に、映像場面と矛盾しない音響場面を再生するために採用される実施の形態に従う重み付きGi(k,n)およびQの計算が、示される。それは、音源からの直進音が、映像/イメージの中で音源が見える方向から再生される音響イメージを再創生することを目指す。
図4に描かれた幾何学が考慮される。Iは映像カメラの視方向に対応する。一般性を損失することなく、Iは座標系のY軸を定義する。
描かれた(x、y)座標系の中の直進音のDOAの方位は、φ(k,n)によって与えられる。x軸上の音源の位置は、xg(k,n)によって与えられる。ここで、全ての音源がx軸に対して同じ距離gに置かれることが仮定される。例えば、音源位置は、光学において焦点面として参照される左の点線上に置かれる。この仮定が、映像イメージおよび音響イメージが位置合わせされ、実際の距離値gが、提供された処理のために必要ではないことを保証するためのみに作られることに注目するべきである。
再生側(遠端側)では、ディスプレイはbに置かれ、ディスプレイ上の音源の位置はxb(k,n)によって与えられる。さらに、xdは、ディスプレイサイズ(または、いくつかの実施の形態において、例えばxdはディスプレイサイズの半分を示す)である。φdは、対応している最大映像角度である。Sは、音再生システムのスイートスポットである。φb(k,n)は、直進音が映像イメージおよび音響のイメージが位置合わせされるように再生されるべき角度である。φb(k,n)は、xb(k,n)、および、スイートスポットSとbに置かれたディスプレイとの間の距離に依存する。さらに、xb(k,n)は、カメラから音源までの距離gや、イメージセンサーサイズや、ディスプレイサイズxdなどのいくつかのパラメータに依存する。あいにく、これらのパラメータのうちの少なくともいくつかは、しばしば、実際に未知である。その結果、xb(k,n)およびφb(k,n)は、与えられたDOA φg(k,n)のために決定できない。しかし、光学システムが線形であると仮定すると、式(17)に従う。

tanφb(k,n)=c tanφ(k,n) (17)

ここで、cは、前記の未知のパラメータを補償している未知の定数である。仮に、全ての音源位置がx軸に対して同じ距離gを持つなら、cは定数のみであることは注目するべきである。
以下において、cは、映像イメージおよび音響イメージが矛盾しないまでの測定段階の間、適合されるべき測定パラメータであると仮定される。測定を実行するため、音源は焦点面上に置かれるべきで、cの値は、映像イメージおよび音響イメージが位置合わせされるように見つけられる。いったん測定されたら、cの値は不変のままであり、直進音が再生されるべき角度は、以下の式(18)によって与えられる。

φb(k,n)=tan-1[c tan(φ(k,n))]) (18)
音響場面および映像場面の両方が矛盾しないことを保証するために、オリジナルのパンニング関数pi(φ)は、矛盾のない(修正された)のパンニング関数pb,i(φ)に修正される。直進音利得Gi(k,n)は、以下の式(19)と(20)とに従って選択される。

i(k,n)=gi(φ(k,n)) (19)

i(φ)=pb,i(φ) (20)

ここで、pb,i(φ)は、全ての可能な音源DOAに亘るi番目のスピーカーのためのパンニング利得を戻している、矛盾のないパンニング関数である。cの固定値に対して、そのような矛盾のないパンニング関数は、利得関数計算モジュール104の中で、以下の式(21)のようなオリジナル(例えばVBAP)のパンニング利得表から計算される。

b,i(φ)=pi(tan-1[c tanφ]) (21)
従って、実施の形態において、信号プロセッサ105は、例えば、1つ以上の音声出力信号のそれぞれの音声出力信号のために、直進利得Gi(k,n)が以下の式に従って定義されるように、決定するように構成される。

i(k,n)=pi(tan-1[c tan(φ(k,n))])

ここで、iは前記音声出力信号のインデックスを示す。kは周波数を示す。nは時間を示す。Gi(k,n)は直進利得を示す。φ(k,n)は、到来方向(例えば、到来方向の方位角度)に依存している角度を示す。cは定数値を示す。piはパンニング関数を示す。
実施の形態において、直進音利得Gi(k,n)は、推定されたDOA φ(k,n)に基づいて、式(19)を使って1回(測定段階の後で)計算される利得関数計算モジュール104によって提供された固定ルックアップ・テーブルから、利得選択ユニット201の中で選択される。
それから、実施の形態に従って、信号プロセッサ105は、例えば、1つ以上の音声出力信号のそれぞれの音声出力信号毎に、前記音声出力信号のための直進利得を、到来方向に依存しているルックアップ・テーブルから得るように構成されている。
実施の形態において、信号プロセッサ105は、直進利得関数gi(k,n))のためのルックアップ・テーブルを計算する。例えば、全ての可能な十分な角度、例えば1°、2°、3°…のために、DOAの方位値φ毎に、直進利得Gi(k,n)が事前に計算されて記憶される。そして、到来方向の現在の方位値φが受信されるとき、信号プロセッサ105は、ルックアップ・テーブルから現在の方位値φのための直進利得Gi(k,n)を読み取る。(現在の方位値φは、例えばルックアップ・テーブル議論値であり、直進利得Gi(k,n)は、例えばルックアップ・テーブルリターン値である。)。DOAの方位φの代わりに、別の実施の形態において、ルックアップ・テーブルは、到来方向に依存しているどのような角度に対しても計算される。これは利点を持つ。利得値は、いつも全ての時間ポイントのために、または、全ての時間−周波数ビンのために計算される必要があるわけではない。けれども代わりに、ルックアップ・テーブルは1回計算されると、それからは、受信された角度φのために、直進利得Gi(k,n)がルックアップ・テーブルから読み取られる。
従って、実施の形態に従って、信号プロセッサ105は、例えば、ルックアップ・テーブルを計算するように構成されている。ルックアップ・テーブルは複数のエントリーを含む。エントリーのそれぞれは、ルックアップ・テーブル議論値と、前記議論値に割り当てられているルックアップ・テーブルリターン値とを含む。信号プロセッサ105は、例えば、到来方向に依存しているルックアップ・テーブルのルックアップ・テーブル議論値のうちの1つを選択することによって、ルックアップ・テーブルからルックアップ・テーブルリターン値のうちの1つを得るように構成されている。さらに、信号プロセッサ105は、例えば、ルックアップ・テーブルから得られたルックアップ・テーブルリターン値のうちの前記1つに依存している1つ以上の音声出力信号の少なくとも1つのために、利得値を決定するように構成されている。
信号プロセッサ105は、例えば、別の利得値を決定するために、別の到来方向に依存しているルックアップ・テーブル議論値のうちの別の1つを選択することによって(同じ)ルックアップ・テーブルから、ルックアップ・テーブルリターン値のうちの別の1つを得るように構成されている。例えば、信号プロセッサは、例えば、前記別の到来方向に依存する後の方の時間ポイントに、別の方向の情報を受信する。
VBAPパンニングおよび矛盾のないパンニング利得関数の例が、図5aと5bの中に示される。
パンニング利得表を再計算する代わりに、ディスプレイのためのDOAφb(k,n)を二者択一的に推定し、それをφi(φb(k,n))としてオリジナルのパンニング関数に適用することに注目するべきである。以下の関係が続く限り、これは真実である。

b,i(φ(k,n))=pi(φb(k,n)) (22)
しかし、これは、利得関数計算モジュール104が、入力として推定されたDOA φ(k,n)を受信することを必要とする。そして、例えば、式(18)に従って実行したDOA再推定が、その時、時間インデックスn毎に実施される。
拡散音再生に関して、映像無しの場合のために示されたと同じ方法で処理されるとき、例えば、拡散音のパワーが、録音された場面の中の拡散パワーと同じままで、そして、スピーカー信号がYdiff(k,n)の無相関のバージョンであるとき、音響イメージおよび映像イメージが矛盾なく再生される。等しく間隔をおいて配置されたスピーカーのために、拡散音利得は、例えば式(16)によって与えられる一定の値を持つ。結果として、利得関数計算モジュール104は、全ての周波数に亘る拡散利得Qとして使われるi番目のスピーカー(または、ヘッドホーンチャンネル)のための1つの出力値を提供する。i番目のスピーカーチャンネルのための最終的な拡散音Ydiff,i(k,n)が、例えば、式(2b)によって与えられるように、Ydiff(k,n)を無相関にすることによって得られる。
今や、DOAに基づく音響ズームが提供される実施の形態が考慮される。そのような実施の形態において、映像ズームと矛盾しない音響ズームのための処理が考慮される。この矛盾のない音声−映像ズームは、例えば、図2の信号変更器103の中で描かれた式(2a)の中で採用された重み付けGi(k,n)とQとを適合することによって達成される。
実施の形態において、直進利得Gi(k,n)は、例えば、利得選択ユニット201の中で、パラメータ推定モジュール102の中で推定されたDOAに基づいて、利得関数計算モジュール104において計算された直進利得関数gi(k,n)から選択される。拡散利得Qは、利得選択ユニット202の中で、利得関数計算モジュール104において計算された拡散利得関数q(β)から選択される。別の実施の形態において、直進利得Gi(k,n)および拡散利得Qは、先ずそれぞれの利得関数を計算して次に利得を選択すること無く、信号変更器103によって計算される。
上で説明した実施の形態と対比すると、拡散利得関数q(β)は、ズームファクターβに基づいて決定されることに注目するべきである。実施の形態において、距離情報は使用されず、従って、そのような実施の形態においては、それはパラメータ推定モジュール102の中で推定されない。
式(2a)の中のズームパラメータGi(k,n)およびQを引き出すために、図4の幾何学が考慮される。図の中に示されたパラメータは、上記実施の形態の図4について説明されたそれらと相似である。
上で説明された実施の形態と同様に、全ての音源は焦点面上に置かれることが仮定される。焦点面は、x軸に対して距離gで平行に置かれる。いくつかの自動焦点システムは、g、例えば焦点面までの距離を提供することができることに注目するべきである。これは、イメージの中の全ての音源が鋭いと仮定することを可能にする。再生(遠端)側において、ディスプレイ上のDOA φb(k,n)および位置xb(k,n)は、カメラからの音源の距離gやイメージセンサーサイズやディスプレイサイズxdやカメラのズーミングファクター(例えば、カメラの開口角度)βなどの多くのパラメータに依存する。光学システムが線形であると仮定すると、式(23)に従う。

tanφb(k,n)=βc tanφ(k,n) (23)

ここで、cは、未知の光学パラメータを補償する測定パラメータである。β≧1は、ユーザーコントロールされたズーミングファクターである。映像カメラにおいて、ファクターβでのズーミングは、βをxb(k,n)に乗算することと等しいことに注目するべきである。さらに、仮に、全ての音源位置が、x軸まで同じ距離gを持つならば、cは定数のみである。この場合において、cは、映像イメージと音響イメージとが位置合わせされるように、1回適合される測定パラメータとして考慮される。直進音利得Gi(k,n)は、式(24)および(25)のように、直進利得関数gi(φ)から選択される。

i(k,n)=gi(φ(k,n)) (24)

i(φ)=pb,i(φ)wb(φ) (25)

ここで、pb,i(φ)は、パンニング利得関数を示す。wb(φ)は、矛盾のない音声−映像ズームのための窓利得関数である。矛盾のない音声−映像ズームのためのパンニング利得関数は、利得関数計算モジュール104の中で、以下の式(26)のように、オリジナル(例えばVBAP)のパンニング利得関数pi(φ)から計算される。

b,i(φ)=pi(tan-1[βc tanφ]) (26)
従って、例えば利得選択ユニット201の中で選択された直進音利得Gi(k,n)は、利得関数計算モジュール104の中で計算された検索パンニング表から、推定されたDOA φ(k,n)に基づいて決定される。仮に、βが変わらないならば、それは固定される。いくつかの実施の形態において、pb,i(φ)は、例えば、ズームファクターβが修正されるたびに、式(26)を採用することによって、再計算される必要があることに注目するべきである。
β=1とβ=3のためのステレオパンニング利得関数の例が、図6において示される(図6aおよび図6bを参照してください)。特に、図6aは、β=1のためのパンニング利得関数pb,iの一例を示す。図6bは、β=3でズーミングした後のパンニング利得を示す。図6cは、角度シフトを伴うβ=3でズーミングした後のパンニング利得を示す。
例において認められるように、直進音がφ(k,n)=10°から到達するとき、左のスピーカーのためのパンニング利得は、大きいβ値のために増大する一方、右のスピーカーおよびβ=3のためのパンニング関数は、β=1のためより小さい値を戻す。そのようなパンニングは、ズームファクターβが増大されるとき、知覚された音源位置を外側方向にもっと効果的に移動する。
実施の形態に従って、信号プロセッサ105は、例えば、2つ以上の音声出力信号を決定するように構成されている。2つ以上の音声出力信号の音声出力信号のそれぞれのために、パンニング利得関数は、前記音声出力信号に割り当てられる。
2つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含む。パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられる。前記パンニング関数が、前記パンニング関数議論値の1つを受信するとき、前記パンニング関数は、前記パンニング関数議論値のうちの前記1つに割り当てられているパンニング関数リターン値を戻すように構成される。
信号プロセッサ105は、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の直進依存議論値に依存して、2つ以上の音声出力信号のそれぞれを決定するように構成されている。前記直進依存議論値は、到来方向に依存する。
実施の形態に従って、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、パンニング関数議論値のうちの1つである1つ以上のグローバル最大値を持つ。それぞれのパンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が前記グローバル最大値のためより大きいパンニング関数リターン値を戻すための別のパンニング関数議論値は、存在しない。
2つ以上の音声出力信号の第1音声出力信号および第2音声出力信号のペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値のうちの少なくとも1つは、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値のうちの何れとも相違する。
要するに、パンニング関数は、種々のパンニング関数のグローバル最大値(の少なくとも1つ)が相違するように実施される。
例えば、図6aにおいて、pb,l(φ)のローカル最大値は、−45°から−28°までの範囲内にあり、pb,r(φ)のローカル最大値は、+28°から+45°までの範囲内にある。従って、グローバル最大値は相違する。
例えば、図6bにおいて、pb,l(φ)のローカル最大値は、−45°から−8°までの範囲内にあり、pb,r(φ)のローカル最大値は、+8°から+45°までの範囲内にある。従って、グローバル最大値も相違する。
例えば、図6cにおいて、pb,l(φ)のローカル最大値は、−45°から+2°までの範囲内にあり、pb,r(φ)のローカル最大値は、+18°から+45°までの範囲内にある。従って、グローバル最大値も相違する。
パンニング利得関数は、例えば、ルックアップ・テーブルとして実施される。
そのような実施の形態において、信号プロセッサ105は、例えば、音声出力信号のうちの少なくとも1つのパンニング利得関数のためのパンニングルックアップ・テーブルを計算するように構成されている。
音声出力信号のうちの前記少なくとも1つのそれぞれの音声出力信号のパンニングルックアップ・テーブルは、例えば、複数のエントリーからなる。エントリーのそれぞれは、前記音声出力信号のパンニング利得関数のパンニング関数議論値と、前記パンニング関数議論値に割り当てられているパンニング利得関数のパンニング関数リターン値とからなる。信号プロセッサ105は、到来方向に依存して、パンニングルックアップ・テーブルから方向依存議論値を選択することによって、前記パンニングルックアップ・テーブルからパンニング関数リターン値の1つを得るように構成されている。信号プロセッサ105は、前記パンニングルックアップ・テーブルから得られた前記パンニング関数リターン値のうちの1つに依存して、前記音声出力信号のための利得値を決定するように構成されている。
以下において、直進音窓を採用する実施の形態が示される。そのような実施の形態に従って、矛盾しないズームwb(φ)のための直進音窓が、式(27)に従って計算される。

b(φ)=w(tan-1[βc tanφ]) (27)

ここで、仮に、音源が、ズームファクターβのための映像イメージの外の位置に写像されるならば、wb(φ)は、直進音を弱める音響ズームのための窓利得関数である。
窓関数w(φ)が例えばβ=1に設定されると、その結果、映像イメージの外にある音源の直進音は、望みのレベルに減らされる。そして、それは、例えば、式(27)を採用されることによって再計算され、毎回、ズームパラメータが変わる。wb(φ)は、全てのスピーカーチャンネルに対して同じであることに注目するべきである。β=1とβ=3の窓関数例が、図7aと図7bに示される。そこでは、β値が増大すると、窓幅が減少する。
図7において、矛盾のない窓利得関数の例が示される。特に、図7aは、ズーミング無し(ズームファクターβ=1)の窓利得関数wbを示す。図7bは、ズーミング(ズームファクターβ=3)した後の窓利得関数を示す。図7cは、角度シフトを伴うズーミング(ズームファクターβ=3)した後の窓利得関数を示す。例えば、角度シフトは、視方向に対して窓の回転を実現する。
例えば、図7aと図7bと図7cとにおいて、仮に、DOA φが窓内に位置するならば、窓利得関数は1の利得に戻る。仮に、DOA φが窓外に位置するならば、窓利得関数は0.18の利得に戻る。仮に、DOA φが窓の境界に位置するならば、窓利得関数は0.18と1との間の利得に戻る。
実施の形態に従って、信号プロセッサ105は、窓利得関数に依存して、1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。窓利得関数は、窓関数議論値を受信すると、窓関数リターン値を戻すように構成されている。
仮に、窓関数議論値が、下部の窓閾値より大きく、上部の窓閾値より小さいならば、窓利得関数は、何れの窓関数リターン値より大きい窓関数リターン値を戻すように構成され、仮に、窓関数議論値が、下部の窓閾値より小さいか、または、上部の窓閾値より大きいならば、窓利得関数は、窓利得関数によって戻されるように構成されている。
例えば、以下の式(27)において、

b(φ)=w(tan-1[βc tanφ]) (27)

到来方向φの方位角度は、窓利得関数wb(φ)の窓関数議論値である。窓利得関数wb(φ)は、ズーム情報、ここでは、ズームファクターβに依存する。
窓利得関数の定義を説明するために、図7aが参照される。
仮に、DOA φの方位角度が、−20°(下部の閾値)より大きく、+20°(上部の閾値)より小さいならば、窓利得関数によって戻された全ての値は0.6より大きい。さもなければ、仮に、DOA φの方位角度が、−20°(下部の閾値)より小さく、または、+20°(上部の閾値)より大きいならば、窓利得関数によって戻された全ての値は0.6より小さい。
実施の形態において、信号プロセッサ105は、ズーム情報を受信するように構成されている。さらに、信号プロセッサ105は、窓利得関数がズーム情報に依存する窓利得関数に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
これは、仮に、別の値が下部/上部の閾値として考慮される、または、仮に、別の値がリターン値として考慮されるならば、図7bと図7cの(修正された)窓利得関数に対して認められる。図7aと図7bと図7cとにおいて、窓利得関数はズーム情報(ズームファクターβ)に依存することが認められる。
窓利得関数は、例えば、ルックアップ・テーブルとして実施される。そのような実施の形態において、信号プロセッサ105は、窓ルックアップ・テーブルを計算するように構成されている。窓ルックアップ・テーブルは、複数のエントリーを含む。エントリーのそれぞれは、窓利得関数の窓関数議論値と、前記窓関数議論値に割り当てられている窓利得関数の窓関数リターン値とからなる。信号プロセッサ105は、到来方向に依存している窓ルックアップ・テーブルの窓関数議論値のうちの1つを選択することによって、窓ルックアップ・テーブルから窓関数リターン値のうちの1つを得るように構成されている。さらに、信号プロセッサ105は、窓ルックアップ・テーブルから得られた窓関数リターン値のうちの前記1つに依存している1つ以上の音声出力信号の少なくとも1つのための利得値を決定するように構成されている。
ズーミング概念に加えて、窓とパンニング関数とは、シフト角度θによってシフトされる。この角度は、カメラの視方向Iの回転に、または、カメラのデジタルズームとの相似によって映像イメージ内での移動に対応する。前者の場合において、カメラの回転角度は、ディスプレイ上の角度のために、例えば式(23)と同様に再計算される。後者の場合において、θは、窓の直進シフトと、矛盾しない音響ズームのためのパンニング関数(例えば、wb(φ)およびpb,i(φ))とである。両方の関数をシフトする例示が図5cおよび図6cに記載されている。
パンニング利得と窓関数を再計算する代わりに、例えば式(23)に従って、ディスプレイのためのDOA φb(k,n)を計算し、それを、pi(φ)およびw(φb)として、オリジナルのパンニングおよび窓関数の中にそれぞれ適用することに注目するべきである。以下の関係が続く間、そのような処理は等価である。

b,i(φ(k,n))=pi(φb(k,n)) (28)

b(φ(k,n))=w(φb(k,n)) (29)
しかし、これは、利得関数計算モジュール104が、入力として推定されたDOA φ(k,n)と、例えば式(18)に従うDOA再計算を受信することを必要とする。式(18)は、例えば、それぞれの連続的な時間フレームの中で、仮にβが変更されるか、または、変更されないかに関係無く、実行される。
拡散音について、例えば利得関数計算モジュール104の中で、拡散利得関数q(β)を計算することは、再生のために利用可能なスピーカーIの数の知識だけを必要とする。従って、それは、映像カメラまたはディスプレイのパラメータから独立して設定される。
例えば、等しく間隔をおいて配置されたスピーカーのために、式(2a)の実数値の拡散音利得Q∈[0,1/√I]が、ズームパラメータβに基づいて、利得選択ユニット202の中で選択される。拡散利得を使用する目的は、ズーミングファクター、例えば、再生された信号のDRRを増大させるズーミングに依存している拡散音を弱めることである。これは、より大きいβのためにQを下げることによって達成される。事実、カメラの開口角度がより小さくなる手段の中のズーミングは、例えば、自然な音響の対応は、より少ない拡散音を捕える、より多い直進的なマイクロフォンである。
この効果を擬態するために、実施の形態は、例えば、図8に示された利得関数を採用する。図8は、拡散利得関数q(β)の例を示す。
別の実施の形態において、利得関数は異なって定義される。i番目のスピーカーチャンネルのための最終的な拡散音Ydiff,i(k,n)は、例えば式(2b)に従って、Ydiff(k,n)を無相関にすることによって達成される。
以下において、DOAと距離とに基づく音響ズームが考慮される。
いくつかの実施の形態に従って、信号プロセッサ105は、例えば、距離情報を受信するように構成されている。信号プロセッサ105は、例えば、距離情報に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
いくつかの実施の形態は、推定されたDOA φ(k,n)と距離値r(k,n)との両方に基づく矛盾しない音響ズームのための処理を採用する。これらの実施の形態の概念も、録音された音響の場面を位置合わせするために、ズーミング無しで映像に適用される。そこでは、音源は、映像イメージの中で鋭く現れない音源のために、例えば、カメラの焦点面上に置かれない音源のために、音響のぼやけている効果を創成することを我々に入手可能にする距離情報r(k,n)において、以前に推定されたと同じ距離に置かれない。
矛盾のない音再生、例えば、異なる距離に置かれた音源のためにぼやけている音響ズームを容易にするため、利得Gi(k,n)およびQは、2つの推定されたパラメータ、つまりφ(k,n)とr(k,n)とに基づいて、そしてズームファクターβに依存して、図2の信号変更器103の中に描かれた式(2a)において適合される。仮にズーミングが関係しないならば、βはβ=1に設定される。
パラメータφ(k,n)およびr(k,n)は、例えば、上で説明したパラメータ推定モジュール102の中で推定される。この実施の形態において、直進利得Gi(k,n)は、1つ以上の直進利得関数gi,j(k,n)(それは、例えば、利得関数計算モジュール104の中で計算される。)からのDOAと距離情報とに基づいて、(例えば、利得選択ユニット201の中で選択されることによって)決定される。上の実施の形態で示されたと同様に、拡散利得Qは、利得関数計算モジュール104の中でズームファクターβに基づいて計算された拡散利得関数q(β)から、例えば、利得選択ユニット202の中で選択される。
別の実施の形態において、直進利得Gi(k,n)および拡散利得Qは、先ずそれぞれの利得関数を計算してそれから利得を選択すること無く、信号変更器103によって計算される。
異なる距離の音源のための音響場面再生および音響ズーミングを説明するために、図9が参照される。図9において示されたパラメータは、上で説明されたそれらと相似である。
図9において、音源は、x軸に対して距離R(k,n)の位置P′に置かれる。距離r、例えば、(k,n)−特定(時間−周波数−特定:r(k,n)は、音源位置と焦点面(gを通過している左の垂直線)との間の距離を示すである。いくつかの自動焦点システムが、g、例えば焦点面までの距離を提供することができることに注目するべきである。
マイクロフォン配列の観点から直進音のDOAは、φ’(k,n)によって示される。
別の実施の形態と対比すると、全ての音源がカメラレンズから同じ距離gに置かれることは仮定されない。従って、例えば位置P′は、x軸に対して任意の距離R(k,n)を持つことができる。
仮に、音源が焦点面に置かれないならば、音源は映像の中でぼやけているように見える。さらに、実施の形態は、仮に音源が点線910上の何れかの位置に置かれるならば、それは映像の中の同じ位置xb(k,n)に見えるという発見に基づく。しかし、実施の形態は、仮に、点線910に沿って音源が動くならば、直進音の推定されたDOA φ’
(k,n)が変更するという発見に基づく。すなわち、仮に、音源がY軸に対して平行に移動するならば、実施の形態によって採用された発見に基づいて、推定されたDOA φ’
(k,n)は、xb(それから、音が再生されるべきDOA φb(k,n))が同じであり続ける間は、変化する。その結果、仮に、推定されたDOA φ’(k,n)が遠端
側に送信されて、前の実施の形態において示された音の再生のために使われるならば、仮に音源がその距離R(k,n)を変更するならば、音響および映像イメージはもう位置合わせされない。
この効果を補償して、矛盾のない音再生を達成するために、例えば、パラメータ推定モジュール102の中で実行されるDOA推定が、まるで音源が位置Pの焦点面上に置かれるかのように直進音のDOAを推定する。この位置は焦点面のP′の投影を表す。対応するDOAは、図9のφ(k,n)によって示され、前の実施の形態と同様に、矛盾のない音再生のために遠端側で使われる。仮に、rとgとが知られているならば、(修正された)DOA φ(k,n)は、幾何学の考慮に基づいて、推定された(オリジナルの)DOA φ’(k,n)から計算される。
例えば、図9において、信号プロセッサ105は、以下の式に従ってφ’(k,n)r
とgとからφ(k,n)を計算する。

φ=arctan[tanφ´・(r+g)/g]
従って、実施の形態に従って、信号プロセッサ105は、例えば、2つ以上の音声入力信号の直進信号コンポーネントの到来方向である到来方向のオリジナルの方位角度φ’(k,n)を受信するように構成され、そして、距離情報rを更に受信するように構成されている。信号プロセッサ105は、例えば、オリジナルの到来方向の方位角度φ’(k,n)、および、距離情報rとgとに依存して、到来方向の修正された方位角度φ(k,n)を計算するように構成されている。信号プロセッサ105は、例えば、修正された到来方向の方位角度φ(k,n)に依存して、1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
必要な距離情報は、上で説明したように推定される(焦点面の距離gは、レンズシステムまたは自動焦点情報から得られる)。例えば、この実施の形態において、音源と焦点面との間の距離r(k,n)は、(写像された)DOA φ(k,n)と共に遠端側に送信されることは注目するべきである。
さらに、映像ズームに対する相似によって、焦点面から大きな距離rにある音源は、イメージの中で鋭く見えない。この効果は、光学においていわゆるフィールド深さ(DOF)として有名である。それは、映像イメージの中で満足して鋭く見える音源距離の範囲を定義する。
距離rの関数としてのDOF曲線の例が、図10aに示される。
図10は、フィールド深さの図例(図10a)と、ローパスフィルタの遮断周波数の図例(図10b))と、繰り返し直進音のためのミリ秒の時間遅延の図例(図10c)とを示す。
図10aにおいて、焦点面から小さい距離の音源は、まだ鋭い。けれども、焦点面から大きい距離(より近いまたはカメラから更に遠いのいずれか一方)の音源は、ぼやけるように見える。従って、実施の形態に従って、対応する音源は、それらの映像および音響イメージが矛盾のないようにぼやける。
音響のぼやけと矛盾のない空間音再生を実現する式(2a)の利得Gi(k,n)およびQを引き出すために、P(φ,r)に置かれた音源がディスプレイ上に現われる角度が、考慮される。ぼやけた音源は、以下の式(30)で表示される。

tanφb(k,n)=βc tanφ(k,n) (30)

ここで、cは測定パラメータである。β≧1は、ユーザーコントロールされたズームファクターである。φ(k,n)は、(写像された)DOAであり、例えば、パラメータ推定モジュール102の中で推定される。前述したように、そのような実施の形態の直進利得Gi(k,n)は、例えば、複数の直進利得関数gi,jから計算される。特に、2つの利得関数gi,1(φ(k,n))およびgi,2(r(k,n))が、例えば使われる。最初の利得関数はDOA φ(k,n)に依存し、2番目の利得関数は距離r(k,n)に依存する。直進利得Gi(k,n)は、式(31)と式(32)と式(33)とで計算される。

i(k,n)=gi、1(φ(k,n))gi、2(r(k,n)) (31)

i、1(φ)=pb,i(φ)wb(φ) (32)

i、2(r)=b(r) (33)

ここで、pb,i(φ)は、パンニング利得関数を示す(音が右の方向から再生されることを保証するために)。wb(φ)は、窓利得関数である(仮に音源が映像の中で見えないならば、直進音が弱められることを保証するために)。b(r)は、ぼけ関数である(仮に、それらが焦点面上に置かれないならば、音源を音響的にぼやけさせるために)。
全ての利得関数が、定義された周波数依存(簡潔さのためにここでは省略される)であることは注目するべきである。この実施の形態において、直進利得Giが、式(32)に示すように、2つの異なる利得関数から選択されて乗算される利得によって見つけられることは更に注目するべきである。
両方の利得関数pb,i(φ)とwb(φ)とは、上の説明のように相似に定義される。それらは、例えば式(26)と(27)とを使用して、例えば、利得関数計算モジュール104の中で計算される。それらは、ズームファクターβが変わらない限り、固定され続ける。これらの2つの関数の詳細な説明は、上で提供されている。ぼけ関数b(r)は、音源のぼやけ(例えば知覚の拡がり)を引き起こす複合利得を戻す。従って、全体利得関数giが、一般に、複素数も戻す。シンプルさのために、以下において、ぼやけることは焦点面までの距離の関数b(r)として示される。
ぼやけ効果は、以下のぼやけ効果、ローパスフィルタリングや、遅延された直進音の追加や、直進音減衰や、時間的円滑化および/またはDOA拡がりの選択された1つまたは組み合わせとして得られる。従って、実施の形態に従って、信号プロセッサ105は、例えば、ローパスフィルタリングを実施することによって、または、遅延された直進音を追加することによって、または、直進音の減衰を実施することによって、または、時間的円滑化を実施することによって、または、到来方向の拡がりを実施することによって、1つ以上の音声出力信号を生成するように構成されている。
ローパスフィルタリング:映像において、鋭くない映像イメージはローパスフィルタリングによって得られる。それは、映像イメージの中の隣接ピクセルを効果的に合併する。相似によって、音響のぼやけ効果は、焦点面までの音源の推定距離rに基づいて選択された遮断周波数を持つ直進音のローパスフィルタリングによって、得られる。この場合、ぼけ関数b(r,k)は、周波数kと距離rとのためのローパスフィルタ利得を戻す。16kHzのサンプリング周波数のための一次のローパスフィルタの遮断周波数のための例示曲線が、図10bに示される。小さい距離rに対して、遮断周波数はナイキスト周波数に近く、殆んどのローパスフィルタリングは効果的に実行されない。より大きい距離値に対して、遮断周波数は、音響イメージが十分にぼやける3kHzで、それが平らになるまで減少する。
遅延された直進音の追加:音源の音響イメージが鋭くないようにするために、例えば、我々は、いくらかの遅延τ(例えば1m秒と30m秒との間)の後に、直進音を弱めることを繰り返すことによって、直進音を無相関にする。そのような処理は、例えば、式(34)の複雑な利得関数に従って実行される。

b(r,k)=1+α(r)e-jωτ(r) (34)

ここで、αは、繰り返された音のための減衰利得を示す。τは、直進音が繰り返される後の遅延である。(m秒の)例示遅延曲線は、図10cの中で示される。小さな距離に対して、遅延された信号は繰り返されない。αは0に設定される。より大きい距離に対して、時間遅延は増加する距離と共に増大する。それは、音源を知覚的に拡げることを引き起こす。
直進音減衰:直進音は一定のファクターによって弱められるとき、音源もぼやけるように知覚される。この場合、b(r)=定数<1である。上述されたように、ぼけ関数b(r)は、記述のぼやけ効果のいくつか、または、これらの効果の組み合わせから成る。さらに、音源をぼやけさせる二者択一的処理が、使われる。
時間的円滑化:時間に亘る直進音の円滑化は、例えば、音源を知覚的にぼやけさせるために使用される。これは、時間に亘る取り出された直進信号の包絡線を円滑にすることによって達成される。
DOA拡がり:音源を鋭くしないための別の方法は、推定された方向だけの代わりに方向の範囲から音源信号を再生することの中に存在する。これは、角度をランダム化すること、例えば、ランダムな角度を、推定されたφの周りに集中されたガウス分布から取り去ることによって達成される。そのような分布の変化を増大させること、そして、可能なDOAの範囲を広げることが、ぼやけの知覚を増大する。
上で説明した相似により、利得関数計算モジュール104の中で拡散利得関数q(β)を計算することは、いくつかの実施の形態において、再生のために利用可能なスピーカーの数Iの知識だけを必要とする。従って、拡散利得関数q(β)は、そのような実施の形態において、応用のために要求されるように設定される。例えば、等しく間隔をおいて配置されたスピーカーのために、式(2a)の中の実数値の拡散音利得Q∈[0,1/√I]が、ズームパラメータβに基づいて、利得選択ユニット202の中で選択される。拡散利得を使うことの目的は、ズーミングファクターに依存して、拡散音を弱めることである。例えば、ズーミングは、再生された信号のDRRを増大する。これは、より大きいβに対して、Qを下げることによって達成される。事実、カメラの開口角度がより小さくなる手段の中のズーミング、例えば自然な音響の一致は、より小さい拡散音を捕える、より直進的なマイクロフォンである。この効果を擬態するために、私達は、例えば、図8の中で示された利得関数を使うことができる。明らかに、利得関数も異なって定義される。任意で、i番目のスピーカーチャンネルのための最終的な拡散音Ydiff,i(k,n)が、式(2b)の中で得られたYdiff(k,n)を無相関にすることによって得られる。
今や、実施の形態は、補聴器および補助聞き取り装置への応用を実現することが考慮される。図11はそのような補聴器応用を示す。
いくつかの実施の形態は、立体音の補聴器に関連する。この場合、それぞれの補聴器は、少なくとも1つのマイクロフォンを装備され、2つの補聴器の間で情報が交換されると仮定される。いくらかの補聴損失のため、聴覚障害の人は、望みの音に焦点を絞ること(例えば、特定のポイントまたは方向から来る音に集中すること)が難しいことを経験する。聴覚障害の人の脳が、補聴器によって再生される音を処理することを助けるために、音響イメージは、補聴器ユーザーの焦点ポイントまたは焦点方向と矛盾しない。焦点ポイントまたは焦点方向が、予め決められる、または、ユーザーが定義する、または、脳−機械インタフェースにより定義される、ことは想像可能である。そのような実施の形態は、望ましい音(焦点ポイントまたは焦点方向から到達するように仮定される)と、望ましくない音とが、空間的に分離して現れることを保証する。
そのような実施の形態において、直進音の方向は、異なる方法で推定される。実施の形態に従って、方向は、両方の補聴器を使って決定される相互聴覚レベル差(ILD)および/または相互聴覚時間差(ITD)に基づいて決定される([15]と[16]とを参照してください)。
別の実施の形態に従って、左右の直進音の方向は、少なくとも2つのマイクロフォンを装備される補聴器を独立して使用して推定される([17]を参照してください)。推定された方向は、左右の補聴器で音圧レベルに基づいて、または、左右の補聴器で空間的コヒーレンスに基づいて、細かい。頭を影で覆っている効果(ヘッドシャドウ効果)のため、異なる推定器が、異なる周波数帯のために採用される(例えば、高周波のILDおよび低周波のITD)。
いくつかの実施の形態において、直進音信号および拡散音信号は、例えば、前述のインフォームド空間フィルタリング技術を使用して推定される。この場合、左右の補聴器で受信されるような直進音および拡散音は、別々に(例えば、参照マイクロフォンを交換することによって)推定される。または、左右の出力信号は、それぞれ、左右の補聴器出力のための利得関数を使用して生成される。同様に、異なるスピーカーまたはヘッドホーン信号は、前の実施の形態において得られる。
望ましい音と望ましくない音を空間的に分離するために、前記の実施の形態の中で説明した音響ズームが適用される。この場合、焦点ポイントまたは焦点方向は、ズームファクターを決定する。
従って、実施の形態に従って、補聴器または補助聞き取り装置が提供される。補聴器または補助聞き取り機器は、上で説明したシステムを含む。信号プロセッサ105は、例えば焦点方向または焦点ポイントに依存して、1つ以上の音声出力信号のそれぞれのための直進利得を決定する。
実施の形態において、上で説明したシステムの信号プロセッサ105は、例えば、ズーム情報を受信するように構成されている。上で説明したシステムの信号プロセッサ105は、例えば、窓利得関数に依存して、1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。窓利得関数はズーム情報に依存する。図7aと図7bと図7cに関連して説明したと同じ概念が、採用される。
仮に、窓関数議論が、焦点方向または焦点ポイントに依存して、下部の閾値より大きく、上部の閾値より小さいならば、窓利得関数は、どの窓利得より大きい窓利得に戻すように、仮に、窓関数議論が下部の閾値より小さいか、または、上部の閾値より大きいならば、窓利得関数は、窓利得関数によって戻されるように、構成されている。
例えば、焦点方向の場合、焦点方向自身は窓関数議論である(従って、窓関数議論は焦点方向に依存する)。焦点位置の場合、窓関数議論は、例えば、焦点位置から引き出される。
同様に、本発明は、補助聞き取り装置またはグーグル・グラス(商標名)などの装置を含む他の装着可能な装置に適用される。いくつかの装着可能な装置も、対象物から装置を装着している人までの距離を推定するために使用される1つ以上のカメラまたはToFセンサーを装備されることに注目するべきである。
いくつかの面が装置の文脈の中で説明されるけれども、これらの面も、対応する方法の説明を表すことは明確である。ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。相似的に、方法ステップの文脈の中で説明した面も、対応するブロックまたはアイテムまたは対応する装置の特徴を表す。
本発明の分解された信号は、デジタル記憶媒体に記録される、または、無線送信媒体などの送信媒体、または、インターネットなどの有線送信媒体で送信される。
特定の実施要件に依存して、本発明の実施の形態は、ハードウェアまたはソフトウェアにおいて実施される。実施は、それぞれの方法が実行されるプログラム化可能なコンピュータシステムと協働する(または、協働する可能性がある)、その上に記録された電気的に読み取り可能な制御信号を持っているデジタル記憶媒体(例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリ〉を使用して実行される。
本発明に従って、いくつかの実施の形態は、プログラム化可能なコンピュータシステムと協働する可能性がある電気的に読み取り可能な制御信号を持っている非一時的なデータキャリアから成る。ここに説明された方法のうちの1つは実行される。
一般に、本発明の実施の形態は、プログラムコードを持つコンピュータプログラム製品として実施される。コンピュータプログラム製品がコンピュータ上を稼働するとき、プログラムコードは、方法のうちの1つを実行するために働く。プログラムコードは、例えば、機械読み取り可能なキャリアに記録される。
別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムから成り、機械読み取り可能なキャリア上に記録される。
すなわち、本発明の方法の実施の形態は、従って、コンピュータプログラムがコンピュータ上を稼働するとき、ここに説明された方法のうちの1つを実行するためのプログラムコードを持っているコンピュータプログラムである。
本発明の方法の別の実施の形態は、従って、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを含み、そこに記録されたデータキャリア(または、デジタル記憶媒体、または、コンピュータ可読メディア)である。
本発明の方法の別の実施の形態は、従って、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。データストリームまたは信号の連続は、例えばデータ通信接続を経て(例えばインターネットを経て)、転送されるように構成される。
別の実施の形態は、例えば、処理手段、例えば、ここに説明された方法のうちの1つを実行するように構成または採用された、コンピュータまたはプログラム可能な論理装置から成る。
別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを、その上にインストールしているコンピュータから成る。
いくつかの実施の形態において、プログラム可能な論理装置(例えば、フィールドプログラム可能ゲートアレイ)は、ここに説明された方法の関数のうちの幾つかまたは全てを実行するために使用される。幾つかの実施の形態において、フィールドプログラム可能ゲートアレイは、ここに説明された方法のうちの1つを実行するために、マイクロプロセッサーと協働される。一般に、方法は、好ましくは、どのハードウェア装置によっても実行される。
上記の説明された実施の形態は、単に、本発明の原則のために説明される。ここに説明された配列と詳細の部分変形と変化とが当業者に明白であることは理解される。それは意思である。従って、ここの実施の形態の記述と説明を経て提供された特定の詳細ではなく、差し迫った特許請求の範囲によってのみ制限される。
参考文献
[1] Y. Ishigaki, M. Yamamoto, K. Totsuka, and N. Miyaji, "Zoom microphone," in Audio Engineering Society Convention 67, Paper 1713, October 1980.

[2] M. Matsumoto, H. Naono, H. Saitoh, K. Fujimura, and Y. Yasuno, "Stereo zoom microphone for consumer video cameras," Consumer Electronics, IEEE Transactions on, vol. 35, no. 4, pp. 759-766, November 1989. August 13, 2014

[3] T. van Waterschoot, W. J. Tirry, and M. Moonen, "Acoustic zooming by multi microphone sound scene manipulation," J. Audio Eng. Soc, vol. 61, no. 7/8, pp. 489-507, 2013.

[4] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, June 2007.

[5] R. Schultz-Amling, F. Kuech, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, Paper 8120, London UK, May 2010.

[6] O. Thiergart, G. Del Galdo, M. Taseska, and E. Habets, "Geometry-based spatial sound acquisition using distributed microphone arrays," Audio, Speech, and Language Processing, IEEE Transactions on, vol. 21, no. 12, pp. 2583-2594, December 2013.

[7] K. Kowalczyk, O. Thiergart, A. Craciun, and E. A. P. Habets, "Sound acquisition in noisy and reverberant environments using virtual microphones," in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on, October 2013.

[8] O. Thiergart and E. A. P. Habets, "An informed LCMV filter based on multiple instantaneous direction-of-arrival estimates," in Acoustics Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, 2013, pp. 659-663.

[9] O. Thiergart and E. A. P. Habets, "Extracting reverberant sound using a linearly constrained minimum variance spatial filter," Signal Processing Letters, IEEE, vol. 21, no. 5, pp. 630-634, May 2014.

[10] R. Roy and T. Kailath, "ESPRIT-estimation of signal parameters via rotational invariance techniques," Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 37, no. 7, pp. 984-995, July 1989.

[11] B. Rao and K. Hari, "Performance analysis of root-music," in Signals, Systems and Computers, 1988. Twenty-Second Asilomar Conference on, vol. 2, 1988, pp. 578-582.

[12] H. Teutsch and G. Elko, "An adaptive close-talking microphone array," in Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, 2001, pp. 163-166.

[13] O. Thiergart, G. D. Galdo, and E. A. P. Habets, "On the spatial coherence in mixed sound fields and its application to signal-to-diffuse ratio estimation," The Journal of the Acoustical Society of America, vol. 132, no. 4, pp. 2337-2346, 2012.

[14] V. Pulkki, "Virtual sound source positioning using vector base amplitude panning," J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997.

[15] J. Blauert, Spatial hearing, 3rd ed. Hirzel-Verlag, 2001.

[16] T. May, S. van de Par, and A. Kohlrausch, "A probabilistic model for robust localization based on a binaural auditory front-end," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 1, pp. 1-13, 2011.

[17] J. Ahonen, V. Sivonen, and V. Pulkki, "Parametric spatial sound processing applied to bilateral hearing aids," in AES 45th International Conference, Mar. 2012.

Claims (15)

  1. 2つ以上の音声出力信号を生成するためのシステムであって、
    分解モジュール(101)と、
    信号プロセッサ(105)と、
    出力インタフェース(106)と、を備え、
    前記分解モジュール(101)は、2つ以上の音声入力信号を受信するように構成され、前記分解モジュール(101)は、前記2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成するように構成され、そして、前記分解モジュール(101)は、前記2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成するように構成され、
    前記信号プロセッサ(105)は、前記直進コンポーネント信号および前記拡散コンポーネント信号および方向情報を受信するように構成され、前記方向情報は、前記2つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存し、
    前記信号プロセッサ(105)は、前記拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成され、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記信号プロセッサ(105)は、前記到来方向に依存して直進利得を決定するように構成され、前記信号プロセッサ(105)は、処理された直進信号を得るために、前記直進利得を前記直進コンポーネント信号に適用するように構成され、そして、前記信号プロセッサ(105)は、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号のうちの1つとを結合するように構成され、そして
    前記出力インタフェース(106)は、前記2つ以上の音声出力信号を出力するように構成され、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、
    前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数、前記パンニング関数議論値のうちの1つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記1つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、
    前記信号プロセッサ(105)は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存し、かつ、窓利得関数に依存している前記2つ以上の音声出力信号のそれぞれについて、直進利得関数を計算するための利得関数計算モジュール(104)を備え、そして、
    前記信号プロセッサ(105)は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記配向情報に依存する、または、
    前記利得関数計算モジュール(104)は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記ズーム情報に依存すること、
    を特徴とするシステム。
  2. 前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、前記パンニング関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の前記1つ以上のグローバル最大値のそれぞれについて、前記パンニング利得関数が前記グローバル最大値に対してより大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、そして、
    前記2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、前記第1の音声出力信号の前記パンニング利得関数の前記1つ以上のグローバル最大値の少なくとも1つが、前記第2の音声出力信号の前記パンニング利得関数の前記1つ以上のグローバル最大値の何れとも異なること、
    を特徴とする請求項1に記載のシステム。
  3. 前記信号プロセッサ(105)は、窓利得関数に依存して、前記2つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成され、
    前記窓利得関数は、窓関数議論値を受信するとき、窓関数リターン値を戻すように構成され、
    仮に前記窓関数議論値が、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、前記窓利得関数は、何れの窓関数リターン値よりも大きい窓関数リターン値を戻すように構成され、仮に前記窓関数議論値が、前記下部の窓閾値より小さく、あるいは、前記上部の窓閾値より大きいならば、前記窓利得関数は、前記窓利得関数によって戻されるように構成されていること、
    を特徴とする請求項1又は請求項2に記載のシステム。
  4. 前記利得関数計算モジュール(104)は、測定パラメータをさらに受信するように構成され、前記パンニング利得関数と前記窓利得関数との少なくとも1つが、前記測定パラメータに依存すること、
    を特徴とする請求項1〜請求項3のいずれかに記載のシステム。
  5. 前記信号プロセッサ(105)は、距離情報を受信するように構成され、
    前記信号プロセッサ(105)は、前記距離情報に依存している前記2つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されていること、
    を特徴とする請求項1〜請求項4のいずれかに記載のシステム。
  6. 前記信号プロセッサ(105)は、前記2つ以上の音声入力信号の前記直進信号コンポーネントの前記到来方向であるオリジナルの到来方向に依存して、オリジナルの角度値を受信するように構成され、かつ、前記距離情報を受信するように構成され、
    前記信号プロセッサ(105)は、前記オリジナル角度値に依存し、かつ、前記距離情報に依存して、修正された角度値を計算するように構成され、そして、
    前記信号プロセッサ(105)は、前記修正された角度値に依存して、前記2つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されていること、
    を特徴とする請求項5に記載のシステム。
  7. 前記信号プロセッサ(105)は、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、到来方向の拡がりを実行することによって、または、非相関性を実行することによって、前記2つ以上の音声出力信号を生成するように構成されていること、
    を特徴とする請求項5または請求項6に記載のシステム。
  8. 前記信号プロセッサ(105)は、2つ以上の音声出力チャンネルを生成するように構成され、
    前記信号プロセッサ(105)は、中間的拡散信号を得るために、拡散利得を前記拡散コンポーネント信号に適用するように構成され、そして、
    前記信号プロセッサ(105)は、非相関性を実行することによって、前記中間的拡散信号から1つ以上の非相関性信号を生成するように構成され、
    前記1つ以上の非相関性信号は、前記1つ以上の処理された拡散信号を形成する、または、前記中間的拡散信号および前記1つ以上の非相関性信号は、前記1つ以上の処理された拡散信号を形成すること、
    を特徴とする請求項1〜請求項7のいずれかに記載のシステム。
  9. 前記直進コンポーネント信号および1つ以上の別の直進コンポーネント信号は、2つ以上の直進コンポーネント信号のグループを形成し、前記分解モジュール(101)は、前記2つ以上の音声入力信号の別の直進信号コンポーネントを含む前記1つ以上の別の直進コンポーネント信号を生成するように構成され、
    前記到来方向および1つ以上の別の到来方向は、2つ以上の到来方向のグループを形成し、前記2つ以上の到来方向の前記グループのそれぞれの到来方向は、前記2つ以上の直進コンポーネント信号の前記グループの正確に1つの直進コンポーネント信号に割り当てられ、前記2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と前記2つの到達方向の前記到来方向の数とが等しく、
    前記信号プロセッサ(105)は、前記2つ以上の直進コンポーネント信号の前記グループと前記2つ以上の到達方向の前記グループとを受信するように構成され、そして、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について
    前記信号プロセッサ(105)は、前記2つ以上の直進コンポーネント信号の前記グループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の前記到来方向に依存して、直進利得を決定するように構成され、
    前記信号プロセッサ(105)は、前記2つ以上の直進コンポーネント信号の前記グループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の前記直進利得を前記直進コンポーネント信号に適用することによって、2つ以上の処理された直進信号のグループを生成するように構成され、そして、
    前記信号プロセッサ(105)は、前記音声出力信号を生成するために、前記1つ以上の処理された拡散信号のうちの1つと、前記2つ以上の処理された信号の前記グループのそれぞれの処理された信号と、を結合するように構成されていること、
    を特徴とする請求項1〜請求項8のいずれかに記載のシステム。
  10. 前記2つ以上の直進コンポーネント信号の前記グループの前記直進コンポーネント信号の数プラス1は、前記システムの受信インタフェース(101)によって受信されている前記音声入力信号の数より小さいこと、を特徴とする請求項9に記載のシステム。
  11. 請求項1〜請求項10のいずれか1つに記載されたシステムを含むことを特徴とする補聴器または補助聞き取り装置。
  12. 2つ以上の音声出力信号を生成するための装置であって、
    信号プロセッサ(105)と、
    出力インタフェース(106)と、を備え、
    前記信号プロセッサ(105)は、2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信するように構成され、前記信号プロセッサ(105)は、前記2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信するように構成され、前記信号プロセッサ(105)は、方向情報を受信するように構成され、前記方向情報は、前記2つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存し、
    前記信号プロセッサ(105)は、前記拡散コンポーネント信号に依存して、1つ以上の処理された拡散信号を生成するように構成され、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記信号プロセッサ(105)は、前記到来方向に依存して直進利得を決定するように構成され、前記信号プロセッサ(105)は、処理された直進信号を得るために、前記直進利得を前記直進コンポーネント信号に適用するように構成され、そして、前記信号プロセッサ(105)は、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号のうちの1つとを結合するように構成され、そして、
    前記出力インタフェース(106)は、前記2つ以上の音声出力信号を出力するように構成され、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、
    前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数は、前記パンニング関数議論値のうちの1つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記1つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、
    前記信号プロセッサ(105)は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存し、かつ、窓利得関数に依存している前記2つ以上の音声出力信号のそれぞれのために、直進利得関数を計算するための利得関数計算モジュール(104)を備え、そして、
    前記信号プロセッサ(105)は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記配向情報に依存する、または、
    前記利得関数計算モジュール(104)は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記ズーム情報に依存すること、
    を特徴とする装置。
  13. 2つ以上の音声出力信号を生成するための方法であって、
    2つ以上の音声入力信号を受信し、
    前記2つ以上の音声入力信号の直進信号コンポーネントを含む直進コンポーネント信号を生成し、
    前記2つ以上の音声入力信号の拡散信号コンポーネントを含む拡散コンポーネント信号を生成し、
    前記2つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存している方向情報を受信し、
    前記拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記到来方向に依存して直進利得を決定し、処理された直進信号を得るために、前記直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号のうちの1つとを結合し、そして、
    前記2つ以上の音声出力信号を出力し、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数は、前記パンニング関数議論値のうちの1つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記1つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、そして、
    前記方法は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存し、かつ、窓利得関数に依存して、前記2つ以上の音声出力信号のそれぞれについて、直進利得関数を計算することをさらに含み、
    前記方法は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数との少なくとも1つは、前記配向情報に依存する、または、
    前記方法は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記ズーム情報に依存すること、
    を特徴とする方法。
  14. 2つ以上の音声出力信号を生成するための方法であって、
    2つ以上のオリジナル音声信号の直進信号コンポーネントを含む直進コンポーネント信号を受信し、
    前記2つ以上のオリジナル音声信号の拡散信号コンポーネントを含む拡散コンポーネント信号を受信し、
    方向情報を受信し、前記方向情報は前記2つ以上の音声入力信号の前記直進信号コンポーネントの到来方向に依存し、
    前記拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、前記到来方向に依存して直進利得を決定し、処理された直進信号を得るために、前記直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、前記処理された直進信号と前記1つ以上の処理された拡散信号のうちの1つとを結合し、そして、
    前記2つ以上の音声出力信号を出力し、
    前記2つ以上の音声出力信号のそれぞれの音声出力信号について、パンニング利得関数が前記音声出力信号に割り当てられ、
    前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数、前記パンニング関数議論値のうちの1つを受信するとき、前記パンニング利得関数は、前記パンニング関数議論値のうちの前記1つに割り当てられている前記パンニング関数リターン値を戻すように構成され、前記パンニング利得関数は、到来方向に依存する方向依存議論値を含み、そして、
    前記方法は、前記音声出力信号の直進利得を決定するために、前記音声出力信号に割り当てられている前記パンニング利得関数に依存し、かつ、窓利得関数に依存して、前記2つ以上の音声出力信号のそれぞれについて、直進利得関数を計算することをさらに含み、
    前記方法は、カメラの視方向の角度シフトを示している配向情報をさらに受信するように構成され、そして、前記パンニング利得関数と前記窓利得関数との少なくとも1つは、前記配向情報に依存する、または、
    前記方法は、ズーム情報をさらに受信するように構成され、そして、前記ズーム情報は前記カメラの開口角度を示し、そして、前記パンニング利得関数と前記窓利得関数のうちの少なくとも1つは、前記ズーム情報に依存すること、
    を特徴とする方法。
  15. コンピュータプログラムがコンピュータ上もしくは信号プロセッサ上で実行されると、前記コンピュータもしくは前記信号プロセッサが請求項13または請求項14の方法を実行する、コンピュータプログラム。
JP2016564300A 2014-05-05 2015-04-23 インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法 Active JP6466968B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14167053.9 2014-05-05
EP14167053 2014-05-05
EP14183855.7 2014-09-05
EP14183855.7A EP2942982A1 (en) 2014-05-05 2014-09-05 System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
PCT/EP2015/058859 WO2015169618A1 (en) 2014-05-05 2015-04-23 System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering

Publications (3)

Publication Number Publication Date
JP2017517947A JP2017517947A (ja) 2017-06-29
JP2017517947A5 JP2017517947A5 (ja) 2018-08-16
JP6466968B2 true JP6466968B2 (ja) 2019-02-06

Family

ID=51485417

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016564300A Active JP6466968B2 (ja) 2014-05-05 2015-04-23 インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法
JP2016564335A Active JP6466969B2 (ja) 2014-05-05 2015-04-23 適応性のある関数に基づく矛盾しない音響場面再生のためのシステムおよび装置および方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016564335A Active JP6466969B2 (ja) 2014-05-05 2015-04-23 適応性のある関数に基づく矛盾しない音響場面再生のためのシステムおよび装置および方法

Country Status (7)

Country Link
US (2) US10015613B2 (ja)
EP (4) EP2942981A1 (ja)
JP (2) JP6466968B2 (ja)
CN (2) CN106664501B (ja)
BR (2) BR112016025771B1 (ja)
RU (2) RU2663343C2 (ja)
WO (2) WO2015169618A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108604454B (zh) * 2016-03-16 2020-12-15 华为技术有限公司 音频信号处理装置和输入音频信号处理方法
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN110447238B (zh) * 2017-01-27 2021-12-03 舒尔获得控股公司 阵列麦克风模块及系统
US10219098B2 (en) * 2017-03-03 2019-02-26 GM Global Technology Operations LLC Location estimation of active speaker
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
CN109857360B (zh) * 2017-11-30 2022-06-17 长城汽车股份有限公司 车内音频设备音量控制系统及控制方法
GB2571949A (en) 2018-03-13 2019-09-18 Nokia Technologies Oy Temporal spatial audio parameter smoothing
US11854566B2 (en) 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
CN109313909B (zh) * 2018-08-22 2023-05-12 深圳市汇顶科技股份有限公司 评估麦克风阵列一致性的方法、设备、装置和系统
JP7208365B2 (ja) * 2018-09-18 2023-01-18 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 仮想3dオーディオを現実の室内に適応させる装置及び方法
CN117809663A (zh) * 2018-12-07 2024-04-02 弗劳恩霍夫应用研究促进协会 从包括至少两个声道的信号产生声场描述的装置、方法
CN113748462A (zh) 2019-03-01 2021-12-03 奇跃公司 确定用于语音处理引擎的输入
WO2020221431A1 (en) * 2019-04-30 2020-11-05 Huawei Technologies Co., Ltd. Device and method for rendering a binaural audio signal
CN113597777B (zh) 2019-05-15 2023-07-07 苹果公司 音频处理
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
WO2021086624A1 (en) * 2019-10-29 2021-05-06 Qsinx Management Llc Audio encoding with compressed ambience
EP4070284A4 (en) 2019-12-06 2023-05-24 Magic Leap, Inc. ENVIRONMENTAL ACOUSTIC PERSISTENCE
EP3849202B1 (en) * 2020-01-10 2023-02-08 Nokia Technologies Oy Audio and video processing
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
US11595775B2 (en) * 2021-04-06 2023-02-28 Meta Platforms Technologies, Llc Discrete binaural spatialization of sound sources on two audio channels
WO2023069946A1 (en) * 2021-10-22 2023-04-27 Magic Leap, Inc. Voice analysis driven audio parameter modifications
CN114268883A (zh) * 2021-11-29 2022-04-01 苏州君林智能科技有限公司 一种选择麦克风布放位置的方法与系统
WO2023118078A1 (en) 2021-12-20 2023-06-29 Dirac Research Ab Multi channel audio processing for upmixing/remixing/downmixing applications

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
KR100981699B1 (ko) 2002-07-12 2010-09-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
WO2007127757A2 (en) * 2006-04-28 2007-11-08 Cirrus Logic, Inc. Method and system for surround sound beam-forming using the overlapping portion of driver frequency ranges
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US8064624B2 (en) * 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
WO2011104146A1 (en) * 2010-02-24 2011-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2464146A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams

Also Published As

Publication number Publication date
CN106664485A (zh) 2017-05-10
RU2016146936A3 (ja) 2018-06-06
EP2942982A1 (en) 2015-11-11
EP2942981A1 (en) 2015-11-11
JP6466969B2 (ja) 2019-02-06
US20170078819A1 (en) 2017-03-16
RU2016147370A (ru) 2018-06-06
JP2017517947A (ja) 2017-06-29
EP3141001B1 (en) 2022-05-18
CN106664501B (zh) 2019-02-15
BR112016025771B1 (pt) 2022-08-23
BR112016025767B1 (pt) 2022-08-23
WO2015169617A1 (en) 2015-11-12
EP3141000B1 (en) 2020-06-17
RU2663343C2 (ru) 2018-08-03
RU2665280C2 (ru) 2018-08-28
BR112016025767A2 (ja) 2017-08-15
RU2016147370A3 (ja) 2018-06-06
US10015613B2 (en) 2018-07-03
BR112016025771A2 (ja) 2017-08-15
JP2017517948A (ja) 2017-06-29
WO2015169618A1 (en) 2015-11-12
US20170078818A1 (en) 2017-03-16
EP3141001A1 (en) 2017-03-15
CN106664485B (zh) 2019-12-13
CN106664501A (zh) 2017-05-10
RU2016146936A (ru) 2018-06-06
US9936323B2 (en) 2018-04-03
EP3141000A1 (en) 2017-03-15

Similar Documents

Publication Publication Date Title
JP6466968B2 (ja) インフォームド空間のフィルタリングに基づく矛盾しない音響場面再生のためのシステムおよび装置および方法
CN107925815B (zh) 空间音频处理装置
JP6703525B2 (ja) 音源を強調するための方法及び機器
JP2017517947A5 (ja)
JP2017517948A5 (ja)
WO2017064368A1 (en) Distributed audio capture and mixing
KR20130116271A (ko) 다중 마이크에 의한 3차원 사운드 포착 및 재생
US9807534B2 (en) Device and method for decorrelating loudspeaker signals
JP7378575B2 (ja) 空間変換領域における音場表現を処理するための装置、方法、またはコンピュータプログラム
US11632643B2 (en) Recording and rendering audio signals
JP2013110633A (ja) トランスオーラルシステム
Thiergart et al. An acoustical zoom based on informed spatial filtering
US10602297B2 (en) Processing audio signals
Beracoechea et al. On building immersive audio applications using robust adaptive beamforming and joint audio-video source localization

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180406

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20180705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190110

R150 Certificate of patent or registration of utility model

Ref document number: 6466968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250