JP6404354B2

JP6404354B2 - 多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム

Info

Publication number: JP6404354B2
Application number: JP2016541876A
Authority: JP
Inventors: マルティーンシュナイダー; ヴァルターケラーマン; アンドレーアスフランク
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2013-09-11
Filing date: 2014-09-01
Publication date: 2018-10-10
Anticipated expiration: 2034-09-01
Also published as: US9807534B2; JP2016534667A; WO2015036271A2; EP3044972B1; US20160198280A1; DE102013218176A1; EP3044972A2; WO2015036271A3

Description

本発明は、再生される音響シーンを変更することによって、複数の拡声器信号を非相関にする装置及び方法に関する。

３次元ヒアリング体験のために、オーディオ部分のリスナー又は映画の視聴者それぞれに、３次元音響再生を用いて、例えば、リスナー又は視聴者に再生される音響シーンの中に位置しているという印象を音響的に与えることによって、より現実的なヒアリング体験を与えることが意図され得る。心理音響効果もまたこのために利用され得る。波動場合成又は高次アンビソニックスの複数のアルゴリズムは、幾つかの又は多くの拡声器を用いるプレイバック又は再生空間の中で特定の音場を再生するために用いられ得る。ここで、複数の拡声器は、複数の拡声器が再生される音響シーンのほとんど如何なる位置でも配置される複数の音響音源に完全に又は部分的に対応する波動場を生成するように、駆動され得る。

波動場合成（ＷＦＳ）又は高次アンビソニックス（ＨＯＡ）は、仮想的な複数の音響音源オブジェクトを空間的に表現するために、多数の伝搬チャンネルを用いることによって、リスナーに対して高品質な空間ヒアリング印象を許容する。より夢中にさせるユーザー体験を達成するために、これらの再生システムは、例えば、双方向アプリケーションのような更なるアプリケーションを許容し、又は再生品質を改善するために、空間的な記録システムによって補足され得る。拡声器配列の結合、例えばプレイバック空間のような囲まれた空間又は体積、及びマイクロホン配列は、拡声器エンクロージャ・マイクロホン・システム（ＬＥＭＳ）として参照され、且つ複数の拡声器信号及び複数のマイクロホン信号を同時に観測することによって、たくさんのアプリケーションにおいて識別される。しかしながら、複数の拡声器信号の典型的に強固な相互関係が、例えば［ＢＭＳ９８］において記載されるように、十分なシステム識別を阻害し得ることは、ステレオの音響エコー・キャンセル（ＡＥＣ）から既に公知である。これは、ユニークでない問題として参照される。この場合において、システム識別の結果は、複数の拡声器信号の相関特性によって決定される不明確な幾つかの解決策のうちの単に１つである。この不完全なシステム識別の結果は、現在の複数の拡声器信号のために真実のＬＥＭＳの振る舞いを説明するにもかかわらず、複数の異なる適応フィルタリング・アプリケーション、例えばＡＥＣ又はリスニング・ルーム同等化（ＬＲＥ）のために、このように用いられ得る。しかしながら、この結果は、複数の拡声器信号の相互関係の特性が、それによって、これらの適応されるフィルタに基づいてシステムの振る舞いを引き起こし、不安定になるように変化する場合、もはや真実でないだろう。この頑健性のなさは、例えばＡＥＣ又は適応ＬＲＥのようなたくさんの技術の適用性に対して、重大な障害を構成する。

拡声器エンクロージャ・マイクロホン・システム（ＬＥＭＳ）の識別は、音響再生の場において、たくさんのアプリケーションのために必要であり得る。複数の拡声器と複数のマイクロホンの間の多数の伝搬経路を用いて、例えば、波動場合成（ＷＦＳ）を求め得るように、この問題はユニークでない問題に起因して、すなわち、過小決定された（ｕｎｄｅｒ−ｄｅｔｅｒｍｉｎｅｄ）システムに起因して、特に挑んでい得る。音響プレイバック又は再生シーンにおいて、再生システムが拡声器を備えるよりも少ない仮想的な音源が再生される場合、このユニークでない問題が起こり得る。このような場合において、システムは、もはやユニークに識別され得ない。また、システム識別を含む方法は、複数の拡声器信号の相関特性を変更するために、小さい又は低い頑健性又は安定性に苦しむ。システム又はＬＥＭＳがユニークに識別され得、及び／又は頑健性が特定の条件の下で増加するために、ユニークでない問題に対する現在の手段は、複数の拡声器信号を修正すること（すなわち、非相関）を必然的に伴う。しかしながら、既知であるほとんどの試みは、オーディオ品質を低下し得、且つ波動場合成において適用されるとき、合成される波動場において妨げさえし得る。

複数の拡声器信号を非相関にすることを目的として、３つの可能性が、システム識別、すなわち、現実のＬＥＭＳの識別又は推定の頑健性を増加させるために知られている。

[Ali98] ALI, M.: Stereophonic Acoustic Echo Cancellation System Using Time Varying All-Pass filtering for signal decorrelation. In: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) Bd. 6. Seattle, WA, May 1998, pp. 3689 - 3692 [BBK03] BUCHNER, H.; BENESTY, J.; KELLERMANN, W.: Multichannel Frequency Domain Adaptive Algorithms with Application to Acoustic Echo Cancellation. In: BENESTY, J. (Hrsg.); HUANG, Y. (Hrsg.): Adaptive Signal Processing: Application to Real-World Problems. Berlin: Springer, 2003 [BDV93] BERKHOUT, A.J.; DE VRIES, D.; VOGEL, P.: Acoustic control by wave field synthesis. In: J. Acoust. Soc. Am. 93 (1993), Mai, pp. 2764 - 2778 [BLA97] Blauert, Jens: Spatial Hearing: the Psychophysics of Human Sound Localization. MIT press, 1997 [BMS98] BENESTY, J.; MORGAN, D.R.; SoNDHI, M.M.: A better understanding and an improved solution to the specific problems of stereophonic acoustic echo cancellation. In: IEEE Trans. Speech Audio Process. 6 (1998), March, No. 2, pp. 156 - 165 [Dan03] DANIEL, J.: Spatial sound encoding including near field effect: Introducing distance coding filters and a variable, new ambisonic format. In: 23rd International Conference of the Audio Eng. Soc., 2003 [GE98] GANSLER, T.; ENEROTH, P.: Influence of audio coding on stereophonic acoustic echo cancellation. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP) vol. 6. Seattle, WA, May 1998, pp. 3649 - 3652 [GT98] GILLOIRE, A.; TURBIN, V.: Using auditory properties to improve the behaviour of stereophonic acoustic echo cancellers. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP) vol. 6. Seattle, WA, May 1998, pp. 3681 - 3684 [HBK07] HERRE, J.; BUCHNER, H.; KELLERMANN, W.: Acoustic Echo Cancellation for Surround Sound using Perceptually Motivated Convergence Enhancement. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP) vol. 1. Honolulu, Hawaii, April 2007, pp. I-17 - I-20 [MHBOl] MORGAN, D.R.; HALL, J.L.; BENESTY, J.: Investigation of several types of nonlinearities for use in stereo acoustic echo cancellation. In: IEEE Trans. Speech Audio Process. 9 (2001), September, No. 6, pp. 686 - 696 [SHK13] SCHNEIDER, M.; HUEMMER, C.; KELLERMANN, W.: Wave-Domain Loudspeaker Signal Decorrelation for System Identification in Multichannel Audio Reproduction Scenarios. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP). Vancouver, Canada, May 2013 [SMH95] SoNDHI, M.M.; MORGAN, D.R.; HALL, J.L.: Stereophonic acoustic echo cancellation - An overview of the fundamental problem. In: IEEE Signal Process. Lett. 2 (1995), August, No. 8, pp. 148 -151 [WWJ12] WUNG, J.; WADA, T. S.; JUANG, B. H.: Inter-channel decorrelation by sub-band resampling in frequency domain. In: International Workshop on Acoustic Signal Enhancement [IWAENC). Kyoto, Japan, March 2012, pp. 29 − 32 [Bla97] Blauert, Jens: Spatial Hearing: the Psychophysics of Human Sound Localization. MIT press, 1997]

［ＳＭＨ９５］，［ＧＴ９８］及び［ＧＥ９８］は、ノイズを加えることを提案し、それは、複数の拡声器信号に対して、異なる複数の拡声器信号の独立である。［ＭＨＢＯＩ］、［ＢＭＳ９８］は、再生チャンネルごとに異なる非線形の前処理を提案する。［Ａｌｉ９８］、［ＨＢＫ０７］において、異なる時変フィルタリングが、拡声器チャンネルそれぞれのために提案される。理想的な場合において言及される技術は、知覚される音品質を邪魔しないけれども、これらは一般に、ＷＦＳに対して十分に適切でない。ＷＦＳに対して複数の拡声器信号が分析的に決定されるので、時変フィルタリングが、再生される波動場において著しく妨げ得る。オーディオ再生の高品質を得ようと奮闘するとき、リスナーは、加えられる又は非線形に前処理する複数のノイズ信号を受け入れえ得ず、両方がオーディオ品質を低下し得る。［ＳＨＫ１３］において、ＷＦＳのための適切な試みが提案され、再生される波動場の時変ローテーションとして、複数の拡声器信号の変更が取得されるように、複数の拡声器信号が事前にフィルタ処理される。

それ故に、本発明の目的は、改善されたシステム識別を許容する複数の拡声器信号を生成する装置及び方法を提供することである。

この目的は、複数の独立請求項の要旨によって達成される。

本発明の中心的な思想は、非相関にされた複数の拡声器信号が仮想的な音源オブジェクトのポジション又はタイプのような仮想的な音源オブジェクトのメタ情報の時変的な修正によって生成され得るという事実によって、上記の目的が解決され得ることを認識されたことである。

一実施形態に従って、複数の拡声器信号を生成する装置は、仮想的な音源オブジェクトのメタ情報を時変的に修正するように構成されるモディファイア（ｍｏｄｉｆｉｅｒ）を備える。仮想的な音源オブジェクトは、メタ情報及び音源信号を備える。

メタ情報は、例えば、仮想的な音源オブジェクトのポジション又はタイプにような特性を決定する。メタ情報を修正することによって、仮想的な音源オブジェクトの、放出特性のようなポジション又はタイプが修正され得る。装置は、多くの拡声器信号を形成するために、仮想的な音源オブジェクト及び修正されたメタ情報を伝達するように構成されるレンダラーをさらに備える。メタ情報を時変的に修正することによって、複数の拡声器信号の非相関は、安定した、すなわち頑健なシステム識別が、改善されたシステム識別に基づいて、より頑健なＬＲＥ又はより頑健なＡＥＣを許容するために提案され得るように達成され得る。これは、ＬＲＥ及び／又はＡＥＣの頑健性が、システム識別の頑健性に依存するためである。より頑健なＬＲＥ又はＡＥＣは、同様にして、複数の拡声器信号の改善された再生品質のために利用され得る。

この実施形態の有利な点は、追加のフィルタリング又は複数のノイズ信号の追加による追加の非相関が施され得るように、非相関にされた複数の拡声器信号が、時変的に修正されたメタ情報に基づいてレンダラーを用いて生成され得るという事実である。

代替の実施形態は、仮想的な音源オブジェクトのポジション及びタイプを決定する音源信号及びメタ情報を備える仮想的な音源オブジェクトに基づいて、複数の拡声器信号を生成する方法を提供する。その方法は、メタ情報を時変的に修正する工程と、多くの拡声器信号を形成するために、仮想的な音源オブジェクト及び修正されたメタ情報を伝達する工程とを含む。

この実施形態の有利な点は、音響プレイバック・シーンの改善された再生品質が、相関された複数の拡声器信号を事後的に非相関にする工程と比較して達成され得るように、既に非相関にされた複数の拡声器信号が、メタ情報を修正する工程によって生成され得るという事実である。これは、複数の補足ノイズ信号の追加、又は非線形な演算を適用することが回避され得るためである。

さらに有利な複数の実施形態は、従属請求項の要旨である。本発明の好ましい実施形態は、後に以下の添付図面を参照して詳細に説明されるだろう。

仮想的な複数の音源オブジェクトに基づいて複数の非相関にされた拡声器信号を生成する装置を示す。複数の拡声器が配置されるプレイバック空間の概略的な平面図を示す。異なる仮想的な複数の音源オブジェクトのメタ情報を修正する概略的な外観を示す。実験的な試作品において、複数の拡声器及び複数のマイクロホンの概略的な配置を示す。複数の試作品の異なる振幅振動の４つの音源に対する４つのプロットにおいて、音響エコー・キャンセル（ＡＥＣ）のために達成可能なエコー反射損失増幅（ＥＲＬＥ）の結果を示す。振幅振動に対するシステム識別のための正規化システム距離を示す。時間が横座標で示され、且つ振幅振動の値が縦座標で与えられるプロットを示す。拡声器エンクロージャ・マイクロホン・システム（ＬＥＭＳ）を識別するための信号モデルを示す。図６ａに従ってシステムを推定し、且つ複数の拡声器信号を非相関にする方法の信号モデルを示す。図１及び２において記載されるような、拡声器非相関を用いるＭＩＭＯシステム識別の信号モデルを示す。

本発明の実施形態が、後に図面を参照して詳細に説明されるであろう前に、同一の要素、オブジェクト及び／若しくは構造、又はその同等の機能又は同等の効果が、異なる実施形態において与えられるこれらの要素の説明が相互に交換可能又は相互に適用可能であるように、異なる図面において同じ参照番号で提供されることが指摘される。

図１は、仮想的な複数の音源オブジェクト１２ａ，１２ｂ及び／又は１２ｃに基づいて、複数の非相関にされた拡声器信号を生成する装置１０を示す。仮想的な音源オブジェクトは、ノイズを放出する複数のオブジェクト、１人又は数人のような人体又は人、楽器、動物、植物、装置又は機械などの如何なるタイプでもあり得る。仮想的な複数の音源オブジェクト１２ａ−ｃは、１曲を実行する１人のオーケストラのような音響プレイバック・シーンの要素であり得る。オーケストラとともに、仮想的な音源オブジェクトは、例えば、１つの楽器又は複数の楽器の集合であり得る。仮想的な音源オブジェクト１２ａ−ｃの再生される１つのトーン若しくはノイズ、又は一連のトーン若しくはノイズのモノラル信号のような音源信号に加えて、メタ情報は、仮想的な音源オブジェクトにもまた関連付けられ得る。メタ情報は、例えば、再生システムによって再生される音響プレイバック・シーンの中で、仮想的な音源オブジェクトの位置を含む。模範的に、これは、再生されるオーケストラの中で、楽器それぞれの位置であり得る。代わりに又は加えて、メタ情報は、楽器の音源信号それぞれが演奏される方向に基づく情報のような、仮想的な音源オブジェクトそれぞれの指向性若しくは放出又は放射特性もまた含み得る。オーケストラの楽器が、例えばトランペットである場合、トランペットの音は、好ましくは特定の方向（鈴状のものが向けられる方向）に放出される。代わりに、楽器が例えばギターである場合、ギターは、トランペットと比較してより大きい放出角度で放出する。仮想的な音源オブジェクトのメタ情報は、再生されるプレイバック・シーンにおいて、放出特性及び放出特性の方向性を含み得る。メタ情報は、代わりに又は加えて、再生されるプレイバック・シーンにおいて、仮想的な音源オブジェクトの空間的な拡張もまた含み得る。メタ情報及び音源信号に基づいて、仮想的な音源オブジェクトは、空間において２又は３次元で記載される。

再生されるプレイバック・シーンは、例えば、映画のオーディオ部分、すなわち、映画の音効果でもあり得る。再生されるプレイバック・シーンは、例えば、仮想的な音源オブジェクトが、模範的に、プレイバック空間に位置し且つ方向に依存して話している人、又は再生されるプレイバック・シーンの空間において動き、一方で電車又は車のようなノイズを放出するオブジェクトであり得るような、部分的に又は完全に映画シーンとマッチし得る。

装置１０は、複数の拡声器１４ａ−ｅを駆動するために、複数の拡声器信号を生成するように構成される。複数の拡声器１４ａ−ｅは、プレイバック空間１６で又はにおいて配置され得る。プレイバック空間１６は、例えば、リスナー又は視聴者１７が位置するコンサートホール又は映画館であり得る。複数の拡声器１４ａ−ｅで、複数の拡声器信号を生成又は再生することによって、仮想的な複数の音源オブジェクト１２ａ−ｃに基づくプレイバック・シーンが、プレイバック空間１６において再生され得る。装置１０は、１つ又は幾つかの仮想的な音源オブジェクト１２ａ−ｃのメタ情報を時変的に修正するように構成されるモディファイア１８を含む。モディファイア１８は、幾つかの仮想的な音源オブジェクト１つ１つ、すなわち、仮想的な音源オブジェクト１２ａ−ｃそれぞれ、又は幾つかの仮想的な音源オブジェクトのメタ情報を修正するようにもまた構成される。モディファイア１８は、例えば、再生されるプレイバック・シーンにおける仮想的な音源オブジェクト１２ａ−ｃの位置、又は仮想的な音源オブジェクト１２ａ−ｃの放出特性を修正するように構成される。

言い換えると、複数の非相関フィルタを適用することは、複数の拡声器信号がプレイバック空間において結果として生じる複数の音響効果を考慮しないで非相関にされる場合、再生されるシーンにおいて制御不能な変化を引き起こし得るが、一方で装置１０は、常態の、すなわち、仮想的な複数の音源オブジェクトの制御される変化を許容する。１つ又は幾つかの仮想的な音源オブジェクト１２ａ−ｃの位置又は放出特性、すなわち、音源のタイプのようなメタ情報の修正によってレンダーされる、すなわち、再生される音響シーンの時変的な変更、これは、再生システムにアクセスすることによって、すなわち、モディファイア１８を配置することによって、許容され得る。修正によって引き起こす複数の効果が、例えば、引き起こす複数の効果が知覚されない又はリスナー１７によって乱されているとき知覚されない点において制限され得るように、仮想的な複数の音源オブジェクト１２ａ−ｃのメタ情報の修正、及びこのように再生される音響プレイバック・シーンが、本質的に、すなわち、システムの中で確認され得る。

装置１０は、仮想的な複数の音源オブジェクト１２ａ−ｃの音源信号と、多くの拡声器信号を形成するために修正されるメタ情報とを伝達するように構成されるレンダラー２２を含む。レンダラー２２は、複数の構成要素生成装置２３ａ−ｃと、複数の信号構成要素処理装置２４ａ−ｅを備える。レンダラー２２は、波動場が複数の拡声器１４ａ−ｅによって生成され得るように、且つ仮想的な音源オブジェクト１２ａ−ｃが再生される音響プレイバック・シーンの中のポジション２５で波動場によって表現され得るように、複数の構成要素生成装置２３ａ−ｃを用いて、複数の信号構成要素を形成するために、仮想的な音源オブジェクト１２ａ−ｃの音源信号と修正されたメタ情報とを伝達するように構成される。再生される音響プレイバック・シーンは、少なくとも部分的に、プレイバック空間１６の中又は外で配置され得る。複数の信号構成要素処理装置２４ａ−ｅは、複数の拡声器１４ａ−ｅを駆動するための複数の拡声器信号を形成するために、１つ又は幾つかの仮想的な音源オブジェクトの信号構成要素を処理するように構成される。例えば、１０，２０，３０，５０，３００又は５００以上の多くの拡声器は、再生されるプレイバック・シーン及び／又はプレイバック・シーン１６の寸法に例えば依存して、プレイバック・シーン１６で又はにおいて配置され又は適用され得る。言い換えると、レンダラーは、複数の拡声器信号を形成するために、１つ又は幾つかの仮想的な音源オブジェクトの入力信号を伝達するマルチ入力（仮想的な複数の音源オブジェクト）マルチ出力（複数の拡声器信号）（ＭＩＭＯ）システムに記載され得る。複数の構成要素生成装置及び／又は複数の信号構成要素処理装置は、代わりに、２つ又は幾つかの分離した構成要素においてもまた配置され得る。

代わりに又は加えて、レンダラー２２は、まるで、コンサートホールのような自由空間環境において又は環境の異なるタイプにおいてリプレイされるように、再生されるプレイバック・シーンがプレイバック空間１６においてリプレイされるように、予等化を実行し得る。すなわち、レンダラー２２は、予等化によってのように、完全に又は部分的にプレイバック空間１６によって引き起こされる複数の音響信号の歪曲を補償し得る。言い換えると、レンダラー２２は、表現されるために、仮想的な音源オブジェクト１２ａ−ｃに対する複数の拡声器信号を生み出すように構成される。

幾つかの仮想的な音源オブジェクト１２ａ−ｃが、複数の拡声器信号を形成するために伝達される場合、拡声器１４ａ−ｅは、幾つかの仮想的な音源オブジェクト１２ａ−ｃに基づく複数の駆動信号を特定の時間で再生し得る。

装置１０は、複数の拡声器１４ａ−ｅによって生成される複数の波動場がマイクロホン２６ａ−ｄによって捕えられ得るように、プレイバック空間１６で又はにおいて適用され得る複数のマイクロホン２６ａ−ｄを含む。装置１０のシステム計算機２８は、複数のマイクロホン２６ａ−ｄのマイクロホン信号及び複数の拡声器信号に基づくプレイバック空間１６の伝送特性を推定するように構成される。プレイバック空間１６の伝送特性、すなわち、どのようにプレイバック空間１６が複数の拡声器１４ａ−ｅによって生成される複数の波動場に影響を及ぼすかの特性は、例えば、置換空間１６の背景を変えるような備品の変化によって、又は置換空間１６の中の複数の人又は複数のオブジェクトの位置を変えることによって、置換空間１６に位置する人の数を変えることによって引き起こされ得る。複数の拡声器１４ａ−ｅと複数のマイクロホン２６ａ−ｄとの間の複数の反射経路は、例えば、プレイバック空間１６における人又はオブジェクトの数を増やすことによって、ブロック又は生成される。伝送特性の推定は、システム識別としてもまた表現され得る。複数の拡声器信号が相関される場合、ユニークでない問題がシステム識別において起こり得る。

レンダラー２２は、変更される伝送特性が補償され得、且つオーディオ品質における低下が回避され得るように、プレイバック空間１６の時変的な伝送特性に基づく時変的なレンダーリング・システムを実装するように構成され得る。言い換えると、レンダラー２２は、プレイバック空間１６の適応同等化を許容し得る。代わりに又は加えて、レンダラー２２は、例えば非相関フィルタを用いて複数の拡声器信号をフィルタリングすることによって、複数の拡声器信号に減衰を加えるために、及び／又は複数の拡声器信号を遅延させるために、複数のノイズ信号によって生成される複数の拡声器信号を重畳するように構成され得る。非相関フィルタは、例えば、複数の拡声器信号の時変的な位相シフトのために用いられ得る。例えば、仮想的な音源オブジェクト１２ａ−ｃにおけるメタ情報が、レンダラー２２によって生成される複数の拡声器信号がプレイバック・シーンに対して低下されるべき手段によって相関されるように、軽微な程度にのみモディファイア１８によって修正される場合、複数の拡声器信号の追加の非相関は、非相関フィルタ及び／又は複数のノイズ信号の追加によって達成され得る。

複数の拡声器信号の非相関及び、このように、システムの複数の不安定性を低下又は回避することは、モディファイア１８を用いて仮想的な音源オブジェクト１２ａ−ｃのメタ情報を修正することによって達成され得る。システム識別は、例えば、変更、すなわち、仮想的な複数の音源オブジェクト１２ａ−ｃの空間的な特性の修正を用いることによって、改善され得る。

複数の拡声器信号の変更と比較して、メタ情報の修正が特に行われ得、且つ再生されるプレイバック・シーンのリスナー１７が、修正を知覚しない又は乱されていることと同じく知覚しないように、例えば音響心理学的基準に依存してなされ得る。再生されるプレイバック・シーンにおいて仮想的な音源オブジェクト１２ａ−ｃの位置２５のシフトは、複数の非相関フィルタにおいてのような複数のノイズ信号を加えること又は複数の非線形フィルタ演算を適用することが回避され得るように、例えば、変更された複数の拡声器信号、及びこのように複数の拡声器信号の完全な又は部分的な非相関という結果になり得る。例えば、電車が再生されるプレイバック・シーンにおいて表現される場合、それは、電車それぞれが、例えば２００，５００又は１０００ｍのようなリスナー１７に対してより長い距離を伴う空間において、１，２又は５ｍにシフトされる場合、リスナー１７によって、例えば知覚されないままであり得る。

例えば［ＢＤＶ９３］において提案されるような、ＷＦＳのようなマルチチャンネル再生システム、例えば［Ｄａｎ０３］において提案されるような高次アンビソニックス（ＨＯＡ）、又は同様の方法は、複数の点音源の形状、複数の双極子音源、腎臓形の放出特性の複数の音源、又は平面波を放出する複数の音源において、仮想的な複数の音源オブジェクトを表現することによって複数の他の物の中で、幾つかの仮想的な音源又は音源オブジェクトを伴う波動場を再生し得る。これら複数の音源が、仮想的な複数の音源オブジェクトの定位置、又は変化しない放出若しくは複数の指向性の特性のような固定された空間的な複数の特性を示す場合、不変の音響プレイバック・シーンは、対応する相関マトリックスが図６において詳細に述べられ議論されるようにフルランク（ｆｕｌｌ−ｒａｎｋ）である場合、識別され得る。

装置１０は、仮想的な複数の音源オブジェクト１２ａ−ｃのメタ情報を修正することによって、及び／又はプレイバック空間１６の時変の伝送特性を考慮するために、複数の拡声器信号の非相関を生成するように構成される。

装置は、複数の拡声器信号を非相関にするために、ＷＦＳ、ＨＯＡ又は同様の再生モデルために再生される音響プレイバック・シーンの時変的な変更を表現する。このような非相関は、システム識別の問題が決定される最中である場合、役立ち得る。先行技術の解決策とは対照的に、装置１０は、ＷＦＳ又はＨＯＡ再生の高品質を達成するために、再生されるプレイバック・シーンの制御される変更を許容する。

図２は、複数の拡声器１４ａ−ｈが配置されるプレイバック空間１６の概略的な平面図を示す。装置１０は、１つ又は幾つかの仮想的な音源オブジェクト１２ａ及び／又は１２ｂに基づいて、複数の拡声器信号を生み出すように構成される。仮想的な複数の音源オブジェクト１２ａ及び／又は１２ｂのメタ情報の知覚可能な修正は、乱されているようなリスナーによって知覚され得る。例えば、仮想的な音源オブジェクト１２ａ及び／又は１２ｂの位置又はポジションが変更され過ぎる場合、リスナーは、例えば、オーケストラの楽器が空間において動く印象を持ち得る。代わりに、再生されるプレイバック・シーンが映画に属する場合、その結果は、仮想的な音源オブジェクトが、例えば、異なる速度で又は異なる方向に動くような一連のピクチャによって意味されるオブジェクトの光学的な速度と異なる音響的な速度で動く仮想的な音源オブジェクト１２ａ及び／又は１２ｂの音響印象であり得る。知覚可能な印象又は乱されているように知覚される印象は、特定の間隔又は許容誤差の中で、仮想的な音源オブジェクト１２ａ及び／又は１２ｂのメタ情報を変更することによって。減少又は防止され得る。

正中面における、すなわち、リスナー１７の水平面における空間的なヒアリングは、音響シーンを知覚するために重要であり得るが、一方で、矢状面における、すなわち、中心においてリスナー１７の人体を左と右に半分に分割する平面における空間的なヒアリングは、軽微な関連性であり得る。３次元シーンを再生するように構成される再生システムのために、プレイバック・シーンは、３次元においてさらに変更され得る。リスナー１７による複数の音響音源を局所化することは、正中面においてよりも矢状面において、より不明確であり得る。２次元の波動場から導出される複数の閾値が、３次元においてレンダーされるシーンの可能な変更に対して非常に保守的でより小さい閾値であるので、２次元（水平面）のためにまた３次元のためにも、後に定義される複数の閾値を保持又は拡張するために考えられる。次の議論は、たくさんの再生システムのための最適化の基準である、正中面における２次元プレイバック・シーンにおいての複数の知覚効果を強調するが、３次元システムにもまた適用して議論される。

原則として、複数の波動場の異なるタイプは、例えば、複数の点音源の波動場、複数の平面波、又は複数の双極子のような一般的な複数のマルチ極音源の波動場のように再生され得る。２次元において、すなわち、２次元のみ考慮するとき、点音源又はマルチ極の知覚されるポジションは、方向及び距離によって記載され得るが、一方で、複数の平面波は、１つの入射方向によって記載され得る。リスナー１７は、２つの空間的なトリガー刺激、すなわち、複数の両耳間レベル差（ＩＬＤｓ）及び複数の両耳時間差（ＩＴＤｓ）によって、音源の方向を局所化し得る。仮想的な音源オブジェクトそれぞれのメタ情報の修正は、リスナー１７に対するＩＬＤｓそれぞれにおける変化及び／又はＩＴＤｓそれぞれにおける変化という結果になり得る。

音源の距離は、［Ｂｌａ９７］において記載されるように、絶対的なモノラル・レベルによって既に知覚され得る。言い換えると、距離は、音の大きさの変化による音の大きさ及び／又は距離の変化によって知覚され得る。

両耳間レベル差は、リスナー１７の両耳の間のレベル差を記載する。音源に面する耳は、音源から離れた側に面する耳よりもより高い音圧にさらされ得る。リスナー１７が頭を回転させて、両耳まで同じ音圧レベル及び両耳間レベル差にさらされ、且つ両耳間レベル差が僅かに小さい場合、リスナーは音源に面し得、又は代わりに、音源に背を向けて位置し得る。仮想的な音源オブジェクト１２ａ又は１２ｂのメタ情報の修正は、例えば、仮想的な音源オブジェクトは、異なる位置で表現され又は変化する指向性を備えるように、リスナー１７の両耳で音圧レベルそれぞれにおける異なる変化という結果になり得、且つこのように、両耳間レベル差における変化において、前記変更がリスナー１７に対して知覚可能であり得る。

両耳間レベル差は、音源によって放出される波動場がより長い距離で配置される耳に達するために、より長い時間を必要とするように、音源とより短い距離又はより長い距離で配置されるリスナー１７の耳との間で異なる実行時間から結果として生じ得る。仮想的な音源オブジェクト１２ａ又は１２ｂのメタ情報の修正は、例えば、仮想的な音源オブジェクトが異なる位置であるために表現されるように、仮想的な音源オブジェクトとリスナー１７の２つの耳との間の距離の異なる変更、且つこのように両耳間レベル差の変更という結果になり得、この変更は、リスナー１７に対して知覚可能であり得る。

ＩＬＤの知覚不可能な変更又は乱すことのない変更は、０．６ｄＢと２ｄＢの間であり得、再生されるシナリオに依存する。０．６ｄＢのＩＬＤの変化は、約６．６％のＩＬＤの減少又は約７．２％の増加に対応する。１ｄＢのＩＬＤの変化は、約１２％のＩＬＤにおける増加率又は１１％の減少率に対応する。２ｄＢのＩＬＤにおける増加は、約２６％のＩＬＤにおける増加率に対応し、一方で２ｄＢの減少は、２１％の減少率に対応する。ＩＴＤのための知覚の閾値は、音響プレイバック・シーンのシナリオそれぞれに依存し得、且つ例えば、１０，２０，３０又は４０μｓであり得る。僅かにのみ、すなわち、僅かに０．１ｄＢ変更されるＩＬＤｓの範囲において、仮想的な音源オブジェクト１２ａ又は１２ｂのメタ情報を修正する場合、ＩＴＤｓにおける変化は、ことによると、ＩＬＤの変更と比較して、リスナー１７によってより早く知覚され得、又は乱されているように知覚され得る。

メタ情報の修正は、リスナー１７に対する音源の距離が僅かにシフトする場合、僅かにのみＩＬＤｓに影響を及ぼし得る。ＩＴＤｓは、より早い知覚可能性及び位置的な変化を伴う線形変化に起因して、再生されるプレイバック・シーンの不可聴な又は乱すことのない変更に対する制限をより強固に表現する。例えば、３０μｓのＩＴＤｓが許容される場合、これは、前方、すなわち、視覚３２の方向又はリスナー１７の前方領域３４ａ，３４ｂに配置される複数の音源に対して最大α₁＝３°の音源とリスナー１７との間の音源距離の最大変更、及び／又は側方向に、すなわち、側面で配置される複数の音源に対して最大α₂＝１０°の変更という結果になり得る。側方向に配置される音源は、前方領域３４ａと３４ｂの間に延在する側方領域３６ａと３６ｂのうちの１つに位置し得る。前方領域３４ａと３４ｂは、例えば、リスナー１７の前方領域３４ａが、視覚３２のラインに関して±４５°の角度で、且つ前方領域３４ｂがリスナーの後ろに配置され得るように、視覚のラインと反対の±４５°で前方領域３４ｂであるように定義され得る。代わりに又は加えて、前方領域３４ａ及び３４ｂは、より小さい又はより大きい角度もまた含み得、又は前方領域３４ａが例えば前方領域３４ｂよりもより大きい角度領域を含むように、相互に異なる角度領域を含み得る。主に、前方領域３４ａと３４ｂ及び／又は側方領域３６ａ及び３６ｂは、互いに独立して、隣接して又は互いから分離して配置され得る。視覚３２の方向は、例えば、リスナー１４が座る椅子若しくは肘掛け椅子によって、又はリスナー１７がスクリーンを見る方向によって影響を及ぼされ得る。

言い換えると、装置１０は、仮想的な音源オブジェクト１２ａのような前方に配置される複数の音源がこれらの方向に最大α₁＝３°、及び仮想的な音源オブジェクト１２ｂのような最大α₂＝１０°側方向に配置される音源に関して修正されるために、リスナー１７の視覚３２の方向を考慮して構成され得る。［ＳＨＫ１３］において提案されるようなシステムと比較して、装置１０は、音源オブジェクトが仮想的な複数の音源オブジェクト１２ａ，１２ｂと個々に関してシフトされることを可能とし得、一方で［ＳＨＫ１３］において全体として再生されるプレイバック・シーンにのみローテーションされ得る。言い換えると、例えば［ＳＨＫ１３］において記載されるようなシステムは、レンダーされるシーンについての情報を有しないが、しかし、生成される複数の拡声器信号についての情報を考慮する。装置１０は、装置１０に対して、既知のレンダーされるシーンを変更する。

３°又は１０°の音源方向を変更することによって再生されるプレイバック・シーンの変更が、リスナー１７に対して知覚され得ない場合、乱されているように知覚され得ない再生されるプレイバック・シーンの知覚可能な変化を受け入れることもまた考えられる。最大４０μｓ又は４５μｓのＩＴＤの変化が、例えば、許容され得る。さらに、最大２３°の音響シーン全体のローテーションが、例えば、たくさんの又はほとんどのリスナー［ＳＨＫ１３］によって乱されているように知覚され得ない。この閾値は、音響プリバック・シーンが最大２８°，３０°又は３２°シフトされ得るために、複数の音源が知覚される個々の複数の音源又は複数の方向の独立した修正によって、僅かにある程度だけ増加し得る。

仮想的な音源オブジェクトのような音響音源の距離３８は、ことによると、不明確にのみリスナーによって知覚され得る。複数の実験は、最大２５％の距離３８の変化が、通常、複数のリスナーによって知覚されない、又は乱されているように知覚されないことを示し、それは、例えば［Ｂｌａ９７］において記載されるように、音源距離のむしろ激しい変化を許容する。

再生されるプレイバック・シーンにおける複数の変更の間の期間又は時間間隔は、高いオーディオ品質を確保するために、約５秒、１０秒又は１５秒のような個々の変更の間の不変な又は可変な時間間隔を示し得る。高いオーディオ品質は、複数のシーン変更又は１つ若しくは幾つかの仮想的な音源オブジェクトのメタ情報の変更の間の例えば約１０秒の間隔が複数の拡声器信号の十分に高い非相関を許容するという事実、及び複数の変更又は複数の修正の希少さが知覚可能でない又は乱さないプレイバック・シーンの変更に貢献するという事実によって、例えば、達成され得る。

一般的な多重極音源の複数の放出特性の変化又は修正は、影響を及ぼされていないＩＴＤｓを残し得、一方でＩＬＤｓは影響を及ぼされ得る。これは、リスナー１７によって気付かれないまま、又はＩＬＤｓがリスナーの位置で閾値（０．６ｄＢ〜２ｄＢ）それぞれより小さい又は等しい限り、乱されるように知覚されない複数の放出特性の如何なる修正も許容し得る。

同じ複数の閾値は、レベルにおけるモノラル変化に対して、すなわち、リスナー１７の耳に関して決定され得る。

装置１０は、同じ又は同様の音源信号を放出する追加の結像された仮想的なオブジェクト１２´ａによって、元の仮想的な音源オブジェクト１２ａを重畳するように構成される。言い換えると、モディファイア１８は、仮想的な音源オブジェクト（１２ａ）の画像を生み出すように構成される。結像された仮想的な音源１２´ａは、仮想的な音源オブジェクト１２ａが元々配置される仮想的なポジションＰ₁で無造作に配置され得る。仮想的なポジションＰ₁は、リスナー１７に対して距離３８を有する。言い換えると、追加の結像された仮想的な音源１２´ａは、結像された仮想的な音源１２´ａが仮想的な音源オブジェクト１２であるために、モディファイア１８によって生み出される仮想的な音源オブジェクト１２ａの結像されたバージョンであり得る。言い換えると、仮想的な音源オブジェクト１２ａは、結像された仮想的な音源オブジェクト１２´ａを形成するために、モディファイア１８によって結像され得る。仮想的な音源オブジェクト１２ａは、メタ情報の修正によって、例えば、結像された仮想的な音源オブジェクト１２´ａに対する距離４２及びリスナー１７に対する距離３８´を伴う仮想的なポジションＰ₂へと動かされ得る。代わりに又は加えて、画像１２´ａのメタ情報を修正するためのモディファイア１８が考えられる。

領域４３は、リスナー１７に対して少なくとも距離３８の距離を備える結像された仮想的な音源オブジェクト１２´ａの周りに、距離４１を伴う円のサブエリアとして表現され得る。修正される音源オブジェクト１２ａが領域４３の中に配置されるために、結像された仮想的な音源オブジェクト１２ａとの間の距離３８´が、結像された仮想的な音源１２´ａとの間の距離３８よりも長い場合、仮想的な音源オブジェクト１２ａは、結像された仮想的な音源オブジェクト１２´ａ及び仮想的な音源オブジェクト１２を、分離した複数の音響オブジェクトとして知覚することなしに、結像された仮想的な音源オブジェクト１２´ａの周りで領域４３において動かされ得る。領域４３は、結像された仮想的な音源オブジェクト１２´ａの周りで最大５，１０又は１５ｍに達し得、且つ距離３８に対応する半径Ｒ₁の円によって制限され得る。

代わりに又は加えて、装置１０は、［Ｂｌａ９７］において記載されるようなＨａａｓ効果としても既知である先行音効果を用いるように構成され得る。Ｈａａｓによって用いられる観測に従って、音源の、直接の（模範的に反射しない）部分の後、最大５０ｍｓでリスナー１７に到着する音源の音響反射が、元の音源の空間的な知覚にほとんど完全に含まれ得る。これは、２つの相互に分離された音響源が１つとして知覚され得ることを意味する。

図３は、複数の非相関にされた拡声器信号を生成するために、装置３０において異なる仮想的な複数の音源オブジェクト１２１−１２５のメタ情報の修正の模式的な外観を示す。図３及び説明それぞれは、明確な表現のために２次元であるが、全ての実施例は３次元にもまた有効である。

仮想的な音源オブジェクト１２１は、点音源のような空間的に制限された音源である。仮想的な音源オブジェクト１２１のメタ情報は、例えば、仮想的な音源オブジェクト１２１が幾つかの間隔ステップを覆う円形の経路で動かされるように、修正され得る。

仮想的な音源オブジェクト１２２は、点音源のような空間的に制限された音源でもある。仮想的な音源オブジェクト１２２のメタ情報の変更は、例えば、点音源が幾つかの間隔ステップを不規則に覆う制限された領域又は体積において動かされるように、行われ得る。仮想的な複数の音源オブジェクト１２１及び１２２の波動場は、仮想的な音源オブジェクト１２１又は１２２それぞれのポジションが修正されるために、メタ情報を修正することによって、一般的に修正され得る。原則として、これは、双極子又は腎臓形の放出特性の音源のような制限された空間的な拡張の如何なる仮想的な音源オブジェクトに対して可能である。

仮想的な音源オブジェクト１２３は、平面音源を表現し、且つ活気立った平面波に関して変化され得る。仮想的な音源オブジェクト１２３の放出角度及び／又はリスナー１７への入射角は、メタ情報を修正することによって影響を及ぼされ得る。

仮想的な音源オブジェクト１２４は、複数の円形ラインによって示されるように、方向に依存する放出特性の双極子音源のような制限された空間の拡張の仮想的な音源オブジェクトである。方向に依存する放出特性は、仮想的な音源オブジェクト１２４のメタ情報を変更又は修正するためにローテーションされ得る。

例えば、腎臓形の放出特性の仮想的な音源オブジェクト１２５のような、方向に依存する仮想的な複数の音源オブジェクトのために、メタ情報は、放出パターンが時点それぞれに依存して修正されるように、修正され得る。仮想的な音源オブジェクト１２５に対して、これは、腎臓形の放出特性（実線）からハイパー腎臓形の指向特性（破線）への変更によって模範的に表現される。全方向性の仮想的な複数の音源オブジェクト、又は複数の音源に対して、追加の、時変の、方向に依存する指向特性が、追加又は生成され得る。

平面波の入射角を変更し、放出特性を変更し、放出特性をローテーションし、又は方向に依存する指向特性を全方向に放出する音源オブジェクトに加える、点音源又は制限された空間的な拡張の音源のような、仮想的な音源オブジェクトのポジションを変更するような異なる方法は、互いに結合され得る。ここで、音源オブジェクトそれぞれに対して修正されるために、選択され又は決定される複数のパラメータは、光学的であり、且つ相互に異なり得る。加えて、空間的な特性の変更のタイプ及び変更の速度は、再生されるプレイバック・シーンの変更がリスナーによって気付かれないままか、又はその知覚に関してリスナーのために受け入れ可能であるかのどちらかのように、選択され得る。加えて、時間的な個々の周波数領域に対する空間的な特性は、異なって変化され得る。

続いて、図４を参照して、一方で図５ｃ及び６ｃもまた参照して、本発明の発見の検証のために、多くの潜在的なステップの１つが記載される。図５ｃは、時間に亘る仮想的な音源オブジェクトの振動振幅の模範的な経過を示す。図６ｃにおいて、音響プレイバック・シーンを変更又は修正することによって非相関にされた複数の拡声器信号を生成することの信号モデルが議論される。これは、複数の効果を例示するための試作品である。試作品は、複数の拡声器及び／又は用いられる複数のマイクロホン、次元及び／又は複数の要素間の距離に関して実験的なステップである。

図４は、実験的な試作品における複数の拡声器および複数のマイクロホンの概略的な配置を示す。模範的な数Ｎ_L＝４８の拡声器が、拡声器システム１４Ｓにおいて配置される。複数の拡声器は、結果が２π／４８＝７．５°の模範的な角距離であるために、例えば１．５ｍの半径の円形ラインに等距離で配置される。模範的な数Ｎ_M＝１０のマイクロホンが、複数のマイクロホンが互いに３６°の角度で示し得るために、例えば０．０５ｍの半径Ｒ_Mの円形ラインにマイクロホン・システム２６Ｓにおいて等距離で配置される。テスト目的のために、ステップは、約０．３秒の反射時間Ｔ₆₀を伴う空間（ＬＥＭＳのエンクロージャ）において配置される。複数のインパルス応答は、４４．１ｋＨｚの単純な周波数で測定され得、１１０２５Ｈｚの単純な範囲にコンバートされ得、且つＡＥＣのための複数の適応フィルタの長さに対応する測定点の長さ１０２４にカットし得る。ＬＥＭＳは、ＬＥＭＳの中でマイクロホン信号（近端ノイズ）又はローカルな複数の音源でノイズなしで得られた複数のインパルス応答を畳み込ませることによって、シュミレーションされる。これらの理想的な実験室の条件は、適応アルゴリズムの合致で提供される方法の影響を他の複数の影響から分離するために選択される。例えば、モデル化された近端ノイズを含む更なる複数の実験が、等価な結果という結果になり得る。

信号モデルが図６ｃにおいて議論される。ここで、非相関にされた複数の拡声器信号ｘ´（ｋ）は、ＬＥＭＳＨへと入力され、そのとき、非相関にされた複数の拡声器信号ｘ´（ｋ）の観測に基づく伝達関数Ｈ_est（ｎ）及び結果として生じる複数のマイクロホン信号ｄ（ｋ）によって識別され得る。複数のエラー信号ｅ（ｋ）が、残留エコーのようなエンクロージャで、複数の拡声器信号の反射を捕らえ得る。ＡＥＣのために、［ＳＨＫ１３］，［ＢＢＫ０３］において提案されるような、指数関数の忘却因子λ＝０．９５、ステップ寸法μ＝０．５（０≦μ≧１で）及びＬ_F＝５１２のフレーム・シフトを伴う周波数領域において生成される適応フィルタ・アルゴリズムが適用され得る。

取得されるシステム識別の測定は、正規化された不整合（ＮＭＡ）と称され、且つ次の計算規則によって計算され得る。

ｎとｋの間の関係は、ｎ＝ｆｌｏｏｒ（ｋ／Ｌ_F）によって示され得る。ｆｌｏｏｒ（・）は、“ｆｌｏｏｒ”演算子又はガウス・ブラケット（Ｇａｕｓｓｉａｎｂｒａｃｋｅｔ）であり、すなわち、商が四捨五入される。加えて、取得されるエコー・キャンセルが考慮され得、それは、［ＳＨＫ１３］に対する改善された比較可能性を達成するために、例えばエコー反射損失増幅（ＥＲＬＥ）を用いて記載され得る。

ＥＲＬＥは次のように定義される。

第１の実験において、複数の拡声器信号が、例えば［ＢＤＶ９３］において、α_qによって変化する入射角で、同じ時間に、４つの平面波を合成するために提案されるような波動場合成理論に従って、決定される。α_qは、複数の音源ｑ＝１，２，．．．，Ｎ_s＝４に対して、０，π／２，π及び３π／２によって与えられる。結果として生じる時変的な入射角は、次のように記載され得る。

模範的に図５ｃにおいて例示されるように、φ_aは入射角の振動の振幅であり、且つＬ_pは入射角の振動の持続期間（ｐｅｒｉｏｄｄｕｒａｔｉｏｎ）である。全４８個の拡声器が等しい平均パワーで演算され得るために、ホワイト・ノイズの相互に非相関な複数の信号は、複数の音源信号に対して用いられる。

駆動する複数の拡声器に対する複数のノイズ信号が実際にはほとんど関連がない得るが、このシナリオはφ_aの影響の明確且つ簡潔な推定を許容する。例えば、模範的に４つの独立した信号音源（Ｎ_s＝４）及び４８個の拡声器（Ｎ_L＝４８）のみが配置又は用いられるという事実を考えて、高い正規化された不整合（ＮＭＡ）が予想されるべきであるように、オブジェクト及びシステム識別の等価システムが強固に過小決定される。

試作品は、先行技術よりも優れたＮＭＡの結果を取得し得、且つこのようにＷＦＳ又はＨＯＡの改善された音響再生という結果になり得る。

実験の結果は、次のように図５においてグラフで例示される。

図５ａは、試作品の４つの音源に対するＥＲＬＥを示す。このように、次が適用される：プロット１：φ_a＝π／４８、プロット２：φ_a＝４π／４８、プロット３：φ_a＝８π／４８、及びプロット４：φ_a＝０。プロット４及び、このように、φ_a＝０に対して、最大約５８ｄＢのＥＲＬＥが達成され得る。

図５ｂは、プロット１〜４において、φ_aに対して同一の値で達成される正規化された不整合を示す。不整合は、最大約−１６ｄＢの値に達し得、［ＳＨＫ１３］において達成される−６ｄＢの値と比較して、ＬＥＭＳのシステム記載における著しい改善という結果になり得る。

図５ｃは、持続期間Ｌ_Pが読み出され得るために、時間が横座標、且つ縦座標で振幅振動φ_aの値が与えられるプロットを示す。

正規化された不整合に関して最大１０ｄＢの［ＳＨＫ１３］と比較される改善は、少なくとも部分的に、［ＳＨＫ１３］において提案されるような試みが、空間的に帯域制限された複数の拡声器信号を用いて演算するという事実によって、説明され得る。自然な音響シーンの空間帯域幅は、（限定的に）提供される複数の拡声器信号及び複数の拡声器のシーンが、完全に、すなわち、如何なる偏差もなしに再生され得ないために、一般に大き過ぎる。人工的な、すなわち、制御される例えばＨＯＡにおいてのような帯域制限を用いて、空間的に帯域制限されたシーンが達成され得る。例えば、ＷＦＳにおいてのような代替方法において、発生する複数のエイリアシング効果は、帯域制限されたシーンを取得するために受け入れ可能であり得る。図１及び２において提案されるような装置は、空間的に制限されない又はほとんど帯域制限されない仮想的なプレイバック・シーンを用いて演算し得る。［ＳＨＫ１３］において、複数の拡声器信号において既に生成され又は導入されたＷＦＳの複数のエイリアシング効果は、仮想的な複数の音源オブジェクトの間の複数のエイリアシング効果が持続し得るために、再生されるプレイバック・シーンと単にローテーションされる。図５及び６において、複数の拡声器信号において個々のＷＦＳのエイリアシング関係の部分は、個々の複数の音源オブジェクトのメタ情報を個々に修正することによって、仮想的なプレイバック・シーンのローテーションとともに変化し得る。これは、より強固な非相関という結果になり得る。図５ａ−ｃは、システム識別が図５ｂのプロット３において示されるように、音響シーンの仮想的な音源オブジェクトのより大きいローテーション振幅φ_aに改善され得ることを示す。ＮＭＡの減少は、図５ａにおいてプロット１−３がプロット４（非ローテーション振幅）と比較して示すように、減少されるエコー・キャンセルの労力で達成され得る。しかしながら、非相関にされた複数の拡声器信号（φ_a＞０）に対するエコー・キャンセルは、時間を改善されるが、一方でシステム識別は、変更のない複数の拡声器信号（φ_a＝０）に対してなされない。

システム識別の異なるタイプは、図６ａ−ｃにおいて以下に記載されるだろう。図６ａは、ユニークでない問題が発生し得るマルチ入力マルチ出力（ＭＩＭＯ）システムのシステム識別の信号モデルを記載する。図６ｂは、先行技術に従って、拡声器信号の非相関を伴うＭＩＭＯシステム識別の信号モデルを記載する。図６ｃは、例えば、図１又は図２の装置を用いて達成され得るような、複数の拡声器信号の非相関を伴うＭＩＭＯシステム識別の信号モデルを示す。

図６ａにおいて、ＬＥＮＳＨは、Ｈ_est（ｎ）によって決定又は推定される。Ｈ_est（ｎ）は、複数の拡声器信号ｘ（ｋ）及び複数のマイクロホン信号ｄ（ｋ）を観測することによって、決定又は推定される。Ｈ_est（ｎ）は、例えば、方程式の過小決定されたシステムの潜在的な解決策であり得る。複数の拡声器信号を捕らえる複数のベクトルは、次のように定義される。

Ｌ_xは、瞬間ｋで拡声器信号ｌの複数のサンプルｘ_l（ｋ）を捕らえる個々の複数の構成要素ベクトルｘ_l（ｋ）の長さを記載する。捕えられる複数のマイクロホン信号Ｌ_Dを記載する複数のベクトルは、次のようにチャンネルそれぞれに対して特定の瞬間で記録されるためにもまた定義され得る。

ＬＥＭＳは、線形なＭＩＭＯフィルタリングによって、このように記載され得、次のように表わされ得る。

複数のマイクロホン信号の個々の記録は、次式によって取得され得る。

複数のインパルス応答ｇ_l,q（ｋ）は、模範的に複数のＬ_Rサンプルの長さを備え、且つ別々の時間領域においてＲ（ｌ，ｑ，ω）を表現する。

ＬＥＭＳは、システム推定Ｈ_est（ｎ）のエラーｅ（ｋ）が次式によって決定され得るように識別され得る。

且つ、例えばユークリッド又は幾何学的な基準のような対応する基準に関して最小化される。ユークリッド基準を選択する場合、その結果は、既知のウィーナー・ホップ方程式であり得る。複数のシステム応答に対して複数の有限インパルス応答（ＦＩＲ）フィルタのみ考慮する場合、ウィーナー・ホップ方程式は、次のようなマトリックス表記法において記述又は表現され得る。

と、

Ｒ_xdは、模範的に、拡声器と複数のマイクロホン信号の相関マトリックスである。Ｈ_est（ｎ）は、複数の拡声器信号の相関マトリックスＲ_xxがフルランクである場合、ユニークでのみあり得る。Ｒ_xxに対して、次のローテーションが取得され得る。

Ｒ_SSは、模範的に、次式に従う複数の音源信号の相関マトリックスである。

その結果は、Ｒ_SSが次元Ｎ_S（Ｌ_X＋Ｌ_R−１）ｘＮ_S（Ｌ_X＋Ｌ_R−１)を備えるように、Ｌ_S＝Ｌ_X＋Ｌ_R−１であり得、一方でＲ_xxは、次元Ｎ_LＬ_XｘＮ_LＬ_Xを備える。フルランクであるためにＲ_xxに対して必要な条件は、次の通りである。

仮想的な複数の音源は、少なくとも非相関にされた複数の信号を運び、且つ異なるポジションに位置する。

拡声器の数Ｎ_Lが仮想的な音源の数Ｎ_Sを超える場合、ユニークでない問題が生じ得る。複数のインパルス応答長さＮ_X及びＮ_Rの影響は、次の議論において無視されるだろう。

ユニークでない問題は、他のものの中で、仮想的な複数の音源の少ない数によって生じ得る複数の拡声器信号の強固な相互関係から、少なくとも部分的に結果として生じ得る。ユニークでない問題の発生は、より高い確実性であり、よりたくさんのチャンネルが、例えば、仮想的な複数の音源オブジェクトの数がＬＥＭＳにおいて用いられる拡声器の数よりも少ない場合、再生システムのために用いられる。先行技術のその場しのぎの解決策は、Ｒ_xxのランクが増加し又はＲ_xxの条件数が改善されるように、複数の拡声器信号を変更することを目的とする。

図６ｃは、図１及び２において記載されたような、拡声器非相関を伴うＭＩＭＯシステム識別の信号モデルを示す。ユニークなシステム識別のために必要な前提条件は、次式によって与えられる。

この条件は、仮想的な複数の音源オブジェクトの物理的な次元又は放出特性のような、実際の空間的な特性に関わりなく適用される。ここで、仮想的な複数の音源オブジェクトそれぞれは、プレイバック空間それぞれにおいて相互に異なるポジションで位置付けられる。しかしながら、仮想的な複数の音源オブジェクトの異なる複数の空間的な特性は、Ｇにおいて表現され得る異なる複数のインパルス応答を必要とし得る。次式に従う。

Ｇは、複数の拡声器信号ｘ（ｋ）の相関特性を決定し、Ｒ_xxによって記載される。ユニークでないことに起因して、そこでは、仮想的な複数の音源オブジェクトの空間的な特性に依存する、

に従って、Ｈ_est（ｎ）に対する解決策の異なるセットであり得る。この解決策のセットからの全ての解決策が完全な識別Ｈ_est（ｎ）＝Ｈを含むので、Ｒ_xxに関わりなく、変化するＲ_xxは、［ＳＨＫ１３］において記載されるように、システム識別に対して平均であり得る。

仮想的な複数の音源オブジェクトの空間的な特性の変更は、システム識別を改善するために利用され得る。これは、Ｇ´（ｋ）によって表現可能な時変なレンダーリング・システムを実装することによってなされ得る。時変なレンダーリング・システムＧ´（ｋ）は、仮想的な複数の音源オブジェクトのメタ情報、及び、このように仮想的な複数の音源オブジェクトの空間的な特性を修正するために、例えば図１において議論されたようなモディファイア１８を含む。レンダーリング・システムは、複数の点音源、複数の双極子音源、複数の平面音源、又は腎臓形の放出特性の複数の音源のような、異なる仮想的な複数の音源オブジェクトの波動場を再生するために、モディファイア１８によって修正されるメタ情報に基づくレンダラー２２に、複数の拡声器信号を提供する。

図６ａ及び６ｂにおけるレンダーリング・システムＧに関しての記載とは対照的に、図６ｃのＧ´（ｋ）は、時間ステップｋに依存し、且つ異なる時間ステップｋに対して可変であり得る。レンダラー２２は、ノイズ又は非相関フィルタを加えることが施され得るように、非相関にされた複数の拡声器信号ｘ´（ｋ）を直接的に生み出す。マトリックスＧ´（ｋ）は、選択される再生スキームに従って、時間ステップｋそれぞれに対して決定され得る。複数の瞬間ｋは、時間的に相互に異なる。

装置に関連して幾つかの局面が記載されたが、これらの局面は、装置のブロック又は要素が理解されるべき、また、対応する方法ステップ又は方法ステップの特徴でもあるべきように、対応する方法の記載を表現することもまた理解されるべきである。同様に、関連して、又は、方法ステップとしてもまた記載されていた複数の局面は、対応するブロックの記載又は対応する装置の詳細若しくは特徴もまた表現する。

具体的な実装要求に依存して、本発明の実施形態は、ハードウェア又はソフトウェアのどちらかで実装され得る。実装は、例えばフロッピー・ディスク，ＤＶＤ，Ｂｌｕ−ｒａｙ（登録商標）ディスク，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，又はＦＬＡＳＨメモリ、ハード・ディスク・ドライブ、又は協働し得若しくは方法それぞれが実行されるであろうようなプログラム可能なコンピュータ・システムと協働し得る、電気的に読み込み可能な制御信号を記憶された異なる磁気的又は光学的な記憶装置のような、デジタル記憶媒体を用いてなされ得る。したがって、デジタル記憶媒体は、コンピュータ読み込み可能であり得る。本発明に従う幾つかの実施形態は、このように、ここで記載される複数の方法のうちの１つが実行されるであろうようなプログラム可能なコンピュータ・システムと協働することが可能な電気的に読み込み可能な制御信号を備えるデータ・キャリアを含む。

一般に、本発明の実施形態は、コンピュータ・プログラム製品がコンピュータで動作する場合、複数の方法の１つを実行するために演算されるプログラム・コードを備えるコンピュータ・プログラム製品として実装され得る。プログラム・コードは、例えば、機械読み込み可能なキャリアで記憶され得る。

異なる実施形態は、コンピュータ・プログラムが機械読み込み可能なキャリアで記憶される場合、ここで記載された複数の方法のうちの１つを実行するためのコンピュータ・プログラムを備える。

言い換えると、本発明の方法の一実施形態は、コンピュータ・プログラムがコンピュータで動作する場合、ここで記載された複数の方法のうちの１つを実行するためのプログラム・コードを備えるコンピュータ・プログラムである。本発明の方法のもう一つの実施形態は、このように、ここで記載される複数の方法のうちの１つを実行するためのコンピュータ・プログラムを記憶されるデータ・キャリア（又はデジタル記憶媒体若しくはコンピュータ読み込み可能な媒体）である。

本発明の方法のもう一つの実施形態は、このように、ここで記載された複数の方法のうちの１つを実行するためのコンピュータ・プログラムを表現するデータ・ストリーム又は一連の信号である。データ・ストリーム又は一連の信号は、例えば、データ通信リンクを介して、模範的にインターネットを介して伝達されるように構成され得る。

もう一つの実施形態は、ここで記載された複数の方法のうちの１つを実行するために構成又は適応される、例えばコンピュータ又はプログラム可能な論理装置などの処理手段を含む。

もう一つの実施形態は、ここで記載された複数の方法のうちの１つを実行するためのコンピュータ・プログラムをインストールされるコンピュータを含む。

幾つかの実施形態において、プログラム可能な論理装置（模範的にフィールドプログラム可能なゲート・アレイ、ＦＰＧＡ）は、ここで記載された複数の方法の幾つかの又は全ての機能性を実行するために用いられ得る。幾つかの実施形態において、フィールドプログラム可能なゲート・アレイは、ここで記載された複数の方法のうちの１つを実行するために、マイクロプロセッサと協働し得る。一般に、幾つかの実施形態における複数の方法は、コンピュータ処理装置（ＣＰＵ）のような普遍的に使用可能なハードウェア、又は例えばＡＳＩＣのような方法に特有のハードウェアであり得る如何なるハードウェア装置によっても実行される。

上記で記載された複数の実施形態は、本発明の原理の例示を単に表現する。配置の修正及び変更並びにここで記載された複数の詳細は、他の当業者にとって明らかであろうことが理解されるべきである。したがって、本発明は、次の特許請求の範囲によってのみ制限されるが、しかし、複数の実施形態の記載及び議論を用いてここで提案されていた具体的な詳細によっては制限されないことが意図される。

用いられる略語
ＡＥＣ音響エコー・キャンセル（ａｃｏｕｓｔｉｃｅｃｈｏｃａｎｃｅｌｌａｔｉｏｎ）
ＦＩＲ有限インパルス応答（ｆｉｎｉｔｅｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ）
ＨＯＡ高次アンビソニックス（ｈｉｇｈｅｒ−ｏｒｄｅｒａｍｂｉｓｏｎｉｃｓ）
ＩＬＤ両耳間レベル差（ｉｎｔｅｒａｕｒａｌｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅ）
ＩＴＤ両耳時間差（ｉｎｔｅｒａｕｒａｌｔｉｍｅｄｉｆｆｅｒｅｎｃｅ）
ＬＥＭＳ拡声器エンクロージャ・マイクロホン・システム（ｌｏｕｄｓｐｅａｋｅｒ−ｅｎｃｌｏｓｕｒｅ−ｍｉｃｒｏｐｈｏｎｅｓｙｓｔｅｍ）
ＬＲＥリスニング・ルーム同等化（ｌｉｓｔｅｎｉｎｇｒｏｏｍｅｑｕａｌｉｚａｔｉｏｎ）
ＭＩＭＯマルチ入力マルチ出力（ｍｕｌｔｉ−ｉｎｐｕｔｍｕｌｔｉ−ｏｕｔｐｕｔ）
ＷＦＳ波動場合成（ｗａｖｅｆｉｅｌｄｓｙｎｔｈｅｓｉｓ）

Claims

音源信号及び少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）のポジション（Ｐ₁，Ｐ₂）又はタイプを決定するメタ情報を備える前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）に基づいて、多くの拡声器信号（ｘ´（ｋ））を生成するための装置（１０，３０）であって、
前記装置（１０，３０）は、
前記メタ情報を時変的に修正するように構成されるモディファイア（１８）と、
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）と、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記タイプ又はポジション（Ｐ₁，Ｐ₂）が時変的に修正されている修正メタ情報を伝送して、多くの拡声器信号（ｘ´（ｋ））を形成するように構成されるレンダラー（２２）とを備え、
前記モディファイア（１８）は、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の仮想的なポジション（Ｐ₁，Ｐ₂）が１つの瞬間とそれより後の瞬間とで修正され、且つそれによって前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記仮想的なポジション（Ｐ₁，Ｐ₂）のプレイバック空間（１６）におけるポジションに対する距離が最大で２５％変更されるように、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報を修正するように構成され、あるいは
前記モディファイア（１８）は、１つの瞬間とそれより後の瞬間とで前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報を、プレイバック空間（１６）におけるポジション（Ｐ₁，Ｐ₂）に対して、両耳間レベル差が最大で２６％増加され又は最大で２１％減少されるように修正するように構成され、あるいは
前記モディファイア（１８）は、１つの瞬間とそれより後の瞬間とで前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報を、プレイバック空間（１６）におけるポジション（Ｐ₁，Ｐ₂）に対して、モノラルのレベル差が最大で２６％増加され又は最大で２１％減少されるように修正するように構成され、あるいは
前記モディファイア（１８）は、プレイバック空間（１６）におけるポジション（Ｐ₁，Ｐ₂）に対して、両耳間時間差が最大で３０μｓ修正されるように、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報を１つの瞬間とそれより後の瞬間とで修正するように構成され、あるいは
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）は、プレイバック空間（１６）においてリスナー（１７）に対して前方（３４ａ，３４ｂ）に配置され、且つ前記モディファイア（１８）は、１つの瞬間とそれより後の瞬間とで前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報を、前記リスナー（１７）に対する前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の方向が３°（α₁）未満しか変更されないように修正するように構成され、あるいは
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）は、プレイバック空間（１６）においてリスナー（１７）に対して側方向（３６ａ，３６ｂ）に配置され、且つ前記モディファイア（１８）は、１つの瞬間とそれより後の瞬間とで前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報を、前記リスナー（１７）に対する前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の方向が１０°（α₂）未満しか変更されないように修正するように構成され、あるいは
前記モディファイア（１８）は、少なくとも１０秒の時間間隔で前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報を実行するように構成され、あるいは
前記モディファイア（１８）は、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ）に対して最大１０ｍでの距離（４１）で画像（１２´ａ）を配置するように構成され、あるいは
前記モディファイア（１８）は、再生されるプレイバック・シーンの修正がプレイバック空間（１６）のリスナー（１７）にとって顕著でない、又は邪魔だと知覚されないように、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記ポジション又はタイプについて部分的に再生される前記プレイバック・シーンの前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報を修正するように構成される、装置。
複数のマイクロホン信号（ｄ（ｋ））及び前記多くの拡声器信号（ｘ´（ｋ））に基づいて、前記多くの拡声器信号（ｘ´（ｋ））が決定される複数の拡声器と、前記複数のマイクロホン信号（ｄ（ｋ））を創出する複数のマイクロホンとが適用され得るプレイバック空間（１６）の伝送特性（Ｈ_est（ｎ））を推定するように構成されるシステム計算機（２８）をさらに備え、
前記レンダラー（２２）は、前記プレイバック空間（１６）の前記推定された伝送特性（Ｈ_est（ｎ））に基づいて、前記多くの拡声器信号（ｘ´（ｋ））を計算するように構成される、請求項１に記載の装置。
前記レンダラー（２２）は、波動場合成アルゴリズム又は高次アンビソニック・アルゴリズムの規則に従って前記多くの拡声器信号（ｘ´（ｋ））を計算するように構成され、又は前記レンダラー（２２）は、少なくとも１０の拡声器信号（ｘ´（ｋ））を計算するように構成される、請求項１又は２に記載の装置。
前記モディファイア（１８）は、少なくとも２つの仮想的な音源オブジェクト（１２ａ−ｃ）を、第１の仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報が第２の仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報と比較して前記仮想的な音源オブジェクト（１２ａ−ｃ）のポジション又はタイプに関して異なって修正されるように、修正するように構成され、且つ
前記レンダラー（２２）は、前記第１の修正されたメタ情報及び前記第２の修正されたメタ情報に基づいて前記多くの拡声器信号（ｘ´（ｋ））を計算するように構成される、請求項１〜３のいずれかに記載の装置。
前記モディファイア（１８）は、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ）の画像（１２´ａ）を生成するようにさらに構成された装置（１０，３０）であって、前記画像は、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ）の前記メタ情報を少なくとも部分的に備え、且つ前記モディファイアは、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ）と前記画像（１２´ａ）とが相互に異なるメタ情報を備えるように、前記メタ情報を時変的に修正するように構成される、請求項１〜４のいずれかに記載の装置。
前記装置（１０，３０）において、前記レンダラー（２２）は、前記複数の拡声器信号（ｘ´（ｋ））の相関が減少されるように、さらに、前記複数の拡声器信号（ｘ´（ｋ））に減衰又は遅延を加えるように構成される、請求項１〜５のいずれかに記載の装置。
音源信号及び少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）のポジション又はタイプを決定するメタ情報を備える前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）に基づいて多くの拡声器信号（ｘ´（ｋ））を生成する方法であって、
前記方法は、
前記メタ情報を時変的に修正するステップと、
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）と、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記タイプ又はポジションが時変的に修正された、前記修正された情報を伝送し、多くの拡声器信号（ｘ´（ｋ））を形成するステップとを含み、
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）のメタ情報を修正するステップは、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の仮想的なポジション（Ｐ₁，Ｐ₂）が１つの瞬間とそれより後の瞬間とで修正され、且つそれによって前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記仮想的なポジション（Ｐ₁，Ｐ₂）のプレイバック空間（１６）におけるポジションに対する距離が最大で２５％変更されるように実行され、あるいは
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）のメタ情報を修正するステップは、１つの瞬間とそれより後の瞬間とで、プレイバック空間（１６）におけるポジション（Ｐ₁，Ｐ₂）に対して、両耳間レベル差が最大で２６％増加され又は最大で２１％減少されるように実行され、あるいは
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）のメタ情報を修正するステップは、１つの瞬間とそれより後の瞬間とで、プレイバック空間（１６）におけるポジション（Ｐ₁，Ｐ₂）に対して、モノラルのレベル差が最大で２６％増加され又は最大で２１％減少されるように実行され、あるいは
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）のメタ情報を修正するステップは、１つの瞬間とそれより後の瞬間とで、プレイバック空間（１６）におけるポジション（Ｐ₁，Ｐ₂）に対して、両耳間時間差が最大で３０μｓ修正されるように実行され、あるいは
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）は、プレイバック空間（１６）においてリスナー（１７）に対して前方（３４ａ，３４ｂ）に配置され、且つ前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）のメタ情報を修正するステップは、１つの瞬間とそれより後の瞬間とで、前記リスナー（１７）に対する前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の方向が３°（α₁）未満しか変更されないように実行され、あるいは
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）は、プレイバック空間（１６）においてリスナー（１７）に対して側方向（３６ａ，３６ｂ）に配置され、且つ前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）のメタ情報を修正するステップは、１つの瞬間とそれより後の瞬間とで、前記リスナー（１７）に対する前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の方向が１０°（α₂）未満しか変更されないように実行され、あるいは
前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）のメタ情報は、少なとも１０秒の時間間隔で実行され、あるいは
画像（１２´ａ）は、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ）から最大１０ｍの距離（４１）に配置され、あるいは
再生されるプレイバック・シーンの修正がプレイバック空間（１６）のリスナー（１７）にとって顕著でない、又は邪魔だと知覚されないように、前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記ポジション又はタイプについて部分的に再生される前記プレイバック・シーンの前記少なくとも１つの仮想的な音源オブジェクト（１２ａ−ｃ）の前記メタ情報が修正される、方法。
プログラムがコンピュータで動作するとき、請求項７に記載の方法を実行するためのプログラム・コードを備える、コンピュータ・プログラム。