JP2016528811A

JP2016528811A - マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現

Info

Publication number: JP2016528811A
Application number: JP2016528443A
Authority: JP
Inventors: サッシャディスヒ; ハラルドフックス; オリヴァーヘルムート; ユールゲンヘレ; アドリアンモルタザ; ヨウニパウルス; ファルコリッダーブッシュ; レオンテレンチエフ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2013-07-22
Filing date: 2014-07-17
Publication date: 2016-09-15
Anticipated expiration: 2034-07-17
Also published as: TW201521469A; KR20160039634A; CA2919080A1; US12374342B2; TWI601408B; MX2016000902A; MX361115B; JP6777700B2; AU2014295207B2; PL3022949T3; PT3022949T; CN105612766A; ES2653975T3; CA2919080C; RU2665917C2; EP3022949B1; EP3022949A1; BR112016001250A2; AU2014295207A1; SG11201600466PA

Abstract

符号化表現に基づいて少なくとも２つの出力オーディオ信号を供給するためのマルチチャネル・オーディオ・デコーダは、複数のレンダリングされたオーディオ信号を得るために、１つ以上のレンダリング・パラメータに基づいて、符号化表現に基づいて得られた複数の復号化オーディオ信号をレンダリングするように構成される。マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号から１つ以上の非相関化オーディオ信号を導出するように構成され、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合するように構成される。マルチチャネル・オーディオ・エンコーダは、オーディオ・デコーダを制御するための非相関化方法パラメータを供給する。【選択図】図１

Description

本発明による実施の形態は、符号化表現に基づいて、少なくとも２つの出力オーディオ信号を供給するためのマルチチャネル・オーディオ・デコーダに関する。

本発明による更なる実施の形態は、少なくとも２つの入力オーディオ信号に基づいて、符号化表現を供給するためのマルチチャネル・オーディオ・エンコーダに関する。

本発明による更なる実施の形態は、符号化表現に基づいて、少なくとも２つの出力オーディオ信号を供給するための方法に関する。

本発明による更なる実施の形態は、少なくとも２つの入力オーディオ信号に基づいて、符号化表現を供給するための方法に関する。

本発明による更なる実施の形態は、前記方法のうちの１つを実行するためのコンピュータ・プログラムに関する。

本発明による更なる実施の形態は、符号化オーディオ表現に関する。

一般的に言って、本発明による実施の形態は、マルチチャネル・ダウンミックス／アップミックスパラメトリックオーディオ・オブジェクト符号化システムのための非相関化コンセプトに関する。

近年、オーディオ・コンテンツの記憶および送信の需要は、着実に増加した。さらに、オーディオ・コンテンツの記憶および送信のための良質な要件も、着実に増加した。従って、オーディオ・コンテンツの符号化および復号化のためのコンセプトは、強化されている。

例えば、いわゆる、開発された「先進的音響符号化（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ））」は、国際標準ＩＳＯ／ＩＥＣ１３８１８−７：２００３において記述されている。さらに、例えば、国際標準ＩＳＯ／ＩＥＣ２３００３−１：２００７において、例えば、記述された、いわゆる「ＭＰＥＧサラウンド」のように、いくつかの空間的な拡張が作成された。さらに、オーディオ信号の空間的な情報の符号化および復号化のためのさらなる改良が、いわゆる「空間オーディオ・オブジェクト符号化（ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）」に関する国際標準ＩＳＯ／ＩＥＣ２３００３−２：２０１０において記述される。

さらに、良好な符号化効率を有する一般のオーディオ信号およびスピーチ信号の両方の符号化して、マルチチャネル・オーディオ信号を扱うという可能性を提供する切り替え可能なオーディオ符号化／復号化のコンセプトは、いわゆる「統一のスピーチおよびオーディオ符号化（ＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）」に関する国際標準ＩＳＯ／ＩＥＣ２３００３−３：２０１２において記述される。

さらに、更なる従来の概念が、本記述の最後において言及される参考文献において記述される。

国際公開第２００６／０２６４５２号

［ＢＣＣ］ C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. ［Ｂｌａｕｅｒｔ］J. Blauert, "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, London, 1997. ［ＪＳＣ］ C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006. ［ＩＳＳ１］ M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010. ［ＩＳＳ２］ M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010. ［ＩＳＳ３］ A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011. ［ＩＳＳ４］ A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011. ［ＩＳＳ５］ S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011. ［ＩＳＳ６］ L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011. ［ＭＰＳ］ ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround," ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006. ［ＯＣＤ］ J. Vilkamo, T. Baeckstroem, and A. Kuntz. "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013. in press. ［ＳＡＯＣ１］ J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007. ［ＳＡＯＣ２］ J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008. ［ＳＡＯＣ］ ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

しかしながら、３次元オーディオ場面の効果的な符号化および復号化のためのさらなる進歩的な概念を提供することが切望されている。

本発明による実施の形態は、符号化表現に基づいて少なくとも２つの出力オーディオ信号を供給するためのマルチチャネル・オーディオ・デコーダをもたらす。マルチチャネル・オーディオ・デコーダは、複数のレンダリングされたオーディオ信号を得るために、１つ以上のレンダリング・パラメータに基づいて、符号化表現に基づいて得られた複数の復号化オーディオ信号をレンダリングするように構成される。マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号から１つ以上の非相関化オーディオ信号を導出するように構成される。さらに、マルチチャネル・オーディオ・デコーダは、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号を結合するように構成される。

本発明による実施の形態は、オーディオ品質が、複数の復号化オーディオ信号に基づいて得られるレンダリングされたオーディオ信号から１つ以上の非相関化オーディオ信号を導出することによって、および、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合することによって、マルチチャネル・オーディオ・デコーダにおいて改良されうるという知見に基づく。レンダリングの前、またはレンダリングの間に追加の非相関化信号と比較した場合、レンダリングの後、追加の非相関化信号によって出力オーディオ信号の相関特性または共分散特性を調整することがより効率的であることが分かっている。非相関化が、レンダリングの前またはレンダリングの間に実行された場合、より非相関器が必要とされるので、レンダリングされたオーディオ信号よりもレンダリングに入力される復号化オーディオ信号がある一般のケースにおいて、このコンセプトはより効率的であることが分かっている。さらに、レンダリングは、典型的には、復号化オーディオ信号の結合をもたらすので、非相関化信号は、レンダリングの前に復号化オーディオ信号を追加する場合に、アーティファクトが供給されることが分かっている。従って、本発明の本実施の形態による概念は、非相関化信号が、レンダリングの前に追加されるという点で、従来のアプローチより優れている。例えば、レンダリングされた信号の所望の相関特性または共分散特性を直接的に推定し、実際にレンダリングされた信号に非相関化オーディオ信号の供給を適応させることが可能である。そして、それは、効率とオーディオ品質との間のより良好なトレードオフを結果として得て、同時に、しばしば増加した効率およびより良好な品質を結果として得る。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、パラメトリック再構成を使用して複数のレンダリングされたオーディオ信号を得るためにレンダリングされる復号化オーディオ信号を得るように構成される。本発明による概念は、オーディオ信号のパラメトリック再構成と結合して効果をもたらすことが分かっており、ここで、例えば、パラメトリック再構成は、オブジェクト信号を記述しているサイド情報および／またはオブジェクト信号の間の関係に基づいている（オブジェクト信号は、復号化オーディオ信号を構成しうる。）。例えば、この種のコンセプトにおける比較的かなりの数のオブジェクト信号（復号化オーディオ信号）があり、レンダリングされたオーディオ信号に基づいて非相関化のアプリケーションが特に効率的であり、この種のシナリオにおいて、アーティファクトを回避することが分かっている。

好ましい実施の形態において、復号化オーディオ信号は、再構成オブジェクト信号（例えば、パラメータ的に再構成されたオブジェクト信号）であり、そして、マルチチャネル・オーディオ・デコーダは、サイド情報を使用して１つ以上のダウンミックス信号から再構成オブジェクト信号を導出するように構成される。従って、レンダリングされたオーディオ信号または出力オーディオ信号の数よりも多い比較的かなりの数の再構成オブジェクト信号がある場合であっても、レンダリングされたオーディオ信号に基づくレンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号との結合は、出力オーディオ信号における相関特性または共分散特性の効果的な再構成を許容する。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、サイド情報からアンミキシング係数を導出し、アンミキシング係数を使用して１つ以上のダウンミックス信号から（パラメータ的に）再構成オブジェクト信号を導出するために、アンミキシング係数を適用するように構成される。従って、レンダリングのための入力信号は、オブジェクトに関連したサイド情報（例えば、オブジェクト間の相関情報またはオブジェクト・レベル差情報のように、その結果が、絶対のエネルギーを使用することによって得られる）であるサイド情報から導出される。

好ましい実施の形態において、出力オーディオ信号の所望の相関特性または共分散特性を少なくとも部分的に獲得するために、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号とを結合するように構成されうる。レンダリングされたオーディオ信号から導出される、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号との結合は、所望の相関特性または共分散特性の調整（または再構成）を許容することが分かっている。さらに、聴覚器官印象に対して、出力オーディオ信号における適当な相関特性または共分散特性を有することが重要であり、そして、これが非相関化オーディオ信号を使用してレンダリングされたオーディオ信号を修正することによって最も達成されうることが分かっている。例えば、レンダリングされたオーディオ信号とレンダリングされたオーディオ信号に基づく非相関化オーディオ信号とを結合する場合、以前の処理ステージにおいて生じる如何なる低下も考慮されうる。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、複数のレンダリングされたオーディオ信号を得るためにレンダリングされる復号化オーディオ信号のパラメトリック再構成の間におけるエネルギー損失を少なくとも部分的に補償するために、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号とを結合するように構成される。非相関化オーディオ信号のポストレンダリングアプリケーションは、例えば、復号化オーディオ信号のパラメトリック再構成によってレンダリング前の処理によって生じる信号欠損を修正することを許容することが分かっている。従って、それは高い精度を伴って、レンダリングに入力される復号化オーディオ信号の相関特性または共分散特性を再構成する必要がない。これは、復号化オーディオ信号の再構成を単純化し、そして、したがって、高効率をもたらす。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、出力オーディオ信号の所望の相関特性または共分散特性を決定するように構成される。さらに、マルチチャネル・オーディオ・デコーダは、得られた出力オーディオ信号の相関特性または共分散特性が所望の相関特性または共分散特性に近似するか、または等しいように、出力オーディオ信号を得るために、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号とを結合を調整するように構成される。レンダリングされたオーディオ信号と非相関化オーディオ信号との結合の後に到達される出力オーディオ信号の所望の相関特性または共分散特性を算出（または決定）することによって、次々に比較的正確な再構成を許容する、処理の遅いステージで相関特性または共分散特性を調整することは可能である。従って、出力オーディオ信号の空間的な聴取印象は、所望の聴取印象によく適応される。

好ましい実施の形態において、複数のレンダリングされたオーディオ信号を得るために、符号化表現に基づいて得られる複数の復号化オーディオ信号のレンダリングを記述しているレンダリング情報に基づいて、所望の相関特性または所望の共分散特性を決定するように構成される。所望の相関特性または所望の共分散特性の決定におけるレンダリング処理を考慮することによって、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号との結合を調整するための正確な情報を獲得することは可能である。そして、それは、所望の聴取印象にマッチする出力オーディオ信号を有する可能性をもたらす。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、複数のオーディオ・オブジェクトの特性および／または複数のオーディオ・オブジェクトの間の関係を記載しているオブジェクト相関情報またはオブジェクト共分散情報に基づいて、所望の相関特性または所望の共分散特性を決定するように構成される。従って、処理の後、すなわち、レンダリングの後、オーディオ・オブジェクトに適応される相関特性または共分散特性を復元することが可能である。従って、オーディオ・オブジェクトを復号化するための複雑さが低減される。さらに、レンダリングの後のオーディオ・オブジェクトの相関特性または共分散特性を考慮することによって、レンダリングの有害な影響が回避されえ、相関特性または共分散特性は、良好な精度で再構成される。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、符号化表現に含まれるサイド情報に基づいて、オブジェクト相関情報またはオブジェクト共分散情報を決定するように構成される。従って、コンセプトは、サイド情報を使用する空間的なオーディオ・オブジェクト符号化アプローチに良好に適している。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号の現実の相関特性または共分散特性に基づいて、出力オーディオ信号を得るために、レンダリングされたオーディオ信号の現実の相関特性または共分散特性を決定し、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号との結合を調整するように構成される。従って、オーディオ・オブジェクトを再構成するか、またはレンダリングによって欠損が生じた場合、例えば、エネルギー損失のような初期の処理ステージにおいて欠損が渡されうる。このように、現実のレンダリングされたオーディオ信号と非相関化オーディオ信号との結合が所望の特性を結果として得られるように、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号との結合は、ニーズに非常に正確な方法で調整されうる。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号とを結合するように構成され、ここで、レンダリングされたオーディオ信号は、第１の混合行列Ｐを使用して重み付けされ、１つ以上の非相関化オーディオ信号は、第２の混合行列Ｍを使用して重み付けされる。これは、レンダリングされたオーディオ信号に適用される混合行列Ｐによって記述され、１つ以上の非相関化オーディオ信号に適用される混合行列Ｍによって記述される一次結合が実行される。

好ましい実施の形態において、得られた出力オーディオ信号の相関特性または共分散特性が所望の相関特性または所望の共分散特性と近似するかまたは等しくなるように、マルチチャネル・オーディオ・デコーダは、混合行列Ｐおよび混合行列Ｍの少なくとも１つを調整するように構成される。このように、適度な効率および良好な結果を典型的に可能である１つ以上の混合行列を調整する方法がある。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、混合行列Ｐおよび混合行列Ｍを一緒に算出するように構成される。従って、得られた出力オーディオ信号の相関特性または共分散特性が所望の相関特性または所望の共分散特性と近似するかまたは等しくなりうるように混合行列を得ることができる。さらに、混合行列Ｐおよび混合行列Ｍを一緒に算出した場合、混合行列Ｐと混合行列Ｍを前提条件に適合されることが可能であるように、いくつかの自由度は典型的に利用できる。

好ましい実施の形態において、得られた出力オーディオ信号の共分散行列が所望の共分散行列に等しくなるように、マルチチャネル・オーディオ・デコーダは、混合行列Ｐおよび混合行列Ｍを含む結合混合行列Ｆを得るように構成される。

好ましい実施の形態において、結合混合行列は、以下に示される式に従って算出されうる。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号および非相関化オーディオ信号を記述する第１の共分散行列と、出力オーディオ信号の所望の共分散特性を記述する第２の共分散行列との特異値分解を使用して決定される行列を使用して、結合混合行列Ｆを決定するように構成される。この種の特異値分解を使用することが、結合混合行列を決定する数値的に効率的な解決案を構成する。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、単位行列またはその倍数である混合行列Ｐを設定し、混合行列Ｍを算出するように構成される。これは、所望の空間印象を保存するのを助ける異なるレンダリングされたオーディオ信号の混合を回避する。さらに、自由度の数が低減される。

好ましい実施の形態において、所望の共分散行列とレンダリングされたオーディオ信号の共分散行列との間の差が、混合行列Ｍを混合した後、１つ以上の非相関化信号の共分散と近似するかまたは等しくなるように、マルチチャネル・オーディオ・デコーダは、混合行列Ｍを決定するように構成される。このように、混合行列Ｍを得るための計算的にシンプルなコンセプトが与えられる。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、所望の共分散行列とレンダリングされたオーディオ信号の共分散行列との差と、１つ以上の非相関化信号の共分散行列との特異値分解を使用して決定される行列を使用して混合行列Ｍを決定するように構成される。これは、混合行列Ｍを決定するために計算的に非常に効率的な方法である。

好ましい実施の形態において、所与のレンダリングされたオーディオ信号は、所与のレンダリングされたオーディオ信号自身の非相関化バージョンを混合されるだけの制約のもと、マルチチャネル・オーディオ・デコーダは、混合行列Ｐ，Ｍを決定するように構成される。このコンセプトは、小さい改善（例えば、不完全な非相関化がある場合）に制限し、または相互相関特性もしくは相互共分散特性（例えば、理想的な非相関化がある場合）を防ぎ、そして、従って、認められたオブジェクトポジションの変化を回避するために、場合によっては、価値がある。しかしながら、非理想的な非相関化がある場合には、自己相関値（または自己共分散値）が明確に修正され、そして、交差項における変化は無視される。

好ましい実施の形態において、相互相関特性または相互共分散特性が小さい値（例えば、不完全な非相関化がある場合）によって変更されないままかまたは修正されるとともに、レンダリングされたオーディオ信号の自己相関値または自己共分散値のみが修正されるように、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号とを結合するように構成される。また、オーディオ・オブジェクトの認められた位置の劣化が回避されうる。さらに、複雑な計算量が低減されうる。しかしながら、例えば、自己共分散値がエネルギー（自己相関値）の修正の結果として修正される一方、相互相関値は、修正されないままである（それらは、相互共分散値の規格化されたバージョンを表わす）。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、単位行列またはその倍数である混合行列Ｐを設定し、Ｍが対角行列であるという制約のもと、混合行列Ｍを算出するように構成される。このように、相互相関特性または相互共分散特性の修正は、回避されうるか、または小さい値（例えば、不完全な非相関化がある場合）に制限されうる。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、出力オーディオ信号を得るために、レンダリングされたオーディオ信号と１つ以上の非相関化オーディオ信号とを結合するように構成され、ここで、対角行列Ｍは、１つ以上の非相関化オーディオ信号Ｗに適用される。この場合、出力オーディオ信号の共分散行列の対角要素が所望のエネルギーに等しいように、マルチチャネル・オーディオ・デコーダは、混合行列Ｍの対角要素を算出するように構成される。従って、レンダリング処理によって、および／または１つ以上のダウンミックス信号および空間サイド情報に基づくオーディオ・オブジェクトの再構成によって、得られうるエネルギー損失が、補償されうる。このように、出力オーディオ信号の適当な強度が獲得される。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、所望の共分散行列の対角要素、レンダリングされたオーディオ信号の共分散行列の対角要素、および１つ以上の非相関化信号の共分散行列の対角要素に基づいて、混合行列Ｍの要素を算出するように構成されうる。混合行列Ｍの対角要素でない要素は、ゼロに設定され、所望の共分散行列は、レンダリング処理およびオブジェクト共分散行列に対して使用されるレンダリング行列に基づいて算出されうる。さらにまた、閾値は、信号に追加される非相関化の量を制限するために使用されうる。このコンセプトは、混合行列Ｍの要素の非常に計算的に効果的な決定を提供する。

好ましい実施の形態において、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合するための方法を決定する場合、非相関化されたオーディオ信号の相関特性または共分散特性を考慮するように構成されうる。従って、非相関化の欠損が考慮されうる。

好ましい実施の形態において、所与の出力オーディオ信号が、２つ以上のレンダリングされたオーディオ信号および少なくとも１つの非相関化オーディオ信号に基づいて供給されるように、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号と非相関化オーディオ信号とを混合するように構成されうる。このコンセプトを使用することによって、相互相関特性は、（聴覚器官の空間印象を劣化させうる）大量の非相関化信号を導く必要なく、能率的に調整されうる。

好ましい実施の形態において、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合するための方法を決定することを異なる制約が適用される場合において、マルチチャネル・オーディオ・デコーダは、異なるモードの間で切り替えるように構成されうる。従って、複雑さおよび処理の特徴が、処理される信号に調整されうる。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容される、第１のモード、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号が、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンと結合されることが許容される、第２のモード、およびレンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、所与の非相関化信号が、所与の非相関化信号から導出されたレンダリングされたオーディオ信号以外のレンダリングされたオーディオ信号と結合されることが許容されない、第３のモード、の間で切り替えるために構成されうる。このように、複雑さおよび処理の特徴の両方が、現在のレンダリングされたオーディオ信号のタイプに調整されうる。オーディオ信号の空間の印象がこの種の修正によって劣化する場合、例えば、自己相関特性または自己共分散特性のみを修正し、明確に相互相関特性または相互共分散特性を修正することが有用でありうる。その一方で、にもかかわらず、出力オーディオ信号の強度を調整することは望ましい。一方、出力オーディオ信号の相互相関特性または相互共分散特性を調整することが望ましい場合がある。ここで、記載のマルチチャネル・オーディオ・デコーダは、この種の調整を許容する。ここで、第１のモードにおいて、相互相関特性または相互共分散特性を調整するために必要とされる非相関化信号の要素の量（または強度）が比較的小さいように、レンダリングされたオーディオ信号を結合することは可能である。このように、「ローカライザ可能な」信号要素は、相互相関特性または相互共分散特性を調整するために、第１のモードにおいて使用される。その一方、第２のモードにおいて、非相関化信号は、異なる聴取印象を自然にもたらす相互相関特性または相互共分散特性を調整するために使用される。従って、３つの異なるモードを提供することによって、オーディオ・デコーダは、扱っているオーディオ・コンテンツによく適応されうる。

好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合するための３つのモードを指し示す符号化表現のビットストリーム要素を評価し、そして、ビットストリーム要素に基づいてモードを選択するために構成される。したがって、オーディオ・エンコーダは、オーディオ・コンテンツのその情報に基づいて、適切なモードの信号を送信することができる。このように、出力オーディオ信号の最大の品質が、いかなる環境のもとでも達成されうる。

本発明による実施の形態は、少なくとも２つの入力オーディオ信号に基づいて符号化表現を供給するためのマルチチャネル・オーディオ・エンコーダをもたらす。マルチチャネル・オーディオ・エンコーダは、少なくとも２つの入力オーディオ信号に基づき、１つ以上のダウンミックス信号を供給するように構成される。さらに、マルチチャネル・オーディオ・エンコーダは、少なくとも２つの入力オーディオ信号の間の関係を記述している１つ以上のパラメータを供給するように構成される。さらに、マルチチャネル・オーディオ・エンコーダは、オーディオ・エンコーダのサイドで使用されるべき複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するように構成される。従って、マルチチャネル・オーディオ・エンコーダは、現在の符号化されるオーディオ信号のタイプに良く適応される適切な非相関化モードを使用するようにオーディオ・デコーダを制御しうる。このように、ここで記載されるマルチチャネル・オーディオ・エンコーダは、以前議論されたマルチチャネル・オーディオ・デコーダと協調するためによく適応される。

好ましい実施の形態において、マルチチャネル・オーディオ・エンコーダは、非相関化方法パラメータを選択的に供給し、オーディオ・デコーダの処理のための、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容される、第１のモード、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化オーディオ信号が、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンと結合されることが許容される、第２のモード、およびレンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、所与の非相関化オーディオ信号が、所与の非相関化オーディオ信号から導出されたレンダリングされたオーディオ信号以外のレンダリングされたオーディオ信号と結合されることが許容されない、第３のモード、である以上に示す３つのモードの１つの信号を送信するように構成される。このように、マルチチャネル・オーディオ・エンコーダは、オーディオ・コンテンツに基づいて、上記において議論された３つのモードを通してマルチチャネル・オーディオ・デコーダを切り替えることができ、ここで、マルチチャネル・オーディオ・デコーダが処理するモードは、現在の符号化されたオーディオ・コンテンツのタイプにマルチチャネル・オーディオ・エンコーダによってよく適応されうる。しかしながら、いくつかの実施の形態において、オーディオ・デコーダの処理のための上記の３つのモードの１つか２つのみが使用されうる（または利用されうる。）。

好ましい実施の形態において、マルチチャネル・オーディオ・エンコーダは、入力オーディオ信号が比較的高い相関か比較的低い相関を含むかどうかに基づいて、非相関化方法パラメータを選択するように構成される。このように、デコーダにおいて使用される非相関化の適応は、現在の符号化されるオーディオ信号の重要な特徴に基づいてなされうる。

好ましい実施の形態において、マルチチャネル・オーディオ・エンコーダは、入力オーディオ信号の間の相関または共分散が比較的高い場合、第１のモードまたは第２のモードを指定するための非相関化方法パラメータを選択し、入力オーディオ信号の間の相関または共分散が比較的低い場合、第３のモードを指定するための非相関化方法パラメータを選択するように構成される。従って、入力オーディオ信号の間の比較的小さい相関または共分散の場合において、相互共分散特性または相互相関特性の修正でない復号化モードが選択される。そのような信号は実質的に独立しているので、これは、相互相関または相互共分散の適応のための必要を取り除く、比較的低い相関（または共分散）を有する信号に大して効果的な選択であることが分かっている。むしろ、（比較的小さい相関または共分散を有する）実質的な独立入力オーディオ信号のための相互相関または相互共分散の調整は、典型的には、オーディオの品質を劣化させ、そして、同時に復号化の複雑さを増加させる。このように、このコンセプトは、マルチチャネル・オーディオ・エンコーダに入力される信号に、マルチチャネル・オーディオ・デコーダの合理的な適応を許容する。

本発明による実施の形態は、符号化表現に基づく少なくとも２つの出力オーディオ信号を供給するための方法をもたらす。方法は、複数のレンダリングされたオーディオ信号を得るために、１つ以上のレンダリング・パラメータに基づいて、符号化表現に基づいて得られた複数の復号化オーディオ信号をレンダリングするステップを含む。方法は、レンダリングされたオーディオ信号から１つ以上の非相関化オーディオ信号を導出するステップと、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合するステップも含む。この方法は、上記したマルチチャネル・オーディオ・デコーダと同じ考察に基づく。さらに、方法は、マルチチャネル・オーディオ・デコーダに関して上記について議論された特徴および機能のいずれかによって補充されることができる。

本発明による他の実施の形態は、少なくとも２つの入力オーディオ信号に基づく符号化表現を供給するための方法をもたらす。方法は、少なくとも２つの入力オーディオ信号に基づく１つ以上のダウンミックス信号を供給するステップと、少なくとも２つの入力オーディオ信号の間の関係を記述している１つ以上のパラメータを供給するステップと、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するステップと、を含む。この方法は、上記したマルチチャネル・オーディオ・エンコーダと同じ考察に基づく。さらに、方法は、マルチチャネル・オーディオ・エンコーダに関して本願明細書において議論された特徴および機能のいずれかによって補充されうる。

本発明による他の実施の形態は、上記の方法の１つ以上を実行するためのコンピュータ・プログラムをもたらす。

本発明による他の実施の形態は、ダウンミックス信号の符号化表現と、少なくとも２つの入力オーディオ信号の間の関係を記述している１つ以上のパラメータの符号化表現と、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している符号化非相関化方法パラメータを含む。この符号化オーディオ表現は、適切な非相関化モードの信号を送信することを許容し、従って、マルチチャネル・オーディオ・エンコーダおよびマルチチャネル・オーディオ・デコーダに関して記載される効果を実装するのに役立つ。

本発明の好ましい実施の形態は、添付の図面に関してその後述べられる。

図１は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダのブロック概略図を示す。図２は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダのブロック概略図を示す。図３は、本発明の実施の形態による符号化表現に基づいて少なくとも２つの出力オーディオ信号を供給するための方法のフローチャートを示す。図４は、本発明の実施の形態による少なくとも２つの入力オーディオ信号に基づいて符号化表現を供給するための方法のフローチャートを示す。図５は、本発明の実施の形態による符号化オーディオ表現の概略図を示す。図６は、本発明の実施の形態によるマルチチャネル非相関器のブロック概略図を示す。図７は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダのブロック概略図を示す。図８は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダのブロック概略図を示す。図９は、本発明の実施の形態による複数の非相関化入力信号に基づいて複数の非相関化信号を供給するための方法のフローチャートを示す。図１０は、本発明の実施の形態による符号化表現に基づいて少なくとも２つの出力オーディオ信号を供給するための方法のフローチャートを示す。図１１は、本発明の実施の形態による少なくとも２つの入力オーディオ信号に基づいて符号化表現を供給するための方法のフローチャートを示す。図１２は、本発明の実施の形態による符号化表現の概略図を示す。図１３は、パラメトリックダウンミックス／アップミックスのコンセプトに基づくＭＭＳＥの概観を提供する概略図である。図１４は、３次元空間における直角原理のための幾何学的な表現を示す。図１５は、本発明の実施の形態によるレンダリングされた出力に適用される非相関化を伴うパラメトリック再構成システムのブロック概略図を示す。図１６は、非相関化装置のブロック概略図を示す。図１７は、本発明の実施の形態による低減された複雑さの非相関化装置のブロック概略図を示す。図１８は、本発明の実施の形態によるスピーカ位置のテーブル表現を示す。図１９ａは、Ｎ＝２２およびＫが５と１１との間であるプレミキシング係数のテーブル表現を示す。図１９ｂは、Ｎ＝２２およびＫが５と１１との間であるプレミキシング係数のテーブル表現を示す。図１９ｃは、Ｎ＝２２およびＫが５と１１との間であるプレミキシング係数のテーブル表現を示す。図１９ｄは、Ｎ＝２２およびＫが５と１１との間であるプレミキシング係数のテーブル表現を示す。図１９ｅは、Ｎ＝２２およびＫが５と１１との間であるプレミキシング係数のテーブル表現を示す。図１９ｆは、Ｎ＝２２およびＫが５と１１との間であるプレミキシング係数のテーブル表現を示す。図１９ｇは、Ｎ＝２２およびＫが５と１１との間であるプレミキシング係数のテーブル表現を示す。図２０ａは、Ｎ＝１０およびＫが２と５との間であるプレミキシング係数のテーブル表現を示す。図２０ｂは、Ｎ＝１０およびＫが２と５との間であるプレミキシング係数のテーブル表現を示す。図２０ｃは、Ｎ＝１０およびＫが２と５との間であるプレミキシング係数のテーブル表現を示す。図２０ｄは、Ｎ＝１０およびＫが２と５との間であるプレミキシング係数のテーブル表現を示す。図２１ａは、Ｎ＝８およびＫが２と４との間であるプレミキシング係数のテーブル表現を示す。図２１ｂは、Ｎ＝８およびＫが２と４との間であるプレミキシング係数のテーブル表現を示す。図２１ｃは、Ｎ＝８およびＫが２と４との間であるプレミキシング係数のテーブル表現を示す。図２１ｄは、Ｎ＝７およびＫが２と４との間であるプレミキシング係数のテーブル表現を示す。図２１ｅは、Ｎ＝７およびＫが２と４との間であるプレミキシング係数のテーブル表現を示す。図２１ｆは、Ｎ＝７およびＫが２と４との間であるプレミキシング係数のテーブル表現を示す。図２２ａは、Ｎ＝５およびＫ＝３である係数のプレミキシングのテーブル表現を示す。図２２ｂは、Ｎ＝５およびＫ＝２であるプレミキシング係数のテーブル表現を示す。図２３は、Ｎ＝２およびＫ＝１であるプレミキシング係数のテーブル表現を示す。図２４は、チャネル信号のグループのテーブル表現を示す。図２５は、ＳＡＯＣＳｐｅｃｉｆｉｇＣｏｎｆｉｇ（）の構文または同等のＳＡＯＣ３ＤＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）に含まれる付加的なパラメータの構文表現を示す。図２６は、ビットストリーム変数ｂｓＤｅｃｏｒｒｅｌａｔｉｏｎＭｅｔｈｏｄのための異なる値のテーブル表現を示す。図２７は、ビットストリーム変数ｂｓＤｅｃｏｒｒｅｌａｔｉｏｎＬｅｖｅｌによって指し示される異なる非相関化レベルおよび出力構成のための非相関器の数のテーブル表現を示す。図２８は、ブロック概略図の形式において、３Ｄオーディオ・エンコーダの上の概要を示す。図２９は、ブロック概略図の形式において、３Ｄオーディオ・デコーダの上の概要を示す。図３０は、フォーマット変換器の構造のブロック概略図を示す。図３１は、本発明の実施の形態によるダウンミックス・プロセッサのブロック概略図を示す。図３２は、ＳＡＯＣダウンミックスオブジェクトの異なる数のための復号化モードのテーブル表現を示す。図３３ａ−１は、ビットストリーム要素「ＳＡＯＣ３ＤＳｐｅｃｉｆｉｃＣｏｎｆｉｇ」の構文表現を示す。図３３ａ−２は、ビットストリーム要素「ＳＡＯＣ３ＤＳｐｅｃｉｆｉｃＣｏｎｆｉｇ」の構文表現を示す。図３３ｂは、ビットストリーム要素「ＳＡＯＣ３ＤＳｐｅｃｉｆｉｃＣｏｎｆｉｇ」の構文表現を示す。

１．図１によるマルチチャネル・オーディオ・デコーダ
図１は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダ１００のブロック概略図を示す。

マルチチャネル・オーディオ・デコーダ１００は、符号化表現１１０を受信して、それに基づいて、少なくとも２つの出力オーディオ信号１１２，１１４を供給するように構成される。

好ましくは、マルチチャネル・オーディオ・デコーダ１００は、符号化表現１１０に基づいて復号化オーディオ信号１２２を供給するように構成されるデコーダ１２０を含む。さらに、マルチチャネル・オーディオ・デコーダ１００は、複数のレンダリングされたオーディオ信号１３４，１３６を得るために、１つ以上のレンダリング・パラメータ１３２に基づいて、（例えば、デコーダ１２０によって）符号化表現１１０に基づいて得られる複数の復号化オーディオ信号１２２をレンダリングするために構成されるレンダラ１３０を含む。さらに、マルチチャネル・オーディオ・デコーダ１００は、レンダリングされたオーディオ信号１３４，１３６から１つ以上の非相関化オーディオ信号１４２，１４４を導出するように構成される非相関器１４０を含む。さらに、マルチチャネル・オーディオ・デコーダ１００は、出力オーディオ信号１１２，１１４を得るために、レンダリングされたオーディオ信号１３４，１３６またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号１４２，１４４とを結合するように構成されるコンバイナ１５０を含む。

しかしながら、上記の機能が与えられる限り、マルチチャネル・オーディオ・デコーダ１００の異なるハードウェア構成が可能である点に留意されたい。

マルチチャネル・オーディオ・デコーダ１００の機能に関して、非相関化オーディオ信号１４２，１４４は、レンダリングされたオーディオ信号１３４，１３６から導出され、非相関化オーディオ信号１４２，１４４は、出力オーディオ信号１１２，１１４を得るために、レンダリングされたオーディオ信号１３４，１３６と結合される点に留意されたい。レンダリングされたオーディオ信号１３４，１３６から非相関化オーディオ信号１４２，１４４を導出することによって、レンダリングされたオーディオ信号１３４，１３６の数は、典型的には、レンダラ１３０に入力される復号化オーディオ信号１２２の数から独立しているので、特に効果的な処理が達成されうる。このように、典型的には、非相関化の効果は、実施効率を改良する復号化オーディオ信号１２２の数から独立している。さらに、レンダリングの後の非相関化を適用することは、非相関化がレンダリングの前に適用される場合において、複数の非相関化信号を結合する場合に、レンダラによって引き起こされるアーティファクトの導入を回避する。さらに、レンダリングされたオーディオ信号の特性は、典型的には、良好な品質の出力オーディオ信号を結果として得る非相関器１４０によって実行される非相関化において考慮されうる。

さらに、マルチチャネル・オーディオ・デコーダ１００が、本願明細書において記載されている特徴および機能によって補充されうる点に留意されたい。特に、本願明細書において記載されるような個々の改良は、それによる処理の効率化および／または出力オーディオ信号の品質の改良のために、マルチチャネル・オーディオ・デコーダ１００に導入されうる点に留意されたい。

２．図２によるマルチチャネル・オーディオ・エンコーダ
図２は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダ２００のブロック概略図を示す。マルチチャネル・オーディオ・エンコーダ２００は、２つ以上の入力オーディオ信号２１０，２１２を受信し、それに基づいて符号化表現２１４を供給するように構成される。マルチチャネル・オーディオ・エンコーダは、少なくとも２つ以上の入力オーディオ信号２１０，２１２に基づいて、１つ以上のダウンミックス信号２２２を供給するように構成されるダウンミックス信号プロバイダ２２０を含む。さらに、マルチチャネル・オーディオ・エンコーダ２００は、少なくとも２つの入力オーディオ信号２１０，２１４の間の関係（例えば、相互相関、相互共分散、レベル差等）を記述している１つ以上のパラメータ２３２を供給するように構成されるパラメータ・プロバイダ２３０を含む。

さらに、マルチチャネル・オーディオ・エンコーダ２００は、オーディオ・デコーダのサイドにおいて使用されるべき複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータ２４２を供給するように構成される非相関化方法パラメータ・プロバイダ２４０も含む。１つ以上のダウンミックス信号２２２、１つ以上のパラメータ２３２および非相関化方法パラメータ２４２は、例えば、符号化表現２１４に、符号化の形式で含まれる。

しかしながら、上記のような機能が満足される限り、マルチチャネル・オーディオ・エンコーダ２００のハードウェア構成は異なりうることに留意されたい。換言すれば、個々のブロック（例えば、ダウンミックス信号プロバイダ２２０に、パラメータ・プロバイダ２３０に、そして非相関化方法パラメータ・プロバイダ２４０に）マルチチャネル・オーディオ・エンコーダ２００の機能の配分は、例として、考慮されるべきである。

マルチチャネル・オーディオ・エンコーダ２００の機能に関して、１つ以上のダウンミックス信号２２２および１つ以上のパラメータ２３２が、例えば、ＳＡＯＣマルチチャネル・オーディオ・エンコーダまたはＵＳＡＣマルチチャネル・オーディオ・エンコーダにおけるような従来の方法において供給される点に留意されたい。しかしながら、マルチチャネル・オーディオ・エンコーダ２００によっても供給され、そして、符号化表現２１４に含まれる非相関化方法パラメータ２４２は、入力オーディオ信号２１０，２１２にまたは所望の再生品質に非相関化モードを適用するために使用されうる。従って、非相関化モードは、オーディオ・コンテンツの異なるタイプに適用されうる。例えば、異なる非相関化モードは、入力オーディオ信号２１０，２１２が強く相関しているオーディオ・コンテンツのタイプに対して、および入力オーディオ信号２１０，２１２が独立しているオーディオ・コンテンツのタイプに対して、選択される。さらに、異なる非相関化モードは、空間印象が特に重要であるオーディオ・コンテンツのタイプに対して、および空間印象がより重要でないかまたは下位の重要性（例えば、個々のチャネルの再生と比較した場合）におけるオーディオ・コンテンツのタイプに対して、非相関化モードパラメータ２４２によって信号を送信されうる。従って、符号化表現２１４を受信するマルチチャネル・オーディオ・デコーダは、マルチチャネル・オーディオ・エンコーダ２００によって制御され、復号化の複雑さと再生品質の間の最良の可能な妥協をもたらす復号化モードを設定されうる。

さらに、マルチチャネル・オーディオ・エンコーダ２００は、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。本願明細書において記載されている可能な付加的な特徴および改良は、それによって、マルチチャネル・オーディオ・エンコーダ２００を改良するように（または強化するように）、個々にまたは組み合わせて、マルチチャネル・オーディオ・エンコーダ２００に追加されうる点に留意されたい。

３．図３による少なくとも２つの出力オーディオ信号を供給するための方法
図３は、符号化表現に基づいて少なくとも２つの出力オーディオ信号を供給するための方法３００のフローチャートを示す。方法は、複数のレンダリングされたオーディオ信号を得るために、１つ以上のレンダリング・パラメータに基づいて得られた複数の復号化オーディオをレンダリングするステップ３１０を含む。方法３００は、また、レンダリングされたオーディオ信号から１つ以上の非相関化オーディオ信号を導出するステップ３２０を含む。方法３００は、また、出力オーディオ信号３３２を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと１つ以上の非相関化オーディオ信号とを結合するステップ３３０を含む。

方法３００は、図１によるマルチチャネル・オーディオ・デコーダ１００と同じ考察に基づく点に留意されたい。さらに、方法３００は、（個々に、または組み合わせて）本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。

４．図４による符号化表現を提供するための方法
図４は、少なくとも２つの入力オーディオ信号に基づく符号化表現を供給するための方法４００のフローチャートを示す。方法４００は、少なくとも２つの入力オーディオ信号に基づく１つ以上のダウンミックス信号を供給するステップ４１０を含む。さらに、方法４００は、少なくとも２つの入力オーディオ信号４１２の間の関係を記述している１つ以上のパラメータを供給するステップ４２０と、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するステップ４３０とを含む。従って、好ましくは、１つ以上のダウンミックス信号の符号化表現、少なくとも２つの入力オーディオ信号の間の関係を記述している１つ以上のパラメータ、および非相関化方法パラメータを含む符号化表現４３２が供給される。

上記の説明も適用されるように、方法４００は、マルチチャネル・オーディオ・エンコーダ２００と同じ考察に基づく点に留意されたい。

さらに、ステップ４１０，４２０，４３０の命令は、柔軟に変化することができ、これが、方法４００のための実行環境において可能な限り、ステップ４１０，４２０，４３０も、並行して実行可能である点に留意されたい。さらに、方法４００は、個々に、または組み合わせて、本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。例えば、方法４００は、マルチチャネル・オーディオ・エンコーダに関して本願明細書において記載される特徴および機能のいずれかによって補充されうる。しかしながら、符号化表現４３２を受信する本願明細書に記載されるマルチチャネル・オーディオ・デコーダの特徴および機能に対応する特徴および機能を含むことも可能である。

５．図５による符号化オーディオ表現
図５は、本発明の実施の形態による符号化オーディオ表現５００の概略図を示す。

符号化オーディオ表現５００は、ダウンミックス信号の符号化表現５１０、少なくとも２つのオーディオ信号の間の関係を記述している１つ以上のパラメータの符号化表現５２０を含む。符号化オーディオ表現５００は、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している符号化非相関化方法パラメータ５３０も含む。従って、符号化オーディオ表現は、オーディオ・エンコーダからオーディオ・デコーダに非相関化モードの信号を送信することを許容する。従って、符号化オーディオ表現は、（例えば、１つ以上のダウンミックス信号の符号化表現５１０によって、および少なくとも２つのオーディオ信号（例えば、１つ以上のダウンミックス信号の符号化表現５１０にダウンミックスされている少なくとも２つのオーディオ信号））の間の関係を記述している１つ以上のパラメータの符号化表現５２０によって記述されるオーディオ・コンテンツの特性によく適応される非相関化モードを得ることが可能である。このように、符号化オーディオ表現５００は、特に良好な聴覚器官の空間印象および／または特に、聴覚器官の空間印象と復号化の複雑さとの間の良好なトレードオフを伴う符号化オーディオ表現５００によって表わされるオーディオ・コンテンツのレンダリングを許容する。

さらに、符号化表現５００が、個々に、または組み合わせて、マルチチャネル・オーディオ・エンコーダおよびマルチチャネル・オーディオ・デコーダに関して記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。

６．図６によるマルチチャネル非相関器
図６は、本発明の実施の形態によるマルチチャネル非相関器６００のブロック概略図を示す。

マルチチャネル非相関器６００は、Ｎ個の非相関器入力信号６１０ａ〜６１０ｎの第１のセットを受信し、それに基づいて、Ｎ’個の非相関器出力信号６１２ａ〜６１２ｎ’の第２のセットを供給するように構成される。換言すると、マルチチャネル非相関器６００は、非相関器入力信号６１０ａ〜６１０ｎに基づいて複数の（少なくともおよそ）非相関化信号６１２ａ〜６１２ｎ’を提供するように構成される。

マルチチャネル非相関器６００は、Ｎ個の非相関器入力信号６１０ａ〜６１０ｎの第１のセットをＫ個の非相関器入力信号６２２ａ〜６２２ｋの第２のセットにプレミックスするように構成される、プレミキサ６２０を含み、Ｋは、Ｎよりも小さい（ＫおよびＮは整数である）。マルチチャネル非相関器６００は、Ｋ個の非相関器入力信号６２２ａ〜６２２ｋの第２のセットに基づいてＫ’個の非相関器出力信号６３２ａ〜６３２ｋ’の第１のセットを供給するように構成される非相関化（または非相関器の主要部）も含む。さらに、マルチチャネル非相関器は、Ｋ’個の非相関器出力信号６３２ａ〜６３２ｋ’の第１のセットをＮ’個の非相関器出力信号６１２ａ〜６１２ｎ’の第２のセットにアップミックスするように構成されるポスト・ミキサ６４０を含み、Ｎ’はＫ’より大きい（Ｎ’およびＫ’は整数である）。

しかしながら、マルチチャネル非相関器６００の所与の構成は、例として考慮されるべきであり、本願明細書において記載されている機能が提供される限り、マルチチャネル非相関器６００を機能的なブロック（例えば、プレミキサ６２０、非相関化もしくは非相関器の主要部６３０、およびポスト・ミキサ６４０）にさらに分割することは必要ない点に留意されたい。

マルチチャネル非相関器６００の機能に関して、現実の非相関化が、例えば、直接、Ｎ個の非相関器入力信号が適用されるコンセプトを比較したとき、Ｎ個の非相関器入力信号の第１のセットからＫ個の非相関器入力信号の第２のセットを導出するようにプレミックスを実行し、そして、（プレミックスされまたは「ダウンミックされた」）Ｋ個の非相関器入力信号の第２のセットに基づいて非相関化を実行するコンセプトは、複雑さの低減をもたらすことに留意されたい。さらに、Ｎ’個の非相関器出力信号の第２の（アップミックスされた）セットは、アップミキサ６４０によって実行されうるポストミキシングに基づいて、現実の非相関化の結果である非相関器出力信号の第１の（元の）セットに基づいて得られる。このように、マルチチャネル非相関器６００は、（外側からみられたとき）効果的にＮ個の非相関器入力信号を受信し、そして、それに基づいて、Ｎ’個の非相関器出力信号を供給する。その一方で、現実の非相関器の主要部６３０は、より少ない数の信号（すなわち、Ｋ個の非相関器入力信号の第２のセットのＫ個のダウンミックスされた非相関器入力信号６２２ａ〜６２２ｋ）のみを処理するだけである。このように、マルチチャネル非相関器６００の複雑さは、従来の非相関器と比較したとき、非相関化（または非相関器の主要部）６３０の入力サイドでの（好ましくは、いかなる非相関化の機能のない線形のプレミキシングである）ダウンミックまたは「プレミキシング」を実行することによって、そして、非相関化（または非相関器の主要部６３０）の（元の）出力信号６３２ａ〜６３２ｋ’に基づいて、（例えば、いかなる追加の非相関化の機能のない線形のアップミキシングである）アップミキシングまたは「ポストミキシング」を実行することによって、実質的に低減されうる。

さらに、マルチチャネル非相関器６００は、マルチチャネル非相関化に関して、またマルチチャネル・オーディオ・デコーダにも関して、本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。本願明細書において記載される特徴は、それによって、マルチチャネル非相関器６００を改良するかまたは強化するように、個々に、または、組み合わせて、マルチチャネル非相関器６００に追加されうる点に留意されたい。

複雑さの低減のないマルチチャネル非相関器は、Ｋ＝Ｎ（そして、おそらくＫ’＝Ｎ’またはＫ＝Ｎ＝Ｋ’＝Ｎ’でさえ）、に対して上記したマルチチャネル非相関器から導出されうる点に留意されたい。

７．図７によるマルチチャネル・オーディオ・デコーダ
図７は本発明の実施の形態によるマルチチャネル・オーディオ・デコーダ７００のブロック概略図を示す。

マルチチャネル・オーディオ・デコーダ７００は、符号化表現７１０を受信し、それに基づいて、少なくとも２つの出力信号７１２，７１４を供給するように構成される。マルチチャネル・オーディオ・デコーダ７００は、図６によるマルチチャネル非相関器６００と実質的に同一であるマルチチャネル非相関器７２０を含む。さらに、マルチチャネル・オーディオ・デコーダ７００は、従来技術において当業者により知られている、または他のマルチチャネル・オーディオ・デコーダに関して本願明細書に記載されるようなマルチチャネル・オーディオ・デコーダの特徴または機能のいずれかを含みうる。

さらに、マルチチャネル・オーディオ・デコーダ７００が、高効率のマルチチャネル非相関器７２０を使用するので、マルチチャネル・オーディオ・デコーダ７００は、従来のマルチチャネル・オーディオ・デコーダと比較した場合、特に高い効率を含む。

８．図８によるマルチチャネル・オーディオ・エンコーダ
図８は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダ８００のブロック概略図を示す。マルチチャネル・オーディオ・エンコーダ８００は、少なくとも２つの入力オーディオ信号８１０，８１２を受信し、それに基づいて、入力オーディオ信号８１０，８１２によって表わされるオーディオ・コンテンツの符号化表現８１４を供給するように構成される。

マルチチャネル・オーディオ・エンコーダ８００は、少なくとも２つの入力オーディオ信号８１０，８１２に基づいて１つ以上のダウンミックス信号８２２を供給するように構成されるダウンミックス信号プロバイダ８２０を含む。マルチチャネル・オーディオ・エンコーダ８００は、１つ以上のパラメータ８３２（例えば、相互相関パラメータもしくは相互共分散パラメータ、または内部オブジェクト相関パラメータおよび／もしくはオブジェクト・レベル差パラメータ）を供給するように構成されるパラメータ・プロバイダ８３０も含む。さらに、マルチチャネル・オーディオ・エンコーダ８００は、（符号化表現８１４を受信する）オーディオ・デコーダのサイドで使用される非相関化の複雑さを記述している非相関化複雑さパラメータ８４２を供給するように構成される非相関化複雑さパラメータ・プロバイダ８４０を含む。１つ以上のダウンミックス信号８２２、１つ以上のパラメータ８３２、および非相関化複雑さパラメータ８４２が、好ましくは符号化形式において符号化表現８１４に含まれる。

しかしながら、マルチチャネル・オーディオ・エンコーダ８００（例えば、ダウンミックス信号プロバイダ８２０、パラメータ・プロバイダ８３０および非相関化複雑さパラメータ・プロバイダ８４０の存在）の内部構造は、単なる例示として考慮されるべきである。異なる構成は、本願明細書に記載されている機能が達成する限り、可能である。

マルチチャネル・オーディオ・エンコーダ８００の機能に関して、マルチチャネル・エンコーダは、符号化表現８１４を供給する点に留意されたい。ここで、１つ以上のダウンミックス信号８２２および１つ以上のパラメータ８３２は、（例えば、従来のＳＡＯＣオーディオ・エンコーダまたはＵＳＡＣオーディオ・エンコーダのような）従来のオーディオ・エンコーダによって供給されるダウンミックス信号およびパラメータに近似するか、または等しい。しかしながら、マルチチャネル・オーディオ・エンコーダ８００は、オーディオ・デコーダのサイドにおいて適用される非相関化の複雑さを決定することを許容する、非相関化複雑さパラメータ８４２も供給するように構成される。従って、非相関化の複雑さは、現在符号化されるオーディオ・コンテンツに適応されうる。例えば、入力オーディオ信号の特性についてエンコーダ側の情報に基づいて、達成可能なオーディオ品質に対応する所望の非相関化の複雑さの信号を送信することが可能である。例えば、空間的な特性がオーディオ信号に対して重要であることが分かっている場合、空間的な特性が重要でないとき、非相関化複雑さパラメータ８４２を使用して、より高い非相関化の複雑さの信号の送信がされうる。あるいは、高い複雑さの非相関化が、他の理由のためのオーディオ・デコーダのサイドで必要とされるような、オーディオ・コンテンツ、または全てのオーディオ・コンテンツの通過であることが分かっている場合、高い非相関化の複雑さの使用は、非相関化複雑さパラメータ８４２を使用して、信号の送信がされうる。

要約すると、マルチチャネル・オーディオ・エンコーダ８００は、信号特性、またはマルチチャネル・オーディオ・エンコーダ８００によって設定されうる所望の再生特性に適用される非相関化の複雑さを使用するために、マルチチャネル・オーディオ・デコーダを制御する可能性を提供する。

さらに、マルチチャネル・オーディオ・エンコーダ８００が、個々に、または、組み合わせて、マルチチャネル・オーディオ・エンコーダに関して、本願明細書に記述される特徴および機能のいずれかによって補充されうる点に留意されたい。例えば、マルチチャネル・オーディオ・エンコーダに関して、本願明細書に記載される特徴のいくつかまたは全ては、マルチチャネル・オーディオ・エンコーダ８００に追加されうる。さらに、マルチチャネル・オーディオ・エンコーダ８００は、本願明細書において記載されるマルチチャネル・オーディオ・デコーダとの協力に対して適応されうる。

９．図９による複数の非相関器入力信号に基づいて複数の非相関化信号を供給するための方法
図９は、複数の非相関器入力信号に基づいて、複数の非相関信号を供給するような方法９００のフローチャートを示す。

方法９００は、Ｎ個の非相関器入力信号の第１のセットをＫ個の非相関器入力信号の第２のセットにプレミックスするステップ９１０を含み、Ｋは、Ｎよりも小さい。方法９００は、Ｋ個の非相関器入力信号の第２のセットに基づいて、Ｋ’個の非相関器出力信号の第１のセットを供給するステップ９２０も含む。例えば、Ｋ’個の非相関器出力信号の第１のセットは、非相関化を使用してＫ個の非相関器入力信号の第２のセットに基づいて供給され、そして、それは、例えば、非相関器の主要部を使用するか、または非相関化アルゴリズムを使用して実行されうる。更に、方法９００は、Ｋ’個の非相関器出力信号の第１のセットをＮ’個の非相関器出力信号の第２のセットにポストミックスするステップ９３０を含み、Ｎ’はＫ’よりも大きい（Ｎ’およびＫ’は整数である）。従って、方法９００の出力であるＮ’個の非相関器出力信号の第２のセットは、方法９００に入力されるＮ個の非相関器入力の第１のセットに基づいて供給されうる。

方法９００が、上記のマルチチャネル非相関器と同じ考察に基づく点に留意されたい。さらに、方法９００は、個々に、または、組み合わせて、マルチチャネル非相関器に関して（そして、適用できる場合、マルチチャネル・オーディオ・エンコーダに関して）、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。

１０．図１０による符号化表現に基づいて少なくとも２つの出力オーディオ信号を供給する方法
図１０は、符号化表現に基づいて少なくとも２つの出力オーディオ信号を供給するための方法１０００のフローチャートを示す。

方法１０００は、符号化表現１０１２に基づいて少なくとも２つの出力オーディオ信号１０１４，１０１６を供給するステップ１０１０を含む。方法１０００は、図９による方法９００に従って、複数の非相関器入力信号に基づいて複数の非相関化信号を供給するステップ１０２０を含む。

方法１０００は、図７によるマルチチャネル・オーディオ・デコーダ７００と同じ考察に基づく点に留意されたい。

また、方法１０００は、個々に、または、組み合わせて、マルチチャネル・デコーダに関して、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。

１１．図１１による少なくとも２つの入力オーディオ信号に基づいて符号化表現を供給する方法
図１１は、少なくとも２つの入力オーディオ信号に基づいて符号化表現を供給する方法１１００のフローチャートを示す。

方法１０００は、少なくとも２つの入力オーディオ信号１１１２，１１１４に基づいて１つ以上のダウンミックス信号を供給するステップ１１１０を含む。方法１１００は、少なくとも２つの入力オーディオ信号１１１２，１１１４の間の関係を記述している１つ以上のパラメータを供給するステップ１１２０も含む。さらに、方法１１００は、オーディオ・デコーダのサイドで使用される非相関化の複雑さを記述している非相関化複雑さパラメータを供給するステップ１１３０を含む。従って、符号化表現１１３２は、少なくとも２つの入力オーディオ信号１１１２，１１１４に基づいて供給される。ここで、符号化表現は、典型的には、符号化形式において、１つ以上のダウンミックス信号、少なくとも２つの入力オーディオ信号の間の関係を記述している１つ以上のパラメータ、および非相関化複雑さパラメータを含む。

ステップ１１１０，１１２０，１１３０は、並行して、または本発明によるいくつかの実施の形態における異なる命令において実行されうる。さらに、方法１１００は、図８によるマルチチャネル・オーディオ・エンコーダ８００として同じ考察に基づき、そして、方法１１００は、個々に、または、組み合わせて、マルチチャネル・オーディオ・エンコーダに関して、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。さらに、方法１１００は、マルチチャネル・オーディオ・デコーダおよび本願明細書において記載されている少なくとも２つの出力オーディオ信号を供給するための方法をマッチするように適応されうる点に留意されたい。

１２．図１２による符号化オーディオ表現
図１２は、本発明の実施の形態による符号化オーディオ表現の概略図を示す。符号化オーディオ表現は、ダウンミックス信号の符号化表現１２１０、少なくとも２つの入力オーディオ信号の間の関係を記述している１つ以上のパラメータの符号化表現１２２０、およびオーディオ・デコーダのサイドにおいて使用される非相関化の複雑さを記述している符号化非相関化複雑さパラメータ１２３０を含む。従って、符号化オーディオ表現１２００は、改良された復号化効率、および改良されたオーディオ品質または符号化効率とオーディオ品質とのトレードオフの改良の可能性をもたらすマルチチャネル・オーディオ・デコーダによって使用される非相関化の複雑さを調整することを許容する。さらに、符号化オーディオ表現１２００は、本願明細書において記載されるようにマルチチャネル・オーディオ・エンコーダによって供給されえ、そして、本願明細書において記載されるようにマルチチャネル・オーディオ・エンコーダによって使用されうる点に留意されたい。従って、符号化オーディオ表現１２００は、マルチチャネル・オーディオ・エンコーダに関しておよびマルチチャネル・オーディオ・デコーダに関して記載される特徴のいずれかによって補充されうる。

１３．表記法および基本的な検討事項
近年では、複数のオーディオ・オブジェクトを含んでいるオーディオ・シーンのビットレートの効果的な伝送／格納のためのパラメータの技術は、オーディオ符号化の分野（例えば、参考文献［ＢＣＣ］［ＪＳＣ］［ＳＡＯＣ］［ＳＡＯＣ１］［ＳＡＯＣ２］を参照）およびインフォームド（ｉｎｆｏｒｍｅｄ）音源分離の分野（例えば、参考文献［ＩＳＳ１］［ＩＳＳ２］［ＩＳＳ３］［ＩＳＳ４］［ＩＳＳ５］［ＩＳＳ６］を参照）において提案されている。これらの技術は、伝送され／格納されたオーディオ・シーンおよび／またはオーディオ・シーンにおける音源オブジェクトを記述している追加のサイド情報に基づいて、所望の出力オーディオ・シーンまたはオーディオ音源オブジェクトを再構成することを意図する。この再構成は、パラメータのインフォームド音源分離を使用してデコーダにおいて生じる。さらに、参照は、例えば、国際標準ＩＳＯ／ＩＥＣ２３００３−１：２００７において記載されるいわゆる「ＭＰＥＧＳｕｒｒｏｕｎｄ（ＭＰＥＧサラウンド）」のコンセプトにもなされる。さらに、参照は、国際標準ＩＳＯ／ＩＥＣ２３００３−２：２０１０において記載されるいわゆる「ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（空間オーディオ・オブジェクト符号化）」にもなされる。さらに、参照は、国際規格ＩＳＯ／ＩＥＣ２３００３−３：２０１２において記載されるいわゆる「ＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ（音声音響統合符号化方式）」にもなされる。これらの標準からのコンセプトは、例えば、本願明細書において記載されるマルチチャネル・オーディオ・エンコーダおよび本願明細書において記載されるマルチチャネル・オーディオ・デコーダにおいて、本発明による実施の形態において使用される。ここで、いくつかの適応は必要とされうる。

以下に、いくつかの背景情報が、記載される。特に、パラメータの分離方式における概要は、ＭＰＥＧ空間オーディオ・オブジェクト符号化（ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ：ＳＡＯＣ）技術（例えば、参考文献［ＳＡＯＣ］を参照）の実施例を使用して、提供される。この方法の数学的プロパティは、考慮される。

一般的な損失なしに、方程式の可読性を改良するために、すべての導入される変数に対して、時間および周波数依存を表示しているインデックスは、この明細書において省略される。

１３．２パラメータ分離システム
一般的なパラメータ分離システムは、（例えば、内部チャネル相関値、内部チャネルレベル差値、内部オブジェクト相関値および／またはオブジェクト・レベル差情報のような）補助的なパラメータ情報を使用して信号混合（ダウンミックス）からオーディオ音源の数を推定することを意図する。この作業の典型的な解決は、最小２乗平均誤差（ＭｉｎｉｍｕｍＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ：ＭＭＳＥ）推定アルゴリズムのアプリケーションに基づく。ＳＡＯＣ技術は、パラメトリックオーディオ符号化／復号化システムのような１つの実施例である。

図１３は、ＳＡＯＣエンコーダ／デコーダ構造の一般的な原理を示す。換言すれば、図１３は、パラメトリックダウンミックス／アップミックスのコンセプトに基づくＭＭＳＥの概観を、ブロック概略図の形式で示す。

エンコーダ１３１０は、複数のオブジェクト信号１３１２ａ，１３１２ｂ〜１３１２ｎを受信する。さらに、エンコーダ１３１０は、例えば、ダウンミックス・パラメータであるミキシング・パラメータＤ，１３１４も受信する。エンコーダ１３１０は、それに基づいて、１つ以上のダウンミックス信号１３１６ａ，１３１６ｂ等を供給する。さらに、エンコーダは、サイド情報１３１８を供給する。１つ以上のダウンミックス信号およびサイド情報は、例えば、符号化形式で供給されうる。

エンコーダ１３１０は、典型的には、オブジェクト信号１３１２ａ〜１３１２ｎを受信し、ミキシング・パラメータ１３１４に基づいて、オブジェクト信号１３１２ａ〜１３１２ｎを結合して（例えば、ダウンミックスして）１つ以上のダウンミックス信号１３１６ａ，１３１６ｂを作成するように構成されるミキサ１３２０を含む。さらに、エンコーダは、オブジェクト信号１３１２ａ〜１３１２ｎからサイド情報１３１８を導出するように構成されるサイド情報推定器１３３０を含む。例えば、サイド情報推定器１３３０は、サイド情報が、例えば、（「内部オブジェクト相関」（ＩＯＣ：ｉｎｔｅｒ−ｏｂｊｅｃｔ−ｃｏｒｒｅｌａｔｉｏｎ））として指定されうる）オブジェクト信号の間の相互相関および／または（「オブジェクト・レベル差情報」（ＯＬＤ：ｏｂｊｅｃｔｌｅｖｅｌｉｎｆｏｒｍａｔｉｏｎ）として指定されうる）オブジェクト信号の間のレベル差を記述している情報である、オブジェクト信号の間の関係を記述するようなサイド情報１３１８を導出するように構成されうる。

１つ以上のダウンミック信号１３１６ａ，１３１６ｂおよびサイド情報１３１８は、参照番号１３４０に示されるように、デコーダ１３５０に格納されおよび／または送信されうる。

デコーダ１３５０は、（例えば、符号化形式で）１つ以上のダウンミックス信号１３１６ａ，１３１６ｂおよびサイド情報１３１８を受信し、そして、それに基づいて、複数の出力オーディオ信号１３５２ａ〜１３５２ｎを供給する。デコーダ１３５０は、（レンダリング行列を定義しうる）１つ以上のレンダリング・パラメータを含みうるユーザ相互作用情報１３５４も受信する。デコーダ１３５０は、パラメトリック・オブジェクト・セパレータ１３６０、サイド情報プロセッサ１３７０およびレンダラ１３８０を含む。サイド情報プロセッサ１３７０は、サイド情報１３１８を受信し、それに基づいて、パラメトリック・オブジェクト・セパレータ１３６０に対して制御情報１３７２を供給する。パラメトリック・オブジェクト・セパレータ１３６０は、ダウンミックス信号１３６０ａ，１３６０ｂおよびサイド情報プロセッサ１３７０によってサイド情報１３１８から導出された制御情報１３７２に基づいて、複数のオブジェクト信号１３６２ａ〜１３６２ｎを供給する。例えば、オブジェクト・セパレータは、符号化ダウンミックス信号およびオブジェクト分離の復号化を実行しうる。レンダラ１３８０は、それによって出力オーディオ信号１３５２ａ〜１３５２ｎを得るために、再構成オブジェクト信号１３６２ａ〜１３６２ｎをレンダリングする。

以下に、パラメータ・ダウンミックス／アップミックスのコンセプトに基づくＭＭＳＥの機能が述べられる。

一般的なパラメトリックダウンミックス／アップミックス処理は、時間／周波数の選択的な方法で実行され、以下のステップのシーケンスとして記載されうる。

・「エンコーダ」１３１０は、入力された「オーディオ・オブジェクト」Ｘおよび「ミキシング・パラメータ」Ｄを有する。「ミキサ」１３２０は、「ミキシング・パラメータ」Ｄ（例えば、ダウンミックスゲイン）を使用して「オーディオ・オブジェクト」Ｘをいくつかの「ダウンミックス信号」Ｙにダウンミックスする。「サイド情報推定器」は、入力された「オーディオ・オブジェクト」Ｘ（例えば、共分散特性）の特性を記述しているサイド情報１３１８を抽出する。

・「ダウンミックス信号」Ｙおよびサイド情報は、送信されるか、または格納される。これらのダウンミックスオーディオ信号は、さらに、オーディオコーダ（例えば、ＭＰＥＧ−１／２ＬａｙｅｒＩＩまたはＩＩＩ，ＭＰＥＧ−２／４ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ），ＭＰＥＧＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ（ＵＳＡＣ）等）を使用して圧縮されうる。サイド情報は、（例えば、オブジェクトパワーおよびオブジェクト相関係数の無損失性符号化関係として）効果的に再構成され、符号化されうる。

さらに、エンコーダ１３１０およびデコーダ１３５０に関して記載されている機能は、同様に本願明細書において記載されている他のオーディオ・エンコーダおよびオーディオ・デコーダにおいて使用されうる点に留意されたい。

結果として、推定誤差および推定自身は、直交する。

幾何学的に、図１４に示される例によって、これを視覚化しうる。

我々に、２つのオーディオ信号を使用して音源を再生する実施例を考慮させる。ＩＯＣ値が１に近い場合、音は、極めて局所化された点の音源として知覚される。ＩＯＣ値がゼロに近い場合、音源の知覚された幅は増加し、そして、極端な例では、２つの異なった音源としてとして知覚されることさえある［Ｂｌａｕｅｒｔ，第３章］。

１３．６再構成誤りの補償
不完全なパラメトリック再構成の場合、出力信号は、元のオブジェクトと比較して低いエネルギーを示しうる。共分散行列の対角要素の誤差は、（理想的な参照出力と比較して）聞き取れるレベル差、および歪められた空間音像における非対角要素での誤差を結果として得る。提案された方法は、この課題を解決するための目的を有する。

ＭＰＥＧＳｕｒｒｏｕｎｄ（ＭＰＳ）において、例えば、この問題は、いくつかの特定のチャネル・ベースの処理シナリオ、すなわち、モノラル／ステレオダウンミックスおよび限られた静的な出力構造（例えば、モノラル，ステレオ，５．１，７．１等）ためだけに扱われる。ＳＡＯＣのようにモノラル／ステレオダウンミックスも使用するオブジェクト指向技術において、この課題は、５．１の出力構造だけのためのＭＰＳ後処理レンダリングを適用することによって扱われる。

既存の解決策は、標準の出力構成および入出力チャネルの定数に限られる。すなわち、それらは、ちょうど「モノラル対ステレオ」（または「ステレオ対３チャネル」）のチャネル非相関を実装しているいくつかのブロックの結果として生じるアプリケーションとして理解される。

それゆえに、パラメトリック再構成誤りの補償のための一般的な解決策（例えば、エネルギーレベルおよび相関特性修正方法）が所望され、そして、それは柔軟な数のダウンミックス／出力チャネルおよび任意の出力構成セットアップに対して適用されうる。

１３．７結論
結論として、表記法に関する概要が提供された。さらに、パラメトリック分離システムは、本発明による実施の形態がベースであることが述べられた。さらに、最小２乗平均誤差推定に適用される直交原理が概説された。さらに、再構成誤差Ｘ_Errorの存在において適用する共分散行列Ｅ_Xの算出のための方程式が提供された。また、例えば、本発明による実施の形態において、（パラメトリックサイド情報において含まれうる）内部オブジェクト相関値から所望の共分散特性（または相関特性）を導出し、そして、おそらくオブジェクト・レベル差を形成するために適用されうる、いわゆる内部オブジェクト相関および共分散行列Ｅ_Xの要素との間の関係が提供された。さらに、再構成オブジェクト信号の特性が、不完全な再構成のため、所望の特性と異なることが概説された。さらに、課題を取り扱う既存の解決策が、いくつかの特定の出力構成に限られており、従来の解決策の変更できない標準ブロックの特定の結合に依拠することが概説された。

１４．図１５による実施の形態
１４．１コンセプトの概要
本発明による実施の形態は、任意の数のダウンミックス／アップミックスチャネルのための非相関化の解決策を有するパラメトリックオーディオ分離方式において使用されるＭＭＳＥパラメトリック再構成方法を拡張する。例えば、発明の装置および発明の方法のような本発明による実施の形態は、パラメトリック再構成の間のエネルギー損失を補償することができ、そして、推定されたオブジェクトの相関特性を復元しうる。

図１５は、統合された非相関化経路を有するパラメトリックダウンミックス／アップミックスのコンセプトの概要を提供する。換言すれば、ブロック概略図の形式において、レンダリングされた出力に適用される非相関化を伴うパラメトリック再構成システムを示す。

図１５に記載のシステムは、図１３に記載のエンコーダ１３１０と実質的に同一であるエンコーダ１５１０を含む。エンコーダ１５１０は、複数のオブジェクト信号１５１２ａ〜１５１２ｎを受信し、そして、それに基づいて、１つ以上のダウンミックス信号１５１６ａ，１５１６ｂおよびサイド情報１５１８を供給する。ダウンミックス信号１５１６ａ，１５１６ｂは、ダウンミックス信号１３１６ａ，１３１６ｂと実質的に同一でありえ、そして、Ｙによって指定される。サイド情報１５１８は、サイド情報１３１８と実質的に同一でありうる。しかしながら、例えば、サイド情報は、非相関化モードパラメータ、または非相関化方法パラメータ、または非相関化複雑さパラメータを含む。さらに、エンコーダ１５１０は、ミキシング・パラメータ１５１４を受信しうる。

パラメトリック再構成システムは、１つ以上のダウンミックス信号１５１６ａ，１５１６ｂおよびサイド情報１５１８の送信および／または格納も含む。ここで、送信および／または格納は、１５４０で指定され、１つ以上のダウンミックス信号１５１６ａ，１５１６ｂおよび（パラメトリックサイド情報を含みうる）サイド情報１５１８が、符号化されうる。

さらに、図１５によるパラメトリック再構成システムは、送信されまたは格納された１つ以上の（あるいは符号化）ダウンミックス信号１５１６ａ，１５１６ｂおよび送信されまたは格納された（あるいは符号化）サイド情報１５１８を受信し、そして、それに基づいて、出力オーディオ信号１５５２ａ〜１５５２ｎを供給するように構成される、デコーダ１５５０を含む。（マルチチャネル・オーディオ・デコーダとして考慮されうる）デコーダ１５５０は、パラメトリック・オーディオ・セパレータ１５６０およびサイド情報プロセッサ１５７０を含む。さらに、デコーダ１５５０は、レンダラ１５８０、非相関器１５９０およびミキサ１５９８を含む。

非相関器１５９０は、レンダリングされたオーディオ信号１５８２ａ〜１５８２ｎを受信し、そして、それに基づいて、Ｗでも指定される非相関化オーディオ信号１５９２ａ〜１５９２ｎを供給する。ミキサ１５９８は、レンダリングされたオーディオ信号１５８２ａ〜１５８２ｎおよび非相関化オーディオ信号１５９２ａ〜１５９２ｎを受信し、そして、レンダリングされたオーディオ信号１５８２ａ〜１５８２ｎと非相関化オーディオ信号１５９２ａ〜１５９２ｎとを結合し、それによって、出力オーディオ信号１５５２ａ〜１５５２ｎを得る。ミキサ１５９８は、後述するように、符号化サイド情報１５１８からサイド情報プロセッサ１５７０によって導出される制御情報１５７４も使用しうる。

１４．２非相関器の関数
以下に、非相関器１５９０に関する若干の詳細が記載される。しかしながら、いくつか後述されるように、異なる非相関器が使用されうる点に留意されたい。

非相関器の関数の実装のための正確な仕様は、この説明の範囲の外である。例えば、ＭＰＥＧＳｕｒｒｏｕｎｄＳｔａｎｄａｒｄにおいて特定された非相関器に基づく、いくつかの無限インパルス応答（ＩＩＲ）フィルタのバンクは、非相関化の目的のために利用されうる（［ＭＰＳ］）。

これらの関係から、

を結果として得る。

非相関器出力Ｗは、入力として予測された信号を使用することによって、（予測誤差が予測信号に対して直交することを記憶している）ＭＭＳＥ推定器における予測誤りを補償するように使用されうる。

それは、予測誤差がそれら自身の間において直交する一般的な場合ではない点に留意されたい。このように、結果として得られるミクスチャーの共分散行列（例えば、出力オーディオ信号１５５２ａ〜１５５２ｎ）が所望の出力の共分散行列に類似することになるように、本発明のコンセプト（例えば、方法）の目的１つは、「ドライ」（すなわち、非相関器入力）信号（例えば、レンダリングされたオーディオ信号１５８２ａ〜１５８２ｎ）および「ウェット」（すなわち、非相関器出力）信号（例えば、非相関化オーディオ信号１５９２ａ〜１５９２ｎ）のミクスチャーを作成することである。

さらに、以下に詳細に記載され、そして、しかしながら、受け入れられる、非相関化信号のいくつかの欠点をもたらす、非相関化装置のための複雑さの低減が使用される点に留意されたい。

１４．３非相関化信号を使用している出力共分散修正
以下に、コンセプトが、合理的に良好な聴覚印象を得るように、出力オーディオ信号１５５２ａ〜１５５２ｎの共分散特性を調整することを記載している。

しかしながら、この方程式は、もっとも一般的な定式化と考えられる点に留意されたい。変化は、本願明細書において記載されているすべての「簡略化された方法」に通用する（または、させ得る）上記の公式に、任意に適用されうる。

あるいは、一方、後で詳しく述べるように、以下の方程式

が、適用されうる。

理想的に作成されレンダリングされた出力シーンのターゲット共分散Ｃは、

Ｃ＝ＲＥ_XＲ^H

として、定義される。

原型の行列Ｈは、直接的なおよび非相関信号パスのために所望の加重に従って選択されうる。

例えば、可能な原型行列Ｈは、

として、決定されうる。

以下に、一般の行列Ｆの構造のための若干の数学的な導出が提供される。

換言すれば、一般的な解決法のための混合行列Ｆの導出は、以下において記載される。

共分散行列Ｅ_SおよびＣは、

Ｅ_S＝ＶＱＶ^H，Ｃ＝ＵＴＵ^H

として、例えば、特異値分解（ＳＶＤ）を使用して表わされ、ＴおよびＱは、それぞれＣおよびＥ_Sの特異値を有する対角行列であり、ＵおよびＶは、特異ベクトルに対応するユニタリ行列である。

（ＳＶＤの代わりに）シューア三角化または固有値分解のアプリケーションが、類似の結果（または、対角行列ＱおよびＴが正値に限定される場合、同一の結果）に至ることに留意されたい。

原型行列Ｈは、直接的なおよび非相関化信号パスのための所望の加重によって選択される。例えば、可能な原型行列Ｈは、

として、決定されうる。

結合信号の共分散行列Ｅ_Sの条件に応じて、最後の方程式は、いくつかの正則化を含むことを必要としうるが、さもなければ、数値的に安定でなければならない。

しかしながら、あるいは、サイド情報プロセッサ１５７０は、情報１５７４として、ミキサ１５９８に直接的に混合行列Ｆを供給も、しうる。

さらに、混合行列Ｆのための計算規則は、特異値分解を使用することを記載されていた。しかしながら、原型行列Ｈの入力ａ_i,iおよびｂ_i,iが選択されうるので、ある自由度がある点に留意されたい。好ましくは、原型行列Ｈの入力は、およそ０および１の間で選択される。非相関化オーディオ信号のインパクトは、比較的小さく、そして、それは、若干の状況において望ましくもある一方、値ａ_i,iが１に近づくように選択されうる場合、レンダリングされた出力オーディオ信号の重要な混合がある。しかしながら、レンダリングされたオーディオ信号の間における弱い混合がある一方、若干の他の状況において、非相関化オーディオ信号の比較的大きいインパクトを有することをより望まれうる。この場合、値ｂ_i,iは、ａ_i,iより大きいように典型的に選択される。このように、デコーダ１５５０は、原型行列Ｈの入力を適切に選択することによって、前提条件に適応されうる。

１４．４出力共分散修正のための簡略化された方法
このセクションにおいて、前述の混合行列Ｆのための２つの変形例の構造は、その値を決定するための典型的なアルゴリズムとともに記載される。２つの変形例は、異なる入力コンテンツ（例えば、オーディオ・コンテンツ）のために設計される。

− 高い相関コンテンツ（例えば、異なるチャネル対の間の高い相関を伴うチャネル・ベースの入力）のための共分散調整方法
− 独立入力信号（例えば、たいてい独立とみなされる、オブジェクト・ベースの入力）のためのエネルギー補償方法

非相関化信号Ｗの混合が操作されれば、混合行列Ｐは、単位行列（または、その倍数）に低減されうる。このように、この簡略化された方法は、

による設定によって、記載されうる。

システムの最後の出力は、

として、表わされうる。

従って、システムの最後の出力共分散は、

として、表わされうる。

従って、混合行列Ｍは、

のように、決定される。

このアプローチは、ドライ出力（例えば、レンダリングされたオーディオ信号１５８２ａ〜１５８２ｎ）を使用する良好な相互相関再構成の最大化を確実にし、そして、非相関化信号のみの混合の自由を利用する。換言すれば、レンダリングされたオーディオ信号（または、そのスケール化バージョン）と１つ以上の非相関化オーディオ信号とを結合する場合、異なるレンダリングされたオーディオ信号の間の混合は許容されない。しかしながら、出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号は、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンを結合することを許容する。ここで、定義されるように、例えば、結合は、行列Ｍによって定義される。

以下に、制限行列Ｆ構造のためのいくつかの数学的な導出が提供される。

換言すれば、簡略化された方法「Ａ」のための混合行列Ｍの導出が説明される。

共分散行列Δ_EおよびＥ_Wは、

Δ_E＝ＵＴＵ^H，Ｅ_W＝ＶＱＶ^H

として、例えば、特異値分解（ＳＶＤ）を使用して表わされ、ＴおよびＱは、それぞれΔ_EおよびＥ_Wの特異値を有する対角行列であり、ＵおよびＶは、対応する特異ベクトルを含むユニタリ行列である。

方程式の両側が行列の正方形を表す点に留意して、我々は積算を落とし、全行列Ｍのために解決する。

混合行列Ｍは、

として、決定されうることになる。

この方法は、

として理解される原型行列Ｈを設定することによって、一般的な方法から導出されうる。

ウェット信号の共分散行列Ｅ_Wの条件に応じて、最後の方程式は、いくつかの正則化を含むことを必要としうるが、さもなければ、数値的に安定でなければならない。

１４．４．２エネルギー補償方法（Ｂ）
時々（アプリケーション・シナリオに応じて）、（例えば、レンダリングされたオーディオ信号の）パラメトリック再構成または非相関化信号の混合を許容することを望まないが、しかし、個々に、各パラメータ的に再構成された信号（例えば、レンダリングされたオーディオ信号）とそれ自身の非相関化信号のみを混合することが望ましい。

この前提条件を達成するために、追加の制約は、簡略化方法「Ａ」にもたらされうる。現在、ウェット信号（非相関化信号）の混合行列Ｍが、対角形式を有することを必要とする。

このアプローチの主な目標は、パラメトリック再構成（例えば、レンダリングされたオーディオ信号）におけるエネルギーの損失を補償するように、非相関化信号を使用することになっている一方、出力信号の共分散行列の対角線の修正が無視される、すなわち、相互相関の直接的な取り扱いは、ない。従って、出力オブジェクト／チャネルの間（例えば、レンダリングされたオーディオ信号の間）のクロスリークは、非相関化信号のアプリケーションにおいて導かれない。

その結果、ターゲット共分散行列（または所望の共分散行列）の主対角線のみに達し、非対角は、パラメトリック再構成および付加的な非相関化信号の精度の軽減にある。この方法は、信号が相関関係のないように考慮されるオブジェクトのみのベースのアプリケーションに最も適している。

Ｃは、一般のケースのために前述したように決定されうる。

例えば、混合行列Ｍは、（オーディオ・デコーダによって決定されうる）非相関化信号のエネルギーを伴う補償信号の所望のエネルギー（（相互共分散行列Ｃの対角要素によって記述されうる）所望のエネルギーと（オーディオ・デコーダによって決定されうる）パラメトリック再構成のエネルギーとの間の差）を分割することによって直接的に導出されうる。

ここで、λ_Decは、出力信号（例えば、λ_Dec＝４）に加えられる非相関化の構成要素の量を制限するために用いられる０以上の閾値である。

エネルギーは、（例えば、ＯＬＤ，ＩＯＣ、およびレンダリング係数を使用して）パラメータ的に再構成されうるか、または、（典型的に、より計算的に価値のある）デコーダによって実質的に算出されうる点に留意されたい。

この方法は、

に示されるような原型行列Ｈを設定することによって一般的な方法から導出されうる。

この方法は、明確に、ドライのレンダリングされた出力の使用を最大にする。共分散行列が非対角の入力を有さない場合、方法は、単純化の「Ａ」を伴うものと等価である。

この方法は、低減された計算量の複雑さを有する。

しかしながら、エネルギー補償方法は、相互相関条件が修正されないことを必ずしも意味するものではない点に留意されたい。我々が、理想的な非相関器および非相関化装置のための複雑さの低減でないことを使用する場合だけ、これは保持する。方法の意図は、エネルギーを回復して、交差項における修正を無視することである（交差項における変化は、相関特性を実質的に修正せず、全体の空間印象に影響を及ぼさない）。

１４．５混合行列Ｆの前提条件
以下に、混合行列Ｆ、セクション１４．３および１４．４において記載されているその導出は、低下を回避する必要性を満たすと説明される。

出力における低下を回避するために、パラメトリック再構成誤差のための補償をするいかなる方法が、以下の特性を有する結果をもたらさなければならない。レンダリング行列が、ダウンミックス行列に等しい場合、そのとき、出力チャネルは、ダウンミックスチャネルと等しい（または、少なくとも近似する）べきである。提案されたモデルは、この特性を満足させる。レンダリング行列は、ダウンミックス行列と等しい場合Ｒ＝Ｄ、パラメトリック再構成は、

によって、与えられ、そして、所望の共分散行列は、

Ｃ＝ＲＥ_XＲ^H＝ＤＥ_XＤ^H＝Ｅ_Y

である。

これは、非相関化信号が、合計する際において、加重ゼロ（ｚｅｒｏ−ｗｅｉｇｈｔ）を有し、最後の出力は、ドライ信号によって与えられ、そして、それは、ダウンミックス信号と同一である。

その結果、このレンダリングシナリオにおいて、ダウンミックス信号に等しいようなシステム出力のための所与の前提条件は満たされる。

１４．６信号共分散行列Ｅ_Sの推定
混合行列Ｆを得るために、結合信号Ｓの共分散行列Ｅ_Sの情報が必要とされるか、または、少なくとも価値がある。

非相関器は理想的である（すなわち、エネルギーを保つこと、入力に対して、出力は直交すること、そして、すべての出力は、相互に直交すること）と仮定するならば、共分散行列Ｅ_Sは、

として、簡略化された形式を使用して表されうる。

相互に直交および／またはエネルギー保存の仮定が妨害される（例えば、利用可能な非相関器の数が、非相関化される信号の数よりも少ないときのケースにおける）場合、そのとき、共分散行列Ｅ_Wは、

として、推定される。

１４．７任意の改良：非相関化信号およびエネルギー調整装置を使用する出力共分散修正
以下に、特に、有利なコンセプトが記載され、そして、それは、本願明細書において記載される他のコンセプトと組み合わされうる。

しかしながら、この方程式は、最も一般的な定式化と考慮されうる点に留意されたい。変化は、本願明細書において記載されている全ての「簡略化された方法」に対して有効である上記の公式に、任意に適用されうる。

以下に、例えば、エネルギー調整装置によって実行されうる機能性が記載される。

上記の方程式において、例えば、独立変数Ｃ_estim（ｉ，ｉ）およびεの最大値を供給する分母における「ｍａｘ（．）」は、ゼロによる除算を回避するために、εまたは他のメカニズムの追加によって取り替えられる。

以下に、いくつかのさらなる簡略化したものが、記載される。換言すれば、出力共分散修正のための簡略化された方法が記載される。

非相関化（ウェット）信号Ｗの混合が操作されれば、混合行列Ｐは、単位行列に低減されうる。この場合、パラメータ的に再構成された（ドライ）信号に対応するエネルギー調整行列も、単位行列に低減されうる。このように、簡略化された方法は、

による設定によって、記載されうる。

システムの最後の出力は、

として、表されうる。

１５．非相関化装置のための複雑さの低減
以下に、本発明による実施の形態において使用される非相関器の複雑さがどのように低減されうるかが記載される。

非相関器の機能の実装は、しばしば、計算的に複雑である点に留意されたい。いくつかのアプリケーション（例えば、ポータブル・デコーダ・ソリューション）において、非相関器の数の制限は、制限された計算機のリソースのために導入されることを必要とされうる。このセクションは、適用される非相関器（または非相関化）の数を制御することによって、非相関器の装置の複雑さの低減のための手段の記載を提供する。非相関化装置のインターフェースは、図１６および図１７において表現される。

非相関化装置１７００は、非相関器出力信号の第１のセットのＫ個の非相関器出力信号１７３２ａ〜１７３２ｋを受信し、それに基づいて、（「外部の」非相関器出力信号を構成する）非相関器出力信号の第２のセットのＮ個の信号１７１２ａ〜１７１２ｎを供給するように構成される、ポスト・ミキサ１７４０を含む。

プレミキサ１７２０は、プレミキシング行列Ｍ_preによって記載される線形混合処理を、好ましくは実行しうる。さらに、ポスト・ミキサ１７４０は、Ｋ個の非相関器出力信号１７３２ａ〜１７３２ｋの第１のセットから（すなわち、非相関器の主要部１７３０の出力信号から）非相関器出力信号の第２のセットのＮ個の非相関器出力信号１７１２ａ〜１７１２ｎを導出するために、ポストミキシング行列Ｍ_preによって表されうる、線形混合（または、アップミックス）処理を、好ましくは実行する。

提案された方法と装置の主要な考えは、以下によって、ＮからＫへ、非相関器への（または非相関器の主要部への）入力信号の数を低減することである。

・次式を伴う数を下げるために、信号（例えば、レンダリングされたオーディオ信号）をプレミックスする。

・次式を伴う利用可能なＫ個の非相関器（例えば、非相関器の主要部）を使用して非相関化を適用する。

・次式を伴うＮ個のチャネルへ非相関化信号をアップミックスする。

使用される非相関器（または、個々の非相関器）の数Ｋは、特定されず、所望の計算量の複雑さおよび利用可能な非相関器に依存している。その値は、（最も高い計算量の複雑さの）Ｎ個から（最も低い計算量の複雑さの）１個に至るまで変化する。

非相関器の装置への入力信号の数Ｎは、任意であり、そして、提案された方法は、システムのレンダリング構造において独立していて、いかなる入力信号の数を支持する。

例えば、３Ｄのオーディオ・コンテンツを使用しているアプリケーションにおいて、多数の出力チャネルについては、出力構成に応じて、プレミキシング行列Ｍ_preのためのある可能な表現が後述される。

以下において、非相関化装置１７００がマルチチャネル・オーディオ・デコーダにおいて使用された場合、プレミキサ１７２０（および、従って、ポスト・ミキサ１７４０によって実行されるポストミックス）によって実行されるプレミックスが、どのように調整されるかを記載する。ここで、非相関器入力信号の第１のセットの非相関器入力信号１７１０ａ〜１７１０ｎは、オーディオ・シーンの異なる空間的な位置と関連している。

この目的のために、図１８は、異なる出力フォーマットのために使用されるスピーカ位置のテーブル表現を示す。

図１８の表１８００において、第１列１８１０は、スピーカのインデックスナンバーを記載する。第２列１８２０は、スピーカラベルを記載する。第３列１８３０は、それぞれのスピーカの方位角の位置を記載し、第４列１８３２は、スピーカの位置の方位角の許容差を記載する。第５列１８４０は、それぞれのスピーカの位置の仰角を記載し、第６列１８４２は、対応する仰角許容差を記載する。第７列１８５０は、スピーカが出力フォーマットＯ−２．０のために使用されることを指し示す。第８列１８６０は、スピーカが出力フォーマットＯ−５．１のために使用されることを示す。第９列１８６４は、スピーカが出力フォーマットＯ−７．１のために使用されることを示す。第１０列１８７０は、スピーカが出力フォーマットＯ−８．１のために使用されることを示し、第１１列１８８０は、スピーカが出力フォーマットＯ−１０．１のために使用されることを示し、そして、第１２列１８９０は、スピーカが出力フォーマットＯ−２２．２のために使用されることを示す。表に示されるように、２個のスピーカが、出力フォーマットＯ−２．０のために使用され、６個のスピーカが、出力フォーマットＯ−５．１のために使用され、８個のスピーカが、出力フォーマット７．１のために使用され、９個のスピーカが、出力フォーマットＯ−８．１のために使用され、１１個のスピーカが、出力フォーマットＯ−１０．１に対して使用され、そして、２４個のスピーカが、出力フォーマットＯ−２２．２のために使用される。

しかしながら、１つの低音効果のスピーカは、出力フォーマットＯ−５．１，Ｏ−７．１，Ｏ−８．１およびＯ−１０．１のために使用され、２つの低音効果のスピーカ（ＬＦＥ１，ＬＦＥ２）は、出力フォーマットＯ−２２．２のために使用される点に留意されたい。さらに、好ましい実施の形態において、１つ以上の低音効果のスピーカを除いて、１つのレンダリングされたオーディオ信号（例えば、レンダリングされたオーディオ信号１５８２ａ〜１５８２ｎのうちの１つ）が、スピーカの各々に関連している点に留意されたい。従って、２つのレンダリングされたオーディオ信号は、Ｏ−２．１フォーマットにより使用される２個のスピーカに関連しており、Ｏ−５．１フォーマットが使用される場合、５つのレンダリングされたオーディオ信号は、５個の低音効果でないスピーカに関連しており、Ｏ−７．１フォーマットが使用される場合、７つのレンダリングされたオーディオ信号は、７個の低音効果でないスピーカに関連しており、Ｏ−８．１フォーマットが使用される場合、８つのレンダリングされたオーディオ信号は、８個の低音効果でないスピーカに関連しており、Ｏ−１０．１フォーマットが使用されう場合、１０個のレンダリングされたオーディオ信号が、１０個の低音効果でないスピーカに関連しており、そして、Ｏ−２２．２フォーマットが使用される場合、２２個のレンダリングされたオーディオ信号は、２２個の低音効果でないスピーカに関連している。

図１９ａ〜図１９ｇは、Ｎ＝２２のレンダリングされたオーディオ信号があるという仮定のもとに、レンダリングされたオーディオ信号１５８２ａ〜１５８２ｎをプレミックスするための異なるオプションを表す。例えば、図１９ａは、プレミキシング行列Ｍ_preの入力のテーブル表現を示す。図１９ａにおける１〜１１のラベルを付けられた行は、プレミキシング行列Ｍ_preの行を表し、１〜２２のラベルを付けられた列は、プレミキシング行列Ｍ_preの列を表す。さらに、プレミキシング行列Ｍ_preの行の各々は、非相関器入力信号の第２のセットのＫ個の非相関器入力信号１７２２ａ〜１７２２ｋのうちの１つ（すなわち、非相関器の主要部の入力信号）に関連している点に留意されたい。さらに、プレミキシング行列Ｍ_preの列の各々は、非相関器入力信号の第１のセットのＮ個の非相関器入力信号１７１０ａ〜１７１０ｎのうちの１つに関連しており、そして、その結果、（非相関器入力信号の第１のセットの非相関器入力信号１７１０ａ〜１７１０ｎが、実施の形態におけるレンダリングされたオーディオ信号１５８２ａ〜１５８２ｎに典型的に同一であるので）レンダリングされたオーディオ信号１５８２ａ〜１５８２ｎに関連している。従って、プレミキシング行列Ｍ_preの列の各々は、特定のスピーカに関連し、そして、特定の空間的な位置に関連しているので、その結果、スピーカは空間的な位置に関連している。行１９１０は、プレミキシング行列Ｍ_preの列が関連しているスピーカ（およびその結果、空間的な位置）を示す（ここで、スピーカのラベルは、表１８００の列１８２０において定義される）。

以下において、図１９ａのプレミキシングＭ_preによって定義される機能が、さらに詳細に記載される。表に示すように、スピーカ（または、スピーカ位置と同等）「ＣＨ＿Ｍ＿０００」および「ＣＨ＿Ｌ＿０００」に関連するレンダリングされたオーディオ信号は、非相関器入力信号の第２のセットの第１の非相関器入力信号（すなわち、第１のダウンミックスされた非相関器入力信号）を得るために結合され、そして、それは、プレミキシング行列Ｍ_preの第１行の第１列および第２列における「１」の値によって指し示される。同様に、スピーカ（または、スピーカ位置と同等）「ＣＨ＿Ｕ＿０００」および「ＣＨ＿Ｔ＿０００」に関連するレンダリングされたオーディオ信号は、第２のダウンミックスされた非相関器入力信号（すなわち、非相関器入力信号の第２のセットの第２の非相関器入力信号）を得るために結合される。さらに、１１個のダウンミックスされた非相関器入力信号が、２２個のレンダリングされたオーディオ信号から導出されるように、図１９ａのプレミキシング行列Ｍ_preは、２つのレンダリングされたオーディオ信号の１１の組み合わせを定義することが示されうる。（プレミキシング行列の１〜４列および１および２行を参照して）２つのダウンミックスされた非相関器入力信号を得るために、４つの中心の信号が結合されることを示す。さらに、他のダウンミックスされた非相関器入力信号が、オーディオ・シーンの同じ側に関連している２つのオーディオ信号を結合することによって各々得られることを示す。例えば、プレミキシング行列の第３行によって表される、第３のダウンミックスされた非相関器入力信号は、＋１３５°（「ＣＨ＿Ｍ＿Ｌ１３５」；「ＣＨ＿Ｕ＿Ｌ１３５」）の方位角の位置に関連しているレンダリングされたオーディオ信号を結合することによって得られる。さらに、（プレミキシング行列の第４行によって表される）第４の非相関器入力信号は、−１３５°（「ＣＨ＿Ｍ＿Ｒ１３５」；「ＣＨ＿Ｕ＿Ｒ１３５」）の方位角の位置に関連しているレンダリングされたオーディオ信号を結合することによって得られる。従って、ダウンミックスされた非相関器入力信号の各々は、その（または同等の）方位角の位置（または、同等の水平位置）に関連している２つのレンダリングされたオーディオ信号を結合することによって得られる。ここで、典型的には、異なる仰角（または、同等の垂直位置）に関連している信号の結合を有する。

（プレミキシング行列Ｍ_preの入力）Ｎ＝２２およびＫ＝１０に対するプレミキシング係数を示す図１９ｂを現在、参照する。図１９ｂの表の構成は、図１９ａの表の構成と同一である。しかしながら、表に示されるように、第１行が、チャネルＩＤ（または位置）「ＣＨ＿Ｍ＿０００」、「ＣＨ＿Ｌ＿０００」、「ＣＨ＿Ｕ＿０００」および「ＣＨ＿Ｔ＿０００」を有する４つのレンダリングされたオーディオ信号の結合を記載する点において、図１９ｂによるプレミキシング行列Ｍ_preは、図１９ａのプレミキシング行列Ｍ_preと異なる。換言すれば、垂直に隣接する位置に関連している４つのレンダリングされたオーディオ信号は、必要な非相関器（図１９ａによる行列のための１１個の非相関器の代わりに１０個の非相関器）の数を低減するためにプレミキシングにおいて結合される。

（プレミキシング行列Ｍ_preの入力）Ｎ＝２２およびＫ＝９に対するプレミキシング係数を示す図１９ｃを現在、参照し、表に示すように、図１９ｃによるプレミキシング行列Ｍ_preは、９行のみにより構成される。さらに、第２のダウンミックスされた非相関器入力信号（非相関器入力信号の第２のセットの非相関器入力信号）を得るために、チャネルＩＤ（または位置）「ＣＨ＿Ｍ＿Ｌ１３５」、「ＣＨ＿Ｕ＿Ｌ１３５」、「ＣＨ＿Ｍ＿Ｒ１３５」および「ＣＨ＿Ｕ＿Ｒ１３５」に関連するレンダリングされたオーディオ信号が結合される点において、図１９ｃのプレミキシング行列Ｍ_preの第２行から示されうる。表に示すように、図１９ａおよび図１９ｂによりプレミキシング行列によって別々にダウンミックスされた非相関器入力信号に結合されているレンダリングされたオーディオ信号は、図１９ｃによる共通のダウンミックスされた非相関器入力信号にダウンミックスされる。さらに、チャネルＩＤ「ＣＨ＿Ｍ＿Ｌ１３５」および「ＣＨ＿Ｕ＿Ｌ１３５」を有するレンダリングされたオーディオ信号は、オーディオ・シーンの同じ側における同一の水平位置（または方位角位置）および空間的に隣接する垂直位置（または仰角）に関連しており、そして、チャネルＩＤ「ＣＨ＿Ｍ＿Ｒ１３５」および「ＣＨ＿Ｕ＿Ｒ１３５」を有するレンダリングされたオーディオ信号は、オーディオ・シーンの第２の側における同一の水平位置（または方位角位置）および空間的に隣接する垂直位置（または仰角）に関連している点に留意されたい。さらに、チャネルＩＤ「ＣＨ＿Ｍ＿Ｌ１３５」、「ＣＨ＿Ｕ＿Ｌ１３５」、「ＣＨ＿Ｍ＿Ｒ１３５」および「ＣＨ＿Ｕ＿Ｒ１３５」を有するレンダリングされたオーディオ信号は、左側の位置および右側の位置を含んでいる空間的な位置の水平のペア（または、水平の４つの部分から構成される）に関連している。換言すれば、単一の所与の非相関器を使用して非相関化するように結合される４つのレンダリングされたオーディオ信号の２つが、オーディオ・シーンの左側の空間的な位置に関連しており、同じ所与の非相関器を使用して非相関化するように結合される４つのレンダリングされたオーディオ信号の２つが、オーディオ・シーンの右側の空間的な位置に関連している、図１９ｃのプレミキシング行列Ｍ_preの第２行において示されうる。さらに、レンダリングされたオーディオ信号の「対称な」４つの部分から構成されることは、単一の（個々の）非相関器を使用して非相関化するようにプレミックスすることによって結合されるように、（前記４つのレンダリングされたオーディオ信号の）左側のレンダリングされたオーディオ信号は、（前記４つのレンダリングされたオーディオ信号の）右側のレンダリングされたオーディオ信号に関連している空間的な位置を伴って、オーディオ・シーンの中心面に関して対称的である空間的な位置に関連している。

図１９ｄ，１９ｅ，１９ｆおよび１９ｇを参照して、ますますレンダリングされたオーディオ信号が、（個々の）非相関器の数が減少とともに（すなわち、Ｋの減少とともに）結合されることが分かる。図１９ａ〜図１９ｇに示すように、典型的に、２つに分かれたダウンミックスされた非相関器入力信号にダウンミックスされるレンダリングされたオーディオ信号は、１によって非相関器の数を減少させる場合、結合される。さらに、典型的に、空間的な位置の「対称な４つの部分から構成される」に関連している、この種のレンダリングされたオーディオ信号が、結合される。ここで、非相関器の比較的高い数に対して、等しいか、少なくとも類似の水平位置（または方位角位置）に関連しているレンダリングされたオーディオ信号が結合される。その一方で、非相関器の比較的低い数に対して、オーディオ・シーンの対向側における空間的な位置に関連しているレンダリングされたオーディオ信号も結合される。

今、図２０ａ〜２０ｄ、２１ａ〜２１ｃ、２２ａ〜２２ｂおよび２３を参照して、類似のコンセプトが、レンダリングされたオーディオ信号の異なる数に対しても適用されうる。

例えば、図２０ａ〜２０ｄは、Ｎ＝１０およびＫは２と５の間に対する、プレミキシング行列Ｍ_preの入力を記載する。

同様に、図２１ａ〜２１ｃは、Ｎ＝８およびＫは２と４の間に対する、プレミキシング行列Ｍ_preの入力を記載する。

同様に、図２１ｄ〜２１ｆは、Ｎ＝７およびＫは２と４の間に対する、プレミキシング行列Ｍ_preの入力を記載する。

図２２ａおよび２２ｂは、Ｎ＝５ならびにＫ＝２およびＫ＝３に対する、プレミキシング行列の入力を示す。

最後に、図２３は、Ｎ＝２およびＫ＝１に対する、プレミキシング行列の入力を示す。

要約すると、マルチチャネル・オーディオ・デコーダの一部であるマルチチャネル非相関器において、図１９〜２３によるプレミキシング行列は、切り替え可能な方法で使用されうる。プレミキシング行列の間の切り替えは、例えば、（Ｎ個のレンダリングされたオーディオ信号を典型的に決定する）所望の出力構成に基づき、そして、（例えば、パラメータＫを決定し、そして、オーディオ・コンテンツの符号化表現において含まれる複雑さの情報に基づいて調整されうる）非相関化の所望の複雑さにも基づいて、実行されうる。

今、図２４を参照して、２２．２出力フォーマットのための複雑さの低減が、詳細に記載されている。既に、上で概説されるように、プレミキシング行列およびポストミキシング行列を構成するための１つの可能な解決法は、一緒に混合されたチャネルを選択するために、再生レイアウトの空間的情報を使用することであり、そして、ミキシング係数を算出する。それらの位置に基づいて、幾何学的に関連したスピーカ（および、例えば、それに関連しているレンダリングされたオーディオ信号）は、図２４において記載されるように垂直および水平の対を与え、グループ化される。換言すれば、図２４は、表の形式において、レンダリングされたオーディオ信号に関連しうるように、スピーカの位置のグループ分けを示す。例えば、第１行２４１０は、オーディオ・シーンの中央におけるスピーカ位置の第１グループを記載する。第２行２４１２は、空間的に関連しているスピーカ位置の第２グループを表す。スピーカ位置「ＣＨ＿Ｍ＿Ｌ１３５」および「ＣＨ＿Ｕ＿Ｌ１３５」は、同一の方位角位置（または水平位置に同等）および隣接する仰角位置（または垂直に隣接する位置に同等）に関連している。同様に、位置「ＣＨ＿Ｍ＿Ｒ１３５」および「ＣＨ＿Ｕ＿Ｒ１３５」は、同一の方位角（または同一の水平位置に同等）および同様の仰角（または垂直に隣接する位置に同等）を含む。さらに、位置「ＣＨ＿Ｍ＿Ｌ１３５」、「ＣＨ＿Ｕ＿Ｌ１３５」、「ＣＨ＿Ｍ＿Ｒ１３５」および「ＣＨ＿Ｕ＿Ｒ１３５」は、位置の４つの部分から構成される。ここで、位置「ＣＨ＿Ｍ＿Ｌ１３５」および「ＣＨ＿Ｕ＿Ｌ１３５」は、オーディオ・シーンの中心面に関して、位置「ＣＨ＿Ｍ＿Ｒ１３５」および「ＣＨ＿Ｕ＿Ｒ１３５」に対称である。さらに、位置「ＣＨ＿Ｍ＿１８０」および「ＣＨ＿Ｕ＿１８０」も同一の方位角の位置（または同一の水平位置に同等）および同様の仰角（または隣接する垂直位置に同等）を含む。

第３行２４１４は、位置の第３グループを表す。位置「ＣＨ＿Ｍ＿Ｌ０３０」および「ＣＨ＿Ｌ＿Ｌ０４５」は、空間的に隣接する位置であり、同様な方位角（または同様な水平位置に同等）および同様な仰角（または同様な垂直位置に同等）を含む点に留意されたい。同じことは、位置「ＣＨ＿Ｍ＿Ｒ０３０」および「ＣＨ＿Ｌ＿Ｒ０４５」に対しても維持する。さらに、位置の第３グループの位置は、位置の４つの部分から構成されるように形成される。ここで、位置「ＣＨ＿Ｍ＿Ｌ０３０」および「ＣＨ＿Ｌ＿０４５」は、位置「ＣＨ＿Ｍ＿Ｒ０３０」および「ＣＨ＿Ｌ＿Ｒ０４５」に空間的に隣接しており、オーディオ・シーンの中心面に関して対称である。

第４行２４１６は、４つの追加の位置を表し、第２行の第１の４つの位置と比較したとき、同様の特性を有しており、位置の対称に４つの部分から構成されるように形成する。

第５行２４１８は、対称の位置「ＣＨ＿Ｍ＿Ｌ０６０」、「ＣＨ＿Ｕ＿Ｌ０４５」、「ＣＨ＿Ｍ＿Ｒ０６０」および「ＣＨ＿Ｕ＿Ｒ０４５」の他の４つの部分から構成されることを表す。

さらに、位置の異なるグループの位置に関連しているレンダリングされたオーディオ信号は、非相関器の数の減少とともにますます結合されうる点に留意されたい。例えば、マルチチャネル非相関器における１１個の個々の非相関器において、第１および第２列における位置に関連しているレンダリングされたオーディオ信号は、各グループに対して結合されうる。加えて、第３および第４列において表される位置に関連しているレンダリングされたオーディオ信号は、各グループに対して結合されうる。さらに、第５および第６列において示される位置に関連しているレンダリングされたオーディオ信号は、第２グループに対して結合される。従って、（個々の非相関器に入力される）１１個のダウンミックス非相関器入力信号が得られうる。しかしながら、より少ない個々の非相関器を有することが望ましい場合、１〜４列において示される位置に関連しているレンダリングされたオーディオ信号は、１つ以上のグループに対して結合されうる。また、個々の非相関器の数をさらに減少することが望ましい場合、第２のグループのすべての位置に関連しているレンダリングされたオーディオ信号が結合されうる。

要約すると、出力レイアウト（例えば、スピーカに）に供給される信号は、水平および垂直依存があり、非相関化処理の間、維持されなければならない。従って、異なるスピーカのグループに対応するチャネルが一緒に混合されないように、ミキシング係数は算出される。

利用可能な非相関器の数、または非相関化の所望のレベルに応じて、各グループにおいて、第１は、（中間層および上層との間、または中間層および下層の間における）垂直のペアを一緒に混合される。第２に、（左と右の間における）水平のペアまたは残りの垂直のペアが一緒に混合される。例えば、グループ３において、最初に、左の垂直のペア（「ＣＨ＿Ｍ＿Ｌ０３０」および「ＣＨ＿Ｌ＿Ｌ０４５」）と右の垂直のペア（「ＣＨ＿Ｍ＿Ｒ０３０」および「ＣＨ＿Ｌ＿Ｒ０４５」）におけるチャネルが一緒に混合され、このようにして、４から２まで、このグループのための必要な非相関器の数を減少する。非相関器の数をより減らすことが望ましい場合、得られた水平ペアは、１つのチャネルのみにダウンミックスされ、このグループのための必要な非相関器の数は、４から１まで減らされる。

提示された混合規則に基づいて、（例えば、図１９〜２３において示される）前述の表は、所望の非相関器の異なるレベルに対して（または、所望の非相関器の複雑さの異なるレベルに対して）導出される。

１６．第２の外部のレンダラ／フォーマット変換器との互換性
ＳＡＯＣデコーダ（または、さらに一般的にいえば、マルチチャネル・オーディオ・デコーダ）が、外部の第２のレンダラ／フォーマット変換器と共に使用される場合、以下において、提案されたコンセプト（方法または装置）に対する変更が、使用されうる。

− 非相関器の数が、レンダラ／フォーマット変換器から受信されたフィードバック情報に基づいて算出されるプレミキシング行列Ｍ_preを有するセクション１５において記載される方法を使用して低減される（例えば、Ｍ_pre＝Ｄ_convert、ここで、Ｄ_convertは、フォーマット変換器の内部で使用されるダウンミックス行列である。）。ＳＡＯＣデコーダの外側で一緒に混合されるチャネルは、一緒にプレミックスされ、そして、ＳＡＯＣデコーダの内部の同じ非相関器に供給される。

外部フォーマット変換器を用いて、ＳＡＯＣ内部レンダラは、中間の構造（例えば、最多数のスピーカの構造）にプレレンダラする。

結論として、プレミキシング行列が、外部レンダラに実際に結合される（非相関器入力信号の第１のセットの）この種の非相関器入力信号の組み合わせを定義するように、いくつかの実施の形態において、出力オーディオ信号についての情報は、外部レンダラにおいて一緒に混合されるか、またはフォーマット変換器がプレミキシング行列Ｍ_preを決定するように使用される。このように、（マルチチャネル非相関器の出力オーディオ信号を受信する）外部レンダラ／フォーマット変換器から受信された情報は（例えば、マルチチャネル・オーディオ・デコーダの内部レンダリング行列が固有にセットされるか、または、中間のレンダリング構造から導出されたミキシング係数に初期化するように設定される場合）、プレミキシング行列を選択もしくは調整するように使用され、そして、外部レンダラ／フォーマット変換器は、マルチチャネル・オーディオ・デコーダに関して、上記したように出力オーディオ信号を受信するように接続される。

１７．ビットストリーム
以下において、追加の信号伝達情報がビットストリームにおいて（または、オーディオ・コンテンツの符号化表現において、同等に）使用されうることが記載される。本発明による実施の形態において、非相関化の方法は、所望の品質レベルを確実にするためのビットストリームに信号を送信されうる。このような方法で、ユーザ（またはオーディオ・エンコーダ）は、コンテンツに基づいて方法を選択するように、より多くの柔軟性を有する。この目的のために、ＭＰＥＧＳＡＯＣビットストリーム構文は、例えば、使用された非相関化の方法を特定するための２ビットおよび／または構造（または複雑さ）を特定するための２ビットによって延長されうる。

図２５は、例えば、ビットストリーム部「ＳＡＯＣＳｐｅｃｉｆｉｇＣｏｎｆｉｇ（）」または「ＳＡＯＣ３ＤＳＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）」に追加されうる、ビットストリーム要素「ｂｓＤｅｃｏｒｒｌｌａｔｉｏｎＭｅｔｈｏｄ」および「ｂｓＤｅｃｏｒｒｅｌａｔｉｏｎＬｅｖｅｌ」の構文表現を示す。図２５に示されるように、２つのビットは、ビットストリーム要素「ｂｓＤｅｃｏｒｒｅｌａｔｉｏｎＭｅｔｈｏｄ」のために使用され、そして、２つのビットは、ビットストリーム要素「ｂｓＤｅｃｏｒｒｅｌａｔｉｏｎＬｅｖｅｌ」のために使用されうる。

図２６は、表の形式において、ビットストリーム変数「ｂｓＤｅｃｏｒｒｅｌａｔｉｏｎＭｅｔｈｏｄ」の値と異なる非相関化方法との間の関連性を示す。例えば、３つの異なる非相関化の方法が、前記ビットストリーム変数の異なる値によって信号を送信されうる。例えば、セクション１４．３において記載されるように、例えば、非相関化信号を使用する出力共分散修正は、オプションのうちの１つとして信号を送信されうる。他のオプションとして、例えば、セクション１４．４．１において記載されるように、共分散調整方法が信号を送信されうる。さらにもう１つのオプションとして、例えば、セクション１４．４．２において記載されるように、エネルギー補償方法が信号を送信されうる。従って、レンダリングされたオーディオ信号および非相関化オーディオ信号に基づいて出力オーディオ信号の信号特性の再構成のための３つの異なる方法は、ビットストリーム変数に依存して選択されうる。

エネルギー補償モードは、セクション１４．４．２において記載される方法を使用し、、制限された共分散調整モードは、セクション１４．４．１において記載される方法を使用し、一般の共分散調整モードは、セクション１４．３において記載される方法を使用する。

今、表の表現の形式において、異なる非相関化レベルが、ビットストリーム変数「ｂｓＤｅｃｏｒｒｅｌａｔｉｏｎＬｅｖｅｌ」によってどのように信号を送信されうるかを示す図２７への参照することで、非相関化の複雑さを選択する方法が記載される。換言すれば、前記変数は、非相関化の複雑さが使用されるかについて決定するように、上記のマルチチャネル非相関器を含むマルチチャネル・オーディオ・デコーダによって評価されうる。例えば、前記ビットストリーム・パラメータは、値０，１，２および３を示されうる異なる非相関化「レベル」の信号を送信しうる。

（例えば、非相関化レベルとして示されうる）非相関化の構成の例が、図２７の表において与えられる。図２７は、異なる「レベル」（例えば、非相関化レベル）および出力構造のための非相関器の数の表の表現を示す。換言すれば、図２７は、マルチチャネル非相関器によって使用される（非相関器入力信号の第２のセットの）Ｋ個の非相関器入力信号を示す。図２７の表において示されるように、ビットストリーム・パラメータ「ｂｓＤｅｃｏｒｒｅｌａｔｉｏｎＬｅｖｅｌによって信号を送信される「非相関化レベル」に基づいて、マルチチャネル非相関器において使用される（個々の）非相関器の数は、２２．２の出力構造に対して、１１，９，７および５の間において切り替えられる。１０．１の出力構造に対して、選択は、１０，５，３および２の個々の非相関器の間においてなされ、８．１の構造に対して、選択は、８，４，３または２の個々の非相関器の間においてなされ、そして、７．１の出力構造に対して、選択は、前記ビットストリーム・パラメータによって信号を送信される「非相関化レベル」に依存する、７，４，３および２の間において切り替えられる。５．１の出力構造において、個々の非相関器の数、すなわち、５，３または２のような個々の非相関器の数のための３つの有効なオプションのみを有する。２．１の出力構造に対して、２つの個々の非相関器（非相関化レベル０）と１つの個々の非相関器（非相関化レベル１）との間の選択のみである。

要約すると、非相関化の方法は、計算機のパワーおよび利用可能な非相関器の数に基づいて、デコーダ側で決定されうる。加えて、非相関器の数の選択は、エンコーダ側でなされ、ビットストリーム・パラメータを使用して信号の送信がなされる。

従って、出力オーディオ信号を得るために、非相関化オーディオ信号がどのように適用されるか２つの方法が適用され、そして、非相関化信号の供給のための複雑さが、図２５において示されるビットストリームを使用してオーディオ・エンコーダのサイドから制御され、そして、図２６および２７においてより詳細に定義される。

１８．発明の処理のためのアプリケーションの分野
オーディオ・シーンの人間の認識のためのより大きな重要性である導かれた方法の目的のうちの１つが、オーディオ・キューを復元することである点に留意されたい。本発明による実施の形態は、エネルギーのレベルおよび相関特性の再構成の正確さを改良し、従って、最後の出力信号の知覚的なオーディオ品質を増加させる。本発明による実施の形態は、任意の数のダウンミックス／アップミックスチャネルのために適用されうる。さらに、本願明細書において記載される方法および装置は、既存のパラメータのソース分離アルゴリズムと結合されうる。本発明による実施の形態は、適用される非相関化の機能の数における設定の制約によってシステムの計算の複雑さを制御することを許容する。本発明による実施の形態は、ＭＰＳとトランスコーディング・ステップを取り除くことによって、ＳＡＯＣのようなオブジェクト・ベースのパラメトリック構造アルゴリズムの簡略化に通じうる。

１９．符号化／復号化の環境
以下において、本発明によるコンセプトにおけるオーディオ符号化／復号化の環境が記載される。

本発明によるコンセプトが使用されうる３Ｄオーディオ・コーデック・システムは、チャネルの符号化のためのＭＰＥＧ−ＤＵＳＡＣコーデックおよびオブジェクトの大量の符号化のための効率を増加させるためのオブジェクト信号に基づく。ＭＰＥＧ−ＳＡＯＣ技術は、適応されている。レンダラの３つのタイプは、チャネルのレンダリングオブジェクト、ヘッドホンへのレンダリングチャネル、または異なるスピーカセットへのレンダリングチャネルのタスクを実行する。オブジェクト信号が、ＳＡＯＣを使用して明確に送信されるか、またはパラメータ的に符号化される場合に、対応するオブジェクトのメタデータ情報が圧縮され、そして、３Ｄオーディオ・ストリームに多重化される。

図２８，２９および３０は、３Ｄオーディオ・システムの異なるアルゴリズムのブロックに示す。

図２８は、この種のオーディオ・エンコーダのブロック概略図を示し、そして、図２９は、この種のオーディオ・デコーダのブロック概略図を示す。換言すれば、図２８および２９は、３Ｄオーディオ・システムの異なるアルゴリズムのブロックを示す。

３Ｄオーディオ・エンコーダ２９００のブロック概略図を示す図２８を参照することで、いくつかの詳細は説明される。エンコーダ２９００は、１つ以上のチャネル信号２９１２および１つ以上のオブジェクト信号２９１４を受信し、そして、それに基づいて、１つ以上のチャネル信号２９１６および１つ以上のオブジェクト信号２９１８，２９２０を供給するオプションのプレレンダラ／ミキサ２９１０を含む。オーディオ・エンコーダは、ＵＳＡＣエンコーダ２９３０および任意にＳＡＯＣエンコーダ２９４０も含む。ＳＡＯＣエンコーダ２９４０は、１つ以上のＳＡＯＣトランスポート・チャネル２９４２およびＳＡＯＣエンコーダに供給される１つ以上のオブジェクト２９２０に基づいてＳＡＯＣサイド情報２９４４を供給するように構成される。さらに、ＵＳＡＣエンコーダ２９３０は、プレレンダラ／ミキサ２９１０からチャネルおよびプレレンダリングされたオブジェクトを含むチャネル信号２９１６を受信し、プレレンダラ／ミキサ２９１０から１つ以上のオブジェクト信号２９１８を受信し、そして、１つ以上のＳＡＯＣトランスポート・チャネル２９４２およびＳＡＯＣサイド情報２９４４を受信し、そして、それに基づいて、符号化表現２９３２を供給するように構成される。さらに、オーディオ・エンコーダ２９００は、（プレレンダラ／ミキサ２９１０によって評価されうる）オブジェクト・メタデータ２９５２を受信し、符号化オブジェクト・メタデータ２９５４を得るためにオブジェクト・メタデータを符号化するように構成される、オブジェクト・メタデータ・エンコーダ２９５０も含む。符号化メタデータは、ＵＳＡＣエンコーダ２９３０によっても受信され、符号化表現２９３２を供給するために使用される。

オーディオ・エンコーダ２９００の個々の構成要素に関するいくつかの詳細が以下に説明される。

図２９を参照することで、オーディオ・デコーダ３０００が記載される。オーディオ・デコーダ３０００は、符号化表現３０１０を受信し、それに基づいて、マルチチャネル・スピーカ信号３０１２、ヘッドホン信号３０１４および／または代替フォーマットにおける（例えば、５．１フォーマットにおける）スピーカ信号３０１６を供給するように構成される。オーディオ・デコーダ３０００は、符号化表現３０１０に基づいて、１つ以上のチャネル信号３０２２、１つ以上のプレレンダリングされたオブジェクト信号３０２４、１つ以上のオブジェクト信号３０２６、１つ以上のＳＡＯＣトランスポート・チャネル３０２８、ＳＡＯＣサイド情報３０３０および圧縮されたオブジェクト・メタデータ情報３０３２を供給する、ＵＳＡＣデコーダ３０２０を含む。オーディオ・デコーダ３０００は、１つ以上のオブジェクト信号３０２６およびオブジェクト・メタデータ情報３０４４に基づいて、１つ以上のレンダリングされたオブジェクト信号３０４２を供給するように構成されるオブジェクト・レンダラ３０４０も含む。ここで、オブジェクト・メタデータ情報３０４４は、圧縮されたオブジェクト・メタデータ情報３０３２に基づいて、オブジェクト・メタデータ・デコーダ３０５０によって供給される。オーディオ・デコーダ３０００は、ＳＡＯＣトランスポート・チャネル３０２８およびＳＡＯＣサイド情報３０３０を受信し、それに基づいて、１つ以上のレンダリングされたオブジェクト信号３０６２を供給するように構成されるＳＡＯＣデコーダ３０６０も任意に含む。オーディオ・デコーダ３０００は、チャネル信号３０２２、プレレンダリングされたオブジェクト信号３０２４．レンダリングされたオブジェクト信号３０４２、およびレンダリングされたオブジェクト信号３０６２を受信し、それに基づいて、例えば、マルチチャネル・スピーカ信号３０１２を構成する複数の混合チャネル信号３０７２を供給するように構成されるミキサ３０７０も含む。オーディオ・デコーダ３０００は、例えば、混合チャネル信号３０７２を受信し、それに基づいて、ヘッドホン信号３０１４を供給するように構成される、バイノーラル・レンダラ３０８０も含む。さらに、オーディオ・デコーダ３０００は、混合チャネル信号３０７２および再構成レイアウト情報３０９２を受信し、それに基づいて、代替のスピーカセットのためにスピーカ信号３０１６を供給するように構成されるフォーマット変換器３０９０を含みうる。

以下において、オーディオ・エンコーダ２９００およびオーディオ・デコーダ３０００の構成要素に関するいくつかの詳細が、記載されている。

１９．１プレレンダラ／ミキサ
プレレンダラ／ミキサ２９１０は、符号化前に、チャネルに加えて、オブジェクト入力シーンをチャネル・シーンに変換するために任意に使用されうる。機能的に、例えば、それは、後述するオブジェクト・レンダラ／ミキサと同一もありうる。

オブジェクトのプレレンダリングは、同時に能動的なオブジェクト信号の数から独立しているエンコーダ入力での決定論的な信号エントロピーを、例えば、確実にしうる。

オブジェクトのプレレンダリングについて、オブジェクト・メタデータの伝送は、必要とされない。

個別のオブジェクト信号は、エンコーダが使用するように構成されるチャネル・レイアウトにレンダリングされ、各チャネルに対するオブジェクトの重みは、関連するオブジェクト・メタデータ（ＯＡＭ）１９５２から得られる。

１９．２ＵＳＡＣはの主要部のコーデック
スピーカチャネル信号、個々のオブジェクト信号、オブジェクト・ダウンミックス信号およびプレレンダリングされた信号のための主要部のコーデック２９３０，３０２０は、ＭＰＥＧ−ＤＵＳＡＣ技術に基づく。それは、入力チャネルおよびオブジェクト割り当ての幾何学的および意味論的な情報に基づくチャネルおよびオブジェクト・マッピング情報による多数の信号の復号化を扱う。このマッピング情報は、どのように、入力チャネルおよびオブジェクトがＵＳＡＣチャネル要素（ＣＰＥ，ＳＣＥ，ＬＦＥ）にマッピングされるか、そして、対応する情報は、デコーダに送信されるかを記載する。

ＳＡＯＣデータまたはオブジェクト・メタデータのようなすべての追加のペイロードは、拡張要素を通して渡しており、エンコーダにおいて考慮されている。オブジェクトの復号化は、レンダラのためレート／歪みの前提条件および双方向性の前提条件によって決まる異なる方法で可能である。以下のオブジェクト符号化変数が可能である。

・プレレンダリングされたオブジェクト：オブジェクト信号は、符号化前にプレレンダリングされ、２２．２チャネル信号に混合される。次の符号化チェーンは、２２．２チャネル信号を参照する。

・別々のオブジェクト波形：エンコーダにモノラル波形として適用されるようなオブジェクト。エンコーダは、チャネル信号に加えて、オブジェクトを送信するために単一のチャネル要素ＳＣＥを使用する。復号化オブジェクトは、レンダリングされ、受信側で混合される。圧縮されたオブジェクト・メタデータ情報は、同時に、受信機／レンダラに送信される。

・パラメータのオブジェクト波形：オブジェクト特性および各々に対するそれらの関係は、ＳＡＯＣパラメータによって記載されている。オブジェクト信号のダウンミックスは、ＵＳＡＣによって符号化される。パラメータ情報は、同時に送信される。ダウンミックスの数は、オブジェクトの数および全体のデータレートに応じて選択される。圧縮されたオブジェクト・メタデータ情報は、ＳＡＯＣレンダラに送信される。

１９．３. ＳＡＯＣ
オブジェクト信号のためのＳＡＯＣエンコーダ２９４０およびＳＡＯＣデコーダ３０６０は、ＭＰＥＧＳＡＯＣ技術に基づく。システムは、送信されたチャネルおよび付加的なパラメータ・データ（オブジェクト・レベル差ＯＬＤ、内部オブジェクト相関ＩＯＣ、ダウンミックス・ゲインＤＭＧ）より少ない数に基づいて、オーディオ・オブジェクトの数を再形成し、修正し、そしてレンダリングすることができる。付加的なパラメータのデータは、復号化を非常に効率的にし、個々に、すべてのオブジェクトを送信するための必要であるより著しく低いデータレートを示す。ＳＡＯＣエンコーダは、モノラル波形としてオブジェクト／チャネル信号を入力し、そして、（３Ｄオーディオ・ビットストリーム２９３２，３０１０に圧縮される）パラメトリック情報および（単一のチャネル要素を使用して符号化され、送信される）ＳＡＯＣトランスポート・チャネルを出力する。ＳＡＯＣデコーダ３０００は、復号化ＳＡＯＣトランスポート・チャネル３０２８およびパラメータの情報３０３０からオブジェクト／チャネル信号を再構成し、再構成レイアウト、展開されたオブジェクト・メタデータ情報およびユーザ相互作用情報のオプションに基づいて、出力オーディオ・シーンを生成する。

１９．４．オブジェクト・メタデータ・コーデック
オブジェクト毎に、３Ｄ空間におけるオブジェクトの幾何学的な位置および量を特定する関連するメタデータは、時間および空間のオブジェクト特性の量子化によって、効率よく符号化される。圧縮されたオブジェクト・メタデータｃＯＡＭ２９５４，３０３２は、サイド情報として受信機に送信される。

１９．５．オブジェクト・レンダラ／ミキサ
オブジェクト・レンダラは、所与の再構成フォーマットに従ってオブジェクト波形を生成するために、展開されたオブジェクト・メタデータＯＡＭ３０４４を利用する。各オブジェクトは、そのメタデータに従って、特定の出力チャネルにレンダリングされる。このブロックの出力は、部分的な結果の合計から結果を得る。

コンテンツと個々の／パラメータのオブジェクトに基づく両方のチャネルが復号化される場合、結果として得られる波形を出力する前に（または、バイノーラル・レンダラもしくはスピーカ・レンダラ・モジュールのようなポスト・プロセッサ・モジュールにそれらを供給する前に）、チャネル・ベースの波形とレンダリングされたオブジェクトの波形が混合される。

１９．６．バイノーラル・レンダラ
各入力チャネルが仮想音源によって表されるように、バイノーラル・レンダラ・モジュール３０８０は、マルチチャネル・オーディオ材料のバイノーラルのダウンミックスを生じる。処理は、ＱＭＦ領域にフレームごとに実行される。バイノーラル化は、測定されたバイノーラルの部屋のインパルス応答に基づく。

１９．７スピーカ・レンダラ／フォーマット変換器
スピーカ・レンダラ３０９０は、送信されたチャネル構成および所望の再生フォーマットとの間で変換する。以下において、それは、「フォーマット変換器」と呼ばれる。フォーマット変換器は、より少ない数の出力チャネルに変換する、すなわち、ダウンミックスを生成する。システムは、自動的に入出力フォーマットの所与の組み合わせのための最適化されたダウンミックス行列を生成して、ダウンミックス処理においてこれらの行列を適用する。フォーマット変換器は、標準のスピーカの構成と同様に、非標準のスピーカの位置を有するランダムな構成を許容する。

図３０は、フォーマット変換器のブロック概略図を示す。換言すれば、図３０は、フォーマット変換器の構造を示す。

図で示されるように、フォーマット変換器３１００は、ミキサ出力信号３１１０、例えば、混合チャネル信号３０７２を受信し、スピーカ信号３１１２、例えば、スピーカ信号３０１６を供給する。フォーマット変換器は、ＱＭＦ領域におけるダウンミックス処理３１２０およびダウンミックス・コンフィギュレータ３１３０を含む。ここで、ダウンミックス・コンフィギュレータは、ミキサ出力レイアウト情報３０３２および再構成レイアウト情報３０３４に基づいて、コンフィギュレーション情報をダウンミックス処理３０２０に供給する。

１９．８．概論
さらに、本願明細書において記載されたコンセプト、例えば、オーディオ・デコーダ１００、オーディオ・エンコーダ２００、マルチチャネル非相関器６００、マルチチャネル・オーディオ・デコーダ７００、オーディオ・エンコーダ８００またはオーディオ・デコーダ１５５０が、オーディオ・エンコーダ２９００および／またはオーディオ・デコーダ３０００において使用されうる点に留意されたい。例えば、前述のオーディオ・エンコーダ／デコーダは、ＳＡＯＣエンコーダ２９４０の一部としておよび／またはＳＡＯＣデコーダ３０６０の一部として使用されうる。一方、前述のコンセプトは、３Ｄオーディオ・デコーダ３０００および／またはオーディオ・エンコーダ２９００の他の位置でも使用されうる。

当然、前述の方法は、図２８および２９に従って、オーディオ情報を符号化または復号化するためのコンセプトにおいても使用されうる。

２０．付加的な実施の形態
２０．１はじめに
以下において、本発明による他の実施の形態が、記載される。

図３１は、本発明の実施の形態によるダウンミックス・プロセッサのブロック概略図を示す。

ダウンミックス・プロセッサ３１００は、アップミキサ３１１０、レンダラ３１２０、コンバイナ３１３０およびマルチチャネル非相関器３１４０を含む。レンダラは、レンダリングされたオーディオ信号Ｙ_dryをコンバイナ３１３０およびマルチチャネル非相関器３１４０に供給する。マルチチャネル非相関器は、（非相関器入力信号の第１のセットとしてみなされうる）レンダリングされたオーディオ信号を受信し、それに基づいて非相関器入力信号のプレミックスされた第２のセットを非相関器の主要部３１６０に供給する、プレミキサ３１５０を含む。非相関器の主要部は、ポスト・ミキサ３１７０によって利用するために、非相関器入力信号の第２のセットに基づいて、非相関器出力信号の第１のセットを供給する。ポスト・ミキサは、コンバイナ３１３０に供給されるポストミックスされた非相関器出力信号の第２のセットを得るために、非相関器の主要部３１６０によって供給された非相関器出力信号をポストミックス（または、アップミックス）する。

レンダラ３１３０は、例えば、レンダリングするための行列Ｒを適用し、プレミキサは、例えば、プレミックスするための行列Ｍ_preを適用し、ポスト・ミキサは、例えば、ポストミックスするための行列Ｍ_postを適用し、そして、コンバイナは、例えば、結合するための行列Ｐを適用する。

ダウンミックス・プロセッサ３１００または個々の構成要素またはその機能は、本願明細書において記載されるオーディオ・デコーダにおいて、使用されうる点に留意されたい。さらに、ダウンミックス・プロセッサは、本願明細書において記載されるいくつかの特徴および機能によって補充されうる点に留意されたい。

２０．２．ＳＡＯＣ３Ｄ処理
ＩＳＯ／ＩＥＣ２３００３−１：２００７に記載されているハイブリッド・フィルタバンクが適用される。ＤＭＧ、ＯＬＤ、ＩＯＣパラメータの逆量子化は、ＩＳＯ／ＩＥＣ２３００３−２：２０１０の７．１．２において定義されるように同じ規則に従う。

２０．２．１信号およびパラメータ
オーディオ信号は、あらゆる時間枠ｎおよびあらゆるハイブリッド・サブバンドｋに対して定義される。対応するＳＡＯＣ３Ｄパラメータは、各パラメータ時間枠ｌおよび処理バンドｍに対して定義される。ハイブリッドおよびパラメータ領域間の次のマッピングは、ＩＳＯ／ＩＥＣ２３００３−１：２００７の表Ａ．３１によって特定される。それゆえ、すべての計算は、特定の時間／バンド・インデックスに関して実行され、そして、対応する次元は、各導入変数に対して暗に定義される。

ＳＡＯＣ３Ｄデコーダで利用可能なデータは、マルチチャネル・ダウンミックス信号Ｘ、共分散行列Ｅ、レンダリング行列Ｒおよびダウンミックス行列Ｄで構成される。

ここで、逆量子化オブジェクト・パラメータは、

ＯＬＤ_i＝Ｄ_OLD（ｉ，ｌ，ｍ），ＩＯＣ_i,j＝Ｄ_IOC（ｉ，ｊ，ｌ，ｍ）

として、得られる。

ここで、逆量子化ダウンミックス・パラメータは、

ＤＭＧ_i,j＝Ｄ_DMG（ｉ，ｊ，ｌ）

として、得られる。

２０．２．２復号化
ＳＡＯＣ３Ｄパラメータおよびレンダリング情報を用いて出力信号を得るための方法が記載される。ＳＡＯＣ３Ｄデコーダは、例えば、ＳＡＯＣ３Ｄパラメータ・プロセッサおよびＳＡＯＣ３Ｄダウンミックス・プロセッサから構成されうる。

２０．２．２．１ダウンミックス・プロセッサ
（ハイブリッドＱＭＦ領域において表される）ダウンミックス・プロセッサの出力信号は、ＳＡＯＣ３Ｄデコーダの最後の出力を得ている、ＩＳＯ／ＩＥＣ２３００３−１：２００７において記載されるように、対応する合成フィルタバンクに供給される。ダウンミックス・プロセッサの詳細な構造は、図３１において表現される。

ここで、Ｕは、パラメトリック・アンミキシング行列を表し、２０．２．２．１．１および２０．２．２．１．２．において定義される。

混合行列Ｐ＝（Ｐ_dry Ｐ_wet）は、２０．２．３において記載される。異なる出力構成のための行列Ｍ_preは、図１９〜２３において与えられ、以下の方程式を使用して得られる。

図３２において示されるように、復号化モードは、ビットストリーム要素ｂｓＮｕｍＳａｏｃＤｍｘＯｂｊｅｓｔｓによって制御される。

２０．２．２．１．１結合復号化モード
結合復号化モードの場合において、パラメトリック・アンミキシング行列Ｕは、

Ｕ＝ＥＤ^*Ｊ

によって、与えられる。

ここで、行列Δの特異ベクトルｖは、以下の特性方程式を使用して得られる。

２０．２．４．１エネルギー補償モード
エネルギー補償モードは、パラメトリック再構成においてエネルギーの損失に対して補償するために、非相関化信号を使用する。混合行列Ｐ_dryおよびＰ_wetは、

によって、与えられる。
ここで、λ_Dec＝４は、出力信号に加えられる非相関化要素の量を制限するために使用される定数である。

ターゲット共分散行列Ｃは、

として、特異値非相関化を使用して分解される。

２０．２．５．２更なる概念および詳細
更なる概念および付加的な詳細に関して、参照は、セクション２０．２．４．２〜２０．２．４．４にもなされる。

２０．３表記法に関する見解
異なる表記法が本出願の範囲内で用いられる点に留意する点に留意されたい。一方、特定の方程式に適用される表記法は、前後関係から明確である。

２１．実施変形例
いくつかの態様が、装置との関連で記載されるが、これらの態様も、対応する方法の説明を表わすことは明らかであり、ブロックあるいは装置は、方法のステップ、または方法のステップの特徴に対応する。類似して、方法のステップとの関連で記載される態様は、装置に対応する、ブロック、アイテムまたは特徴の説明を表す。方法のステップのいくつかまたは全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェアによって（または使用して）実行されうる。いくつかの実施の形態において、最も重要な方法のステップの１つ以上は、この種の装置によって実行されうる。

本発明の符号化された音声信号は、デジタル記憶媒体に保存されるか、または、ワイヤレス伝送媒体または例えば、インターネットのような有線の伝送媒体のような伝送媒体上に送信されうる。

特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータ・システムと協働するか（または、協働することができる）、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはＦＬＡＳＨメモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。

本発明による若干の実施の形態は、本願明細書において記載される方法のうちの１つが実行されるように、プログラミング可能なコンピュータ・システムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。

通常、本発明の実施の形態は、プログラムコードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラムコードは、方法のうちの１つを実行するために作動される。プログラムコードは、機械可読キャリアに、例えば、格納されうる。

他の実施の形態は、機械可読キャリアに格納され、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを含む。

換言すれば、従って、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの１つを実行するためのプログラムコードを有するコンピュータ・プログラムである。

従って、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを含むデータキャリア（または、デジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録された媒体は、一般的には、有形でありおよび／または、暫定的である。

従って、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続、例えば、インターネットを介して転送されるように構成されうる。

更なる実施の形態は、本願明細書において記載される方法のうちの１つを実行するために構成され、または適応される処理手段、例えば、コンピュータ、またはプログラミング可能な論理回路を含む。

更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。

本発明による更なる実施の形態は、レシーバに本願明細書に記載される方法のうちの１つを実行するためのコンピュータ・プログラムを（例えば、電子的にまたは光学的に）転送するために構成される装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータ・プログラムを転送するためのファイルサーバを含む。

いくつかの実施の形態において、プログラミング可能な論理回路（例えば、現場でプログラム可能なゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ））が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の１つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。

上述した実施の形態は、本発明の原則の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。

参考文献

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[Blauert] J. Blauert, "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, London, 1997.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

[MPS] ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround," ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006.

[OCD] J. Vilkamo, T. Baeckstroem, and A. Kuntz. "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013. in press.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

International Patent No. WO/2006/026452, "MULTICHANNEL DECORRELATION IN SPATIAL AUDIO CODING" issued on 9 March 2006.

Claims

符号化表現（１１０；７１０；１５１６ａ；１５１６ｂ；１５１８）に基づいて、少なくとも２つの出力オーディオ信号（１１２，１１４；７１２，７１４；１５５２ａ−１５５２ｎ；３０１２）を供給するためのマルチチャネル・オーディオ・デコーダ（１００；７００；１５５０；３０００）であって、

前記マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号から１つ以上の非相関化オーディオ信号（１４２，１４４；１５９２ａ−１５９２ｎ）を導出する（１４０；１５９０）ように構成され、
前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合する（１５０；１５９８）ように構成される、マルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、パラメトリック再構成（１２０；１５６０）を使用して、前記複数のレンダリングされたオーディオ信号を得るためにレンダリングされた前記復号化されたオーディオ信号を得るように構成される、請求項１に記載のマルチチャネル・オーディオ・デコーダ。
前記復号化オーディオ信号は、再構成オブジェクト信号であり、
前記マルチチャネル・オーディオ・デコーダは、サイド情報（１５１８）を使用して、１つ以上のダウンミックス信号（１５１６ａ，１５１６ｂ）から前記再構成オブジェクト信号を導出するように構成される、請求項２に記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記サイド情報からアンミキシング係数を導出し、前記アンミキシング係数を使用して、前記１つ以上のダウンミックス信号から前記再構成オブジェクト信号を導出するための前記アンミキシング係数を適用するように構成される、請求項３に記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号の所望の相関特性または共分散特性を少なくとも部分的に達成するように、前記レンダリングされたオーディオ信号と前記１つ以上の非相関化オーディオ信号とを結合するように構成される、請求項１ないし請求項４のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記複数のレンダリングされたオーディオ信号を得るためにレンダリングされた前記復号化オーディオ信号（１２２；１５６２ａ−１５６２ｎ）のパラメトリック再構成（１２０；１５６０）の間のエネルギー損失のために少なくとも部分的に補償するように、前記レンダリングされたオーディオ信号と前記１つ以上の非相関化オーディオ信号とを結合するように構成される、請求項１ないし請求項５のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号の所望の相関特性または所望の共分散特性を決定するように構成され、
前記得られた出力オーディオ信号の相関特性または共分散特性が、前記所望の相関特性または所望の共分散特性（Ｃ）に近似するかまたは等しいように、前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号と前記１つ以上の非相関化オーディオ信号との結合（１５０；１５９８）を調整するように構成される、請求項１ないし請求項６のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、複数のオーディオ・オブジェクトの特性および／または複数のオーディオ・オブジェクトの間における関係を記述しているオブジェクト相関情報またはオブジェクト共分散情報（Ｅ_X）に基づいて、前記所望の相関特性または所望の共分散特性（Ｃ）を決定するように構成される、請求項７または請求項８に記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記符号化表現に含まれるサイド情報（１５１８）に基づいて、前記オブジェクト相関情報またはオブジェクト共分散情報（Ｅ_X）を決定するように構成される、請求項９に記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号および前記１つ以上の非相関化オーディオ信号の現実の相関特性または共分散特性（Ｅ_S）を決定するように、および
前記レンダリングされたオーディオ信号および前記１つ以上の非相関化オーディオ信号の前記現実の相関特性または共分散特性（Ｅ_S）に基づいて、前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号と前記１つ以上の非相関化オーディオ信号との結合（１５０；１５９８）を調整するように構成される、請求項７ないし請求項１０のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記混合行列Ｐおよび前記混合行列Ｍを一緒に算出するように構成される、請求項１２または請求項１３に記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記混合行列Ｐおよび前記混合行列Ｍを一緒に算出するように構成される、請求項１７または請求項１８に記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号に前記レンダリングされたオーディオ信号の貢献が制限されるように、前記第１の相関マトリックスを決定するように構成され、および／または
前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号に前記非相関化オーディオ信号の貢献が制限されるように、前記第２の相関マトリックスを決定するように構成される、請求項１７ないし請求項２１のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号に前記レンダリングされたオーディオ信号の貢献が制限されるように、前記レンダリングされたオーディオ信号の特性に基づいて、および／または、前記非相関化オーディオ信号の特性に基づいて、および／または、所望の出力オーディオ信号の特性に基づいて、および／または、混合されレンダリングされたオーディオ信号の推定された特性に基づいて、および／または、混合された非相関化オーディオ信号の推定された特性に基づいて、前記第１の相関マトリックスを決定するように構成され、および／または
前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号に前記非相関化オーディオ信号の貢献が制限されるように、前記レンダリングされたオーディオ信号の特性に基づいて、および／または、前記非相関化オーディオ信号の特性に基づいて、および／または、所望の出力オーディオ信号の特性に基づいて、および／または、混合されレンダリングされたオーディオ信号の推定された特性に基づいて、および／または、混合された非相関化オーディオ信号の推定された特性に基づいて、前記第２の相関マトリックスを決定するように構成される、請求項１７ないし請求項２２のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
前記レンダリングされたオーディオ信号、および／または、前記非相関化オーディオ信号、および／または、前記所望の出力オーディオ信号、および／または、前記混合されレンダリングされたオーディオ信号、および／または、前記混合された非相関化オーディオ信号の前記特性は、エネルギー特性、または、相関特性、または、共分散特性である、請求項２３に記載のマルチチャネル・オーディオ・デコーダ。
前記閾値は、予め定められた固定閾値であるか、または、前記閾値は、たとえば、エネルギー特性、相関特性、および／または共分散特性のような信号特性に基づく時間変数、および／または周波数変数である、請求項２５に記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、単位行列であるか、またはその倍数である混合行列Ｐを設定し、そして、前記混合行列Ｍを算出するように構成される、請求項１２または請求項１３に記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、所与のレンダリングされたオーディオ信号が、前記所与のレンダリングされたオーディオ信号自身の非相関化バージョンとともに混合されるのみという制約のもとに、前記混合行列Ｐ，Ｍを決定するように構成される、請求項１２または請求項１３に記載のマルチチャネル・オーディオ・デコーダ。
相互相関値または相互共分散値が不変である間、レンダリングされたオーディオ信号の自己相関値のみまたは自己共分散値のみが修正されるように、前記マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号と前記１つ以上の非相関化オーディオ信号とを結合するように構成される、請求項１２または請求項１３または請求項３２に記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、単位行列であるか、またはその倍数である前記混合行列Ｐを設定し、そして、Ｍが対角行列であるという制限のもと、前記混合行列Ｍを算出するように構成される、請求項１２または請求項１３または請求項３２または請求項３３に記載のマルチチャネル・オーディオ・デコーダ。
ここで、Ｍは、前記１つ以上の非相関化オーディオ信号Ｗに適用される対角混合行列であり、そして、
前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号の共分散行列の対角線要素が所望のエネルギーと等しくなるように、前記混合行列Ｍの対角線要素を算出するように構成される、請求項３２または請求項３３または請求項３４に記載のマルチチャネル・オーディオ・デコーダ。
前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合するための方法を決定する場合、前記マルチチャネル・オーディオ・デコーダは、前記非相関化オーディオ信号の相関特性または共分散特性を考慮するように構成される、請求項１ないし請求項３６のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
所与の出力オーディオ信号が２つ以上のレンダリングされたオーディオ信号および少なくとも１つの非相関化オーディオ信号に基づいて供給されるように、前記マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号と非相関化オーディオ信号とを混合するように構成される、請求項１ないし請求項２８、または請求項３７のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合するための方法を決定するために、異なる制約が適用される場合において、前記マルチチャネル・オーディオ・デコーダは、異なるモードの間で切り替えるように構成される、請求項１ないし請求項３８のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、
前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容される、第１のモード、
前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、前記出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号が、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンと結合されることが許容される、第２のモード、および
前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、所与の非相関化信号が、前記所与の非相関化信号から導出されたレンダリングされたオーディオ信号以外のレンダリングされたオーディオ信号と結合されることが許容されない、第３のモード、
の間で切り替えるように構成される、請求項１ないし請求項３９のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
前記マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合するための前記３つのモードが使用されるかについて指し示す前記符号化表現のビットストリーム要素を評価し、そして、前記ビットストリーム要素に基づいて前記モードを選択するように構成される、請求項３９または請求項４０に記載のマルチチャネル・オーディオ・デコーダ。
少なくとも２つの入力オーディオ信号（２１０，２１２；１５１２ａ−１５１２ｎ；２９１２，２９１４）に基づいて符号化表現（２１４；１５１６ａ，１５１６ｂ，１５１８；２９３２）を供給するためのマルチチャネル・オーディオ・エンコーダ（２００；１５１０；２９００）であって、
ここで、前記マルチチャネル・オーディオ・エンコーダは、前記少なくとも２つの入力オーディオ信号に基づき、１つ以上のダウンミックス信号（２２２；１５１６ａ，１５１６ｂ）を供給する（２２０）ように構成され、
前記マルチチャネル・オーディオ・エンコーダは、前記少なくとも２つの入力オーディオ信号の間の関係を記述している１つ以上のパラメータ（２３２；１５１８）を供給する（２３０）ように構成され、そして、
前記マルチチャネル・オーディオ・エンコーダは、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータ（２４２；１５１８）を供給する（２４０）ように構成される、マルチチャネル・オーディオ・エンコーダ。
前記マルチチャネル・オーディオ・エンコーダは、前記非相関化方法パラメータを選択的に供給し、オーディオ・デコーダの処理のための、
前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容される、第１のモード、
前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、前記出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号が、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンと結合されることが許容される、第２のモード、および
前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、所与の非相関化信号が、前記所与の非相関化信号から導出されたレンダリングされたオーディオ信号以外のレンダリングされたオーディオ信号と結合されることが許容されない、第３のモード、
である以上に示す３つのモードの１つの信号を送信するように構成される、請求項４２に記載のマルチチャネル・オーディオ・エンコーダ。
前記マルチチャネル・オーディオ・エンコーダは、前記入力オーディオ信号が比較的高い相関または比較的低い相関を含むかどうかに基づいて、前記非相関化方法パラメータを選択するように構成される、請求項４２または請求項４３に記載のマルチチャネル・オーディオ・エンコーダ。
前記マルチチャネル・オーディオ・エンコーダは、前記入力オーディオ信号の間の相関が比較的高い場合、前記第１のモードまたは前記第２のモードを指定するための前記非相関化方法パラメータを選択するように構成され、
前記マルチチャネル・オーディオ・エンコーダは、前記入力オーディオ信号の間の相関が比較的低い場合、前記第３のモードを指定するための前記非相関化方法パラメータを選択するように構成される、請求項４３に記載のマルチチャネル・オーディオ・エンコーダ。
符号化表現に基づく少なくとも２つの出力オーディオ信号を供給するための方法（３００）であって、前記方法は、
複数のレンダリングされたオーディオ信号を得るために、１つ以上のレンダリング・パラメータに基づいて、前記符号化表現に基づいて得られた複数の復号化オーディオ信号をレンダリングするステップ（３１０）と、
前記レンダリングされたオーディオ信号から１つ以上の非相関化オーディオ信号を導出するステップ（３２０）と、
前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記１つ以上の非相関化オーディオ信号とを結合するステップ（３３０）と、を含む、方法。
少なくとも２つの入力オーディオ信号に基づく符号化表現を供給するための方法（４００）であって、前記方法は、
前記少なくとも２つの入力オーディオ信号に基づく１つ以上のダウンミックス信号を供給するステップ（４１０）と、
前記少なくとも２つの入力オーディオ信号の間の関係を記述している１つ以上のパラメータを供給するステップ（４２０）と、
オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するステップ（４３０）と、を含む、方法。
コンピュータ・プログラムがコンピュータ上で実行されると、前記コンピュータが請求項４６、または請求項４７に記載の方法を実行する、コンピュータ・プログラム。
符号化オーディオ表現（５００）は、
ダウンミックス信号の符号化表現（５１０）、
前記少なくとも２つの入力オーディオ信号の間の関係を記述している１つ以上のパラメータの符号化表現（５２０）、および
オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している符号化非相関化方法パラメータ（５３０）を含む、符号化オーディオ表現。