JP2016528542A

JP2016528542A - 拡張空間オーディオオブジェクト符号化の装置及び方法

Info

Publication number: JP2016528542A
Application number: JP2016528448A
Authority: JP
Inventors: ユルゲン・ヘルレ; アドリアン・ムルタザ; ジョウニ・パウルス; ザッシャ・ディッシュ; ハラルド・フックス; オリベル・ヘルムート; ファルコ・リッデルブッシュ; レオン・テレンティフ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-07-22
Filing date: 2014-07-17
Publication date: 2016-09-15
Anticipated expiration: 2034-07-17
Also published as: CN112839296A; PL3025335T3; EP3025335B1; CA2918869C; CN112839296B; KR101774796B1; BR112016001244B1; EP2830048A1; MX355589B; CA2918869A1; BR112016001244A2; TW201519216A; CN105593929A; CN105593930A; KR101852951B1; US20160142846A1; US11330386B2; TW201519217A; PL3025333T3; SG11201600396QA

Abstract

１つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、ミキシング情報を算出するパラメータプロセッサ(１１０)と、１つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ(１２０)とを備える。ダウンミックスプロセッサ(１２０)は、１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されている。１つ以上のオーディオチャンネル信号はオーディオトランスポート信号内で混合され、１つ以上のオーディオオブジェクト信号はオーディオトランスポート信号内で混合され、１つ以上のオーディオトランスポートチャンネルの数は、１つ以上のオーディオチャンネル信号の数に１つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。パラメータプロセッサ(１１０)は、１つ以上のオーディオチャンネル信号及び１つ以上のオーディオオブジェクト信号が１つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するように構成され、パラメータプロセッサ(１１０)は共分散情報を受信するように構成されている。さらに、パラメータプロセッサ(１１０)は、ダウンミックス情報に依存して、及び共分散情報に依存してミキシング情報を算出するように構成されている。ダウンミックスプロセッサ(１２０)は、ミキシング情報に依存してオーディオトランスポート信号から１つ以上のオーディオ出力チャンネルを生成するように構成されている。共分散情報は１つ以上のオーディオチャンネル信号のうち少なくとも１つに対するレベル差情報を示し、さらに１つ以上のオーディオオブジェクト信号のうち少なくとも１つに対するレベル差情報を示す。しかしながら、共分散情報は、１つ以上のオーディオチャンネル信号のうちの１つと、１つ以上のオーディオオブジェクト信号のうちの１つとのペアに対する相関情報を示すことがない。【選択図】図１

Description

本発明は、オーディオ符号化/復号化に関し、詳しくは空間オーディオ符号化及び空間オーディオオブジェクト符号化に関し、より詳しくは拡張空間オーディオオブジェクト符号化の装置及び方法に関する。

空間オーディオ符号化ツールは、当該技術分野において周知であり、例えば、ＭＰＥＧサラウンド規格において標準化されている。空間オーディオ符号化は、再生セットアップにおけるチャンネル配置によって識別された５つ又は７つのチャンネルのような元の入力チャンネル、すなわち、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル、及び低周波数強化チャンネルから始まる。空間オーディオエンコーダは、典型的には元のチャンネルから１つ以上のダウンミックスチャンネルを取り出し、その上、チャンネルコヒーレンス値のチャンネル間レベル差、チャンネル間位相差、チャンネル間時間差などのような空間キューに関連するパラメトリックデータを取り出す。１つ以上のダウンミックスチャンネルは、元の入力チャンネルの近似バージョンである出力チャンネルを最終的に得るために、空間キューを示すパラメトリックサイド情報と共に、ダウンミックスチャンネル及び関連付けられたパラメトリックデータを復号化する空間オーディオデコーダに送信される。出力セットアップの中のチャンネルの配置は典型的には固定され、例えば５.１フォーマット、７.１フォーマットなどである。

このようなチャンネルベースのオーディオフォーマットは、各チャンネルが所定の位置に特定のスピーカーに関係するマルチチャンネルオーディオコンテンツを記憶又は送信するため広く使用されている。このようなフォーマットの忠実な再生は、スピーカーがオーディオ信号の生成中に使用されたスピーカーと同じ位置に設置されているというスピーカーセットアップを要件とする。スピーカーの台数を増やすことは、正確没入型３Ｄオーディオシーンの再生を改善するが、この要件を実現することは、特に、居間のような家庭内環境ではより一層困難になる。

特定のスピーカーセットアップを有する必要性は、スピーカー信号が再生セットアップのために明確にされるオブジェクトベースのアプローチによって克服することができる。

例えば、空間オーディオオブジェクト符号化ツールは、当該技術分野において周知であり、ＭＰＥＧＳＡＯＣ規格(ＳＡＯＣ＝空間オーディオオブジェクト符号化:spatial audio object coding)において標準化されている。元のチャンネルから始まる空間オーディオ符号化に対比して、空間オーディオオブジェクト符号化は、特定のレンダリング再生セットアップのために自動的に特化されることがないオーディオオブジェクトから始まる。それどころか、再生シーン内のオーディオオブジェクトの配置は自由自在であり、特定のレンダリング情報(rendering information)を空間オーディオオブジェクト符号化デコーダに入力することによりユーザによって決定することができる。それに替えて又はそれに加えて、レンダリング情報、すなわち、特定のオーディオオブジェクトが再生セットアップ内のどの位置に典型的に経時的に置かれるべきであるかという情報は、付加サイド情報又はメタデータとして送信することができる。特定のデータ圧縮を得るために、複数のオーディオオブジェクトがＳＡＯＣエンコーダによって符号化される。ＳＡＯＣエンコーダは、入力オブジェクトから、特定のダウンミックス情報に従ってオブジェクトをダウンミックスすることにより１つ以上のトランスポートチャンネルを算出するものである。さらに、ＳＡＯＣエンコーダは、オブジェクトレベル差(ＯＬＤ:object level differences)、オブジェクトコヒーレンス値などのようなオブジェクト間キューを表現するパラメトリックサイド情報を算出する。ＳＡＣ(ＳＡＣ＝空間オーディオ符号化:Spatial Audio Coding)の場合、オブジェクト間パラメトリックデータが、パラメータ時間/周波数タイルに対して、すなわち、例えば、１０２４又は２０４８個のサンプルを含むオーディオ信号の特定のフレームに対して算出されるので、２８、２０、１４又は１０個などの処理帯域が考慮され、その結果、最終的に、パラメトリックデータが各フレーム及び各処理帯域に対して存在する。一例として、オーディオ作品が２０フレームを有し、かつ、各フレームが２８個の処理帯域に細分されるとき、パラメータ時間/周波数タイルの数は５６０個である。

オブジェクトベースのアプローチでは、音場は離散的なオーディオオブジェクトによって記述される。これは、特に、３Ｄ空間内の各音源の時間的に変化する位置を記述するオブジェクトメタデータを要件とする。

従来技術における第１のメタデータ符号化概念は、空間サウンド記述交換フォーマット(ＳｐａｔＤＩＦ:spatial sound description interchange format)であり、今もなお開発中のオーディオシーン記述フォーマットである[Ｍ１]。これは、オブジェクトベースのサウンドシーンのための交換フォーマットとして設計されているが、オブジェクト軌道のための圧縮方法を提供しない。ＳｐａｔＤＩＦは、オブジェクトメタデータを構造化するためにテキストベースのオープンサウンドコントロール(ＯＳＣ:Open Sound Control)フォーマットを使用する[Ｍ２]。しかしながら、単純なテキストベースの表現は、オブジェクト軌道の圧縮伝送のための選択肢ではない。

従来技術における別のメタデータ概念は、オーディオシーン記述フォーマット(ＡＳＤＦ:Audio Scene Description Format)[Ｍ３]、すなわち、同じ欠点があるテキストベースの解決策である。そのデータは、拡張マークアップ言語(ＸＭＬ:Extensible Markup Language)[Ｍ４]、[Ｍ５]の部分集合である同期マルチメディア統合言語(ＳＭＩＬ:Synchronized Multimedia Integration Language)の拡張によって構造化される。

従来技術におけるさらなるメタデータ概念は、オーディオ・バイナリ・フォーマット・フォー・シーン(ＡｕｄｉｏＢＩＦＳ:audio binary format for scenes)、すなわち、ＭＰＥＧ−４仕様[Ｍ６]、[Ｍ７]の一部であるバイナリフォーマットである。これは、オーディオ−ビジュアル３Ｄシーン及び相互作用仮想現実アプリケーション[Ｍ８]の記述のために開発されたＸＭＬベースの仮想現実モデリング言語(ＶＲＭＬ:Virtual Reality Modeling Language)に密接に関係している。複雑なＡｕｄｉｏＢＩＦＳ仕様は、オブジェクト移動の経路を特定するためにシーングラフを使用する。ＡｕｄｉｏＢＩＦＳの主な欠点は、制限付きシステム遅延及びデータストリームへのランダムアクセスが要件であるリアルタイム動作のためには設計されていないということである。さらに、オブジェクト位置の符号化は、聴取者の制限付き定位性能を利用しない。オーディオ−ビジュアルシーン内の固定したリスナ位置に対しては、オブジェクトデータは非常に少ないビット数で量子化することができる[Ｍ９]。それ故に、ＡｕｄｉｏＢＩＦＳにおいて適用されるオブジェクトメタデータの符号化は、データ圧縮に関して効率的ではない。

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007. [SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008. [SAOC] ISO/IEC, "MPEG audio technologies-Part2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2. [VBAP] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning" ; J. Audio Eng. Soc., Level 45, Issue 6, pp. 456-466, June 1997. [M1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012. [M2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997. [M3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010. [M4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008. [M5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008. [M6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009. [M7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004. [M8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997. [M9] Sporer, T. (2012), "Codierung raumlicher Audisignalemit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012.

本発明の目的は、空間オーディオオブジェクト符号化のための改良された概念を提供することである。

本発明の目的は、請求項１に記載の装置、請求項１４に記載の装置、請求項１６に記載のシステム、請求項１７に記載の方法、請求項１８に記載の方法、及び請求項１９に記載のコンピュータプログラムによって解決される。

１つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、ミキシング情報を算出するパラメータプロセッサと、１つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサとを備える。ダウンミックスプロセッサは、１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されている。１つ以上のオーディオチャンネル信号がオーディオトランスポート信号内で混合され、１つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、１つ以上のオーディオトランスポートチャンネルの数は、１つ以上のオーディオチャンネル信号の数に１つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。パラメータプロセッサはダウンミックス情報と共分散情報を受信するように構成されている。ダウンミックス情報は、１つ以上のオーディオチャンネル信号及び１つ以上のオーディオオブジェクト信号が１つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すものである。さらに、パラメータプロセッサは、ダウンミックス情報に依存して、かつ、共分散情報に依存してミキシング情報を算出するように構成されている。ダウンミックスプロセッサは、ミキシング情報に依存してオーディオトランスポート信号から１つ以上のオーディオ出力チャンネルを生成するように構成されている。共分散情報は、１つ以上のオーディオチャンネル信号のうちの少なくとも１つに対するレベル差情報を示し、さらに、１つ以上のオーディオオブジェクト信号のうちの少なくとも１つに対するレベル差情報を示す。しかしながら、共分散情報は、１つ以上のオーディオチャンネル信号のうちの１つと１つ以上のオーディオオブジェクト信号のうちの１つとのペアに対する相関情報を示さない。

さらに、１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置が提供される。この装置は、オーディオトランスポート信号の１つ以上のオーディオトランスポートチャンネルを生成するチャンネル/オブジェクトミキサと、出力インターフェースとを備える。チャンネル/オブジェクトミキサは１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するように構成されており、そのオーディオトランスポート信号の生成は、１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号が１つ以上のオーディオトランスポートチャンネル内でどのように混合されるべきであるかに関する情報を示すダウンミックス情報に依存して、オーディオトランスポート信号内で１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号とを混合することによりなされる。１つ以上のオーディオトランスポートチャンネルの数は１つ以上のオーディオチャンネル信号の数に１つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。出力インターフェースは、オーディオトランスポート信号、ダウンミックス情報及び共分散情報を出力するように構成されている。共分散情報は、１つ以上のオーディオチャンネル信号のうちの少なくとも１つに対するレベル差情報を示し、さらに、１つ以上のオーディオオブジェクト信号のうちの少なくとも１つに対するレベル差情報を示す。しかしながら、共分散情報は、１つ以上のオーディオチャンネル信号のうちの１つと、１つ以上のオーディオオブジェクト信号のうちの１つとのペアに対する相関情報を示さない。

さらに、システムが提供される。このシステムは、前述のオーディオトランスポート信号を生成する装置と、前述の１つ以上のオーディオ出力チャンネルを生成する装置とを備える。１つ以上のオーディオ出力チャンネルを生成する装置は、オーディオトランスポート信号を生成する装置からオーティオトランスポート信号、ダウンミックス情報、及び共分散情報を受信するように構成されている。さらに、オーディオ出力チャンネルを生成する装置は、ダウンミックス情報に依存して、かつ、共分散情報に依存してオーディオトランスポート信号から１つ以上のオーディオ出力チャンネルを生成するように構成されている。

さらに、１つ以上のオーディオ出力チャンネルを生成する方法が提供される。この方法は、以下のステップを含む。
− １つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するステップ。その場合、１つ以上のオーディオチャンネル信号がオーディオトランスポート信号内で混合され、１つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、１つ以上のオーディオトランスポートチャンネルの数が１つ以上のオーディオチャンネル信号の数に１つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。
− １つ以上のオーディオチャンネル信号及び１つ以上のオーディオオブジェクト信号が１つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するステップ。
− 共分散情報を受信するステップ。
− ダウミックス情報に依存して、かつ、共分散情報に依存してミキシング情報を算出するステップ。及び
− １つ以上のオーディオ出力チャンネルを生成するステップ。

ミキシング情報に依存してオーディオトランスポート信号から１つ以上のオーディオ出力チャンネルを生成する。共分散情報は、１つ以上のオーディオチャンネル信号のうちの少なくとも１つに対するレベル差情報を示し、さらに、１つ以上のオーディオオブジェクト信号のうちの少なくとも１つに対するレベル差情報を示す。しかしながら、共分散情報は、１つ以上のオーディオチャンネル信号のうちの１つと１つ以上のオーディオオブジェクト信号のうちの１つとのペアに対する相関情報を示さない。

さらに、１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置が提供される。この方法は以下のステップを含む。
− １つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するステップ。そのオーディオトランスポート信号の生成は、１つ以上のオーディオチャンネル信号及び１つ以上のオーディオオブジェクト信号が１つ以上のオーディオトランスポートチャンネル内でどのように混合されなければならないかに関する情報を示すダウンミックス情報に依存して、オーディオトランスポート信号内で１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号を混合することによりなされる。１つ以上のオーディオトランスポートチャンネルの数は１つ以上のオーディオチャンネル信号の数に１つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。及び
− オーディオトランスポート信号、ダウンミックス情報及び共分散情報を出力するステップ。

共分散情報は、１つ以上のオーディオチャンネル信号のうちの少なくとも１つに対するレベル差情報を示し、さらに、１つ以上のオーディオオブジェクト信号のうちの少なくとも１つに対するレベル差情報を示す。しかしながら、共分散情報は、１つ以上のオーディオチャンネル信号のうちの１つと１つ以上のオーディオオブジェクト信号のうちの１つとのペアに対する相関情報を示さない。

さらに、コンピュータ又は信号プロセッサ上で実行されたときに上記方法を実施するコンピュータプログラムが提供される。

実施形態による１つ以上のオーディオ出力チャンネルを生成する装置を示す図である。実施形態による１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置を示す図である。実施形態によるシステムを示す図である。３Ｄオーディオエンコーダの第１の実施形態を示す図である。３Ｄオーディオデコーダの第１の実施形態を示す図である。３Ｄオーディオエンコーダの第２の実施形態を示す図である。３Ｄオーディオデコーダの第２の実施形態を示す図である。３Ｄオーディオエンコーダの第３の実施形態を示す図である。３Ｄオーディオデコーダの第３の実施形態を示す図である。実施形態による統合処理ユニットを示す図である。

以下、本発明の実施形態を、図面を参照してより詳細に説明する。

本発明の好ましい実施形態を詳細に説明する前に、新しい３Ｄオーディオコーデックシステムについて説明する。

従来技術においては、低ビットレートで許容可能なオーディオ品質が得られるようにチャンネル符号化とオブジェクト符号化とを組み合わせる自由自在な技術は存在しない。

この制限は新しい３Ｄオーディオコーデックシステムによって克服される。

好ましい実施形態を詳細に説明する前に、新しい３Ｄオーディオコーデックシステムについて説明する。

図４は、本発明の実施形態による３Ｄオーディオエンコーダを示す。この３Ｄオーディオエンコーダは、オーディオ出力データ５０１を得るためにオーディオ入力データ１０１を符号化するために設けられている。この３Ｄオーディオエンコーダは、ＣＨによって示された複数のオーディオチャンネルと、ＯＢＪによって示された複数のオーディオオブジェクトとを受信する入力インターフェースを備える。さらに、図４に示されたように、入力インターフェース１１００は、複数のオーディオオブジェクトＯＢＪのうちの１つ以上に関連しているメタデータをさらに受信する。さらに、この３Ｄオーディオエンコーダは、複数の予め混合されたチャンネルを得るために複数のオブジェクト及び複数のチャンネルを混合するミキサ２００を備え、予め混合された各チャンネルは、チャンネルのオーディオデータ及び少なくとも１つのオブジェクトのオーディオデータを含む。

さらに、この３Ｄオーディオエンコーダは、コアエンコーダ入力データをコア符号化するコアエンコーダ３００と、複数のオーディオオブジェクトのうちの１つ以上に関連したメタデータを圧縮するメタデータ圧縮器４００とを備える。

さらに、この３Ｄオーディオエンコーダは、いくつかの動作モードのうちの１つでミキサ、コアエンコーダ及び/又は出力インターフェース５００を制御するモードコントローラ６００を備えることができる。第１のモードでは、コアエンコーダは、ミキサによる相互作用なしで、すなわち、ミキサ２００によって混合することなく、入力インターフェース１１００によって受信された複数のオーディオチャンネル及び複数のオーディオオブジェクトを符号化するように構成される。しかしながら、第２のモードでは、ミキサ２００がアクティブ状態となっており、コアエンコーダは、複数の混合されたチャンネル、すなわち、ブロック２００によって生成された出力を符号化する。後者の場合、もはやオブジェクトデータを符号化しないことが好ましい。その代わりに、オーディオオブジェクトの位置を示すメタデータは、そのメタデータによって示されるとおりにチャンネルでオブジェクトをレンダリング(rendering)するように、ミキサ２００によってすでに使用されている。換言すれば、ミキサ２００は、オーディオオブジェクトをプリレンダリング(pre-rendering)するために複数のオーディオオブジェクトに関連したメタデータを使用し、その後、プリレンダリングされたオーディオオブジェクトはチャンネルと混合されて、ミキサの出力で混合されたチャンネルが得られる。本実施形態では、オブジェクトは、必ずしも送信されなくてもよく、このことは、ブロック４００によって出力されたままの圧縮されたメタデータにも適用される。しかしながら、インターフェース１１００に入力された全てのオブジェクトが混合されるのではなく、ある量のオブジェクトだけが混合される場合、その後、残りの混合されていないオブジェクト及び関連付けられたメタデータだけがそれにもかかわらずコアエンコーダ３００又はメタデータ圧縮器４００にそれぞれ送信される。

図６は３Ｄオーディオエンコーダのさらなる実施形態を示し、ＳＡＯＣエンコーダ８００をさらに備える。ＳＡＯＣエンコーダ８００は、空間オーディオオブジェクトエンコーダ入力データから１つ以上のトランスポートチャンネル及びパラメトリックデータを生成するために設けられている。図６に示されるように、空間オーディオオブジェクトエンコーダ入力データは、プリレンダラ(pre-renderer)/ミキサによって処理されていないオブジェクトである。あるいは、プリレンダラ/ミキサが個別のチャンネル/オブジェクトがアクティブ状態であるモード１の場合のように迂回されていると仮定すると、入力インターフェース１１００に入力された全てのオブジェクトは、ＳＡＯＣエンコーダ８００によって符号化される。

さらに、図６に示されるように、コアエンコーダ３００は、好ましくは、ＵＳＡＣエンコーダとして、すなわち、ＭＰＥＧ−ＵＳＡＣ規格(ＵＳＡＣ＝音声音響統合符号化:Unified Speech and Audio Coding)において規定され、標準化されたエンコーダとして実現されている。図６に示された全３Ｄオーディオエンコーダの出力はＭＰＥＧ４データストリーム、ＭＰＥＧＨデータストリーム又は３Ｄオーディオデータストリームであり、個別のデータタイプのためのコンテナのような構造体(container-like structures)を有する。さらに、メタデータは「ＯＡＭ」データとして示され、図４におけるメタデータ圧縮器４００はＵＳＡＣエンコーダ３００に入力される圧縮されたＯＡＭデータを得るためのＯＡＭエンコーダ４００に対応する。ＵＳＡＣエンコーダ３００は、図６から分かるように、符号化済みチャンネル/オブジェクトデータを有するだけでなく、圧縮されたＯＡＭデータも有するＭＰ４出力データストリームを得るために出力インターフェースをさらに備える。

図８はこの３Ｄオーディオエンコーダのさらなる実施形態を示しており、図６と対比して、ＳＡＯＣエンコーダは、このモードではアクティブ状態でないプリレンダラ(pre-renderer)/ミキサ２００に供給されたチャンネルをＳＡＯＣ符号化アルゴリズムを用いて符号化するように、又はそれに替えて、プリレンダリングされたチャンネルとオブジェクトとをＳＡＯＣ符号化するように構成することができる。このようにして、図８では、ＳＡＯＣエンコーダ８００は、３つの異なった種類の入力データ、すなわち、プリレンダリングされたオブジェクトを含まないチャンネル、チャンネル及びプリレンダリングされたオブジェクト、又はオブジェクト単独に作用することができる。さらに、ＳＡＯＣエンコーダ８００が、その処理のために、元のＯＡＭデータではなく、デコーダ側と同じデータ、すなわち、不可逆的(lossy)圧縮によって得られたデータを使用するように、図８における付加的なＯＡＭデコーダ４２０を設けることが好ましい。

図８の３Ｄオーディオエンコーダは、いくつかの個別のモードで動作することができる。

図４との関連で説明した第１のモード及び第２のモードに加えて、図８の３Ｄオーディオエンコーダは、プリレンダラ/ミキサ２００がアクティブ状態ではなかったときに、コアエンコーダが個別のオブジェクトから１つ以上のトランスポートチャンネルを生成する第３のモードでさらに動作することができる。あるいは、又はさらに、この第３のモードでは、ＳＡＯＣエンコーダ８００は、１つ以上の代替的もしくは付加的なトランスポートチャンネルを元のチャンネルから生成することができる、すなわち図４のミキサ２００に対応するプリレンダラ/ミキサ２００がアクティブ状態ではなかったときに再び生成することができる。

最後に、ＳＡＯＣエンコーダ８００は、３Ｄオーディオエンコーダが第４のモードで構成されているとき、チャンネルとプリレンダラ/ミキサによって生成されたプリレンダリングされたオブジェクトを符号化することができる。このようにして、第４のモードでは、チャンネルとオブジェクトが、個別のＳＡＯＣトランスポートチャンネルと図３及び図５において「ＳＡＯＣ−ＳＩ」として示されたような関連付けられたサイド情報に完全に変換され、さらに、この第４のモードでは圧縮されたメタデータを送信する必要がないという事実によって、最低ビットレートアプリケーションが優れた品質を示す。

図５は、本発明の実施形態による３Ｄオーディオデコーダを示す。この３Ｄオーディオデコーダは、入力として、符号化済みオーディオデータ、すなわち、図４のデータ５０１を受信する。

この３Ｄオーディオデコーダは、メタデータ展開器１４００と、コアデコーダ１３００と、オブジェクトプロセッサ１２００と、モードコントローラ１６００と、ポストプロセッサ１７００とを備える。

具体的には、この３Ｄオーディオデコーダは符号化済みオーディオデータを復号化するために設けられ、入力インターフェースは符号化済みオーディオデータを受信するために設けられ、符号化済みオーディオデータは、複数の符号化済みチャンネルと、複数の符号化済みオブジェクトと、特定のモードにおける複数のオブジェクトに関連する圧縮されたメタデータとを含む。

さらに、コアデコーダ１３００は複数の符号化済みチャンネル及び複数の符号化済みオブジェクトを復号化するために設けられ、さらに、メタデータ展開器は、圧縮されたメタデータを展開するために設けられている。

さらに、オブジェクトプロセッサ１２００は、オブジェクトデータ及び復号化済みチャンネルを含む所定の数の出力チャンネルを得るために、展開されたメタデータを使用してコアデコーダ１３００によって生成されたとおりの複数の復号化済みオブジェクトを処理するために設けられている。符号１２０５で示されたとおりのこれらの出力チャンネルは、その後、ポストプロセッサ１７００に入力される。ポストプロセッサ１７００は、出力チャンネル１２０５の数を、バイノーラル出力フォーマット又は５.１、７.１などの出力フォーマットのようなスピーカー出力フォーマットとすることのできる特定の出力フォーマットに変換するために設けられている。

好ましくは、この３Ｄオーディオデコーダは、モード指示を検出するために符号化済みデータを解析するために設けられたモードコントローラ１６００を備える。したがって、モードコントローラ１６００は、図５において入力インターフェース１１００に接続されている。しかしながら、あるいは、モードコントローラは必ずしもそこになくてもよい。その代わり、この汎用性のあるオーディオデコーダはユーザ入力又はその他のコントロールのようなどんな種類の制御データによってもプリセットすることができる。図５に示され、かつ、好ましくはモードコントローラ１６００によって制御されるこの３Ｄオーディオデコーダは、オブジェクトプロセッサを迂回するように、かつ、複数の復号化済みチャンネルをポストプロセッサ１７００に送り込むように構成されている。これは、モード２における動作、すなわち、プリレンダリングされたチャンネルだけが受信される、すなわち、モード２が図４の３Ｄオーディオエンコーダにおいて適用されたときの動作である。あるいは、モード１が３Ｄオーディオエンコーダにおいて適用されたとき、すなわち、３Ｄオーディオエンコーダが個別のチャンネル/オブジェクト符号化を実行したとき、オブジェクトプロセッサ１２００は迂回されないが、複数の復号化済みチャンネル及び複数の復号化済みオブジェクトが、メタデータ展開器１４００によって生成された展開されたメタデータと共にオブジェクトプロセッサ１２００に送り込まれる。

好ましくは、モード１又はモード２が適用されるべきか否かの指示は、符号化済みオーディオデータの中に含まれ、その後、モードコントローラ１６００は、モード指示を検出するために符号化済みデータを解析する。モード１は、モード指示が、符号化済みオーディオデータが符号化済みチャンネル及び符号化済みオブジェクトを含むことを示すときに使用され、モード２は、モード指示が、符号化済みオーディオデータがオーディオオブジェクトを含んでいないこと、すなわち、図４の３Ｄオーディオエンコーダのモード２によって得られたプリレンダリングされたチャンネルだけを含むことを示すときに適用される。

図７は図５の３Ｄオーディオデコーダと比べて好ましい実施形態を示し、図７の実施形態は図６の３Ｄオーディオエンコーダに対応する。図５の３Ｄオーディオデコーダ実施に加えて、図７における３ＤオーディオデコーダはＳＡＯＣデコーダ１８００を備える。さらに、図５のオブジェクトプロセッサ１２００は、図７では別個のオブジェクトレンダラ１２１０とミキサ１２２０として実施されるが、モードに依存して、オブジェクトレンダラ１２１０の機能はＳＡＯＣデコーダ１８００によって実施することができる。

さらに、ポストプロセッサ１７００は、バイノーラルレンダラ１７１０又はフォーマットコンバータ１７２０として実施することができる。あるいは、図５のデータ１２０５の直接出力は、１７３０によって示されるように実施することもできる。その結果、フレキシビリティを実現するために２２.２又は３２のような最高数のチャンネルに関してデコーダにおいて処理を実行し、その後、より小規模のフォーマットが必要とされる場合に後処理することが好ましい。しかしながら、５.１フォーマットのような小さいフォーマットだけが必要とされることが最初から明らかになるとき、好ましくは、ショートカット１７２７によって図５もしくは図６によって示されるように、不必要なアップミキシング動作及び後に続くダウンミキシング動作を回避するためにＳＡＯＣデコーダ及び/又はＵＳＡＣデコーダの特定の制御を適用することができる。

本発明の好ましい実施形態では、オブジェクトプロセッサ１２００はＳＡＯＣデコーダ１８００を備え、ＳＡＯＣデコーダは、コアデコーダによって出力された１つ以上のトランスポートチャンネル及び関連付けられたパラメトリックデータを、展開されたメタデータを使用して復号化し、複数のレンダリングされたオーディオオブジェクトを得るために設けられている。このため、ＯＡＭ出力はボックス１８００に接続されている。

さらに、オブジェクトプロセッサ１２００は、オブジェクトレンダラ１２１０によって示されるように、ＳＡＯＣトランスポートチャンネルにおいて符号化されていないが、典型的に単一のチャンネル化済み要素において個別に符号化され、コアデコーダによって出力された復号化済みオブジェクトをレンダリングするように構成されている。さらに、デコーダは、ミキサの出力をスピーカーへ出力するため出力１７３０に対応する出力インターフェースを備える。

さらなる実施形態では、オブジェクトプロセッサ１２００は、１つ以上のトランスポートチャンネルと、符号化済みオーディオ信号又は符号化済みオーディオチャンネルを表現する関連付けられたパラメトリックサイド情報とを復号化する空間オーディオオブジェクト符号化デコーダ１８００を備え、この空間オーディオオブジェクト符号化デコーダは、関連付けられたパラメトリック情報及び展開されたメタデータを、例えば、ＳＡＯＣの旧バージョンに規定されているように、出力フォーマットを直接レンダリングするため使用可能であるトランスコードされたパラメトリックサイド情報にトランスコードするように構成されている。ポストプロセッサ１７００は、復号化済みトランスポートチャンネルとトランスコードされたパラメトリックサイド情報を使用して出力フォーマットのオーディオチャンネルを算出するため構成されている。ポストプロセッサによって実行される処理は、ＭＰＥＧサラウンド処理に類似するものとすることができ、又はＢＣＣ処理などのような他の処理とすることができる。

さらなる実施形態では、オブジェクトプロセッサ１２００は、(コアデコーダによって)復号化されたトランスポートチャンネルとパラメトリックサイド情報を使用して出力フォーマットのためにチャンネル信号を直接的にアップミックスし、レンダリングするように構成された空間オーディオオブジェクト符号化デコーダ１８００を備える。

さらに、かつ、重要なことには、図５のオブジェクトプロセッサ１２００はミキサ１２２０を付加的に備え、ミキサ１２２０は、チャンネルと混合されたプリレンダリングされたオブジェクトが存在するとき、すなわち図４のミキサがアクティブ状態であったとき、ＵＳＡＣデコーダ１３００によって出力されたデータを入力として直接に受信する。さらに、ミキサ１２２０は、ＳＡＯＣ復号化なしでオブジェクトレンダリングを実行するオブジェクトレンダラからデータを受信する。さらに、ミキサは、ＳＡＯＣデコーダ出力データ、すなわち、ＳＡＯＣレンダリングされたオブジェクトを受信する。

ミキサ１２２０は、出力インターフェース１７３０、バイノーラルレンダラ１７１０及びフォーマットコンバータ１７２０に接続されている。バイノーラルレンダラ１７１０は、頭部伝達関数又はバイノーラル室内インパルス応答(ＢＲＩＲ)を使用して出力チャンネルを２つのバイノーラルチャンネルにレンダリングするために設けられている。フォーマットコンバータ１７２０は、出力チャンネルをミキサの出力チャンネル１２０５よりより少ない数のチャンネルを有する出力フォーマットに変換するために設けられ、フォーマットコンバータ１７２０は５.１スピーカーなどのような再生レイアウトに関する情報を必要とする。

図９の３Ｄオーディオデコーダは、ＳＡＯＣデコーダがレンダリングされたオブジェクトを復号できるだけでなく、レンダリングされたチャンネルを生成することができる点で図７の３Ｄオーディオデコーダとは異なり、これは、図８の３Ｄオーディオエンコーダが使用され、チャンネル/プリレンダリングされたオブジェクトとＳＡＯＣエンコーダ８００の入力インターフェースとの間の接続９００がアクティブ状態であるときの事例である。

さらに、ベクトルベース振幅パニング(ＶＢＡＰ:vector base amplitude panning)段１８１０が設けられており、ベクトルベース振幅パニング段１８１０は、ＳＡＯＣデコーダから再生レイアウトに関する情報を受信し、レンダリング行列をＳＡＯＣデコーダに出力し、その結果、ＳＡＯＣデコーダが、最終的に、≡チャンネルフォーマット１２０５、すなわち、３２台のスピーカーにおいて、ミキサのさらなる動作なしでレンダリングされたチャンネルを提供することができるようになる。

ＶＢＡＰブロックは、好ましくは、レンダリング行列を導き出すために復号化済みＯＡＭデータを受信する。より一般的には、好ましくは、再生レイアウトの幾何学的情報だけでなく、入力信号が再生レイアウト上で再現されるべき位置の幾何学的情報を必要とする。この幾何学的入力データは、オブジェクトのためのＯＡＭデータ、又はＳＡＯＣを使用して送信されたチャンネルのためのチャンネル位置情報とすることができる。

しかしながら、特定の出力インターフェースだけが必要とされる場合、ＶＢＡＰ状態１８１０は、例えば、５.１出力のために必要とされるレンダリング行列を予め提供することができる。ＳＡＯＣデコーダ１８００は、その後、ＳＡＯＣトランスポートチャンネル、関連付けられたパラメトリックデータ及び展開されたメタデータから、ミキサ１２２０の相互作用なしに、必要とされる出力フォーマットへの直接レンダリングを実行する。しかしながら、モード間で特定の混合が適用されるとき、すなわち、いくつかのチャンネルがＳＡＯＣ符号化されているが全てのチャンネルがＳＡＯＣ符号化されているとは限らない場合、もしくは、いくつかのオブジェクトがＳＡＯＣ符号化されているが全てのオブジェクトがＳＡＯＣ符号化されているとは限らない場合、又は、チャンネルを含むある一定量のプリレンダリングされたオブジェクトだけがＳＡＯＣ符号化され残りのチャンネルがＳＡＯＣ処理されていないとき、ミキサは、個別の入力部分から、すなわち、コアデコーダ１３００から、オブジェクトレンダラ１２１０から、及びＳＡＯＣデコーダ１８００からのデータをまとめる。

以下の数学的表記を用いる:
Ｎ_Objects:入力オーディオオブジェクト信号の数
Ｎ_Channels:入力チャンネルの数
Ｎ:入力信号の数；
ＮはＮ_Objects、Ｎ_Channels又はＮ_Objects＋Ｎ_Channelsと等しくできる
Ｎ_DmxCh:ダウンミックス(処理済み)チャンネルの数
Ｎ_Samples:処理済みデータサンプルの数
Ｎ_{OutputChannels}:デコーダ側での出力チャンネルの数
Ｄ:ダウンミックス行列、サイズＮ_DmxCh×Ｎ
Ｘ:入力オーディオ信号、サイズＮ×Ｎ_Samples
Ｅｘ:入力信号共分散行列、サイズＮ×Ｎ、Ｅｘ＝ＸＸ^Hと定義される
Ｙ:ダウンミックスオーディオ信号、サイズＮ_DmxCh×Ｎ_Samples、Ｙ＝ＤＸと定義される
Ｅｙ:ダウンミックス信号の共分散行列、サイズＮ_DmxCh×Ｎ_DmxCh、Ｅｙ＝ＹＹ^Hと定義される
Ｇ:パラメトリック音源推定行列、サイズＮ×Ｎ_DmxCh、ＥｘＤ^H(ＤＥｘＤ^H)^-1を近似する

:パラメトリック再構成された入力信号、サイズＮ_Objects×Ｎ_Samples、Ｘを近似し、

と定義される
(・)Ｈ:(・)の共役転置を表現する自己共役(エルミート)演算子
Ｒ:サイズＮ_{OutputChannels}×Ｎのレンダリング行列
Ｓ:サイズＮ_{OutputChannels}×Ｎ_DmxChの出力チャンネル生成行列、Ｓ＝ＲＧと定義される
Ｚ:ダウンミックス信号からデコーダ側に生成された出力チャンネル、サイズＮ_{OutputChannels}×Ｎ_Samples、Ｚ＝ＳＹ

:望ましい出力チャンネル、サイズＮ_{OutputChannels}×Ｎ_Samples、

一般性を失うことなく、式の読みやすさを改善するために、全ての導入された変数に対して、時間依存性及び周波数依存性を表す添字は本明細書では省略する。

３Ｄオーディオに関し、スピーカーチャンネルはいくつかの高さの層に分布し、その結果、水平及び垂直のチャンネルのペアをもたらす。ＵＳＡＣに規定されたような２つのチャンネルだけの統合符号化は、チャンネル間の空間関係と知覚関係を考慮するためには不十分である。

チャンネル間の空間関係と知覚関係を考慮するために、３Ｄオーディオに関して、入力チャンネル(ＳＡＯＣエンコーダによって符号化されたオーディオチャンネル信号とオーディオオブジェクト信号)を再構成するためにＳＡＯＣのようなパラメトリック技術を使用し、デコーダ側で再構成された入力チャンネル

を得ることがあり得る。ＳＡＯＣ復号化は、最小平均二乗誤差(ＭＭＳＥ)アルゴリズムに基づいている。すなわち、

＝ＧＹ但しＧ≒ＥｘＤ^H(ＤＥｘＤ^H)^-1
である。

再構成された入力チャンネル

を得るために入力チャンネルを再構成する代わりに、出力チャンネルＺは、レンダリング行列Ｒを考慮することによって、デコーダ側で直接的に生成することができる。

Ｚ＝ＲＧＹ
Ｚ＝ＳＹ；但し、Ｓ＝ＲＧ

このように、入力オーディオオブジェクトと入力オーディオチャンネルを明示的に再構成する代わりに、出力チャンネルＺは、ダウンミックスオーディオ信号Ｙに出力チャンネル生成行列Ｓを適用することにより直接的に生成することができる。

出力チャンネル生成行列Ｓを得るために、レンダリング行列Ｒは、例えば、決定してもよく、又は例えば、すでにあるものを利用してもよい。さらに、パラメトリック音源推定行列Ｇは、例えば前述のように計算することができる。出力チャンネル生成行列Ｓは、その後、レンダリング行列Ｒとパラメトリック音源推定行列Ｇから行列積Ｓ＝ＲＧとして得ることができる。

３Ｄオーディオシステムは、チャンネルとオブジェクトを符号化するために合成モードを必要とすることがある。

概して、このような合成モードに対して、ＳＡＯＣ符号化/復号化は、２つの異なった方法で適用することができる。

すなわち、一つの方法はＳＡＯＣのようなパラメトリックシステムの１つのインスタンスを利用することであり、このようなインスタンスはチャンネルとオブジェクトを処理することができる。この解決策は、計算が複雑であるという欠点があり、入力信号の数が多いので、トランスポートチャンネルの数が類似する再構成品質を維持するために増加する。その結果として、行列ＤＥｘＤ^Hのサイズが増加し、逆行列を求める複雑性が増大する。さらに、このような解決策は、行列ＤＥｘＤ^Hのサイズが増大するにつれて、より一層の数値不安定性を取り込む。さらに、別の欠点として、行列ＤＥｘＤ^Hの逆行列を求めることは、再構成されたチャンネルと再構成されたオブジェクトとの間に付加的なクロストークをもたらすことがある。これが起こる理由は、再構成行列Ｇの中の零と考えられているいくつかの係数に数値的な不正確さのために零でない値が設定されるからである。

もう一つの方法はＳＡＯＣのようなパラメトリックシステムの２つのインスタンスを利用することであり、一方のインスタンスはチャンネルベースの処理用であり、もう一方のインスタンスはオブジェクトベースの処理用である。このような方法は、フィルタバンクの初期化とデコーダ構成のために同じ情報が２回送信される欠点を有する。さらに、必要に応じてチャンネルとオブジェクトをいっしょに混合することができず、その結果、チャンネルとオブジェクトとの間の相関特性を使用することができない。

オーディオオブジェクトとオーディオチャンネルとに対して異なったインスタンスを利用する方法の欠点を回避するために、実施形態は、第１の方法を利用し、効率的な方法で１つのシステムインスタンスだけを使用して、チャンネル、オブジェクト、又はチャンネル及びオブジェクトを処理することができる拡張ＳＡＯＣシステムを提供する。オーディオチャンネルとオーディオオブジェクトは、同じエンコーダインスタンスとデコーダインスタンスによってそれぞれ処理されるが、効率性概念が提供され、その結果、第１の方法の欠点を回避することができる。

図２は、実施形態による１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置を示す。

この装置は、オーディオトランスポート信号の１つ以上のオーディオトランスポートチャンネルを生成するチャンネル/オブジェクトミキサ２１０と、出力インターフェース２２０とを備える。

チャンネル/オブジェクトミキサ２１０は、１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号とが１つ以上のオーディオトランスポートチャンネル内でどのように混合されるべきであるかに関する情報を示すダウンミックス情報に依存して、オーディオトランスポート信号内で１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号とを混合することにより１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するように構成されている。

１つ以上のオーディオトランスポートチャンネルの数は、１つ以上のオーディオチャンネル信号の数に１つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。このように、チャンネル/オブジェクトミキサ２１０は、１つ以上のオーディオチャンネル信号の数に１つ以上のオーディオオブジェクト信号の数を加えた数より少ないチャンネルを有するオーディオトランスポート信号を生成するように適合させられているので、チャンネル/オブジェクトミキサ２１０は、１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号とをダウンミックスする能力がある。

出力インターフェース２２０は、オーディオトランスポート信号、ダウンミックス情報及び共分散情報を出力するように構成されている。

例えば、チャンネル/オブジェクトミキサ２１０はダウンミックス情報を出力インターフェース２２０へ送り込むように構成することができ、そのダウンミックス情報は１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号とをダウンミックスするため使用される。さらに、例えば、出力インターフェース２２０は、例えば、１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号を受信するように構成することができ、１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号に基づいて共分散情報を決定するようにさらに構成することができる。又は、出力インターフェース２２０は、例えば、予め決定済みの共分散情報を受信するように構成することができる。

図１は実施形態による１つ以上のオーディオ出力チャンネルを生成する装置を示す。

この装置は、ミキシング情報を算出するパラメータプロセッサ１１０と、１つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ１２０とを備える。

ダウンミックスプロセッサ１２０は、１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されている。１つ以上のオーディオチャンネル信号はオーディオトランスポート信号内で混合されている。さらに、１つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合されている。１つ以上のオーディオトランスポートチャンネルの数は、１つ以上のオーディオチャンネル信号の数に１つ以上のオーディオオブジェクト信号の数を加えた数より少ない。

パラメータプロセッサ１１０は、１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号が１つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するように構成されている。さらに、パラメータプロセッサ１１０は共分散情報を受信するように構成されている。パラメータプロセッサ１１０は、ダウンミックス情報に依存し、かつ、共分散情報に依存してミキシング情報を算出するように構成されている。

ダウンミックスプロセッサ１２０は、ミキシング情報に依存してオーディオトランスポート信号から１つ以上のオーディオ出力チャンネルを生成するように構成されている。

実施形態では、共分散情報は、例えば１つ以上のオーディオチャンネル信号の１つずつに対するレベル差情報を示すことがあり、そして、さらに、例えば１つ以上のオーディオオブジェクト信号の１つずつに対するレベル差情報を示すことがある。

実施形態によれば、２つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で、例えば混合されることがあり、かつ、２つ以上のオーディオチャンネル信号がオーディオトランスポート信号内で、例えば混合されることがある。共分散情報は、例えば、２つ以上のオーディオチャンネル信号のうちの１つと、２つ以上のオーディオチャンネル信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示すことがある。又は、共分散情報は、例えば、２つ以上のオーディオオブジェクト信号のうちの１つと、２つ以上のオーディオオブジェクト信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示すことがある。又は、共分散情報は、例えば、２つ以上のオーディオチャンネル信号のうちの１つと２つ以上のオーディオチャンネル信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示し、かつ、２つ以上のオーディオオブジェクト信号のうちの１つと２つ以上のオーディオオブジェクト信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示すことがある。

オーディオオブジェクト信号に対するレベル差情報は、例えば、オブジェクトレベル差(ＯＬＤ)とすることができる。「レベル」は、例えば、エネルギーレベルに関係させることができる。「差」は、例えば、オーディオオブジェクト信号の間の最大レベルに関する差に関係させることができる。

オーディオオブジェクト信号のうちの１つと、オーディオオブジェクト信号のうちのもう１つとのペアに対する相関情報は、例えば、オブジェクト間相関(ＩＯＣ:object level difference)とすることができる。

例えば、実施形態によれば、ＳＡＯＣ３Ｄの最適性能を保証するために、適合する電力をもつ入力オーディオオブジェクト信号を使用することが推奨されている。(対応する時間/周波数タイルに従って正規化された)２つの入力オーディオ信号の積は、以下のように決定される。

式中、ｉ及びｊはそれぞれオーディオオブジェクト信号ｘｉ及びｘｊの添字であり、ｎは時間を示し、ｋは周波数を示し、ｌは時間添字の組を示し、ｍは周波数添字の組を示す。εは零による除算を回避するための加算定数、例えば、ε＝１０^-9である。

最大エネルギーをもつオブジェクトの絶対オブジェクトエネルギー(ＮＲＧ)は、例えば、以下のように算出することができる。

対応する入力オブジェクト信号の電力の比(ＯＬＤ)は、例えば、次式によって与えることができる。

入力オブジェクトの類似性尺度(ＩＯＣ)は、例えば、以下の相互相関によって与えることができる。

例えば、実施形態では、ＩＯＣは、ビットストリーム変数bsRelatedTo[i][j]に１が設定されたオーディオ信号ｉ及びｊの全てのペアに対して送信することができる。

オーディオチャンネル信号に対するレベル差情報は、例えば、チャンネルレベル差(ＣＬＤ:channel level difference)とすることができる。「レベル」は、例えば、エネルギーレベルに関係させることができる。「差」は、例えば、オーディオチャンネル信号の間の最大レベルに関する差に関係させることができる。

オーディオチャンネル信号のうちの１つとオーディオチャンネル信号のうちのもう１つとのペアに対する相関情報は、例えば、チャンネル間相関(ＩＣＣ:inter-channel correlation)とすることができる。

実施形態では、チャンネルレベル差(ＣＬＤ)は、上記式中のオーディオオブジェクト信号がオーディオチャンネル信号によって置換されたときの上述のオブジェクトレベル差(ＯＬＤ)と同じ方法で定義することができる。さらに、チャンネル間相関(ＩＣＣ)は、上記式中のオーディオオブジェクト信号がオーディオチャンネル信号によって置換されたときの上述のオブジェクト間相関(ＩＯＣ)と同じ方法で定義することができる。

ＳＡＯＣでは、ＳＡＯＣエンコーダは、(ダウンミックス情報に従って、例えば、ダウンミックス行列Ｄに従って)複数のオーディオオブジェクト信号をダウンミックスして、(例えば、より少ない数の)１つ以上のオーディオトランスポートチャンネルを得る。デコーダ側では、ＳＡＯＣデコーダは、エンコーダから受信したダウンミックス情報を使用して、かつ、エンコーダから受信した共分散情報を使用して１つ以上のオーディオトランスポートチャンネルを復号化する。共分散情報は例えば共分散行列Ｅの係数とすることができ、共分散行列Ｅはオーディオオブジェクト信号のオブジェクトレベル差と、２つのオーディオオブジェクト信号の間のオブジェクト間相関とを示す。ＳＡＯＣでは、決定済みのダウンミックス行列Ｄと決定済みの共分散行列Ｅは、１つ以上のオーディオトランスポートチャンネルの複数のサンプル(例えば、１つ以上のオーディオトランスポートチャンネルの２０４８個のサンプル)を復号化するために使用される。この概念を利用することにより、ビットレートは、符号化なしで１つ以上のオーディオオブジェクト信号を送信するのと比べて節約される。

実施形態は、オーディオオブジェクト信号とオーディオチャンネル信号が有意な差を示していても拡張ＳＡＯＣエンコーダによってオーディオトランスポート信号が生成できるので、このようなオーディオトランスポート信号では、オーディオオブジェクト信号だけでなく、オーディオチャンネル信号も混合されるという発見に基づいている。

オーディオオブジェクト信号とオーディオチャンネル信号は著しく異なる。例えば、複数のオーディオオブジェクト信号のそれぞれはサウンドシーンの音源を表現することができる。その結果、一般に、２つのオーディオオブジェクトは、極めて相関が低いことがある。これに対して、オーディオチャンネル信号は、異なるマイクロホンによって記録されているかのように、サウンドシーンの異なるチャンネルを表現する。一般に、このようなオーディオチャンネル信号のうちの２つは、特に、２つのオーディオオブジェクト信号の相関と比べると非常に相関が高く、２つのオーディオオブジェクト信号は、一般に極めて相関が低い。このようにして、実施形態は、オーディオチャンネル信号が特に２つのオーディオチャンネル信号のペアの間の相関を送信することから、そして、この送信された相関値を復号化のため使用することにより恩恵を受けるという成果に基づいている。

さらに、オーディオオブジェクト信号とオーディオチャンネル信号は、位置情報がオーディオオブジェクト信号に割り当てられている点で異なり、その位置情報は、例えばオーディオオブジェクト信号の発生源である音源(例えば、オーディオオブジェクト)の(仮定された)位置を示す。(例えば、メタデータ情報に含まれている)このような位置情報は、デコーダ側でオーディオトランスポート信号からオーディオ出力チャンネルを生成するときに使用することができる。しかしながら、これに対して、オーディオチャンネル信号は位置を示すことがなく、位置情報はオーディオチャンネル信号に割り当てられない。しかしながら、それにもかかわらず、実施形態は、オーディオオブジェクト信号と一緒にオーディオチャネル信号をＳＡＯＣ符号化することが効率的であるという発見に基づいている。
それは、例えば、オーディオチャンネル信号を生成することが、２つの副次的問題、すなわち、位置情報が必要とされることがない復号化情報を決定すること(例えば、分解(unmix)のための行列Ｇを決定すること、下記参照)と、(例えば、レンダリング行列Ｒを決定することにより、下記参照)レンダリング情報を決定することとに分けることができるからである。レンダリング情報の決定のためには、生成されたオーディオ出力チャンネルにおいてオーディオオブジェクトをレンダリングするためにオーディオオブジェクト信号に関する位置情報を利用することができる。

さらに、本発明は、オーディオオブジェクト信号のうちの１つとオーディオチャンネル信号のうちの１つとのペアの間に相関がない(少なくとも有意ではない)という発見に基づいている。そのため、エンコーダは、１つ以上のオーディオチャンネル信号のうちの１つと１つ以上のオーディオオブジェクト信号のうちの１つとのペアに対する相関情報を送信しない。これにより、符号化と復号化の両方のためにかなりの送信帯域幅が節約され、かなりの量の計算時間が節約される。このような有意ではない相関情報を処理しないように構成されているデコーダは、(デコーダ側でオーディオトランスポート信号からオーディオ出力チャンネルを生成するために利用される)ミキシング情報を決定するとき、かなりの量の計算時間を節約する。

実施形態によれば、パラメータプロセッサ１１０は、例えば、１つ以上のオーディオチャンネル信号と１つ以上のオーディオオブジェクト信号が１つ以上のオーディオ出力チャンネル内でどのように混合されるかに関する情報を示すレンダリング情報を受信するように構成することができる。パラメータプロセッサ１１０は、例えば、ダウンミックス情報に依存して、共分散情報に依存して、かつレンダリング情報に依存してミキシング情報を算出するように構成することができる。

例えば、パラメータプロセッサ１１０は、例えば、レンダリング情報としてレンダリング行列Ｒの複数の係数を受信するように構成することができ、ダウンミックス情報に依存して、共分散情報に依存して及びレンダリング行列Ｒに依存してミキシング情報を算出するように構成することができる。例えば、パラメータプロセッサは、エンコーダ側から又はユーザからレンダリング行列Ｒの係数を受信することができる。別の実施形態では、パラメータプロセッサ１１０は、例えば、メタデータ情報、例えば、位置情報又は利得情報を受信するように構成することができ、そして、例えば、受信したメタデータ情報に依存してレンダリング行列Ｒの係数を算出するように構成することができる。さらなる実施形態では、パラメータプロセッサは、両方(エンコーダからのレンダリング情報とユーザからのレンダリング情報)を受信するように、そして、両方に基づいてレンダリング行列を作成するように構成することができる(相互作用が実現されていることを基本的に意味する)。

あるいは、パラメータプロセッサは、例えば、レンダリング情報として２つのレンダリング部分行列Ｒ_ch,Ｒ_objを受信するように構成することができる。Ｒ＝(Ｒ_ch,Ｒ_obj)であり、Ｒ_chは例えばオーディオチャンネル信号をオーディオ出力チャンネルに混合する方法を示し、Ｒ_objはＯＡＭ情報から得られたレンダリング行列とすることができる。Ｒ_objは図９のＶＢＡＰブロック１８１０から得ることもできる。

特別な実施形態では、２つ以上のオーディオオブジェクト信号は、例えば、オーディオトランスポート信号内で混合することができ、２つ以上のオーディオチャンネル信号はオーディオトランスポート信号内で混合される。このような実施形態では、共分散情報は、例えば、２つ以上のオーディオチャンネル信号のうちの１つと、２つ以上のオーディオチャンネル信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示すことができる。さらに、このような実施形態では、(例えば、エンコーダ側からデコーダ側に送信される)共分散情報は、１つ以上のオーディオオブジェクト信号のうちの１つと１つ以上のオーディオオブジェクト信号のうちのもう１つとのいずれかのペアに対する相関情報を示すことはない。なぜならば、オーディオオブジェクト信号間の相関は非常に小さいので無視することができ、よって、例えば、ビットレート及び処理時間を節約するために送信されないからである。このような実施形態では、パラメータプロセッサ１１０は、ダウンミックス情報に依存して、１つ以上のオーディオチャンネル信号の１つずつのレベル差情報に依存して、１つ以上のオーディオオブジェクト信号の１つずつの第２のレベル差情報に依存して、及び２つ以上のオーディオチャンネル信号のうちの１つと２つ以上のオーディオチャンネル信号のうちのもう１つとの１つ以上のペアの相関情報に依存してミキシング情報を算出するように構成されている。このような実施形態は、オーディオオブジェクト信号間の相関が概して比較的低く、無視されるべきであり、２つのオーディオチャンネル信号間の相関が概して比較的高く、考慮されるべきであるという上記の発見を利用する。オーディオオブジェクト信号間の無関係な相関情報を処理しないことにより処理時間を節約することができる。オーディオチャンネル信号間の関係のある相関情報を処理することにより符号化効率は改善することができる。

特別な実施形態では、１つ以上のオーディオチャンネル信号はオーディオトランスポートチャンネルの１つ以上からなる第１のグループ内で混合され、１つ以上のオーディオブジェクト信号はオーディオトランスポート信号の１つ以上からなる第２のグループ内で混合され、第１のグループのうちの各オーディオトランスポートチャンネルは第２のグループに分類されることはなく、第２のグループのうちの各オーディオトランスポートチャンネルは第１のグループに分類されることはない。このような実施形態では、ダウンミックス情報は、１つ以上のオーディオチャンネル信号が１つ以上のオーディオトランスポートチャンネルからなる第１のグループ内でどのように混合されるかに関する情報を示す第１のダウンミックスサブ情報を含み、ダウンミックス情報は、１つ以上のオーディオオブジェクト信号が１つ以上のオーディオトランスポートチャンネルからなる第２のグループ内でどのように混合されるかに関する情報を示す第２のダウンミックスサブ情報を含む。このような実施形態では、パラメータプロセッサ１１０は、第１のダウンミックスサブ情報に依存して、第２のダウンミックスサブ情報に依存して、及び共分散情報に依存してミキシング情報を算出するように構成され、ダウンミックスプロセッサ１２０は、ミキシング情報に依存して、１つ以上のオーディオトランスポートチャンネルからなる第１のグループから、及び、オーディオトランスポートチャンネルの第２のグループから１つ以上のオーディオ出力信号を生成するように構成されている。サウンドシーンのオーディオチャンネル信号の間に高い相関が存在するので、このような方法によって符号化効率が増大する。さらに、オーディオオブジェクト信号を符号化するオーディオトランスポートチャンネルに与えるオーディオチャンネル信号の影響、及び、逆も同様に、オーディオチャンネル信号を符号化するオーディオトランスポートチャンネルに与えるオーディオオブジェクト信号の影響を示すダウンミックス行列の係数は、エンコーダによって算出される必要がなく、送信される必要がなく、そして、これらを処理する必要なしにデコーダによって零に設定することができる。このことは、エンコーダ及びデコーダの送信帯域幅及び計算時間を節約する。

実施形態では、ダウンミックスプロセッサ１２０は、ビットストリームでオーディオトランスポート信号を受信し、オーディオチャンネル信号だけを符号化しているオーディオトランスポートチャンネルの数を示す第１のチャンネルカウント数を受信し、かつ、オーディオオブジェクト信号だけを符号化しているオーディオトランスポートチャンネルの数を示す第２のチャンネルカウント数を受信するように構成されている。このような実施形態では、ダウンミックスプロセッサ１２０は、第１のチャンネルカウント数もしくは第２のチャネルカウント数に依存して、又は、第１のチャネルカウント数及び第２のチャネルカウント数に依存して、オーディオトランスポート信号のオーディオトランスポートチャンネルがオーディオチャンネル信号を符号化するか否か、又は、オーディオトランスポート信号のオーディオトランスポートチャンネルがオーディオオブジェクト信号を符号化すか否かを識別するように構成されている。例えば、ビットストリームでは、オーディオチャンネル信号を符号化するオーディオトランスポートチャンネルが最初に出現し、オーディオオブジェクト信号を符号化するオーディオトランスポートチャンネルが後で出現する。したがって、第１のチャンネルカウント数が例えば３であり、第２のチャンネルカウント数が例えば２であれば、ダウンミックスプロセッサは、最初の３個のオーディオトランスオポートチャンネルが符号化済みオーディオチャンネル信号を含み、後に続く２個のオーディオトランスポートチャンネルが符号化済みオーディオオブジェクト信号を含むと判断を下すことができる。

実施形態では、パラメータプロセッサ１１０は位置情報を含むメタデータ情報を受信するように構成され、位置情報は１つ以上のオーディオオブジェクト信号の１つずつに対する位置を示し、１つ以上のオーディオチャンネル信号のいずれに対する位置を示さない。このような実施形態では、パラメータプロセッサ１１０は、ダウンミックス情報に依存して、共分散情報に依存して、かつ、位置情報に依存してミキシング情報を算出するように構成されている。さらに又はあるいは、メタデータ情報は利得情報をさらに含み、利得情報は１つ以上のオーディオオブジェクト信号の１つずつに対する利得値を示し、１つ以上のオーディオチャンネル信号のいずれかに対する利得値を示さない。このような実施形態では、パラメータプロセッサ１１０は、ダウンミックス情報に依存して、共分散情報に依存して、位置情報に依存して、かつ、利得情報に依存してミキシング情報を算出するように構成することができる。例えば、パラメータプロセッサ１１０は、上記部分行列Ｒ_chにさらに依存してミキシング情報を算出するように構成することができる。

実施形態によれば、パラメータプロセッサ１１０は、ミキシング情報としてミキシング行列Ｓを算出するように構成され、ミキシング行列Ｓは、式Ｓ＝ＲＧに従って定義される。式中、Ｇはダウンミックス情報に依存し、かつ、共分散情報に依存した復号化行列であり、Ｒはメタデータ情報に依存したレンダリング行列である。このような実施形態では、ダウンミックスプロセッサ(１２０)は、式Ｚ＝ＳＹを適用することによってオーディオ出力信号の１つ以上のオーディオ出力チャンネルを生成するように構成することができる。式中、Ｚはオーディオ出力信号であり、Ｙはオーディオトランスポート信号である。例えば、Ｒは、上記部分行列Ｒ_ch及び/又はＲ_obj(例えば、Ｒ＝(Ｒ_ch,Ｒ_obj))に依存することができる。

図３は実施形態によるシステムを示す。このシステムは、オーディオトランスポート信号を生成する前述のような装置３１０と、１つ以上のオーディオ出力チャンネルを生成する前述のような装置３２０とを備える。

１つ以上のオーディオ出力チャンネルを生成する装置３２０は、オーディオトランスポート信号を生成する装置３１０からオーティオトランスポート信号、ダウンミックス情報、及び共分散情報を受信するように構成されている。さらに、オーディオ出力チャンネルを生成する装置３２０は、オーディオトランスポート信号に依存して、ダウンミックス情報に依存して、及び共分散情報に依存して１つ以上のオーディオ出力チャンネルを生成するように構成されている。

実施形態によれば、オブジェクト符号化を実現するオブジェクト指向システムであるＳＡＯＣシステムの機能性は、オーディオオブジェクト(オブジェクト符号化)、オーディオチャンネル(チャンネル符号化)、又はオーディオ符号化とオーディオオブジェクトの両方(混成符号化)が符号化できるように拡張される。

前述の図６及び図８のＳＡＯＣエンコーダ８００は、拡張されているので、入力としてオーディオオブジェクトを受信できるだけでなく、入力としてオーディオチャンネルも受信でき、そして、ＳＡＯＣエンコーダは、受信したオーディオオブジェクトと受信したオーディオチャンネルが符号化されているダウンミックスチャンネル(例えば、ＳＡＯＣトランスポートチャンネル)を生成することができる。例えば図６及び図８の上記実施形態では、このようなＳＡＯＣエンコーダ８００は、入力としてオーディオオブジェクトだけでなく、オーディオチャンネルも受信し、受信したオーディオオブジェクトと受信したオーディオチャネルが符号化されているダウンミックスチャンネル(例えば、ＳＡＯＣトランスポートチャンネル)を生成する。例えば、図６及び図８のＳＡＯＣエンコーダは、図２を参照して説明したように、(１つ以上のオーディオトランスポートチャンネル、例えば１つ以上のＳＡＯＣトランスポートチャンネルを含む)オーディオトランスポート信号を生成する装置として実現され、図６及び図８の実施形態は、オブジェクトだけでなく、チャンネルのうちの１つ、一部又は全部もＳＡＯＣエンコーダ８００に送り込まれるように改変される。

前述の図７及び図９のＳＡＯＣデコーダ１８００は、拡張されているので、オーディオオブジェクトとオーディオチャンネルが符号化されているダウンミックスチャンネル(例えば、ＳＡＯＣトランスポートチャンネル)を受信することができ、そして、オーディオオブジェクトとオーディオチャンネルが符号化されている受信したダウンミックスチャンネル(例えば、ＳＡＯＣトランスポートチャンネル)から出力チャンネル(レンダリング済みのチャンネル信号とレンダリング済みのオブジェクト信号)を生成することができる。例えば、図７及び図９の上記実施形態では、このようなＳＡＯＣデコーダ１８００は、オーディオオブジェクトだけではなくオーディオチャンネルも符号化されているダウンミックスチャンネル(例えば、ＳＡＯＣトランスポートチャンネル)を受信し、オーディオオブジェクトとオーディオチャンネルが符号化されている受信したダウンミックスチャンネル(例えば、ＳＡＯＣトランスポートチャンネル)から出力チャンネル(レンダリングされたチャンネル信号とレンダリングされたオブジェクト信号)を生成する。例えば、図７及び図９のＳＡＯＣデコーダは、図１を参照して説明したように１つ以上のオーディオ出力チャンネルを生成する装置として実現され、図７及び図９の実施形態は、ＵＳＡＣデコーダ１３００とミキサ１２２０との間に示されたチャンネルのうちの１つ、一部又は全部がＵＳＡＣデコーダ１３００によって生成(再構成)されるのではなく、ＳＡＯＣトランスポートチャンネル(オーディオトランスポートチャンネル)からＳＡＯＣデコーダ１８００によって再構成されるように改変される。

アプリケーションに依存して、ＳＡＯＣシステムの様々な利点がこのような拡張ＳＡＯＣシステムを使用することによって利用できる。

いくつかの実施形態によれば、このような拡張ＳＡＯＣシステムは、任意の数のダウンミックスチャンネルをサポートし、任意の数の出力チャンネルにレンダリングする。いくつかの実施形態では、例えば、ダウンミックスチャンネル(ＳＡＯＣトランスポートチャンネル)の数は、例えば、全体的なビットレートを著しく削減するために(例えば、実行時に)減らすことができる。これは、低ビットレートをもたらす。

さらに、いくつかの実施形態によれば、このような拡張ＳＡＯＣシステムのＳＡＯＣデコーダは、例として、例えば、ユーザ相互作用を可能にできる統合フレキシブルレンダラを有することができる。これにより、ユーザは、オーディオシーン内のオブジェクトの位置を変化させること、個別のオブジェクトのレベルを軽減もしくは増大させること、オブジェクトを完全に抑制することなどが可能である。例えば、バックグラウンドオブジェクト(ＢＧＯ:background object)としてチャネル信号、及び、フォアグラウンドオブジェクト(ＦＧＯ:foreground object)としてオブジェクト信号を考慮して、ＳＡＯＣの双方向特徴を対話拡張のようなアプリケーションのために使用することができる。このような双方向特徴によって、ユーザは、対話理解度を増大させるために(例えば、対話はフォアグラウンドオブジェクトによって表現できる)、又は、(例えば、ＦＧＯによって表現された)対話と(例えば、ＢＧＯによって表現された)周囲バックグラウンドとの間で平衡を保つために、制限された範囲で、ＢＧＯとＦＧＯを自由に操作することができる。

さらに、実施形態によれば、デコーダ側で利用できる計算複雑さに依存して、ＳＡＯＣデコーダは、「低計算複雑さ:low-computaton-complexity」モードで動作することによって、例えば、逆相関器の数を減らすことによって、及び/又は、例えば、再生レイアウトに直接的にレンダリングすることによって、計算複雑さを自動的に削減し、後に続く上述のフォーマットコンバータ１７２０の動作を停止させることができる。例えば、レンダリング情報は、２２.２システムのチャンネルを５.１システムのチャンネルにダウンミックスする方法を導くことができる。

実施形態によれば、拡張ＳＡＯＣエンコーダは、可変数の入力チャンネル(Ｎ_Channels)と入力オブジェクト(Ｎ_Objects)を処理することができる。チャンネルとオブジェクトの数は、デコーダ側にチャンネル経路の存在を知らせるためにビットストリーム中へ伝えられる。ＳＡＯＣエンコーダへの入力信号は、チャンネル信号が前半の信号であり、オブジェクト信号が後半の信号であるように常に順序付けられる。

別の実施形態によれば、チャンネル/オブジェクトミキサ２１０は、オーディオトランスポート信号の１つ以上のオーディオトランスポートチャンネルの数がどの程度のビットレートがオーディオトランスポート信号を送信するため利用可能であるかに依存するように、オーディオトランスポート信号を生成するように構成されている。

例えば、ダウンミックス(トランスポート)チャンネルの数は、例えば、利用可能なビットレートと入力信号の総数との関数として計算することができる。すなわち、
Ｎ_DmxCh＝ｆ(bitrate, N)
である。

Ｄの中のダウンミックス係数は、入力信号(チャンネルとオブジェクト)のミキシングを決定する。アプリケーションに依存して、行列Ｄの構造は、チャンネルとオブジェクトがいっしょに混合されるか、又は分離されたままであるか指定することができる。

いくつかの実施形態は、オブジェクトをチャンネルといっしょに混合しない方が有利であるという発見に基づいている。オブジェクトをチャンネルといっしょに混合しないためには、ダウンミックス行列は、例えば、以下のように構成することができる:

ビットストリーム中へ別々のミキシングを知らせるために、チャンネル経路

に割り当てられたダウンミックスチャンネルの数とオブジェクト経路

に割り当てられたダウンミックスチャンネルの数の値を、例えば、伝えることができる。

ブロック状ダウンミキシング行列Ｄ_chとＤ_objは、サイズ

と

をそれぞれ有する。

デコーダでは、パラメトリック音源推定行列Ｇ≒ＥｘＤ^H(ＤＥｘＤ^H)^-1の係数は、異なった形式で計算される。行列形式を使用すると、これは、以下のように表現できる。

但し、

で、サイズが

である。

で、サイズが

である。

チャンネル信号共分散

とオブジェクト信号共分散

の値は、例えば、入力信号共分散行列(Ｅｘ)から、対応する対角ブロックだけを選択することによって得ることができる。

直接的な結果として、ビットレートは、チャンネルとオブジェクトとの間の相互共分散行列を再構成するために付加情報(例えば、ＯＬＤ、ＩＯＣ)を送信しないことによって削減される。すなわち

である。

いくつかの実施形態によれば、

であり、それ故に、

である。

実施形態によれば、拡張ＳＡＯＣエンコーダは、オーディオオブジェクトのうちのいずれか１つとオーディオチャンネルのうちのいずれか１つとの間の共分散に関する情報を拡張ＳＡＯＣデコーダに送信しないように構成されている。

さらに、実施形態によれば、拡張ＳＡＯＣデコーダは、オーディオオブジェクトのうちのいずれか１つとオーディオチャンネルのうちのいずれか１つとの間の共分散に関する情報を受信しないように構成されている。

Ｇの非対角ブロック状要素は、計算されることなく、零が設定される。その結果、再構成されたチャンネルとオブジェクトとの間で見込まれるクロストークが回避される。さらに、これにより、計算すべきＧの係数が少なくなるので、計算複雑さの低減が達成される。

さらに、実施形態によれば、以下のより大きい行列、すなわち、
サイズが

であるＤＥｘＤ^H
の逆行列を求める代わりに、以下の２つの小さい行列の逆行列が求められる。
サイズ

である

サイズ

である

より小さい行列

と

の逆行列を求めることは、計算複雑さの観点でより大きい行列ＤＥｘＤ^Hの逆行列を求めることより非常に安上がりである。

さらに、別個の行列

と

の逆行列を求めることにより、見込まれる数値不安定性は、より大きい行列ＤＥｘＤ^Hの逆行列を求めるより低減される。例えば、最悪の想定では、トランスポートチャンネル

と

の共分散行列が信号の類似性によって線形の依存性をもつとき、全体行列ＤＥｘＤ^Hは悪条件であることがあるが、別々のより小さい行列は良条件である可能性がある。

デコーダ側で

が計算された後、再構成された入力信号

(入力オーディオチャンネル信号と入力オーディオオブジェクト信号)を得るために、例えば、

を使用して、入力信号を例えばパラメータ的に推定することができる。

さらに、前述のように、レンダリングはデコーダ側で出力チャンネルＺを得るために、例えばレンダリング行列Ｒを利用することにより行うことができる。

Ｚ＝ＲＧＹ
Ｚ＝ＳＹ但し、Ｓ＝ＲＧ

再構成された入力チャンネル

を得るために入力信号(入力オーディオチャンネル信号と入力オーディオオブジェクト信号)を明確に再構成する代わりに、出力チャンネル生成行列Ｓをダウンミックスオーディオ信号Ｙに適用することにより出力チャンネルＺをデコーダ側で直接生成することができる。

前述のように、出力チャンネル生成行列Ｓを得るために、レンダリング行列Ｒは例えば決定してもよく、又は例えば既に利用可能なものであってもよい。さらに、パラメトリック音源推定行列Ｇは、例えば前述のように計算することができる。したがって、出力チャンネル生成行列Ｓは、レンダリング行列Ｒとパラメトリック音源推定行列Ｇとから行列積Ｓ＝ＲＧとして得ることができる。

再構成されたオーディオオブジェクト信号に関して、エンコーダからデコーダへ送信されたオーディオオブジェクトに関する圧縮メタデータを考慮することができる。例えば、オーディオオブジェクトに関するメタデータは、オーディオオブジェクトの１つずつに関する位置情報を示すことができる。このような位置情報は、例えば、方位角、仰角及び半径とすることができる。この位置情報は、３Ｄ空間内のオーディオオブジェクトの位置を示すことができる。例えば、オーディオオブジェクトが想定もしくは現実のスピーカー位置に近接して位置しているとき、このようなオーディオオブジェクトは、そのスピーカーから遠く離れて位置している出力チャンネルにおける別のオーディオオブジェクトに比べるとそのスピーカーのための出力チャンネルにおいてより高い重みを有する。例えば、ベクトルベースの振幅パニング(ＶＢＡＰ)は、オーディオオブジェクトに対するレンダリング行列Ｒのレンダリング係数を決定するために利用することができる(例えば、[ＶＢＡＰ]を参照のこと)。

さらに、いくつかの実施形態では、圧縮メタデータは、オーディオオブジェクトの１つずつに対する利得値を含むことができる。例えば、オーディオオブジェクト信号の１つずつに対して、利得値はそのオーディオオブジェクト信号に対する利得係数を示すことができる。

オーディオオブジェクトに対比して、位置情報メタデータは、オーディオチャンネル信号についてはエンコーダからデコーダに送信されない。(例えば、２２.２を５.１に変換するための)付加的な行列、又は(チャンネルの入力構成が出力構成に等しいときの)単位行列は、例えばオーディオチャンネルに対してレンダリング行列Ｒのレンダリング係数を決定するために利用することができる。

レンダリング行列Ｒのサイズは、Ｎ_{OutputChannels}×Ｎとすることができる。ここで、出力チャンネルの１つずつのため、行列Ｒの中に１行が存在する。さらに、レンダリング行列Ｒの各行において、Ｎ個の係数は、対応する出力チャンネルにおけるＮ個の入力信号(入力オーディオチャンネル及び入力オーディオオブジェクト)の重みを決定する。その出力チャンネルのスピーカーに近接して位置しているそれらのオーディオオブジェクトは、対応する出力チャンネルのスピーカーから遠く離れて位置しているオーディオオブジェクトの係数より大きい係数を有する。

例えば、ベクトルベース振幅パニング(ＶＢＡＰ)をスピーカーの各オーディオチャンネルの内部でオーディオオブジェクト信号の重みを決定するために利用することができる(例えば、[ＶＢＡＰ]を参照)。例えば、ＶＢＡＰに関して、オーディオオブジェクトは、仮想音源に関係していると仮定する。

オーディオオブジェクトに対比して、オーディオチャンネルは位置を有していないので、レンダリング行列の中のオーディオチャンネルに関係する係数は、例えば、位置情報から独立したものとすることができる。

以下、実施形態によるビットストリーム構文を説明する。

ＭＰＥＧＳＡＯＣに関して、起こり得る動作モード(チャンネルベース、オブジェクトベース又は統合モード)の信号伝達は、例えば、２つの以下の可能性(第１の可能性:動作モードを信号伝達するフラグを使用する；第２の可能性:動作モードを信号伝達するフラグを使用しない)のうち１つを使用することによって達成することができる:

したがって、第１の実施形態によれば、動作モードを信号伝達するためにフラグが使用される。

動作モードを信号伝達するためにフラグを使用するために、SAOCSpecifigConfig()要素又はSAOC3DSpecifigConfig()要素の構文は、例えば、以下を含むことができる。

ビットストリーム変数bsSaocChannelFlagが１に設定された場合、最初のbsNumSaocChannels+1入力信号はチャンネルベース信号のように取り扱われる。ビットストリーム変数bsSaocObjectFlagが１に設定された場合、最後のbsNumSaocObjects+1入力信号はオブジェクト信号のように処理される。その結果、両方のビットストリーム変数(bsSaocChannelFlag, bsSaocObjectFlag)が零とは異なる場合、オーディオトランスポートチャンネル中のチャンネルとオブジェクトの存在が信号伝達される。

ビットストリーム変数bsSaocCombinedModeFlagが１に等しい場合、統合復号化モードがビットストリーム中へ伝えられ、デコーダは完全なダウンミックス行列Ｄ(これは、チャンネル信号とオブジェクト信号がいっしょに混合されていることを意味する)を使用して、bsNumSaocDmxChannelsトランスポートチャンネルを処理する。

ビットストリーム変数bsSaocCombinedModeFlagが零である場合、独立した復号化モードが信号伝達され、デコーダは前述のようにブロック状ダウンミックス行列を使用して、(bsNumSaocDmxChannels+1) + (bsNumSaocDmxObjects+1)のトランスポートチャンネルを処理する。

好ましい第２の実施形態によれば、動作モードを信号伝達するためにはフラグは必要ではない。

フラグを使用することなく動作モードを信号伝達することは、例えば、以下の構文を利用することによって実現することができる。

信号伝達:
SAOC3DSpecificConfig()の構文:

チャンネルとオブジェクトとの間の相互相関が零になるように制限する。

オーディオチャンネルとオーディオオブジェクトが、異なったオーディオトランスポートチャンネルにおいて混合された場合と、それらがオーディオトランスポートチャンネルの内部でいっしょに混合された場合とで、ダウンミキシング利得を別々に読み取る。

ビットストリーム変数bsNumSaocChannelsが零とは異なる場合、最初のbsNumSaocChannels入力信号はチャンネルベース信号のように取り扱われる。ビットストリーム変数bsNumSaocObjectsが零とは異なる場合、最後のbsNumSaocObjects入力信号はオブジェクト信号のように処理される。その結果、両方のビットストリーム変数が零とは異なる場合、オーディオトランスポートチャンネル中のチャンネルとオブジェクトの存在が信号伝達される。

ビットストリーム変数bsNumSaocDmxObjectsが零に等しい場合、統合復号化モードがビットストリーム中へ信号伝達され、デコーダは完全なダウンミックス行列Ｄ(これはチャンネル信号とオブジェクト信号がいっしょに混合されていることを意味する)を使用して、bsNumSaocDmxChannelsトランスポートチャンネルを処理する。

ビットストリーム変数bsNumSaocDmxObjectsが零でない場合、独立した復号化モードが信号伝達され、デコーダは前述のようにブロック状ダウンミックス行列を使用して、bsNumSaocDmxChannels＋bsNumSaocDmxObjectsのトランスポートチャンネルを処理する。

以下、実施形態によるダウンミックス処理の態様を説明する。

(ハイブリッドＱＭＦドメインにおいて表現された)ダウンミックスプロセッサの出力信号は、ISO/IEC 23003-1:2007に記載されているように、対応する合成フィルタバンクに送り込まれ、ＳＡＯＣ３Ｄデコーダの最終出力を生じさせる。

図１のパラメータプロセッサ１１０とダウンミックスプロセッサ１２０は、統合処理ユニットとして実施することができる。そのような統合処理ユニットは図１によって示され、ユニットＵとＲがミキシング情報を供給することによってパラメータプロセッサ１１０を実施する。

出力信号

は、マルチチャンネルダウンミックス信号Ｘと逆相関マルチチャンネル信号Ｘ_dから以下のように計算される。

式中、Ｕはパラメトリック分解行列を表わす。

行列Ｐ＝(Ｐ_dry Ｐ_wet)はミキシング行列である。

逆相関マルチチャンネル信号Ｘ_dは以下のように定義される。

復号化モードはビットストリーム要素bsNumSaocDmxObjectsによって制御される。

統合復号化モードの場合、パラメトリック分解行列Ｕは次式によって与えられる。

サイズが

である行列Ｊは、

によって与えられる。但し、

である。

独立復号化モードの場合、分解行列Ｕは次式によって与えられる。

式中、

及び

である。

サイズがＮ_ch×Ｎ_chであるチャンネルベース共分散行列Ｅ_chとサイズがＮ_obj×Ｎ_objであるオブジェクトベース共分散行列Ｅ_objは、共分散行列Ｅから、対応する対角ブロックだけを選択することにより得られる。

式中、行列

は、入力チャンネルと入力オブジェクトとの間の相互共分散行列を表わし、計算する必要がない。

サイズが

であるチャンネルベースダウンミックス行列Ｄ_chとサイズが

であるオブジェクトベースダウンミックス行列Ｄ_objは、ダウンミックス行列Ｄから、対応する対角ブロックだけを選択することにより得られる。

サイズが

である行列

は、

の代わりに行列Jの定義から導かれる。

サイズが

である行列

は、次式の代わりに行列Jの定義から導かれる。

行列

は以下の方程式を使用して算出される。

ここで、行列Δの特異ベクトルＶは、以下の特性方程式を使用して得られる。

対角特異値行列Λの正規化逆行列

は以下のように計算される。

相対正規化スカラー

は、絶対閾値

とΛの極大値を使用して以下のように決定される。

以下、実施形態によるレンダリング行列について説明する。

入力オーディオ信号Ｓに適用されるレンダリング行列Ｒは、Ｙ＝ＲＳとして目標のレンダリング出力を決定する。サイズがＮ_out×Ｎであるレンダリング行列Ｒは、次式
Ｒ＝(Ｒ_ch Ｒ_obj)
によって与えられる。式中、サイズがＮ_out×Ｎ_chであるＲ_chは入力チャンネルに関連付けられたレンダリング行列を表わし、サイズがＮ_out×Ｎ_objであるＲ_objは入力オブジェクトに関連付けられたレンダリング行列を表わす。

以下、実施形態による逆相関マルチチャンネル信号Ｘ_dについて説明する。

逆相関信号Ｘ_dは、例えば、bsDecorrConfig == 0、及び例えば逆相関器インデックスＸを用いて、ISO/IEC 23003-1:2007の6.6.2に記載された逆相関器から作り出される。その結果、

は、例えば以下の逆相関プロセスを表す。

いくつかの態様が装置に関連して説明されているが、これらの態様は対応する方法の説明も表し、ブロック又は機器は方法ステップ又は方法ステップの特徴に対応することが明らかである。同様に、方法ステップに関連して説明された態様は、対応する装置の対応するブロックもしくは物又は特徴の説明を表している。

本発明の分解された信号は、ディジタル記憶媒体に記憶することができ、又は無線伝送媒体もしくはインターネットのような有線伝送媒体といった伝送媒体上で送信することができる。

特定の実施要件に依存して、本発明の実施形態はハードウェア又はソフトウェアで実施することができる。その実施は、ディジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はＦＬＡＳＨメモリを使用して実行することができる。そのディジタル記憶媒体は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(協働する能力がある)電子的に読み取り可能な制御信号を記憶しているものである。

本発明によるいくつかの実施形態は、本明細書に記載された方法のうちの１つが実行されるようにプログラマブルシステムと協働する能力がある電子的に読み取り可能な制御信号を有する非遷移型のデータ担体を含む。

概して、本発明の実施形態はプログラムコードをもつコンピュータプログラムプロダクトとして実施することができ、そのプログラムコードはこのコンピュータプログラムプロダクトがコンピュータ上で動くとき本発明方法のうち１つを実行するために動作するものである。そのプログラムコードは、例えば機械読み取り可能な担体に記憶することができる。

他の実施形態は、機械読み取り可能な担体上に記憶され、かつ本明細書に記載された方法のうち１つを実行するコンピュータプログラムを含む。

換言すれば、本発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータ上で動くとき、本明細書に記載された方法のうち１つを実行するプログラムコードを有するコンピュータプログラムである。

本発明の方法のさらなる実施形態は、従って、本明細書に記載された方法のうちの１つを実行するコンピュータプログラムを記録しているデータ担体(又はディジタル記憶媒体、もしくはコンピュータ読み取り可能な媒体)である。

本発明の方法のさらなる実施形態は、従って、本明細書に記載された方法のうちの１つを実行するコンピュータプログラムを表現するデータストリーム又は信号のシーケンスである。そのデータストリーム又は信号のシーケンスは、例えば、データ通信接続を介して、例としてインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載された方法のうちの１つを実行するように構成され又は適合した処理手段、例えば、コンピュータ又はプログラマブル論理デバイスを含む。

さらなる実施形態は、本明細書に記載された方法のうちの１つを実行するコンピュータプログラムを実装しているコンピュータを含む。

いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を本明細書に記載された方法の機能性のうちの一部又は全部を実行するために使用することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書に記載された方法のうち１つを実行するためにマイクロプロセッサと協働することができる。概して、本発明方法は、好ましくは、ハードウェア装置によって実行される。

上記実施形態は、本発明の原理の単なる例示である。当然のことながら、本明細書に記載された配置構成及び細部の変更及び変形は、当業者には明白であろう。したがって、意図するところは、本発明は直ぐ後の特許請求の範囲だけによって限定され、本明細書において実施形態の記載及び説明のために提示された具体的な細部によって限定されないことである。

Claims

１つ以上のオーディオ出力チャンネルを生成する装置であって、該装置は、
ミキシング情報を算出するパラメータプロセッサ(１１０)と、
前記１つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ(１２０)と、を備え、
前記ダウンミックスプロセッサ(１２０)は１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成され、１つ以上のオーディオチャンネル信号が前記オーディオトランスポート信号内で混合され、１つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、かつ、前記１つ以上のオーディオトランスポートチャンネルの数が前記１つ以上のオーディオオブジェクト信号の数に前記１つ以上のオーディオチャンネル信号の数を加えた数より少なくされており、
前記パラメータプロセッサ(１１０)は、前記１つ以上のオーディオチャンネル信号及び前記１つ以上のオーディオオブジェクト信号が前記１つ以上のオーディオトランスポートチャンネルの内部でどのように混合されるかに関する情報を示すダウンミックス情報を受信するように構成され、かつ、前記パラメータプロセッサ(１１０)は共分散情報を受信するように構成され、
前記パラメータプロセッサ(１１０)は、前記ダウンミックス情報に依存して、及び前記共分散情報に依存して前記ミキシング情報を算出するように構成され、
前記ダウンミックスプロセッサ(１２０)は、前記ミキシング情報に依存して前記オーディオトランスポート信号から前記１つ以上のオーディオ出力チャンネルを生成するように構成され、
前記共分散情報は、前記１つ以上のオーディオチャンネル信号のうち少なくとも１つに対するレベル差情報を示し、さらに前記１つ以上のオーディオオブジェクト信号のうち少なくとも１つに対するレベル差情報を示し、
前記共分散情報は、前記１つ以上のオーディオチャンネル信号のうち１つと前記１つ以上のオーディオオブジェクト信号のうち１つとのペアに対する相関情報を示すことがない装置。
前記共分散情報は、前記１つ以上のオーディオチャンネル信号の１つずつに対するレベル差情報を示し、さらに前記１つ以上のオーディオオブジェクト信号の１つずつに対するレベル差情報を示す請求項１に記載の装置。
２つ以上のオーディオオブジェクト信号は前記オーディオトランスポート信号の内部で混合され、２つ以上のオーディオチャンネル信号は前記オーディオトランスポート信号の内部で混合され、
前記共分散情報は、前記２つ以上のオーディオチャンネル信号のうちの１つと、前記２つ以上のオーディオチャンネル信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示し、又は、
前記共分散情報は、前記２つ以上のオーディオオブジェクト信号のうちの１つと、前記２つ以上のオーディオオブジェクト信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示し、又は、
前記共分散情報は、前記２つ以上のオーディオチャンネル信号のうちの１つと、前記２つ以上のオーディオチャンネル信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示し、かつ、前記２つ以上のオーディオオブジェクト信号のうちの１つと、前記２つ以上のオーディオオブジェクト信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示す請求項１又は２に記載の装置。
前記共分散情報は、Ｎを前記１つ以上のオーディオチャンネル信号の数に前記１つ以上のオーディオオブジェクト信号の数を加えた数として、サイズがＮ×Ｎである共分散行列Ｅｘの複数の共分散係数を含み、
前記ダウンミックス行列Ｅｘは、式

に従って定義され、
式中、

はサイズがＮ_Channels×Ｎ_Channels(Ｎ_Channelsは前記１つ以上のオーディオチャンネル信号の数)である第１の共分散部分行列の係数を示し、

はサイズがＮ_Objects×Ｎ_Objects(Ｎ_Objectsは前記１つ以上のオーディオオブジェクト信号の数)である第２の共分散部分行列の係数を示し、
０は零行列を示し、
前記パラメータプロセッサ(１１０)は、前記ダウンミックス行列Ｅｘの前記複数のダウンミックス係数を受信するように構成され、
前記パラメータプロセッサ(１１０)は、前記パラメータプロセッサ(１１０)によって受信されることがない前記ダウンミックス行列Ｅｘの全係数に０を設定するように構成されている請求項１から３のいずれか一項に記載の装置。
前記１つ以上のオーディオチャンネル信号は前記オーディオトランスポートチャンネルの１つ以上からなる第１のグループの内部で混合され、前記１つ以上のオーディオブジェクト信号は前記オーディオトランスポートチャンネルの１つ以上からなる第２のグループの内部で混合され、前記第１のグループの各オーディオトランスポートチャンネルは前記第２のグループに含まれることがなく、前記第２のグループの各オーディオトランスポートチャンネルは前記第１のグループに含まれることがなく、
前記ダウンミックス情報は、前記１つ以上のオーディオチャンネル信号が前記１つ以上のオーディオトランスポートチャンネルからなる前記第１のグループの内部でどのように混合されるかに関する情報を示す第１のダウンミックスサブ情報を含み、かつ、前記ダウンミックス情報は、前記１つ以上のオーディオオブジェクト信号が前記１つ以上のオーディオトランスポートチャンネルからなる前記第２のグループの内部でどのように混合されるかに関する情報を示す第２のダウンミックスサブ情報を含み、
前記パラメータプロセッサ(１１０)は、前記第１のダウンミックスサブ情報に依存して、前記第２のダウンミックスサブ情報に依存して、及び前記共分散情報に依存して前記ミキシング情報を算出するように構成され、
前記ダウンミックスプロセッサ(１２０)は、前記ミキシング情報に依存して、１つ以上のオーディオトランスポートチャンネルからなる前記第１のグループから、及びオーディオトランスポートチャンネルからなる前記第２のグループから前記１つ以上のオーディオ出力信号を生成するように構成されている請求項１から４のいずれか一項に記載の装置。
前記ダウンミックス情報はサイズがＮ_DmxCh×Ｎ(Ｎ_DmxChは前記１つ以上のオーディオトランスポートチャンネルの数を示し、Ｎは前記１つ以上のオーディオチャンネル信号の数に前記１つ以上のオーディオオブジェクト信号の数を加えた数を示す)であるダウンミックス行列Ｄの複数のダウンミックス係数を含み、
前記ダウンミックス行列Ｄは、

に従って定義され、
式中、Ｄ_chはサイズが

×Ｎ_Channels(

は前記１つ以上のオーディオトランスポートチャンネルからなる前記第１のグループの前記１つ以上のオーディオトランスポートチャンネルの数を示し、Ｎ_Channelsは前記１つ以上のオーディオチャンネル信号の数を示す)である第１のダウンミックス部分行列の係数を示し、
Ｄ_objはサイズが

×Ｎ_Channels(

は前記１つ以上のオーディオトランスポートチャンネルからなる前記第２のグループの前記１つ以上のオーディオトランスポートチャンネルの数を示し、Ｎ_Channelsは前記１つ以上のオーディオチャンネル信号の数を示す)
である第２のダウンミックス部分行列の係数を示し、
０は零行列を示し、
前記パラメータプロセッサ(１１０)は前記ダウンミックス行列Ｄの前記複数のダウンミックス係数を受信するように構成され、
前記パラメータプロセッサ(１１０)は、前記パラメータプロセッサ(１１０)によって受信されることがない前記ダウンミックス行列Ｄの全係数に０を設定するように構成されている請求項５に記載の装置。
前記ダウンミックスプロセッサ(１２０)は、前記オーディオトランスポート信号の前記オーディオトランスポートチャンネルを含むデータストリームを受信するように構成され、
前記ダウンミックスプロセッサ(１２０)は、１つ以上のオーディオトランスポートチャンネルからなる前記第１のグループの前記オーディオトランスポートチャンネルの数を示す第１のチャンネルカウント数を受信するように構成され、
前記ダウンミックスプロセッサ(１２０)は、１つ以上のオーディオトランスポートチャンネルからなる前記第２のグループの前記オーディオトランスポートチャンネルの数を示す第２のチャンネルカウント数を受信するように構成され、
前記ダウンミックスプロセッサ(１２０)は、前記第１のチャンネルカウント数もしくは前記第２のチャネルカウント数に依存して、又は前記第１のチャネルカウント数及び前記第２のチャネルカウント数に依存して、前記データストリーム内のオーディオトランスポートチャンネルが前記第１のグループに属するのか又は前記第２のグループに属するのかを識別するように構成されている請求項５又は６に記載の装置。
前記パラメータプロセッサ(１１０)は、前記１つ以上のオーディオチャンネル信号及び前記１つ以上のオーディオオブジェクト信号が前記１つ以上のオーディオ出力チャンネル内でどのように混合されるかに関する情報を示すレンダリング情報を受信するように構成され、
前記パラメータプロセッサ(１１０)は、前記ダウンミックス情報に依存して、前記共分散情報に依存して及びレンダリング情報に依存して前記ミキシング情報を算出するように構成されている請求項１から７のいずれか一項に記載の装置。
前記パラメータプロセッサ(１１０)は、前記レンダリング情報としてレンダリング行列Ｒの複数の係数を受信するように構成され、
前記パラメータプロセッサ(１１０)は、前記ダウンミックス情報に依存して、前記共分散情報に依存して及び前記レンダリング行列Ｒに依存して前記ミキシング情報を算出するように構成されている請求項８に記載の装置。
前記パラメータプロセッサ(１１０)は、前記レンダリング情報としてメタデータ情報を受信するように構成され、前記メタデータ情報は位置情報を含み、
前記位置情報は前記１つ以上のオーディオオブジェクト信号の１つずつに対する位置を示し、
前記位置情報は前記１つ以上のオーディオチャンネル信号のいずれかに対する位置を示すことがなく、
前記パラメータプロセッサ(１１０)は、前記ダウンミックス情報に依存して、前記共分散情報に依存して、及び前記位置情報に依存して前記ミキシング情報を算出するように構成されている請求項８に記載の装置。
前記メタデータ情報はさらに利得情報を含み、
前記利得情報は前記１つ以上のオーディオオブジェクト信号の１つずつに対する利得値を示し、
前記利得情報は前記１つ以上のオーディオチャンネル信号のいずれかに対する利得値を示すことがなく、
前記パラメータプロセッサ(１１０)は、前記ダウンミックス情報に依存して、前記共分散情報に依存して、前記位置情報に依存して、及び前記利得情報に依存して前記ミキシング情報を算出するように構成されている請求項１０に記載の装置。
前記パラメータプロセッサ(１１０)は、前記ミキシング情報としてミキシング行列Ｓを算出するように構成され、前記ミキシング行列Ｓは、式
Ｓ＝ＲＧ
に従って定義され、
式中、Ｇは前記ダウミックス情報に依存し、かつ、前記共分散情報に依存した復号化行列であり、
Ｒは前記メタデータ情報に依存したレンダリング行列であり、
前記ダウンミックスプロセッサ(１２０)は、式
Ｚ＝ＳＹ
を適用することにより、前記オーディオ出力信号の前記１つ以上のオーディオ出力チャンネルを生成するように構成され、
式中、Ｚはオーディオ出力信号であり、Ｙはオーディオトランスポート信号である請求項１０又は１１に記載の装置。
２つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、２つ以上のオーディオチャンネル信号が前記オーディオトランスポート信号内で混合され、
前記共分散情報は、前記２つ以上のオーディオチャンネル信号のうちの１つと、前記２つ以上のオーディオチャンネル信号のうちのもう１つとからなる１つ以上のペアに対する相関情報を示し、
前記共分散情報は、前記１つ以上のオーディオオブジェクト信号のうちの１つと前記１つ以上のオーディオオブジェクト信号のうちのもう１つとのペアに対する相関情報を示すことがなく、
前記パラメータプロセッサ(１１０)は、前記ダウンミックス情報に依存して、前記１つ以上のオーディオチャンネル信号の１つずつのレベル差情報に依存して、前記１つ以上のオーディオオブジェクト信号の１つずつの前記第２のレベル差情報に依存して、及び前記２つ以上のオーディオチャンネル信号のうちの１つと前記２つ以上のオーディオチャンネル信号のうちのもう１つとの前記１つ以上のペアの前記相関情報に依存して前記ミキシング情報を算出するように構成されている請求項１から１２のいずれか一項に記載の装置。
１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置であって、該装置は、
前記オーディオトランスポート信号の前記１つ以上のオーディオトランスポートチャンネルを生成するチャンネル/オブジェクトミキサ(２１０)と、
出力インターフェース(２２０)と、を備え、
前記チャンネル/オブジェクトミキサ(２１０)は、前記１つ以上のオーディオチャンネル信号及び前記１つ以上のオーディオオブジェクト信号が前記１つ以上のオーディオトランスポートチャンネル内でどのように混合されるべきであるかに関する情報を示すダウンミックス情報に依存して、前記オーディオトランスポート信号内で前記１つ以上のオーディオチャンネル信号と前記１つ以上のオーディオオブジェクト信号とを混合することにより前記１つ以上のオーディオトランスポートチャンネルを含む前記オーディオトランスポート信号を生成し、前記１つ以上のオーディオトランスポートチャンネルの数が１つ以上のオーディオチャンネル信号の数に１つ以上のオーディオオブジェクト信号の数を加えた数より少なくなるように構成され、
前記出力インターフェース(２２０)は、前記オーディオトランスポート信号、前記ダウンミックス情報及び共分散情報を出力するように構成され、
前記共分散情報は、前記１つ以上のオーディオチャンネル信号のうちの少なくとも１つに対するレベル差情報を示し、さらに前記１つ以上のオーディオオブジェクト信号のうちの少なくとも１つに対するレベル差情報を示し、
前記共分散情報は、前記１つ以上のオーディオチャンネル信号のうちの１つと前記１つ以上のオーディオオブジェクト信号のうちの１つとのペアに対する相関情報を示すことがない装置。
チャンネル/オブジェクトミキサ(２１０)は、前記オーディオトランスポート信号の前記１つ以上のオーディオトランスポートチャンネルの数がどの程度のビットレートが前記オーディオトランスポート信号を送信するため利用可能であるかに依存するように、前記オーディオトランスポート信号を生成するように構成されている請求項１４に記載の装置。
オーディオトランスポート信号を生成する請求項１４又は１５に記載の装置(３１０)と、
１つ以上のオーディオ出力チャンネルを生成する請求項１から１３のいずれか一項に記載の装置(３２０)と、を備え、
請求項１から１３のいずれか一項に記載の装置(３２０)は、請求項１４又は１５に記載の前記装置(３１０)から前記オーディオトランスポート信号、ダウンミックス情報及び共分散情報を受信するように構成され、
請求項１から１３のいずれか一項に記載の装置(３２０)は、前記ダウンミックス情報及び前記共分散情報に依存して前記オーディオトランスポート信号から前記１つ以上のオーディオ出力チャンネルを生成するように構成されているシステム。
１つ以上のオーディオ出力チャンネルを生成する方法であって、該方法は、
１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するステップであって、１つ以上のオーディオチャンネル信号が前記オーディオトランスポート信号内で混合され、１つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、１つ以上のオーディオトランスポートチャンネルの数が前記１つ以上のオーディオチャンネル信号の数に前記１つ以上のオーディオオブジェクト信号の数を加えた数より少なくされているステップと、
前記１つ以上のオーディオチャンネル信号と前記１つ以上のオーディオオブジェクト信号が前記１つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するステップと、
共分散情報を受信するステップと、
前記ダウミックス情報に依存して、及び前記共分散情報に依存してミキシング情報を算出するステップと、
前記１つ以上のオーディオ出力チャンネルを生成するステップであって、前記ミキシング情報に依存して前記オーディオトランスポート信号から前記１つ以上のオーディオ出力チャンネルを生成するステップと、を含み、
前記共分散情報は、前記１つ以上のオーディオチャンネル信号のうちの少なくとも１つに対するレベル差情報を示し、さらに前記１つ以上のオーディオオブジェクト信号のうちの少なくとも１つに対するレベル差情報を示し、
前記共分散情報は、前記１つ以上のオーディオチャンネル信号のうちの１つと前記１つ以上のオーディオオブジェクト信号のうちの１つとのペアに対する相関情報を示すことがない方法。
１つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する方法であって、該方法は、
１つ以上のオーディオチャンネル信号及び１つ以上のオーディオオブジェクト信号が前記１つ以上のオーディオトランスポートチャンネル内でどのように混合されるべきであるかに関する情報を示すダウンミックス情報に依存して、前記オーディオトランスポート信号内で前記１つ以上のオーディオチャンネル信号及び前記１つ以上のオーディオオブジェクト信号を混合することにより前記１つ以上のオーディオトランスポートチャンネルを含む前記オーディオトランスポート信号を生成し、前記１つ以上のオーディオトランスポートチャンネルの数が前記１つ以上のオーディオチャンネル信号の数と前記１つ以上のオーディオオブジェクト信号の数を加えた数より少なくなるようにするステップと、
前記オーディオトランスポート信号、前記ダウンミックス情報及び共分散情報を出力するステップと、を含み、
前記共分散情報は、前記１つ以上のオーディオチャンネル信号のうちの少なくとも１つに対するレベル差情報を示し、さらに前記１つ以上のオーディオオブジェクト信号のうちの少なくとも１つに対するレベル差情報を示し、
前記共分散情報は、前記１つ以上のオーディオチャンネル信号のうちの１つと前記１つ以上のオーディオオブジェクト信号のうちの１つとのペアに対する相関情報を示すことがない方法。
コンピュータ又は信号プロセッサ上で実行されたときに請求項１７又は１８に記載の方法を実施するコンピュータプログラム。