JP2016525714A

JP2016525714A - 低遅延オブジェクト・メタデータ符号化の装置と方法

Info

Publication number: JP2016525714A
Application number: JP2016528434A
Authority: JP
Inventors: ボルス，クリスチャン; エルテル，クリスチャン; ヒルペルト，ヨハネス
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-07-22
Filing date: 2014-07-16
Publication date: 2016-08-25
Anticipated expiration: 2034-07-16
Also published as: EP3025332A1; US10277998B2; US10715943B2; CN105474310A; RU2672175C2; US20170311106A1; KR101865213B1; EP2830047A1; BR112016001140A2; MX357577B; JP2016528541A; KR20160033775A; ZA201601044B; US11337019B2; BR112016001139A2; BR112016001140B1; MX2016000907A; TW201523591A; CA2918166A1; KR20210048599A

Abstract

１つ以上のオーディオチャネルを生成する装置（１００）が提供される。この装置は、制御信号(b)に依存して１つ以上の処理済みメタデータ信号から１つ以上の再生メタデータ信号を生成するメタデータ復号器（１１０）であって、１つ以上の再生メタデータ信号の各々は１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示し、１つ以上の再生メタデータ信号の各々について複数の再生メタデータサンプルを決定することにより１つ以上の再生メタデータ信号を生成する、メタデータ復号器（１１０）を備える。さらにこの装置は、１つ以上のオーディオオブジェクト信号と１つ以上の再生メタデータ信号とに依存して、１つ以上のオーディオチャネルを生成するオーディオチャネル生成部（１２０）を備える。メタデータ復号器（１１０）は、１つ以上の処理済みメタデータ信号の各々の複数の処理済みメタデータサンプルと、制御信号(b)とを受信する。さらに、メタデータ復号器（１１０）は、１つ以上の再生メタデータ信号の各再生メタデータ信号の複数の再生メタデータサンプルの各再生メタデータサンプルを、制御信号(b)が第１状態(b(n)=0)を示すときには、再生メタデータサンプルが１つ以上の処理済みメタデータ信号の１つにおける処理済みメタデータサンプルの１つと再生メタデータ信号の他の１つの既に生成された再生メタデータサンプルとの合計であり、制御信号が第１状態とは異なる第２状態(b(n)=1)を示すときには、再生メタデータサンプルが１つ以上の処理済みメタデータ信号の１つにおける処理済みメタデータサンプルの１つであるように、決定する。【選択図】図１

Description

本発明はオーディオ符号化／復号化に関し、特に空間オーディオ符号化及び空間オーディオオブジェクト符号化に関し、更に詳しくは効率的なオブジェクト・メタデータ符号化の装置と方法に関する。

空間オーディオ符号化ツールは当該技術において公知であり、例えばＭＰＥＧサラウンド標準で標準化されている。空間オーディオ符号化は、５個又は７個のチャネルなどのオリジナル入力チャネルから開始し、それらチャネルは再生設定におけるそれらの配置によって識別される。即ち、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル、及び低周波数強化チャネルである。空間オーディオ符号器は、典型的にはオリジナルチャネルから１つ以上のダウンミクスチャネルを導出し、加えて空間的キューに関連するパラメトリックデータを導出しており、その空間的キューにはチャネルコヒーレンス値におけるチャネル間レベル差(interchannel level differences)、チャネル間位相差(interchannel phase differences)、チャネル間時間差(interchannel time differences)などがある。１つ以上のダウンミクスチャネルは、空間的キューを示すパラメトリックサイド情報と一緒に空間オーディオ復号器へと伝送され、その復号器は、ダウンミクスチャネルとその関連するパラメトリックデータとを復号化して、オリジナル入力チャネルの近似されたバージョンである出力チャネルを最終的に取得する。出力設定におけるチャネルの配置は典型的には固定されており、例えば５．１フォーマット、７．１フォーマットなどである。

そのようなチャネルベースのオーディオフォーマットは、多チャネルオーディオコンテンツを記憶又は伝送するために広く使用されており、その場合、各チャネルは所与の位置にある特異なラウドスピーカに関連している。このような種類のフォーマットを忠実に再生するためには、オーディオ信号の生成時に使用されたスピーカ一位置と同じ位置にスピーカが配置されているような、ラウドスピーカ設定が要求される。ラウドスピーカの個数を増加させると、真に音に浸りこむような改善された３Ｄオーディオシーンの再生が可能になる一方で、特にリビングルームのような家庭的な環境では、そのような要求を満たすことはますます困難になる。

特異なラウドスピーカ設定を有することの必要性は、ラウドスピーカ信号が再生設定のために特異的にレンダリングされるオブジェクト・ベースの手法によって克服され得る。

例えば空間オーディオオブジェクト符号化ツールは、当該技術において公知であり、ＭＰＥＧＳＡＯＣ標準（ＳＡＯＣ＝空間オーディオオブジェクト符号化）において標準化されている。オリジナルチャネルから開始する空間オーディオ符号化とは対照的に、空間オーディオオブジェクト符号化はオーディオオブジェクトから開始し、それらオブジェクトはあるレンダリング再生設定に対して自動的に専用となる訳ではない。代わりに、再生シーン内におけるオーディオオブジェクトの配置には柔軟性があり、あるレンダリング情報を空間オーディオオブジェクト符号化・復号器へと入力することによりユーザーが決定することもできる。代替的又は追加的に、レンダリング情報、即ち再生設定におけるどの位置に、あるオーディオオブジェクトが典型的には時間にわたって配置されるべきかという情報は、追加的サイド情報又はメタデータとして伝送され得る。あるデータ圧縮を得るために幾つかのオーディオオブジェクトがＳＡＯＣ符号器によって符号化され、その符号器は、あるダウンミクス情報に従ってオブジェクトをダウンミクスすることで入力オブジェクトから１つ以上の転送チャネルを計算する。更に、ＳＡＯＣ符号器は、オブジェクトレベル差（ＯＬＤ）、オブジェクトコヒーレンス値などのオブジェクト間キューを表現しているパラメトリックサイド情報を計算する。ＳＡＣ（ＳＡＣ＝空間オーディオ符号化）においては、オブジェクト間のパラメトリックデータが個別の時間／周波数タイルについて計算される。即ち、例えば１０２４個又は２０４８個のサンプルを有するオーディオ信号のあるフレームについて、最終的に各フレーム及び各周波数帯域に対してパラメトリックデータが存在するように、２４個，３２個又は６４個などの周波数帯域が考慮される。一例として、あるオーディオピースが２０フレームを有し、各フレームが３２個の周波数帯域へと分割される場合、時間／周波数タイルの数は６４０個となる。

オブジェクト・ベースの手法において、音場は離散的なオーディオオブジェクトによって記述される。そのため、とりわけ３Ｄ空間における各音源の時間変化する位置を記述するオブジェクト・メタデータが必要になる。

先行技術における第１のメタデータ符号化概念は、空間サウンド記述インターチェンジフォーマット（ＳｐａｔＤＩＦ）であり、これは未だ開発中のオーディオシーン記述フォーマットである（非特許文献１）。そのフォーマットは、オブジェクト・ベースのサウンドシーンのためのインターチェンジフォーマットとして設計され、オブジェクト軌跡についての圧縮方法を何も提供してはいない。ＳｐａｔＤＩＦは、オブジェクト・メタデータを構築するために、テキスト・ベースのオープンサウンド制御（ＯＳＣ）フォーマットを使用する（非特許文献２）。しかしながら、単純なテキスト・ベースの表現はオブジェクト軌跡の圧縮された伝送のための選択肢にはならない。

先行技術における他のメタデータ概念はオーディオシーン記述フォーマット（ＡＳＤＦ）（非特許文献３）であり、同様の欠点を持つテキスト・ベースの解決策である。そのデータは、拡張可能なマーク付け言語（Extensible Markup Language：ＸＭＬ）（非特許文献４、非特許文献５）の部分集合である、同期されたマルチメディア統合言語(Synchronized Multimedia Integration Language：SMIL)の拡張によって構築される。

先行技術における更なるメタデータ概念は、シーンのためのオーディオバイナリフォーマット（ＡｕｄｉｏＢＩＦＳ）であり、ＭＰＥＧ−４仕様（非特許文献６、非特許文献７）の一部であるバイナリフォーマットである。そのフォーマットは、視聴覚の３Ｄシーンや双方向仮想現実アプリケーション（非特許文献８）のために開発されたＸＭＬベースの仮想現実モデリング言語(Virtual Reality Modeling Language：ＶＲＭＬ）に深く関連している。複雑なＡｕｄｉｏＢＩＦＳ仕様は、オブジェクトの動きの経路を特定するためにシーングラフを使用する。ＡｕｄｉｏＢＩＦＳの主たる欠点は、制限されたシステム遅延及びデータストリームへのランダムアクセスが要件となるようなリアルタイム操作のために設計されていないという点である。更に、オブジェクト位置の符号化は人間のリスナーの制限された定位性能を活用していない。視聴覚シーン内の固定的なリスナー位置に対しては、オブジェクトデータは遥かに少数のビットで量子化され得る（非特許文献９）。よって、ＡｕｄｉｏＢＩＦＳの中で適用されるオブジェクト・メタデータの符号化は、データ圧縮に関して効率的でない。

そこで、改善された効率的なオブジェクト・メタデータ符号化の概念が提供されれば、高く評価されるであろう。

[10] Cutler, C. C. (1950), "Differential Quantization of Communication Signals", US Patent US2605361, Jul. 1952.

[1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012. [2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997. [3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010. [4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008. [5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008. [6] MPEG, "ISO/IEC International Standard 14496-3- Coding of audio-visual objects, Part 3 Audio", 2009. [7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004 [8] Web3D, "International Standard ISO/IEC 14772-1:1997-The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997. [9] Sporer, T. (2012), "Codierung raeumlicher Audiosignale mit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012. [11] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning"; J. Audio Eng. Soc., Volume 45, Issue 6, pp. 456-466, June 1997.

本発明の目的は、オブジェクト・メタデータ符号化のための改善された概念を提供することである。本発明の目的は、請求項１に記載の装置と、請求項６に記載の装置と、請求項１２に記載のシステムと、請求項１３に記載の方法と、請求項１４に記載の方法と、請求項１５に記載のコンピュータプログラムとによって達成される。

１つ以上のオーディオチャネルを生成する装置が提供される。この装置は、制御信号(b)に依存して、１つ以上の処理済みメタデータ信号(z₁,…,z_N)から１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するメタデータ復号器を含み、それら１つ以上の再生メタデータ信号(x₁',…,x_N')の各々は１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示し、メタデータ復号器は、１つ以上の再生メタデータ信号(x₁',…,x_N')の各々に対して複数の再生メタデータサンプル(x₁'(n),…,x_N'(n))を決定することにより、１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するよう構成されている。更に、この装置は、１つ以上のオーディオオブジェクト信号に依存しかつ１つ以上の再生メタデータ信号(x₁',…,x_N')に依存して、１つ以上のオーディオチャネルを生成するオーディオチャネル生成部を含む。メタデータ復号器は、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各々の複数の処理済みメタデータサンプル(z₁(n),…,z_N(n))を受信するよう構成されている。更に、メタデータ復号器は制御信号(b)を受信するよう構成されている。更に、メタデータ復号器は、１つ以上の再生メタデータ信号(x₁',…,x_N')の各再生メタデータ信号(x_i')の複数の再生メタデータサンプル(x_i'(1),…,x_i'(n-1),x_i'(n))の各再生メタデータサンプル(x_i'(n))を以下のように決定する。即ち、制御信号(b)が第１状態(b(n)=0)を示すときには、再生メタデータサンプル(x_i'(n))が、１つ以上の処理済みメタデータ信号のうちの１つ(z_i)の処理済みメタデータサンプルの１つ(z_i(n))と再生メタデータ信号(x_i')の他の1つの既に生成された再生メタデータサンプル(x_i'(n-1))との合計であり、制御信号が第１状態とは異なる第２状態(b(n)=1)を示すときには、再生メタデータサンプル(x_i'(n))が、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の１つ(z_i)の処理済みメタデータサンプル(z_i(1),…,z_i(n))の１つ(z_i(n))であるように、決定する。

更に、１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する装置が提供される。この装置は、１つ以上のオリジナル・メタデータ信号を受信して１つ以上の処理済みメタデータ信号を決定する、メタデータ符号器を含む。１つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、１つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示す。

更にこの装置は、１つ以上のオーディオオブジェクト信号を符号化して１つ以上の符号化済みオーディオ信号を取得するオーディオ符号器を含む。

メタデータ符号器は、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各処理済みメタデータ信号(z_i)の複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1), z_i(n))の各処理済みメタデータサンプル(z_i(n))を、以下のように決定する。即ち、制御信号(b)が第１状態(b(n)=0)を示すときには、再生メタデータサンプル(z_i(n))が、１つ以上のオリジナル・メタデータ信号の１つ(x_i)の複数のオリジナル・メタデータサンプルの１つ(x_i(n))と、処理済みメタデータ信号(z_i)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第１状態とは異なる第２状態(b(n)=1)を示すときには、処理済みメタデータサンプル(z_i(n))が、１つ以上の処理済みメタデータ信号の１つ(x_i)のオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))、又はオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))の量子化済み表現(q_i(n))となるように、決定する。

一実施形態によれば、制限されたデータレートでチャネルを伝送するための効率的な圧縮メカニズムを達成する、オブジェクト・メタデータのためのデータ圧縮概念が提供される。符号器及び復号器によってそれぞれ導入される追加的な遅延は全くない。更に、純粋な方位角変化、例えばカメラ回転に対する良好な圧縮レートが達成される。更にこの提案の概念は、例えば位置的ジャンプのような不連続的な軌跡をサポートする。更に、複雑性の低い復号化を実現できる。更に、制限された再初期化時間でランダムアクセスを達成できる。

１つ以上のオーディオチャネルを生成する方法が提供される。その方法は、
−制御信号(b)に依存して、１つ以上の処理済みメタデータ信号(z₁,…,z_N)から１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するステップであって、それら１つ以上の再生メタデータ信号(x₁',…,x_N')の各々は１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示し、１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するステップは、１つ以上の再生メタデータ信号(x₁',…,x_N')の各々に対し複数の再生メタデータサンプル(x₁'(n),…,x_N'(n))を決定することにより実行される、ステップと、
−１つ以上のオーディオオブジェクト信号に依存しかつ１つ以上の再生メタデータ信号(x₁',…,x_N')に依存して、１つ以上のオーディオチャネルを生成するステップと、
を備える。

１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するステップは、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各々の複数の処理済みメタデータサンプル(z₁(n),…,z_N(n))を受信すること、制御信号(b)を受信すること、及び１つ以上の再生メタデータ信号(x₁',…,x_N')の各再生メタデータ信号(x_i')の複数の再生メタデータサンプル(x_i'(1),…,x_i'(n-1),x_i'(n))の各再生メタデータサンプル(x_i'(n))を以下のように決定すること、により実行される。即ち、制御信号(b)が第１状態(b(n)=0)を示すときには、再生メタデータサンプル(x_i'(n))が、１つ以上の処理済みメタデータ信号のうちの１つ(z_i)の処理済みメタデータサンプルの１つ(z_i(n))と前記再生メタデータ信号(x_i')の他の1つの既に生成された再生メタデータサンプル(x_i'(n-1))との合計となり、制御信号が第１状態とは異なる第２状態(b(n)=1)を示すときには、再生メタデータサンプル(x_i'(n))が１つ以上の処理済みメタデータ信号(z₁,…,z_N)の前記１つ(z_i)の処理済みメタデータサンプル(z_i(1),…,z_i(n))の前記１つ(z_i(n))となるように、決定する。

更に、１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する方法が提供される。その方法は、
−１つ以上のオリジナル・メタデータ信号を受信するステップと、
−１つ以上の処理済みメタデータ信号を決定するステップと、
−１つ以上のオーディオオブジェクト信号を符号化して１つ以上の符号化済みオーディオ信号を取得するステップと、
を備える。

１つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、１つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示している。１つ以上の処理済みメタデータ信号を決定するステップは、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各処理済みメタデータ信号(z_i)の複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1),z_i(n))の各処理済みメタデータサンプル(z_i(n))を、以下のように決定することを含む。即ち、制御信号(b)が第１状態(b(n)=0)を示すときには、再生メタデータサンプル(z_i(n))が、１つ以上のオリジナル・メタデータ信号の１つ(x_i)の複数のオリジナル・メタデータサンプルの１つ(x_i(n))と処理済みメタデータ信号(z_i)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第１状態とは異なる第２状態(b(n)=1)を示すときには、処理済みメタデータサンプル(z_i(n))が、１つ以上の処理済みメタデータ信号の前記１つ(x_i)のオリジナル・メタデータサンプル(x_i(n),…,x_i(n))の１つ(x_i(n))、又はオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))の量子化済み表現(q_i(n))となるように、決定する。

更に、コンピュータ又は信号プロセッサ上で作動されたときに、上述した方法を実行するコンピュータプログラムが提供される。

以下に、本発明の実施形態を図面を参照しながらより詳細に説明する。

１つ以上のオーディオチャネルを生成する、一実施形態に係る装置を示す。符号化済みオーディオ情報を生成する、一実施形態に係る装置を示す。一実施形態に係るシステムを示す。方位角、仰角及び半径により表現された、原点からの３次元空間におけるオーディオオブジェクトの位置を示す。オーディオチャネル生成部により想定されたオーディオオブジェクトの位置とラウドスピーカ設定とを示す。差分パルス符号変調符号器を示す。差分パルス符号変調復号器を示す。一実施形態に係るメタデータ符号器を示す。他の実施形態に係るメタデータ符号器を示す。一実施形態に係るメタデータ復号器を示す。一実施形態に係るメタデータ復号器サブユニットを示す。３Ｄオーディオ符号器の第１実施形態を示す。３Ｄオーディオ復号器の第１実施形態を示す。３Ｄオーディオ符号器の第２実施形態を示す。３Ｄオーディオ復号器の第２実施形態を示す。３Ｄオーディオ符号器の第３実施形態を示す。３Ｄオーディオ復号器の第３実施形態を示す。

図２は、１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成するための一実施形態に係る装置２５０を示す。

装置２５０は、１つ以上のオリジナル・メタデータ信号を受信し、１つ以上の処理済みメタデータ信号を決定する、メタデータ符号器２１０を含む。１つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、１つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは、１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示す。

更に、装置２５０は、１つ以上のオーディオオブジェクト信号を符号化して１つ以上の符号化済みオーディオ信号を取得する、オーディオ符号器２２０を含む。

メタデータ符号器２１０は、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各処理済みメタデータ信号(z_i)の複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1), z_i(n))の各処理済みメタデータサンプル(z_i(n))を、以下のように決定するよう構成されている。即ち、制御信号(b)が第１状態(b(n)=0)を示すときには、再生メタデータサンプル(z_i(n))が、前記１つ以上のオリジナル・メタデータ信号の１つ(x_i)の複数のオリジナル・メタデータサンプルの１つ(x_i(n))と処理済みメタデータ信号(z_i)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第１状態とは異なる第２状態(b(n)=1)を示すときには、処理済みメタデータサンプル(z_i(n))が、１つ以上の処理済みメタデータ信号の１つ(x_i)のオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))、又はオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))の量子化済み表現(q_i(n))となるように、決定する。

図１は、１つ以上のオーディオチャネルを生成する一実施形態に係る装置１００を示す。

装置１００は、制御信号(b)に依存して、１つ以上の処理済みメタデータ信号(z₁,…,z_N)から１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するメタデータ復号器１１０を含み、それら１つ以上の再生メタデータ信号(x₁',…,x_N')の各々は、１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示し、メタデータ復号器１１０は、１つ以上の再生メタデータ信号(x₁',…,x_N')の各々に対し複数の再生メタデータサンプル(x₁'(n),…,x_N'(n))を決定することにより、１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するよう構成されている。

更に装置１００は、１つ以上のオーディオオブジェクト信号に依存しかつ１つ以上の再生メタデータ信号(x₁',…,x_N')に依存して、１つ以上のオーディオチャネルを生成するオーディオチャネル生成部１２０を含む。

メタデータ復号器１１０は、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各々の複数の処理済みメタデータサンプル(z₁(n),…,z_N(n))を受信するよう構成されている。更にメタデータ復号器１１０は、制御信号(b)を受信するよう構成されている。

更に、メタデータ復号器１１０は、１つ以上の再生メタデータ信号(x₁',…,x_N')の各再生メタデータ信号(x_i')の複数の再生メタデータサンプル(x_i'(n),…,x_i'(n-1),x_i'(n))の各再生メタデータサンプル(x_i'(n))を、以下のように決定するよう構成されている。即ち、制御信号(b)が第１状態(b(n)=0)を示すとき、再生メタデータサンプル(x_i'(n))が、１つ以上の処理済みメタデータ信号の１つ(z_i)の処理済みメタデータサンプルの１つ(z_i(n))と再生メタデータ信号(x_i')の他の1つの既に生成された再生メタデータサンプル(x_i'(n-1))との合計であり、制御信号が第１状態とは異なる第２状態(b(n)=1)を示すとき、再生メタデータサンプル(x_i'(n))が、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の前記１つ(z_i)の処理済みメタデータサンプル(z_i(1),…,z_i(n))の前記１つ(z_i(n))であるように、決定する。

メタデータサンプルについて言及する場合には、1つのメタデータサンプルは、そのメタデータサンプル値によって特徴付けられるだけでなく、そのメタデータサンプルが関連する時点によっても特徴付けられるという点にも留意すべきである。例えば、そのような時点とは、オーディオシーケンスの開始点又はそれと同様な点に対して相対的であってもよい。例えば、インデックスｎ又はｋはメタデータ信号内のメタデータサンプルの位置を識別していてもよく、これにより、（開始時点に関連する）（相対的）時点が示されてもよい。注意すべきは、２つのメタデータサンプルが異なる時点に関連する場合、（時々起こり得ることであるが）たとえそれらのメタデータサンプル値が同一であったとしても、それら２つのメタデータサンプルは異なるメタデータサンプルであるということである。

上述の実施形態は、オーディオオブジェクト信号と関連する（メタデータ信号に含まれる）メタデータ情報がゆっくりと変化する場合が多い、という知見に基づいている。

例えば、メタデータ信号は、オーディオオブジェクトについての位置情報（例えばオーディオオブジェクトの位置を定義する方位角、仰角又は半径）を示してもよい。殆どの時点でオーディオオブジェクトの位置は変化しないか又はゆっくりとだけ変化する、と想定されてもよい。

あるいは、メタデータ信号は、例えばオーディオオブジェクトの音量（例えばゲイン）を示してもよく、殆どの時点でオーディオオブジェクトの音量はゆっくりと変化すると想定されてもよい。

このような理由により、全ての時点における（完全な）メタデータ情報を伝送する必要はない。

その代わり、幾つかの実施形態によれば、（完全な）メタデータ情報が例えばある時点においてだけ伝送されてもよく、例えばＮ番目の時点毎に周期的に、例えば時点０，Ｎ，２Ｎ，３Ｎ等において伝送されてもよい。

例えば、実施形態においては、３個のメタデータ信号が３Ｄ空間におけるオーディオオブジェクトの位置を特定する。メタデータ信号の１番目は、例えばオーディオオブジェクトの位置の方位角を特定してもよい。メタデータ信号の２番目は、例えばオーディオオブジェクトの位置の仰角を特定してもよい。メタデータ信号の３番目は、例えばオーディオオブジェクトの距離に関係する半径を特定してもよい。

方位角と仰角と半径とは、３Ｄ空間におけるオーディオオブジェクトの原点からの位置を明確に定義する。これについては図４を参照しながら説明する。

図４は、三次元（３Ｄ）空間におけるオーディオオブジェクトの原点４００からの位置４１０を、方位角と仰角と半径とで示す。

仰角は、例えば、原点からオブジェクト位置までの直線と、この直線のｘｙ平面（ｘ軸とｙ軸とによって定義される平面）への垂直投影線との角度を特定する。方位角は、例えばｘ軸と前記垂直投影線との角度を定義する。方位角と仰角とを特定することで、原点４００とオーディオオブジェクトの位置４１０とを通過する直線４１５が定義され得る。更に半径を特定することで、オーディオオブジェクトの正確な位置４１０が定義され得る。

一実施形態において、方位角は−１８０°＜方位角≦１８０°の範囲で定義され、仰角は−９０°≦仰角≦９０°の範囲で定義され、半径は例えばメートル［ｍ］（０ｍ以上である）で定義され得る。

例えばｘｙｚ座標系におけるオーディオオブジェクト位置の全てのｘ値がゼロ以上であると想定され得るような他の実施形態においては、方位角は−９０°≦方位角≦９０°の範囲で定義され、仰角は−９０°≦仰角≦９０°の範囲で定義され、半径は例えばメートル［ｍ］で定義され得る。

更なる実施形態において、方位角が−１２８°＜方位角≦１２８°の範囲で定義され、仰角が−３２°≦仰角≦３２°の範囲で定義され、半径が例えば対数スケールで定義され得るように、メタデータ信号はスケールされてもよい。幾つかの実施形態において、オリジナル・メタデータ信号、処理済みメタデータ信号、及び再生メタデータ信号は、それぞれ、１つ以上のオーディオオブジェクト信号の１つの位置情報のスケールされた表現及び／又は音量のスケールされた表現を含んでもよい。

オーディオチャネル生成部１２０は、例えば、１つ以上のオーディオオブジェクト信号に依存しかつ再生メタデータ信号に依存して、１つ以上のオーディオチャネルを生成するよう構成されてもよく、その再生メタデータ信号は、例えばオーディオオブジェクトの位置を示してもよい。

図５は、オーディオオブジェクトの位置と、オーディオチャネル生成部により想定されるラウドスピーカ設定とを示す。ｘｙｚ座標系の原点５００が示されている。更に、第１オーディオオブジェクトの位置５１０と、第２オーディオオブジェクトの位置５２０とが示されている。更に、図５は、オーディオチャネル生成部１２０が４個のラウドスピーカのための４個のオーディオチャネルを生成するシナリオを示す。オーディオチャネル生成部１２０は、４個のラウドスピーカ５１１，５１２，５１３，５１４が図５に示す位置に配置されていると想定している。

図５において、第１オーディオオブジェクトは、ラウドスピーカ５１１と５１２の想定位置に近い位置５１０に配置されており、ラウドスピーカ５１３と５１４からは遠い位置に配置されている。従って、オーディオチャネル生成部１２０は、第１オーディオオブジェクト５１０がラウドスピーカ５１１及び５１２により再生され、ラウドスピーカ５１３及び５１４では再生されないように、４個のオーディオチャネルを生成してもよい。

他の実施形態において、オーディオチャネル生成部１２０は、第１オーディオオブジェクト５１０がラウドスピーカ５１１及び５１２により高い音量で再生され、ラウドスピーカ５１３及び５１４により低い音量で再生されるように、４個のオーディオチャネルを生成してもよい。

更に、第２オーディオオブジェクトは、ラウドスピーカ５１３と５１４の想定位置に近い位置５２０に配置されており、ラウドスピーカ５１１と５１２からは遠い位置に配置されている。従って、オーディオチャネル生成部１２０は、第２オーディオオブジェクト５２０がラウドスピーカ５１３及び５１４により再生され、ラウドスピーカ５１１及び５１２では再生されないように、４個のオーディオチャネルを生成してもよい。

他の実施形態において、オーディオチャネル生成部１２０は、第２オーディオオブジェクト５２０がラウドスピーカ５１３及び５１４により高い音量で再生され、ラウドスピーカ５１１及び５１２により低い音量で再生されるように、４個のオーディオチャネルを生成してもよい。

代替的な実施形態において、オーディオオブジェクトの位置を特定するために、２個のメタデータ信号だけが使用されてもよい。例えば、全てのオーディオオブジェクトが単一平面に配置されていると想定される場合には、例えば方位角と半径だけが特定されてもよい。

更に他の実施形態においては、各オーディオオブジェクトのために、単一のメタデータ信号だけが位置情報として符号化されかつ伝送される。例えば、あるオーディオオブジェクトについて、方位角だけが位置情報として特定されてもよい（例えば全てのオーディオオブジェクトが同一平面上に配置され、中心点から同一距離を持ち、従って同一半径を有すると想定される場合など）。方位角情報は、例えば、オーディオオブジェクトが左のラウドスピーカに近く、右のラウドスピーカからは遠いと判定することで十分であってもよい。そのような状況において、オーディオチャネル生成部１２０は、例えばオーディオオブジェクトが左のラウドスピーカによって再生されるが、右のラウドスピーカでは再生されないように、１つ以上のオーディオチャネルを生成してもよい。

例えば、ラウドスピーカのオーディオチャネルの各々の中におけるオーディオオブジェクト信号の重みを決定するために、ベクトルベース振幅パニング（Vector Base Amplitude Panning（ＶＢＡＰ））が使用されてもよい（例えば非特許文献１０を参照）。例えば、ＶＢＡＰに関しては、オーディオオブジェクトが仮想音源に関連すると想定されている。

実施形態において、各オーディオオブジェクトについて、更なるメタデータ信号が音量、例えばゲイン（例えばデシベル［ｄＢ］で表現された）を特定してもよい。

例えば図５において、第１ゲイン値は、位置５１０に配置された第１オーディオオブジェクトのための更なるメタデータ信号により特定されてもよく、その値は、位置５２０に配置された第２オーディオオブジェクトのための別の更なるメタデータ信号によって特定される第２ゲイン値よりも高い。そのような状況において、ラウドスピーカ５１１及び５１２は第１オーディオオブジェクトを、ラウドスピーカ５１３及び５１４が第２オーディオオブジェクトを再生する音量よりも高い音量で再生してもよい。

実施形態はまた、オーディオオブジェクトのそのようなゲイン値がゆっくりと変化する場合が多いと想定している。従って、そのようなメタデータ情報を全ての時点において伝送する必要はない。代わりに、メタデータ情報は、ある時点において伝送されるだけである。中間の時点においては、メタデータ情報は、例えば伝送された先行するメタデータサンプルと後続のメタデータサンプルとを使用して近似されてもよい。例えば、中間値の近似のために線形補間が使用されてもよい。例えば、オーディオオブジェクトの各々のゲイン、方位角、仰角及び／又は半径が、そのようなメタデータが伝送されなかった時点のために近似されてもよい。

そのような手法により、メタデータの伝送レートにおける相当な節約を達成し得る。

図３は、一実施形態に従うシステムを示す。

このシステムは、１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する、上述のような装置２５０を備える。

更に、そのシステムは、１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とを受信し、その１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とに依存して、上述のように１つ以上のオーディオチャネルを生成する装置１００を備える。

例えば、１つ以上のオーディオオブジェクトを符号化するための符号化装置２５０がＳＡＯＣ符号器を使用した場合には、１つ以上の符号化済みオーディオ信号が、現状技術に係るＳＡＯＣ復号器を使用して１つ以上のオーディオチャネルを生成する装置１００によって復号化されて、１つ以上のオーディオオブジェクト信号が取得されてもよい。

実施形態は、差分パルス符号変調の概念が拡張可能であり、そのような拡張された概念はオーディオオブジェクトのためのメタデータ信号を符号化するのに適している、という知見に基づいている。

差分パルス符号変調（ＤＰＣＭ）の方法は、量子化を介して不適切さ(irrelevance)を低減し、差分伝送を介して冗長性を低減するような、低速変化する時間信号のための確立された方法である（特許文献１）。あるＤＰＣＭ符号器を図６で示す。

図６のＤＰＣＭ符号器において、入力信号ｘの実際の入力サンプルx(n)が減算ユニット６１０へと入力される。減算ユニットの他の入力では、別の値が減算ユニットへと入力される。この別の値は、以前に受信されたサンプルx(n-1)であると想定されてもよい。しかし、量子化誤差又は他の誤差により、他の入力における値が以前のサンプルx(n-1)と正確に同一ではないという結果をもたらしている可能性もある。そのようなx(n-1)からの可能性のあるずれに起因して、減算部の他の入力はx^*(n-1)と称されてもよい。減算ユニットは、x(n)からx^*(n-1)を減算して差分値d(n)を取得する。

次に、d(n)は量子化部６２０内で量子化されて、出力信号ｙの別の出力サンプルy(n)が取得される。一般的に、y(n)はd(n)と等しいか又はd(n)に近い値である。

更に、y(n)は加算部６３０へと入力される。更に、x^*(n-1)も加算部６３０へと入力される。d(n)が減算d(n)=x(n)-x^*(n-1)からもたらされ、y(n)がd(n)と等しい値又は少なくとも近い値であるため、加算部６３０の出力x^*(n)は、x(n)と等しいか又は少なくともx(n)に近い。

x^*(n)はサンプリング期間中、ユニット６４０において保持され、次に、処理は次のサンプルx(n+1)で継続される。

図７は、対応するＤＰＣＭ復号器を示す。

図７において、ＤＰＣＭ符号器からの出力信号ｙのサンプルy(n)は加算部７１０へと入力される。y(n)は、再生されるべき信号x(n)の差分値を表す。加算部７１０の他の入力においては、以前に再生されたサンプルx'(n-1)が入力される。加算部の出力x'(n)は加算x'(n)=x'(n-1)+y(n)からもたらされる。x'(n-1)は、一般的にx(n-1)と等しいか又は少なくとも近く、また、y(n)は、x(n)-x(n-1) と等しいか又は近いので、加算部７１０の出力x'(n)は、一般的にx(n)と等しいか又は近い。

x'(n)はサンプリング期間中、ユニット７４０において保持され、次に、処理は次のサンプルy(n+1) で継続される。

ＤＰＣＭ圧縮方法は前述した要求される特徴の殆どを満足するが、その圧縮方法はランダムアクセスを許可しない。

図８ａは、一実施形態に従うメタデータ符号器８０１を示す。

図８ａのメタデータ符号器８０１により使用される符号化方法は、従来のＤＰＣＭ符号化方法の拡張である。

図８ａのメタデータ符号器８０１は、１つ以上のＤＰＣＭ符号器８１１,...,８１Ｎを含む。例えば、メタデータ符号器８０１がＮ個のオリジナル・メタデータ信号を受信するよう構成されている場合、メタデータ符号器８０１は、例えば、正にＮ個のＤＰＣＭ符号器を含んでもよい。一実施形態において、Ｎ個のＤＰＣＭ符号器の各々は図６に関して説明したように構成されている。

一実施形態において、Ｎ個のＤＰＣＭ符号器の各々は、Ｎ個のオリジナル・メタデータ信号x₁,…,x_Nの１つのメタデータサンプルx_i(n)を受信し、かつ、前記ＤＰＣＭ符号器に入力された前記オリジナル・メタデータ信号x_iのメタデータサンプルx_i(n)の各々のために、メタデータ差分信号y_iの差分サンプルy_i(n)としての差分値を生成するよう構成されている。一実施形態において、差分サンプルy_i(n)を生成するステップは、例えば図６を参照しながら説明したように実行されてもよい。

図８ａのメタデータ符号器８０１は、制御信号b(n)を受信するよう構成された選択部８３０（"Ａ"）を更に含む。

選択部８３０は、更に、Ｎ個のメタデータ差分信号y₁,…,y_Nを受信するよう構成されている。

更に図８ａの実施形態において、メタデータ符号器８０１は、Ｎ個のオリジナル・メタデータ信号x₁,…,x_Nを量子化してＮ個の量子化済みメタデータ信号q₁,…,q_Nを取得する、量子化部８２０を含む。そのような実施形態において、量子化部は、Ｎ個の量子化済みメタデータ信号を選択部８３０へと供給するよう構成されてもよい。

選択部８３０は、制御信号b(n)に依存して、量子化済みメタデータ信号q_iとＤＰＣＭ符号化された差分メタデータ信号y_iとから、処理済みメタデータ信号z_iを生成するよう構成されてもよい。

例えば、制御信号ｂが第１状態（例えばb(n)=0)にあるとき、選択部８３０は、処理済みメタデータ信号z_iのメタデータサンプルz_i(n)として、メタデータ差分信号y_iの差分サンプルy_i(n)を出力するよう構成されてもよい。

制御信号ｂが第１状態とは異なる第２状態（例えばb(n)=1)にあるとき、選択部８３０は、処理済みメタデータ信号z_iのメタデータサンプルz_i(n)として、量子化済みメタデータ信号q_iのメタデータサンプルq_i(n)を出力するよう構成されてもよい。

図８ｂは、他の実施形態に係るメタデータ符号器８０２を示す。

図８ｂの実施形態において、メタデータ符号器８０２は量子化部８２０を含んでおらず、Ｎ個の量子化済みメタデータ信号q₁,…,q_Nの代わりに、Ｎ個のオリジナル・メタデータ信号x₁,…,x_Nが選択部８３０に対して直接的に供給される。

そのような実施形態において、例えば制御信号ｂが第１状態（例えばb(n)=0)にあるとき、選択部８３０は、処理済みメタデータ信号z_iのメタデータサンプルz_i(n)として、メタデータ差分信号y_iの差分サンプルy_i(n)を出力するよう構成されてもよい。

制御信号ｂが第１状態とは異なる第２状態（例えばb(n)=1)にあるとき、選択部８３０は、処理済みメタデータ信号z_iのメタデータサンプルz_i(n)として、オリジナル・メタデータ信号x_iのメタデータサンプルx_i(n)を出力するよう構成されてもよい。

図９ａは、一実施形態に係るメタデータ復号器９０１を示す。図９ａに係るメタデータ符号器は、図８ａ及び図８ｂのメタデータ符号器と対応している。

図９ａのメタデータ復号器９０１は、1つ以上のメタデータ復号器サブユニット９１１,…,９１Ｎを含む。メタデータ復号器９０１は、１つ以上の処理済みメタデータ信号z₁,…,z_Nを受信するよう構成されている。更に、メタデータ復号器９０１は、制御信号ｂを受信するよう構成されている。メタデータ復号器は、制御信号ｂに依存して、１つ以上の処理済みメタデータ信号z₁,…,z_Nから１つ以上の再生メタデータ信号x₁',…,x_N'を生成するよう構成されている。

一実施形態において、Ｎ個の処理済みメタデータ信号z₁,…,z_Nの各々が、メタデータ復号器サブユニット９１１,…,９１Ｎの異なる１つへと供給される。更に、一実施形態によれば、制御信号ｂがメタデータ復号器サブユニット９１１,…,９１Ｎの各々に供給される。一実施形態によれば、メタデータ復号器サブユニット９１１,…,９１Ｎの個数は、メタデータ復号器９０１によって受信される処理済みメタデータ信号z₁,…,z_Nの個数と等しい。

図９ｂは、一実施形態に係る、図９ａのメタデータ復号器サブユニット９１１,…,９１Ｎの１つのメタデータ復号器サブユニット（９１ｉ）を示す。メタデータ復号器サブユニット９１ｉは、単一の処理済みメタデータ信号z_iのために復号化を実行するよう構成されている。メタデータ復号器サブユニット９１ｉは、選択部９３０（"Ｂ"）と加算部９１０とを含む。

メタデータ復号器サブユニット９１ｉは、制御信号b(n)に依存して、受信された処理済みメタデータ信号z_iから再生メタデータ信号x_i'を生成するよう構成されている。

この操作は、例えば以下のようにして実現され得る。

再生メタデータ信号x_i'の最後の再生メタデータサンプルx_i'(n-1)が加算部９１０へと入力される。更に、処理済みメタデータ信号z_iの実際のメタデータサンプルz_i(n)もまた加算部９１０へと入力される。加算部は、最後の再生メタデータサンプルx_i'(n-1)と実際のメタデータサンプルz_i(n)とを加算して合計値s_i(n)を取得するよう構成されており、その合計値は選択部９３０へと入力される。

更に、実際のメタデータサンプルz_i(n)もまた、加算部９３０へと入力される。

選択部９３０は、制御信号ｂに依存して、加算部９１０からの合計値s_i(n)、又は実際のメタデータサンプルz_i(n)のいずれかを、再生メタデータ信号x_i'(n)の実際のメタデータサンプルx_i'(n)として選択するよう構成されている。

例えば制御信号ｂが第１状態（例えばb(n)=0)にあるとき、制御信号ｂは実際のメタデータサンプルz_i(n)が差分値であることを示しており、よって、合計値s_i(n)が再生メタデータ信号x_i'の正確な実際のメタデータサンプルx_i'(n)である。選択部８３０は、制御信号が第１状態にあるとき（b(n)=0のとき)、合計値s_i(n)を、再生メタデータ信号x_i'の実際のメタデータサンプルx_i'(n)として選択するよう構成されている。

制御信号ｂが第１状態とは異なる第２状態（例えばb(n)=1)にあるとき、制御信号ｂは実際のメタデータサンプルz_i(n)が差分値でないことを示しており、よって、実際のメタデータサンプルz_i(n)が再生メタデータ信号x_i'の正確な実際のメタデータサンプルx_i'(n)である。選択部８３０は、制御信号が第２状態にあるとき（b(n)=１のとき)、実際のメタデータサンプルz_i(n)を、再生メタデータ信号x_i'の実際のメタデータサンプルx_i'(n)として選択するよう構成されている。

実施形態によれば、メタデータ復号器サブユニット９１i'は、さらにユニット９２０を含む。ユニット９２０は、再生メタデータ信号の実際のメタデータサンプルx_i'(n)を、サンプリング期間の持続時間中、保持するよう構成されている。一実施形態において、これにより、x_i'(n)が生成されつつあるとき、生成されたx'(n)のフィードバックが早くなり過ぎないことが確保され、z_i(n)が差分値である場合に、x_i'(n)が現実にx_i'(n-1)に基づいて生成されるようになる。

図９ｂの実施形態において、選択部９３０は、制御信号b(n)に依存して、受信された信号成分z_i(n)及び、遅延された出力成分（再生メタデータ信号の既に生成されたメタデータサンプル）と受信された信号成分z_i(n)との線形結合から、メタデータサンプルxi'(n)を生成してもよい。

以下において、ＤＰＣＭ符号化済み信号はy_i(n)で表され、Ｂの第２入力信号（合計信号）はs_i(n)で表される。対応する入力成分だけに依存する出力成分について、符号器及び復号器の出力は以下のように表される。
z_i(n) ＝ A(x_i(n), v_i(n), b(n))
x_i'(n) ＝ B(z_i(n), s_i(n), b(n))

上述した一般的な手法に係る一実施形態に従う解決策は、b(n)を用いて、ＤＰＣＭ符号化済み信号と量子化済み入力信号との間を切り替えることである。簡素化を目的として、時間インデックスｎを省略すると、機能ブロックＡとＢとは以下のように表すことができる。

メタデータ符号器８０１，８０２において、選択部８３０（Ａ）は次のように選択する。
Ａ：z_i(x_i, y_i, b) = y_i, ｂ＝０のとき (z_iは差分値を示す)
Ａ：z_i(x_i, y_i, b) = x_i, ｂ＝１のとき (z_iは差分値を示さない)

メタデータ復号器サブユニット９１ｉ，９１ｉ’において、選択部９３０（Ｂ）は次のように選択する。
Ｂ：x_i'(z_i, s_i, b) = s_i, ｂ＝０のとき (z_iは差分値を示す)
Ｂ：x_i'(z_i, s_i, b) = z_i, ｂ＝１のとき (z_iは差分値を示さない)

これにより、b(n)が１と等しいときは常に量子化済み入力信号を伝送し、b(n)が０のときは常にＤＰＣＭ信号を伝送することが可能になる。後者の場合、復号器はＤＰＣＭ復号器となる。

オブジェクト・メタデータの伝送に適用される場合、このメカニズムは、復号器によってランダムアクセスのために使用され得る、未圧縮のオブジェクト位置を規則正しく伝送するために使用される。

好ましい実施形態において、メタデータサンプルを符号化するために使用されるビットの数よりも少数のビットが差分値を符号化するために使用される。これらの実施形態は、（例えばＮ個の）連続するメタデータサンプルは、多くの場合、僅かしか変化しないという知見に基づいている。例えば、一種類のメタデータサンプルが例えば８ビットで符号化される場合、これらメタデータサンプルは２５６個の異なる値の中から１つをとり得る。一般的に、（例えばＮ個の）連続するメタデータ値のその僅かな変化に起因して、例えば５ビットだけで差分値を符号化することは十分と考えられ得る。従って、差分値が伝送される場合でも、伝送されるビット数は低減され得る。

一実施形態において、メタデータ符号器２１０は、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の１つ(z_i)の処理済みメタデータサンプル(z_i(1),…,z_i(n))の各々を、制御信号が第１状態(b(n)=0)を示すときには第１のビット数を用いて符号化し、制御信号が第２状態(b(n)=1)を示すときには第２のビット数を用いて符号化するよう構成されており、第１のビット数は第２のビット数よりも少ない。

好ましい実施形態においては、１つ以上の差分値が伝送され、１つ以上の差分値の各々はメタデータサンプルの各々よりも少ないビットを用いて符号化され、差分値の各々は整数値である。

一実施形態によれば、メタデータ符号器１１０は、１つ以上の処理済みメタデータ信号の内の１つの１つ以上のメタデータサンプルを第１のビット数を用いて符号化するよう構成されており、ここで、１つ以上の処理済みメタデータ信号の１つの１つ以上のメタデータサンプルの各々は整数を示す。更に、メタデータ符号器（１１０）は、１つ以上の差分値を第２のビット数を用いて符号化するよう構成されており、ここで１つ以上の差分値の各々は整数を示し、第２のビット数は第１のビット数よりも少ない。

例えば一実施形態において、メタデータサンプルが８ビットで符号化された方位角を表現できると考慮されたい。例えば、その方位角は−９０≦方位角≦９０の整数であってもよい。従って、その方位角は１８１個の異なる値をとり得る。しかし、（例えばＮ個の）後続の方位角サンプルは、例えば±１５以下しか変化しないと想定することができ、その場合、差分値を符号化するために５ビット（２⁵＝３２）で十分となり得る。差分値が整数として表現される場合、その差分値を決定することは、伝送されるべき追加的な値を適切な値領域へと自動的に変換することになる。

例えば、第１オーディオオブジェクトの第１方位角値が６０°であり、その後続の値が４５°から７５°まで変化する場合を考慮されたい。さらに、第２オーディオオブジェクトの第２方位角値が−３０°であり、その後続の値が−４５°から−１５°まで変化する場合を考慮されたい。第１オーディオオブジェクトの両方の後続の値についての差分値、及び第２オーディオオブジェクトの両方の後続の値についての差分値を決定すると、第１方位角値及び第２方位角値の差分値は両方とも−１５°から＋１５°までの値領域内にある。よって、差分値の各々を符号化するために５ビットで十分となり、差分値を符号化するビットシーケンスは、第１方位角の差分値と第２方位角の差分値とに対して同じ意味を持つ。

次に、実施形態に係るオブジェクト・メタデータ・フレームと、実施形態に係るシンボル表現とについて説明する。

符号化済みオブジェクト・メタデータは、フレーム内で伝送される。これらのオブジェクト・メタデータ・フレームは、イントラ符号化されたオブジェクトデータ、又はダイナミック・オブジェクトデータの何れかを含むことができ、後者の場合は、伝送された最後のフレームからの変化を含んでいる。

例えば、オブジェクト・メタデータ・フレームについて、以下のシンタックスの一部又は全部が使用されてもよい。

以下に、一実施形態に係るイントラ符号化されたオブジェクトデータについて説明する。

符号化済みオブジェクト・メタデータのランダムアクセスが、イントラ符号化されたオブジェクトデータを介して実現され（「Ｉフレーム」）、イントラ符号化されたオブジェクトデータは規則的な格子上で（例えば長さ１０２４の３２フレーム毎に）サンプリングされた量子化済み値を含む。これらＩフレームは、例えば次のようなシンタックスを有し、その中で、position_azimuth, position_elevation, position_radius及び gain_factorは現時点の量子化済み値を特定する。

以下に、一実施形態に係るダイナミック・オブジェクトデータについて説明する。

ＤＰＣＭデータは、例えば以下のシンタックスを有するダイナミック・オブジェクト・フレーム内で伝送される。

特に、一実施形態において、上述のマクロは例えば以下のような意味を有してもよい。

一実施形態に係るobject_data() payloadsの定義：
has_intracoded_object_metadata：そのフレームがイントラ符号化されたか又は差分符号化されたかを示す

一実施形態に係るintracoded_object_metadata() payloads の定義：
fixed_azimuth：全てのオブジェクトについて方位角値が固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_azimuth 固定又は共通の方位角の値を定義する
common_azimuth：全てのオブジェクトについて共通の方位角が使用されるか否かを示す
position_azimuth：共通の方位角値がない場合、各オブジェクトのための値が伝送される
fixed_elevation：全てのオブジェクトについて仰角値が固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_elevation：固定又は共通の仰角の値を定義する
common_elevation：全てのオブジェクトについて共通の仰角が使用されるか否かを示す
position_elevation：共通の仰角値がない場合、各オブジェクトのための値が伝送される
fixed_radius：全てのオブジェクトについて半径が固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_radius：共通の半径の値を定義する
common_radius：全てのオブジェクトについて共通の半径値が使用されるか否かを示す
position_radius：共通の半径値がない場合、各オブジェクトのための値が伝送される
fixed_gain：全てのオブジェクトについてゲインファクタが固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_gain：固定又は共通のゲインファクタの値を定義する
common_gain：全てのオブジェクトについて共通のゲイン値が使用されるか否かを示す
gain_factor：共通のゲイン値がない場合、各オブジェクトのための値が伝送される
position_azimuth：単一のオブジェクトだけがある場合、その方位角である
position_elevation：単一のオブジェクトだけがある場合、その仰角である
position_radius：単一のオブジェクトだけがある場合、その半径である
gain_factor：単一のオブジェクトだけがある場合、そのゲインファクタである

一実施形態に係るdynamic_object_metadata() payloadsの定義：
flag_absolute：構成要素の値が差分的に伝送されるか又は絶対値で伝送されるかを示す
has_object_metadata：ビットストリーム内にオブジェクトデータが存在するか否かを示す

一実施形態に係るsingle_dynamic_object_metadata() payloadsの定義：
position_azimuth：値が固定でない場合の方位角の絶対値
position_elevation：値が固定でない場合の仰角の絶対値
position_radius：値が固定でない場合の半径の絶対値
gain_factor：値が固定でない場合のゲインファクタの絶対値
nbits：差分値を表現するために必要なビットの数
flag_azimuth：方位角値が変化するか否かを示すオブジェクト毎のフラグ
position_azimuth_difference：以前の値と活性値との間の差
flag_elevation：仰角値が変化するか否かを示すオブジェクト毎のフラグ
position_elevation_difference：以前の値と活性値との間の差の値
flag_radius：半径が変化するか否かを示すオブジェクト毎のフラグ
position_radius_difference：以前の値と活性値との間の差
flag_gain：ゲインが変化するか否かを示すオブジェクト毎のフラグ
gain_factor_difference：以前の値と活性値との間の差

先行技術においては、低ビットレートで許容可能なオーディオ品質が得られるように、チャネル符号化と一方としオブジェクト符号化を他方として結合するような、柔軟性のある技術は存在しない。

この制約は３Ｄオーディオコーデックシステムにより克服できる。以下に、３Ｄオーディオコーデックシステムについて説明する。

図１０は、本発明の一実施形態に係る３Ｄオーディオ符号器を示す。この３Ｄオーディオ符号器は、オーディオ入力データ１０１を符号化してオーディオ出力データ５０１を取得するよう構成されている。３Ｄオーディオ符号器は、ＣＨで示された複数のオーディオチャネルとＯＢＪで示された複数のオーディオオブジェクトとを受信する入力インターフェイスを備える。更に、図１０に示すように、入力インターフェイス１１００は、複数のオーディオオブジェクトＯＢＪの１つ以上に関連するメタデータを追加的に受信する。更に、３Ｄオーディオ符号器は、複数のオブジェクトと複数のチャネルとをミキシングして複数のプレミクス済みチャネルを取得するミキサー２００を備え、各プレミクス済みチャネルは１つのチャネルのオーディオデータと少なくとも１つのオブジェクトのオーディオデータとを含む。

更に、３Ｄオーディオ符号器は、コア符号器入力データをコア符号化するコア符号器３００と、複数のオーディオオブジェクトの１つ以上に関連するメタデータを圧縮するメタデータ圧縮部４００とを備える。

更に、３Ｄオーディオ符号器は、ミキサーとコア符号器及び／又は出力インターフェイス５００を複数の動作モードの１つで制御する、モード制御部６００を備え、第１モードでは、コア符号器は、入力インターフェイス１１００により受信された複数のオーディオチャネル及び複数のオーディオオブジェクトを、ミキサーによる相互作用なしに、即ちミキサー２００によるミキシングなしに、符号化するよう構成されている。しかし、ミキサー２００が活性化していた第２モードでは、コア符号器は、複数のミクス済みチャネル、即ちブロック２００により生成された出力を符号化する。後者の場合、それ以上のオブジェクトデータを符号化しないことが好ましい。代わりに、オーディオオブジェクトの位置を示すメタデータは、メタデータによって示された通りにオブジェクトをチャネル上へとレンダリングするために、ミキサー２００によって既に使用されている。換言すれば、ミキサー２００は複数のオーディオオブジェクトに関連するメタデータを、オーディオオブジェクトをプレレンダリングするために使用し、次に、プレレンダリングされたオーディオオブジェクトはチャネルとミキシングされて、ミキサーの出力においてミクス済みチャネルが得られる。この実施形態では、如何なるオブジェクトも必ずしも伝送される必要がなく、このことは、ブロック４００により出力される圧縮済みメタデータにも当てはまる。しかし、インターフェイス１１００に入力された全てのオブジェクトがミキシングされる訳でなく、所定量のオブジェクトだけがミキシングされる場合には、ミキシングされていない残りのオブジェクト及び関連するメタデータだけが、コア符号化３００又はメタデータ圧縮部４００へとそれぞれ伝送される。

図１０において、メタデータデータ圧縮部４００は、上述した実施形態の１つに従う、符号化済みオーディオ情報を生成する装置２５０のメタデータ符号器２１０である。更に、図１０において、ミキサー２００及びコア符号器３００は一緒に、上述した実施形態の１つに従う符号化済みオーディオ情報を生成する装置２５０のオーディオ符号器２２０を形成する。

図１２は、ＳＡＯＣ符号器８００を追加的に含む、３Ｄオーディオ符号器の更なる実施形態を示す。ＳＡＯＣ符号器８００は、空間オーディオオブジェクト符号器入力データから、１つ以上の転送チャネル及びパラメトリックデータを生成するよう構成されている。図１２に示すように、空間オーディオオブジェクト符号器入力データは、プレレンダラー／ミキサーによって処理されなかったオブジェクトである。代替的に、個別のチャネル／オブジェクト符号化が活性化しているモード１におけるように、プレレンダラー／ミキサーが迂回されていたと仮定すると、入力インターフェイス１１００に入力された全てのオブジェクトはＳＡＯＣ符号器８００により符号化される。

更に、図１２に示すように、コア符号器３００は好ましくは、ＵＳＡＣ符号器、即ちＭＰＥＧ−ＵＳＡＣ標準（ＵＳＡＣ＝統合されたスピーチ及びオーディオ符号化）の中で定義されかつ標準化されているような符号器として構成される。図１２に示す全体的な３Ｄオーディオ符号器の出力は、個別のデータタイプについてコンテナ状構造を有しているＭＰＥＧ４データストリームである。更に、メタデータは「ＯＡＭ」データとして示され、図１０におけるメタデータ圧縮部４００は、圧縮済みＯＡＭデータを取得するＯＡＭ符号器４００に対応し、その圧縮済みＯＡＭデータはＵＳＡＣ符号器３００へ入力され、ＵＳＡＣ符号器３００は、図１２に示すように、ＭＰ４出力データストリームを取得するための出力インターフェイスを追加的に含み、そのＭＰ４出力データストリームは符号化済みチャネル／オブジェクトデータだけでなく圧縮済みＯＡＭデータをも有する。

図１２において、ＯＡＭ符号器４００は、上述した実施形態の１つに従う、符号化済みオーディオ情報を生成する装置２５０のメタデータ符号器２１０である。更に、図１２では、ＳＡＯＣ符号器８００とＵＳＡＣ符号器３００とは一緒に、上述した実施形態の１つに従う、符号化済みオーディオ情報を生成する装置２５０のオーディオ符号器２２０を形成する。

図１４は、３Ｄオーディオ符号器の更なる実施形態を示し、ここでは、図１２とは対照的に、ＳＡＯＣ符号器はＳＡＯＣ符号化アルゴリズムを用いて、このモードにおいて活性化していないプレレンダラー／ミキサー２００により提供されたチャネルを符号化するか、又は代替的に、プレレンダリング済みチャネル＋オブジェクトをＳＡＯＣ符号化するか、の何れかを実行するよう構成されている。従って、図１４においては、ＳＡＯＣ符号器８００は３種類の異なる入力データ、即ち、プレレンダリング済みオブジェクトを持たないチャネル、チャネル及びプレレンダリング済みオブジェクト、又はオブジェクトのみ、に対して作動できる。更に、追加的なＯＡＭ復号器４２０を図１４に設け、ＳＡＯＣ符号器８００がその処理のために復号器側と同じデータを使用できるように、即ち、オリジナルＯＡＭデータよりも寧ろ損失の多い圧縮により得られたデータを使用できるようにすることが好ましい。

図１４の３Ｄオーディオ符号器は、複数の個別モードにおいて作動できる。

図１０の文脈の中で説明した第１モード及び第２モードに加え、図１４の３Ｄオーディオ符号器は追加的に第３モードでも作動でき、そのモードでは、プレレンダラー／ミキサー２００が活性化していなかった場合、コア符号器が個別のオブジェクトから１つ以上の転送チャネルを生成する。代替的又は追加的に、この第３モードにおいて、図１０のミキサー２００に対応するプレレンダラー／ミキサー２００が活性化していなかった場合、ＳＡＯＣ符号器８００はオリジナルチャネルから１つ以上の代替的又は追加的な転送チャネルを生成することができる。

最後に、３Ｄオーディオ符号器が第４モードで構成されている場合、ＳＡＯＣ符号器８００は、プレレンダラー／ミキサーによって生成されたチャネル＋プレレンダリング済みオブジェクトを符号化することができる。そのため、第４モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。なぜなら、チャネルとオブジェクトとが、個別のＳＡＯＣ転送チャネル及び図３と図５の中で「ＳＡＯＣ−ＳＩ」として示すような関連するサイド情報へと完全に変換されており、加えて、この第４モードでは如何なる圧縮済みメタデータも伝送される必要がないからである。

図１４において、ＯＡＭ符号器４００は、上述した実施形態の１つに従う符号化済みオーディオ情報を生成する装置２５０のメタデータ符号器２１０である。更に、図１４において、ＳＡＯＣ符号器８００とＵＳＡＣ符号器３００とは一緒に、上述した実施形態の１つに従う符号化済みオーディオ情報を生成する装置２５０のオーディオ符号器２２０を形成する。

一実施形態によれば、オーディオ入力データ１０１を符号化してオーディオ出力データ５０１を取得する装置が提供される。そのオーディオ入力データ１０１を符号化する装置は、
−複数のオーディオチャネルと複数のオーディオオブジェクトと複数のオーディオオブジェクトの１つ以上に関連するメタデータとを受信する、入力インターフェイス１１００と、
−複数のオブジェクトと複数のチャネルとをミキシングして、複数のプレミクス済みチャネルを取得するミキサー２００であって、各プレミクス済みチャネルが１つのチャネルのオーディオデータと少なくとも１つのオブジェクトのオーディオデータとを含む、ミキサー２００と、
−上述したようなメタデータ符号器とオーディオ符号器とを含む、符号化済みオーディオ情報を生成する装置２５０と、
を備える。

符号化済みオーディオ情報を生成する装置２５０のオーディオ符号器２２０は、コア符号器入力データを符号化するコア符号器（３００）である。

符号化済みオーディオ情報を生成する装置２５０のメタデータ符号器２１０は、複数のオーディオオブジェクトの１つ以上に関連するメタデータを圧縮するメタデータ圧縮部４００である。

図１１は本発明の一実施形態に係る３Ｄオーディオ復号器を示す。その３Ｄオーディオ復号器は、入力として符号化済みオーディオデータ、即ち図１０のデータ５０１を受信する。

３Ｄオーディオ復号器は、メタデータ解凍部１４００と、コア復号器１３００と、オブジェクト処理部１２００と、モード制御部１６００と、後処理部１７００とを備える。

具体的には、その３Ｄオーディオ復号器は符号化済みオーディオデータを復号化するよう構成されており、入力インターフェイスは符号化済みオーディオデータを受信するよう構成されており、符号化済みオーディオデータは、複数の符号化済みチャネルと、複数の符号化済みオブジェクトと、あるモードにおいて複数のオブジェクトに関連する圧縮済みメタデータとを含む。

更に、コア復号器１３００は複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化するよう構成されており、追加的に、メタデータ解凍部は圧縮済みメタデータを解凍するよう構成されている。

更に、オブジェクト処理部１２００は、コア復号器１３００により生成された複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクトデータと復号化済みチャネルとを含む所定数の出力チャネルを得るよう構成されている。符号１２０５で示されたこれら出力チャネルは、次に後処理部１７００へと入力される。後処理部１７００は、出力チャネル１２０５の数を、バイノーラル出力フォーマット又は５．１や７．１などの出力フォーマットのようなラウドスピーカ出力フォーマットであり得る、ある出力フォーマットへと変換するよう構成されている。

好ましくは、３Ｄオーディオ復号器は、符号化済みデータを分析してモード指示を検出するよう構成された、モード制御部１６００を備える。従って、そのモード制御部１６００が図１１の入力インターフェイス１１００に接続されている。しかし、代替的に、モード制御部が必ずしも存在する必要はない。代わりに、柔軟性のあるオーディオ復号器は、ユーザー入力や任意の他の制御のような、他の如何なる種類の制御データによってもプリセットされ得る。好ましくはモード制御部１６００により制御される図１１の３Ｄオーディオ復号器は、その一方では、オブジェクト処理部を迂回して複数の復号化済みチャネルを後処理部１７００へと供給するよう構成される。これは、図１０の３Ｄオーディオ符号器においてモード２が適用されていた場合のモード２における作動であり、即ちプレレンダリング済みチャネルだけが受信される場合である。代替的に、３Ｄオーディオ符号器においてモード１が適用されていた場合、即ち３Ｄオーディオ符号器が個別のチャネル／オブジェクト符号化を実行していた場合、オブジェクト処理部１２００は迂回されず、複数の復号化済みチャネルと複数の復号化済みオブジェクトとが、メタデータ解凍部１４００によって生成された解凍済みメタデータと一緒にオブジェクト処理部１２００へと供給される。

好ましくは、モード１又はモード２が適用されるべきかどうかの指示は符号化済みオーディオデータの中に含まれており、よって、モード制御部１６００がモード指示を検出するために符号化済みデータを分析する。符号化済みオーディオデータは符号化済みチャネルと符号化済みオブジェクトとを含むとモード指示が示す場合には、モード１が使用され、他方、符号化済みオーディオデータはオーディオオブジェクトを何も含まない、即ち、図１０の３Ｄオーディオ符号器のモード２によって得られたプレレンダリング済みチャネルだけを含むとモード指示が示す場合には、モード２が適用される。

図１１において、メタデータ解凍部１４００は、上述の実施形態の１つに従い１つ以上のオーディオチャネルを生成する装置１００のメタデータ復号器１１０である。更に図１１において、コア復号器１３００とオブジェクト処理部１２００と後処理部１７００とは一緒に、上述の実施形態の１つに従い１つ以上のオーディオチャネルを生成する装置１００のオーディオ復号器１２０を形成する。

図１３は、図１１の３Ｄオーディオ復号器と比較した好適な実施形態を示し、図１３の実施形態は図１２のオーディオ符号器に対応する。図１１の３Ｄオーディオ復号器の構成に加えて、図１３の３Ｄオーディオ復号器はＳＡＯＣ復号器１８００を含む。更に、図１１のオブジェクト処理部１２００は、別個のオブジェクトレンダラー１２１０とミキサー１２２０として構成されているが、モードに依存して、オブジェクトレンダラー１２１０の機能はＳＡＯＣ復号器１８００によっても実行され得る。

更に、後処理部１７００は、バイノーラルレンダラー１７１０又はフォーマット変換部１７２０として構成され得る。代替的に、図１１のデータ１２０５の直接的な出力もまた、１７３０で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は２２．２や３２などの最大数のチャネルに対して実行することが好ましい。しかしながら、５．１フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、図１１又は図６におけるショートカット１７２７で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、ＳＡＯＣ復号器及び／又はＵＳＡＣ復号器に対するある制御を適用し得ることが望ましい。

本発明の好適な実施形態において、オブジェクト処理部１２００はＳＡＯＣ復号器１８００を含み、そのＳＡＯＣ復号器は、コア復号器により出力される１つ以上の転送チャネル及び関連するパラメトリックデータを復号化し、かつ解凍済みメタデータを使用して、複数のレンダリング済みオーディオオブジェクトを取得するよう構成されている。この目的で、ＯＡＭ出力がボックス１８００に接続されている。

更に、オブジェクト処理部１２００は、コア復号器により出力された復号化済みオブジェクトをレンダリングするよう構成されており、そのオブジェクトはＳＡＯＣ転送チャネルの中で符号化されたものではなく、オブジェクトレンダラー１２１０により示されるように、典型的には単一チャネル化された構成要素の中で個別に符号化されたものである。更に、復号器は、ミキサーの出力をラウドスピーカへと出力するための、出力１７３０に対応する出力インターフェイスを備える。

更なる実施形態において、オブジェクト処理部１２００は、符号化済みオーディオ信号又は符号化済みオーディオチャネルを表現している１つ以上の転送チャネル及び関連するパラメトリックサイド情報を復号化する、空間オーディオオブジェクト符号化・復号器１８００を含む。その空間オーディオオブジェクト符号化・復号器は、関連するパラメトリック情報及び解凍済みメタデータを、出力フォーマットを直接的にレンダリングするために使用可能な、例えばＳＡＯＣの初期バージョンで定義されているような、符号変換済みパラメトリックサイド情報へと符号変換するよう構成されている。後処理部１７００は、復号化済み転送チャネルと符号変換済みパラメトリックサイド情報とを使用して、出力フォーマットのオーディオチャネルを計算するよう構成されている。後処理部により実行される処理は、ＭＰＥＧサラウンド処理と類似していてもよく、又はＢＣＣ処理などのような他の如何なる処理であってもよい。

更なる一実施形態において、オブジェクト処理部１２００は、（コア復号器による）復号化済み転送チャネルとパラメトリックサイド情報とを使用して、出力フォーマットのためのチャネル信号を直接的にアップミクス及びレンダリングするよう構成された、空間オーディオオブジェクト符号化・復号器１８００を含む。

更にかつ重要なことに、図１１のオブジェクト処理部１２００は、チャネルとミキシングされたプレレンダリング済みオブジェクトが存在する場合、即ち図１０のミキサー２００が活性化していた場合、入力としてＵＳＡＣ復号器１３００により出力されたデータを直接的に受信する、ミキサー１２２０をさらに備える。加えて、ミキサー１２２０は、ＳＡＯＣ復号化を用いずにオブジェクトレンダリングを実行しているオブジェクトレンダラーからのデータを受信する。更にミキサーは、ＳＡＯＣ復号器出力データ、即ちＳＡＯＣレンダリング済みオブジェクトを受信する。

ミキサー１２２０は、出力インターフェイス１７３０とバイノーラルレンダラー１７１０とフォーマット変換部１７２０とに接続されている。バイノーラルレンダラー１７１０は、頭部関連伝達関数又はバイノーラル室内インパルス応答（ＢＲＩＲ）を使用して、出力チャネルを２つのバイノーラルチャネルへとレンダリングするよう構成されている。フォーマット変換部１７２０は、出力チャネルを、ミキサーの出力チャネル１２０５よりも少数のチャネルを有する出力フォーマットへと変換するよう構成されており、そのフォーマット変換部１７２０は、５．１スピーカなどのような再生レイアウトについての情報を要求する。

図１３において、ＯＡＭ復号器１４００は、上述した実施形態の１つに従って１つ以上のオーディオチャネルを生成する装置１００のメタデータ復号器１１０である。更に、図１３において、オブジェクトレンダラー１２１０とＵＳＡＣ復号器１３００とミキサー１２２０とは一緒に、上述した実施形態の１つに従って１つ以上のオーディオチャネルを生成する装置１００のオーディオ復号器１２０を形成する。

図１５の３Ｄオーディオ復号器は、図１３の３Ｄオーディオ復号器とは以下の点で異なる。即ち、ＳＡＯＣ復号器は、レンダリング済みオブジェクトだけでなくレンダリング済みチャネルをも生成しており、このことは、図１４の３Ｄオーディオ符号器が使用され、チャネル／プレレンダリング済みオブジェクトとＳＡＯＣ符号器８００の入力インターフェイスとの間の接続９００が活性化している場合であるという点である。

更に、ベクトル方式振幅パニング（ＶＢＡＰ）ステージ１８１０は、ＳＡＯＣ復号器から再生レイアウトについての情報を受信し、かつＳＡＯＣ復号器に対してレンダリング行列を出力するよう構成され、その結果、ＳＡＯＣ復号器が、ミキサーの更なる動作を必要とせずに、レンダリング済みチャネルを高いチャネルフォーマット１２０５で、即ち３２個のラウドスピーカに提供できるようになる。

ＶＢＡＰブロックは、好適には復号化済みＯＡＭデータを受信してレンダリング行列を導出する。より一般的には、ＶＢＡＰブロックは、再生レイアウトの幾何学的情報だけでなく、その再生レイアウト上で入力信号がレンダリングされるべき位置の幾何学的情報をも要求することが好ましい。この幾何学的入力データは、オブジェクトについてのＯＡＭデータであってもよく、又は、ＳＡＯＣを用いて伝送されたチャネルについてのチャネル位置情報であってもよい。

しかしながら、ある特異な出力インターフェイスだけが要求される場合、ＶＢＡＰステージ１８１０は、例えば５．１出力について要求されたレンダリング行列を既に供給することができる。その場合、ＳＡＯＣ復号器１８００は、ＳＡＯＣ転送チャネルと関連するパラメトリックデータと解凍済みメタデータとから、直接的レンダリング、即ちミキサー１２２０の相互作用を何も受けずに、要求された出力フォーマットへの直接的なレンダリングを実行する。しかしながら、モード間のあるミキシングが適用される場合、即ち、複数のチャネルがＳＡＯＣ符号化されているが、全てのチャネルがＳＡＯＣ符号化されてはいない場合、複数のオブジェクトがＳＡＯＣ符号化されているが、全てのオブジェクトがＳＡＯＣ符号化されてはいない場合、又は、プレレンダリング済みオブジェクトとチャネルとのある量だけがＳＡＯＣ復号化され、残りのチャネルがＳＡＯＣ処理されない場合には、ミキサーは、個別の入力部分からのデータ、即ちコア復号器１３００とオブジェクトレンダラー１２１０とＳＡＯＣ復号器１８００とからの直接的なデータを、結合するであろう。

図１５において、ＯＡＭ復号器１４００は、上述した実施形態の１つに従って１つ以上のオーディオチャネルを生成する装置１００のメタデータ復号器１１０である。更に図１５において、オブジェクトレンダラー１２１０とＵＳＡＣ復号器１３００とミキサー１２２０とは一緒に、上述した実施形態の１つに従って１つ以上のオーディオチャネルを生成する装置１００のオーディオ復号器１２０を形成する。

符号化済みオーディオデータを復号化する装置が提供される。その符号化済みオーディオデータを復号化する装置は、
−符号化済みオーディオデータを受信する入力インターフェイス１１００であって、符号化済みオーディオデータは、複数の符号化済みチャネル、複数の符号化済みオブジェクト、又は複数のオブジェクトに関連する圧縮済みメタデータを含む、インターフェイス１１００と、
−メタデータ復号器１１０と、上述したように１つ以上のオーディオチャネルを生成するオーディオチャネル生成部１２０とを含む、装置１００と、
を備える。

１つ以上のオーディオチャネルを生成する装置１００のメタデータ復号器１１０は、圧縮済みメタデータを解凍するメタデータ解凍部４００である。

１つ以上のオーディオチャネルを生成する装置１００のオーディオチャネル生成部１２０は、複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化する、コア復号器１３００を備える。

更に、オーディオチャネル生成部１２０は、複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクト及び復号化済みチャネルからオーディオデータを含む幾つかの出力チャネル１２０５を取得する、オブジェクト処理部１２００を更に備える。

更に、オーディオチャネル生成部１２０は、幾つかの出力チャネル１２０５を出力フォーマットへと変換する後処理部１７００を更に備える。

これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、１つのブロック又は装置が１つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。

本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。

所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能な）、デジタル記憶媒体、例えばフレキシブルディスク，ＤＶＤ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。

本発明に従う幾つかの実施形態は、上述した方法の１つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。

一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。

本発明の他の実施形態は、上述した方法の１つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。

換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の他の実施形態は、上述した方法の１つを実行するために記録されたコンピュータプログラムを含む、データキャリア（又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体）である。

本発明の他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。

他の実施形態は、上述した方法の１つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

幾つかの実施形態においては、（例えば書換え可能ゲートアレイのような）プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の１つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

メタデータ符号器は、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各処理済みメタデータ信号(z_i)の複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1), z_i(n))の各処理済みメタデータサンプル(z_i(n))を、以下のように決定する。即ち、制御信号(b)が第１状態(b(n)=0)を示すときには、処理済みメタデータサンプル(z_i(n))が、１つ以上のオリジナル・メタデータ信号の１つ(x_i)の複数のオリジナル・メタデータサンプルの１つ(x_i(n))と、処理済みメタデータ信号(z_i)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第１状態とは異なる第２状態(b(n)=1)を示すときには、処理済みメタデータサンプル(z_i(n))が、１つ以上のオリジナル・メタデータ信号の１つ(x_i)のオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))、又はオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))の量子化済み表現(q_i(n))となるように、決定する。

１つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、１つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示している。１つ以上の処理済みメタデータ信号を決定するステップは、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各処理済みメタデータ信号(z_i)の複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1),z_i(n))の各処理済みメタデータサンプル(z_i(n))を、以下のように決定することを含む。即ち、制御信号(b)が第１状態(b(n)=0)を示すときには、処理済みメタデータサンプル(z_i(n))が、１つ以上のオリジナル・メタデータ信号の１つ(x_i)の複数のオリジナル・メタデータサンプルの１つ(x_i(n))と処理済みメタデータ信号(z_i)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第１状態とは異なる第２状態(b(n)=1)を示すときには、処理済みメタデータサンプル(z_i(n))が、１つ以上のオリジナル・メタデータ信号の前記１つ(x_i)のオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))、又はオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))の量子化済み表現(q_i(n))となるように、決定する。

メタデータ符号器２１０は、１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各処理済みメタデータ信号(z_i)の複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1), z_i(n))の各処理済みメタデータサンプル(z_i(n))を、以下のように決定するよう構成されている。即ち、制御信号(b)が第１状態(b(n)=0)を示すときには、処理済みメタデータサンプル(z_i(n))が、前記１つ以上のオリジナル・メタデータ信号の１つ(x_i)の複数のオリジナル・メタデータサンプルの１つ(x_i(n))と処理済みメタデータ信号(z_i)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第１状態とは異なる第２状態(b(n)=1)を示すときには、処理済みメタデータサンプル(z_i(n))が、１つ以上のオリジナル・メタデータ信号の１つ(x_i)のオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))、又はオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))の量子化済み表現(q_i(n))となるように、決定する。

図９ａは、一実施形態に係るメタデータ復号器９０１を示す。図９ａに係るメタデータ復号器は、図８ａ及び図８ｂのメタデータ符号器と対応している。

更に、実際のメタデータサンプルz_i(n)もまた、選択部９３０へと入力される。

例えば制御信号ｂが第１状態（例えばb(n)=0)にあるとき、制御信号ｂは実際のメタデータサンプルz_i(n)が差分値であることを示しており、よって、合計値s_i(n)が再生メタデータ信号x_i'の正確な実際のメタデータサンプルx_i'(n)である。選択部９３０は、制御信号が第１状態にあるとき（b(n)=0のとき)、合計値s_i(n)を、再生メタデータ信号x_i'の実際のメタデータサンプルx_i'(n)として選択するよう構成されている。

制御信号ｂが第１状態とは異なる第２状態（例えばb(n)=1)にあるとき、制御信号ｂは実際のメタデータサンプルz_i(n)が差分値でないことを示しており、よって、実際のメタデータサンプルz_i(n)が再生メタデータ信号x_i'の正確な実際のメタデータサンプルx_i'(n)である。選択部９３０は、制御信号が第２状態にあるとき（b(n)=１のとき)、実際のメタデータサンプルz_i(n)を、再生メタデータ信号x_i'の実際のメタデータサンプルx_i'(n)として選択するよう構成されている。

以下において、ＤＰＣＭ符号化済み信号はy_i(n)で表され、Ｂの第２入力信号（合計信号）はs_i(n)で表される。対応する入力成分だけに依存する出力成分について、符号器及び復号器の出力は以下のように表される。
z_i(n) ＝ A(x_i(n),y _i(n), b(n))
x_i'(n) ＝ B(z_i(n), s_i(n), b(n))

最後に、３Ｄオーディオ符号器が第４モードで構成されている場合、ＳＡＯＣ符号器８００は、プレレンダラー／ミキサーによって生成されたチャネル＋プレレンダリング済みオブジェクトを符号化することができる。そのため、第４モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。なぜなら、チャネルとオブジェクトとが、個別のＳＡＯＣ転送チャネル及び図１２と図１４の中で「ＳＡＯＣ−ＳＩ」として示すような関連するサイド情報へと完全に変換されており、加えて、この第４モードでは如何なる圧縮済みメタデータも伝送される必要がないからである。

更に、後処理部１７００は、バイノーラルレンダラー１７１０又はフォーマット変換部１７２０として構成され得る。代替的に、図１１のデータ１２０５の直接的な出力もまた、１７３０で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は２２．２や３２などの最大数のチャネルに対して実行することが好ましい。しかしながら、５．１フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、図１５におけるショートカット１７２７で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、ＳＡＯＣ復号器及び／又はＵＳＡＣ復号器に対するある制御を適用し得ることが望ましい。

Claims

１つ以上のオーディオチャネルを生成する装置（１００）であって、
制御信号(b)に依存して、１つ以上の処理済みメタデータ信号(z₁,…,z_N)から１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するメタデータ復号器（１１０；９０１）であって、前記１つ以上の再生メタデータ信号(x₁',…,x_N')の各々は１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示し、前記１つ以上の再生メタデータ信号(x₁',…,x_N')の各々について複数の再生メタデータサンプル(x₁'(n),…,x_N'(n))を決定することにより、前記１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するよう構成されている、メタデータ復号器（１１０；９０１）と、
前記１つ以上のオーディオオブジェクト信号と前記１つ以上の再生メタデータ信号(x₁',…,x_N')とに依存して、前記１つ以上のオーディオチャネルを生成するオーディオチャネル生成部（１２０）と、を含み、
前記メタデータ復号器（１１０；９０１）は、前記１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各々の複数の処理済みメタデータサンプル(z₁(n),…,z_N(n))を受信するよう構成され、
前記メタデータ復号器（１１０；９０１）は、前記制御信号(b)を受信するよう構成され、
前記メタデータ復号器（１１０；９０１）は、前記１つ以上の再生メタデータ信号(x₁',…,x_N')の各再生メタデータ信号(x_i')の複数の再生メタデータサンプル(x_i'(1),…,x_i'(n-1),x_i'(n))の各再生メタデータサンプル(x_i'(n))を、前記制御信号(b)が第１状態(b(n)=0)を示すときには、前記再生メタデータサンプル(x_i'(n))が前記１つ以上の処理済みメタデータ信号の１つ(z_i)における処理済みメタデータサンプルの１つ(z_i(n))と前記再生メタデータ信号(x_i')の他の１つの既に生成された再生メタデータサンプル(x_i'(n-1))との合計であり、前記制御信号が前記第１状態とは異なる第２状態(b(n)=1)を示すときには、前記再生メタデータサンプル(x_i'(n))が前記１つ以上の処理済みメタデータ信号(z₁,…,z_N)の前記１つ(z_i)における前記処理済みメタデータサンプル(z_i(1),…,z_i(n))の前記１つ(z_i(n))であるように、決定するよう構成されている、装置。
請求項１に記載の装置（１００）であって、
前記メタデータ復号器（１１０；９０１）は、２つ以上の前記処理済みメタデータ信号(z₁,…,z_N)を受信して、２つ以上の前記再生メタデータ信号(x₁',…,x_N')を生成するよう構成され
前記メタデータ復号器（１１０；９０１）は、２つ以上のメタデータ復号器サブユニット（９１１,…,９１Ｎ）を含み、
前記２つ以上のメタデータ復号器サブユニット（９１１,…,９１Ｎ）の各々（９１ｉ,…,９１ｉ'）は、加算部（９１０）及び選択部（９３０）を含むよう構成され、
前記２つ以上のメタデータ復号器サブユニット（９１１,…,９１Ｎ）の各々（９１ｉ,…,９１ｉ'）は、前記２つ以上の前記処理済みメタデータ信号(z₁,…,z_N)の１つ（z_i)における前記複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1), z_i(n))を受信し、前記２つ以上の前記再生メタデータ信号(z₁,…,z_N)の１つ(z_i)を生成するよう構成され、
前記メタデータ復号器サブユニット（９１１,…,９１Ｎ）の加算部（９１０）は、前記２つ以上の処理済みメタデータ信号(z₁,…,z_N)の前記１つ(z_i)における前記処理済みメタデータサンプル(z_i(1),…,z_i(n))の１つ(z_i(n))と、前記２つ以上の再生メタデータ信号(z₁,…,z_N)の１つ(z_i)における他の１つの既に生成された再生メタデータサンプル(x_i'(n-1))とを加算して、合計値(s_i(n))を得るよう構成され、
前記メタデータ復号器サブユニット（９１１,…,９１Ｎ）の選択部（９３０）は、前記処理済みメタデータサンプルの前記１つ(z_i(n))と前記合計値(s_i(n))と前記制御信号とを受信するよう構成され、前記選択部（９３０）は、前記制御信号(b)が前記第１状態(b(n)=0)を示すときには、前記再生メタデータサンプル(x_i'(n))が前記合計値(s_i(n))であり、前記制御信号が前記第２状態(b(n)=1)を示すときには、前記再生メタデータサンプル(x_i'(n))が前記処理済みメタデータサンプル(z_i(1),…,z_i(n))の前記１つ(z_i(n))であるように、前記再生メタデータ信号(x_i')の前記複数の再生メタデータサンプル(x_i'(1),…,x_i'(n-1),x_i'(n))の１つを決定するよう構成されている、装置。
請求項１又は２に記載の装置（１００）であって、
前記１つ以上の再生メタデータ信号(x₁',…,x_N')の少なくとも１つは、前記１つ以上のオーディオオブジェクト信号の１つにおける位置情報を示し、
前記オーディオチャネル生成部（１２０）は、前記１つ以上のオーディオオブジェクト信号の前記１つと前記位置情報とに依存して、前記１つ以上のオーディオチャネルの少なくとも１つを生成するよう構成されている、装置。
請求項１乃至３のいずれか１項に記載の装置（１００）であって、
前記１つ以上の再生メタデータ信号(x₁',…,x_N')の少なくとも１つは、前記１つ以上のオーディオオブジェクト信号の１つにおける音量を示し、
前記オーディオチャネル生成部（１２０）は、前記１つ以上のオーディオオブジェクト信号の前記１つと前記音量とに依存して、前記１つ以上のオーディオチャネルの少なくとも１つを生成するよう構成されている、装置。
符号化済みオーディオデータを復号化する装置であって、
符号化済みオーディオデータを受信する入力インターフェイス（１１００）であって、前記符号化済みオーディオデータが、複数の符号化済みチャネル、複数の符号化済みオブジェクト、又は前記複数のオブジェクトに関連する圧縮済みメタデータを含む、入力インターフェイスと、
請求項１乃至４のいずれか１項に記載の装置（１００）と、を備え、
請求項１乃至４のいずれか１項に記載の前記装置（１００）の前記メタデータ復号器（１１０；９０１）は、前記圧縮済みメタデータを解凍するメタデータ解凍部（４００）であり、
請求項１乃至４のいずれか１項に記載の前記装置（１００）の前記オーディオチャネル生成部（１２０）は、前記複数の符号化済みチャネルと前記複数の符号化済みオブジェクトとを復号化するコア復号器（１３００）を備え、
前記オーディオチャネル生成部（１２０）は、複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、前記オブジェクト及び復号化済みチャネルからオーディオデータを含む幾つかの出力チャネル（１２０５）を取得する、オブジェクト処理部（１２００）を更に備え、
前記オーディオチャネル生成部（１２０）は、前記幾つかの出力チャネル（１２０５）を出力フォーマットへ変換する後処理部（１７００）を更に備える、装置。
１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する装置（２５０）であって、
１つ以上のオリジナル・メタデータ信号を受信し、前記１つ以上の処理済みメタデータ信号を決定するメタデータ符号器（２１０；８０１；８０２）であって、前記１つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、前記１つ以上のオリジナル・メタデータ信号の各々の前記オリジナル・メタデータサンプルは１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示す、メタデータ符号器（２１０；８０１；８０２）と、
前記１つ以上のオーディオオブジェクト信号を符号化して前記１つ以上の符号化済みオーディオ信号を取得するオーディオ符号器（２２０）と、を備え、
前記メタデータ符号器（２１０；８０１；８０２）は、前記１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各処理済みメタデータ信号(z_i)の複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1), z_i(n))の各処理済みメタデータサンプル(z_i(n))を、制御信号(b)が第１状態(b(n)=0)を示すときには、前記再生メタデータサンプル(z_i(n))が前記１つ以上のオリジナル・メタデータ信号の１つ(x_i)における複数のオリジナル・メタデータサンプルの１つ(x_i(n))と前記処理済みメタデータ信号(z_i)の他の１つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、前記制御信号(b)が第１状態とは異なる第２状態(b(n)=1)を示すときには、前記処理済みメタデータサンプル(z_i(n))が前記１つ以上の処理済みメタデータ信号の前記１つ(x_i)におけるオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の前記１つ(x_i(n))か又は前記オリジナル・メタデータサンプル(x_i(1),…,x_i(n))の前記１つ(x_i(n))における量子化済み表現(q_i(n))であるように、決定するよう構成されている、装置。
請求項６に記載の装置（２５０）であって、
前記メタデータ符号器（２１０；８０１；８０２）は、前記オリジナル・メタデータ信号(ｘ₁,…,ｘ_N)の２つ以上を受信し、前記処理済みメタデータ信号(z₁,…,z_N)の２つ以上を生成するよう構成され、
前記メタデータ符号器（２１０；８０１；８０２）は２つ以上のＤＣＰＭ符号器（８１１,…,８１Ｎ）を含み、
前記２つ以上のＤＣＰＭ符号器（８１１,…,８１Ｎ）の各々は、前記２つ以上のオリジナル・メタデータ信号(ｘ₁,…,ｘ_N)の１つ(x_i)におけるオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の１つ(x_i(n))と、前記２つ以上の再生メタデータ信号(z₁,…,z_N)の１つ(z_i)における他の１つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を決定して、差分サンプル（y_i(n)）を取得するよう構成され、
前記メタデータ符号器（２１０；８０１；８０２）は、前記処理済みメタデータ信号(z_i)の複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1), z_i(n))の１つを、前記制御信号(b)が前記第１状態(b(n)=0)を示すときには、前記処理済みメタデータサンプル(y_i(n))が前記差分サンプル（y_i(n)）であり、前記制御信号(b)が前記第２状態(b(n)=1)を示すときには、前記処理済みメタデータサンプル(z_i(n))が前記オリジナル・メタデータサンプル(x_i(1),…,ｚ_i(n))の前記１つ(x_i(n))か、又は前記オリジナル・メタデータサンプル(x_i(1),…,ｚ_i(n))の前記１つ(x_i(n))における量子化済み表現(q_i(n))であるように決定するよう構成された選択部（８３０）をさらに含む、装置。
請求項６又は７に記載の装置（２５０）であって、
前記１つ以上のオリジナル・メタデータ信号の少なくとも１つは、前記１つ以上のオーディオオブジェクト信号の１つにおける位置情報を示し、
前記メタデータ符号器（２１０；８０１；８０２）は、前記位置情報を示す前記１つ以上のオリジナル・メタデータ信号の前記少なくとも１つに依存して、前記１つ以上の処理済みメタデータ信号の少なくとも１つを生成するよう構成されている、装置。
請求項６乃至８のいずれか１項に記載の装置（２５０）であって、
前記１つ以上のオリジナル・メタデータ信号の少なくとも１つは、前記１つ以上のオーディオオブジェクト信号の１つにおける音量を示し、
前記メタデータ符号器（２１０；８０１；８０２）は、前記位置情報を示す前記１つ以上のオリジナル・メタデータ信号の前記少なくとも１つに依存して、前記１つ以上の処理済みメタデータ信号の少なくとも１つを生成するよう構成されている、装置。
請求項６乃至９のいずれか１項に記載の装置（２５０）であって、
前記メタデータ符号器（２１０；８０１；８０２）は、前記１つ以上の処理済みメタデータ信号(z₁,…,z_N)の１つ(z_i)における前記処理済みメタデータサンプル(z_i(1),…,z_i(n))の各々を、前記制御信号が前記第１状態(b(n)=0)を示すときには第１のビット数で符号化するよう構成され、前記制御信号が前記第２状態(b(n)=1)を示すときには第２のビット数で符号化するよう構成され、前記第１のビット数は前記第２のビット数より小さい、装置。
オーディオ入力データ（１０１）を符号化してオーディオ出力データ（５０１）を取得する装置であって、
複数のオーディオチャネルと複数のオーディオオブジェクトと前記複数のオーディオオブジェクトの１つ又は複数に関連するメタデータとを受信する、入力インターフェイス（１１００）と、
前記複数のオブジェクトと前記複数のチャネルとをミキシングして、複数のプレミクス済みチャネルを取得するミキサー（２００）であって、各プレミクス済みチャネルは１つのチャネルのオーディオデータと少なくとも１つのオブジェクトのオーディオデータとを含む、ミキサー（２００）と、
請求項６乃至９のいずれか１項に記載の装置（２５０）と、を備え、
請求項６乃至９のいずれか１項に記載の装置（２５０）の前記オーディオ符号器（２２０）は、コア符号器入力データをコア符号化するコア符号器（３００）であり、
請求項６乃至９のいずれか１項に記載の装置（２５０）の前記メタデータ符号器（２１０；８０１；８０２）は、前記複数のオーディオオブジェクトの１つ以上に関連する前記メタデータを圧縮するメタデータ圧縮部（４００）である、装置。
１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成するための請求項６乃至１０のいずれか１項に記載の装置（２５０）と、
前記１つ以上の符号化済みオーディオ信号と前記１つ以上の処理済みメタデータ信号とを受信し、前記１つ以上の符号化済みオーディオ信号と前記１つ以上の処理済みメタデータ信号とに依存して１つ以上のオーディオチャネルを生成するための、請求項１乃至４のいずれか１項に記載の装置（１００）と、
を備える装置。
１つ以上のオーディオチャネルを生成する方法であって、
制御信号(b)に依存して、１つ以上の処理済みメタデータ信号(z₁,…,z_N)から１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するステップであって、前記１つ以上の再生メタデータ信号(x₁',…,x_N')の各々は１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示し、前記１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するステップは、前記１つ以上の再生メタデータ信号(x₁',…,x_N')の各々について、複数の再生メタデータサンプル(x₁'(n),…,x_N'(n))を決定することにより実行される、ステップと、
前記１つ以上のオーディオオブジェクト信号と前記１つ以上の再生メタデータ信号(x₁',…,x_N')とに依存して、前記１つ以上のオーディオチャネルを生成するステップと、を備え、
前記１つ以上の再生メタデータ信号(x₁',…,x_N')を生成するステップは、前記１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各々の複数の処理済みメタデータサンプル(z₁(n),…,z_N(n))を受信し、かつ前記制御信号(b)を受信して、前記１つ以上の再生メタデータ信号(x₁',…,x_N')の各再生メタデータ信号(x_i')の複数の再生メタデータサンプル(x_i'(1),…,x_i'(n-1),x_i'(n))の各再生メタデータサンプル(x_i'(n))を、前記制御信号(b)が第１状態(b(n)=0)を示すときには、前記再生メタデータサンプル(x_i'(n))が１つ以上の処理済みメタデータ信号の１つ(z_i)における処理済みメタデータサンプルの１つ(z_i(n))と前記再生メタデータ信号(x_i')の他の１つの既に生成された再生メタデータサンプル(x_i'(n-1))との合計であり、前記制御信号が前記第１状態とは異なる第２状態(b(n)=1)を示すときには、前記再生メタデータサンプル(x_i'(n))が前記１つ以上の処理済みメタデータ信号(z₁,…,z_N)の前記１つ(z_i)における前記処理済みメタデータサンプル(z_i(1),…,z_i(n))の前記１つ(z_i(n))であるように、決定することにより実行される、方法。
１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する方法であって、
１つ以上のオリジナル・メタデータ信号を受信するステップと、
前記１つ以上の処理済みメタデータ信号を決定するステップと、
前記１つ以上のオーディオオブジェクト信号を符号化して前記１つ以上の符号化済みオーディオ信号を取得するステップと、を備え、
前記１つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、前記１つ以上のオリジナル・メタデータ信号の各々の前記オリジナル・メタデータサンプルは１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示しており、
前記１つ以上の処理済みメタデータ信号を決定するステップは、前記１つ以上の処理済みメタデータ信号(z₁,…,z_N)の各処理済みメタデータ信号(z_i)の複数の処理済みメタデータサンプル(z_i(1),…,z_i(n-1), z_i(n))の各処理済みメタデータサンプル(z_i(n))を、制御信号(b)が第１状態(b(n)=0)を示すときには、前記再生メタデータサンプル(z_i(n))が前記１つ以上のオリジナル・メタデータ信号の１つ(x_i)における複数のオリジナル・メタデータサンプルの１つ(x_i(n))と前記処理済みメタデータ信号(z_i)の他の１つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、前記制御信号(b)が前記第１状態とは異なる第２状態(b(n)=1)を示すときには、前記処理済みメタデータサンプル(z_i(n))が前記１つ以上の処理済みメタデータ信号の前記１つ(x_i)における前記オリジナル・メタデータサンプル(x_i(1),…,x_i(n))の前記１つ(x_i(n))又はオリジナル・メタデータサンプル(x_i(1),…,x_i(n))の前記１つ(x_i(n))における量子化済み表現(q_i(n))であるように、決定することを含む、方法。
コンピュータ又は信号プロセッサ上で作動されたとき、請求項１３又は１４に記載の方法を実行するためのコンピュータプログラム。