JP7213861B2

JP7213861B2 - パーソナル化されたオーディオへのスマート・アクセス

Info

Publication number: JP7213861B2
Application number: JP2020208407A
Authority: JP
Inventors: フェルシュ，クリストフ; グロエシェル，アレクサンダー
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2014-10-03
Filing date: 2020-12-16
Publication date: 2023-01-27
Anticipated expiration: 2035-10-01
Also published as: JP2021064949A; JP2019207435A; JP6812517B2

Description

本稿はオーディオ信号処理に関し、より詳細には、オーディオ・コンテンツおよび該オーディオ・コンテンツの対話的レンダリングをサポートするメタデータを含むオーディオ・データビットストリームの、エンコード、デコードおよび対話的レンダリングに関する。

パーソナル化されたオーディオ経験を可能にするオーディオ・エンコードおよびデコードは、典型的には、パーソナル化されたオーディオ経験のために潜在的に必要とされるすべてのオーディオ・オブジェクト・チャネルおよび／またはオーディオ・スピーカー・チャネルを担持する必要がある。特に、オーディオ・データ／メタデータは典型的には、パーソナル化されたオーディオ・プログラムのために必要とされない部分が、そのようなパーソナル化されたオーディオ・プログラムを含んでいるビットストリームから簡単に除去できないようなものである。

典型的には、オーディオ・プログラムのためのデータ（オーディオ・データおよびメタデータ）全体がビットストリーム内で合同して格納されている。受信器／デコーダは、ビットストリームのどの部分（たとえばどのスピーカー・チャネルおよび／またはどのオブジェクト・チャネル）がパーソナル化されたオーディオ・プログラムのために必要とされるかを理解するために、少なくとも完全なメタデータをパースする必要がある。加えて、ビットストリームの、パーソナル化されたオーディオ・プログラムのために必要とされない部分をはぎ取ることは、典型的には、かなりの計算努力なしには可能ではない。特に、ビットストリームの、所与の再生シナリオのため／所与のパーソナル化されたオーディオ・プログラムのために必要とされない部分がデコードされる必要があることが要求されることがある。すると、パーソナル化されたオーディオ・プログラムを生成するためには、再生中にビットストリームのこれらの部分をミュートすることが要求されることがある。さらに、ビットストリームからサブビットストリームを効率的に生成することが可能でないことがある。ここで、サブビットストリームは、パーソナル化されたオーディオ・プログラムのために必要とされるデータのみを含む。

本稿はオーディオ・プログラムのためのビットストリームであって、該ビットストリームのデコーダが該ビットストリームから資源効率のよい仕方でパーソナル化されたオーディオ・プログラムを導出できるようにするビットストリームを提供する技術的課題に対処する。

ある側面によれば、オブジェクト・ベース・オーディオ・プログラムを示すビットストリームを生成する方法が記述される。ビットストリームは、オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナのシーケンスを含む。コンテナのシーケンスの第一のコンテナは、オブジェクト・ベース・オーディオ・プログラムの複数のサブストリームについての複数のサブストリーム・エンティティを含む。さらに、前記第一のコンテナは呈示セクションを含む。本方法は、オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネルの集合を決定することを含む。ここで、前記オブジェクト・チャネルの集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む。本方法はまた、オブジェクト・チャネルの集合のためのオブジェクト関係メタデータの集合を提供または決定することを含む。ここで、オブジェクト関係メタデータの集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含む。オブジェクト・ベース・オーディオ・プログラムの第一のオーディオ・プログラム・フレームは、前記オブジェクト・チャネル・フレームの集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含む。さらに、本方法は、オブジェクト・チャネル・フレームの前記第一の集合およびオブジェクト関係メタデータ・フレームの前記第一の集合を前記第一のコンテナの前記複数のサブストリーム・エンティティのオブジェクト・チャネル・サブストリーム・エンティティのそれぞれの集合に挿入することを含む。加えて、本方法は、呈示データを前記呈示セクションに挿入することを含む。ここで、前記呈示データは、少なくとも一つの呈示を示す。前記呈示は、同時に呈示される前記複数のサブストリーム・エンティティからのサブストリーム・エンティティの集合を含む。

別の側面によれば、オブジェクト・ベース・オーディオ・プログラムを示すビットストリームが記述される。ビットストリームは、オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナのシーケンスを含む。コンテナのシーケンスの第一のコンテナは、オブジェクト・ベース・オーディオ・プログラムの第一のオーディオ・プログラム・フレームを含む。前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含む。前記オブジェクト・チャネルの集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示す。前記第一のコンテナは、オブジェクト・ベース・オーディオ・プログラムの複数のサブストリームについての複数のサブストリーム・エンティティを含む。前記複数のサブストリーム・エンティティは、それぞれオブジェクト・チャネル・フレームの前記第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティの集合を含む。前記第一のコンテナはさらに、呈示データをもつ呈示セクションを含む。ここで、前記呈示データは、オブジェクト・ベース・オーディオ・プログラムの少なくとも一つの呈示を示す。前記呈示は、同時に呈示されるべき前記複数のサブストリーム・エンティティからのサブストリーム・エンティティの集合を含む。

別の側面によれば、本稿で概説されるビットストリームからパーソナル化されたオーディオ・プログラムを生成する方法が記述される。本方法は、前記呈示セクションから呈示データを抽出することを含む。ここで、前記呈示データはパーソナル化されたオーディオ・プログラムのための呈示を示し、前記呈示は、同時に呈示されるべき前記複数のサブストリーム・エンティティからのサブストリーム・エンティティの集合を含む。さらに、本方法は、前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナのオブジェクト・チャネル・サブストリーム・エンティティの集合から抽出することを含む。

さらなる側面によれば、オブジェクト・ベース・オーディオ・プログラムを示すビットストリームを生成するシステム（たとえばエンコーダ）が記述される。ビットストリームは、オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナのシーケンスを含む。コンテナのシーケンスの第一のコンテナは、オブジェクト・ベース・オーディオ・プログラムの複数のサブストリームについての複数のサブストリーム・エンティティを含む。前記第一のコンテナはさらに呈示セクションを含む。本システムは、オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネルの集合を決定するよう構成されている。ここで、前記オブジェクト・チャネルの集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む。さらに、本システムは、オブジェクト・チャネルの集合のためのオブジェクト関係メタデータの集合を決定するよう構成されており、ここで、オブジェクト関係メタデータの集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含む。オブジェクト・ベース・オーディオ・プログラムの第一のオーディオ・プログラム・フレームは、前記オブジェクト・チャネル・フレームの集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含む。加えて、本システムは、オブジェクト・チャネル・フレームの前記第一の集合およびオブジェクト関係メタデータ・フレームの前記第一の集合を前記第一のコンテナの前記複数のサブストリーム・エンティティのオブジェクト・チャネル・サブストリーム・エンティティのそれぞれの集合に挿入するよう構成される。さらに、本システムは、呈示データを前記呈示セクションに挿入するよう構成されている。ここで、前記呈示データは、少なくとも一つの呈示を示す。前記少なくとも一つの呈示は、同時に呈示されるべき前記複数のサブストリーム・エンティティからのサブストリーム・エンティティの集合を含む。

別の側面によれば、オブジェクト・ベース・オーディオ・プログラムを含むビットストリームからパーソナル化されたオーディオ・プログラムを生成するシステムが記述される。該ビットストリームは本稿で記述されるようなものである。本システムは、前記呈示セクションから呈示データを抽出することを含む。ここで、前記呈示データはパーソナル化されたオーディオ・プログラムのための呈示を示し、前記呈示は、同時に呈示されるべき前記複数のサブストリーム・エンティティからのサブストリーム・エンティティの集合を含む。さらに、本システムは、前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナのオブジェクト・チャネル・サブストリーム・エンティティの集合から抽出するよう構成されている。

あるさらなる側面によれば、ソフトウェア・プログラムが記述される。本ソフトウェア・プログラムは、プロセッサ上での実行のために、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されていてもよい。

もう一つの側面によれば、記憶媒体が記述される。本記憶媒体は、プロセッサ上での実行のために、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されたソフトウェア・プログラムを有していてもよい。

あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。本コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を含んでいてもよい。

本特許出願において概説される方法およびシステムはその好ましい実施形態を含め、単体でまたは本稿で開示される他の方法やシステムとの組み合わせにおいて使用されてもよいことを注意しておくべきである。さらに、本特許出願で概説された方法およびシステムのすべての側面が任意に組み合わされてもよい。特に、請求項の特徴は任意の仕方で互いに組み合わされてもよい。

本発明は、付属の図面を参照して例示的な仕方で下記で説明される。
例示的なオーディオ処理チェーンのブロック図である。例示的なオーディオ・エンコーダのブロック図である。例示的なオーディオ・デコーダのブロック図である。オーディオ・プログラムの例示的な呈示データおよび例示的なサブストリームを示す図である。呈示データを含むビットストリームの例示的な構造を示す図である。呈示データを含むビットストリームを生成するための例示的な方法のフローチャートである。

上記のように、本稿は、一般的なオーディオ・プログラムのためのビットストリームであって、該ビットストリームのデコーダが該ビットストリームから資源効率のよい仕方でパーソナル化されたオーディオ・プログラムを生成できるようにするビットストリームを提供する技術的課題に向けられている。特に、パーソナル化されたオーディオ・プログラムの生成は、比較的低い計算量で実行されるべきである。さらに、一般的なオーディオ・プログラムを含む前記ビットストリームは比較的低いビットレートを示すべきである。

図１は、例示的なオーディオ処理チェーン（オーディオ・データ処理システムとも称される）のブロック図を示している。本システムは図のように結合された以下の要素を含む：捕捉ユニット１，制作ユニット３（これはエンコード・サブシステムを含む）、送達サブシステム５、デコーダ７、オブジェクト処理サブシステム９、コントローラ１０およびレンダリング・サブシステム１１。図示したシステムに対する諸変形では、これらの要素のうちの一つまたは複数が省略され、あるいは追加的なオーディオ・データ処理ユニットが含められる。典型的には、要素７、９、１０および１１は再生および／またはデコード・システム（たとえばエンドユーザーのホームシアター・システム）に含まれる。

捕捉ユニット１は典型的には、オーディオ・コンテンツを含むPCM（時間領域）サンプルを生成し、該PCMサンプルを出力するよう構成される。該サンプルは、（たとえばスポーツ・イベントまたは他の観客イベントにおける）マイクロフォンによって捕捉されたオーディオの複数のストリームを示していてもよい。典型的には放送局によって運用される制作ユニット３は、上記PCMサンプルを入力として受け入れ、オーディオ・コンテンツを示すオブジェクト・ベース・オーディオ・プログラムを出力するよう構成される。プログラムは典型的には、オーディオ・コンテンツと、ビットストリームから種々のパーソナル化されたオーディオ・プログラムが導出されることを許容する呈示データとを示すエンコードされた（たとえば圧縮された）オーディオ・ビットストリームである、またはそれを含む。オーディオ・コンテンツを示すエンコードされたビットストリームのデータは本稿では時に「オーディオ・データ」と称される。ユニット３から出力されるオブジェクト・ベース・オーディオ・プログラムは、オーディオ・データの複数のスピーカー・チャネル（スピーカー・チャネルの「ベッド」）、オーディオ・データの複数のオブジェクト・チャネルおよびオブジェクト関係メタデータを示してもよい（すなわち、含んでいてもよい）。オーディオ・プログラムは、種々のパーソナル化されたオーディオ・プログラム（これは種々の経験と称されることもある）を生成するためにスピーカー・チャネルおよび／またはオブジェクト・チャネルの種々の組み合わせを選択するために使われてもよい呈示データを含んでいてもよい。例として、オブジェクト・ベース・オーディオ・プログラムはメイン混合を含んでいてもよく、該メイン混合は、スピーカー・チャネルのベッドを示すオーディオ・コンテンツ、少なくとも一つのユーザー選択可能なオブジェクト・チャネル（および任意的な少なくとも一つの他のオブジェクト・チャネル）を示すオーディオ・コンテンツおよび各オブジェクト・チャネルに関連付けられたオブジェクト関係メタデータを含む。プログラムは、少なくとも一つの他のオブジェクト・チャネル（たとえば少なくとも一つのユーザー選択可能なオブジェクト・チャネル）を示すオーディオ・コンテンツおよび／またはオブジェクト関係メタデータを含む少なくとも一つのサイド混合をも含んでいてもよい。オーディオ・プログラムは、スピーカー・チャネルの一つまたは複数のベッドを示していてもよく、あるいはベッドを示さなくてもよい。たとえば、オーディオ・プログラム（または特定の混合／呈示）は、スピーカー・チャネルの二つ以上のベッド（たとえば、5.1チャネルの中立の群衆ノイズ・ベッド、2.0チャネルのホーム・チーム群衆ノイズ・ベッドおよび2.0のアウェー・チームの群衆ノイズ・ベッド）を示していてもよく、これは少なくとも一つのユーザー選択可能なベッド（これはオブジェクト・チャネル・コンテンツまたは構成のユーザー選択のために用いられるユーザー・インターフェースを使って選択されることができる）およびデフォルト・ベッド（別のベッドのユーザー選択がない場合にこれがレンダリングされる）を含む。デフォルト・ベッドは、再生システムのスピーカー・セットの構成（たとえば初期構成）を示すデータによって決定されてもよく、任意的に、ユーザーは、デフォルト・ベッドの代わりにレンダリングされるべき別のベッドを選択してもよい。

図１の送達サブシステム５は、ユニット３によって生成されたオーディオ・プログラムを記憶するおよび／または送信する（たとえば放送する）よう構成される。デコーダ７は送達サブシステム５によって送達されるオーディオ・プログラムを受け入れ（受領するまたは読む）、該プログラム（またはその一つまたは複数の受け入れられた要素）をデコードする。オブジェクト処理サブシステム９は（デコーダ７から）送達されたオーディオ・プログラムのデコードされたスピーカー・チャネル、オブジェクト・チャネルおよびオブジェクト関係メタデータを受領するよう結合される。サブシステム９は、レンダリング・サブシステム１１に、オーディオ・プログラムによって示されるオブジェクト・チャネルの全体集合のうちの選択された部分集合と、対応するオブジェクト関係メタデータとを出力するよう結合され、構成される。サブシステム９は、デコーダ７からのデコードされたスピーカー・チャネルを、典型的には、不変のまま（サブシステム１１）に素通しにするよう構成される。

サブシステム９によって実行されるオブジェクト・チャネル選択は、（単数または複数）（コントローラ１０からサブシステム９に呈される制御データによって示される）ユーザー選択および／またはサブシステム９が実装するようプログラムされているまたは他の仕方で構成されている（たとえば条件および／または制約を示す）規則によって決定されてもよい。そのような規則は、オーディオ・プログラムのオブジェクト関係メタデータによっておよび／または（たとえばコントローラ１０または別の外部源から）サブシステム９に呈される他のデータ（たとえば再生システムのスピーカー・アレイの機能および編成を示すデータ）によっておよび／またはサブシステム９を事前に構成する（たとえばプログラムする）ことによって決定されてもよい。コントローラ１０は（コントローラ１０によって実装されるユーザー・インターフェースを介して）オブジェクトおよび「ベッド」スピーカー・チャネル・コンテンツの選択可能な「プリセット」混合もしくは呈示のメニューまたはパレットをユーザーに提供してもよい（たとえばタッチスクリーン上に表示してもよい）。選択可能なプリセット混合または呈示は、オーディオ・プログラム内に含まれる呈示データによって、および可能性としてはサブシステム９によって実装される規則（たとえばサブシステム９が実装するよう事前に構成されている規則）によっても、決定されてもよい。ユーザーは、コマンドをコントローラ１０に入力することによって（たとえばそのタッチスクリーンを操作することによって）、選択可能な混合／呈示のうちから選択し、応答して、コントローラ１０は対応する制御データをサブシステム９に呈する。

図１のレンダリング・サブシステム１１は、サブシステム９の出力によって決定されるオーディオ・コンテンツを、再生システムのスピーカー（図示せず）による再生のためにレンダリングするよう構成されている。サブシステム１１は、オブジェクト処理サブシステム９によって選択されたオブジェクト・チャネル（たとえばデフォルト・オブジェクトおよび／またはコントローラ１０を使うユーザー対話の結果として選択されたユーザー選択されたオブジェクト）によって決定されるオーディオ・コンテンツを、それぞれの選択されたオブジェクトに関連付けられている、サブシステム９から出力されるレンダリング・パラメータ（たとえば空間位置およびレベルのユーザー選択されたおよび／またはデフォルトの値）を使って、利用可能なスピーカー・チャネルにマッピングするよう構成される。レンダリング・パラメータの少なくともいくつかは、サブシステム９から出力されるオブジェクト関係メタデータによって決定されてもよい。レンダリング・システム１１はサブシステム９によって素通しにされたスピーカー・チャネルのベッドも受領してもよい。典型的には、サブシステム１１は、知的な混合器であり、利用可能なスピーカーのためのスピーカー・フィードを決定するよう構成されている。これは一つまたは複数の選択された（たとえばデフォルトで選択されている）オブジェクトをいくつかの個別のスピーカー・チャネルのそれぞれにマッピングし、それらのオブジェクトをプログラムのスピーカー・チャネル・ベッドのそれぞれの対応するスピーカー・チャネルによって示される「ベッド」オーディオ・コンテンツと混合することによることを含む。

図２は、放送のためにオブジェクト・ベース・オーディオ・プログラム（および対応するビデオ・プログラム）を生成するよう構成された放送システムのブロック図である。図２のシステムのマイクロフォン１００、１０１、１０２、１０３を含むX個のマイクロフォン（Xは0、1または2より大きな整数）の集合が、オーディオ・プログラムに含められるべきオーディオ・コンテンツを捕捉するよう位置されており、それらの出力がオーディオ・コンソール１０４の入力に結合されている。オーディオ・プログラムは、観客イベント（たとえばサッカーまたはラグビー試合、自動車またはオートバイ・レースまたは別のスポーツ・イベント）内でのまたは観客イベントにおける雰囲気および／または観客イベントについてのコメンタリーを示す対話的オーディオ・コンテンツを含んでいてもよい。オーディオ・プログラムは、（ユーザー選択可能な諸オブジェクトまたは諸オブジェクト集合および典型的にはユーザーによるオブジェクト選択がないときにレンダリングされるオブジェクトのデフォルト集合も含む）複数のオーディオ・オブジェクトと、オーディオ・プログラムのスピーカー・チャネルの混合（または「ベッド」）とを含んでいてもよい。スピーカー・チャネルのベッドは、オブジェクト・チャネルを含まない通常の放送プログラムに含まれてもよい型のスピーカー・チャネルの通常の混合（たとえば5.1チャネル混合）であってもよい。

マイクロフォン（たとえばマイクロフォン１００および１０１、また任意的にはその出力がオーディオ・コンソール１０４に結合されている他のマイクロフォン）の部分集合は、動作においては、（スピーカー・チャネルのベッドとしてエンコードされ、送達されるべき）オーディオを捕捉する通常のマイクロフォン・アレイであってもよい。動作において、マイクロフォン（たとえばマイクロフォン１０２および１０３、また任意的にはその出力がオーディオ・コンソール１０４に結合されている他のマイクロフォン）の別の部分集合は、プログラムのオブジェクト・チャネルとしてエンコードされ、送達されるべきオーディオ（たとえば群衆ノイズおよび／または他の「オブジェクト」）を捕捉する。たとえば、図２のシステムのマイクロフォン・アレイは、音場マイクロフォンとして実装され、スタジアムに恒久的に設定されている少なくとも一つのマイクロフォン（たとえばマイクロフォン１００）；一方のチーム（たとえばホーム・チーム）をサポートする観客の位置に向けられた少なくとも一つのステレオ・マイクロフォン（たとえば、Sennheiser MKH416マイクロフォンまたは他のステレオ・マイクロフォンとして実装されたマイクロフォン１０２）および他方のチーム（たとえば遠征チーム）をサポートする観客の位置に向けられた少なくとも一つの他のステレオ・マイクロフォン（たとえば、Sennheiser MKH416マイクロフォンまたは他のステレオ・マイクロフォンとして実装されたマイクロフォン１０３）を含んでいてもよい。

図２の放送システムは、スタジアム（または他のイベント位置）の外部に位置する可動ユニット（これはトラック（truck）であってもよく、時に「試合トラック」と称される）を含んでいてもよい。この可動ユニットは、スタジアム（または他のイベント位置）内のマイクロフォンからのオーディオ・フィードの最初の受領者である。試合トラックは、（放送されるべき）オブジェクト・ベース・オーディオ・プログラムを生成する。これは、送達のためのマイクロフォンからのオーディオ・コンテンツをオーディオ・プログラムのオブジェクト・チャネルとしてエンコードし、対応するオブジェクト関係メタデータ（たとえば、各オブジェクトがレンダリングされるべき空間位置を示すメタデータ）を生成し、そのようなメタデータをオーディオ・プログラム中に含めること、および／または送達のためのいくつかのマイクロフォンからのオーディオ・コンテンツをオーディオ・プログラムのスピーカー・チャネルのベッドとしてエンコードすることによることを含む。

たとえば、図２のシステムでは、コンソール１０４、オブジェクト処理サブシステム１０６（コンソール１０４の出力に結合されている）、埋め込みサブシステム１０８および寄与エンコーダ１１０が試合トラック内に設置されてもよい。サブシステム１０６において生成されるオブジェクト・ベース・オーディオ・プログラムは、（たとえばサブシステム１０８内で）（たとえばスタジアム内に位置されるカメラからの）ビデオ・コンテンツと組み合わされて、組み合わされたオーディオおよびビデオ信号を生成してもよい。該組み合わされた信号がその後（たとえばエンコーダ１１０によって）エンコードされて、それにより（たとえば図１の送達サブシステム５による）放送のためのエンコードされたオーディオ／ビデオ信号を生成する。そのようなエンコードされたオーディオ／ビデオ信号をデコードおよびレンダリングする再生システムが、送達されるオーディオ／ビデオ信号のオーディオ・コンテンツおよびビデオ・コンテンツをパースするためのサブシステム（個別には図示せず）と、オーディオ・コンテンツをデコードおよびレンダリングするためのサブシステムと、ビデオ・コンテンツをデコードおよびレンダリングするためのもう一つのサブシステム（個別には図示せず）とを含むことになることを理解しておくべきである。

コンソール１０４のオーディオ出力は、たとえばスポーツ・イベントにおいて捕捉された音を示す5.1スピーカー・チャネル・ベッド（図２では「5.1中立」とラベル付けされている）と、たとえばイベントに臨場するホーム・チームのファンからの群衆ノイズを示すステレオ・オブジェクト・チャネルのオーディオ・コンテンツ（「2.0ホーム」とラベル付けされている）と、たとえばイベントに臨場する遠征チームのファンからの群衆ノイズを示すステレオ・オブジェクト・チャネルのオーディオ・コンテンツ（「2.0アウェー」とラベル付けされている）と、たとえばホーム・チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル・オーディオ・コンテンツ（「1.0cmm1」とラベル付けされている）と、たとえば遠征チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル・オーディオ・コンテンツ（「1.0cmm2」とラベル付けされている）と、たとえばスポーツ・イベント参加者によってボールが打たれる際の試合ボールによって生成される音を示すオブジェクト・チャネル・オーディオ・コンテンツ（「1.0ボールキック」とラベル付けされている）とを含んでいてもよい。

オブジェクト処理サブシステム１０６は、コンソール１０４からのオーディオ・ストリームをオブジェクト・チャネルに（たとえば、「2.0アウェー」とラベル付けされた左右のオーディオ・ストリームを遠征群衆ノイズ・オブジェクト・チャネルにグループ化）および／またはオブジェクト・チャネルの諸セットに編成（たとえばグループ化）し、それらのオブジェクト・チャネル（および／またはオブジェクト・チャネル・セット）を示すオブジェクト関係メタデータを生成し、それらのオブジェクト・チャネル（および／またはオブジェクト・チャネル・セット）、オブジェクト関係メタデータおよびスピーカー・チャネル・ベッド（コンソール１０４からのオーディオ・ストリームから決定される）をオブジェクト・ベース・オーディオ・プログラム（たとえば、AC-4ビットストリームとしてエンコードされたオブジェクト・ベース・オーディオ・プログラム）としてエンコードするよう構成される。あるいはまた、エンコーダ１１０は、オブジェクト・ベース・オーディオ・プログラムを生成するよう構成されていてもよく、それがたとえばAC-4ビットストリームとしてエンコードされてもよい。そのような場合、オブジェクト処理サブシステム１０６は（たとえばドルビーE+フォーマットを使って）オーディオ・コンテンツを生成することに焦点を当ててもよく、一方、エンコーダ１１０は送出または頒布のためのビットストリームを生成することに焦点を当ててもよい。

サブシステム１０６はさらに、スピーカー・チャネル・ベッドおよびオブジェクト・チャネル（および／またはオブジェクト・チャネル・セット）の少なくとも選択された部分集合をレンダリング（そしてスタジオ・モニタ・スピーカーのセットで再生）する（これはオブジェクト関係メタデータを使って、選択されたオブジェクト・チャネル（単数または複数）およびスピーカー・チャネルを示す混合／呈示を生成することによることを含む）よう構成されてもよく、それにより再生される音はコンソール１０４およびサブシステム１０６の操作者（単数または複数）によってモニタリングされることができる（図２の「モニター経路」によって示されるように）。

サブシステム１０４の出力とサブシステム１０６の入力との間のインターフェースは、マルチチャネル・オーディオ・デジタル・インターフェース（MADI）であってもよい。

動作では、図２のシステムのサブシステム１０８は、サブシステム１０６において生成されたオブジェクト・ベース・オーディオ・プログラムを（たとえばスタジアム内に位置されたカメラからの）ビデオ・コンテンツと組み合わせて、組み合わされたオーディオおよびビデオ信号を生成し、それがエンコーダ１１０に呈される。サブシステム１０８の出力とサブシステム１１０の入力との間のインターフェースは、高精細度シリアル・デジタル・インターフェース（HD-SDI）であってもよい。動作では、エンコーダ１１０はサブシステム１０８の出力をエンコードし、それにより（たとえば図１の送達サブシステム５による）放送のためのエンコードされたオーディオ／ビデオ信号を生成する。

放送施設（たとえば図２のシステムのサブシステム１０６、１０８および１１０）は、オブジェクト・ベース・オーディオ・プログラムの要素の種々の呈示を生成するよう構成されていてもよい。そのような呈示の例は、5.1の平坦化された混合、国際混合および国内混合を含む。たとえば、すべての呈示は、スピーカー・チャネルの共通ベッドを含んでいてもよいが、呈示のオブジェクト・チャネル（および／または呈示によって決定される選択可能なオブジェクト・チャネルおよび／またはオブジェクト・チャネルをレンダリングおよび混合するための選択可能もしくは選択可能でないレンダリング・パラメータのメニュー）は呈示によって異なっていてもよい。

オーディオ・プログラムのオブジェクト関係メタデータ（またはオーディオ・プログラムと一緒に送達されるメタデータによって指示されるのでない、再生またはレンダリング・システムの事前構成設定）は、オブジェクトおよびベッド（スピーカー・チャネル）コンテンツの選択可能な混合／呈示に対する制約条件または条件を与えてもよい。たとえば、DRM階層が実装されて、ユーザーがオブジェクト・ベース・オーディオ・プログラムに含まれる一組のオーディオ・チャネルへの階層的な（tiered）アクセスをもつことを許容してもよい。ユーザーがより多くの金額を（たとえば放送局に）支払うなら、ユーザーは当該オーディオ・プログラムのより多くのオブジェクト・チャネルをデコードし、選択し、レンダリングすることを許諾されうる。

図３は、デコーダ２０、オブジェクト処理サブシステム２２、空間的レンダリング・サブシステム２４、コントローラ２３（これがユーザー・インターフェースを実装する）および任意的にはデジタル・オーディオ処理サブシステム２５、２６および２７を図のように結合されて含む例示的な再生システムのブロック図である。いくつかの実装では、図３のシステムの要素２０、２２、２４、２５、２６、２７、２９、３１および３３はセットトップデバイスとして実装される。

図３のシステムでは、デコーダ２０は、オブジェクト・ベース・オーディオ・プログラムを示すエンコードされた信号を受領し、デコードするよう構成される。オーディオ・プログラムは、たとえば二つのスピーカー・チャネル（すなわち、少なくとも二つのスピーカー・チャネルの「ベッド」）を含むオーディオ・コンテンツを示す。オーディオ・プログラムは、少なくとも一つのユーザー選択可能なオブジェクト・チャネル（および任意的には少なくとも一つの他のオブジェクト・チャネル）および各オブジェクト・チャネルに対応するオブジェクト関係メタデータをも示す。各オブジェクト・チャネルは、オーディオ・オブジェクトを示し、よって、オブジェクト・チャネルは本稿では時に便宜上「オブジェクト」と称される。オーディオ・プログラムは、オーディオ・オブジェクト、オブジェクト関係メタデータおよび／またはスピーカー・チャネルのベッドを示すAC-4ビットストリーム内に含まれていてもよい。典型的には、個々のオーディオ・オブジェクトはモノまたはステレオ符号化され（すなわち、各オブジェクト・チャネルはオブジェクトの左または右チャネルを示すまたはオブジェクトを示すモノフォニック・チャネルである）、ベッドは伝統的な5.1混合であってもよく、デコーダ２０は同時にオーディオ・コンテンツの（たとえばベッドの六つのスピーカー・チャネルおよびたとえば10個以上のオブジェクト・チャネルを含む）所定数（たとえば16個以上）のチャネルのオーディオ・コンテンツをデコードするよう構成されていてもよい。はいってくるビットストリームはある数の（たとえば10個より多い）オーディオ・オブジェクトを示してもよく、特定の混合／呈示を達成するためにはそのすべてがデコードされる必要がないことがありうる。

上記のように、オーディオ・プログラムは一つまたは複数のオブジェクト・チャネルのほかにスピーカー・チャネルの0個、一つまたは複数のベッドを含んでいてもよい。スピーカー・チャネルのベッドおよび／またはオブジェクト・チャネルは、オーディオ・プログラムを含むビットストリームのサブストリームを形成してもよい。よって、ビットストリームは複数のサブストリームを含んでいてもよい。ここで、サブストリームは、スピーカー・チャネルのベッドまたは一つまたは複数のオブジェクト・チャネルを示す。さらに、ビットストリームは呈示データ（たとえば、ビットストリームの呈示セクション内に含まれる）を含んでいてもよい。ここで、呈示データは、一つまたは複数の異なる呈示を示してもよい。呈示は、サブストリームの特定の混合を定義してもよい。換言すれば、呈示は、パーソナル化されたオーディオ・プログラムを提供するために一緒に混合されるべきスピーカー・チャネルのベッドおよび／または一つまたは複数のオブジェクト・チャネルを定義してもよい。

図４は、複数のサブストリーム４１１、４１２、４１３、４１４を示している。各サブストリーム４１１、４１２、４１３、４１４はオーディオ・データ４２１、４２４を含む。ここで、オーディオ・データ４２１、４２４はスピーカー・チャネルのベッドに、またはオーディオ・オブジェクトのオーディオ・データに（すなわちオーディオ・チャネルに）対応してもよい。例として、サブストリーム４１１はスピーカー・チャネルのベッド４２１を含んでいてもよく、サブストリーム４１４はオブジェクト・チャネル４２４を含んでいてもよい。さらに、各サブストリーム４１１、４１２、４１３、４１４は、オーディオ・データ４２１、４２４に関連付けられており、関連付けられたオーディオ・データ４２１、４２４をレンダリングするために使用されうるメタデータ４３１、４３４（たとえばデフォルト・メタデータ）を含んでいてもよい。例として、サブストリーム４１１は（スピーカー・チャネル４２１のベッドのための）スピーカー関係メタデータを含んでいてもよく、サブストリーム４１４は（オブジェクト・チャネル４２４のための）オブジェクト関係メタデータを含んでいてもよい。加えて、サブストリーム４１１、４１２、４１３、４１４は、関連付けられたオーディオ・データ４２１、４２４をレンダリングする一つまたは複数の代替的な仕方を提供するために、代替的なメタデータ４４１、４４４を含んでいてもよい。

さらに、図４は、異なる呈示４０１、４０２、４０３を示している。呈示４０１は、呈示４０１のために使用されるべきサブストリーム４１１、４１２、４１３、４１４のセレクションを示し、それによりパーソナル化されたオーディオ・プログラムを定義する。さらに、呈示４０１は、呈示４０１のために選択されたサブストリーム４１１について使用されるべきメタデータ４３１、４４１（たとえばデフォルト・メタデータ４３１または代替的なメタデータ４４１のうちの一つ）を示してもよい。図示した例では、呈示４０１は、サブストリーム４１１、４１２、４１４を含むパーソナル化されたオーディオ・プログラムを記述する。

よって、呈示４０１、４０２、４０３の使用は、一般的なオブジェクト・ベース・オーディオ・プログラム内で種々のパーソナル化されたオーディオ・プログラムを信号伝達する効率的な手段を提供する。特に、呈示４０１、４０２、４０３は、デコーダ７、２０が、一般的なオブジェクト・ベース・オーディオ・プログラムの完全なビットストリームをデコードする必要なしに、ある特定の呈示４０１のために必要とされる前記一つまたは複数のサブストリーム４１１、４１２、４１３、４１４を簡単に選択できるようなものであってもよい。たとえば、再マルチプレクサ（re-multiplexer）（図３には示さず）が、特定の呈示４０１のパーソナル化されたオーディオ・プログラムのための新たなビットストリームを生成するために、完全なビットストリームから前記一つまたは複数のサブストリーム４１１、４１２、４１３、４１４を簡単に抽出するよう構成されていてもよい。換言すれば、比較的多数の呈示４０１、４０２、４０３をもつビットストリームから、減少した数の呈示を担持する新たなビットストリームが効率的に生成されてもよい。可能なシナリオは、STBに到達する比較的多数の呈示をもつ比較的大きなビットストリームである。該STBはパーソナル化（すなわち、呈示を選択すること）に焦点を当てるようにされていてもよく、（オーディオ・データをデコードすることなく）単一呈示ビットストリームを再パッケージングするよう構成されていてもよい。単一呈示ビットストリーム（およびオーディオ・データ）は次いで適切なリモート・デコーダにおいて、たとえばAVR（オーディオ／ビデオ・レシーバー）内でまたはタブレットPCのようなモバイル家庭装置内で、デコードされてもよい。

デコーダ（たとえば図３のデコーダ２０）は、レンダリングのための呈示４０１を同定するために呈示データをパースしてもよい。さらに、デコーダ２００は、呈示データによって示される位置から、呈示４０１のために必要とされるサブストリーム４１１、４１２、４１４を抽出してもよい。サブストリーム４１１、４１２、４１４（スピーカー・チャネル、オブジェクト・チャネルおよび関連するメタデータ）を抽出したのち、デコーダは、抽出されたサブストリーム４１１、４１２、４１４に対して（たとえばそれのみに対して）必要なデコードがあればそれを実行してもよい。

ビットストリームは、AC-4ビットストリームであってもよく、呈示４０１、４０２、４０３はAC-4呈示であってもよい。これらの呈示は、特定の呈示のために必要とされるビットストリームの諸部分（オーディオ・データ４２１およびメタデータ４３１）への簡単なアクセスを可能にする。そのようにして、デコーダまたは受領器システム２０は、ビットストリームの他の部分の深くまでパースする必要なしに、ビットストリームの必要とされる部分に簡単にアクセスすることができる。これはたとえば、構造全体を再構築したりまたさらにはビットストリームのサブストリーム４１１、４１２、４１３、４１４をデコードおよびエンコードしたりする必要なく、ビットストリームの必要とされる部分のみを別の装置に転送する可能性をも可能にする。特に、ビットストリームから導出される低減された構造が抽出されてもよい。

再び図３を参照するに、ユーザーは、レンダリングされるべきオブジェクト（オブジェクト・ベース・オーディオ・プログラムによって示される）を選択するためにコントローラ２３を用いてもよい。例として、ユーザーは特定の呈示４０１を選択してもよい。コントローラ２３は、図３のシステムの他の要素と両立するユーザー・インターフェース（たとえばiPad（登録商標）アプリ）を実装するようプログラムされているハンドヘルド処理装置（たとえばiPad（登録商標））であってもよい。ユーザー・インターフェースは、ユーザーに対して、オブジェクトおよび／または「ベッド」スピーカー・チャネル・コンテンツの選択可能な呈示４０１、４０２、４０３（たとえば「プリセット」混合）のメニューまたはパレットを提供（たとえばタッチスクリーン上に表示）してもよい。呈示４０１、４０２、４０３はメニューまたはパレット内でネームタグと一緒に提供されてもよい。選択可能な呈示４０１、４０２、４０３は、ビットストリームの呈示データによって、そして可能性としてはサブシステム２２によって実装される規則（たとえばサブシステム２２が実装するよう事前に構成されている規則）にもよって決定されうる。ユーザーは、選択可能な呈示のうちから、コントローラ２３にコマンドを入力することによって（たとえば、コントローラ２３のタッチスクリーンを作動させることにより）選択してもよく、応答して、コントローラ２３は対応する制御データをサブシステム２２に呈してもよい。

オブジェクト・ベース・オーディオ・プログラムに応答し、かつ選択された呈示４０１を示すコントローラ２３からの制御データに応答して、デコーダ２０は、（必要であれば）選択された呈示４０１のスピーカー・チャネルのベッドのスピーカー・チャネルをデコードし、デコードされたスピーカー・チャネルをサブシステム２２に出力する。オブジェクト・ベース・オーディオ・プログラムに応答し、かつ選択された呈示４０１を示すコントローラ２３からの制御データに応答して、デコーダ２０は、（必要であれば）選択されたオブジェクト・チャネルをデコードし、選択された（たとえばデコードされた）オブジェクト・チャネル（そのそれぞれは、パルス符号変調されたまたは「PCM」ビットストリームであってもよい）および選択されたオブジェクト・チャネルに対応するオブジェクト関係メタデータを、サブシステム２２に出力する。

デコードされたオブジェクト・チャネルによって示されるオブジェクトは典型的には、ユーザー選択可能なオーディオ・オブジェクトであるまたはユーザー選択可能なオーディオ・オブジェクトを含む。たとえば、図３に示されるように、デコーダ２０は、5.1スピーカー・チャネル・ベッドと、ホーム・チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル（「コメント１モノ」）と、遠征チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル（「コメント２モノ」）と、スポーツ・イベントに臨場するホーム・チームのファンからの群衆ノイズを示すステレオ・オブジェクト・チャネル（「ファン（ホーム）」）と、スポーツ・イベント参加者によってボールが打たれる際の試合ボールによって生成される音を示す左右のオブジェクト・チャネル（「ボール音ステレオ」）と、特殊効果を示す四つのオブジェクト・チャネル（「効果4x モノ」）とを含んでいてもよい。「コメント１モノ」、「コメント２モノ」、「ファン（ホーム）」、「ボール音ステレオ」および「効果4x モノ」オブジェクト・チャネルの任意のものが呈示４０１の一部として選択されてよく、選択された一つ一つが（デコーダ２０における必要なデコードがあればそれを受けた後に）サブシステム２２からレンダリング・サブシステム２４に渡される。

サブシステム２２は、オーディオ・プログラムによって示されるオブジェクト・チャネルのフル・セットのある選択された部分集合およびオーディオ・プログラムの対応するオブジェクト関係メタデータを出力するよう構成される。オブジェクト選択は、（コントローラ２３からサブシステム２２に呈される制御データによって示される）ユーザー選択および／またはサブシステム２２が実装するようプログラムされているまたは他の仕方で構成されている（たとえば条件および／または制約を示す）規則によって決定されてもよい。そのような規則は、プログラムのオブジェクト関係メタデータによっておよび／または（たとえばコントローラ２３または別の外部源から）サブシステム２２に呈される他のデータ（再生システムのスピーカー・アレイの機能および編成を示すデータ）によっておよび／またはサブシステム２２を事前に構成する（たとえばプログラムする）ことによって決定されてもよい。上記のように、ビットストリームは、オブジェクトおよび「ベッド」スピーカー・チャネル・コンテンツの選択可能な「プリセット」混合（すなわち呈示４０１、４０２、４０３）の集合を提供する呈示データを含んでいてもよい。サブシステム２２は、デコーダ２０からのデコードされたスピーカー・チャネルを、典型的には不変のまま（サブシステム２４に）に通過させ、それに呈されたオブジェクト・チャネルの選択されたものを処理する。

図３の空間的レンダリング・サブシステム２４（または少なくとも一つの下流の装置またはシステムと一緒のサブシステム２４）は、サブシステム２２から出力されるオーディオ・コンテンツを、ユーザーの再生システムのスピーカーによる再生のために、レンダリングするよう構成される。任意的に含まれるデジタル・オーディオ処理サブシステム２５、２６および２７の一つまたは複数がサブシステム２４の出力に対する後処理を実装してもよい。

空間的レンダリング・サブシステム２４は、選択された各オブジェクトに関連付けられている、サブシステム２２から出力されたレンダリング・パラメータ（たとえば空間位置およびレベルのユーザー選択されたおよび／またはデフォルトの値）を使って、オブジェクト処理サブシステム２２によって選択されたオーディオ・オブジェクト・チャネルを利用可能なスピーカー・チャネルにマッピングするよう構成される。空間的レンダリング・システム２４は、サブシステム２２が素通しにしたデコードされたスピーカー・チャネルのベッドをも受領する。典型的には、サブシステム２４は、知的な混合器であり、いくつかの個別スピーカー・チャネルのそれぞれに一つ、二つまたは三つ以上の選択されたオブジェクト・チャネルをマッピングし、選択されたオブジェクト・チャネル（単数または複数）を、プログラムのスピーカー・チャネル・ベッドの対応する各スピーカー・チャネルによって示される「ベッド」オーディオ・コンテンツと混合することによることを含め、利用可能なスピーカーについてのスピーカー・フィードを決定するよう構成される。

オーディオをレンダリングするために駆動されるスピーカーは、単に（名目上）水平面内ではなく、再生環境中の任意の位置に位置されうる。いくつかのそのような場合において、プログラムに含まれるメタデータは、スピーカーの三次元アレイを使って（三次元体積中の）任意の見かけの空間位置にプログラムの少なくとも一つのオブジェクトをレンダリングするためのレンダリング・パラメータを示す。たとえば、オブジェクト・チャネルは、（該オブジェクト・チャネルによって示される）オブジェクトがレンダリングされるべき見かけの空間位置の三次元的な軌跡を示す対応するメタデータを有していてもよい。軌跡は、「床（floor）」位置（再生環境の床または別の水平面に位置されると想定されるスピーカーの部分集合の平面内）のシーケンスおよび「床上方（above-floor）」位置（それぞれ、再生環境の少なくとも一つの他の水平面内に位置されると想定されるスピーカーの部分集合を駆動することによって決定される）のシーケンスを含んでいてもよい。そのような場合、レンダリングは、本発明によれば、スピーカーが、前記軌跡を含む三次元空間内のオブジェクト位置のシーケンスから発しているものとして知覚される音（関連するオブジェクト・チャネルによって決定される音）が、「ベッド」オーディオ・コンテンツによって決定される音と混合されたものを発するよう駆動されることができるように実行されることができる。サブシステム２４は、そのようなレンダリングまたはそのステップを実装するよう構成されていてもよく、レンダリングの残りのステップは下流のシステムまたは装置（たとえば図３のレンダリング・サブシステム３５）によって実行されてもよい。

任意的に、デジタル・オーディオ処理（DAP）段（たとえば、いくつかのあらかじめ決定された出力スピーカー・チャネル構成のそれぞれについて一つ）が、空間的レンダリング・サブシステムの出力に対して後処理を実行するよう、空間的レンダリング・サブシステム２４の出力に結合される。そのような処理の例は、知的な等化または（ステレオ出力の場合）スピーカー仮想化処理を含む。

図３のシステムの出力（たとえば、空間的レンダリング・サブシステムまたは空間的レンダリング段に続くDAP段の出力）はPCMビットストリームであってもよい（これが利用可能なスピーカーについてのスピーカー・フィードを決定する）。たとえば、ユーザーの再生システムがスピーカーの7.1アレイを含む場合、システムは、そのようなアレイのスピーカーについてのスピーカー・フィードを決定するPCMビットストリーム（サブシステム２４において生成される）またはそのようなビットストリームの後処理されたバージョン（DAP ２５において生成される）を出力してもよい。もう一つの例として、ユーザーの再生システムがスピーカーの5.1アレイを含む場合、システムは、そのようなアレイのスピーカーについてのスピーカー・フィードを決定するPCMビットストリーム（サブシステム２４において生成される）またはそのようなビットストリームの後処理されたバージョン（DAP ２６において生成される）を出力してもよい。もう一つの例として、ユーザーの再生システムが左および右のスピーカーを含むだけである場合、システムは、該左右のスピーカーについてのスピーカー・フィードを決定するPCMビットストリーム（サブシステム２４において生成される）またはそのようなビットストリームの後処理されたバージョン（DAP ２７において生成される）を出力してもよい。

図３のシステムは、任意的に、再エンコード・サブシステム３１および３３の一方または両方をも含む。再エンコード・サブシステム３１は、エンコードされたビットストリーム（たとえばAC-4またはAC-3ビットストリーム）としてDAP ２５から出力される（7.1スピーカー・アレイのためのフィードを示す）PCMビットストリームを再エンコードするよう構成されており、結果として得られるエンコードされた（圧縮された）AC-3ビットストリームがシステムから出力されてもよい。再エンコード・サブシステム３３は、エンコードされたビットストリーム（たとえばAC-4またはAC-3ビットストリーム）としてDAP ２７から出力される（5.1スピーカー・アレイのためのフィードを示す）PCMビットストリームを再エンコードするよう構成されており、結果として得られるエンコードされた（圧縮された）ビットストリームがシステムから出力されてもよい。

図３のシステムは、任意的に、再エンコード（またはフォーマット）サブシステム２９およびサブシステム２９の出力を受領するよう結合された下流のレンダリング・サブシステム３５をも含む。サブシステム２９は、選択されたオーディオ・オブジェクト（またはオーディオ・オブジェクトのデフォルト混合）、対応するオブジェクト関係メタデータおよびスピーカー・チャネルのベッドを示す（サブシステム２２から出力される）データを受領するよう結合され、そのようなデータをサブシステム３５によるレンダリングのために再エンコードする（および／またはフォーマットする）よう構成されている。サブシステム３５は、AVRまたはサウンドバー（またはサブシステム２９から下流の他のシステムまたは装置）において実装されてもよく、サブシステム２９の出力に応答して、利用可能な再生スピーカー（スピーカー・アレイ３６）のためのスピーカー・フィード（またはスピーカー・フィードを決定するビットストリーム）を生成するよう構成される。たとえば、サブシステム２９は、選択された（またはデフォルトの）オーディオ・オブジェクト、対応するメタデータおよびスピーカー・チャネルのベッドを示す前記データをサブシステム３５におけるレンダリングのための好適なフォーマットに再エンコードすることによって、エンコードされたオーディオを生成し、該エンコードされたオーディオを（たとえばHDMI（登録商標）リンクを介して）サブシステム３５に伝送するよう構成されていてもよい。サブシステム３５によって生成される（またはその出力によって決定される）スピーカー・フィードに応答して、利用可能なスピーカー３６は、スピーカー・チャネル・ベッドおよび選択された（またはデフォルトの）オブジェクト（単数または複数）の、サブシステム２９の出力のオブジェクト関係メタデータによって決定される見かけの源位置をもつオブジェクト（単数または複数）との混合を示す音を発する。サブシステム２９および３５が含まれるとき、レンダリング・サブシステム２４は任意的に、システムから省略される。

上記のように、呈示データの使用は、デコーダ２０が、特定の呈示４０１のために必要とされる一つまたは複数のサブストリーム４１１、４１２、４１３、４１４を効率的に選択できるようにするので、有益である。これに鑑み、デコーダ２０は、特定の呈示４０１の一つまたは複数のサブストリーム４１１、４１２、４１３、４１４を抽出し、特定の呈示４０１の一つまたは複数のサブストリーム４１１、４１２、４１３、４１４を（典型的にはこれのみを）含む新たなビットストリームを再構築するよう構成されていてもよい。この抽出および新たなビットストリームの再構築は、前記一つまたは複数のサブストリーム４１１、４１２、４１３、４１４を実際にデコードして再エンコードする必要なしに実行されうる。よって、特定の呈示４０１についての新たなビットストリームの生成は、資源効率のよい仕方で実行されうる。

図３のシステムは、レンダリングの一部（すなわち少なくとも一つのステップ）（たとえば、図３のシステムのサブシステム２２およびコントローラ２３によって実行されるような、レンダリングされるべきオーディオ・オブジェクトの選択および各選択されたオブジェクトのレンダリングの特性の選択）が第一のサブシステム（たとえば、セットトップ装置またはセットトップ装置およびハンドヘルド・コントローラにおいて実装される図３の要素２０、２２および２３）において実装され、レンダリングの別の部分（たとえば、スピーカー・フィードまたはスピーカー・フィードを決定する信号が第一のサブシステムの出力に応答して生成される没入的レンダリング）が第二のサブシステム（たとえば、AVRまたはサウンドバーにおいて実装されるサブシステム３５）において実装される、オブジェクト・ベース・オーディオをレンダリングするための分散式システムであってもよい。オーディオ・レンダリングの諸部分（およびレンダリングされるオーディオに対応するビデオの任意の処理）が実行される異なる時刻および異なるサブシステムを考慮に入れるためにレイテンシー管理が実装されてもよい。

図５に示されるように、一般的なオーディオ・プログラムは、コンテナ５０１のシーケンスを含むビットストリーム５００において転送されてもよい。各コンテナ５０１はオーディオ・プログラムの特定のフレームについてのオーディオ・プログラムのデータを含んでいてもよい。オーディオ・プログラムの特定のフレームはオーディオ・プログラムの特定の時間的セグメント（たとえばオーディオ・プログラムのうちの20ミリ秒）に対応してもよい。よって、コンテナ５０１のシーケンスの各コンテナ５０１は、一般的なオーディオ・プログラムのフレームのシーケンスのあるフレームについてのデータを担持してもよい。フレームについてのデータは、コンテナ５０１のフレーム・エンティティ５０２内に含まれてもよい。フレーム・エンティティはビットストリーム５００のシンタックス要素を使って同定されてもよい。

上記のように、ビットストリーム５００は複数のサブストリーム４１１、４１２、４１３、４１４を担持してもよい。ここで、各サブストリーム４１１はスピーカー・チャネルのベッド４２１またはオブジェクト・チャネル４２４を含む。よって、フレーム・エンティティ５０２は複数の対応するサブストリーム・エンティティ５２０を含んでいてもよい。さらに、フレーム・エンティティ５０２は呈示セクション５１０（目次（TOC: Table of Content）セクションとも称される）を含んでいてもよい。呈示セクション５１０は、たとえば呈示セクション５１０内に含まれるいくつかの呈示４０１、４０２、４０３を示してもよいTOCデータ５１１を含んでいてもよい。さらに、呈示セクション５１０は、それぞれ一つまたは複数の呈示４０１、４０２、４０３を定義するためのデータを担持する一つまたは複数の呈示エンティティ５１２を含んでいてもよい。サブストリーム・エンティティ５２０は、サブストリーム４１１のフレームのオーディオ・データ４２１、４２４を担持するためのコンテンツ・サブエンティティ５２１を含んでいてもよい。さらに、サブストリーム・エンティティ５２０は、サブストリーム４１１のフレームの対応するメタデータ４３１、４４１を担持するためのメタデータ・サブエンティティ５２２を含んでいてもよい。

図６は、オブジェクト・ベース・オーディオ・プログラム（すなわち一般的なオーディオ・プログラム）を示すビットストリーム５００を生成する例示的な方法６００のフローチャートを示している。ビットストリーム５００は、該ビットストリーム５００がオブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ５０１のシーケンスを含むようなビットストリーム・フォーマットを示す。換言すれば、オブジェクト・ベース・オーディオ・プログラムの各フレーム（すなわち各時間的セグメント）が、ビットストリーム・フォーマットによって定義されうるコンテナのシーケンスのコンテナ中に挿入されてもよい。コンテナは、ビットストリーム・フォーマットの特定のコンテナ・シンタックス要素を使って定義されてもよい。例として、ビットストリーム・フォーマットはAC-4ビットストリーム・フォーマットに対応してもよい。換言すれば、生成されるべきビットストリーム５００はAC-4ビットストリームであってもよい。

さらに、ビットストリーム・フォーマットは、コンテナ５０１のシーケンスの第一のコンテナ５０１（すなわち、コンテナ５０１のシーケンスのコンテナ５０１のうちの少なくとも一つ）が、オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム４１１、４１２、４１３、４１４についての複数のサブストリーム・エンティティ５２０を含む。上記で概説したように、オーディオ・プログラムは、複数のサブストリーム４１１、４１２、４１３、４１４を含んでいてもよく、各サブストリーム４１１、４１２、４１３、４１４はスピーカー・チャネルのベッド４２１またはオブジェクト・チャネル４２４またはその両方を含んでいてもよい。ビットストリーム・フォーマットは、コンテナ５０１のシーケンスの各コンテナ５０１が対応するサブストリーム４１１、４１２、４１３、４１４についての専用のサブストリーム・エンティティ５２０を提供するようなものであってもよい。特に、各サブストリーム・エンティティ５２０は対応するサブストリーム４１１、４１２、４１３、４１４のフレームに関係するデータを含んでいてもよい。サブストリーム４１１、４１２、４１３、４１４のフレームは、スピーカー・チャネルのベッド４２１のフレームであってもよく、これはここではスピーカー・チャネル・フレームと称される。あるいはまた、サブストリーム４１１、４１２、４１３、４１４のフレームはオブジェクト・チャネルのフレームであってもよく、これはここではオブジェクト・チャネル・フレームと称される。サブストリーム・エンティティ５２０は、ビットストリーム・フォーマットの対応するシンタックス要素によって定義されてもよい。

さらに、前記第一のコンテナ５０１は呈示セクション５１０を含んでいてもよい。換言すれば、ビットストリーム・フォーマットは、コンテナ５０１のシーケンスのコンテナ５０１のすべてについて（たとえば適切なシンタックス要素を使った）呈示セクション５１０の定義を許容しうる。呈示セクション５１０は、（一般的な）オブジェクト・ベース・オーディオ・プログラムから生成されることのできる異なるパーソナル化されたオーディオ・プログラムのための異なる呈示４０１、４０２、４０３を定義するために使用されてもよい。

方法６００は、オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネルの集合４２４を決定すること６０１を含む。オーディオ信号の集合は捕捉されたオーディオ・コンテンツ、たとえば図２のコンテキストにおいて述べたシステムを使って捕捉されたオーディオ・コンテンツを示していてもよい。オブジェクト・チャネルの集合４２４は複数のオブジェクト・チャネル４２４を含んでいてもよい。さらに、オブジェクト・チャネルの集合４２４はオブジェクト・チャネル・フレームの集合のシーケンスを含む。換言すれば、各オブジェクト・チャネルは、オブジェクト・チャネル・フレームのシーケンスを含む。その結果、オブジェクト・チャネルの集合は、オブジェクト・チャネル・フレームの集合のシーケンスを含み、ある特定の時点におけるオブジェクト・チャネル・フレームの集合はその特定の時点におけるオブジェクト・チャネルの集合のオブジェクト・チャネル・フレームを含む。

さらに、方法６００は、オブジェクト・チャネルの集合４２４のためのオブジェクト関係メタデータ４３４、４４４の集合を提供または決定すること６０２を含む。ここで、オブジェクト関係メタデータ４３４、４４４の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含む。換言すれば、あるオブジェクト・チャネルのオブジェクト関係メタデータはオブジェクト関係メタデータ・フレームのシーケンスにセグメント分割される。結果として、オブジェクト・チャネルの対応する集合についてのオブジェクト関係メタデータの集合は、オブジェクト関係メタデータ・フレームの集合のシーケンスを含む。

よって、オブジェクト関係メタデータ・フレームが、対応するオブジェクト・チャネル・フレームについて（たとえば図２のコンテキストにおいて述べたオブジェクト・プロセッサ１０６を使って）提供されてもよい。上記のように、オブジェクト・チャネル４２４はオブジェクト関係メタデータ４３４、４４４の種々の変形を提供されてもよい。例として、オブジェクト関係メタデータのデフォルト変形４３４およびオブジェクト関係メタデータの一つまたは複数の代替的な変形４４４が提供されてもよい。こうすることにより、種々のパースペクティブ（たとえばスタジアム内の種々の位置）がシミュレートされうる。代替的または追加的に、スピーカー・チャネルのベッド４２１が、スピーカー関係メタデータ４３１、４４１の種々の変形を提供されてもよい。例として、スピーカー関係メタデータのデフォルト変形４３１およびスピーカー関係メタデータの一つまたは複数の代替的な変形４４１が提供されてもよい。こうすることにより、スピーカー・チャネルのベッド４２１の種々の回転が定義されうる。オブジェクト関係メタデータと同様に、スピーカー関係メタデータも時間変化してもよい。

よって、オーディオ・プログラムは、オブジェクト・チャネルの集合を有していてもよい。結果として、オブジェクト・ベース・オーディオ・プログラムの第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの集合のシーケンスからのオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの集合のシーケンスからのオブジェクト関係メタデータ・フレームの対応する第一の集合とを含む。

方法６００はさらに、オブジェクト・チャネル・フレームの前記第一の集合およびオブジェクト関係メタデータ・フレームの前記第一の集合を前記第一のコンテナ５０１の前記複数のサブストリーム・エンティティ５２０のオブジェクト・チャネル・サブストリーム・エンティティ５２０のそれぞれの集合に挿入すること６０３を含む。よって、オブジェクト・ベース・オーディオ・プログラムの各オブジェクト・チャネル４２１について、サブストリーム４１１、４１２、４１３、４１４が生成されうる。各サブストリーム４１１、４１２、４１３、４１４は、サブストリーム４１１、４１２、４１３、４１４を担持するそれぞれのサブストリーム・エンティティ５２０を介してビットストリーム５００内で同定されてもよい。この結果として、完全なビットストリーム５００および／またはサブストリーム４１１、４１２、４１３、４１４をデコードする必要なく、資源効率のよい仕方で、種々のサブストリーム４１１、４１２、４１３、４１４が、デコーダ７、２０によって同定され、可能性としては抽出されうる。

さらに、方法６００は、呈示データをビットストリーム５００の前記呈示セクション５１０に挿入すること６０４を含む。呈示データは、少なくとも一つの呈示４０１を示してもよく、前記少なくとも一つの呈示４０１はパーソナル化されたオーディオ・プログラムを定義してもよい。特に、前記少なくとも一つの呈示４０１は、同時に呈示されるべき前記複数のサブストリーム・エンティティ５２０からのサブストリーム・エンティティ５２０の集合を含んでもよく、あるいは示してもよい。よって、呈示４０１は、オブジェクト・ベース・オーディオ・プログラムのサブストリーム４１１、４１２、４１３、４１４のうちのどの一つまたは複数が、パーソナル化されたオーディオ・プログラムを生成するために選択されるかを示してもよい。上記で概説したように、呈示４０１はサブストリーム４１１、４１２、４１３、４１４の完全な集合の部分集合（すなわち、サブストリーム４１１、４１２、４１３、４１４の総数より少ない）を同定してもよい。

呈示データの挿入は、対応するデコーダ７、２０が、完全なビットストリーム５００をデコードまたはパースする必要なしに、パーソナル化されたオーディオ・プログラムを生成するために、ビットストリーム５００から一つまたは複数のサブストリーム４１１、４１２、４１３、４１４を同定し、抽出することを可能にする。

方法６００は、オーディオ信号の前記集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示すスピーカー・チャネルのベッド４２１を決定することを含んでいてもよい。スピーカー・チャネルのベッド４２１は：2.0チャネル、5.1チャネル、5.1.2チャネル、7.1チャネルおよび／または7.1.4チャネルのうちの一つまたは複数を含んでいてもよい。スピーカー・チャネルのベッド４２１は、パーソナル化されたオーディオ・プログラムについての基礎を提供するために使われてもよい。加えて、一つまたは複数のオブジェクト・チャネル４２４が、パーソナル化されたオーディオ・プログラムのパーソナル化された変形を提供するために使われてもよい。

スピーカー・チャネルのベッド４２１はスピーカー・チャネル・フレームのシーケンスを含んでいてもよく、オブジェクト・ベース・オーディオ・プログラムの第一のオーディオ・プログラム・フレームはスピーカー・チャネル・フレームのシーケンスの第一のスピーカー・チャネル・フレームを含んでいてもよい。方法６００はさらに、前記第一のスピーカー・チャネル・フレームを、第一のコンテナ５０１の前記複数のサブストリーム・エンティティ５２０のうちのスピーカー・チャネル・サブストリーム・エンティティ５２０に挿入することを含んでいてもよい。その場合、呈示セクション５１０の呈示４０１は、そのスピーカー・チャネル・サブストリーム・エンティティ５２０を含むまたは示すのでよい。代替的または追加的に、呈示４０１は、オブジェクト・チャネル・サブストリーム・エンティティの集合からの一つまたは複数のオブジェクト・チャネル・サブストリーム・エンティティ５２０を含んでいてもよく、あるいは示してもよい。

方法６００はさらに、スピーカー・チャネルのベッド４２１についてのスピーカー関係メタデータ４３１、４４１を提供することを含んでいてもよい。スピーカー関係メタデータ４３１、４４１は、スピーカー関係メタデータ・フレームのシーケンスを含んでいてもよい。スピーカー関係メタデータ・フレームのシーケンスからの第一のスピーカー関係メタデータ・フレームが、スピーカー・チャネル・サブストリーム・エンティティ５２０に挿入されてもよい。スピーカー・チャネルの複数のベッド４２１が、対応する複数のスピーカー・チャネル・サブストリーム・エンティティ５２０に挿入されてもよいことを注意しておくべきである。

図４のコンテキストにおいて概説されたように、呈示データは、異なるパーソナル化されたオーディオ・プログラムのためのサブストリーム・エンティティ５２０の異なる集合を含む複数の呈示４０１、４０２、４０３を示してもよい。サブストリーム・エンティティ５２０の前記異なる集合は、前記一つまたは複数のスピーカー・チャネル・サブストリーム・エンティティ５２０、前記一つまたは複数のオブジェクト・チャネル・サブストリーム・エンティティ５２０の異なる組み合わせおよび／またはメタデータの変形４３４、４４４（たとえばデフォルト・メタデータ４３４または代替メタデータ４４４）の異なる組み合わせを含んでいてもよい。

呈示セクション５１０内の呈示データは、（たとえばビットストリーム・フォーマットの適切なシンタックス要素を使って）異なる呈示４０１、４０２、４０３についての異なる呈示データ・エンティティ５１２にセグメント分割されてもよい。方法６００はさらに、目次（TOC）データを呈示セクション５１０に挿入することを含んでいてもよい。TOCデータは、呈示セクション５１０内の種々の呈示データ・エンティティ５１２の位置および／または呈示セクション５１０内に含まれる種々の呈示４０１、４０２、４０３についての識別子を示してもよい。よって、TOCデータは、対応するデコーダ７、２０によって、効率的な仕方で種々の呈示４０１、４０２、４０３を同定し、抽出するために使われてもよい。代替的または追加的に、種々の呈示４０１、４０２、４０３についての呈示データ・エンティティ５１２は、呈示セクション５１０内に逐次的に含まれていてもよい。TOCが種々の呈示データ・エンティティ５１２の位置を示さない場合には、対応するデコーダ７、２０は、種々の呈示データ・エンティティ５１２を通じて逐次的にパースしていくことによって種々の呈示４０１、４０２、４０３を同定し、抽出してもよい。これは、種々の呈示４０１、４０２、４０３を信号伝達するためのビットレート効率のよい方法でありうる。

サブストリーム・エンティティ５２０は、オーディオ・コンテンツまたはオーディオ・データ４２４のためのコンテンツ・サブエンティティ５２１と、関係したメタデータ４３４、４４４についてのメタデータ・サブエンティティ５２２とを含んでいてもよい。サブエンティティ５２１、５２２は、ビットストリーム・フォーマットの適切なシンタックス要素によって同定されてもよい。こうすることにより、対応するデコーダ７、２０は、オブジェクト・チャネルの、またはスピーカー・チャネルのベッドのオーディオ・データおよび対応するメタデータを資源効率のよい仕方で同定しうる。

すでに上述したように、対応するチャネル・フレームについてのメタデータ・フレームは、メタデータの複数の異なる変形またはグループ４３４、４４４を含んでいてもよい。呈示４０１は、対応するチャネル・フレームをレンダリングするためにメタデータのどの変形またはグループ４３４が使われるべきかを示してもよい。こうすることにより、オーディオ・プログラムのパーソナル化の度合い（たとえば聴取／閲覧パースペクティブ）を増すことができる。

スピーカー・チャネルのベッド４２１は典型的には、呈示環境の一つまたは複数のスピーカー３６によってそれぞれ呈示されるべき一つまたは複数のスピーカー・チャネルを含む。他方、オブジェクト・チャネル４２４は典型的には、呈示環境のスピーカー３６の組み合わせによって呈示される。オブジェクト・チャネル４２４のオブジェクト関係メタデータ４３４、４４４は、呈示環境内でそこからオブジェクト・チャネル４２４がレンダリングされるべき位置を示してもよい。オブジェクト・チャネル４２４の位置は時間変化してもよい。この結果として、オブジェクト・チャネル４２４をレンダリングするためのスピーカー３６の組み合わせはオブジェクト・チャネル４２４のオブジェクト・チャネル・フレームのシーケンスに沿って変化してもよく、および／またはスピーカーの組み合わせのスピーカー３６のパンがオブジェクト・チャネル４２４のオブジェクト・チャネル・フレームのシーケンスに沿って変化してもよい。

呈示４０１、４０２、４０３はターゲット装置構成についてのターゲット装置構成データを含んでいてもよい。換言すれば、呈示４０１、４０２、４０３は、呈示４０１、４０２、４０３のレンダリングのために使われるターゲット装置構成に依存してもよい。ターゲット装置構成は、スピーカーの数、スピーカーの位置に関して、および／または処理されレンダリングされうるオーディオ・チャネルの数に関して異なっていてもよい。例示的なターゲット装置構成は、左および右のスピーカーをもつ2.0（ステレオ）ターゲット装置構成または5.1ターゲット装置構成などである。ターゲット装置構成は典型的には、図３のコンテキストにおいて記述された空間的レンダリング・サブシステム２４を含む。

よって、呈示４０１、４０２、４０３は、異なるターゲット装置構成について使われるべき異なるオーディオ資源を示していてもよい。ターゲット装置構成データは、特定のターゲット装置構成で呈示４０１をレンダリングするために使われるべき、前記複数のサブストリーム・エンティティ５２０からのサブストリーム・エンティティ５２０の集合および／またはメタデータの変形４３４を示してもよい。特に、ターゲット装置構成データは、複数の異なるターゲット装置構成についてそのような情報を示してもよい。例として、呈示４０１は、種々のターゲット装置構成のためのターゲット装置構成データをもつ種々のセクションを含んでいてもよい。

こうすることにより、対応するデコーダまたはデマルチプレクサは、特定のターゲット装置構成のために使われるべきオーディオ資源（一つまたは複数のサブストリーム４１１、４１２、４１３、４１４、メタデータの一つまたは複数の変形４４１）を効率的に同定しうる。

ビットストリーム・フォーマットは、パーソナル化されたオーディオ・プログラムを定義するためのさらなる（中間的な）層を許容しうる。特に、ビットストリーム・フォーマットは、前記複数のサブストリーム４１１、４１２、４１３、４１４のうちの一つ、二つまたはそれ以上を含むサブストリーム・グループの定義を許容しうる。サブストリーム・グループは、雰囲気コンテンツ、ダイアログおよび／または効果といった種々のオーディオ・コンテンツをグループ化するために使われてもよい。呈示４０１はサブストリーム・グループを示してもよい。換言すれば、呈示４０１は、同時にレンダリングされるべき一つ、二つまたはそれ以上のサブストリームを、前記一つ、二つまたはそれ以上のサブストリームを含むサブストリーム・グループを参照することによって同定してもよい。よって、サブストリーム・グループは、（可能性としては互いに関連付けられている）二つ以上のサブストリームを同定するための効率的な手段を提供する。

呈示セクション５１０は、一つまたは複数の対応するサブストリーム・グループを定義するための一つまたは複数のサブストリーム・グループ・エンティティ（図５には示さず）を含んでいてもよい。サブストリーム・グループ・エンティティは、呈示データ・エンティティ５１２の後にまたは下流に位置されてもよい。サブストリーム・グループ・エンティティは、対応するサブストリーム・グループ内に含まれる一つまたは複数のサブストリーム４１１、４１２、４１３、４１４を示してもよい。対応するサブストリーム・グループを呈示４０１に含めるために、（対応する呈示データ・エンティティ５１２内で定義される）呈示４０１はサブストリーム・グループ・エンティティを示してもよい。デコーダ７、２０は、特定の呈示４０１を同定するために諸呈示データ・エンティティ５１２を通じてパースしてもよい。呈示４０１がサブストリーム・グループまたはサブストリーム・グループ・エンティティを参照する場合、デコーダ７、２０は、呈示セクション５１０のサブストリーム・グループ・エンティティ内に含まれるサブストリーム・グループの定義を同定するために呈示セクション５１０を通じてパースすることを続けてもよい。よって、デコーダ７、２０は、諸呈示データ・エンティティ５１２を通じておよび呈示セクション５１０の諸サブストリーム・グループ・エンティティを通じてパースすることによって、特定の呈示４０１についてのサブストリーム４１１、４１２、４１３、４１４を決定してもよい。

よって、ビットストリーム５００を生成する方法６００は、前記複数のサブストリームのうちの前記一つ、二つまたはそれ以上を同定するためのデータを、呈示セクション５１０のサブストリーム・グループ・エンティティに挿入することを含んでいてもよい。結果として、サブストリーム・グループ・エンティティは、サブストリーム・グループを定義するためのデータを含む。

サブストリーム・グループの定義は、ビットレート削減に鑑み有益でありうる。特に、複数の呈示４０１、４０２、４０３内で合同して使われる複数のサブストリーム４１１、４１２、４１３、４１４がサブストリーム・グループ内にグループ化されてもよい。この結果として、前記複数のサブストリーム４１１、４１２、４１３、４１４は、サブストリーム・グループを参照することによって、呈示４０１、４０２、４０３内で効率的に同定されうる。さらに、サブストリーム・グループの定義は、コンテンツ・デザイナーがサブストリーム４１１、４１２、４１３、４１４の組み合わせをマスターし、サブストリーム４１１、４１２、４１３、４１４のマスターされた組み合わせのためのサブストリーム・グループを定義するための効率的な手段を提供しうる。

よって、オブジェクト・ベース・オーディオ・プログラムを示し、資源効率のよいパーソナル化を許容するビットストリーム５００が記述される。ビットストリーム５００は、オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ５０１のシーケンスを含む。コンテナ５０１のシーケンスの第一のコンテナ５０１は、オブジェクト・ベース・オーディオ・プログラムの第一のオーディオ・プログラム・フレームを含む。前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネルの集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含む。前記オブジェクト・チャネルの集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示してもよい。さらに、前記第一のコンテナ５０１は、オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム４１１、４１２、４１３、４１４についての複数のサブストリーム・エンティティ５２０を含む。前記複数のサブストリーム・エンティティ５２０は、それぞれオブジェクト・チャネル・フレームの前記第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ５２０の集合を含む。前記第一のコンテナ５０１はさらに、呈示データをもつ呈示セクション５１０を含む。ここで、前記呈示データは、オブジェクト・ベース・オーディオ・プログラムの少なくとも一つの呈示４０１を示してもよく、前記少なくとも一つの呈示４０１は、同時に呈示されるべき前記複数のサブストリーム・エンティティ５２０からのサブストリーム・エンティティ５２０の集合を含む。

第一のオーディオ・プログラム・フレームはさらに、スピーカー・チャネルのベッド４２１の第一のスピーカー・チャネル・フレームを含んでいてもよい。ここで、スピーカー・チャネルのベッド４２１は、オーディオ信号の前記集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示す。すると、ビットストリーム５００の前記複数のサブストリーム・エンティティ５２０は前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ５２０を含んでいてもよい。

ビットストリーム５００はデコーダ７、２０によって受領されてもよい。デコーダ７、２０は、ビットストリーム５００からパーソナル化されたオーディオ・プログラムを生成する方法を実行するよう構成されていてもよい。本方法は、呈示セクション５０１から呈示データを抽出することを含んでいてもよい。上記のように、呈示データはパーソナル化されたオーディオ・プログラムのための呈示４０１を示してもよい。さらに、本方法は、パーソナル化されたオーディオ・プログラムを生成および／またはレンダリングするために、呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ５０１のオブジェクト・チャネル・サブストリーム・エンティティ５２０の集合から抽出することを含んでいてもよい。ビットストリームの内容に依存して、本方法はさらに、呈示データに基づいて、第一のコンテナ５０１のスピーカー・チャネル・サブストリーム・エンティティ５２０から第一のスピーカー・チャネル・フレームを抽出することを含んでいてもよい。

本稿に記載される方法およびビットストリームは、一般的なオブジェクト・ベース・オーディオ・プログラムについてのパーソナル化されたオーディオ・プログラムの生成に鑑みて有益である。特に、記載される方法およびビットストリームは、ビットストリームの諸部分が、資源効率のよい仕方ではぎ取られるまたは抽出されることを許容する。例として、ビットストリームの一部のみが転送される必要がある場合、これはメタデータのフル・セットおよび／またはオーディオ・データのフル・セットを転送／処理することなくなされうる。ビットストリームの必要とされる部分のみが処理され、転送される必要がある。デコーダは、ビットストリーム内に含まれるコンテンツを識別するために、ビットストリームの呈示セクション（たとえばTOCデータ）をパースすることが求められるだけであってもよい。さらに、ビットストリームは、さらにパースすることなくプログラムのレンダリングを開始するためにデコーダによって使用されることのできる「デフォルト」呈示（たとえば「標準混合」）を提供してもよい。加えて、デコーダは、特定のパーソナル化されたオーディオ・プログラムをレンダリングするために必要とされるビットストリームの部分をデコードする必要があるだけである。これは、オーディオ・データのサブストリームおよびサブストリーム・エンティティへの適切なクラスタリングによって達成される。オーディオ・プログラムは可能性としては無制限の数のサブストリームおよびサブストリーム・エンティティを含み、それによりビットストリーム・フォーマットに高度な柔軟性を与えてもよい。

本稿で記述される方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてもよい。ある種のコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、たとえば、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体上に記憶されてもよく、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットといったネットワークを介して転送されてもよい。本稿で記述される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および／またはレンダリングするために使われるポータブル電子装置または他の消費者設備である。

本発明の実施形態は、下記の付番実施例（EE: enumerated example）の一つまたは複数に関係してもよい。
〔ＥＥＥ１〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム（５００）を生成する方法（６００）であって、前記ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み；前記コンテナ（５０１）のシーケンスの第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；前記第一のコンテナ（５０１）はさらに呈示セクション（５１０）を含み；当該方法（６００）は、
・オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネル（４２４）の集合を決定する段階（６０１）であって、前記オブジェクト・チャネル（４２４）の集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む、段階と；
・前記オブジェクト・チャネル（４２４）の集合のためのオブジェクト関係メタデータ（４３４、４４４）の集合を提供する段階（６０２）であって、前記オブジェクト関係メタデータ（４３４、４４４）の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含み；前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含む、段階と；
・前記オブジェクト・チャネル・フレームの第一の集合および前記オブジェクト関係メタデータ・フレームの第一の集合を前記第一のコンテナ（５０１）の前記複数のサブストリーム・エンティティ（５２０）のオブジェクト・チャネル・サブストリーム・エンティティ（５２０）のそれぞれの集合に挿入する段階（６０３）と；
・呈示データを前記呈示セクション（５１０）に挿入する段階（６０４）であって、前記呈示データは、少なくとも一つの呈示（４０１）を示し；呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、段階とを含む、
方法。
〔ＥＥＥ２〕
呈示（４０１）が前記オブジェクト・チャネル・サブストリームエンティティの集合からの一つまたは複数のオブジェクト・チャネル・サブストリームエンティティ（５２０）を含む、ＥＥＥ１記載の方法（６００）。
〔ＥＥＥ３〕
前記呈示データが、サブストリーム・エンティティ（５２０）の異なる集合を含む複数の呈示（４０１、４０２、４０３）を示し、前記サブストリーム・エンティティ（５２０）の異なる集合は、前記集合のオブジェクト・チャネル・サブストリームエンティティ（５２０）の異なる組み合わせを含む、ＥＥＥ１または２記載の方法（６００）。
〔ＥＥＥ４〕
前記呈示データが異なる呈示（４０１、４０２、４０３）についての異なる呈示データ・エンティティ（５１２）にセグメント分割される、ＥＥＥ１ないし３のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ５〕
TOCデータと称される目次データを前記呈示セクション（５１０）に挿入する段階をさらに含み、前記TOCデータは、
・前記呈示セクション（５１０）内の前記異なる呈示データ・エンティティ（５１２）の位置；および／または
・前記呈示セクション（５１０）内に含まれる前記異なる呈示データ・エンティティ（５１２）についての識別子を示す、
ＥＥＥ４記載の方法（６００）。
〔ＥＥＥ６〕
サブストリーム・エンティティ（５２０）が、オーディオ・コンテンツ（４２４）についてのコンテンツ・サブエンティティ（５２１）および関係したメタデータについてのメタデータ・サブエンティティ（５２２）を含む、ＥＥＥ１ないし５のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ７〕
・対応するチャネル・フレームについてのメタデータ・フレームがメタデータの複数の異なる変形（４３４、４４４）を含み；
・呈示（４０１）が、メタデータのどの変形（４３４）が前記対応するチャネル・フレームをレンダリングするために使われるべきかを示す、
ＥＥＥ１ないし６のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ８〕
・前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示すスピーカー・チャネルのベッド（４２１）を決定する段階であって、前記スピーカー・チャネルのベッド（４２１）はスピーカー・チャネル・フレームのシーケンスを含み；前記オブジェクト・ベース・オーディオ・プログラムの前記第一のオーディオ・プログラム・フレームは前記スピーカー・チャネルのベッド（４２１）の第一のスピーカー・チャネル・フレームを含む、段階と；
・前記第一のスピーカー・チャネル・フレームを前記第一のコンテナ（５０１）の前記複数のサブストリーム・エンティティ（５２０）のスピーカー・チャネル・サブストリーム・エンティティ（５２０）に挿入する段階とをさらに含む、
ＥＥＥ１ないし７のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ９〕
呈示（４０１）が、前記スピーカー・チャネル・サブストリーム・エンティティ（５２０）をも含む、ＥＥＥ８記載の方法（６００）。
〔ＥＥＥ１０〕
前記スピーカー・チャネルのベッド（４２１）が呈示環境の一つまたは複数のスピーカーによってそれぞれ呈示されるべき一つまたは複数のスピーカー・チャネルを含む、ＥＥＥ８または９記載の方法（６００）。
〔ＥＥＥ１１〕
・当該方法（６００）がさらに、前記スピーカー・チャネルのベッド（４２１）についてのスピーカー関係メタデータ（４３１、４４１）を提供することを含み；
・前記スピーカー関係メタデータ（４３１、４４１）はスピーカー関係メタデータ・フレームのシーケンスを含み；
・前記スピーカー関係メタデータ・フレームのシーケンスからのある第一のスピーカー関係メタデータ・フレームが前記スピーカー・チャネル・サブストリーム・エンティティ（５２０）に挿入される、
ＥＥＥ８ないし１０のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ１２〕
前記スピーカー・チャネルのベッド（４２１）が、2.0チャネル、5.1チャネルおよび／または7.1チャネルのうちの一つまたは複数を含む、ＥＥＥ８ないし１１のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ１３〕
前記オブジェクト・チャネル（４２４）の集合が複数のオブジェクト・チャネル（４２４）を含む、ＥＥＥ１ないし１２のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ１４〕
オブジェクト・チャネル（４２４）が、呈示環境のスピーカー（３６）の組み合わせによって呈示されるものである、ＥＥＥ１ないし１３のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ１５〕
オブジェクト・チャネル（４２４）の前記オブジェクト関係メタデータ（４３４、４４４）が、前記呈示環境内でそこからそのオブジェクト・チャネル（４２４）がレンダリングされるべき位置を示す、ＥＥＥ１４記載の方法（６００）。
〔ＥＥＥ１６〕
・前記オブジェクト・チャネル（４２４）の位置が時間変化する；
・前記オブジェクト・チャネル（４２４）をレンダリングするためのスピーカー（３６）の組み合わせが、前記オブジェクト・チャネル（４２４）の前記オブジェクト・チャネル・フレームのシーケンスに沿って変化する；および／または
・前記スピーカー（３６）の組み合わせのスピーカー（３６）のパンが前記オブジェクト・チャネル（４２４）の前記オブジェクト・チャネル・フレームのシーケンスに沿って変化する、
ＥＥＥ１４または１５記載の方法（６００）。
〔ＥＥＥ１７〕
前記ビットストリーム（５００）がAC-4ビットストリームである、ＥＥＥ１ないし１６のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ１８〕
前記オーディオ信号の集合が捕捉されたオーディオ・コンテンツを示す、ＥＥＥ１ないし１７のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ１９〕
・呈示（４０１）がターゲット装置構成についてのターゲット装置構成データを含み；
・前記ターゲット装置構成データは、前記ターゲット装置構成で前記呈示（４０１）をレンダリングするために使われるべき、前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合および／またはメタデータの変形（４３４）を示す、
ＥＥＥ１ないし１８のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ２０〕
・前記複数のサブストリームの一つ、二つまたは三つ以上がサブストリーム・グループを形成し；
・呈示（４０１）が前記サブストリーム・グループを示す、
ＥＥＥ１ないし１９のうちいずれか一項記載の方法（６００）。
〔ＥＥＥ２１〕
前記複数のサブストリームの前記一つ、二つまたは三つ以上を同定するためのデータを前記呈示セクション（５１０）のサブストリーム・グループ・エンティティに挿入する段階をさらに含み、前記サブストリーム・グループ・エンティティは前記サブストリーム・グループを定義するためのデータを含む、ＥＥＥ２０記載の方法（６００）。
〔ＥＥＥ２２〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム（５００）であって、
・当該ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み；
・前記コンテナ（５０１）のシーケンスのある第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み；
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み；
・前記オブジェクト・チャネル・フレームの第一の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し；
・前記第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；
・前記複数のサブストリーム・エンティティ（５２０）は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合を含み；
・前記第一のコンテナ（５０１）はさらに、呈示データをもつ呈示セクション（５１０）を含み；
・前記呈示データは、前記オブジェクト・ベース・オーディオ・プログラムの少なくとも一つの呈示（４０１）を示し；
・呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、
ビットストリーム。
〔ＥＥＥ２３〕
・前記第一のオーディオ・プログラム・フレームが、スピーカー・チャネルのベッド（４２１）の第一のスピーカー・チャネル・フレームを含み；
・前記スピーカー・チャネルのベッド（４２１）は、前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示し；
・前記複数のサブストリーム・エンティティ（５２０）は、前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ（５２０）を含む、
ＥＥＥ２２記載のビットストリーム。
〔ＥＥＥ２４〕
オブジェクト・ベース・オーディオ・プログラムを含むビットストリーム（５００）からパーソナル化されたオーディオ・プログラムを生成する方法であって、
・前記ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み；
・前記コンテナ（５０１）のシーケンスのある第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み；
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル（４２４）の集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み；
・前記オブジェクト・チャネル（４２４）の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し；
・前記第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；
・前記複数のサブストリーム・エンティティ（５２０）は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合を含み；
・前記第一のコンテナ（５０１）はさらに、呈示セクション（５１０）を含み；
当該方法は、
・前記呈示セクション（５１０）から呈示データを抽出する段階であって、前記呈示データは前記パーソナル化されたオーディオ・プログラムのための呈示（４０１）を示し、前記呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、段階と；
・前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ（５０１）の前記オブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合から抽出する段階とを含む、
方法。
〔ＥＥＥ２５〕
・前記第一のオーディオ・プログラム・フレームが、スピーカー・チャネルのベッド（４２１）の第一のスピーカー・チャネル・フレームを含み；
・前記スピーカー・チャネルのベッド（４２１）は、前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示し；
・前記複数のサブストリーム・エンティティ（５２０）は、前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ（５２０）を含み、
・当該方法がさらに、前記呈示データに基づいて、前記第一のスピーカー・チャネル・フレームを、前記第一のコンテナ（５０１）の前記スピーカー・チャネル・サブストリーム・エンティティ（５２０）から抽出する段階を含む、
ＥＥＥ２４記載の方法。
〔ＥＥＥ２６〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム（５００）を生成するシステム（３）であって、前記ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み；前記コンテナ（５０１）のシーケンスのある第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；前記第一のコンテナ（５０１）はさらに呈示セクション（５１０）を含み；当該システム（３）は、
・オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネル（４２４）の集合を決定する段階であって、前記オブジェクト・チャネル（４２４）の集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む、段階と；
・前記オブジェクト・チャネル（４２４）の集合のためのオブジェクト関係メタデータ（４３４、４４４）の集合を決定する段階であって、前記オブジェクト関係メタデータ（４３４、４４４）の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含み；前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含む、段階と；
・前記オブジェクト・チャネル・フレームの第一の集合および前記オブジェクト関係メタデータ・フレームの第一の集合を、前記第一のコンテナ（５０１）の前記複数のサブストリーム・エンティティ（５２０）のオブジェクト・チャネル・サブストリーム・エンティティ（５２０）のそれぞれの集合に挿入する段階と；
・呈示データを前記呈示セクション（５１０）に挿入する段階であって、前記呈示データは、少なくとも一つの呈示（４０１）を示し；前記少なくとも一つの呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、段階とを実行するよう構成されている、
システム。
〔ＥＥＥ２７〕
オブジェクト・ベース・オーディオ・プログラムを含むビットストリーム（５００）からパーソナル化されたオーディオ・プログラムを生成するシステム（７）であって、
・前記ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み；
・前記コンテナ（５０１）のシーケンスのある第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み；
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル（４２４）の集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み；
・前記オブジェクト・チャネル（４２４）の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し；
・前記第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；
・前記複数のサブストリーム・エンティティ（５２０）は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合を含み；
・前記第一のコンテナ（５０１）はさらに、呈示セクション（５１０）を含み；
当該システム（７）は、
・前記呈示セクション（５１０）から呈示データを抽出する段階であって、前記呈示データは前記パーソナル化されたオーディオ・プログラムのための呈示（４０１）を示し、前記呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、段階と；
・前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ（５０１）の前記オブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合から抽出する段階とを実行するよう構成されている、
システム。

いくつかの態様を記載しておく。
〔態様１〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム（５００）を生成する方法（６００）であって、前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み；前記ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み；前記コンテナ（５０１）のシーケンスのある第一のコンテナ（５０１）は、それぞれ前記複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み；前記第一のコンテナ（５０１）はさらに呈示セクション（５１０）を含み；当該方法（６００）は、
・オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネル（４２４）の集合を決定する段階（６０１）であって、前記オブジェクト・チャネル（４２４）の集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む、段階と；
・前記オブジェクト・チャネル（４２４）の集合のためのオブジェクト関係メタデータ（４３４、４４４）の集合を提供する段階（６０２）であって、前記オブジェクト関係メタデータ（４３４、４４４）の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含み；前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み、オブジェクト・チャネルは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネルの前記オブジェクト関係メタデータはそこからそのオブジェクト・チャネルがレンダリングされるべき前記呈示環境内の位置を示す、段階と；
・前記オブジェクト・チャネル・フレームの第一の集合および前記オブジェクト関係メタデータ・フレームの第一の集合を前記第一のコンテナ（５０１）の前記複数のサブストリーム・エンティティ（５２０）のオブジェクト・チャネル・サブストリーム・エンティティ（５２０）のそれぞれの集合に挿入する段階（６０３）と；
・呈示データを前記呈示セクション（５１０）に挿入する段階（６０４）であって、前記呈示データは、少なくとも一つの呈示（４０１）を示し；呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、段階とを含む、
方法。
〔態様２〕
前記呈示データが異なる呈示（４０１、４０２、４０３）についての異なる呈示データ・エンティティ（５１２）にセグメント分割され、
TOCデータと称される目次データを前記呈示セクション（５１０）に挿入する段階をさらに含み、前記TOCデータは、
・前記呈示セクション（５１０）内の前記異なる呈示データ・エンティティ（５１２）の位置；および／または
・前記呈示セクション（５１０）内に含まれる前記異なる呈示データ・エンティティ（５１２）についての識別子を示す、
態様１記載の方法（６００）。
〔態様３〕
・対応するチャネル・フレームについてのメタデータ・フレームがメタデータの複数の異なる変形（４３４、４４４）を含み；
・呈示（４０１）が、メタデータのどの変形（４３４）が前記対応するチャネル・フレームをレンダリングするために使われるべきかを示す、
態様１または２記載の方法（６００）。
〔態様４〕
・前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示すスピーカー・チャネルのベッド（４２１）を決定する段階であって、前記スピーカー・チャネルのベッド（４２１）はスピーカー・チャネル・フレームのシーケンスを含み；前記オブジェクト・ベース・オーディオ・プログラムの前記第一のオーディオ・プログラム・フレームは前記スピーカー・チャネルのベッド（４２１）の第一のスピーカー・チャネル・フレームを含む、段階と；
・前記第一のスピーカー・チャネル・フレームを前記第一のコンテナ（５０１）の前記複数のサブストリーム・エンティティ（５２０）のスピーカー・チャネル・サブストリーム・エンティティ（５２０）に挿入する段階とをさらに含む、
態様１ないし３のうちいずれか一項記載の方法（６００）。
〔態様５〕
前記スピーカー・チャネルのベッド（４２１）が呈示環境の一つまたは複数のスピーカーによってそれぞれ呈示されるべき一つまたは複数のスピーカー・チャネルを含む、態様４記載の方法（６００）。
〔態様６〕
・当該方法（６００）がさらに、前記スピーカー・チャネルのベッド（４２１）についてのスピーカー関係メタデータ（４３１、４４１）を提供することを含み；
・前記スピーカー関係メタデータ（４３１、４４１）はスピーカー関係メタデータ・フレームのシーケンスを含み；
・前記スピーカー関係メタデータ・フレームのシーケンスからのある第一のスピーカー関係メタデータ・フレームが前記スピーカー・チャネル・サブストリーム・エンティティ（５２０）に挿入される、
態様４または５記載の方法（６００）。
〔態様７〕
・前記オブジェクト・チャネル（４２４）の位置が時間変化する；
・前記オブジェクト・チャネル（４２４）をレンダリングするためのスピーカー（３６）の組み合わせが、前記オブジェクト・チャネル（４２４）の前記オブジェクト・チャネル・フレームのシーケンスに沿って変化する；および／または
・前記スピーカー（３６）の組み合わせのスピーカー（３６）のパンが前記オブジェクト・チャネル（４２４）の前記オブジェクト・チャネル・フレームのシーケンスに沿って変化する、
態様１ないし６のうちいずれか一項記載の方法（６００）。
〔態様８〕
・呈示（４０１）がターゲット装置構成についてのターゲット装置構成データを含み；
・前記ターゲット装置構成データは、前記ターゲット装置構成で前記呈示（４０１）をレンダリングするために使われるべき、前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合および／またはメタデータの変形（４３４）を示す、
態様１ないし７のうちいずれか一項記載の方法（６００）。
〔態様９〕
・前記複数のサブストリームの一つ、二つまたは三つ以上がサブストリーム・グループを形成し；
・呈示（４０１）が前記サブストリーム・グループを示し、
当該方法が、前記複数のサブストリームの前記一つ、二つまたは三つ以上を同定するためのデータを前記呈示セクション（５１０）のサブストリーム・グループ・エンティティに挿入する段階をさらに含み、前記サブストリーム・グループ・エンティティは前記サブストリーム・グループを定義するためのデータを含む、
態様１ないし８のうちいずれか一項記載の方法（６００）。
〔態様１０〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム（５００）であって、
・当該ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み、前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み；
・前記コンテナ（５０１）のシーケンスのある第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み；
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み；
オブジェクト・チャネル・フレームは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネル・フレームの前記オブジェクト関係メタデータ・フレームはそこからそのオブジェクト・チャネル・フレームがレンダリングされるべき前記呈示環境内の位置を示し；
・前記オブジェクト・チャネル・フレームの第一の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し；
・前記第一のコンテナ（５０１）は、それぞれ前記複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み；
・前記複数のサブストリーム・エンティティ（５２０）は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合を含み；
・前記第一のコンテナ（５０１）はさらに、呈示データをもつ呈示セクション（５１０）を含み；
・前記呈示データは、前記オブジェクト・ベース・オーディオ・プログラムの少なくとも一つの呈示（４０１）を示し；
・呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、
ビットストリーム。
〔態様１１〕
・前記第一のオーディオ・プログラム・フレームが、スピーカー・チャネルのベッド（４２１）の第一のスピーカー・チャネル・フレームを含み；
・前記スピーカー・チャネルのベッド（４２１）は、前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示し；
・前記複数のサブストリーム・エンティティ（５２０）は、前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ（５２０）を含む、
態様１０記載のビットストリーム。
〔態様１２〕
オブジェクト・ベース・オーディオ・プログラムを含むビットストリーム（５００）からパーソナル化されたオーディオ・プログラムを生成する方法であって、
・前記ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み、前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み；
・前記コンテナ（５０１）のシーケンスのある第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み；
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル（４２４）の集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み；
オブジェクト・チャネル・フレームは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネル・フレームの前記オブジェクト関係メタデータ・フレームはそこからそのオブジェクト・チャネル・フレームがレンダリングされるべき前記呈示環境内の位置を示し；
・前記オブジェクト・チャネル（４２４）の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し；
・前記第一のコンテナ（５０１）は、それぞれ前記複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み；
・前記複数のサブストリーム・エンティティ（５２０）は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合を含み；
・前記第一のコンテナ（５０１）はさらに、呈示セクション（５１０）を含み；
当該方法は、
・前記呈示セクション（５１０）から呈示データを抽出する段階であって、前記呈示データは前記パーソナル化されたオーディオ・プログラムのための呈示（４０１）を示し、前記呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、段階と；
・前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ（５０１）の前記オブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合から抽出する段階とを含む、
方法。
〔態様１３〕
・前記第一のオーディオ・プログラム・フレームが、スピーカー・チャネルのベッド（４２１）の第一のスピーカー・チャネル・フレームを含み；
・前記スピーカー・チャネルのベッド（４２１）は、前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示し；
・前記複数のサブストリーム・エンティティ（５２０）は、前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ（５２０）を含み、
・当該方法がさらに、前記呈示データに基づいて、前記第一のスピーカー・チャネル・フレームを、前記第一のコンテナ（５０１）の前記スピーカー・チャネル・サブストリーム・エンティティ（５２０）から抽出する段階を含む、
態様１２記載の方法。
〔態様１４〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム（５００）を生成するシステム（３）であって、前記ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み；前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み；前記コンテナ（５０１）のシーケンスのある第一のコンテナ（５０１）は、それぞれ前記複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み；前記第一のコンテナ（５０１）はさらに呈示セクション（５１０）を含み；当該システム（３）は、
・オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネル（４２４）の集合を決定する段階であって、前記オブジェクト・チャネル（４２４）の集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む、段階と；
・前記オブジェクト・チャネル（４２４）の集合のためのオブジェクト関係メタデータ（４３４、４４４）の集合を決定する段階であって、前記オブジェクト関係メタデータ（４３４、４４４）の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含み；前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み、オブジェクト・チャネルは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネルの前記オブジェクト関係メタデータはそこからそのオブジェクト・チャネルがレンダリングされるべき前記呈示環境内の位置を示す、段階と；
・前記オブジェクト・チャネル・フレームの第一の集合および前記オブジェクト関係メタデータ・フレームの第一の集合を、前記第一のコンテナ（５０１）の前記複数のサブストリーム・エンティティ（５２０）のオブジェクト・チャネル・サブストリーム・エンティティ（５２０）のそれぞれの集合に挿入する段階と；
・呈示データを前記呈示セクション（５１０）に挿入する段階であって、前記呈示データは、少なくとも一つの呈示（４０１）を示し；前記少なくとも一つの呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、段階とを実行するよう構成されている、
システム。
〔態様１５〕
オブジェクト・ベース・オーディオ・プログラムを含むビットストリーム（５００）からパーソナル化されたオーディオ・プログラムを生成するシステム（７）であって、前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み；
・前記ビットストリーム（５００）は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ（５０１）のシーケンスを含み；
・前記コンテナ（５０１）のシーケンスのある第一のコンテナ（５０１）は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み；
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル（４２４）の集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み；
オブジェクト・チャネル・フレームは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネル・フレームの前記オブジェクト関係メタデータ・フレームはそこからそのオブジェクト・チャネル・フレームがレンダリングされるべき前記呈示環境内の位置を示し；
・前記オブジェクト・チャネル（４２４）の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し；
・前記第一のコンテナ（５０１）は、それぞれ前記複数のサブストリーム（４１１、４１２、４１３、４１４）についての複数のサブストリーム・エンティティ（５２０）を含み；サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み；
・前記複数のサブストリーム・エンティティ（５２０）は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合を含み；
・前記第一のコンテナ（５０１）はさらに、呈示セクション（５１０）を含み；
当該システム（７）は、
・前記呈示セクション（５１０）から呈示データを抽出する段階であって、前記呈示データは前記パーソナル化されたオーディオ・プログラムのための呈示（４０１）を示し、前記呈示（４０１）は、同時に呈示されるべき前記複数のサブストリーム・エンティティ（５２０）からのサブストリーム・エンティティ（５２０）の集合を含む、段階と；
・前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ（５０１）の前記オブジェクト・チャネル・サブストリーム・エンティティ（５２０）の集合から抽出する段階とを実行するよう構成されている、
システム。

Claims

エンコードされたビットストリームからオーディオ・プログラムをレンダリングする方法であって：
前記エンコードされたビットストリームを受領する段階であって、前記エンコードされたビットストリームは、オーディオ・プログラム・フレームのシーケンスを含み、オーディオ・フレームの前記シーケンスの各オーディオ・フレームは、複数のサブストリームのそれぞれについてのオーディオ・データおよびメタデータを含み、また前記複数のサブストリームからの少なくとも一つのサブストリーム混合を示す呈示データを含む、段階と；
前記エンコードされたビットストリームから前記オーディオ・プログラムの前記呈示データを抽出する段階と；
前記少なくとも一つのサブストリーム混合のうちの一つのサブストリーム混合に対応するメタデータおよびオブジェクト・チャネル・オーディオ・データを決定する段階と；
前記呈示データ、前記オブジェクト・チャネル・オーディオ・データおよび前記メタデータに基づいて、前記オーディオ・プログラムをレンダリングする段階とを含み、
前記メタデータは前記オブジェクト・チャネル・オーディオ・データがレンダリングされるべき呈示環境内の位置を示し；前記オブジェクト・チャネル・オーディオ・データは前記オーディオ・プログラムのオーディオ・コンテンツを示す、
方法。
前記少なくとも一つのサブストリーム混合のうちの前記一つのサブストリーム混合はユーザー・インターフェースを介して選択されたものである、請求項１に記載の方法。
前記オブジェクト・チャネル・オーディオ・データは、前記ユーザー・インターフェースを介してさらに選択されたものである、請求項２に記載の方法。
前記少なくとも一つのサブストリーム混合のうちの前記一つのサブストリーム混合は、前記呈示データに関係する少なくとも一つの規則に基づいて決定されたものである、請求項１に記載の方法。
請求項１に記載の方法をコンピュータに実行させるためのコンピュータ・プログラムが記憶されている非一時的なコンピュータ可読記憶媒体。
エンコードされたビットストリームからオーディオ・プログラムをレンダリングするシステムであって：
前記エンコードされたビットストリームを受領する受領器であって、前記エンコードされたビットストリームは、オーディオ・プログラム・フレームのシーケンスを含み、オーディオ・フレームの前記シーケンスの各オーディオ・フレームは、複数のサブストリームのそれぞれについてのオーディオ・データおよびメタデータを含み、また前記複数のサブストリームからの少なくとも一つのサブストリーム混合を示す呈示データを含む、受領器と；
前記エンコードされたビットストリームから前記オーディオ・プログラムの前記呈示データを抽出する第一の処理器と；
前記少なくとも一つのサブストリーム混合に対応するメタデータおよびオブジェクト・チャネル・オーディオ・データを決定する第二の処理器と；
前記呈示データ、前記オブジェクト・チャネル・オーディオ・データおよび前記メタデータに基づいて、前記オーディオ・プログラムをレンダリングするレンダラーとを含み、
前記メタデータは前記オブジェクト・チャネル・オーディオ・データがレンダリングされるべき呈示環境内の位置を示し；前記オブジェクト・チャネル・オーディオ・データは前記オーディオ・プログラムのオーディオ・コンテンツを示す、
システム。
前記少なくとも一つのサブストリーム混合のうちの前記一つのサブストリーム混合はユーザー・インターフェースを介して選択されたものである、請求項６に記載のシステム。
前記オブジェクト・チャネル・オーディオ・データは、前記ユーザー・インターフェースを介してさらに選択されたものである、請求項７に記載のシステム。
前記少なくとも一つのサブストリーム混合のうちの前記一つのサブストリーム混合は、前記呈示データに関係する少なくとも一つの規則に基づいて決定されたものである、請求項６に記載のシステム。