上記のように、本稿は、一般的なオーディオ・プログラムのためのビットストリームであって、該ビットストリームのデコーダが該ビットストリームから資源効率のよい仕方でパーソナル化されたオーディオ・プログラムを生成できるようにするビットストリームを提供する技術的課題に向けられている。特に、パーソナル化されたオーディオ・プログラムの生成は、比較的低い計算量で実行されるべきである。さらに、一般的なオーディオ・プログラムを含む前記ビットストリームは比較的低いビットレートを示すべきである。
図1は、例示的なオーディオ処理チェーン(オーディオ・データ処理システムとも称される)のブロック図を示している。本システムは図のように結合された以下の要素を含む:捕捉ユニット1,制作ユニット3(これはエンコード・サブシステムを含む)、送達サブシステム5、デコーダ7、オブジェクト処理サブシステム9、コントローラ10およびレンダリング・サブシステム11。図示したシステムに対する諸変形では、これらの要素のうちの一つまたは複数が省略され、あるいは追加的なオーディオ・データ処理ユニットが含められる。典型的には、要素7、9、10および11は再生および/またはデコード・システム(たとえばエンドユーザーのホームシアター・システム)に含まれる。
捕捉ユニット1は典型的には、オーディオ・コンテンツを含むPCM(時間領域)サンプルを生成し、該PCMサンプルを出力するよう構成される。該サンプルは、(たとえばスポーツ・イベントまたは他の観客イベントにおける)マイクロフォンによって捕捉されたオーディオの複数のストリームを示していてもよい。典型的には放送局によって運用される制作ユニット3は、上記PCMサンプルを入力として受け入れ、オーディオ・コンテンツを示すオブジェクト・ベース・オーディオ・プログラムを出力するよう構成される。プログラムは典型的には、オーディオ・コンテンツと、ビットストリームから種々のパーソナル化されたオーディオ・プログラムが導出されることを許容する呈示データとを示すエンコードされた(たとえば圧縮された)オーディオ・ビットストリームである、またはそれを含む。オーディオ・コンテンツを示すエンコードされたビットストリームのデータは本稿では時に「オーディオ・データ」と称される。ユニット3から出力されるオブジェクト・ベース・オーディオ・プログラムは、オーディオ・データの複数のスピーカー・チャネル(スピーカー・チャネルの「ベッド」)、オーディオ・データの複数のオブジェクト・チャネルおよびオブジェクト関係メタデータを示してもよい(すなわち、含んでいてもよい)。オーディオ・プログラムは、種々のパーソナル化されたオーディオ・プログラム(これは種々の経験と称されることもある)を生成するためにスピーカー・チャネルおよび/またはオブジェクト・チャネルの種々の組み合わせを選択するために使われてもよい呈示データを含んでいてもよい。例として、オブジェクト・ベース・オーディオ・プログラムはメイン混合を含んでいてもよく、該メイン混合は、スピーカー・チャネルのベッドを示すオーディオ・コンテンツ、少なくとも一つのユーザー選択可能なオブジェクト・チャネル(および任意的な少なくとも一つの他のオブジェクト・チャネル)を示すオーディオ・コンテンツおよび各オブジェクト・チャネルに関連付けられたオブジェクト関係メタデータを含む。プログラムは、少なくとも一つの他のオブジェクト・チャネル(たとえば少なくとも一つのユーザー選択可能なオブジェクト・チャネル)を示すオーディオ・コンテンツおよび/またはオブジェクト関係メタデータを含む少なくとも一つのサイド混合をも含んでいてもよい。オーディオ・プログラムは、スピーカー・チャネルの一つまたは複数のベッドを示していてもよく、あるいはベッドを示さなくてもよい。たとえば、オーディオ・プログラム(または特定の混合/呈示)は、スピーカー・チャネルの二つ以上のベッド(たとえば、5.1チャネルの中立の群衆ノイズ・ベッド、2.0チャネルのホーム・チーム群衆ノイズ・ベッドおよび2.0のアウェー・チームの群衆ノイズ・ベッド)を示していてもよく、これは少なくとも一つのユーザー選択可能なベッド(これはオブジェクト・チャネル・コンテンツまたは構成のユーザー選択のために用いられるユーザー・インターフェースを使って選択されることができる)およびデフォルト・ベッド(別のベッドのユーザー選択がない場合にこれがレンダリングされる)を含む。デフォルト・ベッドは、再生システムのスピーカー・セットの構成(たとえば初期構成)を示すデータによって決定されてもよく、任意的に、ユーザーは、デフォルト・ベッドの代わりにレンダリングされるべき別のベッドを選択してもよい。
図1の送達サブシステム5は、ユニット3によって生成されたオーディオ・プログラムを記憶するおよび/または送信する(たとえば放送する)よう構成される。デコーダ7は送達サブシステム5によって送達されるオーディオ・プログラムを受け入れ(受領するまたは読む)、該プログラム(またはその一つまたは複数の受け入れられた要素)をデコードする。オブジェクト処理サブシステム9は(デコーダ7から)送達されたオーディオ・プログラムのデコードされたスピーカー・チャネル、オブジェクト・チャネルおよびオブジェクト関係メタデータを受領するよう結合される。サブシステム9は、レンダリング・サブシステム11に、オーディオ・プログラムによって示されるオブジェクト・チャネルの全体集合のうちの選択された部分集合と、対応するオブジェクト関係メタデータとを出力するよう結合され、構成される。サブシステム9は、デコーダ7からのデコードされたスピーカー・チャネルを、典型的には、不変のまま(サブシステム11)に素通しにするよう構成される。
サブシステム9によって実行されるオブジェクト・チャネル選択は、(単数または複数)(コントローラ10からサブシステム9に呈される制御データによって示される)ユーザー選択および/またはサブシステム9が実装するようプログラムされているまたは他の仕方で構成されている(たとえば条件および/または制約を示す)規則によって決定されてもよい。そのような規則は、オーディオ・プログラムのオブジェクト関係メタデータによっておよび/または(たとえばコントローラ10または別の外部源から)サブシステム9に呈される他のデータ(たとえば再生システムのスピーカー・アレイの機能および編成を示すデータ)によっておよび/またはサブシステム9を事前に構成する(たとえばプログラムする)ことによって決定されてもよい。コントローラ10は(コントローラ10によって実装されるユーザー・インターフェースを介して)オブジェクトおよび「ベッド」スピーカー・チャネル・コンテンツの選択可能な「プリセット」混合もしくは呈示のメニューまたはパレットをユーザーに提供してもよい(たとえばタッチスクリーン上に表示してもよい)。選択可能なプリセット混合または呈示は、オーディオ・プログラム内に含まれる呈示データによって、および可能性としてはサブシステム9によって実装される規則(たとえばサブシステム9が実装するよう事前に構成されている規則)によっても、決定されてもよい。ユーザーは、コマンドをコントローラ10に入力することによって(たとえばそのタッチスクリーンを操作することによって)、選択可能な混合/呈示のうちから選択し、応答して、コントローラ10は対応する制御データをサブシステム9に呈する。
図1のレンダリング・サブシステム11は、サブシステム9の出力によって決定されるオーディオ・コンテンツを、再生システムのスピーカー(図示せず)による再生のためにレンダリングするよう構成されている。サブシステム11は、オブジェクト処理サブシステム9によって選択されたオブジェクト・チャネル(たとえばデフォルト・オブジェクトおよび/またはコントローラ10を使うユーザー対話の結果として選択されたユーザー選択されたオブジェクト)によって決定されるオーディオ・コンテンツを、それぞれの選択されたオブジェクトに関連付けられている、サブシステム9から出力されるレンダリング・パラメータ(たとえば空間位置およびレベルのユーザー選択されたおよび/またはデフォルトの値)を使って、利用可能なスピーカー・チャネルにマッピングするよう構成される。レンダリング・パラメータの少なくともいくつかは、サブシステム9から出力されるオブジェクト関係メタデータによって決定されてもよい。レンダリング・システム11はサブシステム9によって素通しにされたスピーカー・チャネルのベッドも受領してもよい。典型的には、サブシステム11は、知的な混合器であり、利用可能なスピーカーのためのスピーカー・フィードを決定するよう構成されている。これは一つまたは複数の選択された(たとえばデフォルトで選択されている)オブジェクトをいくつかの個別のスピーカー・チャネルのそれぞれにマッピングし、それらのオブジェクトをプログラムのスピーカー・チャネル・ベッドのそれぞれの対応するスピーカー・チャネルによって示される「ベッド」オーディオ・コンテンツと混合することによることを含む。
図2は、放送のためにオブジェクト・ベース・オーディオ・プログラム(および対応するビデオ・プログラム)を生成するよう構成された放送システムのブロック図である。図2のシステムのマイクロフォン100、101、102、103を含むX個のマイクロフォン(Xは0、1または2より大きな整数)の集合が、オーディオ・プログラムに含められるべきオーディオ・コンテンツを捕捉するよう位置されており、それらの出力がオーディオ・コンソール104の入力に結合されている。オーディオ・プログラムは、観客イベント(たとえばサッカーまたはラグビー試合、自動車またはオートバイ・レースまたは別のスポーツ・イベント)内でのまたは観客イベントにおける雰囲気および/または観客イベントについてのコメンタリーを示す対話的オーディオ・コンテンツを含んでいてもよい。オーディオ・プログラムは、(ユーザー選択可能な諸オブジェクトまたは諸オブジェクト集合および典型的にはユーザーによるオブジェクト選択がないときにレンダリングされるオブジェクトのデフォルト集合も含む)複数のオーディオ・オブジェクトと、オーディオ・プログラムのスピーカー・チャネルの混合(または「ベッド」)とを含んでいてもよい。スピーカー・チャネルのベッドは、オブジェクト・チャネルを含まない通常の放送プログラムに含まれてもよい型のスピーカー・チャネルの通常の混合(たとえば5.1チャネル混合)であってもよい。
マイクロフォン(たとえばマイクロフォン100および101、また任意的にはその出力がオーディオ・コンソール104に結合されている他のマイクロフォン)の部分集合は、動作においては、(スピーカー・チャネルのベッドとしてエンコードされ、送達されるべき)オーディオを捕捉する通常のマイクロフォン・アレイであってもよい。動作において、マイクロフォン(たとえばマイクロフォン102および103、また任意的にはその出力がオーディオ・コンソール104に結合されている他のマイクロフォン)の別の部分集合は、プログラムのオブジェクト・チャネルとしてエンコードされ、送達されるべきオーディオ(たとえば群衆ノイズおよび/または他の「オブジェクト」)を捕捉する。たとえば、図2のシステムのマイクロフォン・アレイは、音場マイクロフォンとして実装され、スタジアムに恒久的に設定されている少なくとも一つのマイクロフォン(たとえばマイクロフォン100);一方のチーム(たとえばホーム・チーム)をサポートする観客の位置に向けられた少なくとも一つのステレオ・マイクロフォン(たとえば、Sennheiser MKH416マイクロフォンまたは他のステレオ・マイクロフォンとして実装されたマイクロフォン102)および他方のチーム(たとえば遠征チーム)をサポートする観客の位置に向けられた少なくとも一つの他のステレオ・マイクロフォン(たとえば、Sennheiser MKH416マイクロフォンまたは他のステレオ・マイクロフォンとして実装されたマイクロフォン103)を含んでいてもよい。
図2の放送システムは、スタジアム(または他のイベント位置)の外部に位置する可動ユニット(これはトラック(truck)であってもよく、時に「試合トラック」と称される)を含んでいてもよい。この可動ユニットは、スタジアム(または他のイベント位置)内のマイクロフォンからのオーディオ・フィードの最初の受領者である。試合トラックは、(放送されるべき)オブジェクト・ベース・オーディオ・プログラムを生成する。これは、送達のためのマイクロフォンからのオーディオ・コンテンツをオーディオ・プログラムのオブジェクト・チャネルとしてエンコードし、対応するオブジェクト関係メタデータ(たとえば、各オブジェクトがレンダリングされるべき空間位置を示すメタデータ)を生成し、そのようなメタデータをオーディオ・プログラム中に含めること、および/または送達のためのいくつかのマイクロフォンからのオーディオ・コンテンツをオーディオ・プログラムのスピーカー・チャネルのベッドとしてエンコードすることによることを含む。
たとえば、図2のシステムでは、コンソール104、オブジェクト処理サブシステム106(コンソール104の出力に結合されている)、埋め込みサブシステム108および寄与エンコーダ110が試合トラック内に設置されてもよい。サブシステム106において生成されるオブジェクト・ベース・オーディオ・プログラムは、(たとえばサブシステム108内で)(たとえばスタジアム内に位置されるカメラからの)ビデオ・コンテンツと組み合わされて、組み合わされたオーディオおよびビデオ信号を生成してもよい。該組み合わされた信号がその後(たとえばエンコーダ110によって)エンコードされて、それにより(たとえば図1の送達サブシステム5による)放送のためのエンコードされたオーディオ/ビデオ信号を生成する。そのようなエンコードされたオーディオ/ビデオ信号をデコードおよびレンダリングする再生システムが、送達されるオーディオ/ビデオ信号のオーディオ・コンテンツおよびビデオ・コンテンツをパースするためのサブシステム(個別には図示せず)と、オーディオ・コンテンツをデコードおよびレンダリングするためのサブシステムと、ビデオ・コンテンツをデコードおよびレンダリングするためのもう一つのサブシステム(個別には図示せず)とを含むことになることを理解しておくべきである。
コンソール104のオーディオ出力は、たとえばスポーツ・イベントにおいて捕捉された音を示す5.1スピーカー・チャネル・ベッド(図2では「5.1中立」とラベル付けされている)と、たとえばイベントに臨場するホーム・チームのファンからの群衆ノイズを示すステレオ・オブジェクト・チャネルのオーディオ・コンテンツ(「2.0ホーム」とラベル付けされている)と、たとえばイベントに臨場する遠征チームのファンからの群衆ノイズを示すステレオ・オブジェクト・チャネルのオーディオ・コンテンツ(「2.0アウェー」とラベル付けされている)と、たとえばホーム・チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル・オーディオ・コンテンツ(「1.0cmm1」とラベル付けされている)と、たとえば遠征チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル・オーディオ・コンテンツ(「1.0cmm2」とラベル付けされている)と、たとえばスポーツ・イベント参加者によってボールが打たれる際の試合ボールによって生成される音を示すオブジェクト・チャネル・オーディオ・コンテンツ(「1.0ボールキック」とラベル付けされている)とを含んでいてもよい。
オブジェクト処理サブシステム106は、コンソール104からのオーディオ・ストリームをオブジェクト・チャネルに(たとえば、「2.0アウェー」とラベル付けされた左右のオーディオ・ストリームを遠征群衆ノイズ・オブジェクト・チャネルにグループ化)および/またはオブジェクト・チャネルの諸セットに編成(たとえばグループ化)し、それらのオブジェクト・チャネル(および/またはオブジェクト・チャネル・セット)を示すオブジェクト関係メタデータを生成し、それらのオブジェクト・チャネル(および/またはオブジェクト・チャネル・セット)、オブジェクト関係メタデータおよびスピーカー・チャネル・ベッド(コンソール104からのオーディオ・ストリームから決定される)をオブジェクト・ベース・オーディオ・プログラム(たとえば、AC-4ビットストリームとしてエンコードされたオブジェクト・ベース・オーディオ・プログラム)としてエンコードするよう構成される。あるいはまた、エンコーダ110は、オブジェクト・ベース・オーディオ・プログラムを生成するよう構成されていてもよく、それがたとえばAC-4ビットストリームとしてエンコードされてもよい。そのような場合、オブジェクト処理サブシステム106は(たとえばドルビーE+フォーマットを使って)オーディオ・コンテンツを生成することに焦点を当ててもよく、一方、エンコーダ110は送出または頒布のためのビットストリームを生成することに焦点を当ててもよい。
サブシステム106はさらに、スピーカー・チャネル・ベッドおよびオブジェクト・チャネル(および/またはオブジェクト・チャネル・セット)の少なくとも選択された部分集合をレンダリング(そしてスタジオ・モニタ・スピーカーのセットで再生)する(これはオブジェクト関係メタデータを使って、選択されたオブジェクト・チャネル(単数または複数)およびスピーカー・チャネルを示す混合/呈示を生成することによることを含む)よう構成されてもよく、それにより再生される音はコンソール104およびサブシステム106の操作者(単数または複数)によってモニタリングされることができる(図2の「モニター経路」によって示されるように)。
サブシステム104の出力とサブシステム106の入力との間のインターフェースは、マルチチャネル・オーディオ・デジタル・インターフェース(MADI)であってもよい。
動作では、図2のシステムのサブシステム108は、サブシステム106において生成されたオブジェクト・ベース・オーディオ・プログラムを(たとえばスタジアム内に位置されたカメラからの)ビデオ・コンテンツと組み合わせて、組み合わされたオーディオおよびビデオ信号を生成し、それがエンコーダ110に呈される。サブシステム108の出力とサブシステム110の入力との間のインターフェースは、高精細度シリアル・デジタル・インターフェース(HD-SDI)であってもよい。動作では、エンコーダ110はサブシステム108の出力をエンコードし、それにより(たとえば図1の送達サブシステム5による)放送のためのエンコードされたオーディオ/ビデオ信号を生成する。
放送施設(たとえば図2のシステムのサブシステム106、108および110)は、オブジェクト・ベース・オーディオ・プログラムの要素の種々の呈示を生成するよう構成されていてもよい。そのような呈示の例は、5.1の平坦化された混合、国際混合および国内混合を含む。たとえば、すべての呈示は、スピーカー・チャネルの共通ベッドを含んでいてもよいが、呈示のオブジェクト・チャネル(および/または呈示によって決定される選択可能なオブジェクト・チャネルおよび/またはオブジェクト・チャネルをレンダリングおよび混合するための選択可能もしくは選択可能でないレンダリング・パラメータのメニュー)は呈示によって異なっていてもよい。
オーディオ・プログラムのオブジェクト関係メタデータ(またはオーディオ・プログラムと一緒に送達されるメタデータによって指示されるのでない、再生またはレンダリング・システムの事前構成設定)は、オブジェクトおよびベッド(スピーカー・チャネル)コンテンツの選択可能な混合/呈示に対する制約条件または条件を与えてもよい。たとえば、DRM階層が実装されて、ユーザーがオブジェクト・ベース・オーディオ・プログラムに含まれる一組のオーディオ・チャネルへの階層的な(tiered)アクセスをもつことを許容してもよい。ユーザーがより多くの金額を(たとえば放送局に)支払うなら、ユーザーは当該オーディオ・プログラムのより多くのオブジェクト・チャネルをデコードし、選択し、レンダリングすることを許諾されうる。
図3は、デコーダ20、オブジェクト処理サブシステム22、空間的レンダリング・サブシステム24、コントローラ23(これがユーザー・インターフェースを実装する)および任意的にはデジタル・オーディオ処理サブシステム25、26および27を図のように結合されて含む例示的な再生システムのブロック図である。いくつかの実装では、図3のシステムの要素20、22、24、25、26、27、29、31および33はセットトップデバイスとして実装される。
図3のシステムでは、デコーダ20は、オブジェクト・ベース・オーディオ・プログラムを示すエンコードされた信号を受領し、デコードするよう構成される。オーディオ・プログラムは、たとえば二つのスピーカー・チャネル(すなわち、少なくとも二つのスピーカー・チャネルの「ベッド」)を含むオーディオ・コンテンツを示す。オーディオ・プログラムは、少なくとも一つのユーザー選択可能なオブジェクト・チャネル(および任意的には少なくとも一つの他のオブジェクト・チャネル)および各オブジェクト・チャネルに対応するオブジェクト関係メタデータをも示す。各オブジェクト・チャネルは、オーディオ・オブジェクトを示し、よって、オブジェクト・チャネルは本稿では時に便宜上「オブジェクト」と称される。オーディオ・プログラムは、オーディオ・オブジェクト、オブジェクト関係メタデータおよび/またはスピーカー・チャネルのベッドを示すAC-4ビットストリーム内に含まれていてもよい。典型的には、個々のオーディオ・オブジェクトはモノまたはステレオ符号化され(すなわち、各オブジェクト・チャネルはオブジェクトの左または右チャネルを示すまたはオブジェクトを示すモノフォニック・チャネルである)、ベッドは伝統的な5.1混合であってもよく、デコーダ20は同時にオーディオ・コンテンツの(たとえばベッドの六つのスピーカー・チャネルおよびたとえば10個以上のオブジェクト・チャネルを含む)所定数(たとえば16個以上)のチャネルのオーディオ・コンテンツをデコードするよう構成されていてもよい。はいってくるビットストリームはある数の(たとえば10個より多い)オーディオ・オブジェクトを示してもよく、特定の混合/呈示を達成するためにはそのすべてがデコードされる必要がないことがありうる。
上記のように、オーディオ・プログラムは一つまたは複数のオブジェクト・チャネルのほかにスピーカー・チャネルの0個、一つまたは複数のベッドを含んでいてもよい。スピーカー・チャネルのベッドおよび/またはオブジェクト・チャネルは、オーディオ・プログラムを含むビットストリームのサブストリームを形成してもよい。よって、ビットストリームは複数のサブストリームを含んでいてもよい。ここで、サブストリームは、スピーカー・チャネルのベッドまたは一つまたは複数のオブジェクト・チャネルを示す。さらに、ビットストリームは呈示データ(たとえば、ビットストリームの呈示セクション内に含まれる)を含んでいてもよい。ここで、呈示データは、一つまたは複数の異なる呈示を示してもよい。呈示は、サブストリームの特定の混合を定義してもよい。換言すれば、呈示は、パーソナル化されたオーディオ・プログラムを提供するために一緒に混合されるべきスピーカー・チャネルのベッドおよび/または一つまたは複数のオブジェクト・チャネルを定義してもよい。
図4は、複数のサブストリーム411、412、413、414を示している。各サブストリーム411、412、413、414はオーディオ・データ421、424を含む。ここで、オーディオ・データ421、424はスピーカー・チャネルのベッドに、またはオーディオ・オブジェクトのオーディオ・データに(すなわちオーディオ・チャネルに)対応してもよい。例として、サブストリーム411はスピーカー・チャネルのベッド421を含んでいてもよく、サブストリーム414はオブジェクト・チャネル424を含んでいてもよい。さらに、各サブストリーム411、412、413、414は、オーディオ・データ421、424に関連付けられており、関連付けられたオーディオ・データ421、424をレンダリングするために使用されうるメタデータ431、434(たとえばデフォルト・メタデータ)を含んでいてもよい。例として、サブストリーム411は(スピーカー・チャネル421のベッドのための)スピーカー関係メタデータを含んでいてもよく、サブストリーム414は(オブジェクト・チャネル424のための)オブジェクト関係メタデータを含んでいてもよい。加えて、サブストリーム411、412、413、414は、関連付けられたオーディオ・データ421、424をレンダリングする一つまたは複数の代替的な仕方を提供するために、代替的なメタデータ441、444を含んでいてもよい。
さらに、図4は、異なる呈示401、402、403を示している。呈示401は、呈示401のために使用されるべきサブストリーム411、412、413、414のセレクションを示し、それによりパーソナル化されたオーディオ・プログラムを定義する。さらに、呈示401は、呈示401のために選択されたサブストリーム411について使用されるべきメタデータ431、441(たとえばデフォルト・メタデータ431または代替的なメタデータ441のうちの一つ)を示してもよい。図示した例では、呈示401は、サブストリーム411、412、414を含むパーソナル化されたオーディオ・プログラムを記述する。
よって、呈示401、402、403の使用は、一般的なオブジェクト・ベース・オーディオ・プログラム内で種々のパーソナル化されたオーディオ・プログラムを信号伝達する効率的な手段を提供する。特に、呈示401、402、403は、デコーダ7、20が、一般的なオブジェクト・ベース・オーディオ・プログラムの完全なビットストリームをデコードする必要なしに、ある特定の呈示401のために必要とされる前記一つまたは複数のサブストリーム411、412、413、414を簡単に選択できるようなものであってもよい。たとえば、再マルチプレクサ(re-multiplexer)(図3には示さず)が、特定の呈示401のパーソナル化されたオーディオ・プログラムのための新たなビットストリームを生成するために、完全なビットストリームから前記一つまたは複数のサブストリーム411、412、413、414を簡単に抽出するよう構成されていてもよい。換言すれば、比較的多数の呈示401、402、403をもつビットストリームから、減少した数の呈示を担持する新たなビットストリームが効率的に生成されてもよい。可能なシナリオは、STBに到達する比較的多数の呈示をもつ比較的大きなビットストリームである。該STBはパーソナル化(すなわち、呈示を選択すること)に焦点を当てるようにされていてもよく、(オーディオ・データをデコードすることなく)単一呈示ビットストリームを再パッケージングするよう構成されていてもよい。単一呈示ビットストリーム(およびオーディオ・データ)は次いで適切なリモート・デコーダにおいて、たとえばAVR(オーディオ/ビデオ・レシーバー)内でまたはタブレットPCのようなモバイル家庭装置内で、デコードされてもよい。
デコーダ(たとえば図3のデコーダ20)は、レンダリングのための呈示401を同定するために呈示データをパースしてもよい。さらに、デコーダ200は、呈示データによって示される位置から、呈示401のために必要とされるサブストリーム411、412、414を抽出してもよい。サブストリーム411、412、414(スピーカー・チャネル、オブジェクト・チャネルおよび関連するメタデータ)を抽出したのち、デコーダは、抽出されたサブストリーム411、412、414に対して(たとえばそれのみに対して)必要なデコードがあればそれを実行してもよい。
ビットストリームは、AC-4ビットストリームであってもよく、呈示401、402、403はAC-4呈示であってもよい。これらの呈示は、特定の呈示のために必要とされるビットストリームの諸部分(オーディオ・データ421およびメタデータ431)への簡単なアクセスを可能にする。そのようにして、デコーダまたは受領器システム20は、ビットストリームの他の部分の深くまでパースする必要なしに、ビットストリームの必要とされる部分に簡単にアクセスすることができる。これはたとえば、構造全体を再構築したりまたさらにはビットストリームのサブストリーム411、412、413、414をデコードおよびエンコードしたりする必要なく、ビットストリームの必要とされる部分のみを別の装置に転送する可能性をも可能にする。特に、ビットストリームから導出される低減された構造が抽出されてもよい。
再び図3を参照するに、ユーザーは、レンダリングされるべきオブジェクト(オブジェクト・ベース・オーディオ・プログラムによって示される)を選択するためにコントローラ23を用いてもよい。例として、ユーザーは特定の呈示401を選択してもよい。コントローラ23は、図3のシステムの他の要素と両立するユーザー・インターフェース(たとえばiPad(登録商標)アプリ)を実装するようプログラムされているハンドヘルド処理装置(たとえばiPad(登録商標))であってもよい。ユーザー・インターフェースは、ユーザーに対して、オブジェクトおよび/または「ベッド」スピーカー・チャネル・コンテンツの選択可能な呈示401、402、403(たとえば「プリセット」混合)のメニューまたはパレットを提供(たとえばタッチスクリーン上に表示)してもよい。呈示401、402、403はメニューまたはパレット内でネームタグと一緒に提供されてもよい。選択可能な呈示401、402、403は、ビットストリームの呈示データによって、そして可能性としてはサブシステム22によって実装される規則(たとえばサブシステム22が実装するよう事前に構成されている規則)にもよって決定されうる。ユーザーは、選択可能な呈示のうちから、コントローラ23にコマンドを入力することによって(たとえば、コントローラ23のタッチスクリーンを作動させることにより)選択してもよく、応答して、コントローラ23は対応する制御データをサブシステム22に呈してもよい。
オブジェクト・ベース・オーディオ・プログラムに応答し、かつ選択された呈示401を示すコントローラ23からの制御データに応答して、デコーダ20は、(必要であれば)選択された呈示401のスピーカー・チャネルのベッドのスピーカー・チャネルをデコードし、デコードされたスピーカー・チャネルをサブシステム22に出力する。オブジェクト・ベース・オーディオ・プログラムに応答し、かつ選択された呈示401を示すコントローラ23からの制御データに応答して、デコーダ20は、(必要であれば)選択されたオブジェクト・チャネルをデコードし、選択された(たとえばデコードされた)オブジェクト・チャネル(そのそれぞれは、パルス符号変調されたまたは「PCM」ビットストリームであってもよい)および選択されたオブジェクト・チャネルに対応するオブジェクト関係メタデータを、サブシステム22に出力する。
デコードされたオブジェクト・チャネルによって示されるオブジェクトは典型的には、ユーザー選択可能なオーディオ・オブジェクトであるまたはユーザー選択可能なオーディオ・オブジェクトを含む。たとえば、図3に示されるように、デコーダ20は、5.1スピーカー・チャネル・ベッドと、ホーム・チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル(「コメント1 モノ」)と、遠征チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル(「コメント2 モノ」)と、スポーツ・イベントに臨場するホーム・チームのファンからの群衆ノイズを示すステレオ・オブジェクト・チャネル(「ファン(ホーム)」)と、スポーツ・イベント参加者によってボールが打たれる際の試合ボールによって生成される音を示す左右のオブジェクト・チャネル(「ボール音 ステレオ」)と、特殊効果を示す四つのオブジェクト・チャネル(「効果4x モノ」)とを含んでいてもよい。「コメント1 モノ」、「コメント2 モノ」、「ファン(ホーム)」、「ボール音 ステレオ」および「効果4x モノ」オブジェクト・チャネルの任意のものが呈示401の一部として選択されてよく、選択された一つ一つが(デコーダ20における必要なデコードがあればそれを受けた後に)サブシステム22からレンダリング・サブシステム24に渡される。
サブシステム22は、オーディオ・プログラムによって示されるオブジェクト・チャネルのフル・セットのある選択された部分集合およびオーディオ・プログラムの対応するオブジェクト関係メタデータを出力するよう構成される。オブジェクト選択は、(コントローラ23からサブシステム22に呈される制御データによって示される)ユーザー選択および/またはサブシステム22が実装するようプログラムされているまたは他の仕方で構成されている(たとえば条件および/または制約を示す)規則によって決定されてもよい。そのような規則は、プログラムのオブジェクト関係メタデータによっておよび/または(たとえばコントローラ23または別の外部源から)サブシステム22に呈される他のデータ(再生システムのスピーカー・アレイの機能および編成を示すデータ)によっておよび/またはサブシステム22を事前に構成する(たとえばプログラムする)ことによって決定されてもよい。上記のように、ビットストリームは、オブジェクトおよび「ベッド」スピーカー・チャネル・コンテンツの選択可能な「プリセット」混合(すなわち呈示401、402、403)の集合を提供する呈示データを含んでいてもよい。サブシステム22は、デコーダ20からのデコードされたスピーカー・チャネルを、典型的には不変のまま(サブシステム24に)に通過させ、それに呈されたオブジェクト・チャネルの選択されたものを処理する。
図3の空間的レンダリング・サブシステム24(または少なくとも一つの下流の装置またはシステムと一緒のサブシステム24)は、サブシステム22から出力されるオーディオ・コンテンツを、ユーザーの再生システムのスピーカーによる再生のために、レンダリングするよう構成される。任意的に含まれるデジタル・オーディオ処理サブシステム25、26および27の一つまたは複数がサブシステム24の出力に対する後処理を実装してもよい。
空間的レンダリング・サブシステム24は、選択された各オブジェクトに関連付けられている、サブシステム22から出力されたレンダリング・パラメータ(たとえば空間位置およびレベルのユーザー選択されたおよび/またはデフォルトの値)を使って、オブジェクト処理サブシステム22によって選択されたオーディオ・オブジェクト・チャネルを利用可能なスピーカー・チャネルにマッピングするよう構成される。空間的レンダリング・システム24は、サブシステム22が素通しにしたデコードされたスピーカー・チャネルのベッドをも受領する。典型的には、サブシステム24は、知的な混合器であり、いくつかの個別スピーカー・チャネルのそれぞれに一つ、二つまたは三つ以上の選択されたオブジェクト・チャネルをマッピングし、選択されたオブジェクト・チャネル(単数または複数)を、プログラムのスピーカー・チャネル・ベッドの対応する各スピーカー・チャネルによって示される「ベッド」オーディオ・コンテンツと混合することによることを含め、利用可能なスピーカーについてのスピーカー・フィードを決定するよう構成される。
オーディオをレンダリングするために駆動されるスピーカーは、単に(名目上)水平面内ではなく、再生環境中の任意の位置に位置されうる。いくつかのそのような場合において、プログラムに含まれるメタデータは、スピーカーの三次元アレイを使って(三次元体積中の)任意の見かけの空間位置にプログラムの少なくとも一つのオブジェクトをレンダリングするためのレンダリング・パラメータを示す。たとえば、オブジェクト・チャネルは、(該オブジェクト・チャネルによって示される)オブジェクトがレンダリングされるべき見かけの空間位置の三次元的な軌跡を示す対応するメタデータを有していてもよい。軌跡は、「床(floor)」位置(再生環境の床または別の水平面に位置されると想定されるスピーカーの部分集合の平面内)のシーケンスおよび「床上方(above-floor)」位置(それぞれ、再生環境の少なくとも一つの他の水平面内に位置されると想定されるスピーカーの部分集合を駆動することによって決定される)のシーケンスを含んでいてもよい。そのような場合、レンダリングは、本発明によれば、スピーカーが、前記軌跡を含む三次元空間内のオブジェクト位置のシーケンスから発しているものとして知覚される音(関連するオブジェクト・チャネルによって決定される音)が、「ベッド」オーディオ・コンテンツによって決定される音と混合されたものを発するよう駆動されることができるように実行されることができる。サブシステム24は、そのようなレンダリングまたはそのステップを実装するよう構成されていてもよく、レンダリングの残りのステップは下流のシステムまたは装置(たとえば図3のレンダリング・サブシステム35)によって実行されてもよい。
任意的に、デジタル・オーディオ処理(DAP)段(たとえば、いくつかのあらかじめ決定された出力スピーカー・チャネル構成のそれぞれについて一つ)が、空間的レンダリング・サブシステムの出力に対して後処理を実行するよう、空間的レンダリング・サブシステム24の出力に結合される。そのような処理の例は、知的な等化または(ステレオ出力の場合)スピーカー仮想化処理を含む。
図3のシステムの出力(たとえば、空間的レンダリング・サブシステムまたは空間的レンダリング段に続くDAP段の出力)はPCMビットストリームであってもよい(これが利用可能なスピーカーについてのスピーカー・フィードを決定する)。たとえば、ユーザーの再生システムがスピーカーの7.1アレイを含む場合、システムは、そのようなアレイのスピーカーについてのスピーカー・フィードを決定するPCMビットストリーム(サブシステム24において生成される)またはそのようなビットストリームの後処理されたバージョン(DAP 25において生成される)を出力してもよい。もう一つの例として、ユーザーの再生システムがスピーカーの5.1アレイを含む場合、システムは、そのようなアレイのスピーカーについてのスピーカー・フィードを決定するPCMビットストリーム(サブシステム24において生成される)またはそのようなビットストリームの後処理されたバージョン(DAP 26において生成される)を出力してもよい。もう一つの例として、ユーザーの再生システムが左および右のスピーカーを含むだけである場合、システムは、該左右のスピーカーについてのスピーカー・フィードを決定するPCMビットストリーム(サブシステム24において生成される)またはそのようなビットストリームの後処理されたバージョン(DAP 27において生成される)を出力してもよい。
図3のシステムは、任意的に、再エンコード・サブシステム31および33の一方または両方をも含む。再エンコード・サブシステム31は、エンコードされたビットストリーム(たとえばAC-4またはAC-3ビットストリーム)としてDAP 25から出力される(7.1スピーカー・アレイのためのフィードを示す)PCMビットストリームを再エンコードするよう構成されており、結果として得られるエンコードされた(圧縮された)AC-3ビットストリームがシステムから出力されてもよい。再エンコード・サブシステム33は、エンコードされたビットストリーム(たとえばAC-4またはAC-3ビットストリーム)としてDAP 27から出力される(5.1スピーカー・アレイのためのフィードを示す)PCMビットストリームを再エンコードするよう構成されており、結果として得られるエンコードされた(圧縮された)ビットストリームがシステムから出力されてもよい。
図3のシステムは、任意的に、再エンコード(またはフォーマット)サブシステム29およびサブシステム29の出力を受領するよう結合された下流のレンダリング・サブシステム35をも含む。サブシステム29は、選択されたオーディオ・オブジェクト(またはオーディオ・オブジェクトのデフォルト混合)、対応するオブジェクト関係メタデータおよびスピーカー・チャネルのベッドを示す(サブシステム22から出力される)データを受領するよう結合され、そのようなデータをサブシステム35によるレンダリングのために再エンコードする(および/またはフォーマットする)よう構成されている。サブシステム35は、AVRまたはサウンドバー(またはサブシステム29から下流の他のシステムまたは装置)において実装されてもよく、サブシステム29の出力に応答して、利用可能な再生スピーカー(スピーカー・アレイ36)のためのスピーカー・フィード(またはスピーカー・フィードを決定するビットストリーム)を生成するよう構成される。たとえば、サブシステム29は、選択された(またはデフォルトの)オーディオ・オブジェクト、対応するメタデータおよびスピーカー・チャネルのベッドを示す前記データをサブシステム35におけるレンダリングのための好適なフォーマットに再エンコードすることによって、エンコードされたオーディオを生成し、該エンコードされたオーディオを(たとえばHDMI(登録商標)リンクを介して)サブシステム35に伝送するよう構成されていてもよい。サブシステム35によって生成される(またはその出力によって決定される)スピーカー・フィードに応答して、利用可能なスピーカー36は、スピーカー・チャネル・ベッドおよび選択された(またはデフォルトの)オブジェクト(単数または複数)の、サブシステム29の出力のオブジェクト関係メタデータによって決定される見かけの源位置をもつオブジェクト(単数または複数)との混合を示す音を発する。サブシステム29および35が含まれるとき、レンダリング・サブシステム24は任意的に、システムから省略される。
上記のように、呈示データの使用は、デコーダ20が、特定の呈示401のために必要とされる一つまたは複数のサブストリーム411、412、413、414を効率的に選択できるようにするので、有益である。これに鑑み、デコーダ20は、特定の呈示401の一つまたは複数のサブストリーム411、412、413、414を抽出し、特定の呈示401の一つまたは複数のサブストリーム411、412、413、414を(典型的にはこれのみを)含む新たなビットストリームを再構築するよう構成されていてもよい。この抽出および新たなビットストリームの再構築は、前記一つまたは複数のサブストリーム411、412、413、414を実際にデコードして再エンコードする必要なしに実行されうる。よって、特定の呈示401についての新たなビットストリームの生成は、資源効率のよい仕方で実行されうる。
図3のシステムは、レンダリングの一部(すなわち少なくとも一つのステップ)(たとえば、図3のシステムのサブシステム22およびコントローラ23によって実行されるような、レンダリングされるべきオーディオ・オブジェクトの選択および各選択されたオブジェクトのレンダリングの特性の選択)が第一のサブシステム(たとえば、セットトップ装置またはセットトップ装置およびハンドヘルド・コントローラにおいて実装される図3の要素20、22および23)において実装され、レンダリングの別の部分(たとえば、スピーカー・フィードまたはスピーカー・フィードを決定する信号が第一のサブシステムの出力に応答して生成される没入的レンダリング)が第二のサブシステム(たとえば、AVRまたはサウンドバーにおいて実装されるサブシステム35)において実装される、オブジェクト・ベース・オーディオをレンダリングするための分散式システムであってもよい。オーディオ・レンダリングの諸部分(およびレンダリングされるオーディオに対応するビデオの任意の処理)が実行される異なる時刻および異なるサブシステムを考慮に入れるためにレイテンシー管理が実装されてもよい。
図5に示されるように、一般的なオーディオ・プログラムは、コンテナ501のシーケンスを含むビットストリーム500において転送されてもよい。各コンテナ501はオーディオ・プログラムの特定のフレームについてのオーディオ・プログラムのデータを含んでいてもよい。オーディオ・プログラムの特定のフレームはオーディオ・プログラムの特定の時間的セグメント(たとえばオーディオ・プログラムのうちの20ミリ秒)に対応してもよい。よって、コンテナ501のシーケンスの各コンテナ501は、一般的なオーディオ・プログラムのフレームのシーケンスのあるフレームについてのデータを担持してもよい。フレームについてのデータは、コンテナ501のフレーム・エンティティ502内に含まれてもよい。フレーム・エンティティはビットストリーム500のシンタックス要素を使って同定されてもよい。
上記のように、ビットストリーム500は複数のサブストリーム411、412、413、414を担持してもよい。ここで、各サブストリーム411はスピーカー・チャネルのベッド421またはオブジェクト・チャネル424を含む。よって、フレーム・エンティティ502は複数の対応するサブストリーム・エンティティ520を含んでいてもよい。さらに、フレーム・エンティティ502は呈示セクション510(目次(TOC: Table of Content)セクションとも称される)を含んでいてもよい。呈示セクション510は、たとえば呈示セクション510内に含まれるいくつかの呈示401、402、403を示してもよいTOCデータ511を含んでいてもよい。さらに、呈示セクション510は、それぞれ一つまたは複数の呈示401、402、403を定義するためのデータを担持する一つまたは複数の呈示エンティティ512を含んでいてもよい。サブストリーム・エンティティ520は、サブストリーム411のフレームのオーディオ・データ421、424を担持するためのコンテンツ・サブエンティティ521を含んでいてもよい。さらに、サブストリーム・エンティティ520は、サブストリーム411のフレームの対応するメタデータ431、441を担持するためのメタデータ・サブエンティティ522を含んでいてもよい。
図6は、オブジェクト・ベース・オーディオ・プログラム(すなわち一般的なオーディオ・プログラム)を示すビットストリーム500を生成する例示的な方法600のフローチャートを示している。ビットストリーム500は、該ビットストリーム500がオブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ501のシーケンスを含むようなビットストリーム・フォーマットを示す。換言すれば、オブジェクト・ベース・オーディオ・プログラムの各フレーム(すなわち各時間的セグメント)が、ビットストリーム・フォーマットによって定義されうるコンテナのシーケンスのコンテナ中に挿入されてもよい。コンテナは、ビットストリーム・フォーマットの特定のコンテナ・シンタックス要素を使って定義されてもよい。例として、ビットストリーム・フォーマットはAC-4ビットストリーム・フォーマットに対応してもよい。換言すれば、生成されるべきビットストリーム500はAC-4ビットストリームであってもよい。
さらに、ビットストリーム・フォーマットは、コンテナ501のシーケンスの第一のコンテナ501(すなわち、コンテナ501のシーケンスのコンテナ501のうちの少なくとも一つ)が、オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム411、412、413、414についての複数のサブストリーム・エンティティ520を含む。上記で概説したように、オーディオ・プログラムは、複数のサブストリーム411、412、413、414を含んでいてもよく、各サブストリーム411、412、413、414はスピーカー・チャネルのベッド421またはオブジェクト・チャネル424またはその両方を含んでいてもよい。ビットストリーム・フォーマットは、コンテナ501のシーケンスの各コンテナ501が対応するサブストリーム411、412、413、414についての専用のサブストリーム・エンティティ520を提供するようなものであってもよい。特に、各サブストリーム・エンティティ520は対応するサブストリーム411、412、413、414のフレームに関係するデータを含んでいてもよい。サブストリーム411、412、413、414のフレームは、スピーカー・チャネルのベッド421のフレームであってもよく、これはここではスピーカー・チャネル・フレームと称される。あるいはまた、サブストリーム411、412、413、414のフレームはオブジェクト・チャネルのフレームであってもよく、これはここではオブジェクト・チャネル・フレームと称される。サブストリーム・エンティティ520は、ビットストリーム・フォーマットの対応するシンタックス要素によって定義されてもよい。
さらに、前記第一のコンテナ501は呈示セクション510を含んでいてもよい。換言すれば、ビットストリーム・フォーマットは、コンテナ501のシーケンスのコンテナ501のすべてについて(たとえば適切なシンタックス要素を使った)呈示セクション510の定義を許容しうる。呈示セクション510は、(一般的な)オブジェクト・ベース・オーディオ・プログラムから生成されることのできる異なるパーソナル化されたオーディオ・プログラムのための異なる呈示401、402、403を定義するために使用されてもよい。
方法600は、オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネルの集合424を決定すること601を含む。オーディオ信号の集合は捕捉されたオーディオ・コンテンツ、たとえば図2のコンテキストにおいて述べたシステムを使って捕捉されたオーディオ・コンテンツを示していてもよい。オブジェクト・チャネルの集合424は複数のオブジェクト・チャネル424を含んでいてもよい。さらに、オブジェクト・チャネルの集合424はオブジェクト・チャネル・フレームの集合のシーケンスを含む。換言すれば、各オブジェクト・チャネルは、オブジェクト・チャネル・フレームのシーケンスを含む。その結果、オブジェクト・チャネルの集合は、オブジェクト・チャネル・フレームの集合のシーケンスを含み、ある特定の時点におけるオブジェクト・チャネル・フレームの集合はその特定の時点におけるオブジェクト・チャネルの集合のオブジェクト・チャネル・フレームを含む。
さらに、方法600は、オブジェクト・チャネルの集合424のためのオブジェクト関係メタデータ434、444の集合を提供または決定すること602を含む。ここで、オブジェクト関係メタデータ434、444の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含む。換言すれば、あるオブジェクト・チャネルのオブジェクト関係メタデータはオブジェクト関係メタデータ・フレームのシーケンスにセグメント分割される。結果として、オブジェクト・チャネルの対応する集合についてのオブジェクト関係メタデータの集合は、オブジェクト関係メタデータ・フレームの集合のシーケンスを含む。
よって、オブジェクト関係メタデータ・フレームが、対応するオブジェクト・チャネル・フレームについて(たとえば図2のコンテキストにおいて述べたオブジェクト・プロセッサ106を使って)提供されてもよい。上記のように、オブジェクト・チャネル424はオブジェクト関係メタデータ434、444の種々の変形を提供されてもよい。例として、オブジェクト関係メタデータのデフォルト変形434およびオブジェクト関係メタデータの一つまたは複数の代替的な変形444が提供されてもよい。こうすることにより、種々のパースペクティブ(たとえばスタジアム内の種々の位置)がシミュレートされうる。代替的または追加的に、スピーカー・チャネルのベッド421が、スピーカー関係メタデータ431、441の種々の変形を提供されてもよい。例として、スピーカー関係メタデータのデフォルト変形431およびスピーカー関係メタデータの一つまたは複数の代替的な変形441が提供されてもよい。こうすることにより、スピーカー・チャネルのベッド421の種々の回転が定義されうる。オブジェクト関係メタデータと同様に、スピーカー関係メタデータも時間変化してもよい。
よって、オーディオ・プログラムは、オブジェクト・チャネルの集合を有していてもよい。結果として、オブジェクト・ベース・オーディオ・プログラムの第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの集合のシーケンスからのオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの集合のシーケンスからのオブジェクト関係メタデータ・フレームの対応する第一の集合とを含む。
方法600はさらに、オブジェクト・チャネル・フレームの前記第一の集合およびオブジェクト関係メタデータ・フレームの前記第一の集合を前記第一のコンテナ501の前記複数のサブストリーム・エンティティ520のオブジェクト・チャネル・サブストリーム・エンティティ520のそれぞれの集合に挿入すること603を含む。よって、オブジェクト・ベース・オーディオ・プログラムの各オブジェクト・チャネル421について、サブストリーム411、412、413、414が生成されうる。各サブストリーム411、412、413、414は、サブストリーム411、412、413、414を担持するそれぞれのサブストリーム・エンティティ520を介してビットストリーム500内で同定されてもよい。この結果として、完全なビットストリーム500および/またはサブストリーム411、412、413、414をデコードする必要なく、資源効率のよい仕方で、種々のサブストリーム411、412、413、414が、デコーダ7、20によって同定され、可能性としては抽出されうる。
さらに、方法600は、呈示データをビットストリーム500の前記呈示セクション510に挿入すること604を含む。呈示データは、少なくとも一つの呈示401を示してもよく、前記少なくとも一つの呈示401はパーソナル化されたオーディオ・プログラムを定義してもよい。特に、前記少なくとも一つの呈示401は、同時に呈示されるべき前記複数のサブストリーム・エンティティ520からのサブストリーム・エンティティ520の集合を含んでもよく、あるいは示してもよい。よって、呈示401は、オブジェクト・ベース・オーディオ・プログラムのサブストリーム411、412、413、414のうちのどの一つまたは複数が、パーソナル化されたオーディオ・プログラムを生成するために選択されるかを示してもよい。上記で概説したように、呈示401はサブストリーム411、412、413、414の完全な集合の部分集合(すなわち、サブストリーム411、412、413、414の総数より少ない)を同定してもよい。
呈示データの挿入は、対応するデコーダ7、20が、完全なビットストリーム500をデコードまたはパースする必要なしに、パーソナル化されたオーディオ・プログラムを生成するために、ビットストリーム500から一つまたは複数のサブストリーム411、412、413、414を同定し、抽出することを可能にする。
方法600は、オーディオ信号の前記集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示すスピーカー・チャネルのベッド421を決定することを含んでいてもよい。スピーカー・チャネルのベッド421は:2.0チャネル、5.1チャネル、5.1.2チャネル、7.1チャネルおよび/または7.1.4チャネルのうちの一つまたは複数を含んでいてもよい。スピーカー・チャネルのベッド421は、パーソナル化されたオーディオ・プログラムについての基礎を提供するために使われてもよい。加えて、一つまたは複数のオブジェクト・チャネル424が、パーソナル化されたオーディオ・プログラムのパーソナル化された変形を提供するために使われてもよい。
スピーカー・チャネルのベッド421はスピーカー・チャネル・フレームのシーケンスを含んでいてもよく、オブジェクト・ベース・オーディオ・プログラムの第一のオーディオ・プログラム・フレームはスピーカー・チャネル・フレームのシーケンスの第一のスピーカー・チャネル・フレームを含んでいてもよい。方法600はさらに、前記第一のスピーカー・チャネル・フレームを、第一のコンテナ501の前記複数のサブストリーム・エンティティ520のうちのスピーカー・チャネル・サブストリーム・エンティティ520に挿入することを含んでいてもよい。その場合、呈示セクション510の呈示401は、そのスピーカー・チャネル・サブストリーム・エンティティ520を含むまたは示すのでよい。代替的または追加的に、呈示401は、オブジェクト・チャネル・サブストリーム・エンティティの集合からの一つまたは複数のオブジェクト・チャネル・サブストリーム・エンティティ520を含んでいてもよく、あるいは示してもよい。
方法600はさらに、スピーカー・チャネルのベッド421についてのスピーカー関係メタデータ431、441を提供することを含んでいてもよい。スピーカー関係メタデータ431、441は、スピーカー関係メタデータ・フレームのシーケンスを含んでいてもよい。スピーカー関係メタデータ・フレームのシーケンスからの第一のスピーカー関係メタデータ・フレームが、スピーカー・チャネル・サブストリーム・エンティティ520に挿入されてもよい。スピーカー・チャネルの複数のベッド421が、対応する複数のスピーカー・チャネル・サブストリーム・エンティティ520に挿入されてもよいことを注意しておくべきである。
図4のコンテキストにおいて概説されたように、呈示データは、異なるパーソナル化されたオーディオ・プログラムのためのサブストリーム・エンティティ520の異なる集合を含む複数の呈示401、402、403を示してもよい。サブストリーム・エンティティ520の前記異なる集合は、前記一つまたは複数のスピーカー・チャネル・サブストリーム・エンティティ520、前記一つまたは複数のオブジェクト・チャネル・サブストリーム・エンティティ520の異なる組み合わせおよび/またはメタデータの変形434、444(たとえばデフォルト・メタデータ434または代替メタデータ444)の異なる組み合わせを含んでいてもよい。
呈示セクション510内の呈示データは、(たとえばビットストリーム・フォーマットの適切なシンタックス要素を使って)異なる呈示401、402、403についての異なる呈示データ・エンティティ512にセグメント分割されてもよい。方法600はさらに、目次(TOC)データを呈示セクション510に挿入することを含んでいてもよい。TOCデータは、呈示セクション510内の種々の呈示データ・エンティティ512の位置および/または呈示セクション510内に含まれる種々の呈示401、402、403についての識別子を示してもよい。よって、TOCデータは、対応するデコーダ7、20によって、効率的な仕方で種々の呈示401、402、403を同定し、抽出するために使われてもよい。代替的または追加的に、種々の呈示401、402、403についての呈示データ・エンティティ512は、呈示セクション510内に逐次的に含まれていてもよい。TOCが種々の呈示データ・エンティティ512の位置を示さない場合には、対応するデコーダ7、20は、種々の呈示データ・エンティティ512を通じて逐次的にパースしていくことによって種々の呈示401、402、403を同定し、抽出してもよい。これは、種々の呈示401、402、403を信号伝達するためのビットレート効率のよい方法でありうる。
サブストリーム・エンティティ520は、オーディオ・コンテンツまたはオーディオ・データ424のためのコンテンツ・サブエンティティ521と、関係したメタデータ434、444についてのメタデータ・サブエンティティ522とを含んでいてもよい。サブエンティティ521、522は、ビットストリーム・フォーマットの適切なシンタックス要素によって同定されてもよい。こうすることにより、対応するデコーダ7、20は、オブジェクト・チャネルの、またはスピーカー・チャネルのベッドのオーディオ・データおよび対応するメタデータを資源効率のよい仕方で同定しうる。
すでに上述したように、対応するチャネル・フレームについてのメタデータ・フレームは、メタデータの複数の異なる変形またはグループ434、444を含んでいてもよい。呈示401は、対応するチャネル・フレームをレンダリングするためにメタデータのどの変形またはグループ434が使われるべきかを示してもよい。こうすることにより、オーディオ・プログラムのパーソナル化の度合い(たとえば聴取/閲覧パースペクティブ)を増すことができる。
スピーカー・チャネルのベッド421は典型的には、呈示環境の一つまたは複数のスピーカー36によってそれぞれ呈示されるべき一つまたは複数のスピーカー・チャネルを含む。他方、オブジェクト・チャネル424は典型的には、呈示環境のスピーカー36の組み合わせによって呈示される。オブジェクト・チャネル424のオブジェクト関係メタデータ434、444は、呈示環境内でそこからオブジェクト・チャネル424がレンダリングされるべき位置を示してもよい。オブジェクト・チャネル424の位置は時間変化してもよい。この結果として、オブジェクト・チャネル424をレンダリングするためのスピーカー36の組み合わせはオブジェクト・チャネル424のオブジェクト・チャネル・フレームのシーケンスに沿って変化してもよく、および/またはスピーカーの組み合わせのスピーカー36のパンがオブジェクト・チャネル424のオブジェクト・チャネル・フレームのシーケンスに沿って変化してもよい。
呈示401、402、403はターゲット装置構成についてのターゲット装置構成データを含んでいてもよい。換言すれば、呈示401、402、403は、呈示401、402、403のレンダリングのために使われるターゲット装置構成に依存してもよい。ターゲット装置構成は、スピーカーの数、スピーカーの位置に関して、および/または処理されレンダリングされうるオーディオ・チャネルの数に関して異なっていてもよい。例示的なターゲット装置構成は、左および右のスピーカーをもつ2.0(ステレオ)ターゲット装置構成または5.1ターゲット装置構成などである。ターゲット装置構成は典型的には、図3のコンテキストにおいて記述された空間的レンダリング・サブシステム24を含む。
よって、呈示401、402、403は、異なるターゲット装置構成について使われるべき異なるオーディオ資源を示していてもよい。ターゲット装置構成データは、特定のターゲット装置構成で呈示401をレンダリングするために使われるべき、前記複数のサブストリーム・エンティティ520からのサブストリーム・エンティティ520の集合および/またはメタデータの変形434を示してもよい。特に、ターゲット装置構成データは、複数の異なるターゲット装置構成についてそのような情報を示してもよい。例として、呈示401は、種々のターゲット装置構成のためのターゲット装置構成データをもつ種々のセクションを含んでいてもよい。
こうすることにより、対応するデコーダまたはデマルチプレクサは、特定のターゲット装置構成のために使われるべきオーディオ資源(一つまたは複数のサブストリーム411、412、413、414、メタデータの一つまたは複数の変形441)を効率的に同定しうる。
ビットストリーム・フォーマットは、パーソナル化されたオーディオ・プログラムを定義するためのさらなる(中間的な)層を許容しうる。特に、ビットストリーム・フォーマットは、前記複数のサブストリーム411、412、413、414のうちの一つ、二つまたはそれ以上を含むサブストリーム・グループの定義を許容しうる。サブストリーム・グループは、雰囲気コンテンツ、ダイアログおよび/または効果といった種々のオーディオ・コンテンツをグループ化するために使われてもよい。呈示401はサブストリーム・グループを示してもよい。換言すれば、呈示401は、同時にレンダリングされるべき一つ、二つまたはそれ以上のサブストリームを、前記一つ、二つまたはそれ以上のサブストリームを含むサブストリーム・グループを参照することによって同定してもよい。よって、サブストリーム・グループは、(可能性としては互いに関連付けられている)二つ以上のサブストリームを同定するための効率的な手段を提供する。
呈示セクション510は、一つまたは複数の対応するサブストリーム・グループを定義するための一つまたは複数のサブストリーム・グループ・エンティティ(図5には示さず)を含んでいてもよい。サブストリーム・グループ・エンティティは、呈示データ・エンティティ512の後にまたは下流に位置されてもよい。サブストリーム・グループ・エンティティは、対応するサブストリーム・グループ内に含まれる一つまたは複数のサブストリーム411、412、413、414を示してもよい。対応するサブストリーム・グループを呈示401に含めるために、(対応する呈示データ・エンティティ512内で定義される)呈示401はサブストリーム・グループ・エンティティを示してもよい。デコーダ7、20は、特定の呈示401を同定するために諸呈示データ・エンティティ512を通じてパースしてもよい。呈示401がサブストリーム・グループまたはサブストリーム・グループ・エンティティを参照する場合、デコーダ7、20は、呈示セクション510のサブストリーム・グループ・エンティティ内に含まれるサブストリーム・グループの定義を同定するために呈示セクション510を通じてパースすることを続けてもよい。よって、デコーダ7、20は、諸呈示データ・エンティティ512を通じておよび呈示セクション510の諸サブストリーム・グループ・エンティティを通じてパースすることによって、特定の呈示401についてのサブストリーム411、412、413、414を決定してもよい。
よって、ビットストリーム500を生成する方法600は、前記複数のサブストリームのうちの前記一つ、二つまたはそれ以上を同定するためのデータを、呈示セクション510のサブストリーム・グループ・エンティティに挿入することを含んでいてもよい。結果として、サブストリーム・グループ・エンティティは、サブストリーム・グループを定義するためのデータを含む。
サブストリーム・グループの定義は、ビットレート削減に鑑み有益でありうる。特に、複数の呈示401、402、403内で合同して使われる複数のサブストリーム411、412、413、414がサブストリーム・グループ内にグループ化されてもよい。この結果として、前記複数のサブストリーム411、412、413、414は、サブストリーム・グループを参照することによって、呈示401、402、403内で効率的に同定されうる。さらに、サブストリーム・グループの定義は、コンテンツ・デザイナーがサブストリーム411、412、413、414の組み合わせをマスターし、サブストリーム411、412、413、414のマスターされた組み合わせのためのサブストリーム・グループを定義するための効率的な手段を提供しうる。
よって、オブジェクト・ベース・オーディオ・プログラムを示し、資源効率のよいパーソナル化を許容するビットストリーム500が記述される。ビットストリーム500は、オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ501のシーケンスを含む。コンテナ501のシーケンスの第一のコンテナ501は、オブジェクト・ベース・オーディオ・プログラムの第一のオーディオ・プログラム・フレームを含む。前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネルの集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含む。前記オブジェクト・チャネルの集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示してもよい。さらに、前記第一のコンテナ501は、オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム411、412、413、414についての複数のサブストリーム・エンティティ520を含む。前記複数のサブストリーム・エンティティ520は、それぞれオブジェクト・チャネル・フレームの前記第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ520の集合を含む。前記第一のコンテナ501はさらに、呈示データをもつ呈示セクション510を含む。ここで、前記呈示データは、オブジェクト・ベース・オーディオ・プログラムの少なくとも一つの呈示401を示してもよく、前記少なくとも一つの呈示401は、同時に呈示されるべき前記複数のサブストリーム・エンティティ520からのサブストリーム・エンティティ520の集合を含む。
第一のオーディオ・プログラム・フレームはさらに、スピーカー・チャネルのベッド421の第一のスピーカー・チャネル・フレームを含んでいてもよい。ここで、スピーカー・チャネルのベッド421は、オーディオ信号の前記集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示す。すると、ビットストリーム500の前記複数のサブストリーム・エンティティ520は前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ520を含んでいてもよい。
ビットストリーム500はデコーダ7、20によって受領されてもよい。デコーダ7、20は、ビットストリーム500からパーソナル化されたオーディオ・プログラムを生成する方法を実行するよう構成されていてもよい。本方法は、呈示セクション501から呈示データを抽出することを含んでいてもよい。上記のように、呈示データはパーソナル化されたオーディオ・プログラムのための呈示401を示してもよい。さらに、本方法は、パーソナル化されたオーディオ・プログラムを生成および/またはレンダリングするために、呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ501のオブジェクト・チャネル・サブストリーム・エンティティ520の集合から抽出することを含んでいてもよい。ビットストリームの内容に依存して、本方法はさらに、呈示データに基づいて、第一のコンテナ501のスピーカー・チャネル・サブストリーム・エンティティ520から第一のスピーカー・チャネル・フレームを抽出することを含んでいてもよい。
本稿に記載される方法およびビットストリームは、一般的なオブジェクト・ベース・オーディオ・プログラムについてのパーソナル化されたオーディオ・プログラムの生成に鑑みて有益である。特に、記載される方法およびビットストリームは、ビットストリームの諸部分が、資源効率のよい仕方ではぎ取られるまたは抽出されることを許容する。例として、ビットストリームの一部のみが転送される必要がある場合、これはメタデータのフル・セットおよび/またはオーディオ・データのフル・セットを転送/処理することなくなされうる。ビットストリームの必要とされる部分のみが処理され、転送される必要がある。デコーダは、ビットストリーム内に含まれるコンテンツを識別するために、ビットストリームの呈示セクション(たとえばTOCデータ)をパースすることが求められるだけであってもよい。さらに、ビットストリームは、さらにパースすることなくプログラムのレンダリングを開始するためにデコーダによって使用されることのできる「デフォルト」呈示(たとえば「標準混合」)を提供してもよい。加えて、デコーダは、特定のパーソナル化されたオーディオ・プログラムをレンダリングするために必要とされるビットストリームの部分をデコードする必要があるだけである。これは、オーディオ・データのサブストリームおよびサブストリーム・エンティティへの適切なクラスタリングによって達成される。オーディオ・プログラムは可能性としては無制限の数のサブストリームおよびサブストリーム・エンティティを含み、それによりビットストリーム・フォーマットに高度な柔軟性を与えてもよい。
本稿で記述される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、たとえば、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体上に記憶されてもよく、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットといったネットワークを介して転送されてもよい。本稿で記述される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使われるポータブル電子装置または他の消費者設備である。
本発明の実施形態は、下記の付番実施例(EE: enumerated example)の一つまたは複数に関係してもよい。
〔EEE1〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム(500)を生成する方法(600)であって、前記ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み;前記コンテナ(501)のシーケンスの第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;前記第一のコンテナ(501)はさらに呈示セクション(510)を含み;当該方法(600)は、
・オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネル(424)の集合を決定する段階(601)であって、前記オブジェクト・チャネル(424)の集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む、段階と;
・前記オブジェクト・チャネル(424)の集合のためのオブジェクト関係メタデータ(434、444)の集合を提供する段階(602)であって、前記オブジェクト関係メタデータ(434、444)の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含み;前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含む、段階と;
・前記オブジェクト・チャネル・フレームの第一の集合および前記オブジェクト関係メタデータ・フレームの第一の集合を前記第一のコンテナ(501)の前記複数のサブストリーム・エンティティ(520)のオブジェクト・チャネル・サブストリーム・エンティティ(520)のそれぞれの集合に挿入する段階(603)と;
・呈示データを前記呈示セクション(510)に挿入する段階(604)であって、前記呈示データは、少なくとも一つの呈示(401)を示し;呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、段階とを含む、
方法。
〔EEE2〕
呈示(401)が前記オブジェクト・チャネル・サブストリームエンティティの集合からの一つまたは複数のオブジェクト・チャネル・サブストリームエンティティ(520)を含む、EEE1記載の方法(600)。
〔EEE3〕
前記呈示データが、サブストリーム・エンティティ(520)の異なる集合を含む複数の呈示(401、402、403)を示し、前記サブストリーム・エンティティ(520)の異なる集合は、前記集合のオブジェクト・チャネル・サブストリームエンティティ(520)の異なる組み合わせを含む、EEE1または2記載の方法(600)。
〔EEE4〕
前記呈示データが異なる呈示(401、402、403)についての異なる呈示データ・エンティティ(512)にセグメント分割される、EEE1ないし3のうちいずれか一項記載の方法(600)。
〔EEE5〕
TOCデータと称される目次データを前記呈示セクション(510)に挿入する段階をさらに含み、前記TOCデータは、
・前記呈示セクション(510)内の前記異なる呈示データ・エンティティ(512)の位置;および/または
・前記呈示セクション(510)内に含まれる前記異なる呈示データ・エンティティ(512)についての識別子を示す、
EEE4記載の方法(600)。
〔EEE6〕
サブストリーム・エンティティ(520)が、オーディオ・コンテンツ(424)についてのコンテンツ・サブエンティティ(521)および関係したメタデータについてのメタデータ・サブエンティティ(522)を含む、EEE1ないし5のうちいずれか一項記載の方法(600)。
〔EEE7〕
・対応するチャネル・フレームについてのメタデータ・フレームがメタデータの複数の異なる変形(434、444)を含み;
・呈示(401)が、メタデータのどの変形(434)が前記対応するチャネル・フレームをレンダリングするために使われるべきかを示す、
EEE1ないし6のうちいずれか一項記載の方法(600)。
〔EEE8〕
・前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示すスピーカー・チャネルのベッド(421)を決定する段階であって、前記スピーカー・チャネルのベッド(421)はスピーカー・チャネル・フレームのシーケンスを含み;前記オブジェクト・ベース・オーディオ・プログラムの前記第一のオーディオ・プログラム・フレームは前記スピーカー・チャネルのベッド(421)の第一のスピーカー・チャネル・フレームを含む、段階と;
・前記第一のスピーカー・チャネル・フレームを前記第一のコンテナ(501)の前記複数のサブストリーム・エンティティ(520)のスピーカー・チャネル・サブストリーム・エンティティ(520)に挿入する段階とをさらに含む、
EEE1ないし7のうちいずれか一項記載の方法(600)。
〔EEE9〕
呈示(401)が、前記スピーカー・チャネル・サブストリーム・エンティティ(520)をも含む、EEE8記載の方法(600)。
〔EEE10〕
前記スピーカー・チャネルのベッド(421)が呈示環境の一つまたは複数のスピーカーによってそれぞれ呈示されるべき一つまたは複数のスピーカー・チャネルを含む、EEE8または9記載の方法(600)。
〔EEE11〕
・当該方法(600)がさらに、前記スピーカー・チャネルのベッド(421)についてのスピーカー関係メタデータ(431、441)を提供することを含み;
・前記スピーカー関係メタデータ(431、441)はスピーカー関係メタデータ・フレームのシーケンスを含み;
・前記スピーカー関係メタデータ・フレームのシーケンスからのある第一のスピーカー関係メタデータ・フレームが前記スピーカー・チャネル・サブストリーム・エンティティ(520)に挿入される、
EEE8ないし10のうちいずれか一項記載の方法(600)。
〔EEE12〕
前記スピーカー・チャネルのベッド(421)が、2.0チャネル、5.1チャネルおよび/または7.1チャネルのうちの一つまたは複数を含む、EEE8ないし11のうちいずれか一項記載の方法(600)。
〔EEE13〕
前記オブジェクト・チャネル(424)の集合が複数のオブジェクト・チャネル(424)を含む、EEE1ないし12のうちいずれか一項記載の方法(600)。
〔EEE14〕
オブジェクト・チャネル(424)が、呈示環境のスピーカー(36)の組み合わせによって呈示されるものである、EEE1ないし13のうちいずれか一項記載の方法(600)。
〔EEE15〕
オブジェクト・チャネル(424)の前記オブジェクト関係メタデータ(434、444)が、前記呈示環境内でそこからそのオブジェクト・チャネル(424)がレンダリングされるべき位置を示す、EEE14記載の方法(600)。
〔EEE16〕
・前記オブジェクト・チャネル(424)の位置が時間変化する;
・前記オブジェクト・チャネル(424)をレンダリングするためのスピーカー(36)の組み合わせが、前記オブジェクト・チャネル(424)の前記オブジェクト・チャネル・フレームのシーケンスに沿って変化する;および/または
・前記スピーカー(36)の組み合わせのスピーカー(36)のパンが前記オブジェクト・チャネル(424)の前記オブジェクト・チャネル・フレームのシーケンスに沿って変化する、
EEE14または15記載の方法(600)。
〔EEE17〕
前記ビットストリーム(500)がAC-4ビットストリームである、EEE1ないし16のうちいずれか一項記載の方法(600)。
〔EEE18〕
前記オーディオ信号の集合が捕捉されたオーディオ・コンテンツを示す、EEE1ないし17のうちいずれか一項記載の方法(600)。
〔EEE19〕
・呈示(401)がターゲット装置構成についてのターゲット装置構成データを含み;
・前記ターゲット装置構成データは、前記ターゲット装置構成で前記呈示(401)をレンダリングするために使われるべき、前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合および/またはメタデータの変形(434)を示す、
EEE1ないし18のうちいずれか一項記載の方法(600)。
〔EEE20〕
・前記複数のサブストリームの一つ、二つまたは三つ以上がサブストリーム・グループを形成し;
・呈示(401)が前記サブストリーム・グループを示す、
EEE1ないし19のうちいずれか一項記載の方法(600)。
〔EEE21〕
前記複数のサブストリームの前記一つ、二つまたは三つ以上を同定するためのデータを前記呈示セクション(510)のサブストリーム・グループ・エンティティに挿入する段階をさらに含み、前記サブストリーム・グループ・エンティティは前記サブストリーム・グループを定義するためのデータを含む、EEE20記載の方法(600)。
〔EEE22〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム(500)であって、
・当該ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み;
・前記コンテナ(501)のシーケンスのある第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み;
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み;
・前記オブジェクト・チャネル・フレームの第一の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し;
・前記第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;
・前記複数のサブストリーム・エンティティ(520)は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ(520)の集合を含み;
・前記第一のコンテナ(501)はさらに、呈示データをもつ呈示セクション(510)を含み;
・前記呈示データは、前記オブジェクト・ベース・オーディオ・プログラムの少なくとも一つの呈示(401)を示し;
・呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、
ビットストリーム。
〔EEE23〕
・前記第一のオーディオ・プログラム・フレームが、スピーカー・チャネルのベッド(421)の第一のスピーカー・チャネル・フレームを含み;
・前記スピーカー・チャネルのベッド(421)は、前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示し;
・前記複数のサブストリーム・エンティティ(520)は、前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ(520)を含む、
EEE22記載のビットストリーム。
〔EEE24〕
オブジェクト・ベース・オーディオ・プログラムを含むビットストリーム(500)からパーソナル化されたオーディオ・プログラムを生成する方法であって、
・前記ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み;
・前記コンテナ(501)のシーケンスのある第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み;
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル(424)の集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み;
・前記オブジェクト・チャネル(424)の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し;
・前記第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;
・前記複数のサブストリーム・エンティティ(520)は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ(520)の集合を含み;
・前記第一のコンテナ(501)はさらに、呈示セクション(510)を含み;
当該方法は、
・前記呈示セクション(510)から呈示データを抽出する段階であって、前記呈示データは前記パーソナル化されたオーディオ・プログラムのための呈示(401)を示し、前記呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、段階と;
・前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ(501)の前記オブジェクト・チャネル・サブストリーム・エンティティ(520)の集合から抽出する段階とを含む、
方法。
〔EEE25〕
・前記第一のオーディオ・プログラム・フレームが、スピーカー・チャネルのベッド(421)の第一のスピーカー・チャネル・フレームを含み;
・前記スピーカー・チャネルのベッド(421)は、前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示し;
・前記複数のサブストリーム・エンティティ(520)は、前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ(520)を含み、
・当該方法がさらに、前記呈示データに基づいて、前記第一のスピーカー・チャネル・フレームを、前記第一のコンテナ(501)の前記スピーカー・チャネル・サブストリーム・エンティティ(520)から抽出する段階を含む、
EEE24記載の方法。
〔EEE26〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム(500)を生成するシステム(3)であって、前記ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み;前記コンテナ(501)のシーケンスのある第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;前記第一のコンテナ(501)はさらに呈示セクション(510)を含み;当該システム(3)は、
・オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネル(424)の集合を決定する段階であって、前記オブジェクト・チャネル(424)の集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む、段階と;
・前記オブジェクト・チャネル(424)の集合のためのオブジェクト関係メタデータ(434、444)の集合を決定する段階であって、前記オブジェクト関係メタデータ(434、444)の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含み;前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含む、段階と;
・前記オブジェクト・チャネル・フレームの第一の集合および前記オブジェクト関係メタデータ・フレームの第一の集合を、前記第一のコンテナ(501)の前記複数のサブストリーム・エンティティ(520)のオブジェクト・チャネル・サブストリーム・エンティティ(520)のそれぞれの集合に挿入する段階と;
・呈示データを前記呈示セクション(510)に挿入する段階であって、前記呈示データは、少なくとも一つの呈示(401)を示し;前記少なくとも一つの呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、段階とを実行するよう構成されている、
システム。
〔EEE27〕
オブジェクト・ベース・オーディオ・プログラムを含むビットストリーム(500)からパーソナル化されたオーディオ・プログラムを生成するシステム(7)であって、
・前記ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み;
・前記コンテナ(501)のシーケンスのある第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み;
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル(424)の集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み;
・前記オブジェクト・チャネル(424)の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し;
・前記第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムの複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;
・前記複数のサブストリーム・エンティティ(520)は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ(520)の集合を含み;
・前記第一のコンテナ(501)はさらに、呈示セクション(510)を含み;
当該システム(7)は、
・前記呈示セクション(510)から呈示データを抽出する段階であって、前記呈示データは前記パーソナル化されたオーディオ・プログラムのための呈示(401)を示し、前記呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、段階と;
・前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ(501)の前記オブジェクト・チャネル・サブストリーム・エンティティ(520)の集合から抽出する段階とを実行するよう構成されている、
システム。
いくつかの態様を記載しておく。
〔態様1〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム(500)を生成する方法(600)であって、前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み;前記ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み;前記コンテナ(501)のシーケンスのある第一のコンテナ(501)は、それぞれ前記複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み;前記第一のコンテナ(501)はさらに呈示セクション(510)を含み;当該方法(600)は、
・オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネル(424)の集合を決定する段階(601)であって、前記オブジェクト・チャネル(424)の集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む、段階と;
・前記オブジェクト・チャネル(424)の集合のためのオブジェクト関係メタデータ(434、444)の集合を提供する段階(602)であって、前記オブジェクト関係メタデータ(434、444)の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含み;前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み、オブジェクト・チャネルは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネルの前記オブジェクト関係メタデータはそこからそのオブジェクト・チャネルがレンダリングされるべき前記呈示環境内の位置を示す、段階と;
・前記オブジェクト・チャネル・フレームの第一の集合および前記オブジェクト関係メタデータ・フレームの第一の集合を前記第一のコンテナ(501)の前記複数のサブストリーム・エンティティ(520)のオブジェクト・チャネル・サブストリーム・エンティティ(520)のそれぞれの集合に挿入する段階(603)と;
・呈示データを前記呈示セクション(510)に挿入する段階(604)であって、前記呈示データは、少なくとも一つの呈示(401)を示し;呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、段階とを含む、
方法。
〔態様2〕
前記呈示データが異なる呈示(401、402、403)についての異なる呈示データ・エンティティ(512)にセグメント分割され、
TOCデータと称される目次データを前記呈示セクション(510)に挿入する段階をさらに含み、前記TOCデータは、
・前記呈示セクション(510)内の前記異なる呈示データ・エンティティ(512)の位置;および/または
・前記呈示セクション(510)内に含まれる前記異なる呈示データ・エンティティ(512)についての識別子を示す、
態様1記載の方法(600)。
〔態様3〕
・対応するチャネル・フレームについてのメタデータ・フレームがメタデータの複数の異なる変形(434、444)を含み;
・呈示(401)が、メタデータのどの変形(434)が前記対応するチャネル・フレームをレンダリングするために使われるべきかを示す、
態様1または2記載の方法(600)。
〔態様4〕
・前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示すスピーカー・チャネルのベッド(421)を決定する段階であって、前記スピーカー・チャネルのベッド(421)はスピーカー・チャネル・フレームのシーケンスを含み;前記オブジェクト・ベース・オーディオ・プログラムの前記第一のオーディオ・プログラム・フレームは前記スピーカー・チャネルのベッド(421)の第一のスピーカー・チャネル・フレームを含む、段階と;
・前記第一のスピーカー・チャネル・フレームを前記第一のコンテナ(501)の前記複数のサブストリーム・エンティティ(520)のスピーカー・チャネル・サブストリーム・エンティティ(520)に挿入する段階とをさらに含む、
態様1ないし3のうちいずれか一項記載の方法(600)。
〔態様5〕
前記スピーカー・チャネルのベッド(421)が呈示環境の一つまたは複数のスピーカーによってそれぞれ呈示されるべき一つまたは複数のスピーカー・チャネルを含む、態様4記載の方法(600)。
〔態様6〕
・当該方法(600)がさらに、前記スピーカー・チャネルのベッド(421)についてのスピーカー関係メタデータ(431、441)を提供することを含み;
・前記スピーカー関係メタデータ(431、441)はスピーカー関係メタデータ・フレームのシーケンスを含み;
・前記スピーカー関係メタデータ・フレームのシーケンスからのある第一のスピーカー関係メタデータ・フレームが前記スピーカー・チャネル・サブストリーム・エンティティ(520)に挿入される、
態様4または5記載の方法(600)。
〔態様7〕
・前記オブジェクト・チャネル(424)の位置が時間変化する;
・前記オブジェクト・チャネル(424)をレンダリングするためのスピーカー(36)の組み合わせが、前記オブジェクト・チャネル(424)の前記オブジェクト・チャネル・フレームのシーケンスに沿って変化する;および/または
・前記スピーカー(36)の組み合わせのスピーカー(36)のパンが前記オブジェクト・チャネル(424)の前記オブジェクト・チャネル・フレームのシーケンスに沿って変化する、
態様1ないし6のうちいずれか一項記載の方法(600)。
〔態様8〕
・呈示(401)がターゲット装置構成についてのターゲット装置構成データを含み;
・前記ターゲット装置構成データは、前記ターゲット装置構成で前記呈示(401)をレンダリングするために使われるべき、前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合および/またはメタデータの変形(434)を示す、
態様1ないし7のうちいずれか一項記載の方法(600)。
〔態様9〕
・前記複数のサブストリームの一つ、二つまたは三つ以上がサブストリーム・グループを形成し;
・呈示(401)が前記サブストリーム・グループを示し、
当該方法が、前記複数のサブストリームの前記一つ、二つまたは三つ以上を同定するためのデータを前記呈示セクション(510)のサブストリーム・グループ・エンティティに挿入する段階をさらに含み、前記サブストリーム・グループ・エンティティは前記サブストリーム・グループを定義するためのデータを含む、
態様1ないし8のうちいずれか一項記載の方法(600)。
〔態様10〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム(500)であって、
・当該ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み、前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み;
・前記コンテナ(501)のシーケンスのある第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み;
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み;
オブジェクト・チャネル・フレームは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネル・フレームの前記オブジェクト関係メタデータ・フレームはそこからそのオブジェクト・チャネル・フレームがレンダリングされるべき前記呈示環境内の位置を示し;
・前記オブジェクト・チャネル・フレームの第一の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し;
・前記第一のコンテナ(501)は、それぞれ前記複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み;
・前記複数のサブストリーム・エンティティ(520)は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ(520)の集合を含み;
・前記第一のコンテナ(501)はさらに、呈示データをもつ呈示セクション(510)を含み;
・前記呈示データは、前記オブジェクト・ベース・オーディオ・プログラムの少なくとも一つの呈示(401)を示し;
・呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、
ビットストリーム。
〔態様11〕
・前記第一のオーディオ・プログラム・フレームが、スピーカー・チャネルのベッド(421)の第一のスピーカー・チャネル・フレームを含み;
・前記スピーカー・チャネルのベッド(421)は、前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示し;
・前記複数のサブストリーム・エンティティ(520)は、前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ(520)を含む、
態様10記載のビットストリーム。
〔態様12〕
オブジェクト・ベース・オーディオ・プログラムを含むビットストリーム(500)からパーソナル化されたオーディオ・プログラムを生成する方法であって、
・前記ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み、前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み;
・前記コンテナ(501)のシーケンスのある第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み;
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル(424)の集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み;
オブジェクト・チャネル・フレームは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネル・フレームの前記オブジェクト関係メタデータ・フレームはそこからそのオブジェクト・チャネル・フレームがレンダリングされるべき前記呈示環境内の位置を示し;
・前記オブジェクト・チャネル(424)の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し;
・前記第一のコンテナ(501)は、それぞれ前記複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み;
・前記複数のサブストリーム・エンティティ(520)は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ(520)の集合を含み;
・前記第一のコンテナ(501)はさらに、呈示セクション(510)を含み;
当該方法は、
・前記呈示セクション(510)から呈示データを抽出する段階であって、前記呈示データは前記パーソナル化されたオーディオ・プログラムのための呈示(401)を示し、前記呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、段階と;
・前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ(501)の前記オブジェクト・チャネル・サブストリーム・エンティティ(520)の集合から抽出する段階とを含む、
方法。
〔態様13〕
・前記第一のオーディオ・プログラム・フレームが、スピーカー・チャネルのベッド(421)の第一のスピーカー・チャネル・フレームを含み;
・前記スピーカー・チャネルのベッド(421)は、前記オーディオ信号の集合のうちの一つまたは複数のオーディオ信号のオーディオ・コンテンツを示し;
・前記複数のサブストリーム・エンティティ(520)は、前記第一のスピーカー・チャネル・フレームについてスピーカー・チャネル・サブストリーム・エンティティ(520)を含み、
・当該方法がさらに、前記呈示データに基づいて、前記第一のスピーカー・チャネル・フレームを、前記第一のコンテナ(501)の前記スピーカー・チャネル・サブストリーム・エンティティ(520)から抽出する段階を含む、
態様12記載の方法。
〔態様14〕
オブジェクト・ベース・オーディオ・プログラムを示すビットストリーム(500)を生成するシステム(3)であって、前記ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み;前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み;前記コンテナ(501)のシーケンスのある第一のコンテナ(501)は、それぞれ前記複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み;前記第一のコンテナ(501)はさらに呈示セクション(510)を含み;当該システム(3)は、
・オーディオ信号の集合のうち少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示すオブジェクト・チャネル(424)の集合を決定する段階であって、前記オブジェクト・チャネル(424)の集合はオブジェクト・チャネル・フレームの集合のシーケンスを含む、段階と;
・前記オブジェクト・チャネル(424)の集合のためのオブジェクト関係メタデータ(434、444)の集合を決定する段階であって、前記オブジェクト関係メタデータ(434、444)の集合はオブジェクト関係メタデータ・フレームの集合のシーケンスを含み;前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み、オブジェクト・チャネルは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネルの前記オブジェクト関係メタデータはそこからそのオブジェクト・チャネルがレンダリングされるべき前記呈示環境内の位置を示す、段階と;
・前記オブジェクト・チャネル・フレームの第一の集合および前記オブジェクト関係メタデータ・フレームの第一の集合を、前記第一のコンテナ(501)の前記複数のサブストリーム・エンティティ(520)のオブジェクト・チャネル・サブストリーム・エンティティ(520)のそれぞれの集合に挿入する段階と;
・呈示データを前記呈示セクション(510)に挿入する段階であって、前記呈示データは、少なくとも一つの呈示(401)を示し;前記少なくとも一つの呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、段階とを実行するよう構成されている、
システム。
〔態様15〕
オブジェクト・ベース・オーディオ・プログラムを含むビットストリーム(500)からパーソナル化されたオーディオ・プログラムを生成するシステム(7)であって、前記オブジェクト・ベース・オーディオ・プログラムは複数のサブストリームを含み;
・前記ビットストリーム(500)は、前記オブジェクト・ベース・オーディオ・プログラムのオーディオ・プログラム・フレームの対応するシーケンスのためのコンテナ(501)のシーケンスを含み;
・前記コンテナ(501)のシーケンスのある第一のコンテナ(501)は、前記オブジェクト・ベース・オーディオ・プログラムのある第一のオーディオ・プログラム・フレームを含み;
・前記第一のオーディオ・プログラム・フレームは、オブジェクト・チャネル(424)の集合のオブジェクト・チャネル・フレームの第一の集合と、オブジェクト関係メタデータ・フレームの対応する第一の集合とを含み;
オブジェクト・チャネル・フレームは呈示環境のスピーカーの組み合わせによって呈示されるものであり、オブジェクト・チャネル・フレームの前記オブジェクト関係メタデータ・フレームはそこからそのオブジェクト・チャネル・フレームがレンダリングされるべき前記呈示環境内の位置を示し;
・前記オブジェクト・チャネル(424)の集合はオーディオ信号の集合のうちの少なくともいくつかのオーディオ信号のオーディオ・コンテンツを示し;
・前記第一のコンテナ(501)は、それぞれ前記複数のサブストリーム(411、412、413、414)についての複数のサブストリーム・エンティティ(520)を含み;サブストリーム・エンティティは対応するサブストリームのフレームに関係するデータを含み;
・前記複数のサブストリーム・エンティティ(520)は、それぞれ前記オブジェクト・チャネル・フレームの第一の集合についてのオブジェクト・チャネル・サブストリーム・エンティティ(520)の集合を含み;
・前記第一のコンテナ(501)はさらに、呈示セクション(510)を含み;
当該システム(7)は、
・前記呈示セクション(510)から呈示データを抽出する段階であって、前記呈示データは前記パーソナル化されたオーディオ・プログラムのための呈示(401)を示し、前記呈示(401)は、同時に呈示されるべき前記複数のサブストリーム・エンティティ(520)からのサブストリーム・エンティティ(520)の集合を含む、段階と;
・前記呈示データに基づいて、一つまたは複数のオブジェクト・チャネル・フレームおよび対応する一つまたは複数のオブジェクト関係メタデータ・フレームを、前記第一のコンテナ(501)の前記オブジェクト・チャネル・サブストリーム・エンティティ(520)の集合から抽出する段階とを実行するよう構成されている、
システム。