JP2019504341A

JP2019504341A - トランスポートのためのコード化された次世代オーディオデータの選択

Info

Publication number: JP2019504341A
Application number: JP2018527899A
Authority: JP
Inventors: トーマス・ストックハンマー
Original assignee: クアルコム，インコーポレイテッド
Priority date: 2015-12-01
Filing date: 2016-12-01
Publication date: 2019-02-14
Anticipated expiration: 2036-12-01
Also published as: EP3384680A1; US20170156015A1; KR20180089416A; TW201724086A; CA3002227C; BR112018010878A2; TWI700686B; WO2017096023A1; KR102125484B1; JP6681986B2; CA3002227A1; CN108293153A; US9854375B2

Abstract

オーディオデータを受信するための例示的デバイスが、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む。

Description

本出願は、2015年12月1日に出願された米国仮出願第62/261,743号、および2015年12月22日に出願された米国仮出願第62/387,269号の利益を主張するものであり、これらの米国仮出願の各々の内容全体が参照によって本明細書に組み込まれている。

本開示は、メディアデータのトランスポートに関し、詳細には、オーディオデータのトランスポートに関する。

高次アンビソニックス(HOA)信号(複数の球面調和係数(SHC)または他の階層的要素によって表されることが多い)は、音場の3次元表現である。HOA表現またはSHC表現は、SHC信号からレンダリングされるマルチチャンネルオーディオ信号を再生するために使用される局所的なスピーカー配置とは無関係な方式で、音場を表現することができる。HOAまたはSHC表現は符号化され得る。対応するビデオデータ、ならびに時限テキストなど、他のメディアデータも符号化されてよい。

オーディオデータまたはビデオデータなどのメディアデータが符号化された後、メディアデータは送信または記憶のためにパケット化され得る。メディアデータは、国際標準化機構(ISO)ベースメディアファイルフォーマットおよびその拡張などの、様々な規格のいずれかに準拠するメディアファイルへと、アセンブルされ得る。

MPEG-H 3D Audio-The New Standard for Coding of Immersive Spatial Audio、Jurgen Herre、Senior Member、IEEE、Johannes Hilpert、Achim Kuntz、およびJan Plogsties、IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING、VOL. 9、NO. 5、2015年8月「Information Technology-Dynamic Adaptive Streaming over HTTP (DASH)-Part 1: Media Presentation Description and Segment Formats」、ISO/IEC 23009-1、2012年4月1日 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Transparent end-to-end Packet-switched Streaming Service (PSS); Progressive Download and Dynamic Adaptive Streaming over HTTP (3GP-DASH) (Release 12) 3GPP TS 26.247、V12.1.0、2013年12月「Information technology -- Generic coding of moving pictures and associated audio information -- Part 1: Systems」、ISO/IEC 13818-1:2013 「Information technology -- Coding of audio-visual objects -- Part 12: ISO base media file format」、ISO/IEC 14496-12:2012 欧州電気通信標準化機構(ETSI)、「Digital Video Broadcasting (DVB); MPEG-DASH Profile for Transport of ISO BMFF Based DVB Services over IP Based Networks」、ETSI TS 103 285 V1.1.1(2015年5月)

概して、本開示は、ブロードキャストまたはブロードバンドベースのユニキャストなどのストリーミング配信を使って次世代オーディオ(NGA)データをトランスポートするための技法について記載する。オーディオオブジェクトの特性に基づく、オーディオオブジェクトの選択(たとえば、事前選択)のための技法についても記載する。

一例では、メディアデータを受信する方法が、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信するステップであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、ステップと、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信するステップと、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信するステップと、選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えるステップとを含む。

別の例では、オーディオデータを受信するためのデバイスが、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む。

別の例では、オーディオデータを受信するためのデバイスが、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信するための手段であって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、手段と、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信するための手段と、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信するための手段と、選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えるための手段とを含む。

別の例では、コンピュータ可読記憶媒体が、命令を記憶しており、命令は、実行されると、受信機デバイスの1つまたは複数のプロセッサに、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトを受信機デバイスのオーディオデコーダに与えることを行わせる。

1つまたは複数の例の詳細が、添付図面および以下の説明において記載される。他の特徴、目的、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。

ネットワークを介してメディアデータをストリーミングするための技法を実装する例示的なシステムを示すブロック図である。取出しユニットの構成要素の例示的なセットをより詳細に示すブロック図である。例示的なマルチメディアコンテンツの要素を示す概念図である。表現のセグメントに対応し得る例示的なメディアファイルの要素を示すブロック図である。オーディオデータをトランスポートするための例示的なレガシーシステムを示す概念図である。本開示の技法による、次世代オーディオデータのトランスポートのための多くの変形体およびオプションをサポートするのに使われ得る例示的システムを示す概念図である。システム中心である第1の例を示す概念図である。プレゼンテーション定義と部分適応セットの例との間のマッピングを示す概念図である。システムおよびHTML-5を使う別の例を示す概念図である。システムおよびオーディオデコーダを使う別の例示的システムを示す概念図である。データの例示的なセット、および@bundleIDについての値と様々なタイプの配信ネットワークを介した利用可能性との間の対応を示す概念図である。部分適応セットの例示的なセットについてのデータネットワーク利用可能性の例を示す概念図である。本開示の技法による、種々の選択技法を使う別の例示的なシステムを示す概念図である。システムおよびオーディオデコーダを使う、本開示の技法による別の例示的システムを示す概念図である。本開示の技法による例示的なオーディオデータモデルを示す概念図である。本開示の技法による例示的なオーディオデータモデルを示す概念図である。本開示の技法による例示的なオーディオデータモデルを示す概念図である。ウェブブラウザとMPEG-2システムレイヤとの間に配置されたユーザインターフェースを含む受信機デバイスの例を示す概念図である。ウェブブラウザとNGAオーディオデコーダとの間に配置されたユーザインターフェースを含む受信機デバイスの別の例を示す概念図である。受信機デバイスの別の例を示す概念図である。 MPEG-2システムレベルで行われる、全データの例示的な選択を示す概念図である。 M&Eオーディオデータに加え、英語注釈の選択が行われる例を示す概念図である。事前選択ユニット(または別のユニット)が適応セットをプルーニングして、ユーザによって選択されていないものを削除する別の例を示す概念図である。本開示の技法による例示的な方法を示すフローチャートである。

概して、本開示は、符号化オーディオデータなどの符号化メディアデータをトランスポートするための技法について説明する。本開示の技法は概して、利用可能オーディオデータストリームを、音楽および効果(M&E)ストリームなどのストリームのうちの1つに付随するメタデータのセット中で広告することを対象とする。つまり、様々な異なるオーディオデータストリーム、たとえば、M&Eストリーム、様々な言語のダイアログストリーム、および様々な言語の注釈が利用可能であり得る。メタデータは、オーディオデータストリームのどのセットが利用可能であるかと、ストリームの特性とを記述し得る。メタデータは、ストリームがどのようにしてアクセスされ得るか、たとえば、ストリームがブロードキャスト(ATSC3.0ブロードキャスト、または拡張マルチメディアブロードキャストマルチキャストサービス(eMBMS)など、ネットワークベースのブロードキャストもしくはマルチキャストなど)、ブロードバンド(たとえば、ユニキャストネットワーク取出し)、あるいは両方を介して利用可能であるかどうかをさらに示すことができる。

メタデータは、動的適応ストリーミングオーバーHTTP(DASH)のメディアプレゼンテーション記述(MPD)などのマニフェストファイル中に含まれるか、または他のHTTPストリーミングプロトコルに関連付けられた他のタイプのマニフェストファイル中に含まれ得る。その上、受信デバイスは、メタデータを受信するように構成されたオーディオ処理ユニットを含み得る。メタデータは、MPEG-HまたはAC-4パート2などの次世代オーディオ(NGA)コーディング規格に準拠し得る。したがって、MPEG-2システムレイヤユニットまたは他のそのような処理ユニットを、メタデータを分析するように構成するのではなく、本開示の技法のいくつかの態様は、NGAコーディング規格のメタデータを処理するようにすでに構成されているNGAオーディオ復号ユニットを、メタデータからの情報をMPEG-2システムレイヤユニットに提供するのに使うことを含む。このようにして、本開示の技法は、NGAオーディオ復号ユニットの能力を、復号およびレンダリングプロセスの一部に加え、データ送信および受信プロセスの一部として活用することができる。

さらに、本開示のいくつかの技法によると、およびDASHストリーミングプロトコルによると、各オーディオストリームは、DASH適応セットに対応し得る。つまり、上で論じたマニフェストファイルは、適応セットについての特性をシグナリングすることができ、適応セットの各々は、利用可能オーディオデータストリームのうちの1つに対応し得る。

その上、いくつかの例では、ユーザが、利用可能オーディオストリームの事前選択のための構成データとして記憶され得る、オーディオデータについてのいくつかのオプションを選択することができる。たとえば、ユーザは、デフォルトとして、音楽および効果ストリームと、注釈なしの特定の言語(たとえば、英語)のダイアログストリームとを受信すると決める場合がある。したがって、受信デバイスは、利用可能オーディオストリームから選択をするのに使われるべき事前選択データを記憶するユーザエージェントユニットを含み得る。したがって、NGAオーディオ復号ユニットは、どのオーディオデータストリームが利用可能であるかを判断し、利用可能オーディオデータストリームをMPEG-2システムレイヤユニットに広告することができる。MPEG-2システムレイヤユニットは、どのストリームが選択されるべきかを表す事前選択データを、たとえば、ユーザエージェントユニットから受信し、選択データをNGAオーディオ復号ユニットに提供すればよい。

サラウンドサウンドの進化は、娯楽に利用可能な多数の出力フォーマットを生み出した。そのような消費者向けのサラウンドサウンドフォーマットの例は、いくつかの幾何学的座標中のラウドスピーカーへのフィードを暗黙的に指定するという点で、大半が「チャンネル」ベースである。消費者向けサラウンドサウンドフォーマットには、一般的な5.1フォーマット(これは、フロントレフト(FL)、フロントライト(FR)、センターまたはフロントセンター、バックレフトまたはサラウンドレフト、バックライトまたはサラウンドライト、および低周波効果(LFE)という6つのチャンネルを含む)、成長している7.1フォーマット、ならびに(たとえば、超解像度テレビジョン規格とともに使用するための)7.1.4フォーマットおよび22.2フォーマットのようなハイトスピーカーを含む様々なフォーマットがある。非消費者向けフォーマットは、「サラウンドアレイ」と呼ばれることが多い(対称的な、および非対称的な幾何学的配置の)任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頭正二十面体の角に座標上で配置される32個のラウドスピーカーを含む。

将来のMPEG-Hエンコーダへの入力は、任意選択で、次の3つの可能性のあるフォーマットのうちの1つである。(i)事前に指定された場所にあるラウドスピーカーを通じて再生されることが意図される(上で論じられたような)従来のチャンネルベースのオーディオ、(ii)(情報の中でもとりわけ)位置座標を含む関連するメタデータを有する、単一のオーディオオブジェクトのための個別のパルス符号変調(PCM)データを伴うオブジェクトベースのオーディオ、および、(iii)(「球面調和係数」すなわちSHC、「高次アンビソニックス」すなわちHOA、および「HOA係数」とも呼ばれる)球面調和基底関数の係数を使用して音場を表すことを伴うシーンベースのオーディオ。MPEG-Hエンコーダは、MPEG-H 3D Audio-The New Standard for Coding of Immersive Spatial Audio、Jurgen Herre、Senior Member、IEEE、Johannes Hilpert、Achim Kuntz、およびJan Plogsties、IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING、VOL. 9、NO. 5、2015年8月(本明細書では、「IEEE論文」とも呼ばれる)に、より詳しく記載されている。

新しいMPEG-H 3D Audioは、チャンネル、オブジェクト、およびシーンベースのオーディオストリームの各々のための標準化されたオーディオビットストリームと、スピーカー配置(およびスピーカーの数)ならびに(レンダラを伴う)再生の位置における音響状態に対して適用可能で、かつアグノスティックである後続の復号とを規定する。

IEEE論文において指摘されているように、HOAは、より多くの係数信号を提供し、したがって空間的選択性を増大させ、それにより、ラウドスピーカー信号を、より少ないクロストークでレンダリングさせ、結果として音質アーティファクトが低減する。オブジェクトとは対照的に、HOAにおける空間情報は、明示的な幾何学的メタデータにおいてではなく、係数信号自体において伝達される。したがって、アンビソニックス/HOAは、音シーンにおける個々のオブジェクトへのアクセスを可能にするには、それほど好適ではない。しかしながら、音場を表すために要素の階層的なセットを使用する、コンテンツ作成者にとってより大きい柔軟性がある。要素の階層的なセットとは、より低次の要素の基本的なセットがモデル化された音場の完全な表現を提供するように要素が並べられる、要素のセットを指し得る。セットが高次の要素を含むように拡張されるにつれて、表現はより詳細になり、分解能が向上する。

要素の階層的なセットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用した音場の記述または表現を示す。

この式は、時間tにおける、音場の任意の点{r_r,θ_r,φ_r}における圧力p_iが、SHC、すなわち

によって一意に表され得ることを示す。ここで、

であり、cは音の速さ(約343m/s)であり、{r_r,θ_r,φ_r}は基準の点(または観測点)であり、j_n(・)は次数nの球面ベッセル関数であり、

は、次数nおよび位数mの球面調和基底関数である。角括弧の中の項は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換のような様々な時間-周波数の変換によって近似され得る、信号の周波数領域の表現(すなわち、S(ω,r_r,θ_r,φ_r))であることが認識され得る。階層的なセットの他の例は、ウェーブレット変換係数のセットと、多分解能基底関数の係数の他のセットとを含む。

本開示の技法は、動的適応ストリーミングオーバーHTTP(DASH)などのストリーミングプロトコルを使用して、上記で説明したように符号化されたオーディオデータをトランスポートするために使用され得る。DASHの様々な態様は、たとえば、「Information Technology-Dynamic Adaptive Streaming over HTTP (DASH)-Part 1: Media Presentation Description and Segment Formats」、ISO/IEC 23009-1、2012年4月1日、および3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Transparent end-to-end Packet-switched Streaming Service (PSS); Progressive Download and Dynamic Adaptive Streaming over HTTP (3GP-DASH) (Release 12) 3GPP TS 26.247、V12.1.0、2013年12月において説明されている。

HTTPストリーミングにおいて、頻繁に使用される動作には、HEAD、GET、および部分GETがある。HEAD動作は、所与のユニフォームリソースロケータ(URL)またはユニフォームリソースネーム(URN)に関連付けられたペイロードを取り出さずに、URLまたはURNに関連付けられたファイルのヘッダを取り出す。GET動作は、所与のURLまたはURNと関連付けられたファイル全体を取り出す。部分GET動作は、入力パラメータとしてバイト範囲を受信し、ファイルのバイトの連続数を取得し、ここで、バイトの数は、受信したバイト範囲に対応する。したがって、部分GET動作は1つまたは複数の個々のムービーフラグメントを取得できるので、ムービーフラグメントがHTTPストリーミングのために提供されてよい。ムービーフラグメントでは、異なるトラックのいくつかのトラックフラグメントが存在してもよい。HTTPストリーミングでは、メディアプレゼンテーションは、クライアントにとってアクセス可能なデータの構造化された集合体であり得る。クライアントは、メディアデータ情報を要求およびダウンロードして、ユーザにストリーミングサービスを提示することができる。

HTTPストリーミングを使用してオーディオデータをストリーミングする例では、マルチメディアコンテンツのビデオおよび/またはオーディオデータに関して複数の表現が存在し得る。

以下で説明するように、異なる表現は、HOA、たとえば、シーンベースのオーディオのための異なる形式のスケーラブルコーディングに対応し得る。

そのような表現のマニフェストは、メディアプレゼンテーション記述(MPD)データ構造において定義され得る。メディアプレゼンテーションは、HTTPストリーミングクライアントデバイスがアクセス可能なデータの構造化された集合体に対応し得る。HTTPストリーミングクライアントデバイスは、メディアデータ情報を要求およびダウンロードして、クライアントデバイスのユーザにストリーミングサービスを提示することができる。メディアプレゼンテーションは、MPDの更新を含み得るMPDデータ構造で記述され得る。

メディアプレゼンテーションは、1つまたは複数の期間のシーケンスを含み得る。期間は、MPDにおいて期間要素によって定義され得る。各期間は、MPDにおいて属性startを有し得る。MPDは、各期間についてstart属性およびavailabilityStartTime属性を含み得る。ライブサービスの場合、期間のstart属性とMPD属性availabilityStartTimeとの合計が、UTCフォーマットによる期間の利用可能時間、特に、対応する期間における各表現の第1のメディアセグメントを指定し得る。オンデマンドサービスの場合、第1の期間のstart属性は0であり得る。任意の他の期間では、start属性は、対応する期間の開始時間と第1の期間の開始時間との間の時間オフセットを指定し得る。各期間は、次の期間の開始まで、または最後の期間の場合にはメディアプレゼンテーションの終了まで及び得る。期間開始時間は正確であり得る。期間開始時間は、すべての先行期間のメディアの再生から生じる実際のタイミングを反映することができる。

各期間は、同じメディアコンテンツのための1つまたは複数の表現を含み得る。表現は、オーディオデータまたはビデオデータの、いくつかの代替符号化バージョンのうちの1つであり得る。表現は、符号化のタイプ、たとえば、ビデオデータのビットレート、解像度、および/またはコーデック、ならびにオーディオデータのビットレート、言語、および/またはコーデックによって異なる場合がある。表現という用語は、マルチメディアコンテンツのある特定の期間に対応し、ある特定の方法で符号化された、符号化オーディオデータまたは符号化ビデオデータのあるセクションを指すために使用される場合がある。

ある特定の期間の表現は、表現が属する適応セットを示すMPD内の属性によって示されるグループに割り当てられ得る。同じ適応セット内の表現は、概して、クライアントデバイスが、たとえば帯域幅適応を実施するためにこれらの表現の間で動的かつシームレスに切り替わることができる点で、互いに対する代替物と見なされる。たとえば、ある特定の期間のビデオデータの各表現は、同じ適応セットに割り当てられ得るので、表現のうちのいずれもが、対応する期間のマルチメディアコンテンツの、ビデオデータまたはオーディオデータなど、メディアデータを提示するように復号するために選択され得る。別の例として、オーディオ適応セットの表現は、帯域幅適応をサポートするために異なるビットレートで符号化された、同じタイプのオーディオデータを含み得る。いくつかの例では、1つの期間内のメディアコンテンツは、存在する場合には、グループ0からの1つの表現、または各々の非ゼロのグループからの最大でも1つの表現の組合せのいずれかによって表され得る。ある期間の各表現のタイミングデータは、期間の開始時間に対して表され得る。

表現は1つまたは複数のセグメントを含み得る。各表現は、初期化セグメントを含んでよく、または表現の各セグメントは、自己初期化するものであってよい。初期化セグメントは、存在する場合、表現にアクセスするための初期化情報を含み得る。一般に、初期化セグメントは、メディアデータを含まない。セグメントは、ユニフォームリソースロケータ(URL)、ユニフォームリソースネーム(URN)、またはユニフォームリソース識別子(URI)のような、識別子によって一意に参照され得る。MPDは、各セグメントのための識別子を提供し得る。いくつかの例では、MPDはまた、URL、URN、またはURIによってアクセス可能なファイル内のセグメントのためのデータに対応し得る、range属性の形式で、バイト範囲を提供することができる。

異なるタイプのメディアデータに関して実質的に同時に取り出すために異なる表現を選択することができる。たとえば、クライアントデバイスは、セグメントを取り出すオーディオ表現、ビデオ表現、および時限のテキスト表現を選択することができる。いくつかの例では、クライアントデバイスは、帯域幅適応を実施するために特定の適応セットを選択することができる。すなわち、クライアントデバイスは、ビデオ表現を含むビデオ適応セット、オーディオ表現を含む適応セット、および/または時限のテキストを含む適応セットを選択することができる。

本開示の技法は、メディア(たとえば、3Dオーディオ)データを、たとえば、「Information technology -- Generic coding of moving pictures and associated audio information -- Part 1: Systems」、ISO/IEC 13818-1:2013(また、ISO/IEC 13818-1:2015)に記載されているMPEG-2システム(「MPEG-2システム」または「システム」とも呼ばれる)に多重化するのに使うことができる。システム仕様は、タイムスタンプをそれぞれ有する、アクセスユニットを有するストリーム/トラックについて説明している。アクセスユニットは多重化され、通常、この多重化が実施され得る方法についてのある程度の柔軟性がある。MPEG-Hオーディオは、すべてのオブジェクトのサンプルが1つのストリームに配置されることを許容しており、たとえば、同じタイムコードを有するすべてのサンプルは、1つのアクセスユニットにマップされ得る。システムレベルでは、オブジェクトを異なるシステムストリームに分けることを可能にする1つのマスターストリームおよび複数の補助ストリームを生成することが可能である。システムストリームは柔軟性をもたらす、すなわち、システムストリームは、ハイブリッド配信のための、まったく配信しないための、などの異なる配信経路を可能にする。

メディアデータ、たとえば、オーディオデータおよび/またはビデオデータを含むファイルは、たとえば、「Information technology-Coding of audio-visual objects-Part 12: ISO base media file format」、ISO/IEC 14496-12:2012において説明されている、ISOベースメディアファイルフォーマット(BMFF)に従って形成され得る。ISO BMFFでは、ストリームはトラックであり、アクセスユニットは、ムービーデータ(mdat)ボックスの中に含まれる。各トラックは、ムービーヘッダにおけるサンプルエントリーを取得し、サンプルを表すサンプルテーブルが物理的に発見され得る。ムービーフラグメントを使用することによって分散記憶も可能である。

MPEG-2トランスポートストリーム(TS)では、ストリームはエレメンタリストリームである。MPEG-2 TSには柔軟性が少ないが、一般に、本技法はISO BMFFと同様である。MPEG-2 TSにおいて、各エレメンタリストリームは、プログラム識別子(PID)を有するプログラムに対応し得る。

メディアデータ(たとえば、符号化された3Dオーディオデータ)を含むファイルは、上記で説明した様々な技法のいずれかに従って形成され得るが、本開示は、ISO BMFF/ファイルフォーマットに関する技法について説明する。

一般に、ファイルは、符号化された3Dオーディオデータなどの符号化メディアデータを含み得る。DASHでは、そのようなファイルは、上記で説明したように、表現の「セグメント」と呼ばれ得る。さらに、コンテンツプロバイダは、上述のように、様々な適応セットを使用してメディアコンテンツを提供し得る。3Dオーディオデータに関して、シーンオーディオデータは、1つの適応セットにおいて提供され得る。この適応セットは、(たとえば、ビットレートが互いに異なるが、それ以外では実質的に同じである)シーンオーディオデータに関する様々な切替え可能(すなわち、代替)表現を含み得る。同様に、オーディオオブジェクトは各々、それぞれの適応セットにおいて提供され得る。代替的に、適応セットは、複数のオーディオオブジェクトを含むことができ、かつ/または1つもしくは複数のオーディオオブジェクトは、複数の適応セットにおいて提供され得る。

本開示のいくつかの技法によると、デバイスは、複数の異なるオーディオストリームからオーディオデータを復号するためのシングルオーディオデコーダを含み得る。たとえば、オーディオストリームは、音楽および効果(M&E)ストリーム、1つまたは複数のダイアログストリーム、ならびに1つまたは複数の注釈ストリームを含み得る。1つまたは複数のダイアログおよび注釈ストリームは、異なる言語(たとえば、英語、フランス語、ドイツ語、スペイン語など)で利用可能であり得る。したがって、言語についてのユーザ選好に基づいて選択が行われ得る。後でより詳細に説明するように、オーディオストリームの各々は、それぞれの部分適応セット(「部分AS」とも呼ばれる)に対応し得る。部分適応セットは概して、部分適応セット単独からは復号することができないデータを含む場合があり、代わりに、復号可能であるために、クライアントデバイスが、部分適応セット、たとえば、1つのM&Eストリーム、1つのダイアログストリーム、および1つの注釈ストリームの組合せについてのデータを取得すればよい。部分適応セットの組合せは復号可能であり得る。たとえば、初期化データは、M&Eストリーム中で搬送され得るが、ダイアログおよび/または注釈ストリーム中では搬送することができない。本開示は、オーディオストリームの組合せの選択に関連したデータをシグナリングするための様々な技法、ならびにクライアントデバイスがオーディオストリームの組合せを選択するのにデータを使うことができるようにするための技法を提供する。

概して、完全に提示可能なオーディオプレゼンテーションは、ユーザに提示され得る1つまたは複数の全体または部分適応セットに対応し得る。たとえば、完全に提示可能なオーディオプレゼンテーションは、音楽および効果適応セット、ならびに/または特定の言語のダイアログ適応セットに対応し得る。完全に提示可能なオーディオプレゼンテーションは、そのオーディオデータを復号し、レンダリングするのに必要とされる全データを含み得る。いくつかの事例では、適応セットは1つまたは複数の他の適応セットに依存し得る。たとえば、適応セットは、別の適応セットからのデータまたはメタデータが、適応セットにアクセスし、復号し、またはレンダリングするのに必要とされる場合、その別の適応セットに依存し得る。いくつかの例では、単一の適応セットが、完全に提示可能なオーディオプレゼンテーションを表すことができ、さらに、特定の識別子を割り当てられてよい。完全に提示可能なオーディオプレゼンテーションではない適応セットは、適応セットが依存する適応セットの特定の識別子への参照を含み得る。

本開示のいくつかの技法によると、たとえば、DASHによりメディアデータを送り、受信するデバイスは、DASHおよび/または新型テレビジョンシステム委員会(ATSC)(および/または他のシステム規格)と統合された次世代オーディオ(NGA)コーデック用の1つまたは複数のコーデック非依存モデルを使い得る。そのようなモデルの例について、以下でさらに詳しく説明する。

図1は、オーバージエア(OTA)ブロードキャストを介してメディアデータをストリーミングするための技法を実装する例示的なシステム10を示すブロック図である。この例では、システム10は、コンテンツ作成デバイス20と、ブロードキャストソースデバイス60と、ブロードキャストユニット74と、クライアントデバイス40とを含む。ブロードキャストソースデバイス60は、たとえば、テレビジョンネットワークオフィス、ケーブルテレビジョンオフィスなどを備え得る。ブロードキャストユニット74は、たとえば、衛星、ケーブルテレビジョン分散ハブ、アンテナなどを備え得る。図1の例には単一のブロードキャストユニット74しか示されていないが、ブロードキャストソースデバイス60とクライアントデバイス40との間に複数の中間デバイスが位置してよいことを理解されたい。いくつかの例では、コンテンツ作成デバイス20およびブロードキャストソースデバイス60は、コンピュータベースのネットワークによって結合されてよく、または直接通信可能に結合されてよい。代替的に、コンテンツ作成デバイス20は、ハードディスク、フラッシュドライブ、CD、DVD、ブルーレイディスクなどのコンピュータ可読記憶媒体を配布することによってブロードキャストソースデバイス60にマルチメディアコンテンツを供給してよい。いくつかの例では、コンテンツ作成デバイス20およびブロードキャストソースデバイス60は、同じデバイスを構成し得る。

図1の例では、コンテンツ作成デバイス20は、オーディオソース22とビデオソース24とを備える。オーディオソース22は、たとえば、オーディオエンコーダ26によって符号化されるべきキャプチャされたオーディオデータを表す電気信号を生成するマイクロフォンを備え得る。代替的に、オーディオソース22は、以前に記録されたオーディオデータを記憶する記憶媒体、コンピュータ化されたシンセサイザのようなオーディオデータ生成器、またはオーディオデータの任意の他のソースを備え得る。ビデオソース24は、ビデオエンコーダ28によって符号化されるべきビデオデータを生成するビデオカメラ、以前に記録されたビデオデータで符号化された記憶媒体、コンピュータグラフィックスソースのようなビデオデータ生成ユニット、またはビデオデータの任意の他のソースを備え得る。コンテンツ作成デバイス20は、すべての例でブロードキャストソースデバイス60に必ずしも通信可能に結合されるとは限らず、ブロードキャストソースデバイス60によって読み取られる別個の媒体にマルチメディアコンテンツを記憶し得る。

生のオーディオデータおよびビデオデータは、アナログデータまたはデジタルデータを含み得る。アナログデータは、オーディオエンコーダ26および/またはビデオエンコーダ28によって符号化される前にデジタル化され得る。オーディオソース22は、話している参加者から、その参加者が話している間オーディオデータを取得することができ、ビデオソース24は、話している参加者のビデオデータを同時に取得することができる。他の例では、オーディオソース22は、記憶されたオーディオデータを含むコンピュータ可読記憶媒体を備えてよく、ビデオソース24は、記憶されたビデオデータを含むコンピュータ可読記憶媒体を備え得る。このように、本開示で説明される技術は、ライブ、ストリーミング、リアルタイムオーディオデータ、およびリアルタイムビデオデータに適用され得、または、アーカイブされた事前に記録されたオーディオデータ、およびアーカイブされた事前に記録されたビデオデータに適用され得る。

ビデオフレームに対応するオーディオフレームは、一般に、ビデオフレーム内に含まれるビデオソース24によってキャプチャ(または、生成)されたビデオデータと同時に、オーディオソース22によってキャプチャ(または、生成)されたオーディオデータを含むオーディオフレームである。たとえば、話している参加者が一般に話すことによってオーディオデータを生成している間、オーディオソース22はオーディオデータをキャプチャし、ビデオソース24は同時に、すなわち、オーディオソース22がオーディオデータをキャプチャしている間に、話している参加者のビデオデータをキャプチャする。したがって、オーディオフレームは、1つまたは複数の特定のビデオフレームに時間的に対応し得る。したがって、ビデオフレームに対応するオーディオフレームは、一般に、オーディオデータおよびビデオデータが同時にキャプチャされた(またはさもなければ同時に提示されるべき)状況に対応し、その状況に対して、オーディオフレームおよびビデオフレームがそれぞれ、同時にキャプチャされたオーディオデータおよびビデオデータを含む。さらに、ビデオデータおよび他のオーディオデータ、たとえば、ナレーションと同時に提示されるべきであるオーディオデータは、別個に生成され得る。

いくつかの例では、オーディオエンコーダ26は、各符号化オーディオフレームにおいて、符号化オーディオフレームに関するオーディオデータが記録された時間を表すタイムスタンプを符号化することができ、同様に、ビデオエンコーダ28は、各符号化ビデオフレームにおいて、符号化ビデオフレームに関するビデオデータが記録された時間を表すタイムスタンプを符号化することができる。そのような例では、ビデオフレームに対応するオーディオフレームは、タイムスタンプを含むオーディオフレームおよび同じタイムスタンプを含むビデオフレームを含み得る。コンテンツ作成デバイス20は、オーディオエンコーダ26および/またはビデオエンコーダ28がタイムスタンプを生成する場合がある内部クロック、またはオーディオソース22およびビデオソース24がそれぞれオーディオデータおよびビデオデータをタイムスタンプに関連付けるために使用する場合がある内部クロックを含み得る。

いくつかの例では、オーディオソース22は、オーディオデータが記録された時間に対応するデータをオーディオエンコーダ26に送ることができ、ビデオソース24は、ビデオデータが記録された時間に対応するデータをビデオエンコーダ28に送ることができる。いくつかの例では、オーディオエンコーダ26は、符号化オーディオデータにおいて、符号化オーディオデータの相対的な時間順序を示すために、オーディオデータが記録された絶対的な時間を必ずしも示すとは限らないが、シーケンス識別子を符号化することができ、同様に、ビデオエンコーダ28も、符号化ビデオデータの相対的な時間順序を示すためにシーケンス識別子を使用することができる。同様に、いくつかの例では、シーケンス識別子がタイムスタンプとともにマップされるか、あるいはタイムスタンプと相関することがある。

オーディオエンコーダ26は、一般に、符号化オーディオデータのストリームを生成し、ビデオエンコーダ28は、符号化ビデオデータのストリームを生成する。データの個別の各ストリーム(オーディオかビデオかにかかわらず)は、エレメンタリストリームと呼ばれることがある。エレメンタリストリームは、表現の単一のデジタル的にコード化された(場合によっては圧縮された)成分である。たとえば、表現のコード化されたビデオまたはオーディオの部分は、エレメンタリストリームであり得る。エレメンタリストリームは、ビデオファイル内にカプセル化される前に、パケット化エレメンタリストリーム(PES)に変換され得る。同じ表現内で、ストリームIDが、あるエレメンタリストリームに属するPESパケットを他のエレメンタリストリームに属するPESパケットと区別するために使用され得る。エレメンタリストリームのデータの基本単位は、パケット化エレメンタリストリーム(PES)パケットである。したがって、コード化ビデオデータは、一般に、エレメンタリビデオストリームに対応する。同様に、オーディオデータは、1つまたは複数のそれぞれのエレメンタリストリームに対応する。

図1の例では、コンテンツ作成デバイス20のカプセル化ユニット30は、ビデオエンコーダ28からのコード化ビデオデータを含むエレメンタリストリームと、オーディオエンコーダ26からのコード化オーディオデータを含むエレメンタリストリームとを受信する。いくつかの例では、ビデオエンコーダ28およびオーディオエンコーダ26は各々、符号化データからPESパケットを形成するためのパケタイザを含む場合がある。他の例では、ビデオエンコーダ28およびオーディオエンコーダ26は各々、符号化データからPESパケットを形成するためのそれぞれのパケタイザとインターフェースをとる場合がある。さらに他の例では、カプセル化ユニット30は、符号化オーディオデータおよび符号化ビデオデータからPESパケットを形成するためのパケタイザを含む場合がある。

ビデオエンコーダ28は、種々の方法でマルチメディアコンテンツのビデオデータを符号化して、ピクセル解像度、フレームレート、様々な符号化規格に対する準拠、様々な符号化規格のための様々なプロファイルおよび/もしくはプロファイルのレベルに対する準拠、1つもしくは複数の表示を有する表現(たとえば、2次元もしくは3次元の再生のための)、または他のそのような特性のような、様々な特性を有する様々なビットレートのマルチメディアコンテンツの様々な表現を生成することができる。同様にオーディオエンコーダ26は、様々な特性とともに多種多様な方法でオーディオデータを符号化し得る。以下でより詳細に説明するように、たとえば、オーディオエンコーダ26は、シーンベースのオーディオデータ、チャンネルベースのオーディオデータ、および/またはオブジェクトベースのオーディオデータのうちの1つまたは複数をそれぞれ含むオーディオ適応セットを形成し得る。さらに、または代替として、オーディオエンコーダ26は、スケーラブルオーディオデータを含む適応セットを形成し得る。たとえば、オーディオエンコーダ26は、以下でより詳細に説明するように、ベースレイヤ、左/右情報、および高さ情報に関する適応セットを形成し得る。

本開示で使用する表現は、オーディオデータ、ビデオデータ、(たとえば、クローズドキャプション用の)テキストデータ、または他のそのようなデータのうちの1つを含み得る。この表現は、オーディオエレメンタリストリームまたはビデオエレメンタリストリームなどのエレメンタリストリームを含み得る。各PESパケットは、PESパケットが属するエレメンタリストリームを特定するstream_idを含み得る。カプセル化ユニット30は、様々な表現のビデオファイル(たとえば、セグメント)へとエレメンタリストリームをアセンブルする役割を担う。

カプセル化ユニット30は、オーディオエンコーダ26およびビデオエンコーダ28から表現のエレメンタリストリームのためのPESパケットを受信し、PESパケットから対応するネットワークアブストラクションレイヤ(NAL)を形成する。

カプセル化ユニット30は、マニフェストファイル(たとえば、MPD)とともに、マルチメディアコンテンツの1つまたは複数の表現のためのデータを出力インターフェース32に提供し得る。出力インターフェース32は、ネットワークインターフェースもしくはユニバーサルシリアルバス(USB)インターフェース、CDもしくはDVDのライターもしくはバーナー、磁気記憶媒体もしくはフラッシュ記憶媒体へのインターフェースのような記憶媒体へ書き込むためのインターフェース、または、メディアデータを記憶もしくは送信するための他のインターフェースを含み得る。カプセル化ユニット30は、マルチメディアコンテンツの表現の各々のデータを出力インターフェース32に与えてよく、出力インターフェース32は、ネットワーク送信媒体または記憶媒体を介してブロードキャストソースデバイス60にデータを送ってよい。図1の例では、ブロードキャストソースデバイス60は、それぞれのマニフェストファイル66と1つまたは複数の表現68A〜68N(表現68)とをそれぞれが含む様々なマルチメディアコンテンツ64を記憶する記憶媒体62を含む。いくつかの例では、出力インターフェース32はネットワーク74にデータを直接送ることもできる。

いくつかの例では、表現68は、適応セットに分離され得る。すなわち、表現68の様々なサブセットは、コーデック、プロファイルおよびレベル、解像度、ビューの数、セグメントのファイルフォーマット、たとえば話者による、復号され提示されるべき表現および/またはオーディオデータとともに表示されるべきテキストの言語または他の特性を識別する場合があるテキストタイプ情報、カメラの角度または適応セット内の表現のシーンの現実世界のカメラの視野を表す場合があるカメラ角度情報、特定の視聴者に対するコンテンツの適切性を表すレーティング情報などのような、特性のそれぞれの共通のセットを含み得る。

マニフェストファイル66は、特定の適応セットに対応する表現68のサブセットを示すデータ、ならびに適応セットの共通の特性を含み得る。マニフェストファイル66はまた、適応セットの個々の表現のための、ビットレートのような個々の特性を表すデータを含み得る。このようにして、適応セットは、簡略化されたネットワーク帯域幅適応を可能にする場合がある。適応セット内の表現は、マニフェストファイル66の適応セット要素の子要素を使用して示され得る。

ブロードキャストソースデバイス60は出力インターフェース72を含む。ブロードキャストソースデバイス60は、出力インターフェース72を介してブロードキャストユニット74にマルチメディアコンテンツを提供する。

図1の例に示すように、マルチメディアコンテンツ64は、メディアプレゼンテーション記述(MPD)に対応し得るマニフェストファイル66を含む。マニフェストファイル66は、様々な代替の表現68(たとえば、品質が異なるビデオサービス)の記述を包含してよく、この記述は、たとえば、コーデック情報、プロファイル値、レベル値、ビットレート、および表現68の他の説明のための特性を包含し得る。クライアントデバイス40は、メディアプレゼンテーションのMPDを取り出して、表現68のセグメントにどのようにアクセスするかを決定することができる。

特に、受信ユニット52は、OTAブロードキャストミドルウェアユニットとメディアプレーヤクライアントの両方を含み得る。OTAブロードキャストミドルウェアユニットはメディアプレーヤクライアント用のプロキシサーバとして作用することができ、このプロキシサーバは、たとえば動的適応ストリーミングオーバーHTTP(DASH)に従って、ネットワークプロトコルを介してメディアデータを取り出すように構成されてよい。すなわち、メディアクライアントはDASHクライアントを備え得る。したがって、メディアクライアントは、ビデオデコーダ48の復号能力とビデオ出力44のレンダリング能力とを判断するために、クライアントデバイス40の構成データ(図示せず)を取り出せばよい。構成データは、クライアントデバイス40のユーザによって選択される言語の選好、クライアントデバイス40のユーザによって設定される深度の選好に対応する1つまたは複数のカメラ視野、および/または、クライアントデバイス40のユーザによって選択されるレーティングの選好のいずれかまたはすべてを含んでもよい。メディアクライアントは、HTTP GET要求および部分GET要求をOTAブロードキャストミドルウェアユニットに提出するように構成されてよい。受信ユニット52のいくつかの態様は、クライアントデバイス40の1つまたは複数のプロセッサまたは処理ユニット(図示せず)によって実行されるソフトウェア命令として実装されてよい。すなわち、受信ユニット52に関して説明した機能の部分は、ハードウェアとして実装されてよく、またはハードウェア、ソフトウェア、および/もしくはファームウェアの組合せとして実装されてよく、この場合、必要なハードウェアは、ソフトウェアもしくはファームウェアのための命令を実行するために設けられ得る。

受信ユニット52のメディアプレーヤクライアントは、クライアントデバイス40の復号能力およびレンダリング能力を、マニフェストファイル66の情報によって示される表現68の特性と比較すればよい。メディアプレーヤクライアントは、最初に、マニフェストファイル66の少なくとも一部分を取り出して、表現68の特性を判断すればよい。たとえば、メディアプレーヤクライアントは、1つまたは複数の適応セットの特性を記述するマニフェストファイル66の部分を要求する場合がある。メディアプレーヤクライアントは、クライアントデバイス40のコーディング能力およびレンダリング能力によって満たすことのできる特性を有する表現68のサブセット(たとえば、適応セット)を選択してよい。メディアプレーヤクライアントは、次いで、適応セット内の表現に対するビットレートを判断し、ネットワーク帯域幅の現在利用可能な量を判断し、ネットワーク帯域幅によって満たすことのできるビットレートを有する表現のうちの1つからセグメントを取り出してよい。

上述のように、受信ユニット52は、OTAブロードキャストミドルウェアユニットを含み得る。OTAブロードキャストミドルウェアユニットは、たとえばATSCに従ってOTAブロードキャスト信号を受信するように構成され得る。さらに、OTAブロードキャストミドルウェアユニットは、受信されたメディアデータをローカルにキャッシュし、受信ユニット52のメディアプレーヤクライアントからのデータに関するネットワーク要求に応答するネットワークプロキシサーバを実装し得る。

この例は、たとえば、ATSCによるOTAブロードキャストを含むが、他の例では、メディアデータは、拡張マルチメディアブロードキャストマルチキャストサービス(eMBMS)などのネットワークブロードキャストによりトランスポートされ得る。そのような例では、メディアデータは、ネットワークサーバ(概して、ブロードキャストソースデバイス60に対応し得る)によって、コンピュータベースのネットワーク(この例には示さず)を介してクライアントデバイス40にブロードキャストまたはマルチキャストされ得る。ネットワークは、サーバデバイスとクライアントデバイス40との間に配置されてよく、ルータ、スイッチ、ハブ、ゲートウェイなどのような、様々なネットワークデバイスを含み得る。さらに、受信ユニット52は、OTAブロードキャストミドルウェアユニットの代わりに、eMBMSミドルウェアユニットを含み得る。eMBMSミドルウェアユニットは、本明細書に記載されるOTAブロードキャスト受信ユニットの代わりにeMBMS受信ユニットを含むことを除いて、この例において記載されるOTAブロードキャストミドルウェアユニットと実質的に同じ動作をし得る。

受信ユニット52は、受信されたセグメントをカプセル化解除ユニット50に提供する。カプセル化解除ユニット50は、ビデオファイルの要素を構成PESストリームにカプセル化解除し、符号化データを取り出すためにPESストリームをパケット化解除し、たとえば、ストリームのPESパケットヘッダによって示されるように、符号化データがオーディオストリームまたはビデオストリームのいずれの一部であるのかに応じて、オーディオデコーダ46またはビデオデコーダ48のいずれかに符号化データを送り得る。オーディオデコーダ46は、符号化オーディオデータを復号し、復号したオーディオデータをオーディオ出力42に送る一方、ビデオデコーダ48は、符号化ビデオデータを復号し、ストリームの複数のビューを含み得る復号ビデオデータをビデオ出力44に送る。

ビデオエンコーダ28、ビデオデコーダ48、オーディオエンコーダ26、オーディオデコーダ46、カプセル化ユニット30、受信ユニット52、およびカプセル化解除ユニット50の各々は、適用可能である場合は、1つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、個別の論理回路、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せなど、様々な適切な処理回路のいずれかとして実装されてもよい。ビデオエンコーダ28およびビデオデコーダ48の各々は、1つまたは複数のエンコーダまたはデコーダ内に含まれてよく、これらのいずれもが、複合ビデオエンコーダ/デコーダ(コーデック)の一部として統合され得る。同様に、オーディオエンコーダ26およびオーディオデコーダ46の各々は、1つまたは複数のエンコーダまたはデコーダ内に含まれてよく、これらのいずれもが、複合コーデックの一部として統合され得る。ビデオエンコーダ28、ビデオデコーダ48、オーディオエンコーダ26、オーディオデコーダ46、カプセル化ユニット30、受信ユニット52、および/またはカプセル化解除ユニット50を含む装置は、集積回路、マイクロプロセッサ、および/またはセルラー電話のようなワイヤレス通信デバイスを含み得る。

クライアントデバイス40、ブロードキャストソースデバイス60、および/またはコンテンツ作成デバイス20は、本開示の技法に従って動作するように構成され得る。例として、本開示は、クライアントデバイス40およびブロードキャストソースデバイス60に関するこれらの技法について説明する。しかしながら、コンテンツ作成デバイス20は、ブロードキャストソースデバイス60の代わりに(または、ブロードキャストソースデバイス60に加えて)これらの技法を実施するように構成されてもよいことを理解されたい。

カプセル化ユニット30は、NALユニットが属するプログラム、ならびにペイロード、たとえばオーディオデータ、ビデオデータ、またはNALユニットが対応するトランスポートまたはプログラムストリームを記述するデータを特定するヘッダを含むNALユニットを形成することができる。たとえば、H.264/AVCにおいて、NALユニットは、1バイトのヘッダおよび可変サイズのペイロードを含む。そのペイロード内にビデオデータを含むNALユニットは、ビデオデータの様々な粒度レベルを含み得る。たとえば、NALユニットは、ビデオデータのブロック、複数のブロック、ビデオデータのスライス、またはビデオデータのピクチャ全体を含み得る。カプセル化ユニット30は、ビデオエンコーダ28からの符号化ビデオデータをエレメンタリストリームのPESパケットの形で受信することができる。カプセル化ユニット30は、各エレメンタリストリームを対応するプログラムに関連付けることができる。

カプセル化ユニット30はまた、複数のNALユニットからアクセスユニットをアセンブルすることができる。一般に、アクセスユニットは、ビデオデータのフレームならびにそのようなオーディオデータが利用可能であるときにそのフレームに対応するオーディオデータを表すために1つまたは複数のNALユニットを含むことができる。アクセスユニットは、一般に、1つの出力時間インスタンスに対するすべてのNALユニット、たとえば1つの時間インスタンスに対するすべてのオーディオデータおよびビデオデータを含む。たとえば、各ビューが20フレーム毎秒(fps)のフレームレートを有する場合、各時間インスタンスは、0.05秒の時間間隔に対応し得る。この時間間隔中、同じアクセスユニット(同じ時間インスタンス)のすべてのビューに対する特定のフレームは、同時にレンダリングされ得る。一例では、アクセスユニットは、一次コード化ピクチャとして提示され得る、1つの時間インスタンス内のコード化ピクチャを含み得る。

したがって、アクセスユニットは、共通の時間インスタンスのすべてのオーディオフレームおよびビデオフレーム、たとえば、時間Xに対応するすべてのビューを含むことができる。本開示はまた、特定のビューの符号化ピクチャを「ビューコンポーネント」と呼ぶ。すなわち、ビューコンポーネントは、特定の時間における特定のビューに対する符号化されたピクチャ(またはフレーム)を含み得る。したがって、アクセスユニットは、共通の時間インスタンスのすべてのビューコンポーネントを含むものとして定義され得る。アクセスユニットの復号順序は、必ずしも出力または表示の順序と同じである必要はない。

メディアプレゼンテーションは、異なる代替表現(たとえば、異なる品質を有するビデオサービス)の記述を包含し得るメディアプレゼンテーション記述(MPD)を含むことができ、記述は、たとえば、コーデック情報、プロファイル値、およびレベル値を含み得る。MPDは、マニフェストファイル66など、マニフェストファイルの一例である。クライアントデバイス40は、メディアプレゼンテーションのMPDを取り出して、様々なプレゼンテーションのムービーフラグメントにどのようにアクセスするかを決定することができる。ムービーフラグメントは、ビデオファイルのムービーフラグメントボックス(moofボックス)内に配置され得る。

マニフェストファイル66(たとえば、MPDを含み得る)は、表現68のセグメントの利用可能性を広告することができる。すなわち、MPDは、表現68のうちの1つの第1のセグメントが利用可能になる壁時計時間を示す情報、ならびに表現68内のセグメントの持続時間を示す情報を含み得る。このようにして、クライアントデバイス40の取出しユニット52は、開始時間ならびに特定のセグメントに先行するセグメントの持続時間に基づいて、各セグメントが利用可能であるときを判断することができる。

カプセル化ユニット30が、受信されたデータに基づいてNALユニットおよび/またはアクセスユニットをビデオファイルにアセンブルした後、カプセル化ユニット30は、ビデオファイルを出力のために出力インターフェース32に渡す。いくつかの例では、カプセル化ユニット30は、ビデオファイルを直接クライアントデバイス40に送る代わりに、ビデオファイルをローカルに記憶するか、または出力インターフェース32を介してビデオファイルをリモートサーバに送ることができる。出力インターフェース32は、たとえば、送信機、トランシーバ、たとえば、オプティカルドライブ、磁気媒体ドライブ(たとえば、フロッピードライブ)などのコンピュータ可読媒体にデータを書き込むためのデバイス、ユニバーサルシリアルバス(USB)ポート、ネットワークインターフェース、または他の出力インターフェースを含み得る。出力インターフェース32は、たとえば、送信信号、磁気媒体、光学媒体、メモリ、フラッシュドライブ、または他のコンピュータ可読媒体など、コンピュータ可読媒体にビデオファイルを出力する。

受信ユニット52は、ブロードキャストユニット74から受信されたブロードキャスト信号からNALユニットまたはアクセスユニットを抽出し、NALユニットまたはアクセスユニットを受信ユニット52に提供し、受信ユニット52はNALユニットをカプセル化解除ユニット50に配信してよい。カプセル化解除ユニット50は、ビデオファイルの要素を、構成PESストリームへとカプセル化解除し、PESストリームをパケット化解除して符号化データを取り出し、たとえば、ストリームのPESパケットヘッダによって示されるように、符号化データがオーディオストリームの一部かビデオストリームの一部かに応じて、符号化データをオーディオデコーダ46またはビデオデコーダ48のいずれかに送ることができる。オーディオデコーダ46は、符号化オーディオデータを復号し、復号オーディオデータをオーディオ出力42に送り、一方でビデオデコーダ48は、符号化ビデオデータを復号し、ストリームの複数のビューを含み得る復号ビデオデータを、ビデオ出力44に送る。

図1には明示的に示されていないが、クライアントデバイス40はメディアアプリケーションをさらに含み得る。メディアアプリケーションは、オーディオデコーダ46、ビデオデコーダ48、カプセル化解除ユニット50、および/または受信ユニット52のうちのいずれかの機能性の全部または一部分を実施することができる。たとえば、メディアアプリケーションは、受信ユニット52の一部を形成しても、または受信ユニット52から分離されてもよい。メディアアプリケーションは、上述の機能性に加えて、クライアントデバイス40に、グラフィカルユーザインターフェース(GUI)などのユーザインターフェースをユーザに対して提示させ、ムービーまたは他のプログラムコンテンツなどのマルチメディアデータの選択を可能にし得る。メディアアプリケーションは、選択されたコンテンツを受信ユニット52に対して表示し、上述のように、受信ユニット52に、選択されたプログラムコンテンツのメディアデータを受信させることができる。メディアアプリケーションはスタンドアロンソフトウェアであってよい。

図2は、図1の受信ユニット52の構成要素の例示的なセットをより詳細に示すブロック図である。この例では、受信ユニット52は、OTAブロードキャストミドルウェアユニット100と、DASHクライアント110と、メディアアプリケーション112とを含む。

OTAブロードキャストミドルウェアユニット100は、OTAブロードキャスト受信ユニット106と、キャッシュ104と、プロキシサーバ102とをさらに含む。この例では、OTAブロードキャスト受信ユニット106は、OTAブロードキャストを介し、たとえば、新型テレビジョンシステム委員会(ATSC)ブロードキャストを介してデータを受信するように構成される。すなわち、OTAブロードキャスト受信ユニット106は、たとえば、ブロードキャストソースデバイス60からのブロードキャストを介してファイルを受信し得る。

OTAブロードキャストミドルウェアユニット100は、ファイルに関するデータを受信すると、受信したデータをキャッシュ104内に記憶してよい。キャッシュ104は、フラッシュメモリ、ハードディスク、RAM、または任意の他の適切な記憶媒体などのコンピュータ可読記憶媒体を含み得る。

プロキシサーバ102は、DASHクライアント110のためのプロキシサーバとして作用し得る。たとえば、プロキシサーバ102は、MPDファイルまたは他のマニフェストファイルをDASHクライアント110に提供することができる。プロキシサーバ102は、MPDファイル内、ならびにセグメントを取り出すことができるハイパーリンク内のセグメントに関する利用可能性時間を広告することができる。これらのハイパーリンクは、クライアントデバイス40に対応するローカルホストアドレスプレフィックス(たとえば、IPv4に関する127.0.0.1)を含み得る。このようにして、DASHクライアント110は、HTTP GET要求または部分GET要求を使用して、プロキシサーバ102からセグメントを要求することができる。たとえば、リンクhttp://127.0.0.1/rep1/seg3から利用可能なセグメントに関して、DASHクライアント110は、http://127.0.0.1/rep1/seg3に関する要求を含むHTTP GET要求を構築し、その要求をプロキシサーバ102に提出することができる。プロキシサーバ102は、要求されたデータをキャッシュ104から取り出し、そのような要求に応答して、そのデータをDASHクライアント110に提供することができる。

DASHクライアント110は、セグメントを受信した後、セグメントのデータをメディアアプリケーション112に渡してよい。DASHクライアント110は、たとえば、セグメントからのメディアデータの抽出、および/またはメディアアプリケーション112によって使用できないデータの破棄を行うようにセグメントを処理してよい。いくつかの例では、DASHクライアント110は、ウェブブラウザの拡張機能として実装されてよく、メディアアプリケーション112は、ビデオおよび/または音楽再生アプリケーションとして実装されてよい。

図3は、例示的なマルチメディアコンテンツ120の要素を示す概念図である。マルチメディアコンテンツ120は、マルチメディアコンテンツ64(図1)、または記憶媒体62に記憶された別のマルチメディアコンテンツに対応し得る。図3の例では、マルチメディアコンテンツ120は、メディアプレゼンテーション記述(MPD)122と複数の表現124A〜124N(表現124)とを含む。表現124Aは、任意のヘッダデータ126とセグメント128A〜128N(セグメント128)とを含む一方、表現124Nは、任意のヘッダデータ130とセグメント132A〜132N(セグメント132)とを含む。文字Nが、便宜的に、表現124の各々の最後のムービーフラグメントを指定するために使用される。いくつかの例では、表現124同士の間で異なる数のムービーフラグメントが存在し得る。

MPD122は、表現124とは別個のデータ構造を含んでよい。MPD122は、図1のマニフェストファイル66に対応し得る。同様に、表現124は、図2の表現68に対応し得る。一般に、MPD122は、コーディングおよびレンダリングの特性、適応セット、MPD122が対応するプロファイル、テキストタイプ情報、カメラアングル情報、レーティング情報、トリックモード情報(たとえば、時間的なサブシーケンスを含む表現を示す情報)、および/または離れた期間を検索するための情報(たとえば、再生中のメディアコンテンツへのターゲティング広告の挿入)のような、表現124の特性を一般に表すデータを含んでよい。

ヘッダデータ126は、存在するとき、セグメント128の特性、たとえば、ランダムアクセスポイント(RAP、ストリームアクセスポイント(SAP)とも呼ばれる)の時間ロケーション、セグメント128のうちのどれがランダムアクセスポイントを含むのか、セグメント128内のランダムアクセスポイントへのバイトオフセット、セグメント128のユニフォームリソースロケータ(URL)、またはセグメント128の他の態様を記述し得る。ヘッダデータ130は、存在するとき、セグメント132の同様の特性を記述し得る。追加または代替として、そのような特性はMPD122内に完全に含まれ得る。

セグメント128、132は、1つまたは複数のコード化メディアサンプルを含む。セグメント128のコード化メディアサンプルの各々は、同様の特性、たとえば、言語(発話が含まれる場合)、ロケーション、コーデック、および帯域幅要件を有し得る。そのような特性は、MPD122のデータによって記述され得るが、そのようなデータは図3の例には示されていない。MPD122は、本開示で説明するシグナリングされた情報のいずれかまたはすべてが加えられた、3GPP仕様によって記述されるような特性を含み得る。

セグメント128、132の各々は、固有のユニフォームリソースロケータ(URL)に関連付けられ得る。したがって、セグメント128、132の各々は、DASHのようなストリーミングネットワークプロトコルを使用して、別個に取出し可能であり得る。このようにして、クライアントデバイス40のような宛先デバイスは、HTTP GET要求を使用して、セグメント128または132を取り出すことができる。いくつかの例では、クライアントデバイス40は、HTTP部分GET要求を使用して、セグメント128または132の特定のバイト範囲を取り出すことができる。

図4は、図3のセグメント128、132のうちの1つのような表現のセグメントに対応し得る例示的なメディアファイル150の要素を示すブロック図である。セグメント128、132の各々は、図4の例で示されるデータの構成に実質的に準拠するデータを含み得る。メディアファイル150は、セグメントをカプセル化すると言われ得る。上述したように、ISOベースメディアファイルフォーマットおよびその拡張に従ったビデオファイルは、「ボックス」と呼ばれる一連のオブジェクトにデータを記憶する。図4の例では、メディアファイル150は、ファイルタイプ(FTYP)ボックス152と、ムービー(MOOV)ボックス154と、セグメントインデックス(sidx)ボックス162と、ムービーフラグメント(MOOF)ボックス164と、ムービーフラグメントランダムアクセス(MFRA)ボックス166とを含む。図4は、ビデオファイルの例を表すが、他のメディアファイルは、ISOベースメディアファイルフォーマットおよびその拡張に従ってメディアファイル150のデータと同様に構成される他のタイプのメディアデータ(たとえば、オーディオデータ、時限のテキストデータなど)を含み得ることを理解されたい。

ファイルタイプ(FTYP)ボックス152は一般に、メディアファイル150のファイルタイプを表す。ファイルタイプボックス152は、メディアファイル150の最良の使用法を表す仕様を特定するデータを含み得る。ファイルタイプボックス152は、代替的には、MOOVボックス154、ムービーフラグメントボックス164、および/またはMFRAボックス166の前に配置され得る。

図4の例では、MOOVボックス154は、ムービーヘッダ(MVHD)ボックス156と、トラック(TRAK)ボックス158と、1つまたは複数のムービー延長(MVEX:movie extends)ボックス160とを含む。一般に、MVHDボックス156は、メディアファイル150の一般的な特性を記述し得る。たとえば、MVHDボックス156は、メディアファイル150がいつ最初に作成されたかを表すデータ、メディアファイル150がいつ最後に修正されたかを表すデータ、メディアファイル150のタイムスケールを表すデータ、メディアファイル150の再生の長さを表すデータ、または、メディアファイル150を全般的に記述する他のデータを含み得る。

TRAKボックス158は、メディアファイル150のトラックのデータを含み得る。TRAKボックス158は、TRAKボックス158に対応するトラックの特性を記述する、トラックヘッダ(TKHD)ボックスを含み得る。いくつかの例では、TRAKボックス158は、コード化ビデオピクチャを含み得るが、他の例では、トラックのコード化ビデオピクチャは、TRAKボックス158のデータおよび/またはsidxボックス162のデータによって参照され得るムービーフラグメント164内に含まれ得る。いくつかの例では、トラックのトラックIDは、メディアファイル150の完全に提示可能なオーディオプレゼンテーションについての識別子を表し得る。つまり、対応するトラックは、完全に提示可能なオーディオプレゼンテーション用のオーディオデータを含み得る。代替として、プログラム識別子(PID)が、完全に提示可能なオーディオプレゼンテーションを含む、MPEG-2 TSにおけるエレメンタリストリームに対応するプログラムを識別し得る。

いくつかの例では、メディアファイル150は、2つ以上のトラックを含み得る。したがって、MOOVボックス154は、メディアファイル150中のトラックの数と等しい数のTRAKボックスを含み得る。TRAKボックス158は、メディアファイル150の対応するトラックの特性を記述し得る。たとえば、TRAKボックス158は、対応するトラックの時間情報および/または空間情報を表す場合がある。MOOVボックス154のTRAKボックス158と同様のTRAKボックスは、カプセル化ユニット30(図3)がメディアファイル150のようなビデオファイル中にパラメータセットトラックを含める場合、パラメータセットトラックの特性を記述し得る。カプセル化ユニット30は、パラメータセットトラックを表すTRAKボックス内で、パラメータセットトラックにシーケンスレベルSEIメッセージが存在することをシグナリングすることができる。

MVEXボックス160は、たとえば、もしあれば、MOOVボックス154内に含まれるビデオデータに加えて、ムービーフラグメント164をメディアファイル150が含むことをシグナリングするために、対応するムービーフラグメント164の特性を記述し得る。ストリーミングビデオデータの状況では、コード化ビデオピクチャは、MOOVボックス154の中ではなくムービーフラグメント164の中に含まれ得る。したがって、すべてのコード化ビデオサンプルは、MOOVボックス154の中ではなくムービーフラグメント164の中に含まれ得る。

MOOVボックス154は、メディアファイル150の中のムービーフラグメント164の数に等しい数のMVEXボックス160を含み得る。MVEXボックス160の各々は、ムービーフラグメント164の対応する1つの特性を記述し得る。たとえば、各MVEXボックスは、ムービーフラグメント164の対応する1つの持続時間を記述するムービー延長ヘッダ(MEHD)ボックスを含み得る。

上述のように、カプセル化ユニット30は、実際のコード化ビデオデータを含まないビデオサンプル内にシーケンスデータセットを記憶し得る。ビデオサンプルは、一般にアクセスユニットに対応してよく、アクセスユニットは、特定の時間インスタンスにおけるコード化ピクチャの表現である。AVCの文脈では、アクセスユニットと、SEIメッセージのような他の関連する非VCL NALユニットとのすべてのピクセルを構築するための情報を包含する、1つまたは複数のVCL NALユニットをコード化ピクチャは含む。したがって、カプセル化ユニット30は、シーケンスレベルSEIメッセージを含み得るシーケンスデータセットを、ムービーフラグメント164のうちの1つの中に含め得る。カプセル化ユニット30はさらに、シーケンスデータセットおよび/またはシーケンスレベルSEIメッセージの存在を、ムービーフラグメント164のうちの1つに対応するMVEXボックス160のうちの1つの中のムービーフラグメント164のうちの1つの中に存在するものとして、シグナリングすることができる。

SIDXボックス162は、メディアファイル150の任意の要素である。すなわち、3GPPファイルフォーマットまたは他のそのようなファイルフォーマットに準拠するビデオファイルは、必ずしもSIDXボックス162を含むとは限らない。3GPPファイルフォーマットの例によれば、SIDXボックスは、セグメント(たとえば、メディアファイル150内に含まれるセグメント)のサブセグメントを識別するために使用され得る。3GPPファイルフォーマットは、「メディアデータボックスに対応する1つまたは複数の連続するムービーフラグメントボックスの自己完結型セットであって、ムービーフラグメントボックスによって参照されるデータを包含するメディアデータボックスが、そのムービーフラグメントボックスに続き、同じトラックについての情報を包含する次のムービーフラグメントボックスに先行する」としてサブセグメントを定義する。3GPPファイルフォーマットはまた、SIDXボックスが、「ボックスによって文書化された(サブ)セグメントのサブセグメントへの一連の参照を包含する。参照されるサブセグメントは、プレゼンテーション時間において連続する。同様に、セグメントインデックスボックスによって参照されるバイトは、セグメント内で常に連続する。参照されるサイズは、参照される材料におけるバイトの数のカウントを与える」ことを示す。

SIDXボックス162は、一般に、メディアファイル150内に含まれるセグメントの1つまたは複数のサブセグメントを表す情報を提供する。たとえば、そのような情報は、サブセグメントが開始および/または終了する再生時間、サブセグメントに関するバイトオフセット、サブセグメントがストリームアクセスポイント(SAP)を含む(たとえば、それによって開始する)かどうか、SAPのタイプ(たとえば、SAPが、瞬時デコーダリフレッシュ(IDR)ピクチャ、クリーンランダムアクセス(CRA)ピクチャ、ブロークンリンクアクセス(BLA)ピクチャなどのいずれであるか)、サブセグメント内の(再生時間および/またはバイトオフセットに関する)SAPの位置、などを含み得る。

ムービーフラグメント164は、1つまたは複数のコード化ビデオピクチャを含み得る。いくつかの例では、ムービーフラグメント164は、1つまたは複数のピクチャのグループ(GOP)を含んでよく、GOPの各々は、多数のコード化ビデオピクチャ、たとえばフレームまたはピクチャを含み得る。加えて、上記で説明したように、ムービーフラグメント164は、いくつかの例ではシーケンスデータセットを含み得る。ムービーフラグメント164の各々は、ムービーフラグメントヘッダボックス(MFHD、図4には示されない)を含み得る。MFHDボックスは、ムービーフラグメントのシーケンス番号などの、対応するムービーフラグメントの特性を記述し得る。ムービーフラグメント164は、メディアファイル150の中でシーケンス番号の順番に含まれ得る。

MFRAボックス166は、メディアファイル150のムービーフラグメント164内のランダムアクセスポイントを記述し得る。これは、メディアファイル150によってカプセル化されたセグメント内の特定の時間ロケーション(すなわち、再生時間)の探索を実施するなど、トリックモードを実施することを支援し得る。MFRAボックス166は、いくつかの例では、一般に任意選択であり、ビデオファイル中に含まれる必要はない。同様に、クライアントデバイス40のようなクライアントデバイスは、メディアファイル150のビデオデータを正確に復号し表示するために、MFRAボックス166を必ずしも参照する必要はない。MFRAボックス166は、メディアファイル150のトラックの数と等しい数のトラックフラグメントランダムアクセス(TFRA)ボックス(図示せず)を含んでよく、またはいくつかの例では、メディアファイル150のメディアトラック(たとえば、ノンヒントトラック)の数と等しい数のTFRAボックスを含んでよい。

いくつかの例では、ムービーフラグメント164は、IDRピクチャなどの1つまたは複数のストリームアクセスポイント(SAP)を含み得る。同様に、MFRAボックス166は、SAPのメディアファイル150内の位置の指示を提供し得る。したがって、メディアファイル150の時間的サブシーケンスは、メディアファイル150のSAPから形成され得る。時間的サブシーケンスはまた、SAPに従属するPフレームおよび/またはBフレームなどの他のピクチャを含み得る。時間的サブシーケンスのフレームおよび/またはスライスは、サブシーケンスの他のフレーム/スライスに依存する時間的サブシーケンスのフレーム/スライスが適切に復号されるように、セグメント内に配置され得る。たとえば、データの階層的配置において、他のデータのための予測に使用されるデータはまた、時間的サブシーケンス内に含まれ得る。

図5は、オーディオデータを受信するための例示的なシステム200を示す概念図である。システム200は、選択ユニット222、システムレイヤユニット224、オーディオデコーダ226、オーディオレンダリングユニット228、ブラウザ232、およびユーザインターフェース/エージェント230を含む。この例では、受信されたオーディオデータは、音楽&効果(M&E)ストリーム204(付随するシステムメタデータ202をもつ)、英語ダイアログストリーム208(付随するシステムメタデータ206をもつ)、ドイツ語ダイアログストリーム212(付随するシステムメタデータ210をもつ)、英語注釈ストリーム216(付随するシステムメタデータ214をもつ)、およびドイツ語注釈ストリーム220(付随するシステムメタデータ218をもつ)のうちのいずれかまたはすべてを含み得る。

概して、システムレイヤユニット224は、たとえば、オーディオデータなど、トランスポートされたメディアデータを受信するための、MPEG-2システムの技法を実装することができる。したがって、この例におけるシステムレイヤユニット224は、システムメタデータ202、206、210、214、および218を受信する。システムレイヤユニット224は、システムメタデータを、対応するストリームのオーディオデータにアクセスするのに使うことができる。システムレイヤユニット224はまた、ブロードキャストおよび/またはブロードバンドが利用可能であるかどうかなどのネットワーク能力を判断し、利用不可能なネットワーク上でのみ搬送されるストリームの選択を防止することができる。ユーザインターフェース/エージェント230は、M&Eストリーム204、英語ダイアログストリーム208、ドイツ語ダイアログストリーム212、英語注釈ストリーム216、および/またはドイツ語注釈ストリーム220のうちのいずれかまたはすべてを選択するために、システムレイヤユニット224によって提供されるAPIにより、選択データ238を渡せばよい。追加または代替として、ブラウザ232が、帯域内メディアリソーストラックをソーシングするW3Cにより、選択236をシステムレイヤユニット224に与えてよい。

システムレイヤユニット224は、選択データ240を選択ユニット222に渡す。選択ユニット222は、M&Eストリーム204、英語ダイアログストリーム208、ドイツ語ダイアログストリーム212、英語注釈ストリーム216、および/またはドイツ語注釈ストリーム220のうちのいずれかまたはすべての、メディアデータを受信する。選択ユニット222は、選択されたストリームからのオーディオデータをオーディオデコーダ226に渡す。たとえば、選択データ240が、M&Eストリーム204および英語ダイアログストリーム208が選択されていることを示す場合、選択ユニット222は、M&Eストリーム204および英語ダイアログストリーム208からのオーディオデータをオーディオデコーダ226に渡す。

オーディオデコーダ226は、選択ユニット222から受信されたオーディオデータを復号する。オーディオデコーダ226は、復号オーディオデータ242をオーディオレンダリングユニット228に渡す。オーディオレンダリングユニット228は、復号オーディオデータ242をミックスし、レンダリングされたオーディオデータを、1つまたは複数のスピーカー(図示せず)などのオーディオ出力に与える。

欧州電気通信標準化機構(ETSI)の文書、「Digital Video Broadcasting (DVB); MPEG-DASH Profile for Transport of ISO BMFFBased DVB Services over IP Based Networks」、ETSI TS 103 285 V1.1.1(2015年5月)は、節6.1.2において、以下のものを含むいくつかのDVB規則を記述している。
・すべてのオーディオ適応セットは、ISO/IEC 23009-1[1]において定義される方式「urn:mpeg:dash:role:2011」を使う少なくとも1つの役割要素を含むものとする。
・オーディオコンテンツ用に「main」にセットされた@value属性の使用は、適応セットが、コンテンツプロバイダによる好ましいオーディオ適応セットであることをプレーヤに対して示す。
○ただ1つの「main」がある場合、この適応セットは、デフォルトオーディオ適応セットである。
○DASHプレゼンテーションに複数のオーディオ適応セットがある場合、それらのうちの少なくとも1つは、「main」にセットされた@valueでタグ付けされるものとする。「main」にセットされた@valueをもつ複数の適応セットを有することが可能であるが、それらは、@langまたは@codecなど、他の属性によって区別されるものとする。複数の適応セットが、「main」にセットされた@valueを有する場合、プレーヤは、これらの適応セットのうちのどれが、使うのに最も適しているかを選ぶことになり、これらのすべてが不適切である場合のみ、プレーヤは、「main」以外のものにセットされた@valueをもつものを選んでよい。
・プログラムが、同じコーデックをもつが異なる言語に翻訳されたオリジナルサウンドトラック、たとえば、英語に翻訳された、本来はスペイン語での映画サウンドトラックをもつ複数のオーディオ適応セットを有する場合、1次言語のみが「main」にセットされ、他の言語はすべて「dub」にセットされた@valueを有するものとする。
○プレーヤは次いで、オーディオ言語が、ユーザによって望まれるダビング言語と一致することを確認するために、適応セットの@lang属性を評価するべきである。
○プログラムが、同じコーデックをもつが異なる言語での異なるオリジナルサウンドトラックをもつ複数のオーディオ適応セット、たとえば複数の解説者によって複数の言語で解説されるスポーツゲームを有する場合、すべての言語適応セットが、「main」にセットされた@valueを有するものとする。プレーヤは次いで、ユーザによって望まれる言語と一致するオーディオ言語を確認するために、適応セットの@lang属性を評価するべきである。
・プログラムが、複数のコーデック、同じオリジナルサウンドおよび同じ言語をもつ複数のオーディオ適応セットを有するが、コンテンツプロバイダが、コーデックを選好することを望まない場合、プログラムは、プレーヤに適応セットを選ばせるために、@valueをもつ複数の適応セットを「main」にセットしてよい。
・複数の役割がセットされる必要がある場合、複数の役割要素が使われるものとする。表4に示すように、役割およびアクセス可能性記述子の組み合わされた使用により、オーディオ記述およびクリーンオーディオストリームを含む適応セットが識別されるものとする。
・受信機混合オーディオ記述について、関連付けられたオーディオストリームは、関連適応セットの表現への依存を示し、したがって関連付けられたオーディオストリームが単独で表現として与えられないものとすることも示すのに、@dependencyId属性を使うものとする。プレーヤは、理解できない他の役割およびアクセス可能性記述子属性をもつオーディオストリームを無視するべきである。

以下の表は、MPEG-DASH ISO/IEC 23009-1:2014/Amendment 2からのデータを含む。

ISO/IEC 23009-1セクション5.8.5.7は、オーディオ受信機ミキシング技法について記述している。より詳細には、この節は、2つのオーディオ適応セットが、再生に先立ってメディアエンジンによってミックスされる必要があることを示すための、EssentialPropertyまたはSupplementaryPropertyにおける使用のための方式を定義している。この例では、方式を識別する@schemeIdUri属性は、urn:mpeg:dash:audio-receiver-mix:2014である。このセクションによると、@value属性は、完全オーディオエクスペリエンスを提供するために、現在の適応セットとミックスされる必要があるコンテンツタイプオーディオ属性をもつ適応セットからのAdaptationSet@idの値を含むものとする。受信機ミックスの例は、単一のオーディオ適応セットが音楽および効果、すなわち、ダイアログなしの完全オーディオエクスペリエンスを提供する場合であり、ここで、1つまたは複数の他の適応セットが、異なる言語でのダイアログを提供する。この場合、ダイアログ適応セットは、音楽および効果適応セットに依存することになる。ミキシング要求は一方向である。つまり、Aが選択されたときに表現Aを表現Bとミックスすることが要求されることは、Bが選択されたときに2つをミックスすることが要求されることを含意するのではない。

追加MPEG-DASHオーディオパラメータについて、以下で説明する。以下のパラメータ、すなわち@codecs、Audio Channel Configuration、Codec Independent Code Points、Channel Positions、Codec Independent Code Points、Sampling Rate、およびRatingは、Adaptation Setレベルでシグナリングされ得る。また、ネットワーク能力(ブロードキャストのみ、および/またはブロードバンド)は、いくつかのストリームを選択し、拒否するのに使われ得る。すべてのケースに対して、ストリームは、能力および選好に基づいて、システムレベルで選択/拒否についてシグナリングされ得る。

今日の時点でのメディアプレゼンテーション記述(MPD)におけるシグナリングの例を、以下に示す。
・Adaptation Set:@id=1;@codecs=mp4a.40.29
○Role(urn:mpeg:dash:role:2011、value="supplementary")
○Rep1:@qualityRanking=2 @bandwidth=32
○Rep2:@qualityRanking=1 @bandwidth=64
・Adaptation Set:@id=2;@lang=en;@codecs=mp4a.40.29
○Role(urn:mpeg:dash:role:2011、value="main")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・Adaptation Set:@id=3;@lang=de;@codecs=mp4a.40.29
○Role(urn:mpeg:dash:role:2011、value="main")
○Role(urn:mpeg:dash:role:2011、value="dub")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・Adaptation Set:@id=4;@lang=en;@codecs=mp4a.40.29
○Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・Adaptation Set:@id=5;@lang=de;@codecs=mp4a.40.29
○Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128

MPEG-2システムおよびHTML-5によるデータの例について、以下で説明する。変形体1のみが以下で定義されるが、変形体2aが使われてもよい。

要するに、レガシーシステムでは、大幅な量のシグナリングがあり得る。NGAコーデック用にシグナリングが削減され、または再利用され得る可能エリアは、システムレベルでのいくつかの能力に対する選択、プラットフォーム能力へのマッピング、および簡易ユーザインターフェース/ユーザエージェント(ブラウザ)へのマッピングを可能にする、既存の原理の再利用を含む。レガシーシステムには双方向性のためのツールがなく、NGAオーディオは、この双方向性をオーディオコーデックレベル内で可能にし得る。

図6は、本開示のいくつかの技法による、次世代オーディオデータの受信のための多くの変形体およびオプションをサポートするのに使われ得る例示的システム250を示す概念図である。概して、次世代オーディオデータ用に、全オーディオオブジェクト(または全オーディオストリーム)を復号するための単一のデコーダが存在する。したがって、システム250は、選択ユニット272、システムレイヤユニット274、オーディオ復号&レンダリングユニット276、ユーザインターフェース278、ユーザインターフェース/エージェント280、およびブラウザ282を含む。

この例では、音楽&効果(M&E)ストリーム254は、エントリーポイントオーディオストリームを表す。M&Eストリーム254は、すべてのプレゼンテーションに使われるデータ(たとえば、英語ダイアログストリーム258、ドイツ語ダイアログストリーム262、英語注釈ストリーム266、およびドイツ語注釈ストリーム270の各々)を含む。

DASHのケースでは、M&Eストリーム254、英語ダイアログストリーム258、ドイツ語ダイアログストリーム262、英語注釈ストリーム266、およびドイツ語注釈ストリーム270の各々が、それぞれの適応セットにマップされ得る。DASH MPDは、システムシグナリングデータを含み得る。Amd.2およびDVB DASHは、DASHベースラインシグナリングデータを含み得る。システムレイヤユニット274は、いくつかのネットワークの利用可能性を考慮に入れて、ネットワーク能力を判断し得る。システム270は、ブロードキャストおよびハイブリッド展開など、様々な展開において実装され得る。

オーディオ復号&レンダリングユニット276は、オーディオストリームメタデータ253を受信し得る。オーディオストリームメタデータ253は、たとえば、DASHのメディアプレゼンテーション記述(MPD)などのマニフェストファイル中に含まれ得る。最初に、オーディオ復号&レンダリングユニット276は、どのオーディオストリームが利用可能であるかを判断するために、オーディオストリームメタデータ253を処理し得る。オーディオ復号&レンダリングユニット276は利用可能性データ284をシステムレイヤユニット274に与えてよく、利用可能性データ284は、オーディオデータのどのセットが利用可能であるかを、オーディオストリームメタデータ253に基づいて示す。この例では、利用可能オーディオデータは、M&Eストリーム254(システムメタデータ252およびオーディオストリームメタデータ253が付随する)、英語ダイアログストリーム258(システムメタデータ256が付随する)、ドイツ語ダイアログストリーム262(システムメタデータ260が付随する)、英語注釈ストリーム266(システムメタデータ264が付随する)、およびドイツ語注釈ストリーム270(システムメタデータ268が付随する)を含む。

システムレイヤユニット274は、システムメタデータ252、256、260、264、および268を受信し得る。システムレイヤユニット274はまた、利用可能性データをブラウザ282および/またはユーザインターフェース/エージェント280に与え、ユーザ(またはユーザエージェント)から選択データを受信し得る。

ユーザは、システム250に対応するデバイスと、ユーザインターフェース278、ユーザインターフェース/エージェント280、およびブラウザ282を介して対話することができる。いくつかの例では、いずれかまたはすべてのユーザインターフェース278、ユーザインターフェース/エージェント280、およびブラウザ282が機能的に統合され得る。図6の例において、ユーザインターフェース/エージェント280は、選択データ288をシステムレイヤユニット274に与え得る。追加または代替として、ブラウザ282が、帯域内メディアリソーストラックをソーシングするW3Cにより、選択データ286をシステムレイヤユニット274に与えてよい。さらに別の例として、ブラウザ282は選択情報をユーザに提示することができ、ユーザは、ユーザインターフェース278による提示に応答して、オーディオコンテンツの選択を提供することができ、ユーザインターフェース278は、選択データ292をオーディオ復号&レンダリングユニット276に直接フォワードし得る。概して、選択データは、利用可能ストリームのうちのどれが、取出しおよび再生のために選択されるかを示す。

いくつかの例では、システムレイヤユニット274は、選択データ290を選択ユニット272に与える。選択ユニット272は、選択されたオーディオストリームからのオーディオデータをオーディオ復号&レンダリングユニット276に与える。オーディオ復号&レンダリングユニット276は、選択されたオーディオデータを、1つまたは複数のオーディオ出力デバイス、たとえば、1つまたは複数のスピーカー(図示せず)での再生のために復号し、レンダリングする。

このように、図6のシステム250は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図7は、システムを中心とする例示的なシステム300を示す概念図である。この例では、システム300は、システムレイヤユニット324、選択ユニット322、オーディオ復号&レンダリングユニット326、およびユーザインターフェース/エージェント330を含む。システムレイヤユニット324は、この例では、M&Eストリーム304とともに与えられるオーディオストリームメタデータ303に基づいて、およびユーザインターフェース/エージェント330からの入力332に基づいて、利用可能オーディオデータから選択をする。オーディオストリームメタデータ303は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。

この例では、オーディオ復号&レンダリングユニット326はオーディオストリームメタデータ303を受信する。オーディオストリームメタデータ303は、この例では、オーディオデータのどのセットが利用可能であるかを示す利用可能性データを含む。この例では、利用可能オーディオデータは、M&Eストリーム304(システムメタデータ302およびオーディオストリームメタデータ303が付随する)、英語ダイアログストリーム308(システムメタデータ306が付随する)、ドイツ語ダイアログストリーム312(システムメタデータ310が付随する)、英語注釈ストリーム316(システムメタデータ314が付随する)、およびドイツ語注釈ストリーム320(システムメタデータ318が付随する)を含む。

この例では、システムレイヤユニット324は、オーディオ復号&レンダリングユニット326の復号およびレンダリング能力と、利用可能ストリームの各々を復号し、レンダリングするのに必要とされる能力と、利用可能ストリームの各々のネットワーク能力および配信ネットワークと、各利用可能ストリームについてのメタデータ(すなわち、システムメタデータ302、306、310、314、318)とを表す情報を有する。この例によると、システムレイヤユニット324は、ネットワーク能力に基づいて利用可能ストリームをプルーニングし、プラットフォーム復号およびレンダリング能力に基づいて利用可能ストリームをプルーニングし、残りの利用可能ストリームを表す情報を、選択のためにエージェントのユーザインターフェース/エージェント330に提供する。システムレイヤユニット324は、ストリームの言語、ストリームの役割/アクセス可能性、およびレーティング(たとえば、様々な年齢グループ向けのコンテンツ適切度)に基づいて、利用可能ストリームから選択をすることができる。

この例では、システムレイヤユニット324は、選択データ334を選択ユニット322に与える。選択ユニット322は、選択されたストリームのオーディオデータを受信し、オーディオデータ336を、復号およびレンダリングのためにオーディオ復号&レンダリングユニット326にフォワードする。代替として、システムレイヤユニット324は、選択データをオーディオ復号&レンダリングユニット326に直接与えてよい。

代替例では、各メディアストリームは、たとえば、言語、レーティング、および役割/アクセス可能性に基づいて自己記述され得る。システムレイヤユニット324は、各ストリームの記述を、ストリームの選択のためにユーザインターフェース/エージェント330に与えてよい。システムレイヤユニット324は、ストリームを選択し、選択されたストリームのデータをオーディオ復号&レンダリングユニット326にフォワードしてよい。

この例では、システム300は、DASHギャップ分析を実施し得る。DASHギャップ分析は、DVBおよびMPEG-DASHオーディオメタデータに基づき得る。この例は、単一のデコーダ対複数のデコーダの提供をどのように差別化するか、エントリーポイントの単一デコーダ指示に対して、どのようにして始動するかについてのシーケンスを定義することが必要かどうか、メディアストリームレベルでのレンダリングのための依存を記述するツールの提供、適応セットがメイン適応セットでない場合に特定の適応セットが選択されるのを避けるためのツールの提供、および異なるAS中で一致する表現を見つけるための品質ランキングの使用という問題に対処することができる。様々な適応セットの品質ランキングは概して、適応セットについての、および/または適応セットに含まれる表現についての相対品質ランキング属性を表し得る。

この例では、システムレイヤユニット324は、別個に選択されるべきでないいくつかの適応セットを除外し得る。一例では、適応セットに類似しているが、適応セット依存およびシングルコーデックシグナリングを含む新しい要素が導入される。別の例では、必須記述子が適応セットとともに使われ、必須記述子は、適応セット依存およびシングルコーデックシグナリングを記述する。

さらに、メタデータは、依存適応セットが選択されたときにどの適応セットが選択される必要があるかをDASHクライアントに伝える、適応セットについての依存情報、適応セットすべてが、同じコーデックを使って符号化されたメディアデータを含むこと、およびコーデックに渡されるべき処理のシーケンスを記述し得る。その上、DASH MPD中の@qualityRanking属性が、各適応セット向けの正しい表現の選択をサポートするのに使われ得る。

必須記述子および部分適応セットに関連したシグナリングの例を、以下に挙げる。

必須記述子
・AS:@id=1;
○EssentialProperty(別個には提示しない)
○Rep1:@qualityRanking=2 @bandwidth=32
○Rep2:@qualityRanking=1 @bandwidth=64
・AS:@id=2;@lang=en
○EssentialProperty(プレゼンテーション依存、@value=1,2)
○Role(urn:mpeg:dash:role:2011、value="main")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・AS:@id=3;@lang=de
○EssentialProperty(プレゼンテーション依存、@value=1,3)
○Role(urn:mpeg:dash:role:2011、value="main")
○Role(urn:mpeg:dash:role:2011、value="dub")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・AS:@id=4;@lang=en
○EssentialProperty(プレゼンテーション依存、@value=1,4)
○Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・AS:@id=5;@lang=de
○EssentialProperty(プレゼンテーション依存、@value=1,3,5、@id="deutscher-kommentar")
○EssentialProperty(プレゼンテーション依存、@value=1,5@id="deutscher-kommentar")
○Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=12

部分適応セット例について、以下で説明する。
・PartialAS:@id=1;@present=FALSE
○Rep1:@qualityRanking=2 @bandwidth=32
○Rep2:@qualityRanking=1 @bandwidth=64
・PartialAS:@id=2;@lang=en;@present=TRUE、@sequence=1,2
○Role(urn:mpeg:dash:role:2011、value="main")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=3;@lang=de;@present=TRUE、@sequence=1,3
○Role(urn:mpeg:dash:role:2011、value="main")
○Role(urn:mpeg:dash:role:2011、value="dub")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=4;@lang=en;@present=TRUE、@sequence=1,4
○Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=5;@lang=de;@present=TRUE、@sequence=1,3,5
○Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128

別の代替では、システムメタデータ302、306、310、314、318が、様々なプレゼンテーションを記述し得る(プレゼンテーションの各々は、オーディオオブジェクト/ストリームの様々な組合せのうちの1つに対応する)。システムレイヤユニット324は次いで、1つのプレゼンテーションを選択すればよい。一例では、プレゼンテーションがストリームを記述してよく、システムレイヤユニット324は、選択されたプレゼンテーションに基づいて個々のストリームを選択すればよい。別の例では、プレゼンテーションが抽出されてよく、システムレイヤユニット324は、全ストリームを選択ユニット322にフォワードしてよい。

一例として、プレゼンテーションは、コンテンツ制作者によって提供され得る。コンテンツ制作者は、以下のような、組合せの限定セットを定義することができる。
・プレゼンテーション1:M&Eストリーム304、英語ダイアログストリーム308
・プレゼンテーション2:M&Eストリーム304、ドイツ語ダイアログストリーム312
・プレゼンテーション3:M&Eストリーム304、英語ダイアログストリーム308、英語注釈ストリーム316
・プレゼンテーション4:M&Eストリーム304、ドイツ語ダイアログストリーム312、ドイツ語注釈320

この例では、システム300は、DASHギャップ分析を実施し得る。この例は、単一のデコーダ対複数のデコーダの提供をどのようにして差別化するか、エントリーポイントの単一デコーダ指示に対して、どのようにして始動するかについてのシーケンスを定義することが必要かどうか、プレゼンテーションのコンパイルを記述するツールの提供、および適応セットが別個に選択されるべきでない場合に特定の適応セットが選択されるのを避けるためのツールの提供などの問題に対処し得る。

一例では、新規プレゼンテーション要素が、プレゼンテーションのメタデータおよびコンパイルを収集するのに使われ得る。依存データは、適応セットが、選択された適応セットに加え、どの適応セットが選択される必要があるか、適応セットすべてが、同じコーデックを使ってコード化されたメディアデータを含むこと、およびコーデックに渡されるべき処理のシーケンスをDASHクライアントに対して示すのに使われ得る。

いくつかの例では、選択されるべきプレゼンテーションに含まれる全適応セットが、プレゼンテーション要素から除外される場合がある。一例では、適応セットと本質的に等価であるが、オーディオ関連パラメータのためのシグナリングを含まない新しい要素が、マニフェストファイル中でシグナリングされる。別の例では、必須記述子が適応セットとともに与えられる。いくつかの例では、DASH MPD中の@qualityRanking属性が、各適応セットのための正しい表現の選択をサポートするためにシグナリングされる。

このように、図7のシステム300は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図8は、プレゼンテーション定義と部分適応セットの例との間のマッピングを示す概念図である。この例では、ID値1、2、3、4、および5を有する5つの部分適応セットがある。たとえば、適応セット1はM&Eストリームを表すことができ、適応セット2は英語言語ダイアログストリームを表すことができ、適応セット3はドイツ語言語ダイアログストリームを表すことができ、適応セット4は英語言語注釈ストリームを表すことができ、適応セット5はドイツ語言語ダイアログストリームを表すことができる。各部分適応セットは、シグナリングされた品質ランキング値(@qualityRanking)および帯域幅値(@bandwidth)をもつ、2つのそれぞれの表現を含む。

さらに、この例では、4つのプレゼンテーションがあり、各プレゼンテーションは、部分適応セットのうちの1つまたは複数の、組合せを表す。第1のプレゼンテーションは、ID値1および2を有する部分適応セットを含む。第2のプレゼンテーションは、ID値1および3を有する部分適応セットを含む。第3のプレゼンテーションは、ID値1および4を有する部分適応セットを含む。第4のプレゼンテーションは、ID値1、3、および5を有する部分適応セットを含む。

図9は、システムレイヤ処理およびHTML-5を使う別の例示的なシステム350を示す概念図である。この例では、システム350は、選択ユニット372、システムレイヤユニット374、オーディオ復号&レンダリングユニット376、およびブラウザ382を含む。システムレイヤユニット374は、この例では、M&Eストリーム354とともに与えられるオーディオストリームメタデータ353に基づいて、およびブラウザ382からの入力386に基づいて、利用可能オーディオデータから選択をする。オーディオストリームメタデータ353は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。

この例では、オーディオ復号&レンダリングユニット376はオーディオストリームメタデータ353を受信する。オーディオストリームメタデータ353は、この例では、オーディオデータのどのセットが利用可能であるかを示す利用可能性データを含む。この例では、利用可能オーディオデータは、M&Eストリーム354(システムメタデータ352およびオーディオストリームメタデータ353が付随する)、英語ダイアログストリーム358(システムメタデータ356が付随する)、ドイツ語ダイアログストリーム362(システムメタデータ360が付随する)、英語注釈ストリーム366(システムメタデータ364が付随する)、およびドイツ語注釈ストリーム370(システムメタデータ368が付随する)を含む。

図9の例は、システムレイヤユニット374がネットワーク能力を含み、利用可能オーディオストリームの選択を助けるためにウェブブラウザ382から入力を受信することを除いて、上述した図7の例と同様である。図7の例に関して記載したのと同じ決定プロセスが、図9の例に使われてよい。ウェブブラウザ382が、帯域内メディアリソーストラックをソーシングするW3Cに従って、選択データ386をシステムレイヤユニット374に与えてよい。

概して、図7に関して上で論じた技法は、システムレイヤユニット374が、いくつかの例ではプレゼンテーションをHTML-5プレゼンテーションに分解し、マップするように構成され得ることを除いて、図9のシステム350によって実施されてもよい。つまり、ユーザが、選択されたオーディオストリームを表す入力を、ブラウザ382を介して提供してよく、ブラウザ382は、選択データ386をシステムレイヤユニット374に送る。システムレイヤユニット374は、選択データ386を処理し、対応する選択データ388を選択ユニット372に送る。選択ユニット372は次いで、選択データ386を、対応する選択されたオーディオデータを抽出し、選択されたオーディオデータ390をオーディオ復号&レンダリングユニット376にフォワードするのに使う。

このように、図9のシステム350は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図10は、システムレイヤ情報およびオーディオデコーダを使う別の例示的なシステム400を示す概念図である。この例では、システム400は、選択ユニット422、システムレイヤユニット424、オーディオ復号&レンダリングユニット426、ユーザインターフェース428、およびブラウザ432を含む。この例も、システムレイヤユニット424が、利用可能オーディオストリームから選択をするためにオーディオ復号&レンダリングユニット426と対話することを除いて、上述した図7の例と同様である。

この例では、オーディオ復号&レンダリングユニット426はオーディオストリームメタデータ403を受信する。オーディオストリームメタデータ403は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。オーディオストリームメタデータ403は、この例では、オーディオデータのどのセットが利用可能であるかを示す利用可能性データを含む。この例では、利用可能オーディオデータは、M&Eストリーム404(システムメタデータ402およびオーディオストリームメタデータ403が付随する)、英語ダイアログストリーム408(システムメタデータ406が付随する)、ドイツ語ダイアログストリーム412(システムメタデータ410が付随する)、英語注釈ストリーム416(システムメタデータ414が付随する)、およびドイツ語注釈ストリーム420(システムメタデータ418が付随する)を含む。

この例では、システムレイヤユニット424は、各メディアストリームのネットワーク能力および配信ネットワークと、オーディオ復号&レンダリングユニット426の復号能力とを表すデータを有する。この例では、システムレイヤユニット424は、特定のメタデータを処理する必要がない。オーディオ復号およびレンダリングユニット426のオーディオ復号ユニットは、そのレンダリングユニットのレンダリング能力を表す情報、ならびに各メディアストリームに割り当てられたメタデータを有して構成される。このメタデータは、システムレイヤ用に定義される従来のメタデータよりもはるかに豊富であり得る。

さらに、システムレイヤユニット424は、ネットワーク能力および復号能力に基づいて利用可能ストリームをプルーニングするように構成され得る。システムレイヤユニット424は次いで、ネットワーク能力に基づく、すべての利用可能ストリームを示すデータ440を、オーディオ復号&レンダリングユニット426のオーディオ復号ユニットに提供し得る。オーディオ復号&レンダリングユニット426のオーディオ復号ユニットは次いで、どのストリームが必要とされる(または、されない)かを示すデータ434を、システムレイヤユニット424に送ってよい。システムレイヤユニット424は次いで、データ434に従ってストリームを選択解除してよい。この選択は動的であり得る。

このように、図10のシステム400は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図11は、データの例示的なセット、および@bundleIDについての値と様々なタイプの配信ネットワークを介した利用可能性との間の対応を示す概念図である。この例において、@bundleID=1は、部分適応セットがブロードキャストを介して利用可能であることを示し、@bundleID=2は、部分適応セットがブロードバンドを介して(たとえば、ユニキャスト取出しのために)利用可能であることを示す。この例では、@id値1および6を有する部分適応セットは、同じメディアセグメントおよびURLを含むが、異なる構成情報を含む。

図11の例において使われる、MPEG文書M37191の提案によるデータは、以下を含む。

これらのデータ要素には、次のように値が割り当てられ得る。
・PartialAdaptationSetデータは、可能性としては単一の適応セットが使えない場合があることをシグナリングし得る
・@bundleIDは、全適応セットが1つの単一のデコーダに属することをシグナリングし得る
・@isMainは、複数の適応セットにエントリーポイントを提供し得る
・@memberIDは、全適応セットに、オーディオデコーダによって参照され得るように注釈をつけることができる
・PartialAdaptationSetは、より優れたハイブリッドサポートのために、複数のバンドルのメンバーであることに留意されたい。

図11の例に示すデータセットは、以下の通りである。
・PartialAS:@id=1;@main=TRUE;@bundleID=1;@memberID="ME"
○Rep1:@qualityRanking=2 @bandwidth=32
○Rep2:@qualityRanking=1 @bandwidth=64
・PartialAS:@id=2;@bundleID=1;@memberID="en-dialogue"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=3;@bundleID=1;@memberID="de-dialog"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=4;@bundleID=1;@memberID="motorway"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=5;@bundleID=1;@memberID="autobahn"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128

図12は、部分適応セットの例示的なセットについてのデータネットワーク利用可能性の例を示す概念図である。図12の例は、図11の例に対する代替として与えられる。

データ要素は、次のように使われ得る。
・PartialAdaptationSetは、可能性としては単一の適応セットが使えない場合があることをシグナリングする
・@sequence値の一部は、全適応セットが1つの単一のデコーダに属することをシグナリングし得る
・@sequenceの第1の値は、複数の適応セットにエントリーポイントを提供し得る
・@memberIDは、全適応セットに、オーディオデコーダによって参照され得るように注釈をつけることができる
・注:上の図11の例に関して論じた@bundleIDが、上のデータに加えて、1つのデコーダインスタンスをシグナリングするのに使われ得る

図12の例に示すデータセットは、以下の通りである。
・PartialAS:@id=1;@present=TRUE;@sequence=1,2,3,4,5;@memberID="ME"
○Rep1:@qualityRanking=2 @bandwidth=32
○Rep2:@qualityRanking=1 @bandwidth=64
・PartialAS:@id=2;@memberID="en-dialogue"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=3;@memberID="de-dialog"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=4;@memberID="motorway"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=5;@memberID="autobahn"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128

図13は、本開示の技法による、種々の選択技法を使う別の例示的なシステム450を示す概念図である。システム450の例は、選択ユニット472、システムレイヤユニット474、オーディオ復号&レンダリングユニット476、ユーザインターフェース478、ユーザインターフェース/エージェント480、およびブラウザ482を含む。この例では、システムレイヤユニット474は、(システムレイヤユニット474に関連付けられた)ユーザインターフェース/エージェント480、ウェブブラウザ482、および/またはオーディオ復号&レンダリングユニット476のオーディオ復号ユニットのうちのいずれかまたはすべてから選択データを受信し得る。

この例では、オーディオ復号&レンダリングユニット476はオーディオストリームメタデータ453を受信する。オーディオストリームメタデータ453は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。オーディオストリームメタデータ453は、この例では、オーディオデータのどのセットが利用可能であるかを示す利用可能性データを含む。この例では、利用可能オーディオデータは、M&Eストリーム454(システムメタデータ452およびオーディオストリームメタデータ453が付随する)、英語ダイアログストリーム458(システムメタデータ456が付随する)、ドイツ語ダイアログストリーム462(システムメタデータ460が付随する)、英語注釈ストリーム466(システムメタデータ464が付随する)、およびドイツ語注釈ストリーム470(システムメタデータ468が付随する)を含む。

図13の例によると、システムレイヤユニット474は、各メディアストリームについてのネットワーク能力および配信ネットワークと、オーディオ復号&レンダリングユニット476のオーディオ復号ユニットの能力と、言語およびアクセス可能性など、基本システムメタデータとを表すデータを有し得る。オーディオ復号&レンダリングユニット476のオーディオ復号ユニットは、オーディオ復号&レンダリングユニット476のオーディオレンダリングユニットの能力を表すデータと、各メディアストリームに割り当てられたメタデータとを有し得る。この例では、メタデータは、従来のシステムレベルメタデータよりもはるかに豊富であり得る。

システムレイヤユニット474は、ネットワーク能力、復号能力、および基本システムメタデータに基づいて、利用可能ストリームをプルーニングすることができる。システムレイヤユニット474は次いで、ネットワーク能力およびシステムメタデータに基づいて利用可能である残りのストリームを表すデータを、オーディオ復号&レンダリングユニット476のオーディオ復号ユニットに与えればよい。オーディオ復号ユニットは、どのストリームが必要とされる(および/またはされない)かを示すデータ484を、システムレイヤユニット474に与える。それに応答して、システムレイヤユニット474は、この情報に従ってストリームを選択するか、または選択解除すればよい。この選択は動的であり得る。さらに、ユーザインターフェース/エージェント480が、追加選択情報488をシステムレイヤユニット474に提供してよく、かつ/またはブラウザ482が、追加選択情報486をシステムレイヤユニット474に提供してよい。オーディオ復号&レンダリングユニット476は、ユーザインターフェース478から受信された選択情報492を、どのストリームが必要とされるか、またはされないかを判断するのに使えばよい。最終的に、システムレイヤユニット474は、選択データ490を選択ユニット472に与えてよく、選択ユニット472は、選択されたストリームをオーディオ復号&レンダリングユニット476にフォワードしてよい。

以下の説明は、図13の例のためのDASHギャップ分析に関する。
・情報の複製は魅力的に思われるが、どのようにして複製するか、選択によって何を意味するか、などの詳細を理解する必要があるので、比較的複雑である
・オプションは、以下を含む。
○システムレベルでの事前選択
詳細を調べることの必要性
上で論じた様々な例の組合せが可能であり得る
○受信機が実装についての選択肢を有するような複製
詳細を調べることの必要性

図13の例による例示的なデータセットを、以下に示す。
・システムレベルでの言語、MPEG-Hオーディオデコーダにおけるメディアストリームの詳細な選択
・PartialAS:@id=1;@present=FALSE;@memberID="ME"
○Rep1:@qualityRanking=2 @bandwidth=32
○Rep2:@qualityRanking=1 @bandwidth=64
・PartialAS:@id=2;@lang=en;@present=FALSE;@memberID="en-dialogue"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=3;@lang=de;@present=FALSE;@memberID="de-dialog"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=4;@lang=en;@present=TRUE、@sequence=1,2,4;@memberID="motorway"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=5;@lang=de;@present=TRUE、@sequence=1,3,5;@memberID="autobahn"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128

上の例示的なデータセットに基づいて、図13の例示的システムによって実施され得る処理ステップは、以下を含む。
・システム情報に基づいて、システムレイヤユニット474は、英語が選ばれている場合はAS1、2、もしくは4、またはドイツ語が選ばれている場合はAS1、3、もしくは5のいずれかを選択すればよい。
・オーディオ復号&レンダリングユニット476のオーディオ復号ユニットは、可能な場合、注釈などの特定のオーディオデータが選択されるべきかどうか、またはシステムレイヤユニット474がシステムの選択を上書きすることができるかどうかを示すデータを、システムレイヤユニット474に提供してよい。
・これはしたがって、異なる実装を可能にする。

システム選択をもつハイブリッドシステムにおいて使用するためのデータセットの例を、以下に示す。
・PartialAS:@id=1;@present=FALSE;@sequence=1,2,3,4,5;@memberID="ME";
○Rep1:@qualityRanking=2 @bandwidth=32
○Rep2:@qualityRanking=1 @bandwidth=64
・PartialAS:@id=6;@present=FALSE;@sequence=1,2;@memberID="ME"
○Rep1:@qualityRanking=2 @bandwidth=32
○Rep2:@qualityRanking=1 @bandwidth=64
・PartialAS:@id=2;@lang=en;@memberID="en-dialogue"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=3;@lang=de;@bundleID=2;@memberID="de-dialogue"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=4;@lang=en;@bundleID=2;@memberID="motorway"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128
・PartialAS:@id=5;@lang=de;@bundleID=2;@memberID="autobahn"
○Rep1:@qualityRanking=2 @bandwidth=64
○Rep2:@qualityRanking=1 @bandwidth=128

このように、本開示の技法は、システムおよびオーディオデコーダレベルでの多くの使用ケースのために使われ得る。これらの技法は、システムおよびオーディオコーデック選択ならびにネットワーク能力、ブロードキャストとハイブリッドの両方など、シグナリングおよび実装形態の異なる態様を考慮する。

本開示の技法による1つの例示的なソリューションは、以下に示すようなデータを含み得る。

これらのデータ要素についての値は、次のようにセットされ得る。

PartialAdaptationSetは、可能性としては単一の適応セットが使えない場合があることをシグナリングする。

@sequence要素の一部は、全適応セットが単一のデコーダに属することをシグナリングし得る。

@sequenceの第1の値は、複数の適応セットにエントリーポイントを提供し得る。

@memberIDの値は、全適応セットに、オーディオデコーダによって参照され得るように注釈をつけることができる。

@bundleIDの値は、上述したように、1つのデコーダインスタンスをシグナリングするのに使われ得る。

このように、図13のシステム450は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図14は、システムレイヤデータおよびオーディオデコーダを使う、本開示の技法による別の例示的なシステム750を示す概念図である。つまり、システム750は、選択ユニット772、システムレイヤユニット774、オーディオストリームメタデータ処理ユニット780、オーディオ復号&レンダリングユニット776、ユーザインターフェース778、およびブラウザ782を含む。

この例では、オーディオストリームメタデータ処理ユニット780は、オーディオストリームメタデータ753を受信する。オーディオストリームメタデータ753は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。オーディオストリームメタデータ753は、この例では、オーディオデータのどのセットが利用可能であるかを示す利用可能性データを含む。この例では、利用可能オーディオデータは、M&Eストリーム754(システムメタデータ752およびオーディオストリームメタデータ753が付随する)、英語ダイアログストリーム758(システムメタデータ756が付随する)、ドイツ語ダイアログストリーム762(システムメタデータ760が付随する)、英語注釈ストリーム766(システムメタデータ764が付随する)、およびドイツ語注釈ストリーム770(システムメタデータ768が付随する)を含む。

図14の例は、図13の例に対する代替を表す。具体的には、図13に示すように、システムレイヤユニットと対話するオーディオデコーダおよびレンダラではなく、図14の例では、オーディオストリームメタデータ処理ユニット780が、システムレイヤユニット774と対話し、可能性としては選択データ792に基づいて、利用可能メディアストリームをプルーニングするためにシステムレイヤユニット774にデータ784を与える。システムレイヤユニット774は選択データ790を選択ユニット772に与え、選択ユニット772は、選択されたストリームのデータをオーディオストリームメタデータ処理ユニット780にフォワードする。オーディオストリームメタデータ処理ユニット780は、メディアデータ796をオーディオ復号&レンダリングユニット776に与える。

図15〜図17は、本開示の技法による例示的なオーディオデータモデルを示す概略図である。概して、図15〜図17のオーディオデータモデルは、以下の特性に準拠する。
・オーディオバンドル:単一の次世代オーディオ(NGA)デコーダインスタンスによって消費されるストリームのセット(オブジェクト/適応セット)
○システムレベルにおいて妥当
・事前選択:選択され、有用なプレゼンテーションを提供し得る、1つのバンドルからのいくつかのストリーム
○システムレベルにおいて主として妥当
・メインストリーム:デコーダ固有情報(オーディオメタデータ)を含むストリームが、バンドル全体に対してデコーダをブートストラップする
○オーディオコーデックレベルにおいて主として妥当
・シグナリングを実装し、柔軟性を可能にする

このように、図14のシステム750は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図15は、事前選択ユニット514、NGAオーディオデコーダ520、およびユーザインターフェース516を含む例示的システム500を示す。NGAオーディオデコーダ520は、NGAプロセッサ522およびオーディオ復号&レンダリングユニット524を含む。図15の例において、NGAオーディオデコーダ520および事前選択ユニット514は、オーディオストリームメタデータ502を音楽および効果(M&E)メディアストリーム504とともに受信する。オーディオストリームメタデータ502は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。この例では、各オーディオオブジェクトは、単一の固有ストリーム中で与えられる。したがって、M&Eストリーム504、英語ダイアログストリーム506、ドイツ語ダイアログストリーム508、英語注釈ストリーム510、およびドイツ語注釈ストリーム512の各々は、固有ストリーム中で与えられる。NGAオーディオデコーダ520は、この例では、ストリームのうちのどれを取り出すかを、ユーザインターフェース516を介して受信された入力528に基づいて判断する。事前選択ユニット514は、ストリームのうちのどれが、要求されたオーディオデータ(たとえば、ダイアログ用の言語、および所望される場合、注釈用の言語)を含むかを、NGAオーディオデコーダ520によって与えられるフィードバックに基づいて判断し、NGAオーディオデコーダ520は、ユーザインターフェース516を介して受信されたユーザ選択528を処理する。具体的には、NGAプロセッサ522は、ユーザ選択528を処理し、受信されたオーディオデータ526からの選択されたオーディオストリームをオーディオ復号&レンダリングユニット524にフォワードし、オーディオ復号&レンダリングユニット524は、選択されたオーディオストリームのオーディオデータを復号し、レンダリングする。

このように、図15のシステム500は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図16は、事前選択ユニット544、NGAオーディオデコーダ550、およびユーザインターフェース546を含む例示的システム530を示す。NGAオーディオデコーダ550は、NGAプロセッサ552およびオーディオ復号&レンダリングユニット554を含む。図16の例において、NGAオーディオデコーダ550および事前選択ユニット544は、オーディオストリームメタデータ532を音楽および効果(M&E)メディアストリーム534とともに受信する。オーディオストリームメタデータ532は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。

図16の例において、複数のオブジェクトが単一のストリーム中で与えられ得る。具体的には、この例では、M&Eストリーム534および英語ダイアログ536が単一のメディアストリーム535中で与えられ、他のオーディオオブジェクトは、単一の、それぞれのストリーム中で与えられる。つまり、ドイツ語ダイアログストリーム538、英語注釈ストリーム540、およびドイツ語注釈ストリーム542は、この例では、固有ストリーム中で与えられる。ただし、他のオーディオオブジェクトのうちのどれもが、単一のストリームに組み合わせられ得る。たとえば、単一のストリームが、ドイツ語ダイアログストリーム538とドイツ語注釈ストリーム542の両方を含み得る。

NGAオーディオデコーダ550は、この例では、ストリームのうちのどれを取り出すかを、ユーザインターフェース546を介して受信された入力558に基づいて判断する。事前選択ユニット544は、ストリームのうちのどれが、要求されたオーディオデータ(たとえば、ダイアログ用の言語、および所望される場合、注釈用の言語)を含むかを、NGAオーディオデコーダ550によって与えられるフィードバックに基づいて判断し、NGAオーディオデコーダ550は、ユーザインターフェース546を介して受信されたユーザ選択558を処理する。具体的には、NGAプロセッサ552は、ユーザ選択558を処理し、受信されたオーディオデータ556からの選択されたオーディオストリームをオーディオ復号&レンダリングユニット554にフォワードし、オーディオ復号&レンダリングユニット554は、選択されたオーディオストリームのオーディオデータを復号し、レンダリングする。

このように、図6のシステム530は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図17は、事前選択ユニット574、NGAオーディオデコーダ580、およびユーザインターフェース576を含む例示的システム560を示す。NGAオーディオデコーダ580は、NGAプロセッサ582およびオーディオ復号&レンダリングユニット584を含む。図17の例において、NGAオーディオデコーダ580および事前選択ユニット574は、オーディオストリームメタデータ562を音楽および効果(M&E)メディアストリーム564とともに受信する。オーディオストリームメタデータ562は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。

図17の例において、各オーディオオブジェクトは、単一のストリーム、すなわちメディアストリーム565中で与えられる。具体的には、この例では、M&Eストリーム564、英語ダイアログストリーム566、ドイツ語ダイアログストリーム568、英語注釈ストリーム570、およびドイツ語注釈ストリーム572が、メディアストリーム565中で与えられる。

NGAオーディオデコーダ580は、この例では、ストリームのうちのどれを取り出すかを、ユーザインターフェース576を介して受信された入力588に基づいて判断する。事前選択ユニット574は、ストリームのうちのどれが、要求されたオーディオデータ(たとえば、ダイアログ用の言語、および所望される場合、注釈用の言語)を含むかを、NGAオーディオデコーダ580によって与えられるフィードバックに基づいて判断し、NGAオーディオデコーダ580は、ユーザインターフェース576を介して受信されたユーザ選択588を処理する。具体的には、NGAプロセッサ582は、ユーザ選択588を処理し、受信されたオーディオデータ586からの選択されたオーディオストリームをオーディオ復号&レンダリングユニット584にフォワードし、オーディオ復号&レンダリングユニット584は、選択されたオーディオストリームのオーディオデータを復号し、レンダリングする。

このように、図17のシステム560は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

別々に示されているが、単一の受信機が、図15〜図17のうちのいずれかのモデルに準拠するオーディオデータを、単独で、または任意の組合せで受信するように構成され得る。さらに、図15〜図17の例には示さないが、図15〜図17の例示的システムのうちのいずれかが、図5〜図7、図9、図10、図13、または図14のシステムレイヤユニットと実質的に同様に構成されたシステムレイヤユニットをさらに含み得る。

図15〜図17の例による受信機デバイスは、次のように動作するように構成され得る。システムレイヤユニットが、各メディアストリームのネットワーク能力&配信ネットワーク、デコーダ能力、および基本的システムレイヤメタデータ(たとえば、言語、アクセス可能性、レーティング)を判断し得る。
・NGAセレクタは、以下のものを判断し得る。
○各メディアストリームに割り当てられたメタデータ
○メタデータは、システムレベルで今日定義されているものよりもはるかに豊富であり得る
・システムメタデータを使うシステムレイヤは、以下のことができる。
○ネットワーク能力、復号能力および基本システムメタデータに基づいて、メディアストリームおよび事前選択をプルーニングする
○ネットワーク能力およびシステムメタデータに基づいて利用可能である、1つの事前選択の全ストリームを、オーディオデコーダに提供する
・オーディオデコーダは、オーディオメタデータに基づいて、どのストリームが必要とされる(されない)かをシステムレイヤに知らせ得る
○システムレイヤは、この情報に従ってストリームを選択(解除)する
・選択は動的であり得る。

図18は、ウェブブラウザ632とMPEG-2システムレイヤユニット624との間に配置されたユーザインターフェース/エージェント634を含む受信機デバイス600の例を示す概念図である。受信機デバイス600は選択ユニット622およびNGAオーディオデコーダ626も含み、NGAオーディオデコーダ626はNGAプロセッサ628およびオーディオ復号&レンダリングユニット630を含む。

最初に、NGAプロセッサ628はオーディオストリームメタデータ603を受信することができ、このメタデータは、音楽&効果(M&E)ストリーム604(付随するシステムメタデータ602をもつ)、英語ダイアログストリーム608(付随するシステムメタデータ606をもつ)、ドイツ語ダイアログストリーム612(付随するシステムメタデータ610をもつ)、英語注釈ストリーム616(付随するシステムメタデータ614をもつ)、およびドイツ語注釈ストリーム620(付随するシステムメタデータ618をもつ)を含む、メディアデータの各利用可能ストリームを記述するデータを含む。オーディオストリームメタデータ603は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。その上、NGAオーディオデコーダ626は、たとえば、オーディオ復号&レンダリングユニット630によって処理され得る利用可能ストリームを表すデータ636を、システムレイヤユニット624に与える。システムレイヤユニット624は、この例ではシステムメタデータ602、606、610、614、および618を受信し、ストリームのうちのどれが選択に応じられるかを表すデータをウェブブラウザ632に送る。

この例では、ユーザが、選択されたオーディオストリームを表す入力を、ウェブブラウザ632を介して提供し得る。追加または代替として、ユーザは、ユーザインターフェース/エージェント634を介して入力を提供し得る。これらの例において、ウェブブラウザ632が、ユーザの選択を表すデータ638を渡し、かつ/またはユーザインターフェース/エージェント634が、選択を表すデータ640を渡す。システムレイヤユニット624は、データ638および/または640を受信し、選択を表すデータ642を事前選択ユニット622に与える。

事前選択ユニット622は、ストリームのうちのどれが、M&Eストリーム604とともに与えられたオーディオストリームメタデータ603からの、要求されたオーディオデータ(たとえば、ダイアログおよび/または注釈)を含むかを判断し、適切なストリームを選択する。事前選択ユニット622は次いで、選択されたストリームからのオーディオデータ644をNGAオーディオデコーダ626にフォワードする。NGAオーディオデコーダ626は、オーディオ復号&レンダリングユニット630を使ってオーディオデータを復号し、レンダリングし、次いで、復号され、レンダリングされたオーディオデータを、1つまたは複数のスピーカー(図示せず)などのオーディオ出力にフォワードする。

このように、図18の受信機デバイス600は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図19は、ウェブブラウザ682とNGAオーディオデコーダ676との間に配置されたユーザインターフェース684を含む受信機デバイス650の別の例を示す概念図である。この例は、ユーザインターフェース684が、利用可能オーディオストリームの選択を表す、ユーザからの入力をNGAオーディオデコーダ676に与え、NGAオーディオデコーダ676が、入力/選択を表すデータ686をシステムレイヤユニット674に与えることを除いて、図18の例に実質的に準拠する。MPEG-2システムレイヤユニット674は、データ692を事前選択ユニット672に与える。事前選択ユニット672は、利用可能オーディオストリームのうちのどれが、M&Eストリーム654とともに与えられたオーディオストリームメタデータ653からの、要求されたオーディオデータ(たとえば、ダイアログおよび/または注釈)を含むかを判断する。オーディオストリームメタデータ653は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。

この例では、利用可能オーディオデータは、M&Eストリーム654(付随するシステムメタデータ652をもつ)、英語ダイアログストリーム658(付随するシステムメタデータ656をもつ)、ドイツ語ダイアログストリーム662(付随するシステムメタデータ660をもつ)、英語注釈ストリーム666(付随するシステムメタデータ664をもつ)、およびドイツ語注釈ストリーム670(付随するシステムメタデータ668をもつ)を含む。システムレイヤユニット624は、この例では、システムメタデータ652、656、660、664、および668を受信し、選択に応じられるストリームのタイプを表すデータ688を、ウェブブラウザ682に送る。

事前選択ユニット672は、ストリームのうちのどれが、M&Eストリーム654とともに与えられたオーディオストリームメタデータ653からの、要求されたオーディオデータ(たとえば、ダイアログおよび/または注釈)を含むかを判断し、適切なストリームを選択する。事前選択ユニット672は次いで、選択されたストリームからのオーディオデータ694をNGAオーディオデコーダ676にフォワードする。NGAオーディオデコーダ676は、オーディオ復号&レンダリングユニット680を使ってオーディオデータを復号し、レンダリングし、次いで、復号され、レンダリングされたオーディオデータを、1つまたは複数のスピーカー(図示せず)などのオーディオ出力にフォワードする。

このように、図19の受信機デバイス650は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

図20は、受信機デバイス700の別の例を示す概念図である。この例は、図18および図19の例の組合せを表す。つまり、受信機デバイス700は、図18の受信機デバイス600および/または図19の受信機デバイス650の例のいずれかまたは両方に従って機能するように構成され得る。

この例では、受信機デバイス700は、事前選択ユニット722、システムレイヤユニット724、NGAオーディオデコーダ726、ユーザインターフェース734、ユーザインターフェース/エージェント732、およびブラウザ746を含む。NGAオーディオデコーダ726は、NGAプロセッサ728およびオーディオ復号&レンダリングユニット730を含む。

この例では、ユーザインターフェース734は、利用可能オーディオストリームの選択を表す、ユーザからの入力をNGAオーディオデコーダ726に与え得る。この例では、NGAオーディオデコーダ726は、入力/選択を表すデータ736をシステムレイヤユニット724に与える。代替として、ユーザインターフェース/エージェント732および/またはブラウザ746が、それぞれ、NGAオーディオデコーダ726にとっての利用可能オーディオストリームの選択を表すデータ740、738を、システムレイヤユニット724に与え得る。いずれのケースでも、MPEG-2システムレイヤユニット724は、事前選択ユニット722にデータ742を与える。事前選択ユニット722は、利用可能オーディオストリームのうちのどれが、M&Eストリーム704とともに与えられたオーディオストリームメタデータ703からの、要求されたオーディオデータ(たとえば、ダイアログおよび/または注釈)を含むかを判断する。オーディオストリームメタデータ703は、たとえば、DASHのMPDなどのマニフェストファイルに含まれ得る。

この例では、利用可能オーディオデータは、M&Eストリーム704(付随するシステムメタデータ702をもつ)、英語ダイアログストリーム708(付随するシステムメタデータ706をもつ)、ドイツ語ダイアログストリーム712(付随するシステムメタデータ710をもつ)、英語注釈ストリーム716(付随するシステムメタデータ714をもつ)、およびドイツ語注釈ストリーム720(付随するシステムメタデータ718をもつ)を含む。システムレイヤユニット724は、この例では、システムメタデータ702、706、710、714、および718を受信し、選択に応じられるストリームのタイプを表すデータを、ウェブブラウザ746に送る。

事前選択ユニット722は、ストリームのうちのどれが、M&Eストリーム704とともに与えられたオーディオストリームメタデータ703からの、要求されたオーディオデータ(たとえば、ダイアログおよび/または注釈)を含むかを判断し、適切なストリームを選択する。事前選択ユニット722は次いで、選択されたストリームからのオーディオデータ744をNGAオーディオデコーダ726にフォワードする。NGAオーディオデコーダ726は、オーディオ復号&レンダリングユニット730を使ってオーディオデータを復号し、レンダリングし、次いで、復号され、レンダリングされたオーディオデータを、1つまたは複数のスピーカー(図示せず)などのオーディオ出力にフォワードする。

このように、図20の受信機デバイス700は、デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、デジタル論理回路機構中に実装され、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えることを行うように構成されたオーディオデータ処理ユニットとを含む、オーディオデータを受信するためのデバイスの例を表す。

オーディオデータ(および、したがって、オーディオストリーム)の事前選択のために使われ得るデータは、一例として、以下を含み得る。
・システムレイヤがあらかじめ選択することを可能にする必須事前選択データ:
○@codecs
AC-4およびMPEG-Hオーディオの2つのみ
○ネットワーク能力(ブロードキャストのみ、ブロードバンド)
・可能な事前選択データ:
○役割およびアクセス可能性
Amd.2からの役割方式でカバーされる。
○言語
ISO/IEC言語タグの可能値に基づく。
○オーディオチャンネル構成
コーデック非依存コードポイント:ISO/IEC23001-9
○チャンネル位置
コーデック非依存コードポイント:ISO/IEC23001-9
○サンプリングレート
整数値を有し得る
○レーティング
ATSCにおいて利用可能な任意の方式。
○慎重に定義される必要がある任意の他のもの。
・事前選択がMPEG-2システムレベルにおいて可能にされている場合、いくつかのストリームは、オーディオデコーダにとって利用可能でない場合がある。

上で論じた図に示すものなど、本開示によるデバイスおよびシステムは、以下の一般要件およびソリューションに従って動作し得る。
・可能性としては単一の適応セットは使うことができないことをシグナリングする→タイプPartialASを定義する。
・全適応セットが単一のデコーダに属することをシグナリングする→@bundleID。
・事前選択のシグナリングを提供する:
○オプション1:部分AS中で与えられるストリームを参照する事前選択要素。
○オプション2:新規依存要素を使うストリームの線形依存。
○すべてのケースにおいて、事前選択にはメタデータで注釈がつけられ得る。事前選択要素は、たとえば、ユーザエージェントによる自動選択のために使うことができるパラメータを含み得る。
・バンドルのメインストリームに注釈をつける。
○オプション1:@mainシグナリングを追加する。
○オプション2:@sequence属性の第1のストリーム。
・1つのストリーム中にあるオブジェクトに注釈をつける→ContentComponent。
・オーディオデコーダによって参照され得るように、全部分適応セットに注釈をつける→@memberID。

上で論じた図に示すものなど、本開示によるデバイスおよびシステムは、以下のATSC警告に従って動作し得る。
・ブロードキャストを通して分配される完全プレゼンテーションが常にあるものと予期される→選択され得るとともに完全オーディオメタデータも含むフル適応セットにする。
・個々に選択することができない適応セットを通して追加メディアストリームを記述する。
・多重化バージョンならびに別個のバージョンを可能にする→コンポーネントIDを追加する。

以下は、ATSC用ソリューションの1つの例示的提案であり、本開示のデバイスもしくはシステムのうちのいずれか、または同様のデバイスもしくはシステムによって実装され得る。
・通常はブロードキャストを介して配信される、正確に1つの完全適応セットを常に提供する。
・通常はブロードバンドを介して与えられる、追加オブジェクトについての、関連付けられた部分適応セットを提供する。
○部分適応セットが、必須記述子および新規方式とともにシグナリングされ得る。
○記述子の値は、適応セットIDのシーケンスの演算に、対応する完全適応セットの開始点を提供し得る。
・各オブジェクトをContentComponentとしてシグナリングする。
○記述は、各オブジェクト用の既存のパラメータを使って与えられ得る。単一のコンテンツコンポーネントのみが含まれる場合、これは、ASレベルでシグナリングされ得る。
○ContentComponent@idの値は、コーデックによって所有され、たとえば、情報がフォワードされた場合、オブジェクトを識別するのに使われ得る。
・異なる適応セット中での一致する表現を可能にするための@qualityRankingを提供する。
・さらに、事前選択をシグナリングする新規ex:PreSelection拡張要素が与えられ得る。
○事前選択は、複数のオブジェクト(ContentComponent@idをポイントすることによって与えられる)の組合せを提供し、信号事前選択IDを割り当て得る。
○事前選択要素中の追加メタデータはコーデック固有であってもよい。

関数への例示的なマッピングを、以下に挙げる。
・可能性としては単一の適応セットを使うことができないことをシグナリングする→タイプPartialASを定義する→必須記述子だが、1つのAS中の常に1つの完全事前選択である。
・全適応セットが単一のデコーダに属することをシグナリングする→@bundleID→バンドルIDは、メイン適応セットの@idであり、全ASが、その必須記述子値において、このASに属することをシグナリングする。
・事前選択のシグナリングを提供する:
○オプション1:部分AS中で与えられるストリームを参照する事前選択要素→これは情報用に使うことができる。
○オプション2:新規依存要素を使うストリームの線形依存→これは、ContentComponentレベルにおいて使うことができる。
○すべてのケースにおいて、事前選択にはメタデータで注釈がつけられ得る。
・バンドルのメインストリームに注釈をつける:
○オプション1:1つの完全適応セットを表すための@mainシグナリングを追加する。
○オプション2:1つの完全適応セットを表すための@sequence属性の第1のストリーム。
・1つのストリーム中にあるオブジェクトに注釈をつける→ContentComponent→同じ。
・オーディオデコーダによって参照され得るように、全部分適応セットに注釈をつける→@memberID→ContentComponent@id。

上で論じた技法によるデータの例示的なセットは、以下の通りである。
・メインオーディオストリームが、M&Eオブジェクトならびに英語ダイアログを含む。
・さらに、以下のものが、上で論じた例において利用可能である(ただし他の例では、他の言語でのオーディオデータの他のセットが利用可能であってよい):
○ドイツ語ダイアログ
○英語注釈
○ドイツ語注釈

図5〜図20の例において、様々なデバイスおよびそのユニットは、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアまたはファームウェアで実装されるとき、必須ハードウェアも提供され得ることを理解されたい。そのようなハードウェアは、個別論理回路機構、たとえば、1つもしくは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他の等価な集積論理回路もしくはディスクリート論理回路機構などで実装される様々なプログラム可能および/または固定目的処理ユニットのうちのどれを含んでもよい。

さらに、図5〜図20の例では、様々なオーディオストリームは、たとえば、MPEG-HもしくはAC-4パート2、または他のそのようなオーディオコーディング規格に準拠し得る。オーディオストリームを送信するための送信規格は、各オーディオストリームが単一のプログラムストリーム、別個のそれぞれのプログラムストリーム、または1つもしくは複数のオーディオストリームが単一のMPEG-2 TSプログラムストリーム中で搬送され得るとともに複数のMPEG-2 TSプログラムストリーム(各々が1つもしくは複数のオーディオストリームを搬送する)が存在する、オーディオストリームとプログラムストリームとの間のN:M関係において搬送され得るようなMPEG-2トランスポートストリーム(TS)を含む。追加または代替として、オーディオストリームは、オーディオオブジェクトを含むMPEGメディアトランスポート(MMT)アセットとして含まれ得る。

図21は、MPEG-2システムレベルで行われる、全データの例示的な選択を示す概念図である。矢印は、事前選択されたオーディオデータと、選択されたデータを含むストリームとの間の対応を表す。対応は、様々な例において上述したように、事前選択ユニットによって決定され得る。

図22は、M&Eオーディオデータに加え、英語注釈の選択が行われる例を示す概念図である。英語言語注釈の選択は、英語言語注釈を含む適応セットの@id=4属性を使うストリームを識別することによって、または@id="commentary-english"属性を使う事前選択を介してのいずれかで行われ得る。図22は特に、図21に示すデータセットからの、事前選択された、または選択された属性と合致しない適応セットのプルーニングに続いて、何が残っているかを示す。

図23は、事前選択ユニット(または別のユニット)が適応セットをプルーニングして、ユーザによって選択されていないものを削除する別の例を示す概念図である。この場合、M&Eストリームおよび英語ダイアログストリームについて事前選択が行われる。事前選択ユニットは次いで、すべての他のストリーム、すなわち、「1」に等しい@id要素、ContentComponent@id="me"、ContentComponent@id="en-dialogue"、および/または@id="main-english"を有していないものをプルーニングし得る。図23は特に、図21に示すデータセットからの、事前選択された、または選択された属性と合致しない適応セットのプルーニングに続いて、何が残っているかを示す。

代替として、事前選択が選択のために使われ得る。事前選択を選択のために使うとき、以下のデータが、この順序で使われ得る。
・コーデック、プロファイルおよびレベル指示、たとえば、復号される必要があるオブジェクトの所要総数を含む@codecs
・事前選択のレーティング制約
・他の能力
・ユーザ対話ベースの選択のためのラベル
・ラベルは、表示のために異なる言語で利用可能であり得る
・事前選択@langの唯一の現行または支配的(いずれであってもよい)言語
・既存定義による、事前選択の割り当てられた役割
・オーディオにやはり割り当てられる他のパラメータ
・@priority(複数が留まっている場合、選択)
・@bundleID(デコーダインスタンスシグナリング)

たとえば、上述した事前選択ユニットによって実施される例示的なプルーニングプロセスは、次のようになる。
・最初に、能力(たとえば、コーディングおよびレンダリング能力)についての事前選択をプルーニングする。事前選択要素中で指定され、プラットフォーム上で利用可能な場合、通常、
○コーデックプロファイル/レベル、
○レーティング制約、および/または
○他のオーディオ能力、たとえば、レンダリング。
・可能な場合、ユーザ選択を行うのにラベルを使う(おそらく、加入時ではなく)
・事前選択(言語、役割など)をさらにプルーニングするのに、システムデフォルトを使う
・最後に、最も高い優先度をもつ残りの事前選択を選択するのに優先度を使う。

以下は、より複雑な使用ケースの例である。
・ストリーム:
○ストリームA=(2つの多重化オーディオコンポーネント)=M&E+ダイアログ1次言語(EN)
○ストリームB=ダイアログ2次言語(DE)
○ストリームC=注釈(EN)
○ストリームD=注釈(DE)
・事前選択:
○オプション1=M&E+ダイアログ(EN)
○オプション2=M&E+ダイアログ(DE)
○オプション3=M&E+ダイアログ(EN)+注釈(EN)
○オプション4=M&E+ダイアログ(DE)+注釈(DE)
○オプション5=M&E+ダイアログ(DE)+注釈(EN)
○オプション6=M&E+注釈(EN)
・仮定:
○一緒に復号された2つのコンポーネントが@codecs="nga1.level1"を必要とする
○一緒に復号された3つのコンポーネントが@codecs="nga1.level2"を必要とする

いくつかの例では、マニフェストファイル(たとえば、MPD)中で同じコンテンツが複数回識別され得る。以下は、そのような例を示す。
・AdaptationSet:@id=1;@codecs="nga1"
○ContentComponent@id="me"
Role(urn:mpeg:dash:role:2011、value="supplementary")
○ContentComponent@id="en-dialogue"@lang=en
Role(urn:mpeg:dash:role:2011、value="main")
○Rep1:@qualityRanking=2 @bandwidth=96 broadband
○Rep2:@qualityRanking=1 @bandwidth=196 broadcast
・AdaptationSet:@id=2;@codecs="nga1"
○EssentialDescriptor(@schemeIDURI="partial";@value="1,2")
○ContentComponent@id="de-dialog"@lang=de
Role(urn:mpeg:dash:role:2011、value="main")
Role(urn:mpeg:dash:role:2011、value="dub")
○Rep1:@qualityRanking=2 @bandwidth=64 broadband
○Rep2:@qualityRanking=1 @bandwidth=128 broadband
・AdaptationSet:@id=3;@codecs="nga2"
○EssentialDescriptor(@schemeIDURI="partial";@value="1,3")
○ContentComponent@id="motorway"@lang=en
Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64 broadband
○Rep2:@qualityRanking=1 @bandwidth=128 broadband
・AdaptationSet:@id=4;@codecs="nga2"
○EssentialDescriptor(@schemeIDURI="partial";@value="1,2,4")
○ContentComponent@id="autobahn"@lang=de
Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64 broadband
○Rep2:@qualityRanking=1 @bandwidth=128 broadband
・AdaptationSet:@id=5;@codecs="nga2"
○EssentialDescriptor(@schemeIDURI="partial";@value="1,2,5")
○ContentComponent@id="motorway"@lang=en
Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64 broadband
○Rep2:@qualityRanking=1 @bandwidth=128 broadband
・AdaptationSet:@id=6;@codecs="nga1"
○EssentialDescriptor(@schemeIDURI="partial";@value="1,6")
○ContentComponent@id="motorway"@lang=en
Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64 broadband
○Rep2:@qualityRanking=1 @bandwidth=128 broadband

このマニフェストファイルデータによる事前選択の例は、次のようになり得る。
・事前選択
○@id="option 1"
○@included="me,en-dialogue"
○ラベル
@lang="en";@value="English main"
@lang="de";@value="Englisch Dialog"
・事前選択
○@id="option 2"
○@included="me,de-dialog"
○ラベル
@lang="en";@value="German main"
@lang="de";@value="Deutscher Dialog"
・事前選択
○@id="option 3"
○@included="me,en-dialogue,motorway"
○ラベル
@lang="en";@value="English Commentary"
@lang="de";@value="Englischer Kommentar"
・事前選択
○@id="option 4"
○@included="me,de-dialog,autobahn"
○ラベル
@lang="en";@value="English with German Commentary"
@lang="de";@value="Englisch mit Deutschem Kommentar"
・事前選択
○@id="option 5"
○@included="me,de-dialog,motorway"
○ラベル
@lang="en";@value="English with German Commentary"
@lang="de";@value="Englisch mit Deutschem Kommentar"
・事前選択
○@id="option 6"
○@included="me,motorway"
○ラベル
@lang="en";@value="English with German Commentary"
@lang="de";@value="Englisch mit Deutschem Kommentar"

別の例では、事前選択は、以下に示す選択に基づき得る。
・AdaptationSet:@id=1;@codecs="nga1"
○ContentComponent@id="me"
Role(urn:mpeg:dash:role:2011、value="supplementary")
○ContentComponent@id="en-dialogue"@lang=en
Role(urn:mpeg:dash:role:2011、value="main")
○Rep1:@qualityRanking=2 @bandwidth=96 broadband
○Rep2:@qualityRanking=1 @bandwidth=196 broadcast
・AdaptationSet:@id=3;@codecs="nga2"
○EssentialDescriptor(@schemeIDURI="partial";@value="1,3")
○ContentComponent@id="de-dialog"@lang=de
Role(urn:mpeg:dash:role:2011、value="main")
Role(urn:mpeg:dash:role:2011、value="dub")
○Rep1:@qualityRanking=2 @bandwidth=64 broadband
○Rep2:@qualityRanking=1 @bandwidth=128 broadband
・AdaptationSet:@id=4;@codecs="nga2"
○EssentialDescriptor(@schemeIDURI="partial";@value="1,4")
○ContentComponent@id="motorway"@lang=en
Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64 broadband
○Rep2:@qualityRanking=1 @bandwidth=128 broadband
・AdaptationSet:@id=5;@codecs="nga2"
○EssentialDescriptor(@schemeIDURI="partial";@value="1,5")
○ContentComponent@id="autobahn"@lang=de
Role(urn:mpeg:dash:role:2011、value="commentary")
○Rep1:@qualityRanking=2 @bandwidth=64 broadband
○Rep2:@qualityRanking=1 @bandwidth=128 broadband

このマニフェストファイルデータによる事前選択の例は、次のようになり得る。
・事前選択
○@id="option 1",@included="me,en-dialogue";@codecs=nga1;@priority=1
○ラベル
@lang="en";@value="English main"
@lang="de";@value="Englisch Dialog"
・事前選択
○@id="option 2"、@included="me,de-dialog";@codecs=nga1;@priority=2
○ラベル
@lang="en";@value="German main"
@lang="de";@value="Deutscher Dialog"
・事前選択
○@id="option 3"、@included="me,en-dialogue,motorway";@codecs=nga2;@priority=3
○ラベル
@lang="en";@value="English Dialogue and Commentary"
@lang="de";@value="Englischer Dialog mit Kommentar"
・事前選択
○@id="option 4"、@included="me,de-dialog,autobahn";@codecs=nga2;@priority=4
○ラベル
@lang="en";@value="German with German Commentary"
@lang="de";@value="Deutsch mit Deutschem Kommentar"
・事前選択
○@id="option 5"、@included="me,de-dialog,motorway";@codecs=nga2;@priority=5
○ラベル
@lang="en";@value="German with English Commentary"
@lang="de";@value="Deutsch mit Englischem Kommentar"
・事前選択
○@id="option 6",@included="me,motorway";@codecs=nga1;@priority=6
○ラベル
@lang="en";@value="German Commentary"
@lang="de";@value="Deutscher Kommentar"

上の例において、nga1および「German」が選択された場合、残りの事前選択オプションは、@id="option2"を有する事前選択になる。

ATSC使用ケースの例について以下で説明する。任意の要素および属性はイタリック体で示される。

以下で説明する第1、第2、第3、および第4の例示的なATSC使用ケースは概して、ちょうど1つの完全メインオーディオストリームをもつプログラムを配信する放送事業者を伴う。これらの例では、このプログラムに利用可能な他のオーディオオプションはない。
・AdaptationSet:@id=1;@codecs="nga1";@lang=en
○ContentComponent@id="complete"
○Role(urn:mpeg:dash:role:2011、value="main")
○Rep1:@bandwidth=196 broadcast
・事前選択
○@id="main-english"
○@included="complete"

第1、第2、第3、および第4の例示的なATSC使用ケースは、次のようになる。
・放送事業者が、ちょうど1つの完全メインオーディオストリームをもつプログラムを配信する。このプログラムに利用可能な他のオーディオオプションはない。
・放送事業者が、2つ以上の完全メインオーディオストリームをもつプログラムを、ブロードキャストにより提供する。ストリームのうちのただ1つが、たとえば以下に従って、DASHマニフェスト中で利用可能な今日のオーディオプロパティシグナリングに基づいてクライアントによって選ばれる。
○受信機のオーディオ言語選好設定、
○受信機のアクセス可能性設定、
○受信機のコーデック能力、および/または
○受信機の出力選好(たとえば、ステレオ対マルチチャンネル出力)。
・放送事業者が、個々の完全メインオーディオストリームとは他の形で、視聴者に複数のオーディオオプションを提供するプログラムを配信する。つまり、放送事業者は、たとえば、1次言語、2次言語、ビデオ記述サービスなどを復号するために、すべての所要オーディオコンポーネントを含む1つのシングルオーディオストリームを提供することができる。ストリームからのオーディオオプションのうちのただ1つが、以下に基づいて、クライアントによって選ばれる。
○DASHマニフェスト中で利用可能な今日のオーディオプロパティシグナリング、および/または
○没入型および個別化コンテンツをシグナリングするためにDASH-IFによって定義されるべき新規パラメータもしくは方法。
・放送事業者が、ハイブリッドサービス、すなわち2つのオーディオオプションをもつプログラムを提供する。1つのメインオーディオストリームはブロードキャストにより配信されてよく、別のメインオーディオストリームはブロードバンドにより配信されてよい。ストリームのうちのただ1つが、以下に基づいて、クライアントによって選ばれる。
○DASHマニフェスト中で利用可能な今日のオーディオプロパティシグナリング、
○没入型および個別化コンテンツをシグナリングするためにDASH-IFによって定義されるべき新規パラメータもしくは方法、ならびに/または
○接続性(イーサネット(登録商標)もしくはWiFiを介した、ハイブリッドコンテンツへの可能/不能にされたアクセス)。

第5、第6、および第7の例示的なATSC使用ケースは、2つ以上の完全メインオーディオストリームをもつプログラムをブロードキャストにより提供する放送事業者を伴う。ストリームのうちのただ1つが、たとえば、受信機のオーディオ言語選好設定、受信機のアクセス可能性設定、受信機のコーデック能力、および受信機の出力選好(たとえば、ステレオ対マルチチャンネル出力)に従って、DASHマニフェスト中で利用可能な今日のオーディオプロパティシグナリングに基づいてクライアントによって選ばれる。
・AdaptationSet:@id=1;@codecs="nga1";@lang=en
○ContentComponent@id="complete"
○Role(urn:mpeg:dash:role:2011、value="main")
○Rep1:@bandwidth=196 broadcast
・AdaptationSet:@id=2;@codecs="nga1";@lang=de
○ContentComponent@id="complete"
○Role(urn:mpeg:dash:role:2011、value="dub")
○Rep1:@bandwidth=196 broadcast
・事前選択
○@id="main-english"
○@bundleID=1
○@included="complete"
・事前選択
○@id="main-german"
○@bundleID=2
○@included="complete"

上で論じたデータを使うことができる、第5、第6、および第7の例示的なATSC使用ケースは、次のようになる。
・放送事業者がハイブリッドサービスを提供する。多くのオーディオオプションをもつプログラムであって、共通オーディオコンポーネント(たとえば、音楽および効果)ならびに1次言語オーディオがブロードキャストにより配信される。2次言語および他のオーディオコンポーネントは、ブロードバンドにより配信される。全オーディオオプションは、共通コンポーネントが連携して復号されることを必要とする。オーディオオプションのうちのただ1つが、以下に基づいて、クライアントによって選ばれる。
○DASHマニフェスト中で利用可能な今日のオーディオプロパティシグナリング
○没入型および個別化コンテンツをシグナリングするためにDASH-IFによって定義されるべき新規パラメータまたは方法
○接続性(イーサネット(登録商標)またはWiFiを介した、ハイブリッドコンテンツへの可能/不能にされたアクセス)
・放送事業者が、多くのオーディオオプションをもつプログラムを提供し、全オーディオコンポーネントがブロードバンドにより配信される。オーディオオプションのうちのただ1つが、以下に基づいて、クライアントによって選ばれる。
○DASHマニフェスト中で利用可能な今日のオーディオプロパティシグナリング
○没入型および個別化コンテンツをシグナリングするためにDASH-IFによって定義されるべき新規パラメータまたは方法
・ブロードバンドにより配信される追加オーディオストリーム。

図24は、本開示の技法による例示的な方法を示すフローチャートである。例として、例示的な方法は、図20の受信機デバイス700によって実施されるものとして記載される。ただし、この、または同様の方法は、図18のネットワーク受信機600、図19のネットワーク受信機650、または図6、図7、図9、図10、もしくは図13〜図17のうちのいずれかの、様々な受信機デバイス/システムなど、様々な他のデバイスによって実施されてもよいことを理解されたい。

最初に、この例では、NGAオーディオデコーダ726は、メディアデータ用のマニフェストファイルを受信する(800)。マニフェストファイルは、たとえば、DASHのMPDを含み得る。マニフェストファイルは、オーディオストリームメタデータ703(図20)などのオーディオストリームメタデータを含み得る。オーディオストリームメタデータは概して、コーディング特性、レンダリング特性など、メディアデータのオーディオデータの特性、ならびに対応するストリームについてのコンテンツレーティング(特定の視聴者に対するコンテンツ適合性を記述する)、対応するストリーム用の言語、および/または対応するストリームについての役割/アクセス可能性など、他の特性を記述し得る。

したがって、NGAオーディオデコーダ726は、マニフェストファイル中に記述されているオーディオオブジェクトを判断することができる(802)。概して、オーディオオブジェクトは、メディアデータの適応セットまたは部分適応セットに対応し得る。各オーディオオブジェクトは、音楽および効果、ダイアログ、ならびに/または注釈など、異なるタイプのオーディオデータを表し得る。図20の例において、NGAオーディオデコーダ726は、M&Eストリーム704、英語ダイアログストリーム708、ドイツ語ダイアログストリーム712、英語注釈ストリーム716、およびドイツ語注釈ストリーム720が利用可能であると判断することになる。

NGAオーディオデコーダ726は、ストリームの各々を利用可能にするためのネットワークをさらに決定することができる(804)。具体的には、様々なネットワークは、ブロードキャスト、ブロードバンド、または両方など、対応するストリームがネットワークを介してトランスポートされる方法を表し得る。その上、図24には示さないが、NGAオーディオデコーダ726は、オーディオオブジェクトに対応するオーディオ適応セットが、それぞれの特定の識別子を有するそれぞれの完全に提示可能なオーディオプレゼンテーションを含むかどうかと、オーディオ適応セットが1つまたは複数の他のオーディオ適応セット(ならびにオーディオ適応セットが従属するオーディオ適応セットについての識別子)に依存するかどうかと、オーディオ適応セットについての識別子とを判断することもできる。

NGAオーディオデコーダ726は次いで、オーディオオブジェクトの1つまたは複数の選択を受信し得る(806)。そのような選択は、ユーザ選択またはユーザエージェント選択を表し得る。ユーザ選択は通常、ライブユーザ入力を表し、ユーザエージェント選択は通常、あらかじめ構成された構成データ(たとえば、「利用可能な場合は英語ダイアログを選択する」を表し得る)を表す。図20に関して上述したように、NGAオーディオデコーダ726は、そのような入力を、ユーザインターフェース/エージェント732(図20)、ブラウザ746(図20)、またはユーザインターフェース734(図20)から受信し得る。いくつかの例では、NGAオーディオデコーダ726は最初に、ブラウザ746により、たとえば、オーディオストリームメタデータ703に基づいて、およびどのネットワークが受信機デバイス700にとって現時点で利用可能であるかに基づいて、オーディオストリームのうちのどれが利用可能であるかを示し得る。

オーディオオブジェクトのうちのどれが選択されているかを示す選択データを受信した後、NGAオーディオデコーダ726は、決定されたネットワークを介して、選択されたオーディオデータを受信する(808)。たとえば、ブロードキャストネットワークが利用可能であり、オーディオストリームのうちの1つまたは複数が、ブロードキャストネットワークを介して利用可能である場合、NGAオーディオデコーダ726は、ブロードキャストネットワークを介してオーディオデータを受信し得る。いくつかの例では、ブロードキャストネットワークを介してオーディオデータを受信することは、ブロードキャスト(または、いくつかの例では、ネットワークマルチキャスト)に加入することを含み得る。別の例として、ブロードキャストネットワークが利用可能でない場合、または選択されたオーディオオブジェクトが、ブロードバンドを介してのみ利用可能である場合、NGAオーディオデコーダ726は、たとえば、HTTP(たとえば、DASHを使う)などのユニキャストプロトコルに従って、ブロードバンドを介して、選択されたオーディオオブジェクトを受信することができる。オーディオデータを受信したことに応答して、NGAオーディオデコーダ726のNGAプロセッサ728は、オーディオ復号&レンダリングユニット730(図20)などのオーディオデコーダにオーディオデータをフォワードする(810)。

このように、図24の方法は、MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信するステップであって、マニフェストファイルは、オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、ステップと、オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信するステップと、選択データに基づくオーディオオブジェクトを含む、ストリーミングされたメディアデータを受信するステップと、選択データによって示されるオーディオオブジェクトをオーディオデコーダに与えるステップとを含む方法の例を表す。

1つまたは複数の例では、説明した機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せにおいて実装され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、またはコンピュータ可読媒体を介して送信され、ハードウェアベース処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応する、コンピュータ可読記憶媒体を含み得るか、または、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む通信媒体を含み得る。このように、コンピュータ可読媒体は、一般に、(1)非一時的な有形コンピュータ可読記憶媒体、または(2)信号もしくは搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明された技法の実装のための命令、コード、および/またはデータ構造を取り出すために1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品が、コンピュータ可読媒体を含む場合がある。

限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気記憶デバイス、フラッシュメモリ、または、命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得るとともにコンピュータによってアクセスされ得る任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用してウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、代わりに非一時的有形記憶媒体を対象とすることを理解されたい。ディスク(disk)およびディスク(disc)は、本明細書で使用するとき、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)、およびブルーレイディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、レーザーを用いてデータを光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲に含まれるべきである。

命令は、1つもしくは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、または他の等価な集積論理回路機構もしくは個別論理回路機構などの、1つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用する「プロセッサ」という用語は、上記の構造、または本明細書で説明する技法の実装に適した任意の他の構造のいずれかを指すことがある。さらに、いくつかの態様では、本明細書で説明した機能性は、専用のハードウェア内で、かつ/または符号化および復号を行うように構成された、もしくは組み合わされたコーデックに組み込まれたソフトウェアモジュール内で提供することができる。また、技法は、1つまたは複数の回路または論理要素において完全に実装される可能性がある。

本開示の技法は、ワイヤレスハンドセット、集積回路(IC)またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置において実装され得る。開示された技法を実施するように構成されたデバイスの機能的態様を強調するために、様々な構成要素、モジュール、またはユニットが本開示に記載されているが、それらは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上述されたように、様々なユニットは、コーデックハードウェアユニットにおいて組み合わされるか、または適切なソフトウェアおよび/もしくはファームウェアとともに、上述された1つもしくは複数のプロセッサを含む、相互動作可能なハードウェアユニットの集合によって提供される場合がある。

様々な例について述べた。これらおよび他の例は、以下の特許請求の範囲内に入る。

10 システム
20 コンテンツ作成デバイス
22 オーディオソース
24 ビデオソース
26 オーディオエンコーダ
28 ビデオエンコーダ
30 カプセル化ユニット
32 出力インターフェース
40 クライアントデバイス
42 オーディオ出力
44 ビデオ出力
46 オーディオデコーダ
48 ビデオデコーダ
50 カプセル化解除ユニット
52 受信ユニット、取出しユニット
60 ブロードキャストソースデバイス
62 記憶媒体
64 マルチメディアコンテンツ
66 マニフェストファイル
68 表現
68A 表現
68N 表現
72 出力インターフェース
74 ブロードキャストユニット、ネットワーク
100 OTAブロードキャストミドルウェアユニット
102 プロキシサーバ
104 キャッシュ
106 OTAブロードキャスト受信ユニット
110 DASHクライアント
112 メディアアプリケーション
120 マルチメディアコンテンツ
122 メディアプレゼンテーション記述(MPD)
124 表現
124A 表現
124N 表現
126 ヘッダデータ
128 セグメント
128A セグメント
128N セグメント
130 ヘッダデータ
132 セグメント
132A セグメント
132N セグメント
150 メディアファイル
152 ファイルタイプ(FTYP)ボックス
154 ムービー(MOOV)ボックス
156 ムービーヘッダ(MVHD)ボックス
158 トラック(TRAK)ボックス
160 ムービー延長(MVEX)ボックス
162 セグメントインデックス(sidx)ボックス
164 ムービーフラグメント(MOOF)ボックス
166 ムービーフラグメントランダムアクセス(MFRA)ボックス
200 システム
202 システムメタデータ
204 音楽&効果(M&E)ストリーム
206 システムメタデータ
208 英語ダイアログストリーム
210 システムメタデータ
212 ドイツ語ダイアログストリーム
214 システムメタデータ
216 英語注釈ストリーム
218 システムメタデータ
220 ドイツ語注釈ストリーム
222 選択ユニット
224 システムレイヤユニット
226 オーディオデコーダ
228 オーディオレンダリングユニット
230 ユーザインターフェース/エージェント
232 ブラウザ
236 選択
238 選択データ
240 選択データ
242 復号オーディオデータ
250 システム
252 システムメタデータ
253 オーディオストリームメタデータ
254 音楽&効果(M&E)ストリーム
256 システムメタデータ
258 英語ダイアログストリーム
260 システムメタデータ
262 ドイツ語ダイアログストリーム
264 システムメタデータ
266 英語注釈ストリーム
268 システムメタデータ
270 ドイツ語注釈ストリーム
272 選択ユニット
274 システムレイヤユニット
276 オーディオ復号&レンダリングユニット
278 ユーザインターフェース
280 ユーザインターフェース/エージェント
282 ブラウザ
284 利用可能性データ
286 選択データ
288 選択データ
290 選択データ
292 選択データ
300 システム
302 システムメタデータ
303 オーディオストリームメタデータ
304 M&Eストリーム
306 システムメタデータ
308 英語ダイアログストリーム
310 システムメタデータ
312 ドイツ語ダイアログストリーム
314 システムメタデータ
316 英語注釈ストリーム
318 システムメタデータ
320 ドイツ語注釈ストリーム
322 選択ユニット
324 システムレイヤユニット
326 オーディオ復号&レンダリングユニット
330 ユーザインターフェース/エージェント
332 入力
334 選択データ
336 オーディオデータ
350 システム
352 システムメタデータ
353 オーディオストリームメタデータ
354 M&Eストリーム
356 システムメタデータ
358 英語ダイアログストリーム
360 システムメタデータ
362 ドイツ語ダイアログストリーム
364 システムメタデータ
366 英語注釈ストリーム
368 システムメタデータ
370 ドイツ語注釈ストリーム
372 選択ユニット
374 システムレイヤユニット
376 オーディオ復号&レンダリングユニット
382 ブラウザ、ウェブブラウザ
386 入力、選択データ
388 選択データ
390 オーディオデータ
400 システム
402 システムメタデータ
403 オーディオストリームメタデータ
404 M&Eストリーム
406 システムメタデータ
408 英語ダイアログストリーム
410 システムメタデータ
412 ドイツ語ダイアログストリーム
414 システムメタデータ
416 英語注釈ストリーム
418 システムメタデータ
420 ドイツ語注釈ストリーム
422 選択ユニット
424 システムレイヤユニット
426 オーディオ復号&レンダリングユニット
428 ユーザインターフェース
432 ブラウザ
434 データ
440 データ
450 システム
452 システムメタデータ
453 オーディオストリームメタデータ
454 M&Eストリーム
456 システムメタデータ
458 英語ダイアログストリーム
460 システムメタデータ
462 ドイツ語ダイアログストリーム
464 システムメタデータ
466 英語注釈ストリーム
468 システムメタデータ
470 ドイツ語注釈ストリーム
472 選択ユニット
474 システムレイヤユニット
476 オーディオ復号&レンダリングユニット
478 ユーザインターフェース
480 ユーザインターフェース/エージェント
482 ブラウザ、ウェブブラウザ
484 データ
486 追加選択情報
488 追加選択情報
490 選択データ
492 選択情報
500 システム
502 オーディオストリームメタデータ
504 音楽および効果(M&E)メディアストリーム
506 英語ダイアログストリーム
508 ドイツ語ダイアログストリーム
510 英語注釈ストリーム
512 ドイツ語注釈ストリーム
514 事前選択ユニット
516 ユーザインターフェース
520 NGAオーディオデコーダ
522 NGAプロセッサ
524 オーディオ復号&レンダリングユニット
526 オーディオデータ
528 入力、ユーザ選択
530 システム
532 オーディオストリームメタデータ
534 音楽および効果(M&E)メディアストリーム
535 メディアストリーム
536 英語ダイアログ
538 ドイツ語ダイアログストリーム
540 英語注釈ストリーム
542 ドイツ語注釈ストリーム
544 事前選択ユニット
546 ユーザインターフェース
550 NGAオーディオデコーダ
552 NGAプロセッサ
554 オーディオ復号&レンダリングユニット
556 オーディオデータ
558 入力、ユーザ選択
560 システム
562 オーディオストリームメタデータ
564 音楽および効果(M&E)メディアストリーム
565 メディアストリーム
566 英語ダイアログストリーム
568 ドイツ語ダイアログストリーム
570 英語注釈ストリーム
572 ドイツ語注釈ストリーム
574 事前選択ユニット
576 ユーザインターフェース
580 NGAオーディオデコーダ
582 NGAプロセッサ
584 オーディオ復号&レンダリングユニット
586 オーディオデータ
588 入力、ユーザ選択
600 受信機デバイス
602 システムメタデータ
603 オーディオストリームメタデータ
604 音楽&効果(M&E)ストリーム
606 システムメタデータ
608 英語ダイアログストリーム
610 システムメタデータ
612 ドイツ語ダイアログストリーム
614 システムメタデータ
616 英語注釈ストリーム
618 システムメタデータ
620 ドイツ語注釈ストリーム
622 選択ユニット、事前選択ユニット
624 MPEG-2システムレイヤユニット
626 NGAオーディオデコーダ
628 NGAプロセッサ
630 オーディオ復号&レンダリングユニット
632 ウェブブラウザ
634 ユーザインターフェース/エージェント
636 データ
638 データ
640 データ
642 データ
644 オーディオデータ
650 受信機デバイス
652 システムメタデータ
653 オーディオストリームメタデータ
654 M&Eストリーム
656 システムメタデータ
658 英語ダイアログストリーム
660 システムメタデータ
662 ドイツ語ダイアログストリーム
664 システムメタデータ
666 英語注釈ストリーム
668 システムメタデータ
670 ドイツ語注釈ストリーム
672 事前選択ユニット
674 システムレイヤユニット、MPEG-2システムレイヤユニット
676 NGAオーディオデコーダ
680 オーディオ復号&レンダリングユニット
682 ウェブブラウザ
684 ユーザインターフェース
686 データ
688 データ
692 データ
694 オーディオデータ
700 受信機デバイス
702 システムメタデータ
703 オーディオストリームメタデータ
704 M&Eストリーム
706 システムメタデータ
708 英語ダイアログストリーム
710 システムメタデータ
712 ドイツ語ダイアログストリーム
714 システムメタデータ
716 英語注釈ストリーム
718 システムメタデータ
720 ドイツ語注釈ストリーム
722 事前選択ユニット
724 システムレイヤユニット、MPEG-2システムレイヤユニット
726 NGAオーディオデコーダ
728 NGAプロセッサ
730 オーディオ復号&レンダリングユニット
732 ユーザインターフェース/エージェント
734 ユーザインターフェース
736 データ
738 データ
740 データ
742 データ
744 オーディオデータ
746 ブラウザ、ウェブブラウザ
750 システム
752 システムメタデータ
753 オーディオストリームメタデータ
754 M&Eストリーム
756 システムメタデータ
758 英語ダイアログストリーム
760 システムメタデータ
762 ドイツ語ダイアログストリーム
764 システムメタデータ
766 英語注釈ストリーム
768 システムメタデータ
770 ドイツ語注釈ストリーム
772 選択ユニット
774 システムレイヤユニット
776 オーディオ復号&レンダリングユニット
778 ユーザインターフェース
780 オーディオストリームメタデータ処理ユニット
782 ブラウザ
784 データ
790 選択データ
792 選択データ
796 メディアデータ

Claims

メディアデータを受信する方法であって、
MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信するステップであって、前記マニフェストファイルは、前記オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、ステップと、
前記オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信するステップと、
前記選択データに基づく前記オーディオオブジェクトを含む、ストリーミングされたメディアデータを受信するステップと、
前記選択データによって示される前記オーディオオブジェクトをオーディオデコーダに与えるステップとを含む方法。
前記マニフェストファイルは動的適応ストリーミングオーバーHTTP(DASH)メディアプレゼンテーション記述(MPD)を含み、前記オーディオオブジェクトは、前記DASH MPD中で適応セットとしてシグナリングされる、請求項1に記載の方法。
前記ストリーミングされたメディアデータを受信するステップは、MPEG-2トランスポートストリーム(TS)に準拠するシングルプログラムストリームまたはMPEG-2 TSに準拠するマルチプログラムストリームのいずれかを受信するステップを含む、請求項1に記載の方法。
前記ストリーミングされたメディアデータを受信するステップは、前記オーディオオブジェクトを含む1つまたは複数のMPEGメディアトランスポート(MMT)アセットを受信するステップを含む、請求項1に記載の方法。
前記マニフェストファイルを使って、前記オーディオ適応セットの各々について、
前記オーディオ適応セットが、特定の識別子(ID)を有する完全に提示可能なオーディオプレゼンテーションを含むかどうかと、
前記オーディオ適応セットが、1つまたは複数の他のオーディオ適応セットに依存するかどうか、および前記オーディオ適応セットが1つまたは複数の他のオーディオ適応セットに依存するとき、前記1つまたは複数の他のオーディオ適応セットについての識別子と、
前記オーディオ適応セット用の識別子とを判断するステップをさらに含む、請求項1に記載の方法。
前記表現の各々についての品質ランキング属性を表す、前記オーディオ適応セット中の各表現の相対品質を判断するステップをさらに含む、請求項5に記載の方法。
前記マニフェストファイルは、前記オーディオオブジェクトの各々がデータの固有ストリーム中で与えられることを示す、請求項5に記載の方法。
前記マニフェストファイルは、前記オーディオオブジェクトのうちの2つ以上がブロードキャストストリーム中で多重化されること、およびその他の前記オーディオオブジェクトがデータの固有ストリームとしてブロードバンドを介して利用可能であることを示す、請求項5に記載の方法。
前記マニフェストファイルは、前記オーディオオブジェクトの各々がデータの単一のストリームに多重化されることを示す、請求項5に記載の方法。
前記マニフェストファイルは、前記単一のデータストリームがブロードキャストを介して利用可能であることを示す、請求項9に記載の方法。
前記マニフェストファイルは、前記完全に提示可能なオーディオプレゼンテーションの前記特定のIDを、前記完全に提示可能なオーディオプレゼンテーションを含む前記オーディオオブジェクトのオーディオオブジェクト識別子としてシグナリングする、請求項5に記載の方法。
前記マニフェストファイルは、前記完全に提示可能なオーディオプレゼンテーションの前記特定のIDを、前記完全に提示可能なオーディオプレゼンテーションを含むISOベースメディアファイルフォーマットファイル中のトラックのトラックIDとしてシグナリングする、請求項5に記載の方法。
前記マニフェストファイルは、前記完全に提示可能なオーディオプレゼンテーションの前記特定のIDを、前記完全に提示可能なオーディオプレゼンテーションを含むMPEG-2トランスポートストリーム中のエレメンタリストリームのプログラム識別子(PID)としてシグナリングする、請求項5に記載の方法。
前記マニフェストファイルは、前記完全に提示可能なオーディオプレゼンテーションを含むMPEGメディアトランスポート(MMT)ストリームの前記特定のIDをシグナリングする記述子データを含む、請求項5に記載の方法。
前記マニフェストファイルは、依存適応セットが依存する前記適応セットについての識別子を提供する値を有する必須記述子を使って、オーディオ適応セットの間の依存をシグナリングする、請求項5に記載の方法。
前記マニフェストファイルは、コンテンツコンポーネント要素を使って、前記オーディオオブジェクトについての識別子をシグナリングする、請求項5に記載の方法。
前記マニフェストファイルから1つまたは複数の事前選択要素を取り出すステップをさらに含む、請求項5に記載の方法。
前記事前選択要素は各々、前記オーディオオブジェクトのサブセットを選択するための記述子を含む、請求項17に記載の方法。
前記事前選択要素は各々、自動選択に使うことができる1つまたは複数のパラメータを含む、請求項17に記載の方法。
前記事前選択要素は各々、この事前選択のための所要コーデック能力を示すデータを含む、請求項17に記載の方法。
前記事前選択要素は各々、ユーザ選択のためのテキストラベルを含む、請求項17に記載の方法。
前記テキストラベルは、それぞれのオーディオデータの言語に対応する言語で与えられる、請求項21に記載の方法。
前記事前選択要素は各々、優先度値を含む、請求項17に記載の方法。
前記受信された選択データに基づく前記事前選択要素を使って、前記オーディオオブジェクトのサブセットを選択するステップをさらに含む、請求項17に記載の方法。
オーディオデータを受信するためのデバイスであって、
デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、
オーディオデータ処理ユニットとを備え、前記オーディオデータ処理ユニットは、デジタル論理回路機構中に実装され、
MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、前記マニフェストファイルは、前記オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、
前記オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、
前記選択データに基づく前記オーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および
前記選択データによって示される前記オーディオオブジェクトを前記オーディオデコーダに与えることを行うように構成される、デバイス。
前記マニフェストファイルは動的適応ストリーミングオーバーHTTP(DASH)メディアプレゼンテーション記述(MPD)を含み、前記オーディオオブジェクトは、前記DASH MPD中で適応セットとしてシグナリングされる、請求項25に記載のデバイス。
前記オーディオオブジェクトを含むMPEG-2トランスポートストリーム(TS)に準拠するシングルプログラムストリーム、前記オーディオオブジェクトを含むMPEG-2 TSに準拠するマルチプログラムストリーム、または前記オーディオオブジェクトを含む1つもしくは複数のMPEGメディアトランスポート(MMT)アセットのうちの1つまたは複数を受信するように実装され、構成されたネットワークインターフェースをさらに備える、請求項25に記載のデバイス。
前記オーディオデータ処理ユニットは、前記マニフェストファイルを使って、前記オーディオ適応セットの各々について、
前記オーディオ適応セットが、特定の識別子(ID)を有する完全に提示可能なオーディオプレゼンテーションを含むかどうかと、
前記オーディオ適応セットが、1つまたは複数の他のオーディオ適応セットに依存するかどうか、および前記オーディオ適応セットが1つまたは複数の他のオーディオ適応セットに依存するとき、前記1つまたは複数の他のオーディオ適応セットについての識別子と、
前記オーディオ適応セット用の識別子とを判断するようにさらに構成される、請求項25に記載のデバイス。
前記オーディオデータ処理ユニットは、前記マニフェストファイルから1つまたは複数の事前選択要素を取り出すようにさらに構成され、前記事前選択要素は、前記オーディオオブジェクトのサブセットを選択するための記述子、自動選択に使うことができる1つもしくは複数のパラメータ、この事前選択のための所要コーデック能力を示すデータ、ユーザ選択のためのテキストラベル、または優先度値のうちの1つまたは複数を含む、請求項28に記載のデバイス。
オーディオデータを受信するためのデバイスであって、
デジタル論理回路機構を使って実装され、MPEG-HまたはAC-4パート2に準拠するオーディオデータを復号するように構成されたオーディオデコーダと、
MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信するための手段であって、前記マニフェストファイルは、前記オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、手段と、
前記オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信するための手段と、
前記選択データに基づく前記オーディオオブジェクトを含む、ストリーミングされたメディアデータを受信するための手段と、
前記選択データによって示される前記オーディオオブジェクトを前記オーディオデコーダに与えるための手段とを備えるデバイス。
前記マニフェストファイルは動的適応ストリーミングオーバーHTTP(DASH)メディアプレゼンテーション記述(MPD)を含み、前記オーディオオブジェクトは、前記DASH MPD中で適応セットとしてシグナリングされる、請求項30に記載のデバイス。
前記ストリーミングされたメディアデータを受信するための前記手段は、前記オーディオオブジェクトを含むMPEG-2トランスポートストリーム(TS)に準拠するシングルプログラムストリーム、前記オーディオオブジェクトを含むMPEG-2 TSに準拠するマルチプログラムストリーム、または前記オーディオオブジェクトを含む1つもしくは複数のMPEGメディアトランスポート(MMT)アセットのうちの1つまたは複数を受信するための手段を備える、請求項30に記載のデバイス。
前記オーディオ適応セットの各々についての前記マニフェストファイルから、前記オーディオ適応セットが、特定の識別子(ID)を有する、完全に提示可能なオーディオプレゼンテーションを含むかどうかを判断するための手段と、
前記オーディオ適応セットの各々についての前記マニフェストファイルから、前記オーディオ適応セットが、1つまたは複数の他のオーディオ適応セットに依存するかどうか、および前記オーディオ適応セットが1つまたは複数の他のオーディオ適応セットに依存するとき、前記1つまたは複数の他のオーディオ適応セットについての識別子を判断するための手段と、
前記オーディオ適応セットの各々についての前記マニフェストファイルから、前記オーディオ適応セット用の識別子を判断するための手段とをさらに備える、請求項30に記載のデバイス。
前記マニフェストファイルから1つまたは複数の事前選択要素を取り出すための手段をさらに備え、前記事前選択要素は、前記オーディオオブジェクトのサブセットを選択するための記述子、自動選択に使うことができる1つもしくは複数のパラメータ、この事前選択のための所要コーデック能力を示すデータ、ユーザ選択のためのテキストラベル、または優先度値のうちの1つまたは複数を含む、請求項30に記載のデバイス。
命令を記憶したコンピュータ可読記憶媒体であって、前記命令は、実行されると、受信機デバイスの1つまたは複数のプロセッサに、
MPEG-HまたはAC-4パート2に準拠する複数のオーディオオブジェクトを記述するマニフェストファイルを受信することであって、前記マニフェストファイルは、前記オーディオオブジェクトの各々が、ブロードキャスト、ブロードバンド、またはブロードキャストとブロードバンドの両方を介して利用可能であるかどうかを示す、受信すること、
前記オーディオオブジェクトのうちのどれが提示されるべきかを示す選択データを受信すること、
前記選択データに基づく前記オーディオオブジェクトを含む、ストリーミングされたメディアデータを受信すること、および
前記選択データによって示される前記オーディオオブジェクトを前記受信機デバイスのオーディオデコーダに与えることを行わせる、コンピュータ可読記憶媒体。
前記マニフェストファイルは動的適応ストリーミングオーバーHTTP(DASH)メディアプレゼンテーション記述(MPD)を含み、前記オーディオオブジェクトは、前記DASH MPD中で適応セットとしてシグナリングされる、請求項35に記載のコンピュータ可読記憶媒体。
前記プロセッサに、前記オーディオオブジェクトを含むMPEG-2トランスポートストリーム(TS)に準拠するシングルプログラムストリーム、前記オーディオオブジェクトを含むMPEG-2 TSに準拠するマルチプログラムストリーム、または前記オーディオオブジェクトを含む1つもしくは複数のMPEGメディアトランスポート(MMT)アセットのうちの1つまたは複数を受信させる命令をさらに含む、請求項35に記載のコンピュータ可読記憶媒体。
前記プロセッサに、前記マニフェストファイルを使って、前記オーディオ適応セットの各々について、
前記オーディオ適応セットが、特定の識別子(ID)を有する完全に提示可能なオーディオプレゼンテーションを含むかどうかと、
前記オーディオ適応セットが、1つまたは複数の他のオーディオ適応セットに依存するかどうか、および前記オーディオ適応セットが1つまたは複数の他のオーディオ適応セットに依存するとき、前記1つまたは複数の他のオーディオ適応セットについての識別子と、
前記オーディオ適応セット用の識別子とを判断させる命令をさらに含む、請求項35に記載のコンピュータ可読記憶媒体。
前記プロセッサに、前記マニフェストファイルから1つまたは複数の事前選択要素を取り出させる命令をさらに含み、前記事前選択要素は、前記オーディオオブジェクトのサブセットを選択するための記述子、自動選択に使うことができる1つもしくは複数のパラメータ、この事前選択のための所要コーデック能力を示すデータ、ユーザ選択のためのテキストラベル、または優先度値のうちの1つまたは複数を含む、請求項35に記載のコンピュータ可読記憶媒体。