JP7373581B2

JP7373581B2 - メディアコンテンツにおけるレイトバインディングのための方法および装置

Info

Publication number: JP7373581B2
Application number: JP2021555492A
Authority: JP
Inventors: ミスカマティアスハヌクセラ; エムレバリスアクス; アリホウルンランタ; カシュヤップカマチ－スリーダー; イゴールダニロディエゴクルシオ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2019-03-14
Filing date: 2019-12-12
Publication date: 2023-11-02
Anticipated expiration: 2039-12-12
Also published as: WO2020183053A1; EP3939332A4; JP2022524871A; CN113574903B; US11653054B2; EP3939332A1; CN113574903A; US20220167042A1

Description

例示的な実施形態は、一般的に映像のエンコーディングおよび復号化（decoding）に関する。

今日の映像コンテンツは、電話機、タブレット、ゲーム機、および接続型テレビジョンなどの様々なインターネット映像デバイスによって、多様なデバイス、ネットワーク、およびインターネットのグローバルな普及を反映して広範囲のビットレート、解像度、言語などで再生される。したがって、映像符号化は、それぞれのデバイスが、音声および映像トラックなどのメディアオブジェクトならびに映像の動画フラグメントを、デバイスおよびそのデバイスに利用可能なネットワークリソースに最適化されたビットレートおよび解像度で選択して組み合わせることができる、アダプティブなメディア形式に進化してきた。したがって、組み合わされた再生用に独立的に作成および／または配信されたトラックのレイトバインディングが好ましい。換言すると、メディアコンポーネントのセグメントは、再生時に別個に配信されて組み合わされる必要があり得る。

そのようなレイトバインディングを効率的に実現するために、メディアコンテンツは、すべての利用可能なトラックのすべての動画フラグメントヘッダを、（Ｓｕｂ）ｓｅｇｍｅｎｔ当たり１リクエストでフェッチすることを可能にするやり方で利用可能とされる必要がある場合がある。クライアントにおける動画フラグメントヘッダの可用性は、品質切り替えによってもたらされるレイテンシを大きく減少させる。メディアセグメントは、例えばＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ（ＨＴＴＰ）上でのＭＰＥＧ－ＤｙｎａｍｉｃＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇ（ＭＰＥＧ－ＤＡＳＨ）における、ストリーミングなどの配信用に使用される場合がある。しかしながら、現在、ＭＰＥＧ－ＤＡＳＨに完全に互換性のあるレイトバインディングソリューションは存在しない。

方法、装置、およびコンピュータプログラム製品は、例示的な実施形態にしたがって提供され、映像エンコーディングにおけるレイトバインディングのためのメカニズムを提供する。方法、装置、およびコンピュータプログラム製品は、様々な映像形式と併せて利用される可能性がある。

一例示的な実施形態では、表現のセットについてのセグメントメタデータ用の第１のロケータを示す第１の情報項目を、メディア記述（media description）にエンコードすることを含む方法が提供される。方法は、表現（representations）のセットの１つまたは複数の表現について、セグメントメディアデータ用の表現固有のロケータ（representation-specific locator）を示す１つまたは複数の表現固有の情報項目（representation-specific information items）を、メディア記述にエンコードすることをさらに含む。方法は、表現のセットとともにメディア記述を記憶することをさらに含む。

そのような方法のいくつかの実装形態では、第１の情報項目は、１つまたは複数のメディアセグメント用の１つまたは複数のインデックスセグメントを識別する情報を含み、１つまたは複数のインデックスセグメントは、トラックの集合の１つまたは複数のセグメントを記述する。いくつかの実施形態では、セグメントメタデータは、１つまたは複数の動画フラグメントヘッダ（movie fragment headers）を含む。

別の例示的な実施形態では、セグメントまたはサブセグメントメタデータからセグメントまたはサブセグメントメディアデータまでのバイトオフセットが、セグメントまたはサブセグメントメディアデータを含むボックスに関連していることを示す情報を受信することを含む方法が提供される。方法は、トラックの集合についてのセグメントまたはサブセグメントメタデータを受信することをさらに含む。方法は、セグメントまたはサブセグメントメディアデータについてのロケータを決定することをさらに含む。方法は、トラックの集合からトラックのサブセットを選択することをさらに含む。方法は、ロケータを用いたリクエストを通じて選択されたトラックのサブセット用のセグメントまたはサブセグメントメディアデータを受信することをさらに含む。方法は、トラックのサブセットのセグメントまたはサブセグメントメタデータを解析して、セグメントまたはサブセグメントメディアデータを復号化することに適した非カプセル化されたメディアデータ（decapsulated media data）を取得することをさらに含む。

別の例示的な実施形態では、ファイル、または初期化セグメントおよび１つもしくは複数のタイルトラック（tile tracks）を有する１つもしくは複数のメディアセグメントを受信することを含む方法が提供される。方法は、表現中の１つまたは複数のタイルトラックをエンコードすることをさらに含む。方法は、セグメントメタデータと１つまたは複数のメディアセグメントに関連付けられるセグメントメディアデータとを分離して、１つまたは複数のメディアセグメントのそれぞれの部分を分離することをさらに含む。方法は、セグメントメタデータを、１つまたは複数のメディアセグメントのそれぞれでサブセグメントインターリーブ順に並べることをさらに含む。

別の例示的な実施形態では、処理回路および１つまたは複数のプログラム用のコンピュータプログラムコードを含む少なくとも１つのメモリを含む装置が提供され、少なくとも１つのメモリおよびコンピュータプログラムコードは、処理回路によって、装置に少なくとも、表現のセットについてのセグメントメタデータ用の第１のロケータを示す第１の情報項目を、メディア記述にエンコードすることを行なわせるように構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、表現のセットの１つまたは複数の表現について、セグメントメディアデータ用の表現固有のロケータを示す１つまたは複数の表現固有の情報項目を、メディア記述にエンコードすることを行なわせるようにさらに構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、表現のセットとともにメディア記述を記憶することを行なわせるようにさらに構成される。

そのような装置のいくつかの実装形態では、第１の情報項目は、１つまたは複数のメディアセグメント用の１つまたは複数のインデックスセグメントを識別する情報を含み、１つまたは複数のインデックスセグメントは、トラックの集合の１つまたは複数のセグメントを記述する。いくつかの実施形態では、セグメントメタデータは、１つまたは複数の動画フラグメントヘッダを含む。

別の例示的な実施形態では、処理回路および１つまたは複数のプログラム用のコンピュータプログラムコードを含む少なくとも１つのメモリを含む装置が提供され、少なくとも１つのメモリおよびコンピュータプログラムコードは、処理回路によって、装置に少なくとも、セグメントまたはサブセグメントメタデータからセグメントまたはサブセグメントメディアデータまでのバイトオフセットが、セグメントまたはサブセグメントメディアデータを含むボックスに関連していることを示す情報を受信することを行なわせるように構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、トラックの集合についてのセグメントまたはサブセグメントメタデータを受信することを行なわせるようにさらに構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、セグメントまたはサブセグメントメディアデータについてのロケータを決定することを行なわせるようにさらに構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、トラックの集合からトラックのサブセットを選択することを行なわせるようにさらに構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、ロケータを用いたリクエストを通じて選択されたトラックのサブセット用のセグメントまたはサブセグメントメディアデータを受信することを行なわせるようにさらに構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、トラックのサブセットのセグメントまたはサブセグメントメタデータを解析して、セグメントまたはサブセグメントメディアデータを復号化することに適した非カプセル化されたメディアデータを取得することを行なわせるようにさらに構成される。

別の例示的な実施形態では、処理回路および１つまたは複数のプログラム用のコンピュータプログラムコードを含む少なくとも１つのメモリを含む装置が提供され、少なくとも１つのメモリおよびコンピュータプログラムコードは、処理回路によって、装置に少なくとも、ファイル、または初期化セグメントおよび１つもしくは複数のタイルトラックを有する１つもしくは複数のメディアセグメントを受信することを行なわせるように構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、表現中の１つまたは複数のタイルトラックをエンコードすることを行なわせるようにさらに構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、セグメントメタデータと１つまたは複数のメディアセグメントに関連付けられるセグメントメディアデータとを分離して、１つまたは複数のメディアセグメントのそれぞれの部分を分離することを行なわせるようにさらに構成される。コンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、セグメントメタデータを、１つまたは複数のメディアセグメントのそれぞれでサブセグメントインターリーブ順に並べることを行なわせるようにさらに構成される。

別の例示的な実施形態では、コンピュータ実行可能プログラムコード命令が記憶されている少なくとも１つの非一時的なコンピュータ可読記憶媒体を含むコンピュータプログラム製品が提供され、コンピュータ実行可能プログラムコード命令は、実行されると、表現のセットについてのセグメントメタデータ用の第１のロケータを示す第１の情報項目を、メディア記述にエンコードすることを行なうように構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、表現のセットの１つまたは複数の表現について、セグメントメディアデータ用の表現固有のロケータを示す１つまたは複数の表現固有の情報項目を、メディア記述にエンコードすることを行なうようにさらに構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、表現のセットとともにメディア記述を記憶することを行なうようにさらに構成されるプログラムコード命令を含む。

そのようなコンピュータプログラム製品のいくつかの実装形態では、第１の情報項目は、１つまたは複数のメディアセグメント用の１つまたは複数のインデックスセグメントを識別する情報を含み、１つまたは複数のインデックスセグメントは、トラックの集合の１つまたは複数のセグメントを記述する。いくつかの実施形態では、セグメントメタデータは、１つまたは複数の動画フラグメントヘッダを含む。

別の例示的な実施形態では、コンピュータ実行可能プログラムコード命令が記憶されている少なくとも１つの非一時的なコンピュータ可読記憶媒体を含むコンピュータプログラム製品が提供され、コンピュータ実行可能プログラムコード命令は、実行されると、セグメントまたはサブセグメントメタデータからセグメントまたはサブセグメントメディアデータまでのバイトオフセットが、セグメントまたはサブセグメントメディアデータを含むボックスに関連していることを示す情報を受信するように構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、トラックの集合についてのセグメントまたはサブセグメントメタデータを受信するようにさらに構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、セグメントまたはサブセグメントメディアデータについてのロケータを決定するようにさらに構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、トラックの集合からトラックのサブセットを選択するようにさらに構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、ロケータを用いたリクエストを通じて選択されたトラックのサブセット用のセグメントまたはサブセグメントメディアデータを受信するようにさらに構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、トラックのサブセットのセグメントまたはサブセグメントメタデータを解析して、セグメントまたはサブセグメントメディアデータを復号化することに適した非カプセル化されたメディアデータを取得するようにさらに構成されるプログラムコード命令を含む。

別の例示的な実施形態では、コンピュータ実行可能プログラムコード命令が記憶されている少なくとも１つの非一時的なコンピュータ可読記憶媒体を含むコンピュータプログラム製品が提供され、コンピュータ実行可能プログラムコード命令は、実行されると、ファイル、または初期化セグメントおよび１つもしくは複数のタイルトラックを有する１つもしくは複数のメディアセグメントを受信するように構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、表現中の１つまたは複数のタイルトラックをエンコードするようにさらに構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、セグメントメタデータと１つまたは複数のメディアセグメントに関連付けられるセグメントメディアデータとを分離して、１つまたは複数のメディアセグメントのそれぞれの部分を分離するようにさらに構成されるプログラムコード命令を含む。コンピュータ実行可能プログラムコード命令は、実行されると、セグメントメタデータを、１つまたは複数のメディアセグメントのそれぞれでサブセグメントインターリーブ順に並べるようにさらに構成されるプログラムコード命令を含む。

別の例示的な実施形態では、表現のセットについてのセグメントメタデータ用の第１のロケータを示す第１の情報項目を、メディア記述にエンコードするための手段を含む装置が提供される。装置は、表現のセットの１つまたは複数の表現について、セグメントメディアデータ用の表現固有のロケータを示す１つまたは複数の表現固有の情報項目を、メディア記述にエンコードするための手段をさらに含む。装置は、表現のセットとともにメディア記述を記憶するための手段をさらに含む。

別の例示的な実施形態では、セグメントまたはサブセグメントメタデータからセグメントまたはサブセグメントメディアデータまでのバイトオフセットが、セグメントまたはサブセグメントメディアデータを含むボックスに関連していることを示す情報を受信するための手段のための手段を含む装置が提供される。装置は、トラックの集合についてのセグメントまたはサブセグメントメタデータを受信するための手段をさらに含む。装置は、セグメントまたはサブセグメントメディアデータについてのロケータを決定するための手段をさらに含む。装置は、トラックの集合からトラックのサブセットを選択するための手段をさらに含む。装置は、ロケータを用いたリクエストを通じて選択されたトラックのサブセット用のセグメントまたはサブセグメントメディアデータを受信するための手段をさらに含む。装置は、トラックのサブセットのセグメントまたはサブセグメントメタデータを解析して、セグメントまたはサブセグメントメディアデータを復号化することに適した非カプセル化されたメディアデータを取得するための手段をさらに含む。別の例示的な実施形態では、ファイル、または初期化セグメントおよび１つもしくは複数のタイルトラックを有する１つもしくは複数のメディアセグメントを受信するための手段のための手段を含む装置が提供される。装置は、表現中の１つまたは複数のタイルトラックをエンコードするための手段をさらに含む。装置は、セグメントメタデータと１つまたは複数のメディアセグメントに関連付けられるセグメントメディアデータとを分離して、１つまたは複数のメディアセグメントのそれぞれの部分を分離するための手段をさらに含む。装置は、セグメントメタデータを、１つまたは複数のメディアセグメントのそれぞれでサブセグメントインターリーブ順に並べるための手段をさらに含む。

このように本開示の特定の例示的な実施形態を、一般的な用語で説明してきたが、以降では必ずしも縮尺通りに描かれてはいない添付の図面を参照する。

本開示の例示的な実施形態による、具体的に構成することができる装置のブロック図である。本開示の例示的な実施形態による、映像の取得、エンコーディング、および再生プロセスのグラフィカルな図である。本開示の例示的な実施形態による、画像のスティッチング、投影、および領域単位パッキングプロセスのグラフィカルな図である。本開示の例示的な実施形態による、画像のスティッチング、投影、および領域単位パッキングプロセスの別のグラフィカルな図である。本開示の例示的な実施形態による、モノスコピックな正距円筒図法パノラマピクチャを形成するプロセスのグラフィカルな図である。本開示の例示的な実施形態による、例示的な座標系の図である。本開示の例示的な実施形態による、コンテンツオーサリングに使用することができる球面ピクチャからパックされたピクチャへのコンバージョン、および様々なメディアプレーヤで使用される可能性がある、レンダリングされるパックされたピクチャから球面ピクチャへの対応するコンバージョンのグラフィカルな図である。本開示の例示的な実施形態による、図１の装置などによって、実施される動作のセットを図示するフローチャートである。本開示の例示的な実施形態による、例示的なメディアおよびインデックスセグメントの図である。本開示の例示的な実施形態による、例示的なメディアおよびインデックスセグメントの図である。本開示の例示的な実施形態による、例示的なメディアおよびインデックスセグメントの図である。本開示の例示的な実施形態による、図１の装置などによって、実施される動作のセットを図示するフローチャートである。本開示の例示的な実施形態による、図１の装置などによって、実施される動作のセットを図示するフローチャートである。クライアントデバイスの動作で使用されるインデックスおよびメディアＳｅｇｍｅｎｔのグラフィカルな図である。クライアントデバイスの動作で使用されるインデックスおよびメディアＳｅｇｍｅｎｔのグラフィカルな図である。本開示の例示的な実施形態による、図１の装置などによって、実施される動作のセットを図示するフローチャートである。本開示の例示的な実施形態による、例示的なメディアセグメントの図である。本開示の例示的な実施形態による、例示的なバイト範囲ボックスの図である。

次に、いくつかの実施形態を、添付の図面を参照して以降でより完全に説明するが、本発明のすべてではなく一部の実施形態が示される。実際、本発明の様々な実施形態は、多くの異なる形態として具体化することができ、本明細書で説明される実施形態に限定されると解釈されてはならない。むしろ、これらの実施形態は、本開示が適用可能な法的な要件を満たすべく与えられる。全体を通じて、類似の参照符号は、類似の要素を指す。本明細書で使用される際、用語「データ」、「コンテンツ」、「情報」、および類似の用語は、本発明の実施形態にしたがって、送信、受信、および／または記憶することができるデータを指すために互換的に用いられる場合がある。したがって、あらゆるそのような用語の使用は、本発明の実施形態の思想および範囲を限定するように取られるべきではない。

追加的に、本明細書で使用される際、用語「回路」は、（ａ）ハードウェアだけの回路実装形態（例えば、アナログ回路および／またはデジタル回路としての実装形態）、（ｂ）回路と、本明細書で説明される１つまたは複数の機能を装置に実施させるように一緒に作動する１つまたは複数のコンピュータ可読メモリに記憶された、ソフトウェアおよび／またはファームウェア命令を含むコンピュータプログラム製品との組み合わせ、ならびに（ｃ）例えばソフトウェアまたはファームウェアが物理的に存在しなくても、動作のためのソフトウェアまたはファームウェアを要求する、マイクロプロセッサまたはマイクロプロセッサの一部などの回路を指す。「回路」のこの定義は、あらゆる特許請求を含む本明細書における本用語のすべての使用に当てはまる。さらなる例として、本明細書で使用される際、用語「回路」は、１つまたは複数のプロセッサおよび／またはその一部、ならびに付随するソフトウェアおよび／またはファームウェアを含む実装形態も含む。別の例として、本明細書で使用される際、用語「回路」には、例えば、携帯電話向けのベースバンド集積回路もしくはアプリケーションプロセッサ集積回路、またはサーバ、セルラネットワークデバイス、他のネットワークデバイス、および／もしくは他のコンピューティングデバイス内の類似の集積回路も含まれる。

本明細書で定義されるように、非一時的な物理記憶媒体を指す（例えば、揮発性または非揮発性のメモリデバイス）「コンピュータ可読記憶媒体」は、電磁気的な信号を指す「コンピュータ可読送信媒体」とは区別することができる。

用語「タイル」と「サブピクチャ」は、互換的に用いられる場合がある。

方法、装置、およびコンピュータプログラム製品は、例示的な実施形態にしたがって提供され、映像エンコーディングにおけるレイトバインディングのためのメカニズムを与える。方法、装置、およびコンピュータプログラム製品は、高効率映像符号化規格（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇｓｔａｎｄａｒｄ）（ＨＥＶＣまたはＨ．２６５／ＨＥＶＣ）、高度映像符号化規格（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇｓｔａｎｄａｒｄ）（ＡＶＣまたはＨ．２６４／ＡＶＣ）、次世代バーサタイル映像符号化規格（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇｓｔａｎｄａｒｄ）（ＶＶＣまたはＨ．２６６／ＶＶＣ）を含む様々な映像形式と併せて、ならびに／または国際標準化機構（ＩＳＯ）ベースのメディアファイル形式（ＩＳＯＢＭＦＦと省略される場合があるＩＳＯ／ＩＥＣ１４４９６－１２）、動画専門家グループ（ＭＰＥＧ）－４ファイル形式（ＭＰ４形式としても知られるＩＳＯ／ＩＥＣ１４４９６－１４）、ＮＡＬ（ネットワーク抽象化レイヤ）ユニット構造化映像（ＩＳＯ／ＩＥＣ１４４９６－１５）向けのファイル形式、および第３世代パートナーシッププロジェクト（３ＧＰＰファイル形式）（３ＧＰ形式としても知られる３ＧＰＰ技術仕様書２６．２４４）を含む様々な映像およびマルチメディアファイル形式とともに利用することができる。ＩＳＯＢＭＦＦは、上で言及したすべてのファイル形式の派生のためのベースである。例示的な実施形態を、ＨＥＶＣ、ＩＳＯＢＭＦＦ、およびＤＡＳＨと併せて説明するが、本開示はＨＥＶＣ、ＩＳＯＢＭＦＦ、およびＤＡＳＨに限定されるのではなく、むしろ説明は、本開示の例示的な実施形態が部分的または完全に実現され得る１つの可能な基礎のために与えられる。

本開示のいくつかの態様は、国際標準化機構（ＩＳＯ）ベースのメディアファイル形式（ＩＳＯＢＭＦＦと省略される場合があるＩＳＯ／ＩＥＣ１４４９６－１２）、動画専門家グループ（ＭＰＥＧ）－４ファイル形式（ＭＰ４形式としても知られるＩＳＯ／ＩＥＣ１４４９６－１４）、ＮＡＬ（ネットワーク抽象化レイヤ）ユニット構造化映像（ＩＳＯ／ＩＥＣ１４４９６－１５）向けのファイル形式、および第３世代パートナーシッププロジェクト（３ＧＰＰファイル形式）（３ＧＰ形式としても知られる３ＧＰＰ技術仕様書２６．２４４）などのコンテナファイル形式に関する。例示的な実施形態が、ＭＰＥＧまたはその派生物と併せて説明されることがあるが、本開示は、ＭＰＥＧに限定されるのではなく、むしろ説明は、本開示の例示的な実施形態が部分的または完全に実現され得る１つの可能な基礎のために与えられる。

映像ビットストリームのファイル形式に関わらず、例示的な実施形態の装置は、例えば、映像エンコーダ、映像デコーダ、コンピュータワークステーション、サーバなどを含む、多様なコンピューティングデバイスのいずれかによって、またはモバイル端末、例えばスマートフォン、タブレットコンピュータ、ビデオゲームプレーヤなどの様々なモバイルコンピューティングデバイスのいずれかによって、実現することができる。

装置を具体化するコンピューティングデバイスに関わらず、例示的な実施形態の装置１０は、処理回路１２、メモリ１４、通信インターフェース１６、および図１に示されるように任意にユーザインターフェース１８を含むか、これらに関連付けられるか、またはこれらと通信する。

処理回路１２は、装置１０のコンポーネント間で情報を受け渡しするためのバスを介して、メモリデバイス１４と通信することができる。メモリデバイスは、非一時的であってもよく、例えば１つまたは複数の揮発性および／または非揮発性のメモリを含む場合がある。換言すると、例えば、メモリデバイスは、マシン（例えば、処理回路のようなコンピューティングデバイス）から取り出すことができるデータ（例えば、ビット）を記憶するように構成されたゲートを含む電子的な記憶デバイス（例えば、コンピュータ可読記憶媒体）であってもよい。メモリデバイスは、装置が本開示の例示的な実施形態にしたがって様々な機能を実行できるようにする、情報、データ、コンテンツ、アプリケーション、命令などを記憶するように構成することができる。例えば、メモリデバイスは、処理回路によって処理するための入力データをバッファリングするように構成することが可能である。追加的に、または代替的に、メモリデバイスは、処理回路による実行用の命令を記憶するように構成される場合がある。

装置１０は、いくつかの実施形態では、上述したような様々なコンピューティングデバイスとして具体化することができる。しかしながら、いくつかの実施形態では、装置はチップまたはチップセットとして具体化される場合がある。換言すると、装置は、構造的な組立体（例えば、ベース基板（ｂａｓｅｂｏａｒｄ））上に材料、コンポーネント、および／または配線を含む１つまたは複数の物理的なパッケージ（例えば、チップ）を含むことができる。構造的な組立体は、そこに含まれるコンポーネント回路に、物理的な強度、大きさの保全、および／または電気的な相互作用の制限を与えることができる。したがって、場合によっては、装置は、単一のチップ上で、または単一の「システムオンチップ」として、本開示の実施形態を実装するように構成される場合がある。そのため、場合によっては、チップまたはチップセットは、本明細書で説明される機能性を提供するための、１つまたは複数の動作を実施するための手段を構成することができる。

処理回路１２は、複数の様々な方法で具体化することができる。例えば、処理回路は、コプロセッサ、マイクロプロセッサ、コントローラ、デジタル信号プロセッサ（ＤＳＰ）、付随的なＤＳＰを伴うもしくは伴わない処理要素などの、様々なハードウェア処理手段、または例えばＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、マイクロコントローラユニット（ＭＣＵ）、ハードウェアアクセラレータ、特殊目的コンピュータチップなどの集積回路を含む様々な他の回路のうちの、１つまたは複数として具体化することができる。そのため、いくつかの実施形態では、処理回路は、独立的に実行するように構成された１つまたは複数の処理用コアを含むことができる。マルチコア処理回路は、単一の物理的なパッケージ内でマルチプロセッシングを可能にすることができる。追加的に、または代替的に、処理回路は、命令の独立的な実行、パイプライン処理、および／またはマルチスレッド処理を可能にするようバスを介してタンデム型に構成された１つまたは複数のプロセッサを含むことができる。

例示的な実施形態では、処理回路１２は、メモリデバイス１４に記憶された、または処理回路からアクセス可能な命令を実行するように構成することができる。追加的に、または代替的に、処理回路は、ハードコーディングされた機能性を実行するように構成することができる。そのため、ハードウェアまたはソフトウェア的な方法によって、またはその組み合わせによって構成されるかどうかに関わらず、処理回路は、しかるべく構成されている間、本開示の実施形態にしたがって動作を実施することが可能な（例えば、回路内で物理的に具体化される）エンティティを表現することができる。したがって、例えば処理回路がＡＳＩＣ、ＦＰＧＡなどとして具体化される場合、処理回路は、本明細書で説明される動作を行なうように具体的に構成されたハードウェアであり得る。代替的に、別の例として、処理回路が命令の実行体として具体化される場合、命令は、命令が実行されると本明細書で説明されるアルゴリズムおよび／または動作を実施するようプロセッサを具体的に構成することができる。しかしながら、場合によっては、処理回路は、本明細書で説明されるアルゴリズムおよび／または動作を実施するための命令による処理回路のさらなる構成によって本発明の実施形態を採用するように構成された特殊なデバイス（例えば、画像または映像処理システム）のプロセッサである可能性がある。処理回路は、とりわけ、クロック、算術論理ユニット（ＡＬＵ）および処理回路の演算をサポートするように構成された論理ゲートを含むことができる。

通信インターフェース１６は、映像ビットストリームを含むデータを受信および／または送信するように構成された、ハードウェアまたはハードウェアとソフトウェアとの組み合わせのいずれかに具体化される、デバイスまたは回路などのあらゆる手段であってもよい。この点において、通信インターフェースは、例えば、アンテナ（または複数のアンテナ）、ならびに無線通信ネットワークとの通信を可能にするためのサポート用ハードウェアおよび／またはソフトウェアを含むことができる。追加的に、または代替的に、通信インターフェースは、アンテナを介して信号を送信させるために、またはアンテナを介して受信された信号の受け取りを扱うために、アンテナと対話するための回路を含むことができる。いくつかの環境では、通信インターフェースは、代替的に、またはその上、有線通信をサポートすることができる。そのために、例えば通信インターフェースは、ケーブル、デジタル加入者線（ＤＳＬ）、ユニバーサルシリアルバス（ＵＳＢ）または他のメカニズムを介した通信をサポートするために、通信モデムおよび／または他のハードウェア／ソフトウェアを含むことができる。

装置１０が映像ビットストリームをエンコードするように構成される事例などの、いくつかの実施形態では、装置１０は、今度はエンコードされた映像ビットストリームを出力することなどによって、出力をユーザに与えるために、またいくつかの実施形態では、ユーザ入力のインジケーションを受信するために、次に処理回路１２と通信することができるユーザインターフェース１８を含んでもよい。そのために、ユーザインターフェースは、ディスプレイを含む場合があり、いくつかの実施形態では、キーボード、マウス、ジョイスティック、タッチスクリーン、タッチエリア、ソフトキー、マイクロフォン、スピーカ、または他の入力／出力メカニズムを含むこともできる。代替的に、または追加的に、処理回路は、ディスプレイ、およびいくつかの実施形態では、スピーカ、リンガ、マイクロフォンなどの、１つまたは複数のユーザインターフェース要素のうちの少なくともいくつかの機能を制御するように構成されたユーザインターフェース回路を含むことができる。処理回路および／または処理回路を含むユーザインターフェース回路は、処理回路からアクセス可能なメモリ（例えば、メモリデバイス１４など）に記憶されたコンピュータプログラム命令を通じて（例えば、ソフトウェアおよび／またはファームウェア）１つまたは複数のユーザインターフェース要素のうちの１つまたは複数の機能を制御するように構成することができる。

特定の例示的な実施形態を説明する際、シンタックス構造のシノニムとして、またはシンタックス構造の一例として、用語ファイルが時々使用される。他のコンテキストでは、用語ファイルは、記憶装置内でスタンドアロンのユニットを形成するリソースであるコンピュータファイルを意味するために用いられる場合がある。

様々なシンタックスを説明する場合、また特定の例示的な実施形態では、シンタックス構造は、以下で説明されるように指定することができる。中括弧で囲まれるステートメントのグループは、複合ステートメントであり、機能的に単一のステートメントとして扱われる。「ｗｈｉｌｅ」構造は、条件が真であるかどうかのテストを指定しており、真であるならば、条件が真でなくなるまで、ステートメント（または複合ステートメント）の評価を反復して指定する。「ｄｏ．．．ｗｈｉｌｅ」構造は、ステートメントの評価を一度だけ指定し、次に条件が真であるかどうかをテストし、真であるならば、条件が真でなくなるまでステートメントの反復評価を指定する。「ｉｆ．．．ｅｌｓｅ」構造は、条件が真であるかどうかのテストを指定し、条件が真であるならば、主なステートメントの評価を指定し、それ以外は代替的なステートメントの評価を指定する。構造の「ｅｌｓｅ」部分および関連付けられる代替的なステートメントは、代替的なステートメント評価が必要ではない場合、省略される。「ｆｏｒ」構造は、最初のステートメントの評価を指定して、次に条件をテストして、条件が真であるならば、主なステートメントの反復評価を指定し、次に条件が真でなくなるまで後続のステートメントの評価をする。

Ｈ．２６４／ＡＶＣでは、マクロブロックはルマ（ｌｕｍａ）サンプルの１６×１６ブロック、および対応するクロマ（ｃｈｒｏｍａ）サンプルのブロックである。例えば、４：２：０のサンプリングパターンでは、マクロブロックはクロマコンポーネント１つ当たり、８×８ブロックのクロマサンプルを１つ含んでいる。Ｈ．２６４／ＡＶＣでは、ピクチャは１つまたは複数のスライスグループにパーティショニングされ、スライスグループは、１つまたは複数のスライスを含む。Ｈ．２６４／ＡＶＣでは、スライスは、特定のスライスグループ内でラスタスキャンとして連続的に並べられた、整数の数のマクロブロックを含むことができる。

映像エンコーディングおよび／または復号化の動作を説明する際、以下の用語が用いられる場合がある。符号化ブロックは、符号化ツリーブロックの符号化ブロックへの分割がパーティショニングとなるように、何らかのＮの値に対するＮ×Ｎのサンプルのブロックとして定義することができる。符号化ツリーブロック（ＣＴＢ）は、コンポーネントの符号化ツリーブロックへの分割がパーティショニングとなるように、何らかのＮの値に対するＮ×Ｎのサンプルのブロックとして定義することができる。符号化ツリーユニット（ＣＴＵ）は、ルマサンプルの符号化ツリーブロック、３つのサンプルアレイを有するピクチャのクロマサンプルの２つの対応する符号化ツリーブロック、またはモノクロームピクチャもしくは３つの別個の色プレーンとサンプルを符号化するために使用されたシンタックス構造とを用いて符号化されたピクチャのサンプルの符号化ツリーブロックとして定義することができる。符号化ユニット（ＣＵ）は、ルマサンプルの符号化ブロック、３つのサンプルアレイを有するピクチャのクロマサンプルの２つの対応する符号化ブロック、またはモノクロームピクチャもしくは３つの別個の色プレーンとサンプルを符号化するために使用されたシンタックス構造とを用いて符号化されたピクチャのサンプルの符号化ブロックとして定義することができる。

高効率映像符号化（ＨＥＶＣ）コーデックなどの、一部の映像コーデックでは、映像ピクチャは、ピクチャのエリアをカバーする符号化ユニット（ＣＵ）に分割される。ＣＵは、ＣＵ内のサンプルに対する予測プロセスを定義する１つまたは複数の予測ユニット（ＰＵ）、およびＣＵ内のサンプルに対して予測誤差符号化プロセスを定義する１つまたは複数の変換ユニット（ＴＵ）から構成される。典型的には、ＣＵは、可能ＣＵサイズの所定のセットからサイズを選択可能な正方形のサンプルのブロックから構成される。可能な最大のサイズのＣＵは、ＬＣＵ（最大符号化ユニット）または符号化ツリーユニット（ＣＴＵ）と呼ぶことができ、映像ピクチャはオーバラップしないＬＣＵに分割される。ＬＣＵは、例えばＬＣＵおよび得られるＣＵを再帰的に分けることにより、より小さなＣＵの組み合わせにさらに分けることができる。得られる各ＣＵは、典型的には少なくとも１つのＰＵおよびそれに関連付けられる少なくとも１つのＴＵを有する。各ＰＵおよびＴＵは、予測の粒度および予測誤差符号化プロセスをそれぞれ向上させるために、より小さなＰＵおよびＴＵにさらに分けることができる。各ＰＵは、どの種類の予測がＰＵ内のピクセルに適用されるかを定義する、関連付けられた予測情報（例えば、インター予測されたＰＵについての動きベクトル情報、およびイントラ予測されたＰＵについてのイントラ予測方向性情報）を有する。

画像は、独立的に符号化可能および復号化可能な画像セグメントに分けることができ（例えば、スライス、またはタイル、またはタイルグループ）、これらは独立的に符号化されたピクチャ領域と称される場合もある。そのような画像セグメントは、並列処理を可能とすることができ、本説明における「スライス」は、デフォルトの符号化順または復号順で処理された特定数の基本符号化ユニットから構成された画像セグメントを称することがあり、一方で「タイル」は、矩形の画像領域として定義されてある画像セグメントを称する場合がある。タイルグループは、１つまたは複数のタイルのグループとして定義することができる。画像セグメントは、Ｈ．２６４／ＡＶＣおよびＨＥＶＣにおけるＶＣＬＮＡＬユニットなどの、ビットストリーム内の別個のユニットとして符号化することができる。符号化された画像セグメントは、ヘッダおよびペイロードを含むことができ、ヘッダにはペイロードを復号化するために必要なパラメータ値が含まれる。

各ＴＵは、前記ＴＵ内のサンプルについて予測誤差復号化プロセスを記述する情報に関連付けられる可能性がある（例えば、離散コサイン変換係数情報を含んでいる）。典型的には、各ＣＵに予測誤差符号化が適用されるかどうかは、ＣＵレベルでシグナリングされる。ＣＵに関連付けられる予測誤差残差がない場合、前記ＣＵについてＴＵは存在しないと考えることが可能である。画像のＣＵへの分割、およびＣＵのＰＵとＴＵへの分割は、典型的にはビットストリーム内でシグナリングされ、デコーダがこれらのユニットの意図された構造を再現できるようにしている。

ＨＥＶＣ規格では、ピクチャは、矩形で整数個のＣＴＵを含むタイルにパーティショニングすることができる。ＨＥＶＣ規格では、タイルへのパーティショニングは、（ＣＴＵにおける）タイル列幅のリストと（ＣＴＵにおける）タイル行高さのリストによって特徴付けることができるグリッドを形成する。タイルは、ビットストリーム内で連続的に、タイルグリッドのラスタスキャン順に並んでいる。タイルは、整数個のスライスを含むことができる。

ＨＥＶＣでは、スライスは、整数個のＣＴＵを含むことができる。ＣＴＵは、タイル内で、またはタイルが使用されていない場合はピクチャ内で、ＣＴＵのラスタスキャン順でスキャンされる。スライスは、整数個のタイルを含むことができ、スライスはタイル内に含まれることが可能である。ＣＴＵ内では、ＣＵは特定の定義されたスキャン順を有する。

ＨＥＶＣでは、スライスは、１つの独立的なスライスセグメントおよび同一のアクセス単位内の次の独立的なスライスセグメント（もしあれば）に先行するすべての後続の依存的なスライスセグメント（もしあれば）に含まれる整数個の符号化ツリーユニットとして定義される。ＨＥＶＣでは、スライスセグメントは、タイルスキャンにおいて連続的に並べられ、単一のネットワーク抽象レイヤ（ＮＡＬ）ユニットに含まれる、整数個の符号化ツリーユニットとなるように定義される。各ピクチャのスライスセグメントへの分割が、パーティショニングである。ＨＥＶＣでは、独立的なスライスセグメントは、スライスセグメントヘッダのシンタックスエレメントの値が先行するスライスセグメント用の値から推測されないスライスセグメントとなるように定義され、依存的なスライスセグメントは、スライスセグメントヘッダの何らかのシンタックスエレメントの値が復号化順で先行する独立的なスライスセグメント用の値から推論されるスライスセグメントとなるように定義される。ＨＥＶＣでは、スライスヘッダは、現在のスライスセグメントであるか、現在の依存的なスライスセグメントに先行する独立的なスライスセグメントである、独立的なスライスセグメントのスライスセグメントヘッダとなるように定義され、スライスセグメントヘッダは、スライスセグメントで表現される第１のまたはすべての符号化ツリーユニットに関連するデータ要素を含む符号化されたスライスセグメントの一部となるように定義される。ＣＵは、タイル内で、またはタイルが使用されていない場合はピクチャ内で、ＬＣＵのラスタスキャン順にスキャンされる。ＬＣＵ内では、ＣＵは特定のスキャン順を有する。

Ｈ．２６６／ＶＶＣのドラフト版では、ピクチャはタイルグリッドに沿ってタイルにパーティショニングされる（ＨＥＶＣに類似している）。２タイプのタイルグループ、すなわちラスタスキャン順タイルグループおよび矩形タイルグループが指定され、エンコーダはビットストリーム、例えばＰＰＳにおいて、どのタイプのタイルグループが使用されているかを示すことができる。ラスタスキャン順タイルグループでは、タイルはビットストリーム内で、ピクチャ内のタイルラスタスキャン順で並んでおり、ＣＴＵはビットストリーム内で、タイル内のラスタスキャン順で並んでいる。矩形タイルグループでは、ピクチャは矩形タイルグループにパーティショニングされており、タイルはビットストリーム内で、各タイルグループ内のラスタスキャン順で並んでおり、ＣＴＵはビットストリーム内で、タイル内のラスタスキャン順で並んでいる。タイルグループのタイプに関わらず、タイルグループは、１つまたは複数のタイル全体をビットストリーム順で含み、ＶＣＬＮＡＬユニットは１つのタイルグループを含む。スライスは、Ｈ．２６６／ＶＶＣのドラフト版には含まれてこなかった。本パラグラフで説明したことは、規格が最終化されるまで、Ｈ．２６６／ＶＶＣの新しいドラフト版においてさらに発展する可能性があることに留意されたい。

Ｈ．２６４／高度映像符号化（ＡＶＣ）またはＨＥＶＣエンコーダの出力用、およびＨ．２６４／ＡＶＣまたはＨＥＶＣデコーダの入力用の基本ユニットは、それぞれ、ＮＡＬユニットである。パケット指向ネットワーク上でのトランスポートまたは構造化ファイルへの記憶向けに、ＮＡＬユニットは、パケットまたは類似の構造物にカプセル化される場合がある。ＩＳＯベースのメディアファイル形式では、アクセス単位のＮＡＬユニットは、サンプルを形成し、そのサイズはファイル形式メタデータ内で提供される。

バイトストリーム形式は、フレーミング構造を与えない送信または記憶環境向けに、Ｈ．２６４／ＡＶＣおよびＨＥＶＣで指定されてきた。バイトストリーム形式は、各ＮＡＬユニットの前方に開始コードを付加することによってＮＡＬユニットを互いに別個にする。ＮＡＬユニット境界の偽検出を回避するために、エンコーダは、バイト指向の開始コードエミュレーション防止アルゴリズムを実行し、このアルゴリズムは、それ以外では開始コードが生じるであろうＮＡＬユニットペイロードに、エミュレーション防止バイトを追加する。パケット指向とストリーム指向のシステム同士で単純なゲートウェイ操作を可能にするために、バイトストリーム形式が使用されているかどうかに関わらず、開始コードエミュレーション防止は、いつも実施され得る。ＮＡＬユニットは、したがうデータのタイプのインジケーションを含むシンタックス構造、および必要であればエミュレーション防止バイトで分断されたローバイトシーケンスペイロード（ＲＢＳＰ）の形式でそのデータを含むバイトとして定義することができる。ＲＢＳＰは、ＮＡＬユニットにカプセル化された整数個のバイトを含むシンタックス構造として定義することができる。

ＨＥＶＣおよびＶＶＣに関連する例示的な実施形態を説明する際、各シンタックスエレメントの解析プロセスを指定するために、以下の説明が使用される場合がある。

ｕ（ｎ）：ｎビットを使用する符号なし整数。ｎがシンタックステーブルで「ｖ」である場合、他のシンタックスエレメントの値に応じたやり方でビット数は変動する。この記述子用のペアリングプロセスは、最初に最上位ビットが書き込まれる符号なし整数のバイナリ表現として解釈されるビットストリームの次のｎビットによって指定される。

ｕｅ（ｖ）：左ビットが最初の符号なし整数の指数ゴロム符号化シンタックスエレメント。

ＨＥＶＣにおける例示的なスライスセグメントレイヤローバイトシーケンスペイロード（ＲＢＳＰ）は、以下のように与えられる：

ｓｌｉｃｅ＿ｓｅｇｍｅｎｔ＿ｈｅａｄｅｒ（）は、次のシンタックスの形態を取ることができる：

ｆｉｒｓｔ＿ｓｌｉｃｅ＿ｓｅｇｍｅｎｔ＿ｉｎ＿ｐｉｃ＿ｆｌａｇおよびｓｌｉｃｅ＿ｓｅｇｍｅｎｔ＿ａｄｄｒｅｓｓは、ピクチャ内のスライスセグメントの位置に依存するが、他のシンタックスエレメントの値は、同一の符号化されたピクチャのすべての独立的なスライスセグメントにおいて何回もは変わらない。

ビットストリームは、何らかの符号化形式または規格においてＮＡＬユニットストリームまたはバイトストリームの形態であり得るビットのシーケンスとして定義することができ、符号化されたピクチャの表現および１つまたは複数の符号化された映像シーケンスを形成する関連付けられたデータを形成する。最初のビットストリームには、同一のファイル内または通信プロトコルの同一の接続内など、同一の論理チャネル内の第２のビットストリームが続く可能性がある。（映像符号化のコンテキストでは）基本的なストリームは、１つまたは複数のビットストリームのシーケンスとして定義することができる。一部の符号化形式または規格では、第１のビットストリームの最後は、ビットストリーム終端（ＥＯＢ）ＮＡＬユニットと称され得る特定のＮＡＬユニットによって示される場合があり、これはビットストリームの最後のＮＡＬユニットである。

ビットストリームに沿って（例えば、ビットストリームに伴うことを示す）という言い回し、またはビットストリームの符号化されたユニットに沿って（例えば、符号化されたタイルに伴うことを示す）という言い回しは、「アウトオブバンド」データが関連付けられるが、ビットストリーム内または符号化されたユニット内にはそれぞれ含まれないやり方で、送信、シグナリング、または記憶を指すために、特許請求の範囲および説明される実施形態で使用される場合がある。ビットストリームに沿った復号化という言い回し、またはビットストリームの符号化されたユニットに沿った復号化という言い回しなどは、ビットストリームまたは符号化されたユニットにそれぞれ関連付けられる参照されたアウトオブバンドデータ（アウトオブバンドの送信、シグナリング、または記憶から取得することができる）を復号化することを指す場合がある。例えば、ビットストリームに沿ってという言い回しは、ビットストリームが、ＩＳＯＢａｓｅＭｅｄｉａＦｉｌｅＦｏｒｍａｔに準拠しているファイルなどのコンテナファイルに含まれる場合に使用される場合があり、特定ファイルのメタデータは、ビットストリームを含むトラック用のサンプルエントリ内のボックス、ビットストリームを含むトラック用のサンプルグループ、またはビットストリームを含むトラックに関連付けられた時間決めされたメタデータトラックなど、メタデータをビットストリームに関連付けるやり方で、そのファイルに記憶される。

イントラランダムアクセスポイント（ＩＲＡＰ）ピクチャとも称され得るランダムアクセスポイント（ＲＡＰ）ピクチャまたはランダムアクセスピクチャは、イントラ符号化された画像セグメントのみを含むことができる。さらには、ＲＡＰピクチャは、復号化順のＲＡＰピクチャに先行するあらゆるピクチャの復号化プロセスを実施することなく正しく復号化することができるように、出力順のサブシーケンスピクチャを制約する場合がある。

動き制約タイルセット（ＭＣＴＳ）は、インター予測プロセスがエンコーディングにおいて制約されるタイルセットである。以下の制限が適用される場合がある：動き制約タイルセットの外部のサンプル値、および動き制約タイルセットの外部の１つまたは複数のサンプル値を使用して導出したフラクショナルなサンプル位置におけるサンプル値は、動き制約タイルセット内のいかなるサンプルのインター予測にも使用されない。追加的に、ＭＣＴＳのエンコーディングは、ＭＣＴＳの外部のブロックから導出された変数およびいかなる復号化結果も、ＭＣＴＳ内のいかなる復号化プロセスに使用されないやり方で制約される。例えば、ＭＣＴＳのエンコーディングは、動きベクトル候補がＭＣＴＳの外部のブロックから導出されないやり方で、制約される。これは、ＨＥＶＣの時間動きベクトル予測をオフにすることによって、あるいはＴＭＶＰ候補またはマージ内のＴＭＶＰ候補もしくはＭＣＴＳの右下の最後の１つを除くＭＣＴＳの右のタイル境界のすぐ左に配置されたＰＵについてのＡＭＶＰ候補リストにしたがうあらゆる動きベクトル予測候補を、エンコーダが使用することを不許可にすることによって、強制することができる。一般に、ＭＣＴＳは、ＭＣＴＳの外部にある動きベクトルなどの、いかなるサンプル値および符号化されたデータとも無関係なタイルセットとなるように定義することができる。ＭＣＴＳシーケンスは、１つまたは複数の符号化された映像シーケンスなどにおける個々のＭＣＴＳのシーケンスとして定義することができる。場合によっては、ＭＣＴＳは矩形面積を形成するよう要求される場合がある。コンテキストに応じて、ＭＣＴＳはピクチャ内のタイルセット、またはピクチャのシーケンス内の個々のタイルセットを指す可能性があることを理解されたい。一般的には必要とされないが、個々のタイルセットはピクチャのシーケンス内にコロケートされてもよい。動き制約タイルセットは、他のタイルセットなしに復号化することができるため、独立的に符号化されたタイルセットとして考えることができる。

インター予測で使用されるサンプル場所は、飽和している場合がある。結果として、それ以外でピクチャの外部となる場所は、ピクチャの対応する境界サンプルをポイントするために飽和する。したがって、タイル境界がやはりピクチャ境界である場合、動きベクトルは事実上その境界を横切ることができるか、または、サンプル場所が境界に対して飽和しているため動きベクトルはその境界外部の場所を参照する可能性があるフラクショナルなサンプル補間を事実上生じさせることができる。ＨＥＶＣの時間動き制約タイルセット補助強化情報（ＳＥＩ）メッセージを使用して、ビットストリーム内の動き制約タイルセットの存在を示すことができる。

３６０度映像または仮想現実（ＶＲ）映像は、一般的に典型的な表示構成では、単一の時間ポイントにおいて映像の一部のみが表示されるような広い視野（ＦＯＶ）を与える映像コンテンツを称する。例えば、ＶＲ映像は、例えば約１００度の視野を表示することが可能な頭部装着型ディスプレイ（ＨＭＤ）で視聴することができる。表示されるＶＲ映像コンテンツの空間的なサブセットは、ＨＭＤの向きに基づいて選択することができる。別の例では、典型的なフラットパネル視聴環境が想定され、この場合例えば最大４０度の視野を表示することができる。そのようなディスプレイでワイドＦＯＶコンテンツ（例えば、魚眼）を表示する場合、ピクチャ全体ではなく空間サブセットが表示されることがある。ＶＲ映像取得、エンコーディング、および再生の例示的なプロセスを、図２Ａに図示する。

現実世界の音声－視覚シーン（Ａ）が、２０で図示されるように、音声センサおよびカメラのセット、または複数のレンズとセンサを備えるカメラデバイスによってキャプチャされる。取得により、デジタル画像／映像（Ｂｉ）および音声（Ｂａ）信号のセットが得られる。カメラ／レンズは、カメラセットまたはカメラデバイスの中心周りのすべての方向をカバーすることができる。音声は、様々なマイクロフォン構成を使用してキャプチャされ、チャネルベース信号、静的または動的（例えば、３Ｄシーンを通って動く）なオブジェクト信号、およびシーンベース信号（例えば、高次アンビソニクス）を含む、様々な異なるコンテンツ形式として記憶することができる。チャネルベースの信号は、典型的にはＣｏｄｉｎｇＩｎｄｅｐｅｎｄｅｎｔＣｏｄｅＰｏｉｎｔ（ＣＩＣＰ）で定義される拡声器レイアウトのうちの１つに準拠している。全指向性メディア用途では、レンダリングされた没入型音声プログラムの拡声器レイアウト信号は、ヘッドフォンを介した提示用にバイノーラル化することができる。同じ瞬間の画像（Ｂｉ）を、パックされたピクチャ（Ｄ）に対して、スティッチング、投影、およびマッピングすることができる。

モノスコピックな３６０度映像では、２２に図示されるように、ある瞬間の入力画像が、１つのビューを表現する投影ピクチャを生成するようスティッチングされる。モノスコピックなコンテンツ向けの画像のスティッチング、投影、および領域単位パッキングプロセスのブレイクダウンを図２Ｂに図示する。入力画像（Ｂｉ）は、例えば単位球面であり得る三次元投影構造に対して、スティッチングされ、投影される。投影構造は、平面またはその一部などの、１つまたは複数の表面を含むと考えることができる。投影構造は、キャプチャされたＶＲ画像／映像コンテンツが投影され、各投影ピクチャを形成することができる、１つまたは複数の表面から成る三次元構造として定義することができる。投影構造上の画像データは、二次元投影ピクチャ（Ｃ）にさらに配置構成される。投影という用語は、入力画像のセットを投影フレームに投影するプロセスとして定義することができる。例えば正距円筒図法投影（ＥＲＰ）形式およびキューブマップ投影（ＣＭＰ）形式を含む、予め定義された投影ピクチャの表現形式のセットがあってもよい。投影ピクチャは球面全体をカバーすると考えることができる。

領域単位パッキングが、投影ピクチャをパックされたピクチャにマッピングするために適用されてもよい。領域単位パッキングが適用されない場合、パックされたピクチャは投影ピクチャと同一であり、投影ピクチャが、画像／映像エンコーディングへの入力として与えられる。領域単位パッキングが適用される場合、投影ピクチャの領域は、パックされたピクチャにおける各領域の場所、形状、およびサイズを示すことによってパックされたピクチャ（Ｄ）にマッピングされ、パックされたピクチャ（Ｄ）が、画像／映像エンコーディングへの入力として与えられる。領域単位パッキングは、投影ピクチャをパックされたピクチャにマッピングするプロセスを指す。パックされたピクチャは、投影ピクチャの領域単位パッキングから得られるピクチャを指す。

インター予測で使用されるサンプル場所は、飽和している場合がある。結果として、それ以外でピクチャの外部となる場所は、ピクチャの対応する境界サンプルをポイントするために飽和する。したがって、いくつかの事例では、タイル境界がやはりピクチャ境界である場合、動きベクトルは事実上その境界を横切ることができるか、または、サンプル場所が境界に対して飽和しているため動きベクトルはその境界外部の場所を参照する可能性があるフラクショナルなサンプル補間を事実上生じさせることができる。他の事例では、具体的に符号化されたタイルを、ピクチャ境界に隣接する位置にあるビットストリームから、タイルがピクチャ境界に隣接していない位置にある別のビットストリームに抽出することができる場合、エンコーダは、動きベクトルを任意のＭＣＴＳ境界同様にピクチャ境界に制約することができる。ＨＥＶＣの時間動き制約タイルセット補助強化情報（ＳＥＩ）メッセージを使用して、ビットストリーム内の動き制約タイルセットの存在を示すことができる。

ＩＳＯＢＭＦＦの一部の概念、構造、および仕様を、それに基づいて実施形態を実施することができるコンテナファイル形式の例として、以下で説明する。本発明の態様は、ＩＳＯＢＭＦＦに限定されるのではなく、説明は、本発明が部分的または完全に実現され得る１つの可能な基礎のために与えられる。

ＩＳＯベースのメディアファイル形式における基本的なビルディングブロックを、ボックスと呼ぶ。各ボックスは、ヘッダおよびペイロードを有する。ボックスヘッダは、ボックスのタイプ、およびボックスのサイズをバイトとして示す。ボックスは、他のボックスを包み込むことができ、ＩＳＯＢＭＦＦは特定のタイプのボックス内で、どのボックスタイプが許容されるか指定する。さらには、いくつかのボックスの存在は、各ファイルで必須である場合がある一方で、他のボックスの存在は任意選択であってもよい。追加的に、一部のボックスタイプでは、２つ以上のボックスが１つのファイルに存在することが許可可能であってもよい。したがって、ＩＳＯベースのメディアファイル形式は、ボックスの階層構造を指定すると考えることができる。

ＩＳＯＢＭＦＦによると、ファイルは、ボックスにカプセル化されたメディアデータおよびメタデータを含む。それぞれのボックスは、４つの文字コード（４ＣＣ）によって識別され、ボックスのタイプおよびサイズについて知らせるヘッダから始まる。

ＩＳＯベースのメディアファイル形式に準拠するファイルでは、メディアデータはメディアデータ「ｍｄａｔ」ボックス（別名、ＭｅｄｉａＤａｔａＢｏｘ）内で与えられ、動画「ｍｏｏｖ」ボックス（別名、ＭｏｖｉｅＢｏｘ）を使用してメタデータを包み込むことができる。場合によっては、動作可能となるファイルには、「ｍｄａｔ」および「ｍｏｏｖ」の両方のボックスが存在することが要求される場合がある。動画「ｍｏｏｖ」ボックスは、１つまたは複数のトラックを含むことができ、それぞれのトラックは、１つの対応するＴｒａｃｋＢｏｘ（「ｔｒａｋ」）に存在することができる。トラックは、メディア圧縮形式（およびＩＳＯベースのメディアファイル形式への、そのカプセル化）にしたがってフォーマットされたサンプルを参照するメディアトラックを含む多くのタイプのうちの１つであってもよい。トラックは、論理チャネルとして考えることができる。

動画フラグメントは、例えばストリーミング配信もしくはメディアコンテンツのプログレッシブダウンロード用に、または例えば記録アプリケーションがクラッシュした場合、メモリ空間が不足した場合、もしくは何らかの他のインシデントが生じた場合に、データの損失を回避するためにコンテンツをＩＳＯＢＭＦＦファイルに記録する際に、使用することができる。動画フラグメントがない場合、ファイル形式がすべてのメタデータ、例えば動画ボックスがファイルの１つの隣接するエリアに書き込まれることを必要とする可能性があるため、データ損失が生じる可能性がある。さらには、ファイルを記録する際、利用可能な記憶サイズの動画ボックスをバッファリングするために十分なメモリ空間（例えば、ランダムアクセスメモリＲＡＭ）がない可能性があり、動画が閉じられた時に動画ボックスのコンテンツを再計算することが遅くなりすぎる場合がある。その上、動画フラグメントは、通常のＩＳＯＢＭＦＦファイルパーサを使用して、ファイルの同時的な記録および再生を可能にすることができる。さらには、プログレッシブダウンロードでは、必要とされる初期バッファリングが、より短い持続時間である可能性があり、例えば動画フラグメントが使用され、かつ初期動画ボックスが同一のメディアコンテンツを有するが動画フラグメントなしに構築されたファイルに比べて小さい場合の、ファイルの同時的な受信および再生である。

動画フラグメント特徴により、そうでなければ動画ボックスに存在し得るメタデータを、複数のピースに分けられるようになる可能性がある。それぞれのピースは、トラックの特定の期間に対応することができる。換言すると、動画フラグメント特徴により、ファイルメタデータおよびメディアデータをインターリーブできるようにすることが可能である。結果的に、動画ボックスのサイズを限定することができ、上述の事例が実現される。

いくつかの例では、動画フラグメント用のメディアサンプルは、ｍｏｏｖボックスと同じファイルにある場合、ｍｄａｔボックス内に存在する可能性がある。しかしながら、動画フラグメントのメタデータには、ｍｏｏｆボックスが用意される場合がある。ｍｏｏｆボックスは、以前はｍｏｏｖボックス内にあった再生時間の特定の持続時間の情報を含む場合がある。ｍｏｏｖボックスは、それ自体の有効な動画をさらに表現することができるが、それに加えて、動画フラグメントが同一のファイル内で続くことを示すｍｖｅｘボックス（別名、ＭｏｖｉｅＥｘｔｅｎｄｓＢｏｘ）を含むことができる。動画フラグメントは、ｍｏｏｖボックスに関連付けられた提示を時間的に延ばすことができる。

動画フラグメント内には、トラックごとにゼロから複数までのどこかを含むトラックフラグメントのセットがある可能性がある。次いで、トラックフラグメントは、トラックラン（別名、トラックフラグメントラン）のゼロから複数までのどこかを含み得、そのドキュメントのそれぞれは、そのトラックのためのサンプルの隣接するランである。これらの構造内では、多くのフィールドが任意選択であり、また、デフォルト化することが可能である。ｍｏｏｆボックスに含まれ得るメタデータは、ｍｏｏｖボックスに含まれる可能性があり場合によっては、様々に符号化され得るメタデータのサブセットに限定される場合がある。ｍｏｏｆボックスに含むことが可能なボックスに関する詳細は、ＩＳＯベースのメディアファイル形式仕様書に見ることができる。内蔵型動画フラグメントは、ファイル順に連続的なｍｏｏｆボックスおよびｍｄａｔボックスで構成されるよう定義することができ、ｍｄａｔボックスは動画フラグメントのサンプルを含み（このために、ｍｏｏｆボックスはメタデータを提供する）、いかなる他の動画フラグメント（つまり、いかなる他のｍｏｏｆボックス）のサンプルも含まない。

トラック参照メカニズムを使用してトラックを互いに関連付けることができる。ＴｒａｃｋＲｅｆｅｒｅｎｃｅＢｏｘは、ボックスを含み、そのそれぞれは含んでいるトラックから他のトラックのセットへの参照を提供する。これらの参照は、含まれるボックスのボックスタイプ（つまり、ボックスの４つの文字コード）を通じてラベル付けされる。

ＴｒａｃｋＢｏｘに含まれるＴｒａｃｋＧｒｏｕｐＢｏｘにより、それぞれのグループが特定の特性を共有するか、またはグループ内のトラックが特定の関係性を有する、トラックのグループのインジケーションが可能となる。ボックスは、ゼロ以上のボックスを含み、特定の特性または関係性が、含まれるボックスのボックスタイプによって示される。含まれるボックスは、トラックが同一のトラックグループに属すると結論付けるために使用することができる識別子を含む。同一のタイプの含まれるボックスをＴｒａｃｋＧｒｏｕｐＢｏｘ内に含み、これらの含まれるボックス内に同一の識別子の値を有するトラックは、同一のトラックグループに属する。

ＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘは、ＩＳＯ／ＩＥＣ２３００１－１４の一部として指定される。ＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘは、関連付けられるファイルまたはセグメントのボックス階層構造の概要を与える。これは、ＢｏｘＩｎｄｅｘＢｏｘボックスのセットを含み、そのそれぞれは、１つの上位レベルボックスを記述しており、例えばボックスタイプおよびボックスサイズ（バイトで）を与える。

ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｉｄｅｎｔｉｆｉｅｒ（ＵＲＩ）は、リソースの名前を識別するために使用される文字の文字列として定義することができる。そのような識別情報により、ネットワーク上で特定のプロトコルを使用して、リソースの表現との対話が可能となる。ＵＲＩは、ＵＲＩ用の具体的なシンタックスおよび関連付けられるプロトコルを指定するスキームを通じて定義される。ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ（ＵＲＬ）およびｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｎａｍｅ（ＵＲＮ）は、ＵＲＩの形態である。ＵＲＬは、ウェブリソースを識別して、リソースの表現に作用する、またはリソースの表現を取得する手段を指定するＵＲＩとして定義することができ、その主なアクセスメカニズムおよびネットワーク場所の両方を指定する。ＵＲＮは、特定の名前空間において名前によってリソースを識別するＵＲＩとして定義することができる。ＵＲＮは、リソースの場所、またはどのようにリソースにアクセスするかを示唆することなく、リソースを識別するために使用することができる。

近年、映像ストリーミング用途などにおいて、インターネット上でのリアルタイムのマルチメディアコンテンツの配信にＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ（ＨＴＴＰ）が広く使用されている。ＵｓｅｒＤａｔａｇｒａｍＰｒｏｔｏｃｏｌ（ＵＤＰ）上でＲｅａｌ－ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ（ＲＴＰ）を使用するのとは異なり、ＨＴＴＰは構成するのが容易で、典型的にはファイアウォールおよびネットワークアドレス変換器（ＮＡＴ）を通過するようグラントされており、そのためマルチメディアストリーミング用途にとって魅力的となっている。

Ｍｉｃｒｏｓｏｆｔ（登録商標）のＳｍｏｏｔｈＳｔｒｅａｍｉｎｇ、Ａｐｐｌｅ（登録商標）のＡｄａｐｔｉｖｅＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇおよびＡｄｏｂｅ（登録商標）のＤｙｎａｍｉｃＳｔｒｅａｍｉｎｇなどの、ＨＴＴＰ上でのアダプティブストリーミング向けの、いくつかの市販のソリューションが始まっており、同様に標準化プロジェクトが進行中である。最初に、アダプティブＨＴＴＰストリーミング（ＡＨＳ）が、第３世代パートナーシッププロジェクト（３ＧＰＰ）パケット交換方式ストリーミング（ＰＳＳ）サービスのリリース９で、標準化された（３ＧＰＰＴＳ２６．２３４Ｒｅｌｅａｓｅ９：「Ｔｒａｎｓｐａｒｅｎｔｅｎｄ－ｔｏ－ｅｎｄｐａｃｋｅｔ－ｓｗｉｔｃｈｅｄｓｔｒｅａｍｉｎｇｓｅｒｖｉｃｅ（ＰＳＳ）；ｐｒｏｔｏｃｏｌｓａｎｄｃｏｄｅｃｓ」）。ＭＰＥＧは、３ＧＰＰＡＨＳリリース９を、ＭＰＥＧＤＡＳＨ規格（ＩＳＯ／ＩＥＣ２３００９－１：「ＤｙｎａｍｉｃａｄａｐｔｉｖｅｓｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ（ＤＡＳＨ）－Ｐａｒｔ１：Ｍｅｄｉａｐｒｅｓｅｎｔａｔｉｏｎｄｅｓｃｒｉｐｔｉｏｎａｎｄｓｅｇｍｅｎｔｆｏｒｍａｔｓ」ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄ，２ｎｄＥｄｉｔｉｏｎ，，２０１４）の出発点として採用した。３ＧＰＰは、ＭＰＥＧと通信してアダプティブＨＴＴＰストリーミングに対して作業を継続し、３ＧＰ－ＤＡＳＨを公開した（ＤｙｎａｍｉｃＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ；３ＧＰＰＴＳ２６．２４７：「Ｔｒａｎｓｐａｒｅｎｔｅｎｄ－ｔｏ－ｅｎｄｐａｃｋｅｔ－ｓｗｉｔｃｈｅｄｓｔｒｅａｍｉｎｇＳｅｒｖｉｃｅ（ＰＳＳ）；ＰｒｏｇｒｅｓｓｉｖｅｄｏｗｎｌｏａｄａｎｄｄｙｎａｍｉｃａｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ（３ＧＰ－ＤＡＳＨ）」。ＭＰＥＧＤＡＳＨと３ＧＰ－ＤＡＳＨとは、技術上は互いに近いものであるため、ＤＡＳＨと総称される場合がある。ＤＡＳＨの一部の概念、形式、および動作を、実施形態を実装することができる映像ストリーミングシステムの例として、以下で説明する。本発明の態様は、ＤＡＳＨに限定されるのではなく、説明は、本発明が部分的または完全に実現され得る１つの可能な基礎のために与えられる。

ＤＡＳＨでは、マルチメディアコンテンツは、ＨＴＴＰサーバに記憶することができ、ＨＴＴＰを使用して配信することができる。コンテンツは、２つの部分としてサーバに記憶することができる：利用可能なコンテンツのマニフェスト、その様々な代替物、そのＵＲＬアドレス、および他の特性を記述する、ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ（ＭＰＤ）；ならびに実際のマルチメディアビットストリームを、ひと塊の形態で、単一ファイル、または複数ファイルとして含む、セグメント。ＭＤＰは、クライアントがＨＴＴＰ上で動的なアダプティブストリーミングを確立するために必要な情報を提供する。ＭＰＤは、ＧＥＴＳｅｇｍｅｎｔリクエストを作成するための、各ＳｅｇｍｅｎｔのＨＴＴＰ－ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ（ＵＲＬ）などの、メディア提示を説明する情報を含む。コンテンツを再生するために、ＤＡＳＨクライアントは、例えばＨＴＴＰ、電子メール、サムドライブ、ブロードキャスト、または他のトランスポート方法を用いることによって、ＭＰＤを取得する場合がある。ＭＰＤを解析することによって、ＤＡＳＨクライアントは、プログラムタイミング、メディアコンテンツの可用性、メディアタイプ、解像度、最小および最大帯域幅、ならびにマルチメディアコンポーネントの様々なエンコード済代替物、アクセス性特徴、および必要なデジタル著作権管理（ＤＲＭ）の存在、ネットワーク上でのメディアコンポーネント場所、ならびに他のコンテンツ特性を認識するようになることが可能である。この情報を用いて、ＤＡＳＨクライアントは適当なエンコード済代替物を選択して、例えばＨＴＴＰＧＥＴリクエストを使用してセグメントをフェッチすることによってコンテンツのストリーミングを開始することができる。ネットワークのスループット変動を考慮した適当なバッファリングの後、クライアントは後続のセグメントをフェッチし続け、ネットワーク帯域幅変動を監視することもできる。クライアントは、十分なバッファを維持するために、様々な代替物のセグメントをフェッチする（低い、または高いビットレートで）ことによって、利用可能な帯域幅にどのように適合するかを決定することができる。

ＤＡＳＨでは、階層構造的なデータモデルを使用して、メディア提示を次のように構造化する。メディア提示は、１つまたは複数のＰｅｒｉｏｄのシーケンスから成り、各Ｐｅｒｉｏｄは１つまたは複数のＧｒｏｕｐを含み、各Ｇｒｏｕｐは１つまたは複数のＡｄａｐｔａｔｉｏｎＳｅｔを含み、各ＡｄａｐｔａｔｉｏｎＳｅｔは１つまたは複数のＲｅｐｒｅｓｅｎｔａｔｉｏｎを含み、各Ｒｅｐｒｅｓｅｎｔａｔｉｏｎは１つまたは複数のＳｅｇｍｅｎｔから成る。Ｒｅｐｒｅｓｅｎｔａｔｉｏｎは、メディアコンテンツまたはそのサブセットの代替的な選択の１つであり、典型的にはエンコーディング選択によって、例えばビットレート、解像度、言語、コーデックなどによって違いがある。Ｓｅｇｍｅｎｔは、特定の持続時間のメディアデータ、および含まれるメディアコンテンツを復号化して提示するためのメタデータを含む。Ｓｅｇｍｅｎｔは、ＵＲＩによって識別され、典型的にはＨＴＴＰＧＥＴリクエストによってリクエストされる場合がある。Ｓｅｇｍｅｎｔは、ＨＴＴＰ－ＵＲＬに関連付けられたデータの単位として定義することができ、ＭＰＤによって指定されるバイト範囲に関連付けられてもよい。

ＤＡＳＨＭＰＤは、拡張可能マークアップ言語（ＸＭＬ）に準拠しており、そのためＸＭＬで定義される通りの要素および属性を通じて指定される。

ＤＡＳＨでは、すべての記述子要素は、同じ方法で構造化されており、つまり、スキームを識別するためにＵＲＩを与える＠ｓｃｈｅｍｅＩｄＵｒｉ属性、ならびに任意属性＠ｖａｌｕｅおよび任意属性＠ｉｄを含む。要素のセマンティクスは、採用されるスキームに固有である。スキームを識別するＵＲＩは、ＵＲＮまたはＵＲＬであり得る。

ＤＡＳＨでは、独立的な表現は、あらゆる他の表現とは無関係に処理することが可能な表現として定義することができる。独立的な表現は、独立的なビットストリームまたは独立的なビットストリームのレイヤを含むものと理解することができる。依存的な表現は、提示および／または含まれるメディアコンテンツコンポーネントの復号化のために、その相補的な表現からのＳｅｇｍｅｎｔが必要となる表現として定義することができる。依存的な表現は、例えばスケーラブルなビットストリームの予測されたレイヤを含むものと理解することができる。相補的な表現は、少なくとも１つの依存的な表現を補完する表現として定義することができる。相補的な表現は、独立的な表現であってもよく、依存的な表現であってもよい。依存的なＲｅｐｒｅｓｅｎｔａｔｉｏｎは、＠ｄｅｐｅｎｄｅｎｃｙＩｄ属性を含むＲｅｐｒｅｓｅｎｔａｔｉｏｎ要素によって記述することができる。依存的なＲｅｐｒｅｓｅｎｔａｔｉｏｎは、復号化および／または提示のために相補的なＲｅｐｒｅｓｅｎｔａｔｉｏｎのセットに依存すること以外は、通常のＲｅｐｒｅｓｅｎｔａｔｉｏｎとして考えることができる。＠ｄｅｐｅｎｄｅｎｃｙＩｄは、すべての相補的なＲｅｐｒｅｓｅｎｔａｔｉｏｎ、つまりこの依存的なＲｅｐｒｅｓｅｎｔａｔｉｏｎに含まれるメディアコンテンツコンポーネントを提示および／または復号化するために必要なＲｅｐｒｅｓｅｎｔａｔｉｏｎの＠ｉｄ属性の値を含む。

ＩＳＯＢＭＦＦのトラック参照は、１対１の様式で＠ａｓｓｏｃｉａｔｉｏｎＩｄに与えられるＲｅｐｒｅｓｅｎｔａｔｉｏｎ＠ｉｄ値のリストにマッピングされるＤＡＳＨＭＰＤの＠ａｓｓｏｃｉａｔｉｏｎＴｙｐｅ属性中の４つの文字コードのリスト内に反映され得る。これらの属性は、メディアＲｅｐｒｅｓｅｎｔａｔｉｏｎをメタデータＲｅｐｒｅｓｅｎｔａｔｉｏｎにリンクするために使用することができる。

ＤＡＳＨサービスは、オンデマンドのサービスまたはライブサービスとして提供される場合がある。オンデマンドのサービスでは、ＭＰＤは静的であり、ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎのすべてのＳｅｇｍｅｎｔは、コンテンツプロバイダがＭＰＤを公開する時、既に利用可能である。しかし、ライブサービスでは、ＭＰＤによって採用されるＳｅｇｍｅｎｔＵＲＬ構築方法に応じて、ＭＰＤは静的であってもよく、動的であってもよく、コンテンツが生成されてコンテンツプロバイダによってＤＡＳＨクライアントに公開されるにつれ、Ｓｅｇｍｅｎｔは継続的に作成される。ＳｅｇｍｅｎｔＵＲＬ構築方法は、テンプレートベースのＳｅｇｍｅｎｔＵＲＬ構築方法またはＳｅｇｍｅｎｔリスト生成方法のいずれであってもよい。テンプレートベースのＳｅｇｍｅｎｔＵＲＬ構築方法では、ＤＡＳＨクライアントは、Ｓｅｇｍｅｎｔをリクエストする前にＭＰＤを更新することなくＳｅｇｍｅｎｔＵＲＬを構築することができる。Ｓｅｇｍｅｎｔリスト生成方法では、ＤＡＳＨクライアントはＳｅｇｍｅｎｔＵＲＬを得るために更新されたＭＰＤを定期的にダウンロードしなければならない。したがって、ライブサービスでは、テンプレートベースのＳｅｇｍｅｎｔＵＲＬ構築方法が、Ｓｅｇｍｅｎｔリスト生成方法より優れている。

ＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔは、ＭｅｄｉａＳｅｇｍｅｎｔにカプセル化されたメディアストリームを提示するために必要なメタデータを含むＳｅｇｍｅｎｔとして定義することができる。ＩＳＯＢＭＦＦベースのセグメント形式では、ＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔは、あらゆるサンプル用のメタデータを含まない可能性があるＭｏｖｉｅＢｏｘ（「ｍｏｏｖ」）を含む場合があり、つまりサンプル用のあらゆるメタデータが「ｍｏｏｆ」ボックスで提供される。

ＭｅｄｉａＳｅｇｍｅｎｔは、通常速度で一定の持続時間の再生用のメディアデータを含み、そのような持続時間はＭｅｄｉａＳｅｇｍｅｎｔ持続時間またはＳｅｇｍｅｎｔ持続時間と称される。コンテンツ製作者またはサービスプロバイダは、所望のサービスの特性にしたがって、Ｓｅｇｍｅｎｔ持続時間を選択することができる。例えば、比較的短いＳｅｇｍｅｎｔ持続時間は、短いエンドツーエンドのレイテンシを達成するためにライブサービスで使用される場合がある。その理由としては、ＳｅｇｍｅｎｔはＤＡＳＨ向けのメディアデータを生成する離散的な単位であるため、Ｓｅｇｍｅｎｔ持続時間は、典型的にはＤＡＳＨクライアントに知覚されるエンドツーエンドのレイテンシの下限だからである。コンテンツ生成は、典型的にはメディアデータのＳｅｇｍｅｎｔ全体がサーバに利用可能な様式で行なわれる。さらには、多くのクライアント実装形態は、ＳｅｇｍｅｎｔをＧＥＴリクエストのための単位として使用する。したがって、ライブサービス向けの典型的な構成では、Ｓｅｇｍｅｎｔは、ＭｅｄｉａＳｅｇｍｅｎｔの持続時間全体が利用可能であり、エンコードされてＳｅｇｍｅｎｔにカプセル化されている時だけ、ＤＡＳＨクライアントによってリクエストされる可能性がある。オンデマンドのサービス向けでは、Ｓｅｇｍｅｎｔ持続時間を選択する様々な戦略が使用される場合がある。

Ｓｅｇｍｅｎｔは、例えば、複数の部分としてセグメントのダウンロードを可能にするために、Ｓｕｂｓｅｇｍｅｎｔにさらにパーティショニングすることができる。Ｓｕｂｓｅｇｍｅｎｔは、完全なアクセス単位を含むことが必要とされる場合がある。Ｓｕｂｓｅｇｍｅｎｔは、ＳｅｇｍｅｎｔＩｎｄｅｘボックス（別名、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘ、すなわち「ｓｉｄｘ」ボックス）によってインデックス付けすることができ、ＳｅｇｍｅｎｔＩｎｄｅｘボックスは、Ｓｕｂｓｅｇｍｅｎｔごとに提示時間範囲およびバイト範囲をマッピングするための情報を含んでいる。ＳｅｇｍｅｎｔＩｎｄｅｘボックスは、その持続時間およびバイトオフセットをシグナリングすることによって、セグメント内のサブセグメントおよびストリームアクセスポイントを記述することもできる。ＤＡＳＨクライアントは、ＳｅｇｍｅｎｔＩｎｄｅｘボックスから取得した情報を使用して、バイト範囲ＨＴＴＰリクエストを使用して特定のＳｕｂｓｅｇｍｅｎｔ用のＨＴＴＰＧＥＴリクエストを作成することができる。比較的長いＳｅｇｍｅｎｔ持続時間が使用される場合、Ｓｕｂｓｅｇｍｅｎｔを使用して、ビットレートのアダプテーションに妥当かつ柔軟なＨＴＴＰレスポンスのサイズを保つことができる。セグメントのインデックス付け情報は、そのセグメントの初めに単一のボックスに入れるか、またはセグメント中の多数のインデックス付けボックス間に拡散することができる。階層構造的、デイジーチェーン、およびハイブリッド型など、拡散の様々な方法が可能である。この技法は、セグメントの初めに大きなボックスが追加されることを回避することができるため、初期ダウンロード遅延の可能性を防ぐことができる。

ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘは、次のシンタックスを有することができる：

ａｌｉｇｎｅｄ（８）ｃｌａｓｓＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｓｉｄｘ’，ｖｅｒｓｉｏｎ，０）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｒｅｆｅｒｅｎｃｅ＿ＩＤ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｔｉｍｅｓｃａｌｅ；
ｉｆ（ｖｅｒｓｉｏｎ＝＝０）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｅａｒｌｉｅｓｔ＿ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｆｉｒｓｔ＿ｏｆｆｓｅｔ；
｝
ｅｌｓｅ｛
ｕｎｓｉｇｎｅｄｉｎｔ（６４）ｅａｒｌｉｅｓｔ＿ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（６４）ｆｉｒｓｔ＿ｏｆｆｓｅｔ；
｝
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｒｅｓｅｒｖｅｄ＝０；
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｒｅｆｅｒｅｎｃｅ＿ｃｏｕｎｔ；
ｆｏｒ（ｉ＝１；ｉ＜＝ｒｅｆｅｒｅｎｃｅ＿ｃｏｕｎｔ；ｉ＋＋）
｛
ｂｉｔ（１）ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３１）ｒｅｆｅｒｅｎｃｅｄ＿ｓｉｚｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｓｕｂｓｅｇｍｅｎｔ＿ｄｕｒａｔｉｏｎ；
ｂｉｔ（１）ｓｔａｒｔｓ＿ｗｉｔｈ＿ＳＡＰ；
ｕｎｓｉｇｎｅｄｉｎｔ（３）ＳＡＰ＿ｔｙｐｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（２８）ＳＡＰ＿ｄｅｌｔａ＿ｔｉｍｅ；
｝
｝

ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘの一部のシンタックスエレメントのセマンティクスは、次のように指定することができる。

ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ：１にセットされる場合は、参照がＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘに向いていることを示す；それ以外では、参照はメディアコンテンツを向いている（例えば、ＩＳＯＢＭＦＦに基づくファイルの場合、ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘへの参照である）；別個のインデックスセグメントが使用される場合、参照タイプ１のエントリは、インデックスセグメント内にあり、参照タイプ０のエントリはメディアファイル内にある。

ｒｅｆｅｒｅｎｃｅｄ＿ｓｉｚｅ：参照される項目の第１のバイトから、次の参照される項目の第１のバイト、または最終エントリの場合では参照されるものの最後までのバイト距離。

用語ＳｅｇｍｅｎｔＩｎｄｅｘは、ＭＰＤとは別個の、ＭｅｄｉａＳｅｇｍｅｎｔ内における時間範囲対バイト範囲マッピングのコンパクトなインデックスとして定義することができる。ＳｅｇｍｅｎｔＩｎｄｅｘは、１つまたは複数のＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘを含むことができる。

表記（Ｓｕｂ）ｓｅｇｍｅｎｔは、ＳｅｇｍｅｎｔまたはＳｕｂｓｅｇｍｅｎｔのいずれかを指す。ＳｅｇｍｅｎｔＩｎｄｅｘボックスが存在しない場合、表記（Ｓｕｂ）ｓｅｇｍｅｎｔは、Ｓｅｇｍｅｎｔを指す。ＳｅｇｍｅｎｔＩｎｄｅｘボックスが存在する場合、表記（Ｓｕｂ）ｓｅｇｍｅｎｔは、例えばクライアントがＳｅｇｍｅｎｔベースまたはＳｕｂｓｅｇｍｅｎｔベースのどちらでリクエストを発行するかどうかに応じて、ＳｅｇｍｅｎｔまたはＳｕｂｓｅｇｍｅｎｔを指し得る。

ＭＰＥＧ－ＤＡＳＨは、ＩＳＯベースのメディアファイル形式およびＭＰＥＧ－２ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ両方のセグメント－コンテナ形式を定義する。他の仕様書は、他のコンテナ形式に基づいてセグメント形式を指定することができる。例えば、Ｍａｔｒｏｓｋａコンテナファイル形式に基づいたセグメント形式が提案されている。

Ｓｕｂ－Ｒｅｐｒｅｓｅｎｔａｔｉｏｎは、通常のＲｅｐｒｅｓｅｎｔａｔｉｏｎに埋め込まれており、ＳｕｂＲｅｐｒｅｓｅｎｔａｔｉｏｎ要素によって記述される。ＳｕｂＲｅｐｒｅｓｅｎｔａｔｉｏｎ要素は、Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ要素に含まれる。ＳｕｂＲｅｐｒｅｓｅｎｔａｔｉｏｎ要素は、Ｒｅｐｒｅｓｅｎｔａｔｉｏｎに埋め込まれた１つまたは複数のメディアコンテンツコンポーネントの性質を記述する。例えば、ＳｕｂＲｅｐｒｅｓｅｎｔａｔｉｏｎ要素は埋め込まれた音声コンポーネント（例えば、コーデック、サンプリングレートなど）、埋め込まれたサブタイトル（例えば、コーデックなど）の厳密な性質を記述し、または一部の埋め込まれた低品質映像レイヤ（それ以外では、例えば一部の低フレームレートなど）を記述する場合がある。Ｓｕｂ－ＲｅｐｒｅｓｅｎｔａｔｉｏｎとＲｅｐｒｅｓｅｎｔａｔｉｏｎとは、一部の共通属性および要素を共有する。

ＳｕｂＲｅｐｒｅｓｅｎｔａｔｉｏｎ要素に＠ｌｅｖｅｌ属性が存在する場合、以下が適用される：

Ｓｕｂ－Ｒｅｐｒｅｓｅｎｔａｔｉｏｎは、Ｓｕｂ－Ｒｅｐｒｅｓｅｎｔａｔｉｏｎが含まれるＲｅｐｒｅｓｅｎｔａｔｉｏｎの低品質バージョンへアクセスするための機能を与える。この場合、Ｓｕｂ－Ｒｅｐｒｅｓｅｎｔａｔｉｏｎは、例えば多重化されたＲｅｐｒｅｓｅｎｔａｔｉｏｎ中の音声トラックを抽出することを可能にするか、または低フレームレートが与えられている場合、効率的な高速転送もしくは巻き戻し動作を可能にすることができる。

ＨＴＴＰの部分的なＧＥＴリクエストを通じて容易にデータへアクセスすることができるように、ＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔおよび／またはＭｅｄｉａＳｅｇｍｅｎｔおよび／またはＩｎｄｅｘＳｅｇｍｅｎｔは、十分な情報を与える。そのような情報を与えることに対する詳細は、使用中のメディア形式によって定義される。

ＩＳＯＢＭＦＦセグメントが、Ｓｕｂ－Ｒｅｐｒｅｓｅｎｔａｔｉｏｎを含むＲｅｐｒｅｓｅｎｔａｔｉｏｎに使用される場合、以下が適用される：

ＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔは、ＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔボックスを含む。

ＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘボックス（「ｓｓｉｘ」）は、Ｓｕｂｓｅｇｍｅｎｔごとに存在する。

属性＠ｌｅｖｅｌは、記述されるＳｕｂ－ＲｅｐｒｅｓｅｎｔａｔｉｏｎがＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘ内で関連付けられるレベルを指定する。Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ、Ｓｕｂ－Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ中、およびＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔ（「ｌｅｖａ」）ボックス中の情報は、メディアデータのレベルに対する割り当ての情報を含む。

メディアデータは、各レベルが低レベルと比較して高度化をもたらすような、順序を有するべきである。

＠ｌｅｖｅｌ属性がない場合、ＳｕｂＲｅｐｒｅｓｅｎｔａｔｉｏｎ要素は、Ｒｅｐｒｅｓｅｎｔａｔｉｏｎに埋め込まれたメディアストリームのさらに詳細な説明を与えるために使用されるだけである。

ＩＳＯＢＭＦＦは、ファイルのサブセットを指定する、いわゆるレベルメカニズムを含む。レベルは、ｍ＜＝ｎの時、レベルにｎにマッピングされたサンプルがレベルｍの任意のサンプルに依存し得るような、依存性階層構造にしたがい、ｐ＞ｎの時、レベルｐのいかなるサンプルにも依存しない。例えば、レベルは、時間サブレイヤ（例えば、ＨＥＶＣのＴｅｍｐｏｒａｌＩｄ）にしたがって指定することができる。レベルは、ＭｏｖｉｅＥｘｔｅｎｄ（「ｍｖｅｘ」）ボックスに含まれるＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔ（「ｌｅｖａ」）ボックス（別名、ＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔＢｏｘ）で報知することができる。レベルは、最初の動画では指定することができない。ＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔボックスが存在する場合、これは最初の動画に続くすべての動画フラグメントに当てはまる。ＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔボックスのコンテキストでは、１つまたは複数のＭｏｖｉｅＦｒａｇｍｅｎｔボックスおよび関連付けられるＭｅｄｉａＤａｔａボックスで構成されるようにフラクションが定義され、可能性としては最後のＭｅｄｉａＤａｔａＢｏｘの最初の部分だけを含む。フラクション内では、レベルごとのデータが隣接して現れる。フラクション内のレベルのデータは、レベル値の昇順に現れる。フラクション内のすべてのデータはレベルに割り振られる。ＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔボックスは、スケーラビリティレイヤまたは時間サブレイヤなどの特徴からレベルへのマッピングを提供する。特徴は、トラック、トラック内のサブトラック、またはトラックのサンプルグルーピングを通じて指定することができる。例えば、ＴｅｍｐｏｒａｌＬｅｖｅｌサンプルグルーピングを使用して、ＨＥＶＣ内の時間サブレイヤと等価である、ピクチャの時間レベルへのマッピングを示すことができる。すなわち、特定のＴｅｍｐｏｒａｌＩｄ値のＨＥＶＣピクチャは、ＴｅｍｐｏｒａｌＬｅｖｅｌサンプルグルーピングを使用して、特定の時間レベルにマッピングすることができる（同じことをすべてのＴｅｍｐｏｒａｌＩｄ値に繰り返すことができる）。この時、ＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔボックスは、レベルに対する示されたマッピングにおけるＴｅｍｐｏｒａｌＬｅｖｅｌサンプルグルーピングを参照することができる。

ＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘボックス（「ｓｓｉｘ」、別名、ＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘＢｏｘ）は、レベル（ＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔボックスによって指定される通り）から、インデックス付けされたサブセグメントのバイト範囲へのマッピングを与える。換言すると、このボックスは、サブセグメント中のデータを、レベルに応じて、部分的なサブセグメントにどのように並べるかについての、コンパクトなインデックスを与える。これによって、クライアントは、サブセグメント中のデータの範囲をダウンロードすることによって、部分的なサブセグメントのデータに容易にアクセスできるようになる。ＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘボックスが存在する場合、サブセグメント中のそれぞれのバイトが、レベルに割り振られる。範囲がレベル割り振り中のどの情報にも関連付けられていない場合、レベル割り振りに含まれていない、あらゆるレベルを使用することができる。葉サブセグメントだけをインデックス付けする、つまりサブセグメントのみをインデックス付けしてセグメントにはインデックス付けしない、各ＳｅｇｍｅｎｔＩｎｄｅｘボックスごとに存在する、０または１のＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘボックスがある。もしあれば、ＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘボックスが、関連付けられるＳｅｇｍｅｎｔＩｎｄｅｘボックスの後の、次のボックスである。ＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘボックスは、ＳｅｇｍｅｎｔＩｎｄｅｘボックスの直前で示されるサブセグメントを詳細に記録する。各レベルは、厳密に１つの＼部分的なサブセグメントに割り振ることができる、つまり１レベルのバイト範囲は隣接している。部分的なサブセグメントのレベルは、サブセグメント内で昇順の数字によって割り振られている。つまり、部分的なサブセグメントのサンプルは、同一のサブセグメント中の先行する部分的なサブセグメントのあらゆるサンプルに依存する可能性があるが、その逆はない。例えば、各部分的なサブセグメントは、同一の時間サブレイヤを有するサンプルを含んでおり、部分的なサブセグメントは、サブセグメント内で昇順の時間サブレイヤ順に現れる。部分的なサブセグメントがこの方法でアクセスされる場合、最終的なＭｅｄｉａＤａｔａボックスは不完全である可能性がある。つまり、ＭｅｄｉａＤａｔａＢｏｘの長さインジケーションが存在することを示すよりも少ないデータがアクセスされる。ＭｅｄｉａＤａｔａボックスの長さは、調節を必要とする場合があり、またはパッディングを使用してもよい。ＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔＢｏｘにおけるｐａｄｄｉｎｇ＿ｆｌａｇは、この欠落データがゼロで置換することが可能かどうかを示している。ゼロで置換することができない場合、アクセスされないレベルに割り振られたサンプル用のサンプルデータが存在しない場合、対応が取られるべきである。

ＤＡＳＨは、変動するネットワーク帯域幅に一致するよう、ＡｄａｐｔａｔｉｏｎＳｅｔ内の様々なＲｅｐｒｅｓｅｎｔａｔｉｏｎにＭｅｄｉａＳｅｇｍｅｎｔを動的にリクエストすることによって、レートアダプテーションをサポートする。ＤＡＳＨクライアントがＲｅｐｒｅｓｅｎｔａｔｉｏｎを上下に切り替える場合、Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ内の符号化依存性が考慮されなければならない。Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ切り替えは、Ｈ．２６４／ＡＶＣなどの映像符号化技法で典型的に使用されるランダムアクセスポイント（ＲＡＰ）で生じる場合がある。ＤＡＳＨでは、ＳｔｒｅａｍＡｃｃｅｓｓＰｏｉｎｔ（ＳＡＰ）と称される、より一般的な概念が導入され、Ｒｅｐｒｅｓｅｎｔａｔｉｏｎをアクセスするため、およびＲｅｐｒｅｓｅｎｔａｔｉｏｎ間の切り替えのために、コーデック独立的なソリューションを提供する。ＤＡＳＨでは、ＳＡＰが、その位置から前方に開始するＲｅｐｒｅｓｅｎｔａｔｉｏｎデータ（もしあれば、ＩｎｉｔｉａｌｉｓａｔｉｏｎＳｅｇｍｅｎｔ中のデータを初期化することが先行する）に含まれる情報だけを使用してメディアストリームの再生を開始することができるＲｅｐｒｅｓｅｎｔａｔｉｏｎ中の位置として指定される。したがって、Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ切り替えは、ＳＡＰで実施することが可能である。

ＤＡＳＨでは、同一のＡｄａｐｔａｔｉｏｎＳｅｔ内でのＲｅｐｒｅｓｅｎｔａｔｉｏｎ間の自動選択は、幅および高さ（＠ｗｉｄｔｈおよび＠ｈｅｉｇｈｔ）；フレームレート（＠ｆｒａｍｅＲａｔｅ）；ビットレート（＠ｂａｎｄｗｉｄｔｈ）；Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ間の示される品質順（＠ｑｕａｌｉｔｙＲａｎｋｉｎｇ）に基づいて実施されてきた。＠ｑｕａｌｉｔｙＲａｎｋｉｎｇのセマンティクスは、以下のように指定される：同一のＡｄａｐｔａｔｉｏｎＳｅｔ内の他のＲｅｐｒｅｓｅｎｔａｔｉｏｎに対して、Ｒｅｐｒｅｓｅｎｔａｔｉｏｎの品質ランキングを指定する。値が低いほど、コンテンツの品質が高いことを表現する。＠ｑｕａｌｉｔｙＲａｎｋｉｎｇが存在しない場合、ランキングが定義されない。

いくつかのタイプのＳＡＰが指定されており、以下を含む。ＳＡＰＴｙｐｅ１は、一部の符号化スキームで「ＣｌｏｓｅｄＧＯＰランダムアクセスポイント」（この場合、復号化順のすべてのピクチャは、正しく復号化することが可能であり、ギャップのない正しく復号化されたピクチャの連続的な時間シーケンスとなる）として既知のタイプに相当し、加えて、復号化順で第１のピクチャは、提示順の第１のピクチャでもある。ＳＡＰＴｙｐｅ２は、一部の符号化スキームで「ＣｌｏｓｅｄＧＯＰランダムアクセスポイント」（この場合、復号化順のすべてのピクチャは、正しく復号化することが可能であり、ギャップのない正しく復号化されたピクチャの連続的な時間シーケンスとなる）として既知のタイプに相当し、この時、復号化順で第１のピクチャは、提示順の第１のピクチャにならない可能性がある。ＳＡＰＴｙｐｅ３は、一部の符号化スキームで「ＯｐｅｎＧＯＰランダムアクセスポイント」として既知のタイプに相当し、この場合、正しく復号化することができず、ＳＡＰに関連付けられるイントラ符号化されたピクチャよりも短い提示時間を有するいくつかのピクチャが復号化順で存在する可能性がある。

ＭＰＥＧ－２などの一部の映像符号化規格では、各イントラピクチャは符号化されたシーケンス内のランダムアクセスポイントであった。Ｈ．２６４／ＡＶＣおよびＨ．２６５／ＨＥＶＣなどの一部の映像符号化規格でのインター予測向けの複数の参照ピクチャの、柔軟な使用の機能の結果、イントラピクチャがランダムアクセスには十分ではない可能性がある。したがって、ピクチャは、そのランダムアクセスポイント機能性に関して、そのような機能性を符号化タイプから推論するのではなく、マーク付けすることができる。例えば、Ｈ．２６４／ＡＶＣ規格で指定されるようなＩＤＲピクチャは、ランダムアクセスポイントとして使用することができる。クローズドなピクチャのグループ（ＧＯＰ）は、すべてのピクチャが正しく復号化することができるようなピクチャのグループである。例えば、Ｈ．２６４／ＡＶＣでは、クローズドＧＯＰは、ＩＤＲアクセス単位から開始することができる。

オープンなピクチャのグループ（ＧＯＰ）は、出力順で最初のイントラピクチャに先行するピクチャは正しく復号化可能ではない場合があるが、出力順で最初のイントラピクチャに続くピクチャは正しく復号化可能であるような、ピクチャのグループである。そのような最初のイントラピクチャは、ビットストリーム内で示される可能性がある、および／またはビットストリームからのインジケーションから、例えばＨＥＶＣにおけるＣＲＡＮＡＬユニットタイプを使用して結論付けることができる。オープンＧＯＰを出力順で開始する最初のイントラピクチャに先行し、復号化順で最初のイントラピクチャに続くピクチャは、リーディングピクチャと称される場合がある。２つのタイプのリーディングピクチャがある：復号化可能、および非復号化可能。ＨＥＶＣのＲＡＤＬピクチャなどの復号化可能なリーディングピクチャは、オープンＧＯＰを開始する最初のイントラピクチャから復号化が開始された時に、正しく復号化することができるようなピクチャである。換言すると、復号化可能なリーディングピクチャは、最初のイントラピクチャまたは復号化順で後続のピクチャだけを、インター予測における参照として使用する。ＨＥＶＣのＲＡＳＬピクチャなどの非復号化可能なリーディングピクチャは、オープンＧＯＰを開始する最初のイントラピクチャから復号化が開始された時に、正しく復号化することができないようなピクチャである。

ＤＡＳＨＰｒｅｓｅｌｅｃｔｉｏｎは、単一のデコーダインスタンスによって併せて消費されると期待されるＭＰＤのメディアコンポーネントのサブセットを定義しており、消費することには復号化およびレンダリングが含まれる場合がある。Ｐｒｅｓｅｌｅｃｔｉｏｎ用のメインのメディアコンポーネントを含むＡｄａｐｔａｔｉｏｎＳｅｔは、メインＡｄａｐｔａｔｉｏｎＳｅｔと称される。加えて、それぞれのＰｒｅｓｅｌｅｃｔｉｏｎは、１つまたは複数の部分的なＡｄａｐｔａｔｉｏｎＳｅｔを含むことができる。部分的なＡｄａｐｔａｔｉｏｎＳｅｔは、メインＡｄａｐｔａｔｉｏｎＳｅｔと組み合わせて処理する必要がある場合がある。メインＡｄａｐｔａｔｉｏｎＳｅｔおよび部分的なＡｄａｐｔａｔｉｏｎＳｅｔは、次の２つの手段のうちの１つによって示すことができる：事前選択記述子、またはＰｒｅｓｅｌｅｃｔｉｏｎ要素。

３６０度映像では、ある瞬間の入力画像が、それぞれの目に１つずつ、２つのビューを表現する投影ピクチャを生成するようスティッチングされる。両方のビューは、同一のパックされたピクチャにマッピングし、従来的な２Ｄ映像エンコーダによってエンコードすることができる。図２Ｃは、３６０度映像向けの、エンコードプロセスを図示している。代替的に、投影ピクチャのそれぞれのビューを、それ自身のパックされたピクチャにマッピングしてもよく、その場合、画像のスティッチング、投影、および領域単位パッキングは、図２Ｂに図示したプロセスと類似したやり方で実施することができる。左のビューまたは右のビューのいずれかのパックされたピクチャのシーケンスは、独立的に符号化することができる、またはマルチビューの映像エンコーダを使用する場合、他のビューに基づいて予測することができる。

画像のスティッチング、投影、および領域単位パッキングのプロセスは、同一コンテンツの異なるバージョン、例えば投影構造の異なる向きを作成するために、同一のソース画像に対して複数回行なわれてもよい。同様に、領域単位パッキングプロセスは、エンコードされるパックされたピクチャの２つ以上のシーケンスを作成するために、同じ投影ピクチャから複数回実施されてもよい。

３６０度パノラマコンテンツ（例えば、画像および映像）は、撮像デバイスのキャプチャ位置周りで、完全な３６０度視野を水平にカバーする。垂直な視野は変動する場合があり、例えば１８０度である可能性がある。水平に３６０度視野、垂直に１８０度視野をカバーするパノラマ画像は、正距円筒図法投影（ＥＲＰ）を使用して二次元画像平面にマッピングされている球体によって表現することができる。この場合、変換や縮尺が適用されなければ、水平座標は経度と等価であると考えることができ、垂直座標は緯度と等価であると考えることができる。モノスコピックな正距円筒図法パノラマピクチャを形成するプロセスを、図３に図示する。カメラアレイまたは複数のレンズおよびセンサを有するカメラデバイスの魚眼画像などの入力画像のセットは、球面画像上にスティッチングすることができる。球面画像は、さらに（上面および底面のない）円筒上に投影することができる。円筒は、二次元投影フレームを形成するために、広げることができる。これらの操作の１つまたは複数は、マージすることができる。例えば、入力画像は、球面への中間的な投影を伴わずに、直接円筒上に投影してもよい。正距円筒図法パノラマ用の投影構造は、単一表面を含む円筒であると考えることができる。

３６０度のコンテンツは、多面体（例えば、平坦な多角面、直線辺および鋭角または頂点を含む三次元立体物体、例えば立方体または錐体）、円筒形（正距円筒図法投影で上述したように、球面画像を円筒上に投影することによる）、円筒形（初めに球体に投影することなく直接的に）、円錐などの、様々なタイプの立体幾何学構造体にマッピングし、次いで二次元画像平面に展開することができる。

いくつかの実施形態では、３６０度水平視野であるが、垂直視野が１８０度未満のパノラマコンテンツは、球面の極エリアが二次元画像平面にマッピングされていない正距円筒図法投影の特殊なケースと考えることができる。いくつかの実施形態では、パノラマ画像は、３６０度未満の水平視野と最大１８０度の垂直視野を有することができるが、それ以外では正距円筒図法投影形式の特性を有している。

領域単位パッキング情報は、ビットストリーム内で、またはビットストリームに沿ってメタデータとしてエンコードされる場合がある。例えば、パッキング情報は、先ほど説明したように、所定のまたは示されたソース形式からパックされたフレーム形式への領域単位マッピング、例えば投影ピクチャからパックされたピクチャへの領域単位マッピングを含むことができる。

領域単位パッキング情報は、矩形の領域単位パッキングメタデータとしてエンコードすることができる。領域ごとに、矩形の領域単位パッキングメタデータは、投影ピクチャ内の矩形、パックされたピクチャ内の個々の矩形、および９０度、１８０度、もしくは２７０度の任意の回転の変換、ならびに／または水平および／もしくは垂直なミラーリングを定義する。矩形は、例えば左上角と右下角の場所によって示すことができる。マッピングは、再サンプリングを含む場合がある。個々の矩形のサイズは、投影ピクチャとパックされたピクチャとでは異なる可能性があるため、メカニズムは領域単位の再サンプリングを推論する。

例として、領域単位パッキングは、以下の使用シナリオではシグナリングを与える：
１）球面全体のさらなる均一性を達成するために、ビューポート独立的な投影用の追加的な圧縮が、異なる領域のサンプリングを稠密化することによって達成される。例えば、ＥＲＰの上部および下部がオーバサンプリングされ、これらを水平にダウンサンプリングするために領域単位パッキングを適用することができる。
２）キューブマップ投影などの平面ベースの投影形式の面を、アダプティブなやり方で構成する。
３）ビューポート独立的な投影形式を使用するビューポート依存ビットストリームを生成する。例えば、ＥＲＰの領域またはＣＭＰの面は、様々なサンプリング密度を有する可能性があり、基礎となる投影構造は様々な向きを有することができる。
４）エキストラクタトラックが異なる解像度のビットストリームからタイルを収集する場合など、エキストラクタトラックによって表現されるパックされたピクチャの領域を示す。

ＭＰＥＧ全指向性メディア形式（ＩＳＯ／ＩＥＣ２３０９０－２）は、仮想現実（ＶＲ）システム規格である。ＯＭＡＦはメディア形式を定義している（ＩＳＯＢＭＦＦから導出したファイル形式およびＤＡＳＨおよびＭＰＥＧＭｅｄｉａＴｒａｎｓｐｏｒｔ向けのストリーミング形式の両方を含む）。ＯＭＡＦｖｅｒｓｉｏｎ１は、３６０°映像、画像、および音声ならびに関連付けられた時間が決められたテキストをサポートし、自由度が３（３ＤｏＦ）のコンテンツ消費を容易にしており、全指向性コンテンツによってカバーされるあらゆる方位角と仰角および傾斜角でビューポートが選択可能であることを意味しているが、コンテンツはビュー位置のいかなる並進方向の変化にも適合されない。以下でさらに説明されるビューポート依存ストリーミングシナリオは、３ＤｏＦ用にも設計されているが、潜在的には自由度の異なる数に適合することが可能である。

全指向性メディア形式（ＯＭＡＦ）により、画像のスティッチング、投影、および領域単位パッキングの省略が可能となり、画像／映像データを、キャプチャされた形式でエンコードする。この場合、画像Ｄは画像Ｂｉと同一であると考えられ、時間瞬間当たり限られた数の魚眼画像がエンコードされる。

音声信号では、キャプチャされた信号が本質的に没入的で全指向性であり得るため、スティッチングプロセスが必要ない場合がある。スティッチングされた画像（Ｄ）は、符号化画像（Ｅｉ）または符号化映像ビットストリーム（Ｅｖ）としてエンコードされる。キャプチャされた音声（Ｂａ）は、音声ビットストリーム（Ｅａ）としてエンコードされる。符号化された画像、映像、および／または音声は、特定のメディアコンテナファイル形式、一例としてＩＳＯＢＭＦＦにしたがって、次にファイル再生用のメディアファイル（Ｆ）、またはストリーミング向けの初期化セグメントおよびメディアセグメントのシーケンス（Ｆｓ）に構成される。ファイルエンカプセレータは、復号化されたパックされたピクチャのレンダリングを支援する投影および領域単位パッキング情報など、メタデータをファイルまたはセグメントにカプセル化することもできる。ファイル中のメタデータは、以下を含む場合がある：
－投影ピクチャの投影形式
－魚眼映像パラメータ
－パックされたピクチャによってカバーされる球面の面積
－グローバル座標軸に対する投影ピクチャに対応する投影構造の向き
－領域単位パッキング情報
－領域単位品質ランキング（任意）。

セグメントＦｓは、配信メカニズムを使用して再生デバイスに配信することができる。ファイルエンカプセレータ出力（Ｆ）を含むファイルは、ファイルデカプセレータ入力（Ｆ’）を含むファイルと同一であってもよい。ファイルデカプセレータは、ファイル（Ｆ’）または受信したセグメント（Ｆ’ｓ）を処理し、符号化されたビットストリーム（Ｅ’ａ、Ｅ’ｖ、および／またはＥ’ｉ）を抽出してメタデータを解析する。次いで、音声、映像、および／または画像は、復号化信号へと復号化される（Ｂ’ａは音声用、Ｄ’は画像／映像用）。復号化されたパックされたピクチャ（Ｄ’）は、現在の視聴方向またはビューポートおよび投影、球体カバレッジ、投影構造向き、ならびにファイルから解析された領域単位パッキングメタデータに基づいて、頭部装着型ディスプレイまたは任意の他のディスプレイデバイスの画面に投影される。同様に、復号化された音声（Ｂ’ａ）が、例えばヘッドフォンを通じて、現在の視聴方向に応じてレンダリングされる。現在の視聴方向は、頭部追跡および可能であればさらなる視線追跡機能性によって決定される。復号化された映像および音声信号の適当な部分をレンダリングするためにレンダラによって使用される他、現在の視聴方向は復号化最適化のために映像および音声デコーダによって使用される場合もある。

人間の目は、３６０度の空間全体を見ることはできず、最大水平方向ＦＯＶおよび最大垂直方向ＦｏＶ（それぞれ、ＨＨＦｏＶ、ＨＶＦｏＶ）に限定される。また、ＨＭＤデバイスには、水平方向および垂直方向（それぞれ、ＤＨＦｏＶ、ＤＶＦｏＶ）に３６０度の空間全体のサブセットを見ることだけを可能にするという技術的な限度がある。あらゆる時間的ポイントにおいて、ＨＭＤのアプリケーションによってレンダリングされた映像は、３６０度映像の一部をレンダリングする。この部分を、ビューポートと定義する。ビューポートは、レンダリングディスプレイを介して表示される全指向性映像中に表現される３６０ワールド上でのウインドウである。ビューポートは、水平および垂直ＦｏＶ（それぞれ、ＶＨＦｏＶ、ＶＶＦｏＶ）によって特徴付けられる。以下では、ＶＨＦｏＶおよびＶＶＦｏＶは、単にＨＦｏＶおよびＶＦｏＶと略する。

ＯＭＡＦなどの様々なメディア形式において、図４に図示される座標系が利用される。図４に図示されるように、座標系は単位球面および３つの座標軸、つまりＸ軸（後方から前方）、Ｙ軸（横方向、側方から側方）、Ｚ軸（垂直、上向き）から成り、３つの軸は球体の中心で交わり、そこから直交方向に延びる。球体上でのポイント場所は、球面座標の方位角（φ）および仰角（θ）の対によって特定される。方位角の値範囲は、－１８０．０度以上１８０．０度未満である。仰角の値範囲は、－９０．０度以上９０．０度以下である。

図５は、コンテンツオーサリングで使用されることがある球面ピクチャからパックされたピクチャへのコンバージョン、およびＯＭＡＦプレーヤなど様々なメディアプレーヤで使用される可能性がある、レンダリングされるパックされたピクチャから球面ピクチャへの対応するコンバージョンを図示している。この節での例は、投影された全指向性映像トラックに見られるパックされたピクチャについて説明する。類似の説明が、画像項目について導出することが可能である。コンテンツオーサリングには、次の順序付けられた操作が含まれる場合がある：

操作Ａ：５０で示されるように、入力として与えられたソース画像は、球面ピクチャを生成するよう、グローバル座標軸ごとに単位球面上でスティッチングされる。

操作Ｂ：次に、５２に示されるように、単位球面をグローバル座標軸周りに回転させる。ローカル座標軸からグローバル座標軸へコンバートさせるための回転量は、ＲｏｔａｔｉｏｎＢｏｘシンタックス構造で示される回転角によって指定することができる。単位球面のローカル座標軸は、回転させられた座標系の軸である。ＲｏｔａｔｉｏｎＢｏｘがないということは、ローカル座標軸がグローバル座標軸と同一であることを示している可能性がある。

操作Ｃ：５４で示されるように、次いで回転した単位球面上の球面ピクチャは、例えば正距円筒図法投影を用いて、二次元投影ピクチャにコンバートされる。ステレオスコピックなコンテンツの空間パッキングが適用される場合、２つのビュー用の２つの球面ピクチャが、２つの構成ピクチャにコンバートされ、その後、フレームパッキングが適用され、２つの構成ピクチャを１つの投影ピクチャにパックする。

操作Ｄ：矩形の領域単位パッキングを適用して、投影ピクチャからパックされたピクチャを取得することが可能である。パッキングの一例を、５４および５６に図示する。５４での破線矩形は、投影ピクチャ上の投影領域を示し、５６での個々のエリアは対応するパックされた領域を示す。この例では、投影領域１および３は水平方向にダウンサンプリングされるが、投影領域２ではその元来の解像度が保たれる。

ＣｏｖｅｒａｇｅＩｎｆｏｒｍａｔｉｏｎＢｏｘシンタックス構造は、球体のどの部分がパックされたピクチャによってカバーされるかを示すために使用することが可能である。

５６におけるようなパックされたピクチャのサンプル場所を、５０で図示されるレンダリングで使用される単位球面にマッピングするために、ＯＭＡＦプレーヤは、以下の順序付けられた操作を実施することができる：
－５６のピクチャなどのパックされたピクチャは、映像トラックまたは画像項目からのピクチャを復号化した結果として取得される。
－必要であれば、パックされたピクチャのクロマサンプルアレイが、パックされたピクチャのルマサンプルアレイの解像度までアップサンプリングされ、色空間コンバージョンも実施してもよい。
－領域単位パッキングが示される場合、パックされたピクチャのサンプル場所が、５４におけるような個々の投影ピクチャのサンプル場所にコンバートされる。それ以外では、投影ピクチャはパックされたピクチャと同一である。
－投影ピクチャの空間フレームパッキングが示される場合、投影ピクチャのサンプル場所が、投影ピクチャの個々の構成ピクチャのサンプル場所にコンバートされる。それ以外では、投影ピクチャの構成ピクチャは投影ピクチャと同一である。
－投影ピクチャの構成ピクチャのサンプル場所は、使用されている全指向性投影形式向けに指定されるようなローカル座標軸に対する球面座標にコンバートされる。得られるサンプル場所は、５２で図示される球面ピクチャに対応する。
－回転が示される場合、ローカル座標軸に対する球面座標は、グローバル座標軸に対する球面座標にコンバートされる。それ以外では、グローバル座標軸はローカル座標軸と同一である。

ＶＲ映像のストリーミングビットレートを減らすために、主なビューポート（例えば、現在の視聴方向）をカバーする３６０度映像コンテンツのサブセットが最良の品質／解像度で送信され、３６０度映像の残りが低品質／解像度で送信されるビューポート依存配信が、導入されてもよい。ビューポート固有のエンコーディング／パッキングでは、３６０度画像コンテンツは、主なビューポートに対する強調を伴って（例えば、より大きな空間エリア）同一のフレームにパックされる。コンテンツのいくつかのバージョンが、様々な主なビューポートの向きおよび／またはＦＯＶ用に作成される。ビューポート固有のエンコーディング／パッキングは、非対称投影（別名、ビューポート依存投影）によって達成することができ、ビューポートエリアは、最高サンプリング密度でエンコードされ、３６０°シーンの残りはサンプリング密度がビューポートから非ビューポートエリアに向かって徐々に減少する方法で投影される。再投影された非ビューポートエリアは、ビューポートエリアと同じ画像平面にパックされる。領域単位の混合型品質手法では、ビューポートエリアは最高ピクチャ品質でエンコードされるが、他のエリアは低品質でエンコードされる。領域単位の混合型解像度手法では、ビューポート独立的投影が適用され、投影された２Ｄピクチャは、ビューポートが最高２Ｄ解像度から始まり、他のエリアが２Ｄ低解像度から始まるやり方で、そのエンコーディングの前に領域単位で再サンプリングされる。

タイルベースのビューポート依存ストリーミング手法では、投影ピクチャは、動き制約タイルセット（ＭＣＴＳ）として符号化されるタイルにパーティショニングされる。タイルベースのビューポートアダプティブストリーミングスキームは、以下のようにカテゴライズすることができる：
１．領域単位混合型品質（ＲＷＭＱ）３６０°映像：コンテンツのいくつかのバージョンが、ＭＣＴＳを用いて同じタイルグリッド上でエンコードされ、それぞれのバージョンは異なるビットレートおよびピクチャ品質を有する。プレーヤはＭＣＴＳベースで、どのバージョンが受信されるか選択し、それによりビューポートをカバーするＭＣＴＳの品質は、受信される他のＭＣＴＳの品質よりも高くなる。
２．ビューポート＋３６０°映像：完全な低解像度全指向性ピクチャおよびビューポートをカバーする高解像度のタイル用のＭＣＴＳが受信される。
３．領域単位混合型解像度（ＲＷＭＲ）３６０°映像：タイルは複数の解像度でエンコードされる。プレーヤは、ビューポートをカバーする高解像度のタイルと、残りのエリア用の低解像度のタイルとの組み合わせを選択する。

これらすべての手法は、クライアント駆動ビットストリーム再書き込み（別名、レイトバインディング）または、エキストラクタ駆動サブピクチャトラックマージングなどのオーサ駆動画像セグメント（例えば、ＭＣＴＳ）マージング（別名、アーリーバインディング）が使用中かどうかに関わらず適用することができる。レイトバインディングでは、プレーヤは、受信されるＭＣＴＳシーケンスを選択し、必要に応じて（例えば、パラメータセットおよびスライスセグメントヘッダは、再書き込みする必要がある場合がある）受信したＭＣＴＳを単一のビットストリームに組み合わせるために受信した映像データの一部を選択的に再書き込みし、単一のビットストリームを復号化する。アーリーバインディングとは、必要に応じて受信した映像データの一部を再書き込みするため、ＭＣＴＳを復号化される単一のビットストリームにマージングするため、場合によっては、受信するＭＣＴＳシーケンスの選択のための、オーサ駆動情報の使用を指す。アーリーバインディングとレイトバインディングとの間の手法が存在してもよい：例えば、プレーヤにオーサガイダンスなしに受信するＭＣＴＳシーケンスを選択させ、その一方でオーサ駆動手法がＭＣＴＳマージングおよびヘッダ再書き込みに使用されることが可能であってもよい。アーリーバインディング手法は、エキストラクタ駆動手法およびタイルトラック手法を含み、引き続きこれらを説明する。これらすべての手法において、タイル（またはそのガードバンド）同士は事前処理またはエンコーディングにおいて選択された分、オーバラップしてもよい。

タイルトラック手法では、１つまたは複数の動き制約タイルセットシーケンスが、ビットストリームから抽出され、それぞれ抽出された動き制約タイルセットシーケンスは、タイルトラック（例えば、ＨＥＶＣタイルトラック）としてファイルに記憶される。タイルベーストラック（例えば、ＨＥＶＣタイルベーストラック）が生成され、ファイルに記憶することができる。タイルベーストラックは、タイルトラックから動き制約タイルセットを非明示的に収集することにより、ビットストリームを表現する。タイルトラックは、次のようにビューポート依存ストリーミングに使用することができる：受信機側では、ストリーミングされるタイルトラックは、視聴方向に基づいて選択され得る。クライアントは、全指向性コンテンツ全体をカバーするタイルトラックを受信することができる。残りの３６０度映像をカバーする品質または解像度と比較して、より良好な品質またはより高解像度のタイルトラックを、現在のビューポート用に受信することができる。タイルベーストラックは、タイルトラックへのトラック参照を含む場合がある、および／またはタイルトラックはタイルベーストラックへのトラック参照を含む場合がある。例えば、ＨＥＶＣでは、タイルベーストラックからタイルトラックを参照するために「ｓａｂｔ」トラック参照が使用され使用され、タイルの並び順は「ｓａｂｔ」トラック参照によって含まれるタイルトラックの順によって示される。さらには、ＨＥＶＣでは、タイルトラックは、タイルベーストラックへの「ｔｂａｓ」トラック参照を有するである。

エキストラクタを必要とするファイルリーダによってエキストラクタが処理される場合、エキストラクタは、含まれるコンストラクタをその出現順に解決する際に得られるバイトによって、論理的に置換される。いくつかの実施形態では、ネストされた抽出は許可されていない場合があり、例えば、サンプルコンストラクタによって参照されるバイトはエキストラクタを含まない場合がある。また、エキストラクタは、直接または間接的に別のエキストラクタを参照しない場合がある。エキストラクタは、現在のトラックから、またはトラック参照のタイプ「ｓｃａｌ」によってエキストラクタが存在するトラックにリンクされた別のトラックからデータを抽出するための１つまたは複数のコンストラクタを含むことができる。

一例では、解決されたエキストラクタのバイトは、以下のうちの１つである：
ａ）１つのＮＡＬユニット全体；Ａｇｇｒｅｇａｔｏｒが参照されると、含まれるバイトおよび参照されるバイトの両方がコピーされることに留意されたい
ｂ）２つ以上のＮＡＬユニット全体

両方の場合で、解決されたエキストラクタのバイトは、有効長フィールドおよびＮＡＬユニットヘッダで始まる。

サンプルコンストラクタのバイトは、示された「ｓｃａｌ」トラック参照を通じて参照されるトラック内の単一の識別されたサンプルからのみコピーされる。アラインメントは、復号化時間に基づいており、例えば時間－サンプルのテーブルだけを使用し、サンプル番号のカウントされたオフセットが続く。エキストラクタは、メディアレベルの概念であり、そのためあらゆる編集リストを考慮する前に宛先トラックに適用される。しばしば、２つのトラック内の編集リストが同一となる。次のシンタックスが使用される場合がある：
ｃｌａｓｓａｌｉｇｎｅｄ（８）Ｅｘｔｒａｃｔｏｒ（）｛
ＮＡＬＵｎｉｔＨｅａｄｅｒ（）；
ｄｏ｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｃｏｎｓｔｒｕｃｔｏｒ＿ｔｙｐｅ；
ｉｆ（ｃｏｎｓｔｒｕｃｔｏｒ＿ｔｙｐｅ＝＝０）
ＳａｍｐｌｅＣｏｎｓｔｒｕｃｔｏｒ（）；
ｅｌｓｅｉｆ（ｃｏｎｓｔｒｕｃｔｏｒ＿ｔｙｐｅ＝＝２）
ＩｎｌｉｎｅＣｏｎｓｔｒｕｃｔｏｒ（）；
｝ｗｈｉｌｅ（！ＥｎｄＯｆＮＡＬＵｎｉｔ（））
｝

ＮＡＬＵｎｉｔＨｅａｄｅｒ（）は、ＨＥＶＣＮＡＬユニットの最初の２バイトである。特定のｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値は、エキストラクタを示しており、例えばｎａｌ＿ｕｎｉｔ＿ｔｙｐｅイコール４９である。ｃｏｎｓｔｒｕｃｔｏｒ＿ｔｙｐｅは使用されているコンストラクタを指定する。ＥｎｄＯｆＮＡＬＵｎｉｔ（）は、このエキストラクタ内でさらにデータが続く場合に０（偽）を返し、そうでない場合に１（真）を返す関数である。サンプルコンストラクタ（ＳａｍｐｌｅＣｏｎｓｔｒｕｃｔｏｒ）は、次のシンタックスを有することができる：
ｃｌａｓｓａｌｉｇｎｅｄ（８）ＳａｍｐｌｅＣｏｎｓｔｒｕｃｔｏｒ（）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｔｒａｃｋ＿ｒｅｆ＿ｉｎｄｅｘ；
ｓｉｇｎｅｄｉｎｔ（８）ｓａｍｐｌｅ＿ｏｆｆｓｅｔ；
ｕｎｓｉｇｎｅｄｉｎｔ（（ｌｅｎｇｔｈＳｉｚｅＭｉｎｕｓＯｎｅ＋１）＊８）
ｄａｔａ＿ｏｆｆｓｅｔ；
ｕｎｓｉｇｎｅｄｉｎｔ（（ｌｅｎｇｔｈＳｉｚｅＭｉｎｕｓＯｎｅ＋１）＊８）
ｄａｔａ＿ｌｅｎｇｔｈ；
｝

ｔｒａｃｋ＿ｒｅｆ＿ｉｎｄｅｘは、データが抽出されるソーストラックを特定する。ｔｒａｃｋ＿ｒｅｆ＿ｉｎｄｅｘは、トラック参照のタイプ「ｓｃａｌ」のインデックスである。最初のトラック参照は、インデックス値１を有する。値０は、予約済である。データが抽出されるそのトラックにおけるサンプルは、メディア復号化タイムラインにおいて時間的に揃っているか、最も近く先行しており、例えば時間－サンプルのテーブルだけを使用して、エキストラクタを含むサンプルでｓａｍｐｌｅ＿ｏｆｆｓｅｔで指定されるオフセット分、調節される。ｓａｍｐｌｅ＿ｏｆｆｓｅｔは、情報のソースとして使用され得るリンクされたトラック内のサンプルの相対的なインデックスを与える。サンプル０（ゼロ）は、同じ復号化時間、またはエキストラクタを含むサンプルの復号化時間と比較して最も近く先行する復号化時間を持つサンプルである。サンプル１は、次のサンプルであり、サンプル－１（マイナス１）は、その直前のサンプルであり、以下同様である。ｄａｔａ＿ｏｆｆｓｅｔは、コピーする参照サンプル内の第１のバイトのオフセットである。抽出がそのサンプル中で、データの第１のバイトで始まる場合、オフセットは値０を取る。ｄａｔａ＿ｌｅｎｇｔｈは、コピーするバイト数である。

インラインコンストラクタのシンタックスは、次のように指定することができる：
ｃｌａｓｓａｌｉｇｎｅｄ（８）ＩｎｌｉｎｅＣｏｎｓｔｒｕｃｔｏｒ（）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｌｅｎｇｔｈ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｉｎｌｉｎｅ＿ｄａｔａ［ｌｅｎｇｔｈ］；
｝

ｌｅｎｇｔｈは、このフィールドに続くＩｎｌｉｎｅＣｏｎｓｔｒｕｃｔｏｒに属するバイト数である。ｉｎｌｉｎｅ＿ｄａｔａは、インラインコンストラクタを解決すると返されるデータバイトである。

エキストラクタ駆動手法では、１つまたは複数の動き制約タイルセットシーケンスは、ビットストリームから抽出され、それぞれ抽出された動き制約タイルセットシーケンスは、それ自身の準拠ビットストリーム（例えば、ＨＥＶＣビットストリーム）となるように修正され、サブピクチャトラック（例えば、ＨＥＶＣでは無変換サンプルエントリタイプ「ｈｖｃ１」）としてファイルに記憶される。１つまたは複数のエキストラクタトラック（例えば、ＨＥＶＣエキストラクタトラック）が生成され、ファイルに記憶することができる。エキストラクタトラックは、サブピクチャトラックから動き制約タイルセットを明示的に抽出することによって（例えば、ＨＥＶＣエキストラクタによって）、ビットストリームを表現する。受信機側では、ストリーミングされるサブピクチャトラックは、視聴方向に基づいて選択され得る。クライアントは、全指向性コンテンツ全体をカバーするサブピクチャトラックを受信することができる。残りの３６０度映像をカバーする品質または解像度と比較して、より良好な品質またはより高解像度のサブピクチャトラックを、現在のビューポート用に受信することができる。

タイルトラック手法およびエキストラクタ駆動手法を詳細に説明したが、具体的にＨＥＶＣのコンテキストでは、これらは他のコーデックおよびタイルトラックまたはエキストラクタと同様の概念に適用されることを理解する必要がある。その上、タイルトラックとエキストラクタ駆動手法の組み合わせまたは混合型が可能である。例えば、そのような混合型は、タイルトラック手法に基づくことができるが、タイルベーストラックは、クライアント向けの再書き込み操作のガイダンスを含むことが可能であり、例えばタイルベーストラックは、再書き込みされたスライスまたはタイルグループヘッダを含むことが可能である。

ＭＣＴＳベースのコンテンツエンコーディングの代替として、タイルベースのビューポート依存ストリーミング用のコンテンツオーサリングを、以下で説明するようなサブピクチャベースのコンテンツオーサリングで実現することができる。（エンコーディングに先立つ）事前処理には、圧縮されていないピクチャをサブピクチャにパーティショニングすることが含まれる。同じ圧縮されていないサブピクチャシーケンスのいくつかのサブピクチャビットストリームが、例えば同じ解像度であるが異なる品質およびビットレートで、エンコードされる。エンコーディングは、符号化されたサブピクチャビットストリームの、全指向性映像を表現する準拠ビットストリームへのマージングが可能になるやり方に制約することができる。例えば、復号化されるピクチャ境界の外部のサンプルへの依存は、ピクチャ外部のサンプル場所がインター予測プロセスで参照されないようなやり方で動きベクトルを選択することによって、エンコーディングの際に回避することができる。それぞれのサブピクチャビットストリームは、サブピクチャトラックとしてカプセル化することができ、様々なサブピクチャ場所のサブピクチャトラックをマージングする１つまたは複数のエキストラクタトラックを、追加的に形成することができる。タイルトラックベースの手法が対象となる場合、それぞれのサブピクチャビットストリームは、ＭＣＴＳシーケンスとなるように修正され、タイルトラックとしてファイルに記憶され、１つまたは複数のタイルベーストラックがタイルトラック用に作成される。

タイルベースのビューポート依存ストリーミング手法は、例えばプレーヤを実行中のデバイスおよびオペレーティングシステムの機能に応じて、単一のデコーダインスタンスまたはＭＣＴＳシーケンスごとに（または、場合によっては、これらの間に何らか、例えば、同じ解像度のＭＣＴＳごとに１デコーダインスタンス）１つのデコーダインスタンスを実行することによって実現することができる。単一のデコーダインスタンスの使用は、レイトバインディングまたはアーリーバインディングによって可能とすることができる。複数のデコーダインスタンスを容易にするために、エキストラクタ駆動手法は、修正を伴わずに符号化形式または規格に準拠するサブピクチャトラックを使用することができる。他の手法は、クライアント側で画像セグメントヘッダ、パラメータセット、および／または類似の情報を再書き込みして準拠ビットストリームを構築すること、または他の符号化映像データの存在なしにＭＣＴＳシーケンスを復号化できるデコーダ実装形態を有することのいずれかを必要とする可能性がある。

タイルトラック手法とエキストラクタ駆動手法のそれぞれにおいて、タイルトラックまたはサブピクチャトラックをカプセル化して参照するための、少なくとも２つの手法があり得る：

タイルベーストラックまたはエキストラクタトラックからの参照トラック識別子。

タイルベーストラックまたはエキストラクタトラックからの参照タイルグループ識別子であり、タイルグループ識別子によって識別されるタイルグループは、コロケートされたタイルトラックまたは抽出の代替であるサブピクチャトラックを含む。

ＲＷＭＱ方法では、各ピクチャサイズと各タイルグリッド当たり１つのエキストラクタトラックで十分である。３６０°＋ビューポート映像およびＲＷＭＲ映像では、１つのエキストラクタトラックが、それぞれ別個の視聴方向に必要とされる場合がある。

識別されたメディアデータボックスは、ＭｅｄｉａＤａｔａＢｏｘが有しているのと同一のセマンティクスを有する場合があるが、含まれるメディアデータへのデータ参照をセットアップする際に使用される識別子を追加的に含んでいる。識別子は、例えば識別されるメディアデータボックスによって含まれる第１の要素であってもよい。識別されたメディアデータボックスのシンタックスは、以下のように説明することができ、ｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒはボックスの識別子である。６４ビット符号なし整数型タイプのｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒがシンタックスで使用されるが、他のフィールド長および他の基本データタイプ（例えば、文字列型）が同じように可能であることに留意されたい。例示的な識別されたメタデータボックスを、以下に与える：
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘｅｘｔｅｎｄｓＢｏｘ（’ｉｍｄａ’）｛
ｕｎｓｉｇｎｅｄｉｎｔ（６４）ｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒ；
ｂｉｔ（８）ｄａｔａ［］；／／ボックスの最後まで
｝

本明細書においてＤａｔａＥｎｔｒｙＩｍｄａＢｏｘと称されるボックスは、識別されたメディアデータボックスでデータを参照するために使用することができる。ＤａｔａＥｎｔｒｙＩｍｄａＢｏｘは、このＤａｔａＥｎｔｒｙＩｍｄａＢｏｘに対応するｄａｔａ＿ｒｅｆｅｒｅｎｃｅ＿ｉｎｄｅｘを通じてアクセスされたメディアデータを含むＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘを識別する。ＤａｔａＥｎｔｒｙＩｍｄａＢｏｘは、参照されたＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘのｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒの値を含む。メディアデータオフセットは、参照されたＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘのペイロードの第１のバイトに関連している。換言すると、メディアデータオフセット０は、参照されたＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘのペイロードの第１のバイトをポイントしている。サンプルエントリは、ＤａｔａＲｅｆｅｒｅｎｃｅＢｏｘのどのデータ参照がサンプルエントリを参照しているサンプルを含むために使用中かを識別するｄａｔａ＿ｒｅｆｅｒｅｎｃｅ＿ｉｎｄｅｘを含む。ＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘがサンプルを含むことに使用されている場合、ｄａｔａ＿ｒｅｆｅｒｅｎｃｅ＿ｉｎｄｅｘはＤａｔａＥｎｔｒｙＩｍｄａＢｏｘをポイントしている値にセットされる。ＤａｔａＥｎｔｒｙＩｍｄａＢｏｘのシンタックスは、以下のように指定することができ、ｉｍｄａ＿ｒｅｆ＿ｉｄｅｎｔｉｆｉｅｒはｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒ値を提供し、ひいては特定のＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘを識別する：
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＤａｔａＥｎｔｒｙＩｍｄａＢｏｘ（ｂｉｔ（２４）ｆｌａｇｓ）
ｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｉｍｄｔ’，ｖｅｒｓｉｏｎ＝０，ｆｌａｇｓ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（６４）ｉｍｄａ＿ｒｅｆ＿ｉｄｅｎｔｉｆｉｅｒ；
｝

ある例では、（Ｓｕｂ）ｓｅｇｍｅｎｔまたは動画フラグメントの識別されたメディアデータボックス用の識別子値が決定され、その識別子値は、（Ｓｕｂ）ｓｅｇｍｅｎｔまたは動画フラグメントのメディアデータ用のデータ参照基準として提供される。ある例では、識別されたメディアデータボックス用の識別子のためのテンプレートスキームが、サンプルデータ、例えばＤａｔａＲｅｆｅｒｅｎｃｅＢｏｘ用のデータ参照として使用されるように定義される。テンプレートスキームに基づくことは可能であるが、動画フラグメントシーケンス番号（ＭｏｖｉｅＦｒａｇｍｅｎｔＨｅａｄｅｒＢｏｘのｓｅｑｕｅｎｃｅ＿ｎｕｍｂｅｒフィールドなど）またはトラックフラグメント復号化時間（ＴｒａｃｋＦｒａｇｍｅｎｔＢａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅＢｏｘのｂａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅフィールドなど）に限定されない。上述した識別子に加えて、または上述した識別子の代わりに、動画フラグメントまたはトラックフラグメント向けに用意されるあらゆる識別子が、テンプレートスキームに適当であり得ることを理解する必要がある。ある例では、次のシンタックスが、識別子を導出するためのテンプレートを使用して識別されたメディアデータボックスを参照するために使用される場合がある：
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＤａｔａＥｎｔｒｙＴｆｄｔＢａｓｅｄＩｍｄａＢｏｘ（ｂｉｔ（２４）ｆｌａｇｓ）
ｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｉｍｄｔ’，ｖｅｒｓｉｏｎ＝０，ｆｌａｇｓ）｛
｝

ＤａｔａＥｎｔｒｙＴｆｄｔＢａｓｅｄＩｍｄａＢｏｘは、このＤａｔａＥｎｔｒｙＴｆｄｔＢａｓｅｄＩｍｄａＢｏｘに対応するｄａｔａ＿ｒｅｆｅｒｅｎｃｅ＿ｉｎｄｅｘを通じてアクセスされたメディアデータを含むＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘを識別する。メディアデータオフセット０は、ＴｒａｃｋＦｒａｇｍｅｎｔＢａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅＢｏｘのｂａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅに等しいｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒを有するＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘのペイロードの第１のバイトをポイントする。一実施形態では、ｂａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅの６４ビット値を搬送するために、６４ビットのｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒ値が使用される。３２ビットのｂａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅ値が使用中である場合、６４ビットのｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒの最上位ビットを０にセットすることができる。内蔵型の動画フラグメントでは、ＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘのｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒがＴｒａｃｋＦｒａｇｍｅｎｔＢａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅＢｏｘのｂａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅと等しいことが要求され、この時参照されるデータ参照エントリは、タイプＤａｔａＥｎｔｒｙＴｆｄｔＢａｓｅｄＩｍｄａＢｏｘのものである。

別の例では、次のシンタックスが、識別子を導出するためのテンプレートを使用して識別されたメディアデータボックスを参照するために使用される場合がある：
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＤａｔａＥｎｔｒｙＳｅｑＮｕｍＩｍｄａＢｏｘ（ｂｉｔ（２４）ｆｌａｇｓ）
ｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｓｎｉｍ’，ｖｅｒｓｉｏｎ＝０，ｆｌａｇｓ）｛
｝

ＤａｔａＥｎｔｒｙＳｅｑＮｕｍＩｍｄａＢｏｘは、このＤａｔａＥｎｔｒｙＳｅｑＮｕｍＩｍｄａＢｏｘに対応するｄａｔａ＿ｒｅｆｅｒｅｎｃｅ＿ｉｎｄｅｘを通じてアクセスされたメディアデータを含むＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘを識別する。サンプルエントリに含まれるｄａｔａ＿ｒｅｆｅｒｅｎｃｅ＿ｉｎｄｅｘがＤａｔａＥｎｔｒｙＳｅｑＮｕｍＩｍｄａＢｏｘを参照する時、サンプルエントリを参照している各サンプルは、動画フラグメントに含まれ、メディアデータオフセット０は、サンプルを含む動画フラグメントのＭｏｖｉｅＦｒａｇｍｅｎｔＨｅａｄｅｒＢｏｘのｓｅｑｕｅｎｃｅ＿ｎｕｍｂｅｒに等しいｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒを有するＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘのペイロードの第１のバイトをポイントする。

ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘのサイズは、動画フラグメントのトラックのベースデータオフセットを決定する時点では分かっている必要はなく、結果的にＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘの子ボックス（例えば、ＴｒａｃｋＦｒａｇｍｅｎｔＨｅａｄｅｒＢｏｘおよびＴｒａｃｋＲｕｎＢｏｘ）は、動画フラグメント用のすべての符号化されたメディアデータが利用可能となる前に「プログレッシブに」オーサリングされ得る。その上、コンテンツエンカプセレータは、セグメントヘッダのサイズを正確に推定する必要がなく、セグメント持続時間の一部動的なばらつきの柔軟性を有する。

いくつかの実施形態では、メディアセグメントヘッダおよびセグメントペイロードは、セグメントヘッダと対応するセグメントペイロード用に別個のＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ（ＵＲＬ）を示すストリーミングマニフェストをコンパイルすることによって、別個に利用可能にすることができる。ＤＡＳＨＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ（ＭＰＤ）などの、ストリーミングマニフェストは、ＵＲＬテンプレートを提供することができる、またはＭＰＤで与えられるベースＵＲＬを付加するＵＲＬテンプレートスキームが適用可能であると示される場合がある。いくつかの実施形態では、ストリーミングマニフェストは、セグメントペイロード中のデータが密にパックされ、復号化順になっていることをさらに示す場合がある。セグメントペイロードとは、例えばＭｅｄｉａＤａｔａＢｏｘを指すことができる。密にパックされるとは、セグメントペイロードのすべてのバイトが映像ビットストリームに属していること、例えばセグメントペイロードが映像ビットストリームのバイトの隣接範囲で構成されていることを指す。そのようなインジケーションは、例えばＤＡＳＨＭＰＤにおける補足的な性質として与えることができる。セグメントペイロード中の映像ビットストリームは、カプセル化された映像ビットストリームであることができる。例えば、セグメントペイロードは、ＩＳＯＢＭＦＦファイルの映像トラックのサンプルの隣接するセットで構成することができる。

ＩｎｄｅｘＳｅｇｍｅｎｔは、主にＭｅｄｉａＳｅｇｍｅｎｔのインデックス付け情報を含むＳｅｇｍｅｎｔとして定義することができる。ＭＰＤは、ＩｎｄｅｘＳｅｇｍｅｎｔを取得するために使用可能なＵＲＬを示す情報を提供することができる。情報の例は以下の通りである：
－ＳｅｇｍｅｎｔＢａｓｅ要素内のＲｅｐｒｅｓｅｎｔａｔｉｏｎＩｎｄｅｘ要素は、ＲｅｐｒｅｓｅｎｔａｔｉｏｎＩｎｄｅｘＳｅｇｍｅｎｔに可能なバイト範囲を含むＵＲＬを指定する。
－ＳｅｇｍｅｎｔＬｉｓｔ要素は、複数のＳｅｇｍｅｎｔＵＲＬ要素を含み、複数のＳｅｇｍｅｎｔＵＲＬ要素は（＠ｍｅｄｉａ属性中に）ＭｅｄｉａＳｅｇｍｅｎｔ用のＵＲＬ、＠ｍｅｄｉａ属性のＵＲＬによって特定されたリソース内のバイト範囲、（＠ｉｎｄｅｘ属性中に）ＩｎｄｅｘＳｅｇｍｅｎｔ用のＵＲＬ、および／または＠ｉｎｄｅｘ属性のＵＲＬによって特定されたリソース内のバイト範囲を含むことができる。＠ｍｅｄｉａ属性中のＵＲＬは、もし存在する場合、＠ｍｅｄｉａＲａｎｇｅ属性と組み合わせて、ＭｅｄｉａＳｅｇｍｅｎｔ用のＨＴＴＰ－ＵＲＬを指定する。＠ｉｎｄｅｘ属性中のＵＲＬは、もし存在する場合、＠ｉｎｄｅｘＲａｎｇｅ属性と組み合わせて、ＩｎｄｅｘＳｅｇｍｅｎｔ用のＨＴＴＰ－ＵＲＬを指定する。
－ＳｅｇｍｅｎｔＴｅｍｐｌａｔｅ要素の＠ｉｎｄｅｘ属性は、ＩｎｄｅｘＳｅｇｍｅｎｔＬｉｓｔを作成するためのテンプレートを指定する。セグメントテンプレートは、Ｓｅｇｍｅｎｔ（そのＵＲＬによって特定される）のリストを導出することができる文字列型の文字列を含む。セグメントテンプレートは、Ｓｅｇｍｅｎｔのリストを作成するためにＳｅｇｍｅｎｔに割り振られた動的な値で置換された特定の識別子を含むことができる。

各Ｓｅｇｍｅｎｔは、明示的に宣言されたＩｎｄｅｘＳｅｇｍｅｎｔに与えられる場合がある割り振られたＳｅｇｍｅｎｔＩｎｄｅｘ情報を有することができる。明示的なＩｎｄｅｘＳｅｇｍｅｎｔ情報の存在は、例えば次のうちのいずれかによって示すことができる：
－ＳｅｇｍｅｎｔＩｎｄｅｘをＲｅｐｒｅｓｅｎｔａｔｉｏｎ全体に提供している、１つのＲｅｐｒｅｓｅｎｔａｔｉｏｎＩｎｄｅｘ要素の存在によって、または
－ＳｅｇｍｅｎｔＬｉｓｔ．ＳｅｇｍｅｎｔＵＲＬ要素中の２つの属性＠ｉｎｄｅｘおよび＠ｉｎｄｅｘＲａｎｇｅのうちの少なくとも１つの存在によって、または
－ＳｅｇｍｅｎｔＴｅｍｐｌａｔｅ＠ｉｎｄｅｘ属性の存在によって。

＠ｉｎｄｅｘＲａｎｇｅ属性は、ＭｅｄｉａＳｅｇｍｅｎｔ内のインデックスのためのバイト範囲を提供するために使用することもでき、これはＭｅｄｉａＳｅｇｍｅｎｔ形式によって可能となる。この場合、＠ｉｎｄｅｘ属性は存在せず、指定される範囲はＭｅｄｉａＳｅｇｍｅｎｔ用に指定された任意のバイト範囲内に完全に入る。ＩｎｄｅｘＳｅｇｍｅｎｔの可用性は、それらが対応するＭｅｄｉａＳｅｇｍｅｎｔへの可用性と同一であることができる。

レイトバインディングで効率的にビューポート依存ストリーミングを実現するために、すべての利用可能なトラックのすべての動画フラグメントヘッダを、（Ｓｕｂ）ｓｅｇｍｅｎｔ当たり１つのリクエストでフェッチすることが可能であることが好ましい場合がある。クライアントにおける動画フラグメントヘッダの可用性は、ピクチャ粒度で符号化されたピクチャデータのバイト範囲のＨＴＴＰＧＥＴリクエストを容易にするため、品質切り替えのレイテンシを低減する可能性がある。しかしながら、現在、ＤＡＳＨシグナリングまたはＤＡＳＨ概念に対応するソリューションがない。

まず、ＤＡＳＨＭＰＤには、（Ｓｕｂ）ｓｅｇｍｅｎｔヘッダ用のＵＲＬを個々のメディアデータと別個に報知するためのメカニズムがない。（Ｓｕｂ）ｓｅｇｍｅｎｔヘッダは、動画フラグメントヘッダ、すなわちＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘを含み、個々のメディアデータはＭｅｄｉａＤａｔａＢｏｘおよび／またはそこで包み込まれるメディアデータを含むことができる。次に、ＭＰＥＧ文書Ｎ１８２３５で提示されるレイトバインディング手法は、（ＭｅｔａＢｏｘのＤａｔａＩｎｆｏｒｍａｔｉｏｎＢｏｘのＤａｔａＲｅｆｅｒｅｎｃｅＢｏｘに含まれる）ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘ内にメディアデータのＵＲＬを含み、これには次の欠点がある：
－コンテンツが新しいサーバまたはコンテンツ配信ネットワーク（ＣＤＮ）に移動する場合、ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘを変更する必要があるため、異なるサーバおよびＣＤＮ上でのコンテンツ配信が困難である。
－１つのＵＲＬしか使用できないため、マルチサーバ／マルチＣＤＮ配信を扱うことができない。（逆に、ＤＡＳＨＭＰＤは、同一のコンテンツに対して複数のベースＵＲＬを挙げることができる。）
－トラック用のデータ参照が、ＴｒａｃｋＢｏｘのＭｅｄｉａＢｏｘのＭｅｄｉａＩｎｆｏｒｍａｔｉｏｎＢｏｘのＤａｔａＩｎｆｏｒｍａｔｉｏｎＢｏｘのＤａｔａＲｅｆｅｒｅｎｃｅＢｏｘ内で搬送されるため、ＩＳＯＢＭＦＦに非対応である。ＴｒａｃｋＦｒａｇｍｅｎｔＨｅａｄｅｒＢｏｘおよびＴｒａｃｋＥｘｔｅｎｄｓＢｏｘのｓａｍｐｌｅ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘフィールドは、ＴｒａｃｋＢｏｘ内に含まれるＤａｔａＲｅｆｅｒｅｎｃｅＢｏｘで与えられるデータ参照のインデックス付けされたリストを参照する。

ＤＡＳＨ規格の現在のバージョンによると、ＤＡＳＨＲｅｐｒｅｓｅｎｔａｔｉｏｎのＭｅｄｉａＳｅｇｍｅｎｔに含まれる（Ｓｕｂ）ｓｅｇｍｅｎｔヘッダメタデータ（例えば、ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘ）は、同一のＤＡＳＨＲｅｐｒｅｓｅｎｔａｔｉｏｎに含まれるメディアデータに対応する。しかしながら、レイトバインディングの場合、メタデータはすべての利用可能なトラックを記述しているがメディアデータのサブセットだけが受信されるため、メタデータは受信されたメディアデータのスーパーセットに対応するべきである。すべての利用可能なトラックおよびトラックのサブセット用の（Ｓｕｂ）ｓｅｇｍｅｎｔメディアデータ用の（Ｓｕｂ）ｓｅｇｍｅｎｔメタデータのフェッチを扱うメカニズムが提案されていない。したがって、レイトバインディング用のより良好なメカニズムが必要である。

いくつかの実施形態では、エンコーダは、ファイルまたはＩｎｉｔｉａｌｉｚａｔｉｏｎおよびタイルトラックを伴うメディアセグメントを取得することができる。エンコーダは、各タイルトラックをある表現に、そしてコロケートされたタイルトラックの表現の各セットをアダプテーションセットにエンコードすることができる。エンコーダは、タイルトラック用のＳｅｇｍｅｎｔメタデータを含むＩｎｄｅｘＳｅｇｍｅｎｔを生成することができる。ベーストラック用に、エンコーダはファイルまたは初期化およびタイルベーストラックを含むＭｅｄｉａＳｅｇｍｅｎｔを取得することもできる。エンコーダは、タイルベーストラックをあるＲｅｐｒｅｓｅｎｔａｔｉｏｎにエンコードすること、およびその表現をそれ自身のアダプテーションセットにエンコードすることができる。ＲｅｐｒｅｓｅｎｔａｔｉｏｎおよびＡｄａｐｔａｔｉｏｎセットがエンコードされた後、エンコーダはメディア提示記述およびセグメントオーサリングに進むことができる。

いくつかの実施形態では、エンコーダは、ＩｎｄｅｘＳｅｇｍｅｎｔのＵＲＬを示す情報をＭＰＤにエンコードすることができる。いくつかの実施形態では、エンコーダは、個々のＲｅｐｒｅｓｅｎｔａｔｉｏｎｓに固有のＭｅｄｉａＳｅｇｍｅｎｔのＵＲＬを示す情報をＭＰＤにエンコードすることができる。ＩｎｄｅｘＳｅｇｍｅｎｔは、タイルベーストラックの情報を含むこともできる。タイルベーストラックのＲｅｐｒｅｓｅｎｔａｔｉｏｎに固有のＭｅｄｉａＳｅｇｍｅｎｔのＵＲＬを示す情報も、ＭＰＤにエンコードすることができる。コロケートされたタイルトラックの例えば異なるビットレートのいくつかのバージョンは、コロケートされたタイルトラックの各セットが、（例えば「ａｌｔｅ」タイプの）トラックグループを形成するように、ファイルまたはＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔでトラックグループを示す情報をエンコーディングすること、およびタイルベーストラックのトラック参照からトラックグループを参照することによって、扱うことができる。トラックグループを参照することは、トラックグループから１つのトラックが、タイルベーストラックに基づいてビットストリームを再構築するために選択されることを意味する。

図６は、例えば図１の装置１０によって具体化されるエンコーダによって実施されるメディア提示記述およびセグメントオーサリングのプロセスを図示している。ブロック６０に図示されるように、図１の装置１０などの装置は、表現のセットについてのセグメントメタデータ用の第１のロケータを示す第１の情報項目をメディア記述にエンコーディングするための処理回路１２などの手段を含む。いくつかの実施形態では、第１の情報項目は、ＩＳＯＢＭＦＦベースのＭｅｄｉａＳｅｇｍｅｎｔ用のＩｎｄｅｘＳｅｇｍｅｎｔを識別する情報を含む。ＩｎｄｅｘＳｅｇｍｅｎｔは、トラックの集合の１つまたは複数のセグメント、例えば特定のメディアコンテンツのすべてのタイルトラック中のセグメント、潜在的には個々のタイルベーストラックも記述する。いくつかの実施形態では、メディア記述はＤＡＳＨＭＰＤに準拠する。

ブロック６２に図示されるように、図１の装置１０などの装置は、表現のセットの１つまたは複数の表現について、セグメントメディアデータ用の表現固有のロケータを示す１つまたは複数の表現固有の情報項目を、メディア記述にエンコードするための処理回路１２などの手段を含む。いくつかの実施形態では、ＭＰＤ中の、Ｐｒｅｓｅｌｅｃｔｉｏｎのメインアダプテーションセットとなる、タイルベーストラックを含むアダプテーションセットを示す情報もエンコードされる。いくつかの実施形態では、ＭＰＤ中の、事前選択に含められるタイルトラックを含むアダプテーションセットおよび表現を示す情報もエンコードされる。いくつかの実施形態では、事前選択のアダプテーションセット（例えば、事前選択のメインアダプテーションセット）用のインデックスセグメントが同一の事前選択のアダプテーションＳｅｔの表現内で搬送されるトラックを記述することを示す情報も、ＭＰＤ中でエンコードされる。追加的なインジケーションがＭＰＤに含められて、インデックスセグメントがメインアダプテーションセットの表現だけではなく事前選択全体をカバーすることを示す場合もある。いくつかの実施形態では、表現固有の情報項目は、ＩＳＯＢＭＦＦベースのＭｅｄｉａＳｅｇｍｅｎｔ用のＭｅｄｉａＳｅｇｍｅｎｔを識別する情報を含む。いくつかの実施形態では、ＩＳＯＢＭＦＦベースのＭｅｄｉａＳｅｇｍｅｎｔは、ＩＳＯＢＭＦＦメタデータを伴わないメディアデータを含む。いくつかの実施形態では、ＩＳＯＢＭＦＦベースのＭｅｄｉａＳｅｇｍｅｎｔは、ＩＳＯＢＭＦＦのＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘを含む。

ブロック６４に図示されるように、図１の装置１０などの装置は、表現のセットとともにメディア記述を記憶するための処理回路１２およびメモリ１４などの手段を含む。

いくつかの実施形態では、セグメントメタデータは、動画フラグメントヘッダ、例えばＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘを含み、次のうちのゼロ以上を含むことができる：ＳｅｇｍｅｎｔＴｙｐｅＢｏｘ、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘ、ＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘＢｏｘ、および／またはＰｒｏｄｕｃｅｒＲｅｆｅｒｅｎｃｅＴｉｍｅＢｏｘ。

図７Ａおよび図７Ｂは、例としてＤＡＳＨライブサービス利用と併せて利用することができる例示的なＩｎｄｅｘＳｅｇｍｅｎｔおよびＭｅｄｉａＳｅｇｍｅｎｔを図示している。例として、異なるアダプテーションセットとして２つのサブピクチャを有し、それぞれのアダプテーションセットが次のように特徴付けられる２つの表現を有する提示を考える：
－ＤＡＳＨ期間
〇Ａｄａｐｔａｔｉｏｎ＿ｓｅｔ＿１
・Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＿１（タイルトラックＴｒａｃｋ＿１を搬送する）
・Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＿２（タイルトラックＴｒａｃｋ＿２を搬送する）
〇Ａｄａｐｔａｔｉｏｎ＿ｓｅｔ＿２
・Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＿３（タイルトラックＴｒａｃｋ＿３を搬送する）
・Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＿４（タイルトラックＴｒａｃｋ＿４を搬送する）
〇Ａｄａｐｔａｔｉｏｎ＿ｓｅｔ＿３
・Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＿５（タイルベーストラックＴｒａｃｋ＿５を搬送する）

例示的な提示のＩｎｄｅｘＳｅｇｍｅｎｔを図７Ａに図示する。例示的な提示のＭｅｄｉａＳｅｇｍｅｎｔを図７Ｂに図示する。それぞれ図示される「ｉｍｄａ」ボックスは、ＭＰＤから導出することができるＵＲＬを有する別個のＭｅｄｉａＳｅｇｍｅｎｔ内でカプセル化される。動画フラグメントシーケンス番号は、一意であることができ、ＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘ内で識別子として使用することができる。ＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔでは、ＤａｔａＥｎｔｒｙＳｅｑＮｕｍＩｍｄａＢｏｘがデータ参照エントリ間に含まれる。ＴｒａｃｋＦｒａｇｍｅｎｔＨｅａｄｅｒＢｏｘおよび／またはＴｒａｃｋＥｘｔｅｎｄｓＢｏｘは、ＤａｔａＥｎｔｒｙＳｅｑＮｕｍＩｍｄａＢｏｘのデータ参照エントリを参照するサンプル記述エントリを使用する。トラック識別子値も、やはり一意である。

ある実施形態では、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘのｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅのセマンティクスは、次のように指定される：１に等しいｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅは、参照がＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘまたはＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘ（ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅを含むＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘと同じＳｅｇｍｅｎｔに含まれる）に向けたものであることを示す。０に等しいｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅは、参照がＭｅｄｉａＳｅｇｍｅｎｔ（ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘを含まなくてもよい）内の参照されるＳｕｂｓｅｇｍｅｎｔの第１のボックス（ＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘまたはＭｅｄｉａＤａｔａＢｏｘなど）の開始に向けたものであることを示す。代替的に、０に等しいｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅが、Ｓｕｂｓｅｇｍｅｎｔの第１のメディアデータボックスがＳｕｂｓｅｇｍｅｎｔの第１のボックスであるかどうかに関わらず、参照がＭｅｄｉａＳｅｇｍｅｎｔ内の参照されるＳｕｂｓｅｇｍｅｎｔの第１のメディアデータボックス（ＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘまたはＭｅｄｉａＤａｔａＢｏｘなど）の開始に向けたものであることを示すように指定してもよい。上述のｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅのセマンティクスは、ファイルライタおよび／またはファイルリーダおよび／または別のエンティティによって、条件的に使用することができ、その条件は、以下のうちの１つまたは複数であることができるが、それに限定されない：
－ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅを含むＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘは、ＩｎｄｅｘＳｅｇｍｅｎｔに含まれる。
－ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘのボックスヘッダフラグの所定のフラグは、１に等しい。
－ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘのボックスヘッダの所定のバージョン（またはバージョン値の範囲）。
－所定のブランドは、ＦｉｌｅＴｙｐｅＢｏｘ中および／またはＴｒａｃｋＴｙｐｅＢｏｘ中に含まれる。

ある実施形態では、上述の条件が満たされない場合、ファイルライタおよび／またはファイルリーダおよび／または別のエンティティは、ＩＳＯＢＭＦＦで現在指定されるように、また本文書のどこかで説明されるように、ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅのセマンティクスを使用する。

ある実施形態では、ファイルライタまたは別のエンティティは、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘおよびＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘでＩｎｄｅｘＳｅｇｍｅｎｔを作成し、ＩｎｄｅｘＳｅｇｍｅｎｔのＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘをポイントするＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘに１に等しいｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅを含む。

ある実施形態では、ファイルリーダまたは別のエンティティは、ＩｎｄｅｘＳｅｇｍｅｎｔを全体的にまたは部分的に解析する。前記ＩｎｄｅｘＳｅｇｍｅｎｔの解析の一部として、ファイルリーダまたは別のエンティティは、ＩｎｄｅｘＳｅｇｍｅｎｔに含まれるＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘからの１に等しいｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅを解析し、１に等しいｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅはＩｎｄｅｘＳｅｇｍｅｎｔ中のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘをポイントする。ある実施形態では、ファイルリーダまたは別のエンティティは、１に等しいｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅのどのインスタンスがＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘをポイントしているか、およびどのインスタンスがＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘをポイントしているかを、結論付ける、または推定する。この結論には、すべてのＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘがＩｎｄｅｘＳｅｇｍｅｎｔ中のすべてのＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに先行するという情報（例えば、規格における要件、または解析されたインジケーション）に基づいて達することができる。したがって、最後のＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘまたはＩｎｄｅｘＳｅｇｍｅｎｔ内の第１のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘへの参照を結論付けることまたは推定することによって、後続の参照がすべてＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに向けたものであることを知ることができる。例えば、ファイルリーダまたは別のエンティティは、第１のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘが見つかるまで、ＩｎｄｅｘＳｅｇｍｅｎｔ内でそれらの出現順に参照を解析することができる。結果的に、ファイルリーダまたは別のエンティティは、リクエストされるおよび／または処理されるＭｏｖｉｅＦｒａｇｍｅｎｔｓＢｏｘのサブセットを選択することができる。したがって、ＩｎｄｅｘＳｅｇｍｅｎｔの選択されたＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘだけを、フェッチすることができ、そのためより少ないビットレートがＩｎｄｅｘＳｅｇｍｅｎｔのフェッチに使用され得る。

ＭｅｄｉａＳｅｇｍｅｎｔが２つ以上のＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘ、例えばＳｕｂ－Ｓｅｇｍｅｎｔ当たりに１つのＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘを含む場合、ＤＡＳＨクライアントはＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘのサブセット（例えば、特定のＳｕｂ－Ｓｅｇｍｅｎｔだけ）または１つの特定のＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘの一部（例えば、ランダムアクセスピクチャから開始する特定の符号化されたピクチャだけ）のバイト範囲リクエストを発行する場合がある。この点で、例示的な実施形態は、個別のＩｎｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘのバイト範囲を示す（コンテンツオーサリングにおいて）および／または解決する（クライアントにおいて）ように構成され、以下を含む：
１．ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅが０に等しいｒｅｆｅｒｅｎｃｅｄ＿ｓｉｚｅを有するＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘは、Ｓｕｂｓｅｇｍｅｎｔごとの「ｉｍｄａ」ボックスのサイズを示す。図８は、選択肢１をグラフィカルに図示している。図８に図示される例は、ＤＡＳＨオンデマンドプロファイル利用と併せて利用することができる。
ａ．いくつかの実施形態ではＳｅｇｍｅｎｔは、ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅが０に等しいループエントリの直前にｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅが１に等しいループエントリが先行する可能性があり、ループエントリが「ｍｏｏｆ」ボックスをポイントする（またはＳｕｂｓｅｇｍｅｎｔ用のメタデータを開始することができる「ｓｉｄｘ」以外の何らかの他のボックス）ことができるという制約にしたがうようにオーサリングされる。いくつかの実施形態では、解析することは、「ｓｉｄｘ」ボックスのどの参照が「ｍｏｏｆ」ボックスをポイントしているかを結論付けるために制約を利用する。
２．ＭｅｄｉａＳｅｇｍｅｎｔのバイト範囲インデックスのインジケーションは別個に、例として、以下のシンタックス構造のいずれかを使用することによって：
ａ．個々の（時間で揃えた）ＭｅｄｉａＳｅｇｍｅｎｔの構造を示すためのＩｎｄｅｘＳｅｇｍｅｎｔ形式に含まれるＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘ（ｆｉｄｘ）。
・様々なＲｅｐｒｅｓｅｎｔａｔｉｏｎのＭｅｄｉａＳｅｇｍｅｎｔが、様々なファイル／リソースに含まれてもよく、または含まれなくてもよく（例えば、それらをフェッチするために異なるＵＲＬが使用される場合がある）、ＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘと正しいＭｅｄｉａＳｅｇｍｅｎｔとの関連付けは明確でなければならない。これは、例として、以下の手法のうちのいずれか１つによって行なうことができる：
ｉ．「ｆｉｄｘ」ボックス用の新しいコンテナボックスが定義され、関連付けられるＭｅｄｉａＳｅｇｍｅｎｔ内で搬送されるトラックＩＤを搬送する：
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＭｅｄｉａＳｅｇｍｅｎｔＣｏｎｔｅｎｔｓＢｏｘ
ｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｍｓｔｃ’，ｖｅｒｓｉｏｎ，ｆｌａｇｓ）｛
ＴｒａｃｋＩｄＢｏｘｔｒａｃｋ＿ｉｄ＿ｌｉｓｔ；／／任意
／／存在する場合、このｆｉｄｘボックスが適用されるトラックを定義する。
／／存在しない場合、このボックスがすべてのトラックに適用される。
ＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘｔａｂｌｅ＿ｏｆ＿ｂｏｘｅｓ；／／関連するＭｅｄｉａＳｅｇｍｅｎｔのボックスインデックス
｝
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＴｒａｃｋＩｄＢｏｘｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｔｒｉｄ’，ｖｅｒｓｉｏｎ，ｆｌａｇｓ）
｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｎｕｍ＿ｔｒａｃｋｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｔｒａｃｋｓ；ｉ＋＋）
ｔｒａｃｋ＿ｉｄ［ｉ］；／／トラック用のトラックＩＤ
｝
｝
ｉｉ．ボックス順は、関連付けを指定することができる。例えば、ＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘは直後の「ｓｉｄｘ」または「ｍｏｏｆ」ボックスに関連付けることができ、関連付けられた「ｓｉｄｘ」または「ｍｏｏｆ」ボックスによって記述されるトラックを搬送するファイルを記述することができる。
ＭｅｄｉａＳｅｇｍｅｎｔが単一の「ｉｍｄａ」ボックスを搬送することを示すために、ＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘの不在を指定することができる。
ｂ．「ｍｏｏｆ」ボックスの子ボックスとして、または「ｍｏｏｆ」ボックスの隣に含まれる（新しい）バイト範囲ボックス。バイト範囲ボックスは、すべての「ｉｍｄａ」ボックスのバイト範囲および／またはサイズを含むことができる。
ｃ．「ｍｏｏｆ」ボックスの子ボックスとして、または「ｍｏｏｆ」ボックスの隣に含まれるＢｏｘＩｎｄｅｘＢｏｘ；ＭｅｄｉａＳｅｇｍｅｎｔの個々のＳｕｂｓｅｇｍｅｎｔのボックスインデックスを示すために、そのセマンティクスを定義する。
ｄ．ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘで別個に示されるＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘとメディアデータボックス（例えば、ＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘ）とのオフセットおよび／またはバイト範囲および／またはバイトカウント。

上記カテゴリｄに入る実施形態では、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘに以下が指定される：ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘのボックスフラグにおいて所定のフラグが指定され、１に等しいとき、メディアデータのオフセットまたはバイト範囲またはバイトカウントが、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘ中で０に等しいｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅを有するエントリごとにＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘに存在することを示す。ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘのボックスフラグにおいて別の所定のフラグまたは同じフラグが指定され、１に等しいとき、メディアデータのバイトカウントのオフセットまたはバイト範囲が、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘは、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘを含んでいるリソースとは異なるリソース（例えば、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘまたはＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘを持たないＭｅｄｉａＳｅｇｍｅｎｔ）に関連することを示す。例えば、次のシンタックスが使用される場合がある：
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｓｉｄｘ’，ｖｅｒｓｉｏｎ，ｆｌａｇｓ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｒｅｆｅｒｅｎｃｅ＿ＩＤ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｔｉｍｅｓｃａｌｅ；
ｉｆ（ｖｅｒｓｉｏｎ＝＝０）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｅａｒｌｉｅｓｔ＿ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｆｉｒｓｔ＿ｏｆｆｓｅｔ；
｝
ｅｌｓｅ｛
ｕｎｓｉｇｎｅｄｉｎｔ（６４）ｅａｒｌｉｅｓｔ＿ｐｒｅｓｅｎｔａｔｉｏｎ＿ｔｉｍｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（６４）ｆｉｒｓｔ＿ｏｆｆｓｅｔ；
｝
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｒｅｓｅｒｖｅｄ＝０；
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｒｅｆｅｒｅｎｃｅ＿ｃｏｕｎｔ；
ｆｏｒ（ｉ＝１；ｉ＜＝ｒｅｆｅｒｅｎｃｅ＿ｃｏｕｎｔ；ｉ＋＋）
｛
ｂｉｔ（１）ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３１）ｒｅｆｅｒｅｎｃｅｄ＿ｓｉｚｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｓｕｂｓｅｇｍｅｎｔ＿ｄｕｒａｔｉｏｎ；
ｂｉｔ（１）ｓｔａｒｔｓ＿ｗｉｔｈ＿ＳＡＰ；
ｕｎｓｉｇｎｅｄｉｎｔ（３）ＳＡＰ＿ｔｙｐｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（２８）ＳＡＰ＿ｄｅｌｔａ＿ｔｉｍｅ；
｝
ｉｆ（ｆｌａｇｓ＆１）
ｆｏｒ（ｉ＝１；ｉ＜＝ｒｅｆｅｒｅｎｃｅ＿ｃｏｕｎｔ；ｉ＋＋）
ｉｆ（ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ＝＝０）／／同じｉ値のｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｍｅｄｉａ＿ｄａｔａ＿ｏｆｆｓｅｔ；
｝

ｍｅｄｉａ＿ｄａｔａ＿ｏｆｆｓｅｔは、サブセグメントの参照されるＭｅｄｉａＤａｔａＢｏｘまたはＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘの開始までのオフセットを指定する。（ｆｌａｇｓ＆８）がゼロに等しい場合、オフセットはサブセグメントの開始、すなわちＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘの第１のループ中で０に等しい個々のｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅによって示されるＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに関連している。それ以外では、オフセットは参照されるＭｅｄｉａＤａｔａＢｏｘまたはＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘを含むＭｅｄｉａＳｅｇｍｅｎｔの開始までに関連する。オフセットは、バイト単位で示すことができる。実施形態は、上ではオフセットを参照して説明したが、シンタックス内のオフセットに加え、バイトカウントまたは最終オフセットを含めることによって、バイト範囲に同様に適用することができることが理解される必要がある。同様に、実施形態はオフセットの代わりにバイトカウントにも適用することができ、結果的にファイルリーダまたは別のエンティティは、オフセットを先行オフセット（同じループ内の）の合計として導出することができる。

選択肢１が利用される場合、デコーダを含むクライアントデバイスは、（「ｓｉｄｘ」ボックスを含む）ＩｎｄｅｘＳｅｇｍｅｎｔの初期部分をフェッチするように構成することができる。ＩｎｄｅｘＳｅｇｍｅｎｔはＳｕｂｓｅｇｍｅｎｔベースでインターリーブされるため、（「ｓｉｄｘ」ボックスから見つけた）バイト範囲を使用してＳｕｂｓｅｇｍｅｎｔによってリクエストされたＳｕｂｓｅｇｍｅｎｔであり得る。クライアントデバイスは、選択されたＭｅｄｉａＳｅｇｍｅｎｔの選択されたＳｕｂｓｅｇｍｅｎｔをフェッチするようにさらに構成することができ、そのために個々の「ｉｍｄａ」ボックスのバイト範囲が、個々の「ｓｉｄｘ」ボックスに含まれるｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ０の参照から取得される。

ＭｅｄｉａＳｅｇｍｅｎｔのＵＲＬは、ＭＰＤにおいてＩｎｄｅｘＳｅｇｍｅｎｔのＵＲＬとは別個に示されるため、これらは論理的に異なるファイルまたはリソースに存在することが理解されるべきである。したがって、ＩｎｄｅｘＳｅｇｍｅｎｔ内で搬送されるセグメントヘッダは、論理的にメディアデータとは異なるファイル内に存在する。結果的に、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘ中の参照タイプ１のエントリはＩｎｄｅｘＳｅｇｍｅｎｔ内にあり、参照タイプ０のエントリはＭｅｄｉａＳｅｇｍｅｎｔ内にあり、バイトオフセットはＭｅｄｉａＳｅｇｍｅｎｔそれ自身に関連してＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘ内で示されている。ＤＡＳＨＭＰＤは、ＨＴＴＰＵＲＬでバイト範囲を使用することを許可しているため、ＩｎｄｅｘＳｅｇｍｅｎｔおよびＭｅｄｉａＳｅｇｍｅｎｔは、物理的に同一のファイルに存在することができ、単にＭＰＤで示される異なるバイト範囲を有する。しかしながら、この場合でも、ＩｎｄｅｘＳｅｇｍｅｎｔおよびＭｅｄｉａＳｅｇｍｅｎｔは、論理的に異なるファイルまたはリソース内にあり、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘで与えられるオフセットの解釈は、同じままである。

トラック当たりに１つまたは複数のＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘが存在するような実施形態を上述してきた。すべてのタイルトラックおよびタイルベーストラックは、典型的にはＳＡＰ場所など同じ性質を共有するため、そのようなトラック固有のＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘは、不要な場合がある。トラック固有のＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘを回避することによって、バイトカウントの節約を実現することができる。その上、トラック固有のＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘは、異なるトラックのＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘを並べるためおよび／またはインターリーブするために、例えば規格における制約を必要とする場合がある。ある実施形態によると、トラックは、同じ１つまたは複数のＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘを以下の構成で共有する：
－Ｓｕｂ－Ｒｅｐｒｅｓｅｎｔａｔｉｏｎが使用され、それぞれのＳｕｂ－Ｒｅｐｒｅｓｅｎｔａｔｉｏｎは異なるトラックに対応している。
－ＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘＢｏｘがセグメントヘッダに存在する（メディアデータをインデックス付けする対応するＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘの隣に）。
－ＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔ内にＬｅｖｅｌＡｓｓｉｇｎｍｅｎｔＢｏｘが存在し、トラックベースでレベルの割り振り、つまりレベルに対して示された特徴から示されたトラックへのマッピングを示す。

結果的に、タイルベーストラックおよびタイルベーストラックによって参照されるすべてのタイルトラックに対し、単一のＲｅｐｒｅｓｅｎｔａｔｉｏｎが存在することができる。タイルベーストラックが（例えば、「ａｌｔｅ」タイプの）トラックグループへのトラック参照を含む場合、コロケートされたタイルトラックの異なるバージョン（例えば、ビットレートおよび／または品質に違いがある）が、単一のＲｅｐｒｅｓｅｎｔａｔｉｏｎに存在してもよい。

ある実施形態では、それぞれのＳｕｂｓｅｇｍｅｎｔ当たりに単一のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘがあり、ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘはＲｅｐｒｅｓｅｎｔａｔｉｏｎのトラックごとにＴｒａｃｋＦｒａｇｍｅｎｔＢｏｘを含む。他の実施形態で説明されるように、クライアントは、ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに対応するＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘのバイト範囲を解決することができるか、（ＵＲＬによって特定される）リソース全体がＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘに対応していると結論付けることができる。クライアントは、どのトラックが受信されるかを、例えば現在のビューポートに基づいて決定し、対応するＳｕｂ－Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ、レベル、およびトラックを結論付ける。選択されたトラックのＴｒａｃｋＦｒａｇｍｅｎｔＢｏｘにおけるバイトオフセットは、ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに対応するＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘの開始に関連する。したがって、ＴｒａｃｋＦｒａｇｍｅｎｔＢｏｘ中のバイトオフセットは、ＵＲＬおよびＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘ用のバイト範囲の潜在的な開始バイトオフセットと関連して使用して、選択されたトラックのメディアデータをフェッチするためにどのバイト範囲がリクエストされるかを決定することができる。

いくつかの実施形態では、ＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘを使用する代わりに、新しい新しいタイプのデータ参照：「外部的に与えられたＵＲＬ」を定義して使用することができる。このＵＲＬがファイルリーダに与えられないとファイルを処理することができない。与えられるＵＲＬはトラックフラグメントベースで変わる場合がある。ＩＳＯＢＭＦＦベースのＭｅｄｉａＳｅｇｍｅｎｔは、ＭｅｄｉａＤａｔａＢｏｘ、ＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘまたはボックスにカプセル化されていないメディアデータだけを含むようなものである可能性がある。ＭｅｄｉａＳｅｇｍｅｎｔタイプ、プロファイル、またはそのようなものは、どのタイプのＭｅｄｉａＳｅｇｍｅｎｔが使用中かを示すことができる。ＭｅｄｉａＳｅｇｍｅｎｔＵＲＬは、ＭＰＤから特定され、ファイルリーダに与えることができる。ファイルリーダは、ファイルリーダに与えられたＵＲＬによって特定されたリソースの開始に関連して、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘおよび／またはＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘから取得したバイトオフセットを適用することができる。ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘ中の参照タイプ０のエントリは、メディアファイル、例えばファイルリーダに与えられたＵＲＬによって特定されたリソース内に入るように指定することができる。

いくつかの実施形態では、ＩｎｄｅｘＳｅｇｍｅｎｔは、ＩｎｄｅｘＳｅｇｍｅｎｔのＳｅｇｍｅｎｔＴｙｐｅＢｏｘ（「ｓｔｙｐ」）に含まれる具体的な４つの文字コードによって識別される。いくつかの実施形態では、他の実施形態によるＭｅｄｉａＳｅｇｍｅｎｔは、ＭｅｄｉａＳｅｇｍｅｎｔのＳｅｇｍｅｎｔＴｙｐｅＢｏｘ（「ｓｔｙｐ」）に含まれる具体的な４つの文字コードによって識別される。受信機、ファイルリーダなどは、ＳｅｇｍｅｎｔＴｙｐｅＢｏｘについて受信した具体的な４つの文字コードに基づいて他の実施形態で説明されるようにＳｅｇｍｅｎｔを処理する必要があることを識別することができる。

いくつかの実施形態では、ＩｎｄｅｘＳｅｇｍｅｎｔ形式は、次のように指定されるが、ＩｎｄｅｘＳｅｇｍｅｎｔ形式についての他の類似の実施形態が、他の実施形態で説明される特徴を有して同様に作成され得ることが理解される必要がある。各ＩｎｄｅｘＳｅｇｍｅｎｔは「ｓｔｙｐ」ボックスで始まる必要があり、具体的なブランド、例えば「ｓｉｂｍ」は「ｓｔｙｐ」ボックス中に存在する必要があり得る。この形式のＩｎｄｅｘＳｅｇｍｅｎｔは、以下のように構成される：すべてのＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘが、すべてのＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに先行する。ＩｎｄｅｘＳｅｇｍｅｎｔがいくつかのトラックを記述する場合、すべてのトラックのＳｕｂｓｅｇｍｅｎｔがアライメントされ、アライメントされた同一のＳｕｂｓｅｇｍｅｎｔのすべてのＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘはＩｎｄｅｘＳｅｇｍｅｎｔ内で隣接している。つまり、あらゆる他のＳｕｂｓｅｇｍｅｎｔのいかなるＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘによってもインターリーブされない。各トラックのＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘは時間の昇順となる。ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘはＤａｔａＥｎｔｒｙＳｅｑＮｕｍＩｍｄａＢｏｘを参照するサンプルエントリを使用する。ＩｎｄｅｘＳｅｇｍｅｎｔは、単一のＭｅｄｉａＳｅｇｍｅｎｔまたはすべてのＭｅｄｉａＳｅｇｍｅｎｔのいずれかに関連付けられる。ＩｎｄｅｘＳｅｇｍｅｎｔはＳｕｂｓｅｇｍｅｎｔＩｎｄｅｘＢｏｘを含むことができる。ＰｒｅｓｅｌｅｃｔｉｏｎのメインＡｄａｐｔａｔｉｏｎＳｅｔのＲｅｐｒｅｓｅｎｔａｔｉｏｎ用のＩｎｄｅｘＳｅｇｍｅｎｔは、ＰｒｅｓｅｌｅｃｔｉｏｎのすべてのＲｅｐｒｅｓｅｎｔａｔｉｏｎ用のＳｅｇｍｅｎｔＩｎｄｅｘを与える。

ある実施形態では、ファイルライタまたは別のエンティティは、１つまたは複数の同一のトラックがＩｎｄｅｘＳｅｇｍｅｎｔの各Ｓｕｂｓｅｇｍｅｎｔの第１のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに一貫して記述されるやり方でＩｎｄｅｘＳｅｇｍｅｎｔを書き込む。したがって、Ｓｕｂｓｅｇｍｅｎｔを記述するためにＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘ（「ｓｉｄｘ」）が使用される場合、Ｓｕｂｓｅｇｍｅｎｔの第１のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに適用される（「ｓｉｄｘ」ボックス中の）ｒｅｆｅｒｅｎｃｅｄ＿ｓｉｚｅは、ＳｕｂｓｅｇｍｅｎｔのすべてのＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘの集合サイズを示す。ある実施形態では、ファイルライタまたは別のエンティティは、ファイル内で（例えば、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘ中の１に等しい所定のボックスフラグで）またはファイルとともに（例えば、ＭＰＤにおいて）、１つまたは複数の同一のトラックがＩｎｄｅｘＳｅｇｍｅｎｔの各Ｓｕｂｓｅｇｍｅｎｔの第１のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに一貫して記述されることを示す。

ある実施形態では、ファイルリーダまたは別のエンティティが、１つまたは複数の同一のトラックがＩｎｄｅｘＳｅｇｍｅｎｔの各Ｓｕｂｓｅｇｍｅｎｔの第１のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに一貫して記述されることを結論付ける。ある実施形態では、前記結論付けることは、ファイルから（例えば、ＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘ中の１に等しい所定のボックスフラグから）またはファイルとともに（例えば、ＭＰＤから）、１つまたは複数の同一のトラックがＩｎｄｅｘＳｅｇｍｅｎｔの各Ｓｕｂｓｅｇｍｅｎｔの第１のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに一貫して記述されるというインジケーションを読取ることに基づいている。ある実施形態では、例えば規格において１つまたは複数の同一のトラックがＩｎｄｅｘＳｅｇｍｅｎｔの各Ｓｕｂｓｅｇｍｅｎｔの第１のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに一貫して記述されることが予め定義され、そのため前記結論付けることが、ファイル、またはＲｅｐｒｅｓｅｎｔａｔｉｏｎなどがそのような事前定義がなされた規格（または類似のもの）に準拠していると結論付けることに基づいている。ある実施形態では、その１つまたは複数の同一のトラックがＩｎｄｅｘＳｅｇｍｅｎｔの各Ｓｕｂｓｅｇｍｅｎｔの第１のＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘに一貫して記述されていると結論付けられた後、ファイルリーダまたは別のエンティティは、ｒｅｆｅｒｅｎｃｅｄ＿ｓｉｚｅバイトから導出したバイト範囲で単一のＨＴＴＰＧＥＴリクエストを発行して、ＳｕｂｓｅｇｍｅｎｔのすべてのＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘをフェッチする。したがって、ＳｕｂｓｅｇｍｅｎｔのすべてのＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘをフェッチするために、複数のバイト範囲を、ファイルリーダまたは別のエンティティによって結論付ける、またはリクエストする必要はない。

いくつかの実施形態では、ＩｎｄｅｘＳｅｇｍｅｎｔ形式は、次のように指定されるが、ＩｎｄｅｘＳｅｇｍｅｎｔ形式についての他の類似の実施形態が、他の実施形態で説明される特徴を有して同様に作成され得ることが理解される必要がある。各ＭｅｄｉａＳｅｇｍｅｎｔは「ｓｔｙｐ」ボックスで始まる必要があり、具体的なブランド、例えば「ｉｍｄｓ」は「ｓｔｙｐ」ボックス中に存在する必要があり得る。この形式のＭｅｄｉａＳｅｇｍｅｎｔは、１つまたは複数のＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘにメディアデータを含む（また他のボックスにメディアデータを含むことは許可されていない場合がある）。

図９Ａおよび図９Ｂは、例えば図１の装置１０によって具体化される再生デバイスによって実施されるクライアントデバイス動作のプロセスを図示している。図９Ａのブロック９０２に図示されるように、図１の装置１０などの装置は、セグメントまたはサブセグメントメタデータからセグメントまたはサブセグメントメディアデータまでのバイトオフセットが、セグメントまたはサブセグメントメディアデータを含むボックスに関連していることを示す情報を受信するために、処理回路１２および通信インターフェース１６などの手段を含む。ある実施形態では、前記情報は、識別されたメディアデータボックスへのデータ参照を含む。ある実施形態では、前記情報は、識別されたメディアデータボックスに指定されたデータ参照を含むＤａｔａＲｅｆｅｒｅｎｃｅＢｏｘを含むＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔを含む。データ参照は、例えばＤａｔａＥｎｔｒｙＩｍｄａＢｏｘ、ＤａｔａＥｎｔｒｙＴｆｄｔＢａｓｅｄＩｍｄａＢｏｘ、ＤａｔａＥｎｔｒｙＳｅｑＮｕｍＩｍｄａＢｏｘなどであってもよい。

図９Ａのブロック９０４に図示されるように、装置は、トラックの集合用のセグメントまたはサブセグメントメタデータを受信するための処理回路１２および通信インターフェース１６などの手段を含む。ある実施形態では、トラックの集合用のセグメントまたはサブセグメントメタデータは、ＩｎｄｅｘＳｅｇｍｅｎｔを含む。

図９Ａのブロック９０６に図示されるように、図１の装置１０などの装置は、セグメントまたはサブセグメントメディアデータを解析することなどによって、セグメントまたはサブセグメントメディアデータ用のロケータを決定するための、処理回路１２などの手段を含む。ある実施形態では、セグメントまたはサブセグメントメディアデータ用のロケータは、ＭｅｄｉａＳｅｇｍｅｎｔ用のＨＴＴＰＵＲＬであり、これはＤＡＳＨＭＰＤから決定される。

図９Ａのブロック９０８に図示されるように、装置は、セグメントまたはサブセグメントメディアデータをリクエストするためのロケータに加え、バイト範囲が必要かどうかを判断するための処理回路１２などの手段を含む。ある実施形態では、ＩｎｄｅｘＳｅｇｍｅｎｔは複数のサブセグメントの情報およびそれらのバイト範囲を含む。したがって、ＩｎｄｅｘＳｅｇｍｅｎｔから結論付けられたバイト範囲が、サブセグメントメディアデータをリクエストするためのロケータ（例えば、ＨＴＴＰＵＲＬ）に加えて必要とされる。

図９Ｂのブロック９１０に図示されるように、装置は、例えばバイト範囲ボックスを解析することによって、バイト範囲が必要とされる状況において、トラックの集合それぞれのために個々のセグメントまたはサブセグメントメディアデータの１つまたは複数のバイト範囲を、セグメントまたはサブセグメントメタデータから決定するための、処理回路１２などの手段を含む。

図９Ｂのブロック９１２に図示されるように、装置は、トラックの集合からトラックのサブセットを選択するための処理回路１２などの手段を含む。

図９Ｂのブロック９１４に図示されるように、装置は、個々のロケータを用いたリクエストを通じて選択されたトラックのサブセット用のセグメントまたはサブセグメントメディアデータを受信するための処理回路１２および通信インターフェース１６などの手段を含む。

図９Ｂのブロック９１６に図示されるように、装置は、トラックのサブセットのセグメントまたはサブセグメントメタデータを解析して、セグメントまたはサブセグメントメディアデータを復号化することに適した非カプセル化されたメディアデータを取得するための処理回路１２などの手段を含む。

クライアントは、時間的に揃えられたＩｎｄｅｘおよびＭｅｄｉａＳｅｇｍｅｎｔに対して図９Ａおよび図９Ｂの動作、ＩｎｄｅｘＳｅｇｍｅｎｔをフェッチして、ＭｅｄｉａＳｅｇｍｅｎｔがリクエストおよび受信される表現またはトラックを選択する動作を繰り返し実施することができる。クライアントデバイスは、またＩｎｄｅｘＳｅｇｍｅｎｔと受信したＭｅｄｉａＳｅｇｍｅｎｔとをつなぎ合わせて、つなぎ合わせたセグメントをファイル解析および後続の復号化（９１４および９１６など）のために渡すこともできる。そのようなつなぎ合わせは、ＭｏｖｉｅＦｒａｇｍｅｎｔＢｏｘから導出したバイトオフセットがＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘの開始に関連しているおかげで可能であり、したがってどのボックスがつなぎ合わせたセグメント内に存在するか、およびまたはどのつなぎ合わせ順が使用されるかよって影響されない。

図１０Ａおよび図１０Ｂは、クライアントデバイスの動作で使用されるＩｎｄｅｘおよびＭｅｄｉａＳｅｇｍｅｎｔのグラフィカルな図である。ＩｎｄｅｘおよびＭｅｄｉａＳｅｇｍｅｎｔは、例としてＤＡＳＨライブサービス利用と併せて使用することができる。図１０Ａは、リクエストすること、フェッチすること、および選択動作を図示しており、図１０Ｂは再構築されたつなぎ合わされたファイルを図示している。

個々の「ｉｍｄａ」ボックスが存在しない「ｍｏｏｆ」ボックスは、除去される場合がある。つなぎ合わせたファイル内の「ｍｏｏｆ」ボックスおよび「ｉｍｄａ」の順は、つなぎ合わせたファイル内で「ｉｍｄａ」ボックスが関連する「ｍｏｏｆ」ボックスの後に来る限り、コンテンツ作成者の選択に基づいて配置することができる。

レイトバインディングを伴う３６０度３ＤｏＦ映像のビューポート依存のストリーミングに関連して実施形態を説明した。実施形態は、３６０度映像またはビューポート依存のストリーミングに限定されないことが理解される必要がある。ある実施形態では、表現は６ＤｏＦ映像、オーバレイ、ビューポイント、または点群データに関するメディア／メタデータを含むことができる。別の実施形態では、タイリングを伴う、２Ｄ／３Ｄ投影を伴うまたは伴わないあらゆる２Ｄ映像メディアを、上で定義したような表現およびアダプテーションセットを利用することによってストリーミングすることができる。アダプティブビットレートロジックを有するプレーヤは、ダウンロードするセグメントがどれかを決定するためにセグメントを利用する。

図１１は、例えば図１の装置１０によって具体化されるエンコーダによって実施されるメディア提示記述およびセグメントオーサリングのプロセスを図示している。ブロック１１０に図示されるように、図１の装置１０などの装置は、ファイル、または初期化セグメントおよび１つもしくは複数のタイルトラックを有する１つもしくは複数のメディアセグメントを受信するために、処理回路１２および通信インターフェース１６などの手段を含む。

ブロック１１２に図示されるように、装置は、表現内の１つまたは複数のタイルトラックをエンコードするための処理回路１２などの手段を含む。

ブロック１１４に図示されるように、装置は、セグメントメタデータとセグメントメディアデータとを分離して、１つまたは複数のメディアセグメントのそれぞれのメディアセグメントの部分を分離するための処理回路１２などの手段を含む。

ブロック１１６に図示されるように、装置は、セグメントメタデータを、１つまたは複数のメディアセグメントのそれぞれのメディアセグメント内でサブセグメントインターリーブ順に並べるための処理回路１２などの手段を含む。

装置は、１つまたは複数のメディアセグメントのそれぞれの中でメディアデータのＳｕｂｓｅｇｍｅｎｔおよびトラック単位のバイト範囲を示すための処理回路１２などの手段をさらに含むことができる。図１２は、ＤＡＳＨオンデマンドサービス利用と併せて利用することができる例示的なメディアセグメントを図示している。図示される例では、「ｉｍｄａ」ボックスがトラックベースでインターリーブされている。これは、トラックのいくつかの連続的なＳｕｂｓｅｇｍｅｎｔが、１つのリクエストでリクエストされる場合に、好ましい場合がある。別の選択肢は、「ｉｍｄａ」ボックスをＳｕｂｓｅｇｍｅｎｔベースでインターリーブすることである。バイト範囲のリクエストでリクエストされる「ｉｍｄａ」ボックスに対応するバイト範囲を決定するために、特定のＩｎｄｅｘＳｅｇｍｅｎｔベースの実施形態と類似の選択肢が存在する。選択肢には、少なくとも以下が含まれる：
１．ＭｅｄｉａＳｅｇｍｅｎｔの初めにＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘを含む。ＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘは、ＭｅｄｉａＳｅｇｍｅｎｔのトップレベルのボックスを記述する（例えば、そのサイズを与える）。
２．「ｍｏｏｆ」ボックスの子ボックスとして、または「ｍｏｏｆ」ボックスの隣に（新しい）バイト範囲ボックス（「ｂｙｒａ」）を含む。
３．「ｓｉｄｘ」ボックスによって参照される（すなわち、ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ０で参照される）「ｍｏｏｆ」ボックスに関連付けられる「ｉｍｄａ」ボックスのバイト範囲でＳｅｇｍｅｎｔＩｎｄｅｘＢｏｘを広げる。
４．新しいボックス「ＦｉｒｓｔＤａｔａＢｏｘＯｆｆｓｅｔ」（ｆｄｂｏ）も定義される：第１の「ｉｍｄａ」ボックスのバイトオフセットを示すために、ｆｄｂｏは、第１のｓｉｄｘボックスの前に置かれる。これにより、セグメントヘッダ（ｓｉｄｘおよびｍｏｏｆボックスを含む）およびｉｍｄａボックスのプログレッシブダウンロードが可能になる。加えて、「ｉｍｄａ」ボックスのサイズまたはバイト範囲が、上述の任意の方法で示される。ＦｉｒｓｔＤａｔａＢｏｘＯｆｆｓｅｔＢｏｘの例示的なデータ構造は、以下の通りであってもよい：
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＦｉｒｓｔＤａｔａＢｏｘＯｆｆｓｅｔＢｏｘ
ｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（’ｆｄｂｏ’，ｖｅｒｓｉｏｎ，ｆｌａｇｓ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｆｉｒｓｔ＿ｄａｔａ＿ｂｏｘ＿ｏｆｆｓｅｔ；／／第１の「ｉｍｄａ」ボックスのバイトオフセット
｝

図１３は、ＤＡＳＨオンデマンドサービス利用と併せて利用することができる例示的なバイト範囲ボックスを図示している。「ｉｍｄａ」ボックスのサブセットだけが受信されるため、（Ｓｕｂ）セグメントを受信した後、そして（Ｓｕｂ）セグメントを解析する前に、「ｉｍｄａ」ボックスに関連するバイト範囲についての情報を、再書き込みまたは除去することができる。例えば、ＢｏｘＦｉｌｅＩｎｄｅｘＢｏｘは、正しいバイト範囲で受信したボックスだけを記述するために更新することができる。

「ｉｍｄａ」ボックス（つまりＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘ）を参照して実施形態を説明した。実施形態は、他のタイプのメディアデータボックス、またはボックス構造で搬送されないメディアデータで実現することができることが理解されるべきである。メディアセグメントに元々含まれるバイトオフセットは、すべてのメディアデータが受信されることを想定している場合があるが、実際にはメディアデータは部分的にしか受信されないため、そのような実現形態の欠点は、セグメントヘッダからメディアデータまでのバイトオフセットを補正するために、何らかのサイド情報が必要とされ得ることである。

タイルトラックおよびタイルベーストラックを参照して実施形態を説明した。実施形態は、タイルトラックとタイルベーストラックの代わりにそれぞれサブピクチャトラックおよびエキストラクタトラックなど、他の類似の概念により同じように実現可能であることが理解される必要がある。

タイルまたはＭＣＴＳを参照して実施形態を説明した。実施形態は他の類似の概念により、同じように実現可能であることが理解される必要がある。例えば、ドラフトＨ．２６６規格（別名、バーサタイル映像符号化）では、サブピクチャは、整数個の完全なスライスから成る矩形領域であり、サブピクチャの境界はピクチャ境界のように扱うことができる。すなわち（復号化）符号化プロセスでは、サブピクチャ境界の外部のサンプル場所へのあらゆる参照は、（復号化）符号化プロセスにおいてサブピクチャ境界の最も近いサンプル場所を使用するためには飽和する可能性がある。

特定のシンタックスに関連して、実施形態を説明した。実施形態は、同一または類似の機能性を有する他のシンタックスに同じように適用されることが理解される必要がある。

特定のシンタックスに関連して、実施形態を説明した。実施形態は、そのようなシンタックスを書き込むエンティティに適用されることが理解される必要がある。例えば、ファイル形式シンタックスに関連して実施形態が説明される場合、実施形態は、ファイル形式シンタックスにしたがってファイルまたはセグメントを作成するファイルライタにも適用される。同様に、実施形態はそのようなシンタックスを読取るエンティティにも適用される。例えば、ファイル形式シンタックスに関連して実施形態が説明される場合、実施形態は、ファイル形式シンタックスにしたがってファイルまたはセグメントを解析または処理するファイルリーダにも適用される。

上述の本発明の例示的な実施形態は、関与するプロセスの理解を支援するために、別個のエンコーダおよびデコーダの装置の点でコーデックを説明した。しかしながら、装置、構造、および動作は、単一のエンコーダ－デコーダ装置／構造／動作として実装できることが理解されよう。さらには、コーダおよびデコーダは一部またはすべての共通要素を共有することが可能である。

上述の例は、装置内のコーデックによって実施される特定の実施形態を説明しているが、他の実施形態があらゆる映像コーデックの一部として実装できることが理解されよう。したがって、例えば、特定の実施形態を、固定または有線の通信経路上で映像符号化を実装することができる映像コーデックに実装することができる。

上述のように、図６、図９Ａ、図９Ｂ、および図１１は、特定の例示的な実施形態による、装置１０、方法、およびコンピュータプログラム製品のフローチャートを含む。フローチャートの各ブロックおよびフローチャート内のブロックの組み合わせは、ハードウェア、ファームウェア、プロセッサ、回路、および／または１つもしくは複数のコンピュータプログラム命令を含むソフトウェアの実行に関連付けられた他のデバイスなどの様々な手段によって実装できることを理解されたい。例えば、上述の手順のうちの１つまたは複数は、コンピュータプログラム命令によって具体化することができる。この点で、上述の手順を具体化するコンピュータプログラム命令は、本発明の実施形態を採用する装置のメモリ１４によって記憶され、装置の処理回路１２によって実行することができる。諒解されるように、そのようなあらゆるコンピュータプログラム命令は、得られるコンピュータまたは他のプログラム可能装置がフローチャートのブロックで指定される機能を実装すべく、コンピュータまたは他のプログラム可能装置（例えば、ハードウェア）にロードして、マシンを作り出すことができる。このようなコンピュータプログラム命令は、コンピュータ可読メモリに記憶された命令により、その実行がフローチャートのブロックで指定される機能を実装する製造物品を作り出すべく、コンピュータ可読メモリに記憶され、コンピュータ、または他のプログラム可能装置に特定の方式で機能するように指示するものであってもよい。コンピュータプログラム命令は、コンピュータまたは他のプログラム可能装置で実行される命令がフローチャートのブロックで指定される機能を実装するための動作を提供するように、コンピュータ実装のプロセスを作り出すべく、コンピュータまたは他のプログラム可能装置にロードされ、コンピュータまたは他のプログラム可能装置上で一連の動作を実行させるものであってもよい。

したがって、コンピュータプログラム製品は、コンピュータ可読プログラムコード部分などのコンピュータプログラム命令が少なくとも１つの非一時的なコンピュータ可読記憶媒体に記憶され、コンピュータ可読プログラムコード部分などのコンピュータプログラム命令が実行されると、図６、図９Ａ、図９Ｂ、および図１１のフローチャートと併せてなど上述の機能を実施するように構成される場合に定義される。他の実施形態では、コンピュータ可読プログラムコード部分などのコンピュータプログラム命令は、非一時的なコンピュータ可読記憶媒体によって記憶または具体化される必要はないが、代わりに一時的な媒体によって具体化され、コンピュータ可読プログラムコード部分などのコンピュータプログラム命令が実行されると、上述の機能を実施するようにさらに構成することができる。

したがって、フローチャートのブロックは、指定された機能を実施するための手段の組み合わせ、および指定された機能を実施するための指定された機能を実施するための動作の組み合わせをサポートする。フローチャートの１つまたは複数のブロック、およびフローチャート中のブロックの組み合わせは、指定された機能を実行する特殊目的ハードウェアベースのコンピュータシステム、または特殊目的ハードウェアとコンピュータ命令との適切な組み合わせによって実装可能であることも理解されたい。

いくつかの実施形態では、上述の動作のうちの特定の１つが修正されるか、さらに拡張される場合がある。さらには、いくつかの実施形態では、図２～図４において破線で輪郭が描かれるブロックによって表現されるように、追加的で任意選択の動作が含まれる場合もある。上述の動作に対する修正、追加、または拡張は、あらゆる順序およびあらゆる組み合わせで実施することができる。

本明細書で説明される本発明の多くの修正形態および他の実施形態は、これらの発明に関する当業者であれば想到し、前述の説明および関連図面で提示された教示の便益を有するであろう。したがって、本発明は開示される特定の実施形態に限定されず、修正形態および他の実施形態は、添付の特許請求の範囲に含まれるよう意図されることを理解されたい。その上、前述の説明および関連図面は、要素および／または機能の特定の例示的な組み合わせのコンテキストで例示的な実施形態を説明するが、要素および／または機能の様々な組み合わせが、代替的な実施形態によって添付の特許請求の範囲から逸脱することなく提供され得ることを諒解されたい。この点で、例えば、上で明示的に説明した以外の要素および／または機能の様々な組み合わせが、添付の特許請求の範囲の一部で説明され得るように、やはり企図される。本明細書では具体的な用語が採用されるが、これらは単に一般的で説明的な意味で使用され、限定を目的とはしていない。

Claims

表現のセットに関連するセグメントメタデータを識別するように構成された第１の情報項目を、メディア記述にエンコードすることであって、前記セグメントメタデータは１つまたは複数のメディアセグメントの１つまたは複数のインデックスセグメントを示すように構成されるものである、エンコードすることと、
前記表現のセットのそれぞれの表現について、それぞれのセグメントメディアデータ用の表現固有のロケータを示す１つまたは複数の表現固有の情報項目を、前記メディア記述にエンコードすることと、
前記表現のセットとともに前記メディア記述を記憶することと
を含む、方法。
前記１つまたは複数のインデックスセグメントが、トラックの集合の１つまたは複数のセグメントを記述し、前記１つまたは複数のインデックスセグメントのそれぞれは前記表現のセットの前記１つまたは複数のメディアセグメントのそれぞれを記述する、請求項１に記載の方法。
前記セグメントメタデータが、１つまたは複数の動画フラグメントヘッダを含む、請求項１または２に記載の方法。
装置であって、
表現のセットについてのセグメントメタデータ用の第１のロケータを示す第１の情報項目を、メディア記述にエンコードするであって、前記セグメントメタデータは１つまたは複数のメディアセグメントの１つまたは複数のインデックスセグメントを示すように構成されるものである、エンコードする手段と、
前記表現のセットのそれぞれの表現について、それぞれのセグメントメディアデータ用の表現固有のロケータを示す１つまたは複数の表現固有の情報項目を、前記メディア記述にエンコードする手段と、
前記表現のセットとともに前記メディア記述を記憶する手段と
を含む、装置。
前記１つまたは複数のインデックスセグメントが、トラックの集合の１つまたは複数のセグメントを記述し、前記１つまたは複数のインデックスセグメントのそれぞれは前記表現のセットの前記１つまたは複数のメディアセグメントのそれぞれを記述する、請求項４に記載の装置。
前記セグメントメタデータが、１つまたは複数の動画フラグメントヘッダを含む、請求項４または５に記載の装置。
コンピュータ実行可能プログラムコード命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ実行可能プログラムコード命令は、実行されると、
表現のセットに関連するセグメントメタデータを識別するように構成された第１の情報項目を、メディア記述にエンコードすることであって、前記セグメントメタデータは１つまたは複数のメディアセグメントの１つまたは複数のインデックスセグメントを示すように構成されるものである、エンコードすることと、
前記表現のセットのそれぞれの表現について、それぞれのセグメントメディアデータ用の表現固有のロケータを示す１つまたは複数の表現固有の情報項目を、前記メディア記述にエンコードすることと、
前記表現のセットとともに前記メディア記述を記憶することと
を行なうように構成されるプログラムコード命令を含む、コンピュータ可読記憶媒体。
前記１つまたは複数のインデックスセグメントが、トラックの集合の１つまたは複数のセグメントを記述し、前記１つまたは複数のインデックスセグメントのそれぞれは前記表現のセットの前記１つまたは複数のメディアセグメントのそれぞれを記述する、請求項７に記載のコンピュータ可読記憶媒体。
前記セグメントメタデータが、１つまたは複数の動画フラグメントヘッダを含む、請求項７または８に記載のコンピュータ可読記憶媒体。
前記１つまたは複数の動画フラグメントヘッダは、データ参照が動画フラグメントシーケンス番号によって識別されるメディアデータボックスに関連することを示す、請求項６に記載の装置。
前記表現固有のロケータは、メディアセグメントのためのユニフォームリソースロケータを含む、請求項６に記載の装置。
前記インデックスセグメントは、少なくとも前記それぞれのセグメントメディアデータのバイト範囲をインデックスするように構成されている、請求項６に記載の装置。
前記それぞれのセグメントメディアデータは、ＩＳＯベースのメディアファイル形式のファイルのビデオトラックの少なくとも１つのサンプルを含む、請求項６に記載の装置。
前記第１の情報項目は、
前記セグメントメタデータに関連付けられたユニフォームリソースロケータ、又は
前記セグメントメタデータに関連付けられたバイト範囲、の少なくとも１つを含む、請求項６に記載の装置。
前記メディア記述は、ＤｙｎａｍｉｃａｄａｐｔｉｖｅｓｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰフォーマットに従う請求項６に記載の装置。
トラックの前記集合は、少なくとも、タイルベーストラック、及び前記タイルベーストラックに参照される１つまたは複数のタイルトラックを含む請求項５に記載の装置。
前記表現固有のロケータは、メディアセグメントのためのユニフォームリソースロケータを含む、請求項１に記載の方法。
先記インデックスセグメントは、少なくとも前記それぞれのセグメントメディアデータのバイト範囲をインデックスするように構成されている、請求項１に記載の方法。
前記それぞれのセグメントメディアデータは、ＩＳＯベースのメディアファイル形式のファイルのビデオトラックの少なくとも１つのサンプルを含む、請求項１に記載の方法。
前記第１の情報項目は、
前記セグメントメタデータに関連付けられたユニフォームリソースロケータ、又は
前記セグメントメタデータに関連付けられたバイト範囲、の少なくとも１つを含む、請求項１に記載の方法。
前記メディア記述は、ＤｙｎａｍｉｃａｄａｐｔｉｖｅｓｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰフォーマットに従う請求項１に記載の方法。
トラックの前記集合は、少なくとも、タイルベーストラック、及び前記タイルベーストラックに参照される１つまたは複数のタイルトラックを含む請求項２に記載の方法。
プログラム命令が記憶されている非一時的なコンピュータ可読媒体であって、前記プログラム命令は、少なくとも、
表現のセットに関連するセグメントメタデータを識別するように構成された第１の情報項目を、メディア記述にエンコードすることであって、前記セグメントメタデータは１つまたは複数のメディアセグメントの１つまたは複数のインデックスセグメントを示すように構成されるものである、エンコードすることと、
前記表現のセットのそれぞれの表現について、それぞれのセグメントメディアデータ用の表現固有のロケータを示す１つまたは複数の表現固有の情報項目を、前記メディア記述にエンコードすることと、
前記表現のセットとともに前記メディア記述を記憶することと
を実行させる、非一時的なコンピュータ可読媒体。