JP7472292B2

JP7472292B2 - ビデオ符号化およびビデオ復号のための方法、装置、およびコンピュータプログラム製品

Info

Publication number: JP7472292B2
Application number: JP2022540734A
Authority: JP
Inventors: ミスカハヌクセラ; エムレアクス; スリーダーカシュヤップカマチ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2019-12-31
Filing date: 2020-12-17
Publication date: 2024-04-22
Anticipated expiration: 2040-12-17
Also published as: JP2023508736A; EP4085645A1; EP4085645A4; BR112022012990A2; US20230027058A1; US12088971B2; KR20220114088A; CN114930868A; WO2021136880A1

Description

本解決策は、一般に、ビデオ符号化およびビデオ復号に関する。

このセクションは、特許請求の範囲に記載の本発明に対する背景または状況を提供することを目的とする。本明細書の説明は、追求される可能性があるが、必ずしも以前に着想され追求されたものとは限らない概念を含んでもよい。したがって、本明細書に別段の指示がない限り、このセクションに記載されるものは本出願の明細書および特許請求の範囲に対する従来技術ではなく、このセクションに含めることによって従来技術であると認められない。

ビデオコーディングシステムは、入力ビデオを格納／送信に適した圧縮表現に変換するエンコーダと、圧縮されたビデオ表現を圧縮解除して可視形式にも戻すことができるデコーダとを備えることができる。エンコーダは、ビデオをよりコンパクトな形式で表現するために元のビデオシーケンス内の一部の情報を廃棄して、たとえば、そうでない場合必要とされる恐れがあるよりも低いビットレートでのビデオ情報の格納／送信を可能にすることができる。

本発明の様々な実施形態向けに求められる保護範囲は、独立請求項によって提示される。独立請求項の範囲の分類に入らない本明細書に記載される実施形態および特徴は、もしあれば、本発明の様々な実施形態を理解するのに役立つ例として解釈されるべきである。

今や、改善された方法および方法を実施するための技術的機器が発明されている。様々な態様は、方法、装置、およびその中に記憶されたコンピュータプログラムを備えるコンピュータ可読媒体を含み、それらは独立請求項に記述されたものによって特徴付けられる。様々な実施形態は、従属請求項において開示される。

第１の態様によれば、コンテナファイル内で、２つ以上のサブピクチャトラックを書き込むことと、コンテナファイル内で、ビデオビットストリームに転換される対象となるベーストラックを書き込むことと、ベーストラック内で、サブピクチャのレイアウトを指示することと、コンテナファイル内で、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を書き込むことであって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、書き込むことと、コンテナファイル内で、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるベーストラックのサンプルを指示することとを含む、方法が提供される。

第２の態様によれば、コンテナファイルのベーストラックから、サブピクチャのレイアウトを構文解析することと、コンテナファイルから、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を構文解析することであって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、構文解析することと、サンプルグループ記述項目がサブピクチャトラックのグループを示すときに、サブピクチャトラックのグループから第２のサブピクチャトラックを選択することと、コンテナファイルから、ベーストラックのどのセットのサンプルが、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるかを構文解析することと、コンテナファイルから、サブピクチャのレイアウトのサブピクチャ位置ごとに第１のサブピクチャトラックまたは第２のサブピクチャトラックの時間整列サンプルを含めることにより、サンプルのセットに対応するビデオビットストリームのコード化ピクチャを復元することとを含む、方法が提供される。

第３の態様によれば、コンテナファイル内で、２つ以上のサブピクチャトラックを書き込むための手段と、コンテナファイル内で、ビデオビットストリームに転換される対象となるベーストラックを書き込むための手段と、ベーストラック内で、サブピクチャのレイアウトを指示するための手段と、コンテナファイル内で、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を書き込むための手段であって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、手段と、コンテナファイル内で、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるベーストラックのサンプルを指示するための手段とを備える、装置が提供される。

一実施形態によれば、装置は、コンテナファイル内で、ベーストラックから各々がサブピクチャトラックまたはサブピクチャトラックのトラックグループを識別する項目のリストへのトラック参照を書き込むための手段をさらに備え、サンプルグループ記述項目は、サブピクチャのレイアウト内のサブピクチャ位置ごとに、サブピクチャ位置ごとの項目のリストのインデックスを含み、インデックスは第１のサブピクチャトラックまたはサブピクチャトラックのグループを示す。

一実施形態によれば、サンプルグループ記述項目は、サブピクチャ識別情報がベーストラックに含まれるパラメータセットまたはピクチャヘッダ内で搬送されるかどうかの指示を含む。

一実施形態によれば、サンプルグループ記述項目は、
－ピクチャ識別子シンタックス要素の長さ、
－第１のサブピクチャ識別子シンタックス要素のビット位置、
－開始コードエミュレーション防止バイトがサブピクチャ識別子シンタックス要素の前または中に存在するかどうかのフラグ指示
のうちの１つまたは複数を含む。

一実施形態によれば、サブピクチャトラックのサンプル項目は、
－サブピクチャ識別子、
－サブピクチャ位置識別子
のうちの１つまたは複数を含む。

一実施形態によれば、装置は、コンテナファイル内で、ピクチャヘッダＮＡＬユニット用のサンプルグループを書き込むための手段をさらに備える。

第４の態様によれば、コンテナファイルのベーストラックから、サブピクチャのレイアウトを構文解析するための手段と、コンテナファイルから、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を構文解析するための手段であって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、手段と、サンプルグループ記述項目がサブピクチャトラックのグループを示すときに、サブピクチャトラックのグループから第２のサブピクチャトラックを選択するための手段と、コンテナファイルから、ベーストラックのどのセットのサンプルが、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるかを構文解析するための手段と、コンテナファイルから、サブピクチャのレイアウトのサブピクチャ位置ごとに第１のサブピクチャトラックまたは第２のサブピクチャトラックの時間整列サンプルを含めることにより、サンプルのセットに対応するビデオビットストリームのコード化ピクチャを復元するための手段とを備える、装置が提供される。

一実施形態によれば、装置は、コンテナファイルから、ベーストラックから各々がサブピクチャトラックまたはサブピクチャトラックのトラックグループを識別する項目のリストへのトラック参照を読み取るための手段をさらに備え、サンプルグループ記述項目は、サブピクチャのレイアウト内のサブピクチャ位置ごとに、サブピクチャ位置ごとの項目のリストのインデックスを含み、インデックスは第１のサブピクチャトラックまたはサブピクチャトラックのグループを示す。

一実施形態によれば、装置は、コンテナファイルから、ピクチャヘッダＮＡＬユニット用のサンプルグループを読み取るための手段をさらに備える。

一実施形態によれば、装置は、サブピクチャのレイアウトへのサブピクチャ識別子のマッピングを指示するための手段をさらに備える。

一実施形態によれば、指示するための手段は、
ａ）サブピクチャ識別子がパラメータセットおよび／またはピクチャヘッダ内で搬送されるかどうかを判断すること、
ｂ）２つ以上のパラメータセットまたはピクチャヘッダがサブピクチャ識別子を含む場合、パラメータセットとピクチャヘッダとの間の優先順位を判断し、最も高い優先順位を有するパラメータセットまたはピクチャヘッダを選択すること、
ｃ）上書き用にピクチャヘッダが選択された場合、サンプル内に存在するピクチャヘッダまたはベーストラック内のサンプルにマッピングされたサンプルグループ化のピクチャヘッダになるように上書きするためのピクチャヘッダを選択すること、
ｄ）選択されたサブピクチャトラックのサブピクチャ識別子を含むように選択されたパラメータセットまたはピクチャヘッダを修正すること
のうちの１つまたは複数を使用することにより、パラメータセットまたはピクチャヘッダ内のサブピクチャ識別子を上書きするように構成される。

一実施形態によれば、オプションｄ）のために、装置は、第１のサブピクチャ識別子要素のビット位置から開始し、サンプルグループ記述項目内で指定された順序で各々の選択されたサブピクチャトラックからのサブピクチャ識別子で各サブピクチャ識別子要素の値を上書きするように、修正を実行するための手段を備える。

一実施形態によれば、装置は、少なくとも１つのプロセッサと、コンピュータプログラムコードを含むメモリとをさらに備える。

第４の態様によれば、少なくとも１つのプロセッサ上で実行されると、実施形態のいずれかによる方法を装置またはシステムに実施させるように構成されたコンピュータプログラムコードを含むコンピュータプログラム製品が提供される。

一実施形態によれば、一実施形態によるコンピュータプログラム製品は、非一時的コンピュータ可読媒体上に具現化される。

以下では、添付図面を参照して様々な実施形態がより詳細に記載される。

ＶＶＣサブピクチャトラックを使用する第１の例を示す図である。ＶＶＣサブピクチャトラックを使用する第２の例を示す図である。一実施形態による方法を示すフローチャートである。別の実施形態による方法を示すフローチャートである。一実施形態による装置を示す図である。一実施形態による符号化プロセスを示す図である。一実施形態による復号プロセスを示す図である。

以下では、１つのビデオコーディング構成との関連でいくつかの実施形態が記載される。しかしながら、本実施形態は、必ずしもこの特定の構成に限定されないことが留意されるべきである。

（ＡＶＣまたはＨ．２６４／ＡＶＣと略される場合がある）高度ビデオコーディング規格は、国際電気通信連合の電気通信標準化部門（ＩＴＵ－Ｔ）のビデオコーディングエキスパートグループ（ＶＣＥＧ）および国際標準化機構（ＩＳＯ）／国際電気標準会議（ＩＥＣ）の動画エキスパートグループ（ＭＰＥＧ）の合同ビデオチーム（ＪＶＴ）によって開発された。Ｈ．２６４／ＡＶＣ規格は、両方の母体標準化組織によって発行され、それは、ＭＰＥＧ－４パート１０高度ビデオコーディング（ＡＶＣ）としても知られているＩＴＵ－Ｔ勧告Ｈ．２６４およびＩＳＯ／ＩＥＣ国際規格１４４９６－１０と呼ばれる。各々が仕様に新しい拡張または特徴を統合する、Ｈ．２６４／ＡＶＣ規格の複数のバージョンが存在する。これらの拡張には、スケーラブルビデオコーディング（ＳＶＣ）およびマルチビュービデオコーディング（ＭＶＣ）が含まれる。

（ＨＥＶＣまたはＨ．２６５／ＨＥＶＣと略される場合がある）高効率ビデオコーディング規格は、ＶＣＥＧおよびＭＰＥＧの共同作業チーム－ビデオコーディング（ＪＣＴ－ＶＣ）によって開発された。規格は、両方の母体標準化組織によって発行され、それは、ＭＰＥＧ－Ｈパート２高効率ビデオコーディング（ＨＥＶＣ）としても知られているＩＴＵ－Ｔ勧告Ｈ．２６５およびＩＳＯ／ＩＥＣ国際規格２３００８－２と呼ばれる。Ｈ．２６５／ＨＥＶＣに対する拡張は、スケーラブル、マルチビュー、３次元、および忠実度範囲の拡張を含み、それらは、それぞれ、ＳＨＶＣ、ＭＶ－ＨＥＶＣ、３Ｄ－ＨＥＶＣ、およびＲＥＸＴと呼ばれる場合がある。これらの標準仕様の定義、構造、または概念を理解する目的で行われている、Ｈ．２６５／ＨＥＶＣ、ＳＨＶＣ、ＭＶ－ＨＥＶＣ、３Ｄ－ＨＥＶＣ、およびＲＥＸＴに対するこの説明における参照は、別段の指示がない限り、本出願の期日の前に利用可能であったこれらの規格の最新バージョンに対する参照であると理解されるべきである。

多用途ビデオコーディング規格（ＶＶＣ、Ｈ．２６６、またはＨ．２６６／ＶＶＣ）は、ＩＳＯ／ＩＥＣＭＰＥＧとＩＴＵ－ＴＶＣＥＧとの間の共同研究である合同ビデオエキスパートチーム（ＪＶＥＴ）によって現在開発中である。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣならびにそれらの拡張の一部のいくつかの主要な定義、ビットストリームおよびコーディング構造、ならびに概念は、ビデオエンコーダ、デコーダ、符号化方法、復号方法、およびビットストリーム構造の一例としてこのセクションに記載され、実施形態が実装される場合がある。Ｈ．２６４／ＡＶＣの主要な定義、ビットストリームおよびコーディング構造、ならびに概念のいくつかは、ＨＥＶＣ規格と同じであり、したがって、それらは以下で一緒に記載される。様々な実施形態の態様は、Ｈ．２６４／ＡＶＣもしくはＨＥＶＣまたはそれらの拡張に限定されず、むしろ、説明は、その上で本実施形態が部分的または完全に実現され得る１つの可能な基礎のために与えられる。

ビデオコーデックは、入力ビデオを格納／送信に適した圧縮表現に変換するエンコーダと、圧縮されたビデオ表現を圧縮解除して可視形式にも戻すことができるデコーダとを備えてもよい。圧縮表現は、ビットストリームまたはビデオビットストリームと呼ばれる場合がある。ビデオエンコーダおよび／またはビデオデコーダは、互いに別々であってもよく、すなわち、コーデックを形成する必要がない。エンコーダは、ビデオをよりコンパクトな形式に（すなわち、低いビットレートで）表現するために元のビデオシーケンス内の一部の情報を廃棄する場合がある。

ハイブリッドビデオコーデック、たとえばＩＴＵ－ＴＨ．２６４は、２つのフェーズでビデオ情報を符号化することができる。最初に、ある特定のピクチャエリア（または「ブロック」）が、たとえば、（コード化されているブロックに近接して対応する以前にコード化されたビデオフレームのうちの１つの中のエリアを見つけて示す）動き補償手段、または（指定された方式でコード化されるべきブロックのまわりのピクセル値を使用する）空間手段によって予測される。次いで、予測誤差、すなわち、ピクセルの予測ブロックとピクセルの元のブロックとの間の差がコード化される。これは、指定された変換（たとえば、離散コサイン変換（ＤＣＴ）またはその変形形態）を使用してピクセル値の差を変換し、係数を量子化し、量子化された係数をエントロピーコーディングすることによって行われてもよい。量子化プロセスの忠実度を変更することにより、エンコーダは、ピクセル表現の精度（ピクチャ品質）と得られたコード化ビデオ表現のサイズ（ファイルサイズまたは送信ビットレート）との間のバランスを制御することができる。

時間予測において、予測のソースは以前に復号されたピクチャ（別名、参照ピクチャ）である。イントラブロックコピー（ＩＢＣ、別名、イントラブロックコピー予測または現在ピクチャ参照）では、予測は時間予測と同様に適用されるが、参照ピクチャは現在ピクチャであり、予測プロセスでは以前に復号されたサンプルのみを参照することができる。インターレイヤ予測またはインタービュー予測は、時間予測と同様に適用されてもよいが、参照ピクチャは、それぞれ、別のスケーラブルレイヤまたは別のビューからの復号ピクチャである。場合によっては、インター予測は時間予測のみを指す場合があるが、他の場合には、インター予測は、時間予測、ならびにイントラブロックコピー、インターレイヤ予測、およびインタービュー予測のいずれかを、それらが時間予測以外の同じかまたは同様のプロセスで実行されるという条件で、一括して指す場合がある。インター予測または時間予測は、時々、動き補償または動き補償予測と呼ばれる場合がある。

イントラ予測は、同じピクチャ内の隣接ピクセルが相互に関連付けられる可能性が高いという事実を利用する。イントラ予測は、空間領域または変換領域内で実行することができる、すなわち、サンプル値または変換係数のいずれかを予測することができる。イントラ予測は、インター予測が適用されないイントラコーディングにおいて活用されてもよい。

コーディング手順の１つの結果は、動きベクトルおよび量子化変換係数などの一組のコーディングパラメータである。多くのパラメータは、それらが空間的または時間的に隣接するパラメータから最初に予測される場合、より効率的にエントロピーコーディングすることができる。たとえば、動きベクトルは、空間的に隣接する動きベクトルから予測されてもよく、動きベクトル予測子に対する差のみがコーディングされてもよい。コーディングパラメータの予測およびイントラ予測は、一括してインピクチャ予測と呼ばれる場合がある。

エントロピーコーディング／復号は、多くの方法で実行されてもよい。たとえば、コンテキストベースコーディング／復号が適用されてもよく、エンコーダとデコーダの両方は、以前にコード化／復号されたコーディングパラメータに基づいてコーディングパラメータのコンテキスト状態を修正する。コンテキストベースコーディングは、たとえば、コンテキスト適応バイナリ算術コーディング（ＣＡＢＡＣ）またはコンテキストベース可変長コーディング（ＣＡＶＬＣ）または任意の同様のエントロピーコーディングであってもよい。エントロピーコーディング／復号は、代替または追加として、ハフマンコーディング／復号または指数ゴロムコーディング／復号などの可変長コーディング方式を使用して実行されてもよい。エントロピーコード化ビットストリームまたはコードワードからのコーディングパラメータの復号は、構文解析と呼ばれる場合がある。

ビデオコーディング規格は、ビットストリームのシンタックスおよびセマンティクスならびにエラーフリービットストリーム用の復号プロセスを指定することができ、一方、符号化プロセスは指定されないかもしれないが、エンコーダは適合ビットストリームを生成するためにちょうど必要とされてもよい。ビットストリームとデコーダの適合性は、仮想参照デコーダ（ＨＲＤ）によって検証することができる。規格は、送信の誤差および損失に対処する際に役立つコーディングツールを含む場合があるが、符号化におけるツールの使用はオプションであり得、誤りビットストリームに対する復号プロセスは指定されていないかもしれない。

シンタックス要素は、ビットストリーム内で表されるデータの要素として定義されてもよい。シンタックス構造は、指定された順序でビットストリーム内で一緒に存在するゼロ以上のシンタックス要素として定義されてもよい。

それぞれ、エンコーダへの入力およびデコーダの出力のための基本ユニットは、ほとんどの場合ピクチャである。エンコーダへの入力として与えられたピクチャは、ソースピクチャと呼ばれる場合もあり、デコーダによって復号されたピクチャは、復号ピクチャまたは復元ピクチャと呼ばれる場合がある。

ソースピクチャおよび復号ピクチャは、各々、サンプルアレイの以下のセット
－ルーマ（Ｙ）のみ（単色）
－ルーマおよび２つのクロマ（ＹＣｂＣｒまたはＹＣｇＣｏ）
－緑、青、および赤（ＲＧＢとしても知られているＧＢＲ）
－他の未指定の単色または三刺激色サンプリング（たとえば、ＸＹＺとしても知られているＹＺＸ）を表すアレイ
のうちの１つなどの、１つまたは複数のサンプルアレイから構成される。

以下では、使用中の実際の色表現方法にかかわらず、これらのアレイは、ルーマ（またはＬまたはＹ）およびクロマと呼ばれる場合があり、２つのクロマアレイは、ＣｂおよびＣｒと呼ばれる場合がある。使用中の実際の色表現方法は、たとえば、コード化ビットストリーム内で、たとえば、ＨＥＶＣのビデオユーザビリティ情報（ＶＵＩ）シンタックスまたは同様を使用して、指示することができる。成分は、３つのサンプルアレイ（ルーマおよび２つのクロマ）のうちの１つからアレイもしくは単一サンプルとして、または単色フォーマットでピクチャを構成するアレイもしくはアレイの単一サンプルとして定義されてもよい。

ピクチャは、フレームまたはフィールドのいずれかであるように定義されてもよい。フレームは、ルーマサンプルおよび場合によっては対応するクロマサンプルの行列を含む。フィールドは、フレームの代替サンプル行のセットであり、ソース信号がインターレースされたときにエンコーダ入力として使用されてもよい。クロマサンプルアレイは、存在しない場合がある（したがって、単色サンプリングが使用中であり得る）か、またはクロマサンプルアレイは、ルーマサンプルアレイと比較するとサブサンプリングされる場合がある。

いくつかのクロマフォーマットは、以下のように要約されてもよい。
－単色サンプリングでは、名目上、ルーマアレイと見なされ得るただ１つのサンプルアレイが存在する。
－４：２：０サンプリングでは、２つのクロマアレイの各々は、ルーマアレイの半分の高さおよび半分の幅を有する。
－４：２：２サンプリングでは、２つのクロマアレイの各々は、ルーマアレイの同じ高さおよび半分の幅を有する。
－別々の色平面が使用中でないときの４：４：４サンプリングでは、２つのクロマアレイの各々は、ルーマアレイと同じ高さおよび幅を有する。

コーディングのフォーマットおよび規格は、ビットストリームへの別々の色平面としてサンプルアレイをコード化し、ビットストリームから別々にコード化された色平面をそれぞれ復号することを可能にすることができる。別々の色平面が使用中であるとき、それらの各々は、単色サンプリングを有するピクチャとして（エンコーダおよび／またはデコーダによって）別々に処理される。

クロマサンプリング（たとえば、４：２：０または４：２：２のクロマサンプリング）が使用中であるとき、ルーマサンプルに対するクロマサンプルの位置は、（たとえば、前処理ステップとして、または符号化の一部として）エンコーダ側で決定されてもよい。ルーマサンプル位置に対するクロマサンプルの位置は、たとえば、Ｈ．２６４／ＡＶＣもしくはＨＥＶＣなどのコーディング規格において事前定義されてもよく、または、たとえば、Ｈ．２６４／ＡＶＣもしくはＨＥＶＣのＶＵＩの一部としてビットストリーム内で指示されてもよい。

一般に、符号化のための入力として提供されるソースビデオシーケンスは、インターレースされたソースコンテンツまたは進行形のソースコンテンツのいずれかであってもよい。インターレースされたソースコンテンツに対して異なる時間に反対パリティのフィールドが取り込まれる。進行形のソースコンテンツは、取り込まれたフレームを含む。エンコーダは、インターレースされたソースコンテンツのフィールドを２つの方法で符号化することできる：一対のインターレースされたフィールドがコード化フレームにコード化されてもよく、１つのフィールドがコード化フィールドとしてコード化されてもよい。同様に、エンコーダは、進行形のソースコンテンツのフィールドを２つの方法で符号化することできる：進行形のソースコンテンツのフレームがコード化フレームまたは一対のコード化フィールドにコード化されてもよい。フィールドペアまたは相補的なフィールドペアは、反対パリティを有する（すなわち、一方が上位フィールドであり、他方が下位フィールドである）、どちらもいかなる他の相補的なフィールドペアに属さない、復号順序および／または出力順序で互いに近接する２つのフィールドとして定義されてもよい。いくつかのビデオコーディングの規格または方式は、同じコード化ビデオシーケンス内のコード化フレームおよびコード化フィールドの混合を可能にする。その上、コード化フレーム内のフィールドからコード化フィールドを予測すること、および／または（フィールドとしてコード化された）相補的なフィールドペア用のコード化フレームを予測することは、符号化および／または復号において可能とされてもよい。

区分化は、セットの各要素がサブセットのうちのちょうど１つの中にあるようなセットのサブセットへの分割として定義されてもよい。

Ｈ．２６６／ＶＶＣのドラフトバージョンでは、以下の区分化が適用される。本明細書に記載されたことは、規格が最終決定されるまで、Ｈ．２６６／ＶＶＣの後のドラフトバージョンにおいてまだ発展するかもしれないことに留意されたい。ピクチャは、１２８×１２８の最大サイズを有するコーディングツリーユニット（ＣＴＵ）に区分化されるが、エンコーダは、６４×６４などのより小さいサイズを使用するように選択することができる。コーディングツリーユニット（ＣＴＵ）は、最初に、四分木（別名、四分木）構造によって区分化される。次いで、四分木リーフノードは、マルチタイプツリー構造によってさらに区分化することができる。マルチタイプツリー構造には４つの分割タイプである、垂直バイナリ分割、水平バイナリ分割、垂直三値分割、および水平三値分割が存在する。マルチタイプツリーリーフノードは、コーディングユニット（ＣＵ）と呼ばれる。ＣＵ、ＰＵ、およびＴＵは、ＣＵが最大変換長に対して大き過ぎない限り、同じブロックサイズを有する。ＣＴＵ用のセグメント化構造は、バイナリ分割および三値分割を使用してマルチタイプツリーがネストされた四分木である、すなわち、最大変換長に対して大き過ぎるサイズを有するＣＵのために必要とされるときを除き、別個のＣＵ、ＰＵ、およびＴＵの概念を使用しない。ＣＵは、正方形または長方形のいずれかの形状を有することができる。

デコーダは、エンコーダと同様の予測手段を適用して、（エンコーダによって作成され、圧縮表現に格納された動き情報または空間情報を使用して）ピクセルブロックの予測表現を形成すること、および予測誤差復号（空間ピクセル領域内の量子化予測誤差信号を回復する予測誤差コーディングの逆演算）によって出力ビデオを復元する。予測手段および予測誤差復号手段を適用した後、デコーダは、予測信号および予測誤差信号（ピクセル値）をまとめて、出力ビデオフレームを形成する。デコーダ（およびエンコーダ）はまた、表示用に出力ビデオを渡し、かつ／またはビデオシーケンス内の次のフレームのための予測参照として出力ビデオを格納する前に、さらなるフィルタリング手段を適用して出力ビデオの品質を向上させることができる。

フィルタリングは、たとえば、デブロッキング、サンプル適応オフセット（ＳＡＯ）、および／または適応ループフィルタリング（ＡＬＦ）のうちの１つを含んでもよい。

デブロッキングループフィルタは、複数のフィルタリングモードまたはフィルタリング長を含んでもよく、それらは、ビットストリーム内でエンコーダによって含められた量子化パラメータ値および／またはシグナリングなどの、境界に隣接するブロックの特徴に基づいて適応的に選択されてもよい。たとえば、デブロッキングループフィルタは、通常フィルタイングモードおよび格納フィルタリングモードを含んでもよく、それらは、フィルタタップの数（すなわち、境界の両側でフィルタリングされるサンプルの数）および／またはフィルタタップ値に関して異なってもよい。たとえば、境界の両側に沿った２つのサンプルのフィルタリングは、クリッピング演算の潜在的な影響を省略すると、（３７９－３）／１６のインパルス応答を有するフィルタを用いて実行されてもよい。

動き情報は、ビデオコーデック内で各々の動き補償画像ブロックに関連付けられた動きベクトルで示されてもよい。これらの動きベクトルの各々は、（エンコーダ側で）コード化されるかまたは（デコーダ側で）復号されるピクチャ内の画像ブロックと、以前にコード化または復号されたピクチャのうちの１つの中の予測ソースブロックの変位を表す。効率的に動きベクトルを表すために、それらは、ブロック固有の予測動きベクトルに対して異なるようにコード化されてもよい。予測動きベクトルは、たとえば、隣接ブロックの符号化または復号された動きベクトルの中央値を計算する事前定義された方法で作成されてもよい。動きベクトル予測を作成する別の方法は、時間参照ピクチャ内の隣接ブロックおよび／または同じ場所に配置されたブロックから候補予測のリストを生成し、選択された候補を動きベクトル予測子としてシグナリングすることである。動きベクトル値を予測することに加えて、以前にコード化／復号されたピクチャの参照インデックスを予測することができる。参照インデックスは、時間参照ピクチャ内の隣接ブロックおよび／または同じ場所に配置されたブロックから予測されてもよい。その上、高効率ビデオコーデックは、しばしばマージング／マージモードと呼ばれる追加の動き情報コーディング／復号メカニズムを採用することができ、そこでは、動きベクトルおよび利用可能な参照ピクチャリストごとの対応する参照ピクチャインデックスを含むすべての動きフィールド情報は、いかなる修正／補正なしに予測され使用される。同様に、動きフィールド情報を予測することは、時間参照ピクチャ内の隣接ブロックおよび／または同じ場所に配置されたブロックの動きフィールド情報を使用して遂行され、使用された動きフィールド情報は、利用可能な隣接ブロック／同じ場所に配置されたブロックの動きフィールド情報で満たされた動きフィールド情報のリストの中でシグナリングされる。

ビデオコーデックは、１つのソース画像（単予測）および２つのソース（双予測）からの動き補償予測をサポートすることができる。単予測の場合、単一の動きベクトルが適用されるが、双予測の場合、２つの動きベクトルがシグナリングされ、最終サンプル予測を作成するために、２つのソースからの動き補償予測が平均される。重み付け予測の場合、２つの予測の相対的な重みを調整することができるか、またはシグナリングされたオフセットを予測信号に加えることができる。

インターピクチャ予測に動き補償を適用することに加えて、イントラピクチャ予測に同様の手法を適用することができる。この場合、変位ベクトルは、コード化または復号されるべきブロックの予測を形成するために、同じピクチャからどこにサンプルのブロックをコピーすることができるかを示す。この種類のイントラブロックコピー方法は、テキストまたは他のグラフィックなどのフレーム内の反復構造の存在下で大幅にコーディング効率を改善することができる。

動き補償またはイントラ予測の後の予測残差は、最初に（ＤＣＴのような）変換カーネルで送信され、次いでコピーされてもよい。この理由は、しばしば、残差の間に何らかの相関関係がまだ存在し、変換が、多くの場合、この相関関係の低減に役立ち、より効率的なコーディングを提供するからである。

ビデオエンコーダは、ラグランジュコスト関数を利用して、最適なコーディングモード、たとえば、所望のマクロブロックモードおよび関連付けられた動きベクトルを見つけることができる。この種類のコスト関数は、重み係数λを使用して、不可逆コーディング方法に起因する（正確なまたは推定された）画像歪み、および画像エリア内のピクセル値を表すために必要とされる（正確なまたは推定された）情報量を束ねる。
Ｃ＝Ｄ＋λＲ（式１）
ここで、Ｃは最小化されるべきラグランジュコストであり、Ｄは考慮されるモードおよび動きベクトルによる画像歪み（たとえば、平均平方誤差）であり、Ｒは（候補動きベクトルを表すデータ量を含む）デコーダ内で画像ブロックを復元するために必要なデータを表すために必要とされるビット数である。

いくつかのコーデックは、ピクチャ順序カウント（ＰＯＣ）の概念を使用する。ＰＯＣの値はピクチャごとに導出され、出力順序でピクチャ位置が増大しても減少しない。したがって、ＰＯＣはピクチャの出力順序を示す。ＰＯＣは、復号プロセスにおいて、たとえば、動きベクトルの暗黙のスケーリングのために、かつ参照ピクチャリストの初期化のために使用されてもよい。さらに、ＰＯＣは、出力順序適合性の検証において使用されてもよい。

ビデオコーディング規格では、適合ビットストリームは、エンコーダの出力に概念的に接続される場合があり、少なくともデコーダ前バッファ、デコーダ、および出力／表示ユニットから構成される仮想参照デコーダによって復号されることができなければならない。この仮想デコーダは、仮想参照デコーダ（ＨＲＤ）またはビデオバッファリング検証器（ＶＢＶ）として知られている場合がある。ストリームは、バッファオーバーフロー、または場合によってはアンダーフローなしにＨＲＤによって復号され得る場合、適合する。バッファオーバーフローは、バッファが一杯のときにさらなるビットが収納されるべき場合に発生する。バッファアンダーフローは、復号／再生のためにバッファからいくつかのビットがフェッチされるべきときに前記ビットがバッファにない場合に発生する。ＨＲＤのための動機のうちの１つは、実際のデコーダ実装形態が処理することができない大量のリソースを消費する、いわゆる有害なビットストリームを回避することである。

ＨＲＤモデルは即時復号を含んでもよいが、ＨＲＤのコード化ピクチャバッファ（ＣＰＢ）への入力ビットレートは、コード化データの復号レートに関するエンコーダおよびビットストリームにとっての制約ならびに処理速度についてのデコーダに対する要件と見なされてもよい。エンコーダは、バッファリング制約が符号化において従われることを検証および制御するために、ＨＲＤ内で指定されたＣＰＢを含んでもよい。デコーダ実装形態はまた、ＨＲＤ向けに指定されたＣＰＢと同様に、または同じように動作することができるが、必ずしも動作しないＣＰＢを有してもよい。

復号ピクチャバッファ（ＤＰＢ）は、エンコーダおよび／またはデコーダにおいて使用されてもよい。復号ピクチャをバッファリングするには２つの理由が存在し、インター予測における参照のため、および復号ピクチャを出力順序で並べ替えるためである。ＨＥＶＣなどのいくつかのコーディングフォーマットは、参照ピクチャマーキングと出力並べ替えの両方のためのかなりの柔軟性を実現し、参照ピクチャバッファリングおよび出力ピクチャバッファリングのための別々のバッファは、メモリリソースを浪費する可能性がある。したがって、ＤＰＢは、参照ピクチャおよび出力並べ替えのための統合された復号ピクチャバッファリングプロセスを含んでもよい。復号ピクチャは、もはや参照として使用されず、出力用に必要とされないときにＤＰＢから取り除かれてもよい。ＨＲＤもＤＰＢを含んでもよい。ＨＲＤおよびデコーダ実装形態のＤＰＢは、同じように動作する必要がない。

出力順序は、（復号ピクチャバッファから出力されるべき復号ピクチャのための）復号ピクチャバッファから復号ピクチャが出力される順序として定義されてもよい。

デコーダおよび／またはＨＲＤは、ピクチャ出力プロセスを含んでもよい。出力プロセスは、デコーダが復号プロセスの出力として復号されトリミングされたピクチャを提供するプロセスであると見なされてもよい。出力プロセスは、たとえば、仮想参照デコーダ仕様の一部のように、ビデオコーディング規格の一部であってもよい。出力トリミングでは、サンプルの線および／または列は、出力ピクチャを形成するためにトリミング長方形に従って復号ピクチャから取り除かれてもよい。トリミングされた復号ピクチャは、たとえば、対応するコード化ピクチャによって参照されるシーケンスパラメータセット内で指定された適合トリミングウィンドウに基づいて、復号ピクチャをトリミングした結果として定義されてもよい。

（復号）参照ピクチャマーキング用の１つまたは複数のシンタックス構造は、ビデオコーディングシステム内に存在することができる。エンコーダは、たとえば、各コード化ピクチャ内でシンタックス構造のインスタンスを生成し、デコーダは、たとえば、各コード化ピクチャからシンタックス構造のインスタンスを復号する。たとえば、シンタックス構造の復号は、ピクチャが「参照に使用」または「参照に不使用」として適応的にマークされるようにすることができる。

ＨＥＶＣの参照ピクチャセット（ＲＰＳ）シンタックス構造は、参照ピクチャマーキング用のシンタックス構造の一例である。ピクチャ向けに有効またはアクティブな参照ピクチャセットは、ピクチャ用の参照として使用され得るすべての参照ピクチャ、および復号順序で任意の次のピクチャ用の「参照に使用」としてマークされて保持されるすべての参照ピクチャを含む。復号順序で任意の次のピクチャ用の「参照に使用」としてマークされて保持されるが、現在ピクチャまたは画像セグメント用の参照ピクチャとして使用されない参照ピクチャは、非アクティブであると見なされてもよい。たとえば、それらは、初期参照ピクチャリストには含まれないかもしれない。

いくつかのコーディングフォーマットおよびコーデックでは、いわゆる短期参照ピクチャと長期参照ピクチャとの間で区別が行われる。この区別は、動きベクトルスケーリングなどのいくつかの復号プロセスに影響を及ぼす場合がある。参照ピクチャをマークするためのシンタックス構造は、「長期参照に使用」または「短期参照に使用」としてピクチャをマークすることを示すことができる。

いくつかのコーディングフォーマットでは、インター予測用の参照ピクチャは、参照ピクチャリストへのインデックスで示される場合がある。いくつかのコーデックでは、双予測（Ｂ）スライスごとに２つの参照ピクチャリスト（参照ピクチャリスト０および参照ピクチャリスト１）が生成され、インターコード化（Ｐ）スライスごとに１つの参照ピクチャリスト（参照ピクチャリスト０）が形成される。

ＶＶＣでは、参照ピクチャリストは、参照ピクチャリストシンタックス構造で直接示される。ピクチャが（任意の参照ピクチャリストのアクティブまたは非アクティブな項目内の）現在ピクチャの任意の参照ピクチャリスト内に存在するとき、それは「長期参照に使用」または「短期参照に使用」としてマークされる。ピクチャが現在ピクチャのどの参照ピクチャリスト内にも存在しないとき、それは「参照に不使用」としてマークされる。略語ＲＰＬは、参照ピクチャリストシンタックス構造および／または１つもしくは複数の参照ピクチャリストを指すために使用されてもよい。参照ピクチャリスト内のアクティブ項目の数は、エンコーダによって示され、かつ／またはデコーダによって復号される場合があり、現在ピクチャの予測のための参照として使用され得る最初のリスト項目から始まるピクチャの数を示すことができる。アクティブ項目の中にない参照ピクチャリスト内の項目は、非アクティブ項目であると定義される場合があり、現在ピクチャの予測のための参照として使用されず、復号順序で次のピクチャの予測のための参照として使用されてもよい。

復号ピクチャバッファ（ＤＰＢ）は、エンコーダおよび／またはデコーダにおいて使用されてもよい。復号ピクチャをバッファリングするには２つの理由が存在し、インター予測における参照のため、および復号ピクチャを出力順序で並べ替えるためである。ＶＶＣなどのいくつかのコーデックは、参照ピクチャマーキングと出力並べ替えの両方のための柔軟性を実現するので、参照ピクチャバッファリングおよび出力ピクチャバッファリングのための別々のバッファは、メモリリソースを浪費する可能性がある。したがって、ＤＰＢは、参照ピクチャおよび出力並べ替えのための統合された復号ピクチャバッファリングプロセスを含んでもよい。復号ピクチャは、もはや参照として使用されず、出力用に必要とされないときにＤＰＢから取り除かれてもよい。

スケーラブルビデオコーディングは、１つのビットストリームが異なるビットレート、解像度、またはフレームレートでコンテンツの複数の表現を含むことができるコーディング構造を指す。これらの場合、受信機は、その特性（たとえば、表示デバイスに最も良く一致する解像度）に応じて所望の表現を抽出することができる。あるいは、サーバまたはネットワーク要素は、たとえば、受信機のネットワーク特性または処理能力に応じて、受信機に送信されるべきビットストリームの部分を抽出することができる。スケーラブルビットストリームは、利用可能な最低品質のビデオを提供する「ベースレイヤ」と、下位レイヤと一緒に受信および復号されたときにビデオ品質を高める１つまたは複数のエンハンスメントレイヤとを含んでもよい。エンハンスメントレイヤのためのコーディング効率を改善するために、そのレイヤのコード化表現は下位レイヤに依存する場合がある。たとえば、エンハンスメントレイヤの動き情報およびモード情報は、下位レイヤから予測することができる。同様に、下位レイヤのピクセルデータは、エンハンスメントレイヤのための予測を作成するために使用することができる。

（信号対ノイズ比またはＳＮＲとしても知られている）品質スケーラビリティおよび／または空間スケーラビリティ向けのスケーラブルビデオコーデックは、以下のように実装されてもよい。ベースレイヤの場合、従来の非スケーラブルビデオのエンコーダおよびデコーダが使用される。ベースレイヤの復元／復号ピクチャは、エンハンスメントレイヤ用の参照ピクチャバッファに含まれる。Ｈ．２６４／ＡＶＣ、ＨＥＶＣ、およびインター予測に参照ピクチャリストを使用する同様のコーデックでは、ベースレイヤの復号ピクチャは、エンハンスメントレイヤの復号参照ピクチャと同様に、エンハンスメントレイヤピクチャのコーディング／復号のために参照ピクチャリストに挿入されてもよい。その結果、エンコーダは、インター予測参照としてベースレイヤ参照ピクチャを選択し、たとえば、コード化ビットストリーム内の参照ピクチャインデックスでその使用を示すことができる。デコーダは、ビットストリームから、たとえば参照ピクチャインデックスから、ベースレイヤピクチャがエンハンスメントレイヤ用のインター予測参照として使用されることを復号する。復号されたベースレイヤピクチャがエンハンスメントレイヤ用の予測参照として使用されるとき、それはインターレイヤ参照ピクチャと呼ばれる。

スケーラビリティモードまたはスケーラビリティ次元は、以下を含んでもよいが、それらに限定されない。
・品質スケーラビリティ：ベースレイヤピクチャはエンハンスメントレイヤピクチャよりも低い品質でコード化され、それは、たとえば、エンハンスメントレイヤ内よりも大きいベースレイヤ内の量子化パラメータ値（すなわち、変換係数量子化用よりも大きい量子化ステップサイズ）を使用して達成されてもよい。
・空間スケーラビリティ：ベースレイヤピクチャは、エンハンスメントレイヤピクチャよりも低い解像度でコード化される（すなわち、より少ないサンプルを有する）。空間スケーラビリティおよび品質スケーラビリティは、時々、同じタイプのスケーラビリティと見なされてもよい。
・ビット深度スケーラビリティ：ベースレイヤピクチャは、エンハンスメントレイヤピクチャ（たとえば、１０ビットまたは１２ビット）よりも低いビット深度（たとえば、８ビット）でコード化される。
・ダイナミックレンジスケーラビリティ：スケーラブルレイヤは、異なるトーンマッピング関数および／または異なる光学伝達関数を使用して取得された異なるダイナミックレンジおよび／または画像を表す。
・クロマフォーマットスケーラビリティ：ベースレイヤピクチャは、（たとえば、４：２：０クロマフォーマットでコード化された）クロマサンプルアレイ内で、エンハンスメントレイヤピクチャ（たとえば、４：４：４フォーマット）よりも低い空間解像度を提供する。
・色域スケーラビリティ：エンハンスメントレイヤピクチャは、ベースレイヤピクチャよりも豊富／広範な色表現範囲を有する－たとえば、エンハンスメントレイヤはＵＨＤＴＶ（ＩＴＵ－ＲＢＴ．２０２０）色域を有することができ、ベースレイヤはＩＴＵ－ＲＢＴ．７０９色域を有することができる。
・対象領域（ＲＯＩ）スケーラビリティ：エンハンスメントレイヤは、ベースレイヤの空間サブセットを表す。ＲＯＩスケーラビリティは、エンハンスメントレイヤが空間サブセットのためのより高い主観的品質を提供するように、他のタイプのスケーラビリティ、たとえば、品質スケーラビリティまたは空間スケーラビリティと一緒に使用されてもよい。
・マルチビューコーディングと呼ばれる場合もある、ビュースケーラビリティ。ベースレイヤは第１のビューを表し、エンハンスメントレイヤは第２のビューを表す。
・深度拡張コーディングと呼ばれる場合もある、深度スケーラビリティ。ビットストリームの１つまたはいくつかのレイヤは、テクスチャビューを表すことができ、他の１つまたはいくつかのレイヤは、深度ビューを表すことができる。
上記のスケーラビリティケースのすべてにおいて、ベースレイヤ情報は、さらなるビットレートオーバーヘッドを最小化するようにエンハンスメントレイヤをコード化するために使用される可能性がある。

スケーラビリティは、２つの基本的な方法で可能にすることができる。スケーラブル表現の下位レイヤからのピクセル値もしくはシンタックスの予測を実行するための新しいコーディングモードを導入すること、または上位レイヤの参照ピクチャバッファ（復号ピクチャバッファ、ＤＰＢ）に下位レイヤピクチャを収容することのいずれかによる。

１番目の手法はより柔軟であり、したがって、ほとんどの場合より良いコーディング効率を実現することができる。しかしながら、２番目の参照フレームベースのスケーラビリティ手法は、利用可能なコーディング効率利得の大部分をさらに達成しながら、単一のレイヤコーデックに対する変化が最小であり、非常に効率的に実施することができる。本質的に、参照フレームベースのスケーラビリティコーデックは、ＤＰＢの管理のみに注意して、すべてのレイヤに対して同じハードウェアまたはソフトウェアの実装形態を利用することによって実施することができる。

ＨＥＶＣおよびＶＶＣなどのいくつかのコーディングフォーマットのエンコーダの出力、ならびにＨＥＶＣおよびＶＶＣなどのいくつかのコーディングフォーマットのデコーダの入力のための基本ユニットは、ネットワークアブストラクションレイヤ（ＮＡＬ）ユニットである。パケット指向ネットワーク上の転送または構造化ファイルへの格納のために、ＮＡＬユニットはパケットまたは同様の構造の中にカプセル化されてもよい。

フレーミング構造を提供しない送信環境または格納環境向けのＮＡＬユニットストリームに、バイトストリームフォーマットが指定されてもよい。バイトストリームフォーマットは、各ＮＡＬユニットの前部に開始コードを取り付けることにより、互いにＮＡＬユニットを分離する。ＮＡＬユニット境界の誤検出を回避するために、エンコーダは、バイト指向開始コードエミュレーション防止アルゴリズムを実行することができ、それは、開始コードが別段発生した場合にＮＡＬユニットペイロードにエミュレーション防止バイトを追加する。パケット指向システムとストリーム指向システムとの間の単純明快なゲートウェア動作を可能にするために、開始コードエミュレーション防止は、バイトストリームフォーマットが使用中か否かにかかわらず、常に実行されてもよい。

ＮＡＬユニットは、後に続くデータのタイプの指示を含むシンタックス構造、およびエミュレーション防止バイトで必要に応じて散在するローバイトシーケンスペイロード（ＲＢＳＰ）の形式のそのデータを含むバイトとして定義されてもよい。ＲＢＳＰは、ＮＡＬユニット内にカプセル化された整数個のバイトを含むシンタックス構造として定義されてもよい。ＲＢＳＰは、空であるか、または、ＲＢＳＰストップビットが後に続き、０に等しいゼロ以上の後続ビットが後に続くシンタックス要素を含むデータビットのストリングの形式を有するかのいずれかである。

ＮＡＬユニットは、ヘッダおよびペイロードから構成される。ＶＶＣでは、すべての指定されたＮＡＬユニットタイプに２バイトＮＡＬユニットヘッダが使用され、他のコーデックでは、ＮＡＬユニットヘッダはＶＶＣにおけるＮＡＬユニットヘッダと同様であってもよい。

ＶＶＣでは、ＮＡＬユニットヘッダは、５ビットのＮＡＬユニットタイプ指示（ｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ）、（１以上であることが必要であり得る）時間レベルまたはサブレイヤ用の３ビットのｎｕｈ＿ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１指示、および６ビットのｎｕｈ＿ｌａｙｅｒ＿ｉｄシンタックス要素を含む。ｎｕｈ＿ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１シンタックス要素は、ＮＡＬユニット用の時間識別子と見なされてもよく、ゼロベースのＴｅｍｐｏｒａｌＩｄ変数は以下のように導出されてもよい。ＴｅｍｐｏｒａｌＩｄ＝ｎｕｈ＿ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１－１。略語ＴＩＤは、ＴｅｍｐｏｒａｌＩｄ変数と交換可能に使用されてもよい。０に等しいＴｅｍｐｏｒａｌＩｄは、最も低い時間レベルに対応する。ｎｕｈ＿ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１の値は、開始コードエミュレーションが２つのＮＡＬユニットヘッダバイトを含むことを回避するために、非ゼロである必要がある。選択された値以上のＴｅｍｐｏｒａｌＩｄを有するＶＣＬＮＡＬユニットを除外し、すべての他のＶＣＬＮＡＬユニットを含めることによって作成されたビットストリームは、適合したままである。その結果、ｔｉｄ＿ｖａｌｕｅに等しいＴｅｍｐｏｒａｌＩｄを有するピクチャは、ｔｉｄ＿ｖａｌｕｅよりも大きいＴｅｍｐｏｒａｌＩｄを有するいかなるピクチャもインター予測参照として使用しない。サブレイヤまたは時間サブレイヤは、時間スケーラブルビットストリームの時間スケーラブルレイヤ（または時間レイヤ、ＴＬ）であるように定義されてもよい。そのような時間スケーラブルレイヤは、ＴｅｍｐｏｒａｌＩｄ変数の特定の値を有するＶＣＬＮＡＬユニット、および関連付けられた非ＶＣＬＮＡＬユニットを含んでもよい。ｎｕｈ＿ｌａｙｅｒ＿ｉｄは、スケーラブルレイヤ識別子として理解することができる。

ＮＡＬユニットは、ビデオコーディングレイヤ（ＶＣＬ）ＮＡＬユニットおよび非ＶＣＬＮＡＬユニットに分類することができる。ＶＣＬＮＡＬユニットは、コード化スライスＮＡＬユニットであってもよい。ＨＥＶＣおよびＶＶＣでは、ＶＣＬＮＡＬユニットは、１つまたは複数のＣＵを表すシンタックス要素を含む。ＨＥＶＣおよびＶＶＣでは、ある特定の範囲内のＮＡＬユニットタイプ値はＶＣＬＮＡＬユニットを示し、ＶＣＬＮＡＬユニットタイプはピクチャタイプを示すことができる。

画像は、単独でコード化可能および復号可能な画像セグメント（たとえば、スライスまたはタイルまたはタイルグループ）に分割することができる。そのような画像セグメントは並行処理を可能にすることができ、本明細書における「スライス」は、デフォルトのコーディングまたは復号の順序で処理されるある特定の数のコーディングユニットから構築された画像セグメントを指すことができ、「タイル」は、長方形画像領域として定義された画像セグメントを指すことができる。タイルグループは、１つまたは複数のタイルのグループとして定義されてもよい。画像セグメントは、ＨＥＶＣおよびＶＶＣにおけるＶＣＬＮＡＬユニットなどの、ビットストリーム内の別々のユニットにしてコード化されてもよい。コード化された画像セグメントは、ヘッダおよびペイロードを含んでもよく、ヘッダはペイロードを復号するために必要なパラメータ値を含む。

ＨＥＶＣ規格では、ピクチャはタイルに区分化することができ、タイルは長方形であり、整数個のＣＴＵを含む。ＨＥＶＣ規格では、タイルへの区分化は、（ＣＴＵ内の）列の幅のリストおよび（ＣＴＵ内の）行の高さのリストによって特徴付けられ得るグリッドを形成する。タイルは、タイルグリッドのラスタ走査順序で連続してビットストリーム内で順序付けられる。タイルは、整数個のスライスを含んでもよい。

ＨＥＶＣでは、スライスは、整数個のＣＴＵから構成される。ＣＴＵは、タイルが使用中でない場合、タイル内またはピクチャ内でＣＴＵのラスタ走査順序で走査される。スライスは整数個のタイルを含んでもよく、またはスライスはタイルに含まれてもよい。ＣＴＵ内で、ＣＵは特定の走査順序を有する。

ＨＥＶＣでは、スライスは、１つの独立スライスセグメント、および同じアクセスユニット内の（もしあれば）次の独立スライスセグメントに先行する（もしあれば）すべての後続の従属スライスセグメントに含まれる、整数個のコーディングツリーユニットであるように定義される。ＨＥＶＣでは、スライスセグメントは、タイル走査で連続して順序付けられ、単一のＮＡＬ（ネットワークアブストラクションレイヤ）ユニットに含まれる整数個のコーディングツリーユニットであるように定義される。各ピクチャのスライスセグメントへの分割は区分化である。ＨＥＶＣでは、独立スライスセグメントは、スライスセグメントヘッダのシンタックス要素の値が先行するスライスセグメントの値から推論されないスライスセグメントであるように定義され、従属スライスセグメントは、スライスセグメントヘッダのいくつかのシンタックス要素の値が復号順序で先行する独立スライスセグメントの値から推論されるスライスセグメントであるように定義される。ＨＥＶＣでは、スライスヘッダは、現在スライスセグメントであるか、または現在従属スライスセグメントに先行する独立スライスセグメントである独立スライスセグメントのスライスセグメントヘッダであるように定義され、スライスセグメントヘッダは、スライスセグメント内で表される最初またはすべてのコーディングツリーユニットに関するデータ要素を含むコード化スライスセグメントの一部であるように定義される。ＣＵは、タイルが使用中でない場合、タイル内またはピクチャ内でＬＣＵのラスタ走査順序で走査される。ＬＣＵ内で、ＣＵは特定の走査順序を有する。

ＶＶＣのドラフトバージョンでは、ピクチャのタイルへの区分化は以下のように定義される。ピクチャは、１つまたは複数のタイル行および１つまたは複数のタイル列に分割される。ピクチャのタイルへの区分化は、（ＣＴＵ内の）列の幅のリストおよび（ＣＴＵ内の）行の高さのリストによって特徴付けられ得るタイルグリッドを形成する。タイルは、タイルグリッド、すなわち、ピクチャの長方形領域内の１つの「セル」をカバーするコーディングツリーユニット（ＣＴＵ）のシーケンスである。

ＶＶＣのドラフトバージョンでは、ピクチャのスライスへの区分化は以下のように定義される。スライスの２つのモード、すなわち、ラスタ走査スライスモードおよび長方形スライスモードがサポートされる。ラスタ走査スライスモードでは、スライスは、ピクチャのタイルラスタ走査におけるタイルのシーケンスを含む。長方形スライスモードでは、スライスは、ピクチャの長方形領域を一括して形成する整数個の完全タイル、またはタイルの整数個の完全ＣＴＵ行のいずれかを含む。スライスはＶＣＬＮＡＬユニットである。

ＶＶＣのドラフトバージョンでは、スライス（別名、コード化スライス）は、スライスヘッダおよびスライスデータを含んでもよい。スライスヘッダは、スライス内で表されるすべてのタイルまたはタイル内のＣＴＵ行に関するデータ要素を含むコード化スライスの一部として定義されてもよい。

動き制約タイルセット（ＭＣＴＳ）は、動き制約タイルセットの外側にサンプル値がなく、動き制約タイルセットの外側の１つまたは複数のサンプル値を使用して導出された分数サンプル位置にサンプル値がないように、インター予測プロセスが符号化において制約され、動き制約タイルセット内の任意のサンプルのインター予測に使用される。さらに、ＭＣＴＳの符号化は、動きベクトル候補がＭＣＴＳの外側のブロックから導出されないように制約される。これは、ＨＥＶＣの時間動きベクトル予測をオフにすることにより、あるいはＴＭＶＰ候補またはマージもしくはＭＣＴＳの右下にある最後の１つを除くＭＣＴＳの右タイル境界のすぐ左に位置するＰＵ用のＡＭＶＰ候補リスト内のＴＭＶＰ候補に続く任意の動きベクトル予測候補をエンコーダが使用することを禁止することによって執行されてもよい。一般に、ＭＣＴＳは、任意のサンプル値、およびＭＣＴＳの外側にある動きベクトルなどのコード化データから独立したタイルセットであるように定義されてもよい。ＭＣＴＳシーケンスは、１つまたは複数のコード化ビデオシーケンスまたは同様の中のそれぞれのＭＣＴＳのシーケンスとして定義されてもよい。場合によっては、ＭＣＴＳは、長方形エリアを形成することが必要であり得る。状況に応じて、ＭＣＴＳは、ピクチャ内のタイルセットまたはピクチャのシーケンス内のそれぞれのタイルセットを参照することができることを理解されたい。それぞれのタイルセットは、ピクチャのシーケンス内で併置されてもよいが、一般に併置される必要がない。動き制約タイルセットは、その他のタイルセットなしに復号されてもよいので、独立コード化タイルセットと見なされてもよい。

インター予測において使用されるサンプル位置は、符号化プロセスおよび／または復号プロセスによって飽和する場合があり、その結果、そうでない場合ピクチャの外側にあるはずの位置は、ピクチャの対応する境界サンプルへのポイントまで飽和することに留意されたい。したがって、タイル境界がピクチャ境界でもある場合、いくつかの使用事例では、サンプル位置が境界上に飽和するので、エンコーダは、動きベクトルがその境界を効果的に横切ること、または動きベクトルがその境界の外側の位置を指すはずの分数サンプル補間を効果的に引き起こすことを可能にすることができる。他の使用事例では、具体的には、コード化タイルが、それがピクチャ境界に隣接する場所に位置するビットストリームから、タイルがピクチャ境界に隣接しない場所に位置する別のビットストリームに抽出され得る場合、エンコーダは任意のＭＣＴＳ境界と同様にピクチャ境界上の動きベクトルを制約することができる。

ドラフトＶＶＣ規格は、サブピクチャ（別名、下位ピクチャ）をサポートする。サブピクチャは、ピクチャ内の１つまたは複数のスライスの長方形領域として定義されてもよく、１つまたは複数のスライスは完璧である。その結果、サブピクチャは、ピクチャの長方形領域を一括してカバーする１つまたは複数のスライスから構成される。サブピクチャのスライスは、長方形スライスであることが必要であり得る。ピクチャのサブピクチャ（別名、サブピクチャレイアウトまたはサブピクチャのレイアウト）への区分化は、ＳＰＳ内で示され、かつ／またはＳＰＳから復号されてもよい。以下の特性のうちの１つまたは複数は、一括してサブピクチャに対して、または個別にサブピクチャごとに、（たとえば、エンコーダによって）指示されるか、または（たとえば、デコーダによって）復号されるか、または（たとえば、エンコーダおよび／もしくはデコーダによって）推論されてもよい：ｉ）サブピクチャが復号プロセスにおいてピクチャとして扱われるか否か、場合によっては、この特性は、別々に指示／復号／推論され得る、インループフィルタリング動作を除外する、ｉｉ）インループフィルタリング動作がサブピクチャ境界を横切って実行されかどうか。復号プロセスにおいてピクチャとしてサブピクチャを扱うことは、そうでない場合サブピクチャの外側にあるはずのインター予測におけるサンプル位置をサブピクチャ境界上に飽和させることを含んでもよい。

ＭＣＴＳを参照して記載された実施形態は、（ドラフトＶＶＣ規格に対して指定された）サブピクチャで同様に実現される可能性があり、サブピクチャを参照して記載された実施形態は、（上述された）ＭＣＴＳで同様に実現される可能性がある。

非ＶＣＬＮＡＬユニットは、たとえば、以下のタイプ：シーケンスパラメータセット、ピクチャパラメータセット、補足拡張情報（ＳＥＩ）ＮＡＬユニット、アクセスユニットデリミタ、シーケンス終了ＮＡＬユニット、ビットストリーム終了ＮＡＬユニット、またはフィルタデータＮＡＬユニットのうちの１つであってもよい。パラメータセットは、復号ピクチャの復元に必要とされる場合があり、その他の非ＶＣＬＮＡＬユニットの多くは、復号サンプル値の復元に必要ではない。

いくつかのコーディングフォーマットは、復号または復号ピクチャの復元に必要とされるパラメータ値を搬送することができるパラメータセットを指定する。コード化ビデオシーケンスを通して不変のままであるパラメータは、シーケンスパラメータセット（ＳＰＳ）に含まれてもよい。ＣＶＳが複数のレイヤを含む場合、ＳＰＳはレイヤのサブセットに対してのみアクティブであってもよい。復号プロセスによって必要とされ得るパラメータに加えて、シーケンスパラメータセットは、ビデオユーザビリティ情報（ＶＵＩ）を含んでもよく、ＶＵＩは、バッファリング、ピクチャ出力タイミング、レンダリング、およびリソース確保にとって重要であり得るパラメータを含む。ピクチャパラメータセット（ＰＰＳ）は、いくつかのコード化ピクチャ内で変わらない可能性が高いパラメータを含む。ピクチャパラメータセットは、１つまたは複数のコード化ピクチャのコード化画像セグメントによって参照され得るパラメータを含んでもよい。

復号パラメータセット（ＤＰＳ）は、ビットストリームに適用されるパラメータを搬送することができる。ＤＰＳは、ＶＣＬＮＡＬユニットを復号するために必要ではない特性および／または制約を含むように指定されてもよい。ビデオパラメータセット（ＶＰＳ）は、複数のレイヤに一括して適用されるパラメータを搬送することができる。適応パラメータセット（ＡＰＳ）は、ゼロ以上のスライスに適用されるシンタックス構造として定義されてもよい。異なるタイプの適応パラメータセットが存在してもよい。適応パラメータセットは、たとえば、特定のタイプのフィルタ用のフィルタリングパラメータを含んでもよい。ドラフトＶＶＣ規格では、適応ループフィルタ（ＡＬＦ）、クロマスケーリング付きルーママッピング（ＬＭＣＳ）、およびスケーリングリストのうちの１つのためのパラメータを搬送する３つのタイプのＡＰＳが指定される。スケーリングリストは、各周波数インデックスをスケーリングプロセス用のスケールファクタと関連付けるリストとして定義されてもよく、スケーリングプロセスは、変換係数レベルをスケーリングファクタと乗算し、変換係数をもたらす。

パラメータセットは、それが、たとえば、その識別子を介して参照されると、アクティブ化されてもよい。たとえば、スライスヘッダなどの画像セグメントのヘッダは、画像セグメントを含むコード化ピクチャを復号するためにアクティブ化されるＰＰＳの識別子を含んでもよい。ＰＰＳは、ＰＰＳがアクティブ化されるときにアクティブ化されるＳＰＳの識別子を含んでもよい。特定のタイプのパラメータアセットのアクティブ化は、同じタイプの以前のアクティブパラメータセットの非アクティブ化を引き起こす場合がある。パラメータセットをアクティブ化することに加えて、またはその代わりに、パラメータセットは、パラメータセットの識別子を含むシンタックス構造によって参照または言及されてもよい。たとえば、スライスヘッダは、その識別子がスライスヘッダに含まれるＰＰＳ、およびその識別子が参照されたＰＰＳに含まれるＳＰＳを参照することができる。

ドラフトＶＶＣ規格では、ＰＰＳシンタックスは、ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇという名前の１ビットシンタックス要素（すなわち、フラグ）を含む。１に等しいとき、ｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが２つ以上のＶＣＬＮＡＬユニットを有すること、およびＶＣＬＮＡＬユニットが同じ値のｎａｌ＿ｕｎｉｔ＿ｔｙｐｅをもたないこと、およびピクチャがＩＲＡＰピクチャではないことを指定する。０に等しいｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇは、ＰＰＳを参照する各ピクチャが２つ以上のＶＣＬＮＡＬユニットを有すること、およびＰＰＳを参照する各ピクチャのＶＣＬＮＡＬユニットが同じ値のｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有することを指定する。

異なる階層レベル（たとえば、シーケンスおよびピクチャ）にあるパラメータセットの代わりに、またはそれらに加えて、ビデオコーディングフォーマットは、シーケンスヘッダまたはピクチャヘッダなどのヘッダシンタックス構造を含んでもよい。シーケンスヘッダは、ビットストリーム順序でコード化ビデオシーケンスの任意の他のデータに先行することができる。ピクチャヘッダは、ビットストリーム順序でピクチャ用の任意のコード化ビデオデータに先行することができる。

ＶＶＣでは、ピクチャヘッダ（ＰＨ）は、コード化ピクチャのすべてのスライスに適用されるシンタックス要素を含むシンタックス構造として定義されてもよい。言い換えれば、ＰＨに関連付けられたコード化ピクチャのすべてのスライスに共通する情報を含む。ピクチャヘッダシンタックス構造は、ＲＢＳＰとして指定され、ＮＡＬユニットに含まれる。

ビットストリームに沿った（たとえば、ビットストリームに沿っていることを示す）、またはビットストリームのコード化ユニットに沿った（たとえば、コード化タイルに沿っていることを示す）というフレーズは、「帯域外」データが、それぞれ、ビットストリームまたはコード化ユニットに関連付けられているが、それらに含まれていないように、送信、シグナリング、または格納を指すために、特許請求の範囲および記載された実施形態において使用されてもよい。ビットストリームに沿った、またはビットストリームのコード化ユニットに沿った、または同様の復号というフレーズは、それぞれ、ビットストリームまたはコード化ユニットに関連付けられた、（帯域外の送信、シグナリング、または格納から取得され得る）参照された帯域外データを復号することを指すことができる。たとえば、ビットストリームに沿ったというフレーズは、ビットストリームが、ＩＳＯベースメディアファイルフォーマットに準拠するファイルなどのコンテナファイルに含まれ、ビットストリームを含むトラック用のサンプル項目内のボックス、ビットストリームを含むトラック用のサンプルグループ、またはビットストリームを含むトラックに関連付けられた時限メタデータトラックなどの、ある特定のメタデータがそのメタデータをビットストリームに関連付けるようにファイルに格納されるときに使用されてもよい。

コード化ピクチャはピクチャのコード化表現である。

アクセスユニットは、単一の時間インスタンス用のコード化ビデオデータおよび関連付けられた他のデータを含んでもよい。ＶＶＣでは、アクセスユニット（ＡＵ）は、異なるレイヤに属し、復号ピクチャバッファ（ＤＰＢ）からの出力用の同じ時間に関連付けられたコード化ピクチャを含む一組のピクチャユニット（ＰＵ）として定義されてもよい。ＶＶＣでは、ピクチャユニット（ＰＵ）は、指定された分類規則に従って互いに関連付けられ、復号順序で連続し、ちょうど１つのコード化ピクチャを含む一組のＮＡＬユニットとして定義されてもよい。コード化ピクチャのＶＣＬＮＡＬユニットを含むことに加えて、ピクチャユニットは、非ＶＣＬＮＡＬユニットも含んでもよい。

コード化ピクチャはアクセスユニット内である特定の順序で現れることが必要とされる場合がある。たとえば、ｎｕｈＬａｙｅｒＩｄＡに等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するコード化ピクチャは、復号順序で、同じアクセスユニット内のｎｕｈＬａｙｅｒＩｄＡよりも大きいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するすべてのコード化ピクチャに先行することが必要であり得る。

ビットストリームは、いくつかのコーディングフォーマットまたはコーディング規格において、コード化ピクチャ、および１つまたは複数のコード化ビデオシーケンスを形成する関連データの表現を形成するＮＡＬユニットストリームまたはバイトストリームの形式のビットのシーケンスとして定義されてもよい。第１のビットストリームは、同じファイル内、または通信プロトコルの同じ接続内などの、同じ論理チャネル内で第２のビットストリームが後に続く場合がある。（ビデオコーディングのコンテキスト内の）基本ストリームは、１つまたは複数のビットストリームのシーケンスとして定義されてもよい。いくつかのコーディングフォーマットまたはコーディング規格では、第１のビットストリームの終了は、固有のＮＡＬユニットによって示されてもよく、固有のＮＡＬユニットはビットストリーム終了（ＥＯＢ）ＮＡＬユニットと呼ばれる場合があり、ビットストリームの最後のＮＡＬユニットである。

コード化ビデオシーケンス（ＣＶＳ）は、単独で復号可能であり、別のコード化ビデオシーケンスまたはビットストリームの終了が後に続く、復号順序のコード化ピクチャのシーケンスとして定義されてもよい。

コード化レイヤビデオシーケンス（ＣＬＶＳ）は、復号順序で、ＣＬＶＳ開始ピクチャユニット（ＣＬＶＳＳＰＵ）から構成され、ＣＬＶＳＳＰＵではないゼロ以上のＰＵが後に続き、ＣＬＶＳＳＰＵである任意の後続ＰＵまでであるが、それを含まないすべての後続ＰＵを含む、同じスケーラブルレイヤを有する（たとえば、ＶＶＣにおいてｎｕｈ＿ｌａｙｅｒ＿ｉｄの同じ値を有する）ピクチャユニット（ＰＵ）のシーケンスとして定義されてもよい。ピクチャユニット（ＰＵ）は、コード化ピクチャ、およびコード化ピクチャに関連付けられたすべての非ＶＣＬＮＡＬユニットとして定義されてもよい。ＣＬＶＳＳＰＵは、ＣＬＶＳを開始することが可能になる、すなわち、レイヤの復号プロセスを開始することができるＰＵとして定義されてもよい。ＣＬＶＳＳＰＵは、たとえば、ＩＲＡＰピクチャまたは段階的復号リフレッシュ（ＧＤＲ）ピクチャを含んでもよい。

ピクチャグループ（ＧＯＰ）およびその特性は、以下のように定義されてもよい。ＧＯＰは、任意の以前のピクチャが復号されたかどうかにかかわらず、復号することができる。オープンＧＯＰは、復号がオープンＧＯＰの初期イントラピクチャから始まるときに、出力順序で初期イントラピクチャに先行するピクチャが正しく復号可能ではないピクチャのグループである。言い換えれば、オープンＧＯＰのピクチャは、（インター予測において）以前のＧＯＰに属するピクチャを参照することができる。ＨＥＶＣデコーダまたはＶＶＣデコーダは、固有のＮＡＬユニットタイプ、ＣＲＡＮＡＬユニットタイプがそのコード化スライスに使用される場合があるので、オープンＧＯＰを開始するイントラピクチャを認識することができる。クローズＧＯＰは、復号がクローズＧＯＰの初期イントラピクチャから始まるときに、すべてのピクチャを正しく復号することができるピクチャのグループである。言い換えれば、クローズＧＯＰ内のピクチャは以前のＧＯＰ内の任意のピクチャを参照しない。オープンＧＯＰコーディング構造は、参照ピクチャの選択における大きい柔軟性に起因して、クローズＧＯＰコーディング構造と比較して圧縮が潜在的により効率的である。

ビデオコーデックおよび例示的な実施形態を記載するとき、各シンタックス要素の書込みプロセスおよび／または構文解析プロセスを指定するために以下の説明が使用されてもよい。
－ｕ（ｎ）：ｎビットを使用する符号なし整数。ｎがシンタックステーブル内の「ｖ」であるとき、ビット数は、他のシンタックス要素の値に応じて変化する。この説明のための構文解析プロセスは、最上位ビットが最初に書き込まれる符号なし整数のバイナリ表現として解釈されたビットストリームからｎ個の次ビットによって指定される。
－ｕｅ（ｖ）：左ビットが最初の符号なし整数指数ゴロムコード化（別名、指数ゴロムコード化）シンタックス要素。

指数ゴロムビットストリングは、たとえば、以下の表を使用して、コード番号（ｃｏｄｅＮｕｍ）に変換されてもよい。

利用可能なメディアファイルフォーマット規格には、ＩＳＯベースメディアファイルフォーマット（ＩＳＯＢＭＦＦと略記される場合がある、ＩＳＯ／ＩＥＣ１４４９６－１２）、ＭＰＥＧ－４ファイルフォーマット（ＭＰ４フォーマットとしても知られている、ＩＳＯ／ＩＥＣ１４４９６－１４）、ＮＡＬユニット構造化ビデオ用ファイルフォーマット（ＩＳＯ／ＩＥＣ１４４９６－１５）、および３ＧＰＰファイルフォーマット（３ＧＰフォーマットとしても知られている、３ＧＰＰＴＳ２６．２４４）が含まれる。ＩＳＯファイルフォーマットは、（ＩＳＯファイルフォーマット自体を除く）すべての上述されたファイルフォーマットを導出するための基礎である。（ＩＳＯファイルフォーマット自体を含む）これらのファイルフォーマットは、全体的に、ファイルフォーマットのＩＳＯファミリと呼ばれる。

ＩＳＯＢＭＦＦのいくつかの概念、構造、および仕様は、それに基づいて実施形態が実装され得るコンテナファイルフォーマットの一例として以下に記載される。本発明の態様はＩＳＯＢＭＦＦに限定されず、むしろ、説明は、その上で本発明が部分的または完全に実現される１つの可能な基礎のために与えられる。

ＩＳＯベースメディアファイルフォーマット内の基本構成単位はボックスと呼ばれる。各ボックスは、ヘッダおよびペイロードを有する。ボックスヘッダは、ボックスのタイプ、およびバイト単位のボックスのサイズを示す。ボックスのタイプは、３２ビット符号なし整数、すなわち４文字コード（４ＣＣ）で示されてもよく、４文字コードは一重引用符内に書き出されてもよい、たとえば、‘ｍｄａｔ’。ボックスは他のボックスを囲うことができ、ＩＳＯファイルフォーマットは、ある特定のタイプのボックス内でどのボックスタイプが許容されるかを指定する。その上、いくつかのボックスの存在は各ファイル内で必須であり得るが、他のボックスの存在は任意選択であってもよい。さらに、いくつかのボックスタイプの場合、ファイル内に存在する２つ以上のボックスを有することは許容可能であってもよい。したがって、ＩＳＯベースメディアファイルフォーマットは、ボックスの階層構造を指定すると見なされてもよい。ＩＳＯＢＭＦＦによれば、ファイルは、ボックス内にカプセル化されたメタデータを含み、ボックス内にカプセル化されたメディアデータを含んでもよい。メディアデータは、代替として、ＩＳＯＢＭＦＦに準拠するファイルによって参照される他のファイル内に存在してもよい。ＦｕｌｌＢｏｘは、そのボックスヘッダ内に８ビットバージョンフィールドおよび２４ビットフラグフィールドをさらに含むボックスである。ボックスのシンタックスは、ＩＳＯ／ＩＥＣ１４４９６－１において定義されたシンタックス記述言語（ＳＤＬ）を使用して指定されてもよい。

ＩＳＯベースメディアファイルフォーマットに準拠するファイルでは、メタデータは、メディアデータ‘ｍｄａｔ’ボックス（別名、ＭｅｄｉａＤａｔａＢｏｘ）内で提供されてもよい。ＩＳＯＢＭＦＦに準拠するファイルは、ゼロ以上の‘ｍｄａｔ’ボックスを含んでもよい。

識別されたメディアデータボックス（別名、ＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘ、‘ｉｍｄａ’）は、ＭｅｄｉａＤａｔａＢｏｘと同じセマンティクスを有することができるが、含まれるメディアデータに対するデータ参照をセットアップする際に使用される識別子をさらに含む。識別子は、たとえば、識別されたメディアデータボックスによって含まれる最初の要素であってもよい。識別されたメディアデータボックスのシンタックスは、以下のように指定されてもよく、ｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒはボックスの識別子である。タイプ３２ビット符号なし整数のｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒがシンタックス内で使用されるが、他のフィールド長および他の基本データタイプ（たとえば、文字列）は、同様の識別されたメディアデータボックス構造内で可能であり得る。識別されたメディアデータボックスのシンタックスは以下で提供される。
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘｅｘｔｅｎｄｓＢｏｘ（‘ｉｍｄａ’）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｉｍｄａ＿ｉｄｅｎｔｉｆｉｅｒ；
ｂｉｔ（８）ｄａｔａ［］；／／ボックスの最後まで
｝

メディアデータボックス、‘ｍｄａｔ’ボックス、またはＭｅｄｉａＤａｔａＢｏｘが参照されるときはいつでも、説明はＩｄｅｎｔｉｆｉｅｄＭｅｄｉａＤａｔａＢｏｘに等しく適用される。

ＩＳＯベースメディアファイルフォーマットに準拠するファイルでは、メタデータを囲むために、ムービー‘ｍｏｏｖ’ボックス（別名、ＭｏｖｉｅＢｏｘ）が使用されてもよい。場合によっては、ファイルが動作可能になるために、メタデータとムービーボックスの両方が存在することが必要であり得る。ムービー‘ｍｏｏｖ’ボックスは１つまたは複数のトラックを含んでもよく、各トラックは１つの対応するＴｒａｃｋＢｏｘ（‘ｔｒａｋ’）内に存在してもよい。トラックは、メディア圧縮フォーマット（およびＩＳＯベースメディアファイルフォーマットへのそのカプセル化）に従ってフォーマットされたサンプルを参照するメディアトラックを含む、多くのタイプのうちの１つであってもよい。トラックは、論理チャネルと見なされてもよい。ＴｒａｃｋＢｏｘはＴｒａｃｋＨｅａｄｅｒＢｏｘを含み、ＴｒａｃｋＨｅａｄｅｒＢｏｘはトラック識別子、すなわちｔｒａｃｋ＿ＩＤシンタックス要素を含み、トラック識別子は、この表現の存続期間全体にわたってトラックを一意に識別する整数である。

ムービーフラグメントは、たとえば、ＩＳＯファイルにコンテンツを記録するときに、たとえば、記録アプリケーションがクラッシュするか、メモリ空間を使い果たすか、または他の何らかの事故が発生した場合に、データの損失を回避するために使用されてもよい。ムービーフラグメントがない場合、ファイルフォーマットは、すべてのメタデータ、たとえばムービーボックスがファイルの１つの連続エリアに書き込まれることを必要とする場合があるので、データ損失が発生する可能性がある。その上、ファイルを記録するとき、利用可能なストレージのサイズに対して、ムービーボックスをバッファリングするのに十分な量のメモリ空間（たとえば、ランダムアクセスメモリＲＡＭ）がない場合があり、ムービーが閉じられたときにムービーボックスのコンテンツを再計算することが遅すぎる場合がある。その上、ムービーフラグメントは、正規のＩＳＯファイルパーサーを使用して、ファイルの同時の記録および再生を可能にすることができる。その上、プログレッシブダウンローディング、たとえば、ムービーフラグメントが使用されるときのファイルの同時の受信および再生には、初期バッファリングの小さい持続時間が必要とされる場合があり、初期ムービーボックスは、ムービーフラグメントなしに構築された、同じメディアコンテンツを有するファイルと比較して小さい。

ムービーフラグメントの特徴は、そうでない場合ムービーボックス内に存在するかもしれないメダデータを複数のピースに分割することを可能にすることができる。各ピースは、トラックのある特定の時間期間に対応することができる。言い換えれば、ムービーフラグメントの特徴は、メタデータおよびメディアデータのインターリーブを可能にすることができる。その結果、ムービーボックスのサイズは制限されてもよく、上述された使用事例が実現されてもよい。

いくつかの例では、ムービーフラグメント用のメディアサンプルは、それらがｍｏｏｖボックスと同じファイル内にある場合、ｍｄａｔボックス内に存在してもよい。しかしながら、ムービーフラグメントのメタデータの場合、‘ｍｏｏｆ’ボックスが提供されてもよい。‘ｍｏｏｆ’ボックスは、以前‘ｍｏｏｖ’ボックス内にあったはずの、再生時間のある特定の持続時間用の情報を含んでもよい。ｍｏｏｖボックスは、それ自体の上に有効なムービーをさらに表すことができるが、加えて、それは、ムービーフラグメントが同じファイル内で後に続くことを示す‘ｍｖｅｘ’ボックスを含んでもよい。ムービーフラグメントは、時間内に‘ｍｏｏｖ’ボックスに関連付けられた表現を広げることができる。

ムービーフラグメント内に、トラック当たりゼロから複数までのどこかを含む、一組のトラックフラグメントが存在してもよい。トラックフラグメントは、ゼロから複数までのトラックラン（別名、トラックフラグメントラン）のどこかを含んでもよく、その文書の各々は、そのトラック用のサンプルの連続するランである。これらの構造内で、多くのフィールドは任意選択であり、デフォルトにすることができる。‘ｍｏｏｆ’ボックスに含まれ得るメタデータは、ｍｏｏｖボックスに含まれ得るメタデータのサブセットに限定されてもよく、場合によっては異なってコード化されてもよい。‘ｍｏｏｆ’ボックスに含まれ得るボックスに関する詳細は、ＩＳＯベースメディアファイルフォーマットの仕様から見出されてもよい。自己完結型ムービーフラグメントは、ファイル順序で連続する‘ｍｏｏｆ’ボックスおよびｍｄａｔボックスから構成されるように定義されてもよく、ｍｄａｔボックスは（‘ｍｏｏｆ’ボックスがメタデータを提供する）ムービーフラグメントのサンプルを含み、任意の他のムービーフラグメント（すなわち、任意の他の‘ｍｏｏｆ’ボックス）のサンプルを含まない。

ＴｒａｃｋＢｏｘおよび（ＴｒａｃｋＦｒａｇｍｅｎｔＢｏｘ内の）トラックフラグメントは、それぞれ、ＴｒａｃｋＢｏｘおよびトラックフラグメントの範囲内のサンプル用の復号および合成のタイミング情報を含む。復号時間は、サンプルが復号されようとしているときの時間を示し、合成時間は、サンプルが合成されようとしているときの時間を示す。異なるトラック内の２つのサンプルは、それらの復号時間または合成時間が同一であるとき、時間整列していると見なされてもよい。時間整列という用語は、復号時間および／または合成時間のいずれかまたは両方における整列を指すことができる。時々、時間整列という用語は、復号時間における整列のみを指す場合がある。

トラックを互いに関連付けるために、トラック参照メカニズムを使用することができる。ＴｒａｃｋＲｅｆｅｒｅｎｃｅＢｏｘはボックスを含み、ボックスの各々は、含んでいるトラックから、それらのｔｒａｃｋ＿ＩＤ値により、または以下に説明されるように、それらのｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄ値によって識別された他のトラックのセットへの参照を提供する。これらの参照は、含まれるボックスのボックスタイプ（すなわち、ボックスの４文字コード）を介してラベル付けされる。

ＴｒａｃｋＢｏｘに含まれるＴｒａｃｋＧｒｏｕｐＢｏｘは、各グループが特定の特性を共有するか、またはグループ内のトラックが特定の関係を有する、トラックのグループの指示を可能にする。ボックスはゼロ以上のボックスを含み、特定の特性または関係は、含まれるボックスのボックスタイプによって示される。含まれるボックスは、タイプＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘのボックスであるか、またはＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘから導出される。ＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘは、ＦｕｌｌＢｏｘのようであるが、識別子も含み、識別子は同じトラックグループに属するトラックを判断するために使用することができる。ＴｒａｃｋＧｒｏｕｐＢｏｘ内の含まれるボックスの同じタイプを含み、これらの含まれるボックス内の同じ識別子の値を有するトラックは、同じトラックグループに属する。

ＩＳＯベースメディアファイルフォーマットは、特定のサンプル、サンプルグループ、時限メタデータトラック、およびサンプル補助情報と関連付けることができる時限メタデータのための３つのメカニズムを含む。導出された仕様は、同様の機能に、これらの３つのメカニズムのうちの１つまたは複数を提供することができる。

ＩＳＯベースメディアファイルフォーマットおよびその派生物内のサンプルグループ化は、グループ化基準に基づいて、１つのサンプルグループのメンバになるように、トラック内の各サンプルの割当てとして定義されてもよい。サンプルグループ化におけるサンプルグループは、連続するサンプルであるように限定されず、隣接しないサンプルを含んでもよい。トラック内のサンプル向けに２つ以上のサンプルグループ化が存在してもよいので、各サンプルグループ化は、グループ化のタイプを示すためにタイプフィールドを有してもよい。サンプルグループ化は、２つのリンクされたデータ構造によって表されてもよい。（１）ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘ（‘ｓｂｇｐ’ボックス）は、サンプルグループへのサンプルの割当てを表し、（２）ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎＢｏｘ（‘ｓｇｐｄ’ボックス）は、グループの特性を記述するサンプルグループごとのサンプルグループ項目を含む。異なるグループ化基準に基づいて、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘおよびＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎＢｏｘの複数のインスタンスが存在してもよい。これらは、グループ化のタイプを示すために使用されるタイプフィールドによって区別されてもよい。ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘは、たとえば、グループ化のサブタイプを示すために使用することができるｇｒｏｕｐｉｎｇ＿ｔｙｐｅ＿ｐａｒａｍｅｔｅｒフィールドを含んでもよい。

０に等しいサンプルグループ記述インデックスにサンプルをマッピングすることは、サンプルがこのタイプのグループのメンバではないことを示す。ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘ内のサンプルカウントの合計が総サンプルカウントよりも少ないか、またはいくつかのサンプルに適用されるＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘが存在しない（たとえば、それがトラックフラグメントにない）場合、それらのサンプルは、もしあれば、ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎＢｏｘ内のｄｅｆａｕｌｔ＿ｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘによって識別されたグループと関連付けられ、さもなければ、グループと関連付けられない。したがって、ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎＢｏｘ内のデフォルトのサンプルグループ記述インデックス、すなわち、ｄｅｆａｕｌｔ＿ｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘは、そのためにグループマッピングに対するサンプルがＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘを介して提供されないトラック内のすべてのサンプルに適用されるサンプルグループ記述項目のインデックスを指定する。ｄｅｆａｕｌｔ＿ｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘがＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎＢｏｘ内に存在しないとき、それは（サンプルがこのタイプのグループ記述にマッピングされないことを示す）ゼロに等しいと推論される。

以下を含む、いくつかのタイプのストリームアクセスポイント（ＳＡＰ）がＩＳＯＢＭＦＦにおいて指定されている。ＳＡＰタイプ１は、いくつかのコーディング方式において（すべてのピクチャが、復号順序で、正しく復号することができ、ギャップがない正しく復号されたピクチャの連続時間シーケンスをもたらす）「クローズＧＯＰランダムアクセスポイント」として知られているものに対応し、加えて、復号順序で最初のピクチャは表示順序でも最初のピクチャである。ＳＡＰタイプ２は、いくつかのコーディング方式において（すべてのピクチャが、復号順序で、正しく復号することができ、ギャップがない正しく復号されたピクチャの連続時間シーケンスをもたらす）「クローズＧＯＰランダムアクセスポイント」として知られているものに対応し、それに対して、復号順序で最初のピクチャは表示順序で最初のピクチャでなくてもよい。ＳＡＰタイプ３は、いくつかのコーディング方式において「オープンＧＯＰランダムアクセスポイント」として知られているものに対応し、その中に、復号順序で、正しく復号することができず、ＳＡＰに関連付けられたイントラコード化ピクチャよりも短い表示時間を有するいくつかのピクチャが存在してもよい。

レイヤードコーディング用の（同様にまたは代替として、レイヤアクセスポイントと呼ばれる場合がある）ストリームアクセスポイントは、レイヤ方式で同様に定義されてもよい。レイヤ用のＳＡＰは、そのレイヤの参照レイヤがすでに前に復号されていると仮定して、その前方の位置からの情報のみを使用してそのレイヤの再生が開始されることを可能にするレイヤ（または同様）内の位置として定義されてもよい。

ＩＳＯＢＭＦＦにおいて指定されたストリームアクセスポイント（ＳＡＰ）サンプルグループは、示されたＳＡＰタイプのサンプルであるようにサンプルを識別する。ＳＡＰサンプルグループ用のｇｒｏｕｐｉｎｇ＿ｔｙｐｅ＿ｐａｒａｍｅｔｅｒは、フィールドｔａｒｇｅｔ＿ｌａｙｅｒｓおよびｌａｙｅｒ＿ｉｄ＿ｍｅｔｈｏｄ＿ｉｄｃを含む。ｔａｒｇｅｔ＿ｌａｙｅｒｓは、示されたＳＡＰ用のターゲットレイヤを指定する。ｔａｒｇｅｔ＿ｌａｙｅｒｓのセマンティクスは、ｌａｙｅｒ＿ｉｄ＿ｍｅｔｈｏｄ＿ｉｄｃの値に依存する場合がある。ｌａｙｅｒ＿ｉｄ＿ｍｅｔｈｏｄ＿ｉｄｃは、ｔａｒｇｅｔ＿ｌａｙｅｒｓのセマンティクスを指定する。０に等しいｌａｙｅｒ＿ｉｄ＿ｍｅｔｈｏｄ＿ｉｄｃは、ターゲットレイヤがトラックによって表されたすべてのレイヤから構成されることを指定する。ＳＡＰサンプルグループ用のサンプルグループ記述項目は、フィールドｄｅｐｅｎｄｅｎｔ＿ｆｌａｇおよびＳＡＰ＿ｔｙｐｅを含む。ｄｅｐｅｎｄｅｎｔ＿ｆｌａｇは、非レイヤードメディアに対して０であることが必要であり得る。１に等しいｄｅｐｅｎｄｅｎｔ＿ｆｌａｇは、もしあれば、ターゲットレイヤを予測するための参照レイヤが、このサンプルグループのサンプルにアクセスするために復号される必要があり得ることを指定する。０に等しいｄｅｐｅｎｄｅｎｔ＿ｆｌａｇは、もしあれば、ターゲットレイヤを予測するための参照レイヤが、このサンプルグループの任意のＳＡＰにアクセスするために復号される必要がないことを指定する。両端を含む１～６の範囲のｓａｐ＿ｔｙｐｅ値は、関連付けられたサンプルのＳＡＰタイプを指定する。

同期サンプルは、ＳＡＰタイプ１または２に対応するサンプルとして定義されてもよい。同期サンプルは、サンプルの新しい独立シーケンスルを開始するメディアサンプルとして見なすことができ、復号が同期サンプルにおいて開始した場合、同期サンプルおよび復号順序で後続サンプルは、すべて正しく復号することができ、復号サンプルの得られたセットは、最も早い合成時間を有する復号サンプルにおいて開始するメディアの正しい表示を形成する。同期サンプルは、（そのメタデータがＴｒａｃｋＢｏｘ内に存在するサンプル用の）ＳｙｎｃＳａｍｐｌｅＢｏｘで、またはトラックフラグメントランに対して指示もしくは推論されたサンプルフラグ（より具体的には、ｓａｍｐｌｅ＿ｉｓ＿ｎｏｎ＿ｓｙｎｃ＿ｓａｍｐｌｅフラグ）内で示すことができる。

ＩＳＯ／ＩＥＣ１４４９６－１５のドラフト補正は、抽出用代替（‘ａｌｔｅ’）トラックグループの仕様を含む。‘ａｌｔｅ’トラックグループのメンバは、抽出用のソースとして使用されるべき代替である。ＨＥＶＣの場合、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅが‘ａｌｔｅ’に等しいトラックグループのメンバは、‘ｓｃａｌ’または‘ｓａｂｔ’のトラック参照用のソースとして使用される代替であるように定義されてもよい。ファイルライタは、‘ａｌｔｅ’トラックグループが抽出用のソースとして使用されるべき代替であるトラックを含むことをファイル内で示すことができる。

‘ａｌｔｅ’トラックグループ用の識別子は、トラック用の識別子として同じナンバリング空間から取られてもよい。言い換えれば、‘ａｌｔｅ’トラックグループ用の識別子は、すべてのトラック識別子の値とは異なることが必要であり得る。その結果、‘ａｌｔｅ’トラックグループ識別子は、トラック識別子が従来使用された場所で使用されてもよい。具体的には、‘ａｌｔｅ’トラックグループ識別子は、抽出用のソースを示すトラック参照として使用されてもよい。（フラグ＆１）の値は、ＩＳＯ／ＩＥＣ１４４９６－１２において指定されたｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの一意性を示すために、タイプ‘ａｌｔｅ’のＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘ内で１に等しく設定されてもよい。

ｔｒａｃｋ＿ｒｅｆ＿４ｃｃに等しいｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅのＴｒａｃｋＲｅｆｅｒｅｎｃｅＴｙｐｅＢｏｘは、トラックＩＤの値に加えて、またはその代わりに同じａｌｔｅ＿ｔｒａｃｋ＿ｒｅｆ＿４ｃｃの値を含む‘ａｌｔｅ’トラックグループのｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値を列挙することができる。たとえば、抽出器トラックは、‘ｓｃａｌ’トラック参照を介して、個々のトラックに加えて、またはその代わりに‘ａｌｔｅ’トラックグループを指し示すことができる。‘ａｌｔｅ’トラックグループの任意の単一トラックは、抽出用のソースに適している。プレーヤまたはファイルリーダまたは同様は、切り替えられたトラックが同期サンプルまたはタイプ１もしくは２のＳＡＰサンプルを有する位置にある抽出用のソーストラックを変更することができる。

ＩＳＯＢＭＦＦに準拠するファイルは、メタボックス（４文字コード：‘ｍｅｔａ’）内に、アイテム、メタアイテム、またはメタデータアイテムと呼ばれる、任意の非時限オブジェクトを含んでもよい。メタボックスの名称はメタデータを指すが、アイテムは、一般に、メタデータまたはメディアデータを含むことができる。メタボックスは、ムービーボックス（４文字コード：‘ｍｏｏｖ’）内、かつトラックボックス（４文字コード：‘ｔｒａｋ’）内で、ファイルの最上位に存在することができるが、多くとも１つのメタボックスは、ファイルレベル、ムービーレベル、またはトラックレベルの各々に生じる場合がある。メタボックスは、‘ｍｅｔａ’ボックスコンテンツの構造またはフォーマットを示すＨａｎｄｌｅｒＢｏｘ（‘ｈｄｌｒ’）ボックスを含むことが必要であり得る。メタボックスは、参照することができる任意の数のアイテムを列挙し特徴付けることができ、アイテムの各々は、ファイル名と関連付けることができ、整数値であるアイテム識別子（ｉｔｅｍ＿ｉｄ）によってファイルと一意に識別される。メタデータアイテムは、たとえば、メタボックスのアイテムＤａｔａＢｏｘ（‘ｉｄａｔ’）ボックスもしくは‘ｍｄａｔ’ボックスに格納されるか、または個別のファイル内に存在してもよい。メタデータがファイルの外部に位置する場合、その位置は、ＤａｔａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（４文字コード：‘ｄｉｎｆ’）によって指定されてもよい。メタデータが拡張マークアップ言語（ＸＭＬ）シンタックスを使用してフォーマットされ、ＭｅｔａＢｏｘに直接格納される必要がある具体的な事例では、メタデータは、ＸＭＬＢｏｘ（４文字コード：‘ｘｍｌ’）またはＢｉｎａｒｙＸＭＬＢｏｘ（４文字コード：‘ｂｘｍｌ’）のいずれかの中にカプセル化されてもよい。アイテムは、連続バイト領域として格納されてもよく、または各々が連続バイト領域であるいくつかの範囲に格納されてもよい。言い換えれば、アイテムは、たとえば、インターリーブを可能にするために、範囲に断片的に格納されてもよい。範囲は、リソースのバイトの連続サブセットである。リソースは、範囲を連結させることによって形成することができる。ＩｔｅｍＰｒｏｐｅｒｔｉｅｓＢｏｘは、アイテム特性の順序集合との任意のアイテムの関連付けを可能にする。アイテム特性は、小さいデータレコードと見なされてもよい。ＩｔｅｍＰｒｏｐｅｒｔｉｅｓＢｏｘは２つの部分：アイテム特性の暗黙的にインデックス付けされたリストを含むＩｔｅｍＰｒｏｐｅｒｔｙＣｏｎｔａｉｎｅｒＢｏｘ、およびアイテムをアイテム特性と関連付ける１つまたは複数のＩｔｅｍＰｒｏｐｅｒｔｙＡｓｓｏｃｉａｔｉｏｎＢｏｘから構成される。

エンティティグループ化は、トラックグループ化と同様であるが、同じグループ内のトラックとアイテム（たとえば、画像アイテム）の両方のグループ化を可能にする。エンティティグループ化のシンタックスは、以下のように指定されてもよい。
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ，ｖｅｒｓｉｏｎ，ｆｌａｇｓ）
ｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ，ｖｅｒｓｉｏｎ，ｆｌａｇｓ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｇｒｏｕｐ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｎｕｍ＿ｅｎｔｉｔｉｅｓ＿ｉｎ＿ｇｒｏｕｐ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｅｎｔｉｔｉｅｓ＿ｉｎ＿ｇｒｏｕｐ；ｉ＋＋）
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｅｎｔｉｔｙ＿ｉｄ；
｝

ｇｒｏｕｐ＿ｉｄは、任意の他のＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘの任意のｇｒｏｕｐ＿ｉｄ値、（ＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘを含む）ＧｒｏｕｐｓＬｉｓｔＢｏｘを含む階層レベル（ファイル、ムービー、もしくはトラック）の任意のｉｔｅｍ＿ＩＤ値、または（ＧｒｏｕｐｓＬｉｓｔＢｏｘがファイルレベルに含まれていないときの）任意のｔｒａｃｋ＿ＩＤ値と等しくない場合がある特定のグループ化に割り当てられた非負整数である。ｎｕｍ＿ｅｎｔｉｔｉｅｓ＿ｉｎ＿ｇｒｏｕｐは、このエンティティグループにマッピングされたｅｎｔｉｔｙ＿ｉｄ値の数を指定する。ｅｎｔｉｔｙ＿ｉｄは、ｅｎｔｉｔｙ＿ｉｄに等しいｉｔｅｍ＿ＩＤを有するアイテムが（ＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘを含む）ＧｒｏｕｐｓＬｉｓｔＢｏｘを含む階層レベル（ファイル、ムービー、もしくはトラック）内に存在するときはアイテムに、またはｅｎｔｉｔｙ＿ｉｄに等しいｔｒａｃｋ＿ＩＤを有するトラックが存在し、ＧｒｏｕｐｓＬｉｓｔＢｏｘがファイルレベルに含まれているときはトラックに転換される。

高効率画像ファイルフォーマット（ＨＥＩＦ）は、画像および画像シーケンスの格納のために動画エキスパートグループ（ＭＰＥＧ）によって開発された規格である。ＨＥＩＦは、使用されたＩＳＯベースメディアファイルフォーマット（ＩＳＯＢＭＦＦ）の最上位に構築される特徴を含む。ＩＳＯＢＭＦＦの構造および特徴は、ＨＥＩＦの設計において大いに使用される。ＨＥＩＦの基本設計は、アイテムとして格納された静止画像およびトラックとして格納された画像シーケンスを含む。

ＨＥＩＦの文脈では、以下のボックスは、ルーフレベル‘ｍｅｔａ’ボックス内に含まれてもよく、以下に記載されるように使用されてもよい。ＨＥＩＦでは、‘ｍｅｔａ’ボックスのハンドラボックスのハンドラ値は‘ｐｉｃｔ’である。（同じファイル内にあるか、または一意のリソース識別子によって識別された外部ファイル内にあるかにかかわらず）コード化メディアデータを含むリソースは、データ情報（‘ｄｉｎｆ’）ボックスを介して転換されるが、アイテムロケーション（‘ｉｌｏｃ’）ボックスは、参照ファイル内のあらゆるアイテムの位置およびサイズを格納する。アイテム参照（‘ｉｒｅｆ’）ボックスは、分類された参照を使用してアイテム間の関係を記録する。何らかの方法で他と比べて最も重要であると見なされるアイテムがアイテムの集合の中に存在する場合、このアイテムは、主要アイテム（‘ｐｉｔｍ’）ボックスによってシグナリングされる。ここに言及されたボックスは別として、‘ｍｅｔａ’ボックスはまた、アイテムを記述するために必要であり得る他のボックスを含むことに柔軟である。

ＨＥＩＦは、導出画像アイテムをサポートする。アイテムは、それが別のアイテムへの‘ｄｉｔｍ’アイテム参照を含むとき、導出画像アイテムである。導出画像は、指定された入力画像に対して、回転などの指定された演算（別名、画像演算）を実行することによって取得される。導出画像を取得するために実行される演算は、アイテムのｉｔｅｍ＿ｔｙｐｅによって識別される。導出画像への入力として使用される画像アイテムは、コード化画像であってもよく、またはそれらは他の導出画像アイテムであってもよい。

サンプルファイルに任意の数の画像アイテムを含めることができる。‘ｍｅｔａ’ボックス手法を使用して格納された画像の集合が与えられると、それは、時々、画像間のある特定の関係を適格とするために不可欠である。そのような関係の例には、集合用のカバー画像を指示すること、集合内の画像の一部またはすべてにサムネイル画像を提供すること、および集合内の画像の一部またはすべてをアルファ面などの補助画像と関連付けることが含まれる。画像の集合の中のカバー画像は、‘ｐｉｔｍ’ボックスを使用して示される。サムネイル画像または補助画像は、それぞれ、タイプ‘ｔｈｍｂ’または‘ａｕｘｌ’のアイテム参照を使用して一次画像アイテムにリンクされる。

ＶＶＣでは、サブピクチャ（別名、サブピクチャレイアウトまたはサブピクチャのレイアウト）へのピクチャの区分化は、シーケンスパラメータセット（ＳＰＳ）内で示され、かつ／またはＳＰＳから復号されてもよい。ＶＶＣドラフト７では、ＳＰＳシンタックスは、サブピクチャごとに、コーディングツリーユニット（ＣＴＵ）内のサブピクチャの左上隅のｘ座標およびｙ座標、サブピクチャの幅、ならびにサブピクチャの高さを示すシンタックス要素を提供することによるサブピクチャへのピクチャの区分化を示す。したがって、サブピクチャレイアウトは、ピクチャ内のサブピクチャ位置、幅、および高さを示すが、任意の特定の識別子のサブピクチャまたはサブピクチャシーケンスをサブピクチャレイアウトに割り当てない。

サブピクチャレイアウトに加えて、以下の特性のうちの１つまたは複数は、一括してサブピクチャに対して、または個別にサブピクチャごとに、（たとえば、エンコーダによって）指示されるか、または（たとえば、デコーダによって）復号されるか、または（たとえば、エンコーダおよび／もしくはデコーダによって）推論されてもよい。
ｉ）復号プロセスにおいてサブピクチャがピクチャとして扱われるか否か、場合によっては、この特性はインループフィルタリング演算を除外し、個別に指示／復号／推論されてもよい。
ｉｉ）サブピクチャ境界を横切ってインループフィルタリング演算が実行されるか否か。

ＶＶＣドラフト７では、サブピクチャ識別子（すなわち、シンタックス要素ｓｌｉｃｅ＿ｓｕｂｐｉｃ＿ｉｄ）は、スライスヘッダ内で（たとえば、エンコーダによって）指示され、かつ／またはスライスヘッダから（たとえば、デコーダによって）復号される。ｓｌｉｃｅ＿ｓｕｂｐｉｃ＿ｉｄは、スライスを含むサブピクチャのサブピクチャ識別子を指定する。ｓｌｉｃｅ＿ｓｕｂｐｉｃ＿ｉｄは、その長さが参照されたＳＰＳ、ＰＰＳ（ピクチャパラメータセット）、またはＰＨ（ピクチャヘッダ）内で示された固定長符号なし整数ｕ（ｖ）としてコード化され、長さが示されていないとき、長さは参照されたＳＰＳ内で示されたサブピクチャの数に基づいて導出される。

ＶＶＣドラフト７において長方形スライスが使用中であるとき、スライスヘッダはｓｌｉｃｅ＿ａｄｄｒｅｓｓシンタックス要素を含み、それは、ｓｌｉｃｅ＿ｓｕｂｐｉｃ＿ｉｄによって識別されたサブピクチャ内のスライスのスライスインデックスである。

ＶＶＣドラフト７では、ＳＰＳ、ＰＰＳ、またはＰＨは、サブピクチャ識別子の値のリスト、すなわち、両端を含む０からサブピクチャレイアウト内のサブピクチャの数マイナス１の範囲のｉに対して、それぞれ、ｓｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］、ｐｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］、またはｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］を含む。サブピクチャ識別子の値のリストは、コード化ビデオシーケンス全体に対して不変であることがＳＰＳ内で示されてもよい。コード化ビデオシーケンス内のサブピクチャ識別子の値のリストの変化をＳＰＳが許容する場合、ｐｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］またはｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］は、どちらが存在し、ピクチャに適用されるとしても、ｉ番目のサブピクチャのサブピクチャＩＤを指定する。ピクチャに適用されるＰＰＳとピクチャのピクチャヘッダの両方がサブピクチャ識別子の値のリストを含むとき、ピクチャヘッダ内のリストが優先権を有する。デコーダは、サブピクチャ識別子の値のリストを使用して、サブピクチャレイアウトによる正しい位置に復号サブピクチャを位置付ける。

ＶＶＣドラフト７では、サブピクチャ識別子の値に関係するＰＨシンタックス要素は、以下の通りであってもよい。

ＶＶＣドラフト７では、サブピクチャ識別子の値に関係するＰＨシンタックス要素のセマンティクスは、以下のように指定されてもよい。
－１に等しいｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｓｉｇｎａｌｌｉｎｇ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、サブピクチャＩＤマッピングがＰＨ内でシグナリングされることを指定し、０に等しいｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｓｉｇｎａｌｌｉｎｇ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、サブピクチャＩＤマッピングがＰＨ内でシグナリングされないことを指定する。
－ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ１プラス１は、シンタクックス要素ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］を表すために使用されるビットの数を指定する。
ビットストリーム適合性のために、ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ１の値がＣＬＶＳ内のコード化ピクチャによって参照されるすべてのＰＨに対して等しいことが必要とされる場合がある。
－ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］は、ｉ番目のサブピクチャのサブピクチャＩＤを指定する。ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］シンタックス要素の長さは、ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ１＋１ビットである。

１つまたは複数の「ソース」ＶＶＣビットストリームからのサブピクチャシーケンスの抽出、および抽出されたサブピクチャシーケンスの「宛先」ＶＶＣビットストリームへのマージは、以下のように実行され得ることが想定される。
－ソースＶＶＣビットストリームを符号化するとき、各サブピクチャシーケンスのｓｌｉｃｅ＿ｓｕｂｐｉｃ＿ｉｄ値は、すべてのソースＶＶＣビットストリームの中の他のｓｌｉｃｅ＿ｓｕｂｐｉｃ＿ｉｄ値とは異なるように選択されてもよく、ｓｌｉｃｅ＿ｓｕｂｐｉｃ＿ｉｄシンタックス要素の長さは、ソースＶＶＣビットストリーム内で同じであるように選択されてもよい。
－宛先ＶＶＣビットストリームのＳＰＳは、ソースＶＶＣビットストリームのＳＰＳに基づいて認可されるかまたは書き換えられる。ＳＰＳ認可は、以下のうちの１つまたは複数を含んでもよい。
○各ＳＰＳ内で示されたサブピクチャレイアウトは、宛先ＶＶＣビットストリームにマージされたサブピクチャに基づいて作成される。
○ピクチャの幅および高さは、宛先ＶＶＣビットストリームにマージされたサブピクチャに基づいて各ＳＰＳ内で示される。
－宛先ＶＶＣビットストリームのＰＰＳは、ソースＶＶＣビットストリームのＰＰＳに基づいて認可されるかまたは書き換えられる。ＰＰＳ認可は、以下のうちの１つまたは複数を含んでもよい。
○ピクチャの幅および高さは、宛先ＶＶＣビットストリームにマージされたサブピクチャに基づいて各ＰＰＳ内で示される。
○宛先ＶＶＣビットストリームにマージされたサブピクチャに従って、サブピクチャ識別子の値のリスト、すなわち、両端を含む０からサブピクチャレイアウト内のサブピクチャの数マイナス１の範囲のｉに対して、ｐｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］を認可する。
－宛先ＶＶＣビットストリームのピクチャヘッダは、ソースＶＶＣビットストリームのそれぞれのピクチャヘッダに基づいて認可されるかまたは書き換えられる。ピクチャヘッダ認可は、以下のうちの１つまたは複数を含んでもよい。
○宛先ＶＶＣビットストリームにマージされたサブピクチャに従って、サブピクチャ識別子の値のリスト、すなわち、両端を含む０からサブピクチャレイアウト内のサブピクチャの数マイナス１の範囲のｉに対して、ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］を認可する。
－宛先ＶＶＣビットストリーム内のコード化ピクチャごとに、ソースＶＶＣビットストリーム内のそれぞれのコード化ピクチャからのサブピクチャは、たとえば、サブピクチャ識別子の値のリストによって示された順序で含まれる。

上述されたように、ＶＶＣサブピクチャの特徴は、ＶＣＬＮＡＬユニット（すなわち、スライス）の修正なしにサブピクチャの抽出およびマージを可能にする。したがって、ＨＥＶＣ動き制約タイルセットの抽出およびマージと比較して、ＶＶＣサブピクチャの抽出およびマージにおける根本的な違いは、スライスヘッダが書き換えられる必要がないことである。

ＡＶＣおよびＨＥＶＣの抽出器
Ｈ．２６４／ＡＶＣおよびＨＥＶＣに対してＩＳＯ／ＩＥＣ１４４９６－１５において指定された抽出器は、参照によりＮＡＬユニットを抽出するトラックのコンパクトな形成を可能にする。抽出器は、ＮＡＬユニットのような構造である。ＮＡＬユニットのような構造は、ＮＡＬユニットヘッダおよびＮＡＬユニットペイロードのような任意のＮＡＬユニットを備えるように指定されてもよいが、（ＮＡＬユニットに必要とされる）開始コードエミュレーション防止は、ＮＡＬユニットのような構造において従われないかもしれない。ＨＥＶＣの場合、抽出器は１つまたは複数のコンストラクタを含む。サンプルコンストラクタは、参照により、別のトラックのサンプルからＮＡＬユニットデータを抽出する。インラインコンストラクタは、ＮＡＬユニットデータを含む。インラインという用語は、たとえば、データユニットに関して、シンタックス構造を含むことが、（参照により、またはデータポインタを介してデータユニットを含むこととは対照的に）データユニットを含むかまたは搬送することを示すように定義されてもよい。抽出器がそれを必要とするファイルリーダによって処理されるとき、抽出器は、それらの出現順序で含まれるコンストラクタを転換するときに得られたバイトによって論理的に置き換えられる。ネストされた抽出は禁止される場合があり、たとえば、サンプルコンストラクタによって参照されるバイトは抽出器を含んではならず、抽出器は、直接的または間接的に別の抽出器を参照してはならない。抽出器は、現在トラック、またはタイプ‘ｓｃａｌ’のトラック参照によって抽出器が存在するトラックにリンクされた別のトラックからデータを抽出するために１つまたは複数のコンストラクタを含んでもよい。転換された抽出器のバイトは、１つまたは複数のＮＡＬユニット全体を表すことができる。転換された抽出器は、有効長のフィールドおよびＮＡＬユニットヘッダから始まる。サンプルコンストラクタのバイトは、示された‘ｓｃａｌ’トラック参照を介して参照されたトラック内の単一の識別されたサンプルからのみコピーされる。整列は、復号時間上で、すなわち、時間－サンプルテーブルのみを使用して、サンプル番号でカウントされたオフセットがその後に続く。抽出器はメディアレベルの概念であり、したがって、任意の編集リストが考慮される前に宛先トラックに適用される。（しかしながら、通常、２つのトラック内の編集リストは同一であることが予想される。）

以下のシンタックスが使用されてもよい：
ｃｌａｓｓａｌｉｇｎｅｄ（８）Ｅｘｔｒａｃｔｏｒ（）｛
ＮＡＬＵｎｉｔＨｅａｄｅｒ（）；
ｄｏ｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｃｏｎｓｔｒｕｃｔｏｒ＿ｔｙｐｅ；
ｉｆ（ｃｏｎｓｔｒｕｃｔｏｒ＿ｔｙｐｅ＝＝０）
ＳａｍｐｌｅＣｏｎｓｔｒｕｃｔｏｒ（）；
ｅｌｓｅｉｆ（ｃｏｎｓｔｒｕｃｔｏｒ＿ｔｙｐｅ＝＝２）
ＩｎｌｉｎｅＣｏｎｓｔｒｕｃｔｏｒ（）；
｝ｗｈｉｌｅ（！ＥｎｄＯｆＮＡＬＵｎｉｔ（））
｝

セマンティクスは以下のように定義されてもよい。
－ＮＡＬＵｎｉｔＨｅａｄｅｒ（）：ＨＥＶＣＮＡＬユニットの最初の２バイト。特定のｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ値は抽出器を示す、たとえば、４９に等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅ。
－ｃｏｎｓｔｒｕｃｔｏｒ＿ｔｙｐｅは使用されているコンストラクタを指定する。
－ＥｎｄＯｆＮＡＬＵｎｉｔ（）は、この抽出器内でより多くのデータが続くときに０（偽）を返す関数であり、そうでない場合、それは１（真）を返す。

サンプルコンストラクタ（ＳａｍｐｌｅＣｏｎｓｔｒｕｃｔｏｒ）は、以下のシンタックスを有してもよい：
ｃｌａｓｓａｌｉｇｎｅｄ（８）ＳａｍｐｌｅＣｏｎｓｔｒｕｃｔｏｒ（）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｔｒａｃｋ＿ｒｅｆ＿ｉｎｄｅｘ；
ｓｉｇｎｅｄｉｎｔ（８）ｓａｍｐｌｅ＿ｏｆｆｓｅｔ；
ｕｎｓｉｇｎｅｄｉｎｔ（（ｌｅｎｇｔｈＳｉｚｅＭｉｎｕｓＯｎｅ＋１）＊８）
ｄａｔａ＿ｏｆｆｓｅｔ；
ｕｎｓｉｇｎｅｄｉｎｔ（（ｌｅｎｇｔｈＳｉｚｅＭｉｎｕｓＯｎｅ＋１）＊８）
ｄａｔａ＿ｌｅｎｇｔｈ；
｝

ｔｒａｃｋ＿ｒｅｆ＿ｉｎｄｅｘは、それからデータが抽出されるソーストラックを識別する。ｔｒａｃｋ＿ｒｅｆ＿ｉｎｄｅｘは、タイプ‘ｓｃａｌ’のトラック参照のインデックスである。最初のトラック参照はインデックス値１を有し、値０は予約される。

それからデータが抽出されるそのトラック内のサンプルは、時間的に整列するか、またはメディア復号タイムラインで、すなわち、時間－サンプルテーブルのみを使用して最も近く先行し、ｓａｍｐｌｅ＿ｏｆｆｓｅｔによって指定されたオフセットによって抽出器を含むサンプルと調整される。ｓａｍｐｌｅ＿ｏｆｆｓｅｔは、情報源として使用されるべきリンクされたトラック内のサンプルの相対インデックスを与える。サンプル０（ゼロ）は、抽出器を含むサンプルの復号時間と比較して同じか、または最も近く先行する復号時間を有するサンプルであり、サンプル１（ワン）は次のサンプルであり、サンプル－１（マイナス１）は前のサンプルであり、以下同様である。
ｄａｔａ＿ｏｆｆｓｅｔ：コピーする参照サンプル内の最初のバイトのオフセット。抽出がそのサンプル内のデータの最初のバイトから始まる場合、オフセットは値０を取る。
ｄａｔａ＿ｌｅｎｇｔｈ：コピーするバイトの数。

インラインコンストラクタのシンタックスは、以下のように指定されてもよい：
ｃｌａｓｓａｌｉｇｎｅｄ（８）ＩｎｌｉｎｅＣｏｎｓｔｒｕｃｔｏｒ（）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｌｅｎｇｔｈ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｉｎｌｉｎｅ＿ｄａｔａ［ｌｅｎｇｔｈ］；
｝
ｌｅｎｇｔｈ：このフィールドに続くＩｎｌｉｎｅＣｏｎｓｔｒｕｃｔｏｒに属するバイトの数。
ｉｎｌｉｎｅ＿ｄａｔａ：インラインコンストラクタを転換したときに返されるデータバイト。

ＨＥＶＣスライスセグメントヘッダは、（スライスセグメントヘッダを直接含むことができる）インラインコンストラクタを介して抽出器トラックによって書き換えることができる。

ＨＥＶＣタイルベーストラックおよびタイルトラック
ＨＥＶＣタイルベーストラックは、参照されたＨＥＶＣタイルトラックからのサンプルデータを暗黙的に結合することによってビットストリームを表す。ＨＥＶＣでは、タイルベーストラックからタイルトラックを参照するために‘ｓａｂｔ’トラック参照が使用され、タイル順序付けは、‘ｓａｂｔ’トラック参照によって含まれるタイルトラックの順序によって示される。その上、ＨＥＶＣでは、タイルトラックは、タイルベーストラックに対する‘ｔｂａｓ’トラック参照を有する。

ＨＥＶＣタイルトラックのサンプルは、スライスセグメントを含む。ＨＥＶＣタイルトラックのサンプルは、動き制約タイルセットシーケンスを含んでもよい。

（ＩＳＯＢＭＦＦ、ＭＰＥＧＮ１８８５６におけるＶＶＣの搬送に関する作業ドラフト内の）ＶＶＣサブピクチャトラックグループ
ＩＳＯＢＭＦＦ準拠ファイル内のＶＶＣの格納は、ＩＳＯ／ＩＥＣ１４４９６－１５における新しい条項として指定されるように計画されている。本文書を書いている時点で、ＩＳＯＢＭＦＦ、ＭＰＥＧＮ１８８５６におけるＶＶＣの搬送に関する作業ドラフト（ＷＤ）は入手可能である。ＷＤは、サブピクチャトラックグループの従属条項を含み、それは調査および議論のためにＷＤに含まれた。次の段落は特徴を要約し、ＷＤからの引用を含む。

サブピクチャトラックは、正規のＶＶＣサンプル項目を使用する。いくつかのサブピクチャトラックからマージされたビットストリームの適合性を示すレベル情報を提供するトラックグループ化が定義される。トラックグループ化は、復元された「宛先」ビットストリームのためのパラメータセット生成を容易にするように指導を与える。

一緒に復号されるべきグループ内のコード化サブピクチャは交換可能である、すなわち、プレーヤは、同じレベルの寄与を有するサンプル式サブピクチャのグループからいくつかのアクチブトラックを選択し、サンプルグループタイプ‘ａｃｇｌ’（アクティブコモングループレベル）は、組合せ規則、および一緒に復号されたときに得られた組合せのｌｅｖｅｌ＿ｉｄｃを示す。

一緒に復号されるように選択された、異なる特性、たとえば、異なる解像度を有するコード化サブピクチャが存在するとき、サンプルグループタイプ‘ａｍｇｌ’（アクティブマルチグループレベル）は、組合せ規則、および一緒に復号されたときに得られた組合せのｌｅｖｅｌ＿ｉｄｃを示す。

シンタックスは以下のように指定されてもよい。
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘ（ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅ）ｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅ，ｖｅｒｓｉｏｎ＝０，ｆｌａｇｓ＝０）
｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄ；
ｉｆｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅ＝＝‘ａｃｇｌ’ ｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｌｅｖｅｌ＿ｉｄｃ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓ；
｝
ｉｆｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅ＝＝‘ａｍｇｌ’ ｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｌｅｖｅｌ＿ｉｄｃ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｎｕｍ＿ｓｕｂｇｒｏｕｐ＿ｉｄｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｓｕｂｇｒｏｕｐｓ＿ｉｄｓ；ｉ＋＋）
｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｉｎｃｌｕｄｅｄ＿ｓｕｂｇｒｏｕｐ＿ｉｄ［ｉ］；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓ［ｉ］；
｝
｝
｝

セマンティクスは以下のように指定されてもよい。
ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅはグループ化タイプを示す。
ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅが‘ａｃｇｌ’に等しいとき、これは、このトラックが同じ値のｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを有するトラックのグループに属することを示す。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅが‘ａｍｇｌ’に等しいとき、これは、このトラックが同じ値のｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを有するトラックのグループおよびｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ｉｄの値を有するサブグループに属することを示す。
ｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓ
ｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓ個のトラックのサブセットが同じ値のｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを有するグループから選択されたとき、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを有するグループの再生は、ｌｅｖｅｌ＿ｉｄｃのレベルに対応する。
ｎｕｍ＿ｓｕｂｇｒｏｕｐ＿ｉｄｓ
個別のサブグループの数であり、各々は同じ値のｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ｉｄによって識別され、異なるサブグループは異なる値のｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ｉｄによって識別され、それに対して、一組のサブピクチャトラックが一緒に復号されたときにｌｅｖｅｌ＿ｉｄｃの値が示される。
ｉｎｃｌｕｄｅｄ＿ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ｉｄ［ｉ］
０からｎｕｍ＿ｓｕｂｇｒｏｕｐ＿ｉｄｓまでの範囲のｉに対して、ｉｎｃｌｕｄｅｄ＿ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ｉｄ［ｉ］に等しいｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ｉｄを有するトラックのそれぞれのサブグループから選択されたｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓ［ｉ］個のトラックから構成される、同じ値のｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを有するトラックのサブグループを再生するとき、グループの再生はｌｅｖｅｌ＿ｉｄｃのレベルに対応する。

ＶＶＣサブピクチャトラックの格納およびそれらのマージを可能にするために、抽出器トラックなどの手法は、以下の欠点または問題を有する。
－抽出器のような手法は、バイトカウントオーバーヘッドにおいてコストがかかる。抽出器は各サンプルに含まれるので、それらはバイトカウントオーバーヘッドの観点から比較的高いコストを被る。
－抽出器のような手法は、スライスヘッダの書き換えなどのＮＡＬユニットの任意の修正を可能にし、ＶＶＣサブピクチャのマージでは、ＶＣＬＮＡＬユニットの変化が必要とされないので、不必要に柔軟である。

ＨＥＶＣタイルベーストラックおよび参照ＨＥＶＣタイルトラックからビットストリームを復元するとき、スライスセグメントヘッダは、ＨＥＶＣタイルベーストラックを転換するとき書き換えられない。したがって、ＨＥＶＣタイルベーストラックは、ソースビットストリームを表すことのみができ、それらのサブセットを表すことができない。したがって、ＶＶＣサブピクチャトラックの格納およびそれらのマージを可能にするために、ＨＥＶＣファイルフォーマットのベーストラックおよびタイルトラックを使用する手法は、
－２つ以上のソースＶＶＣビットストリームのサブピクチャのサブセットをプレーヤに選択させるには柔軟でなく、
－サブピクチャレイアウトにおいて時間ともに変化する変更を有するには柔軟でない。

ＷＤ（ＭＰＥＧＮ１８８５６）におけるＶＶＣサブピクチャトラックグループ手法：
－ソースＶＶＣビットストリームを構文解析し、それらの一部（パラメータセット、ＰＨ）を復号するようにクライアントに要求する。構文解析および復号は、以下を含む比較的複雑な動作であり得る。
○ＲＢＳＰ（ローバイトシーケンスペイロード）を取得するためのＮＡＬユニットからの開始コードエミュレーション防止バイトの削除
○各スライスヘッダからピクチャヘッダへの暗黙参照、ならびに各スライスヘッダからＰＰＳ、ＳＰＳ、およびＶＰＳ（ビデオパラメータセット）への明示参照、ならびに異なるタイプのパラメータセット間の明示参照の記録参照されたシンタックス構造のシンタックス要素値に基づく構文解析および復号。
－宛先ＶＶＣビットストリームを「構成」し、その一部（パラメータセット、ＰＨ）を符号化するようにクライアントに要求する。「構成」および符号化は、以下を含む比較的複雑な動作であり得る。
○マージのために選択されたソースサブピクチャトラックに基づくパラメータセットおよびピクチャヘッダの書き換え
○各スライスヘッダからピクチャヘッダへの暗黙参照、ならびに各スライドヘッダからＰＰＳ、ＳＰＳ、およびＶＰＳへの明示参照、ならびに異なるタイプのパラメータセット間の明示参照の記録。参照されたシンタックス構造のシンタックス要素値に基づく符号化。
○作成されたＲＢＳＰからＮＡＬユニットを取得するための開始コードエミュレーション防止バイトの挿入
－サブピクチャトラックが他のサブピクチャトラックなしに再生される対象ではないときに冗長的にパラメータセットおよびピクチャヘッドを含むように各サブピクチャトラックに要求する。

本実施形態は、コンテナファイル内のＶＶＣサブピクチャの格納のための改善された解決策を提供する。コンテナファイルは、ＩＳＯＢＭＦＦ準拠ファイルであり得る。

ビットストリームの符号化では、２つ以上のサブピクチャトラックがコンテナファイルに書き込まれる。一実施形態によれば、書込みは、２つ以上のサブピクチャトラック（または同様）を含むコンテナファイル内のサンプルグループのインスタンスを生成するファイルライタまたは同様のエンティティによって実行される。加えて、ベーストラックがコンテナファイルに書き込まれ、前記ベーストラックはビデオビットストリームに転換される対象となる。ベーストラックでは、サブピクチャのレイアウトが示される。さらに、サンプルグループ記述項目がコンテナファイルに書き込まれる。サンプルグループ記述項目は、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示す。サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるベーストラックのサンプルもコンテナファイル内に示される。

ビットストリームの復号では、コンテナファイルのベーストラックからサブピクチャのレイアウトが構文解析される。加えて、サンプルグループ記述項目は、コンテナファイルから構文解析されたサブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示す。第２のサブピクチャトラックは、サンプルグループ記述項目がサブピクチャトラックのグループを示すときにサブピクチャトラックのグループから選択される。さらに、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるベーストラックのサンプルのセットがコンテナファイルから構文解析される。一実施形態によれば、ファイルリーダまたは同様のエンティティは、２つ以上のサブピクチャトラック（または同様）を含むコンテナファイルからサンプルグループのインスタンスを構文解析する。最後に、サンプルのセットに対応するビデオビットストリームのコード化ピクチャは、サブピクチャのレイアウトのサブピクチャ位置ごとに第１のサブピクチャトラックまたは第２のサブピクチャトラックの時間整列サンプルを含めることにより、コンテナファイルから復元される。

第１のサブピクチャトラックは、それぞれのサブピクチャ位置向けのサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックは、それぞれのサブピクチャ位置向けの有効なサブピクチャシーケンスを含む。ＶＶＣサブピクチャトラックは同じサブピクチャ識別子（ＩＤ）を有するサブピクチャのシーケンスを含むことが定義されてもよい。第１の代替では、ＶＶＣサブピクチャトラックは１つまたは複数の時間的に連結されたサブピクチャのシーケンスを含み、それらは異なるサブピクチャ識別子を有する場合があることが定義されてもよい。サブピクチャ識別子が変わるときに復号順序で最初のサブピクチャは、ＣＬＶＳＳピクチャのサブピクチャであってもよい。第２の代替では、ＶＶＣサブピクチャトラックは１つまたは複数のサブピクチャのシーケンスを含むことが定義されてもよい。２つ以上のサブピクチャのシーケンスが存在するとき、各シーケンスのサブピクチャは空間的に隣接し、単一のサブピクチャのように扱われてもよい。第１の代替および第２の代替を第３の代替に結合することも可能である。

本実施形態を記載するとき、「ベーストラック」および「ＶＶＣベーストラック」という用語は同じ意味で使用される。同様に、「サブピクチャトラック」および「ＶＶＣサブピクチャトラック」という用語は同じ意味で使用される。一実施形態がＶＶＣベーストラックおよび／またはＶＶＣサブピクチャトラックを参照して記載される場合でも、その実施形態はＶＶＣに限定されず、ＶＶＣサブピクチャトラックと均等または同等な概念を有する任意のビデオコーディング方式に適用される。

本解決策はまた、次の段落においてさらに指定される新しいタイプのサンプルグループを提供する。以後、新しいタイプのサンプルグループは、（「サブピクチャ順序」を表す）４文字コード‘ｓｐｏｒ’を有するが、任意の他の４文字コードが同様に使用される可能性があることが理解される必要がある。

‘ｓｐｏｒ’サンプルグループは、ＶＶＣベーストラック内で使用される対象となり、ＶＶＣベーストラックは、ファイルリーダまたは同様のエンティティがＶＶＣ宛先ビットストリームに転換する。記載されるように、ＶＶＣベーストラックはＶＶＣサブピクチャトラックを参照し、ＶＶＣサブピクチャトラックからＶＶＣ宛先ビットストリームを導出することができる。

‘ｓｐｏｒ’サンプルグループの各サンプルグループ記述項目は、復号順序でサブピクチャを示し、サブピクチャは、特定のタイプのトラック参照のインデックスで示される。以後、タイプ‘ｓｐｏｒ’のトラック参照が使用されるが、任意の他の４文字コードが同様に使用される可能性があることが理解される必要がある。

‘ｓｐｏｒ’サンプルグループ記述項目のシンタックスは、以下のように指定されてもよい。
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＶｖｃＳｕｂＰｉｃＯｒｄｅｒＥｎｔｒｙ（）ｅｘｔｅｎｄｓＶｉｓｕａｌＳａｍｐｌｅＧｒｏｕｐＥｎｔｒｙ（‘ｓｐｏｒ’）
｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍ＿ｓｕｂｐｉｃｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｓｕｂｐｉｃｓ；ｉ＋＋）
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｓｕｂｐ＿ｔｒａｃｋ＿ｒｅｆ＿ｉｄｘ；
｝

ｓｕｂｐ＿ｔｒａｃｋ＿ｒｅｆ＿ｉｄｘ値のループは、復号順序でタイプ‘ｓｐｏｒ’のトラック参照のインデックスを指定する。他の転換では、サンプルグループ記述項目内で与えられた順序のトラック参照は、有効なＶＶＣ宛先ビットストリームをもたらす。

別の実施形態では、‘ｓｐｏｒ’サンプルグループの各サンプルグループ記述項目は、復号順序でサブピクチャを示し、サブピクチャは、トラックの識別子（ｔｒａｃｋ＿ＩＤ）またはトラックグループの識別子（ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄ）で示される。

別の実施形態では、‘ｓｐｏｒ’サンプルグループの各サンプルグループ記述項目は、復号順序でサブピクチャを示し、サブピクチャは、特定のまたは示されたタイプのエンティティグループのインデックスおよび指示または推論された識別子（ｇｒｏｕｐ＿ｉｄ）で示される。エンティティグループ識別子は、たとえば、ＶＶＣベーストラックのｔｒａｃｋ＿ＩＤ値が最初に列挙されたｅｎｔｉｔｙ＿ｉｄとして現れるエンティティグループのｇｒｏｕｐ＿ｉｄであるように推論されてもよい。エンティティグループは、ＶＶＣサブピクチャトラックのｔｒａｃｋ＿ＩＤ値および／またはＶＶＣサブピクチャ画像アイテムのｉｔｅｍ＿ＩＤ値を（ｅｎｔｉｔｙ＿ｉｄ値として）含んでもよい。プレーヤまたは同様は、グループのエンティティのうちの１つを選択する（もしあれば、ＶＶＣベーストラックを示すエンティティを除外する）ことにより、参照をエンティティグループに対するインデックスに転換することができる。

別の実施形態では、‘ｓｐｏｒ’サンプルグループの各サンプルグループ記述項目は、復号順序でサブピクチャを示し、サブピクチャは、特定のタイプのトラック参照のインデックスで示される。トラック参照は、トラックの識別子（ｔｒａｃｋ＿ＩＤ）、特定のタイプのトラックグループの識別子（ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄ）、または特定のタイプのエンティティグループの識別子（ｇｒｏｕｐ＿ｉｄ）であってもよい。トラック参照がトラックグループの識別子であるとき、プレーヤまたは同様は、トラックグループ内のトラックのうちの１つを選択することによって参照を転換する。トラック参照がエンティティグループの識別子であるとき、プレーヤまたは同様は、エンティティグループ内のエンティティのうちの１つを選択することによって参照を転換し、エンティティは、たとえば、画像アイテムであってもよい。

‘ｓｐｏｒ’サンプルグループ記述項目からのサンプルと画像アイテムの両方に対する参照を可能にする実施形態は、たとえば、静止背景画像アイテムのサブピクチャおよび動的に変化する全景サブピクチャを組み合わせるために使用されてもよい。そのような組合せから恩恵を受けることができる多くの用途および使用事例が存在してもよい。たとえば、２Ｄビデオコンテンツを有するムービースクリーンまたはテレビジョンセットは、３６０°静止画像背景に組み込まれる場合があり、全方向ビューイングは、たとえば、ヘッドマウントディスプレイで起こる場合がある。別の例では、シネマグラフまたは同様は、シーンの一部のみが動的であり、残りのエリアが静的であるように構成される。

一実施形態では、サンプルグループ記述項目はさらに、以下のうちの１つまたは複数を含む。
－サブピクチャＩＤがＶＶＣベーストラックに含まれるＳＰＳＮＡＬユニット内で搬送されるかどうかの第１の指示
－サブピクチャＩＤがＶＶＣベーストラックに含まれるＰＰＳＮＡＬユニット内で搬送されるがどうかの第２の指示
－サブピクチャＩＤがＶＶＣベーストラックに含まれるピクチャヘッダ（ＰＨ）ＮＡＬユニット内で搬送されるかどうかの（以下のシンタックスでｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｆｌａｇと呼ばれる）第３の指示

一実施形態では、サブピクチャＩＤがＶＶＣベーストラックに含まれるＳＰＳＮＡＬユニット内で搬送されることを第１の指示が示す場合、サンプルグループ記述項目は、以下のうちの１つまたは複数を含む。
－このサンプルグループ記述項目にマッピングされたサンプルに適用されるＳＰＳＮＡＬユニット
－このサンプルグループ記述項目にマッピングされたサンプルに適用されるＳＰＳＲＢＳＰ
－ＶＶＣベーストラック内で提供されるＳＰＳ内のそれぞれの識別子の値（すなわち、ドラフトＶＶＣ規格におけるｓｐｓ＿ｓｅｑ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄ）を参照するＳＰＳ識別子の値、ＳＰＳはこのサンプルグループ記述項目にマッピングされたサンプルに適用される
－ＶＶＣベーストラックのサンプル項目内で提供されるＳＰＳＮＡＬユニットの中のインデックス、インデックスはこのサンプルグループ記述項目にマッピングされたサンプルに適用されるＳＰＳＮＡＬユニットを指し示す
－ＶＶＣベーストラックのサンプル項目内で提供される（任意のタイプの）ＮＡＬユニットの中のインデックス、インデックスはこのサンプルグループ記述項目にマッピングされたサンプルに適用されるＳＰＳＮＡＬユニットを指し示す
－ＳＰＳＲＢＳＰ内のサブピクチャ識別子（すなわち、ｓｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］）シンタックス要素の（ビット単位の）長さ
－参照されるかまたは含まれるＳＰＳＮＡＬユニットまたはＳＰＳＲＢＳＰ内の最初のサブピクチャ識別子シンタックス要素（すなわち、ｓｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［０］）のビット位置
－開始コードエミュレーション防止バイトがサブピクチャ識別子シンタックス要素（すなわち、ｓｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］）の前または中に存在するかどうかを示すフラグ。このフラグは、代替として、ＳＰＳＮＡＬユニット内のｉの任意の有効値を有するｓｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］のビット位置がＳＰＳＲＢＳＰ内のそれと異なるかどうかを示すために表現されてもよい。

一実施形態では、サブピクチャＩＤがＶＶＣベーストラックに含まれるＰＰＳＮＡＬユニット内で搬送されることを第２の指示が示す場合、サンプルグループ記述項目は、以下のうちの１つまたは複数を含む。
－このサンプルグループ記述項目にマッピングされたサンプルに適用されるＰＰＳＮＡＬユニット
－このサンプルグループ記述項目にマッピングされたサンプルに適用されるＰＰＳＲＢＳＰ
－ＶＶＣベーストラック内で提供されるＰＰＳ内のそれぞれの識別子の値（すなわち、ドラフトＶＶＣ規格におけるｐｐｓ＿ｐｉｃ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄ）を参照するＰＰＳ識別子の値、ＰＰＳはこのサンプルグループ記述項目にマッピングされたサンプルに適用される
－ＶＶＣベーストラックのサンプル項目内で提供されるＰＰＳＮＡＬユニットの中のインデックス、インデックスはこのサンプルグループ記述項目にマッピングされたサンプルに適用されるＰＰＳＮＡＬユニットを指し示す
－ＶＶＣベーストラックのサンプル項目内で提供される（任意のタイプの）ＮＡＬユニットの中のインデックス、インデックスはこのサンプルグループ記述項目にマッピングされたサンプルに適用されるＰＰＳＮＡＬユニットを指し示す
－ＰＰＳＲＢＳＰ内のサブピクチャ識別子（すなわち、ｐｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］）シンタックス要素の（ビット単位の）長さ
－参照されるかまたは含まれるＰＰＳＮＡＬユニットまたはＰＰＳＲＢＳＰ内の最初のサブピクチャ識別子シンタックス要素（すなわち、ｐｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［０］）のビット位置
－開始コードエミュレーション防止バイトがサブピクチャ識別子シンタックス要素（すなわち、ｐｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］）の前または中に存在するかどうかを示すフラグ。このフラグは、代替として、ＰＰＳＮＡＬユニット内のｉの任意の有効値を有するｐｐｓ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］のビット位置がＰＰＳＲＢＳＰ内のそれと異なるかどうかを示すために表現されてもよい。

一実施形態では、サブピクチャＩＤがＶＶＣベーストラックに含まれるピクチャヘッダ（ＰＨ）ＮＡＬユニット内で搬送されることを第３の指示が示す場合、サンプルグループ記述項目は、以下のうちの１つまたは複数を含む。
－（以下のシンタックスにおいてｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ１と呼ばれる）ＰＨＲＢＳＰ内のサブピクチャ識別子（すなわち、ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］）シンタックス要素の（ビット単位の）長さ
－（以下のシンタックスにおいてｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｂｉｔ＿ｐｏｓと呼ばれる）ＰＨＲＢＳＰ内の最初のサブピクチャ識別子シンタックス要素（すなわち、ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［０］）のビット位置
－開始コードエミュレーション防止バイトがサブピクチャ識別子シンタックス要素（すなわち、ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］）の前または中に存在するかどうかを示す（以下のシンタックスにおいてｐｈ＿ｓｔａｒｔ＿ｃｏｄｅ＿ｅｍｕｌ＿ｆｌａｇと呼ばれる）フラグ。このフラグは、代替として、ＰＨＮＡＬユニット内のｉの任意の有効値を有するｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］のビット位置がＰＨＲＢＳＰ内のそれと異なるかどうかを示すために表現されてもよい。

第３の指示に関係する例示的な実施形態では、‘ｓｐｏｒ’サンプルグループ記述項目のシンタックスは、以下のように指定されてもよい。
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＶｖｃＳｕｂＰｉｃＯｒｄｅｒＥｎｔｒｙ（）ｅｘｔｅｎｄｓＶｉｓｕａｌＳａｍｐｌｅＧｒｏｕｐＥｎｔｒｙ（’ｓｐｏｒ’）
｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍ＿ｓｕｂｐｉｃｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｓｕｂｐｉｃｓ；ｉ＋＋）
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｓｕｂｐ＿ｔｒａｃｋ＿ｒｅｆ＿ｉｄｘ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｆｌａｇ；
ｉｆ（ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｐｈ＿ｓｔａｒｔ＿ｃｏｄｅ＿ｅｍｕｌ＿ｆｌａｇ；
ｕｎｓｉｇｎｅｄｉｎｔ（４）ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ１；
ｕｎｓｉｇｎｅｄｉｎｔ（１０）ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ＿ｂｉｔ＿ｐｏｓ；
｝ｅｌｓｅ
ｂｉｔ（１５）ｒｅｓｅｒｖｅｄ＝０；
｝

第１の指示および／または第２の指示に関係するシンタックスは、上記のシンタックスと同様に実現されてもよい。シンタックスは、上記のシンタックスと同様の第１の指示、第２の指示、および第３の指示のうちの１つまたは複数に関係する態様をカバーすることができる。

以下では、ＶＶＣサブピクチャトラックおよびＶＶＣベーストラックが、より詳細に説明される。

ＶＶＣサブピクチャトラックのトラックグループ
一実施形態によれば、サブピクチャトラックのグループは、コンテナファイル内のトラックグループとしてファイルライタもしくは同様のエンティティによって示され、かつ／またはコンテナ内のトラックグループからファイルリーダもしくは同様のエンティティによって構文解析される。たとえば、サブピクチャトラックのグループは、ＶＶＣサブピクチャトラックを収集する‘ａｌｔｅ’トラックグループであってもよい。これらのＶＶＣサブピクチャトラックから、任意のトラックは、ＶＶＣベーストラックを転換するために交換可能に選択することができる。同じ‘ａｌｔｅ’トラックグループ内のトラックは、同じ幅、高さ、およびサブピクチャ境界特性を有する。

‘ａｌｔｅ’４文字コードを有するトラックグループが本実施形態によって参照されるが、実施形態は、概して、トラックグループ用の任意の４文字コードに適用される。

ＶＶＣサブピクチャトラック用のサンプル項目
ＶＶＣサブピクチャトラックが他のＶＶＣサブピクチャトラックなしに消費されるのに適している場合、正規のＶＶＣサンプル項目が使用されてもよい（すなわち、ＭＰＥＧＮ１８８５６による‘ｖｖｃ１’または‘ｖｖｉ１’）。

一実施形態によれば、特定のサンプル項目タイプ、本明細書では‘ｖｖｓ１’（しかし、実施形態は、概して、任意の４文字コードに適用される）がＶＶＣサブピクチャトラックに使用される。特定のサンプル項目タイプが使用されるとき、ＶＰＳ、ＤＰＳ、ＳＰＳ、ＰＰＳ、ＡＵＤ（アクセスユニットデリミタ）、ＰＨ、ＥＯＳ（シーケンス終了）、およびＥＯＢ（ビットストリーム終了）のＮＡＬユニットは、サンプル項目とサンプルの両方に存在しないことが指定されてもよい。

一実施形態によれば、ＶＶＣサブピクチャトラックのサンプル項目は、
－トラックのサンプル内に存在するすべてのスライス内でｓｌｉｃｅ＿ｓｕｂｐｉｃ＿ｉｄの値に等しいことが必要とされ得るサブピクチャＩＤ
－サブピクチャ位置ＩＤ
のうちの１つまたは複数を含む。ＶＶＣサブピクチャトラックが同じサブピクチャ位置ＩＤの値を有するとき、それらは同じ元のコンテンツを表し、同じ幅および高さを有する。

一実施形態によれば、２つ以上のサブピクチャを有するＶＶＣサブピクチャトラックのサンプル項目は、
－トラックのサンプル内に存在するそれぞれのサブピクチャのスライス内でｓｌｉｃｅ＿ｓｕｂｐｉｃ＿ｉｄの値に等しいことが必要とされ得るサブピクチャＩＤ
－サブピクチャ位置ＩＤ
のうちの１つまたは複数を含む。ＶＶＣサブピクチャトラックが同じサブピクチャ位置ＩＤの値を有するとき、それらは同じ元のコンテンツを表し、同じ幅および高さを有する。

たとえば、ＶＶＣサブピクチャトラックのサンプル項目は、本明細書ではサブピクチャ特性ブロック（ＳｕｂＰｉｃＰｒｏｐｅｒｔｉｅｓＢｏｘ）と呼ばれる特定のボックスを含んでもよく、それは上述されたシンタックス要素を搬送する。

ＶＶＣベーストラック
一実施形態によれば、ＶＶＣベーストラックは、正規のＶＶＣサンプル項目タイプ（すなわち、ＭＰＥＧＮ１８８５６による‘ｖｖｃ１’または‘ｖｖｉ１’）を有する。トラック内に‘ｓｕｂｐ’トラック参照を含めることにより、ファイルライタまたは同様のエンティティは、トラックが正規の自己完結型ＶＶＣトラックではなくＶＶＣベーストラックであることを示すことができる。別の実施形態では、特定のサンプル項目タイプ（たとえば、‘ｖｖｃｂ’）は、トラックがＶＶＣベーストラックであることを示すように指定されてもよい。

‘ｖｖｃｂ’４文字コードを有するサンプル項目タイプが実施形態によって参照されるが、実施形態は、概して、ＶＶＣベーストラックを示すために、サンプル項目タイプに任意の４文字コードを適用する。

一実施形態によれば、ＶＶＣベーストラックのサンプルは、ＶＣＬＮＡＬユニットを含まない。別の実施形態によれば、ＶＶＣベーストラックのサンプルは、ＶＣＬＮＡＬユニットを含むことが許容される。ファイルライタまたは同様のエンティティは、たとえば、宛先ビットストリーム内に常に存在するように意図されたＶＶＣベーストラック内のサブピクチャシーケンスのＶＣＬＮＡＬユニットを含んでもよい。

一実施形態によれば、転換されたＶＶＣベーストラック（すなわち、宛先ＶＶＣビットストリーム）に適用される（ＶＰＳ、ＤＰＳ、ＳＰＳ、および／またはＰＰＳのＮＡＬユニットなどの）パラメータセットのインスタンスは、たとえば、ファイルライタにより、ＶＶＣベーストラックのサンプル項目またはサンプルに含められる。

上述されたいくつかの実施形態により、‘ｓｐｏｒ’サンプルグループ記述項目からサンプルとサンプル項目の両方を参照することが可能になる。一実施形態によれば、ＶＶＣサブピクチャトラックの１つまたは複数のサンプルと１つまたは複数のＶＶＣサブピクチャアイテムの両方がＶＶＣベーストラックのサンプルを転換する際に使用されるように、サンプルグループ記述項目が転換されるとき、ＶＶＣベーストラックのサンプルから転換されたコード化ピクチャが混合ＮＡＬユニットタイプを含むことを示すために、ＮＡＬ１に等しいｍｉｘｅｄ＿ｎａｌｕ＿ｔｙｐｅｓ＿ｉｎ＿ｐｉｃ＿ｆｌａｇを有するＰＰＳなどのピクチャレベルシンタックスが使用される。一実施形態では、フィルタライタまたは同様は、サンプルと画像アイテムの両方を参照するサンプルグループ記述項目にマッピングされたＶＶＣベーストラックのすべてのサンプル内の混合ＮＡＬユニットタイプを示す、ＰＰＳなどのピクチャレベルシンタックスを含み、かつ／または参照する。一実施形態では、サブピクチャ画像アイテムのピクチャ順序カウントを示すシンタックス要素（たとえば、ドラフトＶＶＣ規格におけるｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ）は、選択されたＶＶＣサブピクチャトラック内のそれぞれのシンタックス要素の値と等しいように（ＶＶＣベーストラックのサンプルを転換する一部として）書き換えられる。

一実施形態によれば、もしあれば、転換されたＶＶＣベーストラック（すなわち、宛先ＶＶＣビットストリーム）に適用されるＥＯＢおよびＥＯＢＮＡＬユニットのインスタンスは、ＶＶＣベーストラックのサンプルに含まれる。それらは、同じサンプル内の任意の他のＮＡＬユニットに引き継がれないことが必要とされる場合がある。

本実施形態は、以下の例を用いてさらに説明される。

混合品質サブピクチャのマージ
図１は、ビューポート依存全方向ビデオストリーミングにＶＶＣサブピクチャトラックがどのように使用されるかの一例である。本明細書では、「全方向」という用語は、コンテンツをレンダリングするデバイスの視界よりも大きい空間的広がりを有することができるメディアコンテンツを指すことができる。全方向コンテンツは、たとえば、水平次元で実質的に３６０°および垂直次元で実質的に１８０°をカバーすることができるが、全方向は、水平方向に３６０度よりも小さいビューおよび／または垂直方向に１８０度よりも小さいビューをカバーするコンテンツを指すこともできる。

全方向画像は、正距円筒図法（ＥＲＰ）を使用して２次元画像平面にマッピングされた球体によって表すことができる。この場合、水平座標は経度に相当すると見なされてもよく、垂直座標は緯度に相当すると見なされてもよく、変換またはスケーリングは適用されない。ＥＲＰ画像は、複数のレンズおよびセンサを有するカメラアレイまたはカメラデバイスの魚眼画像などの一組の入力画像から形成されてもよく、それらは球面画像に縫い付けられる。球面画像はさらに、（上面および底面がない）円筒に投影される。円筒は広げられて、２次元投影フレームを形成する。実際には、提示されたステップのうちの１つまたは複数はマージされてもよく、たとえば、入力画像は、球体への中間投影なしに円筒に直接投影されてもよい。正距円筒図法用の投影構造は、単一の表面を備える円筒であると見なされてもよい。

一般に、全方向コンテンツは、多面体（すなわち、平坦な多角形の面、まっすぐな縁部、および鋭角なコーナーまたは頂点を含む３次元立体オブジェクト、たとえば立方体または錐体）、（正距円筒図法を用いて上述された円筒に球面画像を投影することによる）円筒、（最初に球体に投影することなく直接）円筒、コーンなどの、異なるタイプの立体幾何学的構造にマッピングされ、２次元画像面に剥がすことができる。

一方、ビューポートは、全方向画像または表示およびユーザによる視聴に適したビデオの領域として定義されてもよい。（単にビューポートと呼ばれる場合がある）現在ビューポートは、現在表示されており、したがってユーザによって視聴可能な球面ビデオの一部として定義されてもよい。任意の時点で、ヘッドマウントディスプレイ（ＨＭＤ）上のアプリケーションによってレンダリングされるビデオは、ビューポートと呼ばれる３６０度ビデオの一部分をレンダリングする。

ビューポート依存ビデオは、ビューポート内に存在する領域が（たとえば、高品質でビューポートを符号化することにより）全方向コンテンツの残りとは異なるように扱われるコンテンツを指す。そのようなコンテンツは、ビューポートの向きに基づいて受信デバイスに送信デバイスによって提供することができる。

領域的パッキング情報は、ビットストリーム内またはビットストリームに沿ったメタデータとして符号化されてもよい。たとえば、パッキング情報は、（たとえば、ＥＲＰなどの指示された投影フォーマットと一致する）事前定義または指示されたソースフォーマットと、パックフレームフォーマット（たとえば、トラックによって表された復号されたピクチャまたはサブピクチャ）との間に領域的マッピングを含んでもよい。領域的パッキング情報は、どの球面領域がトラックによってカバーされるかを指示するために、ＶＶＣサブピクチャトラック内に（たとえば、ファイルライタによって）含められてもよく、どの球面領域がトラックによってカバーされているかを判断するために、ＶＶＣサブピクチャトラックから（たとえば、プレーヤによって）構文解析されてもよい。

領域的パッキング情報は、トラックグループまたはエンティティグループからＶＶＣサブピクチャトラックを選択するための様々な実施形態において使用されてもよい。たとえば、ＶＶＣサブピクチャトラックによってカバーされる球面領域は、領域的パッキング情報から判断されてもよく、球面領域がビューポートと交差するとき、ＶＶＣサブピクチャトラックは、トラックグループまたはエンティティグループから選択されてもよい。

長方形領域的パッキングメタデータが次に記載される。領域ごとに、メタデータは、投影されたピクチャ内の長方形、復号ピクチャ内のそれぞれの長方形、ならびに９０度、１８０度、もしくは２７０度による回転および／または水平ミラーリングおよび／または垂直ミラーリングの任意選択の変形を定義する。長方形は、たとえば、左上隅および右下隅の位置によって示されてもよい。マッピングは再サンプリングを含んでもよい。それぞれの長方形のサイズは、投影および復号されたピクチャにおいて異なってもよいので、メカニズムは領域的再サンプリングを推論する。

符号化において、ビューポート依存全方向ビデオストリーミングにＶＶＣサブピクチャトラックが使用されるとき、正距円筒図法（ＥＲＰ）のピクチャ用のサブピクチャの形成において４×２のタイルグリッドを使用することができる。同じソースコンテンツに由来する２つのＶＶＣビットストリームは、異なるピクチャ品質およびビットレートで符号化される。

ＶＶＣサブピクチャトラックを作成するために、各サブピクチャシーケンスは、１つのＶＶＣサブピクチャトラックに含まれてもよい。同じコンテンツを表す、すなわち、ＥＲＰピクチャ内の同じ位置を有するＶＶＣサブピクチャトラックの各ペアは、同じ‘ａｌｔｅ’トラックグループのメンバであるように示される。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値ｇ１、…、ｇ８は一意に選択され、いかなるｔｒａｃｋ＿ＩＤの値とも等しくない。

ＶＶＣベーストラックは、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値ｇ１、…、ｇ８を列挙するタイプ‘ｓｕｂｐ’のトラック参照を含むように作成される。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値ｇ１、…、ｇ８のすべてが列挙されてもよい。ＶＶＣベーストラックはまた、‘ｓｕｂｐ’トラック参照へのインデックスのリスト、すなわち、値１、…、８を含み、トラックのすべてのサンプルに適用されるデフォルトであるように示されてもよい単一のサンプルグループ記述項目を有する‘ｓｐｏｒ’サンプルグループを含んでもよい。

プレーヤの動作では、プレーヤは、たとえば、同じ‘ａｌｔｅ’トラックグループの中の各サブピクチャトラックが、いくつかの条件（たとえば、視聴の向き、ネットワーク帯域幅）に基づいて受信される品質および／またはビットレートを選択することができる。この例では、プレーヤは、特定の品質のＶＶＣサブピクチャトラック１、２、５、および６、ならびに別の品質のＶＶＣサブピクチャトラック３、４、７、および８を受信する。ＶＶＣベーストラックは、単一のＶＶＣデコーダを用いて復号することができるＶＶＣビットストリームを復元するために使用される。

混合解像度サブピクチャのマージ
幅および／または高さにおける特定の解像度またはピクセルカウントを参照して、以下で別の例が説明される。解像度およびピクセルカウントは例として与えられ、例示的な実施形態は、解像度およびピクセルカウントの任意の選択に同様に適用される可能性があることが理解される必要がある。

１５３６×１５３６のサンプルの立方体面を有するキューブマップ解像度は、サンプリング密度に関して６１４４×３０７２のＥＲＰとほぼ均等であると見なされる可能性がある。提示された配置では、キューブマップから面サイズが１５３６×１５３６の高解像度タイルが抽出され、半球をカバーすると見なされる可能性がある。高解像度ビットストリームと比較して４分の１の解像度を有する残りのタイルがキューブマップから抽出されてもよい。この解像度は、クワッドＨＤ（２５６０×１４４０）表示パネルを有するヘッドマウントディスプレイの能力を満たすように現れる。提示された方式はまた、たとえば、ＨＭＤベースの視聴に対する頭部の動きによって引き起こされる視聴の向きの変化に対する妥当なマージンを提供するように現れる。配置は図２に示され、以下で説明される。

符号化において、コンテンツは、立方体面サイズが、それぞれ、１５３６×１５３６および７６８×７６８の２つの空間解像度で符号化されてもよい。両方のビットストリームでは、６×４のサブピクチャグリッドが使用されてもよい。

ＶＶＣサブピクチャトラックを作成するために、コード化サブピクチャシーケンスは、対応するＶＶＣサブピクチャトラックとして格納される。同じ幅および高さを有するサブピクチャトラックは、同じ‘ａｌｔｅ’トラックグループのメンバであるように示される。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値ｇ１およびｇ２は一意に選択され、いかなるｔｒａｃｋ＿ＩＤの値とも等しくない。

ＶＶＣベーストラックを作成するために、ＶＶＣベーストラックのＳＰＳは、図２に示されたサブピクチャレイアウトを指定する。ＶＶＣベーストラックは、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値ｇ１およびｇ２を列挙するタイプ‘ｓｕｂｐ’のトラック参照を含む。ＶＶＣベーストラックはまた、‘ｓｕｂｐ’トラック参照へのインデックスのリストを含み、トラックのすべてのサンプルに適用されるデフォルトのサンプルグループ記述項目であるように示された単一のサンプルグループ記述項目を有する‘ｓｐｏｒ’サンプルグループを含む。

プレーヤの動作では、プレーヤは、高解像度符号化からビューポートをカバーするサブピクチャを選択し、低解像度符号化から残りのサブピクチャを選択することができる。高解像度ビットストリームに由来する１２個のＶＶＣサブピクチャトラックが選択され、相補的な１２個のＶＶＣサブピクチャトラックが低解像度ビットストリームに由来する。

図２に提示されたサンプルグループ記述項目は、ＶＶＣベーストラックから復元される有効なビットストリームをもたらす１つの例にすぎないことが理解される必要がある。サンプルグループ記述項目は、同様に、ＶＶＣ規格が許容し、ＶＶＣベーストラックのそれぞれのサンプルに適用されるＳＰＳに記載された任意の順序でトラック参照インデックスを含む可能性がある。ドラフトＶＶＣ規格では、ピクチャのサブピクチャの復号順序およびビットストリーム順序は、任意の特定のサブピクチャの上および左の境界に隣接するサブピクチャが、復号順序およびビットストリーム順序でその特定のサブピクチャに先行しなければならないようでなければならないことが必要とされる。

ＶＶＣベーストラック用のピクチャヘッダの格納
一実施形態によれば、ピクチャヘッダ（ＰＨ）ＮＡＬユニットは、ＶＶＣベーストラックのサンプルに（たとえば、ファイルライタによって）含められ、かつ／またはＶＶＣベーストラックのサンプルから（たとえば、ファイルリーダによって）構文解析されてもよい。

一実施形態によれば、新しいタイプのサンプルグループは、次の段落において記載されるように、ＰＨＮＡＬユニットの搬送用に指定される。一実施形態では、ファイルライタまたは同様のエンティティは、コンテナファイル内のサンプルグループのインスタンスを生成する。一実施形態では、ファイルリーダまたは同様のエンティティは、コンテナファイルからのサンプルグループのインスタンスを構文解析する。

以後、新しいタイプのサンプルグループは、（「ピクチャヘッダ」を表す）４文字コード‘ｐｈｄｒ’を有するが、任意の他の４文字コードが同様に使用される可能性があることが諒解される。

異なる実施形態では、‘ｐｈｄｒ’サンプルグループ記述項目は、
－ＰＨＮＡＬユニット、およびＳＥＩＮＡＬユニットなどのゼロ以上の他のＮＡＬユニット
－ＰＨＮＡＬユニット
－ＮＡＬユニットヘッダがないＰＨＮＡＬユニット
－ＰＨＲＢＳＰ
のうちの１つを含む。

サンプルが‘ｐｈｄｒ’サンプルグループの任意のサンプルグループ記述項目にマッピングされない場合、サンプルはＰＨＮＡＬユニットを含むことが必要とされる場合がある。

ピクチャヘッダシンタックス要素がピクチャ順序カウント（ＰＯＣ）を導出するためのシンタックス要素を含むことが提案されている。コード化ビデオシーケンスのアクセスユニットは異なるＰＯＣを有するので、‘ｐｈｄｒ’サンプルグループを使用してＰＯＣ関連シンタックス要素に対する正しい値を有するピクチャヘッダを搬送することは、非現実的な数のサンプルグループ記述項目を生じるはずである。一実施形態では、‘ｐｈｄｒ’サンプルグループ記述項目は、以下のうちの１つまたは複数を含む。
－ピクチャヘッダ内のＰＯＣ関連シンタックス要素がこのサンプルグループ記述項目にマッピングされたサンプルにそのように適用されるか、または（ビットストリームを復元するときに）上書きされるべきかの指示。
－トラックの合成時間などのタイミング情報がＰＯＣ値にどのように関係するかを示す指示。たとえば、合成時間のスケーリングファクタは、合成時間をＰＯＣ値に変換するために示されてもよい。合成時間の差分は、ＰＯＣ関連シンタックス要素がそのように適用された前のサンプルの合成時間を現在サンプルの合成時間から減算することによって導出されてもよい。ＰＯＣの差分は、合成時間のスケーリングファクタを合成時間の差分に乗算することによって導出されてもよい。ＰＯＣ値は、ＰＯＣ関連シンタックス要素がそのように適用された前のサンプルの導出されたＰＯＣ値にＰＯＣの差分を加算することによって導出されてもよい。ＰＯＣ関連シンタックス要素の値は、ＰＯＣ値から導出されてもよい。
－ピクチャヘッダ内のＰＯＣＬＳＢ値などのＰＯＣ関連シンタックス要素の開始ビット位置。
－ＰＯＣ関連シンタックス要素の（ビット単位の）長さ。
－開始コードエミュレーション防止バイトがＰＯＣ関連シンタックス要素の前または中に存在するかどうかを示すフラグ。

‘ｐｈｄｒ’サンプルグループの使用は、ＶＶＣベーストラックに限定されなくてもよいが、‘ｐｈｄｒ’サンプルグループは、同様にまたは代替として、正規のＶＶＣトラックおよびＶＶＣサブピクチャトラックにおいて使用することができる。以下に記載される実施形態は、単独で使用することができ、‘ｓｐｏｒ’サンプルグループと一緒に使用されるように限定されない。

ＰＨＮＡＬユニットがいくつかのコード化ピクチャの中で同一である場合、ＰＨＮＡＬユニットの格納は、‘ｐｈｄｒ’サンプルグループの使用を介してバイトカウントに関して改善することができる。

宛先ＶＶＣビットストリームの復元
一実施形態によれば、ファイルリーダまたは同様のエンティティは、ＶＶＣベーストラックを転換することによってＶＶＣビットストリームを復元する。ＶＶＣベーストラックは、ＶＶＣベーストラックのサンプルの複合順序で転換されてもよい。ＶＶＣベーストラックのサンプルは、宛先ＶＶＣビットストリーム内のアクセスユニットに転換される。アクセスユニットは、ＶＶＣベーストラックのサンプル内で搬送されたＮＡＬユニット、および参照されたＶＶＣサブピクチャトラックの中から選択されたＶＶＣサブピクチャトラックのＶＣＬＮＡＬユニットを含むように転換されてもよく、参照は、ＶＶＣベーストラックのサンプルに適用された‘ｓｐｏｒ’サンプルグループ記述項目を介して示されてもよく、いくつかの実施形態では、他の実施形態に記載されたように、‘ｓｕｂｐ’トラック参照を介して示されてもよい。

一実施形態によれば、ファイルリーダまたは同様のエンティティは、ＳＰＳ、ＰＰＳ、またはピクチャヘッダ内のサブピクチャＩＤシンタックス要素を上書きすることにより、サブピクチャのレイアウトへのサブピクチャＩＤのマッピングを示す。

一実施形態では、ファイルリーダまたは同様のエンティティは、以下のステップのうちの１つまたは複数を使用して、サブピクチャＩＤシンタックス要素を上書きすることによってどのシンタックス要素が修正されるかを判断する。
－ファイルリーダまたは同様のエンティティは、たとえば、ＶＶＣベーストラックのサンプルにマッピングされた‘ｓｐｏｒ’サンプルグループ記述項目内の指示に基づいて、どのシンタックス構造がサブピクチャＩＤシンタックス要素を含むかを判断する。別の例では、サブピクチャＩＤは、それぞれ、ＳＰＳ、ＰＰＳ、またはＰＨのＮＡＬユニットを構文解析することにより、ＳＰＳ、ＰＰＳ、またはＰＨのＮＡＬユニット内で搬送されるように判断される。
－サンプルに適用された２つ以上のシンタックス構造がサブピクチャＩＤシンタックス要素を含むとき、ファイルリーダまたは同様のエンティティは、シンタックス構造を含む優先順位が、特定のサンプルに適用されたサブピクチャＩＤシンタックス要素を含むと判断することができる。たとえば、ＰＨ内のサブピクチャＩＤは、ＰＰＳおよびＳＰＳ内のサブピクチャＩＤを無効にすることができる。最も高い優先順位を有するシンタックス構造が修正されるために選択されてもよい。
－修正されるべきシンタックス構造は、シンタックス構造全体が復元されたビットストリーム内で繰り返されるようにすることができる。たとえば、同じＰＰＳ識別子の値を有するＰＰＳ内で以前使用されたサブピクチャＩＤの異なるセットでサブピクチャＩＤシンタックス要素を上書きすることによってＰＰＳが修正された場合、ファイルリーダまたは同様のエンティティは、サブピクチャＩＤのセットが適用された復元ビットストリームのコード化ピクチャにＰＰＳＮＡＬユニット全体のコピーを含める。
－ＰＨＮＡＬユニット内でサブピクチャＩＤシンタックス要素の上書きが行われる場合、上書きが行われるＰＨＮＡＬユニットは、もしあれば、サンプル内に存在するＰＨＮＡＬユニット、または（もしあれば）ＶＶＣベーストラック内のサンプルにマッピングされた‘ｐｈｄｒ’サンプルグループ化のＰＨＮＡＬユニットであるように選択される。

一実施形態では、ファイルリーダまたは同様のエンティティは、選択されたサブピクチャトラックのサブピクチャＩＤを含むために修正されるように選択されたシンタックス構造を無効にする。一実施形態では、このサンプルにマッピングされた‘ｓｐｏｒ’サンプルグループ記述項目による修正は、以下のように実行される。
○サンプルグループ記述項目内で示されたシンタックス構造内の最初のサブピクチャ識別子シンタックス要素のビット位置（たとえば、修正されるべきピクチャヘッダ内のｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［０］のビット位置）から開始し、サンプルグループ記述項目内で指定された順序の各々の選択されたＶＶＣサブピクチャトラックからのサブピクチャＩＤで、各サブピクチャ識別子シンタックス要素（たとえば、ピクチャヘッダ内のｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］の値）を上書きする。

アクセスユニットに含まれるＮＡＬユニットは、ＶＶＣ仕様における制約に準拠する順序で配置される。これらのＮＡＬユニットは、上述されたようにサブピクチャ識別子の値を上書きすることを被っている場合があることが述べられる。一実施形態では、ファイルリーダまたは同様のエンティティは、以下の黒丸の順序でＮＡＬユニットを配置する（ここで、「サンプル」はアクセスユニットに転換されているＶＶＣベーストラックのサンプルを指す）。
－サンプル内に存在する（かつ最初のＮＡＬユニットである）とき、もしあれば、ＡＵＤＮＡＬユニット
－サンプルが同じサンプル項目に関連付けられたサンプルのシーケンスの最初のサンプルであるとき、パラメータセットＮＡＬユニットおよびＳＥＩＮＡＬユニットは、もしあれば、同じ項目に含まれる。プレフィックスＡＰＳおよびプレフィックスＳＥＩＮＡＬユニットのみが同じサンプル項目内に存在できることが必要であり得ることに留意されたい。
－もしあれば、同じサンプル内に存在し、サンプル内の以下の最初に先行するＮＡＬユニット：
○もしあれば、サンプル内のＰＨＮＡＬユニット
○もしあれば、サンプル内の最初のＶＣＬＮＡＬユニット
○もしあれば、ＶＶＣ仕様によるＡＵの最後のＮＡＬユニットであることが許可される最初のＮＡＬユニット
○サンプルの最後
－もしあれば、サンプル内に存在するＰＨＮＡＬユニット、またはサンプルにマッピングされた‘ｐｈｄｒ’サンプルグループ化のＰＨＮＡＬユニット
－もしあれば、すべてのＶＰＳ、ＤＰＳ、ＳＰＳ、ＰＰＳ、ＡＵＤ、ＰＨ、ＥＯＳ、およびＥＯＢのＮＡＬユニットを除外する、このサンプルにマッピングされた‘ｓｐｏｒ’サンプルグループ記述項目内で指定された順序で各々の参照されたＶＶＣサブピクチャトラックからの（復号順序で）時間整列された転換サンプルのコンテンツ。トラック参照は以下に指定されたように転換される。
○参照ＶＶＣサブピクチャトラックがＡＰＳトラックと関連付けられた場合、転換されたサンプルは、ＡＰＳトラック内の時間整列されたサンプルの、もしあれば、ＡＰＳＮＡＬユニットを含むことが留意されるべきである。
－（すでに上記のアクセスユニットに含まれていない）サンプル内の残りのＮＡＬユニット。

‘ｓｐｏｒ’サンプルグループ記述項目のトラック参照シンタックスは、以下のように転換されてもよい。
－トラック参照がＶＶＣサブピクチャトラックのトラックＩＤを指し示す場合、トラック参照はＶＶＣサブピクチャトラックに転換される。
－そうでない（トラック参照が‘ａｌｔｅ’トラックグループを指し示す）場合、トラック参照は‘ａｌｔｅ’トラックグループのトラックのいずれかに転換される。特定のトラック参照インデックス値が前のサンプル内の特定のトラックに転換された場合、それは現在サンプル内で以下のいずれかに転換されるべきであることが必要とされる場合がある。
○同じ特定のトラック、または
○同期サンプルを含むか、または一実施形態では、現在サンプルと時間整列された３のＳＡＰサンプルタイプを含む、同じ‘ａｌｔｅ’トラックグループ内の任意の他のトラック。

別の実施形態によれば、ＶＶＣ符号化画像は、以下に記載されるように、高効率画像ファイルフォーマット（ＨＥＩＦ、ＩＳＯ／ＩＥＣ２３００８－１２）と同様であるが、必ずしも同じではない画像ファイルフォーマットに準拠するファイル内に（たとえば、ファイルライタによって）格納され得、かつ／またはファイルから（たとえば、ファイルリーダによって）構文解析され得る。ファイルライタは、ＶＶＣ符号化画像の各サブピクチャから個別のアイテムを形成することができる。ＶＶＣ符号化サブピクチャをコード化ピクチャにマージする、「ＶＶＣ導出画像アイテム」または「ＶＶＣベース画像アイテム」と呼ばれる場合がある導出画像アイテムを、ファイルライタは形成することができ、かつ／またはファイルリーダは構文解析することができる。コード化ピクチャ内のサブピクチャの復号順序またはビットストリーム順序を（ファイルライタによって）示すか、または（ファイルリーダによって）転換するために、規則正しいＶＶＣベース画像アイテムからサブピクチャアイテムへの画像参照を、ファイルライタは含み、かつ／またはファイルリーダは構文解析することができる。そのような参照は、タイプ‘ｓｐｉｒ’の新しいタイプのアイテム参照（‘ｉｒｅｆ’）を使用して行うことができる。タイプ‘ｓｐｉｒ’のアイテム参照は実施形態によって参照され、実施形態は、概して、任意の他の４文字コードにも適用される。

別の実施形態によれば、エンティティグループＩＤを指し示す‘ｓｐｉｒ’アイテム参照を転換するために、それらの中で任意の単一の画像アイテムを交換可能に使用することができるサブピクチャ画像アイテムを含むエンティティグループを、ファイルライタは作成することができ、かつ／またはファイルリーダは構文解析することができる。その結果、ＶＶＣ導出画像アイテムを転換するために、プレーヤはエンティティグループからサブピクチャ画像アイテムを選択する。プレーヤは、たとえば、ビューポートをカバーするサブピクチャ画像アイテムを選択し、ビューポートをカバーしないサブピクチャ画像アイテムの選択を省略することができる。

別の実施形態によれば、‘ｓｐｉｒ’アイテム参照を使用するのではなく、ＶＶＣサブピクチャアイテムおよびＶＶＣベースアイテムが導出ＶＶＣ画像アイテム（またはＶＶＣベースアイテム）、および必要な場合、エンティティグループ内のさらなる特性を含む他のＶＶＣサブピクチャアイテムを列挙するエンティティグループに含まれる。

図３は、一実施形態による方法を示すフローチャートである。方法は、コンテナファイル内で、２つ以上のサブピクチャトラックを書き込むこと３１０と、コンテナファイル内で、ビデオビットストリームに転換される対象となるベーストラックを書き込むこと３２０と、ベーストラック内で、サブピクチャのレイアウトを指示すること３３０と、コンテナファイル内で、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を書き込むこと３４０であって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、書き込むこと３４０と、コンテナファイル内で、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるベーストラックのサンプルを指示すること３５０とを含む。

一実施形態による装置は、コンテナファイル内で、２つ以上のサブピクチャトラックを書き込むための手段と、コンテナファイル内で、ビデオビットストリームに転換される対象となるベーストラックを書き込むための手段と、ベーストラック内で、サブピクチャのレイアウトを指示するための手段と、コンテナファイル内で、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を書き込むための手段であって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、手段と、コンテナファイル内で、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるベーストラックのサンプルを指示するための手段とを備える。手段は、少なくとも１つのプロセッサと、コンピュータプログラムコードを含むメモリとを備え、プロセッサはプロセッサ回路をさらに備えてもよい。メモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサを用いて、様々な実施形態による方法を装置に実行させるように構成される。

図４は、別の実施形態による方法を示すフローチャートである。方法は、コンテナファイルのベーストラックから、サブピクチャのレイアウトを構文解析すること４１０と、コンテナファイルから、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を構文解析すること４２０であって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、構文解析すること４２０と、サンプルグループ記述項目がサブピクチャトラックのグループを示すときに、サブピクチャトラックのグループから第２のサブピクチャトラックを選択すること４３０と、コンテナファイルから、ベーストラックのどのセットのサンプルが、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるかを構文解析すること４４０と、コンテナファイルから、サブピクチャのレイアウトのサブピクチャ位置ごとに第１のサブピクチャトラックまたは第２のサブピクチャトラックの時間整列サンプルを含めることにより、サンプルのセットに対応するビデオビットストリームのコード化ピクチャを復元すること４５０とを含む。

一実施形態による装置は、コンテナファイルのベーストラックから、サブピクチャのレイアウトを構文解析するための手段と、コンテナファイルから、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を構文解析するための手段であって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、手段と、サンプルグループ記述項目がサブピクチャトラックのグループを示すときに、サブピクチャトラックのグループから第２のサブピクチャトラックを選択するための手段と、コンテナファイルから、ベーストラックのどのセットのサンプルが、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるかを構文解析するための手段と、コンテナファイルから、サブピクチャのレイアウトのサブピクチャ位置ごとに第１のサブピクチャトラックまたは第２のサブピクチャトラックの時間整列サンプルを含めることにより、サンプルのセットに対応するビデオビットストリームのコード化ピクチャを復元するための手段とを備える。手段は、少なくとも１つのプロセッサと、コンピュータプログラムコードを含むメモリとを備え、プロセッサはプロセッサ回路をさらに備えてもよい。メモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサを用いて、様々な実施形態による方法を装置に実行させるように構成される。

装置のためのデータ処理システムの一例が図５に示されている。いくつかの機能は、単一の物理デバイスを用いて遂行することができ、たとえば、すべての計算手順は、必要な場合単一のプロセッサにおいて実行することができる。データ処理システムは、メイン処理ユニット１００、メモリ１０２、ストレージデバイス１０４、入力デバイス１０６、出力デバイス１０８、およびグラフィックスシステム１１０を備え、それらはすべてデータバス１１２を介して互いに接続される。

メイン処理ユニット１００は、データ処理システム内でデータを処理するように配置された従来の処理ユニットである。メイン処理ユニット１００は、１つまたは複数のプロセッサまたはプロセッサ回路を備えるか、またはそのように実装されてもよい。メモリ１０２、ストレージデバイス１０４、入力デバイス１０６、および出力デバイス１０８は、当業者によって認識された従来の構成要素を含んでもよい。メモリ１０２およびストレージデバイス１０４は、データ処理システム１００の中のデータを記憶する。

コンピュータプログラムコードは、たとえば、様々な実施形態による図３または図４のフローチャートに示された方法を実施するために、メモリ１０２内に存在する。入力デバイス１０６はシステムにデータを入力し、出力デバイス１０８はデータ処理システムからデータを受信し、たとえば、ディスプレイにデータを転送する。データバス１１２は従来のデータバスであり、単一の線として示されているが、それは、以下のプロセッサバス、ＰＣＩバス、グラフィカルバス、ＩＳＡバスの任意の組合せであってもよい。したがって、当業者は、装置が、コンピュータデバイス、パーソナルコンピュータ、サーバコンピュータ、携帯電話、スマートフォン、またはインターネットアクセスデバイス、たとえば、インターネットタブレットコンピュータなどの、任意のデータ処理デバイスであってもよいことを容易に認識する。

図６はビデオエンコーダの一例を示し、ここで、Ｉ_n：符号化される画像、Ｐ’_n：画像ブロックの予測表現、Ｄ_n：予測誤差信号、Ｄ’_n：復元された予測誤差信号、Ｉ’_n：一次復元画像、Ｒ’_n：最終復元画像、Ｔ、Ｔ^-1：変換および逆変換、Ｑ、Ｑ^-1：量子化および逆量子化、Ｅ：エントロピー符号化、ＲＦＭ：参照フレームメモリ、Ｐ_inter：インター予測、Ｐ_intra：イントラ予測、ＭＳ：モード選択、Ｆ：フィルタリング。図７はビデオデコーダのブロック図を示し、ここで、Ｐ’_n：画像ブロックの予測表現、Ｄ’_n：復元された予測誤差信号、Ｉ’_n：一次復元画像、Ｒ’_n：最終復元画像、Ｔ^-1：逆変換、Ｑ^-1：逆量子化、Ｅ^-1：エントロピー復号、ＲＦＭ：参照フレームメモリ、Ｐ：予測（インターまたはイントラのいずれか）、Ｆ：フィルタリング。一実施形態による装置は、エンコーダもしくはデコーダのみ、または両方を備えてもよい。

様々な実施形態は利点を提供することができる。たとえば、（ＨＥＶＣタイルベーストラックおよびＨＥＶＣタイルトラックにおけるように）サンプルグループ化なしにトラック参照を使用することと比較して、
○サンプルグループの使用は、時変サブピクチャレイアウトの可能性を提供する。
○サンプルグループの使用は、さらなるパラメータ（たとえば、ＰＨＲＢＳＰ内のサブピクチャ識別子の長さおよび／または最初のサブピクチャ識別子のビット位置）の割当ての可能性を提供する。さらなるパラメータは時変であり得る。

加えて、サンプルグループは、バイトカウントオーバーヘッドに対して安価である。たとえば、ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［０］のビット位置はすべてのＰＨＮＡＬユニット内で変化しないままである可能性が高いことが想定される。その結果、コード化ビデオシーケンスのすべてのピクチャは、同じサンプルグループ記述項目にマッピングすることができる。ビットストリーム全体で同じＳＰＳが使用された場合、デフォルトのサンプルグループ記述項目の使用は、ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎＢｏｘ内で示され、ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘｅｓは不在であり得る。またさらに、サブピクチャトラックのトラックグループが‘ｓｕｂｐ’トラック参照によっって参照されるとき、リーダは、トラックグループがどのように形成されたかに応じて、ソースビットストリームのサブピクチャのサブセット、または２つ以上のソースビットストリームからのサブピクチャの選択、またはそれらの組合せを選択する自由を有する。加えて、選択されたサブピクチャトラックからＶＶＣビットストリームを復元することは、‘ｓｐｏｒ’サンプルグループ内で指示されたようにピクチャヘッダ内のサブピクチャ識別子（たとえば、ｐｈ＿ｓｕｂｐｉｃ＿ｉｄ［ｉ］）シンタックス要素を上書きすることのみを必要とする場合がある。

様々な実施形態は、メモリ内に存在し、関連装置に方法を遂行させるコンピュータプログラムコードの助けを借りて実装することができる。たとえば、デバイスは、データ、メモリ内のコンピュータプログラムコード、および、コンピュータプログラムコードを実行するときに一実施形態の特徴をデバイスに遂行させるプロセッサを、処理、受信、および送信するための回路および電子機器を備えてもよい。またさらに、ネットワークデバイスは、データ、メモリ内のコンピュータプログラムコード、および、コンピュータプログラムコードを実行するときに一実施形態の特徴をネットワークデバイスに遂行させるプロセッサを、処理、受信、および送信するための回路および電子機器を備えてもよい。コンピュータプログラムコードは、１つまたは複数の動作特性を備える。前記動作特性は、前記プロセッサのタイプに基づく前記コンピュータによる構成を介して定義され、システムはバスによって前記プロセッサに接続可能であり、システムのプログラム可能動作特性は、コンテナファイル内で、２つ以上のサブピクチャトラックを書き込むことと、コンテナファイル内で、ビデオビットストリームに転換される対象となるベーストラックを書き込むことと、ベーストラック内で、サブピクチャのレイアウトを指示することと、コンテナファイル内で、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を書き込むことであって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、書き込むことと、コンテナファイル内で、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるベーストラックのサンプルを指示することとを含む。別の実施形態によれば、システムのプログラム可能動作特性は、コンテナファイルのベーストラックから、サブピクチャのレイアウトを構文解析することと、コンテナファイルから、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を構文解析することであって、第１のサブピクチャトラックがそれぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックのグループの中の任意のトラックがそれぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、構文解析することと、サンプルグループ記述項目がサブピクチャトラックのグループを示すときに、サブピクチャトラックのグループから第２のサブピクチャトラックを選択することと、コンテナファイルから、ベーストラックのどのセットのサンプルが、サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるかを構文解析することと、コンテナファイルから、サブピクチャのレイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたは第２のサブピクチャトラックの時間整列サンプルを含めることにより、サンプルのセットに対応するビデオビットストリームのコード化ピクチャを復元することとを含む。

一実施形態によるコンピュータプログラム製品は、非一時的コンピュータ可読媒体上に具現化することができる。別の実施形態によれば、コンピュータプログラム製品は、データパケット内でネットワークを介してダウンロードすることができる。

いくつかの実施形態は、シンタックス構造の特定のシンタックスに関して記載されている。実施形態は、記載されたシンタックス構造を生成するエンティティ、および記載されたシンタックス構造を読み取り、構文解析し、かつ／または復号するエンティティに適用される。

必要な場合、本明細書で説明された異なる機能は、異なる順序で、かつ／または他と同時に実行されてもよい。その上、必要な場合、上述された機能および実施形態のうちの１つまたは複数は、任意選択であってもよく、組み合わされてもよい。

実施形態の様々な態様は独立請求項において提示され、他の態様は、記載された実施形態からの特徴および／または独立請求項の特徴を有する従属請求項の他の組合せを含み、特許請求の範囲に明確に提示された組合せのみではない。

本明細書では、上記は例示的な実施形態を記載するが、これらの記載は限定する意味で見られるべきではないことにも留意されたい。むしろ、添付特許請求の範囲において定義されるような本開示の範囲から逸脱することなく作成されてもよい、いくつかの変形形態および修正形態が存在する。

Claims

コンテナファイル内で、２つ以上のサブピクチャトラックを書き込むステップと、
前記コンテナファイル内で、ビデオビットストリームに転換される対象となるベーストラックを書き込むステップと、
前記ベーストラック内で、サブピクチャのレイアウトを指示するステップと、
前記コンテナファイル内で、サブピクチャの前記レイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を書き込むステップであって、前記第１のサブピクチャトラックが前記それぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックの前記グループの中の任意のトラックが前記それぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、ステップと、
前記コンテナファイル内で、前記サンプルグループ記述項目が前記ビデオビットストリームを復元するために使用される対象となる前記ベーストラックのサンプルを指示するステップと
を含む、方法。
コンテナファイルのベーストラックから、サブピクチャのレイアウトを構文解析するステップと、
前記コンテナファイルから、サブピクチャの前記レイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を構文解析するステップであって、前記第１のサブピクチャトラックが前記それぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックの前記グループの中の任意のトラックが前記それぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、ステップと、
前記サンプルグループ記述項目がサブピクチャトラックのグループを示すときに、サブピクチャトラックの前記グループから第２のサブピクチャトラックを選択するステップと、
前記コンテナファイルから、前記ベーストラックのどのセットのサンプルが、前記サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるかを構文解析するステップと、
前記コンテナファイルの前記ベーストラックの前記サンプルから、サブピクチャの前記レイアウトのサブピクチャ位置ごとに前記第１のサブピクチャトラックまたは前記第２のサブピクチャトラックの時間整列サンプルを含めることにより、サンプルの前記セットに対応する前記ビデオビットストリームのコード化ピクチャを復元するステップと
を含む、方法。
コンテナファイル内で、２つ以上のサブピクチャトラックを書き込むための手段と、
前記コンテナファイル内で、ビデオビットストリームに転換される対象となるベーストラックを書き込むための手段と、
前記ベーストラック内で、サブピクチャのレイアウトを指示するための手段と、
前記コンテナファイル内で、サブピクチャの前記レイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を書き込むための手段であって、前記第１のサブピクチャトラックが前記それぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックの前記グループの中の任意のトラックが前記それぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、手段と、
前記コンテナファイル内で、前記サンプルグループ記述項目が前記ビデオビットストリームを復元するために使用される対象となる前記ベーストラックのサンプルを指示するための手段と
を備える、装置。
前記コンテナファイル内で、前記ベーストラックから各々がサブピクチャトラックまたはサブピクチャトラックのトラックグループを識別する項目のリストへのトラック参照を書き込むための手段であって、前記サンプルグループ記述項目が、サブピクチャの前記レイアウト内のサブピクチャ位置ごとに、サブピクチャ位置ごとの項目の前記リストのインデックスを含み、前記インデックスが前記第１のサブピクチャトラックまたはサブピクチャトラックの前記グループを示す、手段
をさらに備える、請求項３に記載の装置。
前記サンプルグループ記述項目が、サブピクチャ識別情報が前記ベーストラックに含まれるパラメータセットまたはピクチャヘッダ内で搬送されるかどうかの指示を含む、請求項３または４に記載の装置。
前記サンプルグループ記述項目が、
サブピクチャ識別子シンタックス要素の長さ、
第１のサブピクチャ識別子シンタックス要素のビット位置、
開始コードエミュレーション防止バイトが前記サブピクチャ識別子シンタックス要素の前または中に存在するかどうかのフラグ指示
のうちの１つまたは複数を含む、請求項５に記載の装置。
サブピクチャトラックのサンプル項目が、
サブピクチャ識別子、
サブピクチャ位置識別子
のうちの１つまたは複数を含む、請求項３～６のいずれか１項に記載の装置。
前記コンテナファイル内で、ピクチャヘッダＮＡＬユニット用のサンプルグループを書き込むための手段をさらに備える、請求項３～７のいずれか１項に記載の装置。
コンテナファイルのベーストラックから、サブピクチャのレイアウトを構文解析するための手段と、
前記コンテナファイルから、サブピクチャの前記レイアウト内のサブピクチャ位置ごとに第１のサブピクチャトラックまたはサブピクチャトラックのグループを示すサンプルグループ記述項目を構文解析するための手段であって、前記第１のサブピクチャトラックが前記それぞれのサブピクチャ位置用のサブピクチャシーケンスを含み、サブピクチャトラックの前記グループの中の任意のトラックが前記それぞれのサブピクチャ位置用の有効なサブピクチャシーケンスを含む、手段と、
前記サンプルグループ記述項目がサブピクチャトラックのグループを示すときに、サブピクチャトラックの前記グループから第２のサブピクチャトラックを選択するための手段と、
前記コンテナファイルから、前記ベーストラックのどのセットのサンプルが、前記サンプルグループ記述項目がビデオビットストリームを復元するために使用される対象となるかを構文解析するための手段と、
前記コンテナファイルの前記ベーストラックの前記サンプルから、サブピクチャの前記レイアウト内のサブピクチャ位置ごとに前記第１のサブピクチャトラックまたは前記第２のサブピクチャトラックの時間整列サンプルを含めることにより、サンプルの前記セットに対応する前記ビデオビットストリームのコード化ピクチャを復元するための手段と
を備える、装置。
前記コンテナファイルから、前記ベーストラックから各々がサブピクチャトラックまたはサブピクチャトラックのトラックグループを識別する項目のリストへのトラック参照を読み取るための手段
をさらに備え、
前記サンプルグループ記述項目が、サブピクチャの前記レイアウト内のサブピクチャ位置ごとに、サブピクチャ位置ごとの項目の前記リストのインデックスを含み、前記インデックスが前記第１のサブピクチャトラックまたはサブピクチャトラックの前記グループを示す、
請求項９に記載の装置。
前記サンプルグループ記述項目が、サブピクチャ識別情報が前記ベーストラックに含まれるパラメータセットまたはピクチャヘッダ内で搬送されるかどうかの指示を含む、請求項９または１０に記載の装置。
前記サンプルグループ記述項目が、
サブピクチャ識別子シンタックス要素の長さ、
第１のサブピクチャ識別子シンタックス要素のビット位置、
開始コードエミュレーション防止バイトが前記サブピクチャ識別子シンタックス要素の前または中に存在するかどうかのフラグ指示
のうちの１つまたは複数を含む、請求項１１に記載の装置。
サブピクチャトラックのサンプル項目が、
サブピクチャ識別子、
サブピクチャ位置識別子
のうちの１つまたは複数を含み、
前記装置は、
前記コンテナファイルから、ピクチャヘッダＮＡＬユニット用のサンプルグループを読み取るための手段、及び
サブピクチャの前記レイアウトへのサブピクチャ識別子のマッピングを指示するための手段、をさらに備える、請求項１２に記載の装置。
指示するための前記手段が、
ａ）サブピクチャ識別子がパラメータセットおよび／またはピクチャヘッダ内で搬送されるかどうかを判断すること、
ｂ）２つ以上のパラメータセットまたはピクチャヘッダがサブピクチャ識別子を含む場合、パラメータセットとピクチャヘッダとの間の優先順位を判断し、最も高い優先順位を有する前記パラメータセットまたは前記ピクチャヘッダを選択すること、
ｃ）上書き用にピクチャヘッダが選択された場合、サンプル内に存在する前記ピクチャヘッダまたは前記ベーストラック内のサンプルにマッピングされたサンプルグループ化のピクチャヘッダになるように上書きするための前記ピクチャヘッダを選択すること、
ｄ）選択されたサブピクチャトラックの前記サブピクチャ識別子を含むように前記選択されたパラメータセットまたはピクチャヘッダを修正すること
のオプションのうちの１つまたは複数を使用することにより、パラメータセットまたはピクチャヘッダ内の前記サブピクチャ識別子を上書きするように構成される、請求項１３に記載の装置。
オプションｄ）のために、前記装置が、
前記第１のサブピクチャ識別子シンタックス要素の前記ビット位置から開始し、前記サンプルグループ記述項目内で指定された順序で各々の選択されたサブピクチャトラックからのサブピクチャ識別子で各サブピクチャ識別子要素の値を上書きする
ように、前記修正を実行するための手段を備える、請求項１４に記載の装置。