JP2017536026A

JP2017536026A - 画像シーケンスのコーディングおよびデコーディングのための装置、方法およびコンピュータ・プログラム

Info

Publication number: JP2017536026A
Application number: JP2017519822A
Authority: JP
Inventors: クマールマラマールバダキタールビノッド; ミスカ　ハンヌクセラ; ハンヌクセラミスカ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2014-10-14
Filing date: 2015-10-08
Publication date: 2017-11-30
Anticipated expiration: 2035-10-08
Also published as: US10575010B2; GB201418114D0; EP3207711A1; ZA201703143B; US20170302949A1; EP3207711B1; JP6417039B2; PH12017500702A1; GB2531271A; CN107005715B; CN107005715A; WO2016059290A1; EP3207711A4

Abstract

ビットストリーム内でエンコーデッド・ピクチャ・シーケンスの参照ピクチャをシグナリングする方法であって、ピクチャ・シーケンスのピクチャを参照ピクチャおよび非参照ピクチャに分類するステップと；各参照ピクチャに一意ピクチャ識別子を提供するステップと；少なくともピクチャ・シーケンスのインター・コーデッド・ピクチャについて、ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の全ての一意的組合せを決定するステップであって、特定のピクチャについての少なくとも１つの参照ピクチャ識別子は、前記特定のピクチャを予測するための参照として使用できる全てのピクチャを識別するステップと；イントラ・コーデッド参照ピクチャには少なくとも該ピクチャの一意ピクチャ識別子を割当て、インター・コーデッド参照ピクチャには、該ピクチャのピクチャ識別子と少なくとも１つの参照ピクチャ識別子の対応する一意的組合せを割当てるステップと、を含む方法。

Description

本発明は、画像シーケンスのコーディングおよびデコーディングのための装置、方法およびコンピュータ・プログラムに関する。

ビデオ・コーデックは、入力されたビデオ画像を記憶／伝送に好適な圧縮表現に変換するエンコーダ、および圧縮ビデオ表現を可視形態に戻す復元を行うことのできるデコーダで構成されている。画像シーケンスは、空間予測手段でコーディングされたスチル・ピクチャまたは空間および時間予測手段でコーディングされたインター・ピクチャのシーケンスのいずれかとして圧縮され得る。個別のピクチャを編集するためのランダム・アクセスおよびサポートを伴う画像シーケンスが、従来、独立してコーディングされた一連のイントラ・ピクチャとしてシーケンスを表現することによって可能になってきた。このようなフォーマットには、例えば、モーションＪＰＥＧ、アニメ−テッドＧＩＦおよびＨ．２６４のイントラ・プロファイルが含まれる。

画像シーケンスが一連のスチル・ピクチャとして表現される場合、コーディング効率は、典型的には低く高分解能のシーケンスのためのファイル・サイズ要件は、非常に重いものとなり得る。予測されたピクチャにアクセスするためには、デコーダは、どの参照ピクチャのデコーディングが最初に求められるかの結論を出す必要がある。先行するＩＤＲピクチャなどから出発して全てのピクチャをデコーディングするのではなくむしろ、参照として使用されるピクチャをデコーディングするだけであれば、遅延を著しく削減することができる。しかしながら、既知の方法では、参照ピクチャのどのサブセットのデコーディングが求められているかを結論付けすることが容易に可能ではないため、任意のサンプルに対するランダム・アクセスには先行するＩＤＲピクチャなどから出発して全ての参照ピクチャのデコーディングが求められる可能性がある。

したがって、所望されるランダム・アクセスされたピクチャを正しくデコーディングする目的で、デコーディングが求められているピクチャを識別するための改良された方法に対するニーズが存在する。

第１の実施形態に係る方法は、ビットストリーム内でエンコーデッド・ピクチャ・シーケンスの参照ピクチャをシグナリングする方法であって、
ピクチャ・シーケンスのピクチャを参照ピクチャおよび非参照ピクチャに分類するステップと、
各参照ピクチャに一意ピクチャ識別子を提供するステップと、
少なくともピクチャ・シーケンスのインター・コーデッド・ピクチャについて、ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の全ての一意的組合せを決定するステップであって、特定のピクチャのための少なくとも１つの参照ピクチャ識別子は、前記特定のピクチャを予測するための参照として使用できる全てのピクチャを識別する、ステップと、
イントラ・コーデッド参照ピクチャには少なくとも該ピクチャの一意ピクチャ識別子を割当て、インター・コーデッド参照ピクチャには、該ピクチャのピクチャ識別子と少なくとも１つの参照ピクチャ識別子の対応する一意的組合せを割当てるステップと、
を含む方法を含む。

一実施形態によると、該方法は、
イントラ・コーデッド参照ピクチャについて、該ピクチャの一意ピクチャ識別子と同じ値を有する参照ピクチャ識別子を割当てるステップ、
をさらに含む。

一実施形態によると、該方法は、
各非参照ピクチャに共通ピクチャ識別子を提供するステップ、
をさらに含む。

一実施形態によると、各参照ピクチャについての一意ピクチャ識別子は正の非ゼロ整数であり、非参照ピクチャについての共通ピクチャ識別子はゼロである。

一実施形態によると、該方法は、
ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の各一意的組合せについて指標を割当てるステップと、
ピクチャ・シーケンスのピクチャを、該ピクチャのピクチャ識別子と少なくとも１つの参照ピクチャ識別子の一意的組合せに対応する指標にマッピングするステップと、
をさらに含む。

一実施形態によると、該方法はさらに、
同様にビットストリームを含むまたは該ビットストリームに参照するコンテナ・ファイル内で前記マッピングを表示するステップ、
をさらに含む。

一実施形態によると、コンテナ・ファイルは、ＩＳＯベース・メディア・ファイル・フォーマット（ＩＳＯＢＭＦＦ）に適合し、コンテナ・ファイルは、論理的にサンプルを含むトラックを含み、トラックのサンプルはピクチャを含み、該方法は、
ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の一意的組合せをコンテナ・ファイル内に、サンプル・グループ記述エントリとして含むステップであって、サンプル・グループ記述子エントリにはそれぞれの指標が割当てられているステップと、
コンテナ・ファイル内に、ピクチャがサンプル・グループ記述エントリのそれぞれの指標にマッピングされていることのサンプル・トゥー・グループ・データ構造内部の標示を含むステップと、
を含む。

第２の実施形態は、少なくとも１つのプロセッサと少なくとも１つのメモリを備えた装置であって、前記少なくとも１つのメモリ上にはコードが記憶され、このコードは、前記少なくとも１つのプロセッサにより実行されたとき、装置に少なくとも、
ピクチャ・シーケンスのピクチャを参照ピクチャおよび非参照ピクチャに分類するステップと、
各参照ピクチャに一意ピクチャ識別子を提供するステップと、
少なくともピクチャ・シーケンスのインター・コーデッド・ピクチャについて、ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の全ての一意的組合せを決定するステップであって、特定のピクチャについての少なくとも１つの参照ピクチャ識別子は、前記特定のピクチャを予測するための参照として使用できる全てのピクチャを識別する、ステップと、
イントラ・コーデッド参照ピクチャには該ピクチャの一意ピクチャ識別子を割当て、インター・コーデッド参照ピクチャには、該ピクチャのピクチャ識別子と少なくとも１つの参照ピクチャ識別子の対応する一意的組合せを割当てるステップと、
を行わせる、装置に関する。

第３の実施形態は、ピクチャ・シーケンスのピクチャをデコーディングするために必要とされる参照ピクチャについての標示を含むシグナリングを受信するステップと、
イントラ・コーデッド参照ピクチャについての少なくとも１つの一意ピクチャ識別子および、ピクチャ識別子とインター・コーデッド・ピクチャのための少なくとも１つの参照ピクチャ識別子との一意的組合せについての標示を決定するステップと、
特定のインター・コーデッド・ピクチャのための少なくとも１つの参照ピクチャ識別子から、前記特定のインター・コーデッド・ピクチャにより参照されている全てのピクチャを決定するステップと、
を含む方法に関する。

一実施形態によると、該方法は、
前記特定のインター・コーデッド・ピクチャにランダム・アクセスするための要求を取得するステップと、
前記特定のインター・コーデッド・ピクチャにより言及されている前記全てのピクチャをデコーディングするステップと、
前記特定のインター・コーデッド・ピクチャをデコーディングするステップと、
をさらに含む。

第４の実施形態は、少なくとも１つのプロセッサと少なくとも１つのメモリを備えた装置であって、前記少なくとも１つのメモリ上にはコードが記憶され、このコードは、前記少なくとも１つのプロセッサにより実行されたとき、装置に少なくとも、
ピクチャ・シーケンスのピクチャをデコーディングするために必要とされる参照ピクチャについての標示を含むシグナリングを受信するステップと、
イントラ・コーデッド参照ピクチャについての少なくとも１つの一意ピクチャ識別子および、ピクチャ識別子とインター・コーデッド・ピクチャのための少なくとも１つの参照ピクチャ識別子との一意的組合せについての標示を決定するステップと、
特定のインター・コーデッド・ピクチャのための少なくとも１つの参照ピクチャ識別子から、前記特定のインター・コーデッド・ピクチャにより参照されている全てのサンプルを決定するステップと、
を行わせる、装置に関する。

本発明をより良く理解するために、ここで一例として、添付図面の参照が指示される。

本発明のいくつかの実施形態を利用する電子デバイスを概略的に示す。本発明のいくつかの実施形態を利用するのに好適なユーザー機器を概略的に示す。無線および有線ネットワーク接続を用いて接続された本発明の実施形態を利用する電子デバイスを概略的に示す。本発明のいくつかの実施形態を実装するために好適なエンコーダを概略的に示す。ＩＳＯＢＭＦＦボックス構造の包含階層の一例を示す。本発明の一実施形態に係るサンプルをデコーディングするために必要とされる参照サンプルをシグナリングするためのプロセスの流れ図を示す。提示順およびデコーディング順の、コーデッド画像シーケンスの一例を示す。提示順およびデコーディング順の、コーデッド画像シーケンスの一例を示す。図７ａおよび７ｂのサンプルをそのｓａｍｐｌｅ＿ｉｄにしたがって列挙する表、およびｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄのリストを示す。図７ａおよび７ｂのサンプルの一意的ｓａｍｐｌｅ＿ｉｄ−ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄの組合せのリストを示す。本発明の一実施形態に係るサンプル・トゥー・グループ・ボックス内のグループ記述指標に対するサンプルのマッピングを示す。提示順およびデコーディング順の、コーデッド画像シーケンスの別の例を示す。提示順およびデコーディング順の、コーデッド画像シーケンスの別の例を示す。図１０ａおよび１０ｂのサンプルをそのｓａｍｐｌｅ＿ｉｄにしがたって列挙する表、およびｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄのリストを示す。図１０ａおよび１０ｂのサンプルの一意的ｓａｍｐｌｅ＿ｉｄ−ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄの組合せのリストを示す。本発明の一実施形態に係るサンプル・トゥー・グループ・ボックス内のグループ記述指標に対するサンプルのマッピングを示す。本発明のいくつかの実施形態を実装するために好適なデコーダの概略図を示す。本発明の一実施形態に係るサンプルをデコーディングするために必要とされる参照サンプルを決定するためのプロセスの流れ図を示す。

以下では、所望されるランダム・アクセスされたピクチャを正しくデコーディングする目的でデコーディングが求められているピクチャを識別するための好適な装置および考えられるメカニズムをさらに詳細に説明する。この点に関して、第１に図１および図２の参照が指示されるが、図１は、本発明の一実施形態に係るコーデックを包含することのできる例示的装置または電子デバイス５０の概略図として、一例示的実施形態に係るビデオ・コーディング・システムのブロック図を示している。図２は、一例示的実施形態に係る装置のレイアウトを示す。図１および２の要素について次に説明する。

電子デバイス５０は、例えば無線通信システムの移動体端末またはユーザー機器であることができる。しかしながら、本発明の実施形態を、ビデオ画像のエンコーディングとデコーディングまたは、エンコーディングまたはデコーディングを必要とする任意の電子デバイスまたは装置の内部で実装できることが認識されると考えられる。

装置５０は、デバイスを包含し保護するためのハウジング３０を備えることができる。装置５０はさらに、液晶ディスプレーの形をしたディスプレー３２を備えることができる。本発明の他の実施形態において、ディスプレーは、画像または映像を表示するのに好適である任意の好適なディスプレー技術であることができる。装置５０は、さらに、キーパッド３４を含むことができる。本発明の他の実施形態において、任意の好適なデータまたはユーザー・インターフェース・メカニズムを利用することができる。例えば、ユーザー・インターフェースをタッチセンサー式ディスプレーの一部としての仮想キーボードまたはデータ・エントリ・システムとして実装することができる。

装置は、デジタルまたはアナログ信号入力端であることのできるマイクロホン３６または任意の好適な音声入力端を備えることができる。装置５０はさらに、本発明の実施形態においてはイヤホーン３８、スピーカー、またはアナログまたはデジタル出力接続のうちのいずれか１つであることのできる音声出力デバイスをさらに備えることができる。装置５０は同様に、バッテリ４０を備えることもできる（または、本発明の他の実施形態においては、デバイスは、太陽電池、燃料電池またはぜんまい式発電機などの任意の好適な移動体エネルギー・デバイスにより動力供給可能である）。装置はさらに、画像および／または映像を記録または捕捉することのできるカメラを備えることができる。装置５０はさらに、他のデバイスに対する短可視距離通信のための赤外線ポートを備えることができる。他の実施形態において、装置５０はさらに、Ｂｌｕｅｔｏｏｔｈ（登録商標）無線接続またはＵＳＢ／ファイヤ・ワイヤー有線接続などの任意の好適な短距離通信ソリューションを備えることができる。

装置５０は、装置５０を制御するためのコントローラ５６またはプロセッサを備えることができる。コントローラ５６をメモリ５８に接続することができ、このメモリ５８は、本発明の実施形態において、画像および音声データの形をしたデータを両方共記憶でき、および／または同様にコントローラ５６上での実装のための命令を記憶することもできる。コントローラ５６はさらに、音声データおよび／または映像データのコーディングおよびデコーディングを実施するかまたはコントローラにより実施されるコーディングおよびデコーディングを補助するのに好適なコーデック回路５４に接続可能である。

装置５０はさらに、ユーザー情報を提供するため、およびネットワークにおいてユーザーの認証および許可向けの認証情報を提供するのに好適であるために、例えばＵＩＣＣおよびＵＩＣＣリーダーなどの、カード・リーダー４８およびスマート・カード４６を備えることができる。

装置５０は、例えばセルラー通信ネットワーク、無線通信システムまたは無線ローカル・エリア・ネットワークとの通信のために、無線通信信号を生成するのに好適で、コントローラに接続された無線インターフェース回路５２を備えることができる。装置５０はさらに、他の装置に対して無線インターフェース回路５２において生成された無線周波数信号を伝送し、他の装置から無線周波数信号を受信するため、無線インターフェース回路５２に接続されたアンテナ４４を備えることができる。

装置５０は、個別のフレームを記録また検出することのできるカメラを備えることができ、これらのフレームは次に、処理のためコーデック５４またはコントローラにパスされる。装置は、伝送および／または記憶の前に別のデバイスから処理のためのビデオ画像データを受信することができる。装置５０は同様に、無線でまたは有線接続によって、コーディング／デコーディングのための画像を受信することもできる。

図３に関しては、本発明の実施形態を内部で使用できるシステムの一例が示されている。システム１０は、１つ以上のネットワークを通して通信できる多数の通信デバイスを備えている。システム１０は、非限定的に無線セルラーホン・ネットワーク（例えばＧＳＭ（登録商標）、ＵＭＴＳ、ＣＤＭＡネットワークなど）、例えばＩＥＥＥ８０２．Ｘ規格のいずれかによって定義されている無線ローカル・エリア・ネットワーク（ＷＬＡＮ）、Ｂｌｕｅｔｏｏｔｈパーソナル・エリア・ネットワーク、イーサネット（登録商標）・ローカル・エリア・ネットワーク、トークン・リング・ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークおよびインターネットを含む、有線または無線ネットワークの任意の組合せを備えることができる。

システム１０は、本発明の実施形態を実装するのに好適な有線または無線の両方の通信デバイスまたは装置５０を含むことができる。

例えば、図３に示されたシステムは、移動体電話ネットワーク１１およびインターネット２８の一表現を示す。インターネット２８に対する接続性は、非限定的に、長距離無線接続、短距離無線接続および、非限定的に電話線、ケーブル回線、電力線、および類似の通信経路を含めたさまざまな有線接続を含むことができる。

システム１０に示された例示的通信デバイスは、非限定的に、電子デバイスまたは装置５０、携帯情報端末（ＰＤＡ）と携帯電話の組合せ１４、ＰＤＡ１６、統合通信デバイス（ＩＭＤ）１８、デスクトップ・コンピュータ２０、ノート型コンピュータ２２を含むことができる。装置５０は、静止型であるかまたは移動中の人物により搬送される移動体であることができる。装置５０は同様に、車、トラック、タクシー、バス、列車、船、飛行機、自転車、オートバイまたは任意の類似の好適な輸送手段を非限定的に含めた輸送手段の中に位置設定されることもできる。

実施形態は同様に、セット・トップ・ボックス、すなわちディスプレーまたは無線能力を有するまたは有さない可能性のあるデジタルＴＶ受信機内、ハードウェアまたはソフトウェアまたはエンコーダ／デコーダ実装の組合せを有する、タブレットまたは（ラップトップ）コンピュータ（ＰＣ）内、さまざまなオペレーティングシステム内、およびハードウェア／ソフトウェアベースのコーディングを提供するチップセット、プロセッサ、ＤＳＰおよび／または埋込み型システム内でも実装可能である。

いくつかのまたはさらなる装置は、基地局２４への無線接続２５を通して呼出しおよびメッセージを送信し受信し、サービス・プロバイダと通信することができる。基地局２４を、携帯電話ネットワーク１１とインターネット２８の間の通信を可能にするネットワークサーバー２６に接続することができる。システムは、追加の通信デバイスおよびさまざまなタイプの通信デバイスを含むことができる。

通信デバイスは、符号分割多元接続（ＣＤＭＡ）、移動体通信用グローバル・システム（ＧＳＭ）、汎用移動体遠隔通信システム（ＵＭＴＳ）、時分割多元接続（ＴＤＭＡ）、周波数分割多元接続（ＦＤＭＡ）、伝送制御プロトコル・インターネット・プロトコル（ＴＣＰ−ＩＰ）、ショート・メッセージ・サービス（ＳＭＳ）、マルチメディア・メッセージ・サービス（ＭＭＳ）、Ｅメール、インスタント・メッセージ・サービス（ＩＭＳ）、Ｂｌｕｅｔｏｏｔｈ、ＩＥＥＥ８０２．１１および任意の類似の無線通信技術を非限定的に含めたさまざまな伝送技術を用いて通信することができる。本発明のさまざまな実施形態の実装に関与する通信デバイスは、無線、赤外線、レーザー、ケーブル接続および任意の好適な接続を非限定的に含めたさまざまなメディアを用いて、通信することができる。

ビデオ・コーデックは、入力ビデオを記憶／伝送に好適な圧縮表現へと変換するエンコーダと、圧縮されたビデオ表現を元の可視形態へと復元できるデコーダとで構成される。典型的には、エンコーダは、ビデオをよりコンパクトな形態で（すなわちより低いビットレートで）表現するため原ビデオ・シーケンス内の一部の情報を廃棄する。ビデオ・エンコーダは、同様に、ビデオ・デコーダから分離したものであることもできる。換言すると、エンコーディングおよびデコーディングは別個のエンティティにより行うことができ、エンコーディングまたはデコーディングのいずれかを行うこともできる。

典型的なハイブリッド・ビデオ・コーデック、例えばＩＴＵ−ＴＨ．２６３およびＨ．２６４の多くのエンコーダ実装は、ビデオ情報を２段階でエンコーディングする。第１段階では、或るピクチャ・エリア（または「ブロック」）内の画素値が、例えば（コーディング内のブロックに密に対応する先にコーディングされたビデオ・フレームの１つの中の１つのエリアを発見し標示する）動き補償手段によって、または（特定された方法でコーディングされるべきブロックの周りの画素値を用いる）空間手段によって予測される。第２段階では、予測エラー、すなわち予測された画素ブロックと原画素ブロック間の差異がコーディングされる。これは典型的には、規定された変換（例えば離散コサイン変換（ＤＣＴ）またはその変形形態）を用いて画素値の差を変換し、係数を量子化し、量子化係数をエントロピー・コーディングすることにより行なわれる。量子化プロセスの忠実度を変動させることによって、エンコーダは、画素表現の精度（画質）と結果として得られるコーディングされたビデオ表現のサイズ（ファイル・サイズまたは伝送ビットレート）との間のバランスを制御することができる。

時間予測、動き補償または動き補償された予測とも呼ぶことのできるインター予測は、時間冗長性を削減する。インター予測において、予測ソースは、先にデコーディングされたピクチャである。イントラ予測は、同じピクチャ内の隣接する画素が相関される確率が高いという事実を利用する。イントラ予測は、空間ドメインまたは変換ドメイン内で行なわれ得る。すなわちサンプル値または変換係数のいずれかを予測することができる。イントラ予測は典型的に、インター予測が全く適用されていないイントラ・コーディングにおいて活用される。

コーディングプロシージャの１つの成果は、動きベクトルおよび量子化変換係数などの１組のコーディング・パラメータである。多くのパラメータは、それらが最初に空間的または時間的に隣接するパラメータから予測される場合、より効率的にエントロピー・コーディングされ得る。例えば、動きベクトルは、空間的に隣接する動きベクトルから予測可能であり、動きベクトル予測子に比べた差異のみをコーディングすることができる。コーディング・パラメータの予測とイントラ予測を集合的に、インピクチャ予測と呼ぶことができる。

図４は、本発明の実施形態を利用するのに好適なビデオ・エンコーダのブロック図を示す。図４は、２層用のエンコーダを提示しているが、提示されたエンコーダを類似の形で拡張して２層を超える層をエンコーディングすることが可能であることも認識されると考えられる。図４は、ベース層のための第１のエンコーダセクション５００とエンハンスメント層のための第２のエンコーダセクション５０２とを含むビデオ・エンコーダの実施形態を例示する。第１のエンコーダセクション５００および第２のエンコーダセクション５０２の各々は、入来するピクチャをエンコーディングするための類似の要素を含むことができる。エンコーダセクション５００、５０２は、画素予測子３０２、４０２、予測エラー・エンコーダ３０３、４０３、および予測エラー・デコーダ３０４、４０４を含むことができる。図４は同様に、インター予測子３０６、４０６、イントラ予測子３０８、４０８、モード・セレクタ３１０、４１０、フィルター３１６、４１６および参照フレーム・メモリ３１８、４１８を含むものとして、画素予測子３０２、４０２の一実施形態を示す。第１のエンコーダセクション５００の画素予測子３０２は、（動き補償された参照フレーム３１８と画像間の差異を決定する）インター予測子３０６と（現行フレームまたはピクチャのすでに処理済みの部分のみに基づいて画像ブロックについての予測を決定する）イントラ予測子３０８の両方においてエンコーディングされるべきビデオ・ストリームの３００のベース層画像を受信する。インター予測子とイントラ予測子の両方の出力は、モード・セレクタ３１０にパスされる。イントラ予測子３０８は、２つ以上のイントラ予測モードを有することができる。したがって各モードは、イントラ予測を行い、予測された信号をモード・セレクタ３１０に提供することができる。モード・セレクタ３１０は同様に、ベース層ピクチャ３００のコピーも受信する。それに相応して、第２のエンコーダセクション５０２の画素予測子４０２は、（画像と動き補償された参照フレーム４１８との間の差異を決定する）インター予測子４０６と（現行フレームまたはピクチャのすでに処理済みの部分のみに基づいて画像ブロックについての予測を決定する）イントラ予測子４０８の両方においてエンコーディングされるべきビデオ・ストリームの４００個のエンハンスメント層画像を受信する。インター予測子とイントラ予測子の両方の出力は、モード・セレクタ４１０にパスされる。イントラ予測子４０８は、２つ以上のイントラ予測モードを有することができる。したがって各モードは、イントラ予測を行い、予測された信号をモード・セレクタ４１０に提供することができる。モード・セレクタ４１０は同様に、エンハンスメント層ピクチャ４００のコピーも受信する。

現行ブロックをエンコーディングするためにどのエンコーディングモードが選択されたかに応じて、イントラ予測子３０６、４０６の出力、または任意のイントラ予測子モードの一つの出力、またはモード・セレクタ内の表面エンコーダの出力が、モード・セレクタ３１０、４１０の出力端にパスされる。モード・セレクタの出力は、第１の加算デバイス３２１、４２１にパスされる。第１の加算デバイスは、ベース層ピクチャ３００／エンハンスメント層ピクチャ４００から画素予測子３０２、４０２の出力を減算して第１の予測エラー信号３２０、４２０を生成することができ、この信号は予測エラー・エンコーダ３０３、４０３に入力される。

画素予測子３０２、４０２はさらに、予備再構成装置３３９、４３９から、画像ブロック３１２、４１２の予測表現と予測エラー・デコーダ３０４、４０４の出力３３８、４３８の組合せを受信する。予備再構成された画像３１４、４１４は、イントラ予測子３０８、４０８およびフィルター３１６、４１６にパスすることができる。予備表現を受信したフィルター３１６、４１６は、予備表現をフィルタリングし、再構成された最終画像３４０、４４０を出力することができ、この再構成最終画像は、参照フレーム・メモリ３１８、４１８内にセーブすることができる。参照フレーム・メモリ３１８は、参照画像として使用されるようにインター予測子３０６に接続され得、インター予測オペレーションにおいてこの参照画像に対して将来のベース層ピクチャ３００が比較される。ベース層が、いくつかの実施形態に係るエンハンスメント層の層間動き情報予測および／または層間サンプル予測のためのソースとなるものとして選択され標示された場合、参照フレーム・メモリ３１８は同様に、インター予測オペレーションにおいて将来のエンハンスメント層ピクチャ４００が比較される参照画像として使用されるようにインター予測子４０６に接続される可能性もある。その上、インター予測オペレーションにおいて将来のエンハンスメント層ピクチャ４００が比較される参照画像として使用されるようにインター予測子４０６に参照フレーム・メモリ４１８を接続することもできる。

いくつかの実施形態に係るエンハンスメント層のフィルタリング・パラメータを予測するためのソースとなるようにベース層が選択され標示された場合、第１のエンコーダセクション５００のフィルター３１６からのフィルタリング・パラメータを、第２のエンコーダセクション５０２に提供することができる。

予測エラー・エンコーダ３０３、４０３は、変換ユニット３４２、４４２および量子化器３４４、４４４を備える。変換ユニット３４２、４４２は、第１の予測エラー信号３２０、４２０を変換ドメインに変換する。この変換は、例えばＤＣＴ変換である。量子化器３４４、４４４は、変換ドメイン信号、例えばＤＣＴ係数を量子化して、量子化係数を形成する。

予測エラー・デコーダ３０４、４０４は、予測エラー・エンコーダ３０３、４０３からの出力を受信し、予測エラー・エンコーダ３０３、４０３とは反対のプロセスを行って、デコーデッド予測エラー信号３３８、４３８を生成し、この信号は、第２の加算デバイス３３９、４３９において画像ブロック３１２、４１２の予測表現と組合わされたとき、予備再構成画像３１４、４１４を生成する。予測エラー・デコーダは、変換信号を再構成するため例えばＤＣＴ係数などの量子化係数値を逆量子化する逆量子化器３６１、４６１、および再構成済み変換信号への逆変換を行う逆変換ユニット３６３、４６３を備え、ここで逆変換ユニット３６３、４６３の出力は再構成されたブロックを格納している。予測エラー・デコーダは、同様に、さらなるデコーデッド情報およびフィルター・パラメータにしたがって、再構成されたブロックをフィルタリングできるブロック・フィルターも備えることができる。

エントロピー・エンコーダ３３０、４３０は、予測エラー・エンコーダ３０３、４０３の出力を受信し、信号に対して好適なエントロピー・エンコーディング／可変長エンコーディングを行って、エラー検出および補正能力を提供することができる。エントロピー・エンコーダ３３０、４３０の出力を、例えばマルチプレクサ５０８によってビットストリーム内に挿入することができる。

Ｈ．２６４／ＡＶＣ規格は、国際通信連合（ＩＴＵ−Ｉ）の遠隔通信標準化部門のビデオ・コーディング専門家グループ（ＶＣＥＧ）と、国際標準化機構（ＩＳＯ）／国際電気標準会議（ＩＥＣ）の動画専門家グループ（ＭＰＥＧ）の合同ビデオ・チーム（ＪＶＴ）によって開発された。Ｈ．２６４／ＡＶＣ規格は、その元となる両方の標準化機構によって公開されており、ＭＰＥＧ−４Ｐａｒｔ１０Ａｄ−ｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）としても知られているＩＳＯ／ＩＥＣ国際規格１４４９６−１０号およびＩＴＵ−Ｐ勧告Ｈ．２６４として呼称されている。Ｈ．２６４／ＡＶＣ仕様に対して新たな拡張または特徴を統合したＨ．２６４／ＡＶＣ規格の多数のバージョンが存在してきた。これらの拡張には、スケーラブル−ビデオ・コーディング（ＳＶＣ）およびマルチビュー・ビデオ・コーディング（ＭＶＣ）が含まれる。

高効率ビデオ・コーディング（Ｈ．２６５／ＨＥＶＣ）規格は、ＶＣＥＧおよびＭＰＥＧの合同協力チーム−ビデオ・コーディング（ＪＣＴ−ＶＣ）によって開発された。現在、Ｈ．２６５／ＨＥＶＣ規格は、ＩＳＯ／ＩＥＣおよびＩＴＵ−Ｔにおける最終承認投票の対象となっている。この規格は、元となる両方の標準化機構により公開されたものであり、ＭＰＥＧ−ＨＰａｒｔ２ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ（ＨＥＶＣ）としても知られているＩＳＯ／ＩＥＣ国際規格２３００８−２号およびＩＴＵ−Ｔ勧告Ｈ．２６５と呼称されている。ＨＥＶＣのスケーラブル、マルチビュー、３次元およびレンジ拡張機能の開発は完了しており、これらの拡張機能は、Ｈ．２６５／ＨＥＶＣの第２版の一部として公開される予定である。現在、３次元およびスクリーン・コンテンツ・コーディング拡張機能を含めた、Ｈ．２６５／ＨＥＶ．Ｃに対するさらなる拡張機能を開発するための標準化プロジェクトが進行中である。

本節においては、いくつかの主要な定義、ビットストリームおよびコーディング構造、ならびにＨ．２６４／ＡＶＣおよびＨＥＶＣのコンセプトが、実施形態を実装できるビデオ・エンコーダ、デコーダ、エンコーディング方法、デコーディング方法、およびビットストリーム構造の一例として説明される。主要な定義、ビットストリームおよびコーディング構造、ならびにＨ．２６４／ＡＶＣのコンセプトのいくつかは、ＨＥＶＣ規格の場合と同じであり、したがって、これらについては、以下で合同で説明される。本発明の実施形態は、Ｈ．２６４／ＡＶＣまたはＨＥＶＣに限定されず、むしろ、本発明をそれに基づいて部分的にまたは完全に実施することのできる１つの考えられる基礎として、この説明は提供されている。

多くの早期のビデオ・コーディング規格と同様、ビットストリーム・シンタックスおよびセマンティクスならびに無エラー・ビットストリームのためのデコーディング・プロセスは、Ｈ．２６４／ＡＶＣおよびＨＥＶＣの中で規定されている。エンコーディング・プロセスは規定されていないが、エンコーダは、適合するビットストリームを生成する。ビットストリームとデコーダの適合性は、仮想参照デコーダ（ＨＲＤ）を用いて確認可能である。規格は、伝送エラーおよび損失に対処する上で一助となるコーディング・ツールを含むが、エンコーディングの際のこれらのツールの使用は任意であり、誤ったビットストリームについてのデコーディング・プロセスは全く規定されていない。

既存の規格の説明ならびに例示的実施形態の説明において、シンタックス要素を、ビットストリーム内で表現されるデータの一要素として定義することができる。一シンタックス構造は、ビットストリーム内に規定の順序で共に存在するゼロ以上のシンタックス要素として定義することができる。

プロファイルは、デコーディング／コーディング規格または仕様書によって規定されているビットストリーム・シンタックス全体のサブセットとして定義することができる。所与のプロファイルのシンタックスにより課せられる境界の内部では、デコーデッド・ピクチャの規定サイズなどのビットストリーム内のシンタックス要素がとる値に応じて、エンコーダおよびデコーダの性能の非常に大きな変動を求めることがなおも可能である。多くの利用分野において、特定のプロファイル内でシンタックスの全ての仮想使用に対処できるデコーダを実装することは、実用的でも経済的でもない可能性がある。この問題に対処するため、レベルを使用することができる。レベルとは、ビットストリーム内のシンタックス要素の値またはデコーディング／コーディング規格または仕様書中で規定された変数に対して課せられる規定された１組の制約として定義づけすることができる。これらの制約は、値に対する単純な制限であることができる。代替的または付加的には、これらは、値の算術的組合せに対する制約の形をとることができる（例えば、ピクチャ幅×ピクチャ高さ×毎秒デコーディングされるピクチャ数）。レベルについての制約を規定するための他の手段も同じく使用することができる。１レベル内で規定される制約のいくつかは例えば、秒などの一時間周期あたりのマクロブロックなどのコーディング・ユニットの観点から見た最大ピクチャ・サイズ、最大ビット・レート、および最大データ転送レートに関係する。全てのプロファイルについて同じレベル・セットを定義することができる。異なるプロファイル全体にわたり各レベルの定義のいくつかのまたは全ての様相が共通であり得ることが、例えば異なるプロファイルを実装する端末の相互運用性を増大させるために好ましいことであり得る。

Ｈ．２６４／ＡＶＣまたはＨＥＶＣエンコーダに対する入力およびＨ．２６４／ＡＶＣまたはＨＥＶＣデコーダの出力それぞれのための基本ユニットは、ピクチャである。エンコーダに対する入力として与えられるピクチャは、ソース・ピクチャとも呼ぶことができ、デコーダによってデコーデッド・ピクチャは、デコーデッド・ピクチャと呼ぶことができる。

ソースおよびデコーデッド・ピクチャは各々、以下のサンプル・アレイセットのうちの１つなどの、１つ以上のサンプル・アレイで構成される。
− ルマ（Ｙ）のみ（モノクロ）、
− ルマと２つのクロマ（ＹＣ６ＣｒまたはＹＣｇＣｏ）、
− 緑、青および赤（ＲＧＢとしても知られるＧＢＲ）、
− 他の未規定のモノクロまたは三刺激カラーサンプリング（例えば、ＸＹＺとしても知られるＹＺＸ）。

以下では、これらのアレイは、ルマ（またはＬまたはＹ）およびクロマと呼ばれ、ここで２つのクロマ・アレイは、使用されている実際の色表現方法の如何に関わらず、ＣｂおよびＣｒと呼ぶことができる。使用されている実際の色表現方法は、例えばＨ．２６４／ＡＶＣおよび／またはＨＥＶＣのビデオ・ユーザビリティ情報（ＶＵＩ）シンタックスを用いて、例えばコーデッド・ビットストリームの形で標示することのできるものである。成分は、アレイまたは３つのサンプル・アレイ（ルマおよび２つのクロマ）のうちの１つからの単一のサンプル、または、モノクロ・フォーマットでピクチャを構成するアレイまたはそのアレイの単一のサンプルとして定義づけできる。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣにおいて、ピクチャは、フレームまたはフィールドのいずれかであることができる。フレームは、ルマ・サンプルのマトリックスおよび場合によっては、対応するクロマ・サンプルを含む。フィールドは、フレームの交番するサンプル行のセットであり、ソース信号がインターレースされている場合にこれをエンコーダ入力として使用することができる。クロマ・サンプル・アレイは、不在であることができ（したがってモノクロ・サンプリング・アレイが使用中である場合がある）、またはルマ・サンプル・アレイと比較したとき、クロマ・サンプル・アレイをサブサンプリングすることができる。クロマ・フォーマットは、次の通りに要約できる：
− モノクロ・サンプリングにおいては、１つのサンプリング・アレイしか存在せず、これを名目上、ルマ・アレイとみなすことができる。
− ４：２：０サンプリングにおいては、２つのクロマ・アレイはルマ・アレイの半分の高さと半分の幅を有する。
− ４：２：２サンプリングにおいては、２つのクロマ・アレイの各々は、ルマ・アレイと同じ高さおよびその半分の幅を有する。
− ４：４：４サンプリングにおいては、２つのクロマ・アレイの各々は、ルマ・アレイと同じ高さおよび同じ幅を有する。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣにおいては、サンプル・アレイを別個のカラー・プレーンとしてビットストリーム内にコーディングし、それぞれにこのビットストリームからコーデッド・カラー・プレーンを別個にデコーディングすることが可能である。別個のカラー・プレーンが使用されている場合、その各々は、モノクロ・サンプリングを用いて１つのピクチャとして別個に（エンコーダおよび／またはデコーダによって）処理される。

クロマ・サブサンプリングが使用されている場合、（例えば４：２：０または４：２：２クロマサンプリング）、ルマ・サンプルとの関係におけるクロマ・サンプルの場所は、エンコーダ側で（例えば前処理ステップとしてまたはエンコーディングの一部として）決定可能である。ルマ・サンプルの位置との関係におけるクロマ・サンプルの位置は、例えばコーディング規格、例えばＨ．２６４／ＡＶＣまたはＨＥＶＣ中で予め定義されるかまたは、例えばＨ．２６４／ＡＶＣまたはＨＥＶＣのＶＵＩの一部としてビットストリーム内に標示されることができる。

パーティショニングは、１つのセットの各要素が、厳密にサブセットの１つの中に入るように、セットをサブセットに分割することとして定義することができる。

Ｈ．２６４／ＡＶＣにおいては、マクロブロックは、ルマ・サンプルの１６×１６のブロックおよび対応するクロマ・サンプルのブロックである。例えば、４：２：０のサンプリング・パターンにおいて、マクロブロックは、各クロマ成分あたり１つの８×８のクロマ・サンプルブロックを格納している。Ｈ．２６４／ＡＶＣにおいては、１つのピクチャが１つ以上のスライス・グループにパーティショニングされ、１スライス・グループは１つ以上のスライスを格納する。Ｈ．２６４／ＡＶＣにおいては、１つのスライスは、特定のスライス・グループ内部でのラスター走査において連続して順序付けされた整数の数のマクロブロックで構成されている。

ＨＥＶＣエンコーディングおよび／またはデコーディングのオペレーションを説明する場合、以下の用語を使用することができる。コーディング・ブロックとは、コーディング・ツリー・ブロックのコーディング・ブロックへの分割がパーティショニングとなるようなＮの或る値について、ＮｘＮのサンプル・ブロックとして定義することができる。コーディング・ツリー・ブロック（ＣＴＢ）とは、１成分のコーディング・ツリー・ブロックへの分割がパーティショニングとなるようなＮの或る値について、ＮｘＮのサンプル・ブロックとして定義することができる。コーディング・ツリー・ユニット（ＣＴＵ）とは、ルマ・サンプルのコーディング・ツリー・ブロック、３つのサンプル・アレイを有するピクチャのクロマ・サンプルの２つの対応するコーディング・ツリー・ブロック、またはサンプルをコーディングするのに使用される３つの別個のカラー・プレーンおよびシンタックス構造を用いてコーディングされるピクチャまたはモノクロ・ピクチャのサンプルのコーディング・ツリー・ブロックとして定義することができる。コーディング・ユニット（ＣＵ）とは、ルマ・サンプルのコーディング・ブロック、３つのサンプル・アレイを有するピクチャのクロマ・サンプルの２つの対応するコーディング・ブロック、またはサンプルをコーディングするのに使用される３つの別個のカラー・プレーンおよびシンタックス構造を用いてコーディングされるピクチャまたはモノクロ・ピクチャのサンプルのコーディング・ブロックとして定義することができる。

高効率ビデオ・コーディング（ＨＥＶＣ）コーデックなどのいくつかのビデオ・コーデックにおいて、ビデオ・ピクチャはピクチャのエリアをカバーするコーディング・ユニット（ＣＵ）に分割される。ＣＵは、ＣＵ内部のサンプルのための予測プロセスを定義する１つ以上の予測ユニット（ＰＵ）および前記ＣＵ内のサンプルのための予測エラー・コーディング・プロセスを定義する１つ以上の変換ユニット（ＴＵ）で構成される。典型的には、ＣＵは、考えられるＣＵサイズの予め定義されたセットから選択可能なサイズを有する正方形のブロックで構成される。最大許容サイズを有するＣＵは、ＬＣＵ（最大コーディング・ユニットまたはコーディング・ツリー・ユニット（ＣＴＵ）と命名することができ、ビデオ・ピクチャは、重複しないＬＣＵへと分割される。ＬＣＵはさらに、例えばＬＣＵおよび結果として得られたＣＵをくり返し分割することによって、より小さいＣＵの組合せへと分割することができる。結果として得られる各々のＣＵは、典型的に少なくとも１つのＰＵおよびそれに結び付けられた少なくとも１つのＴＵを有する。各々のＰＵおよびＴＵはさらに、それぞれ予測および予測エラー・コーディング・プロセスの粒度を増大させるために、より小さいＰＵおよびＴＵに分割され得る。各ＰＵには、そのＰＵ内の画素のためにどのような種類の予測を適用すべきかを定義する予測情報（例えばインター予測されたＰＵについては動きベクトル情報、およびイントラ予測されたＰＵについてはイントラ予測方向性情報）が結び付けられている。

ＨＥＶＣ規格では、矩形で整数のＬＣＵを格納するタイルの形に、ピクチャをパーティショニングすることができる。ＨＥＶＣ規格では、タイルへのパーティショニングが、規則的なグリッドを形成し、ここでタイルの高さおよび幅は、互いに最大で１ＬＣＵ分だけ異なっている。ＨＥＶＣでは、スライスとは、１つの独立したスライス・セグメントおよび同じアクセス・ユニット内の次の独立したスライス・セグメント（存在する場合）に先行する全ての後続する従属スライス・セグメント（存在する場合）に格納された整数の数のコーディング・ツリー・ユニットであるものとして定義される。ＨＥＶＣ規格において、スライス・セグメントは、タイル走査内に連続して順序づけされ単一のＮＡＬユニット内に格納される整数の数のコーディング・ツリー・ユニットであるものとして定義される。各ピクチャのスライス・セグメントへの分割は、パーティショニングである。ＨＥＶＣ規格では、独立スライス・セグメントとは、先行するスライス・セグメントについての値からスライス・セグメント・ヘッダーのシンタックス要素の値が推測されないスライス・セグメントとして定義され、従属スライス・セグメントは、デコーディング順で先行する独立スライス・セグメントについての値からスライス・セグメント・ヘッダーのいくつかのシンタックス要素の値が推測されるスライス・セグメントとして定義される。ＨＥＶＣ規格では、スライス・ヘッダーは、現行のスライス・セグメントであるかまたは現行の従属スライス・セグメントに先行する独立スライス・セグメントである独立スライス・セグメントのスライス・セグメント・ヘッダーとして定義され、スライス・セグメント・ヘッダーは、そのスライス・セグメント内で表現される第１のまたは全てのコーディング・ツリー・ユニットに関係するデータ要素を格納するコーデッド・スライス・セグメントの一部分として定義される。ＣＵは、タイル内、またはタイルが使用されていない場合、ピクチャ内で、ＬＣＵのラスター走査順で走査される。ＬＣＵの内部では、ＣＵは特定の走査順序を有する。

デコーダは、（エンコーダにより作成され圧縮表現で記憶された動き情報または空間的情報を用いて）画素ブロックの予測された表現を形成するためにエンコーダに類似する予測手段を適用することによっておよび予測エラー・デコーディング（空間的画素ドメイン内の量子化された予測エラー信号を回収する予測エラー・コーディングの逆のオペレーション）によって、出力ビデオを再構成する。予測および予測エラー・デコーディング手段を適用した後、デコーダは、予測および予測エラー信号（画素値）を合計して、出力ビデオ・フレームを形成する。デコーダ（およびエンコーダ）は、同様に、表示のためにパスするおよび／またはビデオ・シーケンス内で来たるべきフレームのための予測参照として記憶する前に出力ビデオの品質を改善するために追加のフィルタリング手段を適用することもできる。フィルタリングは、例えば、以下のもののうちの１つ以上を含むことができる：デブロッキング、サンプル適応オフセット（ＳＡＯ）、および／または適応ループ・フィルタリング（ＡＬＦ）。

典型的なビデオ・コーデックにおいて、動き情報は、各々の動き補償された画像ブロックと結び付けられた動きベクトルと共に標示される。これらの動きベクトルの各々は、（エンコーダ側では）コーディングされるべきまたは（デコーダ側では）デコーディングされるべきピクチャ内の画像ブロックの、および先にコーディングまたはデコーデッド・ピクチャの１つの中の予測ソース・ブロックの変位を表わす。動きベクトルを効率良く表現するために、これらのベクトルは典型的に、ブロック特定的な予測された動きベクトルとの関係において差動的にコーディングされる。典型的なビデオ・コーデックにおいて、予測された動きベクトルは、既定の方法で、例えば隣接するブロックのエンコーデッドまたはデコーデッド動きベクトルの中央値を計算して作成される。動きベクトル予測を作成するための別の方法は、時間参照ピクチャ内の隣接ブロックおよび／またはコロケーテッド・ブロックから候補予測リストを生成し、選択された候補を動きベクトル予測子としてシグナリングすることにある。動きベクトル値を予測することに加えて、動き補償された予測のためにどの参照ピクチャが使用されるかを予測することができ、この予測情報は、例えば先にコーデッド／デコーデッド・ピクチャの参照指標によって表現されることができる。参照指標は典型的に、時間参照ピクチャ内の隣接ブロックおよび／またはコロケーテッド・ブロックから予測される。その上、典型的な高効率ビデオ・コーデックは、多くの場合マージング／マージ・モードと呼ばれる追加の動き情報コーディング／デコーディング・メカニズムを利用し、ここで、各々の利用可能な参照ピクチャ・リストについての動きベクトルおよび対応する参照ピクチャ指標を含む全ての動きフィールド情報が予測され、いかなる修正／補正も無く使用される。同様に、動きフィールド情報の予測が、時間参照ピクチャ内の隣接ブロックおよび／またはコロケーテッド・ブロックの動きフィールド情報を用いて実施され、使用された動きフィールド情報は、利用可能な隣接／コロケート・ブロックの動きフィールド情報が記入された動きフィールド候補リストの中でシグナリングされる。

典型的なビデオ・コーデックは、（デ）コーディングされつつあるブロックのために単一の予測ブロックが使用される単方向予測、および２つの予測ブロックが組合わされて（デ）コーディング中のブロックのための予測を形成する双方向予測の使用を可能にする。いくつかのビデオ・コーデックは、重み付き予測を可能にし、この場合、予測ブロックのサンプル値は、残留情報を加える前に重み付けされる。例えば、乗法重み付け係数および加法オフセットを適用することができる。いくつかのビデオ・コーデックにより可能にされる明示的重み付き予測においては、例えば各々の許容可能な参照ピクチャ指標のためのスライス・ヘッダーの中で、重み付け係数およびオフセットをコーディングすることができる。いくつかのビデオ・コーデックにより可能にされる暗示的重み付き予測では、重み付け係数および／またはオフセットはコーディングされず、例えば参照ピクチャの相対的ピクチャ順序カウント（ＰＯＣ）に基づいて導出される。

第１のピクチャについての直接的参照ピクチャは、第１のピクチャ内の予測のための参照として使用される、または使用できる、参照ピクチャとして定義することができる。第１のピクチャについての間接的参照ピクチャは、第１のピクチャ内で予測のための参照として使用されないものの、第１のピクチャの直接的または間接的参照ピクチャについての直接的参照ピクチャである参照ピクチャとして定義することができる。

典型的なビデオ・コーデックにおいて、動き補償の後の予測剰余は、第１に変換カーネル（ＤＣＴなど）を用いて変換され、その後コーディングされる。その理由は、多くの場合、剰余間でなおも何らかの相関関係が存在し、変換が多くの場合においてこの相関関係を削減しより効率の良いコーディングを提供する一助となり得るからである。

典型的なビデオ・エンコーダは、最適なコーディング・モード、例えば所望されるマクロブロック・モードおよび付随する動きベクトルを見出すために、ラグランジュ・コスト関数を使用する。この種のコスト関数は、損失を伴うコーディング方法に起因する（正確なまたは推定上の）画像歪みと画像エリア内の画素値を表現するのに求められる（正確なまたは推定上の）情報量とを結び付けるために重み付け係数λを用いる。すなわち、
Ｃ＝Ｄ＋λＲ、（１）
式中、Ｃは最小化すべきラグランジュ・コストであり、Ｄは、モードおよび動きベクトルを考慮に入れた画像歪み（例えば平均２乗誤差）であり、Ｒは、（候補動きベクトルを表現するためのデータの量を含めた）デコーダ内の画像ブロックを再構成するために求められるデータを表現するのに必要なビットの数である。

ビデオ・コーディング規格および仕様書は、エンコーダがコーデッド・ピクチャをコーデッド・スライスなどに分割することを可能にすることができる。典型的にスライスの境界に跨るインピクチャ予測は無効化される。こうして、スライスは、コーデッド・ピクチャを独立してデコーディング可能な部片に分割する方法とみなすことができる。Ｈ．２６４／ＡＶＣおよびＨＥＶＣにおいては、スライスの境界に跨るイン−ピクチャ予測は無効化され得る。こうして、スライスは、コーデッド・ピクチャを独立してデコーディング可能な部片に分割する方法とみなすことができ、したがってスライスは多くの場合、伝送のための基本ユニットとみなされる。多くの場合において、エンコーダはビットストリーム内で、どのタイプのインピクチャ予測がスライス境界に跨ってオフ切替えされているかを標示することができ、デコーダのオペレーションでは、例えばどの予測ソースが利用可能であるかを結論付ける場合に、この情報が考慮される。例えば、隣接するマクロブロックまたはＣＵが異なるスライス内にある場合、隣接するマクロブロックまたはＣＵからのサンプルは、イントラ予測には利用不可能なものとみなされる場合がある。

それぞれＨ．２６４／ＡＶＣまたはＨＥＶＣエンコーダの出力およびＨ．２６４／ＡＶＣまたはＨＥＶＣデコーダの入力のための基本ユニットは、ネットワーク抽象層（ＮＡＬ）ユニットである。パケット指向ネットワーク上でのトランスポートまたは構造化されたファイル内への記憶のためには、ＮＡＬユニットをパケットまたは類似の構造内にカプセル化することができる。Ｈ．２６４／ＡＶＣおよびＨＥＶＣにおいては、フレーミング構造を提供しない伝送または記憶環境のためにバイトストリーム・フォーマットが規定された。バイトストリーム・フォーマットは、各ＮＡＬユニットの前にスタート・コードをアタッチすることによって、ＮＡＬユニットを互いに分離する。ＮＡＬユニットの境界の誤検出を回避するため、エンコーダは、スタート・コードが他の形で発生してしまった場合にＮＡＬユニットのペイロードにエミュレーション防止バイトを加えるバイト指向スタート・コドン・エミュレーション防止アルゴリズムを実行する。パケット指向システムとストリーム指向システムの間の簡単なゲートウェイ・オペレーションを可能にするため、バイトストリーム・フォーマットが使用されているか否かに関わらず、つねにスタート・コード・エミュレーション防止を行うことができる。ＮＡＬユニットは、追従すべきデータのタイプの標示および必要に応じてエミュレーション防止バイトが散在するＲＢＳＰの形でこのデータを格納するバイトを格納するシンタックス構造として定義することができる。生バイト・シーケンス・ペイロード（ＲＢＳＰ）は、ＮＡＬユニット中にカプセル化された整数の数のバイトを格納するシンタックス構造として定義することができる。ＲＢＳＰは、空であるかまたは、ＲＢＳＰストップ・ビットが後続しかつゼロまたは０に等しいより多くの後続ビットが後続するシンタックス要素を格納するデータ・ビットのストリングの形を有するかのいずれかである。

ＮＡＬユニットは、ヘッダーとペイロードで構成される。Ｈ．２６４／ＡＶＣおよびＨＥＶＣにおいて、ＮＡＬユニット・ヘッダーは、ＮＡＬユニットのタイプを標示する。Ｈ．２６４／ＡＶＣでは、ＮＡＬユニット・ヘッダーは、ＮＡＬユニット内に格納されたコーデッド・スライスが参照ピクチャの一部であるかまたは非参照ピクチャの一部であるかを指示する。

Ｈ．２６４／ＡＶＣＮＡＬユニット・ヘッダーは、０に等しい場合ＮＡＬユニット内に格納されたコーデッド・スライスが非参照ピクチャの一部であることを標示し、０より大きい場合にはＮＡＬユニット内に格納されたコーデッド・スライスが参照ピクチャの一部であることを標示する、２ビットのｎａｌ＿ｒｅｆ＿ｉｄｃシンタックス要素を含む。ＳＶＣおよびＭＶＣＮＡＬユニットのためのヘッダーは、さらに、スケーラビリティおよびマルチビュー階層に関係するさまざまな標示を格納することができる。

ＨＥＶＣ規格においては全ての規定されたＮＡＬユニット・タイプのために、２バイトのＮＡＬユニット・ヘッダーが使用される。ＮＡＬユニット・ヘッダーは、１つの予約ビット、６ビットＮＡＬユニット・タイプ標示、時間レベルのための３ビットｎｕｈ＿ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１標示（１以上であることが求められる場合がある）およびｎｕｈ＿ｌａｙｅｒ＿ｉｄとしても言及される６ビットの予約フィールドを格納する。ｔｅｍｐｏｒａｌ＿ｉｄシンタックス要素をＮＡＬユニットのための時間識別子とみなすことができ、ゼロベースのＴｅｍｐｏｒａｌＩｄ変数は以下のように導出可能である。ＴｅｍｐｏｒａｌＩｄ＝ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１−１。０に等しいＴｅｍｐｏｒａｌＩｄは、最下位の時間レベルに対応する。ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１の値は、２つのＮＡＬユニット・ヘッダー・バイトが関与するスタート・コード・エミュレーションを回避するため非ゼロであることが求められる。６ビットの予約フィールド（ｎｕｈ＿ｌａｙｅｒ＿ｉｄ）は、スケーラビリティ階層上で情報を搬送するため、多層拡張により使用される。

ＮＡＬユニットは、ビデオ・コーディング層（ＶＣＬ）ＮＡＬユニットおよび非ＶＣＬＮＡＬユニットに分類可能である。Ｈ．２６４／ＡＶＣにおいて、ＶＣＬＮＡＬユニットは典型的に、コーデッド・スライスＮＡＬユニットであり、コーデッド・スライスＮＡＬユニットは、各々展開されたピクチャ内のサンプル・ブロックに対応する１つ以上のコーデッド・マクロブロックを表わすシンタックス要素を格納する。ＨＥＶＣでは、ＶＣＬＮＡＬユニットは、１つ以上のＣＵを表わすシンタックス要素を格納する。

Ｈ．２６４／ＡＶＣでは、コーデッド・スライスＮＡＬユニットは、瞬間デコーディング・リフレッシュ（ＩＤＲ）ピクチャ内のコーデッド・スライスまたは非ＩＤＲピクチャ内のコーデッド・スライスであるものとして標示され得る。

ＨＥＶＣでは、ＶＣＬＮＡＬユニットは以下のタイプの１つであるものとして標示され得る。

ＨＥＶＣ規格において、ピクチャ・タイプについての略号は、以下のように定義できる：トレーリング（ＴＲＡＩＬ）ピクチャ、時間サブレイヤー・アクセス（ＴＳＡ）、段階的時間サブレイヤー・アクセス（ＳＴＳＡ）、ランダム・アクセス・デコーディング可能リーディング（ＲＡＤＬ）ピクチャ、ランダム・アクセス・スキップ・リーディング（ＲＡＳＬ）ピクチャ、ブロークン・リンク・アクセス（ＢＬＡ）ピクチャ、瞬間デコーディング・リフレッシュ（ＩＤＲ）ピクチャ、クリーン・ランダム・アクセス（ＣＲＡ）ピクチャ。

イントラ・ランダム・アクセス・ポイント（ＩＲＡＰ）ピクチャとしても言及できるランダム・アクセス・ポイント（ＲＡＰ）ピクチャは、１６以上２３以下の範囲内のｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを各スライスまたはスライス・セグメントが有しているピクチャである。ＲＡＰピクチャは、イントラ・コーデッド・スライスのみを格納し、ＢＬＡピクチャ、ＣＲＡピクチャまたはＩＤＲピクチャであることができる。ビットストリーム内の第１のピクチャは、ＲＡＰピクチャである。所要のパラメータ・セットを活動化させる必要がある場合にそれらが利用可能であることを条件として、ＲＡＰピクチャおよびデコーディング順の全ての後続する非ＲＡＳＬピクチャは、デコーディング順でＲＡＰピクチャに先行するいずれのピクチャのデコーディング・プロセスも行わずに、正しくデコーディングされ得る。ビットストリーム内には、非ＲＡＰピクチャであるイントラ・コーデッド・スライスのみを格納するピクチャが存在し得る。

ＨＥＶＣでは、ＣＲＡピクチャは、デコーディング順でビットストリーム内の最初のピクチャであること、またはビットストリーム内でさらに後で出現することができる。ＨＥＶＣ内のＣＲＡピクチャは、デコーディング順でＣＲＡピクチャに後続するものの出力順ではそれに先行しているいわゆるリーディング・ピクチャを許容する。リーディング・ピクチャのいくつか、つまりいわゆるＲＡＳＬピクチャは、参照としてＣＲＡピクチャの前にデコーデッド・ピクチャを使用することができる。デコーディング順および出力順の両方でＣＲＡピクチャに後続するピクチャは、ＣＲＡピクチャにおいてランダム・アクセスが行なわれる場合にデコーディング可能であり、したがって、ＩＤＲピクチャのクリーン・ランダム・アクセス機能性と同様に、クリーン・ランダム・アクセスが達成される。

ＣＲＡピクチャは、結び付けられたＲＡＤＬまたはＲＡＳＬピクチャを有することができる。ＣＲＡピクチャが、ビットストリーム内でデコーディング順で最初のピクチャである場合、ＣＲＡピクチャは、デコーディング順でコーデッド・ビデオ・シーケンスの最初のピクチャであり、いずれの結び付けられたＲＡＳＬピクチャも、それらがビットストリーム内に存在しないピクチャに対する参照を格納し得ることから、デコーダによって出力されず、デコーディング不能である場合がある。

リーディング・ピクチャは、出力順で、結び付けられたＲＡＰピクチャに先行するピクチャである。結び付けられたＲＡＰピクチャは、（存在する場合）デコーディング順で先行するＲＡＰピクチャである。リーディング・ピクチャは、ＲＡＤＬピクチャまたはＲＡＳＬピクチャのいずれかである。

全てのＲＡＳＬピクチャは、結び付けられたＢＬＡまたはＣＲＡピクチャのリーディング・ピクチャである。結び付けられたＲＡＰピクチャがＢＬＡピクチャであるかまたはビットストリーム内の最初のコーデッド・ピクチャである場合、ＲＡＳＬピクチャは、ビットストリーム内に存在しないピクチャに対する参照を格納できることから出力されず、正しくデコーディング可能でない場合がある。しかしながら、デコーディングがＲＡＳＬピクチャの結び付けられたＲＡＰピクチャの前のＲＡＰピクチャから開始した場合、ＲＡＳＬピクチャは正しくデコーディングされ得る。ＲＡＳＬピクチャは、非ＲＡＳＬピクチャのデコーディング・プロセスのための参照ピクチャとして使用されない。存在する場合、全てのＲＡＳＬピクチャはデコーディング順で、同じ結び付けられたＲＡＰピクチャの全てのトレーリング・ピクチャに先行する。ＨＥＶＣ規格のいくつかの初期のドラフトにおいて、ＲＡＳＬピクチャは、廃棄タグ付き（ＴＦＤ）ピクチャと呼ばれていた。

全てのＲＡＤＬピクチャは、リーディング・ピクチャである。ＲＡＤＬピクチャは、同じ結び付けられたＲＡＰピクチャのトレーリング・ピクチャのデコーディング・プロセスのための参照ピクチャとして使用されない。存在する場合、全てのＲＡＤＬピクチャは、デコーディング順で、同じ結び付けられたＲＡＰピクチャの全てのトレーリング・ピクチャに先行する。ＲＡＤＬピクチャは、デコーディング順で結び付けられたＲＡＰピクチャに先行するいずれのピクチャをも参照とせず、したがって、デコーディングが結び付けられたＲＡＰピクチャから開始する場合正しくデコーディングされ得る。ＨＥＶＣ規格のいくつかの初期のドラフトにおいて、ＲＡＤＬピクチャは、デコーディング可能リーディング・ピクチャ（ＤＬＰ）と呼ばれていた。

ＣＲＡピクチャから開始するビットストリームの一部分が別のビットストリーム内に含まれる場合、ＣＲＡピクチャと結び付けられたＲＡＳＬピクチャは、その参照ピクチャのいくつかが、組合されたビットストリーム内に存在しない場合があることから、正しくデコーディングできない可能性がある。このようなスプライシング・オペレーションを簡単にするため、ＣＲＡピクチャのＮＡＬユニット・タイプを変更して、それがＢＬＡピクチャであることを標示することができる。ＢＬＡピクチャと結び付けられたＲＡＳＬピクチャは、出力／表示されないことから、正しくデコーディング可能でない場合がある。その上、ＢＬＡピクチャと結び付けられたＲＡＳＬピクチャは、デコーディングから削除できる。

ＢＬＡピクチャは、ビットストリーム内でデコーディング順に最初のピクチャであること、またはビットストリーム内で後に出現することができる。各ＢＬＡピクチャは、新しいコーデッド・ビデオ・シーケンスを始め、デコーディング・プロセスに対してＩＤＲピクチャと類似の効果を有する。しかしながら、ＢＬＡピクチャは、空でない参照ピクチャ・セットを規定するシンタックス要素を格納する。ＢＬＡピクチャがＢＬＡ＿Ｗ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有する場合、それは結び付けられたＲＡＳＬピクチャを有することができ、これらの結び付けられたＲＡＳＬピクチャは、ビットストリーム内に存在しないピクチャに対する参照を格納できることから、デコーダによって出力されず、デコーディング不能である可能性がある。ＢＬＡピクチャは、ＢＬＡ＿Ｗ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有する場合、同様に、デコーディングすべきものとして規定されている結び付けられたＲＡＤＬピクチャを有する場合がある。ＢＬＡピクチャは、ＢＬＡ＿Ｗ＿ＤＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有する場合、結び付けられたＲＡＳＬピクチャを有していないが、デコーディングすべきものとして規定されている結び付けられたＲＡＤＬピクチャを有することができる。ＢＬＡピクチャは、ＢＬＡ＿Ｎ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有する場合、いかなる結び付けられたリーディング・ピクチャも有していない。

ＩＤＲ＿Ｎ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するＩＤＲピクチャは、ビットストリーム内に存在する結び付けられたリーディング・ピクチャを有していない。ＩＤＲ＿Ｗ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するＩＤＲピクチャは、ビットストリーム内に存在する結び付けられたＲＡＳＬピクチャを有していないが、ビットストリーム内に結び付けられたＲＡＤＬピクチャを有することができる。

ｎａｌ＿ｕｎｉｔ＿ｔｙｐｅの値が、ＴＲＡＩＬ＿Ｎ、ＴＳＡ＿Ｎ、ＳＴＳＡ＿Ｎ、ＲＡＤＬ＿Ｎ、ＲＡＳＬ＿Ｎ、ＲＳＶ＿ＶＣＬ＿Ｎ１０、ＲＳＶ＿ＶＣＬ＿Ｎ１２またはＲＳＶ＿ＶＣＬ＿Ｎ１４に等しい場合、デコーデッド・ピクチャは、同じ時間サブレイヤーの他のいずれのピクチャのための参照としても使用されない。すなわち、ＨＥＶＣ規格において、ｎａｌ＿ｕｎｉｔ＿ｔｙｐｅの値がＴＲＡＩＬ＿Ｎ、ＴＳＡ＿Ｎ、ＳＴＳＡ＿Ｎ、ＲＡＤＬ＿Ｎ、ＲＡＳＬ＿Ｎ、ＲＳＶ＿ＶＣＬ＿Ｎ１０、ＲＳＶ＿ＶＣＬ＿Ｎ１２またはＲＳＶ＿ＶＣＬ＿Ｎ１４に等しい場合、デコーデッド・ピクチャは、同じＴｅｍｐａｒａｌＩｄ値を有するいずれのピクチャのＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅ、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒおよびＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒのいずれの中にも含まれない。ＴＲＡＩＬ＿Ｎ、ＴＳＡ＿Ｎ、ＳＴＳＡ＿Ｎ、ＲＡＤＬ＿Ｎ、ＲＡＳＬ＿Ｎ、ＲＳＶ＿ＶＣＬ＿Ｎ１０、ＲＳＶ＿ＶＣＬ＿Ｎ１２またはＲＳＶ＿ＶＣＬ＿Ｎ１４に等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するコーデッド・ピクチャを、同じＴｅｍｐｏｒａｌＩｄの値を有する他のピクチャのデコーディング可能性に影響を及ぼすことなく、廃棄することができる。

トレーリング・ピクチャは、出力順で、結び付けられたＲＡＰピクチャに後続するピクチャとして定義できる。トレーリング・ピクチャであるいずれのピクチャも、ＲＡＤＬ＿Ｎ、ＲＡＤＬ＿Ｒ、ＲＡＳＬ＿ＮまたはＲＡＳＬ＿Ｒに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有していない。リーディング・ピクチャであるあらゆるピクチャは、デコーディング順で、同じＲＡＰピクチャと結び付けられた全てのトレーリング・ピクチャに先行するように制約を受ける可能性がある。ビットストリーム内には、ＢＬＡ＿Ｗ＿ＤＬＰまたはＢＬＡ＿Ｎ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するＢＬＡピクチャと結び付けられたいかなるＲＡＳＬピクチャも存在しない。ビットストリーム内には、ＢＬＡ＿Ｎ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するＢＬＡピクチャと結び付けられた、またはＩＤＲ＿Ｎ＿ＬＰに等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有するＩＤＲピクチャと結び付けられたいかなるＲＡＤＬピクチャも存在しない。ＣＲＡまたはＢＬＡピクチャと結び付けられたあらゆるＲＡＳＬピクチャが、出力順でＣＲＡまたはＢＬＡピクチャと結び付けられたあらゆるＲＡＤＬピクチャに先行するように制約を受ける可能性がある。ＣＲＡピクチャと結び付けられたあらゆるＲＡＳＬピクチャが、デコーディング順でＣＲＡピクチャに先行する他のあらゆるＲＡＰピクチャに出力順で後続するように制約を受ける可能性がある。

ＨＥＶＣでは、時間サブレイヤー・スイッチング・ポイントを標示するために使用可能である２つのピクチャ・タイプ、すなわちＴＳＡおよびＳＴＳＡピクチャ・タイプが存在する。最高ＮのＴｅｍｐｏｒａｌＩｄを有する時間サブレイヤーがＴＳＡまたはＳＴＳＡピクチャ（排他的）までデコーディングされており、ＴＳＡまたはＳＴＳＡピクチャがＮ＋１に等しいＴｅｍｐｏｒａｌＩｄを有する場合、ＴＳＡまたはＳＴＳＡピクチャは、Ｎ＋１に等しいＴｅｍｐｏｒａｌＩｄを有する（デコーディング順での）全ての後続するピクチャのデコーディングを可能にする。ＴＳＡピクチャ・タイプは、ＴＳＡピクチャ自体およびデコーディング順でＴＳＡピクチャに後続する同じサブレイヤー内の全てのピクチャに対し、制約を課すことができる。これらのピクチャのいずれも、デコーディング順でＴＳＡピクチャに先行する同じサブレイヤー内のいずれかのピクチャからのインター予測を使用することを許容されない。ＴＳＡの定義はさらに、デコーディング順でＴＳＡピクチャに後続するより上位のサブレイヤー内のピクチャに対して制約を課すことができる。これらのピクチャのいずれも、ＴＳＡピクチャと同じかまたはより上位のサブレイヤーに属するピクチャである場合は、デコーディング順でＴＳＡピクチャに先行するピクチャを参照することは許容されない。ＴＳＡピクチャは、０より大きいＴｅｍｐｏｒａｌＩｄを有する。ＳＴＳＡはＴＳＡピクチャと類似しているが、デコーディング順でＳＴＳＡピクチャに後続するより上位のサブレイヤー内のピクチャに対し制約を課すことはなく、したがってＳＴＳＡピクチャが存在するサブレイヤー上のみへのアップ・スイッチングを可能にする。

非ＶＣＬＮＡＬユニットは、例えば、以下のタイプの１つであることができる。すなわちシーケンス・パラメータ・セット、ピクチャ・パラメータ・セット、補足エンハンスメント情報（ＳＥＩ）ＮＡＬユニット、アクセス・ユニット・デリミター、ローカル・エリア・ネットワーク終了ＮＡＬユニット、ストリーム終了ＮＡＬユニット、またはフィルター・データＮＡＬユニット。

デコーデッド・ピクチャの再構成のためにはパラメータ・セットが必要とされ得るが、一方、デコーデッド・サンプル値の再構成のために、他の非ＶＣＬＮＡＬユニットの多くが必要でない。

コーデッド・ビデオ・シーケンス全体を通して未変更のままであるパラメータを、シーケンス・パラメータ・セット内に含むことができる。デコーディング・プロセスによって必要とされ得るパラメータに加えて、シーケンス・パラメータ・セットは、任意には、バッファリング、ピクチャ出力タイミング、レンダリング、およびリソース予約にとって重要である可能性のあるパラメータを含むビデオ・ユーザビリティ情報（ＶＵＩ）を格納することができる。Ｈ．２６４／ＡＶＣ内には、シーケンス・パラメータ・セットを搬送するように規定された３つのＮＡＬユニットが存在する。すなわち、シーケンス内のＨ．２６４／ＡＶＣＶＣＬＮＡＬユニットのための全てのデータを格納するシーケンス・パラメータ・セットＮＡＬユニット、補助的コーデッド・ピクチャのためのデータを格納するシーケンス・パラメータ・セット拡張ＮＡＬユニットおよびＭＶＣおよびＳＶＣＶＣＬＮＡＬユニットのためのサブセット・シーケンス・パラメータ・セット。ＨＥＶＣ規格において、シーケンス・パラメータ・セットＲＢＳＰは、１つ以上のピクチャ・パラメータ・セットＲＢＳＰまたはバッファリング周期ＳＥＩメッセージを格納する１つ以上のＳＥＩＮＡＬユニットによって参照され得るパラメータを含む。ピクチャ・パラメータ・セットは、複数のコーデッド・ピクチャ内で未変更である確率の高いパラメータを格納する。ピクチャ・パラメータ・セットＲＢＳＰは、１つ以上のコーデッド・ピクチャのコーデッド・スライスＮＡＬユニットによって参照され得るパラメータを含むことができる。

ＨＥＶＣでは、ビデオ・パラメータ・セット（ＶＰＳ）は、各スライス・セグメント・ヘッダー内に見られるシンタックス要素により参照されるＰＰＳ内に見出されるシンタックス要素により参照されるＳＰＳ内に見出されるシンタックス要素のコンテンツによって決定されるようなゼロ以下の全コーデッド・ビデオ・シーケンス全体にあてはまるシンタックス要素を格納するシンタックス構造として定義される可能性がある。

ビデオ・パラメータ・セットＲＢＳＰは、１つ以上のシーケンス・パラメータ・セットＲＢＳＰにより参照され得るパラメータを含むことができる。

ビデオ・パラメータ・セット（ＶＰＳ）、シーケンス・パラメータ・セット（ＳＰＳ）、およびピクチャ・パラメータ・セット（ＰＰＳ）の間の関係および階層は、以下のように説明することができる。ＶＰＳは、パラメータ・セット階層内およびスケーラビリティおよび／または３Ｄビデオのコンテキスト内で、ＳＰＳよりも１レベル上に存在する。ＶＰＳは、全コーデッド・ビデオ・シーケンス内の全ての（スケーラビリティまたはビュー）層に跨る全てのスライスについて共通であるパラメータを含むことができる。ＳＰＳは、全コーデッド・ビデオ・シーケンス内の特定の（スケーラビリティまたはビュー）層内の全てのスライスについて共通であるパラメータを含み、多数の（スケーラビリティまたはビュー）層によって共有されることができる。ＰＰＳは、特定の層表現（１つのアクセス・ユニット内の１つのスケーラビリティまたはビューの表現）内の全てのスライスについて共通であるパラメータを含み、多数の層表現内の全てのスライスにより共有される確率が高い。

ＶＰＳは、ビットストリーム内の層の依存性関係についての情報ならびに、全コーデッド・ビデオ・シーケンス内の全ての（スケーラビリティまたはビュー）層を横断して全てのスライスに対して適用可能である多くの他の情報を提供できる。ＨＥＶＣの多層拡張において、ＶＰＳは、例えば、１つ以上のスケーラビリティ次元値に対するＮＡＬユニット・ヘッダーから導出されたｎｕｈ＿ｌａｙｅｒ＿ｉｄのマッピングを含むこと、例えば、ＳＶＣおよびＭＶＣに類似した形で定義された層についてのｄｅｐｅｎｄｅｎｃｙ＿ｉｄ、ｑｕａｌｉｔｙ＿ｉｄ、ｖｉｅｗ＿ｉｄおよびｄｅｐｔｈ＿ｆｌａｇに対応することができる。ＶＰＳは、１つ以上の層についてのプロファイルおよびレベル情報、ならびに層表現の（一定のＴｅｍｐｏｒａｌ＿ｉｄ値以下のＶＣＬＮＡＬユニットからなる）１つ以上の時間サブレイヤーについてのプロファイルおよび／またはレベルを含むことができる。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣシンタックスは、多くのパラメータ・セット・インスタンスを許容し、各インスタンスは、一意識別子で識別される。パラメータ・セットに必要とされるメモリ使用量を制限する目的で、パラメータ・セット識別子のための値範囲は制限されてきた。Ｈ．２６４／ＡＶＣおよびＨＥＶＣ規格において、各スライス・ヘッダーは、そのスライスを格納するピクチャのデコーディングのためにアクティブであるピクチャ・パラメータ・セットの識別子を含み、各ピクチャ・パラメータ・セットは、アクティブなシーケンス・パラメータ・セットの識別子を格納する。その結果、ピクチャおよびシーケンス・パラメータ・セットの伝送をスライスの伝送と正確に同期する必要はない。その代りに、アクティブ・シーケンスとピクチャ・パラメータ・セットが、参照される前の任意の瞬間において受信されるだけで充分であり、こうして、スライス・データのために用いられるプロトコルと比べてより信頼性の高い伝送メカニズムを用いて「帯域外」のパラメータ・セットの伝送が可能になる。例えば、実時間トランスポート・プロトコル（ＲＴＰ）・セッションのためのセッション記述の中に１つのパラメータとしてパラメータ・セットを含むことができる。パラメータ・セットが帯域内伝送される場合、エラー・ロバストネスを改善するためにこれらを反復することができる。

パラメータ・セットは、スライスからまたは別のアクティブ・パラメータ・セットから、またはいくつかの場合においてはバッファリング周期ＳＥＩメッセージなどの別のシンタックス構造からの参照によって活動化されることができる。

ＳＥＩＮＡＬユニットは、出力ピクチャのデコーディングのためには必要とされないもののピクチャ出力タイミング、レンダリング、誤り検出、誤り隠蔽およびリソース予約などの関連するプロセスを補助することのできる１つ以上のＳＥＩメッセージを格納することができる。Ｈ．２６４／ＡＶＣおよびＨＥＶＣには、いくつかのＳＥＩメッセージが規定されており、ユーザー・データＳＥＩメッセージは、組織や会社が独自の使用のためにＳＥＩメッセージを規定することを可能にする。Ｈ．２６４／ＡＶＣおよびＨＥＶＣは、規定されたＳＥＩメッセージのためのシンタックスおよびセマンティクスを含むが、受信者におけるメッセージのハンドリング・プロセスは全く定義していない。その結果、エンコーダは、ＳＥＩメッセージを作成するときＨ．２６４／ＡＶＣ規格またはＨＥＶＣ規格に従うことが求められ、それぞれＨ．２６４／ＡＶＣ規格またはＨＥＶＣ規格に適合するデコーダは、出力順序の適合性のためにＳＥＩメッセージを処理することを求められない。Ｈ．２６４／ＡＶＣおよびＨＥＶＣの中にＳＥＩメッセージのシンタックスおよびセマンティクスを含む理由の１つは、異なるシステム仕様が、補足的情報を同一に解釈し、ひいては相互運用できるようにするためである。システム仕様が、エンコーディング目的およびデコーディング目的の両方において特定のＳＥＩメッセージの使用を求めることができ、さらに、受信者において特定のＳＥＩメッセージをハンドリングするためのプロセスが規定され得ることが、意図されている。

コーデッド・ピクチャは、ピクチャのコーディングされた表現である。Ｈ．２６４／ＡＶＣにおけるコーデッド・ピクチャは、ピクチャのデコーディングに求められるＶＣＬＮＡＬユニットを含む。Ｈ．２６４／ＡＶＣでは、コーデッド・ピクチャは一次コーデッド・ピクチャまたは冗長コーデッド・ピクチャであり得る。一次コーデッド・ピクチャは、有効ビットストリームのデコーディング・プロセス内で使用され、一方、冗長コーデッド・ピクチャは、一次コーデッド・ピクチャがうまくデコーディングされ得ない場合にのみデコーディングされるべき冗長表現である。ＨＥＶＣでは、冗長コーデッド・ピクチャは全く規定されていない。

Ｈ．２６４／ＡＶＣにおいて、アクセス・ユニットは、一次コーデッド・ピクチャおよびそれに結び付けられたＮＡＬユニットを含む。Ｈ．２６４／ＡＶＣでは、アクセス・ユニット内部のＮＡＬユニットの出現順序は、以下のような制約を受ける。任意のアクセス・ユニット・デリミターＮＡＬユニットが、アクセス・ユニットの開始を標示することができる。それには、ゼロ以上のＳＥＩＮＡＬユニットが続く。一次コーデッド・ピクチャのコーデッド・スライスは、その次に現われる。Ｈ．２６４／ＡＶＣにおいて、一次コーデッド・ピクチャのコーデッド・スライスの後には、ゼロ以上の冗長コーデッド・ピクチャのためのコーデッド・スライスが続くことができる。冗長コーデッド・ピクチャは、ピクチャまたはピクチャの一部分のコーディングされた表現である。一次コーデッド・ピクチャが、例えば伝送損失または物理的記憶媒体内のデータ破損に起因してデコーダにより受信されない場合、冗長コーデッド・ピクチャがデコーディングされる可能性がある。

Ｈ．２６４／ＡＶＣでは、アクセス・ユニットは同様に、一次コーデッド・ピクチャを補足し例えば表示プロセスにおいて使用できるピクチャである補助コーデッド・ピクチャを含むこともできる。補助コーデッド・ピクチャを、例えばデコーデッド・ピクチャ内のサンプルの透明性レベルを規定するアルファ・チャネルまたはアルファ・プレーンとして使用することができる。少なくとも部分的に透明であるピクチャを互いに重ね合わせることによって出力ピクチャが形成される層状電子組版またはレンダリング・システムにおいて、アルファ・チャネルまたはプレーンを使用することができる。補助コーデッド・ピクチャは、モノクロ冗長コーデッド・ピクチャと同じシンタックスおよびセマンティクス上の制約を有する。Ｈ．２６４／ＡＶＣでは、補助コーデッド・ピクチャは、一次コーデッド・ピクチャと同じ数のマクロブロックを格納する。

ＨＥＶＣでは、アクセス・ユニットを、規定された分類規則にしたがって互いに結び付けられ、デコーディング順に連続し、正確に１つのコーデッド・ピクチャを格納する１組のＮＡＬユニットとして定義することができる。コーデッド・ピクチャのＶＣＬＮＡＬユニットを格納することに加えて、アクセス・ユニットは、同様に非ＶＣＬＮＡＬユニットを格納することもできる。アクセス・ユニットのデコーディングはつねに、デコーデッド・ピクチャを結果としてもたらす。

Ｈ．２６４／ＡＶＣでは、コーデッド・ビデオ・シーケンスは、ＩＤＲアクセス・ユニットを含めて、このＩＤＲアクセス・ユニットから、次のＩＤＲアクセス・ユニットを含めずにこの次のＩＤＲアクセス・ユニットまでか、あるいはビットストリームの終りまで、のいずれか先に出現する方までのデコーディング順で、連続するアクセス・ユニットのシーケンスであるものとして定義される。ＨＥＶＣ規格では、コーデッド・ビデオ・シーケンスは、デコーディング順で、ビットストリーム内の最初のアクセス・ユニットであるＣＲＡアクセス・ユニット、ＩＤＲアクセス・ユニットまたはＢＬＡアクセス・ユニットと、それに続いて任意の後続するＩＤＲまたはＢＬＡアクセス・ユニットを含めずに、このＩＤＲまたはＢＬＡアクセス・ユニットまでの全ての後続するアクセス・ユニットを含めたゼロ以上の非ＩＤＲおよび非ＢＬＡアクセス・ユニットと、で構成されるアクセス・ユニットのシーケンスであるものとして定義することができる。

ビットストリームは、コーデッド・ピクチャおよび１つ以上のコーデッド・ビデオ・シーケンスを形成する結び付けられたデータの表現を形成する、ＮＡＬユニット・ストリームまたはバイト・ストリームの形をしたビット・シーケンスとして定義することができる。第１のビットストリームの後には、時として同じ基本ストリームとも呼ばれる通信プロトコルの同じ接続内または同じファイル内など、同じ論理チャネル内の第２のビットストリームが続くことができる。第１のビットストリームの終りは、特定のＮＡＬユニットにより表示され、このＮＡＬユニットはビットストリーム終結（ＥＯＢ）ＮＡＬユニットと呼ぶことができ、これはビットストリームの最後のＮＡＬユニットである。ＨＥＶＣおよびその現在のドラフト拡張では、ＥＯＢＮＡＬユニットは、０に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有することが求められる。

ピクチャ・グループ（ＧＯＰ）およびその特徴は、以下のように定義できる。ＧＯＰは、いずれかの先行するピクチャがデコーディングされたか否かとは無関係にデコーディング可能である。オープンＧＯＰとは、デコーディングがオープンＧＯＰの最初のイントラ・ピクチャから開始しない場合、出力順で最初のイントラ・ピクチャに先行するピクチャが正しくデコーディングされない可能性のあるピクチャ・グループである。換言すると、オープンＧＯＰのピクチャは、（インター予測において）先行するＧＯＰに属するピクチャを参照することができる。Ｈ．２６４／ＡＶＣデコーダは、Ｈ．２６４／ＡＶＣビットストリーム内の回復点ＳＥＩメッセージからオープンＧＯＰを開始するイントラ・ピクチャを認識することができる。ＨＥＶＣデコーダは、特定のＮＡＬユニット・タイプ、つまりＣＲＡＮＡＬユニット・タイプがそのコーデッド・スライスのために使用可能であることから、オープンＧＯＰを開始するイントラ・ピクチャを認識することができる。クローズドＧＯＰは、デコーディングがクローズドＧＯＰの最初のイントラ・ピクチャから開始する場合に全てのピクチャが正しくデコーディングされ得るピクチャ・グループである。換言すると、クローズドＧＯＰ内のいずれのピクチャも、先行するＧＯＰ内のピクチャを参照しない。Ｈ．２６４／ＡＶＣおよびＨＥＶＣにおいて、クローズドＧＯＰは、ＩＤＲアクセス・ユニットから開始するものとみなされる場合がある。その結果として、クローズドＧＯＰ構造には、オープンＧＯＰ構造に比べて、より高い誤り耐性の潜在力があるが、その代償として、圧縮効率が削減される可能性がある。オープンＧＯＰコーディング構造は、参照ピクチャの選択の融通性がより大きいものであることから、潜在的により圧縮効率が高い。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣは、ピクチャ順序カウント（ＰＯＣ）の概念を含む。ＰＯＣの値は、各ピクチャについて導出され、出力順でピクチャ位置の増加に伴って減少しない。したがって、ＰＯＣは、ピクチャの出力順を標示する。ＰＯＣは、例えば、双方向予測スライスの時間直接モードにおける動きベクトルの暗示的スケーリングのため、重み付き予測における暗示的に導出された重みのため、および参照ピクチャ・リストの初期化のためのデコーディング・プロセスにおいて使用可能である。さらに、出力順の適合性を確認する上でＰＯＣを使用することができる。Ｈ．２６４／ＡＶＣにおいて、ＰＯＣは、先行するＩＤＲピクチャまたは、全てのピクチャを「参照として未使用」としてマーキングするメモリ管理制御オペレーションを格納するピクチャとの関係において規定される。

Ｈ．２６５／ＨＥＶＣでは、多層拡張が使用されない場合、ピクチャ順序カウント（デ）コーディングおよび導出は、以下のように実施される。

ＰＯＣは、１に等しいＮｏＲａｓｌＯｕｔｐｕｔＦｌａｇを有する先行するＩＲＡＰピクチャとの関係において規定される。ＮｏＲａｓｌＯｕｔｐｕｔＦｌａｇの値は、デコーディング順でビットストリーム内の最初のピクチャであるか、デコーディング順でシーケンス終結ＮＡＬユニットに続く最初のピクチャであるか、または１に等しいＨａｎｄｌｅＣｒａＡｓＢｌａＦｌａｇを有する、各ＩＤＲピクチャ、各ＢＬＡピクチャおよび各ＣＲＡピクチャについて１に等しい。

（ＬＳＢのためのＩＤＲピクチャ以外の）各ピクチャについて、ＰＯＣ値の最下位ビット（ＬＳＢ）の４〜１６ビットが、ビットストリーム内にエンコーディングされ、および／またはビットストリームからデコーディングされる。より具体的には、ＬＳＢは、（ＩＤＲピクチャ以外のピクチャ・タイプについて）スライス・セグメント・ヘッダー内に存在するｕ（ｖ）−コーデッドｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂシンタックス要素によって表現される。ｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂシンタックス要素のビット数は、シーケンス・パラメータ・セットシンタックス構造内のｕｅ（ｖ）−コーデッドｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４シンタックス要素によって規定される。ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４は同様に、
ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂ＝２^{(log2_max_pic_order_cnt_lsb_minus4+4)}
というピクチャ順序カウントのためのデコーディング・プロセス中で使用される変数ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂの値をも規定する。ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４の値は、０以上１２以下の範囲内にある。

シグナリングされたＰＯＣＬＳＢは、現行ピクチャのＰＯＣ値が、０に等しいＴｅｍｐｏｒａｌＩｄを有しＲＡＳＣピクチャ、ＲＡＤＬピクチャまたはサブレイヤー非参照ピクチャでないデコーディング順で先行するピクチャのＰＯＣ値よりも小さいか大きいかを決定するために使用される。この先行するピクチャは、Ｈ．２６５／ＨＥＶＣデコーディング・プロセスにおいてｐｒｅｖＴｉｄ０Ｐｉｃと呼ばれる。

現行ピクチャのピクチャ順序カウント、ＰｉｃＯｒｄｅｒＣｕｔＶａｌを導出するデコーディング・プロセスは、以下のように実施される。

現行ピクチャが、１に等しいＮｏＲａｓｌＯｕｔｐｕｔＦｌａｇを有するＩＲＡＰピクチャでない場合、変数ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂおよびｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂは、以下のように導出される。
− ｐｒｅｖＴｉｄ０Ｐｉｃを、０に等しいＴｅｍｐｏｒａｌＩｄを有し、ＲＡＳＬピクチャ、ＲＡＰＬピクチャまたはサブレイヤー非参照ピクチャでないデコーディング順で先行するピクチャとする。
− 変数ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂは、ｐｒｅｖＴｉｄ０Ｐｉｃのｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂに等しくセットされる。
− 変数ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂは、ｐｒｅｖＴｉｄ０ＰｉｃのＰｉｃＯｒｄｅｒＣｎｔＭｓｂに等しくセットされる。

現行ピクチャの変数ＰｉｃＯｒｄｅｒＣｎｔＭｓｂは、以下のように導出される。
− 現行ピクチャが１に等しいＮｏＲａｓｌＯｕｔｐｕｔＦｌａｇを有するＩＲＡＰピクチャである場合、ＰｉｃＯｒｄｅｒＣｎｔＭｓｂは０に等しくセットされる。
− そうでなければ、ＰｉｃＯｒｄｅｒＣｎｔＭｓｂは以下のように導出される。
（（ｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＜ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂ）＆＆
（（ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂ−ｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ）＞＝（ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂ／２）））である場合、
ＰｉｃＯｒｄｅｒＣｎｔＭｓｂ＝ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂ＋ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂ
さもなければ、（（ｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＞ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂ）＆＆
（（ｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ−ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂ）＞（ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂ／２）））である場合、
ＰｉｃＯｒｄｅｒＣｎｔＭｓｂ＝ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂ−ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂ
あるいは、
ＰｉｃＯｒｄｅｒＣｎｔＭｓｂ＝ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂ

ＰｉｃＯｒｄｅｒＣｎｔＶａｌは、以下のように導出される。
ＰｉｃＯｒｄｅｒＣｎｔＶａｌ＝ＰｉｃＯｒｄｅｒＣｎｔＭｓｂ＋ｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ

上述のプロセスには、ｓｌｉｃｅ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂがＩＤＲピクチャについて０であると推論され、ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂおよびｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂが両方共０に等しいことから、全てのＩＤＲピクチャが０に等しいＰｉｃＯｒｄｅｒＣｎｔＶａｌを有することになるという影響がある。

関数ＰｉｃＯｒｄｅｒＣｎｔ（ｐｉｃＸ）は、以下のように規定される。
ＰｉｃＯｒｄｅｒＣｎｔ（ＰｉｃＸ）＝ピクチャｐｉｃＸのＰｉｃＯｒｄｅｒＣｎｔＶａｌ

関数ＤｉｆｆＰｉｃＯｒｄｅｒＣｎｔ（ｐｉｃＡ，ｐｉｃＢ）は、以下のように規定される。
ＤｉｆｆＰｉｃＯｒｄｅｒＣｎｔ（ｐｉｃＡ，ｐｉｃＢ）＝ＰｉｃＯｒｄｅｒＣｎｔ（ｐｉｃＡ）−ＰｉｃＯｒｄｅｒＣｎｔ（ｐｉｃＢ）

Ｈ．２６５／ＨＥＶＣでは、いかなる多層拡張も使用されていない場合、ＰｉｃＯｒｄｅｒＯｎｔＶａｌの値は、−２³¹以上２³¹−１以下の範囲内にあることが求められる。１つのコーデッド・ビデオ・シーケンス内で、任意の２つのコーデッド・ピクチャについてのＰｉｃＯｒｄｅｒＣｎｔＶａｌ値は異なるものである。さらに、Ｈ．２６５／ＨＥＶＣでは、−２¹⁵以上２¹⁵−１以下の範囲内にないデコーディング・プロセス内で使用されるＤｉｆｆＰｉｃＯｒｄｅｒＣｎｔ（ｐｉｃＡ、ｐｉｃＢ）の値を結果としてもたらすデータをビットストリームが格納していないことが求められる。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣのビットストリーム・シンタックスは、特定のピクチャが、任意の他のピクチャのインター予測のための参照ピクチャであるか否かを標示する。任意のコーディングタイプ（Ｉ，Ｐ、Ｂ）のピクチャが、Ｈ．２６４／ＡＶＣおよびＨＥＶＣ内の参照ピクチャまたは非参照ピクチャとなることができる。

Ｈ．２６４／ＡＶＣは、デコーダ内のメモリ消費を制御する目的でデコーデッド参照ピクチャ・マーキングのためのプロセスを規定する。Ｍと呼ばれるインター予測のために使用される参照ピクチャの最大数は、シーケンス・パラメータ・セット内で決定される。参照ピクチャがデコーディングされた場合、それは「参照として使用」とマーキングされる。参照ピクチャのデコーディングがＭ個超のピクチャに対する「参照として使用」のマーキングをひき起こした場合、少なくとも１つのピクチャは「参照として未使用」のマーキングが付される。デコーデッド参照ピクチャ・マーキングのオペレーションには、２つのタイプが存在する。すなわち、適応メモリ制御とスライディング・ウィンドウである。デコーデッド参照ピクチャ・マーキングのオペレーション・モードは、ピクチャ・ベースで選択される。適応メモリ制御は、どのピクチャが「参照として未使用」とマーキングされているかの明示的シグナリングを可能にし、同様に、ショート・ターム参照ピクチャに対しロング・ターム指標も割当てる。適応メモリ制御は、ビットストリーム内にメモリ管理制御オペレーション（ＭＭＣＯ）パラメータが存在することを必要とする。ＭＭＣＯパラメータは、デコーデッド参照ピクチャ・マーキング・シンタックス構造中に含まれることができる。スライディング・ウィンドウ・オペレーション・モードが使用されており、「参照として使用」とマーキングされたＭ個のピクチャが存在する場合、「参照として使用」とマーキングされたショート・ターム参照ピクチャのうちの最初のデコーデッド・ピクチャであったショート・ターム参照ピクチャは、「参照として未使用」としてマーキングされる。換言すると、スライディング・ウィンドウ・オペレーション・モードは、ショート・ターム参照ピクチャ中の先入れ先出しバッファリングオペレーションを結果としてもたらす。

Ｈ．２６４／ＡＶＣにおけるメモリ管理制御オペレーションの１つは、現行ピクチャ以外の全ての参照ピクチャを「参照として未使用」とマーキングさせる。瞬間デコーディング・リフレッシュ（ＩＤＲ）ピクチャは、イントラ・コーデッド・スライスのみを格納し、参照ピクチャの類似の「リセット」をひき起こす。

ＨＥＶＣ規格では、参照ピクチャ・マーキング・シンタックス構造および関連するデコーディング・プロセスは使用されず、代りに、類似の目的で参照ピクチャ・セット（ＲＰＳ）シンタックス構造およびデコーディング・プロセスが使用される。１つのピクチャについて有効またはアクティブである参照ピクチャ・セットは、そのピクチャのための参照として使用される全ての参照ピクチャおよびデコーディング順で後続する任意のピクチャについて「参照として使用」とマーキングされたままである全ての参照ピクチャを含む。すなわちＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌと呼ばれる参照ピクチャ・セットのサブセットが６個存在する。この６個のサブセットの表記法は、以下の通りである。「Ｃｕｒｒ」は、現行ピクチャの参照ピクチャ・リスト内に含まれる参照ピクチャを意味し、したがって、現行ピクチャのためのインター予測参照として使用することができる。「Ｆｏｌｌ」は、現行ピクチャの参照ピクチャ・リスト内に含まれていないもののデコーディング順で後続するピクチャ内で参照ピクチャとして使用できる参照ピクチャを意味する。「Ｓｔ」は、概してそのＰＯＣ値の一定数の最下位ビットを通して識別可能なショート・ターム参照ピクチャを意味する。「Ｌｔ］は、特定的に識別され概して、言及された一定数の最下位ビットにより表現できるものよりも大きい現行ピクチャと比べたＰＯＣ値の差を有するロング・ターム参照ピクチャを意味する。「０」は、現行ピクチャのＰＯＣ値に比べて小さいＰＯＣ値を有する参照ピクチャを意味する。「１」は、現行ピクチャのＰＯＣ値よりも大きいＰＯＣ値を有する参照ピクチャを意味する。ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０およびＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１は、集合的に参照ピクチャ・セットのショート・ターム・サブセットと呼ばれる。ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌは、集合的に参照ピクチャ・セットのロング・ターム・サブセットと呼ばれる。

ＨＥＶＣ規格では、参照ピクチャ・セットを、シーケンス・パラメータ・セット内で規定し、スライス・ヘッダー内で参照ピクチャ・セットに対する指標を通して使用することができる。参照ピクチャ・セットを同様に、スライス・ヘッダー内で規定することもできる。参照ピクチャ・セットのロング・ターム・サブセットは、概してスライス・ヘッダー内でのみ規定され、一方、同じ参照ピクチャ・セットのショート・ターム・サブセットは、ピクチャ・パラメータ・セットまたはスライス・ヘッダー内で規定することができる。参照ピクチャ・セットは独立してコーディングできるか、または別の参照ピクチャ・セットから予測することもできる（インターＲＰＣ予測として知られる）。参照ピクチャが独立してコーディングされた場合、シンタックス構造は、異なるタイプの参照ピクチャ全体にわたって反復する最高３つのループを含む。すなわち、現行ピクチャよりも低いＰＯＣ値を有するショート・ターム参照ピクチャ、現行ピクチャよりも高いＰＯＣ値を有するショート・ターム参照ピクチャおよびロング・ターム参照ピクチャである。各ループ・エントリは、「参照として使用」とマーキングされるべきピクチャを規定する。概して、ピクチャは差動ＰＯＣ値と共に規定される。インターＲＰＳ予測は、現行のピクチャの参照ピクチャ・セットが、先にデコーディングされたピクチャの参照ピクチャ・セットから予測可能であるという事実を有効利用する。これは、現行ピクチャの全ての参照ピクチャが、先行するピクチャの参照ピクチャであるかまたは先にデコーディングされたピクチャ自体であるからである。これらのピクチャのうちのいずれが参照ピクチャとなり現行ピクチャの予測のために使用されるべきかを標示することしか必要でない。両方のタイプの参照ピクチャ・セット・コーディングにおいて、各々の参照ピクチャについて追加で、現行のピクチャによる参照のために参照ピクチャが使用される（^*Ｃｕｒｒリストに含まれる）か否か（^*Ｆｏｌｌリストに含まれる）を標示するフラグ（ｕｓｅｄ＿ｂｙ＿ｃｕｒｒ＿ｐｉｅ＿Ｘ＿ｆｌａｇ）が送信される。現行スライスにより使用される参照ピクチャ・セットに含まれたピクチャは、「参照として使用」とマーキングされ、現行スライスにより使用される参照ピクチャ・セット内にないピクチャは、「参照として未使用」とマーキングされる。現行ピクチャがＩＤＲピクチャである場合、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌは全て、空にセットされる。

デコーデッド・ピクチャ・バッファ（ＤＰＢ）を、エンコーダおよび／またはデコーダ内で使用することができる。デコーデッド・ピクチャをバッファリングする理由は２つある。すなわち、インター予測での参照のためと、デコーデッド・ピクチャを出力順に再順序付けするためである。Ｈ．２６４／ＡＶＣおよびＨＥＶＣは参照ピクチャ・マーキングおよび出力再順序付けの両方のための高い融通性を提供することから、参照ピクチャ・バッファリングおよび出力ピクチャ・バッファリングのために別々のバッファを使うことは、メモリ・リソースを浪費する可能性がある。したがって、ＤＰＢは、参照ピクチャおよび出力再順序付けのための統一型デコーデッド・ピクチャバッファリング・プロセスを含む。デコーデッド・ピクチャは、それがもはや参照として使用されず出力のために必要とされなくなった時点で、ＤＰＢから削除することができる。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣの多くのコーディング・モードにおいて、インター予測のための参照ピクチャは、参照ピクチャ・リストに指標と共に標示される。指標は、通常比較的小さい指標が対応するシンタックス要素について比較的短い値を有するようにする可変長コーディングを用いてコーディングすることができる。Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、各々の双方向予測（Ｂ）スライスのために２つの参照ピクチャ・リスト（参照ピクチャ・リスト０と参照ピクチャ・リスト１）が生成され、各インター・コーデッド（Ｐ）スライスのためには、１つの参照ピクチャ・リスト（参照ピクチャ・リスト０）が形成される。

参照ピクチャ・リスト０および参照ピクチャ・リスト１などの参照ピクチャ・リストは、典型的に次の２つのステップで作成される。すなわち、第１に、初期参照ピクチャが生成される。初期参照ピクチャ・リストは、ｆｒａｍｅ＿ｎｕｍ、ＰＯＣ、ｔｅｍｐｏｒａｌ＿ｉｄ、またはＧＯＰ構造などの予測階層についての情報、あるいはそれらの任意の組合せに基づいて生成可能である。第２に、スライス・ヘッダー内に格納できる参照ピクチャ・リスト修正シンタックス構造としても知られている参照ピクチャ・リスト再順序付け（ＲＰＬＲ）コマンドによって、初期参照ピクチャ・リストを再順序付けすることができる。Ｈ．２６４／ＡＶＣでは、ＲＰＬＲコマンドは、それぞれの参照ピクチャ・リストの始めに順序付けされるピクチャを標示する。この第２のステップは、同様に、参照ピクチャ・リスト修正プロセスと呼ぶこともでき、ＲＰＬＲコマンドを参照ピクチャ・リスト修正シンタックス構造中に含ませることができる。参照ピクチャ・セットが使用される場合、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０を、最初に、それに続いてＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、それに続いてＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒを格納するように、参照ピクチャ・リスト０を初期化することができる。参照ピクチャ・リスト１は、まずはＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、それに続いてＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０を格納するように初期化することができる。ＨＥＶＣでは、参照ピクチャ・リスト修正シンタックス構造を通して初期参照ピクチャ・リストを修正でき、ここで、初期参照ピクチャ・リスト内のピクチャは、このリストに対するエントリ指標を通して識別可能である。換言すると、ＨＥＶＣでは、参照ピクチャ・リスト修正は、最終的参照ピクチャ・リスト内の各エントリ全体にわたり１つのループを含むシンタックス構造へとエンコーディングされ、ここで各ループ・エントリは、初期参照ピクチャ・リストに対する固定長のコーデッド指標であり、最終的参照ピクチャ・リスト内において上昇位置順でピクチャを標示する。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣを含めた多くのコーディング規格が、多数の参照ピクチャのうちのどれが特定のブロックについてのインター予測のために使用されるかを標示するのに使用できる、参照ピクチャ、・リストに対する参照ピクチャ指標を導出するためのデコーディング・プロセスを有することができる。参照ピクチャ指標は、いくつかのインター・コーディング・モードでエンコーダによってビットストリームへとコーディングされることができるか、または、例えばいくつかのインター・コーディング・モードで隣接するブロックを用いて、（エンコーダおよびデコーダによって）導出されることができる。

ビットストリームで効率良く動きベクトルを表現するために、ブロック特定的な予測動きベクトルとの関係において差動的に動きベクトルをコーディングすることができる。多くのビデオ・コーデックにおいて、予測動きベクトルは、例えば、隣接ブロックのコーデッドまたはデコーデッド動きベクトルの中央値を計算することによって、既定の方法で作成される。アドバンスト動きベクトル予測（ＡＭＶＰ）と呼ばれることもある動きベクトル予測を作成するための別の方法は、時間的参照ピクチャ内の隣接ブロックおよび／またはコロケーテッド・ブロックから候補予測リストを生成し、選択された候補を動きベクトル予測子としてシグナリングすることにある。動きベクトル値を予測することに応えて、先にコーディング／デコーディングされたピクチャの参照指標を予測することができる。参照指標は、典型的には、時間的参照ピクチャ内の隣接ブロックおよび／またはコロケーテッド・ブロックから予測される。動きベクトルの差動コーディングは、典型的に、スライス境界に跨って無効化されている。

ＨＥＶＣコーデックなどの多くの高効率ビデオ・コーデックは、多くの場合マージング／マージ・モード／プロセス／メカニズムと呼ばれる追加の動き情報コーディング／デコーディング・メカニズムを利用し、ここでブロック／ＰＵの全ての動き情報が予測され、いかなる修正／補正もなく使用される。

スケーラブル・ビデオ・コーディングとは、１つのビットストリームが異なるビットレート、解像度またはフレーム・レートで多数のコンテンツの表現を格納することのできるコーディング構造を意味する。これらの場合において、受信機は、その特性（ディスプレー・デバイスに最も適合する解像度など）に応じて所望の表現を抽出することができる。代替的には、サーバーまたはネットワーク要素が、例えばネットワーク特性または受信機の処理能力に応じて、受信機に対し伝送すべきビットストリームの部分を抽出することができる。スケーラブル・ビットストリームは典型的には、利用可能な最低画質のビデオを提供する「ベース層」と、受信され下位層と合わせてデコーディングされたときビデオ画質を強化する１つ以上のエンハンスメント層とで構成されている。エンハンスメント層のためのコーディング効率を改善するために、この層のコーディングされた表現は、典型的に下位層に依存している。例えば、エンハンスメント層の動きおよびモード情報を、下位層から予測することができる。同様に、下位層の画素データを用いて、エンハンスメント層のための予測を作成することが可能である。

いくつかのスケーラブル・ビデオ・コーディング・スキームにおいては、ビデオ信号をベース層および１つ以上のエンハンスメント層にエンコーディングすることができる。エンハンスメント層は、時間解像度（すなわちフレーム・レート）、空間解像度、または単純に別の層またはその一部分により表現されるビデオ・コンテンツの画質を強化することができる。各層はその従属層と合わせて、一定の空間解像度、時間解像度および画質レベルでのビデオ信号の１つの表現である。本明細書では、スケーラブル層をその従属層全てと合わせて「スケーラブル層表現」と呼んでいる。スケーラブル層表現に対応するスケーラブル・ビットストリームの部分を抽出し、デコーディングして、一定の忠実度で原信号の表現を作り出すことができる。

いくつかのコーディング規格が、スケーラブル・ビットストリームの作成を可能にしている。スケーラブル・ビットストリームの一定の部分のみをデコーディングすることによって、意味のあるデコーデッド表現を作り出すことができる。スケーラブル・ビットストリームは、例えば、ストリーミング・サーバー内の予めエンコーディングされたユニキャスト・ストリームのレート適応のため、および異なる能力および／または異なるネットワーク条件を有する端末への単一ビットストリームの伝送のために使用可能である。スケーラブル・ビデオ・コーディングのいくつかの他の使用事例リストは、ＩＳＯ／ＩＥＣＪＴＣ１ＳＣ２９ＷＧ１１（ＭＰＥＧ）成果文書Ｎ５５４０、「ＡｐｐｌｉｃａｔｉｏｎｓａｎｄＲｅｑｕｉｒｅｍｅｎｔｓｆｏｒＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ」、ｔｈｅ６４^th ＭＰＥＧｍｅｅｔｉｎｇ、Ｍａｒｃｈ１０〜１４、２００３、Ｐａｔｔａｙａ、Ｔｈａｉｌａｎｄ中に見出すことができる。

利用可能なメディア・ファイル・フォーマット規格としては、ＩＳＯベース・メディア・ファイル・フォーマット（ＩＳＯ／ＩＥＣ１４４９６−１２、これはＩＳＯＢＭＦＦと略すことができる）、ＭＰＥＧ−４ファイル・フォーマット（ＩＳＯ／ＩＥＣ１４４９６−１４、これはＭＰ４フォーマットとしても知られている）、ＡＶＣファイル・フォーマット（ＩＳＯ／ＩＥＣ１４４９６−１５）および３ＧＰＰファイル・フォーマット（３ＧＰＰＴＳ２６．２４４、これは３ＧＰフォーマットとしても知られている）が含まれる。ＳＶＣおよびＭＶＣファイル・フォーマットは、ＡＶＣファイル・フォーマットの補正として規定されている。ＩＳＯファイル・フォーマットは、（ＩＳＯファイル・フォーマット自体を除く）上述の全てのファイル・フォーマットを導出するための基礎である。これらのファイル・フォーマット（ＩＳＯファイル・フォーマット自体を含む）は、概してＩＳＯファイル・フォーマット・ファミリーと呼ばれる。

ＩＳＯベース・メディア・ファイル・フォーマット内の基本的構成要素は、ボックスと呼ばれる。各ボックスはヘッダーとペイロードを有する。ボックス・ヘッダーは、ボックスのタイプおよびバイト数によるボックスのサイズを標示する。ボックスは、他のボックスを包み込むことができ、ＩＳＯファイル・フォーマットは、一定のタイプのボックス内にどのボックス・タイプが許容されるかを規定する。さらに、一部のボックスの存在は、各ファイル内で義務的であるのに対し、他のボックスの存在は任意であることができる。さらに、一部のボックス・タイプについては、１つのファイル内に２つ以上のボックスが存在することも許容可能である。こうして、ＩＳＯベース・メディア・ファイル・フォーマットは、ボックスの階層構造を規定するものとみなすことができる。

ＩＳＯファイル・フォーマット・ファミリーによると、１つのファイルは、ボックス内にカプセル化されるメディア・データおよびメタデータを含む。各ボックスは、４文字コード（４ＣＣ）によって識別され、ボックスのタイプおよびサイズを知らせるヘッダーで始まる。ＩＳＯＢＭＦＦボックス構造の例示的格納階層は、図５に示されている。

例示的実施形態において、メディア・データを、メディア・データ「ｍｄａｔ」ボックス内で提供することができ、ムービー「ｍｏｏｖ」ボックスを用いてメタデータを包み込むことができる。いくつかの場合においては、ファイルが動作可能となるためには、「ｍｄａｔ」および「ｍｏｏｖ」ボックスの両方が存在する必要がある可能性がある。ムービー「ｍｏｏｖ」ボックスは、１つ以上のトラックを含み、各トラックは、１つの対応するトラック「ｔｒａｋ」ボックス内に存在することができる。トラックは、メディア、ヒント、タイムド・メタデータのうちの１つのタイプであることができる。メディア・トラックは、メディア圧縮フォーマット（およびそのＩＳＯベース・メディア・ファイル・フォーマットへのカプセル化）にしたがってフォーマッティングされたサンプルを参照する。ヒント・トラックは、標示された通信プロトコル上での通信のためにパケットを構築するためのクックブック命令を格納するヒント・サンプルを参照する。クックブック命令は、パケット・ヘッダー構成用のガイダンスを含み、パケット・ペイロード構成を含むことができる。パケット・ペイロード構成においては、他のトラックまたは項目内に存在するデータを参照することができる。こうして、例えば、特定のトラックまたは項目内のどのデータがパケット構成プロセス中にパケット内にコピーされるように命令されているかについての参照によって、他のトラックまたは項目内に存在するデータを標示することができる。タイムド・メタデータ・トラックは、参照されたメディアおよび／またはヒント・サンプルを記述するサンプルを参照することができる。１つのメディア・タイプの提示のためには、典型的に１つのメディア・トラックが選択される。１つのトラックのサンプルは、標示されたサンプルのデコーディング順で１だけ増分されたサンプル番号と暗黙に結び付けることができる。トラック内の第１のサンプルを、サンプル番号１と結び付けることができる。

ＩＳＯベース・メディア・ファイル・フォーマットによる単純化されたファイル構造の一例を以下のように説明することができる。ファイルは、「「ｍｏｏｖ」ボックス」および「「ｍｄａｔ」ボックス」を含むことができ、「「ｍｏｏｖ」ボックス」は、それぞれ映像および音声に対応する１つ以上のトラックを含むことができる。

ＩＳＯベース・メディア・ファイル・フォーマットにしたがってフォーマティングされた多くのファイルが、ｆｔｙｐボックスとも呼ばれるファイル・タイプ・ボックスで始まる。ｆｔｙｐボックスは、ファイルをラべリングするブランドの情報を格納する。ｆｔｙｐボックスは、１つの主要ブランドの標示および互換ブランドのリストを含む。主要ブランドは、ファイルをパースするために使用するのに最も好適なファイル・フォーマット仕様を識別する。互換ブランドは、どのファイル・フォーマット仕様および／または適合点にファイルが適合しているかを標示する。ファイルが多数の仕様に適合していることも可能である。これらの仕様に対する互換性を示す全てのブランドが列挙されて、互換ブランドの１つのサブセットのみを理解するリーダーが、そのファイルがパース可能であることの標示を得ることができるようにすることが必要である。互換ブランドは同様に、特定のファイル・フォーマット仕様のファイル・パーサーがｆｔｙｐボックス内の同じ特定のファイル・フォーマットを格納するファイルを処理するための許可も与える。ファイル・プレイヤは、１つのファイルのｆｔｙｐボックスが、ファイル・プレイヤによってサポートされているブランドを含んでいるか否かをチェックすることができ、ファイル・プレイヤによってサポートされるいずれかのファイル・フォーマット仕様が互換ブランドの中に列挙されている場合にのみ、ファイルをパースし再生させることができる。

ＩＳＯＢＭＦＦに適合するファイルは、メタ・ボックス（ｆｏｕｒＣＣ：‘ｍｅｔａ’）内に任意の非タイムド・メタデータ・オブジェクトを格納できる。メタ・ボックスは、ムービー・ボックス（ｆｏｕｒＣＣ：‘ｍｏｏｖ’）の内部、およびトラック・ボックス（ｆｏｕｒＣＣ：‘ｔｒａｋ’）の内部では、ファイルの頂部レベルに存在できるが、ファイル・レベル、ムービー・レベル、またはトラック・レベルの各々において、多くとも１つのメタ・ボックスしか発生できない。メタ・ボックスは、「ｍｅｔａ」ボックス・コンテンツの構造またはフォーマットを標示する「ｈｄｌｒ」ボックスを格納するよう求められる可能性がある。メタ・ボックスは、参照され得る任意の数のメタデータ項目を列挙し特徴づけすることができ、それらの項目の各々は、１つのファイル名と結びつけられ得、整数である項目識別子（ｉｔｅｍ＿ｉｄ）によりファイルと共に一意的に識別される。メタデータ項目は、例えばメタ・ボックス内またはｍｄａｔボックス内に記憶されるかまたは別個のファイル内に存在することができる。メタデータがファイルの外部に位置設定される場合には、その場所は、ＤａｔａＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ｆｏｕｒＣＣ：‘ｄｉｎｆ’）により申告され得る。メタデータがＸＭＬシンタックスを用いてフォーマッティングされ、ＭｅｔａＢｏｘ内に直接記憶されるよう求められている具体的事例においては、メタデータをＸＭＬＢｏｘ（ｆｏｕｒＣＣ：‘ｘｍｌ’）またはＢｉｎａｒｙＸＭＬＢｏｘ（ｆｏｕｒｃｃ：‘ｂｘｍｌ’）のいずれかにカプセル化することができる。

階層の任意のレベル（ファイル、ムービーまたはトラック）において２つ以上のメタ・ボックスをサポートするためには、１つのＩＳＯベース・メディア・ファイル・フォーマットとして、メタ・ボックス・コンテナ・ボックス（「ｍｅｃｏ」）を使用することができる。メタ・ボックス・コンテナ・ボックスは、階層の任意のレベル（ファイル、ムービーまたはトラック）において、任意の数の追加のメタ・ボックスを持つことができる。これにより、例えば、同じメタデータが２つの異なる代替的メタ・データ・システム内で提示されていることを可能にすることができる。メタ・ボックス・リレーション・ボックス（「ｍｅｒｅ」）は、異なるメタ・ボックスが互いにどのように関係するか、例えばそれらが全く同じメタデータ（ただし異なるスキームで記述されている）を格納しているか否か、または一方が他方のスーパーセットを表わしているか否かを説明できるようにする可能性がある。

ＩＳＯベース・メディア・ファイル・フォーマットは、提示を１つのファイル内に格納されるようには限定しない。したがって、提示は複数のファイル内部に含まれることができる。一例として、１つのファイルは、提示全体のためのメタデータを含むことができ、こうして、提示を自己完結型にするために全てのメディア・データを含むことができる。他のファイルが使用される場合、これらはＩＳＯベース・メディア・ファイル・フォーマットにフォーマティングする必要がない可能性があり、メディア・データを含むために使用され得、同様に未使用メディア・データまたは他の情報を含むことができる。ＩＳＯベース・メディア・ファイル・フォーマットは、提示ファイルの構造のみに関係する。メディア・データ・ファイルのフォーマットは、メディア・ファイル内のメディア・データがＩＳＯベース・メディア・ファイル・フォーマットまたはその派生フォーマット内で規定されている通りにフォーマティングされているという点でのみ、ＩＳＯベース・メディア・ファイル・フォーマットまたはその派生フォーマティングによる制約を受けることができる。

外部ファイルを参照する能力は、データ参照を通して実現可能である。いくつかの例において、各トラック内に含まれるサンプル記述「ｓｔｓｄ」ボックスは、各々使用されるコーディングタイプについての詳細な情報およびコーディングのために必要とされる任意の初期化情報を提供するサンプル・エントリー・リストを提供することができる。１つのチャンクの全てのサンプルおよび１つのトラック・フラグメントの全てのサンプルは、同じサンプル・エントリを使用できる。チャンクは、１つのトラックのための連続するサンプル・セットとして定義できる。同様に各トラックに含まれているＤａｔａＲｅｆｅｒｅｎｃｅ「ｄｒｅｆ」ボックスは、ユニフォーム・リソース・ロケーター（ＵＲＬ）、ユニフォーム・リソース・ネーム（ＵＲＮ）および／またはメタデータを格納するファイルに対する自己参照の指標付きリストを定義することができる。サンプル・エントリは、ＤａｔａＲｅｆｅｒｅｎｃｅボックスの１つの指標をポイントし、これにより、それぞれのチャンクまたはトラック・フラグメントのサンプルを格納するファイルを標示することができる。

ムービー・フラグメントは、記録アプリケーションがクラッシュするか、メモリ・スペースが無くなるか、または他のインシデントが発生した場合のデータ損失を回避するためにＩＳＯファイルに記録コンテンツを記録するときに使用することができる。ムービー・フラグメントが無いと、ファイル・フォーマットは、例えばムービー・ボックスなどの全てのメタデータがファイルの１つの隣接エリア内に書込まれることを典型的に要求し得ることから、データ損失が発生する可能性がある。さらに、ファイルを記録する場合、利用可能な記憶のサイズに対してムービー・ボックスをバッファリングするのに充分な量のメモリ・スペースがない場合があり、ムービーを閉じたときにムービー・ボックスのコンテンツを再計算する速度が過度に低い可能性がある。その上、ムービー・フラグメントは、正規のＩＳＯファイル・パーサーを用いてファイルの同時記録・再生を可能にすることができる。最後に、ムービー・フラグメントが使用され、ムービー・フラグメント無く構造化された同じメディア・コンテンツを有するファイルと比べて初期ムービー・ボックスが小さい場合、例えばファイルの同時受信・再生などの漸進的なダウンロードのために、初期バッファリングの持続時間がより短いものであることが求められる可能性がある。

ムービー・フラグメント機能は、従来ムービー・ボックス内に存在すると考えられるメタデータを多数のピースに分割することを可能にすることができる。各ピースは、トラックについての一定の時間周期に対応することができる。換言すると、ムービー・フラグメント機能は、ファイル・メタデータおよびメディア・データのインターリービングを可能にすることができる。その結果、ムービー・ボックスのサイズは制限され、上述の使用事例を実現することができる。

いくつかの例において、ムービー・フラグメントのためのメディア・サンプルは、それらがｍｏｏｖボックスと同じファイル内にある場合、通常通りｍａｄｔボックス内に存在することができる。しかしながら、ムービー・フラグメントのメタデータについては、ｍｏｏｆボックスを提供することができる。ｍｏｏｆボックスは、従来ｍｏｏｖボックス内にあったと考えられる一定の再生持続時間についての情報を含むことができる。ｍｏｏｖボックスは、なおも単独で有効なムービーを表現できるが、さらに、ムーブ・フラグメントが同じファイル内で後続する予定であることを標示するｍｖｅｘボックスを含むことができる。ムービー・フラグメントは、時間的にｍｏｏｖボックスに結び付けられている提示を延長することができる。

ムーブ・フラグメントの内部には、１トラックあたりゼロないし複数までのいずれかを含めたトラック・フラグメント・セットが存在できる。トラック・フラグメントはそれ自体、ゼロないし複数のいずれかのトラック・ランを含むことができ、そのドキュメントの各々がそのトラックのためのサンプルの隣接ランである。これらの構造の内部では、多くのフィールドが任意であり、デフォルトにされ得る。ｍｏｏｆボックスに含むことができるメタデータを、ｍｏｏｖボックス内に含むことができるメタデータのサブセットに限定することができ、いくつかの事例で異なる形でコーディングできる。ｍｏｏｆボックス内に含むことができるボックスに関する詳細は、ＩＳＯベース・メディア・ファイル・フォーマット仕様から見出すことができる。

ＩＳＯベース・メディア・ファイル・フォーマットおよびその派生物、例えばＡＶＣファイル・フォーマットおよびＳＶＣファイル・フォーマットなどの中でのサンプル・グループ化は、グループ化参照に基づいて１つのサンプル・グループの一員とするべくトラック内に各サンプルを割当てることとして定義できる。サンプル・グループ化におけるサンプル・グループは、隣接サンプルであることに限定されず、非隣接サンプルを格納することができる。１トラック内のサンプルについては２つ以上のサンプル・グループ化が存在できることから、各サンプル・グループ化は、グループ化のタイプを標示するためのタイプ・フィールドを有する。サンプル・グループ化は、次の２つの結合されたデータ構造によって表現される。すなわち（１）ＳａｍｐｌｅＴｏＧｒｏｕｐボックス（ｓｂｇｐボックス）は、サンプル・グループに対するサンプルの割当てを表現し、（２）ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎボックス（ｓｇｐｄボックス）は、グループの特性を記述する各サンプル・グループのためのサンプル・グループ・エントリを格納する。異なるグループ化参照に基づいて、ＳａｍｐｌｅＴｏＧｒｏｕｐおよびＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎボックスの多数のインスタンスが存在できる。これらは、グループ化のタイプを標示するために使用されるタイプ・フィールドによって区別される。

サンプル・グループ・ボックス（ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎＢｏｘおよびＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘ）は、ムービー（ｍｏｏｖ）ボックス内のメディア情報（ｍｉｎｆ）、メディア（ｍｄｉａ）およびトラック（ｔｒａｋ）ボックス（この順序で）内に包み込まれている、サンプル・テーブル（ｓｔｂｌ）ボックス内に存在する。ＳａｍｐｌｅＴｏＧｒｏｕｐボックスは、ムーブ・フラグメント内に存在することができる。したがって、サンプル・グループ化は、フラグメント毎に行うことができる。

画像バーストとも呼ばれる画像シーケンスを、さまざまな手段を用いて得ることができ、あるいは以下のものの１つ以上を非限定的に含めたさまざまな目的のために使用することができる。
− 画像シーケンスは、例えばバースト写真撮影などを用いて連続して捕捉されたピクチャを表現できる。
− 画像シーケンスは、焦点スタック、露光スタックなどを表現でき、ここでカメラは、おおよそ静止状態に保たれているものとみなされ、補足パラメータは、この画像シーケンスのピクチャ間で異なっていた。
− 画像シーケンスは、パノラマを表現でき、この場合、カメラはパン（あるいはそれと同等のこと）を行い、時間および／または並進運動に関してほぼ等しい距離のピクチャがカメラ・ムーブメントの間に撮影される。
− 画像シーケンスは、アニメーションまたはシネマグラフを表現できる。シネマグラフは、わずかな反復運動しか発生しないスチル・ピクチャとして定義できる。

画像シーケンスは、空間予測手段を用いてコーディングされたスチル・ピクチャまたは空間および時間予測手段を用いてコーディングされたインター・ピクチャのいずれかのシーケンスとして圧縮可能である。個別のピクチャを編集するためのランダム・アクセスおよびサポートを伴う画像シーケンスは従来、独立してコーディングされた一連のイントラ・ピクチャとしてシーケンスを表現することによって有効化されてきた。このようなフォーマットには、例えばＭｏｔｉｏｎＪＰＥＧ、アニメーションＧＩＦおよびＨ．２６４のイントラ・プロファイルが含まれる。

画像のシーケンスが一連のスチル・ピクチャとして表現される場合、コーディング効率は典型的に低く、高解像度シーケンスのためのファイル・サイズ要件は、莫大なものとなり得る。シーケンスが時間予測を用いてビデオとしてコーディングされる場合、シーケンスをどのようにデコーディングする必要があるか、シーケンスをどのように再生でき、ユーザーがシーケンス内の画像のいくつかを編集したいと考えるときにそれをどのように発行できるかについての厳しい制限が存在する。

コンテナ・ファイルは、コンテンツ、例えばメディア・データおよびコンテンツに関連するメタデータを格納することができる。異なるデータ・タイプを識別しインタリーブするために、コンテナ・ファイルを使用することができる。マルチメディア・コンテナ・ファイルは、例えば、音声、映像および画像を格納できる。マルチメディア・コンテナ・ファイルは、マルチメディア・コンテンツの制作、操作、伝送および消費という連鎖の中で使用される要素として使用することができる。コーディング・フォーマット（基本ストリーム・フォーマットまたはビットストリーム・フォーマットとしても知られる）とコンテナ・ファイル・フォーマットとの間には、実質的な差異が存在し得る。コーディング・フォーマットは、コンテンツ情報をビットストリームへとコーディングする特定的コーディングまたは圧縮アルゴリズムのアクションに関係し得る。コンテナ・ファイル・フォーマットは、例えば、全てさまざまな記憶およびトランスポート・アーキテクチャを利用して、ローカル・デコーディングおよび再生のためにアクセスされるが、ファイルとして転送されるかまたはストリーミングされ得るように、生成されたビットストリームを組織するためのシンタックスおよびセマンティクスを規定することができる。さらに、ファイル・フォーマットは、メディアの交換および編集ならびに受信した実時間ストリームのファイルへの記録を容易にすることができる。

ＩＳＯベース・メディア・ファイル・フォーマットは、音声、映像およびテレテキストなどのタイムド・メディアの記憶およびトランスポートのための包括的構造を規定する。近年、静止画像および画像シーケンスのハンドリングをも可能にするようにＩＳＯＢＭＦＦの能力を拡張することに向けて、研究作業が開始されてきた。画像シーケンスの記憶およびトランスポートを可能にするために、画像ファイル・フォーマットは、ＭＰＥＧ−ＨＰａｒｔ１２としても知られているＩＳＯ／ＩＥＣ２３００８−１２内で定義されており、この定義は、ＩＳＯベース・メディア・ファイル・フォーマットに基づいている。

ＩＳＯ／ＩＥＣ２３００８−１２内で定義されたフォーマットは、高効率ビデオ・コーディング（ＨＥＶＣ）または他の任意の画像またはビデオ・コーデックを用いてコーディングされた画像の交換、編集および表示、およびこれらの画像と結び付けられたメタデータの搬送を可能にする。画像ファイル・フォーマットは、単一の画像、画像コレクションおよび画像シーケンスのための相互運用可能な記憶フォーマットを定義するため、ＩＳＯベース・メディア・ファイル・フォーマットで定義されたツールを基礎としている。画像ファイル・フォーマットは、ファイル内に記憶された画像をコーディングするのに使用されるコーデックを制約しない構造ブランド、およびコーデッド画像のためのＨＥＶＣの使用を必要とするＨＥＶＣベースのブランドを含む。

静止画像をエンコーディングするためのＨＥＶＣビデオコーダの使用は、単一画像および独立してコーディングされた画像の記憶ならびに画像シーケンスの記憶をカバーするため画像ファイル・フォーマットによってサポートされ、ここで任意にはプレイヤおよび／またはデコーダにおいてタイミングが使用され、画像は他の画像に依存することができる。

画像ファイル・フォーマットに適合するファイルは、静止画像および画像シーケンスの両方を含むことができ、単一のファイルをさまざまなニーズに応えるように構築することができるようになっている（例えば、印刷のための単一の画像、および画像を合成するために使用された画像バーストの記録）。概して、静止画像のサポートは、タイミングもピクチャ間コーディング依存性も必要とされない場合などの事例のために使用される。トラックのために利用可能なタイミングまたはＩＳＯベース・メディア・ファイル・フォーマットからの他のツールが必要とされる（例えば単一の動画）場合または、ピクチャがピクチャ間コーディング依存性を用いてコーディングされる場合には、トラックとして記憶された画像シーケンスを使用することができる。

画像シーケンスの記憶のためには、ＩＳＯＢＭＦＦのトラック構造が使用される。しかしながら、ビデオおよび画像シーケンスを判別するために、「ｐｉｃｔ」と呼ばれる新たなハンドラが定義された。サンプル（視覚的アクセス単位）自体は、「ｍｄａｔ」ボックス内および／または画像ファイル・フォーマットにしたがってフォーマティングされたファイルとは別個の１つ以上のファイル内に記憶される。サンプル・テーブル・ボックス「ｓｔｂｌ」は、サンプルの場所、長さおよびデコーディング順序を記録する。コーデック特定的初期化情報は、サンプル記述ボックス「ｓｔｓｄ」内で搬送される。

ＩＳＯＢＭＦＦおよびその派生仕様は、タイムド・メディア・コンテンツを適正に伝送、編集、デコーディングおよび提示するように設計されている。タイムド・メディア・コンテンツは、デコーディングおよび提示順序と結び付けられ、この順序は、ＩＳＯＢＭＦＦを用いてクライアントに知らされる。例えば、全てのコーデッド・サンプルはデコーディング順に記憶され、各サンプルには、メディア・タイムライン内で一意的コンポジション時間を与えることができる。コンポジション時間がサンプルと結び付けられない場合には、クライアントは、デコーディング時間が同様にコンポジション時間でもあることを暗黙の内に仮定できる。

コーデッド画像シーケンスの各サンプルは、幾分かの最大許容遅延を伴ってランダム・アクセス可能であることができる。いくつかのサンプルはイントラ・コーディングされ得、一方いくつかのサンプルは、参照として他のサンプルを使用することができる。サンプルにランダム・アクセスするために予測コーディングが使用される場合、ランダム・アクセスすべきサンプルをデコーディングする前に全ての直接および間接参照サンプルがデコーディングされなければならない場合がある。

ＩＳＯＢＭＦＦでは、独立使い捨てサンプルと呼ばれるボックス、すなわち「ｓｄｔｐ」ボックスが存在する。ボックスは各サンプルについて、そのサンプルが、（ａ）デコーディングのために他のサンプルに依存するか、（ｂ）他のサンプルにより参照として使用されるか、および（ｃ）冗長コーディングされたサンプルであるか、を記録する。ＩＳＯＢＭＦＦ仕様によって文書化されたこのボックスの用途は、トリック・モード・オペレーションを実行しているときに独立してデコーディング可能なサンプルを識別すること、またはランダム・アクセス回復点を識別し、デコーディングされたサンプルを提示することが必要となる時点まで非参照サンプルを繰上げ廃棄することにある。その参照サンプルのみを使用するための任意のサンプルに対するランダム・アクセスは保証されていない。

ファイル・プレイヤは、コンテナ・ファイルをパース、デコーディング、およびレンダリング（例えば表示）するソフトウェア、ハードウェア、またはそれらの組合せとして定義することができる。ファイル・リーダーとも呼ぶことのできるファイル・パーサーは、コンテナ・ファイルの構造をパースしデコーディングのために１つ以上のデコーダについてのメディア・データを提供できるソフトウェア、ハードウェアまたはそれらの組合せとして定義することができる。

ファイル・レコーダーは、メディア・コンテンツを捕捉または獲得し、メディア・コンテンツを１つ以上のビットストリーム内にエンコーディングし、１つ以上のビットストリームをコンテナ・ファイル内にカプセル化するソフトウェア、ハードウェアまたはそれらの組合せとして定義することができる。ファイル・ライターと呼ぶこともできるファイル・クリエータは、１つ以上のビットストリームをコンテナ・ファイル内にカプセル化するソフトウェア、ハードウェアまたはそれらの組合せとして定義することができる。ファイル・クリエータは、さらに、メタデータを作成しこれをコンテナ・ファイル内に含むことができる。

予測されたピクチャにアクセスするため、デコーダ、ファイル・プレイヤ、ファイル・パーサーまたはいくつかの他のエンティティはどの参照ピクチャが最初にデコーディングすることを求められているかについての結論を下す必要がある。先行するＩＤＲピクチャなどから出発して全てのピクチャをデコーディングするのではなくむしろ、参照として使用されるピクチャのみがデコーディングされる場合、遅延を大幅に削減することができる。

したがって、所望のランダム・アクセスされたピクチャを正しくデコーディングする目的で、デコーディングされることが求められているピクチャを識別するための改良型方法を導入することが所望される。

ここでランダム・アクセスの有効化を強化する目的で、参照ピクチャまたは参照ピクチャを含むファイル・フォーマット・サンプルをシグナリングするための改良型方法を、以下で提示する。以下では、サンプルなる用語は、ピクチャのサンプル・アレイのサンプルではなくむしろファイル・フォーマット・サンプルを意味するように使用される。

多くの実施形態が、以下のステップを含む。
− 少なくとも各々の参照ピクチャに対し１つの識別子を割当てるステップ、
− ファイル内で、インター・コーデッド・ピクチャの数、および存在する場合にはその参照ピクチャの識別子を標示するステップ、
− インター・コーデッド・ピクチャ、識別子および数、ならびに存在する場合にはその参照ピクチャの識別子の各々の一意的組合せに対し、指標を割当てるステップ、
− ファイル内で前記指標に対するピクチャのマッピングを標示するステップ。

多くの実施形態が、以下のステップを含む。
− ファイルから、指標に対するピクチャのマッピングをパースするステップ、
− このファイルから、このピクチャの識別子および数、ならびに、そのピクチャがインター・コーデッド・ピクチャである場合には、ピクチャの参照ピクチャの識別子の、指標に対応する組合せをパースするステップ、
− このピクチャの参照ピクチャの識別子に基づいて、ピクチャの参照ピクチャを解像するステップ。

一実施形態は、ビットストリーム内でエンコーディングされるべき画像シーケンスの参照サンプルをシグナリングするため、または同等のものとして、図６中に開示されているコンテナ・ファイル内にカプセル化されるべきエンコーデッド画像シーケンスの参照サンプルをシグナリングするための方法に関する。方法は、画像シーケンスのサンプルを参照サンプルおよび非参照サンプルに分類するステップ（６００）と、一意識別子を各参照サンプルに提供するステップ（６０２）と、少なくとも画像シーケンスのインター・コーデッド・サンプルについて、サンプル識別子と画像シーケンスのサンプルのための少なくとも１つの参照サンプル識別子の全ての一意的組合せを決定するステップ（６０４）であって、特定のサンプルのための少なくとも１つの参照サンプル識別子は、前記サンプルを参照する全てのサンプルを識別する、ステップと、イントラ・コーデッド参照サンプルには、少なくともその一意識別子を割当て、インター・コーデッド参照サンプルには、そのサンプル識別子と少なくとも１つの参照サンプル識別子の対応する一意的組合せを割当てるステップ（６０６）と、を含む方法。

一実施形態によると、イントラ・コーデッド参照ピクチャには、その一意的識別子と同じ値を有する参照サンプル識別子を割当てることができる。

一実施形態によると、各非参照サンプルに共通識別子を提供することができる。

各参照サンプルに一意識別子を提供し、各非参照サンプルに共通の識別子を提供するステップの代替として、該方法は、サンプルが参照サンプルであるか非参照サンプルであるかの標示を提供し、各参照サンプルに一意識別子を提供するステップを含むことができる。

こうして、上述のプロシージャは、予測された画像サンプルをデコーディングするための参照として使用されるサンプルのみを識別して、これにより、画像シーケンス内の任意のサンプルをデコーディングする目的でデコーディングされることが求められるサンプルをファイル・リーダーに知らせるためのコンパクトなメカニズムを提供することを可能にする。このことは、それ自体、コーデッド画像シーケンスの任意のサンプルへのランダム・アクセスを可能にする。

一実施形態によると、参照サンプルは、イントラ・コーデッド・サンプルおよび／またはインター・コーデッド参照サンプルを含む。画像シーケンスの観点からすると、サンプルは次の４つのクラスのうちの１つに分類され得る。（ａ）イントラ・コーデッド参照サンプル、（ｂ）イントラ・コーデッド非参照サンプル、（ｃ）インター・コーデッド参照サンプルおよび（ｄ）インター・コーデッド非参照サンプル。イントラ・コーデッド参照サンプルは、それが正しくデコーディングされるために、他のいかなるサンプルもデコーディングされることを必要としない。インター・コーデッド参照サンプルは、それがデコーディングされ得る前に、少なくとも１つのイントラ・コーデッド参照サンプルまたは少なくとも１つのインター・コーデッド参照サンプルがデコーディングされることを必要とする。イントラ・コーデッド非参照サンプルは、それ自体が他のいずれのサンプルのための参照としても使用されないという点を除いて、イントラ・コーデッド参照サンプルと類似している。インター・コーデッド非参照サンプルは、それ自体が他のいずれのサンプルのため参照としても使用されないという点を除いて、インター・コーデッド参照サンプルに類似している。

イントラ・コーデッド参照サンプルおよびイントラ・コーデッド非参照サンプルは両方共、それらが正しくデコーディングされるために、他のいずれかのサンプルがデコーディングされることを必要としないという意味合いで、特殊な事例を成す。このことは、シグナリングにおいてイントラ・コーデッド参照サンプルおよびイントラ・コーデッド非参照サンプルがハンドリングされる方法についてさまざまなオプションを提供する。

上述した通り、イントラ・コーデッド参照サンプルには、その一意識別子のみを提供することができ、あるいは代替的には、その一意識別子と同じ値を有する参照サンプル識別子を提供することもできる。

一実施形態によると、イントラ・コーデッド非参照サンプルはシグナリングに含まれない。イントラ・コーデッド非参照サンプルは、他のいずれのサンプルのための参照としても使用されないことから、これらをシグナリングから外すことができる。

一変形実施形態によると、イントラ・コーデッド非参照サンプルは、他の非参照サンプルと同じ共通識別子が提供されるようにシグナリング内に含まれる。さらなる実施形態によると、イントラ・コーデッド非参照サンプルにはいずれの参照サンプル識別子も提供されない。

いくつかの実施形態において、全てのイントラ・コーデッド・サンプルは、参照サンプルとして処理され、したがって、イントラ・コーデッド・サンプルおよびインター・コーデッド参照サンプルの両方を参照サンプルとみなすことができる。

一実施形態によると、各参照サンプルのための一意識別子は、正の非ゼロ整数であり、非参照サンプルのための共通識別子はゼロである。こうして、参照サンプルを明確に識別するため、および参照サンプルと非参照サンプルを区別するための容易な方法が提供される。

一実施形態によると、イントラ・コーデッド・サンプルについて、サンプル識別子および参照サンプル識別子は同じである。

一実施形態によると、この方法はさらに、全てのイントラ・コーデッド・サンプルおよびインター・コーデッド参照サンプルに異なる識別子値を割当てることのできる、一つの範囲内の整数値のプールから各々の参照サンプルのための一意識別子を決定するステップを含む。こうして、画像シーケンスの全ての参照サンプルが一意的に識別され得るように、画像シーケンス内の参照サンプルの数に基づいて、整数値の範囲を決定することができる。すなわち、同じトラック内のどの２つの参照サンプルも、同じサンプル識別子を有することを許容されない。いくつかの実施形態において、１つのファイルは、正確に１つの画像シーケンスを含むことができ、したがって、そのファイル内に含まれる全ての参照サンプルは一意的に識別され得る。

一実施形態によると、該方法は、サンプル識別子と少なくとも１つの参照サンプル識別子の各一意的組合せについて指標を割当てるステップと、サンプルを、サンプル識別子と少なくとも１つの参照サンプル識別子の一意的組合せに対応する指標にマッピングするステップと、をさらに含む。本明細書においては、２つ以上の非参照サンプルが、サンプル識別子と少なくとも１つの参照サンプル識別子との同じ組合せを有することができ、したがって２つ以上のサンプルが同じ指標にマッピングされる可能性があるということが指摘される。

一実施形態によると、該方法は、同様にビットストリームを含むまたは該ビットストリームを参照するコンテナ・ファイル内で前記マッピングを表示するステップ、をさらに含む。

一実施形態によると、コンテナ・ファイル・フォーマットは、ＩＳＯベース・メディア・ファイル・フォーマット（ＩＳＯＢＭＦＦ）に適合し、コンテナ・ファイルは、論理的にサンプルを含むトラックを含み、トラックのサンプルはピクチャを含み、該方法は、
ピクチャ識別子とゼロ以上の１つの参照ピクチャ識別子の一意的組合せをコンテナ・ファイル内に、サンプル・グループ記述エントリとして含むステップであって、サンプル・グループ記述子エントリにはそれぞれの指標が割当てられているステップと、
コンテナ・ファイル内に、ピクチャがサンプル・グループ記述エントリのそれぞれの指標にマッピングされていることのサンプル・トゥー・グループ・データ構造内部の標示を含むステップと、
を含む。

ＩＳＯＭＢＦＦは、この実施形態内で使用可能であるサンプル・グループ化メカニズムを提供する。それは、２つの統合されたボックス・データ構造、すなわち（ａ）ＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘおよび（ｂ）ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎＢｏｘの形のサンプル・グループ化メカニズムを可能にする。ＳａｍｐｌｅＴｏＧｒｏｕｐボックスは、サンプル・グループへのサンプルの割当てを表わし、ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎボックスは、グループの特性を記述する各サンプル・グループのためのサンプル・グループ記述エントリを格納する。

一実施形態によると、例えばＲｅｆｅｒｅｎｃｅｄＳａｍｐｌｅｓＬｉｓｔ（「ｒｅｆｓ」）と呼ぶことのできる新規視覚的サンプル・グループ・エントリが、ＩＳＯＢＭＦＦ用に定義される。このサンプル・グループ・エントリは少なくとも次のフィールドを含む：すなわち、（ａ）例えばシンタックス要素名ｓａｍｐｌｅ＿ｉｄを有することのできるサンプル識別子、および（ｂ）例えばシンタックス要素名ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄを有することのできる参照サンプル識別子リスト。上述のように、画像シーケンス内の全ての参照サンプルには、非ゼロの正の整数の識別子が与えられる。他のサンプルを参照する非参照サンプルには、ゼロという共通の識別子値が割当てられる。ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄ値のリストは、ｓａｍｐｌｅ＿ｉｄを有するサンプルが参照するｓａｍｐｌｅ＿ｉｄ値のリストである。いくつかの実施形態において、ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄ値のリストは、現行サンプルのｓａｍｐｌｅ＿ｉｄ値も含むことができ、こうして、１つのイントラ・コーデッド参照サンプルについて、１つの値のみがｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリスト内にコーディングされ、この値は、前記イントラ・コーデッド参照サンプルのｓａｍｐｌｅ＿ｉｄと同じである。

一実施形態において、ＩＳＯベース・メディア・ファイル・フォーマットとして参照サンプルおよび非参照サンプルの標示を実装するためには、ファイル・クリエータがｓａｍｐｌｅ＿ｉｄおよびｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリストの全ての一意的組合せをコンパイルし、一意的組合せの値は、「ｒｅｆｓ」サンプル・グループ・エントリ内にコレーティングされ、「ｒｅｆｓ」サンプル・グループ・エントリはリストとして「ｒｅｆｓ」サンプル・グループ記述ボックス内に挿入される。画像シーケンス内の各サンプルは、次にサンプル・トゥー・グループ・ボックスを用いて適切なサンプル・グループ・エントリにマッピングされる。いくつかの実施形態において、非参照イントラ・コーデッド・サンプルは、このサンプル・グループ・エントリ・リスト内のどのエントリにも属さず、したがって、そのｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘ値はゼロにセットされる。

「ｒｅｆｓ」サンプル・グループ記述エントリのシンタックスおよびセマンティクスは、例えば、以下のように実装することができる。
Ｓｙｎｔａｘ
ｃｌａｓｓＲｅｆｅｒｅｎｃｅｄＳａｍｐｌｅｓＬｉｓｔ（）
ｅｘｔｅｎｄｓＶｉｓｕａｌＳａｍｐｌｅＧｒｏｕｐＥｎｔｒｙ（’ｒｅｆｓ’）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｓａｍｐｌｅ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｒｅｆｅｒｅｎｃｅｄ＿ｓａｍｐｌｅｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｒｅｆｅｒｅｎｃｅｄ＿ｓａｍｐｌｅｓ；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄ；
｝
｝

他の実施形態を、類似のまたは等価のシンタックス構造で同様に実現することができるということを理解すべきである。例えば、他の実施形態においては、シンタックス要素の長さを、例えば符号なし整数（３２）から符号なし整数（６４）まで変更することができる。

セマンティクス
ｓａｍｐｌｅ＿ｉｄ：このフィールドの値は、正の整数であることが求められる場合がある。サンプル記述グループ・エントリを参照とするサンプルが、１参照サンプルである場合、このフィールドの値は、非ゼロの正の整数であることが求められる可能性がある。このフィールドのための値は、このグループに属するサンプルが非参照ピクチャである場合、ゼロであることが求められる可能性がある。

ｎｕｍ＿ｒｅｆｅｒｅｎｃｅｄ＿ｓａｍｐｌｅｓ：予測されたサンプルをデコーディングするのに必要とされる直接参照サンプルの数。このフィールドの値は、イントラ・コーデッド・サンプルのコレクションであるグループについて、１にセットされるものとする。

ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄ：このフィールドの値は、このグループに属するサンプルがそこから予測される直接参照サンプルのｓａｍｐｌｅ＿ｉｄ値にセットされるものとする。イントラ・コーデッド参照サンプルを記録するサンプル・グループ・エントリは、このサンプル・グループ・エントリ内のｓａｍｐｌｅ＿ｉｄにより記録されたものと同じ値にセットされたこの値を有するものとする。

代替的には、ｎｕｍ＿ｒｅｆｅｒｅｎｃｅｄ＿ｓａｍｐｌｅｓおよびｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄのセマンティクスを以下のように規定することができる。
ｎｕｍ＿ｒｅｆｅｒｅｎｃｅｄ＿ｓａｍｐｌｅｓ：予測されたサンプルをデコーディングするために必要とされる直接参照サンプルの数。イントラ・コーデッド・サンプルについては、ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄは０である。
ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄ：このフィールドの値は、このグループに属するサンプルがそこから予測される直接参照サンプルのｓａｍｐｌｅ＿ｉｄ値にセットされるものとする。

「ｒｅｆｓ」サンプル・グループ化の使用について、以下の実施例においてより詳細に例示する。

図７ａは、サンプルが提示順に示されている、コーデッド画像シーケンスを示す。サンプル間の予測依存性は、矢印で標示されている。図中の「Ｉ」は、サンプルがイントラ・コーディングされていることを標示し、一方「Ｐ」は単一の参照サンプルからサンプルが予測されることを標示している。例えばサンプルＰ１、Ｐ２およびＰ３は、イントラ・コーデッド・サンプルＩ０から予測され、したがって、このサンプルＩ０はサンプルＰ１、Ｐ２およびＰ３の参照サンプルである。サンプルＰ５、Ｐ６およびＰ７は、それ自体、イントラ・コーデッド・サンプルＩ４から予測され、このサンプルＩ４は、サンプルＰ５、Ｐ６およびＰ７の後の提示順を有するが、それでもサンプルＰ５、Ｐ６およびＰ７のための参照サンプルである。図７ｂは、予測依存性が考慮されたデコーディング順でのコーデッド画像シーケンスを示す。

コーデッド画像シーケンスのサンプルは、参照サンプル、すなわちサンプル｛Ｉ０、Ｉ４｝および非参照サンプル、すなわち｛Ｐ１、Ｐ２、Ｐ３、Ｐ５、Ｐ６、Ｐ７｝に分類される。以上で設定されたルールを適用すると、全ての参照サンプルに一意識別子が与えられ、全ての非参照インター・コーデッド・サンプルの識別子はゼロにセットされている。この実施例では、参照サンプルのための正の非ゼロ識別子は１０１から始まる。したがって、識別子をセットするためのルールを用いると、サンプル／サンプル識別子対は、以下の通りである。
｛（Ｉ０、１０１）、（Ｉ４、１０２）、（Ｐ１、０）、（Ｐ２、０）、（Ｐ３、０）、（Ｐ５、０）、（Ｐ６、０）、（Ｐ７、０）｝。

次に、ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリストを構築するためのルールを用いると、イントラ・コーデッド・サンプルのためのｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄの値がｓａｍｐｌｅ＿ｉｄ自体と同じである事例を、第１に考慮に入れる必要がある。したがって、このシーケンス内のイントラ・コーデッド・サンプルのためのｓａｍｐｌｅ／ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリスト対のセットは、以下の通りである。
｛（Ｉ０、１０１）、（Ｉ４、１０２）｝。

他の全てのサンプルについて、ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄは、それが参照するサンプルを記録する。したがって、残りのサンプルのためのｓａｍｐｌｅ／ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリスト対のセットは、以下の通りである。
｛（Ｐ１、１０１）、（Ｐ２、１０１）、（Ｐ３、１０１）、（Ｐ５、１０２）、（Ｐ６、１０２）、（Ｐ７、１０２）｝。

以上のことが、図８の表中にまとめられており、ここには、サンプルが、エンコーディング／デコーディング順にサンプルのシーケンス番号、サンプルのタイプ、サンプルと結び付けられたｓａｍｐｌｅ＿ｉｄ、および各サンプルについてのｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリストと共に列挙されている。

このリストから、画像シーケンスのサンプルについてのサンプル識別子と少なくとも１つの参照サンプル識別子の全ての一意的組合せを決定することができる。表８の表は、次の４つの一意的なｓａｍｐｌｅ＿ｉｄ／ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄ組合せを含む。｛（１０１、１０１）、（０、１０１）、（１０２、１０２）、（０、１０２）｝。

ｓａｍｐｌｅ＿ｉｄ／ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリスト対の一意的組合せは、視覚的サンプル・グループ・エントリ「ｒｅｆｓ」のリストとして収集され、エントリのための指標（Ｉｄｘ）を提供するサンプル・グループ記述ボックス内に挿入される。図９ａの表は、サンプル・グループ記述ボックス内に「ｒｅｆｓ」エントリとしてコーディングされる４つの一意的ｓａｍｐｌｅ＿ｉｄ−ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄ組合せのリストを示す。最後に、全てのサンプルには、これらのサンプルに対応するサンプル識別子と少なくとも１つの参照サンプル識別子の一意的組合せが割当てられる。図９ｂは、構築された「ｒｅｆｓ」サンプル・グル−プ内に記録されたサンプル・グループ・エントリのグループ記述指標に対する画像シーケンス内のサンプルのマッピングを例示する。

図１０ａは、サンプルが提示順に示されている、別のコーデッド画像シーケンスを示す。イントラ・コーデッド「Ｉ」サンプルおよび単一の参照「Ｐ」サンプルに加えて、画像シーケンスは、２つの参照サンプルから双方向予測されたものとしてコーディングされる「Ｂ」サンプルを含む。本明細書では、サンプルＰ１およびＰ２は、イントラ・コーデッド・サンプルＩ０から予測され、サンプルＰ４およびＰ７は、それ自体、イントラ・コーデッド・サンプルＩ３から予測され、サンプルＢ５およびＢ６は両方共、サンプルＰ２およびＰ４から双方向で予測される。図１０ｂは、予測依存性が考慮された、デコーディング順のコーデッド画像シーケンスを示す。

コーデッド画像シーケンスのサンプルは、参照サンプル、すなわちイントラ・コーデッド・サンプル｛Ｉ０、Ｉ３｝およびインター・コーデッド参照サンプル｛Ｐ２、Ｐ４｝、および非参照サンプル、すなわち｛Ｐ１、Ｂ５、Ｂ６、Ｐ７｝へと分類される。以上で設定されたルールを適用すると、全ての参照サンプルには、一意識別子が与えられ、全ての非参照インター・コーデッド・サンプルの識別子はゼロにセットされる。この実施例中でもまた、参照サンプルのための正の非ゼロ識別子は１０１から始まる。以上で設定されたルールを適用すると、サンプル／ｓａｍｐｌｅ＿ｉｄ対のセットは、以下の通りである。｛（Ｉ０、１０１）、（Ｐ１、０）、（Ｐ２、１０２）、（Ｉ３、１０３）、（Ｐ４、１０４）、（Ｂ５、０）、（Ｂ６、０）、（Ｐ７、０）｝。

サンプルのためのｓａｍｐｌｅ−ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリスト対のセットは、以下の通りである。
｛（Ｉ０、１０１）、（Ｐ１、１０１）、（Ｐ２、１０１）、（Ｉ３、１０３）、（Ｐ４、１０３）、（Ｂ５、［１０２、１０４］）、（Ｂ６、［１０２、１０４］）、（Ｐ７、１０３）｝。

この情報は、図１１の表中にまとめられており、ここには、サンプルが、エンコーディング／デコーディング順にサンプルのシーケンス番号、サンプルのタイプ、サンプルと結び付けられたｓａｍｐｌｅ＿ｉｄ、および各サンプルについてのｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリストと共に列挙されている。

このリストから、画像シーケンスのサンプルについてのサンプル識別子と少なくとも１つの参照サンプル識別子の全ての一意的組合せを決定することができる。表１１の表は、次の７つの一意的なｓａｍｐｌｅ＿ｉｄ／ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄ組合せを含む。｛（１０１、１０１）、（０、１０１）、（１０２、１０１）、（１０３、１０３）、（１０４、１０３）、（０、［１０２、１０４］）、（０、１０３）｝。

ここでもまた、ｓａｍｐｌｅ＿ｉｄ／ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリスト対の一意的組合せは、視覚的サンプル・グループ・エントリ「ｒｅｆｓ」のリストとして収集され、エントリのための指標（Ｉｄｘ）を提供するサンプル・グループ記述ボックス内に挿入される。図１２ａの表は、サンプル・グループ記述ボックス内に「ｒｅｆｓ」エントリとしてコーディングされる７つの一意的ｓａｍｐｌｅ＿ｉｄ−ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄ組合せのリストを示す。最後に、全てのサンプルには、これらのサンプルに対応するサンプル識別子と少なくとも１つの参照サンプル識別子の一意的組合せが割当てられる。図１２ｂは、構築された「ｒｅｆｓ」サンプル・グル−プ内に記録されたサンプル・グループ・エントリのグループ記述指標に対する画像シーケンス内のサンプルのマッピングを例示する。

該方法は、多くの形で実装可能である。例えば、説明された処理ステップを異なる順番で行うことができるということは明白である。その上、参照ピクチャおよび／または非参照ピクチャを標示する方法は１つ以上存在することができる。同様に、デコーディング・プロセスに参照ピクチャおよび／または非参照ピクチャとしてピクチャを処理させる方法も、１つ以上存在することができる。

別の実施形態は、デコーダがエンコーデッド・ビットストリームを受信したときのデコーダのオペレーションを説明している。図１３は、本発明の実施形態を利用するのに好適なビデオ・デコーダのブロック図を示す。図１３は、２層デコーダの構造を描いているが、デコーディング・オペレーションを単層デコーダでも同様に利用できるということが認識されると思われる。

ビデオ・デコーダ５５０は、ベース・ビュー・コンポーネントのための第１のデコーダ・セクション５５２と、非ベース・ビュー・コンポーネントのための第２のデコーダ・セクション５５４とを含む。ブロック５５６は、第１のデコーダ・セクション５５２に対してベース・ビュー・コンポーネントに関する情報を送出するため、および第２のデコーダ・セクション５５４に対して非ベース・ビュー・コンポーネントに関する情報を送出するためのデマルチプレクサを示す。参照記号Ｐ’ｎは、画像ブロックの予測された表現を表わす。参照記号Ｄ’ｎは、再構成された予測エラー信号を表わす。ブロック７０４、８０４は、予備再構成画像（Ｉ’ｎ）を示す。参照記号Ｒ’ｎは、最終的再構成画像を表わす。ブロック７０３、８０３は、逆変換（Ｔ^-1）を示す。ブロック７０２、８０２は、逆量子化（Ｑ^-1）を示す。ブロック７０１、８０１は、エントロピー・デコーディング（Ｅ^-1）を示す。ブロック７０５、８０５は、参照フレーム・メモリ（ＲＦＭ）を示す。ブロック７０６、８０６は、予測（Ｐ）（インター予測またはイントラ予測のいずれか）を示す。ブロック７０７、８０７は、フィルタリング（Ｆ）を示す。ブロック７０８、８０８は、デコーデッド予測エラー情報を予測ベース・ビュー／非ベース・ビュー・コンポーネントと組み合わせて予備再構成画像（Ｉ’ｎ）を得るために使用できる。予備再構成されフィルタリングされたベース・ビュー画像は、第１のデコーダ・セクション５５２から出力され得７０９、予備再構成されフィルタリングされたベース・ビュー画像は、第１のデコーダ・セクション５５４から出力され得る８０９。

したがって、デコーディング・オペレーションは、従来知られているように実施することができる。しかしながら、エンコーデッド画像シーケンス内でのサンプルのデコーディングの開始前に、ファイル・リーダーが、シグナリングからのサンプルをデコーディングするために必要とされる参照サンプルを決定することが好ましい。図１４に示されているこのような方法においては、少なくとも１つの一意サンプル識別子についての標示が、イントラ・コーデッド参照サンプルについて決定され、サンプル識別子および少なくとも１つの参照サンプル識別子の一意的組合せがインター・コーデッド・サンプルについて決定され（１４００）、特定のインター・コーデッド・サンプルのための少なくとも１つの参照サンプルから、前記インター・コーデッド・サンプルを参照する全てのサンプルが決定される（１４０２）。

図１０〜１２中に説明されている実施例を参照することによって、シグナリングからのサンプルをデコーディングするために必要とされる参照サンプルをファイル・リーダーが決定するプロセスを示すことができる。実施例中のサンプルＢ５を考慮してみよう。Ｂ５は、サンプル・トゥー・グループ・ボックスのｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘ（Ｉｄｘ＝６）を通して「ｒｅｆｓ」サンプル・グループの６番目のエントリに対してマッピングされた。この「ｒｅｆｓ」サンプル・グループ・エントリのフィールドは、ｓａｍｐｌｅ＿ｉｄ＝０およびｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリスト＝［１０２、１０４］を決定する。フィールドｓａｍｐｌｅ＿ｉｄ＝０の値から、このグループに属するサンプルが画像シーケンス内の他のどのサンプルによっても参照として使用されていないという結論を下すことができる。ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリストは、ｓａｍｐｌｅ＿ｉｄ値１０２および１０４を有するサンプルであるサンプルＢ５をデコーディングするために必要とされるサンプルに対して直接的参照を提供する。ファイル・リーダーは、次にｓａｍｐｌｅ＿ｉｄ＝１０２についてサンプル・グループ記述ボックス内をチェックし、ｓａｍｐｌｅ＿ｉｄ１０１がｓａｍｐｌｅ＿ｉｄ１０２のｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリスト内にあることを発見する。このｓａｍｐｌｅ＿ｉｄは、サンプルＢ５をデコーディングするために必要とされるｓａｍｐｌｅ＿ｉｄのリストに追加され、今やリストは［１０１、１０２、１０４］となる。ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリストの値（１０１）は、ｓａｍｐｌｅ＿ｉｄの値（１０１）と同じであるため、ファイル・リーダーは、これがイントラ・コーデッド・サンプルのグループであり、このパス内でさらなる参照サンプルをサーチする必要が全くないという結論を下す。

ファイル・リーダーは同様に、ｓａｍｐｌｅ＿ｉｄ１０４についてサンプル・グループ記述ボックスをチェックし、それがｓａｍｐｌｅ＿ｉｄ１０３を参照とすることを発見し、このｓａｍｐｌｅ＿ｉｄ１０３は、サンプルＢ５をデコーディングするために必要とされるｓａｍｐｌｅ＿ｉｄのリストに追加される。ここでもまた、ファイル・リーダーは、これがイントラ・コーデッド・サンプルである（ｒｅｆｅｒｅｎｃｅ＿ｓａｍｐｌｅ＿ｉｄリストがｓａｍｐｌｅ＿ｉｄと同じであるため）との結論を下し、さらなる参照サンプルのサーチを停止する。このグループのためにデコーディングされるべきサンプルのリストは、リスト内のｓａｍｐｌｅ＿ｉｄ［１０１、１０２、１０３、１０４］を有するサンプルである。これらのｓａｍｐｌｅ＿ｉｄを伴うｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘを通して「ｒｅｆｓ」サンプル・グループのエントリに対してマッピングされたサンプルは全て、サンプルＢ５のための直接的および間接的参照ピクチャである。換言すると、Ｂ５をデコーディングするためには、サンプル｛Ｉ０、Ｐ２、Ｉ３およびＰ４｝がデコーディングされる必要がある。

さらに、上述のようなデコーディング順序、表示順序またはデコーディング順序と表示順序の組合せに関する標示をデコーディングするようにデコーダを配置すること、およびデコーダおよびデコーダを含む装置のオペレーションを制御して、それに応じてデコーデッド画像シーケンスを構築するようにデコーダを配置することができる。

有向非巡回グラフとは、有向周期を全く伴わない有向グラフとして定義することができる。有向非巡回グラフは、頂点と有向辺の収集によって形成されると考えることができ、各辺は、１つの頂点を別の頂点に結び付け、こうして、或る頂点υで出発し、最終的に再びυにループ・バックする一連の辺を追従することはできないようになっている。

一実施形態によると、例えばファイル・クリエータによって実装可能な方法は、画像シーケンスのピクチャのインター予測依存性にしたがって有向非巡回グラフを形成することができる。ノード（頂点としても知られる）がピクチャを表現し、有向辺が、有向辺の出発点における予測および有向辺の到着点における予測のための参照ピクチャとの予測依存性を表現する。各イントラ・コーデッド・ピクチャは、ルート・ノードである。グラフは、森であることができる。すなわち２本以上の木で構成され得る。方法は各ノードについて分枝識別子を割当てることができる。デコーディング順で第１のピクチャの分枝識別子を最初に割当てることができ、デコーディング順に各ピクチャについて分枝識別子を割当てることができる。

参照ピクチャについての分枝識別子値は、以下のように決定することができる。すなわち
− 参照ピクチャｒｅｆＰｉｃＡが、インター予測において、互いに同じ分枝識別子を有する参照ピクチャｒｅｆＰｉｃＳｅｔＡを参照する場合で、しかも参照ピクチャｒｅｆＰｉｃＳｅｔＡの少なくともいくつかを参照するもののｒｅｆＰｉｃＡを参照しないデコーディング順で後続するピクチャが存在しない場合、ｒｅｆＰｉｃＡの分枝識別子は、参照ピクチャｒｅｆＰｉｃＳｅｔＡの分枝識別子値に等しくセットされる。
− そうでない場合、ｒｅｆＰｉｃＡの分枝識別子値には、先に割振られていないかまたは使用されていない値が割当てられる。

非参照ピクチャについての分枝識別子値は、以下のように決定することができる。
− 非参照ピクチャｎｏｎＲｅｆＰｉｃＡが参照ピクチャｒｅｆＰｉｃＳｅｔＢを参照し、同じ参照ピクチャｒｅｆＰｉｃＳｅｔＢを参照するデコーディング順でより早期の非参照ピクチャｎｏｎＲｅｆＰｉｃＢが存在する場合、非参照ピクチャｎｏｎＲｅｆＰｉｃＡの分枝識別子の値は、非参照ピクチャｎｏｎＲｅｆＰｉｃＢの分枝識別子値に等しくセットされる。
− そうでなければ、ｎｏｎＲｅｆＰｉｃＡの分枝識別子値には、先に割振られていないかまたは使用されていない値が割当てられる。

一実施形態によると、該方法はさらに、分枝識別子の各々の一意的組合せのための指標、および参照ピクチャまたは非参照ピクチャを標示するフラグを割当てるステップを含む。代替的には、該方法はさらに、各々の一意分枝識別子のための指標を割当てるステップを含み、該方法は同様に、参照ピクチャおよび非参照ピクチャを標示するメタデータをビットストリームのためのコンテナ・ファイル内でエンコーディングまたは書込みするステップをも含む。

一実施形態によると、コンテナ・ファイル・フォーマットは、ＩＳＯベース・メディア・ファイル・フォーマット（ＩＳＯＢＭＦＦ）であり、ここで出力ピクチャは、画像シーケンスまたは画像セットがＩＳＯＭＢＦＦのトラック構造を用いて記憶されるように、サンプル・グループ化メカニズムを用いて標示される。

一実施形態によると、例えば依存性ツリー（「ｄｐｔｒ」）と呼ぶことのできる新しい視覚的サンプル・グループ・エントリが、ＩＳＯＢＭＦＦのために定義される。このサンプル・グループ・エントリは、少なくとも以下のフィールドを含む。（ａ）例えばシンタックス名ｂｒａｎｃｈ＿ｉｄを有することのできる分枝識別子；（ｂ）このサンプル・グループ記述エントリに対してマッピングされたピクチャのための参照として使用することのできるピクチャを識別する（例えばシンタックス名ｒｅｆｅｒｅｎｃｅ＿ｂｒａｎｃｈ＿ｉｄを伴う）参照された分枝識別子値のリスト；（ｃ）例えば、マッピングされたサンプルが参照ピクチャであるか否かを標示するシンタックス名ｒｅｆ＿ｐｉｃ＿ｆｌａｇを有することのできるフラグ。

一実施形態において、ＩＳＯベース・メディア・ファイル・フォーマットとして参照サンプルおよび非参照サンプルの標示を実装するために、ファイル・クリエータは、「ｄｐｔｒ」タイプの全ての一意的サンプル・グループ記述エントリをコンパイルし、「ｄｐｔｒ」サンプル・グループ・エントリは、１つのリストとして「ｄｐｔｒ」サンプル・グループ記述ボックス内に挿入される。次に、画像シーケンス内の各サンプルが、サンプル・トゥー・グループ・ボックスを用いて適切なサンプル・グループ・エントリに対しマッピングされる。いくつかの実施形態において、非参照イントラ・コーデッド・サンプルは、このサンプル・グループ・エントリ・リスト内のどのエントリにも属さず、したがってそのｇｒｏｕｐ＿ｄｅｓｃｒｉｐｔｉｏｎ＿ｉｎｄｅｘ値はゼロにセットされる。

「ｄｐｔｒ」サンプル・グループ記述エントリのシンタックスを、例えば以下のように実装することができる。
ｃｌａｓｓＤｅｐｅｎｄｅｎｃｙＴｒｅｅＥｎｔｒｙ（）
ｅｘｔｅｎｄｓＶｉｓｕａｌＳａｍｐｌｅＧｒｏｕｐＥｎｔｒｙ（’ｄｐｔｒ’）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｒｅｆ＿ｐｉｃ＿ｆｌａｇ；
ｕｎｓｉｇｎｅｄｉｎｔ（３１）ｂｒａｎｃｈ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｒｅｆｅｒｅｎｃｅｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｒｅｆｅｒｅｎｃｅｓ；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｒｅｓｅｒｖｅｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（３１）ｒｅｆｅｒｅｎｃｅ＿ｂｒａｎｃｈ＿ｉｄ；
｝
｝

同様のまたは同等のシンタックス構造を用いて他の実施形態を実施できるということを理解すべきである。例えば、他の実施形態では、シンタックスの長さを変更することができる。別の実施例では、ｆｉｒｓｔ＿ｓａｍｐｌｅ＿ｆｌａｇと呼ぶことのできる別のフラグを、サンプル・グループ記述エントリシンタックス内に含むことができ、ｎｕｍ＿ｒｅｆｅｒｅｎｃｅｓおよびｒｅｆｅｒｅｎｃｅ＿ｂｒａｎｃｈ＿ｉｄは、ｆｉｒｓｔ＿ｓａｍｐｌｅ＿ｆｌａｇが１に等しい場合にのみ存在し、特定のｂｒａｎｃｈ＿ｉｄ値を有するデコーディング順に第１のサンプルのみが、１に等しいｆｉｒｓｔ＿ｓａｍｐｌｅ＿ｆｌａｇを用いて、サンプル・グループ記述エントリに対してマッピングされる。

一実施形態において、例えばファイル・プレイヤ内で実装できる方法には、特定のピクチャに対するランダム・アクセスを行うため、すなわち、デコーディングが再初期化された場合またはより早期のピクチャが全くデコーディングされていない状況から出発して、特定のピクチャをデコーディングするために、以下のステップが含まれる。

第１に、サンプルがｓｙｎｃサンプルである場合、それは直ちにデコーディングされ、さらなる処理は全く不要である。そうでなければ、特定のピクチャのための分枝識別子およびｒｅｆ＿ｐｉｃ＿ｆｌａｇ（など）は、例えば（特定のピクチャに対応する）サンプルに対応する（「ｄｐｔｒ」タイプのグループ化の）サンプル・グループ記述指標を発見することによって、ファイル内に記憶された情報に基づいて結論付けされる。サンプル・グループ記述指標から、対応するサンプル・グループ記述エントリは、「ｄｐｔｒ」タイプのグループ化のためサンプル・グループ記述ボックスから位置設定される。分枝識別子およびｒｅｆ＿ｐｉｃ＿ｆｌａｇ（など）は、サンプル・グループ記述エントリから発見される。

第２に、デコーディングされるべき参照ピクチャについてのｂｒａｎｃｈ＿ｉｄ値のリストｄｅｃＢｒａｎｃｈＩｄＬｉｓｔが、「ｄｐｔｒ」タイプのサンプル・グループ化のサンプル・グループ記述エントリを調査することによって導出される。ランダム・アクセスされたピクチャのｂｒａｎｃｈ＿ｉｄは、最初に、ｄｅｃＢｒａｎｃｈＩｄＬｉｓｔの中に含まれる。以下のプロセスが再帰的に実行され、初期入力は、ランダム・アクセスされたピクチャのｂｒａｎｃｈ＿ｉｄ値である。
− サンプル・グループ記述エントリが調査される。プロセスへの入力として与えられたｂｒａｎｃｈ＿ｉｄ値に等しいｒｅｆｅｒｅｎ＿ｂｒａｎｃｈ＿ｉｄを有する各々のサンプル・グループ記述エントリについて、プロセスへの入力として与えられたｂｒａｎｃｈ＿ｉｄ値は、ｄｅｃＢｒａｎｃｈＩｄＬｉｓｔ内に含まれ（それがすでにｄｅｃＢｒａｎｃｈＩｄＬｉｓｔ内に存在していたのでないかぎり）、プロセスは、発見されたサンプル・グループ記述エントリのｂｒａｎｃｈ＿ｉｄ値を入力されたｂｒａｎｃｈ＿ｉｄ値として提供することによって、再帰的に反復される。

第３に、デコーディング順でランダム・アクセスされたサンプルに先行し、リストＤｅｃＢｒａｎｃｈＩｄＬｉｓｔ内の１つの値に等しいｂｒａｎｃｈ＿ｉｄ値に（「ｄｐｔｒ」サンプル・グループ化を用いて）マッピングされている全ての参照サンプルが、デコーディングされる。その後、ランダム・アクセスされたサンプルはデコーディングされる。

他の任意の実施形態と共にまたはそれとは独立して適用できる一実施形態においては：
− １画像シーケンスのためのインター予測パターンを決定するかまたは獲得するステップであって、インター予測パターンは、どのピクチャがイントラ・コーディングされるか、どのピクチャがインターコーディングされるか、どのピクチャが参照ピクチャであるか、どのピクチャが非参照ピクチャであるか、およびインター・コーデッド・ピクチャを予測するための参照としてどのピクチャを使用できるか、の情報を提供し、コーディングされるべきピクチャの数がパターンの長さよりも大きい場合、パターンが反復されるステップ、および
− 抽出されたビットストリームが適合しているように、エンコーデッド・ビットストリームからの任意のピクチャをその直接的および間接的参照ピクチャと共に抽出できるようにするエンコーディングのためのパラメータを選択するステップ、
を含む方法が存在する。

一実施形態において、抽出されたビットストリームは、そのデコーディングの結果、全ビットストリームがデコーディングされたときのそれぞれのデコーデッド・サンプルと同じサンプル値（すなわち画素値）がもたらされる場合、および抽出されたビットストリームをデコーディングするときのピクチャの出力順序が、全ビットストリームがデコーディングされるときのそれぞれのピクチャの出力順序と同じである場合に、適合しているとみなすことができる。

一実施形態において、ＨＥＶＣのシーケンス・パラメータ・セットのｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４シンタックスなどによって表現することのできる、最大ＰＯＣ値または等価のものとしてのＰＯＣサイクル長は、抽出されたビットストリームをデコーディングするときの任意のピクチャのＰＯＣが、全ビットストリームをデコーディングするときのそれぞれのピクチャのＰＯＣと同じになるようにセットされる。

一実施形態において、該方法はさらに、抽出されたビットストリームが適合していることを第１の標示を用いて標示するステップを含み、ここで抽出されたビットストリームは、その直接的および間接的参照ピクチャと合わせてエンコーデッド・ビットストリームから任意のピクチャを抽出することによって形成される。

一実施形態において、前記第１の標示は、エンコーデッド・ビットストリームを同様に含むまたは参照するコンテナ・ファイル内に含まれる。

一実施形態において、前記第１の標示は、他の実施形態で説明されている画像シーケンスのシグナリング参照サンプルである。他の実施形態で説明されている画像シーケンスのシグナリング参照サンプルがファイル内に存在する場合、抽出されたビットストリームが適合していることも同様に義務付けられ、ここで抽出されたビットストリームは、エンコーデッド・ビットストリームから任意のピクチャをその直接的および間接的参照ピクチャと合わせて抽出することによって形成される。

一実施形態において、前記第１の標示は、他の実施形態で説明されている画像シーケンス内のピクチャのための分枝識別子および参照分枝識別子のシグナリングである。ファイル中に画像シーケンス内のピクチャのための分枝識別子および参照分枝識別子のシグナリングが存在する場合、抽出されたビットストリームが適合していることも同様に義務付けられ、ここで、抽出されたビットストリームは、エンコーデッド・ビットストリームから任意のピクチャをその直接的および間接的参照ピクチャと合わせて抽出することによって形成される。

こうして、上述した方法は、最小限の遅延でランダム・アクセス機能を可能にする予測コーディング構造をシグナリングするための手段、および圧縮画像シーケンス内で個別のピクチャを編集する可能性を提供する。

参照サンプルなる用語に関連して実施形態を説明してきた。いくつかの実施形態では、参照サンプルは、直接的参照サンプルとみなされ、したがって間接的参照サンプルではない。他の実施形態では、参照サンプルは、直接的および間接的参照サンプルの両方の総称である。

参照ピクチャなる用語に関連して実施形態を説明してきた。いくつかの実施形態では、参照ピクチャは、直接的参照ピクチャとみなされ、したがって間接的参照ピクチャではない。他の実施形態では、参照ピクチャは、直接的および間接的参照ピクチャの両方の総称である。

以上で説明した本発明の実施形態のいくつかは、関与するプロセスの理解を助ける目的で、エンコーダおよびデコーダ装置が別個であるものとして、コーデックについて記載している。しかしながら、装置、構造およびオペレーションを単一のエンコーダ・デコーダ装置／構造／オペレーションとして実装できることが認識されると考えられる。さらに、本発明のいくつかの実施形態において、コーダおよびデコーダは、いくつかのまたは全ての共通要素を共用することができる。

以上で説明した本発明の実施形態のいくつかは、関与するプロセスの理解を助ける目的で、ファイル書込みおよびファイル読取りのための別個の装置について記載している。しかしながら、装置、構造およびオペレーションを単一のファイル・ライター・リーダー／構造／オペレーションとして実装できることが認識されると思われる。さらに、本発明のいくつかの実施形態において、ファイル・ライターおよびファイル・リーダーは、いくつかのまたは全ての共通要素を共用することができる。

以上の実施例は、電子デバイス内のコーデック、ファイル・プレイヤ、またはファイル・レコーダー内で動作する本発明の実施形態を説明しているものの、クレーム中に定義されている本発明を、任意のビデオ・コーデック、任意のファイル・プレイヤまたは任意のファイル・レコーダーの一部として実装できることが認識されると思われる。したがって、例えば、本発明の実施形態を、固定のまたは有線の通信パス上でそれぞれビデオ・コーディング、ファイル再生またはファイル記録を実装できるビデオ・コーデック、ファイル・プレイヤ、またはファイル・レコーダーの形で実装することができる。

こうして、ユーザー機器は、以上の本発明の実施形態中で説明されているものなどのビデオ・コーデック、ファイル・プレイヤ、またはファイル・レコーダーを含むことができる。ユーザー機器なる用語が、任意の好適なタイプの無線ユーザー機器、例えば携帯電話、ポータブルデータ処理デバイスまたはポータブル・ウェブ・ブラウザなどをカバーするように意図されていることが認識されるものとする。

さらに、地上波公共移動通信ネットワーク（ＰＬＭＮ）の要素も同様に、上述のビデオ・コーデック、ファイル・プレイヤまたはファイル・レコーダーを含むことができる。

概して、本発明のさまざまな実施形態は、ハードウェアまたは専用回路、ソフトウェア、論理またはそれらの任意の組合せの形で実装可能である。例えば、一部の実施形態をハードウェアの形で実装することができ、一方他の実施形態を、コントローラ、マイクロプロセッサまたは他の計算デバイスにより実行され得るファームウェアまたはソフトウェアの形で実装することができるが、本発明はそれらに限定されるわけではない。本発明のさまざまな実施形態を、ブロック図、流れ図として、または他のいくつかの図的表現を用いて例示できるものの、本明細書中で説明されているこれらのブロック、装置、システム、技術または方法を、非限定的例として、ハードウェア、ソフトウェア、ファームウェア、専用回路または論理、汎用ハードウェアまたはコントローラまたは他の計算デバイスまたはそれらのいくつかの組合せの形で実装できることは、充分に理解される。

本発明の実施形態は、例えばプロセッサー・エンティティ内の移動体デバイスのデータ・プロセッサによって実行可能なコンピュータ・ソフトウェアによってまたはハードウェアによって、またはソフトウェアとハードウェアの組合せによって、実装可能である。さらにこの点に関して、図中にあるような論理の流れのいずれのブロックもプログラム・ステップ、または相互連結された論理回路、ブロックおよび機能、またはプログラム・ステップおよび論理回路、ブロックおよび機能の組合せを表現できることを指摘しておくべきである。ソフトウェアは、プロセッサ内部に実装されたメモリ・ブロックまたはメモリ・チップなどの物理媒体、ハード・ディスクまたはフロッピー・ディスクなどの磁気媒体、および例えばＤＶＤおよびそのデータ変形形態、ＣＤなどの光学媒体上に記憶可能である。

メモリは、局所的技術環境に好適なあらゆるタイプのものであることができ、半導体ベースのメモリ・デバイス、磁気メモリ・デバイスおよびシステム、光学メモリ・デバイスおよびシステム、固定メモリおよびリムーバブル・メモリなどの任意の好適なデータ記憶技術を用いて実装可能である。データ・プロセッサは、局所的技術環境に好適な任意のタイプのものであることができ、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）およびマルチ・コア・プロセッサ・アーキテクチャのうちの１つ以上を非限定的例として含むことができる。

本発明の実施形態は、集積回路モジュールなどのさまざまなコンポーネントの形で実施可能である。集積回路の設計は、概して高度に自動化されたプロセスである。論理レベルの設計を半導体基板上で直ちにエッチングし形成できる状態の半導体回路の設計へと転換するために、複雑で強力なソフトウェア・ツールが利用可能である。

ＭｏｕｎｔａｉｎＶｉｅｗ、ＣａｌｉｆｏｒｎｉａのＳｙｎｏｐｓｙｓ．ＩｎｃおよびＳａｎＪｏｓｅ、ＣａｌｉｆｏｒｎｉａのＣａｄｅｎｃｅＤｅｓｉｇｎにより提供されているもののようなプログラムは、導体を自動的に経路指定し、確立した設計規則ならびに予め記憶された設計モジュールのライブラリを用いて、半導体チップ上にコンポーネントを位置設定する。半導体回路のための設計が、ひとたび完成すると、規格化された電子フォーマット（例えばＯｐｕｓ、ＧＤＳＩＩなど）での結果として得られた設計を半導体製造施設または製造を略して「ｆａｂ」へと伝送することができる。

以上の説明は、例示的で非限定的な実施例を用いて、本発明の例示的実施形態の完全で詳細な説明を提供している。しかしながら、当業者にとっては、付随する図面および添付のクレームと併せて読んだ場合に以上の説明を考慮して、さまざまな修正および適応化が明らかになる可能性がある。ただし、本発明の教示のこのようなおよび類似の修正は、なおも本発明の範囲内に入るものである。

Claims

ビットストリーム内でエンコーデッド・ピクチャ・シーケンスの参照ピクチャをシグナリングする方法であって、
前記ピクチャ・シーケンスのピクチャを、参照ピクチャおよび非参照ピクチャに分類するステップと、
各参照ピクチャに一意ピクチャ識別子を提供するステップと、
少なくとも前記ピクチャ・シーケンスのインター・コーデッド・ピクチャについて、前記ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の全ての一意的組合せを決定するステップであって、特定のピクチャについての前記少なくとも１つの参照ピクチャ識別子は、前記特定のピクチャを予測するための参照として使用できる全てのピクチャを識別するステップと、
イントラ・コーデッド参照ピクチャには少なくとも該ピクチャの一意ピクチャ識別子を割当て、前記インター・コーデッド参照ピクチャには、該ピクチャの前記ピクチャ識別子と前記少なくとも１つの参照ピクチャ識別子の対応する一意的組合せを割当てるステップと、
を含む方法。
前記イントラ・コーデッド参照ピクチャについて、該ピクチャの一意ピクチャ識別子と同じ値を有する参照ピクチャ識別子を割当てるステップ、
をさらに含む、請求項１に記載の方法。
各非参照ピクチャに共通ピクチャ識別子を提供するステップ、
をさらに含む、請求項１または２に記載の方法。
各参照ピクチャについての前記一意ピクチャ識別子が正の非ゼロ整数であり、前記非参照ピクチャについての前記共通ピクチャ識別子がゼロである、請求項３に記載の方法。
前記ピクチャ識別子と前記少なくとも１つの参照ピクチャ識別子の各一意的組合せについて指標を割当てるステップと、
前記ピクチャ・シーケンスの前記ピクチャを、該ピクチャの前記ピクチャ識別子と前記少なくとも１つの参照ピクチャ識別子の一意的組合せに対応する指標にマッピングするステップと、
をさらに含む、請求項２ないし４のいずれか１項に記載の方法。
同様に前記ビットストリームを含むまたは該ビットストリームを参照するコンテナ・ファイル内で前記マッピングを表示するステップ、
をさらに含む、請求項５に記載の方法。
前記コンテナ・ファイルは、ＩＳＯベース・メディア・ファイル・フォーマット（ＩＳＯＢＭＦＦ）に適合し、前記コンテナ・ファイルは、論理的にサンプルを含むトラックを含み、前記トラックのサンプルはピクチャを含み、
前記ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の一意的組合せを前記コンテナ・ファイル内に、サンプル・グループ記述エントリとして含むステップであって、サンプル・グループ記述子エントリには前記それぞれの指標が割当てられているステップと、
前記コンテナ・ファイル内に、ピクチャが前記サンプル・グループ記述エントリの前記それぞれの指標にマッピングされていることのサンプル・トゥー・グループ・データ構造内部の標示を含むステップと、
を含む、請求項６に記載の方法。
少なくとも１つのプロセッサと少なくとも１つのメモリを備えた装置であって、前記少なくとも１つのメモリ上にはコードが記憶され、このコードは、前記少なくとも１つのプロセッサにより実行されたとき、前記装置に少なくとも、
ピクチャ・シーケンスのピクチャを参照ピクチャおよび非参照ピクチャに分類するステップと、
各参照ピクチャに一意ピクチャ識別子を提供するステップと、
少なくとも前記ピクチャ・シーケンスのインター・コーデッド・ピクチャについて、前記ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の全ての一意的組合せを決定するステップであって、特定のピクチャについての前記少なくとも１つの参照ピクチャ識別子は、前記特定のピクチャを予測するための参照として使用できる全てのピクチャを識別するステップと、
イントラ・コーデッド参照ピクチャには少なくとも該ピクチャの一意ピクチャ識別子を割当て、前記インター・コーデッド参照ピクチャには、該ピクチャの前記ピクチャ識別子と前記少なくとも１つの参照ピクチャ識別子の対応する一意的組合せを割当てるステップと、
を行わせる、装置。
前記少なくとも１つのメモリは、前記装置に少なくとも、
前記イントラ・コーデッド参照ピクチャについて、該ピクチャの一意ピクチャ識別子と同じ値を有する参照ピクチャ識別子を割当てるステップを行わせるコードをさらに含む、請求項８に記載の装置。
前記少なくとも１つのメモリは、前記装置に少なくとも、
各非参照ピクチャに共通ピクチャ識別子を提供するステップを行わせるコードをさらに備えている、請求項８または９に記載の装置。
各参照ピクチャについての前記一意ピクチャ識別子が正の非ゼロ整数であり、前記非参照ピクチャについての前記共通ピクチャ識別子がゼロである、請求項１０に記載の装置。
前記少なくとも１つのメモリは、前記装置に少なくとも、
前記ピクチャ識別子と前記少なくとも１つの参照ピクチャ識別子の各一意的組合せについて指標を割当てるステップと、
前記ピクチャ・シーケンスの前記ピクチャを、該ピクチャの前記ピクチャ識別子と前記少なくとも１つの参照ピクチャ識別子の一意的組合せに対応する指標にマッピングするステップと、
を行わせるコードをさらに備えている、請求項９ないし１１のいずれか１項に記載の装置。
前記少なくとも１つのメモリは、前記装置に少なくとも、
同様に前記ビットストリームを含むまたは該ビットストリームを参照するコンテナ・ファイル内で前記マッピングを表示するステップ、
を行わせるコードをさらに備えた、請求項１２に記載の装置。
前記コンテナ・ファイルは、ＩＳＯベース・メディア・ファイル・フォーマット（ＩＳＯＢＭＦＦ）に適合し、前記コンテナ・ファイルは、論理的にサンプルを含むトラックを含み、前記トラックのサンプルはピクチャを含み、前記少なくとも１つのメモリは、前記装置に少なくとも、
前記ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の一意的組合せを前記コンテナ・ファイル内に、サンプル・グループ記述エントリとして含むステップであって、サンプル・グループ記述子エントリには前記それぞれの指標が割当てられているステップと、
前記コンテナ・ファイル内で、ピクチャが前記サンプル・グループ記述エントリの前記それぞれの指標にマッピングされていることのサンプル・トゥー・グループ・データ構造内部の標示を含むステップと、
を行わせるコードを備えている、請求項１３に記載の装置。
装置による使用のために上にコードが記憶されたコンピュータ可読記憶媒体であって、このコードは、プロセッサにより実行されたとき、前記装置に、
ピクチャ・シーケンスのピクチャを参照ピクチャおよび非参照ピクチャに分類するステップと、
各参照ピクチャに一意ピクチャ識別子を提供するステップと、
少なくとも前記ピクチャ・シーケンスのインター・コーデッド・ピクチャについて、前記ピクチャ識別子と少なくとも１つの参照ピクチャ識別子の全ての一意的組合せを決定するステップであって、特定のピクチャについての前記少なくとも１つの参照ピクチャ識別子は、前記特定のピクチャを予測するための参照として使用できる全てのピクチャを識別するステップと、
イントラ・コーデッド参照ピクチャには少なくとも該ピクチャの一意ピクチャ識別子を割当て、前記インター・コーデッド参照ピクチャには、該ピクチャの前記ピクチャ識別子と前記少なくとも１つの参照ピクチャ識別子の対応する一意的組合せを割当てるステップと、
を行わせる、コンピュータ可読記憶媒体。
ピクチャ・シーケンスのピクチャをデコーディングするために必要とされる参照ピクチャについての標示を含むシグナリングを受信するステップと、
イントラ・コーデッド参照ピクチャについての少なくとも１つの一意ピクチャ識別子および、ピクチャ識別子とインター・コーデッド・ピクチャのための少なくとも１つの参照ピクチャ識別子との一意的組合せについての標示を決定するステップと、
特定のインター・コーデッド・ピクチャのための前記少なくとも１つの参照ピクチャ識別子から、前記特定のインター・コーデッド・ピクチャにより参照されている全てのピクチャを決定するステップと、
を含む方法。
前記特定のインター・コーデッド・ピクチャにランダム・アクセスするための要求を取得するステップと、
前記特定のインター・コーデッド・ピクチャにより参照されている前記全てのピクチャをデコーディングするステップと、
前記特定のインター・コーデッド・ピクチャをデコーディングするステップと、
をさらに含む、請求項１６に記載の方法。
少なくとも１つのプロセッサと少なくとも１つのメモリを備えた装置であって、前記少なくとも１つのメモリ上にはコードが記憶され、このコードは、前記少なくとも１つのプロセッサにより実行されたとき、前記装置に少なくとも、
ピクチャ・シーケンスのピクチャをデコーディングするために必要とされる参照ピクチャについての標示を含むシグナリングを受信するステップと、
イントラ・コーデッド参照ピクチャについての少なくとも１つの一意ピクチャ識別子および、ピクチャ識別子とインター・コーデッド・ピクチャのための少なくとも１つの参照ピクチャ識別子との一意的組合せについての標示を決定するステップと、
特定のインター・コーデッド・ピクチャのための前記少なくとも１つの参照ピクチャ識別子から、前記特定のインター・コーデッド・ピクチャにより言及されている全てのサンプルを決定するステップと、
を行わせる、装置。
前記少なくとも１つのメモリが、
前記特定のインター・コーデッド・ピクチャにランダム・アクセスするための要求を取得するステップと、
前記特定のインター・コーデッド・ピクチャにより言及されている前記全てのピクチャをデコーディングするステップと、
前記特定のインター・コーデッド・ピクチャをデコーディングするステップと、
を行わせるコードをさらに備えている、請求項１８に記載の装置。