JP2023517440A

JP2023517440A - ビデオコーディングのためのビデオデータの記憶および配信

Info

Publication number: JP2023517440A
Application number: JP2022540886A
Authority: JP
Inventors: ストックハマー、トーマス; ブアジジ、イメド; ルサノフスキー、ドミトロ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2020-01-08
Filing date: 2021-01-08
Publication date: 2023-04-26
Also published as: US20220279213A1; AU2021205938A1; WO2021142219A1; CL2022001830A1; MX2022008364A; BR112022013247A2; EP4088471A1; KR20220124168A; CO2022009480A2; ZA202206888B; TW202133614A; US11356706B2; US20210211735A1; US11706460B2; IL293683A; CA3164786A1; CN114930857A

Abstract

ビデオデータを処理するためのデバイスは、ビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、ビットストリームのための構成レコードは、ビデオ復号ツールのセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定することと、構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、ビットストリームを取り出し、復号のためにビットストリームをビデオデコーダに出力することとを行うように構成され得る。

Description

[0001] 本出願は、内容全体が参照により本明細書に組み込まれる、２０２０年１月８日に出願された米国仮特許出願第６２／９５８，５６１号の利益を主張する、２０２１年１月７日に出願された米国出願第１７／１４３，６１１号の優先権を主張する。

[0002] 本開示は、ビデオデータ（video data）の記憶（storage）および配信（delivery）に関する。

[0003] デジタルビデオ能力は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダー、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲーミングデバイス、ビデオゲームコンソール、セルラー電話または衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、広範囲のデバイスに組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ－２、ＭＰＥＧ－４、ＩＴＵ－ＴＨ．２６３、ＩＴＵ－ＴＨ．２６４／ＭＰＥＧ－４、Ｐａｒｔ１０，アドバンストビデオコーディング（ＡＶＣ）、ＩＴＵ－ＴＨ．２６５／高効率ビデオコーディング（ＨＥＶＣ：High Efficiency Video Coding）によって定義された規格、およびそのような規格の拡張に記載されているビデオコーディング技法など、ビデオコーディング技法を実装する。ビデオデバイスは、そのようなビデオコーディング技法を実装することによって、デジタルビデオ情報をより効率的に送信、受信、符号化、復号、および／または記憶し得る。

[0004] ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するための空間（ピクチャ内）予測および／または時間（ピクチャ間）予測を含む。ブロックベースのビデオコーディングでは、ビデオスライス（たとえば、ビデオピクチャまたはビデオピクチャの一部分）が、コーディングツリーユニット（ＣＴＵ）、コーディングユニット（ＣＵ）および／またはコーディングノードと呼ばれることもある、ビデオブロックに区分され得る。ピクチャのイントラコード化（Ｉ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間予測を使用して符号化される。ピクチャのインターコード化（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間予測、または他の参照ピクチャ中の参照サンプルに対する時間予測を使用し得る。ピクチャはフレームと呼ばれることがあり、参照ピクチャは参照フレームと呼ばれることがある。

[0005] 概して、本開示は、ファイルフォーマットに基づくビデオコーディング規格に準拠するビットストリーム（bitstream）の記憶および配信のための技法について説明する。本開示はまた、ビデオコーディング規格のためのメディアフォーマットプロファイル、およびストリーミング技法を使用する配信の例について説明する。一例として、ビデオコーディング規格は、エッセンシャルビデオコーディング（ＥＶＣ：essential video coding）規格（standard）であり、ファイルフォーマットは、国際標準化機構のベースメディアファイルフォーマットである。国際標準化機構のベースメディアファイルフォーマットは、ＩＳＯＢＭＦＦと呼ばれる。メディアフォーマットプロファイルの一例は、共通メディアアプリケーションフォーマット（ＣＭＡＦ）プロファイルであり、ストリーミング技法の一例は、動的適応ストリーミングオーバーＨＴＴＰ（ＤＡＳＨ）である。本開示はまた、多目的インターネットメール拡張（ＭＩＭＥ：Multipurpose Internet Mail Extensions）タイプとともに使用されるべき暗号化要件およびコーデックパラメータについて説明し得る。ＥＶＣ、ＩＳＯＢＭＦＦ、ＣＭＡＦ、およびＤＡＳＨに関して説明されたが、例示的な技法は、そのように限定されると見なされるべきではない。

[0006] 本開示の一例によれば、ビデオストリーム（video stream）またはビデオファイル（video file）を処理する方法は、ビデオデータのビットストリームを復号するための構成レコード（configuration record）を受信することと、ここにおいて、上記ビットストリームのための構成レコードは、ビデオ復号ツール（video decoding tool）のセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツール（tool）を識別する情報を含むツールセット指示シンタックス要素（toolset indication syntax element）を含む、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定することと、構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、ビットストリームを取り出し、復号（decoding）のためにビットストリームをビデオデコーダ（video decoder）に出力することとを含む。

[0007] 本開示の別の例によれば、ビデオストリームを処理するためのデバイス（device）は、ビデオストリームを記憶するように構成されたメモリ（memory）と、回路内に実装され、メモリに結合され、ビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、ビットストリームのための構成レコードは、ビデオ復号ツールのセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定することと、構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、ビットストリームを取り出し、復号のためにビットストリームをビデオデコーダに出力することとを行うように構成された、１つまたは複数のプロセッサ（processor）とを含む。

[0008] 本開示の別の例によれば、コンピュータ可読記憶媒体（computer-readable storage medium）は、命令（instruction）を記憶し、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、ビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、ビットストリームのための構成レコードは、ビデオ復号ツールのセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定することと、構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、ビットストリームを取り出し、復号のためにビットストリームをビデオデコーダに出力することとを行わせる。

[0009] 本開示の別の例によれば、ビデオストリームまたはビデオファイルを処理するための装置は、ビデオデータのビットストリームを復号するための構成レコードを受信するための手段と、ここにおいて、ビットストリームのための構成レコードは、ビデオ復号ツールのセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定するための手段と、構成レコードに関連付けられたビットストリームを取り出す決定に基づいてビットストリームを取り出すための手段と、復号のためにビットストリームをビデオデコーダに出力するための手段とを含む。

[0010] １つまたは複数の例の詳細が添付の図面および以下の説明に記載される。他の特徴、目的、および利点は、説明、図面、および特許請求の範囲から明らかになろう。

[0011] 本開示の技法を実施し得る例示的なビデオ符号化および復号システムを示すブロック図。 [0012] 例示的なクワッドツリーバイナリツリー（ＱＴＢＴ）構造を示す概念図。対応するコーディングツリーユニット（ＣＴＵ）を示す概念図。 [0013] 本開示の技法を実施し得る例示的なビデオエンコーダを示すブロック図。 [0014] 本開示の技法を実施し得る例示的なビデオデコーダを示すブロック図。 [0015] 本開示の１つまたは複数の技法による、ファイルの例示的な構造を示す概念図。 [0016] 例示的なマルチメディアコンテンツの要素を示す概念図。 [0017] 例示的なビデオファイルの要素を示すブロック図。 [0018] 本開示の技法による、ビデオデータを処理するための例示的な方法を示すフローチャート。

[0019] ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）によって開発されたエッセンシャルビデオコーディング（ＥＶＣ）規格は、効率的で低複雑度のビデオコーディングソリューションを提供する。ＥＶＣエレメンタリストリームは、ネットワークアブストラクションレイヤ（ＮＡＬ）ユニットとして構造化される。ＩＳＯベースメディアファイルフォーマット（ＩＳＯＢＭＦＦ）におけるＮＡＬユニットの記憶は、他のＮＡＬ構造化ビデオフォーマット（たとえば、高効率ビデオコーディング（ＨＥＶＣ）および／または汎用ビデオコーディング（ＶＶＣ：Versatile Video Coding）規格）と同様の原理に従う。

[0020] ＥＶＣエレメンタリストリームの記憶は、２つの部分、すなわち、エレメンタリストリームにおいてグローバルに使用される静的情報と、サンプルごとに変化し得る動的情報とに再分割され得る。シーケンスパラメータセット（ＳＰＳ：sequence parameter set）およびピクチャパラメータセット（ＰＰＳ：picture parameter set）は、めったに変化しない情報の一部であり得、静的であると見なされ得る。パラメータセット（parameter set）がストリーム中で変化することが予想されるかどうかを示すために、フラグのセットが使用され得る。そのような場合、パラメータセットが変化するサンプルを示すサンプルグルーピングが定義される。

[0021] 適応パラメータセット（ＡＰＳ：Adaptation Parameter Set）は、サンプルごとのベースで変化し得る動的情報であり得る。ＡＰＳは、適応ループフィルタ（ＡＬＦ：Adaptive Loop Filter）情報を搬送するために使用される。ＡＬＦの存在は、フラグを通してシグナリングされ、ＡＰＳ情報を搬送するサンプルは、同じサンプルグループに属し得る。

[0022] ボックスは、４文字コード化ボックスタイプと、ボックスのバイト数と、ペイロードとを含む、ＩＳＯＢＭＦＦにおける基本的なシンタックス構造を指し得る。ＩＳＯＢＭＦＦファイルは、ボックスのシーケンスを含み、ボックスは他のボックスを含んでよい。ムービーボックス（「ｍｏｏｖ」）は、各々がファイル中にトラックとして表される、ファイル中に存在する連続的メディアストリームのためのメタデータを含んでいる。

[0023] トラックに対するメタデータは、トラックボックス（「ｔｒａｋ」）に封入され得るが、トラックのメディアコンテンツは、メディアデータボックス（「ｍｄａｔ」）に封入されるか、または別のファイルに直接封入されるかのいずれかであり得る。トラックに対するメディアコンテンツは、オーディオまたはビデオアクセスユニットなどのサンプルのシーケンスを含む。アクセスユニットは、概して、共通の時間インスタンスのためのコード化メディア（たとえば、ピクチャ）データを含むデータのユニットである。サンプルは、本明細書で説明するビデオコーディング仕様など、特定の仕様によって定義されたアクセスユニットである。サンプルエントリは、対応するサンプルの記述を提供し得る。

[0024] ＩＳＯＢＭＦＦは、次のタイプのトラック、すなわち、エレメンタリメディアストリームを含んでいるメディアトラックと、メディア送信命令を含むかまたは受信パケットストリームを表すかのいずれかであるヒントトラックと、時間同期されたメタデータを備えるタイムドメタデータトラックとを規定する。

[0025] 本開示は、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含むビデオデータのビットストリームのための構成レコードについて説明する。本開示はまた、たとえば、キー値ペア（key value pair）を含むＨＴＴＰ送信に、多目的インターネットメール拡張（ＭＩＭＥ：multipurpose internet mail extensions）タイプパラメータ（type parameter）を含めるための技法について説明する。キーは、ＭＩＭＥタイプがビデオ復号ツールを識別することを示し得、その値は、ビットストリームを復号するために必要とされるツールを識別し得る。一般に、ツールがメディアストリームのための少なくとも１つのパラメータセットにおいて有効にされた場合、そのツールは必要であると見なされ得る。そのようなツールセット指示シンタックス要素とＭＩＭＥタイプとを使用することによって、本開示の技法は、ビデオ処理デバイスのビデオデコーダがファイルの大部分をパースする（parse）必要なしにファイルを復号することができるかどうかをビデオ処理デバイスが決定することを有利に可能にし得る。

[0026] 図１は、本開示の技法を実施し得る例示的なビデオ符号化および復号システム１００を示すブロック図である。本開示の技法は、概して、ビデオデータをコーディング（符号化および／または復号）することを対象とする。概して、ビデオデータは、ビデオを処理するための何らかのデータを含む。したがって、ビデオデータは、生の符号化されていないビデオ、符号化されたビデオ、復号された（たとえば、再構築された）ビデオ、およびシグナリングデータなどのビデオメタデータを含み得る。

[0027] 図１に示されているように、システム１００は、この例では、宛先デバイス１１６によって復号および表示されるべき符号化ビデオデータを提供するソースデバイス１０２を含む。特に、ソースデバイス１０２は、コンピュータ可読媒体１１０を介して宛先デバイス１１６にビデオデータを提供する。ソースデバイス１０２と宛先デバイス１１６とは、デスクトップコンピュータ、ノートブック（すなわち、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、スマートフォンなどの電話ハンドセット、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲーミングコンソール、ビデオストリーミングデバイス、などを含む、広範囲のデバイスのいずれかを備え得る。いくつかの場合には、ソースデバイス１０２と宛先デバイス１１６とは、ワイヤレス通信のために装備され得、したがって、ワイヤレス通信デバイスと呼ばれることがある。

[0028] 図１の例では、ソースデバイス１０２は、ビデオソース１０４と、メモリ１０６と、ビデオエンコーダ２００と、出力インターフェース１０８とを含む。宛先デバイス１１６は、入力インターフェース１２２と、ビデオデコーダ３００と、メモリ１２０と、ディスプレイデバイス１１８とを含む。本開示によれば、ソースデバイス１０２および宛先デバイス１１６は、ファイルフォーマットに基づくビデオコーディング規格（たとえば、ＩＳＯベースメディアファイルフォーマット（ＩＳＯＢＭＦＦ）に基づくエッセンシャルビデオコーディング（ＥＶＣ）エレメンタリビットストリーム）に準拠するビットストリームの記憶および配信のための技法を適用するように構成され得る。本開示はまた、メディアプロファイル（たとえば、共通メディアアプリケーションフォーマット（ＥＶＣのためのＣＭＡＦメディアプロファイル））について説明し、動的適応ストリーミングオーバーＨＴＴＰ（ＤＡＳＨ）を使用する配信について説明し、暗号化要件について説明し、ビデオエンコーダ２００およびビデオデコーダ３００によって利用され得る多目的インターネットメール拡張（ＭＩＭＥ）タイプとともに使用されるべきコーデックパラメータについて説明する。したがって、ソースデバイス１０２は、ビデオ符号化および送信を実行するように構成されたクライアントデバイスの一例を表すが、宛先デバイス１１６は、符号化されたビデオを受信および復号するように構成された宛先デバイスの一例を表す。他の例では、ソースデバイスと宛先デバイスとは、他の構成要素または配置を含み得る。たとえば、ソースデバイス１０２は、外部カメラなどの外部ビデオソースからビデオデータを受信し得る。同様に、宛先デバイス１１６は、一体型ディスプレイデバイスを含むのではなく、外部ディスプレイデバイスとインターフェースし得る。

[0029] 図１に示されているシステム１００は一例にすぎない。概して、任意のデジタルビデオ符号化および／または復号デバイスは、ファイルフォーマットに基づくビデオコーディング規格に準拠するビットストリーム（たとえば、ＩＳＯＢＭＦＦに基づくＥＶＣエレメンタリビットストリーム）の記憶および配信のための技法を実行し得る。本開示はまた、メディアプロファイル（たとえば、ＥＶＣのためのＣＭＡＦメディアプロファイル）について説明し、ＤＡＳＨを使用した配信について説明し、暗号化要件について説明し、ビデオエンコーダ２００およびビデオデコーダ３００によって利用され得るＭＩＭＥタイプとともに使用されるべきコーデックパラメータについて説明する。ソースデバイス１０２と宛先デバイス１１６とは、ソースデバイス１０２が宛先デバイス１１６への送信のためにコード化ビデオデータを生成するようなコーディングデバイスの例にすぎない。本開示では、データのコーディング（符号化および／または復号）を実施するデバイスとして「コーディング」デバイスに言及する。したがって、ビデオエンコーダ２００とビデオデコーダ３００とは、コーディングデバイス、特に、それぞれビデオエンコーダとビデオデコーダとの例を表す。いくつかの例では、ソースデバイス１０２および宛先デバイス１１６は、ソースデバイス１０２および宛先デバイス１１６の各々がビデオ符号化構成要素およびビデオ復号構成要素を含むように、実質的に対称的に動作し得る。したがって、システム１００は、たとえば、ビデオストリーミング、ビデオ再生、ビデオブロードキャスティング、またはビデオテレフォニーのための、ソースデバイス１０２と宛先デバイス１１６との間の一方向または双方向ビデオ送信をサポートし得る。

[0030] 概して、ビデオソース１０４は、ビデオデータ（すなわち、生の符号化されていないビデオデータ）のソースを表し、ビデオデータの連続的な一連のピクチャ（「フレーム」とも呼ばれる）をビデオエンコーダ２００に提供し、ビデオエンコーダ２００は、ピクチャのためにデータを符号化する。ソースデバイス１０２のビデオソース１０４は、ビデオカメラ、前にキャプチャされた生のビデオを含んでいるビデオアーカイブ、および／またはビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェースなど、ビデオキャプチャデバイスを含み得る。さらなる代替として、ビデオソース１０４は、ソースビデオとして、コンピュータグラフィックスベースのデータ、またはライブビデオとアーカイブビデオとコンピュータ生成されたビデオとの組合せを生成し得る。各場合において、ビデオエンコーダ２００は、キャプチャされたビデオデータ、プリキャプチャされたビデオデータ、またはコンピュータ生成されたビデオデータを符号化する。ビデオエンコーダ２００は、ピクチャを、（「表示順序」と呼ばれることがある）受信順序から、コーディングのためのコーディング順序に並べ替え得る。ビデオエンコーダ２００は、符号化ビデオデータを含むビットストリームを生成し得る。ソースデバイス１０２は、次いで、たとえば、宛先デバイス１１６の入力インターフェース１２２による受信および／または取出しのために、出力インターフェース１０８を介して符号化ビデオデータをコンピュータ可読媒体１１０上に出力し得る。

[0031] ソースデバイス１０２のメモリ１０６と、宛先デバイス１１６のメモリ１２０とは、汎用メモリを表す。いくつかの例では、メモリ１０６、１２０は、生のビデオデータ、たとえば、ビデオソース１０４からの生のビデオ、およびビデオデコーダ３００からの生の復号ビデオデータを記憶し得る。追加または代替として、メモリ１０６、１２０は、たとえば、それぞれ、ビデオエンコーダ２００とビデオデコーダ３００とによって実行可能なソフトウェア命令を記憶し得る。メモリ１０６およびメモリ１２０は、この例ではビデオエンコーダ２００およびビデオデコーダ３００とは別個に示されているが、ビデオエンコーダ２００およびビデオデコーダ３００は、機能的に同様のまたは等価な目的で内部メモリをも含み得ることを理解されたい。さらに、メモリ１０６、１２０は、符号化ビデオデータ、たとえば、ビデオエンコーダ２００からの出力、およびビデオデコーダ３００への入力を記憶し得る。いくつかの例では、メモリ１０６、１２０の部分は、たとえば、生の復号および／または符号化ビデオデータを記憶するために、１つまたは複数のビデオバッファとして割り振られ得る。

[0032] コンピュータ可読媒体１１０は、ソースデバイス１０２から宛先デバイス１１６に符号化ビデオデータを移送することが可能な任意のタイプの媒体またはデバイスを表し得る。一例では、コンピュータ可読媒体１１０は、ソースデバイス１０２が、たとえば、無線周波数ネットワークまたはコンピュータベースのネットワークを介して、符号化ビデオデータを宛先デバイス１１６にリアルタイムで直接送信することを可能にするための通信媒体を表す。ワイヤレス通信プロトコルなどの通信規格に従って、出力インターフェース１０８は、符号化ビデオデータを含む送信信号を変調し得、入力インターフェース１２２は、受信された送信信号を復調し得る。通信媒体は、無線周波数（ＲＦ）スペクトルまたは１つまたは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなど、パケットベースネットワークの一部を形成し得る。通信媒体は、ルータ、スイッチ、基地局、またはソースデバイス１０２から宛先デバイス１１６への通信を容易にするために有用であり得る任意の他の機器を含み得る。

[0033] いくつかの例では、ソースデバイス１０２は、出力インターフェース１０８から記憶デバイス１１２に符号化データを出力し得る。同様に、宛先デバイス１１６は、入力インターフェース１２２を介して記憶デバイス１１２から符号化データにアクセスし得る。記憶デバイス１１２は、ハードドライブ、Ｂｌｕ－ｒａｙ（登録商標）ディスク、ＤＶＤ、ＣＤ－ＲＯＭ、フラッシュメモリ、揮発性または不揮発性メモリ、あるいは符号化ビデオデータを記憶するための任意の他の好適なデジタル記憶媒体など、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。

[0034] いくつかの例では、ソースデバイス１０２は、ソースデバイス１０２によって生成された符号化ビデオを記憶し得るファイルサーバ１１４または別の中間記憶デバイスに符号化ビデオデータを出力し得る。宛先デバイス１１６は、ストリーミングまたはダウンロードを介して、ファイルサーバ１１４から、記憶されたビデオデータにアクセスし得る。ファイルサーバ１１４は、符号化ビデオデータを記憶し、その符号化ビデオデータを宛先デバイス１１６に送信することが可能な任意のタイプのサーバデバイスであり得る。ファイルサーバ１１４は、（たとえば、ウェブサイトのための）ウェブサーバ、ファイル転送プロトコル（ＦＴＰ）サーバ、コンテンツ配信ネットワークデバイス、またはネットワーク接続ストレージ（ＮＡＳ）デバイスを表し得る。宛先デバイス１１６は、インターネット接続を含む任意の標準的なデータ接続を通してファイルサーバ１１４から符号化ビデオデータにアクセスし得る。これは、ファイルサーバ１１４に記憶された符号化ビデオデータにアクセスするのに好適であるワイヤレスチャネル（たとえば、Ｗｉ－Ｆｉ（登録商標）接続）、ワイヤード接続（たとえば、デジタル加入者回線（ＤＳＬ）、ケーブルモデムなど）、またはその両方の組合せを含み得る。ファイルサーバ１１４および入力インターフェース１２２は、ストリーミング送信プロトコル、ダウンロード送信プロトコル、またはそれらの組合せに従って動作するように構成され得る。

[0035] 出力インターフェース１０８と入力インターフェース１２２とは、ワイヤレス送信機／受信機、モデム、ワイヤードネットワーキング構成要素（たとえば、イーサネット（登録商標）カード）、様々なＩＥＥＥ８０２．１１規格のいずれかに従って動作するワイヤレス通信構成要素、または他の物理的構成要素を表し得る。出力インターフェース１０８と入力インターフェース１２２とがワイヤレス構成要素を備える例では、出力インターフェース１０８と入力インターフェース１２２とは、４Ｇ、４Ｇ－ＬＴＥ（登録商標）（ロングタームエボリューション）、ＬＴＥアドバンスト、５Ｇなど、セルラー通信規格に従って、符号化ビデオデータなどのデータを転送するように構成され得る。出力インターフェース１０８がワイヤレス送信機を備えるいくつかの例では、出力インターフェース１０８と入力インターフェース１２２とは、ＩＥＥＥ８０２．１１仕様、ＩＥＥＥ８０２．１５仕様（たとえば、ＺｉｇＢｅｅ（登録商標））、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格など、他のワイヤレス規格に従って、符号化ビデオデータなどのデータを転送するように構成され得る。いくつかの例では、ソースデバイス１０２および／または宛先デバイス１１６は、それぞれのシステムオンチップ（ＳｏＣ）デバイスを含み得る。たとえば、ソースデバイス１０２は、ビデオエンコーダ２００および／または出力インターフェース１０８に帰属する機能を実施するためのＳｏＣデバイスを含み得、宛先デバイス１１６は、ビデオデコーダ３００および／または入力インターフェース１２２に帰属する機能を実施するためのＳｏＣデバイスを含み得る。

[0036] 本開示の技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、動的適応ストリーミングオーバーＨＴＴＰ（ＤＡＳＨ）などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されたデジタルビデオ、データ記憶媒体に記憶されたデジタルビデオの復号、または他の適用例など、様々なマルチメディア適用例のいずれかをサポートするビデオコーディングに適用され得る。

[0037] 宛先デバイス１１６の入力インターフェース１２２は、コンピュータ可読媒体１１０（たとえば、通信媒体、記憶デバイス１１２、ファイルサーバ１１４など）から符号化ビデオビットストリームを受信する。符号化ビデオビットストリームは、ビデオブロックまたは他のコード化ユニット（たとえば、スライス、ピクチャ、ピクチャのグループ、シーケンスなど）の特性および／または処理を記述する値を有するシンタックス要素など、ビデオデコーダ３００によっても使用される、ビデオエンコーダ２００によって定義されるシグナリング情報を含み得る。ディスプレイデバイス１１８は、復号ビデオデータの復号ピクチャをユーザに表示する。ディスプレイデバイス１１８は、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなど、様々なディスプレイデバイスのいずれかを表し得る。

[0038] 図１には示されていないが、いくつかの例では、ビデオエンコーダ２００とビデオデコーダ３００とは各々、オーディオエンコーダおよび／またはオーディオデコーダと統合され得、共通のデータストリーム中にオーディオとビデオの両方を含む多重化ストリームをハンドリングするために、適切なＭＵＸ－ＤＥＭＵＸユニット、あるいは他のハードウェアおよび／またはソフトウェアを含み得る。適用可能な場合、ＭＵＸ－ＤＥＭＵＸユニットは、ＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠し得る。

[0039] ビデオエンコーダ２００とビデオデコーダ３００とは各々、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダおよび／またはデコーダ回路のいずれか、あるいはそれらの任意の組合せとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、好適な非一時的コンピュータ可読媒体にソフトウェアのための命令を記憶し、本開示の技法を実施するために１つまたは複数のプロセッサを使用してその命令をハードウェアで実行し得る。ビデオエンコーダ２００とビデオデコーダ３００との各々は、１つまたは複数のエンコーダまたはデコーダに含まれ得、それらのいずれかが、それぞれのデバイス中の複合エンコーダ／デコーダ（ＣＯＤＥＣ）の一部として統合され得る。ビデオエンコーダ２００および／またはビデオデコーダ３００を含むデバイスは、集積回路、マイクロプロセッサ、および／またはセルラー電話機などのワイヤレス通信デバイスを備え得る。

[0040] ビデオエンコーダ２００とビデオデコーダ３００とは、ジョイント探査テストモデル（ＪＥＭ：Joint Exploration Test Model）、または汎用ビデオコーディング（ＶＶＣ：Versatile Video Coding）とも呼ばれるＩＴＵ－ＴＨ．２６６など、他のプロプライエタリまたは業界規格に従って動作し得る。ＶＶＣ規格の最近のドラフトは、Ｂｒｏｓｓら、「Versatile Video Coding (Draft 7)」、ＩＴＵ－ＴＳＧ１６ＷＰ３およびＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１のジョイントビデオエキスパートチーム（ＪＶＥＴ）、第１６回会合、ジュネーブ、スイス、２０１９年１０月１～１１日、ＪＶＥＴ－Ｐ２００１－ｖ１４（以下、「ＶＶＣドラフト７」）に記載されている。ビデオエンコーダ２００およびビデオデコーダ３００は、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）によって開発されたＥＶＣ規格に従って動作し得る。ただし、本開示の技法は、いかなる特定のコーディング規格にも限定されない。

[0041] 概して、ビデオエンコーダ２００とビデオデコーダ３００とは、ピクチャのブロックベースのコーディングを実施し得る。「ブロック」という用語は、概して、処理されるべき（たとえば、符号化されるべき、復号されるべき、あるいは符号化および／または復号プロセスにおいて他の方法で使用されるべき）データを含む構造を指す。たとえば、ブロックは、ルミナンスおよび／またはクロミナンスデータのサンプルの２次元行列を含み得る。概して、ビデオエンコーダ２００とビデオデコーダ３００とは、ＹＵＶ（たとえば、Ｙ、Ｃｂ、Ｃｒ）フォーマットで表されるビデオデータをコーディングし得る。すなわち、ピクチャのサンプルのために赤色、緑色、および青色（ＲＧＢ）データをコーディングするのではなく、ビデオエンコーダ２００とビデオデコーダ３００とは、ルミナンス成分とクロミナンス成分とをコーディングし得、ここで、クロミナンス成分は、赤色相と青色相の両方のクロミナンス成分を含み得る。いくつかの例では、ビデオエンコーダ２００は、符号化より前に、受信されたＲＧＢフォーマットのデータをＹＵＶ表現にコンバートし、ビデオデコーダ３００は、ＹＵＶ表現をＲＧＢフォーマットにコンバートする。代替的に、前処理および後処理ユニット（図示せず）が、これらのコンバージョンを実施し得る。

[0042] 本開示は、概して、ピクチャのデータを符号化または復号するプロセスを含むように、ピクチャのコーディング（たとえば、符号化および復号）に言及することがある。同様に、本開示は、ブロックについてのデータを符号化または復号するプロセス、たとえば、予測および／または残差コーディングを含むように、ピクチャのブロックのコーディングに言及することがある。符号化ビデオビットストリームは、概して、コーディング決定（たとえば、コーディングモード）とブロックへのピクチャの区分とを表すシンタックス要素についての一連の値を含む。したがって、ピクチャまたはブロックをコーディングすることへの言及は、概して、ピクチャまたはブロックを形成するシンタックス要素についての値をコーディングすることとして理解されるべきである。

[0043] 各種のビデオコーディング規格は、コーディングユニット（ＣＵ）、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ）と呼ばれることがある様々なブロックを定義する。（ビデオエンコーダ２００などの）ビデオコーダは、クワッドツリー構造に従ってコーディングツリーユニット（ＣＴＵ）をＣＵに区分する。すなわち、ビデオコーダは、ＣＴＵとＣＵとを４つの等しい重複しない正方形に区分し、クワッドツリーの各ノードは、０個または４つのいずれかの子ノードを有する。子ノードのないノードは、「リーフノード」と呼ばれることがあり、そのようなリーフノードのＣＵは、１つまたは複数のＰＵおよび／または１つまたは複数のＴＵを含み得る。ビデオコーダは、ＰＵとＴＵとをさらに区分し得る。たとえば、残差クワッドツリー（ＲＱＴ）は、ＴＵの区分を表し、ＰＵはインター予測データを表すが、ＴＵは残差データを表す。イントラ予測されるＣＵは、イントラモード指示などのイントラ予測情報を含む。

[0044] 別の例として、ビデオエンコーダ２００およびビデオデコーダ３００は、ＪＥＭ、ＶＶＣ、ＥＶＣ、または任意の他のそのような規格に従って動作するように構成され得る。（ビデオエンコーダ２００などの）ビデオコーダは、ピクチャを複数のコーディングツリーユニット（ＣＴＵ）に区分する。ビデオエンコーダ２００は、クワッドツリーバイナリツリー（ＱＴＢＴ）構造またはマルチタイプツリー（ＭＴＴ）構造など、ツリー構造に従ってＣＴＵを区分し得る。ＱＴＢＴ構造は、ＣＵとＰＵとＴＵとの間の分離など、複数の区分タイプの概念を除去する。ＱＴＢＴ構造は、２つのレベル、すなわち、クワッドツリー区分に従って区分される第１のレベルと、バイナリツリー区分に従って区分される第２のレベルとを含む。ＱＴＢＴ構造のルートノードは、ＣＴＵに対応する。バイナリツリーのリーフノードは、コーディングユニット（ＣＵ）に対応する。

[0045] ＭＴＴ区分構造では、ブロックは、クワッドツリー（ＱＴ）区分と、バイナリツリー（ＢＴ）区分と、１つまたは複数のタイプのトリプルツリー（ＴＴ）（ターナリツリー（ＴＴ）とも呼ばれる）区分とを使用して区分され得る。トリプルツリーまたはターナリツリー区分は、ブロックが３つのサブブロックにスプリットされる区分である。いくつかの例では、トリプルツリーまたはターナリツリー区分は、中心を通して元のブロックを分割することなしにブロックを３つのサブブロックに分割する。ＭＴＴにおける区分タイプ（たとえば、ＱＴ、ＢＴ、およびＴＴ）は、対称的または非対称的であり得る。

[0046] いくつかの例では、ビデオエンコーダ２００とビデオデコーダ３００とは、ルミナンス成分とクロミナンス成分との各々を表すために単一のＱＴＢＴまたはＭＴＴ構造を使用し得、他の例では、ビデオエンコーダ２００とビデオデコーダ３００とは、ルミナンス成分のための１つのＱＴＢＴ／ＭＴＴ構造、および両方のクロミナンス成分のための別のＱＴＢＴ／ＭＴＴ構造（またはそれぞれのクロミナンス成分のための２つのＱＴＢＴ／ＭＴＴ構造）など、２つまたはそれ以上のＱＴＢＴまたはＭＴＴ構造を使用し得る。

[0047] ビデオエンコーダ２００とビデオデコーダ３００とは、クワッドツリー区分、ＱＴＢＴ区分、ＭＴＴ区分、または他の区分構造を使用するように構成され得る。説明の目的で、本開示の技法の説明はＱＴＢＴ区分に関して提示される。しかしながら、本開示の技法は、クワッドツリー区分、または同様に他のタイプの区分を使用するように構成されたビデオコーダにも適用され得ることを理解されたい。

[0048] ブロック（たとえば、ＣＴＵまたはＣＵ）は、ピクチャ中で様々な方法でグループ化され得る。一例として、ブリックは、ピクチャ中の特定のタイル内のＣＴＵ行の矩形領域を指し得る。タイルは、ピクチャ中の特定のタイル列および特定のタイル行内のＣＴＵの矩形領域であり得る。タイル列は、ピクチャの高さに等しい高さと、（たとえば、ピクチャパラメータセット中などの）シンタックス要素によって指定された幅とを有するＣＴＵの矩形領域を指す。タイル行は、（たとえば、ピクチャパラメータセット中などの）シンタックス要素によって指定された高さと、ピクチャの幅に等しい幅とを有するＣＴＵの矩形領域を指す。

[0049] いくつかの例では、タイルは複数のブリックに区分され得、それらの各々は、タイル内に１つまたは複数のＣＴＵ行を含み得る。複数のブリックに区分されないタイルもブリックと呼ばれることがある。しかしながら、タイルの真のサブセットであるブリックは、タイルと呼ばれないことがある。

[0050] ピクチャ中のブリックはまた、スライス中に配置され得る。スライスは、もっぱら単一のネットワークアブストラクションレイヤ（ＮＡＬ）ユニット中に含まれていることがあるピクチャの整数個のブリックであり得る。いくつかの例では、スライスは、いくつかの完全なタイル、または１つのタイルの完全なブリックの連続シーケンスのみのいずれかを含む。

[0051] 本開示は、垂直寸法と水平寸法とに関して（ＣＵまたは他のビデオブロックなどの）ブロックのサンプル寸法を指すために、「Ｎ×Ｎ（NxN）」および「Ｎ×Ｎ（N by N）」、たとえば、１６×１６サンプル（16x16 samples）または１６×１６サンプル（16 by 16 samples）を互換的に使用し得る。概して、１６×１６のＣＵは、垂直方向に１６個のサンプルを有し（ｙ＝１６）、水平方向に１６個のサンプルを有する（ｘ＝１６）。同様に、Ｎ×ＮのＣＵは、概して、垂直方向にＮ個のサンプルを有し、水平方向にＮ個のサンプルを有し、ここで、Ｎは非負整数値を表す。ＣＵ中のサンプルは、行と列とに配置され得る。その上、ＣＵは、必ずしも、水平方向において垂直方向と同じ数のサンプルを有する必要があるとは限らない。たとえば、ＣＵはＮ×Ｍサンプルを備え得、ここで、Ｍは必ずしもＮに等しいとは限らない。

[0052] ビデオエンコーダ２００は、予測および／または残差情報、ならびに他の情報を表すＣＵのためにビデオデータを符号化する。予測情報は、ＣＵについて予測ブロックを形成するためにＣＵがどのように予測されるべきかを示す。残差情報は、概して、符号化より前のＣＵのサンプルと予測ブロックとの間のサンプルごとの差分を表す。

[0053] ＣＵを予測するために、ビデオエンコーダ２００は、概して、インター予測またはイントラ予測を通してＣＵについて予測ブロックを形成し得る。インター予測は、概して、前にコーディングされたピクチャのデータからＣＵを予測することを指すが、イントラ予測は、概して、同じピクチャの前にコーディングされたデータからＣＵを予測することを指す。インター予測を実施するために、ビデオエンコーダ２００は、１つまたは複数の動きベクトルを使用して予測ブロックを生成し得る。ビデオエンコーダ２００は、概して、たとえば、ＣＵと参照ブロックとの間の差分に関して、ＣＵにぴったり一致する参照ブロックを識別するために動き探索を実施し得る。ビデオエンコーダ２００は、参照ブロックが現在ＣＵにぴったり一致するかどうかを決定するために、絶対差分和（ＳＡＤ）、２乗差分和（ＳＳＤ）、平均絶対差（ＭＡＤ）、平均２乗差（ＭＳＤ）、または他のそのような差分計算を使用して差分メトリックを計算し得る。いくつかの例では、ビデオエンコーダ２００は、単方向予測または双方向予測を使用して現在ＣＵを予測し得る。

[0054] ビデオコーディング規格はまた、インター予測モードと見なされ得るアフィン動き補償モードを提供する。アフィン動き補償モードでは、ビデオエンコーダ２００は、ズームインまたはアウト、回転、パースペクティブの動き、あるいは他の変則の動きタイプなど、非並進の動きを表す２つまたはそれ以上の動きベクトルを決定し得る。

[0055] イントラ予測を実施するために、ビデオエンコーダ２００は、予測ブロックを生成するようにイントラ予測モードを選択し得る。たとえば、ビデオエンコーダ２００は、様々な方向性モード、ならびに平面モードおよびＤＣモードを含む、６７個またはいくつかの他の数のイントラ予測モードを利用し得る。概して、ビデオエンコーダ２００は、現在ブロック（たとえば、ＣＵのブロック）のサンプルをそれから予測すべき、現在ブロックに対する隣接サンプルを記述するイントラ予測モードを選択する。そのようなサンプルは、ビデオエンコーダ２００がラスタ走査順序で（左から右に、上から下に）ＣＴＵとＣＵとをコーディングすると仮定すると、概して、現在ブロックと同じピクチャ中の現在ブロックの上、左上、または左にあり得る。

[0056] ビデオエンコーダ２００は、現在ブロックについて予測モードを表すデータを符号化する。たとえば、インター予測モードでは、ビデオエンコーダ２００は、様々な利用可能なインター予測モードのうちのどれが使用されるか、ならびに対応するモードのための動き情報を表すデータを符号化し得る。たとえば、単方向または双方向インター予測では、ビデオエンコーダ２００は、高度動きベクトル予測（ＡＭＶＰ）またはマージモードを使用して動きベクトルを符号化し得る。ビデオエンコーダ２００は、アフィン動き補償モードのための動きベクトルを符号化するために、同様のモードを使用し得る。

[0057] ブロックのイントラ予測またはインター予測などの予測に続いて、ビデオエンコーダ２００は、ブロックについて残差データを計算し得る。残差ブロックなどの残差データは、ブロックと、対応する予測モードを使用して形成された、ブロックについての予測ブロックとの間の、サンプルごとの差分を表す。ビデオエンコーダ２００は、サンプル領域ではなく変換領域中に変換データを生成するために、残差ブロックに１つまたは複数の変換を適用し得る。たとえば、ビデオエンコーダ２００は、離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または概念的に同様の変換を残差ビデオデータに適用し得る。さらに、ビデオエンコーダ２００は、第１の変換に続いて、モード依存非分離可能２次変換（ＭＤＮＳＳＴ：mode-dependent non-separable secondary transform）、信号依存変換、カルーネンレーベ変換（ＫＬＴ）などの２次変換を適用し得る。ビデオエンコーダ２００は、１つまたは複数の変換の適用に続いて変換係数を生成する。

[0058] 上述のように、変換係数を生成するための任意の変換に続いて、ビデオエンコーダ２００は、変換係数の量子化を実施し得る。量子化は、概して、変換係数を表すために使用されるデータの量をできるだけ低減するために変換係数が量子化され、さらなる圧縮を行うプロセスを指す。量子化プロセスを実施することによって、ビデオエンコーダ２００は、変換係数の一部または全部に関連付けられたビット深度を低減し得る。たとえば、ビデオエンコーダ２００は、量子化中にｎビット値をｍビット値に丸めることがあり、ここで、ｎはｍよりも大きい。いくつかの例では、量子化を実施するために、ビデオエンコーダ２００は、量子化されるべき値のビット単位右シフトを実施し得る。

[0059] 量子化に続いて、ビデオエンコーダ２００は、変換係数を走査して、量子化された変換係数を含む２次元行列から１次元ベクトルを生成し得る。走査は、より高いエネルギー（したがって、より低い頻度）の変換係数をベクトルの前方に配置し、より低いエネルギー（したがって、より高い頻度）の変換係数をベクトルの後方に配置するように設計され得る。いくつかの例では、ビデオエンコーダ２００は、あらかじめ定義された走査順序を利用して、量子化された変換係数を走査してシリアル化ベクトルを生成し、次いで、ベクトルの量子化された変換係数をエントロピー符号化し得る。他の例では、ビデオエンコーダ２００は適応型走査を実施し得る。量子化された変換係数を走査して１次元ベクトルを形成した後に、ビデオエンコーダ２００は、たとえば、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ）に従って、１次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ２００はまた、ビデオデータを復号する際のビデオデコーダ３００による使用のために、符号化ビデオデータに関連付けられたメタデータを記述するシンタックス要素についての値をエントロピー符号化し得る。

[0060] ＣＡＢＡＣを実施するために、ビデオエンコーダ２００は、コンテキストモデル内のコンテキストを、送信されるべきシンボルに割り当て得る。コンテキストは、たとえば、シンボルの隣接値が０値であるか否かに関係し得る。確率決定は、シンボルに割り当てられたコンテキストに基づき得る。

[0061] ビデオエンコーダ２００は、さらに、ブロックベースのシンタックスデータ、ピクチャベースのシンタックスデータ、およびシーケンスベースのシンタックスデータなどのシンタックスデータを、たとえば、ピクチャヘッダ、ブロックヘッダ、スライスヘッダ、あるいはシーケンスパラメータセット（ＳＰＳ）、ピクチャパラメータセット（ＰＰＳ）、またはビデオパラメータセット（ＶＰＳ）などの他のシンタックスデータ中で、ビデオデコーダ３００に対して生成し得る。ビデオデコーダ３００は、対応するビデオデータをどのように復号すべきかを決定するために、そのようなシンタックスデータを同様に復号し得る。

[0062] このようにして、ビデオエンコーダ２００は、符号化ビデオデータ、たとえば、ブロック（たとえば、ＣＵ）へのピクチャの区分ならびにブロックのための予測および／または残差情報を記述するシンタックス要素を含むビットストリームを生成し得る。最終的に、ビデオデコーダ３００は、ビットストリームを受信し、符号化ビデオデータを復号し得る。

[0063] 概して、ビデオデコーダ３００は、ビットストリームの符号化ビデオデータを復号するために、ビデオエンコーダ２００によって実施されたものの逆プロセスを実施する。たとえば、ビデオデコーダ３００は、ビデオエンコーダ２００のＣＡＢＡＣ符号化プロセスと逆ではあるが、それと実質的に同様の様式でＣＡＢＡＣを使用してビットストリームのシンタックス要素についての値を復号し得る。シンタックス要素は、ＣＴＵのＣＵを定義するために、ピクチャのＣＴＵへの区分情報と、ＱＴＢＴ構造などの対応する区分構造に従う、各ＣＴＵの区分とを定義し得る。シンタックス要素は、ビデオデータのブロック（たとえば、ＣＵ）についての予測および残差情報をさらに定義し得る。

[0064] 残差情報は、たとえば、量子化された変換係数によって表され得る。ビデオデコーダ３００は、ブロックのための残差ブロックを再生するために、ブロックの量子化された変換係数を逆量子化し、逆変換し得る。ビデオデコーダ３００は、ブロックのための予測ブロックを形成するために、シグナリングされた予測モード（イントラまたはインター予測）と、関連する予測情報（たとえば、インター予測のための動き情報）とを使用する。ビデオデコーダ３００は、次いで、元のブロックを再生するために（サンプルごとに）予測ブロックと残差ブロックとを組み合わせ得る。ビデオデコーダ３００は、ブロックの境界に沿って視覚的アーティファクトを低減するためにデブロッキングプロセスを実施することなど、追加の処理を実施し得る。

[0065] 本開示は、概して、シンタックス要素など、ある情報を「シグナリング」することに言及することがある。「シグナリング（signaling）」という用語は、概して、符号化ビデオデータを復号するために使用されるシンタックス要素および／または他のデータについての値の通信を指し得る。すなわち、ビデオエンコーダ２００は、ビットストリームにおいてシンタックス要素についての値をシグナリングし得る。概して、シグナリングは、ビットストリームにおいて値を生成することを指す。上述のように、ソースデバイス１０２は、実質的にリアルタイムでビットストリームを宛先デバイス１１６に移送するか、または、宛先デバイス１１６による後の取出しのためにシンタックス要素を記憶デバイス１１２に記憶するときに行われ得るように、非リアルタイムでビットストリームを宛先デバイス１１６に移送し得る。

[0066] 以下は、ＥＶＣの例示的な技法について説明する。いくつかの例では、ＥＶＣ技法は、ＶＶＣおよび／またはＨＥＶＣの技法（たとえば、ブロックベースのコーディング技法など）と同様であり得る。

[0067] ＥＶＣサンプルは、ＩＳＯ／ＩＥＣ２３０９４－１の節３．１：情報技術－ジェネラルビデオコーディング－Ｐａｒｔ１：エッセンシャルビデオコーディングに定義されているアクセスユニットを含んでいる。ＥＶＣでは、ビットストリームがＥＶＣに準拠するための正規順序が存在し得、いくつかの制限が存在し得る。正規ストリームフォーマットは、ＩＳＯ／ＩＥＣ１４４９６－１５：情報技術－オーディオビジュアルオブジェクトのコーディング－Ｐａｒｔ１５：アドバンストビデオコーディング（ＡＶＣ）ファイルフォーマット、セクション４．３．２における一般的な条件に加えて、以下の条件を満たすＥＶＣエレメンタリストリームである。すなわち、
ａ．アクセスユニットデリミタＮＡＬユニット：アクセスユニットデリミタＮＡＬユニットによって従われる制約は、ＩＳＯ／ＩＥＣ２３０９４－１において定義されている。
ｂ．ＳＰＳおよびＰＰＳ：ピクチャ中で使用されるべきＳＰＳまたはＰＰＳは、そのピクチャを含んでいるサンプルの前に、またはそのピクチャのためのサンプル中で送られ得る（および、いくつかの例では、送られなければならない）。少なくとも、０に等しいｉｄを有するＳＰＳおよびＰＰＳは、ＥＶＣエレメンタリストリームを含んでいるトラックのサンプルエントリに記憶され得る。
ｃ．ＡＰＳ：スライス中で使用されるべきＡＰＳは、そのスライスを含んでいるＶＣＬＮＡＬユニットより前に送られ得る（いくつかの例では、送られなければならない）。ＡＰＳは、サンプルエントリおよび／またはサンプルに記憶され得る。
ｄ．ＳＥＩメッセージ：宣言的性質のＳＥＩメッセージは、サンプルエントリに記憶されてよく、そのようなＳＥＩメッセージをサンプルから除去することについての規定はない。
ｅ．フィラーデータ：ビデオデータは、当然、ファイルフォーマットにおいて可変ビットレートとして表され、必要に応じて送信のために充填されるものとする。

[0068] フィラーデータＮＡＬユニット、スタートコード、ＳＥＩメッセージ、またはフィラーデータＳＥＩメッセージの除去または追加は、ＩＳＯ／ＩＥＣ２３０９４－１、付属書類Ｃに指定されているように、固定ビットレート（ＣＢＲ）モードで仮想参照デコーダ（ＨＲＤ）を動作させるとき、ＨＲＤとの適合性に関してビットストリーム特性を変更することができる。

[0069] 以下は、ＥＶＣデコーダ構成レコードおよび記述である。ビデオデコーダ３００は、いくつかの例では、ＥＶＣデコーダ構成に従って構成され得る。ＥＶＣデコーダ構成の記述についての説明の一部として、以下は、ＩＳＯ／ＩＥＣ２３０９４－１ビデオコンテンツのためのデコーダ構成情報を指定する。

[0070] このレコードは、バージョンフィールドを含んでいる。ファイルフォーマットパーサ（たとえば、リーダー）は、バージョン番号が認識されない場合、このレコードまたはそれが適用されるストリームを復号することを試みなくてよい（たとえば、試みるべきでない）。

[0071] このレコードに対する互換性がある拡張は、それを拡張してよく、構成バージョンコードを変更しなくてよい。リーダーは、リーダーがパースするように構成されたデータの定義を超えて認識されていないデータを無視し得る。

[0072] ｐｒｏｆｉｌｅ＿ｉｄｃ、ｌｅｖｅｌ＿ｉｄｃ、ｔｏｏｌｓｅｔ＿ｉｄｃ、ｃｈｒｏｍａ＿ｆｏｒｍａｔ＿ｉｄｃ、ｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ、ｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ、ｂｉｔ＿ｄｅｐｔｈ＿ｌｕｍａ＿ｍｉｎｕｓ８、およびｂｉｔ＿ｄｅｐｔｈ＿ｃｈｒｏｍａ＿ｍｉｎｕｓ８に関する値は、ストリームが復号されるときにアクティブ化されるすべてのパラメータセット（「すべてのパラメータセット」と呼ばれる）について有効であり得る（いくつかの例では、有効であるものとする）。詳細には、以下の制限が適用され得る。すなわち、
ａ．プロファイル指示ｐｒｏｆｉｌｅ＿ｉｄｃは、この構成レコードに関連付けられたストリームが準拠するプロファイルを示し得る（たとえば、示すものとする）。ＳＰＳが異なるプロファイルでマーキングされている場合、ストリームは、もしあれば、ストリーム全体が、どのプロファイルに準拠するかを決定するための検査を必要とし得る。ストリーム全体が検査されない場合、または、ストリーム全体が準拠するプロファイルが存在しないことを検査が明らかにする場合、ストリーム全体は、これらの規則が満たされ得る別個の構成レコードを有する２つ以上のサブストリームに分割され得る（たとえば、分割されるものとする）。
ｂ．レベル指示ｌｅｖｅｌ＿ｉｄｃは、この構成レコードのすべてのパラメータセットにおいて示される最高レベルに等しいかまたはそれよりも大きい能力のレベルを示し得る（たとえば、示すものとする）。
ｃ．ｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓおよびｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓは、この構成レコードのすべてのパラメータセットの最高値を含み得る（たとえば、含むものとする）。
ｄ．ツールセット指示ｔｏｏｌｓｅｔ＿ｉｄｃは、この構成レコードに関連付けられたストリームを復号するために必要とされるすべてのツールをシグナリングし得る（たとえば、シグナリングするものとする）。ツールフラグは、ＩＳＯ／ＩＥＣ２３０９４－１の（以下に再現される）表Ａ．６において提供されるような適合要件に準拠し得（たとえば、準拠すべきであり）、ＳＰＳにおいてシグナリングされるｔｏｏｌｓｅｔ＿ｉｄｃフィールドと同一であり得る（たとえば、同一であるものとする）。
ｅ．すべてのパラメータセットにおけるｃｈｒｏｍａ＿ｆｏｒｍａｔ＿ｉｄｃの値は、同一であり得る（たとえば、同一であるものとする）。
ｆ．すべてのパラメータセットにおけるｂｉｔ＿ｄｅｐｔｈ＿ｌｕｍａ＿ｍｉｎｕｓ８の値は、同一であり得る（たとえば、同一であるものとする）。
ｇ．すべてのパラメータセットにおけるｂｉｔ＿ｄｅｐｔｈ＿ｃｈｒｏｍａ＿ｍｉｎｕｓ８の値は、同一であり得る（たとえば、同一であるものとする）。

[0073] 明示的指示が、ＥＶＣビデオエレメンタリストリームによって使用されるクロマフォーマットおよびビット深度についてＥＶＣデコーダ構成レコード内で提供される。そのような情報の各タイプは、存在する場合、単一のＥＶＣ構成レコード内で、すべてのパラメータセットにおいて同一であり得る（たとえば、同一であるものとする）。２つのシーケンスがそのような情報の任意のタイプにおいて異なる場合、２つの異なるＥＶＣサンプルエントリが使用され得る（たとえば、使用されるものとする）。

[0074] 初期化ＮＡＬユニットを搬送するためのアレイのセットが存在する。ＮＡＬユニットタイプは、ＳＰＳ、ＰＰＳ、ＡＰＳ、およびＳＥＩＮＡＬユニットのみを示すように制限され得る。ＩＳＯ／ＩＥＣ２３０９４－１および本明細書において予約されたＮＡＬユニットタイプが定義され得、認識されていないＮＡＬユニットタイプを有するＮＡＬユニットは無視され得る。この「許容度のある（tolerant）」挙動（たとえば、認識されていないＮＡＬユニットタイプの無視）は、エラーが生じないように設計され得、将来の仕様におけるこれらのアレイへの後方互換性がある拡張の可能性を許容する。

[0075] 長さフィールドは、サンプルエントリに記憶されている場合、その含まれているＮＡＬユニットの長さおよびパラメータセットを示すために各サンプルにおいて使用され得る。いくつかの例では、アレイは、ＳＰＳ、ＰＰＳ、ＡＰＳ、ＳＥＩの順序である。

[0076] ＩＳＯ／ＩＥＣ２３０９４－１の表Ａ．６は、次の通りである。

[0077] 以下は、ビデオエンコーダ２００およびビデオデコーダ３００によって使用されるシンタックス（syntax）について説明する。
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＥＶＣＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄ｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｃｏｎｆｉｇｕｒａｔｉｏｎＶｅｒｓｉｏｎ＝１；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｐｒｏｆｉｌｅ＿ｉｄｃ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｌｅｖｅｌ＿ｉｄｃ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｔｏｏｌｓｅｔ＿ｉｄｃ；
ｕｎｓｉｇｎｅｄｉｎｔ（２）ｃｈｒｏｍａ＿ｆｏｒｍａｔ＿ｉｄｃ；
ｕｎｓｉｇｎｅｄｉｎｔ（３）ｂｉｔ＿ｄｅｐｔｈ＿ｌｕｍａ＿ｍｉｎｕｓ８；
ｕｎｓｉｇｎｅｄｉｎｔ（３）ｂｉｔ＿ｄｅｐｔｈ＿ｃｈｒｏｍａ＿ｍｉｎｕｓ８；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ；
ｕｎｓｉｄｎｅｄｉｎｔ（５）ｒｅｓｅｒｖｅｄ＝’０００００’ｂ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｓｐｓ＿ｉｎ＿ｓｔｒｅａｍ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｐｐｓ＿ｉｎ＿ｓｔｒｅａｍ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ａｐｓ＿ｉｎ＿ｓｔｒｅａｍ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍＯｆＡｒｒａｙｓ；
ｆｏｒ（ｊ＝０；ｊ＜ｎｕｍＯｆＡｒｒａｙｓ；ｊ＋＋）｛
ｂｉｔ（２）ｒｅｓｅｒｖｅｄ＝’００’ｂ；
ｕｎｓｉｇｎｅｄｉｎｔ（６）ＮＡＬ＿ｕｎｉｔ＿ｔｙｐｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍＮａｌｕｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍＮａｌｕｓ；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎａｌＵｎｉｔＬｅｎｇｔｈ；
ｂｉｔ（８＊ｎａｌＵｎｉｔＬｅｎｇｔｈ）ｎａｌＵｎｉｔ；
｝
｝
｝
[0078] 以下の説明は、上記のシンタックスにおける用語を定義するためのセマンティクス（semantics）を示す。シンタックス要素ｐｒｏｆｉｌｅ＿ｉｄｃ、ｌｅｖｅｌ＿ｉｄｃ、ｔｏｏｌｓｅｔ＿ｉｄｃ、ｃｈｒｏｍａ＿ｆｏｒｍａｔ＿ｉｄｃ、ｔｏｏｌｓｅｔ＿ｉｄｃ、ｂｉｔ＿ｄｅｐｔｈ＿ｌｕｍａ＿ｍｉｎｕｓ８、およびｂｉｔ＿ｄｅｐｔｈ＿ｃｈｒｏｍａ＿ｍｉｎｕｓ８は、構成レコードのすべてのパラメータセットのためのＰＰＳ中のフィールドに関する適合値を含んでいる。表記法「（３２）」は、シンタックス要素ｔｏｏｌｓｅｔ＿ｉｄｃが３２ビットであることを示す。これらの３２ビットは、各々が特定のツールに対応する１ビットフラグを含み得、または、いくつかの事例では、３２ビットのうちの複数のビットは、たとえば、ツールの組合せもしくはツールのセットからのツールの選択に対応し得る。

[0079] シンタックス要素ｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓおよびｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓは、ｓｐｓ＿ｉｎ＿ｓｔｒｅａｍフィールドの値が「０」であるとき、この構成レコードのすべてのＳＰＳ中のフィールドについて最大値を含んでいる。これらのシンタックス要素は、ｓｐｓ＿ｉｎ＿ｓｔｒｅａｍフィールドの値が「１」であるとき、この構成レコードのすべてのＳＰＳおよびストリーム中のすべてのＳＰＳ中のフィールドについて最大値を含み得る。値「０」は、ｓｐｓ＿ｉｎ＿ｓｔｒｅａｍフィールドの値が「０」であるとき、このレコード内のすべてのパラメータセットについてのＳＰＳ中のこれらのフィールドの最大値が、このフィールドを通して示されない場合、または、ｓｐｓ＿ｉｎ＿ｓｔｒｅａｍフィールドの値が「１」であるとき、ストリーム中のＳＰＳ中のこれらのフィールドの値が、このレコード内のフィールドの最大値よりも大きい値を有する場合に、使用され得る（たとえば、使用されるものとする）。

[0080] シンタックス要素ｓｐｓ＿ｉｎ＿ｓｔｒｅａｍは、ストリームが、この構成レコードのＮＡＬユニットのアレイに含まれない追加のＳＰＳを含み得ることを示す。シンタックス要素ｐｐｓ＿ｉｎ＿ｓｔｒｅａｍは、ストリームが、この構成レコードのＮＡＬユニットのアレイに含まれない追加のＰＰＳを含み得ることを示す。シンタックス要素ａｐｓ＿ｉｎ＿ｓｔｒｅａｍは、ストリームが、この構成レコードのＮＡＬユニットのアレイに含まれない追加のＡＰＳを含み得ることを示す。

[0081] シンタックス要素ｎｕｍＡｒｒａｙｓは、示されたタイプのＮＡＬユニットのアレイの数を示す。シンタックス要素ＮＡＬ＿ｕｎｉｔ＿ｔｙｐｅは、後続のアレイ中のＮＡＬユニットのタイプ（そのタイプのすべてであり得る（たとえば、そうであるものとする））を示す。ＮＡＬ＿ｕｎｉｔ＿ｔｙｐｅは、ＩＳＯ／ＩＥＣ２３０９４－１において定義されている値をとり、ＳＰＳ、ＰＰＳ、ＡＰＳ、またはＳＥＩＮＡＬユニットを示す値のうちの１つをとるように制限され得る。

[0082] シンタックス要素ｎｕｍＮａｌｕｓは、この構成レコードが適用されるストリームのための構成レコードに含まれる、示されたタイプのＮＡＬユニットの数を示す。シンタックス要素ｎａｌＵｎｉｔＬｅｎｇｔｈは、ＮＡＬユニットのバイト単位の長さを示す。シンタックス要素ｎａｌＵｎｉｔは、ＩＳＯ／ＩＥＣ２３０９４－１において指定されている、ＳＰＳ、ＰＰＳ、ＡＰＳ、またはＳＥＩＮＡＬユニットを含んでいる。

[0083] ＩＳＯベースメディアファイルフォーマットおよびその拡張によるビデオファイルは、データを「ボックス」と呼ばれる一連のオブジェクトに記憶する。以下は、ＥＶＣビデオストリーム定義、ならびにサンプルエントリ名およびフォーマットを含む、ＩＳＯベースメディアファイルフォーマットについて説明する。
ａ．サンプルエントリおよびボックスタイプ：「ｅｖｃ１」、「ｅｖｃＣ」
ｂ．コンテナ：サンプルテーブルボックス（「ｓｔｂ１」）
ｃ．必須：「ｅｖｃ１」サンプルエントリは必須である。
ｄ．量：１つまたは複数のサンプルエントリが存在し得る。

[0084] ＥＶＣ視覚サンプルエントリは、以下で定義されるように、ＥＶＣ構成ボックス（configuration box）を含み得る（たとえば、含むものとする）。これは、ＥＶＣＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄを含む。

[0085] 任意のＢｉｔＲａｔｅＢｏｘは、ＥＶＣビデオストリームのビットレート情報をシグナリングするために、ＥＶＣ視覚サンプルエントリ中に存在し得る。

[0086] 様々な構成またはパラメータセットを使用するビデオのセクションを示すために、ＩＳＯベースメディアファイルフォーマット仕様によって許可されているように、複数のサンプルエントリが使用され得る。

[0087] サンプルエントリ名が「ｅｖｃ１」であるとき、このサンプルエントリが適用されるストリームは、ＥＶＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘ中に与えられた構成（プロファイル、レベル、およびツールセットを含む）の下で動作するＥＶＣデコーダ（たとえば、ビデオデコーダ３００）によって見られる、準拠ＥＶＣストリームであり得る（たとえば、そのようになるものとする）。

[0088] 「ｅｖｃ１」サンプルエントリは、サンプルエントリおよびストリーム中のパラメータセットの両方の記憶を可能にする。ｓｐｓ＿ｉｎ＿ｓｔｒｅａｍ、ｐｐｓ＿ｉｎ＿ｓｔｒｅａｍ、およびａｐｓ＿ｉｎ＿ｓｔｒｅａｍは、０に設定された場合、対応するタイプのＮＡＬユニットのアレイが完了していることを示す。

[0089] 以下は、ファイルフォーマットのための構成ボックス（configuration box）に関するシンタックスの例示的なセットである。
ｃｌａｓｓＥＶＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘｅｘｔｅｎｄｓＢｏｘ（’ｅｖｃＣ’）｛
ＥＶＣＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄ（）ＥＶＣＣｏｎｆｉｇ；
｝
ｃｌａｓｓＥＶＣＳａｍｐｌｅＥｎｔｒｙ（）ｅｘｔｅｎｄｓＶｉｓｕａｌＳａｍｐｌｅＥｎｔｒｙ（’ｅｖｃ１’）｛
ＥＶＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘｃｏｎｆｉｇ；
ＭＰＥＧ４ＥｘｔｅｎｓｉｏｎＤｅｓｃｒｉｐｔｏｒｓＢｏｘ（）；／／ｏｐｔｉｏｎａｌ
｝
[0090] 以下は、上記で説明されたシンタックスのためのセマンティクスの例示的なセットである。

[0091] ベースクラスＶｉｓｕａｌＳａｍｐｌｅＥｎｔｒｙ内のＣｏｍｐｒｅｓｓｏｒｎａｍｅは、推奨される値「＼０１２ＥＶＣＣｏｄｉｎｇ」とともに使用される圧縮器の名前を示す（＼０１２は１０であり、バイト単位のストリングの長さである）。ＥＶＣＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄは、セクション５．３．３（たとえば、限定はしないが、ＩＳＯ／ＩＥＣ２３９０４－１などである可能性がある）において定義される。

[0092] 以下は、パラメータセットについて説明する。概要として、０に等しいｉｄを有する少なくとも初期ＳＰＳおよびＰＰＳは、サンプルエントリ中で搬送され得る（たとえば、搬送されるものとする）。ｓｐｓ＿ｉｎ＿ｓｔｒｅａｍおよび／またはｐｐｓ＿ｉｎ＿ｓｔｒｅａｍが「１」に設定される場合、追加のＳＰＳおよび／またはＰＰＳがストリーム中に帯域内で存在し得る。

[0093] パラメータセットを搬送するサンプルは、そのパラメータセットのタイプに対応するサンプルグループに属し得る（たとえば、属するものとする）。３つのサンプルｇｒｏｕｐ＿ｔｙｐｅ「ｐｓｓ１」が本明細書において定義される。さらなるグルーピングタイプパラメータが、ＳＰＳと、ＰＰＳと、ＡＰＳとを区別するために使用され、ここにおいて、「ｓｐｓ１」は、ＳＰＳを搬送するサンプルのサンプルグループを識別し、「ｐｐｓ１」は、ＰＰＳを搬送するサンプルのサンプルグループを識別し、「ａｐｓ１」は、ＡＰＳを搬送するサンプルのサンプルグループを識別する。

[0094] 以下は、定義を含むパラメータセットサンプルグループエントリについて説明する。
ａ．グループタイプ：「ｐｓｓ１」
ｂ．コンテナ：サンプルグループ記述ボックス（「ｓｇｐｄ」）
ｃ．必須：いいえ
ｄ．量：０個以上
[0095] パラメータセットサンプルグループは、タイプＳＰＳ、ＰＰＳ、またはＡＰＳのパラメータセットを含んでいるサンプルを識別する。ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ＿ｐａｒａｍｅｔｅｒはさらに、パラメータセットのタイプを識別し、「ｓｐｓ１」、「ｐｐｓ１」、または「ａｐｓ１」の値をとることができる。

[0096] 以下は、パラメータセットサンプルグループエントリのためのいくつかのシンタックスについて説明する。
ｃｌａｓｓＰＳＳＳａｍｐｌｅＥｎｔｒｙ（）ｅｘｔｅｎｄｓＶｉｓｕａｌＳａｍｐｌｅＧｒｏｕｐＥｎｔｒｙ（’ｐｓｓ１’）
｛
｝
[0097] 以下は、同期サンプルについて説明する。「ｅｖｃ１」トラック中の同期サンプルは、サンプル中の０に等しいｎｕｈ＿ｔｅｍｐｏｒａｌ＿ｉｄを有するコード化ピクチャが瞬時復号リフレッシュ（ＩＤＲ：Instantaneous Decoding Refresh）ピクチャであることを示すＶＣＬＮＡＬユニットを含み得る（たとえば、含むものとする）。

[0098] 表１は、ＥＶＣＶＣＬＮＡＬユニットタイプと、ＩＳＯＢＭＦＦ同期サンプルステータスと、ＩＳＯＢＭＦＦで文書化されたＳＡＰタイプとの間のマッピングを示す。

[0099]

[0100] 以下は、ＥＶＣのためのサブサンプルの定義である。ＥＶＣストリーム中のＳｕｂＳａｍｐｌｅＩｎｆｏｒｍａｔｉｏｎＢｏｘ（ＩＳＯ／ＩＥＣ１４４９６－１２の８．７．７）の使用のために、サブサンプルは、以下で指定されるサブサンプル情報ボックスのフラグフィールドの値に基づいて定義される。このボックスの存在は随意であるが、ＥＶＣデータを含んでいるトラック中に存在する場合、ボックス中の「ｃｏｄｅｃ＿ｓｐｅｃｉｆｉｃ＿ｐａｒａｍｅｔｅｒｓ」フィールドは、ここで定義されるセマンティクスを有し得る（たとえば、有するものとする）。

[0101] フラグは、次のように、このボックス中で与えられるサブサンプル情報のタイプを指定する。
ａ．０：ＮＡＬユニットベースのサブサンプル：サブサンプルは、１つまたは複数の連続するＮＡＬユニットを含んでいる。
ｂ．１：タイルベースのサブサンプル：サブサンプルは、１つのタイルのすべてのＣＴＵを有するＶＣＬＮＡＬユニットを、もしあれば、任意の関連する非ＶＣＬＮＡＬユニットとともに含んでいる。
ｃ．２：スライスベースのサブサンプル：サブサンプルは、１つのスライス（すなわち、１つのＶＣＬＮＡＬユニット）と、もしあれば、関連する非ＶＣＬＮＡＬユニットとを含んでいる。
ｄ．フラグの他の値が予約されている。

[0102] ｓｕｂｓａｍｐｌｅ＿ｐｒｉｏｒｉｔｙフィールドは、ＩＳＯ／ＩＥＣ１４４９６－１２におけるこのフィールドの仕様に従って、ある値に設定され得る（たとえば、設定されるものとする）。

[0103] 廃棄可能フィールドは、このサブサンプルが廃棄される（たとえば、サブサンプルがＳＥＩＮＡＬユニットからなる）場合、このサンプルが依然として復号可能である場合にのみ、１に設定され得る（たとえば、設定されるものとする）。

[0104] ＮＡＬユニットの最初のバイトがサブサンプルに含まれるとき、先行する長さフィールドも同じサブサンプルに含まれ得る（たとえば、含まれるものとする）。

[0105] ＳｕｂＳａｍｐｌｅＩｎｆｏｒｍａｔｉｏｎＢｏｘのｃｏｄｅｃ＿ｓｐｅｃｉｆｉｃ＿ｐａｒａｍｅｔｅｒｓフィールドは、次のようにＥＶＣのために定義される。

ｉｆ（ｆｌａｇｓ＝＝１）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｔｉｌｅ＿ｃｏｌ＿ｉｄｘ；
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｔｉｌｅ＿ｒｏｗ＿ｉｄｘ；
｝
[0106] タイルに基づくサブサンプルに関するｔｉｌｅ＿ｃｏｌ＿ｉｄｘ、このパラメータは、このサブサンプルのタイルを含んでいるタイル列の０ベースのインデックスを示す。

[0107] タイルに基づくサブサンプルに関するｔｉｌｅ＿ｒｏｗ＿ｉｄｘ、このパラメータは、このサブサンプルのタイルを含んでいるタイル行の０ベースのインデックスを示す。

[0108] 以下は、ＣＭＡＦメディアプロファイルについて説明する。ＩＳＯ／ＩＥＣ２３０００－１９共通メディアアプリケーションフォーマット（ＣＭＡＦ）は、たとえば、暗号化ファイルの適応ストリーミングまたは配信のために、ＩＳＯ／ＩＥＣ１４４９６－１２に加えたＩＳＯＢＭＦＦファイルに対する構造的制約を定義する。これらの構造的制約への適合性は、ＦｉｌｅＴｙｐｅＢｏｘ中のＣＭＡＦ定義構造的ブランドの存在によってシグナリングされる。

[0109] ＩＳＯＢＭＦＦトラックがブランド「ｃｅｖｃ」を使用する場合、それはＣＭＡＦＥＶＣトラックと呼ばれ、ＥＶＣのためのＣＭＡＦメディアプロファイルを定義する以下の制約が適用される。
ａ．それは、ＩＳＯ／ＩＥＣ２３０９４－１の節６．３において定義される「ｅｖｃ１」サンプルエントリを使用し得る（たとえば、使用するものとする）。
ｂ．トラックは、ＩＳＯ／ＩＥＣ２３０００－１９、節７における一般的なＣＭＡＦトラック制約に準拠し得る（たとえば、準拠するものとする）。
ｃ．トラックは、ＩＳＯ／ＩＥＣ２３０００－１９、節９における一般的なＣＭＡＦビデオトラック制約に準拠し得る（たとえば、準拠するものとする）。

[0110] ＥＶＣメディアがＣＭＡＦスイッチングセット内で提供される場合、
ａ．ＣＭＡＦスイッチングセット内のすべてのＣＭＡＦトラックは、ＣＭＡＦＥＶＣトラックに準拠し得る（たとえば、準拠するものとする）。
ｂ．ＣＭＡＦスイッチングセットは、ＩＳＯ／ＩＥＣ２３０００－１９、節７における一般的なＣＭＡＦスイッチングセット制約に準拠し得る（たとえば、準拠するものとする）。
ｃ．ＩＳＯ／ＩＥＣ２３０００－１９、節９において定義されている一般的なＣＭＡＦビデオトラックスイッチングセット制約。

[0111] これらの要件に従うＣＭＡＦスイッチングセットは、ＣＭＡＦＥＶＣメディアプロファイル「ｃｅｖｃ」として定義される。ＣＭＡＦＥＶＣトラックおよびＣＭＡＦＥＶＣスイッチングセットの暗号化は、それぞれ、ＩＳＯ／ＩＥＣ２３００１－７、節１０．１および１０．４において指定されているように、「ｃｅｎｃ」ＡＥＳ－ＣＴＲ方式または「ｃｂｃｓ」ＡＥＳ－ＣＢＣサブサンプルパターン暗号化方式のいずれかを使用して、ＩＳＯ／ＩＥＣ２３０００－１９、節８に準拠し得る（たとえば、準拠するものとする）。

[0112] さらに、共通暗号化の「ｃｂｃｓ」モードのうち、ＩＳＯ／ＩＥＣ２３００１－７の節９．６において定義されているパターン暗号化が使用され、次いで、１０のパターンブロック長および１：９の暗号化スキップパターンが、（たとえば、ＩＳＯ／ＩＥＣ２３００１－７の節１０．４において説明されるように）適用され得る（たとえば、適用されるものとする）。

[0113] 以下は、ＤＡＳＨ配信へのマッピングについて説明する。ＥＶＣ符号化メディアが、適応セット中のＤＡＳＨメディアプレゼンテーションにおいて提供される場合、適応セットは、ＩＳＯ／ＩＥＣ２３００９－１において定義されているＣＭＡＦに関するＤＡＳＨプロファイルに準拠し得る（たとえば、準拠するものとする）。以下のパラメータが、適応セットレベルおよびセット上に存在し得る（たとえば、存在するものとする）。
ａ．＠ｃｏｄｅｃｓは、付属書類Ａに従って設定される。
ｂ．＠ｍｉｍｅＴｙｐｅは、「ｖｉｄｅｏ／ｍｐ４ｐｒｏｆｉｌｅｓ＝’ｃｅｖｃ’」に適合するように設定される。

[0114] 以下は、ＭＩＭＥタイプ「ｃｏｄｅｓ」パラメータのサブパラメータについての説明である。ＤＡＳＨおよび他のアプリケーションは、ＩＳＯＢＭＦＦメディアトラックのためのＩＥＴＦＲＦＣ６３８１において指定されたＣｏｄｅｃｓパラメータに関する定義された値を必要とする。ＥＶＣコーデックのためのｃｏｄｅｃｓパラメータストリングは、次の通りである。すなわち、＜ｓａｍｐｌｅｅｎｔｒｙ４ＣＣ＞．＜ｋｅｙ１＞＜ｖａｌｕｅ１＞．＜ｋｅｙ２＞＜ｖａｌｕｅ２＞．…．＜ｋｅｙＮ＞＜ｖａｌｕｅＮ＞
[0115] キーは、４ＣＣとして定義される。キーの初期セットおよび関連する値ペアは、表２において定義されている。追加のキーは、４ＣＣとして指定され得る。いくつかの例では、キーはＩＳＯ／ＩＥＣ２３０９１－２と整合される。

[0116] 特定のキーが提供されない場合、指定されたデフォルト値が適用されるか、または告知されない場合（ｎ／ａ）、キーの値は未知である。

[0117] たとえば、ｃｏｄｅｃｓ＝”ｅｖｃ１．ｖｐｒｆ３．ｖｌｅｖ５１．ｖｔｏｏ０３ＦＦ．ｖｂｉｔ２０．ｖｃｓｓ４２０．ｖｃｐｒ０９．ｖｔｒｃ１６．ｖｍａｃ０９．ｖｓａｒ０１”は、（０、０）ルーマサンプルとコロケートされた４：２：０クロマサブサンプリングと、制限されたツールセットと、ＩＴＵ－ＲＢＴ．２１００カラープライマリと、ＩＴＵ－ＲＢＴ．２１００ＰＱ伝達特性と、ＩＴＵ－ＲＢＴ．２１００ＹＣｂＣｒカラーマトリクスと、サンプルアスペクト比１：１とを有する、ＥＶＣメインプロファイル、レベル５．１を表す。ｅｖｃ１サンプルエントリが認識される場合、表２中のすべてのキーが認識され得る（たとえば、認識されなければならない）。キーが認識されない場合、キー値ペアは無視される。いくつかの例では、他のキー、たとえば、２ＣＣのみが定義され得る。

[0118] 「ｖｔｏｏ」およびｔｏｏｌｓｅｔ＿ｉｄｃのキー値ペアは、デコーダ構成レコード内のｔｏｏｌｓｅｔ＿ｉｄｃシンタックス要素と同じ情報を伝達するが、この情報をビデオ処理デバイスに公開する異なる方法を表す。

[0119] 上記で説明された技法によれば、宛先デバイス１１６は、ビデオデータのビットストリームを復号するための構成レコードを受信するように構成され得、ここにおいて、ビットストリームのための構成レコードは、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールをビデオ復号ツールのセットから識別する情報を含むツールセット指示シンタックス要素を含み、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定し、構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、ビットストリームを取り出し、復号のためにビットストリームをビデオデコーダに出力する。宛先デバイス１１６は、追加または代替として、キー値ペアを含むＭＩＭＥタイプパラメータを受信し得、ここにおいて、キーは、ＭＩＭＥタイプがビデオ復号ツールを識別することを示し、値は、ビデオ復号ツールから、ビットストリームを復号するために必要とされるツールを識別する。ビデオデータのビットストリームは、１つまたは複数のパラメータセットを含み得、ビットストリームを復号するために必要とされる構成レコードにおいて識別されたツールの各々は、１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされ得る。

[0120] ツールセット指示シンタックス要素は、ファイルフォーマット情報（file format information）の構成ボックス中でシグナリングされる。構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素は、構成レコードに関連付けられたビットストリームを復号するために必要とされるすべてのツールを識別し得る。ツールセット指示シンタックス要素は、符号なし３２ビット整数値（unsigned 32-bit integer value）であり得、符号なし３２ビット整数値の各ビットは、ビットストリームを復号するための一意のツールに対応する。

[0121] 構成レコードは、エッセンシャルＥＶＣ規格に従ってフォーマットされ得る。ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の前に、プロファイルシンタックス要素（profile syntax element）および／またはレベルシンタックス要素（level syntax element）を含み得る。ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の後にクロマフォーマットシンタックス要素（chroma format syntax element）を含み得る。

[0122] 図２Ａおよび図２Ｂは、例示的なクワッドツリーバイナリツリー（ＱＴＢＴ）構造１３０と、対応するコーディングツリーユニット（ＣＴＵ）１３２とを示す概念図である。実線はクワッドツリースプリッティングを表し、点線はバイナリツリースプリッティングを示す。バイナリツリーの各スプリット（すなわち、非リーフ）ノードでは、どのスプリッティングタイプ（すなわち、水平または垂直）が使用されるかを示すために１つのフラグがシグナリングされ、ここで、この例では、０は水平スプリッティングを示し、１は垂直スプリッティングを示す。クワッドツリースプリッティングでは、クワッドツリーノードが、ブロックを、等しいサイズをもつ４つのサブブロックに水平および垂直にスプリットするので、スプリッティングタイプを示す必要がない。したがって、ＱＴＢＴ構造１３０の領域ツリーレベル（すなわち、実線）についての（スプリッティング情報などの）シンタックス要素と、ＱＴＢＴ構造１３０の予測ツリーレベル（すなわち、破線）についての（スプリッティング情報などの）シンタックス要素とを、ビデオエンコーダ２００は符号化し得、ビデオデコーダ３００は復号し得る。ＱＴＢＴ構造１３０の端末リーフノードによって表されるＣＵについての、予測および変換データなどのビデオデータを、ビデオエンコーダ２００は符号化し得、ビデオデコーダ３００は復号し得る。

[0123] 概して、図２ＢのＣＴＵ１３２は、第１および第２のレベルにおいてＱＴＢＴ構造１３０のノードに対応するブロックのサイズを定義するパラメータに関連付けられ得る。これらのパラメータは、（サンプル中のＣＴＵ１３２のサイズを表す）ＣＴＵサイズと、最小クワッドツリーサイズ（最小許容クワッドツリーリーフノードサイズを表すＭｉｎＱＴＳｉｚｅ）と、最大バイナリツリーサイズ（最大許容バイナリツリールートノードサイズを表すＭａｘＢＴＳｉｚｅ）と、最大バイナリツリー深度（最大許容バイナリツリー深度を表すＭａｘＢＴＤｅｐｔｈ）と、最小バイナリツリーサイズ（最小許容バイナリツリーリーフノードサイズを表すＭｉｎＢＴＳｉｚｅ）とを含み得る。

[0124] ＣＴＵに対応するＱＴＢＴ構造のルートノードは、ＱＴＢＴ構造の第１のレベルにおいて４つの子ノードを有し得、それらの各々は、クワッドツリー区分に従って区分され得る。すなわち、第１のレベルのノードは、（子ノードを有しない）リーフノードであるか、または４つの子ノードを有するかのいずれかである。ＱＴＢＴ構造１３０の例は、分岐のために実線を有する親ノードと子ノードとを含むようなノードを表す。第１のレベルのノードが最大許容バイナリツリールートノードサイズ（ＭａｘＢＴＳｉｚｅ）よりも大きくない場合、ノードは、それぞれのバイナリツリーによってさらに区分され得る。１つのノードのバイナリツリースプリッティングは、スプリットから生じるノードが最小許容バイナリツリーリーフノードサイズ（ＭｉｎＢＴＳｉｚｅ）または最大許容バイナリツリー深度（ＭａｘＢＴＤｅｐｔｈ）に達するまで反復され得る。ＱＴＢＴ構造１３０の例は、分岐のために破線を有するようなノードを表す。バイナリツリーリーフノードはコーディングユニット（ＣＵ）と呼ばれ、ＣＵは、さらなる区分なしに予測（たとえば、ピクチャ内またはピクチャ間予測）および変換のために使用される。上記で説明されたように、ＣＵは「ビデオブロック」または「ブロック」と呼ばれることもある。

[0125] ＱＴＢＴ区分構造の一例では、ＣＴＵサイズは、１２８×１２８（ルーマサンプルおよび２つの対応する６４×６４クロマサンプル）として設定され、ＭｉｎＱＴＳｉｚｅは１６×１６として設定され、ＭａｘＢＴＳｉｚｅは６４×６４として設定され、（幅と高さの両方について）ＭｉｎＢＴＳｉｚｅは４として設定され、ＭａｘＢＴＤｅｐｔｈは４として設定される。クワッドツリー区分は、クワッドツリーリーフノードを生成するために、最初にＣＴＵに適用される。クワッドツリーリーフノードは、１６×１６（すなわち、ＭｉｎＱＴＳｉｚｅ）から１２８×１２８（すなわち、ＣＴＵサイズ）までのサイズを有し得る。リーフクワッドツリーノードが１２８×１２８である場合、リーフクワッドツリーノードは、サイズがＭａｘＢＴＳｉｚｅ（すなわち、この例では、６４×６４）を超えるので、バイナリツリーによってさらにスプリットされない。他の場合、リーフクワッドツリーノードは、バイナリツリーによってさらに区分される。したがって、クワッドツリーリーフノードはまた、バイナリツリーのためのルートノードであり、０としてのバイナリツリー深度を有する。バイナリツリー深度がＭａｘＢＴＤｅｐｔｈ（この例では４）に達したとき、さらなるスプリッティングは許可されない。バイナリツリーノードがＭｉｎＢＴＳｉｚｅ（この例では４）に等しい幅を有するとき、それは、さらなる水平スプリッティングが許可されないことを暗示する。同様に、ＭｉｎＢＴＳｉｚｅに等しい高さを有するバイナリツリーノードは、さらなる垂直分割がそのバイナリツリーノードのために許可されないことを暗示する。上述のように、バイナリツリーのリーフノードは、ＣＵと呼ばれ、さらなる区分なしに予測および変換に従ってさらに処理される。

[0126] 図３は、本開示の技法を実施し得る例示的なビデオエンコーダ２００を示すブロック図である。図３は、説明の目的で提供されており、本開示において広く例示され、説明される技法を限定するものと見なされるべきではない。説明の目的で、本開示は、ＪＥＭと、ＥＶＣと、ＶＶＣ（開発中のＩＴＵ－ＴＨ．２６６）と、ＨＥＶＣ（ＩＴＵ－ＴＨ．２６５）との技法によるビデオエンコーダ２００について説明する。しかしながら、本開示の技法は、他のビデオコーディング規格に構成されたビデオ符号化デバイスによって実行され得る。

[0127] 図３の例では、ビデオエンコーダ２００は、ビデオデータメモリ２３０と、モード選択ユニット２０２と、残差生成ユニット２０４と、変換処理ユニット２０６と、量子化ユニット２０８と、逆量子化ユニット２１０と、逆変換処理ユニット２１２と、再構築ユニット２１４と、フィルタユニット２１６と、復号ピクチャバッファ（ＤＰＢ）２１８と、エントロピー符号化ユニット２２０とを含む。ビデオデータメモリ２３０と、モード選択ユニット２０２と、残差生成ユニット２０４と、変換処理ユニット２０６と、量子化ユニット２０８と、逆量子化ユニット２１０と、逆変換処理ユニット２１２と、再構築ユニット２１４と、フィルタユニット２１６と、ＤＰＢ２１８と、エントロピー符号化ユニット２２０とのいずれかまたはすべては、１つまたは複数のプロセッサにおいてまたは処理回路において実装され得る。たとえば、ビデオエンコーダ２００のユニットは、１つまたは複数の回路または論理要素として、ハードウェア回路の一部として、あるいはＦＰＧＡのプロセッサ、ＡＳＩＣの一部として実装され得る。その上、ビデオエンコーダ２００は、これらおよび他の機能を実施するための追加または代替のプロセッサまたは処理回路を含み得る。

[0128] ビデオデータメモリ２３０は、ビデオエンコーダ２００の構成要素によって符号化されるべきビデオデータを記憶し得る。ビデオエンコーダ２００は、たとえば、ビデオソース１０４（図１）から、ビデオデータメモリ２３０に記憶されるビデオデータを受信し得る。ＤＰＢ２１８は、ビデオエンコーダ２００による後続のビデオデータの予測において使用するための参照ビデオデータを記憶する参照ピクチャメモリとして働き得る。ビデオデータメモリ２３０とＤＰＢ２１８とは、同期ダイナミックランダムアクセスメモリ（ＤＲＡＭ）（ＳＤＲＡＭ）を含むＤＲＡＭ、磁気抵抗ＲＡＭ（ＭＲＡＭ）、抵抗性ＲＡＭ（ＲＲＡＭ（登録商標））、または他のタイプのメモリデバイスなど、様々なメモリデバイスのいずれかによって形成され得る。ビデオデータメモリ２３０とＤＰＢ２１８とは、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ビデオデータメモリ２３０は、図示のように、ビデオエンコーダ２００の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。

[0129] 本開示では、ビデオデータメモリ２３０への言及は、特にそのように説明されない限り、ビデオエンコーダ２００の内部のメモリに限定されるものとして解釈されるべきではなく、または特にそのように説明されない限り、ビデオエンコーダ２００の外部のメモリに限定されるものとして解釈されるべきではない。そうではなく、ビデオデータメモリ２３０への言及は、ビデオエンコーダ２００が符号化のために受信するビデオデータ（たとえば、符号化されるべきである現在ブロックのためのビデオデータ）を記憶する参照メモリとして理解されるべきである。図１のメモリ１０６はまた、ビデオエンコーダ２００の様々なユニットからの出力の一時的記憶を提供し得る。

[0130] 図３の様々なユニットは、ビデオエンコーダ２００によって実施される動作を理解するのを支援するために示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。固定機能回路は、特定の機能を提供する回路を指し、実施され得る動作に関してプリセットされる。プログラマブル回路は、様々なタスクを実施するように、および実施され得る動作においてフレキシブルな機能を提供するようにプログラムされ得る回路を指す。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義される様式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、（たとえば、パラメータを受信するかまたはパラメータを出力するために）ソフトウェア命令を実行し得るが、固定機能回路が実施する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの１つまたは複数は、別個の回路ブロック（固定機能またはプログラマブル）であり得、いくつかの例では、ユニットのうちの１つまたは複数は、集積回路であり得る。

[0131] ビデオエンコーダ２００は、算術論理ユニット（ＡＬＵ）、基本機能ユニット（ＥＦＵ）、デジタル回路、アナログ回路、および／またはプログラマブル回路から形成されるプログラマブルコアを含み得る。ビデオエンコーダ２００の動作が、プログラマブル回路によって実行されるソフトウェアを使用して実施される例では、メモリ１０６（図１）は、ビデオエンコーダ２００が受信し、実行するソフトウェアの命令（たとえば、オブジェクトコード）を記憶し得るか、またはビデオエンコーダ２００内の別のメモリ（図示せず）が、そのような命令を記憶し得る。

[0132] ビデオデータメモリ２３０は、受信されたビデオデータを記憶するように構成される。ビデオエンコーダ２００は、ビデオデータメモリ２３０からビデオデータのピクチャを取り出し、ビデオデータを残差生成ユニット２０４とモード選択ユニット２０２とに提供し得る。ビデオデータメモリ２３０中のビデオデータは、符号化されるべきである生のビデオデータであり得る。

[0133] モード選択ユニット２０２は、動き推定ユニット２２２と、動き補償ユニット２２４と、イントラ予測ユニット２２６とを含む。モード選択ユニット２０２は、他の予測モードに従ってビデオ予測を実施するための追加の機能ユニットを含み得る。例として、モード選択ユニット２０２は、パレットユニット、（動き推定ユニット２２２および／または動き補償ユニット２２４の一部であり得る）イントラブロックコピーユニット、アフィンユニット、線形モデル（ＬＭ）ユニットなどを含み得る。

[0134] モード選択ユニット２０２は、概して、符号化パラメータの組合せと、そのような組合せについての得られたレートひずみ値とをテストするために、複数の符号化パスを協調させる。符号化パラメータは、ＣＵへのＣＴＵの区分、ＣＵのための予測モード、ＣＵの残差データのための変換タイプ、ＣＵの残差データのための量子化パラメータなどを含み得る。モード選択ユニット２０２は、他のテストされた組合せよりも良好であるレートひずみ値を有する符号化パラメータの組合せを最終的に選択し得る。

[0135] ビデオエンコーダ２００は、ビデオデータメモリ２３０から取り出されたピクチャを一連のＣＴＵに区分し、スライス内の１つまたは複数のＣＴＵをカプセル化し得る。モード選択ユニット２０２は、上記で説明されたＱＴＢＴ構造またはクワッドツリー構造など、ツリー構造に従ってピクチャのＣＴＵを区分し得る。上記で説明されたように、ビデオエンコーダ２００は、ツリー構造に従ってＣＴＵを区分することから１つまたは複数のＣＵを形成し得る。そのようなＣＵは、概して「ビデオブロック」または「ブロック」と呼ばれることもある。

[0136] 概して、モード選択ユニット２０２はまた、現在ブロック（たとえば、現在ＣＵ、またはＰＵとＴＵとの重複する部分）のための予測ブロックを生成するように、それの構成要素（たとえば、動き推定ユニット２２２、動き補償ユニット２２４、およびイントラ予測ユニット２２６）を制御する。現在ブロックのインター予測のために、動き推定ユニット２２２は、１つまたは複数の参照ピクチャ（たとえば、ＤＰＢ２１８に記憶された１つまたは複数の前にコーディングされたピクチャ）中で１つまたは複数のぴったり一致する参照ブロックを識別するために動き探索を実施し得る。特に、動き推定ユニット２２２は、たとえば、絶対差分和（ＳＡＤ）、２乗差分和（ＳＳＤ）、平均絶対差（ＭＡＤ）、平均２乗差（ＭＳＤ）などに従って、現在ブロックに対して潜在的参照ブロックがどのくらい類似しているかを表す値を計算し得る。動き推定ユニット２２２は、概して、現在ブロックと考慮されている参照ブロックとの間のサンプルごとの差分を使用してこれらの計算を実施し得る。動き推定ユニット２２２は、現在ブロックに最もぴったり一致する参照ブロックを示す、これらの計算から得られた最も低い値を有する参照ブロックを識別し得る。

[0137] 動き推定ユニット２２２は、現在ピクチャ中の現在ブロックの位置に対して参照ピクチャ中の参照ブロックの位置を定義する１つまたは複数の動きベクトル（ＭＶ）を形成し得る。動き推定ユニット２２２は、次いで、動きベクトルを動き補償ユニット２２４に提供し得る。たとえば、単方向インター予測では、動き推定ユニット２２２は、単一の動きベクトルを提供し得るが、双方向インター予測では、動き推定ユニット２２２は、２つの動きベクトルを提供し得る。動き補償ユニット２２４は、次いで、動きベクトルを使用して予測ブロックを生成し得る。たとえば、動き補償ユニット２２４は、動きベクトルを使用して参照ブロックのデータを取り出し得る。別の例として、動きベクトルが部分サンプル精度を有する場合、動き補償ユニット２２４は、１つまたは複数の補間フィルタに従って予測ブロックについての値を補間し得る。その上、双方向インター予測では、動き補償ユニット２２４は、それぞれの動きベクトルによって識別された２つの参照ブロックについてデータを取り出し、たとえば、サンプルごとの平均化または重み付き平均化を通して、取り出されたデータを組み合わせ得る。

[0138] 別の例として、イントラ予測、またはイントラ予測コーディングのために、イントラ予測ユニット２２６は、現在ブロックに隣接しているサンプルから予測ブロックを生成し得る。たとえば、方向性モードでは、イントラ予測ユニット２２６は、概して、予測ブロックを生成するために、隣接サンプルの値を数学的に組み合わせ、現在ブロックにわたって定義された方向にこれらの計算された値をポピュレートし得る。別の例として、ＤＣモードでは、イントラ予測ユニット２２６は、現在ブロックに対する隣接サンプルの平均を計算し、予測ブロックの各サンプルについてこの得られた平均を含むように予測ブロックを生成し得る。

[0139] モード選択ユニット２０２は、予測ブロックを残差生成ユニット２０４に提供する。残差生成ユニット２０４は、ビデオデータメモリ２３０から現在ブロックの生の符号化されていないバージョンを受信し、モード選択ユニット２０２から予測ブロックを受信する。残差生成ユニット２０４は、現在ブロックと予測ブロックとの間のサンプルごとの差分を計算する。得られたサンプルごとの差分は、現在ブロックのための残差ブロックを定義する。いくつかの例では、残差生成ユニット２０４はまた、残差差分パルスコード変調（ＲＤＰＣＭ）を使用して残差ブロックを生成するために、残差ブロック中のサンプル値間の差分を決定し得る。いくつかの例では、残差生成ユニット２０４は、バイナリ減算を実施する１つまたは複数の減算器回路を使用して形成され得る。

[0140] モード選択ユニット２０２がＣＵをＰＵに区分する例では、各ＰＵは、ルーマ予測ユニットと、対応するクロマ予測ユニットとに関連付けられ得る。ビデオエンコーダ２００とビデオデコーダ３００とは、様々なサイズを有するＰＵをサポートし得る。上記で示されたように、ＣＵのサイズは、ＣＵのルーマコーディングブロックのサイズを指し得、ＰＵのサイズは、ＰＵのルーマ予測ユニットのサイズを指し得る。特定のＣＵのサイズが２Ｎ×２Ｎであると仮定すると、ビデオエンコーダ２００は、イントラ予測のための２Ｎ×２ＮまたはＮ×ＮのＰＵサイズと、インター予測のための２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、Ｎ×Ｎ、または同様のものの対称ＰＵサイズとをサポートし得る。ビデオエンコーダ２００とビデオデコーダ３００とはまた、インター予測のための２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズの非対称区分をサポートし得る。

[0141] モード選択ユニット２０２がＣＵをＰＵにさらに区分しない例では、各ＣＵは、ルーマコーディングブロックと、対応するクロマコーディングブロックとに関連付けられ得る。上記のように、ＣＵのサイズは、ＣＵのルーマコーディングブロックのサイズを指し得る。ビデオエンコーダ２００とビデオデコーダ３００とは、２Ｎ×２Ｎ、２Ｎ×Ｎ、またはＮ×２ＮのＣＵサイズをサポートし得る。

[0142] いくつかの例として、イントラブロックコピーモードコーディング、アフィンモードコーディング、および線形モデル（ＬＭ）モードコーディングなどの他のビデオコーディング技法では、モード選択ユニット２０２は、コーディング技法に関連付けられたそれぞれのユニットを介して、符号化されている現在ブロックのための予測ブロックを生成する。パレットモードコーディングなど、いくつかの例では、モード選択ユニット２０２は、予測ブロックを生成せず、代わりに、選択されたパレットに基づいてブロックを再構築すべき様式を示すシンタックス要素を生成し得る。そのようなモードでは、モード選択ユニット２０２は、符号化されるべきこれらのシンタックス要素をエントロピー符号化ユニット２２０に提供し得る。

[0143] 上記で説明されたように、残差生成ユニット２０４は、現在ブロックのためのビデオデータと、対応する予測ブロックとを受信する。残差生成ユニット２０４は、次いで、現在ブロックのための残差ブロックを生成する。残差ブロックを生成するために、残差生成ユニット２０４は、予測ブロックと現在ブロックとの間のサンプルごとの差分を計算する。

[0144] 変換処理ユニット２０６は、（本明細書では「変換係数ブロック」と呼ばれる）変換係数のブロックを生成するために、残差ブロックに１つまたは複数の変換を適用する。変換処理ユニット２０６は、変換係数ブロックを形成するために、残差ブロックに様々な変換を適用し得る。たとえば、変換処理ユニット２０６は、離散コサイン変換（ＤＣＴ）、方向性変換、カルーネンレーベ変換（ＫＬＴ）、または概念的に同様の変換を残差ブロックに適用し得る。いくつかの例では、変換処理ユニット２０６は、残差ブロックに複数の変換、たとえば、回転変換などの１次変換および２次変換を実施し得る。いくつかの例では、変換処理ユニット２０６は、残差ブロックに変換を適用しない。

[0145] 量子化ユニット２０８は、量子化された変換係数ブロックを生成するために、変換係数ブロック中の変換係数を量子化し得る。量子化ユニット２０８は、現在ブロックに関連付けられた量子化パラメータ（ＱＰ）値に従って変換係数ブロックの変換係数を量子化し得る。ビデオエンコーダ２００は（たとえば、モード選択ユニット２０２を介して）、ＣＵに関連付けられたＱＰ値を調整することによって、現在ブロックに関連付けられた変換係数ブロックに適用される量子化の程度を調整し得る。量子化は、情報の損失をもたらし得、したがって、量子化された変換係数は、変換処理ユニット２０６によって生成された元の変換係数よりも低い精度を有し得る。

[0146] 逆量子化ユニット２１０および逆変換処理ユニット２１２は、変換係数ブロックから残差ブロックを再構築するために、それぞれ、量子化された変換係数ブロックに逆量子化および逆変換を適用し得る。再構築ユニット２１４は、再構築された残差ブロックと、モード選択ユニット２０２によって生成された予測ブロックとに基づいて、（潜在的にある程度のひずみを伴うが）現在ブロックに対応する再構築されたブロックを生成し得る。たとえば、再構築ユニット２１４は、再構築されたブロックを生成するために、モード選択ユニット２０２によって生成された予測ブロックからの対応するサンプルに、再構築された残差ブロックのサンプルを加算し得る。

[0147] フィルタユニット２１６は、再構築されたブロックに対して１つまたは複数のフィルタ演算を実施し得る。たとえば、フィルタユニット２１６は、ＣＵのエッジに沿ってブロッキネスアーティファクトを低減するためのデブロッキング動作を実施し得る。フィルタユニット２１６の動作は、いくつかの例では、スキップされ得る。

[0148] ビデオエンコーダ２００は、再構築されたブロックをＤＰＢ２１８に記憶する。たとえば、フィルタユニット２１６の動作が必要とされない例では、再構築ユニット２１４は、再構築されたブロックをＤＰＢ２１８に記憶し得る。フィルタユニット２１６の動作が必要とされる例では、フィルタユニット２１６は、フィルタ処理された再構築されたブロックをＤＰＢ２１８に記憶し得る。動き推定ユニット２２２と動き補償ユニット２２４とは、後で符号化されるピクチャのブロックをインター予測するために、再構築（および潜在的にフィルタ処理）されたブロックから形成された参照ピクチャをＤＰＢ２１８から取り出し得る。さらに、イントラ予測ユニット２２６は、現在ピクチャ中の他のブロックをイントラ予測するために、現在ピクチャのＤＰＢ２１８中の再構築されたブロックを使用し得る。

[0149] 概して、エントロピー符号化ユニット２２０は、ビデオエンコーダ２００の他の機能構成要素から受信されたシンタックス要素をエントロピー符号化し得る。たとえば、エントロピー符号化ユニット２２０は、量子化ユニット２０８からの量子化された変換係数ブロックをエントロピー符号化し得る。別の例として、エントロピー符号化ユニット２２０は、モード選択ユニット２０２からの予測シンタックス要素（たとえば、インター予測のための動き情報、またはイントラ予測のためのイントラモード情報）をエントロピー符号化し得る。エントロピー符号化ユニット２２０は、エントロピー符号化データを生成するために、ビデオデータの別の例であるシンタックス要素に対して１つまたは複数のエントロピー符号化動作を実施し得る。たとえば、エントロピー符号化ユニット２２０は、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）動作、ＣＡＢＡＣ動作、可変対可変（Ｖ２Ｖ）長コーディング動作、シンタックスベースコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ）動作、確率間隔区分エントロピー（ＰＩＰＥ）コーディング動作、指数ゴロム符号化動作、または別のタイプのエントロピー符号化動作をデータに対して実施し得る。いくつかの例では、エントロピー符号化ユニット２２０は、シンタックス要素がエントロピー符号化されないバイパスモードで動作し得る。

[0150] ビデオエンコーダ２００は、スライスまたはピクチャのブロックを再構築するために必要とされるエントロピー符号化シンタックス要素を含むビットストリームを出力し得る。特に、エントロピー符号化ユニット２２０がビットストリームを出力し得る。

[0151] 上記で説明された動作は、ブロックに関して説明される。そのような説明は、ルーマコーディングブロックおよび／またはクロマコーディングブロックのための動作であるものとして理解されるべきである。上記で説明されたように、いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、ＣＵのルーマ成分およびクロマ成分である。いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、ＰＵのルーマ成分およびクロマ成分である。

[0152] いくつかの例では、ルーマコーディングブロックに関して実施される動作は、クロマコーディングブロックのために繰り返される必要はない。一例として、ルーマコーディングブロックのための動きベクトル（ＭＶ）と参照ピクチャとを識別するための動作は、クロマブロックのためのＭＶと参照ピクチャとを識別するために繰り返される必要はない。むしろ、ルーマコーディングブロックのためのＭＶは、クロマブロックのためのＭＶを決定するためにスケーリングされ得、参照ピクチャは同じであり得る。別の例として、イントラ予測プロセスは、ルーマコーディングブロックおよびクロマコーディングブロックについて同じであり得る。

[0153] ビデオエンコーダ２００は、ビデオデータを記憶するように構成されたメモリと、回路内に実装され、本開示で説明する１つまたは複数の例示的な技法を実施するように構成された１つまたは複数の処理ユニットとを含む、ビデオデータを符号化するように構成されたデバイスの一例を表す。

[0154] いくつかの例では、ソースデバイスは、ビデオエンコーダ２００からの出力を受信し、ビットストリームを復号するための情報を含むエッセンシャルビデオコーディング（ＥＶＣ）規格に従ってビデオエンコーダ２００によって符号化されたビデオデータをカプセル化する（encapsulate）ビットストリームのための構成レコードを決定（たとえば、生成）するように構成され得る。構成レコードは、ツールセット指示シンタックス要素（たとえば、ｔｏｏｌｓｅｔ＿ｉｄｃ）を含み得る。構成レコードは、ファイルフォーマットレベル（file format level data）で、たとえば、ファイルフォーマットレベルデータとして、または、ビデオコーディングレイヤ（ＶＣＬ：video coding layer）レベル符号化メディアデータ（level encoded media data）をカプセル化するレベルで提供され得る。たとえば、本明細書で説明されるように、構成レコードは、メディアファイル中の構成ボックス中に含まれ得、ここにおいて、構成ボックスは、実際の符号化メディアデータを含むムービーフラグメントボックスまたは他のボックスとは別個である。いくつかの例では、ツールセット指示シンタックス要素は、構成レコードに関連付けられたビットストリームを復号するために必要とされるすべてのツールの情報を含み得る。ツールセット指示シンタックス要素は、シーケンスパラメータセット（ＳＰＳ）中でシグナリングされる別のｔｏｏｌｓｅｔ＿ｉｄｃフィールドに適合するツールを示し得る。

[0155] いくつかの例では、ツールセット指示シンタックス要素は、コード化パラメータの一部であるサンプルエントリ中のファイルを再生するために必要とされるツールを含むものと見なされ得る。ツールセット指示シンタックス要素を有効にするために、ＭＩＭＥタイプにおけるコード化パラメータのためのコーディング方式が利用され得る。

[0156] 図４は、本開示の技法を実施し得る例示的なビデオデコーダ３００を示すブロック図である。図４は、説明の目的で提供されており、本開示において広く例示され、説明される技法を限定するものではない。説明の目的で、本開示は、ＪＥＭと、ＥＶＣと、ＶＶＣ（開発中のＩＴＵ－ＴＨ．２６６）と、ＨＥＶＣ（ＩＴＵ－ＴＨ．２６５）との技法によるビデオデコーダ３００について説明する。しかしながら、本開示の技法は、他のビデオコーディング規格に構成されたビデオコーディングデバイスによって実施され得る。

[0157] 図４の例では、ビデオデコーダ３００は、コード化ピクチャバッファ（ＣＰＢ）メモリ３２０と、エントロピー復号ユニット３０２と、予測処理ユニット３０４と、逆量子化ユニット３０６と、逆変換処理ユニット３０８と、再構築ユニット３１０と、フィルタユニット３１２と、復号ピクチャバッファ（ＤＰＢ）３１４とを含む。ＣＰＢメモリ３２０と、エントロピー復号ユニット３０２と、予測処理ユニット３０４と、逆量子化ユニット３０６と、逆変換処理ユニット３０８と、再構築ユニット３１０と、フィルタユニット３１２と、ＤＰＢ３１４とのいずれかまたはすべては、１つまたは複数のプロセッサにおいてまたは処理回路において実装され得る。たとえば、ビデオデコーダ３００のユニットは、１つまたは複数の回路または論理要素として、ハードウェア回路の一部として、あるいはＦＰＧＡのプロセッサ、ＡＳＩＣの一部として実装され得る。その上、ビデオデコーダ３００は、これらおよび他の機能を実施するための追加または代替のプロセッサまたは処理回路を含み得る。

[0158] 予測処理ユニット３０４は、動き補償ユニット３１６と、イントラ予測ユニット３１８とを含む。予測処理ユニット３０４は、他の予測モードに従って予測を実施するための追加のユニットを含み得る。例として、予測処理ユニット３０４は、パレットユニット、（動き補償ユニット３１６の一部を形成し得る）イントラブロックコピーユニット、アフィンユニット、線形モデル（ＬＭ）ユニットなどを含み得る。他の例では、ビデオデコーダ３００は、より多数の、より少数の、または異なる機能構成要素を含み得る。

[0159] ＣＰＢメモリ３２０は、ビデオデコーダ３００の構成要素によって復号されるべき、符号化ビデオビットストリームなどのビデオデータを記憶し得る。ＣＰＢメモリ３２０に記憶されるビデオデータは、たとえば、コンピュータ可読媒体１１０（図１）から取得され得る。ＣＰＢメモリ３２０は、符号化ビデオビットストリームからの符号化ビデオデータ（たとえば、シンタックス要素）を記憶するＣＰＢを含み得る。また、ＣＰＢメモリ３２０は、ビデオデコーダ３００の様々なユニットからの出力を表す一時データなど、コード化ピクチャのシンタックス要素以外のビデオデータを記憶し得る。ＤＰＢ３１４は、概して、ビデオデコーダ３００が符号化ビデオビットストリームの後続のデータまたはピクチャを復号するときに出力しおよび／または参照ビデオデータとして使用し得る復号ピクチャを記憶する。ＣＰＢメモリ３２０とＤＰＢ３１４とは、ＳＤＲＡＭを含むＤＲＡＭ、ＭＲＡＭ、ＲＲＡＭ、または他のタイプのメモリデバイスなど、様々なメモリデバイスのいずれかによって形成され得る。ＣＰＢメモリ３２０とＤＰＢ３１４とは、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ＣＰＢメモリ３２０は、ビデオデコーダ３００の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。

[0160] 追加または代替として、いくつかの例では、ビデオデコーダ３００は、メモリ１２０（図１）からコード化ビデオデータを取り出し得る。すなわち、メモリ１２０は、ＣＰＢメモリ３２０とともに上記で説明されたようにデータを記憶し得る。同様に、メモリ１２０は、ビデオデコーダ３００の機能の一部または全部が、ビデオデコーダ３００の処理回路によって実行されるべきソフトウェアにおいて実装されたとき、ビデオデコーダ３００によって実行されるべき命令を記憶し得る。

[0161] 図４に示されている様々なユニットは、ビデオデコーダ３００によって実施される動作を理解するのを支援するために示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。図３と同様に、固定機能回路は、特定の機能を提供する回路を指し、実施され得る動作に関してプリセットされる。プログラマブル回路は、様々なタスクを実施するように、および実施され得る動作においてフレキシブルな機能を提供するようにプログラムされ得る回路を指す。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義される様式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、（たとえば、パラメータを受信するかまたはパラメータを出力するために）ソフトウェア命令を実行し得るが、固定機能回路が実施する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの１つまたは複数は、別個の回路ブロック（固定機能またはプログラマブル）であり得、いくつかの例では、ユニットのうちの１つまたは複数は、集積回路であり得る。

[0162] ビデオデコーダ３００は、ＡＬＵ、ＥＦＵ、デジタル回路、アナログ回路、および／またはプログラマブル回路から形成されるプログラマブルコアを含み得る。ビデオデコーダ３００の動作が、プログラマブル回路上で実行するソフトウェアによって実施される例では、オンチップまたはオフチップメモリは、ビデオデコーダ３００が受信し、実行するソフトウェアの命令（たとえば、オブジェクトコード）を記憶し得る。

[0163] エントロピー復号ユニット３０２は、ＣＰＢから符号化ビデオデータを受信し、シンタックス要素を再生するためにビデオデータをエントロピー復号し得る。予測処理ユニット３０４と、逆量子化ユニット３０６と、逆変換処理ユニット３０８と、再構築ユニット３１０と、フィルタユニット３１２とは、ビットストリームから抽出されたシンタックス要素に基づいて復号ビデオデータを生成し得る。

[0164] 概して、ビデオデコーダ３００は、ブロックごとにピクチャを再構築する。ビデオデコーダ３００は、各ブロックに対して個々に再構築動作を実施し得る（ここで、現在再構築されているブロック、すなわち、現在復号されているブロックは、「現在ブロック」と呼ばれることがある）。

[0165] エントロピー復号ユニット３０２は、量子化された変換係数ブロックの量子化された変換係数を定義するシンタックス要素、ならびに量子化パラメータ（ＱＰ）および／または（１つまたは複数の）変換モード指示などの変換情報をエントロピー復号し得る。逆量子化ユニット３０６は、量子化の程度と、同様に、逆量子化ユニット３０６が適用すべき逆量子化の程度とを決定するために、量子化された変換係数ブロックに関連付けられたＱＰを使用し得る。逆量子化ユニット３０６は、量子化された変換係数を逆量子化するために、たとえば、ビット単位の左シフト演算を実施し得る。逆量子化ユニット３０６は、それにより、変換係数を含む変換係数ブロックを形成し得る。

[0166] 逆量子化ユニット３０６が変換係数ブロックを形成した後に、逆変換処理ユニット３０８は、現在ブロックに関連付けられた残差ブロックを生成するために、変換係数ブロックに１つまたは複数の逆変換を適用し得る。たとえば、逆変換処理ユニット３０８は、逆ＤＣＴ、逆整数変換、逆カルーネンレーベ変換（ＫＬＴ）、逆回転変換、逆方向変換、または別の逆変換を変換係数ブロックに適用し得る。

[0167] さらに、予測処理ユニット３０４は、エントロピー復号ユニット３０２によってエントロピー復号された予測情報シンタックス要素に従って予測ブロックを生成する。たとえば、予測情報シンタックス要素が、現在ブロックがインター予測されることを示す場合、動き補償ユニット３１６は、予測ブロックを生成し得る。この場合、予測情報シンタックス要素は、参照ブロックをそれから取り出すべきＤＰＢ３１４中の参照ピクチャ、ならびに現在ピクチャ中の現在ブロックのロケーションに対する参照ピクチャ中の参照ブロックのロケーションを識別する動きベクトルを示し得る。動き補償ユニット３１６は、概して、動き補償ユニット２２４（図３）に関して説明されたものと実質的に同様である様式で、インター予測プロセスを実施し得る。

[0168] 別の例として、予測情報シンタックス要素が、現在ブロックがイントラ予測されることを示す場合、イントラ予測ユニット３１８は、予測情報シンタックス要素によって示されるイントラ予測モードに従って予測ブロックを生成し得る。この場合も、イントラ予測ユニット３１８は、概して、イントラ予測ユニット２２６（図３）に関して説明されたものと実質的に同様である様式で、イントラ予測プロセスを実施し得る。イントラ予測ユニット３１８は、ＤＰＢ３１４から、現在ブロックに対する隣接サンプルのデータを取り出し得る。

[0169] 再構築ユニット３１０は、予測ブロックと残差ブロックとを使用して現在ブロックを再構築し得る。たとえば、再構築ユニット３１０は、現在ブロックを再構築するために、予測ブロックの対応するサンプルに残差ブロックのサンプルを加算し得る。

[0170] フィルタユニット３１２は、再構築されたブロックに対して１つまたは複数のフィルタ演算を実施し得る。たとえば、フィルタユニット３１２は、再構築されたブロックのエッジに沿ってブロッキネスアーティファクトを低減するためのデブロッキング動作を実施し得る。フィルタユニット３１２の動作は、必ずしもすべての例において実施されるとは限らない。

[0171] ビデオデコーダ３００は、再構築されたブロックをＤＰＢ３１４に記憶し得る。たとえば、フィルタユニット３１２の動作が実施されない例では、再構築ユニット３１０は、再構築されたブロックをＤＰＢ３１４に記憶し得る。フィルタユニット３１２の動作が実施される例では、フィルタユニット３１２は、フィルタ処理された再構築されたブロックをＤＰＢ３１４に記憶し得る。上記で説明されたように、ＤＰＢ３１４は、イントラ予測のための現在ピクチャのサンプル、および後続の動き補償のための前に復号されたピクチャなど、参照情報を、予測処理ユニット３０４に提供し得る。その上、ビデオデコーダ３００は、ＤＰＢ３１４からの復号ピクチャ（たとえば、復号ビデオ）を、図１のディスプレイデバイス１１８などのディスプレイデバイス上での後続の提示のために、出力し得る。

[0172] このようにして、ビデオデコーダ３００は、ビデオデータを記憶するように構成されたメモリと、回路内に実装され、本開示において説明される例示的な技法を実行するように構成された１つまたは複数の処理ユニットとを含む、ビデオ復号デバイスの一例を表す。

[0173] いくつかの例では、クライアントデバイスは、エッセンシャルビデオコーディング（ＥＶＣ）規格に従ってビデオデータのビットストリームを復号するための構成レコードを受信するように構成され得る。構成レコードは、ツールセット指示シンタックス要素（たとえば、ｔｏｏｌｓｅｔ＿ｉｄｃ）を含み得る。いくつかの例では、ツールセット指示シンタックス要素は、構成レコードに関連付けられたビットストリームを復号するために必要とされるすべてのツールの情報を含み得る。構成レコードのツールセット指示シンタックス要素は、シーケンスパラメータセット（ＳＰＳ）中でシグナリングされるツールセット指示シンタックス要素に一致し得る。ツールセット指示シンタックス要素に基づいて、クライアントデバイスは、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定し得る。構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、クライアントデバイスは、ビットストリームを取り出し、復号のためにビットストリームをビデオデコーダ３００に出力し得る。

[0174] いくつかの例では、ツールセット指示シンタックス要素は、コード化パラメータの一部であるサンプルエントリ中のファイルを再生するために必要とされるツールを含むものと見なされ得る。ツールセット指示シンタックス要素を有効にするために、ＭＩＭＥタイプにおけるコード化パラメータのためのコーディング方式が利用され得る。

[0175] 図５は、本開示の１つまたは複数の技法による、ファイル５００の例示的な構造を示す概念図である。図５の例では、ファイル５００は、ムービーボックス５０２と、複数のメディアデータボックス５０４とを含む。図５の例では同じファイルの中にあるものとして示されるが、他の例では、ムービーボックス５０２およびメディアデータボックス５０４は別のファイルの中にあり得る。上記のように、ボックスは、一意のタイプ識別子および長さによって定義されるオブジェクト指向ビルディングブロックであり得る。たとえば、ボックスは、４文字のコーディングされたボックスタイプと、ボックスのバイトカウントと、ペイロードとを含む、ＩＳＯＢＭＦＦにおける基本的なシンタックス構造であり得る。

[0176] ムービーボックス５０２は、ファイル５００のトラックのためのメタデータを含み得る。ファイル５００の各トラックは、メディアデータの連続的なストリームを備え得る。メディアデータボックス５０４の各々は、１つまたは複数のサンプル５０５を含み得る。サンプル５０５の各々は、オーディオまたはビデオアクセスユニットを備え得る。各アクセスユニットは、マルチビューコーディングまたはスケーラブルビデオコーディングのための複数のコード化ピクチャを備え得る。たとえば、アクセスユニットは、各レイヤのための１つまたは複数のコード化ピクチャを含み得る。

[0177] さらに、図５の例では、ムービーボックス５０２はトラックボックス５０６を含む。トラックボックス５０６は、ファイル５００のトラックのためのメタデータを封入し得る。他の例では、ムービーボックス５０２は、ファイル５００の異なるトラックのために複数のトラックボックスを含み得る。トラックボックス５０６は、トラック参照ボックス５０８とメディアボックス５１０とを含む。トラック参照ボックス５０８は、トラック参照タイプボックス５０９を含み得る。トラック参照タイプボックス５０９は、タイプ（たとえば、「ｔｂａｓ」）と、別のトラックを識別するトラック識別子とに関連付けられ得る。本開示の第６の技法によれば、タイルトラックのトラック参照ボックスは、タイプ識別子「ｔｂａｓ」に関連付けられたトラック参照タイプボックスを含んでも含まなくてもよい。

[0178] メディアボックス５１０は、トラック内のメディアデータに関する情報を宣言するすべてのオブジェクトを含み得る。メディアボックス５１０は、メディア情報ボックス５１２を含む。メディア情報ボックス５１２は、トラックのメディアの特性情報を宣言するすべてのオブジェクトを含み得る。メディア情報ボックス５１２は、サンプルテーブルボックス５１４を含む。サンプルテーブルボックス５１４は、サンプル固有のメタデータを指定し得る。

[0179] 図５の例では、サンプルテーブルボックス５１４はサンプル記述ボックス５１６を含み、サンプル記述ボックス５１６は、サンプルエントリ５１８を含む。サンプルエントリ５１８は、上記で説明したように、ツールセット指示シンタックス要素を含み得る、ＥＶＣデコーダ構成５２０を含む。他の例では、サンプルテーブルボックス５１４は、サンプル記述ボックス５１６およびサンプルエントリ５１８に加えて、他のボックスを含み得る。図５には示されていないが、サンプルエントリ５１８は、デコーダ構成レコードを含み得る。上記でより詳細に説明したように、本開示は、サンプルエントリ５１８などのサンプルエントリ中に新しいタイプの重要な情報を含めるための技法について説明する。

[0180] 図６は、例示的なマルチメディアコンテンツ６２０の要素を示す概念図である。図６の例では、マルチメディアコンテンツ６２０は、ＭＰＤ６２２と、複数の表現６２４Ａ～６２４Ｎ（表現６２４）とを含む。表現６２４Ａは、任意のヘッダデータ６２６と、セグメント６２８Ａ～６２８Ｎ（セグメント６２８）とを含むが、表現６２４Ｎは、任意のヘッダデータ６３０と、セグメント６３２Ａ～６３２Ｎ（セグメント６３２）とを含む。文字Ｎは、便宜上、表現６２４の各々中の最後のムービーフラグメントを指定するために使用される。いくつかの例では、表現６２４間で異なる数のムービーフラグメントが存在し得る。

[0181] ＭＰＤ６２２は、表現６２４とは別のデータ構造を備え得る。概して、ＭＰＤ４２２は、コーディング特性およびレンダリング特性、適応セット、ＭＰＤ４２２が対応するプロファイル、テキストタイプ情報、カメラアングル情報、レーティング情報、トリックモード情報（たとえば、時間サブシーケンスを含む表現を示す情報）、および／または（たとえば、再生中のメディアコンテンツ中へのターゲット広告挿入のための）リモート期間を取り出すための情報などの、表現４２４の特性を全体的に記述するデータを含み得る。

[0182] ヘッダデータ６２６は、存在するとき、セグメント６２８の特性、たとえば、ランダムアクセスポイント（ＲＡＰ、ストリームアクセスポイント（ＳＡＰ）とも呼ばれる）の時間ロケーションを記述することができ、セグメント６２８のランダムアクセスポイントは、ランダムアクセスポイント、セグメント６２８内のランダムアクセスポイントへのバイトオフセット、セグメント６２８のユニフォームリソースロケータ（ＵＲＬ）、またはセグメント６２８の他の態様を含む。ヘッダデータ６３０は、存在するとき、セグメント６３２に関する同様の特性を記述し得る。追加または代替として、そのような特性は、ＭＰＤ６２２内に完全に含まれ得る。

[0183] セグメント６２８、６３２は、１つまたは複数のコード化ビデオサンプルを含み、コード化ビデオサンプルの各々は、ビデオデータのフレームまたはスライスを含み得る。セグメント６２８のコード化ビデオサンプルの各々は、同様の特性、たとえば、高さ、幅、および帯域幅の要件を有し得る。そのような特性はＭＰＤ６２２のデータによって記述され得るが、そのようなデータは図６の例に示されていない。ＭＰＤ６２２は、本開示で説明されるシグナリングされた情報のいずれかまたはすべてに加えて、３ＧＰＰ（登録商標）仕様によって説明される特性を含み得る。

[0184] セグメント６２８、６３２の各々は、一意のユニフォームリソースロケータ（ＵＲＬ）に関連付けられ得る。したがって、セグメント６２８、６３２の各々は、ＤＡＳＨなどのストリーミングネットワークプロトコルを使用して独立して取出し可能であり得る。このようにして、宛先デバイスは、セグメント６２８または６３２を取り出すためにＨＴＴＰＧＥＴ要求を使用し得る。いくつかの例では、宛先デバイスは、セグメント６２８または６３２の特定のバイト範囲を取り出すためにＨＴＴＰ部分ＧＥＴ要求を使用し得る。

[0185] 図７は、例示的なビデオファイル７５０の要素を示すブロック図である。ビデオファイル７５０は、セグメントをカプセル化すると言われることがある。上記で説明したように、ＩＳＯベースメディアファイルフォーマットおよびその拡張によるビデオファイルは、データを「ボックス」と呼ばれる一連のオブジェクトに記憶する。図７の例では、ビデオファイル７５０は、ファイルタイプ（ＦＴＹＰ）ボックス７５２と、ムービー（ＭＯＯＶ）ボックス７５４と、セグメントインデックス（ｓｉｄｘ）ボックス７６２と、ムービーフラグメント（ＭＯＯＦ）ボックス７６４と、ムービーフラグメントランダムアクセス（ＭＦＲＡ）ボックス７６６とを含む。図７はビデオファイルの一例を表しているが、他のメディアファイルは、ＩＳＯベースメディアファイルフォーマットおよびその拡張に従って、ビデオファイル７５０のデータと同様に構造化された他のタイプのメディアデータ（たとえば、オーディオデータ、タイムドテキストデータなど）を含み得ることを理解されたい。

[0186] ＦＴＹＰボックス７５２は、概して、ビデオファイル７５０のためのファイルタイプを記述する。ファイルタイプボックス７５２は、ビデオファイル７５０の最良の使用法を記述する仕様を識別するデータを含み得る。ファイルタイプボックス７５２は、代替的に、ＭＯＯＶボックス７５４、ムービーフラグメントボックス７６４、および／またはＭＦＲＡボックス７６６の前に配置され得る。

[0187] いくつかの例では、ビデオファイル７５０などのセグメントは、ＦＴＹＰボックス７５２の前にＭＰＤ更新ボックス（図示せず）を含み得る。ＭＰＤ更新ボックスは、ＭＰＤを更新するための情報とともに、ビデオファイル７５０を含む表現に対応するＭＰＤが更新されるべきであることを示す情報を含み得る。たとえば、ＭＰＤ更新ボックスは、ＭＰＤを更新するために使用されるリソースのためのＵＲＩまたはＵＲＬを提供し得る。別の例として、ＭＰＤ更新ボックスは、ＭＰＤを更新するためのデータを含み得る。いくつかの例では、ＭＰＤ更新ボックスは、ビデオファイル７５０のセグメントタイプ（ＳＴＹＰ）ボックス（図示せず）の直後にくることができ、ここにおいて、ＳＴＹＰボックスは、ビデオファイル７５０のセグメントタイプを定義し得る。

[0188] ＭＯＯＶボックス７５４は、図７の例では、ムービーヘッダ（ＭＶＨＤ）ボックス７５６と、トラック（ＴＲＡＫ）ボックス７５８と、１つまたは複数のムービー拡張（ＭＶＥＸ）ボックス７６０とを含む。概して、ＭＶＨＤボックス７５６は、ビデオファイル７５０の一般的特性を記述し得る。たとえば、ＭＶＨＤボックス７５６は、ビデオファイル７５０が最初に生成されたとき、ビデオファイル７５０が最後に変更されたときを記述するデータ、ビデオファイル７５０の時間軸、ビデオファイル７５０の再生の持続時間、またはビデオファイル７５０を一般に記述する他のデータを含み得る。

[0189] ＴＲＡＫボックス７５８は、ビデオファイル７５０のトラックについてのデータを含み得る。ＴＲＡＫボックス７５８は、ＴＲＡＫボックス７５８に対応するトラックの特性を記述するトラックヘッダ（ＴＫＨＤ）ボックスを含み得る。いくつかの例では、ＴＲＡＫボックス７５８はコード化ビデオピクチャを含み得るが、他の例では、トラックのコード化ビデオピクチャは、ＴＲＡＫボックス７５８および／またはｓｉｄｘボックス７６２のデータによって参照され得るムービーフラグメント７６４中に含まれ得る。

[0190] いくつかの例では、ビデオファイル７５０は、２つ以上のトラックを含み得る。したがって、ＭＯＯＶボックス７５４は、ビデオファイル７５０中のトラックの数に等しいいくつかのＴＲＡＫボックスを含み得る。ＴＲＡＫボックス７５８は、ビデオファイル７５０の対応するトラックの特性を記述し得る。たとえば、ＴＲＡＫボックス７５８は、対応するトラックについての時間および／または空間情報を記述し得る。パラメータセットトラックがビデオファイル７５０などのビデオファイル中に含まれるとき、ＭＯＯＶボックス７５４のＴＲＡＫボックス７５８と同様のＴＲＡＫボックスは、パラメータセットトラックの特性を記述し得る。シーケンスレベルＳＥＩメッセージの存在は、パラメータセットトラックを記述するＴＲＡＫボックス内のパラメータセットトラックにおいてシグナリングされ得る。

[0191] ＭＶＥＸボックス７６０は、たとえば、もしあれば、ＭＯＯＶボックス７５４内に含まれるビデオデータに加えて、ビデオファイル７５０がムービーフラグメント７６４を含むことをシグナリングするように、対応するムービーフラグメント７６４の特性を記述し得る。ビデオデータをストリーミングするコンテキストでは、コード化ビデオピクチャは、ＭＯＯＶボックス７５４ではなくムービーフラグメント７６４中に含まれ得る。したがって、すべてのコード化ビデオサンプルは、ＭＯＯＶボックス７５４ではなくムービーフラグメント７６４中に含まれ得る。

[0192] ＭＯＯＶボックス７５４は、ビデオファイル７５０中のムービーフラグメント７６４の数に等しいいくつかのＭＶＥＸボックス７６０を含み得る。ＭＶＥＸボックス７６０の各々は、ムービーフラグメント７６４のうちの対応する１つの特性を記述し得る。たとえば、各ＭＶＥＸボックスは、ムービーフラグメント７６４のうちの対応する１つについての持続時間を記述するムービー拡張ヘッダボックス（ＭＥＨＤ）ボックスを含み得る。

[0193] シーケンスデータセットは、実際のコード化ビデオデータを含まないビデオサンプルに記憶され得る。ビデオサンプルは、概して、特定の時間インスタンスにおけるコード化ピクチャの表現である、アクセスユニットに対応し得る。ＡＶＣのコンテキストでは、コード化ピクチャは、アクセスユニットのすべてのピクセルを構成するための情報を含んでいる１つまたは複数のＶＣＬＮＡＬユニットと、ＳＥＩメッセージなどの他の関連する非ＶＣＬＮＡＬユニットとを含む。したがって、シーケンスレベルＳＥＩメッセージを含み得るシーケンスデータセットは、ムービーフラグメント７６４のうちの１つに含まれ得る。シーケンスデータセットおよび／またはシーケンスレベルＳＥＩメッセージの存在は、ムービーフラグメント７６４のうちの１つに対応するＭＶＥＸボックス７６０のうちの１つ内のムービーフラグメント７６４のうちの１つ中に存在するものとしてシグナリングされ得る。

[0194] ＳＩＤＸボックス７６２は、ビデオファイル７５０の任意の要素である。すなわち、３ＧＰＰファイルフォーマット、または他のそのようなファイルフォーマットに準拠するビデオファイルは、必ずしもＳＩＤＸボックス７６２を含むとは限らない。３ＧＰＰファイルフォーマットの例によれば、ＳＩＤＸボックスは、セグメント（たとえば、ビデオファイル７５０内に含まれるセグメント）のサブセグメントを識別するために使用され得る。３ＧＰＰファイルフォーマットは、サブセグメントを、「対応するメディアデータボックスと、ムービーフラグメントボックスによって参照されるデータを含むメディアデータボックスとをもつ、１つまたは複数の連続するムービーフラグメントボックスの自己完結型セットは、そのムービーフラグメントボックスに続き、同じトラックに関する情報を含む次のムービーフラグメントボックスに先行しなければならない」と定義する。３ＧＰＰファイルフォーマットはまた、ＳＩＤＸボックスが、「ボックスによって文書化される（サブ）セグメントのサブセグメントへの参照のシーケンスを含む。参照されたサブセグメントは、プレゼンテーション時間において連続する。同様に、セグメントインデックスボックスによって参照されるバイトは、常にセグメント内で連続する。参照されたサイズは、参照された材料中のバイト数のカウントを与える」ことを示している。

[0195] ＳＩＤＸボックス７６２は、概して、ビデオファイル７５０中に含まれるセグメントの１つまたは複数のサブセグメントを表す情報を提供する。たとえば、そのような情報は、サブセグメントが開始および／または終了する再生時間、サブセグメントのバイトオフセット、サブセグメントがストリームアクセスポイント（ＳＡＰ）を含む（たとえば、それで開始する）かどうか、ＳＡＰのタイプ（たとえば、ＳＡＰが瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャであるか、クリーンランダムアクセス（ＣＲＡ）ピクチャであるか、切断リンクアクセス（ＢＬＡ）ピクチャであるかどうかなど）、サブセグメント中の（再生時間および／またはバイトオフセットに関する）ＳＡＰの位置などを含み得る。

[0196] ムービーフラグメント７６４は、１つまたは複数のコード化ビデオピクチャを含み得る。いくつかの例では、ムービーフラグメント７６４は、１つまたは複数のピクチャグループ（ＧＯＰ）を含み得、ＧＯＰの各々は、いくつかのコード化ビデオピクチャ、たとえばフレームまたはピクチャを含み得る。さらに、上記で説明したように、ムービーフラグメント７６４は、いくつかの例では、シーケンスデータセットを含み得る。ムービーフラグメント７６４の各々は、ムービーフラグメントヘッダボックス（ＭＦＨＤ、図７に図示せず）を含み得る。ＭＦＨＤボックスは、ムービーフラグメントのシーケンス番号などの、対応するムービーフラグメントの特性を記述し得る。ムービーフラグメント７６４は、ビデオファイル７５０中のシーケンス番号の順に含まれ得る。

[0197] ＭＦＲＡボックス７６６は、ビデオファイル７５０のムービーフラグメント７６４内のランダムアクセスポイントを記述し得る。これは、ビデオファイル７５０によってカプセル化されたセグメント内の特定の時間ロケーション（すなわち、再生時間）へのシークを実施することなどの、トリックモードを実施するのを支援し得る。ＭＦＲＡボックス７６６は、概して随意であり、いくつかの例では、ビデオファイル中に含まれる必要がない。同様に、クライアントデバイスは、ビデオファイル７５０のビデオデータを正しく復号し表示するために、必ずしもＭＦＲＡボックス７６６を参照する必要がない。ＭＦＲＡボックス７６６は、ビデオファイル７５０のトラックの数に等しいか、またはいくつかの例では、ビデオファイル７５０のメディアトラック（たとえば、非ヒントトラック）の数に等しい、いくつかのトラックフラグメントランダムアクセス（ＴＦＲＡ）ボックス（図示せず）を含み得る。

[0198] いくつかの例では、ムービーフラグメント７６４は、ＩＤＲピクチャなど、１つまたは複数のストリームアクセスポイント（ＳＡＰ）を含み得る。同様に、ＭＦＲＡボックス７６６は、ＳＡＰのビデオファイル７５０内のロケーションの指示を与え得る。したがって、ビデオファイル７５０のＳＡＰからビデオファイル７５０の時間サブシーケンスが形成され得る。時間サブシーケンスはまた、ＳＡＰに従属するＰフレームおよび／またはＢフレームなどの、他のピクチャを含み得る。時間サブシーケンスのフレームおよび／またはスライスは、サブシーケンスの他のフレーム／スライスに依存する時間サブシーケンスのフレーム／スライスが適切に復号され得るように、セグメント内に構成され得る。たとえば、データの階層構成において、他のデータの予測のために使用されるデータも時間サブシーケンス中に含まれ得る。

[0199] ビデオファイル７５０は、この例では、サンプル記述ボックス７６８も含んでいる。特に、サンプル記述ボックス７６８は、この例では、ＴＲＡＫボックス７５８内に含まれる。図７の例では、サンプル記述ボックス７６８は、コーデックに従って符号化されたビデオデータを含まない。

[0200] 例示的なサンプル記述ボックス７６８は、次のように定義され得る。すなわち、
サンプルエントリおよびボックスタイプ：「ｈｖｃ２」、「ｈｅｖ２」、「ｌｈｖ１」、「ｌｈｅ１」、「ｌｈｖＣ」
・コンテナ：サンプル記述ボックス（「ｓｔｓｄ」）
・必須：「ｈｖｃ１」、「ｈｅｖ１」、「ｈｖｃ２」、「ｈｅｖ２」、「ｌｈｖ１」、または「ｌｈｅ１」サンプルエントリは必須である。
・量：１つまたは複数のサンプルエントリが存在し得る。

[0201] サンプル記述ボックス７６８に関するこの例示的な定義では、サンプルエントリ名が「ｌｈｖ１」であるとき、ａｒｒａｙ＿ｃｏｍｐｌｅｔｅｎｅｓｓのデフォルトおよび必須値は、すべてのタイプのパラメータセットのアレイについて４であり、すべての他のアレイについて０である。サンプルエントリ名が「ｌｈｅ１」であるとき、ａｒｒａｙ＿ｃｏｍｐｌｅｔｅｎｅｓｓのデフォルト値は、すべてのアレイについて０である。

[0202] 図８は、本開示の技法による、ビデオデータを処理するための例示的な方法を示すフローチャートである。図１の宛先デバイス１１６に関して説明されるが、他のデバイスが、図８の方法と同様の方法を実行するように構成され得ることを理解されたい。

[0203] 宛先デバイス１１６は、ビデオデータのビットストリームを復号するための構成レコードを受信するように構成され得る（８００）。ビットストリームのための構成レコードは、ビデオ復号ツールのセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含み得る。構成レコード内のツールセット指示シンタックス要素に基づいて、宛先デバイス１１６は、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定し得る（８０２）。宛先デバイス１１６は、次いで、ビットストリームを取り出し得る（８０４）。宛先デバイス１１６は、復号のためにビデオデコーダにビットストリームを出力し得る（８０６）。宛先デバイス１１６は、追加または代替として、キー値ペアを含むＭＩＭＥタイプパラメータを受信し得、ここにおいて、キーは、ＭＩＭＥタイプがビデオ復号ツールを識別することを示し、値は、ビデオ復号ツールから、ビットストリームを復号するために必要とされるツールを識別する。ビデオデータのビットストリームは、１つまたは複数のパラメータセットを含み得、ビットストリームを復号するために必要とされる構成レコードにおいて識別されたツールの各々は、１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされ得る。

[0204] ツールセット指示シンタックス要素は、ファイルフォーマット情報の構成ボックス中でシグナリングされる。構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素は、構成レコードに関連付けられたビットストリームを復号するために必要とされるすべてのツールを識別し得る。ツールセット指示シンタックス要素は、符号なし３２ビット整数値であり得、符号なし３２ビット整数値の各ビットは、ビットストリームを復号するための一意のツールに対応する。

[0205] 構成レコードは、エッセンシャルＥＶＣ規格に従ってフォーマットされ得る。ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の前に、プロファイルシンタックス要素および／またはレベルシンタックス要素を含み得る。ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の後にクロマフォーマットシンタックス要素を含み得る。

[0206] 上記例に応じて、本明細書で説明された技法のいずれかのいくつかの行為またはイベントは、異なるシーケンスで実施され得、追加、マージ、または完全に除外され得る（たとえば、すべての説明された行為またはイベントが本技法の実践のために必要であるとは限らない）ことを認識されたい。その上、いくつかの例では、行為またはイベントは、連続的にではなく、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通して同時に実施され得る。

[0207] 以下の条項は、上記で説明したシステムおよび技法の例示的な実装形態を表す。

[0208] 条項１．ビデオストリームまたはビデオファイルを処理する方法であって、方法は、ビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、ビットストリームのための構成レコードは、ビデオ復号ツールのセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定することと、構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、ビットストリームを取り出し、復号のためにビットストリームをビデオデコーダに出力することとを備える、方法。

[0209] 条項２．キー値ペアを含む多目的インターネットメール拡張（ＭＩＭＥ）タイプパラメータを受信することをさらに備え、ここにおいて、キーは、ＭＩＭＥタイプがビデオ復号ツールを識別することを示し、値は、ビデオ復号ツールから、ビットストリームを復号するために必要とされるツールを識別する、条項１に記載の方法。

[0210] 条項３．ビデオデータのビットストリームは、１つまたは複数のパラメータセットを備え、ビットストリームを復号するために必要とされる構成レコードにおいて識別されたツールの各々は、１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、条項１または２に記載の方法。

[0211] 条項４．構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素は、構成レコードに関連付けられたビットストリームを復号するために必要とされるすべてのツールを識別する、条項１から３のいずれかに記載の方法。

[0212] 条項５．構成レコードは、エッセンシャルビデオコーディング（ＥＶＣ）規格に従ってフォーマットされる、条項１から４のいずれかに記載の方法。

[0213] 条項６．ツールセット指示シンタックス要素は、ファイルフォーマット情報の構成ボックス中でシグナリングされる、条項１から５のいずれかに記載の方法。

[0214] 条項７．ツールセット指示シンタックス要素は、符号なし３２ビット整数値を備える、条項１から６のいずれかに記載の方法。

[0215] 条項８．符号なし３２ビット整数値のビット（bit）は各々、ビットストリームを復号するための一意のツールに対応する、条項７に記載の方法。

[0216] 条項９．ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の前にプロファイルシンタックス要素を含む、条項１から８のいずれかに記載の方法。

[0217] 条項１０．ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の前にレベルシンタックス要素を含む、条項１から９のいずれかに記載の方法。

[0218] 条項１１．ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の後にクロマフォーマットシンタックス要素を含む、条項１から１０のいずれかに記載の方法。

[0219] 条項１２．構成レコードは、ビデオデータのビットストリーム中のビデオコーディングレイヤ（ＶＣＬ）レベル符号化メディアデータをカプセル化するファイルフォーマットレベルデータを備え、ここにおいて、ＶＣＬレベル符号化メディアデータは、１つまたは複数のパラメータセットを含み、ビットストリームを復号するために必要とされる構成レコードにおいて識別されたツールの各々は、１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、条項１から１１のいずれかに記載の方法。

[0220] 条項１３．ビデオデータを処理するためのデバイスであって、デバイスは、メモリと、回路内に実装され、メモリに結合され、ビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、ビットストリームのための構成レコードは、ビデオ復号ツールのセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定することと、構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、ビットストリームを取り出し、復号のためにビットストリームをビデオデコーダに出力することとを行うように構成された、１つまたは複数のプロセッサとを備える、デバイス。

[0221] 条項１４．１つまたは複数のプロセッサは、キー値ペアを含む多目的インターネットメール拡張（ＭＩＭＥ）タイプパラメータを受信するようにさらに構成され、ここにおいて、キーは、ＭＩＭＥタイプがビデオ復号ツールを識別することを示し、値は、ビデオ復号ツールから、ビットストリームを復号するために必要とされるツールを識別する、条項１３に記載のデバイス。

[0222] 条項１５．ビデオデータのビットストリームは、１つまたは複数のパラメータセットを備え、ビットストリームを復号するために必要とされる構成レコードにおいて識別されたツールの各々は、１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、条項１３または１４に記載のデバイス。

[0223] 条項１６．構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素は、構成レコードに関連付けられたビットストリームを復号するために必要とされるすべてのツールを識別する、条項１３から１５のいずれかに記載のデバイス。

[0224] 条項１７．構成レコードは、エッセンシャルビデオコーディング（ＥＶＣ）規格に従ってフォーマットされる、条項１３から１６のいずれかに記載のデバイス。

[0225] 条項１８．ツールセット指示シンタックス要素は、ファイルフォーマット情報の構成ボックス中でシグナリングされる、条項１３から１７のいずれかに記載のデバイス。

[0226] 条項１９．ツールセット指示シンタックス要素は、符号なし３２ビット整数値を備える、条項１３から１５のいずれかに記載のデバイス。

[0227] 条項２０．符号なし３２ビット整数値のビットは各々、ビットストリームを復号するための一意のツールに対応する、条項１９に記載のデバイス。

[0228] 条項２１．ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の前にプロファイルシンタックス要素を含む、条項１３から２０のいずれかに記載のデバイス。

[0229] 条項２２．ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の前にレベルシンタックス要素を含む、条項１３から２１のいずれかに記載のデバイス。

[0230] 条項２３．ビットストリームのための構成レコードは、ツールセット指示シンタックス要素の後にクロマフォーマットシンタックス要素を含む、条項１３から２２のいずれかに記載のデバイス。

[0231] 条項２４．構成レコードは、ビデオデータのビットストリーム中のビデオコーディングレイヤ（ＶＣＬ）レベル符号化メディアデータをカプセル化するファイルフォーマットレベルデータを備え、ここにおいて、ＶＣＬレベル符号化メディアデータは、１つまたは複数のパラメータセットを含み、ビットストリームを復号するために必要とされる構成レコードにおいて識別されたツールの各々は、１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、条項１３から２３のいずれかに記載のデバイス。

[0232] 条項２５．命令を記憶するコンピュータ可読記憶媒体であって、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、ビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、ビットストリームのための構成レコードは、ビデオ復号ツールのセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定することと、構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、ビットストリームを取り出し、復号のためにビットストリームをビデオデコーダに出力することとを行わせる、コンピュータ可読記憶媒体。

[0233] 条項２６．命令は、１つまたは複数のプロセッサに、キー値ペアを含む多目的インターネットメール拡張（ＭＩＭＥ）タイプパラメータを受信させ、ここにおいて、キーは、ＭＩＭＥタイプがビデオ復号ツールを識別することを示し、値は、ビデオ復号ツールから、ビットストリームを復号するために必要とされるツールを識別する、条項２５に記載のコンピュータ可読記憶媒体。

[0234] 条項２７．ビデオデータのビットストリームは、１つまたは複数のパラメータセットを備え、ビットストリームを復号するために必要とされる構成レコードにおいて識別されたツールの各々は、１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、条項２５または２６に記載のコンピュータ可読記憶媒体。

[0235] 条項２８．構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素は、構成レコードに関連付けられたビットストリームを復号するために必要とされるすべてのツールを識別する、条項２５から２７のいずれかに記載のコンピュータ可読記憶媒体。

[0236] 条項２９．構成レコードは、ビデオデータのビットストリーム中のビデオコーディングレイヤ（ＶＣＬ）レベル符号化メディアデータをカプセル化するファイルフォーマットレベルデータを備え、ここにおいて、ＶＣＬレベル符号化メディアデータは、１つまたは複数のパラメータセットを含み、ビットストリームを復号するために必要とされる構成レコードにおいて識別されたツールの各々は、１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、条項２５から２８のいずれかに記載のコンピュータ可読記憶媒体。

[0237] 条項３０．ビデオストリームまたはビデオファイルを処理するための装置であって、ビデオデータのビットストリームを復号するための構成レコードを受信するための手段と、ここにおいて、ビットストリームのための構成レコードは、ビデオ復号ツールのセットから、構成レコードに関連付けられたビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定するための手段と、構成レコードに関連付けられたビットストリームを取り出す決定に基づいてビットストリームを取り出すための手段と、復号のためにビットストリームをビデオデコーダに出力するための手段とを備える、装置。

[0238] 条項３１．ビデオデータを処理する方法であって、エッセンシャルビデオコーディング（ＥＶＣ）規格に従ってビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、ビットストリームのための構成レコードは、構成レコードに関連付けられたビットストリームを復号するために必要とされるすべてのツールの情報を含むツールセット指示シンタックス要素を含む、ツールセット指示シンタックス要素に基づいて、構成レコードに関連付けられたビットストリームを取り出すべきかどうかを決定するステップと、構成レコードに関連付けられたビットストリームを取り出す決定に基づいて、ビットストリームを取り出し、復号のためにビットストリームをビデオデコーダに出力することとを備える、方法。

[0239] 条項３２．ビデオデータを処理する方法であって、エッセンシャルビデオコーディング（ＥＶＣ）規格に従ってビデオエンコーダによって生成されたビデオデータのビットストリームのための構成レコードを決定することと、ここにおいて、ビットストリームのための構成レコードは、ビットストリームを復号するための情報を含み、構成レコードは、構成レコードに関連付けられたビットストリームを復号するために必要とされるすべてのツールの情報を含むツールセット指示シンタックス要素を含む、構成レコードをシグナリングすることとを備える、方法。

[0240] 条項３３．ツールセット指示シンタックス要素は、ファイルフォーマット情報の構成ボックス中でシグナリングされる、条項３１または３２に記載の方法。

[0241] 条項３４．ビデオデータを処理するためのデバイスであって、条項１から３のいずれか１つまたは組合せに記載された方法を実行するように構成された処理回路を備える、デバイス。

[0242] 条項３５．ビデオデータを記憶するためのメモリをさらに備える、条項３４に記載のデバイス。

[0243] 条項３６．復号ビデオデータを表示するように構成されたディスプレイをさらに備える、条項３４および３５のいずれかに記載のデバイス。

[0244] 条項３７．デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの１つまたは複数を備える、条項３４から３６のいずれかに記載のデバイス。

[0245] 条項３８．実行されたとき、１つまたは複数のプロセッサに、条項３１から３３のいずれかに記載の方法を実行させる命令を記憶したコンピュータ可読記憶媒体。

[0246] 条項３９．ビデオデータを処理するためのデバイスであって、条項３１から３３のいずれかに記載の方法を実行するための手段を備えるデバイス。

[0247] １つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体、または、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、（１）非一時的である有形コンピュータ可読記憶媒体、あるいは（２）信号または搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明された技法の実装のための命令、コードおよび／またはデータ構造を取り出すために、１つまたは複数のコンピュータまたは１つまたは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。

[0248] 限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ－ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気ストレージデバイス、フラッシュメモリ、あるいは、命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は媒体の定義に含まれる。ただし、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、代わりに非一時的有形記憶媒体を対象とすることを理解されたい。本明細書で使用されるディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ－ｒａｙディスク（disc）を含み、ここで、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0249] 命令は、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは他の等価な集積またはディスクリート論理回路など、１つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」および「処理回路」という用語は、上記の構造、または本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。さらに、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成された専用ハードウェアおよび／またはソフトウェアモジュール内に提供されるか、あるいは複合コーデックに組み込まれ得る。また、本技法は、１つまたは複数の回路または論理要素において十分に実装され得る。

[0250] 本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置において実装され得る。本開示では、開示される技法を実施するように構成されたデバイスの機能的態様を強調するために、様々な構成要素、モジュール、またはユニットが説明されたが、それらの構成要素、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記で説明された１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作可能なハードウェアユニットの集合によって提供され得る。

[0251] 様々な例が説明された。これらおよび他の例は以下の特許請求の範囲内に入る。

Claims

ビデオストリームまたはビデオファイルを処理する方法であって、
ビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、前記ビットストリームのための前記構成レコードは、ビデオ復号ツールのセットから、前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、
前記ツールセット指示シンタックス要素に基づいて、前記構成レコードに関連付けられた前記ビットストリームを取り出すべきかどうかを決定することと、
前記構成レコードに関連付けられた前記ビットストリームを取り出す前記決定に基づいて、前記ビットストリームを取り出し、復号のために前記ビットストリームをビデオデコーダに出力することと
を備える、方法。
キー値ペアを含む多目的インターネットメール拡張（ＭＩＭＥ）タイプパラメータを受信すること
をさらに備え、
ここにおいて、前記キーは、前記ＭＩＭＥタイプが前記ビデオ復号ツールを識別することを示し、前記値は、前記ビデオ復号ツールから、前記ビットストリームを復号するために必要とされる前記ツールを識別する、請求項１に記載の方法。
ビデオデータの前記ビットストリームは、１つまたは複数のパラメータセットを備え、前記ビットストリームを復号するために必要とされる前記構成レコードにおいて識別された前記ツールの各々は、前記１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、請求項１に記載の方法。
前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされる前記ツールを識別する情報を含む前記ツールセット指示シンタックス要素は、前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされるすべてのツールを識別する、請求項１に記載の方法。
前記構成レコードは、エッセンシャルビデオコーディング（ＥＶＣ）規格に従ってフォーマットされる、請求項１に記載の方法。
前記ツールセット指示シンタックス要素は、ファイルフォーマット情報の構成ボックス中でシグナリングされる、請求項１に記載の方法。
前記ツールセット指示シンタックス要素は、符号なし３２ビット整数値を備える、請求項１に記載の方法。
前記符号なし３２ビット整数値のビットは各々、前記ビットストリームを復号するための一意のツールに対応する、請求項７に記載の方法。
前記ビットストリームのための前記構成レコードは、前記ツールセット指示シンタックス要素の前にプロファイルシンタックス要素を含む、請求項１に記載の方法。
前記ビットストリームのための前記構成レコードは、前記ツールセット指示シンタックス要素の前にレベルシンタックス要素を含む、請求項１に記載の方法。
前記ビットストリームのための前記構成レコードは、前記ツールセット指示シンタックス要素の後にクロマフォーマットシンタックス要素を含む、請求項１に記載の方法。
前記構成レコードは、前記ビデオデータの前記ビットストリーム中のビデオコーディングレイヤ（ＶＣＬ）レベル符号化メディアデータをカプセル化するファイルフォーマットレベルデータを備え、ここにおいて、前記ＶＣＬレベル符号化メディアデータは、１つまたは複数のパラメータセットを含み、前記ビットストリームを復号するために必要とされる前記構成レコードにおいて識別された前記ツールの各々は、前記１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、請求項１に記載の方法。
ビデオデータを処理するためのデバイスであって、
メモリと、
回路内に実装され、前記メモリに結合され、
ビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、前記ビットストリームのための前記構成レコードは、ビデオ復号ツールのセットから、前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、
前記ツールセット指示シンタックス要素に基づいて、前記構成レコードに関連付けられた前記ビットストリームを取り出すべきかどうかを決定することと、
前記構成レコードに関連付けられた前記ビットストリームを取り出す前記決定に基づいて、前記ビットストリームを取り出し、復号のために前記ビットストリームをビデオデコーダに出力することと
を行うように構成された、１つまたは複数のプロセッサと
を備える、デバイス。
前記１つまたは複数のプロセッサは、
キー値ペアを含む多目的インターネットメール拡張（ＭＩＭＥ）タイプパラメータを受信する
ようにさらに構成され、
ここにおいて、前記キーは、前記ＭＩＭＥタイプが前記ビデオ復号ツールを識別することを示し、前記値は、前記ビデオ復号ツールから、前記ビットストリームを復号するために必要とされる前記ツールを識別する、請求項１３に記載のデバイス。
ビデオデータの前記ビットストリームは、１つまたは複数のパラメータセットを備え、前記ビットストリームを復号するために必要とされる前記構成レコードにおいて識別された前記ツールの各々は、前記１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、請求項１３に記載のデバイス。
前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされる前記ツールを識別する情報を含む前記ツールセット指示シンタックス要素は、前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされるすべてのツールを識別する、請求項１３に記載のデバイス。
前記構成レコードは、エッセンシャルビデオコーディング（ＥＶＣ）規格に従ってフォーマットされる、請求項１３に記載のデバイス。
前記ツールセット指示シンタックス要素は、ファイルフォーマット情報の構成ボックス中でシグナリングされる、請求項１３に記載のデバイス。
前記ツールセット指示シンタックス要素は、符号なし３２ビット整数値を備える、請求項１３に記載のデバイス。
前記符号なし３２ビット整数値のビットは各々、前記ビットストリームを復号するための一意のツールに対応する、請求項１９に記載のデバイス。
前記ビットストリームのための前記構成レコードは、前記ツールセット指示シンタックス要素の前にプロファイルシンタックス要素を含む、請求項１３に記載のデバイス。
前記ビットストリームのための前記構成レコードは、前記ツールセット指示シンタックス要素の前にレベルシンタックス要素を含む、請求項１３に記載のデバイス。
前記ビットストリームのための前記構成レコードは、前記ツールセット指示シンタックス要素の後にクロマフォーマットシンタックス要素を含む、請求項１３に記載のデバイス。
前記構成レコードは、前記ビデオデータの前記ビットストリーム中のビデオコーディングレイヤ（ＶＣＬ）レベル符号化メディアデータをカプセル化するファイルフォーマットレベルデータを備え、ここにおいて、前記ＶＣＬレベル符号化メディアデータは、１つまたは複数のパラメータセットを含み、前記ビットストリームを復号するために必要とされる前記構成レコードにおいて識別された前記ツールの各々は、前記１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、請求項１３に記載のデバイス。
命令を記憶するコンピュータ可読記憶媒体であって、前記命令は、１つまたは複数のプロセッサによって実行されるとき、前記１つまたは複数のプロセッサに、
ビデオデータのビットストリームを復号するための構成レコードを受信することと、ここにおいて、前記ビットストリームのための前記構成レコードは、ビデオ復号ツールのセットから、前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、
前記ツールセット指示シンタックス要素に基づいて、前記構成レコードに関連付けられた前記ビットストリームを取り出すべきかどうかを決定することと、
前記構成レコードに関連付けられた前記ビットストリームを取り出す前記決定に基づいて、前記ビットストリームを取り出し、復号のために前記ビットストリームをビデオデコーダに出力することと
を行わせる、コンピュータ可読記憶媒体。
前記命令は、前記１つまたは複数のプロセッサに、
キー値ペアを含む多目的インターネットメール拡張（ＭＩＭＥ）タイプパラメータを受信させ、ここにおいて、前記キーは、前記ＭＩＭＥタイプが前記ビデオ復号ツールを識別することを示し、前記値は、前記ビデオ復号ツールから、前記ビットストリームを復号するために必要とされる前記ツールを識別する、
請求項２５に記載のコンピュータ可読記憶媒体。
ビデオデータの前記ビットストリームは、１つまたは複数のパラメータセットを備え、前記ビットストリームを復号するために必要とされる前記構成レコードにおいて識別された前記ツールの各々は、前記１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、請求項２５に記載のコンピュータ可読記憶媒体。
前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされる前記ツールを識別する情報を含む前記ツールセット指示シンタックス要素は、前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされるすべてのツールを識別する、請求項２５に記載のコンピュータ可読記憶媒体。
前記構成レコードは、前記ビデオデータの前記ビットストリーム中のビデオコーディングレイヤ（ＶＣＬ）レベル符号化メディアデータをカプセル化するファイルフォーマットレベルデータを備え、ここにおいて、前記ＶＣＬレベル符号化メディアデータは、１つまたは複数のパラメータセットを含み、前記ビットストリームを復号するために必要とされる前記構成レコードにおいて識別された前記ツールの各々は、前記１つまたは複数のパラメータセットのうちの少なくとも１つにおいて有効にされる、請求項２５に記載のコンピュータ可読記憶媒体。
ビデオストリームまたはビデオファイルを処理するための装置であって、前記装置は、
ビデオデータのビットストリームを復号するための構成レコードを受信するための手段と、ここにおいて、前記ビットストリームのための前記構成レコードは、ビデオ復号ツールのセットから、前記構成レコードに関連付けられた前記ビットストリームを復号するために必要とされるツールを識別する情報を含むツールセット指示シンタックス要素を含む、
前記ツールセット指示シンタックス要素に基づいて、前記構成レコードに関連付けられた前記ビットストリームを取り出すべきかどうかを決定するための手段と、
前記構成レコードに関連付けられた前記ビットストリームを取り出す前記決定に基づいて前記ビットストリームを取り出すための手段と、
復号のために前記ビットストリームをビデオデコーダに出力するための手段と
を備える、装置。