JP2024509606A

JP2024509606A - 単一参照動きベクトル差分のための適応解像度

Info

Publication number: JP2024509606A
Application number: JP2023555700A
Authority: JP
Inventors: ジャオ，リアン; ジャオ，シン; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-11-23
Filing date: 2022-05-31
Publication date: 2024-03-04
Also published as: WO2023096668A1; KR20230136169A

Abstract

本開示は、ビデオ符号化および復号における動きベクトル差分のための適応解像度のシグナリングに関する。ビデオストリームの１つまたは複数のビデオブロックを復号する例示的な方法が開示される。本方法は、ビデオストリームを受信するステップと、１つまたは複数のビデオブロックについてＡＤＡＰＴＭＶモードがシグナリングされるかどうかを決定するために、ビデオストリームからインター予測シンタックス要素を抽出するステップであって、ＡＤＡＰＴＭＶモードは、適応動きベクトル差分（ＭＶＤ）ピクセル解像度を有する単一参照インター予測モードである、ステップと、ＡＤＡＰＴＭＶモードがインター予測シンタックス要素中でシグナリングされるかどうかに基づいて、１つまたは複数のビデオブロックに関連付けられた現在のＭＶＤピクセル解像度を決定するステップと、ＡＤＡＰＴＭＶモードがインター予測シンタックス要素中でシグナリングされるかどうかと、現在のＭＶＤピクセル解像度とに基づいて、１つまたは複数のビデオブロックに関連付けられた１つまたは複数のＭＶＤ関連シンタックス要素を抽出および復号するステップとを含み得る。

Description

［参照による援用］
本出願は、２０２２年５月２５日に出願された「Adaptive Resolution for Single-Reference Motion Vector Difference」と題する米国非仮特許出願第１７／８２４，２４８号に基づき、それらに対する優先権の利益を主張するものであり、この米国非仮特許出願は、２０２１年１１月２３日に出願された「Adaptive MVD for Single Reference」と題する米国仮特許出願第６３／２８２，５４９号に基づき、それらに対する優先権の利益を主張するものである。これらは、参照により全体が本明細書に組み込まれる。

［技術分野］
本開示は、一般に、ビデオコーディングに関し、特に、ビデオブロックのインター予測における動きベクトル差分のための適応解像度を提供する方法およびシステムに関する。

本明細書で提供されるこの背景技術の説明は、本開示の文脈を一般的に提示するためのものである。現在名前が挙げられている発明者の研究は、その研究がこの背景技術のセクションに記載されている限りにおいて、本出願の出願時に従来技術として認定されていない説明の態様と同様に、本開示に対する従来技術として明示的にも暗示的にも認められない。

ビデオコーディングおよび復号は、動き補償を用いたインターピクチャ予測を使用して実行することができる。非圧縮デジタルビデオは、一連のピクチャを含むことができ、各ピクチャは、例えば、１９２０×１０８０の輝度サンプルおよび関連する完全なまたはサブサンプリングされたクロミナンスサンプルの空間次元を有する。一連のピクチャは、例えば、６０ピクチャ／秒または６０フレーム／秒の固定または可変ピクチャレート（代替的に、フレームレートと呼ばれる）を有することができる。非圧縮ビデオは、ストリーミングまたはデータ処理のための特定のビットレート要件を有する。例えば、ピクセル解像度が１９２０×１０８０で、フレームレートが６０フレーム／秒で、クロマサブサンプリングが色チャネルあたり８ビット／ピクセルで４：２：０であるビデオは、１．５Ｇｂｉｔ／秒に近い帯域幅を必要とする。このようなビデオの１時間には、６００ギガバイト超の記憶空間が必要である。

ビデオコーディングおよび復号の１つの目的は、圧縮をより、非圧縮入力ビデオ信号の冗長性を低減することであり得る。圧縮は、前述の帯域幅および／または記憶空間要件を、場合によっては２桁以上低減するのに役立つことができる。可逆圧縮と不可逆圧縮の両方およびこれらの組み合わせを採用することができる。可逆圧縮は、元の信号の正確なコピーを、圧縮された元の信号から復号プロセスを介して再構成することができる技法を指す。不可逆圧縮は、元のビデオ情報がコーディング中に完全には保持されず、復号中に完全には復元可能でないコーディング／復号プロセスを指す。不可逆圧縮を使用するとき、再構成された信号は元の信号と同一ではないことがあるが、元の信号と再構成された信号との間の歪みは、いくらかの情報損失があるものの、再構成された信号を意図されたアプリケーションに有用にするのに十分に小さくされる。ビデオの場合、不可逆圧縮は、多くのアプリケーションで広く採用されている。許容可能な歪みの量は、アプリケーションによって決まる。例えば、特定の消費者向けビデオストリーミングアプリケーションのユーザは、映画またはテレビ放送アプリケーションのユーザよりも高い歪みを許容し得る。特定のコーディングアルゴリズムによって達成可能な圧縮率は、様々な歪み許容度を反映するように選択または調整することができる。許容可能な歪みがより大きいと、一般に、より高い損失とより高い圧縮率とをもたらすコーディングアルゴリズムが可能になる。

ビデオエンコーダおよびデコーダは、例えば、動き補償、フーリエ変換、量子化、およびエントロピーコーディングを含む、いくつかの広いカテゴリおよびステップからの技法を利用することができる。

ビデオコーデック技術は、イントラコーディングとして知られる技法を含むことができる。イントラコーディングでは、サンプル値は、以前に再構成された参照ピクチャからのサンプルまたは他のデータを参照せずに表される。いくつかのビデオコーデックでは、ピクチャは、サンプルのブロックに空間的に細分される。サンプルのすべてのブロックがイントラモードでコーディングされるとき、そのピクチャは、イントラピクチャと呼ばれることがある。イントラピクチャおよび独立デコーダリフレッシュピクチャなどのそれらの派生物は、デコーダ状態をリセットするために使用することができ、したがって、コード化ビデオビットストリーム（coded video bitstream）およびビデオセッション中の第１のピクチャとして、または静止画像として使用することができる。次いで、イントラ予測後のブロックのサンプルは、周波数領域への変換を受けることができ、そのように生成された変換係数は、エントロピーコーディングの前に量子化することができる。イントラ予測は、変換前領域におけるサンプル値を最小化する技法を表す。場合によっては、変換後のＤＣ値が小さいほど、またＡＣ係数が小さいほど、エントロピーコーディング後のブロックを表すために所与の量子化ステップサイズにおいて必要とされるビット数が少なくなる。

例えば、ＭＰＥＧ－２世代コーディング技術から知られているような従来のイントラコーディングは、イントラ予測を使用しない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば、空間的に隣接するものの符号化および／または復号中に取得され、かつ、イントラコーディングまたは復号されているデータのブロックに復号順序で先行する周囲のサンプルデータおよび／またはメタデータに基づいて、ブロックのコーディング／復号を試みる技法を含む。そのような技法は、以下、「イントラ予測」技法と呼ばれる。少なくともいくつかの場合には、イントラ予測は、再構成中の現在ピクチャからの参照データのみを使用し、他の参照ピクチャからの参照データは使用しないことに留意されたい。

イントラ予測には多くの異なる形態が存在し得る。所与のビデオコーディング技術においてそのような技法のうちの２つ以上が利用可能であるとき、使用中の技法は、イントラ予測モードと呼ばれることがある。特定のコーデックでは、１つまたは複数のイントラ予測モードが提供され得る。特定の場合、モードは、サブモードを有することができ、および／または様々なパラメータに関連付けられ得、ビデオのブロックのためのモード／サブモード情報およびイントラコーディングパラメータは、個々にコーディングされるか、または集合的にモードコードワードに含まれ得る。所与のモード、サブモード、および／またはパラメータの組み合わせにどのコードワードを使用すべきかについては、イントラ予測によるコーディング効率利得に影響を与える可能性があるので、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術にも影響を与える可能性がある。

イントラ予測の特定のモードは、Ｈ．２６４で紹介され、Ｈ．２６５で改良され、ジョイント探索モデル（ＪＥＭ）、多用途ビデオコーディング（ＶＶＣ）、およびベンチマークセット（ＢＭＳ）などのより新しいコーディング技術においてさらに改良された。一般に、イントラ予測の場合、予測子ブロックは、利用可能になった隣接サンプル値を使用して形成され得る。例えば、特定の方向および／または線に沿った隣接サンプルの特定のセットの利用可能な値が予測子ブロックにコピーされ得る。使用中の方向への参照は、ビットストリーム中でコーディング可能であるか、またはそれ自体が予測され得る。

図１Ａを参照すると、右下に示されているのは、Ｈ．２６５の３３個の可能なイントラ予測子方向（Ｈ．２６５において定められている３５個のイントラモードのうちの３３個の角度モードに対応する）において定められている９つの予測子方向のサブセットである。矢印が収束する点（１０１）は、予測されているサンプルを表す。矢印は、１０１のサンプルを予測するために隣接サンプルが使用される方向を表す。例えば、矢印（１０２）は、サンプル（１０１）が、水平方向から４５度の角度で、１つまたは複数の隣接サンプルから右上に予測されることを示す。同様に、矢印（１０３）は、サンプル（１０１）が、水平方向から２２．５度の角度で、１つまたは複数の隣接サンプルからサンプル（１０１）の左下に予測されることを示す。

引き続き図１Ａを参すると、その左上には、４×４サンプルの正方形ブロック（１０４）（太い破線で示される）が示されている。正方形ブロック（１０４）は１６個のサンプルを含み、その各々が、「Ｓ」と、Ｙ次元におけるその位置（例えば、行インデックス）と、Ｘ次元におけるその位置（例えば、列インデックス）とでラベル付けされている。例えば、サンプルＳ２１は、Ｙ次元において（上から）２番目のサンプルであり、Ｘ次元において（左から）１番目のサンプルである。同様に、サンプルＳ４４は、Ｙ次元とＸ次元の両方においてブロック（１０４）中の４番目のサンプルである。ブロックはサイズが４×４サンプルであるので、Ｓ４４は右下にある。同様の番号付け方式に従う例示的な参照サンプルがさらに示される。参照サンプルは、Ｒと、ブロック（１０４）に対するそのＹ位置（例えば、行インデックス）と、Ｘ位置（列インデックス）とでラベル付けされている。Ｈ．２６４およびＨ．２６５の両方において、再構成中のブロックに隣接する予測サンプルが使用される。

ブロック１０４のイントラピクチャ予測は、シグナリングされた予測方向にしたがって隣接サンプルから参照サンプル値をコピーすることによって開始し得る。例えば、コード化ビデオビットストリームが、このブロック１０４について、矢印（１０２）の予測方向を示すシグナリングを含む、すなわち、サンプルが、水平方向から４５度の角度で、１つまたは複数の予測サンプルから右上に予測されると仮定する。そのような場合、サンプルＳ４１、Ｓ３２、Ｓ２３、およびＳ１４は、同じ参照サンプルＲ０５から予測される。そして、サンプルＳ４４が参照サンプルＲ０８から予測される。

特定の場合、特に方向が４５度によって均等に割り切れないとき、参照サンプルを計算するために、例えば、補間により、複数の参照サンプルの値が組み合わせられ得る。

ビデオコーディング技術が発展し続けるにつれて、可能な方向の数が増加している。例えば、Ｈ．２６４（２００３年）では、イントラ予測のために９つの異なる方向が利用可能である。それが、Ｈ．２６５（２０１３年）では３３に増加し、本開示の時点のＪＥＭ／ＶＶＣ／ＢＭＳでは、最大６５個の方向をサポートすることができる。最も適切なイントラ予測方向を識別するのを助けるために実験研究が行われており、エントロピーコーディングにおける特定の技法が、方向についての特定のビットペナルティを受け入れつつ、少ないビット数でそれらの最も適切な方向を符号化するために使用され得る。さらに、方向自体は、復号された隣接ブロックのイントラ予測で使用される隣接方向から予測されることもあり得る。

図１Ｂは、長い期間をかけて開発された様々な符号化技術における予測方向の数の増加を示すために、ＪＥＭによる６５個のイントラ予測方向を示す概略図（１８０）を示す。

イントラ予測方向を表すビットをコード化ビデオビットストリーム中の予測方向にマッピングするための方法は、ビデオコーディング技術ごとに異なり得、例えば、予測方向のからイントラ予測モードへの単純な直接マッピングから、コードワード、最確モードを伴う複雑な適応方式、および同様の技法に及ぶことができる。しかしながら、すべての場合において、特定の他の方向よりもビデオコンテンツ内で発生する可能性が統計的に低いイントロ予測のための特定の方向が存在し得る。ビデオ圧縮の目標は冗長性の低減であるので、それらの可能性の低い方向は、よく設計されたビデオコーディング技術では、可能性の高い方向よりも多くのビット数によって表され得る。

インターピクチャ予測またはインター予測は、動き補償に基づき得る。動き補償では、以前に再構成されたピクチャまたはその一部（参照ピクチャ）からのサンプルデータは、動きベクトル（以下、ＭＶ）によって示される方向に空間的にシフトされた後、新たに再構成されたピクチャまたはピクチャ部分（例えば、ブロック）の予測に使用され得る。場合によっては、参照ピクチャは、現在再構成中のピクチャと同じであってもよい。ＭＶは、２つの次元ＸおよびＹ、または３つの次元を有し得、第３の次元は、使用中の参照ピクチャの指示である（時間次元に類似する）。

いくつかのビデオ圧縮技法では、サンプルデータの特定のエリアに適用可能な現在のＭＶは、他のＭＶから、例えば、再構成中のエリアに空間的に隣接し、復号順序で現在のＭＶに先行するサンプルデータの他のエリアに関係するそれらの他のＭＶから予測可能である。そうすることで、相関されたＭＶ中の冗長性を除去することに依拠することによって、ＭＶをコーディングするために必要とされるデータの全体的な量を実質的に低減し、それによって、圧縮効率を高めることができる。ＭＶ予測は、効果的に機能することができる。というのも、例えば、カメラから導出された入力ビデオ信号（自然ビデオとして知られる）をコーディングするとき、単一のＭＶが適用可能であるエリアよりも大きいエリアがビデオシーケンスにおいて同様の方向に移動する統計的な可能性があるので、場合によっては、隣接エリアのＭＶから導出された同様の動きベクトルを使用して予測され得るからである。その結果、所与のエリアの実際のＭＶは、周囲のＭＶから予測されたＭＶと同様または同一になる。そのようなＭＶは、エントロピーコーディングの後に、ＭＶが隣接ＭＶ（複数可）から予測されるのではなく直接コーディングされる場合に使用されたであろうビット数よりも少ないビット数で表され得る。場合によっては、ＭＶ予測は、元の信号（すなわち、サンプルストリーム）から導出される信号（すなわち、ＭＶ）の可逆圧縮の例であり得る。他の場合、例えば、いくつかの周囲ＭＶから予測子を計算するときの丸め誤差のために、ＭＶ予測自体が不可逆であり得る。

Ｈ．２６５／ＨＥＶＣ（ITU-T Rec. H.265, “High Efficiency Video Coding”, December 2016)）には、様々なＭＶ予測メカニズムが記載されている。Ｈ．２６５が規定する多くのＭＶ予測メカニズムのうち、以下に説明するのは、以下「空間マージ」と呼ばれる技法である。

具体的には、図２を参照すると、現在ブロック（２０１）は、空間的にシフトされた同じサイズの前のブロックから予測可能であることが動き探索プロセス中にエンコーダによって発見されたサンプルを含む。そのＭＶを直接コーディングする代わりに、ＭＶは、Ａ０、Ａ１、およびＢ０、Ｂ１、Ｂ２（それぞれ２０２～２０６）と示される５つの周囲サンプルのいずれか１つに関連付けられたＭＶを使用して、１つまたは複数の参照ピクチャに関連付けられたメタデータから、例えば（復号順序で）直近の参照ピクチャから導出され得る。Ｈ．２６５では、ＭＶ予測は、隣接ブロックが使用するのと同じ参照ピクチャからの予測子を使用することができる。

本開示は、一般に、ビデオコーディングに関し、特に、ビデオブロックのインター予測における動きベクトル差分のための適応解像度を提供し、シグナリングするための方法およびシステムに関する。例示的な実装形態では、ビデオストリームの１つまたは複数のビデオブロックを復号するための方法が開示される。本方法は、ビデオストリームを受信するステップと、１つまたは複数のビデオブロックについてＡＤＡＰＴＭＶモードがシグナリングされるかどうかを決定するために、ビデオストリームからインター予測シンタックス要素を抽出するステップであって、ＡＤＡＰＴＭＶモードは、適応動きベクトル差分（ＭＶＤ）ピクセル解像度を有する単一参照インター予測モードである、ステップと、ＡＤＡＰＴＭＶモードがインター予測シンタックス要素中でシグナリングされるかどうかに基づいて、１つまたは複数のビデオブロックに関連付けられた現在のＭＶＤピクセル解像度を決定するステップと、ＡＤＡＰＴＭＶモードがインター予測シンタックス要素中でシグナリングされるかどうかに基づいて、および現在のＭＶＤピクセル解像度にさらに基づいて、１つまたは複数のビデオブロックに関連付けられた１つまたは複数のＭＶＤ関連シンタックス要素を抽出および復号するステップとを含み得る。

上記の例示的な実装形態では、インター予測シンタックス要素は、１つまたは複数のビデオブロックに関連付けられたインター予測参照フレームインデックスがシグナリングされた後に、ビデオストリーム中でシグナリングされる。

上記の例示的な実装形態のいずれかにおいて、インター予測シンタックス要素は、以下の単一参照インター予測モード：ＡＤＡＰＴＭＶモード、非適応ＭＶＤピクセル解像度を有する単一参照インター予測モードであるＮＥＷＭＶモード、動きベクトル差分なしに動きベクトルが直接予測される単一参照インター予測モードであるＮＥＡＲＭＶモード、および動きベクトルがグローバル動きパラメータのセットを使用して予測される単一参照インター予測モードであるＧＬＯＢＡＬＭＶモードのうちの１つを示すように構成される。

上記の例示的な実装形態のいずれかにおいて、インター予測シンタックス要素内のＡＤＡＰＴＭＶモードを復号するためのコンテキストは、ＮＥＷＭＶモード、ＮＥＡＲＭＶモード、およびＧＬＯＢＡＬＭＶモードの復号と共有される。

上記の例示的な実装形態のいずれかにおいて、方法は、ＡＤＡＰＴＭＶモードがインター予測シンタックス要素中でシグナリングされるかどうかに基づいて、１つまたは複数のＭＶＤ関連シンタックス要素を復号するための１つまたは複数のコンテキストを導出するステップをさらに含む。

上記の例示的な実装形態のいずれかにおいて、１つまたは複数のＭＶＤ関連シンタックス要素は、どのＭＶＤ成分が非ゼロであるかを示すための第１のＭＶＤシンタックス要素、およびＭＶＤ符号を指定するための第２のＭＶＤシンタックス要素、ＭＶＤ大きさ範囲を指定するための第３のＭＶＤシンタックス要素、ＭＶＤ大きさ範囲内の整数ＭＶＤ大きさオフセットを指定するための第４のＭＶＤシンタックス要素、またはＭＶＤピクセル解像度を指定するための第５のＭＶＤシンタックス要素のうちの少なくとも１つを含む。

上記の例示的な実装形態のいずれかにおいて、１つまたは複数のビデオブロックがＡＤＡＰＴＭＶモードで符号化されるとき、第１のコンテキストが、第１のＭＶＤシンタックス要素または第３のＭＶＤシンタックス要素を復号するために導出され、１つまたは複数のビデオブロックがＡＤＡＰＴＭＶモード以外のインター予測モードでコーディングされるとき、第１のコンテキストとは異なる第２のコンテキストが、第１のＭＶＤシンタックス要素または第３のＭＶＤシンタックス要素を復号するために導出される。

上記の例示的な実装形態のいずれかにおいて、１つまたは複数のビデオブロックに関連付けられた現在のＭＶＤピクセル解像度は、２ｎペル（２ｎピクセル）であり、ここで、ｎは整数であり、両端値を含め－６と１１との間である。

上記の例示的な実装形態のいずれかにおいて、ビデオストリームから、１つまたは複数のビデオブロックに関連付けられたＭＶＤ大きさ範囲を導出するステップをさらに含み、分数ＭＶＤピクセル解像度は、ＭＶＤ大きさが所定のしきい値ＭＶＤ大きさ以下であるときにのみ許容される。

上記の例示的な実装形態のいずれかにおいて、許容されるＭＶＤピクセル解像度は、非昇順で、異なるＭＶＤ大きさに対応する。

上記の例示的な実装形態のいずれかにおいて、ビデオストリームから、１つまたは複数のビデオブロックに関連付けられたＭＶＤ大きさ範囲を指定するためのＭＶＤクラスインデックスを取得するステップをさらに含む。

上記の例示的な実装形態のいずれかにおいて、分数ＭＶＤピクセル解像度は、ＭＶＤクラスインデックスが所定のしきい値ＭＶＤクラスインデックス以下であるときにのみ許容される。

上記の例示的な実装形態のいずれかにおいて、所定のしきい値ＭＶＤクラスインデックス以上のＭＶＤクラスインデックスは、単一の許容される整数ＭＶＤピクセル解像度値にそれぞれ関連付けられる。

上記の例示的な実装形態のいずれかにおいて、許容されたＭＶＤピクセル解像度は、非昇順で、異なるＭＶＤクラスインデックスに対応する。

上記の例示的な実装形態のいずれかにおいて、異なるＭＶＤクラスインデックスに関連付けられたＭＶＤピクセル解像度は別個である。

本開示の態様はまた、上記の方法実装形態のいずれかを実行するように構成された回路を含むビデオ符号化または復号デバイスまたは装置を提供する。

本開示の態様はまた、ビデオ復号および／または符号化のためにコンピュータによって実行されたとき、コンピュータに、ビデオ復号および／または符号化のための方法を実行させる命令を記憶した非一時的コンピュータ可読媒体を提供する。

開示される主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
イントラ予測方向モードの例示的なサブセットの概略図を示す。例示的なイントラ予測方向の図を示す。一例における動きベクトル予測のための現在ブロックおよびそれの周囲の空間マージ候補の概略図を示す。例示的な実施形態による通信システム（３００）の簡略化されたブロック図の概略図を示す。例示的な実施形態による通信システム（４００）の簡略化されたブロック図の概略図を示す。例示的な実施形態によるビデオデコーダの簡略化されたブロック図の概略図を示す。例示的な実施形態によるビデオエンコーダの簡略化されたブロック図の概略図を示す。別の例示的な実施形態によるビデオエンコーダのブロック図を示す。別の例示的な実施形態によるビデオデコーダのブロック図を示す。本開示の例示的な実施形態によるコーディングブロックパーティショニングの方式を示す。本開示の例示的な実施形態によるコーディングブロックパーティショニングの別の方式を示す。本開示の例示的な実施形態によるコーディングブロックパーティショニングの別の方式を示す。例示的なパーティショニング方式による、ベースブロックのコーディングブロックへの例示的なパーティショニングを示す。例示的なターナリパーティショニング方式を示す。例示的な四分木二分木コーディングブロックパーティショニング方式を示す。本開示の例示的な実施形態による、コーディングブロックを複数の変換ブロックにパーティショニングするための方式と、変換ブロックのコーディング順序とを示す。本開示の例示的な実施形態による、コーディングブロックを複数の変換ブロックにパーティショニングするための別の方式と、変換ブロックのコーディング順序とを示す。本開示の例示的な実施形態による、コーディングブロックを複数の変換ブロックにパーティショニングするための別の方式を示す。本開示の例示的な実施形態による方法のフローチャートを示す。本開示の例示的な実施形態によるコンピュータシステムの概略図を示す。

本明細書および特許請求の範囲全体を通して、用語は、明示的に述べられた意味を超えて文脈において示唆または暗示される微妙な意味を有し得る。本明細書で使用される「一実施形態では（in one embodiment）」または「いくつかの実施形態では（in some embodiments）」という表現は、必ずしも同じ実施形態を指すとは限らず、本明細書で使用される「別の実施形態では（in another embodiment）」または「他の実施形態では（in other embodiments）」という表現は、必ずしも異なる実施形態を指すとは限らない。同様に、本明細書で使用される「一実装形態では（in one implementation）」または「いくつかの実装形態では（in some implementations）」という表現は、必ずしも同じ実装形態を指すとは限らず、本明細書で使用される「別の実装形態では（in another implementation）」または「他の実装形態では（in other implementations）」という表現は、必ずしも異なる実装形態を指すとは限らない。例えば、特許請求される主題は、例示的な実施形態／実装形態の組み合わせを全体的にまたは部分的に含むことが意図される。

一般に、用語は、文脈における用法から少なくとも部分的に理解され得る。例えば、本明細書で使用される「および（and）」、「または（or）」、または「および／または（and/or）」などの用語は、そのような用語が使用される文脈に少なくとも部分的に依存し得る様々な意味を含み得る。典型的には、「または」は、Ａ、Ｂ、またはＣなど、リストを関連付けるために使用される場合、Ａ、Ｂ、およびＣ（ここでは、包括的な意味で使用される）ならびにＡ、Ｂ、またはＣ（ここでは排他的な意味で使用される）を意味することが意図される。加えて、本明細書で使用される「１つまたは複数の（one or more）」または「少なくとも１つの（at least one）」という用語は、少なくとも部分的に文脈に応じて、任意の特徴、構造、または特性を単数の意味で説明するために使用されてもよいし、特徴、構造、または特性の組み合わせを複数の意味で説明するために使用されてもよい。同様に、「a」、「an」、または「the」などの用語も、この場合も同様に、少なくとも部分的に文脈に応じて、単数の用法を伝えるように、または複数の用法を伝えるように理解され得る。加えて、「～に基づいて（based on）」または「～によって決定される（determined by）」という用語は、必ずしも排他的な要因のセットを伝えることを意図するものではなく、代わりに、この場合も同様に、少なくとも部分的に文脈に応じて、必ずしも明示的に説明されていない追加の要因の存在を許容し得ることが理解され得る。図３は、本開示の一実施形態による通信システム（３００）の簡略化されたブロック図を示す。通信システム（３００）は、例えばネットワーク（３５０）を介して互いに通信可能な複数の端末デバイスを含む。例えば、通信システム（３００）は、ネットワーク（３５０）を介して相互接続された端末デバイス（３１０）および（３２０）の第１のペアを含む。図３の例では、端末デバイス（３１０）および（３２０）の第１のペアは、データの単方向送信を実行し得る。例えば、端末デバイス（３１０）は、ネットワーク（３５０）を介して他方の端末デバイス（３２０）に送信するために、（例えば、端末デバイス（３１０）によってキャプチャされたビデオピクチャのストリームの）ビデオデータをコーディングし得る。符号化ビデオデータ（encoded video data）は、１つまたは複数のコード化ビデオビットストリームの形態で送信され得る。端末デバイス（３２０）は、ネットワーク（３５０）からコード化ビデオデータ（coded video data）を受信し、コード化ビデオデータを復号してビデオピクチャを復元し、復元されたビデオデータにしたがってビデオピクチャを表示し得る。単方向データ送信は、メディアサービングアプリケーションなどにおいて実装され得る。

別の例では、通信システム（３００）は、例えばテレビ会議アプリケーション中に実装され得るコード化ビデオデータの双方向送信を実行する端末デバイス（３３０）および（３４０）の第２のペアを含む。データの双方向送信のために、一例では、端末デバイス（３３０）および（３４０）の各端末デバイスは、ネットワーク（３５０）を介して端末デバイス（３３０）および（３４０）のうちの他方の端末デバイスに送信するために、（例えば、端末デバイスによってキャプチャされたビデオピクチャのストリームの）ビデオデータをコーディングし得る。端末デバイス（３３０）および（３４０）の各端末デバイスはまた、端末デバイス（３３０）および（３４０）のうちの他方の端末デバイスによって送信されたコード化ビデオデータを受信し得、コード化ビデオデータを復号してビデオピクチャを復元し得、復元されたビデオデータにしたがってアクセス可能なディスプレイデバイスにおいてビデオピクチャを表示し得る。

図３の例では、端末デバイス（３１０）、（３２０）、（３３０）、および（３４０）は、サーバ、パーソナルコンピュータ、およびスマートフォンとして実装され得るが、本開示の基本原理の適用可能性は、そのように限定されなくてもよい。本開示の実施形態は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、ウェアラブルコンピュータ、専用ビデオ会議機器、および／または同様のものにおいて実装され得る。ネットワーク（３５０）は、端末デバイス（３１０）、（３２０）、（３３０）、および（３４０）の間でコード化ビデオデータを伝達する任意の数またはタイプのネットワークを表し、例えば、ワイヤライン（ワイヤード）および／またはワイヤレス通信ネットワークを含む。通信ネットワーク（３５０）は、回線交換、パケット交換、および／または他のタイプのチャネルでデータを交換し得る。代表的なネットワークとしては、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および／またはインターネットが挙げられる。本説明の目的のために、ネットワーク（３５０）のアーキテクチャおよびトポロジは、本明細書で明示的に説明されない限り、本開示の動作にとって重要でない場合がある。

図４は、開示される主題のアプリケーションの一例として、ビデオストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を示す。開示される主題は、例えば、ビデオ会議、デジタルＴＶ放送、ゲーム、仮想現実、ＣＤ、ＤＶＤ、メモリスティックなどを含むデジタル媒体上の圧縮ビデオの記憶などを含む、他のビデオアプリケーションなどにも等しく適用可能であり得る。

ビデオストリーミングシステムは、圧縮されていないビデオピクチャまたは画像のストリーム（４０２）を作成するためのビデオソース（４０１）、例えばデジタルカメラを含むことができるビデオキャプチャサブシステム（４１３）を含み得る。一例では、ビデオピクチャのストリーム（４０２）は、ビデオソース４０１のデジタルカメラによって記録されたサンプルを含む。符号化ビデオデータ（４０４）（またはコード化ビデオビットストリーム）と比較して高データ量であることを強調するために太線で示されるビデオピクチャのストリーム（４０２）は、ビデオソース（４０１）に結合されたビデオエンコーダ（４０３）を含む電子デバイス（４２０）によって処理することができる。ビデオエンコーダ（４０３）は、以下でより詳細に説明されるように、開示される主題の態様を可能にするかまたは実装するためのハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。非圧縮ビデオピクチャのストリーム（４０２）と比較して低データ量であることを強調するために細線で示される符号化ビデオデータ（４０４）（または符号化ビデオビットストリーム（encoded video bitstream）（４０４））は、将来の使用のためにストリーミングサーバ（４０５）上に記憶されるか、または下流のビデオデバイス（図示せず）に直接記憶され得る。図４のクライアントサブシステム（４０６）および（４０８）などの１つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ（４０５）にアクセスして、符号化ビデオデータ（４０４）のコピー（４０７）および（４０９）を取り出すことができる。クライアントサブシステム（４０６）は、例えば、電子デバイス（４３０）内にビデオデコーダ（４１０）を含むことができる。ビデオデコーダ（４１０）は、符号化ビデオデータの到来コピー（４０７）を復号し、圧縮されておらず、ディスプレイ（４１２）（例えば、表示画面）または他のレンダリングデバイス（図示せず）上にレンダリングすることができるビデオピクチャの発信ストリーム（４１１）を作成する。ビデオデコーダ４１０は、本開示で説明する様々な機能の一部または全部を実行するように構成され得る。いくつかのストリーミングシステムでは、符号化ビデオデータ（４０４）、（４０７）、および（４０９）（例えば、ビデオビットストリーム）は、特定のビデオコーディング／圧縮規格にしたがって符号化され得る。それらの規格の例としては、ＩＴＵ－ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＨ．２６５が挙げられる。一例では、開発中のビデオコーディング規格は、非公式に多用途ビデオコーディング（ＶＶＣ）として知られている。開示される主題は、ＶＶＣおよび他のビデオコーディング規格の文脈において使用され得る。

電子デバイス（４２０）および（４３０）は、他の構成要素（図示せず）を含むことができることに留意されたい。例えば、電子デバイス（４２０）は、ビデオデコーダ（図示せず）を含むことができ、同様に、電子デバイス（４３０）は、ビデオエンコーダ（図示せず）を含むことができる。

図５は、以下の本開示の任意の実施形態によるビデオデコーダ（５１０）のブロック図を示す。ビデオデコーダ（５１０）は、電子デバイス（５３０）に含まれ得る。電子デバイス（５３０）は、受信機（５３１）（例えば、受信回路）を含むことができる。ビデオデコーダ（５１０）は、図４の例におけるビデオデコーダ（４１０）の代わりに使用することができる。

受信機（５３１）は、ビデオデコーダ（５１０）によって復号されるべき１つまたは複数のコード化ビデオシーケンス（coded video sequence）を受信し得る。同じまたは別の実施形態では、１つのコード化ビデオシーケンスが一度に復号され得、ここで、各コード化ビデオシーケンスの復号は、他のコード化ビデオシーケンスから独立している。各ビデオシーケンスは、複数のビデオフレームまたは画像に関連付けられ得る。コード化ビデオシーケンスは、符号化ビデオデータを記憶する記憶デバイスまたは符号化ビデオデータを送信するストリーミングソースへのハードウェア／ソフトウェアリンクであり得るチャネル（５０１）から受信され得る。受信機（５３１）は、符号化ビデオデータを、それらのそれぞれの処理回路（図示せず）に転送され得る、コード化オーディオデータおよび／または補助データストリームなどの他のデータとともに受信し得る。受信機（５３１）は、コード化ビデオシーケンスを他のデータから分離し得る。ネットワークジッタに対抗するために、バッファメモリ（５１５）が、受信機（５３１）とエントロピーデコーダ／パーサ５２０）（以下、「パーサ（５２０）」）との間に配置され得る。特定のアプリケーションでは、バッファメモリ（５１５）は、ビデオデコーダ（５１０）の一部として実装され得る。他のアプリケーションでは、それは、ビデオデコーダ（５１０）の外部にあり、それとは別個であり得る（図示せず）。さらに他のアプリケーションでは、例えば、ネットワークジッタに対抗する目的で、ビデオデコーダ（５１０）の外部にバッファメモリ（図示せず）が存在することができ、例えば、再生タイミングを処理するために、ビデオデコーダ（５１０）の内部に別の追加のバッファメモリ（５１５）が存在し得る。受信機（５３１）が、十分な帯域幅および可制御性の記憶／転送デバイスから、またはアイソクロナスネットワーク（isosynchronous network）からデータを受信しているとき、バッファメモリ（５１５）は、必要とされない場合があるか、または小さくあり得る。インターネットなどのベストエフォート型パケットネットワーク上で使用するためには、十分なサイズのバッファメモリ（５１５）が必要とされ得、そのサイズは比較的大きくなり得る。そのようなバッファメモリは、適応サイズで実装され得、ビデオデコーダ（５１０）の外部のオペレーティングシステムまたは同様の要素（図示せず）において少なくとも部分的に実装され得る。

ビデオデコーダ（５１０）は、コード化ビデオシーケンスからシンボル（５２１）を再構成するためのパーサ（５２０）を含み得る。それらのシンボルのカテゴリは、ビデオデコーダ（５１０）の動作を管理するために使用される情報と、場合によっては、図５に示されるように、電子デバイス（５３０）の一体部分であってもなくてもよいが、電子デバイス（５３０）に結合可能なディスプレイ（５１２）（例えば、ディスプレイスクリーン）などのレンダリングデバイスを制御するための情報とを含む。レンダリングデバイス（複数可）のための制御情報は、補足エンハンスメント情報（ＳＥＩメッセージ）またはビデオユーザビリティ情報（ＶＵＩ）パラメータセットフラグメント（図示せず）の形態であり得る。パーサ（５２０）は、パーサ（５２０）によって受信されたコード化ビデオシーケンスを構文解析／エントロピー復号し得る。コード化ビデオシーケンスのエントロピーコーディングは、ビデオコーディング技術または規格に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト感度を伴うまたは伴わない算術コーディングなどを含む、様々な原理に従うことができる。パーサ（５２０）は、コード化ビデオシーケンスから、サブグループに対応する少なくとも１つのパラメータに基づいて、ビデオデコーダにおけるピクセルのサブグループのうちの少なくとも１つに関するサブグループパラメータのセットを抽出し得る。サブグループは、グループオブピクチャ（ＧＯＰ）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ）、ブロック、変換ユニット（ＴＵ）、予測ユニット（ＰＵ）などを含むことができる。パーサ（５２０）はまた、コード化ビデオシーケンスから、変換係数（例えば、フーリエ変換係数）、量子化器パラメータ値、動きベクトルなどの情報を抽出し得る。

パーサ（５２０）は、シンボル（５２１）を作成するために、バッファメモリ（５１５）から受信されたビデオシーケンスに対してエントロピー復号／構文解析動作を実行し得る。

シンボル（５２１）の再構成は、コード化ビデオピクチャまたはその一部のタイプ（インターピクチャおよびイントラピクチャ、インターブロック、およびイントラブロックなど）、および他の要因に応じて、複数の異なる処理または機能ユニットを含むことができる。含まれるユニットおよびそれらがどのように含まれるかは、パーサ（５２０）によってコード化ビデオシーケンスから構文解析されるサブグループ制御情報によって制御され得る。パーサ（５２０）と以下の複数の処理または機能ユニットとの間のそのようなサブグループ制御情報の流れは、簡略化のために示されていない。

すでに述べた機能ブロックを超えて、ビデオデコーダ（５１０）は、以下で説明するように、いくつかの機能ユニットに概念的に細分され得る。商業的な制約の下で動作する実際の実装形態では、これらの機能ユニットの多くは、互いに密接に相互作用し、少なくとも部分的に互いに統合することができる。しかしながら、開示される主題の様々な機能を明確に説明する目的で、以下の開示では、機能ユニットへの概念的な細分が採用されている。

第１のユニットは、スケーラ／逆変換ユニット（５５１）を含み得る。スケーラ／逆変換ユニット（５５１）は、量子化された変換係数と制御情報とを受信し得、この制御情報は、どのタイプの逆変換を使用すべきかを示す情報、ブロックサイズ、量子化因子／パラメータ、量子化スケーリング行列、およびパーサ（５２０）からのシンボル（複数可）（５２１）としてのライを含む。スケーラ／逆変換ユニット（５５１）は、アグリゲータ（５５５）に入力され得るサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換ユニット（５５１）の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報は使用しないが、現在ピクチャの以前に再構成された部分からの予測情報は使用することができるブロックに関連し得る。そのような予測情報は、イントラピクチャ予測ユニット（５５２）によって提供することができる。場合によっては、イントラピクチャ予測ユニット（５５２）は、すでに再構成され、現在ピクチャバッファ（５５８）に記憶されている周囲ブロック情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成し得る。現在ピクチャバッファ（５５８）は、例えば、部分的に再構成された現在ピクチャおよび／または完全に再構成された現在ピクチャをバッファする。アグリゲータ（５５５）は、いくつかの実装形態では、サンプルごとに、イントラピクチャ予測ユニット（５５２）が生成した予測情報を、スケーラ／逆変換ユニット（５５１）によって提供された出力サンプル情報に追加し得る。

他の場合、スケーラ／逆変換ユニット（５５１）の出力サンプルは、インターコーディングされ、場合によっては動き補償されたブロックに関連し得る。そのような場合、動き補償予測ユニット（５５３）は、参照ピクチャメモリ（５５７）にアクセスして、インターピクチャ予測に使用されるサンプルをフェッチすることができる。ブロックに関連するシンボル（５２１）にしたがって、フェッチされたサンプルを動き補償した後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ（５５５）によってスケーラ／逆変換ユニット（５５１）の出力（ユニット５５１の出力は、残差サンプルまたは残差信号と呼ばれることがある）に追加され得る。動き補償予測ユニット（５５３）が予測サンプルをフェッチする参照ピクチャメモリ（５５７）内のアドレスは、例えば、Ｘ、Ｙ成分（シフト）、および参照ピクチャ成分（時間）を有し得るシンボル（５２１）の形態で動き補償予測ユニット（５５３）に利用可能な動きベクトルによって制御することができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているとき、参照ピクチャメモリ（５５７）からフェッチされるようなサンプル値の補間を含み得、また、動きベクトル予測機構などに関連付けられ得る。

アグリゲータ（５５５）の出力サンプルは、ループフィルタユニット（５５６）において様々なループフィルタリング技法を受けることができる。ビデオ圧縮技術は、コード化ビデオシーケンス（コード化ビデオビットストリームとも呼ばれる）に含まれるパラメータによって制御され、パーサ（５２０）からのシンボル（５２１）としてループフィルタユニット（５５６）に利用可能にされるループ内フィルタ技術を含むことができるが、コード化ピクチャ（coded picture）またはコード化ビデオシーケンスの（復号順序で）前の部分の復号中に取得されたメタ情報に応答することもでき、前に再構成されループフィルタリングされたサンプル値に応答することもできる。いくつかのタイプのループフィルタが、以下でさらに詳細に説明するように、様々な順序でループフィルタユニット５５６の一部として含まれ得る。

ループフィルタユニット（５５６）の出力は、レンダリングデバイス（５１２）に出力されるとともに、将来のインターピクチャ予測で使用するために参照ピクチャメモリ（５５７）に記憶可能なサンプルストリームとすることができる。

特定のコード化ピクチャは、完全に再構成されると、将来のインターピクチャ予測のための参照ピクチャとして使用することができる。例えば、現在ピクチャに対応するコード化ピクチャが完全に再構成され、コード化ピクチャが（例えば、パーサ（５２０）によって）参照ピクチャとして識別されると、現在ピクチャバッファ（５５８）は、参照ピクチャメモリ（５５７）の一部となることができ、次のコード化ピクチャの再構成を開始する前に、新たな現在ピクチャバッファを再割り当てすることができる。

ビデオデコーダ（５１０）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５などの規格で採用されている所定のビデオ圧縮技術にしたがって復号動作を実行し得る。コード化ビデオシーケンスは、コード化ビデオシーケンスがビデオ圧縮技術または規格のシンタックスとビデオ圧縮技術または規格において文書化されたプロファイルの両方に準拠するという意味で、使用されているビデオ圧縮技術または規格によって指定されたシンタックスに準拠し得る。具体的には、プロファイルは、そのプロファイルの下で使用するために利用可能な唯一のツールとして、ビデオ圧縮技術または規格において利用可能なすべてのツールから特定のツールを選択することができる。規格に準拠するために、コード化ビデオシーケンスの複雑さは、ビデオ圧縮技術または規格のレベルによって定義された範囲内であり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えば、メガサンプル／秒で測定される）、最大参照ピクチャサイズなどを制限する。レベルによって設定される制限は、場合によっては、仮想参照デコーダ（ＨＲＤ）仕様と、コード化ビデオシーケンス中でシグナリングされるＨＲＤバッファ管理のためのメタデータとを通してさらに制限され得る。

いくつかの例示的な実施形態では、受信機（５３１）は、符号化ビデオ（encoded video）とともに追加の（冗長）データを受信し得る。追加のデータは、コード化ビデオシーケンス（複数可）の一部として含まれ得る。追加のデータは、データを適切に復号するために、および／または元のビデオデータをより正確に再構成するために、ビデオデコーダ（５１０）によって使用され得る。追加のデータは、例えば、時間的、空間的、または信号対雑音比（ＳＮＲ）エンハンスメントレイヤ、冗長スライス、冗長ピクチャ、順方向誤り訂正符号などの形態であり得る。

図６は、本開示の例示的な実施形態によるビデオエンコーダ（６０３）のブロック図を示す。ビデオエンコーダ（６０３）は、電子デバイス（６２０）に含まれ得る。電子デバイス（６２０）は、送信機（６４０）（例えば、送信回路）をさらに含み得る。ビデオエンコーダ（６０３）は、図４の例におけるビデオエンコーダ（４０３）の代わりに使用することができる。

ビデオエンコーダ（６０３）は、ビデオエンコーダ（６０３）によってコーディングされるべきビデオ画像（複数可）をキャプチャし得る（図６の例では電子デバイス（６２０）の一部ではない）ビデオソース（６０１）からビデオサンプルを受信し得る。別の例では、ビデオソース（６０１）は、電子デバイス（６２０）の一部として実装され得る。

ビデオソース（６０１）は、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット、…）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣｂ、ＲＧＢ、ＸＹＺ…）、および任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）であり得るデジタルビデオサンプルストリームの形態で、ビデオエンコーダ（６０３）によってコーディングされるべきソースビデオシーケンスを提供し得る。メディアサービングシステムでは、ビデオソース（６０１）は、以前に準備されたビデオを記憶することができる記憶デバイスであり得る。テレビ会議システムでは、ビデオソース（６０１）は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラであり得る。ビデオデータは、連続して見たときに動きを与える複数の個々のピクチャまたは画像として提供され得る。ピクチャ自体は、ピクセルの空間アレイとして編成され得、ここで、各ピクセルは、使用されているサンプリング構造、色空間などに応じて１つまたは複数のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。

いくつかの例示的な実施形態によれば、ビデオエンコーダ（６０３）は、リアルタイムでまたはアプリケーションによって要求される任意の他の時間制約の下で、ソースビデオシーケンスのピクチャをコーディングし、コード化ビデオシーケンス（６４３）に圧縮し得る。適切なコーディング速度を実施することは、コントローラ（６５０）の１つの機能を構成する。いくつかの実施形態では、コントローラ（６５０）は、以下に説明されるように、他の機能ユニットに機能的に結合され、それを制御し得る。結合は、簡単にするために示されていない。コントローラ（６５０）によって設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技法のラムダ値、…）、ピクチャサイズ、グループオブピクチャ（ＧＯＰ）レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ（６５０）は、特定のシステム設計のために最適化されたビデオエンコーダ（６０３）に関連する他の適切な機能を有するように構成され得る。

いくつかの例示的な実施形態では、ビデオエンコーダ（６０３）は、コーディングループで動作するように構成され得る。単純化し過ぎた説明として、一例では、コーディングループは、（例えば、コーディングされるべき入力ピクチャと参照ピクチャ（複数可）とに基づいて、シンボルストリームなどのシンボルを作成することを担う）ソースコーダ（６３０）と、ビデオエンコーダ（６０３）に埋め込まれた（ローカル）デコーダ（６３３）とを含むことができる。デコーダ（６３３）は、（エントロピーコーディングにおけるシンボルとコード化ビデオビットストリームとの間の任意の圧縮は、開示される主題において考慮されるビデオ圧縮技術において可逆であり得るので）埋め込みデコーダ６３３がエントロピーコーディングなしにソースコーダ６３０によるコード化ビデオストリームを処理したとしても、（リモート）デコーダが作成するのと同様の方法でサンプルデータを作成するためにシンボルを再構成する。再構成されたサンプルストリーム（サンプルデータ）は、参照ピクチャメモリ（６３４）に入力される。シンボルストリームの復号は、デコーダの位置（ローカルまたはリモート）とは無関係にビット精度（bit-exact）の結果をもたらすので、参照ピクチャメモリ（６３４）内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビット精度である。言い換えると、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」であろうものと全く同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性（および、例えばチャネルエラーのために同期性が維持できない場合には、結果として得られるドリフト）のこの基本原理は、コーディング品質を改善するために使用される。

「ローカル」デコーダ（６３３）の動作は、図５に関連して上記ですでに詳細に説明したビデオデコーダ（５１０）などの「リモート」デコーダの動作と同じであり得る。しかしながら、図５も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ（６４５）およびパーサ（５２０）によるコード化ビデオシーケンスへのシンボルの符号化／復号が可逆であり得るので、バッファメモリ（５１５）およびパーサ（５２０）を含むビデオデコーダ（５１０）のエントロピー復号部分は、エンコーダ内のローカルデコーダ（６３３）では完全には実装されないことがある。

この時点で行うことができる観察は、デコーダ内にのみ存在し得る構文解析／エントロピー復号を除く任意のデコーダ技術は、対応するエンコーダ内にも、実質的に同一の機能的形態で必ず存在する必要があり得ることである。この理由のために、開示される主題は、時には、エンコーダの復号部分に関連するデコーダ動作に焦点を当て得る。したがって、エンコーダ技術の説明は、包括的に説明されたデコーダ技術の逆であるので、省略することができる。特定の領域または態様においてのみ、エンコーダのより詳細な説明が以下に提供される。

いくつかの例示的な実装形態における動作中に、ソースコーダ（６３０）は、「参照ピクチャ」として指定されたビデオシーケンスからの１つまたは複数の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする動き補償された予測コーディングを実行し得る。このようにして、コーディングエンジン（６３２）は、入力ピクチャのピクセルブロックと、入力ピクチャへの予測参照（複数可）として選択され得る参照ピクチャ（複数可）のピクセルブロックとの間の色チャネルにおける差分（または残差）をコーディングする。「残差（residue）」という用語およびその形容詞形態「残差の（residual）」は、同義で使用され得る。

ローカルビデオデコーダ（６３３）は、ソースコーダ（６３０）によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコード化ビデオデータを復号し得る。コーディングエンジン（６３２）の動作は、有利には、不可逆プロセスであり得る。コード化ビデオデータがビデオデコーダ（図６に図示せず）において復号され得るとき、再構成されたビデオシーケンスは、典型的に、いくつかのエラーを有するソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ（６３３）は、参照ピクチャに対してビデオデコーダによって実行され得る復号プロセスを複製し、再構成された参照ピクチャを参照ピクチャキャッシュ（６３４）に記憶させ得る。このようにして、ビデオエンコーダ（６０３）は、遠端（リモート）ビデオデコーダによって取得される再構成された参照ピクチャと共通のコンテンツを有する再構成された参照ピクチャのコピーをローカルに記憶し得る（送信エラーなし）。

予測器（６３５）は、コーディングエンジン（６３２）の予測探索を実行し得る。すなわち、コーディングされるべき新しいピクチャに対して、予測器（６３５）は、新しいピクチャに対する適切な予測参照として機能し得る、（候補参照ピクセルブロックとしての）サンプルデータ、または参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて参照ピクチャメモリ（６３４）を探索し得る。予測器（６３５）は、適切な予測参照を見つけるために、サンプルブロックごとにピクセルブック単位で（on a sample block-by-pixel block basis）動作し得る。場合によっては、予測器（６３５）によって取得された探索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（６３４）に記憶された複数の参照ピクチャから引き出された予測参照を有し得る。

コントローラ（６５０）は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ（６３０）のコーディング動作を管理し得る。

前述したすべての機能ユニットの出力は、エントロピーコーダ６４５におけるエントロピーコーディングを受け得る。エントロピーコーダ（６４５）は、ハフマンコーディング、可変長コーディング、算術コーディングなどの技術にしたがってシンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルをコード化ビデオシーケンスに変換する。

送信機（６４０）は、符号化ビデオデータを記憶する記憶デバイスへのハードウェア／ソフトウェアリンクであり得る通信チャネル（６６０）を介した送信に備えるために、エントロピーコーダ（６４５）によって作成されたコード化ビデオシーケンス（複数可）をバッファし得る。送信機（６４０）は、ビデオエンコーダ（６０３）からのコード化ビデオデータを、送信されるべき他のデータ、例えば、コード化オーディオデータおよび／または補助データストリーム（ソースは図示せず）とマージし得る。

コントローラ（６５０）は、ビデオエンコーダ（６０３）の動作を管理し得る。コーディングの間、コントローラ（６５０）は、各コード化ピクチャに特定のコード化ピクチャタイプを割り当て得、これは、それぞれのピクチャに適用され得るコーディング技法に影響を与え得る。例えば、ピクチャは、多くの場合、以下のピクチャタイプのうちの１つとして割り当てられ得る。

イントラピクチャ（Ｉピクチャ）は、予測のソースとしてシーケンス中の他のピクチャを使用することなくコーディングおよび復号され得るものであり得る。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ（「ＩＤＲ」）ピクチャを含む、異なるタイプのイントラピクチャを可能にする。当業者であれば、Ｉピクチャのそれらの変形例、ならびにそれらのそれぞれの用途および特徴を知っている。

予測ピクチャ（Ｐピクチャ）は、各ブロックのサンプル値を予測するために多くとも１つの動きベクトルと参照インデックスとを使用するイントラ予測またはインター予測を使用してコーディングおよび復号され得るものであり得る。

双方向予測ピクチャ（Ｂピクチャ）は、各ブロックのサンプル値を予測するために多くとも２つの動きベクトルと参照インデックスとを使用するイントラ予測またはインター予測を使用してコーディングおよび復号され得るものであり得る。同様に、多重予測ピクチャ（multiple-predictive pictures）は、単一のブロックの再構成のために２つよりも多い参照ピクチャおよび関連するメタデータを使用することができる。

ソースピクチャは、一般に、複数のサンプルコーディングブロック（例えば、各々４×４、８×８、４×８、または１６×１６サンプルのブロック）に空間的に細分され、ブロック単位でコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割り当てによって決定されるように、他の（すでにコーディングされた）ブロックを参照して予測的にコーディングされ得る。例えば、Ｉピクチャのブロックは、非予測的にコーディングされ得るか、または、同じピクチャのすでにコーディングされたブロックを参照して予測的にコーディングされ得る（空間予測またはイントラ予測）。Ｐピクチャのピクセルブロックは、１つの以前にコーディングされた参照ピクチャを参照して、空間予測を介してまたは時間予測を介して予測的にコーディングされ得る。Ｂピクチャのブロックは、１つまたは２つの以前にコーディングされた参照ピクチャを参照して、空間予測を介してまたは時間予測を介して、予測的にコーディングされ得る。ソースピクチャまたは中間処理されたピクチャは、他の目的のために他のタイプのブロックに細分され得る。コーディングブロックおよび他のタイプのブロックの分割は、以下でさらに詳細に説明するように、同じ方法にしたがっても従わなくてもよい。

ビデオエンコーダ（６０３）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５などの所定のビデオコーディング技術または規格にしたがってコーディング動作を実行し得る。その動作において、ビデオエンコーダ（６０３）は、入力ビデオシーケンスにおける時間的冗長性および空間的冗長性を利用する予測コーディング動作を含む様々な圧縮動作を実行し得る。したがって、コード化ビデオデータは、使用されているビデオコーディング技術または規格によって指定されたシンタックスに準拠し得る。

いくつかの例示的な実施形態では、送信機（６４０）は、符号化ビデオとともに追加のデータを送信し得る。ソースコーダ（６３０）は、そのようなデータをコード化ビデオシーケンスの一部として含み得る。追加のデータは、時間／空間／ＳＮＲエンハンスメントレイヤ、冗長ピクチャおよびスライスなどの他の形態の冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメントなどを含み得る。

ビデオは、時系列で複数のソースピクチャ（ビデオピクチャ）としてキャプチャされ得る。イントラピクチャ予測（多くの場合、イントラ予測と略される）は、所与のピクチャにおける空間的相関を利用し、インターピクチャ予測は、ピクチャ間の時間的または他の相関を利用する。例えば、現在ピクチャと呼ばれる、符号化／復号中の特定のピクチャは、ブロックにパーティショニングされ得る。現在ピクチャ中のブロックは、ビデオ中の、以前にコーディングされ、依然としてバッファされている参照ピクチャ中の参照ブロックと同様であるとき、動きベクトルと呼ばれるベクトルによってコーディングされ得る。動きベクトルは、参照ピクチャ中の参照ブロックを指し、複数の参照ピクチャが使用されている場合に、当該参照ピクチャを識別する第３の次元を有することができる。

いくつかの例示的な実施形態では、インターピクチャ予測のために双予測技法を使用することができる。そのような双予測技法によれば、両方とも復号順序でビデオ中の現在ピクチャに先行する（ただし、表示順序ではそれぞれ過去または未来であり得る）第１の参照ピクチャおよび第２の参照ピクチャなど、２つの参照ピクチャが使用される。現在ピクチャ中のブロックは、第１の参照ピクチャ中の第１の参照ブロックを指す第１の動きベクトルと、第２の参照ピクチャ中の第２の参照ブロックを指す第２の動きベクトルとによってコーディングされ得る。ブロックは、第１の参照ブロックおよび第２の参照ブロックの組み合わせによって共同予測され得る。

また、コーディング効率を高めるためにインターピクチャ予測でマージモード（merge mode）技法が使用され得る。

本開示のいくつかの例示的な実施形態によれば、インターピクチャ予測およびイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、ビデオピクチャのシーケンス中のピクチャは、圧縮のためにコーディングツリーユニット（ＣＴＵ）にパーティショニングされ、ピクチャ中のＣＴＵは、６４×６４ピクセル、３２×３２ピクセル、または１６×１６ピクセルなど、同じサイズを有し得る。一般に、ＣＴＵは、３つの並列コーディングツリーブロック（ＣＴＢ）、すなわち、１つのルーマＣＴＢと２つのクロマＣＴＢとを含み得る。各ＣＴＵは、１つまたは複数のコーディングユニット（ＣＵ）に再帰的に四分木分割され得る。例えば、６４×６４ピクセルのＣＴＵは、６４×６４ピクセルの１つのＣＵ、または３２×３２ピクセルの４つのＣＵに分割され得る。３２×３２ブロックのうちの１つまたは複数の各々は、１６×１６ピクセルの４つのＣＵにさらに分割され得る。いくつかの例示的な実施形態では、各ＣＵは、インター予測タイプまたはイントラ予測タイプなどの様々な予測タイプの中からそのＣＵの予測タイプを決定するために、符号化中に分析され得る。ＣＵは、時間的および／または空間的予測可能性に応じて、１つまたは複数の予測ユニット（ＰＵ）に分割され得る。一般に、各ＰＵは、１つのルーマ予測ブロック（ＰＢ）と、２つのクロマＰＢとを含む。一実施形態では、コーディング（符号化／復号）時の予測動作は、予測ブロック単位で行われる。ＣＵのＰＵ（または異なる色チャネルのＰＢ）への分割は、様々な空間パターンで実行され得る。例えば、ルーマまたはクロマＰＢは、８×８ピクセル、１６×１６ピクセル、８×１６ピクセル、１６×８サンプルなど、サンプルの値（例えば、ルーマ値）の行列を含み得る。

図７は、本開示の別の例示的な実施形態によるビデオエンコーダ（７０３）の図を示す。ビデオエンコーダ（７０３）は、ビデオピクチャのシーケンスにおける現在のビデオピクチャ内のサンプル値の処理ブロック（例えば、予測ブロック）を受信し、処理ブロックを、コード化ビデオシーケンスの一部であるコード化ピクチャに符号化するように構成される。例示的なビデオエンコーダ（７０３）は、図４の例におけるビデオエンコーダ（４０３）の代わりに使用され得る。

例えば、ビデオエンコーダ（７０３）は、８×８サンプルの予測ブロックなどの処理ブロックのサンプル値の行列を受信する。次いで、ビデオエンコーダ（７０３）は、イントラモード、インターモード、または双予測モードのどれを使用することで処理ブロックが最良にコーディングされるかを、例えば、レート歪み最適化（ＲＤＯ）を使用して、決定する。処理ブロックがイントラモードでコーディングされると決定されたとき、ビデオエンコーダ（７０３）は、イントラ予測技法を使用して、処理ブロックをコード化ピクチャに符号化し得、処理ブロックがインターモードまたは双予測モードでコーディングされると決定されたとき、ビデオエンコーダ（７０３）は、それぞれインター予測技法または双予測技法を使用して、処理ブロックをコード化ピクチャに符号化し得る。いくつかの例示的な実施形態では、マージモードは、インターピクチャ予測のサブモードとして使用され得、ここで、動きベクトルは、１つまたは複数の動きベクトル予測子から、その予測子の外側のコード化動きベクトル成分の助けを借りずに、導出される。いくつかの他の例示的な実施形態では、対象ブロックに適用可能な動きベクトル成分が存在し得る。したがって、ビデオエンコーダ（７０３）は、処理ブロックの予測モードを決定するために、モード決定モジュールなどの、図７に明示的に示されていない構成要素を含み得る。

図７の例では、ビデオエンコーダ（７０３）は、図７の例示的な構成に示すように互いに結合された、インターエンコーダ（７３０）と、イントラエンコーダ（７２２）と、残差計算器（７２３）と、スイッチ（７２６）と、残差エンコーダ（７２４）と、統括コントローラ（７２１）と、エントロピーエンコーダ（７２５）とを含む。

インターエンコーダ（７３０）は、現在ブロック（例えば、処理ブロック）のサンプルを受信し、そのブロックを参照ピクチャ内の１つまたは複数の参照ブロック（例えば、表示順序で前のピクチャおよび後のピクチャ内のブロック）と比較し、インター予測情報（例えば、インター符号化技法による冗長情報の記述、動きベクトル、マージモード情報）を生成し、任意の適切な技法を使用してインター予測情報に基づいてインター予測結果（例えば、予測されたブロック）を計算するように構成される。いくつかの例では、参照ピクチャは、（以下でさらに詳細に説明するように、図７の残差デコーダ７２８として示される）図６の例示的なエンコーダ６０３に埋め込まれた復号ユニット６３３を使用して、符号化ビデオ情報に基づいて復号された復号参照ピクチャである。

イントラエンコーダ（７２２）は、現在ブロック（例えば、処理ブロック）のサンプルを受信し、そのブロックを、同じピクチャ内のすでにコーディングされたブロックと比較し、変換後の量子化係数を生成し、また、場合によっては、イントラ予測情報（例えば、１つまたは複数のイントラ符号化技法によるイントラ予測方向情報）を生成するように構成される。イントラエンコーダ（７２２）は、イントラ予測情報および同じピクチャ内の参照ブロックに基づいて、イントラ予測結果（例えば、予測されたブロック）を計算し得る。

統括コントローラ（７２１）は、統括制御データを決定し、統括制御データに基づいてビデオエンコーダ（７０３）の他の構成要素を制御するように構成され得る。一例では、統括コントローラ（７２１）は、ブロックの予測モードを決定し、予測モードに基づいてスイッチ（７２６）に制御信号を提供する。例えば、予測モードがイントラモードである場合、統括コントローラ（７２１）は、残差計算器（７２３）による使用のためにイントラモード結果を選択するようにスイッチ（７２６）を制御し、イントラ予測情報を選択してイントラ予測情報をビットストリームに含めるようにエントロピーエンコーダ（７２５）を制御し、ブロックの予測モードがインターモードである場合、統括コントローラ（７２１）は、残差計算器（７２３）による使用のためにインター予測結果を選択するようにスイッチ（７２６）を制御し、インター予測情報を選択してインター予測情報をビットストリームに含めるようにエントロピーエンコーダ（７２５）を制御する。

残差計算器（７２３）は、受信されたブロックと、イントラエンコーダ（７２２）またはインターエンコーダ（７３０）から選択されたブロックについての予測結果との間の差分（残差データ）を計算するように構成され得る。残差エンコーダ（７２４）は、残差データを符号化して変換係数を生成するように構成され得る。例えば、残差エンコーダ（７２４）は、残差データを空間領域から周波数領域に変換して変換係数を生成するように構成され得る。次いで、変換係数は、量子化された変換係数を取得するために量子化処理を受ける。様々な例示的な実施形態では、ビデオエンコーダ（７０３）は、残差デコーダ（７２８）も含む。残差デコーダ（７２８）は、逆変換を実行し、復号された残差データを生成するように構成される。復号された残差データは、イントラエンコーダ（７２２）およびインターエンコーダ（７３０）によって適切に使用することができる。例えば、インターエンコーダ（７３０）は、復号された残差データおよびインター予測情報に基づいて、復号されたブロックを生成することができ、イントラエンコーダ（７２２）は、復号された残差データおよびイントラ予測情報に基づいて、復号されたブロックを生成することができる。復号されたブロックは、復号されたピクチャを生成するために適切に処理され、復号されたピクチャは、メモリ回路（図示せず）にバッファされ、参照ピクチャとして使用され得る。

エントロピーエンコーダ（７２５）は、符号化されたブロックを含むようにビットストリームをフォーマットし、エントロピーコーディングを実行するように構成され得る。エントロピーエンコーダ（７２５）は、様々な情報をビットストリームに含めるように構成される。例えば、エントロピーエンコーダ（７２５）は、統括制御データ、選択された予測情報（例えば、イントラ予測情報またはインター予測情報）、残差情報、および他の適切な情報をビットストリームに含めるように構成され得る。インターモードまたは双予測モードのいずれかのマージサブモードでブロックをコーディングするとき、残差情報がないことがある。

図８は、本開示の別の実施形態による例示的なビデオデコーダ（８１０）の図を示す。ビデオデコーダ（８１０）は、コード化ビデオシーケンスの一部であるコード化ピクチャを受信し、コード化ピクチャを復号して、再構成されたピクチャを生成するように構成される。一例では、ビデオデコーダ（８１０）は、図４の例におけるビデオデコーダ（４１０）の代わりに使用され得る。

図８の例では、ビデオデコーダ（８１０）は、図８の例示的な構成に示すように互いに結合された、エントロピーデコーダ（８７１）と、インターデコーダ（８８０）と、残差デコーダ（８７３）と、再構成モジュール（８７４）と、イントラデコーダ（８７２）とを含む。

エントロピーデコーダ（８７１）は、コード化ピクチャから、コード化ピクチャを構成するシンタックス要素を表す特定のシンボルを再構成するように構成され得る。そのようなシンボルは、例えば、ブロックがコーディングされるモード（例えば、イントラモード、インターモード、双予測モード、マージサブモード、または別のサブモード）、イントラデコーダ（８７２）またはインターデコーダ（８８０）による予測に使用される特定のサンプルまたはメタデータを識別することができる予測情報（例えば、イントラ予測情報またはインター予測情報）、例えば、量子化された変換係数の形態の残差情報などを含むことができる。一例では、予測モードがインターモードまたは双予測モードである場合、インター予測情報がインターデコーダ（８８０）に提供され、予測タイプがイントラ予測タイプである場合、イントラ予測情報がイントラデコーダ（８７２）に提供される。残差情報は、逆量子化を受けることができ、残差デコーダ（８７３）に提供される。

インターデコーダ（８８０）は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成され得る。

イントラデコーダ（８７２）は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成され得る。

残差デコーダ（８７３）は、逆量子化を実行して逆量子化された変換係数を抽出し、逆量子化された変換係数を処理して残差を周波数領域から空間領域に変換するように構成され得る。残差デコーダ（８７３）はまた、（量子化器パラメータ（ＱＰ）を含むために）特定の制御情報を利用し得、これは、エントロピーデコーダ（８７１）によって提供され得る（これは低データ量制御情報のみであり得るため、データ経路は図示されていない）。

再構成モジュール（８７４）は、空間領域において、残差デコーダ（８７３）によって出力された残差と（場合に応じてインター予測モジュールまたはイントラ予測モジュールによって出力された）予測結果とを組み合わせて、再構成されたビデオの一部として再構成されたピクチャの一部を形成する再構成されたブロックを形成するように構成され得る。視覚品質を向上させるために、デブロッキング動作などの他の適切な動作も実行され得ることに留意されたい。

ビデオエンコーダ（４０３）、（６０３）、および（７０３）、ならびにビデオデコーダ（４１０）、（５１０）、および（８１０）は、任意の適切な技法を使用して実装され得ることに留意されたい。いくつかの例示的な実施形態では、ビデオエンコーダ（４０３）、（６０３）、および（７０３）、ならびにビデオデコーダ（４１０）、（５１０）、および（８１０）は、１つまたは複数の集積回路を使用して実装され得る。別の実施形態では、ビデオエンコーダ（４０３）、（６０３）、および（７０３）、ならびにビデオデコーダ（４１０）、（５１０）、および（８１０）は、ソフトウェア命令を実行する１つまたは複数のプロセッサを使用して実装され得る。

コーディングおよび復号のためのブロックパーティショニングに目を向けると、一般的なパーティショニングは、ベースブロックから開始し得、予め定義されたルールセット、特定のパターン、パーティションツリー、または任意のパーティション構造または方式に従い得る。パーティショニングは、階層的かつ再帰的であり得る。例示的なパーティショニングプロシージャもしくは以下で説明する他のプロシージャのいずれか、またはそれらの組み合わせにしたがってベースブロックを分割またはパーティショニングした後、パーティションまたはコーディングブロックの最終セットが取得され得る。これらのパーティションの各々は、パーティショニング階層における様々なパーティショニングレベルのうちの１つにあり得、様々な形状であり得る。パーティションの各々は、コーディングブロック（ＣＢ）と呼ばれることがある。以下でさらに説明される様々な例示的なパーティショニング実装形態について、結果として得られる各ＣＢは、許容されたサイズおよびパーティショニングレベルのいずれかであり得る。そのようなパーティションは、いくつかの基本的なコーディング／復号決定が行われ得、コーディング／復号パラメータが最適化され、決定され、符号化ビデオビットストリーム中でシグナリングされ得る単位を形成し得るので、コーディングブロックと呼ばれる。最終パーティションにおける最高または最深レベルは、ツリーのコーディングブロックパーティショニング構造の深度を表す。コーディングブロックは、ルーマコーディングブロックまたはクロマコーディングブロックであり得る。各色のＣＢツリー構造は、コーディングブロックツリー（ＣＢＴ）と呼ばれることがある。

すべての色チャネルのコーディングブロックは、総称して、コーディングユニット（ＣＵ）と呼ばれることがある。すべての色チャネルの階層構造は、総称して、コーディングツリーユニット（ＣＴＵ）と呼ばれることがある。ＣＴＵ中の様々な色チャネルのためのパーティショニングパターンまたは構造は、同じであっても同じでなくてもよい。

いくつかの実装形態では、ルーマチャネルおよびクロマチャネルに使用されるパーティションツリー方式または構造は、同じである必要がないであろう。言い換えると、ルーマチャネルおよびクロマチャネルは、別個のコーディングツリー構造またはパターンを有し得る。さらに、ルーマチャネルとクロマチャネルとが同じコーディングパーティションツリー構造を使用するのか異なるコーディングパーティションツリー構造を使用するのかと、使用されるべき実際のコーディングパーティションツリー構造とは、コーディングされているスライスがＰスライスであるか、Ｂスライスであるか、Ｉスライスであるかに依存し得る。例えば、Ｉスライスの場合、クロマチャネルおよびルーマチャネルは、別個のコーディングパーティションツリー構造またはコーディングパーティションツリー構造モードを有し得るが、ＰまたはＢスライスの場合、ルーマチャネルおよびクロマチャネルは、同じコーディングパーティションツリー方式を共有し得る。別個のコーディングパーティションツリー構造またはモードが適用されるとき、ルーマチャネルは、１つのコーディングパーティションツリー構造によってＣＢにパーティショニングされ得、クロマチャネルは、別のコーディングパーティションツリー構造によってクロマＣＢにパーティショニングされ得る。

いくつかの例示的な実装形態では、所定のパーティショニングパターンがベースブロックに適用され得る。図９に示すように、例示的な４ウェイパーティションツリーは、第１の予め定義されたレベル（例えば、ベースブロックサイズとして、６４×６４ブロックレベルまたは他のサイズ）から開始し得、ベースブロックは、予め定義された最下位レベル（例えば、４×４レベル）まで階層的にパーティショニングされ得る。例えば、ベースブロックは、９０２、９０４、９０６、および９０８によって示される４つの予め定義されたパーティショニングオプションまたはパターンを受け得、Ｒとして指定されたパーティションは、図９に示されるのと同じパーティションオプションが最下位レベル（例えば、４×４レベル）までより低いスケールで繰り返され得るという点で、再帰的パーティショニングが許容される。いくつかの実装形態では、追加の制限が図９のパーティショニング方式に適用され得る。図９の実装形態では、長方形パーティション（例えば、１：２／２：１長方形パーティション）が許容され得るが、正方形パーティションが再帰的であることが許容されるのに対して、それらは再帰的であることが許容されないことがある。再帰を伴う図９に従ったパーティショニングは、必要に応じて、コーディングブロックの最終セットを生成する。ルートノードまたはルートブロックからの分割深度を示すために、コーディングツリー深度がさらに定義され得る。例えば、ルートノードまたはルートブロック、例えば６４×６４ブロックのためのコーディングツリー深度は０に設定され得、ルートブロックが図９にしたがってさらに１回分割された後、コーディングツリー深度は１だけ増加される。６４×６４ベースブロックから４×４の最小パーティションまでの最大または最深レベルは、上記の方式では（レベル０から開始して）４である。そのようなパーティショニング方式は、色チャネルのうちの１つまたは複数に適用され得る。各色チャネルは、図９の方式にしたがって独立してパーティショニングされ得る（例えば、予め定義されたパターンの間のパーティショニングパターンまたはオプションは、各階層レベルにおいて色チャネルの各々について独立して決定され得る）。代替的に、色チャネルのうちの２つ以上が、図９と同じ階層パターンツリーを共有してもよい（例えば、予め定義されたパターンの間の同じパーティショニングパターンまたはオプションが、各階層レベルにおいて２つ以上の色チャネルのために選定され得る）。

図１０は、パーティショニングツリーを形成するために再帰的パーティショニングを許容する別の例示的な予め定義されたパーティショニングパターンを示す。図１０に示すように、例示的な１０ウェイパーティショニング構造またはパターンが予め定義され得る。ルートブロックは、予め定義されたレベルで（例えば、１２８×１２８レベルまたは６４×６４レベルのベースブロックから）開始し得る。図１０の例示的なパーティショニング構造は、様々な２：１／１：２および４：１／１：４長方形パーティションを含む。図１０の第２の行中の１００２、１００４、１００６、および１００８で示される３つのサブパーティションを有するパーティションタイプは、「Ｔ型」パーティションと呼ばれることがある。「Ｔ型」パーティション１００２、１００４、１００６、および１００８は、左Ｔ型、上Ｔ型、右Ｔ型、および下Ｔ型と呼ばれることがある。いくつかの例示的な実装形態では、図１０の長方形パーティションのいずれも、さらなる細分が許容されない。ルートノードまたはルートブロックからの分割深度を示すために、コーディングツリー深度がさらに定義され得る。例えば、ルートノードまたはルートブロック、例えば、１２８×１２８ブロックのためのコーディングツリー深度は０に設定され得、ルートブロックが図１０にしたがってさらに１回分割された後、コーディングツリー深度は１だけ増加される。いくつかの実装形態では、１０１０における全正方形パーティションのみが、図１０のパターンに従ったパーティショニングツリーの次のレベルへの再帰的パーティショニングを許容され得る。言い換えると、Ｔ型パターン１００２、１００４、１００６、および１００８内の正方形パーティションに対しては再帰的パーティショニングが許容されない場合がある。再帰を伴う図１０に従ったパーティショニングプロシージャは、必要に応じて、コーディングブロックの最終セットを生成する。そのような方式は、色チャネルのうちの１つまたは複数に適用され得る。いくつかの実装形態では、８×８レベルを下回るパーティションの使用に、より多くのフレキシビリティが追加され得る。例えば、特定の場合には２×２クロマインター予測が使用され得る。

コーディングブロックパーティショニングのためのいくつかの他の例示的な実装形態では、ベースブロックまたは中間ブロックを四分木パーティションに分割するために四分木構造が使用され得る。このような四分木分割は、任意の正方形のパーティションに階層的かつ再帰的に適用され得る。ベースブロックまたは中間ブロックもしくはパーティションがさらに四分木分割されるかどうかは、ベースブロックまたは中間ブロック／パーティションの様々なローカル特性に適合され得る。ピクチャ境界における四分木パーティショニングがさらに適合され得る。例えば、サイズがピクチャ境界に適合するまでブロックが四分木分割を続けるように、ピクチャ境界において暗黙的四分木分割が実行され得る。

いくつかの他の例示的な実装形態では、ベースブロックからの階層バイナリパーティショニングが使用され得る。そのような方式の場合、ベースブロックまたは中間レベルブロックは、２つのパーティションにパーティショニングされ得る。バイナリパーティショニングは、水平または垂直のいずれかであり得る。例えば、水平バイナリパーティショニングは、ベースブロックまたは中間ブロックを等しい右パーティションおよび左パーティションに分割し得る。同様に、垂直バイナリパーティショニングは、ベースブロックまたは中間ブロックを等しい上パーティションおよび下パーティションに分割し得る。そのようなバイナリパーティショニングは、階層的かつ再帰的であり得る。ベースブロックまたは中間ブロックの各々において、バイナリパーティショニング方式を継続すべきかどうか、および方式がさらに継続する場合、水平バイナリパーティショニングが使用されるべきか垂直バイナリパーティショニングが使用されるべきかについて決定が行われ得る。いくつかの実装形態では、さらなるパーティショニングは、（一方または両方の次元における）予め定義された最低パーティションサイズで停止し得る。代替的に、さらなるパーティショニングは、ベースブロックからの予め定義されたパーティショニングレベルまたは深度に達すると、停止してもよい。いくつかの実装形態では、パーティションのアスペクト比が制限され得る。例えば、パーティションのアスペクト比は、１：４よりも小さく（または４：１よりも大きく）ならないであろう。そのため、４：１の垂直対水平アスペクト比を有する垂直ストリップパーティションは、各々が２：１の垂直対水平アスペクト比を有する上パーティションおよび下パーティションへと垂直にのみさらにバイナリパーティショニングされ得る。

さらにいくつかの他の例では、図１３に示すように、ベースブロックまたは任意の中間ブロックをパーティショニングするためにターナリパーティショニング方式が使用され得る。ターナリパターンは、図１３の１３０２に示されるように垂直に、または図１３の１３０４に示されるように水平に実装され得る。図１３の例示的な分割比は、垂直にまたは水平に、１：２：１として示されているが、他の比が予め定義されてもよい。いくつかの実装形態では、２つ以上の異なる比が予め定義され得る。四分木および二分木では常にブロック中心に沿って分割するので、オブジェクトを別個のパーティションに分割することになるが、そのような三分木パーティショニングは１つの連続するパーティション内のブロック中心に位置するオブジェクトをキャプチャすることが可能であるという点で、そのようなターナリパーティショニング方式は、四分木または二分木パーティショニング構造を補完するために使用され得る。いくつかの実装形態では、例示的な三分木のパーティションの幅および高さは、追加の変換を回避するために常に２のべき乗である。

上記のパーティショニング方式は、異なるパーティショニングレベルにおいて任意の方法で組み合わせられ得る。一例として、上記で説明した四分木およびバイナリパーティショニング方式は、ベースブロックを四分木－二分木（ＱＴＢＴ）構造にパーティショニングするために組み合わせられ得る。そのような方式では、ベースブロックまたは中間ブロック／パーティションは、指定された場合、予め定義された条件のセットにしたがって、四分木分割またはバイナリ分割のいずれかが行われ得る。特定の例を図１４に示す。図１４の例では、ベースブロックは、最初に、１４０２、１４０４、１４０６、および１４０８によって示されるように、４つのパーティションに四分木分割される。その後、結果として得られるパーティションの各々は、４つのさらなるパーティションに四分木パーティショニングされる（１４０８など）か、次のレベルにおいて２つのさらなるパーティションにバイナリ分割される（例えば、水平にまたは垂直に、両方とも対称である１４０２または１４０６など）か、分割されない（１４０４）かのいずれかである。バイナリ分割または四分木分割は、１４１０の全体的な例示的パーティションパターンおよび１４２０における対応するツリー構造／表現によって示されるように、正方形のパーティションに対して再帰的に許容され得、ここで、実線は四分木分割を表し、破線はバイナリ分割を表す。バイナリ分割が水平であるか垂直であるかを示すために、各バイナリ分割ノード（非リーフバイナリパーティション）に対してフラグが使用され得る。例えば、１４２０に示すように、１４１０のパーティショニング構造と一致して、フラグ「０」は、水平バイナリ分割を表し得、フラグ「１」は、垂直バイナリ分割を表し得る。四分木分割されたパーティションの場合、四分木分割は常に、ブロックまたはパーティションを水平と垂直の両方に分割して、等しいサイズを有する４つのサブブロック／パーティションを生成するので、分割タイプを示す必要はない。いくつかの実装形態では、フラグ「１」は水平バイナリ分割を表し得、フラグ「０」は、垂直バイナリ分割を表し得る。

ＱＴＢＴのいくつかの例示的な実装形態では、四分木およびバイナリ分割ルールセットは、以下の予め定義されたパラメータおよびそれに関連する対応する関数によって表され得る。
－ＣＴＵサイズ：四分木のルートノードサイズ（ベースブロックのサイズ）
－ＭｉｎＱＴＳｉｚｅ：最小許容四分木リーフノードサイズ
－ＭａｘＢＴＳｉｚｅ：最大許容二分木ルートノードサイズ
－ＭａｘＢＴＤｅｐｔｈ：最大許容二分木深度
－ＭｉｎＢＴＳｉｚｅ：最小許容二分木リーフノードサイズ
ＱＴＢＴパーティショニング構造のいくつかの例示的な実装形態では、ＣＴＵサイズは、（例示的なクロマサブサンプリングを考慮し使用する場合）クロマサンプルの２つの対応する６４×６４ブロックを有する１２８×１２８ルーマサンプルとして設定され得、ＭｉｎＱＴＳｉｚｅは、１６×１６として設定され得、ＭａｘＢＴＳｉｚｅは、６４×６４として設定され得、ＭｉｎＢＴＳｉｚｅ（幅および高さの両方）は、４×４として設定され得、ＭａｘＢＴＤｅｐｔｈは、４として設定され得る。四分木パーティショニングは、四分木リーフノードを生成するために、最初、ＣＴＵに適用され得る。四分木リーフノードは、その最小許容サイズ１６×１６（すなわちＭｉｎＱＴＳｉｚｅ）から１２８×１２８（すなわち、ＣＴＵサイズ）のサイズを有し得る。ノードが１２８×１２８である場合、サイズがＭａｘＢＴＳｉｚｅ（すなわち６４×６４）を超えるので、最初、二分木によって分割されない。そうでない場合、ＭａｘＢＴＳｉｚｅを超えないノードは、二分木によってパーティショニングされる可能性がある。図１４の例では、ベースブロックは１２８×１２８である。ベースブロックは、予め定義されたルールセットにしたがって、四分木分割のみ行うことができる。ベースブロックは、０のパーティショニング深度を有する。結果として得られる４つのパーティションの各々は、６４×６４であり、ＭａｘＢＴＳｉｚｅを超えず、レベル１でさらに四分木または二分木分割され得る。プロセスは続く。二分木深度がＭａｘＢＴＤｅｐｔｈ（すなわち、４）に達すると、それ以上の分割は考慮されないであろう。二分木ノードがＭｉｎＢＴＳｉｚｅ（すなわち、４）に等しい幅を有するとき、それ以上の水平分割は考慮されないであろう。同様に、二分木ノードの高さがＭｉｎＢＴＳｉｚｅに等しいとき、それ以上の垂直分割は考慮されない。

いくつかの例示的な実装形態では、上記のＱＴＢＴ方式は、ルーマおよびクロマが同じＱＴＢＴ構造または別個のＱＴＢＴ構造を有するためのフレキシビリティをサポートするように構成され得る。例えば、ＰスライスおよびＢスライスの場合、１つのＣＴＵ中のルーマＣＴＢおよびクロマＣＴＢは、同じＱＴＢＴ構造を共有し得る。しかしながら、Ｉスライスの場合、ルーマＣＴＢは、ＱＴＢＴ構造によってＣＢにパーティショニングされ得、クロマＣＴＢは、別のＱＴＢＴ構造によってクロマＣＢにパーティショニングされ得る。これは、ＣＵがＩスライス中の異なる色チャネルを指すために使用され得ることを意味し、例えば、Ｉスライスは、１つのルーマ成分のコーディングブロックまたは２つのクロマ成分のコーディングブロックから構成され得、ＰスライスまたはＢスライス中のＣＵは、すべての３つの色成分のコーディングブロックから構成され得る。

いくつかの他の実装形態では、ＱＴＢＴ方式は、上記で説明したターナリ方式で補足され得る。そのような実装形態は、マルチタイプツリー（ＭＴＴ）構造と呼ばれることがある。例えば、ノードのバイナリ分割に加えて、図１３のターナリパーティションパターンのうちの１つが選定され得る。いくつかの実装形態では、正方形ノードのみがターナリ分割の対象となり得る。ターナリパーティショニングが水平であるか垂直であるかを示すために、追加のフラグが使用され得る。

ＱＴＢＴ実装形態およびターナリ分割によって補足されるＱＴＢＴ実装形態など、２レベルツリーまたはマルチレベルツリーの設計は、主に複雑さ低減によって動機付けられ得る。理論的には、ツリーをトラバースする複雑さは、Ｔ^Ｄであり、ここで、Ｔは、分割タイプの数を示し、Ｄは、ツリーの深度である。深度（Ｄ）を低減しながら、複数のタイプ（Ｔ）を使用することによって、トレードオフが行われ得る。

いくつかの実装形態では、ＣＢは、さらにパーティショニングされ得る。例えば、ＣＢは、コーディングおよび復号プロセス中のイントラまたはインターフレーム予測の目的で、複数の予測ブロック（ＰＢ）にさらにパーティショニングされ得る。言い換えると、ＣＢは、個々の予測決定／構成が行われ得る異なるサブパーティションにさらに分割され得る。並行して、ＣＢは、ビデオデータの変換または逆変換が実行されるレベルを線引きする目的で、複数の変換ブロック（ＴＢ）にさらにパーティショニングされ得る。ＣＢのＰＢおよびＴＢへのパーティショニング方式は、同じであっても、同じでなくてもよい。例えば、各パーティショニング方式は、例えば、ビデオデータの様々な特性に基づいて、それ自体のプロシージャを使用して実行され得る。ＰＢおよびＴＢパーティショニング方式は、いくつかの例示的な実装形態では独立しているであろう。ＰＢおよびＴＢパーティショニング方式および境界は、いくつかの他の例示的な実装形態では相関性があるであろう。いくつかの実装形態では、例えば、ＴＢは、ＰＢパーティションにパーティショニングされ得、特に、ＰＢは、コーディングブロックのパーティショニングにしたがって決定された後、１つまたは複数のＴＢにさらにパーティショニングされ得る。例えば、いくつかの実装形態では、ＰＢは、１つ、２つ、４つ、または他の数のＴＢに分割され得る。

いくつかの実装形態では、ベースブロックをコーディングブロックにパーティショニングし、さらに予測ブロックおよび／または変換ブロックにパーティショニングするために、ルーマチャネルとクロマチャネルとは別様に扱われ得る。例えば、いくつかの実装形態では、コーディングブロックの予測ブロックおよび／または変換ブロックへのパーティショニングは、ルーマチャネルに対しては許容され得るが、コーディングブロックの予測ブロックおよび／または変換ブロックへのそのようなパーティショニングは、クロマチャネル（複数可）に対しては許容されないことがある。そのような実装形態では、ルーマブロックの変換および／または予測は、このように、コーディングブロックレベルにおいてのみ実行され得る。別の例では、ルーマチャネルおよびクロマチャネル（複数可）のための最小変換ブロックサイズは異なり得、例えば、ルーマチャネルのためのコーディングブロックは、クロマチャネルよりも小さい変換および／または予測ブロックにパーティショニングされることが許容され得る。さらに別の例として、コーディングブロックの変換ブロックおよび／または予測ブロックへのパーティショニングの最大深度は、ルーマチャネルとクロマチャネルとの間で異なり得、例えば、ルーマチャネルのためのコーディングブロックは、クロマチャネル（複数可）よりも深い変換および／または予測ブロックにパーティショニングされることが許容され得る。具体的な例では、ルーマコーディングブロックは、最大２レベル下がる再帰的パーティションで表現することができる複数サイズの変換ブロックにパーティショニングされ、正方形、２：１／１：２、および４：１／１：４などの変換ブロック形状ならびに４×４から６４×６４までの変換ブロックサイズが許容され得る。しかしながら、クロマブロックの場合、ルーマブロックのために指定された最大の可能な変換ブロックのみが許容され得る。

コーディングブロックをＰＢに分割するためのいくつかの例示的な実装形態では、ＰＢパーティショニングの深度、形状、および／または他の特性は、ＰＢがイントラコーディングされるかインターコーディングされるかに依存し得る。

コーディングブロック（または予測ブロック）の変換ブロックへのパーティショニングは、限定はしないが、再帰的または非再帰的な四分木分割および予め定義されたパターン分割を含む様々な例示的な方式で、コーディングブロックまたは予測ブロックの境界における変換ブロックについての追加の考慮とともに、実装され得る。一般に、結果として得られる変換ブロックは、異なる分割レベルにあり得、同じサイズでなくてもよく、形状が正方形である必要はないであろう（例えば、それらは、何らかの許容サイズおよびアスペクト比を有する長方形であり得る）。さらなる例が、図１５、図１６、および図１７に関して以下でさらに詳細に説明される。

しかしながら、いくつかの他の実装形態では、上記のパーティショニング方式のいずれかを介して取得されたＣＢは、予測および／または変換のための基本または最小コーディングブロックとして使用され得る。言い換えると、インター予測／イントラ予測目的および／または変換目的で、それ以上の分割は実行されない。例えば、上記のＱＴＢＴ方式から取得されたＣＢは、予測を実行するためのユニットとして直接使用され得る。具体的には、そのようなＱＴＢＴ構造は、複数のパーティションタイプの概念を除去し、すなわち、それは、ＣＵ、ＰＵおよびＴＵの分離を除去し、上記で説明したようなＣＵ／ＣＢパーティション形状のためのより多くのフレキシビリティをサポートする。そのようなＱＴＢＴブロック構造では、ＣＵ／ＣＢは、正方形または長方形の形状いずれかを有することができる。そのようなＱＴＢＴのリーフノードは、それ以上のパーティショニングなしに、予測および変換処理のためのユニットとして使用される。これは、ＣＵ、ＰＵ、およびＴＵが、そのような例示的なＱＴＢＴコーディングブロック構造において同じブロックサイズを有することを意味する。

上記の様々なＣＢパーティショニング方式ならびに（ＰＢ／ＴＢパーティショニングなしを含む）ＣＢのＰＢおよび／またはＴＢへのさらなるパーティショニングは、任意の方法で組み合わせられ得る。以下の特定の実装形態は、非限定的な例として提供される。

コーディングブロックおよび変換ブロックパーティショニングの特定の例示的な実装形態について以下で説明する。そのような例示的な実装形態では、ベースブロックは、再帰的四分木分割、または（図９および図１０のものなどの）上記で説明した予め定義された分割パターンを使用してコーディングブロックに分割され得る。各レベルにおいて、特定のパーティションのさらなる四分木分割を継続すべきかどうかは、ローカルビデオデータ特性によって決定され得る。結果として得られるＣＢは、様々な四分木分割レベルであり、様々なサイズであり得る。インターピクチャ（時間）予測またはイントラピクチャ（空間）予測を使用してピクチャエリアをコーディングすべきかどうかに関する決定は、ＣＢレベル（または、すべての３色チャネルについてＣＵレベル）において行われ得る。各ＣＢは、予め定義されたＰＢ分割タイプにしたがって、１つ、２つ、４つ、または他の数のＰＢにさらに分割され得る。１つのＰＢの内部では、同じ予測プロセスが適用され得、関連情報は、ＰＢごとにデコーダに送信され得る。ＰＢ分割タイプに基づいて予測プロセスを適用することによって残差ブロックを取得した後、ＣＢは、ＣＢのためのコーディングツリーと同様の別の四分木構造にしたがってＴＢにパーティショニングされ得る。この特定の実装形態では、ＣＢまたはＴＢは、正方形に限定され得るが、それに限定される必要はない。さらに、この特定の例では、ＰＢは、インター予測の場合は正方形または長方形であり得、イントラ予測の場合は正方形のみであり得る。コーディングブロックは、例えば、４つの正方形のＴＢに分割され得る。各ＴＢは、残差四分木（ＲＱＴ）と呼ばれる、より小さいＴＢに（四分木分割を使用して）再帰的にさらに分割され得る。

ベースブロックをＣＢ、ＰＢ、および／またはＴＢにパーティショニングするための別の例示的な実装形態について以下でさらに説明する。例えば、図９または図１０に示すものなどの複数のパーティションユニットタイプを使用するのではなく、バイナリおよびターナリ分割セグメンテーション構造（例えば、上記で説明したＱＴＢＴまたはターナリ分割を有するＱＴＢＴ）を使用するネスト型マルチタイプツリーを有する四分木が使用され得る。ＣＢ、ＰＢ、およびＴＢの分離（すなわち、ＣＢのＰＢおよび／またはＴＢへのパーティショニングならびにＰＢのＴＢへのパーティショニング）は、最大変換長に対して大きすぎるサイズを有するＣＢに必要とされるときを除いて、放棄され得、そのようなＣＢは、さらなる分割を必要とし得る。この例示的なパーティショニング方式は、予測と変換の両方がそれ以上のパーティショニングなしにＣＢレベルで実行され得るように、ＣＢパーティション形状のためのより多くのフレキシビリティをサポートするように設計され得る。そのようなコーディングツリー構造では、ＣＢは、正方形または長方形の形状のいずれかを有し得る。具体的には、コーディングツリーブロック（ＣＴＢ）は、最初に四分木構造によってパーティショニングされ得る。次いで、四分木リーフノードは、ネスト型マルチタイプツリー構造によってさらにパーティショニングされ得る。バイナリ分割またはターナリ分割を使用するネスト型マルチタイプツリー構造の例を図１１に示す。具体的には、図１１の例示的なマルチタイプツリー構造は、垂直バイナリ分割（ＳＰＬＩＴ＿ＢＴ＿ＶＥＲ）（１１０２）、水平バイナリ分割（ＳＰＬＩＴ＿ＢＴ＿ＨＯＲ）（１１０４）、垂直ターナリ分割（ＳＰＬＩＴ＿ＴＴ＿ＶＥＲ）（１１０６）、および水平ターナリ分割（ＳＰＬＩＴ＿ＴＴ＿ＨＯＲ）（１１０８）と呼ばれる４つの分割タイプを含む。そして、ＣＢは、マルチタイプツリーのリーフに対応する。この例示的な実装形態では、ＣＢが最大変換長に対して大きすぎない限り、このセグメンテーションは、それ以上のパーティショニングなしに、予測処理と変換処理の両方に使用される。これは、ほとんどの場合、ＣＢ、ＰＢ、およびＴＢが、ネスト型マルチタイプツリーコーディングブロック構造を有する四分木において同じブロックサイズを有することを意味する。例外は、サポートされる最大変換長がＣＢの色成分の幅または高さよりも小さいときに発生する。いくつかの実装形態では、バイナリ分割またはターナリ分割に加えて、図１１のネスト型パターンは、四分木分割をさらに含み得る。

１つのベースブロックのための（四分木、バイナリ、およびターナリ分割オプションを含む）ブロックパーティションのネスト型マルチタイプツリーコーディングブロック構造を有する四分木のための１つの具体的な例が図１２に示されている。より詳細には、図１２は、ベースブロック１２００が４つの正方形パーティション１２０２、１２０４、１２０６、および１２０８に四分木分割されることを示す。さらなる分割のために図１１のマルチタイプツリー構造および四分木をさらに使用する決定は、四分木分割されたパーティションの各々に対して行われる。図１２の例では、パーティション１２０４は、それ以上分割されない。パーティション１２０２および１２０８はそれぞれ、別の四分木分割を採用する。パーティション１２０２の場合、第２レベルの四分木分割された左上、右上、左下、および右下のパーティションは、それぞれ、四分木、図１１の水平バイナリ分割１１０４、非分割、および図１１の水平ターナリ分割１１０８の第３レベルの分割を採用する。パーティション１２０８は、別の四分木分割を採用し、第２レベルの四分木分割された左上、右上、左下、および右下のパーティションは、それぞれ、図１１の垂直ターナリ分割１１０６、非分割、非分割、および図１１の水平バイナリ分割１１０４の第３レベルの分割を採用する。１２０８の第３レベルの左上パーティションのサブパーティションのうちの２つは、それぞれ、図１１の水平バイナリ分割１１０４および水平ターナリ分割１１０８にしたがってさらに分割される。パーティション１２０６は、図１１の垂直バイナリ分割１１０２に従った分割パターンを第２レベルで採用して２つのパーティションにし、これらのパーティションは、第３レベルで、図１１の水平ターナリ分割１１０８および垂直バイナリ分割１１０２にしたがってさらに分割される。第４レベルの分割は、図１１の水平バイナリ分割１１０４にしたがって、それらのうちの１つにさらに適用される。

上記の具体的な例では、最大ルーマ変換サイズは６４×６４であり得、サポートされる最大クロマ変換サイズは、例えば、３２×３２におけるルーマとは異なり得る。図１２における上記の例示的なＣＢは、一般に、より小さいＰＢおよび／またはＴＢにさらに分割されないが、ルーマコーディングブロックまたはクロマコーディングブロックの幅または高さが最大変換幅または高さよりも大きいとき、ルーマコーディングブロックまたはクロマコーディングブロックは、当該方向における変換サイズ制限を満たすために、水平方向および／または垂直方向に自動的に分割され得る。

上記のベースブロックをＣＢにパーティショニングするための具体的な例では、上記で説明したように、コーディングツリー方式は、ルーマとクロマとが別個のブロックツリー構造を有する能力をサポートし得る。例えば、ＰスライスおよびＢスライスの場合、１つのＣＴＵ中のルーマＣＴＢおよびクロマＣＴＢは同じコーディングツリー構造を共有し得る。Ｉスライスの場合、例えば、ルーマおよびクロマは別個のコーディングブロックツリー構造を有し得る。別個のブロックツリー構造が適用されるとき、ルーマＣＴＢは、１つのコーディングツリー構造によってルーマＣＢにパーティショニングされ得、クロマＣＴＢは、別のコーディングツリー構造によってクロマＣＢにパーティショニングされる。これは、Ｉスライス中のＣＵが１つのルーマ成分のコーディングブロックまたは２つのクロマ成分のコーディングブロックから構成され得、ビデオがモノクロームでない限り、ＰまたはＢスライス中のＣＵが常にすべての３つの色成分のコーディングブロックから構成されることを意味する。

コーディングブロックが複数の変換ブロックにさらにパーティショニングされるとき、その中の変換ブロックは、様々な順序または走査方法にしたがってビットストリーム中で順序付けられ得る。コーディングブロックまたは予測ブロックを変換ブロックにパーティショニングするための例示的な実装形態、および変換ブロックのコーディング順序が、以下でさらに詳細に説明される。いくつかの例示的な実装形態では、上記で説明したように、変換パーティショニングは、複数の形状、例えば、１：１（正方形）、１：２／２：１、および１：４／４：１の変換ブロックをサポートし得、変換ブロックサイズは、例えば、４×４から６４×６４に及ぶ。いくつかの実装形態では、コーディングブロックが６４×６４以下である場合、変換ブロックパーティショニングは、ルーマ成分のみに適用され得、したがって、クロマブロックについては、変換ブロックサイズはコーディングブロックサイズと同一である。そうではなく、コーディングブロック幅または高さが６４よりも大きい場合、ルーマコーディングブロックとクロマコーディングブロックの両方は、それぞれｍｉｎ（Ｗ，６４）×ｍｉｎ（Ｈ，６４）およびｍｉｎ（Ｗ，３２）×ｍｉｎ（Ｈ，３２）の変換ブロックの倍数に暗黙的に分割され得る。

変換ブロックパーティショニングのいくつかの例示的な実装形態では、イントラコーディングされたブロックとインターコーディングされたブロックの両方について、コーディングブロックは、予め定義されたレベル数（例えば、２つのレベル）までのパーティショニング深度で複数の変換ブロックにさらにパーティショニングされ得る。変換ブロックパーティショニング深度およびサイズは、関連し得る。いくつかの例示的な実装形態について、現在の深度の変換サイズから次の深度の変換サイズへのマッピングが、以下の表１に示される。

表１の例示的なマッピングに基づいて、１：１正方形ブロックの場合、次のレベルの変換分割は、４つの１：１正方形サブ変換ブロックを作成し得る。変換パーティションは、例えば、４×４で停止し得る。そのため、現在の深度の変換サイズ４×４は、次の深度でも同じサイズ４×４に対応する。表１の例では、１：２／２：１非正方形ブロックの場合、次のレベルの変換分割は、２つの１：１正方形サブ変換ブロックを作成し得るが、１：４／４：１非正方形ブロックの場合、次のレベルの変換分割は、２つの１：２／２：１サブ変換ブロックを作成し得る。

いくつかの例示的な実装形態では、イントラコーディングされたブロックのルーマ成分について、変換ブロックパーティショニングに関して追加の制限が適用され得る。例えば、変換パーティショニングの各レベルについて、すべてのサブ変換ブロックは、等しいサイズを有するように制限され得る。例えば、３２×１６コーディングブロックの場合、レベル１変換分割は、２つの１６×１６サブ変換ブロックを作成し、レベル２変換分割は、８つの８×８サブ変換ブロックを作成する。言い換えると、第２レベルの分割は、変換ユニットを等しいサイズに保つために、すべての第１レベルのサブブロックに適用されなければならない。表１に従うイントラコーディングされた正方形ブロックのための変換ブロックパーティショニングの一例が、矢印によって示されるコーディング順序とともに図１５に示されている。具体的には、１５０２は、正方形のコーディングブロックを示す。表１にしたがった４つの等しいサイズの変換ブロックへの第１レベルの分割が、矢印によって示されるコーディング順序とともに１５０４に示されている。表１に従った、第１レベルの等しいサイズのブロックのすべての１６個の等しいサイズの変換ブロックへの第２レベルの分割が、矢印によって示されるコーディング順序とともに１５０６に示されている。

いくつかの例示的な実装形態では、インターコーディングされたブロックのルーマ成分について、イントラコーディングのための上記の制限は適用されないことがある。例えば、第１レベルの変換分割の後に、サブ変換ブロックのうちのいずれか１つが、さらにもう１つのレベルで独立して分割され得る。したがって、結果として得られる変換ブロックは、同じサイズであってもなくてもよい。インターコーディングされたブロックの変換ブロックへの例示的な分割が、それらのコーディング順序とともに図１６に示されている。図１６の例では、インターコーディングされたブロック１６０２は、表１にしたがって２つのレベルで変換ブロックに分割される。第１レベルでは、インターコーディングされたブロックは、等しいサイズの４つの変換ブロックに分割される。次いで、１６０４によって示されるように、４つの変換ブロックのうちの１つのみ（それらのすべてではない）が４つのサブ変換ブロックにさらに分割され、２つの異なるサイズを有する合計７つの変換ブロックとなる。これらの７つの変換ブロックの例示的なコーディング順序は、図１６の１６０４において矢印によって示されている。

いくつかの例示的な実装形態では、クロマ成分（複数可）について、変換ブロックのためのいくつかの追加の制限が適用され得る。例えば、クロマ成分（複数可）について、変換ブロックサイズは、コーディングブロックサイズと同じ大きさであることができるが、予め定義されたサイズ、例えば、８×８よりも小さくはできない。

いくつかの他の例示的な実装形態では、幅（Ｗ）または高さ（Ｈ）のいずれかが６４よりも大きいコーディングブロックについて、ルーマコーディングブロックおよびクロマコーディングブロックの両方は、それぞれｍｉｎ（Ｗ，６４）×ｍｉｎ（Ｈ，６４）およびｍｉｎ（Ｗ，３２）×ｍｉｎ（Ｈ，３２）の変換ユニットの倍数に暗黙的に分割され得る。ここで、本開示では、「ｍｉｎ（ａ，ｂ）」は、ａとｂのうち、より小さい値を返し得る。

図１７は、コーディングブロックまたは予測ブロックを変換ブロックにパーティショニングするための別の代替の例示的な方式をさらに示す。図１７に示すように、再帰的変換パーティショニングを使用する代わりに、コーディングブロックの変換タイプにしたがって、パーティショニングタイプの予め定義されたセットがコーディングブロックに適用され得る。図１７に示される特定の例では、コーディングブロックを様々な数の変換ブロックに分割するために、６つの例示的なパーティショニングタイプのうちの１つが適用され得る。変換ブロックパーティショニングを生成するそのような方式は、コーディングブロックまたは予測ブロックのいずれかに適用され得る。

より詳細には、図１７のパーティショニング方式は、任意の所与の変換タイプについて最大６つの例示的なパーティションタイプを与える（変換タイプは、例えば、ＡＤＳＴなどの１次変換のタイプを指す）。この方式では、すべてのコーディングブロックまたは予測ブロックは、例えば、レート歪みコストに基づいて変換パーティションタイプを割り当てられ得る。一例では、コーディングブロックまたは予測ブロックに割り当てられた変換パーティションタイプは、コーディングブロックまたは予測ブロックの変換タイプに基づいて決定され得る。特定の変換パーティションタイプは、図１７に示す６つの変換パーティションタイプによって示されるように、変換ブロック分割サイズおよびパターンに対応し得る。様々な変換タイプと様々な変換パーティションタイプとの間の対応関係が予め定義され得る。レート歪みコストに基づいてコーディングブロックまたは予測ブロックに割り当てられ得る変換パーティションタイプを示す大文字のラベルを用いて、一例を以下に示す：
・ＰＡＲＴＩＴＩＯＮ＿ＮＯＮＥ：ブロックサイズに等しい変換サイズを割り当てる。
・ＰＡＲＴＩＴＩＯＮ＿ＳＰＬＩＴ：ブロックサイズの幅の１／２およびブロックサイズの高さの１／２である変換サイズを割り当てる。
・ＰＡＲＴＩＴＩＯＮ＿ＨＯＲＺ：ブロックサイズと同じ幅およびブロックサイズの１／２の高さを有する変換サイズを割り当てる。
・ＰＡＲＴＩＴＩＯＮ＿ＶＥＲＴ：ブロックサイズの１／２の幅およびブロックサイズと同じ高さを有する変換サイズを割り当てる。
・ＰＡＲＴＩＴＩＯＮ＿ＨＯＲＺ４：ブロックサイズと同じ幅およびブロックサイズの１／４の高さを有する変換サイズを割り当てる。
・ＰＡＲＴＩＴＩＯＮ＿ＶＥＲＴ４：ブロックサイズの１／４の幅およびブロックサイズと同じ高さを有する変換サイズを割り当てる。

上記の例では、図１７に示すように、変換パーティションタイプはすべて、パーティショニングされた変換ブロックに対して一様な変換サイズを含んでいる。これは、限定ではなく単なる例である。いくつかの他の実装形態では、混合変換ブロックサイズが、特定のパーティションタイプ（またはパターン）中のパーティショニングされた変換ブロックに使用され得る。

上記のパーティショニング方式のいずれかから取得されたＰＢ（または予測ブロックにさらにパーティショニングされないときはＰＢとも呼ばれるＣＢ）は、次いで、イントラ予測またはインター予測のいずれかを介したコーディングのための個々のブロックになり得る。現在ＰＢに対するインター予測の場合、現在ブロックと予測ブロックとの間の残差が生成され、コーディングされ、コーディングされたビットストリーム中に含まれ得る。

インター予測は、例えば、単一参照モードまたは複合参照モードで実装され得る。いくつかの実装形態では、現在ブロックがインターコーディングされ、スキップされるべきでないかどうかを示すために、最初に、現在ブロックのための（またはより高いレベルの）ビットストリーム中にスキップフラグが含まれ得る。現在ブロックがインターコーディングされる場合、現在ブロックの予測に単一参照モードが使用されるのか複合参照モードが使用されるのかを示すために、ビットストリーム中に信号として別のフラグがさらに含まれ得る。単一参照モードの場合、現在ブロックのための予測ブロックを生成するために、１つの参照ブロックが使用され得る。複合参照モードの場合、例えば、加重平均によって予測ブロックを生成するために、２つ以上の参照ブロックが使用され得る。複合参照モードは、複数参照モード（more-than-one-reference mode）、２参照モード、または多重参照モード（multiple-reference mode）と呼ばれることがある。１つまたは複数の参照ブロックは、１つまたは複数の参照フレームインデックスを使用して、追加的に、ロケーション、例えば、水平ピクセルおよび垂直ピクセルにおける参照ブロック（複数可）と現在ブロックとの間のシフト（複数可）を示す１つまたは複数の対応する動きベクトルを使用して識別され得る。例えば、現在ブロックのためのインター予測ブロックは、単一参照モードでは、参照フレーム中の１つの動きベクトルによって予測ブロックとして識別される単一参照ブロックから生成され得るが、複合参照モードでは、予測ブロックは、２つの参照フレームインデックスと２つの対応する動きベクトルとによって示される２つの参照フレーム中の２つの参照ブロックの加重平均によって生成され得る。動きベクトル（複数可）は、様々な方法でコーディングされ、ビットストリーム中に含まれ得る。

いくつかの実装形態では、符号化または復号システムは、復号ピクチャバッファ（ＤＰＢ）を維持し得る。いくつかの画像／ピクチャは、（復号システムにおいて）表示されるのを待つＤＰＢにおいて維持され、ＤＰＢ中のいくつかの画像／ピクチャは、（復号システムまたは符号化システムにおいて）インター予測を可能にするために参照フレームとして使用され得る。いくつかの実装形態では、ＤＰＢ中の参照フレームは、符号化または復号されている現在の画像のための短期参照または長期参照のいずれかとしてタグ付けされ得る。例えば、短期参照フレームは、現在フレーム中の、または復号順序で現在フレームに最も近い予め定義された数（例えば、２つ）の後続のビデオフレーム中のブロックに対するインター予測に使用されるフレームを含み得る。長期参照フレームは、ＤＰＢ中に、復号順序で現在フレームから予め定義された数よりも多くの数離れたフレームの画像ブロックを予測するために使用することができるフレームを含み得る。短期参照フレームおよび長期参照フレームのためのそのようなタグに関する情報は、参照ピクチャセット（ＲＰＳ）と呼ばれることがあり、符号化されたビットストリーム中の各フレームのヘッダに追加され得る。符号化されたビデオストリーム中の各フレームは、ピクチャ順序カウンタ（ＰＯＣ）によって識別され得、これは、絶対的な方法で、または、例えばＩフレームから開始するピクチャグループに関連して、再生シーケンスにしたがって番号付けされる。

いくつかの例示的な実装形態では、インター予測のための短期参照フレームおよび長期参照フレームの識別を含む１つまたは複数の参照ピクチャリストが、ＲＰＳ中の情報に基づいて形成され得る。例えば、単方向インター予測のために、Ｌ０参照（または参照リスト０）として示される単一のピクチャ参照リストが形成され得、双方向インター予測のために、２つの予測方向の各々についてＬ０（または参照リスト０）およびＬ１（または参照リスト１）として示される２つのピクチャ参照リストが形成され得る。Ｌ０リストおよびＬ１リストに含まれる参照フレームは、様々な所定の方法で順序付けられ得る。Ｌ０リストおよびＬ１リストの長さは、ビデオビットストリーム中でシグナリングされ得る。単方向インター予測は、単一参照モード、または複合予測モードにおける加重平均による予測ブロックの生成のための複数の参照が予測されるべきブロックの同じ側にあるときの複合参照モードのいずれかであり得る。双方向インター予測は、双方向インター予測が少なくとも２つの参照ブロックを伴うという点でのみ複合モードであり得る。

いくつかの実装形態では、インター予測のためのマージモード（ＭＭ）が実装され得る。一般に、マージモードの場合、現在ＰＢのための単一参照予測における動きベクトルまたは複合参照予測における動きベクトルのうちの１つまたは複数は、独立して計算およびシグナリングされるのではなく、他の動きベクトル（複数可）から導出され得る。例えば、符号化システムでは、現在ＰＢのための現在動きベクトル（複数可）は、現在動きベクトル（複数可）と他の１つまたは複数のすでに符号化された動きベクトル（参照動きベクトルと呼ばれる）との間の差分（複数可）によって表され得る。現在動きベクトル（複数可）の全体ではなく動きベクトル（複数可）のそのような差分（複数可）が符号化されて、ビットストリーム中に含まれ得、参照動きベクトル（複数可）にリンクされ得る。それに対応して、復号システムでは、現在ＰＢに対応する動きベクトル（複数可）は、復号された動きベクトル差分（複数可）と、それにリンクされた復号された参照動きベクトル（複数可）とに基づいて導出され得る。一般的なマージモード（ＭＭ）インター予測の特定の形態として、動きベクトル差分（複数可）に基づくそのようなインター予測は、動きベクトル差分を用いるマージモード（ＭＭＶＤ）と呼ばれることがある。したがって、一般的なＭＭまたは特にＭＭＶＤは、コーディング効率を高めるために、異なるＰＢに関連付けられた動きベクトル間の相関を活用するように実装され得る。例えば、隣接するＰＢは、同様の動きベクトルを有し得るので、ＭＶＤは小さくなり得、効率的にコーディングされ得る。別の例では、動きベクトルは、空間内の同様に位置特定／配置されたブロックについて、時間的に（フレーム間で）相関があり得る。

いくつかの例示的な実装形態では、現在ＰＢがマージモードにあるかどうかを示すためのＭＭフラグが、符号化プロセスの間にビットストリーム中に含まれ得る。追加的または代替的に、現在ＰＢがＭＭＶＤモードにあるかどうかを示すために、ＭＭＶＤフラグが符号化プロセスの間にビットストリーム中に含まれ、シグナリングされ得る。ＭＭフラグおよび／またはＭＭＶＤフラグまたはインジケータは、ＰＢレベル、ＣＢレベル、ＣＵレベル、ＣＴＢレベル、ＣＴＵレベル、スライスレベル、ピクチャレベル、シーケンスレベルなどで提供され得る。特定の例について、ＭＭフラグおよびＭＭＶＤフラグの両方が現在ＣＵのために含まれ得、ＭＭＶＤフラグは、現在ＣＵに対してＭＭＶＤモードが使用されるかどうかを指定するために、スキップフラグおよびＭＭフラグの直後にシグナリングされ得る。

ＭＭＶＤのいくつかの例示的な実装形態では、動きベクトル予測のためのマージ候補のリストが、予測されているブロックのために形成され得る。マージ候補のリストは、現在動きベクトルを予測するために動きベクトルが使用され得る、所定の数（例えば、２つ）のＭＶ予測子候補ブロックを含み得る。ＭＶＤ候補ブロックは、同じフレーム中の隣接ブロックおよび／または時間的ブロック（例えば、現在フレームの先行フレームまたは後続フレーム中の同じように位置特定されたブロック）から選択されたブロックを含み得る。これらのオプションは、現在ブロックと同様または同一の動きベクトルを有する可能性が高い、現在ブロックに対する空間ロケーションまたは時間ロケーションにおけるブロックを表す。ＭＶ予測子候補のリストのサイズは、予め決定され得る。例えば、リストは２つの候補を含み得る。マージ候補のリストに載るためには、候補ブロックは、例えば、現在ブロックと同じ参照フレーム（複数可）を有することが必要とされ得、存在しなければならず（例えば、現在ブロックがフレームのエッジの近くにあるとき、境界検査が実行される必要がある）、符号化プロセス中にすでに符号化されており、および／または復号プロセス中にすでに復号されていなければならない。いくつかの実装形態では、マージ候補のリストは、利用可能でかつ上記の条件を満たす場合、まず、（特定の予め定義された順序で走査された）空間的に隣接するブロックで埋められ、次いで、リスト中に依然として利用可能な空間がある場合には、時間ブロックで埋められ得る。隣接候補ブロックは、例えば、現在ブロックの左ブロックおよび上ブロックから選択され得る。マージＭＶ予測子候補のリストは、ビットストリーム中でシグナリングされ得る。

いくつかの実装形態では、現在ブロックの動きベクトルを予測するための参照動きベクトルとして使用されている実際のマージ候補がシグナリングされ得る。マージ候補リストが２つの候補を含む場合、参照マージ候補の選択を示すために、マージ候補フラグと呼ばれる１ビットフラグが使用され得る。複合モードで予測されている現在ブロックの場合、ＭＶ予測子を使用して予測された複数の動きベクトルの各々は、マージ候補リストからの参照動きベクトルに関連付けられ得る。

ＭＭＶＤのいくつかの例示的な実装形態では、マージ候補が、選択され、予測されるべき動きベクトルのためのベース動きベクトル予測子として使用された後、動きベクトル差分（ＭＶＤまたはデルタＭＶ、予測されるべき動きベクトルと参照候補動きベクトルとの間の差分を表す）が符号化システムにおいて計算され得る。そのようなＭＶＤは、ＭＶ差分の大きさとＭＶ差分の方向とを表す情報を含み得、それらの両方がビットストリーム中でシグナリングされ得る。動きベクトル差分の大きさおよび動きベクトル差分の方向は、様々な方法でシグナリングされ得る。

ＭＭＶＤのいくつかの例示的な実装形態では、距離インデックスは、動きベクトル差分の大きさ情報を指定するために、および開始点（参照動きベクトル）からの予め定義された動きベクトル差分を表す予め定義されたオフセットのセットのうちの１つを示すために使用され得る。次いで、シグナリングされたインデックスによるＭＶオフセットが、開始（参照）動きベクトルの水平成分または垂直成分のいずれかに加算され得る。参照動きベクトルの水平成分または垂直成分がオフセットされるべきであるかどうかは、ＭＶＤの方向情報によって決定され得る。距離インデックスと予め定義されたオフセットとの間の例示的な予め定義された関係が、表２において定められている。

ＭＭＶＤのいくつかの例示的な実装形態では、方向インデックスがさらにシグナリングされ、参照動きベクトルに対するＭＶＤの方向を表すために使用され得る。いくつかの実装形態では、方向は、水平方向および垂直方向のいずれか１つに制限され得る。例示的な２ビット方向インデックスを表３に示す。表３の例では、ＭＶＤの解釈は、開始／参照ＭＶの情報にしたがって変化し得る。例えば、開始／参照ＭＶが単予測ブロックに対応するか、または両方の参照フレームリストが現在ピクチャの同じ側を指す（すなわち、２つの参照ピクチャのＰＯＣが両方とも現在ピクチャのＰＯＣよりも大きいかまたは両方とも現在ピクチャのＰＯＣよりも小さい）双予測ブロックに対応するとき、表３中の符号は、開始／参照ＭＶに加算されるＭＶオフセットの符号（方向）を指定し得る。開始／参照ＭＶが、現在ピクチャの異なる側に２つの参照ピクチャを有する（すなわち、一方の参照ピクチャのＰＯＣが現在ピクチャのＰＯＣよりも大きく、他方の参照ピクチャのＰＯＣが現在ピクチャのＰＯＣよりも小さい）双予測ブロックに対応し、ピクチャ参照リスト０中の参照ＰＯＣと現在フレームとの間の差分が、ピクチャ参照リスト１中の参照ＰＯＣと現在フレームとの間の差分よりも大きいとき、表３中の符号は、ピクチャ参照リスト０中の参照ピクチャに対応する参照ＭＶに加算されるＭＶオフセットの符号を指定し得、ピクチャ参照リスト１中の参照ピクチャに対応するＭＶのオフセットの符号は、反対の値（オフセットの反対の符号）を有し得る。そうではなく、ピクチャ参照リスト１中の参照ＰＯＣと現在フレームとの間の差分が、ピクチャ参照リスト０中の参照ＰＯＣと現在フレームとの間の差分よりも大きい場合、表３中の符号は、ピクチャ参照リスト１に関連付けられた参照ＭＶに加算されるＭＶオフセットの符号を指定し得、ピクチャ参照リスト０に関連付けられた参照ＭＶへのオフセットの符号は、反対の値を有する。

いくつかの例示的な実装形態では、ＭＶＤは、各方向におけるＰＯＣの差分にしたがってスケーリングされ得る。両方のリストにおけるＰＯＣの差分が同じである場合、スケーリングは必要とされない。そうではなく、参照リスト０中のＰＯＣの差分が参照リスト１のものよりも大きい場合、参照リスト１のためのＭＶＤがスケーリングされる。参照リスト１のＰＯＣ差分がリスト０よりも大きい場合、リスト０のためのＭＶＤは、同じ方法でスケーリングされ得る。開始ＭＶが単予測される場合、ＭＶＤは、利用可能なまたは参照ＭＶに追加される。

双方向複合予測のためのＭＶＤコーディングおよびシグナリングのいくつかの例示的な実装形態では、２つのＭＶＤを別々にコーディングおよびシグナリングすることに加えて、またはその代替として、一方のＭＶＤのみがシグナリングを必要とし、他方のＭＶＤはシグナリングされたＭＶＤから導出され得るように、対称ＭＶＤコーディングが実装され得る。そのような実装形態では、リスト０およびリスト１の両方の参照ピクチャインデックスを含む動き情報がシグナリングされる。しかしながら、例えば、参照リスト０に関連付けられたＭＶＤのみがシグナリングされ、参照リスト１に関連付けられたＭＶＤは、シグナリングされるのではなく、導出される。具体的には、スライスレベルで、参照リスト１がビットストリーム中でシグナリングされないかどうかを示すための、「mvd_l1_zero_flag」と呼ばれるフラグがビットストリーム中に含まれ得る。このフラグが１であり、参照リスト－１が０に等しい（したがって、シグナリングされない）ことを示す場合、「BiDirPredFlag」と呼ばれる双方向予測フラグは、双方向予測がないことを意味する０に設定され得る。そうではなく、mvd_l1_zero_flagが０である場合で、リスト０中の最も近い参照ピクチャとリスト１中の最も近い参照ピクチャとが参照ピクチャの前方後方ペアまたは参照ピクチャの後方前方ペアを形成する場合、BiDirPredFlagは１に設定され得、リスト０およびリスト１の参照ピクチャは両方とも短期参照ピクチャである。それ以外の場合、BiDirPredFlagは０に設定される。１のBiDirPredFlagは、対称モードフラグがビットストリーム中で追加的にシグナリングされることを示し得る。デコーダは、BiDirPredFlagが１である場合、ビットストリームから対称モードフラグを抽出し得る。対称モードフラグは、例えば、（必要な場合）ＣＵレベルでシグナリングされ得、対称ＭＶＤコーディングモードが対応するＣＵに対して使用されているかどうかを示し得る。対称モードフラグが１の場合、対称ＭＶＤコーディングモードの使用と、（「mvp_l0_flag」および「mvp_l1_flag」と呼ばれる）リスト０およびリスト１の両方の参照ピクチャインデックスのみが、リスト０に関連付けられたＭＶＤ（「ＭＶＤ０」と呼ばれる）とともにシグナリングされ、他方の動きベクトル差分「ＭＶＤ１」は、シグナリングされるのではなく導出されるべきであることとを示す。例えば、ＭＶＤ１は、－ＭＶＤ０として導出され得る。そのため、例示的な対称ＭＶＤモードでは１つのＭＶＤのみがシグナリングされる。ＭＶ予測のためのいくつかの他の例示的な実装形態では、単一参照モードと複合参照モードの両方のＭＶ予測について、一般的なマージモード、ＭＭＶＤ、およびいくつかの他のタイプのＭＶ予測を実装するために、調和された方式が使用され得る。現在ブロックのためのＭＶが予測される方法をシグナリングするために、様々なシンタックス要素が使用され得る。

例えば、単一参照モードの場合、以下のＭＶ予測モードがシグナリングされ得る：
ＮＥＡＲＭＶ－ＤＲＬ（動的参照リスト）インデックスによって示されるリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを、ＭＶＤなしに直接使用する。
ＮＥＷＭＶ－ＤＲＬインデックスによってシグナリングされたリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを参照として使用し、（例えば、ＭＶＤを使用して）ＭＶＰにデルタを適用する。
ＧＬＯＢＡＬＭＶ－フレームレベルのグローバル動きパラメータに基づいた動きベクトルを使用する。

同様に、予測されるべき２つのＭＶに対応する２つの参照フレームを使用する複合参照インター予測モードの場合、以下のＭＶ予測モードがシグナリングされ得る：
ＮＥＡＲ＿ＮＥＡＲＭＶ－予測されるべきＭＶのうちの２つの各々に対して、ＭＶＤなしにＤＲＬインデックスによってシグナリングされたリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを使用する。
ＮＥＡＲ＿ＮＥＷＭＶ－２つの動きベクトルのうちの第１の動きベクトルを予測するために、ＤＲＬインデックスによってシグナリングされたリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを、ＭＶＤなしの参照ＭＶとして使用し、２つの動きベクトルのうちの第２の動きベクトルを予測するために、ＤＲＬインデックスによってシグナリングされたリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを、追加でシグナリングされたデルタＭＶ（ＭＶＤ）とともに参照ＭＶとして使用する。
ＮＥＷ＿ＮＥＡＲＭＶ－２つの動きベクトルのうちの第２の動きベクトルを予測するために、ＤＲＬインデックスによってシグナリングされたリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを、ＭＶＤなしの参照ＭＶとして使用し、２つの動きベクトルのうちの第１の動きベクトルを予測するために、ＤＲＬインデックスによってシグナリングされたリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを、追加でシグナリングされたデルタＭＶ（ＭＶＤ）とともに参照ＭＶとして使用する。
ＮＥＷ＿ＮＥＷＭＶ－ＤＲＬインデックスによってシグナリングされたリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを参照ＭＶとして使用し、２つのＭＶの各々について予測するために、それを、追加でシグナリングされたデルタＭＶとともに使用する。
ＧＬＯＢＡＬ＿ＧＬＯＢＡＬＭＶ－各参照からのＭＶを、それらのフレームレベルのグローバル動きパラメータに基づいて使用する。

したがって、上記の「ＮＥＡＲ」という用語は、一般マージモードとして、ＭＶＤなしに参照ＭＶを使用するＭＶ予測を指し、「ＮＥＷ」という用語は、ＭＭＶＤモードの場合のように、参照ＭＶを使用することと、それをシグナリングされたＭＶＤでオフセットすることとを伴うＭＶ予測を指す。複合インター予測の場合、上記の参照ベース動きベクトルと動きベクトルデルタは両方とも、例えば、それらに相関性があり得、そのような相関が、２つの動きベクトルデルタをシグナリングするために必要とされる情報量を低減するために活用され得るとしても、２つの参照の間で一般に異なり得るか、または独立し得る。そのような状況では、以下でさらに詳細に説明するように、２つのＭＶＤの共同シグナリングが実装され、ビットストリーム中で示され得る。

上記の動的参照リスト（ＤＲＬ）は、動的に維持され、候補動きベクトル予測子として考慮されるインデックス付きの動きベクトルのセットを保持するために使用され得る。

いくつかの例示的な実装形態では、ＭＶＤのための予め定義された解像度が許容され得る。例えば、１／８ピクセルの動きベクトル精度（または正確度）が許容され得る。様々なＭＶ予測モードにおける上記で説明したＭＶＤは、様々な方法で構成され、シグナリングされ得る。いくつかの実装形態では、参照フレームリスト０またはリスト１中の上記の動きベクトル差分（複数可）をシグナリングするために、様々なシンタックス要素が使用され得る。

例えば、「mv_joint」と呼ばれるシンタックス要素は、それに関連付けられた動きベクトル差分のどの成分が非ゼロであるかを指定し得る。ＭＶＤの場合、これは、すべての非ゼロ成分について共同シグナリングされる。例えば、
０の値を有するmv_jointは、水平方向にも垂直方向にも非ゼロＭＶＤがないことを示し得る。
１の値を有するmv_jointは、水平方向に沿ってのみ非ゼロＭＶＤが存在することを示し得る。
２の値を有するmv_jointは、垂直方向に沿ってのみ非ゼロＭＶＤがあることを示し得る。
３の値を有するmv_jointは、水平方向と垂直方向の両方に沿って非ゼロＭＶＤがあることを示し得る。

ＭＶＤのための「mv_joint」シンタックス要素が、非ゼロＭＶＤ成分がないことをシグナリングするとき、それ以上のＭＶＤ情報はシグナリングされなくてもよい。しかしながら、「mv_joint」シンタックスが、１つまたは２つの非ゼロ成分があることをシグナリングする場合、以下で説明するように、非ゼロＭＶＤ成分の各々について追加のシンタックス要素がさらにシグナリングされ得る。

例えば、「mv_sign」と呼ばれるシンタックス要素は、対応する動きベクトル差分成分が正であるか負であるかを追加的に指定するために使用され得る。

別の例では、「mv_class」と呼ばれるシンタックス要素が、対応する非ゼロＭＶＤ成分のためのクラスの予め定義されたセットの間で動きベクトル差分のクラスを指定するために使用され得る。動きベクトル差分のための予め定義されたクラスは、例えば、動きベクトル差分の連続する大きさ空間を、各範囲がＭＶＤクラスに対応する重複しない範囲に分割するために使用され得る。したがって、シグナリングされたＭＶＤクラスは、対応するＭＶＤ成分の大きさ範囲を示す。以下の表４に示す例示的な実装形態では、より高いクラスは、より大きい大きさの範囲を有する動きベクトル差分に対応する。表４では、シンボル（ｎ，ｍ］は、ｎピクセルよりも大きく、ｍピクセル以下である動きベクトル差分の範囲を表すために使用される。

いくつかの他の例では、非ゼロ動きベクトル差分成分と、対応してシグナリングされたＭＶクラス大きさ範囲の開始の大きさとの間のオフセットの整数部分を指定するために、「mv_bit」と呼ばれるシンタックス要素がさらに使用され得る。各ＭＶＤクラスの全範囲をシグナリングするための「mv_bit」で必要とされるビット数は、ＭＶクラスの関数として変化し得る。例として、表４の実装形態におけるＭＶ＿ＣＬＡＳＳ０およびＭＶ＿ＣＬＡＳＳ１は、０の開始ＭＶＤから１または２の整数ピクセルオフセットを示すために単一ビットを必要とするにすぎず、表４の例示的な実装形態におけるより高い各ＭＶ＿ＣＬＡＳＳは、「mv_bit」に対して、前のＭＶ＿ＣＬＡＳＳよりも漸進的に１ビット多いビットを必要とし得る。

いくつかの他の例では、「mv_fr」と呼ばれるシンタックス要素は、対応する非ゼロＭＶＤ成分のための動きベクトル差分の最初の２つの分数ビットを指定するためにさらに使用され得、「mv_hp」と呼ばれるシンタックス要素は、対応する非ゼロＭＶＤ成分のための動きベクトル差分の３番目の分数ビット（高解像度ビット）を指定するために使用され得る。２ビットの「mv_fr」は、本質的に、１／４ピクセルＭＶＤ解像度を提供し、「mv_hp」ビットは、１／８ピクセル解像度をさらに提供し得る。いくつかの他の実装形態では、１／８ピクセルよりも細かいＭＶＤピクセル解像度を提供するために、２つ以上の「mv_hp」ビットが使用され得る。いくつかの例示的な実装形態では、１／８ピクセル以上のＭＶＤ解像度がサポートされるかどうかを示すために、様々なレベルのうちの１つまたは複数において追加のフラグがシグナリングされ得る。ＭＶＤ解像度が特定のコーディングユニットに適用されない場合、対応するサポートされていないＭＶＤ解像度のための上記のシンタックス要素はシグナリングされなくてもよい。

上記のいくつかの例示的な実装形態では、分数解像度は、ＭＶＤの異なるクラスとは無関係であり得る。言い換えると、動きベクトル差分の大きさにかかわらず、非ゼロＭＶＤ成分の分数ＭＶＤをシグナリングするための予め定義された数の「mv_fr」および「mv_hp」ビットを使用して、動きベクトル解像度のための同様のオプションが提供され得る。

しかしながら、いくつかの他の例示的な実装形態では、様々なＭＶＤ大きさクラスにおける動きベクトル差分のための解像度が区別され得る。具体的には、より高いＭＶＤクラスの大きいＭＶＤ大きさのための高解像度ＭＶＤは、統計的に、圧縮効率において有意な向上をもたらさないことがある。そのため、ＭＶＤは、より高いＭＶＤ大きさクラスに対応する、より大きいＭＶＤ大きさ範囲に対して、解像度を減少させて（整数ピクセル解像度または分数ピクセル解像度で）コーディングされ得る。同様に、ＭＶＤは、一般に、より大きいＭＶＤ値に対して、解像度を減少させて（整数ピクセル解像度または分数ピクセル解像度で）コーディングされ得る。そのようなＭＶＤクラス依存またはＭＶＤ大きさ依存のＭＶＤ解像度は、一般に、適応ＭＶＤ解像度と呼ばれることがある。適応ＭＶＤ解像度は、全体的により良好な圧縮効率を達成するために、以下の例示的な実装形態によって説明されるような様々な状況（matter）で実装され得る。特に、より精度の低いＭＶＤを対象とすることによるシグナリングビット数の削減は、そのようなより精度の低いＭＶＤの結果としてインター予測残差をコーディングするために必要とされる追加のビットよりも大きくなり得、これは、適応されない方法で、大きい大きさのまたは高いクラスのＭＶＤのためのＭＶＤ解像度を、小さい大きさまたは低いクラスのＭＶＤのためのＭＶＤ解像度と同様のレベルで扱かっても、大きい大きさまたは高いクラスのＭＶＤを有するブロックのインター予測残差コーディング効率を有意に向上させることができないという統計的観測によるものである。言い換えると、大きい大きさまたは高いクラスのＭＶＤに対してより高いＭＶＤ解像度を使用しても、より低いＭＶＤ解像度を使用する場合よりも多くのコーディング利得をもたらさないことがある。

いくつかの一般的な例示的な実装形態では、ＭＶＤのためのピクセル解像度または精度は、ＭＶＤクラスが増加するにつれて減少し得るか、または増加しないことがある。ＭＶＤのためのピクセル解像度を減少させることは、より粗いＭＶＤ（または、あるＭＶＤレベルから次のＭＶＤレベルへのより大きいステップ）に対応する。いくつかの実装形態では、ＭＶＤピクセル解像度とＭＶＤクラスとの間の対応は、指定されるか、予め定義されるか、または事前設定され得、したがって、符号化ビットストリーム中でシグナリングされる必要がないであろう。

いくつかの例示的な実装形態では、表３のＭＶクラスはそれぞれ、異なるＭＶＤピクセル解像度に関連付けられ得る。

いくつかの例示的な実装形態では、各ＭＶＤクラスは、単一の許容解像度に関連付けられ得る。いくつかの他の実装形態では、１つまたは複数のＭＶＤクラスは、２つ以上のオプションのＭＶＤピクセル解像度に関連付けられ得る。したがって、そのようなＭＶＤクラスを有する現在のＭＶＤ成分のためのビットストリーム中の信号の後に、どのオプションのピクセル解像度が現在のＭＶＤ成分のために選択されるかを示すための追加のシグナリングが続き得る。

いくつかの例示的な実装形態では、適応的に許容されるＭＶＤピクセル解像度は、（解像度の降順で）１／６４ペル（ピクセル）、１／３２ペル、１／１６ペル、１／８ペル、１／４ペル、１／２ペル、１ペル、２ペル、４ペル…を含み得るが、これらに限定されない。そのため、昇順のＭＶＤクラスのそれぞれが、非昇順方法でこれらの解像度のうちの１つに関連付けられ得る。いくつかの実装形態では、ＭＶＤクラスは、上記の２つ以上の解像度に関連付けられ得、より高い解像度は、先行するＭＶＤクラスのためのより低い解像度以下であり得る。例えば、表４のＭＶ＿ＣＬＡＳＳ＿３がオプションの１ペルおよび２ペル解像度に関連付けられ得る場合、表４のＭＶ＿ＣＬＡＳＳ＿４が関連付けられ得る最高解像度は２ペルになる。いくつかの他の実装形態では、ＭＶクラスのための最高許容解像度は、先行する（より低い）ＭＶクラスの最低許容解像度よりも高くてもよい。しかしながら、昇順ＭＶクラスのための許容解像度の平均は、非昇順のみであり得る。

いくつかの実装形態では、１／８ペルよりも高い分数ピクセル解像度が許容される場合、「mv_fr」および「mv_hp」シグナリングが、合計で３を超える分数ビットに対応して拡張され得る。

いくつかの例示的な実装形態では、分数ピクセル解像度は、しきい値ＭＶＤクラス以下のＭＶＤクラスについてのみ許容され得る。例えば、分数ピクセル解像度は、ＭＶ＿ＣＬＡＳＳ＿０に対してのみ許容され、表４のすべての他のＭＶクラスに対しては許容されないことがある。同様に、分数ピクセル解像度は、表４の他のＭＶクラスのいずれか１つ以下のＭＶＤクラスに対してのみ許容にされ得る。しきい値ＭＶＤクラスを上回る他のＭＶＤクラスについては、ＭＶＤのための整数ピクセル解像度のみが許容される。そのような方法では、「mv_fr」および／または「mv_hp」ビットのうちの１つまたは複数などの分数解像度シグナリングは、しきい値ＭＶＤクラス以上のＭＶＤクラスでシグナリングされるＭＶＤについてはシグナリングの必要がないことがある。１ピクセル未満の解像度を有するＭＶＤクラスの場合、「mv_bit」シグナリング中のビット数はさらに低減され得る。例えば、表４中のＭＶ＿ＣＬＡＳＳ＿５の場合、ＭＶＤピクセルオフセットの範囲は（３２，６４］であるので、１ペル解像度で範囲全体をシグナリングするためには５ビットが必要である。しかしながら、ＭＶ＿ＣＬＡＳＳ＿５が２ペルＭＶＤ解像度（１ピクセル解像度よりも低い解像度）に関連付けられる場合、５ビットではなく４ビットが「mv_bit」に必要であり得、「mv_fr」および「mv_hp」のいずれも、ＭＶ＿ＣＬＡＳＳ＿５としての「mv_class」のシグナリングに続いてシグナリングされる必要はない。

いくつかの例示的な実装形態では、分数ピクセル解像度は、しきい値整数ピクセル値を下回る整数値を有するＭＶＤについてのみ許容され得る。例えば、分数ピクセル解像度は、５ピクセル未満のＭＶＤに対してのみ許容され得る。この例に対応して、分数解像度は、表４のＭＶ＿ＣＬＡＳＳ＿０およびＭＶ＿ＣＬＡＳＳ＿１に対しては許容され、他すべてのＭＶクラスに対しては許容されないであろう。別の例では、分数ピクセル解像度は、７ピクセル未満のＭＶＤに対してのみ許容され得る。この例に対応して、分数解像度は、（５ピクセルを下回る範囲を有する）表４のＭＶ＿ＣＬＡＳＳ＿０およびＭＶ＿ＣＬＡＳＳ＿１に対しては許容され、（５ピクセルを上回る範囲を有する）ＭＶ＿ＣＬＡＳＳ＿３およびそれ以上に対しては許容されないことがある。ピクセル範囲が５ピクセルを含むＭＶ＿ＣＬＡＳＳ＿２に属するＭＶＤの場合、ＭＶＤのための分数ピクセル解像度は、「mv_bit」値に応じて許容される場合も許容されない場合もあり得る。「mv_bit」値が１または２としてシグナリングされる場合（「mv_bit」によって示されるオフセット１または２を有するＭＶ＿ＣＬＡＳＳ＿２のためのピクセル範囲の開始として計算される、シグナリングされるＭＶＤの整数部分が５または６となる）、分数ピクセル解像度が許容され得る。そうではなく、「mv_bit」値が３または４としてシグナリングされる場合（シグナリングされたＭＶＤの整数部分が７または８となる）、分数ピクセル解像度は許容されないことがある。

いくつかの他の実装形態では、しきい値ＭＶクラス以上のＭＶクラスの場合、単一のＭＶＤ値のみが許容され得る。例えば、そのようなしきい値ＭＶクラスはＭＶ＿ＣＬＡＳＳ２であり得る。したがって、ＭＶ＿ＣＬＡＳＳ＿２以上は、単一のＭＶＤ値を有することのみが許容され得、分数ピクセル解像度を有さない。これらのＭＶクラスのための単一の許容ＭＶＤ値は、予め定義され得る。いくつかの例では、許容される単一の値は、表４中のこれらのＭＶクラスのためのそれぞれの範囲の上端値であり得る。例えば、ＭＶ＿ＣＬＡＳＳ＿２～ＭＶ＿ＣＬＡＳＳ＿１０は、ＭＶ＿ＣＬＡＳＳ２のしきい値クラス以上であり得、これらのクラスのための許容される単一のＭＶＤ値は、それぞれ、８、１６、３２、６４、１２８、２５６、５１２、１０２４、および２０４８として予め定義され得る。いくつかの他の例では、許容される単一の値は、表４中のこれらのＭＶクラスについてのそれぞれの範囲の中間値であり得る。例えば、ＭＶ＿ＣＬＡＳＳ＿２～ＭＶ＿ＣＬＡＳＳ＿１０は、クラスしきい値を上回り得、これらのクラスのための許容される単一のＭＶＤ値は、それぞれ、３、６、１２、２４、４８、９６、１９２、３８４、７６８、および１５３６として予め定義され得る。範囲内の任意の他の値もまた、それぞれのＭＶＤクラスのための単一の許容される解像度として定義され得る。

上記の実装形態では、シグナリングされた「mv_class」が予め定義されたＭＶＤクラスしきい値以上であるとき、ＭＶＤ値を決定するためには「mv_class」シグナリングのみで十分である。次いで、ＭＶＤの大きさおよび方向が、「mv_class」および「mv_sign」を使用して決定されることとなる。

そのため、ＭＶＤが（両方ではなく参照フレームリスト０またはリスト１のいずれかから）１つの参照フレームのみのためにシグナリングされるか、または２つの参照フレームのために共同シグナリングされる場合、ＭＶＤの精度（または解像度）は、表３中の動きベクトル差分の関連するクラスおよび／またはＭＶＤの大きさに依存し得る。

いくつかの他の実装形態では、ＭＶＤについてのピクセル解像度または精度は、ＭＶＤ大きさが増加するにつれて減少し得るか、または増加しないことがある。例えば、ピクセル解像度は、ＭＶＤ大きさの整数部分に依存し得る。いくつかの実装形態では、分数ピクセル解像度は、大きさ（amplitude）しきい値以下のＭＶＤ大きさに対してのみ許容され得る。デコーダの場合、最初に、ＭＶＤ大きさの整数部分がビットストリームから抽出され得る。次いで、ピクセル解像度が決定され得、次いで、任意の分数ＭＶＤがビットストリーム中に存在し、パースされる必要があるかどうかに関して決定が行われ得る（例えば、分数ピクセル解像度が特定の抽出されたＭＶＤ整数大きさに対して許容されない場合、抽出を必要とするビットストリーム中に分数ＭＶＤビットは含まれないであろう）。ＭＶＤクラス依存適応ＭＶＤピクセル解像度に関連する上記の例示的な実装形態は、ＭＶＤ大きさ依存適応ＭＶＤピクセル解像度に適用される。特定の例では、大きさしきい値を上回るかまたは包含するＭＶＤクラスは、１つの予め定義された値のみを有することが許容され得る。

上記の様々な例示的な実装形態は、単一参照モードに適用される。これらの実装形態は、ＭＭＶＤ下での複合予測における例示的なＮＥＷ＿ＮＥＡＲＭＶ、ＮＥＡＲ＿ＮＥＷＭＶ、および／またはＮＥＷ＿ＮＥＷＭＶモードにも適用される。これらの実装形態は、一般に、任意のＭＶＤのための適応解像度に適用される。

いくつかの例示的な実装形態では、適応解像度を有するＭＶＤは、本明細書では「ＡＤＡＰＴＭＶ」または「ＡＤＡＰＴＩＶＥＭＶ」または「ＡＤＶＡＮＣＥＤＭＶ」モードと呼ばれる別個のインター予測単一参照モードとして扱われ得る。通常のイントラ予測モードまたはインター予測モードと同様に、そのような適応単一参照インターコーディングモードは、フレームレベル、ピクチャレベル、コーディングブロックレベル、および他のレベルで決定および指定され得る。そのようなモードの仕様は、（１）対応するコーディングブロックがインターコーディングされること、（２）コーディングブロックが単一参照フレーム内の予測ブロックによって予測されること、（３）対応する動きベクトルも参照動きベクトルおよびＭＶＤを介して予測されること、および（４）ＭＶＤのコーディングのために適応解像度が適用されることを示す。例えば、ＭＶＤピクセル解像度は、上記で説明したように、ＭＶＤクラスおよび／またはＭＶＤ大きさに依存し得る。

いくつかの例では、適応ピクセル解像度を有するそのような単一参照インター予測モードは、通常インター予測モードのサブ予測モードとして実装され得、したがって、通常インター予測フラグの後にシグナリングされ得る。いくつかの特定の実装形態では、ＡＤＡＰＴＭＶモードをシグナリングするためのフラグは、ビットストリーム中のインター予測のための参照フレームに対するフレームインデックスに続き得る。

上記で説明したように、単一参照インター予測モード下で、ＭＶは、様々な方法で予測または構築され得、ＭＶＤを伴う場合も伴わない場合もある。例えば、ＮＥＷＭＶモードでは、ＭＶは、ＭＶＤとともに参照ＭＶによって予測されるが、ＮＥＡＲＭＶモードでは、ＭＶは、ＭＶＤなしで参照ＭＶによって直接予測される。さらに、ＧＬＯＢＡＬＭＶモードでは、ＭＶは、任意の参照ＭＶまたはＭＶＤではなく、フレームレベルのグローバル動きパラメータに基づく。いくつかの例示的な実装形態では、追加されたＡＤＡＰＴＭＶモードは、これらの３つのモードと並行して実装され得る。そのため、単一参照インター予測アンブレラの下で以下の４つのサブモードが実装され得る：
ＡＤＡＰＴＭＶ－ＤＲＬインデックスによってシグナリングされたリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを参照として使用し、適応ピクセル解像度または精度で（例えば、ＭＶＤを使用して）ＭＶＰにデルタを適用する；
ＮＥＷＭＶ－ＤＲＬインデックスによってシグナリングされたリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを参照として使用し、固定または非適応ピクセル解像度で（例えば、ＭＶＤを使用して）ＭＶＰにデルタを適用する；
ＮＥＡＲＭＶ－ＤＲＬ（動的参照リスト）インデックスによって示されるリスト中の動きベクトル予測子（ＭＶＰ）のうちの１つを、ＭＶＤなしに直接使用する。
ＧＬＯＢＡＬＭＶ－フレームレベルのグローバル動きパラメータに基づいた動きベクトルを使用する。

したがって、これらの４つの単一参照インター予測モードは、上記で説明したような他のＭＶＤおよびＭＶ関連シンタックスの中で、１つのシンタックスを用いてビットストリーム中でシグナリングされ得る。

いくつかの例示的な実装形態では、ＡＤＡＰＴＭＶモードをシグナリングするためのコンテキスト割り当ては、ＮＥＷＭＶ、ＮＥＡＲＭＶ、およびＧＬＯＢＡＬＭＶのためのものと同じであり得る。言い換えると、これらのモードが同じシンタックスの下でシグナリングされるか否かにかかわらず、それらは、例えば、コンテキストベース適応バイナリ算術コーディング（ＣＡＢＡＣ）アルゴリズムを使用して、エントロピーコーディング中に同じ確率モデルを使用して符号化され得る。

いくつかの例示的な実装形態では、様々なＭＶＤ関連シンタックスをシグナリングするためのコンテキスト導出は、ＭＶＤピクセル解像度が適応的であるか否かに依存し得る。ＭＶＤ関連シンタックスの例としては、上記で説明したmv_joint、mv_bit、mv_sign、mv_class、mv_fr、およびmv_hp、ならびに他のＭＶＤ関連シンタックスが挙げられ得るが、それに限定されない。そのため、これらのＭＶＤシンタックスは、ＡＤＡＰＴＭＶモードのシグナリングの後にシグナリングされ得、コンテキストまたは確率モデルは、ＡＤＡＰＴＭＶモードがビットストリーム中でシグナリングされるかどうかを考慮することによって導出され得る。したがって、そのような実装形態は、ＡＤＡＰＴＭＶモードまたは非ＡＤＡＰＴＭＶモードにおけるこれらのＭＶＤ関連シンタックスのためのシンボルの確率分布の差を考慮に入れる。

例えば、mv_jointまたはmv_classについての確率分布は、ＡＤＡＰＴＭＶモードが使用されるときとＡＤＡＰＴＭＶモードが使用されないときとの間で異なり得る。具体的な例では、mv_classの場合、表４の下位クラスにあまり集中していない分布は、適応解像度でコーディングされ、ＡＤＡＰＴＭＶモードに関連付けられる可能性がより高くなり得る。そのため、いくつかの例示的な実装形態では、現在ブロックがＡＤＡＰＴＭＶモードでコーディングされる場合、１つのコンテキストが、mv_joint（またはmv_class）をシグナリングするために使用されるものとして導出され得る。そうでない場合、別の１つまたは複数の異なるコンテキストが、mv_joint（またはmv_class）をシグナリングするために使用され得る。

図１８は、適応ＭＶＤ解像度およびそのシグナリングのための上記の実装形態の基礎をなす原理に従う例示的な方法のフローチャート１８００を示す。例示的な復号方法フローは、Ｓ１８０１から開始する。Ｓ１８１０において、ビデオストリームが受信される。Ｓ１８２０において、１つまたは複数のビデオブロックについてＡＤＡＰＴＭＶモードがシグナリングされるかどうかを決定するために、インター予測シンタックス要素がビデオストリームから抽出され、ＡＤＡＰＴＭＶモードは、適応動きベクトル差分（ＭＶＤ）ピクセル解像度を有する単一参照インター予測モードである。Ｓ１８３０において、ＡＤＡＰＴＭＶモードがインター予測シンタックス要素中でシグナリングされるかどうかに基づいて、１つまたは複数のビデオブロックに関連付けられた現在のＭＶＤピクセル解像度が決定される。Ｓ１８４０において、ＡＤＡＰＴＭＶモードがインター予測シンタックス要素中でシグナリングされるかどうかに基づいて、および現在のＭＶＤピクセル解像度にさらに基づいて、１つまたは複数のビデオブロックに関連付けられた１つまたは複数のＭＶＤ関連シンタックス要素が抽出され、復号される。

本開示の実施形態および実装形態では、任意のステップおよび／または動作は、必要に応じて、任意の量または順序で組み合わせられるかまたは配置され得る。ステップおよび／または動作のうちの２つ以上は、並行して行われてもよい。本開示における実施形態および実装形態は、別々に使用されてもよく、または任意の順序で組み合わされてもよい。さらに、方法（または実施形態）、エンコーダ、およびデコーダの各々は、処理回路（例えば、１つもしくは複数のプロセッサまたは１つもしくは複数の集積回路）によって実装され得る。一例では、１つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。本開示における実施形態は、ルーマブロックまたはクロマブロックに適用され得る。ブロックという用語は、予測ブロック、コーディングブロック、またはコーディングユニット、すなわち、ＣＵとして解釈され得る。本明細書におけるブロックという用語は、変換ブロックを指すためにも使用され得る。以下の項目において、ブロックサイズについて言及するとき、それは、ブロックの幅もしくは高さ、または幅および高さの最大値、または幅および高さの最小値、またはエリアサイズ（幅＊高さ）、またはブロックのアスペクト比（幅：高さ、または高さ：幅）のいずれかを指し得る。

上記で説明した技法は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装され、１つまたは複数のコンピュータ可読媒体に物理的に記憶され得る。例えば、図１９は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム（１９００）を示す。

コンピュータソフトウェアは、１つまたは複数のコンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）などによって、直接、または解釈、マイクロコード実行などを通して実行され得る命令を含むコードを作成するために、アセンブリ、コンパイル、リンキング、または同様の機構に従い得る、任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされ得る。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーミングデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはその構成要素上で実行され得る。

コンピュータシステム（１９００）に関して図１９に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能の範囲に関していかなる限定を示唆することも意図されていない。また、構成要素の構成は、コンピュータシステム（１９００）の例示的な実施形態に示される構成要素のいずれか１つまたは組み合わせに関するいかなる依存性または要件も有するものと解釈されるべきではない。

コンピュータシステム（１９００）は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（音声、拍手など）、視覚入力（ジェスチャーなど）、嗅覚入力（図示せず）を通した一人または複数の人間のユーザによる入力に反応し得る。ヒューマンインターフェースデバイスはまた、オーディオ（発話、音楽、周囲音など）、画像（スキャンされた画像、静止画像カメラから取得された写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）などの、人間による意識的な入力に必ずしも直接関係しない特定のメディアをキャプチャするために使用され得る。

入力ヒューマンインターフェースデバイスは、キーボード（１９０１）、マウス（１９０２）、トラックパッド（１９０３）、タッチスクリーン（１９１０）、データグローブ（図示せず）、ジョイスティック（１９０５）、マイクロフォン（１９０６）、スキャナ（１９０７）、カメラ（１９０８）のうちの１つまたは複数（各々１つのみが示されている）を含み得る。

コンピュータシステム（１９００）はまた、特定のヒューマンインターフェース出力デバイスを含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および匂い／味を通して、一人または複数の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（１９１０）、データグローブ（図示せず）、またはジョイスティック（１９０５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る）、オーディオ出力デバイス（スピーカ（１９０９）、ヘッドフォン（図示せず）など）、視覚出力デバイス（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（１９１０）などであり、それぞれがタッチスクリーン入力機能を有するかまたは有さず、それぞれが触覚フィードバック機能を有するかまたは有さず、そのうちのいくつかは、ステレオグラフィック出力、仮想現実眼鏡（図示せず）、ホログラフィックディスプレイ、およびスモークタンク（図示せず）などの手段により２次元視覚出力または３次元を超える出力を出力することが可能であり得る）、およびプリンタ（図示せず）を含み得る。

コンピュータシステム（１９００）はまた、人間がアクセス可能な記憶デバイスと、ＣＤ／ＤＶＤまたは同様の媒体（１９２１）を有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（１９２０）を含む光媒体、サムドライブ（１９２２）、リムーバブルハードドライブまたはソリッドステートドライブ（１９２３）、テープおよびフロッピー（登録商標）ディスクなどのレガシー磁気媒体（図示せず）、セキュリティドングルなどの専用ＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイス（図示せず）など、それらの関連媒体とを含むことができる。

当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム（１９００）はまた、１つまたは複数の通信ネットワーク（１９５５）へのインターフェース（１９５４）を含むことができる。ネットワークは、例えば、ワイヤレス、ワイヤライン、光とすることができる。ネットワークはさらに、ローカル、ワイドエリア、都市、車両および産業、リアルタイム、遅延耐性などとすることができる。ネットワークの例としては、イーサネット（登録商標）などのローカルエリアネットワーク、ワイヤレスＬＡＮ、ＧＳＭ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、および地上波放送ＴＶを含むＴＶワイヤラインまたはワイヤレスワイドエリアデジタルネットワーク、ＣＡＮＢｕｓを含む車両および産業用などが挙げられる。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（１９４９）（例えば、コンピュータシステム（１９００）のＵＳＢポートなど）に取り付けられた外部ネットワークインターフェースアダプタを必要とし、他のものは、一般に、以下で説明するようにシステムバスに取り付けることによってコンピュータシステム（１９００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネット（登録商標）インターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（１９００）は、他のエンティティと通信することができる。そのような通信は、単方向受信専用（例えば、放送ＴＶ）、単方向送信専用（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、または、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの双方向であり得る。特定のプロトコルおよびプロトコルスタックは、上記で説明したように、これらのネットワークおよびネットワークインターフェースの各々で使用され得る。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム（１９００）のコア（１９４０）に取り付けられ得る。

コア（１９４０）は、１つまたは複数の中央処理装置（ＣＰＵ）（１９４１）、グラフィックス処理ユニット（ＧＰＵ）（１９４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（１９４３）の形態の専用プログラマブル処理ユニット、特定のタスクのためのハードウェアアクセラレータ（１９４４）、グラフィックスアダプタ（１９５０）などを含むことができる。これらのデバイスは、読取り専用メモリ（ＲＯＭ）（１９４５）、ランダムアクセスメモリ（１９４６）、ユーザがアクセスできない内部ハードドライブ、ＳＳＤなどの内部大容量記憶装置（１９４７）とともに、システムバス（１９４８）を通して接続され得る。いくつかのコンピュータシステムでは、システムバス（１９４８）は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つまたは複数の物理プラグの形態でアクセス可能であり得る。周辺デバイスは、コアのシステムバス（１９４８）に直接、または周辺バス（１９４９）を通して接続され得る。一例では、スクリーン（１９１０）は、グラフィックスアダプタ（１９５０）に接続され得る。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢなどが含まれる。

ＣＰＵ（１９４１）、ＧＰＵ（１９４２）、ＦＰＧＡ（１９４３）、およびアクセラレータ（１９４４）は、組み合わせて前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（１９４５）またはＲＡＭ（１９４６）に記憶され得る。過渡的なデータもＲＡＭ（１９４６）に記憶され得、永続的なデータは、例えば、内部大容量記憶装置（１９４７）に記憶され得る。メモリデバイスのうちのいずれかへの高速記憶および取出しは、キャッシュメモリの使用により可能にされ得、キャッシュメモリは、１つまたは複数のＣＰＵ（１９４１）、ＧＰＵ（１９４２）、大容量記憶装置（１９４７）、ＲＯＭ（１９４５）、ＲＡＭ（１９４６）などと密接に関連付けられ得る。

コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されてもよいし、コンピュータソフトウェア分野の当業者に周知でかつ利用可能な種類のものであってもよい。

限定としてではなく一例として、アーキテクチャを有するコンピュータシステム（１９００）、具体的にはコア（１９４０）は、１つまたは複数の有形のコンピュータ可読媒体に具現化されたソフトウェアをプロセッサ（複数可）（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が実行した結果として、機能性を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したようなユーザアクセス可能な大容量記憶装置、ならびにコア内部大容量記憶装置（１９４７）またはＲＯＭ（１９４５）などの非一時的な性質のものであるコア（１９４０）の特定の記憶装置に関連付けられた媒体であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア（１９４０）によって実行され得る。コンピュータ可読媒体は、特定のニーズにしたがって、１つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（１９４０）および具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（１９４６）に記憶されたデータ構造を定義することおよびソフトウェアによって定義されたプロセスにしたがってそのようなデータ構造を修正することを含む、本明細書に説明される特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えてまたは代替として、コンピュータシステムは、回路（例えば、アクセラレータ（１９４４））内にハードワイヤードまたは別様に具現化されたロジックの結果として機能性を提供することができ、それは、ソフトウェアの代わりにまたはそれとともに動作して、本明細書に説明される特定のプロセスまたは特定のプロセスの特定の部分を実行することができる。ソフトウェアへの言及は、必要に応じて、ロジックを包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のためのロジックを具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。

本開示は、いくつかの例示的な実施形態を説明してきたが、本開示の範囲内に入る変更、置換、および様々な代替の同等物が存在する。したがって、当業者であれば、本明細書に明示的に図示または説明されていないが、本開示の原理を具現化し、したがって、その趣旨および範囲内である、多数のシステムおよび方法を考案することができるであろうことは理解されよう。
[付録Ａ：頭字語］
ＪＥＭ：joint exploration model（ジョイント探索モデル）
ＶＶＣ：versatile video coding（多用途ビデオコーディング）
ＢＭＳ：benchmark set（ベンチマークセット）
ＭＶ：Motion Vector（動きベクトル）
ＨＥＶＣ：High Efficiency Video Coding（高効率ビデオコーディング）
ＳＥＩ：Supplementary Enhancement Information（補足エンハンスメント情報）
ＶＵＩ：Video Usability Information（ビデオユーザビリティ情報）
ＧＯＰｓ：Groups of Pictures（グループオブピクチャ）
ＴＵｓ：Transform Units（変換ユニット）
ＰＵｓ：Prediction Units（予測ユニット）
ＣＴＵｓ：Coding Tree Units（コーディングツリーユニット）
ＣＴＢ：Coding Tree Blocks（コーディングツリーブロック）
ＰＢ：Prediction Blocks（予測ブロック）
ＨＲＤ：Hypothetical Reference Decoder（仮想参照デコーダ）
ＳＮＲ：Signal Noise Ratio（信号対雑音比）
ＣＰＵｓ：Central Processing Units（中央処理装置）
ＧＰＵｓ：Graphics Processing Units（グラフィックス処理ユニット）
ＣＲＴ：Cathode Ray Tube（陰極線管）
ＬＣＤ：Liquid-Crystal Display（液晶ディスプレイ）
ＯＬＥＤ：Organic Light-Emitting Diode（有機発光ダイオード）
ＣＤ：Compact Disc（コンパクトディスク）
ＤＶＤ：Digital Video Disc（デジタルビデオディスク）
ＲＯＭ：Read-Only Memory（読取り専用メモリ）
ＲＡＭ：Random Access Memory（ランダムアクセスメモリ）
ＡＳＩＣ：Application-Specific Integrated Circuit（特定用途向け集積回路）
ＰＬＤ：Programmable Logic Device（プログラマブル論理デバイス）
ＬＡＮ：Local Area Network（ローカルエリアネットワーク）
ＧＳＭ：Global System for Mobile communications（グローバル・システム・フォー・モバイル・コミュニケーションズ）
ＬＴＥ：Long-Term Evolution（ロングタームエボリューション）
ＣＡＮＢｕｓ：Controller Area Network Bus（コントローラエリアネットワークバス）
ＵＳＢ：Universal Serial Bus（ユニバーサル・シリアル・バス）
ＰＣＩ：Peripheral Component Interconnect（周辺機器相互接続）
ＦＰＧＡ：Field Programmable Gate Areas（フィールドプログラマブルゲートエリア）
ＳＳＤ：solid-state drive（ソリッドステートドライブ）
ＩＣ：Integrated Circuit（集積回路）
ＨＤＲ：high dynamic range（高ダイナミックレンジ）
ＳＤＲ：standard dynamic range（標準ダイナミックレンジ）
ＪＶＥＴ：Joint Video Exploration Team（共同ビデオ探索チーム）
ＭＰＭ：most probable mode（最確モード）
ＷＡＩＰ：Wide-Angle Intra Prediction（広角イントラ予測）
ＣＵ：Coding Unit（コーディングユニット）
ＰＵ：Prediction Unit（予測ユニット）
ＴＵ：Transform Unit（変換ユニット）
ＣＴＵ：Coding Tree Unit（コーディングツリーユニット）
ＰＤＰＣ：Position Dependent Prediction Combination（位置依存予測の組み合わせ）
ＩＳＰ：Intra Sub-Partitions（イントラサブパーティション）
ＳＰＳ：Sequence Parameter Set（シーケンスパラメータセット）
ＰＰＳ：Picture Parameter Set（ピクチャパラメータセット）
ＡＰＳ：Adaptation Parameter Set（適応パラメータセット）
ＶＰＳ：Video Parameter Set（ビデオパラメータセット）
ＤＰＳ：Decoding Parameter Set（復号パラメータセット）
ＡＬＦ：Adaptive Loop Filter（適応ループフィルタ）
ＳＡＯ：Sample Adaptive Offset（サンプル適応オフセット）
ＣＣ－ＡＬＦ：Cross-Component Adaptive Loop Filter（クロスコンポーネント適応ループフィルタ）
ＣＤＥＦ：Constrained Directional Enhancement Filter（制約付き指向性強調フィルタ）
ＣＣＳＯ：Cross-Component Sample Offset（クロスコンポーネントサンプルオフセット）
ＬＳＯ：Local Sample Offset（ローカルサンプルオフセット）
ＬＲ：Loop Restoration Filter（ループ復元フィルタ）
ＡＶ１：AOMedia Video 1（ＡＯＭｅｄｉａビデオ１）
ＡＶ２：AOMedia Video 2（ＡＯＭｅｄｉａビデオ２）
ＭＶＤ：Motion Vector difference（動きベクトル差分）
ＣｆＬ：Chroma from Luma（ルーマからのクロマ）
ＳＤＴ：Semi Decoupled Tree（半分離ツリー）
ＳＤＰ：Semi Decoupled Partitioning（半分離パーティショニング）
ＳＳＴ：Semi Separate Tree（半分離ツリー）
ＳＢ：Super Block（スーパーブロック）
ＩＢＣ（またはＩｎｔｒａＢＣ）：Intra Block Copy（イントラブロックコピー）
ＣＤＦ：Cumulative Density Function（累積密度関数）
ＳＣＣ：Screen Content Coding（画面コンテンツコーディング）
ＧＢＩ：Generalized Bi-prediction（一般化双予測）
ＢＣＷ：Bi-prediction with CU-level Weights（ＣＵレベルの重みによる双予測）
ＣＩＩＰ：Combined intra-inter prediction（複合イントラ－インター予測）
ＰＯＣ：Picture Order Counter（ピクチャ順序カウンタ）
ＲＰＳ：Reference Picture Set（参照ピクチャセット）
ＤＰＢ：Decoded Picture Buffer（復号ピクチャバッファ）
ＭＭＶＤ：Merge Mode with Motion Vector Difference（動きベクトル差分を用いるマージモード）

Claims

ビデオストリームの１つまたは複数のビデオブロックを復号するための方法であって、
前記ビデオストリームを受信するステップと、
前記１つまたは複数のビデオブロックについてＡＤＡＰＴＭＶモードがシグナリングされるかどうかを決定するために、前記ビデオストリームからインター予測シンタックス要素を抽出するステップであって、前記ＡＤＡＰＴＭＶモードは、適応動きベクトル差分（ＭＶＤ）ピクセル解像度を有する単一参照インター予測モードである、ステップと、
前記ＡＤＡＰＴＭＶモードが前記インター予測シンタックス要素中でシグナリングされるかどうかに基づいて、前記１つまたは複数のビデオブロックに関連付けられた現在のＭＶＤピクセル解像度を決定するステップと、
前記ＡＤＡＰＴＭＶモードが前記インター予測シンタックス要素中でシグナリングされるかどうかに基づいて、および前記現在のＭＶＤピクセル解像度にさらに基づいて、前記１つまたは複数のビデオブロックに関連付けられた１つまたは複数のＭＶＤ関連シンタックス要素を抽出および復号するステップと
を含む方法。
前記インター予測シンタックス要素は、前記１つまたは複数のビデオブロックに関連付けられたインター予測参照フレームインデックスがシグナリングされた後に、前記ビデオストリーム中でシグナリングされる、請求項１に記載の方法。
前記インター予測シンタックス要素は、以下の単一参照インター予測モード：
前記ＡＤＡＰＴＭＶモード、
非適応ＭＶＤピクセル解像度を有する単一参照インター予測モードであるＮＥＷＭＶモード、
動きベクトル差分なしに動きベクトルが直接予測される単一参照インター予測モードであるＮＥＡＲＭＶモード、および
前記動きベクトルがグローバル動きパラメータのセットを使用して予測される単一参照インター予測モードであるＧＬＯＢＡＬＭＶモード
のうちの１つを示すように構成される、請求項１に記載の方法。
前記インター予測シンタックス要素内の前記ＡＤＡＰＴＭＶモードを復号するためのコンテキストは、前記ＮＥＷＭＶモード、前記ＮＥＡＲＭＶモード、および前記ＧＬＯＢＡＬＭＶモードの復号と共有される、請求項３に記載の方法。
前記方法は、前記ＡＤＡＰＴＭＶモードが前記インター予測シンタックス要素中でシグナリングされるかどうかに基づいて、前記１つまたは複数のＭＶＤ関連シンタックス要素を復号するための１つまたは複数のコンテキストを導出するステップをさらに含む、請求項１に記載の方法。
前記１つまたは複数のＭＶＤ関連シンタックス要素は、
どのＭＶＤ成分が非ゼロであるかを示すための第１のＭＶＤシンタックス要素、
ＭＶＤ符号を指定するための第２のＭＶＤシンタックス要素、
ＭＶＤ大きさ範囲を指定するための第３のＭＶＤシンタックス要素、
前記ＭＶＤ大きさ範囲内の整数ＭＶＤ大きさオフセットを指定するための第４のＭＶＤシンタックス要素、または
ＭＶＤピクセル解像度を指定するための第５のＭＶＤシンタックス要素
のうちの少なくとも１つを含む、請求項５に記載の方法。
前記１つまたは複数のビデオブロックが前記ＡＤＡＰＴＭＶモードで符号化されるとき、第１のコンテキストが、前記第１のＭＶＤシンタックス要素または前記第３のＭＶＤシンタックス要素を復号するために導出され、前記１つまたは複数のビデオブロックが前記ＡＤＡＰＴＭＶモード以外のインター予測モードでコーディングされるとき、前記第１のコンテキストとは異なる第２のコンテキストが、前記第１のＭＶＤシンタックス要素または前記第３のＭＶＤシンタックス要素を復号するために導出される、請求項６に記載の方法。
前記１つまたは複数のビデオブロックに関連付けられた前記現在のＭＶＤピクセル解像度は、２ｎペル（２ｎピクセル）であり、ここで、ｎは整数であり、両端値を含め－６と１１との間である、請求項１に記載の方法。
前記ビデオストリームから、前記１つまたは複数のビデオブロックに関連付けられたＭＶＤ大きさ範囲を導出するステップをさらに含み、分数ＭＶＤピクセル解像度は、前記ＭＶＤ大きさが所定のしきい値ＭＶＤ大きさ以下であるときにのみ許容される、請求項１に記載の方法。
許容されるＭＶＤピクセル解像度は、非昇順で、異なるＭＶＤ大きさに対応する、請求項９に記載の方法。
前記ビデオストリームから、前記１つまたは複数のビデオブロックに関連付けられたＭＶＤ大きさ範囲を指定するためのＭＶＤクラスインデックスを取得するステップをさらに含む、請求項１に記載の方法。
分数ＭＶＤピクセル解像度は、前記ＭＶＤクラスインデックスが所定のしきい値ＭＶＤクラスインデックス以下であるときにのみ許容される、請求項１１に記載の方法。
前記所定のしきい値ＭＶＤクラスインデックス以上のＭＶＤクラスインデックスは、単一の許容される整数ＭＶＤピクセル解像度値にそれぞれ関連付けられる、請求項１２に記載の方法。
許容されたＭＶＤピクセル解像度は、非昇順で、異なるＭＶＤクラスインデックスに対応する、請求項１１に記載の方法。
異なるＭＶＤクラスインデックスに関連付けられたＭＶＤピクセル解像度は別個である、請求項１４に記載の方法。
ビデオストリームの１つまたは複数のビデオブロックを復号するための電子デバイスであって、前記電子デバイスは、コンピュータ命令を記憶するためのメモリと、前記メモリと通信しているプロセッサとを備え、前記プロセッサは、前記コンピュータ命令を実行するとき、前記電子デバイスに、
請求項１から１５のいずれか一項に記載の方法を行わせるように構成される、電子デバイス。
コンピュータに、請求項１から１５のいずれか一項に記載の方法を実行させるコンピュータプログラム。