JP2022506681A

JP2022506681A - アフィンモデルの動きベクトルに対する制約

Info

Publication number: JP2022506681A
Application number: JP2021524220A
Authority: JP
Inventors: グイチュン・リ; シアン・リ; シャオジョン・シュ; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2018-11-14
Filing date: 2019-11-11
Publication date: 2022-01-17
Anticipated expiration: 2039-11-11
Also published as: EP3881528A4; KR20210049930A; CN112655205A; US11736713B2; CN112655205B; JP7242118B2; US20200154126A1; EP3881528A2; WO2020102087A3; WO2020102087A2

Abstract

ビデオ符号化のための方法では、現在のピクチャ内の現在のブロックの予測情報が、符号化されたビデオビットストリームから復号される。予測情報はアフィンモデルを示し、現在のブロックは2つ以上の制御点を含む。2つ以上の制御点の各々についての動きベクトルが、それぞれの制御点用の対応する動きベクトル予測子に基づいて決定される。それぞれの制御点用の対応する動きベクトル予測子は、候補リスト内の複数の候補動きベクトル予測子のうちの第1の予測子であり、対応する動きベクトル予測子の動きベクトルに関連付けられた制約を満たす。さらに、アフィンモデルのパラメータは、2つ以上の制御点の決定された動きベクトルに基づいて定義され、少なくともブロックのサンプルはアフィンモデルに従って復元される。

Description

関連出願の相互参照
本出願は、2019年6月21日に出願された米国特許出願第16/449,277号「CONSTRAINT ON AFFINE MODEL MOTION VECTOR」の優先権の利益を主張し、それは、2018年11月14日に出願された米国仮出願第62/767,275号「CONSTRAINT ON AFFINE MOTION MODEL MOTION VECTOR」の優先権の利益を主張する。先行出願の開示全体は、参照によりその全体が本明細書に組み込まれる。

本開示は、全体的にビデオ符号化に関連する実施形態を記載する。

本明細書で提供される背景説明は、本開示の文脈を全体として提示することを目的としている。ここに記名された発明者の仕事は、その仕事がこの背景技術セクションに記載されている程度まで、ならびにさもなければ出願時に従来技術として適格ではない可能性がある説明の態様は、明示的にも黙示的にも、本開示に対する従来技術として認められていない。

ビデオの符号化および復号は、動き補償付きのピクチャ間予測を使用して実行することができる。非圧縮デジタルビデオは一連のピクチャを含むことができ、各ピクチャは、たとえば、1920×1080の輝度サンプルおよび関連する色度サンプルの空間寸法を有する。一連のピクチャは、たとえば、毎秒60ピクチャまたは60Hzの固定または可変の（非公式にはフレームレートとしても知られる）ピクチャレートを有することができる。非圧縮ビデオは、重要なビットレート要件を有する。たとえば、サンプルあたり8ビットでの1080p60 4：2：0ビデオ（60Hzフレームレートで1920×1080の輝度サンプル解像度）は、1.5Gbit/sに近い帯域幅を必要とする。そのようなビデオの1時間は、600Gバイトを超える記憶空間を必要とする。

ビデオの符号化および復号の1つの目的は、圧縮を介して入力ビデオ信号の冗長度を減らすことであり得る。圧縮は、前述の帯域幅または記憶空間の要件を、場合によっては、2桁以上削減するのに役立つことができる。可逆圧縮と非可逆圧縮の両方、ならびにそれらの組み合わせを採用することができる。可逆圧縮は、圧縮された元の信号から元の信号の正確なコピーを復元することができる技法を指す。非可逆圧縮を使用すると、復元された信号は元の信号と同一ではない場合があるが、元の信号と復元された信号との間の歪みは、復元された信号を目的の用途に有用なものにするほど十分小さい。ビデオの場合、非可逆圧縮が広く採用されている。許容される歪みの量はアプリケーションに依存し、たとえば、特定の消費者向けストリーミングアプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みを許容することができる。実現可能な圧縮比は、許容／耐容歪みが大きいほど、圧縮比が高くなる可能性があることを反映することができる。

動き補償は非可逆圧縮技法であり得、以前に復元されたピクチャまたはその一部（参照ピクチャ）からのサンプルデータのブロックが、動きベクトル（以降、MV）によって示された方向に空間的にシフトされた後、新しく復元されるピクチャまたはピクチャの一部の予測に使用される。場合によっては、参照ピクチャは現在復元中のピクチャと同じであり得る。MVは、2次元のXおよびY、または3次元を有することができ、3番目の次元は使用中の参照ピクチャの指示である（後者は間接的に時間次元であり得る）。

いくつかのビデオ圧縮法技法では、サンプルデータの特定の領域に適用可能なMVは、他のMV、たとえば、復元中の領域に空間的に隣接し、復号順序でそのMVに先行するサンプルデータの別の領域に関連するMVから予測することができる。そうすることにより、MVの符号化に必要なデータ量を大幅に削減することができ、それによって冗長度が除去され、圧縮率が向上する。たとえば、（ナチュラルビデオとして知られる）カメラから導出された入力ビデオ信号を符号化するとき、単一のMVが適用可能な領域よりも大きい領域が同様の方向に移動する統計的な可能性が存在するので、MV予測は効果的に機能することができ、したがって、場合によっては、隣接する領域のMVから導出された同様の動きベクトルを使用して予測することができる。その結果、所与の領域について検出されたMVは、周囲のMVから予測されたMVと同様または同じであり、エントロピー符号化後、直接MVを符号化の場合に使用されるビット数よりも少ないビット数で表すことができる。場合によっては、MV予測は、元の信号（すなわち、サンプルストリーム）から導出された信号（すなわち、MV）の可逆圧縮の一例であり得る。その他の場合、たとえば、いくつかの周囲のMVから予測子を計算するときの丸め誤差のために、MV予測自体が非可逆であり得る。

様々なMV予測メカニズムが、H.265/HEVC（ITU-T Rec.H.265、「High Efficiency Video Coding」、2016年12月）に記載されている。H.265が提供する多くのMV予測メカニズムのうち、本明細書に記載されるのは、以降「空間マージ」と呼ばれる技法である。

図1を参照すると、現在のブロック（101）は、動き検索プロセス中にエンコーダにより、空間的にシフトされた同じサイズの以前のブロックから予測可能であることが見出されたサンプルを含む。直接そのMVを符号化する代わりに、MVは、A0、A1、およびB0、B1、B2（それぞれ、102～106）と表記された5つの周囲サンプルのいずれか1つに関連付けられたMVを使用して、1つまたは複数の参照ピクチャに関連付けられたメタデータから、たとえば、（復号順序で）最新の参照ピクチャから導出することができる。H.265では、MV予測は、隣接するブロックが使用している同じ参照ピクチャからの予測子を使用することができる。

本開示の態様は、ビデオ符号化／復号のための方法および装置を提供する。いくつかの例では、ビデオ復号のための装置は受信回路および処理回路を含む。

本開示の一態様によれば、デコーダにおけるビデオ符号化のための方法が提供される。開示された方法では、現在のピクチャ内の現在のブロックの予測情報は、符号化されたビデオビットストリームから復号される。予測情報はアフィンモデルを示し、現在のブロックは2つ以上の制御点を含む。その後、2つ以上の制御点の各々についての動きベクトルが、それぞれの制御点用の対応する動きベクトル予測子に基づいて決定される。それぞれの制御点用の対応する動きベクトル予測子は、候補リスト内の複数の候補動きベクトル予測子のうちの第1の予測子であり、対応する動きベクトル予測子の動きベクトルに関連付けられた制約を満たす。さらに、アフィンモデルのパラメータは、2つ以上の制御点の決定された動きベクトルに基づいて決定される。アフィンモデルのパラメータは、ブロックと復元された参照ピクチャ内の参照ブロックとの間を変換するために使用される。その後、少なくともブロックのサンプルがアフィンモデルに従って復元される。

開示された方法は、符号化されたビデオビットストリーム内で受信された制約を適用することをさらに含む。符号化されたビデオビットストリームは、シーケンスパラメータセット、ピクチャパラメータセット、およびスライスヘッダのうちの少なくとも1つである。方法は、2つ以上の制御点の各々についての動きベクトルを決定するために事前定義された制約を適用することも含む。

いくつかの実施形態では、制約を超える複数の候補動きベクトル予測子のうちの第2の予測子は、候補リスト内で削除される。いくつかの実施形態では、制約を超える第2の予測子は、候補リスト内の新しい予測子と置き換えられる。いくつかの実施形態では、第2の予測子の動きベクトルは、第2の予測子が制約を満たすように切り取られる。

いくつかの実施形態では、制約は第1の制限を示す。第1の制限は、ブロックの2つ以上の制御点のうちの1つの動きベクトルと、ブロックの2つ以上の制御点のうちの1つの動きベクトル予測との間の動きベクトル差の水平成分に適用される。動きベクトル予測は、2つ以上の制御点のうちの1つの対応する動きベクトル予測子に基づいて決定される。制約は、第2の制限を示すこともできる。第2の制限は、ブロックの2つ以上の制御点のうちの1つの動きベクトルと、ブロックの2つ以上の制御点のうちの1つの動きベクトル予測との間の動きベクトル差の垂直成分に適用される。動きベクトル予測は、2つ以上の制御点のうちの1つの対応する動きベクトル予測子に基づいて決定される。

いくつかの実施形態では、制約は第3の制限を示す。第3の制限は、2つ以上の制御点のうちの1つの対応する動きベクトル予測子の制御点に関連付けられた動きベクトルの水平成分に適用される。制約は、2つ以上の制御点のうちの1つの対応する動きベクトル予測子の制御点に関連付けられた動きベクトルの垂直成分に適用される第4の制限を示すこともできる。

いくつかの実施形態では、制約は第5の制限を示す。第5の制限は、第1のルーマサンプル位置に関連付けられる。第1のルーマサンプル位置は、2つ以上の制御点のうちの1つの対応する動きベクトル予測子の制御点に関連付けられた動きベクトルによって参照される。第5の制限は、現在のピクチャの幅のピクチャ境界を超える第1の数のルーマサンプルによって定義される。制約は、第6の制限を示すこともできる。6つの制限は、第2のルーマサンプル位置と関連付けられる。第2のルーマサンプル位置は、2つ以上の制御点のうちの1つの対応する動きベクトル予測子の制御点に関連付けられた動きベクトルによって参照される。第6の制限は、現在のピクチャの高さのピクチャ境界を超える第2の数のルーマサンプルによって定義することができる。

いくつかの実施形態では、第5の制限は、現在のピクチャの高さの第1の割合であり、第6の制限は、現在のピクチャの幅の第2の割合である。いくつかの実施形態では、第5の制限は第6の制限とは異なる。

開示された方法では、第1の比率R1は（｜MV1x－MV0x｜／W，｜MV1y－MV0y｜／W）に等しく、第2の比率R2は（｜MV2x－MV0x｜／H，｜MV2y－MV0y｜／H）に等しい。MV0xは、ブロックのための2つ以上の制御点のうちの第1の制御点の動きベクトルの水平成分である。MV1xは、ブロックのための2つ以上の制御点のうちの第2の制御点の動きベクトルの水平成分である。MV2xは、ブロックのための2つ以上の制御点のうちの第3の制御点の動きベクトルの水平成分である。MV0xは、ブロックのための2つ以上の制御点のうちの第1の制御点の動きベクトルの垂直成分である。MV1yは、ブロックのための2つ以上の制御点のうちの第2の制御点の動きベクトルの垂直成分である。MV2yは、ブロックのための2つ以上の制御点のうちの第3の制御点の動きベクトルの垂直成分である。

さらに、｜MV1x－MV0x｜／Wは第1の比率R1の水平成分である。｜MV1y－MV0y｜／Wは第1の比率R1の垂直成分である。｜MV2x－MV0x｜／Hは第2の比率R2の水平成分である。｜MV2y－MV0y｜／Hは第2の比率R2の垂直成分である。したがって、制約は、第1の比率R1の水平成分および垂直成分の最大値に適用される第1のしきい値を示す。制約はまた、第2の比率R2の水平成分および垂直成分の最大値に適用される第2のしきい値を示すことができる。制約は、第1の比率R1の水平成分および垂直成分の最小値に適用される第3のしきい値を示すことができる。制約はさらに、第2の比率R2の水平成分および垂直成分の最小値に適用される第4のしきい値を示すことができる。

いくつかの実施形態では、第1のしきい値は第2のしきい値とは異なり、第3のしきい値は第4のしきい値とは異なる。

本開示の別の態様によれば、装置が提供される。装置は処理回路を有する。処理回路は、ビデオ符号化のための開示された方法を実行するように構成される。

本開示の態様はまた、ビデオ復号のためのコンピュータによって実行されると、ビデオ復号のための方法をコンピュータに実行させる命令を記憶する非一時的コンピュータ可読媒体を提供する。

開示された主題のさらなる特徴、性質、および様々な利点は、以下の発明を実施するための形態および添付の図面からより明らかである。

一例における現在のブロックおよびその周囲の空間マージ候補の概略図である。一実施形態による、通信システム（200）の簡略化されたブロック図の概略図である。一実施形態による、通信システム（300）の簡略化されたブロック図の概略図である。一実施形態による、デコーダの簡略化されたブロック図の概略図である。一実施形態による、エンコーダの簡略化されたブロック図の概略図である。別の実施形態による、エンコーダのブロック図である。別の実施形態による、デコーダのブロック図である。空間候補および時間候補の一例を示す図である。アフィン符号化ブロックの一例を示す図である。 6パラメータおよび4パラメータのアフィンモデルの例を示す図である。一実施形態による、モードベースの継承アフィン予測を示す図である。制御点ベースの構築されたアフィン予測の第1の例を示す図である。制御点ベースの構築されたアフィン予測の第2の例を示す図である。一実施形態による、4パラメータアフィン動きモデルの図である。一実施形態による、6パラメータアフィン動きモデルの図である。一実施形態による、アフィン予測子の制御点動きベクトル（CPMV）に対する第1のサンプルベースのピクチャ外制約を示す図である。一実施形態による、アフィン予測子のCPMVに対する第2のサンプルベースのピクチャ外制約を示す図である。一実施形態による、アフィン予測子のCPMVに対する第1の割合ベースのピクチャ外制約を示す図である。一実施形態による、アフィン予測子のCPMVに対する第2の割合ベースのピクチャ外制約を示す図である。本開示のいくつかの実施形態による、プロセス例を概説するフローチャートである。一実施形態による、コンピュータシステムの概略図である。

図2は、本開示の一実施形態による、通信システム（200）の簡略化されたブロック図を示す。通信システム（200）は、たとえば、ネットワーク（250）を介して互いに通信することができる複数の端末デバイスを含む。たとえば、通信システム（200）は、ネットワーク（250）を介して相互接続された端末デバイス（210）および（220）の第1のペアを含む。図2の例では、端末デバイス（210）および（220）の第1のペアは、データの単方向送信を実行する。たとえば、端末デバイス（210）は、ネットワーク（250）を介して他の端末デバイス（220）に送信するためのビデオデータ（たとえば、端末デバイス（210）によってキャプチャされたビデオピクチャのストリーム）を符号化することができる。符号化されたビデオデータは、1つまたは複数の符号化されたビデオビットストリームの形態で送信することができる。端末デバイス（220）は、ネットワーク（250）から符号化されたビデオデータを受信し、符号化されたビデオデータを復号してビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャを表示することができる。単方向データ送信は、メディアサービングアプリケーションなどで一般的であってよい。

別の例では、通信システム（200）は、たとえばビデオ会議中に発生する場合がある符号化されたビデオデータの双方向送信を実行する端末デバイス（230）および（240）の第2のペアを含む。データの双方向送信の場合、一例では、端末デバイス（230）および（240）のうちの各端末デバイスは、ネットワーク（250）を介して端末デバイス（230）および（240）のうちの他の端末デバイスに送信するためのビデオデータ（たとえば、端末デバイスによってキャプチャされたビデオピクチャのストリーム）を符号化することができる。端末デバイス（230）および（240）のうちの各端末デバイスはまた、端末デバイス（230）および（240）のうちの他の端末デバイスによって送信された符号化されたビデオデータを受信することができ、符号化されたビデオデータを復号してビデオピクチャを復元することができ、復元されたビデオデータに従ってアクセス可能なディスプレイデバイスにおいてビデオピクチャを表示することができる。

図2の例では、端末デバイス（210）、（220）、（230）、および（240）は、サーバ、パーソナルコンピュータ、およびスマートフォンとして示される場合があるが、本開示の原理はそのように限定されない場合がある。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および／または専用のビデオ会議機器を用いるアプリケーションを見つける。ネットワーク（250）は、たとえば、電線（有線）および／またはワイヤレスの通信ネットワークを含む、端末デバイス（210）、（220）、（230）、および（240）の間で符号化されたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク（250）は、回線交換チャネルおよび／またはパケット交換チャネルにおいてデータを交換することができる。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および／またはインターネットが含まれる。ネットワーク（250）のアーキテクチャおよびトポロジーは、本明細書において以下に説明されない限り、本説明の目的のために本開示の動作にとって重要ではない場合がある。

図3は、開示された主題についてのアプリケーション用の一例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を示す。開示された主題は、たとえば、ビデオ会議、デジタルテレビ、CD、DVD、メモリスティックなどを含むデジタル媒体への圧縮ビデオの保存などを含む、他のビデオ対応アプリケーションに等しく適用可能であり得る。

ストリーミングシステムは、たとえば、圧縮されていないビデオピクチャのストリーム（302）を作成するビデオソース（301）、たとえば、デジタルカメラを含むことができる、キャプチャサブシステム（313）を含んでよい。一例では、ビデオピクチャのストリーム（302）は、デジタルカメラによって撮影されたサンプルを含む。符号化されたビデオデータ（304）（または符号化されたビデオビットストリーム）と比較したときに多いデータ量を強調するために太い線として描写されたビデオピクチャのストリーム（302）は、ビデオソース（301）に結合されたビデオエンコーダ（303）を含む電子デバイス（320）によって処理することができる。ビデオエンコーダ（303）は、以下でより詳細に記載されるように、開示された主題の態様を可能にするかまたは実装するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。ビデオピクチャのストリーム（302）と比較したときに少ないデータ量を強調するために細い線として描写された符号化されたビデオデータ（304）（または符号化されたビデオビットストリーム（304））は、将来の使用のためにストリーミングサーバ（305）に格納することができる。図3のクライアントサブシステム（306）および（308）などの1つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ（305）にアクセスして、符号化されたビデオデータ（304）のコピー（307）および（309）を検索することができる。クライアントサブシステム（306）は、たとえば、電子デバイス（330）内にビデオデコーダ（310）を含むことができる。ビデオデコーダ（310）は、符号化されたビデオデータの着信コピー（307）を復号し、ディスプレイ（312）（たとえば、ディスプレイ画面）または他のレンダリングデバイス（描写せず）上でレンダリングすることができるビデオピクチャの発信ストリーム（311）を作成する。いくつかのストリーミングシステムでは、符号化されたビデオデータ（304）、（307）、および（309）（たとえば、ビデオビットストリーム）は、特定のビデオ符号化／圧縮規格に従って符号化することができる。それらの規格の例には、ITU-T勧告H.265が含まれる。一例では、開発中のビデオ符号
化規格は、非公式に多用途ビデオ符号化（VVC）として知られている。開示された主題は、VVCの文脈で使用されてよい。

電子デバイス（320）および（330）は、他の構成要素（図示せず）を含むことができることに留意されたい。たとえば、電子デバイス（320）はビデオデコーダ（図示せず）を含むことができ、電子デバイス（330）もビデオエンコーダ（図示せず）を含むことができる。

図4は、本開示の一実施形態による、ビデオデコーダ（410）のブロック図を示す。ビデオデコーダ（410）は、電子デバイス（430）に含まれ得る。電子デバイス（430）は、受信機（431）（たとえば、受信回路）を含むことができる。ビデオデコーダ（410）は、図3の例のビデオデコーダ（310）の代わりに使用することができる。

受信機（431）は、ビデオデコーダ（410）によって復号される1つまたは複数の符号化されたビデオシーケンス、同じかまたは別の実施形態では、一度に1つの符号化されたビデオシーケンスを受信することができ、各符号化されたビデオシーケンスの復号は、他の符号化されたビデオシーケンスから独立している。符号化されたビデオシーケンスは、チャネル（401）から受信されてよく、チャネル（401）は、符号化されたビデオデータを格納するストレージデバイスへのハードウェア／ソフトウェアリンクであってよい。受信機（431）は、それらのそれぞれの使用エンティティ（描写せず）に転送され得る他のデータ、たとえば、符号化されたオーディオデータおよび／または補助データストリームとともに符号化されたビデオデータを受信することができる。受信機（431）は、符号化されたビデオシーケンスを他のデータから分離することができる。ネットワークジッタに対抗するために、バッファメモリ（415）は、受信機（431）とエントロピーデコーダ／パーサー（420）（以下、「パーサー（420）」）との間に結合されてよい。特定のアプリケーションでは、バッファメモリ（415）はビデオデコーダ（410）の一部である。他のアプリケーションでは、それはビデオデコーダ（410）の外側にあり得る（描写せず）。さらに他のアプリケーションでは、たとえば、ネットワークジッタに対抗するために、ビデオデコーダ（410）の外側にバッファメモリ（描写せず）が存在することができ、加えて、たとえば、プレイアウトタイミングを処理するために、ビデオデコーダ（410）の内側に別のバッファメモリ（415）が存在することができる。受信機（431）が十分な帯域幅および制御可能性のストア／フォワードデバイスから、または等同期ネットワークからデータを受信しているとき、バッファメモリ（415）は必要とされなくてよいか、または小さい可能性がある。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファメモリ（415）が必要とされてよく、比較的大きい可能性があり、有利なことに適応サイズであり得、オペレーティングシステムまたはビデオデコーダ（410）の外側の同様の要素（描写せず）に少なくとも部分的に実装されてよい。

ビデオデコーダ（410）は、符号化されたビデオシーケンスからシンボル（421）を復元するためにパーサー（420）を含んでよい。これらのシンボルのカテゴリには、ビデオデコーダ（410）の動作を管理するために使用される情報、および潜在的に、電子デバイス（430）の不可欠な部分ではないが、図4に示されたように、電子デバイス（430）に結合することができるレンダリングデバイス（412）（たとえば、ディスプレイ画面）などのレンダリングデバイスを制御するための情報が含まれる。レンダリングデバイスのための制御情報は、補足拡張情報（SEIメッセージ）またはビデオユーザビリティ情報（VUI）のパラメータセットフラグメント（描写せず）の形式であってよい。パーサー（420）は、受信された符号化されたビデオシーケンスを構文解析／エントロピー復号することができる。符号化されたビデオシーケンスの符号化は、ビデオ符号化技術または規格に従うことができ、文脈感度の有無にかかわらず、可変長符号化、ハフマン符号化、算術符号化などを含む様々な原理に従うことができる。パーサー（420）は、グループに対応する少なくとも1つのパラメータに基づいて、符号化されたビデオシーケンスから、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも1つのためのサブグループパラメータのセットを抽出することができる。サブグループは、ピクチャグループ（GOP）、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット（CU）、ブロック、変換ユニット（TU）、予測ユニット（PU）などを含むことができる。パーサー（420）はまた、符号化されたビデオシーケンスから、変換係数、量子化器パラメータ値、動きベクトルなどの情報を抽出することができる。

パーサー（420）は、シンボル（421）を作成するために、バッファメモリ（415）から受信されたビデオシーケンスに対してエントロピー復号／構文解析動作を実行することができる。

シンボル（421）の復元は、（ピクチャ間およびピクチャ内、ブロック間およびブロック内などの）符号化されたビデオピクチャまたはその一部のタイプ、ならびに他の要因に応じて、複数の異なるユニットを含むことができる。どのユニットが関与し、パーサー（420）によって符号化されたビデオシーケンスから構文解析されたサブグループ制御情報によってどのように制御することができるか。パーサー（420）と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確にするために描写されていない。

すでに述べた機能ブロックを超えて、ビデオデコーダ（410）は、以下に記載されるように、概念的にいくつかの機能ユニットに細分化することができる。商業的制約の下で動作する実際の実装形態では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的には互いに統合することができる。しかしながら、開示された主題を記載するために、以下の機能単位への概念的な細分化が適切である。

第1のユニットはスケーラ／逆変換ユニット（451）である。スケーラ／逆変換ユニット（451）は、量子化変換係数、ならびにどの変換を使用するか、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報を、パーサー（420）からシンボル（421）として受け取る。スケーラ／逆変換ユニット（451）は、アグリゲータ（455）に入力することができるサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換（451）の出力サンプルは、イントラ符号化されたブロック、すなわち、以前に復元されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に復元された部分からの予測情報を使用することができるブロックに関連する可能性がある。そのような予測情報は、ピクチャ内予測ユニット（452）によって提供することができる。場合によっては、ピクチャ内予測ユニット（452）は、現在のピクチャバッファ（458）からフェッチされた周囲のすでに復元された情報を使用して、復元中のブロックと同じサイズおよび形状のブロックを生成する。現在のピクチャバッファ（458）は、たとえば、部分的に復元された現在のピクチャおよび／または完全に復元された現在のピクチャをバッファリングする。アグリゲータ（455）は、場合によっては、サンプルごとに、イントラ予測ユニット（452）が生成した予測情報を、スケーラ／逆変換ユニット（451）によって提供される出力サンプル情報に追加する。

他の場合には、スケーラ／逆変換ユニット（451）の出力サンプルは、インター符号化され、潜在的に動き補償されたブロックに関連する可能性がある。そのような場合、動き補償予測ユニット（453）は、参照ピクチャメモリ（457）にアクセスして、予測に使用されるサンプルをフェッチすることができる。ブロックに関連するシンボル（421）に従ってフェッチされたサンプルを動き補償した後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ（455）によってスケーラ／逆変換ユニット（451）の出力に追加することができる（この場合、残差サンプルまたは残差信号と呼ばれる）。動き補償予測ユニット（453）が予測サンプルをフェッチする参照ピクチャメモリ（457）内のアドレスは、たとえば、X、Y、および参照ピクチャ成分を有することができるシンボル（421）の形態で動き補償予測ユニット（453）に利用可能な動きベクトルによって制御することができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ（457）からフェッチされたサンプル値の補間、動きベクトル予測メカニズムなどを含むことができる。

アグリゲータ（455）の出力サンプルは、ループフィルタユニット（456）において様々なループフィルタリング技法を受けることができる。ビデオ圧縮技法は、（符号化されたビデオビットストリームとも呼ばれる）符号化されたビデオシーケンスに含まれるパラメータによって制御され、パーサー（420）からのシンボル（421）としてループフィルタユニット（456）に利用可能にされるインループフィルタ技法を含むことができるが、符号化されたピクチャまたは符号化されたビデオシーケンスの（復号順序で）前の部分の復号中に取得されたメタ情報に応答するだけでなく、以前に復元およびループフィルタリングされたサンプル値に応答することもできる。

ループフィルタユニット（456）の出力は、レンダリングデバイス（412）に出力されるだけでなく、将来のピクチャ間予測で使用するために参照ピクチャメモリ（457）に格納され得るサンプルストリームであり得る。

特定の符号化されたピクチャは、完全に復元されると、将来の予測のために参照ピクチャとして使用することができる。たとえば、現在のピクチャに対応する符号化されたピクチャが完全に復元され、符号化されたピクチャが参照ピクチャとして（たとえば、パーサー（420）によって）識別されると、現在のピクチャバッファ（458）は、参照ピクチャメモリ（457）の一部になることができ、未使用の現在のピクチャバッファは、次の符号化されたピクチャの復元を開始する前に再割り当てすることができる。

ビデオデコーダ（410）は、ITU-T Rec.H.265などの規格における所定のビデオ圧縮技術に従って復号動作を実行することができる。符号化されたビデオシーケンスがビデオ圧縮技術または規格の構文とビデオ圧縮技術において文書化されたプロファイルの両方を順守するという意味で、符号化されたビデオシーケンスは、使用されているビデオ圧縮技術または規格によって指定された構文に準拠することができる。具体的には、プロファイルは、ビデオ圧縮技術または規格で使用可能なすべてのツールから、そのプロファイル下で使用するために利用可能な唯一のツールとしていくつかのツールを選択することができる。また、コンプライアンスのために必要なのは、符号化されたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格のレベルによって定義された範囲内にあることである。場合によっては、レベルにより、最大ピクチャサイズ、最大フレームレート、（たとえば、1秒あたりのメガサンプル単位で測定された）最大復元サンプルレート、最大参照ピクチャサイズなどが制限される。レベルによって設定される制限は、場合によっては、仮想参照デコーダ（HRD）の仕様、および符号化されたビデオシーケンス内で通知されるHRDバッファ管理用のメタデータによってさらに制限され得る。

一実施形態では、受信機（431）は、符号化されたビデオとともに追加の（冗長な）データを受信することができる。追加のデータは、符号化されたビデオシーケンスの一部として含まれてよい。追加のデータは、データを適切に復号するために、かつ／または元のビデオデータをより正確に復元するために、ビデオデコーダ（410）によって使用されてよい。追加のデータは、たとえば、時間、空間、または信号ノイズ比（SNR）の拡張層、冗長スライス、冗長ピクチャ、順方向誤り訂正コードなどの形式であり得る。

図5は、本開示の一実施形態による、ビデオエンコーダ（503）のブロック図を示す。ビデオエンコーダ（503）は電子デバイス（520）に含まれる。電子デバイス（520）は送信機（540）（たとえば、送信回路）を含む。ビデオエンコーダ（503）は、図3の例のビデオエンコーダ（303）の代わりに使用することができる。

ビデオエンコーダ（503）は、ビデオエンコーダ（503）によって符号化されるビデオ画像をキャプチャすることができる（図5の例では電子デバイス（520）の一部ではない）ビデオソース（501）からビデオサンプルを受信することができる。別の例では、ビデオソース（501）は電子デバイス（520）の一部である。

ビデオソース（501）は、任意の適切なビット深度（たとえば、8ビット、10ビット、12ビット、…）、任意の色空間（たとえば、BT.601 Y CrCB、RGB、…）、および任意の適切なサンプリング構造（たとえば、Y CrCb 4：2：0、Y CrCb 4：4：4）であり得るデジタルビデオサンプルストリームの形態で、ビデオエンコーダ（503）によって符号化されるソースビデオシーケンスを提供することができる。メディアサービングシステムでは、ビデオソース（501）は、以前に準備されたビデオを格納するストレージデバイスであってよい。ビデオ会議システムでは、ビデオソース（501）は、ビデオシーケンスとしてローカル画像情報をキャプチャするカメラであってよい。ビデオデータは、順番に見たときに動きを伝える複数の個別のピクチャとして提供されてよい。ピクチャ自体は、ピクセルの空間配列として編成されてよく、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、1つまたは複数のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。以下の説明はサンプルに焦点を当てる。

一実施形態によれば、ビデオエンコーダ（503）は、リアルタイムで、またはアプリケーションによって必要とされる任意の他の時間制約の下で、ソースビデオシーケンスのピクチャを符号化されたビデオシーケンス（543）に符号化し圧縮することができる。適切な符号化速度を履行することは、コントローラ（550）の1つの機能である。いくつかの実施形態では、コントローラ（550）は、以下に記載されるように他の機能ユニットを制御し、他の機能ユニットに機能的に結合されている。明確にするために、結合は描写されていない。コントローラ（550）によって設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技法のラムダ値、…）、ピクチャサイズ、ピクチャグループ（GOP）のレイアウト、最大動きベクトル検索範囲などを含むことができる。コントローラ（550）は、特定のシステム設計のために最適化されたビデオエンコーダ（503）に関連する他の適切な機能を有するように構成することができる。

いくつかの実施形態では、ビデオエンコーダ（503）は、符号化ループで動作するように構成される。単純化し過ぎた説明として、一例では、符号化ループは、（たとえば、符号化される入力ピクチャ、および参照ピクチャに基づいて、シンボルストリームなどのシンボルを作成することに関与する）ソースコーダ（530）、ならびにビデオエンコーダ（503）に組み込まれた（ローカル）デコーダ（533）を含むことができる。デコーダ（533）は、（シンボルと符号化されたビデオビットストリームとの間のいかなる圧縮も、開示された主題で考慮されるビデオ圧縮技術において可逆であるため）（リモート）デコーダも作成するのと同様の方式で、シンボルを復元してサンプルデータを作成する復元されたサンプルストリーム（サンプルデータ）は、参照ピクチャメモリ（534）に入力される。シンボルストリームの復号は、デコーダの場所（ローカルまたはリモート）に関係なくビット正確な結果につながるので、参照ピクチャメモリ（534）内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えれば、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」のと全く同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性（および、たとえば、チャネルエラーのために同期性が維持できない場合に結果として生じるドリフト）のこの基本原理は、いくつかの関連技術でも使用される。

「ローカル」デコーダ（533）の動作は、図4と連携して上記に詳細にすでに記載されている、ビデオデコーダ（410）などの「リモート」デコーダの動作と同じであり得る。しかしながら、また図4を簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ（545）およびパーサー（420）による符号化されたビデオシーケンスへのシンボルの符号化／復号は可逆であり得るので、バッファメモリ（415）を含むビデオデコーダ（410）のエントロピー復号部分、およびパーサー（420）は、ローカルデコーダ（533）に完全に実装されていない可能性がある。

この時点で行うことができる観察は、デコーダに存在する構文解析／エントロピー復号以外の任意のデコーダ技術も、対応するエンコーダ内に実質的に同一の機能形態で必ず存在する必要があるということである。このため、開示される主題はデコーダの動作に焦点を当てる。エンコーダ技術の説明は、包括的に記載されたデコーダ技術の逆であるため、省略することができる。特定の領域のみで、より詳細な説明が必要であり、以下に提供される。

動作中、いくつかの例では、ソースコーダ（530）は、「参照ピクチャ」として指定されたビデオシーケンスからの1つまたは複数の以前に符号化されたピクチャを参照して入力ピクチャを予測的に符号化する、動き補償予測符号化を実行することができる。このようにして、符号化エンジン（532）は、入力ピクチャのピクセルブロックと、入力ピクチャへの予測参照として選択され得る参照ピクチャのピクセルブロックとの間の差を符号化する。

ローカルビデオデコーダ（533）は、ソースコーダ（530）によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャの符号化されたビデオデータを復号することができる。符号化エンジン（532）の動作は、有利なことに、非可逆プロセスであってよい。符号化されたビデオデータがビデオデコーダ（図5には示されていない）で復号され得るとき、復元されたビデオシーケンスは、通常、いくつかのエラーを伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ（533）は、参照ピクチャに対してビデオデコーダによって実行され得る復号プロセスを複製し、復元された参照ピクチャが参照ピクチャキャッシュ（534）に格納されるようにすることができる。このようにして、ビデオエンコーダ（503）は、（送信エラーがない）遠端ビデオデコーダによって取得される復元された参照ピクチャとして共通のコンテンツを有する復元された参照ピクチャのコピーをローカルに格納することができる。

予測子（535）は、符号化エンジン（532）のための予測検索を実行することができる。すなわち、符号化される新しいピクチャの場合、予測子（535）は、新しいピクチャのための適切な予測参照として役立つことができる、（候補参照ピクセルブロックとしての）サンプルデータまたは参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータについて、参照ピクチャメモリ（534）を検索することができる。予測子（535）は、適切な予測参照を見つけるために、ピクセルブロックごとにサンプルブロックに対して動作することができる。場合によっては、予測子（535）によって取得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（534）に格納された複数の参照ピクチャから引き出された予測参照を有することができる。

コントローラ（550）は、たとえば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ（530）の符号化動作を管理することができる。

すべての前述の機能ユニットの出力は、エントロピーコーダ（545）内でエントロピー符号化を受けることができる。エントロピーコーダ（545）は、ハフマン符号化、可変長符号化、算術符号化などの技術に従ってシンボルを可逆圧縮することにより、様々な機能ユニットによって生成されたシンボルを符号化されたビデオシーケンスに変換する。

送信機（540）は、エントロピーコーダ（545）によって作成された符号化されたビデオシーケンスをバッファリングして、通信チャネル（560）を介した送信の準備をすることができ、通信チャネル（560）は、符号化されたビデオデータを格納するストレージデバイスへのハードウェア／ソフトウェアリンクであってよい。送信機（540）は、ビデオコーダ（503）からの符号化されたビデオデータを、送信される他のデータ、たとえば、符号化されたオーディオデータおよび／または補助データストリーム（ソースは図示されていない）とマージすることができる。

コントローラ（550）は、ビデオエンコーダ（503）の動作を管理することができる。符号化中に、コントローラ（550）は、各々の符号化されたピクチャに特定の符号化されたピクチャのタイプを割り当てることができ、それは、それぞれのピクチャに適用され得る符号化技法に影響を及ぼす場合がある。たとえば、ピクチャは、しばしば、以下のピクチャのタイプのうちの1つとして割り当てられてよい。

イントラピクチャ（Iピクチャ）は、予測のソースとしてシーケンス内のいかなる他のピクチャも使用せずに符号化および復号され得るピクチャであり得る。いくつかのビデオコーデックは、たとえば、Independent Decoder Refresh（「IDR」）ピクチャを含む、様々なタイプのイントラピクチャを可能にする。当業者は、Iピクチャのそれらの変形形態、ならびにそれらのそれぞれの用途および特徴を知っている。

予測ピクチャ（Pピクチャ）は、各ブロックのサンプル値を予測するために、多くとも1つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して、符号化および復号され得るピクチャであり得る。

双方向予測ピクチャ（Bピクチャ）は、各ブロックのサンプル値を予測するために、多くとも2つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して、符号化および復号され得るピクチャであり得る。同様に、複数の予測ピクチャは、単一ブロックの復元のために3つ以上の参照ピクチャおよび関連するメタデータを使用することができる。

ソースピクチャは、通常、複数のサンプルブロック（たとえば、各々4×4、8×8、4×8、または16×16サンプルのブロック）に空間的に細分化され、ブロックごとに符号化される。ブロックは、ブロックのそれぞれのピクチャに適用される符号化割り当てによって決定されるように、他の（すでに符号化された）ブロックを参照して予測的に符号化され得る。たとえば、Iピクチャのブロックは、非予測的に符号化され得るか、またはそれらは、同じピクチャのすでに符号化されたブロックを参照して予測的に符号化され得る（空間予測またはイントラ予測）。Pピクチャのピクセルブロックは、1つの以前に符号化された参照ピクチャを参照して、空間予測を介してまたは時間予測を介して、予測的に符号化され得る。Bピクチャのブロックは、1つまたは2つの以前に符号化された参照ピクチャを参照して、空間予測を介してまたは時間予測を介して、予測的に符号化され得る。

ビデオエンコーダ（503）は、ITU-T Rec.H.265などの所定のビデオ符号化技術または規格に従って符号化動作を実行することができる。その動作において、ビデオエンコーダ（503）は、入力ビデオシーケンスにおける時間および空間の冗長性を利用する予測符号化動作を含む、様々な圧縮動作を実行することができる。したがって、符号化されたビデオデータは、使用されているビデオ符号化技術または規格によって指定された構文に準拠することができる。

一実施形態では、送信機（540）は、符号化されたビデオとともに追加のデータを送信することができる。ソースコーダ（530）は、符号化されたビデオシーケンスの一部としてそのようなデータを含んでよい。追加のデータは、時間／空間／SNR拡張層、冗長なピクチャおよびスライスなどの他の形式の冗長データ、SEIメッセージ、VUIパラメータセットフラグメントなどを含んでよい。

ビデオは、時系列で複数のソースピクチャ（ビデオピクチャ）としてキャプチャされてよい。（しばしば、イントラ予測と省略される）ピクチャ内予測は、所与のピクチャ内の空間の相関関係を利用し、ピクチャ間予測は、ピクチャ間の（時間または他の）相関関係を利用する。一例では、現在のピクチャと呼ばれる、符号化／復号中の特定のピクチャがブロックに分割される。現在のピクチャ内のブロックが、以前に符号化され、ビデオ内にまだバッファリングされている参照ピクチャ内の参照ブロックに類似しているとき、現在のピクチャ内のブロックは、動きベクトルと呼ばれるベクトルによって符号化することができる。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されている場合、参照ピクチャを識別する第3の次元を有することができる。

いくつかの実施形態では、バイ予測技法は、ピクチャ間予測に使用することができる。バイ予測技法によれば、両方ともビデオ内の現在のピクチャよりも復号順序で前にある（が、それぞれ、表示順序で過去および将来であり得る）第1の参照ピクチャおよび第2の参照ピクチャなどの2つの参照ピクチャが使用される。現在のピクチャ内のブロックは、第1の参照ピクチャ内の第1の参照ブロックを指す第1の動きベクトル、および第2の参照ピクチャ内の第2の参照ブロックを指す第2の動きベクトルによって符号化することができる。ブロックは、第1の参照ブロックと第2の参照ブロックの組み合わせによって予測することができる。

さらに、符号化効率を上げるために、ピクチャ間予測においてマージモード技法を使用することができる。

本開示のいくつかの実施形態によれば、ピクチャ間予測およびピクチャ内予測などの予測は、ブロックの単位で実行される。たとえば、HEVC規格によれば、ビデオピクチャのシーケンス内のピクチャは、圧縮のために符号化ツリーユニット（CTU）に分割され、ピクチャ内のCTUは、64×64ピクセル、32×32ピクセル、または16×16ピクセルなどの同じサイズを有する。一般に、CTUは3つの符号化ツリーブロック（CTB）を含み、それらは1つのルーマCTBおよび2つのクロマCTBである。各CTUは、1つまたは複数の符号化ユニット（CU）に再帰的に四分木分割することができる。たとえば、64×64ピクセルのCTUは、1つの64×64ピクセルのCU、または4つの32×32ピクセルのCU、または16個の16×16ピクセルのCUに分割することができる。一例では、インター予測タイプまたはイントラ予測タイプなどのCUの予測タイプを決定するために、各CUが分析される。CUは、時間および／または空間の予測可能性に応じて、1つまたは複数の予測ユニット（PU）に分割される。一般に、各PUは、1つのルーマ予測ブロック（PB）および2つのクロマPBを含む。一実施形態では、符号化（符号化／復号）における予測動作は、予測ブロックの単位で実行される。予測ブロックの一例としてルーマ予測ブロックを使用すると、予測ブロックは、8x8ピクセル、16x16ピクセル、8x16ピクセル、16x8ピクセルなどのピクセルの値（たとえば、ルーマ値）の行列を含む。

図6は、本開示の別の実施形態による、ビデオエンコーダ（603）の図を示す。ビデオエンコーダ（603）は、ビデオピクチャのシーケンス内の現在のビデオピクチャ内のサンプル値の処理ブロック（たとえば、予測ブロック）を受信し、処理ブロックを符号化されたビデオシーケンスの一部である符号化されたピクチャに符号化するように構成される。一例では、ビデオエンコーダ（603）は、図3の例のビデオエンコーダ（303）の代わりに使用される。

HEVCの例では、ビデオエンコーダ（603）は、8×8サンプルの予測ブロックなどの処理ブロック用のサンプル値の行列を受信する。ビデオエンコーダ（603）は、処理ブロックが、たとえば、レート歪み最適化を使用して、イントラモード、インターモード、またはバイ予測モードを使用して最適に符号化されるかどうかを判定する。処理ブロックがイントラモードで符号化されるとき、ビデオエンコーダ（603）は、イントラ予測技法を使用して、処理ブロックを符号化されたピクチャに符号化することができ、処理ブロックがインターモードまたはバイ予測モードで符号化されるとき、ビデオエンコーダ（603）は、それぞれ、インター予測技法またはバイ予測技法を使用して、処理ブロックを符号化されたピクチャに符号化することができる。特定のビデオ符号化技術では、マージモードは、予測子の外側の符号化された動きベクトル成分の利点がない、動きベクトルが1つまたは複数の動きベクトル予測子から導出されるピクチャ間予測サブモードであり得る。特定の他のビデオ符号化技術では、対象ブロックに適用可能な動きベクトル成分が存在してよい。一例では、ビデオエンコーダ（603）は、処理ブロックのモードを決定するためにモード決定モジュール（図示せず）などの他の構成要素を含む。

図6の例では、ビデオエンコーダ（603）は、図6に示されたように一緒に結合されたインターエンコーダ（630）、イントラエンコーダ（622）、残差計算機（623）、スイッチ（626）、残差エンコーダ（624）、汎用コントローラ（621）、およびエントロピーエンコーダ（625）を含む。

インターエンコーダ（630）は、現在のブロック（たとえば、処理ブロック）のサンプルを受信し、ブロックを参照ピクチャ内の1つまたは複数の参照ブロック（たとえば、前のピクチャおよび後のピクチャ内のブロック）と比較し、インター予測情報（たとえば、インター符号化技法による冗長情報、動きベクトル、マージモード情報の記述）を生成し、任意の適切な技法を使用して、インター予測情報に基づいてインター予測結果（たとえば、予測ブロック）を計算するように構成される。いくつかの例では、参照ピクチャは、符号化されたビデオ情報に基づいて復号される復号参照ピクチャである。

イントラエンコーダ（622）は、現在のブロック（たとえば、処理ブロック）のサンプルを受信し、場合によっては、ブロックを同じピクチャ内のすでに符号化されたブロックと比較し、変換後に量子化係数を生成し、場合によっては、イントラ予測情報（たとえば、1つまたは複数のイントラ符号化技法によるイントラ予測方向情報）も生成するように構成される。一例では、イントラエンコーダ（622）はまた、同じピクチャ内のイントラ予測情報および参照ブロックに基づいて、イントラ予測結果（たとえば、予測ブロック）を計算する。

汎用コントローラ（621）は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ（603）の他の構成要素を制御するように構成される。一例では、汎用コントローラ（621）は、ブロックのモードを決定し、モードに基づいてスイッチ（626）に制御信号を提供する。たとえば、モードがイントラモードであるとき、汎用コントローラ（621）は、スイッチ（626）を制御して残差計算機（623）が使用するためのイントラモード結果を選択し、エントロピーエンコーダ（625）を制御してイントラ予測情報を選択し、ビットストリームにイントラ予測情報を含め、モードがインターモードであるとき、汎用コントローラ（621）は、スイッチ（626）を制御して残差計算機（623）が使用するためのインター予測結果を選択し、エントロピーエンコーダ（625）を制御してインター予測情報を選択し、ビットストリームにインター予測情報を含める。

残差計算機（623）は、受信ブロックと、イントラエンコーダ（622）またはインターエンコーダ（630）から選択された予測結果との間の差（残差データ）を計算するように構成される。残差エンコーダ（624）は、残差データを符号化して変換係数を生成するために、残差データに基づいて動作するように構成される。一例では、残差エンコーダ（624）は、残差データを空間領域から周波数領域に変換し、変換係数を生成するように構成される。次いで、変換係数は、量子化変換係数を取得するために量子化処理を受ける。様々な実施形態では、ビデオエンコーダ（603）は残差デコーダ（628）も含む。残差デコーダ（628）は、逆変換を実行し、復号された残差データを生成するように構成される。復号された残差データは、イントラエンコーダ（622）およびインターエンコーダ（630）によって適切に使用することができる。たとえば、インターエンコーダ（630）は、復号された残差データおよびインター予測情報に基づいて復号されたブロックを生成することができ、イントラエンコーダ（622）は、復号された残差データおよびイントラ予測情報に基づいて復号されたブロックを生成することができる。復号されたブロックは、復号されたピクチャを生成するために適切に処理され、復号されたピクチャは、メモリ回路（図示せず）にバッファリングされ、いくつかの例では参照ピクチャとして使用することができる。

エントロピーエンコーダ（625）は、符号化されたブロックを含めるようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ（625）は、HEVC規格などの適切な規格に従って様々な情報を含むように構成される。一例では、エントロピーエンコーダ（625）は、汎用制御データ、選択された予測情報（たとえば、イントラ予測情報またはインター予測情報）、残差情報、およびビットストリーム内の他の適切な情報を含むように構成される。開示された主題によれば、インターモードまたはバイ予測モードのいずれかのマージサブモードでブロックを符号化するときに残差情報が存在しないことに留意されたい。

図7は、本開示の別の実施形態による、ビデオデコーダ（710）の図を示す。ビデオデコーダ（710）は、符号化されたビデオシーケンスの一部である符号化されたピクチャを受信し、符号化されたピクチャを復号して復元されたピクチャを生成するように構成される。一例では、ビデオデコーダ（710）は、図3の例のビデオデコーダ（310）の代わりに使用される。

図7の例では、ビデオデコーダ（710）は、図7に示されたように一緒に結合されたエントロピーデコーダ（771）、インターデコーダ（780）、残差デコーダ（773）、復元モジュール（774）、およびイントラデコーダ（772）を含む。

エントロピーデコーダ（771）は、符号化されたピクチャから、符号化されたピクチャが構成される構文要素を表す特定のシンボルを復元するように構成することができる。そのようなシンボルは、たとえば、（たとえば、イントラモード、インターモード、バイ予測モード、マージサブモードまたは別のサブモードの中の後者2つなどの）ブロックが符号化されるモード、それぞれ、イントラデコーダ（772）またはインターデコーダ（780）による予測に使用される特定のサンプルまたはメタデータを識別することができる（たとえば、イントラ予測情報またはインター予測情報などの）予測情報、たとえば、量子化変換係数の形態の残差情報を含むことができる。一例では、予測モードがインターモードまたはバイ予測モードであるとき、インター予測情報はインターデコーダ（780）に提供され、予測タイプがイントラ予測タイプであるとき、イントラ予測情報はイントラデコーダ（772）に提供される。残差情報は逆量子化を受けることができ、残差デコーダ（773）に提供される。

インターデコーダ（780）は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成される。

イントラデコーダ（772）は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成される。

残差デコーダ（773）は、逆量子化を実行して逆量子化変換係数を抽出し、逆量子化変換係数を処理して、残差を周波数領域から空間領域に変換するように構成される。残差デコーダ（773）はまた、（量子化器パラメータ（QP）を含めるために）特定の制御情報を必要としてよく、その情報は、エントロピーデコーダ（771）によって提供されてよい（これは、少量の制御情報のみである可能性があるので、データパスは描写されていない）。

復元モジュール（774）は、空間領域において、残差デコーダ（773）によって出力された残差と（場合によってはインター予測モジュールまたはイントラ予測モジュールによって出力された）予測結果を組み合わせて、復元されたピクチャの一部であり得る復元されたブロックを形成し、同様に、復元されたピクチャは復元されたビデオの一部であり得る、視覚的品質を改善するために、デブロッキング動作などの他の適切な動作が実行できることに留意されたい。

ビデオエンコーダ（303）、（503）、および（603）、ならびにビデオデコーダ（310）、（410）、および（710）は、任意の適切な技法を使用して実装できることに留意されたい。一実施形態では、ビデオエンコーダ（303）、（503）、および（603）、ならびにビデオデコーダ（310）、（410）、および（710）は、1つまたは複数の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ（303）、（503）、および（503）、ならびにビデオデコーダ（310）、（410）、および（710）は、ソフトウェア命令を実行する1つまたは複数のプロセッサを使用して実装することができる。

本開示の態様は、アフィンマージおよびアフィン動きベクトル符号化に関する。開示された方法は、アフィンインター予測の符号化性能を改善するために、高度なビデオコーデック（たとえば、AVC）において使用することができる。動きベクトルはブロックモードを参照することができ、ブロックモードでは、1つのブロック全体が、HEVC規格内のマージ候補などの動き情報のセットを使用する。さらに、動きベクトルはサブブロックモードを参照することができ、サブブロックモードでは、アフィンモードおよびVVC規格内の高度時間MV予測（ATMVP）などの動き情報の異なるセットを、ブロックの異なる部分に適用することができる。

一般に、ブロック用の動きベクトルは、動きベクトル予測子に差を通知するように明示的な方法（たとえば、高度動きベクトル予測もしくはAMVPモード）、または1つの以前に符号化もしくは生成された動きベクトルから完全に示されるように暗黙的な方法のいずれかで符号化することができる。後者はマージモードと呼ばれ、現在のブロックがその動き情報を使用して以前に符号化されたブロックにマージされることを意味する。

AMVPモードとマージモードの両方において、候補リストは復号中に構築される。図8は、空間候補および時間候補の例を示す。インター予測におけるマージモードの場合、マージ候補リスト内のマージ候補は、現在のブロックの空間的および／または時間的に隣接するブロックからの動き情報をチェックすることによって形成することができる。図8の例では、空間候補ブロックA1、B1、B0、A0、およびB2が順次チェックされる。1つまたは複数の空間候補ブロックが有効な候補である（たとえば、動きベクトルで符号化されている）とき、1つまたは複数の有効な候補ブロックの動き情報をマージ候補リストに追加することができる。重複した候補がマージ候補リストに含まれないこと、たとえば、再びリストに追加されないことを保証するために、枝刈り動作を実行することができる。候補ブロックA1、B1、B0、A0、およびB2は、現在のブロックのコーナーに隣接し、コーナー候補と呼ぶことができる。

空間候補がチェックされた後、リストに含めるために時間候補をチェックすることができる。いくつかの例では、現在のブロックの同じ場所に配置されたブロックが、指定された参照ピクチャ内で見つかる。同じ場所に配置されたブロックのC0位置（たとえば、現在のブロックの右下隅）での動き情報は、利用可能なとき、時間マージ候補として使用することができる。この位置にあるブロックがインターモードで符号化されていないか、またはさもなければ利用できない場合、代わりにC1位置（たとえば、同じ場所に配置されたブロックの中心に隣接する右下隅）を使用することができる。本開示は、マージモードをさらに改善するための技法を提供する。

高度動きベクトル予測（AMVP）モードでは、現在のブロックの動き情報を予測するために、空間的および時間的に隣接するブロックの動き情報を使用することができる。予測残差がさらに符号化される。空間的および時間的に隣接する候補の例が図8に示されている。

いくつかの実施形態では、2候補動きベクトル予測子リストがAMVPモードで形成される。たとえば、2候補動きベクトル予測子リストは、第1の候補予測子および第2の候補予測子を含む。第1の候補予測子は、左端から利用可能な動きベクトル、たとえば、空間A0、A1位置の順序で第1の利用可能な動きベクトルである。第2の候補予測子は、上端から利用可能な動きベクトル、たとえば、空間B0、B1、およびB2位置の順序で第1の利用可能な動きベクトルである。チェックされた位置から有効な動きベクトルを見つけることができない場合（たとえば、左端および上端の場合）、候補予測子はリストに追加されない。2つの候補予測子が利用可能であり、同じである場合、リストには1つだけが保持される。リストが（2つの異なる候補で）一杯でない場合、（スケーリング後）C0位置からの時間的に同じ位置に配置された動きベクトルを別の候補として使用することができる。C0位置での動き情報が利用可能でない場合、代わりにC1位置を使用することができる。

いくつかの例では、十分な動きベクトル予測子候補がまだない場合、リストを埋めるためにゼロ動きベクトルが使用される。

本開示の一態様によれば、アフィン動き補償は、符号化ブロック用の6パラメータ（または簡略化された4パラメータ）アフィンモデルを記述することにより、現在のブロック内のサンプル用の動き情報を効率的に予測することができる。より具体的には、アフィン符号化または記述された符号化ブロックでは、サンプルの異なる部分が異なる動きベクトルを有することができる。アフィン符号化または記述されたブロック内に動きベクトルを有する基本単位は、サブブロックと呼ぶことができる。サブブロックのサイズは、1サンプルのみの小ささであり得、現在のブロックのサイズと同じ大きさであり得る。

アフィンモードでは、6パラメータのアフィン動きモデルまたは4パラメータのアフィン動きモデルなどのモデルを使用して、現在のブロック内のサンプルごとに（目標とする参照ピクチャに対する）動きベクトルを導出することができる。実装の複雑さを軽減するために、サンプルベースの代わりにサブブロックベースで、アフィン動き補償を実行することができる。すなわち、動きベクトルはサブブロックごとに導出され、動きベクトルはそれぞれのサブブロック内のサンプルに対して同じである。サブブロックの左上または中心点などの各サブブロックの特定の位置は、代表的な位置であると想定することができる。一例では、そのようなサブブロックサイズは4×4サンプルを含む。

アフィン動きモデルは、ブロックの動き情報を記述するために6つのパラメータを有することができる。アフィン変換後、長方形のブロックは平行四辺形になる。一例では、アフィン符号化ブロックの6つのパラメータは、ブロックの3つの異なる位置での3つの動きベクトルによって表すことができる。図8は、ブロックの3つのコーナーを使用することができる一例を示す。図8のコーナーの位置は、制御点と呼ぶことができる。

図9は、アフィン符号化ブロック（900）の一例を示す。ブロック（900）は、ブロック（900）に使用されるアフィン動きモデルの動き情報を記述するために、3つのコーナー位置A、B、およびCの動きベクトル

によって表される。上述されたように、これらの位置A、B、およびCは、制御点と呼ぶことができる。

アフィン動きモデルは、アフィン変換後にブロックの形状が変化しないという仮定に基づいて、4つのパラメータを使用してブロックの動き情報を記述することができる。したがって、長方形のブロックは、変換後も長方形のままであり、同じアスペクト比（たとえば、高さ／幅）を有する。そのようなブロックのアフィン動きモデルは、コーナー位置AおよびBなどの2つの異なる位置での2つの動きベクトルによって表すことができる。

図10は、（6パラメータアフィンモデルを使用する）6パラメータアフィンモードおよび（4パラメータアフィンモデルを使用する）4パラメータアフィンモードの場合のアフィン変換の例を示す。オブジェクトがズームおよび並進の動きのみを有するか、またはオブジェクトが回転モデルおよび並進モデルのみを有するという仮定が行われると、アフィン動きモデルは、並進部分を示す2つのパラメータおよびズームのスケーリング係数または回転の角度係数のいずれかを示す1つのパラメータを有する3パラメータアフィン動きモデルにさらに簡略化することができる。

本開示の一態様によれば、アフィン動き補償が使用されるとき、2つのシグナリング技法を使用することができる。2つのシグナリング技法は、マージモードベースのシグナリング技法および残差（AMVP）モードベースのシグナリング技法と呼ぶことができる。

マージモードでは、現在のブロックのアフィン情報は、以前にアフィン符号化されたブロックから予測される。1つの方法では、現在のブロックが参照ブロックと同じアフィンオブジェクト内にあると想定されるので、現在のブロックの制御点でのMVを参照ブロックのモデルから導出することができる。現在のブロックの他の位置でのMVは、参照ブロック内の1つの制御点から別の制御点に向かうのと同じ方法で線形に修正することができる。この方法は、モデルベースのアフィン予測と呼ぶことができる。モデルベースのアフィン予測、またはモデルベースの継承アフィン予測の一例が図11に示されている。

別の方法では、隣接するブロックの動きベクトルを、現在のブロックの制御点での動きベクトルとして直接使用することができる。次いで、制御点からの情報を使用して、ブロックの残りについての動きベクトルを生成することができる。この方法は、制御点ベースの構築アフィン予測と呼ぶことができる。いずれの方法でも、現在のブロックでのMVの残差成分は通知されない。言い換えれば、MVの残差成分はゼロであると想定される。制御点ベースのアフィン予測の一例が図12Aおよび図12Bに示されている。

残差（AMVP）モードベースのシグナリング技法の場合、アフィンパラメータ、または現在のブロックの制御点でのMVが予測されるべきである。予測されるべき動きベクトルが2つ以上存在するので、制御点（たとえば、すべての制御点）での動きベクトル用の候補リストは、リスト内の各候補が制御点用の動きベクトル予測子のセットを含むように、グループ化されて編成される。たとえば、候補1＝｛制御点A用の予測子、制御点B用の予測子、制御点C用の予測子｝、候補2＝｛制御点A用の予測子、制御点B用の予測子、制御点Cの予測子｝などである。異なる候補内の同じ制御点用の予測子は、同じであっても異なっていてもよい。動きベクトル予測フラグ（（リスト0の場合はmvp_l0_flag、リスト1の場合はmvp_l1_flag）は、リストからどの候補が選択されるかを示すために使用することができる。予測後、パラメータの残差部分、または実際のMVと制御点でのMV予測子との差が通知されるべきである。各制御点でのMV予測子は、マージモードベースのシグナリング技法についての上記の説明から記載された方法を使用して、その隣接する制御点のうちの1つからのモデルベースのアフィン予測から導出することもできる。

方法は、図13に示されたように、2つの制御点（たとえば、CP0およびCP1）を有する4パラメータアフィンモデルに基づいて例示することができる。しかしながら、図13は単なる例であり、本開示の方法は、他の動きモデル、または異なる数のパラメータを有するアフィンモデルに拡張することができる。いくつかの実施形態では、使用されるモデルは、常にアフィンモデルであるとは限らず、他のタイプの動きであってよい。

一例では、式（1）によって示されるように、4パラメータアフィンモデルが記述される。

ここで、ρはズーム用のスケーリング係数であり、θは回転用の角度係数であり、（c，f）は並進運動を記述する動きベクトルであり、（x，y）は現在のピクチャ内のピクセル位置であり、（x’，y’）は参照ピクチャ内の対応するピクセル位置である。

a＝ρcosθとして、b＝ρsinθとすると、式（1）は式（2）のような以下の形式になる。

このように、4パラメータアフィンモデルは、モデルベースのパラメータのセット｛ρ，θ，c，f｝または｛a，b，c，f｝によって表すことができる。式2に基づいて、ピクセル位置（x，y）での動きベクトル（MV_x，MV_y）は、式（3）のように記述することができる。

ここで、V_xは水平方向の動きベクトル値であり、V_yは垂直方向の動きベクトル値である。

4パラメータアフィンモデルは、ブロックの2つの制御点CP0およびCP1の動きベクトルによって表すこともできる。同様に、6パラメータアフィンモデルを表すために、3つの制御点が必要とされる場合がある。現在のブロック内の位置（x，y）での動きベクトルを導出するために、以下の式（4）を使用することができる。

ここで、（v_0x，v_0y）は、図13に描写された左上隅制御点CP0の動きベクトルであり、（v_1x，v_1y）は、図13に描写された右上隅制御点CP1の動きベクトルである。（v_0x，v_0y）および（v_1x，v_1y）は、CPMV₀（v_0x，v_0y）およびCPMV₁（v_1x，v_1y）などの制御点動きベクトル（CMPW）と呼ぶこともできる。したがって、制御点ベースのモデルでは、ブロックのアフィンモデルは、｛v_0x，v_0y，v_1x，v_1y｝または｛CPMV₀，CMPV₁｝によって表すことができる。

同様に、図14に描写されたように、6パラメータアフィンモデルを表すために、CP0、CP1、およびCP2を含む3つの制御点が必要とされ得る。あるいは、6パラメータアフィンモデルは、以下の式（5）で記述することができる。

また、ブロック内の位置（x，y）での動きベクトル値は、式（6）によって表すことができる。

6パラメータアフィンモデルは、｛CPMV₀，CPMV₁，CPMV₂｝などの制御点動きベクトルによって表すこともできる。

アフィンマージ／AMVP予測子を導出する方法では、特に、アフィンマージ／AMVP予測子が制御点ベースの構築アフィン予測を使用して導出されるとき、ブロックの制御点動きベクトル（CPMV）間の差が非常に大きくなる可能性がある。そのような場合、CPMVに基づいて導出されたアフィンパラメータは非常に大きくなる可能性があり、それらは、ズームまたはワープなどの非常に大きいアフィン変換として解釈することができる。アフィンパラメータが特定の範囲に達すると、対応するアフィン変換がビデオ符号化において非実用的になる可能性があり、導出されたCPMV値は、ピクチャ境界をはるかに超える位置を指しているか、またはアフィンAMVPモードが適用されているときの動きベクトル差を符号化／復号するのに多過ぎるビット数を必要とするなどの、妥当な範囲外になる可能性がある。加えて、大きいCPMV、ならびに（CPMVから導出された）アフィン符号化されたサブブロック内の他のMVは、後の符号化ブロック内の動きベクトル予測子として使用することができる。大き過ぎるかまたは非実用的なMV予測子も、問題を引き起こす可能性がある。

本開示では、無効または非実用的な予測子の生成を回避するために、アフィン動き補償におけるCPMVの範囲を制約するための方法が開発されている。たとえば、いくつかの制約（制限）をCPMVの範囲に追加することができる。一実施形態では、動きベクトル差（MVD）符号化に対する制約が設定される。一例では、並進運動のMVDとアフィン運動のMVDの両方が制約される。別の例では、並進運動のMVDまたはアフィン運動のMVDのうちの1つだけが制約される。MVDの範囲は、（MVD成分ごとに）事前定義された値、または31ビットなどの特定のビット数に制約することができる。あるいは、MVDの範囲は、シーケンスパラメータセット（SPS）、ピクチャパラメータセット（PPS）、またはスライスヘッダなどのビットストリーム内で通知することができる。制約は、制約を超えるMVDを含むビットストリームが無効なビットストリームと見なされるような適合制約であり得る。あるいは、MVDが範囲を超えているとき、それに応じてMVDは範囲によって切り取ることができる。

しきい値は、アフィン動き補償におけるCPMV用の動きベクトル予測子の値の範囲を制限するように設定することができる。しきい値は、アフィン予測子のアフィンパラメータ値を制限するように設定することができる。

本開示では、提案された方法は、別々に使用することも、任意の順序で組み合わせることもできる。本開示における「ブロック」という用語は、予測ブロック、符号化ブロック、または符号化ユニット（すなわち、CU）として解釈することができる。

アフィンAMVPモードが適用されると、アフィンCPMVおよび並進MVについての動きベクトル差符号化に制約を適用することができる。加えて、事前定義された制限を使用して、制御点ごとの動きベクトル差（MVD）に制約を適用することができる。

動きベクトル差は、各制御点の最適なCPMVと対応するCPMVの予測子（CPMVP）との間の差に基づいて取得することができる。たとえば、制御点0の場合、動きベクトル差は式（7）のように計算されてよい。
MVD₀＝CPMV₀－CPMVP₀ （7）
対応するアフィン予測子に基づいて導出される、ブロック内のそれぞれの制御点についての各CPMVは、水平成分および垂直成分を有することができる。したがって、制御点0についての動きベクトル差の水平成分は、式（8）のように計算することができる。
MVDx₀＝CPMVx₀－CPMVPx₀ （8）
制御点0についての動きベクトル差の垂直成分は、式（9）のように計算することができる。
MVDy₀＝CPMVy₀－CPMVPy₀ （9）
制御点1および／または制御点2についてのMVDは、式（7）～（9）に記載された手順と同様の手順で計算することができる。

一実施形態では、制御点のMVDの水平成分または垂直成分を表すために使用されるビット数は、事前定義された範囲に制限することができる。一例では、制限は、N＝15などのNビットに設定することができる。したがって、ブロックのアフィン動き予測子の場合、任意の制御点のMVDの水平成分または垂直成分を表すために必要なビット数が事前定義された制限（たとえば、15ビット）を超える場合、予測子は枝刈りすることができるか、またはアフィンAMVP予測子として使用することができない。別の例では、特定のMVD符号化精度（たとえば、1／4サンプル精度）の下にあるブロックの任意の制御点の場合、制御点のabs（MVDx）が＞＝2¹⁵または制御点のabs（MVDy）が＞＝2¹⁵であるとき、対応するアフィン予測子は、アフィンAMVPモードにおけるアフィンCPMV予測子として使用することができない。本明細書におけるabs（x）はxの絶対値を意味する。

上記の事前定義された制限は、前述の例によって制限されない任意の値であり得ることに留意されたいさらに、MVD制約について提案された上記の方法は、並進（通常）MVにも適用することができる。

アフィンマージモードまたはアフィンAMVPモードが適用されると、アフィンCMPV予測子（アフィン予測子）の値の範囲に制約を適用することができ、導出されたアフィンCPMV予測子の値は事前定義された制限によって制約することができる。

一実施形態では、アフィン予測子の任意のCPMVの水平成分または垂直成分の値は、事前定義された制限によって制約することができる。一例では、制限は、N＝16などのNビットに設定することができる。特定の動きベクトル記憶精度（たとえば、1／16サンプル精度）が適用されると、アフィンCPMV予測子の任意のCPMVの水平成分または垂直成分が絶対値で2¹⁶以上である場合、予測子は枝刈りすることができるか、またはアフィンAMVPモードにおけるアフィンCPMV予測子として使用することができない。動きベクトルの事前定義された制限は、上記の例によって制限されない任意の値であり得る。

一実施形態では、アフィン予測子の任意のCPMVが指しているルーマサンプル位置は、事前定義された範囲に制限することができる。制限は、現在のピクチャの境界の各エッジを超える事前定義された数のルーマサンプルに設定することができる。一例では、図15に示されたように、制限は、N個のルーマサンプルであるように設定することができ、Nは128であり得る。アフィンCPMV予測子の任意のCPMVが、現在のピクチャのいずれかのエッジを超えて128個を超えるルーマサンプルを指す場合、対応するアフィン予測子は枝刈りすることができ、予測子リストに追加することができない。たとえば、図15に示されたように、アフィン予測子AのすべてのCPMVは制限された範囲内の位置を指すので、アフィン予測子Aは有効な予測子であり得る。しかしながら、アフィン予測子Bの1つのCPMVは制限範囲（たとえば、128個のルーマサンプル）を超える位置を指すので、アフィン予測子Bは無効であり、予測子リストに追加することができない。

一実施形態では、アフィン予測子の任意のCPMVが指しているルーマサンプル位置は、異なる事前定義された範囲（制限）に制限することができる。範囲は、垂直方向と水平方向で異なる可能性がある。例を図16に示すことができ、水平方向の制限は、128個のルーマサンプルである垂直方向の制限とは異なる256個のルーマサンプルの事前定義された値を有する。図16は単なる例であり、垂直方向および／または水平方向の制約として使用されるルーマサンプルの数は、任意の事前定義された値であり得ることに留意されたい。

アフィン予測子の任意のCPMVが指しているルーマサンプル位置は、現在のピクチャ境界の対応するエッジの外側にある現在のピクチャの幅および／または高さの事前定義された割合に制限することもできる。一例では、水平方向に沿った現在のピクチャの幅と垂直方向に沿った現在のピクチャの高さの両方に同じ割合を適用することができる。図17に示されたように、制限は、水平方向のピクチャの幅の25％、および垂直方向のピクチャの高さの25％に設定することができる。図17は単なる例であり、垂直方向および／または水平方向の制約として使用される割合の数は、任意の事前定義された値であり得る。

さらに、水平方向に沿った現在のピクチャの幅と垂直方向に沿った現在のピクチャの高さに異なる割合を適用することができる。図18に示されたように、制限は、水平方向のピクチャの幅の25％、および垂直方向のピクチャの高さの20％に設定することができる。図18において垂直方向および／または水平方向の制約として使用される割合は単なる例であり、割合は任意の事前定義された値であり得る。

アフィン予測子のアフィンパラメータ値に制約が適用されると、制約に違反するアフィン予測子は、予測子リストから除去することができる。例示的な制約は、アフィンマージモードに基づいて記述することができる。アフィンモデルの式（3）および（6）によれば、CP0のCPMV値はブロックの並進MVを表し、CP1／CP2のCPMVはアフィンモデルプラス並進モデルからの形状変換を反映する。WおよびHが、それぞれ、現在のブロックの幅および高さを表記するとする。

6パラメータの場合、制御点の動きベクトルは、
CPMV0：（c，f）、
CPMV1：（（a－1）＊W＋c，d＊W＋f）、および
CPMV2：（b＊H＋c，（e－1）＊H＋f）
として計算することができる。
4パラメータの場合、制御点の動きベクトルは、
CPMV0：（c，f）、および
CPMV1：（（a－1）＊W＋c，d＊W＋f）
として計算することができる。

CP1とCP0との間、CP2とCP0との間のデルタ（差）は、アフィンモデルのアフィン変換部分を表すことができ、デルタ値は妥当な範囲内に収まることができる。D1がCPMV1とCPMV0との間のデルタを表記するとし、それは、
D1＝CPMV1－CPMV0＝（（a－1）＊W＋c，d＊W＋f）－（c，f）＝（（a－1）＊W，d＊W）（10）
である。
6パラメータモデルの場合、D2がCPMV2とCPMV0との間のデルタを表記するとし、それは、
D2＝CPMV2－CPMV0＝（b＊H＋c，（e－1）＊H＋f）－（c，f）＝（b＊H，（e－1）＊H）（11）
である。
D1はアフィンパラメータa、d、およびブロック幅Wのみを含むので、比率R1を定義して、D1のアフィンパラメータ値の範囲を表すことができる。
R1＝｜D1／W｜＝（｜a－1｜，｜d｜）（12）
同様に、D2はアフィンパラメータb、e、およびブロック高さHのみを含むので、比率R2を定義して、D2のアフィンパラメータ値の範囲を表すことができる。
R2＝｜D2／W｜＝（｜b｜，｜e－1｜）（13）
R1およびR2は、以下の式のようにCPMV値によって表すこともできる。
R1＝abs（CPMV1－CPMV0）／W＝（｜MV1x－MV0x｜／W，｜MV1y－MV0y｜／W）（14）
R2＝abs（CPMV2－CPMV0）／H＝（｜MV2x－MV0x｜／H，｜MV2y－MV0y｜／H）（15）

提案された方法では、制約は、アフィンCPMV予測子に対する制約としてR1および／またはR2に適用することができる。4パラメータアフィンモデルでは、事前定義されたしきい値をR1に適用することができる。6パラメータアフィンモデルでは、事前定義されたしきい値をR1および／またはR2に適用することができる。比率R1および／またはR2は、一般化された形式Rで表記することができる。開示された方法は、方法が適用可能であるときはいつでも、4パラメータアフィンモデルおよび6パラメータアフィンモデルに使用することができる。制約に違反すると、対応するアフィン予測子を予測子リストから除外することができる。

一実施形態では、事前定義されたしきい値は、比率Rの水平成分および垂直成分からの最大値に適用することができる。一例では、しきい値は、1／16ピクセル精度などのMV記憶精度で256に設定することができる。それに応じて、しきい値は16ピクセルに等しい。CPMV0（MV0x，MV0y）、CPMV1（MV1x，MV1y）、およびCPMV2（MV2x，MV2y）を有する6パラメータアフィン予測子の場合、比率R1およびR2は、式（16）および（17）で記述することができる。
R1＝（｜MV1x－MV0x｜／W，｜MV1y－MV0y｜／W）（16）、および
R2＝（｜MV2x－MV0x｜／H，｜MV2y－MV0y｜／H）（17）
R1の場合、max（｜MV1x－MV0x｜／W，｜MV1y－MV0y｜／W）として表記される最大成分を、しきい値に対してチェックすることができる。R2の場合、max（｜MV2x－MV0x｜／H，｜MV2y－MV0y｜／H）として表記される最大成分も、しきい値に対してチェックすることができる。以下の条件（a）および（b）のいずれかが真であるとき、アフィン予測子は無効と見なすることができ、最終的な予測子リストに追加することができない。
max（｜MV1x－MV0x｜／W，｜MV1y－MV0y｜／W）＞256 （a）
max（｜MV2x－MV0x｜／H，｜MV2y－MV0y｜／H）＞256 （b）
事前定義されたしきい値は上記の例に限定されないことに留意されたい。たとえば、事前定義されたしきい値は、8より大きい値として定義することができる。1／16ピクセル精度の下で、事前定義されたしきい値は、それに応じて1／2ピクセルに等しい。

いくつかの実施形態では、事前定義された制限は、比率Rの水平成分および垂直成分からの最小値に適用することができる。異なる事前定義された制限は、比率Rの水平成分および比率Rの垂直成分に適用することができる。さらに、制限は、SPS、PPS、またはスライスヘッダなどのビットストリーム内で通知されてよい。

図19は、本開示の一実施形態による、プロセス（1900）を概説するフローチャートを示す。プロセス（1900）は、復元中のブロックのための予測ブロックを生成するために、イントラモードで符号化されたブロックの復元に使用することができる。様々な実施形態では、プロセス（1900）は、端末デバイス（210）、（220）、（230）、および（240）内の処理回路などの処理回路、ビデオエンコーダ（303）の機能を実行する処理回路、ビデオデコーダ（310）の機能を実行する処理回路、ビデオデコーダ（410）の機能を実行する処理回路、ビデオエンコーダ（503）の機能を実行する処理回路などによって実行される。いくつかの実施形態では、プロセス（1900）はソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路はプロセス（1900）を実行する。プロセスは（S1901）から始まり、（S1910）に進む。

（S1910）において、符号化されたビデオビットストリームから、現在のピクチャ内のブロックの予測情報を復号することができる。予測情報は、インター予測モードにおけるアフィンモデルに関連付けられた予測オフセットのための複数のオフセットインデックスを含む。ブロックは2つ以上の制御点を含む。

（S1920）において、それぞれの制御点用の対応する動きベクトル予測子に基づいて、2つ以上の制御点の各々についての動きベクトルを決定することができる。それぞれの制御点用の対応する動きベクトル予測子は、候補リスト内の複数の候補動きベクトル予測子のうちの第1の予測子であり得、対応する動きベクトル予測子の動きベクトルに関連付けられた通知された制約を満たす。通知された制約は、符号化されたビデオビットストリームとともに受信することができる。たとえば、制約は、SPS、PPS、またはスライスヘッダ内で通知されてよい。

（S1930）において、2つ以上の制御点の決定された動きベクトルに基づいて、アフィンモデルのパラメータを決定することができる。アフィンモデルのパラメータは、ブロックと復元された参照ピクチャ内の参照ブロックとの間を変換するために使用することができる。

（S1940）において、ブロックのサンプルがアフィンモデルに従って復元される。一例では、ブロック内のピクセルに対応する参照ピクチャ内の参照ピクセルは、アフィンモデルに従って決定される。さらに、ブロック内のピクセルは、参照ピクチャ内の参照ピクセルに従って復元される。その後、プロセスは（S1999）に進み、終了する。

本開示では、提案された方法は、別々に使用することも、任意の順序で組み合わせることもできる。さらに、方法（または実施形態）は、処理回路（たとえば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路）によって実施されてよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。

上記の技法は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、1つまたは複数のコンピュータ可読媒体に物理的に記憶することができる。たとえば、図20は、開示された主題のいくつかの実施形態を実装するのに適したコンピュータシステム（2000）を示す。

コンピュータソフトウェアは、1つまたは複数のコンピュータ中央処理装置（CPU）、グラフィックス処理装置（GPU）などによる、直接、または解釈、マイクロコード実行などを介して実行することができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または同様のメカニズムを受けることができる任意の適切な機械語またはコンピュータ言語を使用して符号化することができる。

命令は、たとえば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはその構成要素上で実行することができる。

コンピュータシステム（2000）について図20に示された構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能に関するいかなる制限も示唆するものではない。構成要素の構成は、コンピュータシステム（2000）の例示的な実施形態に示された構成要素のいずれか1つまたは組み合わせに関するいかなる依存性または要件も有すると解釈されるべきでない。

コンピュータシステム（2000）は、特定のヒューマンインターフェース入力デバイスを含んでよい。そのようなヒューマンインターフェース入力デバイスは、たとえば、（キーストローク、スワイプ、データグローブの動きなどの）触覚入力、（音声、拍手などの）オーディオ入力、（ジェスチャなどの）視覚入力、（描写されていない）嗅覚入力を介して、1人または複数の人間のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、（音声、音楽、周囲の音などの）オーディオ、（スキャン画像、静止画カメラから取得された写真画像などの）画像、（2次元ビデオ、立体ビデオを含む3次元ビデオなどの）ビデオなどの、人間による意識的な入力に必ずしも直接関連しない特定の媒体をキャプチャするために使用することもできる。

入力ヒューマンインターフェースデバイスには、キーボード（2001）、マウス（2002）、トラックパッド（2003）、タッチスクリーン（2010）、データグローブ（図示せず）、ジョイスティック（2005）、マイクロフォン（2006）、スキャナ（2007）、カメラ（2008）のうちの1つまたは複数が含まれてよい（各々の1つのみが描写されている）。

コンピュータシステム（2000）は、特定のヒューマンインターフェース出力デバイスも含んでよい。そのようなヒューマンインターフェース出力デバイスは、たとえば、触覚出力、音、光、および嗅覚／味覚を介して、1人または複数の人間のユーザの感覚を刺激している場合がある。そのようなヒューマンインターフェース出力デバイスには、触覚出力デバイス（たとえば、タッチスクリーン（2010）、データグローブ（図示せず）、またはジョイスティック（2005）による触覚フィードバック、しかし入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある）、（スピーカ（2009）、ヘッドフォン（描写せず）などの）オーディオ出力デバイス、（CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン（2010）など、各々タッチスクリーン入力機能の有無にかかわらず、各々触覚フィードバック機能の有無にかかわらず、それらのうちのいくつかは、ステレオグラフィック出力、仮想現実眼鏡（描写せず）、ホログラフィックディスプレイおよびスモークタンク（描写せず）などの手段を介して2次元視覚出力または3次元以上の出力を出力することが可能な場合がある）視覚出力デバイス、ならびにプリンタ（描写せず）が含まれてよい。

コンピュータシステム（2000）は、CD／DVDまたは同様の媒体（2021）を有するCD／DVD ROM／RW（2020）を含む光学媒体、サムドライブ（2022）、リムーバブルハードドライブまたはソリッドステートドライブ（2023）、テープおよびフロッピーディスクなどのレガシー磁気媒体（描写せず）、セキュリティドングルなどの特殊なROM／ASIC／PLDベースのデバイス（描写せず）などの、人間がアクセス可能なストレージデバイスおよびそれらに関連する媒体を含むこともできる。

当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解するべきである。

コンピュータシステム（2000）は、1つまたは複数の通信ネットワークへのインターフェースを含むこともできる。ネットワークは、たとえば、ワイヤレス、有線、光であり得る。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例には、イーサネット、ワイヤレスLANなどのローカルエリアネットワーク、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上波ブロードキャストTVを含むTVの有線またはワイヤレスの広域デジタルネットワーク、CANBusを含む車両および産業用などが含まれる。特定のネットワークは、通常、（たとえば、コンピュータシステム（2000）のUSBポートなどの）特定の汎用データポートまたは周辺バス（2049）に取り付けられたれた外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、通常、以下に記載されるシステムバスに取り付けることによってコンピュータシステム（2000）のコアに統合される（たとえば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（2000）は他のエンティティと通信することができる。そのような通信は、単方向受信のみ（たとえば、ブロードキャストTV）、単方向送信のみ（たとえば、特定のCANbusデバイスへのCANbus）、または、たとえば、ローカルもしくは広域のデジタルネットワークを使用する他のコンピュータシステムとの双方向であり得る。特定のプロトコルおよびプロトコルスタックは、上述されたこれらのネットワークおよびネットワークインターフェースの各々で使用することができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能なストレージデバイス、およびネットワークインターフェースは、コンピュータシステム（2000）のコア（2040）に取り付けることができる。

コア（2040）は、1つまたは複数の中央処理装置（CPU）（2041）、グラフィックス処理装置（GPU）（2042）、フィールドプログラマブルゲートエリア（FPGA）（2043）、特定のタスク用のハードウェアアクセラレータ（2044）などの形態の特殊なプログラマブル処理装置を含むことができる。これらのデバイスは、リードオンリメモリ（ROM）（2045）、ランダムアクセスメモリ（2046）、内部のユーザがアクセスできないハードドライブ、SSDなどの内部大容量ストレージ（2047）とともに、システムバス（2048）を介して接続されてよい。いくつかのコンピュータシステムでは、システムバス（2048）は、追加のCPU、GPUなどによる拡張を可能にするために、1つまたは複数の物理プラグの形でアクセス可能であり得る。周辺機器は、コアのシステムバス（2048）に直接取り付けることも、周辺バス（2049）を介して取り付けることもできる。周辺バス用のアーキテクチャには、PCI、USBなどが含まれる。

CPU（2041）、GPU（2042）、FPGA（2043）、およびアクセラレータ（2044）は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM（2045）またはRAM（2046）に記憶することができる。移行データもRAM（2046）に記憶することができるが、永続データは、たとえば、内部大容量ストレージ（2047）に記憶することができる。メモリデバイスのいずれかに対する高速の記憶および検索は、1つまたは複数のCPU（2041）、GPU（2042）、大容量ストレージ（2047）、ROM（2045）、RAM（2046）などと密接に関連付けることができるキャッシュメモリを使用して可能にすることができる。

コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードをそこに有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであり得るか、またはそれらは、コンピュータソフトウェア技術のスキルを有する人々に周知かつ利用可能な種類であり得る。

一例として、限定としてではなく、アーキテクチャを有するコンピュータシステム（2000）、具体的にはコア（2040）は、1つまたは複数の有形のコンピュータ可読媒体に具現化されたソフトウェアを（CPU、GPU、FPGA、アクセラレータなどを含む）プロセッサが実行する結果として、機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介されたユーザアクセス可能大容量ストレージ、ならびにコア内部大容量ストレージ（2047）またはROM（2045）などの非一時的な性質のコア（2040）の特定のストレージに関連付けられた媒体であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア（2040）によって実行することができる。コンピュータ可読媒体は、特定のニーズに応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（2040）、および具体的にはその中の（CPU、GPU、FPGAなどを含む）プロセッサに、RAM（2046）に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含む、本明細書に記載された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書に記載された特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、またはソフトウェアと一緒に動作することができる、回路（たとえば、アクセラレータ（2044））内に配線された、またはさもなければ具現化されたロジックの結果として、機能を提供することができる。必要に応じて、ソフトウェアへの言及はロジックを包含することが可能であり、その逆も可能である。必要に応じて、コンピュータ可読媒体への言及は、実行のためのソフトウェアを記憶する（集積回路（IC）などの）回路、実行のためのロジックを具現化する回路、または両方を包含することが可能である。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。
付録A：頭字語
JEM：共同探査モデル
VVC：多用途ビデオ符号化
BMS：ベンチマークセット
MV：動きベクトル
HEVC：高効率ビデオ符号化
SEI：補足拡張情報
VUI：ビデオユーザビリティ情報
GOP：ピクチャグループ
TU：変換ユニット、
PU：予測ユニット
CTU：符号化ツリーユニット
CTB：符号化ツリーブロック
PB：予測ブロック
HRD：仮想参照デコーダ
SNR：信号ノイズ比
CPU：中央処理装置
GPU：グラフィックス処理装置
CRT：陰極線管
LCD：液晶ディスプレイ
OLED：有機発光ダイオード
CD：コンパクトディスク
DVD：デジタルビデオディスク
ROM：リードオンリメモリ
RAM：ランダムアクセスメモリ
ASIC：特定用途向け集積回路
PLD：プログラマブルロジックデバイス
LAN：ローカルエリアネットワーク
GSM：モバイル通信用グローバルシステム
LTE：ロングタームエボリューション
CANBus：コントローラエリアネットワークバス
USB：ユニバーサルシリアルバス
PCI：周辺構成要素相互接続
FPGA：フィールドプログラマブルゲートエリア
SSD：ソリッドステートドライブ
IC：集積回路
CU：符号化ユニット

本開示は、いくつかの例示的な実施形態を記載しているが、本開示の範囲内にある変更、置換、および様々な代替の均等物が存在する。したがって、当業者は、本明細書に明示的に図示または記載されていないが、本開示の原理を具現化し、したがって、その趣旨および範囲内にある多数のシステムおよび方法を考案できることが諒解されよう。

101 現在のブロック
102 A0
103 A1
104 B0
105 B1
106 B2
200 通信システム
210 端末デバイス
220 端末デバイス
230 端末デバイス
240 端末デバイス
250 ネットワーク
300 通信システム
301 ビデオソース
302 ビデオピクチャのストリーム
303 ビデオエンコーダ
304 符号化されたビデオデータ、ビデオビットストリーム
305 ストリーミングサーバ
306 クライアントサブシステム
307 ビデオデータのコピー
308 クライアントサブシステム
309 ビデオデータのコピー
310 ビデオデコーダ
311 ビデオピクチャの発信ストリーム
312 ディスプレイ
313 キャプチャサブシステム
320 電子デバイス
330 電子デバイス
401 チャネル
410 ビデオデコーダ
412 レンダリングデバイス
415 バッファメモリ
420 パーサー
421 シンボル
430 電子デバイス
431 受信機
451 スケーラ／逆変換ユニット
452 ピクチャ内予測ユニット
453 動き補償予測ユニット
455 アグリゲータ
456 ループフィルタユニット
457 参照ピクチャメモリ
458 現在のピクチャバッファ
501 ビデオソース
503 ビデオエンコーダ
520 電子デバイス
530 ソースコーダ
532 符号化エンジン
533 ローカルデコーダ
534 参照ピクチャメモリ
535 予測子
540 送信機
543 ビデオシーケンス
545 エントロピーコーダ
550 コントローラ
560 通信チャネル
603 ビデオエンコーダ
621 汎用コントローラ
622 イントラエンコーダ
623 残差計算機
624 残差エンコーダ
625 エントロピーエンコーダ
626 スイッチ
628 残差デコーダ
630 インターエンコーダ
710 ビデオデコーダ
771 エントロピーデコーダ
772 イントラデコーダ
773 残差デコーダ
774 復元モジュール
780 インターデコーダ
900 アフィン符号化ブロック
2000 コンピュータシステム
2001 キーボード
2002 マウス
2003 トラックパッド
2005 ジョイスティック
2006 マイクロフォン
2007 スキャナ
2008 カメラ
2009 スピーカ
2010 タッチスクリーン
2020 CD／DVD ROM／RW
2021 CD／DVDまたは同様の媒体
2022 サムドライブ
2023 リムーバブルハードドライブまたはソリッドステートドライブ
2040 コア
2041 中央処理装置（CPU）
2042 グラフィックス処理装置（GPU）
2043 フィールドプログラマブルゲートエリア（FPGA）
2044 ハードウェアアクセラレータ
2045 リードオンリメモリ（ROM）
2046 ランダムアクセスメモリ（RAM）
2047 内部大容量ストレージ
2048 システムバス
2049 周辺バス

Claims

デコーダにおけるビデオ復号のための方法であって、
符号化されたビデオビットストリームから現在のピクチャ内の現在のブロックの予測情報を復号するステップであって、前記予測情報がアフィンモデルを示し、前記現在のブロックが2つ以上の制御点を含む、ステップと、
それぞれの制御点用の対応する動きベクトル予測子に基づいて、前記2つ以上の制御点の各々についての動きベクトルを決定するステップであって、前記それぞれの制御点用の前記対応する動きベクトル予測子が、候補リスト内の複数の候補動きベクトル予測子のうちの第1の予測子であり、前記対応する動きベクトル予測子の動きベクトルに関連付けられた制約を満たす、ステップと、
前記2つ以上の制御点の前記決定された動きベクトルに基づいて前記アフィンモデルのパラメータを決定するステップであって、前記アフィンモデルの前記パラメータが、前記ブロックと復元された参照ピクチャ内の参照ブロックとの間を変換するために使用される、ステップと、
前記アフィンモデルに従って、少なくとも前記ブロックのサンプルを復元するステップと
を含む、方法。
前記符号化されたビデオビットストリーム内で受信された前記制約を適用するステップであって、前記符号化されたビデオビットストリームが、シーケンスパラメータセット、ピクチャパラメータセット、およびスライスヘッダのうちの少なくとも1つである、ステップ、または
前記2つ以上の制御点の各々についての前記動きベクトルを決定するために事前定義された前記制約を適用するステップ
のうちの少なくとも1つをさらに含む、請求項1に記載の方法。
前記制約を超える前記候補リスト内の前記複数の候補動きベクトル予測子のうちの第2の予測子を削除するステップ、
前記制約を超える前記第2の予測子を前記候補リスト内の新しい予測子と置き換えるステップ、または
前記第2の予測子が前記制約を満たすように、前記第2の予測子の動きベクトルを切り取るステップ
のうちの1つをさらに含む、請求項1に記載の方法。
前記制約が、
前記ブロックの前記2つ以上の制御点のうちの1つの前記動きベクトルと前記ブロックの前記2つ以上の制御点のうちの前記1つの動きベクトル予測との間の動きベクトル差の水平成分に適用される第1の制限であって、前記動きベクトル予測が、前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子に基づいて決定される、第1の制限と、
前記ブロックの前記2つ以上の制御点のうちの前記1つの前記動きベクトルと前記ブロックの前記2つ以上の制御点のうちの前記1つの前記動きベクトル予測との間の前記動きベクトル差の垂直成分に適用される第2の制限であって、前記動きベクトル予測が、前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子に基づいて決定される、第2の制限と
を示す、請求項1に記載の方法。
前記制約が、
前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子の制御点に関連付けられた動きベクトルの水平成分に適用される第3の制限と、
前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子の前記制御点に関連付けられた前記動きベクトルの垂直成分に適用される第4の制限と
を示す、請求項1に記載の方法。
前記制約が、
前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子の制御点に関連付けられた動きベクトルが参照する第1のルーマサンプル位置についての幅のピクチャ境界からの第5の制限であって、前記第5の制限が、前記現在のピクチャの前記幅のピクチャ境界を超える第1の数のルーマサンプルによって定義される、第5の制限と、
前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子の前記制御点に関連付けられた前記動きベクトルが参照する第2のルーマサンプル位置についての高さのピクチャ境界からの第6の制限であって、前記第6の制限が、前記現在のピクチャの前記高さのピクチャ境界を超える第2の数のルーマサンプルによって定義される、第6の制限と
を示す、請求項1に記載の方法。
前記第5の制限が、前記現在のピクチャの高さの第1の割合であり、
前記第6の制限が、前記現在のピクチャの幅の第2の割合である、
請求項6に記載の方法。
前記第5の制限が前記第6の制限とは異なる、請求項6に記載の方法。
第1の比率R1＝（｜MV1x－MV0x｜／W，｜MV1y－MV0y｜／W）であり、第2の比率R2＝（｜MV2x－MV0x｜／H，｜MV2y－MV0y｜／H）であり、
MV0xが、前記ブロックのための前記2つ以上の制御点のうちの第1の制御点の動きベクトルの水平成分であり、
MV1xが、前記ブロックのための前記2つ以上の制御点のうちの第2の制御点の動きベクトルの水平成分であり、
MV2xが、前記ブロックのための前記2つ以上の制御点のうちの第3の制御点の動きベクトルの水平成分であり、
MV0xが、前記ブロックのための前記2つ以上の制御点のうちの前記第1の制御点の前記動きベクトルの垂直成分であり、
MV1yが、前記ブロックのための前記2つ以上の制御点のうちの前記第2の制御点の前記動きベクトルの垂直成分であり、
MV2yが、前記ブロックのための前記2つ以上の制御点のうちの前記第3の制御点の前記動きベクトルの垂直成分であり、
｜MV1x－MV0x｜／Wが、前記第1の比率R1の水平成分であり、
｜MV1y－MV0y｜／Wが、前記第1の比率R1の垂直成分であり、
｜MV2x－MV0x｜／Hが、前記第2の比率R2の水平成分であり、
｜MV2y－MV0y｜／Hが、前記第2の比率R2の垂直成分であり、
前記制約が、
前記第1の比率R1の前記水平成分および前記垂直成分の最大値に適用される第1のしきい値、
前記第2の比率R2の前記水平成分および前記垂直成分の最大値に適用される第2のしきい値、
前記第1の比率R1の前記水平成分および前記垂直成分の最小値に適用される第3のしきい値、ならびに
前記第2の比率R2の前記水平成分および前記垂直成分の最小値に適用される第4のしきい値
のうちの1つを示す、
請求項1に記載の方法。
前記第1のしきい値が前記第2のしきい値とは異なり、前記第3のしきい値が前記第4のしきい値とは異なる、請求項9に記載の方法。
ビデオ復号のための装置であって、
符号化されたビデオビットストリームから現在のピクチャ内の現在のブロックの予測情報を復号し、前記予測情報がアフィンモデルを示し、前記現在のブロックが2つ以上の制御点を含み、
それぞれの制御点用の対応する動きベクトル予測子に基づいて、前記2つ以上の制御点の各々についての動きベクトルを決定し、前記それぞれの制御点用の前記対応する動きベクトル予測子が、候補リスト内の複数の候補動きベクトル予測子のうちの第1の予測子であり、前記対応する動きベクトル予測子の動きベクトルに関連付けられた制約を満たし、
前記2つ以上の制御点の前記決定された動きベクトルに基づいて前記アフィンモデルのパラメータを決定し、前記アフィンモデルの前記パラメータが、前記ブロックと復元された参照ピクチャ内の参照ブロックとの間を変換するために使用され、
前記アフィンモデルに従って、少なくとも前記ブロックのサンプルを復元する
ように構成された処理回路
を備える、装置。
前記処理回路が、
前記符号化されたビデオビットストリーム内で受信された前記制約を適用することであって、前記符号化されたビデオビットストリームが、シーケンスパラメータセット、ピクチャパラメータセット、およびスライスヘッダのうちの少なくとも1つである、前記適用すること、または
前記2つ以上の制御点の各々についての前記動きベクトルを決定するために事前定義された前記制約を適用すること
のうちの1つを実行するように構成される、請求項11に記載の装置。
前記処理回路が、
前記制約を超える前記候補リスト内の前記複数の候補動きベクトル予測子のうちの第2の予測子を削除すること、
前記制約を超える前記第2の予測子を前記候補リスト内の新しい予測子と置き換えること、または
前記第2の予測子が前記制約を満たすように、前記第2の予測子の動きベクトルを切り取ること
のうちの1つを動作させるように構成される、請求項11に記載の装置。
前記制約が、
前記ブロックの前記2つ以上の制御点のうちの1つの前記動きベクトルと、前記ブロックの前記2つ以上の制御点のうちの前記1つの動きベクトル予測との間の動きベクトル差の水平成分に適用される第1の制限であって、前記動きベクトル予測が、前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子に基づいて決定される、第1の制限と、
前記ブロックの前記2つ以上の制御点のうちの前記1つの前記動きベクトルと、前記ブロックの前記2つ以上の制御点のうちの前記1つの前記動きベクトル予測との間の前記動きベクトル差の垂直成分に適用される第2の制限であって、前記動きベクトル予測が、前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子に基づいて決定される、第2の制限と
を示す、請求項11に記載の装置。
前記制約が、
前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子の制御点に関連付けられた動きベクトルの水平成分に適用される第3の制限と、
前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子の前記制御点に関連付けられた前記動きベクトルの垂直成分に適用される第4の制限と
を示す、請求項11に記載の装置。
前記制約が、
前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子の制御点に関連付けられた動きベクトルが参照する第1のルーマサンプル位置についての幅のピクチャ境界からの第5の制限であって、前記第5の制限が、前記現在のピクチャの前記幅のピクチャ境界を超える第1の数のルーマサンプルによって定義される、第5の制限と、
前記2つ以上の制御点のうちの前記1つの前記対応する動きベクトル予測子の前記制御点に関連付けられた前記動きベクトルが参照する第2のルーマサンプル位置についての高さのピクチャ境界からの第6の制限であって、前記第6の制限が、前記現在のピクチャの前記高さのピクチャ境界を超える第2の数のルーマサンプルによって定義される、第6の制限と
を示す、請求項11に記載の装置。
前記第5の制限が、前記現在のピクチャの高さの第1の割合であり、
前記第6の制限が、前記現在のピクチャの幅の第2の割合である、
請求項16に記載の装置。
第1の比率R1＝（｜MV1x－MV0x｜／W，｜MV1y－MV0y｜／W）であり、第2の比率R2＝（｜MV2x－MV0x｜／H，｜MV2y－MV0y｜／H）であり、
MV0xが、前記ブロックのための前記2つ以上の制御点のうちの第1の制御点の動きベクトルの水平成分であり、
MV1xが、前記ブロックのための前記2つ以上の制御点のうちの第2の制御点の動きベクトルの水平成分であり、
MV2xが、前記ブロックのための前記2つ以上の制御点のうちの第3の制御点の動きベクトルの水平成分であり、
MV0xが、前記ブロックのための前記2つ以上の制御点のうちの前記第1の制御点の前記動きベクトルの垂直成分であり、
MV1yが、前記ブロックのための前記2つ以上の制御点のうちの前記第2の制御点の前記動きベクトルの垂直成分であり、
MV2yが、前記ブロックのための前記2つ以上の制御点のうちの前記第3の制御点の前記動きベクトルの垂直成分であり、
｜MV1x－MV0x｜／Wが、前記第1の比率R1の水平成分であり、
｜MV1y－MV0y｜／Wが、前記第1の比率R1の垂直成分であり、
｜MV2x－MV0x｜／Hが、前記第2の比率R2の水平成分であり、
｜MV2y－MV0y｜／Hが、前記第2の比率R2の垂直成分であり、
前記制約が、
前記第1の比率R1の前記水平成分および前記垂直成分の最大値に適用される第1のしきい値、
前記第2の比率R2の前記水平成分および前記垂直成分の最大値に適用される第2のしきい値、
前記第1の比率R1の前記水平成分および前記垂直成分の最小値に適用される第3のしきい値、ならびに
前記第2の比率R2の前記水平成分および前記垂直成分の最小値に適用される第4のしきい値
のうちの1つを示す、
請求項11に記載の装置。
前記第1のしきい値が前記第2のしきい値とは異なり、前記第3のしきい値が前記第4のしきい値とは異なる、請求項18に記載の装置。
ビデオ復号のためにコンピュータによって実行されるとき、前記コンピュータに、
符号化されたビデオビットストリームから現在のピクチャ内の現在のブロックの予測情報を復号することであって、前記予測情報がアフィンモデルを示し、前記現在のブロックが2つ以上の制御点を含む、前記復号することと、
それぞれの制御点用の対応する動きベクトル予測子に基づいて、前記2つ以上の制御点の各々についての動きベクトルを決定することであって、前記それぞれの制御点用の前記対応する動きベクトル予測子が、候補リスト内の複数の候補動きベクトル予測子のうちの第1の予測子であり、前記対応する動きベクトル予測子の動きベクトルに関連付けられた制約を満たし、前記制約が通知され、または事前定義される、前記動きベクトルを決定することと、
前記2つ以上の制御点の前記決定された動きベクトルに基づいて前記アフィンモデルのパラメータを決定することであって、前記アフィンモデルの前記パラメータが、前記ブロックと復元された参照ピクチャ内の参照ブロックとの間を変換するために使用される、前記パラメータを決定することと、
前記アフィンモデルに従って、少なくとも前記ブロックのサンプルを復元することと
を行わせる命令を記憶する、非一時的コンピュータ可読媒体。