JP7413401B2

JP7413401B2 - ビデオコーディングのための方法及び装置

Info

Publication number: JP7413401B2
Application number: JP2021560896A
Authority: JP
Inventors: リ，グォイチュン; リ，シアン; シュイ，シアオジョォン; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-04-06
Filing date: 2021-04-01
Publication date: 2024-01-15
Anticipated expiration: 2041-04-01
Also published as: AU2021251670A1; KR20210145794A; WO2021206992A1; AU2023204371A1; US20210314586A1; EP3939265A1; CN113875234A; JP2022532032A; SG11202110311UA; EP3939265A4; AU2021251670B2; US11405628B2; US20220337856A1; JP2024029127A; CA3131158A1

Description

［参照による援用］
本願は、2020年4月6日に出願された米国仮特許出願第63/005,511号"METHOD OF SETTING NUMBER OF SUBBLOCK MERGING CANDIDATES"の優先権の利益を主張する2021年3月30日に出願された米国特許出願第１7/217,595号“METHOD AND APPARATUS FOR VIDEO CODING”の優先権の利益を主張する。先の出願の開示全体は、その全体が参照により本明細書に援用される。

本開示は、ビデオコーディングに概して関連する実施形態を記載する。

本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示するためのものである。本発明者の仕事は、その仕事がこの背景技術のセクションに記載されている範囲において、また、出願時に他の点では先行技術として適格でないかもしれない説明の側面において、本開示に対する先行技術として明示的にも暗示的にも認められない。

ビデオコーディング及びデコーディングは、動き補償を伴うイントラ画像予測を用いて行うことができる。非圧縮ディジタルビデオは、一連の画像を含むことができ、各画像は、例えば、1920×1080の輝度（luminance）サンプル及び関連するクロミナンス（chrominance）サンプルの空間寸法を有する。一連の画像は、例えば、毎秒６０画像又は６０Ｈｚの固定又は可変の画像レート（非公式にはフレームレートとも呼ばれる）を有することができる。非圧縮ビデオは、かなりのビットレート要件を有する。例えば、サンプル当たり8ビットの1080p60 4:2:0ビデオ（６０Ｈｚのフレームレートでの1920x1080の輝度サンプル解像度）は、1.5Gbit/sに近い帯域幅を必要とする。１時間のこのようなビデオは、600Gバイトを超える記憶領域を必要とする。

ビデオコーディング及びデコーディングの１つの目的は、圧縮による入力ビデオ信号の冗長性の低減であり得る。圧縮は、場合によっては、２桁以上前述の帯域幅又は記憶領域の要求を低減するのに役立つことができる。ロスレス（lossless）圧縮及びロッシー（lossy）圧縮の両方、ならびにそれらの組み合わせを用いることができる。ロスレス圧縮は、元の信号の正確なコピーを圧縮された元の信号から再構成することができる技術をいう。ロッシー圧縮を使用する場合、再構成された信号は、元の信号と同一ではないかもしれないが、元の信号と再構成された信号との間の歪みは、再構成された信号を意図された用途に有用にするのに十分小さい。ビデオの場合、ロッシー圧縮が広く用いられている。許容される歪みの量は、アプリケーションに依存する；例えば、特定のコンシューマストリーミングアプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みを許容し得る。達成可能な圧縮比は、以下を反映することができる：より高い許容できる／容認できる歪みは、より高い圧縮比をもたらすことができる。

動き補償は、ロッシー圧縮技術であることができ、かつ、以前に再構成された画像又はその一部（参照画像）からのサンプルデータのブロックが、動きベクトル（以下ＭＶ）によって示される方向に空間的にシフトされた後に、新しく再構成された画像又はその一部の予測のために使用される技術に関連付けることができる。場合によっては、参照画像は、現在再構成中の画像と同じであることができる。ＭＶは、Ｘ及びＹの２次元、又は３次元を有することができ、第３の次元は、使用中の参照画像の表示である（後者は、間接的に、時間次元であることができる）。

いくつかのビデオ圧縮技術では、サンプルデータのある領域に適用可能なＭＶは、他のＭＶから、例えば、再構成中の領域に空間的に隣接し、デコード順にそのＭＶに先行するサンプルデータの別の領域に関連するＭＶから予測することができる。これにより、ＭＶのコーディングに必要なデータ量を大幅に削減することができ、それによって冗長性を除去し、圧縮を増加させる。ＭＶ予測は、例えば、カメラ（ナチュラルビデオとして知られる）から導出される入力ビデオ信号をコーディングする際に、単一のＭＶが適用される領域よりも大きい領域が同様の方向に移動する統計的可能性があり、従って、ある場合には、隣接領域のＭＶから導出された同様の動きベクトルを用いて予測することができるので、効果的に機能することができる。その結果、所与の領域に対して、周囲のＭＶから予測されるＭＶと類似又は同一であることが見出され、そして、それは、エントロピーコーディングの後、ＭＶを直接コーディングする場合に使用されるであろうものよりも、より少ない数のビットで表現することができる。場合によっては、ＭＶ予測は、元の信号（すなわち、サンプルストリーム）から導出された信号（すなわち、ＭＶ）のロスレス圧縮の例であり得る。他の場合には、ＭＶ予測それ自体は、例えば、いくつかの周囲のＭＶから予測子を計算する際の丸め誤差のために、ロッシーであり得る。

様々なＭＶ予測メカニズムが、H.265/HEVC（ITU-T Rec. H.265,“High Efficiency Video Coding”, December 2016）に記述されている。H.265が提供する多くのＭＶ予測メカニズムのうち、本明細書に記載されるものは、以下「空間マージ」と呼ばれるテクニックである。

図１を参照すると、現在のブロック（１０１）は、空間的にシフトされた同じサイズの前のブロックから予測可能であることが、動き探索処理中にエンコーダによって見出されたサンプルを含む。ＭＶを直接コーディングする代わりに、ＭＶは、１つ以上の参照画像に関連付けられたメタデータから、例えば、A0、A1、及びB0、B1、B2（それぞれ１０２から１０６）と示される５つの周囲のサンプルのいずれかに関連付けられたＭＶを使用して、最新の（デコーディング順に）参照画像から導出することができる。H.265では、ＭＶ予測は、隣接するブロックが使用しているのと同じ参照画像からの予測子を使用することができる。

本開示の態様は、ビデオエンコーディング／デコーディングのための方法及び装置を提供する。いくつかの例では、ビデオデコーディングのための装置は、受信回路及び処理回路を含む。例えば、処理回路は、コーディングされたビデオビットストリームからデコードされた予測情報に基づいてパラメータを決定する。パラメータは、サブブロックベースの時間的動きベクトル予測の有効／無効状態を示すフラグに依存する範囲内にある。次に、処理回路は、パラメータに基づいてサブブロックベースのマージ候補リスト内の候補の最大数を計算し、サブブロックベースの予測モードにおける現在のブロックに応答して、現在のブロックの構成されたサブブロックベースのマージ候補リストからの候補選択に基づいて、現在のブロックのサンプルを再構成する。現在のブロックの構成されたサブブロックベースのマージ候補リストは、サブブロックベースのマージ候補リストの候補の最大数によって制約される。

いくつかの例では、処理回路は、デフォルト数からパラメータを差し引くことによって、サブブロックベースのマージ候補リストの候補の最大数を決定する。一例では、デフォルト数は５である。

いくつかの実施形態では、範囲の上限は、サブブロックベースの時間的動きベクトル予測の有効／無効状態を示すフラグに依存する。

一例では、処理回路は、コーディングされたビデオビットストリーム内で信号送信される（signaled）パラメータを受信する。別の例では、処理回路は、パラメータがコーディングされたビデオビットストリームにおいて信号送信されていないことに応答して、デフォルト数と、サブブロックベースの時間的動きベクトル予測の有効／無効状態を示すフラグとに基づいて、パラメータを推定する。

いくつかの例では、フラグは、シーケンスパラメータセット（ＳＰＳ）レベルでのサブブロックベースの時間的動きベクトル予測の有効／無効状態を示す。

いくつかの実施形態では、パラメータは、シーケンスパラメータセット（ＳＰＳ）レベルでのサブブロックベースの時間的動きベクトル予測の有効／無効状態を示す第１のフラグと、画像ヘッダ（ＰＨ）レベルでの時間的動きベクトル予測の有効／無効状態を示す第２のフラグとに依存する範囲内にある。いくつかの例では、処理回路は、パラメータがコーディングされたビデオビットストリームにおいて信号送信されていないことに応答して、デフォルト数、ＳＰＳレベルでのサブブロックベースの時間的動きベクトル予測の有効／無効状態を示す第１のフラグ及びＰＨレベルにおける時間的動きベクトル予測の有効／無効状態を示す第２のフラグに基づいて、パラメータを推定することができる。

また、本開示の態様は、ビデオデコーディングのためにコンピュータによって実行されるときに、コンピュータにビデオデコーディングのための方法を実行させる命令を記憶する非一時的コンピュータ読取可能媒体を提供する。

開示された主題のさらなる特徴、性質、及び種々の利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。

一例における現在のブロック及びその周囲の空間的マージ候補の概略図である。

一実施形態による通信システム（２００）の簡略ブロック図の概略図である。

一実施形態による通信システム（３００）の簡略ブロック図の概略図である。

一実施形態によるデコーダの簡略ブロック図の概略図である。

一実施形態によるエンコーダの簡略ブロック図の概略図である。

別の実施形態によるエンコーダのブロック図を示す。

別の実施形態によるデコーダのブロック図を示す。

アフィン動きモデル（affine motion models）を示す。

アフィン動きモデルを示す。

サブブロック当たりのアフィン動きベクトルフィールドの例を示す。

アフィンマージモードにおける継承された制御点動きベクトルを決定するための例を示す。

本開示のいくつかの実施形態による、空間的に隣接するもの及び時間的に隣接するものの一例を示す。

いくつかの例におけるアフィン動きデータ継承のための動きベクトル使用を示す図を示す。

本開示の一実施形態による、オプティカルフロー法による予測精緻化の一例の概略図を示す。

本開示のいくつかの実施形態による、サブブロックベースの時間的動きベクトル予測（ＳｂＴＭＶＰ）プロセスの一例を示す。

いくつかの例におけるシーケンスパラメータセット（ＳＰＳ）の構文テーブルの例を示す。

いくつかの例における画像ヘッダ構造の構文テーブルの例を示す。

本開示のいくつかの実施形態によるプロセス例を概説するフローチャートを示す。

一実施形態によるコンピュータシステムの概略図である。

図２は、本開示の一実施形態による通信システム（２００）の簡略化されたブロック図を示す。通信システム（２００）は、例えばネットワーク（２５０）を介して互いに通信することができる複数の端末装置を含む。例えば、通信システム（２００）は、ネットワーク（２５０）を介して相互接続された第１の端末装置（２１０）及び（２２０）の対を含む。図２の例では、第１の端末装置（２１０）及び（２２０）の対は、データの一方向送信を行う。例えば、端末装置（２１０）は、ネットワーク（２５０）を介して他の端末装置（２２０）に伝送するために、ビデオデータ（例えば、端末装置（２１０）によってキャプチャされるビデオ画像のストリーム）をコーディングし得る。コーディングされたビデオデータは、１つ以上のコーディングされたビデオビットストリームの形態で送信することができる。端末装置（２２０）は、ネットワーク（２５０）からコーディングされたビデオデータを受信し、コーディングされたビデオデータをデコードして、ビデオ画像を復元し、復元されたビデオデータに従ってビデオ画像を表示し得る。一方向性データ伝送は、メディア提供アプリケーション等において一般的である。

別の例では、通信システム（２００）は、例えばビデオ会議中に発生し得るコーディングされたビデオデータの双方向伝送を行う第２の端末装置（２３０）及び（２４０）の対を含む。データの双方向伝送のために、一例では、端末装置（２３０）及び（２４０）の各端末装置が、ネットワーク（２５０）を介して端末装置（２３０）及び（２４０）の他方の端末装置に伝送するために、ビデオデータ（例えば、端末装置によってキャプチャされるビデオ画像のストリーム）をコーディングし得る。端末装置（２３０）及び（２４０）の各端末装置はまた、端末装置（２３０）及び（２４０）の他方の端末装置によって送信されたコーディングされたビデオデータを受信し、コーディングされたビデオデータをデコードして、ビデオ画像を復元し、復元されたビデオデータに従って、アクセス可能なディスプレイ装置にビデオ画像を表示し得る。

図２の例では、端末装置（２１０）、（２２０）、（２３０）及び（２４０）は、サーバ、パーソナルコンピュータ及びスマートフォンとして示され得るが、本開示の原理は、それに限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ及び／又は専用のビデオ会議装置への適用を見出す。ネットワーク（２５０）は、例えば有線及び／又は無線通信ネットワークを含む、端末装置（２１０）、（２２０）、（２３０）及び（２４０）の間でコーディングされたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク（２５０）は、回線交換及び／又はパケット交換チャネル内のデータを交換し得る。代表的なネットワークは、通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はインターネットを含む。本説明の目的のために、ネットワーク（２５０）のアーキテクチャ及びトポロジーは、以下に説明しない限り、本開示の動作には重要ではない。

図３は、開示された主題のアプリケーションの例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示された主題は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタルメディア上の圧縮ビデオの記憶などを含む、他のビデオ対応アプリケーションにも同様に適用可能であることができる。

ストリーミングシステムは、例えば、非圧縮のビデオ画像（３０２）のストリームを生成するビデオソース（３０１）、例えばデジタルカメラを含むことができる、キャプチャサブシステム（３１３）を含み得る。一例では、ビデオ画像のストリーム（３０２）は、デジタルカメラによって撮影されるサンプルを含む。エンコードされたビデオデータ（３０４）（又はコーディングされたビデオビットストリーム）と比較するときに高いデータボリュームを強調する太い線として描かれたビデオ画像のストリーム（３０２）は、ビデオソース（３０１）に結合されたビデオエンコーダ（３０３）を含む電子デバイス（３２０）によって処理することができる。ビデオエンコーダ（３０３）は、以下により詳細に説明されるように、開示された主題の態様を可能にする又は実装するために、ハードウェア／ソフトェア、又はそれらの組み合わせを含むことができる。エンコードされたビデオデータ（３０４）（又はエンコードされたビデオビットストリーム（３０４））は、ビデオ画像（３０２）のストリームと比較するときにより低いデータボリュームを強調するために細い線として示され、将来の使用のためにストリーミングサーバ（３０５）に記憶することができる。図３のクライアントサブシステム（３０６）及び（３０８）のような１つ以上のストリーミングクライアントサブシステムは、ストリーミングサーバ（３０５）にアクセスして、エンコードされたビデオデータ（３０４）のコピー（３０７）及び（３０９）を取り出すことができる。クライアントサブシステム（３０６）は、例えば電子デバイス（３３０）内にビデオデコーダ（３１０）を含むことができる。ビデオデコーダ（３１０）は、エンコードされたビデオデータの入力コピー（３０７）をデコードし、ディスプレイ（３１２）（例えばディスプレイスクリーン）又は他のレンダリング装置（図示せず）上にレンダリングすることができるビデオ画像の出力ストリーム（３１１）を生成する。いくつかのストリーミングシステムでは、エンコードされたビデオデータ（３０４）、（３０７）、及び（３０９）（例えば、ビデオビットストリーム）は、特定のビデオコーディング／圧縮規格に従ってエンコードすることができる。これらの規格の例は、ITU-T勧告H.265を含む。例えば、開発中のビデオコーディング規格は、Versatile Video Coding（ＶＶＣ）として非公式に知られている。開示された主題は、ＶＶＣの文脈で使用され得る。

電子デバイス（３２０）及び（３３０）は、他のコンポーネント（図示せず）を含むことができることに留意されたい。例えば、電子デバイス（３２０）は、ビデオデコーダ（図示せず）を含むことができ、電子デバイス（３３０）は、ビデオエンコーダ（図示せず）も含むことができる。

図４は、本開示の一実施形態によるビデオデコーダ（４１０）のブロック図を示す。ビデオデコーダ（４１０）は、電子デバイス（４３０）に含まれることができる。電子デバイス（４３０）は、受信器（４３１）（例えば、受信回路）を含むことができる。ビデオデコーダ（４１０）は、図３の例のビデオデコーダ（３１０）の代わりに使用することができる。

受信器（４３１）は、ビデオデコーダ（４１０）によってデコードされることになる１つ以上のコーディングされたビデオシーケンスを受信し得る；同じ又は別の実施形態では、一度に１つのコーディングされたビデオシーケンスであり、各コーディングされたビデオシーケンスのデコーディングは、他のコーディングされたビデオシーケンスから独立している。コーディングされたビデオシーケンスは、チャネル（４０１）から受信され得、このチャネルは、エンコードされたビデオデータを記憶する記憶装置へのハードウェア／ソフトェアリンクであり得る。受信器（４３１）は、エンコードされたビデオデータを、それぞれの使用エンティティ（図示せず）に転送され得る他のデータ、例えばコーディングされたオーディオデータ及び／又は補助的なデータストリームと共に受信し得る。受信器（４３１）は、コーディングされたビデオシーケンスを他のデータから分離し得る。ネットワークジッタに対抗するために、バッファメモリ（４１５）が、受信器（４３１）とエントロピーデコーダ／パーサ（４２０）（以下、「パーサ（４２０）」）との間に結合され得る。特定のアプリケーションでは、バッファメモリ（４１５）はビデオデコーダ（４１０）の一部である。他のものでは、それはビデオデコーダ（４１０）の外側にあることができる（図示せず）。さらに別のものでは、例えばネットワークジッタに対抗するために、ビデオデコーダ（４１０）の外側のバッファメモリ（図示せず）と、さらに、例えば再生タイミングを処理するために、ビデオデコーダ（４１０）の内側の別のバッファメモリ（４１５）があることができる。受信器（４３１）が、十分な帯域幅及び可制御性を有するストア／フォワードデバイスから、又は等同期ネットワークからデータを受信している場合、バッファメモリ（４１５）は不要であってもよく、又は小さくすることができる。インターネットのようなベストエフォート型パケットネットワークでの使用のために、バッファメモリ（４１５）は、必要とされ得、比較的大きくすることができ、有利に適応サイズにすることができ、ビデオデコーダ（４１０）の外側のオペレーティングシステム又は類似の要素（図示せず）に少なくとも部分的に実装され得る。

ビデオデコーダ（４１０）は、コーディングされたビデオシーケンスからシンボル（４２１）を再構成するためのパーサ（４２０）を含み得る。これらのシンボルのカテゴリは、ビデオデコーダ（４１０）の動作を管理するために使用される情報、及び、図４に示されたように、電子デバイス（４３０）の不可欠な部分ではないが、電子デバイス（４３０）に結合されることができるレンダリングデバイス（４１２）（例えば、表示スクリーン）のようなレンダリングデバイスを制御する潜在的な情報を含む。レンダリングデバイス（複数可）のための制御情報は、補足拡張情報（ＳＥＩメッセージ）又はビデオユーザビリティ情報（ＶＵＩ）パラメータセットフラグメント（図示せず）の形式であり得る。パーサ（４２０）は、受信されるコーディングされたビデオシーケンスを構文解析／エントロピーデコードし得る。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト感度を伴う又は伴わない算術コーディングなどを含む種々の原理に従うことができる。パーサ（４２０）は、グループに対応する少なくとも１つのパラメータに基づいて、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも１つに対するサブグループパラメータのセットを、コーディングされたビデオシーケンスから抽出し得る。サブグループは、画像のグループ（ＧＯＰ）、画像、タイル、スライス、マクロブロック、コーディングユニット（Coding Units）（ＣＵ）、ブロック、変換ユニット（Transform Units）（ＴＵ）、予測ユニット（Prediction Units）（ＰＵ）などを含むことができる。パーサ（４２０）はまた、変換係数などのコーディングされたビデオシーケンス情報から、量子化パラメータ値、動きベクトル等を抽出し得る。

パーサ（４２０）は、シンボル（４２１）を生成するように、バッファメモリ（４１５）から受信したビデオシーケンス上でエントロピーデコーディング／構文解析動作を実行し得る。

シンボル（４２１）の再構成は、コーディングされたビデオ画像又はその部分のタイプ（例えば、インター及びイントラ画像、インター及びイントラブロック）、及び他の要因に応じて、複数の異なるユニットを含むことができる。どのユニットが関与し、どのようにかは、パーサ（４２０）によってコーディングされたビデオシーケンスから構文解析されたサブグループ制御情報によって制御されることができる。パーサ（４２０）と以下の複数ユニットとの間のこのようなサブグループ制御情報のフローは、明確にするために図示されていない。

すでに述べた機能ブロックの他に、ビデオデコーダ（４１０）は、概念的に、以下に説明するように、いくつかの機能ユニットに分割することができる。商業的制約の下で動作する実用的な実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合することができる。しかしながら、開示された主題を説明するためには、以下の機能ユニットに概念的に細分化することが適切である。

第１のユニットは、スケーラ／逆変換ユニット（４５１）である。スケーラ／逆変換ユニット（４５１）は、パーサ（４２０）からシンボル（複数可）（４２１）として、使用する変換、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報と共に、量子化された変換係数を受信する。スケーラ／逆変換ユニット（４５１）は、アグリゲータ（４５５）に入力されることができるサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換（４５１）の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成された画像からの予測情報を使用していないが、現在の画像の以前に再構成された部分からの予測情報を使用することができるブロックに関連付けることができる。このような予測情報は、イントラ画像予測ユニット（４５２）によって提供することができる。場合によっては、イントラ画像予測ユニット４５２は、現在の画像バッファ４５８から取り出された既に再構成された周囲の情報を使用して、再構成中のブロックの同じサイズ及び形状のブロックを生成する。現在の画像バッファ（４５８）は、例えば、部分的に再構成された現在の画像及び／又は完全に再構成された現在の画像をバッファする。アグリゲータ（４５５）は、場合によっては、サンプル毎に、イントラ予測ユニット（４５２）が生成した予測情報を、スケーラ／逆変換ユニット（４５１）によって提供されるように、出力サンプル情報に追加する。

他の場合には、スケーラ／逆変換ユニット（４５１）の出力サンプルは、インターコーディングされた、潜在的に動き補償ブロックに関係することができる。このような場合、動き補償予測ユニット（４５３）は、予測に使用されるサンプルを取り出すために参照画像メモリ（４５７）にアクセスすることができる。ブロックに関連するシンボル（４２１）に従って、取り出されたサンプルを動き補償した後、これらのサンプルは、アグリゲータ（４５５）によって、出力サンプル情報を生成するために、スケーラ／逆変換ユニット（４５１）の出力（この場合、残差サンプル又は残差信号と呼ぶ）に追加されることができる。動き補償予測ユニット（４５３）が予測サンプルを取り出す参照画像メモリ（４５７）内のアドレスは、例えばＸ、Ｙ、及び参照画像成分を有することができるシンボル（４２１）の形態で、動き補償予測ユニット（４５３）に利用可能である動きベクトルによって制御することができる。また、動き補償は、サブサンプルの正確な動きベクトルが使用されているときに参照画像メモリ（４５７）から取り出されるサンプル値の補間、動きベクトル予測メカニズムなどを含むことができる。

アグリゲータ（４５５）の出力サンプルは、ループフィルタユニット（４５６）内の種々のループフィルタリング技術の対象であることができる。ビデオ圧縮技術は、コーディングされたビデオシーケンス（コーディングされたビデオビットストリームとも呼ばれる）に含まれるパラメータによって制御され、パーサ（４２０）からシンボル（４２１）としてループフィルタユニット（４５６）に利用可能にされるが、コーディングされた画像又はコーディングされたビデオシーケンスの前の（デコーディング順で）部分のデコーディングの間に得られたメタ情報に応答することができると共に、以前に再構成されループフィルタリングされたサンプル値に応答することもできる、インループフィルタ技術を含むことができる。

ループフィルタユニット（４５６）の出力は、レンダリングデバイス（４１２）に出力することができ、また将来のインター画像予測に使用するために参照画像メモリ（４５７）に記憶することができるサンプルストリームであることができる。

特定のコーディングされた画像は、いったん完全に再構成されると、将来の予測のための参考画像として使用することができる。例えば、現在の画像に対応するコーディングされた画像が完全に再構成され、コーディングされた画像が参照画像として識別されると（例えば、パーサ（４２０）によって）、現在の画像バッファ（４５８）は参照画像メモリ（４５７）の一部となることができ、新しい現在の画像バッファが、次のコーディングされた画像の再構成を開始する前に再割当てされることができる。

ビデオデコーダ（４１０）は、ITU-T Rec. H.265などの規格の所定のビデオ圧縮技術に従ってデコーディング動作を実行し得る。コーディングされたビデオシーケンスは、コーディングされたビデオシーケンスが、ビデオ圧縮技術又は規格の構文（syntax）及びビデオ圧縮技術又は規格に文書化されているプロファイルの両方に従うという意味で、使用されているビデオ圧縮技術又は規格によって指定された構文に適合し得る。具体的には、プロファイルは、特定のツールを、そのプロファイルの下で使用するために利用可能な唯一のツールとして、ビデオ圧縮技術又は規格で利用可能なすべてのツールから選択することができる。また、準拠のために必要なことは、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルによって定義される範囲内にあることであり得る。ある場合には、レベルは、最大画像サイズ、最大フレームレート、最大再構成サンプルレート（例えば、毎秒メガサンプルで測定される）、最大参照画像サイズなどを制限する。レベルによって設定された制限は、場合によっては、仮想参照デコーダ（ＨＲＤ）仕様と、コーディングされたビデオシーケンスで信号送信されるＨＲＤバッファ管理のためのメタデータを通してさらに制限することができる。

一実施形態では、受信器（４３１）は、エンコードされたビデオと共に追加の（冗長な）データを受信し得る。追加のデータは、コーディングされたビデオシーケンス（複数可）の一部として含まれ得る。追加のデータは、データを適切にデコードするため、及び／又は元のビデオデータをより正確に再構成するために、ビデオデコーダ（４１０）によって使用され得る。追加のデータは、例えば、時間的、空間的、又は信号雑音比（ＳＮＲ）強化層、冗長スライス、冗長画像、前方誤り訂正コードなどの形態であることができる。

図５は、本開示の一実施形態によるビデオエンコーダ（５０３）のブロック図を示す。ビデオエンコーダ（５０３）は、電子デバイス（５２０）に含まれる。電子デバイス（５２０）は、送信器（５４０）（例えば、送信回路）を含む。ビデオエンコーダ（５０３）は、図３の例のビデオエンコーダ（３０３）の代わりに用いることができる。

ビデオエンコーダ（５０３）は、ビデオエンコーダ（５０３）によってコーディングされることになるビデオイメージ（複数可）をキャプチャし得るビデオソース（５０１）（図５の例では電子デバイス（５２０）の一部ではない）からビデオサンプルを受信し得る。別の例では、ビデオソース（５０１）は、電子デバイス（５２０）の一部である。

ビデオソース（５０１）は、任意の適切なビット深さ（例えば、8ビット、10ビット、12ビット、...）、任意の色空間（例えば、BT.601 Y CrCB、RGB、...）、及び任意の適切なサンプリング構造（例えば、Y CrCb 4:2:0、Y CrCb 4:4:4）であることができるデジタルビデオサンプルストリームの形態で、ビデオエンコーダ（５０３）によってコーディングされることになるソースビデオシーケンスを提供し得る。メディア供給システムでは、ビデオソース（５０１）は、事前に準備されたビデオを記憶する記憶装置であり得る。ビデオ会議システムでは、ビデオソース（５０１）は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラであり得る。ビデオデータは、シーケンスで見たときに動きを伝える複数の個々の画像として提供され得る。画像自体は、ピクセルの空間アレイとして構成され得、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、１つ以上のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。

一実施形態によれば、ビデオエンコーダ（５０３）は、ソースビデオシーケンスの画像を、リアルタイムで、又はアプリケーションによって要求される任意の他の時間制約下で、コーディングされたビデオシーケンス（５４３）にコーディング及び圧縮し得る。適切なコーディング速度を実施することは、コントローラ（５５０）の一つの機能である。いくつかの実施形態では、コントローラ（５５０）は、以下に記載されるように、他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。結合は、明確にするために示されていない。コントローラ（５５０）によって設定されるパラメータは、レート制御関連パラメータ（画像スキップ、量子化器、レート歪み最適化技術のラムダ値、...）、画像サイズ、画像グループ（ＧＯＰ）レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ（５５０）は、特定のシステム設計のために最適化されたビデオエンコーダ（５０３）に関連する他の適切な機能を有するように構成することができる。

いくつかの実施形態では、ビデオエンコーダ（５０３）は、コーディングループで動作するように構成される。過度に単純化された説明として、一例では、コーディングループは、ソースコーダ（５３０）（例えば、コーディングされることになる入力画像及び参照画像に基づいて、シンボルストリームなどのシンボルを生成することを担当する）と、ビデオエンコーダ（５０３）に埋め込まれた（ローカル）デコーダ（５３３）とを含むことができる。デコーダ（５３３）は、（リモート）デコーダが生成するのと同様に（シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮が開示された主題において考慮されるビデオ圧縮技術においてロスレスであるので）、サンプルデータを生成するようにシンボルを再構成する。再構成されたサンプルストリーム（サンプルデータ）は、参照画像メモリ（５３４）に入力される。シンボルストリームのデコーディングは、デコーダ位置（ローカル又はリモート）に依存しないビット正確な（bit-exact）結果をもたらすので、参照画像メモリ（５３４）中の内容もまた、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分は、デコーダがデコーディング中に予測を使用するときに「見る」のとまったく同じサンプル値を参照画像サンプルとして「見る」。参照画像の同期性のこの基本原理（及び、例えば、チャンネルエラーのために同期性を維持できない場合の結果として生じるドリフト）は、いくつかの関連技術においても同様に使用される。

「ローカル」デコーダ（５３３）の動作は、ビデオデコーダ（４１０）などの「リモート」デコーダと同じであることができ、これは、図４と関連して既に上述した。しかし、図４も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ（５４５）及びパーサ（４２０）によるコーディングされたビデオシーケンスへのシンボルのエンコーディング／デコーディングがロスレスであることができるので、バッファメモリ（４１５）及びパーサ（４２０）を含むビデオデコーダ（４１０）のエントロピーデコーディング部分は、ローカルデコーダ（５３３）に完全には実装されなくてもよい。

この時点で行うことができる観察は、デコーダ内に存在する構文解析／エントロピーデコーディングを除く任意のデコーダ技術も、対応するエンコーダ内に実質的に同一の機能的形態で存在する必要があることである。この理由のために、開示された主題はデコーダ動作に焦点を当てる。エンコーダ技術の記述は、包括的に記述されたデコーダ技術の逆であるため、省略することができる。特定の分野においてのみ、より詳細な説明が必要であり、以下に提供される。

動作中、いくつかの例では、ソースコーダ（５３０）は、「参照画像」として指定されたビデオシーケンスからの１つ以上の以前にコーディングされた画像に関して入力画像を予測的にコーディングする動き補償予測コーディングを実行し得る。このようにして、コーディングエンジン（５３２）は、入力画像のピクセルブロックと、入力画像に対する予測参照（複数可）として選択され得る参照画像（複数可）のピクセルブロックとの間の差分をコーディングする。

ローカルビデオデコーダ（５３３）は、ソースコーダ（５３０）によって生成されたシンボルに基づいて、参照画像として指定され得る画像のコーディングされたビデオデータをデコードし得る。コーディングエンジン（５３２）の動作は、有利には、ロッシー（lossy）プロセスであり得る。コーディングされたビデオデータがビデオデコーダ（図５には示されていない）でデコードされ得る場合、再構成されたビデオシーケンスは、典型的には、いくつかのエラーを伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ（５３３）は、参照画像上でビデオデコーダによって実行され得、再構成された参照画像を参照画像キャッシュ（５３４）に記憶させ得るデコーディング処理を複製する。このようにして、ビデオエンコーダ（５０３）は、遠端のビデオデコーダによって得られる再構成された参照画像として、共通のコンテンツを有する再構成された参照画像のコピーを、ローカルに記憶し得る（送信エラーがない）。

予測器（predictor）（５３５）は、コーディングエンジン（５３２）のための予測探索を実行し得る。すなわち、コーディングされることになる新しい画像に対して、予測器（５３５）は、新しい画像に対する適切な予測参照として役立ち得る、参照画像動きベクトル、ブロック形状などの特定のメタデータ又はサンプルデータ（候補参照ピクセルブロックとして）について参照画像メモリ（５３４）を検索し得る。予測器（５３５）は、適切な予測参照を見出すために、サンプルのブロックごとのピクセルのブロックベース（sample block-by-pixel block basis）で動作し得る。場合によっては、予測器（５３５）によって得られた検索結果によって決定されるように、入力画像は、参照画像メモリ（５３４）に記憶された複数の参照画像から引き出された予測参照を有し得る。

コントローラ（５５０）は、例えば、ビデオデータをエンコードするために使用されるパラメータ及びサブグループパラメータの設定を含む、ソースコーダ（５３０）のコーディング動作を管理し得る。

すべての前述の機能ユニットの出力は、エントロピーコーダ（５４５）におけるエントロピーコーディングの対象となり得る。エントロピーコーダ（５４５）は、ハフマンコーディング、可変長コーディング、算術コーディングなどの技術に従って、シンボルをロスレス圧縮することによって、種々の機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。

送信器（５４０）は、エントロピーコーダ（５４５）によって生成されるようにコーディングされたビデオシーケンス（複数可）をバッファに入れて、通信チャネル（５６０）を介した送信の準備をし得、この通信チャネルは、コーディングされたビデオデータを記憶する記憶装置へのハードウェア／ソフトェアリンクであり得る。送信器（５４０）は、ビデオコーダ（５０３）からのコーディングされたビデオデータを、送信されることになる他のデータ、例えばコーディングされたオーディオデータ及び／又は補助的なデータストリーム（図示せず）とマージし得る。

コントローラ（５５０）は、ビデオエンコーダ（５０３）の動作を管理し得る。コーディングの間、コントローラ（５５０）は、各コーディングされた画像に、特定のコーディングされた画像タイプを割り当て得、これは、それぞれの画像に適用され得るコーディング技術に影響を及ぼし得る。例えば、画像は、しばしば、次の画像タイプの１つとして割り当てられる：

イントラ画像（Ｉ画像）は、予測のソースとしてシーケンス内の他の画像を使用せずに、コーディングされ得る及びデコードされ得るものであり得る。いくつかのビデオコーデックは、例えば、独立したデコーダリフレッシュ（「ＩＤＲ」）画像を含む、異なるタイプのイントラ画像を許容する。当業者は、Ｉ画像のこれらの変形例、並びにそれらのそれぞれの用途及び特徴を知っている。

予測画像（Ｐ画像）は、各ブロックのサンプル値を予測するために、最大で１つの動きベクトル及び参照インデックスを使用する内部予測又はインター予測を使用して、コーディングされ得る及びデコードされ得るものであり得る。

双方向予測画像（Ｂ画像）は、各ブロックのサンプル値を予測するために、最大で２つの動きベクトル及び参照インデックスを使用するイントラ予測又はインター予測を使用して、コーディングされ得る及びデコードされ得るものであり得る。同様に、複数の予測画像は、１つのブロックの再構成のために、２より多い参照画像及び関連するメタデータを使用することができる。

ソース画像は、通常、空間的に複数のサンプルブロック（例えば、4×4、8×8、4×8、又は16×16の各サンプルのブロック）に分割され、ブロック毎にコーディングされる。ブロックは、ブロックのそれぞれの画像に適用されるコーディング割り当てによって決定されるように、他の（既にコーディングされた）ブロックを参照して予測的にコーディングされ得る。例えば、Ｉ画像のブロックは、非予測的にコーディングされ得る、又は、それらは、同じ画像の既にコーディングされたブロックを参照して予測的にコーディングされ得る（空間予測又はイントラ予測）。Ｐ画像のピクセルブロックは、以前にコーディングされた１つの参照画像を参照して、空間的予測を介して又は時間的予測を介して、予測的にコーディングされ得る。Ｂ画像のブロックは、１つ又は２つの以前にコーディングされた参照画像を参照して、空間的予測を介して又は時間的予測を介して、予測的にコーディングされ得る。

ビデオエンコーダ（５０３）は、ITU-T Rec. H.265などの所定のビデオコーディング技術又は規格に従ってコーディング動作を実行し得る。その動作において、ビデオエンコーダ（５０３）は、入力ビデオシーケンスにおける時間的及び空間的冗長性を活用する予測コーディング動作を含む種々の圧縮動作を実行し得る。従って、コーディングされたビデオデータは、使用されているビデオコーディング技術又は規格によって指定された構文に適合し得る。

一実施形態では、送信器（５４０）は、コーディングされたビデオと共に追加データを送信し得る。ソースコーダ（５３０）は、コーディングされたビデオシーケンスの一部としてそのようなデータを含み得る。追加データは、時間的／空間的／SNR強調層、冗長画像及びスライスなどの他の形式の冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメントなどを含み得る。

ビデオは、時間シーケンスにおいて複数のソース画像（ビデオ画像）としてキャプチャされ得る。イントラ画像予測（しばしば、イントラ予測と略される）は、所与の画像における空間的相関を利用し、インター画像予測は、画像間の（時間的又は他の）相関を利用する。一例では、現在の画像と呼ばれるエンコーディング／デコーディング下の特定の画像は、ブロックに分割される。現在の画像のブロックが、以前にコーディングされ、依然としてバッファリングされているビデオの参照画像の参照ブロックに類似する場合、現在の画像のブロックは、動きベクトルと呼ばれるベクトルによってコーディングされることができる。動きベクトルは、参照画像の参照ブロックを指し、複数の参照画像が使用されている場合には、参照画像を識別する３次元を有することができる。

いくつかの実施形態では、双予測（bi-prediction）技術は、インター画像予測において使用することができる。双予測技術によれば、両方ともビデオ内の現在の画像よりデコーディング順序で先行する（ただし、表示順序では、それぞれ過去及び将来であり得る）第１の参照画像及び第２の参照画像などの２つの参照画像が使用される。現在の画像のブロックは、第１の参照画像の第１の参照ブロックを指す第１の動きベクトルと、第２の参照画像の第２の参照ブロックを指す第２の動きベクトルとによってコーディングすることができる。ブロックは、第１の参照ブロックと第２の参照ブロックの組み合わせによって予測することができる。

さらに、コーディング効率を改善するために、インター画像予測にマージモード技法を使用することができる。

本開示のいくつかの実施形態によれば、インター画像予測及びイントラ画像予測などの予測は、ブロック単位（ブロックユニット）で実行される。例えば、HEVC規格によれば、ビデオ画像のシーケンス中の画像は、圧縮のためにコーディングツリーユニット（ＣＴＵ）に分割され、画像中のＣＴＵは、64×64ピクセル、32×32ピクセル、又は16×16ピクセルのように、同じサイズを有する。一般的に、ＣＴＵは、３つのコーディングツリーブロック（ＣＴＢ）を含み、これは、１つのルマ（luma）ＣＴＢと２つのクロマ（chroma）ＣＴＢである。各ＣＴＵは、再帰的にクワッドツリー（４分木）（quadtree）を１つ又は複数のコーディングユニット（ＣＵ）に分割することができる。例えば、64×64ピクセルのＣＴＵは、64×64ピクセルの１ＣＵ、32×32ピクセルの４ＣＵ、又は16×16ピクセルの１６ＣＵに分割することができる。一例では、各ＣＵは、インター予測タイプ又はイントラ予測タイプなどの、ＣＵの予測タイプを決定するために分析される。ＣＵは、時間的及び／又は空間的予測可能性に依存して１つ又は複数の予測ユニット（予測単位）（ＰＵ）に分割される。一般に、各ＰＵはルマ予測ブロック（ＰＢ）と２つのクロマＰＢを含む。一実施形態では、コーディング（エンコーディング／デコーディング）における予測操作は、予測ブロックのユニットにおいて実行される。予測ブロックの一例としてルマ予測ブロックを用いると、予測ブロックは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセルなど、ピクセルに対する値（例えば、ルマ値）の行列を含む。

図６は、本開示の別の実施形態によるビデオエンコーダ（６０３）の図を示す。ビデオエンコーダ（６０３）は、ビデオ画像のシーケンス内の現在のビデオ画像内のサンプル値の処理ブロック（例えば、予測ブロック）を受信し、処理ブロックをコーディングされたビデオシーケンスの一部であるコーディングされた画像にエンコードするように構成される。一例では、ビデオエンコーダ（６０３）は、図３の例のビデオエンコーダ（３０３）の代わりに使用される。

HEVCの例では、ビデオエンコーダ（６０３）は、8×8サンプルの予測ブロックなどの処理ブロックに対するサンプル値のマトリックスを受信する。ビデオエンコーダ（６０３）は、処理ブロックが、例えば、レート歪み最適化を使用して、イントラモード、インターモード、又はバイ予測モードを使用して、最良にコーディングされるかどうかを決定する。処理ブロックがイントラモードでコーディングされることになる場合、ビデオエンコーダ（６０３）は、処理ブロックをコーディングされた画像にエンコードするためにイントラ予測技法を使用し得る；処理ブロックがインターモード又はバイ予測モードでコーディングされることになる場合、ビデオエンコーダ（６０３）は、処理ブロックをコーディングされた画像にエンコードするために、インター予測技法又はバイ予測技法をそれぞれ使用し得る。特定のビデオコーディング技術では、マージモードは、予測器の外側のコーディングされた動きベクトル成分の利益なしに、動きベクトルが１つ以上の動きベクトル予測器から導出されるインター画像予測サブモードであることができる。特定の他のビデオコーディング技術では、対象ブロックに適用可能な動きベクトル成分が存在し得る。一例では、ビデオエンコーダ（６０３）は、処理ブロックのモードを決定するためのモード決定モジュール（図示せず）などの他のコンポーネントを含む。

図６の例では、ビデオエンコーダ（６０３）は、図６に示すように一緒に結合されたインターエンコーダ（６３０）、イントラエンコーダ（６２２）、残差（residue）計算器（６２３）、スイッチ（６２６）、残差エンコーダ（６２４）、一般的な（general）コントローラ（６２１）、及びエントロピーエンコーダ（６２５）を含む。

インターエンコーダ（６３０）は、現在のブロック（例えば、処理ブロック）のサンプルを受信し、ブロックを参照画像内の１つ以上の参照ブロックと比較し（例えば、以前の画像内及び後の画像内のブロック）、インター予測情報（例えば、インターエンコーディング技術による冗長情報の記述、動きベクトル、マージモード情報）を生成し、任意の適切な技術を使用して、インター予測情報に基づいてインター予測結果（例えば、予測ブロック）を計算するように構成される。いくつかの例では、参照画像は、エンコードされたビデオ情報に基づいてデコードされるデコードされた参照画像である。

イントラエンコーダ（６２２）は、現在のブロック（例えば、処理ブロック）のサンプルを受信するように構成され、場合によっては、ブロックを、同じ画像内で既にコーディングされているブロックと比較し、変換後に量子化された係数を生成し、場合によっては、イントラ予測情報（例えば、１つ以上のイントラエンコーディング技術に従ったイントラ予測方向情報）も生成する。一例では、イントラエンコーダ（６２２）は、また、同じ画像内の参照ブロック及びイントラ予測情報に基づいて、イントラ予測結果（例えば、予測ブロック）を計算する。

一般的なコントローラ（６２１）は、一般的な制御データを決定し、一般的な制御データに基づいてビデオエンコーダ（６０３）の他のコンポーネントを制御するように構成される。一例では、一般的なコントローラ（６２１）は、ブロックのモードを決定し、そのモードに基づいてスイッチ（６２６）に制御信号を提供する。例えば、モードがイントラモードの場合、一般的なコントローラ（６２１）は、スイッチ（６２６）を制御して、残差計算器（６２３）が使用するイントラモード結果を選択し、エントロピーエンコーダ（６２５）を制御して、イントラ予測情報を選択し、ビットストリームにイントラ予測情報を含める；モードがインターモードの場合、一般的なコントローラ（６２１）は、スイッチ（６２６）を制御して、残差計算器（６２３）が使用するインター予測結果を選択し、エントロピーエンコーダ（６２５）を制御して、インター予測情報を選択し、ビットストリームにインター予測情報を含める。

残差計算器（６２３）は、受信されたブロックと、イントラエンコーダ（６２２）又はインターエンコーダ（６３０）から選択された予測結果との間の差（残差データ）を計算するように構成される。残差エンコーダ（６２４）は、残差データに基づいて動作し、残差データをエンコードして変換係数を生成するように構成される。一例では、残差エンコーダ（６２４）は、残差データを空間ドメインから周波数ドメインに変換し、変換係数を生成するように構成される。次いで、変換係数は、量子化された変換係数を得るために量子化処理にかけられる。様々な実施形態では、ビデオエンコーダ（６０３）は、残差デコーダ（６２８）も含む。残差デコーダ（６２８）は、逆変換を実行し、デコードされた残差データを生成するように構成される。デコードされた残差データは、イントラエンコーダ（６２２）及びインターエンコーダ（６３０）によって適切に使用することができる。例えば、インターエンコーダ（６３０）は、デコードされた残差データ及びインター予測情報に基づいてデコードされたブロックを生成することができ、イントラエンコーダ（６２２）は、デコードされた残差データ及びイントラ予測情報に基づいてデコードされたブロックを生成することができる。デコードされたブロックは、デコードされた画像を生成するために適切に処理され、デコードされた画像は、メモリ回路（図示せず）内でバッファリングされ、いくつかの例では参照画像として使用されることができる。

エントロピーエンコーダ（６２５）は、エンコードされたブロックを含むようビットストリームをフォーマットするように構成される。エントロピーエンコーダ（６２５）は、HEVC規格などの適切な規格に従った種々の情報を含むように構成される。一例では、エントロピーエンコーダ（６２５）は、一般的な制御データ、選択された予測情報（例えば、イントラ予測情報又はインター予測情報）、残差情報、及びビットストリーム内の他の適切な情報を含むように構成される。開示された主題に従って、インターモード又は双予測モードのいずれかのマージサブモードにおけるブロックをコーディングする場合、残差情報は存在しないことに留意されたい。

図７は、本開示の別の実施形態によるビデオデコーダ（７１０）の図を示す。ビデオデコーダ（７１０）は、コーディングされたビデオシーケンスの一部であるコーディングされた画像を受信し、コーディングされた画像をデコードして再構成画像を生成するように構成される。一例では、ビデオデコーダ（７１０）は、図３の例のビデオデコーダ（３１０）の代わりに使用される。

図７の例では、ビデオデコーダ（７１０）は、図７に示すように一緒に結合されたエントロピーデコーダ（７７１）、インターデコーダ（７８０）、残差デコーダ（７７３）、再構成モジュール（７７４）、及びイントラデコーダ（７７２）を含む。

エントロピーデコーダ（７７１）は、コーディングされた画像から、そのコーディングされた画像が構成される構文要素を表す特定のシンボルを再構成するように構成することができる。このようなシンボルは、例えば、ブロックがコーディングされるモード（例えば、イントラモード、インターモード、双予測モード、マージサブモード又は別のサブモードにおける後者の２つ）、イントラデコーダ（７７２）又はインターデコーダ（７８０）それぞれによって予測のために使用される特定のサンプル又はメタデータを識別することができる予測情報（例えば、イントラ予測情報又はインター予測情報など）、例えば、量子化された変換係数の形態の残差情報などを含むことができる。一例では、予測モードがインター又は双予測モードである場合、インター予測情報がインターデコーダ（７８０）に提供される；予測タイプがイントラ予測タイプである場合、イントラ予測情報がイントラデコーダ（７７２）に提供される。残差情報は、逆量子化を受けることができ、残差デコーダ（７７３）に提供される。

インターデコーダ（７８０）は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成される。

イントラデコーダ（７７２）は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成される。

残差デコーダ（７７３）は、非量子化変換係数（de-quantized transform coefficients）を抽出するために逆量子化を実行し、残差を周波数領域から空間領域に変換するために非量子化変換係数を処理するように構成される。残差デコーダ（７７３）はまた、特定の制御情報（量子化器パラメータ（ＱＰ）を含めるために）を必要とし得、その情報は、エントロピーデコーダ（７７１）によって提供され得る（データ経路は、低ボリューム制御情報のみであるため、図示されていない）。

再構成モジュール（７７４）は、空間領域において、残差デコーダ（７７３）による出力としての残差と、予測結果（場合によっては、インター又はイントラ予測モジュールによる出力として）とを組み合わせて、再構成されたブロックを形成するように構成され、この再構成されたブロックは、再構成された画像の一部であり得、この再構成された画像の一部は、再構成されたビデオの一部であり得る。ブロック解除操作（deblocking operation）等のような他の適切な操作を行って、視覚品質を改善することができることに留意されたい。

なお、ビデオエンコーダ（３０３）、（５０３）、及び（６０３）、並びにビデオデコーダ（３１０）、（４１０）、及び（７１０）は、任意の適切な技術を用いて実装することができる。一実施形態では、ビデオエンコーダ（３０３）、（５０３）、及び（６０３）、並びにビデオデコーダ（３１０）、（４１０）、及び（７１０）は、１つ以上の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ（３０３）、（５０３）、及び（６０３）、並びにビデオデコーダ（３１０）、（４１０）、及び（７１０）は、ソフトウェア命令を実行する１つ以上のプロセッサを使用して実装することができる。

本開示の態様は、高度なビデオコーデックにおけるインター予測の分野における技術を提供する。この技術は、サブブロックマージ候補リストと呼ぶことができる候補リスト内の候補の数を設定するために使用することができる。

様々な実施形態では、インター予測ＣＵに対して、動きベクトル、参照画像インデックス、参照画像リスト使用インデックス、及び／又は他の追加情報を含む動きパラメータを、インター予測サンプル生成のために使用することができる。インター予測は、片予測（uni-prediction,）、双予測（bi-prediction）、及び／又は類似のものを含むことができる。片予測では、参照画像リスト（例えば、第１の参照画像リスト又はリスト０（Ｌ０）又は第２の参照画像リスト又はリスト１（Ｌ１））を使用することができる。双予測では、Ｌ０とＬ１の両方を使用することができる。参照画像リスト使用インデックスは、参照画像リスト（複数可）がＬ０、Ｌ１、又はＬ０及びＬ１を含むことを示すことができる。

動きパラメータは、明示的又は暗黙的な方法で信号送信されることができる。ＣＵがスキップモードでコーディングされる場合、ＣＵは、１つのＰＵと関連付けることができ、有意な残差係数を含むことができない（例えば、残差係数がゼロである）、コーディングされた動きベクトル差（ＭＶＤ）を含むことができない、又は参照画像インデックスを含むことができない。

マージモードは、現在のＣＵのための動きパラメータが、空間的及び時間的マージ候補、及びオプションで他のマージ候補を含む、隣接するＣＵから取得されることができるように使用されることができる。マージモードは、インター予測ＣＵに適用することができ、スキップモードに使用することができる。代替的には、動きパラメータは、明示的に送信又は信号送信されることができる。例えば、動きベクトル、各参照画像リストに対する対応する参照画像インデックス、参照画像リスト使用フラグ、及び他の情報が、各ＣＵごとに明示的に信号送信されることができる。

いくつかの例（例えば、ＶＶＣ）では、以下のインター予測コーディングツールの１つ又は複数が使用される：（１）拡張マージ予測、（２）動きベクトル差を伴うマージモード（ＭＭＶＤ）、（３）対称ＭＶＤ（ＳＭＶＤ）信号送信、（４）アフィン動き補償予測、（５）サブブロックベースの時間的動きベクトル予測（ＳｂＴＭＶＰ）、（６）適応動きベクトル解像度（ＡＭＶＲ）、（７）動き場ストレージ（motion field storage）：1/16ルマサンプルＭＶストレージ及び8×8の動き場圧縮、（８）ＣＵレベル重みを伴う双予測、（９）双方向光学フロー（ＢＤＯＦ）、（１０）デコーダ側動きベクトル精緻化（decoder side motion vector refinement）（ＤＭＶＲ）、（１１）幾何学的分割モード（ＧＰＭ）、及び（１２）組み合わされたインター及びイントラ予測（ＣＩＩＰ）。

本開示の一態様によれば、いくつかのインター予測コーディングツールは、サブブロックベースのマージ候補リストに基づいて動作し得る。一例では、アフィン動き補償予測は、アフィンマージモード（いくつかの例ではサブブロックベースマージモードとも呼ばれる）で実行することができる。アフィンマージモードでは、いくつかの例ではサブブロックベースマージ候補リストと呼ばれるアフィンマージ候補リストに基づいて予測を行うことができる。別の例では、サブブロックベースの時間的動きベクトル予測（ＳｂＴＭＶＰ）はまた、サブブロックベースのマージ候補リストに基づいて動作することができる。

いくつかの例（例えば、HEVC）において、アフィン動き補償予測のために、並進動きモデルのみが、動き補償予測（ＭＣＰ）に適用される。現実の世界は、ズームイン／アウト、回転、遠近の（perspective）動き及びその他の不規則な動きのような、多くの種類の動きを有する。いくつかの例（例えば、ＶＶＣ）では、ブロックベースのアフィン変換動き補償予測が適用される。

図８Ａ～８Ｂは、アフィン動きモデルを示す。図８Ａは、２つの制御点ＣＰ０及びＣＰ１（４パラメータアフィンモデル）の動き情報によって記述されるブロックのアフィン動き場を示し、図８Ｂは、３つの制御点ＣＰ０、ＣＰ１及びＣＰ２（６パラメータアフィンモデル）によって記述されるブロックのアフィン動き場を示す。

いくつかの実施形態では、４パラメータのアフィン動きモデル、ブロックのサンプル位置（ｘ,ｙ）における動きベクトル（ｍｖ_ｘ,ｍｖ_ｙ）は、（式１）として導出することができ、６パラメータのアフィン動きモデル、ブロック内のサンプル位置（ｘ,ｙ）における動きベクトルは（式２）として導出することができる：
ここで、ｍｖ_０又は（ｍｖ_０ｘ、ｍｖ_０ｙ）は左上隅制御点ＣＰ０の動きベクトル、ｍｖ₁又は（ｍｖ_１ｘ、ｍｖ_１ｙ）は右上隅制御点ＣＰ１の動きベクトル、ｍｖ_２又は（ｍｖ_２ｘ、ｍｖ_２ｙ）は左下隅制御点ＣＰ２の動きベクトル、Ｗはブロックの幅を示し、Ｈはブロックの高さを示す。

動き補償予測を単純化するために、ブロックベースのアフィン変換予測が適用される。

図９は、サブブロック当たりのアフィンＭＶ場の例を示す。一例では、現在のＣＵ９１０（例えば、16×16ルマサンプル）が4×4ルマサブブロック（各サブブロックは4×4ルマサンプルであることができる）に分割される。各4×4ルマサブブロックの動きベクトルを導出するために、図９に示すように、上記の式（式１）及び（式２）に従って、各サブブロックの中心サンプルの動きベクトルが計算される。動きベクトルは、例えば、1/16分数精度（1/16 fraction accuracy）に丸めることができる。次に、動き補償補間フィルタを適用して、導出された動きベクトルを持つ各サブブロックの予測を生成する。いくつかの例では、クロマ成分のサブブロックサイズも4×4に設定することができるので、4×4クロマサブブロックは４つの対応する4×4ルマサブブロックを含む。4×4のクロマサブブロックのＭＶは、一例では４つの対応する4×4ルマサブブロックのＭＶの平均として計算される。

サブブロックは、他の適切な数のルマサンプルを有するように定義することができることに留意されたい。いくつかの例では、サブブロックはサブＣＵと呼ばれていることにも留意されたい。

並進動きインター予測について、アフィンマージ（AF_MERGE）モード及びアフィンアドバンストＭＶＰ（アフィンＡＭＶＰ）モードと呼ばれる２つのアフィン動きインター予測モードを用いることができる。

アフィンマージ予測について、一例では、AF_MERGEモードが、幅と高さ両方が８以上のＣＵに適用できる。AF_MERGEモードでは、現在のＣＵの制御点動きベクトル（ＣＰＭＶ）は空間的に隣接するＣＵの動き情報に基づいて生成される。一例では、アフィンマージ候補リスト（サブブロックベースマージ候補リストとも呼ばれる）は、最大５つの制御点動きベクトル予測子（control point motion vector predictor）（ＣＰＭＶＰ）候補を含むことができ、インデックスが、現在のＣＵに使用されることになるものを示すために信号送信される。一例では、３つのタイプのＣＰＭＶＰ候補が、アフィンマージ候補リストを形成するために使用される。第１のタイプのＣＰＭＶＰ候補は、隣接するＣＵのＣＰＭＶから外挿された継承されたアフィンマージ候補である。第２のタイプのＣＰＭＶＰ候補は、隣接するＣＵの並進ＭＶを用いて導出される構成されたアフィンマージ候補ＣＰＭＶＰである。第３のタイプのＣＰＭＶＰ候補はゼロＭＶを使用する。

ＶＶＣなどのいくつかの例では、最大２つの継承されたアフィン候補を使用することができる。一例では、２つの継承されたアフィン候補が、隣接するブロックのアフィン動きモデルから導出され、１つは左隣接ＣＵ（左予測子と呼ばれる）から、１つは上隣接ＣＵ（上予測子と呼ばれる）から導出される。例として図１に示す隣接するブロックを使用すると、左予測子については、走査順序はＡ０－＞Ａ１であり、上予測子については、走査順序はＢ０－＞Ｂ１－＞Ｂ２である。一例では、両側から入手可能な第１の継承された候補のみが選択される。いくつかの例では、２つの継承された候補の間で刈り込みチェック（pruning check）は実行されない。隣接するアフィンＣＵが識別される場合、隣接するアフィンＣＵの制御点動きベクトルは、現在のＣＵのアフィンマージ候補リストにおけるＣＰＭＶＰ候補を導出するために使用される。

図１０は、アフィンマージモードにおける継承された制御点動きベクトルを決定するための例を示す。図１０に示すように、隣接する左下サブブロックＡがアフィンモードでコーディングされる場合、サブブロックＡを含むＣＵの左上角、右上角及び左下角の動きベクトルｍｖ_２、ｍｖ_３及びｍｖ_４を得ることができる。サブブロックＡが４パラメータアフィンモデルでコーディングされる場合、現在のＣＵの２つのＣＰＭＶが、ｍｖ_２、及びｍｖ_３に従って計算される。サブブロックＡが６パラメータアフィンモデルでコーディングされる場合、現在のＣＵの３つのＣＰＭＶは、ｍｖ_２、ｍｖ_３及びｍｖ_４に従って計算される。

いくつかの例では、構成されたアフィン候補が、各制御点の隣接並進動き情報を組み合わせることによって構成される。制御点の動き情報は、指定された空間的に隣接するもの（spatial neighbors）及び時間的に隣接するもの（temporal neighbor）から導出することができる。

図１１は、本開示のいくつかの実施形態による、空間的に隣接するもの（例えば、サブブロックＡ０～Ａ２及びＢ０～Ｂ３）及び時間的に隣接するもの（例えば、Ｔ）の例を示す。一例では、ＣＰＭＶ_ｋ（ｋ＝１，２，３，４）は、ｋ番目の制御点を表す。ＣＰＭＶ_１について、Ｂ２－＞Ｂ３－＞Ａ２ブロックがチェックされ（－＞はチェック順序のために使用）、最初に使用可能なブロックのＭＶがＣＰＭＶ_１として使用される。ＣＰＭＶ_２について、Ｂ１－＞Ｂ０ブロックがチェックされ、最初に使用可能なブロックのＭＶがＣＰＭＶ_２として使用される。ＣＰＭＶ_３では、Ａ１－＞Ａ０ブロックがチェックされ、最初に使用可能なブロックのＭＶがＣＰＭＶ_３として使用される。ＴＭＶＰの場合、Ｔがチェックされ、ブロックＴのＭＶが利用可能であればＣＰＭＶ_４として使用される。

４つの制御点ＣＰＭＶ_１－ＣＰＭＶ_４のＭＶを得た後、その動き情報に基づいてアフィンマージ候補が構成される。制御点ＭＶの以下の組み合わせは、{ＣＰＭＶ_１、ＣＰＭＶ_２、ＣＰＭＶ_３}、{ＣＰＭＶ1、ＣＰＭＶ_２、ＣＰＭＶ_４}、{ＣＰＭＶ_１、ＣＰＭＶ_３、ＣＰＭＶ_４}、{ＣＰＭＶ_２、ＣＰＭＶ_３、ＣＰＭＶ_４}、{ＣＰＭＶ_１、ＣＰＭＶ_２}、{ＣＰＭＶ_１、ＣＰＭＶ_３}の順に構成するために使用される。

３つのＣＰＭＶの組み合わせは６パラメータアフィンマージ候補を構成でき、２つのＣＰＭＶの組み合わせは４パラメータアフィンマージ候補を構成できる。一例では、動きスケーリングプロセスを避けるために、制御点の参照インデックスが異なる場合、制御点ＭＶの関連する組み合わせを破棄することができる。

一例では、継承されたアフィンマージ候補と構成されたアフィンマージ候補がチェックされた後、候補リストがまだ満杯でない場合、リストの最後にゼロのＭＶが挿入される。

アフィンＡＭＶＰ予測について、アフィンＡＭＶＰモードが、幅と高さの両方が１６以上のＣＵに適用できる。いくつかの例では、ＣＵレベルのアフィンフラグが、ＣＵでアフィンＡＭＶＰモードが使用されるかどうかを示すためにビットストリーム（例えば、コーディングされたビデオビットストリーム）で信号送信され、次いで、別のフラグが、４パラメータアフィン又は６パラメータアフィンのどちらが使用されるかを示すために信号送信される。アフィンＡＭＶＰモードでは、現在のＣＵのＣＰＭＶとそれらの予測子ＣＰＭＶＰの差がビットストリームで信号送信することができる。アフィンＡＭＶＰ候補リストのサイズは２であり、アフィンＡＭＶＰ候補リストは、以下の４つのタイプのＣＰＭＶ候補を：（１）隣接するＣＵのＣＰＭＶから外挿される継承されたアフィンＡＭＶＰ候補、（２）隣接するＣＵの並進ＭＶを用いて導出される構成されたアフィンＡＭＶＰ候補、（３）隣接するＣＵからの並進ＭＶ、（４）ゼロＭＶ、の順で使用して生成される。

いくつかの例では、継承されたアフィンＡＭＶＰ候補の検査順序は、継承されたアフィンマージ候補の検査順序と同じである。一例では、アフィンマージ予測とアフィンＡＭＶＰ予測の唯一の違いは、ＡＭＶＰ候補に対して、現在のブロックと同じ参照画像を持つアフィンＣＵのみが考慮されることである。一例では、継承されたアフィン動き予測子を候補リストに挿入するときに、刈り込み処理は適用されない。

いくつかの例では、構成されたＡＭＶＰ候補は、図１１に示されている特定の空間的に隣接するものから導き出すことができる。一例では、アフィンマージ予測のための候補構成で行われたのと同じチェック順序が使用される。加えて、隣接するブロックの参照画像インデックスもチェックされる。インターコーディングされ、現在のＣＵと同じ参照画像を持つチェック順序の最初のブロックが使用される。現在のＣＵが４パラメータアフィンモードでコーディングされ、２つの制御点の動きベクトル（例えば、{ＣＰＭＶ_１、ＣＰＭＶ_２}）が両方とも利用可能である場合、２つの制御点の動きベクトルは、アフィンＡＭＶＰリストの１つの候補として追加される。現在のＣＵが６パラメータアフィンモードでコーディングされ、制御点ＣＰＭＶの３つの動きベクトル（例えば{ＣＰＭＶ_１、ＣＰＭＶ_２、ＣＰＭＶ_３}）すべてが利用可能な場合、それらはアフィンＡＭＶＰリストに１つの候補として追加される。それ以外の場合、構成されたＡＭＶＰ候補は使用不可に設定される。

継承されたＡＭＶＰ候補及び構成されたＡＭＶＰ候補がチェックされた後、アフィンＡＭＶＰリスト候補の数がまだ２未満である場合、ＣＰＭＶ_１、ＣＰＭＶ_２及びＣＰＭＶ_３は、利用可能な場合には、現在のＣＵのすべての制御点ＭＶを予測するための並進ＭＶとして、順番に追加される。最後に、アフィンＡＭＶＰリストがまだ満杯でない場合、ゼロのＭＶがアフィンＡＭＶＰリストを満たすために使用される。

本開示のいくつかの態様によれば、動き情報は、ローカルバッファ、画像ラインバッファ等のような適切なバッファに記憶することができる。ローカルバッファは、ＣＴＵ内の4×4ブロックの動きベクトルのような、ＣＴＵレベルにおける動き情報を記憶するために使用される。例えば、ＣＴＵ中のＣＵがインター予測に基づいてデコードされる場合、ＣＵのそれぞれの4×4ブロックの動きベクトルを、ローカルバッファに記憶することができ、後のＣＵをデコードするために使用することができる。画像ラインバッファは、上のＣＴＵの下部に4×4ブロックの動きベクトルのように、現在のＣＴＵより上にあるＣＴＵの動き情報を記憶するために使用される。現在のＣＴＵの上のＣＴＵは、上のＣＴＵラインと称することができる。

いくつかの例（例えば、ＶＶＣ）では、アフィンＣＵのＣＰＭＶは、4×4ブロックの動きベクトルとは別に記憶される。一例では、ローカルバッファは、ＣＴＵにおける4×4ブロックの動きベクトルを記憶するための第１の部分と、ＣＴＵにおけるアフィンＣＵのＣＰＭＶを記憶するための第２の部分とを含む。ローカルバッファの第２の部分に記憶されたＣＰＭＶは、最近コーディングされたＣＵに対してアフィンマージモード及びアフィンＡＭＶＰモードで継承されたＣＰＭＶＰを生成するために使用することができる。ＣＰＭＶから導出されたサブブロックＭＶは、動き補償、並進ＭＶのマージ／ＡＭＶＰリストのＭＶ導出及びブロック解除のために使用される。

いくつかの実施態様では、画像ラインバッファは、上のＣＴＵラインにおけるアフィンＣＵの追加ＣＰＭＶを記憶しない。いくつかの例では、上のＣＴＵからのＣＵからのアフィン動きデータ継承は、同じＣＴＵラインにおける通常の隣接するＣＵからの継承とは異なって扱われる。アフィン動きデータ継承についての候補ＣＵが上のＣＴＵライン内にある場合、ＣＰＭＶの代わりに、画像ラインバッファにおける左下及び右下のサブブロックＭＶが、アフィンＭＶＰ導出のために使用される。したがって、いくつかの例では、ＣＰＭＶは、画像ラインバッファではなく、ローカルバッファにのみ記憶される。候補ＣＵが６パラメータアフィンコーディングされている例では、アフィンモデルは４パラメータモデルに低下させることができる。

図１２は、いくつかの例におけるアフィン動きデータ継承のための動きベクトル使用を示す図を示す。図１２では、各小正方形は、4×4のサブブロックを表し、サブブロックの動きベクトルは、サブブロックの中心における動きベクトルであることができる。さらに、現在のＣＵは、現在のＣＴＵの頂点位置に位置する。図１２に示すように、現在のＣＵの隣接するＣＵにおいて、ＣＵ－Ｅ及びＣＵ－Ｄはアフィンコードされる。ＣＵ－Ｄは現在のＣＵと同じＣＴＵラインにあり、ＣＵ－Ｅは現在のＣＵの上のＣＴＵラインにある。ＣＵ－ＤのＣＰＭＶはローカルバッファに記憶することができる。例えば、４パラメータアフィンモデルについて、ｍｖ_Ｄ０及びｍｖ_Ｄ１はローカルバッファに記憶され、現在のＣＵのＣＰＭＶ（例えば、ｍｖ_０及びｍｖ_１）は、ｍｖ_Ｄ０及びｍｖ_Ｄ１、ならびにｍｖ_Ｄ０及びｍｖ_Ｄ１に対する制御点の対応する位置に従って計算することができる。

一例では、画像ラインバッファは、上のＣＴＵラインの下部にあるサブブロックの動きベクトルを記憶する。ｍｖ_Ｅ０やｍｖ_Ｅ１によって示されようなＣＵ－ＥのＣＰＭＶは、画像ラインバッファには記憶されない。一例では、ｍｖ_ＬＥ０及びｍｖ_ＬＥ１で示されるようなＣＵ－Ｅの左下サブブロック及び右下サブブロックの動きベクトルが、現在のＣＵのアフィン継承に使用される。例えば、現在のＣＵのＣＰＭＶ_Ｓ（例えば、ｍｖ_０及びｍｖ_１）は、ｍｖ_ＬＥ０及びｍｖ_ＬＥ１、ならびに２つのサブブロックの対応する中心位置に従って計算することができる。

いくつかの実施形態では、オプティカルフロー（ＰＲＯＦ）による予測精緻化（prediction refinement）（ＰＲＯＦ法とも呼ばれる）は、サブブロックベースのアフィン動き補償を改善して、動き補償のためのメモリアクセス帯域幅を増加させることなく、より細かい粒度の動き補償を達成するように実装され得る。一実施形態（例えば、ＶＶＣ）では、サブブロックベースのアフィン動き補償が実行された後、オプティカルフロー方程式に基づいて導出された差（又は、精緻化値（refinement values）、精緻化、予測精緻化）を、精緻化された予測サンプルを得るために、予測サンプル（例えば、ルマ予測されたサンプル、又はルマ予測サンプル）に加えることができる。

図１３は、本開示の一実施形態によるＰＲＯＦ法の一例の概略図を示す。現在のブロック（１３１０）は４つのサブブロック（１３１２、１３１４、１３１６、及び１３１８）に分割できる。サブブロック（１３１２、１３１４、１３１６、及び１３１８）の各々は、4×4ピクセル又はサンプルのサイズを有することができる。サブブロック（１３１２）に対するサブブロックＭＶ（１３２０）は、例えば、サブブロック（１３１２）の中心位置及びアフィン動きモデル（例えば、４パラメータアフィン動きモデル、６パラメータアフィン動きモデル）を使用して、現在のブロック１３１０のＣＰＭＶに従って導出することができる。サブブロックＭＶ（１３２０）は、参照画像内の参照サブブロック（１３３２）を示すことができる。初期サブブロック予測サンプルは、参照サブブロック（１３３２）に従って決定することができる。

いくつかの例では、サブブロックＭＶ（１３２０）によって説明されるように、参照サブブロック（１３３２）からサブブロック（１３１２）への並進の動きは、サブブロック（１３１２）を高精度で予測しない可能性がある。サブブロックＭＶ（１３２０）によって説明される並進の動きに加えて、サブブロック（１３１２）は、非並進の動き（例えば、図１３に見られるような回転）も経験し得る。図１３を参照すると、影付きのサンプル（例えば、サンプル（１３３２ａ））を有する参照画像内のサブブロック（１３５０）は、サブブロック（１３１２）内のサンプルに対応するとともにそれを再構成するために使用することができる。影付きのサンプル（１３３２ａ）は、ピクセルＭＶ
（１３４０）によってシフトされて、サブブロック（１３１２）内のサンプル（１３１２ａ）を高精度で再構成することができる。従って、いくつかの例では、非並進の動きが発生する場合、予測の精度を改善するために、以下に記載されるように、適切な予測精緻化方法をアフィン動きモデルに適用することができる。

一例では、ＰＲＯＦ法は、以下の４つのステップを使用して実装される。ステップ（１）では、サブブロックベースのアフィン動き補償を実行して、現在のサブブロック（例えば、サブブロック（１３１２））に対して、初期サブブロック予測Ｉ（ｉ，ｊ）などの予測を生成することができ、ここで、ｉ及びｊは、現在のサブブロック（１３１２）内の位置（ｉ，ｊ）（サンプル位置（sample position）、サンプル位置（sample location）とも称される）におけるサンプルに対応する座標である。

ステップ（２）では、勾配計算を実行することができ、ここで各サンプル位置（ｉ，ｊ）における初期サブブロック予測Ｉ（ｉ，ｊ）の空間勾配ｇ_ｘ（ｉ，ｊ）及びｇ_ｙ（ｉ，ｊ）を、例えば、以下の式３及び式４に従った３タップフィルタ［－１，０，１］を用いて、計算することができる：
ｇ_ｘ（ｉ，ｊ）＝Ｉ（ｉ＋１，ｊ）－Ｉ（ｉ－１，ｊ）（式３）
ｇ_ｙ（ｉ，ｊ）＝Ｉ（ｉ，ｊ＋１）－Ｉ（ｉ，ｊ－１）（式４）
サブブロック予測は、勾配計算のために、両側で1ピクセルずつ拡張することができる。いくつかの実施形態では、メモリ帯域幅及び複雑性を低減するために、拡張された境界上のピクセルは、参照画像（例えば、サブブロック（１３３２）を含む参照画像）内の最も近い整数ピクセル位置からコピーされることができる。従って、パディング領域（padding region）に対する追加の補間を回避することができる。

ステップ（３）では、予測の精緻化ΔI（ｉ，ｊ）が式５（例えば、オプティカルフロー方程式）により以下のように計算することができる。
ΔＩ（ｉ，ｊ）＝ｇ_ｘ（ｉ，ｊ）×Δｍｖ_ｘ（ｉ，ｊ）＋g_ｙ（ｉ，ｊ）×Δｍｖ_ｙ（ｉ，ｊ）（式５）
ここで、Δｍｖ（ｉ，ｊ）（例えば、Δｍｖ（１３４２））は、サンプル位置（ｉ，ｊ）に対するピクセルＭＶ又はサンプルＭＶｍｖ（ｉ，ｊ）（例えば、ピクセルＭＶ（１３４０））と、サンプル位置（ｉ，ｊ）が位置するサブブロック（例えば、サブブロック（１３１２））のサブブロックＭＶＭｖ_ＳＢ（例えば、サブブロックＭＶ（１３２０））との間の差ＭＶである。Δｍｖ（ｉ，ｊ）はまた、サンプル位置（ｉ，ｊ）又はサンプル（ｉ，ｊ）にあるサンプルに対するＭＶ精緻化（ＭＶＲ）とも呼ばれることができる。Δｍｖ（ｉ，ｊ）は以下のように式６を用いて決定することができる。
Δｍｖ（ｉ，ｊ）＝ｍｖ（ｉ，ｊ）－ｍｖ_ＳＢ（式６）
Δｍｖ_ｘ（ｉ，ｊ）及びΔｍｖ_ｙ（ｉ，ｊ）は、それぞれ差分ＭＶ Δｍｖ（ｉ，ｊ）のｘ成分（水平成分）及びｙ成分（垂直成分）である。

サブブロック中心位置に対するピクセル位置及びアフィンモデルパラメータは、１つのサブブロックから別のサブブロックに変更されないので、Δｍｖ（ｉ，ｊ）は第１のサブブロック（例えば、サブブロック（１３１２））について計算することができ、同じ現在のブロック（１３１０）内の他のサブブロック（例えば、サブブロック（１３１４）、（１３１６）及び（１３１８））について再利用することができる。いくつかの例では、ｘ及びｙは、サブブロック（１３１２）の中心位置に対するサンプル位置（ｉ，ｊ）の水平シフト及び垂直シフトを表し、Δｍｖ（ｉ，ｊ）（例えば、Δｍｖ_ｘ（ｉ，ｊ）及びΔｍｖ_ｙ（ｉ，ｊ）を含む）は、以下のように、式７によって導出することができ、
ここで、Δｍｖ_ｘ（ｘ，ｙ）はｘ成分Δｍｖ_ｘ（ｉ，ｊ）であり、Δｍｖ_ｙ（ｘ，ｙ）はｙ成分Δｍｖ_ｙ（ｉ，ｊ）である。

例えば、４パラメータのアフィン動きモデルについて、パラメータａ～ｄは（式１）によって記述される。６パラメータアフィン動きモデルについて、パラメータａ～ｄは、上述のように（式２）によって記述される。

ステップ（４）では、予測精緻化ΔＩ（ｉ，ｊ）（例えば、ルマ予測精緻化）が、初期サブブロック予測Ｉ（ｉ，ｊ）に加えられて、精緻化された予測Ｉ’（ｉ，ｊ）などの別の予測を生成することができる。精緻化された予測Ｉ’（ｉ，ｊ）は、サンプル（ｉ，ｊ）について、以下のように式８を用いて生成することができる：
Ｉ’（ｉ，ｊ）＝Ｉ（ｉ，ｊ）+ΔＩ（ｉ，ｊ）（式８）。

場合によっては、ＰＲＯＦはアフィンコーディングされたＣＵについて適用されない。一例では、すべての制御点ＭＶは同じであり、これはＣＵのみが並進の動きを有することを示し、ＰＲＯＦは適用されない。別の例では、アフィン動きパラメータは、指定されたリミットよりも大きく、次にＰＲＯＦが適用される。第２の場合、サブブロックベースのアフィン動き補償は、大きなメモリアクセス帯域幅要求を避けるためにＣＵベースの動き補償に低下する。

いくつかの実施形態では、高速エンコーディング方法を適用して、ＰＲＯＦによるアフィン動き推定のコーディングの複雑性を低減することができる。高速エンコーディング方法では、ＰＲＯＦは、以下の２つの状況においてアフィン動き推定段階では適用されない。第１の状況では、現在のＣＵがルートブロックではなく、その親ブロックがアフィンモードをベストモードとして選択しない場合、現在のＣＵについてアフィンモードをベストモードとして選択する可能性は低いため、ＰＲＯＦは適用されない。第２の状況では、４つのアフィンパラメータ（ａ～ｄ）の大きさがすべてあらかじめ定義された閾値より小さく、現在の画像が遅延の小さい画像ではない場合、この状況ではＰＲＯＦによってもたらされる改善が小さいため、ＰＲＯＦは適用されない。このようにして、ＰＲＯＦによるアフィン動き推定を加速することができる。

いくつかの例（例えば、ＶＶＣ）では、サブブロックベースの時間的動きベクトル予測（ＳｂＴＭＶＰ）を使用することができる。HEVCにおける時間的動きベクトル予測（ＴＭＶＰ）と同様に、ＳｂＴＭＶＰは、現在の画像のＣＵについての動きベクトル予測とマージモードを改善するために、コロケーションされた画像の動き場を使用する。いくつかの例では、ＴＭＶＰで使用されるのと同じコロケーションされた画像がＳｂＴＭＶＰに使用される。ＳｂＴＭＶＰは、ＴＭＶＰとは２つの点で異なる。第１の態様では、ＴＭＶＰはＣＵレベルでの動きを予測するが、ＳｂＴＭＶＰはサブＣＵレベルでの動きを予測する。第２の態様では、ＴＭＶＰは、コロケーションされた画像内のコロケーションされたブロックから時間的動きベクトルをフェッチし（コロケーションされたブロックは、現在のＣＵに対する右下又は中央のブロックである）、ＳｂＴＭＶＰは、コロケーションされた画像から時間的動き情報をフェッチする前に動きシフト（motion shift）を適用する。動きシフトは、現在のＣＵの空間的に隣接するブロックの一つからの動きベクトルから得られる。

図１４～１５は、本開示のいくつかの実施形態によるＳｂＴＭＶＰプロセスの例を示す。ＳｂＴＭＶＰは、現在のＣＵ内のサブＣＵの動きベクトルを２つのステップで予測する。第１のステップでは、図１４に示す空間的に隣接するＡ１が検討される。空間的に隣接するＡ１が、その参照画像としてコロケーションされた画像を使用する動きベクトルを有する場合、動きベクトルは、適用されることになる動きシフトであるように選択される。そのような動きが識別されない場合、動きシフトは（０，０）に設定される。

第２のステップでは、第１のステップで識別された動きシフトが適用され（すなわち、現在のブロックの座標に加算され）て、図１５に示すように、コロケーションされた画像からサブＣＵレベルの動き情報（動きベクトル及び参照インデックス）を取得する。図１５の例では、Ａ１の動きベクトルは、動きシフト（１５１０）として設定される。次に、各サブＣＵについて、コロケーションされた画像内の対応するブロック（中心サンプルをカバーする最小の動きグリッド）の動き情報が、サブＣＵについての動き情報を導出するために使用される。コロケーションされたサブＣＵの動き情報が識別された後、それは、HEVCのＴＭＶＰプロセスと同様の方法で、現在のサブＣＵの動きベクトル及び参照インデックスに変換される。例えば、時間的動きスケーリングが、時間的動きベクトルの参照画像を現在のＣＵの参照画像に整列させるために適用される。

ＶＶＣにおけるなど、いくつかの例では、サブブロックベースのマージ候補リストが、サブブロックベースのマージモードの信号送信のために使用される。サブブロックベースのマージ候補リストは、ＳｂＴＭＶＰ候補とアフィンマージ候補の両方を含むことができ、いくつかの例では組み合わされたサブブロックベースのマージ候補リストと呼ばれる。ＳｂＴＭＶＰモードは、シーケンスパラメータセット（ＳＰＳ）フラグなどのフラグによって有効／無効にされる。ＳｂＴＭＶＰモードを有効にすると、一例では、組み合わされたサブブロックベースのマージ候補リストの最初のエントリーとしてＳｂＴＭＶＰ予測子が加えられ、その後アフィンマージ候補が続く。いくつかの例（例えば、ＶＶＣ）では、組み合わされたサブブロックベースのマージ候補リストの最大許容サイズは５である。組み合わされたサブブロックベースのマージ候補リストの最大許容サイズは、他の適切な数であることができることに留意されたい。

一例では、ＳｂＴＭＶＰで使用されるサブＣＵサイズは8×8に固定されており、アフィンマージモードで行われるように、ＳｂＴＭＶＰモードは、幅と高さの両方が８以上のＣＵにのみ適用可能である。

いくつかの実施形態では、追加のＳｂＴＭＶＰマージ候補のエンコーディングロジックは、他のマージ候補についてと同じである。例えば、Ｐ又はＢスライスの各ＣＵに対して、追加のレート歪みチェックが、ＳｂＴＭＶＰ候補を使用するかどうかを決定するために実行される。

本開示のいくつかの態様によれば、組み合わされたサブブロックベースのマージ候補リスト内の候補の最大数を信号送信することができる。

図１６は、いくつかの例におけるシーケンスパラメータセット（ＳＰＳ）の構文テーブル例（１６００）を示す。ＳＰＳは、一連の連続したコーディングされたビデオ画像（コーディングされたビデオシーケンスとも呼ばれる）に適用することができる情報を含む。

構文テーブルの例（１６００）では、フラグsps_temporal_mvp_enabled_flagが、（１６１０）で示されるように信号送信される。１に等しいフラグsps_temporal_mvp_enabled_flagは、時間的動きベクトル予測子（temporal motion vector predictors）がコーディングされたビデオで使用され得ることを指定する；０に等しいフラグsps_temporal_mvp_enabled_flagは、時間的動きベクトル予測子がコーディングされたビデオで使用されないことを指定する。いくつかの例では、コーディングされたビデオは、コーディングされたレイヤビデオシーケンス（ＣＬＶＳ）と呼ぶことができ、これは、ランダムアクセスポイントから始まり、互いに依存し得る画像及びランダムアクセスポイント画像が後続する、同じレイヤに属する画像のグループである。

関連する構文テーブルの例（１６００）では、フラグsps_temporal_mvp_enabled_flagが１に等しい場合、（１６２０）と（１６３０）で示されるように、２つのフラグsps_sbtmvp_enabled_flag及びsps_affine_enabled_flagが信号送信される。１に等しいフラグsps_sbtmvp_enabled_flagは、サブブロックベースの時間的動きベクトル予測子が、コーディングされたビデオの中でＩ（イントラコーディングされている）に等しくないスライスタイプを有するスライスでの画像のデコーディングに使用され得ることを指定する。０に等しいフラグsps_sbtmvp_enabled_flagは、サブブロックベースの時間的動きベクトル予測子がコーディングされたビデオで使用されないことを指定する。例では、フラグsps_sbtmvp_enabled_flagが信号送信されない時、フラグsps_sbtmvp_enabled_flagは０に等しいと推定することができる。

フラグsps_affine_enabled_flagは、インター予測にアフィンモデルベースの動き補償を使用できるかどうかを指定する。フラグsps_affine_enabled_flagが０に等しい時、いくつかの例では、構文は、コーディングされたビデオでアフィンモデルベースの動き補償が使用されないように制約される。さもなければ（sps_affine_enabled_flagは１に等しい）、コーディングされたビデオでアフィンベースの動き補償を使うことができる。

構文テーブルの例（１６００）では、フラグsps_affine_enabled_flagが１に等しい場合、five_minus_max_num_subblock_merge_candなどのパラメータが信号送信され得る。パラメータfive_minus_max_num_subblock_merge_candは、ＳＰＳでサポートされるサブブロックベースのマージ候補の最大数を５から引いたものを指定する。five_minus_max_num_subblock_merge_candの値は、いくつかの例を含めて０から５の範囲にある。例えば、five_minus_max_num_subblock_merge_candの値が２の場合、組み合わされたサブブロックベースのマージ候補リストの候補の最大数は３（５から２を引く）である。

いくつかの例では、時間的動きベクトル予測子は、画像ヘッダレベルで有効／無効にされることができる。図１７は、いくつかの例における画像ヘッダ構造の構文テーブルの例（１７００）を示す。

構文テーブルの例（１７００）では、ＳＰＳレベルフラグsps_temporal_mvp_enabled_flagが１に等しい場合、フラグph_temporal_mvp_enabled_flagが、（１７１０）によって示されるように、信号送信される。フラグph_temporal_mvp_enabled_flagは、時間的動きベクトル予測子を、画像ヘッダに関連付けられたスライスのインター予測に使用できるかどうかを指定する。ph_temporal_mvp_enabled_flagが０に等しい場合、画像ヘッダに関連するスライスの構文要素は、時間的動きベクトル予測子がスライスのデコーディングに使用されないように制約される。さもなければ（ph_temporal_mvp_enabled_flagは１に等しい）、時間的動きベクトル予測子は、画像ヘッダに関連付けられたスライスのデコーディングに使用され得る。存在しない場合、一例では、ph_temporal_mvp_enabled_flagの値は０に等しいと推定される。デコードされた画像バッファ内の参照画像が現在の画像と同じ空間解像度を有していない場合、ph_temporal_mvp_enabled_flagの値は０に等しくなる。

サブブロックベースのマージ候補の最大数は、信号送信される又は推定されるフラグ及びパラメータに基づいて導出することができる。一例では、変数MaxNumSubblockMergeCandが、サブブロックベースのマージ候補の最大数を示すために使用される。一例では、sps_affine_enabled_flagが１に等しい場合、MaxNumSubblockMergeCandは（式９）に従って導出され、sps_affine_enabled_flagが０に等しい場合、MaxNumSubblockMergeCandは（式１０）に従って導出される：

いくつかの例では、MaxNumSubblockMergeCandの値は、０～５の範囲（０、５を含む）にある。

本開示の一態様によれば、sps_affine_enabled_flagが１として信号送信される場合、MaxNumSubblockMergeCandは、（式9）に記載されるように、five_minus_max_num_subblock_merge_candから導出される。いくつかの例では、sps_affine_enabled_flagが１として信号送信され、five_minus_max_num_subblock_merge_candが５に等しいと信号送信されるシナリオが許可される。このシナリオでは、サブブロックベースのマージ候補の最大数MaxNumSubblockMergeCandは、ＳｂＴＭＶＰイネーブル（enabling）フラグに関係なく、ＳｂＴＭＶＰと同様にアフィンマージモードをオフにすることができる０として導出され、ＳｂＴＭＶＰイネーブルフラグが、ＳｂＴＭＶＰが有効にされていることを示す場合に競合を引き起こす可能性がある。

本開示の態様は、サブブロックベースのマージ候補のデフォルト数（例えば、Ｎで示される）及びアフィン及び／又はＳｂＴＭＶＰコーディングツールに対する関連する高レベル使用フラグに従って、サブブロックベースのマージ候補の数の値の範囲（サブブロックベースのマージ候補の最大数とも呼ばれる）を設定する技術を提供する。例えば、ＳｂＴＭＶＰイネーブルフラグがＳｂＴＭＶＰを有効にされていることを示す場合、サブブロックベースのマージ候補の最大数は０ではない。

いくつかの実施態様では、パラメータfive_minus_max_num_subblock_merge_candは、サブブロックベースのマージ候補の最大数と負の相関を有し、パラメータfive_minus_max_num_subblock_merge_candの上限は、ＳｂＴＭＶＰイネーブルフラグに基づいて決定される。

一実施形態では、パラメータfive_minus_max_num_subblock_merge_candは、Ｎから減算されるＳＰＳでサポートされるサブブロックベースのマージ動きベクトル予測候補の最大数を指定し、さらに、パラメータfive_minus_max_num_subblock_merge_candの値は、０からＮ－sps_sbtmvp_enabled_flagの範囲（０、Ｎ－sps_sbtmvp_enabled_flagを含む）に制限される。パラメータfive_minus_max_num_subblock_merge_candの上限は、フラグsps_sbtmvp_enabled_flagに依存する。

いくつかの例では、デフォルト数Ｎは５であり、フラグsps_sbtmvp_enabled_flagが０である場合（ＳｂＴＭＶＰが無効）、パラメータfive_minus_max_num_subblock_merge_candの値は０から５までの範囲（０、５を含む）であることができる。しかし、フラグsps_sbtmvp_enabled_flagが１である場合（ＳｂＴＭＶＰが有効）、パラメータfive_minus_max_num_subblock_merge_candの値は０～４の範囲（０、４を含む）であることができる。一例として、エンコーダ側では、フラグsps_sbtmvp_enabled_flagが１であり、パラメータfive_minus_max_num_subblock_merge_candの計算値が上限を上回る５である場合、コーディングされたビデオビットストリーム内のパラメータfive_minus_max_num_subblock_merge_candの信号送信される値は、０から４の範囲（０、４を含む）で制約される４である。

いくつかの例では、パラメータfive_minus_max_num_subblock_merge_candの値が範囲の上限に等しい場合、パラメータfive_minus_max_num_subblock_merge_candはコーディングされたビデオビットストリームにおいてエンコーダ側から信号送信されなくてよい。デコーダ側では、パラメータfive_minus_max_num_subblock_merge_candがコーディングされたビデオビットストリームに存在しないことをデコーダが検出した場合、デコーダは、パラメータfive_minus_max_num_subblock_merge_candの値が範囲の上限にあると推定することができる。範囲の上限は、ＳｂＴＭＶＰイネーブルフラグに基づいて決定することができる。例えば、five_minus_max_num_subblock_merge_candの値は、Ｎ－sps_sbtmvp_enabled_flagと等しいと推定される。一例では、デフォルト数Ｎは５であり、sps_sbtmvp_enabled_flagが０である場合（ＳｂＴＭＶＰが無効）、パラメータfive_minus_max_num_subblock_merge_candの値は５であると推定することができる。しかし、フラグsps_sbtmvp_enabled_flagが１である場合（ＳｂＴＭＶＰが有効である）、パラメータfive_minus_max_num_subblock_merge_candの値は４であると推定される。

別の実施形態では、パラメータfive_minus_max_num_subblock_merge_candの上限は、ＳＰＳレベルにおける第１のフラグsps_sbtmvp_enabled_flag及び画像ヘッダレベルにおける第２のフラグph_temporal_mvp_enabled_flagなど、複数のＳｂＴＭＶＰイネーブルフラグの組み合わせに基づいて決定される。一例では、パラメータfive_minus_max_num_subblock_merge_candの値は、０からＮ－（sps_sbtmvp_enabled_flag && ph_temporal_mvp_enabled_flag）の範囲（０、Ｎ－（sps_sbtmvp_enabled_flag && ph_temporal_mvp_enabled_flag）を含む）に制限される。パラメータfive_minus_max_num_subblock_merge_cand がコーディングされたビデオビットストリームに存在しない場合、five_minus_max_num_subblock_merge_candの値はＮ－（sps_sbtmvp_enabled_flag && ph_temporal_mvp_enabled_flag）に等しいと推定される。

いくつかの例では、デフォルト数Ｎは５であり、第１のフラグsps_sbtmvp_enabled_flagと第２のフラグph_temporal_mvp_enabled_flagの少なくとも１つが０である場合（ＳｂＴＭＶＰが無効）、パラメータfive_minus_max_num_subblock_merge_candの値は０から５の範囲（０、５を含む）にあることができる。しかし、第１のフラグsps_sbtmvp_enabled_flagと第２のフラグph_temporal_mvp_enabled_flagの両方が１である場合（ＳｂＴＭＶＰが有効）、パラメータfive_minus_max_num_subblock_merge_candの値は０～４の範囲（０、４を含む）にあることができる。一例では、エンコーダ側では、第１のフラグsps_sbtmvp_enabled_flagと第２のフラグph_temporal_mvp_enabled_flagの両方が１であり、パラメータfive_minus_max_num_subblock_merge_candの計算値が上限を上回る５である場合、コーディングされたビデオビットストリーム内のパラメータfive_minus_max_num_subblock_merge_candの信号送信される値は、０から４の範囲（０、４を含む）に制約される４である。

いくつかの例では、パラメータfive_minus_max_num_subblock_merge_candの値が範囲の上限に等しい場合、パラメータfive_minus_max_num_subblock_merge_candはコーディングされたビデオビットストリームにおいてエンコーダ側から信号送信されなくてよい。デコーダ側では、パラメータfive_minus_max_num_subblock_merge_candがコーディングされたビデオビットストリームに存在しないことをデコーダが検出した場合、デコーダは、パラメータfive_minus_max_num_subblock_merge_candの値を範囲の上限であると推定することができる。範囲の上限は、例えば、第１のフラグsps_sbtmvp_enabled_flagと第２のフラグph_temporal_mvp_enabled_flagの適切な組み合わせに基づいて決定することができる。例えば、five_minus_max_num_subblock_merge_candの値は、Ｎ－（sps_sbtmvp_enabled_flag && ph_temporal_mvp_enabled_flag）と等しいと推定される。一例では、デフォルト数Ｎは５であり、第１のフラグsps_sbtmvp_enabled_flagと第２のフラグph_temporal_mvp_enabled_flagの少なくとも一方が０である場合（ＳｂＴＭＶＰが無効）、パラメータfive_minus_max_num_subblock_merge_candの値は５であると推定することができる。しかし、第１のフラグsps_sbtmvp_enabled_flagと第２のフラグph_temporal_mvp_enabled_flagの両方が１である場合（ＳｂＴＭＶＰが有効）、パラメータfive_minus_max_num_subblock_merge_candの値は４であると推定することができる。

図１８は、本開示の一実施形態によるプロセス（１８００）の概略を示すフローチャートを示す。プロセス（１８００）は、ブロックの再構成に使用することができ、したがって、再構成中のブロックに対する予測ブロックを生成する。様々な実施形態では、プロセス（１８００）は、端末装置（２１０）、（２２０）、（２３０）及び（２４０）の処理回路、ビデオエンコーダ（３０３）の機能を実行する処理回路、ビデオデコーダ（３１０）の機能を実行する処理回路、ビデオデコーダ（４１０）の機能を実行する処理回路、ビデオエンコーダ（５０３）の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、プロセス（１８００）は、ソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行するとき、処理回路は、プロセス（１８００）を実行する。プロセスは（Ｓ１８０１）から始まり、（Ｓ１８１０）に進む。

（Ｓ１８１０）において、パラメータ（例えば、サブブロックベースのマージ候補リストにおける候補の最大数を示すfive_minus_max_num_subblock_merge_cand）は、コーディングされたビデオビットストリームからデコードされた予測情報に基づいて決定される。パラメータは、サブブロックベースの時間的動きベクトル予測の有効／無効状態を示すフラグに依存する範囲内にある。いくつかの例では、範囲の上限は、サブブロックベースの時間的動きベクトル予測の有効／無効状態を示すフラグに依存する。一例では、フラグは、シーケンスパラメータセット（ＳＰＳ）レベルにおけるサブブロックベースの時間的動きベクトル予測の有効／無効状態を示す。

一実施形態では、パラメータの値は、コーディングされたビデオビットストリームにおいて信号送信される。別の例では、パラメータの値がコーディングされたビデオビットストリームにおいて信号送信されない場合、パラメータの値は範囲の上限であると推定することができる。例えば、パラメータは、デフォルト数と、コーディングされたビデオビットストリームにおいて信号送信されていないパラメータに応答して、サブブロックベースの時間的動きベクトル予測の有効／無効状態を示すフラグに基づいて推定することができる。

いくつかの実施形態では、パラメータは、シーケンスパラメータセット（ＳＰＳ）レベルにおけるサブブロックベースの時間的動きベクトル予測の有効／無効状態を示す第１のフラグと、画像ヘッダ（ＰＨ）レベルにおける時間的動きベクトル予測の有効／無効状態を示す第２のフラグに依存する範囲内にある。いくつかの例では、パラメータがコーディング化されたビデオビットストリームにおいて信号送信されないことに応答して、パラメータは、デフォルト数、ＳＰＳレベルにおけるサブブロックベースの時間的動きベクトル予測の有効／無効状態を示す第１のフラグ、及びＰＨレベルにおける時間的動きベクトル予測の有効／無効状態を示す第２のフラグに基づいて推定することができる。

（Ｓ１８２０）では、サブブロックベースのマージ候補リスト内の候補の最大数が、パラメータに基づいて計算される。いくつかの例では、サブブロックベースのマージ候補リスト内の候補の最大数は、（式９）を使用してなど、デフォルト数からパラメータを差し引くことによって計算される。一例では、デフォルト数は５である。

（Ｓ１８３０）において、サブブロックベースの予測モードにおける現在のブロックに応答して、現在のブロックのサンプルは、現在のブロックの構成されたサブブロックベースのマージ候補リストからの候補選択に基づいて再構成される。現在のブロックの構成されたサブブロックベースのマージ候補リストは、サブブロックベースのマージ候補リストの中の候補の最大数によって制約される。

その後、このプロセスは（Ｓ１８９９）に進み、終了する。

上述の技術は、コンピュータ読取可能な命令を用いてコンピュータソフトウェアとして実装することができ、１つ以上のコンピュータ読取可能媒体に物理的に記憶することができる。例えば、図１９は、開示された主題の特定の実施形態を実施するのに適したコンピュータシステム（１９００）を示す。

コンピュータソフトウェアは、１つ又は複数のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）などによって、直接的に、又は解釈を通じて、マイクロコード実行などを通して実行することができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、又は同様のメカニズムの対象となり得る任意の適切な機械コード又はコンピュータ言語を用いてコーディングすることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームミングデバイス、モノのインターネットデバイス等を含む種々のタイプのコンピュータ又はそのコンポーネント上で実行することができる。

コンピュータシステム（１９００）について図１９に示されるコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能に関する限定を示唆することを意図するものではない。また、コンポーネントの構成は、コンピュータシステム（１９００）の例示的な実施形態に示されたコンポーネントの任意の１つ又は組み合わせに関するいかなる従属性又は要件を有するものとして解釈されてはならない。

コンピュータシステム（１９００）は、特定のヒューマンインターフェース入力デバイスを含み得る。このようなヒューマンインターフェース入力装置は、例えば、触覚入力（例えば、キーストローク、スワイプ、データグローブの動き）、音声入力（例えば、音声、拍手）、視覚入力（例えば、ジェスチャ）、嗅覚入力（図示せず）を通じて、一人又は複数の人間のユーザによる入力に応答し得る。また、ヒューマンインターフェースデバイスは、オーディオ（例えば、スピーチ、音楽、周囲の音声）、画像（例えば、スキャンされた画像、静止画カメラから得られる写真画像）、ビデオ（例えば、２次元ビデオ、立体画像を含む３次元ビデオ）のような、人間による意識的入力に必ずしも直接関係しない特定の媒体をキャプチャするために使用することができる。

入力ヒューマンインターフェースデバイスは、キーボード（１９０１）、マウス（１９０２）、トラックパッド（１９０３）、タッチスクリーン（１９１０）、データグローブ（図示せず）、ジョイスティック（１９０５）、マイクロホン（１９０６）、スキャナ（１９０７）、カメラ（１９０８）の１つ以上を含み得る。

コンピュータシステム（１９００）はまた、特定のヒューマンインターフェース出力デバイスを含み得る。このようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、及びにおい／味を通して、１人又は複数の人間ユーザの感覚を刺激し得る。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（１９１０）、データグローブ（図示せず）、ジョイスティック（１９０５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る）、オーディオ出力デバイス（例えば、スピーカー（１９０９）、ヘッドフォン（図示せず））、視覚出力デバイス（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（１９１０）など、各々がタッチスクリーン入力能力を有していても有していなくてもよく、各々が触覚フィードバック能力を有していても有していなくてもよい－これらのうちのいくつかは、２次元の視覚出力又は立体画像出力など手段を介して３次元以上の出力を出力することができ得る；仮想現実メガネ（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず））、及びプリンタ（図示せず）を含み得る。

コンピュータシステム（１９００）はまた、人間がアクセス可能な記憶装置、及び、CD/DVD又は類似の媒体（１９２１）を有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（１９２０）を含む光媒体、サムドライブ（１９２２）、取り外し可能なハードドライブ又はソリッドステートドライブ（１９２３）、テープ及びフロッピー（登録商標）ディスク（図示せず）のようなレガシー磁気媒体、セキュリティドングル（図示せず）のような特殊化されたＲＯＭ/ＡＳＩＣ/ＰＬＤベースのデバイスなどの関連媒体を含むことができる。

当業者はまた、現在開示されている主題に関連して使用される用語「コンピュータ読取可能媒体」は、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム（１９００）はまた、１つ以上の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、無線、有線、光であることができる。ネットワークは、さらに、ローカル、広域、メトロポリタン、車両及び産業、リアルタイム、遅延耐性などであることができる。ネットワークの例としては、イーサネット（登録商標）、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、及び地上放送TVを含むTV有線又は無線ワイドエリアデジタルネットワーク、CANバスを含む車両及び産業用などが挙げられる。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス（１９４９）（例えば、コンピュータシステム（１９００）のUSBポート）に取り付けられる外部ネットワークインターフェースアダプタを必要とする。他のものは、一般に、以下に説明するようにシステムバスに取り付けることによって、コンピュータシステム（１９００）のコアに組み込まれる（例えば、ＰＣコンピュータシステムへのイーサネットインターフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（１９００）は、他のエンティティと通信することができる。このような通信は、単指向性、受信のみ（例えば、放送テレビ）、単指向性送信専用（例えば、特定のCANバスデバイスへのCANバス）、又は、例えば、ローカル又はワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの双指向性であることができる。特定のプロトコル及びプロトコルスタックは、上述のように、それらのネットワーク及びネットワークインターフェースの各々で使用することができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、及びネットワークインターフェースは、コンピュータシステム（１９００）のコア（１９４０）に取り付けることができる。

コア（１９４０）は、１つ以上の中央処理装置（ＣＰＵ）（１９４１）、グラフィックス処理ユニット（ＧＰＵ）（１９４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（１９４３）の形の特殊なプログラマブル処理ユニット、特定のタスクのためのハードウェアアクセラレータ（１９４４）などを含むことができる。これらのデバイスは、読出し専用メモリ（ＲＯＭ）（１９４５）、ランダムアクセスメモリ（１９４６）、内部非ユーザアクセス可能ハードドライブ、SSD等の内部大容量記憶装置（１９４７）と共に、システムバス（１９４８）を介して接続され得る。いくつかのコンピュータシステムでは、システムバス（１９４８）は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つ以上の物理的プラグの形態でアクセス可能であることができる。周辺装置は、コアのシステムバス（１９４８）に直接取り付けるか、又は周辺バス（１９４９）を介して取り付けることができる。周辺バスのアーキテクチャは、PCI、USBなどを含む。

ＣＰＵ（１９４１）、ＧＰＵ（１９４２）、ＦＰＧＡ（１９４３）、及びアクセラレータ（１９４４）は、組み合わされて、上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（１９４５）又はＲＡＭ（１９４６）に記憶することができる。過渡的なデータはＲＡＭ（１９４６）に記憶することもでき、一方、永久データは、例えば、内部大容量記憶装置（１９４７）に記憶することができる。任意のメモリデバイスへの高速記憶及び取得は、キャッシュメモリの使用を通して可能にすることができ、キャッシュメモリは、１つ以上のＣＰＵ（１９４１）、ＧＰＵ（１９４２）、大容量記憶装置（１９４７）、ＲＯＭ（１９４５）、ＲＡＭ（１９４６）などと密接に関連付けることができる。

コンピュータ読取可能媒体は、種々のコンピュータに実装された動作を実行するためのコンピュータコードをその上に有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構成されたものであることができる、又はそれらは、コンピュータソフトウェア技術に熟練した者に良く知られかつ入手可能な種類のものであることができる。

一例として、限定するものではなく、アーキテクチャ（１９００）、具体的にはコア（１９４０）を有するコンピュータシステムは、１つ以上の有形のコンピュータ読取可能媒体に具現化されたソフトウェアを実行するプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ等を含む）の結果として機能を提供することができる。そのようなコンピュータ読取可能媒体は、コア－内部大容量記憶装置（１９４７）又はＲＯＭ（１９４５）のような非一時的な性質のものであるコア（１９４０）の特定の記憶装置（１９４０）と同様に、上述のようなユーザがアクセス可能な大容量記憶装置に関連する媒体であることができる。本開示の様々な実施形態を実装するソフトウェアは、そのような装置に記憶され、コア（１９４０）によって実行されることができる。コンピュータ読取可能媒体は、特定のニーズに応じて、１つ又は複数のメモリデバイス又はチップを含むことができる。ソフトウェアは、ＲＡＭ（１９４６）に記憶されたデータ構造を定義し、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含む、本明細書に記載された特定のプロセス又は特定の部分を、コア（１９４０）、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に実行させることができる。加えて、又は代替的に、コンピュータシステムは、回路（例えば、アクセラレータ（１９４４））内に配線された、又は他の方法で具現化された論理の結果として機能を提供することができ、これは、本明細書に記載される特定のプロセス又は特定のプロセスの特定の部分を実行するためのソフトウェアの代わりに、又はそれと共に動作することができる。ソフトウェアへの言及は、論理を含み、また、必要に応じて、その逆も可能である。コンピュータ読取可能媒体への参照は、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のための論理を具体化する回路、又は適切な場合にはその両方を含むことができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。
付録Ａ:頭字語
ＪＥＭ：共同探査モデル（joint exploration model）
ＶＶＣ：汎用ビデオコーディング
ＢＭＳ：ベンチマークセット
ＭＶ：動きベクトル
ＨＥＶＣ：高効率ビデオコーディング
ＳＥＩ：補足拡張情報
ＶＵＩ：ビデオユーザビリティ情報
ＧＯＰ:画像グループ
ＴＵ：変換ユニット
ＰＵ：予測ユニット
ＣＴＵ：コーディングツリーユニット
ＣＴＢ：コーディングツリーブロック
ＰＢ：予測ブロック
ＨＲＤ：仮想参照デコーダ
ＳＮＲ：信号雑音比
ＣＰＵ：中央処理装置
ＧＰＵ：グラフィックス処理ユニット
ＣＲＴ：陰極線管
ＬＣＤ：液晶ディスプレイ
ＯＬＥＤ：有機発光ダイオード
ＣＤ：コンパクトディスク
ＤＶＤ：デジタルビデオディスク
ＲＯＭ：読み出し専用メモリ
ＲＡＭ：ランダムアクセスメモリ
ＡＳＩＣ：特定用途向け集積回路
ＰＬＤ：プログラマブルロジックデバイス
ＬＡＮ：ローカルエリアネットワーク
ＧＳＭ：移動体通信のためのグローバルシステム
ＬＴＥ：ロングタームエボリューション
ＣＡＮバス：コントローラエリアネットワークバス
ＵＳＢ：ユニバーサルシリアルバス
ＰＣＩ：ペリフェラルコンポーネント相互接続
ＦＰＧＡ：フィールドプログラマブルゲートエリア
ＳＳＤ：ソリッドステートドライブ
ＩＣ：集積回路
ＣＵ：コーディングユニット

本開示は、いくつかの例示的な実施形態を記載してきたが、本開示の範囲内にある変更、置換、及び種々の代替均等物がある。したがって、当業者は、本明細書に明示的に示されていないか又は記載されていないが、本開示の原理を具体化し、従って、本開示の精神及び範囲内にある多くのシステム及び方法を考え出すことができることが理解されるであろう。

Claims

デコーダにおけるビデオデコーディングのための方法であって：
プロセッサが、コーディングされたビデオビットストリームからデコードされた予測情報に基づいてパラメータを決定するステップと；
前記プロセッサが、前記パラメータに基づいて、サブブロックベースのマージ候補リスト内の候補の最大数を計算するステップであって、前記パラメータは０から５－ｓｐｓ＿ｓｂｔｍｖｐ＿ｅｎａｂｌｅｄ＿ｆｌａｇの範囲内にあり、前記ｓｐｓ＿ｓｂｔｍｖｐ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しい場合、サブブロックベースの時間的動きベクトル予測子が、コーディングされたビデオにおいてＩ（イントラコーディング）に等しくないスライスタイプを有するスライスを持つピクチャのデコーディングに使用されることを指定し、前記ｓｐｓ＿ｓｂｔｍｖｐ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しい場合、前記サブブロックベースの時間的動きベクトル予測子が、コーディングされたビデオにおいて使用されないことを指定する、ステップと；
サブブロックベースの予測モードにおける現在のブロックに応答して、前記現在のブロックの構成されたサブブロックベースのマージ候補リストからの候補選択に基づいて、前記現在のブロックのサンプルを再構成するステップであって、前記現在のブロックの前記構成されたサブブロックベースのマージ候補リストは、前記サブブロックベースのマージ候補リスト内の前記候補の最大数によって制約される、ステップと；を含む、
方法。
デフォルト数から前記パラメータを差し引くことによって、前記サブブロックベースのマージ候補リスト内の前記候補の最大数を計算するステップをさらに含む、
請求項１に記載の方法。
前記デフォルト数は５である、
請求項２に記載の方法。
前記コーディングされたビデオビットストリーム内で信号送信される前記パラメータを受信するステップをさらに含む、
請求項１乃至３のいずれか１項に記載の方法。
前記パラメータが前記コーディングされたビデオビットストリーム内で信号送信されていないことに応答して、デフォルト数と、前記ｓｐｓ＿ｓｂｔｍｖｐ＿ｅｎａｂｌｅｄ＿ｆｌａｇとに基づいて、前記パラメータを推定するステップをさらに含む、
請求項１に記載の方法。
前記ｓｐｓ＿ｓｂｔｍｖｐ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグは、シーケンスパラメータセット（ＳＰＳ）レベルにある、
請求項１乃至５のいずれか１項に記載の方法。
前記パラメータは、シーケンスパラメータセット（ＳＰＳ）レベルの前記ｓｐｓ＿ｓｂｔｍｖｐ＿ｅｎａｂｌｅｄ＿ｆｌａｇと、画像ヘッダ（ＰＨ）レベルの時間的動きベクトル予測の有効／無効状態を示すフラグとに基づいて決定される、
請求項１に記載の方法。
前記パラメータが前記コーディングされたビデオビットストリーム内で信号送信されていないことに応答して、デフォルト数、前記ＳＰＳレベルの前記ｓｐｓ＿ｓｂｔｍｖｐ＿ｅｎａｂｌｅｄ＿ｆｌａｇ、及び前記ＰＨレベルの前記時間的動きベクトル予測の前記有効／無効状態を示す前記フラグに基づいて、前記パラメータを推定するステップをさらに含む、
請求項７に記載の方法。
ビデオデコーディングのための装置であって：
請求項１乃至８のいずれか１項に記載の方法を実行するように構成される、処理回路を有する、
装置。
命令を記憶する非一時的コンピュータ読取可能媒体であって、前記命令は、ビデオコーディングのためにコンピュータによって実行されるときに前記コンピュータに、請求項１乃至８のいずれか１項に記載の方法を実行させる、非一時的コンピュータ読取可能記憶媒体。