JP2021520172A

JP2021520172A - 動画の符号化及び復号の方法、装置及びコンピュータプログラム

Info

Publication number: JP2021520172A
Application number: JP2021506395A
Authority: JP
Inventors: シュイ，シアオジョォン; リ，シアン; リィウ，シャン; リ，グォイチュン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2018-07-13
Filing date: 2019-07-02
Publication date: 2021-08-12
Anticipated expiration: 2039-07-02
Also published as: US11051025B2; US20200021814A1; US20210235094A1; KR20210006973A; KR102565187B1; CN112237000A; US11611756B2; WO2020014052A1; JP7223116B2; CN117041596A; EP3791580A4; EP3791580A1; CN112237000B

Abstract

開示の態様は、動画符号化及び復号の方法及び装置を提供する。いくつかの例では、装置は、受信回路及び処理回路を含む。処理回路は、符号化された動画ビットストリームからの現在のピクチャにおけるブロックの予測情報を復号する。予測情報は、インター予測モードにおいてアフィンモデルと関連付けられた予測オフセットを示すインデックスを含む。アフィンモデルは、ブロックと、再構成された参照ピクチャにおける参照ブロックとの間で変換することに使用される。さらに、処理回路は、インデックス並びにインデックスとオフセット値との事前定義されたマッピングに基づいてアフィンモデルのパラメータを決定し、アフィンモデルに従って少なくとも1つのブロックのサンプルを再構成する。

Description

参照による組み込み
本出願は、2018年7月13日に出願された米国仮出願第62/698,009号「TECHNIQUES FOR SIMPLIFIED AFFINE MOTION COMPENSATION WITH PREDICTION
OFFSETS」への優先権の利益を主張する、2018年11月28日に出願された米国特許出願第16/203,091「METHOD AND APPARATUS FOR VIDEO CODING」の優先権の利益を主張し、その内容全体が参照によりここに組み込まれる。

本開示は、概して動画符号化及び復号に関連する実施形態を説明する。

ここで提供される背景技術の説明は、本開示の文脈を概略的に提示する目的のためのものである。現在名前があがっている発明者らの研究は、その研究がこの背景技術のセクションで説明される範囲で、そうでなければ出願時に先行技術として適格でないことがある説明の態様と同様に、明示的にも暗示的にも本開示に対する先行技術として認められない。

動画符号化及び復号は、動き補償を有するインターピクチャ予測を使用して実行されることが可能である。非圧縮デジタル映像は一連のピクチャを含むことが可能であり、各ピクチャは、たとえば、1920×1080の輝度サンプル及び関連付けられたクロミナンスサンプルの空間次元を有する。一連のピクチャは、たとえば毎秒60ピクチャ又は60 Hzの固定又は可変のピクチャレート（略式にフレームレートとしても知られる）を有することが可能である。非圧縮映像は、かなりのビットレート要件を有する。たとえば、サンプルあたり8ビットでの1080p60 4:2:0の映像（60 Hzのフレームレートで1920×1080の輝度サンプル解像度）は、1.5 Gbit/sに近い帯域幅を要求する。1時間のそのような映像は、600 GBより多くの記憶スペースを要求する。

動画符号化及び復号の1つの目的は、圧縮を通じた、入力映像信号における冗長性の低減であり得る。圧縮は、前述の帯域幅又は記憶スペースの要件を、ある場合には、2桁以上の大きさで低減することを助けることが可能である。可逆的圧縮と不可逆的圧縮の両方、及びそれらの組み合わせが採用されることが可能である。可逆的圧縮は、圧縮された元の信号から、元の信号の正確なコピーが再構成されることが可能である手法を指す。不可逆的圧縮を使用するとき、再構成された信号は元の信号と同一ではないことがあるが、元の信号と再構成された信号との間の歪みは、再構成された信号を意図されるアプリケーションのために有用にするために十分に小さい。映像の場合、不可逆的圧縮が広く採用されている。耐えられる歪みの量はアプリケーションに依存し、たとえば、あるコンシューマ・ストリーミング・アプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みに耐え得る。達成可能な圧縮率は、より高い許容可能な／耐えることが可能な歪みがより高い圧縮率をもたらすことが可能である、ということを反映することが可能である。

動き補償は、不可逆的圧縮手法とすることが可能であり、前に再構成されたピクチャ又はその一部（参照ピクチャ）からのサンプルデータのブロックが、動きベクトル（以下MV）によって示される方向に空間的にシフトされた後、新しく再構成されたピクチャ又はピクチャの一部の予測のために使用される手法に関連することが可能である。ある場合には、参照ピクチャは現在再構成中のピクチャと同じであることが可能である。MVは、2つの次元X及びY、又は3番目が使用中の参照ピクチャの指標である（後者は間接的に時間の次元であることが可能である）3つの次元を有することが可能である。

いくつかの映像圧縮手法では、サンプルデータのある領域に適用可能なMVは、他のMVから、たとえば、再構成中の領域に空間的に隣接し、デコード順でそのMVの前にある、サンプルデータの別の領域に関連するMVから、予測されることが可能である。そうすることは、MVを符号化するために要求されるデータの量を大幅に低減することが可能であり、それによって冗長性を除去し、圧縮を増加させる。たとえば、カメラから導出された入力映像信号（自然映像として知られる）を符号化するとき、単一のMVが適用可能な領域よりも大きな領域が、類似の方向に移動し、したがって、ある場合には、近隣の領域のMVから導出された類似の動きベクトルを使用して予測されることが可能である統計的尤度があるので、MV予測が効果的に機能することが可能である。それは、所与の領域について見出されたMVが、周囲のMVから予測されたMVと類似しているか又は同じであるという結果になり、すると、それは、エントロピー符号化後に、MVを直接符号化する場合に使用されるよりも少ないビット数で表されることが可能である。ある場合には、MV予測は、元の信号（つまり、サンプルストリーム）から導出された信号（つまり、MV）の可逆的圧縮の一例であり得る。他の場合では、たとえば、いくつかの周囲のMVから予測子を計算するときの丸め誤差に起因して、MV予測それ自体が不可逆的となり得る。

さまざまなMV予測メカニズムがH.265/HEVC（ITU-T Rec H.265、「High Efficiency Video Coding」、2016年12月）において説明されている。H.265が提供する多くのMV予測メカニズムのうち、ここで説明されるのは、以下「空間マージ」と称される手法である。

図1を参照すると、現在のブロック（101）は、空間的にシフトされた同じサイズの前のブロックから予測可能であることが、動き探索プロセス中にエンコーダによって見出されているサンプルを含む。そのMVを直接符号化する代わりに、1つ又は複数の参照ピクチャと関連付けられたメタデータから、たとえば（デコード順で）最新の参照ピクチャから、5つの周囲のサンプル、示されているA0、A1、及びB0、B1、B2（それぞれ102から106）のいずれか1つと関連付けられたMVを使用して、MVが導出されることが可能である。H.265では、MV予測は、近隣のブロックが使用しているのと同じ参照ピクチャからの予測子を使用することが可能である。

開示の態様は、動画符号化及び復号の方法及び装置を提供する。いくつかの例では、装置は、動画の復号のための処理回路を含む。処理回路は、符号化された動画ビットストリームからの現在のピクチャにおけるブロックの予測情報を復号する。予測情報は、インター予測モードにおいてアフィンモデルと関連付けられた予測オフセットを示すインデックスを含む。アフィンモデルは、ブロックと、再構成された参照ピクチャにおける参照ブロックとの間で変換することに使用される。さらに、処理回路は、インデックス並びにインデックスとオフセット値との事前定義されたマッピングに基づいてアフィンモデルのパラメータを決定し、アフィンモデルに従って少なくともブロックのサンプルを再構成する。

いくつかの実施形態では、処理回路は、動きベクトルに従ってアフィンモデルの並進パラメータの値を決定し、インデックス及び事前定義されたマッピングに従ってアフィンモデルの非並進パラメータを決定する。一例では、処理回路は、アフィンモデルにおけるスケーリングファクタのデフォルトに対するデルタ値を示すインデックスを復号し、インデックス並びにインデックスとスケーリングファクタのデルタ値との事前定義されたマッピングに従ってデルタ値を決定する。別の例では、処理回路は、アフィンモデルにおける回転角のデフォルトに対するデルタ値を示すインデックスを復号し、インデックス並びにインデックスと回転角のデルタ値との事前定義されたマッピングに従ってデルタ値を決定する。

いくつかの実施形態では、処理回路は、動きベクトル差分を示すインデックスを復号し、予測された動きベクトル及び動きベクトル差分に基づいてアフィンモデルを導出する。一例では、処理回路は、動きベクトル差分の方向を示す第1のインデックス、及び動きベクトル差分のピクセル距離を示す第2のインデックスを復号する。別の例では、処理回路は、動きベクトル差分の方向とピクセル距離の両方を示すインデックスを復号する。

別の例では、処理回路は、2つの制御点についての2つの動きベクトル差分を示すインデックスをそれぞれ復号し、2つの動きベクトル差分に基づいて2つの制御点についての動きベクトルをそれぞれ決定する。次いで、処理回路は、2つの制御点の動きベクトルに基づいて4パラメータのアフィンモデルを導出する。

別の例では、処理回路は、3つの制御点についての3つの動きベクトル差分を示すインデックスをそれぞれ復号し、3つの動きベクトル差分に基づいて3つの制御点についての動きベクトルをそれぞれ決定する。次いで、処理回路は、3つの制御点の動きベクトルに基づいて6パラメータのアフィンモデルを導出する。

一実施形態では、処理回路は、第1の制御点についての第1の動きベクトル差分を示す第1のインデックスを復号し、第1の動きベクトル差分に基づいて第2の制御点についての第2の動きベクトル差分を予測する。次いで、処理回路は、予測誤差を復号して、符号化された動画ビットストリームからの第2の動きベクトル差分を補正する。さらに、処理回路は、第1の動きベクトル差分及び補正された第2の動きベクトル差分に基づいて、第1の制御点についての第1の動きベクトル及び第2の制御点についての第2の動きベクトルを決定し、第1の制御点についての第1の動きベクトル及び第2の制御点についての第2の動きベクトルに少なくとも基づいてアフィンモデルを導出する。

開示の態様は、コンピュータによって実行されるときに、コンピュータに動画符号化及び復号の方法を実行させる命令を有するコンピュータプログラムも提供する。

開示される対象事項のさらなる特徴、性質、及びさまざまな利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。

H.265による、現在のブロック及びその周囲の空間マージ候補の概略的例示である。一実施形態による、通信システム（200）の簡略化されたブロック図の概略的例示である。一実施形態による、通信システム（300）の簡略化されたブロック図の概略的例示である。一実施形態による、デコーダの簡略化されたブロック図の概略的例示である。一実施形態による、エンコーダの簡略化されたブロック図の概略的例示である。別の実施形態による、エンコーダのブロック図を表す。別の実施形態による、デコーダのブロック図を表す。いくつかの例における空間的及び時間的候補の例を表す。開示の一実施形態による、UMVEについての例を表す。開示の一実施形態による、UMVEについての例を表す。アフィン動きモデルを有するブロックの例を表す。開示のいくつかの実施形態による、アフィン変換の例を表す。開示のいくつかの実施形態による、プロセス例を概説するフローチャートを表す。一実施形態による、コンピュータシステムの概略的例示である。

図2は、本開示の一実施形態による、通信システム（200）の簡略化されたブロック図を例示する。通信システム（200）は、たとえばネットワーク（250）を介して互いに通信することが可能である複数の端末デバイスを含む。たとえば、通信システム（200）は、ネットワーク（250）を介して相互接続された第1のペアの端末デバイス（210）と（220）を含む。図2の例では、第1のペアの端末デバイス（210）と（220）は、データの一方向送信を実行する。たとえば、端末デバイス（210）は、ネットワーク（250）を介した他の端末デバイス（220）への送信のために、映像データ（たとえば、端末デバイス（210）によってキャプチャされた映像ピクチャのストリーム）を符号化し得る。エンコードされた映像データは、1つ又は複数の符号化された映像ビットストリームの形式で送信されることが可能である。端末デバイス（220）は、ネットワーク（250）から符号化された映像データを受信し、符号化された映像データをデコードして映像ピクチャを復元し、復元された映像データに従って映像ピクチャを表示し得る。一方向データ送信は、メディア供給アプリケーションなどで一般的であり得る。

別の例では、通信システム（200）は、たとえばテレビ会議中に発生し得る符号化された映像データの双方向送信を実行する第2のペアの端末デバイス（230）と（240）を含む。データの双方向送信については、一例では、端末デバイス（230）及び（240）の各端末デバイスは、ネットワーク（250）を介した端末デバイス（230）及び（240）の他の端末デバイスへの送信のために映像データ（たとえば、端末デバイスによってキャプチャされた映像ピクチャのストリーム）を符号化し得る。端末デバイス（230）及び（240）の各端末デバイスはまた、端末デバイス（230）及び（240）の他の端末デバイスによって送信された、符号化された映像データを受信し得、符号化された映像データをデコードして映像ピクチャを復元し得、復元された映像データに従って、アクセス可能な表示デバイスで映像ピクチャを表示し得る。

図2の例では、端末デバイス（210）、（220）、（230）及び（240）は、サーバ、パーソナルコンピュータ及びスマートフォンとして例示され得るが、本開示の原理はそのように限定されなくてもよい。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、及び／又は専用のテレビ会議設備を用いたアプリケーションを見出す。ネットワーク（250）は、たとえばワイヤライン（有線）及び／又は無線通信ネットワークを含む、端末デバイス（210）、（220）、（230）及び（240）の間で符号化された映像データを伝達する任意の数のネットワークを表現する。通信ネットワーク（250）は、回線交換及び／又はパケット交換チャネルでデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカル・エリア・ネットワーク、広域ネットワーク、及び／又はインターネットを含む。本議論の目的のために、ネットワーク（250）のアーキテクチャ及びトポロジは、以下ここで説明されないならば、本開示の動作にとって些細なものであり得る。

図3は、開示される対象事項に関するアプリケーションについての一例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を例示する。開示された対象事項は、たとえば、テレビ会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮された映像の記録、などを含む他の映像対応のアプリケーションに等しく適用可能であることが可能である。

ストリーミングシステムは、たとえば非圧縮の映像ピクチャのストリーム（302）を生成する映像ソース（301）、たとえばデジタルカメラを含むことが可能であるキャプチャサブシステム（313）を含み得る。一例では、映像ピクチャのストリーム（302）は、デジタルカメラによって取得されたサンプルを含む。エンコードされた映像データ（304）（又は符号化された映像ビットストリーム）と比較されるとき多いデータ量を強調するために太線として描かれた映像ピクチャのストリーム（302）は、映像ソース（301）に連結されたビデオエンコーダ（303）を含む電子デバイス（320）によって処理されることが可能である。ビデオエンコーダ（303）は、以下でより詳細に説明されるように、開示される対象事項の態様を可能にし、又は実現するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことが可能である。映像ピクチャのストリーム（302）と比較されるとき少ないデータ量を強調するために細線として描かれたエンコードされた映像データ（304）（又はエンコードされた映像ビットストリーム（304））は、将来の使用のためにストリーミングサーバ（305）に記憶されることが可能である。図3のクライアントサブシステム（306）及び（308）のような1つ又は複数のストリーミング・クライアント・サブシステムは、エンコードされた映像データ（304）のコピー（307）及び（309）を取り出すためにストリーミングサーバ（305）にアクセスすることが可能である。クライアントサブシステム（306）は、たとえば、電子デバイス（330）内にビデオデコーダ（310）を含むことが可能である。ビデオデコーダ（310）は、入って来るエンコードされた映像データのコピー（307）をデコードし、ディスプレイ（312）（たとえば、ディスプレイスクリーン）又は他のレンダリングデバイス（描かれていない）にレンダリングされることが可能である、出ていく映像ピクチャのストリーム（311）を生成する。いくつかのストリーミングシステムでは、エンコードされた映像データ（304）、（307）、及び（309）（たとえば、映像ビットストリーム）は、ある動画符号化及び復号／圧縮規格に従って符号化されることが可能である。それらの規格の例は、ITU-T Recommendation H.265を含む。一例では、開発中の動画符号化及び復号規格が、Versatile Video Coding（VVC）として非公式に知られている。開示される対象事項は、VVCの文脈において使用され得る。

電子デバイス（320）及び（330）は、他のコンポーネント（表されていない）を含むことが可能であることが留意される。たとえば、電子デバイス（320）は、ビデオデコーダ（表されていない）を含むことが可能であり、電子デバイス（330）は、同様にビデオエンコーダ（表されていない）を含むことが可能である。

図4は、本開示の一実施形態による、ビデオデコーダ（410）のブロック図を表す。ビデオデコーダ（410）は、電子デバイス（430）に含まれることが可能である。電子デバイス（430）は、受信器（431）（たとえば、受信回路）を含むことが可能である。ビデオデコーダ（410）は、図3の例におけるビデオデコーダ（310）の場所で使用されることが可能である。

受信器（431）は、ビデオデコーダ（410）によってデコードされることになる1つ又は複数の符号化された映像シーケンス、同じ又は別の実施形態では、一度に1つの符号化された映像シーケンスを受信し得、各符号化された映像シーケンスのデコードは、他の符号化された映像シーケンスとは無関係である。符号化された映像シーケンスは、エンコードされた映像データを記憶する記憶デバイスへのハードウェア／ソフトウェアリンクであり得るチャネル（401）から受信され得る。受信器（431）は、エンコードされた映像データを、他のデータ、たとえば、それぞれの使用エンティティ（描かれていない）に転送され得る符号化されたオーディオデータ及び／又は補助データストリームと共に受信し得る。受信器（431）は、符号化された映像シーケンスを他のデータから分離し得る。ネットワークジッタに対抗するために、受信器（431）とエントロピーデコーダ／解析器（420）（以下、「解析器（420）」）との間にバッファメモリ（415）が連結され得る。あるアプリケーションでは、バッファメモリ（415）は、ビデオデコーダ（410）の一部である。他では、それはビデオデコーダ（410）の外部にあることが可能である（描かれていない）。さらに他では、たとえばネットワークジッタに対抗するために、ビデオデコーダ（410）の外部にバッファメモリ（描かれていない）、加えて、たとえば再生タイミングを操作するために、ビデオデコーダ（410）の内部に別のバッファメモリ（415）があることが可能である。受信器（431）が、十分な帯域幅の、かつ制御可能な記憶／転送デバイスから、又は等時性ネットワークからデータを受信しているとき、バッファメモリ（415）は必要とされなくてもよく、又は小さいことが可能である。インターネットのようなベスト・エフォート・パケット・ネットワークでの使用については、バッファメモリ（415）が要求され得、比較的大きいことが可能であり、好適には、適応的なサイズであることが可能であり、少なくとも部分的に、ビデオデコーダ（410）の外部で、オペレーティングシステム又は類似の要素（描かれていない）内で実現されてもよい。

ビデオデコーダ（410）は、符号化された映像シーケンスからシンボル（421）を再構成するために解析器（420）を含み得る。それらのシンボルのカテゴリは、ビデオデコーダ（410）の動作を管理するために使用される情報、及び潜在的に、図4に表されているように、電子デバイス（430）の統合された部分ではないが電子デバイス（430）に連結されることが可能であるレンダリングデバイス（412）（たとえば、ディスプレイスクリーン）のようなレンダリングデバイスを制御するための情報が含まれる。レンダリングデバイスのための制御情報は、付加拡張情報（（Supplemental Enhancement Information, SEI）メッセージ）又は映像ユーザビリティ情報（Video
Usability Information, VUI）パラメータセットの断片（描かれていない）の形式であり得る。解析器（420）は、受信された符号化された映像シーケンスを解析／エントロピーデコードし得る。符号化された映像シーケンスの符号化は、動画符号化及び復号技術又は規格によることが可能であり、可変長符号化、ハフマン符号化、文脈依存の又は文脈依存でない算術符号化などを含むさまざまな原理に従うことが可能である。解析器（420）は、ビデオデコーダにおいてピクセルのサブグループの少なくとも1つについての一式のサブグループパラメータを、グループに対応する少なくとも1つのパラメータに基づいて、符号化された映像シーケンスから抽出し得る。サブグループは、ピクチャグループ（Group of Pictures, GOP）、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット（Coding Unit, CU）、ブロック、変換ユニット（Transform Unit, TU）、予測ユニット（Prediction Unit, PU）などを含むことが可能である。解析器（420）は、符号化された映像シーケンスから、変換係数、量子化器パラメータ値、動きベクトル、などのような情報も抽出し得る。

解析器（420）は、シンボル（421）を生成するために、バッファメモリ（415）から受信された映像シーケンスに対してエントロピーデコード／解析動作を実行し得る。

シンボル（421）の再構成は、符号化された映像ピクチャ又はその部分のタイプ（インターピクチャ及びイントラピクチャ、インターブロック及びイントラブロックのような）、及び他の因子に応じて、複数の異なるユニットを関与させることが可能である。どのユニットが、及びどのように関与するかは、符号化された映像シーケンスから解析器（420）によって解析されたサブグループ制御情報によって制御されることが可能である。解析器（420）と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明確さのために描かれていない。

既に述べられた機能ブロックを越えて、ビデオデコーダ（410）は、以下で説明されるように、いくつかの機能ユニットに概念的に細分化されることが可能である。商業的制約のもとで動作する実践的な実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的には互いに統合されることが可能である。しかしながら、開示される対象事項を説明する目的ために、以下の機能ユニットへの概念的な細分化が適切である。

第1のユニットは、スケーラ／逆変換ユニット（451）である。スケーラ／逆変換ユニット（451）は、量子化された変換係数、及び、どの変換を使用するのか、ブロックサイズ、量子化因子、量子化スケーリングマトリックス、などを含む制御情報を、解析器（420）からシンボル（421）として受信する。スケーラ／逆変換ユニット（451）は、アグリゲータ（455）に入力されることが可能であるサンプル値を含むブロックを出力することが可能である。

ある場合には、スケーラ／逆変換（451）の出力サンプルは、イントラ符号化されたブロック、すなわち、前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの、前に再構成された部分からの予測情報を使用することが可能であるブロックに関係することが可能である。そのような予測情報は、イントラピクチャ予測ユニット（452）によって提供されることが可能である。ある場合には、イントラピクチャ予測ユニット（452）は、現在のピクチャバッファ（458）からフェッチされた、周囲の既に再構成された情報を使用して、再構成中のブロックと同じサイズ及び形状のブロックを生成する。現在のピクチャバッファ（458）は、たとえば、部分的に再構成された現在のピクチャ及び／又は完全に再構成された現在のピクチャをバッファリングする。アグリゲータ（455）は、ある場合には、サンプルごとのベースで、イントラ予測ユニット（452）が生成した予測情報を、スケーラ／逆変換ユニット（451）によって提供される出力サンプル情報に加える。

他の場合には、スケーラ／逆変換ユニット（451）の出力サンプルは、インター符号化された、そして潜在的に動き補償されたブロックに関係することが可能である。そのような場合には、動き補償予測ユニット（453）は、予測に使用されるサンプルをフェッチするために、参照ピクチャメモリ（457）にアクセスすることが可能である。フェッチされたサンプルをブロックに関係するシンボル（421）に従って動き補償した後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ（455）によってスケーラ／逆変換ユニット（451）の出力に加えられることが可能である（この場合、残差サンプル又は残差信号と呼ばれる）。動き補償予測ユニット（453）が予測サンプルをフェッチする参照ピクチャメモリ（457）内のアドレスは、動きベクトルによって制御されることが可能であり、たとえば、XとYと参照ピクチャコンポーネントとを有することが可能であるシンボル（421）の形式で動き補償予測ユニット（453）に利用可能である。動き補償は、サブサンプリングの正確な動きベクトルが使用されているときの参照ピクチャメモリ（457）からフェッチされたサンプル値の補間、動きベクトル予測メカニズム、なども含むことが可能である。

アグリゲータ（455）の出力サンプルは、ループフィルタユニット（456）でさまざまなループフィルタリング手法の対象となることが可能である。映像圧縮技術は、符号化された映像シーケンス（符号化された映像ビットストリームとも称される）に含まれ、解析器（420）からのシンボル（421）としてループフィルタユニット（456）に利用可能にされた、パラメータによって制御されるが、符号化されたピクチャ又は符号化された映像シーケンスの前の（デコード順で）部分のデコード中に得られたメタ情報に応答し、かつ前に再構成されてループフィルタリングされたサンプル値に応答することも可能である、インループフィルタ技術を含めることが可能である。

ループフィルタユニット（456）の出力は、レンダリングデバイス（412）に出力され、かつ将来のインターピクチャ予測での使用のために参照ピクチャメモリ（457）に記憶されることが可能であるサンプルストリームであることが可能である。

ある符号化されたピクチャは、一旦、完全に再構成されると、将来の予測のための参照ピクチャとして使用されることが可能である。たとえば、一旦、現在のピクチャに対応する符号化されたピクチャが完全に再構成され、符号化されたピクチャが（たとえば、解析器（420）によって）参照ピクチャとして特定されると、現在のピクチャバッファ（458）は参照ピクチャメモリ（457）の一部になることが可能であり、続く符号化されたピクチャの再構成を開始する前に新しい現在のピクチャバッファが再割り当てされることが可能である。

ビデオデコーダ（410）は、ITU-T Rec.H.265のような規格における所定の映像圧縮技術に従ってデコード動作を実行し得る。符号化された映像シーケンスは、映像圧縮技術又は規格のシンタックスと、映像圧縮技術又は規格で文書化されているプロファイルとの両方を、符号化された映像シーケンスが順守するという意味において、使用されている映像圧縮技術又は規格によって指定されたシンタックスに準拠し得る。具体的には、プロファイルは、映像圧縮技術又は規格において利用可能なすべてのツールから、そのプロファイルのもとで使用のために利用可能な唯一のツールとして、あるツールを選択することが可能である。また、符号化された映像シーケンスの複雑さが、映像圧縮技術又は規格のレベルによって定義されている範囲内にあることも、順守のために必要であり得る。ある場合には、レベルが、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（たとえば、メガサンプル／秒で測定される）、最大参照ピクチャサイズなどを制限する。レベルによって設定された制限は、ある場合には、仮想参照デコーダ（Hypothetical Reference Decoder, HRD）の仕様と、符号化された映像シーケンスでシグナリングされるHRDバッファ管理のためのメタデータとを通じてさらに制限されることが可能である。

一実施形態では、受信器（431）は、エンコードされた映像と共に追加の（冗長な）データを受信し得る。追加のデータは、符号化された映像シーケンスの一部として含まれ得る。追加のデータは、データを適切にデコードするために、及び／又は元の映像データをより正確に再構成するために、ビデオデコーダ（410）によって使用され得る。追加のデータは、たとえば、時間的、空間的、又は信号ノイズ比（SNR）拡張レイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号などの形式であることが可能である。

図5は、本開示の一実施形態による、ビデオエンコーダ（503）のブロック図を表す。ビデオエンコーダ（503）は、電子デバイス（520）に含まれる。電子デバイス（520）は、送信器（540）（たとえば、送信回路）を含む。ビデオエンコーダ（503）は、図3の例におけるビデオエンコーダ（303）の場所で使用されることが可能である。

ビデオエンコーダ（503）は、ビデオエンコーダ（503）によって符号化されることになるビデオ画像をキャプチャし得る映像ソース（501）（図5の例では電子デバイス（520）の一部ではない）から映像サンプルを受信し得る。別の例では、映像ソース（501）は、電子デバイス（520）の一部である。

映像ソース（501）は、ビデオエンコーダ（503）によって符号化されることになるソース映像シーケンスを、任意の適切なビット深度（たとえば、8ビット、10ビット、12ビット、...）、任意の色空間（たとえば、BT.601 YCrCB、RGB、...）、及び任意の適切なサンプリング構造（たとえば、YCrCb 4:2:0、YCrCb 4:4:4）であることが可能である、デジタル映像サンプルストリームの形式で提供し得る。メディア供給システムでは、映像ソース（501）は、前に準備された映像を記憶する記憶デバイスであり得る。テレビ会議システムでは、映像ソース（501）は、ローカルの画像情報を映像シーケンスとしてキャプチャするカメラであり得る。映像データは、順番に見たときに動きを与える複数の個別ピクチャとして提供され得る。ピクチャそれ自体は、ピクセルの空間的配列として組織化され得、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、1つ又は複数のサンプルを含むことが可能である。この技術分野の当業者は、ピクセルとサンプルの間の関係を容易に理解することが可能である。以下の説明は、サンプルに焦点を合わせる。

一実施形態によれば、ビデオエンコーダ（503）は、リアルタイムで、又はアプリケーションによって要求される任意の他の時間制約のもとで、ソース映像シーケンスのピクチャを、符号化された映像シーケンス（543）に符号化及び圧縮し得る。適切な符号化速度を実施することは、コントローラ（550）の1つの機能である。いくつかの実施形態では、コントローラ（550）は、以下で説明されるように他の機能ユニットを制御し、他の機能ユニットに機能的に連結されている。明確さのために、連結は描かれていない。コントローラ（550）によって設定されるパラメータは、レート制御関連のパラメータ（ピクチャスキップ、量子化器、レート歪み最適化手法のラムダ値、...）、ピクチャサイズ、ピクチャグループ（group of pictures, GOP）レイアウト、最大動きベクトル探索範囲、などを含むことが可能である。コントローラ（550）は、あるシステム設計のために最適化されたビデオエンコーダ（503）に関連する他の適切な機能を有するように構成されることが可能である。

いくつかの実施形態では、ビデオエンコーダ（503）は、符号化ループで動作するように構成される。過度に単純化された説明として、一例では、符号化ループは、ソース符号化器（530）（たとえば、符号化されることになる入力ピクチャ及び参照ピクチャに基づいて、シンボルストリームのようなシンボルを生成する役割を担う）、及びビデオエンコーダ（503）に埋め込まれた（ローカルの）デコーダ（533）を含むことが可能である。デコーダ（533）は、（シンボルと符号化された映像ビットストリームとの間のいかなる圧縮も、開示された対象事項において考慮される映像圧縮技術では可逆的であるので）（リモートの）デコーダもまた生成するのと類似の方法でサンプルデータを生成するためにシンボルを再構成する。再構成されたサンプルストリーム（サンプルデータ）は、参照ピクチャメモリ（534）に入力される。シンボルストリームのデコードが、デコーダの位置（ローカル又はリモート）とは無関係に、ビットが正確な結果に導くので、参照ピクチャメモリ（534）内のコンテンツもローカルエンコーダとリモートエンコーダの間でビットが正確である。言い換えると、エンコーダの予測部分は、参照ピクチャのサンプルとして、デコーダがデコード中に予測を使用するときに「目にする」のと正確に同じサンプル値を「目にする」。参照ピクチャのこの同期性の基本原理（及び、たとえばチャネルエラーに起因して、同期性が維持されることが可能でない場合に結果として生じるドリフト）は、いくつかの関連技術でも使用される。

「ローカルの」デコーダ（533）の動作は、ビデオデコーダ（410）のような「リモートの」デコーダの動作と同じであることが可能であり、これは、図4に関連して上記で既に詳細に説明されている。しかし、図4も簡単に参照して、シンボルが利用可能であり、エントロピー符号化器（545）及び解析器（420）による、符号化された映像シーケンスへのシンボルのエンコード／デコードは可逆的であることが可能であるので、バッファメモリ（415）及び解析器（420）を含むビデオデコーダ（410）のエントロピーデコード部分は、ローカルのデコーダ（533）において完全に実現されなくてもよい。

この点においてなされることが可能である観察は、デコーダに存在する、解析／エントロピーデコード以外のいかなるデコーダ技術も、実質的に同一の機能形式で、対応するエンコーダ内に必ず存在する必要があるということである。この理由のため、開示される対象事項は、デコーダ動作に焦点を合わせる。エンコーダ技術の説明は、包括的に説明されるデコーダ技術の逆であるので、省略されることが可能である。ある領域でのみ、より詳細な説明が要求され、以下に提供される。

動作中、いくつかの例では、ソース符号化器（530）は、「参照ピクチャ」として指定された映像シーケンスからの1つ又は複数の前に符号化されたピクチャを参照して、入力ピクチャを予測的に符号化する動き補償予測符号化を実行し得る。このようにして、符号化エンジン（532）は、入力ピクチャのピクセルブロックと、入力ピクチャへの予測参照として選択され得る参照ピクチャのピクセルブロックとの間の差分を符号化する。

ローカルのビデオデコーダ（533）は、ソース符号化器（530）によって生成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャの符号化された映像データをデコードし得る。符号化エンジン（532）の動作は、好適には、不可逆的プロセスであり得る。符号化された映像データがビデオデコーダ（図5に表されていない）でデコードされ得るとき、再構成された映像シーケンスは、典型的に、いくらかの誤差を有するソース映像シーケンスの複製であり得る。ローカルのビデオデコーダ（533）は、参照ピクチャに対してビデオデコーダによって実行され得るデコードプロセスを複製し、再構成された参照ピクチャを参照ピクチャキャッシュ（534）に記憶させ得る。このようにして、ビデオエンコーダ（503）は、遠端のビデオデコーダによって得られるであろう再構成された参照ピクチャ（送信エラーなし）として、共通のコンテンツを有する再構成された参照ピクチャのコピーをローカルに記憶し得る。

予測器（535）は、符号化エンジン（532）のために予測探索を実行し得る。すなわち、符号化されることになる新しいピクチャについて、予測器（535）は、新しいピクチャについての適切な予測参照としての役割を果たし得る、サンプルデータ（候補の参照ピクセルブロックとして）、又は参照ピクチャ動きベクトル、ブロック形状などのようなあるメタデータについて参照ピクチャメモリ（534）を探索し得る。予測器（535）は、適切な予測参照を見つけるために、ピクセルブロックごとのサンプルブロックのベースで動作し得る。ある場合には、予測器（535）によって得られた探索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（534）に記憶された複数の参照ピクチャから引き出された予測参照を有し得る。

コントローラ（550）は、たとえば、映像データをエンコードするために使用されるパラメータ及びサブグループパラメータの設定を含む、ソース符号化器（530）の符号化動作を管理し得る。

前述のすべての機能ユニットの出力は、エントロピー符号化器（545）でエントロピー符号化を受け得る。エントロピー符号化器（545）は、ハフマン符号化、可変長符号化、算術符号化などのような技術に従ってシンボルを可逆的圧縮することによって、さまざまな機能ユニットによって生成されたシンボルを、符号化された映像シーケンスに変換する。

送信器（540）は、エンコードされた映像データを記憶する記憶デバイスへのハードウェア／ソフトウェアリンクであり得る通信チャネル（560）を介した送信のために準備するために、エントロピー符号化器（545）によって生成された符号化された映像シーケンスをバッファリングし得る。送信器（540）は、ビデオエンコーダ（503）からの符号化された映像データを、送信されることになる他のデータ、たとえば符号化されたオーディオデータ及び／又は補助データストリーム（ソースは表されていない）とマージし得る。

コントローラ（550）は、ビデオエンコーダ（503）の動作を管理し得る。符号化中、コントローラ（550）は、各符号化されたピクチャに、それぞれのピクチャに適用され得る符号化手法に影響し得る、ある符号化されたピクチャタイプを割り当て得る。たとえば、多くの場合、ピクチャは以下のピクチャタイプのいずれか1つとして割り当てられ得る。

イントラピクチャ（Iピクチャ）は、予測のソースとしてシーケンス内の他のいずれのピクチャも使用することなく、符号化及びデコードされ得るものである。いくつかのビデオコーデックは、たとえば、独立デコーダリフレッシュ（Independent Decoder Refresh, 「IDR」）ピクチャを含む、異なるタイプのイントラピクチャを許容している。この技術分野の当業者は、Iピクチャのそれらの変形及びそれらのそれぞれのアプリケーション及び特徴を知っている。

予測ピクチャ（Pピクチャ）は、各ブロックのサンプル値を予測するために最大で1つの動きベクトルと参照インデックスを使用するイントラ予測又はインター予測を使用して符号化及びデコードされ得るものであり得る。

双方向予測ピクチャ（Bピクチャ）は、各ブロックのサンプル値を予測するために、最大で2つの動きベクトルと参照インデックスを使用するイントラ予測又はインター予測を使用して符号化及びデコードされ得るものであり得る。同様に、マルチ予測ピクチャは、単一のブロックの再構成のために、2つより多くの参照ピクチャと、関連付けられたメタデータとを使用することが可能である。

ソースピクチャは、一般に、複数のサンプルブロック（たとえば、それぞれ4×4、8×8、4×8、又は16×16サンプルのブロック）に空間的に細分化され、ブロックごとのベースで符号化され得る。ブロックは、ブロックのそれぞれのピクチャに適用される符号化割当てによって決定されるように、他の（既に符号化された）ブロックを参照して、予測的に符号化され得る。たとえば、Iピクチャのブロックは、非予測的に符号化されてもよく、又はそれらは同じピクチャの既に符号化されたブロックを参照して、予測的に符号化されてもよい（空間予測又はイントラ予測）。Pピクチャのピクセルブロックは、1つの前に符号化された参照ピクチャを参照して、空間予測を介して又は時間予測を介して予測的に符号化され得る。Bピクチャのブロックは、1つ又は2つの前に符号化された参照ピクチャを参照して、空間予測を介して又は時間予測を介して予測的に符号化され得る。

ビデオエンコーダ（503）は、ITU-T Rec.H.265のような所定の動画符号化及び復号技術又は規格に従って符号化動作を実行し得る。その動作において、ビデオエンコーダ（503）は、入力映像シーケンス内の時間的及び空間的冗長性を利用する予測符号化動作を含む、さまざまな圧縮動作を実行し得る。したがって、符号化された映像データは、使用されている動画符号化及び復号技術又は規格において指定されたシンタックスに準拠し得る。

一実施形態では、送信器（540）は、エンコードされた映像と共に追加のデータを送信し得る。ソース符号化器（530）は、そのようなデータを、符号化された映像シーケンスの一部として含め得る。追加のデータは、時間／空間／SNR拡張レイヤ、冗長なピクチャ及びスライスのような他の形式の冗長データ、SEIメッセージ、VUIパラメータセットの断片などを含み得る。

映像は、時間シーケンスで、複数のソースピクチャ（映像ピクチャ）としてキャプチャされ得る。イントラピクチャ予測（多くの場合、イントラ予測と略される）は、所与のピクチャ内の空間的相関を利用し、インターピクチャ予測は、ピクチャ間の（時間的又は他の）相関を利用する。一例では、現在のピクチャと称される、エンコード／デコード中の特定のピクチャがブロックに区分される。現在のピクチャ内のブロックが、前に符号化されてまだバッファリングされている、映像内の参照ピクチャ内の参照ブロックに類似しているとき、現在のピクチャ内のブロックは、動きベクトルと称されるベクトルによって符号化されることが可能である。動きベクトルは、参照ピクチャ内の参照ブロックを指し示し、複数の参照ピクチャが使用されている場合、参照ピクチャを特定する第3の次元を有することが可能である。

いくつかの実施形態では、インターピクチャ予測において双予測手法が使用されることが可能である。双予測手法によれば、映像内の現在のピクチャに対してデコード順で両方とも前である（が、表示順でそれぞれ過去及び将来であり得る）第1の参照ピクチャ及び第2の参照ピクチャのような2つの参照ピクチャが使用される。現在のピクチャ内のブロックは、第1の参照ピクチャ内の第1の参照ブロックを指し示す第1の動きベクトル、及び第2の参照ピクチャ内の第2の参照ブロックを指し示す第2の動きベクトルによって符号化されることが可能である。ブロックは、第1の参照ブロックと第2の参照ブロックの組み合わせによって予測されることが可能である。

さらに、符号化効率を改善するために、インターピクチャ予測においてマージモード手法が使用されることが可能である。

開示のいくつかの実施形態によれば、インターピクチャ予測及びイントラピクチャ予測のような予測は、ブロック単位で実行される。たとえば、HEVC規格に従って、映像ピクチャのシーケンス内のピクチャは、圧縮のために符号化ツリーユニット（coding tree unit, CTU）に区分され、ピクチャ内のCTUは、64×64ピクセル、32×32ピクセル、又は16×16ピクセルのような同じサイズを有する。一般に、CTUは、1つのルーマCTBと2つのクローマCTBとである3つの符号化ツリーブロック（CTB）を含む。各CTUは、1つ又は複数の符号化ユニット（CU）に再帰的に四分木分割されることが可能である。たとえば、64×64ピクセルのCTUは、64x64ピクセルの1つのCU、又は32×32ピクセルの4つのCU、又は16×16ピクセルの16個のCUに分割されることが可能である。一例では、各CUは、インター予測タイプ又はイントラ予測タイプのようなCUについての予測タイプを決定するために解析される。CUは、時間的及び／又は空間的予測可能性に応じて、1つ又は複数の予測ユニット（PU）に分割される。一般に、各PUは、1つのルーマ予測ブロック（PB）、及び2つのクローマPBを含む。一実施形態では、符号化（エンコード／デコード）における予測動作は、予測ブロック単位で実行される。ルーマ予測ブロックを予測ブロックの例として使用して、予測ブロックは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセルなどのようなピクセルの値（たとえばルーマ値）のマトリックスを含む。

図6は、開示の別の実施形態によるビデオエンコーダ（603）の図を表す。ビデオエンコーダ（603）は、映像ピクチャのシーケンス内の現在の映像ピクチャ内のサンプル値の処理ブロック（たとえば、予測ブロック）を受信し、その処理ブロックを、符号化された映像シーケンスの一部である符号化されたピクチャにエンコードする、ように構成される。一例では、ビデオエンコーダ（603）は、図3の例におけるビデオエンコーダ（303）の場所で使用される。

HEVCの例では、ビデオエンコーダ（603）は、8×8サンプルなどの予測ブロックのような処理ブロックのサンプル値のマトリックスを受信する。ビデオエンコーダ（603）は、処理ブロックが、たとえばレート歪み最適化を使用して、イントラモードを使用して最良に符号化されるのか、インターモードを使用して最良に符号化されるのか、あるいは双予測モードを使用して最良に符号化されるのかを決定する。処理ブロックがイントラモードで符号化されることになるとき、ビデオエンコーダ（603）は、イントラ予測手法を使用して、処理ブロックを、符号化されたピクチャにエンコードし得、処理ブロックがインターモード又は双予測モードで符号化されることになるとき、ビデオエンコーダ（603）は、それぞれインター予測又は双予測手法を使用して、処理ブロックを、符号化されたピクチャにエンコードし得る。ある動画符号化及び復号技術では、マージモードがインターピクチャ予測サブモードであることが可能であり、動きベクトルは、予測子の外部で、符号化された動きベクトルコンポーネントの恩恵なしに、1つ又は複数の動きベクトル予測子から導出される。ある他の動画符号化及び復号技術では、対象ブロックに適用可能な動きベクトルコンポーネントが存在し得る。一例では、ビデオエンコーダ（603）は、処理ブロックのモードを決定するためのモード決定モジュール（表されていない）のような他のコンポーネントを含む。

図6の例では、ビデオエンコーダ（603）は、図6に表されるように一緒に連結されたインターエンコーダ（630）、イントラエンコーダ（622）、残差計算器（623）、スイッチ（626）、残差エンコーダ（624）、統括コントローラ（621）、及びエントロピーエンコーダ（625）を含む。

インターエンコーダ（630）は、現在のブロック（たとえば、処理ブロック）のサンプルを受信し、そのブロックを参照ピクチャ内の1つ又は複数の参照ブロック（たとえば、前のピクチャ及び後のピクチャ内のブロック）と比較し、インター予測情報（たとえば、インターエンコード手法に従った冗長情報の記述、動きベクトル、マージモード情報）を生成し、任意の適切な手法を使用してインター予測情報に基づいてインター予測結果（たとえば予測ブロック）を計算するように構成される。いくつかの例では、参照ピクチャは、エンコードされた映像情報に基づいてデコードされるデコードされた参照ピクチャである。

イントラエンコーダ（622）は、現在のブロック（たとえば、処理ブロック）のサンプルを受信し、ある場合には、そのブロックを同じピクチャ内で既に符号化されたブロックと比較し、変換後の量子化された係数、及びある場合には、イントラ予測情報（たとえば、1つ又は複数のイントラエンコード手法に従ったイントラ予測方向情報）も生成するように構成される。一例では、イントラエンコーダ（622）は、同じピクチャ内のイントラ予測情報及び参照ブロックに基づいて、イントラ予測結果（たとえば、予測ブロック）も計算する。

統括コントローラ（621）は、統括制御データを決定し、統括制御データに基づいてビデオエンコーダ（603）の他のコンポーネントを制御するように構成される。一例では、統括コントローラ（621）は、ブロックのモードを決定し、そのモードに基づいてスイッチ（626）に制御信号を提供する。たとえば、モードがイントラモードであるとき、統括コントローラ（621）は、残差計算器（623）による使用のためにイントラモードの結果を選択するようにスイッチ（626）を制御し、イントラ予測情報を選択してビットストリームにイントラ予測情報を含めるようにエントロピーエンコーダ（625）を制御し、モードがインターモードであるとき、統括コントローラ（621）は、残差計算器（623）による使用のためにインター予測結果を選択するようにスイッチ（626）を制御し、インター予測情報を選択してビットストリームにインター予測情報を含めるようにエントロピーエンコーダ（625）を制御する。

残差計算器（623）は、受信されたブロックと、イントラエンコーダ（622）又はインターエンコーダ（630）から選択された予測結果との間の差分（残差データ）を計算するように構成される。残差エンコーダ（624）は、変換係数を生成するために残差データをエンコードするために、残差データに基づいて動作するように構成される。一例では、残差エンコーダ（624）は、残差データを周波数領域に変換し、変換係数を生成するように構成される。次いで、変換係数は、量子化された変換係数を得るために量子化処理を受ける。さまざまな実施形態では、ビデオエンコーダ（603）は、残差デコーダ（628）も含む。残差デコーダ（628）は、逆変換を実行し、デコードされた残差データを生成するように構成される。デコードされた残差データは、イントラエンコーダ（622）及びインターエンコーダ（630）によって適切に使用されることが可能である。たとえば、インターエンコーダ（630）は、デコードされた残差データ及びインター予測情報に基づいて、デコードされたブロックを生成することが可能であり、イントラエンコーダ（622）は、デコードされた残差データ及びイントラ予測情報に基づいて、デコードされたブロックを生成することが可能である。デコードされたブロックは、デコードされたピクチャを生成するために適切に処理され、いくつかの例では、デコードされたピクチャは、メモリ回路（表されていない）にバッファリングされ、参照ピクチャとして使用されることが可能である。

エントロピーエンコーダ（625）は、エンコードされたブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ（625）は、HEVC規格のような適切な規格に従ってさまざまな情報を含むように構成される。一例では、エントロピーエンコーダ（625）は、統括制御データ、選択された予測情報（たとえば、イントラ予測情報又はインター予測情報）、残差情報、及び他の適切な情報をビットストリーム内に含むように構成される。開示される対象事項によれば、インターモード又は双予測モードのいずれかのマージサブモードでブロックを符号化するとき、残差情報がないことに留意されたい。

図7は、開示の別の実施形態によるビデオデコーダ（710）の図を表す。ビデオデコーダ（710）は、符号化された映像シーケンスの一部である符号化されたピクチャを受信し、再構成されたピクチャを生成するためにその符号化されたピクチャをデコードするように構成される。一例では、ビデオデコーダ（710）は、図3の例におけるビデオデコーダ（310）の場所で使用される。

図7の例では、ビデオデコーダ（710）は、図7に表されるように、一緒に連結された、エントロピーデコーダ（771）、インターデコーダ（780）、残差デコーダ（773）、再構成モジュール（774）、及びイントラデコーダ（772）を含む。

エントロピーデコーダ（771）は、符号化されたピクチャから、符号化されたピクチャが構成されているシンタックス要素を表現する、あるシンボルを再構成するように構成されることが可能である。そのようなシンボルは、たとえば、ブロックが符号化されるモード（たとえば、イントラモード、インターモード、双予測モード、マージサブモード又は別のサブモードにおける後者2つのような）、イントラデコーダ（772）又はインターデコーダ（780）によってそれぞれ予測に使用されるあるサンプル又はメタデータを特定することが可能である予測情報（たとえば、イントラ予測情報又はインター予測情報のような）、たとえば、量子化された変換係数の形式の残差情報などを含むことが可能である。一例では、予測モードがインター予測モード又は双予測モードであるとき、インター予測情報がインターデコーダ（780）に提供され、予測タイプがイントラ予測タイプであるとき、イントラ予測情報がイントラデコーダ（772）に提供される。残差情報は逆量子化を受けることが可能であり、残差デコーダ（773）に提供される。

インターデコーダ（780）は、インター予測情報を受信し、そのインター予測情報に基づいてインター予測結果を生成するように構成される。

イントラデコーダ（772）は、イントラ予測情報を受信し、そのイントラ予測情報に基づいて予測結果を生成するように構成される。

残差デコーダ（773）は、量子化解除された変換係数を抽出するために逆量子化を実行し、残差を周波数領域から空間領域に変換するために、その量子化解除された変換係数を処理するように構成される。残差デコーダ（773）は、（量子化器パラメータ（Quantizer Parameter, QP）を含むために）ある制御情報も要求し得、その情報は、エントロピーデコーダ（771）によって提供され得る（少量の制御情報のみであり得るので、データパスは描かれていない）。

再構成されたピクチャの一部となり得、そしてそれが、再構成された映像の一部となり得る再構成されたブロックを形成するために、再構成モジュール（774）は、空間領域において、残差デコーダ（773）による出力としての残差と、（場合に応じてインター予測モジュール又はイントラ予測モジュールによる出力としての）予測結果とを組み合わせるように構成される。なお、視覚的品質を改善するために、デブロッキング演算のような他の適切な動作が実行されることが可能であることが留意される。

ビデオエンコーダ（303）、（503）、及び（603）、並びにビデオデコーダ（310）、（410）、及び（710）は、任意の適切な手法を使用して実現されることが可能であることが留意される。一実施形態では、ビデオエンコーダ（303）、（503）、及び（603）、並びにビデオデコーダ（310）、（410）、及び（710）は、1つ又は複数の集積回路を使用して実現されることが可能である。別の実施形態では、ビデオエンコーダ（303）、（503）、及び（503）、並びにビデオデコーダ（310）、（410）、及び（710）は、ソフトウェア命令を実行する1つ又は複数のプロセッサを使用して実現されることが可能である。

開示の態様は、予測オフセットを用いてアフィン動き補償を簡略化する手法を提供する。

一般に、ブロックの動きベクトルは、差分を動きベクトル予測子にシグナリングするように、明示的な方法（たとえば、高度動きベクトル予測又はAMVPモード）で、あるいは、前に符号化又は生成された1つの動きベクトルから完全に示されるように、黙示的な方法で、のいずれかで符号化されることが可能である。後者はマージモードと称され、現在のブロックがその動き情報を使用して、前に符号化されたブロックにマージされることを意味する。

AMVPモード及びマージモードの両方は、デコード中に候補リストを構築する。

図８はいくつかの例における空間的及び時間的候補の例を表す。

インター予測におけるマージモードについて、候補リスト内のマージ候補は、現在のブロックの空間的又は時間的に近隣のブロックのいずれかからの動き情報をチェックすることによって主に形成される。図8の例では、候補ブロックA1、B1、B0、A0及びB2が順次チェックされる。候補ブロックのいずれかが有効な候補である、たとえば、動きベクトルで符号化されるとき、有効な候補ブロックの動き情報がマージ候補リストに追加されることが可能である。重複する候補がリストに再度入れられないことを確実にするために、何らかのプルーニング動作が実行される。候補ブロックA1、B1、B0、A0及びB2は、現在のブロックのコーナーに隣接し、コーナー候補と称される。

空間的候補の後、時間的候補もリストの中にチェックされる。いくつかの例では、指定された参照ピクチャ内に現在のブロックの同一位置ブロックが見出される。同一位置ブロックのC0位置（現在のブロックの右下コーナー）の動き情報が、時間的マージ候補として使用される。この位置のブロックがインターモードで符号化されていないか又は利用可能でない場合、代わりに（同一位置ブロックの中心の外側右下コーナーにおける）C1位置が使用される。本開示は、マージモードをさらに改善するための手法を提供する。

HEVCにおける高度動きベクトル予測（AMVP）モードは、予測残差がさらに符号化される一方で、現在のブロックの動き情報を予測するために、空間的及び時間的に近隣のブロックの動き情報を使用することを指す。空間的及び時間的に近隣の候補の例も図8に表される。

いくつかの実施形態では、AMVPモードでは、2候補の動きベクトル予測子リストが形成される。たとえば、リストは、第1の候補予測子及び第2の候補予測子を含む。第1の候補予測子は、空間的A0位置、A1位置の順で、左端からの最初の利用可能な動きベクトルからのものである。第2の候補予測子は、空間的B0位置、B1位置、及びB2位置の順で、上端から最初の利用可能な動きベクトルからのものである。左端又は上端のいずれについても、チェックされた位置から有効な動きベクトルが見出されることが可能でない場合、候補がリスト内に埋められない。2つの候補が利用可能で同じ場合、1つだけがリスト内に保持される。リストが（2つの異なる候補で）満たされていない場合、C0位置からの（スケーリング後の）時間的な同一位置動きベクトルが別の候補として使用される。C0位置における動き情報が利用可能でない場合、代わりに位置C1が使用される。

いくつかの例では、まだ十分な動きベクトル予測子候補がない場合、ゼロ動きベクトルがリストを埋めるために使用される。

いくつかの実施形態では、既存のマージ候補に加えて予測オフセットがシグナリングされることが可能である。たとえば、究極動きベクトル表記（ultimate motion vector expression, UMVE）と称される手法は、既存のマージ候補に加えてのオフセット（大きさと方向の両方）がシグナリングされる特別なマージモードを使用する。この手法では、予測方向IDX、ベース候補IDX、距離IDX、探索方向IDXなどのようないくつかのシンタックス要素が、そのようなオフセットを記述するためにシグナリングされる。たとえば、予測方向IDXは、予測方向（時間的予測方向、たとえば、L0参照方向、L1参照方向、又はL0及びL1参照方向）のどれがUMVEモードのために使用されるのかを示すために使用される。ベース候補IDXは、既存のマージ候補のどれがオフセットを適用するための開始点（ベースにされる候補）として使用されるかを示すために使用される。距離IDXは、オフセットが開始点からどれだけ大きいか示すために使用される（x方向又はy方向に沿うが、両方ではない）。オフセットの大きさは、固定数の選択肢から選択される。探索方向IDXは、オフセットを適用する方向（x又はy、＋又は−方向）を示すために使用される。

一例において、開始点MVがMV_Sであり、オフセットがMV_offsetであると仮定する。そのとき、最終的なMV予測子はMV_final＝MV_S＋MV_offsetとなる。

図９は開示の一実施形態による、UMVEについての例を表す。一例では、図9において、開始点MVは（たとえば予測方向IDX及びベース候補IDXに従って）（911）によって表され、オフセットは（たとえば距離IDX及び探索方向IDXに従って）（912）によって表され、最終的なMV予測子は（913）によって表される。別の例では、図9において、開始点MVは（たとえば予測方向IDX及びベース候補IDXに従って）（921）によって表され、オフセットは（たとえば距離IDX及び探索方向IDXに従って）（922）によって表され、最終的なMV予測子は923によって表される。

図１０は開示の一実施形態による、UMVEについての例を表す。たとえば、開始点MVは（たとえば、予測方向IDX及びベース候補IDXに従って）（1011）によって表される。図10の例では、＋Y、−Y、＋X、及び−Xのような4つの探索方向が使用され、その4つの探索方向は、0、1、2、3によってインデックスされることが可能である。距離は、0（開始点MVまで距離0）、1（開始点MVまで1s）、2（開始点MVまで2s）、3（開始点まで3s）などによってインデックスされることが可能である。したがって、探索方向IDXが3であり、距離IDXが2であるとき、最終的なMV予測子は1015として表される。

別の例では、インデックスするために探索方向と距離とが組み合わされることが可能である。たとえば、開始点MVは、（たとえば、予測方向IDX及びベース候補IDXに従って）（1021）によって表される。探索方向と距離とが組み合わされ、図10に表されるように、0〜12によってインデックスされる。

開示の一態様によれば、符号化ブロックのための6パラメータ（又は簡略化された4パラメータ）のアフィンモデルを記述することによって、アフィン動き補償は、現在のブロック内のサンプルについての動き情報を効率的に予測することが可能である。より具体的には、アフィン符号化又は記述された符号化ブロックでは、サンプルの異なる部分が異なる動きベクトルを有することが可能である。アフィン符号化又は記述されたブロックにおいて動きベクトルを有するための基本ユニットは、サブブロックと称される。サブブロックのサイズは、1サンプルのみと同じくらい小さいことが可能であり、現在のブロックのサイズと同じくらい大きいことが可能である。

アフィンモードが決定されたとき、現在のブロック内の各サンプルについて、そのようなモデル（たとえば、6パラメータのアフィン動きモデル又は4パラメータのアフィン動きモデル）を使用して、（ターゲットの参照ピクチャに対する）その動きベクトルが導出されることが可能である。実現の複雑さを低減するために、アフィン動き補償は、サンプルベースの代わりに、サブブロックベースで実行される。それは、各サブブロックがその動きベクトルを導出し、各サブブロック内のサンプルについて、動きベクトルは同じであることを意味する。サブブロックの左上又は中央の点のような、各サブブロックの特定の位置が、代表的な位置であると仮定される。一例では、そのようなサブブロックサイズは4×4サンプルを含む。

一般に、アフィン動きモデルは、ブロックの動き情報を記述するために6つのパラメータを有する。アフィン変換後、矩形のブロックは平行四辺形になる。一例では、アフィン符号化されたブロックの6つのパラメータは、ブロックの3つの異なる位置における3つの動きベクトルによって表現されることが可能である。

図11は、アフィン動きモデルを有するブロック（1100）の例を表す。ブロック（1100）は、ブロック（1100）のために使用されるアフィン動きモデルの動き情報を記述するために、3つのコーナー位置A、B、及びCにおける動きベクトル

を使用する。これらの位置A、B、及びCは、制御点と称される。

簡略化された例では、アフィン動きモデルは、アフィン変換後にブロックの形状が変化しないという仮定に基づいて、ブロックの動き情報を記述するために、4つのパラメータを使用する。したがって、矩形のブロックは、変換後も矩形で同じアスペクト比（たとえば、高さ／幅）のままになる。そのようなブロックのアフィン動きモデルは、コーナー位置A及びBなどの2つの異なる位置における2つの動きベクトルによって表現されることが可能である。

図12は、（6パラメータのアフィンモデルを使用する）6パラメータアフィンモード及び（4パラメータのアフィンモデルを使用する）4パラメータアフィンモードについてのアフィン変換の例を表す。

一例では、オブジェクトがズーム及び並進の動きのみを有するか、又はオブジェクトが回転及び並進のモデルのみを有するような仮定がなされるとき、アフィン動きモデルは、並進部分を示すための2パラメータ、及びズームのためのスケーリングファクタ又は回転のための角度因子のいずれかを示すための1つのパラメータを有する、3パラメータアフィン動きモデルにさらに簡略化されることが可能である。

開示の一態様によれば、アフィン動き補償が使用されるとき、2つのシグナリング手法が使用されることが可能である。2つのシグナリング手法は、マージモードベースのシグナリング手法及び残差（AMVP）モードベースのシグナリング手法と称される。

マージモードベースのシグナリング手法について、現在のブロックのアフィン情報は、前にアフィン符号化されたブロックから予測される。1つの方法では、現在のブロックの制御点におけるMVが参照ブロックのモデルから導出されることが可能であるように、現在のブロックは参照ブロックと同じアフィンオブジェクト内にあると仮定される。現在のブロックの他の位置におけるMVは、参照ブロックにおける1つの制御点から別の制御点までと同じ方法で単に線形的に修正される。この方法は、モデルベースのアフィン予測と称される。別の方法では、近隣のブロックの動きベクトルが、現在のブロックの制御点における動きベクトルとしてそのまま使用される。次いで、制御点からの情報を使用して、ブロックの残りにおける動きベクトルが生成される。この方法は、制御点ベースのアフィン予測と称される。いずれの方法でも、現在のブロックにおけるMVの残差コンポーネントはシグナリングされないことになる。言い換えると、MVの残差コンポーネントはゼロと仮定される。

残差（AMVP）モードベースのシグナリング手法について、アフィンパラメータ、又は現在のブロックの制御点におけるMVが予測されることになる。予測されることになる1つより多くの動きベクトルがあるので、すべての制御点における動きベクトルについての候補リストは、リスト内の各候補がすべての制御点についての一式の動きベクトル予測子を含むように、グループ化された方法で組織化される。たとえば、候補1＝｛制御点Aについての予測子，制御点Bについての予測子，制御点Cについての予測子｝、候補2＝｛制御点Aについての予測子，制御点Bについての予測子，制御点Cについての予測子｝などである。異なる候補内の同じ制御点についての予測子は、同じである、又は異なることが可能である。動きベクトル予測子フラグ（リスト0についてのmvp_l0_flag、又はリスト1についてのmvp_l1_flag）が、リストからどの候補が選択されるかを示すために使用される。予測後、パラメータの残差部分、又は制御点におけるMV予測子に対する実際のMVの差分がシグナリングされることになる。各制御点におけるMV予測子は、マージモードベースのシグナリング手法についての上記の記述から説明される方法を使用して、その近隣の1つからのモデルベースのアフィン予測によってもたらされることも可能である。

いくつかの関連する方法では、ブロックについてのアフィンパラメータは、近隣のブロックのアフィンモデル又は制御点のMV予測子から、又は制御点におけるMVの差分の明示的なシグナリングから、のいずれかから純粋に導出されることが可能である。しかし、多くの場合、アフィンパラメータの非並進部分はゼロにたいへん近い。アフィンパラメータをシグナリングするために制限のないMV差分符号化を使用することは、冗長性を有する。

開示の態様は、アフィン動きパラメータをよりよく表現し、したがって、アフィン動き補償の符号化効率を改善するために新しい手法を提供する。より具体的には、より効率的な方法でアフィンモデルパラメータを予測するために、ブロックの並進パラメータは、普通のインター予測符号化されたブロックのためと同じ方法又は同様の方法で、動きベクトル予測を使用して表現される。たとえば、並進パラメータはマージ候補から示されることが可能である。非並進部分については、回転パラメータ及びズームパラメータのようないくつかの典型的に使用されるパラメータが、一式の固定されたオフセット値を用いて事前に決定される。これらの値は、デフォルト値を中心としたいくらかの微調整又はオフセットとして考慮される。エンコーダは、これらの値から最良の選択肢を評価し、選択のインデックスをデコーダにシグナリングすることが可能である。次いで、デコーダは、1）デコードされた並進動きベクトル、及び、2）選択された非並進パラメータのインデックス、を使用してアフィンモデルパラメータを復元する。

以下の説明では、一例として4パラメータのアフィンモデルが使用され、以下の説明で説明される方法は、他の動きモデル、又は6パラメータのアフィンモデルなどのような異なる数のパラメータを有するアフィンモデルにも拡張されることが可能である。以下の説明のいくつかでは、使用されるモデルは必ずしもアフィンモデルでなくてもよく、おそらく他のタイプの動きモデルであってもよい。

一例では、式1

によって表されるような4パラメータのアフィンモデルが説明され、ρはズームのためのスケーリングファクタ、θは回転のための角度因子、（c，f）は並進の動きを記述する動きベクトルである。（x，y）は現在のピクチャ内のピクセル位置であり、（x’，y’）は参照ピクチャ内の対応するピクセル位置である。

一実施形態では、アフィンモデルの並進部分を表現するために動きベクトル予測子（MVP）が使用される。たとえば、MVP＝（c，f）である。MVPは、既存の普通の（非サブブロックベースの）マージ候補の1つから導出されることが可能である。一例では、MVPは、AMVPモードでシグナリングされることも可能である。マージ候補が双予測である場合、この候補についての1つのペア内のMVの1つが、並進パラメータ予測についてのMVPとして使用され得る。

アフィンモデルの非並進部分については、ρ＝1かつθ＝0のとき、アフィンモデルは並進の動きモデルに戻る。ρ＝1はスケーリングファクタについてのデフォルト値として考慮され、θ＝0は角度因子についてのデフォルト値として考慮される。

開示の一態様によれば、インデックスとデフォルト値を中心としたオフセット値（又はデルタ値）とのマッピングが事前定義され、エンコーダ側及びデコーダ側において知られている。したがって、エンコーダ側において、エンコーダはオフセット値を決定することが可能であり、次いで、マッピングに従ってオフセット値に対応するインデックスをシグナリングすることが可能である。デコーダ側において、デコーダは符号化された映像ストリームからインデックスをデコードし、マッピングに従って、デコードされたインデックスに対して、対応するオフセット値を決定することが可能である。さらに、デコーダは、アフィンモデルパラメータについてのデフォルト値及び決定されたオフセット値に基づいてアフィンモデルパラメータを決定することが可能である。

いくつかの実施形態では、インデックスとアフィンパラメータのオフセット値とのマッピングは、インデックスとアフィンパラメータの値とのマッピングの形式で表現されることが可能であることが留意される。さらに、いくつかの実施形態では、インデックスとアフィンパラメータのオフセット値とのマッピングは、インデックスとアフィンパラメータの計算された関数値とのマッピングの形式で表現されることが可能である。

いくつかの例では、現在のブロックにおいて使用される実際のアフィンモデルを近似するために、アフィンモデルパラメータのデフォルト値（たとえば、ρ＝1及びθ＝0）を中心とした一式の事前定義されたデルタ値が使用される。デルタ値の数が限定されているので、この手法は、アフィンパラメータをシグナリングする量子化されたバージョンと見なされることが可能である。以下は、ρおよびθの値を指定するためのいくつかの例である。例では、idx_ρはρのデフォルト値（たとえば、ρ＝1）に対するオフセット値についてのインデックスを示し、idx_θはθのデフォルト値（たとえば、θ＝0）に対するオフセット値についてのインデックスを示す。idx_ρ及びidx_θが0であるとき、アフィンモデルは並進モデルである。idx_ρ及びidx_θがゼロでないとき、デフォルト値からの小さな変動がアフィンモデルパラメータ予測において使用される。

一例では、スケーリングパラメータを決定するためにnがプリセットされてシグナリングされる。idx_ρとρとのマッピングは、表1に従って定義されることが可能である。

nのシグナリングは、ブロックレベル、CTUレベル、スライス／ピクチャレベル、又はシーケンスレベルで行われることが可能である。たとえば、nは1／16であることが可能である。

表2は、idx_ρとρとの別のマッピング例を表している。

別の例では、sinθ及び(cosθ)^2へのidx_θのマッピングが、表3に従って定義される。

別の例では、角度パラメータを決定するためにαがプリセットされてシグナリングされる。idx_θとθとのマッピングは、表4に従って定義されることが可能である。

αのシグナリングは、ブロックレベル、CTUレベル、スライス／ピクチャレベル、又はシーケンスレベルで行われることが可能である。

表5は、idx_θとθとの別のマッピング例を表している。

上記の例では、インデックスの2値化は以下の方法で構成されることが可能であり、すなわち、インデックスが0であるか否かをシグナリングするために1ビットが使用される。0である場合、追加のビットは必要とされない。0でない場合、一実施形態では、トランケーテッドバイナリ、指数ゴロム符号などのような可変長符号化が、1から8のインデックスに適用される。別の実施形態では、0でない場合、1から8のインデックスをシグナリングするために固定長符号化が使用される。

デルタ値の可能な数は8に限定されない。4、16などのような他の適切な値が使用されることが可能であることが留意される。

いくつかの実施形態では、アフィンモデルは、モデルベースの予測又はコーナー制御点ベースの予測のいずれかによって、2つ又は3つのコーナーにおける制御点MVを使用して予測される。エンコーダ側において、2つ又は3つの制御点についての動きベクトル予測の後、これらの制御点のMV差分が決定され、シグナリングされる。次いで、デコーダ側はMV差分をデコードし、動きベクトル予測を実行して、制御点におけるMVを決定することが可能である。

上記のマッピング例と同様に、MV差分を表現するために一式の事前定義されたデルタ値が使用される。一実施形態では、MVD（動きベクトル差分）がゼロであるのか、あるいは本開示に従ってシグナリングされるのかを示すために、使用フラグが最初にシグナリングされる。一例では、本開示に従ってMVDがシグナリングされるとき、MV差分は、x方向又はy方向であるが両方ではないと仮定される。この場合、各MVDについて、このMVDを表現するために方向インデックスと距離インデックスの組み合わせが使用されることが可能である。表6は、方向に対する方向インデックス（方向IDX）のマッピング例を表し、表7は、ピクセルに関する距離に対する距離インデックス（距離IDX）のマッピング例を表す。方向インデックスは、開始点（MV予測子）に対するMVDの方向を表現する。

別の例では、MV差分の方向は、x方向のみ、y方向のみ、及び対角線方向（たとえば、45°、135°、225°、及び315°）を含む。表8は、方向に対する方向インデックス（方向IDX）のマッピング例を表す。

表8では、8方向のそれぞれについて、距離インデックスから決定された値が、非ゼロであるx及びy方向のそれぞれに適用される。たとえば、距離インデックスが2であり、方向インデックスが3（バイナリで011）であるとき、開始点MVから、−x方向に1ピクセルのオフセットが適用され、−y方向に1ピクセルのオフセットが適用される。別の例では、距離インデックスが2であり、方向インデックスが2（バイナリで010）であるとき、開始点MVから−y方向に1ピクセルのオフセットが適用される。

一実施形態では、上記の近似は、アフィンモードのあらゆるMV差分について行われる。

別の実施形態では、第1の制御点についてのMV差分の符号化の後、他のMVDについてMVD符号化を実行する前に、他の制御点についての他のMV差分を予測するために第1の制御点についてのMV差分が使用される。これはMVD予測と称される。たとえば、第2の制御点についてのMVD予測の後、第2の制御点のMVD予測誤差は、この開示において提案される方法を使用して符号化される、すなわち、実際の値を近似するために事前定義された一式の値を使用することになる。

図13は、開示の一実施形態による、プロセス（1300）を概説するフローチャートを表す。プロセス（1300）は、再構成中のブロックについての予測ブロックを生成するために、イントラモードで符号化されたブロックの再構成において使用されることが可能である。さまざまな実施形態では、プロセス（1300）は、端末デバイス（210）、（220）、（230）、及び（240）内の処理回路、ビデオエンコーダ（303）の機能を実行する処理回路、ビデオデコーダ（310）の機能を実行する処理回路、ビデオデコーダ（410）の機能を実行する処理回路、イントラ予測モジュール（452）の機能を実行する処理回路、ビデオエンコーダ（503）の機能を実行する処理回路、予測器（535）の機能を実行する処理回路、イントラエンコーダ（622）の機能を実行する処理回路、イントラデコーダ（772）の機能を実行する処理回路、などのような処理回路によって実行される。いくつかの実施形態では、プロセス（1300）はソフトウェア命令で実現され、したがって、処理回路がソフトウェア命令を実行したとき、処理回路がプロセス（1300）を実行する。プロセスは（S1301）において開始し、（S1310）に進む。

（S1310）において、ブロックの予測情報が、符号化された映像ビットストリームからデコードされる。予測情報は、6パラメータのアフィン動きモデル、4パラメータのアフィン動きモデルなどのような動き情報のアフィンモデルを使用するアフィンモードを示す。予測情報は、アフィンモデルと関連付けられた（デフォルト値に対する）予測オフセットについてのインデックスを含む。

（S1320）において、アフィンモデルのパラメータが、インデックス、及びインデックスとオフセット値との事前定義されたマッピングに基づいて決定される。表1から8は、インデックスとオフセット値との事前定義されたマッピングのさまざまな例を表し、アフィンモデルのパラメータを決定するために使用されることが可能である。

（S1330）において、ブロックのサンプルがアフィンモデルに従って再構成される。一例では、ブロック内のピクセルに対応する参照ピクチャ内の参照ピクセルが、アフィンモデルに従って決定される。さらに、ブロック内のピクセルが、参照ピクチャ内の参照ピクセルに従って再構成される。次いで、プロセスは（S1399）に進み、終了する。

上記で説明された手法は、コンピュータ可読命令を使用し、1つ又は複数のコンピュータ可読媒体に物理的に記憶される、コンピュータソフトウェアとして実現されることが可能である。たとえば、図14は、開示された対象事項のある実施形態を実現するために適したコンピュータシステム（1400）を表す。

コンピュータソフトウェアは、直接、又はインタープリター、マイクロコードの実行などを通じて、1つ又は複数のコンピュータ中央処理ユニット（central processing unit, CPU）、グラフィック処理ユニット（Graphics Processing Unit, GPU）などによって実行されることが可能である命令を含むコードを生成するために、アセンブリ、コンパイル、リンク、又は同様のメカニズムの対象となり得る、任意の適切なマシンコード又はコンピュータ言語を使用して符号化されることが可能である。

命令は、たとえば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、さまざまなタイプのコンピュータ又はそのコンポーネント上で実行されることが可能である。

コンピュータシステム（1400）について図14に表されるコンポーネントは、本質的に例示であり、本開示の実施形態を実現するコンピュータソフトウェアの使用又は機能の範囲に関していかなる限定も示唆することは意図されない。コンポーネントの構成も、コンピュータシステム（1400）の例示的な実施形態に例示されているコンポーネントのいずれか1つ又は組み合わせに関するいかなる依存性又は要件も有するとして解釈されるべきではない。

コンピュータシステム（1400）は、あるヒューマンインタフェース入力デバイスを含み得る。そのようなヒューマンインタフェース入力デバイスは、たとえば、（キーストローク、スワイプ、データグローブの動きのような）触覚入力、（声、手をたたくことのような）オーディオ入力、（ジェスチャのような）視覚入力、（描かれていない）嗅覚入力を通じた1つ又は複数の人間のユーザによる入力に応答し得る。ヒューマン・インタフェース・デバイスは、（発話、音楽、周囲音のような）オーディオ、（スキャンされた画像、静止画カメラから得られた写真画像のような）画像、（2次元映像、立体映像を含む3次元映像のような）映像のような人間による意識的な入力に必ずしも直接関係しないあるメディアをキャプチャするためにも使用されることが可能である。

入力ヒューマン・インタフェース・デバイスは、（それぞれの1つだけが描かれている）キーボード（1401）、マウス（1402）、トラックパッド（1403）、タッチスクリーン（1410）、データグローブ（表されていない）、ジョイスティック（1405）、マイク（1406）、スキャナ（1407）、カメラ（1408）のうちの1つ又は複数を含み得る。

コンピュータシステム（1400）は、あるヒューマンインタフェース出力デバイスも含み得る。そのようなヒューマンインタフェース出力デバイスは、たとえば、触覚出力、音、光、及びにおい／味を通じて、1つ又は複数の人間のユーザの感覚を刺激することであり得る。そのようなヒューマンインタフェース出力デバイスは、触覚出力デバイス（たとえば、タッチスクリーン（1410）、データグローブ（表されていない）、又はジョイスティック（1405）による触覚フィードバックであるが、入力デバイスとしての機能を果たさない触覚フィードバックデバイスも存在することが可能である）、（スピーカ（1409）、ヘッドホン（描かれていない）のような）オーディオ出力デバイス、（それぞれタッチスクリーン入力機能を有するか又は有さず、それぞれ触覚フィードバック機能を有するか又は有さず、いくつかは2次元視覚出力、又は立体出力、すなわち、バーチャル・リアリティ・グラス（描かれていない）、ホログラフィックディスプレイ及びスモークタンク（描かれていない）のような手段を通じた3より大きい次元の出力を出力することが可能であり得る、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン（1410）のような）視覚出力デバイス、及びプリンタ（描かれていない）を含み得る。

コンピュータシステム（1400）は、CD／DVD又は類似の媒体を有するCD／DVD ROM／RW（1420）を含む光学媒体（1421）、サムドライブ（1422）、リムーバブル・ハード・ドライブ又はソリッド・ステート・ドライブ（1423）、テープ及びフロッピディスク（描かれていない）のようなレガシー磁気媒体、セキュリティドングル（描かれていない）のような専用のROM／ASIC／PLDベースのデバイスなどのような、人間がアクセス可能な記憶デバイス及びそれらに関連する媒体も含むことが可能である。

この技術分野の当業者は、現在開示されている対象事項に関連して使用される用語「コンピュータ可読媒体」は、送信媒体、搬送波、又は他の一時的な信号を包含しないことも理解すべきである。

コンピュータシステム（1400）は、1つ又は複数の通信ネットワークへのインタフェースも含むことが可能である。ネットワークは、たとえば、無線、ワイヤライン、光であることが可能である。ネットワークはさらに、ローカル、広域、メトロポリタン、車両用及び産業用、リアルタイム、遅延耐性などであることが可能である。ネットワークの例は、イーサネット、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルテレビ、衛星テレビ、及び地上波放送テレビを含むテレビ・ワイヤライン又は無線広域デジタル・ネットワーク、CANBusを含む車両用及び産業用、などのようなローカル・エリア・ネットワークを含む。あるネットワークは、一般に、（たとえば、コンピュータシステム（1400）のUSBポートのような）ある汎用データポート又は周辺バス（1449）に取り付けられた外部ネットワーク・インタフェース・アダプタを要求し、他のものは一般に、以下に説明するようにシステムバスへの取付けによって、コンピュータシステム（1400）のコアに統合される（たとえば、イーサネットインタフェースがPCコンピュータシステムへ、又はセルラー・ネットワーク・インタフェースがスマートフォン・コンピュータ・システムへ）。これらのネットワークのいずれかを使用して、コンピュータシステム（1400）は他のエンティティと通信することが可能である。そのような通信は、一方向、受信のみ（たとえば、放送テレビ）、一方向送信のみ（たとえば、あるCANbusデバイスに対するCANbus）、又は双方向、たとえば、ローカル・エリア・デジタル・ネットワーク又は広域デジタル・ネットワークを使用して他のコンピュータシステムに、であることが可能である。あるプロトコル及びプロトコルスタックが、上記で説明されたような、これらのネットワークとネットワークインタフェースのそれぞれにおいて使用されることが可能である。

前述のヒューマン・インタフェース・デバイス、人間がアクセス可能な記憶デバイス、及びネットワークインタフェースが、コンピュータシステム（1400）のコア（1440）に取り付けられることが可能である。

コア（1440）は、1つ又は複数の、中央処理ユニット（Central Processing Unit, CPU）（1441）、グラフィック処理ユニット（Graphics Processing Unit, GPU）（1442）、フィールド・プログラマブル・ゲート・アレイ（Field Programmable Gate Array, FPGA）（1443）の形式の専用のプログラマブル処理ユニット、あるタスク用のハードウェアアクセラレータ（1444）、などを含むことが可能である。これらのデバイスは、リード・オンリ・メモリ（Read-only memory, ROM）（1445）、ランダム・アクセス・メモリ（1446）、ユーザがアクセス可能でない内部ハードドライブ、SSDなどのような内部大容量記憶（1447）と共に、システムバス（1448）を通じて接続され得る。いくつかのコンピュータシステムでは、追加のCPU、GPUなどによる拡張を可能にするために、システムバス（1448）は1つ又は複数の物理的プラグの形式でアクセス可能であることが可能である。周辺デバイスは、コアのシステムバス（1448）に直接、又は周辺バス（1449）を通じてのいずれかで取り付けられることが可能である。周辺バスについてのアーキテクチャは、PCI、USBなどを含む。

CPU（1441）、GPU（1442）、FPGA（1443）、及びアクセラレータ（1444）は、組み合わせて、前述のコンピュータコードを構成することが可能である、ある命令を実行することが可能である。そのコンピュータコードは、ROM（1445）又はRAM（1446）に記憶されることが可能である。並進データもRAM（1446）に記憶されることが可能であるが、永続データは、たとえば内部大容量記憶（1447）に記憶されることが可能である。1つ又は複数のCPU（1441）、GPU（1442）、大容量記憶（1447）、ROM（1445）、RAM（1446）などと密接に関連付けられることが可能であるキャッシュメモリの使用を通じて、メモリデバイスのいずれへの高速記憶及び取り出しが可能にされることが可能である。

コンピュータ可読媒体は、さまざまなコンピュータ実装された動作を実行するためのコンピュータコードをその上に有することが可能である。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものとすることが可能であるか、又はそれらは、コンピュータソフトウェア技術分野の当業者に広く知られており利用可能な種類のものであることが可能である。

限定としてではなく例として、アーキテクチャ（1400）、及び具体的にはコア（1440）を有するコンピュータシステムは、1つ又は複数の有形のコンピュータ可読媒体に具現化されたソフトウェアを実行するプロセッサ（CPU、GPU、FPGA、アクセラレータなどを含む）の結果として機能を提供することが可能である。そのようなコンピュータ可読媒体は、上記で紹介されたユーザがアクセス可能な大容量記憶、及びコア内部大容量記憶（1447）又はROM（1445）のような非一時的な性質のコア（1440）の、ある記憶装置と関連付けられた媒体であることが可能である。本開示のさまざまな実施形態を実現するソフトウェアは、そのようなデバイスに記憶され、コア（1440）によって実行されることが可能である。コンピュータ可読媒体は、特定のニーズに従って、1つ又は複数のメモリデバイス又はチップを含むことが可能である。ソフトウェアは、コア（1440）及び具体的にはその中のプロセッサ（CPU、GPU、FPGAなどを含む）に、RAM（1446）に記憶されているデータ構造を定義すること、及びそのようなデータ構造を、ソフトウェアによって定義されたプロセスに従って変更することを含む、ここで説明される特定のプロセス又は特定のプロセスの特定の部分を実行させることが可能である。加えて又は代替として、コンピュータシステムは、ここで説明される特定のプロセス又は特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、又はソフトウェアと一緒に動作することが可能である、配線された又はそうでない場合は回路内で具現化されたロジック（たとえば、アクセラレータ（1444））の結果として機能を提供することが可能である。ソフトウェアへの言及は、適切な場合、ロジックを包含することが可能であり、その逆も同様である。コンピュータ可読媒体への言及は、適切な場合、実行のためのソフトウェアを記憶する回路（集積回路（Integrated Circuit, IC）のような）、実行のためのロジックを具現化する回路、又はその両方を包含することが可能である。本開示は、ハードウェアとソフトウェアとの任意の適切な組み合わせを包含する。

付録A:頭字語
JEM:共同探索モデル（joint exploration model）
VVC:多目的ビデオ符号化（versatile video coding）
BMS:ベンチマークセット（benchmark set）
MV:動きベクトル（Motion Vector）
HEVC:高効率ビデオ符号化（High Efficiency Video Coding）
SEI:付加拡張情報（Supplementary Enhancement Information）
VUI:映像ユーザビリティ情報（Video Usability Information）
GOP:ピクチャグループ（Group of Pictures）
TU:変換ユニット（Transform Unit）
PU:予測ユニット（Prediction Unit）
CTU:符号化ツリーユニット（Coding Tree Unit）
CTB:符号化ツリーブロック（Coding Tree Block）
PB:予測ブロック（Prediction Block）
HRD:仮想参照デコーダ（Hypothetical Reference Decoder）
SNR:信号ノイズ比（Signal Noise Ratio）
CPU:中央処理ユニット（Central Processing Unit）
GPU:グラフィック処理ユニット（Graphics Processing Unit）
CRT:陰極線管（Cathode Ray Tube）
LCD:液晶ディスプレイ（Liquid-Crystal Display）
OLED:有機発光ダイオード（Organic Light-Emitting Diode）
CD:コンパクトディスク（Compact Disc）
DVD:デジタルビデオディスク（Digital Video Disc）
ROM:リード・オンリ・メモリ（Read-Only Memory）
RAM:ランダム・アクセス・メモリ（Random Access Memory）
ASIC:特定用途向け集積回路（Application-Specific Integrated Circuit）
PLD:プログラマブル・ロジック・デバイス（Programmable Logic Device）
LAN:ローカル・エリア・ネットワーク（Local Area Network）
GSM:グローバル・システム・フォー・モバイル・コミュニケーションズ（Global System for Mobile communications）
LTE:ロング・ターム・エボリューション（Long-Term Evolution）
CANBus:コントローラ・エリア・ネットワーク・バス（Controller Area Network Bus）
USB:ユニバーサル・シリアル・バス（Universal Serial Bus）
PCI:ペリフェラル・コンポーネント・インターコネクト（Peripheral Component Interconnect）
FPGA:フィールド・プログラマブル・ゲート・アレイ（Field Programmable Gate Array）
SSD:ソリッド・ステート・ドライブ（solid-state drive）
IC:集積回路（Integrated Circuit）
CU:符号化ユニット（Coding Unit）

この開示はいくつかの例示的な実施形態を説明しているが、この開示の範囲内にある変更、置換、及びさまざまな代替等価物がある。したがって、ここで明示的に表されていない又は説明されていないが、この開示の原理を具現化し、したがってその思想及び範囲内にある多数のシステム及び方法をこの技術分野の当業者が考え出すことができることが理解されるであろう。

101 現在のブロック
200 通信システム
210 端末デバイス
220 端末デバイス
230 端末デバイス
240 端末デバイス
250 ネットワーク
300 通信システム
301 映像ソース
302 映像ピクチャのストリーム
303 ビデオエンコーダ
304 符号化された映像データ
305 ストリーミングサーバ
306 クライアントサブシステム
307 符号化された映像データのコピー
308 クライアントサブシステム
309 符号化された映像データのコピー
310 ビデオデコーダ
311 映像ピクチャのストリーム
312 ディスプレイ
313 キャプチャサブシステム
320 電子デバイス
330 電子デバイス
401 チャネル
410 ビデオデコーダ
412 レンダリングデバイス
415 バッファメモリ
420 解析器
421 シンボル
430 電子デバイス
431 受信器
451 スケーラ／逆変換ユニット
452 イントラピクチャ予測ユニット
453 動き補償予測ユニット
455 アグリゲータ
456 ループフィルタユニット
457 参照ピクチャメモリ
458 現在のピクチャバッファ
501 映像ソース
503 ビデオエンコーダ
520 電子デバイス
530 ソース符号化器
532 符号化エンジン
533 デコーダ
534 参照ピクチャメモリ
535 予測器
540 送信器
543 符号化された映像シーケンス
545 エントロピー符号化器
550 コントローラ
560 通信チャネル
603 ビデオデコーダ
621 統括コントローラ
622 イントラエンコーダ
623 残差計算器
624 残差エンコーダ
625 エントロピーエンコーダ
626 スイッチ
628 残差デコーダ
630 インターエンコーダ
710 ビデオデコーダ
771 エントロピーデコーダ
772 イントラデコーダ
773 残差デコーダ
774 再構成モジュール
780 インターデコーダ
911 開始点MV
912 オフセット
913 最終的なMV予測子
921 開始点MV
922 オフセット
923 最終的なMV予測子
1011 開始点MV
1015 最終的なMV予測子
1021 開始点MV
1100 ブロック
1400 コンピュータシステム
1401 キーボード
1402 マウス
1403 トラックパッド
1405 ジョイスティック
1406 マイク
1407 スキャナ
1408 カメラ
1409 スピーカ
1410 タッチスクリーン、スクリーン
1420 CD／DVD ROM／RW
1421 光学媒体
1422 サムドライブ
1423 ソリッド・ステート・ドライブ
1440 コア
1441 中央処理デバイス
1442 グラフィック処理デバイス
1443 フィールド・プログラマブル・ゲート・アレイ
1444 ハードウェアアクセラレータ
1445 リード・オンリ・メモリ
1446 ランダム・アクセス・メモリ
1447 内部大容量記憶
1448 システムバス
1449 周辺バス

Claims

デコーダが実行する動画の復号方法であって、
符号化された動画ビットストリームからの現在のピクチャにおけるブロックの予測情報を復号するステップであって、前記予測情報は、インター予測モードにおいてアフィンモデルと関連付けられた予測オフセットを示すインデックスを含み、前記アフィンモデルは、前記ブロックと、再構成された参照ピクチャにおける参照ブロックとの間で変換することに使用される、ステップと、
前記インデックス並びにインデックスとオフセット値との事前定義されたマッピングに基づいて、前記アフィンモデルのパラメータを決定するステップと、
前記アフィンモデルに従って、少なくとも1つの前記ブロックのサンプルを再構成するステップと、
を含む、方法。
動きベクトルに従って前記アフィンモデルの並進パラメータの値を決定するステップと、
前記インデックス及び前記事前定義されたマッピングに従って前記アフィンモデルの非並進パラメータを決定するステップと、
をさらに含む、請求項1に記載の方法。
前記アフィンモデルにおけるスケーリングファクタのデフォルトに対するデルタ値を示す前記インデックスを復号するステップと、
前記インデックス並びにインデックスと前記スケーリングファクタのデルタ値との前記事前定義されたマッピングに従って前記デルタ値を決定するステップと、
をさらに含む、請求項2に記載の方法。
前記アフィンモデルにおける回転角のデフォルトに対するデルタ値を示す前記インデックスを復号するステップと、
前記インデックス並びにインデックスと前記回転角のデルタ値との前記事前定義されたマッピングに従って前記デルタ値を決定するステップと、
をさらに含む、請求項2に記載の方法。
動きベクトル差分を示す前記インデックスを復号するステップと、
予測された動きベクトル及び前記動きベクトル差分に基づいて前記アフィンモデルを導出するステップと、
をさらに含む、請求項1に記載の方法。
前記動きベクトル差分の方向を示す第1のインデックス、及び前記動きベクトル差分のピクセル距離を示す第2のインデックスを復号するステップ
をさらに含む、請求項5に記載の方法。
前記動きベクトル差分の方向とピクセル距離の両方を示す前記インデックスを復号するステップ
をさらに含む、請求項5に記載の方法。
2つの制御点についての2つの動きベクトル差分を示すインデックスをそれぞれ復号するステップと、
前記2つの動きベクトル差分に基づいて前記2つの制御点についての動きベクトルをそれぞれ決定するステップと、
前記2つの制御点の前記動きベクトルに基づいて4パラメータのアフィンモデルを導出するステップと、
をさらに含む、請求項5に記載の方法。
3つの制御点についての3つの動きベクトル差分を示すインデックスをそれぞれ復号するステップと、
前記3つの動きベクトル差分に基づいて前記3つの制御点についての動きベクトルをそれぞれ決定するステップと、
前記3つの制御点の前記動きベクトルに基づいて6パラメータのアフィンモデルを導出するステップと、
をさらに含む、請求項5に記載の方法。
第1の制御点についての第1の動きベクトル差分を示す第1のインデックスを復号するステップと、
前記第1の動きベクトル差分に基づいて第2の制御点についての第2の動きベクトル差分を予測するステップと、
予測誤差を復号して、前記符号化された映像ビットストリームからの前記第2の動きベクトル差分を補正するステップと、
前記第1の動きベクトル差分及び前記補正された第2の動きベクトル差分に基づいて、前記第1の制御点についての第1の動きベクトル及び前記第2の制御点についての第2の動きベクトルを決定するステップと、
前記第1の制御点についての前記第1の動きベクトル及び前記第2の制御点についての前記第2の動きベクトルに少なくとも基づいて前記アフィンモデルを導出するステップと、
をさらに含む、請求項1に記載の方法。
動画の復号のための装置であって、
符号化された動画ビットストリームからの現在のピクチャにおけるブロックの予測情報を復号し、前記予測情報は、インター予測モードにおいてアフィンモデルと関連付けられた予測オフセットを示すインデックスを含み、前記アフィンモデルは、前記ブロックと、再構成された参照ピクチャにおける参照ブロックとの間で変換することに使用され、
前記インデックス並びにインデックスとオフセット値との事前定義されたマッピングに基づいて、前記アフィンモデルのパラメータを決定し、
前記アフィンモデルに従って、少なくとも1つの前記ブロックのサンプルを再構成する
ように構成された処理回路を含む装置。
前記処理回路は、
動きベクトルに従って前記アフィンモデルの並進パラメータの値を決定し、
前記インデックス及び前記事前定義されたマッピングに従って前記アフィンモデルの非並進パラメータを決定する
ように構成されている、請求項11に記載の装置。
前記処理回路は、
前記アフィンモデルにおけるスケーリングファクタのデフォルトに対するデルタ値を示す前記インデックスを復号し、
前記インデックス並びにインデックスと前記スケーリングファクタのデルタ値との前記事前定義されたマッピングに従って前記デルタ値を決定する
ように構成されている、請求項12に記載の装置。
前記処理回路は、
前記アフィンモデルにおける回転角のデフォルトに対するデルタ値を示す前記インデックスを復号し、
前記インデックス並びにインデックスと前記回転角のデルタ値との前記事前定義されたマッピングに従って前記デルタ値を決定する
ように構成されている、請求項12に記載の装置。
前記処理回路は、動きベクトル差分を示す前記インデックスを復号し、
予測された動きベクトル及び前記動きベクトル差分に基づいて前記アフィンモデルを導出する
ように構成されている、請求項11に記載の装置。
前記処理回路は、
前記動きベクトル差分の方向を示す第1のインデックス、及び前記動きベクトル差分のピクセル距離を示す第2のインデックスを復号する
ように構成されている、請求項15に記載の装置。
前記処理回路は、
前記動きベクトル差分の方向とピクセル距離の両方を示す前記インデックスを復号する
ように構成されている、請求項15に記載の装置。
前記処理回路は、
2つの制御点についての2つの動きベクトル差分を示すインデックスをそれぞれデコードし、
前記2つの動きベクトル差分に基づいて前記2つの制御点についての動きベクトルをそれぞれ決定し、
前記2つの制御点の前記動きベクトルに基づいて4パラメータのアフィンモデルを導出する
ように構成されている、請求項15に記載の装置。
前記処理回路は、
3つの制御点についての3つの動きベクトル差分を示すインデックスをそれぞれデコードし、
前記3つの動きベクトル差分に基づいて前記3つの制御点についての動きベクトルをそれぞれ決定し、
前記3つの制御点の前記動きベクトルに基づいて6パラメータのアフィンモデルを導出する
ように構成されている、請求項15に記載の装置。
コンピュータに請求項1乃至１０のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。