JP2023098974A - 動き補償のための複数の予測子候補 - Google Patents

動き補償のための複数の予測子候補 Download PDF

Info

Publication number
JP2023098974A
JP2023098974A JP2023063148A JP2023063148A JP2023098974A JP 2023098974 A JP2023098974 A JP 2023098974A JP 2023063148 A JP2023063148 A JP 2023063148A JP 2023063148 A JP2023063148 A JP 2023063148A JP 2023098974 A JP2023098974 A JP 2023098974A
Authority
JP
Japan
Prior art keywords
block
predictor
motion
candidates
predictor candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023063148A
Other languages
English (en)
Inventor
ロベール,アントワーヌ
Robert Antoine
ルリアネック,ファブリス
LELEANNEC Fabrice
ポワリエ,タンギ
Poirier Tangi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP17305797.7A external-priority patent/EP3422720A1/en
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Publication of JP2023098974A publication Critical patent/JP2023098974A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/521Processing of motion vectors for estimating the reliability of the determined motion vectors or motion vector field, e.g. for smoothing the motion vector field or for correcting motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】動き補償のための複数の予測子候補のセットから予測子候補を選択するビデオ符号化又は復号方法及び装置を提供する。【解決手段】方法は、ピクチャ内の符号化されるブロックに関して、複数の予測子候補を有する予測子候補のセットを決定し、予測子候補のセットから予測子候補を選択し、予測子候補のセットから選択された予測子候補に関して、ブロックに関する1又は複数の対応する制御点動きベクトルを決定し、選択された予測子候補に関して、1又は複数の対応する制御点動きベクトルに基づいて、符号化されるブロックのサブブロックの予測のために用いられた動きベクトルを識別し、選択された予測子候補に関する動きモデルに基づく対応する動き場を決定し、予測子候補のセットから選択された予測子候補に関する対応する動きフィールドに基づいてブロックを符号化し、予測子候補のセットから選択された予測子候補に関するインデックスを符号化する。【選択図】図18

Description

[1] 本発明の実施形態の少なくとも1つは、一般に、たとえばビデオ符号化または復号のための方法または装置に関し、より具体的には、ビデオエンコーダまたはビデオデコーダのためのたとえばアフィンモデルなどの動きモデルに基づいて、動き補償のための複数の予測子候補のセットから予測子候補を選択するための方法または装置に関する。
[2] 高い圧縮効率を実現するために、画像およびビデオ符号化スキームは一般に、動きベクトル予測を含む予測を用い、ビデオコンテンツにおける空間および時間的冗長性を活用するために変換する。一般に、イントラまたはインターフレーム相関を利用するためにイントラまたはインター予測が用いられ、しばしば予測誤差または予測残差と表される、元の画像と予測された画像との間の差が、変換され、量子化され、エントロピー符号化される。ビデオを再構成するために、圧縮されたデータは、エントロピー符号化、量子化、変換、および予測に対応する逆プロセスによって復号される。
[3] 高圧縮技術に昨今加わったのは、アフィンモデリングに基づく動きモデルの使用である。特に、アフィンモデリングは、ビデオピクチャの符号化および復号のための動き補償に用いられる。一般に、アフィンモデリングは、たとえば回転および相似比(ズーム)を模擬するためにピクチャのブロック全体に関する動きフィールドを導出することを可能にする、たとえばピクチャのブロックのそれぞれの角部における動きを表す2つの制御点動きベクトル(CPMV)といった、少なくとも2つのパラメータを用いるモデルである。
[4] 少なくとも1つの実施形態の一般態様によると、ビデオ符号化のための方法であって、ピクチャ内の符号化されるブロックに関して、複数の予測子候補を有する予測子候補のセットを決定することと、予測子候補のセットから予測子候補を選択することと、予測子候補のセットから選択された予測子候補に関して、ブロックに関する1または複数の対応する制御点動きベクトルを決定することと、選択された予測子候補に関して、1または複数の対応する制御点動きベクトルに基づいて、選択された予測子候補に関する動きモデルに基づく対応する動きフィールドを決定することであって、対応する動きフィールドは、符号化されるブロックのサブブロックの予測のために用いられた動きベクトルを識別することと、予測子候補のセットから選択された予測子候補に関する対応する動きフィールドに基づいてブロックを符号化することと、予測子候補のセットから選択された予測子候補に関するインデックスを符号化することとを備える方法が提示される。
[5] 少なくとも1つの実施形態の他の一般態様によると、ビデオ復号のための方法であって、ピクチャ内の復号されるブロックに関して、特定の予測子候補に対応するインデックスを受信することと、特定の予測子候補に関して、復号されるブロックに関する1または複数の対応する制御点動きベクトルを決定することと、特定の予測子候補に関して、1または複数の対応する制御点動きベクトルに基づいて、復号されるブロックのサブブロックの予測のために用いられた動きベクトルを識別する、動きモデルに基づく対応する動きフィールドを決定することと、対応する動きフィールドに基づいてブロックを復号することを備える方法が提示される。
[6] 少なくとも1つの実施形態の他の一般態様によると、ビデオ符号化のための装置であって、ピクチャ内の符号化されるブロックに関して、複数の予測子候補を有する予測子候補のセットを決定するための手段と、予測子候補のセットから予測子候補を選択するための手段と、選択された予測子候補に関して、1または複数の対応する制御点動きベクトルに基づいて、選択された予測子候補に関する動きモデルに基づく対応する動きフィールドであって符号化されるブロックのサブブロックの予測のために用いられた動きベクトルを識別する対応する動きフィールドを決定するための手段と、予測子候補のセットから選択された予測子候補に関する対応する動きフィールドに基づいてブロックを符号化するための手段と、予測子候補のセットから選択された予測子候補に関するインデックスを符号化するための手段とを備える装置が提示される。
[7] 少なくとも1つの実施形態の他の一般態様によると、ビデオ復号のための装置であって、ピクチャ内の復号されるブロックに関して、特定の予測子候補に対応するインデックスを受信するための手段と、特定の予測子候補に関して、復号されるブロックに関する1または複数の対応する制御点動きベクトルを決定するための手段と、特定の予測子候補に関して、1または複数の対応する制御点動きベクトルに基づいて、復号されるブロックのサブブロックの予測のために用いられた動きベクトルを識別する、動きモデルに基づく対応する動きフィールドを決定するための手段と、対応する動きフィールドに基づいてブロックを復号するための手段とを備える装置が提示される。
[8] 少なくとも1つの実施形態の他の一般態様によると、1または複数のプロセッサおよび少なくとも1つのメモリを備える、ビデオ符号化のための装置が提供される。1または複数のプロセッサは、ピクチャ内の符号化されるブロックに関して、複数の予測子候補を有する予測子候補のセットを決定し、予測子候補のセットから予測子候補を選択し、予測子候補のセットから選択された予測子候補に関して、ブロックに関する1または複数の対応する制御点動きベクトルを決定し、選択された予測子候補に関して、1または複数の対応する制御点動きベクトルに基づいて、選択された予測子候補に関する動きモデルに基づく対応する動きフィールドであって符号化されるブロックのサブブロックの予測のために用いられた動きベクトルを識別する対応する動きフィールドを決定し、予測子候補のセットから選択された予測子候補に関する対応する動きフィールドに基づいてブロックを符号化し、予測子候補のセットから選択された予測子候補に関するインデックスを符号化するように構成される。少なくとも1つのメモリは、符号化されたブロックおよび/または符号化されたインデックスを少なくとも一時的に格納することに関する。
[9] 少なくとも1つの実施形態の他の一般態様によると、1または複数のプロセッサおよび少なくとも1つのメモリを備える、ビデオ復号のための装置が提供される。1または複数のプロセッサは、ピクチャ内の復号されるブロックに関して、特定の予測子候補に対応するインデックスを受信し、特定の予測子候補に関して、復号されるブロックに関する1または複数の対応する制御点動きベクトルを決定し、特定の予測子候補に関して、1または複数の対応する制御点動きベクトルに基づいて、復号されるブロックのサブブロックの予測のために用いられた動きベクトルを識別する、動きモデルに基づく対応する動きフィールドを決定し、対応する動きフィールドに基づいてブロックを復号するように構成される。少なくとも1つのメモリは、復号されたブロックを少なくとも一時的に格納することに関する。
[10] 少なくとも1つの実施形態の他の一般態様によると、ビデオ符号化のための方法であって、ピクチャ内の符号化されるブロックに関して、予測子候補のセットを決定することと、予測子候補のセットにおける複数の予測子候補の各々について、ブロックに関する1または複数の対応する制御点動きベクトルを決定することと、複数の予測子候補の各々について、1または複数の対応する制御点動きベクトルに基づいて、予測子候補のセットにおける複数の予測子候補の各々に関する動きモデルに基づく対応する動きフィールドを決定することと、1または複数の基準に従い、かつ対応する動きフィールドに基づいて、複数の予測子候補を評価することと、評価に基づいて、複数の予測子候補から予測子候補を選択することと、予測子候補のセットから選択された予測子候補に基づいてブロックを符号化することとを備える方法が提示される。
[11] 少なくとも1つの実施形態の他の一般態様によると、ビデオ復号のための方法であって、ピクチャ内の復号されるブロックに関して、選択された予測子候補に対応するインデックスを取得することを備える方法が提示される。選択された予測子候補は、エンコーダにおいて、ピクチャ内の符号化されるブロックに関して、予測子候補のセットを決定することと、予測子候補のセットにおける複数の予測子候補の各々について、符号化されるブロックに関する1または複数の対応する制御点動きベクトルを決定することと、複数の予測子候補の各々について、1または複数の対応する制御点動きベクトルに基づいて、予測子候補のセットにおける複数の予測子候補の各々に関する動きモデルに基づく対応する動きフィールドを決定することと、1または複数の基準に従い、かつ対応する動きフィールドに基づいて、複数の予測子候補を評価することと、評価に基づいて、複数の予測子候補から予測子候補を選択することと、予測子候補のセットから選択された予測子候補に関するインデックスを符号化することとによって選択される。方法は更に、選択された予測子候補に対応するインデックスに基づいて、ブロックを復号することを備える。
[12] 少なくとも1つの実施形態の他の一般態様によると、方法は更に、1または複数の基準に従い、かつ複数の予測子候補の各々に関する対応する動きフィールドに基づいて、複数の予測子候補を評価することと、評価に基づいて、複数の予測子候補から予測子候補を選択することとを備えてよい。
[13] 少なくとも1つの実施形態の他の一般態様によると、装置は更に、1または複数の基準に従い、かつ複数の予測子候補の各々に関する対応する動きフィールドに基づいて、複数の予測子候補を評価するための手段と、評価に基づいて、複数の予測子候補から予測子候補を選択するための手段とを備えてよい。
[14] 少なくとも1つの実施形態の他の一般態様によると、1または複数の基準は、予測子候補のセットにおける複数の予測子候補の1または複数に対応するレート歪み決定に基づく。
[15] 少なくとも1つの実施形態の他の一般態様によると、対応する動きフィールドに基づいてブロックを復号または符号化することは、それぞれ、サブブロックに関する予測子に基づいて、動きベクトルによって示されている予測子を復号または符号化することを備える。
[16] 少なくとも1つの実施形態の他の一般態様によると、予測子候補のセットは、符号化または復号されるブロックの空間候補および/または時間候補を備える。
[17] 少なくとも1つの実施形態の他の一般態様によると、動きモデルはアフィンモデルである。
[18] 少なくとも1つの実施形態の他の一般態様によると、符号化または復号されるブロック内の各位置(x,y)に関する対応する動きフィールドは、
Figure 2023098974000002

によって決定され、式中、(v0x,v0y)および(v1x,v1y)は、対応する動きフィールドを生成するために用いられた制御点動きベクトルであり、(v0x,v0y)は、符号化または復号されるブロックの左上角部の制御点動きベクトルに対応し、(v1x,v1y)は、符号化または復号されるブロックの右上角部の制御点動きベクトルに対応し、wは、符号化または復号されるブロックの幅である。
[19] 少なくとも1つの実施形態の他の一般態様によると、空間候補の数は5以上である。
[20] 少なくとも1つの実施形態の他の一般態様によると、決定された1または複数の対応する制御点動きベクトルの関数に基づいて、対応する動きフィールドを決定するために、1または複数の追加の制御点動きベクトルが追加される。
[21] 少なくとも1つの実施形態の他の一般態様によると、関数は、決定された1または複数の対応する制御点動きベクトルの1)平均、2)加重平均、3)一意的平均、4)アベレージ、5)中央値、または6)上記1)~6)の1つの一方向性部分の1または複数を含む。
[22] 少なくとも1つの実施形態の他の一般態様によると、上記説明のいずれかの方法または装置に従って生成されたデータコンテンツを含む非一時的コンピュータ可読媒体が提示される。
[23] 少なくとも1つの実施形態の他の一般態様によると、上記説明のいずれかの方法または装置に従って生成されたビデオデータを備える信号が提供される。
[24] 本開示の実施形態の1または複数は、上述した方法のいずれかに従ってビデオデータを符号化または復号するための命令が格納されたコンピュータ可読記憶媒体も提供する。本開示の実施形態は、上述した方法に従って生成されたビットストリームが格納されたコンピュータ可読記憶媒体も提供する。本開示の実施形態は、上述した方法に従って生成されたビットストリームを送信するための方法および装置も提供する。本開示の実施形態は、上述した方法のいずれかを行うための命令を含むコンピュータプログラム製品も提供する。
[25]HEVC(高能率ビデオ符号化)ビデオエンコーダの実施形態のブロック図を示す。 [26]HEVC参照サンプル生成を示す画像例である。 [27]HEVCにおけるイントラ予測方向を示す画像例である。 [28]HEVCビデオデコーダの実施形態のブロック図を示す。 [29]圧縮されたHEVCピクチャを表すための符号化ツリーユニット(CTU)および符号化ツリー(CT)概念の例を示す。 [30]符号化ツリーユニット(CTU)を符号化ユニット(CU)、予測ユニット(PU)、および変換ユニット(TU)に分割する例を示す。 [31]共同探索モデル(JEM)において用いられる動きモデルとしてアフィンモデルの例を示す。 [32]共同探索モデル(JEM)において用いられる4×4のサブCUベースのアフィン動きベクトル場の例を示す。 [33]アフィンインターCUに関する動きベクトル予測候補の例を示す。 [34]アフィン合併モードにおける動きベクトル予測候補の例を示す。 [35]アフィン合併モード動きモデルの事例における、アフィン制御点動きベクトルの空間的導出の例を示す。 [36]少なくとも1つの実施形態の一般態様に係る方法例を示す。 [37]少なくとも1つの実施形態の一般態様に係る他の方法例を示す。 [38]少なくとも1つの実施形態の一般態様に係る他の方法例を示す。 [39]少なくとも1つの実施形態の一般態様に係る他の方法例を示す。 [40]JEMにおけるインターCUのアフィン合併モードを評価するための既知のプロセスの例を示す。 [41]JEMにおけるアフィン合併モードで予測子候補を選択するためのプロセスの例を示す。 [42]符号化または復号される現在のブロックの左に位置するアフィン合併予測候補によって伝搬されたアフィン動きフィールドの例を示す。 [43]符号化または復号される現在のブロックの上および右に位置するアフィン合併予測子候補によって伝搬されたアフィン動きフィールドの例を示す。 [44]少なくとも1つの実施形態の一般態様に係る予測子候補選択プロセスの例を示す。 [45]少なくとも1つの実施形態の一般態様に係る複数の予測子候補のセットを構成するためのプロセスの例を示す。 [46]少なくとも1つの実施形態の一般態様に係る、各予測子候補に関する左上および右上角部のCPMVの導出プロセスの例を示す。 [47]少なくとも1つの実施形態の一般態様に係る、空間予測子候補の拡張セットの例を示す。 [48]少なくとも1つの実施形態の一般態様に係る、複数の予測子候補のセットを構成するためのプロセスの他の例を示す。 [49]少なくとも1つの実施形態の一般態様に係る、複数の予測子候補のセットを構成するためのプロセスの他の例を示す。 [50]少なくとも1つの実施形態の一般態様に係る、一時的候補がどのように予測子候補のために用いられ得るかの例を示す。 [51]少なくとも1つの実施形態の一般態様に係る、格納されたCPMV候補から計算された平均CPMV動きベクトルを最終的なCPMV候補セットに追加するプロセスの例を示す。 [52]実施形態の様々な態様が実現され得る装置例のブロック図を示す。
[53] 図1は、典型的な高能率ビデオ符号化(HEVC)エンコーダ100を示す。HEVCは、ビデオ符号化における共同連携チーム(JCT-VC)によって開発された圧縮規格である(たとえば“ITU-T H.265 TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU (10/2014), SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS, Infrastructure of audiovisual services-Coding of moving video, High efficiency video coding, Recommendation ITU-T H.265”を参照)。
[54] HEVCにおいて、1または複数のピクチャを有するビデオシーケンスを符号化するために、ピクチャは1または複数のスライスに区画化され、各スライスは1または複数のスライスセグメントを含み得る。スライスセグメントは、符号化ユニット、予測ユニット、および変換ユニットに編成される。
[55] 本出願において、「再構成された」および「復号された」という用語は相互置換可能に用いられ、「符号化された(encoded)」および「符号化された(coded)」という用語は相互置換可能に用いられ、「ピクチャ」および「フレーム」という用語は相互置換可能に用いられ得る。必ずではないが多くの場合、「再構成された」という用語はエンコーダ側で用いられ、「復号された」はデコーダ側で用いられる。
[56] HEVC仕様書は、「ブロック」と「ユニット」とを区別し、「ブロック」は、サンプルアレイ内の特定のエリア(たとえばルマ、Y)を称し、「ユニット」は、全ての符号化された色成分(Y、Cb、Cr、またはモノクロ)の並置ブロック、構文要素、およびブロックに関連する予測データ(たとえば動きベクトル)を含む。
[57] 符号化のために、ピクチャは、設定可能なサイズを有する正方形の符号化ツリーブロック(CTB)に区画化され、符号化ツリーブロックの連続セットがスライスにグループ化される。符号化ツリーユニット(CTU)は、符号化された色成分のCTBを含む。CTBは、符号化ブロック(CB)に分かれる4分木の根であり、符号化ブロックは1または複数の予測ブロック(PB)に区画化されてよく、変換ブロック(TB)に分かれる4分木の根を形成する。符号化ブロック、予測ブロック、および変換ブロックに対応して、符号化ユニット(CU)は、予測ユニット(PU)およびツリー構造の変換ユニット(TU)のセットを含み、PUは、全ての色成分に関する予測情報を含み、TUは、各色成分に関する残差符号化構文構造を含む。ルマ成分のCB、PB、およびTBのサイズは、対応するCU、PU、およびTUに準ずる。本出願において、「ブロック」という用語は、たとえばCTU、CU、PU、TU、CB、PB、およびTBのいずれかを指すために用いられ得る。加えて、「ブロック」は、H.264/AVCまたは他のビデオ符号化規格において指定されたマクロブロックおよび区画、またより一般的には様々なサイズのデータアレイを指すためにも用いられ得る。
[58] 典型的なエンコーダ100において、ピクチャは、以下に述べるようなエンコーダ要素によって符号化される。符号化されるピクチャは、CUのユニットにおいて処理される。各CUは、イントラモードまたはインターモードのいずれかを用いて符号化される。CUがイントラモードで符号化される場合、CUはイントラ予測(160)を行う。インターモードにおいて、動き推定(175)および補償(170)が行われる。エンコーダは、CUを符号化するためにイントラモードまたはインターモードのどちらを用いるかを決定(105)し、予測モードフラグによってイントラ/インター決定を示す。予測残差は、元の画像ブロックから予測されたブロックを差し引くこと(110)によって計算される。
[59] イントラモードにおけるCUは、同じスライス内の再構成された隣接サンプルから予測される。DC予測モード、平面予測モード、および33の角予測モードを含む35のイントラ予測モードのセットがHEVCにおいて利用可能である。イントラ予測参照は、現在のブロックに隣接した行および列から再構成される。参照は、過去に再構成されたブロックから利用可能なサンプルを用いて、水平および垂直方向にブロックサイズの2倍に及ぶ。イントラ予測のために角予測モードが用いられる場合、参照サンプルは、角予測モードによって示された方向に沿ってコピーされ得る。
[60] 現在のブロックに関する利用可能なルマイントラ予測モードは、2つの異なるオプションを用いて符号化され得る。適用可能なモードが3つの最確モード(MPM)に含まれる場合、モードは、MPMリスト内のインデックスによって通知される。そうではない場合、モードは、モードインデックスの固定長2値化によって通知される。3つの最確モードは、上および左の隣接ブロックのイントラ予測モードから導出される。
[61] インターCUに関して、対応する符号化ブロックは、1または複数の予測ブロックに更に区画化される。インター予測は、PBレベルで行われ、対応するPUは、インター予測がどのように行われたかに関する情報を含む。動き情報(すなわち動きベクトルおよび参照ピクチャインデックス)は、2つの方法、すなわち「合併モード」および「高度な動きベクトル予測(AMVP)」で通知され得る。
[62] 合併モードにおいて、ビデオエンコーダまたはデコーダは、既に符号化されたブロックに基づいて候補リストを収集し、ビデオエンコーダは、候補リスト内の候補の1つに関するインデックスを通知する。デコーダ側において、動きベクトル(MV)および参照ピクチャインデックスは、通知された候補に基づいて再構成される。
[63] 合併モードにおける可能な候補のセットは、空間隣接候補、時間候補、および生成された候補から成る。図2Aは、現在のブロック210に関する5つの空間的候補{a、b、b、a、b}の位置を示し、aおよびaは現在のブロックの左にあり、b、b、bは現在のブロックの上にある。各候補位置について、a、b、b、a、bの順序に従って利用可能性が確認され、その後、候補内の冗長性が除去される。
[64] 参照ピクチャにおける並置位置の動きベクトルは、時間的候補の導出のために用いられ得る。利用可能な参照ピクチャは、スライスベースで選択され、スライスヘッダに示され、時間的候補に関する参照インデックスは、iref=0に設定される。並置PUのピクチャと、並置PUの予測元である参照ピクチャとの間のPOC距離(td)が、現在のピクチャと、並置PUを含む参照ピクチャとの間の距離(tb)と同じである場合、並置動きベクトルmvcolが時間候補として直接用いられ得る。そうではない場合、スケーリングされた動きベクトルtb/tdmvcolが時間候補として用いられる。現在のPUがどこに位置するか依存して、並置PUは、現在のPUの右下または中央におけるサンプル位置によって決定される。
[65] 合併候補の最大数Nは、スライスヘッダに明示される。合併候補の数がNより大きい場合、第1のN-1個の空間候補および時間候補のみが用いられる。そうではなく、合併候補の数がNより小さい場合、候補のセットは、既に存在する候補またはヌル候補の組み合わせとして生成された候補によって最大数Nまで埋められる。合併モードにおいて用いられる候補は、本出願において「合併候補」と称され得る。
[66] CUがスキップモードを示す場合、合併候補に関する利用可能なインデックスは、合併候補のリストが1よりも大きい場合のみ示され、CUに関して更なる情報は符号化されない。スキップモードにおいて、動きベクトルは、残差更新なしで適用される。
[67] AMVPにおいて、ビデオエンコーダまたはデコーダは、既に符号化されたブロックから決定された動きベクトルに基づいて候補リストを収集する。ビデオエンコーダはその後、動きベクトル予測子(MVP)を識別するために候補リスト内のインデックスを通知し、動きベクトル差分(MVD)を通知する。デコーダ側において、動きベクトル(MV)は、MVP+MVDとして再構成される。利用可能な参照ピクチャインデックスもまた、AMVPに関するPU構文において明示的に符号化される。
[68] AMVPにおいてただ2つの空間動き候補が選択される。第1の空間動き候補は、左位置{a、a}から選択され、第2の候補は、上の位置{b、b、b}から選択されるが、2つのセットに示された検索順序は維持される。動きベクトル候補の数が2に等しくない場合、時間MV候補が含まれ得る。候補のセットがなお完全に埋まらない場合、ゼロ動きベクトルが用いられる。
[69] 空間候補の参照ピクチャインデックスが現在のPUに関する参照ピクチャインデックスに対応する(すなわち、同じ参照ピクチャインデックスを用いるか、または参照ピクチャリストとは無関係に両方が長期間参照ピクチャを用いる)場合、空間候補動きベクトルが直接用いられる。そうではなく、参照ピクチャが短期間のものである場合、候補動きベクトルは、現在のPUの現在のピクチャと参照ピクチャとの間の距離(tb)および空間候補の現在のピクチャと参照ピクチャとの間の距離(td)に従ってスケーリングされる。AMVPモードにおいて用いられる候補は、本出願において、「AMVP候補」と称され得る。
[70] 記載を簡易にするために、エンコーダ側において「合併」モードで試験されたブロックまたはデコーダ側において「合併」モードで復号されたブロックは、「合併」ブロックと記載され、エンコーダ側においてAMVPモードで試験されたブロックまたはデコーダ側においてAMVPモードで復号されたブロックは、「AMVP」ブロックと記載される。
[71] 図2Bは、AMVPを用いる典型的な動きベクトル表現を示す。符号化される現在のブロック240に関して、動き推定によって動きベクトル(MVcurrent)が得られ得る。左のブロック230からの動きベクトル(MVleft)および上のブロック220からの動きベクトル(MVabove)を用いて、MVleftおよびMVaboveから動きベクトル予測子がMVPcurrentとして選択され得る。その後、MVDcurrent=MVcurrent-MVPcurrentとして動きベクトル差分が計算され得る。
[72] 動き補償予測は、予測のための1または2つの参照ピクチャを用いて行われ得る。Pスライスにおいて、インター予測のために単一の予測参照のみが用いられ、予測ブロックに関する片予測を可能にし得る。Bスライスにおいて、2つの参照ピクチャリストが利用可能であり、片予測または双予測が用いられ得る。双予測において、参照ピクチャリストの各々から1つの参照ピクチャが用いられる。
[73] HEVCにおいて、動き補償のための動き情報の精度は、4:2:0構成の場合、ルマ成分に関して(4分の1ペルまたは1/4ペルとも称される)4分の1サンプルおよびクロマ成分に関して(1/8ペルとも称される)8分の1サンプルである。分別サンプル位置の補間のために7タップまたは8タップ補間フィルタが用いられ、すなわち水平および垂直方向の両方にフルサンプル位置の1/4、1/2、および3/4がルマに関して処理され得る。
[74] 予測残差はその後、変換(125)され、量子化(130)される。量子化された変換係数、ならびに動きベクトルおよび他の構文要素は、ビットストリームを出力するためにエントロピー符号化(145)される。エンコーダは、変換をスキップし、4×4のTUベースで未変換の残差信号に直接量子化を適用してもよい。エンコーダは、変換および量子化の両方を省いてもよく、すなわち残差は、変換または量子化プロセスの適用なしで直接符号化される。直接PCM符号化において、予測は適用されず、符号化ユニットサンプルは直接、ビットストリームに符号化される。
[75] エンコーダは、更なる予測のための参照を提供するために符号化されたブロックを復号する。量子化された変換係数は、予測残差を復号するために、逆量子化(140)され、逆変換(150)される。復号された予測残差と予測されたブロックとを結合(155)して、画像ブロックが再構成される。ループ内フィルタ(165)は、たとえば符号化アーティファクトを低減するためのデブロッキング/SAO(サンプル適応オフセット)フィルタリングを行うために、再構成されたピクチャに適用される。フィルタされた画像は、参照ピクチャバッファ(180)に格納される。
[76] 図3は、典型的なHEVCビデオデコーダ300のブロック図を示す。典型的なデコーダ300において、ビットストリームは、後述するようにデコーダ要素によって復号される。ビデオデコーダ300は一般に、ビデオデータの符号化の一部としてビデオ復号を行う、図1に示すような符号化パスと相互的な復号パスを行う。
[77] 特に、デコーダの入力は、ビデオエンコーダ100によって生成され得るビットストリームを含む。ビットストリームは最初に、変換係数、動きベクトル、および他の符号化情報を得るために、エントロピー復号(330)される。変換係数は、予測残差を復号するために、逆量子化(340)され、逆変換(350)される。復号された予測残差と予測されたブロックとを結合(355)して、画像ブロックが再構成される。予測されたブロックは、イントラ予測(360)または動き補償された予測(すなわちインター予測)(375)から得られ(370)得る。上述したように、AMVPおよび合併モード技術は、参照ブロックのサブ整数サンプルに関する補間値を計算するために補間フィルタを用い得る動き補償のための動きベクトルを導出するために用いられ得る。再構成された画像にループ内フィルタ(365)が適用される。フィルタされた画像は、参照ピクチャバッファ(380)に格納される。
[78] 上述したように、HEVCにおいて、動き補償された時間予測は、ビデオの連続ピクチャ間に存在する冗長性を利用するために用いられる。そのために、動きベクトルは、各予測ユニット(PU)に関連付けられる。上述したように、各CTUは、圧縮領域において符号化ツリーによって表される。これは、各葉が符号化ユニット(CU)と呼ばれ、CTU410および420に関して図4にも示される、CTUの4分木分割である。各CUはその後、いくつかのイントラまたはインター予測パラメータを予測情報として付与される。そのために、CUは、1または複数の予測ユニット(PU)に空間的に区画化されてよく、各PUは何らかの予測情報を割り当てられる。イントラまたはインター符号化モードは、CUレベルで割り当てられる。これらの概念は、典型的なCTU500およびCU510に関して図5に更に示される。
[79] HEVCにおいて、各PUに1つの動きベクトルが割り当てられる。この動きベクトルは、考慮されるPUの動き補償された時間予測のために用いられる。したがって、HEVCにおいて、予測ブロックおよびその参照ブロックを結び付ける動きモデルは単純に、参照ブロックおよび対応する動きベクトルに基づく変換または計算から成る。
[80] HEVCを改善させるために、共同ビデオ探索チーム(JVET)によって参照ソフトウェアおよび/または文書化JEM(共同探索モデル)が開発中である。JEMバージョンの1つ(たとえば“Algorithm Description of Joint Exploration Test Model 5”、文書JVET-E1001_v2、ISO/IEC JTC1/SC29/WG11の共同ビデオ探索チーム、第5回ミーティング、2017年1月12~20日、スイス国ジュネーブ)において、時間予測を改善するために、いくつかの更なる動きモデルがサポートされる。そのために、PUは、サブPUに空間分割されてよく、モデルは、各サブPUを専用動きベクトルに割り当てるために用いられ得る。
[81] JEMのより最近のバージョン(たとえば“Algorithm Description of Joint Exploration Test Model 2”、文書JVET-B1001_v3、ISO/IEC JTC1/SC29/WG11の共同ビデオ探索チーム、第2回ミーティング、2016年2月20~26日、米国サンディエゴ)においては、CUがPUまたはTUに分割されることが明記されない。その代わり、よりフレキシブルなCUサイズが用いられてよく、いくつかの動きデータが各CUに直接割当てられる。より新しいJEMバージョンでのこの新たなコーデック設計において、CUはサブCUに分割されてよく、動きベクトルは、分割されたCUの各サブCUに関して計算され得る。
[82] JEMに導入された新たな動きモデルの1つは、CUにおける動きベクトルを表すために動きベクトルとしてアフィン形式のモデルを用いることである。用いられる動きモデルは、図6によって示され、以下に示すような式1によって表される。アフィン形式の動きフィールドは、図6の考慮されるブロック600内の各位置(x,y)に関して以下の動きベクトル成分値を備え、
Figure 2023098974000003
式中、(v0x,v0y)および(v1x,v1y)は、対応する動きフィールドを生成するために用いられる制御点動きベクトルであり、(v0x,v0y)は、符号化または復号されるブロックの左上角部の制御点動きベクトルに対応し、(v1x,v1y)は、符号化または復号されるブロックの右上角部の制御点動きベクトルに対応し、wは、符
号化または復号されるブロックの幅である。
[83] 複雑性を低減するために、図7に示すように、考慮されるCU700の4×4のサブブロック(サブCU)ごとに動きベクトルが計算される。アフィン形式の動きベクトルは、各サブブロックの各中央位置について、制御点動きベクトルから計算される。得られたMVは、1/16ペルの精度で表現される。その結果、アフィンモードでの符号化ユニットの補償は、自身の動きベクトルによる各サブブロックの動き補償された予測に存する。サブブロックに関するこれらの動きベクトルは、それぞれ、図7におけるサブブロックの各々に関する矢印として示される。
[84] JEMにおいて、シードは、対応する4×4のサブブロック内に保存されるので、アフィンモードは、(シードごとに独立したサブブロックを有するように)4までの幅および高さを有するCUに関してのみ用いられ得る。たとえば64×4のCUにおいて、左上および左下のシードを保存するために1つの左側サブブロックしかなく、4×32のCUにおいて、左上および右上のシードに関して1つの上側サブブロックしかなく、JEMにおいて、そのような薄いCUにシードを適切に保存することは不可能である。我々の提案によると、シードは個別に保存されるので、4に等しい幅または高さを有するそのような薄いCUを処理することが可能である。
[85] 再び図7の例を参照すると、アフィンCUは、CUの左上、右上、および左下角部(図7におけるv0、v1、およびv2)からの動きベクトルとして、アフィンモデルシードと呼ばれる3つの動きベクトルから成る関連アフィンモデルによって定義される。このアフィンモデルはその後、4×4のサブブロックベースで行われる、CU内のアフィン動きベクトル場(図7における黒色の動きベクトル)を計算することを可能にする。JEMにおいて、これらのシードは、考慮されるCUにおける左上、右上、および左下の4×4のサブブロックに添付される。提案される解決策において、アフィンモデルシードは、(たとえばICフラグのような)CU全体に添付された動き情報として個別に格納される。したがって動きモデルは、4×4のブロックレベルで実際の動き補償に用いられた動きベクトルから切り離される。この新たな保存は、4×4のサブブロックレベルで完全な動きベクトル場を保存することを可能にし得る。またこれは、幅または高さがサイズ4のブロックに関してアフィン動き補償を用いることも可能にする。
[86] アフィン動き補償は、JEMにおいて、アフィンインター(AF_INTER)モードおよびアフィン合併モードの2つの方法で用いられ得る。これらは、以下のセクションで説明される。
[87] アフィンインター(AF_INTER)モード:アフィンインターモードにおいて、8×8よりも大きいサイズのAMVPモードにおけるCUが予測され得る。これは、ビットストリーム内のフラグによって通知される。そのインターCUに関するアフィン動きフィールドの生成は、動きベクトル差分と制御点動きベクトル予測(CPMVP)との加算によりデコーダによって得られる制御点動きベクトル(CPMV)を決定することを含む。CPMVPは、符号化または復号される現在のCU800に関して図8Aに示されたセット(A、B、C)および(D、E)からそれぞれ選ばれた動きベクトル候補のペアである。
[88] アフィン合併モード:アフィン合併モードにおいて、CUレベルのフラグは、合併CUがアフィン動き補償を用いるかを示す。そうである場合、アフィンモードで符号化された第1の利用可能な隣接CUが、符号化または復号される現在のCU880に関する図8Bの候補位置A、B、C、D、Eの順序付きセットの中で選択される。ただし、このJEMにおける候補位置の順序付きセットは、図2Aに示し上述したようなHEVCにおける合併モードでの空間隣接候補と同じである。
[89] アフィンモードにおける第1の隣接CUが得られると、隣接アフィンCUの左上、右上、および左下角部からの3つのCPMV
Figure 2023098974000004


Figure 2023098974000005

、および
Figure 2023098974000006

が取得または計算される。たとえば、図9は、アフィンモードにおけるこの第1の決定された隣接CU910が、符号化または復号される現在のCU900に関する図8BのA位置にあることを示す。隣接CU910のこれら3つのCPMVに基づいて、現在のCU900の左上および右上角部の2つのCPMVが以下のように導出される。
Figure 2023098974000007
[90] 現在のCUの制御点動きベクトル
Figure 2023098974000008

および
Figure 2023098974000009

が得られると、図6に関して上述したような式1のモデルによって、符号化または復号される現在のCU内の動きフィールドが4×4のサブCUベースで計算される。
[91] したがって、少なくとも1つの実施形態の一般態様は、考慮されるビデオコーデックの補償性能が改善され得るように、JEMにおけるアフィン合併モードの性能を改善することを目的とする。したがって、少なくとも1つの実施形態において、たとえばアフィン合併モードで符号化された符号化ユニットのための、拡張および改善されたアフィン動き補償装置および方法が提示される。提案される拡張および改善されたアフィンモードは、アフィン合併モードで複数の予測子候補を評価することを含む。
[92] 上述したように、現在のJEMにおいて、周囲のCUの中で、アフィン合併モードで符号化された第1の隣接CUが、符号化または復号される現在のCUに関連するアフィン動きモデルを予測するために選択される。すなわち、アフィンモードで符号化された図8Bの順序付きセット(A、B、C、D、E)のうちの第1の隣接CU候補が、現在のCUのアフィン動きモデルを予測するために選択される。
[93] したがって、少なくとも1つの実施形態は、上述したように順序付きセットにおける第1の1つのみを用いるのではなく、アフィン合併モードで現在のCUを符号化する時に最良の符号化効率を提供するアフィン合併予測候補を選択する。したがって、この実施形態の改善は、一般レベルにおいて、たとえば
・(エンコーダ/デコーダに関して)CUのアフィン動きモデルの予測のための良好な候補セットを提供する可能性が高い複数のアフィン合併予測子候補のセットを構成すること、
・(エンコーダ/デコーダに関して)構成されたセットの中から現在のCUの制御点動きベクトルに関する1つの予測子を選択すること、および/または、
・(エンコーダ/デコーダに関して)現在のCUの制御点動きベクトル予測子のインデックスを通知/復号すること
を備える。
[94] したがって、図10は、少なくとも1つの実施形態の一般態様に係る典型的な符号化方法1000を示す。1010において、方法1000は、ピクチャ内の符号化されるブロックに関して、複数の予測子候補を有する予測子候補のセットを決定する。1020において、方法1000は、予測子候補のセットから予測子候補を選択する。1030において、方法1000は、予測子候補のセットから選択された予測子候補に関して、ブロックに関する1または複数の対応する制御点動きベクトルを決定する。1040において、方法1000は、選択された予測子候補に関して、1または複数の対応する制御点動きベクトルに基づいて、選択された予測子候補に関する動きモデルに基づく対応する動きフィールドを決定し、ここで対応する動きフィールドは、符号化されるブロックのサブブロックの予測のために用いられた動きベクトルを識別する。1050において、方法1000は、予測子候補のセットから選択された予測子候補に関する対応する動きフィールドに基づいてブロックを符号化する。1060において、方法1000は、予測子候補のセットから選択された予測子候補に関するインデックスを符号化する。
[95] 図11は、少なくとも1つの実施形態の一般態様に係る他の典型的な符号化方法1100を示す。1110において、方法1100は、ピクチャ内の符号化されるブロックに関して、予測子候補のセットを決定する。1120において、方法1100は、予測子候補のセットにおける複数の予測子候補の各々について、ブロックに関する1または複数の対応する制御点動きベクトルを決定する。1130において、方法1100は、複数の予測子候補の各々について、1または複数の対応する制御点動きベクトルに基づいて、予測子候補のセットにおける複数の予測子候補の各々に関する動きモデルに基づく対応する動きフィールドを決定する。1140において、方法1100は、1または複数の基準に従い、かつ対応する動きフィールドに基づいて、複数の予測子候補を評価する。1150において、方法1100は、評価に基づいて複数の予測子候補から予測子候補を選択する。1160において、方法1100は、予測子候補のセットから選択された予測子候補に関するインデックスを符号化する。
[96] 図12は、少なくとも1つの実施形態の一般態様に係る典型的な復号方法1200を示す。1210において、方法1200は、ピクチャ内の復号されるブロックに関して、特定の予測子候補に対応するインデックスを受信する。様々な実施形態において、特定の予測子候補はエンコーダにおいて選択されており、インデックスは、複数の予測子候補のうちの1つが選択されることを可能にする。1220において、方法1200は、特定の予測子候補に関して、復号されるブロックに関する1または複数の対応する制御点動きベクトルを決定する。1230において、方法1200は、特定の予測子候補に関して、1または複数の対応する制御点動きベクトルに基づいて、対応する動きフィールドを決定する。様々な実施形態において、動きフィールドは動きモデルに基づき、対応する動きフィールドは、復号されるブロックのサブブロックの予測のために用いられる動きベクトルを識別する。1240において、方法1200は、対応する動きフィールドに基づいてブロックを復号する。
[97] 図13は、少なくとも1つの実施形態の一般態様に係る他の典型的な復号方法1300を示す。1310において、方法1300は、ピクチャ内の復号されるブロックに関して、選択された予測子候補に対応するインデックスを取得する。1310にも示すように、選択された予測子候補は、ピクチャ内の符号化されるブロックに関して予測子候補のセットを決定すること、予測子候補のセットにおける複数の予測子候補の各々について、符号化されるブロックに関する1または複数の対応する制御点動きベクトルを決定すること、複数の予測子候補の各々について、1または複数の対応する制御点動きベクトルに基づいて、予測子候補のセットにおける複数の予測子候補の各々に関する動きモデルに基づく対応する動きフィールドを決定すること、1または複数の基準に従い、かつ対応する動きフィールドに基づいて、複数の予測子候補を評価すること、評価に基づいて、複数の予測子候補から予測子候補を選択すること、および予測子候補のセットから選択された予測子候補に関するインデックスを符号化することによって、エンコーダにおいて選択されている。1320において、方法1300は、選択された予測子候補に対応するインデックスに基づいてブロックを復号する。
[98] 図14は、JEMにおける既存のアフィン合併モードで符号化または復号される現在のCUのアフィン動きフィールドを予測するために用いられるプロセス1400の実施形態の詳細を示す。このプロセス1400への入力1401は、図7に示すようにサブブロックのアフィン動きフィールドを生成することが望まれる現在の符号化ユニットである。1410において、現在のブロックに関するアフィン合併CPMVは、図6、図7、図8B、および図9に関して上述したように、選択された予測子候補を用いて得られる。この予測子候補の導出は、後にも図15に関してより詳しく説明される。
その結果、1420において、左上および右上の制御点動きベクトル
Figure 2023098974000010

および
Figure 2023098974000011

はその後、現在のCUに関連するアフィン動きフィールドを計算するために用いられる。これは、上述したように式1に従って各4×4のサブブロックに関する動きベクトルを計算することに存する。1430および1440において、現在のCUに関して動きフィールドが得られると、4×4のサブブロックベースの動き補償およびその後のOBMC(重複ブロック動き補償)を伴う、現在のCUの時間予測が行われる。1450および1460において、現在のCUは、残差データありおよびなしで連続的に符号化および再構成される。RD競合に基づいてモードが選択され、そのモードが現在のCUを符号化するために用いられ、様々な実施形態において、そのモードに関するインデックスもまた符号化される。
[100] 少なくとも1つの実装において、残差フラグが用いられる。1450において、符号化が残差データを有して行われたことを示すフラグがアクティブ化される(noResidual=0)。1460において、現在のCUは(残差を有して)完全に符号化および再構成され、対応するRDコストが生じる。その後、符号化が残差データなしで行われたことを示すフラグが非アクティブ化され(1480、1485、noResidual=1)、プロセスは、CUが(残差なしで)符号化され、対応するRDコストが生じる1460へ戻る。過去の2つの間の最低RDコスト(1470、1475)は、残差が符号化される必要があるか否か(通常またはスキップ)を示す。方法1400は1499で終了する。その後、この最良RDコストは、他の符号化モードとの競合にかけられる。レート歪み決定は、以下で更に詳しく説明される。
[101] 図15は、現在のCUのアフィン動きフィールドの1または複数の制御点を予測するために用いられるプロセス1500の実施形態の詳細を示す。これは、図8Bの空間位置(A、B、C、D、E)の中で、アフィンモードで符号化/復号されているCUを検索すること(1510、1520、1530、1540、1550)に存する。探索された空間位置のうちアフィンモードで符号化されたものがない場合、候補位置に数を示す変数、たとえばnumValidMergeCandは0に設定される(1560)。そうではない場合、アフィンモードにおけるCUに対応する第1の位置が選択される(1515、1525、1535、1545、1555)。プロセス1500はその後、現在のCUに割り当てられたアフィン動きフィールドを生成するために後に用いられる制御点動きベクトルを計算すること、およびnumValidMergeCandを1に設定すること(1580)に存する。この制御点計算は、以下のように進行する。選択された位置を含むCUが決定される。これは、上述したように、現在のCUの隣接CUの1つである。次に、図9に関して上述したように、選択された隣接CU内の左上、右上、および左下角部からの3つのCPMV
Figure 2023098974000012


Figure 2023098974000013


Figure 2023098974000014

が取得(または決定)される。最後に、図6に関して上述したように、式1に従って、現在のCUの左上および右上のCPMV
Figure 2023098974000015

および
Figure 2023098974000016

が導出される(1570)。方法1500は1599で終了する。
[102] 本発明者は、上述した既存のアフィン合併プロセスの一態様が、周囲の略式(すなわち既に符号化または復号された)かつ隣接CUから現在のCUへ向かってアフィン動きフィールドを伝搬するために1つかつ唯一の動きベクトル予測子を系統的に利用することであると認識している。様々な状況において、本発明者は更に、この態様は、たとえば最適な動きベクトル予測子を選択するものではないために不利であり得ることを認識している。また、この予測子の選択は、既に上述したように、順序付きセット(A、B、C、D、E)におけるアフィンモードで符号化された第1の略式かつ隣接CUのみから成る。様々な状況において、本発明者は更に、この限定された選択は、たとえばより良い予測子が利用可能である場合があるために不利であり得ることを認識している。したがって、現在のJEMにおける既存のプロセスは、現在のCUの周囲にあるいくつかの可能な略式かつ隣接CUもまたアフィン動きを用い得たという点、およびアフィン動きを用いたことが分かった第1のCU以外のCUが、現在のCUの動き情報のためのより良い予測子であり得るという点を考慮しないものである。
[103] したがって、本発明者は、既存のJEMコーデックによって利用されていない現在のCUアフィン動きベクトルの予測を改善するいくつかの方法における潜在的利点を認識している。少なくとも1つの実施形態の一般態様によると、以下で説明するように、本発明の動きモデルにおいて提供されたそのような利点が見出され、図16および図17に示されている。
[104] 図16および図17の両方において、符号化または復号される現在のCUは中央の大きな1つであり、それぞれ図16における1610、図17における1710である。2つの潜在的予測子候補は、図8Bの位置AおよびCに対応し、それぞれ図16における予測子候補1620および図17における1720として示される。特に、図16は、選択された予測子候補が左の位置(図8Bの位置A)にある場合の、符号化または復号される現在のブロック1610の潜在的動きフィールドを示す。同様に、図17は、選択された予測子候補が右上の位置(すなわち図8Bの位置C)にある場合の、符号化または復号される現在のブロック1710の潜在的動きフィールドを示す。例示的な図に示すように、どのアフィン合併予測子が選択されるかに依存して、サブブロックに関する様々な動きベクトルセットが現在のCUに関して生成され得る。したがって、本発明者は、これら2つの候補の間での、たとえばレート歪み(RD)などの1または複数の基準を最適化した選択が、アフィン合併モードにおける現在のCUの符号化/復号性能を改善することに役立ち得ると認識する。
[105] したがって、少なくとも1つの実施形態の1つの一般態様は、複数の候補のセットの中で、符号化または復号される現在のCUのCPMVを導出するためにより良い動き予測子候補を選択することに存する。エンコーダ側において、現在のCPMVを予測するために用いられた候補は、1つの典型的な実施形態の一態様に従って、レート歪みコスト基準に従って選択される。そのインデックスはその後、他の典型的な実施形態の他の態様に従って、デコーダのための出力ビットストリームにおいて符号化される。
[106] 他の典型的な実施形態の他の態様によると、デコーダにおいて、候補のセットが構成されてよく、予測子は、エンコーダ側と同じ方法で、このセットから選択され得る。そのような実施形態において、出力ビットストリームにおいてインデックスが符号化される必要はない。デコーダの他の実施形態は、候補のセットを構成することを回避し、あるいは少なくとも、エンコーダと同様のセットから予測子を選択することを回避し、単純に、選択された候補に対応するインデックスをビットストリームから復号し、対応する関連データを導出する。
[107] 他の典型的な実施形態の他の態様によると、ここで用いられるCPMVは、図6に示すように、符号化または復号される現在のCUの右上および左上位置の2つに限定されない。他の実施形態は、たとえばただ1つのベクトルまたは2より多い数のベクトルを備え、これらのCPMVの位置は、動きフィールドを導出することが可能である限り、たとえば角の4×4のサブブロックの中央または角の4×4のサブブロックの内角の位置(複数も可)など、たとえば他の角位置または現在のブロックの内外の任意の位置にある。
[108] 典型的な実施形態において、調査される潜在的候補予測子のセットは、図8Bに示すようにJEMにおける既存のアフィン合併モードにおいてCPMV予測子を取得するために用いられる位置のセット(A、B、C、D、E)と同一である。図18は、この実施形態の一般態様に従って、現在のCUのアフィン動きモデルを予測するために最良の候補を選択するための1つの典型的な選択プロセス1800の詳細を示す。ただし、他の実施形態は、A、B、C、D、Eとは異なり、より少ないまたは多い数の要素をセットに含み得る予測子位置のセットを用いる。
[109] 1801に示すように、この典型的な実施形態1800への入力は、符号化または復号される現在のCUの情報でもある。1810において、上述した図15のアルゴリズム1500に従って、複数のアフィン合併予測子候補のセットが構成される。図15のアルゴリズム1500は、アフィンモードで符号化された略式CUに対応する、図8Aに示す全ての隣接位置(A、B、C、D、E)を収集し、現在のCUのアフィンモーションの予測のための候補セットにすることを含む。したがって、プロセス1800は、略式アフィンCUが発見されると終了するのではなく、セット内の複数の動き予測子候補の全てに関して、略式CUから現在のCUへのアフィン動きモデル伝搬に関する全ての可能な候補を格納する。
[110] 図18の1810に示すように図15のプロセスが完了すると、図18のプロセス1800は、1820において、1810で提供されたセットの各候補から予測された左上および右上角部のCPMVを計算する。この1820のプロセスは、図19によって更に詳述され示される。
[111] 再び図19は、図18における1820の詳細を示し、先行ステップ(図18の1810)から決定され発見された各候補にわたるループを含む。各アフィン合併予測子候補について、その候補の空間位置を含むCUが決定される。その後、(Bスライスの基部にある)各参照リストL0およびL1に関して、現在のCUの動きフィールドを生成するために有用な制御点動きベクトル
Figure 2023098974000017

および
Figure 2023098974000018

が式2に従って導出される。各候補に関するこれら2つのCPMVは、候補CPMVのセットに格納される。
[112] 図19のプロセスが完了すると、プロセスは図18へ戻り、各アフィン合併予測子候補にわたるループ1830が行われる。これはたとえば、最も低いレート歪みコストをもたらすCPMV候補を選択してよい。各候補にわたるループ1830内で、図14に示すようなプロセスと同様の他のループ1840が、上述したように各CPMV候補を用いて現在のCUを符号化するために用いられる。図14のアルゴリズムは、全ての候補が評価されると終了し、その出力は、最良予測子のインデックスを備えてよい。上述したように、例として、最小レート歪みコストを有する候補が最良予測子として選択され得る。様々な実施形態が、現在のCUを符号化するために最良予測子を用い、特定の実施形態は、最良予測子に関するインデックスも符号化する。
[113] レート歪みコストの決定の一例は、当業者には周知であるように、
RDcost=D+λ×R
と定義され、式中、Dは、元のブロックと、考慮される候補を用いて現在のCUを符号化および復号することによって得られた再構成されたブロックとの間の歪み(一般にL2距離)を表し、Rは、レートコスト、たとえば考慮される候補を用いて現在のブロックを符号化することによって生成されたビットの数を表し、λは、ビデオシーケンスが符号化されている時のレート目標を表す。
[114] 他の典型的な実施形態が以下で説明される。この典型的な実施形態は、既存のJEMに比べてアフィン合併候補のセットを拡大することによって、アフィン合併モードの符号化性能をさらに改善することを目標とする。この典型的な実施形態は、候補のセットを拡大するために、エンコーダ側およびデコーダ側の両方で同様に実行され得る。したがって、1つの非限定的な態様において、いくつかの追加の予測子候補が、複数のアフィン合併候補のセットを構成するために用いられ得る。追加の候補は、たとえば図21に示すような現在のCU2100を取り巻くA’2110およびB’2120などの追加の空間位置から採用され得る。他の実施形態は、現在のCU2100の辺の1つに沿った、または近接した更に追加の空間位置を用いる。
[115] 図22は、図21に示し、上述するような、追加の空間位置A’2110およびB’2120を用いる実施形態に対応する典型的なアルゴリズム2200を示す。たとえば、アルゴリズム2200は、図22の2210~2230において、位置Aが有効なアフィン合併予測候補ではない(たとえばアフィンモードで符号化されたCU内にない)場合、新たな候補位置A’を試験することを含む。同様に、たとえば、図22の2240~2260において、位置Bが任意の有効な候補を提供しない(たとえばアフィンモードで符号化されたCU内にない)場合、位置B’も試験される。アフィン合併候補のセットを構成するための典型的なプロセス2200のその他の態様は、先に示し説明したような図19と比べて基本的に変わらない。
[116] 他の典型的な実施形態において、既存の合併候補位置は、新たに追加された位置を評価する前に、最初に考慮される。追加された位置は、候補のセットが、たとえば5または7など、合併候補の最大数より少ない候補しか含まない場合のみ、評価される。最大数は所定であってよく、あるいは可変であってよい。この典型的な実施形態は、図23の典型的なアルゴリズム2300によって詳述される。
[117] 他の典型的な実施形態によると、一時的候補と呼ばれる追加の候補が、予測子候補のセットに追加される。これらの一時的候補は、たとえば上述したように空間候補が発見されなかった場合、あるいは変化例において、これも上述したようにアフィン合併候補のセットのサイズが最大値に到達しなかった場合、用いられ得る。他の実施形態は、空間候補をセットに追加する前に一時的候補を用いる。たとえば、現在のCUの制御点動きベクトルを予測するための一時的候補は、現在のピクチャに利用可能または用いられた参照ピクチャの1または複数から取得され得る。一次的候補は、たとえば、参照ピクチャの各々における現在のCUの右下隣接CUに対応する位置において採用され得る。これは、図24に示すような符号化または復号される現在のCU2400に関する候補位置F2410に対応する。
[118] 実施形態において、たとえば、各参照ピクチャリストの各参照ピクチャについて、考慮される参照ピクチャにおける図24の位置F2410におけるブロックに関連するアフィンフラグが試験される。真である場合、その参照ピクチャに含まれた対応するCUは、アフィン合併候補の現在のセットに追加される。
[119] 更なる変化例において、一時的候補は、現在のCU2400の左上角部に対応する空間位置における参照ピクチャから取得される。この位置は、図24の候補位置G2420に対応する。
[120] 更なる変化例において、一時的候補は、右下の隣接CUに対応する位置における参照ピクチャから取得される。その後、候補のセットが、たとえば5または7など、合併候補の事前固定最大数よりも少ない候補しか含まない場合、現在のCUの左上角部G2420に対応する一時的候補が取得される。他の実施形態において、一時的候補は、1または複数の参照ピクチャにおいて、現在のCU2400の異なる(G2420以外の)位置に対応する、または現在のCU2400の他の(F2410以外の)隣接CUに対応する位置から得られる。
[121] 加えて、一時的候補に基づく制御点動きベクトルに関する典型的な導出プロセスは、以下のように進行する。構成されたセットに含まれた各一時的候補について、その参照ピクチャ内の一時的候補を含むブロック(tempCU)が識別される。その後、識別された一時的CUの左上、右上、および左下角部に位置する3つのCPMV
Figure 2023098974000019


Figure 2023098974000020

、および
Figure 2023098974000021

がスケーリングされる。このスケーリングは、tempCUのPOC(ピクチャオーダカウント)、tempCUの参照ピクチャのPOC(差はtenpDistと示される)、現在のCUのPOC、および現在のCUの参照ピクチャのPOC(差はcurDistと示される)の間の関係性を考慮する。たとえばCPMVは、距離の比(tempDist/curDist)によってスケーリングされ得る。これら3つのスケーリングされたCPMVが得られると、現在のCUに関する2つの制御点動きベクトルが、上述したように式2に従って導出される。
[122] 他の典型的な実施形態は、各候補から導出された制御点動きベクトルの関数として計算された、平均制御点動きベクトルペアを追加することを含む。典型的なプロセスは、ここで、図25に示す典型的なアルゴリズム2500によって詳述される。ループ2510は、考慮される参照ピクチャリストに関して構成されたセット内の各アフィン合併予測子候補のために用いられる。
[123] その後、2520において、(Bスライスにおける場合)連続的にL0に等しく次にL1に等しい各参照ピクチャリストLxについて、現在の候補がリストLxに関する有効なCPMVを有する場合、
・動きベクトルのペア
Figure 2023098974000022


Figure 2023098974000023

に初期化する。
・各候補について、
-式2に従って現在の候補CPMVからCPMV
Figure 2023098974000024

を導出する。
-ペア
Figure 2023098974000025


Figure 2023098974000026

を追加する。
・リストLxに関する候補の数で動きベクトルのペア
Figure 2023098974000027

を割る。
・各リストの全ての候補の中からそれぞれ最小の参照ピクチャインデックスに等しい動きベクトル
Figure 2023098974000028

および
Figure 2023098974000029

に参照ピクチャインデックスを割り当てる(ベクトル
Figure 2023098974000030

はリスト0を指し、その関連参照インデックスは、リスト0内の全ての候補の中で観測された最小参照インデックスに設定される。ベクトル
Figure 2023098974000031

は、リスト1に適用される点を除き、同じである。)
・リストLxに関する現在のCUのアフィン動きフィールドを生成するために、候補CPMVのセットに、得られた平均動きベクトルペア
Figure 2023098974000032

を追加する。
[124] アルゴリズム2500および/または他の実施形態を用いて、アフィン合併候補のセットは更に強化され、先行セクションにおいて説明されたような上述の実施形態に従って候補のセットに挿入された各候補について導出されたCPMVから計算された平均動き情報を含む。
[125] いくつかの候補が現在のCUに関して同じCPMVをもたらすことが可能であるため、上述の平均候補は、CPMV動きベクトルの加重平均ペアをもたらし得る。実際、上述したプロセスは、CPMVの完全セットにおけるそれらの独自性に関わらず、それまでに収集されたCPMVの平均を計算する。したがって、この実施形態の変化例は、CPMV予測候補のセットに他の候補を再び追加することに存する。これは、(上述したような加重平均CPMVとは別に)独自の収集されたCPMVのセットの平均CPMVを追加することに存する。これにより、現在のCUのアフィン動きフィールドを生成するための予測子候補のセットに更なる候補CPMVが提供される。
[126] たとえば、以下の5つの空間候補(L、T、TR、BL、TL)が全て利用可能かつアフィンである状況を考える。ただし、左の3つの位置(L、BL、TL)は、同じ隣接CU内にある。各空間位置において、候補CPMVを得ることができる。すると、第1の平均は、(いくつかは同一である場合も)これら5つのCPMVの合計を5で割ったものに等しい。第2の平均において、異なるCPMVのみが考慮されるので、左の3つ(L、BL、TL)のみが一度考慮され、第2の平均は、3つの異なるCPMV(L、T、TR)を3で割ったものに等しい。第1の平均において、余分なCPMVは3回加算され、より大きな重みが余分なCPMVに付与される。式を用いると、平均1=(L+T+TR+BL+TL)/5、かつL=BL=TLと書き表され得るので、平均1=(3L+T+TL)/5であり、平均2=(L+T+TL)/3である。
[127] 上述した2つの候補平均は、考慮される候補がリスト0内の参照画像およびリスト1内の別の画像に関する動きベクトルを保持し次第、双方向性である。他の変化例において、一方向性平均を追加することが可能である。加重平均および一意的平均から、リスト0およびリスト1から個別的に動きベクトルを取り上げることによって、4つの一方向性候補が構成され得る。
[128] 本出願において説明された典型的な候補セット拡大方法の1つの利点は、所与のCUに関連するアフィン動きフィールドを構成するために用いられ得る候補制御点動きベクトルのセットにおける多様性の増加である。よって、本開示の実施形態は、ビデオコンテンツの符号化および復号の計算技術における技術的進歩もたらす。たとえば本開示の実施形態は、JEMにおいてアフィン合併符号化モードによってもたらされるレート歪み性能を改善する。このように、考慮されるビデオコーデックのレート歪み性能全体が改善された。
[129] 図18のプロセスを修正するために、更なる典型的な実施形態が提供され得る。この実施形態は、以下の近似歪みおよびレート計算による、各CPMV候補の性能の迅速な評価を含む。したがって、CPMVのセット内の各候補について、現在のCUの動きフィールドが計算され、現在のCUの4×4のサブブロックベースの時間予測が行われる。次に、予測されたCUと元のCUとの間のSATDとして歪みが計算される。レートコストは、考慮される候補の合併インデックスのシグナリングに結び付けられたビットの近次数として得られる。大まかな(近似)RDコストはその後、各候補について得られる。最終的な選択は、1つの実施形態において、近似RDコストに基づく。他の実施形態において、候補のサブセットが完全RD検索をかけられ、すなわち、最も低い近似RDコストを有する候補がその後、完全RD検索をかけられる。これらの実施形態の利点は、最良のアフィン合併予測子候補を検索することにより生じるエンコーダ側の複雑性の増加を制限することである。
[130] また、少なくとも1つの実施形態の他の一般態様によると、上述したようなアフィンインターモードは、アフィン予測子候補の拡大リストを有することによって、本開示に提示された現在の教示の全てを用いて改善されてもよい。図8Aに関して上述したように、アフィンインターCUの1または複数のCPMVPは、それらの符号化モードに関わらず、隣接する動きベクトルから導出される。したがって、その後、上述したようなアフィン合併モードと同様、現在のアフィンインターCUの1または複数のCPMVPを構成するために、それらのアフィンモデルを用いてアフィン近隣の平均を取ることが可能である。この場合、考慮されたアフィン候補は、アフィン合併モードに関して上述したものと同じリストであってよい(たとえば空間候補のみに限定されない)。
[131] したがって、複数の予測子候補のセットは、より良い予測子候補を用いることによって現在のHEVCおよびJEMによって提供されている圧縮/復元を改善するために提供される。プロセスは、より効率的になり、補足インデックスを送信する必要があり得る場合でも、符号化利得が観測される。
[132] 少なくとも1つの実施形態の一般態様によると、(合併モードと同様、少なくとも7つの候補を有する)アフィン合併候補のセットは、たとえば
・(A、B、C、D、E)からの空間候補、
・リスト内に5未満の候補がある場合、右下並置位置の時間候補、
・リスト内に5未満の候補がある場合、並置位置の時間候補、
・加重平均、
・一意的平均、
・加重平均が双方向性であり、リスト内に7未満の候補がある場合、加重平均からの一方向性平均、
・一意的平均が双方向性であり、リスト内に7未満の候補がある場合、一意的平均からの一方向性平均
から成る。
[133] また、AMVPの場合、予測子候補は、たとえば
・セット(A、B、C、D、E)からの空間候補、
・(A’、B’)からの補足空間候補、
・右下並置位置の時間候補
から採用され得る。
[134] 以下の表1および表2は、本開示で提案された解決策のいくつかの典型的な実施形態を用いたJEM4.0(並列)に対する改善を示す。各表は、上述したような典型的な実施形態の1つに関するレート低減の量の結果を示す。特に、表1は、図8Bに示す5つの空間候補(A、B、C、D、E)が、上述した典型的な実施形態に従って複数の予測子候補のセットとして用いられる場合の改善を示す。表2は、最初に空間候補、候補の数が未だ5より小さい場合、次に時間候補、次に平均、そして候補の数が未だ7より小さい場合、最後に一方向性平均という順序の予測子候補が上述したように用いられる場合の典型的な実施形態に関する改善を示す。したがって、たとえば表2は、この実施形態に関して、Y、U、Vサンプルに関するレート低減がそれぞれクラスDに関して0.22%、0.26%、および0.12%のBD(Bjontegaard-Delta)レート低減であり、符号化および復号実行時間における増加がほとんどない(すなわち、それぞれ100%および101%)ことを示す。よって、本開示の典型的な実施形態は、既存のJEM実装に対し、計算複雑性コストを維持しながら、圧縮/復元効率を改善する。
Figure 2023098974000033

Figure 2023098974000034
[135] 図26は、典型的な実施形態の様々な態様が実現され得る典型的なシステム2600のブロック図を示す。システム2600は、後述する様々な構成要素を含むデバイスとして具体化されてよく、上述したプロセスを行うように構成される。そのようなデバイスの例は、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ記録システム、接続型家電、およびサーバを含むがこれに限定されない。システム2600は、当業者には既知であるように、上述した典型的なビデオシステムの全部または一部を実現するために、図26に示すような通信チャネルを介して、他の同様のシステム、およびディスプレイに通信可能に結合され得る。
[136] システム2600の様々な実施形態は、上述したような様々なプロセスを実現するためにロードされた命令を実行するように構成された少なくとも1つのプロセッサ2610を含む。プロセッサ2610は、埋込型メモリ、入力出力インタフェース、および当技術において既知であるような他の様々な回路を含んでよい。システム2600は、少なくとも1つのメモリ2620(たとえば揮発性メモリデバイス、不揮発性メモリデバイス)も含んでよい。システム2600は更に、EEPROM、ROM、PROM、RAM、DRAM、SRAM、フラッシュ、磁気ディスクドライブ、および/または光学ディスクドライブを含むがこれに限定されない不揮発性メモリを含み得るストレージデバイス2640を含んでよい。ストレージデバイス2640は、非限定的な例として、内蔵ストレージデバイス、取付け型ストレージデバイス、および/またはネットワークアクセス可能ストレージデバイスを備えてよい。システム2600は、符号化されたビデオおよび/または復号されたビデオを提供するためにデータを処理するように構成されたエンコーダ/デコーダモジュール2630も含んでよく、エンコーダ/デコーダモジュール2630は、自身のプロセッサおよびメモリを含んでよい。
[137] エンコーダ/デコーダモジュール2630は、符号化および/または復号機能を行うためにデバイスに含まれ得るモジュール(複数も可)を表す。既知のように、そのようなデバイスは、符号化および復号モジュールのいずれかまたは両方を含んでよい。加えて、エンコーダ/デコーダモジュール2630は、当業者には既知であるように、システム2600の個別要素として実装され、あるいはハードウェアとソフトウェアとの組み合わせとして1または複数のプロセッサ2610内に組み込まれ得る。
[138] 上述した様々なプロセスを行うために1または複数のプロセッサ2610にロードされるプログラムコードは、ストレージデバイス2640に格納され、その後、プロセッサ2610による実行のためにメモリ2620にロードされ得る。典型的な実施形態によると、プロセッサ(複数も可)2610、メモリ2620、ストレージデバイス2640、およびエンコーダ/デコーダモジュール2630の1または複数は、入力されたビデオ、復号されたビデオ、ビットストリーム、等式、公式、メトリック、変数、動作、および動作論理を含むがこれに限定されない、上述したプロセスの遂行中の様々な事項の1または複数を格納してよい。
[139] システム2600は、通信チャネル2660を介して他のデバイスとの通信を可能にする通信インタフェース2650も含んでよい。通信インタフェース2650は、通信チャネル2660からのデータを送受信するように構成されたトランシーバを含んでよいが、これに限定されない。通信インタフェース2650は、モデムまたはネットワークカードを含んでよいがこれに限定されず、通信チャネル2650は、有線および/または無線媒体内に実装され得る。システム2600の様々な構成要素は、内部バス、ワイヤ、および印刷回路基板を含むがこれに限定されない様々な適切な接続を用いて、互いに接続または通信可能に結合され得る(図26には不図示)。
[140] 典型的な実施形態は、プロセッサ2610またはハードウェアによって実現されたコンピュータソフトウェアによって、またはハードウェアとソフトウェアとの組み合わせによって実行され得る。非限定的な例として、典型的な実施形態は、1または複数の集積回路によって実現され得る。メモリ2620は、技術環境に適した任意の型式であってよく、非限定的な例として、たとえば光学メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、および取外し可能メモリなどの任意の適当なデータ格納技術を用いて実現され得る。プロセッサ2610は、技術環境に適した任意の型式であってよく、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、およびマルチコアアーキテクチャに基づくプロセッサの1または複数を包含してよい。
[141] 本明細書で説明された実装は、たとえば方法またはプロセス、装置、ソフトウェアプログラム、データストリーム、または信号において実現され得る。単一形式の(たとえば方法としてのみ説明された)実現の文脈でしか説明されなくとも、説明された特徴の実現は、他の形式(たとえば装置またはプログラム)で実現されてもよい。装置は、たとえば適当なハードウェア、ソフトウェア、およびファームウェアにおいて実現され得る。方法は、たとえばコンピュータ、マイクロプロセッサ、集積回路、またはプログラマブルロジックデバイスを含む、一般に処理デバイスを指すたとえばプロセッサなどの装置において実現され得る。またプロセッサは、たとえばコンピュータ、携帯電話、ポータブル/パーソナルデジタルアシスタント(「PDA」)、およびエンドユーザ間の情報の通信をもたらす他のデバイスなどの通信デバイスも含む。
[142] また、当業者は、図1に示す典型的なHEVCエンコーダ100および図3に示す典型的なHEVCデコーダが、より良い圧縮/復元を実現するために既存のHEVC規格への開示される改善を実現するために、本開示の上記教示に従って修正され得ることを容易に理解し得る。たとえば、図1の典型的なエンコーダ100におけるエントロピー符号化145、動き補償170、および動き推定175、および図3の典型的なデコーダにおけるエントロピー復号330および動き補償375は、既存のJEMに高度なアフィン合併予測を提供することを含む本開示の1または複数の典型的な態様を実現するために、開示された教示に従って修正され得る。
[143] 「1つの実施形態」または「実施形態」または「1つの実装」または「実装」ならびにそれらの他の変化形への言及は、実施形態に関して説明された特定の特徴、構造、特性などが少なくとも1つの実施形態に含まれることを意味する。よって、本明細書を通して様々な箇所に見られる、「1つの実施形態において」または「実施形態において」または「1つの実装において」または「実装において」という表現ならびに他の任意の変化形の出現は、必ずしも全てが同じ実施形態に言及するものではない。
[144] 加えて、本出願または特許請求の範囲は、様々な情報を「決定すること」に言及し得る。情報を決定することは、たとえば情報を推定すること、情報を計算すること、情報を予測すること、または情報をメモリから取得することの1または複数を含んでよい。
[145] また、本出願または特許請求の範囲は、様々な情報に「アクセスすること」に言及し得る。情報にアクセスすることは、たとえば情報を受信すること、情報を(たとえばメモリから)取得すること、情報を格納すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、または情報を推定することの1または複数を含んでよい。
[146] 加えて、本出願または特許請求の範囲は、様々な情報を「受信すること」に言及し得る。受信することは、「アクセスすること」と同様、幅広い用語であることが意図される。情報を受信することは、たとえば情報にアクセスすること、または情報を(たとえばメモリから)取得することの1または複数を含んでよい。また、「受信すること」は一般に、たとえば情報を格納すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、または情報を推定することなどの動作中に、何らかで関与する。
[147] 当業者には明らかであるように、実装は、たとえば格納または送信され得る情報を搬送するためにフォーマット化された様々な信号を生成してよい。情報は、たとえば方法を行うための命令、または説明された実装の1つによって生成されたデータを含んでよい。たとえば信号は、説明された実施形態のビットストリームを搬送するためにフォーマット化され得る。そのような信号は、たとえば(たとえばスペクトルの無線周波数部分を用いて)電磁波として、またはベースバンド信号としてフォーマット化され得る。フォーマット化は、たとえば、データストリームを符号化すること、および符号化されたデータストリームを用いて搬送波を変調することを含んでよい。信号が搬送する情報は、たとえばアナログまたはデジタル情報であってよい。信号は、既知のように、異なる様々な有線または無線リンクを介して送信され得る。信号は、プロセッサ可読媒体に格納され得る。


Claims (15)

  1. ビデオ符号化のための方法であって、
    ピクチャ内の符号化されるブロックに関して、複数の予測子候補を有する予測子候補のセットにアクセスすることであって、予測子候補は、符号化された空間または時間的隣接ブロックに対応することと、
    前記予測子候補のセットから予測子候補を選択することと、
    前記予測子候補のセットから前記選択された予測子候補に関連する複数の動きベクトルを用いて、前記ブロックに関する制御点動きベクトルのセットを得ることと、
    前記制御点動きベクトルのセットに基づいて、動きモデルに基づく動きフィールドを得ることであって、前記動きフィールドは、前記符号化されるブロックのサブブロックの予測のために用いられた動きベクトルを識別することと、
    前記動きフィールドに基づいて前記ブロックを符号化することと、
    前記予測子候補のセットから前記選択された予測子候補に関するインデックスを符号化することと
    を備える方法。
  2. ビデオ復号のための方法であって、
    ピクチャ内の復号されるブロックに関して、予測子候補に対応するインデックスにアクセスすることであって、前記予測子候補は、復号された空間または時間的隣接ブロックに対応することと、
    前記予測子候補に関連する複数の動きベクトルを用いて、前記復号されるブロックに関する制御点動きベクトルのセットを得ることと、
    前記制御点動きベクトルのセットに基づいて、動きモデルに基づく動きフィールドを得ることであって、前記動きフィールドは、前記復号されるブロックのサブブロックの予測のために用いられた動きベクトルを識別することと、
    前記動きフィールドに基づいて前記ブロックを復号することと
    を備える方法。
  3. ビデオ符号化のための装置であって、
    ピクチャ内の符号化されるブロックに関して、符号化された空間または時間的隣接ブロックに対応する複数の予測子候補を有する予測子候補のセットにアクセスするための手段と、
    前記予測子候補のセットから予測子候補を選択するための手段と、
    前記予測子候補のセットから前記選択された予測子候補に関連する複数の動きベクトルを用いて、前記ブロックに関する制御点動きベクトルのセットを得るための手段と、
    前記制御点動きベクトルのセットに基づいて、前記符号化されるブロックのサブブロックの予測のために用いられた動きベクトルを識別する、動きモデルに基づく動きフィールドを得るための手段と、
    前記動きフィールドに基づいて前記ブロックを符号化するための手段と、
    前記予測子候補のセットから前記選択された予測子候補に関するインデックスを符号化するための手段と
    を備える装置。
  4. ビデオ復号のための装置であって、
    ピクチャ内の復号されるブロックに関して、復号された空間または時間的隣接ブロックに対応する予測子候補に対応するインデックスにアクセスするための手段と、
    前記予測子候補に関連する複数の動きベクトルを用いて、前記復号されるブロックに関する制御点動きベクトルのセットを得るための手段と、
    前記制御点動きベクトルのセットに基づいて、前記復号されるブロックのサブブロックの予測のために用いられた動きベクトルを識別する、動きモデルに基づく動きフィールドを得るための手段と、
    前記動きフィールドに基づいて前記ブロックを復号するための手段と
    を備える装置。
  5. 1または複数の基準に従い、かつ前記複数の予測子候補の各々に関する前記動きフィールドに基づいて、前記複数の予測子候補を評価することと、
    前記評価に基づいて、前記複数の予測子候補から前記予測子候補を選択することと
    を更に備える、請求項1に記載の符号化方法。
  6. 1または複数の基準に従い、かつ前記複数の予測子候補の各々に関する前記動きフィールドに基づいて、前記複数の予測子候補を評価するための手段と、
    前記評価に基づいて、前記複数の予測子候補から前記予測子候補を選択するための手段と
    を更に備える、請求項3に記載の符号化装置。
  7. 前記1または複数の基準は、前記予測子候補のセットにおける前記複数の予測子候補の1または複数に対応するレート歪み決定に基づく、請求項5~6に記載の方法または装置。
  8. 前記動きフィールドに基づいて前記ブロックを復号または符号化することは、それぞれ、前記サブブロックに関する予測子に基づいて、前記動きベクトルによって示されている前記予測子を復号または符号化することを備える、請求項1、2、および5~7のいずれか1項に記載の方法。
  9. 前記予測子候補のセットは、前記符号化または復号されるブロックの空間候補および/または時間候補を備える、請求項1、2、および5~8のいずれか1項に記載の方法または請求項3~8のいずれか1項に記載の装置。
  10. 前記動きモデルはアフィンモデルである、請求項1、2、および5~9のいずれか1項に記載の方法または請求項3~9のいずれか1項に記載の装置。
  11. 前記符号化または復号されるブロック内の各位置(x,y)に関する前記動きフィールドは、
    Figure 2023098974000035

    によって決定され、式中、(v0x,v0y)および(v1x,v1y)は、前記動きフィールドを生成するために用いられた前記制御点動きベクトルであり、(v0x,v0y)は、前記符号化または復号されるブロックの左上角部の前記制御点動きベクトルに対応し、(v1x,v1y)は、前記符号化または復号されるブロックの右上角部の前記制御点動きベクトルに対応し、wは、前記符号化または復号されるブロックの幅である、請求項1、2、および5~10のいずれか1項に記載の方法または請求項3~10のいずれか1項に記載の装置。
  12. 1または複数の追加の予測子候補が選択され、前記1または複数の追加の予測子候補に対応して1または複数の追加の制御点動きベクトルのセットが得られ、前記動きフィールドは、前記1または複数の追加の制御点動きベクトルのセットに更に基づいて得られる、請求項1、2、および5~11のいずれか1項に記載の方法または請求項3~11のいずれか1項に記載の装置。
  13. 請求項1、2、および5~12のいずれかに記載の方法に従って生成されたデータコンテンツを含む非一時的コンピュータ可読媒体。
  14. 請求項1、2、および5~12のいずれかに記載の方法に従って生成されたビデオデータを備える信号。
  15. 1または複数のプロセッサによって実行されると、請求項1、2、および5~12のいずれかに記載の方法を行うための命令を備えるコンピュータプログラム製品。
JP2023063148A 2017-06-26 2023-04-10 動き補償のための複数の予測子候補 Pending JP2023098974A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP17305797.7A EP3422720A1 (en) 2017-06-26 2017-06-26 Multiple predictor candidates for motion compensation
EP17305797.7 2017-06-26
EP18305386.7 2018-03-30
EP18305386 2018-03-30
JP2019569371A JP7261750B2 (ja) 2017-06-26 2018-06-25 動き補償のための複数の予測子候補

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019569371A Division JP7261750B2 (ja) 2017-06-26 2018-06-25 動き補償のための複数の予測子候補

Publications (1)

Publication Number Publication Date
JP2023098974A true JP2023098974A (ja) 2023-07-11

Family

ID=64741162

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019569371A Active JP7261750B2 (ja) 2017-06-26 2018-06-25 動き補償のための複数の予測子候補
JP2023063148A Pending JP2023098974A (ja) 2017-06-26 2023-04-10 動き補償のための複数の予測子候補

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019569371A Active JP7261750B2 (ja) 2017-06-26 2018-06-25 動き補償のための複数の予測子候補

Country Status (6)

Country Link
US (3) US11245921B2 (ja)
EP (1) EP3646598A1 (ja)
JP (2) JP7261750B2 (ja)
CN (1) CN110870314B (ja)
RU (1) RU2770185C2 (ja)
WO (1) WO2019002215A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3468195A1 (en) 2017-10-05 2019-04-10 Thomson Licensing Improved predictor candidates for motion compensation
WO2019229683A1 (en) 2018-05-31 2019-12-05 Beijing Bytedance Network Technology Co., Ltd. Concept of interweaved prediction
JP7104186B2 (ja) 2018-06-05 2022-07-20 北京字節跳動網絡技術有限公司 Ibcとatmvpとの間でのインタラクション
TWI706670B (zh) * 2018-06-19 2020-10-01 大陸商北京字節跳動網絡技術有限公司 廣義運動向量差解析度
CN110636298B (zh) 2018-06-21 2022-09-13 北京字节跳动网络技术有限公司 对于Merge仿射模式和非Merge仿射模式的统一约束
TWI729422B (zh) 2018-06-21 2021-06-01 大陸商北京字節跳動網絡技術有限公司 色彩分量間的子區塊移動向量繼承
BR112021003917A2 (pt) * 2018-08-28 2021-05-18 Huawei Technologies Co., Ltd. método e aparelho para construir lista de informações de movimentos de candidatos, método de inter predição, e aparelho
CN116033150A (zh) 2018-09-08 2023-04-28 北京字节跳动网络技术有限公司 不同视频块尺寸的仿射模式计算
CN112703733A (zh) 2018-09-21 2021-04-23 交互数字Vc控股公司 一统一列表中的平移和仿射候选
WO2020058954A1 (en) * 2018-09-23 2020-03-26 Beijing Bytedance Network Technology Co., Ltd. Representation of affine model
GB2591906B (en) 2018-09-24 2023-03-08 Beijing Bytedance Network Tech Co Ltd Bi-prediction with weights in video coding and decoding
CN111083485A (zh) 2018-10-22 2020-04-28 北京字节跳动网络技术有限公司 仿射模式的运动信息的利用
CN112997480B (zh) 2018-11-10 2023-08-22 北京字节跳动网络技术有限公司 成对平均候选计算中的取整
EP3895430A4 (en) * 2018-12-13 2022-10-12 Beijing Dajia Internet Information Technology Co., Ltd. METHOD FOR DRIVING CONSTRUCTED AFFINE FUSION CANDIDATES
CN113597760A (zh) * 2019-01-02 2021-11-02 北京字节跳动网络技术有限公司 视频处理的方法
WO2020173477A1 (en) * 2019-02-27 2020-09-03 Beijing Bytedance Network Technology Co., Ltd. Regression-based motion vector field based sub-block motion vector derivation
US11394999B2 (en) * 2019-03-11 2022-07-19 Alibaba Group Holding Limited Method, device, and system for determining prediction weight for merge mode
WO2020184953A1 (ko) 2019-03-12 2020-09-17 엘지전자 주식회사 쌍 예측을 위한 가중치 인덱스 정보를 유도하는 비디오 또는 영상 코딩
WO2020187199A1 (en) * 2019-03-17 2020-09-24 Beijing Bytedance Network Technology Co., Ltd. Calculation of prediction refinement based on optical flow
BR112021021337A2 (pt) * 2019-04-25 2022-01-18 Op Solutions Llc Codificação eficiente de vetores de movimento global
EP3985981A4 (en) * 2019-06-14 2023-04-19 Lg Electronics Inc. IMAGE DECODER METHOD AND APPARATUS FOR DRIVING WEIGHTING INDEX INFORMATION FOR WEIGHTED AVERAGE WHEN BI-PREDICTION IS APPLIED
KR20220024773A (ko) * 2019-06-24 2022-03-03 알리바바 그룹 홀딩 리미티드 동영상 코딩시 모션 필드 저장 방법 및 장치
WO2023055149A1 (ko) * 2021-09-29 2023-04-06 엘지전자 주식회사 영상 인코딩/디코딩 방법 및 장치, 그리고 비트스트림을 저장한 기록 매체

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0894403B1 (en) 1996-04-19 2002-08-28 Nokia Corporation Video encoder and decoder using motion-based segmentation and merging
US20050013498A1 (en) * 2003-07-18 2005-01-20 Microsoft Corporation Coding of motion vector information
US8064520B2 (en) 2003-09-07 2011-11-22 Microsoft Corporation Advanced bi-directional predictive coding of interlaced video
US7567617B2 (en) 2003-09-07 2009-07-28 Microsoft Corporation Predicting motion vectors for fields of forward-predicted interlaced video frames
US9083983B2 (en) * 2011-10-04 2015-07-14 Qualcomm Incorporated Motion vector predictor candidate clipping removal for video coding
US10110915B2 (en) * 2012-10-03 2018-10-23 Hfi Innovation Inc. Method and apparatus for inter-component motion prediction in three-dimensional video coding
WO2014120369A1 (en) * 2013-01-30 2014-08-07 Intel Corporation Content adaptive partitioning for prediction and coding for next generation video
US9438910B1 (en) * 2014-03-11 2016-09-06 Google Inc. Affine motion prediction in video coding
RU2577486C2 (ru) 2014-07-10 2016-03-20 Самсунг Электроникс Ко., Лтд. Способ автоматического извлечения индексов ключевых кадров для расширения видеоданных
CN107809642B (zh) * 2015-02-16 2020-06-16 华为技术有限公司 用于视频图像编码和解码的方法、编码设备和解码设备
CN110557631B (zh) * 2015-03-10 2023-10-20 华为技术有限公司 图像预测方法和相关设备
US10798403B2 (en) * 2016-01-29 2020-10-06 Sharp Kabushiki Kaisha Prediction image generation device, video decoding device, and video coding device
CN111556323B (zh) * 2016-02-06 2022-05-13 华为技术有限公司 图像编解码方法及装置
EP3414900A4 (en) * 2016-03-15 2019-12-11 Mediatek Inc. METHOD AND DEVICE FOR VIDEO CODING WITH AFFINE MOTION COMPENSATION
US10560712B2 (en) * 2016-05-16 2020-02-11 Qualcomm Incorporated Affine motion prediction for video coding
US10462462B2 (en) * 2016-09-29 2019-10-29 Qualcomm Incorporated Motion vector difference coding technique for video coding
US10448010B2 (en) * 2016-10-05 2019-10-15 Qualcomm Incorporated Motion vector prediction for affine motion models in video coding
US10681370B2 (en) * 2016-12-29 2020-06-09 Qualcomm Incorporated Motion vector generation for affine motion model for video coding
US10873744B2 (en) * 2017-01-03 2020-12-22 Lg Electronics Inc. Method and device for processing video signal by means of affine prediction

Also Published As

Publication number Publication date
RU2770185C2 (ru) 2022-04-14
RU2020102878A (ru) 2021-07-27
JP2020526066A (ja) 2020-08-27
CN110870314B (zh) 2024-04-02
CN110870314A (zh) 2020-03-06
US20200221120A1 (en) 2020-07-09
US11245921B2 (en) 2022-02-08
WO2019002215A1 (en) 2019-01-03
US11785250B2 (en) 2023-10-10
EP3646598A1 (en) 2020-05-06
US20230421801A1 (en) 2023-12-28
JP7261750B2 (ja) 2023-04-20
US20220116654A1 (en) 2022-04-14
RU2020102878A3 (ja) 2021-10-13

Similar Documents

Publication Publication Date Title
JP7261750B2 (ja) 動き補償のための複数の予測子候補
JP7474365B2 (ja) 動き補償用の改善されたプレディクタ候補
CN111418209B (zh) 用于视频编码和视频解码的方法和装置
US20200014931A1 (en) Methods and Apparatuses of Generating an Average Candidate for Inter Picture Prediction in Video Coding Systems
EP3422720A1 (en) Multiple predictor candidates for motion compensation
JP7248664B2 (ja) ビデオ符号化および復号における適応的照度補償のための方法および装置
EP3468193A1 (en) Method and apparatus for adaptive illumination compensation in video encoding and decoding
US11240505B2 (en) Automated scanning order for sub-divided blocks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230510

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240501

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240521