JP2025517841A - ビデオ符号化及び復号のための方法及びコンピュータプログラム - Google Patents
ビデオ符号化及び復号のための方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2025517841A JP2025517841A JP2024515303A JP2024515303A JP2025517841A JP 2025517841 A JP2025517841 A JP 2025517841A JP 2024515303 A JP2024515303 A JP 2024515303A JP 2024515303 A JP2024515303 A JP 2024515303A JP 2025517841 A JP2025517841 A JP 2025517841A
- Authority
- JP
- Japan
- Prior art keywords
- candidates
- sbtmvp
- candidate
- coding block
- current coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
- H04N19/517—Processing of motion vectors by encoding
- H04N19/52—Processing of motion vectors by encoding by predictive encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/88—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本開示の態様は、ビデオ符号化/復号のための方法及び装置を提供する。装置は:コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取ることであって、予測情報は、現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされることを示すことと;複数の変位ベクトル(DV)オフセットを現在のコーディングブロックの固定DV予測器に適用することによって、複数のDV候補を導出することと;現在のコーディングブロックのテンプレートを複数のDV候補の各々と比較することであって、複数のテンプレートの各テンプレートは、複数のDV候補のうちの対応する1つによって指定された位置に配置されることと;比較に基づいて、複数のDV候補の各々1つに関連付けられるコスト値を計算することと;複数のDV候補のDVオフセットインデックスを、それらの計算されたコスト値に基づいて並べ替えることのための処理回路を含む。
Description
本出願は、2022年5月26日に出願された「SUBBLOCK BASED MOTION VECTOR PREDICTOR DISPLACEMENT VECTOR REORDERING USING TEMPLATE MATCHING」という名称の米国仮出願第63/346,283号の優先権を主張する、2022年11月10日に出願された米国特許出願第17/985127号、「SUBBLOCK BASED MOTION VECTOR PREDICTOR DISPLACEMENT VECTOR REORDERING USING TEMPLATE MATCHING」に対する優先権の利益を主張する。先の出願の開示は、その全体が参照により本明細書に組み込まれる。
本出願は、一般的にビデオコーディングに関連する態様を説明する。
本明細書で提供される背景説明は、本開示の文脈を一般的に提示するためのものである。現在名前を挙げられている発明者の研究は、その研究がこの背景技術に記載された範囲において、出願時に先行技術として通常見なされ得ない記載の態様とともに、明示的にも暗黙的にも本開示に対する先行技術として認められない。
非圧縮デジタル画像及び/又はビデオは、一連のピクチャを含むことができ、各ピクチャは、例えば1920×1080の輝度サンプル及び関連するクロミナンスサンプルの空間寸法を有する。一連のピクチャは、例えば毎秒60ピクチャ又は60Hzの固定又は可変ピクチャレート(非公式にフレームレートとしても知られる)を有することができる。非圧縮画像及び/又はビデオは、特定のビットレート要件を有する。例えばサンプル当たり8ビットの1080p60 4:2:0ビデオ(60Hzのフレームレートでの1920×1080の輝度サンプル解像度)は、1.5Gbit/sに近い帯域幅を必要とする。このようなビデオの1時間は、600Gバイトを超える記憶領域を必要とする。
画像及び/又はビデオコーディング及び復号の1つの目的は、圧縮を通した、入力画像及び/又はビデオ信号の冗長性の低減である可能性がある。圧縮は、前述の帯域幅及び/又は記憶領域の要件を、場合によっては2桁以上低減するのを助けることができる。ここでの説明は、例示的な例としてビデオ符号化/復号を使用するが、本開示の精神から逸脱することなく、同じ技術を同様の方法で画像符号化/復号に適用することができる。可逆圧縮と非可逆圧縮の両方、並びにそれらの組合せを採用することができる。可逆圧縮は、圧縮された元の信号から元の信号の正確なコピーを再構成することができる技術を指す。非可逆圧縮を使用するとき、再構成信号は、元の信号と同一でない可能性はあるが、元の信号と再構成信号との間の歪みは、再構成信号を、意図されるアプリケーションに有用であるようにするために十分に小さい。ビデオの場合、非可逆圧縮は広く使用される。許容される歪み量はアプリケーションに依存し、例えば特定の消費者ストリーミングアプリケーションのユーザは、テレビジョン分配アプリケーションのユーザよりも高い歪みを許容し得る。達成可能な圧縮比は、より高い許容可能な/容認可能な歪みが、より高い圧縮比をもたらすことができることを反映する可能性がある。
ビデオエンコーダ及びデコーダは、例えば動き補償、変換処理、量子化及びエントロピーコーディングを含む、いくつかの広範なカテゴリからの技術を利用することができる。
ビデオコーデック技術は、イントラコーディングとして知られる技術を含むことができる。イントラコーディングでは、サンプル値は、以前に再構成された参照ピクチャからのサンプル又は他のデータを参照することなく表される。いくつかのビデオコーデックでは、ピクチャはサンプルのブロックに空間的に細分される。イントラモードでサンプルのすべてのブロックがコーディングされるとき、そのピクチャはイントラピクチャとすることができる。独立デコーダリフレッシュピクチャ(independent decoder refresh pictures)のようなイントラピクチャ及びそれらの派生物を使用して、デコーダ状態をリセットすることができ、したがって、コーディングされたビデオビットストリーム及びビデオセッションにおける最初のピクチャとして、あるいは静止画像として使用することができる。イントラブロックのサンプルに、変換を受けさせることができ、変換係数を、エントロピーコーディングの前に量子化することができる。イントラ予測は、事前変換領域(pre-transform domain)におけるサンプル値を最小化する技術であり得る。場合によっては、変換後のDC値がより小さく、AC係数がより小さいほど、エントロピーコーディング後のブロックを表すために所与の量子化ステップサイズで必要とされるビット数は少ない。
例えばMPEG-2世代のコーディング技術で使用される伝統的なイントラコーディングは、イントラ予測を使用しない。しかしながら、いくつかのより新しいビデオ圧縮技術は、データのブロックの符号化及び/又は復号中に取得される、周囲のサンプルデータ及び/又はメタデータに基づいて予測を実行するよう試みる技術を含む。このような技術は、以下では「イントラ予測」技術と呼ばれる。少なくともいくつかの場合には、イントラ予測は、再構成中の現在のピクチャからの参照データのみを使用し、参照ピクチャからのものは使用しないことに留意されたい。
多くの異なる形式のイントラ予測が存在し得る。所与のビデオコーディング技術において、そのような技術のうちの2つ以上を使用することができるとき、使用中の特定の技術を、該特定の技術を使用する特定のイントラ予測モードとしてコーディングすることができる。ある場合には、イントラ予測モードは、サブモード及び/又はパラメータを有することができ、ここで、サブモード及び/又はパラメータを個々にコーディングするか又はモードコードワード(mode codeword)に含めることができ、該モードコードワードは、使用されている予測モードを定義する。どのコードワードを、所与のモード/サブモード及び/又はパラメータの組合せに使用するかは、イントラ予測を通したコーディング効率ゲインに影響を与える可能性があり、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術も同様であり得る。
イントラ予測の特定のモードは、H.264で導入され、H.265で精査され、JEM(joint exploration model)、VVC(versatile video coding)及びベンチマークセット(BMS:benchmark set)のようなより新しいコーディング技術で更に精査された。既に利用可能なサンプルの隣接するサンプル値を使用して、予測器ブロック(predictor block)を形成することができる。隣接するサンプルのサンプル値は、方向に従って予測器ブロックにコピーされる。使用中の方向への参照は、ビットストリームでコーディングされることができるか又はそれ自体が予測され得る。
図1Aを参照すると、右下に示されているのは、H.265で定義される、33の可能な予測器方向(predictor directions)(35のイントラモードの33の角度モードに対応する)からわかる、9つの予測器方向のサブセットである。矢印が収束する点(101)は、予測されているサンプルを表す。矢印は、サンプルが予測されている方向を表す。例えば矢印(102)は、サンプル(101)が、1つのサンプル又は複数のサンプルから右上へ、水平から45度の角度で予測されることを示す。同様に、矢印(103)は、サンプル(101)が、1つのサンプル又は複数のサンプルからサンプル(101)の左下へ、水平から22.5度の角度で予測されることを示す。
引き続き図1Aを参照すると、左上には、4×4サンプルの正方形ブロック(104)が示されている(破線の太線で示されている)。正方形ブロック(104)は、16個のサンプルを含み、各々「S」と、Y次元におけるその位置(例えば行インデックス)と、X次元におけるその位置(例えば列インデックス)とでラベリングされている。例えばサンプルS21は、Y次元の(上から)2番目のサンプル及びX次元の(左から)1番目のサンプルである。同様に、サンプルS44は、Y及びX次元の両方においてブロック(104)の4番目のサンプルである。ブロックのサイズが4×4サンプルであるので、S44は右下にある。さらに、同様のナンバリングスキームに従う参照サンプルが示されている。参照サンプルは、ブロック(104)に対するR、そのY位置(例えば行インデックス)及びX位置(列インデックス)でラベリングされる。H.264とH.265の両方において、予測サンプルは再構成中のブロックに隣接し、したがって、負の値は使用される必要がない。
イントラピクチャ予測は、シグナリングされる予測方向によって示されるように、隣接するサンプルから参照サンプル値をコピーすることによって機能することができる。例えばコーディングされたビデオビットストリームが、このブロックに対して、矢印(102)と一致する予測方向を示すシグナリングを含むと仮定する、すなわち、サンプルは、予測サンプルから右上へ、水平から45度の角度で予測される。この場合、サンプルS41、S32、S23、S14は、同じ参照サンプルR05から予測される。次いで、サンプルS44は、参照サンプルR08から予測される。
ある場合には、特に方向が45度で均一に割り切れないときは、参照サンプルを計算するために、複数の参照サンプルの値が、例えば補間(interpolation)を通して組み合わされ得る。
ビデオコーディング技術が発展するにつれて、可能な方向の数が増えている。H.264(2003年)では、9つの異なる方向を表すことができる。これは、H.265(2013年)では33に増加している。現在、JEM/VVC/BMSは、最大65の方向をサポートすることができる。実験は、最も可能性がある方向を識別するために実施され、エントロピーコーディングにおける特定の技術は、それらの最も可能性がある方向を少数のビットで表すために使用され、より可能性が少ない方向に対して特定のペナルティを受け入れる。さらに、時には方向それ自体を、隣接する既に復号されたブロックにおいて使用される隣接方向から予測することができる。
図1Bは、JEMに従う65のイントラ予測方向を示す概略(110)を示しており、経時的な予測方向の数の増加を例示す。
コーディングされたビデオビットストリーム内の、方向を表すイントラ予測方向ビットのマッピングは、ビデオコーディング技術ごとに異なる可能性がある。そのようなマッピングは、例えば単純な直接マッピングからコードワードへ、最確モード(most probable mode)を含む複雑な適応スキームへ及び類似の技術に及ぶ可能性がある。しかしながら、ほとんどの場合において、特定の他の方向よりもビデオコンテンツ内において生じる可能性が統計的に低い、特定の方向が存在する可能性がある。ビデオ圧縮の目標は冗長性の低減であるので、それらのより可能性が低い方向は、良好に機能するビデオコーディング技術では、より可能性が高い方向よりも多くのビット数によって表される。
画像及び/又はビデオコーディング及び復号は、動き補償を伴うインターピクチャ予測を使用して実行される可能性ができる。動き補償は、非可逆圧縮技術であり得、以前に再構成されたピクチャ又はその一部(参照ピクチャ)からのサンプルデータのブロックが、動きベクトル(以下、MV)によって示される方向に空間的にシフトされた後に、新たに再構成されたピクチャ又はピクチャの一部の予測に使用される技術に関連する可能性がある。場合によっては、参照ピクチャは、現在再構成中のピクチャと同じものとすることができる。MVは、2次元X及びY又は3次元を有することができ、3番目の次元(third)は、使用中の参照ピクチャの指示である(後者は、間接的に、時間次元である可能性がある)。
いくつかのビデオ圧縮技術では、サンプルデータのあるエリアに適用可能なMVを、他のMVから、例えば再構成中のエリアに空間的に隣接し、かつ復号順序でそのMVに先行するサンプルデータの別のエリアに関連するMVから、予測することができる。そうすることは、MVをコーディングするために必要とされるデータの量を実質的に減少させることができ、それによって、冗長性を除去して、圧縮を高めることができる。MV予測は効果的に機能することができる。なぜなら、例えばカメラから導出される入力ビデオ信号(自然ビデオとして知られる)をコーディングする際に、単一のMVが適用可能なエリアよりも大きいエリアが、同様の方向に移動するという統計的可能性が存在し、したがって、場合によって、隣接するエリアのMVから導出される同様の動きベクトルを用いて予測をすることができるからである。その結果、所与のエリアについて見出されるMVは、周囲のMVから予測されるMVと類似又は同一であり、その後、これは、エントロピーコーディングの後、MVを直接コーディングする場合に使用されるであろうものよりも、より少ない数のビットで表現することができる。場合によって、MV予測は、元の信号(すなわち、サンプルストリーム)から導出される信号(すなわち、MV)の可逆圧縮の例であり得る。他の場合には、MV予測それ自体は、例えばいくつかの周囲のMVから予測器を計算する際の丸め誤差のために、非可逆あり得る。
様々なMV予測メカニズムが、H.265/HEVC(ITU-T Rec. H.265、「High Efficiency Video Coding」、2016年12月)において説明されている。H.265が提案する多くのMV予測メカニズムのうち、図2に関連して説明されるのは「空間マージ(spatial merge)」と呼ばれる技術である。
図2を参照すると、現在のブロック(201)は、エンコーダによって、動き探索プロセス中に、空間的にシフトされた同じサイズの前のブロックから予測可能であることが見出されたサンプルを含む。そのMVを直接コーディングする代わりに、MVを、1つ以上の参照ピクチャに関連付けられるメタデータから、例えば(復号順序で)最新の参照ピクチャから、A0、A1及びB0、B1、B2(それぞれ202から206)と示される5つの周囲のサンプルのいずれか1つに関連付けられるMVを使用して導出することができる。H.265では、MV予測は、隣接ブロックが使用しているものと同じ参照ピクチャからの予測器を使用することができる。
本開示の態様は、ビデオ符号化及び復号のための方法及び装置を提供する。いくつかの例において、装置は処理回路を含む。処理回路は、コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取るように構成され、予測情報は、現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP、subblock-based temporal motion vector prediction)モードを使用してコーディングされることを示す。処理回路は、コーディングされたビデオビットストリームから、複数のDVオフセットを取得し、ここで、各DVオフセットは変位ベクトル候補に対応し、複数のDVオフセットを現在のコーディングブロックの固定DV予測器(fixed DV predictor)に適用することによって、複数の変位ベクトル(DV、displacement vector)候補を導出するように更に構成される。処理回路は、現在のコーディングブロックのテンプレートを複数のテンプレートの各々と比較するように更に構成され、複数のテンプレートの各テンプレートは、複数のDV候補のうちの対応する1つによって指定された位置に配置される。処理回路は、比較に基づいて、複数のDV候補の各々1つに関連付けられるコスト値を計算するように更に構成される。処理回路は、複数のDV候補のDVオフセットインデックスを、それらの計算されたコスト値に基づいて並べ替え、並べ替えられたDVオフセットインデックスから選択されたDVオフセットインデックスに少なくとも基づいて、SbTMVPモードにおける現在のコーディングブロックを予測するように更に構成される。
いくつかの態様において、処理回路は、コーディングされたビデオビットストリームでシグナリングされるインデックスを受け取るように更に構成され、ここで、インデックスは、SbTMVPを実行するために、並べ替えられたDVオフセットインデックスの中からどのDVオフセット候補が選択されるかを示す。
いくつかの態様において、上記並べ替えの後、処理回路は、SbTMVPを実行するために、デフォルトで、最も低い計算されたテンプレートマッチングコストを有するDVオフセット候補を選択するように更に構成される。
いくつかの態様において、コスト値は、絶対差分和(SAD、Sum of Absolute Differences)、絶対変換差分和(SATD、Sum of Absolute Transformed Differences)、二乗誤差分和(SSE、Sum of Squared Error)、サブサンプルSAD又は平均除去(mean-removed)SADを実行することによって計算される。
いくつかの態様において、複数のDV候補は、動きベクトル差分によるマージ(MMVD、Merge with Motion Vector Difference)候補を含む。
いくつかの態様において、上記の比較、上記の計算及び上記の並べ替えは、MMVD候補のサブセットにのみに対して実行され、MMVD候補のうちの1つ以上の他のMMVD候補の相対的順序は変更されずに維持される。
いくつかの態様において、上記の比較、上記の計算及び上記の並べ替えは、MMVD候補のすべてに対して実行され、上記並べ替えの後、最も低いコストを有するMMVD候補のうちのN個のみが使用され、数Nは、MMVD候補の総数以下である。
いくつかの態様において、どのMMVD候補が使用されるかを示すために、[0,N-1]の範囲のインデックスがビットストリームにシグナリングされ、数Nは予め定義されるか、又は高レベル構文にシグナリングされる。
いくつかの態様において、DVオフセットインデックスは、それらの計算されたコスト値の降順又は昇順によって並べ替えられる。
本開示の更なる態様は、ビデオ符号化及び復号のための方法及び装置を提供する。いくつかの例において、装置は処理回路を含む。処理回路は、コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取るように構成され、予測情報は、現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされていることを示す。処理回路は、現在のコーディングブロックのテンプレートを複数のテンプレートの各々と比較するように更に構成され、複数のテンプレートの各テンプレートは、複数の変位ベクトル(DV)予測器候補のうちの対応する1つによって指定された位置に配置される。処理回路は、比較に基づいて、複数のDV予測器候補の各々1つに関連付けられるコスト値を計算するように更に構成される。処理回路は、複数のDV予測器候補のリストを、それらの計算されたコスト値に基づいて並べ替え、複数のDV予測器候補の並べ替えられたリストから選択されたDV予測器に少なくとも基づいて、SbTMVPモードにおける現在のコーディングブロックを予測/再構築するように更に構成される。
いくつかの態様において、処理回路は、コーディングされたビデオビットストリームでシグナリングされるインデックスを受け取るように更に構成され、インデックスは、SbTMVPを実行するために、複数のDV予測器候補の並べ替えられたリストからどのDV予測器候補が選択されるかを示す。
いくつかの態様において、上記並べ替えの後、処理回路は、SbTMVPを実行するために、デフォルトで、最も低い計算されたテンプレートマッチングコストを有するDV予測器候補を選択するように更に構成される。
いくつかの態様において、複数のDV予測器候補のリストは、空間隣接コーディングユニット(CU)から、あるいは履歴ベースの動きベクトル予測(HMVP、history-based motion vector prediction)候補から構築される、
いくつかの態様において、並べ替えの後、リスト上の複数のDV予測器候補のうちの最初のN個のみがシグナリングされる。
いくつかの態様において、リスト内の複数のDV予測器候補は、それらの計算されたコスト値の降順又は昇順によって並べ替えられる。
本開示の更なる態様は、ビデオ符号化及び復号のための方法及び装置を提供する。いくつかの例において、装置は処理回路を含む。処理回路は、コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取るように構成され、予測情報は、現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされていることを示す。処理回路は、現在のコーディングブロックの複数の変位ベクトル(DV)候補を含むSbTMVP候補リストを生成するように更に構成され、SbTMVP候補リストは、いずれのDVオフセットも適用せずに導出された少なくとも1つのDV予測器候補と、DVオフセットをベースDV予測器(base DV predictor)に適用することによって導出された少なくとも1つの他のDV予測器候補とを含む。処理回路は、現在のコーディングブロックのテンプレートを複数のテンプレートの各々と比較するように更に構成され、複数のテンプレートの各テンプレートは、SbTMVP候補リスト内の複数のDV候補のうちの対応する1つによって指定された位置に配置される。処理回路は、比較に基づいて、複数のDV候補の各々1つに関連付けられるコスト値を計算するように更に構成される。処理回路は、SbTMVP候補リストの複数のDV候補を、それらの計算されたコスト値に基づいて並べ替えるように更に構成される。
いくつかの態様において、処理回路は、コーディングされたビデオビットストリームでシグナリングされたインデックスを受け取るように更に構成され、インデックスは、SbTMVPを実行するために、並べ替えられたSbTMVP候補リストからどのDV候補が選択されるかを示す。
いくつかの態様において、選択されたDV候補は、いかなるDVオフセットも適用せずに導出されたSbTMVP DV候補であるか、あるいはそれぞれのDVオフセットをそれぞれのベースDV予測器に適用することによって導出されたSbTMVP MMVD(Merge with Motion Vector Difference)候補である。
いくつかの態様において、選択されたDV候補がSbTMVP MMVD候補であるとき、それぞれのベースDV予測器のシグナリングと、それぞれのDVオフセットのインデックスのシグナリングは、別々に実行される。
いくつかの態様において、SbTMVP候補リストは、候補のテンプレートマッチングベースの並べ替えが現在のフレームに対して可能にされるとき、アフィンマージ候補リストとは独立に構築され、サブブロックマージモードがシグナリングされるとき、SbTMVP候補リストを構築するか又はアフィンマージ候補リストを構築するかを示すために、追加の構文がコーディングブロックレベルでシグナリングされる。
本開示の態様はまた、上記の方法のいずれか1つを実行するために少なくとも1つのプロセッサによって実行可能なプログラムを記憶する非一時的コンピュータ読取可能記憶媒体も提供する。
開示される主題の更なる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになる。
図3は、通信システム(300)の例示のブロック図を示す。通信システム(300)は、例えばネットワーク(350)を介して互いに通信することができる複数の端末デバイスを含む。例えば通信システム(300)は、ネットワーク(350)を介して相互接続される第1の対の端末デバイス(310)及び(320)を含む。図3の例では、第1の対の端末デバイス(310)及び(320)は、データの一方向伝送を実行する。例えば端末デバイス(310)は、ネットワーク(350)を介して他の端末デバイス(320)に伝送するために、ビデオデータ(例えば端末デバイス(310)によってキャプチャされるビデオピクチャのストリーム)をコーディングし得る。符号化されたビデオデータは、1つ以上のコーディングされたビデオビットストリームの形態で伝送することができる。端末デバイス(320)は、ネットワーク(350)からコーディングされたビデオデータを受け取ることができ、コーディングされたビデオデータを復号して、ビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャを表示す。一方向データ伝送は、メディア供給アプリケーション等において一般的であり得る。
別の例では、通信システム(300)は、例えばビデオ会議中に、コーディングされたビデオデータの双方向伝送を実行する、第2の対の端末デバイス(330)及び(340)を含む。データの双方向伝送のために、一例では、端末デバイス(330)及び(340)の各端末デバイスは、ネットワーク(350)を介して端末デバイス(330)及び(340)のうちの他方の端末デバイスに伝送するために、ビデオデータ(例えばその端末デバイスによってキャプチャされるビデオピクチャのストリーム)をコーディングし得る。端末デバイス(330)及び(340)の各端末デバイスはまた、端末デバイス(330)及び(340)の他方の端末デバイスによって伝送された、コーディングされたビデオデータを受け取ることができ、コーディングされたビデオデータを復号してビデオピクチャを復元することができ、復元されたビデオデータに従って、アクセス可能なディスプレイデバイスでビデオピクチャを表示することができる。
図3の例では、端末デバイス(310)、(320)、(330)及び(340)はそれぞれ、サーバ、パーソナルコンピュータ及びスマートフォンとして例示され得るが、本開示の原理は、そのように限定され得ない。本開示の態様は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ及び/又は専用のビデオ会議装置への適用を見出す。ネットワーク(350)は、例えばワイヤライン(有線)及び/又は無線通信ネットワークを含め、端末デバイス(310)、(320)、(330)及び(340)の間でコーディングされたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク(350)は、回線スイッチ及び/又はパケットスイッチチャネルにおいてデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又はインターネットを含む。本議論の目的のために、ネットワーク(350)のアーキテクチャ及びトポロジは、本明細書において以下に説明されない限り、本開示の動作に対して重要ではないことがある。
図4は、開示される主題の適用の例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダを示す。開示される主題は、例えばビデオ会議、デジタルTVやストリーミングサービス、CD、DVD、メモリスティック等を含むデジタルメディアにおける圧縮ビデオの記憶等を含む、他のビデオ対応アプリケーションにも同様に適用可能であり得る。
ストリーミングシステムは、例えば圧縮されていないビデオピクチャのストリーム(402)を作成するビデオソース(401)、例えばデジタルカメラを含むことができる、ビデオキャプチャサブシステム(413)を含み得る。一例では、ビデオピクチャのストリーム(402)は、デジタルカメラによって撮られたサンプルを含む。ビデオピクチャのストリーム(402)は、符号化されたビデオデータ(404)(又はコーディングされたビデオビットストリーム)と比較したときの高データ量を強調するために太線として示されており、ビデオソース(401)に結合されるビデオエンコーダ(403)を含む電子デバイス(420)によって処理されることができる。ビデオエンコーダ(403)は、以下により詳細に説明されるような、開示される主題の態様を可能にするか又は実装するために、ハードウェア、ソフトウェア又はそれらの組合せを含むことができる。符号化されたビデオデータ(404)(又は符号化されたビデオビットストリーム)は、ビデオピクチャのストリーム(402)と比較したときの低データ量を強調するために細線として示されており、将来の使用のためにストリーミングサーバ(405)に記憶されることができる。図4のクライアントサブシステム(406)及び(408)のような1つ以上のストリーミングクライアントサブシステムは、ストリーミングサーバ(405)にアクセスして、符号化されたビデオデータ(404)のコピー(407)及び(409)を取り出すことができる。クライアントサブシステム(406)は、例えば電子デバイス(430)内にビデオデコーダ(410)を含むことができる。ビデオデコーダ(410)は符号化されたビデオデータの入力コピー(407)を復号し、そして、ディスプレイ(412)(例えばディスプレイ画面)又は他のレンダリングデバイス(図示せず)上でレンダリングすることができる、ビデオピクチャの出力ストリーム(411)を作成する。いくつかのストリーミングシステムでは、符号化されたビデオデータ(404)、(407)及び(409)(例えばビデオビットストリーム)は、特定のビデオコーディング/圧縮規格に従って符号化されることができる。これらの規格の例は、ITU-T勧告H.265を含む。一例では、開発中のビデオコーディング規格は、VVC(Versatile Video Coding)として非公式に知られている。開示される主題はVVCの文脈で使用され得る。
電子デバイス(420)及び(430)は、他の構成要素(図示せず)を含むことができることに留意されたい。例えば電子デバイス(420)は、ビデオデコーダ(図示せず)を含むことができ、電子デバイス(430)は、ビデオエンコーダ(図示せず)も含むことができる。
図5は、ビデオデコーダ(510)の例示的なブロック図を示す。ビデオデコーダ(510)は、電子デバイス(530)に含まれることができる。電子デバイス(530)は、受信機(531)(例えば受信回路)を含むことができる。図4の例のビデオデコーダ(410)の代わりに、ビデオデコーダ(510)を用いることができる。
受信機(531)は、ビデオデコーダ(510)によって復号されるべき1つ以上のコーディングされたビデオシーケンスを受け取り得る。一態様では、一度に1つのコーディングされたビデオシーケンスを受け取り、この場合、各コーディングされたビデオシーケンスの復号は、他のコーディングビデオシーケンスの復号とは独立である。コーディングされたビデオシーケンスはチャネル(501)から受け取られてよく、該チャネルは、符号化されたビデオデータを記憶するストレージデバイスへのハードウェア/ソフトウェアリンクであり得る。受信機(531)は、他のデータ、例えばコーディングされたオーディオデータ及び/又は補助データストリームとともに、符号化されたビデオデータを受け取ってよく、これらのデータは、それらのそれぞれの使用エンティティ(図示せず)に転送されてよい。受信機(531)は、コーディングされたビデオシーケンスを他のデータから分離し得る。ネットワークジッタをなくすために、バッファメモリ(515)が、受信機(531)とエントロピーデコーダ/パーサ(520)(以下、「パーサ(520)」)との間に結合され得る。特定の適用では、バッファメモリ(515)は、ビデオデコーダ(510)の一部である。他では、バッファメモリ(515)は、ビデオデコーダ(510)(図示せず)の外部にある可能性がある。更に他では、例えば再生タイミングを処理するためにビデオデコーダ(510)の内部にある別のバッファメモリ(515)に加えて、例えばネットワークジッタをなくすためにビデオデコーダ(510)の外部にバッファメモリ(図示せず)が存在する可能性がある。受信機(531)が、十分な帯域幅及び制御可能性を有するストア/転送デバイスから又は等同期(isosynchronous)ネットワークからデータを受信しているとき、バッファメモリ(515)は必要でないことがあり、あるいは小さいものとすることができる。インターネットのようなベストエフォート・パケットネットワークにおける使用のために、バッファメモリ(515)が必要とされることがあり、そのサイズは比較的大きいものとすることができ、有利には適応サイズとすることができ、少なくとも部分的に、ビデオデコーダ(510)の外部のオペレーティングシステム又は類似の要素(図示せず)において実装されることがある。
ビデオデコーダ(510)は、コーディングされたビデオシーケンスからシンボル(521)を再構成するためにパーサ(520)を含み得る。これらのシンボルのカテゴリは、ビデオデコーダ(510)の動作を管理するために使用される情報と、潜在的に、電子デバイス(530)の一体部分ではないが図5に示されるように電子デバイス(530)に結合されることができるレンダデバイス(512)(例えばディスプレイ画面)のようなレンダリングデバイスを制御する情報とを含む。レンダリングデバイスの制御情報は、補足強化情報(SEI:Supplemental Enhancement Information)メッセージ又はビデオユーザビリティ情報(VUI:Video Usability Information)パラメータセットフラグメント(図示せず)の形式であってよい。パーサ(520)は、受信される、コーディングされたビデオシーケンスを構文解析/エントロピー復号し得る。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマンコーディング、文脈依存(context sensitivity)を伴うか伴わない算術コーディング等を含む、様々な原理に従うことができる。パーサ(520)は、コーディングされたビデオシーケンスから、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも1つのサブグループについてのサブグループパラメータのセットを、グループに対応する少なくとも1つのパラメータに基づいて抽出することができる。サブグループは、グループオブピクチャ(GOPs:Groups of Pictures)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CUs:Coding Units)、ブロック、変換ユニット(TUs:Transform Units)、予測ユニット(PUs:Prediction Units)等を含むことができる。パーサ(520)はまた、変換係数、量子化パラメータ値、動きベクトル等のようなコーディングされたビデオシーケンス情報から抽出してもよい。
パーサ(520)は、シンボル(521)を生成するように、バッファメモリ(515)から受け取ったビデオシーケンスに対してエントロピー復号/構文解析動作を実行し得る。
シンボル(521)の再構成は、コーディングされたビデオピクチャ又はその部分のタイプ(例えばインター及びイントラピクチャ、インター及びイントラブロック)及び他のファクタに応じて、複数の異なるユニットに関与することができる。どのユニットがどのように関与するかは、コーディングされたビデオシーケンスからパーサ(520)によって構文解析されるサブグループ制御情報によって制御されることができる。パーサ(520)と下記の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明確性のために図示されていない。
既に述べた機能ブロックの他に、ビデオデコーダ(510)は、以下で説明するように、複数の機能ユニットに概念的に細分されることができる。商業的制約の下で動作する実用的な実装では、これらのユニットの多くは互いに密接に対話し、少なくとも部分的に相互へ統合されることができる。しかしながら、開示される主題を説明する目的のために、以下では、機能ユニットへの概念的な細分化が適切である。
第1ユニットは、スケーラ/逆変換ユニット(551)である。スケーラ/逆変換ユニット(551)は、パーサ(520)からのシンボル(521)として、どの変換を使用すべきか、ブロックサイズ、量子化係数、量子化スケーリング行列等を含む制御情報だけでなく、量子化された変換係数も受け取る。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)に入力することができるサンプル値を含むブロックを出力することができる。
場合によっては、スケーラ/逆変換ユニット(551)の出力サンプルは、イントラコーディングされたブロックに関連する可能性がある。イントラコーディングされたブロックは、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックである。このような予測情報は、イントラピクチャ予測ユニット(552)によって提供されることができる。場合によっては、イントラピクチャ予測ユニット(552)は、現在のピクチャバッファ(558)からフェッチされる、周囲の既に再構成された情報を使用して、再構成中のブロックの同じサイズ及び形状のブロックを生成する。現在のピクチャバッファ(558)は、例えば部分的に再構成された現在のピクチャ及び/又は完全に再構成された現在のピクチャをバッファする。アグリゲータ(555)は、場合によっては、サンプルごとに、イントラ予測ユニット(552)が生成した予測情報を、スケーラ/逆変換ユニット(551)によって提供される出力サンプル情報に追加し得る。
他の場合には、スケーラ/逆変換ユニット(551)の出力サンプルは、インターコーディングされて潜在的に動き補償されるブロックに関連する可能性がある。このような場合、動き補償予測ユニット(553)は、予測に使用されるサンプルをフェッチするために参照ピクチャメモリ(557)にアクセスすることができる。ブロックに関連するシンボル(521)に従って、フェッチされたサンプルを動き補償した後、これらのサンプルは、アグリゲータ(555)によって、出力サンプル情報を生成するために、スケーラ/逆変換ユニット(551)の出力(この場合、残差サンプル又は残差信号と呼ばれる)に追加されることができる。動き補償予測ユニット(553)が予測サンプルをフェッチする参照ピクチャメモリ(557)内のアドレスは、例えばX、Yと参照ピクチャ成分を有することができるシンボル(521)の形態で、動き補償予測ユニット(553)に利用可能な動きベクトルによって、制御されることができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ(557)からフェッチされるサンプル値の補間、動きベクトル予測メカニズム等も含むことができる。
アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)内の様々なループフィルタリング技術の対象となることができる。ビデオ圧縮技術は、コーディングされたビデオシーケンス(コーディングされたビデオビットストリームとも呼ばれる)に含まれるパラメータによって制御され、かつパーサ(520)からシンボル(521)としてループフィルタユニット(556)に利用可能にされるが、ループ内フィルタ技術を含むことができる。ビデオ圧縮はまた、コーディングされたピクチャ又はコーディングされたビデオシーケンスの(復号順序で)以前の部分の復号中に取得されたメタ情報に応答することもできるとともに、以前に再構成されてループフィルタリングされたサンプル値に応答することができる。
ループフィルタユニット(556)の出力は、レンダデバイス(512)に出力されることができ、かつ将来のインターピクチャ予測で使用するために参照ピクチャメモリ(557)内に記憶されることができる、サンプルストリームとすることができる。
ある特定のコーディングされたピクチャは、いったん完全に再構成されると、将来の予測のための参照ピクチャとして使用されることができる。例えば現在のピクチャに対応するコーディングされたピクチャが完全に再構成され、コーディングされたピクチャが(例えばパーサ(520)によって)参照ピクチャとして識別されると、現在のピクチャバッファ(558)は参照ピクチャメモリ(557)の一部となることができ、フレッシュな現在のピクチャバッファは、後続のコーディングされたピクチャの再構成を開始する前に再割り当てされることができる。
ビデオデコーダ(510)は、所定のビデオ圧縮技術又はITU-T Rec. H.265のような規格に従って復号動作を実行し得る。コーディングされたビデオシーケンスは、該コーディングされたビデオシーケンスが、ビデオ圧縮技術又は規格の構文と、ビデオ圧縮技術又は規格で文書化されるプロファイルとの両方を守るという意味において、使用されているビデオ圧縮技術又は規格によって指定された構文に準拠し得る。具体的には、プロファイルは、そのプロファイルの下での使用に使用可能な唯一のツールとして、特定のツールを選択することができる。また、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルによって定義される範囲内にあることが、準拠には必要であり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば毎秒メガサンプル(megasamples)で測定される)、最大参照ピクセルサイズ等を制限する。レベルによって設定される限界(limit)は、場合によっては、コーディングされたビデオシーケンスでシグナリングされる仮想リファレンスデコーダ(HRD:Hypothetical Reference Decoder)のバッファ管理のためのHRD仕様及びメタデータを通して更に制限される可能性がある。
一態様では、受信機(531)は、符号化されたビデオとともに追加の(冗長な)データを受け取ることがある。追加のデータは、コーディングされたビデオシーケンスの一部として含まれてよい。追加のデータは、データを適切に復号し、かつ/又は元のビデオデータをより正確に再構成するために、ビデオデコーダ(510)によって使用され得る。追加のデータは、例えば時間的、空間的又は信号対ノイズ比(SNR)強化レイヤ(enhancement layers)、冗長スライス、冗長ピクチャ、順方向誤り訂正コード等の形態とすることができる。
図6は、ビデオエンコーダ(603)の例示的なブロック図を示す。ビデオエンコーダ(603)は、電子デバイス(620)に含まれる。電子デバイス(620)は、送信機(640)(例えば送信回路)を含む。図4の例のビデオエンコーダ(403)の代わりに、ビデオエンコーダ(603)を使用することができる。
ビデオエンコーダ(603)は、ビデオサンプルを、ビデオエンコーダ(603)によってコーディングされるべきビデオ画像をキャプチャし得るビデオソース(601)(図6の例では電子デバイス(620)の一部ではない)から受け取り得る。別の例では、ビデオソース(601)は、電子デバイス(620)の一部である。
ビデオソース(601)は、ビデオエンコーダ(603)によってコーディングされるべきソースビデオシーケンスを、任意の適切なビット深度(例えば8ビット、10ビット、12ビット、...)、任意の色空間(例えばBT.601 YCrCB、RGB、...)及び任意の適切なサンプリング構造(例えばYCrCb 4:2:0、YCrCb 4:4:4)とすることができるデジタルビデオサンプルストリームの形態で提供し得る。メディア供給システムにおいて、ビデオソース(601)は、事前に準備されたビデオを記憶するストレージデバイスであってよい。ビデオ会議システムでは、ビデオソース(601)は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラであってもよい。ビデオデータは、シーケンスで見るときに動きを伝える複数の個々のピクチャとして提供されてもよい。ピクチャ自体は、ピクセルの空間アレイとして編成されてよく、この場合、各ピクセルは、使用中のサンプリング構造、色空間等に応じて1つ以上のサンプルを含むことができる。当業者は、ピクセルとサンプルとの関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。
一態様によると、ビデオエンコーダ(603)は、リアルタイムで又は要求される任意の他の時間制約の下で、ソースビデオシーケンスのピクチャをコーディング及び圧縮して、コーディングされたビデオシーケンス(643)にすることができる。適切なコーディング速度を実施することは、コントローラ(650)の1つの機能である。いくつかの態様において、コントローラ(650)は、以下で説明されるように、他の機能ユニットを制御し、該他の機能ユニットに機能的に結合される。この結合は、明確性のために図示されていない。コントローラ(650)によって設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、...)、ピクチャサイズ、グループオブピクチャ(GOP)のレイアウト、最大動きベクトル探索範囲等を含むことができる。コントローラ(650)は、特定のシステム設計のために最適化された、ビデオエンコーダ(603)と関係する他の適切な機能を有するように構成されることができる。
いくつかの態様では、ビデオエンコーダ(603)は、コーディングループで動作するように構成される。過剰に簡略化した説明として、一例では、コーディングループは、ソースコーダ(630)(例えばコーディングされるべき入力ピクチャ及び参照ピクチャに基づいて、シンボルストリーム等のシンボルを作成することを担当する)と、ビデオエンコーダ(603)に埋め込まれた(ローカル)デコーダ(633)とを含むことができる。デコーダ(633)は、(リモート)デコーダも作成するのと同様の方法で、シンボルを再構成してサンプルデータを作成する。再構成されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(634)に入力される。シンボルストリームの復号は、デコーダ位置(ローカル又はリモート)とは独立のビット正確な結果(bit-exact results)をもたらすので、参照ピクチャメモリ(634)内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分は、デコーダが復号中に予測を使用するときに「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャのシンクロニシティ(synchronicity)のこの基本原理(及び例えばチャネルエラーのためにシンクロニシティを維持することができない場合の結果として生じるドリフト)は、いくつかの関連する技術でも同様に使用される。
「ローカル」デコーダ(633)の動作は、ビデオデコーダ(510)のような「リモート」デコーダと同じものとすることができ、これは、既に図5に関連して上述されている。しかしながら、図5も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ(645)及びパーサ(520)によるコーディングされたビデオシーケンスへのシンボルの符号化/復号は可逆であり得るので、バッファメモリ(515)及びパーサ(520)を含むビデオデコーダ(510)のエントロピー復号部分は、ローカルデコーダ(633)では完全には実装されないことがある。
一態様では、デコーダに存在する解析/エントロピー復号を除く任意のデコーダ技術は、対応するエンコーダにおいて、同一又は実質的に同一の機能形態で存在する。したがって、開示される主題はデコーダの動作に焦点を当てる。エンコーダ技術の説明は、網羅的に説明されるデコーダ技術の反対であるので、省略される可能性がある。特定の領域において、より詳細な説明が以下で提供される。
いくつかの例において、動作中に、ソースコーダ(630)は、動き補償予測コーディングを実行してよく、動き補償予測コーディングは、「参照ピクチャ」として指定されたビデオシーケンスからの1つ以上の以前にコーディングされたピクチャに関連して予測的に入力ピクチャをコーディングする。このようにして、コーディングエンジン(632)は、入力ピクチャのピクセルブロックと、入力ピクチャに対する予測参照として選択され得る参照ピクチャのピクセルブロックとの間の差をコーディングする。
ローカルビデオデコーダ(633)は、ソースコーダ(630)によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングされたビデオデータを復号し得る。コーディングエンジン(632)の動作は、有利には、非可逆プロセスであり得る。コーディングされたビデオデータがビデオデコーダ(図6には図示せず)で復号され得るとき、再構成ビデオシーケンスは、典型的に、いくつかの誤差を伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ(633)は、参照ピクチャに対してビデオデコーダによって実行され得る復号処理を複製し、再構成参照ピクチャを参照ピクチャメモリ(634)に記憶させ得る。このようにして、ビデオエンコーダ(603)は、(伝送誤差なしに)遠端ビデオデコーダによって取得される再構成参照ピクチャとして、共通のコンテンツを有する再構成参照ピクチャのコピーを、ローカルに記憶し得る。
予測器(635)は、コーディングエンジン(632)について予測探索を実行し得る。すなわち、コーディングされるべき新しいピクチャについて、予測器(635)は、参照ピクチャメモリ(634)から、サンプルデータ(候補参照ピクセルブロックとして)又は参照ピクチャ動きベクトル、ブロック形状等のような特定のメタデータを探索してよく、これらのデータは、新しいピクチャのための適切な予測参照として機能し得る。予測器(635)は、適切な予測参照を見つけるために、サンプルブロックとピクセルブロックごと(sample block-by-pixel block basis)に動作し得る。場合によっては、予測器(635)によって取得される検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ(634)に記憶された複数の参照ピクチャから引き出された予測参照を有してよい。
コントローラ(650)は、例えばビデオデータを符号化するために使用されるパラメータ及びサブグループパラメータの設定を含む、ソースコーダ(630)のコーディング動作を管理してもよい。
前述の機能ユニットのすべての出力は、エントロピーコーダ(645)におけるエントロピーコーディングの対象となり得る。エントロピーコーダ(645)は、ハフマンコーディング、可変長コーディング、算術コーディング等のような技術に従ってシンボルに可逆圧縮を適用することによって、様々な機能ユニットによって生成されるシンボルを、コーディングされたビデオシーケンスに変換する。
送信機(640)は、エントロピーコーダ(645)によって作成されるコーディングされたビデオシーケンスをバッファして、通信チャネル(660)を介した伝送の準備を行ってよく、該通信チャネル(660)は、符号化されたビデオデータを記憶するストレージデバイスへのハードウェア/ソフトウェアリンクであってよい。送信機(640)は、ビデオエンコーダ(603)からのコーディングされたビデオデータを、伝送されるべき他のデータ、例えばコーディングされたオーディオデータ及び/又は補助データストリーム(ソースは図示せず)とマージし得る。
コントローラ(650)は、ビデオエンコーダ(603)の動作を管理し得る。コーディングの間、コントローラ(650)は、各コーディングされたピクチャに、特定のコーディングピクチャタイプ(coded picture type)を割り当ててよく、該コーディングピクチャタイプは、それぞれのピクチャに適用され得るコーディングに影響を与え得る。例えばピクチャは、しばしば、次のピクチャタイプのうちの1つとして割り当てられ得る:
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内のいずれの他のピクチャも使用せずにコーディング及び復号され得るものであり得る。いくつかのビデオコーデックは、例えば独立デコーダリフレッシュ(「IDR:Independent Decoder Refresh」)ピクチャを含む、異なるタイプのイントラピクチャを許容する。当業者は、Iピクチャのこれらの変形並びにそれらのそれぞれの用途及び特徴を知っている。
予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために、最大1つの動きベクトルと参照インデックスを用いて、イントラ予測又はインター予測を使用して、コーディング及び復号され得るものであり得る。
双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために、最大2つの動きベクトルと参照インデックスを用いて、イントラ予測又はインター予測を使用して、コーディング及び復号され得るものであり得る。同様に、複数予測ピクチャ(multiple-predictive pictures)は、単一のブロックの再構成のために、2つより多くの参照ピクチャ及び関連するメタデータを使用することができる。
ソースピクチャは、通常、空間的に複数のサンプルブロック(例えば各々4×4、8×8、4×8又は16×16サンプルのブロック)に細分され、ブロックごとにコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割り当てによって決定されるように、他の(既にコーディングされた)ブロックに関連して予測的にコーディングされ得る。例えばIピクチャのブロックは、非予測的にコーディングされてもよく、あるいはそれらは、同じピクチャの既にコーディングされたブロックに関連して予測的にコーディングされてもよい(空間予測又はイントラ予測)。Pピクチャのピクセルブロックは、以前にコーディングされた1つの参照ピクチャに関連して、空間予測を介して又は時間予測を介して予測的にコーディングされ得る。Bピクチャのブロックは、1つ又は2つの以前にコーディングされた参照ピクチャに関連して、空間予測を介して又は時間予測を介して予測的にコーディングされ得る。
ビデオエンコーダ(603)は、ITU-T Rec. H.265のような所定のビデオコーディング技術又は規格に従ってコーディング動作を実行し得る。その動作において、ビデオエンコーダ(603)は、入力ビデオシーケンスにおける時間的及び空間的冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行し得る。コーディングされたビデオデータは、したがって、使用されているビデオコーディング技術又は規格によって指定された構文に従うことができる。
一態様では、送信機(640)は、符号化されたビデオとともに追加データを送信してもよい。ソースコーダ(630)は、コーディングされたビデオシーケンスの一部としてそのようなデータを含んでよい。追加データは、時間/空間/SNR強化レイヤ、冗長ピクチャ及びスライス、SEIメッセージ、VUIパラメータセットフラグメント等のような他の形式の冗長データを含んでもよい。
ビデオは、時間シーケンスにおいて複数のソースピクチャ(ビデオピクチャ)としてキャプチャされ得る。イントラピクチャ予測(しばしば、イントラ予測と略される)は、所与のピクチャにおける空間的相関を使用し、インターピクチャ予測は、ピクチャ間の(時間的又は他の)相関を使用する。一例では、符号化/復号中の特定のピクチャは、現在のピクチャと呼ばれ、ブロックに区分化される。現在のピクチャ内のブロックが、ビデオ内の以前にコーディングされて依然としてバッファされている参照ピクチャ内の参照ブロックに類似するとき、現在のピクチャ内のブロックは、動きベクトルと呼ばれるベクトルによってコーディングされることができる。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されているケースでは、参照ピクチャを識別する第3次元(third dimension)を有することができる。
いくつかの態様では、インターピクチャ予測において双予測技術を使用することができる。双予測技術によると、第1参照ピクチャと第2参照ピクチャのように、両方とも、復号順序でビデオ内の現在のピクチャに先行する(ただし、表示順序では、それぞれ、過去及び将来であり得る)2つの参照ピクチャが使用される。現在のピクチャ内のブロックを、第1参照ピクチャ内の第1参照ブロックを指す第1動きベクトルと、第2参照ピクチャ内の第2参照ブロックを指す第2動きベクトルとによってコーディングすることができる。ブロックは、第1参照ブロックと第2参照ブロックの組合せによって、予測されることができる。
さらに、コーディング効率を改善するために、インターピクチャ予測においてマージモード技術を使用することができる。
本開示のいくつかの態様によると、インターピクチャ予測及びイントラピクチャ予測のような予測は、ブロック単位(unit)で実行される。例えばHEVC規格によると、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット(CTU)に区分化され、ピクチャ内のCTUsは、64×64ピクセル、32×32ピクセル又は16×16ピクセルのように、同じサイズを有する。一般に、CTUは、3つのコーディングツリーブロック(CTBs)を含み、該3つのCTBは、1つのルマ(luma)CTBと2つのクロマ(chroma)CTBである。各CTUは、1つ又は複数のコーディングユニット(CUs)に再帰的に四分木分裂(quadtree split)することができる。例えば64×64ピクセルのCTUを、64×64ピクセルの1つのCUに又は32×32ピクセルの4つのCUに又は16×16ピクセルの16個のCUに分裂することができる。一例では、各CUを分析して、インター予測タイプ又はイントラ予測タイプのような、CUの予測タイプを決定する。CUは、時間的及び/又は空間的予測可能性に依存して、1つ以上の予測ユニット(PUs)に分裂される。一般に、各PUはルマ予測ブロック(PB)と2つのクロマPBsを含む。一態様では、コーディング(符号化/復号)における予測動作は、予測ブロックのユニットにおいて実行される。予測ブロックの例としてルマ予測ブロックを使用すると、予測ブロックは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセル等のような、ピクセルについての値(例えばルマ値)の行列を含んでよい。
図7は、ビデオエンコーダ(703)の例示的な図を示す。ビデオエンコーダ(703)は、ビデオピクチャのシーケンス内の現在のビデオピクチャ内のサンプル値の処理ブロック(例えば予測ブロック)を受け取り、処理ブロックを符号化して、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャにするように構成される。一例では、ビデオエンコーダ(703)は、図4の例のビデオエンコーダ(403)の代わりに使用される。
HEVCの例では、ビデオエンコーダ(703)は、8×8サンプルの予測ブロック等のような処理ブロックのサンプル値の行列を受け取る。ビデオエンコーダ(703)は、処理ブロックが、例えばレート歪み最適化(rate-distortion optimization)を使用して、イントラモード、インターモード又は双予測(bi-prediction)モードを使用して最も良くコーディングされるかどうかを決定する。処理ブロックがイントラモードでコーディングされるべきであるとき、ビデオエンコーダ(703)は、イントラ予測技術を使用して、処理ブロックを符号化して、コーディングされたピクチャにしてよく、処理ブロックがインターモード又は双予測モードでコーディングされるべきであるとき、ビデオエンコーダ(703)は、それぞれインター予測技術又は双予測技術を使用して、処理ブロックを符号化して、コーディングされたピクチャにしてよい。特定のビデオコーディング技術では、マージモードは、予測器の外側のコーディングされた動きベクトル構成要素の利益を伴わずに、動きベクトルが1つ以上の動きベクトル予測器から導出される場合、インターピクチャ予測サブモードであり得る。特定の他のビデオコーディング技術では、対象ブロックに適用可能な動きベクトル構成要素が存在してもよい。一例では、ビデオエンコーダ(703)は、処理ブロックのモードを決定するために、モード決定モジュール(図示せず)のような他の構成要素を含む。
図7の例では、ビデオエンコーダ(703)は、図7に示されるように一緒に結合される、インターエンコーダ(730)、イントラエンコーダ(722)、残差計算器(723)、スイッチ(726)、残差エンコーダ(724)、一般コントローラ(721)及びエントロピーエンコーダ(725)を含む。
インターエンコーダ(730)は、現在のブロック(例えば処理ブロック)のサンプルを受け取り、該ブロックを参照ピクチャ内の1つ以上の参照ブロック(例えば前のピクチャ及び後のピクチャ内のブロック)と比較し、インター予測情報(例えばインター符号化技術に従った冗長情報の記述、動きベクトル、マージモード情報)を生成し、任意の適切な技術を使用して、インター予測情報に基づいてインター予測結果(例えば予測ブロック)を計算するよう構成される。いくつかの例では、参照ピクチャは、符号化されたビデオ情報に基づいて復号される復号参照ピクチャである。
イントラエンコーダ(722)は、現在のブロック(例えば処理ブロック)のサンプルを受け取り、場合によっては、該ブロックを、同じピクチャ内の既にコーディングされたブロックと比較し、変換後に量子化された係数を生成し、場合によってはイントラ予測情報(例えば1つ以上のイントラ符号化技術に従ったイントラ予測方向情報)も生成するよう構成される。一例では、イントラエンコーダ(722)はまた、イントラ予測情報と、同じピクチャ内の参照ブロックに基づいて、イントラ予測結果(例えば予測ブロック)も計算する。
一般コントローラ(721)は、一般制御データを決定し、該一般制御データに基づいてビデオエンコーダ(703)の他の構成要素を制御するよう構成される。一例では、一般コントローラ(721)は、ブロックのモードを決定し、該モードに基づいて制御信号をスイッチ(726)に提供する。例えばモードがイントラモードであるとき、一般コントローラ(721)は、残差計算器(723)が使用するためのイントラモードの結果を選択するようにスイッチ(726)を制御し、イントラ予測情報を選択して該イントラ予測情報をビットストリームに含めるようにエントロピーエンコーダ(725)を制御し、モードがインターモードであるとき、一般コントローラ(721)は、残差計算器(723)が使用するためのインター予測結果を選択するようにスイッチ(726)を制御し、インター予測情報を選択して該インター予測情報をビットストリームに含めるようにエントロピーエンコーダ(725)を制御する。
残差計算器(723)は、イントラエンコーダ(722)又はインターエンコーダ(730)から選択された、受け取ったブロックと予測結果との差(残差データ)を計算するよう構成される。残差エンコーダ(724)は、残差データに基づいて動作し、残差データを符号化して変換係数を生成するよう構成される。一例では、残差エンコーダ(724)は、残差データを空間領域から周波数領域に変換して、変換係数を生成するように構成される。次いで、変換係数は、量子化処理の対象となり、量子化された変換係数を取得する。様々な態様では、ビデオエンコーダ(703)は、残差デコーダ(728)も含む。残差デコーダ(728)は、逆変換を実行し、復号された残差データを生成するよう構成される。復号された残差データは、イントラエンコーダ(722)及びインターエンコーダ(730)によって適切に使用されることができる。例えばインターエンコーダ(730)は、復号された残差データ及びインター予測情報に基づいて、復号されたブロックを生成することができ、イントラエンコーダ(722)は、復号された残差データ及びイントラ予測情報に基づいて、復号されたブロックを生成することができる。復号されたブロックは、復号されたピクチャを生成するために適切に処理され、復号されたピクチャは、メモリ回路(図示せず)内でバッファリングされ、いくつかの例では、参照ピクチャとして使用されることができる。
エントロピーエンコーダ(725)は、符号化されたブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ(725)は、HEVC規格のような適切な規格に従って、ビットストリーム内に様々な情報を含めるように構成される。一例では、エントロピーエンコーダ(725)は、一般制御データ、選択された予測情報(例えばイントラ予測情報又はインター予測情報)、残差情報及び他の適切な情報をビットストリーム内に含めるよう構成される。開示される主題によると、インターモード又は双予測モードのいずれかのマージサブモードでブロックをコーディングするとき、残差情報がないことに留意されたい。
図8は、ビデオデコーダ(810)の例示的な図を示す。ビデオデコーダ(810)は、コーディングされたビデオシーケンスの一部である、コーディングされたピクチャを受け取り、コーディングされたピクチャを復号して再構成ピクチャを生成するよう構成される。一例では、図4の例のビデオデコーダ(410)の代わりにビデオデコーダ(810)が使用される。
図8の例では、ビデオデコーダ(810)は、図8に示されるように一緒に結合される、エントロピーデコーダ(871)、インターデコーダ(880)、残差デコーダ(873)、再構成モジュール(874)及びイントラデコーダ(872)を含む。
エントロピーデコーダ(871)は、コーディングされたピクチャから、該コーディングされたピクチャが構成される構文要素を表す特定のシンボルを再構成するよう構成されることができる。そのようなシンボルは、例えばブロックがコーディングされるモード(例えばイントラモード、インターモード、双予測モード、後者2つのマージサブモード又は別のサブモード等)と、イントラデコーダ(872)又はインターデコーダ(880)によってそれぞれ予測のために使用される特定のサンプル又はメタデータを識別することができる予測情報(例えばイントラ予測情報又はインター予測情報等)を含むことができる。シンボルはまた、例えば量子化された変換係数の形態の残差情報等を含むことができる。一例では、予測モードがインターモード又は双予測モードであるとき、インター予測情報がインターデコーダ(880)に提供され、予測モードがイントラ予測モードであるとき、イントラ予測情報がイントラデコーダ(872)に提供される。残差情報は、逆量子化の対象となり得、残差デコーダ(873)に提供される。
インターデコーダ(880)は、インター予測情報を受け取り、該インター予測情報に基づいてインター予測結果を生成するよう構成される。
イントラデコーダ(872)は、イントラ予測情報を受け取り、該イントラ予測情報に基づいて予測結果を生成するよう構成される。
残差デコーダ(873)は、逆量子化を実行して非量子化(de-quantized)変換係数を抽出し、非量子化変換係数を処理して残差情報を周波数領域から空間領域に変換するよう構成され得る。残差デコーダ(873)はまた、特定の制御情報(量子化器パラメータ(QP:Quantizer Parameter)を含む)も要求することがあり、この情報は、エントロピーデコーダ(871)によって提供され得る(これは低量の制御情報のみであり得るので、データ経路は図示されない)。
再構成モジュール(874)は、空間領域において、残差デコーダ(873)による出力としての残差情報と、(場合によっては、インター又はイントラ予測モジュールによる出力としての)予測結果とを組み合わせて再構成ブロックを形成するよう構成され、該再構成ブロックは、再構成ビデオの一部であり得る再構成ピクチャの一部であり得る。視覚品質を改善するために、デブロッキング操作等の他の適切な操作を実行することができることに留意されたい。
ビデオエンコーダ(403)、(603)及び(703)、並びにビデオデコーダ(410)、(510)及び(810)は、任意の適切な技術を使用して実装されることができることに留意されたい。一態様では、ビデオエンコーダ(403)、(603)及び(703)、並びにビデオデコーダ(410)、(510)及び(810)は、1つ以上の集積回路を使用して実装されることができる。別の態様では、ビデオエンコーダ(403)、(603)及び(703)、並びにビデオデコーダ(410)、(510)及び(810)は、ソフトウェア命令を実行する1つ以上のプロセッサを使用して実装されることができる。
VVCでは、様々なインター予測モードを使用することができる。インター予測CUの場合、動きパラメータは、MVと、1つ以上の参照ピクチャインデックスと、参照ピクチャリスト利用インデックスと、インター予測サンプル生成に使用される特定のコーディング特徴の追加情報を含むことができる。動きパラメータを、明示的又は暗黙的にシグナリングすることができる。CUがスキップモードでコーディングされるとき、CUは予測ユニット(PU)に関連付けられる可能性があり、有意な残差係数、コーディングされた動きベクトルデルタ又はMV差分(例えばMVD)又は参照ピクチャインデックスを有しない可能性がある。
現在のCUのための動きパラメータが、空間及び/又は時間候補と、任意にVVCで導入されるような追加情報とを含む、隣接CUから取得される、マージモードを指定することができる。スキップモードだけでなく、マージモードを、インター予測されたCUにも適用することができる。一例では、マージモードに対する代替は、動きパラメータの明示的な送信であり、この場合、MV、各参照ピクチャリスト及び参照ピクチャリスト使用フラグの対応する参照ピクチャインデックス及び他の情報が、CUごとに明示的にシグナリングされる。
VVCのような態様では、VVCテストモデル(VTM)参照ソフトウェアは、拡張マージ予測、動きベクトル差分によるマージ(MMVD、merge with motion vector difference)モード、対称MVDシグナリングによる適応動きベクトル予測(AMVP、adaptive motion vector prediction)モード、アフィン動き補償予測、サブブロックベースの時間動きベクトル予測(SbTMVP、subblock-based temporal motion vector prediction)、適応動きベクトル解像度(AMVR、adaptive motion vector resolution)、動きフィールドストレージ(1/16ルマ・サンプルMVストレージ及び8×8動きフィールド圧縮)、CUレベル重みによる双予測(BCW、bi-prediction with CU-level weights)、双方向オプティカルフロー(BDOF、bi-directional optical flow)、オプティカルフローを使用する予測リファインメント(PROF、prediction refinement using optical flow)、デコーダ側動きベクトルリファインメント(DMVR、decoder side motion vector refinement)、結合インター及びイントラ予測(CIIP、combined inter and intra prediction)、幾何学的分割モード(GPM、geometric partitioning mode)等を含む、1つ以上の改良されたインター予測コーディングツールを含む。インター予測及び関連する方法は、以下で詳細に説明される。
いくつかの例では、拡張マージ予測を使用することができる。VTM4のような例では、マージ候補リストは、次の5つのタイプの候補:すなわち、空間隣接CUからの空間動きベクトル予測器(MVP、motion vector predictor)と、コロケート(co-located)CUからの時間MVPと、先入れ先出し(FIFO)テーブルからの履歴ベースMVPと、ペアワイズ平均MVPと、ゼロMVを順に含めることによって構築される。
マージ候補リストのサイズを、スライスヘッダでシグナリングすることができる。一例では、マージ候補リストの最大許容サイズは、VTM4では6である。マージモードでコーディングされた各CUについて、最良のマージ候補のインデックス(例えばマージインデックス)を、切り捨て単項二値化(TU)を使用して符号化することができる。マージインデックスの第1ビンを、コンテキスト(例えばコンテキスト適応バイナリ算術コーディング(CABAC、context-adaptive binary arithmetic coding)でコーディングすることができ、バイパスコーディングを、他のビンに使用することができる。
マージ候補の各カテゴリの生成プロセスのいくつかの例が以下に提供される。一態様では、空間候補は、以下のように導出される。VVCにおける空間マージ候補の導出は、HEVCにおけるものと同一にすることができる。一例では、図9に示される位置に配置された候補の中から最大4つのマージ候補が選択される。図9は、本発明の態様による空間マージ候補の位置を示す。図9を参照すると、導出の順序は、B1、A1、B0、A0、そしてB2である。位置B2は、位置A0、B0、B1及びA1のいずれかのCUが利用可能でないとき(例えばCUが別のスライス又は別のタイルに属するために)、あるいはイントラコーディングされているときにのみ考慮される。位置A1の候補が追加された後、残りの候補の追加は、同じ動き情報を有する候補を候補リストから除外することを保証する冗長チェックの対象となり、その結果、コーディング効率を向上させる。
計算の複雑さを低減するために、必ずしもすべての可能な候補ペアが、前述の冗長チェックにおいて考慮されるわけではない。代わりに、図10の矢印でリンクされたペアのみが考慮され、候補は、冗長チェックに使用される対応する候補が同じ動き情報を持たない場合にのみ候補リストに追加される。図10は、本開示の態様による空間マージ候補の冗長チェックについて考慮される候補ペアを示す。図10を参照すると、それぞれの矢印でリンクされたペアは、A1とB1、A1とA0、A1とB2、B1とB0、及びB1とB2を含む。したがって、位置B1、A0及び/又はB2の候補を位置A1の候補と比較することができ、位置B0及び/又はB2の候補を位置B1の候補と比較することができる。
一態様では、時間候補は、以下のように導出される。一例では、1つの時間マージ候補のみが候補リストに追加される。図11は、時間マージ候補についての例示の動きベクトルスケーリングを示す。現在のピクチャ(1101)における現在のCU(1111)の時間マージ候補を導出するために、スケーリングされたMV(1121)(例えば図11では点線で示される)を、コロケート参照ピクチャ(1104)に属するコロケートCU(1112)に基づいて導出することができる。コロケートCU(1112)を導出するために使用される参照ピクチャリストを、スライスヘッダ内で明示的にシグナリングすることができる。図11の点線で示されるように、時間マージ候補のスケーリングされたMV(1121)を取得することができる。スケーリングされたMV(1121)は、ピクチャ順序カウント(POC、picture order count)距離tb及びtdを使用して、コロケートCU(1112)のMVからスケーリングされることができる。POC距離tbは、現在のピクチャ(1101)の現在の参照ピクチャ(1102)と現在のピクチャ(1101)との間のPOC差であるように定義されることができる。POC距離tdは、コロケートピクチャ(1103)のコロケート参照ピクチャ(1104)と、コロケートピクチャ(1103)との間のPOC差であるように定義されることができる。時間マージ候補の参照ピクチャインデックスをゼロに設定することができる。
図12は、現在のCUの時間マージ候補の例示的候補位置(例えばC0及びC1)を示す。時間マージ候補の位置を、候補位置C0とC1との間で選択することができる。候補位置C0は、現在のCUのコロケートCU(1210)の右下角に位置する。候補位置C1は、現在のCUのコロケートCU(1210)の中心に位置する。候補位置C0のCUが利用可能でないか、イントラコーディングされるか、又はCTUの現在の行の外側にある場合、候補位置C1は、時間マージ候補を導出するために使用される。そうでなければ、例えば候補位置C0におけるCUが利用可能であり、イントラコーディングされ、CTUの現在の行にあり、候補位置C0が、時間マージ候補を導出するために使用される。
いくつかのシステムでは、動きベクトル差分によるマージ(MMVD、Merge with Motion Vector Difference)は、動きベクトル表現方法によるスキップモード又はマージモードに使用される。MMVDは、VVCにおいてマージ候補を再利用する。図13は、参照ピクチャリスト0(L0)(1302)と参照ピクチャリスト1(L1)(1306)を使用する、現在のフレーム(1304)の現在のブロック(1308)の例示のMMVD探索プロセスを示す。いくつかの態様では、探索は、L0(1302)及びL1(1306)内のMMVD探索点にわたって実行され、ここで、例示的な探索点は、図14に示されている。マージ候補の中から候補を選択することができ、動きベクトル表現によって更に拡張する。MMVDは、簡略化されたシグナリングで動きベクトル表現を提供する。表現方法は、開始点、動きの大きさ及び動きの方向を含む。
MMVD技術はVVCにおけるマージ候補リストを使用するが、デフォルトマージタイプ(MRG_TYPE_DEFAULT_N)である候補のみがMMVDの拡張について考慮される。ベース候補インデックスは、開始点を定義する。ベース候補インデックスは、次のようにリスト内の候補の中で最良の候補を示し、ここで、MVPは、動きベクトル予測器(motion vector predictor)を表す。
ベース候補の数が1に等しい場合、ベース候補IDXはシグナリングされない。距離インデックスは、動き大きさ情報である。距離インデックスは、開始点情報からの事前定義された距離を示す。事前定義された距離は以下のとおりである:
方向インデックスは、開始点に対するMVDの方向を表す。方向インデックスは、4つの方向のうちの1つを表すことができる。MMVDフラグは、スキップフラグ及びマージフラグを送信した直後にシグナリングされる。スキップフラグ及びマージフラグが真の場合、MMVDフラグが解析される。MMVDフラグが1に等しい場合、MMVD構文が解析され、1でない場合、AFFINEフラグが解析される。AFFINEフラグが1に等しい場合、すなわち、AFFINEモードであるが、1でない場合、スキップ/マージインデックスがVTMのスキップ/マージモードに対して解析される。
いくつかの例では、MMVD及びアフィンMMVD上のテンプレートマッチングベースの候補並べ替えを使用することができる。いくつかのシステムでは、MMVDオフセット(MMVDモードのオフセット)は、MMVDモード及びアフィンMMVDモードについて拡張される。k×π/8の対角に沿った追加のリファインメント位置(refinement positions)が、図15の例示的な探索点(1500)に示されるように追加され、したがって、方向の数が4から16に増加する。第2に、テンプレート(現在のブロックに対して1行上及び1列左)と、各リファインメント位置に対するその参照との間の絶対差分和(SAD、sum of absolute difference)コストに基づいて、各ベース候補に対するすべての可能なMMVDリファインメント位置(16×6)が並べ替えられる。2つのブロック間のSADは、2つのブロック間の各画素値の差の絶対値の全画素にわたる和である。最後に、最も小さいテンプレートSADコストを有する上位1/8のリファインメント位置が、結果的にMMVDインデックスコーディングのために、利用可能な位置として保持される。MMVDインデックスは、2に等しいパラメータを有するライスコードによって二値化される。
一例では、(1,1)のベースMVに適用される(1,1)のオフセットは、(2,2)のMVをもたらす。したがって、オフセットは、MVPの上に(すなわち、MVPに加えて)適用されるMVDである。
別の方法では、上述のようなMMVD拡張の上に、アフィンMMVD並べ替えも拡張され、k×π/4対角に沿った追加のリファインメント位置が追加される。並べ替えの後、最小のテンプレートSADコストを有するリファインメント位置の半分が保持される。
コーディング効率を改善し、動きベクトル情報の伝送オーバヘッドを低減するために、サブブロックレベルの動きベクトルリファインメントを適用して、CUレベルの時間動きベクトル予測(TMVP)を拡張する。サブブロックベースのTMVP(SbTMVP)は、コロケート参照ピクチャからサブブロックレベルで動き情報を継承することを可能にする。大きなサイズのCUの各サブブロックは、ブロック分割構造又は動き情報を明示的に送信することなく、それ自体の動き情報を有することができる。SbTMVPは、各サブブロックの動き情報を3つのステップで取得する。最初のステップは、現在のCUの変位ベクトル(DV)の導出である。次に、SbTMVP候補の利用可能性をチェックし、中心運動(central motion)を導出する。最後に、DVによって、対応するサブブロックからサブブロック動き情報を導出することができる。参照フレーム内のコロケートブロックから常に時間動きベクトルを導出するTMVP候補導出とは異なり、SbTMVPは、現在のCUの左隣接CUのMVから導出されるDVを適用して、現在のCUの各サブブロックについてコロケートピクチャ内の対応するサブブロックを見つける。対応するサブブロックがインターコーディングされていない場合、現在のサブブロックの動き情報は中心運動となるように設定される。
MVは、様々なモードで動き補償に使用されるベクトルの共通用語であり、一方、DVはSbTMVPモードについて特別に定義されている。SbTMVPでは、CUを複数のサブブロックに分裂させ、参照ピクチャ内の位置を識別して、SbTMVP予測に、対応するサブブロックを使用する。この場合、SbTMVPの参照ピクチャ内の参照ブロック位置をポイントするベクトルはDVである。一般に、予測モードに応じて、MVをブロック又はサブブロックに使用することができる。SbTMVPモードでは、DVは、SbTMVP予測のためにブロック全体をポイントし、一方、MVは、SbTMVP予測の後にサブブロックの動き補償に使用される。
VVCはSbTMVP法をサポートする。HEVCのTMVPと同様に、SbTMVPは、現在のピクチャ内のCUについての動きベクトル予測とマージモードを改善するために、コロケートピクチャ内の動きフィールドを使用する。TMVPによって使用される同じコロケートピクチャが、SbTMVPに使用される。SbTMVPは、以下の2つの主な側面においてTMVPとは異なる。第1に、TMVPはCUレベルで動きを予測するが、SbTMVPはサブCUレベルで動きを予測する。第2に、TMVPは、コロケートピクチャ内のコロケートブロックから時間動きベクトルをフェッチする(コロケートブロックは、現在のCUに対して右下又は中央のブロックである)のに対し、SbTMVPは、コロケートピクチャから時間動き情報をフェッチする前に、動きシフトを適用し、ここで、動きシフトは、現在のCUの空間隣接ブロックのうちの1つからの動きベクトルから取得される。
SbTMVPプロセスは、図16及び図17に図示される。SbTMVPは、現在のピクチャ(1700)における現在のCU(1600)内のサブCUの動きベクトルを2つのステップで予測する。第1のステップでは、空間近傍A1(1602)が検査される。A1(1602)が、その参照ピクチャとしてコロケートピクチャ(1702)を使用する動きベクトル(1704)を有する場合、この動きベクトル(1704)は、適用される動きシフト(又は変位ベクトル)であるように選択される。そのような動きが識別されない場合、動きシフトは(0,0)に設定される。
第2のステップでは、ステップ1で識別された動きシフトが適用され(すなわち、現在のブロックの座標に追加され)、図17に示されるように、コロケートピクチャ(1702)からサブCUレベルの動き情報(動きベクトル及び参照インデックス)が取得される。図17の例では、動きシフトは、ブロックA1の動きに対して設定されると仮定している。次に、各サブCUに対して、コロケートピクチャ(1702)内のその対応するブロックの動き情報(中心サンプルをカバーする最小の動きグリッド)を使用して、サブCUの動き情報を導出する。コロケートサブCUの動き情報が識別された後、それは、HEVCのTMVPプロセスと同様の方法で、現在のサブCUの動きベクトル及び参照インデックスに変換され、ここで、時間動きスケーリングが適用されて、現在のCU(1600)の参照ピクチャに対して時間動きベクトルの参照ピクチャを位置合わせする。
VVCでは、SbTMVP候補とアフィンマージ候補の両方を含む結み合わせサブブロックベースのマージリストが、サブブロックベースのマージモードのシグナリングに使用される。SbTMVPモードは、シーケンスパラメータセット(SPS、sequence parameter set)フラグによってイネーブル/ディスエーブルされる。SbTMVPモードがイネーブルされる場合、SbTMVP予測器は、サブブロックベースのマージ候補のリストの第1のエントリとして追加され、その後にアフィンマージ候補が続く。サブブロックベースのマージリストのサイズはSPSでシグナリングされ、サブブロックベースのマージリストの最大許容サイズはVVCでは5である。
VVCでは、SbTMVPで使用されるサブCUサイズは8×8となるように固定され、アフィンマージモードで行われるように、SbTMVPモードは、8以上の幅と高さの両方を持つCUにのみ適用可能である。サブブロックサイズは、VVCを超える探索に使用される拡張圧縮モデル(ECM、enhanced compression model)ソフトウェアモデルでは、4×4のような他のサイズに構成可能であってよい。
VVC及びECMでは、サブブロックベースのTMVPは、現在のCUの隣接CUのMVからのみ導出されるDVを使用することによって可能にされる。しかしながら、導出されたDVを有するSbTMVPは、最良の一致ではない可能性がある。
本開示の態様は、別々に使用されてもよく、あるいは任意の順序で組み合わされてもよい。さらに、本開示の態様は、処理回路(例えば集積回路のような処理回路を含む1つ以上のプロセッサ)によって実装されてよい。一例では、1つ以上のプロセッサは、非一時的コンピュータ読取可能媒体に記憶されたプログラムを実行する。
本明細書で使用されるとき、テンプレートは、現在のブロックの予め定義された隣接する再構成エリアを指す。一例では、テンプレートは、上に隣接する再構成サンプルの上N行、及び/又は、左に隣接する再構成サンプルの左M列を含み得る。M及びNの例示的な値は、1、2、3、4、...を含むが、これらに限定されない。
いくつかの態様では、単一のDV予測器が存在し得るが、DVオフセットは、SbTMVPで使用される最終的なDVを導出するために、DV予測器に対する補正(MMVD等)として更にシグナリングされる。オフセットは、例えばオフセットのセットに関連付けられるインデックスの予め合意されたセットのセットからのインデックスをシグナリングすることによって、シグナリングされてもよい。あるいは、DVオフセットのセットは、コーディングされたビットストリームでシグナリングされてもよい。いくつかの他の態様では、SbTMVPで使用される最終的なDVを導出するための複数のDV予測器(すなわち、複数のベース予測器)が存在し得る。これらの場合、選択されたDV予測器に加えて、DVオフセットをシグナリングすることも、シグナリングしないこともできる。
サブブロックベースのTMVP(SbTMVP)に対して、DVのオフセットをシグナリングするとき、いくつかの現在の態様は、候補DVオフセットを、テンプレートマッチングを使用して、それらの関連付けられるコスト値に基づいて並べ替える。現在のコーディングブロックのテンプレートは、候補DVオフセット及びDV予測器(任意の空間近傍又はスケーリングを伴う任意の時間近傍のような隣接ブロックの動き情報から導出される)によって指定される異なる候補位置に位置する複数のブロックのテンプレートと比較され、コスト値Cは、各候補DVオフセットについて計算される。
コスト値Cは、現在のコーディングブロックのテンプレートのサンプル値と、候補DVオフセット及びDV予測器によって指定された各候補位置のサンプル値との間の差を表す。すなわち、コスト値Cは、現在のコーディングブロックのテンプレートのサンプル値と、対応する候補位置のサンプル値との間の類似度を表す。例えばより低いCの値は、現在のブロックのテンプレートのサンプル値と対応する候補位置のサンプル値との間の類似度が高いことを示し、より高いCの値は、類似度が低いことを示し得る。
したがって、各候補DVオフセットに対して計算されたコスト値Cは、現在のコーディングブロックのテンプレートのサンプル値と、DV予測器とそれぞれの候補DVオフセットとの組合せによって表される候補位置のサンプル値との間の類似度を表す。コスト値に基づいて、DVオフセット候補は、例えば昇順又は降順に基づいて並べ替えられる。
この例は図18に示されており、図18では、現在のブロック(1600)のテンプレートはTcであり、テンプレートマッチングの後、T0及びT1は、2つの例示的な候補DVsに関連付けられるテンプレートであり、2つの例示的な候補DVsは、DV予測器に適用される異なるDVオフセット値によって導出される。コスト値は、各DVオフセット候補に対して計算され、次いで、コストに基づいて、DVオフセット候補インデックス(例えばMMVDインデックス)が並べ替えられ、並べ替えられたインデックスのうちの選択されたインデックスが、選択されたDVオフセットを示すために、エンコーダによってデコーダに更にシグナリングされる。選択されたDVオフセットは次いで、DV予測器と組み合わせて使用され、SbTMVPモードにおける現在のコーディングブロックを予測/再構成し得る。
いくつかの態様では、選択されたインデックスは、追加のシグナリングなしに、デフォルトで、上記で計算された最小コストに関連付けられるインデックスとして選択されてもよい。他のいくつかの態様では、選択されたインデックスは、最小の予測コストに関連付けられてもよい。
様々な態様で用いられるテンプレートの形状は、図18に示される形状に限定されない。例えば様々な態様において、テンプレートは、ブロックの上の1つ以上の隣接セルのみ、ブロックの左側の1つ以上の隣接セルのみ、ブロックの上の1つ以上の隣接セルとブロックの左側の1つ以上の隣接セルの任意の組合せ等を含んでよい。
様々な代替的な態様では、コスト値Cは、現在のブロックのテンプレートのサンプル値と候補ブロックのテンプレートのサンプル値との間の絶対差分和(SAD、Sum of Absolute Differences)、絶対変換差分和(SATD、Sum of Absolute Transformed Differences)、二乗誤差分和(SSE、Sum of Squared Error)、サブサンプリングSAD、平均除去(mean-removed)SAD等によって計算されることができる。コスト値Cの様々な計算方法は、現在のブロックのテンプレートのサンプル値と、対応する候補位置のサンプル値との間の類似度を表す。例えば現在のブロックのテンプレートのサンプルと、候補位置の1つにおけるテンプレートのサンプルとが非常に類似しているとき、コスト値Cは、現在のブロックのテンプレートとその候補位置におけるテンプレートとの間の高い類似度を表すように非常に低いことがある。
一態様では、リスト上の候補のうちのいくつか(MMVD又は他の候補を含むことがある)のみが、テンプレートマッチングによって測定され、それらの関連するインデックスが並べ替えられる。リスト上の残りの候補については、相対的な順序は変更されないままである。例えば2つの水平方向と、2つの垂直方向と、4つの45度方向を含む8方向があると仮定すると、4つの45度方向のうちの1つを使用する確率は、他の方向に対して相対的に低いことがある。この場合、テンプレートマッチング、コスト計算及びインデックス並べ替えは、候補リストの上部にある2つの水平方向と2つの垂直方向2方向についてのみ行われてよく、候補リストの下部にある4つの45度方向のインデックスの順序は変更されずに維持される。これは、計算の複雑さを低減する。
一態様では、リスト上のすべての候補(MMVD又は他の候補を含み得る)のテンプレートマッチングコストが測定され、すべての候補が並べ替えられる。並べ替えの後、最低コストを有する上位N個の候補(Nは、候補の総数以下)のみに[0,N-1]の範囲のインデックスが割り当てられ、インデックスはビットストリームにシグナリングされて、どの候補が使用されるかを示す。数Nを事前定義することができ、あるいはシーケンスパラメータセット(SPS)、ピクチャパラメータセット(PPS)、ピクチャヘッダ(PH)、スライスヘッダ(SH)等の高レベル構文にシグナリングすることができる。
SbTMVPでは、複数のDV予測器が利用可能であり、DV予測器の選択がシグナリングされるとき、いくつかの現在の態様は、DV予測器を、テンプレートマッチングによって導出されたそれらの関連するコスト値に基づいて並べ替える。コスト値に基づいて、候補DV予測器は、昇順又は降順に基づいて並べ替えられ、並べ替えられたインデックス内の選択されたDV予測器のインデックスが、SbTMVPで使用されるDVを導出するためにどのDV予測器が適用されるかを示すためにシグナリングされる。選択されたDV予測器は、リスト上の最初又は最後の予測器であってよく、あるいは、最も低い予測コストを有するリスト上の別のDV予測器であってもよい。
いくつかのシステムでは、SbTMVPのために、導出されたDVsのリスト(すなわち、DV予測器が、DVオフセットを更にシグナリングすることなく直接使用されるとき)を、空間隣接CUのような方法から、あるいは履歴ベースの動きベクトル予測(HMVP)候補から構築することができる。リスト内のすべての候補DVsにわたって、これらと現在のブロックとの間のコスト値Cがテンプレートマッチングによって計算される。リストは、コスト値Cの降順又は昇順に並べ替えられる。インデックスがビットストリームにシグナリングされ、リスト内の導出されたどのDVが使用されるかを示す。テンプレートマッチングベースの並べ替えは、最も有用なDV候補がより短いコードワードを有し、エントロピーコーディングのための効率的なコンテキストモデルを有するという点で有益である。
一態様では、並べ替えの後、リスト上の最初のN個の候補DVsのみに、シグナリングのためのインデックスが割り当てられてよく、その結果、シグナリングコストはCの値に従って低減され得る。
別の態様では、候補DVsの並べ替えの後、最小のテンプレートマッチングコストを有する第1の候補DVがデフォルトで使用されてよく、その結果、候補DVsのインデックスを示すためにシグナリングは必要とされない。
別の態様では、並べ替えリスト上の候補DVsのいずれかが、ビットストリーム内のインデックスによってシグナリングされてもよい。例えば最も低い予測コストを有する候補DVは、ビットストリーム内のインデックスによってシグナリングされてもよい。
いくつかの態様は、複数のDV予測器候補及び/又は複数のDVオフセットを有するDV予測器を、単一のDV候補リストにまとめてもよい。次いで、すべてのDV候補は、テンプレートマッチングコストに基づいて並べ替えられてもよい。並べ替えられたリストから選択された候補のインデックスは、ビットストリームでシグナリングされてもよい。
一態様では、すべてのDV予測器の上にオフセットを加えることによって生成されたすべての可能なDV候補は、テンプレートマッチングコストを使用することによって、昇順又は降順に並べ替えられ、テンプレートマッチングベースの候補リストを構築する。上記リスト内のどの候補が選択されたかを示すために、インデックスがビットストリームでシグナリングされる。したがって、ベースDV予測器シグナリングは必要とされない。
一態様では、すべての可能なDV予測器候補と、オフセットをベース予測器に加えることによって生成されたすべての可能な候補とが一緒にされ、テンプレートマッチングコストに基づいて昇順に並べ替えられて、並べ替えられた候補リストを形成する。リスト内のどの候補が選択されたかを示すために、インデックスがシグナリングされる。この示された候補は、複数のベースDV候補のうちの1つを有するSbTMVP候補、あるいは複数のベースDV候補のうちの1つの上にオフセットを有するSbTMVP MMVD候補であり得る。
一例では、このテンプレートマッチングベースの並べ替えSbTMVP候補リストは、独立の候補リストとして構築されてよく、SbTMVP候補リストのテンプレートマッチングベースの並べ替えが現在のフレームに対して有効にされるとき、SbTMVP候補は、アフィンマージ候補リストに含まれない。サブブロックマージモードがシグナリングされるとき、このSbTMVPリストを構築するかアフィンマージリストを構築するかを示すために、追加の構文がコーディングブロックレベルでシグナリングされてもよい。
一態様では、テンプレートマッチングベースの候補並べ替えは、ベースDV予測器が決定されるときに適用されてよく、DV予測器の上にDVオフセットを加えることによって生成されたすべての候補は、それらのテンプレートマッチングコストに基づいて並べ替えられてよく、その結果、ベースDV予測器のシグナリングと、並べ替えられたリストの候補インデックスのシグナリングとは、別々に行われてよい。
図19~図21は、本開示の様々な態様による、SbTMVPの符号化/復号プロセス(1900、2000、2100)を概説する例示のフローチャートを示す。様々な態様では、プロセス(1900、2000、2100)の各々1つは、端末デバイス(310)、(320)、(330)及び(340)内の処理回路、ビデオエンコーダ(例えば(403)、(603)、(703))の機能を実行する処理回路、ビデオデコーダ(例えば(410)、(510)、(810))の機能を実行する処理回路等のような処理回路によって実行されてもよい。いくつかの態様では、プロセス(1900、2000、2100)の各々1つは、ソフトウェア命令で実装されてもよく、したがって、処理回路がソフトウェア命令を実行するとき、処理回路は、プロセス(1900、2000、2100)のうちの1つを実行する。プロセス(1900、2000、2100)の各々1つを、様々なシナリオに適切に適合させることができ、プロセス(1900、2000、2100)の各々1つにおけるステップを、それに応じて調整することができる。プロセス(1900、2000、2100)の各々1つにおけるステップのうちの1つ以上を、適合させ、省略し、繰り返し、かつ/又は組み合わせることができる。任意の適切な順序を使用して、プロセス(1900、2000、2100)の各々1つを実装することができる。追加のステップを追加することができる。
まず、図19を参照すると、プロセス(1900)は(S1901)で開始して(S1910)に進む。
(S1905)において、プロセス(1900)は、コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取り、該予測情報は、現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされていることを示す。
(S1910)において、プロセス(1900)は、複数の変位ベクトル(DV)オフセット候補を、現在のコーディングブロックの固定DV予測器に適用することによって、複数のDV候補を導出する。
(S1920)において、プロセス(1900)は、現在のコーディングブロックのテンプレートを複数のテンプレートの各々と比較し、複数のテンプレートの各テンプレートは、複数のDV候補のうちの対応する1つによって指定された位置に配置される。
(S1930)において、プロセス(1900)は、比較に基づいて、複数のDVオフセット候補の各々1つに関連付けられるコスト値を計算する。
(S1940)において、プロセス(1900)は、複数のDVオフセット候補のDVオフセットインデックスを、それらの計算されたコスト値に基づいて、並べ替える。
一例では、プロセス(1900)は、コーディングされたビデオビットストリーム内でシグナリングされたインデックスを更に受け取ることがあり、ここで、インデックスは、SbTMVPを実行するためにどのDVオフセット候補が選択されるかを示す。
一例では、並べ替えの後、プロセス(1900)は、SbTMVPを実行するために、デフォルトで最も低い計算されたテンプレートマッチングコストを有するDVオフセット候補を更に選択してもよい。したがって、選択されたDVオフセットに対してシグナリングは必要とされない。
一例では、コスト値は、絶対差分和(SAD、Sum of Absolute Differences)、絶対変換差分和(SATD、Absolute Transformed Differences)、二乗誤差分和(SSE、Sum of Squared Error)、サブサンプルSAD又は平均除去SADを実行することによって計算される。
一例では、複数のDV候補は、動きベクトル差分によるマージMMVD(Merge with Motion Vector Difference)候補を含む。
一例では、比較、計算及び並べ替えは、MMVD候補のサブセットに対してのみ実行され、ここで、MMVD候補のうちの1つ以上の他のMMVD候補の相対的順序は変更されずに維持される。
一例では、比較、計算及び並べ替えは、MMVD候補のすべてに対して実行され、ここで、並べ替えの後、MMVD候補のうち最も低いコストを有するN個のみが使用され、ここで、数Nは、MMVD候補の総数以下である。
一例では、どのMMVD候補が使用されるかを示すために、[0,N-1]の範囲内のインデックスがビットストリームにシグナリングされ、ここで、数Nは、予め定義されるか又は高レベルの構文にシグナリングされる。
一例では、DVオフセットインデックスは、それらの計算されたコスト値の降順又は昇順によって並べ替えられる。
プロセス(1900)は次いで(S1999)に進み、終了する。
次に、図20を参照すると、プロセス(2000)は(S2001)で開始して(S2010)に進む。
(S2005)において、方法(2000)は、コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取り、該予測情報は、現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされていることを示す。
(S2010)において、プロセス(2000)は、現在のコーディングブロックのテンプレートを複数のテンプレートの各々と比較し、複数のテンプレートの各テンプレートは、複数の変位ベクトル(DV)予測器候補のうちの対応する1つによって指定された位置に配置される。
(S2020)において、プロセス(2000)は、比較に基づいて、複数のDV予測器候補の各々1つに関連付けられるコスト値を計算する。
(S2030)において、プロセス(2000)は、複数のDV予測器候補のリストを、それらの計算されたコスト値に基づいて並べ替える。
一例では、プロセス(2000)は、コーディングされたビデオビットストリームでシグナリングされたインデックスを更に受け取り、ここで、インデックスは、SbTMVPを実行するために、複数のDV予測器候補の並べ替えされたリストから、どのDV予測器候補が選択されるかを示す。
一例では、並べ替えの後、プロセス(2000)は、SbTMVPを実行するために、デフォルトで計算されたテンプレートマッチングコストが最も低いDV予測器候補を更に選択する。
一例では、複数のDV予測器候補のリストは、空間隣接コーディングユニット(CU)から、あるいは履歴ベースの動きベクトル予測(HMVP)候補から構築される。
一例では、並べ替えの後、リスト上の複数のDV予測器候補のうちの最初のN個のみがシグナリングされる。
一例では、リスト内の複数のDV予測器候補は、それらの計算されたコスト値の降順又は昇順によって並べ替えられる。
プロセス(2000)は次いで(S2099)に進み、終了する。
次に、図21を参照すると、プロセス(2100)は(S2101)で開始して(S2110)に進む。
(S2105)において、プロセス(2100)は、コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取り、該予測情報は、現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされていることを示す。
(S2110)において、プロセス(2100)は、現在のコーディングブロックの複数の変位ベクトル(DV)候補を含むSbTMVP候補リストを生成し、ここで、SbTMVP候補リストは、いずれのDVオフセットも適用せずに導出された少なくとも1つのDV予測器候補と、DVオフセットをベースDV予測器に適用することによって導出された少なくとも1つの他のDV予測器候補とを含む。
(S2120)において、プロセス(2100)は、現在のコーディングブロックのテンプレートを複数のテンプレートの各々と比較し、複数のテンプレートの各テンプレートは、SbTMVP候補リスト内の複数のDV候補のうちの対応する1つによって指定された位置に配置される。
(S2130)において、プロセス(2100)は、比較に基づいて、複数のDV候補の各々1つに関連付けられるコスト値を計算する。
(S2140)において、プロセス(2100)は、SbTMVP候補リストの複数のDV候補を、それらの計算されたコスト値に基づいて並べ替える。
一例では、プロセス(2100)は、コーディングされたビデオビットストリームでシグナリングされたインデックスを更に受け取り、ここで、インデックスは、SbTMVPを実行するために、並べ替えられたSbTMVP候補リストからどのDV候補が選択されるかを示す。
一例では、選択されたDV候補は、いかなるDVオフセットも適用せずに導出されたSbTMVP DV候補であるか、あるいはそれぞれのDVオフセットをそれぞれのベースDV予測器に適用することによって導出されたSbTMVP MMVD(Merge with Motion Vector Difference)候補である。
一例では、選択されたDV候補がSbTMVP MMVD候補であるとき、それぞれのベースDV予測器のシグナリングと、それぞれのDVオフセットのインデックスのシグナリングは、別々に実行される。
一例では、SbTMVP候補リストは、候補のテンプレートマッチングベースの並べ替えが現在のフレームに対して可能にされるとき、アフィンマージ候補リストとは独立に構築され、ここで、サブブロックマージモードがシグナリングされるとき、SbTMVP候補リストを構築するか又はアフィンマージ候補リストを構築するかを示すために、追加の構文がコーディングブロックレベルでシグナリングされる。
プロセス(2100)は次いで(S2199)に進み、終了する。
本開示における態様は、別々に使用されてもよく、あるいは任意の順序で組み合わされてもよい。さらに、方法(又は態様)、エンコーダ及びデコーダの各々は、処理回路(例えば1つ以上のプロセッサ又は1つ以上の集積回路)によって実装されてもよい。一例では、1つ以上のプロセッサは、非一時的コンピュータ読取可能媒体に記憶されたプログラムを実行する。
上述の技術を、コンピュータ読取可能命令を使用してコンピュータソフトウェアとして実装し、1つ以上のコンピュータ読取可能媒体に物理的に記憶することができる。例えば図22は、開示される主題の特定の態様を実装するのに適したコンピュータシステム(2200)を示す。
コンピュータソフトウェアは、アセンブリ、コンパイル、リンキング又は類似のメカニズムの対象となり得る任意の適切な機械コード又はコンピュータ言語を使用してコーディングされ、1つ以上のコンピュータ中央処理ユニット(CPU)、グラフィクス処理ユニット(GPU)等によって直接的に又は解釈やマイクロコード実行等を通して実行され得る命令を含む、コードを作成することができる。
命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイス等を含む様々なタイプのコンピュータ又はその構成要素において実行されることができる。
コンピュータシステム(2200)について図22に示される構成要素は、本質的に例示であり、本開示の態様を実装するコンピュータソフトウェアの使用範囲又は機能性に関して、いかなる制限も示唆するように意図されていない。また、構成要素の構成は、コンピュータシステム(2200)の例示的態様に示される構成要素の任意の1つ又は組合せに関するいかなる依存性又は要件も有するものとして解釈されてはならない。
コンピュータシステム(2200)は、特定のヒューマンインタフェース入力デバイスを含み得る。そのようなヒューマンインタフェース入力デバイスは、例えば触覚入力(キーストローク、スワイプ、データグローブの動き等)、オーディオ入力(声、拍手等)、視覚入力(ジェスチャ等)、嗅覚入力(図示せず)を通して、1人以上の人間のユーザによる入力に応答し得る。また、ヒューマンインタフェース入力デバイスは、オーディオ(音声、音楽、環境音等)、画像(スキャンされた画像、静止画像カメラから得られる写真画像等)、ビデオ(2次元ビデオ、立体映像を含む3次元ビデオ等)のような、人間による意識的入力に必ずしも直接関係しているとは限らない、特定の媒体をキャプチャするためにも使用されることができる。
ヒューマンインタフェース入力デバイスは、キーボード(2201)、マウス(2202)、トラックパッド(2203)、タッチ画面(2210)、データグローブ(図示せず)、ジョイスティック(2205)、マイクロホン(2206)、スキャナ(2207)及びカメラ(2208)(各々の1つのみが図示される)のうちの1つ以上を含んでもよい。
コンピュータシステム(2200)はまた、特定のヒューマンインタフェース出力デバイスも含み得る。そのようなヒューマンインタフェース出力デバイスは、例えば触覚出力、音響、光及び嗅覚/味覚を通して、1人以上の人間のユーザの感覚を刺激し得る。そのようなヒューマンインタフェース出力デバイスは、触覚出力デバイス(例えばタッチ画面(2210)、データグローブ(図示せず)又はジョイスティック(2205)による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある)、オーディオ出力デバイス(スピーカ(2209)、ヘッドフォン(図示せず)等)、視覚出力デバイス(各々タッチ画面入力機能の有無にかかわらず、各々触覚フィードバック機能の有無にもかかわらないが、その一部は、立体画像出力や仮想現実グラス(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず)のような手段を通して、2次元視覚出力又は3次元超の出力を出力することができる、CRT画面、LCD画面、プラズマ画面、OLED画面を含む画面(2210)等)及びプリンタ(図示せず)を含んでよい。
コンピュータシステム(2200)はまた、CD/DVDを有するCD/DVD ROM/RW(2220)を含む光媒体又は類似の媒体(2221)、サムドライブ(2222)、取り外し可能ハードドライブ又はソリッドステートドライブ(2223)、テープ及びフロッピーディスク(図示せず)のようなレガシー磁気媒体、セキュリティドングル(図示せず)のような特別なROM/ASIC/PLDベースのデバイスのような、ヒューマンアクセス可能なストレージデバイス及びそれらの関連する媒体も含むことができる。
当業者はまた、現在開示されている主題に関連して使用されるとき、「コンピュータ読取可能媒体」という用語が、伝送媒体、搬送波又は他の一時的信号を包含しないことを理解すべきである。
コンピュータシステム(2200)はまた、1つ以上の通信ネットワーク(2255)へのインタフェース(2254)も含むことができる。ネットワークは、例えば無線、有線、光とすることができる。ネットワークは更に、ローカル、ワイドエリア、メトロポリタン、車両及び産業用、リアルタイム、遅延耐性等とすることができる。ネットワークの例は、イーサネット(登録商標)、無線LAN等のローカルエリアネットワーク、GSM(登録商標)、3G、4G、5G、LTE等を含むセルラネットワーク、ケーブルTV、衛星TV及び地上放送TVを含むTV有線又は無線ワイドエリアデジタルネットワーク、CANBus等を含む車両及び産業用ネットワークを含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス(2249)に取り付けられ外部ネットワークインタフェースアダプタ(例えばコンピュータシステム(2200)のUSBポート等)を必要とし、他のものは、一般に、後述するシステムバスへの取り付けによって(例えばPCコンピュータシステムへのイーサネット(登録商標)インタフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース)、コンピュータシステム(2200)のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム(2200)は、他のエンティティと通信することができる。このような通信は、例えばローカル又はワイドエリアデジタルネットワークを使用して、他のコンピュータシステムに対する、単方向の受信専用(例えば放送TV)、単方向の送信専用(例えば特定のCANbusから特定のCANbusデバイスへ)又は双方向であり得る。上述のように、特定のプロトコル及びプロトコルスタックを、これらのネットワーク及びネットワークインタフェースの各々において使用することができる。
前述のヒューマンインタフェースデバイス、ヒューマンアクセス可能なストレージデバイス及びネットワークインタフェースを、コンピュータシステム(2200)のコア(2240)に取り付けることができる。
コア(2240)は、1つ以上の中央処理ユニット(CPU)(2241)、グラフィクス処理ユニット(GPU)(2242)、フィールドプログラマブルゲートアレイ(FPGA)(2243)の形態の専用のプログラマブル処理ユニット、特定のタスク用のハードウェアアクセラレータ(2244)、グラフィクスアダプタ(2250)等を含むことができる。これらのデバイスは、読取専用メモリ(ROM)(2245)、ランダムアクセスメモリ(RAM)(2246)、内部非ユーザアクセス可能ハードドライブ、SSD等の内部大容量ストレージ(2247)とともに、システムバス(2248)を通して接続され得る。いくつかのコンピュータシステムでは、システムバス(2248)は、追加のCPU、GPU等による拡張を可能にするために、1つ以上の物理的プラグの形態でアクセス可能である。周辺デバイスを、コアのシステムバス(2248)に直接又は周辺バス(2249)を介して取り付けることができる。一例では、画面(2210)をグラフィクスアダプタ(2250)に接続することができる。周辺バスのアーキテクチャは、PCI、USB等を含む。
CPU(2241)、GPU(2242)、FPGA(2243)及びアクセラレータ(2244)は、組み合わされて上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードを、ROM(2245)又はRAM(2246)に記憶することができる。また、一時的なデータをRAM(2246)に記憶することができ、一方、永久的なデータを、例えば内部大容量ストレージ(2247)に記憶することができる。1つ以上のCPU(2241)、GPU(2242)、大容量ストレージ(2247)、ROM(2245)、RAM(2246)等と密接に関連付けることができるキャッシュメモリの使用を通して、メモリデバイスのいずれかに対する高速記憶及び取り出しを可能にすることができる。
コンピュータ読取可能媒体は、様々なコンピュータ実装される動作を実行するためのコンピュータコードをその上に有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものとすることができ、あるいはそれらは、コンピュータソフトウェア技術の当業者に周知かつ利用可能な種類のものとすることができる。
限定ではなく例として、アーキテクチャ(2200)及び特にコア(2240)を有するコンピュータシステムは、プロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)が1つ以上の有形のコンピュータ読取可能媒体に具現化されたソフトウェアを実行する結果としての機能性を提供することができる。このようなコンピュータ読取可能媒体は、上記で紹介したようなユーザアクセス可能な大容量ストレージ、並びにコア内部大容量ストレージ(2247)又はROM(2245)のような非一時的な性質のコア(2240)の特定のストレージに関連付けられる媒体とすることができる。本開示の様々な態様を実装するソフトウェアを、そのようなデバイスに記憶して、コア(2240)によって実行することができる。コンピュータ読取可能媒体は、特定のニーズに従って、1つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア(2240)及び特にその中のプロセッサ(CPU、GPU、FPGA等を含む)に、RAM(2246)に記憶されるデータ構造を定義することと、ソフトウェアによって定義されるプロセスに従ってそのようなデータ構造を修正することとを含む、本明細書で説明される特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。追加又は代替として、コンピュータシステムは、論理ハードワイヤ又は他の方法で回路(例えばアクセラレータ(2244))内に具現化された結果として機能性を提供することができ、この回路は、ソフトウェアの代わりに又はソフトウェアとともに動作して、本明細書で説明される特定のプロセス又は特定のプロセスの特定の部分を実行することができる。ソフトウェアへの言及はロジックを含み、また、必要に応じて、その逆も可能である。コンピュータ読取可能媒体への参照は、実行のためのソフトウェアを記憶する回路(集積回路(IC)等)、実行のためのロジックを具体化する回路又は適切な場合にはその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組合せを包含する。
本明細書で使用されるいくつかの頭字語は以下を含む。
JEM:joint exploration model
VVC:versatile video coding
BMS:ベンチマークセット(benchmark set)
MV:動きベクトル(Motion Vector)
HEVC:高効率ビデオコーディング(High Efficiency Video Coding)
SEI:補足強化情報(Supplementary Enhancement Information)
VUI:ビデオユーザビリティ情報(Video Usability Information)
GOPs:グループオブピクチャ(Groups of Pictures)
TUs:変換ユニット(Transform Units)
PUs:予測ユニット(Prediction Units)
CTUs:コーディングツリーユニット(Coding Tree Units)
CTBs:コーディングツリーブロック(Coding Tree Blocks)
PBs:予測ブロック(Prediction Blocks)
HRD:仮想リファレンスデコーダ(Hypothetical Reference Decoder)
SNR:信号対ノイズ比(Signal Noise Ratio)
CPUs:中央処理ユニット(Central Processing Units)
GPUs:グラフィクス処理ユニット(Graphics Processing Units)
CRT:ブラウン管(Cathode Ray Tube)
LCD:液晶ディスプレイ(Liquid-Crystal Display)
OLED:有機発光ダイオード(Organic Light-Emitting Diode)
CD:コンパクトディスク(Compact Disc)
DVD:デジタルビデオディスク(Digital Video Disc)
ROM:読取専用メモリ(Read-Only Memory)
RAM:ランダムアクセスメモリ(Random Access Memory)
ASIC:特定用途向け集積回路(Application-Specific Integrated Circuit)
PLD:プログラマブル論理デバイス(Programmable Logic Device)
LAN:ローカルエリアネットワーク(Local Area Network)
GSM:汎欧州デジタル移動電話方式(Global System for Mobile communications)
LTE:長期進化(Long-Term Evolution)
CANBus:コントローラエリアネットワークバス(Controller Area Network Bus)
USB:ユニバーサルシリアルバス(Universal Serial Bus)
PCI:周辺構成要素相互接続(Peripheral Component Interconnect)
FPGA:フィールドプログラマブルゲートアレイ(Field Programmable Gate Array)
SSD:ソリッドステートドライブ(solid-state drive)
IC:集積回路(Integrated Circuit)
CU:コーディングユニット(Coding Unit)
R-D:レート歪み(Rate-Distortion)
HDR:高ダイナミックレンジ(High dynamic range)
SDR:標準ダイナミックレンジ(Standard dynamic range)
JVET:Joint Video Exploration Team
AMVR:適応動きベクトル解像度(Adaptive Motion Vector Resolution)
POC:ピクチャ順序カウント(Picture Order Count)
SbTMVP:サブブロックベースの一時的動きベクトル予測器(Subblock-based Temporal Motion Vector Predictor)
DV:変位ベクトル(displacement vector)
本開示は、いくつかの例示的な態様を説明しているが、本開示の範囲内にある変更、置換及び様々な代替均等物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は説明されていないが、本開示の原理を具体化しており、よって、本開示の精神及び範囲内にある、様々システム及び方法を考案することができることが理解されよう。
Claims (21)
- ビデオ復号のために、処理回路によって実行される方法であって、
コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取るステップであって、前記予測情報は、現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされることを示す、ステップと、
前記コーディングされたビデオビットストリームから、複数の変位ベクトル(DV)オフセットを取得するステップであって、各DVオフセットは変位ベクトル候補に対応する、ステップと、
前記複数のDVオフセットを前記現在のコーディングブロックの固定DV予測器に適用することによって、複数のDV候補を導出するステップと、
前記現在のコーディングブロックのテンプレートを複数のテンプレートの各々と比較するステップであって、前記複数のテンプレートの各テンプレートは、前記複数のDV候補のうちの対応する1つによって指定された位置に配置される、ステップと、
前記比較に基づいて、前記複数のDV候補の各々1つに関連付けられるコスト値を計算するステップと、
前記複数のDV候補のDVオフセットインデックスを、それらの計算されたコスト値に基づいて並べ替えるステップと、
前記並べ替えられたDVオフセットインデックスから選択されたDVオフセットインデックスに少なくとも基づいて、前記SbTMVPモードにおける前記現在のコーディングブロックを予測するステップと、
を含む、方法。 - 前記コーディングされたビデオビットストリームでシグナリングされるインデックスを受け取るステップを更に含み、前記インデックスは、SbTMVPを実行するために、前記並べ替えられたDVオフセットインデックスの中からどのDVオフセット候補が選択されるかを示す、
請求項1に記載の方法。 - 前記並べ替えの後、当該方法は、SbTMVPを実行するために、デフォルトで、最も低い計算されたテンプレートマッチングコストを有するDVオフセット候補を選択するステップを更に含む、
請求項1に記載の方法。 - 前記コスト値は、絶対差分和(SAD)、絶対変換差分和(SATD)、二乗誤差分和(SSE)、サブサンプルSAD又は平均除去SADを実行することによって計算される、
請求項1に記載の方法。 - 前記複数のDV候補は、動きベクトル差分によるマージ(MMVD)候補を含む、
請求項1に記載の方法。 - 前記比較するステップ、前記計算するステップ及び前記並べ替えるステップは、前記MMVD候補のサブセットにのみに対して実行され、前記MMVD候補のうちの1つ以上の他のMMVD候補の相対的順序は変更されずに維持される、
請求項5に記載の方法。 - 前記比較するステップ、前記計算するステップ及び前記並べ替えるステップは、前記MMVD候補のすべてに対して実行され、前記並べ替えの後、最も低いコストを有する前記MMVD候補のうちのN個のみが使用され、数Nは、前記MMVD候補の総数以下である、
請求項5に記載の方法。 - どのMMVD候補が使用されるかを示すために、[0,N-1]の範囲のインデックスがビットストリームにシグナリングされ、数Nは、予め定義されるか又は高レベル構文にシグナリングされる、
請求項7に記載の方法。 - 前記DVオフセットインデックスは、対応するDVオフセット候補について計算されたコスト値の降順又は昇順によって並べ替えられる、
請求項1に記載の方法。 - ビデオ復号のために、処理回路によって実行される方法であって、
コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取るステップであって、前記予測情報は、前記現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされていることを示す、ステップと、
前記現在のコーディングブロックのテンプレートを複数のテンプレートの各々と比較するステップであって、前記複数のテンプレートの各テンプレートは、複数の変位ベクトル(DV)予測器候補のうちの対応する1つによって指定された位置に配置される、ステップと、
前記比較に基づいて、前記複数のDV予測器候補の各々1つに関連付けられるコスト値を計算するステップと、
前記複数のDV予測器候補のリストを、それらの計算されたコスト値に基づいて並べ替えるステップと、
前記複数のDV予測器候補の前記並べ替えられたリストから選択されたDV予測器に少なくとも基づいて、前記SbTMVPモードにおける前記現在のコーディングブロックを予測するステップと、
を含む、方法。 - 前記複数のDV予測器候補の前記リストは、空間隣接コーディングユニット(CU)から、あるいは履歴ベースの動きベクトル予測(HMVP)候補から構築される、
請求項10に記載の方法。 - 前記並べ替えの後、前記リストの前記複数のDV予測器候補のうちの最初のN個のみがシグナリングされる、
請求項10に記載の方法。 - ビデオ復号のために、処理回路によって実行される方法であって、
コーディングされたビデオビットストリームから、現在のピクチャにおける現在のコーディングブロックの予測情報を受け取るステップであって、前記予測情報は、前記現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされていることを示す、ステップと、
前記現在のコーディングブロックの複数の変位ベクトル(DV)候補を含むSbTMVP候補リストを生成するステップであって、前記SbTMVP候補リストは、いずれのDVオフセットも適用せずに導出された少なくとも1つのDV予測器候補と、DVオフセットをベースDV予測器に適用することによって導出された少なくとも1つの他のDV予測器候補とを含む、ステップと、
前記現在のコーディングブロックのテンプレートを複数のテンプレートの各々と比較するステップであって、前記複数のテンプレートの各テンプレートは、前記SbTMVP候補リスト内の前記複数のDV候補のうちの対応する1つによって指定された位置に配置される、ステップと、
前記比較に基づいて、前記複数のDV候補の各々1つに関連付けられるコスト値を計算するステップと、
前記SbTMVP候補リスト内の前記複数のDV候補を、それらの計算されたコスト値に基づいて並べ替えるステップと、
前記SbTMVP候補リスト内の前記並べ替えられたDV候補から選択されたDV予測器候補に基づいて、前記SbTMVPモードにおける前記現在のコーディングブロックを予測するステップと、
を含む、方法。 - 前記コーディングされたビデオビットストリームでシグナリングされたインデックスを受け取るステップを更に含み、前記インデックスは、SbTMVPを実行するために、前記SbTMVP候補リストの前記並べ替えられたDV候補からどのDV候補が選択されるかを示す、
請求項13に記載の方法。 - 前記選択されたDV候補は、いかなるDVオフセットも適用せずに導出されたSbTMVP DV候補であるか、あるいはそれぞれのDVオフセットをそれぞれのベースDV予測器に適用することによって導出されたSbTMVP MMVD候補である、
請求項14に記載の方法。 - 前記選択されたDV候補が前記SbTMVP MMVD候補であるとき、前記それぞれのベースDV予測器のシグナリングと、前記それぞれのDVオフセットのインデックスのシグナリングは、別々に実行される、
請求項15に記載の方法。 - 前記SbTMVP候補リストは、候補のテンプレートマッチングベースの並べ替えが現在のフレームに対して可能にされるとき、アフィンマージ候補リストとは独立に構築され、サブブロックマージモードがシグナリングされるとき、前記SbTMVP候補リストを構築するか又は前記アフィンマージ候補リストを構築するかを示すために、追加の構文がコーディングブロックレベルでシグナリングされる、
請求項13に記載の方法。 - ビデオ符号化のために、処理回路によって実行される方法であって、
コーディングされたビデオビットストリームに、現在のピクチャにおける現在のコーディングブロックの予測情報を追加するステップを備え、
前記予測情報は、現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされることを示し、
前記コーディングされたビデオビットストリームから、複数の変位ベクトル(DV)オフセットが取得され、
前記複数のDVオフセットを前記現在のコーディングブロックの固定DV予測器に適用することによって、複数のDV候補が導出され、
前記現在のコーディングブロックのテンプレートが複数のテンプレートの各々と比較され、前記複数のテンプレートの各テンプレートは、前記複数のDV候補のうちの対応する1つによって指定された位置に配置され、
前記比較に基づいて、前記複数のDV候補の各々1つに関連付けられるコスト値が計算され、
前記複数のDV候補のDVオフセットインデックスが、それらの計算されたコスト値に基づいて並べ替えられ、
前記並べ替えられたDVオフセットインデックスから選択されたDVオフセットインデックスに少なくとも基づいて、前記SbTMVPモードにおける前記現在のコーディングブロックが予測される、
方法。 - ビデオ符号化のために、処理回路によって実行される方法であって、
コーディングされたビデオビットストリームに、現在のピクチャにおける現在のコーディングブロックの予測情報を追加するステップを備え、
前記予測情報は、前記現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされていることを示し、
前記現在のコーディングブロックのテンプレートが複数のテンプレートの各々と比較され、前記複数のテンプレートの各テンプレートは、複数の変位ベクトル(DV)予測器候補のうちの対応する1つによって指定された位置に配置され、
前記比較に基づいて、前記複数のDV予測器候補の各々1つに関連付けられるコスト値が計算され、
前記複数のDV予測器候補のリストが、それらの計算されたコスト値に基づいて並べ替えられ、
前記複数のDV予測器候補の前記並べ替えられたリストから選択されたDV予測器に少なくとも基づいて、前記SbTMVPモードにおける前記現在のコーディングブロックが予測される、
方法。 - ビデオ符号化のために、処理回路によって実行される方法であって、
コーディングされたビデオビットストリームに、現在のピクチャにおける現在のコーディングブロックの予測情報を追加するステップを備え、
前記予測情報は、前記現在のコーディングブロックが、サブブロックベースの時間動きベクトル予測(SbTMVP)モードを使用してコーディングされていることを示し、
前記現在のコーディングブロックの複数の変位ベクトル(DV)候補を含むSbTMVP候補リストが生成され、前記SbTMVP候補リストは、いずれのDVオフセットも適用せずに導出された少なくとも1つのDV予測器候補と、DVオフセットをベースDV予測器に適用することによって導出された少なくとも1つの他のDV予測器候補とを含み、
前記現在のコーディングブロックのテンプレートが複数のテンプレートの各々と比較され、前記複数のテンプレートの各テンプレートは、前記SbTMVP候補リスト内の前記複数のDV候補のうちの対応する1つによって指定された位置に配置され、
前記比較に基づいて、前記複数のDV候補の各々1つに関連付けられるコスト値が計算され、
前記SbTMVP候補リスト内の前記複数のDV候補が、それらの計算されたコスト値に基づいて並べ替えられ、
前記SbTMVP候補リスト内の前記並べ替えられたDV候補から選択されたDV予測器候補に基づいて、前記SbTMVPモードにおける前記現在のコーディングブロックが予測される、
方法。 - 処理回路によって実行されると、前記処理回路に、請求項1乃至20のいずれか一項に記載される方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202263346283P | 2022-05-26 | 2022-05-26 | |
| US63/346,283 | 2022-05-26 | ||
| US17/985,127 US12063355B2 (en) | 2022-05-26 | 2022-11-10 | Subblock based motion vector predictor displacement vector reordering using template matching |
| US17/985,127 | 2022-11-10 | ||
| PCT/US2022/079765 WO2023229665A1 (en) | 2022-05-26 | 2022-11-11 | Subblock based motion vector predictor displacement vector reordering using template matching |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2025517841A true JP2025517841A (ja) | 2025-06-12 |
Family
ID=88875964
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024515303A Pending JP2025517841A (ja) | 2022-05-26 | 2022-11-11 | ビデオ符号化及び復号のための方法及びコンピュータプログラム |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US12063355B2 (ja) |
| EP (1) | EP4533796A1 (ja) |
| JP (1) | JP2025517841A (ja) |
| KR (1) | KR20240054307A (ja) |
| CN (1) | CN118648286A (ja) |
| WO (1) | WO2023229665A1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113709458B (zh) * | 2020-05-22 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 视频编解码中的位移矢量预测方法、装置及设备 |
| WO2025152710A1 (en) * | 2024-01-17 | 2025-07-24 | Mediatek Inc. | Methods and apparatus of using template matching for mv refinement or candidate reordering for video coding |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9325990B2 (en) * | 2012-07-09 | 2016-04-26 | Qualcomm Incorporated | Temporal motion vector prediction in video coding extensions |
| GB2519289B (en) * | 2013-10-11 | 2016-10-12 | Canon Kk | Method and apparatus for displacement vector component transformation in video coding and decoding |
| CN111567047B (zh) * | 2017-10-09 | 2022-07-22 | 华为技术有限公司 | 进行子预测块运动矢量推导的存储器访问窗口 |
| US20190387251A1 (en) * | 2018-06-19 | 2019-12-19 | Mediatek Inc. | Methods and Apparatuses of Video Processing with Overlapped Block Motion Compensation in Video Coding Systems |
| CN111083489B (zh) * | 2018-10-22 | 2024-05-14 | 北京字节跳动网络技术有限公司 | 多次迭代运动矢量细化 |
| WO2020260110A1 (en) * | 2019-06-25 | 2020-12-30 | Interdigital Vc Holdings France, Sas | Hmvc for affine and sbtmvp motion vector prediciton modes |
| US12375644B2 (en) * | 2021-10-05 | 2025-07-29 | Tencent America LLC | Grouping based adaptive reordering of merge candidate |
| US12075060B2 (en) * | 2021-10-05 | 2024-08-27 | Tencent America LLC | Alternative merge mode with motion vector difference by using template-matching |
| US12238294B2 (en) * | 2022-04-18 | 2025-02-25 | Tencent America LLC | Sub-block based temporal motion vector predictor with an motion vector offset |
| US12425602B2 (en) * | 2022-05-25 | 2025-09-23 | Tencent America LLC | Subblock level temporal motion vector prediction with multiple displacement vector predictors and an offset |
| US12489886B2 (en) * | 2022-07-04 | 2025-12-02 | Alibaba (China) Co., Ltd. | Deriving bi-prediction with coding unit-level weight indices for merge candidates |
| US12316877B2 (en) * | 2022-07-06 | 2025-05-27 | Qualcomm Incorporated | High-level syntax control flags for template matching-related coding tools in video coding |
-
2022
- 2022-11-10 US US17/985,127 patent/US12063355B2/en active Active
- 2022-11-11 CN CN202280091120.XA patent/CN118648286A/zh active Pending
- 2022-11-11 EP EP22932484.3A patent/EP4533796A1/en active Pending
- 2022-11-11 WO PCT/US2022/079765 patent/WO2023229665A1/en not_active Ceased
- 2022-11-11 JP JP2024515303A patent/JP2025517841A/ja active Pending
- 2022-11-11 KR KR1020247009536A patent/KR20240054307A/ko active Pending
-
2024
- 2024-07-10 US US18/768,800 patent/US20240364873A1/en active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| US20240364873A1 (en) | 2024-10-31 |
| WO2023229665A1 (en) | 2023-11-30 |
| US12063355B2 (en) | 2024-08-13 |
| KR20240054307A (ko) | 2024-04-25 |
| EP4533796A1 (en) | 2025-04-09 |
| CN118648286A (zh) | 2024-09-13 |
| US20230388485A1 (en) | 2023-11-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7578791B2 (ja) | 動画の符号化及び復号方法、装置、並びにコンピュータプログラム | |
| JP7665772B2 (ja) | マージ候補のグループ化ベースの適応的な再順序付けのための方法、装置およびプログラム | |
| JP7632915B2 (ja) | ブロック・ベクトルを用いたibcブロックのイントラ予測モード情報の伝搬について | |
| JP7585487B2 (ja) | Ibc及びイントラ予測を用いた幾何学的パーティションモードのためのイントラ予測モード情報伝搬 | |
| JP7597444B2 (ja) | テンプレートマッチングベースの適応動きベクトル解像度(amvr) | |
| JP7665779B2 (ja) | フレーム境界外の条件についての動きベクトルの制約 | |
| JP2025523726A (ja) | ビデオコーディングのための方法、装置、及びコンピュータプログラム | |
| JP7632810B2 (ja) | テンプレートマッチングを使用する動きベクトル差による代替マージモード | |
| JP2025523725A (ja) | ビデオ符号化/復号のための方法及びコンピュータプログラム | |
| JP7682300B2 (ja) | 調整ベースの局所照明補償 | |
| JP7652917B2 (ja) | 動きベクトル解像度の適応順序を用いたテンプレートマッチングに基づく適応動きベクトル解像度 | |
| KR20240055825A (ko) | 병합 모드에서의 인터 예측 방향 및 bcw 인덱스 코딩 | |
| JP2025517843A (ja) | 複数の変位ベクトル予測子およびオフセットを用いたサブブロックレベル時間的動きベクトル予測 | |
| JP2024508430A (ja) | イントラ及びインター予測を伴うジオメトリックパーティションモードの改善 | |
| JP2024107165A (ja) | Mmvdシグナリングの改善 | |
| JP7799814B2 (ja) | ビデオコーディングのための方法、装置、及びコンピュータプログラム | |
| JP2025517841A (ja) | ビデオ符号化及び復号のための方法及びコンピュータプログラム | |
| JP7735417B2 (ja) | 双予測およびアフィンモードのためのテンプレートマッチングベースの適応動きベクトル解像度(amvr) | |
| JP7797674B2 (ja) | 混合モデル・クロス・コンポーネント予測モード | |
| JP2025525266A (ja) | サブブロックベースのmv予測子のための、分割、テンプレートマッチングの動きベクトル(mv)導出、およびサブブロックmv導出 | |
| JP2025523320A (ja) | 成分依存のイントラおよびインター予測信号伝達のための方法、装置およびプログラム | |
| JP2025517840A (ja) | 復号方法、機器、及び符号化方法 | |
| JP2026502408A (ja) | Amvpモードにおけるmvオフセットを伴うサブブロックベースの動きベクトル予測子 | |
| CN118633281A (zh) | Amvp模式中的基于子块的运动矢量预测值及mv偏移 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20251110 |
