JP2023508292A - ビデオコーディングのための方法、装置及びプログラム - Google Patents

ビデオコーディングのための方法、装置及びプログラム Download PDF

Info

Publication number
JP2023508292A
JP2023508292A JP2022537417A JP2022537417A JP2023508292A JP 2023508292 A JP2023508292 A JP 2023508292A JP 2022537417 A JP2022537417 A JP 2022537417A JP 2022537417 A JP2022537417 A JP 2022537417A JP 2023508292 A JP2023508292 A JP 2023508292A
Authority
JP
Japan
Prior art keywords
filter
video
intra
prediction
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022537417A
Other languages
English (en)
Other versions
JP7443527B2 (ja
Inventor
イエア,セフーン
ドゥ,イシン
ジャオ,シン
リィウ,シャン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023508292A publication Critical patent/JP2023508292A/ja
Priority to JP2024024379A priority Critical patent/JP2024045681A/ja
Application granted granted Critical
Publication of JP7443527B2 publication Critical patent/JP7443527B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本開示の態様は、ビデオ符号化/復号のための方法、装置及び非一時的なコンピュータ読み取り可能記憶媒体を含む。装置は、制約方向性強調フィルタ(CDEF)プロセス又はイントラ予測モードのうち少なくとも1つに基づいて、ビデオフレームに含まれる復元フィルタユニットの方向性情報を決定する処理回路を含む。処理回路は、復元フィルタユニットの方向性情報に基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定する。処理回路は、複数のセットのフィルタパラメータのうち1つに基づいて、復元フィルタユニットに対して復元フィルタプロセスを実行する。処理回路は、フィルタリングされた復元フィルタユニットに基づいてビデオフレームを復元する。

Description

[関連出願の援用]
本出願は、2021年6月29日に出願された米国特許出願第17/362,048号「METHOD AND APPARATUS FOR VIDEO CODING」の優先権の利益を主張し、当該出願は、2020年10月14日に出願された米国仮出願第63/091,707号「FEATURE INFORMATION REUSE FOR ENHANCED RESTORATION FILTERING」の優先権の利益を主張する。先の出願の全開示の全内容を参照により援用する。
[技術分野]
本開示は、概してビデオコーディングに関連する実施形態を記載する。
本明細書において提供される背景技術の説明は、本開示の背景を一般的に提示するためのものである。本願の発明者の研究は、当該研究がこの背景技術の段落に記載されている範囲において、また、出願時に従来技術として特に適することのない説明の側面も、本開示に対する従来技術として明示的にも暗示的にも認められるものではない。
ビデオ符号化及び復号は、動き補償によるインターピクチャ予測を使用して実行できる。非圧縮ディジタルビデオは、一連のピクチャを含むことができ、各ピクチャは、例えば、1920×1080の輝度サンプル及び関連する色差サンプルの空間次元を有する。一連のピクチャは、例えば、毎秒60ピクチャ又は60Hzの固定又は可変のピクチャレート(フレームレートとしても非公式に知られている)を有することができる。非圧縮ビデオは、かなりのビットレート要件を有する。例えば、サンプル当たり8ビットの1080p60 4:2:0ビデオ(60Hzのフレームレートの1920×1080の輝度サンプル解像度)は、1.5Gbit/sに近い帯域幅を必要とする。1時間のこのようなビデオは、600Gバイトを超える記憶空間を必要とする。
ビデオ符号化及び復号の1つの目的は、圧縮を通じて入力ビデオ信号の冗長性を低減できることである。圧縮は、場合によっては2桁以上も上記の帯域幅又は記憶空間の要件を低減するのに役立つことができる。可逆圧縮及び不可逆圧縮の双方並びにこれらの組み合わせを使用することができる。可逆圧縮とは、元の信号の正確なコピーが圧縮された元の信号から復元できる技術を示す。不可逆圧縮を使用する場合、復元された信号は、元の信号と同一ではない可能性があるが、元の信号と復元された信号との間の歪みは、復元された信号を目的のアプリケーションにとって有用にするほど十分に小さい。ビデオの場合、不可逆圧縮が広く使用されている。許容される歪みの量はアプリケーションに依存する。例えば、特定の消費者のストリーミングアプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みを許容する可能性がある。達成可能な圧縮比は、より高い許容可能な歪み/許容される歪みがより高い圧縮比をもたらすことができるということを反映できる。
ビデオエンコーダ及びデコーダは、例えば、動き補償、変換、量子化及びエントロピー符号化を含むいくつかの広いカテゴリからの技術を利用することができる。
ビデオコーデック技術は、イントラ符号化として知られる技術を含むことができる。イントラ符号化では、サンプル値は、前に復元された参照ピクチャからのサンプル又は他のデータを参照せずに表される。いくつかのビデオコーデックでは、ピクチャは空間的にサンプルのブロックに細分される。サンプルの全てのブロックがイントラモードで符号化される場合、そのピクチャはイントラピクチャとすることができる。イントラピクチャと、独立デコーダリフレッシュピクチャのようなそれらの派生物は、デコーダ状態をリセットするために使用でき、したがって、符号化ビデオビットストリーム及びビデオセッションにおける最初のピクチャとして或いは静止画像として使用できる。イントラブロックのサンプルは変換を受けさせることができ、変換係数はエントロピー符号化の前に量子化できる。イントラ予測は、変換前ドメインにおけるサンプル値を最小化する技術とすることができる。場合によっては、変換後のDC値が小さく、AC係数が小さいほど、エントロピー符号化後のブロックを表すために所与の量子化ステップサイズにおいて必要とされるビットが少なくなる。
例えば、MPEG-2世代の符号化技術から知られているような従来のイントラ符号化は、イントラ予測を使用しない。しかし、いくつかのより新しいビデオ圧縮技術は、例えば、空間的に隣接しており復号順で前のデータのブロックを符号化及び/又は復号する間に取得された周囲のサンプルデータ及び/又はメタデータから試みる技術を含む。このような技術は、以下では「イントラ予測(intra prediction)」技術と呼ばれる。少なくともいくつかの場合、イントラ予測は復元中のカレントピクチャからの参照データのみを使用し、参照ピクチャからの参照データを使用しない点に留意すべきである。
多くの形式のイントラ予測が存在し得る。所与のビデオ符号化技術においてこのような技術のうち1つ以上が使用できる場合、使用される技術は、イントラ予測モードで符号化できる。或る場合、モードは、サブモード及び/又はパラメータを有することができ、これらは個別に符号化されてもよく、或いは、モードコードワードに含まれてもよい。所与のモード、サブモード及び/又はパラメータの組み合わせに使用するコードワードは、イントラ予測を通じた符号化効率利得に影響を与える可能性があり、同様に、コードワードをビットストリームに変換するために使用されるエントロピー符号化技術にも影響を与える可能性がある。
特定のイントラ予測モードがH.264で導入され、H.265で改良されて、JEM(joint exploration model)、VVC(versatile video coding)及びBMS(benchmark set)のようなより新しい符号化技術で更に改良されている。予測ブロックは、既に利用可能なサンプルに属する隣接するサンプル値を使用して形成できる。隣接サンプルのサンプル値は、方向に従って予測ブロックにコピーされる。使用中の方向への参照は、ビットストリームにおいて符号化でき、或いは、それ自体予測されてもよい。
図1Aを参照すると、右下に示されているのは、H.265の33個の可能な予測子方向(35個のイントラモードのうち33個の角度モードに対応する)から知られている9個の予測子方向のサブセットである。矢印が収束する点(101)は、予測されるサンプルを表す。矢印は、サンプルが予測される方向を表す。例えば、矢印(102)は、サンプル(101)が、水平から45度の角度の右上に対する1つ又は複数のサンプルから予測されることを示す。同様に、矢印(103)は、サンプル(101)が、水平から22.5度の角度でサンプル(101)の左下に対する1つ又は複数のサンプルから予測されることを示す。
依然として図1Aを参照すると、左上には、4×4のサンプルの正方形ブロック(104)が示されている(破線の太線で示されている)。正方形ブロック(104)は、16個のサンプルを含み、各サンプルは「S」と、Y次元におけるその位置(例えば、行インデックス)と、X次元におけるその位置(例えば、列インデックス)とでそれぞれラベル付けされる。例えば、サンプルS21は、Y次元における第2のサンプル(上から)及びX次元における第1のサンプル(左から)である。同様に、サンプルS44は、Y次元及びX次元の双方においてブロック(104)内の第4のサンプルである。ブロックのサイズが4×4のサンプルであるので、S44は右下にある。さらに、同様の番号付け方式に従った参照サンプルが示されている。参照サンプルは、Rと、ブロック(104)に対するそのY位置(例えば、行インデックス)及びX位置(列インデックス)とでラベル付けされる。H.264及びH.265の双方において、予測サンプルは復元中のブロックに隣接しており、したがって、負の値が使用される必要はない。
イントラピクチャ予測は、伝達された予測方向に応じて、隣接サンプルから参照サンプル値をコピーすることによって機能できる。例えば、符号化ビデオビットストリームが、このブロックについて、矢印(102)と一致する予測方向を示す信号伝達を含むと仮定する。すなわち、サンプルは、水平から45度の角度で右上に対する1つ又は複数の予測サンプルから予測されると仮定する。この場合、サンプルS41、S32、S23及びS14は、同じ参照サンプルR05から予測される。次いで、サンプルS44は、参照サンプルR08から予測される。
或る場合、特に方向が45度で均一に割り切れない場合、参照サンプルを計算するために、複数の参照サンプルの値が、例えば補間によって組み合わされてもよい。
ビデオ符号化技術の発達に伴い、可能な方向の数が増加している。H.264(2003年)では、9個の異なる方向が表現可能であった。これは、H.265(2013年)で33個に増加し、開示の時点でのJEM/VVC/BMSでは、最大で65個の方向をサポートできる。最も可能性の高い方向を特定するために実験が行われており、エントロピー符号化における或る技術は、より可能性の低い方向に対して特定のペナルティを受け入れて、少数のビットでこれらの可能性の高い方向を表すために使用されている。さらに、場合によっては、方向自体が、隣接する既に復号されたブロックで使用される隣接方向から予測できる。
図1Bは、時間と共に増加する予測方向の数を示す、JEMに従った65個のイントラ予測方向を示す概略図(105)を示す。
方向を表す符号化ビデオビットストリームにおけるイントラ予測方向ビットのマッピングは、ビデオ符号化技術によって異なる可能性があり、例えば、予測方向の簡単な直接マッピングから、イントラ予測モード、コードワード、最確モードを含む複雑な適応方式、及び同様の技術まで及ぶ可能性がある。しかし、全ての場合で、ビデオコンテンツにおいて、特定の他の方向よりも統計的に生じにくい特定の方向が存在し得る。ビデオ圧縮の目標は冗長性の低減であるので、良好に機能するビデオ符号化技術において、これらのより可能性の低い方向は、より可能性の高い方向よりもより多くのビット数によって表される。
動き補償は不可逆圧縮技術であり、前に復元されたピクチャ又はその一部(参照ピクチャ)からのサンプルデータのブロックが、動きベクトル(以下、MVという)によって示される方向に空間的にシフトされた後に、新たに復元されるピクチャ又はその一部の予測に使用されるという技術に関連付けることができる。場合によっては、参照ピクチャは現在復元中のピクチャと同じものにすることができる。MVは、X及びYの2次元を有してもよく、或いは、3次元を有してもよく、第3の次元は、使用中の参照ピクチャを示す(後者は、間接的に、時間次元とすることができる)。
いくつかのビデオ圧縮技術では、サンプルデータの特定の領域に適用可能なMVは、他のMVから予測でき、例えば、復元中の領域に空間的に隣接しており、復号順でそのMVに先行するサンプルデータの他の領域に関連するMVから予測できる。これにより、MVを符号化するために必要なデータ量をかなり低減でき、それによって冗長性を除去し、圧縮を増加させることができる。例えば、カメラから導出された入力ビデオ信号(ナチュラルビデオとして知られている)を符号化する場合、単一のMVが適用可能な領域よりも大きい領域が同様の方向に移動し、したがって、場合によっては隣接領域のMVから導出された同様のMVを使用して予測できるという統計的な可能性が存在するので、MV予測は効果的に機能し得る。その結果、所与の領域に対して検出されたMVは、周囲のMVから予測されるMVと同様又は同一であることになり、そのMVは、エントロピー符号化の後に、MVを直接符号化する場合に使用されるものよりも少ない数のビットで表現できる。場合によって、MV予測は、元の信号(すなわち、サンプルストリーム)から導出された信号(すなわち、MV)の可逆圧縮の一例になり得る。他の場合には、MV予測自体が、例えば、いくつかの周囲のMVから予測子を計算するときの丸め誤差の理由で、不可逆になり得る。
H.265/HEVC(ITU-T Rec. H.265, 「High Efficiency Video Coding」, December 2016)には、様々なMV予測メカニズムが記載されている。H.265が提供する多くのMV予測メカニズムの中で、本明細書において「空間マージ(spatial merge)」と呼ばれる技術について説明する。
図1Cを参照すると、カレントブロック(111)は、空間的にシフトされた同じサイズの前のブロックから予測可能であることが動き探索処理中にエンコーダによって見出されたサンプルを含むことができる。そのMVを直接符号化する代わりに、MVは、1つ以上の参照ピクチャに関連するメタデータから、例えば、A0、A1及びB0、B1、B2(それぞれ112~116)と示される5つの周囲のサンプルのいずれか1つに関連するMVを使用して(復号順に)最新の参照ピクチャから導出できる。H.265では、MV予測は、隣接ブロックが使用しているのと同じ参照ピクチャからの予測子を使用できる。
本開示の態様は、ビデオ符号化/復号のための装置を提供する。装置は、制約方向性強調フィルタ(CDEF, constrained directional enhancement filter)プロセス又はイントラ予測モードのうち少なくとも1つに基づいて、ビデオフレームに含まれる復元フィルタユニットの方向性情報を決定する処理回路を含む。処理回路は、復元フィルタユニットの方向性情報に基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定する。処理回路は、複数のセットのフィルタパラメータのうち1つに基づいて、復元フィルタユニットに対して復元フィルタプロセスを実行する。処理回路は、フィルタリングされた復元フィルタユニットに基づいてビデオフレームを復元する。
一実施形態では、復元フィルタユニットは、1つ以上の方向性情報ユニットを含み、CDEFプロセス又はイントラ予測モードのうち少なくとも1つは、1つ以上の方向性情報ユニットのうち1つに対して実行される。
一実施形態では、復元フィルタの複数のセットのフィルタパラメータのそれぞれは、CDEFプロセスの少なくとも1つの方向性に関連する。
一実施形態では、処理回路は、復元フィルタユニットの方向性情報及びブロック分散情報に基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定する。
一実施形態では、処理回路は、復元フィルタユニットの方向性情報及びCDEFプロセスのフィルタ強度に基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定する。
一実施形態では、処理回路は、復元フィルタユニットにおける方向性の多数決又は整合性検査のうち少なくとも1つに基づいて、復元フィルタユニットの方向性情報を決定する。
一実施形態では、復元フィルタユニットがイントラコーディングされておらず隣接ブロックがイントラコーディングされていることに基づいて、処理回路は、復元フィルタユニットの隣接ブロックに対して実行されるイントラ予測モードに基づいて、復元フィルタユニットの方向性情報を決定する。
一実施形態では、処理回路は、イントラ予測モードから決定された方向性情報と一致するCDEFプロセスから決定された方向性情報に基づいて、復元フィルタユニットに対して復元フィルタプロセスを実行する。
一実施形態では、復元フィルタプロセスは、ウィナー(Wiener)フィルタプロセス及び自己誘導投影(SGRPRJ, self-guided projection)フィルタプロセスのうち1つである。
一実施形態では、処理回路は、デフォルトセットのフィルタパラメータ、或るセットのフィルタパラメータを示す伝達されたインデックス、又は伝達されたセットのフィルタパラメータのうち1つに基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定する。
本開示の態様は、ビデオ符号化/復号のための方法を提供する。当該方法では、ビデオフレームに含まれる復元フィルタユニットの方向性情報は、CDEFプロセス又はイントラ予測モードのうち少なくとも1つに基づいて決定される。復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つは、復元フィルタユニットの方向性情報に基づいて決定される。復元フィルタプロセスは、複数のセットのフィルタパラメータのうち1つに基づいて、復元フィルタユニットに対して実行される。ビデオフレームは、フィルタリングされた復元フィルタユニットに基づいて復元される。
本開示の態様はまた、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサにビデオ復号のための方法のうちいずれか1つ又は組み合わせを実行させる命令を記憶した非一時的なコンピュータ読み取り可能媒体を提供する。
開示の対象物の更なる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになる。
イントラ予測モードの例示的なサブセットの概略図である。 例示的なイントラ予測方向の図である。 一例におけるカレントブロック及びその周囲の空間マージ候補の概略図である。 一実施形態による通信システムの簡略化したブロック図の概略図である。 一実施形態による通信システムの簡略化したブロック図の概略図である。 一実施形態によるデコーダの簡略化したブロック図の概略図である。 一実施形態によるエンコーダの簡略化したブロック図の概略図である。 他の実施形態によるエンコーダのブロック図を示す。 他の実施形態によるデコーダのブロック図を示す。 本開示の一実施形態による例示的な公称角度を示す。 本開示の一実施形態による、カレントブロックにおける1つの画素についての上サンプル、左サンプル及び左上サンプルの位置を示す。 本開示の一実施形態による例示的な再帰型フィルタイントラモードを示す。 本開示のいくつかの実施形態による制約方向性強調フィルタ(CDEF, constrained directional enhancement filter)プロセスにおけるいくつかの例示的な方向を示す。 本開示のいくつかの実施形態によるいくつかの例示的なブロック分割を示す。 本開示の一実施形態による、方向性ユニットブロックがフィルタリングユニットにマージされる例を示す。 本開示の一実施形態による、方向性ユニットブロックがフィルタリングユニットにマージされる他の例を示す。 本開示のいくつかの実施形態による、方向性イントラ予測モードとCDEFプロセスの間に導出された主方向との間の方向性情報の例示的なマッピングを示す。 本開示の一実施形態による例示的なフローチャートを示す。 一実施形態によるコンピュータシステムの概略図である。
[I.ビデオデコーダ及びエンコーダシステム]
図2は、本開示の一実施形態による通信システム(200)の簡略化したブロック図を示す。通信システム(200)は、例えば、ネットワーク(250)を介して互いに通信できる複数の端末デバイスを含む。例えば、通信システム(200)は、ネットワーク(250)を介して相互接続された第1の対の端末デバイス(210)及び(220)を含む。図2の例では、第1の対の端末デバイス(210)及び(220)は、データの一方向伝送を実行する。例えば、端末デバイス(210)は、ネットワーク(250)を介して他の端末デバイス(220)に送信するために、ビデオデータ(例えば、端末デバイス(210)によってキャプチャされたビデオピクチャのストリーム)を符号化してもよい。符号化されたビデオデータは、1つ以上の符号化ビデオビットストリームの形式で送信されてもよい。端末デバイス(220)は、ネットワーク(250)から符号化ビデオデータを受信し、符号化ビデオデータを復号して、ビデオピクチャを復元して復元されたビデオデータに従ってビデオピクチャを表示してもよい。一方向データ伝送は、メディア提供アプリケーション等において一般的でもよい。
他の例では、通信システム(200)は、例えば、テレビ会議中に発生し得る符号化ビデオデータの双方向伝送を実行する第2の対の端末デバイス(230)及び(240)を含む。データの双方向伝送のために、一例では、端末デバイス(230)及び(240)の各端末デバイスは、ネットワーク(250)を介して端末デバイス(230)及び(240)の他方の端末デバイスに送信するために、ビデオデータ(例えば、端末デバイスによってキャプチャされたビデオピクチャのストリーム)を符号化してもよい。また、端末デバイス(230)及び(240)の各端末デバイスは、端末デバイス(230)及び(240)の他方の端末デバイスによって送信された符号化ビデオデータを受信してもよく、符号化ビデオデータを復号してビデオピクチャを復元してもよく、復元されたビデオデータに従って、アクセス可能な表示デバイスにビデオピクチャを表示してもよい。
図2の例では、端末デバイス(210)、(220)、(230)及び(240)は、サーバ、パーソナルコンピュータ及びスマートフォンとして示されることがあるが、本開示の原理はこれらに限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤ及び/又は専用のテレビ会議機器に適用がある。ネットワーク(250)は、例えば、有線(配線接続)及び/又は無線通信ネットワークを含む、端末デバイス(210)、(220)、(230)及び(240)の間で符号化ビデオデータを伝達するいずれかの数のネットワークを表す。通信ネットワーク(250)は、回線交換チャネル及び/又はパケット交換チャネルにおいてデータを交換してもよい。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク及び/又はインターネットを含む。本説明の目的では、ネットワーク(250)のアーキテクチャ及びトポロジは、本明細書において以下に説明しない限り、本開示の動作には重要ではない。
図3は、開示の対象物のアプリケーションの例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示の対象物は、例えば、テレビ会議、デジタルTV、デジタルメディア(CD、DVD、メモリスティック等を含む)上の圧縮ビデオの記憶等を含む、他のビデオ可能なアプリケーションにも同様に適用可能である。
ストリーミングシステムはキャプチャサブシステム(313)を含んでもよく、当該キャプチャサブシステム(313)は、例えば、非圧縮のビデオピクチャのストリーム(302)を生成するビデオソース(301)(例えば、デジタルカメラ)を含んでもよい。一例では、ビデオピクチャのストリーム(302)は、デジタルカメラによって撮影されたサンプルを含む。符号化ビデオデータ(304)(又は符号化ビデオビットストリーム)と比較したときに高いデータ量であることを強調する太線として描かれるビデオピクチャのストリーム(302)は、ビデオソース(301)に結合されたビデオエンコーダ(303)を含む電子デバイス(320)によって処理されてもよい。ビデオエンコーダ(303)は、以下により詳細に説明するように、開示の対象物の態様を可能にするため或いは実装するために、ハードウェア、ソフトウェア又はこれらの組み合わせを含んでもよい。ビデオピクチャのストリーム(302)と比較したときにより低いデータ量であることを強調するために細線として描かれる符号化ビデオデータ(304)(又は符号化ビデオビットストリーム(304))は、将来の使用のためにストリーミングサーバ(305)に記憶されてもよい。図3におけるクライアントサブシステム(306)及び(308)のような1つ以上のストリーミングクライアントサブシステムは、ストリーミングサーバ(305)にアクセスして符号化ビデオデータ(304)のコピー(307)及び(309)を取得してもよい。クライアントサブシステム(306)は、例えば、電子デバイス(330)内にビデオデコーダ(310)を含んでもよい。ビデオデコーダ(310)は、符号化ビデオデータの入力コピー(307)を復号し、ディスプレイ(312)(例えば、表示画面)又は他のレンダリングデバイス(図示せず)上にレンダリングできるビデオピクチャの出力ストリーム(311)を生成する。いくつかのストリーミングシステムでは、符号化ビデオデータ(304)、(307)及び(309)(例えば、ビデオビットストリーム)は、特定のビデオ符号化/圧縮標準に従って符号化されてもよい。これらの標準の例は、ITU-T勧告H.265を含む。一例では、開発中のビデオ符号化標準は、VVC(Versatile Video Coding)として非公式に知られている。開示の対象物は、VVCの背景において使用されてもよい。
電子デバイス(320)及び(330)は、他の構成要素(図示せず)を含んでもよい点に留意すべきである。例えば、電子デバイス(320)は、ビデオデコーダ(図示せず)を含んでもよく、また、電子デバイス(330)は、ビデオエンコーダ(図示せず)を含んでもよい。
図4は、本開示の一実施形態によるビデオデコーダ(410)のブロック図を示す。ビデオデコーダ(410)は、電子デバイス(430)に含まれてもよい。電子デバイス(430)は、受信機(431)(例えば、受信回路)を含んでもよい。図3の例におけるビデオデコーダ(310)の代わりにビデオデコーダ(410)が使用されてもよい。
受信機(431)は、ビデオデコーダ(410)によって復号されるべき1つ以上の符号化ビデオシーケンスを受信してもよく、同一又は他の実施形態では、一度に1つの符号化ビデオシーケンスを受信してもよく、各符号化ビデオシーケンスの復号は、他の符号化ビデオシーケンスとは独立している。符号化ビデオシーケンスは、チャネル(401)から受信されてもよく、当該チャネルは、符号化ビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクでもよい。受信機(431)は、符号化ビデオデータを、他のデータ(例えば、符号化オーディオデータ及び/又は補助データストリーム)と共に受信してもよく、これらは、それぞれの使用エンティティ(図示せず)に転送されてもよい。受信機(431)は、符号化ビデオシーケンスを他のデータから分離してもよい。ネットワークジッタを防止するために、バッファメモリ(415)は、受信機(431)とエントロピーデコーダ/パーサ(420)(以下、「パーサ(420)」という)との間に結合されてもよい。特定のアプリケーションでは、バッファメモリ(415)はビデオデコーダ(410)の一部である。他の場合には、ビデオデコーダ(410)の外側にあってもよい(図示せず)。更に他の場合には、例えば、ネットワークジッタを防止するために、ビデオデコーダ(410)の外側にバッファメモリ(図示せず)が存在してもよく、加えて、例えば、再生タイミングに対処するために、ビデオデコーダ(410)の内側に他のバッファメモリ(415)が存在してもよい。受信機(431)が、十分な帯域幅及び制御可能性を有する記憶/転送デバイスから、或いは、アイソクロナスネットワークからデータを受信している場合、バッファメモリ(415)は必要なくてもよく或いは小さくすることができる。インターネットのようなベストエフォート型パケットネットワークでの使用については、バッファメモリ(415)が必要とされてもよく、比較的大きくすることができ、有利には適応的なサイズとすることができ、ビデオデコーダ(410)の外側のオペレーティングシステム又は同様の要素(図示せず)に少なくとも部分的に実装されてもよい。
ビデオデコーダ(410)は、符号化ビデオシーケンスからシンボル(421)を復元するためのパーサ(420)を含んでもよい。これらのシンボルのカテゴリは、ビデオデコーダ(410)の動作を管理するために使用される情報を含み、レンダリングデバイス(412)(例えば、表示画面)のようなレンダリングデバイスを制御するための情報を潜在的に含む。当該レンダリングデバイス(412)は、図4に示されているように、電子デバイス(430)の一体的な部分ではないが、電子デバイス(430)に結合されてもよい。レンダリングデバイスの制御情報は、補足エンハンスメント情報(SEI, Supplemental Enhancement Information)(SEIメッセージ)又はビデオユーザビリティ情報(VUI, Video Usability Information)パラメータセットフラグメント(図示せず)の形式でもよい。パーサ(420)は、受信した符号化ビデオシーケンスを解析/エントロピー復号してもよい。符号化ビデオシーケンスの符号化は、ビデオ符号化技術又は標準に従ってもよく、可変長符号化、ハフマン符号化、コンテキスト感度を伴う或いは伴わない算術符号化等を含む様々な原理に従ってもよい。パーサ(420)は、グループに対応する少なくとも1つのパラメータに基づいて、符号化ビデオシーケンスから、ビデオデコーダ内の画素のサブグループのうち少なくとも1つについてのサブグループパラメータのセットを抽出してもよい。サブグループは、グループオブピクチャ(GOP, Group of Picture)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(CU, Coding Unit)、ブロック、変換ユニット(TU, Transformation Unit)、予測ユニット(PU, Prediction Unit)等を含んでもよい。また、パーサ(420)は、符号化ビデオシーケンスから、変換係数、量子化パラメータ値、MV等のような情報を抽出してもよい。
パーサ(420)は、シンボル(421)を生成するために、バッファメモリ(415)から受信したビデオシーケンスに対してエントロピー復号/解析動作を実行してもよい。
シンボル(421)の復元には、符号化ビデオピクチャ又はその部分のタイプ(例えば、インターピクチャ及びイントラピクチャ、インターブロック及びイントラブロック)及び他の要因に依存して、複数の異なるユニットが関与してもよい。どのユニットがどのように関与するかは、パーサ(420)によって符号化ビデオシーケンスから解析されたサブグループ制御情報によって制御されてもよい。パーサ(420)と以下の複数ユニットとの間のこのようなサブグループ制御情報の流れは、明確にするために図示されていない。
上記の機能ブロックの他に、ビデオデコーダ(410)は、概念的に、以下に説明するような複数の機能ユニットに細分されてもよい。商用的な制約の下で動作する実用的な実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合されてもよい。しかし、開示の対象物を説明する目的で、以下の機能ユニットに概念的に細分することが適切である。
第1のユニットは、スケーラ/逆変換ユニット(451)である。スケーラ/逆変換ユニット(451)は、パーサ(420)からシンボル(421)として、制御情報(どの変換を使用するべきか、ブロックサイズ、量子化係数、量子化スケーリング行列等を含む)と共に、量子化された変換係数を受信する。スケーラ/逆変換ユニット(451)は、アグリゲータ(455)に入力できるサンプル値を含むブロックを出力してもよい。
場合によっては、スケーラ/逆変換(451)の出力サンプルは、イントラ符号化ブロックに関連してもよく、すなわち、前に復元されたピクチャからの予測情報を使用していないが、カレントピクチャの前に復元された部分からの予測情報を使用できるブロックに関連してもよい。このような予測情報は、イントラピクチャ予測ユニット(452)によって提供されてもよい。場合によっては、イントラピクチャ予測ユニット(452)は、カレントピクチャバッファ(458)から取り出された周囲の既に復元された情報を使用して、復元中のブロックの同じサイズ及び形状のブロックを生成する。カレントピクチャバッファ(458)は、例えば、部分的に復元されたカレントピクチャ及び/又は完全に復元されたカレントピクチャをバッファする。場合によっては、アグリゲータ(455)は、サンプル毎に、イントラ予測ユニット(452)が生成した予測情報を、スケーラ/逆変換ユニット(451)によって提供された出力サンプル情報に追加する。
他の場合には、スケーラ/逆変換ユニット(451)の出力サンプルは、インター符号化されて潜在的に動き補償されたブロックに関連してもよい。このような場合、動き補償予測ユニット(453)は、参照ピクチャメモリ(457)にアクセスして、予測に使用されるサンプルを取り出してもよい。ブロックに関連するシンボル(421)に従って、取り出されたサンプルを動き補償した後に、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ(455)によってスケーラ/逆変換ユニット(451)の出力(この場合には、残差サンプル又は残差信号と呼ばれる)に追加されてもよい。動き補償予測ユニット(453)に利用可能な、動き補償予測ユニット(453)が予測サンプルを取り出す参照ピクチャメモリ(457)内のアドレスは、例えば、X、Y及び参照ピクチャ成分を有することができるシンボル(421)の形式で、MVによって制御されてもよい。また、動き補償は、サブサンプルの正確なMVが使用されているときに参照ピクチャメモリ(457)から取り出されるサンプル値の補間、MV予測メカニズム等を含んでもよい。
アグリゲータ(455)の出力サンプルは、ループフィルタユニット(456)内の様々なループフィルタリング技術を受けてもよい。ビデオ圧縮技術はループ内フィルタ技術を含んでもよく、当該ループ内フィルタ技術は、符号化ビデオシーケンス(符号化ビデオビットストリームとも呼ばれる)に含まれるパラメータによって制御され、パーサ(420)からシンボル(421)としてループフィルタユニット(456)に利用可能にされるが、符号化ピクチャ又は符号化ビデオシーケンスの(復号順に)前の部分の復号の間に取得されたメタ情報に応答すると共に、前に復元されてループフィルタリングされたサンプル値にも応答してもよい。
ループフィルタユニット(456)の出力はサンプルストリームでもよく、当該サンプルストリームは、レンダリングデバイス(412)に出力されると共に、将来のインターピクチャ予測に使用するために参照ピクチャメモリ(457)に記憶されてもよい。
特定の符号化ピクチャは、完全に復元されると、将来の予測のための参照ピクチャとして使用されてもよい。例えば、カレントピクチャに対応する符号化ピクチャが完全に復元され、符号化ピクチャが(例えば、パーサ(420)によって)参照ピクチャとして識別されると、カレントピクチャバッファ(458)は参照ピクチャメモリ(457)の一部となってもよく、新たなカレントピクチャバッファが、後続の符号化ピクチャの復元を開始する前に再割り当てされてもよい。
ビデオデコーダ(410)は、ITU-T Rec. H.265のような標準における所定のビデオ圧縮技術に従って復号動作を実行してもよい。符号化ビデオシーケンスがビデオ圧縮技術又は標準のシンタックス及びビデオ圧縮技術又は標準に文書化されているプロファイルの双方に従うという意味で、符号化ビデオシーケンスは、使用されているビデオ圧縮技術又は標準によって指定されたシンタックスに適合してもよい。具体的には、プロファイルは、ビデオ圧縮技術又は標準で利用可能な全てのツールから特定のツールを、そのプロファイルで使用するのに利用可能な唯一のツールとして選択してもよい。また、コンプライアンスのために必要なことは、符号化ビデオシーケンスの複雑さが、ビデオ圧縮技術又は標準のレベルによって定義される範囲内にあることである。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大復元サンプルレート(例えば、毎秒当たりのメガサンプル単位で測定される)、最大参照ピクチャサイズ等を制限する。場合によっては、レベルによって設定される制限は、仮想参照デコーダ(HRD, Hypothetical Reference Decoder)仕様及び符号化ビデオシーケンスで伝達されるHRDバッファ管理についてのメタデータを通じて更に制限されてもよい。
一実施形態では、受信機(431)は、符号化ビデオと共に更なる(冗長な)データを受信してもよい。更なるデータは、符号化ビデオシーケンスの一部として含まれてもよい。更なるデータは、データを適切に復号するために、及び/又は元のビデオデータをより正確に復元するために、ビデオデコーダ(410)によって使用されてもよい。更なるデータは、例えば、時間、空間又は信号雑音比(SNR, signal noise ratio)エンハンスメント層、冗長スライス、冗長ピクチャ、前方誤り訂正コード等の形式でもよい。
図5は、本開示の一実施形態によるビデオエンコーダ(503)のブロック図を示す。ビデオエンコーダ(503)は、電子デバイス(520)に含まれる。電子デバイス(520)は、送信機(540)(例えば、送信回路)を含む。図3の例におけるビデオエンコーダ(303)の代わりにビデオエンコーダ(503)が使用されてもよい。
ビデオエンコーダ(503)は、ビデオソース(501)(図5の例では電子デバイス(520)の一部ではない)からビデオサンプルを受信してもよく、当該ビデオソース(501)は、ビデオエンコーダ(503)によって符号化されるべきビデオ画像をキャプチャしてもよい。他の例では、ビデオソース(501)は電子デバイス(520)の一部である。
ビデオソース(501)は、デジタルビデオサンプルストリームの形式でビデオエンコーダ(503)によって符号化されるべきソースビデオシーケンスを提供してもよく、当該デジタルビデオサンプルストリームは、いずれかの適切なビット深度(例えば、8ビット、10ビット、12ビット等)、いずれかの色空間(例えば、BT.601 Y CrCB、RGB等)及びいずれかの適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)でもよい。メディア提供システムにおいて、ビデオソース(501)は、事前に準備されたビデオを記憶する記憶デバイスでもよい。テレビ会議システムでは、ビデオソース(501)は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラでもよい。ビデオデータは、順に見たときに動きを伝える複数の個々のピクチャとして提供されてもよい。ピクチャ自体は、画素の空間配列として構成されてもよく、各画素は、使用中のサンプリング構造、色空間等に依存して、1つ以上のサンプルを含んでもよい。当業者は、画素とサンプルとの関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。
一実施形態によれば、ビデオエンコーダ(503)は、リアルタイムで或いはアプリケーションによって要求されるいずれかの他の時間制約下で、ソースビデオシーケンスのピクチャを、符号化ビデオシーケンス(543)に符号化及び圧縮してもよい。適切な符号化速度を実現することは、コントローラ(550)の1つの機能である。いくつかの実施形態では、コントローラ(550)は、以下に説明するように、他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。結合は、明確にするために図示されていない。コントローラ(550)によって設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化、レート歪み最適化技術のラムダ値等)、ピクチャサイズ、グループオブピクチャ(GOP)のレイアウト、最大MV許容参照領域等を含んでもよい。コントローラ(550)は、特定のシステム設計のために最適化されたビデオエンコーダ(503)に関連する他の適切な機能を有するように構成されてもよい。
いくつかの実施形態では、ビデオエンコーダ(503)は、符号化ループで動作するように構成される。非常に簡略化した説明として、一例では、符号化ループは、ソースコーダ(530)(例えば、符号化されるべき入力ピクチャ及び参照ピクチャに基づいて、シンボルストリームのようなシンボルを生成することを担う)と、ビデオエンコーダ(503)に埋め込まれた(ローカル)デコーダ(533)とを含んでもよい。デコーダ(533)は、(リモート)デコーダが生成するのと同様に(シンボルと符号化ビデオビットストリームとの間のいずれかの圧縮が、開示の対象物において検討されるビデオ圧縮技術において可逆であるように)、サンプルデータを生成するようにシンボルを復元する。復元されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(534)に入力される。シンボルストリームの復号は、デコーダの位置(ローカル又はリモート)と独立したビット単位の正確な結果をもたらすので、参照ピクチャメモリ(534)内の内容も、ローカルエンコーダとリモートエンコーダとの間でビット単位で正確である。言い換えると、エンコーダの予測部分は、デコーダが復号中に予測を使用するときに「見る」のと全く同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期(例えば、チャネルエラーの理由で同期が維持できない場合の結果として生じるドリフトを含む)のこの基本原理は、いくつかの関連技術においても同様に使用される。
「ローカル」デコーダ(533)の動作は、ビデオデコーダ(410)のような「リモート」デコーダと同じでもよく、これは、図4に関連して上記において既に詳細に説明した。しかし、図4を簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ(545)及びパーサ(520)による符号化ビデオシーケンスへのシンボルの符号化/復号が可逆になり得るので、バッファメモリ(515)及びパーサ(520)を含むビデオデコーダ(410)のエントロピー復号部分は、ローカルデコーダ(533)に完全には実装されなくてもよい。
この時点で行うことができる考察は、デコーダ内に存在する解析/エントロピー復号を除く如何なるデコーダ技術も、必然的に対応するエンコーダ内に実質的に同一の機能形式で存在する必要があることである。このため、開示の対象物はデコーダ動作に焦点を当てる。エンコーダ技術の説明は、包括的に記載されるデコーダ技術の逆であるので、省略できる。特定の領域においてのみ、より詳細な説明が必要であり、以下に提供される。
いくつかの例では、動作中に、ソースコーダ(530)は、動き補償予測符号化を実行してもよく、当該動き補償予測符号化は、「参照ピクチャ」として指定されたビデオシーケンスからの1つ以上の前に符号化されたピクチャを参照して入力ピクチャを予測的に符号化する。このように、符号化エンジン(532)は、入力ピクチャの画素ブロックと、入力ピクチャに対する予測参照として選択され得る参照ピクチャの画素ブロックとの間の差を符号化する。
ローカルビデオデコーダ(533)は、ソースコーダ(530)によって生成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャの符号化ビデオデータを復号してもよい。符号化エンジン(532)の動作は、有利には、不可逆処理でもよい。符号化ビデオデータがビデオデコーダ(図5に図示せず)で復号され得る場合、復元されたビデオシーケンスは、典型的には、いくつかのエラーを伴うソースビデオシーケンスのレプリカになり得る。ローカルビデオデコーダ(533)は、参照ピクチャに対してビデオデコーダによって実行され得る復号処理を複製し、復元された参照ピクチャを参照ピクチャキャッシュ(534)に記憶させてもよい。このように、ビデオエンコーダ(503)は、遠端のビデオデコーダによって取得される(送信エラーのない)復元された参照ピクチャとして、共通の内容を有する復元された参照ピクチャのコピーをローカルに記憶してもよい。
予測器(535)は、符号化エンジン(532)のための予測探索を実行してもよい。すなわち、符号化されるべき新たなピクチャについて、予測器(535)は、(候補参照画素ブロックとしての)サンプルデータ又は特定のメタデータ(参照ピクチャMV、ブロック形状等)を求めて参照ピクチャメモリ(534)を検索してもよい。これらは、新たなピクチャについての適切な予測参照として機能してもよい。予測器(535)は、適切な予測参照を検出するために、サンプルブロック毎画素ブロック毎(sample block-by-pixel block)に動作してもよい。場合によっては、予測器(535)によって取得された検索結果によって決定された入力ピクチャは、参照ピクチャメモリ(534)に記憶された複数の参照ピクチャから引き出された予測参照を有してもよい。
コントローラ(550)は、例えば、ビデオデータを符号化するために使用されるパラメータ及びサブグループパラメータの設定を含む、ソースコーダ(530)の符号化動作を管理してもよい。
全ての上記の機能ユニットの出力は、エントロピーコーダ(545)におけるエントロピー符号化を受けてもよい。エントロピーコーダ(545)は、ハフマン符号化、可変長符号化、算術符号化等のような技術に従って、シンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルを符号化ビデオシーケンスに変換する。
送信機(540)は、エントロピーコーダ(545)によって生成された符号化ビデオシーケンスをバッファして、通信チャネル(560)を介した送信の準備をしてもよく、当該通信チャネル(560)は、符号化ビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクでもよい。送信機(540)は、ビデオコーダ(503)からの符号化ビデオデータを、送信されるべき他のデータ(例えば、符号化オーディオデータ及び/又は補助データストリーム(図示せず))とマージしてもよい。
コントローラ(550)は、ビデオエンコーダ(503)の動作を管理してもよい。符号化中に、コントローラ(550)は、各符号化ピクチャに、特定の符号化ピクチャタイプを割り当ててもよい。当該符号化ピクチャタイプは、各ピクチャに適用され得る符号化技術に影響を与えてもよい。例えば、ピクチャは、しばしば、以下のピクチャタイプのうち1つとして割り当てられてもよい。
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内の他のピクチャを使用せずに、符号化及び復号され得るものでもよい。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ(IDR, Independent Decoder Refresh)ピクチャを含む、異なるタイプのイントラピクチャを許容する。当業者は、Iピクチャのこれらの変形例と、それぞれの用途及び特徴を認識する。
予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために、最大で1つのMV及び参照インデックスを使用して、イントラ予測又はインター予測を使用して符号化及び復号され得るものでもよい。
双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために、最大で2つのMV及び参照インデックスを使用して、イントラ予測又はインター予測を使用して符号化及び復号され得るものでもよい。同様に、複数の予測ピクチャは、単一のブロックの復元のために、2つより多くの参照ピクチャ及び関連するメタデータを使用してもよい。
一般的に、ソースピクチャは、空間的に複数のサンプルブロック(例えば、それぞれ4×4、8×8、4×8又は16×16のサンプルのブロック)に細分され、ブロック毎に符号化されてもよい。ブロックは、ブロックのそれぞれのピクチャに適用される符号化割り当てによって決定される通り、他の(既に符号化された)ブロックを参照して予測的に符号化されてもよい。例えば、Iピクチャのブロックは、非予測的に符号化されてもよく、或いは、同じピクチャの既に符号化されたブロックを参照して予測的に符号化されてもよい(空間予測又はイントラ予測)。Pピクチャの画素ブロックは、1つ前に符号化された参照ピクチャを参照して、空間予測又は時間予測を介して予測的に符号化されてもよい。Bピクチャのブロックは、1つ又は2つ前に符号化された参照ピクチャを参照して、空間予測又は時間予測を介して予測的に符号化されてもよい。
ビデオエンコーダ(503)は、ITU-T Rec. H.265のような所定のビデオ符号化技術又は標準に従って符号化動作を実行してもよい。その動作において、ビデオエンコーダ(503)は、入力ビデオシーケンスにおける時間的及び空間的冗長性を利用する予測符号化動作を含む様々な圧縮動作を実行してもよい。したがって、符号化ビデオデータは、使用されているビデオ符号化技術又は標準によって指定されたシンタックスに適合してもよい。
一実施形態では、送信機(540)は、符号化ビデオと共に更なるデータを送信してもよい。ソースコーダ(530)は、符号化ビデオシーケンスの一部としてこのようなデータを含んでもよい。更なるデータは、時間/空間/SNRエンハンスメント層、冗長ピクチャ及びスライス、SEIメッセージ、VUIパラメータセットフラグメント等のような他の形式の冗長データを含んでもよい。
ビデオは、時系列において複数のソースピクチャ(ビデオピクチャ)としてキャプチャされてもよい。イントラピクチャ予測(しばしばイントラ予測と略される)は、所与のピクチャ内の空間的相関を利用し、インターピクチャ予測は、ピクチャ間の(時間的又は他の)相関を利用する。一例では、カレントピクチャと呼ばれる符号化/復号中の特定のピクチャは、ブロックに分割される。カレントピクチャ内のブロックがビデオにおける前に符号化されて依然としてバッファされている参照ピクチャ内の参照ブロックに類似する場合、カレントピクチャ内のブロックは、MVと呼ばれるベクトルによって符号化されてもよい。MVは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されている場合には、参照ピクチャを識別する第3の次元を有してもよい。
いくつかの実施形態では、双方向予測技術は、インターピクチャ予測において使用されてもよい。双方向予測技術によれば、ビデオにおけるカレントピクチャへの復号順で双方とも先行する(しかし、表示順ではそれぞれ過去及び将来のものでもよい)第1の参照ピクチャ及び第2の参照ピクチャのような2つの参照ピクチャが使用される。カレントピクチャ内のブロックは、第1の参照ピクチャ内の第1の参照ブロックを指す第1のMVと、第2の参照ピクチャ内の第2の参照ブロックを指す第2のMVとによって符号化されてもよい。ブロックは、第1の参照ブロックと第2の参照ブロックとの組み合わせによって予測されてもよい。
さらに、符号化効率を改善するために、インターピクチャ予測においてマージモード技術が使用できる。
本開示のいくつかの実施形態によれば、インターピクチャ予測及びイントラピクチャ予測のような予測は、ブロックの単位で実行される。例えば、HEVC標準によれば、ビデオピクチャのシーケンス内のピクチャは、圧縮のために符号化ツリーユニット(CTU, coding tree unit)に分割され、ピクチャ内のCTUは、64×64の画素、32×32の画素又は16×16の画素のように、同じサイズを有する。一般的に、CTUは、1つの輝度CTBと2つの色差CTBである3つの符号化ツリーブロック(CTB, coding tree block)を含む。各CTUは、1つ又は複数の符号化ユニット(CU, coding unit)に再帰的に四分木分割されてもよい。例えば、64×64の画素のCTUは、64×64の画素の1つのCU、32×32の画素の4つのCU又は16×16の画素の16個のCUに分割できる。一例では、各CUは、インター予測タイプ又はイントラ予測タイプのようなCUの予測タイプを決定するために分析される。CUは、時間的及び/又は空間的予測可能性に依存して1つ以上の予測ユニット(PU, prediction unit)に分割される。一般的に、各PUは、輝度予測ブロック(PB, prediction block)と2つの色差PBとを含む。一実施形態では、符号化(符号化/復号)における予測動作は、予測ブロックの単位で実行される。予測ブロックの一例として輝度予測ブロックを使用すると、予測ブロックは、8×8の画素、16×16の画素、8×16の画素、16×8の画素等のように、画素の値(例えば、輝度値)の行列を含む。
図6は、本開示の他の実施形態によるビデオエンコーダ(603)の図を示す。ビデオエンコーダ(603)は、ビデオピクチャのシーケンス内のカレントビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受信し、処理ブロックを符号化ビデオシーケンスの一部である符号化ピクチャに符号化するように構成される。一例では、ビデオエンコーダ(603)は、図3の例のビデオエンコーダ(303)の代わりに使用される。
HEVCの例では、ビデオエンコーダ(603)は、8×8のサンプルの予測ブロック等のような処理ブロックのサンプル値の行列を受信する。ビデオエンコーダ(603)は、処理ブロックが、例えば、レート歪み最適化を使用して、イントラモードを使用して最も良く符号化されるか、インターモードを使用して最も良く符号化されるか、双方向予測モードを使用して最も良く符号化されるかを決定する。処理ブロックがイントラモードで符号化される場合、ビデオエンコーダ(603)は、処理ブロックを符号化ピクチャに符号化するためにイントラ予測技術を使用してもよい。処理ブロックがインターモード又は双方向予測モードで符号化される場合、ビデオエンコーダ(603)は、処理ブロックを符号化ピクチャに符号化するために、それぞれインター予測技術又は双方向予測技術を使用してもよい。特定のビデオ符号化技術では、マージモード(merge mode)は、MV予測子以外の符号化されたMV成分の恩恵を受けずに、MVが1つ以上のMV予測子から導出されるインターピクチャ予測サブモードでもよい。特定の他のビデオ符号化技術では、対象のブロックに適用可能な動きベクトル成分が存在してもよい。一例では、ビデオエンコーダ(603)は、処理ブロックのモードを決定するためのモード決定モジュール(図示せず)のような他の構成要素を含む。
図6の例では、ビデオエンコーダ(603)は、図6に示されるように共に結合されたインターエンコーダ(630)と、イントラエンコーダ(622)と、残差計算器(623)と、スイッチ(626)と、残差エンコーダ(624)と、全体コントローラ(621)と、エントロピーエンコーダ(625)とを含む。
インターエンコーダ(630)は、カレントブロック(例えば、処理ブロック)のサンプルを受信し、当該ブロックを参照ピクチャ内の1つ以上の参照ブロック(例えば、前のピクチャ及び後のピクチャ内のブロック)と比較し、インター予測情報(例えば、インター符号化技術による冗長情報の記述、MV、マージモード情報)を生成し、いずれかの適切な技術を使用して、インター予測情報に基づいてインター予測結果(例えば、予測ブロック)を計算するように構成される。いくつかの例では、参照ピクチャは、符号化ビデオ情報に基づいて復号された復号参照ピクチャである。
イントラエンコーダ(622)は、カレントブロック(例えば、処理ブロック)のサンプルを受信し、場合によっては、当該ブロックを、同じピクチャ内で既に符号化されたブロックと比較し、変換後に量子化係数を生成し、場合によっては、イントラ予測情報(例えば、1つ以上のイントラ符号化技術によるイントラ予測方向情報)も生成するように構成される。また、一例では、イントラエンコーダ(622)は、同じピクチャ内のイントラ予測情報及び参照ブロックに基づいて、イントラ予測結果(例えば、予測ブロック)を計算する。
全体コントローラ(621)は、全体制御データを決定し、全体制御データに基づいてビデオエンコーダ(603)の他の構成要素を制御するように構成される。一例では、全体コントローラ(621)は、ブロックのモードを決定し、当該モードに基づいて制御信号をスイッチ(626)に提供する。例えば、モードがイントラモードである場合、全体コントローラ(621)は、残差計算器(623)によって使用されるイントラモード結果を選択するようにスイッチ(626)を制御し、イントラ予測情報を選択してイントラ予測情報をビットストリームに含めるようにエントロピーエンコーダ(625)を制御する。モードがインターモードである場合、全体コントローラ(621)は、残差計算器(623)によって使用されるインター予測結果を選択するようにスイッチ(626)を制御し、インター予測情報を選択してインター予測情報をビットストリームに含めるようにエントロピーエンコーダ(625)を制御する。
残差計算器(623)は、受信したブロックと、イントラエンコーダ(622)又はインターエンコーダ(630)から選択された予測結果との差(残差データ)を計算するように構成される。残差エンコーダ(624)は、残差データに基づいて動作し、残差データを符号化して変換係数を生成するように構成される。一例では、残差エンコーダ(624)は、残差データを空間ドメインから周波数ドメインに変換し、変換係数を生成するように構成される。次いで、変換係数は、量子化された変換係数を取得するための量子化処理を受ける。また、様々な実施形態では、ビデオエンコーダ(603)は、残差デコーダ(628)も含む。残差デコーダ(628)は、逆変換を実行し、復号された残差データを生成するように構成される。復号された残差データは、イントラエンコーダ(622)及びインターエンコーダ(630)によって適切に使用されてもよい。例えば、インターエンコーダ(630)は、復号された残差データ及びインター予測情報に基づいて復号ブロックを生成してもよく、イントラエンコーダ(622)は、復号された残差データ及びイントラ予測情報に基づいて復号ブロックを生成してもよい。復号ブロックは、復号ピクチャを生成するように適切に処理され、復号ピクチャは、メモリ回路(図示せず)にバッファされ、いくつかの例では参照ピクチャとして使用されてもよい。
エントロピーエンコーダ(625)は、符号化ブロックを含めるようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ(625)は、HEVCのような適切な標準に従った様々な情報を含めるように構成される。一例では、エントロピーエンコーダ(625)は、全体制御データと、選択された予測情報(例えば、イントラ予測情報又はインター予測情報)と、残差情報と、他の適切な情報とをビットストリームに含めるように構成される。開示の対象物によれば、インターモード又は双方向予測モードのいずれかのマージサブモードでブロックを符号化する場合、残差情報は存在しない点に留意すべきである。
図7は、本開示の他の実施形態によるビデオデコーダ(710)の図を示す。ビデオデコーダ(710)は、符号化ビデオシーケンスの一部である符号化ピクチャを受信し、符号化ピクチャを復号して復元ピクチャを生成するように構成される。一例では、ビデオデコーダ(710)は、図3の例のビデオデコーダ(310)の代わりに使用される。
図7の例では、ビデオデコーダ(710)は、図7に示されるように共に結合されたエントロピーデコーダ(771)と、インターデコーダ(780)と、残差デコーダ(773)と、復元モジュール(774)と、イントラデコーダ(772)とを含む。
エントロピーデコーダ(771)は、符号化ピクチャから、当該符号化ピクチャが構成されるシンタックスエレメントを表す特定のシンボルを復元するように構成されてもよい。このようなシンボルは、例えば、ブロックが符号化されるモード(例えば、イントラモード、インターモード、双方向予測モード、マージサブモード又は他のサブモードにおける後者の2つ等)、それぞれイントラデコーダ(772)又はインターデコーダ(780)によって予測のために使用される特定のサンプル又はメタデータを識別できる予測情報(例えば、イントラ予測情報又はインター予測情報等)、例えば、量子化された変換係数の形式の残差情報等を含んでもよい。一例では、予測モードがインターモード又は双方向予測モードである場合、インター予測情報はインターデコーダ(780)に提供され、予測タイプがイントラ予測タイプである場合には、イントラ予測情報がイントラデコーダ(772)に提供される。残差情報は、逆量子化を受けてもよく、残差デコーダ(773)に提供される。
インターデコーダ(780)は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成される。
イントラデコーダ(772)は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成される。
残差デコーダ(773)は、逆量子化された変換係数を抽出するための逆量子化を実行し、逆量子化された変換係数を処理して残差を周波数ドメインから空間ドメインに変換するように構成される。また、残差デコーダ(773)は、特定の制御情報(量子化パラメータ(QP, Quantizer Parameter)を含む)を必要としてもよく、その情報は、エントロピーデコーダ(771)によって提供されてもよい(これは低ボリュームの制御情報のみである可能性があるので、データ経路は図示されていない)。
復元モジュール(774)は、空間ドメインにおいて、残差デコーダ(773)によって出力された残差と、予測結果(場合によっては、インター予測モジュール又はイントラ予測モジュールによって出力されたもの)とを結合して復元ブロックを形成するように構成され、当該復元ブロックは、復元ピクチャの一部でもよく、また、復元ビデオの一部でもよい。視覚品質を改善するために、デブッキング動作のような他の適切な動作が実行されてもよい点に留意すべきである。
ビデオエンコーダ(303)、(503)及び(603)並びにビデオデコーダ(310)、(410)及び(710)は、いずれかの適切な技術を使用して実装されてもよい点に留意すべきである。一実施形態では、ビデオエンコーダ(303)、(503)及び(603)並びにビデオデコーダ(310)、(410)及び(710)は、1つ以上の集積回路を使用して実装されてもよい。他の実施形態では、ビデオエンコーダ(303)、(503)及び(603)並びにビデオデコーダ(310)、(410)及び(710)は、ソフトウェア命令を実行する1つ以上のプロセッサを使用して実装されてもよい。
[II.イントラ予測]
VP9のようないくつかの関連する例において、45度から207度までの角度に対応する8つの方向性モードがサポートされている。AV1(AOMedia Video 1)のようないくつかの関連する例において、方向性テクスチャにおけるより多様な空間冗長性を利用するために、方向性イントラモードは、より細かい粒度を有する角度セットに拡張される。元の8つの角度はわずかに変更され、公称角度と呼ばれ、これらの8つの公称角度は、V_PRED、H_PRED、D45_PRED、D135_PRED、D113_PRED、D157_PRED、D203_PRED及びD67_PREDと名称が付けられている。
図8は、本開示の一実施形態による例示的な公称角度を示す。各公称角度は、7つのより細い角度に関連付けられてもよく、したがって、AV1のようないくつかの関連する例において、合計で56個の方向角度が存在してもよい。予測角度は、公称イントラ角度に角度デルタを加えたもので表され、3度のステップサイズを有する係数(-3~3の範囲)を乗算することによって導出される。一般的な方法を通じてAV1における方向性予測モードを実装するために、AV1における全ての56個の方向性イントラ予測角度は、各画素を参照サブ画素位置に投影し、2タップバイリニアフィルタによって参照サブ画素を補間する統一方向性予測器で実装できる。
AV1のようないくつかの関連する例において、5つの非方向性平滑化イントラ予測モードが存在し、これらはDC、PAETH、SMOOOTH、SMOOTH_V及びSMOOTH_Hである。DC予測のために、左隣接サンプル及び上隣接サンプルの平均が予測されるべきブロックの予測子として使用される。PAETH予測については、まず上参照サンプル、左参照サンプル、左上参照サンプルが取り出され、次いで(上+左-左上)に最も近い値が、予測されるべき画素の予測値として設定される。
図9は、本開示の一実施形態による、カレントブロックにおける1つの画素についての上サンプル、左サンプル及び左上サンプルの位置を示す。SMOOTH、SMOOTH_V及びSMOOTH_Hモードについて、ブロックは、垂直方向又は水平方向の2次補間、又は双方の方向の平均を使用して予測される。
図10は、本開示の一実施形態による例示的な再帰型フィルタイントラモードを示す。
エッジ上の参照との減衰する空間的相関を捉えるために、FILTER INTRAモードがルマブロックのために設計されている。AV1では、5つのフィルタイントラモードが定義されており、4×2パッチの画素とパッチに隣接する7つの隣接との間の相関を反映する8つの7タップフィルタのセットによってそれぞれ表される。例えば、7タップフィルタの重み付け係数は位置に依存する。図10に示すように、8×8ブロックは、8つの4×2パッチに分割され、これらは、B0、B1、B2、B3、B4、B5、B6及びB7によって示されている。パッチ毎に、R0~R6で示される7つの隣接が、それぞれのパッチ内の画素を予測するために使用される。パッチB0について、全ての隣接は既に復元されてる。しかし、他のパッチについて、全ての隣接が復元されていない場合、直近の隣接の予測値が参照値として使用される。例えば、パッチB7の全ての隣接は復元されていないので、パッチB7の隣接(すなわち、B5及びB6)の予測サンプルが代わりに使用される。
クロマ成分については、CfL(chroma from luma)モードと呼ばれるクロマのみのイントラ予測モードが、同時の復元されたルマ画素の線形関数としてクロマ画素をモデル化する。CfL予測は以下のように表されてもよい。
CfL(α)=α×LAC+DC 式(1)
ここで、LACはルマ成分のAC寄与度を示し、αは線形モデルのパラメータを示し、DCはクロマ成分のDC寄与度を示す。一例では、復元されたルマ画素はクロマ解像度にサブサンプリングされ、次いでAC寄与度を形成するために平均値が減算される。AC寄与度からクロマAC成分を近似するために、いくつかの関連する例のように、スケーリングパラメータを計算するようにデコーダに要求する代わりに、AC1におけるCfLモードは、元のクロマ画素に基づいてパラメータαを決定し、これらをビットストリームで伝達する。これは、デコーダの複雑さを低減し、より正確な予測を生じる。クロマ成分のDC寄与度に関しては、イントラDCモードを使用して計算され、これはほとんどのクロマ内容に十分であり、成熟した高速の実装を有する。
[III.ループフィルタリング]
AV1のようないくつかの関連する例において、デブロッキング、制約方向性強調フィルタ(CDEF, constrained directional enhancement filter)及びループ復元フィルタ(loop-restoration filter)の順に、3つのループ内フィルタが、復元フレームに適用されてもよい。ループ復元フィルタは、ウィナー(Wiener)フィルタ及び自己誘導投影(SGRPRJ, self-guided projection)フィルタを含み、これらのうち1つが適応的に選択されてもよい。
デブロッキングは、変換係数の量子化によって引き起こされるブロック状アーチファクトを低減するために、変換ブロック境界を横切って適用されてもよい。いくつかの例では、4、8及び14タップ有限インパルス応答(FIR, finite impulse response)フィルタがルマブロックに使用されてもよく、4及び6タップFIRフィルタがクロマブロックに使用されてもよい。
フィルタ長は、境界における最小変換ブロックサイズによって最初に決定される。条件付き検査は、実際のエッジをぼやかすことを回避するために、分散を使用して実行されてもよい。さらに、最終的にフィルタ長を決定するために、平坦度検査も組み込まれてもよい。
CDEFは、ターゲット領域において検出された方向性特徴に沿って適用される非線形デリンギングフィルタである。いくつかの関連する例において、8×8領域は、CDEFが実行される単位サイズである。標準的な方向検出は、図11に示すように実行されてもよく、図11は、CDEFプロセスにおけるいくつかの例示的な方向を示す。
図11において、以下の量を最小化する候補方向d(0~7)が主方向として選択されてもよい。
Figure 2023508292000002
ここで、xpは画素pの値であり、Pd,kは方向dに従うラインk内の画素であり、μd,kは以下のように取得されるPd,kの平均値である。
Figure 2023508292000003
ブロック内の全てのサンプル値の和は定数である。したがって、式(2)を最小化することは、以下の式を最大化することに対応する。
Figure 2023508292000004
主方向が決定されると、以下のフィルタ動作が実行できる。一次フィルタは、選択された主方向に沿って実行され、二次フィルタは、主方向(又は一次方向)から45度離れた二次方向に沿って実行される。
Figure 2023508292000005
ここで、wp及びwsはそれぞれ一次フィルタ及び二次フィルタについての固定フィルタ係数であり、区分線形関数fは以下のように与えられる。
Figure 2023508292000006
S及びDはそれぞれ強度及び減衰(damping)値を表し、ルマ/クロマの(S,D)値の8つまでのプリセットがフレーム毎に伝達される。
フィルタリングを適用する場合、タイル内の各64×64ブロックは、プリセットの1つを選択してもよく、フィルタリングは、64×64の各ブロック内の各8×8ユニットに対して実行されてもよい。
復号プロセス中に、局所領域の信号特性に関連するいくつかの変数がビットストリームから解析されてもよく或いは導出されてもよい点に留意する。これらの変数は、dir、var、priStr、secStr及びdampingを含む。変数dirは8×8ブロックの主エッジ方向を表す。変数varは、8×8ブロック内の信号値の分散を表し、主方向のコストと主方向に直交する方向に沿ったコストとの間の正規化された差として定義される。変数priStは、8×8フィルタリングユニットを含む64×64ブロックの一次フィルタ強度Spを表す。変数secStrは、8×8フィルタリングユニットを含む64×64ブロックの二次フィルタ強度Ssを表す。変数dampingは、8×8フィルタリングユニットを含む64×64ブロックの減衰パラメータDを表す。これらの値は、ルマチャネル及びクロマチャネルについて別々に取得されてもよい。
デブロッキング及びCDEFプロセスが実行された後に、AV1のようないくつかの関連する例において、2つのタイプの復元フィルタの相互排他的な適用が実行されてもよい。2つのタイプの復元フィルタは、ウィナーフィルタ及びSGRPRJフィルタを含む。正方形のループ復元ユニット(LRU, loop-restoration unit)サイズは、64×64から256×256まで選択されてもよい。
ウィナーフィルタでは、コーディングされたフレーム内の各復元画素の品質は、それぞれの画素の周囲のW×Wウィンドウ内の隣接画素を用いた非因果的(non-causal)フィルタリングを通じて改善できる。ウィナーフィルタの2Dフィルタタップは、Fで示され、以下のように決定される。
F=H-1M 式(7)
ここで、H=E[XXT]はxの自己共分散であり、W×Wウィンドウ内の列ベクトル化されたW2個のサンプルを含み、M=E[YXT]はxと元のソースサンプルyとの相互相関である。
AV1のようないくつかの関連する例では、Fの分離性とウィナーフィルタのフィルタ係数の対称性及び正規化が制約として課されてもよい。ウィナーフィルタ係数F(W2×1ベクトルとして形成される)は、以下のように定義されてもよい。
F=column_vectorize[abT] 式(8)
ここで、a及びbは、i=0,1,...,r-1についてa(i)=a(W-1-i)、b(i)=b(W-1-i)且つΣa(i)=Σb(i)=1となるようなW×1の垂直フィルタ及び水平フィルタである。係数ベクトルa及びbは、エンコーダで探索され、ビットストリームにコーディングされてもよい。
SGRPRJフィルタリングでは、以下のように劣化した画像xから簡単な復元バージョン
Figure 2023508292000007
を取得するために、以下のモデルによって記述される簡単な線形フィルタリングが実行される。
Figure 2023508292000008
ここで、F及びGはガイド画像及び劣化画像を使用して取得されてもよい。AV1のようないくつかの関連する例において、F及びGを決定するために、別々のガイド画像が使用されないが、劣化画像自体の統計のみが使用される自己誘導(self-guidance)フィルタリングの形式が採用される。
より具体的には、画素の周囲の(2r+1)×(2r+1)ウィンドウ内の画素の局所平均(μ)及び分散(σ2)が計算されてもよく、各画素xは以下のようにフィルタリングされてもよい。
Figure 2023508292000009
ここで、rは探索ウィンドウサイズを指定し、eはノイズ除去強度を制御するノイズパラメータである。
式(9)によって劣化画像Xから2つの簡単な復元X1及びX2が与えられると、最終出力Xrを構成するために以下の部分空間投影が実行される。
Xr=X+α(X1-X)+β(X2-X) 式(11)
X、X1、X2及びソースYによって、エンコーダは以下のようにα及びβを計算してもよい。
[α β]T=(AT A)-1ATb 式(12)
ここで、A={X1-X,X2-X}且つb=Y-Xである。
次いで、エンコーダは、LRU毎に6タプル(r1,e1,r2,e2,α,β)を送信してもよい。
[IV.強調復元フィルタリングのための特徴情報の再利用]
AV1のようないくつかの関連する例において、ウィナーフィルタは、フレーム/タイルをLRUに一様に分割することによって、64×64から256×256までの正方形サイズの単位で実行されてもよい。一例では、ウィナーフィルタのフィルタ係数は、信号統計が定常であると仮定することによって取得されてもよい。したがって、フィルタリングのターゲット領域を、定常性の仮定が合理的に成り立つことができる、分類された統計タイプの1つに分類することが望ましい。ターゲット領域を分類する可能な手法は、局所分散又はエッジ情報のような量を使用することを含む。これらの量自体又は関連するカテゴリ情報は、デコーダで計算されてもよく、或いは、ビットストリームで伝達されてもよいが、計算又はビットレートのオーバヘッドの点で高コストになる可能性がある。
AV1のようないくつかの関連する例において、SGRPRJフィルタは、フレーム/タイルをLRUに一様に分割することによって、64×64から256×256までの正方形サイズの単位で実行されてもよい。SGRPRJフィルタでは、LRU毎に固定半径及びノイズパラメータの対を使用して簡単な復元画像を構成するために、或る形式の簡単なエッジ保存フィルタリングが実行される。さらに、固定投影パラメータα及びβが、LRU毎に、最終的な復元を形成するために誤差画像の重み付け係数として使用されてもよい。しかし、誤差画像内の領域は、エッジ及びテクスチャのような局所信号特徴を反映する異なる統計的特性を有する可能性がある。したがって、半径、ノイズパラメータ、α及びβのような単一のセットのSGRPRJフィルタパラメータが、広範囲に変化する信号統計を有する画素をカバーするLRU領域にわたって使用又は推定される場合、最終的な復元の品質が損なわれる可能性がある。他方、より良い適応性のために信号分類を組み込むことは、計算負荷又はビットレートのオーバヘッドの追加コストに関して、ウィナーフィルタリングの場合と本質的に同じ課題を課す可能性がある。
本開示は、CDEFプロセス及び/又はイントラ予測モードから導出された方向性情報のような特徴情報を再利用することによって、復元フィルタリング技術の性能を向上させる方法を含む。例えば、適応復元フィルタリング技術は、デコーダにおいて既に利用可能な信号特徴及び統計情報を効果的に再利用してもよい。
本開示において、復元フィルタ(又はフィルタリング)プロセスは、ノイズのある画像の操作に使用され、ノイズのある画像に基づいてクリーンで元の画像を推定するフィルタリングプロセスとして定義されてもよい。復元フィルタプロセスは、イメージをぼやかすために使用されるプロセス、又は画像をぼやかすのと逆に使用される逆プロセスを含んでもよい。復元フィルタプロセスの例は、ウィナーフィルタリングプロセス及びSGRPRJフィルタリングプロセスを含むが、これらに限定されない。復元フィルタ(又はフィルタリング)ユニットは、復元フィルタプロセスが実行される領域である。
本開示において、方向性情報ユニットは、指定の形状及びサイズを有する画素のグループとして定義されてもよく、画素のグループの画素値によって表される特徴の主方向を提供してもよい。AV1のような例では、CDEFプロセスにおける各方向性情報ユニットは、8×8ブロックでもよい。各8×8ブロック内の画素の主方向及び分散値は、標準的な方法で導出されてもよい。他の例では、AV1における方向性イントラ予測モードは、イントラ予測ブロックに対応する様々な形状及びサイズのユニットをこのような情報に提供してもよい。
本開示の態様によれば、デコーダにおいて導出された方向性情報は、ウィナーフィルタ又はSGRPRJフィルタのような復元フィルタのための境界エッジの存在及び方向性を推定するために再利用されてもよい。例えば、方向性情報は、CDEFプロセスから導出されてもよい。
いくつかの実施形態によれば、復元フィルタリングユニット(例えば、ウィナー又はSGRPRJフィルタリングユニット)の形状及びサイズは、複数の利用可能な方向性情報ユニット(例えば、AV1におけるCDEF方向検出及びフィルタリングで使用される8×8ブロック)を使用して定義されてもよい。このように、より細かい粒度の方向適応性が実現できる。したがって、復元フィルタリングプロセスは、AV1のようないくつかの関連する例において使用される64×64、128×128又は256×256の固定の正方形タイプのうち1つよりも小さいユニットサイズで実行されてもよい。
一実施形態では、復元フィルタリングユニットのサイズは、例えば、AV1において定義されたLRUサイズと同じでもよい。
一実施形態では、復元フィルタリングユニットのサイズは、方向性情報ユニットのサイズ(例えば、8×8)と同じでもよい。
一実施形態では、復元フィルタリングユニットは、図12に示すようなAV1における分割のように、いくつかの関連する実施形態おける分割と同様に或いはこれに整合して、所与のLRUサイズから正方形、矩形、T字形又は4方向のサブLRUに更に分割されてもよい。
一実施形態では、方向性情報ユニット(例えば、8×8)のサイズをそれぞれ有するブロックは、フィルタリングユニットを形成するために、様々なスキャン順序に従うことによってマージされてもよい。図13は、8×8方向性ユニットのサイズをそれぞれ有するブロックが、32×8のサイズをそれぞれ有するフィルタリングユニットにラスタスキャン順序でマージされる例を示す。例えば、4つの8×8方向性ユニットブロック(1301)~(1304)は、32×8フィルタリングユニットブロック(1310)にマージされてもよく、4つの8×8方向性ユニットブロック(1305)~(1308)は、32×8フィルタリングユニットブロック(1320)にマージされてもよい。
一実施形態では、方向性情報ユニットのサイズ(例えば、8×8)をそれぞれ有し、同様の方向性を有するブロックは、フィルタリングユニットを形成するために、以下の様々なスキャン順序によってマージされてもよい。図14は、8×8方向性ユニットのサイズをそれぞれ有するブロックが、可変サイズのフィルタリングユニットにラスタスキャン順序でマージされる例を示す。フィルタリングユニットのサイズは、8×8、16×8及び32×8を含む。例えば、1つの8×8方向性ユニットブロック(1401)は8×8フィルタリングユニットブロック(1410)としてもよく、2つの8×8方向性ユニットブロック(1403)~(1404)は16×8フィルタリングユニットブロック(1420)にマージされてもよく、4つの8×8方向性ユニットブロック(1405)~(1408)は32×8フィルタリングユニットブロック(1430)にマージされてもよい。
いくつかの実施形態によれば、CDEFプロセスのそれぞれの利用可能な方向性は、固有のセットの復元フィルタの形状及びサイズが定義できる信号クラスのクラスインデックスとして直接使用されてもよい。すなわち、復元フィルタの選択は、CDEFプロセスの利用可能な方向性に依存してもよい。
一実施形態では、式(7)のような復元フィルタの計算における式に対する解が、信号クラス毎に適用されてもよい。
一実施形態では、対称性の有無にかかわらず、信号クラス毎に異なる数のフィルタタップを有する異なる形状の2Dフィルタが使用されてもよい。
一実施形態では、2Dフィルタの分離可能性(分離可能又は非分離可能フィルタ)は、CDEFプロセスの利用可能な方向性に依存してもよい。
一実施形態では、CDEFプロセスの利用可能な方向から外れた複数の方向は、単一のクラスにマージされてもよく、その結果、方向性クラスの数の減少を生じる。マージされたクラス毎に、固有のセットの復元フィルタの形状及びサイズが定義されてもよい。
いくつかの実施形態によれば、方向性に加えて、方向性に基づくクラスを更に改良するためにブロック分散情報が組み合わされてもよい。
一実施形態では、CDEFプロセスにおける8×8のサイズを有する方向性情報ユニットは、異なるサブクラスに更に分類されてもよい。分類は、方向性情報ユニットの分散値に基づいてもよい。例えば、方向性に基づくクラスの数が5であり、分散に基づくクラスの数が3である場合、それぞれ復元フィルタ(例えば、ウィナー又はSGRPRJ)のセットが設計できる15個の信号クラスが存在してもよい。
いくつかの実施形態によれば、方向性に加えて、復元フィルタリングユニットの信号クラスを決定するためにフィルタ強度が組み合わされてもよい。例えば、伝達された一次CDEFフィルタ強度及び二次CDEFフィルタ強度が、復元フィルタリングユニットの信号クラスを決定するために組み合わされてもよい。エンコーダによって選択された異なるフィルタ強度のプリセットは、ターゲット領域の異なる信号特性を示してもよい。
一実施形態では、ビットストリームで伝達された一次フィルタ強度及び二次フィルタ強度のプリセットのうち1つが、信号クラスインデックスの他の次元として直接使用されてもよい。例えば、方向性に基づくクラスの数が5であり、フィルタ強度のプリセットに基づくクラスの数が4である場合、それぞれ復元フィルタ(例えば、ウィナー又はSGRPRJ)のセットが設計できる20個の信号クラスが存在してもよい。
いくつかの実施形態によれば、復元フィルタリングユニットに含まれる方向性の多数決又は整合性検査が、フィルタクラスを決定するために実行されてもよい。
一実施形態では、復元フィルタリングユニットのサイズ及び形状が固定され、復元フィルタリングユニットに含まれる方向性情報ユニット(例えば、CDEFの場合、8×8)の数が所定の数よりも大きい場合、復元フィルタリングユニットに含まれる方向性の多数決又は整合性検査が、フィルタクラスを決定するために実行されてもよい。
一実施形態では、多数決の場合に、利用可能であり場合によってはマージされた方向性の中で最も頻度の高い方向性が選択されてもよい。一例では、1番目に頻度の高い方向性と2番目に頻度の高い方向性との間に特定のマージンが設定されてもよい。
一実施形態では、多数決を取る前に、復元フィルタリングユニット内のクラスの数が所定の数よりも大きいか否かが決定される。真である場合、不整合性が宣言されてもよく、復元フィルタリングユニットのための明示的な伝達又はより小さい復元フィルタリングユニットの使用のいずれかが選択されてもよい。
いくつかの実施形態によれば、ルマ成分内の復元フィルタリングユニットに使用されるのと同じ方式及び方向性情報は、このような情報がCDEFプロセスからルマ成分についてのみ利用可能である場合、クロマ成分内の復元フィルタリングユニットに使用されてもよい。
いくつかの実施形態によれば、クロマ成分内の復元フィルタリングユニットは、クロマ成分についてこのような情報が利用可能である場合、クロマ成分に含まれる一次フィルタ強度及び二次フィルタ強度のプリセット値のような、自身のフィルタ強度を使用してもよい。
いくつかの実施形態によれば、クロマ成分内の復元フィルタリングユニットは、クロマ成分についてこのような情報が利用可能である場合、それ自体の分散情報を使用してもよい。
一実施形態では、CDEFプロセスがオフにされ、復元フィルタがオンにされたとき、セクションIII(ループフィルタリングセクション)に記載のCDEFプロセスの方向探索プロセスが、復元フィルタリングユニットの境界エッジの存在及び方向性を導出するために適用されてもよい。
一実施形態では、CDEFプロセスがオフにされ、復元フィルタがオンにされたとき、デフォルト信号クラスが選択されるか、或いは、フィルタクラスインデックスの明示的な伝達が実行されてもよい。
本開示の態様によれば、デコーダにおいて利用可能なイントラ予測モードによって示される方向性情報は、復元フィルタリングユニット(例えば、ウィナー又はSGRPRJフィルタリングユニット)において、信号クラスをラベル付けするためのガイドとして再利用されてもよく、それぞれ固有のセットの復元フィルタの形状及びサイズが定義されてもよい。いくつかの実施形態では、このような方向性情報は、イントラ予測のためにエンコーダによって様々なユニットサイズで提供されてもよい。
いくつかの実施形態によれば、復元フィルタリングユニットの形状及びサイズは、複数の利用可能な方向性情報ユニット(例えば、AV1における方向性イントラ予測ユニットについての8×8)を使用して定義されてもよい。このように、より細かい粒度の方向適応性が実現できる。したがって、復元フィルタリングプロセスは、AV1のようないくつかの関連する例において使用される64×64、128×128又は256×256の固定の正方形タイプのうち1つよりも小さいユニットサイズで実行されてもよい。
一実施形態では、復元フィルタリングユニットのサイズは、例えば、AV1において定義されたLRUサイズと同じでもよい。
一実施形態では、復元フィルタリングユニットのサイズは、方向性情報ユニットのサイズ(例えば、8×8)と同じでもよい。
一実施形態では、復元フィルタリングユニットは、図12に示すようなAV1における分割のように、いくつかの関連する実施形態おける分割と同様に或いはこれに整合して、所与のLRUサイズから正方形、矩形、T字形又は4方向のサブLRUに更に分割されてもよい。
一実施形態では、方向性情報ユニット(例えば、8×8)のサイズをそれぞれ有するブロックは、図13に示すように、フィルタリングユニットを形成するために、様々なスキャン順序に従うことによってマージされてもよい。
一実施形態では、方向性情報ユニットのサイズ(例えば、8×8)をそれぞれ有し、同様の方向性を有するブロックは、図14に示すように、フィルタリングユニットを形成するために、以下の様々なスキャン順序によってマージされてもよい
いくつかの実施形態によれば、固定数の信号クラスが定義されてもよく、各信号クラスのブロックは、同様の方向性を有するイントラ予測モードを有してもよい。固有のセットの復元フィルタの形状及びサイズは、信号クラスのそれぞれについて定義されてもよい。SMOOTH(SMOOTH、SMOOTH_H、SMOOOTH_Vモードを含む)、Paeth予測子又はDCモードのような非角度イントラモードが使用される場合、非角度イントラモードのそれぞれ又は組み合わせは、それ自体の信号クラスに関連付けられてもよい。
一実施形態では、8つの公称角度のそれぞれは、AV1における関連する7つの可能なデルタ角度と共に、合計で8つの方向性クラスを形成するように一緒にグループ化されてもよい。
一実施形態では、方向性クラスは、公称角度と公称角度に関連するデルタ角度との双方に依存してもよい。
いくつかの実施形態によれば、復元フィルタリングユニット領域が方向性イントラモード又はイントラ予測モードを使用して予測されない場合、復元フィルタリングユニットの信号クラスは、復元フィルタリングユニットの隣接ブロックに基づいて決定されてもよい。デフォルト信号クラスが選択されてもよく、或いは、隣接ブロックが方向性イントラモードでコーディングされるか否か、又は隣接ブロックの方向性が不整合であるか否かに基づいて、信号クラスインデックス又はフィルタ係数の明示的な伝達が実行されてもよい。例えば、隣接ブロックが方向性イントラモードでコーディングされていない場合、又は隣接ブロックの方向性が整合していない場合、デフォルト信号クラスが選択されてもよく、或いは、信号クラスインデックス又はフィルタ係数の明示的な伝達が実行されてもよい。
いくつかの実施形態によれば、復元フィルタリングユニットに含まれる方向性の多数決又は整合性検査が、フィルタクラスを決定するために実行されてもよい。
一実施形態では、復元フィルタリングユニットのサイズ及び形状が固定され、復元フィルタリングユニットに含まれる方向性情報ユニット(例えば、CDEFの場合、8×8)の数が所定の数よりも大きい場合、復元フィルタリングユニットに含まれる方向性の多数決又は整合性検査が、フィルタクラスを決定するために実行されてもよい。方向性情報ユニットは、様々なサイズ及び異なる方向性イントラ予測モードを有してもよい。
一実施形態では、多数決の場合に、利用可能であり場合によってはマージされた方向性の中で最も頻度の高い方向性が選択されてもよい。一例では、1番目に頻度の高い方向性と2番目に頻度の高い方向性との間に特定のマージンが設定されてもよい。
一実施形態では、多数決を取る前に、復元フィルタリングユニット内のクラスの数が所定の数よりも大きいか否かが決定される。真である場合、不整合性が宣言されてもよく、復元フィルタリングユニットのための明示的な伝達又はより小さい復元フィルタリングユニットの使用のいずれかが選択されてもよい。
いくつかの実施形態によれば、クロマ成分内の復元フィルタリングユニットは、クロマ成分について別々にこのような情報が利用可能である場合、方向性イントラ予測モードからそれ自身の方向性情報を使用してもよい。
本開示の態様によれば、方向性情報がイントラ予測モード及びCDEFプロセスの双方から利用可能である場合、イントラ予測モードの方向性モードは、CDEFプロセスからの方向性情報と共に、復元フィルタリングユニット(例えば、ウィナー又はSGRPRJフィルタリングユニット)を識別して分類するためのガイドとして使用されてもよい。
一実施形態では、方向性情報がイントラ予測方向及びCDEFプロセスの双方から利用可能である場合、方向性情報の整合性を検査する際に双方のソースからの方向性のマッピングが導入されてもよい。分類に基づく復元フィルタリングプロセスは、方向情報が整合する場合にのみ実行されてもよい。図15は、AV1における8つの基本角度のうち1つに関連する7つのデルタ角度に対応するイントラ予測方向が単一の方向性クラスにマッピングされてもよく、したがって、CDEFプロセスの間に導出される8つの方向性と1対1の対応関係が形成できる例を示す。
一実施形態では、イントラ予測モード又はCDEFプロセスのうち一方からの方向性情報が第1のソースとして使用されてもよい。イントラ予測モード又はCDEFプロセスの他方は、整合した方向が第1のソースからの方向性情報で決定できない場合にのみ使用されてもよい。
AV1のようないくつかの例において、ウィナーフィルタ及びSGRPRJフィルタは、LRU毎に適応的に選択されてもよい点に留意する。フィルタパラメータ及びフィルタリングプロセスの決定は、双方のフィルタについて同じ方法でLRU毎に実行されてもよい。相違は、フィルタパラメータのタイプ及び数でもよい。
一実施形態では、SGRPRJフィルタが実行される場合、探索ウィンドウサイズr及びノイズパラメータeは、ウィナーフィルタパラメータと同様に、信号クラス毎に定義されて使用されてもよい。
一実施形態では、SGRPRJフィルタが実行される場合、投影パラメータα及びβは、ウィナーフィルタパラメータと同様に、信号クラス毎に定義されて使用されてもよい。
一実施形態では、SGRPRJフィルタが実行される場合、探索ウィンドウサイズr、ノイズパラメータe並びに投影パラメータα及びβは、ウィナーフィルタパラメータと同様に、信号クラス毎に定義されて使用されてもよい。
[V.フローチャート]
図16は、本開示の一実施形態による例示的なプロセス(1600)の概略を示すフローチャートを示す。様々な実施形態では、プロセス(1600)は、端末デバイス(210)、(220)、(230)及び(240)における処理回路、ビデオエンコーダ(303)の機能を実行する処理回路、ビデオデコーダ(310)の機能を実行する処理回路、ビデオデコーダ(410)の機能を実行する処理回路、イントラ予測モジュール(452)の機能を実行する処理回路、ビデオエンコーダ(503)の機能を実行する処理回路、予測器(535)の機能を実行する処理回路、イントラエンコーダ(622)の機能を実行する処理回路、イントラデコーダ(772)の機能を実行する処理回路等のような処理回路によって実行される。いくつかの実施形態では、プロセス(1600)は、ソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路は、プロセス(1600)を実行する。
プロセス(1600)は、概してステップ(S1610)において開始してもよく、ここで、プロセス(1610)は、CDEFプロセス又はイントラ予測モードのうち少なくとも1つに基づいて、ビデオフレームに含まれる復元フィルタユニットの方向性情報を決定する。次いで、プロセス(1600)はステップ(S1620)に進む。
ステップ(S1620)において、プロセス(1600)は、復元フィルタユニットの方向性情報に基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定する。次いで、プロセス(1600)はステップ(S1630)に進む。
ステップ(S1630)において、プロセス(1600)は、複数のセットのフィルタパラメータのうち1つに基づいて、復元フィルタユニットに対して復元フィルタプロセスを実行する。次いで、プロセス(1600)はステップ(S1640)に進む。
ステップ(S1640)において、プロセス(1600)は、フィルタリングされた復元フィルタユニットに基づいてビデオフレームを復元する。次いで、プロセス(1600)は終了する。
一実施形態では、復元フィルタユニットは、1つ以上の方向性情報ユニットを含み、CDEFプロセス又はイントラ予測モードのうち少なくとも1つは、1つ以上の方向性情報ユニットのうち1つに対して実行される。
一実施形態では、復元フィルタの複数のセットのフィルタパラメータのそれぞれは、CDEFプロセスの少なくとも1つの方向性に関連する。
一実施形態では、プロセス(1600)は、復元フィルタユニットの方向性情報及びブロック分散情報に基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定する。
一実施形態では、プロセス(1600)は、復元フィルタユニットの方向性情報及びCDEFプロセスのフィルタ強度に基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定する。
一実施形態では、プロセス(1600)は、復元フィルタユニットにおける方向性の多数決又は整合性検査のうち少なくとも1つに基づいて、復元フィルタユニットの方向性情報を決定する。
一実施形態では、復元フィルタユニットがイントラコーディングされておらず隣接ブロックがイントラコーディングされていることに基づいて、プロセス(1600)は、復元フィルタユニットの隣接ブロックに対して実行されるイントラ予測モードに基づいて、復元フィルタユニットの方向性情報を決定する。
一実施形態では、プロセス(1600)は、イントラ予測モードから決定された方向性情報と一致するCDEFプロセスから決定された方向性情報に基づいて、復元フィルタユニットに対して復元フィルタプロセスを実行する。
一実施形態では、復元フィルタプロセスは、ウィナーフィルタプロセス及びSGRPRJフィルタプロセスのうち1つである。
一実施形態では、プロセスは、デフォルトセットのフィルタパラメータ、或るセットのフィルタパラメータを示す伝達されたインデックス、又は伝達されたセットのフィルタパラメータのうち1つに基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定する。
[VI.コンピュータシステム]
上記の技術は、コンピュータ読み取り可能命令を使用してコンピュータソフトウェアとして実装され、1つ以上のコンピュータ読み取り可能媒体に物理的に記憶されてもよい。例えば、図17は、開示の対象物の特定の実施形態を実装するのに適したコンピュータシステム(1700)を示す。
コンピュータソフトウェアは、いずれかの適切な機械コード又はコンピュータ言語を使用して符号化されてもよく、当該機械コード又はコンピュータ言語は、命令を含むコードを生成するために、アセンブリ、コンパイル、リンク又は類似のメカニズムを受けてもよく、当該命令は、1つ以上のコンピュータ中央処理装置(CPU, central processing unit)、グラフィックス処理ユニット(GPU, Graphics Processing Unit)等によって、直接的に或いはインタープリタ、マイクロコード実行等を通じて実行されてもよい。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットのデバイス等を含む様々なタイプのコンピュータ又はその構成要素上で実行されてもよい。
コンピュータシステム(1700)について図17に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能に関する如何なる限定も示唆することを意図するものではない。また、構成要素の構成も、コンピュータシステム(1700)の例示的な実施形態に示される構成要素のいずれか1つ又は組み合わせに関する如何なる依存性又は要件も有するものとして解釈されるべきではない。
コンピュータシステム(1700)は、特定のヒューマンインタフェース入力デバイスを含んでもよい。このようなヒューマンインタフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動き等)、オーディオ入力(音声、拍手等)、視覚入力(ジェスチャ等)、嗅覚入力(図示せず)を通じて、1人以上の人間のユーザによる入力に応答してもよい。また、ヒューマンインタフェースデバイスは、オーディオ(例えば、会話、音楽、周辺音)、画像(スキャンされた画像、静止画カメラから取得された写真画像等)、ビデオ(2次元ビデオ、立体ピクチャを含む3次元ビデオ等)のような、人間による意識的入力に必ずしも直接関連しない特定のメディアをキャプチャするために使用されてもよい。
入力ヒューマンインタフェースデバイスは、キーボード(1701)、マウス(1702)、トラックパッド(1703)、タッチ画面(1710)、データグローブ(図示せず)、ジョイスティック(1705)、マイクロフォン(1706)、スキャナ(1707)及びカメラ(1708)のうち1つ以上を含んでもよい。
また、コンピュータシステム(1700)は、特定のヒューマンインタフェース出力デバイスを含んでもよい。このようなヒューマンインタフェース出力デバイスは、例えば、触覚出力、音、光及び嗅覚/味覚を通じて、1人以上の人間のユーザの感覚を刺激してもよい。このようなヒューマンインタフェース出力デバイスは、触覚出力デバイス(例えば、タッチ画面(1710)、データグローブ(図示せず)又はジョイスティック(1705)による触覚フィードバック、ただし、入力デバイスとして機能しない触覚フィードバックデバイスが存在してもよい)と、オーディオ出力デバイス(スピーカ(1709)、ヘッドフォン(図示せず)等)と、視覚出力デバイス(それぞれがタッチ画面入力機能を有しても有さなくてもよく、それぞれが触覚フィードバック機能を有しても有さなくてもよく、いくつかが2次元視覚出力又は立体出力のような手段を通じた3次元以上の出力を出力可能でもよいCRT画面、LCD画面、プラズマ画面、OLED画面を含む画面(1710)、仮想現実メガネ(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず))と、プリンタ(図示せず)とを含んでもよい。これらの視覚出力デバイス(画面(1710)等)は、グラフィックスプロセッサ(1750)を通じてシステムバス(1748)に接続されてもよい。
また、コンピュータシステム(1700)は、CD/DVD又は同様の媒体(1721)を有するCD/DVD ROM/RW(1720)を含む光媒体のような人間がアクセス可能な記憶デバイス及び関連する媒体、サムドライブ(1722)、取り外し可能ハードドライブ又はソリッドステートドライブ(1723)、テープ及びフロッピーディスク(図示せず)のようなレガシー磁気媒体、セキュリティドングル(図示せず)のような特殊なROM/ASIC/PLDに基づくデバイス等を含んでもよい。
また、当業者は、ここに開示の対象物に関連して使用される用語「コンピュータ読み取り可能媒体」が伝送媒体、搬送波又は他の非一時的な信号を含まないことを理解すべきである。
また、コンピュータシステム(1700)は、1つ以上の通信ネットワーク(1755)へのネットワークインタフェース(1754)を含んでもよい。1つ以上の通信ネットワーク(1755)は、例えば、無線、有線、光でもよい。1つ以上の通信ネットワーク(1755)は、ローカル、広域、メトロポリタン、車両及び産業、リアルタイム、遅延耐性等でもよい。1つ以上の通信ネットワーク(1755)の例は、イーサネット、無線LAN、セルラネットワーク(GSM、3G、4G、5G、LTE等を含む)、TV有線又は無線広域デジタルネットワーク(ケーブルTV、衛星TV、及び地上放送TVを含む)、車両及び産業(CANBusを含む)等を含む。特定のネットワークは、一般的に、特定の汎用データポート又は周辺バス(1749)に取り付けられる外部ネットワークインタフェースアダプタ(例えば、コンピュータシステム(1700)のUSBポート等)を必要とし、他のネットワークインタフェースアダプタは、一般的に、以下に説明するシステムバス(例えば、PCコンピュータシステムへのイーサネットインタフェース又はスマートフォンコンピュータシステムへのセルラネットワーク)に取り付けられることによって、コンピュータシステム(1700)のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム(1700)は、他のエンティティと通信することができる。このような通信は、一方向の受信のみ(例えば、放送TV)、一方向の送信のみ(例えば、特定のCANbusデバイスへのCANbus)でもよく、或いは、例えば、ローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの双方向でもよい。特定のプロトコル及びプロトコルスタックは、上記のようなネットワーク及びネットワークインタフェースのそれぞれにおいて使用されてもよい。
上記のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス及びネットワークインタフェースは、コンピュータシステム(1700)のコア(1740)に取り付けられてもよい。
コア(1740)は、1つ以上の中央処理装置(CPU)(1741)、グラフィックス処理ユニット(GPU)(1742)、フィールドプログラマブルゲートアレイ(FPGA, Field Programmable Gate Area)(1743)の形式の特殊なプログラム可能処理ユニット、特定のタスク用のハードウェアアクセラレータ(1774)、グラフィックスアダプタ(1750)等を含んでもよい。これらのデバイスは、読み取り専用メモリ(ROM)(1745)、ランダムアクセスメモリ(1746)、内部大容量記憶装置(1747)(内部のユーザアクセス不可能なハードドライブ、SSD等)と共に、システムバス(1748)を通じて接続されてもよい。いくつかのコンピュータシステムでは、システムバス(1748)は、更なるCPU、GPU等による拡張を可能にするために、1つ以上の物理プラグの形式でアクセス可能でもよい。周辺デバイスは、コアのシステムバス(1748)に直接取り付けられてもよく、或いは、周辺バス(1749)を通じて取り付けられてもよい。一例では、画面(1710)はグラフィックスアダプタ(1750)に取り付けられてもよい。周辺バスのアーキテクチャは、PCI、USB等を含む。
CPU(1741)、GPU(1742)、FPGA(1743)及びアクセラレータ(1744)は特定の命令を実行してもよく、当該特定の命令は、組み合わせによって上記のコンピュータコードを構成してもよい。当該コンピュータコードは、ROM(1745)又はRAM(1746)に記憶されてもよい。また、一時的なデータは、RAM(1746)に記憶されてもよいが、永続的なデータは、例えば、内部大容量記憶装置(1747)に記憶されてもよい。1つ以上のCPU(1741)、GPU(1742)、大容量記憶装置(1747)、ROM(1745)、RAM(1746)等と密接に関連してもよいキャッシュメモリを使用することによって、メモリデバイスのいずれかへの高速記憶及び検索が可能になってもよい。
コンピュータ読み取り可能媒体は、様々なコンピュータに実装された動作を実行するためのコンピュータコードを有してもよい。媒体及びコンピュータコードは、本開示の目的のために特に設計及び構築されたものでよく、或いは、コンピュータソフトウェア分野における当業者に周知で入手可能なようなものでもよい。
限定ではなく一例として、アーキテクチャ(1700)、具体的には、コア(1740)を有するコンピュータシステムは、1つ以上の有形のコンピュータ読み取り可能媒体に具現されたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)の結果として機能を提供できる。このようなコンピュータ読み取り可能媒体は、コア内部の大容量記憶装置(1747)又はROM(1745)のような非一時的な性質のコア(1740)の特定の記憶装置と同様に、上記のようなユーザがアクセス可能な大容量記憶装置に関連する媒体でもよい。本開示の様々な実施形態を実装するソフトウェアは、このようなデバイスに記憶されてコア(1740)によって実行されてもよい。コンピュータ読み取り可能媒体は、特定のニーズに従って、1つ以上のメモリデバイス又はチップを含んでもよい。ソフトウェアは、コア(1740)、具体的には、その中のプロセッサ(CPU、GPU、FPGA等を含む)に、RAM(1746)に記憶されたデータ構造を定義し、ソフトウェアによって定義された処理に従ってこのようなデータ構造を修正することを含む、本明細書に記載の特定の処理又は特定の処理の特定の部分を実行させてもよい。さらに或いは代替として、コンピュータシステムは、回路(例えば、アクセラレータ(1744))内に配線されたロジック又は他の方法で具現されたロジックの結果として、機能を提供してもよく、当該回路は、本明細書に記載の特定の処理又は特定の処理の特定の部分を実行するために、ソフトウェアの代わりに或いはソフトウェアと共に動作してもよい。ソフトウェアへの言及は、ロジックを含み、必要に応じて、その逆も可能である。コンピュータ読み取り可能媒体への言及は、必要に応じて、実行するためのソフトウェアを記憶する回路(集積回路(IC)等)、実行するためのロジックを具現する回路又はこれらの双方を含んでもよい。本開示は、ハードウェア及びソフトウェアのいずれかの適切な組み合わせを含む。
本開示は、いくつかの例示的な実施形態を記載しているが、本開示の範囲内に入る変更、置換及び様々な代替の等価物が存在する。したがって、当業者は、本明細書に明示的に図示又は記載されていないが、本開示の原理を具現し、したがって、本開示の真意及び範囲内にある多数のシステム及び方法を考案することができることが認識される。
[付録A:略語]
ALF: Adaptive Loop Filter
AMVP: Advanced Motion Vector Prediction
APS: Adaptation Parameter Set
ASIC: Application-Specific Integrated Circuit
ATMVP: Alternative/Advanced Temporal Motion Vector Prediction
AV1: AOMedia Video 1
AV2: AOMedia Video 2
BMS: Benchmark Set
BV: Block Vector
CANBus: Controller Area Network Bus
CB: Coding Block
CC-ALF: Cross-Component Adaptive Loop Filter
CD: Compact Disc
CDEF: Constrained Directional Enhancement Filter
CPR: Current Picture Referencing
CPU: Central Processing Unit
CRT: Cathode Ray Tube
CTB: Coding Tree Block
CTU: Coding Tree Unit
CU: Coding Unit
DPB: Decoder Picture Buffer
DPCM: Differential Pulse-Code Modulation
DPS: Decoding Parameter Set
DVD: Digital Video Disc
FPGA: Field Programmable Gate Area
JCCR: Joint CbCr Residual Coding
JVET: Joint Video Exploration Team
GOP: Groups of Pictures
GPU: Graphics Processing Unit
GSM: Global System for Mobile communications
HDR: High Dynamic Range
HEVC: High Efficiency Video Coding
HRD: Hypothetical Reference Decoder
IBC: Intra Block Copy
IC: Integrated Circuit
ISP: Intra Sub-Partitions
JEM: Joint Exploration Model
LAN: Local Area Network
LCD: Liquid-Crystal Display
LR: Loop Restoration Filter
LRU: Loop Restoration Unit
LTE: Long-Term Evolution
MPM: Most Probable Mode
MV: Motion Vector
OLED: Organic Light-Emitting Diode
PBs: Prediction Blocks
PCI: Peripheral Component Interconnect
PDPC: Position Dependent Prediction Combination
PLD: Programmable Logic Device
PPS: Picture Parameter Set
PU: Prediction Unit
RAM: Random Access Memory
ROM: Read-Only Memory
SAO: Sample Adaptive Offset
SCC: Screen Content Coding
SDR: Standard Dynamic Range
SEI: Supplementary Enhancement Information
SNR: Signal Noise Ratio
SPS: Sequence Parameter Set
SSD: Solid-state Drive
TU: Transform Unit
USB: Universal Serial Bus
VPS: Video Parameter Set
VUI: Video Usability Information
VVC: Versatile Video Coding
WAIP: Wide-Angle Intra Prediction

Claims (12)

  1. デコーダが実行するビデオ復号の方法であって、
    制約方向性強調フィルタ(CDEF)プロセス又はイントラ予測モードのうち少なくとも1つに基づいて、ビデオフレームに含まれる復元フィルタユニットの方向性情報を決定するステップと、
    前記復元フィルタユニットの前記方向性情報に基づいて、復元フィルタプロセスの複数のセットのフィルタパラメータのうち1つを決定するステップと、
    前記複数のセットのフィルタパラメータのうち前記1つに基づいて、前記復元フィルタユニットに対して前記復元フィルタプロセスを実行するステップと、
    フィルタリングされた前記復元フィルタユニットに基づいて前記ビデオフレームを復元するステップと
    を含む方法。
  2. 前記復元フィルタユニットは、1つ以上の方向性情報ユニットを含み、前記CDEFプロセス又は前記イントラ予測モードのうち少なくとも1つは、前記1つ以上の方向性情報ユニットのうち1つに対して実行される、請求項1に記載の方法。
  3. 前記復元フィルタプロセスの前記複数のセットのフィルタパラメータのそれぞれは、前記CDEFプロセスの少なくとも1つの方向性に関連する、請求項1又は2に記載の方法。
  4. 前記複数のセットのフィルタパラメータのうち前記1つを決定するステップは、
    前記復元フィルタユニットの前記方向性情報及びブロック分散情報に基づいて、前記復元フィルタプロセスの前記複数のセットのフィルタパラメータのうち前記1つを決定するステップを含む、請求項1乃至3のうちいずれか1項に記載の方法。
  5. 前記複数のセットのフィルタパラメータのうち前記1つを決定するステップは、
    前記復元フィルタユニットの前記方向性情報及び前記CDEFプロセスのフィルタ強度に基づいて、前記復元フィルタプロセスの前記複数のセットのフィルタパラメータのうち前記1つを決定するステップを含む、請求項1乃至3のうちいずれか1項に記載の方法。
  6. 前記復元フィルタユニットの前記方向性情報を決定するステップは、
    前記復元フィルタユニットにおける方向性の多数決又は整合性検査のうち少なくとも1つに基づいて、前記復元フィルタユニットの前記方向性情報を決定するステップを含む、請求項1乃至5のうちいずれか1項に記載の方法。
  7. 前記復元フィルタユニットがイントラコーディングされておらず前記復元フィルタユニットの隣接ブロックがイントラコーディングされていることに応じて、
    前記復元フィルタユニットの前記方向性情報を決定するステップは、
    前記復元フィルタユニットの前記隣接ブロックに対して実行される前記イントラ予測モードに基づいて、前記復元フィルタユニットの前記方向性情報を決定するステップを含む、請求項1乃至5のうちいずれか1項に記載の方法。
  8. 前記実行するステップは、
    前記イントラ予測モードから決定された前記方向性情報と一致する前記CDEFプロセスから決定された前記方向性情報に基づいて、前記復元フィルタユニットに対して前記復元フィルタプロセスを実行するステップを含む、請求項1乃至7のうちいずれか1項に記載の方法。
  9. 前記復元フィルタプロセスは、ウィナーフィルタプロセス及び自己誘導投影(SGRPRJ)フィルタプロセスのうち1つである、請求項1乃至8のうちいずれか1項に記載の方法。
  10. 前記複数のセットのフィルタパラメータのうち前記1つを決定するステップは、
    デフォルトセットのフィルタパラメータ、或るセットのフィルタパラメータを示す伝達されたインデックス、又は伝達されたセットのフィルタパラメータのうち1つに基づいて、前記復元フィルタプロセスの前記複数のセットのフィルタパラメータのうち前記1つを決定するステップを含む、請求項1乃至3のうちいずれか1項に記載の方法。
  11. 処理回路を含む装置であって、
    前記処理回路は、請求項1乃至10のうちいずれか1項に記載の方法を実行するように構成される、装置。
  12. 少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、請求項1乃至10のうちいずれか1項に記載の方法を実行させるプログラム。
JP2022537417A 2020-10-14 2021-07-01 ビデオコーディングのための方法、装置及びプログラム Active JP7443527B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024024379A JP2024045681A (ja) 2020-10-14 2024-02-21 ビデオコーディングのための方法、装置及びプログラム

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063091707P 2020-10-14 2020-10-14
US63/091,707 2020-10-14
US17/362,048 US11611770B2 (en) 2020-10-14 2021-06-29 Method and apparatus for video coding
US17/362,048 2021-06-29
PCT/US2021/040065 WO2022081218A1 (en) 2020-10-14 2021-07-01 Method and apparatus for video coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024024379A Division JP2024045681A (ja) 2020-10-14 2024-02-21 ビデオコーディングのための方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2023508292A true JP2023508292A (ja) 2023-03-02
JP7443527B2 JP7443527B2 (ja) 2024-03-05

Family

ID=81079455

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022537417A Active JP7443527B2 (ja) 2020-10-14 2021-07-01 ビデオコーディングのための方法、装置及びプログラム
JP2024024379A Pending JP2024045681A (ja) 2020-10-14 2024-02-21 ビデオコーディングのための方法、装置及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024024379A Pending JP2024045681A (ja) 2020-10-14 2024-02-21 ビデオコーディングのための方法、装置及びプログラム

Country Status (6)

Country Link
US (2) US11611770B2 (ja)
EP (1) EP4052234A4 (ja)
JP (2) JP7443527B2 (ja)
KR (1) KR20220113537A (ja)
CN (1) CN115004696A (ja)
WO (1) WO2022081218A1 (ja)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102948151B (zh) 2010-06-17 2016-08-03 夏普株式会社 图像滤波装置、解码装置及编码装置
EP3588956B1 (en) 2011-11-04 2022-03-09 LG Electronics Inc. Method and apparatus for encoding/decoding image information
US10841593B2 (en) * 2015-06-18 2020-11-17 Qualcomm Incorporated Intra prediction and intra mode coding
US10491922B2 (en) 2015-09-29 2019-11-26 Qualcomm Incorporated Non-separable secondary transform for video coding
US10382781B2 (en) * 2016-09-28 2019-08-13 Qualcomm Incorporated Interpolation filters for intra prediction in video coding
US10855997B2 (en) 2017-04-14 2020-12-01 Mediatek Inc. Secondary transform kernel size selection
US10645383B2 (en) 2018-05-31 2020-05-05 Intel Corporation Constrained directional enhancement filter selection for video coding
US10687083B2 (en) 2018-06-06 2020-06-16 Intel Corporation Loop restoration filtering for super resolution video coding
US11277644B2 (en) * 2018-07-02 2022-03-15 Qualcomm Incorporated Combining mode dependent intra smoothing (MDIS) with intra interpolation filter switching
US11303885B2 (en) * 2018-10-25 2022-04-12 Qualcomm Incorporated Wide-angle intra prediction smoothing and interpolation
US11282172B2 (en) 2018-12-11 2022-03-22 Google Llc Guided restoration of video data using neural networks
EP3884666A1 (en) * 2018-12-24 2021-09-29 Google LLC Video stream adaptive filtering for bitrate reduction
US10652581B1 (en) 2019-02-27 2020-05-12 Google Llc Entropy coding in image and video compression using machine learning
US20220141459A1 (en) * 2020-11-05 2022-05-05 Alibaba Group Holding Limited Offset-based refinement of intra prediction (orip) of video coding

Also Published As

Publication number Publication date
WO2022081218A1 (en) 2022-04-21
US20230085672A1 (en) 2023-03-23
JP2024045681A (ja) 2024-04-02
EP4052234A4 (en) 2022-12-28
JP7443527B2 (ja) 2024-03-05
US20220116635A1 (en) 2022-04-14
CN115004696A (zh) 2022-09-02
KR20220113537A (ko) 2022-08-12
US11611770B2 (en) 2023-03-21
EP4052234A1 (en) 2022-09-07

Similar Documents

Publication Publication Date Title
JP7339389B2 (ja) ビデオ圧縮における複数ラインのフレーム内予測のための方法および装置
JP7169372B2 (ja) デコーダ側の動きベクトルの導出及び精緻化の改良
JP7152512B2 (ja) 動画の符号化及び復号方法、装置、並びにコンピュータプログラム
KR20210114055A (ko) 교차-컴포넌트 필터링을 위한 방법 및 장치
JP7343669B2 (ja) Vvcにおける色変換のための方法及び機器
EP3918802A1 (en) Method and apparatus for video coding
KR20210145794A (ko) 비디오 코딩을 위한 방법 및 장치
JP7297918B2 (ja) ビデオ符号化のための色変換
JP7331218B2 (ja) 統合位置依存予測組み合わせプロセスを使用するデコードのための方法、装置およびコンピュータ・プログラム
JP7288078B2 (ja) スキップモードフラグを伝達するための方法、装置及びコンピュータプログラム
JP7443559B2 (ja) ビデオコーティングのための方法及び装置
CN114600453A (zh) 视频编解码的方法和装置
JP2023519818A (ja) ビデオフィルタリングのための方法及び装置
KR20230047446A (ko) 인트라 예측 모드들에 대한 엔트로피 코딩
JP2023517329A (ja) ビデオコーディングのための方法および装置
JP7443527B2 (ja) ビデオコーディングのための方法、装置及びプログラム
JP7412443B2 (ja) 非線形ループフィルタリングのための方法および装置
JP7462792B2 (ja) ビデオ・コーディングのための方法及び装置
JP2023543591A (ja) オフセット・ベースのリファインメント及び複数参照ライン選択の調和的設計
JP2023546731A (ja) 参照画像再サンプリング(rpr)によるルマ及びクロマのための適応アップサンプリングフィルタ
JP2024079781A (ja) ビデオ・コーディングのための方法及び装置
KR20220036976A (ko) 디블록킹 동작들에 대한 하이 레벨 제어
KR20230010739A (ko) 비디오 코딩 방법 및 장치
WO2023102293A1 (en) Scene transition detection based encoding methods for bcw
KR20240000570A (ko) 인트라 양예측 및 다중 참조 라인 선택을 위한 조화로운 설계

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240221

R150 Certificate of patent or registration of utility model

Ref document number: 7443527

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150