JP2023528780A - ビデオコーディングにおけるニューラルネットワークベースのフィルタ - Google Patents

ビデオコーディングにおけるニューラルネットワークベースのフィルタ Download PDF

Info

Publication number
JP2023528780A
JP2023528780A JP2022572477A JP2022572477A JP2023528780A JP 2023528780 A JP2023528780 A JP 2023528780A JP 2022572477 A JP2022572477 A JP 2022572477A JP 2022572477 A JP2022572477 A JP 2022572477A JP 2023528780 A JP2023528780 A JP 2023528780A
Authority
JP
Japan
Prior art keywords
region
offset
samples
neural network
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022572477A
Other languages
English (en)
Inventor
ボルド、フィリップ
ガルピン、フランク
デュマ、ティエリー
ニキティン、パヴェル
アーバン、ファブリス
Original Assignee
インターデジタル ヴイシー ホールディングス フランス,エスエーエス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ヴイシー ホールディングス フランス,エスエーエス filed Critical インターデジタル ヴイシー ホールディングス フランス,エスエーエス
Publication of JP2023528780A publication Critical patent/JP2023528780A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一実装形態では、ブロックの再構成されたサンプルのバージョンのループ内フィルタリングを実行するために、単一オフセットパラメータのみがビットストリーム中でシグナリングされる。再構成されたサンプルのバージョンに基づいて、ニューラルネットワークを使用してピクセル単位の重みマスクが生成される。ニューラルネットワークパラメータはエンコーダとデコーダの両方で知られているので、これらのパラメータは、ビットストリーム中でシグナリングされる必要はない。重み付けされたマスクによってスケーリングされた単一オフセットパラメータは、ブロック内のサンプルを調整するために使用される。したがって、単一オフセットパラメータのみが使用される場合であっても、サンプルは、ピクセル単位のオフセットによって調整される。ニューラルネットワークはまた、量子化パラメータ及びピクチャタイプなどの他のパラメータを入力として取り得る。更に、異なる重みマスクを生成する複数のニューラルネットワークがあり得、ここで、異なるオフセットがシグナリングされ、ニューラルネットワークのうちの1つ以上がフィルタリングのために選択されることになる。【選択図】図10

Description

本実施形態は、概して、ビデオの符号化又は復号化におけるフィルタリングのための方法及び装置に関する。
高い圧縮効率を実現するために、画像及びビデオのコーディング方式は、通常、ビデオコンテンツ内の空間冗長性及び時間冗長性を活用するために予測及び変換を採用している。概して、イントラピクチャ又はインターピクチャ相関を利用するために、イントラ予測又はインター予測が使用され、次いで、予測誤差又は予測残差と呼ばれることが多い、原ブロックと予測ブロックとの間の差が、変換、量子化、及びエントロピコード化される。ビデオを再構成するには、エントロピコーディング、量子化、変換、及び予測に対応する逆のプロセスによって、圧縮データを復号化する。
一実施形態によれば、ビデオ符号化又は復号化の方法が提供され、この方法は、ピクチャの領域の再構成されたサンプルのバージョンにアクセスすることと、ニューラルネットワークを使用して、上記領域の上記再構成されたサンプルのバージョンに基づいて上記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成することと、上記領域について単一オフセットパラメータを符号化又は復号化することと、上記領域内の上記複数のサンプルを調整することによって上記領域をフィルタリングすることであって、上記領域内のサンプルは、上記サンプルについての重み及び上記領域についての上記オフセットに応答して調整される、フィルタリングすることと、を含む。
別の実施形態によれば、1つ以上のプロセッサを備える、ビデオ符号化又は復号化のための装置が提供され、上記1つ以上のプロセッサは、ピクチャの領域の再構成されたサンプルのバージョンにアクセスすることと、ニューラルネットワークを使用して、上記領域の上記再構成されたサンプルのバージョンに基づいて上記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成することと、上記領域について単一オフセットパラメータを符号化又は復号化することと、上記領域内の上記複数のサンプルを調整することによって上記領域をフィルタリングすることであって、上記領域内のサンプルは、上記サンプルについての重み及び上記領域についての上記オフセットに応答して調整される、フィルタリングすることと、を行うように構成されている。
別の実施形態によれば、ビデオ符号化又は復号化の装置が提供され、この装置は、ピクチャの領域の再構成されたサンプルのバージョンにアクセスするための手段と、ニューラルネットワークを使用して、上記領域の上記再構成されたサンプルのバージョンに基づいて上記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成するための手段と、上記領域について単一オフセットパラメータを符号化又は復号化するための手段と、上記領域内の上記複数のサンプルを調整することによって上記領域をフィルタリングするための手段であって、上記領域内のサンプルは、上記サンプルについての重み及び上記領域についての上記オフセットに応答して調整される、フィルタリングするための手段と、を備える。
別の実施形態によれば、ビデオ符号化又は復号化の装置が提供され、この装置は、ピクチャの領域の再構成されたサンプルのバージョンにアクセスするための手段と、複数のニューラルネットワークを使用して、上記領域の上記再構成されたサンプルのバージョンに基づいて上記領域内の複数のサンプルのうちの1つのサンプルについて複数の重みを生成するための手段と上記領域について複数のオフセットパラメータを符号化又は復号化するための手段と、上記領域内の上記複数のサンプルを調整することによって上記領域をフィルタリングするための手段であって、上記領域内のサンプルは、上記サンプルについての上記複数の重み及び上記領域についての上記複数のオフセットに応答して調整される、フィルタリングするための手段と、を備える。
1つ以上の実施形態はまた、1つ以上のプロセッサによって実行されるとき、1つ以上のプロセッサに、上で説明された実施形態のいずれかに従う符号化方法又は復号化方法を実行させる命令を含む、コンピュータプログラムを提供する。本実施形態のうちの1つ以上はまた、上で説明された方法に従って、ビデオデータを符号化するか、又は復号化するための命令を記憶したコンピュータ可読記憶媒体を提供する。1つ以上の実施形態はまた、上で説明された方法に従って生成されたビットストリームを記憶したコンピュータ可読記憶媒体を提供する。1つ以上の実施形態はまた、上で説明された方法に従って生成されたビットストリームを送信又は受信するための方法及び装置を提供する。
本実施形態の態様が実装され得るシステムのブロック図を示す。 ビデオエンコーダの一実施形態のブロック図を示す。 ビデオデコーダの一実施形態のブロック図を示す。 連続ループフィルタリングの一例を示す。 EO(Edge Offset)(エッジオフセット)サンプル分類のための4つの1-D方向パターンを示す図的な例である。 正のオフセットがEO分類のカテゴリ1及び2に使用され、負のオフセットがカテゴリ3及び4に使用されることを示す図的な例である。 関連する開始帯域位置及び4つの連続する帯域のオフセットを有するBO(Band Offset)(帯域オフセット)を示す図的な例である。 SAOを使用してビットストリームを復号化するための例示的な方法を示す。 再構成後に画像を復元するために畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)を使用する一例を示す。 一実施形態によるエンコーダアーキテクチャを示す。 フィルタリングされるピクチャの一部、NNからの重みマスク、及びフィルタ結果を示す。 一実施形態による、フィルタにおいて使用されるNNの一例を示す。 一実施形態によるデコーダアーキテクチャを示す。 一実施形態による、ニューラルネットワークへの入力として事前分類を有するエンコーダアーキテクチャを示す。 一実施形態による、複数のニューラルネットワークベースのフィルタを有するエンコーダアーキテクチャを示す。 別の実施形態による、複数のニューラルネットワークベースのフィルタを有するエンコーダアーキテクチャを示す。 更に別の実施形態による、複数のニューラルネットワークベースのフィルタを有するエンコーダアーキテクチャを示す。 一実施形態による、複数のCNNの中から1つのCNNを選択するデコーダアーキテクチャを示す。 別の実施形態による、複数のCNNの中からいくつかのCNNを選択するデコーダアーキテクチャを示す。 一実施形態による、補正のために複数のNNを使用する符号化プロセスを示す。 NN出力の線形結合の一例を示す。 一実施形態による、補正のために複数のNNを使用する復号化プロセスを示す。 一実施形態による、結合されるべきK個のNNを選択するための方法を示す。 異なるパターンが異なるNNフィルタに関連付けられる、K=2及びK=4での空間分割の例を示す。 一実施形態による、実際に使用されるNNの数が分割形状に依存することを示す。 一方向のみにおける3×4畳み込み層の適用の一例を示す。 一実施形態による、異なるコーディングモード特徴を有するデータセットに基づいてNNをトレーニングする例を示す。 活性化関数の2つの例:ReLU及びリーキーReLUを示す。
図1は、様々な態様及び実施形態が実装され得るシステムの一例のブロック図を示す。システム100は、以下に記載の様々なコンポーネントを含むデバイスとして具現化され得、本明細書に記載の態様のうちの1つ以上を実行するように構成されている。かかるデバイスの実施例としては、これらに限定されないが、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ記録システム、コネクテッド家電、及びサーバなどの様々な電子デバイスが挙げられる。システム100の要素は、単独で、又は組み合わせて、単一の集積回路、複数のIC、及び/又は個別のコンポーネントで具現化され得る。例えば、少なくとも1つの実施形態では、システム100の処理要素及びエンコーダ要素/デコーダ要素は、複数のIC及び/又は個別のコンポーネントにわたって分散される。様々な実施形態では、システム100は、例えば、通信バスを介して、又は専用の入力ポート及び/若しくは出力ポートを通じて、他のシステム、又は他の電子デバイスに通信可能に結合される。様々な実施形態では、システム100は、本出願に記載された態様のうちの1つ以上を実装するように構成される。
システム100は、例えば、本出願に記載された様々な態様を実装するために、内部にロードされた命令を実行するように構成された、少なくとも1つのプロセッサ110を含む。プロセッサ110は、埋め込み型メモリ、入力出力インターフェース、及び当該技術分野で既知であるように様々な他の回路を含み得る。システム100は、少なくとも1つのメモリ120(例えば、揮発性メモリデバイス及び/又は不揮発性メモリデバイス)を含む。システム100は、記憶デバイス140を含み、この記憶デバイスは、限定されるものではないが、EEPROM、ROM、PROM、RAM、DRAM、SRAM、フラッシュ、磁気ディスクドライブ、及び/若しくは光ディスクドライブを含む、不揮発性メモリ並びに/又は揮発性メモリを含み得る。記憶デバイス140は、非限定的な例として、内部記憶デバイス、取り付け型記憶デバイス、及び/又はネットワークアクセス可能な記憶デバイスを含み得る。
システム100は、例えば、データを処理して、符号化ビデオ又は復号化ビデオを提供するように構成されたエンコーダ/デコーダモジュール130を含み、そのエンコーダ/デコーダモジュール130は、それ自体のプロセッサ及びメモリを含み得る。エンコーダ/デコーダモジュール130は、符号化機能及び/又は復号化機能を実行するためにデバイス内に含まれ得るモジュールを表す。既知であるように、デバイスは、符号化及び復号化モジュールのうちの一方又は両方を含み得る。加えて、エンコーダ/デコーダモジュール130は、システム100の個別の要素として実装され得るか、又は当業者に知られているように、ハードウェアとソフトウェアの組み合わせとしてプロセッサ110内に組み込まれ得る。
本出願に記載の様々な態様を実行するためにプロセッサ110又はエンコーダ/デコーダ130上にロードされるプログラムコードは、記憶デバイス140内に記憶され、その後、プロセッサ110による実行のためにメモリ120上にロードされ得る。様々な実施形態によれば、プロセッサ110、メモリ120、記憶デバイス140、及びエンコーダ/デコーダモジュール130のうちの1つ以上は、本出願に記載されるプロセスの実行中に、様々な項目のうちの1つ以上を記憶し得る。かかる記憶された項目は、限定されるものではないが、入力ビデオ、復号化ビデオ、又は復号化ビデオの一部分、ビットストリーム、行列、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含み得る。
いくつかの実施形態では、プロセッサ110及び/又はエンコーダ/デコーダモジュール130の内部のメモリは、命令を記憶するため、及び符号化又は復号化中に必要とされる処理のためのワーキングメモリを提供するために使用される。しかしながら、他の実施形態では、処理デバイス(例えば、処理デバイスは、プロセッサ110又はエンコーダ/デコーダモジュール130のいずれかであり得る)の外部のメモリが、これらの機能のうちの1つ以上のために使用される。外部メモリは、メモリ120及び/又は記憶デバイス140、例えば、ダイナミック揮発性メモリ及び/又は不揮発性フラッシュメモリであり得る。いくつかの実施形態では、外部不揮発性フラッシュメモリが、テレビのオペレーティングシステムを格納するために使用される。少なくとも一実施形態では、RAMなどの高速外部ダイナミック揮発性メモリが、MPEG-2、HEVC、又はVVCなどのビデオコーディング動作及び復号化動作のためのワーキングメモリとして使用される。
システム100の要素への入力は、ブロック105に示すように、様々な入力デバイスを通して提供され得る。このような入力デバイスとしては、(i)例えば、放送局によって無線で送信されるRF信号を受信するRF部、(ii)コンポジット入力端子、(iii)USB入力端子、及び/又は(iv)HDMI入力端子が挙げられるが、これらに限定されない。
様々な実施形態では、ブロック105の入力デバイスは、当技術分野で知られているように、関連するそれぞれの入力処理要素を有する。例えば、RF部分は、(i)所望の周波数を選択することと(また信号を選択する、又は信号を周波数帯域に帯域制限するとも称される)、(ii)選択された信号をダウンコンバートすることと、(iii)特定の実施形態で、(例えば)チャネルとして称され得る信号周波数帯域を選択するために、再度より狭い周波数帯域に帯域制限することと、(iv)ダウンコンバート及び帯域制限された信号を復調することと、(v)誤り訂正を実行することと、(vi)データパケットの所望のストリームを選択するために多重分離することと、に対して好適な要素に関連付けられ得る。様々な実施形態のRF部分は、これらの機能を実行する1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、帯域リミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、誤り訂正器、及びデマルチプレクサを含む。RF部分は、これらの様々な機能を実行するチューナを含み得、例えば、受信した信号をより低い周波数(例えば、中間周波数、若しくは近接ベースバンド周波数)に、又はベースバンドにダウンコンバートすることが含まれる。セットトップボックスの一実施形態では、RF部分及びその関連する入力処理要素は、有線(例えば、ケーブル)媒体を介して送信されるRF信号を受信し、所望の周波数帯域にフィルタリング、ダウンコンバート、及び再フィルタリングすることによって周波数選択を実行する。様々な実施形態では、上で説明される(及び他の)要素の順序を並べ替える、これらの要素の一部を削除する、並びに/又は、類似若しくは異なる機能を実行する他の要素を追加する。要素を追加することは、既存の要素の間に要素を挿入すること、例えば、増幅器及びアナログ-デジタル変換器を挿入することを含み得る。様々な実施形態において、RF部分は、アンテナを含む。
加えて、USB及び/又はHDMI端末は、USB及び/又はHDMI接続全体にわたって、システム100を他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含み得る。入力処理の様々な態様、例えば、リードソロモン誤り訂正は、例えば、必要に応じて、個別の入力処理IC内又はプロセッサ110内に実装され得ることを理解されたい。同様に、USB又はHDMIインターフェース処理の態様は、必要に応じて、個別のインターフェースIC内又はプロセッサ110内に実装され得る。復調され、誤り訂正され、逆多重化されたストリームは、例えば、プロセッサ110と、出力デバイス上に提示するために必要に応じてデータストリームを処理するためにメモリ及び記憶要素と組み合わせて動作するエンコーダ/デコーダ130とを含む、様々な処理要素に提供される。
システム100の様々な要素は、統合されたハウジング内に提供され得、統合されたハウジング内では、様々な要素は、好適な接続構成115、例えば、I2Cバス、配線、及びプリント回路基板を含む、当該技術分野で既知の内部バスを使用して相互に接続され、互いの間でデータを送信し得る。
システム100は、通信チャネル190を介して他のデバイスとの通信を可能にする通信インターフェース150を含む。通信インターフェース150は、限定されるものではないが、通信チャネル190を介してデータを送信及び受信するように構成された送受信機を含み得る。通信インターフェース150は、限定されるものではないが、モデム又はネットワークカードを含み得、通信チャネル190は、例えば、有線及び/又は無線媒体内に実装され得る。
データは、様々な実施形態において、IEEE802.11などのWi-Fiネットワークを使用して、システム100にストリーミングされる。これらの実施形態のWi-Fi信号は、Wi-Fi通信用に適応した通信チャネル190及び通信インターフェース150を介して受信される。これらの実施形態の通信チャネル190は、一般には、ストリーミングアプリケーション及び他のオーバーザトップ通信を可能にするためにインターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック105のHDMI接続を介してデータを配信するセットトップボックスを使用して、システム100にストリーミングデータを提供する。更に他の実施形態では、入力ブロック105のRF接続を使用して、システム100にストリーミングデータを提供する。
システム100は、出力信号を、ディスプレイ165、スピーカ175、及び他の周辺デバイス185を含む、様々な出力デバイスに提供し得る。他の周辺デバイス185は、実施形態の様々な例において、スタンドアロンDVR、ディスクプレーヤ、ステレオシステム、照明システム、及びシステム100の出力に基づいて機能を提供する他のデバイス、のうちの1つ以上を含む。様々な実施形態では、制御信号は、AV.Link、CEC、又はユーザ介入あり若しくはユーザ介入なしでデバイス間制御を可能にする他の通信プロトコルなどのシグナリングを使用して、システム100とディスプレイ165、スピーカ175、又は他の周辺デバイス185との間で通信される。出力デバイスは、それぞれのインターフェース160、170、及び180を通じた専用接続を介してシステム100に通信可能に結合され得る。代替的に、出力デバイスは、通信インターフェース150を介し、通信チャネル190を使用して、システム100に接続され得る。ディスプレイ165及びスピーカ175は、例えば、テレビなどの電子デバイスにおいて、システム100の他のコンポーネントと共に単一ユニットに統合され得る。様々な実施形態では、ディスプレイインターフェース160は、ディスプレイドライバ、例えば、タイミングコントローラ(timing controller、TCon)チップを含む。
ディスプレイ165及びスピーカ175は、代替的に、例えば、入力105のRF部分が個別のセットトップボックスの一部である場合、他のコンポーネントのうちの1つ以上から分離され得る。ディスプレイ165及びスピーカ175が外部コンポーネントである様々な実施形態では、出力信号は、例えば、HDMIポート、USBポート、又はCOMP出力を含む、専用の出力接続を介して提供され得る。
図2は、高効率ビデオコーディング(High Efficiency Video Coding、HEVC)エンコーダなどの例示的なビデオエンコーダ200を示す。図2はまた、HEVC規格に改良を加えたエンコーダ、又はJVET(Joint Video Exploration Team(ジョイントビデオエキスパートチーム)によって開発中のVVC(Versatile Video Coding)(多用途ビデオコーディング)エンコーダなど、HEVCに類似する技術を採用したエンコーダを示し得る。
本出願では、「再構成された(reconstructed)」及び「復号化された(decoded)」という用語は、交換可能に使用され得、「符号化(encoded)された」及び「コーディング(coded)された」という用語は、交換可能に使用され得、は、「ピクセル(pixel)」又は「サンプル(sample)」という用語は、交換可能に使用され得、「画像(image)」、「ピクチャ(picture)」、及び「フレーム(frame)」という用語は、交換可能に使用され得る。通常では、必ずしもそうではないが、「再構成された」という用語はエンコーダ側で使用され、「復号化された」という用語はデコーダ側で使用される。
符号化される前に、ビデオシーケンスは、符号化前処理(201)、例えば、カラー変換を入力カラーピクチャに適用すること(例えば、RGB4:4:4からYCbCr4:2:0への変換)、又は圧縮に対してより弾力的な信号分布を得るために入力ピクチャ成分の再マッピングを実行する(例えば、色成分のうちの1つのヒストグラム等化を使用して)ことを経得る。メタデータは、前処理に関連付けられ、ビットストリームに添付され得る。
エンコーダ200では、以下に記載のように、ピクチャは、エンコーダ要素によって符号化される。符号化されるピクチャは、例えば、CUというユニットに分割され(202)、処理される。各ユニットは、例えば、イントラモード又はインターモードのいずれかを使用して符号化される。ユニットがイントラモードで符号化されるとき、そのユニットは、イントラ予測(260)を実行する。インターモードでは、動き推定(275)及び動き補償(270)が実行される。エンコーダは、ユニットを符号化するためにイントラモード又はインターモードのうちのどちらを使用すべきかを決定し(205)、例えば、予測モードフラグによってイントラ/インターの決定を示す。エンコーダはまた、イントラ予測結果とインター予測結果を混合(263)してもよいし、又は異なるイントラ/インター予測方法からの結果を混合してもよい。
予測残差は、例えば、元の画像ブロックから予測されたブロックを減算することによって(210)計算される。動き改良モジュール(272)は、元のブロックを参照せずにブロックの動きフィールドを改良するために、既に利用可能な参照ピクチャを使用する。ある領域についての動きフィールドは、その領域を有する全てのピクセルについての動きベクトルの集合とみなすことができる。動きベクトルがサブブロックベースである場合、動きフィールドは、領域内の全てのサブブロック動きベクトルの集合として表すこともできる(サブブロック内の全てのピクセルは同じ動きベクトルを有し、動きベクトルはサブブロックごとに異なり得る)。単一の動きベクトルが領域に対して使用される場合、領域に対する動きフィールドもまた、単一の動きベクトル(領域内の全てのピクセルに対して同じ動きベクトル)によって表すことができる。
その予測残差は、次いで、変換され(225)、量子化される(230)。量子化された変換係数、並びに動きベクトル及び他の構文要素は、ビットストリームを出力するためにエントロピコード化される(245)。エンコーダは、変換をスキップし、量子化を非変換残差信号に直接適用することができる。エンコーダは、変換及び量子化の両方をバイパスすることができ、すなわち、残差は、変換プロセス又は量子化プロセスを適用することなく直接コード化される。
エンコーダは、符号化されたブロックを復号化して、更なる予測のための参照を提供する。量子化された変換係数は、予測残差を復号化するために逆量子化され(240)、逆変換される(250)。復号化された予測残差と予測されたブロックとを組み合わせて(255)、画像ブロックが再構成される。ループ内フィルタ(265)は、例えば、符号化アーチファクトを低減するための非ブロック化/SAO(Sample Adaptive Offset)(サンプル適応オフセット)フィルタリングを実行するために、再構成されたピクチャに適用される。フィルタリングされた画像は、参照ピクチャバッファ(280)に記憶される。
図3は、例示的なビデオデコーダ300のブロック図を示す。デコーダ300では、以下に説明されるように、ビットストリームが、デコーダ要素によって復号化される。ビデオデコーダ300は、図2に記載するように、一般に、符号化パスとは逆の復号化パスを実行する。エンコーダ200もまた、一般に、ビデオデータを符号化することの一部としてビデオ復号化を実行する。
特に、デコーダの入力は、ビデオビットストリームを含み、これは、ビデオエンコーダ200によって生成され得る。ビットストリームは、まず、変換係数、動きベクトル、及び他のコード化情報を取得するために、エントロピ復号化される(330)。ピクチャ分割情報は、ピクチャがどのように分割されているかを示す。デコーダは、したがって、復号化されたピクチャ分割情報に従ってピクチャを分割し得る(335)。変換係数は、予測残差を復号化するために、逆量子化され(340)、逆変換される(350)。復号化された予測残差と予測されたブロックとを組み合わせて(355)、画像ブロックが再構成される。
予測されたブロックは、イントラ予測(360)又は動き補償予測(すなわち、インター予測)(375)から取得され得る(370)。デコーダは、イントラ予測結果とインター予測結果を混合(373)してもよいし、又は複数のイントラ/インター予測方法からの結果を混合してもよい。動き補償の前に、動きフィールドは、既に利用可能な参照ピクチャを使用することによって改良され得る(372)。ループ内フィルタ(365)は、再構成された画像に適用される。フィルタリングされた画像は、参照ピクチャバッファ(380)に記憶される。
復号化されたピクチャは、復号化後処理(385)、例えば、逆カラー変換(例えば、YCbCr4:2:0からRGB4:4:4への変換)、又は符号化前処理(201)において実行された再マッピングプロセスの逆を実行する逆再マッピングを更に経ることができる。復号化後処理は、符号化前処理において導出され、ビットストリームにおいてシグナリングされたメタデータを使用することができる。
上記で説明したように、HEVC又はVVCなどの最近のビデオコーデックでは、コーディングアーチファクトを低減し、かつ元のピクチャの歪みを低減することを目的として、ビデオピクチャの再構成されたサンプルにいくつかのフィルタが適用される。例えば、HEVCでは、デブロッキングフィルタ(deblocking filter、DBF)及びサンプル適応オフセット(SAO)フィルタが、再構成されたサンプルに連続的に適用される。VVCでは、適応ループフィルタ(adaptive loop filter、ALF)と呼ばれる別のフィルタが、プロセスのまさに最後に適用される。VVCの開発段階の間、バイラテラルフィルタ(bilateral filter、BF)、アダマールフィルタ、及び拡散フィルタという、いくつかの他の補足的なブロックベースのフィルタが考慮された。
図4は、連続ループフィルタリングの一例を示す。この例では、バイラテラルフィルタ(450)、DBF(460)、SAO(470)、及びALF(480)という、4つの連続フィルタが適用される。出力は、再構成されたピクチャサンプルである。表記を簡単にするために、エンコーダへの入力をSと呼び、ループ内フィルタリングへの入力を
Figure 2023528780000002
と呼び、ループ内フィルタリングの出力を
Figure 2023528780000003
と呼ぶ。
Figure 2023528780000004
は、再構成されたサンプルの初期再構成又は初期バージョンと称されることもある。図4に示すように、ループ内フィルタリングへの入力は、予測サンプル(410)と復号化/再構成された予測残差(420)との和(430)であり、これは、エンコーダ/デコーダによってサポートされるダイナミックレンジ内になるようにクリップされ得る(440)。いくつかのブロックでは、予測残差が0であるか、又は存在しないとき(例えば、SKIPモードにおいて)、ループ内フィルタリングへの入力は、直接的に、予測されたサンプルである。
これらの異なるフィルタは、概して、以下の機能の一部又は全部を実行する。
1. ピクセル分類。
2. エンコーダのみ:フィルタパラメータ(例えば、DBF、SAO、ALFだがBFでない)の決定。
3. 符号化/復号化フィルタパラメータ(例えば、DBF、SAO、ALFだがBFでない)。
4. クラス依存フィルタリング。
SAOフィルタ
HEVC及びVVCでは、SAOは、CTU(Coding Tree Unit)(コーディングツリーユニット)ベースでのサンプルベースのフィルタリング動作であり、これは、コーディングアーチファクトを低減するために、再構成されたサンプルのいくつかのカテゴリにオフセットを加算することを可能にする。CTUは、成分ごとに1つのCTBで構成される。SAOは、CTBごとにアクティブ化又は非アクティブ化され得る。2つのSAOモード、すなわち、エッジオフセット(EO)及び帯域オフセット(BO)が指定される。EOの場合、サンプル分類は、フィルタリングされるピクチャ内の局所的な方向構造に基づく。BOの場合、サンプル分類はサンプル値に基づく。EO又はBOのパラメータは、明示的にコーディングされるか、又は近傍から導出され得る。SAOは、ルーマ成分及びクロマ成分に適用され得、ここで、SAOモードは、Cb成分及びCr成分について同じである。SAOパラメータは、色成分ごとに個別に構成される。
エッジオフセット
EOは、サンプル分類のために、図5に示されているように、4つの1-D方向パターン、すなわち、水平、垂直、135°対角線、及び45°対角線を使用し、ここで、ラベル「p」は現在のサンプルを表し、ラベル「p」及び「p」は2つの隣接サンプルを表す。方向に基づいて4つのEOクラスが指定され、各EOクラスは1つの方向に対応する。選択されたEOクラスは、ビットストリーム中でサイド情報としてシグナリングされる。
Figure 2023528780000005
所与のEOクラスについて、CTB内の各サンプルは、局所勾配に基づいて5つ(NC=5)のカテゴリのうちの1つに分類される。具体的には、「p」とラベル付けされた現在のサンプル値が、選択された1-D方向に沿ったその2つの隣接値と比較される。サンプルの分類規則を表1に要約する。また、図6に示されるように、カテゴリ1及び4は、選択された1-Dパターンに沿った局所的な谷及び局所的な山にそれぞれ関連付けられ、カテゴリ2及び3は、選択された1-Dパターンに沿った凹コーナー及び凸コーナーにそれぞれ関連付けられる。現在のサンプル値がカテゴリ1~4に属さない(すなわち、現在のサンプル値がその2つの隣接値と同じであるか、又はp<p<p若しくはp>p>pである)場合、現在のサンプル値はカテゴリ0にあり、SAOは適用されない(すなわち、オフセットは0である)。カテゴリ1~4については、オフセットが符号化される。
帯域オフセット
BOの場合、サンプル値の範囲(例えば、8ビットにおける0~255)は、32個の帯域に均一に分割され、(NC-1)=4個の連続する帯域に属するサンプル値は、図7に示されるように、オフセットoff(n)、n=1、...、4を加算することによって修正される。4つの連続する帯域のオフセット及び開始帯域位置のみがデコーダにシグナリングされる。開始帯域位置は、符号化されたオフセットを有する第1の帯域の位置を示す。(NC-1)個の帯域の各々に対して1つのオフセットがコーディングされ、残りの帯域は0に等しいオフセットを有する。
EO又はBOの場合、オフセットはコーディングされないが、隣接する上又は左のCTUからコピーされることが可能である(マージモード)。一例では、図8は、SAOを使用してビットストリームを復号化するための方法800を示す。ビットストリームが復号化された(810)後、再構成されたサンプルは、SAOを使用して更にフィルタリングされる。「復号化された」又は「再構成された」という用語は、ビットストリームが部分的に「復号化される」こと、例えば、デブロッキングフィルタリングの後であるがSAOフィルタリングの前に取得された信号を意味し得、再構成されたサンプルは、表示のために使用される最終的な復号化された出力とは異なり得ることに留意されたい。
SAOがスライスに対してアクティブ化される場合、デコーダは、SAOが現在のCTBに対してアクティブ化されるかどうかをチェックする(820)。SAOがアクティブ化される場合、デコーダは、CTB内のサンプルをNC=5個のカテゴリに分類する(830)。各カテゴリのオフセット値off(n)を得ることができる(840)。ステップ850において、カテゴリc(s)を有するサンプルsについて、サンプルをs=s+off(c(s))に調整することができる。上記で説明したように、サンプルオフセットは0であり得、対応するサンプルは調整されない。SAOフィルタの後に他のループ内フィルタがある場合、フィルタリングされたサンプルは、更なるフィルタリングを経る。フィルタリングされた再構成サンプルは、デコーダの最終出力として使用される。
エンコーダは、方法800と同様のプロセスを実行することができる。エンコーダ側では、ステップ810は、再構成されたサンプルを取得するために実装され、例えば、SAOフィルタリングプロセスは、デブロッキングフィルタからの再構成されたサンプルを入力として使用する。オフセット値は、ビットストリームにおいて符号化される。フィルタリングされた再構成サンプルは、他のピクチャの参照として使用することができる。
符号化段階では、各クラスの各カテゴリcについて、元の(ターゲット)サンプル値と再構成されたサンプル値diff(c)との間の差の和を収集することによって、オフセットを決定することができる。カテゴリcに属する現在のブロックのサンプルの数としてN(c)を示すと、再構成されたサンプルに加算される平均オフセットoff(c)は、以下のように導出され得る。
off(c)=diff(c)/N(c) (式1)
深層学習フィルタ
図9は、再構成後に画像を復元するために畳み込みニューラルネットワーク(CNN)を使用する一例を示す。画像Sは、最初に
Figure 2023528780000006
として再構成される。画像は、CNNによって計算(推論)された補正Rを加算することによって
Figure 2023528780000007
として復元される。CNNのトレーニング(CNNパラメータの決定)中に、復元画像と原画像との誤差に基づく損失関数が最小化される。
実際には、CNNは、通常、いくつかの畳み込み層と、それに続く活性化層(例えば、シグモイド関数、ReLU関数、又はリーキーReLU関数)とから構成され、損失関数はまた、CNNトレーニングを安定化させるためにいくつかの正則化項を考慮し得る。
再構成されたピクチャをCNNでフィルタリングするためのいくつかの技法が開発されている。CNNと完全結合ニューラルネットワークとの間の主な違いは、CNNがその入力及びその中間表現の空間次元に沿って重みを共有することにある。自然画像の局所統計値が与えられると、CNNは、通常、例えば画像復元において同等の性能を達成するために、完全結合ニューラルネットワークよりはるかに少ないパラメータを必要とする。更に、重み共有は、CNNにおけるパラメータの数をその入力サイズから独立させ、これは、トレーニングされたCNNが様々なサイズの画像を復元することができることを意味する。
1つの技法では、3層CNNがルーマ成分とクロマ成分とによって共有される。CNNのパラメータはトレーニングされ、次いで、各ランダムアクセスセグメント(random-access segment、RAS)の第1のIピクチャと共にビットストリームに符号化される。トレーニングは、時間レベル0及び1のピクチャのみを使用する。マルチレベルオン/オフ制御は、各色成分についてピクチャ、コーディングツリーブロック(coding tree block、CTB)、及び32×32ブロックレベルにおいて適用される。変形例では、ルーマのための3つの異なる2層CNNと、クロマのための3つの異なる2層CNNとが符号化される。ルーマ及びクロマの各々のために使用する最良のCNNのインデックスは、CTBごとにシグナリングされる。CNNは、重み当たり6ビットに圧縮される。このオン/オフ制御はタイルごとに行われる。
これらの方法は、ビットストリーム内の全てのニューラルネットワークパラメータを符号化し、シグナリングオーバーヘッドを作成する。更に、ニューラルネットワークは、ピクチャグループ(RAS)ごとにトレーニングされるべきであり、これは、実際には許容できない複雑さ/レイテンシにつながることがある。
別の技法では、前述の制限を克服するために、より大きいが固定されたニューラルネットワークパラメータのセットが、QPごとに1つずつ、1回トレーニングされる。3つの入力成分(Y、U、V)は、CNNによって一緒に処理されるように連結される。入力サンプルブロックは、トレーニング中のCNNの総パディングサイズに対応する特定のサイズのピクセルでパディングされる。パラメータの数は、いくつかの層を繰り返すことによって更に低減され得る。
本出願は、1つ又はいくつかの既存のループ内フィルタを置換し得るか、又は既存のループ内フィルタに追加され得るニューラルネットワーク(neural network、NN)に基づくループ内フィルタを提案する。提案されたフィルタは、HEVC又はVVC SAOフィルタの場合のように適応オフセットを用いてサンプルを調整するので、提案されたフィルタをNNベースのSAO(サンプル適応オフセット)フィルタと呼ぶ。一実施形態では、NNベースのフィルタは、SAOフィルタにおいて実行されるように、再構成されたサンプルをオフセットによって調整する。特に、NNフィルタは重みマスクを決定する。このマスクにおける重みは、この重みの値に応じて、再構成されたブロックのサンプルが補正されるかどうかの決定、又はこのサンプルの補正の強度のいずれかに対応する。NNフィルタは、フィルタの強度を制御するために少数のパラメータ(オフセット)で制御される。これらのパラメータは、ビットストリームにおいて符号化される。
NNベースのループ内フィルタアーキテクチャ
図10は、一実施形態によるエンコーダアーキテクチャ(1000)を示す。ここで、Wは重みマスクを表す。重みがバイナリ、すなわち、0又は1のいずれかである場合、インデックスiの重みマスクは、インデックスiの
Figure 2023528780000008
のサンプルが補正されるかどうかを決定する。重みが非バイナリ、例えば、浮動である場合、インデックスiの重みの絶対値は、インデックスiの
Figure 2023528780000009
のサンプルに対する補正の強度として見ることができる。オフセットの項は、フィルタ補正の強度に対する制御パラメータを表す。
NNの第1の層が畳み込み層であるとき、データのセット
Figure 2023528780000010
は、典型的には同じサイズのブロック(又は行列)である。しかしながら、それらは、1-D又はN-Dベクトルに再配列することができる。Wのサイズが
Figure 2023528780000011
のサイズと同じであることを保証するために、適切なパディングが層入力又は層出力において追加され得る。代替的に、入力ブロック
Figure 2023528780000012
は、第1の層からの低減を考慮するために、Wより大きくてもよい。
ビデオエンコーダモジュール(1010)によって符号化されるブロックSについて、対応する(局所)再構成ブロックは、
Figure 2023528780000013
である。ビデオエンコーダ(1010)は、提案されたフィルタ(1040)で拡張又は置換されるループ内フィルタ(265)を除いて、エンコーダ200に対応し得る。NN(1020)は、通常、いくつかの畳み込み層から構成されるが、例えば、完全接続リンク及び/又はショートカットリンクから構成されてもよい。その入力は、フィルタリングされるべき再構成されたブロックであり、出力は重みマスクWである。
フィルタ制御パラメータ「オフセット」は、以下のように、
Figure 2023528780000014
から導出される(1030)。
Figure 2023528780000015
ここで、「.」は、単純な項と項の積を示し(T=W.Sはti,j=wi,jxsi,jを意味する)、sum(W)は、Wの全ての項の和を示す:sum(W)=Σi,ji,j
変形例では、フィルタ制御パラメータ「オフセット」は、以下のように平均二乗誤差最小化法を用いて
Figure 2023528780000016
から導出される(1030)。
Figure 2023528780000017
ここで、sum(W)は、Wの全ての二乗項の和を示す:sum(W)=Σi,ji,j
「オフセット」の値は、各ブロックについてビットストリームにおいて符号化される(1050)。変形例では、値「オフセット」は、コーディングの前に量子化される。演算「X」(1060)及び「+」(1070)は、それぞれ、Wの全ての項とスカラー値「オフセット」との積、及び項ごとの和に対応する。「オフセット」は重みマスクWをスケーリングするために使用されるので、オフセットはまた、スケーリングパラメータとみなされてもよい。変形例では、Wの値は、例えば-1と1との間で、クリップされる。
図11(a)、図11(b)及び図11(c)は、それぞれ、フィルタリングされる初期再構成ピクチャの一部、NNからの対応する重みマスク、及びフィルタリングされた結果を示す。ここでは、図12に示すように、ReLU活性化及び1つの最終クリッピング層を有する6層CNNが使用される。図11(b)では、異なる陰影は、異なる重み値に対応する。代替的に、例えば0.1に等しいアルファパラメータを有する図28に示されるようなリーキーReLUなどの他の活性化関数を使用することができる。リーキーReLU活性化関数には2つのメリットがある。第一に、誤差逆伝搬アルゴリズム、したがってNNトレーニング段階での収束を容易にし、第二に、負の重みマスク値を可能にする。変形例では、内部層にリーキーReLUを使用し、最後の層のみにReLUを使用する。
一例としてブロックを使用すると、ピクセル値は以下の通りである。
Figure 2023528780000018
重みマスクは以下の通りである。
Figure 2023528780000019
(式2)で計算されたブロックに対するオフセットは6である。したがって、
Figure 2023528780000020
フィルタリングされた結果は以下の通りである。
Figure 2023528780000021
(式2b)を使用する場合、ブロックに対するオフセットは8である。したがって、
Figure 2023528780000022
フィルタリングされた結果は以下の通りである。
Figure 2023528780000023
図13は、一実施形態によるデコーダアーキテクチャ(1300)を示す。デコーダの入力はビデオビットストリームを含み、例えば、このビットストリームはビデオエンコーダ1000によって生成される。ビデオデコーダモジュール(1310)は、提案されたフィルタ(1340)で拡張又は置換されるループ内フィルタ(365)を除いて、デコーダ300に対応し得る。NN(1320)は、ビットストリームを適切に復号化するために、対応するエンコーダにおいて使用されるものと同じであるべきである。NN(1320)への入力は、フィルタリングされるべき再構成されたブロックであり、出力は重みマスクWである。NNフィルタ(1320)の出力は、場合によっては他の情報と共に、1つの成分(1チャネル)以上、例えば、ルーマ及びクロマ残差サンプル(3チャネル)又は2つのクロマ残差サンプル(2チャネル)を補正するためのスケーリングされたオフセット(残差)であり得る。
NNのパラメータは、デコーダにおいて知られており、ビットストリームにおいて伝達されないことに留意されたい。
フィルタ制御パラメータ「オフセット」は、ブロックについてビットストリームから復号化される(1310)。次に、制御パラメータに重みマスクが乗算される(1360)。すなわち、制御パラメータは、各サンプルに対するスケーリングされたオフセットを生成するために、ブロック内の各サンプルについて重みによってスケーリングされる。次に、スケーリングされたオフセットは、初期再構成ブロック内の対応するサンプルに加算される(1370)。
サンプルごとの重みマスクWを生成することによって、積W.offsetは、ブロック内の各サンプルに対する調整オフセットを提供する。ここで、NNのパラメータはビットストリームにおいて送信されないので、フィルタリングプロセスのためにブロックに対して単一の制御パラメータのみが伝達される必要があることに留意されたい。したがって、非常に少ないシグナリングオーバーヘッドで、提案されたフィルタは、圧縮効率を改善することができる、フィルタリングにおけるサンプルごとの調整を達成する。
事前分類を用いたNNベースのフィルタアーキテクチャ
この実施形態では、NNモジュールは、量子化ステップ(quantization step、QP)、画像タイプ(例えば、タイプI、P、又はB)、別の成分からの再構成された残差サンプル又は再構成されたサンプルなど、追加の入力を有する。変形例では、追加の入力は、図14に示されるようにブロックのサンプルを分類する分類モジュール(1420)である。図14では、モジュール(1420)は、オプションであることを示すために破線で示されている。図14にはデコーダが示されているが、対応するエンコーダを応じて変更することができる。この分類(1420)は、局所勾配又は他の意味分類に基づくことができる。例えば、分類器は、HEVC/VVC SAO、ALF分類器、又はデブロッキングフィルタ分類器など、既存のループ内フィルタにおいて使用される分類器と同じである。分類器は、
Figure 2023528780000024
の各サンプルに、バイナリラベル(0:クラス内にない、1:クラスに属する)、T個の値{c,c,...c}の中の1つの整数ラベル、又は非整数値(例えば、浮動小数点cfloat)を関連付けることができる。
事前分類器入力を使用する1つの利点は、第1の層の目的が概して分類を実行することであるので、NN(1430)の層の数が低減され得ることである。しかしながら、先験的な明示的な分類器の使用は、最適な分類を学習するためのトレーニングの能力を低減し得る。
複数のNNを有するループ内フィルタアーキテクチャ
この実施形態では、図15に示すように、いくつかのNNフィルタ(1530、1540)が使用される。エンコーダにおいて、k個のフィルタ(kは図15では2に設定される)が適用されて、
Figure 2023528780000025
を生成する。各ブロック
Figure 2023528780000026
について、Sと共に
Figure 2023528780000027
の歪みを最小化するものとして、又はレート歪みトレードオフ(オフセット及びフィルタインデックスi、1550、1560の歪み及び符号化コスト)を最小化するものとして、使用すべき最良のフィルタが選択される(1570)。次いで、選択されたフィルタのフィルタインデックスb及び関連するオフセットが、(例えば、以前に再構成されたパラメータを使用して)予測を介して明示的に又は暗示的にビットストリーム内で符号化される。変形例では、フィルタリングモジュール(1530、1540)の各々(又はいくつか)は、k=2である図15に示されるような分類器(1510、1520)に先行される。
別の実施形態では、図16に示されるように、単一の分類器が使用され(1620)、それにより、
Figure 2023528780000028
の各サンプルは、C(i=1,...k)としてラベル付けされ、それぞれ
Figure 2023528780000029
としてフィルタリングされてもよい。Cとして分類された
Figure 2023528780000030
のサンプルは、
Figure 2023528780000031
と注記される。その場合、k個のオフセット、オフセット(i=1,...k)がビットストリームにおいてシグナリングされ得る。有利には、単一のRDOモジュール(1630)は、どのCNNフィルタが最終的に使用されるかを選択する。図16に示す例では、RDOモジュールは、最終的に、b={}(フィルタリングなし)、b={0}(カテゴリ0がフィルタリングされ、カテゴリ1がフィルタリングされない)、b={1}(カテゴリ1がフィルタリングされ、カテゴリ0がフィルタリングされない)、又はb={0,1}(両方のフィルタが使用される)を選択することができる。最後のケースでは、両方のオフセット値{オフセット,オフセット}がビットストリームにおいて符号化される。
k=2である図17に示される変形例では、全てのNNフィルタについて単一オフセットが計算される。
図18は、一実施形態による、複数のCNNを有するデコーダアーキテクチャ(1800)を示す。デコーダの入力は、ビットストリームを含む。ビデオデコーダモジュール(1810)は、NNベースのフィルタ(1870)で拡張又は置換されるループ内フィルタ(365)を除いて、デコーダ300に対応し得る。
フィルタ制御パラメータ「オフセット」及びフィルタインデックス「b」は、ブロックについてビットストリームから復号化される(1810)。フィルタインデックス「b」は、重みマスクWを生成するためにK個のCNN(1820、1830)のうちのどれが使用されるべきかを制御する(1840)。次いで、制御パラメータ「オフセット」が重みマスクと乗算される(1850)。次に、スケーリングされたオフセットは、初期再構成ブロック内の対応するサンプルに加算される(1860)。
図18では、CNNは事前分類なしで使用される。他の実施形態では、例えば、図15~図16において、エンコーダに対して図示されるような事前分類モジュールを適用することができる。
図18では、ブロックのために使用されるべきCNN及び制御パラメータ「オフセット」の選択は、フィルタリングプロセスを現在のブロックの局所特性に合わせることを可能にする。しかしながら、2つ以上のCNNが両方とも良好な補正を提供し得ることが起こり得、その場合、これらの2つ以上のCNNの利益を何らかの方法で累積することが好ましい場合があるので、単一のCNNの選択が最適でない場合がある。これは、CNNがトレーニングされた方法にも依存し得る。
以下では、最良のものを選択するのではなく、それらの出力を組み合わせることによってCNNのパワーを活用するためのいくつかの方法が説明される。一例では、例えば、異なる特性を有する異なるデータセットを用いて別々にトレーニングされ、及び/又は異なるパラメータ(例えば、異なるQP値、異なるピクチャサイズ若しくはサンプル解像度)を用いて符号化され得る、いくつかの(N個の)NNがあると仮定する。通常のビットストリームからの再構成されたサンプルから構成されるデータセットを使用し、復号化されたSAOタイプを用いてCTUを分類することもできる。
NNの相互結合
ニューラルネットワークアンサンブルは、問題を解決するために複数のニューラルネットワークが一緒に使用される学習パラダイムである。この実施形態では、いくつかのNN出力の重み付けされた線形結合を介して、この一般原理をNNベースのフィルタに適用する。
図19は、一実施形態による、補正のために複数のNNを使用する復号化プロセス(1900)を示す。デコーダは、N個の利用可能なNNの中からK個のフィルタを選択すること(1940)を可能にするK個のフィルタインデックス{i,...ik-1}と、K個のオフセット{オフセット,...オフセットk-1}とを復号化する。この例では、NN(1920、1930)に対応するK=2である。K個のNNへの入力は、再構成されたブロック
Figure 2023528780000032
及び場合によっては、QP、コーディングモード、又は他の成分のサンプルなどの追加の情報である。K個のNNの出力は、重みマスク{Wi=0,...,K-1である。次に、K個の重みマスク及びK個のオフセットは、重みマスク及びオフセットの重み付けされた線形結合を使用して結合されて(相互結合)(1950)、再構成されたサンプル
Figure 2023528780000033
に適用される(1960)加法補正Corr(x)を導出し、ここで、「x」は、以下のように、ブロック内の位置「x」におけるサンプルを示す。
Figure 2023528780000034
図20は、一実施形態による、補正のために複数のNNを使用する符号化プロセス(2000)を示す。エンコーダは、N個の利用可能なNNの中からK個のNNを選択する。この例では、K=2である。より一般的には、このプロセスは、フィルタにおいて使用される2つ以上のNN(2020、2025)があるときに適用することができる。K個のNNへの入力は、再構成されたブロック、及び場合によっては、QP、コーディングモード、他の成分の再構成された残差又は再構成されたサンプルなどの追加の情報である(2015)。Kの値は、例えば、ルーマ及びクロマが同じフィルタを共有しない場合、ルーマ又はクロマNNベースのフィルタについて異なり得ることに留意されたい。
所与の再構成されたブロック
Figure 2023528780000035
(2010、例えば、CTU又はCU)について、W及びオフセットを、それぞれk番目のCNN及び関連するスケーリングパラメータを用いて取得された対応する出力を示すものとする。元のブロックS(2030)及び重みマスクWに基づいて、スケーリングパラメータオフセット及びオフセットを導出することができる(2040)。スケーリングパラメータは、ビットストリームにおいて領域ごとに又はブロック(CTU若しくはCU)ごとにコーディングされ得る。K個のCNNの相互結合は、NN出力の重み付けされた線形結合(2050)を通して、再構成されたサンプル
Figure 2023528780000036
に適用されるべき加法補正Corr(x)を構築することを可能にし、ここで、線形結合における重みはスケーリングパラメータオフセットである。線形結合を図21の例に示す。数学的には、線形結合は次のように表すことができる。
Figure 2023528780000037
補正項を初期再構成ブロックに加算することにより、最終再構成ブロックが生成される(2060)。
一実施形態では、スケーリング値(オフセット)の導出は、以下のように平均二乗誤差(mean squared error、MSE)の最小二乗最小化(least square minimization、LSM)を使用してエンコーダ側で行うことができる。
Figure 2023528780000038
2つのCNN、K=0又は1を使用する特定の場合では、LSM法は、オフセット及びオフセットの値を以下のように導出することを可能にする。
Figure 2023528780000039
ここで、
Figure 2023528780000040

Figure 2023528780000041

Figure 2023528780000042

及びΣは、現在のブロックの全てのサンプル「x」に対する和を示す。
以下では、一例としてK=2を使用するが、K>2の値に容易に拡張することができる。図22は、一実施形態による、補正のために複数のNNを使用する復号化プロセス(2200)を示す。方法2000と同様に、初期再構成サンプル
Figure 2023528780000043
をフィルタリングするために複数のNNが使用される。エンコーダ側において、方法2000は、ステップ2040においてオフセット及びオフセットを導出する。デコーダ側において、方法2200は、ビットストリームからオフセット及びオフセットを復号化する。
図23は、現在の再構成ブロックが与えられた場合に、K=2に対して結合されるべきK個のNNを選択するための方法(2300)を示す。最初に、bestCostは大きい値に設定される。各可能な対{k、k}について(2320)、k=kである場合、NN(k)が適用され(2310)、1つの単一オフセットが導出される(2345)。k≠kである場合、NN(k)も適用され(2310)、スケーリングパラメータ{オフセット、オフセット}が導出される(2340)。補正係数が計算され(2350、2355)、補正された再構成ブロックRec’
Figure 2023528780000044
が計算される(2360)。次に、元のブロックの歪み及び{k、k、オフセット、オフセット}のコーディングコストを考慮して、例えばラグランジュ乗数を用いて、符号化コストが推定される(2370)。現在の対{k、k}からのコストがbestCostより小さい場合(2380)、bestCostは現在のコストに設定され、{k、k、オフセット、オフセット、Rec’}が記憶される(2385)。全ての可能な対がテストされた後、bestCostに関連付けられたRec’が復元され、パラメータ{k、k、オフセット、オフセット}が符号化される(2390)。
構文の例
表2は、上記で説明した様々な実施形態に関係する構文要素をコーディングするための一例を提供する。特に、表2は、NNのインデックスと、NNの相互結合を用いて1つの再構成ブロックを補正するために使用されるスケーリングパラメータとをコーディングするための構文の一例を提供する。この例では、ピクチャ内の現在のブロック位置は(rx,ry)であり、ルーマ成分についてK=2であり、クロマ成分についてK=1である。
Figure 2023528780000045
これらの構文要素の意味は以下の通りである。
filter_luma_flag、filter_chroma_flagは、それぞれ、ルーマ又はクロマサンプルブロックが(NNフィルタを用いて)補正されるか否かを指定する。
idx_filter_off_val_luma[k]は、結合されるべきK個のNN出力を推論するために使用されるべきNNのK個のインデックス{ki=0,1を導出することを可能にする。例えば、k=idx_filter_off_val_luma[i]である。
一実施形態では、kの値は、ki+1≧kとなるように、コーディング前に(例えば、昇順に)順序付けられる。ki+1=kの場合を可能にすることにより、実際に使用されるNNフィルタの数(cpt_scale_off)がK個未満のNNフィルタであり、結果的にK個未満のスケーリングパラメータが符号化される場合に対処することが可能になる。変数cpt_scale_offは、非0スケーリングパラメータオフセットの数に対応する。
一例では、識別子は、いくつのNNが結合されるかを示す。例えば、K=2の場合、k=kの場合は、1つの単一のNNのみが使用され(相互結合なし)、かつ1つのスケーリングパラメータのみがコーディングされる場合を管理することを可能にする。
変形例では、K個のインデックス{ki=0,1は以下のように導出される。
Figure 2023528780000046
ここで、「pred_idx_filter[i]」は値kの予測子である。例えば、予測子は、前のインデックスpred_idx_filter[i]=ki-1、又は前に復号化されたNNフィルタインデックスであり得る。
別の変形例では、N個の可能なインデックスは、各ブロックについてNNパラメータ(nn_filter())をコーディングする前に更新されるテーブルに順序付けられる。更新は、最も可能性の高いインデックス(例えば、前にコーディングされた左ブロック及び上ブロックによって使用されたインデックス)をリストの上部に移動することによって行われる。このようにして、古いコーディングされたインデックスはゆっくりとリストの下部に行くが、最近使用されたインデックスはリストの上部にある。コーディングされた値(idx_filter_off_val_luma[i])は、予測なしの(pred_idx_filter[i]=0)、このリスト内のフィルタに対応するインデックス(フィルタインデックス自体ではない)を表す。
scale_off_diff_abs[i]は、スケーリングパラメータ値オフセットを以下のように導出することを可能にする。
Figure 2023528780000047
ここで、
Figure 2023528780000048
変数「pred_scale_off[i]」は、offの予測子である。例えば、
Figure 2023528780000049
変形例では、「pred_scale_off[i]」は、offの最後に復号化された値に等しい。
idx_filter_off_val_chromaは、結合されるべきK個のNN出力を推論するために使用されるべきNNのインデックスkを導出することを可能にする。例えば、k=idx_filter_off_val_chromaである。実際、表2の例では、クロマ成分cIdx=1及びcIdx=2のフィルタインデックスは同一である。
表3aは、NN出力を結合しないNNベースのフィルタと比較して、ルーマNNフィルタに対して提案されたNNの相互結合方法を使用した結果を示す。NN出力の提案された結合により、結合のない方法の0.57%のビットレート低減と比較して、約0.89%のビットレート低減が得られる。表3bは、NNの別のセットとのNNの提案された相互結合で得られた結果を示す。表3a及び表3b(左)の結果は、ReLU活性化関数でトレーニングされたNNを用いて得られたものである。表3b(右)の結果は、リーキーReLU活性化関数でトレーニングされたNNを用いて得られたものである。この例では、ReLU活性化関数による1.60%のビットレート低減と比較して、リーキーReLU活性化関数を使用して約2.45%のビットレート低減が得られる。
Figure 2023528780000050
Figure 2023528780000051
NNの空間結合
別の実施形態では、いくつかの(K個の)領域へのブロックの空間セグメント化を使用して現在の再構成ブロックを補正するためにいくつかのNNが結合され、ここで、異なるNNは、異なるブロック分割に使用され得る。図24は、異なるパターンが異なるNNフィルタに関連付けられる、K=2及びK=4でのそのような空間分割のいくつかの例を示す。これらの例では、ブロックの分割/領域ごとに1つのスケーリングパラメータ(オフセット)がコーディングされる。
変形例では、ブロック内のいくつかの分割は、図24(f)に示されるように、同じNNを使用するが、場合によっては異なるスケーリングパラメータ値を使用する。復号化段階において、これは、1つの単一のNNを推論するが、スケーリングを各分割に合わせるという利点を有する。
表4は、この実施形態に関連する構文要素の一例を提供する。特に、表4は、NNのインデックスと、分割形状(dir_split)と、NNの相互結合を用いて1つの再構成ブロックを補正するために使用されるスケーリングパラメータとをコーディングするための構文の一例を提供する。この例では、ピクチャ内の現在のブロック位置は(rx、ry)であり、クロマ成分についてはK=1である。ルーマ成分については、実際に使用されるNNの数(cpt_scale_off)は、図25に示されているように分割形状に依存する。構文要素の意味は、表2の場合と同じである。インデックス又はスケーリングパラメータ予測子は、前に復号化された分割の値であり得る。
Figure 2023528780000052
表5は、NN出力を結合しないNNベースのフィルタと比較して、提案されたNNの空間結合方法を使用した結果を示す。
Figure 2023528780000053
一実施形態では、いくつのNNが結合され得るか(K)をビットストリーム(例えば、スライスヘッダ又はピクチャヘッダ)中でシグナリングし得る。加えて、M>Nである、M個のNNのより大きいセットの中から、N個のNNのセットをシグナリングし得る。変形例では、N個のNNは、量子化パラメータ(QP)、ピクチャサイズ、又はビデオの性質(例えば、スポーツ、ゲーム、映画)など、ビットストリーム中の他のパラメータから推論され得る。例えば、M個のNNが、M個の異なるQP値{qp,...,qpM-1}で符号化されたビデオシーケンスでトレーニングされている場合、デコーダは、現在のQPからN個のNNを推論し得る。例えば、サブセットは、現在のQP値を下回るいくつかの(例えば、2つの)QP値と、現在のQP値を上回るいくつかの(例えば、2つの)QP値とを用いてトレーニングされているNNから作成され得る。
先の実施形態は、他の補正モデル(Corr(x)の式)及び補正を適用するための他のモデル(Rec’(x)の式)に拡張することができる。例えば、補正は以下のモデルに基づくことができる。
補正のモデル:
-線形補正モデル。パラメータは{オフセット,バイアス}である
Figure 2023528780000054
補正を適用するためのモデル:
-加法補正モデル:
Figure 2023528780000055
-乗法補正モデル:
Figure 2023528780000056
-線形補正モデル(バイアスは1つのスケーリングパラメータである):
Figure 2023528780000057
前述したように、スケーリングパラメータ{オフセット,バイアス}の導出は、例えば、0に等しい変数{オフセット,バイアス}に対する(式3)の偏微分によって得られるK+1個の方程式の系を含むLSM法を使用してエンコーダによって行うことができる。
Figure 2023528780000058
領域ベースのNNフィルタ(例えば、デブロッキングフィルタ)
NNフィルタが、既知の位置のいくつかの空間的に位置するアーチファクトを補正することに特化された領域ベースのフィルタ(例えば、デブロッキングフィルタ)である場合、補正は、これらの既知の位置(例えば、再構成されたCUエッジ)に限定され得る。この場合、NNフィルタ推論は、空間的に知られているアーチファクト位置(例えば、水平又は垂直CUエッジ)の方向における、図26に示されているような一方向走査畳み込みであり得る。
トレーニング
NNのトレーニング(NNパラメータの設定)は、NN出力と所望の出力との間の差などの損失関数を最小化しようとして、NNの出力が所望の出力(元の信号)と一致する教師あり学習に基づく従来の方法で行うことができる。例えば、ネットワークの重みに対する損失関数の勾配の計算が、勾配降下法又は確率的勾配降下法など、NNの重み及びバイアスを反復的に調整することを可能にする逆伝搬法を使用することができる。
一実施形態では、NNパラメータのトレーニングは、勾配降下アルゴリズムを用いて損失を最小化することによって実行される。損失は、「オフセット」又は「オフセット及びb」のコーディングコストでの歪み
Figure 2023528780000059
又はレート歪み尺度であり得る。
トレーニング段階では、データセットは、ブロックパッチであり得る対のセット
Figure 2023528780000060
を含む。符号化されたビデオビットストリームから再構成されたブロックを抽出することによって
Figure 2023528780000061
値を生成することができる。
分類は、図27に示されるように、コーディングモードを用いて、ある範囲のQPでコーディングされたブロック、あるいはIピクチャのみ、又はP若しくはBピクチャのみから選択されたブロックから作成されたデータセットを用いて行われ得る。すなわち、異なるコーディングモード特徴を有するデータセットに基づいていくつかのNNをトレーニングすることができる。また、トレーニングは、少なくとも2つのパスで行われてもよい。第1のパスでは、NNのセット(NN-1)は、復号化されたビットストリームB1(2710、2720)のイントラピクチャから抽出された(2730)パッチを用いてトレーニングされ(2740)、次いで、ビデオシーケンスのセットは、ビットストリームB2を生成するためにイントラピクチャのみの上で有効にされたこれらのNN-1フィルタを用いて符号化される(2750)。第2のパスでは、復号化されたビットストリームB2(2760)のインターピクチャからパッチを抽出して(2770)、インターピクチャのフィルタリング専用のNNの別のセット(NN-2)をトレーニングする(2780)ことができる。
NNフィルタの目的が、ビットストリームにおいて使用される既存のフィルタ(例えば、SAO、ALF...)を置き換えることである場合、分類がビットストリーム中に存在する
Figure 2023528780000062
値を選択することができる。例えば、SAOを考慮して、
Figure 2023528780000063
がSAOパラメータEO_90で符号化された場合、それは、「EO_90」に関連付けられたNNフィルタに関連付けられることになる。
しかしながら、ビットストリームにおける分類は、レート歪み及び他のコンテキスト上の考慮事項に基づき得るエンコーダの選択によってバイアスされ得る。例えば、コーディングコスト(レート)は、CABACエンコーダの履歴に依存するCABACコンテキストに依存する。トレーニングのためには、レートコストを考慮するのではなく、歪みのみを考慮することが好ましい場合がある。(マージ及びOFFのモードを破棄する)モードNEWのみでコーディングされたCTUを
Figure 2023528780000064
のために選択することによってこの制限を克服することができるが、符号化バイアスは依然として存在する。
好ましくは、ビットストリーム内のSAOパラメータを使用せずに、
Figure 2023528780000065
が与えられた場合に最良のSAOモードを再決定し、歪みのみを使用することを考慮することができる。
複数のNNを有する方式の場合、微調整は、以下のように反復的に実行することができる。
1) 段階1:メインデータセットMDをk個のデータセットD(b=1,...,k)に分割する。
2) k個のNNフィルタを別々にトレーニングする。
3) 段階2:k個のデータセットD(b=1,...,k)を次のように再生成する:MD内の各データ「I」について、損失を最小化するNNフィルタ「t」を選択し、Dに「i」を付加する。次に、k個のフィルタをD(b=1,...,k)で再トレーニングする。
4) 3)を繰り返す。
しかしながら、1つのデータセット「x」内のデータの数が非常に少なくなることが起こり得る。この問題を回避するために、各データセット内のデータの最小数Nを決定し、以下のように進めることができる。
1) 段階1:メインデータセットMDをk個のデータセットD(b=1,...,k)に分割する。
2) k個のNNフィルタを別々にトレーニングする。
3) 段階2:
○ MD内の各データ「i」について:
● 「i」のデータセット候補のリストをC(i)={0,...(k-1)}に初期化する
● 各フィルタbで得られた損失Lb(i)を計算する。
● 「i」は「配置されていない」とマークされる
○ MD内の各データ「i」について:
○ (データ「i」が1つのデータセット内に配置されていないとマークされる)間は、
● t=argmin{L(i)} (k=tは、k∈C(i)でL(i)を最小化するフィルタである)
● カード{Dt<N}の場合、Dtにデータ「i」を付加する
● そうではなく、Dt内の1つのデータ「d」が損失Lt(d)>Lt(i)を有する場合、Dt内で「d」を「i」に置き換え、「d」は「配置されていない」になり(そのようにマークされ)、「i」は「配置されている」とマークされる
● そうでない場合、リストC(i)から「t」を削除する
4) k個のフィルタをD(b=1,...,k)で再トレーニングする。
5) 3)を繰り返す。
上記において、NNフィルタリングプロセスは、現在のビデオ規格が通常ブロックベースであるので、ブロックごとに実行される。しかしながら、本実施形態は、長方形又は正方形とは異なる形状を有する領域に適用され得る。なぜなら、NNは、他の形状に対してトレーニング及び実装され得るか、又は完全畳み込みネットワークであり得、したがって、領域形状又はサイズとは無関係だからである。
HEVC及びVVCにおけるSAO又はALFのようなレガシーフィルタは、「最適な」補正が計算される閉ループ手法を使用するが、フィルタへのピクセルの分類は通常、非常に単純である。一方、以前のCNNベースの手法は、洗練された分類を使用するが、補正が必ずしも有益でない開ループ補正を使用する。本実施形態によれば、深層ニューラルネットワーク(NN)は、SAOフィルタを置換又は補完するために、ビデオコーデックによる再構成後の画像を復元するために提供される。特に、提案されたフィルタは、適用すべき最適な補正をエンコーダにおいて計算することによって補正「閉ループ」を維持しながら、補正すべきピクセルの分類のためにCNNのパワーを活用する。バイナリ分類を一般化するために、CNNは、特定のピクセルに設定する補正の量を計算することもできる。それは、フィルタ動作を制御するためのパラメータを符号化する利点を活用する一方で、ビットストリームにおいて符号化されるべきデータの所要量がわずかになる。
図12及び図13に示されるような提案されたフィルタでは、ブロックに対して単一オフセットのみが送信されるか、又は図14に示されるように、ブロックに対して1つ以上のオフセットが送信される。すなわち、オフセットをシグナリングするために非常に少量のデータが符号化されることになる。しかしながら、NNはピクセル単位の重みマスクを生成することができる(マスク内の値はピクセルごとに異なり得る)ので、ブロック内のピクセルを調整するために適用されるべき実際のオフセット(重み*オフセット)はピクセルごとに異なり得、したがって、より低いシグナリングコストでHEVC及びVVCにおけるSAOフィルタよりも細かい粒度を達成する。NNはまた、サブブロックベースで重みを生成し得る(サブブロック内では同じ重みであるが、重みは、ブロック内のサブブロックごとに異なり得る)。
また、提案されたNNフィルタは、ピクチャ内のいくつかの特定の位置においてのみ適用され得る。例えば、それは、主にブロック境界付近で、及び/又は変換境界のみ若しくは予測ユニットのみにおいて発生するブロッキングアーチファクトを特に補正するために使用されてもよい。
更に、本方法は、NNベースのフィルタに限定されず、画質を改善し、コーディングアーチファクトを低減するために補正項が再構成されたピクチャに加算される任意の他のフィルタ又は従来のフィルタに適用することができる。上記の例ではループ内フィルタリングについて説明したが、提案されたフィルタリング方法は、コーディングループ外で、例えば、デコーダの外部で適用される後処理ステップとして実行することもできる。
様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための1つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び/又はアクションの順序及び/又は使用は、修正又は組み合わされ得る。加えて、「第1の(first)」、「第2の(second)」などの用語は、様々な実施形態において、要素、コンポーネント、ステップ、動作など、例えば、「第1の復号化(first decoding)」及び「第2の復号化(second decoding)」を修正するために使用され得る。かかる用語の使用は、具体的に必要とされない限り、修正された動作に対する順序付けを意味するものではない。そのため、この実施例では、第1の復号化は、第2の復号化の前に実行される必要はなく、例えば、第2の復号化の前、第2の復号化の間、又は第2の復号化と重複する時間中に発生し得る。
本出願に記載されている様々な方法及び他の態様を使用して、図2及び図3に示されたようなビデオエンコーダ200及びビデオデコーダ300のモジュール、例えば、動き改良及び動き補償モジュール(270、272、372、375)を修正することができる。更に、本態様は、VVC又はHEVCに限定されず、例えば、他の規格及び勧告、並びに任意のそのような規格及び勧告の拡張に適用することができる。別段の指標がない限り、又は技術的に除外されない限り、本出願に説明される態様は、個別で又は組み合わせて使用され得る。
本出願において、様々な数値が使用されている。具体的な値は、例示を目的としており、説明されている態様は、これらの具体的な値に限定されるものではない。
様々な実装形態は、復号化することを含む。本出願で使用される場合、「復号化」は、例えば、ディスプレイに好適な最終出力を生成するために受信された符号化シーケンス上で実行されるプロセスの全て又は一部分を包含し得る。様々な実施形態において、このようなプロセスは、例えば、エントロピ復号化、逆量子化、逆変換、及び差動復号化など、デコーダによって典型的に実行されるプロセスのうちの1つ以上を含む。「復号化プロセス」という句が、操作のサブセットを具体的に指すことを意図しているか、又はより広範な復号化プロセスを一般的に指すことを意図しているかは、特定の説明の文脈に基づいて明らかになり、当業者にはよく理解されると考えられる。
様々な実装形態は、符号化することを含む。「復号化(decoding)」に関する上記の考察と同様に、本出願で使用される「符号化(encoding)」は、例えば、符号化されたビットストリームを生成するために入力ビデオシーケンスに対して実行されるプロセスの全て又は一部分を包含し得る。
本明細書に記載の実装形態及び態様は、例えば、方法又はプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装され得る。たとえ単一の形式の実装形態の文脈でのみ考察されている場合でも(例えば、方法としてのみ考察されている)、考察された特徴の実装形態は、他の形式(例えば、装置又はプログラム)でも実装され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。本方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサなどの装置において実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型/パーソナルデジタルアシスタント(personal digital assistant、「PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
「一実施形態」又は「実施形態」又は「一実装形態」又は「実装形態」、及びそれらの他の変形形態の言及は、実施形態に関連して説明される特定の特徴、構造、特性などが、少なくとも一実施形態に含まれることを意味する。したがって、本明細書の様々な場所に現れる「一実施形態では」又は「実施形態では」又は「一実装形態では」又は「実装形態では」という語句の出現、並びに任意の他の変形例は、必ずしも全てが同じ実施形態を指すものではない。
加えて、本出願は、様々な情報を「判定する」ことに言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの1つ以上が含み得る。
更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることには、例えば、情報を受信すること、情報を(例えば、メモリから)取り出すこと、情報を記憶すること、情報を移動させること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの1つ以上が含まれ得る。
加えて、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は情報を(例えば、メモリから)取り出すことのうちの1つ以上を含み得る。更に、「受信すること」は、典型的には、動作、例えば、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することの間時に、何らかの形で関与する。
例えば、「A/B」、「A及び/又はB(A and/or B)」及び「A及びBのうちの少なくとも1つ(at least one of A and B)」の場合、次の「/」、「及び/又は(and/or)」、及び「のうちの少なくとも1つ(at least one of)」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「A、B、及び/又はC(A,B,and/or C)」及び「A、B、及びCのうちの少なくとも1つ(at least one of A,B,and C)」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は第3のリストされた選択肢(C)のみの選択、又は第1及び第2のリストされた選択肢(A及びB)のみの選択、又は第1及び第3のリストされた選択肢(A及びC)のみの選択、又は第2及び第3のリストされた選択肢のみの選択(B及びC)のみ、又は3つ全ての選択肢の選択(A及びB及びC)を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。
また、本明細書で使用されるとき、「シグナリングする」という語は、特に、対応するデコーダに対して何かを示すことを意味する。例えば、特定の実施形態では、エンコーダは、脱量子化のための量子化行列をシグナリングする。このように、実施形態では、同じパラメータが、エンコーダ側及びデコーダ側の両方で使用される。したがって、例えば、エンコーダは、デコーダが同じ特定のパラメータを使用することができるように、特定のパラメータをデコーダに送信する(明示的なシグナリング)ことができる。逆に、デコーダが既にその特定のパラメータ及び他のパラメータを有する場合は、単にデコーダがその特定のパラメータを認識及び選択することを可能にするように、送信を行わないシグナリング(暗黙的なシグナリング)を使用することができる。いかなる実際の機能の送信も回避することにより、様々な実施形態において、ビットの節約が実現される。シグナリングは、様々な方式で達成され得ることを理解されたい。例えば、1つ以上の構文要素、フラグなどが、様々な実施形態において、対応するデコーダに情報をシグナリングするために使用される。上記は、「信号(signal)」という語の動詞形に関するものであるが、「信号」という語は、本明細書では名詞としても使用され得る。
当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を搬送するようにフォーマットされた様々な信号を生成し得る。情報は、例えば、方法を実行するための命令又は記載された実装形態のうちの1つによって生成されたデータを含み得る。例えば、信号は、説明された実施形態のビットストリームを搬送するようにフォーマットされ得る。かかる信号は、例えば、(例えば、スペクトルの無線周波数部分を使用して)電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。

Claims (38)

  1. 方法であって、
    ピクチャの領域の再構成されたサンプルのバージョンにアクセスすることと、
    ニューラルネットワークを使用して、前記領域の前記再構成されたサンプルのバージョンに基づいて前記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成することと、
    前記領域について前記ニューラルネットワークに対応する単一オフセットパラメータを符号化又は復号化することと、
    前記領域内の前記複数のサンプルを調整することによって前記領域をフィルタリングすることであって、前記領域内のサンプルが、前記サンプルについての重み及び前記領域についての前記オフセットに応答して調整される、フィルタリングすることと、を含む、方法。
  2. 重みが、前記領域内の各サンプルについて生成される、請求項1に記載の方法。
  3. 前記領域の前記再構成されたサンプルのバージョンが、前記領域の予測及び前記領域の予測残差に基づく、請求項1又は2に記載の方法。
  4. 前記単一オフセットが、符号化される前に量子化される、請求項1~3のいずれか一項に記載の方法。
  5. 前記領域について符号化されるべきサンプルと前記領域について前記再構成されたサンプルのバージョンとの重み付け平均差に応答して前記オフセットを取得すること、
    を更に含む、請求項1~4のいずれか一項に記載の方法。
  6. 前記領域を前記フィルタリングすることが、
    前記サンプルについての前記重みによって前記領域についての前記オフセットをスケーリングすることであって、前記スケーリングされたオフセットが、前記サンプルを調整するために前記サンプルに加算される、スケーリングすることを含む、請求項1~5のいずれか一項に記載の方法。
  7. 前記重みが、前記領域の量子化パラメータ、前記ピクチャのピクチャタイプ、前記領域の分類のうちの少なくとも1つに更に応答して生成される、請求項1~6のいずれか一項に記載の方法。
  8. 複数のニューラルネットワークが使用される、請求項1~7のいずれか一項に記載の方法。
  9. 前記領域をフィルタリングするために前記複数のニューラルネットワークのネットワークを選択することを更に含む、請求項8に記載の方法。
  10. 前記複数のニューラルネットワークのうちの各ネットワークが、前記領域の分類に対応する、請求項8又は9に記載の方法。
  11. 前記複数のニューラルネットワークが、1つの単一オフセットパラメータを共有する、請求項8~10のいずれか一項に記載の方法。
  12. 別個のオフセットパラメータが、前記複数のニューラルネットワークのうちの各ネットワークに関連付けられる、請求項8~10のいずれか一項に記載の方法。
  13. 別のニューラルネットワークを使用して、前記領域の前記再構成されたサンプルのバージョンに基づいて前記領域内の前記複数のサンプルのうちの前記それぞれのサンプルについて別の重みを生成することと、
    前記領域について前記別のニューラルネットワークに対応する別の単一オフセットパラメータを符号化又は復号化することと、を更に含み、
    前記領域内の前記サンプルが、前記サンプルについての前記別の重み及び前記領域についての前記別のオフセットに更に応答して調整される、
    請求項1~12のいずれか一項に記載の方法。
  14. 重み付けされた和が、前記サンプルをフィルタリングするために前記領域内の前記サンプルに加算され、前記オフセットが、前記サンプルについての前記重みによって重み付けされ、前記別のオフセットが、前記別の重みによって重み付けされて、前記重み付けされた和を形成する、請求項13に記載の方法。
  15. 前記ニューラルネットワーク及び前記別のニューラルネットワークが、複数のニューラルネットワークから選択される、請求項13又は14に記載の方法。
  16. 前記ニューラルネットワークを示すインデックス及び前記別のニューラルネットワークを示す別のインデックスが、ビットストリーム中でシグナリングされる、請求項15に記載の方法。
  17. 前記オフセットが、前記別のオフセットとは異なり、前記ニューラルネットワークが、前記別のニューラルネットワークと同じである、請求項13~15のいずれか一項に記載の方法。
  18. 前記領域が、コーディングツリーブロック、コーディングブロック、又はコーディングブロックの分割である、請求項1~17のいずれか一項に記載の方法。
  19. 装置であって、1つ以上のプロセッサを備え、前記1つ以上のプロセッサが、
    ピクチャの領域の再構成されたサンプルのバージョンにアクセスすることと、
    ニューラルネットワークを使用して、前記領域の前記再構成されたサンプルのバージョンに基づいて前記領域内の複数のサンプルのうちのそれぞれのサンプルについて重みを生成することと、
    前記領域について単一オフセットパラメータを符号化又は復号化することと、
    前記領域内の前記複数のサンプルを調整することによって前記領域をフィルタリングすることであって、前記領域内のサンプルが、前記サンプルについての重み及び前記領域についての前記オフセットに応答して調整される、フィルタリングすることと、を行うように構成されている、装置。
  20. 重みが、前記領域内の各サンプルについて生成される、請求項19に記載の装置。
  21. 前記領域の前記再構成されたサンプルのバージョンが、前記領域の予測及び前記領域の予測残差に基づく、請求項19又は20に記載の装置。
  22. 前記単一オフセットが、符号化される前に量子化される、請求項19~21のいずれか一項に記載の装置。
  23. 前記1つ以上のプロセッサが、
    前記領域について符号化されるべきサンプルと前記領域について前記再構成されたサンプルのバージョンとの重み付け平均差に応答して前記オフセットを取得するように更に構成されている、請求項19~22のいずれか一項に記載の装置。
  24. 前記1つ以上のプロセッサが、
    前記サンプルについての前記重みによって前記領域についての前記オフセットをスケーリングすることであって、前記スケーリングされたオフセットが、前記サンプルを調整するために前記サンプルに加算される、スケーリングすることによって、前記サンプルをフィルタリングするように構成されている、請求項19~23のいずれか一項に記載の装置。
  25. 前記重みが、前記領域の量子化パラメータ、前記ピクチャのピクチャタイプ、前記領域の分類のうちの少なくとも1つに更に応答して生成される、請求項19~24のいずれか一項に記載の装置。
  26. 複数のニューラルネットワークが使用される、請求項19~25のいずれか一項に記載の装置。
  27. 前記領域をフィルタリングするために前記複数のニューラルネットワークのネットワークを選択することを更に含む、請求項26に記載の装置。
  28. 前記複数のニューラルネットワークのうちの各ネットワークが、前記領域の分類に対応する、請求項26又は27に記載の装置。
  29. 前記複数のニューラルネットワークが、1つの単一オフセットパラメータを共有する、請求項26~28のいずれか一項に記載の装置。
  30. 別個のオフセットパラメータが、前記複数のニューラルネットワークのうちの各ネットワークに関連付けられる、請求項26~28のいずれか一項に記載の装置。
  31. 前記1つ以上のプロセッサが、
    別のニューラルネットワークを使用して、前記領域の前記再構成されたサンプルのバージョンに基づいて前記領域内の前記複数のサンプルのうちの前記それぞれのサンプルについて別の重みを生成することと、
    前記領域について前記別のニューラルネットワークに対応する別の単一オフセットパラメータを符号化又は復号化することと、を行うように更に構成されており、
    前記領域内の前記サンプルが、前記サンプルについての前記別の重み及び前記領域についての前記別のオフセットに更に応答して調整される、請求項19~30のいずれか一項に記載の装置。
  32. 重み付けされた和が、前記サンプルをフィルタリングするために前記領域内の前記サンプルに加算され、前記オフセットが、前記サンプルについての前記重みによって重み付けされ、前記別のオフセットが、前記別の重みによって重み付けされて、前記重み付けされた和を形成する、請求項31に記載の装置。
  33. 前記ニューラルネットワーク及び前記別のニューラルネットワークが、複数のニューラルネットワークから選択される、請求項31又は32に記載の装置。
  34. 前記ニューラルネットワークを示すインデックス及び前記別のニューラルネットワークを示す別のインデックスが、ビットストリーム中でシグナリングされる、請求項33に記載の装置。
  35. 前記オフセットが、前記別のオフセットとは異なり、前記ニューラルネットワークが、前記別のニューラルネットワークと同じである、請求項31~33のいずれか一項に記載の装置。
  36. 前記領域が、コーディングツリーブロック、コーディングブロック、又はコーディングブロックの分割である、請求項19~35のいずれか一項に記載の装置。
  37. 請求項1~18のいずれか一項に記載の方法を実行することによって形成される、ビットストリームを含む信号。
  38. 請求項1~18のいずれか一項に記載の方法に従って、ビデオを符号化又は復号化するための命令を記憶したコンピュータ可読記憶媒体。
JP2022572477A 2020-06-04 2021-05-24 ビデオコーディングにおけるニューラルネットワークベースのフィルタ Pending JP2023528780A (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EP20305591.8 2020-06-04
EP20305591 2020-06-04
EP20306417 2020-11-20
EP20306417.5 2020-11-20
EP20306628.7 2020-12-21
EP20306628 2020-12-21
EP21305444.8 2021-04-07
EP21305444 2021-04-07
PCT/EP2021/063771 WO2021244884A1 (en) 2020-06-04 2021-05-24 Neural network based filter in video coding

Publications (1)

Publication Number Publication Date
JP2023528780A true JP2023528780A (ja) 2023-07-06

Family

ID=76059905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022572477A Pending JP2023528780A (ja) 2020-06-04 2021-05-24 ビデオコーディングにおけるニューラルネットワークベースのフィルタ

Country Status (5)

Country Link
US (1) US20230188713A1 (ja)
EP (1) EP4162680A1 (ja)
JP (1) JP2023528780A (ja)
CN (1) CN115943629A (ja)
WO (1) WO2021244884A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220337824A1 (en) * 2021-04-07 2022-10-20 Beijing Dajia Internet Information Technology Co., Ltd. System and method for applying neural network based sample adaptive offset for video coding
CN116366841A (zh) * 2021-12-28 2023-06-30 维沃移动通信有限公司 环路滤波方法及终端
CN118525512A (zh) * 2022-01-04 2024-08-20 瑞典爱立信有限公司 用于图像编码和解码的滤波
WO2023156365A1 (en) * 2022-02-15 2023-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for coding a picture using a soft classification
WO2024019343A1 (ko) * 2022-07-20 2024-01-25 현대자동차주식회사 다양한 잡음 및 특성에 적응적인 비디오 인루프 필터
WO2024025280A1 (en) * 2022-07-27 2024-02-01 Samsung Electronics Co., Ltd. Method and system for content-based scaling for artificial intelligence based in-loop filters
WO2024164963A1 (en) * 2023-02-08 2024-08-15 Mediatek Inc. Method and apparatus for improving performance of neural network filter based video coding

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7591630B2 (en) * 2003-08-29 2009-09-22 Casepick Systems, Llc Materials-handling system using autonomous transfer and transport vehicles
KR102539009B1 (ko) * 2015-06-08 2023-05-31 브이아이디 스케일, 인크. 스크린 콘텐츠 코딩을 위한 인트라 블록 카피 모드
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding
KR101974261B1 (ko) * 2016-06-24 2019-04-30 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
EP3451293A1 (en) * 2017-08-28 2019-03-06 Thomson Licensing Method and apparatus for filtering with multi-branch deep learning
EP3685577A4 (en) * 2017-10-12 2021-07-28 MediaTek Inc. METHOD AND DEVICE OF A NEURAL NETWORK FOR VIDEO ENCODING
CN110401836B (zh) * 2018-04-25 2022-04-26 杭州海康威视数字技术股份有限公司 一种图像解码、编码方法、装置及其设备
KR102634068B1 (ko) * 2018-08-24 2024-02-05 지티이 코포레이션 시각 미디어 인코딩 및 디코딩을 위한 평면 예측 모드
US10311334B1 (en) * 2018-12-07 2019-06-04 Capital One Services, Llc Learning to process images depicting faces without leveraging sensitive attributes in deep learning models
WO2020257629A1 (en) * 2019-06-19 2020-12-24 Beijing Dajia Internet Information Technology Co., Ltd. Methods and apparatus for prediction refinement with optical flow
EP4022902A4 (en) * 2019-09-25 2022-11-23 Huawei Technologies Co., Ltd. TRIANGULAR FUSION MODE HARMONIZATION WITH WEIGHTED PREDICTION
CN113225565A (zh) * 2020-02-04 2021-08-06 苹果公司 多阶段块编码

Also Published As

Publication number Publication date
WO2021244884A1 (en) 2021-12-09
CN115943629A (zh) 2023-04-07
US20230188713A1 (en) 2023-06-15
EP4162680A1 (en) 2023-04-12

Similar Documents

Publication Publication Date Title
JP7425241B2 (ja) 双方向オプティカルフローに基づく映像符号化及び復号化
JP2023528780A (ja) ビデオコーディングにおけるニューラルネットワークベースのフィルタ
EP3861740B1 (en) Generalized bi-prediction and weighted prediction
EP3706046A1 (en) Method and device for picture encoding and decoding
CN112771874B (zh) 用于画面编码和解码的方法和设备
CN112913244A (zh) 使用用于重叠块运动补偿的块扩展的视频编码或解码
CN114631311A (zh) 将同质语法与编码工具一起使用的方法和装置
JP2023500503A (ja) 符号化及び復号化方法並びに装置
US20230156232A1 (en) Adaptive application of generalized sample offset
US20230156185A1 (en) Generalized sample offset
US11973964B2 (en) Video compression based on long range end-to-end deep learning
CN116888963A (zh) 广义样本偏移的自适应应用
US20240031611A1 (en) Deep prediction refinement
EP3675500A1 (en) Quantization parameter prediction in video encoding and decoding
JP2022541723A (ja) アフィン及びsbtmvp動きベクトル予測モードのためのhmvc
KR20210124241A (ko) 조명 보상을 이용한 픽처 인코딩 및 디코딩을 위한 방법 및 디바이스
CN114026857A (zh) 用于视频编码和解码的单索引量化矩阵设计
US12126799B2 (en) Method and device for picture encoding and decoding
US12034978B2 (en) Lower-complexity sample offset filter
US20240155148A1 (en) Motion flow coding for deep learning based yuv video compression
WO2024119821A1 (zh) 视频数据处理方法、装置、存储介质、设备和程序产品
EP3618443A1 (en) Illumination compensation in video coding
WO2024002879A1 (en) Reconstruction by blending prediction and residual
CN114270858A (zh) 用于视频编码和解码的量化矩阵预测
WO2020072397A1 (en) Block size based motion vector coding in affine mode

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230127

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230221

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230327

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20231121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240524