JP7471734B2 - メタ学習による滑らかな品質管理を用いた品質適応型のニューラル・ネットワーク・ベースのループフィルタ - Google Patents

メタ学習による滑らかな品質管理を用いた品質適応型のニューラル・ネットワーク・ベースのループフィルタ Download PDF

Info

Publication number
JP7471734B2
JP7471734B2 JP2022564638A JP2022564638A JP7471734B2 JP 7471734 B2 JP7471734 B2 JP 7471734B2 JP 2022564638 A JP2022564638 A JP 2022564638A JP 2022564638 A JP2022564638 A JP 2022564638A JP 7471734 B2 JP7471734 B2 JP 7471734B2
Authority
JP
Japan
Prior art keywords
neural network
adaptive
shared
parameter
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022564638A
Other languages
English (en)
Other versions
JP2023527655A (ja
Inventor
ウェイ・ジアン
ウェイ・ワン
シェン・リン
シャオジョン・シュ
シャン・リュウ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023527655A publication Critical patent/JP2023527655A/ja
Application granted granted Critical
Publication of JP7471734B2 publication Critical patent/JP7471734B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

関連出願の相互参照
本出願は、2021年4月19日に出願された米国仮特許出願第63/176,787号に基づき、それに対する優先権を主張するものであり、その開示は参照によりその全体が本明細書に組み込まれる。
H.264/高度なビデオコーディング(H.264/AVC)、高効率ビデオコーディング(HEVC)、および多用途ビデオコーディング(VVC)などのビデオコーディング規格は、同様の(再帰的な)ブロックベースのハイブリッド予測および/または変換フレームワークを共有する。そのような規格では、全体的な効率を最適化するために、イントラ/インター予測、整数変換、およびコンテキスト適応エントロピーコーディングのような個々のコーディングツールが、集中的に手作業で作成される。これらの個々のコーディングツールは、予測信号構築のために時空間画素近傍を活用して、後続の変換、量子化、およびエントロピーコーディングのための対応する残差を取得する。他方、ニューラルネットワークは、近傍画素の受容野からの時空間情報を解析し、本質的に、高度に非線形的で非局所的な時空間相関を探ることによって、異なるレベルの時空間刺激を抽出する。高度に非線形的で非局所的な時空間相関を用いた改善された圧縮品質を探る必要がある。
非可逆ビデオ圧縮の方法は、多くの場合、体感品質(QoE)を著しく低下させるアーチファクトを有する圧縮ビデオに悩まされる。許容される歪みの量は用途に左右されることが多いが、一般には、圧縮率が高いほど歪みが大きい。圧縮品質は、多くの要因によって影響されうる。例えば、量子化パラメータ(QP)は量子化ステップサイズを決定し、QP値が大きいほど、量子化ステップサイズが大きく、歪みが大きい。ユーザの異なる要求に対応するために、ビデオコーディング方法は、異なる圧縮品質でビデオを圧縮する能力を必要とする。
ディープ・ニューラル・ネットワーク(DNN)を含む以前の手法は、圧縮ビデオのビデオ品質を高めることにより有望な性能を示しているが、異なるQP設定に対応することは、ニューラル・ネットワーク・ベースの(NN)品質強化方法にとっての課題である。一例として、以前の手法では、各QP値が個別のタスクとして扱われ、1つのNNモデルインスタンスがQP値ごとに訓練され、展開される。実際には、異なる入力チャネルは異なるQP値を有し、例えば、クロマ成分とルマ成分とは異なるQP値を有する。そのような状況では、以前の手法は、組み合わせ数のNNモデルインスタンスを必要とする。より多くの異なるタイプの品質設定が追加されると、組み合わせNNモデルの数は法外に多く大きくなる。さらに品質係数(QF)の特定の設定について訓練されたモデルインスタンスは、一般に、他の設定ではうまく機能しない。ビデオシーケンス全体は通常、最良の増強効果を達成するために、いくつかのQFパラメータに対して同じ設定を有するが、異なるフレームは異なるQFパラメータを必要としうる。したがって、QFパラメータの任意の滑らかな設定を用いて柔軟な品質管理を提供する方法、システム、および装置が必要とされている。
実施形態によれば、メタ学習を使用したニューラル・ネットワーク・ベースのループフィルタリングに基づくビデオエンハンスメントのための方法が提供される。本方法は、少なくとも1つのプロセッサによって実行されてもよく、本方法は、再構成されたビデオデータを受信するステップと、再構成されたビデオデータと関連付けられた1つまたは複数の品質係数を受信するステップと、ニューラル・ネットワーク・ベースのループフィルタを使用して、1つまたは複数の品質係数および再構成されたビデオデータに基づいて、アーチファクトが減少した強化されたビデオデータを生成するステップであって、ニューラル・ネットワーク・ベースのループフィルタは、共有パラメータおよび適応パラメータを含むニューラル・ネットワーク・ベースのループ・フィルタ・パラメータを含む、ステップと、を含みうる。
実施形態によれば、メタ学習を使用したニューラル・ネットワーク・ベースのループフィルタリングに基づくビデオエンハンスメントのための装置が提供される。本装置は、プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み出し、プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサとを含みうる。プログラムコードは、少なくとも1つのプロセッサに再構成されたビデオデータを受信させるように構成された第1の受信コードと、少なくとも1つのプロセッサに、再構成されたビデオデータと関連付けられた1つまたは複数の品質係数を受信させるように構成された第2の受信コードと、少なくとも1つのプロセッサに、ニューラル・ネットワーク・ベースのループフィルタを使用して、1つまたは複数の品質係数および再構成されたビデオデータに基づいて、アーチファクトが減少した強化されたビデオデータを生成させるように構成された第1の生成コードであって、ニューラル・ネットワーク・ベースのループフィルタは、共有パラメータおよび適応パラメータを含むニューラル・ネットワーク・ベースのループ・フィルタ・パラメータを含む、第1の生成コードと、を含みうる。
実施形態によれば、命令を記憶した非一時的コンピュータ可読媒体が提供されうる。命令は、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、再構成されたビデオデータを受信させ、再構成されたビデオデータと関連付けられた1つまたは複数の品質係数を受信させ、ニューラル・ネットワーク・ベースのループフィルタを使用して、1つまたは複数の品質係数および再構成されたビデオデータに基づいて、アーチファクトが減少した強化されたビデオデータを生成させ、ニューラル・ネットワーク・ベースのループフィルタは、共有パラメータおよび適応パラメータを含むニューラル・ネットワーク・ベースのループ・フィルタ・パラメータを含む。
実施形態による、本明細書に記載される方法、装置、およびシステムが実施されうる環境の図である。 図1の1つまたは複数のデバイスの例示的なコンポーネントのブロック図である。 実施形態による、メタ学習を使用したビデオエンハンスメントのためのメタ・ニューラル・ネットワーク・ループ・フィルタ(メタNNLF)アーキテクチャのブロック図である。 実施形態による、メタ学習を使用したビデオエンハンスメントのためのメタNNLFアーキテクチャのブロック図である。 実施形態による、メタ学習を使用したビデオエンハンスメントのためのメタNNLFモデルの装置のブロック図である。 実施形態による、メタ学習を使用したビデオエンハンスメントのためのメタNNLFの訓練装置のブロック図である。 実施形態による、メタNNLPを使用したビデオエンハンスメントのためのプロセスを示すフローチャートである。 実施形態による、メタNNLPを使用したビデオエンハンスメントのためのプロセスを示すフローチャートである。
本開示の実施形態は、ノイズ、ぼけ、ブロック効果などといったアーチファクトの1つまたは複数のタイプを低減させるようにデコードされたビデオを処理するための品質適応型のニューラル・ネットワーク・ベースのループフィルタリング(QANNLF)のための方法、システム、および装置を説明する。実施形態では、現在のデコードされたビデオと、コーディング・ツリー・ユニット(CTU)パーティション、QP、デブロッキングフィルタ境界強度、CUイントラ予測モードなどといったデコードされたビデオのQFとに基づいて基礎となるニューラル・ネットワーク・ベースのループフィルタリング(NNLF)モデルの品質適応重みパラメータを適応的に計算するための、メタ・ニューラル・ネットワーク・ベースのループフィルタリング(メタNNLF)方法および/またはプロセスが説明される。本開示の実施形態によれば、1つのメタNNLFモデルインスタンスのみが、訓練プロセスにおける見られた設定と実際の適用における見られていない設定とを含む任意の滑らかなQF設定を用いて、デコードされたビデオに対して効果的なアーチファクト低減を達成しうる。
図1は、実施形態による、本明細書に記載される方法、装置、およびシステムが実施されうる環境100の図である。
図1に示されるように、環境100は、ユーザデバイス110と、プラットフォーム120と、ネットワーク130とを含みうる。環境100のデバイスは、有線接続、無線接続、または有線接続と無線接続との組み合わせを介して相互接続されうる。
ユーザデバイス110は、プラットフォーム120と関連付けられた情報を受信、生成、記憶、処理、および/または提供することが可能な1つまたは複数のデバイスを含みうる。例えば、ユーザデバイス110は、コンピューティングデバイス(例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど)、携帯電話(例えば、スマートフォン、無線電話など)、ウェアラブルデバイス(例えば、スマートグラスやスマートウォッチ)、または同様のデバイスを含みうる。いくつかの実装形態では、ユーザデバイス110は、プラットフォーム120から情報を受信し、かつ/またはプラットフォーム120に情報を送信しうる。
プラットフォーム120は、本明細書の他の箇所に記載されているような、1つまたは複数のデバイスを含みうる。いくつかの実装形態では、プラットフォーム120は、クラウドサーバまたはクラウドサーバ群を含みうる。いくつかの実装形態では、プラットフォーム120は、ソフトウェアコンポーネントがスワップインまたはスワップアウトされうるようにモジュール式に設計されうる。よって、プラットフォーム120は、異なる用途向けに、容易かつ/または迅速に再構成されうる。
いくつかの実装形態では、図示のように、プラットフォーム120は、クラウドコンピューティング環境122内でホストされうる。特に、本明細書に記載される実装形態はプラットフォーム120をクラウドコンピューティング環境122内でホストされるものとして説明するが、いくつかの実装形態では、プラットフォーム120は、クラウドベースでない場合もあり(すなわち、クラウドコンピューティング環境の外部に実装される場合もあり)、部分的にクラウドベースの場合もある。
クラウドコンピューティング環境122は、プラットフォーム120をホストする環境を含みうる。クラウドコンピューティング環境122は、プラットフォーム120をホストする(1つもしくは複数の)システムおよび/または(1つもしくは複数の)デバイスの物理的な位置および構成に関するエンドユーザ(例えば、ユーザデバイス110)の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供しうる。図示のように、クラウドコンピューティング環境122は、1群のコンピューティングリソース124(「コンピューティングリソース124」と総称され、個別には「コンピューティングリソース124」と呼ばれる)を含みうる。
コンピューティングリソース124は、1つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算デバイスおよび/もしくは通信デバイスを含みうる。いくつかの実装形態では、コンピューティングリソース124は、プラットフォーム120をホストしうる。クラウドリソースは、コンピューティングリソース124で実行される計算インスタンス、コンピューティングリソース124に設けられたストレージデバイス、コンピューティングリソース124によって提供されるデータ転送デバイスなどを含みうる。いくつかの実装形態では、コンピューティングリソース124は、有線接続、無線接続、または有線接続と無線接続との組み合わせを介して他のコンピューティングリソース124と通信しうる。
図1にさらに示されるように、コンピューティングリソース124は、1つまたは複数のアプリケーション(「APP」)124-1、1つまたは複数の仮想マシン(「VM」)124-2、仮想化ストレージ(「VS」)124-3、1つまたは複数のハイパーバイザ(「HYP」)124-4などといった、一群のクラウドリソースを含みうる。
アプリケーション124-1は、ユーザデバイス110および/もしくはプラットフォーム120に提供されうるか、またはユーザデバイス110および/もしくはプラットフォーム120によってアクセスされうる、1つまたは複数のソフトウェアアプリケーションを含みうる。アプリケーション124-1は、ユーザデバイス110上でソフトウェアアプリケーションをインストールし実行する必要を排除しうる。例えば、アプリケーション124-1は、プラットフォーム120と関連付けられたソフトウェア、および/またはクラウドコンピューティング環境122を介して提供されることが可能な任意の他のソフトウェアを含んでいてもよい。いくつかの実装形態では、1つのアプリケーション124-1が、仮想マシン124-2を介して、1つまたは複数の他のアプリケーション124-1に情報を送信してもよく、1つまたは複数の他のアプリケーション124-1から情報を受信してもよい。
仮想マシン124-2は、物理マシンのようにプログラムを実行するマシン(例えば、コンピュータ)のソフトウェア実装形態を含む。仮想マシン124-2は、仮想マシン124-2による任意の実マシンの使用および対応度に応じて、システム仮想マシンまたはプロセス仮想マシンのどちらかでありうる。システム仮想マシンは、完全なオペレーティングシステム(「OS」)の実行をサポートする完全なシステムプラットフォームを提供しうる。プロセス仮想マシンは単一のプログラムを実行してもよく、単一のプロセスをサポートしてもよい。いくつかの実装形態では、仮想マシン124-2は、ユーザ(例えば、ユーザデバイス110)の代わりに実行してもよく、データ管理、同期、または長時間のデータ転送などのクラウドコンピューティング環境122のインフラストラクチャを管理してもよい。
仮想化ストレージ124-3は、コンピューティングリソース124のストレージシステムまたはデバイス内で仮想化技術を使用する1つもしくは複数のストレージシステムおよび/または1つもしくは複数のデバイスを含みうる。いくつかの実装形態では、ストレージシステムのコンテキスト内で、仮想化のタイプは、ブロック仮想化およびファイル仮想化を含みうる。ブロック仮想化は、ストレージシステムが論理ストレージやヘテロジニアス構造に関係なくアクセスされうるような物理ストレージからの論理ストレージの抽象化(または分離)を指しうる。分離は、ストレージシステムの管理者に、管理者がエンドユーザのためにストレージを管理する方法における柔軟性を許容しうる。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に記憶される場所との依存関係を排除しうる。これにより、ストレージ使用の最適化、サーバ統合、および/またはスムーズなファイル移行の実行が可能になりうる。
ハイパーバイザ124-4は、複数のオペレーティングシステム(例えば、「ゲスト・オペレーティング・システム」)がコンピューティングリソース124などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技術を提供しうる。ハイパーバイザ124-4は、ゲスト・オペレーティング・システムに仮想オペレーティングプラットフォームを提示してもよく、ゲスト・オペレーティング・システムの実行を管理してもよい。様々なオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共有しうる。
ネットワーク130は、1つまたは複数の有線ネットワークおよび/または無線ネットワークを含みうる。例えば、ネットワーク130は、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワークなど)、公衆陸上移動網(PLMN)、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、メトロポリタン・エリア・ネットワーク(MAN)、電話網(例えば、公衆交換電話網(PSTN))、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および/または上記その他のタイプのネットワークの組み合わせを含みうる。
図1に示されるデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、図1に示されるデバイスおよび/もしくはネットワークに対して、追加のデバイスおよび/もしくはネットワーク、より少ないデバイスおよび/もしくはネットワーク、異なるデバイスおよび/もしくはネットワーク、または異なる配置のデバイスおよび/もしくはネットワークが存在していてもよい。さらに、図1に示される2つ以上のデバイスが、単一のデバイス内に実装されてもよく、または図1に示される単一のデバイスが、複数の分散型デバイスとして実装されてもよい。加えて、または代替として、環境100のデバイスセット(例えば、1つまたは複数のデバイス)が、環境100の他のデバイスセットによって実行されるものとして説明された1つまたは複数の機能を実行してもよい。
図2は、図1の1つまたは複数のデバイスの例示的なコンポーネントのブロック図である。
デバイス200は、ユーザデバイス110および/またはプラットフォーム120に対応しうる。図2に示されるように、デバイス200は、バス210と、プロセッサ220と、メモリ230と、ストレージコンポーネント240と、入力コンポーネント250と、出力コンポーネント260と、通信インターフェース270とを含みうる。
バス210は、デバイス200のコンポーネント間の通信を可能にするコンポーネントを含む。プロセッサ220は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせで実装されうる。プロセッサ220は、中央処理装置(CPU)、グラフィックス・プロセッシング・ユニット(GPU)、加速処理ユニット(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、または他のタイプの処理コンポーネントである。いくつかの実装形態では、プロセッサ220は、機能を実行するようにプログラムされることが可能な1つまたは複数のプロセッサを含みうる。メモリ230は、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、ならびに/またはプロセッサ220による使用のための情報および/もしくは命令を記憶する他のタイプの動的もしくは静的ストレージデバイス(例えば、フラッシュメモリ、磁気メモリ、および/もしくは光メモリ)を含みうる。
ストレージコンポーネント240は、デバイス200の動作および使用に関連する情報および/またはソフトウェアを記憶する。例えば、ストレージコンポーネント240は、ハードディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、および/もしくはソリッド・ステート・ディスク)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピーディスク、カートリッジ、磁気テープ、ならびに/または他のタイプの非一時的コンピュータ可読媒体を、対応するドライブと共に含んでいてもよい。
入力コンポーネント250は、デバイス200が、例えばユーザ入力を介して情報を受け取ることを可能にするコンポーネント(例えば、タッチ・スクリーン・ディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および/またはマイクロフォン)を含みうる。加えて、または代替として、入力コンポーネント250は、情報を感知するためのセンサ(例えば、全地球測位システム(GPS)コンポーネント、加速度計、ジャイロスコープ、および/またはアクチュエータ)を含んでいてもよい。出力コンポーネント260は、デバイス200からの出力情報を提供するコンポーネント(例えば、ディスプレイ、スピーカ、および/または1つもしくは複数の発光ダイオードオード(LED))を含みうる。
通信インターフェース270は、デバイス200が、有線接続、無線接続、または有線接続と無線接続との組み合わせなどを介して他のデバイスと通信することを可能にするトランシーバのようなコンポーネント(例えば、トランシーバおよび/または別個の送信機と受信機と)を含みうる。通信インターフェース270は、デバイス200が他のデバイスから情報を受信することおよび/または他のデバイスに情報を提供することを、可能にしうる。例えば、通信インターフェース270は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF)インターフェース、ユニバーサル・シリアル・バス(USB)インターフェース、Wi-Fiインターフェース、セルラー・ネットワーク・インターフェースなどを含んでいてもよい。
デバイス200は、本明細書に記載される1つまたは複数のプロセスを行いうる。デバイス200は、プロセッサ220がメモリ230および/またはストレージコンポーネント240などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令を実行したことに応答してこれらのプロセスを行いうる。コンピュータ可読媒体は、本明細書では非一時的メモリデバイスとして定義されうる。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間を、または複数の物理ストレージデバイスに散在するメモリ空間を含みうる。
ソフトウェア命令は、通信インターフェース270を介して他のコンピュータ可読媒体から、または他のデバイスからメモリ230および/またはストレージコンポーネント240に読み込まれてもよい。メモリ230および/またはストレージコンポーネント240に記憶されたソフトウェア命令は、実行されると、プロセッサ220に本明細書に記載される1つまたは複数のプロセスを行わせうる。加えて、または代替として、本明細書に記載される1つまたは複数のプロセスを行うために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路が使用されてもよい。よって、本明細書に記載される実装形態は、ハードウェア回路とソフトウェアのいかなる特定の組み合わせにも限定されない。
図2に示されるコンポーネントの数および配置は、一例として提供されている。実際には、デバイス200は、図2に示されるコンポーネントに対して、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、または異なる配置のコンポーネントを含んでいてもよい。加えて、または代替として、デバイス200のコンポーネントセット(例えば、1つまたは複数のコンポーネント)が、デバイス200の他のコンポーネントセットによって行われるものとして説明された1つまたは複数の機能を行ってもよい。
次に、メタ学習を使用したニューラル・ネットワーク・ベースのループフィルタリングに基づくビデオエンハンスメントのための方法および装置について詳細に説明する。
本開示は、圧縮ビデオのためのQFパラメータの任意の滑らかな設定を用いて柔軟な品質管理をサポートするためのQANNLF機構を提案する。実施形態によれば、メタ学習機構が、現在のデコードされたビデオとQFパラメータとに基づいて基礎となるNNLFモデルの品質適応重みパラメータを適応的に計算するために使用され、単一のメタNNLFモデルインスタンスが異なる任意の滑らかなQF設定を用いてデコードされたビデオを強化することを可能にしうる。
本開示の実施形態は、訓練プロセスにおける見られた設定と実際の適用における見られていない設定とを含む任意の滑らかなQF設定を用いて、デコードされたビデオに対して効果的なアーチファクト低減を達成するようにデコードされたビデオを強化することに関する。
一般に、ビデオ圧縮フレームワークは、以下のように説明されうる。各入力画像xtは、サイズ(h、w、c)のものでありえ、フレーム全体またはCTUなどの画像フレーム内のマイクロブロックでありえ、h、w、cは、それぞれ、高さ、幅、およびチャネル数である、複数の画像入力x1、...xTを含む入力ビデオが与えられるとする。各画像フレームは、カラー画像(c=3)、グレースケール画像(c=1)、rgb+深度画像(c=4)などでありうる。ビデオデータをエンコードするために、第1の動き推定ステップにおいて、(1つまたは複数の)入力画像は、空間ブロックに分割されえ、各ブロックはより小さいブロックに反復的に分割されえ、現在の入力xiと以前の再構成された入力のセット
Figure 0007471734000001
との間の動きベクトルのセットmtがブロックごとに計算される。下付き文字tは、現在のt番目のエンコーディング・サイクルを表し、画像入力のタイムスタンプと一致しない場合がある。加えて、
Figure 0007471734000002
は、
Figure 0007471734000003
における入力間の時間差が任意に変化しうるように、複数の以前のエンコーディング・サイクルからの再構成された入力を含みうる。次いで、第2の動き補償ステップにおいて、動きベクトルmtに基づいて以前の
Figure 0007471734000004
の対応する画素をコピーすることによって、予測入力
Figure 0007471734000005
が取得されうる。次いで、元の入力xtと予測入力
Figure 0007471734000006
との間の残差rtが取得されうる。次いで、残差rtが量子化されうる量子化ステップが行われうる。実施形態によれば、rtのDCT係数が量子化されるDCTなどの変換が、残差rtを量子化する前に行われる。量子化の結果は、量子化された
Figure 0007471734000007
でありうる。次いで、動きベクトルmtと量子化された
Figure 0007471734000008
の両方が、エントロピーコーディングを使用してビットストリームに符号化され、デコーダに送信される。デコーダ側では、量子化された
Figure 0007471734000009
は残差rtを取得するために逆量子化され、次いで残差rtは、再構成された入力
Figure 0007471734000010
を取得するために予測入力
Figure 0007471734000011
に加算して戻される。制限なく、逆量子化された係数を用いたIDCTのような逆変換などの任意の方法またはプロセスが逆量子化に使用されてもよい。加えて、制限なく、任意のビデオ圧縮法またはコーディング規格が使用されてもよい。
以前の手法では、デブロッキングフィルタ(DF)、サンプル適応オフセット(SAO)、適応ループフィルタ(ALF)、交差成分適応ループフィルタ(CCALF)などを含む1つまたは複数の強化モジュールが、再構成された
Figure 0007471734000012
を処理して再構成された入力
Figure 0007471734000013
の視覚的品質を高めるために選択されうる。
本開示の実施形態は、再構成された入力
Figure 0007471734000014
の視覚的品質をさらに改善することを対象とする。本開示の実施形態によれば、ビデオ・コーディング・システムの再構成された入力
Figure 0007471734000015
の視覚的品質を高めるためのQANNLF機構が提供されうる。その目標は、
Figure 0007471734000016
におけるノイズ、ぼけ、ブロック効果などのアーチファクトを低減して高品質
Figure 0007471734000017
をもたらすことである。より具体的には、複数の任意の滑らかなQF設定に対応しうるただ1つのモデルインスタンスで
Figure 0007471734000018
を計算するためにメタNNLF法が使用されうる。
本開示の実施形態によれば、提案のQANNLFおよびメタNNLFは、再構成された入力
Figure 0007471734000019
の視覚的品質を改善するために、前述の追加のコンポーネント(すなわち、DF、SAO、ALF、CCALFなど)のうちの1つまたは複数と組み合わせて使用されうる。一例として、再構成された入力
Figure 0007471734000020
は、最初にDFを通り、その後にメタNNLFを通り、さらにその後にSAOおよびALFを通ってもよい。これらのコンポーネントの順序は任意に変更されうる。一実施形態では、提案の方法は、再構成された入力
Figure 0007471734000021
の視覚的品質を高めて強化された
Figure 0007471734000022
を得るために、他のすべてのコンポーネントの代替として単独で使用されうる。
提案のメタNNLF機構の実施形態は、上述の追加のコンポーネント(例えば、DF、SAO、ALF、CCALFなど)のうちの1つまたは複数と組み合わせて、フレーム、タイル、スライス、CTUおよび/またはCUのレベルで動作しうる。言い換えれば、再構成された入力
Figure 0007471734000023
は、メタNNLFに供給されるときの1つのフレーム全体でありうるが、いくつかの実施形態では、再構成された入力
Figure 0007471734000024
はまた、メタNNLFに供給されるときのブロック、例えば、タイル、スライス、CTUまたはCUであってもよい。
図3Aおよび図3Bは、実施形態による、メタ学習を使用したビデオエンハンスメントのためのメタNNLFアーキテクチャ300AおよびメタNNLFアーキテクチャ300Bのブロック図である。
図3Aに示されるように、メタNNLFアーキテクチャ300Aは、共有NNLF NN305と、適応NNLF NN310とを含みうる。
図3Bに示されるように、メタNNLFアーキテクチャ300Bは、共有NNLF層325および共有NNLF層330と、適応NNLF層335および適応NNLF層340とを含みうる。
本開示では、基礎となるNNLFモデルのモデルパラメータは、共有NNLFパラメータ(SNNLFP)および適応NNLFパラメータ(ANNLFP)をそれぞれ表す2つの部分θs、θaに分離される。図3Aおよび図3Bは、NNLFネットワークアーキテクチャの2つの実施形態を示している。
図3Aでは、SNNLFP θsを有する共有NNLF NNとANNLFP θaを有する適応NNLF NNとは、分離された個別のNNモジュールであり、これら個別のモジュールは、ネットワーク前向き計算のために順次に互いに接続されている。ここで、図3Aは、これらの個別のNNモジュールを接続する順番を示している。他の順番がここで使用されてもよい。
図3Bでは、パラメータ分割はNN層内にある。θs(i)、θa(i)は、それぞれ、NNLFモデルのi番目の層のSNNLFP、ANNLFPを表すものとする。ネットワークは、それぞれ、SNNLFPとANNLFPとの対応する入力に基づいて推論出力を計算し、これらの出力は、(例えば、加算、連結、乗算などによって)結合され、次いで次の層に送られる。
図3Aの実施形態は、共有NNLF NN325内の層θs(i)が空であり、適応NNLF NN340内の層θa(i)が空でありうる、図3Bの1ケースとみられうる。したがって、他の実施形態では、図3Aおよび図3Bのネットワーク構造は組み合わされうる。
図4は、実施形態による、試験段階における、メタ学習を使用したビデオエンハンスメントのためのメタNNLFの装置400のブロック図である。
4は、メタNNLFの試験段階または推論段階の全体的なワークフローを示している。
サイズ(h、w、c、d)の再構成された入力
Figure 0007471734000025
はメタNNLFシステムの入力を表し、h、w、c、dは、それぞれ、高さ、幅、チャネル数、およびフレーム数であるものとする。よって、
Figure 0007471734000026
のd-1(d-1≧0)個の隣接フレームの数が、強化された
Figure 0007471734000027
を生成するのを助けるための入力
Figure 0007471734000028
として
Figure 0007471734000029
と共に使用されうる。これら複数の隣接フレームは、通常、前のフレームのセット
Figure 0007471734000030
を含み、l<tであり、各
Figure 0007471734000031
は、時間lにおけるデコードされたフレーム
Figure 0007471734000032
または強化されたフレーム
Figure 0007471734000033
でありうる。ΛtはQF設定を表し、各λlは、対応するQF情報を提供するために各
Figure 0007471734000034
と関連付けられ、λtは、現在のデコードされたフレーム
Figure 0007471734000035
のQF設定でありうるものとする。QF設定は、QP値、CUイントラ予測モード、CTUパーティション、デブロッキングフィルタ境界強度、CU動きベクトルなどといった様々なタイプの品質管理係数を含みうる。
θs(i)およびθa(i)は、それぞれ、メタNNLFモデル400のi番目の層のSNNLFPおよびANNLFPを表すものとする。完全に共有されうる層の場合、θa(i)は空であるため、これは一般的な表記である。完全に適応的でありうる層の場合、θs(i)は空でありうる。言い換えれば、この表記は、図3Aおよび図3Bの両方の実施形態に使用されうる。
i番目の層のためのメタNNLFモデル400の推論ワークフローの例示的な実施形態を示す。
入力
Figure 0007471734000036
が与えられ、QF設定Λtが与えられると、メタNNLF法は強化された
Figure 0007471734000037
を計算する。f(i)およびf(i+1)がメタNNLFモデル400のi番目の層の入力および出力テンソルを表すものとする。現在の入力f(i)およびθs(i)に基づき、SNNLFP推論部412は、i番目の層のSEPを使用した前向き計算によってモデル化されうる共有推論関数Gi(f(i),θs(i)))に基づいて、共有特徴g(i)を計算する。f(i)、g(i)、θa(i)およびΛtに基づき、ANNLFP予測部414は、i番目の層の推定ANNLFP
Figure 0007471734000038
を計算する。ANNLFP予測部414は、例えば、元のANNLFPθa(i)、現在の入力f(i)、およびQF設定Λtに基づいて、更新された
Figure 0007471734000039
を予測する畳み込み層および全結合層を含むNNであってもよい。いくつかの実施形態では、現在の入力f(i)は、ANNLFP予測部414への入力として使用されうる。いくつかの他の実施形態では、現在の入力f(i)の代わりに共有特徴g(i)が使用されうる。他の実施形態では、共有特徴g(i)に基づいてSNNLFP損失が計算されてもよく、ANNLFP予測部414への入力として損失の勾配が使用されうる。推定ANNLFP
Figure 0007471734000040
および共有特徴g(i)に基づき、ANNLFP推論部416は、i番目の層の推定AEPを使用した前向き計算によってモデル化されうるANNLFP推論関数
Figure 0007471734000041
に基づいて出力テンソルf(i+1)を計算する。
なお、図4に記載されるワークフローは、例示的な表記である。θa(i)が空である完全に共有されうる層の場合、ANNLFP関連モジュールおよびf(i+1)=g(i)は省略されうる。θs(i)が空である完全に適応的でありうる層の場合、SNNLFP関連モジュールおよびg(i)=f(i)は省略されうる。
メタNNLFモデル400について合計N層があると仮定すると、最後の層の出力は強化された
Figure 0007471734000042
でありうる。
なお、メタNNLFフレームワークは、柔軟な品質管理のための任意の滑らかなQF設定を可能にする。言い換えれば、上述の処理ワークフローは、訓練段階に含まれる場合も含まれない場合もある任意の滑らかなQF設定でデコードされたフレームの品質を高めることができる。
あるケースでは、ANNLFP予測部414が入力f(i)を考慮して/考慮せずに事前定義されたQF設定のセットに対する予測のみを行う場合、メタNNLFモデルは、複数の事前定義されたQF設定の強化に対応するために1つのNNLFモデルインスタンスを使用するマルチQF NNLFモデルに縮小される。他の縮小された特別なケースも当然ながらここでカバーされうる。
図5は、実施形態による、訓練段階における、メタ学習を使用したビデオエンハンスメントのためのメタNNLFの訓練装置500のブロック図である。
図5に示されるように、訓練装置500は、タスクサンプラ510と、内側ループ損失生成器520と、内側ループ更新部530と、メタ損失生成器540と、メタ更新部550と、重み更新部560と、を含む。
訓練プロセスは、メタNNLFモデル400のSNNLFPθs(i)およびANNLFPθa(i)、i=1,・・・、N、ならびにANNLFP予測NN(Φとして表されるモデルパラメータ)を学習することを目的とする。
実施形態では、モデル非依存のメタ学習(MAML)機構が訓練目的のために使用されうる。図5は、メタ訓練フレームワークの例示的なワークフローを示している。他のメタ訓練アルゴリズムがここで使用されてもよい。
訓練では、訓練データセット
Figure 0007471734000043
、i=1,…,Kがあってもよく、各
Figure 0007471734000044
は訓練QF設定に対応し、合計でK個の訓練QF設定(よって、K個の訓練データセット)がある。訓練では、qqp個の異なる訓練QP値、qCTU個の異なる訓練CTUパーティションなどがあってもよく、有限数のK=qqp×qCTU×…個の異なる訓練QF設定があってもよい。したがって、各訓練データセット
Figure 0007471734000045
は、これらのQF設定の各々と関連付けられうる。加えて、検証データセット
Figure 0007471734000046
、j=1,…,Pもあってもよく、各
Figure 0007471734000047
は検証QF設定に対応し、合計でP個の検証QF設定がある。検証QF設定は、訓練セットとは異なる値を含みうる。検証QF設定はまた、訓練セットからの値と同じ値も有しうる。
全体的な訓練目標は、メタNNLFモデルが、QF設定の(訓練の、および将来の見られていないものを含む)すべての値に広く適用されうるようにメタNNLFモデルを学習することである。QF設定を有するNNLFタスクがタスク分布P(Λ)から引き出されうると仮定する。上述の訓練目標を達成するために、メタNNLFモデルを学習するための損失が、すべての訓練QF設定にわたるすべての訓練データセットにわたって最小化されうる。
MAML訓練プロセスは、勾配ベースのパラメータ更新のための外側ループおよび内側ループを有しうる。各外側ループ反復について、タスクサンプラ510は、最初にK’個の訓練QF設定のセット(K’≦K)をサンプリングする。次いで、サンプリングされた各訓練QF設定Λiについて、タスクサンプラ510は、訓練データセット
Figure 0007471734000048
から訓練データセット
Figure 0007471734000049
をサンプリングする。また、タスクサンプラ510は、P’(P’≦P)個の検証QF設定のセットもサンプリングし、サンプリングされた各検証QF設定Λjについて、検証データセット
Figure 0007471734000050
から検証データセット
Figure 0007471734000051
をサンプリングする。次いで、サンプリングされた各データ
Figure 0007471734000052
について、メタNNLF前向き計算が、現在のパラメータΘs、Θa、およびΦに基づいて実行され、次いで、内側ループ損失生成器520は、累積内側ループ損失
Figure 0007471734000053
を以下のように計算する。
Figure 0007471734000054
損失関数
Figure 0007471734000055
は、グランドトゥルース画像
Figure 0007471734000056
と強化された出力
Figure 0007471734000057
との間の歪み損失、および何らかの他の正則化損失(例えば、異なるQF因子を目標とする中間ネットワーク出力を区別する補助損失)を含みうる。任意の歪みメトリックが使用されてもよく、例えば、MSE、MAE、SSIMなどが
Figure 0007471734000058
として使用されうる。
次いで、内側ループ損失
Figure 0007471734000059
に基づき、Λiの品質管理パラメータ/ハイパーパラメータとしてステップサイズαsiおよびαaiが与えられると、内側ループ更新部530は、更新されたタスク固有のパラメータ更新を以下のように計算する。
Figure 0007471734000060
、および
Figure 0007471734000061
累積内側ループ損失
Figure 0007471734000062
の勾配
Figure 0007471734000063
および勾配
Figure 0007471734000064
は、それぞれ、適応パラメータ
Figure 0007471734000065
および
Figure 0007471734000066
の更新バージョンを計算するために使用されうる。
次いで、メタ損失生成器540が、すべてのサンプリングされた検証品質管理パラメータにわたる外側メタ対象または損失を以下のように計算する。
Figure 0007471734000067
、および
Figure 0007471734000068

式中、
Figure 0007471734000069
は、QF設定Λjで、パラメータ
Figure 0007471734000070

Figure 0007471734000071
、Φを使用したメタNNLF前向き計算に基づいてデコードされたフレーム
Figure 0007471734000072
に対して計算された損失でありうる。λjのハイパーパラメータとしてステップサイズをβajおよびβsjが与えられると、メタ更新部550は、モデルパラメータを以下のように更新する。
Figure 0007471734000073
、および
Figure 0007471734000074
いくつかの実施形態では、Θsが内側ループ内で更新されない場合があり、すなわち、αsi=0、
Figure 0007471734000075
である。この非更新は、訓練プロセスを安定させるのに役立ちうる。
ANNLFP予測NNのパラメータΦについては、重み更新部560は、これらを通常の訓練方法で更新する。すなわち、訓練データおよび検証データ
Figure 0007471734000076
に従い、現在のθs、θa、Φに基づいて、すべてのサンプル
Figure 0007471734000077
の損失
Figure 0007471734000078
およびすべてのサンプル
Figure 0007471734000079

Figure 0007471734000080
を計算しうる。これらすべての損失の勾配は、通常の誤差逆伝播法によってΦに対するパラメータ更新を実行するために累積(例えば、合計)されうる。
本開示の実施形態は、これらのモデルパラメータを更新するための上述の最適化アルゴリズムまたは損失関数に限定されない。当技術分野で公知のこれらのモデルパラメータを更新するための任意の最適化アルゴリズムまたは損失関数が使用されてもよい。
メタNNLFモデルのANNLFP予測部414が事前定義された訓練QF設定セット対する予測のみを実行する場合には、検証QF設定は訓練QF設定と同じになる。上術の縮小されたメタNNLFモデル(すなわち、1つのモデルインスタンスを使用して複数の事前定義されたビットレートの圧縮効果に対応するマルチQF設定NNLFモデル)を訓練するために同じMAML訓練手順が使用されうる。
本開示の実施形態は、ただ1つのQANNLFモデルインスタンスを使用して、メタ学習を使用して複数のQF設定に対応することを可能にする。加えて、本開示の実施形態は、メタNNLFモデルのただ1つのインスタンスを使用して、異なるタイプの入力(例えば、フレームレベルまたはブロックレベル、単一画像またはマルチ画像、単一チャネルまたはマルチチャネル)および異なるタイプのQFパラメータ(例えば、異なる入力チャネル、CTUパーティション、デブロッキングフィルタ境界強度などのQP値の任意の組み合わせ)に対応することも可能にする
図6Aは、実施形態による、メタ学習を使用したニューラル・ネットワーク・ベースのループフィルタリングに基づくビデオエンハンスメントのための方法600Aのフローチャートである。
図6Aに示されるように、動作610で、方法600Aは、再構成されたビデオデータを受信し、再構成されたビデオデータと関連付けられた1つまたは複数の品質係数を受信するステップを含みうる。
いくつかの実施形態では、再構成されたビデオデータは、複数の再構成された入力フレームを含んでいてもよく、本明細書に記載される方法は、複数の再構成された入力フレームのうちの現在のフレームに対して適用されうる。いくつかの実施形態では、再構成された入力フレームは、さらに分解され、メタNNLFモデルへの入力として使用されうる。
いくつかの実施形態では、再構成されたビデオデータと関連付けられた1つまたは複数の品質係数は、コーディング・ツリー・ユニット・パーティション、量子化パラメータ、デブロッキングフィルタ境界強度、コーディングユニット動きベクトル、およびコーディングユニット予測モードのうちの少なくとも1つを含みうる。
いくつかの実施形態では、再構成されたビデオデータは、デコードされた量子化ビデオデータおよび動きベクトルデータを含むビットストリームから生成されうる。一例として、再構成されたビデオデータを生成するステップは、量子化されたビデオデータおよび動きベクトルデータを含むビデオデータのストリームを受信するステップを含みうる。次いで、再構成されたビデオデータを生成するステップは、復元された残差を取得するために、逆変換を使用して量子化データのストリームを逆量子化するステップと、復元された残差および動きベクトルデータに基づいて再構成されたビデオデータを生成するステップとを含みうる。
方法600Aは、ニューラル・ネットワーク・ベースのループフィルタを使用して、1つまたは複数の品質係数および再構成されたビデオデータに基づいて、アーチファクトが減少した強化されたビデオデータを生成するステップであって、ニューラル・ネットワーク・ベースのループフィルタは、共有パラメータおよび適応パラメータを含むニューラル・ネットワーク・ベースのループ・フィルタ・パラメータを含む、ステップ、をさらに含みうる。一例として、メタNNLFモデル400は、1つまたは複数の品質係数および再構成されたビデオデータに基づいて、複数の層にわたってアーチファクトが減少した強化されたビデオデータを生成するために使用されうる。いくつかの実施形態では、ニューラル・ネットワーク・ベースのループフィルタを使用した強化されたビデオデータの生成は、動作615~630を含みうる。いくつかの好ましい実施形態では、ニューラル・ネットワーク・ベースのループフィルタを使用した強化されたビデオデータの生成は、動作615~630がメタNNLFモデル、例えばメタNNLFモデル400の複数の層にわたって繰り返されることを含みうる。
したがって、メタ学習を使用したニューラル・ネットワーク・ベースのループフィルタリングにおける複数の層の各々について、615で、方法は、第1の共有パラメータを有する第1の共有ニューラル・ネットワーク・ループ・フィルタを使用して、前の層からの出力に基づいて共有特徴を生成するステップを含みうる。一例として、SNNLFP推論部412は、第1の共有パラメータ
Figure 0007471734000081
を有する第1の共有ニューラル・ネットワーク・ループ・フィルタを使用して、i-1層からの出力に基づいてi番目の層の共有特徴g(i)を生成しうる。
620で、方法は、予測ニューラルネットワークを使用して、前の層からの出力、共有特徴、第1の適応ニューラル・ネットワーク・ループ・フィルタからの第1の適応パラメータ、および1つまたは複数の品質係数に基づいて、推定適応パラメータを計算するステップを含みうる。一例として、ANNLFP予測部414は、予測ニューラルネットワークを使用して、i-1層からの出力、共有特徴g(i)、第1の適応ニューラル・ネットワーク・ループ・フィルタ
Figure 0007471734000082
からの第1の適応パラメータ、および1つまたは複数の品質係数Λに基づいて、推定適応パラメータ
Figure 0007471734000083
を計算しうる。
いくつかの実施形態では、予測ネットワークの訓練は、1つまたは複数の品質係数、第1の共有パラメータ、第1の適応パラメータ、および予測ニューラルネットワークの予測パラメータに基づいて、1つまたは複数の品質係数に対応する訓練データのための第1の損失、および1つまたは複数の品質係数に対応する検証データのための第2の損失を生成するステップと、続いて、生成された第1の損失の勾配および生成された第2の損失の勾配に基づいて、予測パラメータを更新するステップとを含みうる。
625で、方法は、共有特徴および推定適応パラメータに基づいて、現在の層の出力を生成するステップを含みうる。一例として、ANNLFP推論部416は、共有特徴g(i)および推定適応パラメータ
Figure 0007471734000084
に基づいて出力f(i+1)を生成しうる。
630で、方法は、ニューラル・ネットワーク・ベースのループフィルタの最後の層の出力に基づいて、強化されたビデオデータを生成するステップを含みうる。
いくつかの実施形態では、方法600Aは、強化されたビデオデータに、デブロッキングフィルタ、適応ループフィルタ、サンプル適応オフセット、および交差成分適応ループフィルタのうちの少なくとも1つを適用することを含む強化後処理を含みうる。一例として、強化後処理は動作630に続いて実行されうる。
いくつかの実施形態では、方法600Bは、強化されたビデオデータを生成する前に、強化されたビデオデータに、デブロッキングフィルタ、適応ループフィルタ、サンプル適応オフセット、および交差成分適応ループフィルタのうちの少なくとも1つを適用することを含む強化前処理を含みうる。一例として、強化前処理は動作620の前に実行されうる。
図6Bは、実施形態による、メタ学習によるレート制御を用いた適応ニューラル画像圧縮の方法600Bのフローチャートである。
図6Bに示されるように、650で、方法600Bは、再構成されたビデオデータと関連付けられた1つまたは複数の品質係数を受信するステップを含みうる。
いくつかの実施形態では、再構成されたビデオデータは、複数の再構成された入力フレームを含んでいてもよく、本明細書に記載される方法は、複数の再構成された入力フレームのうちの現在のフレームに対して適用されうる。いくつかの実施形態では、再構成された入力フレームは、さらに分解され、メタNNLFモデルへの入力として使用されうる。
いくつかの実施形態では、再構成されたビデオデータと関連付けられた1つまたは複数の品質係数は、コーディング・ツリー・ユニット・パーティション、量子化パラメータ、デブロッキングフィルタ境界強度、コーディングユニット動きベクトル、およびコーディングユニット予測モードのうちの少なくとも1つを含みうる。
いくつかの実施形態では、再構成されたビデオデータは、デコードされた量子化ビデオデータおよび動きベクトルデータを含むビットストリームから生成されうる。一例として、再構成されたビデオデータを生成するステップは、量子化されたビデオデータおよび動きベクトルデータを含むビデオデータのストリームを受信するステップを含みうる。次いで、再構成されたビデオデータを生成するステップは、復元された残差を取得するために、逆変換を使用して量子化データのストリームを逆量子化するステップと、復元された残差および動きベクトルデータに基づいて再構成されたビデオデータを生成するステップとを含みうる。
方法600Bは、ニューラル・ネットワーク・ベースのループフィルタを使用して、1つまたは複数の品質係数および再構成されたビデオデータに基づいて、アーチファクトが減少した強化されたビデオデータを生成するステップであって、ニューラル・ネットワーク・ベースのループフィルタは、共有パラメータおよび適応パラメータを含むニューラル・ネットワーク・ベースのループ・フィルタ・パラメータを含む、ステップ、をさらに含みうる。一例として、メタNNLFモデル400は、1つまたは複数の品質係数および再構成されたビデオデータに基づいて、複数の層にわたってアーチファクトが減少した強化されたビデオデータを生成するために使用されうる。いくつかの実施形態では、ニューラル・ネットワーク・ベースのループフィルタを使用した強化されたビデオデータの生成は、動作655~670を含みうる。いくつかの好ましい実施形態では、ニューラル・ネットワーク・ベースのループフィルタを使用した強化されたビデオデータの生成は、動作655~670がメタNNLFモデル、例えばメタNNLFモデル400の複数の層にわたって繰り返されることを含みうる。
655で、方法は、第1の共有パラメータを有する第1の共有ニューラル・ネットワーク・ループ・フィルタを使用して、前の層からの前の結合出力に基づいて第1の共有出力を生成するステップを含みうる。660で、方法は、第1の適応パラメータを有する第1の適応ニューラル・ネットワーク・ループ・フィルタを使用して、前の層からの前の結合出力に基づいて第1の適応出力を生成するステップを含みうる。665で、方法は、第1の結合出力を生成するために第1の共有出力と第1の適応出力とを結合するステップを含みうる。670で、方法は、ニューラル・ネットワーク・ベースのループフィルタの最後の層の結合出力に基づいて、強化されたビデオデータを生成するステップをさらに含みうる。
提案の方法は、別々に使用されてもよく、任意の順序で組み合わされてもよい。さらに、方法(または実施形態)、エンコーダ、およびデコーダの各々は、処理回路(例えば、1つまたは複数のプロセッサや1つまたは複数の集積回路)によって実装されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。
いくつかの実装形態では、図6Aおよび図6Bの1つまたは複数のプロセスブロックは、プラットフォーム120によって行われうる。いくつかの実装形態では、図6Aおよび図6Bの1つまたは複数のプロセスブロックは、ユーザデバイス110などのプラットフォーム120とは別個のまたはプラットフォーム120を含む他のデバイスまたはデバイス群によって行われうる。
前述の開示は例示と説明を提供しているが、網羅的であることも、実装形態を開示された正確な形態に限定することも意図されていない。修正および変形が、上記の開示に照らして可能であり、または実装形態の実施から取得されうる。
本明細書で使用さる場合、コンポーネントという用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせとして広く解釈されることを意図されている。
本明細書に記載されるシステムおよび/または方法は、様々な形態のハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせで実装されうることは明らかであろう。これらのシステムおよび/または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。よって、これらのシステムおよび/または方法の動作および挙動は、特定のソフトウェアコードに言及することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の説明に基づいてシステムおよび/または方法を実装するように設計されうることが理解される。
特徴の組み合わせが、特許請求の範囲に記載され、かつ/または本明細書に開示されていても、これらの組み合わせは、可能な実装形態の開示を限定することを意図されていない。実際には、これらの特徴の多くは、特許請求の範囲に特に記載されておらず、かつ/または本明細書に開示されていない方法で組み合わされうる。列挙される各従属請求項は1つの請求項のみに直接従属しうるが、可能な実装形態の開示は、各従属請求項を請求項セット内のあらゆる他の請求項との組み合わせとして含みうる。
本明細書で使用される要素、動作、または命令は、そのようなものとして明示的に記載されていない限り、重要または必須であると解釈されてはならない。また、本明細書で使用される場合、冠詞「a」および「an」は、1つまたは複数の項目を含むことを意図されており、「1つまたは複数」と交換可能に使用されうる。さらに、本明細書で使用される場合、「セット」という用語は、1つまたは複数の項目(例えば、関連項目、非関連項目、関連項目と非関連項目との組み合わせなど)を含むことを意図されており、「1つまたは複数」と交換可能に使用されうる。1つの項目のみが意図とされる場合、「1つ」という用語または同様の言葉が使用される。また、本明細書で使用される場合、「有する(has)」、「有する(have)」、「有する(having)」などの用語は、オープンエンドの用語であることが意図されている。さらに、「に基づいて」という語句は、特に明記されない限り、「に少なくとも部分的に基づいて」を意味することが意図されている。
100 環境
110 ユーザデバイス
120 プラットフォーム
122 クラウドコンピューティング環境
124 コンピューティングリソース
124-1 アプリケーション(「APP」)
124-2 仮想マシン(「VM」)
124-3 仮想ストレージ(「VS」)
124-4 ハイパーバイザ(「HYP」)
130 ネットワーク
200 デバイス
210 バス
220 プロセッサ
230 メモリ
240 ストレージコンポーネント
250 入力コンポーネント
260 出力コンポーネント
270 通信インターフェース
300A メタNNLFアーキテクチャ
305 共有NNLF NN
310 適応NNLF NN
300B メタNNLFアーキテクチャ
325 共有NNLFレイヤi
330 共有NNLFレイヤi+1
335 適応NNLFレイヤi
340 適応NNLFレイヤi+1
400 装置
412 SNNLFPインターフェース部
414 ANNLFP予測部
416 ANNLFPインターフェース部
500 訓練装置
510 タスクサンプラ
520 内側ループ損失生成器
530 内側ループ更新部
540 メタ損失生成器
550 メタ更新部
560 重み更新部
600A 方法のフローチャート
600B 方法のフローチャート

Claims (12)

  1. 共有ニューラルネットワークモジュール及び適応ニューラルネットワークモジュールを含むメタニューラルネットワークにおいて、メタ学習を使用したニューラル・ネットワーク・ベースのループフィルタリングに基づくビデオエンハンスメントのための方法であって、前記方法は少なくとも1つのプロセッサによって実行され、前記方法は、
    再構成されたビデオデータを受信するステップと、
    前記再構成されたビデオデータと関連付けられた1つまたは複数の品質係数を受信するステップと、
    ニューラル・ネットワーク・ベースのループフィルタにおける複数の層の各々について、
    前記共有ニューラルネットワークモジュールによって、第1の共有パラメータを有する第1の共有ニューラル・ネットワーク・ループ・フィルタを使用して、前の層からの前の結合出力に基づいて、前記適応ニューラルネットワークモジュールと共有される第1の共有出力を生成するステップであって、前記第1の共有パラメータは、前記メタニューラルネットワークの基礎となるモデルパラメータが前記共有ニューラルネットワークモジュールのために分離されたパラメータである、ステップと、
    前記適応ニューラルネットワークモジュールによって、
    前記1つまたは複数の品質係数に適応的な第1の適応パラメータを有する第1の適応ニューラル・ネットワーク・ループ・フィルタを使用して、前記前の層からの前記前の結合出力に基づいて第1の適応出力を生成するステップであって、前記第1の適応パラメータは、前記基礎となるモデルパラメータが前記適応ニューラルネットワークモジュールのために分離されたパラメータである、ステップと、
    第1の結合出力を生成するために前記第1の共有出力と前記第1の適応出力とを結合するステップと、
    前記ニューラル・ネットワーク・ベースのループフィルタの最後の層の結合出力に基づいて、アーチファクトが減少した強化されたビデオデータを生成するステップと
    を含む、方法。
  2. 前記ニューラル・ネットワーク・ベースのループフィルタを使用して前記強化されたビデオデータを生成する前記ステップは、
    前記ニューラル・ネットワーク・ベースのループフィルタにおける複数の層の各々について、
    前記第1の共有ニューラル・ネットワーク・ループ・フィルタを使用して、前記前の層からの出力に基づいて共有特徴を生成するステップと、
    前記適応ニューラルネットワークモジュールに含まれる予測ニューラルネットワークを使用して、前記前の層からの前記出力、前記共有特徴、前記第1の適応パラメータ、および前記1つまたは複数の品質係数に基づいて、推定適応パラメータを計算するステップと、
    前記共有特徴および前記推定適応パラメータに基づいて、現在の層の出力を生成するステップと、
    前記ニューラル・ネットワーク・ベースのループフィルタの最後の層の出力に基づいて、前記強化されたビデオデータを生成するステップと
    を含む、請求項1に記載の方法。
  3. 前記予測ニューラルネットワークを訓練するステップは、
    前記1つまたは複数の品質係数、前記第1の共有パラメータ、前記第1の適応パラメータ、および前記予測ニューラルネットワークの予測パラメータに基づいて、前記1つまたは複数の品質係数に対応する訓練データのための第1の損失、および前記1つまたは複数の品質係数に対応する検証データのための第2の損失を生成するステップと、
    前記生成された第1の損失の勾配および前記生成された第2の損失の勾配に基づいて、前記予測パラメータを更新するステップと
    を含む、請求項2に記載の方法。
  4. 前記再構成されたビデオデータと関連付けられた前記1つまたは複数の品質係数は、コーディング・ツリー・ユニット・パーティション、量子化パラメータ、デブロッキングフィルタ境界強度、コーディングユニット動きベクトル、およびコーディングユニット予測モードのうちの少なくとも1つを含む、請求項1に記載の方法。
  5. 前記ニューラル・ネットワーク・ベースのループフィルタを訓練するステップは、
    前記1つまたは複数の品質係数、前記第1の共有パラメータ、および前記第1の適応パラメータに基づいて、前記1つまたは複数の品質係数に対応する訓練データのための内側ループ損失を生成するステップと、
    前記生成された内側ループ損失の勾配に基づいて、前記第1の共有パラメータおよび前記第1の適応パラメータを第1に更新するステップと、
    前記1つまたは複数の品質係数、前記第1に更新された第1の共有パラメータ、および前記第1に更新された第1の適応パラメータに基づいて、前記1つまたは複数の品質係数に対応する検証データのためのメタ損失を生成するステップと、
    前記生成されたメタ損失の勾配に基づいて、前記第1に更新された第1の共有パラメータ、および前記第1に更新された第1の適応パラメータを第2に更新するステップと
    を含む、請求項2に記載の方法。
  6. 前記受信された再構成されたビデオデータを生成するステップは、
    量子化されたビデオデータおよび動きベクトルデータを含むビデオデータのストリームを受信するステップと、
    復元された残差を取得するために、逆変換を使用して量子化データの前記ストリームを逆量子化するステップと、
    前記復元された残差および前記動きベクトルデータに基づいて前記再構成されたビデオデータを生成するステップと
    を含む、請求項1に記載の方法。
  7. 前記強化されたビデオデータに、デブロッキングフィルタ、適応ループフィルタ、サンプル適応オフセット、および交差成分適応ループフィルタのうちの少なくとも1つを適用することを含む強化後処理をさらに含む、請求項1に記載の方法。
  8. 前記強化されたビデオデータを生成する前に、前記方法は、前記強化されたビデオデータに、デブロッキングフィルタ、適応ループフィルタ、サンプル適応オフセット、および交差成分適応ループフィルタのうちの少なくとも1つを適用することを含む強化前処理を含む、請求項1に記載の方法。
  9. 前記再構成されたビデオデータは、複数の再構成された入力フレームを含み、請求項1に記載の方法は、前記複数の再構成された入力フレームのうちの現在のフレームに適用される、請求項1に記載の方法。
  10. 前記結合するステップは、加算、連結、または乗算のうちの少なくとも1つを含む、請求項1に記載の方法。
  11. プログラムコードを記憶するように構成された少なくとも1つのメモリと、
    前記プログラムコードを読み出し、前記プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサであって、前記プログラムコードが、請求項1~10のいずれか一項に記載の方法を行うように構成された装置。
  12. コンピュータに、請求項1~10のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
JP2022564638A 2021-04-19 2022-03-25 メタ学習による滑らかな品質管理を用いた品質適応型のニューラル・ネットワーク・ベースのループフィルタ Active JP7471734B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163176787P 2021-04-19 2021-04-19
US63/176,787 2021-04-19
US17/703,292 US11750847B2 (en) 2021-04-19 2022-03-24 Quality-adaptive neural network-based loop filter with smooth quality control by meta-learning
US17/703,292 2022-03-24
PCT/US2022/021870 WO2022225643A1 (en) 2021-04-19 2022-03-25 Quality-adaptive neural network-based loop filter with smooth quality control by meta-learning

Publications (2)

Publication Number Publication Date
JP2023527655A JP2023527655A (ja) 2023-06-30
JP7471734B2 true JP7471734B2 (ja) 2024-04-22

Family

ID=83694578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022564638A Active JP7471734B2 (ja) 2021-04-19 2022-03-25 メタ学習による滑らかな品質管理を用いた品質適応型のニューラル・ネットワーク・ベースのループフィルタ

Country Status (6)

Country Link
US (1) US11750847B2 (ja)
EP (1) EP4115620A4 (ja)
JP (1) JP7471734B2 (ja)
KR (1) KR20220165770A (ja)
CN (1) CN115516865A (ja)
WO (1) WO2022225643A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019182159A1 (ja) 2018-03-23 2019-09-26 シャープ株式会社 画像フィルタ装置、画像復号装置、及び画像符号化装置
US20200213587A1 (en) 2017-08-28 2020-07-02 Interdigital Vc Holdings, Inc. Method and apparatus for filtering with mode-aware deep learning

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190289327A1 (en) * 2018-03-13 2019-09-19 Mediatek Inc. Method and Apparatus of Loop Filtering for VR360 Videos
CN111010568B (zh) 2018-10-06 2023-09-29 华为技术有限公司 插值滤波器的训练方法、装置及视频图像编解码方法、编解码器
US11490085B2 (en) 2021-01-14 2022-11-01 Tencent America LLC Model sharing by masked neural network for loop filter with quality inputs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200213587A1 (en) 2017-08-28 2020-07-02 Interdigital Vc Holdings, Inc. Method and apparatus for filtering with mode-aware deep learning
WO2019182159A1 (ja) 2018-03-23 2019-09-26 シャープ株式会社 画像フィルタ装置、画像復号装置、及び画像符号化装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cheung Auyeung et al.,EE1.1: A comparison of depthwise separable convolution and regular convolution with the JVET-T0057 neural network based in-loop filter [online],JVET-U0060(JVET-U0060.docx), [2023年11月17日検索],インターネット <URL: https://jvet-experts.org/doc_end_user/documents/21_Teleconference/wg11/JVET-U0060-v2.zip>,2021年01月07日
Jihong Kang et al.,MULTI-MODAL/MULTI-SCALE CONVOLUTIONAL NEURAL NETWORK BASED IN-LOOP FILTER DESIGN FOR NEXT GENERATION VIDEO CODEC [online],Published in: 2017 IEEE International Conference on Image Processing (ICIP), [2023年11月17日検索],2018年02月22日,pp.26-30,インターネット <URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8296236>,DOI: 10.1109/ICIP.2017.8296236

Also Published As

Publication number Publication date
KR20220165770A (ko) 2022-12-15
US11750847B2 (en) 2023-09-05
JP2023527655A (ja) 2023-06-30
WO2022225643A1 (en) 2022-10-27
EP4115620A1 (en) 2023-01-11
US20220345752A1 (en) 2022-10-27
CN115516865A (zh) 2022-12-23
EP4115620A4 (en) 2023-07-12

Similar Documents

Publication Publication Date Title
JP7411113B2 (ja) 品質入力を有するループフィルタのためのマスクされたニューラルネットワークによるモデル共有
JP2023506057A (ja) イントラ予測残差を用いたマルチスケールニューラル画像圧縮のための方法および装置、およびコンピュータプログラム
CN114747207A (zh) 用于利用后滤波进行逐块神经图像压缩的方法和装置
JP7483030B2 (ja) 潜在特徴領域におけるイントラ予測によるニューラル画像圧縮
KR102633549B1 (ko) 대체 신경 잔차 압축을 위한 방법 및 장치
JP7471733B2 (ja) 滑らかな品質制御による適応ニューラル画像圧縮のための代替の入力最適化
JP7471734B2 (ja) メタ学習による滑らかな品質管理を用いた品質適応型のニューラル・ネットワーク・ベースのループフィルタ
JP7438611B2 (ja) 品質適応型ニューラル・ネットワーク・ベースのループフィルタのための代替品質ファクター学習
KR20220156896A (ko) 적응적 인트라-예측에 의한 신경 이미지 압축
JP7408835B2 (ja) マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタによるビデオ処理の方法、装置及びコンピュータプログラム
JP7471730B2 (ja) メタ学習によるレート制御を用いた適応ニューラル画像圧縮のための方法、装置及びプログラム
JP7434605B2 (ja) メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240404

R150 Certificate of patent or registration of utility model

Ref document number: 7471734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150