JP2023525673A - メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム - Google Patents

メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム Download PDF

Info

Publication number
JP2023525673A
JP2023525673A JP2022565776A JP2022565776A JP2023525673A JP 2023525673 A JP2023525673 A JP 2023525673A JP 2022565776 A JP2022565776 A JP 2022565776A JP 2022565776 A JP2022565776 A JP 2022565776A JP 2023525673 A JP2023525673 A JP 2023525673A
Authority
JP
Japan
Prior art keywords
parameter
decoding
adaptive
shared
quality control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022565776A
Other languages
English (en)
Other versions
JP7434605B2 (ja
Inventor
ジャン,ウェイ
ワン,ウェイ
シュー,シャオゾン
リウ,シャン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023525673A publication Critical patent/JP2023525673A/ja
Application granted granted Critical
Publication of JP7434605B2 publication Critical patent/JP7434605B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法および装置は、入力画像およびターゲット品質制御パラメータを受信するステップと;圧縮表現を生成するように、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して、ターゲット品質制御パラメータに基づいて、入力画像をエンコーディングするステップであって、品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される、ステップとを含む。

Description

[関連出願の相互参照]
本出願は、2021年4月14日に出願された米国仮特許出願No.63/174,927に基づくとともにその優先権を主張し、その開示はその全体が参照により本出願に組み込まれる。
ISO/IEC MPEG(JTC 1/SC 29/WG 11)は、将来のビデオコーディング技術の標準化に対する潜在的なニーズを積極的に探してきた。ISO/IEC JPEGは、ニューラルネットワーク(NN)を使用したAIベースのエンドツーエンドニューラル画像圧縮(NIC)に焦点を当てたJPEG-AIグループを設立した。最近のアプローチの成功により、高度なニューラル画像およびビデオ圧縮方法論に対する産業界の関心がますます高まっている。
以前のアプローチでは有望なパフォーマンスが示されていたが、柔軟なビットレート制御は以前のNIC方法では依然として困難な問題である。従来は、レートと歪み(圧縮された画像の品質)との間のそれぞれの望ましいトレードオフを個別にターゲットとする複数のモデルインスタンス(model instances)をトレーニングする必要がある場合がある。これらの複数のモデルインスタンスはすべて、異なるビットレートから画像を再構成するためにデコーダ側に格納および展開されることがある。また、これらのモデルインスタンスは、可能なすべてのターゲットビットレートに対して無限の数のモデルインスタンスをトレーニングして格納することが困難であるため、任意のスムーズなビットレート制御を行うことはできない。以前のアプローチでは、1つのモデルインスタンスが複数の事前定義されたビットレートの圧縮を実現するようにトレーニングされるマルチレートNICが研究されていた。しかし、任意のスムーズなビットレート制御は未開拓の未解決な問題のままである。
実施形態によれば、メタ学習によるスムーズな品質制御を用いた(with smooth quality control)適応ニューラル画像圧縮(adaptive neural image compression)の方法が提供される。少なくとも1つのプロセッサによって実行される方法は、入力画像およびターゲット品質制御パラメータを受信するステップと;圧縮表現を生成するように、ターゲット品質制御パラメータに基づいて、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して入力画像をエンコーディングするステップであって、品質適応重みパラメータは、共有エンコーディングパラメータ(shared encoding parameters)および適応エンコーディングパラメータ(adaptive encoding parameters)を使用して計算される、ステップと;を含む。
実施形態によれば、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための装置が提供される。装置は、プログラムコードを格納するように構成された少なくとも1つのメモリと;プログラムコードを読み取り、プログラムコードによって指示されるよう動作するように構成された少なくとも1つのプロセッサと;を含む。プログラムコードは、少なくとも1つのプロセッサに入力画像およびターゲット品質制御パラメータを受信させるように構成された第1の受信コードと;圧縮表現を生成するように、少なくとも1つのプロセッサに入力画像を、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して、ターゲット品質制御パラメータに基づいてエンコーディングさせるように構成された第1のエンコーディングコードであって、品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される、第1のエンコーディングコードと;を含む。
実施形態によれば、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための命令を格納する非一時的コンピュータ可読媒体が提供される。この命令は、少なくとも1つのプロセッサによって実行されるとき、少なくとも1つのプロセッサに入力画像およびターゲット品質制御パラメータを受信させ;圧縮表現を生成するように、ターゲット品質制御パラメータに基づいて、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して入力画像をエンコーディングさせ、品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される。
実施形態による、本明細書に記載される方法、装置およびシステムが実装され得る環境の図である。
図1の1つ以上のデバイスの例示的なコンポーネントのブロック図である。
実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のためのメタNICアーキテクチャのブロック図である。
実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のためのメタNICアーキテクチャのブロック図である。
実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための装置のブロック図である。
図4Aに示した装置のメタNICエンコーダのブロック図である。
図4Aに示した装置のメタNICデコーダのブロック図である。
実施形態による、トレーニング段階中の、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のためのトレーニング装置のブロック図である。
実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮の方法のフローチャートである。
実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮の方法のフローチャートである。
本開示は、NICにおける任意のスムーズな品質制御のためのメタニューラル画像圧縮(メタNIC(meta-NIC))フレームワークのための方法および装置を説明する。メタ学習メカニズムが、現在の入力画像およびターゲット品質インジケータに基づいて、基になるNICモデルの品質適応重みパラメータ(quality-adaptive weight parameters)を適応的に計算するために使用され、その結果、単一のメタNICモデルインスタンスが任意のスムーズなターゲット品質を持つ画像圧縮を実現することができる。
図1は、実施形態による、本明細書に記載された方法、装置およびシステムが実装され得る環境100の図である。
図1に示すように、環境100は、ユーザデバイス110、プラットフォーム120、およびネットワーク130を含み得る。環境100のデバイスは、有線接続、無線接続、または有線接続と無線接続の組み合わせを介して相互接続し得る。
ユーザデバイス110は、プラットフォーム120に関連する情報を受信、生成、格納、処理、および/または提供することができる1つまたは複数のデバイスを含む。例えば、ユーザデバイス110は、コンピューティングデバイス(例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど)、携帯電話(例えば、スマートフォン、無線電話など)、ウェアラブルデバイス(例えば、スマートグラスまたはスマートウォッチ)、または同様のデバイスを含み得る。いくつかの実装では、ユーザデバイス110は、プラットフォームから情報を受信し得るおよび/またはプラットフォーム120に情報を送信し得る。
プラットフォーム120は、本明細書のいずれかに記載されているように、1つまたは複数のデバイスを含む。いくつかの実装では、プラットフォーム120は、クラウドサーバーまたはクラウドサーバーのグループを含み得る。いくつかの実装では、プラットフォーム120は、ソフトウェアコンポーネントがスワップインまたはスワップアウトされ得るようにモジュール化されるように設計され得る。そのため、プラットフォーム120は、異なる用途のために簡単にかつ/または迅速に再構成され得る。
いくつかの実装では、示されているように、プラットフォーム120はクラウドコンピューティング環境122でホストされ得る。特に、ここに記載されている実装は、プラットフォーム120がクラウドコンピューティング環境122でホストされていると説明されているが、いくつかの実装では、プラットフォーム120は、クラウドベースでなくてもよく(すなわち、クラウドコンピューティング環境の外部に実装されてもよく)、または部分的にクラウドベースであってもよい。
クラウドコンピューティング環境122は、プラットフォーム120をホストする環境を含む。クラウドコンピューティング環境122は、プラットフォーム120をホストするシステム(複数可)および/またはデバイス(複数可)の物理的な場所および構成のエンドユーザ(例えば、ユーザデバイス110)の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供し得る。示されているように、クラウドコンピューティング環境122は、コンピューティングリソース124のグループ(総称して「コンピューティングリソース(computing resources)124」と称され、個別に「コンピューティングリソース(computing resource)124」と称される)を含み得る。
コンピューティングリソース124は、1つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算および/または通信デバイスを含む。いくつかの実装では、コンピューティングリソース124はプラットフォーム120をホストし得る。クラウドリソースは、コンピューティングリソース124で実行される計算インスタンス、コンピューティングリソース124で提供されるストレージデバイス、コンピューティングリソース124によって提供されるデータ転送デバイスなどを含み得る。いくつかの実装では、コンピューティングリソース124は、有線接続、無線接続、または有線接続と無線接続の組み合わせを介して他のコンピューティングリソース124と通信し得る。
図1にさらに示すように、コンピューティングリソース124は、1つまたは複数のアプリケーション(「APP」)124-1、1つまたは複数の仮想マシン(「VM」)124-2、仮想化ストレージ(「VS」)124-3、1つまたは複数のハイパーバイザ(「HYP」)124-4などのようなクラウドリソースのグループを含み得る。
アプリケーション124-1は、ユーザデバイス110および/またはプラットフォーム120に提供され得るまたはそれらによってアクセスされ得る、1つまたは複数のソフトウェアアプリケーションを含み得る。アプリケーション124-1は、ユーザデバイス110にソフトウェアアプリケーションをインストールして実行する必要を排除し得る。例えば、アプリケーション124-1は、プラットフォーム120に関連するソフトウェアおよび/またはクラウドコンピューティング環境122を介して提供されることができる任意の他のソフトウェアを含み得る。いくつかの実装では、1つのアプリケーション124-1が、仮想マシン124-2を介して、1つまたは複数の他のアプリケーション124-1と情報を送受信し得る。
仮想マシン124-2は、物理マシンのようにプログラムを実行するマシン(例えば、コンピュータ)のソフトウェア実装を含み得る。仮想マシン124-2は、仮想マシン124-2による任意のリアルマシンの使用と対応の程度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれかであり得る。システム仮想マシンは、完全なオペレーティングシステム(「OS」)の実行をサポートする完全なシステムプラットフォームを提供し得る。プロセス仮想マシンは単一のプログラムを実行し得、単一のプロセスをサポートし得る。いくつかの実装では、仮想マシン124-2はユーザ(例えば、ユーザデバイス110)の代わりに実行し得、データ管理、同期、長時間のデータ転送など、クラウドコンピューティング環境122のインフラストラクチャを管理し得る。
仮想化ストレージ124-3は、コンピューティングリソース124のストレージシステムまたはデバイス内で仮想化技術を使用する1つ以上のストレージシステムおよび/または1つ以上のデバイスを含み得る。いくつかの実装では、ストレージシステムのコンテキスト内で、仮想化の種類は、ブロック仮想化およびファイル仮想化を含み得る。ブロック仮想化は、物理ストレージまたは異種構造に関係なくストレージシステムがアクセスされ得るように、物理ストレージからの論理ストレージの抽象化(または分離)を指し得る。この分離は、ストレージシステムの管理者に、管理者がエンドユーザのストレージを管理する方法に柔軟性を許容し得る。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に格納される場所との間の依存性を排除し得る。これは、ストレージの使用の最適化、サーバの統合、および/または無停止でのファイル移行のパフォーマンスを可能にし得る。
ハイパーバイザ124-4は、複数のオペレーティングシステム(例えば、「ゲストオペレーティングシステム」)がコンピューティングリソース124などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技術を提供し得る。ハイパーバイザ124-4は、ゲストオペレーティングシステムに仮想オペレーティングプラットフォームを提示し得、ゲストオペレーティングシステムの実行を管理し得る。さまざまなオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共有し得る。
ネットワーク130は、1つまたは複数の有線および/または無線ネットワークを含み得る。例えば、ネットワーク130は、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多重アクセス(CDMA)ネットワークなど)、パブリックランドモバイルネットワーク(PLMN)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)、電話ネットワーク(例えば、公衆交換電話網(PSTN))、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバーベースのネットワークなど、および/またはこれらまたは他のタイプのネットワークの組み合わせを含み得る。
図1に示すデバイスおよびネットワークの数および配置は例として提供されている。実際には、図1に示されているものよりも、追加のデバイスおよび/またはネットワーク、より少ないデバイスおよび/またはネットワーク、異なるデバイスおよび/またはネットワーク、または異なる配置のデバイスおよび/またはネットワークがあり得る。さらに、図1に示す2つ以上のデバイスは、単一のデバイス内に実装され得る、または、図1に示す単一のデバイスは複数の分散デバイスとして実装され得る。追加的に、または代替的に、環境100のデバイス(例えば、1つまたは複数のデバイス)のセットは、環境100の別のデバイスのセットによって実行されると記述された1つまたは複数の機能を実行し得る。
図2は、図1の1つまたは複数のデバイスの例示的なコンポーネントのブロック図である。
デバイス200は、ユーザデバイス110および/またはプラットフォーム120に対応し得る。図2に示すように、デバイス200は、バス210、プロセッサ220、メモリ230、ストレージコンポーネント240、入力コンポーネント250、出力コンポーネント260、および通信インターフェイス270を含み得る。
バス210は、デバイス200のコンポーネント間の通信を可能にするコンポーネントを含み得る。プロセッサ220は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせで実装され得る。プロセッサ220は、中央処理装置(CPU)、グラフィックス処理装置(GPU)、加速処理装置(APU)、マイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、または別のタイプの処理コンポーネントであり得る。いくつかの実装では、プロセッサ220は、機能を実行するようにプログラムされることができる1つまたは複数のプロセッサを含み得る。メモリ230は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、および/またはプロセッサ220による使用のための情報および/または命令を格納する別のタイプの動的または静的ストレージデバイス(例えば、フラッシュメモリ、磁気メモリ、および/または光学メモリ)を含む。
ストレージコンポーネント240は、デバイス200の動作および使用に関する情報および/またはソフトウェアを格納し得る。例えば、ストレージコンポーネント240は、対応するドライブとともに、ハードディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、および/またはソリッドステートディスク)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピー(登録商標)ディスク、カートリッジ、磁気テープ、および/または別の種類の非一時的コンピュータ可読媒体を含み得る。
入力コンポーネント250は、ユーザ入力(例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および/またはマイク)を介してなど、デバイス200が情報を受信することを可能にするコンポーネントを含む。追加的に、または代替的に、入力コンポーネント250は、情報を感知するためのセンサ(例えば、全地球測位システム(GPS)コンポーネント、加速度計、ジャイロスコープ、および/またはアクチュエータ)を含み得る。出力コンポーネント260は、デバイス200からの出力情報を提供するコンポーネント(例えば、ディスプレイ、スピーカー、および/または1つ以上の発光ダイオード(LED))を含み得る。
通信インターフェイス270は、デバイス200が、有線接続、無線接続、または有線接続と無線接続の組み合わせを介してなど、他のデバイスと通信することを可能にするトランシーバ様コンポーネント(例えば、トランシーバおよび/または個別のレシーバおよびトランスミッタ)を含む。通信インターフェイス270は、デバイス200が別のデバイスから情報を受信するおよび/または別のデバイスに情報を提供することを可能にし得る。例えば、通信インターフェイス270は、イーサネット(登録商標)インターフェイス、光インターフェイス、同軸インターフェイス、赤外線インターフェイス、無線周波数(RF)インターフェイス、ユニバーサルシリアルバス(USB)インターフェイス、Wi-Fi(登録商標)インターフェイス、セルラーネットワークインターフェイス等を含み得る。
デバイス200は、ここで説明する1つまたは複数のプロセスを実行し得る。デバイス200は、プロセッサ220がメモリ230および/またはストレージコンポーネント240などの非一時的なコンピュータ可読媒体によって格納されたソフトウェア命令を実行することに応答して、これらのプロセスを実行し得る。コンピュータ可読媒体は、ここでは非一時的メモリデバイスと定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにわたって分散したメモリ空間を含む。
ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェイス270を介して別のデバイスから、メモリ230および/またはストレージコンポーネント240に読み込まれ得る。実行されると、メモリ230および/またはストレージコンポーネント240に格納されたソフトウェア命令は、プロセッサ220にここで説明する1つまたは複数のプロセスを実行させ得る。追加的に、または代替的に、ここに記載されている1つまたは複数のプロセスを実行するために、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて、ハードワイヤード回路が使用され得る。したがって、ここで説明する実装は、ハードウェア回路とソフトウェアのいずれの特定の組み合わせにも限定されない。
図2に示すコンポーネントの数および配置は一例として提供されている。実際には、デバイス200は、図2に示されているものよりも、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、または異なる配置のコンポーネントを含み得る。追加的に、または代替的に、デバイス200のコンポーネントのセット(例えば、1つまたは複数のコンポーネント)は、デバイス200の別のコンポーネントのセットによって実行されると記述された1つまたは複数の機能を実行し得る。
次に、メタ学習による任意のスムーズな品質制御を用いた適応ニューラル画像圧縮の方法および装置が詳述される。
本開示は、任意のスムーズなビットレート制御をサポートするメタNICフレームワークを提案する。メタ学習メカニズムは、単一のメタNICモデルインスタンスが任意のスムーズなターゲット品質を持つ画像圧縮を達成することができるように、現在の入力画像とターゲット品質インジケータに基づいて、基になるNICモデルの品質適応重みパラメータを適応的に計算するために使用される。
サイズ(h,w,c)の入力画像xが与えられ、ここでh,w,cはそれぞれ高さ、幅、チャネル数である場合、NICワークフローのテスト段階のターゲットは次のように記述することができる。入力画像xは、通常の画像フレーム(t=1)、1より多い画像フレーム(t>1)を含む4次元ビデオシーケンスなどであり得る。各画像フレームは、カラー画像(c=3)、グレースケール画像(c=1)、rgb+深度画像(c=4)などであ得る。格納および送信用にコンパクトである圧縮表現
(外1)
Figure 2023525673000001
が計算される。その後、圧縮表現
(外1)
Figure 2023525673000002
に基づいて出力画像
(外2)
Figure 2023525673000003
が再構成され、再構成された出力画像
(外2)
Figure 2023525673000004
は元の入力画像xに似ている場合がある。歪み損失
(外3)
Figure 2023525673000005
は、ピーク信号対雑音比(PSNR)または構造類似性指標測定(structural similarity index measure)(SSIM)などの再構成エラー(reconstruction error)を測定するために使用される。レート損失
(外4)
Figure 2023525673000006
が、圧縮表現
(外1)
Figure 2023525673000007
のビット消費(bit consumption)を測定するために計算される。トレードオフハイパーパラメータλが、ジョイントレート歪み(joint Rate-Distortion)(R-D)損失を形成するために使用される:
Figure 2023525673000008
大きなハイパーパラメータλでトレーニングすることは、より小さい歪みだがより多いビット消費を伴う圧縮モデルをもたらし、その逆も同様である。従来、各事前に定義されたハイパーパラメータλについて、NICモデルインスタンスがトレーニングされるが、これはハイパーパラメータλの他の値に対してはうまく機能しない。したがって、圧縮ストリームの複数のビットレートを実現するために、従来の方法は複数のモデルインスタンスをトレーニングすることおよび格納することを必要とする場合がある。さらに、実際にはハイパーパラメータλのすべての可能な値に対してモデルをトレーニングすることは困難であるため、従来の方法では、任意のスムーズなビットレート制御などの任意のスムーズな品質制御を実現することはできない。加えて、モデルインスタンスは、各タイプのメトリック(metric)(たとえば、各歪みメトリック、すなわち、PSNR、SSIM、両方の重み付けされた組み合わせ、またはその他のメトリック)によって測定される損失を最適化するようにトレーニングする必要があり、従来の方法ではスムーズな品質メトリック制御を実現することができない。
図3Aおよび図3Bは、実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のためのメタNICアーキテクチャ300Aおよび300Bのブロック図である。
図3Aに示すように、メタNICアーキテクチャ300Aは、共有エンコーディングNN305、適応エンコーディングNN310、共有デコーディングNN315および適応デコーディングNN320を含む。
図3Bに示すように、メタNICアーキテクチャ300Bは、共有エンコーディング層325および330、適応エンコーディング層335および340、共有デコーディング層345および350、適応デコーディング層355および360を含む。
本開示では、基礎となるNICエンコーダと基礎となるNICデコーダのモデルパラメータを4つの部分
(外5)
Figure 2023525673000009

(外6)
Figure 2023525673000010

(外7)
Figure 2023525673000011

(外8)
Figure 2023525673000012

に分離し、それぞれ、共有エンコーディングパラメータ(SEP)、適応エンコーディングパラメータ(AEP)、共有デコーディングパラメータ(SDP)、および適応デコーディングパラメータ(ADP)を示す。図3Aおよび図3Bは、NICネットワークアーキテクチャの2つの実施形態を示している。
図3Aでは、SEP、SDP、AEP、およびADPは個別のNNモジュールに分離され、これらの個別モジュールは、ネットワーク前向き計算(network forward computation)のために順次相互に接続される。ここで、図3Aは、これらの個々のNNモジュールを接続する順序を示している。ここでは他の順序を使用することもできる。
図3Bでは、パラメータ分割はNN層内にある。
(外9)
Figure 2023525673000013

(外10)
Figure 2023525673000014

(外11)
Figure 2023525673000015

(外12)
Figure 2023525673000016
がNICエンコーダのi番目の層およびNICデコーダのj番目の層のSEP、AEP、SDP、およびADPをそれぞれ示すとする。ネットワークは、SEPおよびAEP(またはSDPおよびADP)それぞれに対応する入力に基づいて推論出力を計算し、これらの出力は結合され(例えば、加算、連結、乗算などによって)、その後、次の層に送信される。
図3Aの実施形態は、図1Bの場合として見ることができ、ここでは、共有エンコーディングNN305の層
(外10)
Figure 2023525673000017
が空であり、適応エンコーディングNN310の層
(外9)
Figure 2023525673000018
が空であり、共有デコーディングNN315の層
(外11)
Figure 2023525673000019
が空であり、適応デコーディングNN320の層
(外12)
Figure 2023525673000020
が空である。したがって、他の実施形態では、図3Aおよび図3Bのネットワーク構造を組み合わせることができ、ここではNICアーキテクチャは、純粋に共有されたエンコーディング/デコーディング層および/または純粋に適応されたエンコーディング/デコーディング層と、部分的に共有されたエンコーディング/デコーディングパラメータおよび部分的に適応されたエンコーディング/デコーディングパラメータを持つ混合層の両方を含む。
図4Aは、実施形態による、テスト段階の間のメタ学習によるレート制御(rate control)を用いた適応ニューラル画像圧縮のための装置400のブロック図である。
図4Aに示すように、装置400はメタNICエンコーダ410とメタNICデコーダ420を含む。
図4Aは、メタNICフレームワークのテスト段階の全体的なワークフローを示している。
(外9)
Figure 2023525673000021
および
(外10)
Figure 2023525673000022
がメタNICエンコーダ410のi番目の層のSEPおよびAEPをそれぞれと表すとする。これは、完全に共有されている層について、
(外10)
Figure 2023525673000023
が空であるため、例示的な表記である。完全に適応(adaptive)する層について、
(外9)
Figure 2023525673000024
は空である。言い換えれば、この表記法は図3Aと図3Bの両方の実施形態に使用できる。
入力画像xが与えられ、ターゲット品質制御パラメータΛが与えられると、メタNICエンコーダ410は圧縮表現
(外1)
Figure 2023525673000025
を計算する。ターゲット品質制御パラメータΛは、ターゲット品質メトリック、ターゲットビットレートなどを含むターゲット圧縮品質を示す。ターゲット品質制御パラメータΛについて、qを(PSNR、SSIMなどのような)品質メトリック
(外13)
Figure 2023525673000026
の数とすると、全体的な品質メトリックは、概して品質メトリックの数の重み付けされた組み合わせとして表される:
Figure 2023525673000027
ここで、重みw≧0である。いくつかの実施形態では、ターゲット品質制御パラメータΛは、すべての重みwとターゲットトレードオフハイパーパラメータλからなる単一ベクトルであり得る:Λ=[w、...w、λ]。単一の品質メトリック
(外14)
Figure 2023525673000028
のみが使用されている場合、任意のi≠jに対してw=1およびw=0である。上記が当てはまる実施形態では、ターゲット品質制御パラメータΛは、ターゲットトレードオフハイパーパラメータλのみを含むように減らされ得る:Λ=λ。
メタNICエンコーダ410では、入力画像xはメタNICエンコーディングNNを通過する。f(i)およびf(i+1)がi番目の層の入力テンソルおよび出力テンソルを表すとする。
図4Bは、図4Aに示した装置400のメタNICエンコーダ410のブロック図である。
図4Bに示すように、メタNICエンコーダ410は、SEP推論部412、AEP予測部414およびAEP推論部416を含む。
図4Bはi番目の層に対するメタNICエンコーダ410の推論ワークフローの例示的な実施形態を示す。現在の入力f(i)およびSEP
(外9)
Figure 2023525673000029
に基づいて、SEP推論部412は、i番目の層のSEPを使用して前向き計算によってモデル化される共有推論関数
(外15)
Figure 2023525673000030
に基づいて共有特徴g(i)を計算する。現在の入力f(i)、共有特徴g(i)、AEP
(外10)
Figure 2023525673000031
およびターゲット品質制御パラメータΛに基づいて、AEP予測部414は、i番目の層の推定AEP
(外16)
Figure 2023525673000032
を計算する。AEP予測部414は、例えば、畳み込みおよび完全に接続された層を含むNNであり得、これは元のAEP
(外10)
Figure 2023525673000033
、現在の入力f(i)、およびターゲット品質制御パラメータΛに基づいて更新された推定AEP
(外16)
Figure 2023525673000034
を予測する。いくつかの実施形態では、現在の入力f(i)は、AEP予測部414への入力として使用される。他のいくつかの実施形態では、共有特徴g(i)が現在の入力f(i)の代わりに使用される。他の実施形態では、共有特徴g(i)に基づいてSEP損失を計算することができ、損失の勾配がAEP予測部414への入力として使用される。推定AEP
(外16)
Figure 2023525673000035
および共有特徴g(i)に基づいて、AEP推論部416は、第i番目の層の推定AEPを使用して前向き計算によってモデル化されたAEP推論関数
(外17)
Figure 2023525673000036
に基づく出力テンソルf(i+1)を計算する。
なお、図4Bに示したワークフローは例示的な表記である。空であるAEP
(外10)
Figure 2023525673000037
と完全に共有されている層について、AEP関連モジュールおよびf(i+1)=g(i)は省略され得る。空であるSEP
(外9)
Figure 2023525673000038
と完全に適応する層について、SEP関連モジュールおよびg(i)=f(i)は省略され得る。
メタNICエンコーダ410に合計N層があると仮定すると、最後の層の出力は圧縮表現
(外1)
Figure 2023525673000039
であり、これは、メタNICデコーダ420に送信される(例えば、量子化およびエントロピーエンコーディングによってコンパクトなビットストリームにさらに圧縮された後)。
再び図4Aを参照すると、デコーダ側で、
(外11)
Figure 2023525673000040
および
(外12)
Figure 2023525673000041
がメタNICデコーダ420のj番目の層のSDPおよびADPをそれぞれ表すとする。メタNICエンコーダ410と同様に、これは例示的な表記であり、完全に共有されている層の場合、
(外12)
Figure 2023525673000042
は空であり、完全に適応可能な層の場合、
(外11)
Figure 2023525673000043
は空であるためである。
デコーダ側では、復元された圧縮表現
(外18)
Figure 2023525673000044
が、メタNICエンコーダ410から送信されたビットストリームから、エントロピーデコーディングおよび逆量子化によって得られる。復元された圧縮表現
(外18)
Figure 2023525673000045
およびターゲット品質制御パラメータΛに基づいて、メタNICデコーダ420は、再構成された出力画像
(外2)
Figure 2023525673000046
を計算する。メタNICデコーダ420では、復元された圧縮表現
(外18)
Figure 2023525673000047
がメタNICデコーディングNNを通過する。f(j)およびf(j+1)をj番目の層の入力テンソルと出力テンソルとする。
図4Cは、図4Aに示した装置400のメタNICデコーダ420のブロック図である。
図4Cに示すように、メタNICデコーダ420は、SDP推論部422、ADP予測部424およびADP推論部426を含む。
図4Cは、j番目の層に対するメタNICデコーダ420の推論ワークフローの例示的な実施形態を与える。現在の入力f(j)およびSDP
(外11)
Figure 2023525673000048
に基づいて、SDP推論部422は、j番目の層のSDPを使用してネットワーク前向き計算によってモデル化される共有推論関数
(外19)
Figure 2023525673000049
に基づいて共有特徴g(j)を計算する。現在の入力f(j)、共有特徴g(j)、ADP
(外12)
Figure 2023525673000050
およびターゲット品質制御パラメータΛに基づいて、ADP予測部424は、j番目の層の推定ADP
(外20)
Figure 2023525673000051
を計算する。ADP予測部424は、例えば、畳み込みおよび完全に接続された層を持つNNであり得、これは元のADP
(外12)
Figure 2023525673000052
、現在の入力f(j)、およびターゲット品質制御パラメータΛに基づいて更新された推定ADP
(外20)
Figure 2023525673000053
を予測する。いくつかの実施形態では、現在の入力f(j)はADP予測部424への入力として使用される。他のいくつかの実施形態では、共有特徴g(j)は現在の入力f(j)の代わりに使用される。他の実施形態では、共有特徴g(j)に基づいてSDP損失が計算され、損失の勾配がADP予測部424への入力として使用される。推定ADP
(外20)
Figure 2023525673000054
および共有特徴g(j)に基づいて、ADP推論部426は、j番目の層の推定ADPを使用してネットワーク前向き計算によってモデル化されたADP推論関数
(外21)
Figure 2023525673000055
に基づいて出力テンソルf(j+1)を計算する。
なお、図4Cに示すワークフローは例示的な表記である。空であるADP
(外12)
Figure 2023525673000056
と完全に共有されている層について、ADP関連モジュールおよびf(j+1)=g(j)は省略され得る。空であるSDP
(外11)
Figure 2023525673000057
に完全に適合する層について、SDP関連モジュールおよびg(j)=f(j)は省略され得る。
メタNICデコーダ420に全部でM個の層があると仮定すると、最後の層の出力は再構成された画像出力
(外2)
Figure 2023525673000058
である。
いくつかの実施形態では、トレードオフハイパーパラメータλはエンコーダおよびデコーダに対して同じである。他のいくつかの実施形態では、ハイパーパラメータλは、メタNICエンコーダ410およびメタNICデコーダ420に対して異なることができる。このような場合、メタNICデコーダ420は圧縮表現を元のエンコーディングターゲット品質とは異なるターゲット品質に適応させようとする。
メタNICフレームワークは、任意のスムーズなトレードオフハイパーパラメータλと、異なる品質メトリックに対する任意のスムーズな組み合わせ重み(arbitrary smooth combining weights)wが可能であることに留意されたい。図4Cで説明されている処理ワークフローは、任意のスムーズターゲット品質制御パラメータΛに適合するように圧縮表現および再構成画像を計算する。
いくつかの実施形態では、ターゲット品質制御パラメータΛはエンコーダおよびデコーダに対して同じである。他のいくつかの実施形態では、ターゲット品質制御パラメータΛは、メタNICエンコーダ410およびメタNICデコーダ420に対して異なることができる。このような場合、メタNICデコーダ420は、圧縮表現を元のエンコーディングターゲット品質とは異なるターゲット品質に適応させようとする。
本開示の実施形態によれば、AEP予測部414およびADP予測部424が、入力f(i)またはf(j)を考慮して/考慮しないで、事前に定義されたトレードオフハイパーパラメータのセットについてのみ予測を実行する場合、事前に定義された一連の組み合わせ重み(例えば、i≠jについて、w=1且つw=0のみで歪みメトリック
(外22)
Figure 2023525673000059
をターゲットにする)については、メタNICモデルは、複数の事前に定義されたビットレートの圧縮効果に対応するために1つのモデルインスタンスを使用する歪みメトリック
(外22)
Figure 2023525673000060
のマルチレートNICモデルに縮小する。メタNICモデルは、同様に他のメトリックの別の特定のメタNICモデルに縮小し得る。
図5は、実施形態による、トレーニング段階の間のメタ学習によるレート制御を用いた適応ニューラル画像圧縮のためのトレーニング装置500のブロック図である。
図5に示すように、トレーニング装置500は、タスクサンプラ510、内部ループ損失生成器520、内部ループ更新部530、メタ損失生成器540、メタ更新部550および重み更新部560を含む。
トレーニングプロセスは、図4AのメタNICエンコーダ410のSEP
(外9)
Figure 2023525673000061
およびAEP
(外10)
Figure 2023525673000062
、i=1,...,N、および、図4AのメタNICデコーダ420のSDP
(外11)
Figure 2023525673000063
およびADP
(外12)
Figure 2023525673000064
、j=1,...,Mならびに、AEP予測NN(
(外23)
Figure 2023525673000065
と表記されるモデルパラメータ)およびADP予測NN(
(外24)
Figure 2023525673000066
と表記されるモデルパラメータ)を学習することを目的としている。
実施形態では、トレーニング目的のためにModel-Agnostic Meta-Learning(MAML)メカニズムが使用される。図5は、メタトレーニングフレームワークの例示的なワークフローを示している。他のメタトレーニングアルゴリズムが使用されることもできる。
トレーニングのために、トレーニングデータのセット
(外25)
Figure 2023525673000067
、i=1,...,Kがあり、各
(外25)
Figure 2023525673000068
はトレーニングターゲット品質制御パラメータΛに対応し、合計でKのトレーニング品質制御パラメータ(Kのトレーニングデータセット)がある。トレーニングのために、有限の重みの組み合わせのセットがあり得る。各重みの組み合わせw=a,...w=aに対して、kのトレードオフハイパーパラメータλのセットがあり得る。したがって、トレーニングデータ
(外25)
Figure 2023525673000069
は、各重みの組み合わせw=a,...w=aおよびトレードオフハイパーパラメータλに関連付けられ、ターゲット品質制御パラメータΛは、品質制御パラメータΛのアイテムの値を指定し、w=a,...w=a、λ=λである。加えて、検証データ
(外26)
Figure 2023525673000070
、j=1,...,Pのセットがあり、各
(外26)
Figure 2023525673000071
は、検証品質制御パラメータΛに対応し、合計でPの検証品質制御パラメータΛがある。検証品質制御パラメータは、トレーニングセットとは異なる値を含み得る。検証品質制御パラメータはまた、トレーニングセットのパラメータと同じ値を有し得る。
全体的なトレーニング目標は、ターゲット圧縮品質の広範なスムーズな範囲に対応する品質制御パラメータのすべての値(トレーニングおよび将来の見えない値を含む)に広く適用することができるように、メタNICモデルを学習することである。ターゲット品質制御パラメータを持つNICタスクがタスク配分P(Λ)から引き出されることを前提としている。前述のトレーニング目標を達成するために、メタNICモデルを学習するための損失が、すべてのトレーニング品質制御パラメータにわたるすべてのトレーニングデータセットにわたって最小限に抑えられる。
(外27)
Figure 2023525673000072
がSEPおよびSDPにすべての共有パラメータを含むとし、
(外28)
Figure 2023525673000073
がAEPおよびADPにすべての適応パラメータを含むとする。MAMLトレーニングプロセスは、勾配ベースのパラメータ更新のための外部ループおよび内部ループを有し得る。各外部ループの繰り返しについて、タスクサンプラ510はまずK’トレーニング品質制御パラメータのセットをサンプリングする(K’≦K)。次に、各サンプリングされたトレーニング品質制御パラメータΛについて、タスクサンプラ510はトレーニングデータ
(外25)
Figure 2023525673000074
のセットからトレーニングデータ
(外29)
Figure 2023525673000075
のセットをサンプリングする。また、タスクサンプラ510は、P’(P’≦P)検証品質制御パラメータのセットをサンプリングし、各サンプリングされた検証品質制御パラメータΛについて、検証データ
(外30)
Figure 2023525673000076
のセットから検証データ
(外31)
Figure 2023525673000077
のセットをサンプリングする。次に、サンプリングされた各データム
(外32)
Figure 2023525673000078
について、メタNIC前向き計算が現在のパラメータ
(外33)
Figure 2023525673000079

(外34)
Figure 2023525673000080

(外23)
Figure 2023525673000081
および
(外24)
Figure 2023525673000082
に基づいて行われ、次に内部ループ損失生成器520が累積内部ループ損失
(外35)
Figure 2023525673000083
を計算する。
Figure 2023525673000084
損失関数
(外36)
Figure 2023525673000085
は、式(1)のR-D損失および別の正則化損失(例えば、異なる品質制御パラメータをターゲットにする中間ネットワーク出力を区別する補助的な損失)を含み得る。次に、内部ループ損失
(外35)
Figure 2023525673000086
に基づいて、Λについての品質制御パラメータ/ハイパーパラメータとしてステップサイズαsiおよびαaiが与えられると、内部ループ更新部530は更新されたタスク固有パラメータ更新を計算する:
Figure 2023525673000087
および
Figure 2023525673000088
蓄積された内部ループ損失
(外35)
Figure 2023525673000089
の勾配
(外37)
Figure 2023525673000090
および勾配
(外38)
Figure 2023525673000091
は、それぞれ適応パラメータ
(外39)
Figure 2023525673000092
および
(外40)
Figure 2023525673000093
の更新バージョンを計算するために使用され得る。
次に、メタ損失生成器540は、すべてのサンプリングされた検証品質制御パラメータについて、外部メタ目標(outer meta objective)または損失を計算する:
Figure 2023525673000094
および
Figure 2023525673000095
ここで、
(外41)
Figure 2023525673000096
は、パラメータ
(外40)
Figure 2023525673000097

(外39)
Figure 2023525673000098

(外42)
Figure 2023525673000099

(外43)
Figure 2023525673000100

を使用したメタNIC前向き計算に基づいて入力xについて計算された損失である。AについてのハイパーパラメータΛjとしてステップサイズβajおよびβsjが与えられると、メタ更新部550はモデルパラメータを次のように更新する:
Figure 2023525673000101
および
Figure 2023525673000102
いくつかの実施形態では、
(外33)
Figure 2023525673000103
は内部ループで更新されない場合がある、すなわち、αsi=0、
(外44)
Figure 2023525673000104
。非更新は、トレーニングプロセスを安定させるのに役立つ。
AEP予測NNおよびADP予測NNのパラメータ
(外23)
Figure 2023525673000105

(外24)
Figure 2023525673000106
に関して、重み更新部560は通常のトレーニング方式でそれらを更新する。つまり、トレーニングおよび検証データ
(外25)
Figure 2023525673000107
、i=1,...,K、
(外26)
Figure 2023525673000108
、j=1,...,Pに従って、現在のパラメータ
(外33)
Figure 2023525673000109

(外34)
Figure 2023525673000110

(外23)
Figure 2023525673000111

(外24)
Figure 2023525673000112
に基づいて、すべてのサンプル
(外45)
Figure 2023525673000113
の損失
(外36)
Figure 2023525673000114
およびすべてのサンプル
(外46)
Figure 2023525673000115
の損失
(外47)
Figure 2023525673000116
が計算される。すべてのこれらの損失の勾配を蓄積して(例えば、合計して)、逆伝播によって
(外23)
Figure 2023525673000117

(外24)
Figure 2023525673000118
に対するパラメータの更新を実行することができる。
本開示の実施形態は、これらのモデルパラメータを更新するための上述の最適化アルゴリズムまたは損失関数に限定されない。当該技術分野で知られているこれらのモデルパラメータを更新するための任意の最適化アルゴリズムまたは損失関数が使用され得る。
図4BのAEP予測部414およびメタNICモデルのADP予測部424が、事前に定義されたトレーニング品質制御パラメータのセットおよび/または事前に定義されたメトリック組み合わせ重みのセットに対してのみ予測を実行する場合、検証品質制御パラメータはトレーニングパラメータと同じであり得る。前述の縮小メタNICモデル(つまり、1つのモデルインスタンスを使用して、事前に定義された複数のビットレートの圧縮効果に対応するマルチレートNICモデル)をトレーニングするために、同じMAMLトレーニング手順が使用され得る。
本開示の実施形態は、1つのメタNICモデルインスタンスのみを使用して、メタ学習を使用することによって任意のスムーズな品質制御を用いた画像圧縮を実現することを可能にする。ここに記載されている方法および装置は、単一モデルによるマルチレート圧縮とスムーズなビットレート制御の両方に使用され得る。ここで説明する実施形態は、単一モデルによるマルチメトリックおよびマルチレートの両方の圧縮、スムーズなビットレート制御、およびスムーズな品質メトリック制御に使用され得る。実施形態は、さまざまな基盤となるNICモデルおよびメタ学習方法に対応する柔軟なフレームワークを提供する。
図6は、実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮の方法600のフローチャートである。
図6に示すように、方法600の動作610において、入力画像およびターゲット品質制御パラメータが受信され得る。
本開示の実施形態によれば、ターゲット品質制御パラメータは、複数の重みおよびターゲットトレードオフハイパーパラメータを含み得る。例として、ターゲット品質制御パラメータΛは単一のベクトルであり得、Λ=[w,...w、λ]となるように、すべての重みwおよびターゲットトレードオフのハイパーパラメータλを含み得る。
動作620において、本方法は、共有推論関数を使用して、中間入力および第1の共有エンコーディングパラメータに基づいて、共有特徴を生成することを含み得る。例として、SEP推論部412は、中間入力f(i)および第1の共有エンコーディングパラメータSEP
(外9)
Figure 2023525673000119
に基づいて、共有推論関数
(外15)
Figure 2023525673000120
を使用して共有特徴g(i)を生成し得る。
動作630において、本方法は、予測ニューラルネットワークを使用して、中間入力、共有特徴、第1の適応エンコーディングパラメータ、およびターゲット品質制御パラメータに基づいて、第1の適応エンコーディングパラメータを更新することを含み得る。例として、AEP予測部414は、第1の適応エンコーディングパラメータ
(外10)
Figure 2023525673000121
、中間入力f(i)、共有特徴g(j)、およびターゲット品質制御パラメータΛに基づいて、第1の適応エンコーディングパラメータ
(外16)
Figure 2023525673000122
を更新し得る。
いくつかの実施形態では、予測ニューラルネットワークのトレーニングは、ターゲット品質制御パラメータ、第1の共有エンコーディングパラメータ、第1の適応エンコーディングパラメータ、第1の共有デコーディングパラメータ、第1の適応デコーディングパラメータ、および予測ニューラルネットワークの予測パラメータに基づいて、ターゲット品質制御パラメータに対応するトレーニングデータの第1の損失、およびターゲット品質制御パラメータに対応する検証データの第2の損失を生成することを含み得る。トレーニングは、生成された第1の損失および生成された第2の損失の勾配に基づいて、予測パラメータを更新することをさらに含み得る。例として、図5を参照すると、AEP予測NN(AEP予測部414の一部)およびADP予測NN(ADP予測部424の一部)のパラメータ
(外23)
Figure 2023525673000123

(外24)
Figure 2023525673000124
は、ターゲット品質制御パラメータΛ、予測パラメータ(
(外23)
Figure 2023525673000125

(外24)
Figure 2023525673000126
)、第1の共有パラメータ
(外33)
Figure 2023525673000127
、第1の適応パラメータ
(外34)
Figure 2023525673000128
、第1の損失
(外36)
Figure 2023525673000129
および第2の損失
(外47)
Figure 2023525673000130
に基づいて、重み更新部560によって更新される。これらすべての損失の勾配を蓄積(例えば、合計)して、逆伝播によって
(外23)
Figure 2023525673000131

(外24)
Figure 2023525673000132
に対するパラメータ更新を実行することができる。
動作640において、本方法は、共有特徴および更新された第1の適応エンコーディングパラメータに基づいて、エンコーディングニューラルネットワークの品質適応重みパラメータを生成することを含み得る。例として、AEP推論部416は、共有特徴g(j)および更新された第1の適応エンコーディングパラメータ
(外16)
Figure 2023525673000133
の組み合わせに基づいて、エンコーディングニューラルネットワークの品質適応重みパラメータを生成し得る。
動作650において、方法600は、圧縮表現を生成するように、ターゲット品質制御パラメータに基づいて、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して入力画像をエンコーディングすることをさらに含み得、品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される。例として、エンコーディングニューラルネットワークの最後の層の出力として、本方法は、圧縮表現
(外1)
Figure 2023525673000134
を生成するために入力画像をエンコーディングすることを含み得る。
いくつかの実施形態では、入力画像をエンコーディングすることは、品質適応重みパラメータおよびターゲット品質制御パラメータに基づいて圧縮表現を生成することを含み得る。
いくつかの実施形態では、方法600は、動作610の後に動作650を実行することを含み得る。このような例示的な実施形態では、入力画像のエンコーディングは、動作620-640を含み得る。いくつかの実施形態では、圧縮表現を生成するための入力画像のエンコーディングは、装置300A、300B、および410に実装されたメタNICモデルのような、メタNICモデルの複数の層に対して繰り返される動作615-630を含み得る。
図6は方法600のブロック例を示しているが、いくつかの実装では、方法600は、図6に示されているものよりも、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含み得る。追加的に、または代替的に、方法600のブロックの2つ以上は並行して実行され得る。
図7は、実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮の方法700のフローチャートである。
図7に示すように、方法700は、動作710において、復元された圧縮表現およびデコーディングターゲット品質制御パラメータを受信することを含む。
いくつかの実施形態では、デコーディングターゲット品質制御パラメータは、複数の重みおよびターゲットトレードオフハイパーパラメータを含む。
動作720において、本方法は、共有デコーディング推論関数を使用して、中間デコーディング入力および第1の共有デコーディングパラメータに基づいて、共有デコーディング特徴を生成することを含み得る。例として、SDP推論部422は、共有推論関数
(外48)
Figure 2023525673000135
を使用して中間入力f(j)および第1の共有デコーディングパラメータSDP
(外11)
Figure 2023525673000136
に基づいて、共有特徴g(j)を生成し得る。
動作730において、本方法は、予測ニューラルネットワークを使用して、中間デコーディング入力、共有デコーディング特徴、第1の適応デコーディングパラメータ、およびデコーディングターゲット品質制御パラメータに基づいて、第1の適応デコーディングパラメータを更新することを含み得る。例として、ADP予測部424は、第1の適応デコーディングパラメータ
(外12)
Figure 2023525673000137
、中間入力f(j)、共有デコーディング特徴g(j)、およびターゲット品質制御パラメータΛに基づいて、第1の適応デコーディングパラメータ
(外20)
Figure 2023525673000138
を更新し得る。
いくつかの実施形態では、予測ニューラルネットワークのトレーニングは、ターゲット品質制御パラメータ、第1の共有エンコーディングパラメータ、第1の適応エンコーディングパラメータ、第1の共有デコーディングパラメータ、第1の適応デコーディングパラメータ、および予測ニューラルネットワークの予測パラメータに基づいて、ターゲット品質制御パラメータに対応するトレーニングデータの第1の損失、およびターゲット品質制御パラメータに対応する検証データの第2の損失を生成することを含み得る。トレーニングは、さらに、生成された第1の損失および生成された第2の損失の勾配に基づいて、予測パラメータを更新することを含み得る。例として、図5を参照すると、AEP予測NN(AEP予測部414の一部)およびADP予測NN(ADP予測部424の一部)のパラメータ
(外23)
Figure 2023525673000139

(外24)
Figure 2023525673000140
は、ターゲット品質制御パラメータΛ、予測パラメータ(
(外23)
Figure 2023525673000141

(外24)
Figure 2023525673000142

、第1の共有パラメータ
(外33)
Figure 2023525673000143
、第1の適応パラメータ
(外34)
Figure 2023525673000144
、第1の損失
(外36)
Figure 2023525673000145
および第2の損失
(外47)
Figure 2023525673000146
に基づいて、重み更新部560によって更新される。これらすべての損失の勾配を蓄積(例えば、合計)して、逆伝播によって
(外23)
Figure 2023525673000147

(外24)
Figure 2023525673000148
に対するパラメータ更新を実行することができる。
動作740において、本方法は、共有デコーディング特徴および更新された第1の適応デコーディングパラメータに基づいて、デコーディングニューラルネットワークのデコーディング品質適応重みパラメータを生成することを含み得る。例として、ADP推論部426は、共有デコーディング特徴g(j)および更新された第1の適応エンコーディングパラメータ
(外20)
Figure 2023525673000149
の組み合わせに基づいて、エンコーディングニューラルネットワークのためのデコーディング品質適応重みパラメータを生成し得る。
動作750において、方法700は、出力画像を再構成するために、デコーディングターゲット品質制御パラメータに基づいて、デコーディング品質適応重みパラメータを持つデコーディングニューラルネットワークを使用して、受信した復元された圧縮表現をデコーディングすることを含み得、デコーディング品質適応重みパラメータは、共有デコーディングパラメータおよび適応デコーディングパラメータを使用して計算される。例として、デコーディングニューラルネットワークの最後の層の出力として、本方法は、デコーディングターゲット品質制御パラメータに基づいて出力画像
(外2)
Figure 2023525673000150
を再構成することを含み得る。
いくつかの実施形態では、受信した復元された圧縮表現をデコーディングすることは、デコーディング品質適応重みパラメータおよびデコーディングターゲット品質制御パラメータに基づいて出力画像を再構成することを含み得る。
いくつかの実施形態では、方法600のターゲット品質制御パラメータおよび方法700のデコーディングターゲット品質制御パラメータは異なる場合がある。したがって、圧縮表現の画像プロパティ(image properties)は、再構成された出力画像の画像プロパティとは異なる場合がある。
本開示の実施形態によれば、方法600および700におけるエンコーディングおよびデコーディングニューラルネットワークのそれぞれのトレーニングは、ターゲット品質制御パラメータ、第1の共有エンコーディングパラメータ、第1の適応エンコーディングパラメータ、第1の共有デコーディングパラメータ、および第1の適応デコーディングパラメータに基づいて、ターゲット品質制御パラメータに対応するトレーニングデータの内部ループ損失を生成することを含み得る;続いて、生成された内部ループ損失の勾配に基づいて、第1の共有エンコーディングパラメータ、第1の適応エンコーディングパラメータ、第1の共有デコーディングパラメータおよび第1の適応デコーディングパラメータを第1に更新する(first updating)。トレーニングはさらに、ターゲット品質制御パラメータ、第1に更新された第1の共有エンコーディングパラメータ、第1に更新された第1の適応エンコーディングパラメータ、第1に更新された第1の共有デコーディングパラメータ、および第1に更新された第1の適応デコーディングパラメータに基づいて、ターゲット品質制御パラメータに対応する検証データのメタ損失を生成することを含み得る;続いて、生成されたメタ損失の勾配に基づいて、第1に更新された第1の共有エンコーディングパラメータ、第1に更新された第1の適応エンコーディングパラメータ、第1に更新された第1の共有デコーディングパラメータ、および第1に更新された第1の適応デコーディングパラメータを第2に更新する(second updating)。例として、図5を参照すると、内部ループ損失生成器520は、次いで内部ループ更新部530によって更新されるトレーニングデータに関連する内部ループ損失を生成し得、メタ損失生成器540は、次いでメタ更新部550によって更新される検証データのメタ損失を生成し得る。
図7は、方法700の例示的なブロックを示しているが、いくつかの実装では、方法700は、図7に示されているものよりも、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含み得る。追加的に、または代替的に、方法700の複数のブロックを並行に実行し得る。
提案された方法は、個別に使用され得る、または、任意の順序で組み合わされ得る。さらに、方法(または実施形態)、エンコーダ、デコーダのそれぞれは、処理回路(例えば、1つ以上のプロセッサまたは1つ以上の集積回路)によって実装され得る。1つの例では、1つ以上のプロセッサは、非一時的コンピュータ可読媒体に格納されているプログラムを実行する。
上記の開示は、図示と説明を提供するが、網羅的であることまたは開示された正確な形態に実装を限定することを意図していない。修正および変形が、上記の開示に照らして可能である、または実装の実施から取得され得る。
ここで使用されるとき、コンポーネントという用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせとして広く解釈されることが意図される。
ここに記載されているシステムおよび/または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせの異なる形態で実装され得ることは明らかである。これらのシステムおよび/または方法を実装するために使用される実際の特殊な制御ハードウェアまたはソフトウェアコードは、実装を限定するものではない。したがって、システムおよび/または方法の動作および挙動は、特定のソフトウェアコードを参照することなくここに記述されていた-ソフトウェアおよびハードウェアは、ここでの記述に基づいてシステムおよび/または方法を実装するように設計され得ることが理解される。
機能の組み合わせが請求項に記載されているおよび/または明細書に開示されているが、これらの組み合わせは可能な実装の開示を限定することを意図していない。実際、これらの特徴の多くは、請求項に具体的に記載されていない方法および/または明細書に開示されていない方法で組み合わされ得る。以下に列挙されている各従属請求項は、1つの請求項のみに直接従属する場合があるが、可能な実装の開示は、請求項のセット内の他のすべての請求項と組み合わせた各従属請求項を含む。
ここで使用される要素、動作、または指示は、明示的にそのように記述されていない限り、重要または不可欠であると解釈することはできない。また、ここで使用されるとき、冠詞「1つの(aおよびan)」は1つまたは複数のアイテムを含むことを意図しており、「1つまたは複数(1つ以上)」と同じ意味で使用され得る。さらに、ここで使用されるとき、「セット」という用語は、1つまたは複数のアイテム(例えば、関連するアイテム、無関係なアイテム、関連するアイテムと無関係なアイテムの組み合わせなど)を含むことを意図しており、「1つまたは複数」と同じ意味で使用され得る。1つのアイテムのみが意図される場合、用語「1つ」または類似の言語が使用される。また、ここで使用されるとき、「有する(has)」、「有する(have)」、「有している(having)」などの用語は、オープンエンドの用語であることが意図される。さらに、「に基づく」という表現は、特に明示されていない限り、「少なくとも部分的に、基づく」を意味することが意図される。

Claims (12)

  1. メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法であって、前記方法は、少なくとも1つのプロセッサによって実行され、前記方法は:
    入力画像およびターゲット品質制御パラメータを受信するステップ;および
    圧縮表現を生成するように、前記ターゲット品質制御パラメータに基づいて、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して前記入力画像をエンコーディングするステップであって、前記品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される、ステップ;を含む、
    方法。
  2. 前記エンコーディングニューラルネットワークの前記品質適応重みパラメータを生成することが:
    共有推論関数を使用して、中間入力および第1の共有エンコーディングパラメータに基づいて共有特徴を生成するステップと;
    第1の適応エンコーディングパラメータを、予測ニューラルネットワークを使用して、前記中間入力、前記共有特徴、前記第1の適応エンコーディングパラメータ、および前記ターゲット品質制御パラメータに基づいて、更新するステップ;および
    前記共有特徴および更新された前記第1の適応エンコーディングパラメータに基づいて、前記エンコーディングニューラルネットワークの前記品質適応重みパラメータを生成するステップ;を含む、
    請求項1に記載の方法。
  3. 前記入力画像をエンコーディングするステップは、前記品質適応重みパラメータおよび前記ターゲット品質制御パラメータに基づいて前記圧縮表現を生成するステップを含む、
    請求項2に記載の方法。
  4. 前記ターゲット品質制御パラメータは、複数の重みおよびターゲットトレードオフハイパーパラメータを含む、
    請求項1に記載の方法。
  5. 復元された圧縮表現およびデコーディングターゲット品質制御パラメータを受信するステップ;および
    出力画像を再構成するために、前記デコーディングターゲット品質制御パラメータに基づいて、デコーディング品質適応重みパラメータを持つデコーディングニューラルネットワークを使用して、受信した前記復元された圧縮表現をデコーディングするステップであって、前記デコーディング品質適応重みパラメータは、共有デコーディングパラメータおよび適応デコーディングパラメータを使用して計算される、ステップ;をさらに含む、
    請求項1に記載の方法。
  6. 前記デコーディングニューラルネットワークの前記デコーディング品質適応重みパラメータを生成することが:
    共有デコーディング推論関数を使用して、中間デコーディング入力および第1の共有デコーディングパラメータに基づいて、共有デコーディング特徴を生成するステップと;
    第1の適応デコーディングパラメータを、予測ニューラルネットワークを使用して、前記中間デコーディング入力、前記共有デコーディング特徴、前記第1の適応デコーディングパラメータ、および前記デコーディングターゲット品質制御パラメータに基づいて、更新するステップ;および
    前記共有デコーディング特徴および更新された前記第1の適応デコーディングパラメータに基づいて、前記デコーディングニューラルネットワークの前記デコーディング品質適応重みパラメータを生成するステップ;を含む、
    請求項5に記載の方法。
  7. 前記予測ニューラルネットワークは:
    前記ターゲット品質制御パラメータ、前記第1の共有エンコーディングパラメータ、前記第1の適応エンコーディングパラメータ、第1の共有デコーディングパラメータ、第1の適応デコーディングパラメータ、前記予測ニューラルネットワークの予測パラメータに基づいて、前記ターゲット品質制御パラメータに対応するトレーニングデータの第1の損失、および前記ターゲット品質制御パラメータに対応する検証データの第2の損失を生成するステップ;および
    生成された前記第1の損失および生成された前記第2の損失の勾配に基づいて、前記予測パラメータを更新するステップ;
    によってトレーニングされる、
    請求項2に記載の方法。
  8. 前記エンコーディングニューラルネットワークは:
    前記ターゲット品質制御パラメータ、前記第1の共有エンコーディングパラメータ、前記第1の適応エンコーディングパラメータ、第1の共有デコーディングパラメータ、および第1の適応デコーディングパラメータに基づいて、前記ターゲット品質制御パラメータに対応するトレーニングデータの内部ループ損失を生成するステップ;
    生成された前記内部ループ損失の勾配に基づいて、前記第1の共有エンコーディングパラメータ、前記第1の適応エンコーディングパラメータ、前記第1の共有デコーディングパラメータおよび前記第1の適応デコーディングパラメータを第1に更新するステップ;
    前記ターゲット品質制御パラメータ、第1に更新された前記第1の共有エンコーディングパラメータ、第1に更新された前記第1の適応エンコーディングパラメータ、第1に更新された前記第1の共有デコーディングパラメータ、および第1に更新された前記第1の適応デコーディングパラメータに基づいて、前記ターゲット品質制御パラメータに対応する検証データのメタ損失を生成するステップ;および
    生成された前記メタ損失の勾配に基づいて、前記第1に更新された第1の共有エンコーディングパラメータ、前記第1に更新された第1の適応エンコーディングパラメータ、前記第1に更新された第1の共有デコーディングパラメータ、および前記第1に更新された第1の適応デコーディングパラメータを第2に更新するステップ;
    請求項2に記載の方法。
  9. 前記ターゲット品質制御パラメータおよび前記デコーディングターゲット品質制御パラメータは異なり、前記圧縮表現の画像プロパティが再構成された前記出力画像の画像プロパティと異なる、
    請求項5に記載の方法。
  10. 装置であって:
    プログラムコードを格納するように設定された少なくとも1つのメモリと;
    前記プログラムコードを読み取り、前記プログラムコードによって指示されるように動作するように構成された少なくとも1つのプロセッサと;を有し、
    前記プログラムコードは、前記少なくとも1つのプロセッサに、請求項1乃至9のいずれか1項に記載の方法を実行させる、
    装置。
  11. 命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、少なくとも1つのプロセッサによって実行されるとき、前記少なくとも1つのプロセッサに、請求項1乃至9のいずれか1項に記載の方法を実行させる、非一時的コンピュータ可読媒体。
  12. 少なくとも1つのプロセッサによって実行されるとき、前記少なくとも1つのプロセッサに、請求項1乃至9のいずれか1項に記載の方法を実行させる、コンピュータプログラム。
JP2022565776A 2021-04-14 2022-03-25 メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム Active JP7434605B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163174927P 2021-04-14 2021-04-14
US63/174,927 2021-04-14
US17/703,527 US20220335656A1 (en) 2021-04-14 2022-03-24 Adaptive neural image compression with smooth quality control by meta-learning
US17/703,527 2022-03-24
PCT/US2022/021963 WO2022221027A1 (en) 2021-04-14 2022-03-25 Adaptive neural image compression with smooth quality control by meta-learning

Publications (2)

Publication Number Publication Date
JP2023525673A true JP2023525673A (ja) 2023-06-19
JP7434605B2 JP7434605B2 (ja) 2024-02-20

Family

ID=83601598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022565776A Active JP7434605B2 (ja) 2021-04-14 2022-03-25 メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム

Country Status (6)

Country Link
US (1) US20220335656A1 (ja)
EP (1) EP4100811A4 (ja)
JP (1) JP7434605B2 (ja)
KR (1) KR20220154768A (ja)
CN (1) CN115461783A (ja)
WO (1) WO2022221027A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129381B2 (en) * 2003-06-26 2015-09-08 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
WO2010057170A1 (en) 2008-11-17 2010-05-20 Cernium Corporation Analytics-modulated coding of surveillance video
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US10748062B2 (en) * 2016-12-15 2020-08-18 WaveOne Inc. Deep learning based adaptive arithmetic coding and codelength regularization
JP2020022145A (ja) 2018-08-03 2020-02-06 日本放送協会 符号化装置、復号装置、学習装置及びプログラム

Also Published As

Publication number Publication date
WO2022221027A1 (en) 2022-10-20
US20220335656A1 (en) 2022-10-20
JP7434605B2 (ja) 2024-02-20
EP4100811A4 (en) 2023-08-02
KR20220154768A (ko) 2022-11-22
EP4100811A1 (en) 2022-12-14
CN115461783A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
JP7416489B2 (ja) 深層強化学習を用いたエンドツーエンドのタスク指向型潜在圧縮のための方法、装置およびコンピュータプログラム
JP7420942B2 (ja) 敵対的生成器を用いたレート適応ニューラル画像圧縮のための方法及び装置
JP7374340B2 (ja) ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム
JP7418570B2 (ja) スタック可能ネスト化モデル構造を用いたマルチレート・ニューラルイメージ圧縮のための方法および装置
JP7471733B2 (ja) 滑らかな品質制御による適応ニューラル画像圧縮のための代替の入力最適化
US20230122449A1 (en) Substitutional quality factor learning in the latent space for neural image compression
JP7447253B2 (ja) エンドツーエンド画像圧縮のための特徴置換のための方法、装置およびコンピュータプログラム
JP7434605B2 (ja) メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム
JP7471730B2 (ja) メタ学習によるレート制御を用いた適応ニューラル画像圧縮のための方法、装置及びプログラム
JP7411117B2 (ja) メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム
JP7425870B2 (ja) 積み重ね可能な入れ子モデル構造及びマイクロ構造化された重み統一によるマルチレートニューラル画像圧縮のための方法及び装置
JP7342265B2 (ja) μ構造化ネストマスク及び重み単一化によるマルチレートニューラル画像圧縮モデルを圧縮及び加速するための方法及び装置
JP2024518239A (ja) ニューラル画像圧縮における反復的なコンテンツ適応型オンライントレーニングのためのシステム、方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240207

R150 Certificate of patent or registration of utility model

Ref document number: 7434605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150