JP2023525673A

JP2023525673A - メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム

Info

Publication number: JP2023525673A
Application number: JP2022565776A
Authority: JP
Inventors: ジャン，ウェイ; ワン，ウェイ; シュー，シャオゾン; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-04-14
Filing date: 2022-03-25
Publication date: 2023-06-19
Anticipated expiration: 2042-03-25
Also published as: WO2022221027A1; US20220335656A1; JP7434605B2; EP4100811A4; KR20220154768A; EP4100811A1; CN115461783A

Abstract

メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法および装置は、入力画像およびターゲット品質制御パラメータを受信するステップと；圧縮表現を生成するように、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して、ターゲット品質制御パラメータに基づいて、入力画像をエンコーディングするステップであって、品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される、ステップとを含む。

Description

［関連出願の相互参照］
本出願は、2021年4月14日に出願された米国仮特許出願No.63/174,927に基づくとともにその優先権を主張し、その開示はその全体が参照により本出願に組み込まれる。

ISO/IEC MPEG（JTC 1/SC 29/WG 11）は、将来のビデオコーディング技術の標準化に対する潜在的なニーズを積極的に探してきた。ISO/IEC JPEGは、ニューラルネットワーク（NN）を使用したAIベースのエンドツーエンドニューラル画像圧縮（NIC）に焦点を当てたJPEG-AIグループを設立した。最近のアプローチの成功により、高度なニューラル画像およびビデオ圧縮方法論に対する産業界の関心がますます高まっている。

以前のアプローチでは有望なパフォーマンスが示されていたが、柔軟なビットレート制御は以前のNIC方法では依然として困難な問題である。従来は、レートと歪み（圧縮された画像の品質）との間のそれぞれの望ましいトレードオフを個別にターゲットとする複数のモデルインスタンス（model instances）をトレーニングする必要がある場合がある。これらの複数のモデルインスタンスはすべて、異なるビットレートから画像を再構成するためにデコーダ側に格納および展開されることがある。また、これらのモデルインスタンスは、可能なすべてのターゲットビットレートに対して無限の数のモデルインスタンスをトレーニングして格納することが困難であるため、任意のスムーズなビットレート制御を行うことはできない。以前のアプローチでは、１つのモデルインスタンスが複数の事前定義されたビットレートの圧縮を実現するようにトレーニングされるマルチレートNICが研究されていた。しかし、任意のスムーズなビットレート制御は未開拓の未解決な問題のままである。

実施形態によれば、メタ学習によるスムーズな品質制御を用いた（with smooth quality control）適応ニューラル画像圧縮（adaptive neural image compression）の方法が提供される。少なくとも１つのプロセッサによって実行される方法は、入力画像およびターゲット品質制御パラメータを受信するステップと；圧縮表現を生成するように、ターゲット品質制御パラメータに基づいて、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して入力画像をエンコーディングするステップであって、品質適応重みパラメータは、共有エンコーディングパラメータ（shared encoding parameters）および適応エンコーディングパラメータ（adaptive encoding parameters）を使用して計算される、ステップと；を含む。

実施形態によれば、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための装置が提供される。装置は、プログラムコードを格納するように構成された少なくとも１つのメモリと；プログラムコードを読み取り、プログラムコードによって指示されるよう動作するように構成された少なくとも１つのプロセッサと；を含む。プログラムコードは、少なくとも１つのプロセッサに入力画像およびターゲット品質制御パラメータを受信させるように構成された第１の受信コードと；圧縮表現を生成するように、少なくとも１つのプロセッサに入力画像を、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して、ターゲット品質制御パラメータに基づいてエンコーディングさせるように構成された第1のエンコーディングコードであって、品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される、第１のエンコーディングコードと；を含む。

実施形態によれば、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための命令を格納する非一時的コンピュータ可読媒体が提供される。この命令は、少なくとも１つのプロセッサによって実行されるとき、少なくとも１つのプロセッサに入力画像およびターゲット品質制御パラメータを受信させ；圧縮表現を生成するように、ターゲット品質制御パラメータに基づいて、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して入力画像をエンコーディングさせ、品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される。

実施形態による、本明細書に記載される方法、装置およびシステムが実装され得る環境の図である。

図１の１つ以上のデバイスの例示的なコンポーネントのブロック図である。

実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のためのメタＮＩＣアーキテクチャのブロック図である。

実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための装置のブロック図である。

図４Ａに示した装置のメタＮＩＣエンコーダのブロック図である。

図４Ａに示した装置のメタＮＩＣデコーダのブロック図である。

実施形態による、トレーニング段階中の、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のためのトレーニング装置のブロック図である。

実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮の方法のフローチャートである。

本開示は、ＮＩＣにおける任意のスムーズな品質制御のためのメタニューラル画像圧縮（メタＮＩＣ（meta-NIC））フレームワークのための方法および装置を説明する。メタ学習メカニズムが、現在の入力画像およびターゲット品質インジケータに基づいて、基になるＮＩＣモデルの品質適応重みパラメータ（quality-adaptive weight parameters）を適応的に計算するために使用され、その結果、単一のメタＮＩＣモデルインスタンスが任意のスムーズなターゲット品質を持つ画像圧縮を実現することができる。

図１は、実施形態による、本明細書に記載された方法、装置およびシステムが実装され得る環境１００の図である。

図１に示すように、環境１００は、ユーザデバイス１１０、プラットフォーム１２０、およびネットワーク１３０を含み得る。環境１００のデバイスは、有線接続、無線接続、または有線接続と無線接続の組み合わせを介して相互接続し得る。

ユーザデバイス１１０は、プラットフォーム１２０に関連する情報を受信、生成、格納、処理、および／または提供することができる１つまたは複数のデバイスを含む。例えば、ユーザデバイス１１０は、コンピューティングデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど）、携帯電話（例えば、スマートフォン、無線電話など）、ウェアラブルデバイス（例えば、スマートグラスまたはスマートウォッチ）、または同様のデバイスを含み得る。いくつかの実装では、ユーザデバイス１１０は、プラットフォームから情報を受信し得るおよび／またはプラットフォーム１２０に情報を送信し得る。

プラットフォーム１２０は、本明細書のいずれかに記載されているように、１つまたは複数のデバイスを含む。いくつかの実装では、プラットフォーム１２０は、クラウドサーバーまたはクラウドサーバーのグループを含み得る。いくつかの実装では、プラットフォーム１２０は、ソフトウェアコンポーネントがスワップインまたはスワップアウトされ得るようにモジュール化されるように設計され得る。そのため、プラットフォーム１２０は、異なる用途のために簡単にかつ／または迅速に再構成され得る。

いくつかの実装では、示されているように、プラットフォーム１２０はクラウドコンピューティング環境１２２でホストされ得る。特に、ここに記載されている実装は、プラットフォーム１２０がクラウドコンピューティング環境１２２でホストされていると説明されているが、いくつかの実装では、プラットフォーム１２０は、クラウドベースでなくてもよく（すなわち、クラウドコンピューティング環境の外部に実装されてもよく）、または部分的にクラウドベースであってもよい。

クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストするシステム（複数可）および／またはデバイス（複数可）の物理的な場所および構成のエンドユーザ（例えば、ユーザデバイス１１０）の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供し得る。示されているように、クラウドコンピューティング環境１２２は、コンピューティングリソース１２４のグループ（総称して「コンピューティングリソース（computing resources）１２４」と称され、個別に「コンピューティングリソース（computing resource）１２４」と称される）を含み得る。

コンピューティングリソース１２４は、１つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算および／または通信デバイスを含む。いくつかの実装では、コンピューティングリソース１２４はプラットフォーム１２０をホストし得る。クラウドリソースは、コンピューティングリソース１２４で実行される計算インスタンス、コンピューティングリソース１２４で提供されるストレージデバイス、コンピューティングリソース１２４によって提供されるデータ転送デバイスなどを含み得る。いくつかの実装では、コンピューティングリソース１２４は、有線接続、無線接続、または有線接続と無線接続の組み合わせを介して他のコンピューティングリソース１２４と通信し得る。

図１にさらに示すように、コンピューティングリソース１２４は、１つまたは複数のアプリケーション（「ＡＰＰ」）１２４－１、１つまたは複数の仮想マシン（「ＶＭ」）１２４－２、仮想化ストレージ（「ＶＳ」）１２４－３、１つまたは複数のハイパーバイザ（「ＨＹＰ」）１２４－４などのようなクラウドリソースのグループを含み得る。

アプリケーション１２４－１は、ユーザデバイス１１０および／またはプラットフォーム１２０に提供され得るまたはそれらによってアクセスされ得る、１つまたは複数のソフトウェアアプリケーションを含み得る。アプリケーション１２４－１は、ユーザデバイス１１０にソフトウェアアプリケーションをインストールして実行する必要を排除し得る。例えば、アプリケーション１２４－１は、プラットフォーム１２０に関連するソフトウェアおよび／またはクラウドコンピューティング環境１２２を介して提供されることができる任意の他のソフトウェアを含み得る。いくつかの実装では、１つのアプリケーション１２４－１が、仮想マシン１２４－２を介して、１つまたは複数の他のアプリケーション１２４－１と情報を送受信し得る。

仮想マシン１２４－２は、物理マシンのようにプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装を含み得る。仮想マシン１２４－２は、仮想マシン１２４－２による任意のリアルマシンの使用と対応の程度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれかであり得る。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ」）の実行をサポートする完全なシステムプラットフォームを提供し得る。プロセス仮想マシンは単一のプログラムを実行し得、単一のプロセスをサポートし得る。いくつかの実装では、仮想マシン１２４－２はユーザ（例えば、ユーザデバイス１１０）の代わりに実行し得、データ管理、同期、長時間のデータ転送など、クラウドコンピューティング環境１２２のインフラストラクチャを管理し得る。

仮想化ストレージ１２４－３は、コンピューティングリソース１２４のストレージシステムまたはデバイス内で仮想化技術を使用する１つ以上のストレージシステムおよび／または１つ以上のデバイスを含み得る。いくつかの実装では、ストレージシステムのコンテキスト内で、仮想化の種類は、ブロック仮想化およびファイル仮想化を含み得る。ブロック仮想化は、物理ストレージまたは異種構造に関係なくストレージシステムがアクセスされ得るように、物理ストレージからの論理ストレージの抽象化（または分離）を指し得る。この分離は、ストレージシステムの管理者に、管理者がエンドユーザのストレージを管理する方法に柔軟性を許容し得る。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に格納される場所との間の依存性を排除し得る。これは、ストレージの使用の最適化、サーバの統合、および／または無停止でのファイル移行のパフォーマンスを可能にし得る。

ハイパーバイザ１２４－４は、複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」）がコンピューティングリソース１２４などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技術を提供し得る。ハイパーバイザ１２４－４は、ゲストオペレーティングシステムに仮想オペレーティングプラットフォームを提示し得、ゲストオペレーティングシステムの実行を管理し得る。さまざまなオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共有し得る。

ネットワーク１３０は、１つまたは複数の有線および／または無線ネットワークを含み得る。例えば、ネットワーク１３０は、セルラーネットワーク（例えば、第５世代（５Ｇ）ネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、符号分割多重アクセス（ＣＤＭＡ）ネットワークなど）、パブリックランドモバイルネットワーク（ＰＬＭＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、電話ネットワーク（例えば、公衆交換電話網（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバーベースのネットワークなど、および／またはこれらまたは他のタイプのネットワークの組み合わせを含み得る。

図１に示すデバイスおよびネットワークの数および配置は例として提供されている。実際には、図１に示されているものよりも、追加のデバイスおよび／またはネットワーク、より少ないデバイスおよび／またはネットワーク、異なるデバイスおよび／またはネットワーク、または異なる配置のデバイスおよび／またはネットワークがあり得る。さらに、図１に示す２つ以上のデバイスは、単一のデバイス内に実装され得る、または、図１に示す単一のデバイスは複数の分散デバイスとして実装され得る。追加的に、または代替的に、環境１００のデバイス（例えば、１つまたは複数のデバイス）のセットは、環境１００の別のデバイスのセットによって実行されると記述された１つまたは複数の機能を実行し得る。

図２は、図１の１つまたは複数のデバイスの例示的なコンポーネントのブロック図である。

デバイス２００は、ユーザデバイス１１０および／またはプラットフォーム１２０に対応し得る。図２に示すように、デバイス２００は、バス２１０、プロセッサ２２０、メモリ２３０、ストレージコンポーネント２４０、入力コンポーネント２５０、出力コンポーネント２６０、および通信インターフェイス２７０を含み得る。

バス２１０は、デバイス２００のコンポーネント間の通信を可能にするコンポーネントを含み得る。プロセッサ２２０は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせで実装され得る。プロセッサ２２０は、中央処理装置（CPU）、グラフィックス処理装置（GPU）、加速処理装置（APU）、マイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ（DSP）、フィールドプログラマブルゲートアレイ（FPGA）、特定用途向け集積回路（ASIC）、または別のタイプの処理コンポーネントであり得る。いくつかの実装では、プロセッサ２２０は、機能を実行するようにプログラムされることができる１つまたは複数のプロセッサを含み得る。メモリ２３０は、ランダムアクセスメモリ（RAM）、リードオンリーメモリ（ROM）、および／またはプロセッサ２２０による使用のための情報および／または命令を格納する別のタイプの動的または静的ストレージデバイス（例えば、フラッシュメモリ、磁気メモリ、および／または光学メモリ）を含む。

ストレージコンポーネント２４０は、デバイス２００の動作および使用に関する情報および／またはソフトウェアを格納し得る。例えば、ストレージコンポーネント２４０は、対応するドライブとともに、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、および／またはソリッドステートディスク）、コンパクトディスク（CD）、デジタル多用途ディスク（DVD）、フロッピー（登録商標）ディスク、カートリッジ、磁気テープ、および／または別の種類の非一時的コンピュータ可読媒体を含み得る。

入力コンポーネント２５０は、ユーザ入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および／またはマイク）を介してなど、デバイス２００が情報を受信することを可能にするコンポーネントを含む。追加的に、または代替的に、入力コンポーネント２５０は、情報を感知するためのセンサ（例えば、全地球測位システム（GPS）コンポーネント、加速度計、ジャイロスコープ、および／またはアクチュエータ）を含み得る。出力コンポーネント２６０は、デバイス２００からの出力情報を提供するコンポーネント（例えば、ディスプレイ、スピーカー、および／または１つ以上の発光ダイオード（LED））を含み得る。

通信インターフェイス２７０は、デバイス２００が、有線接続、無線接続、または有線接続と無線接続の組み合わせを介してなど、他のデバイスと通信することを可能にするトランシーバ様コンポーネント（例えば、トランシーバおよび／または個別のレシーバおよびトランスミッタ）を含む。通信インターフェイス２７０は、デバイス２００が別のデバイスから情報を受信するおよび／または別のデバイスに情報を提供することを可能にし得る。例えば、通信インターフェイス２７０は、イーサネット（登録商標）インターフェイス、光インターフェイス、同軸インターフェイス、赤外線インターフェイス、無線周波数（RF）インターフェイス、ユニバーサルシリアルバス（USB）インターフェイス、Wi-Fi（登録商標）インターフェイス、セルラーネットワークインターフェイス等を含み得る。

デバイス２００は、ここで説明する１つまたは複数のプロセスを実行し得る。デバイス２００は、プロセッサ２２０がメモリ２３０および／またはストレージコンポーネント２４０などの非一時的なコンピュータ可読媒体によって格納されたソフトウェア命令を実行することに応答して、これらのプロセスを実行し得る。コンピュータ可読媒体は、ここでは非一時的メモリデバイスと定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにわたって分散したメモリ空間を含む。

ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェイス２７０を介して別のデバイスから、メモリ２３０および／またはストレージコンポーネント２４０に読み込まれ得る。実行されると、メモリ２３０および／またはストレージコンポーネント２４０に格納されたソフトウェア命令は、プロセッサ２２０にここで説明する１つまたは複数のプロセスを実行させ得る。追加的に、または代替的に、ここに記載されている１つまたは複数のプロセスを実行するために、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて、ハードワイヤード回路が使用され得る。したがって、ここで説明する実装は、ハードウェア回路とソフトウェアのいずれの特定の組み合わせにも限定されない。

図２に示すコンポーネントの数および配置は一例として提供されている。実際には、デバイス２００は、図２に示されているものよりも、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、または異なる配置のコンポーネントを含み得る。追加的に、または代替的に、デバイス２００のコンポーネントのセット（例えば、１つまたは複数のコンポーネント）は、デバイス２００の別のコンポーネントのセットによって実行されると記述された１つまたは複数の機能を実行し得る。

次に、メタ学習による任意のスムーズな品質制御を用いた適応ニューラル画像圧縮の方法および装置が詳述される。

本開示は、任意のスムーズなビットレート制御をサポートするメタＮＩＣフレームワークを提案する。メタ学習メカニズムは、単一のメタＮＩＣモデルインスタンスが任意のスムーズなターゲット品質を持つ画像圧縮を達成することができるように、現在の入力画像とターゲット品質インジケータに基づいて、基になるＮＩＣモデルの品質適応重みパラメータを適応的に計算するために使用される。

サイズ（h,w,c）の入力画像xが与えられ、ここでh,w,cはそれぞれ高さ、幅、チャネル数である場合、ＮＩＣワークフローのテスト段階のターゲットは次のように記述することができる。入力画像xは、通常の画像フレーム（t=1）、１より多い画像フレーム(t>1)を含む４次元ビデオシーケンスなどであり得る。各画像フレームは、カラー画像（c=3）、グレースケール画像（c=1）、rgb+深度画像（c=4）などであ得る。格納および送信用にコンパクトである圧縮表現
（外１）

が計算される。その後、圧縮表現
（外１）

に基づいて出力画像
（外２）

が再構成され、再構成された出力画像
（外２）

は元の入力画像xに似ている場合がある。歪み損失
（外３）

は、ピーク信号対雑音比（PSNR）または構造類似性指標測定（structural similarity index measure）（SSIM）などの再構成エラー（reconstruction error）を測定するために使用される。レート損失
（外４）

が、圧縮表現
（外１）

のビット消費（bit consumption）を測定するために計算される。トレードオフハイパーパラメータλが、ジョイントレート歪み（joint Rate-Distortion）（R-D）損失を形成するために使用される：

大きなハイパーパラメータλでトレーニングすることは、より小さい歪みだがより多いビット消費を伴う圧縮モデルをもたらし、その逆も同様である。従来、各事前に定義されたハイパーパラメータλについて、ＮＩＣモデルインスタンスがトレーニングされるが、これはハイパーパラメータλの他の値に対してはうまく機能しない。したがって、圧縮ストリームの複数のビットレートを実現するために、従来の方法は複数のモデルインスタンスをトレーニングすることおよび格納することを必要とする場合がある。さらに、実際にはハイパーパラメータλのすべての可能な値に対してモデルをトレーニングすることは困難であるため、従来の方法では、任意のスムーズなビットレート制御などの任意のスムーズな品質制御を実現することはできない。加えて、モデルインスタンスは、各タイプのメトリック（metric）（たとえば、各歪みメトリック、すなわち、PSNR、SSIM、両方の重み付けされた組み合わせ、またはその他のメトリック）によって測定される損失を最適化するようにトレーニングする必要があり、従来の方法ではスムーズな品質メトリック制御を実現することができない。

図３Ａおよび図３Ｂは、実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のためのメタＮＩＣアーキテクチャ３００Ａおよび３００Ｂのブロック図である。

図３Ａに示すように、メタＮＩＣアーキテクチャ３００Ａは、共有エンコーディングＮＮ３０５、適応エンコーディングＮＮ３１０、共有デコーディングＮＮ３１５および適応デコーディングＮＮ３２０を含む。

図３Ｂに示すように、メタＮＩＣアーキテクチャ３００Ｂは、共有エンコーディング層３２５および３３０、適応エンコーディング層３３５および３４０、共有デコーディング層３４５および３５０、適応デコーディング層３５５および３６０を含む。

本開示では、基礎となるＮＩＣエンコーダと基礎となるＮＩＣデコーダのモデルパラメータを４つの部分
（外５）

、
（外６）

、
（外７）

、
（外８）

に分離し、それぞれ、共有エンコーディングパラメータ（ＳＥＰ）、適応エンコーディングパラメータ（ＡＥＰ）、共有デコーディングパラメータ（ＳＤＰ）、および適応デコーディングパラメータ（ＡＤＰ）を示す。図３Ａおよび図３Ｂは、ＮＩＣネットワークアーキテクチャの２つの実施形態を示している。

図３Ａでは、ＳＥＰ、ＳＤＰ、ＡＥＰ、およびＡＤＰは個別のＮＮモジュールに分離され、これらの個別モジュールは、ネットワーク前向き計算（network forward computation）のために順次相互に接続される。ここで、図３Ａは、これらの個々のＮＮモジュールを接続する順序を示している。ここでは他の順序を使用することもできる。

図３Ｂでは、パラメータ分割はＮＮ層内にある。
（外９）

、
（外１０）

、
（外１１）

、
（外１２）

がＮＩＣエンコーダのｉ番目の層およびＮＩＣデコーダのｊ番目の層のＳＥＰ、ＡＥＰ、ＳＤＰ、およびＡＤＰをそれぞれ示すとする。ネットワークは、ＳＥＰおよびＡＥＰ（またはＳＤＰおよびＡＤＰ）それぞれに対応する入力に基づいて推論出力を計算し、これらの出力は結合され（例えば、加算、連結、乗算などによって）、その後、次の層に送信される。

図３Ａの実施形態は、図１Ｂの場合として見ることができ、ここでは、共有エンコーディングＮＮ３０５の層
（外１０）

が空であり、適応エンコーディングＮＮ３１０の層
（外９）

が空であり、共有デコーディングＮＮ３１５の層
（外１１）

が空であり、適応デコーディングＮＮ３２０の層
（外１２）

が空である。したがって、他の実施形態では、図３Ａおよび図３Ｂのネットワーク構造を組み合わせることができ、ここではＮＩＣアーキテクチャは、純粋に共有されたエンコーディング／デコーディング層および／または純粋に適応されたエンコーディング／デコーディング層と、部分的に共有されたエンコーディング／デコーディングパラメータおよび部分的に適応されたエンコーディング／デコーディングパラメータを持つ混合層の両方を含む。

図４Ａは、実施形態による、テスト段階の間のメタ学習によるレート制御（rate control）を用いた適応ニューラル画像圧縮のための装置４００のブロック図である。

図４Ａに示すように、装置４００はメタＮＩＣエンコーダ４１０とメタＮＩＣデコーダ４２０を含む。

図４Ａは、メタＮＩＣフレームワークのテスト段階の全体的なワークフローを示している。
（外９）

および
（外１０）

がメタＮＩＣエンコーダ４１０のｉ番目の層のＳＥＰおよびＡＥＰをそれぞれと表すとする。これは、完全に共有されている層について、
（外１０）

が空であるため、例示的な表記である。完全に適応（adaptive）する層について、
（外９）

は空である。言い換えれば、この表記法は図３Ａと図３Ｂの両方の実施形態に使用できる。

入力画像xが与えられ、ターゲット品質制御パラメータΛが与えられると、メタＮＩＣエンコーダ４１０は圧縮表現
（外１）

を計算する。ターゲット品質制御パラメータΛは、ターゲット品質メトリック、ターゲットビットレートなどを含むターゲット圧縮品質を示す。ターゲット品質制御パラメータΛについて、qを（PSNR、SSIMなどのような）品質メトリック
（外１３）

の数とすると、全体的な品質メトリックは、概して品質メトリックの数の重み付けされた組み合わせとして表される：

ここで、重みｗ_ｉ≧０である。いくつかの実施形態では、ターゲット品質制御パラメータΛは、すべての重みｗ_ｉとターゲットトレードオフハイパーパラメータλからなる単一ベクトルであり得る：Λ＝［ｗ_ｉ、．．．ｗ_ｑ、λ］。単一の品質メトリック
（外１４）

のみが使用されている場合、任意のｉ≠ｊに対してｗ_ｉ＝１およびｗ_ｊ＝０である。上記が当てはまる実施形態では、ターゲット品質制御パラメータΛは、ターゲットトレードオフハイパーパラメータλのみを含むように減らされ得る：Λ＝λ。

メタＮＩＣエンコーダ４１０では、入力画像xはメタＮＩＣエンコーディングＮＮを通過する。ｆ（ｉ）およびｆ（ｉ＋１）がi番目の層の入力テンソルおよび出力テンソルを表すとする。

図４Ｂは、図４Ａに示した装置４００のメタＮＩＣエンコーダ４１０のブロック図である。

図４Ｂに示すように、メタＮＩＣエンコーダ４１０は、ＳＥＰ推論部４１２、ＡＥＰ予測部４１４およびＡＥＰ推論部４１６を含む。

図４Ｂはｉ番目の層に対するメタＮＩＣエンコーダ４１０の推論ワークフローの例示的な実施形態を示す。現在の入力ｆ（ｉ）およびＳＥＰ
（外９）

に基づいて、ＳＥＰ推論部４１２は、i番目の層のＳＥＰを使用して前向き計算によってモデル化される共有推論関数
（外１５）

に基づいて共有特徴ｇ（ｉ）を計算する。現在の入力ｆ（ｉ）、共有特徴ｇ（ｉ）、ＡＥＰ
（外１０）

およびターゲット品質制御パラメータΛに基づいて、ＡＥＰ予測部４１４は、ｉ番目の層の推定ＡＥＰ
（外１６）

を計算する。ＡＥＰ予測部４１４は、例えば、畳み込みおよび完全に接続された層を含むＮＮであり得、これは元のＡＥＰ
（外１０）

、現在の入力ｆ（ｉ）、およびターゲット品質制御パラメータΛに基づいて更新された推定ＡＥＰ
（外１６）

を予測する。いくつかの実施形態では、現在の入力ｆ（ｉ）は、ＡＥＰ予測部４１４への入力として使用される。他のいくつかの実施形態では、共有特徴ｇ（ｉ）が現在の入力ｆ（ｉ）の代わりに使用される。他の実施形態では、共有特徴ｇ（ｉ）に基づいてＳＥＰ損失を計算することができ、損失の勾配がＡＥＰ予測部４１４への入力として使用される。推定ＡＥＰ
（外１６）

および共有特徴ｇ（ｉ）に基づいて、ＡＥＰ推論部４１６は、第i番目の層の推定ＡＥＰを使用して前向き計算によってモデル化されたＡＥＰ推論関数
（外１７）

に基づく出力テンソルｆ（ｉ＋１）を計算する。

なお、図４Ｂに示したワークフローは例示的な表記である。空であるＡＥＰ
（外１０）

と完全に共有されている層について、ＡＥＰ関連モジュールおよびｆ（ｉ＋１）＝ｇ（ｉ）は省略され得る。空であるＳＥＰ
（外９）

と完全に適応する層について、ＳＥＰ関連モジュールおよびｇ（ｉ）＝ｆ（ｉ）は省略され得る。

メタＮＩＣエンコーダ４１０に合計Ｎ層があると仮定すると、最後の層の出力は圧縮表現
（外１）

であり、これは、メタＮＩＣデコーダ４２０に送信される（例えば、量子化およびエントロピーエンコーディングによってコンパクトなビットストリームにさらに圧縮された後）。

再び図４Ａを参照すると、デコーダ側で、
（外１１）

および
（外１２）

がメタＮＩＣデコーダ４２０のｊ番目の層のＳＤＰおよびＡＤＰをそれぞれ表すとする。メタＮＩＣエンコーダ４１０と同様に、これは例示的な表記であり、完全に共有されている層の場合、
（外１２）

は空であり、完全に適応可能な層の場合、
（外１１）

は空であるためである。

デコーダ側では、復元された圧縮表現
（外１８）

が、メタＮＩＣエンコーダ４１０から送信されたビットストリームから、エントロピーデコーディングおよび逆量子化によって得られる。復元された圧縮表現
（外１８）

およびターゲット品質制御パラメータΛに基づいて、メタＮＩＣデコーダ４２０は、再構成された出力画像
（外２）

を計算する。メタＮＩＣデコーダ４２０では、復元された圧縮表現
（外１８）

がメタＮＩＣデコーディングＮＮを通過する。ｆ（ｊ）およびｆ（ｊ＋１）をj番目の層の入力テンソルと出力テンソルとする。

図４Ｃは、図４Ａに示した装置４００のメタＮＩＣデコーダ４２０のブロック図である。

図４Ｃに示すように、メタＮＩＣデコーダ４２０は、ＳＤＰ推論部４２２、ＡＤＰ予測部４２４およびＡＤＰ推論部４２６を含む。

図４Ｃは、j番目の層に対するメタＮＩＣデコーダ４２０の推論ワークフローの例示的な実施形態を与える。現在の入力ｆ（ｊ）およびＳＤＰ
（外１１）

に基づいて、ＳＤＰ推論部４２２は、ｊ番目の層のＳＤＰを使用してネットワーク前向き計算によってモデル化される共有推論関数
（外１９）

に基づいて共有特徴ｇ（ｊ）を計算する。現在の入力ｆ（ｊ）、共有特徴ｇ（ｊ）、ＡＤＰ
（外１２）

およびターゲット品質制御パラメータΛに基づいて、ＡＤＰ予測部４２４は、ｊ番目の層の推定ＡＤＰ
（外２０）

を計算する。ＡＤＰ予測部４２４は、例えば、畳み込みおよび完全に接続された層を持つＮＮであり得、これは元のＡＤＰ
（外１２）

、現在の入力ｆ（ｊ）、およびターゲット品質制御パラメータΛに基づいて更新された推定ＡＤＰ
（外２０）

を予測する。いくつかの実施形態では、現在の入力ｆ（ｊ）はＡＤＰ予測部４２４への入力として使用される。他のいくつかの実施形態では、共有特徴ｇ（ｊ）は現在の入力ｆ（ｊ）の代わりに使用される。他の実施形態では、共有特徴ｇ（ｊ）に基づいてＳＤＰ損失が計算され、損失の勾配がＡＤＰ予測部４２４への入力として使用される。推定ＡＤＰ
（外２０）

および共有特徴ｇ（ｊ）に基づいて、ＡＤＰ推論部４２６は、ｊ番目の層の推定ＡＤＰを使用してネットワーク前向き計算によってモデル化されたＡＤＰ推論関数
（外２１）

に基づいて出力テンソルｆ（ｊ＋１）を計算する。

なお、図４Ｃに示すワークフローは例示的な表記である。空であるＡＤＰ
（外１２）

と完全に共有されている層について、ＡＤＰ関連モジュールおよびｆ（ｊ＋１）＝ｇ（ｊ）は省略され得る。空であるＳＤＰ
（外１１）

に完全に適合する層について、ＳＤＰ関連モジュールおよびｇ（ｊ）＝ｆ（ｊ）は省略され得る。

メタＮＩＣデコーダ４２０に全部でＭ個の層があると仮定すると、最後の層の出力は再構成された画像出力
（外２）

である。

いくつかの実施形態では、トレードオフハイパーパラメータλはエンコーダおよびデコーダに対して同じである。他のいくつかの実施形態では、ハイパーパラメータλは、メタＮＩＣエンコーダ４１０およびメタＮＩＣデコーダ４２０に対して異なることができる。このような場合、メタＮＩＣデコーダ４２０は圧縮表現を元のエンコーディングターゲット品質とは異なるターゲット品質に適応させようとする。

メタＮＩＣフレームワークは、任意のスムーズなトレードオフハイパーパラメータλと、異なる品質メトリックに対する任意のスムーズな組み合わせ重み（arbitrary smooth combining weights）ｗ_ｉが可能であることに留意されたい。図４Ｃで説明されている処理ワークフローは、任意のスムーズターゲット品質制御パラメータΛに適合するように圧縮表現および再構成画像を計算する。

いくつかの実施形態では、ターゲット品質制御パラメータΛはエンコーダおよびデコーダに対して同じである。他のいくつかの実施形態では、ターゲット品質制御パラメータΛは、メタＮＩＣエンコーダ４１０およびメタＮＩＣデコーダ４２０に対して異なることができる。このような場合、メタＮＩＣデコーダ４２０は、圧縮表現を元のエンコーディングターゲット品質とは異なるターゲット品質に適応させようとする。

本開示の実施形態によれば、ＡＥＰ予測部４１４およびＡＤＰ予測部４２４が、入力ｆ（ｉ）またはｆ（ｊ）を考慮して／考慮しないで、事前に定義されたトレードオフハイパーパラメータのセットについてのみ予測を実行する場合、事前に定義された一連の組み合わせ重み（例えば、ｉ≠ｊについて、ｗ_ｉ＝１且つｗ_ｊ＝０のみで歪みメトリック
（外２２)

をターゲットにする）については、メタＮＩＣモデルは、複数の事前に定義されたビットレートの圧縮効果に対応するために１つのモデルインスタンスを使用する歪みメトリック
（外２２)

のマルチレートＮＩＣモデルに縮小する。メタＮＩＣモデルは、同様に他のメトリックの別の特定のメタＮＩＣモデルに縮小し得る。

図５は、実施形態による、トレーニング段階の間のメタ学習によるレート制御を用いた適応ニューラル画像圧縮のためのトレーニング装置５００のブロック図である。

図５に示すように、トレーニング装置５００は、タスクサンプラ５１０、内部ループ損失生成器５２０、内部ループ更新部５３０、メタ損失生成器５４０、メタ更新部５５０および重み更新部５６０を含む。

トレーニングプロセスは、図４ＡのメタＮＩＣエンコーダ４１０のＳＥＰ
（外９）

およびＡＥＰ
（外１０）

、ｉ＝１,．．．,Ｎ、および、図４ＡのメタＮＩＣデコーダ４２０のＳＤＰ
（外１１）

およびＡＤＰ
（外１２）

、ｊ＝１,．．．,Ｍならびに、ＡＥＰ予測ＮＮ（
（外２３）

と表記されるモデルパラメータ）およびＡＤＰ予測ＮＮ（
（外２４）

と表記されるモデルパラメータ）を学習することを目的としている。

実施形態では、トレーニング目的のためにModel-Agnostic Meta-Learning（ＭＡＭＬ）メカニズムが使用される。図５は、メタトレーニングフレームワークの例示的なワークフローを示している。他のメタトレーニングアルゴリズムが使用されることもできる。

トレーニングのために、トレーニングデータのセット
（外２５）

、ｉ＝１，．．．，Ｋがあり、各
（外２５）

はトレーニングターゲット品質制御パラメータΛ_ｉに対応し、合計でＫのトレーニング品質制御パラメータ（Ｋのトレーニングデータセット）がある。トレーニングのために、有限の重みの組み合わせのセットがあり得る。各重みの組み合わせｗ_１＝ａ_１，．．．ｗ_ｑ＝ａ_ｑに対して、kのトレードオフハイパーパラメータλ_ｉのセットがあり得る。したがって、トレーニングデータ
（外２５）

は、各重みの組み合わせｗ_１＝ａ_１，．．．ｗ_ｑ＝ａ_ｑおよびトレードオフハイパーパラメータλ_ｉに関連付けられ、ターゲット品質制御パラメータΛ_ｉは、品質制御パラメータΛのアイテムの値を指定し、ｗ_１＝ａ_１，．．．ｗ_ｑ＝ａ_ｑ、λ＝λ_ｉである。加えて、検証データ
（外２６）

、ｊ＝１，．．．，Ｐのセットがあり、各
（外２６）

は、検証品質制御パラメータΛ_ｊに対応し、合計でＰの検証品質制御パラメータΛ_ｊがある。検証品質制御パラメータは、トレーニングセットとは異なる値を含み得る。検証品質制御パラメータはまた、トレーニングセットのパラメータと同じ値を有し得る。

全体的なトレーニング目標は、ターゲット圧縮品質の広範なスムーズな範囲に対応する品質制御パラメータのすべての値（トレーニングおよび将来の見えない値を含む）に広く適用することができるように、メタＮＩＣモデルを学習することである。ターゲット品質制御パラメータを持つＮＩＣタスクがタスク配分Ｐ（Λ）から引き出されることを前提としている。前述のトレーニング目標を達成するために、メタＮＩＣモデルを学習するための損失が、すべてのトレーニング品質制御パラメータにわたるすべてのトレーニングデータセットにわたって最小限に抑えられる。

（外２７）

がＳＥＰおよびＳＤＰにすべての共有パラメータを含むとし、
（外２８）

がＡＥＰおよびＡＤＰにすべての適応パラメータを含むとする。ＭＡＭＬトレーニングプロセスは、勾配ベースのパラメータ更新のための外部ループおよび内部ループを有し得る。各外部ループの繰り返しについて、タスクサンプラ５１０はまずＫ’トレーニング品質制御パラメータのセットをサンプリングする（Ｋ’≦Ｋ）。次に、各サンプリングされたトレーニング品質制御パラメータΛ_ｉについて、タスクサンプラ５１０はトレーニングデータ
（外２５）

のセットからトレーニングデータ
（外２９）

のセットをサンプリングする。また、タスクサンプラ５１０は、Ｐ’（Ｐ’≦Ｐ）検証品質制御パラメータのセットをサンプリングし、各サンプリングされた検証品質制御パラメータΛ_ｊについて、検証データ
（外３０）

のセットから検証データ
（外３１）

のセットをサンプリングする。次に、サンプリングされた各データム
（外３２）

について、メタＮＩＣ前向き計算が現在のパラメータ
（外３３）

、
（外３４）

、
（外２３）

および
（外２４）

に基づいて行われ、次に内部ループ損失生成器５２０が累積内部ループ損失
（外３５）

を計算する。

損失関数
（外３６）

は、式（１）のＲ－Ｄ損失および別の正則化損失（例えば、異なる品質制御パラメータをターゲットにする中間ネットワーク出力を区別する補助的な損失）を含み得る。次に、内部ループ損失
（外３５）

に基づいて、Λ_ｉについての品質制御パラメータ／ハイパーパラメータとしてステップサイズα_ｓｉおよびα_ａｉが与えられると、内部ループ更新部５３０は更新されたタスク固有パラメータ更新を計算する：

および

蓄積された内部ループ損失
（外３５）

の勾配
（外３７）

および勾配
（外３８）

は、それぞれ適応パラメータ
（外３９）

および
（外４０）

の更新バージョンを計算するために使用され得る。

次に、メタ損失生成器５４０は、すべてのサンプリングされた検証品質制御パラメータについて、外部メタ目標（outer meta objective）または損失を計算する：

および

ここで、
（外４１）

は、パラメータ
（外４０）

、
（外３９）

、
（外４２）

、
（外４３）

を使用したメタＮＩＣ前向き計算に基づいて入力ｘについて計算された損失である。Ａ_ｊについてのハイパーパラメータΛｊとしてステップサイズβ_ａｊおよびβ_ｓｊが与えられると、メタ更新部５５０はモデルパラメータを次のように更新する：

および

いくつかの実施形態では、
（外３３）

は内部ループで更新されない場合がある、すなわち、α_ｓｉ＝０、
（外４４）

。非更新は、トレーニングプロセスを安定させるのに役立つ。

ＡＥＰ予測ＮＮおよびＡＤＰ予測ＮＮのパラメータ
（外２３）

、
（外２４）

に関して、重み更新部５６０は通常のトレーニング方式でそれらを更新する。つまり、トレーニングおよび検証データ
（外２５）

、ｉ＝１,．．．,Ｋ、
（外２６）

、ｊ＝１，．．．，Ｐに従って、現在のパラメータ
（外３３）

、
（外３４）

、
（外２３）

、
（外２４）

に基づいて、すべてのサンプル
（外４５）

の損失
（外３６）

およびすべてのサンプル
（外４６）

の損失
（外４７）

が計算される。すべてのこれらの損失の勾配を蓄積して（例えば、合計して）、逆伝播によって
（外２３）

、
（外２４）

に対するパラメータの更新を実行することができる。

本開示の実施形態は、これらのモデルパラメータを更新するための上述の最適化アルゴリズムまたは損失関数に限定されない。当該技術分野で知られているこれらのモデルパラメータを更新するための任意の最適化アルゴリズムまたは損失関数が使用され得る。

図４ＢのＡＥＰ予測部４１４およびメタＮＩＣモデルのＡＤＰ予測部４２４が、事前に定義されたトレーニング品質制御パラメータのセットおよび／または事前に定義されたメトリック組み合わせ重みのセットに対してのみ予測を実行する場合、検証品質制御パラメータはトレーニングパラメータと同じであり得る。前述の縮小メタＮＩＣモデル（つまり、１つのモデルインスタンスを使用して、事前に定義された複数のビットレートの圧縮効果に対応するマルチレートＮＩＣモデル）をトレーニングするために、同じＭＡＭＬトレーニング手順が使用され得る。

本開示の実施形態は、１つのメタＮＩＣモデルインスタンスのみを使用して、メタ学習を使用することによって任意のスムーズな品質制御を用いた画像圧縮を実現することを可能にする。ここに記載されている方法および装置は、単一モデルによるマルチレート圧縮とスムーズなビットレート制御の両方に使用され得る。ここで説明する実施形態は、単一モデルによるマルチメトリックおよびマルチレートの両方の圧縮、スムーズなビットレート制御、およびスムーズな品質メトリック制御に使用され得る。実施形態は、さまざまな基盤となるＮＩＣモデルおよびメタ学習方法に対応する柔軟なフレームワークを提供する。

図６は、実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮の方法６００のフローチャートである。

図６に示すように、方法６００の動作６１０において、入力画像およびターゲット品質制御パラメータが受信され得る。

本開示の実施形態によれば、ターゲット品質制御パラメータは、複数の重みおよびターゲットトレードオフハイパーパラメータを含み得る。例として、ターゲット品質制御パラメータΛは単一のベクトルであり得、Λ＝［ｗ_１，．．．ｗ_ｑ、λ］となるように、すべての重みｗ_ｉおよびターゲットトレードオフのハイパーパラメータλを含み得る。

動作６２０において、本方法は、共有推論関数を使用して、中間入力および第１の共有エンコーディングパラメータに基づいて、共有特徴を生成することを含み得る。例として、ＳＥＰ推論部４１２は、中間入力ｆ（ｉ）および第１の共有エンコーディングパラメータＳＥＰ
（外９）

に基づいて、共有推論関数
（外１５）

を使用して共有特徴ｇ（ｉ）を生成し得る。

動作６３０において、本方法は、予測ニューラルネットワークを使用して、中間入力、共有特徴、第１の適応エンコーディングパラメータ、およびターゲット品質制御パラメータに基づいて、第１の適応エンコーディングパラメータを更新することを含み得る。例として、ＡＥＰ予測部４１４は、第１の適応エンコーディングパラメータ
（外１０）

、中間入力ｆ（ｉ）、共有特徴ｇ（ｊ）、およびターゲット品質制御パラメータΛに基づいて、第１の適応エンコーディングパラメータ
（外１６）

を更新し得る。

いくつかの実施形態では、予測ニューラルネットワークのトレーニングは、ターゲット品質制御パラメータ、第１の共有エンコーディングパラメータ、第１の適応エンコーディングパラメータ、第１の共有デコーディングパラメータ、第１の適応デコーディングパラメータ、および予測ニューラルネットワークの予測パラメータに基づいて、ターゲット品質制御パラメータに対応するトレーニングデータの第１の損失、およびターゲット品質制御パラメータに対応する検証データの第２の損失を生成することを含み得る。トレーニングは、生成された第１の損失および生成された第２の損失の勾配に基づいて、予測パラメータを更新することをさらに含み得る。例として、図５を参照すると、ＡＥＰ予測ＮＮ（ＡＥＰ予測部４１４の一部）およびＡＤＰ予測ＮＮ（ＡＤＰ予測部４２４の一部）のパラメータ
（外２３）

、
（外２４）

は、ターゲット品質制御パラメータΛ、予測パラメータ（
（外２３）

、
（外２４）

）、第１の共有パラメータ
（外３３）

、第１の適応パラメータ
（外３４）

、第１の損失
（外３６）

および第２の損失
（外４７）

に基づいて、重み更新部５６０によって更新される。これらすべての損失の勾配を蓄積（例えば、合計）して、逆伝播によって
（外２３）

、
（外２４）

に対するパラメータ更新を実行することができる。

動作６４０において、本方法は、共有特徴および更新された第１の適応エンコーディングパラメータに基づいて、エンコーディングニューラルネットワークの品質適応重みパラメータを生成することを含み得る。例として、ＡＥＰ推論部４１６は、共有特徴ｇ（ｊ）および更新された第１の適応エンコーディングパラメータ
（外１６）

の組み合わせに基づいて、エンコーディングニューラルネットワークの品質適応重みパラメータを生成し得る。

動作６５０において、方法６００は、圧縮表現を生成するように、ターゲット品質制御パラメータに基づいて、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して入力画像をエンコーディングすることをさらに含み得、品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される。例として、エンコーディングニューラルネットワークの最後の層の出力として、本方法は、圧縮表現
（外１）

を生成するために入力画像をエンコーディングすることを含み得る。

いくつかの実施形態では、入力画像をエンコーディングすることは、品質適応重みパラメータおよびターゲット品質制御パラメータに基づいて圧縮表現を生成することを含み得る。

いくつかの実施形態では、方法６００は、動作６１０の後に動作６５０を実行することを含み得る。このような例示的な実施形態では、入力画像のエンコーディングは、動作６２０－６４０を含み得る。いくつかの実施形態では、圧縮表現を生成するための入力画像のエンコーディングは、装置３００Ａ、３００Ｂ、および４１０に実装されたメタＮＩＣモデルのような、メタＮＩＣモデルの複数の層に対して繰り返される動作６１５－６３０を含み得る。

図６は方法６００のブロック例を示しているが、いくつかの実装では、方法６００は、図６に示されているものよりも、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含み得る。追加的に、または代替的に、方法６００のブロックの２つ以上は並行して実行され得る。

図７は、実施形態による、メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮の方法７００のフローチャートである。

図７に示すように、方法７００は、動作７１０において、復元された圧縮表現およびデコーディングターゲット品質制御パラメータを受信することを含む。

いくつかの実施形態では、デコーディングターゲット品質制御パラメータは、複数の重みおよびターゲットトレードオフハイパーパラメータを含む。

動作７２０において、本方法は、共有デコーディング推論関数を使用して、中間デコーディング入力および第１の共有デコーディングパラメータに基づいて、共有デコーディング特徴を生成することを含み得る。例として、ＳＤＰ推論部４２２は、共有推論関数
（外４８）

を使用して中間入力ｆ（ｊ）および第１の共有デコーディングパラメータＳＤＰ
（外１１）

に基づいて、共有特徴ｇ（ｊ）を生成し得る。

動作７３０において、本方法は、予測ニューラルネットワークを使用して、中間デコーディング入力、共有デコーディング特徴、第１の適応デコーディングパラメータ、およびデコーディングターゲット品質制御パラメータに基づいて、第１の適応デコーディングパラメータを更新することを含み得る。例として、ＡＤＰ予測部４２４は、第１の適応デコーディングパラメータ
（外１２）

、中間入力ｆ（ｊ）、共有デコーディング特徴ｇ（ｊ）、およびターゲット品質制御パラメータΛに基づいて、第１の適応デコーディングパラメータ
（外２０）

を更新し得る。

いくつかの実施形態では、予測ニューラルネットワークのトレーニングは、ターゲット品質制御パラメータ、第1の共有エンコーディングパラメータ、第１の適応エンコーディングパラメータ、第１の共有デコーディングパラメータ、第１の適応デコーディングパラメータ、および予測ニューラルネットワークの予測パラメータに基づいて、ターゲット品質制御パラメータに対応するトレーニングデータの第１の損失、およびターゲット品質制御パラメータに対応する検証データの第２の損失を生成することを含み得る。トレーニングは、さらに、生成された第１の損失および生成された第２の損失の勾配に基づいて、予測パラメータを更新することを含み得る。例として、図５を参照すると、ＡＥＰ予測ＮＮ（ＡＥＰ予測部４１４の一部）およびＡＤＰ予測ＮＮ（ＡＤＰ予測部４２４の一部）のパラメータ
（外２３）

、
（外２４）

）
、第１の共有パラメータ
（外３３）

、第１の適応パラメータ
（外３４）

、第１の損失
（外３６）

および第２の損失
（外４７）

、
（外２４）

に対するパラメータ更新を実行することができる。

動作７４０において、本方法は、共有デコーディング特徴および更新された第１の適応デコーディングパラメータに基づいて、デコーディングニューラルネットワークのデコーディング品質適応重みパラメータを生成することを含み得る。例として、ＡＤＰ推論部４２６は、共有デコーディング特徴ｇ（ｊ）および更新された第１の適応エンコーディングパラメータ
（外２０）

の組み合わせに基づいて、エンコーディングニューラルネットワークのためのデコーディング品質適応重みパラメータを生成し得る。

動作７５０において、方法７００は、出力画像を再構成するために、デコーディングターゲット品質制御パラメータに基づいて、デコーディング品質適応重みパラメータを持つデコーディングニューラルネットワークを使用して、受信した復元された圧縮表現をデコーディングすることを含み得、デコーディング品質適応重みパラメータは、共有デコーディングパラメータおよび適応デコーディングパラメータを使用して計算される。例として、デコーディングニューラルネットワークの最後の層の出力として、本方法は、デコーディングターゲット品質制御パラメータに基づいて出力画像
（外２）

を再構成することを含み得る。

いくつかの実施形態では、受信した復元された圧縮表現をデコーディングすることは、デコーディング品質適応重みパラメータおよびデコーディングターゲット品質制御パラメータに基づいて出力画像を再構成することを含み得る。

いくつかの実施形態では、方法６００のターゲット品質制御パラメータおよび方法７００のデコーディングターゲット品質制御パラメータは異なる場合がある。したがって、圧縮表現の画像プロパティ（image properties）は、再構成された出力画像の画像プロパティとは異なる場合がある。

本開示の実施形態によれば、方法６００および７００におけるエンコーディングおよびデコーディングニューラルネットワークのそれぞれのトレーニングは、ターゲット品質制御パラメータ、第１の共有エンコーディングパラメータ、第１の適応エンコーディングパラメータ、第１の共有デコーディングパラメータ、および第１の適応デコーディングパラメータに基づいて、ターゲット品質制御パラメータに対応するトレーニングデータの内部ループ損失を生成することを含み得る；続いて、生成された内部ループ損失の勾配に基づいて、第１の共有エンコーディングパラメータ、第１の適応エンコーディングパラメータ、第１の共有デコーディングパラメータおよび第１の適応デコーディングパラメータを第１に更新する（first updating）。トレーニングはさらに、ターゲット品質制御パラメータ、第１に更新された第１の共有エンコーディングパラメータ、第１に更新された第１の適応エンコーディングパラメータ、第１に更新された第１の共有デコーディングパラメータ、および第１に更新された第１の適応デコーディングパラメータに基づいて、ターゲット品質制御パラメータに対応する検証データのメタ損失を生成することを含み得る；続いて、生成されたメタ損失の勾配に基づいて、第１に更新された第１の共有エンコーディングパラメータ、第１に更新された第１の適応エンコーディングパラメータ、第１に更新された第１の共有デコーディングパラメータ、および第１に更新された第１の適応デコーディングパラメータを第２に更新する（second updating）。例として、図５を参照すると、内部ループ損失生成器５２０は、次いで内部ループ更新部５３０によって更新されるトレーニングデータに関連する内部ループ損失を生成し得、メタ損失生成器５４０は、次いでメタ更新部５５０によって更新される検証データのメタ損失を生成し得る。

図７は、方法７００の例示的なブロックを示しているが、いくつかの実装では、方法７００は、図７に示されているものよりも、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含み得る。追加的に、または代替的に、方法７００の複数のブロックを並行に実行し得る。

提案された方法は、個別に使用され得る、または、任意の順序で組み合わされ得る。さらに、方法（または実施形態）、エンコーダ、デコーダのそれぞれは、処理回路（例えば、１つ以上のプロセッサまたは１つ以上の集積回路）によって実装され得る。１つの例では、１つ以上のプロセッサは、非一時的コンピュータ可読媒体に格納されているプログラムを実行する。

上記の開示は、図示と説明を提供するが、網羅的であることまたは開示された正確な形態に実装を限定することを意図していない。修正および変形が、上記の開示に照らして可能である、または実装の実施から取得され得る。

ここで使用されるとき、コンポーネントという用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせとして広く解釈されることが意図される。

ここに記載されているシステムおよび／または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせの異なる形態で実装され得ることは明らかである。これらのシステムおよび／または方法を実装するために使用される実際の特殊な制御ハードウェアまたはソフトウェアコードは、実装を限定するものではない。したがって、システムおよび／または方法の動作および挙動は、特定のソフトウェアコードを参照することなくここに記述されていた－ソフトウェアおよびハードウェアは、ここでの記述に基づいてシステムおよび／または方法を実装するように設計され得ることが理解される。

機能の組み合わせが請求項に記載されているおよび／または明細書に開示されているが、これらの組み合わせは可能な実装の開示を限定することを意図していない。実際、これらの特徴の多くは、請求項に具体的に記載されていない方法および／または明細書に開示されていない方法で組み合わされ得る。以下に列挙されている各従属請求項は、１つの請求項のみに直接従属する場合があるが、可能な実装の開示は、請求項のセット内の他のすべての請求項と組み合わせた各従属請求項を含む。

ここで使用される要素、動作、または指示は、明示的にそのように記述されていない限り、重要または不可欠であると解釈することはできない。また、ここで使用されるとき、冠詞「１つの（aおよびan）」は１つまたは複数のアイテムを含むことを意図しており、「１つまたは複数（１つ以上）」と同じ意味で使用され得る。さらに、ここで使用されるとき、「セット」という用語は、１つまたは複数のアイテム（例えば、関連するアイテム、無関係なアイテム、関連するアイテムと無関係なアイテムの組み合わせなど）を含むことを意図しており、「１つまたは複数」と同じ意味で使用され得る。１つのアイテムのみが意図される場合、用語「１つ」または類似の言語が使用される。また、ここで使用されるとき、「有する（has）」、「有する（have）」、「有している（having）」などの用語は、オープンエンドの用語であることが意図される。さらに、「に基づく」という表現は、特に明示されていない限り、「少なくとも部分的に、基づく」を意味することが意図される。

Claims

メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法であって、前記方法は、少なくとも１つのプロセッサによって実行され、前記方法は：
入力画像およびターゲット品質制御パラメータを受信するステップ；および
圧縮表現を生成するように、前記ターゲット品質制御パラメータに基づいて、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して前記入力画像をエンコーディングするステップであって、前記品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される、ステップ；を含む、
方法。
前記エンコーディングニューラルネットワークの前記品質適応重みパラメータを生成することが：
共有推論関数を使用して、中間入力および第１の共有エンコーディングパラメータに基づいて共有特徴を生成するステップと；
第１の適応エンコーディングパラメータを、予測ニューラルネットワークを使用して、前記中間入力、前記共有特徴、前記第１の適応エンコーディングパラメータ、および前記ターゲット品質制御パラメータに基づいて、更新するステップ；および
前記共有特徴および更新された前記第１の適応エンコーディングパラメータに基づいて、前記エンコーディングニューラルネットワークの前記品質適応重みパラメータを生成するステップ；を含む、
請求項１に記載の方法。
前記入力画像をエンコーディングするステップは、前記品質適応重みパラメータおよび前記ターゲット品質制御パラメータに基づいて前記圧縮表現を生成するステップを含む、
請求項２に記載の方法。
前記ターゲット品質制御パラメータは、複数の重みおよびターゲットトレードオフハイパーパラメータを含む、
請求項１に記載の方法。
復元された圧縮表現およびデコーディングターゲット品質制御パラメータを受信するステップ；および
出力画像を再構成するために、前記デコーディングターゲット品質制御パラメータに基づいて、デコーディング品質適応重みパラメータを持つデコーディングニューラルネットワークを使用して、受信した前記復元された圧縮表現をデコーディングするステップであって、前記デコーディング品質適応重みパラメータは、共有デコーディングパラメータおよび適応デコーディングパラメータを使用して計算される、ステップ；をさらに含む、
請求項１に記載の方法。
前記デコーディングニューラルネットワークの前記デコーディング品質適応重みパラメータを生成することが：
共有デコーディング推論関数を使用して、中間デコーディング入力および第１の共有デコーディングパラメータに基づいて、共有デコーディング特徴を生成するステップと；
第１の適応デコーディングパラメータを、予測ニューラルネットワークを使用して、前記中間デコーディング入力、前記共有デコーディング特徴、前記第１の適応デコーディングパラメータ、および前記デコーディングターゲット品質制御パラメータに基づいて、更新するステップ；および
前記共有デコーディング特徴および更新された前記第１の適応デコーディングパラメータに基づいて、前記デコーディングニューラルネットワークの前記デコーディング品質適応重みパラメータを生成するステップ；を含む、
請求項５に記載の方法。
前記予測ニューラルネットワークは：
前記ターゲット品質制御パラメータ、前記第１の共有エンコーディングパラメータ、前記第１の適応エンコーディングパラメータ、第１の共有デコーディングパラメータ、第１の適応デコーディングパラメータ、前記予測ニューラルネットワークの予測パラメータに基づいて、前記ターゲット品質制御パラメータに対応するトレーニングデータの第１の損失、および前記ターゲット品質制御パラメータに対応する検証データの第２の損失を生成するステップ；および
生成された前記第１の損失および生成された前記第２の損失の勾配に基づいて、前記予測パラメータを更新するステップ；
によってトレーニングされる、
請求項２に記載の方法。
前記エンコーディングニューラルネットワークは：
前記ターゲット品質制御パラメータ、前記第１の共有エンコーディングパラメータ、前記第１の適応エンコーディングパラメータ、第１の共有デコーディングパラメータ、および第１の適応デコーディングパラメータに基づいて、前記ターゲット品質制御パラメータに対応するトレーニングデータの内部ループ損失を生成するステップ；
生成された前記内部ループ損失の勾配に基づいて、前記第１の共有エンコーディングパラメータ、前記第１の適応エンコーディングパラメータ、前記第１の共有デコーディングパラメータおよび前記第１の適応デコーディングパラメータを第１に更新するステップ；
前記ターゲット品質制御パラメータ、第１に更新された前記第１の共有エンコーディングパラメータ、第１に更新された前記第１の適応エンコーディングパラメータ、第１に更新された前記第１の共有デコーディングパラメータ、および第１に更新された前記第１の適応デコーディングパラメータに基づいて、前記ターゲット品質制御パラメータに対応する検証データのメタ損失を生成するステップ；および
生成された前記メタ損失の勾配に基づいて、前記第１に更新された第１の共有エンコーディングパラメータ、前記第１に更新された第１の適応エンコーディングパラメータ、前記第１に更新された第１の共有デコーディングパラメータ、および前記第１に更新された第１の適応デコーディングパラメータを第２に更新するステップ；
請求項２に記載の方法。
前記ターゲット品質制御パラメータおよび前記デコーディングターゲット品質制御パラメータは異なり、前記圧縮表現の画像プロパティが再構成された前記出力画像の画像プロパティと異なる、
請求項５に記載の方法。
装置であって：
プログラムコードを格納するように設定された少なくとも１つのメモリと；
前記プログラムコードを読み取り、前記プログラムコードによって指示されるように動作するように構成された少なくとも１つのプロセッサと；を有し、
前記プログラムコードは、前記少なくとも１つのプロセッサに、請求項１乃至９のいずれか１項に記載の方法を実行させる、
装置。
命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、少なくとも１つのプロセッサによって実行されるとき、前記少なくとも１つのプロセッサに、請求項１乃至９のいずれか１項に記載の方法を実行させる、非一時的コンピュータ可読媒体。
少なくとも１つのプロセッサによって実行されるとき、前記少なくとも１つのプロセッサに、請求項１乃至９のいずれか１項に記載の方法を実行させる、コンピュータプログラム。