JP2024519246A

JP2024519246A - ニューラル画像圧縮のための潜在空間における代用品質ファクタ学習

Info

Publication number: JP2024519246A
Application number: JP2023547760A
Authority: JP
Inventors: ジャン，ウェイ; ワン，ウェイ; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-10-18
Filing date: 2022-09-28
Publication date: 2024-05-10
Also published as: KR20230108335A; EP4232954A4; US20230122449A1; WO2023069235A1; CN116783598A; EP4232954A1

Abstract

潜在空間において代用品質ファクタ学習を使用したニューラル画像圧縮であって、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、圧縮されたビットストリームのデコードされた潜在表現と目標品質ファクタとに基づいて、再構成画像を計算するステップと、畳み込みニューラルネットワークの１つ以上の層の共有デコードパラメータ（ＳＤＰ）を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、共有特徴、適応的デコードパラメータ（ＡＤＰ）、及び目標品質ファクタに基づいて、畳み込みニューラルネットワークの１つ以上の層のための推定ＡＤＰをコンピューティングするステップと、畳み込みニューラルネットワークの１つ以上の層における推定ＡＤＰ及び共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む。

Description

本出願は、２０２１年１２月１３日に出願された米国仮特許出願第６３／２８９，０４８号、２０２１年１０月１８日に出願された米国仮特許出願第６３／２５７，００５号、及び２０２２年９月２１日に出願された米国特許出願第１７／９４９，４３４号に基づき、かつこれらに対する優先権を主張し、これらの開示は、その全体が参照により本明細書に組み込まれる。

本開示の例示的な実施形態と一致する装置及び方法は、ニューラル画像圧縮のための潜在空間における代用品質ファクタ学習に関する。

ＩＳＯ／ＩＥＣＭＰＥＧ（ＪＴＣ１／ＳＣ２９／ＷＧ１１）は、高度なニューラル画像やビデオ圧縮方法論を含む将来のビデオコーディング技術の標準化に対する潜在的なニーズを積極的に探求している。ＩＳＯ／ＩＥＣＪＰＥＧは、ニューラルネットワーク（ＮＮ）を使用したＡＩベースのエンドツーエンドニューラル画像圧縮（ＮＩＣ）に焦点を当てたＪＰＥＧ－ＡＩグループを設立している。

以前のアプローチは有望な性能を示したが、柔軟なビットレート制御は以前のＮＩＣ法にとって挑戦的な問題のままである。従来は、レートと歪み（圧縮された画像の品質）との間の所望のトレードオフを個別に目標とする複数のモデルインスタンスを訓練することが必要とされることがある。異なるビットレートから画像を再構成するために、これらの複数のモデルインスタンスのすべてがデコーダ側に記憶及びデプロイされることがある。また、これらのモデルインスタンスは、すべての可能な目標ビットレートに対して無限個のモデルインスタンスを訓練及び記憶することが難しいため、任意の滑らかなビットレート制御を与えることができない。以前のアプローチでは、１つのモデルインスタンスが複数の事前定義ビットレートの圧縮を達成するように訓練されるマルチレートＮＩＣが研究されてきた。しかし、任意の滑らかなビットレート制御は未開拓の未解決問題のままである。

いくつかの実施形態によれば、方法が、潜在空間における代用品質ファクタ学習を使用したニューラル画像圧縮について提供され、本方法は、少なくとも１つのプロセッサによって実行され、本方法は、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、圧縮されたビットストリームのデコードされた潜在表現と目標品質ファクタとに基づいて、再構成画像を計算するステップと、を含み、再構成画像を計算するステップは、畳み込みニューラルネットワークの１つ以上の層の共有デコードパラメータ（ＳＤＰ）を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、共有特徴、適応的デコードパラメータ（ＡＤＰ）、及び目標品質ファクタに基づいて、畳み込みニューラルネットワークの１つ以上の層のための推定ＡＤＰをコンピューティングするステップと、畳み込みニューラルネットワークの１つ以上の層における推定ＡＤＰ及び共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む。

例示的な実施形態によれば、コンピュータプログラムコードを記憶するように構成されている少なくとも１つのメモリと、少なくとも１つのメモリにアクセスし、コンピュータプログラムコードによって命令されるように動作するように構成されている少なくとも１つのプロセッサと、を含む、装置が提供されてもよく、コンピュータプログラムコードは、少なくとも１つのプロセッサに、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信させるように構成されている受信コードと、少なくとも１つのプロセッサに、圧縮されたビットストリームのデコードされた潜在表現を計算させるように構成されている第１の計算コードと、少なくとも１つのプロセッサに、圧縮されたビットストリームのデコードされた潜在表現及び目標品質ファクタに基づいて再構成画像を計算させるように構成されている第２の計算コードと、を含み、第２の計算コードは、少なくとも１つのプロセッサに、畳み込みニューラルネットワークの１つ以上の層の共有デコードパラメータ（ＳＤＰ）を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングさせるように構成されている第１のコンピューティングコードと、少なくとも１つのプロセッサに、共有特徴、適応的デコードパラメータ（ＡＤＰ）、及び目標品質ファクタに基づいて、畳み込みニューラルネットワークの１つ以上の層のための推定ＡＤＰをコンピューティングさせるように構成されている第２のコンピューティングコードと、少なくとも１つのプロセッサに、１つ以上の層における推定ＡＤＰ及び共有特徴に基づいて、出力テンソルをコンピューティングさせるように構成されている第３のコンピューティングコードと、を含むようにさらに構成されている。

いくつかの実施形態によれば、命令を記憶した非一時的なコンピュータ可読記録媒体が提供されてもよく、命令は、デコーダ内の少なくとも１つのプロセッサによって実行されるときに、プロセッサに、潜在空間における代用品質ファクタ学習を使用したニューラル画像圧縮のための方法を実行させ、本方法は、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、圧縮されたビットストリームのデコードされた潜在表現と目標品質ファクタとに基づいて、再構成画像を計算するステップと、を含み、再構成画像を計算するステップは、畳み込みニューラルネットワークの１つ以上の層の共有デコードパラメータ（ＳＤＰ）を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、共有特徴、適応的デコードパラメータ（ＡＤＰ）、及び目標品質ファクタに基づいて、畳み込みニューラルネットワークの１つ以上の層のための推定ＡＤＰをコンピューティングするステップと、推定ＡＤＰ及び共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む。

本開示の例示的な実施形態の特徴、利点、及び重要性は、添付の図面を参照して以下に説明される。添付の図面において、同様の符号は同様の要素を示す。

本明細書で説明されるシステム及び／又は方法が実装され得る例示的な環境の図である。図１の１つ以上のデバイスの例示的なコンポーネントのブロック図である。実施形態による、メタ学習による適応的ニューラル画像圧縮のためのメタＮＩＣアーキテクチャ３００Ａのブロック図である。実施形態による、メタ学習による適応的ニューラル画像圧縮のためのメタＮＩＣアーキテクチャ３００Ｂのブロック図である。実施形態による、テスト段階中のメタ学習による適応的ニューラル画像圧縮のための装置４００のブロック図である。実施形態による、テスト段階中のメタ学習による適応的ニューラル画像圧縮のための装置４００のブロック図である。メタＮＩＣデコーダの推論ワークフローのブロック図である。実施形態による、メタ学習によるテスト段階におけるエンコーダワークフローのためのメタＮＩＣアーキテクチャ５００Ａのブロック図である。実施形態による、メタ学習によるテスト段階におけるエンコーダワークフローのためのメタＮＩＣアーキテクチャ５００Ｂのブロック図である。潜在空間における代用品質ファクタ学習を使用したニューラル画像圧縮のための方法のフローチャートである。

本開示は、デコードされた潜在空間内の代用（ｓｕｂｓｔｉｔｕｔｉｏｎａｌ）品質ファクタ（ＱＦ、ＱｕａｌｉｔｙＦａｃｔｏｒ）を見出すことによるメタニューラル画像圧縮（ｍｅｔａ－ＮＩＣ）フレームワークのための方法及び装置を説明する。メタ学習メカニズムを使用して、入力画像のデコードされた潜在的特徴及び目標圧縮品質に基づいて、エンコーダ上の各画像に対する代用品質制御パラメータを適応的にコンピューティングしてもよい。代用品質制御パラメータを使用して、デコーダが画像を再構成しているときに、コンピューティングされた品質適応的重みパラメータを目標画像のより良い回復に向けて改善してもよい。

図１は、実施形態による、本明細書で説明される方法、装置、及びシステムが実装され得る環境１００の図である。

図１に示すように、環境１００は、ユーザデバイス１１０、プラットフォーム１２０、及びネットワーク１３０を含み得る。環境１００のデバイスは、有線接続、無線接続、又は有線及び無線接続の組み合わせを介して相互接続し得る。

ユーザデバイス１１０は、プラットフォーム１２０に関連する情報を受信、生成、記憶、処理、及び／又は提供することが可能な１つ以上のデバイスを含む。例えば、ユーザデバイス１１０は、コンピューティングデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど）、携帯電話（例えば、スマートフォン、無線電話等）、ウェアラブルデバイス（例えば、一対のスマートグラス若しくはスマートウオッチ）、又は類似のデバイスを含んでもよい。いくつかの実装において、ユーザデバイス１１０は、プラットフォーム１２０から情報を受信し、及び／又はプラットフォーム１２０に情報を送信してもよい。

プラットフォーム１２０は、本明細書の他の箇所で説明されるように、１つ以上のデバイスを含む。いくつかの実装において、プラットフォーム１２０は、クラウドサーバ又はクラウドサーバのグループを含んでもよい。いくつかの実装において、プラットフォーム１２０は、ソフトウェアコンポーネントがスワップイン又はスワップアウトされるように、モジュール化されるように設計されてもよい。そのようなものとして、プラットフォーム１２０は、異なる使用のために容易に及び／又は迅速に再構成されてもよい。

いくつかの実装において、図示のように、プラットフォーム１２０は、クラウドコンピューティング環境１２２においてホストされてもよい。特に、本明細書で説明される実装は、プラットフォーム１２０をクラウドコンピューティング環境１２２でホストされるものとして説明するが、いくつかの実装において、プラットフォーム１２０は、クラウドベースではなくてもよいし（すなわち、クラウドコンピューティング環境の外部で実装されてもよい）、部分的にクラウドベースであってもよい。

クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストするシステム及び／又はデバイスの物理的な位置及び構成のエンドユーザ（例えば、ユーザデバイス１００）の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供してもよい。図示のように、クラウドコンピューティング環境１２２は、コンピューティングリソース１２４のグループ（まとめて「コンピューティングリソース１２４」と呼ぶか、個々に「コンピューティングリソース１２４」と呼ぶ）を含んでもよい。

コンピューティングリソース１２４は、１つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、又は他のタイプの計算及び／又は通信デバイスを含む。いくつかの実装において、コンピューティングリソース１２４はプラットフォーム１２０をホストしてもよい。クラウドリソースは、コンピューティングリソース１２４において実行するコンピューティングインスタンス、コンピューティングリソース１２４において提供されるストレージデバイス、コンピューティングリソース１２４によって提供されるデータ転送デバイスなどを含んでもよい。いくつかの実装において、コンピューティングリソース１２４は、有線接続、無線接続、又は有線及び無線接続の組み合わせを介して、他のコンピューティングリソース１２４と通信し得る。

図１にさらに示すように、計算リソース１２４は、１つ以上のアプリケーション（「ＡＰＰ」）１２４－１、１つ以上の仮想マシン（「ＶＭ」）１２４－２、仮想化ストレージ（「ＶＳ」）１２４－３、１つ以上のハイパーバイザ（「ＨＹＰ」）１２４－４などのクラウドリソースのグループを含む。

アプリケーション１２４－１は、ユーザデバイス１１０及び／又はプラットフォーム１２０に提供されるか、又はこれらによってアクセスされ得る１つ以上のソフトウェアアプリケーションを含む。アプリケーション１２４－１は、ユーザデバイス１１０にソフトウェアアプリケーションをインストールして実行する必要性を排除してもよい。例えば、アプリケーション１２４－１は、プラットフォーム１２０に関連するソフトウェア、及び／又はクラウドコンピューティング環境１２２を介して提供可能な他の任意のソフトウェアを含んでもよい。いくつかの実装において、１つのアプリケーション１２４－１は、仮想マシン１２４－２を介して、１つ以上の他のアプリケーション１２４－１に情報を送信する／これらから情報を受信してもよい。

仮想マシン１２４－２は、物理マシンのようにプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装を含む。仮想マシン１２４－２は、仮想マシン１２４－２によるあらゆる実マシンへの使用及び対応の程度に応じて、システム仮想マシン又はプロセス仮想マシンのいずれであってもよい。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ」）の実行をサポートする完全なシステムプラットフォームを提供してもよい。プロセス仮想マシンは、単一のプログラムを実行し、単一のプロセスをサポートしてもよい。いくつかの実装において、仮想マシン１２４－２は、ユーザ（例えば、ユーザデバイス１１０）に代わって実行し得、データ管理、同期化、又は長時間データ転送のようなクラウドコンピューティング環境１２２のインフラストラクチャを管理してもよい。

仮想化ストレージ１２４－３は、コンピューティングリソース１２４の記憶システム又はデバイス内で仮想化技術を使用する１つ以上のストレージシステム及び／又は１つ以上のデバイスを含む。いくつかの実装において、ストレージシステムの文脈内で、仮想化のタイプは、ブロック仮想化及びファイル仮想化を含んでもよい。ブロック仮想化は、物理ストレージ又は異種構造に関係なくストレージシステムにアクセスできるように、物理ストレージからの論理ストレージの抽象化（又は分離）を指してもよい。この分離により、ストレージシステムの管理者は、エンドユーザに対するストレージを管理する方法に柔軟性を持たせることが可能となってもよい。ファイル仮想化は、ファイルレベルでアクセスされるデータと、ファイルが物理的に記憶される位置との間の依存関係を排除してもよい。これにより、ストレージの使用、サーバの統合、及び／又は継続的なファイル移行のパフォーマンスの最適化を可能にしてもよい。

ハイパーバイザ１２４－４は、複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」）が、コンピュータリソース１２４などのホストコンピュータで同時に実行することを可能にするハードウェア仮想化技術を提供してもよい。ハイパーバイザ１２４－４は、ゲストオペレーティングシステムに対して仮想オペレーティングプラットフォームを提示し、ゲストオペレーティングシステムの実行を管理してもよい。様々なオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共有してもよい。

ネットワーク１３０は、１つ以上の有線及び／又は無線ネットワークを含む。例えば、ネットワーク１３０は、セルラーネットワーク（例えば、第５世代（５Ｇ）ネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、符号分割多元接続（ＣＤＭＡ）ネットワークなど）、公衆陸上移動体網（ＰＬＭＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、電話網（例えば、公衆交換電話網（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、及び／又はこれら又は他のタイプのネットワークの組み合わせを含んでもよい。

図１に示すデバイス及びネットワークの数及び配置は、一例として提供される。実際には、図１に示されたものよりも、追加のデバイス及び／又はネットワーク、より少ないデバイス及び／又はネットワーク、異なるデバイス及び／又はネットワーク、又は異なる配置のデバイス及び／又はネットワークがあってもよい。さらに、図１に示す２つ以上のデバイスは、単一のデバイス内に実装されてもよいし、図１に示す単一のデバイスは、複数の分散されたデバイスとして実装されてもよい。追加的又は代替的に、環境１００のデバイスのセット（例えば、１つ以上のデバイス）は、環境１００の別のデバイスのセットによって実行されるものとして説明される１つ以上の動作を実行してもよい。

図２は、図１の１つ以上のデバイスの例示的なコンポーネントのブロック図である。

デバイス２００は、ユーザデバイス１１０及び／又はプラットフォーム１２０に対応してもよい。図２に示すように、デバイス２００は、バス２１０、プロセッサ２２０、メモリ２３０、ストレージコンポーネント２４０、入力コンポーネント２５０、出力コンポーネント２６０、及び通信インターフェース２７０を含んでもよい。

バス２１０は、デバイス２００のコンポーネント間の通信を可能にするコンポーネントを含む。プロセッサ２２０は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実装されてもよい。プロセッサ２２０は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、加速処理ユニット（ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は別のタイプの処理コンポーネントである。いくつかの実装において、プロセッサ２２０は、動作を実行するようにプログラムされることが可能な１つ以上のプロセッサを含む。メモリ２３０は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、及び／又は、プロセッサ２２０による使用のための情報及び／又は命令を記憶する別のタイプのダイナミック又はスタティックストレージデバイス（例えば、フラッシュメモリ、磁気メモリ、及び／又は、光メモリ）を含む。

ストレージコンポーネント２４０は、デバイス２００の動作及び使用に関連する情報及び／又はソフトウェアを記憶する。例えば、ストレージコンポーネント２４０は、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、及び／又はソリッドステートディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ、及び／又は他のタイプの非一時的コンピュータ可読媒体を、対応するドライブと共に含んでもよい。

入力コンポーネント２５０は、デバイス２００がユーザ入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び／又はマイクロホン）を介して情報を受信することを可能にするコンポーネントを含む。追加的又は代替的に、入力コンポーネント２５０は、情報（例えば、全地球測位システム（ＧＰＳ）コンポーネント、加速度計、ジャイロスコープ、及び／又はアクチュエータ）を感知するためのセンサを含んでもよい。出力コンポーネント２６０は、デバイス２００からの出力情報を提供するコンポーネント（例えば、ディスプレイ、スピーカ、及び／又は１つ以上の発光ダイオード（ＬＥＤ））を含む。

通信インターフェース２７０は、デバイス２００が有線接続、無線接続、又は有線及び無線接続の組み合わせを介して他のデバイスと通信することを可能にするトランシーバ様コンポーネント（例えば、トランシーバ及び／又は別個の受信機及び送信機）を含む。通信インターフェース２７０は、デバイス２００が別のデバイスから情報を受信し、及び／又は別のデバイスに情報を提供することを可能にしてもよい。例えば、通信インターフェース２７０は、Ｅｔｈｅｒｎｅｔ（登録商標）インターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数（ＲＦ）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、Ｗｉ－Ｆｉ（登録商標）インターフェース、セルラーネットワークインターフェースなどを含んでもよい。

デバイス２００は、本明細書で説明される１つ以上のプロセスを実行してもよい。デバイス２００は、メモリ２３０及び／又はストレージコンポーネント２４０などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令をプロセッサが実行することに応答して、これらのプロセスを実行してもよい。コンピュータ可読媒体は、本明細書において、非一時的メモリデバイスとして定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリスペース、又は複数の物理ストレージデバイスに拡散したメモリスペースを含む。

ソフトウェア命令は、別のコンピュータ可読媒体から、又は通信インターフェース２７０を介して別のデバイスから、メモリ２３０及び／又はストレージコンポーネント２４０に読み出されてもよい。実行されるときに、メモリ２３０及び／又はストレージコンポーネント２４０に記憶されたソフトウェア命令は、プロセッサ２２０に本明細書で説明される１つ以上のプロセスを実行させてもよい。追加的又は代替的に、ハードワイヤード回路を、本明細書で説明される１つ以上のプロセスを実行するために、ソフトウェア命令の代わりに、又はそれと組み合わせて使用してもよい。したがって、本明細書で説明される実施形態は、ハードウェア回路とソフトウェアのいかなる特定の組み合わせにも限定されない。

図２に示すコンポーネントの数及び配置は、一例として提供される。実際には、デバイス２００は、図２に示されるものよりも追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる配置のコンポーネントを含んでもよい。追加的又は代替的に、デバイス２００のコンポーネントのセット（例えば、１つ以上のコンポーネント）は、デバイス２００の別のコンポーネントのセットによって実行されるものとして説明される１つ以上の動作を実行してもよい。

本開示は、デコードされた潜在空間において代用ＱＦをサポートするメタＮＩＣフレームワークを提案する。メタ学習メカニズムを使用して、入力画像のデコードされた潜在的特徴及び目標圧縮品質に基づいて、エンコーダ上の各画像に対する代用品質制御パラメータを適応的にコンピューティングしてもよい。代用品質制御パラメータを使用して、デコーダが画像を再構成しているときに、コンピューティングされた品質適応的重みパラメータを目標画像のより良い回復に向けて改善してもよい。

サイズ（ｈ，ｗ，ｃ）の入力画像ｘが与えられ、ここで、ｈ、ｗ、ｃは、それぞれ高さ、幅、チャネル数であり、ＮＩＣワークフローのテスト段階の目標は、以下のように説明される。入力画像ｘは、正規の画像フレーム（ｔ＝１）、複数の画像フレーム（ｔ＞１）を含む４次元ビデオシーケンスなどであってもよい。各画像フレームは、カラー画像（ｃ＝３）、グレースケール画像（ｃ＝１）、ｒｇｂ＋深度画像（ｃ＝４）などであってもよい。ストレージ及び伝送のためにコンパクトであり得る圧縮された表現

がコンピューティングされてもよい。次いで、圧縮された表現

に基づいて、出力画像

が再構成されてもよく、再構成された出力画像

が、元の入力画像ｘに類似し得る。歪み損失

が使用されて、ピーク信号対雑音比（ＰＳＮＲ）又は構造的類似性指数尺度（ＳＳＩＭ）などの再構成エラーを測定してもよい。レート損失

が、圧縮された表現

のビット消費を測定するためにコンピューティングされてもよい。トレードオフハイパーパラメータλが使用されて、結合レート歪み（Ｒ－Ｄ）損失

を形成してもよい。

大きなハイパーパラメータλを用いたトレーニングは、より小さな歪みを有するがより多くのビット消費を有する圧縮モデルをもたらすことがあり、逆もまた同様である。従来、各事前定義ハイパーパラメータλに対して、ＮＩＣモデルインスタンスが訓練されるが、これは、ハイパーパラメータλの他の値に対してはうまく機能しない。したがって、圧縮されたストリームの複数のビットレートを達成するために、従来の方法は、複数のモデルインスタンスの訓練及び記憶を必要とすることがある。さらに、ハイパーパラメータλのすべての可能な値に対してモデルを訓練することは実際には困難であるため、従来の方法は、任意の滑らかなビットレート制御のような任意の滑らかな品質制御を達成することができない。追加的に、モデルインスタンスは、各タイプのメトリックによって測定された損失を最適化するように訓練される必要があり（例えば、各歪みメトリック、すなわちＰＳＮＲ、ＳＳＩＭ、両方の重み付けされた組み合わせ、又は他のメトリックに対して）、従来の方法は、滑らかな品質メトリック制御を達成することができない。

図３Ａ及び図３Ｂは、実施形態による、メタ学習による適応的ニューラル画像圧縮のためのメタＮＩＣアーキテクチャ３００Ａ及び３００Ｂのブロック図である。

図３Ａに示すように、メタＮＩＣアーキテクチャ３００Ａは、共有デコードＮＮ３０５及び適応的デコードＮＮ３１０を含む。

図３Ｂに示すように、メタＮＩＣアーキテクチャ３００Ｂは、共有デコード層３２５及び３３０と、適応的デコード層３３５及び３４０と、を含む。

本開示では、下位ＮＩＣエンコーダ及び下位ＮＩＣデコーダのモデルパラメータを、共有デコードパラメータ（ＳＤＰ、ＳｈａｒｅｄＤｅｃｏｄｅｉｎｇＰａｒａｍｔｅｒ）及び適応的デコードパラメータ（ＡＤＰ、ＡｄａｐｔｉｖｅＤｅｃｏｄｉｎｇＰａｒａｍｅｔｅｒ）をそれぞれ示す２つの部分

及び

に分離する。図３Ａ及び図３Ｂは、ＮＩＣネットワークアーキテクチャの２つの実施形態を示す。

図３Ａでは、ＳＤＰとＡＤＰが分離された個々のＮＮモジュールであり、これらの個々のモジュールはネットワーク順方向コンピューティングのために互いに順次接続される。ここで、図３Ａは、これら個々のＮＮモジュールを接続する順番を示している。他の順序も同様に使用されてもよい。

図３Ｂでは、パラメータは、ＮＮレイヤ内でスプリットされてもよい。

及び

が、それぞれＮＩＣデコーダのｊ番目の層に対するＳＤＰ及びＡＤＰを示すものとする。ネットワークは、ＳＤＰ及びＡＤＰのそれぞれに対応する入力に基づいて推論出力をコンピューティングし、これらの出力は、（例えば、加算、連結、乗算などによって）組み合わせられ、次の層に送信される。

図３Ａの実施形態は、図３Ｂの１ケースとして見てもよく、ここでは、共有デコードＮＮ３１５における層の

と適応的デコードＮＮ３２０における層の

は、空である。したがって、他の実施形態では、図３Ａ及び３Ｂのネットワーク構造を組み合わせられてもよく、ここでは、ＮＩＣアーキテクチャは、純粋に共有されたエンコード／デコード層及び／又は純粋に適応的なエンコード／デコード層と、部分的に共有されたエンコード／デコードパラメータ及び部分的に適応的なエンコード／デコードパラメータを有する混合層との両方を含む。

いくつかの実施形態では、エンコーダのＮＮ構造体は、いかなる制限も有さない。例えば、各画像ｘに対して、圧縮された表現

が、ＮＮベースのエンコーダによって生成されてもよい。次いで、圧縮された表現

は、量子化され、エントロピーエンコードされてビットストリーム

を生成し、次いで、エントロピーデコードされ、量子化解除されてデコードされた潜在表現

を生成する。いくつかの実施形態では、個々のエンコーダモデルインスタンスは、各所望の圧縮品質に対して使用されてもよい。他の実施形態では、メタＮＩＣデコーダに類似するメタＮＩＣエンコーダが、共有及び適応的なエンコードパラメータと共に使用されてもよい。

図４Ａ及び図４Ｂは、実施形態による、テスト段階中のメタ学習による適応的ニューラル画像圧縮のための装置４００のブロック図である。追加的に、図４Ｃは、メタＮＩＣデコーダの推論ワークフローのブロック図である。

図４Ａに示すように、装置４００は、デコーダ４１０とメタＮＩＣデコーダ４２０と、を含む。

図４Ｂに示すように、メタＮＩＣアーキテクチャ４００Ｂは、デコーダ４１０と、代用摂動生成（ＳｕｂｓｔｉｔｕｔｉｏｎａｌＰｅｒｔｕｒｂａｔｉｏｎＧｅｎｅｒａｔｉｏｎ）モジュール４２０と、メタＮＩＣデコーダ４３０と、を含む。

図４Ｃでは、メタＮＩＣアーキテクチャ４００Ｂは、ＳＤＰ推論モジュール４２２と、ＡＤＰ予測モジュール４２４と、ＡＤＰ推論モジュール４２６と、を含む。

図４Ａは、メタＮＩＣフレームワークのテスト段階におけるデコーダの全体的なワークフローを示す。

及び

が、それぞれＮＩＣデコーダ４２０のｊ番目の層に対するＳＤＰ及びＡＤＰを示すものとする。完全に共有されている層では、

が空であるため、これは、例示的な表記である。完全に適応的な層では、

が空である。言い換えれば、この表記は、図３Ａ及び図３Ｂの両方の実施形態に対して使用されてもよい。

図４Ａ及び図４Ｂでは、圧縮されたビットストリーム

が受信され、これは、デコードモジュール４１０（典型的にはエントロピーデコード及び量子化解除動作を含む）を通過して、デコードされた潜在表現

をコンピューティングしてもよい。同時に、目標ＱＦ

が受信されてもよく、これは、エンコーダから送信され、再構成画像の目標圧縮品質を示す。ＱＦ

の詳細は、エンコード処理において後に説明する。追加的に、図４Ｂでは、メタＮＩＣデコードモジュール４３０が、再構成画像

を、潜在表現

及び目標ＱＦ

に基づいてコンピューティングする。メタＮＩＣデコードモジュール４３０では、

が、メタＮＩＣデコードＮＮを通過してもよい。ｆ（ｊ）とｆ（ｊ＋１）が、ｊ層の入力及び出力テンソルとする。

図４Ｃは、第ｊ層に対するメタＮＩＣデコーダの推論ワークフローの実施形態を与える。
ｆ（ｊ）及び

に基づいて、ＳＤＰ推論モジュール４２２は、共有推論演算

に基づいた共有特徴量ｇ（ｊ）を計算する（例えば、演算は、第ｊ層のＳＤＰを使用したネットワーク順方向計算によってモデル化されてもよい）。
ＡＤＰ予測モジュール４２４は、ｆ（ｊ）、ｇ（ｊ）、

及び

に基づいて、第ｊ層に対する推定ＡＤＰ

をコンピューティングする。
ＡＤＰ予測モジュール４２４は、典型的には、（例えば、畳み込み層及び全結合層を有する）ＮＮであり、これは、更新

を元のＡＤＰ

、現在の入力、及び目標品質インジケータ

に基づいて予測する。図４Ｃの実施形態では、ｆ（ｊ）は、ＡＤＰ予測モジュール４２４への入力として使用されてもよい。他の実施形態では、ｆ（ｊ）の代わりにｇ（ｊ）が使用されてもよい。他の実施形態では、ＳＤＰ損失が、ｇ（ｊ）に基づいて計算されてもよく、損失の勾配が、ＡＤＰ予測への入力として使用されてもよい。推定ＡＤＰ

と共有特徴量ｇ（ｊ）に基づいて、ＡＤＰ推論モジュール４２６は、ＡＤＰ推論４２６演算

に基づいた出力テンソルｆ（ｊ＋１）をコンピューティングする（例えば、演算は、第ｊ層における推定ＡＤＰを使用してネットワーク順方向コンピューティングによりモデル化されてもよい）。

図４Ｃで説明されるワークフローは、一般的な表記である。

が空である完全に共有されている層では、ＡＤＰ関連のモジュール及びｆ（ｊ＋１）＝ｇ（ｊ）が省略される。

が空である完全に共有されている層では、ＳＤＰ関連のモジュール及びｇ（ｊ）＝ｆ（ｊ）が省略される。

メタＮＩＣデコーダに対して合計Ｍ層があると仮定すると、最後の層の出力は再構成画像

をもたらしてもよい。

追加的に、図４Ｂでは、デコードされた潜在

が、代用摂動生成モジュール４２０を通過してもよく、このモジュールは、代用潜在

を、潜在

及びＱＦ

に基づいてコンピューティングする。この代用潜在

は、元の

の代わりにメタＮＩＣデコードモジュール４３０に渡されて、再構成画像

をコンピューティングしてもよい。

図５Ａ及び図５Ｂは、実施形態による、メタ学習によるテスト段階におけるエンコーダワークフローのためのメタＮＩＣアーキテクチャ５００Ａ及び５００Ｂのブロック図である。

図５Ａに示すように、メタＮＩＣアーキテクチャ５００Ａは、ＮＮエンコードモジュール５０５、エンコードモジュール５１０、デコードモジュール５１５と、メタＮＩＣデコードモジュール５２０と、歪み損失コンピューティングモジュール５２５と、逆伝播モジュール５３０と、を含む。

図５Ｂに示すように、メタＮＩＣアーキテクチャ５００Ｂは、ＮＮエンコードモジュール５３５、エンコードモジュール５４０、デコードモジュール５４５と、代用摂動生成モジュール５５０、メタＮＩＣデコードモジュール５５５と、歪み損失コンピューティングモジュール５６０と、逆伝播モジュール５６５と、を含む。

図５Ａにおいて、入力画像ｘが与えられ、元の目標ＱＦ

が与えられると、ＮＩＣエンコーダ５０５は、エンコードされた潜在

及びエンコードされたビットストリームを生成してもよい。さらに、エンコーダ５１０は、デコードされた潜在

をコンピューティングしてもよい。元の目標ＱＦ

は、目標品質メトリック、目標ビットレートなどを含む目標圧縮品質を示す。例えば、合計でｑ個の品質メトリック

（例えば、ＰＳＮＲ、ＳＳＩＭなど）があると仮定すると、全体的な品質メトリックは、一般に、以下のようにそれらの重み付けされた組み合わせとして表されてもよい。

ここで、重み

である。元の目標ＱＦ

は、すべての重みｗ_ｉと目標トレードオフハイパーパラメータλを含む単一のベクトルである。すなわち、

である。

次いで、デコードモジュール５１０からのデコードされた潜在

は、メタＮＩＣデコードモジュール５２０に渡されてもよく、このメタＮＩＣデコードモジュールは、上述したデコーダにおけるメタＮＩＣデコードモジュールと同様に動作する。メタＮＩＣデコードモジュール５２０が、再構成画像

を、

及び目標ＱＦ

に基づいてコンピューティングする。初期

は、単に、元の目標ＱＦ

と同じにセットされてもよい。次いで、元の入力ｘと再構成

との間の再構成損失（例えば、ＭＳＥ又はＭＳＳＳＩＭ）が、歪み損失計算モジュール５２５でコンピューティングされてもよい。次いで、損失の勾配がコンピューティングされ、逆伝播モジュール５３０によって逆伝播されて、目標ＱＦ

を更新してもよい。メタＮＩＣデコードモジュール５２０は、更新された目標ＱＦ

とデコードされた潜在

とに基づいて、更新された再構成画像

をコンピューティングしてもよい。システムはいくつかのそのような反復を経て、最終的に、更新された目標ＱＦ

を取得してもよく、これは、圧縮されたビットストリーム

と共にデコーダ側に送信されてもよい。

いくつかの実施形態では、更新された目標ＱＦ

は、伝送オーバーヘッドをさらに低減するために、量子化及びエントロピーエンコードのようなエンコードプロセスをさらに経てもよい。

図５Ｂでは、デコードされた潜在

が、デコーダ側と同じである代用摂動生成モジュール５５０を通過してもよく、このモジュールは、代用潜在

を、潜在

及びＱＦ

に基づいてコンピューティングする。この代用潜在

は、元の

の代わりにメタＮＩＣデコードモジュール５５５に渡されて、再構成画像

をコンピューティングしてもよい。

提案したメタＮＩＣフレームワークは、再構成のためにデコーダ側で任意の滑らかなＱＦ

可能にする。言い換えれば、上述した処理ワークフローは、任意の滑らかな目標ＱＦ

にフィッティングするように、圧縮表現及び再構成画像をコンピューティングする。

いくつかの実施形態によれば、訓練プロセスが実装されてもよく、訓練プロセスは、メタＮＩＣエンコーダ、メタＮＩＣデコーダのためのＳＤＰ

及びＡＤＰ

、ＡＤＰ予測ＮＮ（

として示されるモデルパラメータ）、ならびに代用摂動生成モジュール（例えば、図４Ｂ及び図５Ｂ参照）のためのパラメータを学習することを目的とする。

メタＮＩＣエンコーダ及びメタＮＩＣデコーダは、ＭＡＭＬ（Ｍｏｄｅｌ－ＡｇｎｏｓｔｉｃＭｅｔａ－Ｌｅａｒｎｉｎｇ）メカニズムを介してエンドツーエンド方式で訓練されてもよい。基礎となるメタＮＩＣエンコーダ及びデコーダが訓練されると、代用摂動生成モジュールは、メタＮＩＣエンコーダ及びデコーダパラメータを固定することによって訓練される一方で、フィッティング損失を最小化して、代用潜在表現

をデコードされた潜在

から計算する。ここで、代用潜在表現

は、いくつかのメトリックによって測定された元のデコードされた潜在

よりも良好である（例えば、メタＮＩＣデコードモジュールによって、元のデコードされた潜在

よりも良好な再構成画像を、より少ない歪み又は良好な知覚品質で生成し得る）。

図６は、潜在空間における代替的品質ファクタ学習を使用したニューラル画像圧縮のためのプロセス６００の実施形態のフローチャートである。

図６に示すように、プロセス６００の動作６１０において、圧縮されたビットストリーム及び目標圧縮品質が受信される。プロセスは、動作６２０に進み、図４Ａ及び図４Ｂに示すように、圧縮されたビットストリームのデコードされた潜在表現が計算される。すなわち、デコードされた潜在表現が、再構成画像を計算するために使用されてもよい。

プロセスは、動作６３０に進み、共有特徴がＳＤＰに基づいてコンピューティングされてもよい。プロセスは、動作６４０に進み、図４Ｃに示すように、畳み込みニューラルネットワークの１つ以上の層に対してＡＤＰがコンピューティングされる。したがって、出力テンソルが、推定されたＡＤＰ及び共有特徴に基づいてコンピューティングされてもよい。

前述の開示は、例示及び説明を提供するが、網羅的であることを意図しておらず、また、実装を開示された正確な形態に限定することを意図していない。修正及び変形は、上記の開示に照らして可能であるか、又は実装の実施から取得されてもよい。さらに、１つの実施形態の１つ以上の特徴又はコンポーネントは、別の実施形態（又は別の実施形態の１つ以上の特徴）に組み込まれてもよく、又は別の実施形態と組み合わされてもよい。追加的に、以下に提供されるフローチャート及び動作の説明において、１つ以上の動作が省略されてもよく、１つ以上の動作が追加されてもよく、１つ以上の動作が同時に（少なくとも部分的に）実行されてもよく、１つ以上の動作の順序が切り替えられてもよいことが理解される。

本明細書で説明されるシステム及び／又は方法は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせの異なる形態で実装され得ることは明らかであろう。これらのシステム及び／又は方法を実装するために使用される実際の専用制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、システム及び／又は方法の動作及び挙動は、特定のソフトウェアコードを参照することなく、本明細書で説明されている。ソフトウェア及びハードウェアは、本明細書における説明に基づいてシステム及び／又は方法を実装するように設計され得ることが理解される。

特徴の特定の組み合わせが特許請求の範囲に規定され、及び／又は明細書に開示されているとしても、これらの組み合わせは、可能な実装の開示を限定するものではない。実際、これらの特徴の多くは、具体的に特許請求の範囲に規定されていない、及び／又は明細書に開示されていない方法で組み合わせられてもよい。以下に列挙される各従属請求項は、１のクレームのみに直接従属してもよいが、可能な実装の開示は、クレームセットにおいて、他の全てのクレームと組み合わせた各従属クレームを含む。

本明細書で使用されるいかなる要素、行為、又は命令も、明示的に記述されない限り、重要又は必須と解釈されるべきではない。また、本明細書で使用される場合、「ａ」及び「ａｎ」という冠詞は、１つ以上の項目を含むことを意図し、「１つ以上」と互換的に使用されてもよい。１つの項目のみが意図される場合、「１つ」という用語又は類似の言語が使用される。また、本明細書で使用される場合、「有する（ｈａｓ）」、「有する（ｈａｖｅ）」、「有している（ｈａｖｉｎｇ）」、「含む（ｉｎｃｌｕｄｅ）」、「含んでいる（ｉｎｃｌｕｄｉｎｇ）」などの用語は、オープンエンドの用語であることを意図している。さらに、「～に基づく」という語句は、明示的に別段の記載がない限り、「～に少なくとも部分的に基づく」を意味することを意図している。さらに、「［Ａ］及び［Ｂ］のうちの少なくとも１つ」又は「［Ａ］又は［Ｂ］のうちの少なくとも１つ」などの表現は、Ａのみ、Ｂのみ、又はＡとＢの両方を含むとして理解されるべきである。

Claims

少なくとも１つのプロセッサによって実行される、ニューラル画像圧縮のための方法であって、
圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、
前記圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、
前記圧縮されたビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、再構成画像を計算するステップと、を含み、前記再構成画像を計算するステップは、
（ｉ）畳み込みニューラルネットワークの１つ以上の層の共有デコードパラメータ（ＳＤＰ）を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、
（ｉｉ）前記共有特徴、適応的デコードパラメータ（ＡＤＰ）、及び前記目標品質ファクタに基づいて、前記畳み込みニューラルネットワークの前記１つ以上の層のための推定ＡＤＰをコンピューティングするステップと、
（ｉｉｉ）前記畳み込みニューラルネットワークの前記１つ以上の層における前記推定ＡＤＰ及び前記共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む、方法。
前記推定ＡＤＰをコンピューティングするステップは、元のＡＤＰ、現在の入力、及び前記目標品質ファクタに基づいて、更新ＡＤＰを予測するＡＤＰ予測モジュールによって実行される、請求項１に記載の方法。
請求項１に記載の方法であって、
元の入力画像と前記再構成画像との間の再構成損失をコンピューティングするステップと、
前記コンピューティングされた再構成損失に基づいて、前記目標品質ファクタを更新するステップと、
前記更新された目標品質ファクタ及び前記圧縮されたビットストリームの前記デコードされた表現に基づいて、前記再構成画像を更新するステップと、をさらに含む、請求項１に記載の方法。
前記ビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、前記圧縮されたビットストリームの代用潜在表現をコンピューティングするステップをさらに含む、請求項１に記載の方法。
前記再構成画像をコンピューティングするステップと、前記代用潜在表現に基づいて前記目標品質ファクタを更新するステップと、をさらに含む、請求項４に記載の方法。
再構成損失は、前記代用潜在表現が、代用摂動生成に基づいてコンピューティングされるという決定に応答して最小限に抑えられる、請求項５に記載の方法。
前記再構成画像は、元の画像よりも歪みが少なく、知覚品質が高く生成される、請求項６に記載の方法。
装置であって、
コンピュータプログラムコードを記憶するように構成されている少なくとも１つのメモリと、
前記少なくとも１つのメモリにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するように構成されている少なくとも１つのプロセッサと、を含み、前記コンピュータプログラムコードは、
前記少なくとも１つのプロセッサに、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信させるように構成されている受信コードと、
前記少なくとも１つのプロセッサに、前記圧縮されたビットストリームのデコードされた潜在表現を計算させるように構成されている第１の計算コードと、
前記少なくとも１つのプロセッサに、前記圧縮されたビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて再構成画像を計算させるように構成されている第２の計算コードと、を含み、前記第２の計算コードは、
（ｉ）前記少なくとも１つのプロセッサに、畳み込みニューラルネットワークの１つ以上の層の共有デコードパラメータ（ＳＤＰ）を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングさせるように構成されている第１のコンピューティングコードと、
（ｉｉ）前記少なくとも１つのプロセッサに、前記共有特徴、適応的デコードパラメータ（ＡＤＰ）、及び前記目標品質ファクタに基づいて、前記畳み込みニューラルネットワークの前記１つ以上の層のための推定ＡＤＰをコンピューティングさせるように構成されている第２のコンピューティングコードと、
（ｉｉｉ）前記少なくとも１つのプロセッサに、前記１つ以上の層における前記推定ＡＤＰ及び前記共有特徴に基づいて、出力テンソルをコンピューティングさせるように構成されている第３のコンピューティングコードと、を含む、装置。
前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、元のＡＤＰ、現在の入力、及び前記目標品質ファクタに基づいて、更新ＡＤＰを予測するＡＤＰ予測モジュールによって実行される前記推定ＡＤＰをコンピューティングさせるように構成されている第４のコンピューティングコードをさらに含む、請求項８に記載の装置。
前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、
元の入力画像と前記再構成画像との間の再構成損失をコンピューティングさせ、
前記コンピューティングされた再構成損失に基づいて、前記目標品質ファクタを更新させ、
前記更新された目標品質ファクタ及び前記圧縮されたビットストリームの前記デコードされた表現に基づいて、前記再構成画像を更新させるように構成されている第５のコンピューティングコードをさらに含む、請求項８に記載の装置。
前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、前記ビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、前記圧縮されたビットストリームの代用潜在表現をコンピューティングさせるように構成されている第６のコンピューティングコードをさらに含む、請求項８に記載の装置。
前記第６のコンピューティングコードは、前記少なくとも１つのプロセッサに、前記再構成画像をコンピューティングさせ、前記代用潜在表現に基づいて、前記目標品質ファクタを更新させるようにさらに構成されている、請求項１１に記載の装置。
前記代用潜在表現が代用摂動生成に基づいて計算されるときに、再構成損失が最小限に抑えられ、前記再構成画像は、元の画像よりも歪みが少なく、知覚品質が高く生成される、請求項１２に記載の装置。
命令を記憶した非一時的なコンピュータ可読記録媒体であって、前記命令は、少なくとも１つのプロセッサによって実行されるときに、前記プロセッサに、
圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、
前記圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、
前記圧縮されたビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、再構成画像を計算するステップと、を行わせ、前記再構成画像を計算するステップは、
（ｉ）畳み込みニューラルネットワークの１つ以上の層の共有デコードパラメータ（ＳＤＰ）を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、
（ｉｉ）前記共有特徴、適応的デコードパラメータ（ＡＤＰ）、及び前記目標品質ファクタに基づいて、前記畳み込みニューラルネットワークの前記１つ以上の層のための推定ＡＤＰをコンピューティングするステップと、
（ｉｉｉ）前記１つ以上の層における前記推定ＡＤＰ及び前記共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む、非一時的なコンピュータ可読記録媒体。
前記推定ＡＤＰをコンピューティングするステップは、元のＡＤＰ、現在の入力、及び前記目標品質ファクタに基づいて、更新ＡＤＰを予測するＡＤＰ予測モジュールによって実行される、請求項１４に記載の非一時的なコンピュータ可読記録媒体。
前記命令は、前記少なくとも１つのプロセッサに、
元の入力画像と前記再構成画像との間の再構成損失をコンピューティングするステップと、
前記コンピューティングされた再構成損失に基づいて、前記目標品質ファクタを更新するステップと、
前記更新された目標品質ファクタ及び前記圧縮されたビットストリームの前記デコードされた表現に基づいて、前記再構成画像を更新するステップと、を行わせる、請求項１４に記載の非一時的なコンピュータ可読記録媒体。
前記命令は、前記少なくとも１つのプロセッサに、前記ビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、前記圧縮されたビットストリームの代用潜在表現をコンピューティングするステップを行わせる、請求項１４に記載の非一時的なコンピュータ可読記録媒体。
前記命令は、前記少なくとも１つのプロセッサに、前記再構成画像をコンピューティングするステップと、前記代用潜在表現に基づいて、前記目標品質ファクタを更新するステップと、を行わせる、請求項１７に記載の非一時的なコンピュータ可読記録媒体。
再構成損失は、前記代用潜在表現が、代用摂動生成に基づいてコンピューティングされるときに最小限に抑えられる、請求項１８に記載の非一時的なコンピュータ可読記録媒体。
前記再構成画像は、元の画像よりも歪みが少なく、知覚品質が高く生成される、請求項１９に記載の非一時的なコンピュータ可読記録媒体。