JP2023502526A

JP2023502526A - 敵対的生成器を用いたレート適応ニューラル画像圧縮のための方法及び装置

Info

Publication number: JP2023502526A
Application number: JP2022530201A
Authority: JP
Inventors: シュ，カイディ; ワン，ウエイ; ジャン，ウェイ; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-07-21
Filing date: 2021-07-20
Publication date: 2023-01-24
Anticipated expiration: 2041-07-20
Also published as: CN114616576A; EP4018392A1; EP4018392A4; US11622117B2; JP7420942B2; US20220030246A1; WO2022020297A1; KR20220061223A

Abstract

少なくとも１つのプロセッサによって実行される、敵対的生成器を用いたレート適応ニューラル画像圧縮の方法であって、第１ニューラルネットワークの第１部分を使用して、入力画像の第１特徴を取得するステップと、第２ニューラルネットワークを使用して、取得された第１特徴に基づいて第１代理特徴を生成するステップと、第１ニューラルネットワークの第２部分を使用して、生成された第１代理特徴をエンコードし、第１エンコード表現を生成する、ステップと、を含む。方法はさらに、生成された第１エンコード表現を圧縮するステップと、圧縮された表現を解凍するステップと、第３ニューラルネットワークを使用して、解凍された前記表現をデコードし、第１出力画像を再構成する、ステップとを含む。

Description

関連出願の相互参照
本出願は、米国特許商標庁に、２０２０年７月２１日に出願された米国特許仮出願第６３／０５４，６４８号、２０２０年７月２１日に出願された米国特許仮出願第６３／０５４，６６２号、２０２０年７月２１日に出願された米国特許仮出願第６３／０５４，６６５号、及び２０２１年６月２４日に出願された米国特許出願第１７／３５６，７２２号、に基づき、これらを基礎とする優先権を主張しており、それらの開示の全体が参照により本明細書に組み込まれている。

ＩＳＯ／ＩＥＣＭＰＥＧ（ＪＴＣ１／ＳＣ２９／ＷＧ１１）は、将来のビデオコーディング技術の標準化の潜在的ニーズを積極的に探求している。ＩＳＯ／ＩＥＣＪＰＥＧは、ディープニューラルネットワーク（ＤＮＮ）を用いたＡＩベースのエンドツーエンドニューラル画像圧縮に焦点を当てたＪＰＥＧ‐ＡＩグループを確立した。最近のアプローチの成功により、高度なニューラル画像及びビデオ圧縮方法論に産業上の関心がますます高まっている。

柔軟なビットレート制御は、以前のニューラル画像圧縮（ＮＩＣ）法では依然として困難な課題である。従来、所望のレート歪み（Ｒ‐Ｄ）ごとに、レートと歪みと（圧縮画像の品質）の間のトレードオフを個別に対象とする複数のモデルインスタンスのトレーニングが必要となり得る。これらの複数のモデルインスタンスは全て、異なるビットレートからの画像を再構成するために、デコーダ側に記憶され、配置される必要があり得る。これは、限られたストレージ及びコンピューティングリソースを有する多くのアプリケーションにとって、法外に高価であり得る。

実施形態によれば、少なくとも１つのプロセッサによって実行される、敵対的生成器を用いたレート適応ニューラル画像圧縮の方法であって、第１ニューラルネットワークの第１部分を使用して、入力画像の第１特徴を取得するステップと、第２ニューラルネットワークを使用して、取得された第１特徴に基づいて第１代理特徴を生成するステップと、第１ニューラルネットワークの第２部分を使用して、生成された第１代理特徴をエンコードし、第１エンコード表現を生成する、ステップと、を含む。方法はさらに、生成された第１エンコード表現を圧縮するステップと、圧縮された表現を解凍するステップと、第３ニューラルネットワークを使用して、解凍された表現をデコードし、第１出力画像を再構成する、ステップと、を含む。

実施形態によれば、敵対的生成器を用いたレート適応ニューラル画像圧縮のための装置であって、プログラムコードを格納するように構成された少なくとも１つのメモリと、プログラムコードを読み込んで、プログラムコードによって指示されるように作動するように構成された少なくとも１つのプロセッサと、を備える。プログラムコードは、少なくとも１つのプロセッサに、第１ニューラルネットワークの第１部分を使用して、入力画像の第１特徴を取得させるように構成された第１取得コードと、少なくとも１つのプロセッサに、第２ニューラルネットワークの第１部分を使用して、取得された第１特徴に基づいて第１代理特徴を生成させるように構成された第１生成コードと、少なくとも１つのプロセッサに、第１ニューラルネットワークの第２部分を使用して、生成された第１代理特徴をエンコードし、第１エンコード表現を生成させるように構成された第１エンコードコードと、を含む。プログラムコードはさらに、少なくとも１つのプロセッサに、生成された第１エンコードされた表現を圧縮させるように構成された圧縮コードと、少なくとも１つのプロセッサに、圧縮された表現を解凍させるように構成された解凍コードと、少なくとも１つのプロセッサに、第３ニューラルネットワークを使用して、解凍された表現をデコードさせ、第１出力画像を再構成させる、ように構成された第１デコードコードと、を含む。

実施形態によれば、命令を格納する非一時的コンピュータ可読媒体であって、命令は、敵対的生成器を用いたレート適応ニューラル画像圧縮のために、少なくとも１つのプロセッサによって実行されるときに、前記少なくとも１つのプロセッサに、第１ニューラルネットワークの第１部分を使用して、入力画像の第１特徴を取得させ、第２ニューラルネットワークを使用して、取得された第１特徴に基づいて第１代理特徴を生成させ、第１ニューラルネットワークの第２部分を使用して、生成された第１代理特徴をエンコードし、第１エンコード表現を生成させる。命令は、少なくとも１つのプロセッサによって実行されるときに、少なくとも１つのプロセッサにさらに、生成された第１エンコード表現を圧縮させ、圧縮された表現を解凍させ、第３のニューラルネットワークを使用して、解凍された表現をデコードし、第１出力画像を再構成させる。

図１は、実施形態による、本明細書に記載される方法、装置及びシステムが実施され得る環境の図である。

図２は、図１の１つ以上のデバイスの例示的な構成要素のブロック図である。

図３は、実施形態による、エンコーダ側敵対的生成器を用いたレート適応ニューラル画像圧縮のためのテスト装置のブロック図である。

図４は、実施形態による、エンコーダ側敵対的生成器を用いたレート適応ニューラル画像圧縮のための訓練装置のブロック図である。

図５は、実施形態による、デコーダ側敵対的生成器を用いたレート適応ニューラル画像圧縮のためのテスト装置のブロック図である。

図６は、実施形態による、デコーダ側の敵対的生成器によるレート適応ニューラル画像圧縮のための訓練装置のブロック図である。

図７Ａは、実施形態による、アテンションベースの敵対的生成器を用いたレート適応ニューラル画像圧縮のためのテスト装置のブロック図である。図７Ｂは、実施形態による、アテンションベースの敵対的生成器を用いたレート適応ニューラル画像圧縮のためのテスト装置のブロック図である。図７Ｃは、実施形態による、アテンションベースの敵対的生成器を用いたレート適応ニューラル画像圧縮のためのテスト装置のブロック図である。

図８Ｃは、実施形態による、アテンションベースの敵対的生成器を用いたレート適応ニューラル画像圧縮のための訓練装置のブロック図である。図８Ｂは、実施形態による、アテンションベースの敵対的生成器を用いたレート適応ニューラル画像圧縮のための訓練装置のブロック図である。図８Ｃは、実施形態による、アテンションベースの敵対的生成器を用いたレート適応ニューラル画像圧縮のための訓練装置のブロック図である。

図９は、実施形態による、敵対的生成器を用いたレート適応ニューラル画像圧縮の方法のフローチャートである。

図１０は、実施形態による、敵対的生成器を用いたレート適応ニューラル画像圧縮のための装置のブロック図である。

本開示は、適応圧縮レートを有するＮＩＣフレームワークによって入力画像を圧縮するための方法及び装置を記載する。アンカー圧縮レートのために訓練されたモデルインスタンスは少数であり、アンカーモデルインスタンスを適応させることによって中間圧縮レートを達成するためにコンパクトな敵対的生成器が使用されている。さらに、アンカーモデルインスタンスを適応させることによって中間圧縮レートを達成するために、アテンションベースの敵対的生成器がエンコーダ側又はデコーダ側のいずれかで使用される。

図１は、実施形態による、本明細書に記載される方法、装置及びシステムが実施され得る環境１００の図である。

図１に示すように、環境１００は、ユーザ装置１１０、プラットフォーム１２０、及びネットワーク１３０を含むことができる。環境１００のデバイスは、有線接続、無線接続、又は有線接続及び無線接続の組み合わせを介して相互接続することができる。

ユーザデバイス１１０は、プラットフォーム１２０に関連する情報を受信、生成、記憶、処理、及び／又は提供することが可能な１つ以上のデバイスを含む。例えば、ユーザデバイス１１０は、コンピューティングデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバ等）、携帯電話（例えば、スマートフォン、無線電話等）、ウェアラブルデバイス（例えば、スマート眼鏡又はスマートウオッチ）、又は類似のデバイスを含み得る。いくつかの実装形態では、ユーザデバイス１１０は、プラットフォーム１２０から情報を受信及び／又は送信することができる。

プラットフォーム１２０は、本明細書の他の場所で記載されるように、１つ以上のデバイスを含む。いくつかの実装では、プラットフォーム１２０は、クラウドサーバ又はクラウドサーバのグループを含み得る。いくつかの実装では、プラットフォーム１２０は、ソフトウェアコンポーネントがスワップイン又はスワップアウトされ得るように、モジュール式に設計し得る。そのようなものとして、プラットフォーム１２０は、異なる使用のために、容易に及び／又は迅速に再構成され得る。

いくつかの実装では、図示のように、プラットフォーム１２０は、クラウドコンピューティング環境１２２でホストすることができる。特に、本明細書に記載される実装は、プラットフォーム１２０をクラウドコンピューティング環境１２２でホストされるものとして記述されるが、一部の実装では、プラットフォーム１２０は、クラウドベースではなく（すなわち、クラウドコンピューティング環境の外部で実装され得る）、又は部分的にクラウドベースであってもよい。

クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする、（１つ以上の）システム及び／又は（１つ以上の）デバイスの物理的なロケーション及び構成に関するエンドユーザー（例えばユーザデバイス１１０）の知識を必要としない計算、ソフトウェア、データアクセス、ストレージ等のサービスを提供することができる。図示のように、クラウドコンピューティング環境１２２は、コンピューティングリソース１２４のグループ（まとめて、「複数のコンピューティングリソース１２４」と称し、個別に「コンピューティングリソース１２４」と称する）を含み得る。

コンピューティングリソース１２４は、１つ以上の、パーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、又は他の種類の計算及び／又は通信デバイスを含む。いくつかの実装では、コンピューティングリソース１２４はプラットフォーム１２０をホストすることができる。クラウドリソースは、コンピューティングリソース１２４において実行されるコンピューティングインスタンス、コンピューティングリソース１２４において提供される記憶デバイス、コンピューティングリソース１２４によって提供されるデータ転送デバイスなどを含み得る。いくつかの実装では、コンピューティングリソース１２４は、有線接続、無線接続、又は有線及び無線接続の組み合わせを介して、他のコンピューティングリソース１２４と通信することができる。

図１にさらに示すように、コンピューティングリソース１２４は、１つ以上のアプリケーション（「ＡＰＰ」）１２４－１、１つ以上の仮想マシン（「ＶＭ」）１２４－２、仮想記憶デバイス（「ＶＳ」）１２４－３、１つ以上のハイパーバイザ（「ＨＹＰ」）１２４－４等のクラウドリソースのグループを含む。

アプリケーション１２４－１は、ユーザデバイス１１０及び／又はセンサデバイス１２０によって提供され又はアクセスされることができる１つ以上のソフトウェアアプリケーションを含む。アプリケーション１２４－１は、ユーザデバイス１１０上にソフトウェアアプリケーションをインストールし実行する必要をなくすことができる。例えば、アプリケーション１２４－１は、プラットフォーム１２０に関連するソフトウェア、及び／又はクラウドコンピューティング環境１２２を介して提供可能な他の任意のソフトウェアを含んでもよい。いくつかの実装では、１つのアプリケーション１２４－１は、仮想マシン１２４－２を介して、１つ以上の他のアプリケーション１２４－１との間で情報を送受信することができる。

仮想マシン１２４－２は、物理マシンのようなプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装を含む。仮想マシン１２４－２は、仮想マシン１２４－２による実際のマシンへの使用及び対応の程度に応じて、システム仮想マシン又はプロセス仮想マシンのいずれであってもよい。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ」）の実行をサポートする完全なシステムプラットフォームを提供することができる。プロセス仮想マシンは、単一のプログラムを実行し、単一のプロセスをサポートし得る。いくつかの実装では、仮想マシン１２４－２は、ユーザ（例えば、ユーザ装置１１０）に代わって実行することができ、データ管理、同期化、又は長時間データ転送などのクラウドコンピューティング環境１２２のインフラストラクチャを管理することができる。

仮想ストレージ１２４－３は、ストレージシステム又はコンピューティングリソース１２４の内で仮想化技術を使用する１つ以上の記憶システム及び／又は１つ以上のデバイスを含む。いくつかの実装では、記憶システムのコンテキスト内で、仮想化のタイプは、ブロック仮想化及びファイル仮想化を含み得る。ブロック仮想化は、物理ストレージ又は異種ストラクチャ（ｈｅｔｅｒｏｇｅｎｅｏｕｓｓｔｒｕｃｔｕｒｅ）に関係なくストレージシステムにアクセスできるように、物理ストレージから論理ストレージを抽象化（又は分離）することを称し得る。この分離により、ストレージシステムの管理者は、エンドユーザに対してストレージを管理する方法に柔軟性を持たせることができる。ファイルの仮想化により、ファイルレベルでアクセスされるデータと、ファイルが物理的に保存されるロケーションとの間の依存関係が排除され得る。これにより、ストレージの使用、サーバの統合、及び／又は非破壊ファイル移行のパフォーマンスの最適化が可能になり得る。

ハイパーバイザ１２４－４は、複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」）が、コンピューティングリソース１２４などのホストコンピュータ上で同時に実行されることを可能にするハードウェア仮想化技術を提供することができる。ハイパーバイザ１２４－４は、仮想オペレーティングプラットフォームをゲストオペレーティングシステムに提示することができ、ゲストオペレーティングシステムの実行を管理することができる。様々なオペレーティングシステムの複数の例は、仮想化されたハードウェアリソースを共有することができる。

ネットワーク１３０は、１つ以上の有線及び／又は無線ネットワークを含む。例えば、ネットワーク１３０は、セルラネットワーク（例えば、第５世代（５Ｇ）ネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、コード分割多重アクセス（ＣＤＭＡ）ネットワーク等）、公衆陸上モバイルネットワーク（ＰＬＭＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、電話ネットワーク（例えば、公衆交換電話ネットワーク（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバーベースのネットワークなど、及び／又はこれら又は他のタイプのネットワークの組み合わせを含み得る。

図１に示すデバイス及びネットワークの数及び配置は、一例として提供される。実際には、図１に示すものよりも、追加のデバイス及び／又はネットワーク、より少ないデバイス及び／又はネットワーク、異なるデバイス及び／又はネットワーク、又は異なる配置のデバイス及び／又はネットワークが存在し得る。さらに、図１に示す２つ以上のデバイスは、単一のデバイス内に実装されてもよく、又は図１に示す単一のデバイスは、複数の分散デバイスとして実装されてもよい。さらに又はあるいは、環境１００のデバイスのセット（例えば、１つ以上のデバイス）は、環境１００の別のデバイスセットによって実行されるものとして説明される１つ以上の機能を実行することができる。

デバイス２００は、ユーザデバイス１１０及び／又はプラットフォーム１２０に対応し得る。図２に示すように、デバイス２００は、バス２１０、プロセッサ２２０、メモリ２３０、ストレージ２４０、入力インタフェース２５０、出力インタフェース２６０、及び通信インタフェース２７０を含み得る。

バス２１０は、デバイス２００のコンポーネント間の通信を可能にする構成要素を含む。プロセッサ２２０は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実装される。プロセッサ２２０は、中央演算処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、加速処理ユニット（ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は、他のタイプの処理コンポーネント、である。いくつかの実装形態では、プロセッサ２２０は、機能を実行するようにプログラムされることができる１つ以上のプロセッサを含む。メモリ２３０は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、及び／又は、プロセッサ２２０が使用するための情報及び／又は命令を格納する別のタイプの動的又は静的ストレージデバイス（例えば、フラッシュメモリ、磁気メモリ及び／又は光学メモリ）を含む。

ストレージコンポーネント２４０は、デバイス２００の操作及び使用に関連する情報及び／又はソフトウェアを格納する。例えば、ストレージ２４０は、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク及び／又は固体ディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ、及び／又は対応するドライブとともに、別のタイプの非一時的コンピュータ読取可能媒体を含み得る。

入力インタフェース２５０は、デバイス２００が、例えば、ユーザ入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び／又はマイクロフォン）を介して情報を受信することを可能にするコンポーネントを含む。
さらに又はあるいは、入力インタフェース２５０は、情報を感知するためのセンサ（例えば、全地球測位システム（ＧＰＳ）コンポーネント、加速度計、ジャイロスコープ、及び／又はアクチュエータ）を含み得る。出力インタフェース２６０は、デバイス２００（例えば、ディスプレイ、スピーカ、及び／又は１つ以上の発光ダイオード（ＬＥＤ））からの出力情報を提供するコンポーネントを含む。

通信インタフェース２７０は、デバイス２００が、有線接続、無線接続、又は有線接続と無線接続の組み合わせなどを介して、他のデバイスと通信することを可能にする送受信器のようなコンポーネント（例えば、送受信器及び／又は別個の受信器及び送信器）を含む。通信インタフェース２７０によって、デバイス２００は他のデバイスから情報を受信し、及び／又は他のデバイスに情報を提供することができることができる。例えば、通信インタフェース２７０は、イーサネット（登録商標）インタフェース、光インタフェース、同軸インタフェース、赤外線インタフェース、無線周波数（ＲＦ）インタフェース、汎用シリアルバス（ＵＳＢ）インタフェース、Ｗｉ－Ｆｉインタフェース、セルラネットワークインタフェース等を含み得る。

デバイス２００は、本明細書において記載されている１つ以上のプロセスを実行し得る。デバイス２００は、非一時的コンピュータ可読媒体、例えばメモリ２３０及び／又はストレージコンポーネント２４０、によって格納されるソフトウェア命令を実行するプロセッサ２２０に応答して、これらのプロセスを実行し得る。コンピュータ可読媒体は、固定メモリデバイスとして本明細書において定義されている。メモリデバイスには、単一の物理ストレージデバイス内のメモリスペース、又は複数の物理ストレージデバイスにまたがるメモリスペースが含まれる。

ソフトウェア命令は、別のコンピュータ可読媒体から、又は通信インタフェース２７０を介して別のデバイスから、メモリ２３０及び／又はストレージ２４０に読み込まれることができる。実行される場合、メモリ２３０及び／又はストレージ２４０に格納されたソフトウェア命令は、プロセッサ２２０に、本明細書に記載の１つ以上のプロセスを実行させることができる。さらに又はあるいは、物理的に組み込まれた回路（ｈａｒｄｗｉｒｅｄｃｉｒｃｕｉｔｒｙ）を、ソフトウェア命令の代わりに又はソフトウェア命令と組み合わせて使用されることができ、本明細書に記載の１つ以上のプロセスを実行することができる。したがって、本明細書で説明される実装は、ハードウェア回路とソフトウェアの特定の組み合わせに限定されない。

図２に示すコンポーネントの数及び配置は、例として提供されてている。実際には、デバイス２００は、図２に示されるものよりも追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる配置のコンポーネントを含み得る。さらに又はあるいは、デバイス２００のコンポーネントのセット（例えば、１つ以上のコンポーネント）は、デバイス２００の別のコンポーネントのセットによって実行されると記載される１つ以上の機能を実行することができる。

以下、敵対的生成器を用いたレート適応ニューラル画像圧縮のための方法及び装置の詳細について説明する。

本明細書に記載される実施形態は、マルチレートＮＩＣフレームワークを含み、そこでは、数個のＮＩＣモデルインスタンスのみが数個のアンカー圧縮レートをターゲットとして学習され、展開され、他方、他の中間圧縮レートは、アンカーモデルインスタンスを適合させるためにコンパクトな敵対的生成器を使用するか、又は、アテンションベースの敵対的生成器を使用することによって達成され、エンコーダ側又はデコーダ側のいずれかでアンカーモデルインスタンスを適合させる。生成器はコンパクトなＤＮＮであり、基礎となる（ｕｎｄｅｒｌｙｉｎｇ）ＮＩＣモデル（例えば、ＮＩＣモデルの２つの層の前又は間）に追加されるプラグインコンポーネントとして使用されることができ、生成器は、元のＮＩＣモデルの特徴（例えば、ＮＩＣモデルの前に配置された場合は入力画像、２つの層の間に配置された場合は中間特徴マップ）から、特徴の代理を生成することを目的とする。従って、新たに生成された代理は、所望の圧縮レートを取得することができる。

入力画像ｘが与えられた場合、ＮＩＣワークフローのテストステージのターゲットは、以下のように記述される。圧縮表現
（外１）

（以下同様の記号を、ｙ￣等と表す場合もある）は、格納のためにコンパクトであり、伝送が計算される。その後、圧縮表現ｙ￣に基づいて、出力画像ｘ￣が再構成され、再構成された出力画像ｘ￣は、元の入力画像ｘと類似し得る。圧縮表現ｙ￣を計算するプロセスは２つの部分に分割され得る：ＤＮＮエンコード表現ｙを計算するためにテストＤＮＮエンコーダを使用するＤＮＮエンコードプロセスと、その後、テストエンコーダを通してｙがエンコードされ、圧縮表現ｙ￣を生成する、エンコードプロセスである。したがって、デコードプロセスは、２つの部分に分割される：圧縮表現ｙ￣が、テストデコーダによってデコードされ（典型的にはデコード及び脱量子化又は逆量子化（ｄｅｑｕａｎｔｉｚａｔｉｏｎ）を含む）、復元されたｙ’￣を生成する、デコードプロセスと、その後、復元された表現ｙ’￣が、テストＤＮＮデコーダによって使用され、イメージｘ￣を再構成する、ＤＮＮデコードプロセスである。本開示においては、ＤＮＮエンコードに使用されるテストＤＮＮエンコーダのネットワーク構造、又は、ＤＮＮデコードに使用されるテストＤＮＮデコーダのネットワーク構造に制限はない。エンコード又はデコードのどちらにも使用される方法（量子化方法及びエントロピーコーディング方法）には制約がない。

ＮＩＣモデルを学習するために、２つの競合するターゲットが取り扱われる：より良い再構成品質対より少ないビット消費である。損失関数Ｄ（ｘ，ｘ￣）が再構成誤差を測定するために使用され、これは、ピーク信号対雑音比（ＰＳＮＲ）及び／又は構造的類似性指数測度（ＳＳＩＭ）等の、歪み損失と称される。レート損失Ｒ（ｙ￣）は、圧縮表現ｙ￣のビット消費を測定するために計算される。したがって、トレードオフハイパーパラメータλは、同時Ｒ‐Ｄ損失を最適化するために使用される：

大きなハイパーパラメータλを用いた訓練は、より小さな歪みを有するがビット消費がより多い圧縮モデルをもたらし、逆もまた同様である。伝統的に、各所定のハイパーパラメータλに対して、ＮＩＣモデルインスタンスが訓練され、これは、ハイパーパラメータλの他の値に対してはうまく機能しない。したがって、圧縮ストリームの複数のビットレートを達成するために、１つの所望のハイパーパラメータλを１つにターゲットする（ｏｎｅｔａｒｇｅｔｉｎｇｏｎｅｄｅｓｉｒｅｄｈｙｐｅｒｐａｒａｍｅｔｅｒ λ）、複数のモデルインスタンスを訓練及び格納する必要があり得る。

本開示において、レート適応ＮＩＣフレームワークは、エンコーダ側又はデコーダ側のいずれかでアドオンコンパクトな敵対的生成器を使用し、１つのアンカーＲ‐Ｄトレードオフハイパーパラメータλ_０値について訓練されたモデルインスタンスを、別の中間ハイパーパラメータλｔ値に適合させる。その結果、マルチレートＮＩＣを実現するために、ごく少数のアンカーモデル員スタンツは、ターゲットアンカーＲ‐Ｄトレードオフ値に対して訓練し、展開されることができ、一方、関心のある残りの中間Ｒ‐Ｄトレードオフ値は、敵対的生成器によって生成できる。敵対的生成器はコンパクトなＤＮＮであり、ストレージと計算の両方の点ではるかに小さいため、このフレームワークは、関心のあるすべてのハイパーパラメータλに対してすべてのモデルインスタンスを訓練及び展開する従来のアプローチよりも、マルチレートＮＩＣに対してはるかに効率的である。

図３は、実施形態による、エンコーダ側敵対的生成器を用いたレート適応ニューラル画像圧縮のためのテスト装置３００のブロック図である。

図３に示すように、テスト装置３００は、テストＤＮＮエンコーダ３１０、代理生成器３２０、テストＤＮＮエンコーダ３３０、テストエンコーダ３４０、テストデコーダ３５０、及びテストＤＮＮデコーダ３６０を含む。

代理生成器３２０は、既存のＮＩＣモデルにプラグイン可能なアドオンコンポーネントである敵対的生成器である。一般性を損なうことなく、ＮＩＣＤＮＮからのテストＤＮＮデコーダとテストＤＮＮエンコーダがあり、モデルインスタンスＭ_０は、ターゲットアンカーλ_０値に対して訓練される。このモデルインスタンスＭｏは、生成器Ｇ_{λ０→λｔ}を使用することによって適応され、ターゲットλ_ｔ値に対して訓練された可能性がある仮想ＮＩＣモデルインスタンスＭ_ｔの圧縮効果を達成する。また、生成器Ｇ_{λ０→λｔ}が、ｉ番目のレイヤと（ｉ＋１）番目のレイヤとの間でテストＤＮＮエンコーダにプラグインされると想定する。（ｉ＋１）番目のレイヤの入力（ｉ番目のレイヤの出力）は、特徴ｆである。従って、元のＮＩＣモデルの元のＤＮＮエンコードプロセスは、２つの部分に分離することができ、そこでは、入力画像ｘは、ＤＮＮエンコード部分１モジュールを通過し、テストＤＮＮエンコーダ３１０部分１を使用して特徴ｆを計算し、次に、ｆは、テストＤＮＮエンコーダ３３０部分２を使用してＤＮＮエンコード表現ｙを計算するＤＮＮエンコード部分２モジュールを通過する。

生成器が全体のテストＤＮＮエンコーダ（すなわち、ｉ＝０）の前に置かれる場合、特徴ｆは入力画像ｘであり、テストＤＮＮエンコーダ３３０部分２は全体の元のテストＤＮＮエンコーダを含む。

プラグインされた敵対的生成器Ｇ_{λ０→λｔ}を用いて、特徴ｆは代理生成器３２０を通過し、代理特徴
（外２）

（以下同様の記号を、ｆ＾等と表す場合もある）（異なる又は拡張された特徴）が計算され、ｆ＾は（ｆに代えて）、テストＤＮＮエンコーダ３３０部分２を通過し、代理特徴ｆ＾のＤＮＮエンコード表現ｙ＾を計算する。ｙ＾に基づいて、エンコードモジュールは、テストエンコーダ３４０を使用して、圧縮表現ｙ￣を計算する。その後、デコーダ側で、ｙ￣（復元表現）に基づいて、復元表現ｙ’￣は、テストデコーダ３５０を使用してデコードプロセスを通して計算されることができる。その後、ＤＮＮデコードモジュールは、テストＤＮＮデコーダ３６０を使用して、ｙ’￣に基づいて、再構成された出力画像ｘ￣を計算する。圧縮表現ｙ￣及び再構成された出力画像ｘ￣は、ターゲットのλ_ｔ値で式（１）のほぼ最適なＲ‐Ｄ損失（すなわち、Ｒ‐Ｄ損失をλ_ｔで最適化することによって訓練された可能性がある仮想モデルＭ_ｔに類似したＲ‐Ｄ損失）を有する。

本開示では、代理生成器３２０のＤＮＮネットワーク構造には何ら制限がない。これは基礎となるＮＩＣモデルよりもはるかに小さい可能性がある。

実施形態において、所与のターゲットλ_ｔ値に対して、ターゲットλ_ｔに適応するためのアンカーλ_０のアンカーモデルインスタンスが、λ_ｔに最も近いλ_０を有するものとして（ａｓｔｈｅｏｎｅｗｉｔｈ λ_０ｃｌｏｓｅｓｔｔｏ λ_ｔ）選択される。また、本開示の実施形態は、１つのアンカーλ_０値にわたって（ｏｖｅｒ）訓練された１つのモデルインスタンスのみを有し、他のすべての中間Ｒ‐Ｄトレードオフ値は、各中間λ_ｔに１つずつ、さまざまなコンパクト生成器を介してシミュレートされる。

図４は、実施形態による、エンコーダ側の敵対的生成器を用いたレート適応ニューラル画像圧縮のための訓練装置４００のブロック図である。

図４に示すように、訓練装置４００は、訓練ＤＮＮエンコーダ４０５、代理生成器４１０、訓練ＤＮＮエンコーダ４１５、訓練エンコーダ４２０、レート損失生成器４２５、訓練復号器４３０、訓練ＤＮＮ復号器４３５、歪み損失生成器４４０、訓練ＤＮＮエンコーダ４４５、表現識別損失生成器４５０、特徴識別損失生成器４５５、及び重み付け更新部分４６０を含む。

ＮＩＣモデルは、ターゲットλ_０を用いて式（１）のＲ‐Ｄ損失を最適化するために、モデルインスタンスＭ_０として予め訓練される。生成器Ｇ_{λ０→λｔ}は、基礎となるＮＩＣモデルを再訓練することなく、別の関心のあるλ_ｔにＭ_０モデルを適合させることを学習した。テストステージと同様に、対応する訓練ＤＮＮエンコーダは、２つの部分に分割される：訓練ＤＮＮエンコーダ４０５部分１と訓練ＤＮＮエンコーダ４１５部分２である。

トレーニングデータセットＳ（ｘ∈Ｓ）からの入力訓練画像ｘは、先ずＤＮＮエンコード部分１モジュールを通過し、モデルインスタンスＭ_０からの事前訓練された訓練ＤＮＮエンコーダ４０５部分１を使用して特徴ｆを計算する。その後代理生成器４１０は、現在の生成器Ｇ_{λ０→λｔ}を使用し、代理特徴ｆ＾を計算する（所望の圧縮レートを取得するために別の又は拡張された特徴が使用される）。再び、代理生成器４１０はＤＮＮであり、実施形態では、入力ｆに基づいて代理摂動δ（ｆ）を計算し、代理特徴ｆ＾はｆ＾＝ｆ＋δ（ｆ）として計算される。代理ｆ＾はその後、ＤＮＮエンコード部分２モジュールを通過して、予め訓練されたモデルインスタンスＭｏからの訓練ＤＮＮエンコーダ４１５部分２を使用することによって、ＤＮＮエンコード化表現ｙ＾を計算する。次に、エンコードプロセスは、トレーニングエンコーダ４２０を使用して、圧縮表現ｙ￣を計算する。ｙ￣を使用すると、レート損失生成器４２５はレート損失Ｒ（ｙ￣）を計算する。次に、デコードモジュールは、訓練デコーダ４３０を使用することによって、ｙ’￣に基づいて解凍された表現を計算し、ＤＮＮデコードプロセスは、訓練ＤＮＮデコーダ４３５を使用することによって、再構成された出力画像ｘ￣をさらに生成する。歪み損失生成器４４０は、再構成された「ｘ」と元の入力画像ｘとの間の歪み損失Ｄ（ｘ，ｘ￣）を計算する。レート損失Ｒ（ｙ￣）は、エンコード表現ｙ￣のビットレートに関連し、実施形態では、エントロピー推定アプローチが、レート損失Ｒ（ｙ￣）を計算するためにレート損失生成器として使用される。関心のあるターゲットλ_ｔを使用して、式（１）のＲ‐Ｄ損失はＬ（ｘ，ｘ￣，ｙ￣）＝Ｄ（ｘ，ｘ￣）＋λ_ｔＲ（ｙ￣）として計算できる。

同時に、元の特徴ｆを使用して、ＤＮＮエンコード部分２モジュールは、訓練ＤＮＮエンコーダ４４５を使用して、ＤＮＮエンコード表現ｙを生成することもできる。ｙ＾及びｙの両方に基づいて、表現識別損失生成器４５０は、計算表現識別損失処理を介して、表現識別損失Ｄｒ（ｙ＾，ｙ）を計算する。実施形態において、表現識別損失生成器４５０は、代理特徴ｆ＾に基づいて生成される表現ｙ＾から、元の特徴ｆに基づいて生成されるエンコード特徴表現ｙを識別するＤＮＮである。例えば、表現識別損失生成器４５０は、元の特徴から生成された表現を１つのクラスとして識別し、代理特徴から生成された表現を別のクラスとして識別することができる。また、元の特徴ｆ及び置換特徴ｆ＾に基づいて、特徴識別損失生成器４５５は、特徴識別損失処理を通して特徴識別損失Ｄ_ｆ（ｆ＾，ｆ）を計算することができる。実施形態において、特徴識別損失生成器４５５は、代理特徴ｆ＾から元の特徴ｆを識別するＤＮＮである。例えば、特徴識別損失生成器４５５は、元の特徴を１つのクラスとして、代理特徴を別のクラスとして識別するバイナリＤＮＮ分類器であり得る。特徴識別損失Ｄ_ｆ（ｆ＾，ｆ）及び表現識別損失Ｄ_ｒ（ｙ＾，ｙ）に基づいて、重み付け更新部分４６０は、（αをハイパーパラメータとして）敵対的損失Ａ（ｆ＾，ｆ，ｙ＾，ｙ）を式（２）として計算する：

Ｌ（ｘ，ｘ￣，ｙ￣）及びＡ（ｆ＾，ｆ，ｙ＾，ｙ）に基づいて、重み付け更新部分４６０は、バックプロパゲーション最適化を通して勾配を使用するＤＮＮモデルの訓練可能な部分の重み付け係数を更新する。

実施形態において、モデルインスタンスＭ_０（訓練ＤＮＮエンコーダ４０５、４１５又は４４５、訓練エンコーダ４２０、訓練デコーダ４３０及び訓練ＤＮＮデコーダ４３５を含む）の重み付け係数は、上記した訓練ステージの間、固定又は修正（ｆｉｘｅｄ）される。また、レート損失生成器４２５も予め決定され、固定又は修正される。代理生成器４１０、特徴識別損失生成器４５５、及び表現識別損失生成器４５０の重み付け係数は、上述した訓練ステージを通して、敵対的生成ネットワーク（ＧＡＮ）訓練フレームワークによって訓練可能であり、更新される。例えば、実施形態では、Ｒ‐Ｄ損失Ｌ（ｘ，ｘ￣，ｙ￣）の勾配が、代理生成器４１０の重み付け係数を更新するために使用され、敵対的損失Ａ（ｆ＾，ｆ，ｙ＾，ｙ）の勾配が、特徴識別損失生成器４５５及び表現識別損失生成器４５０の重み付け係数を更新するために使用される。

本開示では、モデルインスタンスＭ_０及びレート損失生成器４２５が決定される事前訓練プロセスに制限はない。一例として、実施形態では、訓練画像Ｓ_ｐｒｅのセットは、訓練データセットＳと同一又は異なり得る、事前訓練プロセスで使用される。各画像ｘ∈Ｓ_ｐｒｅについて、ＤＮＮエンコード、エンコード、デコード、ＤＮＮデコードを介して同じ前向き推論計算が実行され、エンコードされた表現ｙ￣及び再構成されたｘ￣が計算される。その後、歪み損失Ｄ（ｘ，ｘ￣）とレート損失Ｒ（ｙ￣）を計算した。その後、事前訓練ハイパーパラメータλ_ｐｒｅが与えられた場合、全体Ｒ‐Ｄ損失Ｌ（ｘ，ｘ￣，ｙ￣）は、式（１）に基づいて計算することができ、その勾配は、バックプロパゲーションを介して、訓練ＤＮＮエンコーダ４０５、４１５又は４４５、訓練エンコーダ４２０、訓練デコーダ４３０、訓練ＤＮＮデコーダ４３５、及びレート損失生成器４２５の重み付けを更新するために使用される。

また、実施形態において、訓練ＤＮＮエンコーダ４０５部分１、訓練ＤＮＮエンコーダ４１５部分２、及び訓練ＤＮＮデコーダ４３５は、対応するテストＤＮＮエンコーダ３１０部分１、テストＤＮＮエンコーダ３３０部分２、及びテストＤＮＮデコーダ３６０と同じであることにも言及する価値がある。一方、訓練エンコーダ４２０及び訓練デコーダ４３０は、対応するテストエンコーダ３４０及びテストデコーダ３５０とは異なる。例えば、テストエンコーダ３４０及びテストデコーダ３５０は、それぞれ、汎用テスト量子化器及びテストエントロピーエンコーダ、並びに、汎用テストエントロピーデコーダ及びテスト逆量子化器（ｄｅｑｕａｎｔｉｚｅｒ）を含む。訓練エンコーダ４２０及び訓練デコーダ４３０の各々は、テスト量子化器及びテスト逆量子化器のそれぞれの効果を近似する統計サンプラを使用する。エントロピーエンコーダ及びデコーダは、訓練ステージではスキップされる。

図５は、実施形態による、デコーダ側敵対的生成器を用いたレート適応ニューラル画像圧縮のためのテスト装置５００のブロック図である。

図５に示すように、テスト装置５００は、テストＤＮＮエンコーダ５１０、テストエンコーダ５２０、テストデコーダ５３０、テストＤＮＮデコーダ５４０、代理生成器５５０、及びテストＤＮＮデコーダ５６０を含む。

代理生成器５５０は、既存のＮＩＣモデルにプラグイン可能なアドオンコンポーネントである敵対的生成器である。一般性を損なうことなく、テストＤＮＮエンコーダとＮＩＣＤＮＮからのテストＤＮＮデコーダがあり、モデルインスタンスＭ_０はターゲットアンカーλ_０値に対して訓練される。このモデルインスタンスＭ_０は、生成器Ｇ_{λ０→λｔ}を使用することによって適応され、ターゲットλ_ｔ値に対して訓練された可能性がある仮想ＮＩＣモデルインスタンスＭ_ｔの圧縮効果を達成する。また、生成器Ｇ_{λ０→λｔ}が、ｉ番目のレイヤと（ｉ＋１）番目のレイヤとの間でテストＤＮＮデコーダにプラグインされると想定する。（ｉ＋１）番目のレイヤの入力（ｉ番目のレイヤの出力）は、特徴ｆである。従って、元のＮＩＣモデルの元のＤＮＮデコードプロセスは、２つの部分に分離することができ、そこでは、入力復元表現ｙ’￣は、ＤＮＮデコード部分１モジュールを通過し、テストＤＮＮデコーダ５４０部分１を使用して特徴ｆを計算し、その後、ｆはＤＮＮデコード部分２モジュールを通過し、テストＤＮＮデコーダ５６０部分２を使用して再構成されたｘ￣を計算する。

生成器がテストＤＮＮデコーダ全体の前に配置される（つまり、ｉ＝０）場合、特徴ｆは入力復元表現ｙ’￣であり、テストＤＮＮデコーダ５６０部分２は元のテストＤＮＮデコーダ全体を含む。

したがって、入力画像ｘが与えられると、ＤＮＮエンコードプロセスは、テストＤＮＮエンコーダ５１０を使用して、エンコードプロセスにおいてテストエンコーダ５２０を通してさらにエンコードされるＤＮＮエンコード表現ｙを計算する。その後デコーダ側では、圧縮表現ｙ￣がテストデコーダ５３０によってデコードされて、デコードモジュールにおいて復元された表現ｙ’￣が生成される。その後、ＤＮＮデコード部分１モジュールは、テストＤＮＮデコーダ５４０部分１を使用して、ｙ’￣に基づいて特徴ｆを計算する。プラグインされた敵対的生成器Ｇ_{λ０→λｔ}を用いて、特徴ｆは代理生成器５５０を通過し、代理特徴ｆ＾を計算し、ｆ＾は（ｆの代わりに）、ＤＮＮデコード部分２モジュールを通過して、テストＤＮＮデコーダ５６０部分２によって再構成された出力画像ｘ￣を計算する。圧縮表現ｙ￣及び再構成された出力画像ｘ￣は、ターゲットのλ_ｔ値で式（１）のほぼ最適なＲ‐Ｄ損失（すなわち、Ｒ‐Ｄ損失をλ_ｔで最適化することによって訓練された仮想モデルＭ_ｔに類似したＲ‐Ｄ損失）を有する。

本開示では、生成器のＤＮＮネットワーク構造には何ら制限がない。これは基礎となるＮＩＣモデルよりもはるかに小さい可能性がある。

実施形態において、所与のターゲットλ_ｔ値に対して、ターゲットλ_ｔに適応するためのアンカーλ_０のアンカーモデルインスタンスが、λ_０がλ_ｔに最も近いものとして選択される。また、本開示の実施形態は、１つのアンカーλ_０値にわたって訓練された１つのモデルインスタンスのみを有し、他のすべての中間Ｒ‐Ｄトレードオフ値は、各中間λ_ｔに１つずつ、さまざまなコンパクト生成器を介してシミュレートされる。

図６は、実施形態による、デコーダ側の敵対的生成器を用いたレート適応ニューラル画像圧縮のための訓練装置６００のブロック図である。

図６に示すとおり、訓練装置６００は、訓練ＤＮＮエンコーダ６０５、訓練エンコーダ６１０、レート損失生成器６１５、訓練復号器６２０、訓練ＤＮＮ復号器６２５、代理生成器６３０、訓練ＤＮＮ復号器６３５、歪み損失生成器６４０、訓練ＤＮＮ復号器６４５、再構成識別損失生成器６５０、特徴識別損失生成器６５５、及び重み付け更新部分６６０、を含む。

ＮＩＣモデルは、ターゲットλ_０を用いて式（１）のＲ‐Ｄ損失を最適化するために、モデルインスタンスＭ_０として予め訓練される。生成器Ｇ_{λ０→λｔ}は、ＮＩＣモデルを再訓練することなく、別の関心のあるλ_ｔにＭ_０モデルを適合させることを学習した。テストステージと同様に、対応する訓練ＤＮＮエンコーダは、２つの部分に分割される：訓練ＤＮＮエンコーダ６２５部分１と訓練ＤＮＮエンコーダ６３５部分２である。

訓練データセットＳ（ｘ∈Ｓ）からの入力訓練イメージｘは、まず、ＤＮＮエンコードモジュールを通過して、訓練ＤＮＮエンコーダ６０５に基づいてＤＮＮエンコード表現ｙ＾を計算する。その後、エンコードプロセスは、トレーニングエンコーダ６１０を使用して、圧縮表現ｙ￣を計算する。ｙ￣に基づいて、レート損失生成器６１５はレート損失Ｒ（ｙ￣）を計算する。その後デコーダ側で、デコードモジュールは、訓練デコーダ６２０を使用することによって、ｙ￣に基づいて解凍された表現ｙ’￣を計算する。次に、解凍されたｙ’￣は、ＤＮＮデコード部分１モジュールを通過して、モデルインスタンスＭ_０から事前訓練されたＤＮＮデコーダ６２５部１を使用して特徴ｆを計算する。その後、代理生成器６３０は、現在の生成器Ｇ_{λ０→λｔ}を使用して、代理特徴ｆ＾を計算する。再び、代理生成器６３０はＤＮＮであり、実施形態では、入力ｆに基づいて代理摂動δ（ｆ）を計算し、代理特徴ｆ＾はｆ＾＝ｆ＋δ（ｆ）として計算される。代理ｆ＾はその後、ＤＮＮデコード部分２モジュールを通過して、予め訓練されたモデルインスタンスＭ_０からの訓練ＤＮＮデコーダ６３５部分２を使用することによって、再構成された出力画像ｘ￣を計算する。歪み損失生成器６４０は、再構成されたｘ￣と元の入力画像ｘとの間の歪み損失Ｄ（ｘ，ｘ￣）を計算する。レート損失Ｒ（ｙ￣）は、エンコード表現ｙ￣のビットレートに関連し、実施形態では、エントロピー推定アプローチが、レート損失Ｒ（ｙ￣）を計算するためにレート損失生成器６１５として使用される。関心のあるターゲットλ_ｔを使用して、式（１）のＲ‐Ｄ損失はＬ（ｘ，ｘ￣，ｙ￣）＝Ｄ（ｘ，ｘ￣）＋λ_ｔＲ（ｙ￣）として計算できる。

同時に、元の特徴ｆを使用して、訓練ＤＮＮデコーダ６４５部分２モジュールは、再構成された出力画像ｘ＾も計算することができる。ｘ＾及びｘ￣の両方に基づいて、再構成識別損失生成器６５０は、再構成識別損失プロセスを計算することによって、再構成識別損失Ｌ_ｒ（ｘ＾，ｘ￣）を計算する。実施形態において、再構成識別損失生成器６５０は、代理特徴ｆ＾に基づいて生成される再構成された出力画像ｘ￣から、元の特徴ｆに基づいて生成される再構成された出力画像ｘ＾を識別するＤＮＮである。例えば、再構成識別損失生成器６５０は、元の特徴から生成された再構成出力画像を１つのクラスとして識別し、代理特徴から生成された再構成出力画像を別のクラスとして識別するバイナリＤＮＮ分類器であり得る。また、元の特徴ｆ及び代理特徴ｆ＾に基づいて、特徴識別損失生成器６５５は、特徴識別損失プロセスの計算によって特徴識別損失Ｌ_ｆ（ｆ＾，ｆ）を計算することができる。実施形態において、特徴識別損失生成器６５５は、代理特徴ｆ＾から元の特徴ｆを識別するＤＮＮである。例えば、特徴識別損失生成器６５５は、元の特徴を１つのクラスとして、代理特徴を別のクラスとして識別するバイナリＤＮＮ分類器であり得る。特徴識別損失Ｌ_ｆ（ｆ＾，ｆ）及び再構成識別損失Ｌ_ｒ（ｘ＾，ｘ￣）に基づいて、重み付け更新部６６０は、（αをハイパーパラメータとして）敵対的損失Ａ（ｆ＾，ｆ，ｘ＾，ｘ￣）を式（３）として計算する：

Ｌ（ｘ，ｘ￣，ｙ￣）及びＡ（ｆ＾，ｆ，ｘ＾，ｘ￣）に基づいて、重み付け更新部６６０は、バックプロパゲーション最適化を通して勾配を使用するＤＮＮモデルの訓練可能な部分の重み付け係数を更新する。

実施形態において、モデルインスタンスＭ_０（訓練ＤＮＮエンコーダ６０５、訓練エンコーダ６１０、訓練デコーダ６２０及び訓練ＤＮＮデコーダ６２５，６３５又は６４５を含む）の重み付け係数は、上記した訓練ステージの間、固定又は修正（ｆｉｘｅｄ）される。また、レート損失生成器６１５も予め決定され、固定又は修正される。代理生成器６３０、特徴識別損失生成器６５５、及び再構成識別損失生成器６５０の重み付け係数は、上述した訓練ステージを通して、ＧＡＮ訓練フレームワークによって、訓練可能であり、更新される。例えば、実施形態では、Ｒ‐Ｄ損失Ｌ（ｘ，ｘ￣，ｙ￣）の勾配が、代理生成器６３０の重み付け係数を更新するために使用され、敵対的損失Ａ（ｆ＾，ｆ，ｙ＾，ｙ）の勾配が、特徴識別損失生成器６５５及び再構成識別損失生成器６５０の重み付け係数を更新するために使用される。

本開示では、モデルインスタンスＭ_０及びレート損失生成器６１５が決定される事前訓練プロセスに制限はない。一例として、実施形態では、訓練画像Ｓ_ｐｒｅのセットは、訓練データセットＳと同一又は異なり得る、事前訓練プロセスで使用される。各画像ｘ∈Ｓ_ｐｒｅについて、ＤＮＮエンコード、エンコード、デコード、ＤＮＮデコードを介して同じ前向き推論計算が実行され、エンコードされた表現ｙ￣及び再構成されたｘ￣が計算される。その後、歪み損失Ｄ（ｘ，ｘ￣）とレート損失Ｒ（ｙ￣）を計算した。その後、事前訓練ハイパーパラメータλ_ｐｒｅが与えられた場合、全体Ｒ‐Ｄ損失Ｌ（ｘ，ｘ￣，ｙ￣）は、式（１）に基づいて計算することができ、その勾配は、バックプロパゲーションを介して、訓練ＤＮＮエンコーダ６０５、訓練エンコーダ６１０、訓練デコーダ６２０、訓練ＤＮＮデコーダ６２５、６３５又は６４５、及びレート損失生成器６１５の重み付けを更新するために使用される。

また、実施形態では、訓練ＤＮＮエンコーダ６０５、訓練ＤＮＮデコーダ６２５パート１、及び訓練ＤＮＮデコーダ６３５パート２は、対応するテストＤＮＮエンコーダ５１０、テストＤＮＮデコーダ５４０部分１、及びテストＤＮＮデコーダ５６０部分２と同一であることに言及する価値がある。一方、訓練エンコーダ６１０及び訓練デコーダ６２０は、対応するテストエンコーダ５２０及びテストデコーダ５３０とは異なる。例えば、テストエンコーダ５２０及びテストデコーダ５３０は、それぞれ、汎用テスト量子化器及びテストエントロピーエンコーダ、並びに、汎用テストエントロピーデコーダ及びテスト逆量子化器を含む。訓練エンコーダ６１０及び訓練デコーダ６２０の各々は、テスト量子化器及びテスト逆量子化器のそれぞれの効果を近似する統計サンプラを使用する。
エントロピーエンコーダ及びデコーダは、訓練ステージではスキップされる。

図７Ａ、７Ｂ及び７Ｃは、実施形態による、アテンションベースの敵対的生成器を用いたレート適応ニューラル画像圧縮のためのテスト装置７００Ａ、７００Ｂ及び７００Ｃのブロック図である。

アテンションベースの敵対的生成器は、エンコーダ側（図７Ａ）又はデコーダ側（図７Ｂ及び７Ｃ）のいずれかの、既存のＮＩＣモデルにプラグインすることができるアドオンコンポーネントであり、Ｒ‐Ｄトレードオフ適応の間、アテンションモデルによって生成されたアテンションマップを使用して、重要情報に自動的に焦点を合わせる。アテンションベースの敵対的生成器がアテンションモデルの出力を使用するので、アテンションモデルは、エンコーダ側（図７Ａ及び７Ｂ）又はデコーダ側（図７Ｃ）のいずれかで、生成器の前に配置される必要がある。

一般性を損なうことなく、ＮＩＣＤＮＮからのテストＤＮＮデコーダ及びテストＤＮＮエンコーダがあり、モデルインスタンスＭ_０はターゲットアンカーλ_０値に対して訓練される。このモデルインスタンスＭ_０は、生成器Ｇ_{λ０→λｔ}を使用することによって適応され、ターゲットλ_ｔ値に対して訓練された仮想ＮＩＣモデルインスタンスＭ_ｔの圧縮効果を達成する。また、生成器Ｇ_{λ０→λｔ}が、ｉ番目のレイヤと（ｉ＋１）番目のレイヤとの間のテストＤＮＮエンコーダ、又はｉ番目のレイヤと（ｉ＋１）番目のレイヤとの間のテストＤＮＮデコーダにプラグインされると仮定する。（ｉ＋１）番目のレイヤの入力（ｉ番目のレイヤの出力）は、特徴ｆである。

図７Ａに示すように、テスト装置７００Ａは、テストＤＮＮエンコーダ７０５、代理生成器７１０、テストＤＮＮエンコーダ７１５、テストエンコーダ７２０、テストデコーダ７２５、テストＤＮＮデコーダ７３０、及びアテンション生成器７３５を含む。

代理生成器７１０がエンコーダ側に配置されると、元のＮＩＣモデルの元のＤＮＮエンコードプロセスは、２つの部分に分離することができ、そこで、入力画像ｘは、ＤＮＮエンコード部分１モジュールを通過し、テストＤＮＮエンコーダ７０５ｐａｒｔ１を使用して特徴ｆを計算し、その後、ｆは、ＤＮＮエンコード部分２モジュールを通過し、テストＤＮＮエンコーダ７１５部分２を使用してＤＮＮエンコード表現ｙを計算する。代理生成器７１０が全テストＤＮＮエンコーダ（すなわち、ｉ＝０）の前に置かれると、特徴ｆは入力画像ｘであり、テストＤＮＮエンコーダ７１５部分２は、元の全テストＤＮＮエンコーダを含む。

図７Ｂ及び７Ｃに示すように、テスト装置７００Ｂ又は７００Ｃは、テストＤＮＮエンコーダ７４０、テストエンコーダ７４５、テストデコーダ７５０、テストＤＮＮデコーダ７５５、代理生成器７６０、及びテストＤＮＮデコーダ７６５を含む。図７Ｂのテスト装置７００Ｂは、アテンション生成器７７０を含み、図７Ｃのテスト装置７００Ｃは、アテンション生成器７７５を含む。

代理生成器７６０がデコーダ側に配置されると、元のＮＩＣモデルの元のＤＮＮデコードプロセスは、２つの部分に分離することができ、そこでは、入力復元表現ｙ’￣は、ＤＮＮデコード部分１モジュールを通過し、テストＤＮＮデコーダ７５５部分１を使用して特徴ｆを計算し、その後、ｆはＤＮＮデコード部分２モジュールを通過し、テストＤＮＮデコーダ７６５部分２を使用して再構成されたｘ￣を計算する。代理生成器７６０が全テストＤＮＮデコーダ（すなわち、ｉ＝０）の前に置かれると、特徴ｆは入力復元表現ｙ’￣であり、テストＤＮＮエンコーダ７６５部分２は、元の全テストＤＮＮエンコーダを含む。

図７Ａ～図７Ｃを参照すると、一般性を損なうことなく、ＤＮＮであって、ｊ番目のレイヤと（ｊ＋１）番目のレイヤとの間のテストＤＮＮエンコーダ、又はｊ番目のレイヤと（ｊ＋１）番目のレイヤとの間のテストＤＮＮデコーダにプラグインされるアテンションモデルがあり、ｊ≦ｉ。（ｊ＋１）番目のレイヤの入力（ｊ番目のレイヤの出力）は、特徴ａであり、アテンション生成器は、ａに基づいてアテンションマップａ￣を生成する。したがって、アテンションモデルを全テストＤＮＮエンコーダの前に置くと（すなわち、ｊ＝０）、特徴ａは入力画像ｘである。アテンションモデルを全テストＤＮＮデコーダの前に置くと、特徴ａは入力復元表現ｙ’￣である。

図７Ａを参照すると、入力画像ｘが与えられれば、生成器Ｇ_{λ０→λｔ}がエンコーダ側に配置される構成に対して、ｘは、ＤＮＮエンコード部分１モジュールを通過し、テストＤＮＮエンコーダ７０５部分１を用いて特徴ｆを計算する。また、特徴ａは、テストＤＮＮエンコーダ７０５部分１のｊ番目のレイヤの出力及び（ｊ＋１）番目のレイヤの入力として、アテンション生成器７３５を通過し、アテンションモデルを用いて、アテンションマップａ￣を生成する。その後、特徴ｆ及びアテンションマップａ￣は、代理生成器７１０を通過し、代理特徴ｆ＾を計算し、ｆ＾は（ｆに代えて）、ＤＮＮエンコード部分２モジュールを通過し、テストＤＮＮエンコーダ７１５部分２によってＤＮＮエンコード表現ｙ＾を計算する。ｙ＾に基づいて、エンコードモジュールは、テストエンコーダ７２０を使用して、圧縮代表ｙ￣を計算する。その後、デコーダ側で、ｙ￣に基づいて、復元表現ｙ’￣は、テストデコーダ７２５を使用してデコードプロセスを介して計算されることができる。その後、ＤＮＮデコードモジュールは、テストＤＮＮデコーダ７３０を使用して、ｙ’￣に基づいて、再構成された出力画像￣ｘを計算する。圧縮表現ｙ￣及び再構成された出力画像ｘ￣は、ターゲットのλ_ｔ値で式（１）のほぼ最適なＲ‐Ｄ損失（すなわち、Ｒ‐Ｄ損失をλ_ｔで最適化することによって訓練された仮想モデルＭ_ｔに類似したＲ‐Ｄ損失）を有する。

図７Ｂ及び７Ｃを参照すると、生成器Ｇ_{λ０→λｔ}がエンコーダ側に配置される構成に対して、入力画像ｘで、ＤＮＮエンコードプロセスはテストＤＮＮエンコーダを使用し、ＤＮＮエンコード表現ｙを計算し、それはさらに、テストエンコーダ７４５を介してエンコードプロセスにおいてエンコードされて、圧縮表現ｙ￣を生成する。その後、デコーダ側で、圧縮表現ｙ￣は、テストデコーダ７５０によってデコードされ、デコードモジュール内で復元されたｙ′￣を生成する。その後、ＤＮＮ復デコード部分１モジュールは、テストＤＮＮデコーダ７５５部１を用いて、ｙ’￣に基づいて特徴ｆを計算する。

図７Ｂに表した構成では、特徴ａは、テストＤＮＮエンコーダ７４０のｊ番目のレイヤの出力及び（ｊ＋１）番目のレイヤの入力として、アテンション生成器７７０を通過し、アテンションモデルを用いて、アテンションマップａ￣を生成する。

図７Ｃに表した構成では、特徴ａは、テストＤＮＮエンコーダ７５５部分１のｊ番目のレイヤの出力及び（ｊ＋１）番目のレイヤの入力として、アテンション生成器７５５を通過し、アテンションモデルを用いて、アテンションマップａ￣を生成する。

プラグインされた敵対的生成器Ｇ_{λ０→λｔ}を用いて、特徴ｆ及びアテンションマップａ￣は、代理生成器７６０を通過し、代理特徴ｆ＾を計算し、ｆ＾は（ｆに代えて）、ＤＮＮデコード部分２モジュールを通過し、テストＤＮＮデコーダ７６５部分２によって再構成された出力画像ｘ￣を計算する。圧縮表現ｙ￣及び再構成された出力画像ｘ￣は、ターゲットのλ_ｔ値で式（１）のほぼ最適なＲ‐Ｄ損失（すなわち、Ｒ‐Ｄ損失をλ_ｔで最適化することによって訓練された仮想モデルＭ_ｔに類似したＲ‐Ｄ損失）を有する。

本開示では、アテンションモデルのＤＮＮネットワーク構造に制限はない。実施形態において、アテンションマップａ￣は、特徴ｆと同じ形状を有し、アテンションマップの大きな値は、ｆの対応する特徴がより重要であることを意味し、その逆もまた同様である。

本開示では、代理生成器７１０又は７６０のＤＮＮネットワーク構造には何ら制限がない。実施形態では、代理生成器７１０又は７６０は、基礎となるＮＩＣモデルよりもはるかに小さく、入力特徴ｆ及び入力アテンションマップａは、例えば、要素ごとの乗算によって組み合わされ、アテンションマスクされた入力を生成して生成器ＤＮＮを通過する。

実施形態において、所与のターゲットλ_ｔ値に対して、ターゲットλ_ｔに適応するためのアンカーλ_０のアンカーモデルインスタンスが、λ_ｔに最も近いλ_０を有するものとして選択される。また、本開示の実施形態は、１つのアンカーλ_０値にわたって訓練された１つのモデルインスタンスのみを有し、他のすべての中間Ｒ‐Ｄトレードオフ値は、各中間λ_ｔに１つずつ、さまざまなコンパクト生成器を介してシミュレートされる。

図８Ａ、８Ｂ、及び８Ｃは、実施形態による、アテンションベースの敵対的生成器によるレート適応ニューラル画像圧縮のための訓練装置８００Ａ、８００Ｂ、及び８００Ｃのブロック図である。

ＮＩＣモデルは、ターゲットλ_０を用いて式（１）のＲ‐Ｄ損失を最適化するために、モデルインスタンスＭ_０として予め訓練される。生成器Ｇ_{λ０→λｔ}は、基礎となるＮＩＣモデルを再訓練することなく、別の関心のあるλ_ｔにＭ_０モデルを適合させることを学習した。対応するテストステージと同様に、生成器がエンコーダ側に配置されたときのワークフローを示し、対応する訓練ＤＮＮエンコーダは、２つの部分に分割されており：訓練ＤＮＮエンコーダ８０２部分１と訓練ＤＮＮエンコーダ８０６部分２である。図８Ｂ及び８Ｃは、ジェネレータが生成器側に配置されたときのワークフローを示し、対応する訓練ＤＮＮエンコーダは、２つの部分に分割されており：訓練ＤＮＮデコーダ８３４部分１と訓練ＤＮＮデコーダ８３８部分２である。

図８Ａに示すとおり、訓練装置８００Ａは、訓練ＤＮＮエンコーダ８０２、代理生成器８０４、訓練ＤＮＮエンコーダ８０６、訓練エンコーダ８０８、訓練デコーダ８１０、訓練ＤＮＮデコーダ８１２、アテンション生成器８１４、レート損失生成器８１６、歪み損失生成器８１８、特徴識別損失生成器８２０、訓練ＤＮＮエンコーダ８２２、代表識別損失生成器８２４及び重み付け更新部分８２６を含む。

生成器がエンコーダ側に配置されると、訓練データセットＳ（ｘ∈Ｓ）から入力訓練画像ｘが与えられ、まず、ＤＮＮエンコード部分１モジュールを通過して、モデルインスタンスＭ_０から事前訓練された訓練ＤＮＮエンコーダ８０２部分１１を使用して特徴ｆが計算される。また、訓練ＤＮＮエンコーダ８０２のｊ番目のレイヤの出力及び（ｊ＋１）レイヤの入力として特徴ａはアテンション生成器８１４を通過して、アテンションモデルを用いて、アテンションマップａ￣を生成する。その後、特徴ｆ及びアテンションマップａ￣は、代理生成器８０４を通過し、現在の生成器Ｇ_{λ０→λｔ}を使用して代理特徴ｆ＾を計算する。実施形態では、アテンションマップａ￣及び特徴ｆは、同じ形状を有し、これらは、例えば、要素ごとの乗算によって組み合わされて、アテンションマスクされた入力ｆ￣を生成し、代理生成器８０４を通過させ、アテンションマスクされた入力に基づいて代理摂動δ（ｆ￣）を計算する。代理特徴ｆ＾はｆ＾＝ｆ＋δ（ｆ）として計算される。代理ｆ＾はその後、ＤＮＮエンコード部分２モジュールを通過して、予め訓練されたモデルインスタンスＭｏからの訓練ＤＮＮエンコーダ８０６部分２を使用することによって、ＤＮＮエンコード表現ｙ＾を計算する。次に、エンコードプロセスは、訓練エンコーダ８０８を使用して、圧縮表現ｙ￣を計算する。ｙ￣を使用すると、レート損失生成器８１６はレート損失Ｒ（ｙ￣）を計算する。その後、デコードモジュールは、訓練デコーダ８１０を使用することによって、ｙ’￣に基づいて解凍された表現を計算し、ＤＮＮデコードプロセスは、訓練ＤＮＮデコーダ８１２を使用することによって、再構成されたｘ￣をさらに生成する。歪み損失生成器８１８は、再構成されたｘ￣と元の入力画像ｘとの間の歪み損失Ｄ（ｘ，ｘ￣）を計算する。レート損失Ｒ（ｙ￣）は、エンコードされた表現のビットレートｙ￣に関係し、実施形態では、エントロピー推定アプローチは、レート損失Ｒ（ｙ￣）を計算するためにレート損失生成器８１６によって使用される。関心のあるターゲットλ_ｔを使用して、式（１）のＲ‐Ｄ損失はＬ（ｘ，ｘ￣，ｙ￣）＝Ｄ（ｘ，ｘ￣）＋λ_ｔＲ（ｙ￣）として計算できる。

図８Ｂ及び図８Ｃに示すように、訓練装置８００Ｂ又は８００Ｃは、訓練ＤＮＮエンコーダ８２８、訓練エンコーダ８３０、訓練デコーダ８３２、訓練ＤＮＮデコーダ８３４、代理生成器８３６、訓練ＤＮＮデコーダ８３８、レート損失生成器８４２、歪み損失生成器８４４、特徴識別損失生成器８４６、訓練ＤＮＮデコーダ８４８、再構成識別損失生成器８５０、及び重み付け更新部分８５２を含む。図８Ｂの訓練装置８００Ｂは、アテンション生成器８４０を含み、図８Ｃの訓練装置８００Ｃは、アテンション生成器８５４を含む。

図８Ｂ及び８Ｃを参照すると、生成器がデコーダ側に配置されたときに、訓練データセットＳ（ｘ∈Ｓ）からの入力訓練イメージｘは、まず、ＤＮＮエンコードモジュールを通過して、訓練ＤＮＮエンコーダ８２８に基づいてＤＮＮエンコード表現ｙを計算する。その後、エンコードプロセスは、トレーニングエンコーダ８３０を使用して、圧縮表現ｙ￣を計算する。ｙ￣に基づいて、レート損失生成器８４２はレート損失Ｒ（ｙ￣）を計算する。その後、復号器側では、復号モジュールは、訓練復号器８３２を使用して、ｙに基づいて解凍されたｙ′を計算する。次に、解凍されたｙ’￣は、ＤＮＮデコード部分１モジュールを通過して、モデルインスタンスＭ_０から事前訓練されたＤＮＮデコーダ８３４部１を使用して特徴ｆを計算する。

図８Ｂに表した構成では、特徴ａは、訓練ＤＮＮエンコーダ８２８のｊ番目のレイヤの出力及び（ｊ＋１）番目のレイヤの入力として、アテンション生成器８４０を通過し、アテンションモデルを用いて、アテンションマップａ￣を生成する。プラグインされた敵対的生成器Ｇ_{λ０→λｔ}を用いて、特徴ｆ及びアテンションマップａ￣は、代理生成器８３６を通過し、代理特徴ｆ＾を計算する。図８Ａと同様に、実施形態では、アテンションマップａ￣及び特徴ｆは、同じ形状を有し、これらは、例えば、要素ごとの乗算によって組み合わされて、アテンションマスクされた入力ｆ￣を生成し、代理生成器８３６を通過させ、アテンションマスクされた入力に基づいて代理摂動δ（ｆ￣）を計算する。代理特徴ｆ＾はｆ＾＝ｆ＋δ（ｆ）として計算される。代理ｆ＾はその後、ＤＮＮデコード部分２モジュールを通過して、予め訓練されたモデルインスタンスＭ_０から、訓練ＤＮＮデコーダ８３８部分２を使用することによって、再構成された出力画像ｘ￣を計算する。歪み損失生成器８４４は、再構成されたｘ￣と元の入力画像ｘとの間の歪み損失Ｄ（ｘ，ｘ￣）を計算する。レート損失Ｒ（ｙ￣）は、エンコード表現ｙ￣のビットレートに関連し、実施形態では、エントロピー推定アプローチが、レート損失Ｒ（ｙ￣）を計算するためにレート損失生成器８４２として使用される。関心のあるターゲットλ_ｔを使用して、式（１）のＲ‐Ｄ損失はＬ（ｘ，ｘ￣，ｙ￣）＝Ｄ（ｘ，ｘ￣）＋λ_ｔＲ（ｙ￣）として計算できる。

図８Ｃに表した構成では、特徴ａは、訓練ＤＮＮデコーダ８３４部分１のｊ番目のレイヤの出力及び（ｊ＋１）番目のレイヤの入力として、アテンション生成器を通過し、アテンションモデルを用いて、アテンションマップａ￣を生成する。図８Ｂの上記のケースと同様に、特徴ｆ及びアテンションマップａ￣は、代理生成器８３６を通過し、代理特徴ｆ＾を計算し、実施形態では、アテンションマップａ￣及び特徴ｆは、同じ形状を有し、それらは、例えば、要素ごとの乗算によって組み合わされ、アテンションマスクされた入力ｆ＾を生成して、代理生成器８３６を通過する。代理生成気８３６は、アテンションマスクされた入力に基づいて代理摂動（ｓｕｂｓｔｉｔｕｔｉｏｎａｌｐｅｒｔｕｒｂａｔｉｏｎ）を計算し、代理特徴ｆ＾はｆ＾＝ｆ＋δ（ｆ）として計算される。代理ｆ＾はその後、ＤＮＮデコード部分２モジュールを通過して、予め訓練されたモデルインスタンスＭ_０から、訓練ＤＮＮデコーダ８３８部分２を使用することによって、再構成された出力画像ｘ￣を計算する。歪み損失生成器８４４は、再構成されたｘ￣と元の入力画像ｘとの間の歪み損失Ｄ（ｘ，ｘ￣）を計算する。レート損失Ｒ（ｙ￣）は、エンコード表現ｙ￣のビットレートに関連し、実施形態では、エントロピー推定アプローチが、レート損失Ｒ（ｙ￣）を計算するためにレート損失生成器８４２として使用される。関心のあるターゲットλ_ｔを使用して、式（１）のＲ‐Ｄ損失はＬ（ｘ，ｘ￣，ｙ￣）＝Ｄ（ｘ，ｘ￣）＋λ_ｔＲ（ｙ￣）として計算できる。

図８Ａ～図８Ｃを同時に参照すると、元の特徴及び置換特徴ｒに基づいて、特徴識別損失生成器８２０又は８４６は、特徴識別損失処理によって特徴識別損失Ｌ_ｆ（ｆ＾，ｆ）を計算することができる。実施形態において、特徴識別損失生成器８２０又は８４６は、代理特徴ｆ＾から元の特徴ｆを識別するＤＮＮである。例えば、特徴識別損失生成器８２０又は８４６は、元のアテンションマスクされた特徴を１つのクラスとして、代理特徴を別のクラスとして識別するバイナリＤＮＮ分類器であることができる。

また、図８Ａのように生成器がエンコーダ側にある場合、元の特徴ｆを使用して、訓練ＤＮＮエンコーダ８２２部分２は、ＤＮＮエンコード表現ｙも生成することができる。ｙ＾及びｙの両方に基づいて、表現識別損失生成器８２４は、計算表現識別損失プロセスを介して、表現識別損失Ｌ_ｒ（ｙ＾，ｙ）を計算する。実施形態において、表現識別損失生成器８２４は、代理特徴ｆ＾に基づいて生成される表現ｙ＾から、元の特徴ｆに基づいて生成されるエンコード特徴表現ｙを識別するＤＮＮである。例えば、表現識別損失生成器８２４は、元の特徴から生成された表現を１つのクラスとして識別し、代理特徴から生成された表現を別のクラスとして識別することができる。

図８ｂ及び８Ｃのように、生成器がデコーダ側にある場合、元の特徴ｆを使用して、訓練ＤＮＮデコーダ８４８部分２は、再構成された出力画像ｘ＾も計算することができる。ｘ＾及びｘ￣の両方に基づいて、再構成識別損失生成器８５０は、再構成識別損失プロセスを計算することによって、再構成識別損失Ｌ_ｒ（ｘ＾，ｘ￣）を計算する。実施形態において、表現識別損失生成器８５０は、代理特徴ｆ＾に基づいて生成される再構成された出力画像ｘ￣から、元の特徴ｆに基づいて生成される再構成された出力画像ｘ＾を識別するＤＮＮである。例えば、再構成識別損失生成器８５０は、元の特徴から生成された再構成出力画像を１つのクラスとして識別し、代理特徴から生成された再構成出力画像を別のクラスとして識別するバイナリＤＮＮ分類器であり得る。

図８Ａに示すように、生成器がエンコーダ側にあるときに、特徴識別損失Ｌ_ｆ（ｆ＾，ｆ）及び再構成識別損失Ｌ_ｒ（ｘ＾，ｘ￣）に基づいて、重み付け更新部８２６は、（αをハイパーパラメータとして）敵対的損失Ａ（ｆ＾，ｆ，ｘ＾，ｘ￣）を式（４）として計算する：

Ｌ（ｘ，ｘ￣，ｙ￣）及びＡ（ｆ＾，ｆ，ｙ＾，ｙ，）を使用して、重み付け更新部８２６は、バックプロパゲーション最適化を通して勾配を使用するＤＮＮモデルの訓練可能な部分の重み付け係数を更新する。実施形態において、モデルインスタンスＭ_０（訓練ＤＮＮエンコーダ８０２部分１、訓練ＤＮＮエンコーダ８０６部分２、訓練エンコーダ８０８、訓練デコーダ８１０及び訓練ＤＮＮデコーダ８１２を含む）の重み付け係数は、上記した訓練ステージの間、固定又は修正（ｆｉｘｅｄ）される。また、レート損失生成器８１６も予め決定され、固定又は修正される。代理生成器８０４、特徴識別損失生成器８２０、及び表現識別介して、ＧＡＮ訓練フレームワークによって、訓練可能であり、更新される。例えば、実施形態では、Ｒ‐Ｄ損失Ｌ（ｘ，ｘ￣，ｙ￣）の勾配が、代理生成器８０４の重み付け係数を更新するために使用され、敵対的損失Ａ（ｆ＾，ｆ，ｙ＾，ｙ）の勾配が、特徴識別損失生成器８２０及び表現識別損失生成器８２４の重み付け係数を更新するために使用される。

図８Ｂ及び８Ｃに示すように、生成器がデコーダ側にあるときに、特徴識別損失Ｌ_ｆ（ｆ＾，ｆ）及び再構成識別損失Ｌ_ｒ（ｘ＾，ｘ￣）に基づいて、重み付け更新部８５２は、（αをハイパーパラメータとして）敵対的損失Ａ（ｆ＾，ｆ，ｘ＾，ｘ￣）を式（５）として計算する：

Ｌ（ｘ，ｘ￣，ｙ￣）及びＡ（ｆ＾，ｆ，ｘ＾，ｘ￣）に基づいて、重み付け更新部８５２は、バックプロパゲーション最適化を通して勾配を使用するＤＮＮモデルの訓練可能な部分の重み付け係数を更新する。実施形態において、モデルインスタンスＭ_０（訓練ＤＮＮエンコーダ８２８、訓練エンコーダ８３０、訓練デコーダ８３２、訓練ＤＮＮデコーダ８３４部分１及び訓練ＤＮＮデコーダ８３８部分２を含む）の重み付け係数は、上記した訓練ステージの間、固定又は修正（ｆｉｘｅｄ）される。また、レート損失生成器８４２も予め決定され、固定又は修正される。代理生成器８３６、特徴識別損失生成器８４６、及び表現識別損失生成器８５０の重み付け係数は、上述した訓練ステージを通して、ＧＡＮ訓練フレームワークによって訓練可能であり、更新される。例えば、実施形態では、Ｒ‐Ｄ損失Ｌ（ｘ，ｘ￣，ｙ￣）の勾配が、代理生成器８３６の重み付け係数を更新するために使用され、敵対的損失Ａ（ｆ＾，ｆ，ｙ＾，ｙ）の勾配が、特徴識別損失生成器８４６及び再構成識別損失生成器８５０の重み付け係数を更新するために使用される。

本開示では、モデルインスタンスＭ_０及びレート損失生成器４２５が決定される事前訓練プロセスに制限はない。一例として、実施形態では、訓練画像Ｓ_ｐｒｅのセットは、訓練データセットＳと同一又は異なり得る、事前訓練プロセスで使用される。各画像ｘ∈Ｓ_ｐｒｅについて、ＤＮＮエンコード、エンコード、デコード、ＤＮＮデコードを介して同じ前向き推論計算が実行され、エンコードされた表現ｙ￣及び再構成されたｘ￣が計算される。その後、歪み損失Ｄ（ｘ，ｘ￣）とレート損失Ｒ（ｙ￣）を計算することができる。その後、事前訓練ハイパーパラメータλ_ｐｒｅが与えられた場合、全体Ｒ‐Ｄ損失Ｌ（ｘ，ｘ￣，ｙ￣）は、式（１）に基づいて計算することができ、その勾配は、バックプロパゲーションを介して、訓練ＤＮＮエンコーダ８０２、８０６又は８２８、訓練エンコーダ８０８又は８３０、訓練デコーダ８１０又は８３２、訓練ＤＮＮデコーダ８１２、８３４又は８３８、及びレート損失生成器８１６又は８４３の重み付けを更新するために使用される。

それは、実施形態において、図８Ａのエンコーダ側の代理生成器８０４ケースについて、訓練ＤＮＮエンコーダ８０２部分１、訓練ＤＮＮエンコーダ８０６部分２、及び訓練ＤＮＮデコーダ８１２は、対応するテストＤＮＮエンコーダ７０５部分１、テストＤＮＮエンコーダ７１５部分２、及びテストＤＮＮデコーダ７３０と同じであることにも言及する価値がある。同様に、図８Ｂ及び８Ｃにおけるデコーダ側の代理生成器８３６について、訓練ＤＮＮエンコーダ８２８、訓練ＤＮＮデコーダ８３４部分１及び訓練ＤＮＮデコーダ８３８部分２は、、対応するテストＤＮＮエンコーダ７４０、テストＤＮＮデコーダ７５５部分１及びテストＤＮＮデコーダ７６５と同じである。一方では、訓練エンコーダ８０８又は８３０及び訓練デコーダ８１０又は８３２は、対応するテストエンコーダ７２０又は７４５及びテストデコーダ７２５又は７５０と異なる。例えば、テストエンコーダ７２０又は７４５及びテストデコーダ７２５又は７５０は、それぞれ、汎用テスト量子化器及びテストエントロピーエンコーダ、並びに、汎用テストエントロピーデコーダ及びテスト逆量子化器（ｄｅｑｕａｎｔｉｚｅｒ）を含む。訓練エンコーダ８０８又は８３０及び訓練デコーダ８１０又は８３２の各々は、統計サンプラを使用して、テスト量子化器及びテスト逆量子化器のそれぞれの効果を近似する。エントロピーエンコーダ及びデコーダは、訓練ステージではスキップされる。

図９は、実施形態による、敵対的生成器を用いたレート適応ニューラル画像圧縮の方法９００のフローチャートである。

いくつかの実装形態では、図４９１つ以上のプロセスブロックは、プラットフォーム１２０によって実行され得る。いくつかの実装において、図９の１つ以上のプロセスブロックは、ユーザデバイス１１０などのプラットフォーム１１０から分離されているか又はプラットフォーム１２０を含む、別のデバイス又はデバイスの群によって実行され得る。

図９に示すとおり、動作９１０において、方法９００は、第１ニューラルネットワークの第１部分を使用して、入力画像の第１特徴を取得するステップを含む。

動作９２０において、方法９００は、第２ニューラルネットワークを使用して、取得された第１特徴に基づいて第１代理特徴を生成するステップを含む。

動作９３０において、方法９００は、第１ニューラルネットワークの第２部分を使用して、生成された第１代理特徴をエンコードし、第１エンコード表現を生成する、ステップを含む。

動作９４０において、方法９００は、生成された第１エンコード表現を圧縮するステップを含む。

動作９５０において、方法９００は、圧縮された表現を解凍するステップを含む。

動作９６０において、方法９００は、第３ニューラルネットワークを使用して、解凍された表現をデコードし、第１出力画像を再構成する、ステップと、を含む。

第２ニューラルネットワークは、圧縮された表現のレート損失を決定するステップと、入力画像と、再構成された第１出力画像と、の間の歪み損失を決定するステップと、第１ニューラルネットワークの第３部分を使用して、取得された第１特徴をエンコードし、第２エンコード表現を生成する、ステップと、第４ニューラルネットワークを使用して、生成された第１エンコード表現と、生成された第２エンコード表現との間の表現歪み損失を決定するステップと、第５ニューラルネットワークを使用して、生成された第１代理特徴と、取得された第１特徴と、の間の特徴識別損失を決定するステップと、第２ニューラルネットワーク、第４ニューラルネットワーク及び第５ニューラルネットワークの重みづけ係数を更新し、決定されるレート損失、決定される歪み損失、決定される表現識別損失及び決定される特徴識別損失を最適化する、ステップと、
によって訓練され得る。

方法９００は、さらに、前記第１ニューラルネットワークを使用して、入力画像をエンコードし、第１エンコード表現を生成する、ステップと、第３ニューラルネットワークの第１部分を使用して、解凍された表現から第２特徴を取得するステップと、第４ニューラルネットワークを使用して、取得された第２特徴に基づいて第２代理特徴を生成するステップと；第３ニューラルネットワークの第２部分を使用して、生成された第２代理特徴をデコードし、第１出力画像を再構成する、ステップと、を含む。

第４のニューラルネットワークは、圧縮された表現のレート損失を決定するステップと、入力画像と、再構成された第１出力画像と、の間の歪み損失を決定するステップと、第３ニューラルネットワークの第３部分を使用して、取得された第２特徴をデコードし、第２出力画像を再構成する、ステップと、第５ニューラルネットワークを使用して、再構成された第１出力画像と、再構成された第２出力画像と、の間の表現識別損失を決定するステップと、と第６ニューラルネットワークを使用して、生成された第２代理特徴と、取得された第２特徴と、の間の特徴識別損失を決定するステップと、第４ニューラルネットワーク、第５ニューラルネットワーク及び第６ニューラルネットワークの重みづけ係数を更新し、決定されたレート損失、決定された歪み損失、決定された表現識別損失及び決定された特徴識別損失を最適化する、ステップと、によって訓練されることができる。

方法９００は、さらに、第１ニューラルネットワークを使用して、入力画像の第３特徴を取得するステップと、取得された第３特徴に基づいて、アテンションマップを生成するステップと、第２代理特徴を生成するステップは、第４ニューラルネットワークを使用して、取得された第２特徴及び生成されたアテンションマップに基づいて、第２代理特徴を生成するステップを含む。

方法９００は、さらに、
第３ニューラルネットワークの第１部分を使用して、解凍された表現から第３特徴を取得するステップと、取得された第３特徴に基づいて、アテンションマップを生成するステップと、を含む。第２代理特徴を生成するステップは、第４ニューラルネットワークを使用して、取得された第２特徴及び生成されたアテンションマップに基づいて、第２代理特徴を生成する、ステップを含むことができる。

方法９００は、さらに、
第１ニューラルネットワークの第１部分を使用して、入力画像の第２特徴を取得するステップと、取得された前記第２特徴に基づいて、アテンションマップを生成するステップと、を含む固代ができる。第１代理特徴を生成するステップは、第２ニューラルネットワークを使用して、取得された第１特徴及び生成されたアテンションマップに基づいて、第１代理特徴を生成するステップと、を含むことができる。

図９は、方法９００のブロック例を示しているが、いくつかの実装において、方法９００は、図９に示されたものよりも、追加のブロック、より少ないブロック、異なるブロック、又は異なって配置のブロックを含み得る。さらに又はあるいは、方法９００のブロックのうちの２つ以上は、並行して実施され得る。

図１０は、実施形態による、敵対的生成器を用いたレート適応ニューラル画像圧縮のための装置１０００のブロック図である。

図１０に示すとおり、装置１０００は、第１取得コード１０１０と、第１生成コード１０２０と、第１エンコードコード１０３０と、圧縮コード１０４０と、解凍コード１０５０と、第１デコードコード１０６０と、を含む。

第１取得コード１０１０は、少なくとも１つのプロセッサに、第１ニューラルネットワークの第１部分を使用して、入力画像の第１特徴を取得させるように構成されている。

第１生成コード１０２０は、少なくとも１つのプロセッサに、第２ニューラルネットワークを使用して、取得された第１特徴に基づいて第１代理特徴を生成させるように構成されている。

第１エンコードコード１０３０は、少なくとも１つのプロセッサに、第１ニューラルネットワークの第２部分を使用して、生成された第１代理特徴をエンコードし、第１エンコード表現を生成させるように構成されている。

圧縮コード１０４０は、少なくとも１つのプロセッサに、生成された第１エンコード第１表現を圧縮させるように構成されている。

解凍コード１０５０は、少なくとも１つのプロセッサに、圧縮された表現を解凍させるように構成されている。

第１デコードコード１０６０は、少なくとも１つのプロセッサに、第３ニューラルネットワークを使用して、解凍された表現をデコードさせ、第１出力画像を再構成させる、ように構成されている。

第２ニューラルネットワークは、圧縮された表現のレート損失を決定するステップと、入力画像と、再構成された第１出力画像と、の間の歪み損失を決定するステップと、第１ニューラルネットワークの第３部分を使用して、取得された第１特徴をエンコードし、第２エンコード表現を生成する、ステップと、第４ニューラルネットワークを使用して、生成された第１エンコード表現と、生成された第２エンコード表現との間の表現識別損失を決定するステップと、第５ニューラルネットワークを使用して、生成された第１代理特徴と、取得された第１特徴と、の間の特徴識別損失を決定するステップと、第２ニューラルネットワーク、第４ニューラルネットワーク及び第５ニューラルネットワークの重みづけ係数を更新し、決定されるレート損失、決定される歪み損失、決定される表現識別損失及び決定される特徴識別損失を最適化する、ステップと、によって訓練されることができる。

装置１０００はさらに、少なくとも１つのプロセッサに、第１ニューラルネットワークを使用して、入力画像をエンコードし、第１エンコード表現を生成させるように構成された第２エンコードコードと、少なくとも１つのプロセッサに、第３ニューラルネットワークの第１部分を使用して、解凍された表現から第２特徴を取得させるように構成された第２取得コードと、少なくとも１つのプロセッサに、第４ニューラルネットワークを使用して、取得された第２特徴に基づいて第２代理特徴を生成させるように構成された第２生成コードと、少なくとも１つのプロセッサに、第３ニューラルネットワークの第２部分を使用して、生成された第２代理特徴をデコードさせ、第１出力画像を再構成させる、ように構成された第２デコードコードとを含むことができる。

第４のニューラルネットワークは、圧縮された表現のレート損失を決定するステップと、入力画像と、再構成された第１出力画像と、の間の歪み損失を決定するステップと、第３ニューラルネットワークの第３部分を使用して、取得された第２特徴をデコードし、第２出力画像と再構成する、ステップと、第５ニューラルネットワークを使用して、再構成された第１出力画像と、再構成された第２出力画像と、の間の表現識別損失を決定するステップと、第６ニューラルネットワークを使用して、生成された第２代理特徴と、取得された第２特徴と、の間の特徴識別損失を決定するステップと、第４ニューラルネットワーク、第５ニューラルネットワーク及び第６ニューラルネットワークの重みづけ係数を更新し、決定されたレート損失、決定された歪み損失、決定された表現識別損失及び決定された特徴識別損失を最適化する、ステップと、によって訓練されることができる。

装置１０００は、さらに、少なくとも１つのプロセッサに、第１ニューラルネットワークを使用して、入力画像の第３特徴を取得させるように構成された第３取得コードと、少なくとも１つのプロセッサに、取得された第３特徴に基づいて、アテンションマップを生成させるように構成された第３生成コードと、を含むことができる。第２生成コードはさらに、少なくとも１つのプロセッサに、第４ニューラルネットワークを使用して、取得された第２特徴及び生成されたアテンションマップに基づいて、第２代理特徴を生成させる、ように構成されている。

装置１０００はさらに、少なくとも１つのプロセッサに、第３ニューラルネットワークの第１部分を使用して、解凍された表現から第３特徴を取得させるように構成された第３取得コードと、少なくとも１つのプロセッサに、取得された第３特徴に基づいて、アテンションマップを生成させるように構成された第３生成コードと、を含むことができる。第２生成コードはさらに、前記少なくとも１つのプロセッサに、第２代理特徴を生成させ、第４ニューラルネットワークを使用して、取得された第２特徴及び生成されたアテンションマップに基づいて、第２代理特徴を生成させるステップを含むように構成されている。

装置１０００は、さらに、少なくとも１つのプロセッサに、第１ニューラルネットワークの第１部分を使用して、入力画像の第２特徴を取得させるように構成された第２取得コードと、少なくとも１つのプロセッサに、取得された第２特徴に基づいて、アテンションマップを生成するように構成された第２生成コードと、を含む。第１生成コード１０２０は、さらに、少なくとも１つのプロセッサに、第２ニューラルネットワークを使用して、取得された第１特徴及び生成されたアテンションマップに基づいて、第１代理特徴を生成させる、ように構成されている。

従来のエンドツーエンド（Ｅ２Ｅ）画像圧縮方法と比較して、記載された実施形態は、以下の新しい特徴を有する。コンパクトな敵対的生成器は、アンカーＲ‐Ｄトレードオフλ_０値について訓練されたＮＩＣモデルインスタンスを適応し、中間Ｒ‐Ｄトレードオフλ_ｔ値の圧縮効果をシミュレートする。共通生成器は、データ不可知的な方法でＮＩＣモデルインスタンスを適応させるためにオフラインで訓練され、従って、適応のためにオンライン学習又はフィードバックが必要とされない。

従来のＥ２Ｅ画像圧縮方法と比較して、記載された実施形態は、以下のような利点を有する：マルチレート圧縮を達成するための、大幅に低減された展開ストレージ、及び、様々なタイプのＮＩＣモデルを収容する柔軟なフレームワーク。さらに、アテンションベースの生成器は、モデル適応のための顕著な情報に焦点を当てることができる。

方法は、別々に又は任意の順序で組み合わせて用いられることができる。さらに、方法（又は実施形態）、エンコーダ、及びデコーダの各々は、処理回路（例えば、１つ以上のプロセッサ、又は１つ以上の集積回路）によって実装され得る。一実施例では、１つ以上のプロセッサは、非一時的コンピュータ可読媒体に格納されたプログラムを実行する。

前述の開示は、図示及び解説を提供するが、網羅的であることを意図するものではなく、また、実施形態を開示された正確な形態に限定することを意図するものでもない。変更及び変形は、上記の教示に照らして可能であるか、又は実施形態の実施から取得することができる。

本明細書で使用される場合、用語「構成要素」は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組み合わせとして広く解釈されることを意図している。

本明細書に記載したシステム及び／又は方法は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせの異なる形態で実施することができることは明らかであろう。これらのシステム及び／又は方法を実施するために使用される実際の特殊化された制御ハードウェア又はソフトウェアコードは、実施を制限するものではない。したがって、システム及び／又は方法の動作及び挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェア及びハードウェアは、本明細書の記載に基づいてシステム及び／又は方法を実施するように設計され得ることが理解される。

特徴の組み合わせが特許請求の範囲に記載され、及び／又は、明細書に開示されているとしても、これらの組み合わせは、可能な実施の開示を制限するものではない。実際、これらの特徴の多くは、請求項に具体的に記載されていない、及び／又は明細書に開示されていない方法で組み合わせることができる。以下に列挙される各従属クレームは、１つの請求項のみに直接従属し得るが、可能な実装の開示には、特許請求の範囲内の他のすべての請求項と組み合わされた各従属請求項が含まれる。

本明細書中で使用される要素、作用、又は命令は、明示的に記述されない限り、重要又は必須と解釈されない。また、本明細書で使用される「１つ（”ａ” ａｎｄ ”ａｎ”）」という用語は、１つ以上のアイテムを含むことを意図し、「１つ以上（”ｏｎｅｏｒｍｏｒｅ．”）」と互換的に使用することができる。さらに、本明細書で使用される「セット（”ｓｅｔ”）」という用語は、１つ以上のアイテム（例えば、関連アイテム、非関連アイテム、関連アイテムと非関連アイテムとの組み合わせ等を含むことを意図し、「１つ以上」と互換的に使用することができる。１つのアイテムのみが意図される場合、用語「１つ（”ｏｎｅ”）」又は類似の言語が使用される。また、本明細書で使用される場合、「有する、備える、持つ（”ｈａｓ，” ”ｈａｖｅ，” ”ｈａｖｉｎｇ”）」などの用語は、自由形式の用語（ｏｐｅｎ－ｅｎｄｅｄｔｅｒｍｓ）であることが意図されている。さらに、「に基づく（”ｂａｓｅｄｏｎ”）」という句は、特に明記しない限り、「少なくとも部分的に、に基づく（”ｂａｓｅｄ，ａｔｌｅａｓｔｉｎｐａｒｔ，ｏｎ”）」を意味することを意図している。

Claims

少なくとも１つのプロセッサによって実行される、敵対的生成器を用いたレート適応ニューラル画像圧縮の方法であって、
第１ニューラルネットワークの第１部分を使用して、入力画像の第１特徴を取得するステップと、
第２ニューラルネットワークを使用して、取得された前記第１特徴に基づいて第１代理特徴を生成するステップと、
前記第１ニューラルネットワークの第２部分を使用して、生成された前記第１代理特徴をエンコードし、第１エンコード表現を生成する、ステップと、
生成された前記第１エンコード表現を圧縮するステップと、
圧縮された前記第１エンコード表現を解凍するステップと、
第３ニューラルネットワークを使用して、解凍された前記第１エンコード表現をデコードし、第１出力画像を再構成する、ステップと、
を含む、方法。
前記第２ニューラルネットワークは、
圧縮された前記第１エンコード表現のレート損失を決定するステップと、
前記入力画像と、再構成された前記第１出力画像と、の間の歪み損失を決定するステップと、
前記第１ニューラルネットワークの第３部分を使用して、取得された前記第１特徴をエンコードし、第２エンコード表現を生成する、ステップと、
第４ニューラルネットワークを使用して、生成された前記第１エンコード表現と、生成された前記第２エンコード表現と、の間の表現識別損失を決定するステップと、
第５ニューラルネットワークを使用して、生成された前記第１代理特徴と、取得された前記第１特徴と、の間の特徴識別損失を決定するステップと、
前記第２ニューラルネットワーク、前記第４ニューラルネットワーク及び前記第５ニューラルネットワークの重みづけ係数を更新し、決定された前記レート損失、決定された前記歪み損失、決定された前記表現識別損失及び決定された前記特徴識別損失を最適化する、ステップと、
によって訓練される、
請求項１記載の方法。
前記方法はさらに、
前記第１ニューラルネットワークを使用して、前記入力画像をエンコードし、前記第１エンコード表現を生成する、ステップと、
前記第３ニューラルネットワークの第１部分を使用して、解凍された前記第１エンコード表現から第２特徴を取得するステップと、
第４ニューラルネットワークを使用して、取得された前記第２特徴に基づいて第２代理特徴を生成するステップと、
前記第３ニューラルネットワークの第２部分を使用して、生成された前記第２代理特徴をデコードし、前記第１出力画像を再構成する、ステップと、を含む、
請求項１記載の方法。
前記第４ニューラルネットワークは、
圧縮された前記第１エンコード表現のレート損失を決定するステップと、
前記入力画像と、再構成された前記第１出力画像と、の間の歪み損失を決定するステップと、
前記第３ニューラルネットワークの第３部分を使用して、取得された前記第２特徴をデコードし、第２出力画像と再構成する、ステップと、
第５ニューラルネットワークを使用して、再構成された前記第１出力画像と、再構成された前記第２出力画像と、の間の表現識別損失を決定するステップと、
第６ニューラルネットワークを使用して、生成された前記第２代理特徴と、取得された前記第２特徴と、の間の特徴識別損失を決定するステップと、
前記第４ニューラルネットワーク、前記第５ニューラルネットワーク及び前記第６ニューラルネットワークの重みづけ係数を更新し、決定された前記レート損失、決定された前記歪み損失、決定された前記表現識別損失及び決定された前記特徴識別損失を最適化する、ステップと、
によって訓練される、
請求項３記載の方法。
前記第１ニューラルネットワークを使用して、前記入力画像の第３特徴を取得するステップと、
取得された前記第３特徴に基づくアテンションマップを生成するステップと、
をさらに含み、
前記第２代理特徴を生成するステップは、前記第４ニューラルネットワークを使用して、取得された前記第２特徴及び生成された前記アテンションマップに基づいて前記第２代理特徴を生成するステップを含む、
請求項３記載の方法。
前記第３ニューラルネットワークの第１部分を使用して、解凍された前記第１エンコード表現から第３特徴を取得するステップと、
取得された前記第３特徴に基づいて、アテンションマップを生成するステップと、
をさらに含み、
前記第２代理特徴を生成するステップは、前記第４ニューラルネットワークを使用して、取得された前記第２特徴及び生成された前記アテンションマップに基づいて、前記第２代理特徴を生成するステップを含む、
請求項３記載の方法。
前記第１ニューラルネットワークの前記第１部分を使用して、前記入力画像の第２特徴を取得するステップと、
取得された前記第２特徴に基づいて、アテンションマップを生成するステップと、
前記第１代理特徴を生成するステップは、前記第２ニューラルネットワークを使用して、取得された前記第１特徴及び生成された前記アテンションマップに基づいて、前記第１代理特徴を生成するステップを含む、
請求項１記載の方法。
敵対的生成器を用いたレート適応ニューラル画像圧縮のための装置であって、
プログラムコードを格納するように構成された少なくとも１つのメモリと、
前記プログラムコードを読み込んで、前記プログラムコードによって指示されるように作動するように構成された少なくとも１つのプロセッサと、を備え、
前記プログラムコードは、請求項１乃至７いずれか１項記載の方法を前記少なくとも１つのプロセッサに実行させるように構成されている、装置。
敵対的生成器を用いたレート適応ニューラル画像圧縮のために、少なくとも１つのプロセッサに請求項１乃至７いずれか１項記載の方法を実行させるプログラム。