JP7447253B2

JP7447253B2 - エンドツーエンド画像圧縮のための特徴置換のための方法、装置およびコンピュータプログラム

Info

Publication number: JP7447253B2
Application number: JP2022523026A
Authority: JP
Inventors: シャオ・ワン; ウェイ・ジアン; ウェイ・ワン; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-05-12
Filing date: 2021-05-07
Publication date: 2024-03-11
Anticipated expiration: 2041-05-07
Also published as: WO2021231218A1; JP2022553250A; EP4028957A1; US11790566B2; KR102632258B1; CN114930349A; US20210358179A1; EP4028957A4; KR20220084130A

Description

関連出願の相互参照
本出願は、2020年5月12日に出願された米国仮特許出願第63／023，694号、2020年5月18日に出願された米国仮特許出願第63／026，409号、および2021年4月28日に出願された米国特許出願第17／242，534号に基づき、それらに対する優先権を主張し、それらの開示は全体として参照により本明細書に組み込まれる。

標準的なグループおよび企業は、将来のビデオコーディング技術の標準化に対する潜在的な需要を積極的に調査してきた。いくつかは、人工知能（AI）ベースのエンドツーエンド（E2E）画像およびビデオの圧縮に焦点を当てている。

従来技術は有望な性能を示しているが、E2E画像圧縮の以下の2つの問題が未解決のままである。第1に、各深層ニューラルネットワーク（DNN）モデルが目標ビットレートで訓練されるビットレート制御を実現することは、他のビットレートで画像を圧縮するために適用された場合にうまく機能しない可能性があるので、困難な場合がある。第2に、各DNNモデルは、ピーク信号対雑音比（PSNR）および／または構造類似性指数尺度（SSIM）などのいくつかの目標訓練損失を最適化するように訓練される場合があり、これは他の目標訓練損失に対してうまく機能しない可能性がある。言い換えれば、異なるビットレートで、または異なる目標メトリックを使用して入力画像を圧縮する柔軟性を実現するために、複数のDNNモデルが訓練、格納、および展開される必要があり得、これは、格納と計算の両方において実用的であるために費用がかかりすぎる可能性がある。

実施形態によれば、エンドツーエンド画像圧縮のための特徴置換の方法は、少なくとも1つのプロセッサによって実行され、符号化表現を生成するために、第1のニューラルネットワークを使用して、入力画像を符号化するステップと、圧縮表現を生成するために、第2のニューラルネットワークを使用して、生成された符号化表現を量子化するステップとを含む。第1のニューラルネットワークおよび第2のニューラルネットワークは、生成された圧縮表現のビットレートに基づいてレート損失を特定し、特定されたレート損失に基づいて生成された符号化表現を更新することによって訓練される。

実施形態によれば、エンドツーエンド画像圧縮のための特徴置換のための装置は、プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み取り、プログラムコードによって指示されたように動作するように構成された少なくとも1つのプロセッサとを含む。プログラムコードは、符号化表現を生成するために、第1のニューラルネットワークを使用して、入力画像を符号化することを少なくとも1つのプロセッサに行わせるように構成された符号化コードと、圧縮表現を生成するために、第2のニューラルネットワークを使用して、生成された符号化表現を量子化することを少なくとも1つのプロセッサに行わせるように構成された量子化コードとを含む。第1のニューラルネットワークおよび第2のニューラルネットワークは、生成された圧縮表現のビットレートに基づいてレート損失を特定し、特定されたレート損失に基づいて生成された符号化表現を更新することによって訓練される。

実施形態によれば、非一時的コンピュータ可読媒体は、エンドツーエンド画像圧縮のための特徴置換のために少なくとも1つのプロセッサによって実行されると、符号化表現を生成するために、第1のニューラルネットワークを使用して、入力画像を符号化することと、圧縮表現を生成するために、第2のニューラルネットワークを使用して、生成された符号化表現を量子化することとを少なくとも1つのプロセッサに行わせる命令を記憶する。第1のニューラルネットワークおよび第2のニューラルネットワークは、生成された圧縮表現のビットレートに基づいてレート損失を特定し、特定されたレート損失に基づいて生成された符号化表現を更新することによって訓練される。

実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境の図である。図1の1つまたは複数のデバイスの例示的な構成要素のブロック図である。実施形態による、訓練段階中のエンドツーエンド画像圧縮のための特徴置換のための訓練装置のブロック図である。実施形態による、訓練段階中のビットレート制約を伴うエンドツーエンド画像圧縮のための特徴置換のための訓練装置のブロック図である。実施形態による、検査段階中のエンドツーエンド画像圧縮のための特徴置換のための検査装置のブロック図である。実施形態による、エンドツーエンド画像圧縮のための特徴置換の方法のフローチャートである。実施形態による、エンドツーエンド画像圧縮のための特徴置換のための装置のブロック図である。

本開示は、E2E DNNを介して置換符号化特徴表現を学習することによって入力画像を圧縮するための方法および装置を記載する。学習された置換符号化特徴表現は、元の符号化特徴表現の変更であり、改善された圧縮性能を有する画像を効果的に復元するとともに、柔軟なビットレート制御および圧縮目標制御の能力を提供するために使用することができる。入力画像は、ユーザによって定義された所望のビットレートを満たすことができる。

図1は、実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境100の図である。

図1に示されたように、環境100は、ユーザデバイス110、プラットフォーム120、およびネットワーク130を含んでもよい。環境100のデバイスは、有線接続、ワイヤレス接続、または有線接続とワイヤレス接続の組合せを介して相互接続することができる。

ユーザデバイス110は、プラットフォーム120に関連付けられた情報を受信、生成、記憶、処理、および／または提供することが可能な1つまたは複数のデバイスを含む。例えば、ユーザデバイス110は、コンピューティングデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど）、携帯電話（例えば、スマートフォン、無線電話など）、ウェアラブルデバイス（例えば、一対のスマートグラスもしくはスマートウォッチ）、または同様のデバイスを含んでもよい。いくつかの実装形態では、ユーザデバイス110は、プラットフォーム120から情報を受信し、かつ／またはプラットフォーム120に情報を送信することができる。

プラットフォーム120は、本明細書の他の箇所に記載されるような1つまたは複数のデバイスを含む。いくつかの実装形態では、プラットフォーム120は、クラウドサーバまたはクラウドサーバのグループを含んでもよい。いくつかの実装形態では、プラットフォーム120は、ソフトウェア構成要素がスワップインまたはスワップアウトされ得るようにモジュール式に設計されてもよい。そのため、プラットフォーム120は、異なる用途向けに、容易かつ／または迅速に復元されてもよい。

いくつかの実装形態では、図示されたように、プラットフォーム120は、クラウドコンピューティング環境122内でホストされてもよい。特に、本明細書に記載された実装形態は、クラウドコンピューティング環境122内でホストされるものとしてプラットフォーム120を記載するが、いくつかの実装形態では、プラットフォーム120は、クラウドベースでなくてもよく（すなわち、クラウドコンピューティング環境の外部に実装されてもよく）、部分的にクラウドベースであってもよい。

クラウドコンピューティング環境122は、プラットフォーム120をホストする環境を含む。クラウドコンピューティング環境122は、プラットフォーム120をホストするシステムおよび／またはデバイスの物理的な位置および構成のエンドユーザ（例えば、ユーザデバイス110）の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供することができる。図示されたように、クラウドコンピューティング環境122は、（まとめて「コンピューティングリソース124」と呼ばれ、個別に「コンピューティングリソース124」と呼ばれる）コンピューティングリソース124のグループを含んでもよい。

コンピューティングリソース124は、1つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算デバイスおよび／もしくは通信デバイスを含む。いくつかの実装形態では、コンピューティングリソース124は、プラットフォーム120のホストすることができる。クラウドリソースは、コンピューティングリソース124内で実行される計算インスタンス、コンピューティングリソース124内で提供されるストレージデバイス、コンピューティングリソース124によって提供されるデータ転送デバイスなどを含んでもよい。いくつかの実装形態では、コンピューティングリソース124は、有線接続、ワイヤレス接続、または有線接続とワイヤレス接続の組合せを介して他のコンピューティングリソース124と通信することができる。

図1にさらに示されたように、コンピューティングリソース124は、1つまたは複数のアプリケーション（「APP」）124－1、1つまたは複数の仮想マシン（「VM」）124－2、仮想化ストレージ（「VS」）124－3、1つまたは複数のハイパーバイザ（「HYP」）124－4などのクラウドリソースのグループを含む。

アプリケーション124－1は、ユーザデバイス110および／もしくはプラットフォーム120に提供され得るか、またはユーザデバイス110および／もしくはプラットフォーム120によってアクセスされ得る1つまたは複数のソフトウェアアプリケーションを含む。アプリケーション124－1は、ユーザデバイス110上でソフトウェアアプリケーションをインストールし実行する必要性を排除することができる。例えば、アプリケーション124－1は、プラットフォーム120に関連付けられたソフトウェアおよび／またはクラウドコンピューティング環境122を介して提供されることが可能な任意の他のソフトウェアを含んでもよい。いくつかの実装形態では、1つのアプリケーション124－1は、仮想マシン124－2を介して1つまたは複数の他のアプリケーション124－1との間で情報を送受信することができる。

仮想マシン124－2は、物理マシンのようにプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装形態を含む。仮想マシン124－2は、仮想マシン124－2による用途および任意の実マシンとの対応関係の程度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれかであってもよい。システム仮想マシンは、完全なオペレーティングシステム（「OS」）の実行をサポートする完全なシステムプラットフォームを提供することができる。プロセス仮想マシンは、単一のプログラムを実行することができ、単一のプロセスをサポートすることができる。いくつかの実装形態では、仮想マシン124－2は、ユーザ（例えば、ユーザデバイス110）の代わりに動作することができ、データ管理、同期、または長期データ転送などのクラウドコンピューティング環境122の基盤を管理することができる。

仮想化ストレージ124－3は、コンピューティングリソース124のストレージシステムまたはデバイス内で仮想化技法を使用する1つもしくは複数のストレージシステムおよび／または1つもしくは複数のデバイスを含む。いくつかの実装形態では、ストレージシステムのコンテキスト内で、仮想化のタイプは、ブロック仮想化およびファイル仮想化を含んでもよい。ブロック仮想化は、ストレージシステムが物理ストレージまたは異種構造に関係なくアクセスされ得るような、物理ストレージからの論理ストレージの抽象化（または分離）を指すことができる。分離により、ストレージシステムの管理者がエンドユーザのためにストレージを管理する方法の柔軟性が可能になり得る。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に記憶された場所との間の依存関係を排除することができる。これにより、ストレージ使用の最適化、サーバ統合、および／またはスムーズなファイル移行の実行が可能になり得る。

ハイパーバイザ124－4は、複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」）をコンピューティングリソース124などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技法を提供することができる。ハイパーバイザ124－4は、仮想オペレーティングプラットフォームをゲストオペレーティングシステムに提示することができ、ゲストオペレーティングシステムの実行を管理することができる。様々なオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共有することができる。

ネットワーク130は、1つまたは複数の有線および／またはワイヤレスのネットワークを含む。例えば、ネットワーク130は、セルラーネットワーク（例えば、第5世代（5G）ネットワーク、ロングタームエボリューション（LTE）ネットワーク、第3世代（3G）ネットワーク、符号分割多元接続（CDMA）ネットワークなど）、公的地域モバイルネットワーク（PLMN）、ローカルエリアネットワーク（LAN）、ワイドエリアネットワーク（WAN）、メトロポリタンエリアネットワーク（MAN）、電話ネットワーク（例えば、公衆交換電話網（PSTN））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および／またはそれらもしくは他のタイプのネットワークの組合せを含んでもよい。

図1に示されたデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、図1に示されたものに比べて、さらなるデバイスおよび／もしくはネットワーク、少ないデバイスおよび／もしくはネットワーク、異なるデバイスおよび／もしくはネットワーク、または異なる配置のデバイスおよび／もしくはネットワークが存在してもよい。さらに、図1に示された2つ以上のデバイスは、単一のデバイス内に実装されてもよく、または図1に示された単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加または代替として、環境100のデバイスのセット（例えば、1つまたは複数のデバイス）は、環境100のデバイスの別のセットによって実行されるものとして記載された1つまたは複数の機能を実行することができる。

図2は、図1の1つまたは複数のデバイスの例示的な構成要素のブロック図である。

デバイス200は、ユーザデバイス110および／またはプラットフォーム120に対応してもよい。図2に示されたように、デバイス200は、バス210、プロセッサ220、メモリ230、記憶構成要素240、入力構成要素250、出力構成要素260、および通信インターフェース270を含んでもよい。

バス210は、デバイス200の構成要素間の通信を可能にする構成要素を含む。プロセッサ220は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組合せに実装される。プロセッサ220は、中央処理装置（CPU）、グラフィック処理装置（GPU）、加速処理装置（APU）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（DSP）、フィールドプログラマブルゲートアレイ（FPGA）、特定用途向け集積回路（ASIC）、または別のタイプの処理構成要素である。いくつかの実装形態では、プロセッサ220は、機能を実行するようにプログラムされることが可能な1つまたは複数のプロセッサを含む。メモリ230は、ランダムアクセスメモリ（RAM）、読取り専用メモリ（ROM）、ならびに／またはプロセッサ220が使用するための情報および／もしくは命令を記憶する別のタイプの動的もしくは静的なストレージデバイス（例えば、フラッシュメモリ、磁気メモリ、および／もしくは光メモリ）を含む。

記憶構成要素240は、デバイス200の動作および使用に関連する情報および／またはソフトウェアを記憶する。例えば、記憶構成要素240は、対応するドライブとともに、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、および／もしくはソリッドステートディスク）、コンパクトディスク（CD）、デジタル多用途ディスク（DVD）、フロッピーディスク、カートリッジ、磁気テープ、ならびに／または別のタイプの非一時的コンピュータ可読媒体を含んでもよい。

入力構成要素250は、デバイス200がユーザ入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および／またはマイクロフォン）などを介して情報を受信することを可能にする構成要素を含む。追加または代替として、入力構成要素250は、情報を検知するためのセンサ（例えば、全地球測位システム（GPS）構成要素、加速度計、ジャイロスコープ、および／またはアクチュエータ）を含んでもよい。出力構成要素260は、デバイス200（例えば、ディスプレイ、スピーカ、および／または1つもしくは複数の発光ダイオード（LED））からの出力情報を提供する構成要素を含む。

通信インターフェース270は、デバイス200が有線接続、ワイヤレス接続、または有線接続とワイヤレス接続の組合せなどを介して他のデバイスと通信することを可能にする、トランシーバ様の構成要素（例えば、トランシーバならびに／または別個の受信機および送信機）を含む。通信インターフェース270は、デバイス200が別のデバイスから情報を受信し、かつ／または別のデバイスに情報を提供することを可能にすることができる。例えば、通信インターフェース270は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数（RF）インターフェース、ユニバーサルシリアルバス（USB）インターフェース、Wi－Fiインターフェース、セルラーネットワークインターフェースなどを含んでもよい。

デバイス200は、本明細書に記載された1つまたは複数のプロセスを実行することができる。デバイス200は、プロセッサ220がメモリ230および／または記憶構成要素240などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令を実行することに応答して、これらのプロセスを実行することができる。コンピュータ可読媒体は、本明細書では非一時的メモリデバイスと定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにわたって広がるメモリ空間を含む。

ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェース270を介して別のデバイスから、メモリ230および／または記憶構成要素240に読み込まれてもよい。メモリ230および／または記憶構成要素240に記憶されたソフトウェア命令は、実行されると、本明細書に記載された1つまたは複数のプロセスをプロセッサ220に実行させることができる。追加または代替として、ハードワイヤード回路は、本明細書に記載された1つまたは複数のプロセスを実行するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用されてもよい。このように、本明細書に記載された実装形態は、ハードウェア回路とソフトウェアのいかなる特定の組合せにも限定されない。

図2に示された構成要素の数および配置は、一例として提供されている。実際には、デバイス200は、図2に示された構成要素に比べて、さらなる構成要素、少ない構成要素、異なる構成要素、または異なる配置の構成要素を含んでもよい。追加または代替として、デバイス200の構成要素のセット（例えば、1つまたは複数の構成要素）は、デバイス200の構成要素の別のセットによって実行されるものとして記載された1つまたは複数の機能を実行することができる。

次に、エンドツーエンド画像圧縮のための特徴置換のための方法および装置が詳細に記載される。

本開示は、置換符号化特徴表現を学習することにより、E2E画像圧縮を記載する。

サイズ（h、w、c）の入力画像xが与えられ、ここで、h、w、cは、それぞれ、チャネルの高さ、幅、および数であり、E2E画像圧縮の目標は以下のように記載され、その中で、記憶および送信に対してコンパクトな圧縮（量子化）表現y’が算出される。次いで、算出された圧縮表現y’に基づいて、出力画像x’が復元され、その結果、復元画像x’と元の入力画像xが類似してもよい。損失関数D（x，x’）は、復元誤差、すなわち、PSNRおよび／またはSSIMなどの歪み損失を測定するために使用される。実施形態では、圧縮表現y’を算出するDNNは、2つの部分、すなわち、入力画像xに基づいて符号化表現yを生成するエンコーダと、符号化表現yに基づいて圧縮表現y’を生成する量子化器とを有してもよい。出力画像x’を復元するDNNはデコーダである。

入力画像xが与えられると、装置は、置換符号化特徴表現

を学習するために最初に訓練段階を経て、次いで、置換符号化特徴表現は、圧縮（量子化）表現

および復元画像

を生成するために検査段階で使用される。

図3Aは、実施形態による、訓練段階中のエンドツーエンド画像圧縮のための特徴置換のための訓練装置300Aのブロック図である。

図3Aに示されたように、訓練装置300Aは、訓練エンコーダ310と、訓練量子化器320と、訓練デコーダ330と、歪み損失構成要素340と、レート損失構成要素350と、データ更新構成要素360とを含む。

各入力画像xにとって、訓練エンコーダ310、訓練量子化器320、および訓練デコーダ330はDNNであり、それらのモデル重みは、それぞれ、所定のエンコーダ、所定の量子化器、および所定のデコーダに基づいて初期化または設定される。次いで、更新された置換符号化特徴表現

を算出するために、再訓練／微調整プロセスが実行される。訓練量子化器320は、算出された置換符号化特徴表現

に基づいて新しい圧縮（量子化）表現

を生成し、訓練デコーダ330は、生成された新しい圧縮表現

に基づいて新しい復元画像

を生成する。再訓練／微調整プロセスの目標は、以下の2つの部分を含む全体的な損失

を最適化（最小化）することである。

歪み損失構成要素340は、復元誤差を測定して同じ歪み損失

を特定する。レート損失構成要素350は、圧縮表現

のビットレートに関連するレート損失

を特定する。エントロピー推定手法が使用されてもよく、その中で、レート損失

を算出するために所定のレート損失推定器が使用される。ハイパーパラメータλは、異なる損失項の寄与を平衡させる。データ更新構成要素360は、特定された歪み損失

、特定されたレート損失

、および入力されたハイパーパラメータλに基づいて、全体的な損失

を特定する。

所定のエンコーダ、所定の量子化器、所定のデコーダ、および所定のレート損失推定器の重みは、訓練画像のセットに基づいて事前訓練される。詳細には、訓練画像x_trごとに、復元画像x_tr’を算出するために、符号化、量子化、および復号を通して同じ前方推論計算が行われる。次いで、歪み損失D（x_tr，x_tr’）およびレート損失R（x_tr）が算出される。次いで、事前訓練されたハイパーパラメータλ_trが与えられると、全体的な損失L（x_tr，x_tr’）は、式（1）に基づいて算出することができ、その勾配は、事前訓練されたエンコーダ、事前訓練された量子化器、事前訓練されたデコーダ、および事前訓練されたレート損失推定器の重みを逆伝搬によって更新するために使用される。

訓練段階の間、入力画像xごとに、再訓練／微調整プロセスにおいて、訓練エンコーダ310、訓練量子化器320、訓練デコーダ330、およびレート損失推定器が初期化され、訓練エンコーダ310は、符号化表現yであるように初期符号化表現y₀を初期化する。その後、t回目の反復のために、訓練量子化器320は、圧縮（量子化）表現y_t’を算出し、訓練デコーダ330は、量子化表現y_tに基づいて復元画像x_t’を算出する。歪み損失構成要素340は、歪み損失D（x，x_t’）およびレート損失R（y_t’）を算出する。次いで、データ更新構成要素360は、接合損失L（x，y_t’，x_t’）の勾配を算出して、逆伝搬により置換符号化特徴表現y_t＋1を更新する。最後に、T回の反復の後、最適な置換符号化特徴表現

が出力される。

さらに、本開示は、ビットレート制約を伴う置換符号化特徴表現を学習することにより、E2E画像圧縮方法を記載する。

圧縮表現y’のビットレートはB（y’）によって表記される。ビットレートB（y’）が大きいと、復元画像x’の歪みが小さくなる可能性があり、ビットレートB（y’）が小さいと、復元画像x’の歪みが大きくなる可能性がある。R（y’）は、ビットレートB（y’）に関連するレート損失を表記する。目標レート損失R_targetに関連付けられた目標ビットレートB_targetが与えられると、圧縮表現y’は、目標ビットレートB_targetに可能な限り近いビットレートB（y’）を有するべきである。したがって、全体的な損失は以下のように定義することができる。
L（x，y’，x’）＝ηL（R（y’），R_target）＋D（x，x’）（2）

L（R（y’），R_target）は、レート損失R（y’）と目標レート損失R_targetとの間の差の損失を測定し、ηは、異なる損失項の寄与を平衡させるハイパーパラメータである。ハイパーパラメータηは、実際のビットレートが可能な限り目標ビットレートに近いことを保証するために、経験的に大きな数として設定されてもよい。また、レート損失R（y’）と目標レート損失R_targetとの間の差の損失は、以下のように設定されてもよい。
L（R（y’），R_target）＝min（R（y’）－R_target，∈）（3）

∈はハイパーパラメータであり、これは非常に小さい数であってもよい。

図3Bは、実施形態による、訓練段階中のビットレート制約を伴うエンドツーエンド画像圧縮のための特徴置換のための訓練装置300Bのブロック図である。

図3Bに示されたように、訓練装置300Bは、訓練エンコーダ310と、訓練量子化器320と、訓練デコーダ330と、歪み損失構成要素340と、レート損失構成要素350と、データ更新構成要素370とを含む。

入力画像xおよび目標ビットレートB_targetが与えられると、訓練段階において、訓練エンコーダ310は、置換符号化特徴表現

を学習し、次いで、置換符号化特徴表現は、圧縮表現

および復元画像

を生成するために検査段階で使用される。詳細には、入力画像xごとに、訓練エンコーダ310、訓練量子化器320、および訓練デコーダ330のモデル重みは、それぞれ、所定のエンコーダ、所定の量子化器、および所定のデコーダに基づいて初期化または設定される。次いで、再訓練／微調整プロセスが行われ、その中で、データ更新構成要素370は、更新された置換符号化特徴表現

を算出する。訓練量子化器320は、算出された置換符号化特徴表現

に基づいて新しい圧縮（量子化）表現

を生成し、訓練デコーダ330は、生成された新しい圧縮表現

に基づいて新しい復元画像

を生成する。再訓練／微調整プロセスの目標は、全体的な損失

を最適化することである。

エントロピー推定手法が使用されてもよく、その中で、レート損失

を算出するために所定のレート損失推定器が使用される。

所定のエンコーダ、所定の量子化器、所定のデコーダ、および所定のレート損失推定器の重みは、訓練画像のセットに基づいて事前訓練される。詳細には、訓練画像x_trごとに、復元画像x_tr’を算出するために、符号化、量子化、および復号を通して同じ前方推論計算が行われる。次いで、歪み損失D（x_tr，x_tr’）およびレート損失R（y_tr’）が算出される。次いで、事前訓練されたハイパーパラメータλ_trが与えられると、全体的な損失L_tr（x_tr，y_tr’，x_tr’）を算出することができる。
L_tr（x_tr，y_tr’，x_tr’）＝R（y_tr’）＋λ_trD（x_tr，x_tr’）（5）

その勾配は、事前訓練されたエンコーダ、事前訓練された量子化器、事前訓練されたデコーダ、および事前訓練されたレート損失推定器の重みを逆伝搬によって更新するために使用される。R（y_tr’）はレート損失であり、D（x_tr，x_tr’）は歪み損失であり、それらは上記の段落と同じ方法で定義される。

図4は、実施形態による、検査段階中のエンドツーエンド画像圧縮のための特徴置換のための検査装置400のブロック図である。

図4に示されたように、検査装置400は、検査エンコーダ410、検査量子化器420、および検査デコーダ430を含む。

検査段階では、学習された置換符号化特徴表現

を入力として使用して、検査量子化器420および検査デコーダ430が初期化される。検査量子化器420は、圧縮（量子化）表現

を算出し、検査デコーダ430は、前方推論計算によって復元画像

を算出する。

検査量子化器420および検査デコーダ430は、それぞれ、それらの対応する訓練量子化器および訓練デコーダと同じであってもよい。それらは異なっていてもよい。実施形態では、検査デコーダ430は訓練デコーダと同じであるが、訓練量子化器と検査量子化器420は異なる。詳細には、検査量子化器420は一般的な均一量子化手法をとることができるが、訓練量子化器は検査量子化器420の効果を近似する均一サンプラであってもよく、それは、離散数を使用して勾配逆伝搬の困難さを回避する。

上記の実施形態は、ビットレート制御および目標メトリック制御において大きい柔軟性を実現する。目標ビットレートが変更されると、事前訓練されたエンコーダ、事前訓練された量子化器、および事前訓練されたデコーダを再訓練／微調整することなく、ハイパーパラメータλのみが変更される必要があってもよい。同様に、（例えば、最適なPSNRおよび／または最適なSSIMを有する）異なる目標メトリックに最適な圧縮画像が取得されるべきとき、事前訓練されたE2E画像圧縮ネットワークを再訓練／微調整することなく、歪み損失を算出する方法のみが変更されてもよい。

図5は、実施形態による、エンドツーエンド画像圧縮のための特徴置換の方法のフローチャートである。

いくつかの実装形態では、図5の1つまたは複数のプロセスブロックは、プラットフォーム120によって実行されてもよい。いくつかの実装形態では、図5の1つまたは複数のプロセスブロックは、ユーザデバイス110などのプラットフォーム120とは別個の、またはプラットフォーム120を含む別のデバイスもしくはデバイスのグループによって実行されてもよい。

図5に示されたように、動作510において、方法500は、符号化表現を生成するために、第1のニューラルネットワークを使用して、入力画像を符号化することを含む。

動作520において、方法500は、圧縮表現を生成するために、第2のニューラルネットワークを使用して、生成された符号化表現を量子化することを含む。

第1のニューラルネットワークおよび第2のニューラルネットワークは、生成された圧縮表現のビットレートに基づいてレート損失を特定し、特定されたレート損失に基づいて生成された符号化表現を更新することによって訓練される。

動作530において、方法500は、出力画像を生成するために、第3のニューラルネットワークを使用して、生成された圧縮表現を復号することを含む。

第1のニューラルネットワーク、第2のニューラルネットワーク、および第3のニューラルネットワークは、入力画像と生成された出力画像との間の復元誤差に対応する歪み損失を特定し、特定された歪み損失、特定されたレート損失、および入力されたハイパーパラメータに基づいて、生成された符号化表現を更新することによって訓練されてもよい。

生成された符号化表現を更新することは、式（1）に基づいて全体的な損失を最適化することを含んでもよい。

第1のニューラルネットワーク、第2のニューラルネットワーク、および第3のニューラルネットワークは、特定されたレート損失と目標レート損失との間の差と所定のハイパーパラメータとの間の最小値を特定し、入力画像と生成された出力画像との間の復元誤差に対応する歪み損失を特定し、特定された最小値、特定されたレート損失、および入力されたハイパーパラメータに基づいて、生成された符号化表現を更新することによって訓練されてもよい。

生成された符号化表現を更新することは、式（4）に基づいて全体的な損失を最適化することを含んでもよい。

復元誤差はPSNRおよび／またはSSIMを含んでもよい。

図5は方法500の例示的なブロックを示すが、いくつかの実装形態では、方法500は、図5に描写されたブロックに比べて、さらなるブロック、少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加または代替として、方法500のブロックのうちの2つ以上が並行して実行されてもよい。

図6は、実施形態による、エンドツーエンド画像圧縮のための特徴置換のための装置600のブロック図である。

図6に示されたように、装置600は、符号化コード610、量子化コード620、および復号コード630を含む。

符号化コード610は、符号化表現を生成するために、第1のニューラルネットワークを使用して、入力画像を符号化することを少なくとも1つのプロセッサに行わせるように構成される。

量子化コード620は、圧縮表現を生成するために、第2のニューラルネットワークを使用して、生成された符号化表現を量子化することを少なくとも1つのプロセッサに行わせるように構成される。

復号コード630は、出力画像を生成するために、第3のニューラルネットワークを使用して、生成された圧縮表現を復号することを少なくとも1つのプロセッサに行わせるように構成される。

生成された符号化表現は、式（1）に基づいて全体的な損失を最適化することによって更新されてもよい。

生成された符号化表現は、式（4）に基づいて全体的な損失を最適化することによって更新されてもよい。

復元誤差はPSNRおよび／またはSSIMを含んでもよい。

以前のE2E画像圧縮方法と比較して、上記の実施形態は以下の利点を有する。上記の実施形態は、任意のE2E画像圧縮DNNモデルに搭載することができる一般的な前処理として扱うことができる。また、個々の入力画像ごとに、その置換符号化特徴表現は、その損失のフィードバックに基づいて個々の再訓練／微調整プロセスを介して最適化されてもよく、それにより圧縮性能を高めることができる。

さらに、上記の実施形態は、E2E画像圧縮モデルを再訓練することなく、または複数のモデルを使用することなく、柔軟なビットレート制御を実現することができる。上記の実施形態は、E2E画像圧縮モデルを再訓練することなく、または複数のモデルを使用することなく、柔軟な目標ビットレート制御を実現することができる。上記の実施形態は、E2E画像圧縮モデルを再訓練することなく、目標圧縮メトリックを容易に変更することができる。

提案された方法は、別々に使用されてもよく、任意の順序で組み合わされてもよい。さらに、方法（または実施形態）、エンコーダ、およびデコーダの各々は、処理回路（例えば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路）によって実装されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。

前述の開示は例示および説明を提供しているが、網羅的なものではなく、開示されたまさにその形態に実装形態を限定するものではない。修正形態および変形形態は、上記の開示に照らして実現可能であり、または実装形態の実践から取得されてもよい。

本明細書で使用される構成要素という用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組合せとして広く解釈されるものである。

本明細書に記載されたシステムおよび／または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組合せの異なる形態で実装されてもよいことは明らかであろう。これらのシステムおよび／または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。したがって、システムおよび／または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび／または方法を実装するように設計され得ることが理解される。

特徴の組合せが特許請求の範囲に列挙され、かつ／または本明細書に開示されているが、これらの組合せは、可能な実装形態の開示を限定するものではない。実際には、これらの特徴の多くは、特許請求の範囲に具体的に列挙されていない、かつ／または本明細書に開示されていない方法で組み合わされてもよい。以下に列挙される各従属請求項は1つの請求項のみに直接依存してもよいが、可能な実装形態の開示は、各従属請求項を請求項セット内のあらゆる他の請求項と組み合わせて含む。

本明細書で使用される要素、行為、または指示は、明示的にそのように記載されていない限り、重要または必須であると解釈されなくてもよい。また、本明細書で使用される冠詞「a」および「an」は、1つまたは複数の項目を含むものであり、「1つまたは複数」と同じ意味で使用されてもよい。さらに、本明細書で使用される「セット」という用語は、1つまたは複数の項目（例えば、関連項目、非関連項目、関連項目と非関連項目の組合せなど）を含むものであり、「1つまたは複数」と同じ意味で使用されてもよい。1つの項目のみが対象とされる場合、「1つ」という用語または同様の言葉が使用される。また、本明細書で使用される「有する（has）」、「有する（have）」、「有する（having）」などの用語は、オープンエンド用語であることが意図される。さらに、「に基づいて」という語句は、特に明記されない限り、「に少なくとも部分的に基づいて」を意味するものである。

100 環境
110 ユーザデバイス
120 プラットフォーム
122 クラウドコンピューティング環境
124 コンピューティングリソース
124－1 アプリケーション（「APP」）
124－2 仮想マシン（「VM」）
124－3 仮想化ストレージ（「VS」）
124－4 ハイパーバイザ（「HYP」）
130 ネットワーク
200 デバイス
210 バス
220 プロセッサ
230 メモリ
240 記憶構成要素
250 入力構成要素
260 出力構成要素
270 通信インターフェース
300A 訓練装置
300B 訓練装置
310 訓練エンコーダ
320 訓練量子化器
330 訓練デコーダ
340 歪み損失構成要素
350 レート損失構成要素
360 データ更新構成要素
370 データ更新構成要素
400 検査装置
410 検査エンコーダ
420 検査量子化器
430 検査デコーダ
500 方法
510 動作
520 動作
530 動作
600 装置
610 符号化コード
620 量子化コード
630 復号コード

Claims

エンドツーエンド画像圧縮のための特徴置換の方法であって、前記方法が少なくとも1つのプロセッサによって実行され、前記方法が、
第1のニューラルネットワークを使用して、入力画像を符号化し、符号化表現を生成するステップと、
第2のニューラルネットワークを使用して、前記生成された符号化表現を量子化し、圧縮表現を生成するステップと
を含み、
前記第1のニューラルネットワークおよび前記第2のニューラルネットワークが、
(a)前記第2のニューラルネットワークを使用して、符号化表現(y _t )を量子化し、圧縮表現(y _t ’)を生成するステップと、
(b)前記生成された圧縮表現(y _t ’)のビットレートに基づいて、前記ビットレートに関連するレート損失を特定するステップと、
(c)前記特定されたレート損失に基づいて置換符号化表現(y _t＋1 )を取得するステップと、
(d)前記置換符号化表現(y _t＋1 )に対して(a)～(c)の処理を繰り返し、最適化された置換符号化表現(y _T )を取得するステップと
によって訓練される、方法。
第3のニューラルネットワークを使用して、前記生成された圧縮表現を復号し、出力画像を生成するステップをさらに含む、請求項1に記載の方法。
前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、および前記第3のニューラルネットワークが、
前記入力画像と前記生成された出力画像との間の復元誤差に対応する歪み損失を特定するステップと、
前記特定された歪み損失、前記特定されたレート損失、および入力されたハイパーパラメータに基づいて、前記置換符号化表現を取得するステップと
によって訓練される、請求項2に記載の方法。
最適化された置換符号化表現(y _T )を取得する前記ステップが、以下の式：
に基づいて全体的な損失を最適化するステップを含み、
が前記全体的な損失であり、
が置換符号化表現(
)の圧縮表現
の前記ビットレートに基づいて特定された前記レート損失であり、λが前記入力されたハイパーパラメータであり、
が前記入力画像xと前記生成された出力画像
との間の前記復元誤差に対応する前記歪み損失である、
請求項3に記載の方法。
前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、および前記第3のニューラルネットワークが、
前記特定されたレート損失と目標レート損失との間の差と所定のハイパーパラメータとの間の最小値を特定するステップと、
前記入力画像と前記生成された出力画像との間の復元誤差に対応する歪み損失を特定するステップと、
前記特定された最小値、前記特定されたレート損失、および入力されたハイパーパラメータに基づいて、前記置換符号化表現を取得するステップと
によって訓練される、請求項2に記載の方法。
最適化された置換符号化表現(y _T )を取得する前記ステップが、以下の式：
に基づいて全体的な損失を最適化するステップを含み、
が前記全体的な損失であり、ηが前記入力されたハイパーパラメータであり、
が置換符号化表現(
)の圧縮表現
の前記ビットレートに基づいて特定された前記レート損失であり、R_targetが前記目標レート損失であり、∈が前記所定のハイパーパラメータであり、
が前記入力画像xと前記生成された出力画像
との間の前記復元誤差に対応する前記歪み損失である、
請求項5に記載の方法。
前記復元誤差が、ピーク信号対雑音比（PSNR）および／または構造類似性指数尺度（SSIM）を含む、請求項5に記載の方法。
エンドツーエンド画像圧縮のための特徴置換のための装置であって、前記装置が
請求項1～7のいずれか一項に記載の方法を少なくとも1つのプロセッサに行わせるためのプログラムコードを記憶するように構成された少なくとも1つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによって指示されたように動作するように構成された少なくとも1つのプロセッサと
を備えた、装置。
少なくとも1つのプロセッサに、請求項1～7のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。