JP2023525233A

JP2023525233A - ニューラル画像圧縮における置換の多学習率のための方法および装置

Info

Publication number: JP2023525233A
Application number: JP2022564637A
Authority: JP
Inventors: ディン・ディン; ウェイ・ジアン; シェン・リン; ウェイ・ワン; シャオジョン・シュ; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-04-16
Filing date: 2021-10-14
Publication date: 2023-06-15
Anticipated expiration: 2041-10-14
Also published as: KR20220164562A; US20220343552A1; WO2022220868A1; EP4100919A1; CN115485729A; JP7493617B2; EP4100919A4

Abstract

少なくとも1つのプロセッサによって実行されるニューラルネットワークベースの置換型エンドツーエンド（E2E）画像圧縮（NIC）であって、E2E NICフレームワークへの入力画像を受信するステップと、E2E NICフレームワークのトレーニングモデルに基づいて代替画像を決定するステップと、ビットストリームを生成するために代替画像を符号化するステップと、入力画像の圧縮表現を生成するために代替画像をビットストリームにマッピングするステップとを含む。また、入力はブロックに分割されてもよく、各ブロックに代替表現が決定され、代替画像全体ではなく各ブロックが符号化される。

Description

本開示は、概して、ニューラル画像圧縮（NIC）に関し、より具体的には、ニューラルネットワークを使用した置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）に関する。

従来のハイブリッドビデオコーデックは、全体として最適化することが困難である。単一のモジュールの改善は、全体的な性能における符号化利得をもたらさない場合がある。近年、標準的なグループおよび企業は、将来のビデオ符号化技術の標準化に対する潜在的な需要を積極的に調査してきた。これらの標準的なグループおよび企業は、ディープニューラルネットワーク（DNN）を使用したAIベースのエンドツーエンドのニューラル画像圧縮に焦点を当てたJPEG－AIグループを確立している。また、中国のAVS規格では、AVS－AI特別グループも結成し、ニューラル画像およびビデオ圧縮技術に取り組んでいる。最近の手法の成功は、高度なニューラル画像およびビデオ圧縮方法論に対するますます多くの産業上の関心をもたらしている。

例示的な実施形態によれば、少なくとも1つのプロセッサによって実行される、ニューラルネットワークを使用した置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）の方法は、E2E NICフレームワークへの入力画像を受信するステップと、E2E NICフレームワークのトレーニングモデルに基づいて代替画像を決定するステップと、ビットストリームを生成するために代替画像を符号化するステップと、圧縮表現を生成するために代替画像をビットストリームにマッピングするステップとを含む。

例示的な実施形態によれば、ニューラルネットワークを使用した置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）のための装置であって、装置は、プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み取り、プログラムコードによって指示されたように動作するように構成された少なくとも1つのプロセッサとを含む。プログラムコードは、少なくとも1つのプロセッサにE2E NICフレームワークへの入力画像を受信させるように構成された受信コードと、少なくとも1つのプロセッサにE2E NICフレームワークのトレーニングモデルに基づいて代替画像を決定させるように構成された第1の決定コードと、ビットストリームを生成するために、少なくとも1つのプロセッサに代替画像を符号化させるように構成された第1の符号化コードと、圧縮表現を生成するために、少なくとも1つのプロセッサに代替画像をビットストリームにマッピングさせるように構成されたマッピングコードとを含む。

例示的な実施形態によれば、非一時的コンピュータ可読媒体は、置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）のために少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、E2E NICフレームワークへの入力画像を受信させ、E2E NICフレームワークのトレーニングモデルに基づいて代替画像を決定させ、ビットストリームを生成するために代替画像を符号化させ、圧縮表現を生成するために代替画像をビットストリームにマッピングさせる命令を記憶する。

実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境の図である。図1の1つまたは複数のデバイスの例示的なコンポーネントを示すブロック図である。置換型学習ベースの画像符号化前処理モデルを示す例示的な図である。ブロック単位の画像符号化の一例を示す図である。実施形態による、置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）の方法のフローチャートである。実施形態による、置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）のための装置のブロック図である。

実施形態は、ピクチャを受信することと、エンドツーエンド（E2E）最適化フレームワークに基づいてピクチャの代替表現を符号化するレート歪み性能を最適化するためにピクチャの代替表現の要素を調整する最適化プロセスを実行することによってピクチャの代替表現を決定することとを含み得る。E2E最適化フレームワークは、予めトレーニングされた人工ニューラルネットワーク（ANN）ベースの画像またはビデオ符号化フレームワークとすることができる。ピクチャの代替表現を符号化してビットストリームを生成することができる。人工ニューラルネットワークに基づくビデオ符号化フレームワークでは、機械学習プロセスを実行することによって、最終目的（例えば、レート歪み性能）を改善するために入力から出力まで異なるモジュールを一緒に最適化することができ、エンドツーエンド（E2E）の最適化されたニューラル画像圧縮（NIC）が得られる。

図1は、実施形態による、本明細書に記載された方法、装置、およびシステムがその中で実現され得る環境100の図である。

図1に示されるように、環境100は、ユーザデバイス110と、プラットフォーム120と、ネットワーク130とを含んでもよい。環境100のデバイスは、有線接続、無線接続、または有線接続と無線接続との組合せを介して相互接続されてもよい。

ユーザデバイス110は、プラットフォーム120に関連付けられた情報を受信、生成、記憶、処理、および／または提供することが可能な1つまたは複数のデバイスを含む。例えば、ユーザデバイス110は、コンピューティングデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど）、携帯電話（例えば、スマートフォン、無線電話など）、ウェアラブルデバイス（例えば、スマートグラスもしくはスマートウォッチなど）、または同様のデバイスを含んでもよい。いくつかの実装形態では、ユーザデバイス110は、プラットフォーム120から情報を受信し、かつ／またはプラットフォーム120に情報を送信してもよい。

プラットフォーム120は、本明細書の他の箇所に記載されているような、1つまたは複数のデバイスを含む。いくつかの実装形態では、プラットフォーム120は、クラウドサーバまたはクラウドサーバのグループを含んでもよい。いくつかの実装形態では、プラットフォーム120は、ソフトウェアコンポーネントがスワップインまたはスワップアウトされ得るようにモジュール式に設計されてもよい。したがって、プラットフォーム120は、異なる用途向けに、容易にかつ／または迅速に再構成されてもよい。

いくつかの実装形態では、図示のように、プラットフォーム120は、クラウドコンピューティング環境122下でホストされてもよい。とりわけ、本明細書に記載の実装形態では、プラットフォーム120がクラウドコンピューティング環境122下でホストされるものとして記載しているが、いくつかの実装形態では、プラットフォーム120はクラウドベースでなくてもよく（すなわち、クラウドコンピューティング環境の外部で実装されてもよい）、あるいは部分的にクラウドベースであってもよい。

クラウドコンピューティング環境122は、プラットフォーム120をホストする環境を含む。クラウドコンピューティング環境122は、プラットフォーム120をホストするシステムおよび／またはデバイスの物理的な位置と構成に関するエンドユーザ（例えば、ユーザデバイス110）の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供できる。図示のように、クラウドコンピューティング環境122は、コンピューティングリソース124のグループ（「コンピューティングリソース124」と総称され、なおかつ個別に「コンピューティングリソース124」と呼ばれている）を含んでもよい。

コンピューティングリソース124は、1つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算デバイスおよび／または通信デバイスを含む。いくつかの実装形態では、コンピューティングリソース124は、プラットフォーム120をホストしてもよい。クラウドリソースは、コンピューティングリソース124内で実行されるコンピューティングインスタンス、コンピューティングリソース124内に設けられるストレージデバイス、コンピューティングリソース124によって提供されるデータ転送デバイスなどを含んでもよい。いくつかの実装形態では、コンピューティングリソース124は、有線接続、無線接続、または有線接続と無線接続との組合せを介して他のコンピューティングリソース124と通信してもよい。

図1にさらに示されたように、コンピューティングリソース124は、1つまたは複数のアプリケーション（「APP」）124－1、1つまたは複数の仮想マシン（「VM」）124－2、仮想化ストレージ（「VS」）124－3、1つまたは複数のハイパーバイザ（「HYP」）124－4などのクラウドリソースのグループを含む。

アプリケーション124－1は、ユーザデバイス110および／またはプラットフォーム120に提供されるか、もしくはアクセスされてもよい1つまたは複数のソフトウェアアプリケーションを含む。アプリケーション124－1は、ユーザデバイス110にソフトウェアアプリケーションをインストールして実行する必要性を排除してもよい。例えば、アプリケーション124－1は、プラットフォーム120に関連付けられたソフトウェアおよび／またはクラウドコンピューティング環境122を介して提供され得る他の任意のソフトウェアを含んでもよい。いくつかの実装形態では、1つのアプリケーション124－1は、仮想マシン124－2を介して1つまたは複数の他のアプリケーション124－1との間で情報を送受信することができる。

仮想マシン124－2は、物理マシンのようにプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装形態を含む。仮想マシン124－2は、仮想マシン124－2による用途および任意の実マシンに対するその対応度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれであってもよい。システム仮想マシンは、完全なオペレーティングシステム（「OS」）の実行をサポートする完全なシステムプラットフォームを提供できる。プロセス仮想マシンは、単一のプログラムを実行することができ、単一の処理をサポートすることができる。いくつかの実装形態では、仮想マシン124－2は、ユーザ（例えば、ユーザデバイス110）に代わって動作してもよく、データ管理、同期、または長期間にわたるデータ転送などのクラウドコンピューティング環境122の基盤を管理してもよい。

仮想化ストレージ124－3は、コンピューティングリソース124のストレージシステムまたはデバイス内で仮想化技術を使用する1つもしくは複数のストレージシステムおよび／または1つもしくは複数のデバイスを含む。いくつかの実装形態では、ストレージシステムを背景に、仮想化のタイプがブロックの仮想化およびファイルの仮想化を含んでもよい。ブロックの仮想化は、当該ストレージシステムが物理ストレージであるか異種構造であるかに関係なくアクセスされ得るように、物理ストレージから論理ストレージを抽出する（または分離する）ことを指してもよい。これらを分離することにより、ストレージシステムの管理者がエンドユーザのストレージを管理する方法に柔軟性がもたらされ得る。ファイルの仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に記憶されている場所との間の依存関係を排除し得る。これにより、ストレージ使用が最適化され、サーバが統合され、かつ／または中断なくファイルが移行されるようになり得る。

ハイパーバイザ124－4は、複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」など）をコンピューティングリソース124などのホストコンピュータ上で同時に実行できるハードウェア仮想化技術を提供し得る。ハイパーバイザ124－4は、仮想オペレーティングプラットフォームをゲストオペレーティングシステムに提示し得、ゲストオペレーティングシステムの実行を管理し得る。様々なオペレーティングシステムの複数のインスタンスが、仮想化ハードウェアリソースを共有してもよい。

ネットワーク130は、1つまたは複数の有線ネットワークおよび／または無線ネットワークを含む。例えば、ネットワーク130は、セルラーネットワーク（例えば、第5世代（5G）ネットワーク、ロングタームエボリューション（LTE）ネットワーク、第3世代（3G）ネットワーク、符号分割多元接続（CDMA）ネットワークなど）、公的地域モバイルネットワーク（PLMN）、ローカルエリアネットワーク（LAN）、ワイドエリアネットワーク（WAN）、メトロポリタンエリアネットワーク（MAN）、電話ネットワーク（例えば、公衆交換電話網（PSTN））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および／またはそれらもしくは他のタイプのネットワークの組合せを含んでもよい。

図1に示すデバイスおよびネットワークの数ならびに配置は、一例として提供されている。実際には、図1に示されるものに対して、追加のデバイスおよび／もしくはネットワーク、より少ないデバイスおよび／もしくはネットワーク、異なるデバイスおよび／もしくはネットワーク、または異なる配置のデバイスおよび／もしくはネットワークが存在してもよい。さらに、図1に示された2つ以上のデバイスは、単一のデバイス内に実装されてもよく、または図1に示された単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加または代替として、環境100のデバイスのセット（例えば、1つまたは複数のデバイス）は、環境100のデバイスの別のセットによって実行されるものとして記載された1つまたは複数の機能を実行することができる。

図2は、図1の1つまたは複数のデバイスの例示的なコンポーネントを示すブロック図である。

デバイス200は、ユーザデバイス110および／またはプラットフォーム120に対応してもよい。図2に示されるように、デバイス200は、バス210と、プロセッサ220と、メモリ230と、ストレージコンポーネント240と、入力コンポーネント250と、出力コンポーネント260と、通信インターフェース270とを備えてもよい。

バス210は、デバイス200のコンポーネント間の通信を可能にするコンポーネントを含む。プロセッサ220は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組合せに実装される。プロセッサ220は、中央処理装置（CPU）、グラフィック・プロセッシング・ユニット（GPU）、加速処理ユニット（APU）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（DSP）、フィールド・プログラマブル・ゲート・アレイ（FPGA）、特定用途向け集積回路（ASIC）、または別のタイプの処理コンポーネントである。いくつかの実装形態では、プロセッサ220は、機能を実行するようにプログラムされることが可能な1つまたは複数のプロセッサを含む。メモリ230は、ランダム・アクセス・メモリ（RAM）、読み取り専用メモリ（ROM）、ならびに／またはプロセッサ220が使用するための情報および／もしくは命令を記憶する別のタイプの動的もしくは静的なストレージデバイス（例えば、フラッシュメモリ、磁気メモリ、および／もしくは光メモリ）を含む。

ストレージコンポーネント240は、デバイス200の操作および使用に関連する情報および／またはソフトウェアを記憶する。例えば、ストレージコンポーネント240は、対応するドライブと共に、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、および／またはソリッドステートディスク）、コンパクトディスク（CD）、デジタル多用途ディスク（DVD）、フロッピーディスク、カートリッジ、磁気テープ、および／または別のタイプの非一時的コンピュータ可読媒体を含んでもよい。

入力コンポーネント250は、デバイス200がユーザ入力（例えば、タッチ・スクリーン・ディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および／またはマイクロフォン）などを介して情報を受信できるようにするコンポーネントを含む。追加または代替として、入力コンポーネント250は、情報を検知するためのセンサ（例えば、全地球測位システム（GPS）コンポーネント、加速度計、ジャイロスコープ、および／またはアクチュエータ）を含んでもよい。出力コンポーネント260は、デバイス200（例えば、ディスプレイ、スピーカ、および／または1つもしくは複数の発光ダイオード（LED））からの出力情報を提供するコンポーネントを含む。

通信インターフェース270は、有線接続、無線接続、または有線接続と無線接続との組合せなどを介してデバイス200が他のデバイスと通信できるようにする、トランシーバ様のコンポーネント（例えば、トランシーバならびに／または別個の受信機および送信機）を含む。通信インターフェース270は、デバイス200が別のデバイスから情報を受信し、かつ／または別のデバイスに情報を提供できるようにしてもよい。例えば、通信インターフェース270は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数（RF）インターフェース、ユニバーサル・シリアル・バス（USB）インターフェース、Wi－Fiインターフェース、またはセルラー・ネットワーク・インターフェースなどを含んでもよい。

デバイス200は、本書で説明されている1つまたは複数のプロセスを遂行できる。デバイス200は、プロセッサ220がメモリ230および／またはストレージコンポーネント240などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令を実行したことに応答して、これらのプロセスを実行してもよい。コンピュータ可読媒体は、本明細書では非一時的メモリデバイスと定義されている。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにわたって広がるメモリ空間を含む。

ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェース270を介して別のデバイスから、メモリ230および／またはストレージコンポーネント240に読み込まれてもよい。メモリ230および／またはストレージコンポーネント240に記憶されたソフトウェア命令は、実行されると、本明細書に記載された1つまたは複数のプロセスをプロセッサ220に実行させてもよい。追加または代替として、本明細書に記載された1つまたは複数のプロセスを実行するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせてハードワイヤード回路が使用されてもよい。したがって、本明細書に記載の実装形態は、ハードウェア回路とソフトウェアとのいかなる特定の組合せにも限定されない。

図2に示されるコンポーネントの数および配置は、一例として提供されている。実際には、デバイス200は、図2に示されるコンポーネントに対して、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、または異なる配置のコンポーネントを備えてもよい。追加または代替として、デバイス200のコンポーネントのセット（例えば、1つまたは複数のコンポーネント）は、デバイス200の別のコンポーネントのセットによって実行されるものとして記載された、1つまたは複数の機能を実行してもよい。

入力画像xが与えられると、NICの目標は、記憶および伝送の目的のためにコンパクトである圧縮表現

を計算するためにDNNエンコーダへの入力として画像xを使用することである。次に、圧縮表現

をDNNデコーダへの入力として使用して、画像

を再構成する。いくつかのNIC方法は、変分オートエンコーダ（VAE）構造を取ることができ、DNNエンコーダは、画像x全体をその入力として直接使用し、これは、ブラックボックスのように機能するネットワーク層のセットを通過し、出力表現（すなわち、圧縮表現

）を計算する。これに対応して、DNNデコーダは、圧縮表現

全体をその入力として取り、これは、別のブラックボックスのように機能するネットワーク層の別のセットを通過し、再構築画像

を計算する。レート歪み（R－D）損失は、以下の目標損失関数

を使用してトレードオフハイパーパラメータλを用いて、再構成画像

の歪み損失

と圧縮表現

のビット消費量Rとの間のトレードオフを達成するように最適化される。

前処理に関する実施形態は、圧縮される入力画像ごとに、オンライントレーニングを使用して最適な代替物を見つけ、元の画像の代わりにこの代替物を圧縮することができることを提案する。この代替物を使用することにより、エンコーダはより良好な圧縮性能を達成することができる。この方法は、任意のE2E NIC圧縮方法の圧縮性能を上げるための前処理ステップとして用いられる。それは、予めトレーニングされた圧縮モデル自体または任意のトレーニングデータに対するいかなるトレーニングまたは微調整も必要としない。次に、1つまたは複数の実施形態による、前処理モデルのための詳細な方法および装置について説明する。

図3は、置換型学習ベースの画像符号化前処理モデルを示す例示的な図である。

学習ベースの画像圧縮は、2ステップのマッピングプロセスと見なすことができる。図3に示されるように、高次元空間における元の画像x₀は、長さR（x₀）を有するビットストリームにマッピングされ（符号化マッピング300）、その後、

において歪み損失

を有する元の空間にマッピングされる（復号マッピング310）。

例示的な実施形態では、図3に示されるように、代替画像x’₀が存在する場合、それは長さR（x’₀）を有するビットストリームにマッピングされ、次に、それは歪み損失

を有する元の画像x₀により近い空間

にマッピングされる。距離測定または損失関数が与えられると、代替画像を使用してより良好な圧縮を達成することができる。式（1）に従って、目標損失関数の大域的最小値において最良の圧縮性能が達成される。別の例示的な実施形態では、復号画像と元の画像x₀との間の差を低減するために、ANNの任意の中間ステップにおいて代替物を見つけることができる。

勾配がモデルのパラメータを更新するために使用されるモデルトレーニング段階とは異なり、前処理モデルでは、モデルのパラメータは固定され、勾配は入力画像自体を更新するために使用され得る。モデル全体は、微分不可能な部分を微分可能な部分に置き換える（例えば、量子化をノイズ注入に置き換える）ことによって微分可能にされる。したがって、上記の最適化は、勾配降下法によって反復的に解くことができる。

この前処理モデルには、ステップサイズとステップ数という2つの重要なハイパーパラメータがある。ステップサイズは、オンライントレーニングの「学習率」を示す。異なるタイプのコンテンツを有する画像は、最良の最適化結果を達成するために異なるステップサイズに対応することができる。ステップ数は、操作された更新の数を示す。目標損失関数

と共に、ハイパーパラメータが学習プロセスに使用される。例えば、ステップサイズは、勾配降下アルゴリズムまたは学習プロセスで実行される逆伝播計算で使用されてもよい。反復回数は、学習プロセスをいつ終了させることができるかを制御するための最大反復回数の閾値として使用することができる。

図4は、ブロック単位の画像符号化の一例を示す図である。

例示的な実施形態では、画像400は、最初にブロックに分割されてもよく（図4に破線で示す）、分割されたブロックは、画像400自体の代わりに圧縮されてもよい。図4では、圧縮済みブロックに斜線を付し、圧縮対象ブロックに斜線を付していない。分割されたブロックは、等しいサイズまたは等しくないサイズであってもよい。ブロックごとのステップサイズは異なっていてもよい。この目的のために、より良好な圧縮結果を達成するために、画像400に異なるステップサイズを割り当てることができる。ブロック410は、高さhおよび幅wを有する分割されたブロックのうちの1つの例である。

例示的な実施形態では、画像はブロックに分割せずに圧縮されてもよく、画像全体はE2E NICモデルの入力である。異なる画像は、最適化された圧縮結果を達成するために異なるステップサイズを有することができる。

別の例示的な実施形態では、ステップサイズは、画像（またはブロック）の特性、例えば画像のRGB分散に基づいて選択されてもよい。実施形態では、RGBは、赤－緑－青のカラーモデルを指すことができる。さらに、別の例示的な実施形態では、ステップサイズは、画像（またはブロック）のRD性能に基づいて選択されてもよい。したがって、その実施形態によれば、複数の代替物が複数のステップサイズに基づいて生成され、より良好な圧縮性能を有するものが選択される。

図5は、実施形態による、置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）の方法500のフローチャートである。

いくつかの実装形態では、図5の1つまたは複数のプロセスブロックは、プラットフォーム120によって実行されてもよい。いくつかの実装形態では、図11の1つまたは複数の処理ブロックは、ユーザデバイス110などのプラットフォーム120とは別個の、またはプラットフォーム120を含む別のデバイスもしくはデバイスのグループによって実行されてもよい。

図5に示すように、動作510において、方法500は、E2E NICフレームワークへの入力画像を受信するステップを含む。

動作520において、方法500は、E2E NICフレームワークのトレーニングモデルに基づいて代替画像を決定することを含む。代替画像は、E2E NICフレームワークのトレーニングモデルの最適化プロセスによって決定されてもよい。これは、代替表現を生成するために入力画像の要素を調整し、代替画像として使用するために入力画像と代替表現との間の歪み損失が最も小さい要素を選択することによって行われる。さらに、E2E NICフレームワークのトレーニングモデルは、入力画像の学習率、入力画像の更新回数、および歪み損失に基づいてトレーニングされてもよい。1つまたは複数の代替画像は、入力画像の異なる学習率に基づいて決定されてもよい。学習率は、入力画像の特性に基づいて選択される。特性は、入力画像のRGB分散または入力画像のRD性能であってもよい。

入力画像がブロックに分割される場合、代替ブロックは、代替ブロック表現を生成するために、分割されたブロックの要素を調整し、代替ブロックとして使用するために、分割されたブロックと代替ブロック表現との間の歪み損失が最も小さい要素を選択することによって、E2E NICフレームワークの訓練モデルの最適化プロセスによって決定され得る。さらに、E2E NICフレームワークのトレーニングモデルは、分割されたブロックの学習率、分割されたブロックの更新回数、および分割された各ブロックの歪み損失に基づいてトレーニングされてもよい。1つまたは複数の代替ブロックは、分割されたブロックの異なる学習率に基づいて決定されてもよい。学習率は、分割されたブロックの特性に基づいて選択される。特性は、分割されたブロックのRGB分散または分割されたブロックのRD性能であってもよい。

動作530において、方法500は、ビットストリームを生成するために代替画像を符号化することを含む。

動作540において、方法500は、圧縮表現を生成するために代替画像をビットストリームにマッピングすることを含む。実施形態では、ビットストリームまたは圧縮表現の1つまたは複数は、例えば、デコーダおよび／または受信装置に送信されてもよい。

方法500はまた、入力画像を1つまたは複数のブロックに分割することを含んでもよい。この場合、動作520～540は、入力画像全体ではなく、各ブロックに対して実行される。すなわち、方法500は、E2E NICフレームワークのトレーニングモデルに基づいて、分割された各ブロックのための代替ブロックを決定するステップと、ブロックビットストリームを生成するために代替ブロックを符号化するステップと、圧縮済みブロックを生成するために代替ブロックをブロックビットストリームにマッピングするステップとをさらに含む。分割されたブロックは、同じサイズであっても異なるサイズであってもよく、各ブロックは異なる学習率を有する。

方法500は、予めトレーニングされた画像符号化モデルに基づく人工ニューラルネットワークを使用することができ、人工ニューラルネットワークのパラメータは固定され、入力画像を更新するために勾配が使用される。

図5は、本方法の例示的なブロックを示しているが、いくつかの実装形態では、本方法は、図5に示されているブロックに対して、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加または代替として、本方法のブロックのうちの2つ以上が並行して実行されてもよい。

図6は、実施形態による、置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）のための装置600のブロック図である。

図6に示されるように、装置600は、受信コード610と、決定コード620と、符号化コード630と、マッピングコード640とを含む。

受信コード610は、少なくとも1つのプロセッサに、E2E NICフレームワークへの入力画像を受信させるように構成される。

決定コード620は、少なくとも1つのプロセッサに、E2E NICフレームワークのトレーニングモデルに基づいて代替画像を決定させるように構成される。

符号化コード630は、少なくとも1つのプロセッサに、ビットストリームを生成するために代替画像を符号化させるように構成される。

マッピングコード640は、少なくとも1つのプロセッサに、圧縮表現を生成するために代替画像をビットストリームにマッピングさせるように構成される。

装置600は、少なくとも1つのプロセッサに入力画像を1つまたは複数のブロックに分割させるように構成された分割コードをさらに含んでもよい。この場合、決定コード620、符号化コード630、およびマッピングコード640は、入力画像全体ではなく、分割された各ブロックを用いて行われる。

決定コード620によって決定される代替画像は、E2E NICフレームワークのトレーニングモデルの最適化プロセスによって決定されてもよい。これは、代替画像を生成するために少なくとも1つのプロセッサに入力画像の要素を調整させるように構成されたコードを調整し、少なくとも1つのプロセッサに入力画像と代替表現との間の歪み損失が最小の要素を代替画像として選択させるように構成されたコードを選択することによって行われる。さらに、E2E NICフレームワークのトレーニングモデルは、入力画像の学習率、入力画像の更新回数、および歪み損失に基づいてトレーニングされてもよい。1つまたは複数の代替画像は、入力画像の異なる学習率に基づいて決定されてもよい。学習率は、入力画像の特性に基づいて選択される。特性は、入力画像のRGB分散または入力画像のRD性能であってもよい。

さらに、装置600は、予めトレーニングされた画像符号化モデルに基づく人工ニューラルネットワークを使用することができ、人工ニューラルネットワークのパラメータは固定され、入力画像を更新するために勾配が使用される。

図6は装置の例示的なブロックを示しているが、いくつかの実装形態では、装置は、図6に示されているブロックに対して、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。追加または代替として、本装置のブロックのうちの2つ以上が並行して実行されてもよい。

本明細書の実施形態は、E2E画像圧縮方法を説明する。本方法は、様々なタイプの品質メトリックに対応する柔軟で一般的なフレームワークを使用することによって、置換機構を利用してNICコーディング効率を改善する。

1つまたは複数の実施形態によるE2E画像圧縮方法は、別々に使用されてもよく、または任意の順序で組み合わされてもよい。さらに、方法（または実施形態）、エンコーダ、およびデコーダのそれぞれは、処理回路（例えば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路）によって実施されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。

前述の開示は例示および説明を提供しているが、網羅的なものではなく、開示されたまさにその形態に実装形態を限定するものではない。上記の開示内容に照らして修正形態および変形形態が実現可能であり、または実装形態の実施により取得されてもよい。

本明細書で使用される場合、コンポーネントという用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組合せとして広く解釈されることを意図している。

本明細書に記載のシステムおよび／または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組合せの異なる形態で実装されてもよいことは明らかであろう。これらのシステムおよび／または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。したがって、システムおよび／または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび／または方法を実装するように設計され得ることが理解される。

特徴の組合せが特許請求の範囲に列挙され、かつ／または本明細書に開示されているが、これらの組合せは、実施可能な実装形態の開示を限定するものではない。実際には、これらの特徴の多くは、特許請求の範囲に具体的に列挙されていない、かつ／または本明細書に開示されていない方法で組み合わされてもよい。以下に列挙される各従属請求項は1つの請求項にのみ直接従属してもよいが、実施可能な実装形態の開示は、各従属請求項を請求項セット内のあらゆる他の請求項と組み合わせて含む。

本明細書で使用される要素、行為、または指示は、明示的にそのように記載されていない限り、重要または必須であると解釈されなくてもよい。また、本明細書で使用される冠詞「a」および「an」は、1つまたは複数の項目を含むものであり、「1つまたは複数」と同じ意味で使用されてもよい。さらに、本明細書で使用される「セット」という用語は、1つまたは複数の項目（例えば、関連項目、非関連項目、関連項目と非関連項目との組合せなど）を含むことを意図しており、「1つまたは複数」と互換的に使用されてもよい。1つの項目のみが対象とされる場合、「1つ」という用語または同様の言葉が使用される。また、本明細書で使用される「有する（has）」、「有する（have）」、「有する（having）」などの用語は、オープンエンド用語であることを意図している。さらに、「に基づいて（based on）」という語句は、特に明記しない限り、「少なくとも部分的に～に基づいて」を意味することを意図している。

100 環境
110 ユーザデバイス
120 プラットフォーム
124 コンピューティングリソース
124－1 アプリケーション
124－2 仮想マシン
124－3 仮想化ストレージ
124－4 ハイパーバイザ
130 ネットワーク
200 デバイス
210 バス
220 プロセッサ
230 メモリ
240 ストレージコンポーネント
250 入力コンポーネント
260 出力コンポーネント
270 通信インターフェース
300 符号化マッピング
310 復号マッピング
400 画像
410 ブロック
500 方法
510 動作
520 動作
530 動作
540 動作
600 装置
610 受信コード
620 決定コード
630 符号化コード
640 マッピングコード

いくつかの実装形態では、図5の1つまたは複数のプロセスブロックは、プラットフォーム120によって実行されてもよい。いくつかの実装形態では、図5の1つまたは複数の処理ブロックは、ユーザデバイス110などのプラットフォーム120とは別個の、またはプラットフォーム120を含む別のデバイスもしくはデバイスのグループによって実行されてもよい。

Claims

少なくとも1つのプロセッサによって実行されるニューラルネットワークを使用した置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）の方法であって、前記方法が、
E2E NICフレームワークへの入力画像を受信するステップと、
前記E2E NICフレームワークのトレーニングモデルに基づいて代替画像を決定するステップと、
ビットストリームを生成するために前記代替画像を符号化するステップと、
圧縮表現を生成するために前記代替画像を前記ビットストリームにマッピングするステップと
を含む、方法。
前記入力画像を1つまたは複数のブロックに分割するステップと、
前記E2E NICフレームワークの前記トレーニングモデルに基づいて、前記1つまたは複数のブロックの各々のための代替ブロックを決定するステップと、
ブロックビットストリームを生成するために前記代替ブロックを符号化するステップと、
圧縮済みブロックを生成するために前記代替ブロックを前記ブロックビットストリームにマッピングするステップと
をさらに含み、
前記1つまたは複数のブロックが同じサイズを有し、前記1つまたは複数のブロックの各ブロックが異なる学習率を有する、
請求項1に記載の方法。
前記代替画像が、
代替表現を生成するために前記入力画像の要素を調整するステップと、
前記代替画像として使用するために前記入力画像と前記代替表現との間の歪み損失が最も小さい前記要素を選択するステップと
を含む、前記E2E NICフレームワークの前記トレーニングモデルの最適化プロセスを実行することによって決定される、
請求項1に記載の方法。
前記E2E NICフレームワークの前記トレーニングモデルが、前記入力画像の学習率、前記入力画像の更新回数、および歪み損失に基づいてトレーニングされる、請求項1に記載の方法。
複数の代替画像が、学習率に基づいて決定され、
前記学習率が、前記入力画像の特性に基づいて選択される、
請求項4に記載の方法。
前記入力画像の前記特性が、前記入力画像のRGB分散および前記入力画像のRD性能のうちの一方である、請求項5に記載の方法。
前記E2E NICフレームワークの前記トレーニングモデルが、予めトレーニングされた画像符号化に基づく人工ニューラルネットワークであり、
前記人工ニューラルネットワークのパラメータが固定され、前記入力画像を更新するために勾配が使用される、
請求項1に記載の方法。
ニューラルネットワークを使用する置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）のための装置であって、前記装置が、
プログラムコードを記憶するように構成された少なくとも1つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサであって、前記プログラムコードが、
少なくとも1つのプロセッサにE2E NICフレームワークへの入力画像を受信させるように構成された受信コードと、
少なくとも1つのプロセッサに前記E2E NICフレームワークのトレーニングモデルに基づいて代替画像を決定させるように構成された第1の決定コードと、
ビットストリームを生成するために、少なくとも1つのプロセッサに前記代替画像を符号化させるように構成された第1の符号化コードと、
圧縮表現を生成するために、少なくとも1つのプロセッサに前記代替画像を前記ビットストリームにマッピングさせるように構成された第1のマッピングコードと
を含む、少なくとも1つのプロセッサと
を備える、装置。
少なくとも1つのプロセッサに前記入力画像を1つまたは複数のブロックに分割させるように構成された分割コードと、
少なくとも1つのプロセッサに前記E2E NICフレームワークの前記トレーニングモデルに基づいて前記1つまたは複数のブロックの各々のための代替ブロックを決定させるように構成された第2の決定コードと、
ブロックビットストリームを生成するために、少なくとも1つのプロセッサに前記代替ブロックを符号化させるように構成された第2の符号化コードと、
圧縮済みブロックを生成するために、少なくとも1つのプロセッサに前記代替ブロックを前記ブロックビットストリームにマッピングさせるように構成された第2のマッピングコードと
をさらに含み、
前記1つまたは複数のブロックが同じサイズを有し、前記1つまたは複数のブロックの各ブロックが異なる学習率を有する、
請求項8に記載の装置。
前記代替画像が、
代替表現を生成するために、少なくとも1つのプロセッサに前記入力画像の要素を調整させるように構成された調整コードと、
前記代替画像として使用するために、少なくとも1つのプロセッサに前記入力画像と前記代替表現との間の歪み損失が最も小さい前記要素を選択させるように構成された選択コードとを含む、前記E2E NICフレームワークの前記トレーニングモデルの最適化プロセスを実行することによって決定される、
請求項8に記載の装置。
前記E2E NICフレームワークの前記トレーニングモデルが、前記入力画像の学習率、前記入力画像の更新回数、および歪み損失に基づいてトレーニングされる、請求項8に記載の装置。
複数の代替画像が、学習率に基づいて決定され、
前記学習率が、前記入力画像の特性に基づいて選択される、
請求項11に記載の装置。
前記入力画像の前記特性が、前記入力画像のRGB分散および前記入力画像のRD性能のうちの一方である、請求項12に記載の装置。
前記E2E NICフレームワークの前記トレーニングモデルが、予めトレーニングされた画像符号化に基づく人工ニューラルネットワークであり、
前記人工ニューラルネットワークのパラメータが固定され、前記入力画像を更新するために勾配が使用される、
請求項8に記載の装置。
置換型エンドツーエンド（E2E）ニューラル画像圧縮（NIC）のために少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、
E2E NICフレームワークへの入力画像を受信させ、
前記E2E NICフレームワークのトレーニングモデルに基づいて代替画像を決定させ、
ビットストリームを生成するために前記代替画像を符号化させ、
圧縮表現を生成するために前記代替画像を前記ビットストリームにマッピングさせる命令を記憶する、非一時的コンピュータ可読媒体。
前記命令が、少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにさらに、
前記入力画像を1つまたは複数のブロックに分割させ、
前記E2E NICフレームワークの前記トレーニングモデルに基づいて、前記1つまたは複数のブロックの各々のための代替ブロックを決定させ、
ブロックビットストリームを生成するために前記代替ブロックを符号化させ、
圧縮済みブロックを生成するために前記代替ブロックを前記ブロックビットストリームにマッピングさせ、
前記1つまたは複数のブロックが同じサイズを有し、前記1つまたは複数のブロックの各ブロックが異なる学習率を有する、請求項15に記載の非一時的コンピュータ可読媒体。
前記命令が、少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにさらに、
代替表現を生成するために、前記入力画像の要素を調整することと、
前記代替画像として使用するために、前記入力画像と前記代替表現との間の歪み損失が最も小さい前記要素を選択することとを含む、前記E2E NICフレームワークの前記トレーニングモデルの最適化プロセスを実行させる、請求項15に記載の非一時的コンピュータ可読媒体。
前記E2E NICフレームワークの前記トレーニングモデルが、前記入力画像の学習率、前記入力画像の更新回数、および歪み損失に基づいてトレーニングされる、請求項15に記載の非一時的コンピュータ可読媒体。
複数の代替画像が、学習率に基づいて決定され、
前記学習率が、前記入力画像の特性に基づいて選択され、
前記入力画像の前記特性が、前記入力画像のRGB分散または前記入力画像のRD性能のうちの一方である、請求項18に記載の非一時的コンピュータ可読媒体。
前記E2E NICフレームワークの前記トレーニングモデルが、予めトレーニングされた画像符号化に基づく人工ニューラルネットワークであり、
前記人工ニューラルネットワークのパラメータが固定され、前記入力画像を更新するために勾配が使用される、請求項15に記載の非一時的コンピュータ可読媒体。