JP2024518766A

JP2024518766A - ニューラル画像圧縮におけるオンライン訓練ベースのエンコーダ調整

Info

Publication number: JP2024518766A
Application number: JP2023565407A
Authority: JP
Inventors: ディン・ディン; シャオジョン・シュ; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2022-03-25
Filing date: 2023-03-23
Publication date: 2024-05-02
Also published as: KR20230158597A; US20230306239A1; CN117296080A; WO2023183455A1

Abstract

画像／ビデオ符号化のための装置が処理回路を含む。処理回路は、1つまたは複数の入力画像に基づいて、ニューラル画像圧縮（NIC）フレームワークのオンライン訓練を実行する。NICフレームワークは、符号化部分に1つまたは複数の第1のニューラルネットワークと、復号部分に1つまたは複数の第2のニューラルネットワークとを備えるエンドツーエンドのフレームワークである。オンライン訓練は、1つまたは複数の第2のニューラルネットワークが固定パラメータを有する状態で1つまたは複数の第1のニューラルネットワークにおける1つまたは複数の調整可能パラメータに対する更新を決定する。処理回路は、更新に従って1つまたは複数の第1のニューラルネットワーク内の1つまたは複数の調整可能パラメータを更新し、更新される1つまたは複数の第1のニューラルネットワーク内の1つまたは複数の調整可能パラメータを有するNICフレームワークの符号化部分によって、1つまたは複数の入力画像をビットストリームに符号化する。

Description

関連出願の相互参照
本出願は、2022年3月25日に出願された米国仮出願第63／323，878号「Online Training－based Encoder Tuning in Neural Image Compression」に対する優先権の利益を主張する、2023年3月16日に出願された米国特許出願第18／122，565号「ONLINE TRAINING－BASED ENCODER TUNING IN NEURAL IMAGE COMPRESSION」に対する優先権の利益を主張する。先行出願の開示は、その全体が参照により本明細書に組み込まれる。

本開示は、画像／ビデオ処理に一般的に関連する実施形態を説明する。

本明細書で提供される背景技術の説明は、本開示のコンテキストを一般的に提示することを目的とする。本発明者らの研究は、この背景技術の項に記載されている限りにおいて、および出願時に先行技術として認められない可能性がある説明の態様は、本開示に対する先行技術として明示的にも暗示的にも認められない。

画像／ビデオ圧縮は、品質低下を最小限に抑えながら、異なるデバイス、ストレージ、およびネットワークにわたって画像／ビデオファイルを送信するのを助けることができる。画像／ビデオ圧縮ツールを改善するには、多くの専門知識、労力、および時間が必要となり得る。機械学習技術を画像／ビデオ圧縮に適用して、圧縮ツールの改善を簡単にし、かつ加速することができる。

本開示の態様は、画像／ビデオの符号化および復号のための方法および装置を提供する。いくつかの例では、画像／ビデオ符号化のための装置は処理回路を含む。処理回路は、1つまたは複数の入力画像に基づいて、ニューラル画像圧縮（NIC）フレームワークのオンライン訓練を実行する。NICフレームワークは、（i）符号化部分内の1つまたは複数の第1のニューラルネットワーク、および（ii）復号部分内の1つまたは複数の第2のニューラルネットワークの両方を含むエンドツーエンドのフレームワークである。オンライン訓練は、固定パラメータを有する1つまたは複数の第2のニューラルネットワーク（例えば、1つまたは複数の第2のニューラルネットワークは、調整不可能パラメータを有する）を有する1つまたは複数の第1のニューラルネットワークにおける1つまたは複数の調整可能パラメータに対する更新（例えば、複数の更新値）を決定する。処理回路は、更新に従って1つまたは複数の第1のニューラルネットワーク内の1つまたは複数の調整可能パラメータを更新し、更新される1つまたは複数の第1のニューラルネットワーク内の1つまたは複数の調整可能パラメータを有するNICフレームワークの符号化部分によって、1つまたは複数の入力画像をビットストリームに符号化する。

いくつかの例では、1つまたは複数の第2のニューラルネットワークの固定パラメータは、NICフレームワークのオフライン訓練からの事前訓練値で固定される。

いくつかの例では、NICフレームワークは、符号化部分と復号部分の両方に特定のニューラルネットワークを含み、特定のニューラルネットワークは、オンライン訓練中に固定される第1のパラメータを含む。一例では、特定のニューラルネットワークは、ハイパーデコーダネットワークを含む。

いくつかの例では、オンライン訓練は、NICフレームワークのメインエンコーダネットワークおよびハイパーエンコーダネットワーク内の各パラメータが調整可能である状態で実行される。

いくつかの例では、オンライン訓練は、NICフレームワークのメインエンコーダネットワークおよびハイパーエンコーダネットワーク内のパラメータのサブセットが調整可能である状態で実行される。

いくつかの例では、オンライン訓練は、NICフレームワークのメインエンコーダネットワークまたはハイパーエンコーダネットワーク内のレイヤのパラメータが調整可能である状態で実行される。

いくつかの例では、オンライン訓練は、NICフレームワークのメインエンコーダネットワークまたはハイパーエンコーダネットワークの層内のチャネルのパラメータが調整可能である状態で実行される。

いくつかの例では、処理回路は、入力画像を複数のブロックに分割し、それぞれのステップサイズを複数のブロックに割り当て、それぞれのステップサイズを有する複数のブロックに従ってNICフレームワークのオンライン訓練を実行する。

いくつかの例では、処理回路は、入力画像内のコンテンツのタイプに基づいて入力画像にステップサイズを割り当て、ステップサイズを有する入力画像に従ってNICフレームワークのオンライン訓練を実行する。

本開示の態様はまた、画像／ビデオの符号化および／または復号のための方法を実行するように少なくとも1つのプロセッサによって実行可能なプログラムを記憶する非一時的コンピュータ可読記憶媒体を提供する。

開示される主題のさらなる特徴、性質、および種々の利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。

いくつかの例におけるニューラル画像圧縮（NIC）フレームワークを示す図である。いくつかの例におけるメインエンコーダネットワークの一例を示す図である。いくつかの例におけるメインデコーダネットワークの一例を示す図である。いくつかの例におけるハイパーエンコーダネットワークの一例を示す図である。いくつかの例におけるハイパーデコーダネットワークの一例を示す図である。いくつかの例におけるコンテキストモデルニューラルネットワークの一例を示す図である。いくつかの例におけるエントロピーパラメータニューラルネットワークの一例を示す図である。いくつかの例における画像エンコーダを示す図である。いくつかの例における画像デコーダを示す図である。いくつかの例における画像エンコーダおよび対応する画像デコーダを示す図である。いくつかの例における画像エンコーダおよび対応する画像デコーダを示す別の図である。いくつかの例におけるブロック単位の画像コーディングの一例を示す図である。いくつかの例における電子デバイスを示すブロック図である。いくつかの例における電子デバイスを示す別のブロック図である。いくつかの例における電子デバイスを示す図である。いくつかの例におけるプロセスを概説するフローチャートである。いくつかの例におけるコンピュータシステムの概略図である。

本開示の一態様によれば、いくつかのビデオコーデックは、全体として最適化することが困難であり得る。例えば、ビデオコーデックにおける単一のモジュール（例えば、エンコーダ）の改善は、全体的な性能におけるコーディング向上をもたらさない場合がある。対照的に、人工ニューラルネットワーク（ANN）ベースのビデオ／画像コーディングフレームワークでは、機械学習プロセスを実行することができ、次いで、ANNベースのビデオ／画像コーディングフレームワークの異なるモジュールを入力から出力に共同で最適化して、最終目的（例えば、本開示に記載されているレート歪み損失Lなどのレート歪み性能）を改善することができる。例えば、ANNベースのビデオ／画像コーディングフレームワークのモジュールを共同で最適化して全体的な最適化されたレート歪み性能を達成するために、ANNベースのビデオ／画像コーディングフレームワークに対して学習プロセスまたは訓練プロセス（例えば、機械学習プロセス）を実行することができ、したがって、最適化結果は、エンドツーエンド（E2E）で最適化されたニューラル画像圧縮（NIC）とすることができる。

以下の説明では、ANNベースのビデオ／画像コーディングフレームワークは、ニューラル画像圧縮（NIC）フレームワークによって示される。なお、以下の説明では、画像圧縮（例えば、符号化および復号）を例示するが、画像圧縮の技術は、ビデオ圧縮に好適に適用可能である。

本開示のいくつかの態様によれば、NICフレームワークを、オフライン訓練プロセスおよび／またはオンライン訓練プロセスにおいて訓練することができる。オフライン訓練プロセスでは、NICフレームワークを訓練してNICフレームワークを最適化するために、以前に収集された訓練画像のセットを使用することができる。いくつかの例では、オフライン訓練プロセスによって決定されたNICフレームワークのパラメータは、事前訓練されたパラメータと呼ぶことができ、事前訓練されたパラメータを有するNICフレームワークは、事前訓練されたNICフレームワークと呼ぶことができる。事前訓練されたNICフレームワークを、画像圧縮動作に使用することができる。

いくつかの例では、1つまたは複数の画像（1つまたは複数の目標画像とも呼ばれる）が画像圧縮動作に利用可能である場合、事前訓練されたNICフレームワークは、NICフレームワークのパラメータを調整するためにオンライン訓練プロセスにおいて1つまたは複数の目標画像に基づいてさらに訓練される。オンライン訓練プロセスによるNICフレームワークの調整されたパラメータは、オンライン訓練されたパラメータと呼ぶことができ、オンライン訓練されたパラメータを有するNICフレームワークは、オンライン訓練されたNICフレームワークと呼ぶことができる。次いで、オンライン訓練されたNICフレームワークは、1つまたは複数の目標画像に対して画像圧縮動作を実行することができる。本開示のいくつかの態様は、ニューラル画像圧縮におけるオンライン訓練ベースのエンコーダ調整のための技術を提供する。

ニューラルネットワークは、生物学的脳をモデル化する計算アーキテクチャを指す。ニューラルネットワークは、接続線を介して接続された多数の人工ニューロンを用いて生物系の計算能力をエミュレートするソフトウェアまたはハードウェアに実装されたモデルとすることができる。ノードと呼ばれる人工ニューロンは、互いに接続され、共同で動作して入力データを処理する。ニューラルネットワーク（NN）は、人工ニューラルネットワーク（ANN）としても知られている。

ANN内のノードを、任意の適切なアーキテクチャにおいて編成することができる。いくつかの実施形態において、ANN内のノードは、ANNへの（1つまたは複数の）入力信号を受信する入力層と、ANNからの（1つまたは複数の）出力信号を出力する出力層とを含む層において編成される。一実施形態では、ANNは、入力層と出力層との間の（1つまたは複数の）隠れ層と呼ばれ得る（1つまたは複数の）層をさらに含む。異なる層は、異なる層のそれぞれの入力に対して異なる種類の変換を実行し得る。信号は、入力層から出力層に進むことができる。

入力層と出力層との間に複数の層を有するANNは、ディープニューラルネットワーク（DNN）と呼ぶことができる。DNNは、任意の適切な構造を有することができる。いくつかの例では、DNNは、データがループバックすることなく入力層から出力層に流れるフィードフォワードネットワーク構造で構成される。いくつかの例では、DNNは、1つの層の各ノードが次の層のすべてのノードに接続される全結合ネットワーク構造で構成される。いくつかの例では、DNNは、データが任意の方向に流れることができるリカレントニューラルネットワーク（RNN）構造で構成される。

畳み込み演算を行う畳み込み層を少なくとも有するANNは、畳み込みニューラルネットワーク（CNN）と呼ぶことができる。CNNは、入力層と、出力層と、入力層と出力層との間の（1つまたは複数の）隠れ層とを含むことができる。（1つまたは複数の）隠れ層は、二次元（2D）畳み込みなどの畳み込みを実行する（例えば、エンコーダ内で使用される）（1つまたは複数の）畳み込み層を含むことができる。一実施形態では、畳み込み層で実行される2D畳み込みは、（5×5行列などのフィルタまたはチャネルとも呼ばれる）畳み込みカーネルと、畳み込み層への入力信号（例えば、2Dブロックなどの2D行列、256×256行列）との間にある。畳み込みカーネルの次元（例えば、5×5）は、入力信号の次元（例えば、256×256）よりも小さい。畳み込み演算の際には、畳み込みカーネルと、その畳み込みカーネルと同じサイズの入力信号（例えば、256×256行列）におけるパッチ（例えば、5×5の領域）とのドット積演算が行われ、次の層に入力するための出力信号が生成される。畳み込みカーネルのサイズである入力信号（例えば、256×256行列）内のパッチ（例えば、5×5の領域）は、次の層内のそれぞれのノードの受信フィールドと呼ぶことができる。

畳み込み中に、畳み込みカーネルと入力信号内の対応する受容野とのドット積が計算される。畳み込みカーネルは要素として重みを含み、畳み込みカーネルの各要素は、受容野の対応するサンプルに適用される重みである。例えば、5×5行列によって表される畳み込みカーネルは、25個の重みを有する。いくつかの例では、畳み込み層の出力信号にバイアスが印加され、出力信号はドット積とバイアスの和に基づくものである。

いくつかの例では、畳み込みカーネルは、ストライドと呼ばれるサイズだけ入力信号（例えば、2D行列）に沿ってシフトすることができ、よって、畳み込み演算は、特徴マップまたは活性化マップ（例えば、他の2D行列）を生成し、特徴マップまたは活性化マップはCNNにおける次の層の入力に寄与する。例えば、入力信号は256×256個のサンプルを有する2Dブロックであり、ストライドは2個のサンプル（例えば、2のストライド）である。2のストライドの場合、畳み込みカーネルは、X方向（例えば、水平方向）および／またはY方向（例えば、垂直方向）に沿って2個のサンプルだけシフトする。

いくつかの例では、複数の畳み込みカーネルは、それぞれ、複数の特徴マップを生成するために同じ畳み込み層内で入力信号に適用されることが可能であり、各特徴マップは入力信号の特定の特徴を表すことができる。いくつかの例では、畳み込みカーネルは、特徴マップに対応することができる。N個の畳み込みカーネル（またはN個のチャネル）を有し、各畳み込みカーネルがM×M個のサンプルを有し、ストライドSを有する畳み込み層は、Conv：M×M cN sSとして指定することができる。例えば、192個の畳み込みカーネル（または192個のチャネル）を有し、各畳み込みカーネルが5×5個のサンプルを有し、ストライドが2である畳み込み層は、Conv：5×5 c192 s2として指定される。（1つまたは複数の）隠れ層は、2D逆畳み込みなどの逆畳み込みを実行する（例えば、デコーダ内で使用される）（1つまたは複数の）逆畳み込み層を含むことができる。逆畳み込みは、畳み込みの逆である。192個の畳み込みカーネル（または192個のチャネル）を有し、各逆畳み込みカーネルが5×5個のサンプルを有し、ストライドが2である逆畳み込み層は、DeConv：5×5 c192 s2として指定される。

CNNでは、比較的多数のノードが同じフィルタ（例えば、同じ重み）および同じバイアス（バイアスが使用される場合）を共有することができ、よって、単一のバイアスおよび単一の重みベクトルが同じフィルタを共有するすべての受容野にわたって使用されることが可能なので、メモリフットプリントが低減されることが可能である。例えば、100×100個のサンプルを有する入力信号の場合、5×5個のサンプルを有する畳み込みカーネルを有する畳み込み層は、25個の学習可能パラメータ（例えば、重み）を有する。バイアスが使用される場合には、1つのチャネルは、26個の学習可能パラメータ（例えば、25個の重みおよび1つのバイアス）を使用する。畳み込み層がN個の畳み込みカーネルを有する場合、学習可能パラメータの総数は26×Nである。学習可能パラメータの数は、全結合フィードフォワードニューラルネットワーク層と比較して比較的少ない。例えば、全結合フィードフォワード層の場合、100×100（すなわち、10000）の重みを使用して、次の層の各ノードに入力するための結果信号を生成する。次の層がL個のノードを有する場合には、学習可能パラメータの総数は10000×L個である。

CNNは、（1つまたは複数の）プーリング層、1つの層内のすべてのノードを他の層内のすべてのノードに接続することができる（1つまたは複数の）全結合層、（1つまたは複数の）正規化層などの、1つまたは複数の他の層をさらに含むことができる。CNN内の層は、任意の適切な順序および任意の適切なアーキテクチャ（例えば、フィードフォワードアーキテクチャ、リカレントアーキテクチャ）で配置されることが可能である。一例では、畳み込み層の後に、（1つまたは複数の）プーリング層、（1つまたは複数の）全結合層、（1つまたは複数の）正規化層などの（1つまたは複数の）他の層が続く。

プーリング層は、1つの層にある複数のノードからの出力を次の層内の単一のノードに結合することによってデータの次元を削減するために使用されることが可能である。入力として特徴マップを有するプーリング層に対するプーリング演算を以下で説明する。この説明は、他の入力信号に適切に適合させることができる。特徴マップは、サブ領域（例えば、矩形サブ領域）に分割されることが可能であり、それぞれのサブ領域内の特徴は、例えば、平均プーリングにおける平均値または最大プーリングにおける最大値を取ることにより、単一の値に単独でダウンサンプリング（またはプーリング）されることが可能である。

プーリング層は、ローカルプーリング、グローバルプーリング、最大プーリング、平均プーリングなどのプーリングを実行することができる。プーリングは非線形ダウンサンプリングの一形態である。ローカルプーリングは、特徴マップ内の少数のノード（例えば、ノードのローカルクラスタ、2×2ノードなど）を結合する。グローバルプーリングは、例えば、特徴マップのすべてのノードを結合することができる。

プーリング層は、表現のサイズを縮小することができ、よって、CNNにおけるパラメータの数、メモリフットプリント、および計算量を削減することができる。一例では、プーリング層は、CNN内の連続する畳み込み層の間に挿入される。一例では、プーリング層の後に、正規化線形ユニット（ReLU）層などの活性化関数が続く。一例では、プーリング層は、CNN内の連続する畳み込み層の間で省略される。

正規化層は、ReLU、漏洩ReLU、一般化分割正規化（GDN）、逆GDN（IGDN）などであり得る。ReLUは、非飽和活性化関数を適用して、負の値を0に設定することにより、特徴マップなどの入力信号から負の値を除去することができる。漏洩ReLUは、平坦な傾き（例えば、0）の代わりに負の値に対して小さい傾き（例えば、0．01）を有することができる。したがって、値xが0より大きい場合には、漏洩ReLUからの出力はxである。そうでない場合、漏洩ReLUからの出力は、値xに小さい傾き（例えば、0．01）を乗じたものである。一例では、傾きは訓練前に決定され、よって訓練中には学習されない。

NICフレームワークは、画像圧縮のための圧縮モデルに対応することができる。NICフレームワークは、入力画像xを受け取り、入力画像xに対応する復元画像
を出力する。NICフレームワークは、ニューラルネットワークエンコーダ（例えば、DNNなどのニューラルネットワークに基づくエンコーダ）およびニューラルネットワークデコーダ（例えば、DNNなどのニューラルネットワークに基づくデコーダ）を含むことができる。入力画像xは、例えば記憶および送信の目的のためにコンパクトにすることができる圧縮表現（例えば、コンパクトな表現）
を計算するために、ニューラルネットワークエンコーダへの入力として提供される。圧縮表現
は、復元画像
を生成するためにニューラルネットワークデコーダへの入力として提供される。様々な実施形態では、入力画像xおよび復元画像
は空間領域内にあり、圧縮表現
は空間領域とは異なる領域内にある。いくつかの例では、圧縮表現
は量子化され、エントロピーコーディングされる。

いくつかの例では、NICフレームワークは、変分オートエンコーダ（VAE）構造を使用することができる。VAE構造では、入力画像x全体をニューラルネットワークエンコーダに入力することができる。入力画像x全体は、ブラックボックスとして機能して圧縮表現
を計算する（ニューラルネットワークエンコーダの）一組のニューラルネットワーク層を通過することができる。圧縮表現
は、ニューラルネットワークエンコーダの出力である。ニューラルネットワークデコーダは、入力として圧縮表現
全体を取得することができる。圧縮表現
は、復元画像
を計算するために別のブラックボックスとして機能する（ニューラルネットワークデコーダの）ニューラルネットワーク層の別のセットを通過することができる。レート歪み（R－D）損失
は、例えば式1に従って、復元画像
の歪み損失
と、トレードオフハイパーパラメータλを有するコンパクト表現
のビット消費量Rとの間のトレードオフを実現するように最適化することができる。

ニューラルネットワーク（例えば、ANN）は、タスク固有のプログラミングなしに、例からタスクを実行することを学習することができる。ANNは、接続されたノードまたは人工ニューロンで構成されることが可能である。ノード間の接続は、第1のノードから第2のノード（例えば、受信ノード）に信号を送ることができ、信号は、接続の重み係数によって示されることが可能な重みによって修正されることが可能である。受信ノードは、受信ノードに（1つまたは複数の）信号を送信する（1つまたは複数の）ノードからの（1つまたは複数の）信号（すなわち、受信ノード向けの（1つまたは複数の）入力信号）を処理し、次いで、入力信号に関数を適用することによって出力信号を生成することができる。関数は、線形関数であり得る。一例では、出力信号は（1つまたは複数の）入力信号の加重合計である。一例では、出力信号は、バイアス項によって示されることが可能なバイアスによってさらに修正され、よって、出力信号は、バイアスと（1つまたは複数の）入力信号の加重合計の和である。関数は、例えば、バイアスと（1つまたは複数の）入力信号の加重合計との加重和または和に対する非線形演算を含むことができる。出力信号は、（1つまたは複数の）ノード（受信ノードに接続された（1つまたは複数の）下流ノード）に送られることが可能である。ANNは、パラメータ（例えば、接続の重みおよび／またはバイアス）によって表現または構成されることが可能である。重みおよび／またはバイアスは、例を用いてANNを訓練（例えば、オフライン訓練、オンライン訓練など）することによって取得されることが可能であり、そこで重みおよび／またはバイアスは反復的に調整されることが可能である。決定された重みおよび／または決定されたバイアスで構成された訓練されたANNは、タスクを実行するために使用されることが可能である。

図1は、いくつかの例におけるNICフレームワーク（100）（例えば、NICシステム）を示している。NICフレームワーク（100）は、DNNおよび／またはCNNなどのニューラルネットワークに基づくことができる。NICフレームワーク（100）を使用して、画像を圧縮（例えば、符号化）し、圧縮画像（例えば、符号化画像）を解凍（例えば、復号または復元）することができる。

具体的には、図1の例では、NICフレームワーク（100）における圧縮モデルは、圧縮モデルのメインレベルおよび圧縮モデルのハイパーレベルと呼ばれる2つのレベルを含む。圧縮モデルのメインレベルおよび圧縮モデルのハイパーレベルを、ニューラルネットワークを使用して実施することができる。図1では、圧縮モデルのメインレベルのニューラルネットワークを第1のサブNN（151）として示し、圧縮モデルのハイパーレベルを第2のサブNN（152）として示している。

第1のサブNN（151）はオートエンコーダに似ることができ、入力画像xの圧縮画像
を生成し、圧縮画像（例えば、符号化画像）
を解凍して復元画像
を取得するように訓練されることができる。第1のサブNN（151）は、メインエンコーダニューラルネットワーク（またはメインエンコーダネットワーク）（111）、量子化器（112）、エントロピーエンコーダ（113）、エントロピーデコーダ（114）、およびメインデコーダニューラルネットワーク（またはメインエンコーダネットワーク）（115）などの、複数の構成要素（またはモジュール）を含むことができる。

図1を参照すると、メインエンコーダネットワーク（111）は、入力画像x（例えば、圧縮または符号化される画像）から潜像または潜在表現yを生成することができる。一例では、メインエンコーダネットワーク（111）はCNNを使用して実装される。潜在表現yと入力画像xとの関係は、式2を使用して以下のように記述することができ、
y＝f₁（x；θ₁）式2
式中、パラメータθ₁は、メインエンコーダネットワーク（111）内の畳み込みカーネルで使用される重みやバイアス（バイアスがメインエンコーダネットワーク（111）で使用される場合）などのパラメータを表す。

潜在表現yは、量子化された潜像
を生成するために量子化器（112）を使用して量子化されることが可能である。量子化された潜像
は、例えば、エントロピーエンコーダ（113）による可逆圧縮を使用して圧縮されて、入力画像xの圧縮表現
である圧縮画像（例えば、符号化画像）
（131）を生成することができる。エントロピーエンコーダ（113）は、ハフマンコーディング、算術コーディングなどのエントロピーコーディング技術を使用することができる。一例では、エントロピーエンコーダ（113）は算術符号化を使用し、算術エンコーダである。一例では、符号化画像（131）はコーディングされたビットストリーム内で送信される。

符号化画像（131）は、エントロピーデコーダ（114）によって解凍（例えば、エントロピー復号）されて出力を生成することができる。エントロピーデコーダ（114）は、エントロピーエンコーダ（113）で使用されたエントロピー符号化技術に対応するハフマンコーディング、算術コーディングなどのエントロピーコーディング技術を使用することができる。一例では、エントロピーデコーダ（114）は算術復号を使用し、算術デコーダである。一例では、エントロピーエンコーダ（113）で可逆圧縮が使用され、エントロピーデコーダ（114）で可逆解凍が使用され、符号化画像（131）の送信などによるノイズは省略可能であり、エントロピーデコーダ（114）からの出力は量子化された潜像
である。

メインデコーダネットワーク（115）は、量子化された潜像
を復号して復元画像
を生成することができる。一例では、メインデコーダネットワーク（115）はCNNを使用して実装される。復元画像
（すなわち、メインデコーダネットワーク（115）の出力）と量子化された潜像
（すなわち、メインデコーダネットワーク（115）の入力）との間の関係は、式3を使用して以下のように記述することができ、
式中、パラメータθ₂は、メインデコーダネットワーク（115）内の畳み込みカーネルで使用される重みやバイアス（バイアスがメインデコーダネットワーク（115）で使用される場合）などのパラメータを表す。したがって、第1のサブNN（151）は、入力画像xを圧縮（例えば、符号化）して符号化画像（131）を取得し、符号化画像（131）を解凍（例えば、復号）して復元画像
を取得することができる。復元画像
は、量子化器（112）によって導入される量子化損失に起因して入力画像xとは異なる可能性がある。

いくつかの例では、第2のサブNN（152）は、エントロピーコーディングに使用される量子化された潜像
に対するエントロピーモデル（例えば、事前確率モデル）を学習することができる。したがって、エントロピーモデルは、条件付きエントロピーモデル、例えば、ガウス混合モデル（GMM）、入力画像xに依存するガウススケールモデル（GSM）であり得る。

いくつかの例では、第2のサブNN（152）は、コンテキストモデルNN（116）、エントロピーパラメータNN（117）、ハイパーエンコーダネットワーク（121）、量子化器（122）、エントロピーエンコーダ（123）、エントロピーデコーダ（124）、およびハイパーデコーダネットワーク（125）を含むことができる。コンテキストモデルNN（116）で使用されるエントロピーモデルは、潜像（例えば、量子化された潜像
）に対する自己回帰モデルであり得る。一例では、ハイパーエンコーダネットワーク（121）、量子化器（122）、エントロピーエンコーダ（123）、エントロピーデコーダ（124）、およびハイパープライアモデルからのハイパーデコーダネットワーク（125）は、ハイパーレベルのニューラルネットワーク（例えば、ハイパープライアNN）を使用して実施されることが可能である。ハイパープライアモデルは、コンテキストベースの予測を補正するのに有用な情報を表すことができる。コンテキストモデルNN（116）およびハイパープライアモデルからのデータは、エントロピーパラメータNN（117）によって組み合わされることが可能である。エントロピーパラメータNN（117）は、条件付きガウスエントロピーモデル（例えば、GMM）などのエントロピーモデルのための平均パラメータやスケールパラメータなどのパラメータを生成することができる。

図1を参照すると、エンコーダ側では、量子化器（112）からの量子化された潜像
がコンテキストモデルNN（116）に供給される。デコーダ側では、エントロピーデコーダ（114）からの量子化された潜像
はコンテキストモデルNN（116）に供給される。コンテキストモデルNN（116）は、CNNなどのニューラルネットワークを使用して実装されることが可能である。コンテキストモデルNN（116）は、コンテキストモデルNN（116）に利用可能な量子化された潜像
であるコンテキスト
に基づいて出力o_cm，iを生成することができる。コンテキスト
は、エンコーダ側で以前に量子化された潜像、またはデコーダ側で以前にエントロピー復号された量子化された潜像を含むことができる。出力o_cm，iとコンテキストモデルNN（116）の入力（例えば、
）との関係は、式4を使用して以下のように記述することができ、
式中、パラメータθ₃は、コンテキストモデルNN（116）内の畳み込みカーネルで使用される重みやバイアス（バイアスがコンテキストモデルNN（116）内で使用される場合）などのパラメータを表す。

コンテキストモデルNN（116）からの出力o_cm，iおよびハイパーデコーダネットワーク（125）からの出力o_hcは、出力o_epを生成するためにエントロピーパラメータNN（117）に供給される。エントロピーパラメータNN（117）は、CNNなどのニューラルネットワークを使用して実装されることが可能である。出力o_epとエントロピーパラメータNN（117）の入力（例えば、o_cm，iやo_hc）との関係は、式5を使用して以下のように記述することができ、
o_ep＝f₄（o_cm，i，o_hc；θ₄）式5
式中、パラメータθ₄は、エントロピーパラメータNN（117）内の畳み込みカーネルで使用される重みやバイアス（バイアスがエントロピーパラメータNN（117）内で使用される場合）などのパラメータを表す。エントロピーモデルを決定する（例えば、条件付ける）際にエントロピーパラメータNN（117）の出力o_epを使用することができ、したがって、条件付きエントロピーモデルは、例えば、ハイパーデコーダネットワーク（125）からの出力o_hcを介して入力画像xに依存することができる。一例では、出力o_epは、エントロピーモデル（例えば、GMM）を条件付けるために使用される平均パラメータおよびスケールパラメータなどのパラメータを含む。図1を参照すると、エントロピーモデル（例えば、条件付きエントロピーモデル）は、それぞれ、エントロピーコーディングおよびエントロピー復号において、エントロピーエンコーダ（113）およびエントロピーデコーダ（114）によって使用されることが可能である。

第2のサブNN（152）は以下のように説明されることが可能である。潜像yは、ハイパー潜像zを生成するためにハイパーエンコーダネットワーク（121）に供給されることが可能である。一例では、ハイパーエンコーダネットワーク（121）は、CNNなどのニューラルネットワークを使用して実装される。ハイパー潜像zと潜像yとの関係は、式6を使用して以下のように記述することができ、
z＝f₅（y；θ₅）式6
式中、パラメータθ₅は、ハイパーエンコーダネットワーク（121）内の畳み込みカーネルで使用される重みやバイアス（バイアスがハイパーエンコーダネットワーク（121）で使用される場合）などのパラメータを表す。

ハイパー潜像zは、量子化された潜像
を生成するために量子化器（122）によって量子化される。量子化された潜像
は、ハイパーニューラルネットワークからの符号化ビット（132）などのサイド情報を生成するために、例えば、エントロピーエンコーダ（123）による可逆圧縮を使用して圧縮されることが可能である。エントロピーエンコーダ（123）は、ハフマンコーディング、算術コーディングなどのエントロピーコーディング技術を使用することができる。一例では、エントロピーエンコーダ（123）は算術符号化を使用し、算術エンコーダである。一例では、符号化ビット（132）などのサイド情報を、例えば、符号化画像（131）と一緒にコーディングされたビットストリーム内で送信することができる。

符号化ビット（132）などのサイド情報は、出力を生成するためにエントロピーデコーダ（124）によって解凍（例えば、エントロピー復号）されることが可能である。エントロピーデコーダ（124）は、ハフマンコーディング、算術コーディングなどのエントロピーコーディング技術を使用することができる。一例では、エントロピーデコーダ（124）は算術復号を使用し、算術デコーダである。一例では、エントロピーエンコーダ（123）で可逆圧縮が使用され、エントロピーデコーダ（124）で可逆解凍が使用され、サイド情報の送信に起因するものなどのノイズは省略可能であり、エントロピーデコーダ（124）からの出力は量子化された潜像
であり得る。ハイパーデコーダネットワーク（125）は、出力o_hcを生成するために量子化された潜像
を復号することができる。出力o_hcと量子化された潜像
との間の関係は、式7を使用して以下のように記述することができ、
式中、パラメータθ₆は、ハイパーデコーダネットワーク（125）内の畳み込みカーネルで使用される重みやバイアス（バイアスがハイパーデコーダネットワーク（125）で使用される場合）などのパラメータを表す。

上述されたように、圧縮または符号化ビット（132）はサイド情報としてコーディングされたビットストリームに追加されることが可能であり、それにより、エントロピーデコーダ（114）が条件付きエントロピーモデルを使用することが可能になる。したがって、エントロピーモデルは、画像依存かつ空間的に適応可能であり得、したがって、固定エントロピーモデルよりも正確であり得る。

NICフレームワーク（100）は、例えば、図1に示された1つもしくは複数の構成要素を省略し、図1に示された1つもしくは複数の構成要素を修正し、かつ／または図1に示されていない1つもしくは複数の構成要素を含むように適切に適合させることができる。一例では、固定エントロピーモデルを使用するNICフレームワークは、第1のサブNN（151）を含み、第2のサブNN（152）を含まない。一例では、NICフレームワークは、エントロピーエンコーダ（123）およびエントロピーデコーダ（124）を除くNICフレームワーク（100）内の構成要素を含む。

一実施形態では、図1に示されたNICフレームワーク（100）内の1つまたは複数の構成要素は、（1つまたは複数の）CNNなどの（1つまたは複数の）ニューラルネットワークを使用して実装される。NICフレームワーク（例えば、NICフレームワーク（100））内の各NNベースの構成要素（例えば、メインエンコーダネットワーク（111）、メインデコーダネットワーク（115）、コンテキストモデルNN（116）、エントロピーパラメータNN（117）、ハイパーエンコーダネットワーク（121）、またはハイパーデコーダネットワーク（125））は、任意の適切なアーキテクチャを含み（例えば、層の任意の適切な組み合わせを有し）、任意の適切なタイプのパラメータ（例えば、重み、バイアス、重みとバイアスの組み合わせなど）を含み、任意の適切な数のパラメータを含むことができる。

一実施形態では、メインエンコーダネットワーク（111）、メインデコーダネットワーク（115）、コンテキストモデルNN（116）、エントロピーパラメータNN（117）、ハイパーエンコーダネットワーク（121）、およびハイパーデコーダネットワーク（125）は、それぞれのCNNを使用して実装される。

図2は、本開示の一実施形態によるメインエンコーダネットワーク（111）の例示的なCNNを示している。例えば、メインエンコーダネットワーク（111）は4組の層を含み、各組の層は、その後にGDN層が続く畳み込み層5×5 c192 s2を含む。図2に示される1つまたは複数の層は、修正および／または省略されることが可能である。メインエンコーダネットワーク（111）には（1つまたは複数の）追加の層が追加されることが可能である。

図3は、本開示の一実施形態によるメインデコーダネットワーク（115）の例示的なCNNを示している。例えば、メインデコーダネットワーク（115）は3組の層を含み、各組の層は、その後にIGDN層が続く逆畳み込み層5×5 c192 s2を含む。加えて、3組の層の後に、IGDN層がその後に続く逆畳み込み層5×5 c3 s2が続く。図3に示される1つまたは複数の層は、修正および／または省略されることが可能である。メインデコーダネットワーク（115）には（1つまたは複数の）追加の層が追加されることが可能である。

図4は、本開示の一実施形態によるハイパーエンコーダネットワーク（121）の例示的なCNNを示している。例えば、ハイパーエンコーダネットワーク（121）は、その後に漏洩ReLUが続く畳み込み層3×3 c192 s1と、その後に漏洩ReLUが続く畳み込み層5×5 c192 s2と、畳み込み層5×5 c192 s2とを含む。図4に示される1つまたは複数の層は、修正および／または省略されることが可能である。ハイパーエンコーダネットワーク（121）には（1つまたは複数の）追加の層が追加されることが可能である。

図5は、本開示の一実施形態によるハイパーデコーダネットワーク（125）の例示的なCNNを示している。例えば、ハイパーデコーダネットワーク（125）は、その後に漏洩ReLUが続く逆畳み込み層5×5 c192 s2と、その後に漏洩ReLUが続く逆畳み込み層5×5 c288 s2と、逆畳み込み層3×3 c384 s1とを含む。図5に示される1つまたは複数の層は、修正および／または省略されることが可能である。ハイパーデコーダネットワーク（125）には（1つまたは複数の）追加の層が追加されることが可能である。

図6は、本開示の一実施形態によるコンテキストモデルNN（116）の例示的なCNNを示している。例えば、コンテキストモデルNN（116）は、コンテキスト予測のためのマスクされた畳み込み5×5 c384 s1を含み、よって、式4のコンテキスト
は、限定されたコンテキスト（例えば、5×5の畳み込みカーネル）を含む。図6の畳み込み層は修正されることが可能である。コンテキストモデルNN（1016）に（1つまたは複数の）追加の層が追加されることが可能である。

図7は、本開示の一実施形態によるエントロピーパラメータNN（117）の例示的なCNNを示している。例えば、エントロピーパラメータNN（117）は、その後に漏洩ReLUが続く畳み込み層1×1 c640 s1と、その後に漏洩ReLUが続く畳み込み層1×1 c512 s1と、畳み込み層1×1 c384 s1とを含む。図7に示される1つまたは複数の層は、修正および／または省略されることが可能である。エントロピーパラメータNN（117）には（1つまたは複数の）追加の層が追加されることが可能である。

NICフレームワーク（100）は、図2～図7を参照して説明されたように、CNNを使用して実装されることが可能である。NICフレームワーク（100）は、NICフレームワーク（100）内の1つまたは複数の構成要素（例えば、（111）、（115）、（116）、（117）、（121）、および／または（125））が任意の適切なタイプのニューラルネットワーク（例えば、CNNまたは非CNNベースのニューラルネットワーク）を使用して実装されるように適切に適合させることができる。NICフレームワーク（100）の1つまたは複数の他の構成要素は、（1つまたは複数の）ニューラルネットワークを使用して実装されることが可能である。

ニューラルネットワーク（例えば、CNN）を含むNICフレームワーク（100）は、ニューラルネットワークで使用されるパラメータを学習するように訓練されることが可能である。例えば、CNNが使用されるとき、メインエンコーダネットワーク（111）内の畳み込みカーネルで使用される重みおよびバイアス（バイアスがメインエンコーダネットワーク（111）内で使用される場合）、メインデコーダネットワーク（115）内の畳み込みカーネルで使用される重みおよびバイアス（バイアスがメインデコーダネットワーク（115）内で使用される場合）、ハイパーエンコーダネットワーク（121）内の畳み込みカーネルで使用される重みおよびバイアス（バイアスがハイパーエンコーダネットワーク（121）内で使用される場合）、ハイパーデコーダネットワーク（125）内の畳み込みカーネルで使用される重みおよびバイアス（バイアスがハイパーデコーダネットワーク（125）内で使用される場合）、コンテキストモデルNN（116）内の（1つまたは複数の）畳み込みカーネルで使用される重みおよびバイアス（バイアスがコンテキストモデルNN（116）内で使用される場合）、ならびにエントロピーパラメータNN（117）内の畳み込みカーネルで使用される重みおよびバイアス（バイアスがエントロピーパラメータNN（117）内で使用される場合）などの、θ₁～θ₆によって表されるパラメータは、それぞれ、訓練プロセス（例えば、オフライン訓練プロセス、オンライン訓練プロセスなど）において学習されることが可能である。

一例では、図2を参照すると、メインエンコーダネットワーク（111）は4つの畳み込み層を含み、各畳み込み層は5×5の畳み込みカーネルおよび192個のチャネルを有する。よって、メインエンコーダネットワーク（111）内の畳み込みカーネルで使用される重みの数は、19200（すなわち、4×5×5×192）である。メインエンコーダネットワーク（111）で使用されるパラメータは、19200個の重みおよび任意選択のバイアスを含む。バイアスおよび／または追加の（1つまたは複数の）NNがメインエンコーダネットワーク（111）で使用されるとき、追加の（1つまたは複数の）パラメータが含まれることが可能である。

図1を参照すると、NICフレームワーク（100）は、（1つまたは複数の）ニューラルネットワーク上に構築された少なくとも1つの構成要素またはモジュールを含む。少なくとも1つの構成要素は、メインエンコーダネットワーク（111）、メインデコーダネットワーク（115）、ハイパーエンコーダネットワーク（121）、ハイパーデコーダネットワーク（125）、コンテキストモデルNN（116）、およびエントロピーパラメータNN（117）のうちの1つまたは複数を含むことができる。少なくとも1つの構成要素は個別に訓練されることが可能である。一例では、訓練プロセスは、構成要素ごとのパラメータを別々に学習するために使用される。少なくとも1つの構成要素はグループとして一緒に訓練されることが可能である。一例では、訓練プロセスは、少なくとも1つの構成要素のサブセット用のパラメータを一緒に学習するために使用される。一例では、訓練プロセスは、少なくとも1つの構成要素のすべてのパラメータを学習するために使用され、よって、E2E最適化と呼ばれる。

NICフレームワーク（100）内の1つまたは複数の構成要素のための訓練プロセスでは、1つまたは複数の構成要素の重み（または重み係数）は初期化されることが可能である。一例では、重みは、（1つまたは複数の）事前訓練された対応するニューラルネットワークモデル（例えば、DNNモデル、CNNモデル）に基づいて初期化される。一例では、重みは、重みを乱数に設定することによって初期化される。

例えば、重みが初期化された後に、1つまたは複数の構成要素を訓練するために、一組の訓練画像を使用することができる。一組の訓練画像は、任意の適切なサイズを有する任意の適切な画像を含むことができる。いくつかの例では、一組の訓練画像は、空間領域内にある生画像、自然画像、コンピュータ生成画像などからの画像を含む。いくつかの例では、一組の訓練画像は、空間領域内の残差画像または残差データを有する残差画像からの画像を含む。残差データは、残差計算器によって計算されることが可能である。いくつかの例では、生画像および／または残差データを含む残差画像が、NICフレームワーク（100）などのNICフレームワーク内のニューラルネットワークを訓練するために直接使用されることが可能である。よって、生画像、残差画像、生画像からの画像、および／または残差画像からの画像は、NICフレームワーク内のニューラルネットワークを訓練するために使用されることが可能である。

簡潔にするために、以下の訓練プロセス（例えば、オフライン訓練プロセス、オンライン訓練プロセスなど）は、一例として訓練画像を使用して説明される。説明は、訓練ブロックに適切に適合させることができる。一組の訓練画像の訓練画像tは、圧縮表現（例えば、例えばビットストリームへの符号化された情報）を生成するために、図1の符号化プロセスを介して渡されることが可能である。符号化された情報は、図1に記載された復号プロセスを介して渡されて、復元画像
を計算および復元することができる。

NICフレームワーク（100）の場合、2つの競合する目標、例えば、復元品質とビット消費量とのバランスが取られる。品質損失関数（例えば、歪みまたは歪み損失）
は、復元（例えば、復元画像
）と元の画像（例えば、訓練画像t）との間の差などの復元品質を示すために使用することができる。レート（またはレート損失）Rが、圧縮表現のビット消費量を示すために使用されることが可能である。一例では、レート損失Rは、例えば、コンテキストモデルを決定する際に使用されるサイド情報をさらに含む。

ニューラル画像圧縮の場合、量子化の微分可能な近似がE2E最適化において使用されることが可能である。様々な例において、ニューラルネットワークベースの画像圧縮の訓練プロセスでは、ノイズ注入が量子化をシミュレートするために使用され、よって、量子化は量子化器（例えば、量子化器（112））によって実行される代わりにノイズ注入によってシミュレートされる。よって、ノイズ注入による訓練は、量子化誤差を変分的に近似することができる。ビット／ピクセル（BPP）推定器が、エントロピーコーダをシミュレートするために使用されることが可能であり、よって、エントロピーコーディングは、エントロピーエンコーダ（例えば、（113））およびエントロピーデコーダ（例えば、（114））によって実行される代わりに、BPP推定器によってシミュレートされる。したがって、訓練プロセス中の式1に示される損失関数Lにおけるレート損失Rは、例えば、ノイズ注入およびBPP推定器に基づいて推定されることが可能である。一般に、より高いレートRはより低い歪みDを可能にすることができ、より低いレートRはより高い歪みDをもたらすことができる。したがって、式1のトレードオフハイパーパラメータλは、接合R－D損失Lを最適化するために使用されることができ、λDとRの和としてのLを最適化することができる。訓練プロセスは、NICフレームワーク（100）内の1つまたは複数の構成要素（例えば、（111）（115））のパラメータを結合R－D損失Lが最小化または最適化されるように調整するために使用されることが可能である。いくつかの例では、トレードオフハイパーパラメータλは、
のように接合レート歪み（R－D）損失を最適化するために使用されることができ、式中、Eは、符号化前の元の画像残差と比較して復号された画像残差の歪みを測定し、これは、残差符号化／復号DNNおよび符号化／復号DNNの正則化損失として機能する。βは、正則化損失の重要度のバランスを取るハイパーパラメータである。

様々なモデルが、歪み損失Dおよびレート損失Rを決定するために、よって式1の結合R－D損失Lを決定するために使用されることが可能である。一例では、歪み損失
は、平均二乗誤差に基づくメトリックであるピーク信号対雑音比（PSNR）、マルチスケール構造類似性（MS－SSIM）品質指数、PSNRとM－SSIMとの重み付き組み合わせなどとして表される。

一例では、訓練プロセスの目標は、エンコーダ側で使用されるべきビデオエンコーダなどの符号化ニューラルネットワーク（例えば、符号化DNN）と、デコーダ側で使用されるべきビデオデコーダなどの復号ニューラルネットワーク（例えば、復号DNN）とを訓練することである。一例では、図1を参照すると、符号化ニューラルネットワークは、メインエンコーダネットワーク（111）、ハイパーエンコーダネットワーク（121）、ハイパーデコーダネットワーク（125）、コンテキストモデルNN（116）、およびエントロピーパラメータNN（117）を含むことができる。復号ニューラルネットワークは、メインデコーダネットワーク（115）、ハイパーデコーダネットワーク（125）、コンテキストモデルNN（116）、およびエントロピーパラメータNN（117）を含むことができる。ビデオエンコーダおよび／またはビデオデコーダは、（1つまたは複数の）NNに基づく、かつ／または（1つまたは複数の）NNに基づかない（1つまたは複数の）他の構成要素を含むことができる。

NICフレームワーク（例えば、NICフレームワーク（100））は、E2E方式で訓練されることが可能である。一例では、符号化ニューラルネットワークおよび復号ニューラルネットワークは、例えば勾配降下アルゴリズムを使用して、E2E方式で逆伝播勾配に基づく訓練プロセスにおいて一緒に更新される。勾配降下アルゴリズムは、NICフレームワークの微分可能関数（例えば、レート歪み損失の極小値）の局所的最小値を見つけるために、NICフレームワークのパラメータを反復的に最適化することができる。例えば、勾配降下アルゴリズムは、現在点における微分可能関数の勾配（または近似勾配）の反対方向に反復ステップをとることができる。

NICフレームワーク（100）内のニューラルネットワークのパラメータが訓練された後に、NICフレームワーク（100）内の1つまたは複数の構成要素を、画像を符号化および／または復号するために使用することができる。一実施形態では、エンコーダ側で、画像エンコーダは、ビットストリーム内で送信される符号化画像（131）に入力画像xを符号化するように構成される。画像エンコーダは、NICフレームワーク（100）内に複数の構成要素を含むことができる。一実施形態では、デコーダ側で、対応する画像デコーダは、ビットストリームで搬送された符号化画像（131）を復元画像
に復号するように構成される。画像デコーダは、NICフレームワーク（100）内に複数の構成要素を含むことができる。

NICフレームワークによる画像エンコーダおよび画像デコーダは、対応する構造を有することができることに留意されたい。

図8は、本開示の一実施形態による例示的な画像エンコーダ（800）を示している。画像エンコーダ（800）は、メインエンコーダネットワーク（811）と、量子化器（812）と、エントロピーエンコーダ（813）と、第2のサブNN（852）とを含む。メインエンコーダネットワーク（811）はメインエンコーダネットワーク（111）と同様に構成され、量子化器（812）は量子化器（112）と同様に構成され、エントロピーエンコーダ（813）はエントロピーエンコーダ（113）と同様に構成され、第2のサブNN（852）は第2のサブNN（152）と同様に構成される。説明は、図1を参照して上記で提供されており、明確にするためにここでは省略される。

図9は、本開示の一実施形態による例示的な画像デコーダ（900）を示している。画像デコーダ（900）は、画像エンコーダ（800）に対応することができる。画像デコーダ（900）は、メインデコーダネットワーク（915）、エントロピーデコーダ（914）、コンテキストモデルNN（916）、エントロピーパラメータNN（917）、エントロピーデコーダ（924）、およびハイパーデコーダネットワーク（925）を含むことができる。メインデコーダネットワーク（915）は、メインデコーダネットワーク（115）と同様に構成され、エントロピーデコーダ（914）は、エントロピーデコーダ（114）と同様に構成され、コンテキストモデルNN（916）は、コンテキストモデルNN（116）と同様に構成され、エントロピーパラメータNN（917）は、エントロピーパラメータNN（117）と同様に構成され、エントロピーデコーダ（924）は、エントロピーデコーダ（124）と同様に構成され、ハイパーデコーダネットワーク（925）は、ハイパーデコーダネットワーク（125）と同様に構成される。説明は、図1を参照して上記で提供されており、明確にするためにここでは省略される。

図8～図9を参照すると、エンコーダ側では、画像エンコーダ（800）は、ビットストリーム内で送信される符号化画像（831）および符号化ビット（832）を生成することができる。デコーダ側では、画像デコーダ（900）は、符号化画像（931）および符号化ビット（932）を受信し復号することができる。符号化画像（931）および符号化ビット（932）を、受信ビットストリームから解析することができる。

図10～図11は、それぞれ、本開示の実施形態による例示的な画像エンコーダ（1000）および対応する画像デコーダ（1100）を示している。図10を参照すると、画像エンコーダ（1000）は、メインエンコーダネットワーク（1011）、量子化器（1012）、およびエントロピーエンコーダ（1013）を含む。メインエンコーダネットワーク（1011）はメインエンコーダネットワーク（111）と同様に構成され、量子化器（1012）は量子化器（112）と同様に構成され、エントロピーエンコーダ（1013）はエントロピーエンコーダ（113）と同様に構成される。説明は、図1を参照して上記で提供されており、明確にするためにここでは省略される。

図11を参照すると、画像デコーダ（1100）は、メインデコーダネットワーク（1115）およびエントロピーデコーダ（1114）を含む。メインデコーダネットワーク（1115）は、メインデコーダネットワーク（115）と同様に構成され、エントロピーデコーダ（1114）は、エントロピーデコーダ（114）と同様に構成される。説明は、図1を参照して上記で提供されており、明確にするためにここでは省略される。

図10および図11を参照すると、画像エンコーダ（1000）は、ビットストリームに含められるべき符号化画像（1031）を生成することができる。画像デコーダ（1100）は、ビットストリームを受信し、ビットストリームで搬送された符号化画像（1131）を復号することができる。

本開示の一態様によれば、DNNベースやCNNベースの画像圧縮方法などのNNベースの画像圧縮方法では、画像全体を直接符号化する代わりに、ブロックベースまたはブロック単位のコーディングメカニズムが、画像を圧縮するのに有効であり得る。画像全体は、同じまたは様々なサイズのブロックに分割されることが可能であり、ブロックは個別に圧縮されることが可能である。一実施形態では、画像は、等しいサイズまたは等しくないサイズのブロックに分割され得る。画像の代わりに分割されたブロックが圧縮されることもできる。

図12は、ブロック単位の画像コーディングの一例を示している。画像（1280）は、ブロック、例えば、ブロック（1281）～（1296）に分割されることが可能である。ブロック（1281）～（1296）は、例えば、走査順に従って圧縮されることが可能である。図12に示す例では、ブロック（1281）～（1289）は既に圧縮されており、ブロック（1290）～（1296）は圧縮されることになる。

一実施形態では、画像は、ブロックが画像全体であるブロックとして扱われ、画像はブロックに分割されずに圧縮される。画像全体は、E2E NICフレームワークの入力であり得る。

さらに、本開示のいくつかの態様は、人工知能（AI）ベースのニューラル画像圧縮（NIC）などの、ニューラルネットワークによるオンライン訓練ベースの画像圧縮のための技術を提供する。いくつかの例では、オンライン訓練ベースの画像圧縮のための技術は、エンドツーエンド（E2E）最適化フレームワークの圧縮モデルに適用可能である。E2E最適化フレームワークは、符号化部分および復号部分を含む。符号化部分と復号部分は、重複部分（例えば、同一のニューラルネットワーク、同一のニューラルネットワーク層）を有してもよい。いくつかの例では、符号化部分は、1つまたは複数の画像をビットストリームに符号化することができる1つまたは複数の予め訓練されたニューラルネットワーク（1つまたは複数の第1の予め訓練されたニューラルネットワークと呼ばれる）を含む。復号部分は、ビットストリームを復号して1つまたは複数の復元画像を生成することができる1つまたは複数の予め訓練されたニューラルネットワーク（1つまたは複数の第2の予め訓練されたニューラルネットワークと呼ばれる）を含む。いくつかの例では、1つまたは複数の第1の事前訓練されたニューラルネットワークにおける特定の事前訓練されたニューラルネットワークも、1つまたは複数の第2の事前訓練されたニューラルネットワークに存在する。本開示のいくつかの態様によれば、オンライン訓練プロセスの間、復号部分は固定され、符号化部分のみのモジュールを、レート歪み性能を最適化するために1つまたは複数の入力画像に基づいて調整することができる。例えば、E2E最適化フレームワークの符号化部分のみにある（復号部分にはない）パラメータを、レート歪み性能を最適化することができる更新されたパラメータを決定するために、1つまたは複数の入力画像に基づいて調整することができる。次いで、更新されたパラメータを有する符号化部分（最適化されたエンコーダとも呼ばれる）は、1つまたは複数の入力画像を符号化してビットストリームを生成することができる。更新されたパラメータは、エンコーダのみのパラメータであり、デコーダ側に提供される必要はなく、したがってコーディング効率を改善することができる。

本開示の一態様によれば、圧縮される各入力画像（目標画像とも呼ばれる）について、目標画像のための最適化されたエンコーダを見つけるためにオンライン訓練プロセスが適用され、次いで目標画像は、元のエンコーダの代わりに最適化されたエンコーダによって圧縮される。最適化されたエンコーダを使用することにより、NICはより良好な圧縮性能を達成することができる。いくつかの例では、オンライン訓練ベースのエンコーダ調整は、E2E NIC圧縮の圧縮性能を向上させるための前処理ステップ（例えば、各入力画像の正式な圧縮の前）として使用される。一例では、オンライン訓練ベースのエンコーダ調整を、事前訓練されたNICフレームワークなどの事前訓練された圧縮モデルで実行することができる。本開示の一態様によれば、事前訓練されたNICフレームワークの構造などの事前訓練された圧縮モデル自体は、いかなる訓練または微調整も必要としない。オンライン訓練ベースのエンコーダ調整は、ターゲット画像以外の追加の訓練データを必要としない。

上述したように、学習（訓練）ベースの画像圧縮は、マッピングを符号化する第1のステップおよびマッピングを復号する第2のステップを含む2ステップマッピングプロセスと見なすことができる。第1のステップでは、高次元空間（例えば、2次元画像、3次元画像、3色チャネルを有する2次元画像など）内の原画像x₀（例えば、目標画像）が長さR（x₀）のビットストリームにマッピングされる。第2のステップにおいて、ビットストリームは、次に、復元画像
として元の高次元空間にマッピングされる。例えば、事前訓練されたNICフレームワークを、元の画像x₀を第1の復元画像
にマッピングすることができる。

本開示の一態様によれば、最適化されたエンコーダが存在するとき、（最適化されたエンコーダを有する）最適化されたNICフレームワークが、距離測定または損失関数（例えば、より小さい損失関数を有する）に従って、元の画像x₀を（第1の復元画像
よりも）元の画像x₀に近い第2の復元画像
にマッピングすることができるように、より良好な圧縮を達成することができる。最良の圧縮性能を、式1の大域的最小値で達成することができる。

本開示のいくつかの態様によれば、復号画像と元の画像との間の差を低減するために、エンコーダ側でニューラルネットワークの任意の適切な中間ステップにおいてオンライン訓練ベースのエンコーダ調整が実行され得る。

本開示の一態様によれば、オフライン訓練プロセス（モデル訓練フェーズとも呼ばれる）において、勾配降下アルゴリズムは、圧縮モデル全体のパラメータを決定するために使用される。いくつかの例では、オンライン訓練ベースのエンコーダ調整プロセスでは、圧縮モデルのデコーダ部分が固定され、勾配降下アルゴリズムを使用して圧縮モデルのエンコーダ部分が更新される。微分不可能な部分を微分可能な部分に置き換える（例えば、量子化をノイズ注入に置き換える）ことによって圧縮モデル全体を微分可能にすることができ、したがって、勾配降下アルゴリズムをオンライン訓練ベースのエンコーダ調整プロセスで使用してエンコーダ部分を反復的に最適化することができることに留意されたい。

オンライン訓練ベースのエンコーダ調整プロセスは、第1のハイパーパラメータ－ステップサイズおよび第2のハイパーパラメータ－ステップ数を使用することができることに留意されたい。ステップサイズは、オンライン訓練ベースのエンコーダ調整プロセスの「学習率」を示す。いくつかの実施形態では、最良の最適化結果を達成するために、異なる種類のコンテンツを有する画像のためのオンライン訓練ベースのエンコーダ調整プロセス中に異なるステップサイズが使用される。ステップ数は、オンライン訓練ベースのエンコーダ調整プロセスにおける更新の数を示す。ハイパーパラメータは、損失関数を用いたオンライン訓練ベースのエンコーダ調整プロセスで使用される。一例では、ステップサイズは、勾配降下アルゴリズムまたはオンライン訓練ベースのエンコーダ調整プロセスで実行される逆伝播計算で使用され、反復回数は、学習プロセスの終了を制御するための最大反復回数の閾値として使用されることができる。

本開示のいくつかの態様によれば、各入力画像x₀に対して、オンライン訓練ベースのエンコーダ調整動作の第1の動作、符号化の第2の動作、および復号の第3の動作などの3つの動作を、NICフレームワークに従って実行することができる。いくつかの例では、第1の動作および第2の動作は、NICフレームワークに従って電子デバイスで実行され、第3の動作は、NICフレームワークに従って同じ電子デバイスまたは異なる電子デバイスによって実行され得る。

図13Aおよび図13Bは、本開示のいくつかの態様による、入力画像x₀に対してオンライン訓練ベースのエンコーダ調整動作および符号化動作を実行するように構成された電子デバイス（1300）を示している。電子デバイス（2100）は、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータなどの任意の適切なデバイスとすることができる。

図13Aは、オンライン訓練ベースのエンコーダ調整動作を実行するための電子デバイス（1300）内の構成要素の図を示している。電子デバイス（1300）は、第1のサブNN（1351）として示される圧縮モデルのメインレベルおよび第2のサブNN（1352）として示される圧縮モデルのハイパーレベルなどの2つのレベルを含むNICフレームワーク（1301）（圧縮モデルとも呼ばれる）を形成する構成要素を含む。図1において、第1のサブNN（1351）は、第1のサブNN（151）と同様に構成され、第2のサブNN（1352）は、第2のサブNN（152）と同様に構成される。図13AのNICフレームワークは、オンライン訓練ベースのエンコーダ調整のための技術を示すための例であり、技術は、図1のNICフレームワーク、図10～図11のNICフレームワークなどの他の適切なNICフレームワークで使用されることができることに留意されたい。

第1のサブNN（1351）は、メインエンコーダネットワーク（1311）と、量子化器（1312）と、エントロピーエンコーダ（1313）と、エントロピーデコーダ（1314）と、メインデコーダネットワーク（1315）とを含む。メインエンコーダネットワーク（1311）はメインエンコーダネットワーク（111）と同様に構成され、量子化器（1312）は量子化器（112）と同様に構成され、エントロピーエンコーダ（1313）はエントロピーエンコーダ（113）と同様に構成され、エントロピーデコーダ（1314）はエントロピーデコーダ（114）と同様に構成され、メインデコーダネットワーク（1315）はメインデコーダネットワーク（115）と同様に構成される。説明は、図1を参照して上記で提供されており、明確にするためにここでは省略される。

第2のサブNN（1352）は、ハイパーエンコーダネットワーク（1321）と、量子化器（1322）と、エントロピーエンコーダ（1323）と、エントロピーデコーダ（1324）と、ハイパーデコーダネットワーク（1325）とを含むことができる。ハイパーエンコーダネットワーク（1321）はハイパーエンコーダネットワーク（121）と同様に構成され、量子化器（1322）は量子化器（122）と同様に構成され、エントロピーエンコーダ（1323）はエントロピーエンコーダ（123）と同様に構成され、エントロピーデコーダ（1324）はエントロピーデコーダ（124）と同様に構成され、ハイパーデコーダネットワーク（1325）はハイパーデコーダネットワーク（125）と同様に構成される。説明は、図1を参照して上記で提供されており、明確にするためにここでは省略される。

いくつかの例では、最初に、NICフレームワーク（1301）のニューラルネットワーク内のパラメータは事前訓練パラメータである。オンライン訓練ベースのエンコーダ調整動作中、いくつかの例では、入力画像x₀に対して、メインエンコーダネットワーク（1311）は、入力画像x₀から潜在表現y₀を生成する。潜在表現y₀は、量子化された潜像
を生成するために量子化器（1312）を使用して量子化されることが可能である。量子化された潜像
は、例えば、エントロピーエンコーダ（1313）による可逆圧縮を使用して圧縮されて、入力画像x₀の圧縮表現
である圧縮画像（例えば、符号化画像）
（1331）を生成することができる。

符号化画像（1331）は、エントロピーデコーダ（1314）によって解凍（例えば、エントロピー復号）されて量子化された潜像
を生成することができる。メインデコーダネットワーク（1315）は、量子化された潜像
を復号して復元画像
を生成することができる。復元画像
は、量子化器（1312）によって導入される量子化損失に起因して入力画像x₀とは異なる可能性がある。

潜在表現y₀は、ハイパーエンコーダネットワーク（1321）に供給されて、ハイパー潜像z₀を生成することができる。ハイパー潜像z₀は、量子化された潜像
を生成するために量子化器（1322）によって量子化される。量子化された潜像
は、符号化ビット（1332）などのサイド情報を生成するために、例えば、エントロピーエンコーダ（1323）による可逆圧縮を使用して圧縮されることが可能である。

符号化ビット（1332）などのサイド情報は、量子化された潜像
を生成するためにエントロピーデコーダ（1324）によって解凍（例えば、エントロピー復号）されることが可能である。ハイパーデコーダネットワーク（1325）は、出力o_epを生成するために量子化された潜像
を復号することができる。出力o_epは、エントロピーモデルを決定するためにエントロピーエンコーダ（1313）およびエントロピーデコーダ（1314）に提供され得る。

いくつかの例では、レート歪み損失などの性能メトリックを、例えば式1に従って計算することができる。さらに、NICフレームワーク内のエンコーダのみのパラメータを訓練することができる。一例では、エンコーダのみのパラメータは、例えば勾配降下アルゴリズムを使用して、エンドツーエンド方式で逆伝播勾配に基づいて訓練プロセス（オンライン訓練ベースのエンコーダ調整プロセス）で更新される。勾配降下アルゴリズムは、微分可能な関数（例えば、レート歪み損失の極小値）の局所的最小値を見つけるためにエンコーダのみのパラメータを反復的に最適化することができる。例えば、勾配降下アルゴリズムは、現在点における微分可能関数の勾配（または近似勾配）の反対方向に反復ステップをとることができる。

いくつかの例では、対応するデコーダは、エントロピーデコーダ（1314）およびエントロピーデコーダ（1324）に対応するエントロピーデコーダと、メインデコーダネットワーク（1315）に対応するメインデコーダネットワークと、ハイパーデコーダネットワーク（1325）に対応するハイパーデコーダネットワークとを有することができる。したがって、エンコーダのみの部分は、メインエンコーダネットワーク（1311）、量子化器（1312）、エントロピーエンコーダ（1313）、ハイパーエンコーダネットワーク（1321）、量子化器（1322）、およびエントロピーエンコーダ（1323）を含む。

いくつかの例では、メインエンコーダネットワーク（1311）およびハイパーエンコーダネットワーク（1321）のニューラルネットワーク内のパラメータは、入力画像x₀のレート歪み損失の最小値を達成するために更新されたパラメータを決定するために、オンライン訓練ベースのエンコーダ調整動作中に調整される。

図13Bは、本開示のいくつかの態様による、入力画像x₀の符号化動作を実行するための電子デバイス（1300）内のニューラルネットワークベースの画像エンコーダ（1302）の図を示している。ニューラルネットワークベースの画像エンコーダ（1302）は、オンライン訓練ベースのエンコーダ調整動作からの更新されたパラメータを有するNICフレームワーク（1301）に従って形成される。ニューラルネットワークベースの画像エンコーダ（1302）は、メインエンコーダネットワーク（1311）、量子化器（1312）、エントロピーエンコーダ（1313）、ハイパーエンコーダネットワーク（1321）、量子化器（1322）、エントロピーエンコーダ（1323）、エントロピーデコーダ（1324）、およびハイパーデコーダネットワーク（1325）を含む。いくつかの例では、メインエンコーダネットワーク（1311）および／またはハイパーエンコーダネットワーク（1321）の1つまたは複数のパラメータは、オンライン訓練ベースのエンコーダ調整動作に従って更新されたパラメータである。

符号化動作中、いくつかの例では、入力画像x₀に対して、メインエンコーダネットワーク（1311）は、入力画像x₀から潜在表現y₀’を生成する。潜在表現y₀’は、量子化された潜像
を生成するために量子化器（1312）を使用して量子化されることが可能である。量子化された潜像
は、例えば、エントロピーエンコーダ（1313）による可逆圧縮を使用して圧縮されて、入力画像x₀の圧縮表現
である圧縮画像（例えば、符号化画像）
（1331）を生成することができる。

潜在表現y₀’は、ハイパーエンコーダネットワーク（1321）に供給されて、ハイパー潜像z₀’を生成することができる。ハイパー潜像z₀’は、量子化された潜像
を生成するために量子化器（1322）によって量子化される。量子化された潜像
は、符号化ビット（1332）などのサイド情報を生成するために、例えば、エントロピーエンコーダ（1323）による可逆圧縮を使用して圧縮されることが可能である。

符号化ビット（1332）などのサイド情報は、量子化された潜像
を生成するためにエントロピーデコーダ（1324）によって解凍（例えば、エントロピー復号）されることが可能である。ハイパーデコーダネットワーク（1325）は、出力o_epを生成するために量子化された潜像
を復号することができる。出力o_epは、エントロピーモデルを決定するためにエントロピーエンコーダ（1313）に提供されることが可能である。

一例では、圧縮画像（例えば、符号化画像）
（1331）および符号化ビット（1332）を、入力画像x₀を搬送するためのビットストリームに入れることができる。一例では、ビットストリームは記憶され、後で電子デバイス（1300）によって検索および復号される。別の例では、ビットストリームは他のデバイスに送信され、他のデバイスは復号動作を実行することができる。

図14は、本開示のいくつかの態様による、入力画像x₀の復号動作を実行するための電子デバイス（1400）における構成要素の図を示している。電子デバイス（1400）は、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータなどの任意の適切なデバイスとすることができる。一例では、電子デバイス（1400）は電子デバイス（1300）である。別の例では、電子デバイス（1400）は、電子デバイス（1300）とは異なるデバイスである。

電子デバイス（1400）は、エントロピーデコーダ（1414）、メインデコーダネットワーク（1415）、エントロピーデコーダ（1424）、およびハイパーデコーダネットワーク（1425）を含むニューラルネットワークベースの画像デコーダ（1403）を含む。エントロピーデコーダ（1414）は、（例えば、同じ構造および同じパラメータで）エントロピーデコーダ（1314）に対応することができ、エントロピーデコーダ（114）と同様に構成され、メインデコーダネットワーク（1415）は、（例えば、同じ構造および同じパラメータで）メインデコーダネットワーク（1315）に対応することができ、メインデコーダネットワーク（115）と同様に構成され、エントロピーデコーダ（1424）は、（例えば、同じ構造および同じパラメータで）エントロピーデコーダ（1324）に対応することができ、エントロピーデコーダ（124）と同様に構成され、ハイパーデコーダネットワーク（1425）は、（例えば、同じ構造および同じパラメータで）ハイパーデコーダネットワーク（1325）に対応することができ、ハイパーデコーダネットワーク（125）と同様に構成される。説明は、図1を参照して上記で提供されており、明確にするためにここでは省略される。

いくつかの例では、ニューラルネットワークベースの画像デコーダ（1403）のニューラルネットワークにおけるパラメータは、事前訓練されたパラメータであることに留意されたい。

復号動作中、いくつかの例では、入力画像x₀の圧縮表現
およびサイド情報を搬送するビットストリームが受信され、符号化画像（1431）および符号化ビット（1432）に解析される。符号化画像（1431）は、エントロピーデコーダ（1414）によって解凍（例えば、エントロピー復号）されて量子化された潜像
を生成することができる。メインデコーダネットワーク（1415）は、量子化された潜像
を復号して復元画像
を生成することができる。

符号化ビット（1432）は、量子化された潜像
を生成するためにエントロピーデコーダ（1424）によって解凍（例えば、エントロピー復号）されることが可能である。ハイパーデコーダネットワーク（1425）は、出力o_epを生成するために量子化された潜像
を復号することができる。出力o_epは、エントロピーモデルを決定するためにエントロピーデコーダ（1414）に提供され得る。

オンライン訓練ベースのエンコーダ調整動作は、エンコーダ側で変更を行い、デコーダ関連動作は変更を必要としないことに留意されたい。

いくつかの実施形態では、オンライン訓練ベースのエンコーダ調整動作中に、メインエンコーダネットワーク（1311）およびハイパーエンコーダネットワーク（1321）内のすべてのパラメータが調整および最適化される。

いくつかの実施形態では、メインエンコーダネットワーク（1311）および／またはハイパーエンコーダネットワーク（1321）内のパラメータの一部のみが調整および最適化される。いくつかの例では、メインエンコーダネットワーク（1311）および／またはハイパーエンコーダネットワーク（1321）のいくつかの層のパラメータが調整される。いくつかの例では、メインエンコーダネットワーク（1311）および／またはハイパーエンコーダネットワーク（1321）の層内の1つまたは複数のチャネルのパラメータが調整される。

いくつかの例では、入力画像は、ブロックごとに圧縮するために最初にブロックに分割される。ブロックごとのステップサイズは異なっていてもよい。一例では、より良好な圧縮結果を達成するために、画像のブロックに異なるステップサイズを割り当ててもよい。画像がブロックに分割されずに圧縮される例では、異なる画像は、最適化された圧縮結果を達成するために異なるステップサイズを有してもよい。

オンライン訓練からの更新には、符号化部分のみのパラメータの変更が含まれ、復号部分のパラメータは固定されていることに留意されたい。したがって、いくつかの例では、符号化画像は、オフライン訓練からの事前訓練されたパラメータを用いて同じ画像デコーダによって復号され得る。オンライン訓練は、NICコーディング効率を改善するために最適化されたエンコーダメカニズムを活用し、柔軟であり得、一般的なフレームワークは、様々なタイプの品質メトリックに対応することができる。

図15は、本開示の一実施形態によるプロセス（1500）を概説するフローチャートを示している。プロセス（1500）は、NICフレームワークのオンライン訓練ベースのエンコーダ調整を含む符号化プロセスである。プロセス（1500）は、一例では電子デバイス（1300）などの電子デバイスで実行され得る。いくつかの実施形態では、プロセス（1500）がソフトウェア命令で実施され、したがって、処理回路がソフトウェア命令を実行すると、処理回路は、プロセス（1500）を実行する。プロセスは（S1501）から開始されて（S1510）に進む。

（S1510）において、1つまたは複数の入力画像に基づいて、ニューラル画像圧縮（NIC）フレームワークのオンライン訓練が実行される。NICフレームワークは、符号化部分に1つまたは複数の第1のニューラルネットワークと、復号部分に1つまたは複数の第2のニューラルネットワークとを備えるエンドツーエンドのフレームワークである。オンライン訓練は、固定パラメータを有する1つまたは複数の第2のニューラルネットワーク（例えば、1つまたは複数の第2のニューラルネットワークは調整不可能な値を有する）を有する1つまたは複数の第1のニューラルネットワークにおける1つまたは複数の調整可能パラメータに対する更新（例えば、複数の更新値）を決定する。更新は、例えば、レート歪み損失の極小値を達成することができる。

（S1520）において、1つまたは複数の第1のニューラルネットワークにおける1つまたは複数の調整可能パラメータが、更新に従って更新される。

（S1530）において、更新される1つまたは複数の第1のニューラルネットワーク内の1つまたは複数の調整可能パラメータを有するNICフレームワークの符号化部分は、1つまたは複数の入力画像をビットストリームに符号化する。

いくつかの実施形態では、復号部分は事前訓練されたパラメータで固定されている。例えば、1つまたは複数の第2のニューラルネットワークの固定パラメータは、NICフレームワークのオフライン訓練からの事前訓練値で固定される。

いくつかの実施形態では、NICフレームワークは、符号化部分および復号部分の両方に特定のニューラルネットワークを含み、特定のニューラルネットワークは、オンライン訓練中に固定される第1のパラメータを含む。一例では、特定のニューラルネットワークは、ハイパーデコーダネットワークを含む。

いくつかの例では、オンライン訓練は、NICフレームワークのメインエンコーダネットワークおよび／またはハイパーエンコーダネットワーク内の各パラメータを調整可能にして実行され得る。

いくつかの例では、オンライン訓練は、NICフレームワークのメインエンコーダネットワークおよび／またはハイパーエンコーダネットワーク内のパラメータのサブセットを調整可能にして実行され得る。

いくつかの例では、オンライン訓練は、NICフレームワークのメインエンコーダネットワークまたはハイパーエンコーダネットワーク内の層のパラメータを調整可能にして実行され得る。

いくつかの例では、オンライン訓練は、NICフレームワークのメインエンコーダネットワークまたはハイパーエンコーダネットワークの層内のチャネルのパラメータを調整可能にして実行され得る。

いくつかの例では、入力画像を複数のブロックに分割することができ、ステップサイズを複数のブロックにそれぞれ割り当てることができる。NICフレームワークのオンライン訓練は、それぞれのステップサイズを有する複数のブロックに従って実行され得る。

いくつかの例では、ステップサイズは、入力画像内のコンテンツの種類に基づいて入力画像に割り当てられる。NICフレームワークのオンライン訓練は、ステップサイズの入力画像に従って実行される。

次いで、プロセス（1500）は、（S1599）に進み、終了する。

プロセス（1500）は、様々なシナリオに適切に適合させることができ、それに応じてプロセス（1500）内のステップを調整することができる。プロセス（1500）内のステップのうちの1つまたは複数を、適合、省略、反復、および／または組み合わせることができる。プロセス（1500）を実施するために、任意の適切な順序を使用することができる。（1つまたは複数の）追加のステップを追加することができる。

上述された技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、1つまたは複数のコンピュータ可読媒体に物理的に記憶されることができる。例えば、図16は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム（1600）を示している。

コンピュータソフトウェアは、1つまたは複数のコンピュータ中央処理装置（CPU）、グラフィック処理装置（GPU）などによって、直接実行することができるか、または解釈、マイクロコード実行などを介して実行することができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどのメカニズムを受けることができる任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされ得る。

命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーミングデバイス、およびモノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはその構成要素上で実行され得る。

コンピュータシステム（1600）について図16に示される構成要素は、本質的に例示的であり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能性の範囲に関していかなる限定も示唆することを意図するものではない。また、構成要素の構成は、コンピュータシステム（1600）の例示的な実施形態に示される構成要素のいずれか1つまたは組み合わせに関連するいかなる依存性または要件も有するものと解釈されるべきではない。

コンピュータシステム（1600）は、特定のヒューマンインターフェース入力デバイスを含んでもよい。そのようなヒューマンインターフェース入力デバイスは、例えば、（キーストローク、スワイプ、データグローブの動きなどの）触覚入力、（声、拍手などの）オーディオ入力、（ジェスチャなどの）視覚入力、（描写されていない）嗅覚入力を介して、1人または複数の人間のユーザによる入力に応答してもよい。ヒューマンインターフェースデバイスは、オーディオ（音声、音楽、環境音など）、画像（走査画像、写真画像は静止画像カメラから取得など）、ビデオ（2次元ビデオ、立体ビデオを含む3次元ビデオなど）などの、必ずしも人間による意識的な入力に直接関連しない特定の媒体をキャプチャするためにも使用され得る。

入力ヒューマンインターフェースデバイスは、キーボード（1601）、マウス（1602）、トラックパッド（1603）、タッチスクリーン（1610）、データグローブ（図示せず）、ジョイスティック（1605）、マイクロフォン（1606）、スキャナ（1607）、カメラ（1608）のうちの1つまたは複数（各々1つのみが示されている）を含み得る。

コンピュータシステム（1600）はまた、特定のヒューマンインターフェース出力デバイスを含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および匂い／味を通して、1人または複数人の人間ユーザの感覚を刺激している場合がある。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（1610）、データグローブ（図示せず）、またはジョイスティック（1605）による触覚フィードバックを含み得るが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る）、オーディオ出力デバイス（スピーカ（1609）、ヘッドホン（図示せず）など）、視覚出力デバイス（各々タッチスクリーン入力機能の有無にかかわらず、各々触覚フィードバック機能の有無にかかわらず、ステレオグラフィック出力、仮想現実の眼鏡（図示せず）、ホログラフィックディスプレイ、およびスモークタンク（図示せず）などの手段により、2次元の視覚出力または3次元を超える出力を出力することが可能なものもある、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン（1610）など）、およびプリンタ（図示せず）を含み得る。

コンピュータシステム（1600）はまた、CD／DVDなどの媒体（1621）を有するCD／DVD ROM／RW（1620）を含む光媒体、サムドライブ（1622）、リムーバブルハードドライブまたはソリッドステートドライブ（1623）、テープおよびフロッピーディスクなどのレガシー磁気媒体（図示せず）、セキュリティドングルなどの専用ROM／ASIC／PLDベースのデバイス（図示せず）など、人間がアクセス可能な記憶デバイスおよびそれらの関連媒体を含むことができる。

当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的信号を包含しないことを理解すべきである。

コンピュータシステム（1600）はまた、1つまたは複数の通信ネットワーク（1655）へのインターフェース（1654）を含むことができる。ネットワークは、例えば、無線、有線、光とすることができる。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両および産業用、リアルタイム、遅延耐性、などとすることができる。ネットワークの例には、イーサネットなどのローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上波放送TVを含むTV有線または無線ワイドエリアデジタルネットワーク、CANBusを含む車両および産業などが含まれる。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（1649）（例えば、コンピュータシステム（1600）のUSBポートなど）に取り付けられた外部ネットワークインターフェースアダプタを必要とする。他のものは、一般に、後述するようなシステムバス（例えば、PCコンピュータシステムへのイーサネットインターフェース、または、スマートフォンコンピュータシステムへのセルラーネットワークインターフェース）へ取り付けにより、コンピュータシステム（1600）のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム（1600）は他のエンティティと通信することができる。そのような通信は、単方向受信専用（例えば、放送TV）、単方向送信専用（例えば、あるCANbusデバイスへのCANbus）、または例えば、ローカルもしくは広域デジタルネットワークを使用する他のコンピュータシステムへの双方向であり得る。特定のプロトコルおよびプロトコルスタックは、上記で説明されたように、これらのネットワークおよびネットワークインターフェースの各々で使用され得る。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースを、コンピュータシステム（1600）のコア（1640）に取り付けることができる。

コア（1640）は、1つまたは複数の中央処理ユニット（CPU）（1641）、グラフィック処理ユニット（GPU）（1642）、フィールドプログラマブルゲートエリア（FPGA）（1643）の形態の専用プログラマブル処理ユニット、特定のタスクのためのハードウェアアクセラレータ（1644）、グラフィックスアダプタ（1650）などを含み得る。これらのデバイスは、読み出し専用メモリ（ROM）（1645）、ランダムアクセスメモリ（1646）、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量記憶装置（1647）とともに、システムバス（1648）を介して接続され得る。いくつかのコンピュータシステムでは、システムバス（1648）は、追加のCPU、GPUなどによる拡張を可能にするために、1つまたは複数の物理的なプラグの形態で、アクセス可能であり得る。周辺デバイスを、コアのシステムバス（1648）に直接取り付けることも、周辺バス（1649）を介して取り付けることもできる。一例では、スクリーン（1610）を、グラフィックスアダプタ（1650）に接続することができる。周辺バス用のアーキテクチャには、PCI、USBなどが含まれる。

CPU（1641）、GPU（1642）、FPGA（1643）、およびアクセラレータ（1644）は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードを、ROM（1645）またはRAM（1646）に記憶することができる。過渡的なデータをRAM（1646）に記憶することもでき、一方、永続的なデータを、例えば、内部大容量記憶装置（1647）に記憶することができる。1つまたは複数のCPU（1641）、GPU（1642）、大容量記憶装置（1647）、ROM（1645）、RAM（1646）などと密接に関連付けることができるキャッシュメモリを使用することによって、任意のメモリデバイスへの高速な記憶および探索を可能にすることができる。

コンピュータ可読媒体は、様々なコンピュータ実施動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよく、またはこれらは、コンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。

限定ではなく、例として、アーキテクチャを有するコンピュータシステム（1600）、具体的にはコア（1640）は、（CPU、GPU、FPGA、アクセラレータなどを含む）プロセッサが1つまたは複数の有形のコンピュータ可読媒体において具現化されたソフトウェアを実行した結果としての機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したようなユーザアクセス可能な大容量記憶装置、ならびにコア内部大容量記憶装置（1647）またはROM（1645）などの非一時的な性質のものであるコア（1640）の特定の記憶装置に関連付けられた媒体とすることができる。本開示の種々の実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア（1640）によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（1640）および具体的にはその中のプロセッサ（CPU、GPU、FPGAなどを含む）に、RAM（1646）に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってかかるデータ構造を修正することを含む、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書に説明される特定のプロセスまたは特定のプロセスの特定の部分を実行するように、ソフトウェアの代わりに、またはソフトウェアとともに動作することができる、回路（例えば、アクセラレータ（1644））内にハードワイヤードまたは別様に具現化される論理の結果として、機能性を提供することができる。ソフトウェアへの言及は、必要に応じて、論理を包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶する回路（集積回路（IC）など）、実行のための論理を具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアとの任意の適切な組み合わせを包含する。

本開示ではいくつかの典型的な実施形態を説明してきたが、変形例、置換例、および様々な代替均等例が存在し、これらは本開示の範囲に含まれる。したがって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

100 NICフレームワーク、111 メインエンコーダネットワーク、112 量子化器、113 エントロピーエンコーダ、114 エントロピーデコーダ、115 メインデコーダネットワーク、116 コンテキストモデルNN、117 エントロピーパラメータNN、121 ハイパーエンコーダネットワーク、122 量子化器、123 エントロピーエンコーダ、124 エントロピーデコーダ、125 ハイパーデコーダネットワーク、131 符号化画像、132 符号化ビット、151 第1のサブNN、152 第2のサブNN、800 画像エンコーダ、811 メインエンコーダネットワーク、812 量子化器、813 エントロピーエンコーダ、816 コンテキストモデルNN、817 エントロピーパラメータNN、821 ハイパーエンコーダネットワーク、822 量子化器、823 エントロピーエンコーダ、824 エントロピーデコーダ、825 ハイパーデコーダネットワーク、831 符号化画像、832 符号化ビット、852 第2のサブNN、900 画像デコーダ、914 エントロピーデコーダ、915 メインデコーダネットワーク、916 コンテキストモデルNN、917 エントロピーパラメータNN、924 エントロピーデコーダ、925 ハイパーデコーダネットワーク、931 符号化画像、932 符号化ビット、1000 画像エンコーダ、1011 メインエンコーダネットワーク、1012 量子化器、1013 エントロピーエンコーダ、1031 符号化画像、1100 画像デコーダ、1114 エントロピーデコーダ、1115 メインデコーダネットワーク、1131 符号化画像、1280 画像、1281～1296 ブロック、1300 電子デバイス、1301 NICフレームワーク、1311 メインエンコーダネットワーク、1312 量子化器、1313 エントロピーエンコーダ、1314 エントロピーデコーダ、1315 メインデコーダネットワーク、1321 ハイパーエンコーダネットワーク、1322 量子化器、1323 エントロピーエンコーダ、1324 エントロピーデコーダ、1325 ハイパーデコーダネットワーク、1331 符号化画像、1332 符号化ビット、1351 第1のサブNN、1352 第2のサブNN、1300 電子デバイス、1302 画像エンコーダ、1311 メインエンコーダネットワーク、1312 量子化器、1313 エントロピーエンコーダ、1321 ハイパーエンコーダネットワーク、1322 量子化器、1323 エントロピーエンコーダ、1324 エントロピーデコーダ、1325 ハイパーデコーダネットワーク、1331 符号化画像、1332 符号化ビット、1352 第2のサブNN、1400 電子デバイス、1403 画像デコーダ、1414 エントロピーデコーダ、1415 メインデコーダネットワーク、1424 エントロピーデコーダ、1425 ハイパーデコーダネットワーク、1431 符号化画像、1432 符号化ビット、1600 コンピュータシステム、1601 キーボード、1602 マウス、1603 トラックパッド、1605 ジョイスティック、1606 マイクロフォン、1607 スキャナ、1608 カメラ、1609 スピーカ、1610 スクリーン、1620 CD／DVD ROM／RW、1621 CD／DVDなどの媒体、1622 サムドライブ、1623 リムーバブルハードドライブまたはソリッドステートドライブ、1640 コア、1641 中央処理ユニット（CPU）、1642 グラフィック処理ユニット（GPU）、1643 フィールドプログラマブルゲートエリア（FPGA）、1644 アクセラレータ、1645 読み出し専用メモリ（ROM）、1646 ランダムアクセスメモリ（RAM）、1647 内部大容量記憶装置、1648 システムバス、1650 グラフィックスアダプタ、1654 ネットワークインターフェース、1655 通信ネットワーク

Claims

1つまたは複数の入力画像に基づいて、ニューラル画像圧縮（NIC）フレームワークのオンライン訓練を実行するステップであって、前記NICフレームワークは、（i）符号化部分における1つまたは複数の第1のニューラルネットワーク、および（ii）復号部分における1つまたは複数の第2のニューラルネットワークの両方を含むエンドツーエンドフレームワークであり、前記オンライン訓練は、前記1つまたは複数の第1のニューラルネットワークにおける1つまたは複数の調整可能パラメータに対する複数の更新値を決定し、前記1つまたは複数の第2のニューラルネットワークは調整不可能パラメータを有する、ステップと、
前記複数の更新値に従って前記1つまたは複数の第1のニューラルネットワークにおける前記1つまたは複数の調整可能パラメータを更新するステップと、
更新される前記1つまたは複数の第1のニューラルネットワーク内の前記1つまたは複数の調整可能パラメータを用いて前記NICフレームワークの前記符号化部分によって、前記1つまたは複数の入力画像をビットストリームに符号化するステップと
を含む、画像コーディングのための方法。

前記1つまたは複数の第2のニューラルネットワークの前記調整不可能パラメータが、前記NICフレームワークのオフライン訓練からの事前訓練値で固定される、請求項1に記載の方法。

前記NICフレームワークが、前記符号化部分および前記復号部分の両方に特定のニューラルネットワークを含み、前記特定のニューラルネットワークは、前記オンライン訓練中に固定される第1のパラメータを含む、請求項1に記載の方法。

前記特定のニューラルネットワークが、ハイパーデコーダネットワークを含む、請求項3に記載の方法。

前記NICフレームワークの前記オンライン訓練を実行する前記ステップが、
前記NICフレームワークのメインエンコーダネットワークおよびハイパーエンコーダネットワークの各パラメータを調整可能にして前記オンライン訓練を実行するステップ
をさらに含む、請求項1に記載の方法。

前記NICフレームワークの前記オンライン訓練を実行する前記ステップが、
前記NICフレームワークのメインエンコーダネットワークおよびハイパーエンコーダネットワーク内のパラメータのサブセットを調整可能にして前記オンライン訓練を実行するステップ
をさらに含む、請求項1に記載の方法。

前記NICフレームワークの前記オンライン訓練を実行する前記ステップが、
前記NICフレームワークのメインエンコーダネットワークまたはハイパーエンコーダネットワーク内の層のパラメータを調整可能にして前記オンライン訓練を実行するステップ
をさらに含む、請求項1に記載の方法。

前記NICフレームワークの前記オンライン訓練を実行する前記ステップが、
前記NICフレームワークのメインエンコーダネットワークまたはハイパーエンコーダネットワークの層内のチャネルのパラメータを調整可能にして前記オンライン訓練を実行するステップ
をさらに含む、請求項1に記載の方法。

前記NICフレームワークの前記オンライン訓練を実行する前記ステップが、
入力画像を複数のブロックに分割するステップと、
前記複数のブロックにそれぞれのステップサイズを割り当てるステップと、
前記それぞれのステップサイズを有する前記複数のブロックに従って前記NICフレームワークの前記オンライン訓練を実行するステップと
を含む、請求項1に記載の方法。

前記NICフレームワークの前記オンライン訓練を実行する前記ステップが、
入力画像内のコンテンツの種類に基づいて前記入力画像にステップサイズを割り当てるステップと、
前記ステップサイズを有する前記入力画像に従って前記NICフレームワークの前記オンライン訓練を実行するステップと
を含む、請求項1に記載の方法。

1つまたは複数の入力画像に基づいて、ニューラル画像圧縮（NIC）フレームワークのオンライン訓練を実行し、前記NICフレームワークは、（i）符号化部分における1つまたは複数の第1のニューラルネットワーク、および（ii）復号部分における1つまたは複数の第2のニューラルネットワークの両方を含むエンドツーエンドのフレームワークであり、前記オンライン訓練は、前記1つまたは複数の第1のニューラルネットワークにおける1つまたは複数の調整可能パラメータに対する複数の更新値を決定し、前記1つまたは複数の第2のニューラルネットワークは、調整不可能パラメータを有し、
前記複数の更新値に従って前記1つまたは複数の第1のニューラルネットワークにおける前記1つまたは複数の調整可能パラメータを更新し、
更新される前記1つまたは複数の第1のニューラルネットワーク内の前記1つまたは複数の調整可能パラメータを用いて前記NICフレームワークの前記符号化部分によって、前記1つまたは複数の入力画像をビットストリームに符号化する
ように構成される処理回路を備える、画像コーディングのための装置。

前記1つまたは複数の第2のニューラルネットワークの前記調整不可能パラメータが、前記NICフレームワークのオフライン訓練からの事前訓練値で固定される、請求項11に記載の装置。

前記NICフレームワークが、前記符号化部分および前記復号部分の両方に特定のニューラルネットワークを含み、前記特定のニューラルネットワークは、前記オンライン訓練中に固定される第1のパラメータを含む、請求項11に記載の装置。

前記特定のニューラルネットワークが、ハイパーデコーダネットワークを含む、請求項13に記載の装置。

前記処理回路が、
前記NICフレームワークのメインエンコーダネットワークおよびハイパーエンコーダネットワークの各パラメータを調整可能にして前記オンライン訓練を実行する
ように構成される、請求項11に記載の装置。

前記処理回路が、
前記NICフレームワークのメインエンコーダネットワークおよびハイパーエンコーダネットワーク内のパラメータのサブセットを調整可能にして前記オンライン訓練を実行する
ように構成される、請求項11に記載の装置。

前記処理回路が、
前記NICフレームワークのメインエンコーダネットワークまたはハイパーエンコーダネットワーク内の層のパラメータを調整可能にして前記オンライン訓練を実行する
ように構成される、請求項11に記載の装置。

前記処理回路が、
前記NICフレームワークのメインエンコーダネットワークまたはハイパーエンコーダネットワークの層内のチャネルのパラメータを調整可能にして前記オンライン訓練を実行する
ように構成される、請求項11に記載の装置。

前記処理回路が、
入力画像を複数のブロックに分割し、
前記複数のブロックにそれぞれのステップサイズを割り当て、
前記それぞれのステップサイズを有する前記複数のブロックに従って前記NICフレームワークの前記オンライン訓練を実行する
ように構成される、請求項11に記載の装置。

前記処理回路が、
前記入力画像内のコンテンツの種類に基づいて入力画像にステップサイズを割り当て、
前記ステップサイズを有する前記入力画像に従って前記NICフレームワークの前記オンライン訓練を実行する
ように構成される、請求項11に記載の装置。