JP2024519246A - ニューラル画像圧縮のための潜在空間における代用品質ファクタ学習 - Google Patents

ニューラル画像圧縮のための潜在空間における代用品質ファクタ学習 Download PDF

Info

Publication number
JP2024519246A
JP2024519246A JP2023547760A JP2023547760A JP2024519246A JP 2024519246 A JP2024519246 A JP 2024519246A JP 2023547760 A JP2023547760 A JP 2023547760A JP 2023547760 A JP2023547760 A JP 2023547760A JP 2024519246 A JP2024519246 A JP 2024519246A
Authority
JP
Japan
Prior art keywords
computing
adp
quality factor
target quality
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023547760A
Other languages
English (en)
Inventor
ジャン,ウェイ
ワン,ウェイ
リウ,シャン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2024519246A publication Critical patent/JP2024519246A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

潜在空間において代用品質ファクタ学習を使用したニューラル画像圧縮であって、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、圧縮されたビットストリームのデコードされた潜在表現と目標品質ファクタとに基づいて、再構成画像を計算するステップと、畳み込みニューラルネットワークの1つ以上の層の共有デコードパラメータ(SDP)を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、共有特徴、適応的デコードパラメータ(ADP)、及び目標品質ファクタに基づいて、畳み込みニューラルネットワークの1つ以上の層のための推定ADPをコンピューティングするステップと、畳み込みニューラルネットワークの1つ以上の層における推定ADP及び共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む。

Description

本出願は、2021年12月13日に出願された米国仮特許出願第63/289,048号、2021年10月18日に出願された米国仮特許出願第63/257,005号、及び2022年9月21日に出願された米国特許出願第17/949,434号に基づき、かつこれらに対する優先権を主張し、これらの開示は、その全体が参照により本明細書に組み込まれる。
本開示の例示的な実施形態と一致する装置及び方法は、ニューラル画像圧縮のための潜在空間における代用品質ファクタ学習に関する。
ISO/IEC MPEG(JTC 1/SC 29/WG 11)は、高度なニューラル画像やビデオ圧縮方法論を含む将来のビデオコーディング技術の標準化に対する潜在的なニーズを積極的に探求している。ISO/IEC JPEGは、ニューラルネットワーク(NN)を使用したAIベースのエンドツーエンドニューラル画像圧縮(NIC)に焦点を当てたJPEG-AIグループを設立している。
以前のアプローチは有望な性能を示したが、柔軟なビットレート制御は以前のNIC法にとって挑戦的な問題のままである。従来は、レートと歪み(圧縮された画像の品質)との間の所望のトレードオフを個別に目標とする複数のモデルインスタンスを訓練することが必要とされることがある。異なるビットレートから画像を再構成するために、これらの複数のモデルインスタンスのすべてがデコーダ側に記憶及びデプロイされることがある。また、これらのモデルインスタンスは、すべての可能な目標ビットレートに対して無限個のモデルインスタンスを訓練及び記憶することが難しいため、任意の滑らかなビットレート制御を与えることができない。以前のアプローチでは、1つのモデルインスタンスが複数の事前定義ビットレートの圧縮を達成するように訓練されるマルチレートNICが研究されてきた。しかし、任意の滑らかなビットレート制御は未開拓の未解決問題のままである。
いくつかの実施形態によれば、方法が、潜在空間における代用品質ファクタ学習を使用したニューラル画像圧縮について提供され、本方法は、少なくとも1つのプロセッサによって実行され、本方法は、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、圧縮されたビットストリームのデコードされた潜在表現と目標品質ファクタとに基づいて、再構成画像を計算するステップと、を含み、再構成画像を計算するステップは、畳み込みニューラルネットワークの1つ以上の層の共有デコードパラメータ(SDP)を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、共有特徴、適応的デコードパラメータ(ADP)、及び目標品質ファクタに基づいて、畳み込みニューラルネットワークの1つ以上の層のための推定ADPをコンピューティングするステップと、畳み込みニューラルネットワークの1つ以上の層における推定ADP及び共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む。
例示的な実施形態によれば、コンピュータプログラムコードを記憶するように構成されている少なくとも1つのメモリと、少なくとも1つのメモリにアクセスし、コンピュータプログラムコードによって命令されるように動作するように構成されている少なくとも1つのプロセッサと、を含む、装置が提供されてもよく、コンピュータプログラムコードは、少なくとも1つのプロセッサに、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信させるように構成されている受信コードと、少なくとも1つのプロセッサに、圧縮されたビットストリームのデコードされた潜在表現を計算させるように構成されている第1の計算コードと、少なくとも1つのプロセッサに、圧縮されたビットストリームのデコードされた潜在表現及び目標品質ファクタに基づいて再構成画像を計算させるように構成されている第2の計算コードと、を含み、第2の計算コードは、少なくとも1つのプロセッサに、畳み込みニューラルネットワークの1つ以上の層の共有デコードパラメータ(SDP)を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングさせるように構成されている第1のコンピューティングコードと、少なくとも1つのプロセッサに、共有特徴、適応的デコードパラメータ(ADP)、及び目標品質ファクタに基づいて、畳み込みニューラルネットワークの1つ以上の層のための推定ADPをコンピューティングさせるように構成されている第2のコンピューティングコードと、少なくとも1つのプロセッサに、1つ以上の層における推定ADP及び共有特徴に基づいて、出力テンソルをコンピューティングさせるように構成されている第3のコンピューティングコードと、を含むようにさらに構成されている。
いくつかの実施形態によれば、命令を記憶した非一時的なコンピュータ可読記録媒体が提供されてもよく、命令は、デコーダ内の少なくとも1つのプロセッサによって実行されるときに、プロセッサに、潜在空間における代用品質ファクタ学習を使用したニューラル画像圧縮のための方法を実行させ、本方法は、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、圧縮されたビットストリームのデコードされた潜在表現と目標品質ファクタとに基づいて、再構成画像を計算するステップと、を含み、再構成画像を計算するステップは、畳み込みニューラルネットワークの1つ以上の層の共有デコードパラメータ(SDP)を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、共有特徴、適応的デコードパラメータ(ADP)、及び目標品質ファクタに基づいて、畳み込みニューラルネットワークの1つ以上の層のための推定ADPをコンピューティングするステップと、推定ADP及び共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む。
本開示の例示的な実施形態の特徴、利点、及び重要性は、添付の図面を参照して以下に説明される。添付の図面において、同様の符号は同様の要素を示す。
本明細書で説明されるシステム及び/又は方法が実装され得る例示的な環境の図である。 図1の1つ以上のデバイスの例示的なコンポーネントのブロック図である。 実施形態による、メタ学習による適応的ニューラル画像圧縮のためのメタNICアーキテクチャ300Aのブロック図である。 実施形態による、メタ学習による適応的ニューラル画像圧縮のためのメタNICアーキテクチャ300Bのブロック図である。 実施形態による、テスト段階中のメタ学習による適応的ニューラル画像圧縮のための装置400のブロック図である。 実施形態による、テスト段階中のメタ学習による適応的ニューラル画像圧縮のための装置400のブロック図である。 メタNICデコーダの推論ワークフローのブロック図である。 実施形態による、メタ学習によるテスト段階におけるエンコーダワークフローのためのメタNICアーキテクチャ500Aのブロック図である。 実施形態による、メタ学習によるテスト段階におけるエンコーダワークフローのためのメタNICアーキテクチャ500Bのブロック図である。 潜在空間における代用品質ファクタ学習を使用したニューラル画像圧縮のための方法のフローチャートである。
本開示は、デコードされた潜在空間内の代用(substitutional)品質ファクタ(QF、Quality Factor)を見出すことによるメタニューラル画像圧縮(meta-NIC)フレームワークのための方法及び装置を説明する。メタ学習メカニズムを使用して、入力画像のデコードされた潜在的特徴及び目標圧縮品質に基づいて、エンコーダ上の各画像に対する代用品質制御パラメータを適応的にコンピューティングしてもよい。代用品質制御パラメータを使用して、デコーダが画像を再構成しているときに、コンピューティングされた品質適応的重みパラメータを目標画像のより良い回復に向けて改善してもよい。
図1は、実施形態による、本明細書で説明される方法、装置、及びシステムが実装され得る環境100の図である。
図1に示すように、環境100は、ユーザデバイス110、プラットフォーム120、及びネットワーク130を含み得る。環境100のデバイスは、有線接続、無線接続、又は有線及び無線接続の組み合わせを介して相互接続し得る。
ユーザデバイス110は、プラットフォーム120に関連する情報を受信、生成、記憶、処理、及び/又は提供することが可能な1つ以上のデバイスを含む。例えば、ユーザデバイス110は、コンピューティングデバイス(例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど)、携帯電話(例えば、スマートフォン、無線電話等)、ウェアラブルデバイス(例えば、一対のスマートグラス若しくはスマートウオッチ)、又は類似のデバイスを含んでもよい。いくつかの実装において、ユーザデバイス110は、プラットフォーム120から情報を受信し、及び/又はプラットフォーム120に情報を送信してもよい。
プラットフォーム120は、本明細書の他の箇所で説明されるように、1つ以上のデバイスを含む。いくつかの実装において、プラットフォーム120は、クラウドサーバ又はクラウドサーバのグループを含んでもよい。いくつかの実装において、プラットフォーム120は、ソフトウェアコンポーネントがスワップイン又はスワップアウトされるように、モジュール化されるように設計されてもよい。そのようなものとして、プラットフォーム120は、異なる使用のために容易に及び/又は迅速に再構成されてもよい。
いくつかの実装において、図示のように、プラットフォーム120は、クラウドコンピューティング環境122においてホストされてもよい。特に、本明細書で説明される実装は、プラットフォーム120をクラウドコンピューティング環境122でホストされるものとして説明するが、いくつかの実装において、プラットフォーム120は、クラウドベースではなくてもよいし(すなわち、クラウドコンピューティング環境の外部で実装されてもよい)、部分的にクラウドベースであってもよい。
クラウドコンピューティング環境122は、プラットフォーム120をホストする環境を含む。クラウドコンピューティング環境122は、プラットフォーム120をホストするシステム及び/又はデバイスの物理的な位置及び構成のエンドユーザ(例えば、ユーザデバイス100)の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供してもよい。図示のように、クラウドコンピューティング環境122は、コンピューティングリソース124のグループ(まとめて「コンピューティングリソース124」と呼ぶか、個々に「コンピューティングリソース124」と呼ぶ)を含んでもよい。
コンピューティングリソース124は、1つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、又は他のタイプの計算及び/又は通信デバイスを含む。いくつかの実装において、コンピューティングリソース124はプラットフォーム120をホストしてもよい。クラウドリソースは、コンピューティングリソース124において実行するコンピューティングインスタンス、コンピューティングリソース124において提供されるストレージデバイス、コンピューティングリソース124によって提供されるデータ転送デバイスなどを含んでもよい。いくつかの実装において、コンピューティングリソース124は、有線接続、無線接続、又は有線及び無線接続の組み合わせを介して、他のコンピューティングリソース124と通信し得る。
図1にさらに示すように、計算リソース124は、1つ以上のアプリケーション(「APP」)124-1、1つ以上の仮想マシン(「VM」)124-2、仮想化ストレージ(「VS」)124-3、1つ以上のハイパーバイザ(「HYP」)124-4などのクラウドリソースのグループを含む。
アプリケーション124-1は、ユーザデバイス110及び/又はプラットフォーム120に提供されるか、又はこれらによってアクセスされ得る1つ以上のソフトウェアアプリケーションを含む。アプリケーション124-1は、ユーザデバイス110にソフトウェアアプリケーションをインストールして実行する必要性を排除してもよい。例えば、アプリケーション124-1は、プラットフォーム120に関連するソフトウェア、及び/又はクラウドコンピューティング環境122を介して提供可能な他の任意のソフトウェアを含んでもよい。いくつかの実装において、1つのアプリケーション124-1は、仮想マシン124-2を介して、1つ以上の他のアプリケーション124-1に情報を送信する/これらから情報を受信してもよい。
仮想マシン124-2は、物理マシンのようにプログラムを実行するマシン(例えば、コンピュータ)のソフトウェア実装を含む。仮想マシン124-2は、仮想マシン124-2によるあらゆる実マシンへの使用及び対応の程度に応じて、システム仮想マシン又はプロセス仮想マシンのいずれであってもよい。システム仮想マシンは、完全なオペレーティングシステム(「OS」)の実行をサポートする完全なシステムプラットフォームを提供してもよい。プロセス仮想マシンは、単一のプログラムを実行し、単一のプロセスをサポートしてもよい。いくつかの実装において、仮想マシン124-2は、ユーザ(例えば、ユーザデバイス110)に代わって実行し得、データ管理、同期化、又は長時間データ転送のようなクラウドコンピューティング環境122のインフラストラクチャを管理してもよい。
仮想化ストレージ124-3は、コンピューティングリソース124の記憶システム又はデバイス内で仮想化技術を使用する1つ以上のストレージシステム及び/又は1つ以上のデバイスを含む。いくつかの実装において、ストレージシステムの文脈内で、仮想化のタイプは、ブロック仮想化及びファイル仮想化を含んでもよい。ブロック仮想化は、物理ストレージ又は異種構造に関係なくストレージシステムにアクセスできるように、物理ストレージからの論理ストレージの抽象化(又は分離)を指してもよい。この分離により、ストレージシステムの管理者は、エンドユーザに対するストレージを管理する方法に柔軟性を持たせることが可能となってもよい。ファイル仮想化は、ファイルレベルでアクセスされるデータと、ファイルが物理的に記憶される位置との間の依存関係を排除してもよい。これにより、ストレージの使用、サーバの統合、及び/又は継続的なファイル移行のパフォーマンスの最適化を可能にしてもよい。
ハイパーバイザ124-4は、複数のオペレーティングシステム(例えば、「ゲストオペレーティングシステム」)が、コンピュータリソース124などのホストコンピュータで同時に実行することを可能にするハードウェア仮想化技術を提供してもよい。ハイパーバイザ124-4は、ゲストオペレーティングシステムに対して仮想オペレーティングプラットフォームを提示し、ゲストオペレーティングシステムの実行を管理してもよい。様々なオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共有してもよい。
ネットワーク130は、1つ以上の有線及び/又は無線ネットワークを含む。例えば、ネットワーク130は、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワークなど)、公衆陸上移動体網(PLMN)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)、電話網(例えば、公衆交換電話網(PSTN))、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、及び/又はこれら又は他のタイプのネットワークの組み合わせを含んでもよい。
図1に示すデバイス及びネットワークの数及び配置は、一例として提供される。実際には、図1に示されたものよりも、追加のデバイス及び/又はネットワーク、より少ないデバイス及び/又はネットワーク、異なるデバイス及び/又はネットワーク、又は異なる配置のデバイス及び/又はネットワークがあってもよい。さらに、図1に示す2つ以上のデバイスは、単一のデバイス内に実装されてもよいし、図1に示す単一のデバイスは、複数の分散されたデバイスとして実装されてもよい。追加的又は代替的に、環境100のデバイスのセット(例えば、1つ以上のデバイス)は、環境100の別のデバイスのセットによって実行されるものとして説明される1つ以上の動作を実行してもよい。
図2は、図1の1つ以上のデバイスの例示的なコンポーネントのブロック図である。
デバイス200は、ユーザデバイス110及び/又はプラットフォーム120に対応してもよい。図2に示すように、デバイス200は、バス210、プロセッサ220、メモリ230、ストレージコンポーネント240、入力コンポーネント250、出力コンポーネント260、及び通信インターフェース270を含んでもよい。
バス210は、デバイス200のコンポーネント間の通信を可能にするコンポーネントを含む。プロセッサ220は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実装されてもよい。プロセッサ220は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、加速処理ユニット(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、又は別のタイプの処理コンポーネントである。いくつかの実装において、プロセッサ220は、動作を実行するようにプログラムされることが可能な1つ以上のプロセッサを含む。メモリ230は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、及び/又は、プロセッサ220による使用のための情報及び/又は命令を記憶する別のタイプのダイナミック又はスタティックストレージデバイス(例えば、フラッシュメモリ、磁気メモリ、及び/又は、光メモリ)を含む。
ストレージコンポーネント240は、デバイス200の動作及び使用に関連する情報及び/又はソフトウェアを記憶する。例えば、ストレージコンポーネント240は、ハードディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、及び/又はソリッドステートディスク)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピーディスク、カートリッジ、磁気テープ、及び/又は他のタイプの非一時的コンピュータ可読媒体を、対応するドライブと共に含んでもよい。
入力コンポーネント250は、デバイス200がユーザ入力(例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び/又はマイクロホン)を介して情報を受信することを可能にするコンポーネントを含む。追加的又は代替的に、入力コンポーネント250は、情報(例えば、全地球測位システム(GPS)コンポーネント、加速度計、ジャイロスコープ、及び/又はアクチュエータ)を感知するためのセンサを含んでもよい。出力コンポーネント260は、デバイス200からの出力情報を提供するコンポーネント(例えば、ディスプレイ、スピーカ、及び/又は1つ以上の発光ダイオード(LED))を含む。
通信インターフェース270は、デバイス200が有線接続、無線接続、又は有線及び無線接続の組み合わせを介して他のデバイスと通信することを可能にするトランシーバ様コンポーネント(例えば、トランシーバ及び/又は別個の受信機及び送信機)を含む。通信インターフェース270は、デバイス200が別のデバイスから情報を受信し、及び/又は別のデバイスに情報を提供することを可能にしてもよい。例えば、通信インターフェース270は、Ethernet(登録商標)インターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF)インターフェース、ユニバーサルシリアルバス(USB)インターフェース、Wi-Fi(登録商標)インターフェース、セルラーネットワークインターフェースなどを含んでもよい。
デバイス200は、本明細書で説明される1つ以上のプロセスを実行してもよい。デバイス200は、メモリ230及び/又はストレージコンポーネント240などの非一時的コンピュータ可読媒体によって記憶されたソフトウェア命令をプロセッサが実行することに応答して、これらのプロセスを実行してもよい。コンピュータ可読媒体は、本明細書において、非一時的メモリデバイスとして定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリスペース、又は複数の物理ストレージデバイスに拡散したメモリスペースを含む。
ソフトウェア命令は、別のコンピュータ可読媒体から、又は通信インターフェース270を介して別のデバイスから、メモリ230及び/又はストレージコンポーネント240に読み出されてもよい。実行されるときに、メモリ230及び/又はストレージコンポーネント240に記憶されたソフトウェア命令は、プロセッサ220に本明細書で説明される1つ以上のプロセスを実行させてもよい。追加的又は代替的に、ハードワイヤード回路を、本明細書で説明される1つ以上のプロセスを実行するために、ソフトウェア命令の代わりに、又はそれと組み合わせて使用してもよい。したがって、本明細書で説明される実施形態は、ハードウェア回路とソフトウェアのいかなる特定の組み合わせにも限定されない。
図2に示すコンポーネントの数及び配置は、一例として提供される。実際には、デバイス200は、図2に示されるものよりも追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる配置のコンポーネントを含んでもよい。追加的又は代替的に、デバイス200のコンポーネントのセット(例えば、1つ以上のコンポーネント)は、デバイス200の別のコンポーネントのセットによって実行されるものとして説明される1つ以上の動作を実行してもよい。
本開示は、デコードされた潜在空間において代用QFをサポートするメタNICフレームワークを提案する。メタ学習メカニズムを使用して、入力画像のデコードされた潜在的特徴及び目標圧縮品質に基づいて、エンコーダ上の各画像に対する代用品質制御パラメータを適応的にコンピューティングしてもよい。代用品質制御パラメータを使用して、デコーダが画像を再構成しているときに、コンピューティングされた品質適応的重みパラメータを目標画像のより良い回復に向けて改善してもよい。
サイズ(h,w,c)の入力画像xが与えられ、ここで、h、w、cは、それぞれ高さ、幅、チャネル数であり、NICワークフローのテスト段階の目標は、以下のように説明される。入力画像xは、正規の画像フレーム(t=1)、複数の画像フレーム(t>1)を含む4次元ビデオシーケンスなどであってもよい。各画像フレームは、カラー画像(c=3)、グレースケール画像(c=1)、rgb+深度画像(c=4)などであってもよい。ストレージ及び伝送のためにコンパクトであり得る圧縮された表現
Figure 2024519246000002
がコンピューティングされてもよい。次いで、圧縮された表現
Figure 2024519246000003
に基づいて、出力画像
Figure 2024519246000004
が再構成されてもよく、再構成された出力画像
Figure 2024519246000005
が、元の入力画像xに類似し得る。歪み損失
Figure 2024519246000006
が使用されて、ピーク信号対雑音比(PSNR)又は構造的類似性指数尺度(SSIM)などの再構成エラーを測定してもよい。レート損失
Figure 2024519246000007

が、圧縮された表現
Figure 2024519246000008
のビット消費を測定するためにコンピューティングされてもよい。トレードオフハイパーパラメータλが使用されて、結合レート歪み(R-D)損失
Figure 2024519246000009
を形成してもよい。
大きなハイパーパラメータλを用いたトレーニングは、より小さな歪みを有するがより多くのビット消費を有する圧縮モデルをもたらすことがあり、逆もまた同様である。従来、各事前定義ハイパーパラメータλに対して、NICモデルインスタンスが訓練されるが、これは、ハイパーパラメータλの他の値に対してはうまく機能しない。したがって、圧縮されたストリームの複数のビットレートを達成するために、従来の方法は、複数のモデルインスタンスの訓練及び記憶を必要とすることがある。さらに、ハイパーパラメータλのすべての可能な値に対してモデルを訓練することは実際には困難であるため、従来の方法は、任意の滑らかなビットレート制御のような任意の滑らかな品質制御を達成することができない。追加的に、モデルインスタンスは、各タイプのメトリックによって測定された損失を最適化するように訓練される必要があり(例えば、各歪みメトリック、すなわちPSNR、SSIM、両方の重み付けされた組み合わせ、又は他のメトリックに対して)、従来の方法は、滑らかな品質メトリック制御を達成することができない。
図3A及び図3Bは、実施形態による、メタ学習による適応的ニューラル画像圧縮のためのメタNICアーキテクチャ300A及び300Bのブロック図である。
図3Aに示すように、メタNICアーキテクチャ300Aは、共有デコードNN 305及び適応的デコードNN310を含む。
図3Bに示すように、メタNICアーキテクチャ300Bは、共有デコード層325及び330と、適応的デコード層335及び340と、を含む。
本開示では、下位NICエンコーダ及び下位NICデコーダのモデルパラメータを、共有デコードパラメータ(SDP、Shared Decodeing Paramter)及び適応的デコードパラメータ(ADP、Adaptive Decoding Parameter)をそれぞれ示す2つの部分
Figure 2024519246000010
及び
Figure 2024519246000011
に分離する。図3A及び図3Bは、NICネットワークアーキテクチャの2つの実施形態を示す。
図3Aでは、SDPとADPが分離された個々のNNモジュールであり、これらの個々のモジュールはネットワーク順方向コンピューティングのために互いに順次接続される。ここで、図3Aは、これら個々のNNモジュールを接続する順番を示している。他の順序も同様に使用されてもよい。
図3Bでは、パラメータは、NNレイヤ内でスプリットされてもよい。
Figure 2024519246000012
及び
Figure 2024519246000013
が、それぞれNICデコーダのj番目の層に対するSDP及びADPを示すものとする。ネットワークは、SDP及びADPのそれぞれに対応する入力に基づいて推論出力をコンピューティングし、これらの出力は、(例えば、加算、連結、乗算などによって)組み合わせられ、次の層に送信される。
図3Aの実施形態は、図3Bの1ケースとして見てもよく、ここでは、共有デコードNN315における層の
Figure 2024519246000014
と適応的デコードNN320における層の
Figure 2024519246000015
は、空である。したがって、他の実施形態では、図3A及び3Bのネットワーク構造を組み合わせられてもよく、ここでは、NICアーキテクチャは、純粋に共有されたエンコード/デコード層及び/又は純粋に適応的なエンコード/デコード層と、部分的に共有されたエンコード/デコードパラメータ及び部分的に適応的なエンコード/デコードパラメータを有する混合層との両方を含む。
いくつかの実施形態では、エンコーダのNN構造体は、いかなる制限も有さない。例えば、各画像xに対して、圧縮された表現
Figure 2024519246000016
が、NNベースのエンコーダによって生成されてもよい。次いで、圧縮された表現
Figure 2024519246000017
は、量子化され、エントロピーエンコードされてビットストリーム
Figure 2024519246000018
を生成し、次いで、エントロピーデコードされ、量子化解除されてデコードされた潜在表現
Figure 2024519246000019
を生成する。いくつかの実施形態では、個々のエンコーダモデルインスタンスは、各所望の圧縮品質に対して使用されてもよい。他の実施形態では、メタNICデコーダに類似するメタNICエンコーダが、共有及び適応的なエンコードパラメータと共に使用されてもよい。
図4A及び図4Bは、実施形態による、テスト段階中のメタ学習による適応的ニューラル画像圧縮のための装置400のブロック図である。追加的に、図4Cは、メタNICデコーダの推論ワークフローのブロック図である。
図4Aに示すように、装置400は、デコーダ410とメタNICデコーダ420と、を含む。
図4Bに示すように、メタNICアーキテクチャ400Bは、デコーダ410と、代用摂動生成(Substitutional Perturbation Generation)モジュール420と、メタNICデコーダ430と、を含む。
図4Cでは、メタNICアーキテクチャ400Bは、SDP推論モジュール422と、ADP予測モジュール424と、ADP推論モジュール426と、を含む。
図4Aは、メタNICフレームワークのテスト段階におけるデコーダの全体的なワークフローを示す。
Figure 2024519246000020
及び
Figure 2024519246000021
が、それぞれNICデコーダ420のj番目の層に対するSDP及びADPを示すものとする。完全に共有されている層では、
Figure 2024519246000022
が空であるため、これは、例示的な表記である。完全に適応的な層では、
Figure 2024519246000023
が空である。言い換えれば、この表記は、図3A及び図3Bの両方の実施形態に対して使用されてもよい。
図4A及び図4Bでは、圧縮されたビットストリーム
Figure 2024519246000024
が受信され、これは、デコードモジュール410(典型的にはエントロピーデコード及び量子化解除動作を含む)を通過して、デコードされた潜在表現
Figure 2024519246000025
をコンピューティングしてもよい。同時に、目標QF
Figure 2024519246000026
が受信されてもよく、これは、エンコーダから送信され、再構成画像の目標圧縮品質を示す。QF
Figure 2024519246000027
の詳細は、エンコード処理において後に説明する。追加的に、図4Bでは、メタNICデコードモジュール430が、再構成画像
Figure 2024519246000028
を、潜在表現
Figure 2024519246000029
及び目標QF
Figure 2024519246000030
に基づいてコンピューティングする。メタNICデコードモジュール430では、
Figure 2024519246000031
が、メタNICデコードNNを通過してもよい。f(j)とf(j+1)が、j層の入力及び出力テンソルとする。
図4Cは、第j層に対するメタNICデコーダの推論ワークフローの実施形態を与える。
f(j)及び
Figure 2024519246000032
に基づいて、SDP推論モジュール422は、共有推論演算
Figure 2024519246000033
に基づいた共有特徴量g(j)を計算する(例えば、演算は、第j層のSDPを使用したネットワーク順方向計算によってモデル化されてもよい)。
ADP予測モジュール424は、f(j)、g(j)、
Figure 2024519246000034
及び
Figure 2024519246000035
に基づいて、第j層に対する推定ADP
Figure 2024519246000036
をコンピューティングする。
ADP予測モジュール424は、典型的には、(例えば、畳み込み層及び全結合層を有する)NNであり、これは、更新
Figure 2024519246000037
を元のADP
Figure 2024519246000038
、現在の入力、及び目標品質インジケータ
Figure 2024519246000039
に基づいて予測する。図4Cの実施形態では、f(j)は、ADP予測モジュール424への入力として使用されてもよい。他の実施形態では、f(j)の代わりにg(j)が使用されてもよい。他の実施形態では、SDP損失が、g(j)に基づいて計算されてもよく、損失の勾配が、ADP予測への入力として使用されてもよい。推定ADP
Figure 2024519246000040
と共有特徴量g(j)に基づいて、ADP推論モジュール426は、ADP推論426演算
Figure 2024519246000041
に基づいた出力テンソルf(j+1)をコンピューティングする(例えば、演算は、第j層における推定ADPを使用してネットワーク順方向コンピューティングによりモデル化されてもよい)。
図4Cで説明されるワークフローは、一般的な表記である。
Figure 2024519246000042
が空である完全に共有されている層では、ADP関連のモジュール及びf(j+1)=g(j)が省略される。
Figure 2024519246000043
が空である完全に共有されている層では、SDP関連のモジュール及びg(j)=f(j)が省略される。
メタNICデコーダに対して合計M層があると仮定すると、最後の層の出力は再構成画像
Figure 2024519246000044
をもたらしてもよい。
追加的に、図4Bでは、デコードされた潜在
Figure 2024519246000045
が、代用摂動生成モジュール420を通過してもよく、このモジュールは、代用潜在
Figure 2024519246000046
を、潜在
Figure 2024519246000047
及びQF
Figure 2024519246000048
に基づいてコンピューティングする。この代用潜在
Figure 2024519246000049
は、元の
Figure 2024519246000050
の代わりにメタNICデコードモジュール430に渡されて、再構成画像
Figure 2024519246000051
をコンピューティングしてもよい。
図5A及び図5Bは、実施形態による、メタ学習によるテスト段階におけるエンコーダワークフローのためのメタNICアーキテクチャ500A及び500Bのブロック図である。
図5Aに示すように、メタNICアーキテクチャ500Aは、NNエンコードモジュール505、エンコードモジュール510、デコードモジュール515と、メタNICデコードモジュール520と、歪み損失コンピューティングモジュール525と、逆伝播モジュール530と、を含む。
図5Bに示すように、メタNICアーキテクチャ500Bは、NNエンコードモジュール535、エンコードモジュール540、デコードモジュール545と、代用摂動生成モジュール550、メタNICデコードモジュール555と、歪み損失コンピューティングモジュール560と、逆伝播モジュール565と、を含む。
図5Aにおいて、入力画像xが与えられ、元の目標QF
Figure 2024519246000052
が与えられると、NICエンコーダ505は、エンコードされた潜在
Figure 2024519246000053
及びエンコードされたビットストリームを生成してもよい。さらに、エンコーダ510は、デコードされた潜在
Figure 2024519246000054
をコンピューティングしてもよい。元の目標QF
Figure 2024519246000055
は、目標品質メトリック、目標ビットレートなどを含む目標圧縮品質を示す。例えば、合計でq個の品質メトリック
Figure 2024519246000056
(例えば、PSNR、SSIMなど)があると仮定すると、全体的な品質メトリックは、一般に、以下のようにそれらの重み付けされた組み合わせとして表されてもよい。
Figure 2024519246000057
ここで、重み
Figure 2024519246000058
である。元の目標QF
Figure 2024519246000059
は、すべての重みwと目標トレードオフハイパーパラメータλを含む単一のベクトルである。すなわち、
Figure 2024519246000060
である。
次いで、デコードモジュール510からのデコードされた潜在
Figure 2024519246000061
は、メタNICデコードモジュール520に渡されてもよく、このメタNICデコードモジュールは、上述したデコーダにおけるメタNICデコードモジュールと同様に動作する。メタNICデコードモジュール520が、再構成画像
Figure 2024519246000062
を、
Figure 2024519246000063
及び目標QF
Figure 2024519246000064
に基づいてコンピューティングする。初期
Figure 2024519246000065
は、単に、元の目標QF
Figure 2024519246000066
と同じにセットされてもよい。次いで、元の入力xと再構成
Figure 2024519246000067
との間の再構成損失(例えば、MSE又はMSSSIM)が、歪み損失計算モジュール525でコンピューティングされてもよい。次いで、損失の勾配がコンピューティングされ、逆伝播モジュール530によって逆伝播されて、目標QF
Figure 2024519246000068
を更新してもよい。メタNICデコードモジュール520は、更新された目標QF
Figure 2024519246000069
とデコードされた潜在
Figure 2024519246000070
とに基づいて、更新された再構成画像
Figure 2024519246000071
をコンピューティングしてもよい。システムはいくつかのそのような反復を経て、最終的に、更新された目標QF
Figure 2024519246000072
を取得してもよく、これは、圧縮されたビットストリーム
Figure 2024519246000073
と共にデコーダ側に送信されてもよい。
いくつかの実施形態では、更新された目標QF
Figure 2024519246000074
は、伝送オーバーヘッドをさらに低減するために、量子化及びエントロピーエンコードのようなエンコードプロセスをさらに経てもよい。
図5Bでは、デコードされた潜在
Figure 2024519246000075
が、デコーダ側と同じである代用摂動生成モジュール550を通過してもよく、このモジュールは、代用潜在
Figure 2024519246000076
を、潜在
Figure 2024519246000077
及びQF
Figure 2024519246000078
に基づいてコンピューティングする。この代用潜在
Figure 2024519246000079
は、元の
Figure 2024519246000080
の代わりにメタNICデコードモジュール555に渡されて、再構成画像
Figure 2024519246000081
をコンピューティングしてもよい。
提案したメタNICフレームワークは、再構成のためにデコーダ側で任意の滑らかなQF
Figure 2024519246000082
可能にする。言い換えれば、上述した処理ワークフローは、任意の滑らかな目標QF
Figure 2024519246000083
にフィッティングするように、圧縮表現及び再構成画像をコンピューティングする。
いくつかの実施形態によれば、訓練プロセスが実装されてもよく、訓練プロセスは、メタNICエンコーダ、メタNICデコーダのためのSDP
Figure 2024519246000084
及びADP
Figure 2024519246000085
、ADP予測NN(
Figure 2024519246000086
として示されるモデルパラメータ)、ならびに代用摂動生成モジュール(例えば、図4B及び図5B参照)のためのパラメータを学習することを目的とする。
メタNICエンコーダ及びメタNICデコーダは、MAML(Model-Agnostic Meta-Learning)メカニズムを介してエンドツーエンド方式で訓練されてもよい。基礎となるメタNICエンコーダ及びデコーダが訓練されると、代用摂動生成モジュールは、メタNICエンコーダ及びデコーダパラメータを固定することによって訓練される一方で、フィッティング損失を最小化して、代用潜在表現
Figure 2024519246000087
をデコードされた潜在
Figure 2024519246000088
から計算する。ここで、代用潜在表現
Figure 2024519246000089
は、いくつかのメトリックによって測定された元のデコードされた潜在
Figure 2024519246000090
よりも良好である(例えば、メタNICデコードモジュールによって、元のデコードされた潜在
Figure 2024519246000091
よりも良好な再構成画像を、より少ない歪み又は良好な知覚品質で生成し得る)。
図6は、潜在空間における代替的品質ファクタ学習を使用したニューラル画像圧縮のためのプロセス600の実施形態のフローチャートである。
図6に示すように、プロセス600の動作610において、圧縮されたビットストリーム及び目標圧縮品質が受信される。プロセスは、動作620に進み、図4A及び図4Bに示すように、圧縮されたビットストリームのデコードされた潜在表現が計算される。すなわち、デコードされた潜在表現が、再構成画像を計算するために使用されてもよい。
プロセスは、動作630に進み、共有特徴がSDPに基づいてコンピューティングされてもよい。プロセスは、動作640に進み、図4Cに示すように、畳み込みニューラルネットワークの1つ以上の層に対してADPがコンピューティングされる。したがって、出力テンソルが、推定されたADP及び共有特徴に基づいてコンピューティングされてもよい。
前述の開示は、例示及び説明を提供するが、網羅的であることを意図しておらず、また、実装を開示された正確な形態に限定することを意図していない。修正及び変形は、上記の開示に照らして可能であるか、又は実装の実施から取得されてもよい。さらに、1つの実施形態の1つ以上の特徴又はコンポーネントは、別の実施形態(又は別の実施形態の1つ以上の特徴)に組み込まれてもよく、又は別の実施形態と組み合わされてもよい。追加的に、以下に提供されるフローチャート及び動作の説明において、1つ以上の動作が省略されてもよく、1つ以上の動作が追加されてもよく、1つ以上の動作が同時に(少なくとも部分的に)実行されてもよく、1つ以上の動作の順序が切り替えられてもよいことが理解される。
本明細書で説明されるシステム及び/又は方法は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせの異なる形態で実装され得ることは明らかであろう。これらのシステム及び/又は方法を実装するために使用される実際の専用制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、システム及び/又は方法の動作及び挙動は、特定のソフトウェアコードを参照することなく、本明細書で説明されている。ソフトウェア及びハードウェアは、本明細書における説明に基づいてシステム及び/又は方法を実装するように設計され得ることが理解される。
特徴の特定の組み合わせが特許請求の範囲に規定され、及び/又は明細書に開示されているとしても、これらの組み合わせは、可能な実装の開示を限定するものではない。実際、これらの特徴の多くは、具体的に特許請求の範囲に規定されていない、及び/又は明細書に開示されていない方法で組み合わせられてもよい。以下に列挙される各従属請求項は、1のクレームのみに直接従属してもよいが、可能な実装の開示は、クレームセットにおいて、他の全てのクレームと組み合わせた各従属クレームを含む。
本明細書で使用されるいかなる要素、行為、又は命令も、明示的に記述されない限り、重要又は必須と解釈されるべきではない。また、本明細書で使用される場合、「a」及び「an」という冠詞は、1つ以上の項目を含むことを意図し、「1つ以上」と互換的に使用されてもよい。1つの項目のみが意図される場合、「1つ」という用語又は類似の言語が使用される。また、本明細書で使用される場合、「有する(has)」、「有する(have)」、「有している(having)」、「含む(include)」、「含んでいる(including)」などの用語は、オープンエンドの用語であることを意図している。さらに、「~に基づく」という語句は、明示的に別段の記載がない限り、「~に少なくとも部分的に基づく」を意味することを意図している。さらに、「[A]及び[B]のうちの少なくとも1つ」又は「[A]又は[B]のうちの少なくとも1つ」などの表現は、Aのみ、Bのみ、又はAとBの両方を含むとして理解されるべきである。

Claims (20)

  1. 少なくとも1つのプロセッサによって実行される、ニューラル画像圧縮のための方法であって、
    圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、
    前記圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、
    前記圧縮されたビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、再構成画像を計算するステップと、を含み、前記再構成画像を計算するステップは、
    (i)畳み込みニューラルネットワークの1つ以上の層の共有デコードパラメータ(SDP)を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、
    (ii)前記共有特徴、適応的デコードパラメータ(ADP)、及び前記目標品質ファクタに基づいて、前記畳み込みニューラルネットワークの前記1つ以上の層のための推定ADPをコンピューティングするステップと、
    (iii)前記畳み込みニューラルネットワークの前記1つ以上の層における前記推定ADP及び前記共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む、方法。
  2. 前記推定ADPをコンピューティングするステップは、元のADP、現在の入力、及び前記目標品質ファクタに基づいて、更新ADPを予測するADP予測モジュールによって実行される、請求項1に記載の方法。
  3. 請求項1に記載の方法であって、
    元の入力画像と前記再構成画像との間の再構成損失をコンピューティングするステップと、
    前記コンピューティングされた再構成損失に基づいて、前記目標品質ファクタを更新するステップと、
    前記更新された目標品質ファクタ及び前記圧縮されたビットストリームの前記デコードされた表現に基づいて、前記再構成画像を更新するステップと、をさらに含む、請求項1に記載の方法。
  4. 前記ビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、前記圧縮されたビットストリームの代用潜在表現をコンピューティングするステップをさらに含む、請求項1に記載の方法。
  5. 前記再構成画像をコンピューティングするステップと、前記代用潜在表現に基づいて前記目標品質ファクタを更新するステップと、をさらに含む、請求項4に記載の方法。
  6. 再構成損失は、前記代用潜在表現が、代用摂動生成に基づいてコンピューティングされるという決定に応答して最小限に抑えられる、請求項5に記載の方法。
  7. 前記再構成画像は、元の画像よりも歪みが少なく、知覚品質が高く生成される、請求項6に記載の方法。
  8. 装置であって、
    コンピュータプログラムコードを記憶するように構成されている少なくとも1つのメモリと、
    前記少なくとも1つのメモリにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するように構成されている少なくとも1つのプロセッサと、を含み、前記コンピュータプログラムコードは、
    前記少なくとも1つのプロセッサに、圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信させるように構成されている受信コードと、
    前記少なくとも1つのプロセッサに、前記圧縮されたビットストリームのデコードされた潜在表現を計算させるように構成されている第1の計算コードと、
    前記少なくとも1つのプロセッサに、前記圧縮されたビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて再構成画像を計算させるように構成されている第2の計算コードと、を含み、前記第2の計算コードは、
    (i)前記少なくとも1つのプロセッサに、畳み込みニューラルネットワークの1つ以上の層の共有デコードパラメータ(SDP)を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングさせるように構成されている第1のコンピューティングコードと、
    (ii)前記少なくとも1つのプロセッサに、前記共有特徴、適応的デコードパラメータ(ADP)、及び前記目標品質ファクタに基づいて、前記畳み込みニューラルネットワークの前記1つ以上の層のための推定ADPをコンピューティングさせるように構成されている第2のコンピューティングコードと、
    (iii)前記少なくとも1つのプロセッサに、前記1つ以上の層における前記推定ADP及び前記共有特徴に基づいて、出力テンソルをコンピューティングさせるように構成されている第3のコンピューティングコードと、を含む、装置。
  9. 前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに、元のADP、現在の入力、及び前記目標品質ファクタに基づいて、更新ADPを予測するADP予測モジュールによって実行される前記推定ADPをコンピューティングさせるように構成されている第4のコンピューティングコードをさらに含む、請求項8に記載の装置。
  10. 前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに、
    元の入力画像と前記再構成画像との間の再構成損失をコンピューティングさせ、
    前記コンピューティングされた再構成損失に基づいて、前記目標品質ファクタを更新させ、
    前記更新された目標品質ファクタ及び前記圧縮されたビットストリームの前記デコードされた表現に基づいて、前記再構成画像を更新させるように構成されている第5のコンピューティングコードをさらに含む、請求項8に記載の装置。
  11. 前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに、前記ビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、前記圧縮されたビットストリームの代用潜在表現をコンピューティングさせるように構成されている第6のコンピューティングコードをさらに含む、請求項8に記載の装置。
  12. 前記第6のコンピューティングコードは、前記少なくとも1つのプロセッサに、前記再構成画像をコンピューティングさせ、前記代用潜在表現に基づいて、前記目標品質ファクタを更新させるようにさらに構成されている、請求項11に記載の装置。
  13. 前記代用潜在表現が代用摂動生成に基づいて計算されるときに、再構成損失が最小限に抑えられ、前記再構成画像は、元の画像よりも歪みが少なく、知覚品質が高く生成される、請求項12に記載の装置。
  14. 命令を記憶した非一時的なコンピュータ可読記録媒体であって、前記命令は、少なくとも1つのプロセッサによって実行されるときに、前記プロセッサに、
    圧縮されたビットストリームと、目標圧縮品質を示す目標品質ファクタとを受信するステップと、
    前記圧縮されたビットストリームのデコードされた潜在表現を計算するステップと、
    前記圧縮されたビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、再構成画像を計算するステップと、を行わせ、前記再構成画像を計算するステップは、
    (i)畳み込みニューラルネットワークの1つ以上の層の共有デコードパラメータ(SDP)を使用してネットワーク順方向計算に基づいて共有特徴をコンピューティングするステップと、
    (ii)前記共有特徴、適応的デコードパラメータ(ADP)、及び前記目標品質ファクタに基づいて、前記畳み込みニューラルネットワークの前記1つ以上の層のための推定ADPをコンピューティングするステップと、
    (iii)前記1つ以上の層における前記推定ADP及び前記共有特徴に基づいて、出力テンソルをコンピューティングするステップと、を含む、非一時的なコンピュータ可読記録媒体。
  15. 前記推定ADPをコンピューティングするステップは、元のADP、現在の入力、及び前記目標品質ファクタに基づいて、更新ADPを予測するADP予測モジュールによって実行される、請求項14に記載の非一時的なコンピュータ可読記録媒体。
  16. 前記命令は、前記少なくとも1つのプロセッサに、
    元の入力画像と前記再構成画像との間の再構成損失をコンピューティングするステップと、
    前記コンピューティングされた再構成損失に基づいて、前記目標品質ファクタを更新するステップと、
    前記更新された目標品質ファクタ及び前記圧縮されたビットストリームの前記デコードされた表現に基づいて、前記再構成画像を更新するステップと、を行わせる、請求項14に記載の非一時的なコンピュータ可読記録媒体。
  17. 前記命令は、前記少なくとも1つのプロセッサに、前記ビットストリームの前記デコードされた潜在表現及び前記目標品質ファクタに基づいて、前記圧縮されたビットストリームの代用潜在表現をコンピューティングするステップを行わせる、請求項14に記載の非一時的なコンピュータ可読記録媒体。
  18. 前記命令は、前記少なくとも1つのプロセッサに、前記再構成画像をコンピューティングするステップと、前記代用潜在表現に基づいて、前記目標品質ファクタを更新するステップと、を行わせる、請求項17に記載の非一時的なコンピュータ可読記録媒体。
  19. 再構成損失は、前記代用潜在表現が、代用摂動生成に基づいてコンピューティングされるときに最小限に抑えられる、請求項18に記載の非一時的なコンピュータ可読記録媒体。
  20. 前記再構成画像は、元の画像よりも歪みが少なく、知覚品質が高く生成される、請求項19に記載の非一時的なコンピュータ可読記録媒体。
JP2023547760A 2021-10-18 2022-09-28 ニューラル画像圧縮のための潜在空間における代用品質ファクタ学習 Pending JP2024519246A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202163257005P 2021-10-18 2021-10-18
US63/257,005 2021-10-18
US202163289048P 2021-12-13 2021-12-13
US63/289,048 2021-12-13
US17/949,434 US20230122449A1 (en) 2021-10-18 2022-09-21 Substitutional quality factor learning in the latent space for neural image compression
US17/949,434 2022-09-21
PCT/US2022/045002 WO2023069235A1 (en) 2021-10-18 2022-09-28 Substitutional quality factor learning in the latent space for neural image compression

Publications (1)

Publication Number Publication Date
JP2024519246A true JP2024519246A (ja) 2024-05-10

Family

ID=85981175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023547760A Pending JP2024519246A (ja) 2021-10-18 2022-09-28 ニューラル画像圧縮のための潜在空間における代用品質ファクタ学習

Country Status (6)

Country Link
US (1) US20230122449A1 (ja)
EP (1) EP4232954A4 (ja)
JP (1) JP2024519246A (ja)
KR (1) KR20230108335A (ja)
CN (1) CN116783598A (ja)
WO (1) WO2023069235A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948090B2 (en) * 2020-03-06 2024-04-02 Tencent America LLC Method and apparatus for video coding

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10432953B2 (en) * 2016-02-05 2019-10-01 Deepmind Technologies Limited Compressing images using neural networks
JP2020162025A (ja) * 2019-03-27 2020-10-01 キヤノン株式会社 画像処理システム、画像処理方法、および画像処理装置

Also Published As

Publication number Publication date
KR20230108335A (ko) 2023-07-18
EP4232954A4 (en) 2024-03-13
US20230122449A1 (en) 2023-04-20
WO2023069235A1 (en) 2023-04-27
CN116783598A (zh) 2023-09-19
EP4232954A1 (en) 2023-08-30

Similar Documents

Publication Publication Date Title
JP7374340B2 (ja) ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム
US11582470B2 (en) Method and apparatus for multi-scale neural image compression with intra-prediction residuals
JP7416489B2 (ja) 深層強化学習を用いたエンドツーエンドのタスク指向型潜在圧縮のための方法、装置およびコンピュータプログラム
JP7420942B2 (ja) 敵対的生成器を用いたレート適応ニューラル画像圧縮のための方法及び装置
JP2024519246A (ja) ニューラル画像圧縮のための潜在空間における代用品質ファクタ学習
JP7471733B2 (ja) 滑らかな品質制御による適応ニューラル画像圧縮のための代替の入力最適化
US11652994B2 (en) Neural image compression with adaptive intra-prediction
JP7483030B2 (ja) 潜在特徴領域におけるイントラ予測によるニューラル画像圧縮
JP7434605B2 (ja) メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム
JP7471730B2 (ja) メタ学習によるレート制御を用いた適応ニューラル画像圧縮のための方法、装置及びプログラム
US11803988B2 (en) Method and apparatus for adaptive image compression with flexible hyperprior model by meta learning
JP2023509829A (ja) 積み重ね可能な入れ子モデル構造及びマイクロ構造化された重み統一によるマルチレートニューラル画像圧縮のための方法及び装置
JP2024518239A (ja) ニューラル画像圧縮における反復的なコンテンツ適応型オンライントレーニングのためのシステム、方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231106