JP2023525673A - メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム - Google Patents
メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2023525673A JP2023525673A JP2022565776A JP2022565776A JP2023525673A JP 2023525673 A JP2023525673 A JP 2023525673A JP 2022565776 A JP2022565776 A JP 2022565776A JP 2022565776 A JP2022565776 A JP 2022565776A JP 2023525673 A JP2023525673 A JP 2023525673A
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- decoding
- adaptive
- shared
- quality control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 104
- 238000003908 quality control method Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000006835 compression Effects 0.000 title claims abstract description 30
- 238000007906 compression Methods 0.000 title claims abstract description 30
- 230000001537 neural effect Effects 0.000 title claims abstract description 20
- 238000004590 computer program Methods 0.000 title claims 2
- 238000013528 artificial neural network Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 16
- 238000010200 validation analysis Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000013442 quality metrics Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000001152 differential interference contrast microscopy Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 229920001098 polystyrene-block-poly(ethylene/propylene) Polymers 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000019837 monoammonium phosphate Nutrition 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本出願は、2021年4月14日に出願された米国仮特許出願No.63/174,927に基づくとともにその優先権を主張し、その開示はその全体が参照により本出願に組み込まれる。
(外1)
が計算される。その後、圧縮表現
(外1)
に基づいて出力画像
(外2)
が再構成され、再構成された出力画像
(外2)
は元の入力画像xに似ている場合がある。歪み損失
(外3)
は、ピーク信号対雑音比(PSNR)または構造類似性指標測定(structural similarity index measure)(SSIM)などの再構成エラー(reconstruction error)を測定するために使用される。レート損失
(外4)
が、圧縮表現
(外1)
のビット消費(bit consumption)を測定するために計算される。トレードオフハイパーパラメータλが、ジョイントレート歪み(joint Rate-Distortion)(R-D)損失を形成するために使用される:
(外5)
、
(外6)
、
(外7)
、
(外8)
に分離し、それぞれ、共有エンコーディングパラメータ(SEP)、適応エンコーディングパラメータ(AEP)、共有デコーディングパラメータ(SDP)、および適応デコーディングパラメータ(ADP)を示す。図3Aおよび図3Bは、NICネットワークアーキテクチャの2つの実施形態を示している。
(外9)
、
(外10)
、
(外11)
、
(外12)
がNICエンコーダのi番目の層およびNICデコーダのj番目の層のSEP、AEP、SDP、およびADPをそれぞれ示すとする。ネットワークは、SEPおよびAEP(またはSDPおよびADP)それぞれに対応する入力に基づいて推論出力を計算し、これらの出力は結合され(例えば、加算、連結、乗算などによって)、その後、次の層に送信される。
(外10)
が空であり、適応エンコーディングNN310の層
(外9)
が空であり、共有デコーディングNN315の層
(外11)
が空であり、適応デコーディングNN320の層
(外12)
が空である。したがって、他の実施形態では、図3Aおよび図3Bのネットワーク構造を組み合わせることができ、ここではNICアーキテクチャは、純粋に共有されたエンコーディング/デコーディング層および/または純粋に適応されたエンコーディング/デコーディング層と、部分的に共有されたエンコーディング/デコーディングパラメータおよび部分的に適応されたエンコーディング/デコーディングパラメータを持つ混合層の両方を含む。
(外9)
および
(外10)
がメタNICエンコーダ410のi番目の層のSEPおよびAEPをそれぞれと表すとする。これは、完全に共有されている層について、
(外10)
が空であるため、例示的な表記である。完全に適応(adaptive)する層について、
(外9)
は空である。言い換えれば、この表記法は図3Aと図3Bの両方の実施形態に使用できる。
(外1)
を計算する。ターゲット品質制御パラメータΛは、ターゲット品質メトリック、ターゲットビットレートなどを含むターゲット圧縮品質を示す。ターゲット品質制御パラメータΛについて、qを(PSNR、SSIMなどのような)品質メトリック
(外13)
の数とすると、全体的な品質メトリックは、概して品質メトリックの数の重み付けされた組み合わせとして表される:
(外14)
のみが使用されている場合、任意のi≠jに対してwi=1およびwj=0である。上記が当てはまる実施形態では、ターゲット品質制御パラメータΛは、ターゲットトレードオフハイパーパラメータλのみを含むように減らされ得る:Λ=λ。
(外9)
に基づいて、SEP推論部412は、i番目の層のSEPを使用して前向き計算によってモデル化される共有推論関数
(外15)
に基づいて共有特徴g(i)を計算する。現在の入力f(i)、共有特徴g(i)、AEP
(外10)
およびターゲット品質制御パラメータΛに基づいて、AEP予測部414は、i番目の層の推定AEP
(外16)
を計算する。AEP予測部414は、例えば、畳み込みおよび完全に接続された層を含むNNであり得、これは元のAEP
(外10)
、現在の入力f(i)、およびターゲット品質制御パラメータΛに基づいて更新された推定AEP
(外16)
を予測する。いくつかの実施形態では、現在の入力f(i)は、AEP予測部414への入力として使用される。他のいくつかの実施形態では、共有特徴g(i)が現在の入力f(i)の代わりに使用される。他の実施形態では、共有特徴g(i)に基づいてSEP損失を計算することができ、損失の勾配がAEP予測部414への入力として使用される。推定AEP
(外16)
および共有特徴g(i)に基づいて、AEP推論部416は、第i番目の層の推定AEPを使用して前向き計算によってモデル化されたAEP推論関数
(外17)
に基づく出力テンソルf(i+1)を計算する。
(外10)
と完全に共有されている層について、AEP関連モジュールおよびf(i+1)=g(i)は省略され得る。空であるSEP
(外9)
と完全に適応する層について、SEP関連モジュールおよびg(i)=f(i)は省略され得る。
(外1)
であり、これは、メタNICデコーダ420に送信される(例えば、量子化およびエントロピーエンコーディングによってコンパクトなビットストリームにさらに圧縮された後)。
(外11)
および
(外12)
がメタNICデコーダ420のj番目の層のSDPおよびADPをそれぞれ表すとする。メタNICエンコーダ410と同様に、これは例示的な表記であり、完全に共有されている層の場合、
(外12)
は空であり、完全に適応可能な層の場合、
(外11)
は空であるためである。
(外18)
が、メタNICエンコーダ410から送信されたビットストリームから、エントロピーデコーディングおよび逆量子化によって得られる。復元された圧縮表現
(外18)
およびターゲット品質制御パラメータΛに基づいて、メタNICデコーダ420は、再構成された出力画像
(外2)
を計算する。メタNICデコーダ420では、復元された圧縮表現
(外18)
がメタNICデコーディングNNを通過する。f(j)およびf(j+1)をj番目の層の入力テンソルと出力テンソルとする。
(外11)
に基づいて、SDP推論部422は、j番目の層のSDPを使用してネットワーク前向き計算によってモデル化される共有推論関数
(外19)
に基づいて共有特徴g(j)を計算する。現在の入力f(j)、共有特徴g(j)、ADP
(外12)
およびターゲット品質制御パラメータΛに基づいて、ADP予測部424は、j番目の層の推定ADP
(外20)
を計算する。ADP予測部424は、例えば、畳み込みおよび完全に接続された層を持つNNであり得、これは元のADP
(外12)
、現在の入力f(j)、およびターゲット品質制御パラメータΛに基づいて更新された推定ADP
(外20)
を予測する。いくつかの実施形態では、現在の入力f(j)はADP予測部424への入力として使用される。他のいくつかの実施形態では、共有特徴g(j)は現在の入力f(j)の代わりに使用される。他の実施形態では、共有特徴g(j)に基づいてSDP損失が計算され、損失の勾配がADP予測部424への入力として使用される。推定ADP
(外20)
および共有特徴g(j)に基づいて、ADP推論部426は、j番目の層の推定ADPを使用してネットワーク前向き計算によってモデル化されたADP推論関数
(外21)
に基づいて出力テンソルf(j+1)を計算する。
(外12)
と完全に共有されている層について、ADP関連モジュールおよびf(j+1)=g(j)は省略され得る。空であるSDP
(外11)
に完全に適合する層について、SDP関連モジュールおよびg(j)=f(j)は省略され得る。
(外22)
をターゲットにする)については、メタNICモデルは、複数の事前に定義されたビットレートの圧縮効果に対応するために1つのモデルインスタンスを使用する歪みメトリック
(外22)
のマルチレートNICモデルに縮小する。メタNICモデルは、同様に他のメトリックの別の特定のメタNICモデルに縮小し得る。
(外9)
およびAEP
(外10)
、i=1,...,N、および、図4AのメタNICデコーダ420のSDP
(外11)
およびADP
(外12)
、j=1,...,Mならびに、AEP予測NN(
(外23)
と表記されるモデルパラメータ)およびADP予測NN(
(外24)
と表記されるモデルパラメータ)を学習することを目的としている。
(外25)
、i=1,...,Kがあり、各
(外25)
はトレーニングターゲット品質制御パラメータΛiに対応し、合計でKのトレーニング品質制御パラメータ(Kのトレーニングデータセット)がある。トレーニングのために、有限の重みの組み合わせのセットがあり得る。各重みの組み合わせw1=a1,...wq=aqに対して、kのトレードオフハイパーパラメータλiのセットがあり得る。したがって、トレーニングデータ
(外25)
は、各重みの組み合わせw1=a1,...wq=aqおよびトレードオフハイパーパラメータλiに関連付けられ、ターゲット品質制御パラメータΛiは、品質制御パラメータΛのアイテムの値を指定し、w1=a1,...wq=aq、λ=λiである。加えて、検証データ
(外26)
、j=1,...,Pのセットがあり、各
(外26)
は、検証品質制御パラメータΛjに対応し、合計でPの検証品質制御パラメータΛjがある。検証品質制御パラメータは、トレーニングセットとは異なる値を含み得る。検証品質制御パラメータはまた、トレーニングセットのパラメータと同じ値を有し得る。
がSEPおよびSDPにすべての共有パラメータを含むとし、
(外28)
がAEPおよびADPにすべての適応パラメータを含むとする。MAMLトレーニングプロセスは、勾配ベースのパラメータ更新のための外部ループおよび内部ループを有し得る。各外部ループの繰り返しについて、タスクサンプラ510はまずK’トレーニング品質制御パラメータのセットをサンプリングする(K’≦K)。次に、各サンプリングされたトレーニング品質制御パラメータΛiについて、タスクサンプラ510はトレーニングデータ
(外25)
のセットからトレーニングデータ
(外29)
のセットをサンプリングする。また、タスクサンプラ510は、P’(P’≦P)検証品質制御パラメータのセットをサンプリングし、各サンプリングされた検証品質制御パラメータΛjについて、検証データ
(外30)
のセットから検証データ
(外31)
のセットをサンプリングする。次に、サンプリングされた各データム
(外32)
について、メタNIC前向き計算が現在のパラメータ
(外33)
、
(外34)
、
(外23)
および
(外24)
に基づいて行われ、次に内部ループ損失生成器520が累積内部ループ損失
(外35)
を計算する。
(外36)
は、式(1)のR-D損失および別の正則化損失(例えば、異なる品質制御パラメータをターゲットにする中間ネットワーク出力を区別する補助的な損失)を含み得る。次に、内部ループ損失
(外35)
に基づいて、Λiについての品質制御パラメータ/ハイパーパラメータとしてステップサイズαsiおよびαaiが与えられると、内部ループ更新部530は更新されたタスク固有パラメータ更新を計算する:
(外41)
は、パラメータ
(外40)
、
(外39)
、
(外42)
、
(外43)
を使用したメタNIC前向き計算に基づいて入力xについて計算された損失である。AjについてのハイパーパラメータΛjとしてステップサイズβajおよびβsjが与えられると、メタ更新部550はモデルパラメータを次のように更新する:
(外23)
、
(外24)
に関して、重み更新部560は通常のトレーニング方式でそれらを更新する。つまり、トレーニングおよび検証データ
(外25)
、i=1,...,K、
(外26)
、j=1,...,Pに従って、現在のパラメータ
(外33)
、
(外34)
、
(外23)
、
(外24)
に基づいて、すべてのサンプル
(外45)
の損失
(外36)
およびすべてのサンプル
(外46)
の損失
(外47)
が計算される。すべてのこれらの損失の勾配を蓄積して(例えば、合計して)、逆伝播によって
(外23)
、
(外24)
に対するパラメータの更新を実行することができる。
(外9)
に基づいて、共有推論関数
(外15)
を使用して共有特徴g(i)を生成し得る。
(外10)
、中間入力f(i)、共有特徴g(j)、およびターゲット品質制御パラメータΛに基づいて、第1の適応エンコーディングパラメータ
(外16)
を更新し得る。
(外23)
、
(外24)
は、ターゲット品質制御パラメータΛ、予測パラメータ(
(外23)
、
(外24)
)、第1の共有パラメータ
(外33)
、第1の適応パラメータ
(外34)
、第1の損失
(外36)
および第2の損失
(外47)
に基づいて、重み更新部560によって更新される。これらすべての損失の勾配を蓄積(例えば、合計)して、逆伝播によって
(外23)
、
(外24)
に対するパラメータ更新を実行することができる。
(外16)
の組み合わせに基づいて、エンコーディングニューラルネットワークの品質適応重みパラメータを生成し得る。
(外1)
を生成するために入力画像をエンコーディングすることを含み得る。
(外48)
を使用して中間入力f(j)および第1の共有デコーディングパラメータSDP
(外11)
に基づいて、共有特徴g(j)を生成し得る。
(外12)
、中間入力f(j)、共有デコーディング特徴g(j)、およびターゲット品質制御パラメータΛに基づいて、第1の適応デコーディングパラメータ
(外20)
を更新し得る。
(外23)
、
(外24)
は、ターゲット品質制御パラメータΛ、予測パラメータ(
(外23)
、
(外24)
)
、第1の共有パラメータ
(外33)
、第1の適応パラメータ
(外34)
、第1の損失
(外36)
および第2の損失
(外47)
に基づいて、重み更新部560によって更新される。これらすべての損失の勾配を蓄積(例えば、合計)して、逆伝播によって
(外23)
、
(外24)
に対するパラメータ更新を実行することができる。
(外20)
の組み合わせに基づいて、エンコーディングニューラルネットワークのためのデコーディング品質適応重みパラメータを生成し得る。
(外2)
を再構成することを含み得る。
Claims (12)
- メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法であって、前記方法は、少なくとも1つのプロセッサによって実行され、前記方法は:
入力画像およびターゲット品質制御パラメータを受信するステップ;および
圧縮表現を生成するように、前記ターゲット品質制御パラメータに基づいて、品質適応重みパラメータを持つエンコーディングニューラルネットワークを使用して前記入力画像をエンコーディングするステップであって、前記品質適応重みパラメータは、共有エンコーディングパラメータおよび適応エンコーディングパラメータを使用して計算される、ステップ;を含む、
方法。 - 前記エンコーディングニューラルネットワークの前記品質適応重みパラメータを生成することが:
共有推論関数を使用して、中間入力および第1の共有エンコーディングパラメータに基づいて共有特徴を生成するステップと;
第1の適応エンコーディングパラメータを、予測ニューラルネットワークを使用して、前記中間入力、前記共有特徴、前記第1の適応エンコーディングパラメータ、および前記ターゲット品質制御パラメータに基づいて、更新するステップ;および
前記共有特徴および更新された前記第1の適応エンコーディングパラメータに基づいて、前記エンコーディングニューラルネットワークの前記品質適応重みパラメータを生成するステップ;を含む、
請求項1に記載の方法。 - 前記入力画像をエンコーディングするステップは、前記品質適応重みパラメータおよび前記ターゲット品質制御パラメータに基づいて前記圧縮表現を生成するステップを含む、
請求項2に記載の方法。 - 前記ターゲット品質制御パラメータは、複数の重みおよびターゲットトレードオフハイパーパラメータを含む、
請求項1に記載の方法。 - 復元された圧縮表現およびデコーディングターゲット品質制御パラメータを受信するステップ;および
出力画像を再構成するために、前記デコーディングターゲット品質制御パラメータに基づいて、デコーディング品質適応重みパラメータを持つデコーディングニューラルネットワークを使用して、受信した前記復元された圧縮表現をデコーディングするステップであって、前記デコーディング品質適応重みパラメータは、共有デコーディングパラメータおよび適応デコーディングパラメータを使用して計算される、ステップ;をさらに含む、
請求項1に記載の方法。 - 前記デコーディングニューラルネットワークの前記デコーディング品質適応重みパラメータを生成することが:
共有デコーディング推論関数を使用して、中間デコーディング入力および第1の共有デコーディングパラメータに基づいて、共有デコーディング特徴を生成するステップと;
第1の適応デコーディングパラメータを、予測ニューラルネットワークを使用して、前記中間デコーディング入力、前記共有デコーディング特徴、前記第1の適応デコーディングパラメータ、および前記デコーディングターゲット品質制御パラメータに基づいて、更新するステップ;および
前記共有デコーディング特徴および更新された前記第1の適応デコーディングパラメータに基づいて、前記デコーディングニューラルネットワークの前記デコーディング品質適応重みパラメータを生成するステップ;を含む、
請求項5に記載の方法。 - 前記予測ニューラルネットワークは:
前記ターゲット品質制御パラメータ、前記第1の共有エンコーディングパラメータ、前記第1の適応エンコーディングパラメータ、第1の共有デコーディングパラメータ、第1の適応デコーディングパラメータ、前記予測ニューラルネットワークの予測パラメータに基づいて、前記ターゲット品質制御パラメータに対応するトレーニングデータの第1の損失、および前記ターゲット品質制御パラメータに対応する検証データの第2の損失を生成するステップ;および
生成された前記第1の損失および生成された前記第2の損失の勾配に基づいて、前記予測パラメータを更新するステップ;
によってトレーニングされる、
請求項2に記載の方法。 - 前記エンコーディングニューラルネットワークは:
前記ターゲット品質制御パラメータ、前記第1の共有エンコーディングパラメータ、前記第1の適応エンコーディングパラメータ、第1の共有デコーディングパラメータ、および第1の適応デコーディングパラメータに基づいて、前記ターゲット品質制御パラメータに対応するトレーニングデータの内部ループ損失を生成するステップ;
生成された前記内部ループ損失の勾配に基づいて、前記第1の共有エンコーディングパラメータ、前記第1の適応エンコーディングパラメータ、前記第1の共有デコーディングパラメータおよび前記第1の適応デコーディングパラメータを第1に更新するステップ;
前記ターゲット品質制御パラメータ、第1に更新された前記第1の共有エンコーディングパラメータ、第1に更新された前記第1の適応エンコーディングパラメータ、第1に更新された前記第1の共有デコーディングパラメータ、および第1に更新された前記第1の適応デコーディングパラメータに基づいて、前記ターゲット品質制御パラメータに対応する検証データのメタ損失を生成するステップ;および
生成された前記メタ損失の勾配に基づいて、前記第1に更新された第1の共有エンコーディングパラメータ、前記第1に更新された第1の適応エンコーディングパラメータ、前記第1に更新された第1の共有デコーディングパラメータ、および前記第1に更新された第1の適応デコーディングパラメータを第2に更新するステップ;
請求項2に記載の方法。 - 前記ターゲット品質制御パラメータおよび前記デコーディングターゲット品質制御パラメータは異なり、前記圧縮表現の画像プロパティが再構成された前記出力画像の画像プロパティと異なる、
請求項5に記載の方法。 - 装置であって:
プログラムコードを格納するように設定された少なくとも1つのメモリと;
前記プログラムコードを読み取り、前記プログラムコードによって指示されるように動作するように構成された少なくとも1つのプロセッサと;を有し、
前記プログラムコードは、前記少なくとも1つのプロセッサに、請求項1乃至9のいずれか1項に記載の方法を実行させる、
装置。 - 命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、少なくとも1つのプロセッサによって実行されるとき、前記少なくとも1つのプロセッサに、請求項1乃至9のいずれか1項に記載の方法を実行させる、非一時的コンピュータ可読媒体。
- 少なくとも1つのプロセッサによって実行されるとき、前記少なくとも1つのプロセッサに、請求項1乃至9のいずれか1項に記載の方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163174927P | 2021-04-14 | 2021-04-14 | |
US63/174,927 | 2021-04-14 | ||
US17/703,527 US20220335656A1 (en) | 2021-04-14 | 2022-03-24 | Adaptive neural image compression with smooth quality control by meta-learning |
US17/703,527 | 2022-03-24 | ||
PCT/US2022/021963 WO2022221027A1 (en) | 2021-04-14 | 2022-03-25 | Adaptive neural image compression with smooth quality control by meta-learning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023525673A true JP2023525673A (ja) | 2023-06-19 |
JP7434605B2 JP7434605B2 (ja) | 2024-02-20 |
Family
ID=83601598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022565776A Active JP7434605B2 (ja) | 2021-04-14 | 2022-03-25 | メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220335656A1 (ja) |
EP (1) | EP4100811A4 (ja) |
JP (1) | JP7434605B2 (ja) |
KR (1) | KR20220154768A (ja) |
CN (1) | CN115461783A (ja) |
WO (1) | WO2022221027A1 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9129381B2 (en) * | 2003-06-26 | 2015-09-08 | Fotonation Limited | Modification of post-viewing parameters for digital images using image region or feature information |
WO2010057170A1 (en) | 2008-11-17 | 2010-05-20 | Cernium Corporation | Analytics-modulated coding of surveillance video |
US8775341B1 (en) * | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US10748062B2 (en) * | 2016-12-15 | 2020-08-18 | WaveOne Inc. | Deep learning based adaptive arithmetic coding and codelength regularization |
JP2020022145A (ja) | 2018-08-03 | 2020-02-06 | 日本放送協会 | 符号化装置、復号装置、学習装置及びプログラム |
-
2022
- 2022-03-24 US US17/703,527 patent/US20220335656A1/en active Pending
- 2022-03-25 KR KR1020227035686A patent/KR20220154768A/ko active Search and Examination
- 2022-03-25 EP EP22761038.3A patent/EP4100811A4/en active Pending
- 2022-03-25 CN CN202280003729.7A patent/CN115461783A/zh active Pending
- 2022-03-25 JP JP2022565776A patent/JP7434605B2/ja active Active
- 2022-03-25 WO PCT/US2022/021963 patent/WO2022221027A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022221027A1 (en) | 2022-10-20 |
US20220335656A1 (en) | 2022-10-20 |
JP7434605B2 (ja) | 2024-02-20 |
EP4100811A4 (en) | 2023-08-02 |
KR20220154768A (ko) | 2022-11-22 |
EP4100811A1 (en) | 2022-12-14 |
CN115461783A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7416489B2 (ja) | 深層強化学習を用いたエンドツーエンドのタスク指向型潜在圧縮のための方法、装置およびコンピュータプログラム | |
JP7420942B2 (ja) | 敵対的生成器を用いたレート適応ニューラル画像圧縮のための方法及び装置 | |
JP7374340B2 (ja) | ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム | |
JP7418570B2 (ja) | スタック可能ネスト化モデル構造を用いたマルチレート・ニューラルイメージ圧縮のための方法および装置 | |
JP7471733B2 (ja) | 滑らかな品質制御による適応ニューラル画像圧縮のための代替の入力最適化 | |
US20230122449A1 (en) | Substitutional quality factor learning in the latent space for neural image compression | |
JP7447253B2 (ja) | エンドツーエンド画像圧縮のための特徴置換のための方法、装置およびコンピュータプログラム | |
JP7434605B2 (ja) | メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム | |
JP7471730B2 (ja) | メタ学習によるレート制御を用いた適応ニューラル画像圧縮のための方法、装置及びプログラム | |
JP7411117B2 (ja) | メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム | |
JP7425870B2 (ja) | 積み重ね可能な入れ子モデル構造及びマイクロ構造化された重み統一によるマルチレートニューラル画像圧縮のための方法及び装置 | |
JP7342265B2 (ja) | μ構造化ネストマスク及び重み単一化によるマルチレートニューラル画像圧縮モデルを圧縮及び加速するための方法及び装置 | |
JP2024518239A (ja) | ニューラル画像圧縮における反復的なコンテンツ適応型オンライントレーニングのためのシステム、方法、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221027 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7434605 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |