JP2023518306A - 深層強化学習を用いたエンドツーエンドのタスク指向型潜在圧縮のための方法、装置およびコンピュータプログラム - Google Patents
深層強化学習を用いたエンドツーエンドのタスク指向型潜在圧縮のための方法、装置およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2023518306A JP2023518306A JP2022556610A JP2022556610A JP2023518306A JP 2023518306 A JP2023518306 A JP 2023518306A JP 2022556610 A JP2022556610 A JP 2022556610A JP 2022556610 A JP2022556610 A JP 2022556610A JP 2023518306 A JP2023518306 A JP 2023518306A
- Authority
- JP
- Japan
- Prior art keywords
- quantization
- keys
- scheme
- neural network
- inverse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007906 compression Methods 0.000 title claims abstract description 35
- 230000006835 compression Effects 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 title claims description 73
- 238000004590 computer program Methods 0.000 title 1
- 238000013139 quantization Methods 0.000 claims abstract description 274
- 238000013528 artificial neural network Methods 0.000 claims abstract description 84
- 230000009471 action Effects 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 20
- 230000003068 static effect Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
Description
110 ユーザデバイス
120 プラットフォーム
122 クラウドコンピューティング環境
124 コンピューティングリソース
124-1 アプリケーション
124-2 仮想マシン
124-3 仮想化ストレージ
124-4 ハイパーバイザ
130 ネットワーク
200 デバイス
210 バス
220 プロセッサ
230 メモリ
240 記憶構成要素
250 入力構成要素
260 出力構成要素
270 通信インターフェース
510 DNN潜在生成モジュール
520 DNN符号化モジュール
530 量子化モジュール
540 エントロピー符号化モジュール
550 エントロピー復号モジュール
560 逆量子化モジュール
570 DNN復号モジュール
580 DNNタスク実行モジュール
610 DNN潜在生成モジュール
620 DNN符号化モジュール
630 DRL量子化モジュール
640 エントロピー符号化モジュール
650 エントロピー復号モジュール
660 DRL逆量子化モジュール
670 DNN復号モジュール
680 DNNタスク実行モジュール
710 計算キーモジュール
720 状態予測モジュール
810 再構築モジュール
910 歪み計算モジュール
920 レート計算モジュール
930 報酬計算モジュール
940 メモリリプレイおよび重みモジュール
950 LRC歪み計算モジュール
960 LRCレート計算モジュール
970 LRC重み更新モジュール
1001 サンプル経験モジュール
1002 損失計算モジュール
1003 重み更新モジュール
1101 動作
1102 動作
1103 動作
1104 動作
1105 動作
1106 動作
1201 第1の生成コード
1202 符号化コード
1203 第2の生成コード
1204 第3の生成コード
1205 復号コード
1206 実行コード
Claims (20)
- 少なくとも1つのプロセッサによって実行される、深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮の方法であって、
第1のニューラルネットワークを使用して、入力の複数の潜在表現を生成するステップであって、前記複数の潜在表現が、潜在信号のシーケンスを含む、ステップと、
第2のニューラルネットワークを使用して、前記複数の潜在表現を符号化するステップと、
第3のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成するステップであって、前記量子化キーのセット内の各量子化キーおよび以前の量子化状態のセット内の各以前の量子化状態が、前記複数の潜在表現に対応する、ステップと、
第4のニューラルネットワークを使用して、前記量子化キーのセットに基づいて、前記符号化された複数の潜在表現の逆量子化表現を表す、逆量子化数値のセットを生成するステップと、
前記逆量子化数値のセットに基づいて、再構築された出力を生成するステップと、
第5のニューラルネットワークを使用して、前記再構築された出力に基づいて、ターゲットタスクを実行するステップと、
を含む、方法。 - 前記ターゲットタスクに基づいて、タスク予測損失を計算するステップを、さらに含み、
前記第1のニューラルネットワークおよび前記第5のニューラルネットワークは、前記タスク予測損失の勾配を逆伝播させるステップと、前記第1のニューラルネットワークおよび前記第5のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項1に記載の方法。 - 前記ターゲットタスクは、前記生成された複数の潜在表現に基づいて実行される、請求項1に記載の方法。
- 前記量子化キーのセットをエントロピー符号化することによって、符号化された量子化キーのセットを生成するステップと、
前記符号化された量子化キーのセットをエントロピー復号することによって、復号された量子化キーのセットを生成するステップと、
をさらに含み、
前記逆量子化数値のセットは、前記復号された量子化キーのセットに基づいて生成される、
請求項1に記載の方法。 - ブロック単位量子化方式、個別量子化方式、および静的量子化モデル方式のうちの少なくとも1つを使用して、前記量子化キーのセットを生成するステップと、
ブロック単位逆量子化方式、個別逆量子化方式、および静的逆量子化モデル方式のうちの少なくとも1つを使用して、前記逆量子化数値のセットを生成するステップと、
をさらに含む、請求項1に記載の方法。 - 前記量子化キーのセットの量子化方式は、前記逆量子化数値のセットの逆量子化方式と同じであり、
前記量子化方式として前記ブロック単位量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記ブロック単位逆量子化方式を使用し、
前記量子化方式として前記個別量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記個別逆量子化方式を使用し、
前記量子化方式として前記静的量子化モデル方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記静的逆量子化モデル方式を使用する、
請求項5に記載の方法。 - 前記第3のニューラルネットワークを訓練することによって、前記以前の量子化状態のセットおよび前記量子化キーのセットに基づいて、現在の量子化状態のセットを生成するステップをさらに含み、
前記第3のニューラルネットワークは、すべての可能な行動に対するq値を計算するステップと、最適なq値を有する最適な行動として行動をランダムに選択するステップと、前記選択された最適な行動の報酬を生成するステップと、選択された最適な行動のセットをサンプリングするステップと、歪み損失を最小化するために前記第3のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項1に記載の方法。 - 深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮のための装置であって、
プログラムコードを記憶するように構成された少なくとも1つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによる命令通りに動作するように構成された少なくとも1つのプロセッサと、を備え、
前記プログラムコードは、
前記少なくとも1つのプロセッサに、第1のニューラルネットワークを使用して、入力の複数の潜在表現を生成させるように構成された第1の生成コードであって、前記複数の潜在表現は潜在信号のシーケンスを含む、第1の生成コードと、
前記少なくとも1つのプロセッサに、第2のニューラルネットワークを使用して、前記複数の潜在表現を符号化させるように構成された符号化コードと、
前記少なくとも1つのプロセッサに、第3のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させるように構成された第2の生成コードであって、前記量子化キーのセット内の各量子化キーおよび前記以前の量子化状態のセット内の各以前の量子化状態は、前記複数の潜在表現に対応する、第2の生成コードと、
前記少なくとも1つのプロセッサに、第4のニューラルネットワークを使用して、前記量子化キーのセットに基づいて、前記符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成させるように構成された第3の生成コードと、
前記少なくとも1つのプロセッサに、前記逆量子化数値のセットに基づいて、再構築された出力を復号させるように構成された復号コードと、
前記少なくとも1つのプロセッサに、第5のニューラルネットワークを使用して、前記再構築された出力に基づいて、ターゲットタスクを実行させるように構成された実行コードと、を含む、
装置。 - 前記プログラムコードは、前記少なくとも1つのプロセッサに、前記ターゲットタスクに基づいて、タスク予測損失を計算させるように構成された計算コードをさらに含み、
前記第1のニューラルネットワークおよび前記第5のニューラルネットワークは、前記タスク予測損失の勾配を逆伝播させるステップと、前記第1のニューラルネットワークおよび前記第5のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項8に記載の装置。 - 前記ターゲットタスクは、前記生成された複数の潜在表現に基づいて実行される、請求項8に記載の装置。
- 前記プログラムコードは、
前記少なくとも1つのプロセッサに、前記量子化キーのセットをエントロピー符号化するステップによって、符号化された量子化キーのセットを生成させるように構成された符号化キーコードと、
前記少なくとも1つのプロセッサに、前記符号化された量子化キーのセットをエントロピー復号するステップによって、復号された量子化キーのセットを生成させるように構成された復号キーコードと、
をさらに備え、
前記逆量子化数値のセットは、前記復号された量子化キーのセットに基づいて、生成される、
請求項8に記載の装置。 - 前記プログラムコードは、
前記少なくとも1つのプロセッサに、ブロック単位量子化方式、個別量子化方式、および静的量子化モデル方式のうちの少なくとも1つを使用して、前記量子化キーのセットを生成させるように構成された第4の生成コードと、
前記少なくとも1つのプロセッサに、ブロック単位逆量子化方式、個別逆量子化方式、および静的逆量子化モデル方式のうちの少なくとも1つを使用して、前記逆量子化数値のセットを生成させるように構成された第5の生成コードと、
をさらに備える、請求項8に記載の装置。 - 前記量子化キーのセットの量子化方式は、前記逆量子化数値のセットの逆量子化方式と同じであり、
前記量子化方式として前記ブロック単位量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記ブロック単位逆量子化方式を使用し、
前記量子化方式として前記個別量子化方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記個別逆量子化方式を使用し、
前記量子化方式として前記静的量子化モデル方式を使用した前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記静的逆量子化モデル方式を使用した、
請求項12に記載の装置。 - 前記少なくとも1つのプロセッサに、前記第3のニューラルネットワークを訓練することによって、前記以前の量子化状態のセットおよび前記量子化キーのセットに基づいて、現在の量子化状態のセットを生成させるように構成された状態生成コード、をさらに備え、
前記第3のニューラルネットワークは、すべての可能な行動に対するq値を計算するステップと、最適なq値を有する最適な行動として行動をランダムに選択するステップと、前記選択された最適な行動の報酬を生成するステップと、選択された最適な行動のセットをサンプリングするステップと、歪み損失を最小化するために前記第3のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項8に記載の装置。 - 深層強化学習を使用するエンドツーエンドのタスク指向型潜在画像圧縮のために少なくとも1つのプロセッサによって実行されると、
少なくとも1つのプロセッサに、
第1のニューラルネットワークを使用して、複数の潜在表現を生成させ、複数の潜在表現は、潜在信号のシーケンスを備え、
第2のニューラルネットワークを使用して、前記複数の潜在表現を符号化させ、
第3のニューラルネットワークを使用して、以前の量子化状態のセットに基づいて、量子化キーのセットを生成させ、前記量子化キーのセット内の各量子化キーおよび前記以前の量子化状態のセット内の各以前の量子化状態は、複数の潜在表現に対応し、
第4のニューラルネットワークを使用して、前記量子化キーのセットに基づいて、前記符号化された複数の潜在表現の逆量子化表現を表す逆量子化数値のセットを生成させ、
逆量子化数値のセットに基づいて、再構築された出力を復号させ、
第5のニューラルネットワークを使用して、前記再構築された出力に基づいてターゲットタスクを実行させる、
ための命令を記憶する、非一時的コンピュータ可読媒体。 - 前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにさらに、前記ターゲットタスクに基づいてタスク予測損失を計算させ、
前記第1のニューラルネットワークおよび前記第5のニューラルネットワークは、前記タスク予測損失の勾配を逆伝播させるステップと、前記第1のニューラルネットワークおよび前記第5のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項15に記載の非一時的コンピュータ可読媒体。 - 前記ターゲットタスクは、前記生成された複数の潜在表現に基づいて実行される、請求項15に記載の非一時的コンピュータ可読媒体。
- 前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにさらに、
前記量子化キーのセットをエントロピー符号化することによって、符号化された量子化キーのセットを生成させ、
前記符号化された量子化キーのセットをエントロピー復号することによって、復号された量子化キーのセットを生成させ、
前記逆量子化数値のセットは、前記復号された量子化キーのセットに基づいて生成される、
請求項15に記載の非一時的コンピュータ可読媒体。 - 前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにさらに、
ブロック単位量子化方式、個別量子化方式、および静的量子化モデル方式のうちの少なくとも1つを使用して、前記量子化キーのセットを生成させ、
ブロック単位逆量子化方式、個別逆量子化方式、および静的逆量子化モデル方式のうちの少なくとも1つを使用して、前記逆量子化数値のセットを生成させ、
前記量子化キーのセットの量子化方式は、前記逆量子化数値の逆量子化方式と同じであり、
前記量子化方式として前記ブロック単位量子化方式を使用する前記量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記ブロック単位逆量子化方式を使用し、
前記量子化方式として前記個別量子化方式を使用する量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記個別逆量子化方式を使用し、
前記量子化方式として前記静的量子化モデル方式を使用する量子化キーのセットに基づいて、前記逆量子化数値のセットは、前記逆量子化方式として前記静的逆量子化モデル方式を使用する、
請求項15に記載の非一時的コンピュータ可読媒体。 - 前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにさらに、前記第3のニューラルネットワークを訓練することによって、前記以前の量子化状態のセットおよび前記量子化キーのセットに基づいて、現在の量子化状態のセットを生成させ、
前記第3のニューラルネットワークは、すべての可能な行動に対するq値を計算するステップと、最適なq値を有する最適な行動として行動をランダムに選択するステップと、前記選択された最適な行動の報酬を生成するステップと、選択された最適な行動のセットをサンプリングするステップと、歪み損失を最小化するために前記第3のニューラルネットワークの重みパラメータを更新するステップと、によって訓練される、
請求項15に記載の非一時的コンピュータ可読媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163133696P | 2021-01-04 | 2021-01-04 | |
US63/133,696 | 2021-01-04 | ||
US17/478,089 US20220215265A1 (en) | 2021-01-04 | 2021-09-17 | Method and apparatus for end-to-end task-oriented latent compression with deep reinforcement learning |
US17/478,089 | 2021-09-17 | ||
PCT/US2021/053952 WO2022146523A1 (en) | 2021-01-04 | 2021-10-07 | Method and apparatus for end-to-end task-oriented latent compression with deep reinforcement learning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023518306A true JP2023518306A (ja) | 2023-04-28 |
JP7416489B2 JP7416489B2 (ja) | 2024-01-17 |
Family
ID=82219733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022556610A Active JP7416489B2 (ja) | 2021-01-04 | 2021-10-07 | 深層強化学習を用いたエンドツーエンドのタスク指向型潜在圧縮のための方法、装置およびコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220215265A1 (ja) |
EP (1) | EP4059219A4 (ja) |
JP (1) | JP7416489B2 (ja) |
KR (1) | KR20220101178A (ja) |
CN (1) | CN115280777A (ja) |
WO (1) | WO2022146523A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11917154B2 (en) * | 2020-12-29 | 2024-02-27 | Tencent America LLC | End-to-end neural compression with deep reinforcement learning |
WO2023208948A1 (en) * | 2022-04-25 | 2023-11-02 | Deep Render Ltd | Method and data processing system for lossy image or video encoding, transmission and decoding |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4560694B2 (ja) | 2000-04-05 | 2010-10-13 | ソニー株式会社 | 符号化装置及びその方法 |
US6873343B2 (en) | 2000-05-11 | 2005-03-29 | Zoran Corporation | Scalable graphics image drawings on multiresolution image with/without image data re-usage |
GB2509311B (en) * | 2012-12-21 | 2016-12-14 | Canon Kk | Method and device for determining residual data for encoding or decoding at least part of an image |
CA3004885C (en) | 2015-11-12 | 2020-07-14 | Deepmind Technologies Limited | Asynchronous deep reinforcement learning |
CN118075466A (zh) | 2018-09-28 | 2024-05-24 | 松下电器(美国)知识产权公司 | 编码装置、解码装置、以及非暂时性的计算机可读取的记录介质 |
US11159789B2 (en) * | 2018-10-24 | 2021-10-26 | City University Of Hong Kong | Generative adversarial network based intra prediction for video coding |
US20200264876A1 (en) * | 2019-02-14 | 2020-08-20 | Microsoft Technology Licensing, Llc | Adjusting activation compression for neural network training |
GB2581808B (en) * | 2019-02-26 | 2022-08-10 | Imperial College Innovations Ltd | Scene representation using image processing |
CN111818346B (zh) | 2019-04-11 | 2023-04-18 | 富士通株式会社 | 图像编码方法和装置、图像解码方法和装置 |
US11057634B2 (en) | 2019-05-15 | 2021-07-06 | Disney Enterprises, Inc. | Content adaptive optimization for neural data compression |
JP7359878B2 (ja) | 2019-06-28 | 2023-10-11 | バイトダンス インコーポレイテッド | 変換スキップモードにおける量子化パタメータの修正技術 |
US11558617B2 (en) | 2020-11-30 | 2023-01-17 | Tencent America LLC | End-to-end dependent quantization with deep reinforcement learning |
-
2021
- 2021-09-17 US US17/478,089 patent/US20220215265A1/en active Pending
- 2021-10-07 KR KR1020227020799A patent/KR20220101178A/ko active Search and Examination
- 2021-10-07 WO PCT/US2021/053952 patent/WO2022146523A1/en unknown
- 2021-10-07 JP JP2022556610A patent/JP7416489B2/ja active Active
- 2021-10-07 EP EP21899321.0A patent/EP4059219A4/en active Pending
- 2021-10-07 CN CN202180021180.XA patent/CN115280777A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4059219A4 (en) | 2022-12-28 |
EP4059219A1 (en) | 2022-09-21 |
JP7416489B2 (ja) | 2024-01-17 |
CN115280777A (zh) | 2022-11-01 |
KR20220101178A (ko) | 2022-07-19 |
WO2022146523A1 (en) | 2022-07-07 |
US20220215265A1 (en) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7416489B2 (ja) | 深層強化学習を用いたエンドツーエンドのタスク指向型潜在圧縮のための方法、装置およびコンピュータプログラム | |
KR20220082921A (ko) | 인트라-예측 잔차들에 의한 멀티-스케일 신경 이미지 압축을 위한 방법 및 장치 | |
US20230122449A1 (en) | Substitutional quality factor learning in the latent space for neural image compression | |
JP7471733B2 (ja) | 滑らかな品質制御による適応ニューラル画像圧縮のための代替の入力最適化 | |
US11652994B2 (en) | Neural image compression with adaptive intra-prediction | |
US11790566B2 (en) | Method and apparatus for feature substitution for end-to-end image compression | |
US11917154B2 (en) | End-to-end neural compression with deep reinforcement learning | |
JP7434605B2 (ja) | メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム | |
JP7471730B2 (ja) | メタ学習によるレート制御を用いた適応ニューラル画像圧縮のための方法、装置及びプログラム | |
US11803988B2 (en) | Method and apparatus for adaptive image compression with flexible hyperprior model by meta learning | |
US20230186525A1 (en) | System, method, and computer program for content adaptive online training for multiple blocks in neural image compression | |
JP2024518239A (ja) | ニューラル画像圧縮における反復的なコンテンツ適応型オンライントレーニングのためのシステム、方法、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220920 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220920 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7416489 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |