JP7374340B2 - ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム - Google Patents
ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム Download PDFInfo
- Publication number
- JP7374340B2 JP7374340B2 JP2022560137A JP2022560137A JP7374340B2 JP 7374340 B2 JP7374340 B2 JP 7374340B2 JP 2022560137 A JP2022560137 A JP 2022560137A JP 2022560137 A JP2022560137 A JP 2022560137A JP 7374340 B2 JP7374340 B2 JP 7374340B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- generated
- training
- loss
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 50
- 230000006835 compression Effects 0.000 title claims description 30
- 238000007906 compression Methods 0.000 title claims description 30
- 230000001537 neural effect Effects 0.000 title claims description 21
- 238000007781 pre-processing Methods 0.000 title claims description 21
- 238000004590 computer program Methods 0.000 title claims 2
- 238000012549 training Methods 0.000 claims description 108
- 238000013528 artificial neural network Methods 0.000 claims description 93
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013442 quality metrics Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
- H04N19/463—Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
本出願は、2021年1月19日に出願された米国仮特許出願第63/138,901号及び2021年7月1日に出願された米国特許出願第17/365,395号に基づく優先権を主張し、それらの全体が参照により本明細書に組み込まれる。
110 ユーザデバイス
120 プラットフォーム
122 クラウドコンピューティング環境
124 コンピューティングリソース
124-1 アプリケーション
124-2 仮想マシン
124-3 仮想化ストレージ
124-4 ハイパーバイザ
130 ネットワーク
200 デバイス
210 バス
220 プロセッサ
230 メモリ
240 記憶構成要素
250 入力構成要素
260 出力構成要素
270 通信インターフェース
300 装置
310 TAPPニューラルネットワーク
320 ニューラルネットワークエンコーダ
330 ニューラルネットワークデコーダ
400A 訓練装置
400B 訓練装置
400C 訓練装置
410 レート損失生成器
420 歪み損失生成器
430 R-D損失生成器
440 データ更新部
450 データ更新部
460 代替歪み生成器
470 モデル更新部
500 方法
600 装置
610 生成コード
620 エンコーディング・コード
630 デコーディング・コード
Claims (9)
- 少なくとも1つのプロセッサが行う、ニューラル画像圧縮のためのタスク適応型前処理(TAPP)の方法であって、前記方法は、
TAPPニューラルネットワークを使用して、入力画像に基づいて代替画像を生成するステップと、
第1のニューラルネットワークを使用して、前記生成された代替画像をエンコードして圧縮表現を生成するステップとを含み、
前記TAPPニューラルネットワークは、
前記TAPPニューラルネットワークを使用して、入力訓練画像に基づいて、代替訓練画像を生成することと、
前記第1のニューラルネットワークを使用して、前記生成された代替訓練画像をエンコードして圧縮訓練表現を生成することと、
第2のニューラルネットワークを使用して、前記生成された圧縮訓練表現をデコードして出力訓練画像を再構成することと、
前記入力訓練画像、前記再構成された出力訓練画像、及び前記生成された圧縮訓練表現に基づいて生成されるレート歪み(R-D)損失の勾配を生成することと、
前記R-D損失の前記生成された勾配に基づいて、前記生成された代替訓練画像を更新することと
によって訓練される、方法。 - 前記第2のニューラルネットワークを使用して、前記生成された圧縮表現をデコードして出力画像を再構成するステップをさらに含む、請求項1に記載の方法。
- 前記代替画像を生成する前記ステップは、
前記TAPPニューラルネットワークを使用して、前記入力画像に基づいて代替摂動を生成するステップと、
前記入力画像と前記生成された代替摂動との和として前記代替画像を生成するステップと
を含む、請求項1に記載の方法。 - 前記TAPPニューラルネットワークは、ハイパーパラメータ、前記入力訓練画像と前記再構成された出力訓練画像との間の再構成誤差である歪み損失、及び前記生成された圧縮訓練表現のビット消費であるレート損失に基づいて、前記R-D損失を生成することによってさらに訓練される、請求項1に記載方法。
- 前記R-D損失の前記勾配が生成され、前記生成された代替訓練画像は、最大反復回数が行われるまで、又は前記R-D損失が収束するまで更新される、請求項1に記載の方法。
- 前記TAPPニューラルネットワークは、前記R-D損失の前記生成された勾配に基づいて前記入力訓練画像を更新することによってさらに訓練され、
前記R-D損失の前記勾配が生成され、前記入力訓練画像は、最大反復回数が行われるまで、又は前記R-D損失が収束するまで更新される、請求項1に記載の方法。 - 前記TAPPニューラルネットワークは、
グランドトゥルース代替画像と前記生成された代替訓練画像との差として代替歪みを生成することと、
前記生成された代替歪みの勾配を生成することと、
前記生成された代替歪みの前記生成された勾配に基づいて前記TAPPニューラルネットワークのパラメータを更新することと
によってさらに訓練される、請求項1に記載の方法。 - 請求項1~7のいずれか一項に記載の方法を行うように構成された、ニューラル画像圧縮のためのタスク適応型前処理(TAPP)のための装置。
- 少なくとも1つのプロセッサに、請求項1~7のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163138901P | 2021-01-19 | 2021-01-19 | |
US63/138,901 | 2021-01-19 | ||
US17/365,395 | 2021-07-01 | ||
US17/365,395 US11876988B2 (en) | 2021-01-19 | 2021-07-01 | Method and apparatus for task-adaptive pre-processing for neural image compression |
PCT/US2021/044900 WO2022159143A1 (en) | 2021-01-19 | 2021-08-06 | Method and apparatus for task-adaptive pre-processing for neural image compression |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023521318A JP2023521318A (ja) | 2023-05-24 |
JP7374340B2 true JP7374340B2 (ja) | 2023-11-06 |
Family
ID=82405496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022560137A Active JP7374340B2 (ja) | 2021-01-19 | 2021-08-06 | ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11876988B2 (ja) |
EP (1) | EP4111372A4 (ja) |
JP (1) | JP7374340B2 (ja) |
KR (1) | KR20220166336A (ja) |
CN (1) | CN115461753A (ja) |
WO (1) | WO2022159143A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7434604B2 (ja) | 2021-04-30 | 2024-02-20 | テンセント・アメリカ・エルエルシー | ニューラル画像圧縮における画像置換を用いたコンテンツ適応型オンライン訓練 |
JP7493617B2 (ja) | 2021-04-16 | 2024-05-31 | テンセント・アメリカ・エルエルシー | ニューラル画像圧縮における置換の多学習率のための方法および装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115721B (zh) * | 2022-07-26 | 2024-03-15 | 北京大学深圳研究生院 | 一种神经网络图像压缩模型的枝剪方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170230675A1 (en) | 2016-02-05 | 2017-08-10 | Google Inc. | Compressing images using neural networks |
JP2020028111A (ja) | 2018-08-10 | 2020-02-20 | キヤノン株式会社 | 画像処理方法、画像処理装置、画像処理システム、およびプログラム |
WO2020191402A1 (en) | 2019-03-21 | 2020-09-24 | Qualcomm Incorporated | Video compression using deep generative models |
US20200366914A1 (en) | 2019-05-15 | 2020-11-19 | Disney Enterprises, Inc. | Content Adaptive Optimization for Neural Data Compression |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8181872B2 (en) * | 2007-09-19 | 2012-05-22 | Ali Lebaschi | Imaging device and method for concurrent imaging of opposite sides of an identification card or document |
JP2009111691A (ja) * | 2007-10-30 | 2009-05-21 | Hitachi Ltd | 画像符号化装置及び符号化方法、画像復号化装置及び復号化方法 |
US10204286B2 (en) | 2016-02-29 | 2019-02-12 | Emersys, Inc. | Self-organizing discrete recurrent network digital image codec |
US11671110B2 (en) | 2019-11-22 | 2023-06-06 | Tencent America LLC | Method and apparatus for neural network model compression/decompression |
-
2021
- 2021-07-01 US US17/365,395 patent/US11876988B2/en active Active
- 2021-08-06 CN CN202180031481.0A patent/CN115461753A/zh active Pending
- 2021-08-06 JP JP2022560137A patent/JP7374340B2/ja active Active
- 2021-08-06 EP EP21921589.4A patent/EP4111372A4/en active Pending
- 2021-08-06 WO PCT/US2021/044900 patent/WO2022159143A1/en unknown
- 2021-08-06 KR KR1020227039253A patent/KR20220166336A/ko active Search and Examination
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170230675A1 (en) | 2016-02-05 | 2017-08-10 | Google Inc. | Compressing images using neural networks |
JP2020028111A (ja) | 2018-08-10 | 2020-02-20 | キヤノン株式会社 | 画像処理方法、画像処理装置、画像処理システム、およびプログラム |
WO2020191402A1 (en) | 2019-03-21 | 2020-09-24 | Qualcomm Incorporated | Video compression using deep generative models |
US20200366914A1 (en) | 2019-05-15 | 2020-11-19 | Disney Enterprises, Inc. | Content Adaptive Optimization for Neural Data Compression |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7493617B2 (ja) | 2021-04-16 | 2024-05-31 | テンセント・アメリカ・エルエルシー | ニューラル画像圧縮における置換の多学習率のための方法および装置 |
JP7434604B2 (ja) | 2021-04-30 | 2024-02-20 | テンセント・アメリカ・エルエルシー | ニューラル画像圧縮における画像置換を用いたコンテンツ適応型オンライン訓練 |
Also Published As
Publication number | Publication date |
---|---|
JP2023521318A (ja) | 2023-05-24 |
CN115461753A (zh) | 2022-12-09 |
EP4111372A1 (en) | 2023-01-04 |
US20220232232A1 (en) | 2022-07-21 |
KR20220166336A (ko) | 2022-12-16 |
US11876988B2 (en) | 2024-01-16 |
EP4111372A4 (en) | 2023-10-18 |
WO2022159143A1 (en) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11582470B2 (en) | Method and apparatus for multi-scale neural image compression with intra-prediction residuals | |
JP7374340B2 (ja) | ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム | |
JP7420942B2 (ja) | 敵対的生成器を用いたレート適応ニューラル画像圧縮のための方法及び装置 | |
US11488329B2 (en) | Method and apparatus for multi-rate neural image compression with stackable nested model structures | |
WO2023069235A1 (en) | Substitutional quality factor learning in the latent space for neural image compression | |
WO2022225646A1 (en) | Substitutional input optimization for adaptive neural image compression with smooth quality control | |
KR20220156896A (ko) | 적응적 인트라-예측에 의한 신경 이미지 압축 | |
JP2022553250A (ja) | エンドツーエンド画像圧縮のための特徴置換のための方法、装置およびコンピュータプログラム | |
US11915457B2 (en) | Method and apparatus for adaptive neural image compression with rate control by meta-learning | |
US11803988B2 (en) | Method and apparatus for adaptive image compression with flexible hyperprior model by meta learning | |
US20220345717A1 (en) | Method and apparatus for dynamic learning rates of substitution in neural image compression | |
US20220343552A1 (en) | Method and apparatus for multi-learning rates of substitution in neural image compression | |
US20220222505A1 (en) | Multi-task neural network by micro-structured parameter sharing for multi-quality loop filter | |
WO2022221027A1 (en) | Adaptive neural image compression with smooth quality control by meta-learning | |
CN116324805A (zh) | 神经图像压缩中具有替代项的非线性量化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220930 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220930 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230919 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7374340 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |