CN114820354A - 基于可逆色调映射网络的传统图像压缩增强方法 - Google Patents
基于可逆色调映射网络的传统图像压缩增强方法 Download PDFInfo
- Publication number
- CN114820354A CN114820354A CN202210370645.9A CN202210370645A CN114820354A CN 114820354 A CN114820354 A CN 114820354A CN 202210370645 A CN202210370645 A CN 202210370645A CN 114820354 A CN114820354 A CN 114820354A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- traditional
- algorithm
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000006835 compression Effects 0.000 title claims abstract description 36
- 238000007906 compression Methods 0.000 title claims abstract description 36
- 230000002441 reversible effect Effects 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 71
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000013135 deep learning Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000013139 quantization Methods 0.000 claims abstract description 12
- 230000002708 enhancing effect Effects 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 13
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 10
- 230000008878 coupling Effects 0.000 claims description 10
- 238000010168 coupling process Methods 0.000 claims description 10
- 238000005859 coupling reaction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000016776 visual perception Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000003935 attention Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 238000013508 migration Methods 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims description 2
- 238000005215 recombination Methods 0.000 claims description 2
- 230000006798 recombination Effects 0.000 claims description 2
- 230000001629 suppression Effects 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims 1
- 238000011002 quantification Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 7
- 238000012546 transfer Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明属于图像处理技术领域,具体为一种基于可逆色调映射网络的传统图像压缩算法增强方法。本发明以可逆深度神经网络结构为主体,在编码阶段将图像映射到线性空间,降低像素占用比特,在解码阶段建立鲁棒的色调映射还原;采用基于窗口自注意力的滤波模块在编解码阶段对映射图像抑制或增强,从而减轻量化丢失信息带来的影响。本发明是一种自动的传统算法增强方法,能够有效将深度学习方法的模式迁移到传统算法上。实验结果表明,本发明可以在未针对特定传统算法训练的前提下,提升其在非原设计目标的其它指标上的性能表现。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种传统图像压缩算法增强方法。
背景技术
有损图像压缩旨在尽可能优化设计目标指标并降低码率。传统图像压缩算法主要有JPEG[1],WebP[2],基于H.265视频编码标准的BPG[3],AV1[4]和基于H.266标准的VVC[5]。传统图像压缩算法的管线通常由分块转换,量化和算术编码组成。像素占用比特的码率主要由所选量化质量参数QP决定。QP在不同的传统编码中有不同含义,QP越高,JPEG和WebP算法的码率就越高,而BPG、AV1、VVC等算法的码率就越低。基于视频编码标准的算法引入了帧内预测的技术,然而帧内预测的编码单元划分不可避免地会产生块效应和振铃效应,从而降低图像还原质量。
基于深度学习的图像压缩方法大都采用熵编码的自编码器形式。Balle等[6]提出了尺度超先验结构。Minnen等[7]在熵模型中引入了自回归模型。Chen等[8]通过注意力模块和离散高斯混合似然改进了熵模型。Xie等[9]将可逆神经网络结构[10]引入了图像压缩来改进理图像空间与特征空间之间的转换。基于生成式对抗网络的方法[11]可以预测出低码率下难以压缩的图像细节,从而提高视觉感知。Choi等通过[12]网络预测JPEG量化表的方式来改进JPEG算法。Klopp等[13]学习了一个前置滤波网络来过滤不重要的图像信息,从而降低传统算法的码率。
总体而言,传统算法受到设计目标指标(通常是PSNR)的限制,在其他评价标准表现不佳。深度学习方法因为流行度和模型大小限制,以及多数使用到不能通过GPU并行计算的自回归模型,目前尚不能完全取代传统算法。本发明提供一种基于可逆色调映射网络的传统图像压缩算法增强方法,可以在训练阶段未接触传统算法的前提下,有效将深度学习方法的模式迁移到大多数传统算法上,提升其在非原设计目标的其它指标上的性能表现。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于可逆色调映射网络的传统图像压缩算法增强方法,提升传统算法在非原设计目标的其它指标上的性能表现。
本发明提供的基于可逆色调映射网络的传统图像压缩算法增强方法,以可逆深度神经网络结构为主体,在编码阶段将图像映射到线性空间,降低像素占用比特;在解码阶段建立鲁棒的色调映射还原;采用基于窗口自注意力的滤波模块在编解码阶段对映射图像抑制或增强,从而减轻量化丢失信息带来的影响。具体步骤包括:
(1)构建可逆色调映射网络,用于在原始图像和线性空间图像之间建立鲁棒的色调映射,正运算得到映射图像Im,逆运算得到输出图像Id;
(2)构建梯度代理网络,用于替代无法在深度学习中计算梯度的不可微传统算法,得到优化神经网络的梯度;
(3)构建基于窗口自注意力的滤波模块,用于在编解码阶段对映射图像抑制或增强,得到传统算法编码前和色调映射网络逆运算前的滤波图像。
步骤(1)中,可逆色调映射网络由8组串联的仿射耦合层[14]构成;每组仿射耦合层包括3个基础模块和1个可逆运算的1x1卷积层[15]。第一组仿射耦合层输入原始图像I,每组的输出结果传递到下一组作为输入,最后一组输出映射图像Im。记3个基础模块为s,t1,t2,每个基础模块由3个卷积层构成;对仿射耦合层的当前输入m,在通道维度分为m1和m2,再将运算结果n1和n2合并得到当前输出n,其正运算过程为:
n1=m1+t1(m2); (1)
n2=m2⊙exp(s(n1))+t2(n1); (2)
其中,⊙表示Hadamard积,exp表示指数运算;相对地,可以对每组仿射耦合层执行逆运算,过程为:
m2=(n2–t2(n1))⊙exp(-s(n1)); (3)
m1=n1–t1(m2); (4)
其中,s(n1)表示基础模块s对n1的操作,t1(m2)表示基础模块t1对m2的操作,t2(n1)表示基础模块t2对n1的操作。
步骤(2)中,梯度代理网络为Minnen等提出的图像压缩网络[7],用于替代无法在深度学习中计算梯度的不可微传统算法,获取优化神经网络的梯度,因此在训练阶段无需接触传统算法;测试阶段,将代理网络换回传统算法,通过在少量数据上的尝试找到对目标传统算法量化参数QP(决定像素占用比特的码率)最合适的代理网络参数。
步骤(3)中,滤波模块包括2个基础模块和1个窗口自注意力模块;每个基础模块由4个卷积层构成,搭配步长或双线性插值对图像特征上下采样。窗口自注意力模块受SwinTransformer[16]的窗口化思想启发,通过通道重组将图像特征划分成不重叠的16x16大小的窗口;每个窗口的神经网络特征通过全连接层进一步得到3个中间特征Q、K、V,窗口自注意力模块的计算过程表示为:
Attention(Q,K,V)=Softmax(QKT+B)V, (5)
其中,B为窗口中所有元素的相对位置偏置。
窗口自注意力最后重组回原形状,与输入神经网络特征相加。
编码阶段的滤波模块输入映射图像Im,输出传统算法编码前的滤波图像。
解码阶段的滤波模块输入传统算法的解码图像,输出色调映射网络逆运算前的滤波图像。
进一步地,选取代理网络的前三层卷积层作为深度学习方法全局去冗余模式的先验提取模块提取先验特征。提取的先验特征通过卷积层和最近邻插值调整通道数和分辨率,在窗口自注意力模块中与神经网络特征级联共同计算自注意力,实现深度学习方法到传统图像压缩算法的迁移。
本发明中,网络训练中,损失函数主要有4部分:
其一,为拉近输入与输出图像,根据本发明提升目标选择对应的cycle损失;若提升MS-SSIM指标,则采用DSSIM损失,即1-MS-SSIM;若提升视觉感知,则采用均方差损失、感知损失[17]和生成式对抗损失[18]的加权组合;
其二,为将原始图像映射到能降低像素占用比特的线性空间,预先使用Xing等提出的色调映射网络[19]生成参考图像Iraw,期望在池化后与映射结果整体接近。对于映射图像Im,映射损失Lmap的计算方式如下:
Lmap=|Pool(Im)–Pool(Iraw)|, (6)
其中Pool(·)表示池化操作,|·|表示取绝对值。
其三,为尽量区分色调映射网络和两个滤波模块的功能,约束滤波后图像If和滤波前图像Im在各个通道上的均值距离,期望滤波模块更偏重抑制或增强局部细节。滤波损失Lflt的计算方式如下:
Lflt=|EHW(Im–If)|, (7)
其中,EHW(·)表示保留通道维度,在宽高维度上取均值。
其四,以上3个损失函数之和作为失真损失D,由代理网络提供码率损失R,通过权重参数λ控制平衡,计算方式如下:
L=R+λD, (8)
其中,根据经验,λ可取0.1以下,例如取0.0035、0.0067、0.025或0.0932。
本发明中,网络模型的训练流程如下:
准备20295张自然图像,通过Xing等提出的色调映射网络生成对应的线性空间参考图像用于计算映射损失。将Minnen等提出的图像压缩网络作为代理网络,在网络训练阶段模拟传统图像增强算法的量化行为并提供优化神经网络的梯度。选定率失真参数λ和增强网络提升目标指标对应的损失函数,通过自适应学习率加动量的梯度下降方式最小化损失函数L,得到本发明中可逆色调映射网络和滤波模块的网络参数。
本发明中,测试的操作流程如下:
将代理网络换回传统图像压缩算法,对于一个训练阶段未接触过的传统算法,在少量数据上进行尝试,找到对目标传统算法量化参数QP最合适的代理网络参数;
编码阶段,输入原始图像后,先使用本发明编码部分映射到线性空间,再使用传统算法的编码部分输出压缩文件;
解码阶段,先试用传统算法的解码部分获取映射图像,再使用本发明的解码部分处理得到相比直接使用传统算法更高质量的还原结果。
本发明中,所述传统图像压缩算法或传统算法等,是指非采用深度学习的图像压缩算法或其他算法。
本发明的有益效果在于:本发明设计了一个以可逆结构为主体的深度神经网络,用于增强传统图像压缩算法。编码阶段,本发明能将图像映射到线性空火箭,降低像素占用比特。解码阶段,本发明能建立鲁棒的色调映射还原。本发明可以在训练阶段未接触传统图像压缩算法的前提下,有效将深度学习方法的模式迁移到大多数传统算法上,提升其在非原设计目标的其它指标上的性能表现。
附图说明
图1为本发明的网络框架图。
图2为基于窗口自注意力的滤波模块的详细结构。
图3为本发明在Kodak数据集上的MS-SSIM率失真曲线。
图4为本发明在Tecnick数据集上的MS-SSIM率失真曲线。
图5为本发明对传统算法BPG的增强效果图。
具体实施方式
下面对本发明实施方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
采用图1中的网络结构,使用20295张自然图像训练深度神经网络,获得自动的传统图像压缩算法的增强模型。
具体实施方法是:
(1)训练前,通过Xing等提出的色调映射网络,生成自然图像对应的线性域参考图像。找到Minnen等提出的图像压缩网络的不同率失真参数λ模型作为代理网络。
(2)训练时,随机裁剪图像到224×224。设置初始学习率为0.0001,在40轮后衰减到十分之一。使用Adam优化器,最小化损失函数。批大小设置为4。选定率失真参数λ和增强网络提升目标指标(MS-SSIM、视觉感知等)对应的损失函数,最小化损失函数L得到多套模型。
(3)测试时,将代理网络换回传统图像压缩算法,对于一个增强网络未接触过的传统算法,在小批测试数据上进行尝试,找到与量化参数QP对应的率失真参数λ模型。编码阶段,输入测试图像后,先使用本发明的编码部分映射到线性域,再使用传统算法的编码部分输出压缩文件。解码阶段,先试用传统算法的解码部分获取映射图像,再使用本发明的解码部分处理得到相比直接使用传统算法更高质量的还原结果。
图3为本发明和传统算法在Kodak数据集上的MS-SSIM率失真曲线。可以看到,对于训练阶段未接触过的传统图像压缩算法,本发明有效将深度学习方法的模式迁移到大多数传统算法上。
图4为本发明和传统算法在Tecnick数据集上的MS-SSIM率失真曲线,可以看到,在1200x1200的高分辨率图像上,本发明仍能取得更高质量的还原结果。
图5为本发明对传统方法BPG的增强效果图。其中图5(a)为原图,图5(c)为提升MS-SSIM指标的效果,图5(d)为提升视觉感知的效果;可以看出,对于非原设计指标PSNR的其他指标,本发明的方法可以提升性能表现。
参考文献
[1]Gregory K.Wallace.The jpeg still picture compressionstandard.Commun.ACM,34(4):30–44,1991.
[2]Google.Web picture format.[EB/OL],2010.https://chromium.googlesource.com/webm/libwebp.
[3]Fabrice Bellard.Bpg image format.[EB/OL],2015.https://bellard.org/bpg/.
[4]Alliance of Open Media(AOM).Av1.[EB/OL],2018.https://aomedia.googlesource.com/aom.
[5]Joint Video Experts Team(JVET).Vvc official test model vtm.[EB/OL],2021.https://vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM/-/tree/VTM-14.0.
[6]Johannes Ball′e,David Minnen,Saurabh Singh,Sung Jin Hwang,and NickJohnston.Variational image compression with a scale hyperprior.InInternational Conference on Learning Representations,2018.
[7]David Minnen,Johannes Ball′e,and George Toderici.Jointautoregressive and hierarchical priors for learned image compression.InAdvances in Neural Information Processing Systems,pages10794–10803,2018.
[8]Zhengxue Cheng,Heming Sun,Masaru Takeuchi,and Jiro Katto.Learnedimage compression with discretized gaussian mixture likelihoods and attentionmodules.In Conference on Computer Vision and Pattern Recognition,pages 7936–7945,2020.
[9]Yueqi Xie,Ka Leong Cheng,and Qifeng Chen.Enhanced invertibleencoding for learned image compression.In ACM International Conference onMultimedia,pages 162–170,2021.
[10]Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.Densityestimation using real NVP.In International Conference on LearningRepresentations,2017.
[11]Fabian Mentzer,George Toderici,Michael Tschannen,and EirikurAgustsson.High-fidelity generative image compression.In Advances in NeuralInformation Processing Systems,2020.
[12]Jin Young Choi and Bohyung Han.Task-aware quantization networkfor JPEG image compression.In European Conference on Computer Vision,volume12365,pages 309–324,2020.
[13]Jan P.Klopp,Keng-Chi Liu,Liang-Gee Chen,and Shao-Yi Chien.How toexploit the transferability of learned image compression to conventionalcodecs.In IEEE Conference on Computer Vision and Pattern Recognition,pages16165–16174,2021.
[14]Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.Densityestimation using Real NVP.In International Conference on LearningRepresentations.2017.
[15]Diederik P.Kingma and Prafulla Dhariwal.Glow:Generative flow withinvertible 1x1convolutions.In Advances in Neural Information ProcessingSystems,pages 10236–10245,2018.
[16]Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,StephenLin,and Baining Guo.Swin transformer:Hierarchical vision transformer usingshifted windows.In International Conference on Computer Vision,2021.
[17]Justin Johnson and Alexandre Alahi and Li Fei-Fei.PerceptualLosses for Real-Time Style Transfer and Super-Resolution.In EuropeanConference on Computer Vision,2016.
[18]Alec Radford,Luke Metz,and Soumith Chintala.UnsupervisedRepresentation Learning with Deep Convolutional Generative AdversarialNetworks.In International Conference on Learning Representations.2016.
[19]Yazhou Xing,Zian Qian,and Qifeng Chen.Invertible image signalprocessing.In IEEE Conference on Computer Vision and Pattern Recognition,pages 6287–6296,2021。
Claims (8)
1.一种基于可逆色调映射网络的传统图像压缩算法增强方法,其特征在于,以可逆深度神经网络结构为主体,在编码阶段将原始图像映射到线性空间,降低像素占用比特;在解码阶段建立鲁棒的色调映射还原;采用基于窗口自注意力的滤波模块在编解码阶段对映射图像抑制或增强,从而减轻量化丢失信息带来的影响;具体步骤为:
(1)构建可逆色调映射网络,用于在原始图像和线性空间图像之间建立鲁棒的色调映射,正运算得到映射图像Im,逆运算得到输出图像Id;
(2)构建梯度代理网络,用于替代无法在深度学习中计算梯度的不可微传统算法,得到优化神经网络的梯度;
(3)构建基于窗口自注意力的滤波模块,用于在编解码阶段对映射图像抑制或增强,得到传统算法编码前和色调映射网络逆运算前的滤波图像。
2.根据权利要求1所述的传统图像压缩增强方法,其特征在于,步骤(1)中,所述可逆色调映射网络由8组串联的仿射耦合层构成;每组仿射耦合层包括3个基础模块和1个可逆运算的1x1卷积层;其中,第一组仿射耦合层输入为原始图像I,每组的输出结果传递到下一组作为输入,最后一组输出映射图像Im;依次记3个基础模块为s、t1、t2,每个基础模块由3个卷积层构成;对仿射耦合层的当前输入m,在通道维度分为m1和m2,再将运算结果n1和n2合并得到当前输出n的正运算过程为:
n1=m1+t1(m2); (1)
n2=m2⊙exp(s(n1))+t2(n1); (2)
其中,⊙表示Hadamard积,exp表示指数运算;相对地,可以对每组仿射耦合层执行逆运算,过程为:
m2=(n2–t2(n1))⊙exp(-s(n1)); (3)
m1=n1–t1(m2); (4)
其中,s(n1)表示基础模块s对n1的操作,t1(m2)表示基础模块t1对m2的操作,t2(n1)表示基础模块t2对n1的操作。
3.根据权利要求2所述的传统图像压缩增强方法,其特征在于,步骤(2)中,所述梯度代理网络为一种预训练的图像压缩网络,用于替代无法在深度学习中计算梯度的不可微传统算法,获取优化神经网络的梯度;测试阶段,将代理网络换回传统算法,通过在少量数据上的尝试找到对目标传统算法量化参数QP最合适的代理网络参数。
4.根据权利要求3所述的传统图像压缩增强方法,其特征在于,步骤(3)中,所述滤波模块包括2个基础模块和1个窗口自注意力模块;每个基础模块由4个卷积层构成,搭配步长或双线性插值对图像特征上下采样;窗口自注意力模块通过通道重组将图像特征划分成不重叠的16x16大小的窗口;每个窗口的神经网络特征通过全连接层进一步得到3个中间特征Q、K、V,窗口自注意力模块的计算过程表示为:
Attention(Q,K,V)=Softmax(QKT+B)V, (5)
其中,B为窗口中所有元素的相对位置偏置;
窗口自注意力最后重组回原形状,与输入神经网络特征相加;
编码阶段的滤波模块输入映射图像Im,输出传统算法编码前的滤波图像;
解码阶段的滤波模块输入传统算法的解码图像,输出色调映射网络逆运算前的滤波图像。
5.根据权利要求1-4之一所述的传统图像压缩增强方法,其特征在于,选取代理网络的前三层卷积层作为深度学习方法全局去冗余模式的先验提取模块提取先验特征;提取的先验特征通过卷积层和最近邻插值调整通道数和分辨率,在窗口自注意力模块中与神经网络特征级联共同计算自注意力,实现深度学习方法到传统图像压缩算法的迁移。
6.根据权利要求1-4之一所述的传统图像压缩增强方法,其特征在于,网络训练中,损失函数有4部分:
其一,为拉近输入与输出图像,根据提升目标选择对应的cycle损失;若提升MS-SSIM指标,则采用DSSIM损失,即1-MS-SSIM;若提升视觉感知,则采用均方差损失、感知损失和生成式对抗损失的加权组合;
其二,为将原始图像映射到能降低像素占用比特的线性空间,预先使用色调映射网络生成参考图像Iraw,期望在池化后与映射结果整体接近;对于映射图像Im,映射损失Lmap的计算方式如下:
Lmap=|Pool(Im)–Pool(Iraw)|, (6)
其中Pool(·)表示池化操作,|·|表示取绝对值;
其三,为尽量区分色调映射网络和两个滤波模块的功能,约束滤波后图像If和滤波前图像Im在各个通道上的均值距离,期望滤波模块更偏重抑制或增强局部细节;滤波损失Lflt的计算方式如下:
Lflt=|EHW(Im–If)|, (7)
其中,EHW(·)表示保留通道维度,在宽高维度上取均值;
其四,以上3个损失函数之和作为失真损失D,由代理网络提供码率损失R,通过权重参数λ控制平衡,计算方式如下:
L=R+λD, (8)
其中,λ取0.1以下。
7.根据权利要求6所述的传统图像压缩增强方法,其特征在于,网络模型的训练流程如下:
准备20295张自然图像,通过色调映射网络生成对应的线性空间参考图像用于计算映射损失;将图像压缩网络作为代理网络,在网络训练阶段模拟传统图像增强算法的量化行为并提供优化神经网络的梯度;选定率失真参数λ和增强网络提升目标指标对应的损失函数,通过自适应学习率加动量的梯度下降方式最小化损失函数L,得到可逆色调映射网络和滤波模块的网络参数。
8.根据权利要求7所述的传统图像压缩增强方法,其特征在于,测试的操作流程如下:
将代理网络换回传统图像压缩算法,对于一个训练阶段未接触过的传统算法,在少量数据上进行尝试,找到对目标传统算法量化参数QP最合适的代理网络参数;
编码阶段,输入原始图像后,先使用本发明编码部分映射到线性空间,再使用传统算法的编码部分输出压缩文件;
解码阶段,先试用传统算法的解码部分获取映射图像,再使用本发明的解码部分处理得到相比直接使用传统算法更高质量的还原结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210370645.9A CN114820354A (zh) | 2022-04-10 | 2022-04-10 | 基于可逆色调映射网络的传统图像压缩增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210370645.9A CN114820354A (zh) | 2022-04-10 | 2022-04-10 | 基于可逆色调映射网络的传统图像压缩增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114820354A true CN114820354A (zh) | 2022-07-29 |
Family
ID=82533780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210370645.9A Pending CN114820354A (zh) | 2022-04-10 | 2022-04-10 | 基于可逆色调映射网络的传统图像压缩增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114820354A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258658A (zh) * | 2023-05-11 | 2023-06-13 | 齐鲁工业大学(山东省科学院) | 基于Swin Transformer的图像融合方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782393A (zh) * | 2019-10-10 | 2020-02-11 | 江南大学 | 一种基于可逆网络的图像分辨率压缩及重建方法 |
CN113240605A (zh) * | 2021-05-21 | 2021-08-10 | 南开大学 | 基于对称神经网络进行正反双向学习的图像增强方法 |
-
2022
- 2022-04-10 CN CN202210370645.9A patent/CN114820354A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782393A (zh) * | 2019-10-10 | 2020-02-11 | 江南大学 | 一种基于可逆网络的图像分辨率压缩及重建方法 |
CN113240605A (zh) * | 2021-05-21 | 2021-08-10 | 南开大学 | 基于对称神经网络进行正反双向学习的图像增强方法 |
Non-Patent Citations (2)
Title |
---|
李雪奥: ""基于卷积神经网络的多曝光图像融合方法研究与实现"", 《硕士电子期刊》, 15 January 2019 (2019-01-15) * |
范劲松 等: ""高动态范围图像(HDRI)编码及色调映射技术研究"", 《工程图学学报》, 31 December 2010 (2010-12-31) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258658A (zh) * | 2023-05-11 | 2023-06-13 | 齐鲁工业大学(山东省科学院) | 基于Swin Transformer的图像融合方法 |
CN116258658B (zh) * | 2023-05-11 | 2023-07-28 | 齐鲁工业大学(山东省科学院) | 基于Swin Transformer的图像融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113658051B (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
Cui et al. | Convolutional neural networks based intra prediction for HEVC | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN110675321A (zh) | 一种基于渐进式的深度残差网络的超分辨率图像重建方法 | |
CN108921910B (zh) | 基于可伸缩卷积神经网络的jpeg编码压缩图像复原的方法 | |
CN108022213A (zh) | 基于生成对抗网络的视频超分辨率重建算法 | |
CN112801877A (zh) | 一种视频帧的超分辨率重构方法 | |
CN110717868B (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
CN111464815B (zh) | 一种基于神经网络的视频编码方法及系统 | |
CN113055674B (zh) | 一种基于两阶段多帧协同的压缩视频质量增强方法 | |
CN111553856B (zh) | 基于深度估计辅助的图像去雾方法 | |
CN112288632A (zh) | 基于精简esrgan的单图像超分辨率方法及系统 | |
WO2022141660A1 (zh) | 基于神经网络的高分辨率图像复原方法及系统 | |
Son et al. | Enhanced standard compatible image compression framework based on auxiliary codec networks | |
CN115578255A (zh) | 一种基于帧间亚像素块匹配的超分辨率重建方法 | |
Löhdefink et al. | GAN-vs. JPEG2000 image compression for distributed automotive perception: Higher peak SNR does not mean better semantic segmentation | |
CN114820354A (zh) | 基于可逆色调映射网络的传统图像压缩增强方法 | |
CN116542889A (zh) | 一种拥有稳定视点的全景视频增强方法 | |
Lin et al. | Smnet: Synchronous multi-scale low light enhancement network with local and global concern | |
CN113810715B (zh) | 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 | |
CN111083498B (zh) | 用于视频编码帧间环路滤波的模型训练方法和使用方法 | |
CN110443755B (zh) | 一种基于高低频信号量的图像超分辨率的方法 | |
CN114463189A (zh) | 一种基于密集残差型UNet的图像信息解析建模方法 | |
CN115375579A (zh) | 基于多支路金字塔大核卷积网络的海上图像去雾方法 | |
CN113935928B (zh) | 基于Raw格式岩心图像超分辨率重建 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |