CN113163200A - 基于卷积变分自编码器神经网络的双层hdr图像压缩器及方法 - Google Patents

基于卷积变分自编码器神经网络的双层hdr图像压缩器及方法 Download PDF

Info

Publication number
CN113163200A
CN113163200A CN202110186683.4A CN202110186683A CN113163200A CN 113163200 A CN113163200 A CN 113163200A CN 202110186683 A CN202110186683 A CN 202110186683A CN 113163200 A CN113163200 A CN 113163200A
Authority
CN
China
Prior art keywords
layer
image
convolution
residual
hdr image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110186683.4A
Other languages
English (en)
Other versions
CN113163200B (zh
Inventor
王瑾
韩飞
朱青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110186683.4A priority Critical patent/CN113163200B/zh
Publication of CN113163200A publication Critical patent/CN113163200A/zh
Application granted granted Critical
Publication of CN113163200B publication Critical patent/CN113163200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及基于卷积变分自编码器神经网络的双层HDR图像压缩器及方法,用于解决由于HDR图像占用存储空间较大,需要对HDR图像进行压缩存储的技术问题。具体内容包括,基础层编码生成基础层码流,基础层用于向后兼容JPEG标准,扩展层编码生成扩展层码流,扩展层主要是由卷积变分自编码器组成,基础层码流和扩展层码流经过解码后产生重建HDR图像,为了去除压缩和解压缩过程中产生的图像伪影和噪声,最后加入CNN后处理神经网络来提高图像重建质量。在主观视觉上重建图像达到了较高的清晰度,并且在客观质量指标上优于传统方法的压缩效果。

Description

基于卷积变分自编码器神经网络的双层HDR图像压缩器及 方法
技术领域
本发明属于计算机图像处理领域,是一种基于卷积神经网络(CNN)的对HDR图像进行压缩并且重建的方法。
背景技术
近年来,HDR成像技术已得到广泛的提倡和应用,比如在视频,摄影,VR,航空和医疗图像等方面HDR技术表现很好,并将成为下一代多媒体技术之一。HDR图像,又叫做高范围动态图像(High Dynamic Range Image),相比于LDR图像(低动态范围图像,Low DynamicRange Image,颜色范围在0-255),HDR图像拥有更大的颜色范围,更加接近人眼视觉系统(HVS),HDR图像在亮部和暗部拥有更清晰图像细节,但是HDR图像也需要更多的存储空间和网络带宽,因此需要对HDR图像进行压缩和重建。然而,目前传统的压缩方法存在一定的局限性,比如传统HDR图像压缩存在压缩比较低,图像重建质量低,存在压缩伪影和模糊等问题。对HDR图像进行有效并且高质量的压缩任然是HDR技术待解决的难题。
目前HDR图像压缩的方法大多是基于变换或者统计的传统图像压缩方法,主要可以分为不对LDR编码兼容的纯HDR压缩和向后兼容传统LDR编码算法的HDR压缩。因为大多数的普通显示器只能显示LDR图像,并且目前可以显示HDR图像的设备比较昂贵,所以主流的HDR压缩方法是采用对LDR编码进行向后兼容的双层结构。主流中压缩性能表现比较好的是JPEG编码委员会发布的JPEG XT(ISO/IEC 18477)图像压缩标准(A.Artusi,R.K.Mantiuk,T.Richter,and P.Korshunov,“Jpeg xt:a compression standard for hdr and wcgimages,”IEEE Signal Processing Magazine,33(2),pp.118-124,2016.)。JPEG XT标准是一种基于变换的双层结构的压缩方法,分为基础层和扩展层(又叫残差层),基础层提供对传统JPEG标准的兼容,扩展层是为了提高图像的重建质量,由于是基于变换的压缩方法,将图像信号拆分为直流和交流成分,这样破坏了原图像的语义信息,重建图像质量不高,并且存在伪影和模糊等问题。
综上,现有的传统HDR图像压缩方法存在低压缩比,图像重建质量较低,重建图像存在模糊和伪影等问题,传统HDR图像压缩方法具有一定局限性。
发明内容
本发明是针对传统HDR图像压缩中存在的低压缩比,图像重建质量较低,重建图像存在模糊和伪影等问题,设计了一种基于卷积神经网络的双层HDR图像压缩方案。本方案既可以兼容JPEG编码标准,也克服了传统HDR图像压缩方法中存在的上述问题,保留更多的图像语义信息,并且本方案重建图像的压缩比更高,在低码率和中码率的客观图像质量优于传统方法,同时在相同码率时本发明的主观重建图像更加清晰。
本发明的HDR图像压缩整体流程图流程框架如图1所示,本发明是基于卷积神经网络的双层HDR图像压缩器,主要包括基础层,扩展层和CNN后处理模块。基础层是传统的基础层,主要由色调映射(TMO)、JPEG编码器、熵编码、逆熵编码、JPEG解码器、逆色调映射(ITMO)组成,基础层用于提供对传统JPEG编码标准的兼容性。扩展层(残差层)由残差映射、卷积变分自编码器、逆残差映射构成,其中卷积变分自编码器由CNN残差编码器,二值化量化器、算数编码、逆算数编码、CNN残差解码器组成,扩展层用于对残差图像进行编码和解码,提高HDR图像的重建质量。CNN后处理模块是基于分组卷积神经网络的方法,后处理模块是为了去除重建HDR图像中存在的压缩伪影和模糊,增加重建图像清晰度。
本发明整体HDR图像编码和解码方法流程框架如图2所示,编码和解码具体流程步骤如下:
(1)HDR图像编码方法:
在图2(a)中,首先,原始HDR图像进行色调映射来获得LDR图像,为了方便色调映射的实现,框架中使用对数伽马函数来对原始HDR图像进行色调映射.其次,LDR图像通过标准的JPEG编码器和熵编码来产生基础层码流,JPEG编码器后的码流经过标准JPEG解码器来获得重建LDR图像。接下来,将所有通过色调映射到相同LDR值的HDR图像值进行平均,并为逆色调映射创建查找表,重建的LDR图像经过逆色调映射后来生成新的HDR图像。上述基础层是为了兼容传统JPEG编码标准,给只能显示普通图像的用户提供HDR显示服务。最后,残差图像Res是原始HDR图像和新HDR图像之间的差值,由于残差图像中最大和最小值图像值相差很大,把残差图像值进行归一化映射到0和255之间,
Figure BDA0002941741830000031
其中Res代表残差图像,res表示映射后的残差图像,Max和Min分别是残差图像的最大和最小像素值。映射后的残差图像经过CNN残差编码器,二值化器和算术编码后被编码为扩展层码流,CNN残差编码器提取图像的高维语义特征,这将更有利于图像的特征表示,并且减少残差图像的特征码流。
原始HDR图像经过HDR图像编码器后生成基础层码流和扩展层码流,也就是HDR图像的信息变相存储在基础层和扩展层码流中,由于码流比原始HDR图像占据的存储空间小,这样经过压缩的码流便于HDR图像的存储和传输。
HDR图像解码方法:
正如图2(b)中所展示,首先,基础层码流由逆熵编码和标准的JPEG解码器来解码为重建LDR图像,这样是为传统JPEG标准提供兼容。重建的LDR图像经过逆色调映射后来生成新的HDR图像。其次,扩展层码流经过逆算术编码,CNN残差解码器和逆残差映射生成重建残差图像,CNN残差解码器可以很好的保留残差图像的语义信息。最后,重建残差图像和新的HDR图像进行相加形成HDR图像,然后HDR图像通过基于分组卷积神经网络的后处理模块产生最终的重建HDR图像,CNN后处理模块后重建图像可以减少压缩伪影和噪声。
有益效果
不同于目前主流的基于传统方法的HDR图像压缩方法,本发明方法是一种深度学习的压缩方法,相比于传统HDR图像压缩方法,本方法压缩比更高,并且在低码率和中码率有更好的客观图像重建质量,相同码率时本发明的主观重建图像更加清晰。
附图说明
图1基于卷积神经网络的双层HDR图像压缩整体流程图;
图2(a)HDR图像压缩编码框架图;
图2(b)HDR图像压缩解码框架图;
图3扩展层中的变分自编码器神经网络示意图。
图4基于迭代和累加的残差图像重建方法示意图。
图5(a)3×3残差网络块结构示意图;
图5(b)5×5残差网络块结构示意图;
图5(c)CNN后处理模块结构示意图;
图6测试用例(HDR图像对应的LDR图像);
图7HDR图像客观质量对比图;
图8(a)、(b)不同测试用例HDR图像主观质量对比图,其中,从上到下分别为JPEGXT配置的A,B,C三个方案和本发明的方法,图8(a)为memorial,码率分别为3.26bpp,3.19bpp,3.23bpp,3.05bpp,图8(b)为rend06,码率分别为2.57bpp,2.31bpp,2.44bpp,2.26bpp。
具体实施方式
如图1所示,展示的是基于卷积神经网络的双层HDR图像整体压缩流程,框架主要包括基础层,扩展层和CNN后处理模块。基础层用于提供对传统JPEG编码标准的兼容性。扩展层(残差层)由卷积变分自编码器等组成,用于对残差图像进行编码和解码,其中自编码器神经网络由CNN残差编码器(E)、二值化器
Figure BDA0002941741830000041
算数编码、逆算数编码、CNN残差解码器(D)组成。CNN后处理是基于分组卷积神经网络的去伪影模块。
为了更清楚的呈现本发明的技术内容,将从以下方面详细介绍本发明具体实施方法和对比效果,即卷积变分自编码器的具体实现及工作过程,CNN后处理模块的具体实现及工作过程,实验设置,对比实验。
(1)卷积变分自编码器的具体实现及工作过程
本发明框架中的卷积变分自动编码器神经网络如图3所示,其中Residual是残差图像,Reconstruction是残差重建图像,Binarizer表示二值化器,Codestream代表扩展层码流,AE,AD分别是算术编码和解码,GDN/IGDN是一种激活函数;卷积层的参数表示为卷积核的数量×卷积核的高度×卷积核宽度/下采样或者上采样的倍数,其中↓表示下采样(卷积)、↑表示表示上采样(反卷积),Concat表示级联。
卷积变分自编码器中的CNN残差编码器和CNN残差解码器由卷积,反卷积和GDN/IGDN非线性激活函数组成。GDN/IGDN激活函数是一种局部除法归一化转换,这种转换已被证明特别适用于评估图像质量和图像压缩(J.Ballé,D.Minnen,S.Singh,S.J.Hwang,andN.Johnston,“Variational image compression with a scale hyperprior,”arXivpreprint arXiv:1802.01436,2018.)。在CNN残差编码器中,框架中设计了一种特征融合结构来合并和融合不同卷积层的特征,并使用级联操作(Concat)在特征图通道方向上融合不同卷积层的特征,设计的目的是将前卷积层的信息传递到深层。卷积层将原始残差图像的分辨率下采样为1/2、1/4、1/8、1/16,然后用1×1卷积层改变特征图通道数来生成编码表示y。在残差编码器的最后,原始残差图像(H×W×3)被下采样为H/16×W/16×32大小的特征图。本发明通过二值化器来产生量化特征y^,然后使用算术编码来进一步压缩特征来生成扩展层码流。在CNN残差解码器中,设计了中间反卷积层和卷积层将特征y^上采样为大小是H×W×3的残差重建图像。
卷积变分自编码器中的二值化器
本发明中使用二值化器来进行量化操作,与传统的量化相比,二值化器可以进一步控制并减少码流,这将有助于CNN自动编码器学习有效的特征表示,并且简单的计算可以减少训练时间。二值化过程分为两个步骤。第一步,在CNN残差编码器的1×1卷积层之后使用Sigmoid激活函数,那么CNN残差编码器的输出y=E(x)的范围应在[0,1]。对于第二步,让yijk表示y中的元素。传统量化器B(E(x))定义如下:
Figure BDA0002941741830000051
但是,由于传统量化B(yijk)函数的梯度几乎在所有地方都是0,除了当yijk=0.5时它是无限大的,也就是这一点不可导。在反向传播算法中,以上情况将导致无法更新和减小梯度。本发明使用代理函数
Figure BDA0002941741830000052
来代替B(yijk)函数,如下所示:
Figure BDA0002941741830000053
其中ε是随机噪声。这里的B(yijk)函数只用于前向传播,而
Figure BDA0002941741830000054
函数用于反向传播。
Figure BDA0002941741830000055
函数的梯度可以通过以下公式获得:
Figure BDA0002941741830000061
残差图像重建和码率控制
本发明框架中的残差图像重建和控制码率的方法如图4所示,本发明用了一种迭代累加的方式来控制扩展层的码率和重建原始残差图像。基于迭代累加的残差图像重建和控制码率方式是在训练中卷积自编码器采用的一种累加的结构方式。CNN自编码器的第一个迭代输入图像是原始残差图像,在每个后续迭代中,输入图像是残差,输出图像是残差的预测,并且这里的残差是指上一次迭代的输入图像与输出图像之间的差值,最终的重建残差图像就是所有迭代的输出图像之和。在本发明的卷积变分自动编码器中,每个256×256×3大小的输入残差图像在每次迭代中都压缩为16×16×32大小的二进制表示,如果对每一个二值化的特征值进行表示消耗1比特,则结果是在每次迭代中消耗的码率是1/8bpp。即使在使用熵编码之前,第一次迭代可以达到192:1的压缩比。随着迭代次数的增长,码率在每次迭代中增长0.125bpp,最后码率将达到2bpp,并且经过16次迭代后最终码率将达到2bpp。本发明的具有高压缩比和低码率消耗特性。
基于迭代累加的残差图像的重建方式,原理是随着卷积自编码器的每次迭代,输入残差图像和输出的重建残差图像之间的误差会越来越小,每次迭代都是降低上一次迭代的输入和输出残差的差距,这样就可以达到降低残差图像和重建残差图像误差的目的,最后把每次迭代后的重建残差累加起来就是重建残差图像。基于迭代累加的图像重建方式,这种方式可以有效的减少残差图像和重建残差图像之间的误差,提高重建残差图像的清晰度和质量,同时每次迭代消耗0.125bpp,随着迭代次数的增加图像质量和扩展层码率也会随之增加,所以可以选择不同的迭代次数来控制扩展层的码率和图像重建质量。
(2)CNN后处理模块的实现及工作过程
本发明框架中的后处理的方法如图5(a)、(b)、(c)所示,图像在经过压缩和重建后,可能会出现一些压缩伪影和平滑的纹理细节,这也是传统图像压缩的典型缺点。为了提高HDR图像的重建质量,去除压缩中存在的伪影和模糊,本发明设计了一个有效的后处理模块。后处理模块是一种上下双层分组卷积神经网络,其中(a)和(b)分别是由3×3和5×5卷积组成的残差网络块。分组网络主要由3×3和5×5残差网络块组成,其中Leakyrelu是一种常用的激活函数。网络分为三个流向路径,三个路径分别为上组3×3卷积层,中间层,下组5×5卷积层,三个路径得到的结果最后经过叠加得到最终的HDR重建图像。本发明在每组卷积神经网络中使用10个残差块,并且这样的深度网络可以进一步提升图像重建的质量。
(3)实验设置
本实验的目的是验证对比本发明方法和其他方法在主观质量和客观质量下的对HDR图像压缩性能的优劣。在卷积变分自动编码器的神经网络训练中,本发明使用256×256×3大小的残差图像块作为输入图像。原始HDR图像来自公共网络的HDR图像数据集和视频序列(包括HDReye,Fairchild,Funt,MPI等)。首先,需要将这些HDR图像分解为不重叠的256×256图像块,其次,由于网络训练需要大量图像,所以对这些HDR图像块进行数据增强。数据增强包括翻转和旋转,并且设置JPEG标准中的不同的图像质量q。最终,经过数据增强得到了大约35万个残差图像块。残差图像值的最大值和最小值之间的差异较大,为了方便残差的训练和图像重建,我们将残差图像值映射到[0,255]。在训练阶段不使用任何残差逆映射,仅在测试阶段使用残差逆映射,经过相加操作以后的新HDR图像作为后处理网络的输入图像。我们使用一种失真度量作为损失函数:均方误差(MSE),
Lmse=||x-x^||2
其中x是输入图像,x^是输出图像。本发明训练在Linux操作系统,Pytorch框架,并且在Tesla V100显卡上运行。
(4)对比实验
本发明测试使用的HDR图像如图6(从左到右,分别是Tree,Memorial,Atriumnight,rend06),图6中显示的是HDR图像经过色调映射之后的LDR图像,因为普通显示器只能显示LDR图像。在HDR图像质量评估指标中,本发明使用HDR-VDP-2指标作为客观评估指标,这是一种广泛用于评估HDR图像客观质量的指标(R.Mantiuk,K.J.Kim,A.G.Rempel,and W.Heidrich,“Hdr-vdp-2:a calibrated visual metric forvisibility and quality predictions in all luminance conditions,”30(4),pp.40.1-40.13,2011.)。测试图像来自Ward的HDR图像数据集(http://www.anyhere.com/gward/hdrenc/pages/originals.html.),将本发明的方法与JPEG XT配置文件A,B,C和Li的方法(S.D.Li,J.Wang,Q.Zhu,“High Dynamic Range Image Compression based onVisual Saliency,”In 2018Picture Coding Symposium(PCS),pp.21-25,2018.)进行了比较,其中JPEG XT的三种方案和Li的方法都是传统压缩方法。
如图7所示,在客观图像质量评估中,本发明的方法(CNN+RC+PP)在低码率和中码率下优于JPEG XT配置文件A,B,C和Li方法,整体压缩性能表现优于JPEG XT配置文件A,B,C和Li方法。在消融实验方面,本发明进行了CNN,RC和PP消融实验,其中CNN代表CNN残差自编码器,RC是算术编码和解码,PP表示后处理模块。实验表明,CNN在低码率和高码率表现好于JPEG XT配置文件A,B,C和Li方法,RC可以在HDR-VDP-2上提升0.5到1.0db,PP可以提高0.5到1.5db。同时,还对主观图像质量进行了比较评估(如图8所示),红色框为明亮区域,蓝色框为灰暗区域。可以看到本发明方法的主观图像质量优于JPEG XT配置文件A,B,C。
终上所述,本发明方法是一种基于深度学习中卷积神经网络的HDR图像压缩方法,解决了传统HDR图像压缩存在压缩比较低,图像重建质量低,压缩伪影和模糊等问题。相比于传统HDR图像压缩方法(JPEG XT配置文件A,B,C和Li方法),本方法压缩比更高,并且在低码率和中码率有更好的图像重建质量,相同码率时本发明的主观重建图像更加清晰,并且本发明的整体压缩性能优于上述传统方法。

Claims (5)

1.基于卷积变分自编码器神经网络的双层HDR图像压缩器,其特征在于:包括基础层,扩展层和CNN后处理模块;基础层用于提供对传统JPEG编码标准的兼容性,由色调映射TMO、JPEG编码器、熵编码、逆熵编码、JPEG解码器、逆色调映射ITMO组成;扩展层用于对残差图像进行编码和解码,提高HDR图像的重建质量,由残差映射、卷积变分自编码器、逆残差映射构成,其中卷积变分自编码器由CNN残差编码器,二值化量化器、算数编码、逆算数编码、CNN残差解码器组成;CNN后处理模块用于去除重建HDR图像中存在的压缩伪影和模糊,增加重建图像清晰度,CNN后处理模块采用分组卷积神经网络实现。
2.根据权利要求1所述的基于卷积变分自编码器神经网络的双层HDR图像压缩器,其特征在于:
CNN残差编码器的结构:CNN残差编码器由16层卷积层组成,首先是3层卷积加一个GDN激活函数,这三层称之为第一多卷积层,这三层的前后层卷积是通道数为128的3x3SAME卷积,SAME卷积前后特征图分辨率不变,中间层卷积是通道数为128的3x3VALID卷积,这层卷积使得特征图分辨率下降为卷积前的1/2;随后经过一个相同的多卷积层,后边依次设有第二多卷积层、第三多卷积层、以及第四多卷积层,其中,第二多卷积层与第一多卷积层相同,第三多卷积层与第四多卷积层与第一多卷积层的不同之处仅在于通道数都是256,且第四多卷积层出于压缩精度和质量的考虑没有使用GDN激活函数;第四多卷积层后设有一个通道数为32的1x1卷积层;以上构成CNN残差编码器的主体结构;还包括3个分支结构,每条分支都是通道数为128的3x3VALID卷积,其中第一分支和第二分支的卷积层使得特征图分辨率下降为原来1/2,第三分支下降为原来的1/8,第一分支一端与第一多卷积层输出相连,另一端通过Concat操作与第二多卷积层输出相连,第二分支一端与第三多卷积层输出相连,第三分支一端与第一多卷积层输出相连,第二、三分支另一端通过Concat操作与第四多卷积层输出相连,Concat操作即为把特征图在通道方向叠加在一起,这3个分支结构用于将浅层网络的特征图信息带入到深层,这样有利于残差图像的压缩。
3.根据权利要求1所述的基于卷积变分自编码器神经网络的双层HDR图像压缩器,其特征在于:
CNN残差解码器的结构:CNN残差编码器依次包括5个多卷积层,首先是第一多卷积层,第一多卷积层依次包括三个卷积层,其中前、后层卷积是通道数为256的3x3的SAME卷积,中间层卷积是通道数为256的VAILD卷积,中间层反卷积使得特征图分辨率增大为卷积前的2倍,最后加一个IGDN激活函数;第二多卷积层与第一多卷积层相同,随后的第三、四多卷积层与第一多卷积层的不同之处仅在于通道数为128,且第四多卷积层出于重建图像质量没有使用IGDN激活函数;第5多卷积层依次包括一个通道数为64的3x3卷积和一个通道数为3的1x1的卷积。
4.根据权利要求1所述的基于卷积变分自编码器神经网络的双层HDR图像压缩器,其特征在于:
CNN后处理模块结构:CNN后处理模块是由CNN卷积层和全连接层组成,包括三个分支结构,第一分支依次包括一个通道数是64的卷积,10个3x3残差块、一个通道数为3的卷积,其中3x3残差块依次包括两层通道数是64的卷积,以及激活函数LeakyRelu;第二分支依次包括一个通道数是64的卷积,10个5x5残差块、一个通道数为3的卷积,其中5x5残差块依次包括两层通道数是64的卷积,以及激活函数LeakyRelu;第三分支为重建的HDR图像;待重建的HDR图像分别通过第一、第二分支后,与第三分支进行叠加得到最终的重建HDR图像;其中所述的重建HDR图像为经过CNN残差解码器和逆残差映射后的图像。
5.一种基于权利要求1所述压缩器的图像压缩方法,其特征在于包括编码方法和解码方法两部分,
所述的HDR图像编码方法如下:
首先,原始HDR图像进行色调映射来获得LDR图像;
其次,LDR图像通过标准的JPEG编码器和熵编码来产生基础层码流,JPEG编码器后的码流经过标准JPEG解码器来获得重建LDR图像;其中,所述的基础层码流为了兼容传统JPEG编码标准,给只能显示普通图像的用户提供HDR显示服务;
接下来,将所有通过色调映射到相同LDR值的HDR图像值进行平均,并为逆色调映射创建查找表,重建的LDR图像经过逆色调映射后来生成新的HDR图像;
然后,计算原始HDR图像和新HDR图像之间的差值,即残差图像Res,并把残差图像值进行归一化映射到0和255之间,
Figure FDA0002941741820000031
其中Res代表残差图像,res表示映射后的残差图像,Max和Min分别是残差图像的最大和最小像素值;
最后,映射后的残差图像经过CNN残差编码器,二值化器和算术编码后被编码为扩展层码流,其中,CNN残差编码器用于提取图像的高维语义特征,并且减少残差图像的特征码流;
所述的HDR图像解码方法如下:
首先,基础层码流由逆熵编码和标准的JPEG解码器来解码为重建LDR图像,用于为传统JPEG标准提供兼容;重建的LDR图像经过逆色调映射后来生成新的HDR图像;
其次,扩展层码流经过逆算术编码,CNN残差解码器和逆残差映射生成重建残差图像,CNN残差解码器用于保留残差图像的语义信息;
最后,重建残差图像和新的HDR图像进行相加形成HDR图像,然后HDR图像通过CNN后处理模块产生最终的重建HDR图像,CNN后处理模块用于减少重建图像的压缩伪影和噪声。
CN202110186683.4A 2021-02-09 2021-02-09 基于卷积变分自编码器神经网络的双层hdr图像压缩器及方法 Active CN113163200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110186683.4A CN113163200B (zh) 2021-02-09 2021-02-09 基于卷积变分自编码器神经网络的双层hdr图像压缩器及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110186683.4A CN113163200B (zh) 2021-02-09 2021-02-09 基于卷积变分自编码器神经网络的双层hdr图像压缩器及方法

Publications (2)

Publication Number Publication Date
CN113163200A true CN113163200A (zh) 2021-07-23
CN113163200B CN113163200B (zh) 2022-09-20

Family

ID=76883104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110186683.4A Active CN113163200B (zh) 2021-02-09 2021-02-09 基于卷积变分自编码器神经网络的双层hdr图像压缩器及方法

Country Status (1)

Country Link
CN (1) CN113163200B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024012474A1 (zh) * 2022-07-14 2024-01-18 杭州海康威视数字技术股份有限公司 一种基于神经网络的图像解码、编码方法、装置及其设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959957A (zh) * 2010-07-06 2013-03-06 皇家飞利浦电子股份有限公司 在多视图视频编码中从低动态范围图像生成高动态范围图像
US20130064462A1 (en) * 2011-09-08 2013-03-14 Dolby Laboratories Licensing Corporation Efficient Decoding and Post-Processing of High Dynamic Range Images
WO2015097126A1 (en) * 2013-12-27 2015-07-02 Thomson Licensing Method and device for encoding a high-dynamic range image and/or decoding a bitstream
CN107181949A (zh) * 2017-06-23 2017-09-19 四川大学 一种结合超分辨率和残差编码技术的图像压缩框架
US20180220144A1 (en) * 2015-07-22 2018-08-02 Dolby Laboratories Licensing Corporation Video Coding and Delivery with Both Spatial and Dynamic Range Scalability
US20190089955A1 (en) * 2016-02-19 2019-03-21 Industry-Academa Cooperation Group Of Sejong University Image encoding method, and image encoder and image decoder using same

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959957A (zh) * 2010-07-06 2013-03-06 皇家飞利浦电子股份有限公司 在多视图视频编码中从低动态范围图像生成高动态范围图像
US20130064462A1 (en) * 2011-09-08 2013-03-14 Dolby Laboratories Licensing Corporation Efficient Decoding and Post-Processing of High Dynamic Range Images
WO2015097126A1 (en) * 2013-12-27 2015-07-02 Thomson Licensing Method and device for encoding a high-dynamic range image and/or decoding a bitstream
US20180220144A1 (en) * 2015-07-22 2018-08-02 Dolby Laboratories Licensing Corporation Video Coding and Delivery with Both Spatial and Dynamic Range Scalability
US20190089955A1 (en) * 2016-02-19 2019-03-21 Industry-Academa Cooperation Group Of Sejong University Image encoding method, and image encoder and image decoder using same
CN107181949A (zh) * 2017-06-23 2017-09-19 四川大学 一种结合超分辨率和残差编码技术的图像压缩框架

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024012474A1 (zh) * 2022-07-14 2024-01-18 杭州海康威视数字技术股份有限公司 一种基于神经网络的图像解码、编码方法、装置及其设备

Also Published As

Publication number Publication date
CN113163200B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
Rao et al. A Survey of Video Enhancement Techniques.
CN111681166B (zh) 一种堆叠注意力机制编解码单元的图像超分辨率重建方法
CN110751597B (zh) 基于编码损伤修复的视频超分辨方法
Setyaningsih et al. Survey of hybrid image compression techniques
CN115606179A (zh) 用于使用学习的下采样特征进行图像和视频编码的基于学习的下采样的cnn滤波器
KR20210018668A (ko) 딥러닝 신경 네트워크를 사용하여 다운샘플링을 수행하는 이미지 처리 시스템 및 방법, 영상 스트리밍 서버 시스템
CN113497941A (zh) 图像滤波方法、编码方法及相关设备
Paul Adaptive tri-plateau limit tri-histogram equalization algorithm for digital image enhancement
CN117730338A (zh) 视频超分辨网络及视频超分辨、编解码处理方法、装置
CN115552905A (zh) 用于图像和视频编码的基于全局跳过连接的cnn滤波器
CN113163200B (zh) 基于卷积变分自编码器神经网络的双层hdr图像压缩器及方法
CN112785661A (zh) 基于融合感知损失的深度语义分割图像压缩方法及系统
CN113962882B (zh) 一种基于可控金字塔小波网络的jpeg图像压缩伪影消除方法
CN116563108A (zh) 一种基于残差多谱通道注意力网络水下图像超分辨率方法
CN112991169B (zh) 基于图像金字塔和生成对抗网络的图像压缩方法及系统
CN112150356A (zh) 基于级联框架的单幅压缩图像超分辨率重建方法
Zhang et al. Multi-scale-based joint super-resolution and inverse tone-mapping with data synthesis for UHD HDR video
Yuan et al. Gradient-guided residual learning for inverse halftoning and image expanding
CN115294222A (zh) 图像编码方法及图像处理方法、终端及介质
CN105141967A (zh) 基于恰可觉察失真模型的快速自适应环路滤波算法
CN115665427A (zh) 直播数据的处理方法、装置及电子设备
Han et al. HDR image compression with convolutional autoencoder
Liu et al. Learning weighting map for bit-depth expansion within a rational range
Brooks et al. Image compression using sparse colour sampling combined with nonlinear image processing
Neethu et al. Improved quality of JPEG compressed image using approximate K-SVD algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant