CN113497938A - 基于变分自编码器进行图像压缩和解压的方法和装置 - Google Patents

基于变分自编码器进行图像压缩和解压的方法和装置 Download PDF

Info

Publication number
CN113497938A
CN113497938A CN202010196440.4A CN202010196440A CN113497938A CN 113497938 A CN113497938 A CN 113497938A CN 202010196440 A CN202010196440 A CN 202010196440A CN 113497938 A CN113497938 A CN 113497938A
Authority
CN
China
Prior art keywords
image
noise
training
encoder
training image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010196440.4A
Other languages
English (en)
Inventor
戴文睿
程德
李刚
骆继祥
熊红凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010196440.4A priority Critical patent/CN113497938A/zh
Publication of CN113497938A publication Critical patent/CN113497938A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供了一种训练VAE的方法,该方法包括:获取训练图像;在所述训练图像中添加第一噪声,得到加噪训练图像;通过所述加噪训练图像训练变分自编码器,所述变分自编码器用于对所述加噪训练图像进行压缩和解压。在训练图像中添加第一噪声相当于对训练图像的像素分布进行了扰动,由于第一噪声的特征是已知的,VAE能够利用被扰动的像素周围的全局上下文信息进行编码,提高低码率下训练图像的信息利用率,因此,通过加噪训练图像训练VAE能够提高VAE的性能,从而提高解码图像的保真度。此外,采用加噪训练图像训练VAE能够提高VAE的特征提取功能的鲁棒性,当使用噪声信道传输码流时,能够提高解码图像的保真度。

Description

基于变分自编码器进行图像压缩和解压的方法和装置
技术领域
本申请涉及人工智能领域,尤其涉及一种基于变分自编码器进行图像压缩和解压的方法和装置。
背景技术
图像压缩能够减小图像数据中的冗余信息,因此,图像压缩对于提高图像的存储效率和传输效率有着重要意义。传统的图像压缩方法如联合图像专家组(jointphotographic experts group,JPEG)在中高码率区域有较好的压缩效果,在低码率区域,传统的图像压缩方法的压缩效果不够理想。
一种新的图像压缩方法是通过变分自编码器(variational auto encoder,VAE)对编码图像进行压缩,该方法主要利用卷积网络和对应的非线性变换提取图像特征,并对图像特征直接进行算术编码从而达到压缩目的。这种方法相比传统的图像压缩方法,可以省去复杂的参数设计和模块设计。在解压时,可以采用生成模型重构解码图像。
上述方法能够实现在低码率区间的图像压缩,但是,由于解码图像是生成模型重构的,无法保证解码图像的保真度。
发明内容
本申请提供了一种基于VAE进行图像压缩和解压的方法和装置,能够在低码率区间实现较好的压缩效果,并且,能够提高解码图像的保真度。
第一方面,提供了一种训练VAE的方法,该方法包括:获取训练图像;在所述训练图像中添加第一噪声,得到加噪训练图像;通过所述加噪训练图像训练变分自编码器,所述变分自编码器用于对所述加噪训练图像进行压缩和解压。
在训练图像中添加第一噪声相当于对训练图像的像素分布进行了扰动,由于第一噪声的特征(如标准差)是已知的,VAE能够利用被扰动的像素周围的全局上下文信息进行编码,提高低码率下训练图像的信息利用率,因此,通过加噪训练图像训练VAE能够提高VAE的性能,从而提高解码图像的保真度。此外,采用加噪训练图像训练VAE能够提高VAE的特征提取功能的鲁棒性,当使用噪声信道传输码流时,能够提高解码图像的保真度。
可选地,所述第一噪声的能量小于所述训练图像的能量。
第一噪声的能量过大可能会导致图像信息被噪声掩盖,因此,在训练图像中添加能量较小的第一噪声能够避免训练图像的信息被掩盖,提高VAE的性能。
可选地,所述第一噪声为高斯噪声或泊松噪声。
可选地,所述通过所述加噪训练图像训练变分自编码器,包括:从所述加噪训练图像中提取图像特征;在所述图像特征中添加第二噪声进行量化,得到量化的图像特征,所述第二噪声为均匀噪声;确定所述量化的图像特征的特征分布;确定所述特征分布和多元分布的距离;根据所述距离训练所述变分自编码器。
分布之间的距离用来表示实际的特征分布和理论的特征分布的差距,因此,可以将分布之间的距离作为损失函数来训练VAE。此外,多元分布即多个分布的组合(如混合高斯分布),相当于多个强度的噪声,从而能够对量化的图像特征的特征分布做更好的预测,减小编码码率。
可选地,所述图像特征包括YUV特征。
加噪训练图像通常是RGB图像,YUV特征是从RGB图像中提取的三通道特征,相比于直接从RGB图像中提取单通道特征,上述方案使得VAE能够学习到加噪训练图像潜在的高维特征,提高VAE的性能。
可选地,所述第二噪声的分布的上下限为[-0.5,+0.5]。
分布的上下限为[-0.5,+0.5]的第二噪声能够保证量化阶数为1,方便在测试过程中采用四舍五入取整进行量化。
可选地,所述方法还包括:确定所述变分自编码器重构所述训练图像的重构误差;根据所述重构误差训练所述变分自编码器。
重构误差能够反映解码图像的保真度,重构误差越大,解码保真度越低,此时需要提高码率;重构误差越大,解码保真度越高,此时可以降低码率。因此,基于重构误差训练VAE能够提高VAE的性能。
第二方面,提供了一种压缩图像的方法,包括:获取测试图像;通过变分自编码器对所述测试图像进行压缩并生成码流,所述变分自编码器是基于第一方面中任一项所述的方法训练得到的。
上述压缩图像使用的VAE是基于加噪训练图像训练得到的,具有更强的鲁棒性,能够在低码率条件下提高测试图像的信息利用率,从而提高了测试图像的压缩效果。此外,当使用噪声信道传输码流时,能够减小噪声信道的负面影响。
第三方面,提供了一种解压图像的方法,包括:接收码流;从所述码流中获取测试图像特征;通过变分自编码器对所述图像特征进行解压处理,所述变分自编码器是基于第一方面中任一项所述的方法训练得到的。
上述解压图像使用的VAE是基于加噪训练图像训练得到的,具有更强的鲁棒性,能够在低码率条件下提高测试图像的信息利用率,因此,基于上述VAE进行解压能够提高解码图像的保真度。
第四方面,提供了一种训练VAE的装置,包括用于执行第一方面中任一种方法的单元。
第五方面,提供了一种压缩图像的装置,包括用于执行第二方面中任一种方法的单元。
第六方面,提供了一种解压图像的装置,包括用于执行第三方面中任一种方法的单元。
第七方面,提供了一种训练VAE的电子设备,包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该设备执行第一方面中任一种方法。
第八方面,提供了一种压缩图像的电子设备,包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该设备执行第二方面中任一种方法。
第九方面,提供了一种解压图像的电子设备,包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该设备执行第三方面中任一种方法。
第十方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被剪枝神经网络的装置运行时,使得该装置执行第一方面中任一种方法。
第十一方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被剪枝神经网络的装置运行时,使得该装置执行第二方面中任一种方法。
第十二方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被剪枝神经网络的装置运行时,使得该装置执行第三方面中任一种方法。
第十三方面,提供了一种计算机可读介质,所述计算机可读介质存储有程序代码,所述程序代码包括用于执行第一方面中任一种方法的指令。
第十四方面,提供了一种计算机可读介质,所述计算机可读介质存储有程序代码,所述程序代码包括用于执行第二方面中任一种方法的指令。
第十五方面,提供了一种计算机可读介质,所述计算机可读介质存储有程序代码,所述程序代码包括用于执行第三方面中任一种方法的指令。
附图说明
图1是本申请提供的一种VAE的结构示意图;
图2是本申请提供的一种训练VAE的方法的示意图;
图3是本申请提供的另一种VAE的结构示意图;
图4是本申请提供的一种压缩图像的方法的示意图;
图5是本申请提供的一种解压图像的方法的示意图;
图6是本申请提供的一种训练VAE的装置的示意图;
图7是本申请提供的一种压缩图像的装置的示意图;
图8是本申请提供的一种解压图像的装置的示意图;
图9是本申请提供的一种电子设备的示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
图1是本申请提供的一种VAE的结构示意图。VAE100包括编码器110、量化模块120、率失真控制模块130、算术编码模块140、算术解码模块150和解码器160。
编码器110用于处理输入图像,如对输入图像进行噪声扰动和特征提取等。
量化模块120用于对编码器110输出的图像特征进行量化,以便于后续处理。
率失真控制模块130用于根据概率先验信息对图像特征的分布进行约束,以控制码率。分布之间的距离用来表示实际的特征分布和理论的特征分布的差距,因此,可以将分布之间的距离作为损失函数来训练VAE,通过理论分布来约束实际特征分布。例如,率失真控制模块130从量化模块120获取量化后的图像特征后,生成特征系数,随后将该特征系数和概率先验系数发送至算术编码模块140,以便于算术编码模块140基于上述两个系数进行算术编码。
算术编码模块140用于对量化模块120输出的量化后的图像特征进行算术编码,在算术编码的过程中,基于率失真控制模块130输出的特征系数和概率先验系数确定码率,生成码流。
算术解码模块150用于对算术编码模块140输出的码流进行解码,恢复图像特征。
解码器160用于根据算术解码模块150恢复的图像特征重构解码图像。
需要说明的是,VAE100是适用于本申请的VAE的一个示例而非限定,适用于本申请的VAE还可以具有其它的结构。
下面,结合VAE100对本申请提供的图像压缩和图像解压的方法进行描述。
为了获得性能较高的VAE,首先需要对VAE进行训练,训练方法如图2所示。方法200可以由服务器或终端设备或芯片执行,方法200包括以下内容。
S210,获取训练图像。
训练图像可以是RGB图像,例如,可以采用计算机视觉与模式识别会议(conference on computer vision and pattern recognition,CVPR)2019中的学习图像压缩的挑战(challenge on learned image compression,CLIC)中的训练集中的图像作为训练图像。训练图像也可以是其它类型的图像,本申请对训练图像的具体形式不做限定。
编码器110获取训练图像后,可以执行下列步骤。
S220,在所述训练图像中添加第一噪声,得到加噪训练图像。
第一噪声是概率先验信息(标准差和方差)已知的噪声,如高斯噪声或泊松噪声。第一噪声的能量过大可能会导致图像信息被噪声掩盖,为了避免训练图像的信息被第一噪声掩盖,可以在训练图像中添加能量较小的第一噪声,如能量小于训练图像的能量的第一噪声,这样可以提高VAE的性能。
本申请中,“第一”、“第二”等形容词用于限定同一类型的对象中的不同个体,如:“第一噪声”和下文中的“第二噪声”表示两个不同的噪声,除此之外不存在其它限定。
添加第一噪声的操作可以由编码器110中的噪声扰动模块(图1未示出)完成。以第一噪声为高斯噪声为例,噪声扰动模块可以利用特定标准差的高斯函数对训练图像进行扰动,相当于在频域上对训练图像进行一次全局的高斯滤波,最终得到加噪训练图像。
可以根据公式(1)对训练图像进行处理得到加噪训练图像。
Figure BDA0002417790590000041
公式(1)中,p(x)表示训练图像的分布;N(0,σ2)表示均值为0、标准差为σ的高斯分布,σ的取值可以是0.01;
Figure BDA0002417790590000042
表示加噪训练图像的分布。
获得加噪训练图像后,编码器110可以执行下列步骤。
S230,通过所述加噪训练图像训练变分自编码器,所述变分自编码器用于对所述加噪训练图像进行压缩和解压。
在训练图像中添加第一噪声相当于对训练图像的像素分布进行了扰动,由于第一噪声的特征(如标准差)是已知的,VAE100能够利用被扰动的像素周围的全局上下文信息进行编码,提高低码率下训练图像的信息利用率,因此,通过加噪训练图像训练VAE100能够提高VAE100的性能,从而提高解码图像的保真度。此外,采用加噪训练图像训练VAE100能够提高VAE100的特征提取功能的鲁棒性,当使用噪声信道传输码流时,能够提高解码图像的保真度。
在VAE100的训练过程中,编码器110可以通过卷积层从加噪训练图像中提取图像特征。如图3所示,
Figure BDA0002417790590000051
表示加噪训练图像,其中,x表示训练图像,ε表示高斯噪声;编码器110包括4个编码单元,每个编码单元包含1个卷积层和1个广义分歧归一化(generalizeddivisive normalization,GDN)层,卷积层的卷积核大小是3×3,卷积步长为2,卷积通道依次是128、256、256和256,上述4个编码单元也可以称为图像变换模块。另外一个3×3×192卷积层的作用为:改变卷积输出的通道数,以及调整上一层激活函数RELU输出值。
加噪训练图像通常是RGB图像,可以从RGB图像中提取YUV特征,YUV特征是三通道图像特征,相比于直接从RGB图像中提取单通道图像特征,上述方案使得VAE100能够学习到加噪训练图像潜在的高维特征,提高VAE100的性能。
随后,量化模块120对图像特征进行量化。例如,在图像特征中添加第二噪声进行量化,得到量化的图像特征,其中,第二噪声为均匀噪声,并且,第二噪声的分布的上下限为[-0.5,+0.5],可以在训练过程中进行自适应的调整。分布的上下限为[-0.5,+0.5]的第二噪声能够保证量化阶数为1,方便在测试过程中采用四舍五入取整进行量化。
率失真控制模块130可以确定量化的图像特征的特征分布,并确定该特征分布和多元分布的距离,该距离可以作为率失真控制模块130的损失函数训练率失真控制模块130。
下面举一个训练率失真控制模块130的例子。
第一噪声为高斯噪声,多元分布为混合高斯分布,混合高斯分布是由多个方差的正态分布的组合,相当于多个强度的噪声,从而能够对量化的图像特征的特征分布做更好的预测,减小编码码率。
可以通过KL(Kullback-Leibler divergence)散度表示特征分布与混合高斯分布的距离,并通过公式(2)训练率失真控制模块130。
Figure BDA0002417790590000052
公式(2)中,θ和θ′为待优化的网络参数,包括编码器110、量化模块120和率失真控制模块130中的参数;
Figure BDA0002417790590000053
表示从加噪训练图像中提取图像特征的过程,其中,
Figure BDA0002417790590000054
表示加噪训练图像,z表示图像特征;
Figure BDA0002417790590000055
表示根据量化的图像特征重构解码图像的过程,其中,
Figure BDA0002417790590000056
表示重构的解码图像,
Figure BDA00024177905900000511
表示量化后的图像特征;
Figure BDA0002417790590000057
表示在
Figure BDA0002417790590000058
上取期望,是在图像特征的基础上进行评估,本质上是为了拟合特征提取
Figure BDA0002417790590000059
和特征恢复
Figure BDA00024177905900000510
的潜在分布。
率失真控制模块130可以通过两个卷积层分别确定量化的图像特征的均值和方差(即,特征分布),如图3所示,该两个卷积层的卷积核大小为3×3,卷积步长为1,卷积通道数为192,确定方差的卷积层后接一个非线性函数(图3中未示出)来保证方差恒大于0,该非线性函数例如指数(exp)函数;确定均值的卷积层通过与n~N(0,σ)相乘来确定均值。
上述两个卷积层确定的特征分布为实际的特征分布,可以计算实际的特征分布与理论特征分布(即,高斯混合分布)之间的距离,并通过公式(2)最小化该距离训练率失真控制模块130。
为了便于计算,可以通过计算与KL散度等效的证据下界(evidence lower bound,ELBO)来训练率失真控制模块130,ELBO用于确定率失真模块130输出的特征系数和概率先验系数。
上文详细描述了VAE100的率失真控制模块的训练方法,下面将描述VAE100的整体训练方法。
在训练阶段,可以直接将量化的图像特征输入解码器160进行特征恢复,解码器160通过4个解码单元进行特征恢复,如图3所示,每个解码单元包含1个反卷积层和一个逆广义分歧归一化(inverse generalized divisive normalization,IGDN)层,反卷积层的卷积核大小是3×3,卷积步长为2,卷积通道依次是256、128、64和3,上述4个解码单元也可以称为图像变换模块。另外一个3×3×256的反卷积层用于卷积量化之后的特征,以便于和编码端保持对称。
经过特征恢复,解码器160可以获得YUV特征,可以将YUV特征转变为RGB图像,该RGB图像即重构的解码图像。对比解码图像和训练图像,可以得到均方误差(mean squarederror,MSE),MSE即训练图像的重构误差,可以将MSE作为VAE100的损失函数,通过反向传播训练编码器110和解码器160。
由于量化的图像特征直接从编码器110进入了解码器160,因此,上述训练方法也可以称为端到端训练。端到端训练能够同时训练编码器和解码器,提高训练效率。
VAE100训练完成后,即可进行图像的压缩和解压。下面,以测试图像为例介绍VAE100的压缩和解压过程。
如图4所示,本申请提供的压缩图像的方法400包括:
S410,获取测试图像。
测试图像可以是RGB图像,例如,可以采用Kodak24数据集(512×768彩色图像)中的图像作为测试图像。测试图像也可以是其它类型的图像,本申请对测试图像的具体形式不做限定。
S420,通过变分自编码器对所述测试图像进行压缩并生成码流,所述变分自编码器是基于方法200训练得到的。
上述压缩图像使用的VAE是基于加噪训练图像训练得到的,具有更强的鲁棒性,该VAE能够利用被扰动的像素周围的全局上下文信息进行编码,提高低码率下测试图像的信息利用率,从而提高了测试图像的压缩效果。此外,当使用噪声信道传输码流时,能够减小噪声信道的负面影响。
在通过VAE100对测试图像进行压缩的过程中,首先通过编码器100从测试图像中提取图像特征;再通过量化模块120对图像特征进行量化,如进行四舍五入量化,得到量化的图像特征;随后,通过率失真控制模块130确定量化的图像特征的特征系数;最后,算术编码模块140根据所述特征系数和概率先验系数对所述量化的图像特征进行算术编码,生成码流,所述特征系数和所述概率先验系数用于确定所述算术编码的码率。
上述图像特征例如是YUV特征,YUV特征是从RGB图像中提取的三通道特征,相比于直接从RGB图像中提取单通道特征,上述方案使得VAE100能够提取到测试图像潜在的高维特征,提高测试图像的压缩效果。
图5示出了本申请提供的一种解压方法,方法500包括:
S510,接收码流。
S520,从所述码流中获取测试图像特征
S530,通过变分自编码器对所述图像特征进行解压处理。
上述解压图像使用的VAE是基于加噪训练图像训练得到的,具有更强的鲁棒性,能够在低码率条件下提高测试图像的信息利用率,因此,基于上述VAE进行解压能够提高解码图像的保真度。
算术解码模块150从码流中恢复测试图像特征之后,可以通过解码器160重构图像特征,例如,可以通过解码器160中的sigmoid函数和tanh函数从测试图像特征中恢复YUV特征,并将YUV特征转化为RGB图像,从而完成了解码图像的重构。
下面,介绍本申请提供的图像压缩方法和解压方法相比于现有技术的有益效果。
选用五种现有技术,将该五种现有技术和训练完成的VAE100在Kodak24数据集(512×768彩色图像)上测试,可以得到下文所示的结果。
VAE100:0.0808比特每像素(bits per pixels,bpp)的峰值信噪比(peak signalto noise ratio,PSNR)为28.047分贝(dB)。
JPEG:0.1447bpp的PSNR为15.258dB。
JPEG2000:0.1137bpp的PSNR为27.609dB。
更好的可移植图形(better portable graphics,BPG):0.0846bpp的PSNR为29.298dB。
文献1:0.1156bpp的PSNR为28.030dB。
文献2:0.0758bpp的PSNR为27.429dB。
其中,文献1为J.Ballé等人在2017年的“Proceedings of the 5th InternationalConference on Learning Representations(ICLR)”上发表的“End-to-end optimizedimage compression”;文献2为D.Minnen等人在“Neural Information ProcessingSystems(NIPS)”会议上发表的“Joint autoregressive and hierarchical priors forlearned image compression”。
由上述结果可见,VAE100的PSNR相比于文献1的PSNR提升了越1.88dB,相比于文献2的PSNR提升了约0.71dB,因此,本申请提供的VAE100具有更好的率失真性能,可以适用于信噪比大于15dB的噪声信道传输。
此外,VAE100的解码器大小约为36兆字节(MB),该大小是文献2中解码器大小的15%,解码时间是Tucodec的3.5%。
上文详细介绍了本申请提供的基于VAE进行图像压缩和解压的方法的示例。可以理解的是,相应的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请可以根据上述方法示例对装置进行功能单元的划分,例如,可以将各个功能划分为各个功能单元,也可以将两个或两个以上的功能集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图6示出了本申请提供的一种训练VAE的装置的结构示意图。装置600包括接收单元620和处理单元610。
接收单元620用于:获取训练图像;
处理单元610用于:在所述训练图像中添加第一噪声,得到加噪训练图像;通过所述加噪训练图像训练变分自编码器,所述变分自编码器用于对所述加噪训练图像进行压缩和解压。
可选地,所述第一噪声的能量小于所述训练图像的能量。
可选地,所述第一噪声为高斯噪声或泊松噪声。
可选地,所述处理单元610具体用于:从所述加噪训练图像中提取图像特征;在所述图像特征中添加第二噪声进行量化,得到量化的图像特征,所述第二噪声为均匀噪声;确定所述量化的图像特征的特征分布;确定所述特征分布和多元分布的距离;根据所述距离训练所述变分自编码器。
可选地,所述图像特征包括YUV特征。
可选地,所述第二噪声的分布的上下限为[-0.5,+0.5]。
可选地,所述处理单元610还用于:确定所述变分自编码器重构所述训练图像的重构误差;根据所述重构误差训练所述变分自编码器。
装置600执行训练VAE方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。
图7示出了本申请提供的一种压缩图像的装置的结构示意图。装置700包括接收单元720和处理单元710。
接收单元720用于:获取测试图像;
处理单元710用于:通过变分自编码器对所述加噪测试图像进行压缩并生成码流,所述变分自编码器是装置600训练得到的。
装置700执行压缩图像的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。可选地,装置700与装置600为相同的装置。
图8示出了本申请提供的一种解压图像的装置的结构示意图。装置800包括接收单元820和处理单元810。
接收单元820用于:接收码流;
处理单元810用于:从所述码流中获取测试图像特征;通过变分自编码器对所述图像特征进行解压处理,所述变分自编码器是装置600训练得到的。
装置800执行解压图像的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。可选地,装置800与装置600为相同的装置。
图9示出了本申请提供的一种电子设备的结构示意图。图9中的虚线表示该单元或该模块为可选的。设备900可用于实现上述方法实施例中描述的方法。设备900可以是终端设备或服务器或芯片。
设备900包括一个或多个处理器901,该一个或多个处理器901可支持设备900实现方法实施例中的方法。处理器901可以是通用处理器或者专用处理器。例如,处理器901可以是中央处理器(central processing unit,CPU)。CPU可以用于对设备900进行控制,执行软件程序,处理软件程序的数据。设备900还可以包括通信单元905,用以实现信号的输入(接收)和输出(发送)。
例如,设备900可以是芯片,通信单元905可以是该芯片的输入和/或输出电路,或者,通信单元905可以是该芯片的通信接口,该芯片可以作为终端设备或网络设备或其它电子设备的组成部分。
又例如,设备900可以是终端设备或服务器,通信单元905可以是该终端设备或该服务器的收发器,或者,通信单元905可以是该终端设备或该服务器的收发电路。
设备900中可以包括一个或多个存储器902,其上存有程序904,程序904可被处理器901运行,生成指令903,使得处理器901根据指令903执行上述方法实施例中描述的方法。可选地,存储器902中还可以存储有数据(如VAE)。可选地,处理器901还可以读取存储器902中存储的数据,该数据可以与程序904存储在相同的存储地址,该数据也可以与程序904存储在不同的存储地址。
处理器901和存储器902可以单独设置,也可以集成在一起,例如,集成在终端设备的系统级芯片(system on chip,SOC)上。
处理器901执行方法实施例(训练VAE的方法或压缩图像的方法或解压图像的方法)的具体方式可以参见方法实施例中的相关描述。
应理解,上述方法实施例的各步骤可以通过处理器901中的硬件形式的逻辑电路或者软件形式的指令完成。处理器901可以是CPU、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件,例如,分立门、晶体管逻辑器件或分立硬件组件。
本申请还提供了一种计算机程序产品,该计算机程序产品被处理器901执行时实现本申请中任一方法实施例所述的方法。
该计算机程序产品可以存储在存储器902中,例如是程序904,程序904经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器901执行的可执行目标文件。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序,也可以是可执行目标程序。
该计算机可读存储介质例如是存储器902。存储器902可以是易失性存储器或非易失性存储器,或者,存储器902可以同时包括易失性存储器和非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmableROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamicRAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和设备的具体工作过程以及产生的技术效果,可以参考前述方法实施例中对应的过程和技术效果,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例的一些特征可以忽略,或不执行。以上所描述的装置实施例仅仅是示意性的,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统。另外,各单元之间的耦合或各个组件之间的耦合可以是直接耦合,也可以是间接耦合,上述耦合包括电的、机械的或其它形式的连接。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
总之,以上所述仅为本申请技术方案的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (21)

1.一种训练变分自编码器的方法,其特征在于,包括:
获取训练图像;
在所述训练图像中添加第一噪声,得到加噪训练图像;
通过所述加噪训练图像训练变分自编码器,所述变分自编码器用于对所述加噪训练图像进行压缩和解压。
2.根据权利要求1所述的方法,其特征在于,所述第一噪声的能量小于所述训练图像的能量。
3.根据权利要求1或2所述的方法,其特征在于,所述第一噪声为高斯噪声或泊松噪声。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述通过所述加噪训练图像训练变分自编码器,包括:
从所述加噪训练图像中提取图像特征;
在所述图像特征中添加第二噪声进行量化,得到量化的图像特征,所述第二噪声为均匀噪声;
确定所述量化的图像特征的特征分布;
确定所述特征分布和多元分布的距离;
根据所述距离训练所述变分自编码器。
5.根据权利要求4所述的方法,其特征在于,所述图像特征包括YUV特征。
6.根据权利要求4或5所述的方法,其特征在于,所述第二噪声的分布的上下限为[-0.5,+0.5]。
7.根据权利要求4至6中任一项所述的方法,其特征在于,所述方法还包括:
确定所述变分自编码器重构所述训练图像的重构误差;
根据所述重构误差训练所述变分自编码器。
8.一种压缩图像的方法,其特征在于,包括:
获取测试图像;
通过变分自编码器对所述测试图像进行压缩并生成码流,所述变分自编码器是基于权利要求1至7中任一项所述的方法训练得到的。
9.一种解压图像的方法,其特征在于,包括:
接收码流;
从所述码流中获取测试图像特征;
通过变分自编码器对所述图像特征进行解压处理,所述变分自编码器是基于权利要求1至7中任一项所述的方法训练得到的。
10.一种训练变分自编码器的装置,其特征在于,包括接收单元和处理单元,
所述接收单元用于:获取训练图像;
所述处理单元用于:在所述训练图像中添加第一噪声,得到加噪训练图像;通过所述加噪训练图像训练变分自编码器,所述变分自编码器用于对所述加噪训练图像进行压缩和解压。
11.根据权利要求10所述的装置,其特征在于,所述第一噪声的能量小于所述训练图像的能量。
12.根据权利要求10或11所述的装置,其特征在于,所述第一噪声为高斯噪声或泊松噪声。
13.根据权利要求10至12中任一项所述的装置,其特征在于,所述处理单元具体用于:
从所述加噪训练图像中提取图像特征;
在所述图像特征中添加第二噪声进行量化,得到量化的图像特征,所述第二噪声为均匀噪声;
确定所述量化的图像特征的特征分布;
确定所述特征分布和多元分布的距离;
根据所述距离训练所述变分自编码器。
14.根据权利要求13所述的装置,其特征在于,所述图像特征包括YUV特征。
15.根据权利要求13或14所述的装置,其特征在于,所述第二噪声的分布的上下限为[-0.5,+0.5]。
16.根据权利要求13至15中任一项所述的装置,其特征在于,所述处理单元还用于:
确定所述变分自编码器重构所述训练图像的重构误差;
根据所述重构误差训练所述变分自编码器。
17.一种压缩图像的装置,其特征在于,包括接收单元和处理单元,
所述接收单元用于:获取测试图像;
所述处理单元用于:通过变分自编码器对所述测试图像进行压缩并生成码流,所述变分自编码器是基于权利要求1至7中任一项所述的方法训练得到的。
18.一种解压图像的装置,其特征在于,包括接收单元和处理单元,
所述接收单元用于:接收码流;
所述处理单元用于:从所述码流中获取测试图像特征;通过变分自编码器对所述图像特征进行解压处理,所述变分自编码器是基于权利要求1至7中任一项所述的方法训练得到的。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求1至7中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求8所述的方法。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求9所述的方法。
CN202010196440.4A 2020-03-19 2020-03-19 基于变分自编码器进行图像压缩和解压的方法和装置 Pending CN113497938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010196440.4A CN113497938A (zh) 2020-03-19 2020-03-19 基于变分自编码器进行图像压缩和解压的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010196440.4A CN113497938A (zh) 2020-03-19 2020-03-19 基于变分自编码器进行图像压缩和解压的方法和装置

Publications (1)

Publication Number Publication Date
CN113497938A true CN113497938A (zh) 2021-10-12

Family

ID=77993481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010196440.4A Pending CN113497938A (zh) 2020-03-19 2020-03-19 基于变分自编码器进行图像压缩和解压的方法和装置

Country Status (1)

Country Link
CN (1) CN113497938A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304359A (zh) * 2018-02-06 2018-07-20 中国传媒大学 无监督学习统一特征提取器构建方法
CN109507648A (zh) * 2018-12-19 2019-03-22 西安电子科技大学 基于VAE-ResNet网络的雷达辐射源识别方法
CN109784359A (zh) * 2018-11-27 2019-05-21 北京邮电大学 图像生成方法、装置、设备及可读存储介质
US10373055B1 (en) * 2016-05-20 2019-08-06 Deepmind Technologies Limited Training variational autoencoders to generate disentangled latent factors
US20190370435A1 (en) * 2018-05-31 2019-12-05 International Business Machines Corporation Generating synthetic layout patterns by feedforward neural network based variational autoencoders

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373055B1 (en) * 2016-05-20 2019-08-06 Deepmind Technologies Limited Training variational autoencoders to generate disentangled latent factors
CN108304359A (zh) * 2018-02-06 2018-07-20 中国传媒大学 无监督学习统一特征提取器构建方法
US20190370435A1 (en) * 2018-05-31 2019-12-05 International Business Machines Corporation Generating synthetic layout patterns by feedforward neural network based variational autoencoders
CN109784359A (zh) * 2018-11-27 2019-05-21 北京邮电大学 图像生成方法、装置、设备及可读存储介质
CN109507648A (zh) * 2018-12-19 2019-03-22 西安电子科技大学 基于VAE-ResNet网络的雷达辐射源识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GUOWY: "【学习笔记】生成模型——变分自编码器", Retrieved from the Internet <URL:https://www.gwylab.com/note-vae.html> *
JIXIANG LUO ET AL.: "Noise-to-Compression Variational Autoencoder for efficient end-to-end optimized image coding", 《2020 DATA COMPRESSION CONFERENCE》, 27 March 2020 (2020-03-27) *
LEI ZHOU ET AL.: "Variational Autoencoder for Low Bit-rate Image Compression", 《CVPR WORKSHOP 2018》, 22 June 2018 (2018-06-22), pages 2, XP093133287 *
刘京京: "基于变分自编码器生成模型的图像加密", 《中国优秀硕士学位论文全文数据库(电子期刊)》, 15 January 2019 (2019-01-15) *
李鹏: "基于高斯混合模型的变分自动编码器", 《万方硕士学位论文数据库》, 26 October 2018 (2018-10-26) *

Similar Documents

Publication Publication Date Title
Cheng et al. Energy compaction-based image compression using convolutional autoencoder
Minnen et al. Joint autoregressive and hierarchical priors for learned image compression
CN111868753A (zh) 使用条件熵模型的数据压缩
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
US10965948B1 (en) Hierarchical auto-regressive image compression system
CN113259676B (zh) 一种基于深度学习的图像压缩方法和装置
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
Fu et al. Learned image compression with discretized gaussian-laplacian-logistic mixture model and concatenated residual modules
Li et al. Multiple description coding based on convolutional auto-encoder
He et al. Beyond coding: Detection-driven image compression with semantically structured bit-stream
Han et al. Toward variable-rate generative compression by reducing the channel redundancy
Zafari et al. Attention-based generative neural image compression on solar dynamics observatory
CN113256744B (zh) 一种图像编码、解码方法及系统
KR102245682B1 (ko) 영상 압축 장치, 이의 학습 장치 및 방법
CN113497938A (zh) 基于变分自编码器进行图像压缩和解压的方法和装置
Thakker et al. Lossy Image Compression-A Comparison Between Wavelet Transform, Principal Component Analysis, K-Means and Autoencoders
Chen et al. Adaptive VQVAE: a learning-based image compression framework with vector quantization
CN114882133B (zh) 一种图像编解码方法、系统、设备及介质
Bao et al. Image Compression Based on Hybrid Domain Attention and Postprocessing Enhancement
CN117425013B (zh) 一种基于可逆架构的视频传输方法和系统
WO2023178662A1 (en) Image and video coding using multi-sensor collaboration and frequency adaptive processing
WO2023024115A1 (zh) 编码方法、解码方法、编码器、解码器和解码系统
Meng et al. Convolutional auto-encoder based multiple description coding network.
Fu et al. Learned Image Compression with Inception Residual Blocks and Multi-Scale Attention Module
CN117596415A (zh) 视频压缩方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220211

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Applicant after: Huawei Cloud Computing Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant before: HUAWEI TECHNOLOGIES Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination