CN113259676A - 一种基于深度学习的图像压缩方法和装置 - Google Patents

一种基于深度学习的图像压缩方法和装置 Download PDF

Info

Publication number
CN113259676A
CN113259676A CN202010084834.0A CN202010084834A CN113259676A CN 113259676 A CN113259676 A CN 113259676A CN 202010084834 A CN202010084834 A CN 202010084834A CN 113259676 A CN113259676 A CN 113259676A
Authority
CN
China
Prior art keywords
prior
super
network
quantized
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010084834.0A
Other languages
English (en)
Other versions
CN113259676B (zh
Inventor
刘家瑛
胡越予
黄浩峰
杨文瀚
郭宗明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010084834.0A priority Critical patent/CN113259676B/zh
Publication of CN113259676A publication Critical patent/CN113259676A/zh
Application granted granted Critical
Publication of CN113259676B publication Critical patent/CN113259676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明涉及一种基于深度学习的图像压缩方法和装置,主要用于图像的编码压缩,即将原始图像信号,利用其冗余性,压缩编码成二进制码流,并且尽可能地使得原本的图像信号在解码时得以还原重建。本发明基于卷积神经网络,使用多尺度超先验结构,充分利用超先验表示信息进行重建,实现了全可并行网络结构,可以有效地提高图像压缩性能,尤其是针对高分辨率图像有明显优化。

Description

一种基于深度学习的图像压缩方法和装置
技术领域
本发明主要涉及卷积神经网络和图像压缩技术,具体涉及一种基于深度学习的图像压缩方法和装置。
背景技术
图像压缩技术在图像视频存储及传输、全景视频、虚拟现实等领域都有非常广泛的应用。近年来,人们对于图像质量,尤其是图像分辨度的需求与日剧增,而由于目前硬件带宽及存储的限制,在软件方面对图像压缩算法的改进显得尤为重要。图像压缩,指的是利用图像信号的冗余以及人眼视觉的感知特性,使用更少的码流表示、存储和传输图像。现有的图像压缩标准,例如JPEG,BPG,采用的是混合编码框架,该框架由变换、量化和熵编码构成。然而,上述方法存在一定的局限性,包括分块编码导致的块间冗余以及块效应问题,混合编码流程互相耦合难以优化问题等。
随着深度神经网络技术的发展,基于深度学习的图像压缩方法也应运而生。近些年,基于上下文超先验模型的端到端网络被用于图像压缩,其性能有超越传统混合压缩编码框架的趋势,但也具有一定的局限性——对于分辨率和内容不同的图像,现有方法存在熵编码概率估计不够准确的问题,这影响了图像的压缩率。同时,此类方法其网络结构难以并行,在进一步的优化中具有局限性。
发明内容
本发明在上述技术背景的前提下,进一步优化模型和网络结构,提升了基于神经网络的图像压缩方法在不同分辨率图像上的压缩性能和普适性,并提高了模型的可并行性。
本发明在使用超先验模型的端到端网络的基础上,设计了可并行运算的多尺度超先验模型来进行超先验表示的提取,提出了信息保持编解码变换结构来解决现有超先验表示存在的信息保持不足的问题,并且提出了信息整合重建子网络,来整合不同尺度的超先验表示,优化解码重建质量。其中,“超先验表示”是指在图像码流之外传输的额外信息表示及码流,其中含有的信息描述了所编码图像的先验,能够用于对图像信号的分布进行预测。
在本发明中,重点改进了图像压缩网络所使用的超先验模型,使用了多尺度超先验模型。本发明以现有的图像压缩超先验模型为基础,使用了由粗粒度到细粒度的网络结构,利用多层编码变换网络来提取多尺度的超先验表示,借助概率估计网络利用超先验表示来进行系数表示的概率估计,从而进行对应的熵编码。这样的设计将原本的概率估计问题分解为两个子问题,即超先验表示的概率估计和系数表示的条件概率估计,有助于降低网络训练难度。
此外,针对现有超先验表示存在的信息保持不足问题,本发明提出了信息保持编解码变换结构。具体来说,由于超先验表示的局部相关性较弱,较大的卷积核难以有效优化,且非线性函数会干扰信号保持,本发明提出在提取超先验表示的编解码网络中,编码变换子网络和解码变换子网络的非线性层首先进行数据维度的扩大(Space-to-Depth),并且用小卷积核代替大卷积核,这样就能通过不同的通道有效利用邻域的信息,同时避免大卷积核难优化的问题。这两个子网络称为超先验编码变换子网络和超先验解码变换子网络。
最后,本发明针对提取出的多尺度超先验表示,提出了信息整合重建子网络。具体来说,在得到多尺度的超先验表示后,信息整合重建子网络整合不同尺度的超先验表示,将超先验表示作为辅助信息与主要的系数表示共同进行最终图像的重建。同时由于该子网络采用了全卷积网络,本发明的信息整合重建过程可以并行运算从而大大提升解码速率。
本发明的一种基于深度学习的图像压缩方法,包括以下步骤:
通过多尺度的超先验模型,提取需要编码的图像中多尺度的超先验表示;
获得多尺度的超先验表示的码流,并获得需要编码的图像的系数表示的码流;
将多尺度的超先验表示的码流以及系数表示的码流进行拼接,构成编码后的用于传输的总码流。
接下来具体描述本发明的技术方案:
训练过程。即不断给出训练所用的图像,使用网络进行编码解码,得到一个预测结果,利用这个结果和输入的图像计算目标函数,再通过反向传播算法来更新网络中的权值。以此迭代,直到神经网络模型收敛。具体如下:
步骤1:采集一组图像作为训练数据。
步骤2:将这些训练数据输入到神经网络中,让其通过编码变换子网络产生量化的图像的系数表示。
步骤3:将步骤2得到的系数表示通过第一层超先验编码变换子网络,产生量化的大尺度超先验表示。
步骤4:将步骤3中得到的量化的大尺度超先验表示通过第二层超先验编码变换子网络,产生量化的小尺度超先验表示。
步骤5:计算量化的小尺度超先验表示的概率分布与一个零均值正态分布之间的交叉熵。该零均值正态分布的标准差为网络中可学习的参数。
步骤6:使用第二层超先验解码变换子网络,解码步骤4中得到的量化的小尺度超先验表示,得到小尺度超先验信息。
步骤7:由小尺度超先验信息,使用第二层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的大尺度超先验表示的概率估计。
步骤8:计算量化的大尺度超先验表示的概率分布与步骤7得到的概率估计之间的交叉熵。
步骤9:使用第一层超先验解码变换子网络,解码步骤3中得到的量化的大尺度超先验表示,得到大尺度超先验信息。
步骤10:由大尺度超先验信息,使用第一层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的图像的系数表示的概率估计。
步骤11:计算量化的图像系数表示和步骤10得到的概率估计之间的交叉熵。
步骤12:通过解码变换子网络,由步骤2得到的量化的图像系数表示,得到解码后的图像特征。
步骤13:步骤12得到的解码后的图像特征,以及步骤6得到的小尺度超先验信息,步骤9得到的大尺度超先验信息,三者共同送入具有信息整合功能的重建子网络,得到解码变换子网络输出的网络重建结果。本发明中将原始的编码变换子网络的最后一层替换为本发明的信息整合重建子网络,从而得到具有信息整合功能的解码变换子网络。
步骤14:将这个预测结果(步骤13得到的网络重建结果)和输入的图片进行对比,计算设定好的可微误差函数得到一个误差值来衡量误差的程度,误差函数可以是峰值信噪比(PSNR),结构相似性(SSIM)以及其他可微函数。误差值乘提前设定的拉格朗日参数,和步骤5、8、11得到的三个交叉熵相加得到最终的目标函数值。
步骤15:利用随机梯度下降法把步骤14中得到的目标函数值反向传播到神经网络各层,以更新各层权值。
步骤16:重复步骤2-步骤15直到神经网络收敛。
编码过程。在训练过程的网络收敛后,可以进行图像编码(即图像压缩)。具体如下:
步骤1:将需要编码的图像(即需要压缩的图像)输入网络。
步骤2:步骤1中的图像流经编码变换子网络,产生量化的图像系数表示。
步骤3:将步骤2得到的系数表示通过第一层超先验编码变换子网络,产生量化的大尺度超先验表示。
步骤4:将步骤3得到的大尺度超先验表示通过第二层超先验变换编码子网络,产生量化的小尺度超先验表示。
步骤5:使用网络中的零均值正态分布模型,给出量化的小尺度超先验表示的概率似然。使用算数编码器根据该概率似然得到量化的小尺度先验表示的码流。
步骤6:使用第二层超先验解码变换子网络,解码步骤4中得到的量化的小尺度超先验表示,得到小尺度超先验信息。
步骤7:由小尺度超先验信息,使用第二层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的大尺度超先验表示的概率估计。
步骤8:使用步骤7中得到的概率估计,给出量化的大尺度超先验表示的概率似然。使用算数编码器根据该概率似然得到量化的大尺度先验表示的码流。
步骤9:使用第一层超先验解码变换子网络,解码步骤3中得到的量化的大尺度超先验表示,得到大尺度超先验信息。
步骤10:由大尺度超先验信息,使用第一层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的图像系数表示的概率估计。
步骤11:使用步骤10中得到的概率估计,给出量化的图像系数表示的概率似然。使用算数编码器根据该概率似然得到量化的图像系数表示的码流。
步骤12:步骤5、8、11中得到的码流拼接构成编码后的用于传输的总码流。
解码过程。在获得编码后的码流后,可以进行解码来重建图像。具体如下:
步骤1:将码流分为小尺度超先验信息码流,大尺度超先验信息码流和图像系数表示码流。
步骤2:使用算数解码器,根据网络中的零均值正态分布概率模型,解码码流得到量化的小尺度超先验表示。
步骤3:使用第二层超先验解码变换子网络,解码步骤2中得到的量化的小尺度超先验表示,得到小尺度超先验信息。
步骤4:由小尺度超先验信息,使用第二层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的大尺度超先验表示的概率估计。
步骤5:使用算数解码器,根据步骤4中得到的概率估计,解码大尺度超先验信息码流得到大尺度超先验表示。
步骤6:使用第一层超先验解码变换子网络,解码步骤5中得到的量化的大尺度超先验表示,得到大尺度超先验信息。
步骤7:由大尺度超先验信息,使用第一层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的图像的系数表示的概率估计。
步骤8:使用算数解码器,根据步骤7中得到的概率估计,解码图像系数表示码流,得到量化的图像系数表示。
步骤9:通过解码变换子网络,由步骤8得到的量化的图像系数表示,得到解码后的图像特征。
步骤10:步骤9得到的解码后的图像特征,以及步骤3得到的小尺度超先验信息,步骤6得到的大尺度超先验信息,三者共同送入具有信息整合功能的重建子网络,得到解码变换子网络输出的网络重建结果,即为解码器输出。
基于同一发明构思,本发明还提供一种基于深度学习的图像压缩装置,包括编码单元,所述编码单元包括:
超先验表示提取模块,用于通过多尺度的超先验模型,提取需要编码的图像中多尺度的超先验表示;
码流获取模块,用于获得多尺度的超先验表示的码流,并获得需要编码的图像的系数表示的码流;
码流拼接模块,用于将多尺度的超先验表示的码流以及系数表示的码流进行拼接,构成编码后的用于传输的总码流。
进一步地,所述装置还包括解码单元,用于通过信息整合重建子网络整合不同尺度的超先验表示,将超先验表示作为辅助信息与系数表示共同进行最终图像的重建。
本发明的有益效果如下:
本发明主要用于图像的编码压缩,即将原始图像信号,利用其冗余性,压缩编码成二进制码流,并且尽可能地使得原本的图像信号在解码时得以还原重建。本发明基于卷积神经网络,使用多尺度超先验结构,充分利用超先验表示信息进行重建,实现了全可并行网络结构,可以有效地提高图像压缩性能,尤其是针对高分辨率图像有明显优化。本发明能够提升基于神经网络的图像压缩方法在不同分辨率图像上的压缩性能和普适性,并提高了模型的可并行性。
附图说明
图1为本发明的流程图。
图2为本发明信息整合重建子网络结构图。
图3为本发明概率预测子网络结构图。
具体实施方式
为了对本发明的技术方法进一步阐述,下面结合说明书附图和具体实例,对本发明中的训练以及压缩解压流程进行进一步的详细说明。
假设我们已经构建了如图1所示的神经网络模型,其中第一层和第二层超先验编解码变换子网络的结构如表1所示:
表1.超先验编解码变换子网络的结构
Figure BDA0002381674370000061
其中,Conv为超先验编码变换子网络的卷积层,Deconv为超先验解码变换子网络的反卷积层,括号内的3×3、1×1为卷积核的大小;(b;h;w;c)中b表示批处理大小,h表示图像高度,w表示图像宽度,c表示图像通道数;Space-to-Depth表示将每1个通道的图像拆分为4个通道的高度宽度变为1/2的图像,Depth-to-Space表示将每4个通道的图像合并为1个通道的高度宽度为2倍的图像。
本实例将首先描述训练过程:
步骤1:采集足够的图像,产生训练数据{I0,I1,I2,I3,…,In}。
步骤2:将训练数据I=Ii(0≤i≤n)输入到神经网络中,让其流过编码变换子网络AT(Analysis Transform)产生量化的系数表示X=fAT(I)。
步骤3:将步骤2得到的系数表示X通过第一层超先验编码变换子网络HAT1(HyperAnalysis Transform)产生量化的超先验表示H1=fHAT1(X)。
步骤4:H1经过第二层超先验编码变换子网络HAT2产生量化的超先验表示H2=fHAT2(H1)。
步骤5:计算均值为0,方差为网络中的可训练参数σ2的概率模型
Figure BDA0002381674370000071
和H2的交叉熵
Figure BDA0002381674370000072
其中,
Figure BDA0002381674370000073
表示在
Figure BDA0002381674370000074
分布下的期望。
步骤6:H2通过超先验解码变换子网络HST2(Hyper Synthesis Transform)得到超先验信息Y2=fHST2(H2)。
步骤7:Y2通过概率预测子网络PE(Probability Estimation)产生超先验表示H1的条件概率模型
Figure BDA0002381674370000075
步骤8:利用该概率模型
Figure BDA0002381674370000076
计算H1的分布与该概率模型的交叉熵
Figure BDA0002381674370000077
步骤9:H1通过超先验解码变换子网络HST1得到超先验信息Y1=fHST1(H1)。
步骤10:步骤9得到的Y1通过概率预测子网络PE产生系数表示的概率模型
Figure BDA0002381674370000078
Figure BDA0002381674370000079
利用该概率模型计算潜在交叉熵
Figure BDA00023816743700000710
步骤11:X经过解码变换子网络ST,获得图像的特征表示XF
步骤12:并让XF,Y1,Y2分别作为信息整合重建子网络IA的输入,得到解码变换子网络输出的网络预测结果
Figure BDA00023816743700000711
步骤13:将这个预测结果和输入的图片进行对比,利用任一可微误差函数D得到一个误差值
Figure BDA00023816743700000712
表示误差的程度。误差值乘提前设定的拉格朗日参数λ和交叉熵R1、R2以及交叉熵Rx相加得到目标函数值
Figure BDA00023816743700000713
步骤14:利用随机梯度下降法把步骤13中得到的目标函数值
Figure BDA00023816743700000714
反向传播到神经网络各层,以更新各层权值。
步骤15:重复步骤2-步骤14直到神经网络收敛。
接下来描述编码过程:
步骤1:将需要编码的图像I输入网络。
步骤2:步骤1中的图像流经编码变换子网络AT,产生系数表示X=fAT(I)。
步骤3:将步骤2得到的系数表示X通过第一层超先验编码变换子网络HAT1产生量化的超先验表示H1=fHAT1(X),再经过第二层超先验编码变换子网络产生量化的超先验表示H2=fHAT2(H1)。
步骤4:H2利用训练好的概率模型
Figure BDA00023816743700000715
计算交叉熵
Figure BDA00023816743700000716
并且通过算术编码器AE得到二进制码流B2=fAE(H2)。
步骤5:H2通过超先验解码变换子网络HST2得到超先验信息Y2=fHST2(H2)。
步骤6:Y2通过概率预测子网络PE产生超先验表示H1的条件概率模型
Figure BDA0002381674370000081
Figure BDA0002381674370000082
利用该概率模型通过算术编码器AE产生二进制码流B1=fAE(H1)。
步骤7:使用超先验解码变换子网络HST1处理H1得到超先验信息Y1=fHST1(H1)。
步骤8:步骤7得到的超先验信息Y1通过概率预测子网络PE产生系数表示的条件概率模型
Figure BDA0002381674370000083
利用该概率模型通过算术编码器AE产生二进制码流BX=fAE(X)。
步骤9:步骤4、6产生的二进制码流B1、B2,步骤4产生的二进制码流BX共同构成编码后的码流B=[BX,B1,B2],也即进行传输的码流。
接下来描述解码过程,输入为编码器提供的码流,
步骤1:码流中B的二进制码流B2通过算术解码器AD、超先验解码变换子网络HST2产生超先验信息Y2=fHST2(fAD(B2))。
步骤2:超先验信息Y2通过概率预测子网络PE产生超先验表示H1的概率模型N(μ11)=fPE(Y2),利用该概率模型通过算术解码器AD解码二进制码流B1,再通过超先验解码变换子网络HST1得到超先验信息Y1=fHST1(fAD(B1))。
步骤3:超先验信息Y1通过概率预测子网络产生系数表示的概率模型N(μXX)=fPE(Y1),利用该概率模型通过算术解码器AD解码二进制码流BX,产生解码后图像的系数表示X=fAD(Bx)。
步骤4:X经过解码变换子网络ST,获得图像的特征表示XF
步骤5:超先验信息Y1、Y2以及特征表示XF共同输入信息整合重建子网络IA,得到解码变换子网络输出的重建图像
Figure BDA0002381674370000084
其中具有信息整合功能的解码变换子网络的结构为将原始的编码变换子网络的最后一层替换为本发明的信息整合重建子网络。作为本发明的关键模块,其结构如图2所示。具体来说,L2超先验表示也即Y2通过Space-to-Depth与L1超先验表示Y1保持相同分辨率,二者均通过3个反卷积层,升采样至长宽均为原图像一半,与通过初始解码变换的系数表示保持相同分辨率,经过拼接组成多通道特征,经过1个反卷积层和2个卷积层升采样至原图像大小,至此解码完成。
图3为本发明概率预测子网络结构图。如该图所示,概率预测子网络的结构为:以估计点为中心的5×5邻域,经过多个3×3卷积层,产生的输出先降维成一维向量,再通过一个全连接层输出被估计点的概率模型,也即高斯分布的均值和标准差。
基于同一发明构思,本发明另一实施例提供一种基于深度学习的图像压缩装置,包括编码单元,所述编码单元包括:
超先验表示提取模块,用于通过多尺度的超先验模型,提取需要编码的图像中多尺度的超先验表示;
码流获取模块,用于获得多尺度的超先验表示的码流,并获得需要编码的图像的系数表示的码流;
码流拼接模块,用于将多尺度的超先验表示的码流以及系数表示的码流进行拼接,构成编码后的用于传输的总码流。
进一步地,所述装置还包括解码单元,用于通过信息整合重建子网络整合不同尺度的超先验表示,将超先验表示作为辅助信息与系数表示共同进行最终图像的重建。
基于同一发明构思,本发明另一实施例提供一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法的指令。
基于同一发明构思,本发明另一实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明的方法。
本发明未详细阐述的部分属于本领域技术人员的公知技术。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于深度学习的图像压缩方法,其特征在于,包括以下步骤:
通过多尺度的超先验模型,提取需要编码的图像中多尺度的超先验表示;
获得多尺度的超先验表示的码流,并获得需要编码的图像的系数表示的码流;
将多尺度的超先验表示的码流以及系数表示的码流进行拼接,构成编码后的用于传输的总码流。
2.根据权利要求1所述的方法,其特征在于,包括以下步骤:
将需要编码的图像流经编码变换子网络,产生量化的图像的系数表示;
将系数表示通过第一层超先验编码变换子网络,产生量化的大尺度超先验表示;
将量化的大尺度超先验表示通过第二层超先验变换编码子网络,产生量化的小尺度超先验表示;
使用零均值正态分布模型,给出量化的小尺度超先验表示的概率似然,使用算数编码器根据该概率似然得到量化的小尺度先验表示的码流;
使用第二层超先验解码变换子网络,解码量化的小尺度超先验表示,得到小尺度超先验信息;
由小尺度超先验信息,使用第二层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的大尺度超先验表示的概率估计;
使用量化的大尺度超先验表示的概率估计,给出量化的大尺度超先验表示的概率似然,使用算数编码器根据该概率似然得到量化的大尺度先验表示的码流;
使用第一层超先验解码变换子网络,解码量化的大尺度超先验表示,得到大尺度超先验信息;
由大尺度超先验信息,使用第一层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的图像系数表示的概率估计;
使用量化的图像系数表示的概率估计,给出量化的图像系数表示的概率似然,使用算数编码器根据该概率似然得到量化的图像系数表示的码流;
将量化的小尺度先验表示的码流、量化的大尺度先验表示的码流和量化的图像系数表示的码流进行拼接,构成编码后的用于传输的总码流。
3.根据权利要求2所述的方法,其特征在于,所述的编码变换子网络、第一层超先验编码变换子网络、第二层超先验解码变换子网络、第一层概率预测子网络、第二层概率预测子网络、第一层超先验解码变换子网络、第二层超先验解码变换子网络,采用以下步骤进行训练:
将训练数据输入到神经网络中,让其通过编码变换子网络产生量化的图像系数表示;
将图像系数表示通过第一层超先验编码变换子网络,产生量化的大尺度超先验表示;
将量化的大尺度超先验表示通过第二层超先验编码变换子网络,产生量化的小尺度超先验表示;
计算量化的小尺度超先验表示的概率分布与一个零均值正态分布之间的交叉熵,该零均值正态分布的标准差为网络中能够学习的参数;
使用第二层超先验解码变换子网络,解码量化的小尺度超先验表示,得到小尺度超先验信息;
由小尺度超先验信息,使用第二层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的大尺度超先验表示的概率估计;
计算量化的大尺度超先验表示的概率分布与量化的大尺度超先验表示的概率估计之间的交叉熵;
使用第一层超先验解码变换子网络,解码量化的大尺度超先验表示,得到大尺度超先验信息。
由大尺度超先验信息,使用第一层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的图像的系数表示的概率估计;
计算量化的图像系数表示和量化的图像的系数表示的概率估计之间的交叉熵;
通过解码变换子网络,由量化的图像系数表示,得到解码后的图像特征。
将解码后的图像特征,以及小尺度超先验信息,大尺度超先验信息,三者共同送入信息整合重建子网络,得到解码变换子网络输出的网络重建结果;
将网络重建结果和输入的图片进行对比,计算设定好的可微误差函数得到一个误差值来衡量误差的程度,误差值乘提前设定的拉格朗日参数,和各交叉熵相加得到最终的目标函数值;
利用随机梯度下降法把目标函数值反向传播到神经网络各层,以更新各层权值;
按照以上步骤训练神经网络,直到神经网络收敛。
4.根据权利要求1所述的方法,其特征在于,在解码过程中,通过信息整合重建子网络整合不同尺度的超先验表示,将超先验表示作为辅助信息与系数表示共同进行最终图像的重建。
5.根据权利要求4所述的方法,其特征在于,所述解码过程包括以下步骤:
将码流分为小尺度超先验信息码流,大尺度超先验信息码流和图像系数表示码流;
使用算数解码器,根据零均值正态分布概率模型,解码码流得到量化的小尺度超先验表示;
使用第二层超先验解码变换子网络,解码量化的小尺度超先验表示,得到小尺度超先验信息;
由小尺度超先验信息,使用第二层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的大尺度超先验表示的概率估计;
使用算数解码器,根据量化的大尺度超先验表示的概率估计,解码大尺度超先验信息码流得到大尺度超先验表示;
使用第一层超先验解码变换子网络,解码量化的大尺度超先验表示,得到大尺度超先验信息;
由大尺度超先验信息,使用第一层概率预测子网络,得到一组正态分布的均值和标准差,该均值和标准差是对量化的图像的系数表示的概率估计;
使用算数解码器,根据量化的图像的系数表示的概率估计,解码图像系数表示码流,得到量化的图像系数表示;
通过解码变换子网络,由量化的图像系数表示,得到解码后的图像特征;
将解码后的图像特征,以及小尺度超先验信息,大尺度超先验信息,三者共同送入信息整合重建子网络,得到解码变换子网络输出的网络重建结果,即为解码器输出。
6.根据权利要求4或5所述的方法,其特征在于,所述信息整合重建子网络中,小尺度超先验表示通过Space-to-Depth与大尺度超先验表示保持相同分辨率,二者均通过3个反卷积层,升采样至长宽均为原图像一半,与通过初始解码变换的系数表示保持相同分辨率,经过拼接组成多通道特征,经过1个反卷积层和2个卷积层升采样至原图像大小,至此解码完成。
7.一种基于深度学习的图像压缩装置,其特征在于,包括编码单元,所述编码单元包括:
超先验表示提取模块,用于通过多尺度的超先验模型,提取需要编码的图像中多尺度的超先验表示;
码流获取模块,用于获得多尺度的超先验表示的码流,并获得需要编码的图像的系数表示的码流;
码流拼接模块,用于将多尺度的超先验表示的码流以及系数表示的码流进行拼接,构成编码后的用于传输的总码流。
8.根据权利要求7所述的装置,其特征在于,还包括解码单元,用于通过信息整合重建子网络整合不同尺度的超先验表示,将超先验表示作为辅助信息与系数表示共同进行最终图像的重建。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~6中任一权利要求所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~6中任一权利要求所述的方法。
CN202010084834.0A 2020-02-10 2020-02-10 一种基于深度学习的图像压缩方法和装置 Active CN113259676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010084834.0A CN113259676B (zh) 2020-02-10 2020-02-10 一种基于深度学习的图像压缩方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010084834.0A CN113259676B (zh) 2020-02-10 2020-02-10 一种基于深度学习的图像压缩方法和装置

Publications (2)

Publication Number Publication Date
CN113259676A true CN113259676A (zh) 2021-08-13
CN113259676B CN113259676B (zh) 2023-01-17

Family

ID=77219806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010084834.0A Active CN113259676B (zh) 2020-02-10 2020-02-10 一种基于深度学习的图像压缩方法和装置

Country Status (1)

Country Link
CN (1) CN113259676B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747163A (zh) * 2021-08-17 2021-12-03 上海交通大学 基于上下文重组建模的图像编码、解码方法及压缩方法
CN114245140A (zh) * 2021-11-30 2022-03-25 慧之安信息技术股份有限公司 一种基于深度学习的码流预测方法和装置
CN114386595A (zh) * 2021-12-24 2022-04-22 西南交通大学 一种基于超先验架构的sar图像压缩方法
CN114449276A (zh) * 2022-01-06 2022-05-06 北京工业大学 一种基于学习的超先验边信息补偿图像压缩方法
CN114663536A (zh) * 2022-02-08 2022-06-24 中国科学院自动化研究所 一种图像压缩方法及装置
CN115049541A (zh) * 2022-07-14 2022-09-13 广州大学 基于神经网络与图像隐写的可逆灰度方法、系统及装置
CN115115721A (zh) * 2022-07-26 2022-09-27 北京大学深圳研究生院 一种神经网络图像压缩模型的枝剪方法和装置
CN115278246A (zh) * 2022-08-01 2022-11-01 天津大学 一种深度图端到端智能压缩编码方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026631A1 (en) * 2017-07-19 2019-01-24 Disney Enterprises, Inc. Factorized variational autoencoders
CN110602494A (zh) * 2019-08-01 2019-12-20 杭州皮克皮克科技有限公司 基于深度学习的图像编码、解码系统及编码、解码方法
US20200027247A1 (en) * 2018-07-20 2020-01-23 Google Llc Data compression using conditional entropy models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026631A1 (en) * 2017-07-19 2019-01-24 Disney Enterprises, Inc. Factorized variational autoencoders
US20200027247A1 (en) * 2018-07-20 2020-01-23 Google Llc Data compression using conditional entropy models
CN110602494A (zh) * 2019-08-01 2019-12-20 杭州皮克皮克科技有限公司 基于深度学习的图像编码、解码系统及编码、解码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOHANNES BALLÉ ET AL: "VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR", 《ARXIV:1802.01436V2》 *
徐丹蕾等: "基于复数因子分析模型的步进频数据压缩感知", 《电子与信息学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747163A (zh) * 2021-08-17 2021-12-03 上海交通大学 基于上下文重组建模的图像编码、解码方法及压缩方法
CN113747163B (zh) * 2021-08-17 2023-09-26 上海交通大学 基于上下文重组建模的图像编码、解码方法及压缩方法
CN114245140A (zh) * 2021-11-30 2022-03-25 慧之安信息技术股份有限公司 一种基于深度学习的码流预测方法和装置
CN114386595A (zh) * 2021-12-24 2022-04-22 西南交通大学 一种基于超先验架构的sar图像压缩方法
CN114449276B (zh) * 2022-01-06 2024-04-02 北京工业大学 一种基于学习的超先验边信息补偿图像压缩方法
CN114449276A (zh) * 2022-01-06 2022-05-06 北京工业大学 一种基于学习的超先验边信息补偿图像压缩方法
CN114663536A (zh) * 2022-02-08 2022-06-24 中国科学院自动化研究所 一种图像压缩方法及装置
CN115049541A (zh) * 2022-07-14 2022-09-13 广州大学 基于神经网络与图像隐写的可逆灰度方法、系统及装置
CN115049541B (zh) * 2022-07-14 2024-05-07 广州大学 基于神经网络与图像隐写的可逆灰度方法、系统及装置
CN115115721A (zh) * 2022-07-26 2022-09-27 北京大学深圳研究生院 一种神经网络图像压缩模型的枝剪方法和装置
CN115115721B (zh) * 2022-07-26 2024-03-15 北京大学深圳研究生院 一种神经网络图像压缩模型的枝剪方法和装置
CN115278246B (zh) * 2022-08-01 2024-04-16 天津大学 一种深度图端到端智能压缩编码方法及装置
CN115278246A (zh) * 2022-08-01 2022-11-01 天津大学 一种深度图端到端智能压缩编码方法及装置

Also Published As

Publication number Publication date
CN113259676B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN113259676B (zh) 一种基于深度学习的图像压缩方法和装置
Cheng et al. Learned image compression with discretized gaussian mixture likelihoods and attention modules
US11153566B1 (en) Variable bit rate generative compression method based on adversarial learning
Akbari et al. DSSLIC: Deep semantic segmentation-based layered image compression
Mentzer et al. Conditional probability models for deep image compression
Cheng et al. Energy compaction-based image compression using convolutional autoencoder
Cai et al. Efficient variable rate image compression with multi-scale decomposition network
WO2020237646A1 (zh) 图像处理方法、设备及计算机可读存储介质
CN112866694B (zh) 联合非对称卷积块和条件上下文的智能图像压缩优化方法
US20230300354A1 (en) Method and System for Image Compressing and Coding with Deep Learning
CN111641832A (zh) 编码方法、解码方法、装置、电子设备及存储介质
Akbari et al. Generalized octave convolutions for learned multi-frequency image compression
Zebang et al. Densely connected AutoEncoders for image compression
Zhang et al. Learned scalable image compression with bidirectional context disentanglement network
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
CN113079378A (zh) 图像处理方法、装置和电子设备
CN114449276B (zh) 一种基于学习的超先验边信息补偿图像压缩方法
Ranjbar Alvar et al. Joint image compression and denoising via latent-space scalability
Di et al. Learned compression framework with pyramidal features and quality enhancement for SAR images
CN115880762B (zh) 面向人机混合视觉的可伸缩人脸图像编码方法、系统
CN113949880B (zh) 一种极低码率人机协同图像编码训练方法及编解码方法
Wang et al. Deep image compression with multi-stage representation
CN115393452A (zh) 一种基于非对称自编码器结构的点云几何压缩方法
Sun et al. Hlic: Harmonizing optimization metrics in learned image compression by reinforcement learning
CN115361555A (zh) 图像编码方法、图像编码方法、装置以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant