CN112866694B - 联合非对称卷积块和条件上下文的智能图像压缩优化方法 - Google Patents

联合非对称卷积块和条件上下文的智能图像压缩优化方法 Download PDF

Info

Publication number
CN112866694B
CN112866694B CN202011644521.2A CN202011644521A CN112866694B CN 112866694 B CN112866694 B CN 112866694B CN 202011644521 A CN202011644521 A CN 202011644521A CN 112866694 B CN112866694 B CN 112866694B
Authority
CN
China
Prior art keywords
convolution
decoder
output
image compression
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011644521.2A
Other languages
English (en)
Other versions
CN112866694A (zh
Inventor
殷海兵
叶宗苗
黄晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011644521.2A priority Critical patent/CN112866694B/zh
Publication of CN112866694A publication Critical patent/CN112866694A/zh
Application granted granted Critical
Publication of CN112866694B publication Critical patent/CN112866694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明用于基于端到端的智能图像压缩领域,属于图像/视频压缩领域,涉及联合非对称卷积块和条件上下文的智能图像压缩的优化方法,具有训练阶段和推理阶段,在所述训练阶段,搭建整体端到端的图像压缩框架,包括主编码/解码器,超先验编码/解码器,条件上下文模型,熵参数模型,以及因子分解熵模型,其中,所述主编码/解码器,超先验编码/解码器均采用非对称卷积块即ACB模块对视频图像进行特征提取;在推理阶段,利用ACB模块的兼容性对并行卷积核合成。本发明通过非对称卷积块能够提高标准平方卷积的提取特征的能力,邻域/全局域的上下文捕获机制则可以提高潜在特征值的建模精准度,使之更符合客观出现概率情况来减少编码冗余。

Description

联合非对称卷积块和条件上下文的智能图像压缩优化方法
技术领域
本发明用于基于端到端的智能图像压缩领域,属于图像/视频压缩领域,涉及联合非对称卷积块和条件上下文的智能图像压缩的优化方法。
背景技术
随着互联网的发展,整个网络环境中的图像,视频数据呈现爆炸性增长,为了节省传输带宽以及本地的存储成本,这要求互联网有更强的网络传输能力,即需要更高效的图像/视频压缩算法。其中传统的手工图像压缩算法:JPEG,JPEG2000,HEVC等采用DCT,小波变换等线性变换将输入转换为潜在表示,通过对潜在表示进行量化,熵编码生成压缩后的码流文件。但是,显然传统的线性变换的方式限制了传统编码方式的效率。
而另外一方面,通过神经网络自动设计编/解码器的图像智能压缩算法也展现出巨大的压缩潜力。深度卷积网络可以从大量的样本中建模并且自动地、端到端地学习到更为本质的特征,从而有效地避免了传统人工建模和设计特征的弊端。通过高效的非线性变换以及精准的熵率模型,使得神经网络在图像压缩方面取得了巨大的成功。短短几年的时间,基于端到端的图像压缩性能已经超越了发展几十年的传统的图像编码方式,最新的图像压缩性能已经在性能上与VTM(VVC帧内编码标准)相当,由此可见端到端的图像压缩以及视频压缩在编码领域的巨大潜力。
在智能图像压缩领域,将现有的算法优化分为两个方向,其一为如何在底熵的条件下,提取到更完备的图像特征。第二是,如何进行精准的熵模型建模以便于在熵编码阶段得到更低码率的码流。
在现有的技术中,标准平方卷积核被用于提取图像的潜在特征表示,在现有的基于框架中立的CNN结构探索发现标准平方卷积核的提取特征的能力存在不足。
对于码率估计模块中,条件上下文模块采用自回归模型通过已解码信息推断当前信息,这一模块的使用使得智能图像压缩编码框架的编码效率大大增加。在图像中,空域冗余不仅仅存在于邻域范围,也存在于全局域。然而,现有的条件上下文模型仅仅关注邻域信息的获取,而缺乏全局域的已解码信息的捕获机制。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种联合非对称卷积块和邻域/全局域上下文的智能图像压缩的优化方法,用于非对称卷积块能够提高标准平方卷积的提取特征的能力,邻域/全局域的上下文捕获机制则可以提高潜在特征值的建模精准度,使之更符合客观出现概率情况来减少编码冗余,其具体技术方案如下。
联合非对称卷积块和条件上下文的智能图像压缩的优化方法,具有训练阶段和推理阶段,在所述训练阶段,搭建整体端到端的图像压缩框架,包括主编码/解码器,超先验编码/解码器,条件上下文模型,熵参数模型,以及因子分解熵模型,其中,所述主编码/解码器,超先验编码/解码器均采用非对称卷积块即ACB模块对视频图像进行特征提取。
进一步的,所述ACB模块即表示三个并行的大小为:1×d,d×d,d×1的卷积核,并且将三个并行的卷积核输出相加以此等效原始的d×d卷积核,通过1×d和d×1的卷积核对d×d的卷积核进行重要位置的加强。
进一步的,在训练阶段具体包括:
步骤1,在整体端到端的图像压缩框架中,通过神经网络的非线性变换的函数映射关系分别记为:主编码/解码器(ga/gs),超先验编码/解码器(ha/hs);输入图片经过主编码器生成潜在表示:y=ga(x);采用添加均匀噪声以近似量化操作:
Figure GDA0004086068960000021
输出量化后的信息;
步骤2,接着通过超先验编码器输出边信息的潜在表示,并且使用量化器进行量化:
Figure GDA0004086068960000022
输出的信息通过因子分解熵模型被编码为比特流,超先验解码器生成潜在表示的概率模型的中间参数:/>
Figure GDA0004086068960000023
步骤3,将条件上下文模型的LSTM网络与带掩膜的卷积并行融合,通过熵参数模型和高斯分布建模后进行熵编码和码率估计,然后使用解码器重建源图像:
Figure GDA0004086068960000024
步骤4,计算源图像和重建图像的失真以用于损失函数进行端到端的整体优化,表达式为:
Figure GDA0004086068960000025
D代表了失真函数,将输入与解码器的输出图片进行失真计算,通常使用MSE,或者MS-SSIM进行失真评价,R为码率估计网络得到的码率结果,其中,R=Ry+Rz,Ry即在网络中传输特征值所消耗的码率,Rz即超先验网络传输的边信息
Figure GDA0004086068960000031
的码流。
进一步的,图像数据在输入LSTM网络前先进行展平工作,将数据从3-D转化为2-D维度,并且在数据的前端添加了0向量作为初始状态,丢弃了数据的最后一列的向量,在经过LSTM网络之后,又将数据从2-D恢复成3-D的维度,此处为维度的表示,即原本的3-D维度表示shape为[w,h,c],2-D则其shape为[w×h,c],通过reshape函数转化。
进一步的,所述步骤3具体为:条件上下文模型的LSTM网络与带掩膜的卷积并行,用1×1的卷积核融合两者输出为
Figure GDA0004086068960000032
并且与φ进行通道拼接,通过熵参数模型后生成μ和σ,代表高斯概率密度函数的均值和方差,用于对特征值的高斯分布建模:
Figure GDA0004086068960000033
根据生成的值进行熵编码和码率估计,该公式表示每一个yi服从均值为μi和方差为σi,量化后的
Figure GDA0004086068960000034
受到均匀噪声的影响故而其预测概率密度函数与均匀噪声进行卷积运算,得到最终的概率密度函数,其中/>
Figure GDA0004086068960000035
表示由于上述的自回归模块,解码端的每一个特征点的概率密度函数均需要根据已解码的信息以及边信息/>
Figure GDA0004086068960000036
得到。
进一步的,所述LSTM网络:通过遗忘门,输入门,输出门进行全局域有关信息的捕获,保留重要性信息,遗忘非重要信息:
忘记门∶ft=σ(wf[ht-1,xt]+bf)
输入门:
Figure GDA0004086068960000037
输出门:
Figure GDA0004086068960000038
其中,xt,Ct,ht,ft,Ot分别表示时序输入,Cell状态,隐藏层输出,遗忘门输出,输出门输出。w和b都是通过学习参数,wf,wq,wc,wo表示全连接层的权重参数,bf,bq,bc,bo表示偏置参数,·表示点乘运算,[ht-1,xt]表示两个输入进行拼接操作。w[h,x]+b表示对拼接结果进行标准全连接层的神经网络运算。ht-1表示t-1时刻的隐藏层状态输出,Ct-1表示t-1时刻的Cell状态输出。σ(x)以及tanh(x)分别表示使用sigmoid和tanh激活函数对输入x进行非线性运算。
进一步的,在所述推理阶段:所述的ACB模块的兼容性使得三个并行的卷积核合成为标准平方卷积核,其中卷积核的兼容性描述如下:
M(p)=M(q),Hp≤Hq,Wp≤Wq,Cp=Cq
表示在两个卷积核的输入数据的分辨率M(p),M(q)一致,且在特征图上的滑动步长以及特征图补0一致,一个卷积核的长宽即H与W均小于等于另一卷积核,且输出的通道数C一致的情况下,两个卷积核是可兼容的,其具体兼容性表现在可以将两个卷积核叠加为一个卷积核:
Figure GDA0004086068960000041
I为输入的特征图,K为卷积核的权重,当两个卷积核是并连的,输出相加,且满足上述兼容性条件的情况下,则通过
Figure GDA0004086068960000042
运算,即卷积核对应位置的权重值相加合成为一个卷积核,合成后的卷积输出等价于合成前的两个卷积核的输出的和。
进一步的,在推理阶段使用四舍五入的量化准则将浮点型转化为整数型用于熵编码。
附图说明
图1是本发明的整体框架示意图;
图2是本发明的并行上下文模型示意图;
图3是本发明的LSTM分支数据处理示意图;
图4a是本发明的ACB模块训练阶段结构示意图;
图4b是本发明的ACB模块推理阶段结构示意图;
图5是本发明实施例的ACB模块合成结构示意图;
图6是本发明的带掩膜的卷积层示意图;
图7是本发明的PSNR失真尺度下的R-D曲线图;
图8是本发明的MS-SSIM失真尺度下的R-D曲线图。
具体实施方式
为了使本发明的目的、技术方案和效果更加清楚明白,以下结合说明书附图和实施例,对本发明做进一步详细说明。
联合非对称卷积块和条件上下文的智能图像压缩的优化方法,具有训练阶段和推理阶段。
在所述训练阶段,搭建整体端到端的图像压缩框架,包括主编码/解码器,超先验编码/解码器,条件上下文模型和熵参数模型,以及因子分解熵模型。
所述主编码/解码器,超先验编码/解码器均采用非对称卷积块即ACB模块代替标准平方卷积核对视频图像进行特征提取。其中,ACB模块即表示三个并行的大小为:1×d,d×d,d×1的卷积核,并且将三个并行的卷积核输出相加以此等效原始的d×d卷积核,通过1×d和d×1的卷积核对d×d的卷积核进行重要位置的加强。
如图1-8所示,在整体端到端的图像压缩框架中,通过神经网络提供强大的非线性变换,各个模块的提供非线性变换的函数映射关系分别记为:主编/解码器(ga/gs),超先验编/解码器(ha/hs)。输入图片经过主编码器生成潜在表示:y=ga(x),x为视频图片的输入变量,由于传统的量化操作具有不可微分的特性,即在非边界处的导数为0,边界处的导数不存在,受噪声抖动原理的启发,采用添加均匀噪声以近似量化操作:
Figure GDA0004086068960000051
输出量化后的信息,接着通过超先验编码器输出边信息的潜在表示,并且使用量化器进行量化:
Figure GDA0004086068960000052
输出的信息通过因子分解熵模型被编码为比特流。并且超先验解码器将生成潜在表示的概率模型的中间参数:/>
Figure GDA0004086068960000053
其中条件上下文模型中由于LSTM网络的原因,且与带掩膜的卷积有并行关系,为保证当前点预测不包含未解码信息,需要对图像在输入LSTM前后进行处理,先进行展平工作,将数据从3-D转化为2-D维度,并且在数据的前端添加了0向量作为初始状态,丢弃了数据的最后一列的向量,在经过LSTM网络之后,又将数据从2-D恢复成3-D的维度,此处为维度的表示,即原本的3-D维度表示shape为[w,h,c],2-D则其shape为[w×h,c],通过reshape函数转化。用1×1的卷积核融合两者输出生成φ,并且与φ进行通道拼接,通过熵参数模型后生成μ和σ,代表高斯概率密度函数的均值和方差,用于对特征值的高斯分布建模:
Figure GDA0004086068960000061
根据生成的值进行熵编码和码率估计。该公式表示每一个yi服从均值为μi和方差为σi,而在训练过程中,添加了均匀噪声,所以量化后的
Figure GDA0004086068960000062
会收到均匀噪声的影响故而其预测概率密度函数与均匀噪声进行卷积运算,得到最终的概率密度函数,其中/>
Figure GDA0004086068960000063
表示由于上述的自回归模块,解码端的每一个特征点的概率密度函数均需要已解码的信息以及边信息/>
Figure GDA0004086068960000064
才能得到,故而采用条件概率的形式。然后使用解码器重建源图像:/>
Figure GDA0004086068960000065
最后,计算源图像和重建图像的失真以用于损失函数进行端到端的整体优化,表达式为:
Figure GDA0004086068960000066
D代表了失真函数,将输入与解码器的输出图片进行失真计算,通常使用MSE,或者MS-SSIM进行失真评价,R为码率估计网络得到的码率结果,其中,R=Ry+Rz,Ry即在网络中传输特征值所消耗的码率,Rz即超先验网络传输的边信息
Figure GDA0004086068960000067
的码流。
过程中,通过优化条件上下文模型,建立高效地全局域上下文捕获机制。本发明使用并行的条件上下文以应用于整体压缩框架的码率估计作用,并行的条件上下文模型包含LSTM网络:通过遗忘门,输入门,输出门进行全局域有关信息的捕获,保留重要性信息,遗忘非重要信息:
忘记门∶ft=σ(wf[ht-1,xt]+bf)
输入门:
Figure GDA0004086068960000068
输出门:
Figure GDA0004086068960000069
其中,xt,Ct,ht,ft,Ot分别表示时序输入,Cell状态,隐藏层输出,遗忘门输出,输出门输出。w和b都是通过学习参数,wf,wq,wc,wo表示全连接层的权重参数,bf,bq,bc,bo表示偏置参数,·表示点乘运算,[ht-1,xt]表示两个输入进行拼接操作。w[h,x]+b表示对拼接结果进行标准全连接层的神经网络运算。ht-1表示t-1时刻的隐藏层状态输出,Ct-1表示t-1时刻的Cell状态输出。σ(x)以及tanh(x)分别表示使用sigmoid和tanh激活函数对输入x进行非线性运算。
带掩膜的卷积:通过掩蔽卷积的形式掩盖当前及以后未解码信息,确保预测信息的源域只取决于未解码信息,但是如背景技术中所说,带有掩膜的卷积层形式其感受野只在邻域范围,而无法捕获感受野外的信息冗余。
带有PRelu激活层的1×1的卷积层。LSTM网络用于捕获已解码的全局域信息,而带掩膜的卷积层则用于捕获邻域信息,最后采用1×1的卷积层融合两者的输出结果,得到上下文模块的最后输出。
在所述推理阶段:整体数据流程与训练阶段一致。其中对量化与ACB模块进行调整。其中所述的ACB模块的兼容性可以使得三个并行的卷积核合成为标准平方卷积核,通过合成机制,达到了提高性能的目的,而没有额外的计算开销,其中卷积核的兼容性描述如下:
M(p)=M(q),Hp≤Hq,Wp≤Wq,Cp=Cq
该表达式表示在两个卷积核的输入数据的分辨率M(p),M(q)一致,且在特征图上的滑动步长以及特征图补0一致,一个卷积核的长宽即H与W均小于等于另一卷积核,且输出的通道数C一致的情况下,两个卷积核是可兼容的,其具体兼容性表现在可以将两个卷积核叠加为一个卷积核:
Figure GDA0004086068960000071
I为输入的特征图,K为卷积核的权重,当两个卷积核是并连的,输出相加,且满足上述兼容性条件的情况下,则可以通过
Figure GDA0004086068960000072
运算,即卷积核对应位置的权重值相加合成为一个卷积核。合成后的卷积输出等价于合成前的两个卷积核的输出的和。利用兼容机制可以有效地提高模型的精度而不增加额外的计算开销。
如图5所示,本发明实施例通过三个卷积核:1×5,5×5,5×1构造为ACB模块并且替换基线模型中的5×5卷积核,而在推理阶段合成为单个5×5卷积核。这种合成增强了卷积核提取特征的能力,仅仅损失了训练所需要的时长,但是带来部署阶段的性能提升。本发明所提出的图像压缩框架的卷积核参数细节如下表:
Figure GDA0004086068960000081
其中,ACB:192×5×5s2表示三个并行的大小为:1×5,5×5,5×1的卷积核,其步长为2,输出通道为192。IACB则表示上采样情况下的逆ACB,GDN则是广义除法归一化的激活层,而IGDN则代表上采样情况下的逆GDN。
由于训练过程需要反向传播而导致量化阶段采用添加噪声的形式,在推理阶段不需要进行优化,则使用四舍五入的量化准则将浮点型转化为整数型用于熵编码。
ACB模块由三个并行的卷积核组成,在推理阶段,由于其卷积核兼容性,将三个卷积核合称为一个卷积核,减少计算复杂度。

Claims (4)

1.联合非对称卷积块和条件上下文的智能图像压缩优化方法,具有训练阶段和推理阶段,其特征在于,在所述训练阶段,搭建整体端到端的图像压缩框架,包括主编码/解码器,超先验编码/解码器,条件上下文模型,熵参数模型,以及因子分解熵模型,其中,所述主编码/解码器,超先验编码/解码器均采用非对称卷积块即ACB模块对视频图像进行特征提取;
所述ACB模块即表示三个并行的大小为:1×d,d×d,d×1的卷积核,并且将三个并行的卷积核输出相加以此等效原始的d×d卷积核,通过1×d和d×1的卷积核对d×d的卷积核进行重要位置的加强;
在所述推理阶段:所述的ACB模块的兼容性使得三个并行的卷积核合成为标准平方卷积核,其中卷积核的兼容性描述如下:
M(p)=M(q),Hp≤Hq,Wp≤Wq,Cp=Cq
表示在两个卷积核的输入数据的分辨率M(p),M(q)一致,且在特征图上的滑动步长以及特征图补0一致,一个卷积核的长宽即H与W均小于等于另一卷积核,且输出的通道数C一致的情况下,两个卷积核是可兼容的,其具体兼容性表现在可以将两个卷积核叠加为一个卷积核:
Figure FDA0004200667610000011
I为输入的特征图,K为卷积核的权重,当两个卷积核是并连的,输出相加,且满足上述兼容性条件的情况下,则通过
Figure FDA0004200667610000012
运算,即卷积核对应位置的权重值相加合成为一个卷积核,合成后的卷积输出等价于合成前的两个卷积核的输出的和;
在训练阶段具体包括:
步骤1,在整体端到端的图像压缩框架中,通过神经网络的非线性变换的函数映射关系为:
输入图片经过主编码器生成潜在表示:y=ga(x),x为输入变量,ga为主编码器;采用添加均匀噪声以近似量化操作:
Figure FDA0004200667610000013
输出量化后的信息;
步骤2,接着通过超先验编码器输出边信息的潜在表示,并且使用量化器进行量化:
Figure FDA0004200667610000014
ha为超先验编码器,输出的信息通过因子分解熵模型被编码为比特流,超先验解码器生成潜在表示的概率模型的中间参数:/>
Figure FDA0004200667610000015
hs为超先验解码器;
步骤3,将条件上下文模型的LSTM网络与带掩膜的卷积并行融合,通过熵参数模型和高斯分布建模后进行熵编码和码率估计,然后使用解码器重建源图像:
Figure FDA0004200667610000021
gs为解码器;
步骤4,计算源图像和重建图像的失真以用于损失函数进行端到端的整体优化,表达式为:
Figure FDA0004200667610000022
D代表了失真函数,将输入与解码器的输出图片进行失真计算,使用MSE,或者MS-SSIM进行失真评价,R为码率估计网络得到的码率结果,其中,R=Ry+Rz,Ry即在网络中传输特征值所消耗的码率,Rz即超先验网络传输的边信息
Figure FDA0004200667610000023
的码流;
所述LSTM网络:通过遗忘门,输入门,输出门进行全局域有关信息的捕获,保留重要性信息,遗忘非重要信息:
忘记门∶ft=σ(wf[hτ-1,xt]+bf)
输入门:
Figure FDA0004200667610000024
输出门:
Figure FDA0004200667610000025
其中,xt,Ct,ht,ft,Ot分别表示时序输入,Cell状态,隐藏层输出,遗忘门输出,输出门输出;w和b都是通过学习参数wf,wq,wc,wo表示全连接层的权重参数,bf,bq,bc,bo表示偏置参数,·表示点乘运算,[ht-1,xt]表示两个输入进行拼接操作;w[h,x]+b表示对拼接结果进行标准全连接层的神经网络运算;ht-1表示t-1时刻的隐藏层状态输出,Ct-1表示t-1时刻的Cell状态输出;σ(x)以及tanh(x)分别表示使用sigmoid和tanh激活函数对输入x进行非线性运算。
2.如权利要求1所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法,其特征在于,图像数据在输入LSTM网络前先进行展平工作,将数据从3-D转化为2-D维度,并且在数据的前端添加了0向量作为初始状态,丢弃了数据的最后一列的向量,在经过LSTM网络之后,又将数据从2-D恢复成3-D的维度,原本的3-D维度表示shape为[w,h,c],2-D则其shape为[w×h,c],通过reshape函数转化。
3.如权利要求1所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法,其特征在于,所述步骤3具体为:条件上下文模型的LSTM网络与带掩膜的卷积并行,用1×1的卷积核融合两者输出为
Figure FDA0004200667610000031
并且与φ进行通道拼接,通过熵参数模型后生成μ和σ,代表高斯概率密度函数的均值和方差,用于对特征值的高斯分布建模:
Figure FDA0004200667610000032
根据生成的值进行熵编码和码率估计,该公式表示每一个yi服从均值为μi和方差为σi,量化后的
Figure FDA0004200667610000033
受到均匀噪声的影响故而其预测概率密度函数与均匀噪声进行卷积运算,得到最终的概率密度函数,其中/>
Figure FDA0004200667610000034
表示采用自回归模型,解码端的每一个特征点的概率密度函数均需要根据已解码的信息以及边信息/>
Figure FDA0004200667610000035
得到。
4.如权利要求1所述的联合非对称卷积块和条件上下文的智能图像压缩优化方法,其特征在于,在推理阶段使用四舍五入的量化准则将浮点型转化为整数型用于熵编码。
CN202011644521.2A 2020-12-31 2020-12-31 联合非对称卷积块和条件上下文的智能图像压缩优化方法 Active CN112866694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011644521.2A CN112866694B (zh) 2020-12-31 2020-12-31 联合非对称卷积块和条件上下文的智能图像压缩优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011644521.2A CN112866694B (zh) 2020-12-31 2020-12-31 联合非对称卷积块和条件上下文的智能图像压缩优化方法

Publications (2)

Publication Number Publication Date
CN112866694A CN112866694A (zh) 2021-05-28
CN112866694B true CN112866694B (zh) 2023-07-14

Family

ID=76000938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011644521.2A Active CN112866694B (zh) 2020-12-31 2020-12-31 联合非对称卷积块和条件上下文的智能图像压缩优化方法

Country Status (1)

Country Link
CN (1) CN112866694B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115412735A (zh) * 2021-05-29 2022-11-29 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
CN113747163B (zh) * 2021-08-17 2023-09-26 上海交通大学 基于上下文重组建模的图像编码、解码方法及压缩方法
CN113949880B (zh) * 2021-09-02 2022-10-14 北京大学 一种极低码率人机协同图像编码训练方法及编解码方法
CN114386595B (zh) * 2021-12-24 2023-07-28 西南交通大学 一种基于超先验架构的sar图像压缩方法
CN114363615B (zh) * 2021-12-27 2023-05-19 上海商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质
CN114501011B (zh) * 2022-02-22 2023-04-21 北京市商汤科技开发有限公司 图像压缩方法、图像解压缩方法及装置
CN114861835B (zh) * 2022-07-04 2022-09-27 浙江大学 一种基于非对称卷积的噪声性听力损失预测系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200081431A1 (en) * 2018-09-07 2020-03-12 DoorDash, Inc. Video system with frame synthesis
CN111163314A (zh) * 2018-11-07 2020-05-15 合肥图鸭信息科技有限公司 一种图像压缩方法及系统
US20200160565A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods And Apparatuses For Learned Image Compression
CN111818346B (zh) * 2019-04-11 2023-04-18 富士通株式会社 图像编码方法和装置、图像解码方法和装置
CN110728707B (zh) * 2019-10-18 2022-02-25 陕西师范大学 基于非对称深度卷积神经网络的多视角深度预测方法
CN111311629B (zh) * 2020-02-21 2023-12-01 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
CN112017116B (zh) * 2020-07-23 2024-02-23 西北大学 基于非对称卷积的图像超分辨率重建网络及其构建方法

Also Published As

Publication number Publication date
CN112866694A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112866694B (zh) 联合非对称卷积块和条件上下文的智能图像压缩优化方法
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
WO2020237646A1 (zh) 图像处理方法、设备及计算机可读存储介质
CN108174218B (zh) 基于学习的视频编解码系统
CN113259676A (zh) 一种基于深度学习的图像压缩方法和装置
CN114503576A (zh) 通过可变形卷积生成用于视频编解码的预测帧
WO2023130333A1 (zh) 编解码方法、编码器、解码器以及存储介质
CN113132727B (zh) 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
CN114449276A (zh) 一种基于学习的超先验边信息补偿图像压缩方法
WO2023193629A1 (zh) 区域增强层的编解码方法和装置
TWI826160B (zh) 圖像編解碼方法和裝置
CN117980914A (zh) 用于以有损方式对图像或视频进行编码、传输和解码的方法及数据处理系统
CN115278262A (zh) 一种端到端智能视频编码方法及装置
CN111107377A (zh) 深度图像压缩方法及其装置、设备和存储介质
Putra et al. Intra-frame Based Video Compression Using Deep Convolutional Neural Network (DCNN)
Li et al. Spatial-channel context-based entropy modeling for end-to-end optimized image compression
US11683515B2 (en) Video compression with adaptive iterative intra-prediction
CN114697632B (zh) 一种基于双向条件编码的端到端立体图像压缩方法及装置
CN115052147B (zh) 基于生成模型的人体视频压缩方法、系统
CN117915107B (zh) 图像压缩系统、图像压缩方法、存储介质与芯片
CN117615148B (zh) 一种基于多尺度框架的端到端特征图分层压缩方法
CN117014633B (zh) 一种跨模态数据压缩方法、装置、设备及介质
WO2024093627A1 (zh) 一种视频压缩方法、视频解码方法和相关装置
Yeşilyurt et al. End-to-end learned image compression with conditional latent space modeling for entropy coding
Lin et al. Sparse Tensor-based point cloud attribute compression using Augmented Normalizing Flows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant