CN115439567A - 一种可变码率图像压缩方法及系统 - Google Patents
一种可变码率图像压缩方法及系统 Download PDFInfo
- Publication number
- CN115439567A CN115439567A CN202211055600.9A CN202211055600A CN115439567A CN 115439567 A CN115439567 A CN 115439567A CN 202211055600 A CN202211055600 A CN 202211055600A CN 115439567 A CN115439567 A CN 115439567A
- Authority
- CN
- China
- Prior art keywords
- code rate
- convolution
- model
- expert
- compression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明针对端到端优化的图像压缩领域,公开了一种可变码率图像压缩方法及系统。首先通过独热编码将码率控制参数λ转换为二进制向量,再通过全连接层根据编码结果自适应地生成多组专家投票权重。与此同时,模型将对应生成与专家权重数量相同的多组卷积核参数,并通过根据专家权重加权求和的方式实现最终动态卷积核的高效生成。最终以上述生成的动态参数卷积核构建变分自编码器。本方法提出的可变码率模型可以有效地根据码率调节参数改变压缩过程中的数据分布变化方向,并且动态参数调节的设计可以有效降低整体变码率压缩框架的运算量,实现在端到端优化的压缩框架中以单个压缩模型控制多种压缩码率。
Description
技术领域
本发明涉及端到端优化图像压缩领域,特别涉及一种可变码率图像压缩方法及系统。
背景技术
图像压缩是信号处理和计算机视觉领域的一项基本技术。图像和视频压缩方法的不断发展促进了包括超高清图像数据流与增强现实等新应用的不断创新。图像压缩,特别是有损图像压缩的目标是保存图像信号的关键视觉信息,同时降低用于对图像进行编码的比特率,以实现高效的传输和存储。
传统的变换图像压缩流程由以下几个基本模块和步骤组成:变换,量化和熵编码。首先,使用压缩变换操作将图像信号转换成紧凑的和不相关的系数,然后,量化通过截断系数向量中较少的信息维数来丢弃最不重要的信息,最后用熵编码对量化后的相关系数进行压缩。然而,传统混合图像编解码器的每个模块对其他模块都有复杂的依赖关系,因此很难对整个编解码器进行联合优化。随着深度学习的快速发展,人工神经网络的潜力被进一步探索,基于学习的图像压缩框架概念也已经形成。端到端优化的压缩方法由于可以联合训练整个框架参数,各个模块性能的提高自然会促进最终目标的实现。然而,目前大部分图像压缩方案的一个模型仅能支持单个码率的压缩,以单个模型进行可变码率压缩的设计方案很少被探索。
如何构建一个有效的可变码率压缩方案,通过码率调节参数控制模型的率失真权衡能力是一个挑战。本方法以拉格朗日乘子λ作为码率调节参数,使用神经网络根据λ的取值自适应确定专家权重,并将权重分配至对应数量的卷积核进行加权求和,最终以动态参数卷积的形式参与到整体数据变换压缩中。配合整体端到端优化框架的损失函数,进而实现通过码率调节参数对整体模型的压缩能力进行调节的可变码率功能。
发明内容
发明目的:目前大部分基于学习的图像压缩方法通过使用拉格朗日乘子方法,最小化码率-失真对(Rate-Distortion)的加权和来优化网络,拉格朗日矩阵中引入的λ乘子被当作一个超参数来训练一个网络,以在压缩图像的速率和质量之间达到理想的平衡。这种优化方法需要训练和部署单独的网络来适应压缩率,即在进行率失真优化时,不同的码率压缩效果只能通过训练对应数量的模型实现,因此在较大范围的码率-失真曲线内这种方案的部署成本相当高。本发明针对当前端到端优化的图像压缩方法的这一部署难点,提供一种可变码率图像压缩框架构建方法.
一种可变码率图像压缩方法,其特征在于,
输入图像或特征至构建的训练好的包含有变分自编码器的压缩模型中;
压缩模型对输入的图像或特征进行压缩优化后输出压缩后的图像或特征;
在上述的方法,变分自编码器的构建包括
通过独热编码将码率控制参数λ转换为二进制向量,再通过全连接层根据编码结果自适应地生成多组专家投票权重。
生成与专家权重数量相同的多组卷积核参数,并通过根据专家权重加权求和的生成动态卷积核。
将生成的动态参数卷积核替代普通卷积核构建变分自编码器。
采用梯度下降方法对变分自编码器中进行训练,使用可变码率训练策略优化变分自编码器。
在上述的方法,压缩模型构建步骤如下,
对码率控制参数进行编码,定义编码码率控制参数的取值区间Λ,取Λ={256,512,1024,2048,4096,6048},码率控制参数λ∈Λ。
使用全连接网络预测专家权重,采用神经网络中的全连接层与线性整流激活函数结合作为权重生成工具,通过拉格朗日乘子λ作为码率控制参数生成了一组自适应调节的专家权重用于下一步的数据变分方向引导。
生成多组可学习卷积核参数,采用卷积神经网络对输入特征进行级联式的连续变分,对多组卷积核进行同步的参数更新,将通过步骤2.2生成的权重进行动态分配卷积核。
使用动态卷积重构压缩模型。将动态参数卷积替换掉图像压缩框架中的所有普通卷积,卷积操作均为以码率调节参数为条件的动态卷积,在进行训练引导下即可进行相应的条件变分编解码。
构建可变码率的率失真损失函数。
在上述的方法,训练时,将梯度下降方法应用于损失函数中,并使用可变码率训练策略进行整体模型的优化,具体时间通过主编码器从输入图像x中获取到潜在表达y,再通过超先验编码器从潜在表达y中获取到超潜在表达z;。
随机选取拉格朗日乘子λ进行动态参数卷积核的生成以及损失函数的构建,使得模型对码率调节参数始终敏感,进而构建可变码率推理的端到端优化图像压缩模型。
在上述的方法,所述的对码率控制参数进行编码的具体过程为:
对码率控制参数进行编码以消除数值距离先验。首先定义编码码率控制参数的取值区间Λ。码率控制参数λ∈Λ,编码结果可表示为
λ′=encodeΛ(λ)
其中λ′表示编码结果,encodeΛ(λ)表示在Λ集合内的编码操作。在可变码率模型构建环节,编码可以保证不同码率种类的前提下,以编码后的形式重新组织码率控制参数,避免码率控制参数的数值大小对最终的模型训练产生错误的训练结果。
在上述的方法,对模拟专家权重预测的具体过程为:选用神经网络层与线激活函数结合作为权重生成工具。在专家权重生成过程中,必须先确定码率控制参数列表的长度lambda_num以及专家权重数量expert_num,权重生成过程可表示为:
其中,wexpert为动态生成的专家权重组合,指使用神经网路将输入大小为lambda_num的特征转换为输出大小为middle_channel的特征,Act(x)即为激活函数,Softmax{X}为归一化指数函数,用于将模块输出标准化使权重求和结果为1。至此,模型已通过拉格朗日乘子λ作为码率控制参数生成了一组自适应调节的专家权重用于下一步的数据变分方向引导。
在上述的方法,所述的生成可学习卷积核参数与对应卷积核加权求和的具体过程为:
采用卷积神经网络对输入特征进行级联式的连续变分;
根据模拟专家权重对卷积核进行加权求和。考虑到多卷积操作线性组合高计算复杂度,经优化使用具有同等效果的动态参数化卷积完成,即
(α1·W1+…+αn·Wn)*x=α1·(W1*x)+…+αn·(Wn*x),
其中αi为专家权重,Wi为卷积核参数,*代表卷积操作。由公式可以看出,这两种操作在结果上是完全一致的,但是从整体运算度而言,动态参数化卷积的卷积次数是多卷积操作线性组合的将动态参数化卷积的公式定义为:
由于使用了Softmax函数进行了权重的归一化,故引入约束项:总权重项求和结果为1。
在上述的方法,构建可变码率的率失真损失函数基于以下公式
其中,λ为拉格朗日乘子,px为自然图像的未知分布,表示舍入到最接近的整数(量化),y=f(x)为编码器,为量化的潜在表达,为离散熵模型,为解码器,表示重构图像。损失函数中的前一分式,即码率项对应潜在表达的边缘分布与学习到的熵模型估计结果之间的交叉熵,最小化交叉熵使两个分布尽可能相同。损失函数中的后一分式畸变项对应于原图与重建结果近似形式的似然。
在上述的方法,所述可变码率模型端到端训练的具体过程为:
将梯度下降方法应用于损失函数,可变码率训练的总体损失函数可以表示为以下函数:
Losstotal=Rφ,θ(λ)+λ·Dφ,θ(λ),
训练时,随机选取拉格朗日乘子λ进行动态参数卷积核的生成以及损失函数的构建,使得模型对码率调节参数始终敏感,进而构建可变码率推理的端到端优化图像压缩模型。
一种可变码率图像压缩系统,其特征在于,包括:
第一模块:输入图像或特征至构建的训练好的包含有变分自编码器的压缩模型中;
第二模块:压缩模型对输入的图像或特征进行压缩优化后输出压缩后的图像或特征。
因此,本发明具有如下优点:
1)本发明构建出了一种端到端优化的图像压缩框架,并可以根据输入条件自适应调节压缩码流的码率,实现码率与图像重建质量之间的权衡。
2)本发明提出一种高效的可变码率调节模块,用于根据输入的拉格朗日乘子进行图像压缩模型的码率控制。通过自适应调节多个卷积核参数的权重,从而实现根据条件改变特征分布的功能,且重参数化用于实现高效的加权卷积,使系统兼具高性能与高效率。
附图说明
图1为本发明所述技术的总体框架图。
图2为本发明所述技术的模型细节图。
图3为方法整体流程图。
具体实施方式
本发明的整体流程图如图3所示,具体实施步骤如下:
步骤1:整体端到端优化压缩模型构建。本发明作为端到端优化的有损图像压缩方法,一般操作流程为将像素数据映射到量化的潜在表示,然后对潜在表示进行无损压缩。本发明采用卷积神经网络的形式,它近似非线性函数,具有将像素映射到一个比传统图像编解码器使用的线性转换更可压缩的潜在空间的潜力。本发明使用多次级联的卷积操作层与广义分裂归一化构建变分自编码器网络。这种非线性变换编码方法由数据和潜在的维度空间之间的编码器转换和解码器组成。压缩的目标是在构建共享先验概率的熵模型的前提下,减少潜在表达的信息熵。最后,熵模型与熵编码算法范围编码结合使用来生成压缩的比特流。
本发明按照压缩变分自编码器结构构建基础框架,模型输入为待压缩图片原图,编码器输出为符合高斯分布的潜在表达变量,该输出结果需要输入超先验模块进行进一步的特征提取与数据分布预测,并作为上下文信息辅助算术编码器进行熵编码。潜在表达变量经过量化操作与算术编码器压缩,压缩结果被写入码流保存。解码时,算数解码器从码流中解码出潜在表达变量,并通过压缩变分自编码器中的解码部分恢复出原图信息。
本发明提供了一种高效的可变码率模块构建方法,以模拟专家的方式根据码率控制参数生成动态权重,并依据权重对多个可学习卷积核参数进行加权求和生成动态参数卷积核,借助动态卷积操作改变输入特征的分布,可变码率模块构建步骤如下,
步骤2.1:对码率控制参数进行独热(One-hot)编码。首先定义编码码率控制参数的取值区间Λ,取Λ={256,512,1024,2048,4096,6048}。码率控制参数λ∈Λ,编码结果可表示为
λ′=onehotΛ(λ)
其中λ′表示二进制编码结果,onehotΛ(λ)表示在Λ集合内的独热编码操作。在可变码率模型构建环节,独热编码可以保证不同码率种类的前提下,以二进制的形式重新组织码率控制参数,避免码率控制参数的数值大小对最终的模型训练产生错误的训练结果。
步骤2.2:使用全连接网络预测专家权重。本发明使用专家权重生成的方式进行数据分布变化方向的引导,并以对卷积核加权的方式进行高效深度的数据变分过程。本发明选用了神经网络中的全连接层(Fully Connected Layer,FC)与线性整流激活函数(Rectified Linear Unit,ReLU)结合作为权重生成工具。在专家权重生成过程中,必须先确定码率控制参数列表的长度lambda_num以及专家权重数量expert_num,权重生成过程可表示为:
其中,wexpert为动态生成的专家权重组合,指使用全连接层将输入大小为lambda_num的特征转换为输出大小为middle_channel的特征,ReLU(x)即为线性整流激活函数,Softmax{X}为归一化指数函数,用于将模块输出标准化使权重求和结果为1。本实施方案将lambda_num取为6,middle_channel取64,expert_num取4。至此,模型已通过拉格朗日乘子λ作为码率控制参数生成了一组自适应调节的专家权重用于下一步的数据变分方向引导。
步骤2.3:生成多组可学习卷积核参数。为了进行高效率的变分过程,本发明采用卷积神经网络对输入特征进行级联式的连续变分,并且更好地发掘码率控制参数的变分控制能力,本发明使用了多组卷积核进行同步的参数更新,不同卷积核将专注于不同压缩水平的,后续将通过步骤2.2生成的权重进行动态分配卷积核的作用。
步骤2.4:根据模拟专家权重对卷积核进行加权求和。考虑到多卷积操作线性组合高计算复杂度,经优化使用具有同等效果的动态参数化卷积完成,即
(α1·W1+…+αn·Wn)*x=α1·(W1*x)+…+αn·(Wn*x),其中αi为专家权重,Wi为卷积核参数,*代表卷积操作。本实施方案将n取4。从上式可以看出,这两种操作在结果上是完全一致的,但是从整体运算度而言,动态参数化卷积的卷积次数是多卷积操作线性组合的本发明将动态参数化卷积的公式定义为:
由于步骤2.2中使用了Softmax函数进行了权重的归一化,故引入约束项:总权重项求和结果为1。
步骤3:使用动态卷积重构压缩框架。将步骤2中提到的核心组件发明成果动态参数卷积替换掉图像压缩框架中的所有普通卷积,由此整体框架的卷积操作均为以码率调节参数为条件的动态卷积,在进行恰当的训练引导下即可进行相应的条件变分编解码。
步骤4:构建可变码率的率失真损失函数。有损压缩模型的训练目标是使比特流的期望长度和重构图像相对于原始图像的失真最小,从而可以总结为率失真优化问题:
其中,λ为拉格朗日乘子,它决定了模型期望的率失真权衡结果,px为自然图像的未知分布,表示舍入到最接近的整数(量化),y=f(x)为编码器,为量化的潜在表达,为离散熵模型,为解码器,表示重构图像。损失函数中的前一分式,即码率项对应潜在表达的边缘分布与学习到的熵模型估计结果之间的交叉熵,最小化交叉熵使这两种分布尽可能相同。损失函数中的后一分式畸变项对应于原图与重建结果近似形式的似然,例如当表示均方误差(MSE)时,可以将模型作为变分自编码器训练。
步骤5:可变码率模型端到端训练。本发明将梯度下降方法应用于步骤4中的损失函数,并使用可变码率训练策略进行整体模型的优化。具体来讲,本发明通过主编码器从输入图像x中获取到潜在表达y,再通过超先验编码器从潜在表达y中获取到超潜在表达z。考虑到潜在表达与超潜在表达的码率消耗以及整体的重建损失,可变码率训练的总体损失函数可以表示为以下函数:
Losstotal=Rφ,θ(λ)+λ·Dφ,θ(λ),
本实施方案使用了自回归模型进行上下文预测与超先验模块的构建,但自回归模型不在本专利的申请范围,不予撰述。
训练时,随机选取拉格朗日乘子λ进行动态参数卷积核的生成以及损失函数的构建,使得模型对码率调节参数始终敏感,进而构建可变码率推理的端到端优化图像压缩模型。
本文中所描述的具体实施仅仅是对本发明精神作举例说明,本发明所属技术领域的技术人员可对所描述的具体实施进行各种各样的修改或补充或采用类似的方式替代,但不会偏离本发明的精神或超越所附权利要求书所定义的范围。
Claims (10)
1.一种可变码率图像压缩方法,其特征在于,
输入图像或特征至构建的训练好的包含有变分自编码器的压缩模型中;
压缩模型对输入的图像或特征进行压缩优化后输出压缩后的图像或特征。
2.根据权利要求1所述的一种可变码率图像压缩方法,其特征在于,变分自编码器的构建包括
通过独热编码将码率控制参数λ转换为二进制向量,再通过全连接层根据编码结果自适应地生成多组专家投票权重;
生成与专家权重数量相同的多组卷积核参数,并通过根据专家权重加权求和的生成动态卷积核;
将生成的动态参数卷积核替代普通卷积核构建变分自编码器;
采用梯度下降方法对变分自编码器中进行训练,使用可变码率训练策略优化变分自编码器。
3.根据权利要求1所述的一种可变码率图像压缩方法,其特征在于,压缩模型构建步骤如下,
对码率控制参数进行编码,定义编码码率控制参数的取值区间Λ,取Λ={256,512,1024,2048,4096,6048},码率控制参数λ∈Λ;
使用全连接网络预测专家权重,采用神经网络中的全连接层与线性整流激活函数结合作为权重生成工具,通过拉格朗日乘子λ作为码率控制参数生成了一组自适应调节的专家权重用于下一步的数据变分方向引导;
生成多组可学习卷积核参数,采用卷积神经网络对输入特征进行级联式的连续变分,对多组卷积核进行同步的参数更新,将通过步骤2.2生成的权重进行动态分配卷积核;
使用动态卷积重构压缩模型;将动态参数卷积替换掉图像压缩框架中的所有普通卷积,卷积操作均为以码率调节参数为条件的动态卷积,在进行训练引导下即可进行相应的条件变分编解码;
构建可变码率的率失真损失函数。
4.根据权利要求1所述的一种可变码率图像压缩方法,其特征在于,训练时,将梯度下降方法应用于损失函数中,并使用可变码率训练策略进行整体模型的优化,具体时间通过主编码器从输入图像x中获取到潜在表达y,再通过超先验编码器从潜在表达y中获取到超潜在表达z;;
随机选取拉格朗日乘子λ进行动态参数卷积核的生成以及损失函数的构建,使得模型对码率调节参数始终敏感,进而构建可变码率推理的端到端优化图像压缩模型。
5.根据权利要求1所述的变码率图像压缩框架构建方法,其特征在于,所述的对码率控制参数进行编码的具体过程为:
对码率控制参数进行编码以消除数值距离先验;首先定义编码码率控制参数的取值区间Λ;码率控制参数λ∈Λ,编码结果可表示为
λ′=encodeΛ(λ)
其中λ′表示编码结果,encodeΛ(λ)表示在Λ集合内的编码操作;在可变码率模型构建环节,编码可以保证不同码率种类的前提下,以编码后的形式重新组织码率控制参数,避免码率控制参数的数值大小对最终的模型训练产生错误的训练结果。
6.根据权利要求1所述的一种可变码率图像压缩方法,其特征在于,对模拟专家权重预测的具体过程为:选用神经网络层与线激活函数结合作为权重生成工具;在专家权重生成过程中,必须先确定码率控制参数列表的长度lambda_num以及专家权重数量expert_num,权重生成过程可表示为:
7.根据权利要求1所述的一种可变码率图像压缩方法,其特征在于,所述的生成可学习卷积核参数与对应卷积核加权求和的具体过程为:
采用卷积神经网络对输入特征进行级联式的连续变分;
根据模拟专家权重对卷积核进行加权求和;考虑到多卷积操作线性组合高计算复杂度,经优化使用具有同等效果的动态参数化卷积完成,即
(α1·W1+…+αn·Wn)*x=α1·(W1*x)+…+αn*(Wn*x),
其中αi为专家权重,Wi为卷积核参数,*代表卷积操作;由公式可以看出,这两种操作在结果上是完全一致的,但是从整体运算度而言,动态参数化卷积的卷积次数是多卷积操作线性组合的将动态参数化卷积的公式定义为:
由于使用了Softmax函数进行了权重的归一化,故引入约束项:总权重项求和结果为1。
10.一种可变码率图像压缩系统,其特征在于,包括:
第一模块:输入图像或特征至构建的训练好的包含有变分自编码器的压缩模型中;
第二模块:压缩模型对输入的图像或特征进行压缩优化后输出压缩后的图像或特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211055600.9A CN115439567A (zh) | 2022-08-31 | 2022-08-31 | 一种可变码率图像压缩方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211055600.9A CN115439567A (zh) | 2022-08-31 | 2022-08-31 | 一种可变码率图像压缩方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115439567A true CN115439567A (zh) | 2022-12-06 |
Family
ID=84244522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211055600.9A Pending CN115439567A (zh) | 2022-08-31 | 2022-08-31 | 一种可变码率图像压缩方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115439567A (zh) |
-
2022
- 2022-08-31 CN CN202211055600.9A patent/CN115439567A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6349152B1 (en) | Table-based compression with embedded coding | |
US20010017941A1 (en) | Method and apparatus for table-based compression with embedded coding | |
CN111009018A (zh) | 基于深度神经网络的图像降维和重建方法 | |
CN107481295B (zh) | 基于动态字节长度分配的卷积神经网络的图像压缩系统 | |
KR100529311B1 (ko) | 신경 회로망을 이용하여 가변 길이 부호화 비트 스트림의길이를 선택하는 장치 및 방법 | |
CN110248190B (zh) | 一种基于压缩感知的多层残差系数图像编码方法 | |
CN113767635A (zh) | 神经数据压缩的内容自适应优化 | |
CN106937112A (zh) | 基于h.264视频压缩标准的码率控制方法 | |
KR20220007853A (ko) | 신경망의 매개변수를 압축하기 위한 방법 및 장치 | |
CN112702600B (zh) | 一种图像编解码神经网络分层定点化方法 | |
CN113747163A (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
CN113822954B (zh) | 一种面向资源约束下人机协同场景的深度学习图像编码方法 | |
KR20230136121A (ko) | 인공 신경망을 사용한 프로그래시브 데이터 압축 | |
Li et al. | Multiple description coding based on convolutional auto-encoder | |
Yue et al. | Communication-efficient federated learning via predictive coding | |
CN115866253B (zh) | 一种基于自调制的通道间变换方法、装置、终端及介质 | |
CN115439567A (zh) | 一种可变码率图像压缩方法及系统 | |
CN112437300B (zh) | 一种基于自适应区间重叠因子的分布式视频编码方法 | |
Huang et al. | Multi-channel multi-loss deep learning based compression model for color images | |
CN116634162A (zh) | 率失真优化的图像压缩神经网络训练后量化方法 | |
CN115512199A (zh) | 一种基于图注意和非对称卷积网络的图像压缩模型 | |
CN117615148B (zh) | 一种基于多尺度框架的端到端特征图分层压缩方法 | |
US20220321879A1 (en) | Processing image data | |
US11683515B2 (en) | Video compression with adaptive iterative intra-prediction | |
US20230316588A1 (en) | Online training-based encoder tuning with multi model selection in neural image compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |