CN113313777A - 一种图像压缩处理方法、装置、计算机设备和存储介质 - Google Patents

一种图像压缩处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113313777A
CN113313777A CN202110865816.0A CN202110865816A CN113313777A CN 113313777 A CN113313777 A CN 113313777A CN 202110865816 A CN202110865816 A CN 202110865816A CN 113313777 A CN113313777 A CN 113313777A
Authority
CN
China
Prior art keywords
module
image
training
encoder
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110865816.0A
Other languages
English (en)
Other versions
CN113313777B (zh
Inventor
黄晓峰
叶宗苗
宋磊
贾惠柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Boya Hongtu Video Technology Co ltd
Original Assignee
Hangzhou Boya Hongtu Video Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Boya Hongtu Video Technology Co ltd filed Critical Hangzhou Boya Hongtu Video Technology Co ltd
Priority to CN202110865816.0A priority Critical patent/CN113313777B/zh
Publication of CN113313777A publication Critical patent/CN113313777A/zh
Application granted granted Critical
Publication of CN113313777B publication Critical patent/CN113313777B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种图像压缩处理方法、装置、计算机设备和存储介质。所述方法包括:通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型;以及通过优化后的图像压缩模型对目标图像进行图像压缩处理,得到并输出压缩后的图像。因此,由于采用上述预设方式对框架中的各个模块进行训练及优化,该预设方式能够分别对编码器和解码器进行冻结梯度优化处理,这样,能够有效地避免因添加噪声近似量化的形式带来的噪声误差与实际推理过程的量化误差不对称的现象,从而有效地减少图像压缩处理过程中所产生的图像失真现象,大大提高了压缩后的图像品质。

Description

一种图像压缩处理方法、装置、计算机设备和存储介质
技术领域
本发明涉及智能图像压缩技术领域,特别涉及一种图像压缩处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网的快速发展,数据压缩是多年来重要的研究课题,对数据的传输和存储产生重大影响。传统的编解码压缩领域通过混合编码框架达到很好的压缩效果,然而传统的手工设计的压缩框架无法为所有的图像内容提供最佳的压缩方案。
而另外一方面,通过神经网络自动设计编/解码器的图像智能压缩算法也展现出巨大的压缩潜力。深度卷积网络通过学习的方式构建整体框架的各个模块:编码器,解码器,量化器,码率估计模块。通过反向传播的方式自动学习各个模块的最佳权重,能够很好的通过提取图像的低熵特征进行量化,熵编码,熵解码得到量化后的码流,最后通过解码器获得重构的图像。
在智能图像压缩领域,量化带来的量化损失成为端到端图像压缩领域的性能主要瓶颈,而量化固有的不可微的性质导致现有技术只能通过额外的形式近似量化的操作或者手工构建量化器的反向传播函数。前者通过添加均匀噪声的形式代替量化带来的效果,会在码率估计模块以及解码器模块引入非对称误差即训练过程的噪声形式与推理过程的四舍五入形式具有不对称性,这种不对称的性质降低码率估计模块以及解码模块的性能。而后者采用“直通”的方式作为量化器的反向传播函数,而“直通”的形式不可避免为反向传播引入了误差,从而使得编码器的权重优化陷入局部最优解,导致编码器无法提取更有效的特征,从而导致整体性能较差,最终导致压缩处理得到的图像失真现象较严重,压缩后的图像品质较差。
如何减少现有图像压缩处理过程中的图像失真现象的发生,从而有效地提高压缩后的图像品质,是待解决的技术问题。
发明内容
基于此,有必要针对现有压缩处理方法所得到的图像失真现象较严重,压缩后的图像品质较差的问题,提供一种图像压缩处理方法、装置、计算机设备和存储介质。
第一方面,本申请实施例提供了一种图像压缩处理方法,所述方法包括:
获取目标图像;
通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,所述预设方式包括分别对所述编码器和所述解码器进行冻结梯度优化处理的方式,所述框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,所述编码器包括主编码器和超先验编码器,所述解码器包括主解码器和超先验解码器;
通过所述优化后的图像压缩模型对目标图像进行图像压缩处理,得到并输出压缩后的图像。
在一种实施方式中,所述通过预设方式对所述框架中的各个模块进行训练及优化包括:
通过第一预设方式对所述框架进行第一训练及优化过程,生成所述框架中的各个模块的初始解和优化解;
通过第二预设方式对所述框架进行第二训练及优化过程,生成所述框架中的各个模块的优化初始解。
在一种实施方式中,所述通过第一预设方式对所述框架进行第一训练及优化过程,生成所述框架中的各个模块的初始解和优化解包括:
通过添加第一噪声形式的量化器对所述框架进行训练,直至符合停止迭代训练的第一预设条件时,则停止迭代训练,生成所述框架中的各个模块的第一权重值并作为对应模块的初始解;
冻结所述主编码器和所述超先验编码器,将量化器的形式由添加第一噪声的形式调整为四舍五入形式,并通过四舍五入形式的量化器对所述框架进行训练,生成所述框架中的所述解码器、所述条件上下文模型模块、所述熵参数模型模块和所述因子分解熵模型模块对应的第二权重值并作为对应模块的优化解。
在一种实施方式中,所述通过第二预设方式对所述框架进行第二训练及优化过程,生成所述框架中的各个模块的优化初始解包括:
冻结所述主解码器和所述超先验解码器、所述条件上下文模型模块、所述熵参数模型模块和所述因子分解熵模型模块,通过添加第二噪声形式的量化器对所述框架进行训练,生成所述框架中的所述主编码器和所述超先验编码器对应的第三权重值并作为对应模块的优化初始解。
在一种实施方式中,所述通过所述优化后的图像压缩模型对目标图像进行图像压缩处理包括:
获取所述目标图像;
通过所述主编码器对所述目标图像进行非线性变换处理,生成潜在表示;
基于所述潜在表示,通过添加四舍五入的量化形式进行量化处理,得到对应的量化结果。
在一种实施方式中,所述通过所述优化后的图像压缩模型对目标图像进行图像压缩处理包括:
获取所述熵参数模型模块的熵模型参数的信息;
所述超先验编码器对所述熵模型参数的信息进行编码,得到量化后的边信息表示;
所述超先验解码器根据所述量化后的边信息表示进行解码,生成中间参数;
所述中间参数与来自所述条件上下文模型模块的输出参数进行通道拼接,经由所述熵参数模型模块处理后,生成熵参数模型的第一参数和第二参数;
基于所述第一参数和所述第二参数,通过所述熵参数模型模块进行熵编码和码率估计,得到对应的码流;
基于所述码流进行熵解码,并通过所述主解码器对所述目标图像进行图像重建处理,输出重建后的图像。
在一种实施方式中,所述通过所述优化后的图像压缩模型对目标图像进行图像压缩处理包括:
获取所述目标图像和所述重建后的图像;
基于所述目标图像和所述重建后的图像,计算用于评估图像优化性能的失真函数;
获取基于码率估计网络生成的码率结果,所述码率结果包括在网络中传输特征值所消耗的码率和超先验网络传输的边信息的码流;
根据所述失真函数和所述码率结果构建用于对图像进行端对端优化的失真损失函数;
基于所述失真损失函数对所述目标图像进行端对端的压缩及优化处理。
第二方面,本申请实施例提供了一种图像压缩处理装置,所述装置包括:
获取模块,用于获取目标图像;
训练及优化模块,用于通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,所述预设方式包括分别对所述编码器和所述解码器进行冻结梯度优化处理的方式,所述框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,所述编码器包括主编码器和超先验编码器,所述解码器包括主解码器和超先验解码器;
压缩处理模块,用于通过所述训练及优化模块输出的所述优化后的图像压缩模型对目标图像进行图像压缩处理,得到压缩后的图像;
输出模块,用于输出所述压缩处理模块得到的所述压缩后的图像。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述的方法步骤。
第四方面,本申请实施例提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,获取目标图像;通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,预设方式包括分别对编码器和解码器进行冻结梯度优化处理的方式,框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,编码器包括主编码器和超先验编码器,解码器包括主解码器和超先验解码器;通过优化后的图像压缩模型对目标图像进行图像压缩处理,得到并输出压缩后的图像。因此,采用本申请实施例,由于采用上述预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,该预设方式能够分别对编码器和解码器进行冻结梯度优化处理,这样,能够有效地避免因添加噪声近似量化的形式带来的噪声误差与实际推理过程的量化误差不对称的现象,从而有效地减少图像压缩处理过程中所产生的图像失真现象,从而大大地提高了压缩后的图像品质。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为一个实施例中提供的一种图像压缩处理方法的实施环境图;
图2为一个实施例中计算机设备的内部结构框图;
图3是本公开实施例提供的一种图像压缩处理方法的流程示意图;
图4是本公开实施例提供的具体应用场景下的框架的结构示意图;
图5是本公开实施例提供的图像压缩处理方法所带来的图像品质提高的的示意图;
图6是本公开实施例提供的图像压缩处理方法所采用的通过贪心训练策略对框架中的各个模块进行训练及优化的流程示意图;
图7是本公开实施例提供的一种图像压缩处理装置的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面结合附图详细说明本公开的可选实施例。
图1为一个实施例中提供的一种图像压缩处理方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及终端120。
需要说明的是,终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及终端110可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种图像压缩处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种图像压缩处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,本公开实施例提供一种图像压缩处理方法,该图像压缩处理方法具体包括以下方法步骤:
S302:获取目标图像。
S304:通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,预设方式包括分别对编码器和解码器进行冻结梯度优化处理的方式,框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,编码器包括主编码器和超先验编码器,解码器包括主解码器和超先验解码器。
如图4所示,是本公开实施例提供的具体应用场景下的框架的结构示意图。
如图4所示,用于对目标图像进行图像处理的框架包括编码器、解码器、量化器、条件上下文模型模块(简写为条件上下文模型)、熵参数模型模块(简写为熵参数模型)和因子分解熵模型模块(简写为因子分解熵模型),编码器包括主编码器和超先验编码器,解码器包括主解码器和超先验解码器。
如下表1为本公开实施例提供的图像压缩处理方法所采用的图像压缩框架的卷积核参数细节。
主编码器 主解码器 超先验编码器 超先验解码器 条件上下文模型 熵参数模型
Conv:192×5×5s2 GDN Conv: 192×5×5 s2 GDNConv: 192×5×5 s2 GDN Conv:192×5×5 s2 Conv:192×5×5 s2 IGDNConv:192×5×5 s2 IGDNConv:192×5×5 s2 IGDNConv:3×5×5s2 Conv:192×5×5s1 Leaky ReLUConv:192×5×5s2 Leaky ReLUConv:192×5×5s2 Conv:192×5×5s2 Leaky ReLUConv:288×5×5s2 Leaky ReLUConv:384×5×5s1 MaskConv384×5×5 s1 Conv 768×1×1 s1Leaky ReLU Conv512×1×1 s1Leaky ReLU Conv384×1×1 s1Leaky ReLU
表1
如表1所示,为压缩框架图卷积核参数细节Conv:192×5×5 s2表示三个并行的大小为:5×5的卷积核,其步长为2(编码器为降采样,解码器为上采样),输出通道为192。GDN则是广义除法归一化的激活层,而IGDN则代表上采样情况下的逆GDN。
主编码器:用于对原始图像进行非线性变换生成潜在表示:
Figure 930844DEST_PATH_IMAGE001
,通过添加均匀噪声以近似量化操作得到量化结果:
Figure 847984DEST_PATH_IMAGE002
超先验编码器:用于对熵模型参数的信息进行编码,得到量化后的边信息表示:
Figure 893300DEST_PATH_IMAGE003
超先验解码器:用于根据
Figure 288510DEST_PATH_IMAGE004
解码得到中间参数:
Figure 368461DEST_PATH_IMAGE005
,与来自条件上下文模型的输出
Figure 456503DEST_PATH_IMAGE006
进行通道拼接,经过熵参数模型后生成熵模型的参数的
Figure 723536DEST_PATH_IMAGE007
Figure 188015DEST_PATH_IMAGE008
,并且通过生成的熵模型进行码率估计和熵编码。
主解码器:用于重建源图像:
Figure 856894DEST_PATH_IMAGE009
在上述框架的各个模块中,除了主编/解码器,量化器外,超先验编码/解码器,条件上下文模型和熵参数模型,以及因子分解熵模型均归属熵模型模块。
结合图4所示的框架,训练流程具体如下所述:
在整体端到端的图像压缩框架中,输入图片经过主编码器生成潜在表示:
Figure 115837DEST_PATH_IMAGE001
,由于传统的量化操作具有不可微分的特性,即在非边界处的导数为0,边界处的导数不存在,采用添加均匀噪声以近似量化操作:
Figure 870167DEST_PATH_IMAGE010
输出量化后的信息,接着通过熵模型模块为每一个量化后潜在特征点进行均值为
Figure 872758DEST_PATH_IMAGE011
,方差为
Figure 396143DEST_PATH_IMAGE012
的高斯模型建模。根据熵模型获得每个特征点出现的概率情况,其计算如下:
Figure 91566DEST_PATH_IMAGE013
Figure 333192DEST_PATH_IMAGE014
用主解码器重建源图像:
Figure 873895DEST_PATH_IMAGE015
最后,计算源图像和重建图像的失真和估计码流的熵率大小,构建率失真损失函数,以进行端到端的整体优化:
Figure 517366DEST_PATH_IMAGE016
,其中,
Figure 118111DEST_PATH_IMAGE017
代表了失真函数,将输入与解码器的输出图片进行失真计算,通常使用MSE,或者MS-SSIM进行失真评价,R为码率估计网络得到的码率结果,其中,
Figure 847033DEST_PATH_IMAGE018
Figure 191427DEST_PATH_IMAGE019
即在网络中传输特征值所消耗的码率,
Figure 689404DEST_PATH_IMAGE020
即超先验网络传输的边信息
Figure 726630DEST_PATH_IMAGE004
的码流。
在推理阶段,图像通过编码器生成特征点,通过量化器(四舍五入)并且根据熵模型模块生成的高斯概率模型参数
Figure 677269DEST_PATH_IMAGE021
对量化后的特征点进行熵编码,将熵解码后的数据输入至解码器,得到重构图像:
Figure 825353DEST_PATH_IMAGE022
具体训练过程与推理阶段的非对称误差有如下表示:推理过程的码率码率估计:
Figure 177837DEST_PATH_IMAGE023
训练过程中的解码器:
Figure 385965DEST_PATH_IMAGE024
推理过程中的解码器:
Figure 823899DEST_PATH_IMAGE025
显然对于网络学习训练而言,对于float类型的数据进行四舍五入的损失为
Figure 510095DEST_PATH_IMAGE026
范围的均匀噪声的子集,
Figure 982665DEST_PATH_IMAGE027
,即量化的不同导致这两个模块的非对称损失,导致实际的性能下降。
在本申请实施例中,通过训练策略优化非对称损失的过程具体如下所述:
步骤11:使用添加噪声形式的量化器进行训练生成各个模块(编码器,解码器,码率估计)的初始解,训练采用8k张1080P图像,随机裁剪为256×256大小,采用Adam优化器(在RMSProp的基础上,做两个改进:梯度滑动平均和偏差纠正,可以根据历史梯度与当前梯度为每个参数单独确定学习率),初始学习率为
Figure 185912DEST_PATH_IMAGE028
,采用ReduceLROnPlateau(如果训练过程中的性能指标出现瓶颈,即设置多个时期后,其损失函数不下降,则对应学习率变化
Figure 111143DEST_PATH_IMAGE029
)进行学习率调整,例如,设置为50个时期,factory设置为0.5,即如果测试集在50个时期内均无性能增益,则学习率减半,得到编码器ga,解码器ha和码率估计模块em中超先验编/解码器的初始解记为:
Figure 601030DEST_PATH_IMAGE030
步骤12:将量化器由添加噪声的形式调整为四舍五入形式,冻结主/超先验编码器的优化,规避由修改量化器的量化形式而影响编码器的网络权重导致性能恶化的情况,此时继续训练网络模型;
记各个模块的参数解:
Figure 662527DEST_PATH_IMAGE031
步骤13:主、超先验解码器训练得到较优的解的情况下,冻结主/超先验解码网络,修改量化器为添加噪声,进行训练得到主/超先验编码器的较为优解。记各个模块的参数解:
Figure 212457DEST_PATH_IMAGE032
步骤14:重复上述步骤12、步骤13的过程,直到网络压缩性能不再提升,在第i次训练中达到最佳效果则记各个模块的参数为:
Figure 624984DEST_PATH_IMAGE033
在本申请实施例中,计算测试集的损失函数的公式为:
Figure 918562DEST_PATH_IMAGE034
,其中,D为重构失真度量PSNR,在训练过程中设定为MSE,R是对于二进制码流的估计值。
Figure 100145DEST_PATH_IMAGE035
不再下降,则保存各个模块的权重为初始解。
在一种可能的实现方式中,通过预设方式对框架中的各个模块进行训练及优化包括以下步骤:
通过第一预设方式对框架进行第一训练及优化过程,生成框架中的各个模块的初始解和优化解;
通过第二预设方式对框架进行第二训练及优化过程,生成框架中的各个模块的优化初始解。
在一种可能的实现方式中,通过第一预设方式对框架进行第一训练及优化过程,生成框架中的各个模块的初始解和优化解包括以下步骤:
通过添加第一噪声形式的量化器对框架进行训练,直至符合停止迭代训练的第一预设条件时,则停止迭代训练,生成框架中的各个模块的第一权重值并作为对应模块的初始解;
冻结主编码器和超先验编码器,将量化器的形式由添加第一噪声的形式调整为四舍五入形式,并通过四舍五入形式的量化器对框架进行训练,生成框架中的解码器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块对应的第二权重值并作为对应模块的优化解。
在一种可能的实现方式中,通过第二预设方式对框架进行第二训练及优化过程,生成框架中的各个模块的优化初始解包括以下步骤:
冻结主解码器和超先验解码器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,通过添加第二噪声形式的量化器对框架进行训练,生成框架中的主编码器和超先验编码器对应的第三权重值并作为对应模块的优化初始解。
如图5所示,是本公开实施例提供的图像压缩处理方法所带来的图像品质提高的的示意图。
如图5所示,上面的曲线为本申请优化后的曲线,而下面的曲线为基线。如图5所示,PSNR失真尺度提高了大约0.18db的效果。由图5可知,采用本公开实施例提供的图像压缩处理方法所得的图像品质得以显著提高。
如图6所示,是本公开实施例提供的图像压缩处理方法所采用的通过贪心训练策略对框架中的各个模块进行训练及优化的流程示意图。
如图6所示,采用的贪心训练策略为:分别先只冻结编码器,再只冻结解码器,重复迭代上述“先只冻结编码器,再只冻结解码器”的过程,直至测试集的损失函数趋近于恒定值,即:不再降低时,停止迭代。
基于图6的具体描述,参见前述相同或相似部分的描述,在此不再赘述。
S306:通过优化后的图像压缩模型对目标图像进行图像压缩处理,得到并输出压缩后的图像。
在一种可能的实现方式中,通过优化后的图像压缩模型对目标图像进行图像压缩处理包括以下步骤:
获取目标图像;
通过主编码器对目标图像进行非线性变换处理,生成潜在表示;
基于潜在表示,通过添加四舍五入的量化形式进行量化处理,得到对应的量化结果。
在一种可能的实现方式中,通过优化后的图像压缩模型对目标图像进行图像压缩处理包括以下步骤:
获取熵参数模型模块的熵模型参数的信息;
超先验编码器对熵模型参数的信息进行编码,得到量化后的边信息表示;
超先验解码器根据量化后的边信息表示进行解码,生成中间参数;
中间参数与来自条件上下文模型模块的输出参数进行通道拼接,经由熵参数模型模块处理后,生成熵参数模型的第一参数和第二参数;
基于第一参数和第二参数,通过熵参数模型模块进行熵编码和码率估计,得到对应的码流;
基于码流进行熵解码,并通过主解码器对目标图像进行图像重建处理,输出重建后的图像。
在一种可能的实现方式中,通过优化后的图像压缩模型对目标图像进行图像压缩处理包括以下步骤:
获取目标图像和重建后的图像;
基于目标图像和重建后的图像,计算用于评估图像优化性能的失真函数;
获取基于码率估计网络生成的码率结果,码率结果包括在网络中传输特征值所消耗的码率和超先验网络传输的边信息的码流;
根据失真函数和码率结果构建用于对图像进行端对端优化的失真损失函数;
基于失真损失函数对目标图像进行端对端的压缩及优化处理。
在本申请实施例中,在保持整体压缩框架不变的情况下,通过基于贪心思想的训练策略降低由量化导致的训练与测试阶段的非对称误差的过程具体如下所述:
步骤21:使用添加噪声形式的量化器进行训练生成各个模块的初始解。在第一阶段,如图4所示的框架中的各个模块是需要进行联合优化的,其中,除了量化器,其余模块均需要学习的卷积核权重。量化器有两种可选的状态有两种:其中一种状态是对潜在表示进行添加噪声,另外一种状态是对潜在表示进行四舍五入。在这一阶段,量化器的状态为添加噪声因为噪声可以进行梯度传播,而四舍五入不行。此时,针对整个框架进行训练,直到在测试集上的损失函数数值不再降低为止。
步骤22:
Figure 555397DEST_PATH_IMAGE036
Figure 455220DEST_PATH_IMAGE037
是重构失真度量PSNR,在训练过程中设定为MSE,R是对于二进制码流的估计值。
Figure 286910DEST_PATH_IMAGE038
不再下降,则保存各个模块的权重为初始解,具体训练的超参数以下介绍。获得初始解后,第一阶段的训练结束。
步骤23:开始第二阶段分离式训练模块的描述:3.将量化器由添加噪声的形式调整为四舍五入形式。由于舍入量化的梯度不可微分,若直接对整体框架进行优化,则会对量化器前的模块权重造成破坏,导致性能下降,故而冻结主/超先验编码器模块卷积核的权重优化。此时,再对整体框架进行训练(但是由于主/超先验编码器权重被冻结,可以等价于此时只训练了其他的模块)。此时由于量化器从噪声形式转化为舍入形式,与测试阶段的量化保持一致,消除了来自训练与测试阶段的非对称误差,则正在训练的模块获得了更优的解。判决理由:性能更优。
步骤24:主/超先验解码器以及条件上下文模型和熵模型训练得到较优的解的情况下,此时主/超先验编码器依旧为上一状态的初始解,此时为了确保整体框架的性能,需要对主/超先验编码器进行进一步优化,为了确保反向传播,此时又将量化器形式转化为添加噪声的形式;并且冻结主/超先验解码器,条件上下文模型和熵模型的权重,避免训练塌陷为初始解的情况。
步骤25;重复上述步骤22、步骤23的过程,直到网络压缩性能不再提升,每次训练一个时期后使用测试集对模型进行性能测试,性能指标为即上述的损失函数,每一次量化器的切换后进行训练,其性能没有增益,即:测试集的损失函数不再变低为止。
通过上述步骤可知,采用本公开实施例所采用的图像压缩处理方法,优化图像压缩框架训练的训练策略,通过修改原始通用的训练策略为本文提出阶段性贪心策略,通过对编码器,解码器进行冻结梯度优化的方式规避量化的非对称误差,最终有效地降低了压缩后的图像的失真性,从而大大地提升了压缩后的图像的图像品质。
在本公开实施例中,获取目标图像;通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,预设方式包括分别对编码器和解码器进行冻结梯度优化处理的方式,框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,编码器包括主编码器和超先验编码器,解码器包括主解码器和超先验解码器;通过优化后的图像压缩模型对目标图像进行图像压缩处理,得到并输出压缩后的图像。因此,采用本申请实施例,由于采用上述预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,该预设方式能够分别对编码器和解码器进行冻结梯度优化处理,这样,能够有效地避免因添加噪声近似量化的形式带来的噪声误差与实际推理过程的量化误差不对称的现象,从而有效地减少图像压缩处理过程中所产生的图像失真现象,从而大大地提高了压缩后的图像品质。
下述为本发明图像压缩处理装置实施例,可以用于执行本发明图像压缩处理方法实施例。对于本发明图像压缩处理装置实施例中未披露的细节,请参照本发明图像压缩处理方法实施例。
请参见图7,其示出了本发明一个示例性实施例提供的图像压缩处理装置的结构示意图。该图像压缩处理装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该图像压缩处理装置包括获取模块702、训练及优化模块704、压缩处理模块706和输出模块708。
具体而言,获取模块702,用于获取目标图像;
训练及优化模块704,用于通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,预设方式包括分别对编码器和解码器进行冻结梯度优化处理的方式,框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,编码器包括主编码器和超先验编码器,解码器包括主解码器和超先验解码器;
压缩处理模块706,用于通过训练及优化模块704输出的优化后的图像压缩模型对目标图像进行图像压缩处理,得到压缩后的图像;
输出模块708,用于输出压缩处理模块706得到的压缩后的图像。
可选的,训练及优化模块704用于:
通过第一预设方式对框架进行第一训练及优化过程,生成框架中的各个模块的初始解和优化解;
通过第二预设方式对框架进行第二训练及优化过程,生成框架中的各个模块的优化初始解。
可选的,训练及优化模块704具体用于:
通过添加第一噪声形式的量化器对框架进行训练,直至符合停止迭代训练的第一预设条件时,则停止迭代训练,生成框架中的各个模块的第一权重值并作为对应模块的初始解;
冻结主编码器和超先验编码器,将量化器的形式由添加第一噪声的形式调整为四舍五入形式,并通过四舍五入形式的量化器对框架进行训练,生成框架中的解码器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块对应的第二权重值并作为对应模块的优化解。
可选的,训练及优化模块704具体用于:
冻结主解码器和超先验解码器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,通过添加第二噪声形式的量化器对框架进行训练,生成框架中的主编码器和超先验编码器对应的第三权重值并作为对应模块的优化初始解。
可选的,压缩处理模块706具体用于:
获取目标图像;
通过主编码器对目标图像进行非线性变换处理,生成潜在表示;
基于潜在表示,通过添加四舍五入的量化形式进行量化处理,得到对应的量化结果。
可选的,压缩处理模块706具体用于:
获取熵参数模型模块的熵模型参数的信息;
超先验编码器对熵模型参数的信息进行编码,得到量化后的边信息表示;
超先验解码器根据量化后的边信息表示进行解码,生成中间参数;
中间参数与来自条件上下文模型模块的输出参数进行通道拼接,经由熵参数模型模块处理后,生成熵参数模型的第一参数和第二参数;
基于第一参数和第二参数,通过熵参数模型模块进行熵编码和码率估计,得到对应的码流;
基于码流进行熵解码,并通过主解码器对目标图像进行图像重建处理,输出重建后的图像。
可选的,压缩处理模块706具体用于:
获取目标图像和重建后的图像;
基于目标图像和重建后的图像,计算用于评估图像优化性能的失真函数;
获取基于码率估计网络生成的码率结果,码率结果包括在网络中传输特征值所消耗的码率和超先验网络传输的边信息的码流;
根据失真函数和码率结果构建用于对图像进行端对端优化的失真损失函数;
基于失真损失函数对目标图像进行端对端的压缩及优化处理。
需要说明的是,上述实施例提供的图像压缩处理装置在执行图像压缩处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像压缩处理装置与图像压缩处理方法实施例属于同一构思,其体现实现过程详见图像压缩处理方法实施例,这里不再赘述。
在本公开实施例中,获取模块用于获取目标图像;训练及优化模块用于通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,预设方式包括分别对编码器和解码器进行冻结梯度优化处理的方式,框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,编码器包括主编码器和超先验编码器,解码器包括主解码器和超先验解码器;压缩处理模块用于通过训练及优化模块输出的优化后的图像压缩模型对目标图像进行图像压缩处理,得到压缩后的图像;以及输出模块用于输出压缩处理模块得到的压缩后的图像。因此,采用本申请实施例,由于采用上述预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,该预设方式能够分别对编码器和解码器进行冻结梯度优化处理,这样,能够有效地避免因添加噪声近似量化的形式带来的噪声误差与实际推理过程的量化误差不对称的现象,从而有效地减少图像压缩处理过程中所产生的图像失真现象,从而大大地提高了压缩后的图像品质。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取目标图像;通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,预设方式包括分别对编码器和解码器进行冻结梯度优化处理的方式,框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,编码器包括主编码器和超先验编码器,解码器包括主解码器和超先验解码器;以及通过优化后的图像压缩模型对目标图像进行图像压缩处理,得到并输出压缩后的图像。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取目标图像;通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,预设方式包括分别对编码器和解码器进行冻结梯度优化处理的方式,框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,编码器包括主编码器和超先验编码器,解码器包括主解码器和超先验解码器;以及通过优化后的图像压缩模型对目标图像进行图像压缩处理,得到并输出压缩后的图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像压缩处理方法,其特征在于,所述方法包括:
获取目标图像;
通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,所述预设方式包括分别对所述编码器和所述解码器进行冻结梯度优化处理的方式,所述框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,所述编码器包括主编码器和超先验编码器,所述解码器包括主解码器和超先验解码器;
通过所述优化后的图像压缩模型对所述目标图像进行图像压缩处理,得到并输出压缩后的图像。
2.根据权利要求1所述的方法,其特征在于,所述通过预设方式对所述框架中的各个模块进行训练及优化包括:
通过第一预设方式对所述框架进行第一训练及优化过程,生成所述框架中的各个模块的初始解和优化解;
通过第二预设方式对所述框架进行第二训练及优化过程,生成所述框架中的各个模块的优化初始解。
3.根据权利要求2所述的方法,其特征在于,所述通过第一预设方式对所述框架进行第一训练及优化过程,生成所述框架中的各个模块的初始解和优化解包括:
通过添加第一噪声形式的量化器对所述框架进行训练,直至符合停止迭代训练的第一预设条件时,则停止迭代训练,生成所述框架中的各个模块的第一权重值并作为对应模块的初始解;
冻结所述主编码器和所述超先验编码器,将量化器的形式由添加第一噪声的形式调整为四舍五入形式,并通过四舍五入形式的量化器对所述框架进行训练,生成所述框架中的所述解码器、所述条件上下文模型模块、所述熵参数模型模块和所述因子分解熵模型模块对应的第二权重值并作为对应模块的优化解。
4.根据权利要求2所述的方法,其特征在于,所述通过第二预设方式对所述框架进行第二训练及优化过程,生成所述框架中的各个模块的优化初始解包括:
冻结所述主解码器和所述超先验解码器、所述条件上下文模型模块、所述熵参数模型模块和所述因子分解熵模型模块,通过添加第二噪声形式的量化器对所述框架进行训练,生成所述框架中的所述主编码器和所述超先验编码器对应的第三权重值并作为对应模块的优化初始解。
5.根据权利要求1所述的方法,其特征在于,所述通过所述优化后的图像压缩模型对目标图像进行图像压缩处理包括:
获取所述目标图像;
通过所述主编码器对所述目标图像进行非线性变换处理,生成潜在表示;
基于所述潜在表示,通过添加四舍五入的量化形式进行量化处理,得到对应的量化结果。
6.根据权利要求1所述的方法,其特征在于,所述通过所述优化后的图像压缩模型对目标图像进行图像压缩处理包括:
获取所述熵参数模型模块的熵模型参数的信息;
所述超先验编码器对所述熵模型参数的信息进行编码,得到量化后的边信息表示;
所述超先验解码器根据所述量化后的边信息表示进行解码,生成中间参数;
所述中间参数与来自所述条件上下文模型模块的输出参数进行通道拼接,经由所述熵参数模型模块处理后,生成熵参数模型的第一参数和第二参数;
基于所述第一参数和所述第二参数,通过所述熵参数模型模块进行熵编码和码率估计,得到对应的码流;
基于所述码流进行熵解码,并通过所述主解码器对所述目标图像进行图像重建处理,输出重建后的图像。
7.根据权利要求6所述的方法,其特征在于,所述通过所述优化后的图像压缩模型对目标图像进行图像压缩处理包括:
获取所述目标图像和所述重建后的图像;
基于所述目标图像和所述重建后的图像,计算用于评估图像优化性能的失真函数;
获取基于码率估计网络生成的码率结果,所述码率结果包括在网络中传输特征值所消耗的码率和超先验网络传输的边信息的码流;
根据所述失真函数和所述码率结果构建用于对图像进行端对端优化的失真损失函数;
基于所述失真损失函数对所述目标图像进行端对端的压缩及优化处理。
8.一种图像压缩处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标图像;
训练及优化模块,用于通过预设方式对框架中的各个模块进行训练及优化,并重复迭代训练及优化的过程,直至测试集的损失函数趋近于恒定值时停止迭代训练,输出优化后的图像压缩模型,所述预设方式包括分别对所述编码器和所述解码器进行冻结梯度优化处理的方式,所述框架包括编码器、解码器、量化器、条件上下文模型模块、熵参数模型模块和因子分解熵模型模块,所述编码器包括主编码器和超先验编码器,所述解码器包括主解码器和超先验解码器;
压缩处理模块,用于通过所述训练及优化模块输出的所述优化后的图像压缩模型对所述目标图像进行图像压缩处理,得到压缩后的图像;
输出模块,用于输出所述压缩处理模块得到的所述压缩后的图像。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述图像压缩方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如权利要求1至7中任一项权利要求所述图像压缩方法的步骤。
CN202110865816.0A 2021-07-29 2021-07-29 一种图像压缩处理方法、装置、计算机设备和存储介质 Expired - Fee Related CN113313777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110865816.0A CN113313777B (zh) 2021-07-29 2021-07-29 一种图像压缩处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865816.0A CN113313777B (zh) 2021-07-29 2021-07-29 一种图像压缩处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113313777A true CN113313777A (zh) 2021-08-27
CN113313777B CN113313777B (zh) 2021-12-21

Family

ID=77382253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865816.0A Expired - Fee Related CN113313777B (zh) 2021-07-29 2021-07-29 一种图像压缩处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113313777B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037071A (zh) * 2021-09-18 2022-02-11 宁波大学 获取用于图像前处理以抵抗jpge压缩失真的神经网络的方法
CN114663536A (zh) * 2022-02-08 2022-06-24 中国科学院自动化研究所 一种图像压缩方法及装置
CN116996695A (zh) * 2023-09-27 2023-11-03 深圳大学 一种全景图像压缩方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153078A1 (en) * 2008-12-11 2010-06-17 Arcsoft Hangzhou Co., Ltd. Image processing system and method for simulating real effects of natural weather in video film
CN111050170A (zh) * 2019-12-06 2020-04-21 山东浪潮人工智能研究院有限公司 基于gan的图片压缩系统构建方法、压缩系统及方法
CN111626937A (zh) * 2020-05-28 2020-09-04 成都三零凯天通信实业有限公司 一种人像超分辨率重建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153078A1 (en) * 2008-12-11 2010-06-17 Arcsoft Hangzhou Co., Ltd. Image processing system and method for simulating real effects of natural weather in video film
CN111050170A (zh) * 2019-12-06 2020-04-21 山东浪潮人工智能研究院有限公司 基于gan的图片压缩系统构建方法、压缩系统及方法
CN111626937A (zh) * 2020-05-28 2020-09-04 成都三零凯天通信实业有限公司 一种人像超分辨率重建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李志军等: "基于深度卷积神经网络的信息流增强图像压缩方法", 《吉林大学学报(工学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037071A (zh) * 2021-09-18 2022-02-11 宁波大学 获取用于图像前处理以抵抗jpge压缩失真的神经网络的方法
CN114037071B (zh) * 2021-09-18 2023-08-08 宁波大学 获取用于图像前处理以抵抗jpge压缩失真的神经网络的方法
CN114663536A (zh) * 2022-02-08 2022-06-24 中国科学院自动化研究所 一种图像压缩方法及装置
CN116996695A (zh) * 2023-09-27 2023-11-03 深圳大学 一种全景图像压缩方法、装置、设备及介质
CN116996695B (zh) * 2023-09-27 2024-04-05 深圳大学 一种全景图像压缩方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113313777B (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN113313777B (zh) 一种图像压缩处理方法、装置、计算机设备和存储介质
US10623775B1 (en) End-to-end video and image compression
CN110892419B (zh) 停止码容忍的图像压缩神经网络
Hong et al. Daq: Channel-wise distribution-aware quantization for deep image super-resolution networks
CN116681584A (zh) 一种多级扩散图像超分辨算法
WO2020062074A1 (en) Reconstructing distorted images using convolutional neural network
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
Wang et al. Perceptual learned source-channel coding for high-fidelity image semantic transmission
KR102245682B1 (ko) 영상 압축 장치, 이의 학습 장치 및 방법
CN117436408A (zh) 一种语义通信方法、装置、设备以及存储介质
CN116634162A (zh) 率失真优化的图像压缩神经网络训练后量化方法
CN112637604A (zh) 低时延视频压缩方法及装置
Kirmemis et al. A Practical Approach for Rate-Distortion-Perception Analysis in Learned Image Compression
CN114663536B (zh) 一种图像压缩方法及装置
CN110730347A (zh) 图像压缩方法、装置及电子设备
WO2023045297A1 (zh) 图像超分辨率方法、装置、计算机设备和可读介质
WO2023103200A1 (zh) 视频码率控制方法及装置、计算机可读存储介质
WO2023082107A1 (zh) 解码方法、编码方法、解码器、编码器和编解码系统
CN106447610B (zh) 图像重建方法及装置
CN111161363A (zh) 一种图像编码模型训练方法及装置
CN111565314A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
CN111565317A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
CN118413675B (zh) 一种基于上下文渐进式三平面编码图像压缩算法及终端设备
CN110717948A (zh) 一种图像后处理方法、系统及终端设备
KR102593004B1 (ko) 연속 심층 영상 압축을 위한 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211221