CN112785661B - 基于融合感知损失的深度语义分割图像压缩方法及系统 - Google Patents

基于融合感知损失的深度语义分割图像压缩方法及系统 Download PDF

Info

Publication number
CN112785661B
CN112785661B CN202110038463.7A CN202110038463A CN112785661B CN 112785661 B CN112785661 B CN 112785661B CN 202110038463 A CN202110038463 A CN 202110038463A CN 112785661 B CN112785661 B CN 112785661B
Authority
CN
China
Prior art keywords
image
network
information
loss
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110038463.7A
Other languages
English (en)
Other versions
CN112785661A (zh
Inventor
孟丽丽
陈思恩
谭艳艳
张佳
邵秀婷
张化祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202110038463.7A priority Critical patent/CN112785661B/zh
Publication of CN112785661A publication Critical patent/CN112785661A/zh
Application granted granted Critical
Publication of CN112785661B publication Critical patent/CN112785661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开提供了基于融合感知损失的深度语义分割图像压缩方法及系统,所述方案基于子块以及基于子块的感知损失函数,对压缩网络以及GAN网络进行有效的基于子块的训练,相对于传统的基于原始图像大小的方式可以捕捉更多更微小的图像特征;同时,融合感知损失函数能够较好的平衡每个函数的优缺点,从而获得比传统训练方式更好的训练效果,并且,基于子块的策略还可以在一定程度上抑制振铃效应、色调分离以及区域模糊效应的出现;最后,为了更好的模拟人类复杂的视觉系统,所述方案利用基于视觉感知的评价指标—多尺度结构相似性(MS‑SSIM),能够较好的保留图像中高频区域的对比度,以及绝对值误差(L1范式)可以保留图像原有色彩和局部结构的特性。

Description

基于融合感知损失的深度语义分割图像压缩方法及系统
技术领域
本公开涉及计算机视觉技术领域,特别是涉及一种基于融合感知损失的深度语义分割图像压缩方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
图像压缩技术在有限的传输带宽和存储能力的条件下提供高质量图像服务的过程中起着至关重要的作用。而传统的图像压缩技术主要是通过减少图像信息中的冗余(包括空间冗余、视觉冗余以及统计冗余)来减少图像的大小。经典的传统编解码器标准如JPEG、JPEG200以及BPG(HEVC的帧内编码)通常是在编码器和解码器端使用上述压缩技术并且进行单独的优化,这使得在高比率压缩的情况下和一些非线性变换任务中会出现一些明显的压缩伪影如块效应和模糊等现象。而这与人们逐渐上升的对高视觉质量的图像的需求背道相驰。
相比之下,深度图像压缩领域则能够以一种更为灵活的方式来学习一种近似图像编解码过程中非线性变化的线性函数,从而进一步提升在高比率压缩中图像的视觉质量。现有技术中,部分研究人员利用GAN提高编码的性能并在解码图像过程中进一步提高图像的视觉质量,与传统的压缩编码比较,基于GAN的图像压缩框架不仅在压缩率方面得到了明显的改善而且还充分利用了现代GPU的并行技术实现了实时的运行。
发明人发现,虽然基于GAN的深度神经网络在图像压缩领域获得了显著的成效,但是目前它们出现的一些缺点也不容忽视。首先,要训练一个性能表现出色的GAN网络模型,必须要有一些高质量的数据集;其次,基于传统的MSE或者GAN标准损失的图像压缩框架生成的图像虽然在视觉感知上比较真实,但是实际上图像中也会存在一些振铃效应、模糊和色调分离或者明亮度以及色彩偏移的压缩失真。
另外,近年来对基于深度学习的图像压缩的研究一直是图像压缩领域的一个热门领域。但是大多数研究人员都把重点放在了网络架构以及神经网络本身的可解释性的研究方向,从而忽略了评价指标和损失函数对网络性能带来的影响。通常,人类视觉系统对图像噪音的敏感度依赖局部的亮度,对比度以及物体结构,而一些常用的损失函数(MSE、PSNR、SSIM)通常并不能够有效的代替人类视觉复杂的结构。其中,通常MSE损失趋向于惩罚较大的误差但是往往对一些较小的误差不太敏感,从而会产生一些较小的失真,而SSIM虽然能够较好的符合人类视觉系统,但是都在一些平坦的区域也会产生一些色调分离现象同时解码图像以及色彩偏移的情况。
发明内容
本公开为了解决上述问题,提供了一种基于融合感知损失的深度语义分割图像压缩方法及系统;通过所述方案能够有效提升图像压缩的性能,并提高编解码模型的训练效率,同时可以抑制一些压缩失真的产生,提高解码图像的整体的主观视觉质量。
根据本公开实施例的第一方面,提供了一种基于融合感知损失的深度语义分割图像压缩方法,包括:
利用预训练的语义分割网络获得原始图像的图像增强语义图,并对其进行无损编码;
将所述图像增强语义图和原始图像输入全卷积编码器进行压缩编码,生成图像的紧凑表示,作为基础图像描述信息,并对其进行无损编码;
将上采样的基础图像描述信息及图像增强语义图作为图像残差网络的输入,获得增强重构图像,通过将增强重构图像和原始图像作差,得到重构图像残差信息,并对所述重构图像残差信息进行有损编码;
将所述图像重构增强信息与所述重构图像残差信息相加,获得重构图像;
其中,网络的预训练采用融合感知损失函数对所述压缩网络及图像残差网络进行基于子块的训练。
进一步的,所述的图像残差网络,使用图像增强语义图和上采样的基础图像描述信息通过GAN网络中的生成器来拟合图像在压缩过程中损失的图像特征信息,获得增强重构图像,进而通过将增强重构图像和原始图像做差得到重构图像残差信息。
进一步的,所述基于子块的训练包括:首先将原始图像分为大小相等的若干个子块,作为网络输入的基本单位;然后使用判别器网络对各个子块进行特征提取,以获得不同范围内的图像分布特征;最后通过融合感知损失与Adam优化器共同对原有GAN网络以及压缩网络进行有效的训练。
进一步的,所述基于子块的训练中,使用基于融合感知对抗损失来进行梯度回传,其中GAN网络中使用的基于子块的总体对抗损失可以表示为:
LE=LDp+LGp
所述GAN网络中判别器的目标则是最大化LDp
Figure RE-GDA0002996579640000041
其中,
Figure RE-GDA0002996579640000042
表示判别器网络从第i个子块中在d个尺度(0为原始大小、1为 2x大小)下通过网络的第l层网络层提取出的图像的特征信息,这里图像一共分为n个子块。
进一步的,所述GAN网络中生成器的目标是最小化GAN标准损失,这里采用了基于子块的融合损失:
LGp=Lp+L1+LMS-SSIM+LVGG
其中,基于子块的损失Lp
Figure RE-GDA0002996579640000043
其中,原始图像以及生成图像被等分为c个大小相等的子块,
Figure RE-GDA0002996579640000044
表示从判别网络中的第j层网络提取的特征信息,t则代表目标图像;在判别网络模型中子块被设置为初始大小和2x大小(其中1是原始大小,2代表的是上采样2倍的子块),在区域的网络架构中共有n层网络,λ分别为Lp损失函数的总的权重系数。
进一步的,所述压缩网络采用全卷积架构,其前4层网络中依次采用了64、 128、256、512数量的过滤器,除首层采用7*7大小的卷积核外,其余各层均采用3*3的卷积核大小以及stride=2的步长来获取图像的隐式特征分布信息,且每层卷积层后均跟有实例规范化和ReLU激活函数。
进一步的,为了获得指定维度和大小的图像,所述压缩网络在原有的神经网络架构的最后增加了一个卷积核大小为7*7、过滤器为3、步长为1的一个卷积网络,且在网络的最后使用了Tanh激活函数。
根据本公开实施例的第二个方面,本公开提供了一种基于融合感知损失的深度语义分割图像压缩方法,包括:
语义信息获取单元,被配置为利用预训练的语义分割网络获得原始图像的图像增强语义图,并对其进行无损编码;
编码单元,被配置为将所述图像增强语义图和原始图像输入全卷积编码器进行压缩编码,生成图像的紧凑表示,作为基础图像描述信息,并对其进行无损编码;将上采样的基础图像描述信息及图像增强语义图作为图像残差网络的输入,获得增强重构图像,通过将增强重构图像和原始图像作差,得到重构图像残差信息,并对所述重构图像残差信息进行有损编码;
解码单元,被配置为将所述图像重构增强信息与所述重构图像残差信息相加,获得重构图像;
其中,网络的预训练采用融合感知损失函数对所述压缩网络及图像残差网络进行基于子块的训练。
根据本公开实施例的第三个方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,执行上述的一种基于融合感知损失的深度语义分割图像压缩方法。
根据本公开实施例的第四个方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述的一种基于融合感知损失的深度语义分割图像压缩方法。
与现有技术相比,本公开的有益效果是:
(1)本公开所述方案提供了一种基于融合感知损失的深度语义分割图像压缩方法,通过基于子块以及基于子块的感知损失函数,比传统的基于原始图像大小的方式可以捕捉更多更微小的图像特征,而融合感知损失函数能够较好的平衡每个函数的优缺点,从而获得比传统训练方式更好的训练效果;另外,由于多数的基于GAN网络产生的压缩伪影是基于块大小的,所以基于子块的策略还可以在一定程度上抑制振铃效应、色调分离以及区域模糊效应的出现。
(2)为了更好的模拟人类复杂的视觉系统,本公开所述方案利用基于视觉感知的评价指标—多尺度结构相似性(MS-SSIM)能够较好的保留图像中高频区域的对比度,以及绝对值误差(L1范式)可以保留图像原有色彩和局部结构的特性,设计了新的融合感知损失函数。
(3)本公开能够在相同训练数据的情况下提高原有深度学习图像压缩框架的性能,可以进一步的抑制一些因传统的单损失函数训练造成的一些失真(如使用MSE经常出现的小范围失真,以及采用SSIM出现的亮度以及色彩偏移的情况),进一步提升解码图像的视觉质量。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1(a)为本公开实施例一中所述的压缩网络结构图;
图1(b)为本公开实施例一中所述的生成器网络结构图;
图1(c)为本公开实施例一中所述的判别器网络结构图;
图2(a)为本公开实施例一中所述的整体框架中编码部分示意图;
图2(b)为本公开实施例一中所述的整体框架解码部分示意图;
图3为本公开实施例一中所述的图像残差网络结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一:
本实施例的目的是提供一种基于融合感知损失的深度语义分割图像压缩方法。
一种基于融合感知损失的深度语义分割图像压缩方法,包括:
利用预训练的语义分割网络获得原始图像的图像增强语义图,并对其进行无损编码;
将所述图像增强语义图和原始图像输入全卷积编码器进行压缩编码,生成图像的紧凑表示,作为基础图像描述信息,并对其进行无损编码;
将上采样的基础图像描述信息及图像增强语义图作为图像残差网络的输入,获得增强重构图像,通过将增强重构图像和原始图像作差,得到重构图像残差信息,并对所述重构图像残差信息进行有损编码;
将所述图像重构增强信息与所述重构图像残差信息相加,获得重构图像;
其中,网络的预训练采用融合感知损失函数对所述压缩网络及图像残差网络进行基于子块的训练。
具体的,如图2(a)-图2(b)所示,通过原始图像x,使用语义分割网络提取图像信息的语义信息s,通过将语义信息s添加到原始图像x中并通过深度语义压缩网络得到图像的紧凑表示c。
对紧凑的表示c进行上采样得到与原始图像同样大小的粗糙的重构图像c',与原始图像相似通过语义增强图s增强基础图像信息的特征。并通过GAN中的生成网络(具体网络架构见图1(b)中的GenerativeNetwork)来学习图像在重构过程中损失的信息r,并将其作为重构图像c'的增强层来获得增强重构图像c”,同时通过将c”与原始图像x做差得到重构图像残差信息r',分别通过无损编解码器FLIF和有损编解码器BPG对c、s以及r'进行编码。
如图3所述的图像残差网络,主要是使用增强语义图和上采样的基础图像描述信息通过GAN网络中的生成器来拟合图像在压缩过程中损失的图像特征信息作为图像重构增强信息,进一步通过将图像重构增强信息和上采样的基础图像描述信息相结合得到增强重构图像,进一步通过将增强重构图像和原始图像做差得到重构图像残差信息,用来进一步的提升重构图像的质量。
在解码器端首先分别通过无损编解码器FLIF和有损编解码器BPG对c、s 以及r'进行解码。然后对c进行上采样得到原始大小的图像,进一步通过与增强语义图相结合输入到GAN网络中的生成器中得到重构损失信息r,进一步将r与上采样图像相结合得到增强重构图像c”,最后将c”与重构图像残差信息r'相结合得到最终的高质量重构图像。
如图1(a)-图1(c)所示对于GAN网络内部为了进一步提升重构图像的质量,采取了上述的语义增强以及基于子块的策略,使用语义信息s来同时增强原始图像x,x'的语义信息,并将它们分为若干个大小的子块对投入到判别器网络中结合基于融合感知的对抗损失对整个GAN网络进行训练。
本实施案例中首先对单个图像训练过程以及具体实施的技术进行清楚、完整的介绍。
对于单次训练过程:
步骤一:读取图像并提取图像的语义信息s
步骤二:将语义图s与原始图像相结合,并使用压缩网络对其进行压缩得到原始图像紧凑的表示c。
步骤三:使用双线性插值法(Bilinear)将压缩图像恢复到原始大小并得到基础重构图像c'。
步骤四:将c'与s相结合使用基于子块的策略将图像投入到生成器中生成初始的重构损失r。进一步将重构损失r与c'相加得到增强重构图像c”,使用基于感知的融合对抗损失,进行梯度回传,同时联合Adam优化器进行参数更新。
步骤五:将增强语义图s与增强重构图像c”在维度上进行连接并使用判别器网络进行分块特征提取,并基于子块计算基于感知的融合特征损失。
步骤六:对于生成器则采用了基本的GAN损失以及L1、MS-SSIM损失以及基于特征损失的VGG损失的加权和,并通过Adam优化器对整个网络的参数进行更新。
进一步的,采用新型融合感知损失函数对框架中的压缩网络以及GAN网络进行有效的基于子块的训练。
所述压缩方法的整体框架的具体实施过程主要分为解码器和编码器两个部分:
首先,在编码端,需要通过语义解析网络(由HengShuang Zhao等人提出的Pyramid scene parsing network)提取出图像的语义信息并作为图像的增强语义图。进一步,将原始图像和图像增强语义图同时通过全卷积编码器进行压缩编码,获得图像的紧凑的表示并作为基础图像描述信息。同时,将基础图像描述层和增强图像语义图输入到图像残差网络得到重构图像与原始图像的重构残差信息,之后通过无损压缩编码器(FLIF)将基础图像描述和增强语义图进行编码传输或者存储,通过有损编码器(BPG)将重构图像残差信息进行编码传输或者存储。
在解码器端,首先,分别使用无损或有损解码器获得基础图像描述信息和图像增强语义图以及重构图像残差信息,之后通过使用双线性插值法上采样的基础图像描述信息和增强语义图相结合,作为GAN网络中的图像生成器的输入,来重构图像在压缩过程中所损失的信息,并将其作为图像重构增强信息,以实现对重构图像的视觉质量的进一步增强,最终与重构图像残差信息相加得到高质量的重构图像。
进一步所述的图像残差网络,主要是使用增强语义图和上采样的基础图像描述信息通过GAN网络中的生成器来拟合图像在压缩过程中损失的图像特征信息,作为图像重构增强信息,进一步通过将图像重构增强信息和上采样的基础图像描述信息相结合得到增强重构图像,进一步通过将增强重构图像和原始图像做差得到重构图像残差信息,用来进一步的提升重构图像的质量。
进一步所述基于子块的GAN训练方法,首先通过将图像分为大小相等的若干个子块,作为神经网络输入的基本单位。然后使用判别器网络对各个子块进行特征提取,以获得不同范围内的图像分布特征。之后通过融合感知损失与Adam 优化器共同对原有GAN网络以及压缩网络进行有效的训练。
进一步的,在方法内部的神经网络部分,语义分割网络采用了一个预训练的PSPNet(Pyramid Scene Parsing Network),来获得图像的语义分割图。
进一步的,压缩网络采用了全卷积的架构,在前4层网络中依次采用了64、 128、256、512数量的过滤器。除首层采用7*7大小的卷积核外,其余各层均使用了3*3的卷积核大小以及stride=2的步长来充分获取图像的隐式特征分布信息,且每层卷积层后均跟有实例规范化和ReLU激活函数。最后,为了获得指定维度和大小的图像,在原有的神经网络架构的最后增加了一个卷积核大小为7*7、过滤器为3、步长为1的一个卷积网络,在网络的最后使用了Tanh激活函数。
而在GAN网络中,则包括一个生成网络模型和一个判别网络模型,其中生成网络的目标是生成足以欺骗判别网络的图像,而判别网络的目标则是从生成图像以及真实图像中判断出哪些是真实图像、哪些是由生成网络生成图像。
其中生成网络采用了4X9X4的架构,其中第一个4表示网络最初的4层卷积层。其中第一层采用了7*7的卷积核大小、64个滤波器,之后四层采用了3*3 的核心大小,以及每层滤波器数量并采用步长为2的策略来稳定网络的训练过程。后面紧跟着9个残差网络模块用来稳定生成网络中的参数的学习过程。最后用与生成网络前面四层网络镜像相反的3个反卷积网络来生成最后的图像。其中,最后的四层反卷积网络中前三层采用3*3大小的卷积核、步长为2以及从256个过滤器开始每层减半的过滤器数量,而在网络中最后的一层网络中则采用了卷积核大小为7*7、步长为1滤波器数量为3的卷积网络,将网络中图像的隐含信息映射为一个3维的真实图像。
进一步的,残差网络模块是由两个大小为3*3、滤波器的数量为512、步长为1的卷积层组成,每个卷积层跟在一个ReflectionPad2d图像填充层后面,且每层网络后均使用实例规范化。另外,而且在第一层网络实例规范化后均使用了 ReLU激活函数。
而在判别器端则采用了多维度卷积的方式来获取图像多维的特征。首先在原始维度采用了卷积核大小为4*4的五层卷积层,其中除了第一层只使用了 LeakyReLU和最后一层后面跟了一个2倍下采样的平均池化层外,其余各网络层给均采用了实例规范化和LeakyRelu激活函数。而第二层上采样鉴别器则拥有与原始鉴别器同样的网络架构。
进一步的,基于子块的网络的训练包括,使用基于融合感知对抗损失来进行梯度回传:
其中,GAN中使用的基于子块的总体对抗损失可以表示为:
LE=LDp+LGp
而判别器(Discriminate)的目标则是最大化LDp
Figure RE-GDA0002996579640000121
其中,
Figure RE-GDA0002996579640000122
表示判别器网络从第i个子块中在d个尺度(0为原始大小、1为 2X大小)下通过网络的第l层网络层提取出的图像的特征信息,这里图像一共分为n个子块。
进一步的,生成器(Generator)的目标则是最小化GAN标准损失,这里采用了基于子块的感知损失:
LGp=Lp+L1+LMS-SSIM+LVGG
其中基于子块的损失Lp
Figure RE-GDA0002996579640000131
其中原始图像以及生成图像被等分为c个大小相等的子块,
Figure RE-GDA0002996579640000132
表示从判别网络中的第j层网络提取的特征信息,t则代表目标图像。在判别网络模型中子块被设置为初始大小和2x大小(其中1是原始大小,2代表的是上采样2倍的子块),在区域的网络架构中共有n层网络,λ分别为Lp损失函数的总的权重系数。
其中L1为:
L1=λ||x-x'||1.
进一步LMS-SSIM
Figure RE-GDA0002996579640000133
其中,MS-SSIM是在SSIM的基础上加入了尺度的变化,将原有图像设为原始尺度1,最终尺度表示为M,将图像通过低通滤波器进行2x下采样得到不同尺度下的图像,来模拟现实情况中因为不同的客观因素(比如:距离、人类视觉系统的感知能力等)对主观图像评价造成的影响,能更好的符合人类视觉系统的真实感知。进一步,通过在不同尺度M下对原有图像的对比度以及结构相似性进行计算,其中cj,sj分别表示在j尺度下对比度相似性与结构相似性的指标,而αMjj分别表示亮度、对比度以及相似度在第M以及j个尺度的权重。而仅在 M尺度下对亮度l进行比较。这里我们设置的M为5层分别对应的权重为β1=λ1=0.0448,β2=λ2=0.2856,β3=λ3=0.3001,β4=λ4=0.2363,α5=β5=λ5=0.1333。
其中,当尺度M为1时即单尺度SSIM,将亮度、对比度以及相似度的权重α,β,γ均设为1有:
Figure RE-GDA0002996579640000141
Figure RE-GDA0002996579640000142
其中l(x,x')比较的是x,x'的亮度,c(x,x')则是计算x,x'之间的亮度差异,
s(x,x')则是比较的x,x'之间的结构差异。μx和μx',σx、σx'分别为x,x'的平均值和标准差,而σxσx'为x和y的协方差,C1,C2,C3则分别为稳定l(x,x'),c(x,x'),s(x,x') 相似度指标的常数,其中C1=(K1L)2,C2=(K2L)2,C3=C2/2,其中L为图像像素值的动态范围,通常将K设置为K1=0.01,K2=0.03。
进一步LVGG为:
Figure RE-GDA0002996579640000143
其中,Vj表示在VGG的第j层提取的图像的特征表示,m表示Vgg架构中使用的网络层数。
所述的基于子块的训练包括依次对图像进行分块,并使用深度卷积网络来提取原始大小子块的信息,并通过采样算法提取不同大小的原始子块中的特征信息。
所述融合感知对抗损失,包括基于子块的标准对抗损失LDp,以及基于子块的感知损失LGp
实施例二:
本实施例的目的是提供一种基于感知损失的深度语义分割图像压缩系统。
一种基于感知损失的深度语义分割图像压缩系统,包括:
语义信息获取单元,被配置为利用预训练的语义分割网络获得原始图像的图像增强语义图,并对其进行无损编码;
编码单元,被配置为将所述图像增强语义图和原始图像输入全卷积编码器进行压缩编码,生成图像的紧凑表示,作为基础图像描述信息,并对其进行无损编码;将上采样的基础图像描述信息及图像增强语义图作为图像残差网络的输入,获得增强重构图像,通过将增强重构图像和原始图像作差,得到重构图像残差信息,并对所述重构图像残差信息进行有损编码;
解码单元,被配置为将所述图像重构增强信息与所述重构图像残差信息相加,获得重构图像;
其中,网络的预训练采用融合感知损失函数对所述压缩网络及图像残差网络进行基于子块的训练。
具体的,所述系统的编码器单元主要是集成了语义分割网络以及压缩网络。与实施例一中所述步骤一、二相同,唯一的区别是对于语义图s以及图像的紧凑表示c进行FLIF无损编码,并通过图像残差网络得到通过GAN中的生成器生成的重构损失与初步重构图像相结合的增强重构图像与原始图像的重构图像残差信息r'并通过BPG编解码器进行有损编码,并通过传输网络进行传输。
所述解码器端,首先分别通过FLIF以及BPG解码,通过上采样得到原始大小的粗糙的重构图像c'和语义图s,然后将(s,c')输入到训练好的生成网络中得到r,最后将r与基础重构图像c'相结合得到增强的重构图像x',并于通过无损编码传输的r'相加得到最终的高视觉质量的图像。
实施例三:
本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述的一种基于融合感知损失的深度语义分割图像压缩方法,包括:
利用预训练的语义分割网络获得原始图像的图像增强语义图,并对其进行无损编码;
将所述图像增强语义图和原始图像输入全卷积编码器进行压缩编码,生成图像的紧凑表示,作为基础图像描述信息,并对其进行无损编码;
将上采样的基础图像描述信息及图像增强语义图作为图像残差网络的输入,获得增强重构图像,通过将增强重构图像和原始图像作差,得到重构图像残差信息,并对所述重构图像残差信息进行有损编码;
将所述图像重构增强信息与所述重构图像残差信息相加,获得重构图像;
其中,网络的预训练采用融合感知损失函数对所述压缩网络及图像残差网络进行基于子块的训练。
实施例四:
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述的一种基于融合感知损失的深度语义分割图像压缩方法,包括:
利用预训练的语义分割网络获得原始图像的图像增强语义图,并对其进行无损编码;
将所述图像增强语义图和原始图像输入全卷积编码器进行压缩编码,生成图像的紧凑表示,作为基础图像描述信息,并对其进行无损编码;
将上采样的基础图像描述信息及图像增强语义图作为图像残差网络的输入,获得增强重构图像,通过将增强重构图像和原始图像作差,得到重构图像残差信息,并对所述重构图像残差信息进行有损编码;
将所述图像重构增强信息与所述重构图像残差信息相加,获得重构图像;
其中,网络的预训练采用融合感知损失函数对所述压缩网络及图像残差网络进行基于子块的训练。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (6)

1.基于融合感知损失的深度语义分割图像压缩方法,其特征在于,包括:
利用预训练的语义分割网络获得原始图像的图像增强语义图,并对其进行无损编码;
将所述图像增强语义图和原始图像通过深度语义压缩网络得到图像的紧凑表示,作为基础图像描述信息,并对其进行无损编码;所述将所述图像增强语义图和原始图像通过深度语义压缩网络得到图像的紧凑表示包括:通过将所述图像增强语义图中的语义信息添加到所述原始图像中,并通过全卷积编码器进行压缩编码,生成图像的紧凑表示;
对所述紧凑表示进行上采样得到与原始图像相同大小的重构图像,作为基础图像描述信息,使用基础图像描述信息即所述图像增强语义图,通过GAN网络中的生成网络模型来拟合图像在压缩过程中损失的图像特征信息作为图像重构增强信息,通过将所述图像重构增强信息和所述基础图像描述信息相结合得到增强重构图像;
所述获得增强重构图像,通过将所述增强重构图像和所述原始图像作差,得到重构图像残差信息,并对所述重构图像残差信息进行有损编码;
将所述图像重构增强信息与所述重构图像残差信息相加,获得重构图像;其中,采用融合感知损失函数对所述深度语义压缩网络及所述GAN网络进行基于子块的训练;
在GAN网络中,包括一个生成网络模型和一个判别网络模型;
基于子块的GAN网络训练包括,使用基于融合感知对抗损失来进行梯度回传,所述融合感知对抗损失LE,包括基于子块的标准对抗损失LDp,以及基于子块的感知损失LGp:
LE=LDp+LGp
所述GAN网络中判别网络模型的目标是最大化基于子块的标准对抗损失LDp
Figure FDA0003911459920000021
其中,x表示所述原始图像,s所述增强语义图,c'基础图像描述信息;
Figure FDA0003911459920000022
表示第i个子块在判别网络的第d个尺度下通过判别网络的第l层网络层提取出的图像特征信息,i=1...n;k=1...l;图像分为n个子块,d等于1或2,d等于1代表原始大小;d=2代表上采样2倍的子块;
所述GAN网络中生成网络模型的目标是最小化基于子块的感知损失LGp
LGp=Lp+L1+LMS-SSIM+LVGG
其中,基于子块的损失Lp
Figure FDA0003911459920000023
其中,所述原始图像x以及生成图像x'被等分为c个大小相等的子块,
Figure FDA0003911459920000024
表示从判别网络中的第k层网络提取的特征信息,p=1...c;t代表目标图像;在判别网络模型中子块被设置为初始大小和2x大小,其中1是原始大小,2代表的是上采样2倍的子块,在原始大小和上采样2倍大小的两个尺度下判别器网络架构均有n’层网络,λ分别为Lp损失函数的总的权重系数;
其中L1为:
L1=ε||-x′||1
其中LMS-SSIM
Figure FDA0003911459920000025
其中,将原有图像设为原始尺度1,最终尺度表示为M,其中cj,sj分别表示在j尺度下对比度相似性与结构相似性的指标,αM表示亮度在第M个尺度上的权重,βj表示对比度在第j个尺度上的权重,γj表示相似度在第j个尺度上的权重;
其中LVGG为:
Figure FDA0003911459920000031
其中,Vq表示在VGG的第q层提取的图像特征表示,m表示VGG架构中使用的网络层数。
2.如权利要求1所述的基于融合感知损失的深度语义分割图像压缩方法,其特征在于,所述深度语义压缩网络采用全卷积架构,其前4层网络中依次采用了64、128、256、512数量的过滤器,除首层采用7*7大小的卷积核外,其余各层均采用3*3的卷积核大小以及stride=2的步长来获取图像的隐式特征分布信息,且每层卷积层后均跟有实例规范化和ReLU激活函数。
3.如权利要求2所述的基于融合感知损失的深度语义分割图像压缩方法,其特征在于,所述深度语义压缩网络在所述全卷积架构的最后增加了一个卷积核大小为7*7、过滤器为3以及stride=1的步长的卷积网络,且在所述卷积网络的最后使用了Tanh激活函数。
4.基于融合感知损失的深度语义分割图像压缩系统,其特征在于,包括:
语义信息获取单元,其用于利用预训练的语义分割网络提取原始图像的语义信息;
编码单元,其用于将所述语义信息和原始图像作为压缩网络的输入,生成压缩图像;将所述压缩图像及语义信息作为图像残差网络的输入,获得重构图像;计算所述重构图像与原始图像间的重构损失信息,并对其进行有损编码;
解码单元,其用于所述重构图像与解码后的重构损失信息相加,得到最终的重建图像;
所述压缩系统采用融合感知损失函数对所述压缩网络及图像残差网络进行基于子块的训练;
基于子块的GAN网络训练包括,使用基于融合感知对抗损失来进行梯度回传,所述融合感知对抗损失LE,包括基于子块的标准对抗损失LDp,以及基于子块的感知损失LGp:
LE=LDp+LGp
所述GAN网络中判别网络模型的目标是最大化基于子块的标准对抗损失LDp
Figure FDA0003911459920000041
其中,x表示所述原始图像,s所述增强语义图,c'基础图像描述信息;
Figure FDA0003911459920000042
表示第i个子块在判别网络的第d个尺度下通过判别网络的第l层网络层提取出的图像特征信息,i=1...n;k=1...l;图像分为n个子块,d等于1或2,d等于1代表原始大小;d=2代表上采样2倍的子块;
所述GAN网络中生成网络模型的目标是最小化基于子块的感知损失LGp
LGp=Lp+L1+LMS-SSIM+LVGG
其中,基于子块的损失Lp
Figure FDA0003911459920000051
其中,所述原始图像x以及生成图像x'被等分为c个大小相等的子块,
Figure FDA0003911459920000052
表示从判别网络中的第k层网络提取的特征信息,p=1...c;t代表目标图像;在判别网络模型中子块被设置为初始大小和2x大小,其中1是原始大小,2代表的是上采样2倍的子块,在原始大小和上采样2倍大小的两个尺度下判别器网络架构均有n’层网络,λ分别为Lp损失函数的总的权重系数;
其中L1为:
L1=ε||x-x′||1
其中LMS-SSIM
Figure FDA0003911459920000053
其中,将原有图像设为原始尺度1,最终尺度表示为M,其中cj,sj分别表示在j尺度下对比度相似性与结构相似性的指标,αM表示亮度在第M个尺度上的权重,βj表示对比度在第j个尺度上的权重,γj表示相似度在第j个尺度上的权重;
其中LVGG为:
Figure FDA0003911459920000054
其中,Vq表示在VGG的第q层提取的图像特征表示,m表示VGG架构中使用的网络层数。
5.一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,其特征在于,所述计算机指令被处理器运行时,执行如权利要求1-3任一项所述的基于融合感知损失的深度语义分割图像压缩方法。
6.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时,执行如权利要求1-3任一项所述的基于融合感知损失的深度语义分割图像压缩方法。
CN202110038463.7A 2021-01-12 2021-01-12 基于融合感知损失的深度语义分割图像压缩方法及系统 Active CN112785661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110038463.7A CN112785661B (zh) 2021-01-12 2021-01-12 基于融合感知损失的深度语义分割图像压缩方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110038463.7A CN112785661B (zh) 2021-01-12 2021-01-12 基于融合感知损失的深度语义分割图像压缩方法及系统

Publications (2)

Publication Number Publication Date
CN112785661A CN112785661A (zh) 2021-05-11
CN112785661B true CN112785661B (zh) 2022-12-06

Family

ID=75755369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110038463.7A Active CN112785661B (zh) 2021-01-12 2021-01-12 基于融合感知损失的深度语义分割图像压缩方法及系统

Country Status (1)

Country Link
CN (1) CN112785661B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114630125B (zh) * 2022-03-23 2023-10-27 徐州百事利电动车业有限公司 基于人工智能与大数据的车辆图像压缩方法与系统
CN115272140B (zh) * 2022-09-29 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 红外图像量化和增强方法、系统及存储介质
CN116188346B (zh) * 2023-05-04 2023-07-11 安翰科技(武汉)股份有限公司 内窥镜图像的画质增强方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909744A (zh) * 2019-11-26 2020-03-24 山东师范大学 结合语义分割的多描述编码方法及系统
CN112001868A (zh) * 2020-07-30 2020-11-27 山东师范大学 基于生成对抗性网络的红外和可见光图像融合方法及系统
CN112116601A (zh) * 2020-08-18 2020-12-22 河南大学 一种基于线性采样网络及生成对抗残差网络的压缩感知采样重建方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985269B (zh) * 2018-08-16 2022-06-10 东南大学 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型
CN109559287A (zh) * 2018-11-20 2019-04-02 北京工业大学 一种基于DenseNet生成对抗网络的语义图像修复方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN110880193A (zh) * 2019-12-03 2020-03-13 山东浪潮人工智能研究院有限公司 一种利用深度语义分割技术的图像压缩方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909744A (zh) * 2019-11-26 2020-03-24 山东师范大学 结合语义分割的多描述编码方法及系统
CN112001868A (zh) * 2020-07-30 2020-11-27 山东师范大学 基于生成对抗性网络的红外和可见光图像融合方法及系统
CN112116601A (zh) * 2020-08-18 2020-12-22 河南大学 一种基于线性采样网络及生成对抗残差网络的压缩感知采样重建方法及系统

Also Published As

Publication number Publication date
CN112785661A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112785661B (zh) 基于融合感知损失的深度语义分割图像压缩方法及系统
CN111192200A (zh) 基于融合注意力机制残差网络的图像超分辨率重建方法
CN110351568A (zh) 一种基于深度卷积网络的视频环路滤波器
CN116132671A (zh) 点云压缩方法、编码器、解码器及存储介质
CN110248190A (zh) 一种基于压缩感知的多层残差系数图像编码方法
CN115984117A (zh) 基于通道注意力的变分自编码图像超分辨率方法及系统
CN116563108A (zh) 一种基于残差多谱通道注意力网络水下图像超分辨率方法
Hu et al. Improved vector quantization scheme for grayscale image compression
CN113822954B (zh) 一种面向资源约束下人机协同场景的深度学习图像编码方法
CN112750175B (zh) 基于八度卷积和语义分割的图像压缩方法及系统
CN110246093A (zh) 一种解码图像增强方法
CN113962882A (zh) 一种基于可控金字塔小波网络的jpeg图像压缩伪影消除方法
US20110026830A1 (en) Codebook generating method
CN116567240A (zh) 基于自适应通道和空间窗口熵模型的图像压缩方法及系统
CN116137043A (zh) 一种基于卷积和Transformer的红外图像彩色化方法
CN114549673B (zh) 一种基于学习频域信息预处理图像的图像压缩方法
CN114189695B (zh) 一种基于gan的hevc压缩视频视觉感知提升方法
Kumar et al. Quality assessment of compressed MR medical images using general regression neural network.
Agrawal Finite-State Vector Quantization Techniques for Image Compression
Algazi et al. Preprocessing for improved performance in image and video coding
CN117615148B (zh) 一种基于多尺度框架的端到端特征图分层压缩方法
CN117714697B (zh) 数字人视频显示方法及设备
CN113688694B (zh) 基于非配对学习的提升视频清晰度的方法及装置
CN117459737B (zh) 一种图像预处理网络的训练方法和图像预处理方法
CN114501034B (zh) 基于离散高斯混合超先验和Mask的图像压缩方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant