CN113192147A - 显著性压缩的方法、系统、存储介质、计算机设备及应用 - Google Patents

显著性压缩的方法、系统、存储介质、计算机设备及应用 Download PDF

Info

Publication number
CN113192147A
CN113192147A CN202110294081.0A CN202110294081A CN113192147A CN 113192147 A CN113192147 A CN 113192147A CN 202110294081 A CN202110294081 A CN 202110294081A CN 113192147 A CN113192147 A CN 113192147A
Authority
CN
China
Prior art keywords
compression
image
module
significance
adopting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110294081.0A
Other languages
English (en)
Other versions
CN113192147B (zh
Inventor
赵楠
孙向前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110294081.0A priority Critical patent/CN113192147B/zh
Publication of CN113192147A publication Critical patent/CN113192147A/zh
Application granted granted Critical
Publication of CN113192147B publication Critical patent/CN113192147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像压缩技术领域,公开了一种显著性压缩的方法、系统、存储介质、计算机设备及应用,所述显著性压缩的方法包括:对于显著性检测模块:采用U2Net网络实现显著性检测模块;对比残差块融合局部特征与多尺度特征,提出整体网络架构;根据U‑Net和非局部残差,提出ResU来提取阶段内多尺度特征;输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);以中间特征图F1(x)为输入,通过U‑block学习和编码多尺度上下文信息;通过F1(x)和U(F1(x))融合局部特征与多尺度特征;对于压缩模块:提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。本发明能够在低比特率下,提升图像的压缩质量。

Description

显著性压缩的方法、系统、存储介质、计算机设备及应用
技术领域
本发明属于图像压缩技术领域,尤其涉及一种显著性压缩的方法、系统、存储介质、计算机设备及应用。
背景技术
目前,虽然图片中数据量庞大,但并不是所有的内容都包含用户感兴趣信息。人们在典型应用场景中往往更加关注感兴趣目标。在带宽受限的条件下,显著性目标的识别问题显得尤为重要。采用全局压缩方式会使显著性区域一些重要细节模糊,比如车牌号、指示牌等。采用显著性区域压缩可以降低显著性区域的压缩比,提高背景等不相关信息的压缩倍率,在相同的图片压缩大小下,可以尽可多的保留用户感兴趣的信息。
随着FCN在图像分割领域上的成功,开启了基于深度神经网络图片语义分割的热潮。近年来,大量基于神经网络的语义分割算法都表现出他们的优异性能。然而,并不是所有的算法在应用于图像压缩的领域均能取得优异效果。
2017年,基于端到端的图像压缩取得了优异的成绩,其压缩性能超越JPEG与JPEG2000,由于基于似然的离散生成模型学习像素的概率分布,它们在理论上可以用于无损图像压缩。研究了各种端到端图像压缩方法。最近,值得注意的方法是用于学习图像压缩的上下文自适应熵模型,以在所有学习的编解码器中获得更好的性能。在此之后引发了学术界的广泛关注,其中基于GMM的优化模型使的端到端压缩性能全面超越BPG。
通过上述分析,现有技术存在的问题及缺陷为:现有图片压缩方法中,边缘分割精度较低,压缩效果低于BPG,且不是所有的算法在应用于图像压缩的领域均能取得优异效果。
解决以上问题及缺陷的难度和意义为:实现图片精细化分割,提高低比特率下图像压缩质量。
发明内容
针对现有技术存在的问题,本发明提供了一种显著性压缩的方法、系统、存储介质、计算机设备及应用,旨在解决现有显著性压缩算法效果不好的问题。
本发明是这样实现的,一种显著性压缩的方法,所述显著性压缩的方法包括:
对于显著性检测模块采用U2Net网络实现;对于图像压缩模块的架构基于基本模型,引入注意力通道方法,改进离散高斯混合模型,最后加入解码器增强模块。
进一步,所述显著性压缩的方法包括以下步骤:
步骤一,采用U2Net网络实现显著性检测模块;提出的显著性检测框架可以提高显著性目标识别与分割精度,对于多目标复杂场景准确度更高。
步骤二,对比残差块融合局部特征与多尺度特征,提出整体网络架构;提高局部细节提取准确度。
步骤三,根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
步骤四,输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
步骤五,以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
步骤六,提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。改进的压缩模型提高了压缩精度,在PSNR和SSIM结果上均有突破。
进一步,步骤六中,所述注意力通道方法,包括:
(1)引入轻量级的注意通道模型,设输入特征映射为X,,其中I、J、C分别表示特征映射的高、宽、通道维数,应用全局平均池化来获得信道统计量t∈RC,公式如下:
Figure BDA0002983642890000031
其中,t表示t和x的第c项c(i,j)表示输入特征映射x的第c通道特定值。
(2)应用几个非线性变换来捕捉通道之间的关系;其中,所述非线性变换的描述公式如下:
s=σ(W2δ(Wlt));
其中,s指输出通道方向的注意值,
Figure BDA0002983642890000032
Figure BDA0002983642890000033
表示完全连接的层,δ是非线性变换的ReLU激活函数,σ表示Sigmoid激活,r设为16。
(3)用s重新缩放输入特征映射X,并在实现中添加残差操作。
进一步,步骤六中,所述改进离散高斯模型,包括:
高斯混合模型由下述公式表示:
Figure BDA0002983642890000034
采用离散的高斯混合模型,由高斯混合构成的熵模型由下述公式表示:
Figure BDA0002983642890000035
Figure BDA0002983642890000036
其中,i表示特征图中的位置,k表示混合高斯模型的数量;每个高斯模型有三组参数,即权重,均值,和方差;实验中,k=3,即使用3个混合高斯模型。
进一步,步骤六中,所述解码器增强,包括:
在图像重建后的解码器端引入增强模块;在输入的重构图像的基础上,采用几个残差块恢复原始图像;根据受超分辨率网络设计策略,引入残差块学习高频信息,用于图像压缩,包括:
增加一个卷积层,将信道维数从3增加到32;将三个增强块应用到卷积层的输出,每个增强块都有三个剩余块;通过卷积层和残差运算得到重构图像,学习到的图像是最终卷积层之后的输出;其中,学习到的所述残差图像包含高频信息。
进一步,所述显著性压缩的方法,还包括:
通过提出的显著性分割模块对数据集进行处理,生成显著性区域黑白图像;通过提出的压缩模块分块压缩,最后输出图片,包括:
(1)数据集构建:采用DUTS-TR数据集作为训练数据集,包含10533张图片;其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
(2)训练设置:除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;
(3)评估结果:通过PSNR和SSIM评价最终图像效果;
(4)最终结果输出。
进一步,步骤(1)中,对于测试数据集,采用6个常用的基准数据集进行评估,包括:
DUT-OMRON包括5168幅图像,其中大多数包含少量结构复杂的前景对象;DUTS-TE包含5019幅图像;HKU-IS包含4447幅图像,其中包含多个前景图像;ECSSD包含1000个结构复杂的图像,许多图片中包含大型前景对象;PASCAL-S包含850幅前景复杂且背景杂乱的图像;SOD包含300幅图像。
进一步,步骤(2)中,所述参数设置为:lr=0.001,betas=(0.9,0.999),eps=1e-08;所述工作站环境如下:Windows10操作系统、英特尔酷睿i7-3770CPU、一块英伟达GTX1080ti显卡、256G内存、Python3.6、pytorch1.2。
进一步,步骤(3)中,所述PSNR是图像压缩中最常用的评价指标;对于图像压缩,PSNR由最大像素值和图像见得均方误差决定;给定一张m*n的压缩前图像x,压缩后重建图像为,将均方误差和PSNR定义为:
Figure BDA0002983642890000041
Figure BDA0002983642890000042
当比较压缩编解码器时,PSNR近似于人类对重建质量的感知。如果位深度为8位,则有损图像和视频压缩中PSNR的典型值在30至50dB之间,越高越好。对于16位数据,PSNR的典型值在60至80dB之间。无线传输质量损失的可接受值被认为约为20dB至25dB。
SSIM的想法是测量两个图像之间的结构相似性,而不是像PSNR这样的像素间差异。基本假设是人眼对图像结构的变化更敏感。x与压缩后重建图像为y之间的SSIM可以定义为:
Figure BDA0002983642890000051
其中,ux或uy表示原图像x或压缩重建图像y的像素均值,σx或σy表示x或y的像素标准差值,σxy代表σx和σy之间的协方差,c1和c2表示一个常量扰动防止不稳定。
进一步,所述损失函数分为三个部分:首先整体网路压缩存在相关误差;其次,感兴趣区域需要保留更多图像细节,采用压缩模块进行压缩;背景区域不需要保留更多高频细节,采用balle基准模型进行压缩,整体的损失函数为:
L=L1+αLbg+βLobj
Figure BDA0002983642890000052
其中,
Figure BDA0002983642890000053
为失真损失,
Figure BDA0002983642890000054
Figure BDA0002983642890000055
为熵损失。
本发明的另一目的在于提供一种应用所述的显著性压缩的方法的显著性压缩的系统,所述显著性压缩的系统包括:
显著性检测模块,用于采用U2Net网络实现显著性检测;
整体网络架构提出模块,用于通过对比残差块融合局部特征与多尺度特征,提出整体网络架构;
特征提取模块,用于根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
特征图转换模块,用于通过输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
上下文信息处理模块,用于以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;
特征融合模块,用于通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
图像压缩架构构建模块,用于通过提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建;
数据集构建模块,用于采用DUTS-TR数据集作为训练数据集,包含10533张图片;其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
训练设置模块,除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;
评估结果获取模块,通过PSNR和SSIM评价最终图像效果;
结果输出模块,用于将最终结果进行输出。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
采用U2Net网络实现显著性检测模块;
对比残差块融合局部特征与多尺度特征,提出整体网络架构;
根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
采用U2Net网络实现显著性检测模块;
对比残差块融合局部特征与多尺度特征,提出整体网络架构;
根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的显著性压缩的系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的显著性压缩的方法,能够在低比特率下,提升图像压缩质量,有效解决现有显著性压缩算法效果不好的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的显著性压缩的方法流程图。
图2是本发明实施例提供的显著性压缩的系统结构框图;
图中:1、显著性检测模块;2、整体网络架构提出模块;3、特征提取模块;4、特征图转换模块;5、上下文信息处理模块;6、特征融合模块;7、图像压缩架构构建模块;8、数据集构建模块;9、训练设置模块;10、评估结果获取模块;11、结果输出模块。
图3是本发明实施例提供的整体网络架构示意图。
图4是本发明实施例提供的最终结果示意图;(a)显著性分割结果;(b)显著性压缩算法在柯达数据集的SSIM和PSNR;(c)ImageNet数据集指标。
图5是本发明实施例提供的注意模块的结构示意图;(a)图像融合结果;(b)结果展示。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种显著性压缩的方法、系统、存储介质、计算机设备及应用,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的显著性压缩的方法包括以下步骤:
S101,采用U2Net网络实现显著性检测模块;
S102,对比残差块融合局部特征与多尺度特征,提出整体网络架构;
S103,根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
S104,输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
S105,以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
S106,提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。
如图2所示,本发明实施例提供的显著性压缩的系统包括:
显著性检测模块1,用于采用U2Net网络实现显著性检测;
整体网络架构提出模块2,用于通过对比残差块融合局部特征与多尺度特征,提出整体网络架构;
特征提取模块3,用于根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
特征图转换模块4,用于通过输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
上下文信息处理模块5,用于以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;
特征融合模块6,用于通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
图像压缩架构构建模块7,用于通过提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建;
数据集构建模块8,用于采用DUTS-TR数据集作为训练数据集,包含10533张图片;其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
训练设置模块9,除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;
评估结果获取模块10,通过PSNR和SSIM评价最终图像效果;
结果输出模块11,用于将最终结果进行输出。
下面结合实施例对本发明的技术方案作进一步的描述。
本发明技术思路是:对于显著性检测模块采用U2Net网络实现;对于图像压缩模块的架构是基于Balle等人提出的基本模型,引入Jiaheng Liu等人提出的注意力通道方法,改进Zhengxue Cheng等人的离散高斯混合模型,最后加入解码器增强模块。
根据以上思路,本发明的实现步骤如下:对于显著性检测模块采用U2Net网络实现,将具体介绍U2Net方法,首先对比残差块融合局部特征与多尺度特征,然后提出整体网络架构。受U-Net和非局部残差的启发,提出ResU来提取阶段内多尺度特征。首先输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);然后以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息。U-Net,U-block块越多,池化操作越多,可以获得更大感受野的全局信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征。
对于图像压缩架构,本发明首先提出注意力通道方法,然后改进离散高斯模型,最后引入解码器增强。
1.注意力通道方法:
Balle的自回归先验模型可以通过获取隐藏表示空间关系来提升压缩性能。研究发现,一些空间注意力机制的图像压缩方法也可以减少空间冗余。基于以上方法启发,本发明引入Jiaheng Liu等人提出轻量级的注意通道模型。该注意模块的结构如图5所示。设输入特征映射为X,,其中I、J、C分别表示特征映射的高、宽、通道维数。首先,本发明应用全局平均池化来获得信道统计量t∈RC,其公式如下:
Figure BDA0002983642890000101
其中,t表示t和x的第c项c(i,j)表示输入特征映射x的第c通道特定值。然后,本发明应用几个非线性变换来捕捉通道之间的关系。其中,非线性变换的描述公式如下:
s=σ(W2δ(W1t));
其中,s指输出通道方向的注意值,
Figure BDA0002983642890000102
Figure BDA0002983642890000103
表示完全连接的层,δ是非线性变换的ReLU激活函数,σ表示Sigmoid激活。为了减小维数,本发明将r设为16。最后,本发明用s重新缩放输入特征映射X。此外,本发明还在实现中添加了残差操作
2.改进的离散高斯模型:
在Balle等人提出的编解码模型中,超先验编解码模块作为熵估计,其作用是用于估计隐藏层的高斯分布mu和sigma,虽然对比之前的深度学习方法,单高斯的熵模型已经取得了非常好的效果,但是单高斯的能力有限,特别是处理一些复杂内容。Zhengxue Cheng等人使用3混合高斯模型,Jiaheng Liu等人采用2个混合高斯模型。使用3个混合高斯模型能够取得更好的性能表现。
该高斯混合模型由下述公式表示:
Figure BDA0002983642890000111
因为高斯分布处理的是连续数值,但隐层特征经过量化后是离散的值,所以采用离散的高斯混合模型。此外,研究发现相较于逻辑混合似然,高斯似然估计效果会稍微更好一些。由高斯混合构成的熵模型由下述公式表示:
Figure BDA0002983642890000112
Figure BDA0002983642890000113
其中,i表示特征图中的位置,比如表示y的第i个元素,表示的第i个元素,k表示混合高斯模型的数量。每个高斯模型有三组参数,即权重,均值,和方差。实验中,k=3,即使用3个混合高斯模型。
3.解码器增强:
由于所提出的压缩方案是一个有损压缩过程,重构图像不可避免地存在压缩现象。为了进一步提高重建质量,本发明在图像重建后的解码器端引入增强模块。在输入的重构图像的基础上,采用几个残差块恢复原始图像。受超分辨率网络设计策略的启发,本发明引入残差块学习高频信息,用于图像压缩。本发明首先增加一个卷积层,将信道维数从3增加到32。然后,本发明将三个增强块应用到卷积层的输出。每个增强块都有三个剩余块。最后,通过卷积层和残差运算得到重构图像。此外,解码器端增强模块可以方便地集成到整个压缩系统中,并以端到端方式进行优化,效率高。学习到的图像是最终卷积层之后的输出。本发明观察到,学习到的残差图像主要包含高频信息,这意味着解码器端增强模块有助于预测高频成分。
实施例2
本发明实施例提供的显著性压缩的方法,包括:
步骤1,数据集本发明采用DUTS-TR数据集作为训练数据集,其中包含10533张图片。该数据集是显著性检测数据集中最大且最常用的数据集。对于测试数据集,本发明采用6个常用的基准数据集来评估,包括:
DUT-OMRON包括5168幅图像,其中大多数包含少量结构复杂的前景对象。DUTS-TE包含5019幅图像。HKU-IS包含4447幅图像,其中包含多个前景图像。ECSSD包含1000个结构复杂的图像,许多图片中包含大型前景对象。PASCAL-S包含850幅前景复杂且背景杂乱的图像。SOD只包含300幅图像。但其中图片前背景边界模糊、重叠,其对比度较低,分割效果较差。
步骤2,训练设置。除了最后输出层,所有卷积层均采用3*3卷积核。优化器采用Adam优化器,其中参数设置为:lr=0.001,betas=(0.9,0.999),eps=1e-08。所有模型均在实验室工作站上基于pytorch深度学习框架开发。工作站环境如下:Windows10操作系统、英特尔酷睿i7-3770CPU、一块英伟达GTX1080ti显卡、256G内存、Python3.6、pytorch1.2。
步骤3,评估结果。通过PSNR和SSIM评价最终图像效果。
PSNR是图像压缩中最常用的评价指标。对于图像压缩,PSNR由最大像素值和图像见得均方误差决定。给定一张m*n的压缩前图像x,压缩后重建图像为,可以将均方误差和PSNR定义为:
Figure BDA0002983642890000121
Figure BDA0002983642890000122
当比较压缩编解码器时,PSNR近似于人类对重建质量的感知。如果位深度为8位,则有损图像和视频压缩中PSNR的典型值在30至50dB之间,越高越好。对于16位数据,PSNR的典型值在60至80dB之间。无线传输质量损失的可接受值被认为约为20dB至25dB。
SSIM的想法是测量两个图像之间的结构相似性,而不是像PSNR这样的像素间差异。基本假设是人眼对图像结构的变化更敏感。x与压缩后重建图像为y之间的SSIM可以定义为:
Figure BDA0002983642890000131
其中,ux或uy表示原图像x或压缩重建图像y的像素均值,σx或σy表示x或y的像素标准差值,σxy代表σx和σy之间的协方差,c1和c2表示一个常量扰动防止不稳定。
步骤4,最终结果。
通过图4实现结果展示,本发明提出的压缩模型优于BPG等算法。
在显著性区域,实现结果远优于全局压缩。
过度引入部分:
为了提高图像重建质量,本发明将损失函数分为三个部分:首先整体网路压缩存在相关误差;其次,感兴趣区域需要保留更多图像细节,本发明采用压缩模块进行压缩;背景区域不需要保留更多高频细节,本发明采用balle基准模型进行压缩。整体的损失函数为:
L=L1+αLbg+βLobj
Figure BDA0002983642890000132
其中,
Figure BDA0002983642890000133
为失真损失,
Figure BDA0002983642890000134
Figure BDA0002983642890000135
为熵损失。
下面结合工作原理对本发明的技术方案作进一步说明。
首先通过提出的显著性分割模块对数据集进行处理,生成显著性区域黑白图像。然后通过提出的压缩模块分块压缩,最后输出图片。整体网络架构如图3所示。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种显著性压缩的方法,其特征在于,所述显著性压缩的方法包括:对于显著性检测模块采用U2Net网络实现;对于图像压缩模块的架构基于基本模型,引入注意力通道方法,改进离散高斯混合模型,最后加入解码器增强模块。
2.如权利要求1所述的显著性压缩的方法,其特征在于,所述显著性压缩的方法包括以下步骤:
步骤一,采用U2Net网络实现显著性检测模块;
步骤二,对比残差块融合局部特征与多尺度特征,提出整体网络架构;
步骤三,根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
步骤四,输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
步骤五,以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
步骤六,提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建;所述解码器增强,包括:
在图像重建后的解码器端引入增强模块;在输入的重构图像的基础上,采用几个残差块恢复原始图像;根据受超分辨率网络设计策略,引入残差块学习高频信息,用于图像压缩,包括:
增加一个卷积层,将信道维数从3增加到32;将三个增强块应用到卷积层的输出,每个增强块都有三个剩余块;通过卷积层和残差运算得到重构图像,学习到的图像是最终卷积层之后的输出;其中,学习到的所述残差图像包含高频信息。
3.如权利要求2所述的显著性压缩的方法,其特征在于,步骤六中,所述注意力通道方法,包括:
(1)引入轻量级的注意通道模型,设输入特征映射为X,,其中I、J、C分别表示特征映射的高、宽、通道维数,应用全局平均池化来获得信道统计量t∈RC,公式如下:
Figure FDA0002983642880000021
其中,t表示t和x的第c项c(i,j)表示输入特征映射x的第c通道特定值;
(2)应用几个非线性变换来捕捉通道之间的关系;其中,所述非线性变换的描述公式如下:
s=σ(W2δ(W1t));
其中,s指输出通道方向的注意值,
Figure FDA0002983642880000022
Figure FDA0002983642880000023
表示完全连接的层,δ是非线性变换的ReLU激活函数,σ表示Sigmoid激活,r设为16;
(3)用s重新缩放输入特征映射X,并在实现中添加残差操作。
4.如权利要求2所述的显著性压缩的方法,其特征在于,步骤六中,所述改进离散高斯模型,包括:
高斯混合模型由下述公式表示:
Figure FDA0002983642880000024
采用离散的高斯混合模型,由高斯混合构成的熵模型由下述公式表示:
Figure FDA0002983642880000025
Figure FDA0002983642880000026
其中,i表示特征图中的位置,k表示混合高斯模型的数量;每个高斯模型有三组参数,即权重,均值,和方差;实验中,k=3,即使用3个混合高斯模型。
5.如权利要求1所述的显著性压缩的方法,其特征在于,所述显著性压缩的方法,还包括:
通过提出的显著性分割模块对数据集进行处理,生成显著性区域黑白图像;通过提出的压缩模块分块压缩,最后输出图片,包括:
(1)数据集构建:采用DUTS-TR数据集作为训练数据集,包含10533张图片;对于测试数据集,采用6个常用的基准数据集进行评估,包括:
DUT-OMRON包括5168幅图像,其中大多数包含少量结构复杂的前景对象;DUTS-TE包含5019幅图像;HKU-IS包含4447幅图像,其中包含多个前景图像;ECSSD包含1000个结构复杂的图像,许多图片中包含大型前景对象;PASCAL-S包含850幅前景复杂且背景杂乱的图像;SOD包含300幅图像;
其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
(2)训练设置:除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;参数设置为:lr=0.001,betas=(0.9,0.999),eps=1e-08;所述工作站环境如下:Windows10操作系统、英特尔酷睿i7-3770CPU、一块英伟达GTX1080ti显卡、256G内存、Python3.6、pytorch1.2;
(3)评估结果:通过PSNR和SSIM评价最终图像效果;PSNR是图像压缩中最常用的评价指标;对于图像压缩,PSNR由最大像素值和图像见得均方误差决定;给定一张m*n的压缩前图像x,压缩后重建图像为,将均方误差和PSNR定义为:
Figure FDA0002983642880000031
Figure FDA0002983642880000032
当比较压缩编解码器时,PSNR近似于人类对重建质量的感知;如果位深度为8位,则有损图像和视频压缩中PSNR的典型值在30至50dB之间,越高越好;对于16位数据,PSNR的典型值在60至80dB之间;无线传输质量损失的可接受值被认为约为20dB至25dB;
SSIM的想法是测量两个图像之间的结构相似性,而不是像PSNR这样的像素间差异;基本假设是人眼对图像结构的变化更敏感,x与压缩后重建图像为y之间的SSIM可以定义为:
Figure FDA0002983642880000033
其中,ux或uy表示原图像x或压缩重建图像y的像素均值,σx或σy表示x或y的像素标准差值,σxy代表σx和σy之间的协方差,c1和c2表示一个常量扰动防止不稳定;
(4)最终结果输出。
6.如权利要求5所述的显著性压缩的方法,其特征在于,所述损失函数分为三个部分:首先整体网路压缩存在相关误差;其次,感兴趣区域需要保留更多图像细节,采用压缩模块进行压缩;背景区域不需要保留更多高频细节,采用balle基准模型进行压缩,整体的损失函数为:
L=L1+αLbg+βLobj
Figure FDA0002983642880000041
其中,
Figure FDA0002983642880000042
为失真损失,
Figure FDA0002983642880000043
Figure FDA0002983642880000044
为熵损失。
7.一种实施权利要求1~6任意一项所述的显著性压缩的方法的显著性压缩的系统,其特征在于,所述显著性压缩的系统包括:
显著性检测模块,用于采用U2Net网络实现显著性检测;
整体网络架构提出模块,用于通过对比残差块融合局部特征与多尺度特征,提出整体网络架构;
特征提取模块,用于根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
特征图转换模块,用于通过输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
上下文信息处理模块,用于以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;
特征融合模块,用于通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
图像压缩架构构建模块,用于通过提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建;
数据集构建模块,用于采用DUTS-TR数据集作为训练数据集,包含10533张图片;其中,所述数据集是显著性检测数据集中最大且最常用的数据集;
训练设置模块,除了最后输出层,所有卷积层均采用3*3卷积核;采用Adam优化器,所有模型均在实验室工作站上基于pytorch深度学习框架开发;
评估结果获取模块,通过PSNR和SSIM评价最终图像效果;
结果输出模块,用于将最终结果进行输出。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
采用U2Net网络实现显著性检测模块;
对比残差块融合局部特征与多尺度特征,提出整体网络架构;
根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
采用U2Net网络实现显著性检测模块;
对比残差块融合局部特征与多尺度特征,提出整体网络架构;
根据U-Net和非局部残差,提出ResU来提取阶段内多尺度特征;
输入卷积层,通过普通卷积层将原始特征图转成中间图F1(x);
以中间特征图F1(x)为输入,通过U-block学习和编码多尺度上下文信息;最后通过F1(x)和U(F1(x))融合局部特征与多尺度特征;
提出注意力通道方法,改进离散高斯模型,最后引入解码器增强,实现图像压缩架构的构建。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的显著性压缩的系统。
CN202110294081.0A 2021-03-19 2021-03-19 显著性压缩的方法、系统、存储介质、计算机设备及应用 Active CN113192147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110294081.0A CN113192147B (zh) 2021-03-19 2021-03-19 显著性压缩的方法、系统、存储介质、计算机设备及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110294081.0A CN113192147B (zh) 2021-03-19 2021-03-19 显著性压缩的方法、系统、存储介质、计算机设备及应用

Publications (2)

Publication Number Publication Date
CN113192147A true CN113192147A (zh) 2021-07-30
CN113192147B CN113192147B (zh) 2024-04-16

Family

ID=76973461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110294081.0A Active CN113192147B (zh) 2021-03-19 2021-03-19 显著性压缩的方法、系统、存储介质、计算机设备及应用

Country Status (1)

Country Link
CN (1) CN113192147B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592843A (zh) * 2021-08-09 2021-11-02 北京联合大学 基于改进的U-Net眼底视网膜血管图像分割方法及装置
CN114241308A (zh) * 2021-12-17 2022-03-25 杭州电子科技大学 一种基于压缩模块的轻量化遥感图像显著性检测方法
CN116228912A (zh) * 2023-05-06 2023-06-06 南京信息工程大学 基于U-Net多尺度神经网络的图像压缩感知重建方法
CN117615148A (zh) * 2024-01-24 2024-02-27 华中科技大学 一种基于多尺度框架的端到端特征图分层压缩方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197468A (zh) * 2019-06-06 2019-09-03 天津工业大学 一种基于多尺度残差学习网络的单图像超分辨重建算法
US20200160565A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods And Apparatuses For Learned Image Compression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160565A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods And Apparatuses For Learned Image Compression
CN110197468A (zh) * 2019-06-06 2019-09-03 天津工业大学 一种基于多尺度残差学习网络的单图像超分辨重建算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
涂云轩;冯玉田;: "基于多尺度残差网络的全局图像压缩感知重构", 工业控制计算机, no. 07 *
温洪发;周晓飞;任小元;颜成钢;: "视觉显著性检测综述", 杭州电子科技大学学报(自然科学版), no. 02 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592843A (zh) * 2021-08-09 2021-11-02 北京联合大学 基于改进的U-Net眼底视网膜血管图像分割方法及装置
CN113592843B (zh) * 2021-08-09 2023-06-23 北京联合大学 基于改进的U-Net眼底视网膜血管图像分割方法及装置
CN114241308A (zh) * 2021-12-17 2022-03-25 杭州电子科技大学 一种基于压缩模块的轻量化遥感图像显著性检测方法
CN114241308B (zh) * 2021-12-17 2023-08-04 杭州电子科技大学 一种基于压缩模块的轻量化遥感图像显著性检测方法
CN116228912A (zh) * 2023-05-06 2023-06-06 南京信息工程大学 基于U-Net多尺度神经网络的图像压缩感知重建方法
CN116228912B (zh) * 2023-05-06 2023-07-25 南京信息工程大学 基于U-Net多尺度神经网络的图像压缩感知重建方法
CN117615148A (zh) * 2024-01-24 2024-02-27 华中科技大学 一种基于多尺度框架的端到端特征图分层压缩方法
CN117615148B (zh) * 2024-01-24 2024-04-05 华中科技大学 一种基于多尺度框架的端到端特征图分层压缩方法

Also Published As

Publication number Publication date
CN113192147B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN113192147B (zh) 显著性压缩的方法、系统、存储介质、计算机设备及应用
Cheng et al. Energy compaction-based image compression using convolutional autoencoder
US10623775B1 (en) End-to-end video and image compression
Jamil et al. Learning-driven lossy image compression: A comprehensive survey
CN110798690A (zh) 视频解码方法、环路滤波模型的训练方法、装置和设备
CN117061766A (zh) 基于机器学习的视频压缩
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN111970509A (zh) 一种视频图像的处理方法、装置与系统
CN113379858A (zh) 一种基于深度学习的图像压缩方法及装置
WO2023050720A1 (zh) 图像处理方法、图像处理装置、模型训练方法
Xiang et al. Remote sensing image compression with long-range convolution and improved non-local attention model
Kim et al. Successive learned image compression: Comprehensive analysis of instability
WO2023193629A1 (zh) 区域增强层的编解码方法和装置
CN110569763B (zh) 一种用于细粒度人脸识别的眼镜去除方法
TWI826160B (zh) 圖像編解碼方法和裝置
Khmelevskiy et al. Model of Transformation of the Alphabet of the Encoded Data as a Tool to Provide the Necessary Level of Video Image Qualityi in Aeromonitoring Systems.
CN114900717B (zh) 视频数据传输方法、装置、介质和计算设备
Liu et al. End-to-end image compression method based on perception metric
WO2023050433A1 (zh) 视频编解码方法、编码器、解码器及存储介质
Fu et al. Low-light image enhancement base on brightness attention mechanism generative adversarial networks
WO2024093627A1 (zh) 一种视频压缩方法、视频解码方法和相关装置
Chen et al. Adaptive VQVAE: a learning-based image compression framework with vector quantization
WO2024109138A1 (zh) 视频编码方法、装置及存储介质
WO2023206420A1 (zh) 视频编解码方法、装置、设备、系统及存储介质
ZHANG et al. Recent Advances in Video Coding for Machines Standard and Technologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant