CN113822147A - 一种协同机器语义任务的深度压缩方法 - Google Patents

一种协同机器语义任务的深度压缩方法 Download PDF

Info

Publication number
CN113822147A
CN113822147A CN202110890068.1A CN202110890068A CN113822147A CN 113822147 A CN113822147 A CN 113822147A CN 202110890068 A CN202110890068 A CN 202110890068A CN 113822147 A CN113822147 A CN 113822147A
Authority
CN
China
Prior art keywords
image
semantic
compression
feature
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110890068.1A
Other languages
English (en)
Other versions
CN113822147B (zh
Inventor
赵耀
陈俊如
刘美琴
林春雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202110890068.1A priority Critical patent/CN113822147B/zh
Publication of CN113822147A publication Critical patent/CN113822147A/zh
Application granted granted Critical
Publication of CN113822147B publication Critical patent/CN113822147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明属于信息压缩处理技术领域,涉及一种协同机器语义任务的深度压缩方法,包括:将图像x输入基网络,输出压缩特征fx n;多尺度融合模块输出多尺度语义特征fs n;将fx n和fs n通过通道级联,获得组合特征z;z依次经量化、算术编码和算术解码,获得隐特征
Figure DDA0003195565900000011
Figure DDA0003195565900000012
传送到解码器,被分成压缩特征
Figure DDA0003195565900000013
和语义特征
Figure DDA0003195565900000014
再分别进行解码,分别得到解压缩图像
Figure DDA0003195565900000015
和语义分割图像s;输入后处理增强模块,得到解压缩图像
Figure DDA0003195565900000016
本发明提出一种端到端的相互增强网络,将图像压缩和语义分割集成到统一的框架。框架基于编解码器结构,在编码器中设计融合模块,提高语义分割的准确性,设计增强模块,增强压缩任务的重建图片。本发明在图像压缩和语义分割上实现相互增强。

Description

一种协同机器语义任务的深度压缩方法
技术领域
本发明属于信息压缩处理技术领域,涉及一种协同机器语义任务的深度压缩方法。
背景技术
在当今的信息时代,大量的图片和视频内容随时都在产生,并被传输到互联网上。2018年思科网站的报告显示,机器对机器的应用将会在未来几年占据大量的互联网内容。并且,机器学习算法倾向于直接处理更多的内容信息,而不仅仅为适应人类的视觉感知,因此,建立既能被机器智能应用程序处理又能被人类视觉系统感知的处理方法至关重要。所以,如何在有限的带宽内建立能够支持混合人机智能应用的方案是亟待解决的问题。近年来,随着深度学习地快速发展,一些基于深度学习的压缩方法也逐步被提出来。然而,这些方法是由服务于人类视觉感知的率失真损失驱动的,与高级的机器视觉任务并不能很好地兼容。此外,在面对大数据和高层分析时,无论是传统的压缩方法,还是基于深度的压缩方法仍存在一些不足。因此,一种能将数据压缩和机器智能分析任务相结合的新一代视频编解码器VCM(Video Coding for Machine)正在被倡议。
在现有技术中,近些年来,众多国内外的团队提出了很多基于深度学习的图像和视频压缩方法[1]。通常,这些方法按照体系结构可以分为两类。一类是将深度模块嵌入到传统的混合编码框架中[2-7],另一类则是端到端的深度压缩框架。在编码框架中嵌入深度模块的目的是:设计一个最优网络来代替编码框架中的环路滤波[2]、帧内预测[3]、帧间预测[4]、熵编码[5]、变换[6]以及量化[7]等关键模块。比如,一种基于卷积神经网络的后处理方法[2]用来代替环路滤波模块,从而增强解压后的图像;一个帧内预测卷积神经网络IPCNN[3],利用了当前块丰富的上下文,从而提高当前块的预测精度;对于帧间预测模块,文献[4]将空间相邻像素和时间显示顺序作为卷积神经网络模型的输入,实现视频流的双重预测;为改善熵编码模块,提出了一种通过训练神经网络的算术编码策略[5];对于变换模块,利用卷积神经网络模型模拟离散余弦变换从而实现分块变换[6];此外,一种基于卷积神经网络的HEVC快速量化策略[7]也被应用起来。端到端压缩框架的研究从文献[8]开始,整个框架由非线性分析变换、均匀量化器和非线性综合变换组成。此后,为了进一步提高图像的压缩性能,涌现了一系列端到端的压缩方法。在文献[9]设计了一种基于变分自编码器的端到端可训练图像压缩模型,结合了超先验潜在表示,以有效捕获空间相关性;在文献[9]的基础上,文献[10]提出了一种上下文自适应熵模型,可以用于端到端压缩体系结构中的率失真优化;接着,离散高斯混合似然参数化潜在码流的分布被引入端到端的框架[11],从而减少编码所需的比特数。
此外,随着人工智能技术的发展,图像和视频内容越来越多地需要由机器分析。因此图像压缩编码算法不仅需要满足人类视觉系统,也需要符合机器视觉任务的需求。为了能够协作压缩和智能分析任务,弥合机器视觉压缩编码和人类视觉压缩编码之间的差距,国际标准化组织提出了新一代视频编解码器标准VCM(Video Codingfor Machine)的倡议。因此,研究人员试图将机器视觉任务与图像压缩任务结合起来,作为统一的框架,来完成针对高级机器视觉任务的压缩任务。比如,一种基于参考DCNN的混合分辨率编码框架[11],联合解决了分辨率损失和压缩伪影之间的干扰问题;类似地,一种基于退化感知技术的端到端恢复重建深度神经网络(RR-DNCNN)[12]用以解决针对压缩给超分变率任务带来的各种伪影,而导致压缩和下采样导致的退化问题。除此之外,一些将图像压缩和高级机器视觉任务结合起来的工作也引起了广泛关注。DSSLIC框架[13]把语义分割图、输入图片的粗略表示以及输入图片的残差进行层次编码,得到了良好的压缩重建图像,同时也完成了其他与压缩相关的计算机视觉任务;一个语义结构的图像编码(SSIC)[14]框架用于生成基于语义结构的比特流(SSB),其中比特流的每部分代表一个特定的对象,可以直接完成高级别的视觉任务;此外,一种使图像压缩框架可以支持语义分割的编解码器结构的框架[15]也被提出。到目前为止,如何标准化一种比特流格式,使图像压缩和机器视觉任务可以联合优化成为活跃的且被广泛关注的热点问题之一。
在现有技术中,存在以下缺点:
现有的图像压缩技术是在不影响人类视觉系统感知的情况下对图像数据进行压缩。但随着智能分析任务的飞速发展,大部分的现有图像压缩算法在图像压缩过程中的信息丢失,可能会影响后续的机器视觉任务,比如:语义分割和目标检测等高级任务。本发明要解决的技术问题就是要联合考虑人类视觉系统和机器视觉任务,端到端地进行图像压缩任务和高级机器视觉任务。
目前,图像压缩编码方法是从人类的视觉系统HVS(Human Visual System)角度出发,提高图像的压缩比。然而,近年来视频监控设备在世界各地(特别是我国)广泛布设,为社会安全提供非常有力的技术保障。这些海量的视频数据更多是用于机器的自动分析研判、场景识别和行为检测等。换句话说,越来越多的视频数据不仅要面向人类使用,更要面向机器使用。但当前的压缩编码技术主要是面向人类视觉感知的需求进行设计的,对机器系统而言,并不一定是合适的。
因此,本发明联合考虑人类视觉系统和机器视觉任务,构建深度学习网络,实现兼顾图像压缩和高级机器视觉任务的图像压缩算法,可以达到不影响视觉任务精度的前提下,提高图像压缩性能。
与联合压缩任务与高级机器视觉任务的混合任务相比,本发明不仅利用增强模块,提高了图像压缩性能,而且利用融合模块,增强了语义分割任务的性能。
整个发明提出了一个将图像压缩和语义分割任务结合的统一框架,二者相互增强,既可以提升语义分割任务的性能,又可以提高解压图像的质量。
关键术语定义列表
1、压缩编码:在满足一定保真度的要求下,对图像或视频数据进行变换、量化以及编码等操作,以去除多余数据,从而减少表示图像和视频时所需的数据量,方便存储和传输。
2、语义分割:在图像领域,语义指的是图像的内容,对图片意思的理解,分割则是指从像素的角度分割出图片中的不同对象,语义分割就是让计算机根据图像的语义来进行分割。
发明内容
大多数基于深度学习的图像压缩算法仅仅考虑到了人眼视觉系统,并未考虑到机器视觉系统。而有些基于语义的压缩算法(如EDMS和DSSILC)又无法端到端地进行。本发明既考虑了人眼视觉系统也考虑了机器视觉系统,并且可以进行端到端的训练。此外,本发明的方法还可以兼容除了语义分割任务以外的其他机器视觉任务。
因此,本专利提出了一种面向图像压缩和语义分割任务的端到端的增强网络框架;既使得压缩框架与语义分割框架兼容,又能实现相互增强,具体技术方案如下:
一种协同机器语义任务的深度压缩方法,
所述协同机器语义任务的深度压缩方法基于面向图像压缩和语义分割任务的端到端的增强网络框架;
所述面向图像压缩和语义分割任务的端到端的增强网络框架包括:编码器、量化模块、算术编码模块、算术解码模块、解码器和后处理增强模块;
所述编码器包括:基网络和多尺度融合模块(简称:融合模块);
所述基网络对应压缩分支,所述多尺度融合模块对应语义分割分支;
所述协同机器语义任务的深度压缩方法包括以下步骤:
S1、将输入图像x输入所述基网络,基网络输出压缩特征
Figure BDA0003195565880000041
S2、所述多尺度融合模块融合基网络的输出,输出多尺度语义特征
Figure BDA0003195565880000051
S3、将压缩特征
Figure BDA0003195565880000052
和多尺度语义特征
Figure BDA0003195565880000053
通过通道级的级联获得组合特征z;
S4、将组合特征z依次经过量化模块的量化、算术编码模块的编码和算术解码模块的算术解码,获得隐特征
Figure BDA0003195565880000054
S5、隐特征
Figure BDA0003195565880000055
传送到解码器,先被分成压缩特征
Figure BDA0003195565880000056
和语义特征
Figure BDA0003195565880000057
再对压缩特征
Figure BDA0003195565880000058
和语义特征
Figure BDA0003195565880000059
分别进行解码操作,分别得到解压缩图像
Figure BDA00031955658800000510
和语义分割图像s;
S6、将解压缩图像
Figure BDA00031955658800000511
和语义分割图像s输入后处理增强模块(简称增强模块),得到增强之后的解压缩图像
Figure BDA00031955658800000512
在上述技术方案的基础上,所述基网络采用若干个级联卷积层描述相邻像素之间的相关性;
在卷积层之间加入广义分裂归一化变换;
所述基网络利用广义分裂归一化变换,将像素域特征转移到分裂归一化空间;
第i个卷积层和第i次广义分裂归一化变换构成基网络的第i层,其中,i=1,2,…,n-1;n为基网络的卷积层的总数量;
第i次广义分裂归一化变换称为基网络第i个广义分裂归一化变换层;
所述图像x经过基网络的第i层处理后,输出基网络第i层学习到的特征
Figure BDA00031955658800000513
在第n个卷积层后输出压缩特征
Figure BDA00031955658800000514
在上述技术方案的基础上,所述多尺度融合模块包括:n-1个分层特征融合块、3个下采样块和13个non-bottleneck-1D卷积层;
每个分层特征融合块包括:逆向广义分裂归一化变换层和卷积层;
所述步骤S2的具体步骤如下:
S2.1、特征
Figure BDA0003195565880000061
通过与基网络中广义分裂归一化变换层相对应的逆向广义分裂归一化变换层转换到像素域,获得特征
Figure BDA0003195565880000062
S2.2、通过n-1个分层特征融合块将来自基网络第i层学习到的特征
Figure BDA0003195565880000063
加入到压缩特征
Figure BDA0003195565880000064
中,具体的操作方式如式(1)所示,
Figure BDA0003195565880000065
其中,j=1,2,…,n-1,
Figure BDA0003195565880000066
为在前一个分层特征融合块中被增强的特征,且
Figure BDA0003195565880000067
当i=n-1时,j=1;当i=n-2时,j=2;依此类推,当i=1时,j=n-1;
Figure BDA0003195565880000068
表示:利用第j个分层特征融合块中的卷积层对
Figure BDA0003195565880000069
进行卷积操作;
S2.3、将特征
Figure BDA00031955658800000610
依次经过2个下采样块处理,5个non-bottleneck-1D卷积层处理,1个下采样块处理和8个non-bottleneck-1D卷积层处理,最终得到多尺度语义特征
Figure BDA00031955658800000611
在上述技术方案的基础上,步骤S5的具体步骤如下:
S5.1、压缩特征
Figure BDA00031955658800000612
被送入语义分支的解码器,输出语义分割图像s;
所述语义分支的解码器包括:若干反卷积层,在所述反卷积层之间加入non-bottleneck-1D层;
S5.1、语义特征
Figure BDA00031955658800000613
被送入解压缩分支的解码器,输出语义分割图像s;
所述解压缩分支的解码器包括:若干反卷积层,在所述反卷积层之间加入逆向广义分裂归一化层;在所述逆向广义分裂归一化层进行逆向广义分裂归一化变换;
所述逆向广义分裂归一化变换为:所述基网络中广义分裂归一化变换的逆变换。
在上述技术方案的基础上,所述步骤S4的具体步骤如下:
S4.1、将组合特征z量化为特征
Figure BDA00031955658800000614
S4.2、采用熵编码方法将特征
Figure BDA00031955658800000615
转换为分段比特流;
S4.3、通过熵解码器将分段比特流还原成隐特征
Figure BDA00031955658800000616
在上述技术方案的基础上,将组合特征z作为超先验信息进行同样的量化、算术编码和算术解码操作,以辅助解码,具体步骤如下:
S4.4、组合特征z通过卷积操作编码器获得特征h;
S4.5、特征h经过量化操作得到特征
Figure BDA0003195565880000071
S4.6、特征
Figure BDA0003195565880000072
依次经过算术编码和算术解码操作,得到算术解码结果;
S4.7、将算术解码结果通过卷积操作编码器进行卷积操作;
S4.8、将步骤S4.7获得的卷积操作结果作为方差
Figure BDA0003195565880000073
输入算术编码模块的编码和算术解码模块的算术解码过程中。
在上述技术方案的基础上,当所述面向图像压缩和语义分割任务的端到端的增强网络框架处于训练阶段时,采用基于加性噪声的量化方法,将组合特征z量化为特征
Figure BDA0003195565880000074
当所述面向图像压缩和语义分割任务的端到端的增强网络框架处于测试阶段时,采用直接取整的方法,将组合特征z量化为特征
Figure BDA0003195565880000075
在上述技术方案的基础上,步骤S6的具体步骤如下:
S6.1、首先,将语义分割图像s沿通道维度分别进行最大池化和平均池化操作,然后再进行通道拼接,获得特征ss,如式(2)所示,
ss=[Max(s),Avg(s)] (2)
其中,Max(s)表示:对语义分割图像s进行最大池化操作,Avg(s)表示:对语义分割图像s进行平均池化操作;[Max(s),Avg(s)]表示:对Max(s)和Avg(s)进行通道拼接;
S6.2、接着,将特征ss依次通过卷积层和sigmoid激活函数,得到空间结构特征的权值;
将上述空间结构特征的权值与在语义分割图像s中学习到的语义特征相乘,输出学习到的空间结构特征se,语义分割图像s中学习到的语义特征是由语义分割图像s经过三次卷积运算获得,具体表示为式(3),
se=[W0W1W2(s)]σW3(ss) (3)
其中,W3(ss)表示:对特征ss进行卷积运算,σW3(ss)表示:对W3(ss)进行sigmoid激活函数运算;W2(s)表示:对特征s进行卷积运算;W1W2(s)表示:对W2(s)进行卷积运算;W0W1W2(s)表示:对W1W2(s)进行卷积运算;
S6.3、解压缩图像
Figure BDA0003195565880000081
先通过卷积层映射到特征空间,获得特征空间结果;
S6.4、将特征空间结果通过若干增强块处理,获得高频信息
Figure BDA0003195565880000082
S6.5、将空间结构特征se和高频信息
Figure BDA0003195565880000083
进行通道拼接,以嵌入空间结构信息;
然后,再将通道拼接的结果进行卷积操作;
最后,将卷积操作的结果与解压缩图像
Figure BDA0003195565880000084
相加,得到最终的重建图像
Figure BDA0003195565880000085
在上述技术方案的基础上,步骤S6.4的具体步骤如下:
S6.4.1、将作为第1个增强块的输入,经过若干残差块处理,获得残差块处理结果;
S6.4.2、将第1个增强块的输入与最后一个残差块的处理结果相加,获得第1个增强块处理结果;
S6.4.3、将前一个增强块处理结果作为下一个增强块的输入,直到最后一个增强块输出高频信息
Figure BDA0003195565880000086
步骤S6.4.1的具体步骤如下:
S6.4.1.1、将特征空间结果作为输入;
S6.4.1.2、将输入经过第一个残差块的第一次卷积运算处理;
S6.4.1.3、将第一次卷积运算处理的结果再经过ReLU函数处理;
S6.4.1.4、将ReLU函数处理的结果再经过第一个残差块的第二次卷积运算处理;
S6.4.1.5、将第一次卷积运算处理的结果与第一个残差块的输入相加,输出第一个残差块的处理结果;
S6.4.1.6、将第一个残差块的处理结果作为输入,进入第二个残差块处理;重复步骤S6.4.1.2-S6.4.1.5,获得第二个残差块的处理结果;
S6.4.1.7、后续残差块的处理过程相同,只是将前一残差块的处理结果作为后一残差块的输入。
在上述技术方案的基础上,所述协同机器语义任务的深度压缩方法的损失函数如式(4)所示,
L=λD+R+CE (4)
其中,λ表示权重超参数,D表示重建图像
Figure BDA0003195565880000093
与输入图像x之间的失真,R表示对隐特征
Figure BDA0003195565880000091
进行熵估计的比特率,CE表示语义分割图像S与训练数据集中真实标签图像之间的交叉熵,按照式(5)计算;
Figure BDA0003195565880000092
其中,N是一批样本的个数,k为一批样本中的第k个样本,M是类别数,c为类别,且c=1,2,…,M,skc值为0或1,如果第k个样本的预测类别和真实标签图像中的类别c相同,则skc为1,否则为0;pkc表示:第k个样本属于分类类别c的概率。
本发明具有以下有益技术效果:
1)本发明提出了一种新颖的端到端的相互增强网络,将图像压缩和语义分割任务集成到一个统一的框架。
2)整个框架基于编解码器的结构,在编码器中设计了多尺度融合模块来提高语义分割任务的准确性,在解码器端之后设计了增强模块,用于增强压缩任务的重建图片。
3)从实验结果可以看出,本发明的方法在图像压缩和语义分割任务上实现了相互增强。此外,此框架可以进行拓展,用以支持不仅仅是语义分割的更多机器视觉分析任务。
附图说明
本发明有如下附图:
图1为本发明所述基于面向图像压缩和语义分割任务的端到端的增强网络框架的总框架示意图;
图2为基网络的基本结构示意图;
图3为多尺度融合模块的基本结构示意图;
图4为解码器的基本结构示意图;
图5为增强模块的基本结构示意图;
图6为Kodak数据集在PSNR评价指标下的率失真曲线示意图;
图7为Kodak数据集在MS-SSIM评价指标下的率失真曲线示意图;
图8为可视化Kodak数据集的“kodim21.png”的几种方法的解压图像以及原始图像对比结果示意图。
具体实施方式
以下结合附图对本发明做进一步详细说明,如图1-8所示,
本专利提出一种面向图像压缩和语义分割任务的端到端的增强网络框架,如图1所示,既使得压缩框架与语义分割框架兼容,又能实现相互增强。
对于输入图像x,经过编码器中的基网络,得到输出的压缩特征
Figure BDA0003195565880000101
同时,本发明还设计了多尺度融合模块(简称:融合模块),以融合基网络输出的压缩特征
Figure BDA0003195565880000102
输出多尺度语义特征
Figure BDA0003195565880000103
将压缩特征
Figure BDA0003195565880000104
和多尺度语义特征
Figure BDA0003195565880000105
通过通道级的级联获得组合特征z,组合特征Z依次经过量化后的特征为:
Figure BDA0003195565880000106
特征
Figure BDA0003195565880000107
依次经算术解码和算术编码后,获得隐特征
Figure BDA0003195565880000108
并传输到解码器的输入端。针对以上操作,解释如下:
对于学习到的压缩特征
Figure BDA0003195565880000109
和多尺度语义特征
Figure BDA00031955658800001010
采用一种基于加性噪声的量化方法和熵编码方法[9]将学习到的组合特征Z转换为分段比特流;再通过熵解码器将分段比特流还原成隐特征
Figure BDA00031955658800001011
并发送给解码器。
其中,本发明还将组合特征z作为超先验信息进行同样的量化、算术编码和算术解码操作,以辅助解码。具体操作如图1所示,组合特征Z通过卷积操作编码器获得特征h,特征h经过量化操作得到特征
Figure BDA0003195565880000111
而后,特征
Figure BDA0003195565880000112
经过算术编码和算术解码操作,得到算术解码结果;将算术解码结果通过卷积操作编码器进行卷积操作,再将卷积操作结果作为方差
Figure BDA0003195565880000113
输入获得隐特征
Figure BDA0003195565880000114
的过程中。
需要注意的是,传统方法中的量化操作是将连续的数据转换成离散的数据,从而减少数据量。然而,基于深度学习的方法依赖基于梯度的端到端优化技术,因此量化操作就无法像传统方法中的量化操作一样实施,为此,很多工作也提出一些可以利用在基于深度学习方法中的量化操作。本发明沿用了文献[8]中的方法,在对整个面向图像压缩和语义分割任务的端到端的增强网络框架的训练阶段,添加均匀噪声来近似量化操作,而在测试阶段,则直接取整。
隐特征
Figure BDA0003195565880000115
传送到解码器,会被分成压缩特征
Figure BDA0003195565880000116
和语义特征
Figure BDA0003195565880000117
分别进行解码操作,从而得到解压缩图像
Figure BDA0003195565880000118
和语义分割图像s。最后,将在增强模块中,利用语义分割图像s中的语义信息对解压缩图像
Figure BDA0003195565880000119
进行增强,得到增强之后的解压缩图像
Figure BDA00031955658800001110
简述编码器如下:
本发明的编码器由两部分组成,分别为基网络和多尺度融合模块,分别对应压缩分支和语义分割分支。如图2所示,基网络采用了几个级联卷积层描述相邻像素之间的相关性,这与自然图像的分层统计特性相一致。为了优化图像压缩的特征,本发明利用广义分裂归一化(GDN)变换[8],将像素域特征转移到分裂归一化空间。经过基网络后,最终输出的压缩特征
Figure BDA00031955658800001111
将用于压缩分支的后续工作。
第i个卷积层和第i次广义分裂归一化变换构成基网络的第i层,其中,i=1,2,…,n-1;n为基网络的卷积层的总数量;在图2中采用了4个卷积层和3次广义分裂归一化变换。第i次广义分裂归一化变换称为基网络第i个广义分裂归一化变换层;所述图像x经过基网络的第i层处理后,输出基网络第i层学习到的特征
Figure BDA00031955658800001112
在第n个卷积层后输出压缩特征
Figure BDA00031955658800001113
每一层卷积操作都是一个下采样过程,四个卷积层就将原始输入下采样了16倍;这样做的目的就是为了能够更好地学习到更多细节信息。
另一部分用于学习和增强语义特征,称为多尺度融合模块(如图3所示)。为了节省传输和存储空间,在本框架中,将包括语义特征在内的所有学习到的特征都会进行量化。因此,多尺度融合模块有一个关键任务就是减少量化操作带来的影响。本发明中尝试探索利用丰富的特征来增强语义表示,更准确地说,是利用基网络不同层的层次特征来学习高级语义特征。例如,通过n-1个分层特征融合块(即图3中的HFFB)将来自基网络第i层学习到的特征
Figure BDA0003195565880000121
加入到压缩特征
Figure BDA0003195565880000122
中,具体的操作方式如下面的公式(1)所示,
Figure BDA0003195565880000123
其中,j=1,2,…,n-1,
Figure BDA0003195565880000124
为基网络第i层学习到的特征,
Figure BDA0003195565880000125
为在前一个分层特征融合块中被增强的特征,且
Figure BDA0003195565880000126
当i=n-1时,j=1;当i=n-2时,j=2;依此类推,当i=1时,j=n-1。
Wj为第j个分层特征融合模块当前层的可学习参数,即
Figure BDA0003195565880000127
表示:利用第j个分层特征融合块中的卷积层对
Figure BDA0003195565880000128
进行卷积操作。
关于
Figure BDA0003195565880000129
的解释如下:
在分层特征融合块中,特征
Figure BDA00031955658800001210
首先通过与基网络中GDN(广义分裂归一化)层相对应的IGDN(逆向广义分裂归一化变换)层转换到像素域,获得特征
Figure BDA00031955658800001211
然后添加到先前融合的特征
Figure BDA00031955658800001212
中,每个分层特征融合块对应于基网络中不同层的层次特征。该操作的目的是通过增加特征的权重,以减少加性噪声的影响。
为了进一步改善语义信息的表示,采用了特殊的卷积层non-bottleneck-1D[16](简写为:Non-bt-1D,在图3中采用了11个Non-bt-1D),其被集成到多尺度融合模块中,将特征
Figure BDA00031955658800001311
进行拉伸,并转换为一维表示,更有利于后续像素级的语义分类,从而提高语义分割任务的性能。多尺度融合模块中还包括3个下采样块(即图3中的Downsampler Block),目的是学习更细节的信息。最后,可以得到多尺度语义特征
Figure BDA0003195565880000131
简述解码器如下:
如图4所示,在解码器端,首先将接收到的隐特征
Figure BDA0003195565880000132
分为语义特征
Figure BDA0003195565880000133
和压缩特征
Figure BDA0003195565880000134
两个部分, 分别送入不同的解码分支。为了获取语义分割图像,将多个反卷积层和non-bottleneck-1D层(在图4中采用了4个non-bottleneck-1D层)作为语义分支的解码器重建
Figure BDA0003195565880000135
non-bottleneck-1D层可以从特征中收集更多的信息,反卷积层则可以对特征进行上采样,用以匹配输入图像的分辨率。
而对于图像的解压缩过程,解码器是由几个反卷积层(图中在卷积式后面有↑,代表上采样操作)和逆向广义分裂归一化变换(IGDN)层组成,相当于对
Figure BDA0003195565880000136
进行与编码器中基网络对应的逆运算,重构出解压缩图像
Figure BDA0003195565880000137
为了同时满足人眼视觉特性和机器视觉任务的需求,本发明的图像压缩算法(即协同机器语义任务的深度压缩方法)的损失函数可以写成如式(4)所示,
L=λD+R+CE (4)
其中,λ表示权重超参数,D表示重建图像
Figure BDA0003195565880000138
与输入图像x之间的失真,R表示对隐特征
Figure BDA0003195565880000139
进行熵估计的比特率,CE表示语义分割图像S与训练数据集中真实标签图像之间的交叉熵。
一般来说,按照式(5)计算,
Figure BDA00031955658800001310
其中,N是一批样本的个数,k为一批样本中的第k个样本,M是类别数,c为类别,且c=1,2,…,M,skc值为0或1,如果第k个样本的预测类别和真实标签图像中的类别c相同,则skc为1,否则为0;pkc表示:第k个样本属于分类类别c的概率。
在语义分割任务中,将一张图片中的对象分成各种类别,例如:在一张交通图片中,人为一个类别、车为一个类别等等。
简述增强模块如下:
受语义分割任务可以识别出每个像素的类别的启发[16],本发明利用语义信息对解压之后的图像进行增强。用类别信息标记每个像素的语义分割图像s来提供更清晰准确的空间结构信息,以供人类理解或机器进行智能分析。
如图5所示,本发明设计了一个后处理增强模块(简称增强模块),用以改进解压缩图像
Figure BDA0003195565880000141
的细节,用得到的语义分割图像s中的语义结构信息增强图像的重建。
首先,对语义分割图像s通过空间注意力模块处理,获得空间结构特征的权值,具体步骤是:
S6.1、首先,将语义分割图像s沿通道维度分别进行最大池化和平均池化操作,然后再进行通道拼接,获得特征ss,其公式如式(2)所示,
ss=[Max(s),Avg(s)] (2)
其中,[·,·]表示通道的连接操作(即通道拼接)。
接着,将特征ss依次通过卷积层和sigmoid激活函数,得到空间结构特征的权值。
将上述空间结构特征的权值与在语义分割图像s中学习到的语义特征相乘,输出学习到的空间结构特征se。这个过程可以表示为式(3),
se=[W0W1W2(s)]σW3(ss) (3)
其中,W0、W1、W2、W3表示卷积运算,σ表示sigmoid激活函数。
将学习到的空间结构信息(即空间结构特征se)嵌入到解压缩图像
Figure BDA0003195565880000151
中,具体操作见如下所述:
解压缩图像
Figure BDA0003195565880000152
先通过卷积层映射到特征空间,获得特征空间结果;然后,再通过3个增强块处理,获得高频信息
Figure BDA0003195565880000153
通过每个增强块处理的具体步骤如下:
首先,将特征空间结果作为第1个增强块的输入,经过若干残差块处理,获得残差块处理结果;
然后,将第1个增强块的输入与最后一个残差块的处理结果相加,获得第1个增强块处理结果;
最后,将前一个增强块处理结果作为下一个增强块的输入,直到最后一个增强块输出高频信息
Figure BDA0003195565880000154
若干残差块处理的具体步骤如下:
S6.4.1.1、将特征空间结果作为输入;
S6.4.1.2、将输入经过第一个残差块的第一次卷积运算处理;
S6.4.1.3、将第一次卷积运算处理的结果再经过ReLU函数处理;
S6.4.1.4、将ReLU函数处理的结果再经过第一个残差块的第二次卷积运算处理;
S6.4.1.5、将第一次卷积运算处理的结果与第一个残差块的输入相加,输出第一个残差块的处理结果;
S6.4.1.6、将第一个残差块的处理结果作为输入,进入第二个残差块处理;重复步骤S6.4.1.2-S6.4.1.5,获得第二个残差块的处理结果;
S6.4.1.7、后续残差块的处理过程相同,只是将前一残差块的处理结果作为后一残差块的输入。
所述残差块起到频率滤波器的作用,获取高频信息
Figure BDA0003195565880000155
将空间结构特征se和高频信息
Figure BDA0003195565880000156
进行通道拼接,以嵌入空间结构信息;
然后,为了变换通道以适应输出,再将通道拼接的结果进行卷积操作;
最后,将卷积操作的结果与解压缩图像
Figure BDA0003195565880000161
相加,得到最终的重建图像
Figure BDA0003195565880000162
为了验证本发明所述基于面向图像压缩和语义分割任务的端到端的增强网络框架(简称框架)的有效性,本发明进行了一系列实验,以进行评估方法的有效性。
在本发明中,使用具有19个语义标签的2974张图像的Cityscapes训练集作为整个框架的训练集,统一调整图像的分辨率为512×1024。本发明利用Kodak图像数据集[17]中的24张分辨率为512×768的图像作为测试数据集,评估图像压缩性能,利用1024×2048大小的Cityscapes验证集和测试集,评估语义分割任务的性能。
本发明使用不同的λ值(256、512、1024、2048、4096、6144、8192)控制量化步长,实现端到端的训练方式。实验还使用了Adam优化器,并在前200000次迭代中,固定学习率为0.0001,在后100000次迭代中,将学习率下降到0.00001,GPU采用NVIDIA RTX 3090。
为了客观地评价所提方法的压缩性能,本发明与将计算机视觉任务与压缩结合的工作EDMS[13]、DSSILC[15]进行了比较,利用多尺度结构相似度(MS-SSIM)和峰值信噪比(PSNR)作为评价指标。
图像压缩的实验结果简述如下:
为了验证本发明的压缩性能,选用了几种常用的图像压缩算法JPEG[18]、JPEG2000[19]、BPG[20]、END2END[8]、HYPERPRIOR[9]以及两种基于语义的压缩方法EDMS[13]、DSSILC[15]与本发明的方法OURS进行了比较。在Kodak数据集上,不同比特率下的PSNR和MS-SSMI的率失真曲线示意分别如图6和图7所示,Bpp表示每个像素的平均比特率。
如图6所示,本发明的方法优于传统的图像压缩方法JPEG[18]、JPEG2000[19]以及经典的基于深度学习的端到端图像压缩方法END2END[8]、HYPERPRIOR[9]。此外,与BPG[20]方法相比,本发明的方法在低比特率下的性能与其相当,在高比特率下则明显优于BPG。同时,本发明与基于语义信息的图像压缩方法EDMS[13]和DSSILC[15]对比可知,其PSNR值明显优于EDMS和DSSILC方法。如图7所示,本发明的多尺度结构相似度(MS-SSIM)优于所有对比方法。值得一提的是,本发明的MS-SSIM结果与BPG相比,改进优势非常明显。综合图6和图7可知,基于深度学习的图像压缩方法的MS-SSIM评价指标优于传统方法。
本发明的压缩分支与HYPERPRIOR方法具有相似的结构,当这个结构集成到本发明的框架中时,综合图6和图7来看,本发明的性能是优于HYPERPRIOR方法的。这个结果表明,本发明中的增强模块通过提取语义分割图中的语义信息,可以有效地改进解压缩图像的质量。
在Kodak数据集上,本发明与JPEG、JPEG2000、BPG、END2END以及HYPERPRIOR方法的解压图像对比结果如图8所示,其中,图像底部括号中的数字表示:Bpp/PSNR/MS-SSIM。在比特率相似的情况下,JPEG和JPEG2000方法得到的解压图像中的海浪是模糊的,且其中的岩石出现较多的噪声和伪影现象。BPG、END2END和HYPERPRIOR方法则略好于JPEG和JPEG2000,但仍有纹理不清晰的问题。而利用本发明的方法重建的解压图像中的纹理信息清晰、颜色与原始图像接近。
简述语义分割的实验结果如下:
本发明的语义分割分支可以兼容许多性能良好的语义分割网络。本发明采用经典的语义分割网络ERFNet[16]。在Cityscapes验证集上,构建了四个模型对比19个类别的分割结果性能,如表1所示,称为:消融实验表,表中数字的单位为%。这四种结构分别为:baseline结构为ERFNet的原始体系结构;B+Q、B+A和B+Q+A三种结构分别表示:在baseline的基础上分别只加入量化操作、融合模块和既加入量化操作又加入融合模块的结构。
由表1可知,由于量化操作,B+Q结构比baseline结构获得的类平均IoU(即Cla-IoU)下降了将近1%。加入聚合模块的B+Q+A结构比B+Q结构的精度提高了1.3%,甚至优于baseline结构所获得的精度。对比B+A结构与baseline结构可知,B+A模型的精度比baseline提高了0.4%。这些实验结果表明,本发明设计的多尺度聚合模块(即多尺度融合模块)是有效的,可以利用基网络中的多尺度特征信息增强语义信息。
表1消融实验表
Figure BDA0003195565880000181
表2显示的是本发明的语义分割分支与其他几种语义分割方法在精度上的比较。这些结果是从Cityscapes数据集测试服务器中得到的。加入融合模块的结构(B+A)实现了70.8%的类平均IoU(Cla-IoU)和88.1%平均类别IoU(Cat-IoU)。B+Q+A模型的Cla-IoU和Cat-IoU的值则分别为70.5%和88.0%。对于B+Q+A结构,Cla-IoU与LRR-4x[21]、Deeplabv2-CRF[22]、Dilation10[23]和DPN[24]相比,分别提高了0.8%、0.1%、3.4%、3.7%,并且Cat-IoU与RefineNet[25]、Adelaide-cntxt[26]、Deeplabv2-CRF[22]、Dilation10[23]和DPN[24]相比,提高了0.1%、0.7%、1.6%、1.5%、2%。可以看出,本发明中的融合模块(即多尺度融合模块)可以提高语义分割分支的竞争力。
表2在Cityscapes数据集测试上不同方法的对比结果表
Figure BDA0003195565880000182
本发明的关键点和欲保护点如下:
1)本发明提出一个统一的端到端的互增强网络框架(即基于面向图像压缩和语义分割任务的端到端的增强网络框架),它集成了图像压缩和语义分割任务;
2)本发明设计了一个融合模块来减少量化操作对精度的影响;
3)本发明中还构造了一个后处理增强模块,通过利用解压缩之后的语义分割图中的语义信息提高解压缩图像的质量。
参考文献(如专利/论文/标准)如下所列:
[1]Liu,D.,Li,Y.,Lin,J.,Li,H.,Wu,F.:Deep learning-based video coding:Areviewand a case study.ACM Computing Surveys(CSUR)53(1),1–35(2020)
[2]Lin,W.,He,X.,Han,X.,Liu,D.,See,J.,Zou,J.,Xiong,H.,Wu,F.:Partition-aware adaptive switching neural networks for post-processing inHEVC.IEEETransactions on Multimedia 22(11),2749–2763(2019)
[3]Cui,W.,Zhang,T.,Zhang,S.,Jiang,F.,Zuo,W.,Wan,Z.,Zhao,D.:Convolutional
neural networks based intra prediction for HEVC.In:2017DataCompressionConference(DCC).pp.436–436.IEEE Computer Society(2017)
[4]Mao,J.,Yu,L.:Convolutional neural network based bi-predictionutilizing spatial
and temporal information in video coding.IEEE Transactions onCircuits andSystems for Video Technology 30(7),1856–1870(2019)
[5]Song,R.,Liu,D.,Li,H.,Wu,F.:Neural network-based arithmetic codingof intraprediction modes in HEVC.In:Visual Communications and ImageProcessing(VCIP).pp.1–4.IEEE(2017)
[6]Liu,D.,Ma,H.,Xiong,Z.,Wu,F.:CNN-based DCT-like transform forimagecompression.In:International Conference on Multimedia Modeling.pp.61–72.Springer(2018)
[7]Alam,M.M.,Nguyen,T.D.,Hagan,M.T.,Chandler,D.M.:A perceptualquantization strategy for hevc based on a convolutional neural networktrained on naturalimages.In:Applications of Digital ImageProcessing.vol.9599,p.959918.International Society for Optics and Photonics(2015)
[8]Ball′e,J.,Laparra,V.,Simoncelli,E.P.:End-to-end optimized imagecompression.In:5th International Conference on Learning Representations,ICLR2017(2017)
[9]Ball′e,J.,Minnen,D.,Singh,S.,Hwang,S.J.,Johnston,N.:Variationalimagecompression with a scale hyperprior(2018)
[10]Lee,J.,Cho,S.,Beack,S.K.:Context-adaptive entropy model for end-to-end optimizedimage compression.In:International Conference on LearningRepresentations(2018)
[11]Hou,D.,Zhao,Y.,Ye,Y.,Yang,J.,Zhang,J.,Wang,R.:Super-resolvingcompressedvideo in coding chain.arXiv preprint arXiv:2103.14247(2021)
[12]Ho,M.M.,Zhou,J.,He,G.:RR-DnCNN v2.0:Enhanced restorationreconstruction deep neural network for down-sampling-based videocoding.IEEETransactions on ImageProcessing 30,1702–1715(2021)
[13]Akbari,M.,Liang,J.,Han,J.:DSSLIC:deep semantic segmentation-basedlayeredimage compression.In:IEEE International Conference on Acoustics,SpeechandSignal Processing.pp.2042–2046.IEEE(2019)
[14]Sun,S.,He,T.,Chen,Z.:Semantic structured image coding frameworkfor multiple intelligent applications.IEEE Transactions on Circuits andSystems for VideoTechnology(2020)
[15]Hoang,T.M.,Zhou,J.,Fan,Y.:Image compression with encoder-decodermatchedsemantic segmentation.In:Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition Workshops.pp.160–161(2020)
[16]Romera,E.,Alvarez,J.M.,Bergasa,L.M.,Arroyo,R.:ERFNet:Efficientresidual factorized convnet for real-time semantic segmentation.IEEETransactions onIntelligent Transportation Systems 19(1),263–272(2017)
[17]Kodak,E.:Kodak lossless true color image suite(PhotoCD PCD0992).URLhttp://r0k.us/graphics/kodak 6(1993)
[18]Wallace,Gregory,K.:The JPEG still picture compressionstandard.IEEE Transactionson Consumer Electronics 38(1),xviii–xxxiv(1992)
[19]Skodras,A.,Christopoulos,C.,Ebrahimi,T.:The JPEG 2000still imagecompressionstandard.IEEE Signal Processing Magazine 18(5),36–58(2001)
[20]Bellard,F.:Better portable graphics.https://www.bellard.org/bpg(2014)
[21]Ghiasi,G.,Fowlkes,C.C.:Laplacian reconstruction and refinementfor semanticsegmentation.arXiv preprint arXiv:1605.022644(4)(2016)
[22]Chen,L.C.,Papandreou,G.,Kokkinos,I.,Murphy,K.,Yuille,A.L.:Deeplab:Semantic image segmentation with deep convolutional nets,atrousconvolution,andfully connected CRFs.IEEE Transactions on Pattern Analysis andMachine Intelligence 40(4),834–848(2017)
[23]Yu,F.,Koltun,V.:Multi-scale context aggregation by dilatedconvolutions.arXivpreprint arXiv:1511.07122(2015)
[24]Kreˇso,I.,ˇCauˇsevi′c,D.,Krapac,J.,ˇSegvi′c,S.:Convolutionalscale invariance forsemantic segmentation.In:German Conference on PatternRecognition.pp.64–75.Springer(2016)
[25]Lin,G.,Milan,A.,Shen,C.,Reid,I.:RefineNet:Multi-path refinementnetworkswith identity mappings for high-resolution semanticsegmentation.arXiv preprintarXiv:1611.06612
[26]Lin,G.,Shen,C.,Van Den Hengel,A.,Reid,I.:Efficient piecewisetraining ofdeep structured models for semantic segmentation.In:Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.pp.3194–3203(2016)
上述实施例对本发明的技术方案进行了详细说明。显然,本发明并不局限于所描述的实施例。基于本发明中的实施例,熟悉本技术领域的人员还可据此做出多种变化,但任何与本发明等同或相类似的变化都属于本发明保护的范围。
本说明书中未做详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种协同机器语义任务的深度压缩方法,其特征在于:所述协同机器语义任务的深度压缩方法基于面向图像压缩和语义分割任务的端到端的增强网络框架;
所述面向图像压缩和语义分割任务的端到端的增强网络框架包括:编码器、量化模块、算术编码模块、算术解码模块、解码器和后处理增强模块;
所述编码器包括:基网络和多尺度融合模块;
所述基网络对应压缩分支,所述多尺度融合模块对应语义分割分支;
所述协同机器语义任务的深度压缩方法包括以下步骤:
S1、将输入图像x输入所述基网络,基网络输出压缩特征
Figure FDA0003195565870000011
S2、所述多尺度融合模块融合基网络的输出,输出多尺度语义特征
Figure FDA0003195565870000012
S3、将压缩特征
Figure FDA0003195565870000013
和多尺度语义特征
Figure FDA0003195565870000014
通过通道级的级联获得组合特征z;
S4、将组合特征z依次经过量化模块的量化、算术编码模块的编码和算术解码模块的算术解码,获得隐特征
Figure FDA0003195565870000015
S5、隐特征
Figure FDA0003195565870000016
传送到解码器,先被分成压缩特征
Figure FDA0003195565870000017
和语义特征
Figure FDA0003195565870000018
再对压缩特征
Figure FDA0003195565870000019
和语义特征
Figure FDA00031955658700000110
分别进行解码操作,分别得到解压缩图像
Figure FDA00031955658700000111
和语义分割图像s;
S6、将解压缩图像
Figure FDA00031955658700000112
和语义分割图像s输入后处理增强模块,得到增强之后的解压缩图像
Figure FDA00031955658700000113
2.如权利要求1所述的协同机器语义任务的深度压缩方法,其特征在于:所述基网络采用若干个级联卷积层描述相邻像素之间的相关性;
在卷积层之间加入广义分裂归一化变换;
所述基网络利用广义分裂归一化变换,将像素域特征转移到分裂归一化空间;
第i个卷积层和第i次广义分裂归一化变换构成基网络的第i层,
其中,i=1,2,...,n-1;n为基网络的卷积层的总数量;
第i次广义分裂归一化变换称为基网络第i个广义分裂归一化变换层;
所述图像x经过基网络的第i层处理后,输出基网络第i层学习到的特征
Figure FDA0003195565870000021
在第n个卷积层后输出压缩特征
Figure FDA0003195565870000022
3.如权利要求2所述的协同机器语义任务的深度压缩方法,其特征在于:所述多尺度融合模块包括:n-1个分层特征融合块、3个下采样块和13个non-bottleneck-1D卷积层;
每个分层特征融合块包括:逆向广义分裂归一化变换层和卷积层;
所述步骤S2的具体步骤如下:
S2.1、特征
Figure FDA0003195565870000023
通过与基网络中广义分裂归一化变换层相对应的逆向广义分裂归一化变换层转换到像素域,获得特征
Figure FDA0003195565870000024
S2.2、通过n-1个分层特征融合块将来自基网络第i层学习到的特征
Figure FDA0003195565870000025
加入到压缩特征
Figure FDA0003195565870000026
中,具体的操作方式如式(1)所示,
Figure FDA0003195565870000027
其中,j=1,2,...,n-1,
Figure FDA0003195565870000028
为在前一个分层特征融合块中被增强的特征,且
Figure FDA0003195565870000029
当i=n-1时,j=1;当i=n-2时,j=2;依此类推,当i=1时,j=n--1;
Figure FDA00031955658700000210
表示:利用第j个分层特征融合块中的卷积层对
Figure FDA00031955658700000211
进行卷积操作;
S2.3、将特征
Figure FDA00031955658700000212
依次经过2个下采样块处理,5个non-bottleneck-1D卷积层处理,1个下采样块处理和8个non-bottleneck-1D卷积层处理,最终得到多尺度语义特征
Figure FDA00031955658700000213
4.如权利要求2所述的协同机器语义任务的深度压缩方法,其特征在于:步骤S5的具体步骤如下:
S5.1、压缩特征
Figure FDA0003195565870000038
被送入语义分支的解码器,输出语义分割图像s;
所述语义分支的解码器包括:若干反卷积层,在所述反卷积层之间加入non-bottleneck-1D层;
S5.1、语义特征
Figure FDA0003195565870000031
被送入解压缩分支的解码器,输出语义分割图像s;
所述解压缩分支的解码器包括:若干反卷积层,在所述反卷积层之间加入逆向广义分裂归一化层;在所述逆向广义分裂归一化层进行逆向广义分裂归一化变换;
所述逆向广义分裂归一化变换为:所述基网络中广义分裂归一化变换的逆变换。
5.如权利要求1所述的协同机器语义任务的深度压缩方法,其特征在于:所述步骤S4的具体步骤如下:
S4.1、将组合特征z量化为特征
Figure FDA0003195565870000032
S4.2、采用熵编码方法将特征
Figure FDA0003195565870000033
转换为分段比特流;
S4.3、通过熵解码器将分段比特流还原成隐特征
Figure FDA0003195565870000034
6.如权利要求1所述的协同机器语义任务的深度压缩方法,其特征在于:将组合特征z作为超先验信息进行同样的量化、算术编码和算术解码操作,以辅助解码,具体步骤如下:
S4.4、组合特征z通过卷积操作编码器获得特征h;
S4.5、特征h经过量化操作得到特征
Figure FDA0003195565870000035
S4.6、特征
Figure FDA0003195565870000036
依次经过算术编码和算术解码操作,得到算术解码结果;
S4.7、将算术解码结果通过卷积操作编码器进行卷积操作;
S4.8、将步骤S4.7获得的卷积操作结果作为方差
Figure FDA0003195565870000037
输入算术编码模块的编码和算术解码模块的算术解码过程中。
7.如权利要求1所述的协同机器语义任务的深度压缩方法,其特征在于:当所述面向图像压缩和语义分割任务的端到端的增强网络框架处于训练阶段时,采用基于加性噪声的量化方法,将组合特征z量化为特征
Figure FDA0003195565870000041
当所述面向图像压缩和语义分割任务的端到端的增强网络框架处于测试阶段时,采用直接取整的方法,将组合特征z量化为特征
Figure FDA0003195565870000042
8.如权利要求1所述的协同机器语义任务的深度压缩方法,其特征在于:步骤S6的具体步骤如下:
S6.1、首先,将语义分割图像s沿通道维度分别进行最大池化和平均池化操作,然后再进行通道拼接,获得特征ss,如式(2)所示,
ss=[Max(s),Avg(s)] (2)
其中,Max(s)表示:对语义分割图像s进行最大池化操作,Avg(s)表示:对语义分割图像s进行平均池化操作;[Max(s),Avg(s)]表示:对Max(s)和Avg(s)进行通道拼接;
S6.2、接着,将特征ss依次通过卷积层和sigmoid激活函数,得到空间结构特征的权值;
将上述空间结构特征的权值与在语义分割图像s中学习到的语义特征相乘,输出学习到的空间结构特征se,语义分割图像s中学习到的语义特征是由语义分割图像s经过三次卷积运算获得,具体表示为式(3),
Se=[W0W1W2(s)]σW3(ss) (3)
其中,W3(ss)表示:对特征ss进行卷积运算,σW3(ss)表示:对W3(ss)进行sigmoid激活函数运算;W2(s)表示:对特征s进行卷积运算;W1W2(s)表示:对W2(s)进行卷积运算;W0W1W2(s)表示:对W1W2(s)进行卷积运算;
S6.3、解压缩图像
Figure FDA0003195565870000043
先通过卷积层映射到特征空间,获得特征空间结果;
S6.4、将特征空间结果通过若干增强块处理,获得高频信息
Figure FDA0003195565870000044
S6.5、将空间结构特征se和高频信息
Figure FDA0003195565870000045
进行通道拼接,以嵌入空间结构信息;
然后,再将通道拼接的结果进行卷积操作;
最后,将卷积操作的结果与解压缩图像
Figure FDA0003195565870000051
相加,得到最终的重建图像
Figure FDA0003195565870000052
9.如权利要求8所述的协同机器语义任务的深度压缩方法,其特征在于:步骤S6.4的具体步骤如下:
S6.4.1、将特征空间结果作为第1个增强块的输入,经过若干残差块处理,获得残差块处理结果;
S6.4.2、将第1个增强块的输入与最后一个残差块的处理结果相加,获得第1个增强块处理结果;
S6.4.3、将前一个增强块处理结果作为下一个增强块的输入,直到最后一个增强块输出高频信息
Figure FDA0003195565870000053
步骤S6.4.1的具体步骤如下:
S6.4.1.1、将特征空间结果作为输入;
S6.4.1.2、将输入经过第一个残差块的第一次卷积运算处理;
S6.4.1.3、将第一次卷积运算处理的结果再经过ReLU函数处理;
S6.4.1.4、将ReLU函数处理的结果再经过第一个残差块的第二次卷积运算处理;
S6.4.1.5、将第一次卷积运算处理的结果与第一个残差块的输入相加,输出第一个残差块的处理结果;
S6.4.1.6、将第一个残差块的处理结果作为输入,进入第二个残差块处理;重复步骤S6.4.1.2-S6.4.1.5,获得第二个残差块的处理结果;
S6.4.1.7、后续残差块的处理过程相同,只是将前一残差块的处理结果作为后一残差块的输入。
10.如权利要求1所述的协同机器语义任务的深度压缩方法,其特征在于:所述协同机器语义任务的深度压缩方法的损失函数如式(4)所示,
L=λD+R+CE (4)
其中,λ表示权重超参数,D表示重建图像
Figure FDA0003195565870000054
与输入图像x之间的失真,R表示对隐特征
Figure FDA0003195565870000055
进行熵估计的比特率,CE表示语义分割图像S与训练数据集中真实标签图像之间的交叉熵,按照式(5)计算;
Figure FDA0003195565870000061
其中,N是一批样本的个数,k为一批样本中的第k个样本,M是类别数,c为类别,且c=1,2,...,M,skc值为0或1,如果第k个样本的预测类别和真实标签图像中的类别c相同,则skc为1,否则为0;pkc表示:第k个样本属于分类类别c的概率。
CN202110890068.1A 2021-08-04 2021-08-04 一种协同机器语义任务的深度压缩方法 Active CN113822147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110890068.1A CN113822147B (zh) 2021-08-04 2021-08-04 一种协同机器语义任务的深度压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110890068.1A CN113822147B (zh) 2021-08-04 2021-08-04 一种协同机器语义任务的深度压缩方法

Publications (2)

Publication Number Publication Date
CN113822147A true CN113822147A (zh) 2021-12-21
CN113822147B CN113822147B (zh) 2023-12-15

Family

ID=78912840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110890068.1A Active CN113822147B (zh) 2021-08-04 2021-08-04 一种协同机器语义任务的深度压缩方法

Country Status (1)

Country Link
CN (1) CN113822147B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093377A (zh) * 2022-01-18 2022-02-25 成都时识科技有限公司 分裂归一化方法、装置、音频特征提取器、芯片
CN114386595A (zh) * 2021-12-24 2022-04-22 西南交通大学 一种基于超先验架构的sar图像压缩方法
CN115052147A (zh) * 2022-04-26 2022-09-13 中国传媒大学 基于生成模型的人体视频压缩方法、系统
CN116527903A (zh) * 2023-06-30 2023-08-01 鹏城实验室 图像浅压缩方法及解码方法
CN116761030A (zh) * 2023-08-11 2023-09-15 南京汉卫教育科技有限公司 一种基于图像识别算法的多机位同步音影录播系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109246436A (zh) * 2013-04-05 2019-01-18 佳能株式会社 对图像进行编码或解码的方法和装置以及存储介质
CN110827312A (zh) * 2019-11-12 2020-02-21 北京深境智能科技有限公司 一种基于协同视觉注意力神经网络的学习方法
CN111147862A (zh) * 2020-01-03 2020-05-12 南京大学 一种基于目标编码的端到端图像压缩方法
WO2020215236A1 (zh) * 2019-04-24 2020-10-29 哈尔滨工业大学(深圳) 图像语义分割方法和系统
CN112507800A (zh) * 2020-11-14 2021-03-16 北京工业大学 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN112862828A (zh) * 2019-11-26 2021-05-28 华为技术有限公司 一种语义分割方法、模型训练方法及装置
CN113011336A (zh) * 2021-03-19 2021-06-22 厦门大学 一种基于深度多分支聚合的实时街景图像语义分割方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109246436A (zh) * 2013-04-05 2019-01-18 佳能株式会社 对图像进行编码或解码的方法和装置以及存储介质
WO2020215236A1 (zh) * 2019-04-24 2020-10-29 哈尔滨工业大学(深圳) 图像语义分割方法和系统
CN110827312A (zh) * 2019-11-12 2020-02-21 北京深境智能科技有限公司 一种基于协同视觉注意力神经网络的学习方法
CN112862828A (zh) * 2019-11-26 2021-05-28 华为技术有限公司 一种语义分割方法、模型训练方法及装置
CN111147862A (zh) * 2020-01-03 2020-05-12 南京大学 一种基于目标编码的端到端图像压缩方法
CN112507800A (zh) * 2020-11-14 2021-03-16 北京工业大学 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN113011336A (zh) * 2021-03-19 2021-06-22 厦门大学 一种基于深度多分支聚合的实时街景图像语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIHUI LUO 等: "DeepSIC: Deep Semantic Image Compression", SPRINGERLINK *
何天宇 等: "端到端的图像视频压缩研究", 中国优秀硕士论文全文数据库 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386595A (zh) * 2021-12-24 2022-04-22 西南交通大学 一种基于超先验架构的sar图像压缩方法
CN114386595B (zh) * 2021-12-24 2023-07-28 西南交通大学 一种基于超先验架构的sar图像压缩方法
CN114093377A (zh) * 2022-01-18 2022-02-25 成都时识科技有限公司 分裂归一化方法、装置、音频特征提取器、芯片
CN114093377B (zh) * 2022-01-18 2022-05-03 成都时识科技有限公司 分裂归一化方法、装置、音频特征提取器、芯片
CN115052147A (zh) * 2022-04-26 2022-09-13 中国传媒大学 基于生成模型的人体视频压缩方法、系统
CN116527903A (zh) * 2023-06-30 2023-08-01 鹏城实验室 图像浅压缩方法及解码方法
CN116527903B (zh) * 2023-06-30 2023-09-12 鹏城实验室 图像浅压缩方法及解码方法
CN116761030A (zh) * 2023-08-11 2023-09-15 南京汉卫教育科技有限公司 一种基于图像识别算法的多机位同步音影录播系统
CN116761030B (zh) * 2023-08-11 2023-10-27 南京汉卫教育科技有限公司 一种基于图像识别算法的多机位同步音影录播系统

Also Published As

Publication number Publication date
CN113822147B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN113822147B (zh) 一种协同机器语义任务的深度压缩方法
Cheng et al. Energy compaction-based image compression using convolutional autoencoder
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
Wu et al. Learned block-based hybrid image compression
CN109978772A (zh) 基于深度学习与双域互补的压缩图像复原方法
CN115345785A (zh) 一种基于多尺度时空特征融合的暗光视频增强方法及系统
CN114449276B (zh) 一种基于学习的超先验边信息补偿图像压缩方法
He et al. Beyond coding: Detection-driven image compression with semantically structured bit-stream
Fu et al. An extended hybrid image compression based on soft-to-hard quantification
Ranjbar Alvar et al. Joint image compression and denoising via latent-space scalability
Li et al. 3D tensor auto-encoder with application to video compression
Wang et al. End-to-end video compression for surveillance and conference videos
Sun et al. Hlic: Harmonizing optimization metrics in learned image compression by reinforcement learning
Gao et al. Volumetric end-to-end optimized compression for brain images
Shen et al. Dec-adapter: Exploring efficient decoder-side adapter for bridging screen content and natural image compression
CN113822954A (zh) 一种面向资源约束下人机协同场景的深度学习图像编码方法
CN117915107B (zh) 图像压缩系统、图像压缩方法、存储介质与芯片
Wang et al. A survey of image compression algorithms based on deep learning
CN116437102B (zh) 可学习通用视频编码方法、系统、设备及存储介质
Bao et al. Image Compression Based on Hybrid Domain Attention and Postprocessing Enhancement
CN117676149B (zh) 一种基于频域分解的图像压缩方法
CN116437089B (zh) 一种基于关键目标的深度视频压缩方法
CN117459737B (zh) 一种图像预处理网络的训练方法和图像预处理方法
Liu et al. Region-Adaptive Transform with Segmentation Prior for Image Compression
Zhang ENHANCING UAV IMAGE COMPRESSION WITH DEEP LEARNING-BASED REGION OF INTEREST EXTRACTION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant