CN113822147A - 一种协同机器语义任务的深度压缩方法 - Google Patents
一种协同机器语义任务的深度压缩方法 Download PDFInfo
- Publication number
- CN113822147A CN113822147A CN202110890068.1A CN202110890068A CN113822147A CN 113822147 A CN113822147 A CN 113822147A CN 202110890068 A CN202110890068 A CN 202110890068A CN 113822147 A CN113822147 A CN 113822147A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- compression
- feature
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007906 compression Methods 0.000 title claims abstract description 126
- 230000006835 compression Effects 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000011218 segmentation Effects 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 58
- 230000004927 fusion Effects 0.000 claims abstract description 41
- 238000012805 post-processing Methods 0.000 claims abstract description 8
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 41
- 238000010606 normalization Methods 0.000 claims description 35
- 238000013139 quantization Methods 0.000 claims description 29
- 230000009466 transformation Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000006837 decompression Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000011002 quantification Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 230000004438 eyesight Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000016776 visual perception Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明属于信息压缩处理技术领域,涉及一种协同机器语义任务的深度压缩方法,包括:将图像x输入基网络,输出压缩特征fx n;多尺度融合模块输出多尺度语义特征fs n;将fx n和fs n通过通道级联,获得组合特征z;z依次经量化、算术编码和算术解码,获得隐特征 传送到解码器,被分成压缩特征和语义特征再分别进行解码,分别得到解压缩图像和语义分割图像s;输入后处理增强模块,得到解压缩图像本发明提出一种端到端的相互增强网络,将图像压缩和语义分割集成到统一的框架。框架基于编解码器结构,在编码器中设计融合模块,提高语义分割的准确性,设计增强模块,增强压缩任务的重建图片。本发明在图像压缩和语义分割上实现相互增强。
Description
技术领域
本发明属于信息压缩处理技术领域,涉及一种协同机器语义任务的深度压缩方法。
背景技术
在当今的信息时代,大量的图片和视频内容随时都在产生,并被传输到互联网上。2018年思科网站的报告显示,机器对机器的应用将会在未来几年占据大量的互联网内容。并且,机器学习算法倾向于直接处理更多的内容信息,而不仅仅为适应人类的视觉感知,因此,建立既能被机器智能应用程序处理又能被人类视觉系统感知的处理方法至关重要。所以,如何在有限的带宽内建立能够支持混合人机智能应用的方案是亟待解决的问题。近年来,随着深度学习地快速发展,一些基于深度学习的压缩方法也逐步被提出来。然而,这些方法是由服务于人类视觉感知的率失真损失驱动的,与高级的机器视觉任务并不能很好地兼容。此外,在面对大数据和高层分析时,无论是传统的压缩方法,还是基于深度的压缩方法仍存在一些不足。因此,一种能将数据压缩和机器智能分析任务相结合的新一代视频编解码器VCM(Video Coding for Machine)正在被倡议。
在现有技术中,近些年来,众多国内外的团队提出了很多基于深度学习的图像和视频压缩方法[1]。通常,这些方法按照体系结构可以分为两类。一类是将深度模块嵌入到传统的混合编码框架中[2-7],另一类则是端到端的深度压缩框架。在编码框架中嵌入深度模块的目的是:设计一个最优网络来代替编码框架中的环路滤波[2]、帧内预测[3]、帧间预测[4]、熵编码[5]、变换[6]以及量化[7]等关键模块。比如,一种基于卷积神经网络的后处理方法[2]用来代替环路滤波模块,从而增强解压后的图像;一个帧内预测卷积神经网络IPCNN[3],利用了当前块丰富的上下文,从而提高当前块的预测精度;对于帧间预测模块,文献[4]将空间相邻像素和时间显示顺序作为卷积神经网络模型的输入,实现视频流的双重预测;为改善熵编码模块,提出了一种通过训练神经网络的算术编码策略[5];对于变换模块,利用卷积神经网络模型模拟离散余弦变换从而实现分块变换[6];此外,一种基于卷积神经网络的HEVC快速量化策略[7]也被应用起来。端到端压缩框架的研究从文献[8]开始,整个框架由非线性分析变换、均匀量化器和非线性综合变换组成。此后,为了进一步提高图像的压缩性能,涌现了一系列端到端的压缩方法。在文献[9]设计了一种基于变分自编码器的端到端可训练图像压缩模型,结合了超先验潜在表示,以有效捕获空间相关性;在文献[9]的基础上,文献[10]提出了一种上下文自适应熵模型,可以用于端到端压缩体系结构中的率失真优化;接着,离散高斯混合似然参数化潜在码流的分布被引入端到端的框架[11],从而减少编码所需的比特数。
此外,随着人工智能技术的发展,图像和视频内容越来越多地需要由机器分析。因此图像压缩编码算法不仅需要满足人类视觉系统,也需要符合机器视觉任务的需求。为了能够协作压缩和智能分析任务,弥合机器视觉压缩编码和人类视觉压缩编码之间的差距,国际标准化组织提出了新一代视频编解码器标准VCM(Video Codingfor Machine)的倡议。因此,研究人员试图将机器视觉任务与图像压缩任务结合起来,作为统一的框架,来完成针对高级机器视觉任务的压缩任务。比如,一种基于参考DCNN的混合分辨率编码框架[11],联合解决了分辨率损失和压缩伪影之间的干扰问题;类似地,一种基于退化感知技术的端到端恢复重建深度神经网络(RR-DNCNN)[12]用以解决针对压缩给超分变率任务带来的各种伪影,而导致压缩和下采样导致的退化问题。除此之外,一些将图像压缩和高级机器视觉任务结合起来的工作也引起了广泛关注。DSSLIC框架[13]把语义分割图、输入图片的粗略表示以及输入图片的残差进行层次编码,得到了良好的压缩重建图像,同时也完成了其他与压缩相关的计算机视觉任务;一个语义结构的图像编码(SSIC)[14]框架用于生成基于语义结构的比特流(SSB),其中比特流的每部分代表一个特定的对象,可以直接完成高级别的视觉任务;此外,一种使图像压缩框架可以支持语义分割的编解码器结构的框架[15]也被提出。到目前为止,如何标准化一种比特流格式,使图像压缩和机器视觉任务可以联合优化成为活跃的且被广泛关注的热点问题之一。
在现有技术中,存在以下缺点:
现有的图像压缩技术是在不影响人类视觉系统感知的情况下对图像数据进行压缩。但随着智能分析任务的飞速发展,大部分的现有图像压缩算法在图像压缩过程中的信息丢失,可能会影响后续的机器视觉任务,比如:语义分割和目标检测等高级任务。本发明要解决的技术问题就是要联合考虑人类视觉系统和机器视觉任务,端到端地进行图像压缩任务和高级机器视觉任务。
目前,图像压缩编码方法是从人类的视觉系统HVS(Human Visual System)角度出发,提高图像的压缩比。然而,近年来视频监控设备在世界各地(特别是我国)广泛布设,为社会安全提供非常有力的技术保障。这些海量的视频数据更多是用于机器的自动分析研判、场景识别和行为检测等。换句话说,越来越多的视频数据不仅要面向人类使用,更要面向机器使用。但当前的压缩编码技术主要是面向人类视觉感知的需求进行设计的,对机器系统而言,并不一定是合适的。
因此,本发明联合考虑人类视觉系统和机器视觉任务,构建深度学习网络,实现兼顾图像压缩和高级机器视觉任务的图像压缩算法,可以达到不影响视觉任务精度的前提下,提高图像压缩性能。
与联合压缩任务与高级机器视觉任务的混合任务相比,本发明不仅利用增强模块,提高了图像压缩性能,而且利用融合模块,增强了语义分割任务的性能。
整个发明提出了一个将图像压缩和语义分割任务结合的统一框架,二者相互增强,既可以提升语义分割任务的性能,又可以提高解压图像的质量。
关键术语定义列表
1、压缩编码:在满足一定保真度的要求下,对图像或视频数据进行变换、量化以及编码等操作,以去除多余数据,从而减少表示图像和视频时所需的数据量,方便存储和传输。
2、语义分割:在图像领域,语义指的是图像的内容,对图片意思的理解,分割则是指从像素的角度分割出图片中的不同对象,语义分割就是让计算机根据图像的语义来进行分割。
发明内容
大多数基于深度学习的图像压缩算法仅仅考虑到了人眼视觉系统,并未考虑到机器视觉系统。而有些基于语义的压缩算法(如EDMS和DSSILC)又无法端到端地进行。本发明既考虑了人眼视觉系统也考虑了机器视觉系统,并且可以进行端到端的训练。此外,本发明的方法还可以兼容除了语义分割任务以外的其他机器视觉任务。
因此,本专利提出了一种面向图像压缩和语义分割任务的端到端的增强网络框架;既使得压缩框架与语义分割框架兼容,又能实现相互增强,具体技术方案如下:
一种协同机器语义任务的深度压缩方法,
所述协同机器语义任务的深度压缩方法基于面向图像压缩和语义分割任务的端到端的增强网络框架;
所述面向图像压缩和语义分割任务的端到端的增强网络框架包括:编码器、量化模块、算术编码模块、算术解码模块、解码器和后处理增强模块;
所述编码器包括:基网络和多尺度融合模块(简称:融合模块);
所述基网络对应压缩分支,所述多尺度融合模块对应语义分割分支;
所述协同机器语义任务的深度压缩方法包括以下步骤:
在上述技术方案的基础上,所述基网络采用若干个级联卷积层描述相邻像素之间的相关性;
在卷积层之间加入广义分裂归一化变换;
所述基网络利用广义分裂归一化变换,将像素域特征转移到分裂归一化空间;
第i个卷积层和第i次广义分裂归一化变换构成基网络的第i层,其中,i=1,2,…,n-1;n为基网络的卷积层的总数量;
第i次广义分裂归一化变换称为基网络第i个广义分裂归一化变换层;
在上述技术方案的基础上,所述多尺度融合模块包括:n-1个分层特征融合块、3个下采样块和13个non-bottleneck-1D卷积层;
每个分层特征融合块包括:逆向广义分裂归一化变换层和卷积层;
所述步骤S2的具体步骤如下:
其中,j=1,2,…,n-1,为在前一个分层特征融合块中被增强的特征,且当i=n-1时,j=1;当i=n-2时,j=2;依此类推,当i=1时,j=n-1;表示:利用第j个分层特征融合块中的卷积层对进行卷积操作;
在上述技术方案的基础上,步骤S5的具体步骤如下:
所述语义分支的解码器包括:若干反卷积层,在所述反卷积层之间加入non-bottleneck-1D层;
所述解压缩分支的解码器包括:若干反卷积层,在所述反卷积层之间加入逆向广义分裂归一化层;在所述逆向广义分裂归一化层进行逆向广义分裂归一化变换;
所述逆向广义分裂归一化变换为:所述基网络中广义分裂归一化变换的逆变换。
在上述技术方案的基础上,所述步骤S4的具体步骤如下:
在上述技术方案的基础上,将组合特征z作为超先验信息进行同样的量化、算术编码和算术解码操作,以辅助解码,具体步骤如下:
S4.4、组合特征z通过卷积操作编码器获得特征h;
S4.7、将算术解码结果通过卷积操作编码器进行卷积操作;
在上述技术方案的基础上,步骤S6的具体步骤如下:
S6.1、首先,将语义分割图像s沿通道维度分别进行最大池化和平均池化操作,然后再进行通道拼接,获得特征ss,如式(2)所示,
ss=[Max(s),Avg(s)] (2)
其中,Max(s)表示:对语义分割图像s进行最大池化操作,Avg(s)表示:对语义分割图像s进行平均池化操作;[Max(s),Avg(s)]表示:对Max(s)和Avg(s)进行通道拼接;
S6.2、接着,将特征ss依次通过卷积层和sigmoid激活函数,得到空间结构特征的权值;
将上述空间结构特征的权值与在语义分割图像s中学习到的语义特征相乘,输出学习到的空间结构特征se,语义分割图像s中学习到的语义特征是由语义分割图像s经过三次卷积运算获得,具体表示为式(3),
se=[W0W1W2(s)]σW3(ss) (3)
其中,W3(ss)表示:对特征ss进行卷积运算,σW3(ss)表示:对W3(ss)进行sigmoid激活函数运算;W2(s)表示:对特征s进行卷积运算;W1W2(s)表示:对W2(s)进行卷积运算;W0W1W2(s)表示:对W1W2(s)进行卷积运算;
然后,再将通道拼接的结果进行卷积操作;
在上述技术方案的基础上,步骤S6.4的具体步骤如下:
S6.4.1、将作为第1个增强块的输入,经过若干残差块处理,获得残差块处理结果;
S6.4.2、将第1个增强块的输入与最后一个残差块的处理结果相加,获得第1个增强块处理结果;
步骤S6.4.1的具体步骤如下:
S6.4.1.1、将特征空间结果作为输入;
S6.4.1.2、将输入经过第一个残差块的第一次卷积运算处理;
S6.4.1.3、将第一次卷积运算处理的结果再经过ReLU函数处理;
S6.4.1.4、将ReLU函数处理的结果再经过第一个残差块的第二次卷积运算处理;
S6.4.1.5、将第一次卷积运算处理的结果与第一个残差块的输入相加,输出第一个残差块的处理结果;
S6.4.1.6、将第一个残差块的处理结果作为输入,进入第二个残差块处理;重复步骤S6.4.1.2-S6.4.1.5,获得第二个残差块的处理结果;
S6.4.1.7、后续残差块的处理过程相同,只是将前一残差块的处理结果作为后一残差块的输入。
在上述技术方案的基础上,所述协同机器语义任务的深度压缩方法的损失函数如式(4)所示,
L=λD+R+CE (4)
其中,N是一批样本的个数,k为一批样本中的第k个样本,M是类别数,c为类别,且c=1,2,…,M,skc值为0或1,如果第k个样本的预测类别和真实标签图像中的类别c相同,则skc为1,否则为0;pkc表示:第k个样本属于分类类别c的概率。
本发明具有以下有益技术效果:
1)本发明提出了一种新颖的端到端的相互增强网络,将图像压缩和语义分割任务集成到一个统一的框架。
2)整个框架基于编解码器的结构,在编码器中设计了多尺度融合模块来提高语义分割任务的准确性,在解码器端之后设计了增强模块,用于增强压缩任务的重建图片。
3)从实验结果可以看出,本发明的方法在图像压缩和语义分割任务上实现了相互增强。此外,此框架可以进行拓展,用以支持不仅仅是语义分割的更多机器视觉分析任务。
附图说明
本发明有如下附图:
图1为本发明所述基于面向图像压缩和语义分割任务的端到端的增强网络框架的总框架示意图;
图2为基网络的基本结构示意图;
图3为多尺度融合模块的基本结构示意图;
图4为解码器的基本结构示意图;
图5为增强模块的基本结构示意图;
图6为Kodak数据集在PSNR评价指标下的率失真曲线示意图;
图7为Kodak数据集在MS-SSIM评价指标下的率失真曲线示意图;
图8为可视化Kodak数据集的“kodim21.png”的几种方法的解压图像以及原始图像对比结果示意图。
具体实施方式
以下结合附图对本发明做进一步详细说明,如图1-8所示,
本专利提出一种面向图像压缩和语义分割任务的端到端的增强网络框架,如图1所示,既使得压缩框架与语义分割框架兼容,又能实现相互增强。
其中,本发明还将组合特征z作为超先验信息进行同样的量化、算术编码和算术解码操作,以辅助解码。具体操作如图1所示,组合特征Z通过卷积操作编码器获得特征h,特征h经过量化操作得到特征而后,特征经过算术编码和算术解码操作,得到算术解码结果;将算术解码结果通过卷积操作编码器进行卷积操作,再将卷积操作结果作为方差输入获得隐特征的过程中。
需要注意的是,传统方法中的量化操作是将连续的数据转换成离散的数据,从而减少数据量。然而,基于深度学习的方法依赖基于梯度的端到端优化技术,因此量化操作就无法像传统方法中的量化操作一样实施,为此,很多工作也提出一些可以利用在基于深度学习方法中的量化操作。本发明沿用了文献[8]中的方法,在对整个面向图像压缩和语义分割任务的端到端的增强网络框架的训练阶段,添加均匀噪声来近似量化操作,而在测试阶段,则直接取整。
简述编码器如下:
本发明的编码器由两部分组成,分别为基网络和多尺度融合模块,分别对应压缩分支和语义分割分支。如图2所示,基网络采用了几个级联卷积层描述相邻像素之间的相关性,这与自然图像的分层统计特性相一致。为了优化图像压缩的特征,本发明利用广义分裂归一化(GDN)变换[8],将像素域特征转移到分裂归一化空间。经过基网络后,最终输出的压缩特征将用于压缩分支的后续工作。
第i个卷积层和第i次广义分裂归一化变换构成基网络的第i层,其中,i=1,2,…,n-1;n为基网络的卷积层的总数量;在图2中采用了4个卷积层和3次广义分裂归一化变换。第i次广义分裂归一化变换称为基网络第i个广义分裂归一化变换层;所述图像x经过基网络的第i层处理后,输出基网络第i层学习到的特征在第n个卷积层后输出压缩特征
每一层卷积操作都是一个下采样过程,四个卷积层就将原始输入下采样了16倍;这样做的目的就是为了能够更好地学习到更多细节信息。
另一部分用于学习和增强语义特征,称为多尺度融合模块(如图3所示)。为了节省传输和存储空间,在本框架中,将包括语义特征在内的所有学习到的特征都会进行量化。因此,多尺度融合模块有一个关键任务就是减少量化操作带来的影响。本发明中尝试探索利用丰富的特征来增强语义表示,更准确地说,是利用基网络不同层的层次特征来学习高级语义特征。例如,通过n-1个分层特征融合块(即图3中的HFFB)将来自基网络第i层学习到的特征加入到压缩特征中,具体的操作方式如下面的公式(1)所示,
在分层特征融合块中,特征首先通过与基网络中GDN(广义分裂归一化)层相对应的IGDN(逆向广义分裂归一化变换)层转换到像素域,获得特征然后添加到先前融合的特征中,每个分层特征融合块对应于基网络中不同层的层次特征。该操作的目的是通过增加特征的权重,以减少加性噪声的影响。
为了进一步改善语义信息的表示,采用了特殊的卷积层non-bottleneck-1D[16](简写为:Non-bt-1D,在图3中采用了11个Non-bt-1D),其被集成到多尺度融合模块中,将特征进行拉伸,并转换为一维表示,更有利于后续像素级的语义分类,从而提高语义分割任务的性能。多尺度融合模块中还包括3个下采样块(即图3中的Downsampler Block),目的是学习更细节的信息。最后,可以得到多尺度语义特征
简述解码器如下:
如图4所示,在解码器端,首先将接收到的隐特征分为语义特征和压缩特征两个部分, 分别送入不同的解码分支。为了获取语义分割图像,将多个反卷积层和non-bottleneck-1D层(在图4中采用了4个non-bottleneck-1D层)作为语义分支的解码器重建non-bottleneck-1D层可以从特征中收集更多的信息,反卷积层则可以对特征进行上采样,用以匹配输入图像的分辨率。
为了同时满足人眼视觉特性和机器视觉任务的需求,本发明的图像压缩算法(即协同机器语义任务的深度压缩方法)的损失函数可以写成如式(4)所示,
L=λD+R+CE (4)
一般来说,按照式(5)计算,
其中,N是一批样本的个数,k为一批样本中的第k个样本,M是类别数,c为类别,且c=1,2,…,M,skc值为0或1,如果第k个样本的预测类别和真实标签图像中的类别c相同,则skc为1,否则为0;pkc表示:第k个样本属于分类类别c的概率。
在语义分割任务中,将一张图片中的对象分成各种类别,例如:在一张交通图片中,人为一个类别、车为一个类别等等。
简述增强模块如下:
受语义分割任务可以识别出每个像素的类别的启发[16],本发明利用语义信息对解压之后的图像进行增强。用类别信息标记每个像素的语义分割图像s来提供更清晰准确的空间结构信息,以供人类理解或机器进行智能分析。
首先,对语义分割图像s通过空间注意力模块处理,获得空间结构特征的权值,具体步骤是:
S6.1、首先,将语义分割图像s沿通道维度分别进行最大池化和平均池化操作,然后再进行通道拼接,获得特征ss,其公式如式(2)所示,
ss=[Max(s),Avg(s)] (2)
其中,[·,·]表示通道的连接操作(即通道拼接)。
接着,将特征ss依次通过卷积层和sigmoid激活函数,得到空间结构特征的权值。
将上述空间结构特征的权值与在语义分割图像s中学习到的语义特征相乘,输出学习到的空间结构特征se。这个过程可以表示为式(3),
se=[W0W1W2(s)]σW3(ss) (3)
其中,W0、W1、W2、W3表示卷积运算,σ表示sigmoid激活函数。
通过每个增强块处理的具体步骤如下:
首先,将特征空间结果作为第1个增强块的输入,经过若干残差块处理,获得残差块处理结果;
然后,将第1个增强块的输入与最后一个残差块的处理结果相加,获得第1个增强块处理结果;
若干残差块处理的具体步骤如下:
S6.4.1.1、将特征空间结果作为输入;
S6.4.1.2、将输入经过第一个残差块的第一次卷积运算处理;
S6.4.1.3、将第一次卷积运算处理的结果再经过ReLU函数处理;
S6.4.1.4、将ReLU函数处理的结果再经过第一个残差块的第二次卷积运算处理;
S6.4.1.5、将第一次卷积运算处理的结果与第一个残差块的输入相加,输出第一个残差块的处理结果;
S6.4.1.6、将第一个残差块的处理结果作为输入,进入第二个残差块处理;重复步骤S6.4.1.2-S6.4.1.5,获得第二个残差块的处理结果;
S6.4.1.7、后续残差块的处理过程相同,只是将前一残差块的处理结果作为后一残差块的输入。
然后,为了变换通道以适应输出,再将通道拼接的结果进行卷积操作;
为了验证本发明所述基于面向图像压缩和语义分割任务的端到端的增强网络框架(简称框架)的有效性,本发明进行了一系列实验,以进行评估方法的有效性。
在本发明中,使用具有19个语义标签的2974张图像的Cityscapes训练集作为整个框架的训练集,统一调整图像的分辨率为512×1024。本发明利用Kodak图像数据集[17]中的24张分辨率为512×768的图像作为测试数据集,评估图像压缩性能,利用1024×2048大小的Cityscapes验证集和测试集,评估语义分割任务的性能。
本发明使用不同的λ值(256、512、1024、2048、4096、6144、8192)控制量化步长,实现端到端的训练方式。实验还使用了Adam优化器,并在前200000次迭代中,固定学习率为0.0001,在后100000次迭代中,将学习率下降到0.00001,GPU采用NVIDIA RTX 3090。
为了客观地评价所提方法的压缩性能,本发明与将计算机视觉任务与压缩结合的工作EDMS[13]、DSSILC[15]进行了比较,利用多尺度结构相似度(MS-SSIM)和峰值信噪比(PSNR)作为评价指标。
图像压缩的实验结果简述如下:
为了验证本发明的压缩性能,选用了几种常用的图像压缩算法JPEG[18]、JPEG2000[19]、BPG[20]、END2END[8]、HYPERPRIOR[9]以及两种基于语义的压缩方法EDMS[13]、DSSILC[15]与本发明的方法OURS进行了比较。在Kodak数据集上,不同比特率下的PSNR和MS-SSMI的率失真曲线示意分别如图6和图7所示,Bpp表示每个像素的平均比特率。
如图6所示,本发明的方法优于传统的图像压缩方法JPEG[18]、JPEG2000[19]以及经典的基于深度学习的端到端图像压缩方法END2END[8]、HYPERPRIOR[9]。此外,与BPG[20]方法相比,本发明的方法在低比特率下的性能与其相当,在高比特率下则明显优于BPG。同时,本发明与基于语义信息的图像压缩方法EDMS[13]和DSSILC[15]对比可知,其PSNR值明显优于EDMS和DSSILC方法。如图7所示,本发明的多尺度结构相似度(MS-SSIM)优于所有对比方法。值得一提的是,本发明的MS-SSIM结果与BPG相比,改进优势非常明显。综合图6和图7可知,基于深度学习的图像压缩方法的MS-SSIM评价指标优于传统方法。
本发明的压缩分支与HYPERPRIOR方法具有相似的结构,当这个结构集成到本发明的框架中时,综合图6和图7来看,本发明的性能是优于HYPERPRIOR方法的。这个结果表明,本发明中的增强模块通过提取语义分割图中的语义信息,可以有效地改进解压缩图像的质量。
在Kodak数据集上,本发明与JPEG、JPEG2000、BPG、END2END以及HYPERPRIOR方法的解压图像对比结果如图8所示,其中,图像底部括号中的数字表示:Bpp/PSNR/MS-SSIM。在比特率相似的情况下,JPEG和JPEG2000方法得到的解压图像中的海浪是模糊的,且其中的岩石出现较多的噪声和伪影现象。BPG、END2END和HYPERPRIOR方法则略好于JPEG和JPEG2000,但仍有纹理不清晰的问题。而利用本发明的方法重建的解压图像中的纹理信息清晰、颜色与原始图像接近。
简述语义分割的实验结果如下:
本发明的语义分割分支可以兼容许多性能良好的语义分割网络。本发明采用经典的语义分割网络ERFNet[16]。在Cityscapes验证集上,构建了四个模型对比19个类别的分割结果性能,如表1所示,称为:消融实验表,表中数字的单位为%。这四种结构分别为:baseline结构为ERFNet的原始体系结构;B+Q、B+A和B+Q+A三种结构分别表示:在baseline的基础上分别只加入量化操作、融合模块和既加入量化操作又加入融合模块的结构。
由表1可知,由于量化操作,B+Q结构比baseline结构获得的类平均IoU(即Cla-IoU)下降了将近1%。加入聚合模块的B+Q+A结构比B+Q结构的精度提高了1.3%,甚至优于baseline结构所获得的精度。对比B+A结构与baseline结构可知,B+A模型的精度比baseline提高了0.4%。这些实验结果表明,本发明设计的多尺度聚合模块(即多尺度融合模块)是有效的,可以利用基网络中的多尺度特征信息增强语义信息。
表1消融实验表
表2显示的是本发明的语义分割分支与其他几种语义分割方法在精度上的比较。这些结果是从Cityscapes数据集测试服务器中得到的。加入融合模块的结构(B+A)实现了70.8%的类平均IoU(Cla-IoU)和88.1%平均类别IoU(Cat-IoU)。B+Q+A模型的Cla-IoU和Cat-IoU的值则分别为70.5%和88.0%。对于B+Q+A结构,Cla-IoU与LRR-4x[21]、Deeplabv2-CRF[22]、Dilation10[23]和DPN[24]相比,分别提高了0.8%、0.1%、3.4%、3.7%,并且Cat-IoU与RefineNet[25]、Adelaide-cntxt[26]、Deeplabv2-CRF[22]、Dilation10[23]和DPN[24]相比,提高了0.1%、0.7%、1.6%、1.5%、2%。可以看出,本发明中的融合模块(即多尺度融合模块)可以提高语义分割分支的竞争力。
表2在Cityscapes数据集测试上不同方法的对比结果表
本发明的关键点和欲保护点如下:
1)本发明提出一个统一的端到端的互增强网络框架(即基于面向图像压缩和语义分割任务的端到端的增强网络框架),它集成了图像压缩和语义分割任务;
2)本发明设计了一个融合模块来减少量化操作对精度的影响;
3)本发明中还构造了一个后处理增强模块,通过利用解压缩之后的语义分割图中的语义信息提高解压缩图像的质量。
参考文献(如专利/论文/标准)如下所列:
[1]Liu,D.,Li,Y.,Lin,J.,Li,H.,Wu,F.:Deep learning-based video coding:Areviewand a case study.ACM Computing Surveys(CSUR)53(1),1–35(2020)
[2]Lin,W.,He,X.,Han,X.,Liu,D.,See,J.,Zou,J.,Xiong,H.,Wu,F.:Partition-aware adaptive switching neural networks for post-processing inHEVC.IEEETransactions on Multimedia 22(11),2749–2763(2019)
[3]Cui,W.,Zhang,T.,Zhang,S.,Jiang,F.,Zuo,W.,Wan,Z.,Zhao,D.:Convolutional
neural networks based intra prediction for HEVC.In:2017DataCompressionConference(DCC).pp.436–436.IEEE Computer Society(2017)
[4]Mao,J.,Yu,L.:Convolutional neural network based bi-predictionutilizing spatial
and temporal information in video coding.IEEE Transactions onCircuits andSystems for Video Technology 30(7),1856–1870(2019)
[5]Song,R.,Liu,D.,Li,H.,Wu,F.:Neural network-based arithmetic codingof intraprediction modes in HEVC.In:Visual Communications and ImageProcessing(VCIP).pp.1–4.IEEE(2017)
[6]Liu,D.,Ma,H.,Xiong,Z.,Wu,F.:CNN-based DCT-like transform forimagecompression.In:International Conference on Multimedia Modeling.pp.61–72.Springer(2018)
[7]Alam,M.M.,Nguyen,T.D.,Hagan,M.T.,Chandler,D.M.:A perceptualquantization strategy for hevc based on a convolutional neural networktrained on naturalimages.In:Applications of Digital ImageProcessing.vol.9599,p.959918.International Society for Optics and Photonics(2015)
[8]Ball′e,J.,Laparra,V.,Simoncelli,E.P.:End-to-end optimized imagecompression.In:5th International Conference on Learning Representations,ICLR2017(2017)
[9]Ball′e,J.,Minnen,D.,Singh,S.,Hwang,S.J.,Johnston,N.:Variationalimagecompression with a scale hyperprior(2018)
[10]Lee,J.,Cho,S.,Beack,S.K.:Context-adaptive entropy model for end-to-end optimizedimage compression.In:International Conference on LearningRepresentations(2018)
[11]Hou,D.,Zhao,Y.,Ye,Y.,Yang,J.,Zhang,J.,Wang,R.:Super-resolvingcompressedvideo in coding chain.arXiv preprint arXiv:2103.14247(2021)
[12]Ho,M.M.,Zhou,J.,He,G.:RR-DnCNN v2.0:Enhanced restorationreconstruction deep neural network for down-sampling-based videocoding.IEEETransactions on ImageProcessing 30,1702–1715(2021)
[13]Akbari,M.,Liang,J.,Han,J.:DSSLIC:deep semantic segmentation-basedlayeredimage compression.In:IEEE International Conference on Acoustics,SpeechandSignal Processing.pp.2042–2046.IEEE(2019)
[14]Sun,S.,He,T.,Chen,Z.:Semantic structured image coding frameworkfor multiple intelligent applications.IEEE Transactions on Circuits andSystems for VideoTechnology(2020)
[15]Hoang,T.M.,Zhou,J.,Fan,Y.:Image compression with encoder-decodermatchedsemantic segmentation.In:Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition Workshops.pp.160–161(2020)
[16]Romera,E.,Alvarez,J.M.,Bergasa,L.M.,Arroyo,R.:ERFNet:Efficientresidual factorized convnet for real-time semantic segmentation.IEEETransactions onIntelligent Transportation Systems 19(1),263–272(2017)
[17]Kodak,E.:Kodak lossless true color image suite(PhotoCD PCD0992).URLhttp://r0k.us/graphics/kodak 6(1993)
[18]Wallace,Gregory,K.:The JPEG still picture compressionstandard.IEEE Transactionson Consumer Electronics 38(1),xviii–xxxiv(1992)
[19]Skodras,A.,Christopoulos,C.,Ebrahimi,T.:The JPEG 2000still imagecompressionstandard.IEEE Signal Processing Magazine 18(5),36–58(2001)
[20]Bellard,F.:Better portable graphics.https://www.bellard.org/bpg(2014)
[21]Ghiasi,G.,Fowlkes,C.C.:Laplacian reconstruction and refinementfor semanticsegmentation.arXiv preprint arXiv:1605.022644(4)(2016)
[22]Chen,L.C.,Papandreou,G.,Kokkinos,I.,Murphy,K.,Yuille,A.L.:Deeplab:Semantic image segmentation with deep convolutional nets,atrousconvolution,andfully connected CRFs.IEEE Transactions on Pattern Analysis andMachine Intelligence 40(4),834–848(2017)
[23]Yu,F.,Koltun,V.:Multi-scale context aggregation by dilatedconvolutions.arXivpreprint arXiv:1511.07122(2015)
[24]Kreˇso,I.,ˇCauˇsevi′c,D.,Krapac,J.,ˇSegvi′c,S.:Convolutionalscale invariance forsemantic segmentation.In:German Conference on PatternRecognition.pp.64–75.Springer(2016)
[25]Lin,G.,Milan,A.,Shen,C.,Reid,I.:RefineNet:Multi-path refinementnetworkswith identity mappings for high-resolution semanticsegmentation.arXiv preprintarXiv:1611.06612
[26]Lin,G.,Shen,C.,Van Den Hengel,A.,Reid,I.:Efficient piecewisetraining ofdeep structured models for semantic segmentation.In:Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.pp.3194–3203(2016)
上述实施例对本发明的技术方案进行了详细说明。显然,本发明并不局限于所描述的实施例。基于本发明中的实施例,熟悉本技术领域的人员还可据此做出多种变化,但任何与本发明等同或相类似的变化都属于本发明保护的范围。
本说明书中未做详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (10)
1.一种协同机器语义任务的深度压缩方法,其特征在于:所述协同机器语义任务的深度压缩方法基于面向图像压缩和语义分割任务的端到端的增强网络框架;
所述面向图像压缩和语义分割任务的端到端的增强网络框架包括:编码器、量化模块、算术编码模块、算术解码模块、解码器和后处理增强模块;
所述编码器包括:基网络和多尺度融合模块;
所述基网络对应压缩分支,所述多尺度融合模块对应语义分割分支;
所述协同机器语义任务的深度压缩方法包括以下步骤:
3.如权利要求2所述的协同机器语义任务的深度压缩方法,其特征在于:所述多尺度融合模块包括:n-1个分层特征融合块、3个下采样块和13个non-bottleneck-1D卷积层;
每个分层特征融合块包括:逆向广义分裂归一化变换层和卷积层;
所述步骤S2的具体步骤如下:
其中,j=1,2,...,n-1,为在前一个分层特征融合块中被增强的特征,且当i=n-1时,j=1;当i=n-2时,j=2;依此类推,当i=1时,j=n--1;表示:利用第j个分层特征融合块中的卷积层对进行卷积操作;
8.如权利要求1所述的协同机器语义任务的深度压缩方法,其特征在于:步骤S6的具体步骤如下:
S6.1、首先,将语义分割图像s沿通道维度分别进行最大池化和平均池化操作,然后再进行通道拼接,获得特征ss,如式(2)所示,
ss=[Max(s),Avg(s)] (2)
其中,Max(s)表示:对语义分割图像s进行最大池化操作,Avg(s)表示:对语义分割图像s进行平均池化操作;[Max(s),Avg(s)]表示:对Max(s)和Avg(s)进行通道拼接;
S6.2、接着,将特征ss依次通过卷积层和sigmoid激活函数,得到空间结构特征的权值;
将上述空间结构特征的权值与在语义分割图像s中学习到的语义特征相乘,输出学习到的空间结构特征se,语义分割图像s中学习到的语义特征是由语义分割图像s经过三次卷积运算获得,具体表示为式(3),
Se=[W0W1W2(s)]σW3(ss) (3)
其中,W3(ss)表示:对特征ss进行卷积运算,σW3(ss)表示:对W3(ss)进行sigmoid激活函数运算;W2(s)表示:对特征s进行卷积运算;W1W2(s)表示:对W2(s)进行卷积运算;W0W1W2(s)表示:对W1W2(s)进行卷积运算;
然后,再将通道拼接的结果进行卷积操作;
9.如权利要求8所述的协同机器语义任务的深度压缩方法,其特征在于:步骤S6.4的具体步骤如下:
S6.4.1、将特征空间结果作为第1个增强块的输入,经过若干残差块处理,获得残差块处理结果;
S6.4.2、将第1个增强块的输入与最后一个残差块的处理结果相加,获得第1个增强块处理结果;
步骤S6.4.1的具体步骤如下:
S6.4.1.1、将特征空间结果作为输入;
S6.4.1.2、将输入经过第一个残差块的第一次卷积运算处理;
S6.4.1.3、将第一次卷积运算处理的结果再经过ReLU函数处理;
S6.4.1.4、将ReLU函数处理的结果再经过第一个残差块的第二次卷积运算处理;
S6.4.1.5、将第一次卷积运算处理的结果与第一个残差块的输入相加,输出第一个残差块的处理结果;
S6.4.1.6、将第一个残差块的处理结果作为输入,进入第二个残差块处理;重复步骤S6.4.1.2-S6.4.1.5,获得第二个残差块的处理结果;
S6.4.1.7、后续残差块的处理过程相同,只是将前一残差块的处理结果作为后一残差块的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110890068.1A CN113822147B (zh) | 2021-08-04 | 2021-08-04 | 一种协同机器语义任务的深度压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110890068.1A CN113822147B (zh) | 2021-08-04 | 2021-08-04 | 一种协同机器语义任务的深度压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822147A true CN113822147A (zh) | 2021-12-21 |
CN113822147B CN113822147B (zh) | 2023-12-15 |
Family
ID=78912840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110890068.1A Active CN113822147B (zh) | 2021-08-04 | 2021-08-04 | 一种协同机器语义任务的深度压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822147B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093377A (zh) * | 2022-01-18 | 2022-02-25 | 成都时识科技有限公司 | 分裂归一化方法、装置、音频特征提取器、芯片 |
CN114386595A (zh) * | 2021-12-24 | 2022-04-22 | 西南交通大学 | 一种基于超先验架构的sar图像压缩方法 |
CN115052147A (zh) * | 2022-04-26 | 2022-09-13 | 中国传媒大学 | 基于生成模型的人体视频压缩方法、系统 |
CN116527903A (zh) * | 2023-06-30 | 2023-08-01 | 鹏城实验室 | 图像浅压缩方法及解码方法 |
CN116761030A (zh) * | 2023-08-11 | 2023-09-15 | 南京汉卫教育科技有限公司 | 一种基于图像识别算法的多机位同步音影录播系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109246436A (zh) * | 2013-04-05 | 2019-01-18 | 佳能株式会社 | 对图像进行编码或解码的方法和装置以及存储介质 |
CN110827312A (zh) * | 2019-11-12 | 2020-02-21 | 北京深境智能科技有限公司 | 一种基于协同视觉注意力神经网络的学习方法 |
CN111147862A (zh) * | 2020-01-03 | 2020-05-12 | 南京大学 | 一种基于目标编码的端到端图像压缩方法 |
WO2020215236A1 (zh) * | 2019-04-24 | 2020-10-29 | 哈尔滨工业大学(深圳) | 图像语义分割方法和系统 |
CN112507800A (zh) * | 2020-11-14 | 2021-03-16 | 北京工业大学 | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 |
CN112862828A (zh) * | 2019-11-26 | 2021-05-28 | 华为技术有限公司 | 一种语义分割方法、模型训练方法及装置 |
CN113011336A (zh) * | 2021-03-19 | 2021-06-22 | 厦门大学 | 一种基于深度多分支聚合的实时街景图像语义分割方法 |
-
2021
- 2021-08-04 CN CN202110890068.1A patent/CN113822147B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109246436A (zh) * | 2013-04-05 | 2019-01-18 | 佳能株式会社 | 对图像进行编码或解码的方法和装置以及存储介质 |
WO2020215236A1 (zh) * | 2019-04-24 | 2020-10-29 | 哈尔滨工业大学(深圳) | 图像语义分割方法和系统 |
CN110827312A (zh) * | 2019-11-12 | 2020-02-21 | 北京深境智能科技有限公司 | 一种基于协同视觉注意力神经网络的学习方法 |
CN112862828A (zh) * | 2019-11-26 | 2021-05-28 | 华为技术有限公司 | 一种语义分割方法、模型训练方法及装置 |
CN111147862A (zh) * | 2020-01-03 | 2020-05-12 | 南京大学 | 一种基于目标编码的端到端图像压缩方法 |
CN112507800A (zh) * | 2020-11-14 | 2021-03-16 | 北京工业大学 | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 |
CN113011336A (zh) * | 2021-03-19 | 2021-06-22 | 厦门大学 | 一种基于深度多分支聚合的实时街景图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
SIHUI LUO 等: "DeepSIC: Deep Semantic Image Compression", SPRINGERLINK * |
何天宇 等: "端到端的图像视频压缩研究", 中国优秀硕士论文全文数据库 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386595A (zh) * | 2021-12-24 | 2022-04-22 | 西南交通大学 | 一种基于超先验架构的sar图像压缩方法 |
CN114386595B (zh) * | 2021-12-24 | 2023-07-28 | 西南交通大学 | 一种基于超先验架构的sar图像压缩方法 |
CN114093377A (zh) * | 2022-01-18 | 2022-02-25 | 成都时识科技有限公司 | 分裂归一化方法、装置、音频特征提取器、芯片 |
CN114093377B (zh) * | 2022-01-18 | 2022-05-03 | 成都时识科技有限公司 | 分裂归一化方法、装置、音频特征提取器、芯片 |
CN115052147A (zh) * | 2022-04-26 | 2022-09-13 | 中国传媒大学 | 基于生成模型的人体视频压缩方法、系统 |
CN116527903A (zh) * | 2023-06-30 | 2023-08-01 | 鹏城实验室 | 图像浅压缩方法及解码方法 |
CN116527903B (zh) * | 2023-06-30 | 2023-09-12 | 鹏城实验室 | 图像浅压缩方法及解码方法 |
CN116761030A (zh) * | 2023-08-11 | 2023-09-15 | 南京汉卫教育科技有限公司 | 一种基于图像识别算法的多机位同步音影录播系统 |
CN116761030B (zh) * | 2023-08-11 | 2023-10-27 | 南京汉卫教育科技有限公司 | 一种基于图像识别算法的多机位同步音影录播系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113822147B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822147B (zh) | 一种协同机器语义任务的深度压缩方法 | |
Cheng et al. | Energy compaction-based image compression using convolutional autoencoder | |
CN112203093B (zh) | 一种基于深度神经网络的信号处理方法 | |
Wu et al. | Learned block-based hybrid image compression | |
CN109978772A (zh) | 基于深度学习与双域互补的压缩图像复原方法 | |
CN115345785A (zh) | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 | |
CN114449276B (zh) | 一种基于学习的超先验边信息补偿图像压缩方法 | |
He et al. | Beyond coding: Detection-driven image compression with semantically structured bit-stream | |
Fu et al. | An extended hybrid image compression based on soft-to-hard quantification | |
Ranjbar Alvar et al. | Joint image compression and denoising via latent-space scalability | |
Li et al. | 3D tensor auto-encoder with application to video compression | |
Wang et al. | End-to-end video compression for surveillance and conference videos | |
Sun et al. | Hlic: Harmonizing optimization metrics in learned image compression by reinforcement learning | |
Gao et al. | Volumetric end-to-end optimized compression for brain images | |
Shen et al. | Dec-adapter: Exploring efficient decoder-side adapter for bridging screen content and natural image compression | |
CN113822954A (zh) | 一种面向资源约束下人机协同场景的深度学习图像编码方法 | |
CN117915107B (zh) | 图像压缩系统、图像压缩方法、存储介质与芯片 | |
Wang et al. | A survey of image compression algorithms based on deep learning | |
CN116437102B (zh) | 可学习通用视频编码方法、系统、设备及存储介质 | |
Bao et al. | Image Compression Based on Hybrid Domain Attention and Postprocessing Enhancement | |
CN117676149B (zh) | 一种基于频域分解的图像压缩方法 | |
CN116437089B (zh) | 一种基于关键目标的深度视频压缩方法 | |
CN117459737B (zh) | 一种图像预处理网络的训练方法和图像预处理方法 | |
Liu et al. | Region-Adaptive Transform with Segmentation Prior for Image Compression | |
Zhang | ENHANCING UAV IMAGE COMPRESSION WITH DEEP LEARNING-BASED REGION OF INTEREST EXTRACTION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |