CN115866253A - 一种基于自调制的通道间变换方法、装置、终端及介质 - Google Patents

一种基于自调制的通道间变换方法、装置、终端及介质 Download PDF

Info

Publication number
CN115866253A
CN115866253A CN202310167603.XA CN202310167603A CN115866253A CN 115866253 A CN115866253 A CN 115866253A CN 202310167603 A CN202310167603 A CN 202310167603A CN 115866253 A CN115866253 A CN 115866253A
Authority
CN
China
Prior art keywords
feature
inputting
self
channel
modulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310167603.XA
Other languages
English (en)
Other versions
CN115866253B (zh
Inventor
薛佳音
孟凡阳
谭文
丁润伟
刘明
张钦宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202310167603.XA priority Critical patent/CN115866253B/zh
Publication of CN115866253A publication Critical patent/CN115866253A/zh
Application granted granted Critical
Publication of CN115866253B publication Critical patent/CN115866253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于自调制的通道间变换方法、装置、终端及介质,包括:将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征;根据输出特征得到输入图像的潜在特征表示,并将潜在特征表示输入量化单元进行压缩,得到整数数据;将整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将二进制码流还原为整数潜在特征表示;将整数潜在特征表示输入上采样层进行空间维度的特征恢复,并将得到的特征图输入基于自调制的通道间变换层,得到重建图像。本发明提出了适应于神经网络图像压缩的通道间变换,减少了潜在表示的冗余,提高了压缩效率。

Description

一种基于自调制的通道间变换方法、装置、终端及介质
技术领域
本发明涉及多媒体通信与信息处理技术领域,尤其涉及的是一种基于自调制的通道间变换方法、装置、终端及介质。
背景技术
星通道视频传输具有延时大丢包,延时抖动厉害,传输成本高昂的特点,一般的传输信道很难满足要求,必须对视频信息进行压缩优化。
图像压缩是将图像转换成二进制比特流进行图像传输和存储的一项基本技术,是面向网络带宽和存储资源受限的一种解决方案。传统图像压缩方法如JPEG、JPEG2000和BPG都已经在近几十年里得到了广泛应用,其目的都是为了以更少的比特消耗获得更好的重建质量。然而这些传统的方法是通过独立的编解码器和固定的特征变换来进行优化,手工设计和联合优化步骤复杂,在进一步提升编码性能上仍存在限制。随着深度学习的发展,神经网络的图像压缩方法通过端到端优化实现了优异的压缩性能,目前最先进的神经网络图像压缩方法的压缩性能已经超过最新的视频编码标准VVC。
神经网络图像压缩方法与传统方法的经典压缩框架一致,都由变换、量化和熵编码三个部分组成;这些方法的各个模块联合进行端到端训练并优化从而得到更优的率失真性能。目前大多数神经网络图像方法都聚焦于研究高效的非线性变换和准确的熵模型,高效的非线性变换能够获得紧凑的潜在特征表示,准确的熵模型能够对潜在表示进行概率建模从而减少存储所需比特。因此,图像压缩中的非线性变换技术是去除图像相关性的关键,是后续进行熵建模的基础。具有开拓性的端到端图像压缩网络提出了一种广义除法归一化模块,通过利用图像特征通道间的相关性并高斯化数据,实现了局部增益控制;该模块实现了高效的非线性变换并具有一定的通用性。近些年针对非线性变换也出现了很多方法,包括残差结构的广义除法归一化模块、残差块、非局部的注意力模块、可逆神经网络以及Transformer,这些方法都是通过设计复杂的变换结构来增强非线性表征能力,从而获得更好的压缩性能。其中,残差结构的广义除法归一化模块和残差块扩大了空间感受野来捕获空间相关性,但特征变换过程的参数固定;非局部的注意力模块和Transformer对输入特征能够自适应得到权重进行变换,但往往结构都较为复杂。同时,这些方法都没有像广义除法归一化模块一样从通道间的关系这一角度进行考虑和设计更加通用和高效的非线性变换。
广义除法归一化模块可以看成通道间的归一化,具体操作是特征图上每个元素除以所有通道上同一空间位置元素的加权和,其中通道维度上加权和的过程可以利用两个可学习参数来表示;与特征元素相乘的参数代表通道间的相关性,另一个可加参数代表总体偏差。在对单个通道的每个元素变换时,该方法在空间维度上共享参数,并进行同等重要的加权处理,在特征归一化方面缺乏一定的灵活性。
与传统的图像压缩技术相比,近年来的神经网络图像压缩技术取得了优异的率失真性能。灵活的非线性变换是提高压缩性能的关键技术之一,变换过程通常以空间维度和通道维度的方式进行。然而,在非线性变换中仍没有充分利用各特征元素通道间的关系,导致压缩效率低。
因此,现有技术还有待改进。
发明内容
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种基于自调制的通道间变换方法、装置、终端及介质,以解决现有的神经网络图像压缩技术在非线性变换中存在的压缩效率低的技术问题。
本发明解决技术问题所采用的技术方案如下:
第一方面,本发明提供一种基于自调制的通道间变换方法,包括:
将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征;
根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据;
将所述整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
将所述整数潜在特征表示输入所述上采样层进行空间维度的特征恢复,并将得到的特征图输入所述基于自调制的通道间变换层,得到所述输入图像对应的重建图像。
在一种实现方式中,所述将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征,包括:
将输入图像x输入所述下采样层,对所述输入图像x进行空间维度的特征压缩,并在特征的通道维度进行变换,得到特征图X;
将所述特征图X输入所述基于自调制的通道间变换层进行自调制,得到增强的具有非线性变换能力的输出特征Y。
在一种实现方式中,所述将输入图像x输入所述下采样层,对所述输入图像x进行空间维度的特征压缩,包括:
将输入图像x输入所述下采样层,通过所述下采样层对所述输入图像x进行卷积、池化以及抽取处理,得到空间维度下的压缩特征。
在一种实现方式中,所述将所述特征图X输入所述基于自调制的通道间变换层进行自调制,得到增强的具有非线性变换能力的输出特征Y,包括:
通过特征提取层
Figure SMS_1
、特征提取层/>
Figure SMS_2
以及激活函数/>
Figure SMS_3
对所述特征图X进行空间、通道维度变换,捕获特征空间和通道的相关性,得到具有表征能力的特征/>
Figure SMS_4
Figure SMS_5
根据所述特征
Figure SMS_6
生成重要性权重,并表征特征空间通道上的重要性程度,特征值经过输出权重约束模块/>
Figure SMS_7
限制到特定范围/>
Figure SMS_8
将所述重要性权重与所述特征图X进行逐元素点乘,得到注意力掩膜特征图,并将所述注意力掩膜特征图作为中间特征图
Figure SMS_9
对所述中间特征图
Figure SMS_10
进行通道线性变换/>
Figure SMS_11
,利用特征各通道间的相关性生成尺度因子/>
Figure SMS_12
对所述中间特征图
Figure SMS_13
进行通道线性变换/>
Figure SMS_14
,利用特征各通道间的相关性生成平移因子/>
Figure SMS_15
将所述尺度因子
Figure SMS_16
与所述特征图X点乘,对所述特征图X的值进行放缩,并加上所述平移因子/>
Figure SMS_17
进行仿射变换,得到输出特征/>
Figure SMS_18
,实现对所述特征图X的逐元素调控。
在一种实现方式中,所述特征提取层
Figure SMS_19
或所述特征提取层/>
Figure SMS_20
用于配合所述激活函数在特征的空间和通道维度进行线性运算和非线性运算;
所述线性运算包括:加法、减法、乘法、除法以及卷积中的一种或者组合运算;
所述非线性运算包括:ReLU函数、LeakyReLU函数、Softplus函数以及GeLU函数。
在一种实现方式中,所述根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据,包括:
构建基本压缩单元,根据所述基本压缩单元构建编码器,并根据所述编码器所述输出特征进行编码,得到所述输入图像的潜在特征表示y;
将所述潜在特征表示y输入量化单元Q,将浮点数压缩为整数,得到整数数据y_hat。
在一种实现方式中,所述将所述整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示,包括:
将整数数据y_hat输入无损编码模块AE,将所述整数数据y_hat转化为二进制码流;
将所述二进制码流输入无损解码模块AD,将所述二进制码流还原为预设码率的整数潜在特征表示y’。
在一种实现方式中,所述将所述整数数据y_hat转化为二进制码流,包括:
根据熵模型进行估计,得到编码所用的各元素概率分布;
根据各元素概率分布将所述整数数据y_hat转化为二进制码流。
在一种实现方式中,所述将所述整数潜在特征表示输入所述上采样层进行空间维度的特征恢复,并将得到的特征图输入所述基于自调制的通道间变换层,得到所述输入图像对应的重建图像,包括:
将整数潜在特征表示y’通过上采样层进行空间维度的特征恢复,并在特征的通道维度进行变换,得到特征图
Figure SMS_21
将所述特征图
Figure SMS_22
经过所述基于自调制的通道间变换层,实现对输入特征的自调制,得到增强的非线性变换能力的输出特征/>
Figure SMS_23
构建基本重建单元,根据所述基本重建单元构建解码器,并通过所述解码器对输出特征
Figure SMS_24
进行解码,得到重建的图像x_hat。
在一种实现方式中,所述根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据,之前包括:
根据所述输入图像的尺寸、所需的潜在特征表示的尺寸以及熵模型建模的性能表现,确定编码器和解码器中基本编码单元和基本重建单元的级联层数k。
第二方面,本发明提供一种基于自调制的通道间变换装置,包括:
非线性变换模块,用于将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征;
潜在特征模块,用于根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据;
无损编解码模块,用于将所述整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
图像重建模块,用于将所述整数潜在特征表示输入所述上采样层进行空间维度的特征恢复,并将得到的特征图输入所述基于自调制的通道间变换层,得到所述输入图像对应的重建图像。
第三方面,本发明提供一种终端,包括:处理器以及存储器,所述存储器存储有基于自调制的通道间变换程序,所述基于自调制的通道间变换程序被所述处理器执行时用于实现如第一方面所述的基于自调制的通道间变换方法的操作。
第四方面,本发明还提供一种介质,所述介质为计算机可读存储介质,所述介质存储有基于自调制的通道间变换程序,所述基于自调制的通道间变换程序被处理器执行时用于实现如第一方面所述的基于自调制的通道间变换方法的操作。
本发明采用上述技术方案具有以下效果:
本发明以中间特征图为输入,获取通道间的相关性,并生成仿射变换参数用于逐元素的特征调制。本发明提出的非线性变换可以实现自适应加权,并对特征进行细粒度控制,通过这种方法利用特征图的空间特性和通道特性获得了有效的特征表示,进一步减少了潜在表示的冗余,与现有的神经网络图像压缩方法相比,能够获得具有竞争力的率失真性能,提高了图像压缩的压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明的一种实现方式中基于自调制的通道间变换方法的流程图。
图2是本发明的一种实现方式中神经网络图像压缩模型构建的示意图。
图3是本发明的一种实现方式中终端的功能原理图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
示例性方法
现有的神经网络图像压缩技术取得了优异的率失真性能。灵活的非线性变换是提高压缩性能的关键技术之一,变换过程通常以空间维度和通道维度的方式进行。然而,在非线性变换中仍没有充分利用各特征元素通道间的关系,导致压缩效率低。
针对上述技术问题,本实施例中提供了一种基于自调制的通道间变换方法,本实施例中以中间特征图为输入,获取通道间的相关性,并生成仿射变换参数用于逐元素的特征调制。本实施例中提出的非线性变换可以实现自适应加权,并对特征进行细粒度控制,通过这种方法利用特征图的空间特性和通道特性获得了有效的特征表示,进一步减少了潜在表示的冗余,与现有的神经网络图像压缩方法相比,能够获得具有竞争力的率失真性能,提高了图像压缩的压缩效率。
如图1所示,本发明实施例提供一种基于自调制的通道间变换方法,包括以下步骤:
步骤S100,将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征。
在本实施例中,该基于自调制的通道间变换方法应用于终端上,该终端包括但不限于:计算机等设备。
在本实施例中,提出了一种新颖的基于自调制的通道间变换(简称SMCCT)方法,可以灵活地应用于已有的图像压缩模型中。构建的图像压缩模型实验结果表明,在峰值信噪比PSNR和多尺度结构相似性MS-SSIM等感知度量下,该方法能够在降低网络复杂度的同时,与现有的神经网络图像压缩方法相比,能够获得具有竞争力的率失真性能。
具体地,在本实施例的一种实现方式中,步骤S100包括以下步骤:
步骤S101,将输入图像x输入所述下采样层,对所述输入图像x进行空间维度的特征压缩,并在特征的通道维度进行变换,得到特征图X。
本实施例中,整体的技术框架如图2所示,在图像压缩的过程中,将输入图像x输入下采样层进行下采样,能够减少图像空间分辨率,降低图像的空间冗余,便于压缩。
具体地,在本实施例的一种实现方式中,步骤S101包括以下步骤:
步骤S101a,将输入图像x输入所述下采样层,通过所述下采样层对所述输入图像x进行卷积、池化以及抽取处理,得到空间维度下的压缩特征。
本实施例中,下采样层表示一种空间分辨率减少的过程,下采样层的具体实施方式包括但不限于:卷积、池化以及抽取等方法,下采样的倍数可以为2、4、6、8等整数;输入图像x在经过下采样层的处理后,得到了相应的下采样倍数的特征图X。
具体地,在本实施例的一种实现方式中,步骤S100包括以下步骤:
步骤S102,将所述特征图X输入所述基于自调制的通道间变换层进行自调制,得到增强的具有非线性变换能力的输出特征Y。
在本实施例中,下采样层输出特征图X后,该特征图X经过本实施例中基于自调制的通道间变换层,实现对输入特征的自调制,得到增强了非线性变换能力的输出特征Y。
具体地,在本实施例的一种实现方式中,步骤S102包括以下步骤:
步骤S102-01,通过特征提取层
Figure SMS_25
、特征提取层/>
Figure SMS_26
以及激活函数/>
Figure SMS_27
对所述特征图X进行空间、通道维度变换,捕获特征空间和通道的相关性,得到具有表征能力的特征/>
Figure SMS_28
Figure SMS_29
步骤S102-02,根据所述特征
Figure SMS_30
生成重要性权重,并表征特征空间通道上的重要性程度,特征值经过输出权重约束模块/>
Figure SMS_31
限制到特定范围/>
Figure SMS_32
步骤S102-03,将所述重要性权重与所述特征图X进行逐元素点乘,得到注意力掩膜特征图,并将所述注意力掩膜特征图作为中间特征图
Figure SMS_33
步骤S102-04,对所述中间特征图
Figure SMS_34
进行通道线性变换/>
Figure SMS_35
,利用特征各通道间的相关性生成尺度因子/>
Figure SMS_36
步骤S102-05,对所述中间特征图
Figure SMS_37
进行通道线性变换/>
Figure SMS_38
,利用特征各通道间的相关性生成平移因子/>
Figure SMS_39
步骤S102-06~S102-07,将所述尺度因子
Figure SMS_40
与所述特征图X点乘,对所述特征图X的值进行放缩,并加上所述平移因子/>
Figure SMS_41
进行仿射变换,得到输出特征/>
Figure SMS_42
,实现对所述特征图X的逐元素调控。
在本实施例中,步骤S102整体上都是根据输入特征的特性自适应调整特征本身,增加非线性表征能力,实现更加精细化的控制;对于编码过程中S102主要是让特征更加稀疏和集中,这样能在一定程度减少冗余。
在步骤S102-01中:特征提取层配合激活函数表示在特征的空间和通道维度进行线性运算和非线性运算,即特征提取层
Figure SMS_43
或特征提取层/>
Figure SMS_44
用于配合激活函数/>
Figure SMS_45
在特征的空间和通道维度进行线性运算和非线性运算;其中,线性运算包括但不限于:加法、减法、乘法、除法等简单运算以及卷积等组合运算,非线性运算包括但不限于:ReLU函数、LeakyReLU函数、Softplus函数、GeLU函数等。
在步骤S102-02中:输出权重约束的实施方式包括但不限于tanh函数、sigmoid函数等。
在步骤S102-04、S102-05中:通道线性变换需保证在只在通道维度进行线性运算,即不改变特征图的空间和通道维度,只是进一步利用特征各通道间的相关性生成尺度因子
Figure SMS_46
,或不改变特征图的空间和通道维度,只是进一步利用特征各通道间的相关性生成平移因子/>
Figure SMS_47
,具体实施方式包括但不限于:1*1卷积、全连接层等。
在上述步骤S102中,这一过程中所包含的步骤S102-03,主要是为了利用更多输入图像的空间和通道特性,从而得到重要性不同的中间特征,通过步骤S102-03能够为后续的步骤S102-04和S102-05生成仿射变换参数提供更明确的指导;而步骤S102-06~S102-07则是进行仿射变换提升特征的空间和通道特性对输入特征的影响。
在本实施例的另外一种实现方式中,在上述步骤S102-01~步骤S102-07的基础上,可以对其中的某一步骤或者多个步骤进行适应性改变,包括但不限于以下两个方面:
第一个是:从输入特征获取中间特征的过程,包含步骤S102-01~S102-03;步骤S102-01的特征提取层和激活函数组合的形式可以进行多种改进,本实施例中通过联合空间变换和通道变换来利用空间通道相关性进行重要特征提取,可变形的方案有只进行通道变换、只进行空间变换;具体举例说明就是,本方案采用3*3卷积层来进行特征提取,可变形的方式就有采用逐点(point-wise)1*1卷积或逐通道(depth-wise)DW3*3卷积。步骤S102-02与S102-03生成中间特征图的过程可以进行变形,本方案是通过注意力机制生成掩码mask与特征相乘,相应变形方式是引入自注意力机制或者不采用注意力直接生成中间特征。
第二个是:进行调制的过程,包含步骤S102-06~S102-07;本实施例中采用仿射变换的过程,可变形的方案包括更改变换参数的运算方式和顺序,或者增加/减少变换参数并更改意义。比如以下形式:
Figure SMS_48
本实施例中提出了适应于神经网络图像压缩的通道间变换,这种变换是基于自身特征输入特性来实现特征的自适应权重调整,并且这种调整方式是逐元素进行的,不同于以往图像压缩非线性变换中逐通道的运算方式,具体对应于步骤S102。本方案关键区别点就是自调制和逐元素变换;其中,自调制不需要额外信息来指导,可以增加该方案的适用性;而逐元素变换可以实现对特征更细粒度的表征。
在本实施例的另一种实现方式中,其他方法可能存在的组合方式为:
引入额外先验信息的调制、逐元素变换,或者通过自调制、逐通道变换;或者引入额外先验信息的调制、逐通道变换等。
如图1所示,在本发明实施例的一种实现方式中,基于自调制的通道间变换方法还包括以下步骤:
步骤S200,根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据。
在本实施例中,在对输入特征进行逐元素调控后,通过编码器对输出特征Y进行编码,而编码器的基本压缩单元为用于执行上述步骤S101~步骤S102的单元,因此,需要根据输入图像的尺寸、所需的潜在特征表示的尺寸等需求确定编码器的结构。
具体地,在本实施例的一种实现方式中,步骤S200之前包括以下步骤:
步骤S201a,根据所述输入图像的尺寸、所需的潜在特征表示的尺寸以及熵模型建模的性能表现,确定编码器和解码器中基本编码单元和基本重建单元的级联层数k。
在本实施例中,可以根据输入图像的尺寸、所需的潜在特征表示的尺寸以及熵模型建模的性能表现等,确定编码器中基本编码单元的级联层数k,从而根据该级联层数k确定步骤S101~步骤S102的重复次数。
具体地,在本实施例的一种实现方式中,步骤S200包括以下步骤:
步骤S201,构建基本压缩单元,根据所述基本压缩单元构建编码器,并根据所述编码器所述输出特征进行编码,得到所述输入图像的潜在特征表示y;
步骤S202,将所述潜在特征表示y输入量化单元Q,将浮点数压缩为整数,得到整数数据y_hat。
在本实施例中,可以根据步骤S101~步骤S102构成一个基本压缩单元,为增强网络的非线性变换能力并进一步提高压缩效率,将上述步骤S101~步骤S102重复多次,构成编码器;其中,设重复次数为k,最终得到图像的潜在特征表示y;得到的潜在表特征表示y经过量化单元Q,该单元将浮点数压缩为整数,进一步压缩数据,记为y_hat。
在上述步骤中,步骤S202表示量化过程,实现对特征进一步的压缩,其中涉及到的量化指将信号的连续取值近似为有限多个离散值的过程,包括但不限于:均匀量化、非均匀量化、标量量化、矢量量化等。
如图1所示,在本发明实施例的一种实现方式中,基于自调制的通道间变换方法还包括以下步骤:
步骤S300,将所述整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示。
在本实施例中,在量化得到整数数据y_hat后,通过无损编码模块AE和无损解码模块AD之间的转换过程,减少特征中存在的统计冗余。
具体地,在本实施例的一种实现方式中,步骤S300包括以下步骤:
步骤S301,将整数数据y_hat输入无损编码模块AE,将所述整数数据y_hat转化为二进制码流;
步骤S302,将所述二进制码流输入无损解码模块AD,将所述二进制码流还原为预设码率的整数潜在特征表示y’。
在本实施例中,整数y_hat通过无损编码模块AE,其中编码所用的各元素概率分布由熵模型进行估计,最终将y_hat转化为二进制码流;二进制码流可以经过信号传输,通过无损解码模块AD,将其还原为某一指定码率的整数潜在特征表示y’,其中无损解码模块AD所用的熵模型与无损编码模块AE中的相同。
具体地,在本实施例的一种实现方式中,步骤S301包括以下步骤:
步骤S301a,根据熵模型进行估计,得到编码所用的各元素概率分布;
步骤S301b,根据各元素概率分布将所述整数数据y_hat转化为二进制码流。
在本实施例中,步骤S301和步骤S302则是通过无损编码的方式进一步减少特征中存在的统计冗余,其中,无损编码模块AE和无损解码模块AD是指的是熵编码技术,具体实施方式包括但不限于:哈夫曼编码、算术编码、非对称数字系统等方法。
如图1所示,在本发明实施例的一种实现方式中,基于自调制的通道间变换方法还包括以下步骤:
步骤S400,将所述整数潜在特征表示输入所述上采样层进行空间维度的特征恢复,并将得到的特征图输入所述基于自调制的通道间变换层,得到所述输入图像对应的重建图像。
在本实施例中,在通过无损解码模块AD得到某一指定码率的整数潜在特征表示y’后,接下来是特征表示y’的图像重建过程,具体为S101~S102的逆过程。
具体地,在本实施例的一种实现方式中,步骤S400包括以下步骤:
步骤S401,将整数潜在特征表示y’通过上采样层进行空间维度的特征恢复,并在特征的通道维度进行变换,得到特征图
Figure SMS_49
步骤S402,将所述特征图
Figure SMS_50
经过所述基于自调制的通道间变换层,实现对输入特征的自调制,得到增强的非线性变换能力的输出特征/>
Figure SMS_51
步骤S403,构建基本重建单元,根据所述基本重建单元构建解码器,并通过所述解码器对输出特征
Figure SMS_52
进行解码,得到重建的图像x_hat。
在本实施例中,步骤S402的具体步骤与步骤S102的具体步骤(即步骤S102-01~步骤S102-07)相同。
在图像重建的过程中,需要通过解码器进行解码,类似于编码器的构建过程,需要确定解码器的基本单元。
解码器的基本重建单元为用于执行上述步骤S401~步骤S402的单元,因此,需要根据输入图像的尺寸、所需的潜在特征表示的尺寸等需求确定解码器的结构,即可以根据输入图像的尺寸、所需的潜在特征表示的尺寸以及熵模型建模的性能表现等,确定解码器中基本重建单元的级联层数k,从而根据该级联层数k确定步骤S401~步骤S402的重复次数。
根据步骤S401~步骤S402构成一个基本重建单元,为增强网络的非线性变换能力并提高图像重建效果,上述步骤S401~步骤S402将被多次重复,构成解码器,设重复次数为k,最终将得到重建的图像x_hat。
在步骤SS401中,上采样层表示一种空间分辨率增加的过程,具体实施方式包括但不限于:转置卷积、插值、子像素层等方法,上采样的倍数可以为2、4、6、8等整数;因此,对于步骤S401,整体上都是根据输入特征的特性自适应调整特征本身,增加非线性表征能力,实现更加精细化的控制;而在上述步骤S402中能够扩大图像空间分辨率,恢复图像的信息;因此,对于解码过程中S402主要是让特征能够更细节地表达更多图像的信息,这样有利于图像的重建。
本实施例中的特征调制可以看成一种广义的特征归一化形式,这一概念在图像超分和图像复原领域应用较多,具体是通过对网络的中间特征进行仿射变换,但变换的参数由额外的先验条件经过变换生成,比如利用语义图或者质量图作为先验条件。而在神经网络图像压缩中,不同于上述的调制方式,本实施例中将特征输入直接作为先验信息来生成变换参数实现自调制,这一过程有利于图像压缩中利用通道相关性进行特征的自适应、精细化调整。
本实施例整体上能够通过变换网络的编码器将图像映射到表征能力强的潜在特征表示,减少了图像中的冗余信息,实现更高的压缩效率;同时通过变换网络的解码器将潜在特征表示恢复成图像,增强特征的细节信息,提高图像的重建质量;整个方案完成率失真性能的优化,突出探索通道间关系而进行的逐元素调制和自适应权重变换所带来的压缩性能增益。
本实施例通过上述技术方案达到以下技术效果:
本实施例以中间特征图为输入,获取通道间的相关性,并生成仿射变换参数用于逐元素的特征调制。本实施例提出的非线性变换可以实现自适应加权,并对特征进行细粒度控制,通过这种方法利用特征图的空间特性和通道特性获得了有效的特征表示,进一步减少了潜在表示的冗余,与现有的神经网络图像压缩方法相比,能够获得具有竞争力的率失真性能,提高了图像压缩的压缩效率。
示例性设备
基于上述实施例,本发明还提供一种基于自调制的通道间变换装置,包括:
非线性变换模块,用于将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征;
潜在特征模块,用于根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据;
无损编解码模块,用于将所述整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
图像重建模块,用于将所述整数潜在特征表示输入所述上采样层进行空间维度的特征恢复,并将得到的特征图输入所述基于自调制的通道间变换层,得到所述输入图像对应的重建图像。
基于上述实施例,本发明还提供一种终端,其原理框图可以如图3所示。
该终端包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,该终端的处理器用于提供计算和控制能力;该终端的存储器包括存储介质以及内存储器;该存储介质存储有操作系统和计算机程序;该内存储器为存储介质中的操作系统和计算机程序的运行提供环境;该接口用于连接外部设备,例如,移动终端以及计算机等设备;该显示屏用于显示相应的信息;该通讯模块用于与云端服务器或移动终端进行通讯。
该计算机程序被处理器执行时用以实现基于自调制的通道间变换方法的操作。
本领域技术人员可以理解的是,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,存储器存储有基于自调制的通道间变换程序,基于自调制的通道间变换程序被处理器执行时用于实现如上的基于自调制的通道间变换方法的操作。
在一个实施例中,提供了一种存储介质,其中,存储介质存储有基于自调制的通道间变换程序,基于自调制的通道间变换程序被处理器执行时用于实现如上的基于自调制的通道间变换方法的操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
综上,本发明提供了一种基于自调制的通道间变换方法、装置、终端及介质,方法包括:将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征;根据输出特征得到输入图像的潜在特征表示,并将潜在特征表示输入量化单元进行压缩,得到整数数据;将整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将二进制码流还原为整数潜在特征表示;将整数潜在特征表示输入上采样层进行空间维度的特征恢复,并将得到的特征图输入基于自调制的通道间变换层,得到重建图像。本发明提出了适应于神经网络图像压缩的通道间变换,减少了潜在表示的冗余,提高了压缩效率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (13)

1.一种基于自调制的通道间变换方法,其特征在于,包括:
将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征;
根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据;
将所述整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
将所述整数潜在特征表示输入所述上采样层进行空间维度的特征恢复,并将得到的特征图输入所述基于自调制的通道间变换层,得到所述输入图像对应的重建图像。
2.根据权利要求1所述的基于自调制的通道间变换方法,其特征在于,所述将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征,包括:
将输入图像x输入所述下采样层,对所述输入图像x进行空间维度的特征压缩,并在特征的通道维度进行变换,得到特征图X;
将所述特征图X输入所述基于自调制的通道间变换层进行自调制,得到增强的具有非线性变换能力的输出特征Y。
3.根据权利要求2所述的基于自调制的通道间变换方法,其特征在于,所述将输入图像x输入所述下采样层,对所述输入图像x进行空间维度的特征压缩,包括:
将输入图像x输入所述下采样层,通过所述下采样层对所述输入图像x进行卷积、池化以及抽取处理,得到空间维度下的压缩特征。
4.根据权利要求2所述的基于自调制的通道间变换方法,其特征在于,所述将所述特征图X输入所述基于自调制的通道间变换层进行自调制,得到增强的具有非线性变换能力的输出特征Y,包括:
通过特征提取层
Figure QLYQS_1
、特征提取层/>
Figure QLYQS_2
以及激活函数/>
Figure QLYQS_3
对所述特征图X进行空间、通道维度变换,捕获特征空间和通道的相关性,得到具有表征能力的特征/>
Figure QLYQS_4
Figure QLYQS_5
根据所述特征
Figure QLYQS_6
生成重要性权重,并表征特征空间通道上的重要性程度,特征值经过输出权重约束模块/>
Figure QLYQS_7
限制到特定范围/>
Figure QLYQS_8
将所述重要性权重与所述特征图X进行逐元素点乘,得到注意力掩膜特征图,并将所述注意力掩膜特征图作为中间特征图
Figure QLYQS_9
对所述中间特征图
Figure QLYQS_10
进行通道线性变换/>
Figure QLYQS_11
,利用特征各通道间的相关性生成尺度因子/>
Figure QLYQS_12
对所述中间特征图
Figure QLYQS_13
进行通道线性变换/>
Figure QLYQS_14
,利用特征各通道间的相关性生成平移因子/>
Figure QLYQS_15
将所述尺度因子
Figure QLYQS_16
与所述特征图X点乘,对所述特征图X的值进行放缩,并加上所述平移因子/>
Figure QLYQS_17
进行仿射变换,得到输出特征/>
Figure QLYQS_18
,实现对所述特征图X的逐元素调控。
5.根据权利要求4所述的基于自调制的通道间变换方法,其特征在于:
所述特征提取层
Figure QLYQS_19
或所述特征提取层/>
Figure QLYQS_20
用于配合所述激活函数/>
Figure QLYQS_21
在特征的空间和通道维度进行线性运算和非线性运算;
所述线性运算包括:加法、减法、乘法、除法以及卷积中的一种或者组合运算;
所述非线性运算包括:ReLU函数、LeakyReLU函数、Softplus函数以及GeLU函数。
6.根据权利要求1所述的基于自调制的通道间变换方法,其特征在于,所述根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据,包括:
构建基本压缩单元,根据所述基本压缩单元构建编码器,并根据所述编码器所述输出特征进行编码,得到所述输入图像的潜在特征表示y;
将所述潜在特征表示y输入量化单元Q,将浮点数压缩为整数,得到整数数据y_hat。
7.根据权利要求1所述的基于自调制的通道间变换方法,其特征在于,所述将所述整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示,包括:
将整数数据y_hat输入无损编码模块AE,将所述整数数据y_hat转化为二进制码流;
将所述二进制码流输入无损解码模块AD,将所述二进制码流还原为预设码率的整数潜在特征表示y’。
8.根据权利要求7所述的基于自调制的通道间变换方法,其特征在于,所述将所述整数数据y_hat转化为二进制码流,包括:
根据熵模型进行估计,得到编码所用的各元素概率分布;
根据各元素概率分布将所述整数数据y_hat转化为二进制码流。
9.根据权利要求1所述的基于自调制的通道间变换方法,其特征在于,所述将所述整数潜在特征表示输入所述上采样层进行空间维度的特征恢复,并将得到的特征图输入所述基于自调制的通道间变换层,得到所述输入图像对应的重建图像,包括:
将整数潜在特征表示y’通过上采样层进行空间维度的特征恢复,并在特征的通道维度进行变换,得到特征图
Figure QLYQS_22
将所述特征图
Figure QLYQS_23
经过所述基于自调制的通道间变换层,实现对输入特征的自调制,得到增强的非线性变换能力的输出特征/>
Figure QLYQS_24
构建基本重建单元,根据所述基本重建单元构建解码器,并通过所述解码器对输出特征
Figure QLYQS_25
进行解码,得到重建的图像x_hat。
10.根据权利要求9所述的基于自调制的通道间变换方法,其特征在于,所述根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据,之前包括:
根据所述输入图像的尺寸、所需的潜在特征表示的尺寸以及熵模型建模的性能表现,确定编码器和解码器中基本编码单元和基本重建单元的级联层数k。
11.一种基于自调制的通道间变换装置,其特征在于,包括:
非线性变换模块,用于将输入图像输入下采样层进行空间维度的特征压缩,并将得到的特征图输入基于自调制的通道间变换层,得到具有非线性变换能力的输出特征;
潜在特征模块,用于根据所述输出特征得到所述输入图像的潜在特征表示,并将所述潜在特征表示输入量化单元进行压缩,得到整数数据;
无损编解码模块,用于将所述整数数据输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
图像重建模块,用于将所述整数潜在特征表示输入所述上采样层进行空间维度的特征恢复,并将得到的特征图输入所述基于自调制的通道间变换层,得到所述输入图像对应的重建图像。
12.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有基于自调制的通道间变换程序,所述基于自调制的通道间变换程序被所述处理器执行时用于实现如权利要求1-10中任意一项所述的基于自调制的通道间变换方法的操作。
13.一种介质,其特征在于,所述介质为计算机可读存储介质,所述介质存储有基于自调制的通道间变换程序,所述基于自调制的通道间变换程序被处理器执行时用于实现如权利要求1-10中任意一项所述的基于自调制的通道间变换方法的操作。
CN202310167603.XA 2023-02-27 2023-02-27 一种基于自调制的通道间变换方法、装置、终端及介质 Active CN115866253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310167603.XA CN115866253B (zh) 2023-02-27 2023-02-27 一种基于自调制的通道间变换方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310167603.XA CN115866253B (zh) 2023-02-27 2023-02-27 一种基于自调制的通道间变换方法、装置、终端及介质

Publications (2)

Publication Number Publication Date
CN115866253A true CN115866253A (zh) 2023-03-28
CN115866253B CN115866253B (zh) 2023-06-06

Family

ID=85659036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310167603.XA Active CN115866253B (zh) 2023-02-27 2023-02-27 一种基于自调制的通道间变换方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN115866253B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116260969A (zh) * 2023-05-15 2023-06-13 鹏城实验室 一种自适应的通道渐进式编解码方法、装置、终端及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1571517A (zh) * 2000-07-07 2005-01-26 松下电器产业株式会社 图像编码装置和图像编码方法
US11153566B1 (en) * 2020-05-23 2021-10-19 Tsinghua University Variable bit rate generative compression method based on adversarial learning
CN113554720A (zh) * 2021-07-22 2021-10-26 南京航空航天大学 一种基于多方向卷积神经网络的多光谱图像压缩方法及系统
CN113762457A (zh) * 2020-06-03 2021-12-07 三星电子株式会社 解码的方法、训练神经网络的方法和存储器装置
CN114581544A (zh) * 2022-05-09 2022-06-03 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 图像压缩方法、计算机设备及计算机存储介质
CN115361555A (zh) * 2022-06-30 2022-11-18 浙江大华技术股份有限公司 图像编码方法、图像编码方法、装置以及计算机存储介质
US20220405602A1 (en) * 2021-06-21 2022-12-22 Qualcomm Incorporated Channel feature extraction via model-based neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1571517A (zh) * 2000-07-07 2005-01-26 松下电器产业株式会社 图像编码装置和图像编码方法
US11153566B1 (en) * 2020-05-23 2021-10-19 Tsinghua University Variable bit rate generative compression method based on adversarial learning
CN113762457A (zh) * 2020-06-03 2021-12-07 三星电子株式会社 解码的方法、训练神经网络的方法和存储器装置
US20220405602A1 (en) * 2021-06-21 2022-12-22 Qualcomm Incorporated Channel feature extraction via model-based neural networks
CN113554720A (zh) * 2021-07-22 2021-10-26 南京航空航天大学 一种基于多方向卷积神经网络的多光谱图像压缩方法及系统
CN114581544A (zh) * 2022-05-09 2022-06-03 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 图像压缩方法、计算机设备及计算机存储介质
CN115361555A (zh) * 2022-06-30 2022-11-18 浙江大华技术股份有限公司 图像编码方法、图像编码方法、装置以及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116260969A (zh) * 2023-05-15 2023-06-13 鹏城实验室 一种自适应的通道渐进式编解码方法、装置、终端及介质
CN116260969B (zh) * 2023-05-15 2023-08-18 鹏城实验室 一种自适应的通道渐进式编解码方法、装置、终端及介质

Also Published As

Publication number Publication date
CN115866253B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
Hu et al. Learning end-to-end lossy image compression: A benchmark
Cheng et al. Energy compaction-based image compression using convolutional autoencoder
JP7123169B2 (ja) ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体
WO2018121670A1 (zh) 压缩/解压缩的装置和系统、芯片、电子装置
WO2020237646A1 (zh) 图像处理方法、设备及计算机可读存储介质
CN111263161B (zh) 视频压缩处理方法、装置、存储介质和电子设备
CN110677651A (zh) 一种视频压缩方法
US8416861B2 (en) Fixed-point implementation of an adaptive image filter with high coding efficiency
CN112702592B (zh) 端到端双目图像联合压缩方法、装置、设备和介质
CN114581544A (zh) 图像压缩方法、计算机设备及计算机存储介质
CN111314709A (zh) 基于机器学习的视频压缩
US11863799B2 (en) Image encoding method and apparatus, image decoding method and apparatus, and chip
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
CN115866253B (zh) 一种基于自调制的通道间变换方法、装置、终端及介质
CN113538287B (zh) 视频增强网络训练方法、视频增强方法及相关装置
Li et al. Multiple description coding based on convolutional auto-encoder
Guo et al. CBANet: Toward complexity and bitrate adaptive deep image compression using a single network
WO2018120019A1 (zh) 用于神经网络数据的压缩/解压缩的装置和系统
CN115776571B (zh) 一种图像压缩方法、装置、设备及存储介质
CN111080729A (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
CN111479286A (zh) 一种边缘计算系统减少通信流量的数据处理方法
CN115866252A (zh) 一种图像压缩方法、装置、设备及存储介质
CN116260969B (zh) 一种自适应的通道渐进式编解码方法、装置、终端及介质
CN114846806A (zh) 用于图像压缩的累积分布函数的有效率更新
CN113096019A (zh) 图像重建方法、装置、图像处理设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant