CN116260969A - 一种自适应的通道渐进式编解码方法、装置、终端及介质 - Google Patents
一种自适应的通道渐进式编解码方法、装置、终端及介质 Download PDFInfo
- Publication number
- CN116260969A CN116260969A CN202310537486.1A CN202310537486A CN116260969A CN 116260969 A CN116260969 A CN 116260969A CN 202310537486 A CN202310537486 A CN 202310537486A CN 116260969 A CN116260969 A CN 116260969A
- Authority
- CN
- China
- Prior art keywords
- feature
- representation
- module
- linear
- transformation module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000000750 progressive effect Effects 0.000 title claims abstract description 54
- 230000009466 transformation Effects 0.000 claims abstract description 147
- 230000006835 compression Effects 0.000 claims abstract description 38
- 238000007906 compression Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000005070 sampling Methods 0.000 claims abstract description 27
- 238000011084 recovery Methods 0.000 claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 230000003044 adaptive effect Effects 0.000 claims description 31
- 238000013139 quantization Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 230000001965 increasing effect Effects 0.000 claims description 8
- 238000007667 floating Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013138 pruning Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种自适应的通道渐进式编解码方法、装置、终端及介质,包括:将输入图像信号输入下采样粗粒度线性特征变换模块,并将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理;将得到的第二中间特征表示输入下采样细粒度线性特征变换模块,并将得到的潜在特征输入量化器进行压缩;将得到的整数表示输入无损编码模块进行转化,并通过无损解码模块还原为整数潜在特征表示;将整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,并将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像。本发明实现通道渐进式编解码,以适用不同带宽。
Description
技术领域
本发明涉及通信技术领域,尤其涉及的是一种自适应的通道渐进式编解码方法、装置、终端及介质。
背景技术
空间通信大规模数据传输具有延时大丢包,延时抖动厉害,传输成本高昂的特点,一般的传输信道很难满足要求,必须对大规模数据进行压缩优化。以图像数据为例, 近年来,许多基于深度学习的神经网络图像压缩方法达到了比JPEG、BPG等传统图像压缩方法更好的性能。但是现存的基于深度学习的图像压缩框架往往采用参数量大、计算复杂度高的神经网络模型,带宽需求较大。因此,需要考虑如何降低模型复杂度,合理地利用有限的卫星计算资源,缓解任务接收卫星的计算压力。
为了减少压缩网络模型的计算复杂度和参数量,许多方案将动态剪枝、知识蒸馏、混合精度量化等技术引入图像压缩领域,但是这些方法在图像压缩任务中都存在着不同程度的缺陷。例如动态剪枝根据输入样本进行自适应选择,在少量损失率失真性能的前提下可以实现模型的大幅度压缩,但是此类动态方法无法满足硬件部署的实时性要求。知识蒸馏的核心在于通过教师模型与学生模型之间的多层次码率模型共享,传递码率模型的先验知识,将教师网络的模型特征与结果迁移到学生网络,以此实现模型的轻量化。但是基于深度学习的图像压缩本质上是一种面向率失真的最优模型优化过程,率失真损失函数本身包含多损失函数的平衡,简单的损失函数的逼近函数不能实现率失真信息的迁移。而混合精度量化的目的是通过为不同网络层分配不同的比特数实现网络模型的压缩,但是此类方法需要指数量级的搜索空间,同时率失真性能损失较大;因此,围绕空间通信大规模数据传输需求,这些方案还不能解决数据传输过程中的带宽不稳定问题。
因此,现有技术还有待改进。
发明内容
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种自适应的通道渐进式编解码方法、装置、终端及介质,以解决现有的数据传输过程中的带宽不稳定问题。
本发明解决技术问题所采用的技术方案如下:
第一方面,本发明提供一种自适应的通道渐进式编解码方法,包括:
将输入图像信号输入下采样粗粒度线性特征变换模块,进行空间维度压缩,并将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理,得到第二中间特征表示;
将所述第二中间特征表示输入下采样细粒度线性特征变换模块进行特征变换处理,并将得到的潜在特征输入量化器进行压缩,得到整数表示;
将所述整数表示输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
将所述整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,并将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像。
在一种实现方式中,所述将输入图像信号输入下采样粗粒度线性特征变换模块,进行空间维度压缩,包括:
将所述输入图像信号输入所述下采样粗粒度线性特征变换模块,对所述输入图像信号进行空间维度压缩,并对所述输入图像信号的通道维度进行幅度扩展,得到所述第一中间特征表示。
在一种实现方式中,所述对所述输入图像信号进行空间维度压缩,并对所述输入图像信号的通道维度进行幅度扩展,得到所述第一中间特征表示,包括:
通过所述下采样粗粒度线性特征变换模块对所述输入图像信号的通道维度进行升维,并对空间维度进行降维,得到所述第一中间特征表示。
在一种实现方式中,所述将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理,得到第二中间特征表示,包括:
将所述第一中间特征表示经过所述非线性特征变换模块,进行广义的非线性处理,捕捉图像的统计特性,并将所述统计特性的分布转换为高斯分布,得到所述第二中间特征表示。
在一种实现方式中,所述将所述第二中间特征表示输入下采样细粒度线性特征变换模块进行特征变换处理,并将得到的潜在特征输入量化器进行压缩,得到整数表示,包括:
将所述第二中间特征表示经过所述下采样细粒度线性特征变换模块,进行特征变换处理,得到所述潜在特征;
通过所述量化器将编码器得到的潜在表示进行量化处理,将浮点数的数据压缩为整数表示。
在一种实现方式中,所述将所述第二中间特征表示经过所述下采样细粒度线性特征变换模块,进行特征变换处理,包括:
利用较小感受野的下采样线性特征变换模块对所述第二中间特征表示的通道维度进行升维,并对空间维度进行降维,得到第三中间特征表示;
将所述第三中间特征表示经过多分枝的线性变换模块,得到多分枝线性变换输出的第四中间特征表示;
将所述第二中间特征表示输入对应的空间维度和通道维度,进行维度变换,并变换后的第二中间特征表示与所述第四中间特征表示进行特征融合,得到第五中间特征表示;
通过所述多分支线性变换模块将每个分支的权重系数进行等价的线性融合,得到融合权重系数,并利用融合的权重系数对所述第三中间特征表示进行等价的线性变换,得到所述潜在特征表示。
在一种实现方式中,所述变换后的第二中间特征表示与所述第四中间特征表示具有相同的张量形状,所述第三中间特征表示与所述第四中间特征表示具有相同的张量形状。
在一种实现方式中,所述将所述整数表示输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示,包括:
将所述整数表示经过所述无损编码模块,利用熵模型模块对编码所用的每一个元素概率分布进行估计,得到所述二进制码流;
利用所述无损解码模块对所述二进制码流进行解码,将码率文件还原为预设码率约束下的整数潜在表示。
在一种实现方式中,所述将所述整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,包括:
将所述潜在特征表示经过所述上采样粗粒度线性特征变换模块,恢复原始图像的部分特征,并对对应的通道维度进行升降维操作,得到第一恢复特征图。
在一种实现方式中,所述将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像,包括:
将所述第一恢复特征图经过所述非线性特征变换模块,对多维特征图空间、通道维度的特征进行提取,得到第二恢复特征图;
将所述第二恢复特征图,经过所述上采样细粒度特征线性变换模块,得到所述输入图像信号对应的重建图像。
第二方面,本发明提供一种自适应的通道渐进式编解码装置,包括:
压缩及非线性处理模块,用于将输入图像信号输入下采样粗粒度线性特征变换模块,进行空间维度压缩,并将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理,得到第二中间特征表示;
特征变换及量化模块,用于将所述第二中间特征表示输入下采样细粒度线性特征变换模块进行特征变换处理,并将得到的潜在特征输入量化器进行压缩,得到整数表示;
无损编解码模块,用于将所述整数表示输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
图像重建模块,用于将所述整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,并将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像。
第三方面,本发明提供一种终端,包括:处理器以及存储器,所述存储器存储有自适应的通道渐进式编解码程序,所述自适应的通道渐进式编解码程序被所述处理器执行时用于实现如第一方面所述的自适应的通道渐进式编解码方法的操作。
第四方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有自适应的通道渐进式编解码程序,所述自适应的通道渐进式编解码程序被处理器执行时用于实现如第一方面所述的自适应的通道渐进式编解码方法的操作。
本发明采用上述技术方案具有以下效果:
本发明通过粗粒度线性特征变换模块进行空间维度压缩,并通过细粒度线性特征变换模块进行特征变换处理,利用粗粒度线性模块和细粒度多分支线性模块的组合,提取更强表达能力的特征,实现通道渐进式编解码,以适用不同带宽。本发明可以降低编码网络的参数量和复杂度,适应不同的带宽需求,从而可以合理地利用有限的卫星计算资源,缓解任务接收卫星的计算压力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明的一种实现方式中自适应的通道渐进式编解码方法的流程图。
图2是本发明的一种实现方式中自适应的通道渐进式编解码框架的示意图。
图3是传统的神经网络压缩模型的示意图。
图4是本发明的一种实现方式中终端的功能原理图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
示例性方法
现有的基于深度学习的图像压缩,本质上是一种面向率失真的最优模型优化过程,率失真损失函数本身包含多损失函数的平衡,简单的损失函数的逼近函数不能实现率失真信息的迁移。而混合精度量化的目的是通过为不同网络层分配不同的比特数实现网络模型的压缩,但是此类方法需要指数量级的搜索空间,同时率失真性能损失较大;因此,围绕空间通信大规模数据传输需求,这些方案还不能解决数据传输过程中的带宽不稳定问题。
针对上述技术问题,本实施例中提供了一种自适应的通道渐进式编解码方法,本实施例中的方法可以降低编码网络的参数量和复杂度,适应不同的带宽需求,从而可以合理地利用有限的卫星计算资源,缓解任务接收卫星的计算压力。
在本实施例中,该自适应的通道渐进式编解码方法应用于终端上,该终端包括但不限于:计算机以及移动终端设备。
如图1所示,本发明实施例提供一种自适应的通道渐进式编解码方法,包括以下步骤:
步骤S100,将输入图像信号输入下采样粗粒度线性特征变换模块,进行空间维度压缩,并将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理,得到第二中间特征表示;
步骤S200,将所述第二中间特征表示输入下采样细粒度线性特征变换模块进行特征变换处理,并将得到的潜在特征输入量化器进行压缩,得到整数表示;
步骤S300,将所述整数表示输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
步骤S400,将所述整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,并将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像。
在本实施例中,利用粗粒度线性模块和细粒度多分支线性模块的组合,提取更强表达能力的特征,实现通道渐进式编解码,以适用不同带宽。同时有效降低编码网络的参数量和复杂度,有效利用星上有限计算资源。
具体来说,通过调整经典神经网络图像压缩模型中不同层之间的通道数,设计通道渐进式编解码结构,不同程度上减少对应码率模型的参数量和计算复杂度;在训练阶段,通过利用粗粒度变换线性模块、细粒度线性变换模块及非线性特征变换模块的组合,进一步提取更具表达能力的中间特征,在推理阶段,将多分枝线性变化模块线性叠加为简单的线性变换,使图像压缩网络在不增加网络参数量和计算复杂度的同时,进一步提升压缩网络的率失真性能。
以下结合图2所示的整体的技术框架对上述步骤S100~S400进行具体说明,如图2所示,具体的步骤如下:
在步骤S101中,下采样粗粒度线性特征变换模块的处理过程可以表示为:对通道维度的升维和空间维度的降维的变换操作,该模块的具体实现方式可以表示为:大核卷积、池化、下采样等操作,空间降维和通道升维的倍数可以为2、4、6、8等整数倍;即步骤S101的具体实现方式为,通过下采样粗粒度线性特征变换模块对输入图像信号的通道维度进行升维,并对空间维度进行降维,得到中间特征表示。
在步骤S102中,非线性特征变换模块的处理过程可以表示为:一种由非线性运算和线性运算组合而成的特征提取过程,其中,所涉及到的线性运算包括但不限于:加法、减法、乘法、除法等简单运算,或仿射、卷积等组合运算,非线性变换包括但不限于:正切函数,Sigmoid函数(S型数学曲线),Softplus函数(激活函数),softmax函数(归一化函数),ReLU函数(变相激活函数)等。
步骤S103-02:在网络训练阶段,将中间特征表示经过多分枝的线性变换模块,得到一系列的中间特征表示,此类中间特征表示与具有相同的空间维度和通道维度;然后,将这些特征表示进行特征融合,得到多分枝线性变换的输出,即得到第四中间特征表示。此时,和具有相同的张量形状,即第三中间特征表示与第四中间特征表示具有相同的张量形状;
步骤S103-03:将初始的中间特征输入的空间维度和通道维度进行维度变换,以保持中间特征与 具有相同的张量形状,即变换后的第二中间特征表示与第四中间特征表示具有相同的张量形状;然后与多分枝线性变换的输出进行进一步的特征融合。得到表达能力更强的中间特征表示,即得到第五中间特征表示;
步骤S103-04:在测试阶段,利用步骤S103-02中的多分支线性变换模块先将每个分支的权重系数进行等价的线性融合,得到融合权重系数,然后再利用融合的权重系数对中间特征表示进行等价的线性变换,在保证特征相同表现能力的同时,降低了多分枝线性变换模块的参数量和计算复杂度。然后,继续循环步骤S102~S103,直至完成整个渐进式编码器中的所有编码层的操作,此时整个渐进式编码单元后得到的潜在特征表示记为。
在步骤103中:下采样细粒度特征线性变换模块可以表示为粗粒度线性变换模块和多分枝线性变换模块的任意组合。具体来说,在步骤S103-01中,粗粒度线性特征变换可表示为小核卷积、池化、下采样等操作;多分支线性变换模块可表示为:一阶边缘检测算子、二阶拉普拉斯算子、卷积等操作;在步骤S103-03中,所采用的特征融合方式包括但不限于:特征相加、特征相减、特征点乘等方式。
本实施例中的编码器为渐进式编码器,该编码器的基本编码单元为用于执行上述步骤S102~S103的单元,因此,需要根据输入图像的尺寸、所需的潜在特征表示的尺寸等需求确定编码器的结构,即根据输入图像的尺寸、所需的潜在特征表示的尺寸以及熵模型建模的性能表现等,确定编码器中基本编码单元的级联层数k,从而根据该级联层数k确定基本编码单元的层数,即确定执行步骤S102~S103的次数。
在步骤104中,量化指将信号的连续取值近似为有限多个离散值的过程,包括但不限于:均匀量化、非均匀量化、标量量化、矢量量化等。
步骤S106:利用无损解码模块AD,对经过传输后的二进制码流文件进行解码,其核心在于将码率文件还原为某一码率约束下的整数潜在表示,得到潜在特征表示,需要注意的是,此步骤使用的熵模型与步骤S105中的熵模型相同。
在步骤S105~S106中:无损编码模块AE和无损解码模块AD指的是熵编码技术,具体实施方式包括但不限于:哈夫曼编码、算数编码、区顶顶间编码等方法。
在步骤S107中:上采样粗粒度线性特征变换模块可以表示为对通道维度的降维和空间维度的升维,具体实现方式可以表示为:大核卷积、插值、上采样等,空间升维和通道降度倍数可以为2、4、6、8等整数。
在步骤S108中:与步骤S102的具体实现方式相同。
步骤S109:将中间特征图经过上采样细粒度线性特征变换模块,此步骤为S103的逆过程,步骤S107~S109构成一个基本的图像恢复过程,为提高图像恢复效果,增强网络整体压缩性能,上述步骤S107~S109将被多次重复,即级联的稀疏解压缩单元,设重复次数为k,最终经过整个渐进式解码器,将得到重建的图像。
本实施例中的解码器为渐进式解码器,该解码器的基本重建单元为用于执行上述步骤S107~S109的单元,因此,需要根据输入图像的尺寸、所需的潜在特征表示的尺寸等需求确定解码器的结构,即根据输入图像的尺寸、所需的潜在特征表示的尺寸以及熵模型建模的性能表现等,确定解码器中基本重建单元的级联层数k,从而根据该级联层数k确定基本重建单元的层数,即确定执行步骤S107~S109的次数。
在步骤S109中:为步骤S103的逆过程,上采样细粒度线性特征变换模块可以表示为粗粒度线性变换模块和多分枝线性变换模块的任意组合。具体来说,粗粒度特征线性变换可表示为小核卷积、上采样等;多分支线性变换模块可表示但不限为一阶边缘检测算子,二阶拉普拉斯算子、卷积等。
具体来说,如图3所示,传统的神经网络编码器和解码器都包含若干个线性变换器和非线性变换器,这些变换器都保持处理的通道维度不变,而对于低层的线性变换器,其中间特征存在的大量的特征通道冗余,因此可以缩减不同层的通道数,从而在降低图片通道冗余的同时一定程度上减少网络的参数量和复杂度。因此区别于传统神经网络,本实施例中从步骤S101~S103以及其循环步骤,都在不同程度上缩小线性变换和非线性变换器的通道维度,渐进式解码中的步骤S107~S109也是同理,为编码器的逆过程。因此,本实施例中渐进式的编解码器设计能在少量较低神经网络压缩模型的率失真性能的前提下,显著减少网络的参数量度和计算复杂度。
同时,本实施例中粗粒度和细粒度的线性变换模块的组合进一步增强了网络中间特征的表达能力,以细粒度线性变换器为例。步骤S103-02在网络的训练过程中,采用多分枝结构对输入中间特征表示进行多分支的线性变换,从而进一步增强了中间特征的表达能力。根据线性操作的可加性,在推理阶段将多分枝的线性变换折叠合并成单个线性变化器,从而在提升率失真性能的同时不增加任何的参数量和计算复杂度。
综上所述,本实施例中在步骤S101、S102、S103及渐进式编解码中,利用通道维度递增的渐进式结构可以显著减少神经网络图像压缩模型参数量和计算复杂度,同时不显著损失模型的率失真性能;在步骤S103中,利用粗粒度线性模块和细粒度多分支线性模块的组合,提取特征表达能力更强的中间特征,同时S103-04中,在推理阶段通过线性叠加将多分枝权重线性等价合并为一个独立的权重,从而在推理阶段将多分枝结构简化为简单的线性操作,从而在不增加任何参数量和计算复杂度的前提下,提升渐进式编解码器的率失真性能,从而实现高效的图像压缩框架。
在本实施例的其他实现方式中,对于渐进式编码器和渐进式解码器,也可以通过对每层进行结构化剪枝实现,但是剪枝的通道数随机性较大,依赖于额外的损失函数。对于步骤S103-02中的多分枝线性变换模块,可以用串联的线性变换模块替代,此时融合方式变为权重的线性乘法。但是串联的线性融合,如果不在串联的线性变换模块中穿插非线性变换,效果将会有一定的损失。
本实施例通过上述技术方案达到以下技术效果:
本实施例通过粗粒度线性特征变换模块进行空间维度压缩,并通过细粒度线性特征变换模块进行特征变换处理,利用粗粒度线性模块和细粒度多分支线性模块的组合,提取更强表达能力的特征,实现通道渐进式编解码,以适用不同带宽。本实施例可以降低编码网络的参数量和复杂度,适应不同的带宽需求,从而可以合理地利用有限的卫星计算资源,缓解任务接收卫星的计算压力。
示例性设备
基于上述实施例,本发明还提供一种自适应的通道渐进式编解码装置,包括:
压缩及非线性处理模块,用于将输入图像信号输入下采样粗粒度线性特征变换模块,进行空间维度压缩,并将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理,得到第二中间特征表示;
特征变换及量化模块,用于将所述第二中间特征表示输入下采样细粒度线性特征变换模块进行特征变换处理,并将得到的潜在特征输入量化器进行压缩,得到整数表示;
无损编解码模块,用于将所述整数表示输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
图像重建模块,用于将所述整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,并将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像。
基于上述实施例,本发明还提供一种终端,其原理框图可以如图4所示。
该终端包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,该终端的处理器用于提供计算和控制能力;该终端的存储器包括存储介质以及内存储器;该存储介质存储有操作系统和计算机程序;该内存储器为存储介质中的操作系统和计算机程序的运行提供环境;该接口用于连接外部设备,例如,移动终端以及计算机等设备;该显示屏用于显示相应的信息;该通讯模块用于与云端服务器或移动终端进行通讯。
该计算机程序被处理器执行时用以实现自适应的通道渐进式编解码方法的操作。
本领域技术人员可以理解的是,图4中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,存储器存储有自适应的通道渐进式编解码程序,自适应的通道渐进式编解码程序被处理器执行时用于实现如上的自适应的通道渐进式编解码方法的操作。
在一个实施例中,提供了一种计算机可读存储介质,其中,该计算机可读存储介质存储有自适应的通道渐进式编解码程序,自适应的通道渐进式编解码程序被处理器执行时用于实现如上的自适应的通道渐进式编解码方法的操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
综上,本发明提供了一种自适应的通道渐进式编解码方法、装置、终端及介质,方法包括:将输入图像信号输入下采样粗粒度线性特征变换模块,并将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理;将得到的第二中间特征表示输入下采样细粒度线性特征变换模块,并将得到的潜在特征输入量化器进行压缩;将得到的整数表示输入无损编码模块进行转化,并通过无损解码模块还原为整数潜在特征表示;将整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,并将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像。本发明实现通道渐进式编解码,以适用不同带宽。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (13)
1.一种自适应的通道渐进式编解码方法,其特征在于,包括:
将输入图像信号输入下采样粗粒度线性特征变换模块,进行空间维度压缩,并将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理,得到第二中间特征表示;
将所述第二中间特征表示输入下采样细粒度线性特征变换模块进行特征变换处理,并将得到的潜在特征输入量化器进行压缩,得到整数表示;
将所述整数表示输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
将所述整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,并将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像。
2.根据权利要求1所述的自适应的通道渐进式编解码方法,其特征在于,所述将输入图像信号输入下采样粗粒度线性特征变换模块,进行空间维度压缩,包括:
将所述输入图像信号输入所述下采样粗粒度线性特征变换模块,对所述输入图像信号进行空间维度压缩,并对所述输入图像信号的通道维度进行幅度扩展,得到所述第一中间特征表示。
3.根据权利要求2所述的自适应的通道渐进式编解码方法,其特征在于,所述对所述输入图像信号进行空间维度压缩,并对所述输入图像信号的通道维度进行幅度扩展,得到所述第一中间特征表示,包括:
通过所述下采样粗粒度线性特征变换模块对所述输入图像信号的通道维度进行升维,并对空间维度进行降维,得到所述第一中间特征表示。
4.根据权利要求1所述的自适应的通道渐进式编解码方法,其特征在于,所述将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理,得到第二中间特征表示,包括:
将所述第一中间特征表示经过所述非线性特征变换模块,进行广义的非线性处理,捕捉图像的统计特性,并将所述统计特性的分布转换为高斯分布,得到所述第二中间特征表示。
5.根据权利要求1所述的自适应的通道渐进式编解码方法,其特征在于,所述将所述第二中间特征表示输入下采样细粒度线性特征变换模块进行特征变换处理,并将得到的潜在特征输入量化器进行压缩,得到整数表示,包括:
将所述第二中间特征表示经过所述下采样细粒度线性特征变换模块,进行特征变换处理,得到所述潜在特征;
通过所述量化器将编码器得到的潜在表示进行量化处理,将浮点数的数据压缩为整数表示。
6.根据权利要求5所述的自适应的通道渐进式编解码方法,其特征在于,所述将所述第二中间特征表示经过所述下采样细粒度线性特征变换模块,进行特征变换处理,包括:
利用较小感受野的下采样线性特征变换模块对所述第二中间特征表示的通道维度进行升维,并对空间维度进行降维,得到第三中间特征表示;
将所述第三中间特征表示经过多分枝的线性变换模块,得到多分枝线性变换输出的第四中间特征表示;
将所述第二中间特征表示输入对应的空间维度和通道维度,进行维度变换,并变换后的第二中间特征表示与所述第四中间特征表示进行特征融合,得到第五中间特征表示;
通过所述多分支线性变换模块将每个分支的权重系数进行等价的线性融合,得到融合权重系数,并利用融合的权重系数对所述第三中间特征表示进行等价的线性变换,得到所述潜在特征表示。
7.根据权利要求6所述的自适应的通道渐进式编解码方法,其特征在于,所述变换后的第二中间特征表示与所述第四中间特征表示具有相同的张量形状,所述第三中间特征表示与所述第四中间特征表示具有相同的张量形状。
8.根据权利要求1所述的自适应的通道渐进式编解码方法,其特征在于,所述将所述整数表示输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示,包括:
将所述整数表示经过所述无损编码模块,利用熵模型模块对编码所用的每一个元素概率分布进行估计,得到所述二进制码流;
利用所述无损解码模块对所述二进制码流进行解码,将码率文件还原为预设码率约束下的整数潜在表示。
9.根据权利要求1所述的自适应的通道渐进式编解码方法,其特征在于,所述将所述整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,包括:
将所述潜在特征表示经过所述上采样粗粒度线性特征变换模块,恢复原始图像的部分特征,并对对应的通道维度进行升降维操作,得到第一恢复特征图。
10.根据权利要求9所述的自适应的通道渐进式编解码方法,其特征在于,所述将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像,包括:
将所述第一恢复特征图经过所述非线性特征变换模块,对多维特征图空间、通道维度的特征进行提取,得到第二恢复特征图;
将所述第二恢复特征图,经过所述上采样细粒度特征线性变换模块,得到所述输入图像信号对应的重建图像。
11.一种自适应的通道渐进式编解码装置,其特征在于,包括:
压缩及非线性处理模块,用于将输入图像信号输入下采样粗粒度线性特征变换模块,进行空间维度压缩,并将得到的第一中间特征表示输入非线性特征变换模块进行广义的非线性处理,得到第二中间特征表示;
特征变换及量化模块,用于将所述第二中间特征表示输入下采样细粒度线性特征变换模块进行特征变换处理,并将得到的潜在特征输入量化器进行压缩,得到整数表示;
无损编解码模块,用于将所述整数表示输入无损编码模块进行转化,得到二进制码流,并通过无损解码模块将所述二进制码流还原为整数潜在特征表示;
图像重建模块,用于将所述整数潜在特征表示输入上采样粗粒度线性特征变换模块进行部分特征恢复,并将得到的特征图经过所述非线性特征变换模块及上采样细粒度线性特征变换模块,得到所述输入图像信号对应的重建图像。
12.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有自适应的通道渐进式编解码程序,所述自适应的通道渐进式编解码程序被所述处理器执行时用于实现如权利要求1-10中任意一项所述的自适应的通道渐进式编解码方法的操作。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有自适应的通道渐进式编解码程序,所述自适应的通道渐进式编解码程序被处理器执行时用于实现如权利要求1-10中任意一项所述的自适应的通道渐进式编解码方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310537486.1A CN116260969B (zh) | 2023-05-15 | 2023-05-15 | 一种自适应的通道渐进式编解码方法、装置、终端及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310537486.1A CN116260969B (zh) | 2023-05-15 | 2023-05-15 | 一种自适应的通道渐进式编解码方法、装置、终端及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116260969A true CN116260969A (zh) | 2023-06-13 |
CN116260969B CN116260969B (zh) | 2023-08-18 |
Family
ID=86681032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310537486.1A Active CN116260969B (zh) | 2023-05-15 | 2023-05-15 | 一种自适应的通道渐进式编解码方法、装置、终端及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116260969B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050083216A1 (en) * | 2003-10-20 | 2005-04-21 | Microsoft Corporation | System and method for a media codec employing a reversible transform obtained via matrix lifting |
CN112052792A (zh) * | 2020-09-04 | 2020-12-08 | 恒睿(重庆)人工智能技术研究院有限公司 | 一种跨模型人脸识别方法、装置、设备及介质 |
CN113096207A (zh) * | 2021-03-16 | 2021-07-09 | 天津大学 | 基于深度学习和边缘辅助的快速磁共振成像方法与系统 |
CN114581544A (zh) * | 2022-05-09 | 2022-06-03 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 图像压缩方法、计算机设备及计算机存储介质 |
CN114615507A (zh) * | 2022-05-11 | 2022-06-10 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种图像编码方法、解码方法及相关装置 |
WO2022159897A1 (en) * | 2021-01-25 | 2022-07-28 | Qualcomm Incorporated | Progressive data compression using artificial neural networks |
CN115086673A (zh) * | 2022-05-11 | 2022-09-20 | 上海双深信息技术有限公司 | 一种多码率与快速熵模型计算的图像编解码方法及装置 |
CN115294222A (zh) * | 2022-08-02 | 2022-11-04 | 中国科学院上海微系统与信息技术研究所 | 图像编码方法及图像处理方法、终端及介质 |
US20220392202A1 (en) * | 2020-02-28 | 2022-12-08 | Shenzhen Sensetime Technology Co., Ltd. | Imaging processing method and apparatus, electronic device, and storage medium |
CN115456927A (zh) * | 2022-10-19 | 2022-12-09 | 云南大学 | 一种脑部医学图像合成方法、系统、电子设备及存储介质 |
EP4142289A1 (en) * | 2021-08-31 | 2023-03-01 | Nokia Technologies Oy | A method, an apparatus and a computer program product for video encoding and video decoding |
WO2023027873A1 (en) * | 2021-08-25 | 2023-03-02 | Dolby Laboratories Licensing Corporation | Multi-level latent fusion in neural networks for image and video coding |
CN115776571A (zh) * | 2023-02-10 | 2023-03-10 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种图像压缩方法、装置、设备及存储介质 |
CN115866252A (zh) * | 2023-02-09 | 2023-03-28 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种图像压缩方法、装置、设备及存储介质 |
CN115866253A (zh) * | 2023-02-27 | 2023-03-28 | 鹏城实验室 | 一种基于自调制的通道间变换方法、装置、终端及介质 |
-
2023
- 2023-05-15 CN CN202310537486.1A patent/CN116260969B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050083216A1 (en) * | 2003-10-20 | 2005-04-21 | Microsoft Corporation | System and method for a media codec employing a reversible transform obtained via matrix lifting |
US20220392202A1 (en) * | 2020-02-28 | 2022-12-08 | Shenzhen Sensetime Technology Co., Ltd. | Imaging processing method and apparatus, electronic device, and storage medium |
CN112052792A (zh) * | 2020-09-04 | 2020-12-08 | 恒睿(重庆)人工智能技术研究院有限公司 | 一种跨模型人脸识别方法、装置、设备及介质 |
WO2022159897A1 (en) * | 2021-01-25 | 2022-07-28 | Qualcomm Incorporated | Progressive data compression using artificial neural networks |
CN113096207A (zh) * | 2021-03-16 | 2021-07-09 | 天津大学 | 基于深度学习和边缘辅助的快速磁共振成像方法与系统 |
WO2023027873A1 (en) * | 2021-08-25 | 2023-03-02 | Dolby Laboratories Licensing Corporation | Multi-level latent fusion in neural networks for image and video coding |
EP4142289A1 (en) * | 2021-08-31 | 2023-03-01 | Nokia Technologies Oy | A method, an apparatus and a computer program product for video encoding and video decoding |
CN114581544A (zh) * | 2022-05-09 | 2022-06-03 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 图像压缩方法、计算机设备及计算机存储介质 |
CN115086673A (zh) * | 2022-05-11 | 2022-09-20 | 上海双深信息技术有限公司 | 一种多码率与快速熵模型计算的图像编解码方法及装置 |
CN114615507A (zh) * | 2022-05-11 | 2022-06-10 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种图像编码方法、解码方法及相关装置 |
CN115294222A (zh) * | 2022-08-02 | 2022-11-04 | 中国科学院上海微系统与信息技术研究所 | 图像编码方法及图像处理方法、终端及介质 |
CN115456927A (zh) * | 2022-10-19 | 2022-12-09 | 云南大学 | 一种脑部医学图像合成方法、系统、电子设备及存储介质 |
CN115866252A (zh) * | 2023-02-09 | 2023-03-28 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种图像压缩方法、装置、设备及存储介质 |
CN115776571A (zh) * | 2023-02-10 | 2023-03-10 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种图像压缩方法、装置、设备及存储介质 |
CN115866253A (zh) * | 2023-02-27 | 2023-03-28 | 鹏城实验室 | 一种基于自调制的通道间变换方法、装置、终端及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116260969B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109451308A (zh) | 视频压缩处理方法及装置、电子设备及存储介质 | |
CN114581544A (zh) | 图像压缩方法、计算机设备及计算机存储介质 | |
CN110677651A (zh) | 一种视频压缩方法 | |
CN113810693B (zh) | 一种jpeg图像无损压缩和解压缩方法、系统与装置 | |
CN112906874A (zh) | 卷积神经网络特征图数据压缩方法及装置 | |
CN113096019B (zh) | 图像重建方法、装置、图像处理设备及存储介质 | |
CN115294222A (zh) | 图像编码方法及图像处理方法、终端及介质 | |
CN102685501A (zh) | 实现jpeg2000图像压缩的定点小波变换方法 | |
CN115361559A (zh) | 图像编码方法、图像解码方法、装置以及存储介质 | |
CN111355965A (zh) | 一种基于深度学习的图像压缩还原方法及装置 | |
CN114422784A (zh) | 一种基于卷积神经网络的无人机多光谱遥感影像压缩方法 | |
CN115866253B (zh) | 一种基于自调制的通道间变换方法、装置、终端及介质 | |
CN113962882A (zh) | 一种基于可控金字塔小波网络的jpeg图像压缩伪影消除方法 | |
CN115776571B (zh) | 一种图像压缩方法、装置、设备及存储介质 | |
CN115866252B (zh) | 一种图像压缩方法、装置、设备及存储介质 | |
CN116260969B (zh) | 一种自适应的通道渐进式编解码方法、装置、终端及介质 | |
CN110730347A (zh) | 图像压缩方法、装置及电子设备 | |
CN115034375B (zh) | 数据处理方法及装置、神经网络模型、设备、介质 | |
CN111479286A (zh) | 一种边缘计算系统减少通信流量的数据处理方法 | |
Al-Khafaji et al. | Grey-Level image compression using 1-d polynomial and hybrid encoding technique | |
CN113949867B (zh) | 一种图像处理的方法及装置 | |
CN110717948A (zh) | 一种图像后处理方法、系统及终端设备 | |
CN111565314A (zh) | 图像压缩方法、编解码网络训练方法、装置及电子设备 | |
CN117915107B (zh) | 图像压缩系统、图像压缩方法、存储介质与芯片 | |
CN114286113B (zh) | 基于多头异构卷积自编码器的图像压缩恢复方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |