CN117615148B - 一种基于多尺度框架的端到端特征图分层压缩方法 - Google Patents

一种基于多尺度框架的端到端特征图分层压缩方法 Download PDF

Info

Publication number
CN117615148B
CN117615148B CN202410098706.XA CN202410098706A CN117615148B CN 117615148 B CN117615148 B CN 117615148B CN 202410098706 A CN202410098706 A CN 202410098706A CN 117615148 B CN117615148 B CN 117615148B
Authority
CN
China
Prior art keywords
feature map
module
feature
compression
weight matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410098706.XA
Other languages
English (en)
Other versions
CN117615148A (zh
Inventor
喻莉
孙哲文
张子祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Shenzhen Huazhong University of Science and Technology Research Institute
Original Assignee
Huazhong University of Science and Technology
Shenzhen Huazhong University of Science and Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, Shenzhen Huazhong University of Science and Technology Research Institute filed Critical Huazhong University of Science and Technology
Priority to CN202410098706.XA priority Critical patent/CN117615148B/zh
Publication of CN117615148A publication Critical patent/CN117615148A/zh
Application granted granted Critical
Publication of CN117615148B publication Critical patent/CN117615148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation

Abstract

本发明公开了一种基于多尺度框架的端到端特征图分层压缩方法,属于机器视频编码领域,该方法包括:在对输入信号进行机器视觉编码时,使用特征金字塔网络提取多尺度的特征图,通过丢弃部分特征图来减少需要传输的数据量,并且通过上下采样、加权融合的方法仅利用部分特征图实现了丢弃的特征图的预测。此外,考虑到预测图和重建图之间的差异,通过计算残差来对所有特征图进行修正。上述方法能够在保证任务精度的情况下大大减少需要压缩传输的特征图数据量,从而减少传输码流。此外,针对视觉任务中目标大小不一的情况,引入了多尺度的方法,使用具有不同大小感受野的特征图来确保该方法因对不同尺寸任务目标的鲁棒性。

Description

一种基于多尺度框架的端到端特征图分层压缩方法
技术领域
本发明属于机器视频编码领域,更具体地,涉及一种基于多尺度框架的端到端特征图分层压缩方法。
背景技术
视觉是人类获得外部信息的重要途径,视频作为视觉信息的数字承载形式,已经成为每个人的日常生活以及社会的正常运转中不可或缺的一部分。近年来,随着互联网技术的不断发展,视频成为了网络传输数据的主要内容,并且人工智能的进步也使得让机器来帮助人类处理视频成为了一种可能。此外,随着人均拥有智能设备数量的不断增加,被机器所消费的视频数量逐渐超过了被人类消费的数量。机器处理视频数据包括目标检测、实例分割和目标追踪等视觉任务,注重机器视觉任务的精度,而这与注重视频质量的人类观看视频标准不同。另一方面,由于视频的数据量巨大,高效的压缩算法也是必不可少的。
由于视频的观看者为机器而不是人,视频在压缩后并不需要对原始输入进行还原重建,而是要能利用压缩后的信息实现特定的后端视觉任务,例如目标检测、实例分割等。目前常见机器视觉编码方式为特征图压缩,具体而言先将原始视频送入特征提取网络提取特征图,然后对特征图进行压缩传输,在解码端将还原后的特征图送入后端网络完成机器视觉任务。现有的特征图压缩方法将特征图进行重排后使用传统的编解码器(例如HEVC、VVC)进行压缩,然而这类编码器在设计之初是针对人眼视觉效果而优化的,并没有针对机器任务的特征图进行优化,在处理机器视觉任务时效果不佳,有着较大的优化空间。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多尺度框架的端到端特征图分层压缩方法,能够在保证后端机器视觉任务精度的前提下,尽可能压缩特征图的数据量从而节约传输码流。
为实现上述目的,按照本发明的第一方面,提供了一种基于多尺度框架的端到端特征图分层压缩方法,包括:
S1,将待压缩图像输入特征金字塔网络得到多个不同尺寸的特征图F1,F2,…,FN,且F1,F2,…,FN的尺寸依次增大,其中,N为大于1的整数;
S2,对Fn、Fn+2进行压缩得到对应的重建图Cn和Cn+2;将分别对Cn、Cn+2进行下采样、上采样的结果进行加权融合得到Fn+1的预测图Yn+1;分别对Cn+2进行上采样得到尺寸大于Fn+2的特征图Fn+3,…,FN的预测图Yn+3,Yn+4,…,YN;分别对Cn+2进行下采样得到除Fn+1之外尺寸小于Fn+2的特征图F1,F2,…,Fn的预测图Y1,Y2,…,Yn;其中,1≤n<N-2;
S3,将Fn与Cn之间的残差缩放后分别添加至除Yn及Yn+2之外的各预测图以对其进行修正,得到对应的修正图X1,X2,…,Xn-1,Xn+1,Xn+3,…,XN
S4,将X1,X2,…,Xn-1,Xn+1,Xn+3,…,XN及Cn、Cn+2作为所述待压缩图像的压缩结果。
按照本发明的第二方面,提供了一种基于多尺度框架的端到端特征图分层压缩系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面所述的方法。
按照本发明的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如第一方面所述的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
S2,利用改进后的基于端到端的网络对特征图进行分层压缩编码,
1、针对面向机器视觉的特征图编码,考虑到现有技术会对所有的特征图进行压缩传输,占用了大量的传输带宽资源的问题,本发明通过对不同的特征图进行了消融实验,发现特征图之间相似度较高,存在较大的冗余,基于此,本发明提供了一种基于多尺度框架的特征图分层压缩方法,通过丢弃部分特征图来减少需要传输的数据量,并且通过上下采样、加权融合的方法仅利用部分特征图实现了丢弃的特征图的预测。此外,考虑到预测图和重建图之间的差异,通过计算残差来对所有特征图进行修正。上述方法能够在保证任务精度的情况下大大减少需要压缩传输的特征图数据量。此外,针对视觉任务中目标大小不一的情况,引入了多尺度的方法,使用具有不同大小感受野的特征图来确保该方法因对不同尺寸任务目标的鲁棒性。
2、本发明提供的方法,采用端到端压缩模块对特征图进行分层压缩编码,通过自适应的卷积层、针对特征图的全局注意力模块和自适应域压缩模块在确保机器视觉任务精度的前提下对特征图进行压缩,减少所需传输的码流大小。
3、本发明提供的方法,提出了针对特征图的全局注意力模块,该模块能够学习特征图的任务敏感度并赋予其不同的权重。使用多个部署在不同网络位置的全局注意力模块来学习特征图的任务敏感度,可以对非任务敏感区域减少分配的码流从而获得更好的压缩效果;此外,端到端压缩模块还包括多尺度的残差模块,用于学习多尺度细粒度注意力掩码,能够让码流更加合理地分配在机器视觉任务关注度高的区域,在保持任务精度的情况下减少码流;自适应域压缩模块,在编码端对于变换后的特征图隐式表达根据码率的需要自适应地丢弃部分不重要的通道;在解码端对压缩后的特征图进行还原重建。
4、本发明提供的方法,提出了第一、第二自适应域压缩模块,第一自适应域压缩模块用于在编码端对于变换后的特征图隐式表达根据码率需要自适应地丢弃部分不重要的通道,并由在解码端的第二自适应域压缩模块进行还原重建,进一步减少需要传输的码流大小。
附图说明
图1为本发明实施例提供的基于多尺度框架的端到端特征图分层压缩方法流程图之一。
图2为本发明实施例提供的基于多尺度框架的端到端特征图分层压缩方法流程图之二。
图3为本发明实施例提供的基于多尺度框架的端到端特征图分层压缩方法流程图之三。
图4为本发明实施例提供的端到端的压缩模型的结构示意图。
图5为本发明实施例提供的全局注意力模块、多尺度残差模块和注意力单元的结构示意图。
图6为本发明实施例提供的自适应域压缩模块流程框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供一种基于多尺度框架的端到端特征图分层压缩方法,如图1所示,包括:
S1,将待压缩图像输入特征金字塔网络得到多个不同尺寸的特征图F1,F2,…,FN,且F1,F2,…,FN的尺寸依次增大,其中,N为大于1的整数。
S2,对Fn、Fn+2进行压缩得到对应的重建图Cn和Cn+2;将分别对Cn、Cn+2进行下采样、上采样的结果进行加权融合得到Fn+1的预测图Yn+1;分别对Cn+2进行上采样得到尺寸大于Fn+2的特征图Fn+3,…,FN的预测图Yn+3,Yn+4,…,YN;分别对Cn+2进行下采样得到除Fn+1之外尺寸小于Fn+2的特征图F1,F2,…,Fn的预测图Y1,Y2,…,Yn;其中,1≤n<N-2;
S3,将Fn与Cn之间的残差缩放后分别添加至除Yn及Yn+2之外的各预测图以对其进行修正,得到对应的修正图X1,X2,…,Xn-1,Xn+1,Xn+3,…,XN
S4,将X1,X2,…,Xn-1,Xn+1,Xn+3,…,XN及Cn、Cn+2作为所述待压缩图像的压缩结果。
具体地,在步骤S1,对需要进行机器视觉任务的输入图像进行特征提取操作。其中特征提取模块采用特征金字塔网络(Feature Pyramid Networks, FPN)。
以特征金字塔网络采用Faster RCNN X-101 FPN网络为例,从数据量上来看,以输入的原始图像的大小为W×H×3为例,其中W和H分别为图像的宽和高,而3代表通道数量。使用FPN网络后获得4个特征图,分别为特征图F1-F4,大小分别为。由于特征图的通道数较大,浅层的特征图由于尺寸相比于原图不够小而出现数据量反而大于原图的问题。因此,在本发明中对部分特征图进行丢弃用以减少需要传输的数据量,考虑到不同特征图之间存在较高的相似度和冗余,可以通过超分辨率的方法使用尺寸较小的高层特征图来预测较大尺寸的特征图,而在处理机器视觉任务时对准确率的影响较小。本发明考虑到视觉任务中目标大小不一的情况,引入了多尺度的方法,使用具有不同大小感受野的特征图来确保该方法因对不同尺寸任务目标的鲁棒性。
下面以特征金字塔网络采用Faster RCNN X-101 FPN网络用于特征提取为例,对本发明提供的方法进行说明。也即,N=4,n=1。
在进行机器视觉任务时,将图像送入特征提取模块,利用特征金字塔网络提取多个特征图,并根据特征图之间冗余高的特点,舍弃部分尺寸过大的特征图,只选取F1和F3层特征进行压缩传输,用于处理后端任务;通过上下采样和加权融合的方法利用部分特征图完成剩余特征图的还原重建,考虑到预测图和重建图之间的差异,计算残差并对所有特征图进行修正;将所有修正后的特征图送入后端网络,完成对应的机器视觉任务。例如若机器视觉任务为目标分割,则后端网络为分割网络。
如图2所示,保留F1特征图和F3特征图进行压缩传输,通过对F3重建特征图进行上采样的方式预测F4特征图,此外将F3和F1重建图分别进行下采样和上采样,并通过加权融合的方式完成对F2特征图的预测。此外,考虑到预测图和重建图之间的差异,本发明使用重建的F3来预测F1,再与重建的F1进行做差运算,得到F1的修正残差,然后再将修正残差进行缩放添加到F2和F4预测图上,得到对应的F2、F4修正图。将F2、F4修正图及F1和F3重建图送入后端网络,用于实现机器视觉任务。
其中,通过上下采样和加权融合的方式利用相似特征图进行还原重建。操作S2完成后会得到重建后的F1和F3特征图,如果直接将其送入后端任务,而其余缺失的特征图置零会导致准确率大幅下降,因此需要对F2和F4特征图进行预测补全。
考虑到预测图和重建图之间的差异,通过计算残差来对所有特征图进行修正。通过F3重建图下采样得到F1预测图,然后将F1预测图与F1重建图做差运算,得到修正残差。对于上下采样得到的F2预测图和F4预测图,加上缩放后的修正残差后得到更接近重建图的F2和F4修正图。
其中,使用F3的重建特征图来预测F4特征图,具体的上采样方式为最近邻插值。而对于F2特征图,使用F1重建特征图上采样,与F3重建特征图下采样后加权得到。该方法最终仅需要压缩传输F3和F1特征图可以得到所需的F2和F4特征图对应的修正图。
综上,F1和F3重建图由压缩码流解码得到,而F2和F4特征图对应的修正图则通过上下采样和加权融合的方法预测得到,通过对F3重建图进行下采样得到F1预测图,再与F1重建图做差得到修正残差,用以衡量重建图与预测图之间的差异。然后对该修正残差进行尺寸缩放,并用以修正F2和F4预测图,得到修正图。
操作S4,获取特征图后,将其送入后端网络用以完成机器视觉任务。
进一步地,步骤S2中,采用端到端压缩模块进行压缩;
所述端到端压缩模块包括:
编码器,包括依次连接的至少一个处理单元和第一自适应域压缩模块,
超先验熵模块,用于将编码器的输出压缩为码流后再进行还原,作为所述解码器的输入;
解码器,包括依次连接的第二自适应域压缩模块和至少一个处理单元;
其中,所述处理单元包括依次连接的卷积模块、残差模块和全局注意力模块。
所述全局注意力模块用于学习残差模块输出的特征图的任务敏感度并提供多尺度细粒度注意力掩码,包括:
第一分支,包括至少一个多尺度残差模块;
第二分支,包括至少一个多尺度残差模块、注意力单元、卷积层及激活函数层;
所述全局注意力模块的输入与其分别经所述第一分支、第二分支处理后得到的结果的乘积相加,得到所述全局注意力模块的输出结果。
进一步地,所述第一自适应域压缩模块用于丢弃目标特征图中与所述目标特征图的通道权重矩阵中值为0的元素对应的通道,保留目标特征图中与所述目标特征图的通道权重矩阵中值为1的元素对应的通道,以将所述特征图的尺寸从H×W×C压缩为H×W×c;
其中,所述目标特征图为与所述第一自适应域压缩模块连接的处理单元输出的特征图,所述通道权重矩阵为大小为1×1×C的0-1矩阵,H、W、C分别为高度、宽度和通道数,c为所述通道权重矩阵中元素为1的数量;
所述第二自适应域压缩模块用于在所述目标特征图中被丢弃的通道处均填充0,以将被压缩的目标特征图的尺寸从H×W×c还原为H×W×C。
具体地,如图3所示,利用本发明提出的端到端压缩模块对特征图进行压缩编码。在获取特征图之后需要对其进行压缩,现有的特征图压缩方法将特征图进行重排后使用传统的编解码器(例如HEVC、VVC)进行压缩,然而这类编码器在设计之初是针对人眼视觉效果而优化的,并没有针对机器任务的特征图进行优化,在处理机器视觉任务时效果不佳,有着较大的优化空间。端到端的压缩方法能将输入通过一系列变换转至隐式分布的数据,通过熵模型学习预测其高斯混合模型的概率分布来获取更高的压缩效率。
本发明提出的端到端压缩网络,通过建立初始神经网络模型并对其进行训练,得到端到端的特征图压缩模型;提出了针对特征图的全局注意力模块,其中包括卷积模块(考虑到不同特征图的尺寸差异,可根据不同尺寸的特征图选择不同的卷积核)和多尺度残差模块,用于学习特征图的任务敏感度并提供多尺度细粒度注意力掩码,能更合理地分配码流到对机器视觉任务更加重要的区域;提出了自适应域压缩模块,在编码端对于变换后的特征图隐式表达根据码率的需要自适应地丢弃部分不重要的通道,并在解码端进行还原重建,进一步减少需要传输的码流大小。
具体地,初始神经网络包括:
基本的端到端框架,包括:卷积模块、全局注意力模块、多尺度残差模块及自适应域压缩模块。下面分别对每个模块进行说明。
卷积模块为自适应的卷积模块,能根据不同尺寸的特征图选择不同的卷积核;多个残差模块(Residual Block)的组合能在增加深度提高任务精度的同时避免网络的退化;自编码器和熵模型用于压缩经过变换得到的特征图的隐式表达,提高压缩效率。该框架结构如图2所示。考虑到较深的网络可能会存在退化问题,即网络层数增加导致任务精度反而下降,使用了多个残差模块进行组合,能在增加深度提高任务精度的同时避免网络的退化。通过上述自适应的卷积模块和残差模块,能根据不同层的特征图选用不同的端到端压缩策略。
全局注意力模块为针对特征图的全局注意力模块(Global Attention Module,GAM),包括:一条原始分支,一条额外的残差模块修正分支,以及一条将残差模块与注意力单元(Attention Unit, AU)结合并通过1×1卷积与非线性 Sigmoid 激活的注意力掩码分支。该模块能够学习特征图的任务敏感度并赋予其不同的权重,在保证任务精度的前提下,可以对非任务敏感区域减少分配的码流从而获得更好的压缩效果。此外,在对特征图进行端到端压缩的流程中,使用了多尺度残差模块(Multi-scaleResidual Block, MS-ResBlock),处理不同尺寸的卷积特征从而提供多尺度细粒度注意力掩码,能更好地压缩码流。以上模块的流程框图如图4所示。特征图是原始图像的紧凑表达,而特征图在端到端压缩的过程中会进一步进行紧凑的操作。在变换后的特征图中,不同位置的元素往往具有不同的权重,为了提高编码效率,对影响后端机器视觉任务精度的数据赋予较大的权重,而对其余非任务敏感的区域分配较低的权重是一个很直观的思路。为此,本发明提出了一种专门针对特征图的全局注意力模块,其示意图如图4所示。该注意力模块包括三条分支,其中主分支包括至少一个多尺度残差模块,优选三个多尺度残差模块,另一条分支包含注意力单元AU(Attention Unit),结合多尺度残差模块生成注意力掩码。此外借鉴残差网络的思想,引入了一条额外的分支将该模块的输入与注意力单元输出进行连接,避免网络由于深度的增加而导致退化。
也即,如图4所示,全局注意力模块包括一条原始分支,一条额外的残差模块修正分支,以及一条将残差模块与注意力单元(Attention Unit, AU)结合并通过1×1卷积与非线性 Sigmoid 激活的注意力掩码分支。针对特征图的全局注意力模块能够学习特征图的任务敏感度并赋予其不同的权重,在保证任务精度的前提下,可以对非任务敏感区域减少分配的码流从而获得更好的压缩效果。
全局注意力模块被部署在网络中的不同位置,从而生成不同细粒度的注意力掩码用以处理不同的任务。
如图5所示,多尺度残差模块(Multi-scale Residual Block, MS-ResBlock)用于处理不同尺寸的卷积特征从而提供多尺度细粒度注意力掩码,能更好地压缩码流。
注意力单元如图5所示。其中,对输入进行线性映射,具体通过与/>的矩阵进行卷积来实现,在不改变数据尺寸形状的同时改变通道数大小并分配权重,依次得到θ、φ和/>特征,然后通过矩阵乘法/>计算特征的自相关性,并进行Softmax 操作,得到0~1的权重,即自注意力系数。最后将自注意力系数与特征矩阵/>相乘并与原始输入残差相加得到注意力矩阵/>。该过程的计算方式如下所示,
其中,X为输入信号,Y为中间结果,Z为输出,i表示输出所处的位置,j表示所有可能的位置,f则表示输入输出的映射关系,θ和φ是对1×1卷积的命名,g表示位置j处的输入信号表示,W表示权重矩阵,W的下标表示改权重所处位置,因子c用来归一化操作。
自适应域压缩模块(AdaPtive Domain Compression Module, ADCM),包括:训练推理网络,能够进行快速的训练得到初步的权重模型,然后通过推理统计的方法按照预设计的模式得到若干不同组合的预设通道权重参数;第一自适应域压缩模块,作为编码器端的自适应通道缩减模块,能根据码率的需要丢弃特征图隐式表达的部分通道;第二自适应域压缩模块,作为解码器端的通道恢复模块则对丢弃的通道进行补零操作,实现数据尺寸的对齐。该模块考虑到了特征图的不同层对视觉任务的影响权重的不同,丢弃了部分不那么重要的层从而实现数据量的减少,能更好地压缩码流。以上模块的框图如6所示。
本实施例中,使用第一自适应域压缩模块进一步减少码流,该模块如图6所示。该模块在编码器端对于变换后的特征图(即全局注意力模块输出的特征图)隐式表达根据码率的需要自适应地丢弃部分不重要的通道,并在解码端进行还原重建,大幅减少了送入端到端网络进行压缩的数据量从而降低码流大小。
本实施例中,第一、第二自适应域压缩模块的流程框图如图4所示,其中左侧的输入为经过全局注意力模块后得到的特征图紧凑表达,其尺寸为H×W×C,分别表示高度、宽度和通道数。将其送入推理网络,通过平均池化、卷积等进行压缩。考虑到在通道选择的过程中进行采样可能导致网络不可微,引入了Gumbel Softmax使其可微。经过以上模块后输入的尺寸由H×W×C压缩为1×1×C大小的权重矩阵,每个元素的值为0或1,分别代表应该丢弃的通道和保留的通道。然后丢弃数值为0的通道,得到尺寸为H×W×c的输出,其中c的数值等于1×1×C矩阵中1的个数。
第一自适应域压缩模块在编码端对于变换后的特征图隐式表达根据码率的需要自适应地丢弃部分不重要的通道,第二自适应域压缩模块在解码端进行还原重建,大幅减少了送入端到端网络进行压缩的数据量从而降低码流大小。
特征图的通道权重矩阵可将特征图输入至预先训练好的推理网络获取;所述推理网络包括依次连接的平均池化层、第一卷积层、标准化层以、ReLU激活层、第二卷积层及Gumbel Softmax函数层。
可以理解的是,所述预先训练好的推理网络为以特征图为输入,以所述特征图对应的通道权重矩阵为标签进行训练得到,即训练集包括多张特征图及其对应的通道权重矩阵。
但是,由于权重矩阵只包含0或1这两个离散值,这种二值的表示可能导致训练过程中发生激烈的权重更新,使得模型难以收敛,出现不稳定的情况。为了解决该问题,作为本发明进一步的优选,忽略推理网络训练过程中可能出现的不稳定的情况,将特征图送入预先训练好的推理网络进行推理以获取对应的权重矩阵,根据数据集中的多张特征图的通道权重矩阵统计所述多张特征图中被选频率最高的前L个通道统计结果,以获取通道权重矩阵;
也即,所述目标特征图的通道权重矩阵的获取方法为:
构建包括多张特征图的数据集,将所述数据集中的多张特征图分别输入至预先训练好的推理网络,得到对应的通道权重矩阵,根据所述多张特征图的通道权重矩阵统计所述多张特征图中被选频率最高的前L个通道,令所述L个通道在通道权重矩阵中对应的位置的元素的值为1,令所述通道权重矩阵中的其它元素均为0,得到所述通道权重矩阵;其中,L为大于0的整数,其具体的值根据实际码率需求设置,具体地,当需要使用较低的码率进行压缩传输时,此时可采取较小的L值。可以理解的是,L的值小于或等于特征图的通道总数。
也即,丢弃和重建的策略由预训练的权重矩阵推理得到:使用数据集中的所有图像进行推理并统计每个通道被选择的次数,选取L个被选频率最高的通道给予保留并丢弃其余通道,此外可以预设多组L值来实现不同程度的压缩策略。权重矩阵在完成推理得到通道丢弃保留策略后不再使用。
具体地,使用数据集中的所有图像进行推理并统计每个通道被选择的次数,选取L个被选频率最高的通道给予保留并丢弃其余通道。考虑到L的大小决定了压缩性能,本实施例中预先定义了对应不同L的多组选取策略,可以根据码率的需要自适应地选取不同的通道丢弃方案,在保证编码质量要求的情况下尽可能减少码流大小。
第一自适应域压缩模块在编码器端的结构如图6所示,虚线箭头传递的权重矩阵在实际应用中被预定义,不需要针对不同输入进行运算,虚线箭头只是为了说明预定义权重的来源。并且推理网络并不被包含在图4中,只是用于获取权重矩阵。
也即,在实际应用过程中,根据码率需求直接确定对应的L,也即直接根据码率需求直接确定对应的通道权重矩阵。
第二自适应域压缩模块在解码端的结构如图6所示。该步骤为编码端的逆过程,对将矩阵的尺寸从H×W×c还原为H×W×C,具体操作为借助编码端的通道权重信息,对被丢弃的通道在原本的位置全部填充0。
本实施例中,使用包括超先验架构和通道自回归熵模型的超先验熵模块来实现端到端特征图压缩。
编码器Encoder将输入图像x映射到隐式的y,再通过量化模块Q得到y的离散表示,然后使用解码器AD将/>映射回重建图像/>。主要过程表述为:
其中,E表示编码器,Q表示量化模块,D表示解码器,θ和φ是编码器E和解码器D可训练的参数,x表示输入图像,y表示编码器的输出,表示量化后的y,/>表示解码器的输出。
本实施例中引入了辅助信息将每个元素/>建模为具有标准差/>和均值/>的高斯分布,基于SGM的熵模型建模如下:
其中,N表示高斯分布,表示均值,/>表示标准差,/>表示/>中的各个元素,/>表示新引入的辅助信息。
本发明提供的的端到端压缩模型的损失函数定义如下:
其中为损失函数,/>控制码率和失真之间的权衡,R为码率,具体而言表示隐式/>和/>的比特率,D表示图像失真,/>表示对输入样本x从分布p x 中采样后的期望,表示在给定潜在表示/>的情况下,生成模型生成输出/>的条件概率,/>表示生成模型学到的潜在表示/>的概率分布,/>表示原始特征图x与重建特征图/>之间的失真。
对关于不同特征图对后端机器视觉任务的影响程度进行对比试验。更进一步地讲,在Cityscape数据集上通过特征图进行了目标检测任务,结果如表1所示;
从表中可以看出,后端机器视觉任务的效果很大程度上取决于输入特征图的数量,而对特征图的来源——压缩传输得到或是预测得到并没有很高的要求。例如在表1中,使用所有的特征图能实现36.5%的mAP精度,如果不使用F4特征图,而是将F3进行上采样用以代替原本的F4特征图,mAP会轻微下降;而在尺寸更小的特征图中,使用F2特征图来预测F3特征图,相比于直接传输只损失了大约1%的mAP。因此可以看出不同特征图之间的相关性较高,可以通过避免传输大尺寸特征图而采用预测的方式进行弥补替代可以极大减少需要传输的数据量大小,上表中,UP(F1)指对F1进行上采样,其它同理。
本发明实施例提供一种基于多尺度框架的端到端特征图分层压缩系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上述任一实施例所述的方法。
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如上述任一实施例所述的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于多尺度框架的端到端特征图分层压缩方法,其特征在于,包括:
S1,将待压缩图像输入特征金字塔网络得到多个不同尺寸的特征图F1,F2,…,FN,且F1,F2,…,FN的尺寸依次增大,其中,N为大于1的整数;
S2,对Fn、Fn+2进行压缩得到对应的重建图Cn和Cn+2;将分别对Cn、Cn+2进行下采样、上采样的结果进行加权融合得到Fn+1的预测图Yn+1;分别对Cn+2进行上采样得到尺寸大于Fn+2的特征图Fn+3,…,FN的预测图Yn+3,Yn+4,…,YN;分别对Cn+2进行下采样得到除Fn+1之外尺寸小于Fn+2的特征图F1,F2,…,Fn的预测图Y1,Y2,…,Yn;其中,1≤n<N-2;
S3,将Fn与Cn之间的残差缩放后分别添加至除Yn及Yn+2之外的各预测图以对其进行修正,得到对应的修正图X1,X2,…,Xn-1,Xn+1,Xn+3,…,XN
S4,将X1,X2,…,Xn-1,Xn+1,Xn+3,…,XN及Cn、Cn+2作为所述待压缩图像的压缩结果;
步骤S2中,采用端到端压缩模块进行压缩;
所述端到端压缩模块包括:
编码器,包括依次连接的至少一个处理单元和第一自适应域压缩模块,
超先验熵模块,用于将编码器的输出压缩为码流后再进行还原,作为解码器的输入;
解码器,包括依次连接的第二自适应域压缩模块和至少一个处理单元;
其中,所述处理单元包括依次连接的卷积模块、残差模块和全局注意力模块;
所述第一自适应域压缩模块用于丢弃目标特征图中与所述目标特征图的通道权重矩阵中值为0的元素对应的通道,保留目标特征图中与所述目标特征图的通道权重矩阵中值为1的元素对应的通道,以将所述目标特征图的尺寸从H×W×C压缩为H×W×c;
其中,所述目标特征图为与所述第一自适应域压缩模块连接的处理单元输出的特征图,所述通道权重矩阵为大小为1×1×C的0-1矩阵,H、W、C分别为高度、宽度和通道数,c为所述通道权重矩阵中元素为1的数量;
所述第二自适应域压缩模块用于在所述目标特征图中被丢弃的通道处均填充0,以将被压缩的目标特征图的尺寸从H×W×c还原为H×W×C。
2.如权利要求1所述的方法,其特征在于,所述全局注意力模块包括:
第一分支,包括至少一个多尺度残差模块;
第二分支,包括至少一个多尺度残差模块、注意力单元、卷积层及激活函数层;
所述全局注意力模块的输入与其分别经所述第一分支、第二分支处理后得到的结果的乘积相加,得到所述全局注意力模块的输出结果。
3.如权利要求1所述的方法,其特征在于,所述目标特征图的通道权重矩阵的获取方法为:
构建包括多张特征图的数据集,将所述数据集中的多张特征图分别输入至预先训练好的推理网络,得到对应的通道权重矩阵,根据所述多张特征图的通道权重矩阵统计所述多张特征图中被选频率最高的前L个通道,令所述L个通道在通道权重矩阵中对应的位置的元素的值为1,令所述通道权重矩阵中的其它元素均为0,得到所述通道权重矩阵;
其中,所述推理网络包括依次连接的平均池化层、第一卷积层、标准化层、ReLU激活层、第二卷积层及Gumbel Softmax函数层;L为大于0的整数。
4.一种基于多尺度框架的端到端特征图分层压缩系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如权利要求1-3任一项所述的方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如权利要求1-3任一项所述的方法。
CN202410098706.XA 2024-01-24 2024-01-24 一种基于多尺度框架的端到端特征图分层压缩方法 Active CN117615148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410098706.XA CN117615148B (zh) 2024-01-24 2024-01-24 一种基于多尺度框架的端到端特征图分层压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410098706.XA CN117615148B (zh) 2024-01-24 2024-01-24 一种基于多尺度框架的端到端特征图分层压缩方法

Publications (2)

Publication Number Publication Date
CN117615148A CN117615148A (zh) 2024-02-27
CN117615148B true CN117615148B (zh) 2024-04-05

Family

ID=89948410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410098706.XA Active CN117615148B (zh) 2024-01-24 2024-01-24 一种基于多尺度框架的端到端特征图分层压缩方法

Country Status (1)

Country Link
CN (1) CN117615148B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158712A (zh) * 2011-03-22 2011-08-17 宁波大学 一种基于视觉的多视点视频信号编码方法
CN113192147A (zh) * 2021-03-19 2021-07-30 西安电子科技大学 显著性压缩的方法、系统、存储介质、计算机设备及应用
CN113362225A (zh) * 2021-06-03 2021-09-07 太原科技大学 基于残差递归补偿和特征融合的多描述压缩图像增强方法
WO2022241995A1 (zh) * 2021-05-18 2022-11-24 广东奥普特科技股份有限公司 视觉图像增强的生成方法、系统、装置及存储介质
WO2023130333A1 (zh) * 2022-01-06 2023-07-13 上海交通大学 编解码方法、编码器、解码器以及存储介质
CN116580192A (zh) * 2023-04-18 2023-08-11 湖北工业大学 基于自适应上下文感知网络的rgb-d语义分割方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11582470B2 (en) * 2020-09-03 2023-02-14 Tencent America LLC Method and apparatus for multi-scale neural image compression with intra-prediction residuals
US20220230282A1 (en) * 2021-01-12 2022-07-21 Samsung Electronics Co., Ltd. Image processing method, image processing apparatus, electronic device and computer-readable storage medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158712A (zh) * 2011-03-22 2011-08-17 宁波大学 一种基于视觉的多视点视频信号编码方法
CN113192147A (zh) * 2021-03-19 2021-07-30 西安电子科技大学 显著性压缩的方法、系统、存储介质、计算机设备及应用
WO2022241995A1 (zh) * 2021-05-18 2022-11-24 广东奥普特科技股份有限公司 视觉图像增强的生成方法、系统、装置及存储介质
CN113362225A (zh) * 2021-06-03 2021-09-07 太原科技大学 基于残差递归补偿和特征融合的多描述压缩图像增强方法
WO2023130333A1 (zh) * 2022-01-06 2023-07-13 上海交通大学 编解码方法、编码器、解码器以及存储介质
CN116580192A (zh) * 2023-04-18 2023-08-11 湖北工业大学 基于自适应上下文感知网络的rgb-d语义分割方法及系统

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
A Low-power Pyramid Motion Estimation Engine for 4K@30fps Realtime HEVC Video Encoding;Yu Li;IEEE;20180530;全文 *
Carriage of depth and alpha maps as HEVC single-layer bitstreams;Emmanuel Thomas;JVET;20240117;全文 *
Research on image processing with compressed sensing algorithm: Base on the improved layered discrete cosine transform;Baoju Zhang;IEEE;20120610;全文 *
一种针对第二代视频压缩标准的运动对象提取 和跟踪算法;喻莉;第十四届全国图象图形学学术会议;20210223;全文 *
基于Surfacelet变换和SPIHT算法的视频压缩;王海燕;殷俊;潘显萌;;计算机科学;20161115(第S2期) *
基于分块压缩感知的图像自适应采样方法研究;左胤杰;硕士学位论文;20230630;全文 *
基于多尺度残差网络的全局图像压缩感知重构;涂云轩;冯玉田;;工业控制计算机;20200725(第07期);全文 *
多尺度显著区域检测图像压缩;曲海成;田小容;刘腊梅;石翠萍;;中国图象图形学报;20200116(第01期);全文 *
曲海成 ; 田小容 ; 刘腊梅 ; 石翠萍 ; .多尺度显著区域检测图像压缩.中国图象图形学报.2020,(第01期),全文. *
涂云轩 ; 冯玉田 ; .基于多尺度残差网络的全局图像压缩感知重构.工业控制计算机.2020,(第07期),全文. *

Also Published As

Publication number Publication date
CN117615148A (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
Cheng et al. Energy compaction-based image compression using convolutional autoencoder
Huang et al. Toward semantic communications: Deep learning-based image semantic coding
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
CN112866694B (zh) 联合非对称卷积块和条件上下文的智能图像压缩优化方法
CN113573140B (zh) 一种支持人脸检测与实时超分辨率的码率自适应决策方法
CN112785661B (zh) 基于融合感知损失的深度语义分割图像压缩方法及系统
Sebai et al. Semantic-oriented learning-based image compression by Only-Train-Once quantized autoencoders
Li et al. Multiple description coding based on convolutional auto-encoder
CN113132727B (zh) 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
CN112750175B (zh) 基于八度卷积和语义分割的图像压缩方法及系统
Jiang et al. Multi-modality deep network for extreme learned image compression
Wang et al. Adaptive image compression using GAN based semantic-perceptual residual compensation
CN117615148B (zh) 一种基于多尺度框架的端到端特征图分层压缩方法
CN113822954B (zh) 一种面向资源约束下人机协同场景的深度学习图像编码方法
CN112991169B (zh) 基于图像金字塔和生成对抗网络的图像压缩方法及系统
Sebai Multi-rate deep semantic image compression with quantized modulated autoencoder
CN112991192B (zh) 图像处理方法、装置、设备及其系统
Xu et al. Low complexity rate-adaptive deep joint source channel coding for wireless image transmission using tensor-train decomposition
Zhang et al. Dual-layer image compression via adaptive downsampling and spatially varying upconversion
CN113256521B (zh) 一种数据缺失的错误隐藏方法及装置
CN117459737B (zh) 一种图像预处理网络的训练方法和图像预处理方法
CN117528085B (zh) 一种基于智能特征聚类的视频压缩编码方法
Liu et al. An Image Compression Framework Based on Multi-scale Convolutional Neural Network for Deformation Images
CN111031312B (zh) 基于网络实现注意力机制的图像压缩方法
CN117915093A (zh) 基于神经网络的数据处理和生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant