CN115358929B - 压缩图像超分方法、图像压缩方法及系统 - Google Patents

压缩图像超分方法、图像压缩方法及系统 Download PDF

Info

Publication number
CN115358929B
CN115358929B CN202211276433.0A CN202211276433A CN115358929B CN 115358929 B CN115358929 B CN 115358929B CN 202211276433 A CN202211276433 A CN 202211276433A CN 115358929 B CN115358929 B CN 115358929B
Authority
CN
China
Prior art keywords
network
feature
module
convolution
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211276433.0A
Other languages
English (en)
Other versions
CN115358929A (zh
Inventor
冷聪
李成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Original Assignee
Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Fangcun Zhiwei Nanjing Technology Co ltd filed Critical Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Priority to CN202211276433.0A priority Critical patent/CN115358929B/zh
Publication of CN115358929A publication Critical patent/CN115358929A/zh
Application granted granted Critical
Publication of CN115358929B publication Critical patent/CN115358929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明提出一种压缩图像超分方法、图像压缩方法及系统,属于图像数据处理的技术领域,其中方法包括以下步骤:步骤1、构建超分重构模型,并接收经过压缩后的图像数据;超分重构模型包括:浅层特征提取子网络、全局残差连接子网络和图像重构子网络;步骤2、利用浅层特征提取子网络对接收到的图像数据进行浅层特征提取;步骤3、利用全局残差连接子网络对获取到的浅层特征进行深度特征提取;步骤4、整合浅层特征和深度特征,并利用图像重构子网络获得超分重构的图像数据。本发明有效实现了图像压缩伪影去除,恢复由图像压缩算法导致的丢失的原始图像的细节信息,同时通过增大图像分辨率,增加图像细节信息,凸显细节特征。

Description

压缩图像超分方法、图像压缩方法及系统
技术领域
本发明属于图像数据处理的技术领域,特别是涉及一种压缩图像超分方法、图像压缩方法及系统。
背景技术
随着手机、相机等图像信息采集设备以及无线网络的快速发展,互联网上的图像数据量呈爆发式增长。海量图像数据通常在边缘设备获取,传输到云端进行分析和存储,然后与用户应用程序共享。
在数据通信过程中,为了节省传输带宽和存储容量,采用图像压缩技术,如联合图像专家组(JPEG)。虽然提前降低待压缩图像的分辨率可以降低计算成本,也是满足低码率需求的有效手段。但是压缩过程通常会导致压缩图像中不可避免的信息丢失和不希望的压缩伪影。同时,下采样操作会进一步降低图像质量。
发明内容
发明目的:提出一种压缩图像超分方法、图像压缩方法及系统,以解决现有技术存在的上述问题。
技术方案:第一方面,提出了一种压缩图像超分方法,包括以下步骤:
步骤1、构建超分重构模型,并接收经过压缩后的图像数据;所述超分重构模型包括:浅层特征提取子网络、全局残差连接子网络和图像重构子网络;
步骤2、利用浅层特征提取子网络对接收到的图像数据进行浅层特征提取,其中浅层特征提取子网络是一个3
Figure DEST_PATH_IMAGE002
3的卷积层;
步骤3、利用全局残差连接子网络对获取到的浅层特征进行深度特征提取;
步骤4、整合浅层特征和深度特征,并利用图像重构子网络获得超分重构的图像数据。
在第一方面的一些可实现方式中,全局残差连接子网络用于进行深层特征编码和图像信息处理,包含至少两个特征混合网络模块,以及一个3
Figure 431632DEST_PATH_IMAGE002
3的卷积层。全局残差连接子网络将输出的特征图与接收到的特征图,进行逐元素相加,进行深度特征提取。
图像重构子网络包含一个3
Figure 893837DEST_PATH_IMAGE002
3卷积层、一个Pixel Shuffle层,以及一个3/>
Figure 743107DEST_PATH_IMAGE002
3卷积层,输出的图像数据是去除JPEG图像压缩伪影的4倍分辨率的高质量高分辨率图像。
全局残差连接子网络中包含的特征混合网络模块是一个残差结构的网络块。其中,特征混合网络模块包括卷积特征提取网络块和变形特征提取网络块,用于提取卷积网络特征和变形网络特征。
在同时提取到卷积网络特征和变形网络特征后,通过在卷积特征提取分支和变形网络特征分支之间交互信息,自适应生成权重融合两个分支特征,随后采用自适应特征交叉融合模块进行自适应的双分支特征交叉融合。
特征混合网络模块接收到的特征图包含两个来源,第一个来源是浅层特征提取子网络的输出数据,第二个来源是上一层特征混合网络模块的输出数据。
卷积特征提取网络块包含至少两个两级残差跳跃连接结构;第一个残差连接内部顺序包含层归一化、1
Figure 683381DEST_PATH_IMAGE002
1卷积、3/>
Figure 800241DEST_PATH_IMAGE002
3深度可分离卷积、简单门控模块、简化通道注意力模块、1
Figure 698927DEST_PATH_IMAGE002
1卷积;第二个残差连接顺序包含层归一化、1/>
Figure 268449DEST_PATH_IMAGE002
1卷积、3/>
Figure 137048DEST_PATH_IMAGE002
3深度可分离卷积、简单门控模块、1/>
Figure 249360DEST_PATH_IMAGE002
1卷积。
变形特征提取网络块包含基元嵌入模块、变形网络组、基元逆嵌入模块;所述基元嵌入模块用于编码,将输入特征图切割成不重叠的小块序列。
特征混合网络模块中的卷积特征提取网络块和变形特征提取网络块,通过自适应特征交叉融合模块进行交叉融合。适应特征交叉融合模块(ACFM)的输入包含卷积特征提取网络块输出的网络特征图
Figure DEST_PATH_IMAGE004
和变形特征提取网络块输出的网络特征图/>
Figure DEST_PATH_IMAGE006
,假设两个网络特征图的大小均为[H,W,C],数据处理的流程为:首先,两个特征图分别经过一个1/>
Figure 741784DEST_PATH_IMAGE002
1卷积(Conv)、转置(Permute)分支和一个层归一化(LayerNorm)、1/>
Figure 673968DEST_PATH_IMAGE002
1卷积(Conv)、转置(Permute)分支得到卷积特征图/>
Figure 346257DEST_PATH_IMAGE004
和变形特征图/>
Figure 172131DEST_PATH_IMAGE006
的价值(Value)矩阵/>
Figure DEST_PATH_IMAGE008
、/>
Figure DEST_PATH_IMAGE010
及查询(Query)矩阵/>
Figure DEST_PATH_IMAGE012
、/>
Figure DEST_PATH_IMAGE014
,大小均为[H,W,C]。其次,将/>
Figure 773139DEST_PATH_IMAGE012
、/>
Figure 317253DEST_PATH_IMAGE014
顺次进行矩阵乘、以及归一化指数函数(Softmax)操作得到一个交叉分支注意力特征图(Cross-branch attention map),记为B,大小为[H,W,C]。然后,分别将B与价值矩阵/>
Figure 668600DEST_PATH_IMAGE008
、/>
Figure 614559DEST_PATH_IMAGE010
进行矩阵乘,即可得到变形交叉注意力特征图/>
Figure DEST_PATH_IMAGE016
、/>
Figure DEST_PATH_IMAGE018
,前者是/>
Figure 460504DEST_PATH_IMAGE004
到/>
Figure 367280DEST_PATH_IMAGE006
的全局交叉注意力特征,后者是/>
Figure 115793DEST_PATH_IMAGE006
到/>
Figure 57204DEST_PATH_IMAGE004
的全局交叉注意力特征。再次,分别将/>
Figure 764129DEST_PATH_IMAGE004
、/>
Figure 158201DEST_PATH_IMAGE006
与/>
Figure 211870DEST_PATH_IMAGE016
、/>
Figure 866842DEST_PATH_IMAGE018
相加,即进行残差连接,之后进行加权融合,融合权重根据不同的输入/>
Figure 620035DEST_PATH_IMAGE004
、/>
Figure 626037DEST_PATH_IMAGE006
而自适应变化,最终输出自适应特征交叉融合模块(ACFM)的结果/>
Figure DEST_PATH_IMAGE020
,大小仍为[H,W,C]。这里的自适应权重生成是指融合权重会根据输入的卷积网络特征图/>
Figure 450773DEST_PATH_IMAGE004
和变形网络特征图/>
Figure 101198DEST_PATH_IMAGE006
的变化而变化,而网络中各个自适应特征交叉融合模块(ACFM)的输入/>
Figure 385811DEST_PATH_IMAGE004
、/>
Figure 754475DEST_PATH_IMAGE006
都是由输入图片经过网络一层层计算所得,这就保证了对于不同的输入图片融合权重不同,而且对于同一个输入图片,网络中不同的自适应特征交叉融合模块(ACFM)中的融合权重也不同。
具体的,融合过程的表达式为:
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
式中,
Figure 664793DEST_PATH_IMAGE004
表示卷积特征图;/>
Figure 294358DEST_PATH_IMAGE006
表示变形特征图;/>
Figure DEST_PATH_IMAGE030
表示变形特征图的关键值矩阵的转置;/>
Figure 717249DEST_PATH_IMAGE012
表示卷积特征图的查询矩阵;/>
Figure DEST_PATH_IMAGE032
表示基元嵌入空间的维度;/>
Figure DEST_PATH_IMAGE034
表示交叉分支注意力特征图;/>
Figure 871412DEST_PATH_IMAGE010
表示变形特征图的价值矩阵;/>
Figure 834689DEST_PATH_IMAGE008
表示卷积特征图的价值矩阵;/>
Figure DEST_PATH_IMAGE036
表示交叉分支注意力特征图的转置;/>
Figure DEST_PATH_IMAGE038
表示自适应变化的权重特征图;/>
Figure 115498DEST_PATH_IMAGE018
表示变形特征图到卷积特征图的变形交叉注意力特征图;/>
Figure 381394DEST_PATH_IMAGE016
表示卷积特征图到变形特征图的变形交叉注意力特征图;/>
Figure 85170DEST_PATH_IMAGE020
表示自适应特征交叉融合模块的输出结果。
第二方面,提出一种压缩图像超分系统,用于实现如第一方面所描述的压缩图像超分方法,该系统具体包括以下模块:
模型构建模块,被设置为构建超分重构模型;
数据处理模块,被设置为利用超分重构模型对压缩图像数据进行数据分析;
数据输出模块,被设置为输出数据处理模块的分析结果。
其中,超分重构模型包括浅层特征提取子网络、全局残差连接子网络和图像重构子网络。
在第二方面的一些可实现方式中,在接收到压缩后的图像数据后,首先利用所述浅层特征提取子网络对接收到的图像数据进行浅层特征提取;其次,利用所述全局残差连接子网络对获取到的浅层特征进行深度特征提取;再次,整合浅层特征和深度特征;从次,利用所述图像重构子网络获得超分重构的图像数据;最后,采用所述数据输出模块输出最终的图像数据。
第三方面,提出一种压缩图像超分设备,该设备包括:处理器以及存储有计算机程序指令的存储器。
其中,处理器读取并执行计算机程序指令,以实现压缩图像超分方法。
第四方面,提出一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令。计算机程序指令被处理器执行时,以实现压缩图像超分方法。
第五方面,提出一种图像压缩方法,用于对任意的图像数据进行降采样压缩操作,该方法具体包括以下步骤:
步骤一、接收任意的图像数据;
步骤二、将图像数据利用如权利要求1所述的超分重构模型进行逆变换;
步骤三、输出逆变换图像数据,获得压缩图像数据。
有益效果:本发明提出了一种压缩图像超分方法、图像压缩方法及系统,针对性提出的CIDBNet模型以连续交互的方式将局部特征与全局表示相结合,以进行特征增强学习,可以有效提高压缩图像超分的PSNR指标及可视化效果。
模型中CNN分支和变形(Transformer)分支分别遵循NAFNet、HAT的架构,卷积网络分支是由多个NAFBlock组成,不会降低特征图的分辨率。变形(Transformer)分支采用与HAT相同的结构,而本发明通过使用门控前馈网络门控可分离卷积前向网络块(GDFN)为每个变形(Transformer)网络块的MLP模块引入门控和局部性机制。
提出的自适应特征交叉融合模块(ACFM),通过交叉注意方案在卷积特征提取分支和Transformer分支之间交互信息,并自适应生成权重融合两个分支特征。现有技术中,卷积网络的特点在于其平移不变性和局部相关性,从而与特征在图像上的位置无关,但是其感受野通常很小,不利于捕获全局特征。相比于现有技术,变形(Transformer)网络是一种基于注意力的编码器-解码器结构,能够较好地编码图片的全局信息。因此,本发明提出的特征混合网络块(FMB)另一个关键组成部分自适应特征交叉融合模块(ACFM)来融合两者特征,以继承卷积网络和变形(Transformer)网络的优点。
另外,CIDBNet模型同时针对伪影去除和SR任务进行了优化,可以直接一次训练,更适用于实际场景。
附图说明
图1为本发明的超分重构模型数据处理流程图。
图2为本发明的卷积网络组架构示意图。
图3为本发明NAFBlock架构示意图。
图4为本发明变形网络组架构示意图。
图5为本发明增强重叠交叉注意力模块示意图。
图6为本发明增强混合注意力模块示意图。
图7为本发明自适应分支交叉融合模块ACFM网络结构图。
图8为本发明超分重构模型数据逆处理流程图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
在图像数据处理的技术领域,单图像超分辨率(SISR)已经出现了许多深度学习方法。SRCNN是首次尝试在SISR任务中使用完整的CNN,并与传统方法相比获得了优越的性能。从那时起,各种高级模块被引入到这个任务中,例如残差块、密集块和递归网络。注意力机制也被用于提高模型的表示能力,例如,RCAN。
压缩伪影去除任务是一种图像恢复任务,其中图像的退化是由压缩算法引起的。压缩伪影去除的方法可以分为两类:基于模型的方法和基于学习的方法。基于模型的方法利用图像过滤技术来减少伪影或依靠DCT域的先验知识来探索手工制作的特征。基于学习的方法受益于深度神经网络强大的非线性能力,旨在基于大量配对训练数据的监督将压缩图像映射到恢复图像。第一个使用深度学习的工作是在ARCNN 中介绍的。最近,许多研究人员尝试使用CNN解决图像恢复任务,例如RNAN和RDN。其中一些尝试将先验知识整合到CNN中,例如DRUNet和DMCNN。
压缩图像超分技术,即同时实现压缩图像伪影去除与超分的技术,现有技术中的两项工作均为深度学习方法,可以端到端训练。比如,CISRDCNN由去块模块、上采样模块和增强模块组成,分别用于去块、放大输入分辨率和改进上采样图像的质量。三个模块先分别训练,然后联合优化。CISRNet也采用了两阶段粗到精的学习策略,由粗网络和细化网络组成。
申请人认为现有技术在图像处理的过程中,由于单纯的组合会导致误差的累积,因此单独的图像超分技术、单独的图像压缩伪影去除技术的简单组合不能达到较高的性能和较好的效果。同时,基于深度学习的方法采用具有共享权重的卷积核,这类卷积核针对不同的输入图像与不同的区域进行交互,它是内容独立的,不擅长恢复具有多样化内容的图像,因此现有的基于深度学习的方法不能较好地处理数量很多、且内容多样化的各类图像。另外,基于深度学习的方法采用的卷积操作是局部的,感受野有限,从而无法建立图像上相隔较远图像区域的特征的依赖关系,因此现有的基于深度学习的方法去伪影后图像的整体效果不佳。
针对提及到的问题,本申请提出一种压缩图像超分方法、图像压缩方法及系统,对图像压缩伪影进行去除,同时恢复由图像压缩算法导致的丢失的原始图像的细节信息。另外,通过增加图像分辨率增加图像细节信息,凸显细节特征。
实施例一
在一个实施例中,提出一种压缩图像超分方法,该方法具体包括以下步骤:
步骤1、构建超分重构模型,并接收经过压缩后的图像数据;其中,超分重构模型包括:浅层特征提取子网络、全局残差连接子网络和图像重构子网络。
步骤2、利用浅层特征提取子网络对接收到的图像数据进行浅层特征提取,其中,浅层特征提取子网络是一个3
Figure 727504DEST_PATH_IMAGE002
3的卷积层(Conv)。
步骤3、利用全局残差连接子网络对获取到的浅层特征进行深度特征提取;
具体的,如图1所示,全局残差连接子网络包含至少两个特征混合网络模块(FMB,Feature Mixing Block),以及一个3
Figure 331660DEST_PATH_IMAGE002
3的卷积层(Conv),用于进行深层特征编码和图像信息处理。该子网络通过将输出的特征图与输入进行逐元素相加,完成全局残差连接子网络的特征提取。
步骤4、整合浅层特征和深度特征,并利用图像重构子网络获得超分重构的图像数据;
具体的,图像重构子网络包含一个3
Figure 502879DEST_PATH_IMAGE002
3卷积(Conv)层、一个Pixel Shuffle层,以及一个3/>
Figure 192486DEST_PATH_IMAGE002
3卷积(Conv)层,输出的图像数据是去除JPEG图像压缩伪影的4倍分辨率的高质量高分辨率图像。
在进一步的实施例中,给定一个RGB图像作为输入,该输入图像是经过JPEG压缩后的图像,假设其大小为[H,W,3],即图像的长、宽、通道数分别为H,W,3,经过本实施例提出的超分重构模型,实现输入图像的4倍去JPEG压缩伪影及超分重构,即输出大小为[4H,4W,3]的图像,其中各像素值的取值范围为[0,2^8-1],并且根据任务和数据特性,输出图像应该较好地去除了JPEG伪影。
优选实施例中,在智能电网的无人机巡检领域,以输电线路上的不良绝缘子检测为例,无人机端侧摄像头负责拍摄图像数据,机载图像压缩模块将拍摄图像进行压缩,以减小图像数据大小。随后将压缩图像经过4G网络传输到后端电脑上进行图像分析,并得出绝缘子是否正常的结论。图像分析过程中,传输来的图像首先采取本实施例提出的压缩图像超分技术,实现去JPEG压缩伪影及4倍超分重构,再由人工或算法进行后续故障分析,以提高结果精度。
本实施例在实现图像压缩伪影去除的同时,有效恢复由图像压缩算法导致的丢失的原始图像的细节信息。同时提出的CIDBNet模型可以有效提高压缩图像超分的PSNR指标及可视化效果。
实施例二
在实施例一基础上的进一步实施例中,全局残差连接子网络中的特征混合网络模块是一个残差结构的网络块,如图1所示,该模块包括卷积(Convolution)特征提取网络块和变形(Transformer)特征提取网络块,用于同时提取卷积网络特征和变形网络特征,并采用自适应特征交叉融合模块(ACFM)进行自适应的双分支特征交叉融合。
其中,卷积特征提取网络块包含卷积网络组(Convolution Group);变形特征提取网络块包含基元嵌入模块(PE,Patch Embedding)、变形网络组(Transformer Group)、基元逆嵌入模块(PUE,Patch Un-embedding)。
特征混合网络模块接收到的特征图包含两个来源,第一个来源是浅层特征提取子网络的输出数据,第二个来源是上一层特征混合网络模块的输出数据。优选实施例中,当接收到的浅层特征提取子网络输出图像的大小为[H,W,C]时,在经过卷积特征提取网络块和变形网络特征块后,得到卷积特征图和变形特征图,两者的大小均为[H,W,C],随后,两个特征图再经过自适应特征交叉融合模块进行特征融合,输出大小均为[H,W,C]的特征图。最后,自适应特征交叉融合模块与当前特征混合网络块的输入特征图进行逐元素相加,得到特征混合网络块最终输出特征图,其大小仍为[H,W,C]。
在进一步的实施例中,如图2所示,卷积特征提取网络块包含至少两个NAFBlock,其中NAFBlock的组成是一个两级残差跳跃连接结构,具体如图3所示,第一个残差连接内部顺序包含层归一化(LayerNorm)、1
Figure 372932DEST_PATH_IMAGE002
1卷积(Conv)、3/>
Figure 831595DEST_PATH_IMAGE002
3深度可分离卷积(DWConv)、简单门控模块(Simple Gate)、简化通道注意力模块(SCA,Simplified Channel Attention)、1/>
Figure 439294DEST_PATH_IMAGE002
1卷积(Conv)等深度学习操作或模块。第二个残差连接顺序包含层归一化(LayerNorm)、1/>
Figure 117662DEST_PATH_IMAGE002
1卷积(Conv)、3/>
Figure 836219DEST_PATH_IMAGE002
3 深度可分离卷积(DWConv)、简单门控模块(Simple Gate)、1/>
Figure 414968DEST_PATH_IMAGE002
1卷积(Conv)等深度学习操作或模块。
具体的,NAFBlock中的简单门控模块是一个分散注意力子模块,包含一个Split操作和一个Element-wise Multiplication操作,即首先将输入特征图按通道分成均等的两份,大小为[H,W,C/2],然后再将二者进行逐元素相乘,输出一个[H,W,C/2]的特征图,再依次经过1
Figure 459148DEST_PATH_IMAGE002
1卷积(Conv)、PReLU、1/>
Figure 123347DEST_PATH_IMAGE002
1卷积(Conv)操作,其中前一个1/>
Figure 645595DEST_PATH_IMAGE002
1卷积(Conv)将输出特征图大小恢复成[H,W,C],后一个1/>
Figure 78851DEST_PATH_IMAGE002
1卷积(Conv)不改变特征图大小,仍为[H,W,C]。各个操作均不改变输入和输出的大小,均为[H,W],通道数除了Split操作减半外,均为C。
NAFBlock中的简化通道注意力模块对数据处理的流程为:给定大小为[H,W,C]的输入特征图,依次经过平均池化层(Avgpool)和1
Figure 28352DEST_PATH_IMAGE002
1卷积(Conv)操作层后得到大小为[1,1,C]的特征向量,并将之按照通道与给定的输入特征图相乘,得到简化通道注意力模块的最终输出特征图,大小与输入相同,为[H,W,C]。
在进一步的实施例中,变形特征提取网络块中的基元嵌入模块用于编码,可以将输入特征图切割成不重叠的小块序列,即基元序列(Tokens),随后将基元序列输入变形网络组进行处理,最后由基元逆嵌入模块将处理后的基元序列转化成原始特征图大小的特征图。
具体的,如图4所示,变形网络组包含至少两个增强混合注意力模块(E-HAB,Enhanced hybrid attention block)及一个增强重叠交叉注意力模块(E-OCAB,Enhancedoverlapping cross-attention block)。如图5所示,增强重叠交叉注意力模块顺序包含一个残差连接、一个变形(Reshape)、一个门控可分离卷积前向网络块(GDFN,Gated DconvFeed-forward Network)模块、一个变形(Reshape)。其中,残差连接包含一个层归一化(LayerNorm)层和一个OCA模块。OCA(overlapping cross-attention block)模块是一种建立基元序列的交叉自注意力网络,特点是可以从更大尺寸上基于重叠窗口生成K(Key)和V(Value)矩阵,为Q(Query)提供更大范围的信息。如图6所示,门控可分离卷积前向网络块(GDFN)整体上也是一个残差结构,残差内部顺序包含层归一化(LayerNorm)、1
Figure 415733DEST_PATH_IMAGE002
1卷积(Conv)、3/>
Figure 476093DEST_PATH_IMAGE002
3深度可分离卷积(DWConv)、分散注意力模块(Split Attention)、1/>
Figure 763855DEST_PATH_IMAGE002
1卷积(Conv)等操作或模块。其中,分散注意力模块(Split Attention)位于GDFN中的3/>
Figure 884258DEST_PATH_IMAGE002
3DWConv、1/>
Figure 788629DEST_PATH_IMAGE002
1Conv操作之间,顺序包含分割操作(Split)、GELU、和逐元素相乘等操作,其中分割操作将输入特征图按通道分成两部分,其中一部分经过GELU操作。
其中,如图6所示,增强混合注意力模块与增强重叠交叉注意力模块的不同之处在于门控可分离卷积前向网络块前的残差连接内部的网络构成,主要进行特征的混合注意力特征提取,整体也是一个残差结构,残差连接内部顺序包含一个层归一化(LayerNorm)层、并列的一个通道注意力模块(CAB,Channel Attention Block)和一个基于窗口的多头输出自注意力模块(W-MSA,Window-based Multi-head Self-Attention)。
在进一步的实施中,当门控可分离卷积前向网络块的输入特征图大小为[H,W,C]时,其中的分散注意力模块(Split Attention)首先经过一个Split操作将输入特征图按通道分为均等的两份,大小为[H,W,C/2],其中一份经过一个GELU激活函数,然后与另一份进行逐元素相乘,输出一个[H,W,C/2]的特征图,再经过1
Figure 387100DEST_PATH_IMAGE002
1卷积(Conv)将输出特征图大小恢复成[H,W,C],之后与门控可分离卷积前向网络块(GDFN)的输入特征图相加得到门控可分离卷积前向网络块最终的输出特征图,大小仍为[H,W,C]。
实施例三
在实施例一基础上的进一步实施例中,特征混合网络模块中的卷积特征提取网络块和变形特征提取网络块,通过自适应特征交叉融合模块(ACFM)进行交叉融合,重点解决如何有效地利用卷积网络获得的局部特征和变形网络获得的全局特征的问题。
如图7所示,自适应特征交叉融合模块(ACFM)的输入包含卷积特征提取网络块输出的网络特征图
Figure 529369DEST_PATH_IMAGE004
和变形特征提取网络块输出的网络特征图/>
Figure 86252DEST_PATH_IMAGE006
,假设两个网络特征图的大小均为[H,W,C],数据处理的流程为:首先,两个特征图分别经过一个1/>
Figure 436507DEST_PATH_IMAGE002
1卷积(Conv)、转置(Permute)分支和一个层归一化(LayerNorm)、1/>
Figure 104249DEST_PATH_IMAGE002
1卷积(Conv)、转置(Permute)分支得到卷积特征图/>
Figure 101023DEST_PATH_IMAGE004
和变形特征图/>
Figure 828808DEST_PATH_IMAGE006
的价值(Value)矩阵/>
Figure 911033DEST_PATH_IMAGE008
、/>
Figure 241521DEST_PATH_IMAGE010
及查询(Query)矩阵/>
Figure 968168DEST_PATH_IMAGE012
、/>
Figure 492953DEST_PATH_IMAGE014
,大小均为[H,W,C]。其次,将/>
Figure 937841DEST_PATH_IMAGE012
、/>
Figure 72019DEST_PATH_IMAGE014
顺次进行矩阵乘、以及归一化指数函数(Softmax)操作得到一个交叉分支注意力特征图(Cross-branch attention map),记为B,大小为[H,W,C]。然后,分别将B与价值矩阵/>
Figure 43386DEST_PATH_IMAGE008
、/>
Figure 847394DEST_PATH_IMAGE010
进行矩阵乘,即可得到变形交叉注意力特征图/>
Figure 169791DEST_PATH_IMAGE016
、/>
Figure 717447DEST_PATH_IMAGE018
,前者是/>
Figure 949845DEST_PATH_IMAGE004
到/>
Figure 550853DEST_PATH_IMAGE006
的全局交叉注意力特征,后者是/>
Figure 235912DEST_PATH_IMAGE006
到/>
Figure 711893DEST_PATH_IMAGE004
的全局交叉注意力特征。再次,分别将/>
Figure 533218DEST_PATH_IMAGE004
、/>
Figure 69242DEST_PATH_IMAGE006
与/>
Figure 976018DEST_PATH_IMAGE016
、/>
Figure 990110DEST_PATH_IMAGE018
相加,即进行残差连接,之后进行加权融合,融合权重根据不同的输入
Figure 292041DEST_PATH_IMAGE004
、/>
Figure 874332DEST_PATH_IMAGE006
而自适应变化,最终输出自适应特征交叉融合模块(ACFM)的结果/>
Figure 268404DEST_PATH_IMAGE020
,大小仍为[H,W,C]。这里的自适应权重生成是指融合权重会根据输入的卷积网络特征图/>
Figure 86187DEST_PATH_IMAGE004
和变形网络特征图/>
Figure 741160DEST_PATH_IMAGE006
的变化而变化,而网络中各个自适应特征交叉融合模块(ACFM)的输入/>
Figure 759931DEST_PATH_IMAGE004
、/>
Figure 500354DEST_PATH_IMAGE006
都是由输入图片经过网络一层层计算所得,这就保证了对于不同的输入图片融合权重不同,而且对于同一个输入图片,网络中不同的自适应特征交叉融合模块(ACFM)中的融合权重也不同。具体计算表达式为:
Figure DEST_PATH_IMAGE022A
Figure DEST_PATH_IMAGE024A
Figure DEST_PATH_IMAGE026A
Figure DEST_PATH_IMAGE028A
式中,
Figure 13506DEST_PATH_IMAGE004
表示卷积特征图;/>
Figure 663930DEST_PATH_IMAGE006
表示变形特征图;/>
Figure 214123DEST_PATH_IMAGE030
表示变形特征图的关键值矩阵的转置;/>
Figure 582787DEST_PATH_IMAGE012
表示卷积特征图的查询矩阵;/>
Figure 742373DEST_PATH_IMAGE032
表示基元嵌入空间的维度;/>
Figure 247304DEST_PATH_IMAGE034
表示交叉分支注意力特征图;/>
Figure 466932DEST_PATH_IMAGE010
表示变形特征图的价值矩阵;/>
Figure 588472DEST_PATH_IMAGE008
表示卷积特征图的价值矩阵;/>
Figure 161536DEST_PATH_IMAGE036
表示交叉分支注意力特征图的转置;/>
Figure 911186DEST_PATH_IMAGE038
表示自适应变化的权重特征图;/>
Figure 177082DEST_PATH_IMAGE018
表示变形特征图到卷积特征图的变形交叉注意力特征图;/>
Figure 880858DEST_PATH_IMAGE016
表示卷积特征图到变形特征图的变形交叉注意力特征图;/>
Figure 788772DEST_PATH_IMAGE020
表示自适应特征交叉融合模块的输出结果。
图像的局部和全局信息在视觉任务中是互补的,本实施例提出的交叉注意力机制及自适应性融合机制,较好地融合了卷积网络的局部特征和变形网络的全局特征。
实施例四
在一个实施例中,提出一种压缩图像超分系统用于实现压缩图像的超分方法,该系统包括模型构建模块、数据处理模块、以及数据输出模块三个组成部分。
模型构建模块用于构建超分重构模型;超分重构模型包括浅层特征提取子网络、全局残差连接子网络和图像重构子网络。在接收到压缩后的图像数据后,首先利用浅层特征提取子网络对接收到的图像数据进行浅层特征提取;其次,利用全局残差连接子网络对获取到的浅层特征进行深度特征提取;再次,整合浅层特征和深度特征;从次,利用图像重构子网络获得超分重构的图像数据;最后,采用数据输出模块输出最终的图像数据。
数据处理模块利用超分重构模型对压缩图像数据进行数据分析;
数据输出模块输出数据处理模块的分析结果。
实施例五
在一个实施例中,提出一种图像压缩方法,用于实现任意图像的降采样压缩过程,如图8所示,该方法具体包括以下步骤:
步骤一、接收任意的图像数据;
步骤二、将图像数据利用实施例一中的超分重构模型进行逆变换;
步骤三、输出逆变换图像数据,获得压缩图像数据。
在进一步的实施例中,实现超分图像逆变换的数据流程中,首先对获取到的图像数据进行图像重构子网络逆过程,得到降采样后的特征图数据;随后对分辨率减小后的特征图进行后续的逆过程变换;最后实现图像数据的压缩。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (4)

1.一种压缩图像超分方法,其特征在于,在智能电网的无人机巡检过程中,通过无人机端侧摄像头拍摄图像数据,并通过机载图像压缩模块将拍摄图像进行压缩后,经过4G网络传输到后端电脑上采用如下步骤进行超分分析,获得目标检测物的故障情况:
步骤1、构建超分重构模型,并接收经过压缩后的图像数据;所述超分重构模型包括:浅层特征提取子网络、全局残差连接子网络和图像重构子网络;
步骤2、利用所述浅层特征提取子网络对接收到的图像数据进行浅层特征提取;
步骤3、利用所述全局残差连接子网络对获取到的浅层特征进行深度特征提取;
步骤4、整合浅层特征和深度特征,并利用所述图像重构子网络获得超分重构的图像数据;所述图像重构子网络包含一个3
Figure DEST_PATH_IMAGE001
3卷积层、一个Pixel Shuffle层,以及一个3
Figure 321209DEST_PATH_IMAGE001
3卷积层,输出的图像数据是去除JPEG图像压缩伪影的4倍分辨率的高质量高分辨率图像;
其中,所述全局残差连接子网络用于进行深层特征编码和图像信息处理,包含至少两个特征混合网络模块,以及一个3
Figure 566246DEST_PATH_IMAGE001
3的卷积层,全局残差连接子网络将输出的特征图与接收到的特征图,进行逐元素相加,进行深度特征提取;
所述特征混合网络模块是一个残差结构的网络块,包括:卷积特征提取网络块和变形特征提取网络块,用于提取卷积网络特征和变形网络特征;
所述卷积特征提取网络块包含至少两个两级残差跳跃连接结构;第一个残差连接内部顺序包含层归一化、1
Figure 611562DEST_PATH_IMAGE001
1卷积、3
Figure 334667DEST_PATH_IMAGE001
3深度可分离卷积、简单门控模块、简化通道注意力模块、1
Figure 414619DEST_PATH_IMAGE001
1卷积;第二个残差连接顺序包含层归一化、1
Figure 564978DEST_PATH_IMAGE001
1卷积、33深度可分离卷积、简单门控模块、1
Figure 97590DEST_PATH_IMAGE001
1卷积;
所述变形特征提取网络块包含基元嵌入模块、变形网络组、基元逆嵌入模块;所述基元嵌入模块用于编码,将输入特征图切割成不重叠的小块序列;
所述简单门控模块是一个分散注意力子模块,用于执行一个Split操作和一个Element-wise Multiplication操作,首先将输入特征图按通道分成均等的两份,然后再将二者进行逐元素相乘,输出的特征图,再依次经过1×1卷积、PReLU、1×1卷积操作;
所述简化通道注意力模块对数据处理的流程为:给定大小为[H,W,C]的输入特征图,依次经过平均池化层和1
Figure 624386DEST_PATH_IMAGE001
1卷积操作层后得到大小为[1,1,C]的特征向量,并将之按照通道与给定的输入特征图相乘,得到简化通道注意力模块的最终输出特征图,大小与输入相同,为[H,W,C];
所述变形特征提取网络块中的基元嵌入模块用于编码,将输入特征图切割成不重叠的小块序列;随后将基元序列输入变形网络组进行处理,最后由基元逆嵌入模块将处理后的基元序列转化成原始特征图大小的特征图;
所述变形网络组包含至少两个增强混合注意力模块,及一个增强重叠交叉注意力模块;所述增强重叠交叉注意力模块顺序包含一个残差连接模块、和一个门控可分离卷积前向网络块,数据处理过程中,在经过一个残差连接模块后执行变形操作,并将处理结果输入门控可分离卷积前向网络块中,在经过门控可分离卷积前向网络块处理后,再次执行变形操作,其中残差连接包含一个层归一化层和一个OCA模块;所述OCA模块是一种建立基元序列的交叉自注意力网络,用于基于重叠窗口生成K和V矩阵,为Q矩阵提供信息;所述门控可分离卷积前向网络块作为一个残差结构残差内部顺序包含层归一化、1
Figure 558844DEST_PATH_IMAGE001
1卷积、3
Figure 880104DEST_PATH_IMAGE001
3深度可分离卷积、分散注意力模块、1
Figure 696750DEST_PATH_IMAGE001
1卷积模块;其中,分散注意力模块位于GDFN中的3
Figure 699342DEST_PATH_IMAGE001
3DWConv、11Conv操作之间,顺序包含分割操作、GELU、和逐元素相乘操作,其中分割操作将输入特征图按通道分成两部分,其中一部分经过GELU操作;
当门控可分离卷积前向网络块的输入特征图大小为[H,W,C]时,其中的分散注意力模块经过一个Split操作将输入特征图按通道分为均等的两份,大小为[H,W,C/2],其中一份经过一个GELU激活函数,然后与另一份进行逐元素相乘,输出一个[H,W,C/2]的特征图,再经过1
Figure 753885DEST_PATH_IMAGE001
1卷积将输出特征图大小恢复成[H,W,C],之后与门控可分离卷积前向网络块的输入特征图相加得到门控可分离卷积前向网络块最终的输出特征图,大小仍为[H,W,C];
在同时提取到卷积网络特征和变形网络特征后,通过在卷积特征提取分支和变形网络特征分支之间交互信息,自适应生成权重融合两个分支特征,随后,采用自适应特征交叉融合模块进行自适应的双分支特征交叉融合;融合过程的表达式为:
Figure DEST_PATH_IMAGE003
式中,
Figure 42784DEST_PATH_IMAGE004
表示卷积特征图;
Figure DEST_PATH_IMAGE005
表示变形特征图;
Figure 81147DEST_PATH_IMAGE006
表示变形特征图的关键值矩阵的转置;表示卷积特征图的查询矩阵;
Figure DEST_PATH_IMAGE007
表示基元嵌入空间的维度;
Figure 221185DEST_PATH_IMAGE008
表示交叉分支注意力特征图;
Figure DEST_PATH_IMAGE009
表示变形特征图的价值矩阵;
Figure 661393DEST_PATH_IMAGE010
表示卷积特征图的价值矩阵;
Figure DEST_PATH_IMAGE011
表示交叉分支注意力特征图的转置;
Figure 590035DEST_PATH_IMAGE012
表示自适应变化的权重特征图;
Figure DEST_PATH_IMAGE013
表示变形特征图到卷积特征图的变形交叉注意力特征图;
Figure 912432DEST_PATH_IMAGE014
表示卷积特征图到变形特征图的变形交叉注意力特征图;
Figure DEST_PATH_IMAGE015
表示自适应特征交叉融合模块的输出结果;
数据处理的过程中,所述特征混合网络模块接收到的特征图包含两个来源,第一个来源是浅层特征提取子网络的输出数据,第二个来源是上一层特征混合网络模块的输出数据;当接收到的浅层特征提取子网络输出图像的大小为[H,W,C]时,在经过卷积特征提取网络块和变形网络特征块后,得到卷积特征图和变形特征图,两者的大小均为[H,W,C],随后,两个特征图再经过自适应特征交叉融合模块进行特征融合,输出大小均为[H,W,C]的特征图;最后,自适应特征交叉融合模块与当前特征混合网络块的输入特征图进行逐元素相加,得到特征混合网络块最终输出特征图,其大小仍为[H,W,C]。
2.一种压缩图像超分系统,用于执行如权利要求1所述的压缩图像超分方法,其特征在于,包括以下模块:
模型构建模块,被设置为构建超分重构模型;
数据处理模块,被设置为利用超分重构模型对压缩图像数据进行数据分析;
数据输出模块,被设置为输出数据处理模块的分析结果;
所述超分重构模型包括浅层特征提取子网络、全局残差连接子网络和图像重构子网络;
在接收到压缩后的图像数据后,首先利用所述浅层特征提取子网络对接收到的图像数据进行浅层特征提取;其次,利用所述全局残差连接子网络对获取到的浅层特征进行深度特征提取;再次,整合浅层特征和深度特征;从次,利用所述图像重构子网络获得超分重构的图像数据;最后,采用所述数据输出模块输出最终的图像数据。
3.一种图像压缩方法,用于对如权利要求1所述压缩图像超分重构过程的逆过程进行建模,即对任意的图像数据进行降采样压缩操作,其特征在于,包括以下步骤:
步骤一、接收任意的图像数据;
步骤二、将图像数据利用如权利要求1所述的超分重构模型进行逆变换;
步骤三、输出逆变换图像数据,获得压缩图像数据。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1任意一项所述的压缩图像超分方法或如权利要求2所述的图像压缩方法。
CN202211276433.0A 2022-10-19 2022-10-19 压缩图像超分方法、图像压缩方法及系统 Active CN115358929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211276433.0A CN115358929B (zh) 2022-10-19 2022-10-19 压缩图像超分方法、图像压缩方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211276433.0A CN115358929B (zh) 2022-10-19 2022-10-19 压缩图像超分方法、图像压缩方法及系统

Publications (2)

Publication Number Publication Date
CN115358929A CN115358929A (zh) 2022-11-18
CN115358929B true CN115358929B (zh) 2023-03-24

Family

ID=84008892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211276433.0A Active CN115358929B (zh) 2022-10-19 2022-10-19 压缩图像超分方法、图像压缩方法及系统

Country Status (1)

Country Link
CN (1) CN115358929B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402692B (zh) * 2023-06-07 2023-08-18 江西财经大学 基于非对称交叉注意力的深度图超分辨率重建方法与系统
CN117689001B (zh) * 2024-02-02 2024-05-07 中科方寸知微(南京)科技有限公司 基于零数据搜索的神经网络多粒度剪枝压缩方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767645A (zh) * 2021-02-02 2021-05-07 南京恩博科技有限公司 一种烟雾识别方法及装置、电子设备
CN113409191A (zh) * 2021-06-02 2021-09-17 广东工业大学 一种基于注意力反馈机制的轻量级图像超分方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246085A (zh) * 2019-05-21 2019-09-17 桂林电子科技大学 一种单图像超分辨率方法
CN112150384B (zh) * 2020-09-29 2024-03-29 中科方寸知微(南京)科技有限公司 一种基于残差网络与动态卷积网络模型融合的方法及系统
CN114529450B (zh) * 2022-01-25 2023-04-25 华南理工大学 基于改进深度迭代协作网络的人脸图像超分辨方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767645A (zh) * 2021-02-02 2021-05-07 南京恩博科技有限公司 一种烟雾识别方法及装置、电子设备
CN113409191A (zh) * 2021-06-02 2021-09-17 广东工业大学 一种基于注意力反馈机制的轻量级图像超分方法及系统

Also Published As

Publication number Publication date
CN115358929A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN115358929B (zh) 压缩图像超分方法、图像压缩方法及系统
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
Zhao et al. Invertible image decolorization
CN112164011B (zh) 基于自适应残差与递归交叉注意力的运动图像去模糊方法
Jin et al. A review of an old dilemma: Demosaicking first, or denoising first?
CN111711817B (zh) 一种结合卷积神经网络的hevc帧内编码压缩性能优化方法
EP1262917B1 (en) System and method for demosaicing raw data images with compression considerations
CN113068031B (zh) 一种基于深度学习的环路滤波方法
CN115660955A (zh) 高效多注意力特征融合的超分辨率重建模型、方法、设备及存储介质
CN114998099A (zh) 一种基于图像预训练策略的图像超分辨率方法
Xing et al. Residual swin transformer channel attention network for image demosaicing
CN112150356A (zh) 基于级联框架的单幅压缩图像超分辨率重建方法
Fan et al. Global sensing and measurements reuse for image compressed sensing
CN114761968B (zh) 用于频域静态通道滤波的方法、系统和存储介质
CN116977651B (zh) 一种基于双分支和多尺度特征提取的图像去噪方法
CN113362239A (zh) 一种基于特征交互的深度学习图像修复方法
CN104683818A (zh) 基于双正交不变集多小波的图像压缩方法
TWI826160B (zh) 圖像編解碼方法和裝置
CN116823662A (zh) 一种融合原生特征的图像去噪去模糊方法
CN115471417A (zh) 图像降噪处理方法、装置、设备、存储介质和程序产品
CN116958759A (zh) 图像处理方法、装置、设备、存储介质和程序产品
CN113837935A (zh) 基于增强注意力网络的压缩图像超分辨率重建方法
CN111915492A (zh) 一种基于动态重建的多分支视频超分辨率方法及系统
CN115631115B (zh) 基于递归Transformer的动态图像复原方法
CN117218005B (zh) 基于全距离特征聚合的单帧图像超分辨率方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant