CN117173024B - 一种基于整体注意力的矿井图像超分辨率重建系统及方法 - Google Patents
一种基于整体注意力的矿井图像超分辨率重建系统及方法 Download PDFInfo
- Publication number
- CN117173024B CN117173024B CN202311213700.4A CN202311213700A CN117173024B CN 117173024 B CN117173024 B CN 117173024B CN 202311213700 A CN202311213700 A CN 202311213700A CN 117173024 B CN117173024 B CN 117173024B
- Authority
- CN
- China
- Prior art keywords
- convolution
- output
- input
- features
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000010410 layer Substances 0.000 claims abstract description 113
- 239000011229 interlayer Substances 0.000 claims abstract description 84
- 230000004927 fusion Effects 0.000 claims abstract description 80
- 238000004821 distillation Methods 0.000 claims abstract description 71
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 230000007246 mechanism Effects 0.000 claims abstract description 47
- 238000005070 sampling Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 108091006146 Channels Proteins 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 20
- 230000000750 progressive effect Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008707 rearrangement Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Processing (AREA)
Abstract
本发明属于图像超分辨率重建技术领域,涉及一种基于整体注意力的矿井图像超分辨率重建系统及方法;浅层特征输入到深层特征提取模块,深层特征提取模块由N个信息蒸馏块堆叠组成;层间融合注意力机制模块由M个层间金字塔注意力以金字塔结构组成,并通过1×1卷积层来降低维度以减少计算量和参数量,然后输入到3×3卷积层,并引入长跳跃连接,输出融合结果作为上采样及重建模块的输入;得到高分辨率图像;以信息蒸馏网络为框架,引入增强型自校准卷积可以有效地平衡好计算效率和网络性能,更满足现实应用的需求;层间融合注意力机制对多个信息蒸馏块的输出特征图自适应地分配权重,在融合处理后输入重建模块以实现不同深度特征图地充分利用。
Description
技术领域
本发明属于图像超分辨率重建技术领域,具体涉及一种基于整体注意力的矿井图像超分辨率重建系统及方法。
背景技术
相较于低分辨率图像,高分辨率图像通常具有更佳的视觉效果,包含更大的像素密度和更丰富的纹理细节。单图像超分辨率技术就旨在将给定的低分辨率图像通过特定的算法恢复成相应的高分辨率图像。矿井图像受到光照条件、工作环境和硬件设备的影响,采集到的图像数据往往视觉效果不佳,这就极大影响了后续矿井监控、人员安全检测的准确性。图像超分技术在智慧矿山领域的应用可以使得采集图像重建为平滑清晰的高分辨率图像,识别性能也得到进一步提升。
传统的超分重建算法如插值法、迭代反投影和凸集投影法等往往需要丰富的先验知识,重建后的图像存在高频细节缺失、边缘模糊等问题。为解决这些问题,深度学习被应用于图像超分重建领域。Dong等人最先提出了具有三层网络结构的SRCNN,可直接对从低分辨率图像到高分辨图像的映射进行建模。EDSR使用超过160层的网络结构证明了可以通过加深网络来提高图像重建质量,但较大的参数量和较高的计算耗时使其难以满足实时性的要求,不适合矿下工作环境。目前,基于深度学习的超分网络都致力于提升峰值信噪比(PSNR)和结构相似度(SSIM)这两大指标,所使用的结构更加复杂,对硬件资源的要求也更高,但更高的指标并不一定代表着更优的重建效果。
常见的超分模型一般由浅层特征提取模块、深层特征提取模块和上采样重建模块这三部分组成。浅层特征提取模块通常利用1-2层卷积来提取例如纹理细节和边缘信息等浅层特征。ESPCN模型中提出的亚像素卷积方法通过通道重组获得高分辨图像,这也是在上采样重建模块常用的方法。深层特征提取模块能够进一步提取图像的深层特征,直接影响了图像重建效果,一般存在以下缺陷:第一,现有的超分模型为了更高的重建指标,堆叠卷积层和注意力机制,使参数量和计算量急剧提升,难以满足煤矿开采中的实时性要求;第二,仅利用深层特征提取模块的最终输出会忽略较浅层提取的细节,重建结果不够平滑,平等地处理所有特征提取块的输出则会产生较多冗余参数。
因此,需要权衡好图像重建质量和模型复杂性,设计出更加轻量和高效的CNN模型。
发明内容
本发明针对上述现有技术存在的问题,提供一种基于整体注意力的矿井图像超分辨率重建系统及方法。
本发明的目的第一,重新考虑IDN,IMDN等基于信息蒸馏的超分重建模型,引入增强型自校准卷积来提取更深层次的图像特征。同时为了进一步减少计算量,使用1×1卷积层进行信息蒸馏,降低通道数。
第二,引入层间融合注意力机制,对深层特征提取模块中多个信息蒸馏块的输出特征图自适应地分配权重,在融合处理后输入重建模块以实现不同深度特征图地充分利用。
本发明的技术解决方案是:
第一方面,本发明提供一种基于整体注意力的矿井图像超分辨率重建系统,所述系统包括输入模块、浅层特征提取层、深层特征提取模块、层间融合注意力机制模块、上采样及重建模块、输出模块;
所述输入模块接收低分辨率图像;
所述浅层特征提取层采用3×3卷积层对低分辨率图像进行浅层特征提取;
所述深层特征提取模块由N个信息蒸馏块IDB堆叠组成,浅层特征输入到深层特征提取模块,每个信息蒸馏块的输出特征输入到下一个信息蒸馏块,同时信息蒸馏块的输出特征输入到层间融合注意力机制模块中;每个信息蒸馏块由渐进式细化模块、增强型自校准卷积和坐标注意力三部分组成;
所述层间融合注意力机制模块由M个层间金字塔注意力以金字塔结构组成,层间融合注意力机制模块的最下一层的每个层间金字塔注意力接收两个信息蒸馏块的输出特征进行层间融合,两个融合结果在输入到上层的层间金字塔注意力进行层间融合;所述层间融合注意力机制模块进行特征融合来提高特征利用率和信息流动,并通过1×1卷积层来降低维度以减少计算量和参数量,然后,输入到3×3卷积层,并引入长跳跃连接,经3×3卷积层的输出特征与浅层特征相加作为上采样及重建模块的输入;
所述上采样及重建模块由一个3×3卷积层和一个亚像素卷积层(PixelShuffle)组成,对输入特征进行图像重建,得到高分辨率图像;
所述输出模块输出高分辨率图像。
进一步地,所述深层特征提取模块由4个信息蒸馏块IDB堆叠组成,所述层间融合注意力机制模块由3个层间金字塔注意力以金字塔结构组成;浅层特征输入到深层特征提取模块,每个信息蒸馏块的输出特征输入到下一个信息蒸馏块,同时前两个信息蒸馏块的输出和后两个信息蒸馏块的输出分别输入到下层的两个层间金字塔注意力进行层间融合,两个融合结果再输入到上层的层间金字塔注意力进行层间融合。
进一步地,所述信息蒸馏块IDB由渐进式细化模块、增强型自校准卷积和坐标注意力三部分组成,具体为:
首先采用3×3卷积层提取输入特征用于后续的蒸馏步骤,每次蒸馏都采用通道分割操作,产生两部分特征,其中一部分作为保留特征输入到1×1卷积层,另一部分特征作为细化特征输入增强型自校准卷积层来提取更深层次的图像特征;重复上述操作,将增强型自校准卷积层的输出结果再次分割为保留特征和细化特征,共经过三次分割操作后,使用3×3卷积层增强增强型自校准卷积层的最终输出特征并使用通道维度拼接Concat操作与三个保留特征进行拼接融合;在拼接操作后嵌入坐标注意力,在信息蒸馏块IDB的末端使用1×1卷积进行降维处理,并引入跳跃连接。
进一步地,所述增强型自校准卷积有四组卷积核
其原理为:将输入图像x被平均地分割为两部分{x1,x2}即通道数都为x的一半,其中x1被送入上分支,x2被送入下分支;使用{k2,k3,k4}三个卷积核对x1进行自校准操作,从而获得上分支的输出Y1;首先使用尺寸为r×r的滤波器以步长为r对x1进行池化操作并使用卷积核组k2进行特征变换:
x’1=UP(f2(AvgPoolr(x1)))=UP(AvgPoolr(x1)*k2)
其中,UP表示线性插值操作;进一步,自校准操作表示为:
Y’1=f3(x1)·σ(x1+x’1)=(x1*k3)·σ(x1+x’1)
其中,σ(·)代表sigmoid激活函数,同时为进一步增强校准能力,引入跳跃连接,则上分支的输出为:
Y1=f4(Y’1+(x1+x’1))=(Y’1+(x1+x’1))*k4
下分支使用简单的卷积操作f1(x2)=x2*k1来保留原始的空间信息,从而获得下分支输出Y2;最后将两分支的输出沿通道维度拼接Concat操作拼接到一起并通过通道混洗将原通道顺序打乱来加强上下分支融合,得到最终的输出Y:
Y=fshuffle[Y1,Y2]
其中,fshuffle代表通道混洗操作,[Y1,Y2]表示对上下分支的输出结果进行拼接融合操作。
进一步地,所述坐标注意力包括位置信息的嵌入和位置信息的生成两个步骤;
首先,坐标注意力将全局池化分解为水平方向和垂直方向上的两个池化操作,对于一个通道数为C,宽和高分别为H,W的输入XC×H×W,用尺寸(H,1)和(1,W)的池化核沿着两方向进行编码,则在高度h处的第c个通道的输出为:
其中,i代表宽;
在宽度w处第c个通道的输出为:
其中,j代表高;
坐标信息嵌入过程获得了输入特征的全局感受野和精确的位置信息,利用该位置信息生成坐标注意力图,将水平和垂直方向池化后的结果拼接到一起,并送入一个1×1卷积层:
f=δ(BN(f1×1([zh,zw])))
其中,[zh,zw]代表拼接操作,f1×1代表1×1卷积,BN代表批量归一化层用于提高模型的稳定性,δ(·)代表非线性激活函数,假定输入为x,其公式如下:
δ(x)=Relu6(x+3)/6
经过激活函数获得非线性数据后,将输出结果f沿空间维度分割为两个独立的张量fh和fw,再分别经过1×1卷积,利用sigmoid激活函数获得注意力权重:
gh=σ(f1×1(fh))
gw=σ(f1×1(fw))
其中,f1×1代表1×1卷积,σ(·)表示sigmoid激活函数;
最后,将原输入与水平和垂直权重相乘,获得坐标注意力机制的最终输出,则第c通道上的输出可表示为:
进一步地,所述层间融合注意力机制具体为:
假定4个IDB块的输出分别为F1,F2,F3,F4,F1与F2进行层间融合得到结果Fout1,F3与F4进行层间融合得到结果Fout2,最后将Fout1与Fout2进行层间特征融合得到输出结果Fout。
进一步地,F1与F2进行层间融合得到结果Fout1具体为:
F1与F2的维度皆为Batchsize×C×H×W,Batchsize代表每次读取的图像数量,C代表特征通道数,H,W分别代表图像高度与宽度;
首先沿通道维度将F1与F2拼接到一起,并使用1×1卷积和池化操作来降低计算量和参数量,公式如下:
favg=AvgPoolr(f1×1([F1,F2]))
其中,[F1,F2]代表拼接操作,AvgPoolr表示步长为r的池化操作,f1×1表示1×1卷积;
然后,引入分组维度,将池化后的结果favg重整成维度为Batchsize×2×C的矩阵并与相应的转置矩阵相乘来计算不同特征之间的相关性:
其中,δ(·)和分别表示softmax激活函数和维度重整;
将维度重整后的favg乘以具有比例因子α的预测矩阵,使用softmax激活函数生成上下两分支的注意力权重:
其中,split(·)代表张量分割操作,δ(·)表示softmax激活函数;
最后将上下分支原输入F1,F2与得到的注意力权重相乘后相加即可得到输出结果:
进一步地,所述上采样及重建模块具体为:
先使用一个3×3卷积对假定尺寸为H×W×C的输入特征图进行卷积操作,进一步提取特征,再使用深度为r2C的卷积得到尺寸为H×W×r2C的特征图,然后对其进行重新编排实现图像尺寸的放大,输出特征的尺寸为rH×rW×C。
第二方面,本发明提供一种基于整体注意力的矿井图像超分辨率重建方法,其特征在于,所述方法步骤如下:
步骤1,输入模块接收低分辨率图像;
步骤2,使用一个3×3卷积组成的浅层特征提取模块对低分辨率图像LR的特征进行初步提取;
步骤3,将浅层特征输入到N个信息蒸馏块组成的深层特征提取模块中,浅层特征输入到深层特征提取模块,每个信息蒸馏块的输出特征输入到下一个信息蒸馏块,同时信息蒸馏块的输出特征输入到层间融合注意力机制模块中;
步骤4,层间融合注意力机制模块的最下一层的每个层间金字塔注意力接收两个信息蒸馏块的输出特征;所述层间融合注意力机制模块进行特征融合来提高特征利用率和信息流动,并通过1×1卷积层来降低维度以减少计算量和参数量,然后,输入到3×3卷积层,并引入长跳跃连接,经3×3卷积层的输出特征与浅层特征相加作为上采样及重建模块的输入;
步骤5,最后上采样及重建部分采用3×3卷积层捕获图像中的各种细节信息,亚像素卷积通过重新排列通道和插值来放大图像尺寸,将模糊的低分辨图像转换为清晰的高分辨图像;
步骤6,输出模块输出重建后的高分辨率图像。
本发明具有以下有益效果:(1)通过堆叠卷积层和注意力机制在一定程度上能够提升网络性能,获得更高的重建指标,但一味地增加网络深度会造成参数冗余,计算量也会大幅提升,难以实时地为后续分析识别提供重建后的图像。因此,以信息蒸馏网络为框架,引入增强型自校准卷积可以有效地平衡好计算效率和网络性能,在尽可能降低计算量的前提下提取更深层特征,更满足现实应用的需求。
(2)深层特征提取模块是充分网络模型中最重要的部分,其包含多个特征提取块,现有模型多数仅利用最后特征块的输出,即仅利用最深层的特征而忽略其它深度特征图对重建效果的影响。自适应地给多个特征提取块的输出分配权重能够充分利用所有深度的特征图,重建图像也更加平滑,清晰。
附图说明
图1为矿井图像超分辨重建系统结构图;
图2为本发明基于整体注意力的矿井图像超分重建网络结构图;
图3为本发明中信息蒸馏块的结构图;
图4为本发明中增强型自校准卷积的结构图;
图5为本发明中坐标注意力的结构图;
图6为本发明中层间融合注意力机制的结构图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
本发明提出了一种基于整体注意力的矿井图像超分辨率重建方法及系统,通过将增强型自校准卷积与信息蒸馏网络结合来平衡计算成本和最终的重建效果,以适用于矿井工作环境。该方法主要包括以下几个部分:1.以信息蒸馏网络为基本架构,对当前的特征图进行通道分割来保留不同深度的图像特征;2.引入增强型自校准卷积,使用一个额外的注意力机制对卷积核进行调整,可以更好地捕捉图像数据中丰富的特征信息;3.引入层间融合注意力机制,使得网络可以根据不同层之间的关联和重要性,动态地调整特征的权重。图1是矿井图像超分辨重建系统结构图。
对于给定的低分辨率图像,其对应的原始高分辨率图像为IHR,则经本发明重建出的图像可表示为ISR=HIDHAN(ILR),其中HIDHAN代表本发明所提出的系统模型。与以往多数超分方法一致,本发明使用平均绝对误差损失函数(MAE)进行优化。若训练数据集为即包含N个ILR-IHR图像对,则此模型的损失函数可以表示为:
其中,Θ表示模型的可更新参数,||·||1为l1范数。本发明首先使用一个3×3卷积实现图像特征的初步提取,然后使用N个信息蒸馏块提取深层特征并通过层间融合注意力机制和1×1卷积层融合N个经信息蒸馏模块输出的中间特征,这样可以保障信息的完整和有效性,在增加少量参数量的基础上提高模型重建性能。最后的上采样及重建部分包括一个3×3卷积层和一个亚像素卷积层以尽可能多地保存参数。
基于整体注意力的矿井图像超分重建网络结构如图2所示,系统包括输入模块、浅层特征提取层、深层特征提取模块、层间融合注意力机制模块、上采样及重建模块、输出模块;
深层特征提取模块:
输入模块接收低分辨率图像;浅层特征提取层采用3×3卷积层对低分辨率图像进行浅层特征提取;深层特征提取模块由4个信息蒸馏块(IDB)堆叠组成,浅层特征输入到深层特征提取模块,每个信息蒸馏块的输出特征输入到下一个信息蒸馏块,同时前两个信息蒸馏块的输出输入到下层的一个层间金字塔注意力进行层间融合,后两个信息蒸馏块的输出输入到下层的另一个层间金字塔注意力进行层间融合,两个融合结果再输入到上层的层间金字塔注意力进行层间融合;每个信息蒸馏块由渐进式细化模块(Progressiverefinement module,PRM)、增强型自校准卷积(Enhanced self-calibratingconvolution)和坐标注意力(Coordinate Attention)三部分组成。相较于原始的信息蒸馏块,我们使用增强型自校准卷积代替3×3卷积,这样能够获得更深的特征信息。同时,我们使用坐标注意力对渐进式细化模块的输出进行处理,坐标注意力机制会根据输入图像的不同坐标位置和特征,为不同的位置分配不同的权重。这样,模型可以更聚焦于图像中的重要信息,提高图像的细节和清晰度。
渐进式细化是实现信息蒸馏的关键,首先采用3×3卷积层提取输入特征用于后续的蒸馏步骤,每次蒸馏都采取通道分割操作,这就将产生两部分特征。其中一部分作为保留特征输入到1×1卷积层,另一部分作为细化特征输入增强型自校准卷积层来提取更深层次的图像特征,重复上述操作,将增强型自校准卷积层的输出结果再次分割为保留特征和细化特征,共经过三次分割操作后,使用3×3卷积层增强增强型自校准卷积层的最终输出特征并使用通道维度拼接Concat操作与三个保留特征进行拼接融合;在拼接操作后嵌入坐标注意力,引入了位置信息以改进模型对不同位置的关注能力,在信息蒸馏块IDB的末端使用1×1卷积进行降维处理,并引入跳跃连接,减少网络参数并引入跳跃连接使模型利用低级别特征来改善高级别特征的表示;对于经过第一个3×3卷积层输出的特征Fin,该过程在第4个信息蒸馏块中可以表示为:
Freamin_1,Fdeliver_1=split1(L1(Fin))
Fremain_2,Fdeliver_2=split2(L2(Fdeliver_1))
Fremain_3,Fdeliver_3=split3(L3(Fdeliver_2))
Fremain_4=L4(Fdeliver_3)
其中,Lk表示第k个增强型自校准卷积操作,k=1,2,3,L4为3×3卷积层,splitk表示第k个通道分割操作,Fremain_k表示被保留下来的第k个提取特征,Fdeliver_k表示第k个送入下一处理层的特征;
然后,所有被保留下来的提取特征连接在一起作为渐进式细化模块的输出:
Freamin=Concat(Freamin_1,Fremain_2,Fremain_3,Fremain_4)
Concat表示沿通道维度的拼接操作。
接着嵌入坐标注意力机制改进模型对不同位置的关注能力并使用1×1卷积层来降低维度,减少参数量,公式如下:
F=f1x1(fcoordinate(Fremain))
其中,f1x1表示1×1卷积,fcoordinate表示坐标注意力机制;
然后,引入跳跃连接,F与原始输入特征相加。
增强型自校准卷积是多个卷积注意力的组合,相较于传统卷积层,增强型自校准卷积可以提取出更具区分度的图像特征,其核心思想是利用四个尺寸不同的卷积对多尺度信息进行编码,充分考虑了空间上下文关系。自校准的卷积方法能够在不增加额外参数和计算量的情况下产生全局的感受野,获取的特征图也更有区分度。本发明所使用的增强型自校准卷积有四组卷积核分别负责不同的作用。输入图像x被平均地分割为两部分{x1,x2}即通道数都为x的一半,其中x1被送入上分支,x2被送入下分支。使用{k2,k3,k4}三个卷积核对x1进行自校准操作,从而获得上分支的输出Y1。首先使用尺寸为r×r的滤波器以步长为r对x1进行池化操作并使用卷积核组k2进行特征变换:
x’1=UP(f2(AvgPoolr(x1)))=UP(AvgPoolr(x1)*k2)
其中,UP表示线性插值操作;进一步,自校准操作表示为:
Y’1=f3(x1)·σ(x1+x’1)=(x1*k3)·σ(x1+x’1)
其中,σ(·)代表sigmoid激活函数,同时为进一步增强校准能力,引入跳跃连接,则上分支的输出为:
Y1=f4(Y’1+(x1+x’1))=(Y’1+(x1+x’1))*k4
下分支使用简单的卷积操作f1(x2)=x2*k1来保留原始的空间信息,从而获得下分支输出Y2;最后将两分支的输出沿通道维度拼接Concat操作拼接到一起并通过通道混洗将原通道顺序打乱来加强上下分支融合,得到最终的输出Y:
Y=fshuffle[Y1,Y2]
其中,fshuffle代表通道混洗操作,[Y1,Y2]表示对上下分支的输出结果进行拼接融合操作;
自校准操作不仅收集全局上下文,而且考虑每个空间位置周围的上下文,在某种程度上避免了来自无关区域的信息干扰。
目前来看,注意力机制可以将网络的焦点引导到有更多信息的区域,对模型性能的提高有着显著作用。常见的通道注意力机制(Channel Attention)主要关注于不同通道之间的相互关系,通过学习通道之间的重要性并进行加权来增强网络对不同特征的感知能力。但它们通常忽略了位置信息,而位置信息对于捕获视觉任务中的对象结构是至关重要的。坐标注意力把位置信息嵌入到通道注意中,将其分解为两个一维特征编码过程,分别沿两个方向聚合特征,从而捕获长期依赖关系。坐标注意力主要包括两个关键步骤,位置信息的嵌入(Coordinate Information Embedding)和位置信息的生成(Coordinate AttentionGeneration)。通道注意力常使用全局池化来对空间信息进行全局编码,将整个特征图在空间维度上进行压缩从而得到一个全局描述符,但池化后难以保存位置信息。
为了捕捉更精确的位置信息,坐标注意力将全局池化分解为水平方向和垂直方向上的两个池化操作,从而获得输入特征的位置信息,这就是位置信息的嵌入。
对于一个通道数为C,宽和高分别为H,W的输入XC×H×W,用尺寸(H,1)和(1,W)的池化核沿着两方向进行编码,则在高度h处的第c个通道的输出为:
其中,i代表宽;
在宽度w处第c个通道的输出为:
其中,j代表高;
坐标信息嵌入过程获得了输入特征的全局感受野和精确的位置信息,利用该位置信息可以生成坐标注意力图。将水平和垂直方向池化后的结果拼接到一起,并送入一个1×1卷积层:
f=δ(BN(f1×1([zh,zw])))
其中,[zh,zw]代表拼接操作,f1×1代表1×1卷积,BN代表批量归一化层用于提高模型的稳定性,δ(·)代表非线性激活函数,假定输入为x,其公式如下:
δ(x)=Relu6(x+3)/6
经过激活函数获得非线性数据后,将输出结果f沿空间维度分割为两个独立的张量fh和fw,再分别经过1×1卷积,利用sigmoid激活函数获得注意力权重:
gh=σ(f1×1(fh))
gw=σ(f1×1(fw))
其中,f1×1代表1×1卷积,σ(·)表示sigmoid激活函数;
最后,将原输入与水平和垂直权重相乘,获得坐标注意力机制的最终输出,则第c通道上的输出可表示为:
层间融合注意力机制模块(Interlayer fusion attention mechanism):
密集连接和跳跃连接能够将浅层信息直接传递到更深层,前者会造成信息的冗余,后者则平等对待不同深度的特征,这两种方式都没有利用不同层之间的相互依赖关系。层间融合注意力机制模块由3个层间金字塔注意力以金字塔结构组成,层间融合注意力机制模块的最下一层的每个层间金字塔注意力接收两个信息蒸馏块的输出特征;层间融合注意力机制模块进行特征融合来提高特征利用率和信息流动,并通过1×1卷积层来降低维度以减少计算量和参数量,然后,输入到3×3卷积层,并引入长跳跃连接,经3×3卷积层的输出特征与浅层特征相加作为上采样及重建模块的输入。层间融合注意力能够获得不同深度特征之间的依赖关系,为不同深度的特征分配不同的注意力权重,提高特征表示能力。
假定4个IDB块的输出分别为F1,F2,F3,F4,F1与F2进行层间融合得到结果Fout1,F3与F4进行层间融合得到结果Fout2,最后将Fout1与Fout2进行层间特征融合得到输出结果Fout。
F1与F2的维度皆为Batchsize×C×H×W,Batchsize代表每次读取的图像数量,C代表特征通道数,H,W分别代表图像高度与宽度。首先沿通道维度将F1与F2拼接到一起,并使用1×1卷积和池化操作来降低计算量和参数量,公式如下:
favg=AvgPoolr(f1×1([F1,F2]))
其中,[F1,F2]代表拼接操作,AvgPoolr表示步长为r的池化操作,f1×1表示1×1卷积;
然后,引入分组维度,将池化后的结果favg重整成维度为Batchsize×2×C的矩阵并与相应的转置矩阵相乘来计算不同特征之间的相关性:
其中,δ(·)和分别表示softmax激活函数和维度重整;
将维度重整后的favg乘以具有比例因子α的预测矩阵,使用softmax激活函数生成上下两分支的注意力权重:
其中,split(·)代表张量分割操作,δ(·)表示softmax激活函数。
最后将上下分支原输入F1,F2与得到的注意力权重相乘后相加即可得到输出结果:
重复上述操作将F3与F4进行层间融合得到结果Fout2,将Fout1与Fout2进行层间特征融合即可得到层间融合的结果Fout,接着将Fout送入1×1卷积层来降低维度,使用3×3卷积进一步提取特征并引入跳跃连接来优化训练:
Fdeep=f3×3(f1×1(Fout))+F0
其中,f1×1表示1×1卷积,f3×3表示3×3卷积,F0表示经浅层特征提取模块提取出的浅层特征。
信息蒸馏块的堆叠使得神经网络不断加深,但是纹理和细节信息严重丢失,而浅层特征包含丰富的纹理和细节,为此需要将浅层特征与深层特征同时送入上采样及重建模块。但简单地将所有特征提取块的输出聚合到一起会造成信息的冗余,而层间融合注意力允许模型跨层级地传递信息和交互,可以自适应地关注重要的上层特征,帮助模型更好地进行特征选择和抽象表示,重建出的图像有着更佳的视觉效果。
上采样及重建模块:
上采样技术是图像进行超分辨重建的必要步骤,根据其所处位置的不同,可分为预上采样(Pre-upsampling),渐进式上采样(Progressive Upsampling)和后上采样(Post-upsampling)。预上采样是先将输入的低分辨率图像上采样为目标大小,再输入网络进行学习,这样简化了建模过程但使得后续计算都在高维空间进行,增加了计算复杂度。渐进式上采样也成为金字塔上采样,是一种多步骤的上采样算法,从低分辨率开始,逐步上采样到目标分辨率。这种方法可以获得更好的细节,但需要设计合适的上采样策略才能达到最佳效果。在网络输出高分辨率图像后进行上采样,可以提高图像的质量和细节恢复能力。
使用后上采样的方式,应用亚像素卷积方法进行最后的重建工作。亚像素卷积的基本原理是将输入的低分辨率特征图像划分成若干个互不重叠的像素块,然后通过卷积操作将这些像素块扩展到高分辨率的目标图像大小。在卷积操作中,每个像素块的维度会被扩展,并与邻近的像素块进行局部连接,即将原本在特征图中的低频信息通过卷积进行空间分配,生成高分辨率的输出。
若假定信息蒸馏块的输出特征经层间融合注意力机制后输入到上采样及重建模块的输入特征为Fdeep,其张量维度为H×W×C。上采样及重建模块首先使用一个3×3卷积进行图像特征提取,再使用亚像素卷积进行图像尺寸方法。亚像素卷积使用一个尺寸为kernal×kernal×C×r2C标准卷积层对特征图Fdeep进行初步处理,输出特征图的维度为H×W×r2 C。然后,亚像素卷积将此特征图按照通道进行分割并将切片沿着通道维度进行交错排列,以实现对每个特征点的重新排列。重排后的特征图的尺寸为rH×rW×C,其中每个特征点包含来自r×r个像素块的信息:
ISR=fSubpixel(f3×3(ILR))=fSubpixel(f3×3(Fdeep))
其中,f3×3表示3×3卷积,fSubpixel表示亚像素卷积操作。
一种基于整体注意力的矿井图像超分辨率重建方法,所述方法步骤如下:
步骤1,输入模块接收低分辨率图像;
步骤2,使用一个3×3卷积组成的浅层特征提取模块对低分辨率图像LR的特征进行初步提取;
步骤3,将浅层特征输入到N个信息蒸馏块组成的深层特征提取模块中,浅层特征输入到深层特征提取模块,每个信息蒸馏块的输出特征输入到下一个信息蒸馏块,同时信息蒸馏块的输出特征输入到层间融合注意力机制模块中;
步骤4,层间融合注意力机制模块的最下一层的每个层间金字塔注意力接收两个信息蒸馏块的输出特征;所述层间融合注意力机制模块进行特征融合来提高特征利用率和信息流动,并通过1×1卷积层来降低维度以减少计算量和参数量,然后,输入到3×3卷积层,并引入长跳跃连接,经3×3卷积层的输出特征与浅层特征相加作为上采样及重建模块的输入;
步骤5,最后上采样及重建部分采用3×3卷积层捕获图像中的各种细节信息,亚像素卷积通过重新排列通道和插值来放大图像尺寸,将模糊的低分辨图像转换为清晰的高分辨图像;
步骤6,输出模块输出重建后的高分辨率图像。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于整体注意力的矿井图像超分辨率重建系统,其特征在于,所述系统包括输入模块、浅层特征提取层、深层特征提取模块、层间融合注意力机制模块、上采样及重建模块、输出模块;
所述输入模块接收低分辨率图像;
所述浅层特征提取层采用3×3卷积层对低分辨率图像进行浅层特征提取;
所述深层特征提取模块由N个信息蒸馏块IDB堆叠组成,浅层特征输入到深层特征提取模块,每个信息蒸馏块的输出特征输入到下一个信息蒸馏块,同时信息蒸馏块的输出特征输入到层间融合注意力机制模块中;
每个信息蒸馏块由渐进式细化模块、增强型自校准卷积和坐标注意力三部分组成,具体为:
首先采用3×3卷积层提取输入特征用于后续的蒸馏步骤,每次蒸馏都采用通道分割操作,产生两部分特征,其中一部分作为保留特征输入到1×1卷积层,另一部分特征作为细化特征输入增强型自校准卷积层来提取更深层次的图像特征;重复上述操作,将增强型自校准卷积层的输出结果再次分割为保留特征和细化特征,共经过三次分割操作后,使用3×3卷积层增强增强型自校准卷积层的最终输出特征并使用通道维度拼接Concat操作与三个保留特征进行拼接融合;在拼接操作后嵌入坐标注意力,在信息蒸馏块IDB的末端使用1×1卷积进行降维处理,并引入跳跃连接;
所述层间融合注意力机制模块由M个层间金字塔注意力以金字塔结构组成,层间融合注意力机制模块的最下一层的每个层间金字塔注意力接收两个信息蒸馏块的输出特征进行层间融合,两个融合结果在输入到上层的层间金字塔注意力进行层间融合;所述层间融合注意力机制模块进行特征融合来提高特征利用率和信息流动,并通过1×1卷积层来降低维度以减少计算量和参数量,然后,输入到3×3卷积层,并引入长跳跃连接,经3×3卷积层的输出特征与浅层特征相加作为上采样及重建模块的输入;
所述上采样及重建模块由一个3×3卷积层和一个亚像素卷积层组成,对输入特征进行图像重建,得到高分辨率图像;
所述输出模块输出高分辨率图像。
2.根据权利要求1所述的基于整体注意力的矿井图像超分辨率重建系统,其特征在于,所述深层特征提取模块由4个信息蒸馏块IDB堆叠组成,所述层间融合注意力机制模块由3个层间金字塔注意力以金字塔结构组成;浅层特征输入到深层特征提取模块,每个信息蒸馏块的输出特征输入到下一个信息蒸馏块,同时前两个信息蒸馏块的输出和后两个信息蒸馏块的输出分别输入到下层的两个层间金字塔注意力进行层间融合,两个融合结果再输入到上层的层间金字塔注意力进行层间融合。
3.根据权利要求1所述的基于整体注意力的矿井图像超分辨率重建系统,其特征在于,所述增强型自校准卷积有四组卷积核
其原理为:将输入图像x被平均地分割为两部分{x1,x2}即通道数都为x的一半,其中x1被送入上分支,x2被送入下分支;使用{k2,k3,k4}三个卷积核对x1进行自校准操作,从而获得上分支的输出Y1;首先使用尺寸为r×r的滤波器以步长为r对x1进行池化操作并使用卷积核组k2进行特征变换:
x’1=UP(f2(AvgPoolr(x1)))=UP(AvgPoolr(x1)*k2)
其中,UP表示线性插值操作;进一步,自校准操作表示为:
Y’1=f3(x1)·σ(x1+x’1)=(x1*k3)·σ(x1+x’1)
其中,σ(·)代表sigmoid激活函数,同时为进一步增强校准能力,引入跳跃连接,则上分支的输出为:
Y1=f4(Y1’+(x1+x’1))=(Y1’+(x1+x’1))*k4
下分支使用简单的卷积操作f1(x2)=x2*k1来保留原始的空间信息,从而获得下分支输出Y2;最后将两分支的输出沿通道维度拼接Concat操作拼接到一起并通过通道混洗将原通道顺序打乱来加强上下分支融合,得到最终的输出Y:
Y=fshuffle[Y1,Y2]
其中,fshuffle代表通道混洗操作,[Y1,Y2]表示对上下分支的输出结果进行拼接融合操作。
4.根据权利要求1所述的基于整体注意力的矿井图像超分辨率重建系统,其特征在于,所述坐标注意力包括位置信息的嵌入和位置信息的生成两个步骤;
首先,坐标注意力将全局池化分解为水平方向和垂直方向上的两个池化操作,对于一个通道数为C,宽和高分别为H,W的输入XC×H×W,用尺寸(H,1)和(1,W)的池化核沿着两方向进行编码,则在高度h处的第c个通道的输出为:
其中,i代表宽;
在宽度w处第c个通道的输出为:
其中,j代表高;
坐标信息嵌入过程获得了输入特征的全局感受野和精确的位置信息,利用该位置信息生成坐标注意力图,将水平和垂直方向池化后的结果拼接到一起,并送入一个1×1卷积层:
f=δ(BN(f1×1([zh,zw])))
其中,[zh,zw]代表拼接操作,f1×1代表1×1卷积,BN代表批量归一化层用于提高模型的稳定性,δ(·)代表非线性激活函数,假定输入为x,其公式如下:
δ(x)=Relu6(x+3)/6
经过激活函数获得非线性数据后,将输出结果f沿空间维度分割为两个独立的张量fh和fw,再分别经过1×1卷积,利用sigmoid激活函数获得注意力权重:
gh=σ(f1×1(fh))
gw=σ(f1×1(fw))
其中,f1×1代表1×1卷积,σ(·)表示sigmoid激活函数;
最后,将原输入与水平和垂直权重相乘,获得坐标注意力机制的最终输出,则第c通道上的输出可表示为:
5.根据权利要求2所述的基于整体注意力的矿井图像超分辨率重建系统,其特征在于,所述层间融合注意力机制具体为:
假定4个IDB块的输出分别为F1,F2,F3,F4,F1与F2进行层间融合得到结果Fout1,F3与F4进行层间融合得到结果Fout2,最后将Fout1与Fout2进行层间特征融合得到最终的输出结果Fout。
6.根据权利要求5所述的基于整体注意力的矿井图像超分辨率重建系统,其特征在于,F1与F2进行层间融合得到结果Fout1具体为:
F1与F2的维度皆为Batchsize×C×H×W,Batchsize代表每次读取的图像数量,C代表特征通道数,H,W分别代表图像高度与宽度;
首先沿通道维度将F1与F2拼接到一起,并使用1×1卷积和池化操作来降低计算量和参数量,公式如下:
favg=AvgPoolr(f1×1([F1,F2]))
其中,[F1,F2]代表拼接操作,AvgPoolr表示步长为r的池化操作,f1×1表示1×1卷积;
然后,引入分组维度,将池化后的结果favg重整成维度为Batchsize×2×C的矩阵并与相应的转置矩阵相乘来计算不同特征之间的相关性:
其中,δ(·)和分别表示soft max激活函数和维度重整;
将维度重整后的favg乘以具有比例因子α的预测矩阵,使用softmax激活函数生成上下两分支的注意力权重:
其中,split(·)代表张量分割操作,δ(·)表示soft max激活函数;
最后将上下分支原输入F1,F2与得到的注意力权重相乘后相加即可得到输出结果:
7.根据权利要求1所述的基于整体注意力的矿井图像超分辨率重建系统,其特征在于,所述上采样及重建模块具体为:
先使用一个3×3卷积对假定尺寸为H×W×C的输入特征图进行卷积操作,进一步提取特征,再使用深度为r2C的卷积得到尺寸为H×W×r2C的特征图,然后对其进行重新编排实现图像尺寸的放大,输出特征的尺寸为rH×rW×C。
8.利用权利要求1-7任一项所述的系统进行基于整体注意力的矿井图像超分辨率重建方法,其特征在于,所述方法步骤如下:
步骤1,输入模块接收低分辨率图像;
步骤2,使用一个3×3卷积组成的浅层特征提取模块对低分辨率图像LR的特征进行初步提取;
步骤3,将浅层特征输入到N个信息蒸馏块组成的深层特征提取模块中,浅层特征输入到深层特征提取模块,每个信息蒸馏块的输出特征输入到下一个信息蒸馏块,同时信息蒸馏块的输出特征输入到层间融合注意力机制模块中;
步骤4,层间融合注意力机制模块的最下一层的每个层间金字塔注意力接收两个信息蒸馏块的输出特征;所述层间融合注意力机制模块进行特征融合来提高特征利用率和信息流动,并通过1×1卷积层来降低维度以减少计算量和参数量,然后,输入到3×3卷积层,并引入长跳跃连接,经3×3卷积层的输出特征与浅层特征相加作为上采样及重建模块的输入;
步骤5,最后上采样及重建部分采用3×3卷积层捕获图像中的各种细节信息,亚像素卷积通过重新排列通道和插值来放大图像尺寸,将模糊的低分辨图像转换为清晰的高分辨图像;
步骤6,输出模块输出重建后的高分辨率图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311213700.4A CN117173024B (zh) | 2023-09-20 | 2023-09-20 | 一种基于整体注意力的矿井图像超分辨率重建系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311213700.4A CN117173024B (zh) | 2023-09-20 | 2023-09-20 | 一种基于整体注意力的矿井图像超分辨率重建系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117173024A CN117173024A (zh) | 2023-12-05 |
CN117173024B true CN117173024B (zh) | 2024-04-16 |
Family
ID=88937267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311213700.4A Active CN117173024B (zh) | 2023-09-20 | 2023-09-20 | 一种基于整体注意力的矿井图像超分辨率重建系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173024B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926343A (zh) * | 2022-06-08 | 2022-08-19 | 南京大学 | 一种基于金字塔融合注意力网络的图像超分辨率方法 |
WO2022241995A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉图像增强的生成方法、系统、装置及存储介质 |
CN115601236A (zh) * | 2022-09-27 | 2023-01-13 | 厦门大学(Cn) | 一种基于特征信息蒸馏网络的遥感图像超分辨重建方法 |
CN117237190A (zh) * | 2023-09-15 | 2023-12-15 | 中国矿业大学 | 用于边缘移动设备的轻量化图像超分辨率重建系统及方法 |
-
2023
- 2023-09-20 CN CN202311213700.4A patent/CN117173024B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022241995A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉图像增强的生成方法、系统、装置及存储介质 |
CN114926343A (zh) * | 2022-06-08 | 2022-08-19 | 南京大学 | 一种基于金字塔融合注意力网络的图像超分辨率方法 |
CN115601236A (zh) * | 2022-09-27 | 2023-01-13 | 厦门大学(Cn) | 一种基于特征信息蒸馏网络的遥感图像超分辨重建方法 |
CN117237190A (zh) * | 2023-09-15 | 2023-12-15 | 中国矿业大学 | 用于边缘移动设备的轻量化图像超分辨率重建系统及方法 |
Non-Patent Citations (1)
Title |
---|
轻型金字塔池化注意力机制网络实现图像超分;方金生等;计算机工程与应用;第58卷(第20期);第1.3、2.1、2.3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN117173024A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119780B (zh) | 基于生成对抗网络的高光谱图像超分辨重建方法 | |
CN113096017B (zh) | 基于深度坐标注意力网络模型的图像超分辨率重建方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN110363068B (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
CN112950475A (zh) | 一种基于残差学习及空间变换网络的光场超分辨率重建方法 | |
CN112785502B (zh) | 一种基于纹理迁移的混合相机的光场图像超分辨率方法 | |
CN113222818A (zh) | 一种使用轻量化多通道聚合网络重建超分辨率图像的方法 | |
CN114638842B (zh) | 一种基于mlp的医学图像分割方法 | |
CN116258757A (zh) | 一种基于多尺度交叉注意力的单目图像深度估计方法 | |
CN113807497B (zh) | 一种增强纹理细节的非配对图像翻译方法 | |
CN117173024B (zh) | 一种基于整体注意力的矿井图像超分辨率重建系统及方法 | |
CN117237190A (zh) | 用于边缘移动设备的轻量化图像超分辨率重建系统及方法 | |
CN116823647A (zh) | 基于快速傅里叶变换和选择性注意力机制的图像补全方法 | |
CN116977631A (zh) | 一种基于DeepLabV3+的街景语义分割方法 | |
Ma et al. | AFEC: adaptive feature extraction modules for learned image compression | |
CN116524180A (zh) | 基于轻量级主干结构的戏曲舞台场景分割方法 | |
CN116385454A (zh) | 一种基于多阶段聚合的医学图像分割方法 | |
CN115731138A (zh) | 一种基于Transformer与卷积神经网络的图像修复方法 | |
CN116188652A (zh) | 一种基于双尺度循环生成对抗的人脸灰度图像着色方法 | |
CN115660979A (zh) | 一种基于注意力机制的双判别器图像修复方法 | |
Liu et al. | Second-order attention network for magnification-arbitrary single image super-resolution | |
CN112785684B (zh) | 一种基于局部信息加权机制的三维模型重建方法 | |
CN109087247A (zh) | 一种对立体图像进行超分的方法 | |
CN114881858A (zh) | 基于多注意力机制融合的轻量级双目图像超分辨率方法 | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |