CN117274047A - 双路卷积与自注意力结合的红外图像超分辨率重建方法 - Google Patents
双路卷积与自注意力结合的红外图像超分辨率重建方法 Download PDFInfo
- Publication number
- CN117274047A CN117274047A CN202310946812.4A CN202310946812A CN117274047A CN 117274047 A CN117274047 A CN 117274047A CN 202310946812 A CN202310946812 A CN 202310946812A CN 117274047 A CN117274047 A CN 117274047A
- Authority
- CN
- China
- Prior art keywords
- convolution
- attention
- image
- self
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000003993 interaction Effects 0.000 claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 108091006146 Channels Proteins 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 230000001133 acceleration Effects 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003331 infrared imaging Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种双路卷积与自注意力结合的红外图像超分辨率重建方法,包括如下步骤:1、对获得的开源红外图像数据集进行训练数据和测试数据的划分,并对数据进行预处理;2、构建融合特征的网络模型,所述融合特征网络模型包括浅层特征提取网络、深层特征提取网络和图像重建提取网络3、基于构建好的红外图像训练数据集,对融合特征的网络模型进行训练;4、将构建好的红外图像测试数据集作为输入,通过训练好的融合特征网络模型进行红外图像超分辨率重建。本发明结合CNN和自注意力,利用不同大小的感受野,对图像的局部特征和全局特征进行建模,并加入双向信息交互模块,增强了通道维度和空间维度的建模能力,得以更好地恢复重建图像的细节。
Description
技术领域
本发明属于计算机视觉领域,提供了一种双路卷积与自注意力结合的红外图像超分辨率重建方法。
背景技术
红外成像系统通过探测器接收目标物体的红外辐射得到红外图像,可以在低光、低能见度和难以观察的复杂环境中提供可见光相机无法提供的图像信息。同时能够在昼夜以及各种天气条件下工作,具有出色的抗干扰性、高穿透性、高灵敏度和高隐蔽性,因此被广泛应用于航空航天、医疗、遥感等领域。然而,红外成像系统容易受到烟雾、灰尘和雨水等环境因素的影响,并且受到镜头、传感器、处理器以及成像技术的限制,捕获的红外图像的分辨率通常较低,往往会出现对比度低、边缘模糊和其他问题。这些低分辨率、低质量的红外图像给目标检测和分割等下游任务的应用带来了挑战,需要提高红外图像的分辨率和质量使其得到更好的利用。
然而,克服红外成像系统硬件的制造工艺和物理限制较为困难,并且通过硬件来提高图像质量费时费力。图像超分辨率作为计算机视觉领域的一个研究方向,通过算法将输入的低质量的低分辨率图像重建输出为清晰的高分辨率图像,在人脸识别、小目标检测等任务中起着至关重要的作用。因此,也可以将其作为提高红外图像分辨率和质量的一种可靠、有效的方法。
在过去的研究中,图像超分辨率领域已经提出了许多方法,主要可以分为三类:基于插值的方法、基于重建的方法和基于学习的方法。
基于插值的方法通过建立映射关系,对图像待插值像素进行估计来获取高分辨率图像,这类方法原理简单,计算速度快,但对图像中的信息引入较少,很难较好的恢复图像中的细节特征。基于重建的方法对图像的成像过程进行建模分析,并提取融合图像的先验信息,重建出高分辨率图像,由于有了先验信息的约束,所得到的图像能恢复出更多的细节特征,但这类方法需要很多先验知识,算法执行效率不高,且对尺度缩放因子敏感。近年来,深度学习在各个计算机视觉任务中,相较于传统方法在性能表现上有显著的提高,基于学习的方法得到了广泛的研究。基于学习的方法构建神经网络模型,利用成对的低分辨率图像和高分辨率图像进行端对端的训练学习,最终使用训练完毕的网络模型进行图像的超分辨率重建。
发明内容
本发明针对现有技术的不足,提供了一种双路卷积与自注意力结合的红外图像超分辨率重建方法。该方法基于卷积操作、自注意力、特征融合和信息交互,联合学习图像的局部以及全局特征,对低分辨率的红外图像进行超分辨率重建。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1、首先对获得的开源红外图像数据集进行训练数据和测试数据的划分,并对数据进行预处理,所述的预处理包括图像裁剪、图像下采样、图像增强。通过预处理,得到了和原高分辨率图像一一对应的低分辨率图像,这样的一对低分辨率图像和高分辨率图像构成了网络模型的训练和测试数据集。
步骤2、构建融合特征网络模型,所述融合特征网络模型包括浅层特征提取网络、深层特征提取网络和图像重建提取网络。
步骤3、基于构建好的红外图像训练数据集,对融合特征网络模型进行训练。
本发明还提供了以下步骤进行验证:
步骤4、依照步骤3的流程,使用相同的训练方法,对近几年提出的多个主流超分辨率重建网络模型进行训练。
步骤5、将训练过后的各个模型用测试数据进行测试,计算并对比重建图像的峰值信噪比(Peak Signal-to-NoiSe Ratio,PSNR)和结构相似性(Structural SimilarityIndex,SSIM),使用指标验证模型的性能。
步骤6、对比各模型所重建图像的视觉效果,直观地验证模型性能。
步骤7、使用局部归因图(LocalAttributionMap,LAM)分析,展现模型进行图像重建时所关注的重点区域。
本发明相对现有的技术在研究创新方面做出了以下几点贡献:
1、本发明结合卷积操作和自注意力,利用不同大小的感受野,对图像的局部特征和全局特征进行建模,并加入双向信息交互模块,增强了通道维度和空间维度的建模能力,完成了对红外图像的超分辨率重建,填补了红外图像超分辨率重建的研究空缺。
2、本发明通过双分支的网络模型设计,以及双路卷积结构、多头注意力机制单元和双向信息交互模块的部署,在与图像超分辨率重建领域前沿方法的对比实验中,达到了先进的水平。
3、通过LAM对重建图像进行分析,展现模型进行图像重建时所关注的重点区域,更好地解释模型的图像重建过程。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本发明具体的运行过程的流程图。包含了发明的各个模块之间的关系,以及发明实现过程。
图2是本发明的模型整体架构图。包含了浅层特征提取阶段、深层特征提取阶段和图像重建阶段。
图3是本发明的深层特征提取阶段结构图。包含了若干个堆叠的双分支特征融合模块和一个卷积核大小为3×3的卷积层。
图4是双分支特征融合模块结构图。主要包含两个分支:卷积分支和自注意力分支,以及分支间的双向信息交互模块。
图5是本发明数据集样本图。本发明用于训练和测试的红外图像来自五个数据集,包括室外和室内的不同的背景、场景以及诸多对象。
图6是本发明同其他主流模型所重建图像的视觉效果对比图。通过观察重建图像的质量可以说明本发明的优势。
图7是本发明同其他主流模型的LAM分析。通过红色区域的大小可以看出模型利用的有用像素的多少。
具体实施方式
下面结合附图对本发明进行进一步说明。
本实施例如图1-7和表1-4所示,展示了一种双路卷积与自注意力结合的红外图像超分辨率重建方法的设计流程,具体步骤为:
步骤1、首先对获得的开源红外图像数据集进行训练数据和测试数据的划分,并对数据进行预处理,所述的预处理包括图像裁剪、图像下采样、图像增强。通过预处理,得到了和原高分辨率图像一一对应的低分辨率图像,这样的一对图像构成了网络模型的训练和测试数据集。
步骤2、构建融合特征网络模型,所述融合特征网络模型包括浅层特征提取网络、深层特征提取网络和图像重建提取网络。
具体的,如图2所示,该网络模型包含三个子网络:浅层特征提取网络、深层特征提取网络和图像重建提取网络。
其中,所述浅层特征提取网络为卷积核大小为3×3的卷积层,所述深层特征提取网络由若干残差特征融合模块堆叠而成并在尾部添加一个卷积核大小为3×3的卷积层;所述图像重建提取网络包括两个卷积核大小为3×3的卷积层以及Pixel Shuffle,所述PixelShuffle连接在两个卷积层之间。
所述残差特征融合模块如图3所示,由若干个堆叠的双分支特征融合模块构成一个卷积核大小为3×3的卷积层构成,所述双分支特征融合模块如图4所示,主要包括卷积分支和自注意力分支,以及卷积分支和自注意力分支之间的双向信息交互模块。
所述卷积分支选用卷积核大小为3×3和5×5的卷积层作为特征提取的两条路径,以及卷积核大小为1×1的卷积层进行降维处理。
所述卷积分支中选用的卷积核大小为3×3和5×5的卷积层为depth-wise卷积层。
所述双向交互模块包括通道交互模块和空间交互模块。
所述通道交互模块包括一个用于信息压缩的全局自适应平均池化层、两个批归一化层,两个卷积核大小为1×1的卷积层和一个GeLU激活函数,最后使用Sigmoid函数生成通道注意力图Cam∈R1×1×c;
所述空间交互模块包括两个批归一化层,两个用于降维的卷积核大小为1×1的卷积层和一个GeLU激活函数,最后使用Sigmoid函数生成空间注意力图Sam∈Rh×w×1。
步骤3基于构建好的红外图像训练数据集,对融合特征网络模型进行训练,获得特征融合模型。本发明实验环境基于PyTorch框架,运行于Ubuntu20.04,使用两张NvidiaGeForce 3090Ti图形驱动显卡进行并行加速计算。经过预处理后,使用IR700数据集中的600对低分辨率红外图像ILR和高分辨率红外图像IHR进行模型训练,将低分辨率图像输入模型后,输出得到超分辨率图像ISR,利用输出图像和原始高分辨率图像计算L1损失,通过最小化损失并使用Adam优化器优化网络模型参数,迭代300000次完成训练,L1损失的计算过程可以表示为:
L1=||ISR-IHR||1。
步骤4、将构建好的红外图像测试数据集作为输入,通过训练好的融合特征网络模型进行红外图像超分辨率重建,具体重建过程如下:
在浅层特征提取网络使用一个卷积核大小为3×3的卷积层获得浅层特征图,将输入从简单的低维空间映射到更抽象的高维空间,从而可以在早期提取图像中的低频信息。对于给定的低分辨率输入图像其中h,w和cin分别表示输入图的高,宽和通道数,通过卷积层的处理可以得到浅层特征映射图FSF∈Rh×w×c,其中c是中间特征映射图的通道数,可以用公式表示为:
FSF=Conv3×3(ILR)。
深度特征提取阶段使用若干个堆叠的残差特征融合模块和一个卷积核大小为3×3的卷积层提取图像的深层特征图,每个残差特征融合模块又由若干个堆叠的双分支特征融合模块和一个卷积核大小为3×3的卷积层构成,随着模块的堆叠,网络加深,可以进行更全面的特征提取和学习,最后的卷积层进一步聚集和增强特征。因此,从FSF中提取深度特征映射图FDF∈Rh×w×c,可以用公式表示为:
其中RMFB表示残差特征融合模块,MFB表示双分支特征融合模块,N,M分别为这两个模块的数量,实验中均设置为6。
双分支特征融合模块的结构,如图4所示,其主要包含两个分支:卷积分支和自注意力分支,以及分支间的双向信息交互模块。将两个分支提取到的不同特征进行拼接后,通过线性映射降低通道维度,消去冗杂信息,与输入特征图的通道维度保持一致从而进行残差连接,再使用层归一化和多层感知机进行非线性变换和进一步的特征表达。
表1
表1展示的结果说明了对卷积和自注意力进行结合的有效性,使用卷积和自注意力两个分支的性能表现优于只使用卷积或者只使用自注意力分支的表现,特别是在IR700测试集上进行测试时,在PSNR上分别提升了0.17和0.23,在SSIM上分别提升了0.0021和0.0035。从原理层面分析,卷积注重于对局部范围的特征进行建模,自注意力注重于对全局范围的特征进行建模,结合实验结果表明结合这两种操作能够同时关注图像的细节和整体,对图像进行更好的特征建模,从而最大地提升模型性能。
卷积分支对区域和局部范围内的特征进行建模。该分支采用双路卷积结构,选用卷积核大小为3×3和5×5的卷积层作为特征提取的两条路径,并用depth-wise卷积代替传统卷积,大大减少了网络的参数数量和计算量。在完成特征提取后,使用卷积核大小为1×1的卷积层进行降维处理,过滤掉不必要的信息,从而将这两条路径上的特征拼接后,使得特征维度和输入时的保持一致,以进行后续的特征融合。具体来说,对于给定的中间特征映射图I∈Rh×w×c,其分别通过卷积核大小为3×3和5×5的depth-wise卷积层后,输出的两个特征图的h,w和c均保持不变,再分别将二者通过卷积核大小为1×1的卷积层进行降维处理,输出特征图的通道数c减少至c/2,最后在通道维度上进行拼接,将通道数恢复至c,因此,提取到卷积分支内的特征FConv∈Rh×w×c,提取过程可以表示为:
FConv=[C0nv1×1(DConv3×3(I)),Conv1×1(DConv5×5(I))],
其中Conv1×1表示卷积核大小为1×1的卷积层,DConv3×3和DConv5×5分别表示卷积核大小为3×3和5×5的depth-wise卷积层,[]表示通道维度的拼接。
需要说明的是,本实施例中提及的中间特征映射图I∈Rh×w×c为在整个红外图像超分辨率重建过程中产生的特征图均统称为中间特征映射图。
表2
表2展示的结果说明了使用的双路卷积结构的有效性,同时使用卷积核大小为3×3和5×5的卷积层比单独使用卷积核大小为3×3的卷积层、单独使用卷积核大小为5×5的卷积层以及同时使用卷积核大小为3×3、5×5和7×7的卷积层的效果好,特别是在IR700测试集上进行测试时,在PSNR上分别提升了0.07,0.04和0.11,在SSIM上分别提升了0.0007,0.0005和0.0017,加入卷积核大小7×7的卷积层后性能下降最多。从原理层面分析,由于最后需要进行降维处理,过多卷积层的插入可能会导致其他卷积层提取的有益信息被压缩以及提取多余不必要的信息,最终降低性能。
自注意力分支擅长捕捉上下文之间的全局依赖关系,对全局特征进行建模,该分支采用多头自注意力机制进行计算。由于原始的自注意力计算要求输入一个二维矩阵,同样对于给定的中间特征映射图I∈Rh×w×c,首先将中间特征映射图变形成I′∈Rhw×c,之后利用三个可训练的映射矩阵将其分别映射为Q、K和V,其中Q、K和V,为中间变量,映射过程可以表示为:
Q=I′MQ,K=I′MK,V=I′MV,
其中MQ,MK和MV∈Rc×c为可训练的投影矩阵,旨在提高网络的拟合能力。然后通过计算Q和K之间的相关性,为V赋予相应的权重。因此,自注意力计算可以表示为:
其中QKT通过计算两个向量之间的点积获得相关性,使用对得到的相似性度量进行缩放和标准化,softmax对结果进行归一化,使自注意力矩阵中的元素在0到1之间。
此时,根据矩阵运算的计算量公式,完成上述运算的计算量为4hwc2+2(hw)2c。随着图像长度和宽度(即h和w)的增加,计算量呈二次增长。为了提高计算速度并降低复杂性,将I′∈Rhw×c划分为n个大小为m2的不重叠窗口,计算每个窗口内的自注意力,其中n=hw/m2且m2<<hw,因此得到Q、K和窗口划分后,上述自注意力计算将在一个局部窗口内完成,计算量为4hwc2+2hw(m)2c。此外,为了在窗口之间建立连接,通过移动窗口分区进行特征位移并将移位大小设置为m/2。
为了使网络模型能够共同关注来自不同位置的不同表示子空间的信息,将它们分成若干组,即多个头,具体来说,通过线性映射将Q、K和V分成t组,每个组计算自己的结果,最后将多个组的结果拼接起来,得到最终结果,计算过程可以表示为
MHSA(Q,K,V)=[H1,H2,...,Ht],
其中是可训练的投影矩阵。通过将整个自注意操作分成t个头,可以从多个维度提取更丰富的特征信息。
分支间的双向信息交互模块包括通道交互模块和空间交互模块。考虑到卷积和自注意力的权重共享机制不同,其中卷积在空间维度上共享权重,自注意力则在通道维度上共享权重,将卷积分支初步得到的特征通过通道交互模块传向自注意力分支,而后将自注意力分支计算得到的特征通过空间交互模块传回卷积分支,更新特征图,从而实现两个分支之间的互补信息交换。
对于通道交互,的目标是将通道维度的信息传递到自注意力分支,以增强通道维度上的特征。通道交互模块包括一个用于信息压缩的全局自适应平均池化层、两个批归一化层,两个卷积核大小为1×1的卷积层和一个GeLU激活函数,最后使用Sigmoid函数生成通道注意力图。具体来说,在卷积分支中得到的FConv∈Rh×w×c经过通道交互模块后得到通道注意力图Cam∈R1×1×c,并在通道维度上与V相乘得到,因此,利用更新后的V*在自注意力分支中进行计算得到计算过程如下:
FAttn=MHSA(Q,K,V*),
其中表示通过广播机制,根据通道注意力图Cam为V中的每个通道分配权重,至此,自注意力计算完成,通过窗口还原和变形将/> 转换为以进行后续处理。
在空间交互方面,由于扫描二维空间的整个特征时,卷积核中的权值是固定的,因此需要将中的信息传递给卷积分支以改进空间维度上的特征。空间交互模块包括两个批归一化层,两个用于降维的卷积核大小为1×1的卷积层和一个GeLU激活函数,最后同样使用Sigmoid函数生成空间注意力图。具体来说,之前得到的/> 经过空间交互模块后得到空间注意力图Sam∈Rh×w×1,在空间维度上与最初提取的卷积特征FConv相乘,得到更新后的/>计算过程如下:
其中⊙表示通过广播机制,将两个矩阵的对应位置元素进行相乘。可以看出,在通道交互中,不同空间位置的权值保持不变而在不同通道中发生变化,在空间交互中则相反。
表3
表3展示的结果说明了使用的双向信息交互模块的有效性,同时使用通道交互模块和空间交互模块比不使用信息交互模块、只使用通道交互模块和只使用空间交互模块的效果好,特别是在IR700测试集上进行测试时,去掉双向交互后,模型在PSNR和SSIM上分别降低了0.11和0.0015。从原理层面分析,从两个分支中提取的特征进行了有益的双向交互,相互补充信息,从而提高了性能。
通过双分支和双向交互的设计,增强了卷积和自注意力的建模能力。然而,将这两个分支的特征在通道维度进行拼接后将使通道数量翻倍,这无法和输入的中间特征映射图I进行残差连接,于是需要通过线性映射来降低融合特征的维数,降维和残差连接的计算过程可以表示为:
其中MMix是一个可训练的投影矩阵。最后,加入一个层归一化层和一个多层感知器,进行非线性变换和进一步的特征表达,并使用残差连接,计算过程可以表示为:
其中LN是层归一化层,MLP是多层感知器。
图像重建阶段将提取到的浅层特征映射图FSF与深层特征映射图FDF进行融合,并使用Pixel Shuffle将低分辨率特征图放大指定倍率,同时使用卷积核大小为3×3的卷积层得到最终的超分辨率图像 其中s为超分辨率倍率,计算过程可以表示为:
ISR=Conv3×3(Pixelshuffle(Conv3×3(FSF+FDF)))。
最后为了验证本实施例的有效性,给出以下验证方法:
依照步骤3的流程,使用相同的训练方法,对近几年提出的多个主流图像超分辨率重建网络模型进行训练。选用的主流网络网络模型包括RRDB、RCAN、NLSN、SwinIR、HAT,这些都是近几年发表在顶级会议或期刊的方法。
将训练过后的各个模型用测试数据进行测试,计算并对比重建图像的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似性(Structural Similarity Index,SSIM),使用指标验证模型的性能。测试数据包括IR700数据集中除训练图像剩下的100张图像、DLS-NUC-100数据集的100张图像、IR100数据集的100张图像、results-A数据集的22张图像和Flir数据集的50张图像。如图5所示,这些数据集中的红外图像包括室外和室内的不同的背景、场景以及诸多对象,能更好地检验模型的性能以及泛化能力。
表4
表4展示的结果说明了在不同超分辨率倍率下各模型在各测试数据集中计算得到的平均PSNR和SSIM。可以看到本发明在所有超分辨率倍率下,在所有测试数据集中都得到了最好的效果,特别是在IR700测试集上进行测试时,在2倍、3倍和4倍的超分辨率倍率下,PSNR分别提升了0.21~0.344,0.09~0.33和0.12~0.31,SSIM分别提升了0.001~0.0014,0.0007~0.0021和0.0019~0051。同时也设计对比实验,说明了本发明设计网络模型时对卷积和自注意力进行结合、使用的双路卷积结构和双向信息交互模块的有效性,所有进行对比实验的模型,同样依照步骤3的流程,使用相同的训练参数并在4倍超分辨率倍率下进行训练。
对比各模型所重建图像的视觉效果,直观地验证模型性能。如图6所示,展示了五组原始高分辨率图像以及使用训练完成的模型进行重建的超分辨率图像并加以对比,HR为图像放大的部分区域,每组图片底部计算了对应的PSNR和SSIM来进行辅助说明。可以看到通过本发明重建出的图像,在IR700数据集中,“18.png”中栏杆之间的间隙更加清晰明显;“135.png”中的铁窗重建地更直且更规则,尤其是在底部;“137.png”中,建筑表面的形状轮廓和边界更加清晰;在DLS-NUC-100数据集中,“75.png”中外墙瓷砖布局重建地更加精确;在IR100数据集中,“022379.png”中的护栏结构更加清晰。这些视觉对比证明了本发明的有效性。
使用局部归因图(Local Attribution Map,LAM)分析,展现模型进行图像重建时所关注的重点区域。如图7所示,分别为SwinIR、HAT和本发明模型进行了LAM分析。LAM是一种为图像超分辨率重建设计的分析方法,在LAM中,每个像素点都被赋予一个重要性权重,反映了该像素点对最终图像重建的贡献程度。红色标记的区域是有助于重建的信息像素,颜色越深表示贡献程度越高。红色区域越大,表明利用的有用像素越多,获得的信息越充分。其中计算得到的扩散指数(Diffusion Index,DI)反映了参与图像重建的像素的范围,DI越高,使用的像素越多,范围越广。可以看出,本发明模型利用了目标区域周围更大范围的像素进行图像重建,相比SwinIR和HAT,在五张测试图片中DI平均提升了6.334和5.986,解释了模型的图像重建过程。
Claims (10)
1.一种双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于包括如下步骤:
步骤1、对获得的开源红外图像数据集进行训练数据集和测试数据集的划分,并对数据进行预处理;
步骤2、构建融合特征网络模型,所述融合特征网络模型包括浅层特征提取网络、深层特征提取网络和图像重建提取网络,所述浅层特征提取网络为卷积核大小为3×3的卷积层,所述深层特征提取网络由若干残差特征融合模块堆叠而成并在尾部添加一个卷积核大小为3×3的卷积层;所述图像重建提取网络包括两个卷积核大小为3×3的卷积层以及Pixel Shuffle,所述Pixel Shuffle连接在两个卷积层之间;
步骤3、基于构建好的红外图像训练数据集,对融合特征网络模型进行训练;
步骤4、将构建好的红外图像测试数据集作为输入,通过训练好融合特征网络模型进行红外图像超分辨率重建,
步骤4-1、浅层特征提取阶段,使用一个卷积核大小为3×3的卷积层获得浅层特征图;
步骤4-2、深层特征提取阶段,使用若干个堆叠的残差特征融合模块和一个卷积核大小为3×3的卷积层提取图像的深层特征图;
步骤4-3、图像重建提取阶段,将提取到的浅层特征映射图与深层特征映射图进行融合,并使用Pixel Shuffle将低分辨率特征图放大指定倍率,同时使用卷积核大小为3×3的卷积层得到最终的超分辨率图像。
2.根据权利要求1所述的双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于,所述步骤1中预处理方法包括图像裁剪、图像下采样、图像增强。
3.根据权利要求1所述的双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于,所述训练数据集和测试数据集均包含原高分辨率图像和与原高分辨率图像一一对应的低分辨率图像。
4.根据权利要求1所述的双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于,所述残差特征融合模块由若干个堆叠的双分支特征融合模块和一个卷积核大小3×3的卷积层构成,所述双分支特征融合模块包括卷积分支和自注意力分支,以及卷积分支和自注意力分支之间的双向信息交互模块。
5.根据权利要求4所述的双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于,所述卷积分支选用卷积核大小为3×3和5×5的卷积层作为特征提取的两条路径,以及卷积核大小为1×1的卷积层进行降维处理。
6.根据权利要求5所述的双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于,所述卷积分支中选用的卷积核大小为3×3和5×5的卷积层为depth-wise卷积层。
7.根据权利要求4所述的双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于,所述双向交互模块通道交互模块和空间交互模块,
所述通道交互模块包括一个用于信息压缩的全局自适应平均池化层、两个批归一化层,两个卷积核大小为1×1的卷积层和一个GeLU激活函数,最后使用Sigmoid函数生成通道注意力图Cam∈R1×1×c;
所述空间交互模块包括两个批归一化层,两个用于降维的卷积核大小为1×1的卷积层和一个GeLU激活函数,最后使用Sigmoid函数生成空间注意力图Sam∈Rh×w×1。
8.根据权利要求3所述的双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于,所述步骤3中,融合特征网络模型的训练方法为:基于PyTorch框架,运行于Ubuntu20.04,使用两张Nvidia GeForce 3090Ti图形驱动显卡进行并行加速计算,使用训练数据集中的600对低分辨率红外图像ILR和高分辨率红外图像IHR进行模型训练,将低分辨率图像输入模型后,输出得到超分辨率图像ISR,利用输出图像和原始高分辨率图像计算L1损失,通过最小化损失并使用Adam优化器优化网络模型参数,迭代300000次完成训练,L1损失的计算过程可以表示为:
L1=‖ISR-IHR‖1。
9.根据权利要求4所述的双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于,所述深层特征提取的方法具体如下:
卷积分支分别通过卷积核大小为3×3和5×5的depth-wise卷积层作为特征提取的两条路径提取卷积分支特征,然后使用卷积核大小为1×1的卷积层进行降维处理,从而将这两个卷积分支特征拼接,使得特征维度和输入时的保持一致,以进行后续的特征融合;
自注意力分支采用多头自注意力机制进行计算,将输入的中间特征映射图I分别映射为相同形状的Q、K和V,通过计算Q和K的相关性为V赋予相应的权重,同时使用窗口划分策略降低计算量,并将Q、K和V进行分组,使网络模型能够共同关注来自不同位置的不同表示子空间的信息。
10.根据权利要求7所述的双路卷积与自注意力结合的红外图像超分辨率重建方法,其特征在于,所述双向信息交互模块实现方法为:将卷积分支初步得到的特征通过通道交互模块传向自注意力分支,而后将自注意力分支计算得到的特征通过空间交互模块传回卷积分支,更新特征图,从而实现两个分支之间的互补信息交换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310946812.4A CN117274047A (zh) | 2023-07-31 | 2023-07-31 | 双路卷积与自注意力结合的红外图像超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310946812.4A CN117274047A (zh) | 2023-07-31 | 2023-07-31 | 双路卷积与自注意力结合的红外图像超分辨率重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274047A true CN117274047A (zh) | 2023-12-22 |
Family
ID=89218525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310946812.4A Pending CN117274047A (zh) | 2023-07-31 | 2023-07-31 | 双路卷积与自注意力结合的红外图像超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274047A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495681A (zh) * | 2024-01-03 | 2024-02-02 | 国网山东省电力公司济南供电公司 | 一种红外图像超分辨重建系统及方法 |
CN117495680A (zh) * | 2024-01-02 | 2024-02-02 | 华侨大学 | 基于特征融合Transformer的多对比度核磁共振图像超分辨率方法 |
-
2023
- 2023-07-31 CN CN202310946812.4A patent/CN117274047A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495680A (zh) * | 2024-01-02 | 2024-02-02 | 华侨大学 | 基于特征融合Transformer的多对比度核磁共振图像超分辨率方法 |
CN117495680B (zh) * | 2024-01-02 | 2024-05-24 | 华侨大学 | 基于特征融合Transformer的多对比度核磁共振图像超分辨率方法 |
CN117495681A (zh) * | 2024-01-03 | 2024-02-02 | 国网山东省电力公司济南供电公司 | 一种红外图像超分辨重建系统及方法 |
CN117495681B (zh) * | 2024-01-03 | 2024-05-24 | 国网山东省电力公司济南供电公司 | 一种红外图像超分辨重建系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949565B (zh) | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN117274047A (zh) | 双路卷积与自注意力结合的红外图像超分辨率重建方法 | |
CN113673590B (zh) | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 | |
CN112733950A (zh) | 一种基于图像融合与目标检测结合的电力设备故障诊断方法 | |
CN112288627B (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
CN112819910A (zh) | 基于双鬼注意力机制网络的高光谱图像重建方法 | |
CN114120363A (zh) | 基于背景及姿态归一化的行人跨镜重识别方法及系统 | |
CN111951195A (zh) | 图像增强方法及装置 | |
CN110880162A (zh) | 基于深度学习的快照光谱深度联合成像方法及系统 | |
CN112950475A (zh) | 一种基于残差学习及空间变换网络的光场超分辨率重建方法 | |
CN112001843A (zh) | 一种基于深度学习的红外图像超分辨率重建方法 | |
CN116664397B (zh) | TransSR-Net结构化图像超分辨重建方法 | |
CN116343052B (zh) | 一种基于注意力和多尺度的双时相遥感图像变化检测网络 | |
CN116029902A (zh) | 一种基于知识蒸馏的无监督真实世界图像超分辨方法 | |
CN113538243A (zh) | 基于多视差注意力模块组合的超分辨图像重建方法 | |
CN116486074A (zh) | 一种基于局部和全局上下文信息编码的医学图像分割方法 | |
CN112418203B (zh) | 基于双线性汇合四流网络的鲁棒性rgb-t跟踪方法 | |
CN113379606A (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN116957931A (zh) | 一种基于神经辐射场的相机图像画质提升方法 | |
Li et al. | ConvFormerSR: Fusing transformers and convolutional neural networks for cross-sensor remote sensing imagery super-resolution | |
CN114862685A (zh) | 一种图像降噪方法、及图像降噪模组 | |
Hua et al. | An Efficient Multiscale Spatial Rearrangement MLP Architecture for Image Restoration | |
CN112950481B (zh) | 一种基于图像拼接网络的水花遮挡图像数据集采集方法 | |
CN117474764B (zh) | 一种针对复杂退化模型下遥感图像的高分辨率重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |