CN114936995A

CN114936995A - 基于大核注意力机制的多尺度特征增强的遥感图像融合方法

Info

Publication number: CN114936995A
Application number: CN202210676577.9A
Authority: CN
Inventors: 黄伟
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-08-23

Abstract

本发明公开了一种基于大核注意力机制的多尺度特征增强的遥感图像融合方法，其中局部与非局部特征提取模块是由多尺度残差块与大核注意力模块构成的，使用金字塔挤压注意模块充分整合大核注意力模块与多尺度残差块所提取的空间与通道维度的局部与非局部信息，然后采用基于非对称卷积的U型特征提取网络来获取不同尺度与深度的低频特征，在编解码的过程中增强特征的语义，并充分融合上下文信息。本发明通过局部与非局部结合的方式，从通道与空间角度对遥感图像进行特征提取，并构建金字塔挤压注意模块充分整合所提取特征，利用ACUNet增强特征的语义信息以及充分融合上下文，从而大大提升了多光谱与全色图像融合结果的图像质量。

Description

基于大核注意力机制的多尺度特征增强的遥感图像融合方法

技术领域

本发明涉及遥感图像处理技术领域，尤其涉及一种基于大核注意力机制的多尺度特征增强的遥感图像融合方法。

背景技术

遥感图像在军事和国民经济中具有非常重要的应用价值。但是由于传感器成像技术的限制，无法同时获取空间分辨率与光谱分辨率都丰富的遥感图像，因此，卫星通常会配备多种不同的传感器来获取具有不同特性的图像，再将利用图像融合技术将多个特征互补的图像结合来获取所需的高质量图像。多光谱与全色图像融合技术是一直是遥感领域的热门研究内容，其主要目的是将同一场景下的高光谱分辨率的多光谱图像与高空间分辨率的全色图像进行融合，以获取高空间分辨率的多光谱图像。多光谱与全色图像融合算法生成的结果也被广泛应用于地区科学的各个方面，成为地质制图、农业遥感、环境监测等领域的有效技术手段。

近年来，随着深度学习在计算机视觉领域的成功应用，其网络在特征提取与非线性拟合等方面展现出巨大的潜力。因此，大量的基于深度学习的多光谱与全色遥感图像融合算法被提出。相比于传统遥感图像融合算法，基于深度学习的方法缓解了传统图像算法测试时间慢、数据集适应性不高，且生成结果易产生严重的空间与光谱失真等缺点，使融合结果在光谱保持和空间增强方面都有了很大的提升。基于深度学习的遥感图像融合方法，是遥感图像融合的一个重大创新。这些创新算法都是依据多光谱图像与全色图像的特性，设计合适的深度学习框架，生成较好的图像结果。在进行遥感图像融合时，光谱一致性和空间保持是衡量算法融合性能的重要指标，如何使这二者更好地平衡，是遥感图像融合算法研究的最重要方向。随着深度学习的不断发展，融合结果的质量也逐渐提升。因此，基于深度学习的遥感图像融合算法得到了广大研究者的关注。

最近，由于transformer在计算机视觉领域展现出了惊人的表现，人们也逐渐认识到长程信息的重要性。Zhou等人首次将transformer应用到遥感图像融合领域中，设计了一种有效的图像融合算法，通过特定的transformer来提取对应的长程依赖关系，并使用可逆神经网络来完成局部与非局部特征融合。G R等人则提出了一种基于transformer的自注意力架构(Pansformer)，取得了不错的融合效果。Su等人则提出了一种DR-NET模型，利用Swintransformer来完成长程特征的提取，同时使用注意力机制，使得网络重点关注空间与光谱信息。

虽然transformer在提取长程依赖关系上具有明显的优势，但是这些基于transformer的融合算法仍有一定的局限性：1)对于高分辨率的遥感图像来说二次计算复杂度所耗费的代价太高。2)对于具有多波段的高维度光谱图像来说，transformer只捕捉了空间适应性，而忽略了通道适应性。3)对于局部信息与非局部信息只进行简单的拼接融合，忽略不同信息之间的差异性。

发明内容

本发明提供一种基于大核注意力机制的多尺度特征增强的遥感图像融合方法，解决现有遥感图像融合方法的缺陷，通过局部与非局部结合的方式，从通道与空间角度对遥感图像进行特征提取，并构建金字塔挤压注意模块充分整合所提取特征，利用ACUNet增强特征的语义信息以及充分融合上下文，从而大大提升了多光谱与全色图像融合结果的图像质量。

本发明提出一种基于大核注意力机制的多尺度特征增强的遥感图像融合方法，所述方法包括：

S1：对低分辨率的多光谱图像与全色图像进行预处理，通过两个简单卷积块进行初步提取特征；

S2：构造由多尺度残差块与大核注意力模块组成的局部与非局部特征提取模块，所述的大核注意力模块主要用于获取长程依赖关系、局部空间信息以及空间与光谱维度的适应性，所述的多尺度残差块则主要是用于提取多尺度局部空间信息，并对提取的特征进行初步的信息聚合；

S3：通过金字塔挤压注意力模块在更细粒度的水平上有效地提取多尺度空间信息，并发展长期的通道依赖性。

S4：在整合信息后，将特征输入非对称卷积块构成的U型网络中，利用非对称卷积块来增强局部关键点的效果，同时U型网络的编解码构造可以更好地获取不同尺度与深度的特征，同时增强遥感图像的语义信息；

S5：再将输出的特征输入到局部与非局部特征提取模块与金字塔挤压注意力模块中，用于最终的特征增强与图像重建；

S6：利用均方根误差损失对模型进行优化，并调整网络的训练参数，以获取最优结果。

作为进一步优化的方案，进一步地，所述步骤S1具体为：

步骤S101：对多光谱图像进行双立方插值操作，使其上采样到与全色图像一样的尺寸；

步骤S102：分别对多光谱图像与全色图像进行单独的初步特征提取，同时，使用跳跃连接以防止信息丢失；

进一步地，所述步骤S2具体为：

步骤S201：将步骤1中获取的两种特征进行拼接操作输入到多尺度残差块与大核注意力模块中；

步骤S202：在多尺度残差块中，引入了不同大小的卷积来获取其不同尺度的局部特征，并单独引入一条由3个3×3卷积构成的级联分支，来获取对应的5×5、7×7尺度的更加精细的特征，最后使用一个1×1卷积来实现多尺度特征的信息聚合，进行局部尺度信息的互补；

步骤S203：在大核注意力模块中，结合注意力机制，利用空间长程卷积空间(深度卷积膨胀卷积)、局部卷积(深度卷积)以及通道卷积(点卷积)来获取空间与通道上的局部信息以及长程依赖关系的注意力图；

步骤S204：将这两个分支所提取的特征利用1×1卷积对特征进行初步的聚合，并将特征映射到高维空间用于后续的深度特征融合；

进一步地，所述步骤S3具体包括：

步骤S301：通过多尺度金字塔卷积结构来整合输入特征图的信息。同时，通过压缩输入特征张量的通道维数，从每个通道级特征图中提取出不同尺度的空间信息；

步骤S302：利用通道注意力模块提取多尺度特征图的通道级注意权重，并与整体多尺度特征图相乘得到最终的特征图；

进一步地，所述步骤S4具体包括：

步骤S401：将特征输入到非对称卷积块中，利用非对称卷积来增强局部关键点的效果；

步骤S402：利用U型网络的编解码构造可以更好地获取不同尺度与深度的特征，同时增强遥感图像的语义信息；

进一步地，所述步骤S5具体包括：

步骤S501：将步骤S4输出的特征再次输入到局部与非局部特征提取模块与金字塔挤压注意力模块中，用于最终的特征增强与图像重建；为了维持生成图像的光谱一致性，我们在模型的末尾将上采样后的多光谱图像添加到最终结果中，得到最终的高空间分辨率的多光谱图像；

进一步地，所述步骤S6具体包括：

步骤S601：通过公式(1)计算整个融合过程中的损失函数来约束与优化网络参数：

其中，其中，N代表随机选取的训练样本个数，GT_i表示对应的第i个地面真实图像，HRMS_i表示对应的第i个重建出的高分辨率的多光谱图像；

步骤S602：微调模型的训练参数，如学习率，训练批次等。

进一步地，所述简单卷积块为9×9和两个5×5卷积。

本发明的有益效果：

1.针对基于transformer的融合方法忽略通道维度的适应性，以及带来了昂贵的计算成本，本发明通过局部与非局部结合的方式，从通道与空间角度对遥感图像进行特征提取，并构建金字塔挤压注意模块充分整合所提取特征，利用基于非对称卷积的U型特征提取网络来增强特征的语义信息以及充分融合上下文，从而大大提升了多光谱与全色图像融合结果的图像质量。

2.本发明针对局部与非局部通道与空间信息的差异性，采用金字塔挤压注意模块来充分整合这些信息，使得不同信息之间能够得到很好的交互与融合。

3.本发明在保证融合结果质量稳固提升的前提下，能够以较小的参数量与测试时间进行融合，提升了融合的速度。

附图说明

图1为本发明基于大核注意力机制的多尺度特征增强的遥感图像融合方法的流程图。

图2为本发明基于大核注意力机制的多尺度特征增强的遥感图像融合方法的原理框架图；

图3为本发明基于大核注意力机制的多尺度特征增强的遥感图像融合方法的多尺度残差块的示意图；

图4为本发明基于大核注意力机制的多尺度特征增强的遥感图像融合方法的大核注意力模块的示意图；

图5为本发明基于大核注意力机制的多尺度特征增强的遥感图像融合方法的金字塔挤压注意力模块的示意图；

图6为本发明基于大核注意力机制的多尺度特征增强的遥感图像融合方法的基于非对称卷积的U型网络的示意图；

图7为本发明基于大核注意力机制的多尺度特征增强的遥感图像融合方法在GaoFen2数据集上的融合结果的可视化图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

为了解决基于transformer的遥感图像融合方法无法捕获通道适应性，且对于高分辨率的遥感图像来说二次计算复杂度所耗费的代价太高的问题，本发明提出一种基于大核注意力机制的多尺度特征增强的遥感图像融合方法，方法包括以下步骤：

步骤1：对低分辨率的多光谱图像与全色图像进行预处理，通过两个简单卷积块进行初步提取特征；

步骤2：构造由多尺度残差块与大核注意力模块组成的局部与非局部特征提取模块，所述的大核注意力模块主要用于获取长程依赖关系、局部空间信息以及空间与光谱维度的适应性，所述的多尺度残差块则主要是用于提取多尺度局部空间信息，并对提取的特征进行初步的信息聚合；

步骤3：通过金字塔挤压注意力模块在更细粒度的水平上有效地提取多尺度空间信息，并发展长期的通道依赖性。

步骤4：在整合信息后，将特征输入非对称卷积块构成的U型特征提取网络中，利用非对称卷积块来增强局部关键点的效果，同时U型网络的编解码构造可以更好地获取不同尺度与深度的特征，同时增强遥感图像的语义信息；

步骤5：再将输出的特征输入到局部与非局部特征提取模块与金字塔挤压注意力模块中，用于最终的特征增强与图像重建；

步骤6：利用均方根误差损失对模型进行优化，并调整网络的训练参数，以获取最优结果。

本发明主要由三部分组成：由多尺度残差块与大核注意力模块组成的局部与非局部特征提取模块、金字塔挤压注意力模块和基于非对称卷积的U型网络。其中局部与非局部特征提取模块用来初始提取多光谱图像与全色图像中的局部与非局部的通道与空间信息，通过金字塔挤压注意力模块对提取出的特征进行跨通道的融合与交互后，再利用基于非对称卷积的U型网络进行深层次的特征提取，最后再次使用局部与非局部特征提取模块和金字塔挤压注意力模块进行最终的图像重建从而实现遥感图像的融合。

实施例2

如图2所示，为获得不同图像的初始特征，对步骤1进行优化，具体的：

步骤1.1：将多光谱图像与全色图像输入到网络中，并对多光谱图像进行插值上采样操作，使得多光谱图像的大小与全色图像一致；

步骤1.2：分别上采样后的多光谱图像与全色图像进行简单的浅层特征提取，通过9×9和两个5×5卷积进行信息提取，同时使用一个跳跃连接以防止信息丢失。

实施例3

基于上述实施例，通过卷积块初步提取的不同图像的特征，对步骤2进行优化，具体的：

步骤2.1：对获取到的不同特征沿着通道维度进行拼接，并将其输入到多尺度残差块与大核注意力模块这两个模块；

步骤2.2：在如图3所示的多尺度残差块中，引入了不同大小的卷积来获取其不同尺度的局部特征，并单独引入一条由3个3×3卷积构成的级联分支，来获取对应的5×5、7×7尺度的更加精细的特征，最后使用一个1×1卷积来实现多尺度特征的信息聚合，进行局部尺度信息的互补；

步骤2.3：在如图4所示的大核注意力模块中，我们将大核卷积分解为深度卷积膨胀卷积、深度卷积以及点卷积，以较小的计算成本获取空间与通道上的局部信息以及长程依赖关系的特征。同时结合注意力机制，对所获取到的特征进行自适应增强；

步骤2.4：将这两个分支所提取的特征利用1×1卷积对特征进行初步的聚合，并将特征映射到高维空间用于后续的深度特征融合；

实施例4

现有的基于transformer的框架对于局部特征与长程特征的融合大都采用简单的卷积融合操作，并未考虑不同特征之间的差异性。因此，我们使用如图5所示的金字塔挤压注意力模块来整合获取到的多种特征，具体的：

步骤3.1：通过在金字塔结构中使用不同大小的分组卷积可以产生不同的空间分辨率和深度的特征。通过压缩每个分支中的输入特征的通道数目，以局部的方式建立跨通道交互，可以有效地提取出每个通道级别特征图上的多尺度空间信息并增强特征的表示能力；

步骤3.2：随后，将输出的多尺度特征图沿通道维度输入进通道注意力权重获取模块，并利用softmax函数进行归一化，最后将每一通道的权重沿通道维度拼接，并与整体多尺度特征图相乘得到最终的特征图；

实施例5

考虑到遥感图像的尺度效应，不同尺度的图像存在不同的地物信息。我们设计了如图6所示的基于非对称卷积的U型网络，具体的：

步骤4.1：将非对称卷积块嵌入到U型网络中，通过非对称卷积块来增强方形卷积核的中心骨架部分，提高对图像旋转失真的鲁棒性，增强局部关键点的影响；

步骤4.2：U型网络中上下采样的操作能够以一种编码与解码的方式加深网络，丰富特征的语义信息；与此同时，每一层的跳跃连接能够有效缓解上下采样操作所带来的信息丢失；

实施例6

为了完成最终的图像重建，我们将U型网络中获取到特征进行最终的提取与融合，具体的：

步骤5.1：将U型网络输出的特征再次输入到局部与非局部特征提取模块与金字塔挤压注意力模块中，用于最终的特征增强与图像重建；为了维持生成图像的光谱一致性，我们在模型的末尾将上采样后的多光谱图像添加到最终结果中，得到最终的高空间分辨率的多光谱图像；

实施例7

步骤6.1：通过公式(1)计算整个融合过程中的损失函数来约束与优化网络参数：

步骤6.2：微调模型的训练参数，设置网络学习率为0.01，训练批次为32。

为证明本发明效果进行如下实验

1.实验环境

实验结果如图7所示，通过实验成像对本发明的方法进行进一步说明：

本实验数据处理部分在MATLAB R2018b平台上，学习网络模型的训练使用PyTorch框架，计算环境为NVIDIA GeForce RTX 3060GPU，内存16G的PC机。实验中对比算法包括，PRACS与MTF-GLP这两种传统方法，P-XS方法这种变分模型的方法，PNN方法、PanNet方法、MSDCNN方法、FusionNet方法以及Pansformer方法这5种深度学习方法。

使用Adam对网络进行优化，批次设置都为1200。每一个训练批次有32张图片。所有的深度学习方法都是在一个Nvidia GeForce RTX 3060 GPU with 12-GB RAM上进行的，其他的方法都在MATLAB 2018b上实现。

2.实验数据集

进一步地，选取GaoFen-2数据集进行实验，具体实验如下：

GaoFen-2数据集中的多光谱和全色图像的空间分辨率为4m与1m，我们依据Wald的协议，对GaoFen-2源图像进行裁剪下采样，得到了8515组对应大小为16/64/64的多光谱/全色/地面真实图像对，所有的图像对被分成5/1用于训练/验证。此外，我们单独制作了50组128/512/512的多光谱/全色/地面真实图像对用于模拟测试。

本模拟实验采用128/512/512的多光谱/全色/地面真实图像来测试。图7给出了本发明方法和对比方法融合结果的可视化图片。其中，其中图7(a)是PRACS方法融合的结果；其中图7(b)是MTF-GLP方法融合的结果；其中图7(c)是P-XS方法融合的结果；其中图7(d)是PNN方法融合的结果；其中图7(e)是MSDCNN方法融合的结果；其中图7(f)是PanNet方法融合的结果；其中图7(g)是FusionNet方法融合的结果；其中图7(h)是Pansformer方法融合的结果；图7(i)是本发明方法融合的结果；图7(j)为地面真实图像。可以发现，与图7(j)相比，图7(a)与图7(b)出现明显的空间模糊，图像细节完全显示不清。图7(c)虽然相比前两张图片整体轮廓相对较为清晰，但是光谱失真严重。图7(d)与图7(e)相比于图7(c)整体色彩与空间细节略有提升，但是整体色彩出现明显模糊。而图7(f)也出现了较为明显的光谱与空间失真。图7(g)与图7(h)整体图像的空间细节比较接近图7(j)，但其局部区域的色彩出现了模糊，空间信息略微过度平滑。图7(i)无论从空间细节还是色彩保持方面都是最为接近图7(j)的。

表1给出了本发明方法和对比方法的性能指标情况。本实验采用了如下的性能指标：相关系数(Correlation Coefficient,CC)计算了融合的多光谱图像与原始多光谱图像之间空间像素的相似度，相关系数的值越大，表示融合的结果越好。ERGAS(ErreurRelative Global Adimensionnelle de Synthese)表示多光谱图像全局反射率之间的差异，其值越小，表示融合的结果越好。光谱角(Spectral Angle Mapper,SAM)反映了多光谱图像的光谱曲线之间的差异，其值越小，表示融合的结果越好。通用图像质量指数(universal image quality index，UIQI)以及其4波段的拓展评价指标Q4分别表示了原图与生成结果整体与4波段平均的图像质量，其值越大，表示融合的结果越好。质量评估结果如表1所示：

在表1中，黑体的数字表示每项指标中最好的值，从融合客观评价指标来看，本发明所提方法的各指标都优于其他方法。

表1不同方法对GaoFen-2数据集进行检测定量评价结果

	SAM↓	ERGAS↓	CC↑	UIQI↑	Q4↑
						PRACS	3.2445	3.7216	0.8437	0.8277	0.8018
MTF-HPF	2.7758	4.0425	0.8829	0.8630	0.8598
						P-XS	4.0312	4.6858	0.8164	0.7123	0.7000
PNN	2.1781	2.3802	0.9719	0.9307	0.9335
						MSDCNN	1.8563	2.1614	0.9614	0.9427	0.9424
PanNet	1.5993	2.0313	0.9775	0.9494	0.9440
						FusionNet	1.2487	1.6437	0.9766	0.9510	0.9478
Panformer	1.2646	1.3457	0.9789	0.9564	0.9593
						本发明	0.9761	1.3431	0.9811	0.9766	0.9706

通过上述实验结果表明，本发明的方法利用大核注意力模块与多尺度残差块，能够很好地维持光谱信息以及增强空间信息。整体的光谱与空间误差要比其他方法的融合结果低。本发明的方法通过跨尺度通道聚合以及U型网络编解码的方式加强了特征图的上下文信息，从而提高了整体图像的质量。

以上所述之实施例，只是本发明的较佳实施例而已，并非限制本发明的实施范围，故凡依本发明专利范围所述的构造、特征及原理所做的等效变化或修饰，均应包括于本发明申请专利范围内。

Claims

1.基于大核注意力机制的多尺度特征增强的遥感图像融合方法，其特征在于，所述方法包括以下步骤：

S3：通过金字塔挤压注意力模块在更细粒度的水平上有效地提取多尺度空间信息，并发展长期的通道依赖性；

2.根据权利要求1所述的基于大核注意力机制的多尺度特征增强的遥感图像融合方法，其特征在于，所述步骤S1具体为：

S101：对多光谱图像进行双立方插值操作，使其上采样到与全色图像一样的尺寸；

S102：分别对多光谱图像与全色图像进行单独的初步特征提取，同时，使用跳跃连接以防止信息丢失。

3.根据权利要求1所述的基于大核注意力机制的多尺度特征增强的遥感图像融合方法，其特征在于，所述步骤S2具体为：

S201：将步骤1中获取的两种特征进行拼接操作输入到多尺度残差块与大核注意力模块中；

S202：在多尺度残差块中，引入了不同大小的卷积来获取其不同尺度的局部特征，并单独引入一条由3个3×3卷积构成的级联分支，来获取对应的5×5,7×7尺度的更加精细的特征，最后使用一个1×1卷积来实现多尺度特征的信息聚合，进行局部尺度信息的互补；

S203：在大核注意力模块中，结合注意力机制，利用空间长程卷积空间(深度卷积膨胀卷积)、局部卷积(深度卷积)以及通道卷积(点卷积)来获取空间与通道上的局部信息以及长程依赖关系的注意力图；

S204：将这两个分支所提取的特征利用1×1卷积对特征进行初步的聚合，并将特征映射到高维空间用于后续的深度特征融合。

4.根据权利要求1所述的基于大核注意力机制的多尺度特征增强的遥感图像融合方法，其特征在于，所述S3具体包括：

S301：通过多尺度金字塔卷积结构来整合输入特征图的信息。同时，通过压缩输入特征张量的通道维数，从每个通道级特征图中提取出不同尺度的空间信息；

S302：利用通道注意力模块提取多尺度特征图的通道级注意权重，并与整体多尺度特征图相乘得到最终的特征图。

5.根据权利要求1所述的基于大核注意力机制的多尺度特征增强的遥感图像融合方法，其特征在于，所述步骤S4具体包括：

S401：将特征输入到非对称卷积块中，利用非对称卷积来增强局部关键点的效果；

S402：利用U型网络的编解码构造可以更好地获取不同尺度与深度的特征，同时增强遥感图像的语义信息。

6.根据权利要求1所述的基于大核注意力机制的多尺度特征增强的遥感图像融合方法，其特征在于，所述S5具体包括：

S501：将步骤S4输出的特征再次输入到局部与非局部特征提取模块与金字塔挤压注意力模块中，用于最终的特征增强与图像重建；为了维持生成图像的光谱一致性，在模型的末尾将上采样后的多光谱图像添加到最终结果中，得到最终的高空间分辨率的多光谱图像。

7.根据权利要求1所述的基于大核注意力机制的多尺度特征增强的遥感图像融合方法，其特征在于，所述步骤S6具体包括：

S601：通过公式(1)计算整个融合过程中的损失函数来约束与优化网络参数：

S602：微调模型的训练参数，如学习率，训练批次等。

8.根据权利要求2所述的基于大核注意力机制的多尺度特征增强的遥感图像融合方法，其特征在于：所述简单卷积块为9×9和两个5×5卷积。