CN115018750B

CN115018750B - 中波红外高光谱及多光谱图像融合方法、系统及介质

Info

Publication number: CN115018750B
Application number: CN202210941183.1A
Authority: CN
Inventors: 李树涛; 冯辰果; 刘海波; 佃仁伟
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-08
Anticipated expiration: 2042-08-08
Also published as: CN115018750A

Abstract

本发明公开了一种中波红外高光谱及多光谱图像融合方法、系统及介质，本发明包括对输入的中波红外高光谱图像Y空间上采样得到上采样中波红外高光谱图像Y^U；将输入的中波红外多光谱图像Z与所述上采样中波红外高光谱图像Y^U按光谱维度拼接得到图像块C；提取图像块C的残差图像X_res；将残差图像X_res、上采样中波红外高光谱图像Y^U基于位置的像素值相加，得到融合后的中波红外高光谱图像X。本发明能够有效实现低分辨率的中波红外高光谱图像和高分辨率的中波红外多光谱图像融合得到高分辨率的中波红外高光谱图像，具有重构精度高、计算效率高、普适性和鲁棒性较强的优点。

Description

中波红外高光谱及多光谱图像融合方法、系统及介质

技术领域

本发明涉及中波红外高光谱和中波红外多光谱图像融合技术，具体涉及一种中波红外高光谱及多光谱图像融合方法、系统及介质。

背景技术

全色、RGB等传统光学图像由于仅具有较低的光谱分辨率，导致目标识别与分类的有效性研究陷入瓶颈阶段。为了解决传统光学图像“看不准”问题，高光谱成像技术应运而生。高光谱遥感图像具有光谱连续、光谱分辨率高、光谱信息丰富以及图谱合一等特点，极大地提高了相关图像应用技术的精度与可靠性。

相比于可见光和短波红外波段，在中波红外波段进行高光谱遥感研究具有明显的优势，目前的热红外影像探测技术能够有效地将热辐射能转化为人眼可见的光谱影像，有助于更有效地识别地物、分辨目标。此外中波红外高光谱成像技术具有日夜监听能力，能够检测化学气体、识别地物、探测汽车尾气等，也可广泛应用于林火监测、旱灾监测、城市热岛效应、探矿、探地热等领域。然而由于成像硬件和光学原理的限制，中波红外高光谱图像的空间分辨率和光谱分辨率相互制约，具有高光谱分辨率的中波红外图像往往具有较低的空间分辨率，这降低了中波红外高光谱图像的潜在应用价值。将同一场景下低空间分辨率的中波红外高光谱图像和高空间分辨率的中波红外多光谱图像进行融合是获得高分辨率中波红外高光谱图像的有效方式，因此研究高效、精度高的中波红外高光谱和多光谱图像融合方法是非常有必要的。

针对中波红外高光谱图像空间分辨率较低的关键问题，国内外学者提出了大量的中波红外高光谱和多光谱图像融合方法。一般来说，中波红外高光谱和多光谱图像融合方法可分为四类，即基于全色锐化的方法、基于矩阵分解的方法、基于张量表示的方法以及基于深度学习的方法。其中，基于全色锐化的方法具有计算效率高，计算量小等优点，但是当中波红外多光谱图像与高光谱图像的空间分辨率相差较大时，产生的融合图像往往会有较大的失真；基于矩阵分解的融合方法具有较高的融合精度，但在其求解过程中由于需要解决复杂的优化问题，导致计算量较大，计算效率较低；张量分解方法也拥有较高的融合精度，但与矩阵分解方法类似，需要解决复杂的优化问题，具有较高的计算代价，当面对海量图像数据时，无法满足融合需求；当训练数据集的数量足够时，基于深度卷积神经网络的融合方法一般会取得优异的融合性能，但是由于卷积核的感受野有限，基于深度卷积神经网络的中波红外高光谱图像融合方法只考虑了局部邻域像素的关系，忽略了特征图中的全局关系，导致随着网络层次的深入，原中波红外高光谱图像的空间结构信息逐渐丢失，这给基于卷积神经网络的中波红外高光谱和多光谱图像融合方法留下了进一步改进的空间。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种中波红外高光谱及多光谱图像融合方法、系统及介质，本发明能够有效实现低分辨率的中波红外高光谱图像和高分辨率的中波红外多光谱图像融合得到高分辨率的中波红外高光谱图像，具有重构精度高、计算效率高、普适性和鲁棒性较强的优点。

为了解决上述技术问题，本发明采用的技术方案为：

一种中波红外高光谱及多光谱图像融合方法，包括：

S1，对输入的中波红外高光谱图像Y空间上采样得到上采样中波红外高光谱图像Y^U；

S2，将输入的中波红外多光谱图像Z与所述上采样中波红外高光谱图像Y^U按光谱维度拼接得到图像块C；

S3，提取图像块C的残差图像X_res；

S4，将残差图像X_res、上采样中波红外高光谱图像Y^U基于位置的像素值相加，得到融合后的中波红外高光谱图像X。

可选地，步骤S1中的对输入的中波红外高光谱图像Y空间上采样是指对输入的中波红外高光谱图像Y采用双三次插值法进行空间上采样以得到上采样中波红外高光谱图像Y^U。

可选地，步骤S3中提取对应的残差图像X_res为通过预先完成训练的基于自注意力机制的融合网络实现的，所述基于自注意力机制的融合网络由相互连接的编码器和解码器组成，所述编码器包括N个依次级联执行下采样的图像合并层，所述解码器包括N个依次级联执行上采样的图像扩展层，且编码器中的图像合并层、解码器中的图像扩展层数量相同且一一对应，任意相邻的图像合并层之间、相邻的图像合并层和图像扩展层之间、以及相邻的图像扩展层之间均串接有用于提取全局特征的旋转变换器块，编码器的前N-1个图像合并层与对应的图像扩展层之间设有跳跃连接以用于将下采样得到的特征图与对应上采样的特征图进行通道方向的拼接后通过全连接层调整拼接特征图的通道维度使通道维度不发生改变。

可选地，每一个所述旋转变换器块之后均对应连接有一个卷积层，所述卷积层用于将卷积结构的归纳偏置性引入旋转变换器块。

可选地，所述卷积层的卷积核大小为3×3。

可选地，每一个所述旋转变换器块均在卷积层之后还对应连接有一个残差模块，所述残差模块用于将该旋转变换器块的输入、该旋转变换器块对应的卷积层的输出做差后输出至下一个图像合并层或者图像扩展层。

可选地，所述编码器包括3个依次级联执行下采样的图像合并层，所述解码器包括3个依次级联执行上采样的图像扩展层。

可选地，中波红外高光谱图像Y的大小为W/16*H/16*31，上采样中波红外高光谱图像Y^U的大小为W*H*31，中波红外多光谱图像Z的大小为W*H*3，图像块C的大小为W*H*34，第一个图像合并层输出的特征图大小为W/4*H/4*96，第二个图像合并层输出的特征图大小为W/8*H/8*192，第三个图像合并层输出的特征图大小为W/16*H/16*384，第一个图像扩展层2倍上采样后输出的特征图大小为W/8*H/8*192，第二个图像扩展层2倍上采样后输出的特征图大小为W/4*H/4*96，第三个图像扩展层4倍上采样后通过一个全连接层将特征维度还原为31个光谱维度，输出的特征图大小为W*H*31的残差图像X_res，其中W为残差图像X_res的宽度，H为残差图像X_res的高度。

此外，本发明还提供一种中波红外高光谱及多光谱图像融合系统，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述中波红外高光谱及多光谱图像融合方法的步骤。

此外，本发明还提供一种计算机可读存储介质，其中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行所述中波红外高光谱及多光谱图像融合方法的步骤。

和现有技术相比，本发明主要具有下述优点：

1、本发明包括对输入的中波红外高光谱图像Y空间上采样得到上采样中波红外高光谱图像Y^U；将输入的中波红外多光谱图像Z与所述上采样中波红外高光谱图像Y^U按光谱维度拼接得到图像块C；提取图像块C的残差图像X_res；将残差图像X_res、上采样中波红外高光谱图像Y^U基于位置的像素值相加，得到融合后的中波红外高光谱图像X，本发明能够有效实现低分辨率的中波红外高光谱图像和高分辨率的中波红外多光谱图像融合得到高分辨率的中波红外高光谱图像，具有重构精度高、计算效率高、普适性和鲁棒性较强等优点。

2、本发明在对不同类型（场景不同或图像采集设备或采集参数不同等）的中波红外高光谱和中波红外多光谱图像融合时，不需要改变网络的结构，仅需要提前准备好相应类型的中波红外高光谱和中波红外多光谱图像训练融合网络，网络模型训练完成后便可以投入使用，具有很强的普适性和鲁棒性。

3、本发明适用于各种维度不同的中波红外高光谱和中波红外多光谱数据融合，可以获得高质量的中波红外高分辨率高光谱图像，并且拥有抗噪声干扰的能力。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例基于自注意力机制的融合网络的结构示意图。

图3为本发明实施例方法基于自注意力机制的融合网络的输入和输出大小示意图。

图4为本发明实施例5种融合方法在CAVE高光谱数据集上的融合结果及误差图像。

图5为本发明实施例5种融合方法和Harvard高光谱数据集上的融合结果及误差图像。

具体实施方式

实施例一：

如图1所示，本实施例中波红外高光谱及多光谱图像融合方法包括：

S3，提取图像块C的残差图像X_res；

步骤S1中的对输入的中波红外高光谱图像Y空间上采样可根据需要采用所需的方法，例如作为一种优选的实施方式，本实施例步骤S1中的对输入的中波红外高光谱图像Y空间上采样是指对输入的中波红外高光谱图像Y采用双三次插值法进行空间上采样以得到上采样中波红外高光谱图像Y^U。

步骤S3提取图像块C的残差图像X_res可根据需要采用所需的深度学习神经网络实现。例如作为一种优选的实施方式，本实施例中步骤S3中提取对应的残差图像X_res为通过预先完成训练的基于自注意力机制的融合网络实现的。

本实施例中基于自注意力机制的融合网络为基于自注意力机制的U-net网络。如图2所示，基于自注意力机制的融合网络由相互连接的编码器和解码器组成。编码器的作用是将输入三维图像块转化为二维向量序列形式的深层特征图，编码器包括N个依次级联执行下采样的图像合并（Patch Merging）层。例如，第一个图像合并层用于将输入的中波红外高光谱图像块分割为一系列没有重叠部分且大小为4*4的图像块，然后对每一个图像块进行4*4的卷积操作，卷积核的数目为96，因此卷积后所得特征图的特征维度为96，最后将图像展开，便得到大小为W/4*H/4*96的二维向量，此二维向量的每一行数据都代表着一个维度的特征信息。需要说明的是，图像合并层为现有网络结构层，可参见现有文献：Liu Z,Lin Y, Cao Y, et al. Swin Transformer: Hierarchical Vision Transformer usingShifted Windows[J]. arXiv preprint arXiv:2103.14030, 2021。

解码器的作用是将深层特征图进行上采样，将全局特征恢复至输入分辨率大小，进行像素级的恢复预测。解码器包括N个依次级联执行上采样的图像扩展层，且编码器中的图像合并层、解码器中的图像扩展层数量相同且一一对应。本实施例中，图像扩展层（PatchExpanding）采用了Swin-Unet的Patch Expanding层，可参见现有文献：Cao H, Wang Y,Chen J, et al. Swin-Unet: Unet-like Pure Transformer For Medical ImageSegmentation. arXiv[J]. arXiv preprint arXiv:2105.05537, 2021。

本实施例中任意相邻的图像合并层之间、相邻的图像合并层和图像扩展层之间、以及相邻的图像扩展层之间均串接有用于提取全局特征的旋转变换器（SwinTransformer）块。此外，为了弥补由于空间下采样所产生的空间信息损失，提出网络效仿U-net结构，本实施例中编码器的前N-1个图像合并层与对应的图像扩展层之间设有跳跃连接，以用于将下采样得到的特征图与对应上采样的特征图进行通道方向的拼接后通过全连接层调整拼接特征图的通道维度使通道维度不发生改变。通过跳跃连接，能够实现在多尺度上对网络模块所提取的浅层特征和深层特征进行融合，以弥补由于下采样操作所产生的图像空间信息损失问题。

在基于自注意力机制的融合网络工作时，首先由第一个图像合并层得到大小为W/4*H/4*96的二维向量，随后二维向量通过一些旋转变换器（Swin Transformer）块和图像合并层从而产生不同层次的特征表达：旋转变换器块负责提取图像的全局信息，图像合并层则继续实现对特征图（二维向量）的下采样以及增加特征维度功能，最终送入解码器的第一个图像扩展层（Patch Expanding）。然后前两层图像扩展层依次进行上采样，最后通过一个全连接层将上采样后所得图像恢复至输入图像的空间分辨率大小、特征维度还原为输入图像的原始光谱维度。

旋转变换器（Swin Transformer）块用于提取图像的全局信息。旋转变换器块是将变换器（Transformer，一种现有的神经网络模块）块中标准的多头自注意力模块替换为基于移位窗口机制的多头自注意力（SW-MSA）模块，而其他层保持不变，使得旋转变换器块分别包含顺序连接的基于窗口的多头自注意力（W-MSA）模块和基于移位窗口的多头注意力（SW-MSA）模块，可参见现有文献：Liu Z, Lin Y, Cao Y, et al. Swin Transformer:Hierarchical Vision Transformer using Shifted Windows[J]. arXiv preprintarXiv:2103.14030, 2021。旋转变换器块由归一化层（LayerNorm，简称LN）层、多头自注意力模块（简称MSA）、残差连接结构以及激活函数为GELU的双层全连接网络（简称MLP）构成，旋转变换器块在每一个MSA模块和MLP网络之前都会使用一个LayerNorm层对输入数据进行通道方向上的归一化，每一个模块的输出都会应用一个残差连接以增加该网络结构的灵活性。基于旋转变换器块中的移位窗口机制，两个连续的旋转变换器块可被表达为：

，

，

，

，

上式中，

和

分别代表第l个旋转变换器块的基于窗口的多头自注意力（W-MSA）模块或基于移位窗口的多头注意力（SW-MSA）模块的输出特征和双层全连接网络的输出特征。SW指基于移位窗口的注意力计算，W就是传统的窗口注意力计算机制，MSA表示多头自注意力模块，LN为归一化层，MLP表示双层全连接网络。对自注意力进行计算时，将延续过去相关工作所使用的计算方法，即计算相似度时每一个头部都会包含相对位置偏置：

，

，

上式中，R表示实数，

分别代表查询矩阵、键矩阵和值矩阵，d表示查询矩阵与键矩阵的维度，M ²代表一个窗口中的图像块数目，M为窗口大小，B包含的值取自一个较小的相对位置偏置矩阵：

，

该相对位置偏置矩阵

由基于自注意力机制的融合网络对中波红外高光谱数据集进行学习得到。

本实施例所提出网络的编码器部分以旋转变换器（Swin Transformer）所提出的图像编码结构为基础，图像合并层（Patch Merging层）负责对特征图进行下采样以及增加特征维度，旋转变换器块通过自注意力机制提取图像的全局特征。图像合并层首先对输入图像进行PixelUnshuffle操作，实现输入图像的两倍空间下采样以及通道数变为原来的4倍，紧接着通过LayerNorm层（归一化层）进行特征图通道方向的归一化，最后通过全连接层将特征图的通道数减半。编码器共包含三层图像合并层和对应的旋转变换器块，其中每一层图像合并层的下采样倍数分别被设置为{4，2，2}，每一层旋转变换器块的数目分别被设置为{2，2，1}。

本实施例所提出网络的解码器部分主要实现特征图的上采样功能，将全局特征恢复至输入分辨率大小，进行像素级的恢复预测。解码器主要由图像扩展层和旋转变换器块构成，图像合并层的设计参考了Swin-Unet网络中上采样层的结构，图像扩展层和图像合并层具有对称的结构，故针对输入特征图图像扩展层实现与图像合并层相反的PixelShuffle操作，即空间上采样功能，而解码器部分的旋转变换器块仍然负责学习特征图的全局信息。为了设计对称的编解码结构，解码器同样包含三层图像扩展层和旋转变换器块，其中每一层图像扩展层的上采样倍数分别被设置为{2，2，4}，每一层旋转变换器块的数目分别被设置为{1，2，2}。

作为一种可选的实施方式，为了增强旋转变换器块所提取的特征，本实施例中在每一个所述旋转变换器块之后均对应连接有一个卷积层，所述卷积层用于将卷积结构的归纳偏置性引入旋转变换器块，从而得到增强旋转变换器块所提取的全局特征。

参见图2，本实施例中卷积层的卷积核大小为3×3。

此外作为一种可选的实施方式，为了加快网络的训练，提升融合效果，本实施例中还包括在每一个所述旋转变换器块均在卷积层之后还对应连接有一个残差模块，所述残差模块用于将该旋转变换器块的输入、该旋转变换器块对应的卷积层的输出做差后输出至下一个图像合并层或者图像扩展层。

如图2和图3所示，本实施例中编码器包括3个依次级联执行下采样的图像合并层，所述解码器包括3个依次级联执行上采样的图像扩展层。中波红外高光谱图像Y的大小为W/16*H/16*31，上采样中波红外高光谱图像Y^U的大小为W*H*31，中波红外多光谱图像Z的大小为W*H*3，图像块C的大小为W*H*34，第一个图像合并层输出的特征图大小为W/4*H/4*96，第二个图像合并层输出的特征图大小为W/8*H/8*192，第三个图像合并层输出的特征图大小为W/16*H/16*384，第一个图像扩展层2倍上采样后输出的特征图大小为W/8*H/8*192，第二个图像扩展层2倍上采样后输出的特征图大小为W/4*H/4*96，第三个图像扩展层4倍上采样后通过一个全连接层将特征维度还原为31个光谱维度，输出的特征图大小为W*H*31的残差图像X_res，其中W为残差图像X_res的宽度，H为残差图像X_res的高度。

本实施例基于自注意力机制的融合网络具有下述优点：（1）利用了空间自注意力机制中提取特征图像远距离依赖信息和全局信息的优异能力，缓解了由于卷积核感受野有限，导致卷积神经网络在提取中波红外高光谱图像特征时产生的空间信息损失问题，这样能够提升中波红外高光谱图像的重构精度和计算效率，进而有效实现低分辨率的中波红外高光谱图像、高分辨率的中波红外多光谱图像融合得到高分辨率的中波红外高光谱图像。（2）融合网络专注于学习中波红外高光谱图像的残差域，而不是直接学习中波红外高光谱图像所在的图像域，这使得该网络需要学习的映射空间更小，从而提升计算效率，使网络更容易进行训练。（3）将卷积结构和自注意力机制结合，提升了自注意力层在提取图像特征时的归纳偏置能力，缓解了基于自注意力机制的学习网络对大量数据的训练要求，使得提出网络在较小的中波红外高光谱数据集上能够更高效地利用数据，从而实现更加优异的融合性能。（4）在对不同类型的中波红外高光谱和中波红外多光谱图像融合时，不需要改变网络的结构，仅需要提前准备好相应类型的中波红外高光谱和中波红外多光谱图像训练融合网络，网络模型训练完成后便可以投入使用，具有很强的普适性和鲁棒性。（5）适用于各种维度不同的中波红外高光谱和中波红外多光谱数据融合，可以获得高质量的中波红外高分辨率高光谱图像，并且拥有抗噪声干扰的能力。

为了对本实施例中波红外高光谱和中波红外多光谱图像融合方法进行验证，本实施例中利用CAVE数据集和Harvard数据集进行模拟实验。CAVE数据集包括32张波长数目为31、空间分辨率为512*512的高光谱图像， Harvard数据集包含50张波长数目为31、空间分辨率为1392*1040的高光谱图像。在模拟实验中，将CAVE数据集或Harvard数据集中的参考图像作为中波红外高分辨率高光谱图像真值，分别进行高斯模糊、空间下采样和光谱下采样，从而获得训练网络需要的低空间分辨率中波红外高光谱图像数据集和高空间分辨率中波红外多光谱图像数据集。首先使用大小为7*7，均值为0，标准差为3的高斯模糊核对参考图像去噪，然后进行16倍的空间下采样得到低分辨率中波红外高光谱图像。对于CAVE数据集，经过上述操作得到的低分辨率中波红外高光谱图像的大小为32*32*31；对于Harvard数据集，经过上述操作得到的低分辨率中波红外高光谱图像的大小为87*65*31。为了创建一个波段数为3的高分辨率中波红外多光谱图像，使用一个已知的光谱下采样矩阵对高光谱数据集中的参考图像进行光谱下采样。并对比了4种典型的高光谱和多光谱图像融合方法。其中融合图像的评价指标有4种，分别是峰值信噪比（PSNR）、光谱角（SAM）、统一图像质量指标（UIQI）、相对无量纲全局误差（ERGAS）和均方根误差（RMSE）。其中PSNR、UIQI的值越大，高分辨率图像质量越好，SAM、ERGAS和RMSE的值越大代表高分辨率图像的质量越差。表1展示了4种典型的融合方法（CSU, Hysure, CSTF, CNN_Fus）和本实施例提出的方法（mine）在CAVE数据集上融合实验的客观评价指标，最好的数值结果被标黑。表2展示了4种典型的融合方法（CSU, Hysure, CSTF, CNN_Fus）和本实施例提出的方法（mine）在Harvard数据集上融合实验的客观评价指标，最好的数值结果被标黑。

表1：CAVE数据上本实施例方法与四种典型融合方法的客观性能指标。

表2：Harvard数据上本实施例方法与四种典型融合方法的客观性能指标。

从表1和表2可以看出，本实施例提出的方法（mine）的所有客观评价指标都优于其它方法，这是因为本实施例所提出的深度融合网络是基于自注意力机制提取特征的，与只专注于提取图像局部特征的传统卷积神经网络不同，自注意力层能够提取图像的全局特征和远程依赖信息，使得网络能够更充分学习图像的空间细节信息，实现原始中波红外高光谱图像分辨率的进一步提高。

图4为5种融合方法在CAVE测试数据集上的融合结果及其误差图像对比。其中：（a-1）为中波红外高光谱图像的第19个波段的原图，（a-2）为理想的误差图像；（b-1）为CSU方法融合得到的中波红外高光谱图像的第19个波段的融合结果，（b-2）为CSU方法融合得到的中波红外高光谱图像的第19个波段的误差图像，（c-1）为Hysure方法融合得到的高分辨率中波红外高光谱图像的第19个波段的融合结果，（c-2）为Hysure方法融合得到的高分辨率中波红外高光谱图像的第19个波段的误差图像，（d-1）为CSTF方法融合得到的高分辨率中波红外高光谱图像的第19个波段的融合结果，（d-2）为CSTF方法融合得到的高分辨率中波红外高光谱图像的第19个波段的误差图像，（e-1）为 CNN_Fus方法融合得到的高分辨率中波红外高光谱图像的第19个波段的融合结果，（e-2）为 CNN_Fus方法融合得到的高分辨率中波红外高光谱图像的第19个波段的误差图像，（f-1）为本实施例提出方法融合得到的高分辨率中波红外高光谱图像的第19个波段的融合结果，（f-2）为本实施例提出方法融合得到的高分辨率中波红外高光谱图像的第19个波段的误差图像。图5为5种融合方法在Harvard测试数据集上的融合结果及其误差图像对比。其中：（a-1）为中波红外高光谱图像的第28个波段的原图，（a-2）为理想的误差图像；（b-1）为CSU方法融合得到的高分辨率中波红外高光谱图像的第28个波段的融合结果，（b-2）为CSU方法融合得到的高分辨率中波红外高光谱图像的第28个波段的误差图像，（c-1）为Hysure方法融合得到的高分辨率中波红外高光谱图像的第28个波段的融合结果，（c-2）为Hysure方法融合得到的高分辨率中波红外高光谱图像的第28个波段的误差图像，（d-1）为CSTF方法融合得到的高分辨率中波红外高光谱图像的第28个波段的融合结果，（d-2）为CSTF方法融合得到的高分辨率中波红外高光谱图像的第28个波段的误差图像，（e-1）为 CNN_Fus方法融合得到的高分辨率中波红外高光谱图像的第28个波段的融合结果，（e-2）为 CNN_Fus方法融合得到的高分辨率中波红外高光谱图像的第28个波段的误差图像，（f-1）为本实施例提出方法融合得到的高分辨率中波红外高光谱图像的第28个波段的融合结果，（f-2）为本实施例提出方法融合得到的高分辨率中波红外高光谱图像的第28个波段的误差图像。图4和图5中，误差图像反映了融合结果和真值高光谱图像间的差异，从各种方法融合结果的误差图像可以看出，其它方法融合得到的中波红外高分辨率高光谱图像具有明显的瑕疵，本实施例提出方法在保证高光谱空间分辨率提升的同时，能够更好地恢复图像的空间细节和结构信息，其融合得到的中波红外高分辨率高光谱图像的空间质量最好。

综上所述，本实施例中波红外高光谱和中波红外多光谱图像融合方法借鉴U-net网络结构，建立了一个中波红外高光谱和中波红外多光谱图像融合的编解码器网络模型，通过自注意力层在多尺度上提取并融合特征图像的全局信息和远程依赖信息，缓解了传统卷积神经网络中随着网络深度的增加而产生的空间信息损失问题。此外，为了提高融合网络对于高光谱训练数据的利用效率和融合效果，本实施例在融合网络的自注意力层后均添加了卷积层，以将卷积结构的归纳偏置性引入提出网络。本实施例所提出的网络并没有直接对中波红外高光谱图像和中波红外多光谱图像到融合中波红外高光谱图像的映射进行建模，而是选择学习融合中波红外高光谱的残差图像，这样做既可以加快网络的训练速度，又可以提高融合精度和质量。通过在高光谱测试数据集上与其它高性能的高光谱和多光谱图像融合方法进行对比实验，发现本实施例中波红外高光谱和中波红外多光谱图像融合方法融合出来的中波红外高光谱图像具有更好的质量，具有很强的抗噪声干扰能力，且在针对不同类型的中波红外高光谱和中波红外多光谱图像融合时，不需要改变网络的结构，只需要提前准备好相应类型的中波红外高光谱和中波红外多光谱图像进行训练，网络模型训练完成后便可以进行使用，具有很强的普适性和鲁棒性。

此外，本实施例还提供一种中波红外高光谱及多光谱图像融合系统，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行前述中波红外高光谱及多光谱图像融合方法的步骤。

此外，本实施例还提供一种计算机可读存储介质，其中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行前述中波红外高光谱及多光谱图像融合方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种中波红外高光谱及多光谱图像融合方法，其特征在于，包括：

S3，提取图像块C的残差图像X_res；所述提取对应的残差图像X_res为通过预先完成训练的基于自注意力机制的融合网络实现的，所述基于自注意力机制的融合网络由相互连接的编码器和解码器组成，所述编码器包括N个依次级联执行下采样的图像合并层，所述解码器包括N个依次级联执行上采样的图像扩展层，且编码器中的图像合并层、解码器中的图像扩展层数量相同且一一对应，任意相邻的图像合并层之间、相邻的图像合并层和图像扩展层之间、以及相邻的图像扩展层之间均串接有用于提取全局特征的旋转变换器块，编码器的前N-1个图像合并层与对应的图像扩展层之间设有跳跃连接以用于将下采样得到的特征图与对应上采样的特征图进行通道方向的拼接后通过全连接层调整拼接特征图的通道维度使通道维度不发生改变；所述图像合并层用于对输入图像进行像素重组PixelUnshuffle操作，实现输入图像的两倍空间下采样以及通道数变为原来的4倍，接着通过归一化层进行特征图通道方向的归一化，最后通过全连接层将特征图的通道数减半；所述图像扩展层和图像合并层具有对称的结构，针对输入特征图图像扩展层实现与图像合并层相反的像素重组PixelShuffle操作，来完成空间上采样功能；所述旋转变换器块由归一化层、多头自注意力模块、残差连接结构以及激活函数为GELU的双层全连接网络构成，旋转变换器块在每一个多头自注意力模块和双层全连接网络之前都会使用一个归一化层对输入数据进行通道方向上的归一化；每一个所述旋转变换器块之后均对应连接有一个卷积层，所述卷积层用于将卷积结构的归纳偏置性引入旋转变换器块；每一个所述旋转变换器块均在卷积层之后还对应连接有一个残差模块，所述残差模块用于将该旋转变换器块的输入、该旋转变换器块对应的卷积层的输出做差后输出至下一个图像合并层或者图像扩展层；

2.根据权利要求1所述的中波红外高光谱及多光谱图像融合方法，其特征在于，步骤S1中的对输入的中波红外高光谱图像Y空间上采样是指对输入的中波红外高光谱图像Y采用双三次插值法进行空间上采样以得到上采样中波红外高光谱图像Y^U。

3.根据权利要求1所述的中波红外高光谱及多光谱图像融合方法，其特征在于，所述卷积层的卷积核大小为3×3。

4.根据权利要求1所述的中波红外高光谱及多光谱图像融合方法，其特征在于，所述编码器包括3个依次级联执行下采样的图像合并层，所述解码器包括3个依次级联执行上采样的图像扩展层。

5.根据权利要求4所述的中波红外高光谱及多光谱图像融合方法，其特征在于，中波红外高光谱图像Y的大小为W/16*H/16*31，上采样中波红外高光谱图像Y^U的大小为W*H*31，中波红外多光谱图像Z的大小为W*H*3，图像块C的大小为W*H*34，第一个图像合并层输出的特征图大小为W/4*H/4*96，第二个图像合并层输出的特征图大小为W/8*H/8*192，第三个图像合并层输出的特征图大小为W/16*H/16*384，第一个图像扩展层2倍上采样后输出的特征图大小为W/8*H/8*192，第二个图像扩展层2倍上采样后输出的特征图大小为W/4*H/4*96，第三个图像扩展层4倍上采样后通过一个全连接层将特征维度还原为31个光谱维度，输出的特征图大小为W*H*31的残差图像X_res，其中W为残差图像X_res的宽度，H为残差图像X_res的高度。

6.一种中波红外高光谱及多光谱图像融合系统，包括相互连接的微处理器和存储器，其特征在于，所述微处理器被编程或配置以执行权利要求1～5中任意一项所述中波红外高光谱及多光谱图像融合方法的步骤。

7.一种计算机可读存储介质，其中存储有计算机程序，其特征在于，所述计算机程序用于被微处理器编程或配置以执行权利要求1～5中任意一项所述中波红外高光谱及多光谱图像融合方法的步骤。