CN115018748A

CN115018748A - 结合模型结构重构和注意力机制的空天遥感图像融合方法

Info

Publication number: CN115018748A
Application number: CN202210635583.XA
Authority: CN
Inventors: 吕军锋; 崔祺; 许悦雷; 张兆祥; 周清; 回天
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-09-06

Abstract

本发明提供了一种结合模型结构重构和注意力机制的空天遥感图像融合方法。分别对红外图像和可见光图像进行特征提取，使用注意力机制进行权重分配，将两个通道的数据进行拼接，最后再结合图像特征提取阶段的浅层数据特征进行图像重建，最后得到融合结果。本发明在图像重构时同时使用浅层特征层和深度特征层，有效避免了深层神经网络结构容易出现的特征丢失问题；引入了注意力机制模块，有效减弱了源图像中复杂背景的干扰，有效凸显重要目标信息；引入了模型结构重构模块，在保证图像融合效果的前提下有效提升了图像的融合速度。

Description

结合模型结构重构和注意力机制的空天遥感图像融合方法

技术领域

本发明涉及数据融合、图像处理领域，尤其是一种图像融合方法。

背景技术

现有空天平台被广泛应用于监视与侦察等军事任务，以及国土勘测，自然灾害预测等民用领域。其拍摄环境较为复杂，需要在不同天气条件和光照条件下工作，并且需要昼夜连续运行，因此空天平台一般需要搭载多种图像传感器以适应不同的任务场景，目前空天平台一般搭载红外传感器和可见光传感器。红外图像的成像主要依靠物体自身的热辐射进行，因此不受光照条件、天气的影响，但其对比度一般较低；可见光图像虽然细节纹理信息较为丰富，但其容易受到光照条件的影响，将红外与可见光图像进行融合可以得到对环境信息和重要目标信息全面描述的图像。而目前基于空间域和变换域的图像融合方法鲁棒性不强，难以满足环境复杂多变的无人机监视侦察任务要求；一些深度学习方法则在运行效率方面表现不佳，不能满足实时性需求。综上所述，当前需要一种既能实现高质量融合，又能高效完成融合任务的图像融合算法。

发明内容

为了克服现有技术的不足，本发明提供一种结合模型结构重构和注意力机制的空天遥感图像融合方法。本发明提出一种基于多层级联式神经网络结构的端到端图像融合模型，增加了注意力机制通过对特征图赋予权重信息，有效去除融合结果中的冗余信息，突出重要目标的特征；采用模型结构重构的方法在模型训练阶段和模型测试阶段采用不同的网络结，提升融合算法的运行效率，使得图像融合达到准实时的效果，大幅度提升模型的运算速度。

为有效提升检测模型对于源图像中重要目标的提取能力，提升模型的运算速度。本发明提出了一种基于多层级联式神经网络结构的端到端图像融合模型，引入注意力模块结构和模型结构重构模块，提升模型的融合效果和融合速度。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤一：使用集成了红外摄像机和可见光摄像机的空天平台获得行人、汽车以及建筑的包含多个目标的红外、可见光视频数据，并将视频数据按照间隔5帧的方式分解为图像，作为数据集；

步骤二：对于获得的数据集进行数据增强，数据增强包括随机改变图像对比度和亮度，及进行旋转、翻转和平移的操作，以增强原数据集的数据多样性，扩展数据分布范围，并将数据集随机分为训练集、测试集、验证集；

步骤三：将红外数据与可见光数据输入至图2所示的多层级联式图像融合模型结构中，使用梯度下降的方法不断最小化损失函数，利用反向传播不断更新网络参数，最终得到用于推理的权重文件；

多层级联式图像融合模型结构中，使用Pytorch框架将其实现，并将数据集中的训练集输入至模型中进行训练，在70期训练过程中，利用梯度下降的方法不断最小化损失函数，并使用反向传播更新深度学习网络参数，最终的得到用于推理的权重文件；所述多层级联式图像融合模型结构中，在图像特征提取阶段，解耦了训练时的架构和推理时的架构，使用多分支网络架构进行训练，而使用单路模型进行推理，特征提取阶段共使用5个模型结构重构模块进行特征提取，将特征图尺寸变为7×7×128，将经过特征提取的特征图输入至注意力模块以去除特征图中的冗余信息，将经过注意力模块的红外图像特征图和可见光特征图进行拼接，得到尺寸为7×7×256的特征图，采用级联的方式，将浅层特征与深层特征相拼接，然后利用反卷积层，逐层将特征图重构为尺寸为224×224×1的融合结果；

步骤四：利用本发明设计的如图3所示的模型结构重构方法将多分支的图像特征提取网络结构等效转化为单路模型结构，重构多层级联式图像融合模型，以提升模型的运算速度；

步骤五：将红外与可见光图像的测试集在模型结构重构后的网络模型上进行推理，保留其在推理阶段的测试数据；

步骤六：利用图像融合方法与检测结果进行对比分析。

所述多层级联式图像融合模型结构的训练部分，特征提取阶段采用的多分支模型结构，使用1×1和3×3两种卷积核，令

代表特征图，其中H×W代表特征图的高度和宽度，C代表特征图通道数，将其输入到模型结构重构模块后，分别经过3×3卷积核和1×1卷积核进行卷积，卷积核步长为2，扩充为1，该操作用式(5)表示：

其中j表示该层的第j个卷积核，

表示经过卷积处理的输出，*表示二维卷积操作，β为偏置；

将所得结果输入至批归一化(Batch normalizations)层中，用以减少过拟合和加快训练进程，输出O写为式(6)形式：

其中γ为比例因子，β为偏置，μ为当前通道的均值，σ为标准差。输入图像在分别进行3×3卷积和1×1卷积以及相应批归一化操作后，将得到的两组权重矩阵进行对应元素相加，使用斜率为0.1的LeakyReLu激活函数增加模型非线性，防止出现梯度消失的情况。

在训练阶段完成之后，对模型中的特征提取部分采用模型结构重构，具体重构的步骤如下：

将模型结构重构模块训练时采用的多分支结构等价转化为只有3×3卷积核的单路模型，从而提高推理时的运行速度，该过程称为模型结构重构；大小相同的二维卷积核在相同的输入上以相同的步幅操作可以产生相同分辨率的输出，将这些核的对应权重相加，得到产生相同输出的等效卷积核；

以

表示3×3的卷积核，

表示1×1卷积核，利用式(6)中给出整理后的结果，得出融合后的卷积核f′^(j)和偏置b_j，如式(7)、(8)所示。

利用以上结果得到，使用最终融合后的卷积核进行卷积操作表示为式(9)的形式：

经过以上结构重构，完成了将多分支结构转化为单路模型的过程，转化前后相对应的模型结构重构模块在输入尺寸和输出尺寸是一致的。

所述注意力模块利用池化、卷积以及激活等操作得到权重图，注意力模块中，将经过特征提取模块的尺寸为7×7×128的特征图输入到注意力模块中，首先分别进行平均池化和最大值池化，最大池化可以有效增加图像特征的不变性，增强图像在偏移、旋转等方面的鲁棒性；而平均池化则具有更好的保留局部信息的作用，因此在注意力模块中同时使用这两种池化层，以X＝[x₁,x₂,x₃,...,x_n]表示特征图，x_n(i,j)表示第n层卷积在(i,j)对应位置上的权重，平均池化层和最大值池化层分别如式(1)，式(2)所示：

将经过两种池化的特征图沿通道维度进行拼接，得到新的尺寸为7×7×256的特征图；进一步对其进行3×3卷积，其输入通道为256，输出通道为128；为了增加模型的非线性，卷积结束后设置了Sigmoid激活函数，得到第k层的权重W_k的过程如式(3)所示：

W_k＝σ[f^3×3*Concat(AvgPool(F_k),MaxPool(F_k))] (3)

其中σ表示sigmoid激活函数，f^3×3表示卷积核大小为3×3的卷积层，Concat代表沿通道将两种特征图进行拼接，该权重W_k对输入特征图的通道进行加权，并且还能对每一层的特征图中重要的部分进行加权，因此使用第k层权重W_k和第k层特征图F_k进行对应元素相乘得到注意力模块输出结果，如式(4)所示：

式中

表示矩阵中对应元素相乘，F_k’则表示经过注意力权重分配后得到的结果。

所述损失函数采用：

其中σ分别表示图像的标准差，σ_XY表示了X和Y之间的相关性，C是稳定系数，公式(10)中高斯函数的标准差被设定为1.5，SSIM(I_v,I_F|W)和SSIM(I_ir,I_F|W)都是通过式(10)计算，其中I_v,I_ir,I_F分别表示可见光图像、红外图像以及融合结果，W表示滑动窗口，该窗口从左上角不断移动至右下角，其中C＝9×10^-4并且w＝11×11；

损失函数L_SSIM’使用式(11)计算，E(I|W)表示平均灰度值，计算方法如式(12)所示：

L_SSIM′(I_v,I_ir,I_F|W)＝ε₁·SSIM_M(I_v,I_F|W)+ε₂·SSIM_M(I_ir,I_F|W) (11)

式(12)中P_i为像素点的灰度值，取ε₁＝0.3，ε₂＝0.7并代入式(11)中；当可见光平均灰度值较高时则将ε₁和ε₂的取值互换，SSIM部分的损失函数L_SSIM如式(13)所示：

其中N表示在单个图像中滑动窗口的总数，L_SSIM为实现自适应图像融合的损失函数；

在图像重构时，添加了TV模型消除噪声，该部分损失函数如式(14)、(15)所示：

R(i,j)＝I_A(i,j)-I_F(i,j) (14)

其中R表示了红外图像和可见光图像之间的差异，||||₂是l₂距离，L_TV表示全变分损失函数，当公式(13)和公式(15)的两种类型的损失函数差异巨大达到10²甚至10³时，L_SSIM在损失函数中的占比相当低，会导致融合图像的对比度和质量下降；相反地，当损失函数中L_SSIM较大时，融合结果中可见光图像细节信息将会大幅度减少；为了平衡这种差异，在不同的数据集都能取得比较好的融合效果，设置超参数λ，调整λ数值以平衡L_TV和L_SSIM的差异带来的影响，最终损失函数如式(16)所示：

Loss＝λL_SSIM+L_TV (16)

其中，超参数λ的取值为100-300。

本发明的有益效果在于：

(1)使用了多层级联式网络结构进行图像融合，在图像重构时同时使用浅层特征层和深度特征层，有效避免了深层神经网络结构容易出现的特征丢失问题；

(2)引入了注意力机制模块，有效减弱了源图像中复杂背景的干扰，有效凸显重要目标信息；

(3)引入了模型结构重构模块，在保证图像融合效果的前提下有效提升了图像的融合速度。

附图说明

图1是本发明结合特征聚合和注意力机制的红外视频目标检测模型结构示意图。

图2是本发明多层级联式图像融合模型全局结构。

图3是本发明模型结构重构模块示意图，图3(a)为模型结构重构模块训练阶段示意图，图3(b)模型结构重构模块推理阶段示意图。

图4是本发明注意力模块示意图。

图5是本发明实验测试结果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

红外图像和可见光图像的成像原理相差较大，红外图像不受光照条件变化的影响，但其图像分辨率一般较低；而可见光虽然分辨率较高，但是在夜晚的成像会受到很大程度的限制。因此在空天平台中要将这两种图像进行融合，以有效利用红外图像与可见光图像各自的成像优点。

综上所述，围绕红外与可见光图像融合，需要解决的问题如下：

(1)针对一些基于变换域和空间域的融合方法中难以保留重要的目标特征，如何在融合时将有效信息保留，而去除冗余的信息；

(2)针对卷积神经网络由于其庞大的参数量和复杂的模型结构，容易出现运算速度慢的问题，如何在保持融合效果的情况下，显著提高模型的运算速度。

采取的方案如下：

(1)提出一种基于多层级联式神经网络的结构，并引入注意力模块，增强对图像中重要目标的聚焦能力，并且去除无效的冗余信息；

(2)提出一种实现模型结构重构的模块，在网络模型训练中使用复杂的网络结构，以保证图像融合的效果，训练结束后将结构重构为单路模型，提升模型运算速度。

本发明设计的红外图像与可见光图像融合流程主要分为4个阶段，流程如图1所示，包括分别对红外图像和可见光图像进行特征提取，使用注意力机制进行权重分配，将两个通道的数据进行拼接，最后再结合图像特征提取阶段的浅层数据特征进行图像重建，最后得到融合结果。

由于红外图像与可见光图像的数据集数量有限，为了使数据特征分布的更加全面，因此使用随机对比度、随机亮度、随机翻转、随机旋转的操作对数据集进行增强，以提升模型在多种情况下的鲁棒性，在对数据集进行增强后将其随机分为训练集、验证集和测试集。

图2为本发明设计的多层级联式图像融合模型结构，使用Pytorch框架将其实现，并将数据集中的训练集输入至模型中进行训练，在70期训练过程中，利用梯度下降的方法不断最小化损失函数，并使用反向传播更新深度学习网络参数，最终的得到用于推理的权重文件。对于该网络结构，进行诸多增强性能的优化，在图像特征提取阶段，本发明为提高红外与可见光图像融合速度，引入了一种实现模型结构重构的图像特征提取模块，该模块解耦了训练时的架构和推理时的架构，使用多分支网络架构进行训练，而使用单路模型进行推理，从而同时利用多分支模型训练时的优势(性能好)和单路模型推理时的优势(速度高，省内存)，该模块的具体说明如图3所示。特征提取阶段共使用5个模型结构重构模块进行特征提取，将特征图尺寸变为7×7×128，为了实现融合图像的有效表示，其分解与重构过程取消了池化操作以减少信息的丢失。

将经过特征提取的特征图输入至注意力模块以去除特征图中的冗余信息，使得在特征提取和图像重构阶段可以更好地关注于目标信息。该模块只对特征图进行加权，不改变特征图尺寸，注意力模块的具体实现如图4所示，将经过注意力模块的红外图像特征图和可见光特征图进行拼接，得到尺寸为7×7×256的特征图。为了保留更多的源图像中的信息，采用级联的方式，将浅层特征与深层特征相拼接，然后利用反卷积层，逐层将特征图重构为尺寸为224×224×1的融合结果。

图3为模型结构重构模块，该部分，图3(a)表示了在模型训练部分中，特征提取阶段采用的多分支模型结构，在模型结构重构模块中本发明使用了1×1和3×3两种卷积核，其中1×1卷积核可以灵活的实现特征图的升维，并且可以有效完成不同的通道在模型中混合使用3×3卷积核和1×1卷积核的方式要明显强于使用两个3×3卷积核；并且这样做还可以有效的减少模型的参数量，提高模型的非线性。

令

代表特征图，其中H×W代表特征图的高度和宽度，C代表特征图通道数。如图3(a)所示，将其输入到模型结构重构模块后，分别经过3×3卷积核和1×1卷积核进行卷积。其卷积核步长为2，扩充为1，该操作用式(5)表示：

其中j表示该层的第j个卷积核，

表示经过卷积处理的输出，*表示二维卷积操作，β为偏置。

其中γ为比例因子，β为偏置，μ为当前通道的均值，σ为标准差。输入图像在分别进行3×3卷积和1×1卷积以及相应批归一化操作后，将得到的两组权重矩阵进行对应元素相加。使用斜率为0.1的LeakyReLu激活函数增加模型非线性，防止出现梯度消失的情况。

图3(b)表示了在训练阶段完成之后，为提高模型运算速度，对模型中的特征提取部分采用了模型结构重构方法，方法具体如下：

将模型结构重构模块训练时采用的多分支结构等价转化为只有3×3卷积核的单路模型，从而提高推理时的运行速度，该过程称为模型结构重构。大小相同的二维卷积核在相同的输入上以相同的步幅操作可以产生相同分辨率的输出，将这些核的对应权重相加，得到产生相同输出的等效卷积核。

以

表示3×3的卷积核，

表示1×1卷积核，利用式(6)中给出整理后的结果，得出融合后的卷积核f^′(j)和偏置b_j，如式(7)、(8)所示。

利用以上结果容易得到，使用最终融合后的卷积核进行卷积操作表示为式(9)的形式：

经过以上模型结构重构过程，就完成了将多分支结构转化为单路模型的过程，转化前后相对应的模型结构重构模块在输入尺寸和输出尺寸是一致的。

注意力机制可以有效的提升模型的融合效果，本发明将其添加在特征提取阶段之后，如图4所示；在红外与可见光图像融合任务中，低照度条件下重要目标在红外图像中一般有亮度较高的特征，根据这种特点，使用注意力机制可以在此任务中取得更好的融合效果。本发明提出的注意力模块是利用池化、卷积以及激活等操作得到权重图，用该权重图对不同的特征向量进行适当增强或者抑制，从而突出源图像中的典型目标。注意力模块作为一个轻量级的模块，直接将其添加在特征提取模块之后，具体的网络结构如图2所示。将经过特征提取模块的尺寸为7×7×128的特征图输入到注意力模块中，首先分别进行平均池化和最大值池化，最大池化可以有效增加图像特征的不变性，增强图像在偏移、旋转等方面的鲁棒性；而平均池化则具有更好的保留局部信息的作用，因此在注意力模块中同时使用这两种池化层。以X＝[x₁,x₂,x₃,...,x_n]表示特征图，x_n(i,j)表示第n层卷积在(i,j)对应位置上的权重。平均池化层和最大值池化层分别如式(1)，式(2)所示：

将经过两种池化的特征图沿通道维度进行拼接，得到新的尺寸为7×7×256的特征图。为了得到权重信息，还需要进一步对其进行3×3卷积，其输入通道为256，输出通道为128；为了增加模型的非线性，卷积结束后设置了Sigmoid激活函数。以上得到第k层的权重W_k的过程如式(3)所示：

W_k＝σ[f^3×3*Concat(AvgPool(F_k),MaxPool(F_k))] (3)

其中σ表示sigmoid激活函数，f^3×3表示卷积核大小为3×3的卷积层，Concat代表沿通道将两种特征图进行拼接。该权重W_k对输入特征图的通道进行加权，并且还能对每一层的特征图中重要的部分进行加权，因此使用第k层权重W_k和第k层特征图F_k进行对应元素相乘就可以得到注意力模块输出结果，如式(4)所示：

式中

深度学习模型的损失函数直接影响了红外与可见光图像的融合效果，本发明设计了一种健壮的损失函数。其基于SSIM和TV进行设计，该部分的目标是实现无监督学习和确定合适的参数来训练出预期的模型结构。

其中σ分别表示图像的标准差，σ_XY表示了X和Y之间的相关性。C是稳定系数。该公式中高斯函数的标准差被设定为1.5。SSIM(I_v,I_F|W)和SSIM(I_ir,I_F|W)都是通过式(10)计算，其中I_v,I_ir,I_F分别表示可见光图像、红外图像以及融合结果。W表示滑动窗口，该窗口从左上角不断移动至右下角。其中C＝9×10^-4并且w＝11×11。

损失函数L_SSIM’使用式(11)计算，E(I|W)表示平均灰度值,计算方法如式(12)

式(12)中P_i为像素点的灰度值。一般来说，在低照度情况下，图像中感兴趣区域能量信息与图像的局部灰度值呈现正相关的特性。当红外图像的平均灰度值E(I_ir|W)大于可见光图像的平均灰度值E(I_v|W)时，这意味着当前窗口中红外图像包含的信息是多于可见光图像的，此时损失函数应该指导网络保留更多的红外图像特征，因此取ε₁＝0.3，ε₂＝0.7并代入式(11)中；当可见光平均灰度值较高时则将,的取值互换。基于这种策略，SSIM部分的损失函数L_SSIM如式13所示：

其中N表示在单个图像中滑动窗口的总数，L_SSIM为可以实现自适应图像融合的损失函数。

在图像重构过程中，图像上偶然产生的噪声可能会对复原结果产生非常大的影响，因此本发明添加了TV模型消除噪声，该部分损失函数如式(14)、(15)所示：

R(i,j)＝I_A(i,j)-I_F(i,j) (14)

其中R表示了红外图像和可见光图像之间的差异，||||₂是l₂距离，L_TV表示全变分损失函数。当两种类型的损失函数差异巨大达到10²甚至10³时，L_SSIM在损失函数中的占比相当低，会导致融合图像的对比度和质量下降；相反地，当损失函数中L_SSIM较大时，融合结果中可见光图像细节信息将会大幅度减少。为了平衡这种差异，在不同的数据集都能取得比较好的融合效果，本发明设置了超参数λ，调整λ数值可以平衡L_TV和L_SSIM的差异带来的影响。最终损失函数如式(16)所示：

Loss＝λL_SSIM+L_TV (16)

图5使用本发明提出的方法在无人机拍摄的数据集上进行了验证，结果表明提出的模型结构重构方法和注意力机制在运算效率和融合效果方面的提升是显著的。另外实验表明该方法可以很好的应用在空天平台上，对于完成监视与侦察任务有很大的提升。

Claims

1.一种结合模型结构重构和注意力机制的空天遥感图像融合方法其特征在于包括下述步骤：

步骤三：将红外数据与可见光数据输入至多层级联式图像融合模型结构中，使用梯度下降的方法不断最小化损失函数，利用反向传播不断更新网络参数，最终得到用于推理的权重文件；

多层级联式图像融合模型结构中，使用Pytorch框架将其实现，并将数据集中的训练集输入至模型中进行训练，在训练过程中，利用梯度下降的方法不断最小化损失函数，并使用反向传播更新深度学习网络参数，最终的得到用于推理的权重文件；所述多层级联式图像融合模型结构中，在图像特征提取阶段，解耦了训练时的架构和推理时的架构，使用多分支网络架构进行训练，而使用单路模型进行推理，特征提取阶段共使用5个模型结构重构模块进行特征提取，将特征图尺寸变为7×7×128，将经过特征提取的特征图输入至注意力模块以去除特征图中的冗余信息，将经过注意力模块的红外图像特征图和可见光特征图进行拼接，得到尺寸为7×7×256的特征图，采用级联的方式，将浅层特征与深层特征相拼接，然后利用反卷积层，逐层将特征图重构为尺寸为224×224×1的融合结果；

步骤四：利用模型结构重构将多分支的图像特征提取网络结构等效转化为单路模型结构，重构多层级联式图像融合模型，以提升模型的运算速度；

步骤六：利用图像融合方法与检测结果进行对比分析。

2.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法，其特征在于：

其中j表示该层的第j个卷积核，

表示经过卷积处理的输出，*表示二维卷积操作，β为偏置；

将所得结果输入至批归一化层中，用以减少过拟合和加快训练进程，输出O写为式(6)形式：

3.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法，其特征在于：

以

表示3×3的卷积核，

4.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法，其特征在于：

所述注意力模块利用池化、卷积以及激活等操作得到权重图，注意力模块中，将经过特征提取模块的尺寸为7×7×128的特征图输入到注意力模块中，首先分别进行平均池化和最大值池化，以X＝[x₁,x₂,x₃,...,x_n]表示特征图，x_n(i,j)表示第n层卷积在(i,j)对应位置上的权重，平均池化层和最大值池化层分别如式(1)，式(2)所示：

W_k＝σ[f^3×3*Concat(AvgPool(F_k),MaxPool(F_k))] (3)

式中

5.根据权利要求1所述的结合模型结构重构和注意力机制的空天遥感图像融合方法，其特征在于：

所述损失函数采用：

R(i,j)＝I_A(i,j)-I_F(i,j) (14)

其中R表示了红外图像和可见光图像之间的差异，||||₂是l₂距离，L_TV表示全变分损失函数，设置超参数λ，调整λ数值以平衡L_TV和L_SSIM的差异带来的影响，最终损失函数如式(16)所示：

Loss＝λL_SSIM+L_TV (16)

其中，超参数λ的取值为100-300。