CN116912649A

CN116912649A - 基于相关注意力引导的红外与可见光图像融合方法及系统

Info

Publication number: CN116912649A
Application number: CN202311186403.5A
Authority: CN
Inventors: 蔡朝; 马泳; 樊凡; 黄珺
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-10-20
Anticipated expiration: 2043-09-14
Also published as: CN116912649B

Abstract

本发明针对现有技术的不足，提出了一种基于相关注意力引导的红外与可见光图像融合方法及系统。本发明提出了实时处理的端到端红外和可见光图像融合框架，该框架自适应地保留来自两种模态的互补信息。融合结果在保留突出的红外物体和丰富的可见纹理细节之间实现了更好的视觉效果。本发明设计了跨模态特征融合模块，它可以从全局角度保留显着特征和补充信息。本发明方法采用相关引导的注意机制作为融合规则，可以建立对多模态图像局部特征的远程依赖，进一步细化特征图，关注源图像的典型目标和细节。

Description

基于相关注意力引导的红外与可见光图像融合方法及系统

技术领域

本发明属于图像融合领域，特别是涉及相关性引导的注意力机制和神经网络的红外和可见光图像融合方法及系统。

背景技术

图像融合是计算机视觉中的一项重要的图像处理技术。旨在通过使用适当的特征提取方法和融合规则重建出包含源图像的显著特征和互补信息的单个图像。近年来，红外和可见光图像融合技术已广泛应用于目标检测、语义分割、识别、和跟踪等领域。由于红外和可见光图像传感器的硬件特点，在采集图像时，不同的成像方式代表了不同的模态特征。红外图像捕获物体热辐射信息，可以有效的突出图像中的热目标。但红外图像普遍存在噪声、低对比度和细节模糊。相反，可见光图像捕获物体反射信息，可以提供具有高分辨率和清晰度的纹理细节。因此，融合这两种类型的图像可以获得重要的热目标信息和丰富的纹理细节。

红外和可见光图像融合领域提出了许多方法。它们大致可以分为两类：传统方法和基于深度学习的方法。传统的方法主要包括多尺度变换的方法，基于稀疏表示的方法，混合方法和其他方法。这些方法通过复杂的变换或表示来实现图像融合，通常难以满足实时性的要求，而且需要手动设计融合规则，很难保持模态互补信息，融合性能有限。近年来，图像融合领域引入了许多基于深度学习的方法。他们使用深度网络提取特征和重建图像，利用精心设计的损失函数来约束网络，实现自适应的特征融合。这些方法受限于卷积层的感受野，忽视了远程上下文信息的提取，只能利用局部信息进行图像融合，无法利用域内或域间的远程依赖来进一步改善融合结果。

发明内容

本发明针对现有技术的不足，提出了一种基于相关引导注意力机制的新型端到端融合网络，用于红外和可见光图像融合。该网络通过计算每个特征的相关性获得模态内远程上下文信息，本发明整合每个模态的跨模态相关性以捕获显着特征并融合互补信息。它可以从全局角度保留显着特征和补充信息。本发明的方法采用相关引导的注意机制作为融合规则，可以建立对多模态图像局部特征的远程依赖，进一步细化特征图，关注源图像的典型目标和细节。融合模块通过可学习的融合规则，充分融合跨模态的显着特征和互补信息，生成视觉效果良好的融合图像。

为了达到上述目的，本发明提供的技术方案是：基于相关注意力引导的红外与可见光图像融合方法，包括如下步骤：

步骤1，构建基于相关注意力引导的融合网络，包括特征提取模块，相关融合模块和图像重建模块3部分；具体实现过程如下：

首先，将已配准好的红外和可见光图像分别送入若干层卷积组成的特征提取模块，提取两个模态的互补特征；其次，通过相关融合模块计算特征相关性，以获得模态内和模态间的远程全局交互，对红外和可见光图像特征进行跨模态互补融合，使融合网络在特征融合阶段能集成更多的互补信息；最后，将信息交互后的红外和可见光图像特征连接起来，通过图像重建模块来生成融合图像；

步骤2，通过损失函数训练步骤1中构建的融合网络，得到训练好的融合网络，所述损失函数通过计算融合图像与输入的两种源图像之间的像素级差异和纹理差异来获得；

步骤3，利用步骤2中训练好的融合网络对待融合的红外与可见光图像进行融合。

进一步的，还包括步骤4，选取评估指标定量评价融合效果。

进一步的，所述特征提取模块由5个共享权重的卷积层组成，前4个卷积层采用DenseNet结构，最后一个卷积层采用1×1卷积层和非线性Tanh激活函数。

进一步的，相关融合模块的具体处理过程如下；

步骤1.1，将红外和可见光图像中提取的特征图表示为；特征提取模块提取的特征/>对特征/>的相关性计算为：

其中，H和W表示特征图的高和宽，C表示特征图的通道数；

步骤1.2，为获得每个特征的远距离上下文信息，将特征提取模块提取的红外和可见光图像的特征图生成为模板图：

这里为模板特征图，/>为自适应平均池化操作；

步骤1.3，为了获得两种模态的互补信息，在计算出每种模态的特征相关性后，利用如下相关融合规则来获得跨模态互补特征：

其中是对红外图像的特征和整个红外特征模板图中的特征计算相关性所获得的相关性系数分布图，/>可见光图像特征对可见光特征模板图计算相关性所获得的系数分布图，/>为Sigmod操作，通过Sigmod和自适应平均池化操作/>，将/>和/>两个模板系数分布图压缩到与特征图的尺度一致，获得的权重系数分别为/>和/>；/>为按通道相乘，/>和/>分别代表特征提取模块提取到的红外图像特征和可见光图像特征，/>和/>分别为获得互补信息交互后的红外图像特征与可见光图像特征。

进一步的，所述图像重建模块由5层卷积层组成，以实现特征的充分整合和图像重建，图像重建模块均采用3×3卷积核和ReLU激活函数。

进一步的，所述图像重建模块的具体处理过程如下；

首先将信息交互后的红外和可见光图像特征连接起来：

这里为融合后的特征，/>为通道维度的拼接；

最后，通过图像重建模块，从融合特征中生成融合图像/>，定义图像重建过程为/>，公式如下：

。

进一步的，损失函数由强度损失和梯度损失构成，其中强度损失通过衡量融合图像和源图像在像素级别的差异，约束融合图像保持与源图像相似的强度分布，定义如下：

其中H和W为图像的高和宽，为L1范数，/>和/>分别表示红外和可见光图像，对融合网络生成的融合图像/>和每一种源图像分别求损失，并对其求和作为整体的强度损失：

梯度损失通过融合图像与源图像的梯度差异来迫使融合网络学习并保留源图像中更多的纹理细节，定义如下：

这里的是求图像纹理的梯度算子；

最后，为了促使融合网络整合更多的互补信息并提高图像质量，把强度损失和梯度损失进行加权组合得到最终的损失函数，其中/>为超参，用于平衡梯度和强度参数：

。

进一步的，评估指标包括标准差、空间频率、视觉信息保真度、边缘信息量，平均梯度和信息熵。

另一方面，本发明还提供一种基于相关注意力引导的红外与可见光图像融合系统，包括如下单元：

融合网络构建单元，用于构建基于相关注意力引导的融合网络，包括特征提取模块，相关融合模块和图像重建模块3部分；

其中特征提取模块包括若干层卷积，用于提取红外与可见光图像这两个模态的互补特征；

相关融合模块用于计算特征相关性，以获得模态内和模态间的远程全局交互，对红外和可见光图像特征进行跨模态互补融合，使融合网络在特征融合阶段集成更多的互补信息；

图像重建模块用于将信息交互后的红外和可见光图像特征连接起来，并生成融合图像；

融合网络训练单元，用于通过损失函数训练构建的融合网络，得到训练好的融合网络，所述损失函数通过计算融合图像与输入的两种源图像之间的像素级差异和纹理差异来获得；

融合单元，用于利用训练好的融合网络对待融合的红外与可见光图像进行融合。

与现有技术相比，本发明的优点和有益效果：⑴本发明提出了实时处理的端到端红外和可见光图像融合框架，该框架自适应地保留来自两种模态的互补信息。融合结果在保留突出的红外物体和丰富的可见纹理细节之间实现了更好的视觉效果。⑵本发明设计了跨模态特征融合模块，它可以从全局角度保留显着特征和补充信息。本发明方法采用相关引导的注意机制作为融合规则，可以建立对多模态图像局部特征的远程依赖，进一步细化特征图，关注源图像的典型目标和细节。

附图说明

图1为本发明整体框架图。

图2为本发明相关注意力融合模块示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

如图1所示，本发明提出的基于相关注意力引导的红外与可见光图像融合方法，主要包含以下步骤：

步骤1，构建基于相关注意力引导的融合网络，包括特征提取模块，相关融合模块和图像重建模块3部分组成，具体结构见图1所示。

所述特征提取模块用于充分提取红外与可见光图像的互补特征；

所述相关融合模块利用相关注意力机制，提取远程上下文信息，以获得模态内和模态间的远程全局交互，对红外和可见光图像特征进行跨模态互补融合，使网络在特征融合阶段能集成更多的互补信息；

所述图像重建模块用于实现特征的充分整合和图像重建；

首先，已配准好的红外和可见光图像分别送入5层卷积组成的特征提取器提取特征两个模态的互补和共同特征。其次，通过相关融合模块中计算特征相关性，以获得模态内和模态间的远程全局交互，对红外和可见光图像特征进行跨模态互补融合，使网络在特征融合阶段能集成更多的互补信息；最后，提取的红外和可见光图像深度特征被连接起来，通过图像重建网络来生成融合图像。

步骤2，通过loss函数训练网络，使融合网络进一步关注图像全局信息，也关注图像的局部特征；

步骤3，利用训练好的融合网络对红外与可见光图像进行融合；

步骤4，综合评价，通过定性和定量的实验来论证本发明提出的方法与其他融合方法的优越性。

进一步的，所述步骤1中的融合网络，采用端到端的基于CNN的网络作为主干，特征提取模块由5个共享权重的卷积层组成（本实施例通过实验得出取5个卷积层时，特征提取的效果最好），聚焦于充分提取两个模态的互补和共同特征，提取得到红外图像特征和可见光图像特征/>，其中/>和/>分别表示红外和可见光图像。最后一层采用1×1卷积层和非线性Tanh激活函数，旨在提升网络非线性拟合能力，降低输出特征维度，减少网络参数量。值得注意的是，由于在卷积过程中存在padding，导致部分信息丢失，因此特征提取模块中的卷积层采用DenseNet结构，通过密集连接来减少信息的丢失和最大限度的利用信息，以充分利用各层卷积提取的特征，使网络能集成更多细粒度细节特征。特征提取模块的第5层输出后是相关融合模块，在相关融合模块中计算特征相关性，以获得模态内和模态间的远程全局交互，对红外和可见光图像特征进行跨模态互补融合，使网络在特征融合阶段能集成更多的互补信息。

给出一对已配准的红外图像和可见光图像/>，特征提取网络提取的红外图像特征和可见光特征分别定义为：

和/>分别代表网络从红外图像特征和可见光图像中学习到的特征，/>表示特征提取模块，N表示特征图数量。

进一步的，步骤1中的相关融合模块如图2所示，本发明为获得红外图像中的显著的热目标和丰富的可见光图像细节，提取远程上下文信息显得尤为重要。由于CNN提取特征的感受野受限，对于复杂的场景定位显著特征不太有效。为了扩大感受野，需要探索红外图像特征和可见光图像特征/>的远程上下文关系，其中/>和/>分别表示红外和可见光图像。主要包含以下步骤：

步骤1.1，将红外和可见光图像中提取的特征图表示为，其中C，H和W分别为特征通道数，高和宽。特征/>对特征/>的相关性分布图计算为：

步骤1.2，为获得每个特征的远距离上下文信息，一种直接的方法是对网络提取的每个特征计算与特征图中所有其他特征的相关性。特征图的尺寸为H×W，该运算对于一张图像而言，计算复杂度为，其中/>，随着H和W的增大，它将变得难以实现。为提高计算效率，将特征提取模块提取的红外和可见光图像的特征图生成为较小的模板图，可以极大减少计算量：

这里为模板特征图，/>为自适应平均池化操作。

步骤1.3，为了获得两种模态的互补信息，在计算出每种模态的特征相关系数分布后，本发明提出了一种相关融合规则来获得跨模态互补特征。通过步骤1.1计算特征-模板的相关性分布图后，对特征进行如下处理：

其中是对红外图像的特征和整个红外特征模板图中的特征计算相关性所获得的相关性系数分布图，/>可见光图像特征对可见光特征模板图计算相关性所获得的系数分布图，/>为Sigmod操作，通过Sigmod和池化操作，将/>和/>两个模板系数分布图压缩到与特征图的尺度一致，获得的权重系数分别为/>和/>。/>为按通道相乘，/>和/>分别为获得互补信息交互后的红外图像特征与可见光图像特征。

步骤1.4，将得到红外图像和可见光图像的互补和共同特征通过级联策略进行集成，并送入图像重建模块，重建模块由5层卷积组成（本实施例重建模块中卷积层的个数与特征提取模块中卷积层的个数相同），以实现特征的充分整合和图像重建，重建模块均采用3×3卷积核和ReLU激活函数。为避免图像融合过程中灾难性的信息丢失问题，整个网络不采用任何下采样操作，并且填充的方式所有层完全一样。其中级联策略如下：

这里为融合后的特征，/>为通道维度的拼接。最后，通过图像重建模块，从融合特征/>中生成融合图像/>，定义图像重建过程为/>，公式如下：

进一步的，步骤2中，网络损失函数由强度损失（对比度损失）和梯度损失（纹理损失）构成。

强度损失（对比度损失）：通过衡量融合图像和源图像在像素级别的差异，约束融合图像保持与源图像相似的强度分布，定义如下：

其中H和W为图像的高和宽，为L1范数。对网络生成的融合图像和每一种源图像分别求损失，并对其求和作为整体的强度loss：

梯度损失（纹理损失）：由于图像中显著结构通常以较大的梯度呈现，梯度损失通过融合图像与源图像的梯度差异来迫使网络学习并保留源图像中更多的纹理细节。计算纹理损失最好的效果是计算两种源图像的纹理最大值与融合图像的纹理损失，定义如下：

这里的是求图像纹理的梯度算子，本发明使用Sobel算子求取梯度。

最后，为了促使网络整合更多的互补信息并提高图像质量，把强度损失和梯度损失进行加权组合，其中为超参，用于平衡梯度和强度参数：

其中为强度损失，通过衡量融合图像和源图像在像素级别的差异，约束融合图像保持与源图像相似的强度分布。/>为梯度损失，通过融合图像与源图像的梯度差异来迫使网络学习并保留源图像中更多的纹理细节。

进一步，步骤4中将本发明方法（ours）与九种最先进的方法进行了比较，包括基于AE的方法：DenseFuse，RFN-Nest，CSF，基于GAN的：FusionGAN，TarDAL，和基于CNN的：IFCNN，PMGI，U2Fusion和Res2Fusion。选择了六个评估指标来量化评估，包括标准差（SD）、空间频率（SF）、视觉信息保真度（VIF）、边缘信息量(Q^AB/F)，平均梯度（AG）和信息熵(EN)。SD指标度量从统计角度反映了融合图像的分布和对比度。SF指标通过测量融合图像的梯度分布来揭示融合图像的细节和纹理信息。VIF度量从人类视觉系统的角度评估融合图像的信息保真度。Q^AB/F这个指标测量从源图像传送到融合图像的边缘信息的量。AG指标测量融合图像的梯度信息，并以此来表征融合图像的纹理细节。EN指标基于信息论计算融合图像中所包含的信息量。

定性测试结果：实验表明FusionGAN和RFN-Nest不能保护红外目标的锐利的边缘信息。RFN-Nest、DenseFuse、CSF和U2Fusion等算法对目标的对比度有削弱，均受到了红外光谱污染。仅有Res2Fusion、IFCNN、FusionGAN、TarDAL和本发明方法保留了显著目标的强度。本发明方法保留了可见光图像中的纹理细节，又保留了红外显著目标的对比度，完全的融合红外和可见光图像的互补信息，而且本发明的融合结果不会出现光谱污染和细节模糊。

定量测试结果：如表1、表2和表3所示，在TNO、RoadScene和M3FD数据集上对5个评价指标进行定量测试。数据显示，在TNO数据集上，VIF和Q^AB/F取得了最好的成绩，SF仅小幅落后于TarDAL和IFCNN。在RoadScene数据集上，有4个指标AG、SD、SF和Q^AB/F取得了最好的成绩。在M3FD数据集上，所有的五个指标AG、VIF、SD、SF和Q^AB/F都取得了最好的成绩。表明本发明的方法能将更多的图像纹理、对比度、边缘信息和图像细节传送到融合图像；同时也说明本发明融合的图像更符合人类视觉的信息保真度和更令人满意的视觉效果。

表1 在TNO数据集上AG、SD、Q^AB/F、SF和VIF 五个指标的定量比较结果

表2 在 RoadScene 数据集上的AG、SD、Q^AB/F、SF和VIF 五个指标的定量比较结果

表3 在 M3FD 数据集上的AG、SD、Q^AB/F、SF和VIF 五个指标的定量比较结果

本发明另一实例还提供基于相关注意力引导的红外与可见光图像融合系统，包括如下单元：

各单元的具体实现方式与各步骤相同，本发明不予撰述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于相关注意力引导的红外与可见光图像融合方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法，其特征在于：还包括步骤4，选取评估指标定量评价融合效果。

3.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法，其特征在于：步骤1中特征提取模块由5个共享权重的卷积层组成，前4个卷积层采用DenseNet结构，最后一个卷积层采用1×1卷积层和非线性Tanh激活函数。

4.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法，其特征在于：步骤1中相关融合模块的具体处理过程如下；

其中，H和W表示特征图的高和宽，C表示特征图的通道数；

这里为模板特征图，/>为自适应平均池化操作；

其中是对红外图像的特征和整个红外特征模板图中的特征计算相关性所获得的相关性系数分布图，/>可见光图像特征对可见光特征模板图计算相关性所获得的系数分布图， /> 为Sigmod操作，通过Sigmod和自适应平均池化操作/>，将和/>两个模板系数分布图压缩到与特征图的尺度一致，获得的权重系数分别为/>和/>；/>为按通道相乘，/>和/>分别代表特征提取模块提取到的红外图像特征和可见光图像特征，/>和/>分别为获得互补信息交互后的红外图像特征与可见光图像特征。

5.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法，其特征在于：步骤1中图像重建模块由5层卷积层组成，以实现特征的充分整合和图像重建，图像重建模块均采用3×3卷积核和ReLU激活函数。

6.如权利要求4所述的基于相关注意力引导的红外与可见光图像融合方法，其特征在于：步骤1中图像重建模块的具体处理过程如下；

首先将信息交互后的红外和可见光图像特征连接起来：

这里为融合后的特征，/>为通道维度的拼接；

最后，通过图像重建模块，从融合特征中生成融合图像/>，定义图像重建过程为，公式如下：

。

7.如权利要求1所述的基于相关注意力引导的红外与可见光图像融合方法，其特征在于：损失函数由强度损失和梯度损失构成，其中强度损失通过衡量融合图像和源图像在像素级别的差异，约束融合图像保持与源图像相似的强度分布，定义如下：

这里的是求图像纹理的梯度算子；

。

8.如权利要求2所述的基于相关注意力引导的红外与可见光图像融合方法，其特征在于：评估指标包括标准差、空间频率、视觉信息保真度、边缘信息量，平均梯度和信息熵。

9.基于相关注意力引导的红外与可见光图像融合系统，其特征在于，包括如下单元：

融合网络构建单元，用于构建基于相关注意力引导的融合网络，包括特征提取模块，相关融合模块和图像重建模块3部分；其中特征提取模块包括若干层卷积，用于提取红外与可见光图像这两个模态的互补特征；