CN117934309A

CN117934309A - 基于模态字典和特征匹配的未配准红外可见图像融合方法

Info

Publication number: CN117934309A
Application number: CN202410307105.5A
Authority: CN
Inventors: 李华锋; 杨增轶; 张亚飞; 谢明鸿
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-04-26
Anticipated expiration: 2044-03-18
Also published as: CN117934309B

Abstract

本发明涉及基于模态字典和特征匹配的未配准红外可见图像融合方法，属于图像融合技术领域。本发明主要解决了现阶段难以应对未对齐红外可见光图像对融合困难的问题，包括步骤：将固定图像和偏移图像输入到特征提取模块中，获得固定特征和偏移特征；将固定特征和偏移特征输入到跨模态表示学习模块中，获得统一表示的固定特征和偏移特征；将统一表示的固定特征和偏移特征输入特征匹配模块中，输出匹配矩阵；将匹配矩阵和偏移特征输入特征重组块中，利用匹配矩阵对偏移特征进行重组；将重组特征和固定特征输入融合模块中，并重构出红外可见光融合图像。本发明能矫正红外可见光图像对在空间上的未对齐，并消除融合结果中的伪影和偏移，提升了融合性能。

Description

基于模态字典和特征匹配的未配准红外可见图像融合方法

技术领域

本发明涉及基于模态字典和特征匹配的未配准红外可见图像融合方法，属于图像融合技术领域。

背景技术

不同的传感器能够捕获到来自不同波段的信息，这取决于它的硬件构成和成像原理。现阶段还不存在能够捕获来自同一场景中所有波段信息的传感器。例如，可见光传感器可以捕获到物体表面的纹理细节，但是一旦受到极端天气、遮挡和光照的影响就会丢失大量信息。然而，红外传感器在恶劣条件下也能够高效地对目标进行突出，但是它对纹理细节的捕获能力不足。因此，为了能够在单张图像中表征出尽量多的场景信息，图像融合技术应运而生。但是传感器在不同环境下拍摄，容易出现红外可见光图像对在空间上的未对齐的情况。对未对齐的红外可见光图像对直接进行融合，往往会得到一张充满伪影和偏移的融合图像，严重影响到下游任务的性能，例如图像识别，语义分割，目标追踪等等。于是，针对上述困境，提出了基于模态字典和特征匹配的未配准红外可见图像融合方法。在减少源图像对未对齐给融合结果带来的负面影响的同时，得到一张不存在伪影和偏移的视觉效果良好且计算机易于分析的融合结果。

发明内容

为了解决现有方法的不足，本发明针对红外可见光图像对在空间上的未对齐，给融合结果中引入伪影和偏移，从而严重影响到下游任务的性能，提出了一种基于模态字典和特征匹配的未配准红外可见图像融合方法。

本发明的技术方案是：基于模态字典和特征匹配的未配准红外可见图像融合方法，所述方法的具体步骤如下：

步骤1：获取用于未对齐红外可见光图像融合的训练数据集；

步骤2：将固定图像和偏移图像输入到特征提取模块中，获得固定特征和偏移特征；固定特征和偏移特征是能够对场景信息进行高效且全面表征的特征；

步骤3：将固定特征和偏移特征输入到跨模态表示学习模块中，获得统一表示的固定特征和偏移特征；

将固定特征和偏移特征输入到跨模态表示学习模块中后，利用模态可学习字典对不同模态的特征进行一致性表示。具体操作如下：

将不同模态的特征同另一个模态的可学习字典进行注意力计算，并得到一致性表示的特征。

步骤4：将统一表示的固定特征和偏移特征输入特征匹配模块中，输出匹配矩阵；具体过程如下：

首先，将统一表示的固定特征和偏移特征输入特征匹配模块中的双重特征增强块中，得到增强之后的固定特征和偏移特征；之后，对增强之后的特征计算相似度，并输出匹配矩阵；其中，对增强之后的特征计算相似度即将增强之后的特征通过逐元素内积计算得到两个特征之间的点到点对应关系；

步骤5：将匹配矩阵和偏移特征输入特征重组块中，利用匹配矩阵对偏移特征进行重组，以实现重组特征与固定特征在空间上对齐；

步骤6：将重组特征和固定特征输入融合模块中，并重构出红外可见光融合图像。

作为本发明的进一步方案，所述步骤1中未对齐红外可见光图像融合的训练数据集包含数对未对齐红外可见光图像对，其中每个红外可见光图像对，都由一张红外图像和一张可见光图像组成；每张红外图像和可见光图像的大小均为256×256；首先对用于未对齐红外可见光图像融合的训练数据集进行预处理，预处理的方法具体为，对数据进行随机反转、随机旋转和偏移，对处理之后的图像进行归一化。

作为本发明的进一步方案，所述步骤2中，具体操作如下：

将固定图像和偏移图像输入特征提取模块中，并获得特征{,,,}；其中，表示固定的i模态的图像得到的用于融合的特征，表示偏移的j模态的图像得到的用于融合的特征，表示固定的i模态的图像得到的用于一致性表示的特征，表示偏移的j模态的图像得到的用于一致性表示的特征，上述过程表示为：

该特征提取模块由卷积核大小为3×3，步长为1的卷积层、ReLU激活层、批规范化层组成，其中，i表示固定图像所属模态，j表示偏移图像所属模态；vis表示该图像属于可见光模态，即可见光图像；ir表示该图像属于红外模态，即红外图像。

作为本发明的进一步方案，所述步骤3中，跨模态表示学习模块的具体操作如下:

将固定的i模态的图像得到的用于一致性表示的特征同另一个模态的可学习字典进行注意力计算并得到固定的单一模态特征，即统一表示的固定特征，表示为：

；

其中，表示由经过线性映射之后得到的结果，作为注意力计算中的查询；表示由经过线性映射之后得到的结果，作为注意力计算中的键；表示由经过线性映射之后得到的结果，作为注意力计算中的值，表示的维度大小；

与上述过程类似，将偏移的不同模态特征同另一个模态的可学习字典进行注意力计算并得到偏移的单一模态特征，即统一表示的偏移特征；其中，i表示固定图像所属模态，j表示偏移图像所属模态；vis表示该图像属于可见光模态，即可见光图像；ir表示该图像属于红外模态，即红外图像。

为了使得特征之间有良好的一致性表示，定义了特征一致性损失：

其中，表示范数。同样，类似于上述过程定义了针对偏移特征的相关损失和特征一致性损失。

作为本发明的进一步方案，所述步骤4中，在特征匹配前先针对统一表示的固定特征和偏移特征采用精心设计的窗口划分方式进行划分；具体地，采用大小的窗口对统一表示的固定特征进行无重叠地划分，得到，其中表示窗口个数；之后，采用大小的窗口对统一表示的偏移特征进行划分，得到，其中。

作为本发明的进一步方案，所述步骤4中，设计了双重特征增强块对特征进行增强，通过增强特征提高后续特征匹配的准确度。具体操作如下：

将分别输入模态规范化块得到两个不同的特征；模态规范化块由卷积核大小为3×3，步长为1的卷积层、ReLU激活层和实例规范化层组成；两个特征分别输入参数不共享的U-net网络中进行特征增强；然后，将两个初步增强之后的特征进行通道维度上的拼接操作，再分别输入到参数不共享的U-net网络中再次进行特征增强；最后，将两个经过双重增强的特征在通道维度上进行拼接并使用信息聚合块进行信息整合：

；

其中，表示固定特征中第个窗口经过增强之后的结果；信息聚合块由卷积核大小为3×3，步长为1的卷积层、ReLU激活层和实例规范化层组成；同样，根据上述过程，得到经过增强之后的偏移特征，表示通道维度上的拼接操作；表示经过两次特征增强之后的第一支路的特征；表示经过两次特征增强之后的第二支路的特征。

作为本发明的进一步方案，所述步骤4中，对增强之后的特征进行特征匹配，具体操作如下：

对和的逐像素进行内积计算，以获得它们之间的对应关系：

；

其中，表示增强之后的偏移特征和固定特征第个窗口之间的匹配矩阵；表示对该矩阵的第0维度进行softmax计算。

匹配矩阵的准确度对后续特征在空间上的对齐有着重要影响。因此，定义了相对对应损失以监督预测的匹配矩阵具有较高的准确度：

；

其中，表示匹配矩阵的ground truth，该矩阵由0和1构成；表示图像的高；表示图像的宽；表示窗口个数。

作为本发明的进一步方案，所述步骤5中特征重组块的具体操作如下所示：

将匹配矩阵中的第行与展平的偏移特征进行相乘：

其中，表示偏移特征中第个窗口经过重组的结果，表示j模态的偏移特征中的第个窗口的特征。

作为本发明的进一步方案，所述步骤6中，将重组特征和固定特征输入融合模块进行特征融合的具体操作如下所示：

将个按照逆划分规则重构出重组特征，并与固定特征一同输入融合模块，并重建出融合图像:

其中，融合模块由数个卷积核大小为3×3，步长为1的卷积层、ReLU激活层和批规范化层组成的重建块构成，表示偏移特征中第个窗口经过重组的结果。

融合图像中应该具有清晰的纹理细节信息和显著的目标信息，以实现对场景有效且全面地表征。为了尽可能多地保留红外图像和可见光图像中的纹理细节，定义了纹理损失：

；

其中，表示逐像素最大值选择；表示图像的高；表示图像的宽；表示 j模态偏移图像和i模态固定图像经过上述过程得到的融合图像；表示Sobel算子提取梯度操作；表示的梯度图；表示的梯度图；表示的梯度图，表示不带有偏移的j模态图像；

在图像内容信息的保留方面，将融合图像与源图像在像素层面上进行拉近，由此定义内容损失：

；

表示用于平衡子损失项的权重。

本发明的有益效果是：

1、本发明通过模态可学习字典对不同模态的特征进行表示，在特征的相互引导下，获得一致性表示的跨模态特征。以此将后续的跨模态特征匹配问题转化成单模态匹配问题；

2、本发明利用双重特征增强块将更丰富的信息聚合到源特征中，用于增强特征的表征能力，大大地增加了特征匹配的准确率；

3、本发明通过特征匹配的方式，计算出偏移图像和固定图像之间的逐像素对应关系，并利用匹配矩阵的特性对偏移特征进行重组。以一种全新的方式实现了偏移特征和固定特征在空间上的对齐；

4、本发明针对未对齐红外可见光图像对进行融合，并重构出一张不存在伪影和偏移的高质量融合图像，解决了现阶段难以应对未对齐红外可见光图像对融合的困难；

5、针对公开数据集的大量实验结果表明，本发明提出的方法能有效地融合未对齐红外可见光图像对，比现有先进方法性能更好。

附图说明

下面将结合附图和详细实施方式对本发明进行详细说明，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图；

图1为本发明的流程结构示意图；

图2为本发明的跨模态表示学习模块示意图；

图3为本发明的双重特征增强块示意图；

图4为本发明的特征匹配模块示意图；

图5为本发明的特征重组示意图；

图6为本发明方法与现有方法试验效果对比图。

具体实施方式

实施例1：如图1-图6所示，基于模态字典和特征匹配的未配准红外可见图像融合方法，所述方法的具体步骤如下：

步骤1：获取用于未对齐红外可见光图像融合的训练数据集。所述步骤1中未对齐红外可见光图像融合的训练数据集包含数对未对齐红外可见光图像对，其中每个红外可见光图像对，都由一张红外图像和一张可见光图像组成。每张红外图像和可见光图像的大小均为256×256。首先对用于未对齐红外可见光图像融合的训练数据集进行预处理，预处理的方法具体为，对数据进行随机反转、随机旋转和偏移，对处理之后的图像进行归一化。

步骤2：将固定图像和偏移图像输入到特征提取模块中，固定特征和偏移特征是能够对场景信息进行高效且全面表征的特征。详细地，将固定图像和偏移图像输入特征提取模块中，并获得特征{,,,}；其中，表示固定的i模态的图像得到的用于融合的特征，表示偏移的j模态的图像得到的用于融合的特征，表示固定的i模态的图像得到的用于一致性表示的特征，表示偏移的j模态的图像得到的用于一致性表示的特征，上述过程表示为：

步骤3：将固定特征和偏移特征输入到跨模态表示学习模块中，获得统一表示的固定特征和偏移特征；如图2所示为跨模态表示学习模块示意图；

将固定特征和偏移特征输入到跨模态表示学习模块中后，利用模态可学习字典对不同模态的特征进行一致性表示，以此削弱特征之间的模态差异。具体操作如下：

为了实现不同模态特征的一致性表示，将固定的i模态的图像得到的用于一致性表示的特征同另一个模态的可学习字典进行注意力计算并得到固定的单一模态特征，即统一表示的固定特征，表示为：

；

步骤4：将统一表示的固定特征和偏移特征输入特征匹配模块中，输出匹配矩阵。具体过程如下：

首先，将统一表示的固定特征和偏移特征输入特征匹配模块中的双重特征增强块中，得到增强之后的固定特征和偏移特征；之后，对增强之后的特征计算相似度，并输出匹配矩阵；其中，对增强之后的特征计算相似度即将增强之后的特征通过逐元素内积计算得到两个特征之间的点到点对应关系；如图3为本发明的双重特征增强块示意图；

进一步地，如图4为本发明的特征匹配模块示意图，首先，对人工划分的特定窗口之间进行特征匹配更为合理且能够大大降低模型的时间复杂度和空间复杂度。若针对固定特征和偏移特征采用相同大小的窗口进行划分，这会影响到模型的优化和匹配效果。具体地，在特征匹配前先针对统一表示的固定特征和偏移特征采用精心设计的窗口划分方式进行划分；具体地，采用大小的窗口对统一表示的固定特征进行无重叠地划分，得到，其中表示窗口个数；之后，针对偏移特征的窗口划分是采用大小的窗口对统一表示的偏移特征进行划分，得到，其中。

为了通过聚合多尺度信息的方式来提高后续特征匹配的准确度，设计了双重特征增强块对特征进行增强。具体地，将分别输入模态规范化块得到两个不同的特征；模态规范化块由卷积核大小为3×3，步长为1 的卷积层、ReLU激活层和实例规范化层组成；两个特征分别输入参数不共享的U-net网络中进行特征增强；然后，将两个初步增强之后的特征进行通道维度上的拼接操作，再分别输入到参数不共享的U-net网络中再次进行特征增强；最后，将两个经过双重增强的特征在通道维度上进行拼接并使用信息聚合块进行信息整合：

；

之后，对和的逐像素进行内积计算，以获得它们之间的对应关系：

；

步骤5：如图5为本发明的特征重组示意图，将匹配矩阵和偏移特征输入特征重组块中，利用匹配矩阵的性质对偏移特征进行重组，以实现重组特征与固定特征在空间上对齐。具体地，将匹配矩阵中的第行的数值与展平的偏移特征进行相乘。将与展平的偏移特征进行矩阵乘法，以实现特征重组：

步骤6：将重组特征和固定特征输入融合模块中，实现模态共有特征和模态特有特征的融合，并重构出红外可见光融合图像。具体地，将个按照逆划分规则重构出重组特征，并与固定特征在通道维度上进行拼接后输入融合模块。该特征融合模块主要由卷积核大小为3×3，步长为1的卷积层、ReLU激活层、批规范化层构成。该模块将两个模态的共享信息和特有信息聚合到融合特征中并将其输入解码器中重建出融合图像:

；

其中，表示用于平衡子损失项的权重。最后，该模型完整的损失函数是所有模块的子损失项的加权和：

其中，是用于调节每一项子损失项平衡的超参数。

为验证本发明方法的有效性，本发明在RoadScene公开的数据集上评估了提出方法的性能。在此过程中，本发明方法对应模型在RoadScene数据集的训练集上进行训练，在验证集上进行结果测试。RoadScene数据集的图像对都是由于红外图像和可见光图像组成。RoadScene中的训练集由200个红外可见光图像对构成；测试集由21个红外可见光图像对构成。本发明算法是在Pytorch1.12.1框架下开发的，并在单张NVIDIA GTX3090显卡(显存24G)上进行训练。在训练中，我们使用Adam优化器来对模型进行参数优化。在此过程中，Batch size设置为4。并利用“warm up”学习策略实现学习率的动态调整，采用“cosinedecay”的学习率衰减策略，初始学习率为0.0002，总共训练了500轮。

进一步地，本发明同MURF、ReCoNet、SemLA、SuperFusion和UMF-CMGR在视觉效果上进行了对比。本发明方法和MURF、ReCoNet、SemLA、SuperFusion和UMF-CMGR方法在针对未对齐红外可见光图像对融合结果如图6所示。由此可以看出，提出的方法可以更好地针对空间上的未对齐进行矫正，并得到不存在伪影和偏移的高保真融合图像。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于模态字典和特征匹配的未配准红外可见图像融合方法，其特征在于：所述方法的具体步骤如下：

步骤1：获取用于未对齐红外可见光图像融合的训练数据集；

步骤2：将固定图像和偏移图像输入到特征提取模块中，获得固定特征和偏移特征；

首先，将统一表示的固定特征和偏移特征输入特征匹配模块中的双重特征增强块中，得到增强之后的固定特征和偏移特征；之后，对增强之后的特征计算相似度，并输出匹配矩阵；

步骤5：将匹配矩阵和偏移特征输入特征重组块中，利用匹配矩阵对偏移特征进行重组；

2.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法，其特征在于，所述步骤1中未对齐红外可见光图像融合的训练数据集包含数对未对齐红外可见光图像对，其中每个红外可见光图像对，都由一张红外图像和一张可见光图像组成；每张红外图像和可见光图像的大小均为256×256；首先对用于未对齐红外可见光图像融合的训练数据集进行预处理，预处理的方法具体为，对数据进行随机反转、随机旋转和偏移，对处理之后的图像进行归一化。

3.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法，其特征在于，所述步骤2中，具体操作如下：

将固定图像和偏移图像/>输入特征提取模块/>中，并获得特征{/>,/>,/>,/>}/>；其中，/>表示固定的i模态的图像得到的用于融合的特征，/>表示偏移的j模态的图像得到的用于融合的特征，/>表示固定的i模态的图像得到的用于一致性表示的特征，/>表示偏移的j模态的图像得到的用于一致性表示的特征，上述过程表示为：

；

4.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法，其特征在于，所述步骤3中，跨模态表示学习模块的具体操作如下:

将固定的i模态的图像得到的用于一致性表示的特征同另一个模态的可学习字典/>进行注意力计算并得到固定的单一模态特征/>，即统一表示的固定特征，表示为：

；

其中，表示由/>经过线性映射之后得到的结果，作为注意力计算中的查询；/>表示由/>经过线性映射之后得到的结果，作为注意力计算/>中的键；/>表示由/>经过线性映射之后得到的结果，作为注意力计算/>中的值;

与上述过程类似，将偏移的不同模态特征同另一个模态的可学习字典进行注意力计算并得到偏移的单一模态特征/>，即统一表示的偏移特征；其中，i表示固定图像所属模态，j表示偏移图像所属模态；vis表示该图像属于可见光模态，即可见光图像；ir表示该图像属于红外模态，即红外图像。

5.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法，其特征在于，所述步骤4中，在特征匹配前先针对统一表示的固定特征和偏移特征采用精心设计的窗口划分方式进行划分；具体地，采用大小的窗口对统一表示的固定特征进行无重叠地划分，得到/>，其中/>表示窗口个数；之后，采用/>大小的窗口对统一表示的偏移特征/>进行划分，得到，其中/>，i表示固定图像所属模态，j表示偏移图像所属模态；vis表示该图像属于可见光模态，即可见光图像；ir表示该图像属于红外模态，即红外图像。

6.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法，其特征在于，所述步骤4中，设计了双重特征增强块对特征进行增强，具体操作如下：

将分别输入模态规范化块/>得到两个不同的特征；模态规范化块/>由卷积核大小为3×3，步长为1的卷积层、ReLU激活层和实例规范化层组成；两个特征分别输入参数不共享的U-net网络中进行特征增强；然后，将两个初步增强之后的特征进行通道维度上的拼接操作，再分别输入到参数不共享的U-net网络中再次进行特征增强；最后，将两个经过双重增强的特征在通道维度上进行拼接并使用信息聚合块/>进行信息整合：

；

其中，表示固定特征中第/>个窗口经过增强之后的结果；信息聚合块/>由卷积核大小为3×3，步长为1的卷积层、ReLU激活层和实例规范化层组成；同样，根据上述过程，得到经过增强之后的偏移特征/>，i表示固定图像所属模态，j表示偏移图像所属模态；vis表示该图像属于可见光模态，即可见光图像；ir表示该图像属于红外模态，即红外图像，/>表示通道维度上的拼接操作；/>表示经过两次特征增强之后的第一支路的特征；/>表示经过两次特征增强之后的第二支路的特征。

7.根据权利要求6所述的基于模态字典和特征匹配的未配准红外可见图像融合方法，其特征在于，所述步骤4中，对增强之后的特征进行特征匹配，具体操作如下：

对和/>的逐像素进行内积计算，以获得它们之间的对应关系：

；

其中，表示增强之后的偏移特征和固定特征第/>个窗口之间的匹配矩阵；表示对该矩阵的第0维度进行softmax计算。

8.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法，其特征在于，所述步骤5中特征重组块的具体操作如下所示：

将匹配矩阵中的第/>行与展平的偏移特征进行相乘：

；

其中，表示偏移特征中第/>个窗口经过重组的结果，/>表示j模态的偏移特征中的第/>个窗口的特征，i表示固定图像所属模态，j表示偏移图像所属模态；vis表示该图像属于可见光模态，即可见光图像；ir表示该图像属于红外模态，即红外图像。

9.根据权利要求1所述的基于模态字典和特征匹配的未配准红外可见图像融合方法，其特征在于，所述步骤6中，将重组特征和固定特征输入融合模块进行特征融合的具体操作如下所示：

将个/>按照逆划分规则重构出重组特征/>，并与固定特征一同输入融合模块/>，并重建出融合图像/>:

；

其中，融合模块由数个卷积核大小为3×3，步长为1的卷积层、ReLU激活层和批规范化层组成的重建块构成，表示偏移特征中第/>个窗口经过重组的结果，i表示固定图像所属模态，j表示偏移图像所属模态；vis表示该图像属于可见光模态，即可见光图像；ir表示该图像属于红外模态，即红外图像。