CN117853856A

CN117853856A - 一种基于多模态图像融合的微光夜视场景理解方法

Info

Publication number: CN117853856A
Application number: CN202410031296.7A
Authority: CN
Inventors: 申政文; 秦新芳; 冉伊阳; 李玉莲; 王军
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-04-09

Abstract

本发明公开了一种基于多模态图像融合的微光夜视场景理解方法，属于人工智能技术，根据层级多模态特征信息的特点，构建不同特征校准和特征聚合模块以增强多模态特征信息的联合表示学习；构建跨模态全局特征描述模块以减少模态间的信息差异，实现多模态特征信息的校准；构建多模态交错稀疏自注意力模块来保证浅层网络层中多模态空间特征信息的聚合；构建对称金字塔池化交叉注意力模块与多模态跨通道通信模块用于聚合深层特征的空间层信息和通道层信息。本发明能够充分利用多模态特征信息互补优势，避免单一模态信息导致微光夜视场景理解能力不足，能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。

Description

一种基于多模态图像融合的微光夜视场景理解方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于多模态图像融合的微光夜视场景理解方法。

背景技术

随着人工智能技术的快速发展，无人系统对于复杂场景感知和理解方面的要求也越来越高，尤其是自动驾驶汽车、智能机器人、无人机等无人系统在微光夜视环境的实际应用中，如夜间城市道路场景或无人地下空间等，需要提供可靠的环境感知能力。而单一可见光图像视觉传感器容易受到微光夜视环境中缺乏照明的限制，因此结合热图像传感器以弥补可见光图像传感器在的不足，确保无人系统在白天和夜间以及恶劣天气条件下具备相同的感知能力。可见光图像可以提供丰富的语义信息，热图像则可以提供稳定的场景图像，研究可见光图像与热图像的高效融合方法，可以有效地提高无人系统在微光夜视条件下进行场景理解的稳定性。

Zhao等人在《Mitigating Modality Discrepancies for RGB-T SemanticSegmentation》一文中提出一种桥接后进行融合的策略，可缓解跨模态特征融合前模态之间存在的差异。具体来说，作者设计了一个减少模态差异的子网络提取多模态特征并减少模态间的差异，提出了通道加权融合模块自适应地选择和集成可见光图像和热图像语义分割的判别多模态特征。此外，为有效地捕获上下文信息，作者提出了一个多尺度空间上下文模块和一个多尺度通道上下文模块。虽然该方法取得了优异的语义分割性能，但却忽略多模态多级特征信息的特点，所提出的融合方法不能有效利用每个阶段的多模态特征信息，一定程度上限制了多模态语义分割的性能，此外还存在参数冗余与运算量增加的现象，不利于在无人系统设备上进行部署。

发明内容

本发明的目的在于提供一种基于多模态图像融合的微光夜视场景理解方法，高效地利用层级多模态特征信息的特点，采用不同的融合策略构建了高效的多模态联合表示网络，解决了多模态特性信息利用不足、融合效率低下的问题，同时避免了网络模块低效带来的参数量冗余与计算量增加的现象。本发明提供基于多模态图像融合的微光夜视场景理解方法，其能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。

实现本发明目的的技术解决方案为：一种基于多模态图像融合的微光夜视场景理解方法，包括以下步骤：

步骤1、对MFNet数据集1569幅图像进行归一化处理，将像素大小统一为H×W，H表示长度，W表示宽度；将统一尺寸后的图像按照784/393的比例划分为训练数据集和测试数据集，对训练数据集进行数据增强构成网络训练数据集；转入步骤2。

步骤2、构建一种基于多模态图像融合的微光夜视场景理解方法，该网络主要包含：可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络；其中：可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成，作为提取特征的编码网络；跨模态全局特征描述模块用于校准多模态特征信息；浅层多模态特征聚合模块用于聚合浅层多模态特征信息；深层多模态特征聚合模块用于聚合深层多模态特征信息；解码网络由ALL-MLP模块构成，用于接收编码网络特征信息并对不同尺度的特征图进行特征重建，转入步骤3。

步骤3、利用网络训练数据集对多模态高效融合网络进行训练，得到训练好的多模态高效融合网络模型：

S31、将可见光编码网络特征提取划分为四个阶段，对应每个阶段提取相应的四个不同尺度的可见光特征，分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32)，将其中前三个阶段对应的特征为浅层可见光特征，第四个阶段的特征为深层可见光特征；相应地，将热图像编码网络特征提取划分为四个阶段，对应每个阶段提取相应的四个不同尺度的热图像特征，分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32)，将其中前三个阶段对应的特征为浅层热图像特征，第四个阶段的特征为深层热图像特征；转入S32。

S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征，从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征；并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加，并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取；将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征，从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征；转入S33。

S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征，分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征，将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络，并对不同尺度的特征信息进行上采样，得到像素大小为H/4×W/4的浅层解码特征，转入S34。

S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征，并行输入到深层特征聚合模块得到深层聚合特征，将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加，并输入到解码网络进行上采样得到像素尺度大小为(H/4)×(W/4)的深层解码特征，转入S35。

S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作，计算得到的输出特征与标签间的交叉熵损失，并以此对此网络的网络参数进行更新，最终获得训练好的网络模型，转入步骤4。

步骤4、将测试数据集输入到训练好的多模态高效融合网络模型，输出测试集中每个样本对应的预测结果，测试训练好的多模态高效融合网络模型的准确率。

所述的基于多模态图像融合的微光夜视场景理解方法能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。

与现有技术相比，本发明优点在于：

(1)与现有的多模态分割网络相比，本发明所述的一种基于多模态图像融合的微光夜视场景理解方法，可以高效地利用层级多模态特征信息的特点，并采用不同的融合策略构建了高效的多模态联合表示网络，解决了多模态特性信息利用不足、融合效率低下的问题，同时避免了网络模块低效带来的参数量冗余与计算量增加的现象，具有稳定的分割性能且可以在边缘设备进行部署。

(2)本发明构建了跨模态全局特征描述模块来校准多模态信息，可以实现不同层次的多模态特征信息之间的有效交互与联合表示以减少模态信息之间的差异。

(3)为了有效地聚合多模态特征信息，本发明构建了多模态交错稀疏自注意力模块应用于浅层多模态信息聚合，同时为了有效地利用深层特征丰富的语义信息，构建了对称金字塔池化交叉注意力模块和多模态跨通道通信模块，有效地实现不同层次的多模态特征信息的高效聚合。

附图说明

图1为一种基于多模态图像融合的微光夜视场景理解方法的模型图。

图2为MFNet数据集的城市道路场景实验结果图。

图3为PST900数据集的地下空间场景实验结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述：

结合图1，一种基于多模态图像融合的微光夜视场景理解方法，包括以下步骤：

步骤1、对MFNet数据集1569幅图像(包含傍晚以及夜间城市道路的微光夜视场景图像)进行归一化处理，将像素大小统一为H×W，H表示长度，W表示宽度；将统一尺寸后的图像按照784/393的比例划分为训练数据集和测试数据集，对训练数据集进行数据增强构成网络训练数据集；转入步骤2。

S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征，从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征；并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加，并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取；将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征，从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征；具体如下：

首先，构建一个局部多头关系聚合器Local_MHRA：每个头包含一个乘法器，将每组通道的通过线性变换生成上下文的序列块V_b和序列块亲和力关系进行相乘，再通过Concat操作将每个头的信息进行拼接，公式表示如下：

式中，b为通道组数，X_i为锚序列块，X_j为局部邻域Ω_i的任一序列块，为可学参数矩阵，(i-j)为第i个节点和第j个节点的相对位置。

然后，将可见光编码网络的前三个阶段中第d(d＝{1、2、3})个阶段的浅层可见光特征d_rgb输入到局部多头关系聚合器Local_MHRA中得到可见光局部描述特征MHRA(d_rgb)；将对应的热图像编码网络的前三个阶段中第d个阶段的浅层热图像特征d_thermal输入到局部多头关系聚合器Local_MHRA中得到热图像局部描述特征MHRA(d_thermal)；将浅层可见光局部描述特征MHRA(d_rgb)和浅层热图像局部描述特征MHRA(d_thermal)拼接得到浅层多模态局部描述特征M_s，将M_s压缩得到跨模态通道描述S_r,t：

式中，K表示特征数量，N_p表示第p个特征的空间维度；2c表示通道数量，n_K表示第K个特征。

将跨模态通道描述S_r,t输入到多层感知机得到可见光图像特征的预测z_rgb和热图像特征的预测z_thermal，利用这两种预测对可见光模态的第d个阶段的浅层可见光特征d_rgb和热图像模态的第d个阶段的浅层热图像特征d_thermal重新校准，得到第d个阶段浅层可见光校准特征和浅层热图像校准特征/>公式表示如下：

式中δ(·)表示Sigmod函数，⊙表示逐通道相乘操作。

最后，将前三个阶段中每个阶段得到的校准后的浅层可见光图像特征与未校准的可见光图像特征分别相加，并输入到可见光图像特征提取网络对应的下一个阶段继续进行特征提取，逐阶段进行，直至前三个阶段做完；相应地，将前三个阶段中每个阶段得到的校准后的浅层热图像特征与未校准的热图像特征分别相加，并输入到热图像特征提取网络对应的下一个阶段继续进行特征提取，逐阶段进行，直至前三个阶段做完。

同理，将第四个阶段的深层可见光图像特征和深层热图像特征，输入到局部多头关系聚合器Local_MHRA，分别得到深层可见光局部描述特征MHRA(f_rgb)和深层热图像局部描述特征MHRA(f_thermal)，将其进行拼接得到深层多模态局部描述特征M_f，再通过压缩、重新校准，得到深层校准可见光图像特征和深层校准热图像特征/>

S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征，分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征，将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络，并对不同尺度的特征信息进行上采样，得到像素大小为(H/4)×(W/4)的浅层解码特征，具体如下：

S33-A、利用多模态交错稀疏自注意力模块，提取交错稀疏自注意力特征Z：首先利用步骤3中的浅层多模态局部描述特征M，并使用排列函数Permute对浅层融合特征M进行交错排列，得到交错排列特征M_p＝Permute(M)；然后，将M_p划分为N个分区，且每个分区大小相等，独立地将自注意力应用于每个分区并获得更新的分区特征；最后，合并所有更新后的分区特征，得到交错稀疏自注意力特征Z。

S33-B、将交错稀疏自注意力输出特征Z通过卷积操作和批归一化层获得可见光模态与热图像模态的串联特征M_CBN：

M_CBN＝Conv(BN(Z))

式中Conv表示卷积操作，BN表示正则化操作。

利用Sobel卷积计算可见光模态的第d个阶段的浅层可见光特征d_rgb的可见光梯度幅值R_gra和热图像模态的第d个阶段的浅层热图像特征d_thermal的热图像梯度幅值T_gra，用公式表示如下：

式中代表水平方向上梯度信息，/>表示垂直方向上的梯度信息；

S33-C、利用串联特征M_CBN可见光梯度幅值R_gra以及热图像梯度幅值T_gra得到第d个阶段中使用浅层特征聚合模块的输出特征，即浅层聚合特征Skip_d：

Skip_d＝M_CBN+R_gra+T_gra

S33-D、将浅层聚合特征Skip_d通过跳跃连接的方式传输到解码网络，并对不同尺度的特征信息进行上采样，得到像素大小为(H/4)×(W/4)的浅层解码特征。

S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征，并行输入到深层特征聚合模块得到深层聚合特征，将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加，并输入到解码网络进行上采样得到像素尺度大小为H/4×W/4的深层解码特征，具体如下：

S34-A、利用对称金字塔交错注意力机制提取多模态对称交错注意力融合特征：将深层可见光描述特征MHRA(f_rgb)和深层热图像描述特征MHRA(f_thermal)进行不同尺度的平均池化操作，分别生成a张可见光金字塔特征图和a张热图像金字塔特征图，表达式如下：

式中AvgPoo;表示平均池化层，表示a张不同尺度的可见光金字塔特征图，/>表示a张不同尺度的热图像金字塔特征图；再将不同尺度可见光金字塔特征图的特征向量进行拼接，通过线性变换获得可见光模态的键和值；将不同尺度热图像金字塔特征图的特征向量进行拼接，通过线性变换获得热图像模态的键和值，表达式如下：

式中K_R,V_R表示可见光图像的Key向量和Value向量，K_T,V_T表示热图像的Key向量和Value向量；最后直接从输入的深层可见光图像描述特征MHRA(f_rgb)的特征图得到可见光图像查询Q_R，从深层热图像描述特征MHRA(f_thermal)的特征图中得到热图像查询Q_T，利用K_R、V_R、K_T、V_T、Q_R、Q_T，进行交错注意力计算，构成对称金字塔交错注意力模块，输出可见光对称交错注意力特征O_rgb、热图像对称交错注意力特征O_thermal，公式表达如下：

O_S＝concat(O_rgb,O_thermal)

式中，T表示转置，d_k表示缩放因子，k表示通道维度，Softmax为指数归一化操作，O_S表示可见光图像模态和热图像模态对称交错注意力融合特征。

S34-B、利用多模态跨通道交流机制得到多模态通道交互通信特征：首先将深层可见光描述特征MHRA(f_rgb)和深层热图像描述特征MHRA(f_thermal)分别进行展平操作得到可见光模态的特征向量图节点和热图像模态的特征向量图节点/>

score_(i,j)＝softmax(s_r,t)

式中，i,j表示不同节点，分别表示不同节点特征信息的平均输出，是/>和/>每个模态特征映射中展平向量的第ele个元素，h表示第h个像素在高度维度的位置，w表示第w个像素在宽度维度的位置，s_r,t表示负平方距离，以避免每个模态节点与其他节点进行过多的通信，使模态特征信息更加多样化和互补，score_(i,j)表示注意力响应分数，将节点的最终计算输出定义为：

式中，表示消息传递模块的通道输出，n表示节点数量。

将通道输出特征进行全连接操作，将其大小转换为和对称交错注意力融合特征O_S相同的大小，转换后的通道输出特征记为O_fc。

S34-C、将对称金字塔交错注意力模块的输出特征对称交错注意力融合特征O_S和多模态跨通道交流模块的输出特征O_fc的模块进行相加，经过卷积操作和批归一化处理与深层可见光输出特征和深层热图像特征/>进行相加，得到深层聚合模块的深层聚合特征，用公式表示如下：

S34-D、将深层聚合特征Skip₄传输到解码器网络并进行上采样操作，得到像素大小为H/4×W/4的深层解码特征。

S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作，计算得到的输出特征与标签间的交叉熵损失，并以此对此网络的网络参数进行更新，最终获得训练好的网络模型，具体如下：

式中为模型输出的样本预测值，y为标签值，l表示第l个样本，L为样本总数，v为类别，V表示类别总数。

转入步骤4。

实施例1

本发明所述的一种基于多模态图像融合的微光夜视场景理解方法，步骤如下：

步骤1、对MFNet数据集1569幅图像进行归一化处理，将像素大小统一为H×W(设为480×640)，H表示长度，W表示宽度；将统一尺寸后的图像按照784/393的比例划分为训练数据集和测试数据集，对训练数据集进行数据增强构成网络训练数据集；转入步骤2。

步骤2、构建一种基于多模态图像融合的微光夜视场景理解方法，该网络主要包含：可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络；其中：可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成，作为提取特征的编码网络；跨模态全局特征描述模块用于校准多模态特征信息；浅层多模态特征聚合模块用于聚合浅层多模态特征信息；深层多模态特征聚合模块用于聚合深层多模态特征信息；解码网络由ALL-MLP模块构成，用于接收编码网络特征信息并对不同尺度的特征图进行特征重建；转入步骤3。

S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征，分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征，将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络，并对不同尺度的特征信息进行上采样，得到像素大小为(H/4)×(W/4)的浅层解码特征，转入S34。

本发明方法在配置为i7 CPU和NVIDIA V100 GPU计算机上采用Python编程语言和Pytorch深度学习框架搭建的网络进行相关实验。在训练过程中，批量大小设置为8，优化器使用权重衰减为0.01的AdamW优化器，学习率调整方法采用多边形学习速率调整方法，初始学习速率为0.00006。在训练样本集上训练多个批次得到本发明所述的基于多模态图像融合的微光夜视场景理解方法。可视化实验结果如图2和图3所示。

为了展示本发明的优越性能，本发明选取了最近比较先进的多模态语义分割方法作为对比模型，对比实验结果如表1所示，在MFNet数据集上对模型的参数量、计算量和分割准确率进行评估，其输入为可见光图像(480×640×3)和热图像(480×640×3)。

表1在MFNet数据库上的不同方法的对比实验结果

从实验结果可以看出，本发明的方法获得了59.5％的分割准确率，其计算量FLOPs下降到66.2G，参数量Params下降到56.75M，并且所述的基于多模态图像融合的微光夜视场景理解方法能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。

Claims

1.一种基于多模态图像融合的微光夜视场景理解方法，其特征在于，步骤如下：

步骤1、对MFNet数据集中1569幅图像进行归一化处理，将像素大小统一为H×W，H表示长度，W表示宽度；将统一尺寸后的图像按照784/393的比例划分为训练数据集和测试数据集，对训练数据集进行数据增强构成网络训练数据集；转入步骤2；

步骤2、构建多模态高效融合网络：

所述多模态高效融合网络包括：可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络；其中，可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成，作为提取特征的编码网络；跨模态全局特征描述模块用于校准多模态特征信息；浅层多模态特征聚合模块用于聚合浅层多模态特征信息；深层多模态特征聚合模块用于聚合深层多模态特征信息；解码网络由ALL-MLP模块构成，用于接收编码网络特征信息并对不同尺度的特征图进行特征重建；转入步骤3；

S31、将可见光编码网络特征提取划分为四个阶段，对应每个阶段提取相应的四个不同尺度的可见光特征，分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32)，将其中前三个阶段对应的特征为浅层可见光特征，第四个阶段的特征为深层可见光特征；相应地，将热图像编码网络特征提取划分为四个阶段，对应每个阶段提取相应的四个不同尺度的热图像特征，分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32)，将其中前三个阶段对应的特征为浅层热图像特征，第四个阶段的特征为深层热图像特征；转入S32；

S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征，从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征；并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加，并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取；将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征，从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征；转入S33；

S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征，分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征，将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络，并对不同尺度的特征信息进行上采样，得到像素大小为(H/4)×(W/4)的浅层解码特征，转入S34；

S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征，并行输入到深层特征聚合模块得到深层聚合特征，将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加，并输入到解码网络进行上采样得到像素尺度大小为(H/4)×(W/4)的深层解码特征，转入S35；

S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作，计算得到的输出特征与标签间的交叉熵损失，并以此对此网络的网络参数进行更新，最终获得训练好的网络，转入步骤4；

2.根据权利要求1所述的一种基于多模态图像融合的微光夜视场景理解方法，其特征在于，S32中，将S31中前三个阶段不同尺度的可见光特征和热图像特征并行输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征，从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征；并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加，并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取；将S32中第四个阶段得到的深层可见光特征与深层热图像特征并行输入到跨模态全局特征描述模块，从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征，从跨模态全局特征描述模块的输出层得到深层校准可见光图像特征和深层校准热图像特征，具体如下：

式中，b为通道组数，X_i为锚序列块，X_j为局部邻域Ω_i的任一序列块，为可学参数矩阵，(i-j)为第i个节点和第j个节点的相对位置；

然后，将可见光编码网络的前三个阶段中第d个阶段的浅层可见光特征d_rgb输入到局部多头关系聚合器Local_MHRA中得到可见光局部描述特征MHRA(d_rgb)；将对应的热图像编码网络的前三个阶段中第d个阶段的浅层热图像特征d_thermal输入到局部多头关系聚合器Local_MHRA中得到热图像局部描述特征MGRA(d_thermal)；将浅层可见光局部描述特征MHRA(d_rgb)和浅层热图像局部描述特征MHRA(d_thermal)拼接得到浅层多模态局部描述特征M_s，将M_s压缩得到跨模态通道描述S_r,t：

式中，K表示特征数量，N_p表示第p个特征的空间维度；2c表示通道数量，n_K表示第K个特征；

将跨模态通道描述S_r,t输入到多层感知机，得到可见光图像特征的预测z_rgb和热图像特征的预测z_thermal，利用这两种预测对可见光模态的第d个阶段的浅层可见光特征d_rgb和热图像模态的第d个阶段的浅层热图像特征d_thermal重新校准，得到第d个阶段浅层可见光校准特征和浅层热图像校准特征/>公式表示如下：

式中δ(·)表示Sigmod函数，⊙表示逐通道相乘操作；

最后，将前三个阶段中每个阶段得到的校准后的浅层可见光图像特征与未校准的可见光图像特征分别相加，并输入到可见光图像特征提取网络对应的下一个阶段继续进行特征提取，逐阶段进行，直至前三个阶段做完；相应地，将前三个阶段中每个阶段得到的校准后的浅层热图像特征与未校准的热图像特征分别相加，并输入到热图像特征提取网络对应的下一个阶段继续进行特征提取，逐阶段进行，直至前三个阶段做完；

3.根据权利要求2所述的一种基于多模态图像融合的微光夜视场景理解方法，其特征在于，S33中，将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征，分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征，将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络，并对不同尺度的特征信息进行上采样，得到像素大小为(H/4)×(W/4)的浅层解码特征，具体如下：

S33-A、利用多模态交错稀疏自注意力模块，提取交错稀疏自注意力特征Z：首先利用步骤3中的浅层多模态局部描述特征M，并使用排列函数Permute对浅层融合特征M进行交错排列，得到交错排列特征M_p＝Permute(M)；然后，将M_p划分为N个分区，且每个分区大小相等，独立地将自注意力应用于每个分区并获得更新的分区特征；最后，合并所有更新后的分区特征，得到交错稀疏自注意力特征Z；

M_CBN＝Conv(BN(Z))

式中Conv表示卷积操作，BN表示正则化操作；

Skip_d＝M_CBN+R_gra+T_gra

4.根据权利要求3所述的一种基于多模态图像融合的微光夜视场景理解方法，其特征在于，S34中，将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征，并行输入到深层特征聚合模块得到深层聚合特征，将深层聚合特征和步骤4中的深层校准可见光图像特征和深层校准热图像特征进行相加，并输入到解码网络进行上采样得到像素尺度大小为(H/4)×(W/4)的深层解码特征，具体如下：

式中AvgPool表示平均池化层，表示a张不同尺度的可见光金字塔特征图，表示a张不同尺度的热图像金字塔特征图；再将不同尺度可见光金字塔特征图的特征向量进行拼接，通过线性变换获得可见光模态的键和值；将不同尺度热图像金字塔特征图的特征向量进行拼接，通过线性变换获得热图像模态的键和值，表达式如下：

O_S＝concat(O_rgb,O_thermal)

式中，T表示转置，d_k表示缩放因子，k表示通道维度，Softmax为指数归一化操作，O_S表示可见光图像模态和热图像模态对称交错注意力融合特征；

score_(i,j)＝softmax(s_r,t)

式中，i,j表示不同节点，分别表示不同节点特征信息的平均输出，/>是/>和/>每个模态特征映射中展平向量的第ele个元素，n表示节点数，h表示第h个像素在高度维度的位置，w表示第w个像素在宽度维度的位置，s_r,t表示负平方距离，以避免每个模态节点与其他节点进行过多的通信，使模态特征信息更加多样化和互补，score_(i,j)表示注意力响应分数，将节点的最终计算输出定义为：

式中，表示消息传递模块的通道输出；

将通道输出特征进行全连接操作，将其大小转换为和对称交错注意力融合特征O_S相同的大小，转换后的通道输出特征记为O_fc；

S34-D、将深层聚合特征Skip₄传输到解码器网络并进行上采样操作，得到像素大小为(H/4)×(W/4)的深层解码特征。

5.根据权利要求4所述的一种基于多模态图像融合的微光夜视场景理解方法，其特征在于：a＝4。

6.根据权利要求4所述的一种基于多模态图像融合的微光夜视场景理解方法，其特征在于，S35中，将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作，计算得到的输出特征与标签间的交叉熵损失，并以此对此网络的网络参数进行更新，最终获得训练好的网络，具体如下：

7.根据权利要求1所述的一种基于多模态图像融合的微光夜视场景理解方法，其特征在于：d＝{1、2、3}。