CN117496319A

CN117496319A - 基于未配准双模态图像融合的全天候目标检测系统及方法

Info

Publication number: CN117496319A
Application number: CN202311453665.3A
Authority: CN
Inventors: 宋克臣; 薛晓通; 尹卓文; 颜云辉; 李骏
Original assignee: 东北大学
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-02-02

Abstract

本发明提供一种基于未配准双模态图像融合的全天候目标检测系统及方法，涉及多模态图像目标检测技术领域。该系统包括：图像采集与注释模块、特征提取模块、配准模块、目标优化模块、解码模块。该方法包括：采集RGBT图像对并注释目标对象；利用特征提取网络对RGBT图像对进行特征提取；利用空间交叉注意力机制和利用通道交叉注意力机制处理提取到的特征，得到调整后的双模态特征；利用调整后的热红外图像特征对调整后的RGB图像特征进行重采样完成模态配准；并对模态配准后的RGB图像特征进行目标优化，得到融合增强特征；对融合增强特征进行卷积处理，并预测RGBT图像对中所有目标的所在位置和所属类别，提高了RGBT图像对的配准度，解决了复杂干扰背景的问题。

Description

基于未配准双模态图像融合的全天候目标检测系统及方法

技术领域

本发明涉及多模态图像目标检测技术领域，尤其涉及一种基于未配准双模态图像融合的全天候目标检测系统及方法。

背景技术

近十年来，大多数与图像目标检测相关的研究主要集中在可见光图像的目标检测上，即RGB图像的目标检测，RGB代表红、绿、蓝三个通道的颜色。利用可见光图像中丰富的颜色和纹理信息对RGB图像进行目标检测，取得了良好的检测效果。然而，在一些弱光照、背景杂乱等复杂的场景中，该目标检测的性能并不令人满意。随着传感器的普及，向RGB图像信息中引入热红外信息作为补充的目标检测方法，即RGBT目标检测，用于检测图像中的目标或感兴趣区域。RGBT目标检测通过利用可见光图像中包含的颜色、形状等细节信息和热红外图像中包含的目标的热信息能够更准确地检测和定位目标。因此，RGBT目标检测被广泛应用于无人机、自动驾驶、机器人等领域。

但由于可见光和热红外传感器的视场不同，导致在RGBT目标检测中采集到的原始数据往往是未配准的。在实际应用中一般采用硬件约束或配准算法来对采集到的原始数据，即双模态图像对进行配准，但存在一定的局限性。对于硬件约束来说，机械震动、温度变化和硬件寿命等因素会导致硬件约束配准性能不稳定；而对于配准算法来说，现有的基于区域和基于特征的配准方法可以用来配准图像对，但这些方法的配准精度有限，同时会导致检测模型变大并增加额外的时间消耗。因此，双模态图像对通常配准程度较差，RGBT目标检测仍需进一步研究和改进。

文献号为CN116205843A的中国专利申请《一种基于YOLOv5的多模态小目标检测方法》公开了一种目标检测方法为：使用光照感知网络评估可见光模态图像下光照感知系数，对训练好的双模态目标检测网络在NMS算法中进行感知加权融合。文献号为CN116342953A的中国专利申请《一种基于残差收缩注意力网络的双模态目标检测模型及方法》公开了一种目标检测方法为：基于残差收缩注意力网络，对双模态特征自适应软阈值化去噪并融合，得到目标特征更显著的融合特征来提高目标检测效果。

上述两种目标检测方法都是在基于双模态图像对是完全对齐的假设下融合双模态信息，但是并没有考虑双模态传感器在实际应用中配准程度差的问题。由于双模态图像对配准程度差意味着可见光图像和热红外图像的像素不一一对应，这会导致目标在两个模态图像中的位置、尺度不一致，特征融合可能会受到噪声和不一致性的干扰，从而降低目标检测的性能。因此，上述方法不能很好地处理未配准的双模态目标检测问题。

发明内容

针对上述现有技术的不足，本发明提出了一种基于未配准双模态图像融合的全天候目标检测系统及方法，可提高双模态图像对的配准程度以及提升目标检测的性能。

本发明第一方面提出了一种基于未配准双模态图像融合的全天候目标检测系统，该系统包括：图像采集与注释模块、特征提取模块、配准模块、目标优化模块、解码模块；

所述图像采集与注释模块，用于采集若干个RGBT图像对并注释目标对象，将注释后的RGBT图像对发送到特征提取模块；所述RGBT图像对由一幅RGB图像和一幅热红外图像构成；

所述特征提取模块，用于对接收的RGBT图像对中的RGB图像和热红外图像分别进行特征提取，提取出RGB图像的5级特征记为R0～R4、热红外图像的5级特征记为T0～T4，并将提取到的所有特征信息发送给配准模块；

所述配准模块，用于从接收到的特征信息中获取第3级RGB图像特征R2和第3级热红外图像特征T2、第4级RGB图像特征R3和第4级热红外图像特征T3、第5级RGB图像特征R4和第5级热红外图像特征T4，并分别对获取的每一级双模态特征进行模态配准，包括：分别利用空间交叉注意力机制和通道交叉注意力机制处理双模态特征，得到调整后的RGB图像特征和调整后的热红外图像特征，进而预测出目标的位置偏移、尺度缩放，以调整后的热红外图像特征为参考特征，对RGB图像的对应级特征进行重采样，实现对双模态特征的模态配准，并将模态配准后的图像特征发送到目标优化模块；

所述目标优化模块，用于对模态配准后的图像特征进行目标优化，去除与目标无关的干扰特征，并对模态配准后的RGB图像特征和调整后的热红外图像特征进行逐元素融合，得到融合增强特征，并将融合增强特征发送到解码模块；

所述解码模块，用于对目标优化模块输出的融合增强特征进行卷积处理，并预测图像中所有目标的所在位置和所属类别；

进一步的，所述图像配准模块包括：

三级目标搜索纠正模块，将所述目标搜索纠正模块简称为OSRM模块，则所述三级目标搜索纠正模块分别为第一级OSRM模块、第二级OSRM模块、第三级OSRM模块；

三级特征动态采样模块，将所述特征动态采样模块简称为FDSM模块，则所述三级目标搜索纠正模块分别为FDSM模块I、FDSM模块II、FDSM模块III；

所述OSRM模块，用于1)从接收到的特征信息中获取RGBT图像对的第3级特征R2和T2、第4级特征R3和T3、第5级特征R4和T4；2)在空间维度对RGB图像和热红外图像的对应级特征依次进行自适应平均池化和位置编码，再利用空间交叉注意力机制对位置编码后得到的向量进行特征纠正，得到空间纠正后的特征；3)在通道维度对RGB图像和热红外图像的对应级特征依次进行拼接、平均池化和位置编码，再利用通道交叉注意力机制对位置编码后得到的向量进行特征增强，得到通道信息增强后的特征；4)将通道信息增强后的特征与空间纠正后的特征逐元素融合，得到调整后的RGB图像特征和调整后的热红外图像特征并发送给FDSM模块；5)将调整后的热红外图像特征发送给目标优化模块；

所述FDSM模块，用于1)将所述OSRM模块输出的调整后的RGB图像特征和调整后的热红外图像特征相减并进行下采样，再对得到的特征映射进行复制和平均池化，通过卷积操作利用平均池化后的特征得到位移偏置因子和尺度缩放因子来预测目标的位置偏移和尺度缩放；2)生成采样网格，并利用采样网格对RGB图像中间级特征R2、R3、R4进行重采样，得到重采样后的图像特征，进而完成模态配准；3)将模态配准后的图像特征发送到目标优化模块；

进一步的，所述目标优化模块包括：三级双向特征纠正融合模块，将所述双向特征纠正融合简称为BFCFM模块，则所述三级双向特征纠正融合分别为：第1级BFCFM模块、第2级BFCFM模块、第3级BFCFM模块；

所述BFCFM模块，用于1)接收FDSM模块发送的模态配准后的图像特征以及OSRM模块发送的调整后的热红外图像特征；2)对从FDSM模块接收的模态配准后的图像特征进行平均池化和最大池化，得到RGB图像的平均特征和RGB图像的最大特征；3)对从OSRM模块接收的调整后的热红外图像特征进行平均池化和最大池化，得到热红外图像的平均特征和热红外图像的最大特征；4)分别将RGB图像的平均特征和热红外图像的平均特征、RGB图像的最大特征和热红外图像的最大特征进行逐元素相加并将得到的平均融合特征和最大融合特征在通道维度进行拼接，利用多层感知机确定双模态特征的通道加权向量，再将双模态特征的通道加权向量分别与模态配准后的图像特征和调整后的热红外图像特征相乘得到双模态的通道注意特征，再将得到的双模态的通道注意特征分别与模态配准后的图像特征和调整后的热红外图像特征进行逐元素相加得到双模态的通道级增强特征并进行拼接，利用多层感知机得到双模态的空间加权向量；将对应模态的空间加权向量与通道级增强特征相乘得到双模态的空间注意增强特征，进而相加得到融合增强特征，并将得到的融合增强特征发送到解码模块；

本发明第二方面提出了一种基于未配准双模态图像融合的全天候目标检测方法，该方法包括如下步骤：

步骤1：同时采集RGB图像和热红外图像构成RGBT图像对，并注释RGBT图像对中的目标对象；

步骤2：利用特征提取网络分别提取RGB图像和热红外图像各自的5级特征，其中将从RGB图像提取的5级特征分别记为R0～R4，将从热红外图像提取的5级特征分别记为T0～T4；

步骤3：分别对提取到的第3、4、5级RGB图像特征和热红外图像特征利用空间交叉注意力机制进行空间纠正和利用通道交叉注意力机制进行通道信息增强，分别将对应级的空间纠正后的双模态特征和通道信息增强后的双模态特征逐元素融合，得到调整后的RGB图像特征V2、V3、V4，调整后的热红外图像特征I2、I3、I4；

步骤4：利用调整后的热红外图像特征I2、I3、I4对调整后的RGB图像特征V2、V3、V4进行重采样，得到模态配准后的RGB图像特征W2、W3、W4；

步骤5：对模态配准后的RGB图像特征W2、W3、W4进行目标优化，去除与目标无关的干扰特征，并对模态配准后的RGB图像特征和调整后的热红外特征I2、I3、I4进行逐元素融合，得到融合增强特征O2、O3、O4；

步骤6：对融合增强特征O2、O3、O4进行卷积处理，并利用卷积处理后的特征预测RGBT图像对中所有目标的所在位置和所属类别；

进一步的，步骤3中所述空间纠正的过程包括：

步骤A1：分别对RGB图像的中间级特征R2、R3、R4和热红外图像的中级特征T2、T3、T4进行自适应平均池化，得到3级8*8大小的RGB图像特征图和热红外图像特征图；

步骤A2：分别将3级8*8大小的RGB图像特征图和热红外图像特征图进行展平处理，得到3级64维的RGB图像序列向量和热红外图像序列向量，再分别将对应级别的双模态序列向量进行拼接，得到3级128维的序列向量；

步骤A3：分别对3级128维的序列向量在空间维度上进行空间位置编码，并利用空间交叉注意力机制对空间位置编码后得到的3级特征向量进行特征融合；

步骤A4：将融合后的3级特征分别上采样到与对应级的RGB图像特征和热红外图像特征相同大小的分辨率，得到空间纠正后的RGB图像特征RO和空间纠正后的RGB图像特征TO，分别记为特征RO2和TO2、RO3和TO3、RO4和TO4；

进一步的，所述步骤A3包括：

步骤A3.1：创建与3级128维的序列向量相同维度的全为0的可学习张量，并将创建出的张量作为3级空间位置编码；

步骤A3.2：将每一级的空间位置编码与对应级的128维的序列向量相加得到空间位置编码后的向量，并对空间位置编码后的向量进行线性映射得到3级空间级Q、K、V三个矩阵；

步骤A3.3：将得到的3级空间级Q、K、V三个矩阵划分为3级矩阵Qs、Ks、Vs、Qt、Kt、Vt，并将3级Qs和Kt相乘，得到3级空间互关联矩阵As；

步骤A3.4：将3级矩阵Qt、Kt相乘，得到3级空间自关联矩阵At，并分别将3级空间互关联矩阵As和3级空间自关联矩阵At进行归一化处理；

步骤A3.5：将归一化后的空间互关联矩阵As分别与对应级的矩阵Vt相乘，将归一化后的空间自关联矩阵At分别与对应级的矩阵Vs相乘，得到3级特征向量VR、VT，分别记为特征向量VR2、VR3、VR4、VT2、VT3、VT4；

步骤A3.6：将对应级别的特征向量VR和VT进行拼接，并通过一个全连接层进行特征融合；

进一步的，步骤3中所述通道信息增强的过程包括：

步骤B1：将RGB图像特征R2和热红外图像特征T2进行拼接，将RGB图像特征R3和热红外图像特征T3进行拼接，将RGB图像特征R4和热红外图像特征T4进行拼接，并分别将拼接后的特征平均池化为1*1大小的特征，得到特征RTC2、RTC3、RTC4；

步骤B2：分别对特征RTC2、RTC3、RT4在通道维度上进行通道位置编码，并利用通道交叉注意力机制计算通道位置编码后得到的3级特征中的每个特征通道的权重值，进而得到通道信息增强后的双模态特征；

进一步的，所述步骤B2包括：

步骤B2.1：分别创建与特征RTC2、RTC3、RTC4相同维度的全为0的可学习张量，并将创建出的张量作为通道位置编码，将每一个通道位置编码分别与对应的特征RTC2、RTC3、RTC4相加，得到通道位置编码后的特征RTP2、RTP3、RTP4；

步骤B2.2：分别对特征RTP2、RTP3、RTP4进行线性映射得到3级通道级矩阵QC、KC、VC；

步骤B2.3：将3级通道级矩阵QC、KC、VC划分为3级矩阵QCs、KCs、VCs、QCt、KCt、VCt，并将每一级的矩阵QCs和KCt相乘，得到3级通道互关联矩阵ACs；

步骤B2.4：将每一级的矩阵QCt、KCt相乘，得到3级通道自关联矩阵ACt，并将3级通道互关联矩阵ACs和3级通道自关联矩阵ACt进行归一化处理；

步骤B2.5：将归一化后的3级通道互关联矩阵ACs分别与对应级的矩阵VCt相乘，将归一化后的3级通道自关联矩阵ACt分别与对应级的矩阵VCs相乘，得到双模态特征在每个通道的3级权重向量；

步骤B2.6：将3级权重向量分别与对应的特征RTC2、RTC3、RTC4相乘，得到3级通道信息增强后的RGB图像特征RC和通道信息增强后的热红外图像特征TC，分别记为RC2和TC2、RC3和TC3、RC4和TC4；

进一步的，所述步骤4包括：

步骤4.1：将调整后的RGB图像特征V2、V3、V4分别减去调整后的热红外图像特征I2、I3、I4，得到新的特征映射F2、F3、F4；

步骤4.2：分别对特征映射F2、F3、F4进行4倍下采样，得到图像大小缩小4倍的特征映射P2、P3、P4；

步骤4.3：将特征映射P2、P3、P4分别复制三份并进行平均池化，对于每一级的特征映射PX均得到三个完全相同的特征PX1、PX2和PX3，其中X表示第X级特征的特征映射，且X∈{2、3、4}；

步骤4.4：利用卷积操作使特征PX1的通道数从16变为2，并得到预测位置的位移偏置因子DX和DY；利用卷积操作分别使特征PX2和PX3的通道数均从16变为1，并得到尺度缩放因子W和H；

步骤4.6：利用位移偏置因子DX和DY与尺度缩放因子W和H组成转换矩阵M；

步骤4.7：利用采样网格生成器生成规则网格；

步骤4.8：将转换矩阵M与规则网格进行叠加，得到采样网格；

步骤4.9：利用采样网格分别对RGB图像的中间级特征R2、R3、R4进行重采样，得到模态配准后的图像特征W2、W3、W4；

进一步的，所述步骤5包括：

步骤5.1：对模态配准后的RGB图像特征W2、W3、W4分别平均池化和最大池化，得到RGB图像的平均特征RAX和RGB图像的最大特征RMX；对调整后的热红外特征I2、I3、I4分别进行平均池化和最大池化，得到热红外图像的平均特征TAX和热红外图像的最大特征TMX；

步骤5.2：将RGB图像的平均特征RAX和热红外图像的平均特征TAX逐元素相加，得到平均融合特征FAX；将RGB图像的最大特征RMX和热红外图像的最大特征TMX逐元素相加，得到最大融合特征FMX；

步骤5.3：将平均融合特征FAX和最大融合特征FMX进行拼接，得到双模态通道级融合特征FCX；

步骤5.4：根据通道级融合特征FCX，利用多层感知机得到RGB图像的通道加权向量CRX和热红外图像的通道加权向量CTX；

步骤5.5：将RGB图像的通道加权向量CRX与模态配准后的RGB图像特征WX相乘，将热红外图像的通道加权向量CTX与调整后的热红外图像特征IX相乘，得到RGB图像的通道注意特征RCX和热红外图像的通道注意特征TCX；

步骤5.6：将RGB图像的通道注意特征RCX与模态配准后的RGB图像特征WX进行逐元素相加，将热红外图像的通道注意特征TCX与调整后的热红外图像特征IX进行逐元素相加，得到RGB图像的通道级增强特征FRX和热红外图像的通道级增强特征FTX；

步骤5.7：将RGB图像的通道信息增强特征FRX和热红外图像的通道信息增强特征FTX进行拼接，得到双模态通道级增强特征FCX；

步骤5.8：根据双模态通道级增强特征FCX，利用多层感知机得到RGB图像的空间加权向量SRX和热红外图像的空间加权向量STX；

步骤5.9：将RGB图像的空间加权向量SRX与RGB图像的通道信息增强特征FRX相乘，将热红外图像的通道加权向量STX与热红外图像的通道信息增强特征FTX相乘，得到RGB图像的空间注意增强特征RSX和热红外图像的空间注意增强特征TSX；

步骤5.10：将RGB图像的空间注意增强特征RSX和热红外图像的空间注意增强特征TSX相加，得到融合增强特征OX。

采用上述技术方案所产生的有益效果在于：

(1)本发明系统及方法采用了双模态图像即RGB图像和热红外图像进行目标检测，充分利用两种模态的优势，进而实现在恶劣天气、目标遮挡、背景干扰等不利条件下全天时全天候的目标检测的目的；

(2)本发明系统通过目标搜索纠正(Object Search Rectification Module，OSRM)模块实现了双模态图像的特征之间的交互，通过跨模态通道搜索和空间搜索建立了两个模态的关联性，同时放大了双模态特征的感受野来提高配准的鲁棒性，为特征动态采样模块提供了支撑；

(3)本发明系统通过特征动态采样(Feature Dynamic Sampling Module，FDSM)模块实现了双模态特征对齐，并通过预测目标的位移偏置和尺度缩放因子来计算转换矩阵，根据转换矩阵对RGB特征进行动态采样，解决了RGBT图像的未配准问题；

(4)本发明系统通过双向特征纠正融合(Bidirectional Feature CorrectionFusion Module，BFCFM)模块实现了跨模态目标信息的增强和冗余信息的去除，利用跨模态信息的交互来增强目标关联性较强的特征，并自适应地来纠正融合特征的表征能力，解决了复杂干扰背景的问题；

(5)本发明系统及方法在应对未配准、遮挡、复杂背景干扰等具有挑战性的场景时，可以过滤掉非目标物的干扰，表现出稳定的目标检测结果。

附图说明

图1为本实施方式中一种基于未配准双模态图像融合的全天候目标检测系统的原理图；

图2为本实施方式中一种基于未配准双模态图像融合的全天候目标检测系统的结构图；

图3为本实施方式中一种基于未配准双模态图像融合的全天候目标检测系统中各模块的原理图；其中图(a)为OSRM模块的原理图；图(b)为FDSM模块的原理图；图(c)为BFCFM模块的原理图；

图4为本实施方式中基于未配准双模态图像融合的全天候目标检测方法的流程图；

图5为本实施方式中图像采集的示意图；

图6为本实施方式中基于未配准双模态图像融合的全天候目标检测方法与其他现有的RGBT目标检测方法的检测结果对比图。

具体实施方式

为了便于理解本申请，下面结合附图和实施方式，对本发明的具体实施方式作进一步详细描述。以下实施方式用于说明本发明，但不用来限制本发明的范围。相反地，提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。

本实施方式的一种基于未配准双模态图像融合的全天候目标检测系统，如图1-2所示，该系统包括：图像采集与注释模块、特征提取模块、配准模块、目标优化模块、解码模块。

所述图像采集与注释模块，用于采集若干个RGBT图像对并对每一个RGBT图像对中的目标对象进行注释且将注释后的RGBT图像对发送到特征提取模块；所述RGBT图像对由一幅RGB图像和一幅热红外图像构成。

在本实施方式中，在对目标对象进行注释时默认注释热红外图像中的目标对象，但是由于过曝光会使得热红外图像中的目标信息变得模糊甚至消失，所以在过曝光情况下，注释RGB图像中的目标对象。

所述特征提取模块，用于对接收的RGBT图像对中的RGB图像和热红外图像分别进行特征提取，提取出RGB图像的5级特征记为R0～R4、热红外图像的5级特征记为T0～T4，并将提取到的所有特征信息发送给配准模块。

在本实施方式中，如图2所示，使用两个现有的CSPDarknet网络并行组成的双流CSPDarknet作为网络的骨架，将RGB图像和热红外图像同时输入到双流CSPDarknet中，分别提取RGB图像和热红外图像在CSPDarknet网络中位于不同深度的5级特征作为各自粗糙的单模态特征，分别得到RGB图像和热红外图像由低到高的5级分辨率不同的特征，且将从RGB图像中提取的由低到高的5级特征记为R0～R4，将从热红外图像中提取的由低到高的5级特征记为T0～T4。

需要说明的是，当提取的特征级数太少时，无法从提取到的特征中获得高层的语义信息；而当提取的特征级数太多时，又会导致提取到的特征中图像细节信息丢失严重，计算量较大，所以本实施方式设计提取5级特征，且考虑到第1级RGB图像特征R0、第1级热红外图像特征T0、第2级RGB图像特征R1、第2级热红外图像特征T1均具有较高的分辨率和计算复杂度以及较低的信息贡献，所以在本实施方式中抛弃这四个最低级的特征。

所述配准模块，用于从接收到的特征信息中获取第3级RGB图像特征R2和第3级热红外图像特征T2、第4级RGB图像特征R3和第4级热红外图像特征T3、第5级RGB图像特征R4和第5级热红外图像特征T4，并分别对获取的每一级双模态特征进行模态配准，包括：分别利用空间交叉注意力机制和通道交叉注意力机制处理双模态特征，得到调整后的RGB图像特征和调整后的热红外图像特征，进而预测出目标的位置偏移、尺度缩放，以调整后的热红外图像特征为参考特征，对RGB图像的对应级特征进行重采样，实现对双模态特征的模态配准，并将模态配准后的图像特征发送到目标优化模块。

所述目标优化模块，用于对模态配准后的图像特征进行目标优化，去除与目标无关的干扰特征，并对模态配准后的RGB图像特征和调整后的热红外图像特征进行逐元素融合，得到融合增强特征，并将融合增强特征发送到解码模块。

所述解码模块，用于对目标优化模块输出的融合增强特征进行卷积处理，并预测图像中所有目标的所在位置和所属类别。在本实施方式中所述所属类别，包括：行人、车、自行车。

所述配准模块进一步包括：

三级目标搜索纠正模块(Object Search Rectification Module，OSRM)，分别为第一级OSRM模块、第二级OSRM模块、第三级OSRM模块；

三级特征动态采样模块(Feature Dynamic Sampling Module，FDSM)，分别为FDSM模块I、FDSM模块II、FDSM模块III。

所述OSRM模块，用于1)从接收到的特征信息中获取RGBT图像对的第3级特征R2和T2、第4级特征R3和T3、第5级特征R4和T4；2)在空间维度对RGB图像和热红外图像的对应级特征依次进行自适应平均池化和位置编码，再利用空间交叉注意力机制对位置编码后得到的向量进行特征纠正，得到空间纠正后的特征；3)在通道维度对RGB图像和热红外图像的对应级特征依次进行拼接、平均池化和位置编码，再利用通道交叉注意力机制对位置编码后得到的向量进行特征增强，得到通道信息增强后的特征；4)将通道信息增强后的特征与空间纠正后的特征逐元素融合，得到调整后的RGB图像特征和调整后的热红外图像特征并发送给FDSM模块；5)将调整后的热红外图像特征发送给目标优化模块。

所有OSRM模块的结构和执行过程均相同，通过分别对RGB图像的中间级特征R2、R3、R4和热红外图像的中间级特征T2、T3、T4计算空间互相关矩阵和通道互相关矩阵，同时对热红外图像的中间级特征T2、T3、T4分别计算空间自相关矩阵和通道自相关矩阵，利用互相关矩阵和自相关矩阵对输入特征序列中不同位置的特征进行加权组合，捕捉全局的语义信息，为后续的动态采样奠定基础。

三级OSRM模块的区别仅在于各自的输入和输出不同：第一级OSRM模块，用于从特征提取模块获取RGBT图像对的第3级RGB图像特征R2和第3级热红外图像特征T2后：首先分别将R2和T2在宽、高维度平均池化成8*8大小的特征图，接着对平均池化后特征图进行展平、拼接和空间位置编码，再将经过空间位置编码后的特征向量通过空间交叉注意力机制进行特征纠正，得到空间纠正后的特征；同时在通道维度拼接R2和T2，并将拼接后的特征在宽、高维度进行平均池化，得到大小为1*1的特征，接着对平均池化后的特征进行通道位置编码，再将经过通道位置编码后的特征通过通道交叉注意力机制进行特征增强，得到通道信息增强后的特征；最后将通道信息增强后的特征与空间纠正后的特征逐元素融合后发送给FDSM模块I。

第二级OSRM模块，用于从特征提取模块获取RGBT图像对的第4级RGB图像特征R3和第4级热红外图像特征T3后：首先分别将R3和T3在宽、高维度平均池化成8*8大小的特征图，接着对平均池化后的特征图进行展平、拼接和空间位置编码，再将经过空间位置编码后的特征向量通过空间交叉注意力机制进行特征纠正，得到空间纠正后的特征；同时在通道维度拼接R3和T3，并将拼接后的特征在宽、高维度进行平均池化，得到大小为1*1的特征，接着对平均池化后特征进行通道位置编码，再将经过通道位置编码后的特征向量进行通道交叉注意力机制进行特征增强，得到通道信息增强后的特征；最后将通道信息增强后的特征与空间纠正后的特征逐元素融合后发送给FDSM模块II。

第三级OSRM模块，用于从特征提取模块获取RGBT图像对的第5级RGB图像特征R4和第5级热红外图像特征T4后：首先分别将R4和T4在宽、高维度平均池化成8*8大小的特征图，接着对平均池化后的特征图进行展平、拼接和空间位置编码，再将经过空间位置编码后的特征向量通过空间交叉注意力机制进行特征纠正，得到空间纠正后的特征；同时在通道维度拼接R4和T4，并将拼接后的特征在宽、高维度进行平均池化，得到大小为1*1的特征，接着对平均池化后特征进行通道位置编码，再将经过通道位置编码后的特征向量进行通道交叉注意力机制进行特征增强，得到通道信息增强后的特征；最后将通道信息增强后的特征与空间纠正后的特征逐元素融合后发送给FDSM模块III。

在本实施方式中，三级OSRM模块的结构和运行程序是相同的，区别仅在于各自的输入和输出不同，以第三级OSRM模块为例对OSRM模块内部的运行程序进行说明，如图3(a)所示，输入特征R4和T4分别表示第5级RGB图像特征和第5级热红外图像特征，且R4和T4均为通道数C为1024，宽高为20*20的特征，首先对于输入特征R4和T4分别使用一个平均池化层，输出大小8*8的RGB图像特征图和热红外图像特征图，在宽高维度展平池化后的特征图，并且在展平特征图的宽高维度为展平特征图中的每个像素点进行空间位置编码；同时在通道维度对特征R4和T4进行拼接，并将拼接后的特征平均池化为1*1大小的特征，在宽、高维度展平池化后的特征，并且在通道维度为展平池化后的特征的每个通道添加通道位置编码；接着，把通道位置编码和空间位置编码后的特征的信息送入交叉注意力块，交叉注意力块首先会对输入的空间位置编码后的特征和通道位置编码后的特征分别进行线性映射，对应得到空间级Q、K、V矩阵和通道级Q、K、V矩阵，再分别计算空间互关联矩阵、空间自相关矩阵、通道互关联矩阵、通道自相关矩阵，利用空间互关联矩阵和通道互关联矩阵调整RGB图像的特征，同时为了增强目标特征，利用空间自相关矩阵和通道自相关矩阵调整热红外图像的目标特征，最后逐元素融合空间纠正后的RGB图像特征RO4与空间纠正的热红外图像特征TO4，以及逐元素融合通道信息增强后的RGB图像特征RC4与通道信息增强后的热红外图像特征TC4，得到调整后的RGB图像特征V4和调整后的热红外图像特征I4。

在本实施方式中，三级FDSM模块的结构和运行程序是相同的，区别仅在于各自的输入和输出不同，其中：

FDSM模块I，用于接收第1级OSRM模块输出的调整后的RGB图像特征和调整后的热红外图像特征，并预测出目标的位置偏移、尺度缩放；以调整后的热红外图像特征为参考特征，对RGB图像中间级特征R2进行重采样，实现第3级双模态特征的模态配准。

FDSM模块II，用于接收第2级OSRM模块输出的调整后的RGB图像特征和调整后的热红外图像特征，并预测出目标的位置偏移、尺度缩放；以调整后的热红外图像特征为参考特征，对RGB图像中间级特征R3进行重采样，实现第4级双模态特征的模态配准。

FDSM模块III，用于接收第3级OSRM模块输出的调整后的RGB图像特征和调整后的热红外图像特征，并预测出目标的位置偏移、尺度缩放；以调整后的热红外图像特征为参考特征，对RGB图像的特征R4进行重采样，实现第5级双模态特征的模态配准。

三级FDSM模块区别仅在于各自的输入和输出不同，本实施方式以FDSM模块II为例对它们内部的运行程序进行说明，如图3(b)所示，输入调整后的RGB图像特征V3和调整后的热红外图像特征I3，且V3和I3均为通道数C为512，宽高为40*40的特征，首先利用V3和I3作差得到特征F3，使用两层卷积核大小为3*3的卷积层对F3进行下采样得到P3，每次降低通道数两倍，且最后一个卷积层的输出通道数固定为16，接着对P3进行复制3份并在宽高维度将复制后的特征平均池化为1*1大小的特征，再通过一个卷积核大小为1*1的卷积层处理池化后的特征，得到位移偏置因子和尺度缩放因子，根据上述两个因子构造特征转换矩阵，并利用特征转换矩阵对RGB图像中间级特征R3进行重采样，得到模态配准之后的特征。

所述目标优化模块包括三级双向特征纠正融合(Bidirectional FeatureCorrection Fusion Module，BFCFM)模块，分别为：第1级BFCFM模块、第2级BFCFM模块、第3级BFCFM模块；

在本实施方式中，三级BFCFM模块的结构和运行程序是相同的，区别仅在于各自的输入和输出不同，其中：

第1级BFCFM模块，用于从FDSM模块I获取第3级模态配准后的图像特征W2，以及从OSRM模块获取第3级调整后的热红外图像特征I2；分别对W2和I2进行平均池化和最大池化，再分别将平均池化和最大池化后的特征进行融合、拼接得到双模态通道级融合特征FC2，并利用多层感知机处理FC2得到通道加权向量CR2和CT2，并将CR2与W2相乘后再加上W2，和将CT2与I2相乘后再加上I2，得到通道级增强特征FR2和FT2，再在通道维度拼接FR2和FT2得到双模态的通道级增强特征FC2；将FC2通过多层感知机得到空间加权向量SR2和ST2，并分别将SR2与FR2相乘、将ST2与FT2相乘，得到RGB图像的空间注意增强特征RS2和热红外图像的空间注意增强特征TS2，再将RS2和TS2进行拼接得到融合增强特征O2，并将得到的融合增强特征O2发送到解码模块。

第2级BFCFM模块，用于从FDSM模块II获取第4级模态配准后的图像特征W3，以及从OSRM模块获取第4级调整后的热红外图像特征I3；分别对W3和I3进行平均池化和最大池化，再分别将平均池化和最大池化后的特征进行融合、拼接得到双模态通道级融合特征FC3，并利用多层感知机处理FC3得到通道加权向量CR3和CT3，并将CR3与W3相乘后再加上W3，和将CT3与I3相乘后再加上I3，得到通道信息增强特征FR3和FT3，再在通道维度拼接FR3和FT23得到双模态通道级增强特征FC3；将FC3通过多层感知机得到空间加权向量SR3和ST3，并分别将SR3与FR3相乘、将ST3与FT3相乘，得到RGB图像的空间注意增强特征RS3和热红外图像的空间注意增强特征TS3，再将RS3和TS3进行拼接得到融合增强特征O3，并将得到的融合增强特征O3发送到解码模块。

第3级BFCFM模块，用于从FDSM模块III获取第5级模态配准后的图像特征W4，以及从OSRM模块获取第5级热红外图像调整后的特征I4；分别对W4和I4进行平均池化和最大池化，再分别将平均池化和最大池化后的特征进行融合、拼接得到双模态通道级融合特征FC4，并利用多层感知机处理FC4得到通道加权向量CR4和CT4，并将CR4与W4相乘后再加上W4，和将CT4与I4相乘后再加上I4，得到通道信息增强特征FR4和FT4，再在通道维度拼接FR4和FT4得到双模态通道级增强特征FC4；将FC4通过多层感知机得到空间加权向量SR4和ST4，并分别将SR4与FR4相乘、将ST4与FT4相乘，得到RGB图像的空间注意增强特征RS4和热红外图像的空间注意增强特征TS4，再将RS4和TS4进行拼接得到融合增强特征O4，并将得到的融合增强特征O4发送到解码模块。

在本实施方式中，如图3(c)所示，以第4级BFCFM模块为例对BFCFM模块内部的运行程序进行说明，输入第4级模态配准后的图像特征W3和第4级调整后的热红外图像特征I3，且W3和I3均为通道数C为256，宽高为80*80的特征，首先将W3和I3平均池化为1*1的特征，同时将W3和I3最大池化为1*1大小的特征，将平均池化后RGB图像的特征与平均池化后的热红外图像特征逐元素相加得到FA3，将最大池化后的RGB图像特征与最大池化后的热红外图像特征逐元素相加得到FM3，在通道维度拼接FA3和FM3后送入输入维度是512的全连接层1，输出维度是256，使用ReLu激活函数对全连接层1输出的特征进行非线性变换，接着将非线性变换后的特征送入输入维度为256，输出维度为512的全连接层2，使用Sigmoid函数对全连接层2输出的特征进行非线性变换，最终得到512个通道的权重向量CR3和CT3，并将CR3与W3相乘再加上W3，将CT3与I3相乘再加上I3，得到通道级增强特征FR3和FT3；将FR3和FT3在通道维度进行拼接，同样输入两个全连接层，且每一个全连接层之后使用激活函数进行激活，且这两个全连接层的参数与通道变换与全连接层1和全连接层2相同，得到每个空间位置的权重信息记为SR3和ST3，将SR3与FR3相乘，将ST3与FT3相乘，得到空间注意增强特征RS3和TS3；最后将RS3和TS3逐元素相加，得到双模态配准融合后的融合增强特征O3。

在本实施方式中，应用所述解码模块分别对三级BFCFM模块输出的融合增强特征O2、O3、O4进行卷积处理，具体为：首先将融合增强特征O4通过1*1大小的卷积层降低通道数到512，记为特征C1；然后将特征C1上采样到40*40大小后再与特征O3拼接，接着通过1*1大小的卷积层将与特征O3拼接后的特征降维到256，记为特征C2；再然后将特征C2上采样到80*80大小，并与特征O2拼接，通过两个1*1卷积核对与特征O2拼接后的特征进行特征整合，并对该特征进行1*1卷积处理，利用处理后的特征预测小目标的位置坐标及所属类别；然后对与特征O2拼接后的80*80大小的特征下采样，得到40*40大小的特征并与特征C2拼接，再通过两个1*1卷积核对与C2拼接后的特征进行特征整合，并对该特征进行1*1卷积处理，利用处理后的特征预测中等目标的位置坐标及所属类别；最后对与C2拼接后的特征40*40大小的特征下采样，得到20*20大小的特征并与特征C1拼接，通过两个1*1卷积核进行特征整合，并对该特征进行1*1卷积处理，利用处理后的特征预测大目标的位置坐标及所属类别。

在本实施方式中，将像素面积小于32*32的目标定义为小目标，将像素面积位于32*32-96*96这个范围内的目标定义为中等目标，将像素面积大于96*96的目标定义为大目标。

本实施方式的一种基于未配准双模态图像融合的全天候目标检测方法，如图4所示，该方法包括：

在本实施方式中，利用可见光、热红外双目相机同时采集RGB图像和热红外图像构成RGBT图像对，如图5所示，使用大疆御2进阶版无人机采集双模态图像数据，无人机所搭载的摄像机组件由热红外相机和可见光相机两个摄像头组成：热红外相机的参数为：像素间距是12μm,波长范围是8-14μm。可见光相机的参数为：传感器是1/2英寸CMOS，有效像素4800万，视角84°，等效焦距是24mm，光圈f/2.8。上述两个相机的图像分辨率是不同的，对应采集的图像分辨率如下：可见光(RGB)摄像头1920×1080，热红外(T)摄像头640×512。在采集图像数据的过程中，不同高度采集到的物体尺度不同，不同光照采集到的图像亮度不同，上述设置使得对采集到的图像进行目标检测更具有挑战性。在对RGBT图像对中的目标对象进行注释时，默认标注热红外图像中的目标信息；在过曝光场景下标注可见光图像下的目标信息。

在本实施方式中，选用的特征提取网络为使用两个现有的CSPDarknet并行组成的双流CSPDarknet，将RGB图像和热红外图像同时输入到双流CSPDarknet中，分别提取RGB图像和热红外图像在CSPDarknet网络中位于不同深度的5级特征作为粗糙的单模态特征，得到RGB图像和热红外图像由低到高的5级分辨率不同的特征，且将从RGB图像所提取5级特征记为R0～R4，从热红外图像所提取的5级特征记为T0～T4，具体为：R0/T0，包含64个尺寸为320×320的特征图；R1/T1，包含128个尺寸为160×160的特征图；R2/T2，包含256个尺寸为80×80的特征图；R3/T3，包含512个尺寸为40×40的特征图；R4/T4，包含1024个尺寸为20×20的特征图。

所述空间纠正的过程包括：

所述通道信息增强的过程包括：

步骤4.7：利用采样网格生成器生成规则网格；

步骤4.8：将转换矩阵M与规则网格进行叠加，得到采样网格；

步骤5.10：将RGB图像的空间注意增强特征RSX和热红外图像的空间注意增强特征TSX相加，得到融合增强特征OX；

步骤6：对融合增强特征O2、O3、O4进行卷积处理，并预测RGBT图像对中所有目标的所在位置和所属类别；

在本实施方式中，先将融合增强特征O4通过1*1大小的卷积层降低通道数到512，记为特征C1；然后将特征C1上采样到与融合增强特征O3相同大小的特征，即将特征C1上采样到40*40大小后再与特征O3拼接，接着通过1*1大小的卷积层将与特征O3拼接后的特征降维到256，记为特征C2；再将特征C2上采样与融合增强特征O2相同大小的特征，即将特征C2上采样到80*80大小，并与特征O2拼接，通过两个1*1卷积核对与特征O2拼接后的特征进行特征整合，并对该特征进行1*1卷积处理，利用处理后的特征预测小目标的位置坐标及所属类别；然后对与特征O2拼接后的80*80大小的特征下采样，得到40*40大小的特征并与特征C2拼接，再通过两个1*1卷积核对与C2拼接后的特征进行特征整合，并对该特征进行1*1卷积处理，利用处理后的特征预测中等目标的位置坐标及所属类别；最后对与C2拼接后的特征40*40大小的特征下采样，得到20*20大小的特征并与特征C1拼接，通过两个1*1卷积核进行特征整合，并对该特征进行1*1卷积处理，利用处理后的特征预测大目标的位置坐标及所属类别。

目前，由于还没有公开可用的未配准RGBT目标检测方法，为了验证本发明系统及方法的检测性能，将本发明提出的系统及方法与现有的目标检测方法对比，其中，对比的现有技术包括：单模态目标检测网络YOLOv3、YOLOv4、YOLOv5、YOLOv6、YOLOv7，以及双模态目标检测网络基于YOLOv5双模态融合网络(YOLOv5+Add)、基于跨模态特征交互融合的网络(CMX)、基于自注意力学习的融合网络(CFT)。

所有的方法都在同一设备上进行统一的训练和测试，数据集则采用无人机采集未配准的双模态图像对。测试结果如表1所示，直观地展示了本发明的方法与现有目标检测方法的量化性能指标对比结果；选择平均准确率均值mAP作为评价指标。具体地：针对每个类别，包括：行人、车和自行车，用于进行目标检测的模型会给出一系列的预测框以及对应的置信度分数；然后，根据不同的置信度分数进行排序，从最高分到最低分。接下来，通过设置不同的阈值，将预测框标记为正样本或负样本。然后计算每个阈值下检测目标的准确率和召回率，并计算出每个类别的精确率-召回率曲线。最后，对于每个类别，计算出其精确率-召回率曲线下的面积，即该类别的平均准确率AP；最后将所有类别的AP进行平均，得到mAP值。从表1中示出的量化指标对比结果可以看出本发明的系统及方法相比于其他现有方法在提取精度上有很大的优势，可以获得较好的目标检测性能。

表1本发明方法与其他目标检测方法的量化指标结果

在本实施方式中，图6为本发明与其他现有的RGBT目标检测方法检测效果的对比图，包括YOLOv5+Add、CMX、CFT和本发明方法共四种检测方法，其中，图6(a)和图6(b)均为在由车辆运动导致的模糊场景下四种检测方法对应的检测结果图；图6(c)和图6(d)均为四种检测方法对应的小目标检测结果图；图6(e)和图6(f)均在目标类内遮挡情况下四种检测方法对应的检测结果图；图6(g)为过曝光场景下四种检测方法对应的检测结果图。从图中可以直观地看出，本发明提出的系统及方法在应对未配准、遮挡、复杂背景干扰等具有挑战性的场景时，可以过滤掉非目标物的干扰，表现出稳定的目标检测结果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于未配准双模态图像融合的全天候目标检测系统，其特征在于，该系统包括：图像采集与注释模块、特征提取模块、配准模块、目标优化模块、解码模块；

所述解码模块，用于对目标优化模块输出的融合增强特征进行卷积处理，并预测图像中所有目标的所在位置和所属类别。

2.根据权利要求1所述的一种基于未配准双模态图像融合的全天候目标检测系统，其特征在于，所述配准模块包括：

所述FDSM模块，用于1)将所述OSRM模块输出的调整后的RGB图像特征和调整后的热红外图像特征相减并进行下采样，再对得到的特征映射进行复制和平均池化，通过卷积操作利用平均池化后的特征得到位移偏置因子和尺度缩放因子来预测目标的位置偏移和尺度缩放；2)生成采样网格，并利用采样网格对RGB图像中间级特征R2、R3、R4进行重采样，得到重采样后的图像特征，进而完成模态配准；3)将模态配准后的图像特征发送到目标优化模块。

3.根据权利要求2所述的一种基于未配准双模态图像融合的全天候目标检测系统，其特征在于，所述目标优化模块包括：三级双向特征纠正融合模块，将所述双向特征纠正融合简称为BFCFM模块，则所述三级双向特征纠正融合分别为：第1级BFCFM模块、第2级BFCFM模块、第3级BFCFM模块；

所述BFCFM模块，用于1)接收FDSM模块发送的模态配准后的图像特征以及OSRM模块发送的调整后的热红外图像特征；2)对从FDSM模块接收的模态配准后的图像特征进行平均池化和最大池化，得到RGB图像的平均特征和RGB图像的最大特征；3)对从OSRM模块接收的调整后的热红外图像特征进行平均池化和最大池化，得到热红外图像的平均特征和热红外图像的最大特征；4)分别将RGB图像的平均特征和热红外图像的平均特征、RGB图像的最大特征和热红外图像的最大特征进行逐元素相加并将得到的平均融合特征和最大融合特征在通道维度进行拼接，利用多层感知机确定双模态特征的通道加权向量，再将双模态特征的通道加权向量分别与模态配准后的图像特征和调整后的热红外图像特征相乘得到双模态的通道注意特征，再将得到的双模态的通道注意特征分别与模态配准后的图像特征和调整后的热红外图像特征进行逐元素相加得到双模态的通道级增强特征并进行拼接，利用多层感知机得到双模态的空间加权向量；将对应模态的空间加权向量与通道级增强特征相乘得到双模态的空间注意增强特征，进而相加得到融合增强特征，并将得到的融合增强特征发送到解码模块。

4.一种基于未配准双模态图像融合的全天候目标检测方法，其特征在于，该方法包括如下步骤：

步骤6：对融合增强特征O2、O3、O4进行卷积处理，并利用卷积处理后的特征预测RGBT图像对中所有目标的所在位置和所属类别。

5.根据权利要求4所述的一种基于未配准双模态图像融合的全天候目标检测方法，其特征在于，步骤3中所述空间纠正的过程包括：

步骤A4：将融合后的3级特征分别上采样到与对应级的RGB图像特征和热红外图像特征相同大小的分辨率，得到空间纠正后的RGB图像特征RO和空间纠正后的RGB图像特征TO，分别记为特征RO2和TO2、RO3和TO3、RO4和TO4。

6.根据权利要求5所述的一种基于未配准双模态图像融合的全天候目标检测方法，其特征在于，所述步骤A3包括：

步骤A3.6：将对应级别的特征向量VR和VT进行拼接，并通过一个全连接层进行特征融合。

7.根据权利要求6所述的一种基于未配准双模态图像融合的全天候目标检测方法，其特征在于，步骤3中所述通道信息增强的过程包括：

步骤B2：分别对特征RTC2、RTC3、RT4在通道维度上进行通道位置编码，并利用通道交叉注意力机制计算通道位置编码后得到的3级特征中的每个特征通道的权重值，进而得到通道信息增强后的双模态特征。

8.根据权利要求7所述的一种基于未配准双模态图像融合的全天候目标检测方法，其特征在于，所述步骤B2包括：

步骤B2.6：将3级权重向量分别与对应的特征RTC2、RTC3、RTC4相乘，得到3级通道信息增强后的RGB图像特征RC和通道信息增强后的热红外图像特征TC，分别记为RC2和TC2、RC3和TC3、RC4和TC4。

9.根据权利要求8所述的一种基于未配准双模态图像融合的全天候目标检测方法，其特征在于，所述步骤4包括：

步骤4.7：利用采样网格生成器生成规则网格；

步骤4.8：将转换矩阵M与规则网格进行叠加，得到采样网格；

步骤4.9：利用采样网格分别对RGB图像的中间级特征R2、R3、R4进行重采样，得到模态配准后的图像特征W2、W3、W4。

10.根据权利要求9所述的一种基于未配准双模态图像融合的全天候目标检测方法，其特征在于，所述步骤5包括：