CN116630608A

CN116630608A - 一种用于复杂场景下的多模态目标检测方法

Info

Publication number: CN116630608A
Application number: CN202310611640.5A
Authority: CN
Inventors: 秦玉文; 曾祥津; 吴小龑; 任振波; 钟丽云; 邸江磊
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-22

Abstract

本发明属于计算机视觉与模式识别领域，公开一种用于复杂场景下的多模态目标检测方法，用于解决单模态目标检测方法无法对复杂场景的目标进行精确检测的难题。本发明的多模态目标检测方法先基于YOLOv5模型构建双输入的双流主干网络用来获取红外和可见光图像的多尺度特征，再基于注意力机制和中间融合策略搭建跨模态特征融合模块用于融合多模态特征和解决模态平衡问题，之后将拍摄、配准并划分好的训练集图像对输入到所搭建的检测网络中进行训练获取最佳结果的权重文件，最后将权重文件和测试集图像对载入模型中获得带有检测框和置信度的红外和可见光图像对。本发明的方法可以实现对复杂场景下的目标进行检测，且精度更高、参数更少、实时性良好。

Description

一种用于复杂场景下的多模态目标检测方法

技术领域

本发明属于计算机视觉与模式识别领域，具体涉及一种用于复杂场景下的多模态目标检测方法。

背景技术

目标检测是计算机视觉与模式识别的主要技术之一，是智能化、信息化的重要技术手段，在遥感目标识别、自动驾驶和工业自动化领域都发挥着重要作用。然而，单一模态下的图像信息存在诸多不足，容易受限于低光照度、遮挡这些环境因素影响，导致检测结果不够稳定可靠。以可见光为例，由于其成像方法的特性，在低光照度的情况下捕获的特征缺乏足够的细节，前景和背景之间的轮廓边界模糊，导致检测方法难以准确定位和识别出目标。因此，越来越多的研究者关注多模态目标检测技术，使用多传感器获取多模态信息来提升目标检测模型的识别精度。

Hwang等在2015年的CVPR上发表一篇关于多模态的数据集，该数据集以行人检测为背景，提供可见光和红外两种模态对齐的图像，取名为Kai st，从此开启了多模态目标检测领域的大门。Zhang等学者基于此数据集提出了名为CIAN方法，在跨模态交互注意力的引导下，将两个跨模态中间特征图收敛为一个统一的特征图，进一步融合多模态特征信息。Zheng等以SDD检测模型为主体提出GFD-SSD，使用两种不同的新型门控融合单元来学习由两个主干网络中间层生成的跨模态特征图。Zhang等提出了一种自适应的多模态特征融合方法，该方法结合了模态内和模态间注意力机制，允许网络学习多模态特征并动态加权和融合。Cao等基于通道注意力机制提出MCFF模块，根据光照条件动态汇集来自RGB和热模态的特征，以获取更好的融合效果。

基于以上的研究内容，可知多模态的图像可为检测带来检测精度的提升。但由于跨图像模态之间存在巨大的差异，可能会导致特征模态不平衡问题，给多模态检测方法的部署应用带来困难，因此需要充分结合交叉模态的互补性来产生鲁棒性的特征。

发明内容

本发明的目的在于克服现有技术的不足，提供一种用于复杂场景下的多模态目标检测方法，所述目标检测方法可以实现对具有复杂场景的图像对进行检测，抑制特征模态不平衡问题，检测的精度高，且实时性更好。

本发明解决上述技术问题的技术方案是：

一种用于复杂场景下的多模态目标检测方法，包括以下步骤：

(S1)、使用红外和可见光两种不同模态相机在复杂场景对检测目标主体进行拍照采集图像对，并将拍摄到的图像放入图像集A中；

(S2)、将图像集A中的图像对放入图像配准算法中进行配准，得到配准后的图像集B；

(S3)、将图像集B中的每对图像放入标注软件进行目标类别和位置信息的标注得到图像集C，再将图像集C中任意选择图像对按照8：2划分训练图像集D和测试图像E；

(S4)、基于YOLOv5框架搭建双流目标检测网络，并基于注意力机制搭建跨模态特征融合模块；

(S5)、将图像集D输入到基于YOLOv5框架的双流目标检测网络中进行训练和优化，得到训练后的最优权重文件；

(S6)、将训练好的权重文件载入到双流检测网络，并将图像集E放入网络进行测试，得到带有检测框和置信度的图像对。

优选的，在步骤(S1)中，所述的复杂场景包括但不限于低光照度、雾霾、遮挡、伪装和森林。

优选的，在步骤(S2)中，使用图像配准算法对齐错位的图像对，使跨模态图像对中的目标位置保持一致。

优选的，在步骤(S3)中，对配准后其中一个模态的图像集Before中的目标进行位置和类别标注。将标注后的图像集After随机分配获得训练集和测试集，最后将标签文件转化为适合YOLO训练的txt格式文件。

优选的，在步骤(S4)中，双流检测网络的构建包括以下步骤：

(S4-1)、使用CSPDarkNet网络搭建两个并行的主干网络分别用于提取红外图像和可见光图像的多尺度特征信息，网络下采样通道数分别为64、128、256、512与1024。在两个并行主干网络深层次512通道数处即第四阶段后，将此层的特征沿着通道维度进行拼接，用于融合深层次的语义和特征信息，为了减少模型参数量，使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512，并使用卷积进一步下采样；

(S4-2)、基于注意力机制和中间融合策略搭建跨模态特征融合模块，既保留了模态的原始特征，又可根据差异特征进行补偿，充分结合交叉模态的互补性来产生鲁棒性特征解决跨模态间的特征不平衡问题，为提升融合效率，模块被多次插入到双流主干网络的不同阶段；

(S4-3)、将融合跨模态差异特征的特征图以相加的方式融入到双流主干网络中，增强主干网络中的特征图，同时将增强后不同尺度的特征图进行线性叠加输入到检测层；

(S4-4)、在检测层，使用特征金字塔层聚合多尺度特征，充分融合目标的上下文信息，提高检测精度和效率；

(S4-5)、在网络训练之前，使用K-means聚类算法从数据集中获得锚框先验用于预测边界框的生成。

优选的，在步骤(S4-2)中，主干网络由两个并行的双流CSPDarkNet组成，其中一个CSPDarkNet输出为可见光图像特征图F_R，另一个CSPDarkNet输出为红外图像特征图F_I；首先对这两个特征图做减法操作，获得模态间的差异特征图；其次，对红外和可见光特征图分别沿着水平坐标和垂直坐标做平均池化操作得到两个新的特征图，再把他们拼接起来并发送到一个共享的1×1卷积核变换函数进行信息交互，之后再将拼接的特征图分开，经过两个不同的1×1卷积核变换后得到新的输出，在此输出上使用sigmoid作为激活函数获得注意力权重，将权重与差异特征图相乘可获得互补特征图，最后将互补特征图与可见光特征图F_R和红外特征图F_I相加即可获得加强后特征图，整个过程的表达式如下：

其中σ表示sigmoid函数，f^1×1表示进行1×1卷积运算，GAP表示沿着两个空间范围(H，1)或(1，W)进行平均池化，⊙代表点乘操作。

优选的，在步骤(S5)中，网络训练的损失函数包含3部分，即分类损失L_cls，目标损失L_obj和回归定位损失L_box，总损失等于这三个损失之和：

L＝L_cls+L_obj+L_box (2)

分类损失和目标损失都是基于二值交叉熵定义，其表达式如下：

其中y_i为标签值，p为预测概率，N为总类别数；对于回归定位损失，则使用改进的CIoU loss进行计算，该损失函数定义如下：

其中IoU为交并比的值，e^angle为b与b^gt两个边界框中心点位置的角度偏移系数项，用于惩罚过大的方向角偏移，ρ²(.)是边界框中心点欧式距离计算，c²代表b与b^gt最小外接矩形的对角线距离，v为预测框和真值框宽高平方差构建的形状惩罚项，α为平衡系数。

本发明与现有技术相比具有以下的有益效果：

1、本发明的用于复杂场景下多模态目标检测方法结合了部分图像融合的主干网络构造想法，以通道拼接方法实现深层次特征融合。使用CSPDarkNet网络搭建两个并行的主干网络分别用于提取红外图像和可见光图像的多尺度特征信息，在两个并行主干网络深层次即512通道数处，将双流主干提取的特征沿着通道维度进行拼接以用于融合交互深层次的语义和特征信息，使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512，并使用卷积进一步下采样，并将通道数拓展为1024。此方案可高效减少参数，同时获得良好的检测结果。

2、本发明的用于复杂场景下多模态目标检测方法结合了差分放大器电路共模信号被抑制、差分模信号被放大这一特性，基于注意力机制提出了一种差分融合模块用于交互跨模态的特征信息，既保留了模态的原始特征，又可根据差异特征进行补偿，增强原始特征信息，以解决跨模态特征不平衡的问题。

3、本发明的用于复杂场景下多模态目标检测方法分类和目标损失都是基于常用的二值交叉熵损失函数，而定位损失结合CIoU loss的特性重新构建，在距离惩罚项上引入了角度偏移系数，进一步限定预测框的位置偏移，使其更加贴近于真实的边界框的位置；与此同时，还改进了形状惩罚项代替CIoU长宽一致性参数，使用更加严格的平方差作为惩罚项，使得预测框的真实大小更加符合真实位置边界框。

附图说明

图1为本发明的用于复杂场景下的多模态目标检测方法流程框图。

图2为本发明的用于复杂场景下的多模态目标检测方法网络结构具体流程示意图。

图3为本发明的用于复杂场景下的多模态目标检测方法的跨模态特征融合模块示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参见图1，本发明的用于复杂场景下的多模态目标检测方法包括以下步骤：

(S1)、使用红外和可见光两种不同模态相机在复杂场景对检测目标主体进行拍照采集图像对，并将拍摄到的图像放入图像集A中，所述的复杂场景包括但不限于低光照度、雾霾、遮挡、伪装和森林；

(S2)、由于使用两种模态不同的相机进行拍摄，镜头之间存在一定的视角差，不同模态图像中的同一目标位置存在错位，需要借助图像配准算法矫正，将图像集A中的图像对放入图像配准算法中进行配准，得到配准后的图像集B；

(S3)、将图像集B中的每对图像放入标注软件labelme进行目标类别和位置信息的标注得到图像集C，再将标签文件转化为适合YOLO训练的txt格式文件，最后将图像集C中任意选择图像对按照8：2划分训练图像集D和测试图像E；

(S5)、将图像集D载入到基于YOLOv5框架的双流目标检测网络中进行训练和优化，使用SGD算法作为优化器，达到设定的训练轮次时停止更新权重和偏置参数，最后保留训练后的最优权重文件；

参见图1，对于具有复杂背景的图像，将多模态工作引入到目标检测任务中可提升信息的丰富度，进一步提升检测的准确性。对于多模态输入的目标检测而言，特征模态不平衡问题是至关重要的，不同模态的错位和整合不足可能会导致特征的贡献和表示不均匀。RGB和热模态特征在行人形态、纹理和性质方面是不同的。融合模块设计的指导思想是在跨模态特征空间中保留和增强鲁棒性特征，抑制冗余和干扰特征，互补差异特征。我们结合最新的注意力机制工作和差分放大电路特性，提出了一种用于多模态目标检测、轻量化和高效的跨模态特征融合方法，我们的解决方案是将跨模态特征进行分解处理，模态内的特定特征如颜色和热特征应该被保留，模态之间的特征差异应进行互补增强。注意力机制中调整了通道的压缩率，因此可以以极少的参数量实现高效的跨模态特征融合。此外，为获得多尺度的融合特征，融合模块被插入到双流主干网络不同的尺度的特征层以实现跨模态信息的互补增强。我们的发明在两个并行主干网络深层次512通道数即第四阶段后，将此层的特征沿着通道维度进行拼接，用于融合深层次的语义和特征信息，再使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512，较于一般完全对称的双流主干网络搭建方法，我们的方法在提升检测效果的同时，还大幅度的减少网络参数量。我们的方法还引入了更多的损失函数惩罚项限定算法生成的预测边界框的位置偏移和大小，使其更加符合标签中的真值框，进一步提升方法目标检测的准确度。通过上述设置，使得本发明的多模态目标检测方法具有精度高、参数少的特点。

参见图2，在步骤(S4)中，双流检测网络的构建包括以下步骤：

(S4-1)、使用CSPDarkNet网络搭建两个并行的主干网络分别用于提取红外图像和可见光图像的多尺度特征信息，网络下采样通道数分别为64、128、256、512与1024。在两个并行主干网络深层次即512通道数处，将此层的特征沿着通道维度进行拼接，用于融合深层次的语义和特征信息，为了减少模型参数量，使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512，并使用卷积进一步下采样；

(S4-2)、结合差分放大电路的放大特性，基于注意力机制和中间融合策略搭建跨模态特征融合模块；此模块既保留了模态的原始特征，又可根据差异特征进行补偿，充分结合交叉模态的互补性来产生鲁棒性特征解决跨模态间的特征不平衡问题，为提升融合效率，模块被多次插入到双流主干网络的不同阶段；

参见图1，在步骤(S5)中，网络训练的损失函数包含3部分，即分类损失L_cls、目标损失L_obj和回归定位损失L_box，总损失等于这三个损失之和：

L＝L_cls+L_obj+L_box(1)

其中IoU为交并比的值，e^angle为b与b^gt两个边界框中心位置的角度偏移系数项，用于惩罚过大的方向角偏移，ρ²(.)是边界框中心点欧式距离计算，用于惩罚，c²代表b与b^gt最小外接矩形的对角线距离，v为预测框和真值框宽高平方差构建的形状惩罚项，α为平衡系数。

参见图3，以下则对跨模态特征融合模块搭建方法进行阐述：

在步骤(S4-2)中，主干网络由两个并行的双流CSPDarkNet组成，其中一个CSPDarkNet输出为可见光图像特征图F_R，另一个CSPDarkNet输出为红外图像特征图F_I；首先对这两个特征图做减法操作，获得模态间的差异特征图；其次，对红外和可见光特征图分别沿着水平坐标和垂直坐标做平均池化操作得到两个新的特征图，再把他们拼接起来并发送到一个共享的1×1卷积核变换函数进行信息交互，之后再将拼接的特征图分开，经过两个不同的1×1卷积核变换后得到新的输出，在此输出上使用sigmoid作为激活函数获得注意力权重，将权重与差异特征图相乘可获得互补特征图，最后将互补特征图与可见光特征图F_R和红外特征图F_I相加即可获得加强后特征图，整个过程的表达式如下：

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种用于复杂场景下的多模态目标检测方法，其特征在于，包括以下步骤：

(S2)、使用图像配准算法对图像集A中的图像对进行配准，得到配准后的图像集B；

2.根据权利要求1所述的用于复杂场景下多模态目标检测方法，其特征在于，在步骤(S1)中，所述的复杂场景包括但不限于低光照度、雾霾、遮挡和伪装。

3.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法，其特征在于，在步骤(S2)中，使用图像配准算法对齐错位的图像对，使跨模态图像对中的目标位置保持一致。

4.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法，其特征在于，在步骤(S3)中，对配准后其中一个模态的图像集Before中的目标进行位置和类别标注。将标注后的图像集After随机分配获得训练集和测试集，最后将标签文件转化为适合YOLO训练的txt格式文件。

5.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法，其特征在于，在步骤(S4)中，双流检测网络的构建包括以下步骤：

(S4-1)、使用CSPDarkNet网络搭建两个并行的主干网络分别用于提取红外图像和可见光图像的多尺度特征信息，网络下采样通道数分别为64、128、256、512与1024。在两个并行主干网络深层次512通道数处即第四阶段后，将此层的特征沿着通道维度进行拼接以用于融合深层次的语义和特征信息，为了减少模型参数量，使用1×1大小的卷积运算将拼接后1024通道数再次压缩为512，并使用卷积进一步下采样，并将通道数拓展为1024；

6.根据权利要求4所述的一种用于复杂场景下的多模态目标检测方法，其特征在于，在步骤(S4-2)中，主干网络由两个并行的双流CSPDarkNet组成，其中一个CSPDarkNet输出为可见光图像特征图F_R，另一个CSPDarkNet输出为红外图像特征图F_I；首先对这两个特征图做减法操作，获得模态间的差异特征图；其次，对红外和可见光特征图分别沿着水平坐标和垂直坐标做平均池化操作得到两个新的特征图，再把他们拼接起来并发送到一个共享的1×1卷积核变换函数进行信息交互；之后再将拼接的特征图分开，经过两个不同的1×1卷积核变换后得到新的输出，在此输出上使用sigmoid作为激活函数获得注意力权重，将权重与差异特征图相乘可获得互补特征图，最后将互补特征图与可见光特征图F_R和红外特征图F_I相加即可获得加强后特征图，整个过程的表达式如下:

7.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法，其特征在于，在步骤(S5)中，网络训练的损失函数包含3部分，即分类损失L_cls，目标损失L_obj和回归定位损失L_box，总损失等于这三个损失之和：

L＝L_cls+L_obj+L_box (2)

其中y_i为标签值，p为预测概率，N为总类别数；对于回归定位损失，则使用改进的CIoUloss进行计算，该损失函数定义如下：

其中IoU为交并比的值，e^angle为预测框b与真值框b^gt两个边界框中心点位置的角度偏移系数项，用于惩罚预测框过大的方向角偏移，ρ²(.)是边界框中心点欧式距离计算，c²代表b与b^gt最小外接矩形的对角线距离，v为预测框和真值框宽高平方差构建的形状惩罚项，α为平衡系数。