CN116486431A

CN116486431A - 基于目标感知融合策略的rgb-t多光谱行人检测方法

Info

Publication number: CN116486431A
Application number: CN202310319227.1A
Authority: CN
Inventors: 沈会良; 张学; 张笑寒; 俞贝楠
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-25

Abstract

本发明公开了基于目标感知融合策略的RGB‑T(热红外，Thermal)多光谱行人检测方法，该方法的目的是能够准确地从一对RGB和热红外图像中确定行人的位置。给定一对待检测的RGB和热红外图像，该方法首先对RGB和热红外图像提取多光谱特征；然后使用目标感知融合策略对提取的多光谱特征进行融合；最后将融合后的特征送入检测头进行行人检测，输出行人位置框以及置信度。本发明可以有效地融合多光谱图像的深层特征，融合过程中增强了行人区域的特征表达并抑制了无关的背景噪声特征，能够实现准确的行人检测。此外，目标感知融合策略是一种可以用于单阶段和双阶段检测器中的特征融合策略，能有效提升YOLO和Faster R‑CNN检测器在多光谱行人检测任务上的准确度。

Description

基于目标感知融合策略的RGB-T多光谱行人检测方法

技术领域

本发明涉及一种RGB-T多光谱图像行人检测方法，特别涉及基于多光谱图像的行人目标位置获取方法，应用到无人驾驶、路况感知和智能监控等领域。

背景技术

通过行人检测可以判断输入的图像或者视频帧中是否包含行人。在智能交通领域，通过行人检测可以判断路况上的行人情况，为无人驾驶决策提供参考依据；在智能安防领域，行人检测也可用来反映安防现场的人员状况，提示安防人员可能的风险。

目前的行人检测方法主要基于RGB图像，尽管它们在光照条件良好的场景中能表现出优异的检测性能，但是在光照条件不好的场景中的表现却差强人意，这是RGB图像在低光条件下的信噪比低导致的。热红外(Thermal)图像对人体热辐射敏感，它不受光照条件影响，能在全天候提供清晰的人体形状信息。但是热红外图像只能提供形状信息无法提供颜色和纹理信息，这使得基于热红外图像的行人检测方法容易受到与行人结构相似的物体影响。因此，多光谱行人检测方法应运而生，它结合RGB和热红外图像的优势，目的是能够实现全天候的行人检测。

多光谱行人检测方法因其具有鲁棒的行人检测表现，受到了研究者的广泛关注。《Multispectral Deep Neural Networks for Pedestrian Detection》研究了在神经网络的不同阶段融合多光谱特征对检测结果的影响，它设计了三种融合方法。一种是将RGB和热红外图像直接拼接成四通道的图像送入神经网络输出检测结果，这种方法叫做早期融合；一种是将RGB和热红外图像分别送入神经网络后，融合神经网络的中间层特征，并基于融合的特征完成检测，这种方法叫做中期融合；一种是将RGB和热红外图像分别送入两个单独的神经网络，并融合它们的检测结果，这种方法叫做晚期融合。这项研究发现中期融合的检测效果优于早期融合和晚期融合的表现。基于该发现，随后的研究中主要采用中期融合策略。

尽管融合多光谱特征能够为单一光谱提供互补信息，但是简单的拼接多光谱特征实现特征融合的方式并不能显著地提高检测表现。为解决这个问题，最近的研究工作提出了不同的特征融合策略。这些融合策略按照在特征融合时是否需要分割分支可以分为：融合时需要分割分支和不需要分割分支两种。

针对融合时不需要分割分支的特征融合策略。《Weakly Aligned Cross-modalLearning forMultispectral Pedestrian Detection》关注于解决多光谱数据中的未配准问题，它使用两个单独的神经网络抽取多光谱特征，并预测多光谱特征之间的位移关系，以实现弱配准多光谱数据的行人检测。

《Improving Multispectral Pedestrian Detection by Addressing ModalityImbalance Problems》意识到多光谱数据的差异性，并解决跨模态数据中信息不平衡的问题。

《Spatio-contextual Deep Network-based Multimodal Pedestrian Detectionfor Autonomous Driving》关注于解决多光谱特征融合过程中的空间和上下文信息聚合的问题。它使用图注意力网络融合多光谱特征，并使用条件随机场处理融合特征的空间信息，随后使用通道注意力机制和循环神经网络处理融合特征的上下文信息。

《BAANet:Learning Bi-directional Adaptive Attention Gates forMultispectral Pedestrian Detection》发现在低光照场景下RGB图像难以捕获清晰的行人信息，而在环境温度较高但光照良好的场景下，因为行人热辐射与环境中其它物体的热辐射相近，热红外图像难以区分行人和其它物体。它提出了双向注意力门控机制以及场景光照分类网络，能够在不同光照条件下自适应地使用有利的光谱信息。

《Learning a Dynamic Cross-modal Network for Multispectral PedestrianDetection》在融合多光谱特征时，动态地结合局部和非局部信息，以实现更好的检测表现。

《Multimodal Object Detection via Probabilistic Ensembling》使用集成学习的方式结合多个检测器的检测结果。

针对融合时使用分割分支的特征融合策略。《Multispectral PedestrianDetection via Simultaneous Detection and Segmentation》为原来的检测器引入了新的分割分支，并使用多任务损失函数监督分割和检测网络，这种方法获得了良好的检测表现。

《Guided Attentive Feature Fusion for Multispectral PedestrianDetection》采用分割分支预测分割掩膜，并基于该掩膜引导跨光谱和单一光谱的注意力。

《Locality Guided Cross-modal Feature Aggregation and Pixel-levelFusion for Multispectral Pedestrian Detection》使用分割分支预测分割掩膜，并基于该掩膜从互补的光谱特征中筛选局部特征，进而增强特定位置处的特征表达。

最近的研究发现，在融合过程中使用分割分支的方法普遍优于不使用分割分支的方法，所以本发明采用融合中使用分割分支的策略。不同于上述所有方法，本发明旨在融合多光谱特征并优化融合的特征，以增强行人区域的特征表达，抑制背景区域的特征表达，实现更准确的多光谱行人检测效果。

发明内容

针对现有技术中存在的问题，本发明提出一种基于目标感知融合策略的RGB-T多光谱行人检测方法，整体流程如下：

一种基于目标感知融合策略的RGB-T多光谱行人检测方法，该方法为：给定一对配准的可见光(RGB)和热红外(T)图像，首先提取多光谱特征，然后基于目标感知融合策略在特征空间对提取的多光谱特征进行融合，最后将融合的特征送入目标检测领域常用的检测头，输出行人的位置框和置信度，完成检测过程。

上述技术方案中，进一步地，所述的基于目标感知融合策略在特征空间对提取的多光谱特征进行融合，包括两个步骤：

S1：多光谱特征聚合。使用特征通道分层机制处理多光谱特征，输出初步融合的特征。使用特征通道分层机制处理多光谱特征，分两路处理多光谱特征，具体步骤为：一路使用一层卷积层压缩多光谱特征的通道维度，另一路使用一层卷积和残差模块压缩多光谱特征的通道维度。之后将两路被处理的特征在通道维度上拼接并经过一层卷积层输出初步融合的特征；多光谱特征聚合的优点在于，为拼接的多光谱特征提供了更多梯度流，能够更好地优化多光谱特征。

S2：多光谱特征优化。分成两路优化初步融合的特征，具体步骤为：一路使用三层卷积层将初步融合的特征处理成一个单通道的二维置信度图，随后计算该置信度图与初步融合的通道特征图之间的相关性向量，之后使用两层全连接层处理该相关性向量。另一路将所述初步融合的特征与上述经全连接层处理的相关性向量相乘，获得优化的特征并输出；多光谱特征优化的优点在于，根据特征图与二维置信度图的相关性自适应地调整每个通道特征图的权重。

一种用于执行上述方法的行人检测模型，在检测模型的训练过程中，为了保证模型准确性，在多光谱特征优化过程中设计一个相关性最大损失函数。相关性最大损失函数包括为两个部分：1)分割损失函数监督预测的二维置信度图与真实置信度图之间的一致性；2)最大化信息熵损失函数监督相关性向量中每个位置的相关度最大化。

所述检测模型的训练过程包括如下步骤：

1)使用RGB相机和热红外光相机采集应用场景下配准的多光谱图像；

2)使用一个卷积神经网络分别对RGB图像和热红外光图像提取深层特征，分别表示为F_rgb和F_thermal，记录卷积神经网络在不同层级输出的多光谱特征，将提取的多光谱特征在通道方向进行拼接，得到在通道方向拼接的特征；

3)采用目标感知融合模块在特征空间对所述在通道方向拼接的特征进行融合，具体步骤如下：

4)在每个层级进行如下处理：

首先，使用特征通道分层机制处理拼接的多光谱特征输出初步融合的特征F_x：

其中，[F_rgb，F_thermal]表示在通道方向上拼接的RGB和热红外图像特征；表示多光谱特征聚合模块中的第i个卷积层，θ_i表示第i个卷积层的可学习参数；/>表示一个残差卷积模块。

接着，分两路优化初步融合的特征F_x，并输出优化后的特征F_y：

其中，

表示逐像素相乘操作；s为相关性向量；/>表示由两个全连接层组成的多层感知机；/>表示预测的二维置信度图m与融合的特征F_x第i个通道特征图的相关性运算；σ(·)表示sigmoid运算；θ_seg表示分割分支的可学习参数。

根据预测的二维置信度图m，真实的二维置信度图以及相关性向量s，计算相关性最大损失函数

其中，真实的二维置信度图真值的获取方式为：将给定图片所对应的标注框内的区域均设为1，其它区域设为0；/>为分割损失函数；/>为最大化信息熵损失函数；α表示平衡系数，用于控制两个损失函数之间的权重关系；

表示二值交叉熵损失函数；/>表示Dice损失函数；ε是一个小的常数，为了防止除以0和除0的情况。m_i和/>表示二维置信度图m和真实的二维置信度图/>在第i个位置处的值；s_i表示相关性向量s在第i个位置处的值。

5)在卷积神经网络的不同层级重复步骤4)，并记录不同层级下目标感知融合模块输出的特征F_y和损失值

6)将不同层级的特征送入特征金字塔网络，以融合多尺度的特征，并记录。

7)将步骤6)得到的多尺度特征输入到检测器的检测头中，输出预测框和相对应的置信度得分。

8)计算预测结果与真实目标框之间的损失值，并记录。

9)加权步骤5)与8)中计算所得的损失值。

10)根据步骤9)所得的损失值，使用随机梯度下降方式更新卷积神经网络的可学习参数。

11)重复步骤1)-10)，直到重复次数达到预先设定的训练次数，完成训练过程，即可得到检测模型。

本发明的优势在于：

充分利用RGB和热红外图像信息互补的优势，弥补当前检测器易受光照条件影响的不足，实现鲁棒的全天候行人检测；监督多光谱特征融合过程，而不是仅使用最终检测头的分类与回归损失监督预测框；目标感知融合策略输出的特征强调了目标位置处的特征表达，弱化了无关背景上的特征表达。此种特征图能够更显著地区分目标物体与无关的背景噪声，进而帮助检测器达到更好的检测表现；本发明提出的目标感知融合策略是一种方便、通用的多光谱特征融合策略，可以用到Faster R-CNN和YOLO中，提升它们在多光谱行人检测任务上的检测性能。

附图说明

图1为神经网络中特征与通道特征图的定义。

图2为本发明实施例的模型训练阶段流程图。

图3为本发明实施例的模型进行行人检测的流程图。

图4为本发明实施例的多光谱图像特征聚合模块流程图。

图5为本发明实施例的模型训练阶段多光谱特征优化模块流程图。

图6为本发明实施例的模型推理阶段多光谱特征优化模块流程图。

图7为本发明实施例的原始输入图像、真实标注和检测结果。(a)RGB-T输入图片，左图为RGB图像，右图为热红外图像。(b)真实的标注与检测结果。绿色框表示真实标注，红色框表示检测结果。

具体实施方式

以下结合具体实施例和附图进一步说明本发明技术方案。

实施例

本发明提供一种基于目标感知融合策略的RGB-T多光谱行人检测方法，步骤如下：

给定一对配准的可见光RGB和热红外T图像，首先提取多光谱特征，然后基于目标感知融合策略在特征空间对提取的多光谱特征进行融合，最后将融合得到的特征送入检测头，输出行人的位置框和置信度，完成检测过程。

本发明还提供一种用于执行上述方法的行人检测模型，以下将对检测模型的训练过程以及基于该模型进行行人检测的具体过程进行阐述。

如图1，对特征和通道特征图进行定义：输入图片送入神经网络后，输出的结果定义为特征，它的维度为h×w×c,其中h,w,c分别为特征的高，宽和通道数。在通道方向的每一个h×w的矩阵叫做通道特征图。

一种基于目标感知融合策略的多光谱行人检测模型，训练过程如图2所示。

1)首先，使用RGB相机和热红外光相机采集应用场景下配准的多光谱(RGB和热红外)图像。

2)使用一个卷积神经网络分别对RGB图像和热红外光图像提取深层特征，分别表示为F_rgb和F_thermal，记录卷积神经网络在不同层级输出的多光谱特征，将上述提取的多光谱特征在通道方向进行拼接，得到在通道方向拼接的特征。

4)在每个层级进行如下处理：

所述目标感知融合模块包括多光谱特征聚合模块和多光谱特征优化模块。多光谱特征聚合模块使用特征通道分层机制处理拼接的多光谱特征输出初步融合的特征F_x。使用特征通道分层机制处理神经网络提取的多光谱特征，分两路处理多光谱特征：一路使用一层卷积层压缩多光谱特征的通道维度，另一路使用一层卷积和残差模块压缩多光谱特征的通道维度。之后将两路被处理的特征在通道维度上拼接并经过一层卷积层输出初步融合的特征：

其中，[F_rgb，F_thermal]表示在通道方向上拼接的RGB和热红外图像特征；表示多光谱特征聚合模块中的第i个卷积层，θ_i表示第i个卷积层的可学习参数；/>表示一个残差卷积模块。该过程如图4所示。

多光谱特征优化模块分两路优化初步融合的特征F_x，并输出优化后的特征F_y，具体步骤为，一路使用三层卷积层将初步融合的特征处理成一个单通道的二维置信度图，随后计算该置信度图与初步融合的通道特征图之间的相关性向量，之后使用两层全连接层处理该相关性向量。另一路将所述初步融合的特征与上述经全连接层处理的相关性向量相乘，获得优化的特征并输出：

其中，

表示逐像素相乘操作；s为相关性向量：/>表示由两个全连接层组成的多层感知机；/>表示预测的二维置信度图m与融合的特征F_x第i个通道特征图的相关性运算；σ(·)表示sigmoid运算；θ_seg表示分割分支的可学习参数。

其中真实的二维置信度图真值的获取方式为：将给定图片所对应的标注框内的区域均设为1，其它区域设为0；/>为分割损失函数；/>为最大化信息熵损失函数；；α表示平衡系数，用于控制两个损失函数之间的权重关系。

表示二值交叉熵损失函数；/>表示Dice损失函数；ε是一个小的常数，为了防止除以0和除0的情况。m_i和/>表示二维置信度图m和真实的二维置信度图/>在第i个位置处的值；s_i表示相关性向量s在第i个位置处的值。优化过程如图5所示。

7)将步骤6)所得多尺度特征输入到检测器的检测头中，输出预测框和相对应的置信度得分。

8)计算预测的结果与真实目标框之间的损失值，并记录。

9)加权步骤5)与8)中计算所得的损失值。

10)根据步骤9)中计算所得的损失值，使用随机梯度下降方式更新卷积神经网络的可学习参数。

11)重复步骤1)-10)，直到重复次数达到预先设定的训练次数，完成训练过程。

如图3展示了基于上述模型执行行人检测的具体过程，步骤如下：

2)使用一个卷积神经网络分别对RGB图像和热红外光图像提取深层特征，分别表示为F_rgb和F_thermal，记录卷积神经网络在不同层级输出的多光谱特征，将提取的多光谱特征在通道方向进行拼接。

3)采用目标感知融合模块在特征空间对提取的多光谱特征进行融合，具体步骤如下：

4)在每个层级进行如下处理：

多光谱特征聚合模块使用特征通道分层机制处理拼接的多光谱特征输出初步融合的特征F_x：

其中，[F_rgb，F_thermal]表示在通道方向上拼接的RGB和热红外图像特征；表示多光谱特征聚合模块中的第i个卷积层，θ_i表示第i个卷积层的可学习参数；/>表示一个残差卷积层，该过程如图4所示。

多光谱特征优化模块分两路优化初步融合的特征F_x，并输出优化后的特征F_y：

其中，

表示逐像素相乘操作；s为相关性向量；/>表示由两个全连接层组成的多层感知机；/>表示预测的二维置信度图m与融合的特征F_x第i个通道特征图的相关性运算；σ(·)表示sigmoid运算，该过程如图6所示。

5)在卷积神经网络的不同层级重复步骤4)，并记录不同层级下目标感知融合模块输出的特征F_y。

6)将不同层级的特征送入特征金字塔网络，以融合多尺度的特征，并记录；

7)将输出的多尺度特征输入到检测器的检测头中，输出预测框和相对应的置信度得分，完成检测过程。

如图7为基于本发明方法进行行人检测的结果，由图7可知本发明方法的检测结果与真实标注完全一致，该方法能够实现全天候的行人检测。

Claims

1.一种基于目标感知融合策略的RGB-T多光谱行人检测方法，其特征在于，步骤如下：

2.根据权利要求1所述的一种基于目标感知融合策略的RGB-T多光谱行人检测方法，其特征在于，所述基于目标感知融合策略在特征空间对提取的多光谱特征进行融合，包括两个步骤：

S1：多光谱特征聚合：使用特征通道分层机制处理所述多光谱特征，输出初步融合的特征；

S2：多光谱特征优化，分成两路优化初步融合的特征，具体方法为：一路使用三层卷积层将初步融合的特征处理成一个单通道的二维置信度图，随后计算所述二维置信度图与初步融合的通道特征图之间的相关性向量，之后使用两层全连接层处理所述相关性向量；另一路将所述初步融合的特征与所述经全连接层处理的相关性向量相乘，获得优化的特征并输出。

3.根据权利要求2所述的一种基于目标感知融合策略的RGB-T多光谱行人检测方法，其特征在于，所述步骤S1中，所述特征通道分层机制分两路处理所述多光谱特征，具体方法为：一路使用一层卷积层压缩多光谱特征的通道维度，另一路使用一层卷积和残差模块压缩多光谱特征的通道维度，之后将两路处理的特征在通道维度上拼接并经过一层卷积层输出初步融合的特征。

4.一种用于执行权利要求1-3任一项所述方法的检测模型，其特征在于，所述检测模型的训练过程包括如下步骤：

4)在每个层级进行如下处理：

其中，[F_rgb，F_thermal]表示在通道方向上拼接的RGB和热红外图像特征；表示多光谱特征聚合模块中的第i个卷积层，θ_i表示第i个卷积层的可学习参数；/>表示一个残差卷积模块；

其中，

表示逐像素相乘操作；s为相关性向量；σ(·)表示sigmoid运算；/>表示由两个全连接层组成的多层感知机；/>表示预测的二维置信度图m与融合的特征F_x第i个通道特征图的相关性运算；θ_seg表示分割分支的可学习参数；

表示二值交叉熵损失函数；/>表示Dice损失函数；∈是一个小的常数，为了防止除以0和除0的情况；m_i和/>表示二维置信度图m和真实的二维置信度图/>在第i个位置处的值；s_i表示相关性向量s在第i个位置处的值；

7)将步骤6)得到的多尺度特征输入到检测器的检测头中，输出预测框和相对应的置信度得分；

8)计算预测结果与真实目标框之间的损失值，并记录；

9)加权步骤5)与8)中计算所得的损失值；

10)根据步骤9)所得的损失值，使用随机梯度下降方式更新卷积神经网络的可学习参数；