CN116311077B

CN116311077B - 一种基于显著性图的多光谱融合的行人检测方法及装置

Info

Publication number: CN116311077B
Application number: CN202310374850.7A
Authority: CN
Inventors: 宫彦; 王前进; 付振华; 王璐; 徐礼胜
Original assignee: 东北大学
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-11-07
Anticipated expiration: 2043-04-10
Also published as: CN116311077A

Abstract

本申请提供了一种基于显著性图的多光谱融合的行人检测方法及装置，涉及智能驾驶技术领域，所述方法包括：获取当前时刻的目标区域的RGB图像和红外图像；对红外图像进行显著性行人检测处理，得到显著性图；利用预先训练完成的融合网络对RGB图像、显著性图和红外图像进行处理，得到多尺度行人检测结果；所述融合网络包括：Backbone网络，Neck网络和Head网络；所述Backbone网络，用于对RGB图像、显著性图和红外图像进行跨维度和跨通道的多模态特征提取，并通过可学习因子对多模态特征进行加权融合，得到行人区域显著的融合特征图；对融合特征图进行处理，得到三个尺度的特征图。本申请提高了夜间环境下行人检测的精度。

Description

一种基于显著性图的多光谱融合的行人检测方法及装置

技术领域

本申请涉及智能驾驶技术领域，尤其是涉及一种基于显著性图的多光谱融合的行人检测方法及装置。

背景技术

由于可见光成像系统分辨率高、信噪比高、对比度高、价格低廉、普适性广等优点，所以针对可见光提出了大量高性能的行人检测算法。但由于单传感器的局限性，导致可见光成像系统在夜晚、重影等恶劣环境下表现较差。随着传感器技术的迅速发展，各种传感器的性能更加优越、价格更加低廉，使得多传感器信息融合成为可能。自然界中的一切物体，由于内部的分子热运动，当其内部温度高于绝对零度时，都会存在红外辐射。在特定环境下，红外成像系统具有显著的优势，红外成像系统工作环境适应范围广、隐蔽性好、红外短波穿透能力强，可以很好地在弱光、浓雾等复杂环境下工作，但在强光、高温等环境下表现差。从某种意义上来讲，可见光成像系统和红外成像系统是互补的关系。

融合红外图像和可见光图像实现行人检测是一种比较新颖的思路，但信息融合仍面临较大的难题，同时也是多模态信息融合必会遇到的难题：数据空间和特征空间的不平衡问题。由于成像基理不同，两种数据源在数据空间上有着不同的表现，红外图像更凸显红外辐射强的物体，可见光则对色彩、纹理等更加敏感。随着神经网络的深入，相同的行人物体在两种模态特征图中有着不同的表现。采用融合信息，更多的信息则需要更多的计算资源和时间，若没有合适的融合方法，更多信息可能导致数据的冗余、重叠，进而导致网络性能退化。目前缺乏将红外图像和可见光图像进行融合并用于行人检测的技术方案。

发明内容

有鉴于此，本申请提供了一种基于显著性图的多光谱融合的行人检测方法及装置，以解决上述技术问题。

第一方面，本申请实施例提供了一种基于显著性图的多光谱融合的行人检测方法，所述方法包括：

获取当前时刻的目标区域的RGB图像和红外图像；

对红外图像进行显著性行人检测处理，得到显著性图；

利用预先训练完成的融合网络对RGB图像、显著性图和红外图像进行处理，得到多尺度行人检测结果；所述融合网络包括：Backbone网络，Neck网络和Head网络；

所述Backbone网络，用于对RGB图像、显著性图和红外图像进行跨维度和跨通道的多模态特征提取，并通过可学习因子对多模态特征进行加权融合，得到行人区域显著的融合特征图；对融合特征图进行处理，得到三个尺度的特征图；

所述Neck网络，用于对三个尺度的特征图进行融合处理，得到处理后的三个尺度的特征图；

所述Head网络，用于采用三个检测头分别对三个尺度的特征图进行行人检测，输出行人检测结果。

进一步地，所述Backbone网络包括：特征提取模块、模态平衡模块和多尺度处理模块；

所述特征提取模块，用于提取RGB图像的视觉特征图，提取显著性图和红外图像的红外特征图；

所述模态平衡模块，用于通过跨维度和跨通道的交互方式对视觉特征图和红外特征图进行融合，得到行人区域显著的融合特征图；

所述多尺度处理模块，用于对行人区域显著的融合特征图进行处理，得到三个不同尺度的特征图。

进一步地，所述特征提取模块包括并行的RGB图像特征提取分支和红外图像特征提取分支；

所述RGB图像特征提取分支的输入为RGB图像，输出为视觉特征图；所述RGB图像特征提取分支包括：Focus模块、基本特征提取单元、处理模块和基本特征提取单元；

所述Focus模块包括四个并行的切片操作单元、拼接单元和基本特征提取单元；拼接单元用于将四个切片操作单元的输出进行拼接；

所述基本特征提取单元包括：卷积层、批标准层和激活函数SiLU，其中，激活函数SiLU定义为：SiLU(x)＝xσ(x)，σ(x)为sigmoid函数，x为变量；

所述处理模块包括并行的第一处理分支和第二处理分支、拼接单元和基本特征提取单元；第一处理分支包括：基本特征提取单元和残差单元；第二处理分支包括基本特征提取单元；拼接单元用于对第一处理分支的输出和第二处理分支的输出进行拼接；

所述残差单元包括：两个连接的基本特征提取单元和加法器，两个连接的基本特征提取单元对输入的特征图进行处理，将处理结果输入加法器，加法器对输入的特征图和处理结果进行相加后得到残差；

所述红外图像特征提取分支的输入为显著性图和红外图像，输出为红外特征图；红外图像特征提取分支包括：输入级融合单元、Focus模块、基本特征提取单元、处理模块和基本特征提取单元；所述输入级融合单元，用于将显著性图作为红外图像的第三个通道，将三个通道的红外图像输入至红外图像特征提取分支的Focus模块。

进一步地，所述模态平衡模块包括：并行的视觉特征图处理分支和红外特征图处理分支、拼接单元、基本特征提取单元、并行的第一子分支、第二子分支、第三子分支和第四子分支以及加权处理单元；

视觉特征图处理分支包括基本特征提取单元和残差单元，红外特征图处理分支包括基本特征提取单元和残差单元；拼接单元将视觉特征图处理分支的输出和红外特征图处理分支的输出进行拼接；基本特征提取单元对拼接单元的输出进行处理，得到三维特征图X；

所述第一子分支将三维特征图X沿三维特征图坐标系的H轴逆时针旋转90度，得到三维特征图X₁'(C,H,W)，其中，C为通道数，H和W为图像的高和宽；再对三维特征图X₁'(C,H,W)的第三个维度进行最大池化和平均池化的级联，得到三维特征图X₁”(C,H,2)；通过卷积核大小为K的卷积操作和批标准化操作对三维特征图X₁”(C,H,2)进行处理，得到中间尺寸的三维特征图X₁”'(C,H,1)；通过Sigmoid函数对三维特征图X₁”'(C,H,1)进行处理，得到权重，将X₁'(C,H,W)和权重进行元素相乘操作，再沿三维特征图坐标系的H轴顺时针旋转90度，生成三维特征图X_C-H；

所述第二子分支将三维特征图X沿三维特征图坐标系的W轴逆时针旋转90度，得到三维特征图X₂'(W,C,H)，通过Z-pool操作对三维特征图X₂'(W,C,H)进行处理得到三维特征图X₂”(W,C,2)；通过卷积核大小为K的卷积操作和批标准化操作对三维特征图X₂”(W,C,2)进行处理，得到中间尺寸的三维特征图X₂”'(C,H,1)；通过Sigmoid函数对三维特征图X₂”'(C,H,1)进行处理，得到权重，将X₂'(W,C,H)和权重进行元素相乘操作，再沿三维特征图坐标系的W轴顺时针旋转90度，生成三维特征图X_C-W；

所述第三子分支将三维特征图X通过Z-pool操作得到三维特征图X₃'(W,C,2)；通过卷积核大小为K的卷积操作和批标准化操作对三维特征图X₃'(W,C,2)进行处理，得到三维特征图X₃”(W,H,1)，通过Sigmoid函数对三维特征图X₃”(W,H,1)进行处理得到权重，将三维特征图X和权重进行元素相乘操作，生成三维特征图X_W-H；

所述第四子分支将三维特征图X通过全局平均池化生成三维特征图X₄'(1,1,C)，对三维特征图X₄'(1,1,C)的各张量进行排序，得到三维特征图X₄”(1,1,C)；然后使用卷积核大小为K的一维卷积操作对三维特征图X₄”(1,1,C)进行跨通道的局部交互，再通过Sigmoid函数生成权重，利用前面的排序索引对权重的张量顺序进行复原，将三维特征图X和复原的权重进行元素相乘操作，生成三维特征图X_C-C；

加权处理单元，用于通过可学习因子对四个子分支的输出进行加权求和,得到融合特征图MBM_out：

MBM_out＝θ₁*X_C-H+θ₂*X_C-W+θ₃*X_W-H+θ₄*X_C-C

其中,θ₁，θ₂，θ₃和θ₄均为可学习参数；

将融合特征图MBM_out分别输入多尺度处理模块和Neck网络。

进一步地，所述多尺度处理模块包括：基本特征提取单元、处理模块、基本特征提取单元和SPP模块；所述C3模块的结果一路输出至基本特征提取单元，一路输出至Neck网络。

所述SPP模块包括：基本特征提取单元、四个并行的最大池化分支、拼接单元和基本特征提取单元，四个最大池化分支包括：1*1padding操作,5*5padding操作,9*9padding操作和13*13padding操作，拼接单元将四个最大池化分支的输出进行拼接操作。

进一步地，所述Neck网络包括：自顶向下Top-down模块和自底向上Bottom-up模块；自顶向下Top-down模块包括：第一处理模块、第一基本特征提取单元、第一上采样单元、第一拼接单元、第二处理模块、第二基本特征提取单元、第二上采样单元和第二拼接单元；

第一处理模块与SPP模块连接，第一拼接单元将第一上采样单元的输出和多尺度处理模块的处理模块的输出进行拼接；第二拼接单元将第二上采样单元的输出和模态平衡模块的输出进行拼接；

所述自底向上Bottom-up模块包括：第三处理模块、第三基本特征提取单元、第三拼接单元、第四处理模块、第四基本特征提取单元、第四拼接单元和第五处理模块；第三处理模块和第二拼接单元连接；第三拼接单元将第三基本特征提取单元的输出和第二基本特征提取单元的输出进行拼接；第四拼接单元将第四基本特征提取单元的输出和第一基本特征提取单元的输出进行拼接。

进一步地，所述Head网络包括三个并行的第一检测头、第二检测头和第三检测头，三个检测头均采用基本特征提取单元；第一检测头连接自底向上Bottom-up模块的第五处理模块，第二检测头连接自底向上Bottom-up模块的第四处理模块，第三检测头连接自底向上Bottom-up模块的第三处理模块。

第二方面，本申请实施例提供了一种基于显著性图的多光谱融合的行人检测装置，所述装置包括：

获取单元，用于获取当前时刻的目标区域的RGB图像和红外图像；

处理单元，用于对红外图像进行显著性行人检测处理，得到显著性图；

行人检测单元，用于利用预先训练完成的融合网络对RGB图像、显著性图和红外图像进行处理，得到多尺度行人检测结果；所述融合网络包括：Backbone网络，Neck网络和Head网络；

所述Backbone网络，用于对显著性图、红外图像和RGB图像进行跨维度和跨通道的多模态特征提取，并通过可学习因子对多模态特征进行加权融合，得到行人区域显著的融合特征图；对融合特征图进行处理，得到三个尺度的特征图；

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现本申请实施例的方法。

本申请提高了夜间环境下行人检测的精度。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于显著性图的多光谱行人检测方法的流程图；

图2为本申请实施例提供的融合网络的结构图；

图3为本申请实施例提供的特征提取分支Base_module的结构图；

图4为本申请实施例提供的Focus模块的结构图；

图5为本申请实施例提供的基本特征提取单元CBL的结构图；

图6为本申请实施例提供的处理模块C3的结构图；

图7为本申请实施例提供的残差单元Res_unit的结构图；

图8为本申请实施例提供的模态平衡模块MBM的结构图；

图9为本申请实施例提供的SPP模块的结构图；

图10为本申请实施例提供的基于显著性图的多光谱行人检测装置的功能结构图；

图11为本申请实施例提供的电子设备的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例的设计思想进行简单介绍。

常见的基于可见光成像系统的行人检测技术在弱光、浓雾等情况下表现较差，考虑引入红外成像系统进行融合是很好的想法，但不恰当的融合方式容易导致信息冗余，难以提升性能。一般来讲，融合算法需要考虑更多信息，推理速度慢，但实时性对于监控安防和自动驾驶等领域来说十分重要。

为此，本申请提供了一种基于显著性图的多光谱融合行人检测方法，该方法在YOLOV5的基础上，提出了一种模态平衡模块(Modal Balance Module，MBM)，可捕获跨维度和跨通道的交互特征，通过考虑隐藏的照明条件来自适应地融合红外和可见光特征，在网络中间层进行融合实现更加鲁棒的行人检测方法。此外，在输入端还使用了显著性图，更一步提高红外图像中行人特征的表示。该方法在KAIST多光谱行人数据集上MR(MissRate)为20.84％，尤其对于夜晚场景仅有8.91％的MR，FPS达到120以上，模型大小仅为14MB，已满足高精度、实时、低存储的要求，便于在移动端和嵌入式端进行部署。

本申请的优势在于：

1、本申请同时使用红外图像和RGB图像，对于弱光、夜晚等恶劣环境有着很好的行人检测效果，这对于安防、自动驾驶等领域有着重要的作用；

2、本申请提出了一个多光谱的融合网络，通过跨通道和跨维度信息交互的方式对红外图像和自然图像进行融合，此外，还使用了显著性图来增强红外图像中行人特征，将显著性图和红外图像进行输入级融合；该网络能够提高对行人的关注程度，增强检测性能；本申请所提出的多光谱的融合网络在KAIST上可达83％的精度，在夜晚场景仅有8.91％的MR，模型大小仅为14MB，推理速度可达120FPS，在移动端和嵌入式端有着较大潜力；

3、本申请通过模态平衡模块MBM对红外图像和RGB图像进行信息融合，并加入显著性图，使得行人检测更加高效和准确。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图1所示，本申请实施提供一种基于显著性图的多光谱融合行人检测方法，所述方法包括：

步骤101：获取当前时刻的目标区域的RGB图像和红外图像；

其中，RGB图像通过RGB相机采集得到，红外图像通过红外相机采集得到，因此，需要对RGB相机和红外相机进行传感器标定，这将直接影响到两种模态的数据初期是否可以对齐。对于传感器的内外参数标定，需要用到校准目标板或校准球。在确定参数时，本实施例使用了校准球，并且主要根据红外图像和RGB图像计算了校准球的中心。在图像中，通过边缘检测球体的轮廓，然后将椭圆拟合到边缘点。由于椭圆的大小是已知的，因此根据椭圆参数，可以确定球的中心。其详细步骤为：运行数据标定软件并播放数据；通过HSV范围选择颜色，并根据图像的识别效果进行调整；当可见光图像和红外图像的识别效果良好时，此时将记录球体的中心点，多次记录不同位置的数据以计算外部参数。

步骤102：对红外图像进行显著性行人检测处理，得到显著性图；

对于一幅图像来说，只对图像中的部分区域感兴趣，这部分感兴趣的区域代表了查询意图，而多数剩余的不感兴趣区域则与查询意图无关。显著区域是图像中最能引起用户兴趣、最能表现图像内容的区域。在本实施例中，将行人作为显著性目标。由于红外图像对比度低，在夜晚场景中会更加凸显出行人，故利用显著性目标检测技术生成显著性图可帮助实现更高精度行人检测技术。由于卷积神经网络(CNN)的多级和多尺度特征能够在不使用任何先验知识的情况下准确地捕获最显着的区域。即使存在阴影或反射，多级特征也允许CNN更好地定位检测到的突出区域的边界。由于这些优越性，基于CNN的显著性目标检测方法在几乎所有现有数据集上刷新历史记录，成为显著性目标检测中的主流方法。本实施例采用R³Net算法进行显著性行人检测，该方法考虑到浅层网络可捕获更多的显著细节，但高层网络能可以减少预测中的非显着区域，故交替利用全卷积网络(FCN)的低层特征和高层特征来学习显着性预测和GroudTruth的残差损失。

步骤103：利用预先训练完成的融合网络对RGB图像、显著性图和红外图像进行处理，得到多尺度行人检测结果；

针对可见光图像、显著性图和红外图像融合的行人检测技术，设计了融合网络，如图2所示，所述融合网络包括：Backbone网络，Neck网络和Head网络；为更好地提高行人检测的性能，在输入端引入显著性图，它可由红外图像通过显著性目标检测方法生成(如：R³Net)。最重要的是提出了模态平衡模块(Modal Balance Module，MBM)，它可自适应的对跨维度和跨通道的特征进行交互，避免了直接对日夜分类求权重的分支网络，隐式的捕获两种模态的独有信息，从而改变融合权重。针对白天和夜晚的不同场景，都有着极佳的表现，并且十分轻量级(14MB)，有着较强的实时性(FPS>＝120)，同时Baseline采用YOLOV5结构，大大提高了检测速度。

多模态特征提取和交互的Backbone网络：对于整个网络的输入端，采用显著性图、红外图像和可见光图像。考虑到红外图像中有两个通道相同，故将显著性图作为红外图像的第三个通道插入，实现输入级的融合。

具体的，所述Backbone网络包括：特征提取模块(图2中的两个Base_module)、模态平衡模块MBM和多尺度处理模块；所述特征提取模块，用于提取RGB图像的视觉特征图，提取显著性图和红外图像的红外特征图；所述模态平衡模块，用于通过跨维度和跨通道的交互方式对视觉特征图和红外特征图进行融合，得到行人区域显著的融合特征图；所述多尺度处理模块，用于对行人区域显著的融合特征图进行处理，得到三个不同尺度的特征图。

其中，所述特征提取模块包括并行的RGB图像特征提取分支Base_module和红外图像特征提取分支Base_module；

所述RGB图像特征提取分支的输入为RGB图像，输出为视觉特征图；如图3所示，所述RGB图像特征提取分支包括：Focus模块、基本特征提取单元CBL、处理模块C3和基本特征提取单元CBL；

如图4所示，所述Focus模块包括四个并行的切片操作单元Slice、拼接单元Concat和基本特征提取单元CBL；拼接单元用于将四个切片操作单元的输出进行拼接；具体操作类似邻近下采样每隔一个像素取一个像素值，这样就将一张图像转换为四张图像，四张图像互补并进行级联，将W和H(图像的尺寸)信息集中到通道空间，输入通道扩充了4倍，且没有信息丢失，设输入为(W,H,C)，分别表示宽度、高度和通道数。经过切片操作后，将变为(W/2,H/2,4*C)。

如图5所示，所述基本特征提取单元CBL包括：卷积层Conv、批标准层BN和激活函数SiLU，其中，激活函数SiLU定义为：SiLU(x)＝xσ(x)，σ(x)为sigmoid函数，x为变量；

如图6所示，处理模块C3包括并行的第一处理分支和第二处理分支、拼接单元Concat和基本特征提取单元CBL；第一处理分支包括：基本特征提取单元CBL和残差单元Res_unit；第二处理分支包括基本特征提取单元CBL；拼接单元用于对第一处理分支的输出和第二处理分支的输出进行拼接；

处理模块借鉴CSPNet和ResNet的设计思想，将输入(W,H,C)分为两个分支，每个分支通过基本特征提取单元后通道数发生变化，第一处理分支中通过残差单元Res_unit进一步提取特征，之后两个处理分支通过拼接操作进行级联，并再次通过基本特征提取单元。处理模块将基础层的特征映射划分为两部分，然后通过跨阶段层次结构将它们合并，在避免梯度信息重复和减少计算量的同时可以保证准确率。

如图7所示，残差单元Res_unit包括：两个连接的基本特征提取单元CBL和加法器Add，两个连接的基本特征提取单元对输入的特征图进行处理，将处理结果输入加法器，加法器对输入的特征图和处理结果进行相加后得到残差；残差单元通过Identity mapping在输入和输出之间建立了一条关联通道，从而使得强大的卷积层集中精力学习输入、输出之间的残差关系，有利于缓解深层网络引发的梯度消失和梯度爆炸问题。

对于模态平衡模块(MBM)，主要目的是考虑跨维度和跨通道的特征交互，以便于红外和可见光两种模态进行自适应地深层次融合，

如图8所示，所述模态平衡模块MBM包括：并行的视觉特征图处理分支和红外特征图处理分支、拼接单元Concat、基本特征提取单元CBL、并行的第一子分支、第二子分支、第三子分支和第四子分支以及加权处理单元ADD；

视觉特征图处理分支包括基本特征提取单元CBL和残差单元Res_unit，红外特征图处理分支包括基本特征提取单元CBL和残差单元Res_unit；拼接单元将视觉特征图处理分支的输出和红外特征图处理分支的输出进行拼接；基本特征提取单元对拼接单元的输出进行处理，得到三维特征图X；

每个子分支网络旨在进行一定程度的特征交互，使得多模态融合更加彻底，行人特征更加明显，最后通过可学习参数θ₁，θ₂，θ₃和θ₄这四个可学习参数将四个子分支进行累加操作，生成最终的特征图作为后续网络层的输入。四个子分支网络分别对(C,H),(C,W),(W,H)和(C,C)进行特征交互，自适应地寻找感兴趣区域，隐式学习不同模态的交互信息，生成注意特征图以便更好地进行行人检测。在介绍子分支网络前，先引入Z-pool概念，Z-poollayer将张量(Tensor)的平均池化(Average pool)和最大池化(Max pool)结果进行级联，故Tensor的第3维将减少为2，Z-pool定义如下：

Z-pool＝[Maxpool_3d(x),AvgPool_3d(x)]

其中Maxpool_3d(x)和AvgPool_3d(x)分别表示最大池化和平均池化，它们的下标3d表示第三个维度，[]表示拼接操作。

四个子分支网络详细介绍如下：

所述第一子分支将三维特征图X沿三维特征图坐标系的H轴逆时针旋转90度，得到三维特征图X₁'(C,H,W)，其中，C为通道数，H和W为图像的高和宽；再对三维特征图X₁'(C,H,W)的第三个维度进行最大池化和平均池化的级联，得到三维特征图X₁”(C,H,2)；通过卷积核大小为K的卷积操作和批标准化操作对三维特征图X₁”(C,H,2)进行处理，得到中间尺寸的三维特征图X₁”'(C,H,1)；通过Sigmoid函数对三维特征图X₁”'(C,H,1)进行处理，得到权重，将X₁'(C,H,W)和权重进行元素相乘操作，再沿三维特征图坐标系的H轴顺时针旋转90度，生成三维特征图X_C-H；如图8所示，三维特征图坐标系包括W轴、H轴和C轴。

MBM_out＝θ₁*X_C-H+θ₂*X_C-W+θ₃*X_W-H+θ₄*X_C-C

其中,θ₁，θ₂，θ₃和θ₄均为可学习参数；

将融合特征图MBM_out分别输入多尺度处理模块和Neck网络。

如图2所示，所述多尺度处理模块包括：基本特征提取单元CBL、处理模块C3、基本特征提取单元CBL和SPP模块；其中的处理模块C3的结果一路输出至基本特征提取单元，一路输出至Neck网络；

如图9所示，所述SPP模块包括：基本特征提取单元CBL、四个并行的最大池化分支Maxpool、拼接单元Concat和基本特征提取单元CBL，四个最大池化分支包括：1*1padding操作,5*5padding操作,9*9padding操作和13*13padding操作，拼接单元将四个最大池化分支的输出进行拼接操作。本实施例中，最大池化采用padding操作。相比单纯的使用k*k最大池化的方式，SPP模块更有效的增加主干特征的接收范围，显著的分离了最重要的上下文特征。

多尺度特征融合的Neck网络，包括借鉴FPN的自顶向下Top-down结构和借鉴PAN的自底向上Bottom-up结构，旨在针对多尺度特征进行融合，提高检测精度。低级特征包含更多的细节信息，有助于定位，对于小目标检测十分重要，而高级特征语义信息更加丰富，有助于识别。

如图2所示，所述Neck网络包括：自顶向下Top-down模块和自底向上Bottom-up模块；自顶向下Top-down模块包括：第一处理模块C3、第一基本特征提取单元CBL、第一上采样单元Upsample、第一拼接单元Concat、第二处理模块C3、第二基本特征提取单元CBL、第二上采样单元Upsample和第二拼接单元Concat；

第一处理模块C3与SPP模块连接，第一拼接单元Concat将第一上采样单元的输出和多尺度处理模块的处理模块的输出进行拼接；第二拼接单元Concat将第二上采样单元的输出和模态平衡模块的输出进行拼接；

需要注意的是，上采样后的特征图会与前两次下采样之前的特征图进行横向级联。Top-down结构的特征图属于高级特征，含有较强语义信息，通过在空间上进行上采样Upsampling展现出更高分辨率的特征，并通过Concatenate操作横向连接Backbone中的前向传播的特征图，丰富细节特征。

Bottom-up模块用于将Top-down模块的输出不断进行下采样，并与Top-downTop-down模块上采样的特征金字塔进行级联提高定位精度，

所述自底向上Bottom-up模块包括：第三处理模块C3、第三基本特征提取单元CBL、第三拼接单元Concat、第四处理模块C3、第四基本特征提取单元CBL、第四拼接单元Concat和第五处理模块C3；第三处理模块和第二拼接单元连接；第三拼接单元将第三基本特征提取单元的输出和第二基本特征提取单元的输出进行拼接；第四拼接单元将第四基本特征提取单元的输出和第一基本特征提取单元的输出进行拼接。

需要注意的是，本次基础单元下采样后的特征图与前两次上采样之前的特征图进行横向级联。PAN结构类似于FPN结构，进行Bottom-up的特征传递。这样，Top-down传达强语义特征，Bottom-up传达强定位特征，从不同的主干层对不同的检测层进行多尺度聚合，实现对定位和语义信息的增强，大大提高了检测精度。

实现检测功能的Head网络采用三个检测头对不同尺寸的目标进行检测，设置不同的Anchor Box进行不同尺度的检测任务，特征图越大，感受野越小，越容易检测小的目标，故最大的特征图对应较小的Anchor Box；通过CBL进行特征提取；此外，根据预测边界框的置信度，使用加权的NMS方法来消除重复出现的边界框，可以提高被遮挡目标的检测性能。

具体地，所述Head网络包括三个并行的第一检测头、第二检测头和第三检测头，三个检测头均采用基本特征提取单元；第一检测头连接自底向上Bottom-up模块的第五处理模块，第二检测头连接自底向上Bottom-up模块的第四处理模块，第三检测头连接自底向上Bottom-up模块的第三处理模块。

在融合网络的输入中，将显著性图和红外图像作输入级融合，而将RGB图像和与显著性图融合后的红外图像作中间融合，通过精心设计的MBM结构加强多模态特征信息交互，捕获跨维度和跨通道的信息。通过在KAIST数据集上的实验证明，融合网络中加入MBM结构和显著性图对行人检测有着更好的性能提升。

此外，所述方法还包括：对融合网络进行训练的步骤：

步骤S1：获取训练数据集；其中，训练数据集中包括多个样本图像组，所述样本图像组包括：RGB图像样本、红外图像样本和显著性图样本；

深度学习模型对数据集有着较大的依赖，需要更加庞大的数据集和更强的计算资源，因此，本实施例收集具有同一场景的红外-RGB图像对；由于收集的数据集已经过预处理，比摄像头直接得到的数据清晰度更高，对齐性更好。若将融合网络部署于工程任务，还需要再次收集新的数据，以便于融合网络在实际场景下进行微调。

本实施例使用的数据集是KAIST，它是目前唯一具有良好对齐性的公开的红外-可见光图像数据集。该数据集获取的红外-可见光图像数据集是通过安装在行驶车辆上的可见光摄像头和红外摄像头实时采集的，需要指出的是，两种传感器需要同步采集，并减少采集同一场景的误差。RGB图像样本和红外图像样本来自红外-可见光图像数据集，对红外图像样本进行显著性行人检测处理，得到显著性图样本。

在实际的使用中，通常搭载于车上进行实时检测，通过车载摄像头在ROS系统下采集较长的视频，并对视频进行抽帧以生成具有时序信号的图片，然后使用标注工具LabelImg进行标注。

为了提高数据集的质量，对图像进行了预处理，包括数据扩充、数据清洗、数据审核等方法。在数据扩充方面，本实施例使用了尺度变化、Mosaic数据增强、色彩变化、添加噪声等的方法对数据的数据集进行了扩充。在尺度变化方面，通过将图片进行自适应缩放，最小化填充的黑边，使网络可以适应不同尺寸的图片输入。Mosaic数据增强，采用4张图片以随机缩放、随机裁剪、随机排布的方式进行拼接，在增加小目标的同时并较少了GPU占用。在色彩变化方面，本实施例通过调节色调、饱和度进行数据增强。图像噪声是图像在获取或传输过程中受到随机信号的干扰，在图像上出现一些干扰信息，为此本实施例通过添加高斯噪声和椒盐噪声扩充数据集。

在数据清洗方面，针对数据的不完整性以及不准确性，针对有问题的“脏数据”，对其进行数据清洗。对于不完整数据和异常数据，如：严重的遮挡和曝光场景，进行了数据剔除。在数据集划分方面：对于KAIST子数据集，将数据集分别按8：1：1划分为训练集、测试集、验证集，以减轻过拟合现象。

在行人检测任务中，基于监督学习训练融合网络需要对收集到的数据集进行行人标注。对可见光图像进行了数据标注，将图像中的较为明显的行人标注出来，对严重遮挡、不清晰、不确定等情况下的行人未进行标定。

步骤S2：将训练数据集中的每个样本图像组分别输入融合模型，得到每个样本图像组对应的行人检测的预测结果；

步骤S3：基于每个样本图像组对应的行人检测的预测结果和标注结果，确定损失函数值；

步骤S4：基于损失函数值，更新融合网络的参数。

基于上述实施例，本申请实施例提供了一种基于显著性图的多光谱融合的行人检测装置，参阅图10所示，本申请实施例提供的基于显著性图的多光谱融合的行人检测装置200至少包括：

获取单元201，用于获取当前时刻的目标区域的RGB图像和红外图像；

处理单元202，用于对红外图像进行显著性行人检测处理，得到显著性图；

行人检测单元203，用于利用预先训练完成的融合网络对RGB图像、显著性图和红外图像进行处理，得到多尺度行人检测结果；所述融合网络包括：Backbone网络，Neck网络和Head网络；

需要说明的是，本申请实施例提供的基于显著性图的多光谱融合的行人检测装置200解决技术问题的原理与本申请实施例提供的基于显著性图的多光谱融合的行人检测方法相似，因此，本申请实施例提供的基于显著性图的多光谱融合的行人检测装置200的实施可以参见本申请实施例提供的基于显著性图的多光谱融合的行人检测方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图11所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的基于显著性图的多光谱融合的行人检测。

本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)3021和/或高速缓存存储器3022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)3023。

存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025，程序模块3024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图11所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图11中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图11所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的方法。具体地，该可执行程序可以内置或者安装在电子设备300中，这样，电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于显著性图的多光谱融合的行人检测。

本申请实施例提供的方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备300上运行时，该程序代码用于使电子设备300执行本申请实施例提供的基于显著性图的多光谱融合的行人检测方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行修改或者等同替换，都不脱离本申请技术方案的精神和范围，其均应涵盖在本申请的权利要求范围当中。

Claims

1.一种基于显著性图的多光谱融合的行人检测方法，其特征在于，所述方法包括：

获取当前时刻的目标区域的RGB图像和红外图像；

对红外图像进行显著性行人检测处理，得到显著性图；

所述Head网络，用于采用三个检测头分别对三个尺度的特征图进行行人检测，输出行人检测结果；

所述Backbone网络包括：特征提取模块、模态平衡模块和多尺度处理模块；

所述多尺度处理模块，用于对行人区域显著的融合特征图进行处理，得到三个不同尺度的特征图；

所述特征提取模块包括并行的RGB图像特征提取分支和红外图像特征提取分支；

所述红外图像特征提取分支的输入为显著性图和红外图像，输出为红外特征图；红外图像特征提取分支包括：输入级融合单元、Focus模块、基本特征提取单元、处理模块和基本特征提取单元；所述输入级融合单元，用于将显著性图作为红外图像的第三个通道，将三个通道的红外图像输入至红外图像特征提取分支的Focus模块；

所述模态平衡模块包括：并行的视觉特征图处理分支和红外特征图处理分支、拼接单元、基本特征提取单元、并行的第一子分支、第二子分支、第三子分支和第四子分支以及加权处理单元；

MBM_out＝θ₁*X_C-H+θ₂*X_C-W+θ₃*X_W-H+θ₄*X_C-C

其中,θ₁，θ₂，θ₃和θ₄均为可学习参数；

将融合特征图MBM_out分别输入多尺度处理模块和Neck网络。

2.根据权利要求1所述的方法，其特征在于，所述多尺度处理模块包括：基本特征提取单元、处理模块、基本特征提取单元和SPP模块；所述处理模块的结果一路输出至基本特征提取单元，一路输出至Neck网络；

3.根据权利要求2所述的方法，其特征在于，所述Neck网络包括：自顶向下Top-down模块和自底向上Bottom-up模块；自顶向下Top-down模块包括：第一处理模块、第一基本特征提取单元、第一上采样单元、第一拼接单元、第二处理模块、第二基本特征提取单元、第二上采样单元和第二拼接单元；

4.根据权利要求3所述的方法，其特征在于，所述Head网络包括三个并行的第一检测头、第二检测头和第三检测头，三个检测头均采用基本特征提取单元；第一检测头连接自底向上Bottom-up模块的第五处理模块，第二检测头连接自底向上Bottom-up模块的第四处理模块，第三检测头连接自底向上Bottom-up模块的第三处理模块。

5.一种基于显著性图的多光谱融合的行人检测装置，其特征在于，所述装置包括：

MBM_out＝θ₁*X_C-H+θ₂*X_C-W+θ₃*X_W-H+θ₄*X_C-C

其中,θ₁，θ₂，θ₃和θ₄均为可学习参数；

将融合特征图MBM_out分别输入多尺度处理模块和Neck网络。

6.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-4任一项所述的方法。