CN113361475A

CN113361475A - 一种基于多阶段特征融合信息复用的多光谱行人检测方法

Info

Publication number: CN113361475A
Application number: CN202110748340.2A
Authority: CN
Inventors: 陈莹; 朱宇; 化春键; 李祥明; 胡蒙; 裴佩
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-07

Abstract

本发明公开了一种基于多阶段特征融合信息复用的多光谱行人检测方法，属于多模态信息处理技术领域。所述方法包括：将成对的红外和可见光图片经由双流VGG16网络分别提取中间层特征做早期特征堆叠融合，获得早期融合特征，并基于融合特征生成行人建议。将生成的每一个行人建议先映射回三个多模态特征进行多特征池化，再进行高层池化特征加权融合，同时使用高低层特征池化策略组合池化特征，以完成高低层特征的联合。最后将池化特征送入全连接层完成检测任务。实验结果表明：在KAIST多光谱行人检测数据集上，获得76.24％的行人检测精度，行人平均漏检率下降至27.63％。

Description

一种基于多阶段特征融合信息复用的多光谱行人检测方法

技术领域

本发明涉及一种基于多阶段特征融合信息复用的多光谱行人检测方法，属于多模态信息处理技术领域。

背景技术

随着人工智能的迅速崛起，无人驾驶技术、智能视频监控已经成为智慧城市领域的重要组成部分。无人驾驶技术可以通过集成行人检测技术，感知外界环境，自动避让行人，从而保障行人生命安全。智能视频监控也可以利用行人检测技术，获取场景中行人目标的位置，实现预防违法犯罪行为，防范意外等功能。因此行人检测技术对规范交通，维护治安有着积极的意义，是构建智慧城市的关键技术之一。

无人驾驶技术、智能视频监控均属于全天候的应用，而仅使用可见光作为输入源的传统行人检测由于可见光图像在不良照明条件和烟、雾、灰尘等恶劣天气下的表现力不佳，在夜间和恶劣天气下易丢失行人目标，因此难以满足全天候应用的要求。红外图像技术基于红外热成像原理，能够通过热辐射的差异区分出行人目标和背景，因此具有抗干扰性强、不易受恶劣环境影响的优点，在夜晚也能较好的显示出人形，有效弥补了可见光图像易受光照影响的缺陷。但是红外图像相比可见光图像，存在分辨率较低、纹理清晰度不高的问题，在光照较好的条件下，红外图像可提供的视觉信息不如可见光图像。因此可见光图像和红外图像各自的优缺点使两者在全天候情况下具有互补性，因此，同时采用红外和可见光图像作为输入源的多光谱行人检测技术可以有效克服光照、恶劣天气等环境因素对无人驾驶、智能视频监控的影响。

但是现有的融合可见光图像和红外图像的行人检测方法只选定某一层特征融合，比如附图1A所示的低层特征融合、图1B所示的中间层特征融合、图1C所示的高层特征融合。这些融合方法将融合机制的输入局限于选定层的特征，却忽视其它剩下的层依然能为行人检测任务提供有效信息，而且只使用融合后的特征完成后续检测任务，一定程度上忽略了单模态上的局部信息，从而导致检测性能低下。

发明内容

为了现有融合可见光图像和红外图像的行人检测方法的检测性能严重依赖融合特征的质量，一旦融合机制性能不稳定，检测结果也会受到较大影响的问题，本发明提供了一种基于多阶段特征融合信息复用的多光谱行人检测方法，所述方法包括：

将成对的红外和可见光图片经由双流VGG16网络分别提取中间层特征做早期特征堆叠融合，获得早期融合特征，并基于所述早期融合特征生成行人建议；将生成的每一个行人建议先映射回三个多模态特征进行多特征池化，得到高层池化特征，再进行高层池化特征加权融合，同时使用高低层特征池化策略对高低层池化特征进行组合，以完成高低层特征的联合，得到高低层池化联合特征；最后将高低层池化联合特征送入全连接层获得行人目标的分类分数和定位框；

所述行人建议指对行人的初步定位信息；每对红外和可见光图片为在同一时刻、同一场景下拍摄并经过配准后的红外图片和可见光图片。

可选的，所述方法包括：

S1，获取成对的红外图片和可见光图片；每对图片为在同一时刻、同一场景下拍摄并经过配准后的红外图片和可见光图片；

S2，将每对红外图片和可见光图片经由双流VGG16网络分别提取低层特征、中间层特征以及高层特征；

S3，将提取到的红外低层特征Conv3-T和可见低层特征Conv3-V进行特征融合得到低层融合特征Conv3-F，并对所述低层融合特征Conv3-F进行感兴趣区域池化操作得到低层池化特征Pool-conv3；将提取到的红外中间层特征Conv4-T和可见中间层特征Conv4-V进行早期特征堆叠融合，得到早期融合特征Conv4-F，并对所述早期融合特征Conv4-F进行卷积操作得到第三模态高层特征Conv5-F，并对所述第三模态高层特征Conv5-F进行感兴趣区域池化操作得到第三模态高层池化特征Pool-F；将提取到的红外高层特征Conv5-T和可见高层特征Conv5-V分别进行感兴趣区域池化操作得到红外高层池化特征Pool-T和可见高层池化特征Pool-V；

S4，将得到的红外高层池化特征Pool-T和可见高层池化特征Pool-V进行后期池化特征加权融合操作得到后期加权融合池化特征Pool-W，并将所述后期加权融合池化特征Pool-W、第三模态高层池化特征Pool-F以及低层池化特征Pool-conv3进行级联操作得到高低层池化联合特征，最后将高低层池化联合特征送入全连接层获得行人目标的分类分数和定位框。

本申请还提供一种基于多阶段特征融合信息复用的多光谱行人检测网络框架，所述网络框架包括：特征提取模块、中间层特征融合模块、区域建议生成模块、区域注意力模块、后期池化特征融合模块、高低层特征级联模块以及全连接层；其中，通过特征提取模块提取红外中间层特征Conv4-T和可见中间层特征Conv4-V送入中间层特征融合模块获得早期融合特征Conv4-F，然后早期融合特征Conv4-F进行卷积操作得到第三模态高层特征Conv5-F输入区域建议生成模块获得行人建议，同时在由特征提取模块提取到的红外高层特征Conv5-T和可见高层特征Conv5-V后接入区域注意力模块以优化特征，再将行人建议映射回特征提取模块提取的低层融合特征Conv3-F、红外高层特征Conv5-T、可见高层特征Conv5-V以及中间层特征融合模块获得的特征Conv5-F，并对其进行池化分别获得低层池化特征Pool-conv3、红外高层池化特征Pool-T、可见高层池化特征Pool-V、第三模态高层池化特征Pool-F，然后将Pool-T和Pool-V输入后期池化特征融合模块得到后期加权融合池化特征Pool-W，再将Pool-W、Pool-conv3、Pool-F输入高低层特征级联模块获得高低层池化联合特征，输入全连接层获得行人目标的分类分数和定位框。

可选的，所述特征提取模块以及全连接层选用在ImageNet上预训练的VGG16网络为基础网络。

可选的，所述网络框架采用以下步骤进行训练测试以获得最优参数下的网络框架：

步骤1，构建训练集Train-02和测试集Test-20；

步骤2，利用图像训练集Train-02对所述网络框架进行训练；

步骤2.1，将成对红外和可见光图片依次送入特征提取模块提取特征，直到分别生成红外高层特征Conv5-T和可见高层特征Conv5-V；所述特征提取模块包含两路网络结构完全相同的网络，分别用于对可见光流S-V和红外流S-T进行低层、中间层以及高层特征提取；

步骤2.2，选取特征尺寸均为C×H×W的来自可见光流S-V和红外流S-T的第四块卷积的最后一层特征：Conv4-T和Conv4-V输入中间层特征融合模块，完成前期特征融合操作；

(1)在通道维度进行特征级联，获得尺寸为2C×H×W的堆叠特征；

(2)用1*1的卷积对堆叠特征进行降维及信息交互，获得尺寸为C×H×W的早期融合特征Conv4-F；

步骤2.3：将早期融合特征Conv4-F送入融合流S-F生成第三模态高层特征Conv5-F，其中融合流为VGG16网络的第五块卷积操作，包含一个最大池化层、三组3*3的卷积层和ReLU激活层；

步骤2.4：在第三模态高层特征Conv5-F后接入区域建议生成模块生成行人建议；在红外高层特征Conv5-T和可见高层特征Conv5-V后接入区域注意力模块；

步骤2.5：采用感兴趣区域将生成的每一个行人建议分别映射回Conv5-T、Conv5-V、Conv5-F并池化得到尺寸为7×7的池化特征Pool-T、Pool-V、Pool-F；

步骤2.6：将Pool-T、Pool-V输入后期池化特征融合模块，进行后期池化特征融合：

(1)：将Pool-T、Pool-V进行特征堆叠，使用全局平均池化压缩堆叠后的特征以获取全局信息；

(2)：对上一步获得的全局平均池化压缩堆叠后的特征利用三个全连接层建模模态相关性，同时分离出两个特征；

(3)：对上一步获得的两个特征使用Sigmoid激活函数得到两个模态的权值w₁，w₂，将w₁，w₂分别与Pool-T、Pool-V相乘获得对应的两个加权特征；

(4)：将上一步获得的两个加权特征级联并降维，获得后期融合特征Pool-W；

步骤2.7：选取步骤2.1中来自S-T和S-V的红外低层特征Conv3-T和可见低层特征Conv3-V特征对，将Conv3-T和Conv3-V进行级联并降维得到低层融合特征Conv3-F，通过步骤2.5在Conv3-F上获得低层池化特征Pool-conv3，采用高低层特征级联模块对Pool-conv3、Pool-W、Pool-T和Pool-V进行特征级联和降维，得到用于检测的特征；

步骤2.8：将步骤2.7得到的用于检测的特征送去全连接层，获得行人目标的分类分数和定位框；

步骤2.9：重复上述步骤2.1至步骤2.8，迭代训练，直到获得最优参数下的网络框架；

步骤(4)：测试最优参数下的网络框架。

可选的，所述网络框架的训练过程中，步骤1包括：

步骤1.1，每隔2帧采样多光谱行人检测数据集中的红外和可见光视频的训练部分视频序列，获取成对的红外和可见光图像训练集Train-02，图像训练集Train-02中相同序列号的每对图片为在同一时刻、同一场景下拍摄并经过配准后的红外图片和可见光图片；

每隔20帧采样多光谱行人检测数据集中的测试部分视频序列，获取成对的红外和可见光图像测试集Test-20，图像测试集Test-20中相同序列号的每对图片为在同一时刻、同一场景下拍摄并经过配准后的红外图片和可见光图片；

步骤1.2，对图像训练集Train-02中的所有图片进行翻转，以扩充训练数据。

可选的，所述网络框架中区域建议生成模块采用Faster RCNN检测网络的区域建议生成网络RPN，用两个1*1的卷积去分别预测行人的位置和分类分数。

可选的，所述RPN的损失函数为分类损失L_cls和位置损失L_regs的加权和：

其中α是设置的权值，设为1。

可选的，所述分类损失L_cls为：L_cls(p_i,g_i)＝-log[g_ip_i+(1-g_i)(1-p_i)]，为交叉熵损失，即对于每一个样本计算对数损失，然后除以总的样本数量N；其中，p_i为第i个预测框预测为行人目标的概率，g_i＝{1,0}分别代表前景和背景的标签值；在区域建议生成网络中，N_regs表示挑选的负样本数量，设置为256；

位置损失L_regs为

其中，函数R为Smooth L1损失表达式x表示

t_i＝{t_x,t_y,t_w,t_h}，表示第i个样本预测的偏移量，

与t_i维度相同，表示第i个样本相对于真实值的实际偏移量；x、y、w、h代表检测框的中心点坐标、宽和高。

本发明有益效果是：

通过分别在可见光和红外光两个单模态特征后加入区域注意力网络，引导对应模态的特征更加关注行人部分，丰富了两个单模态的特征，进而提升了行人检测性能，进一步的，通过在前期特征融合的基础上，加入后期池化特征融合，修正和补充前期融合特征上的错误和有效信息，解决了现有检测方法中只选用某单一特征层做红外和可见光的特征融合，导致特征信息浪费，从而造成行人漏检和误检的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为现有基于底层特征融合的多光谱行人检测方法流程简图；

图1B为现有基于中间层特征融合的多光谱行人检测方法流程简图；

图1C为现有基于高层特征融合的多光谱行人检测方法流程简图；

图2为本申请一个实施例提供的基于多阶段特征融合信息复用的多光谱行人检测方法对应的网络框图。

图3为本申请一个实施例提供的基于多阶段特征融合信息复用的多光谱行人检测方法对应的网络框图中后期池化特征融合模块的结构示意图。

图4为现有方法中单阶段融合策略在KAIST数据集中可见光图像上的检测结果仿真图。

图5为现有方法中单阶段融合策略在KAIST数据集中红外图像上的检测结果仿真图。

图6为本申请一个实施例中提供的基于多阶段特征融合信息复用的多光谱行人检测方法在KAIST数据集中可见光图像上的检测结果仿真图。

图7为本申请一个实施例中提供的基于多阶段特征融合信息复用的多光谱行人检测方法在KAIST数据集中红外图像上的检测结果仿真图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参见图1，当前一些多光谱行人检测算法在多光谱信息融合阶段通常只选定某一层特征融合，比如图1A所示的低层特征融合、图1B所示的中间层特征融合、图1C所示的高层特征融合。这些融合方法将融合机制的输入局限于选定层的特征，却忽视其它剩下的层依然能为行人检测任务提供有效信息，而且只使用融合后的特征完成后续检测任务，一定程度上忽略了单模态上的局部信息。尤其是二阶段目标检测器，相当于在分类阶段只使用前期融合特征，不使用单模态的特征，检测性能的优劣会更加依赖融合特征的质量，一旦融合机制性能不稳定，检测结果也会受到较大影响。因此本发明提供一种基于多阶段特征融合信息复用的多光谱行人检测技术，具体介绍如下：

实施例一：

本实施例提供一种基于多阶段特征融合信息复用的多光谱行人检测方法，所述方法包括：

具体的，所述方法包括：

实施例二：

本实施例提供一种基于多阶段特征融合信息复用的多光谱行人检测方法，参见图2，所述方法包括建立的基于多阶段特征融合信息复用的多光谱行人检测网络框架，并采用公开的数据集对其进行训练以获得最优参数下的网络框架，进而利用训练好的网络框架实现行人检测，所述网络框架包括：特征提取模块、中间层特征融合模块、区域建议生成模块、区域注意力模块、后期池化特征融合模块、高低层特征级联模块以及全连接层；其中通过特征提取模块提取红外中间层特征Conv4-T和可见中间层特征Conv4-V送入中间层特征融合模块获得早期融合特征Conv4-F，然后早期融合特征Conv4-F进行卷积操作得到第三模态高层特征Conv5-F输入区域建议生成模块获得行人建议，同时在由特征提取模块提取到的红外高层特征Conv5-T和可见高层特征Conv5-V后接入区域注意力模块以优化特征，再将行人建议映射回特征提取模块提取的低层融合特征Conv3-F、红外高层特征Conv5-T、可见高层特征Conv5-V以及中间层特征融合模块获得的特征Conv5-F，并对其进行池化分别获得低层池化特征Pool-conv3、红外高层池化特征Pool-T、可见高层池化特征Pool-V、第三模态高层池化特征Pool-F，然后将Pool-T和Pool-V输入后期池化特征融合模块得到后期加权融合池化特征Pool-W，再将Pool-W、Pool-conv3、Pool-F输入高低层特征级联模块获得高低层池化联合特征，输入全连接层获得行人目标的分类分数和定位框。

网络框架的训练过程包括：

步骤(1)：预处理数据集；

具体的，包括：

步骤1.1：每隔2帧采样KAIST多光谱行人检测数据集中的红外和可见光视频的训练部分视频序列，获取成对的红外和可见光图像训练集Train-02。

每隔20帧采样多光谱行人检测数据集中的测试部分视频序列，获取成对的红外和可见光图像测试集Test-20。

确保两个训练集(测试集)中相同序列号的两张图片是在同一时刻、同一场景下拍摄并经过配准后的红外和可见光图片；步骤1.2：对Train-02中的所有图像进行翻转，以扩充训练数据；

本申请采用公开的数据集对所建立的基于多阶段特征融合信息复用的多光谱行人检测网络框架进行训练，KAIST多光谱行人检测数据集是2015年由韩国KAIST大学制作的行人检测数据集，提供常规交通场景下的红外视频序列以及可见光视频序列，并通过相机校准等方法进行严格的图像配准，也是目前为止唯一一个大型的，提供成对对齐的可见光和红外图像的数据集。

KAIST数据集可参考Hwang Soonmin的“Multispectral pedestrian detection:Benchmark dataset and baseline”，该文章于2015年发表在《IEEE Conference onComputer Vision and Pattern Recognition》第1037-1045页。

步骤(2)：训练网络模型，学习率为0.001，冲量为0.9，权重衰减项为0.0005，批尺寸为2，具体操作如下：

步骤2.1：参见图2，将步骤(1)处理过的训练集中的成对红外和可见光图像以及对应行人标注依次送入特征提取模块提取特征，直到生成高层特征Conv5-T和Conv5-V。

所述特征提取模块包含两路结构完全相同的网络，分别是可见光流(Stream-Visible,S-V)和红外流(Stream-Thermal,S-T)，皆以去掉全连接层的VGG16网络为基础网络，包含五块卷积Conv1-Conv5，每块卷积皆由3*3的卷积层，ReLU激活层，以及最大池化层组成，两路网络不共享参数。

步骤2.2：参见图2，选取特征尺寸均为C×H×W的来自S-T和S-V的第四块卷积的最后一层特征：Conv4-T和Conv4-V输入中间层特征融合模块，完成前期特征融合操作：

(2)用1*1的卷积对堆叠特征进行降维及信息交互，获得尺寸为C×H×W的融合特征Conv4-F；

步骤2.3：参见图2，将Conv4-F送入融合流(Stream-Fusion,S-F)，生成高层特征Conv5-F，其中融合流为VGG16网络的第五块卷积操作；

步骤2.4：参见图2，在Conv5-F后接入区域建议生成网络(Region ProposalNetwork,RPN)生成行人建议(Proposals)。在Conv5-T和Conv5-V后接入区域注意力模块(Region Attention Network,RAN)，以优化各单模态分支的性能。区域建议生成模块采用Faster RCNN检测网络的区域建议生成网络，用两个1*1的卷积去分别预测行人的位置和分类分数。RAN与RPN卷积部分结构相同，但是RPN最后通过一个行人建议层输出行人建议，两者共享网络参数。

Faster RCNN可参考Ren Shaoqing的“Faster R-CNN:Towards real-time objectdetection with region proposal networks”，该文章于2016年发表在《IEEETransactions on Pattern Analysis and Machine Intelligence》第1137-1149页。

RAN与RPN的损失函数相同，是分类损失L_cls和位置损失L_regs的加权和为：

其中α是设置的权值，设为1。

两者的分类损失L_cls为：L_cls(p_i,g_i)＝-log[g_ip_i+(1-g_i)(1-p_i)]，为交叉熵损失，即对于每一个样本计算对数损失，然后除以总的样本数量N，其中，p_i为第i个样本预测为正样本的概率，g_i＝{1,0}分别代表前景和背景的标签值。在区域建议生成网络中，N_regs设置为256。

位置损失L_regs为

其中，函数R为Smooth L1损失，为：

t_i＝{t_x,t_y,t_w,t_h}，表示第i个样本预测的偏移量，

与t_i维度相同，表示第i个样本相对于真实值的实际偏移量；x，y，w，h代表框的中心点坐标，宽和高。

步骤2.5：参见图2，采用感兴趣区域对齐池化操作(ROI Align)将生成的每一个Proposals分别映射回Conv5-T、Conv5-V、Conv5-F并池化得到尺寸为7×7的池化特征Pool-T、Pool-V、Pool-F；

步骤3.6：参见图2，将Pool-T、Pool-V输入后期池化特征融合模块，进行后期池化特征融合。后期池化特征融合网络结构参见图3，具体操作如下：

(1)：将Pool-T、Pool-V，记作P_V、P_T，进行特征堆叠，再使用全局平均池化：f_gp(·)，对级联后的特征进行特征压缩，将7*7*1024维的特征压缩成F_g，使之具有全局的感受野。这一步的操作用公式表示为：

(2)：对F_g利用三个全连接层建模模态相关性。第一个FC层将特征F_g降维至256维，以减少模型参数量和计算量，再经过ReLU层进行激活，以加强特征的非线性，从而更好的拟合模态间复杂的相关性，然后经由两个并行的FC层将特征分离开，同时将分离出的两特征升维回原来的维度。这一步的操作用公式表示为：F₁＝f_ad(δ(f_sq(F_g)))，F₂＝f_ad(δ(f_sq(F_g)))，其中，f_sq(·)代表第一个全连接，f_ad(·)代表并行的第二个全连接，δ表示ReLU操作，F₁和F₂是分离出的两个特征；。

(3)：对F₁和F₂使用Sigmoid激活函数得到两个模态的权值w₁，w₂，将w₁，w₂分别与Pool-T、Pool-V相乘获得两个加权特征。这一步的操作用公式表示为：

(4)：将权重w₁、w₂与原始红外和可见光的特征相乘，获得加权后的两个特征，再对加权特征进行级联，并用1*1的卷积降维，输出Pool-W，记作P_W。这一步的操作用公式表示为：

其中c、b分别代表卷积核的权重和偏差。

步骤3.7：选取步骤3.1中来自S-T和S-V的Conv3-T和Conv3-V特征对，将Conv3-T和Conv3-V进行级联并降维得到融合特征Conv3-F，通过步骤3.5在Conv3-F上获得池化特征Pool-conv3，采用高低层特征级联模块对Pool-conv3、Pool-W、Pool-F进行特征级联和降维，得到用于检测的特征；

步骤3.8：将步骤3.7得到的特征送去全连接层，获得行人目标的分类分数和定位框；

步骤3.9：重复上述步骤，迭代训练，直到获得最优检测模型。训练阶段，网络的整体损失函数为：

是两组RAN损失，一组RPN损失和一组RCNN损失的加权和。其中，λ₁、λ₂、λ₃、λ₄为各子网络的权值，均设为1。

分别为可见光流的区域注意力网络损失，红外流的区域注意力网络损失以及融合流的区域建议生成网络损失；RCNN损失与3.2.4中RPN损失相似，分类损失使用交叉熵损失，为Smooth L1损失，整体RCNN损失是位置损失与分类损失的加权和。

步骤(4)：测试网络模型，行人交并比(Intersection Over Union,IOU)设置为0.5：

步骤4.1：将测试集Test-20中的成对红外和可见光图像输入检测模型，完成特征提取、特征融合以及分类回归，获得行人目标的位置和分类分数，输出检测结果。

为了体现本申请提出的基于多阶段特征融合信息复用的多光谱行人检测方法取得了优于现有采用单阶段特征融合行人检测方法的性能，本申请在KAIST数据集上分别采用两种方法进行了仿真实验，参见图4至图7。细框线是由数据集提供的原始标注，粗框线是检测器输出的预测框。

由图4至图7可知，拍摄场景是位于白天场景下的街区环境，街区环境背景比较杂乱，行人目标易被混淆，两种方法的多模态网络均将行人目标检测出来，然而采用现有单阶段融合策略的多模态网络出现了误检的情况，图4和图5所示的采用现有单阶段融合策略得到的检测结果中将最右侧商店门口的几个黑色障碍物误检成了行人，在可见光图像上，商店门口的黑色障碍物的确容易与行人混淆，但在红外图像上，这些物体的特征信息并不显著。

由此可见现有单阶段融合策略未充分利用两模态上的信息，从而出现了误检的现象。而图6和图7所示的采用本申请方法进行检测的检测结果中将所有行人目标均检测出来，未出现误检和漏检现象，验证了本申请多阶段融合策略的有效性。

为了进一步验证并突出本申请提出方法的有效性，与现有先进方法ACF+T+THOG、Halfway-fusion、Fusion-RPN、IAF-RCNN、TS-RPN在KAIST多光谱行人检测数据集下做了比较，如表1所示。可以看出本申请在全时段获得了最低的平均漏检率(MR)：27.63％和最高的平均精度(AP)：76.24％，对比次优算法Fusion-RPN，AP值提升了0.9％，MR值降低了2.1％，对比其它几种算法，平均漏检率分别减小了27.17％、8.37％、3.67％、3.03％，平均精度分别提升了23.01％、7.36％、4.33％，显然性能优于其它几种方法。

表1：本申请与不同算法在KAIST多光谱行人检测集上相关评价指标比较结果

上述提到的现有先进方法中：

ACF+T+THOG，是利用ACF特征提取算法提取两模态特征，再使用特征级联方法融合多模态特征。由于是首个针对KAIST多光谱数据集提出的多光谱行人检测算法，因此常被用作Baseline算法可参考Hwang Soonmin的“Multispectral pedestrian detection:Benchmark dataset and baseline”，该文章于2015年发表在《IEEE Conference onComputer Vision and Pattern Recognition》第1037-1045页。

Halfway-fusion，是以Faster R-CNN目标检测器为行人检测基础框架，并采用中间层特征通道堆叠策略完成红外和可见光两种模态的融合，以最大限度的整合红外和可见光信息，同时更好的保留低层的细节信息和高层的语义信息，可参考Liu Jingjing的“Multispectral deep neural networks for pedestrian detection”，该文章于2016年发表在《British Machine Vision Conference》第73.1-73.13页。

Fusion-RPN，是使用Faster R-CNN框架中的区域建议生成网络和增强决策树分类算法(Boosted Decision Trees，BDT)协同完成多光谱行人检测，在模态融合部分沿用Halfway-fusion的中间层特征通道堆叠策略，可参考Daniel Konig的“Fullyconvolutional region proposal networks for multispectral person detection”，该文章于2017年发表在《IEEE Conference on Computer Vision and PatternRecognition》第49-56页。

IAF-RCNN，是在多光谱行人检测框架中引入光照感知机制，通过设计一种光照感知模块来模拟外界照明情况，判断是白天或是黑夜的概率，然后根据红外模态和可见光模态在不同光照环境下的不同特性为两者分配不同权重，用于两者的加权融合，可参考LiChengyang的“Illumination-aware faster R-CNN for robust multispectralpedestrian detection”，该文章于2019年发表在《Pattern Recognition》第161-171页。

TS-RPN，是采用双流区域建议生成网络，在模态融合部分选取中间层特征做堆叠融合，并利用多光谱数据集的标注信息迭代标记行人实例，自动生成更可靠的标签，以提升行人检测算法的鲁棒性，降低人工标注的成本，可参考Cao Yanpeng的“Pedestriandetection with unsupervised multispectral feature learning using deep neuralnetworks”，该文章于2019年发表在《Information Fusion》第206-217页。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多阶段特征融合信息复用的多光谱行人检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法包括：

3.一种基于多阶段特征融合信息复用的多光谱行人检测网络框架，其特征在于，所述网络框架包括：特征提取模块、中间层特征融合模块、区域建议生成模块、区域注意力模块、后期池化特征融合模块、高低层特征级联模块以及全连接层；其中，通过特征提取模块提取红外中间层特征Conv4-T和可见中间层特征Conv4-V送入中间层特征融合模块获得早期融合特征Conv4-F，然后早期融合特征Conv4-F进行卷积操作得到第三模态高层特征Conv5-F输入区域建议生成模块获得行人建议，同时在由特征提取模块提取到的红外高层特征Conv5-T和可见高层特征Conv5-V后接入区域注意力模块以优化特征，再将行人建议映射回特征提取模块提取的低层融合特征Conv3-F、红外高层特征Conv5-T、可见高层特征Conv5-V以及中间层特征融合模块获得的特征Conv5-F，并对其进行池化分别获得低层池化特征Pool-conv3、红外高层池化特征Pool-T、可见高层池化特征Pool-V、第三模态高层池化特征Pool-F，然后将Pool-T和Pool-V输入后期池化特征融合模块得到后期加权融合池化特征Pool-W，再将Pool-W、Pool-conv3、Pool-F输入高低层特征级联模块获得高低层池化联合特征，输入全连接层获得行人目标的分类分数和定位框。

4.根据权利要求3所述的网络框架，其特征在于，所述特征提取模块以及全连接层选用在ImageNet上预训练的VGG16网络为基础网络。

5.根据权利要求4所述的网络框架，其特征在于，所述网络框架采用以下步骤进行训练测试以获得最优参数下的网络框架：

步骤1，构建训练集Train-02和测试集Test-20；

步骤2，利用图像训练集Train-02对所述网络框架进行训练；

步骤(4)：测试最优参数下的网络框架。

6.根据权利要求5所述的网络框架，其特征在于，所述网络框架的训练过程中，步骤1包括：

7.根据权利要求6所述的网络框架，其特征在于，所述网络框架中区域建议生成模块采用Faster RCNN检测网络的区域建议生成网络RPN，用两个1*1的卷积去分别预测行人的位置和分类分数。

8.根据权利要求7所述的网络框架，其特征在于，所述RPN的损失函数为分类损失L_cls和位置损失L_regs的加权和：

其中α是设置的权值，设为1。

9.根据权利要求8所述的网络框架，其特征在于，

所述分类损失L_cls为：L_cls(p_i,g_i)＝-log[g_ip_i+(1-g_i)(1-p_i)]，为交叉熵损失，即对于每一个样本计算对数损失，然后除以总的样本数量N；其中，p_i为第i个预测框预测为行人目标的概率，g_i＝{1,0}分别代表前景和背景的标签值；在区域建议生成网络中，N_regs表示挑选的负样本数量，设置为256；

位置损失L_regs为

其中，函数R为Smooth L1损失表达式x表示

t_i＝{t_x,t_y,t_w,t_h}，表示第i个样本预测的偏移量，