CN109063559B

CN109063559B - 一种基于改良区域回归的行人检测方法

Info

Publication number: CN109063559B
Application number: CN201810685848.0A
Authority: CN
Inventors: 姚莉; 周威威; 吴含前
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2021-05-11
Anticipated expiration: 2038-06-28
Also published as: CN109063559A

Abstract

本发明公开了一种基于改良区域回归的行人检测方法，包括标记训练样本；构建包括卷积特征提取、语义分割层、分类层和区域回归层的区域生成网络，利用训练样本迭代更新其参数；构建包括卷积特征提取、语义分割层和分类层的深度卷积神经网络，利用前一步获取到的多个候选区域迭代更新其参数；获取待检测行人的图像；将待检测图像输入训练好的区域生成网络，得到多个候选区域及每个候选区域p被预测为行人和背景的置信度评分；将前一步得到的多个候选区域，选择前N_top个输入训练好的深度卷积神经网络，得到每个候选区域q被预测为行人和背景的置信度评分；融合前两步的结果，得到候选区域q被预测为行人的概率。该方法通过融合多网络输出，能够提供端到端的行人检测方案。

Description

一种基于改良区域回归的行人检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于深度学习的的行人检测技术。

背景技术

行人检测作为目标检测的一个主要分支，主要针对各种姿态的行人进行检测和识别，无论是公共场所的监控安防预警系统，还是汽车的自动驾驶技术，有非常普遍的应用场景。针对行人进行检测的各种算法和框架系统近年来也不断涌现，传统的机器学习方法利用提取图像特征如积分通道特征(ICF)、RotatedFilters和Checkerboard检测行人。此外，基于神经网络的深度学习方法也应用于行人检测中，利用卷积神经网络(CNN)可以实现端对端的行人检测，得益于GPU加速技术，深度学习逐渐成为行人检测的主流方法。

目前国内外关于行人检测还存在着有待解决的问题：

(1)对于依赖提取图像特征的机器学习方法而言，不仅会受到行人形状、角度和相似干扰物的影响，同时也对训练集比较敏感，容易受到错误标注的“噪声”影响。

(2)多人场景下的人群互遮挡问题突出，但目前大多行人检测别算法并没有对此类遮挡情况进行特殊处理，针对此类问题的优化也较少，在公共场景和人群聚集的情况下会产生行人位置偏移或定位错误，进而影响行人检测的准确率。

(3)非行人干扰物的影响，包括前景物体的遮挡和类似行人的物体在实际场景中也比较常见，在干扰物与行人位置比较接近的情况下，现有方法依赖色彩等特征检测效果不佳。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供了一种基于改良区域回归的行人检测方法，使用深度学习技术，通过融合多网络输出，能够提供端到端的行人检测方案。

技术方案：本发明采用如下技术方案：

一种基于改良区域回归的行人检测方法，包括如下步骤：

(1)采用若干包含行人的图像作为训练样本，在训练样本图像中用矩形框标记行人，所述矩形框为标记包围盒；

(2)构建区域生成网络，所述区域生成网络包括卷积特征提取、语义分割层、分类层和区域回归层；将训练样本输入所述区域生成网络中，通过最小化区域生成网络的损失函数来迭代更新区域生成网络的参数，直至区域生成网络的损失函数达到预设的收敛条件，得到训练好的区域生成网络、多个候选区域及每个候选区域被预测为行人和背景的置信度评分；所述区域生成网络的损失函数为区域生成网络中语义分割层、分类层和区域回归层损失函数的加权和；

(3)构建深度卷积神经网络，所述深度卷积神经网络包括卷积特征提取、语义分割层和分类层；将步骤(2)获取到的多个候选区域，选择被预测为行人的置信度评分最高的前N_top个作为深度卷积神经网络的输入，通过最小化深度卷积神经网络的损失函数来迭代更新深度卷积神经网络的参数，直至深度卷积神经网络的损失函数达到预设的收敛条件，得到训练好的深度卷积神经网络、N_top个候选区域中每个候选区域被预测为行人和背景的置信度评分；所述深度卷积神经网络的损失函数为深度卷积神经网络中语义分割层和分类层损失函数的加权和；

(4)获取待检测行人的图像，将其预处理，使其大小匹配区域生成网络输入图片的大小；

(5)将预处理后的待检测图像输入步骤(2)训练好的区域生成网络，得到多个候选区域及每个候选区域p被预测为行人和背景的置信度评分，记为[p,rpn_score₁,rpn_score₀]；其中rpn_score₁为区域p被预测为行人的置信度评分，rpn_score₀为区域p被预测为背景的置信度评分；

(6)将步骤(5)得到的多个候选区域，选择被预测为行人的置信度评分最高的前N_top个输入步骤(3)训练好的深度卷积神经网络，进行进一步分类，得到每个候选区域q被预测为行人和背景的置信度评分，记为[q,cnn_score₁,cnn_score₀]；其中cnn_score₁为区域q被预测为行人的置信度评分，cnn_score₀为区域q被预测为背景的置信度评分；

(7)融合区域候选网络和深度卷积神经网络的结果，得到候选区域q被预测为行人的概率fusion_score(q)：

其中rpn_score_q1为区域q在区域候选网络中被预测为行人的置信度评分，rpn_score_q0为区域q在区域候选网络中被预测为背景的置信度评分；cnn_score_q1为区域q在深度卷积神经网络中被预测为行人的置信度评分，cnn_score_q0为区域q在深度卷积神经网络中被预测为背景的置信度评分。

所述步骤(2)具体包括：

(21)训练样本图像输入构建的区域生成网络，经过卷积特征提取生成卷积特征图；在最后一层卷积特征图上，构建一层卷积层，使用anchor机制配合卷积核窗口滑动，产生大小和比例各不相同的anchor，映射到原图对应不同的候选区域；

(22)步骤(21)生成的候选区域根据与标记包围盒的重叠区域大小分成正区域样本集合P⁺和负区域样本集合P^-；

(23)区域生成网络的分类层对候选区域进行简单分类，输出每个候选区域属于行人和背景的概率作为该候选区域被预测为行人和背景的置信度评分；定义区域生成网络分类层的损失函数L_cls(p)；

(24)区域生成网络的区域回归层预测出候选区域的位置及大小；定义区域生成网络区域回归层的损失函数L_reg(p)；

(25)如果有多个候选区域对应一个标记包围盒的情况，采用soft-NMS方法进行区域筛选，剔除重复的候选区域；

(26)对训练样本图像做语义标记，标记包围盒所在区域为行人语义，其余区域为背景语义；对候选区域进行box-based的语义分割，定义区域生成网络中语义分割层的损失函数L_seg(p)；

(27)区域生成网络的损失函数为：

L(p)＝α_p*L_cls(p)+α_l*L_reg(p)+α_s*L_seg(p)

其中，α_p、α₁和α_s为调节权重的超参数；

通过最小化区域生成网络的损失函数L(p)来迭代更新区域生成网络的参数，直至区域生成网络的损失函数达到预设的收敛条件，得到训练好的区域生成网络、多个候选区域及每个候选区域被预测为行人和背景的置信度评分。

所述步骤(3)具体包括：

(31)将步骤(2)获取到的多个候选区域，选择被预测为行人的置信度评分最高的前N_top个作为深度卷积神经网络的输入；

(32)深度卷积神经网络的特征提取部分基于VGG-16的卷积模块，共享卷积部分的网络权重，因此可以根据相应比例，直接将候选区域的位置映射到共享特征图上的对应特征区域，通过ROI Pooling输出固定维度的特征向量；

(33)深度卷积神经网络的分类层输出相应的行人或背景置信度评分；定义深度卷积神经网络的分类层的损失函数

(34)对深度卷积神经网络的输入做语义标记，标记包围盒所在区域为行人语义，其余区域为背景语义；对候选区域进行box-based的语义分割，定义区域生成网络中语义分割层的损失函数

(35)深度卷积神经网络的损失函数为：

其中β_p、β_s为调节权重的超参数；

通过最小化深度卷积神经网络的损失函数来迭代更新深度卷积神经网络的参数，直至深度卷积神经网络的损失函数达到预设的收敛条件，得到训练好的深度卷积神经网络、N_top个候选区域中每个候选区域被预测为行人和背景的置信度评分。

所述区域生成网络中分类层的损失函数为：

其中i_p表示候选区域p经过softmax层归一化后，预测为行人的概率；i_p ^★为样本标签，如果p为正样本，即：p∈P⁺，则i_p ^★＝1，如果p为负样本，即：p∈P^-，则i_p ^★＝0；

区域生成网络区域回归层的损失函数为：

L_reg(p)＝γ_a*Attr(p)+γ_g*Rep_G(p) (2)

其中γ_a、γ_g为调节不同子项权重的超参数；Attr为目标包围盒区域的损失函数，Attr(p)＝∑_p∈P+Smooth_L1(t_i-t_i ^★)i∈{x，y，w，h}，t_i＝{t_x，t_y，t_w，t_h}为回归过程中候选区域p相对于初始anchor位置的平移缩放参数，t_i ^★＝{t_x ^★，t_y ^★，t_w ^★，t_h ^★}为目标包围盒g_p相对于初始anchor位置的平移缩放参数；所述目标包围盒g_p为与候选区域重叠度最大的标记包围盒；

定义

为除目标包围盒g_p外，与候选区域p相交且重叠度最大的标记包围盒，RepG(p)为区域

的损失函数，

区域生成网络中语义分割层的损失函数为：

其中，s_p表示候选区域p属于为行人语义遮罩的概率，s_p ^★是语义标记，如果该区域表示为行人，则s_p ^★＝1，否则s_p ^★＝0。

所述深度卷积神经网络中分类层的损失函数为：

其中P^*为每一张图像中的候选区域集合；width_p为候选区域p的宽度，

为集合P^*内所有区域的平均宽度。

有益效果：与现有技术相比，本发明公开的行人检测方法具有以下优点：1、本发明基于深度学习技术，结合区域生成网络和卷积神经网络，融合两个阶段网络的输出，可以提供端到端的行人检测；2、本发明改进了传统的区域回归策略，并应用在区域生成网络中，候选行人区域在区域回归的过程中，不仅需要靠近预测的行人区域，还需要远离临近的非目标行人，减少定位时的偏移；3、本发明在卷积特征层上通过增加语义分割层，生成包含行人和背景信息的语义遮罩，能够对后续的分类提供有效帮助，减少临近干扰物的影响。

附图说明

图1为区域生成网络示意图；

图2为改良区域回归策略示意图。

图3为本发明公开的基于改良区域回归的行人检测流程示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明的具体实施案例做说明。

本发明公开了一种基于改良区域回归的行人检测方法，包括训练阶段和检测阶段，步骤如下：

步骤1、采用若干包含行人的图像作为训练样本，在训练样本图像中用矩形框标记行人；训练样本图像的选择要尽可能涵盖多种情况，如图像中有一个或多个行人，多个行人位置分散，行人有遮挡等；对训练样本图像进行手工标定，用矩形框，即标记包围盒来标记图像中的行人，标记包围盒的大小依据行人的大小设置；

步骤2、构建区域生成网络RPN，如图1所示，区域生成网络的包括卷积特征提取、语义分割层、分类层(cls层)和区域回归层(reg层)；具体包括如下步骤：

(21)训练样本图像输入构建的区域生成网络，经过卷积特征提取生成卷积特征图；在最后一层卷积特征图上，构建一层卷积层，使用anchor机制配合卷积核窗口滑动，产生大小和比例各不相同的anchor，映射到原图对应不同的候选区域；本实施例中卷积特征提取部分采用基于VGG-16的卷积模块，经过卷积特征提取网络生成卷积特征图；构建的卷积层卷积核为3×3，每个滑动窗口生成9个anchor；在经过多层卷积和池化后的高维卷积特征上，即在最后一层卷积特征图上，构建一层语义分割层作为融合语义信息的具体实现方式，生成表示行人和背景语义的两类遮罩；本实施例中通过卷积核大小为1×1，步长为1，输出深度为2的全连接层来实现，这样可以将语义信息与卷积特征图直接融合；

(22)步骤(21)生成的候选区域根据与标记包围盒的重叠区域大小分成正区域样本集合P⁺和负区域样本集合P^-，具体步骤为：

设区域生成网络中候选区域为p＝[x_p，y_p，w_p，h_p]，目标包围盒的对应区域为g＝[x_g，y_g，w_g，h_g]；区域中的x，y，w，h四个参数分别表示区域的中心坐标以及宽高长度。每一张图像都有集合P^*＝{p}和G^*＝{g}，分别表示该图像的所有候选区域和真实标定的包围盒区域。将P^*中满足IoU(p，g)＞ε，ε∈[0，1]的区域p作为正样本(positive proposal)，IoU(p，g)＜ε的作为负样本(false proposal)，分别表示为集合P⁺和P^-。

(23)区域生成网络的分类层对候选区域进行简单分类，输出每个候选区域属于行人和背景的概率作为该候选区域被预测为行人和背景的置信度评分，即cls score；RPN的分类层使用softmax逻辑损失定义区域生成网络分类层的损失函数L_c1s(p)：

(24)区域生成网络的区域回归层预测出候选区域的位置postion及大小；

候选区域经过区域回归后，会出现多个候选区域对应一个标记包围盒的情况，因此需要进行区域筛选，剔除重复区域，目前常见的区域筛选算法为非最大值抑制策略(nonmaximum suppression，NMS)。如图2所示，虚线框为预测包围盒，即目标包围盒，是与候选区域重叠度最大的标记包围盒；这种情况下，偏移的候选区域可能会在邻近行人标记Y进行区域筛选时因为重叠较大而被筛除，进而影响到目标行人标记X的识别过程。为了解决此问题，本发明公开了一种改良区域回归策略用于候选区域的位置回归，使生成的行人候选区域在回归过程中受到多方面因素的影响。步骤如下：

首先对于正样本中的候选区域p而言，如果p与目标包围盒集合中的某个目标包围盒重叠率大于固定的阈值，需要进行区域回归，尽可能的趋近最接近的目标包围盒，这一过程也可以被视为是来自目标区域的吸引作用。

其次，在本发明中，为了减少在拥挤情况下人群之间的遮挡对识别产生的不利影响，在区域回归过程中，除了目标区域以外，还将近邻的非目标区域考虑进来。候选区域在位置回归，接近目标区域的过程中，需要尽可能的远离最接近的非目标区域。这一过程也可以被视为来自非目标区域的排斥作用。

以上策略最终体现在区域回归的损失函数上，因此，区域回归的损失函数L_reg(p)包含两部分：

L_reg(p)＝γ_a*Attr(p)+γ_g*Rep_G(p) (2)

其中γ_a、γ_g为调节不同子项权重的超参数；Attr为目标包围盒区域的损失函数，定义

的损失函数；

(24-1)来自目标区域的吸引作用

对于正样本区域p∈P⁺，它所属的目标区域g_p：

g_p＝argmax[IoU(p，g)]g∈G^*#(公式3)

在回归过程中，区域p需要不断靠近g_p所在位置，可以看做被吸引过去。使用Smooth L1作为这部分的回归损失。

其中t_i＝{t_x，t_y，t_w，t_h}为回归过程中候选区域p相对于初始anchor位置的平移缩放参数，t_i ^★＝{t_x ^★，t_y ^★，t_w ^★，t_h ^★}为目标包围盒g_p相对于初始anchor位置的平移缩放参数；所述目标包围盒g_p为与候选区域重叠度最大的标记包围盒；每次迭代通过更新t_i来改变候选区域(预测包围盒)的位置和大小。t_i和t_i ^★具体为：

(24-2)来自非目标区域的排斥作用

定义存在区域

即

为除g_p外，与p相交且IoU(p，g)最大的标记包围盒g。排斥作用体现在区域p逐渐靠近目标包围盒的过程中，尽量远离与其最接近的非目标区域

使用ln函数作为这一部分的损失：

因此Rep_G为定义域为[0，1]，值域为[0，+∞]的单调递增函数，且在定义域内可导。可见，如果区域p与非目标行人

非常接近，即

较大，则损失函数惩罚就越大。所以在最小化Rep_G的过程中，p会逐渐远离

(26)对训练样本图像做语义标记，标记包围盒所在区域为行人语义，其余区域为背景语义；以一层语义分割层作为融合语义信息的具体实现方式，构建在经过多层卷积和池化后的高维卷积特征上，生成表示行人和背景语义的两类遮罩，通过卷积核大小为1×1，步长为1，输出深度为2的全连接层来实现，这样可以将语义信息与卷积特征图直接融合。

对候选区域进行box-based的语义分割，定义区域生成网络中语义分割层的损失函数L_seg(p)；

区域生成网络中语义分割层的损失函数为：

(27)区域生成网络的损失函数为：

L(p)＝α_p*L_cls(p)+α_l*L_reg(p)+α_s*L_seg(p)

其中，α_p、α₁和α_s为调节权重的超参数；

步骤3、构建深度卷积神经网络DCNN，所述深度卷积神经网络包括卷积特征提取、语义分割层和分类层；以深度卷积神经网络作为分类网络，在区域生成网络输出的候选区域中，选择被预测为行人的置信度评分最高的前N_top个作为第二部分的输入，判断区域内目标是否为行人。为了避免再次对图像区域进行特征提取，分类网络的卷积特征提取部分也和区域生成网络一样，基于VGG-16的卷积模块，共享卷积部分的网络权重，因此可以根据相应比例，直接将候选区域的位置直接映射到共享特征图上的对应特征区域。之后通过ROIPooling输出固定维度的特征向量，最终输出相应的行人(背景)置信度评分。具体步骤为：

为集合P^*内所有区域的平均宽度。

和区域生成网络中分类损失一样，

采用softmax逻辑损失，scale_p表示该区域的相对大小；与相对规模大小进行乘积，一方面可以增强中景和前景行人对模型的影响，此外，由于中前景的行人特征比较明显，通过增加此类行人对模型权重的影响，有利于对识别远景微小行人的识别。

(34)和区域生成网络一样，在分类网络的卷积特征图上也融合了语义信息，具体实现方式一致。对深度卷积神经网络的输入做语义标记，标记包围盒所在区域为行人语义，其余区域为背景语义；对候选区域进行box-based的语义分割，定义区域生成网络中语义分割层的损失函数

与RPN中的语义分割层损失函数一致；

(35)深度卷积神经网络的损失函数为：

其中β_p、β_s为调节权重的超参数；

上面步骤1-3利用训练样本完成了区域生成网络和深度卷积神经网络的参数训练，后面的检测阶段利用训练好的网络来进行行人检测，检测阶段的流程图如图3所示。

步骤4、获取待检测行人的图像，将其预处理，使其大小匹配区域生成网络输入图片的大小；

通常的行人检测应用场景为对视频进行检测。在监控安防、车载摄像头或机器人等领域，不同设备和摄像头采集到的视频大小、分辨率和宽高比例都不尽相同。因此，在开始进行行人识别之前，往往需要对原始数据进行处理，使原始数据能够满足神经网络的输入要求。

在本实施例中，对待检测视频数据主要进行了如下预处理操作：

(41)视频分帧

经过摄像头采集到的原始数据分为视频和图像，针对视频数据，需要对其进行分帧处理，即将保存的原始视频按照素材帧率切割成逐帧的静态图像。这一过程采用OpenCV处理，使用VideoCapture：：read()接口处理这一过程。

(42)重置比例和分辨率

帧率为N时长为M秒的原始视频数据，经过分帧得到N*M张静态图像数据。这些图像分辨率较大，长宽比例也和原始视频数据一致，因此需要根据神经网络模型的输入大小对这些图像进行调整，重置比例和分辨率使其符合模型输入规格。这一过程使用OpenCV的resize()接口进行处理。

(43)去均值

对各个通道进行去均值处理，使每个通道的特征值符合零中心化特性。这一过程首先需要使用OpenCV计算所有图像的各个通道均值，再逐一减去。

步骤5、将预处理后的待检测图像输入步骤2训练好的区域生成网络，得到多个候选区域及每个候选区域p被预测为行人和背景的置信度评分，记为[p,rpn_score₁,rpn_score₀]；其中rpn_score₁为区域p被预测为行人的置信度评分，rpn_score₀为区域p被预测为背景的置信度评分；

步骤6、将步骤/5得到的多个候选区域，选择被预测为行人的置信度评分最高的前N_top个输入步骤3训练好的深度卷积神经网络，进行进一步分类，得到每个候选区域q被预测为行人和背景的置信度评分，记为[q,cnn_score₁,cnn_score₀]；其中cnn_score₁为区域q被预测为行人的置信度评分，cnn_score₀为区域q被预测为背景的置信度评分；

步骤7、融合区域候选网络和深度卷积神经网络的结果，得到候选区域q被预测为行人的概率fusion_score(q)：

Claims

1.一种基于改良区域回归的行人检测方法，其特征在于，包括如下步骤：

(6)从步骤(5)得到的多个候选区域中，选择被预测为行人的置信度评分最高的前N_top个输入步骤(3)训练好的深度卷积神经网络，进行进一步分类，得到每个候选区域q被预测为行人和背景的置信度评分，记为[q,cnn_score₁,cnn_score₀]；其中cnn_score₁为区域q被预测为行人的置信度评分，cnn_score₀为区域q被预测为背景的置信度评分；

2.根据权利要求1所述的基于改良区域回归的行人检测方法，其特征在于，所述步骤(2)具体包括：

(27)区域生成网络的损失函数为：

L(p)＝α_p*L_cls(p)+α_l*L_reg(p)+α_s*L_seg(p)

其中，α_p、α_l和α_s为调节权重的超参数；

3.根据权利要求1所述的基于改良区域回归的行人检测方法，其特征在于，所述步骤(3)具体包括：

(31)从步骤(2)获取到的多个候选区域中，选择被预测为行人的置信度评分最高的前N_top个作为深度卷积神经网络的输入；

(35)深度卷积神经网络的损失函数为：

其中β_p、β_s为调节权重的超参数；

4.根据权利要求2所述的基于改良区域回归的行人检测方法，其特征在于，所述区域生成网络中分类层的损失函数为：

其中P^*为每一张图像中的候选区域集合，i_p表示候选区域p经过softmax层归一化后，预测为行人的概率；i_p ^*为样本标签，如果p为正样本，即：p∈P⁺，则i_p ^*＝1，如果p为负样本，即：p∈P^-，则i_p ^*＝0；

区域生成网络区域回归层的损失函数为：

L_reg(p)＝γ_a*Attr(p)+γ_g*Rep_G(p) (2)

其中γ_a、γ_g为调节不同子项权重的超参数；Attr为目标包围盒区域的损失函数，Attr(p)＝∑_p∈P+Smooth_L1(t_i-t_i ^★)，i∈{x，y，w，h}，t_i＝{t_x，t_y，t_w，t_h}为回归过程中候选区域p相对于初始anchor位置的平移缩放参数，t_i ^★＝{t_x ^★，t_y ^★，t_w ^★，t_h ^★}为目标包围盒g_p相对于初始anchor位置的平移缩放参数；所述目标包围盒g_p为与候选区域重叠度最大的标记包围盒；

定义

为除目标包围盒g_p外，与候选区域p相交且重叠度最大的标记包围盒，Rep_G(p)为区域

的损失函数，

区域生成网络中语义分割层的损失函数为：

5.根据权利要求3所述的基于改良区域回归的行人检测方法，其特征在于，所述深度卷积神经网络中分类层的损失函数为：

为集合P^*内所有区域的平均宽度；i_p表示候选区域p经过softmax层归一化后，预测为行人的概率；i_p ^*为样本标签，如果p为正样本，即：p∈P⁺，则i_p ^*＝1，如果p为负样本，即：p∈P^-，则i_p ^*＝0。