CN111444816A

CN111444816A - 一种基于Faster RCNN的多尺度密集行人检测方法

Info

Publication number: CN111444816A
Application number: CN202010212877.2A
Authority: CN
Inventors: 朱凯; 胡东方; 李林涛
Original assignee: Beijing Galaxy Xintong Technology Co ltd
Current assignee: Beijing Galaxy Xintong Technology Co ltd
Priority date: 2020-01-14
Filing date: 2020-03-24
Publication date: 2020-07-24

Abstract

本发明涉及一种基于Faster RCNN的多尺度密集行人检测方法，属于目标检测和计算机视觉技术领域。本发明针对行人检测任务中，图像内行人尺寸大小不一、密集人群中行人重叠情况下容易出现漏检的问题，基于检测效果较好的Faster RCNN检测网络做出改进。首先，针对图像中的行人多尺度问题，固定RPN网络提取候选区域框过程中的anchor的比例，并根据行人真实标准框的统计分布信息，得到anchor的尺寸，以提高预测回归框的准确度，提升检测精度。针对密集人群中行人重叠情况的漏检情况，使用改进的NMS算法，减少重叠行人的相邻检测框的误除情况，提高行人检测的平均准确度，以此提升检测精度。

Description

一种基于Faster RCNN的多尺度密集行人检测方法

技术领域

本发明涉及一种基于Faster RCNN(快速区域卷积神经网络)的多尺度密集行人检测方法，属于目标检测和计算机视觉技术领域。

背景技术

随着人工智能技术的发展，行人检测技术已经成为计算机视觉领域的关键研究方向。行人检测的最重要的任务就是对行人目标进行准确定位。行人检测技术有很强的使用价值，可以与多人跟踪、行人重识别等技术结合，应用于汽车无人驾驶系统、智能机器人、智能视频监控、人体行为分析、人流量统计系统、智能交通领域。

目前的行人检测任务主要分为两类：一是基于传统图像特征的方法，二是基于深度学习的方法。基于传统图像特征的方法，主要通过手动构造行人特征，如HOG等，再结合SVM、Adaboost等分类器训练检测器来实现行人检测。但是，这种方法依赖于人工选取的行人特征，如果选取的特征表达能力不足，检测效果就会比较差。

相对于基于传统图像特征进行检测的方法，基于深度学习的方法不依赖于某一单一的特征，对于特征的利用率更高，这种方法具有更好的泛化性和鲁棒性，行人检测结果也更准确。但是，行人检测任务的难题在于图像中行人的多尺度问题和密集人群中检测不完全。在实际场景下，多个行人与摄像头之间的距离远近不一，摄像头捕获的图像中行人尺寸不同，而现有检测过程中的特征尺寸单一，无法覆盖所有的待检测行人尺寸，出现漏检情况，导致检测效果不佳。另外，在密集人群场景下，行人之间会出现重叠情况，检测出多个目标的候选区域框距离比较近时，在最终去掉重复任务的检测框时，容易误除，导致密集行人检测效果不佳。

发明内容

本发明的目的是为了解决多尺度以及密集行人情况下检测效果不佳的技术问题，提出一种基于Faster RCNN的多尺度密集行人检测方法。

本发明的目的是通过以下步骤实现的：

步骤1：获取行人检测数据样本，并制作数据集。

具体包括以下步骤：

步骤1.1：获取行人检测所需的用来训练和检测的数据样本。

步骤1.2：将获取的数据样本转化为VOC格式数据集。

步骤2：根据统计结果，确定RPN网络中适合行人目标的anchors的长宽比例和尺寸。

步骤3：根据所选择的anchor长宽比例和尺寸，以及行人检测任务修改网络参数，训练Faster RCNN网络，获取训练好的模型。

具体包括以下步骤：

步骤3.1：搭建训练模型。

步骤3.2：对Faster RCNN网络进行训练。

采用四阶段训练法。

阶段一：以端到端的模式单独训练RPN网络。

阶段二：使用阶段一得到的建议框来单独训练训练Fast RCNN网络。

阶段三：使用阶段二得到的网络初始化RPN模型，但训练时固定共享卷积层，只更新RPN网络的参数。

阶段四：保持共享卷积层固定不变，使用阶段三更新后的RPN输出的候选建议框作为输入，更新Fast RCNN网络的参数。

在上述四个阶段训练之后，得到最终训练好的Faster RCNN模型。

步骤4：使用训练好的Faster RCNN模型对行人目标进行检测，得到初步检测结果。使用soft-NMS算法，确定最终检测结果。

具体地，所述步骤4中，对得到的结果进行分类和回归，得到检测框。使用soft NMS算法减少对重叠物体检测框的误除情况，得到最终的检测结果。

有益效果

本发明针对行人检测任务中，图像内行人尺寸大小不一、密集人群中行人重叠情况下容易出现漏检的问题，基于检测效果较好的Faster RCNN检测网络做出改进。首先，针对图像中的行人多尺度问题，固定RPN网络提取候选区域框过程中的anchor的比例，并根据行人真实标准框的统计分布信息，得到anchor的尺寸，以提高预测回归框的准确度，提升检测精度。针对密集人群中行人重叠情况的漏检情况，使用改进的NMS算法，减少重叠行人的相邻检测框的误除情况，提高行人检测的平均准确度，以此提升检测精度。

附图说明

图1是本发明方法的整体流程图。

图2是本发明的Faster RCNN训练过程流程图；

图3是本发明中统计的行人样本尺寸分布图。

图4是本发明的行人检测结果示例图。

图5是本发明与Faster RCNN的检测时间与平均检测精度结果对比图。

图6是本发明与Faster RCNN的Precision-Recall对比图。

图7是本发明与Faster RCNN的检测示例对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本发明提出的一种基于Faster RCNN的多尺度密集行人检测方法做进一步详细的描述。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

实施例

一种基于Faster RCNN的多尺度密集行人检测方法，如图1所示，具体实施步骤如下：

步骤1：获取数据样本并制作数据集。具体包括以下步骤：

步骤1.1：使用Caltech Dataset行人检测数据样本进行实验。

具体地，数据样本包含约10小时、分辨率为640*480、频率为30Hz的视频。视频由车载摄像机在市区行驶过程中拍摄，总计约250000帧图片，标注了350000个行人边界框，有50％的图片里面没有行人，有约30％的图片里面有两个或两个以上的行人。使用全部的数据样本，随机选取样本加入训练集和测试集，二者比例为2:1。

步骤1.2：制作VOC数据集。

具体地，将seq格式的数据样本转变为VOC格式数据集。数据集包括JPEGImages、Annotations、ImageSets三个文件夹。其中，JPEGImages文件夹包括全部图片信息，包含训练图片和测试图片；Annotations文件夹中存放的是xml格式的标注信息文件，每一个xml文件对应一张图片；ImageSets中存放图像物体识别的分类信息。

步骤2：根据统计结果，确定RPN网络中适合行人目标的anchors的长宽比例和尺寸。具体包括以下步骤：

步骤2.1：统计Caltech数据集中，所有行人标注框的长宽比例，行人尺寸的平均长宽比例为0.41。

不同于其他RPN网络中选用多种长宽比例的anchor，本方法仅针对行人单一种类目标进行检测。需要说明的是，选取长宽比例不适合的anchor会与少数其他的检测示例相关联，于行人目标的检测精度造成较大干扰，因此，确定合适的行人尺寸的平均长宽比例，对于提升检测精度尤为重要。通过反复实验比对，本发明确定最佳行人尺寸的平均长宽比例为0.41。基于该比例，能够大幅度提升检测精度。

步骤2.2：统计Caltech数据集中，行人边界标注框的尺寸分布。

分布结果如附图3所示。根据统计结果可知，有约69％的行人高度分布在30-80个像素之间，为了覆盖全部的行人尺寸，这里选取从16像素的高度开始，放大步幅为1.3倍，与原RPN网络的相比，anchor的高度选为16×1.3ⁿ,n∈(1,2,3...9)。Anchor所能覆盖的范围更广，几乎涵盖所有的行人高度范围。这里的多个anchor尺寸是为了来实现多尺度对象的检测。另外，这里选取9个anchor。增加anchor的数量有一定几率提高检测结果，但会增加模型的训练时间和目标检测过程的时间，本方法旨在完成接近实时的检测结果，所以仍使用9个anchor。本方法的检测时间与平均检测精度同Faster RCNN算法对比见附图5。Precision-Recall曲线的对比见附图6。检测优化结果示例见附图7。

步骤3：训练Faster RCNN网络。如图2所示，具体包括以下步骤：

步骤3.1：搭建训练模型。本实施例中，在caffe的深度学习框架下搭建FasterRCNN检测网络，并且以ZF net作为特征提取的网络。

步骤3.2：训练Faster RCNN网络。

具体地，检测模型分为两个阶段进行训练。

阶段一：以端到端的模式单独训练RPN网络；

阶段二：使用阶段一得到的建议框来单独训练训练Fast RCNN网络；

阶段三：使用阶段二得到的网络初始化RPN模型，但训练时固定共享卷积层，只更新RPN网络的参数；

进一步地，在训练过程中，使用反向传播随机梯度下降(SGD)和小批量采样(mini-batch)策略。训练RPN网络时，使用大小为256的mini-batch，正锚和负锚的比例为1:1。训练Fast RCNN网络时，采用大小为128的mini-batch，正负建议框的比例为1:3。此外，SGD的初始学习率设置为0.001，在训练期间，四个步骤分别迭代60K、30K、60K、30K次之后学习率降为0.0001。并且以动量为0.9，权重衰减为0.0005更新参数。

具体地，四个阶段步骤的最大迭代次数分别为80K、40K、80K、40K次。经过训练之后，最终得到训练好的Faster RCNN检测模型。

步骤4：使用训练好的Faster RCNN模型对行人进行检测。具体包括以下步骤：

首先，将待检测图片输入到训练好的Faster RCNN网络中进行检测。给定置信度之后，进行分类和回归得到初始的结果，包含目标的类别和目标的检测框坐标。对于同一行人可能有多个检测框出现。

之后，使用soft-NMS算法去除冗余的检测框。具体流程如下：

经过检测模型，得到所有的行人检测框及其置信度。对所有检测框结果，按照置信度由高至低进行排序。保留置信度最高的检测框B，计算其他检测框b_i与B之间的交并比IOU(intersection over union)，计算公式如下：

若某检测框b_i的IOU高于设定阈值，则对该检测框进行抑制，按照以下公式降低该检测框的置信度score_i：

其中，σ表示高斯函数中的方差，此处取0.5。

当只剩下一个检测框时，结束，否则转入步骤3继续执行。

经过soft-NMS算法后，得到最终的检测结果。最终的行人检测结果示例图见附图4。

以上所述为本发明的较佳实例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，包括以下步骤：

步骤1：获取行人检测数据样本，并制作数据集；

步骤1.1：获取行人检测所需的用来训练和检测的数据样本；

步骤1.2：将获取的数据样本转化为VOC格式数据集；

步骤2：根据统计结果，确定RPN网络中适合行人目标的anchors的长宽比例和尺寸，其中，行人尺寸的平均长宽比例为0.41；

步骤3：根据所选择的anchor长宽比例和尺寸，以及行人检测任务修改网络参数，训练Faster RCNN网络，获取训练好的模型；

步骤3.1：搭建训练模型；

步骤3.2：对Faster RCNN网络进行训练，采用四阶段训练法：

阶段一：以端到端的模式单独训练RPN网络；

阶段二：使用阶段一得到的建议框，单独训练训练Fast RCNN网络；

阶段三：使用阶段二得到的网络初始化RPN模型，训练时固定共享卷积层，只更新RPN网络的参数；

阶段四：保持共享卷积层固定不变，使用阶段三更新后的RPN输出的候选建议框作为输入，更新Fast RCNN网络的参数；

在上述四个阶段训练之后，得到最终训练好的Faster RCNN模型；

步骤4：使用训练好的Faster RCNN模型对行人目标进行检测，得到初步检测结果；使用soft NMS算法减少对重叠物体检测框的误除情况，得到最终的检测结果。

2.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，步骤2中，anchor的高度选为16×1.3ⁿ,n∈(1,2,3...9)，数量为9个。

3.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，步骤3中，在caffe的深度学习框架下搭建Faster RCNN检测网络，并且以ZF net作为特征提取的网络。

4.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，步骤3训练过程中，使用反向传播随机梯度下降和小批量采样策略。

5.如权利要求4所述的一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，训练RPN网络时，反向传播随机梯度下降的初始学习率设置为0.001。

6.如权利要求4所述的一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，训练时，使用大小为256的小批量采样策略，正锚和负锚的比例为1:1；训练Fast RCNN网络时，采用大小为128的小批量采样策略，正负建议框的比例为1:3。

7.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，步骤3训练Faster RCNN网络期间，四个步骤分别迭代60K、30K、60K、30K次之后学习率降为0.0001，并且以动量为0.9，权重衰减为0.0005更新参数。

8.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，步骤3训练Faster RCNN网络期间，四个阶段步骤的最大迭代次数分别为80K、40K、80K、40K次。

9.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，步骤4中使用soft-NMS算法去除冗余的检测框的具体流程如下：

对所有检测框结果，按照置信度由高至低进行排序；保留置信度最高的检测框B，计算其他检测框b_i与B之间的交并比IOU(intersection over union)，计算公式如下：

其中，σ表示高斯函数中的方差。

10.如权利要求9所述的一种基于Faster RCNN的多尺度密集行人检测方法，其特征在于，σ的值取0.5。