CN110781785A

CN110781785A - 基于Faster RCNN算法改进的交通场景下行人检测方法

Info

Publication number: CN110781785A
Application number: CN201910993983.6A
Authority: CN
Inventors: 孙涛; 徐向前
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-11

Abstract

本发明涉及一种基于Faster RCNN算法改进的交通场景下行人检测方法，Faster R‑CNN算法对交通场景下进行自动行人检测，算法中区域建议网络自动生成候选目标区域，将特征提取层提取到特征信息输入到区域建议网络，区域建议网络将输出初步矩形目标候选区域，利用K‑means算法计算出锚框参数中的宽高比，直接带入区域建议网络中优化区域建议网络结构。以提高交通场景下行人检测的实时性和检测准确率。本发明方法降低了驾驶员的工作负担，大大提高了汽车的主动安全性降低了驾驶员的工作负担，大大提高了汽车的主动安全性。

Description

基于Faster RCNN算法改进的交通场景下行人检测方法

技术领域

本发明涉及一种图像检查识别技术，特别涉及一种基于Faster RCNN算法改进的交通场景下行人检测方法。

背景技术

由于行人安全的需求，ADAS行人检测成为汽车的重要组成之一。ADAS行人检测的关键步骤是目标检测，尤其是行人检测，准确的目标检测为让汽车“看”到它所处环境提供了良好基础，例如，目标跟踪、目标识别、行人验证等等。

现有目标检测方法可以分为传统目标检测方法和基于卷积神经网络的目标检测方法。传统目标检测方法的研究重点在于人工地设计合适的特征和强大的分类器，例如：HOG+SVM、HOG+DPM等等。由于人工设计的特征表达能力较差，导致传统目标检测方法不能取得令人满意的检测结果，因此，为了提高特征的表达能力，研究者提出了基于卷积神经网络的目标检测方法，例如：DCNN、R-CNN、Faster R-CNN等等。

Faster R-CNN改进了原来的Fast R-CNN，用RPN取代了原有的SelectiveSearch方法来推荐目标区域。把建议目标区域全部交给CNN来处理，这不仅利用了CNN特征提取的优势来提高建议目标区域的准确率，还可以减少计算时间。Faster R-CNN算法首先训练了区域建议网络(RPN)。区域建议网络(RPN)利用已经标定好的图像和标定框的参数信息来训练。训练之后的区域建议网络(RPN)具有分类前景目标和背景的能力。对于提议的区域，我们采用ROI池化层将局部特征图转化为统一尺寸后输出到全连接的深度网络中进行判别，区分目标的类别。

目前Faster R-CNN算法存在如下的缺点：(1)交通场景下，行人检测需要较高的实时性，Faster RCNN的检测行人目标的实时性不足；(2)Faster RCNN的检测行人目标的检测精度较差。

发明内容

本发明是针对目前Faster R-CNN算法运用到行人检测存在的问题，提出了一种基于Faster RCNN算法改进的交通场景下行人检测方法，利用K-means算法计算出合适的anchors宽高比，优化PRN网络的结构，以提高算法运用到行人检测的实时性和检测准确率。

本发明的技术方案为：一种基于Faster RCNN算法改进的交通场景下行人检测方法，Faster R-CNN算法对交通场景下进行自动行人检测，算法中区域建议网络自动生成候选目标区域，将特征提取层提取到特征信息输入到区域建议网络，区域建议网络将输出初步矩形目标候选区域，利用K-means算法计算出锚框参数中的宽高比，直接带入区域建议网络中优化区域建议网络结构；利用K-means算法计算行人目标框的宽高比具体步骤如下：

1)将行人目标框的真实值的宽高比作为样本，样本集合x为{x⁽¹⁾,...,x^(m)}，m为样本数；

2)随机选取聚类中心个数k＝2、3、4，聚类中心点为{u₁,u₂,...,u_k}；

3)、对于每一个样本x⁽ⁱ⁾，计算其所属的类别：

c⁽ⁱ⁾＝argmin_j||x⁽ⁱ⁾-u_j||² (1)

其中，u_j表示第j个聚类中心点，x⁽ⁱ⁾表示样本集合x中第i个样本，c⁽ⁱ⁾表示类别；

4)、对于每一个类j，计算该类的中心

5)、重复以上过程直到收敛，得到行人目标框的宽高比。

本发明的有益效果在于：本发明基于Faster RCNN算法改进的交通场景下行人检测方法，交通场景下行人检测是指在交通场景下，判断图像或者视频信息中是否包含行人并准确地判断出行人的位置，一旦发现当前行驶车道上出现行人时，将根据检测系统的判断确定行人位置。采用本发明方法降低了驾驶员的工作负担，大大提高了汽车的主动安全性降低了驾驶员的工作负担，大大提高了汽车的主动安全性。

附图说明

图1为RPN网络图；

图2为特征图上的锚框示意图；

图3a为本发明聚类结果k＝2的行人宽高比聚类统计图；

图3b为本发明聚类结果k＝3的行人宽高比聚类统计图；

图3c为本发明聚类结果k＝4的行人宽高比聚类统计图；

图4为本发明行人宽高比统计图；

图5为本发明改进算法的P-R曲线图；

图6为本发明改进算法的检测结果图。

具体实施方式

1、区域建议网络(RPN)

Faster RCNN为了得到更加准确的候选建议区域，运用区域建议网络(RPN)自动生成候选目标区域，将特征提取层提取到特征信息输入到区域建议网络(RPN)，区域建议网络将会输出初步矩形目标候选区域。为了生成候选区域，在卷积层提取的特征图上使用一个n*n的滑动窗口(卷积核)以一定的步长进行滑动。如图1所示，RPN网络是一个全卷积网络，由分类任务和窗口回归两部分组成，在分类层输出2*k个得分，主要用于判断候选框内的目标的置信度(本发明中置信度指的是为行人或者背景的置信度)，候选区域与标记(groundtruth)重叠部分面积超过阈值0.7，即IOU＞0.7，则被判定为行人，IOU＜0.3时，被判定为背景，其余忽略不计。在回归层，根据输入的区域建议候选输出4*k个坐标位置，用于初步微调候选框。

如图2所示，Faster RCNN引入锚框机制(anchors)，特征图上每个点都有预设的矩形框，称为anchor。Faster RCNN的锚框具有不同的尺度和比例，三种尺度大小分别为128、256、512以及三种宽高比分别为1：1、1：2、2：1。

2、区域建议网络(RPN)的改进

Faster RCNN网络能够自动提取训练集样本的特征信息，对位移、尺度等具有一定的不变性，在检测目标时有较好的检测精度和较快的检测速度。但FasterRCNN网络在检测行人目标时存在众多因素影响网络检测的实时性和识别的准确率，Faster RCNN网络并不完全满足交通场景下的行人检测任务实时性和准确率的要求，这里利用K-means算法计算出合适的锚框(anchors)宽高比，优化区域建议网络(RPN)的结构，提高实时性与准确率。

区域建议网络的锚框参数设置忽略了行人目标的特殊性。在绝大多数交通场景下，行人目标都是高度大于宽度。因此设置不同的宽高比的锚框对交通场景下的行人目标来说是一种干扰。锚框的宽高比应该根据实际情况来确定。

通过K-means聚类算法统计Caltech行人数据集中全部行人目标位置框的真实值(groundtruth)，将行人目标框的真实值的宽高比作为样本x，聚类的目标是找到每个样本潜在的类别y，并将同类y的样本x放在一起。实现具体步骤如下：

1)、对行人目标框的宽高比进行聚类分析，样本集合x为{x⁽¹⁾,...,x^(m)}，m为样本数，具体描述如下：

2)随机选取聚类中心个数k＝2、3、4，聚类中心点为{u₁,u₂,...,u_k}

3)、对于每一个样本x⁽ⁱ⁾，计算其所属的类别：

c⁽ⁱ⁾＝argmin_j||x⁽ⁱ⁾-u_j||² (1)

4)、对于每一个类j，计算该类的中心

5)、重复以上过程直到收敛，得到行人目标框的宽高比。

K-means聚类算法随机计算K个类中心作为起始点，如图3a、3b、3c所示聚类结果k＝2、3、4的行人宽高比聚类统计图，聚类算法会将样本点分配到离其最近的类中心，根据收敛结果移类中心，重复直至类中心不再改变或者达到限定迭代次数。

原Faster RCNN算法的锚框有三种尺度和三种比例，在这一步中，会在特征层的每个cell上生成一系列不同大小和宽高比的锚框，每个位置有9个锚框(anchors)，分类层输出18个节点，回归层输出36个节点。如图4所示，聚类分析得出交通场景下行人目标宽高比为w≈0.41h，改进算法将原Faster RCNN网络中的区域建议网络(RPN)的宽高比修改为0.41：1，修改之后的每个位置就有3个锚框(anchors)，如表1所示锚框边框尺度(像素)，分类层输出6个节点，回归层输出12个节点。

表1

3、实验评价方法

本发明检测任务是一个二分类问题，即判断图像的目标是否为行人，最终的目的是正确地检测出所有行人目标，并且输出正确的行人目标框位置。引进准确率和召回率来更好地评价模型，公式如下：

式中，TP代表正确地检测出了行人，FP代表将其他目标当作行人，FN代表将行人当作其他目标，TN代表没有检测出行人目标。

假设N个样本，其中N个正例，可以得到M个召回率：

对于每个召回率r，其最大准确率公式如下：

AP代表准确率，是衡量模型检测每个类别时效果的优劣，mAP是衡量模型在所有类别上检测性能的高低，计算公式如下：

由于本发明只对行人目标这一个类别进行检测，因此mAP和AP的值相等。

4、应用例

本发明实验硬件配置是Inter Core i7处理器，内存8GB，英伟达显卡1050Ti。采用的编程环境是Python，基于深度学习框架Tensorflow，网络架构以VGG16为基础，最大迭代次数为30000次，学习率为0.001，权值衰减值设置为0.0005，训练20000轮之后开始衰减学习率，动量值设置为0.9，RPN网络阶段批量大小设置为256，训练阶段批量大小设置为32。

为了比较区域建议网络(RPN)调整anchor宽高比对训练结果的影响，在PASCALVOC2007数据集上训练评估Faster RCNN算法和本发明调整后算法，分别训练30000轮，如表2所示RPN网络调整宽高比前后的mAP值，本发明的改进算法准确率优于原Faster RCNN算法，准确率提高了6.7％，检测准确率高达81.5％，实验结果表明本发明提出的改进算法大幅提高了行人检测的准确率，对行人检测问题具有有效性。

表2

如图5所示，将改进的算法结合VGG16特征提取网络，训练30000轮后得到训练模型，使用数据集的测试集对改进算法训练得到的模型进行准确率和召回率测试，得到改进算法的P-R(Precision-Recall准确率-召回率)曲线，实验结果显示改进算法在检测行人目标时达到81.5％的准确率，表明本发明的改进算法能够有效地提高行人检测的准确率。

表3为不同方法检测相同数据集的耗时对比，在Caltech交通场景数据集测试集上的单张图片检测耗时结果。从表2可以看出，按本发明方法对FasterRCNN进行改进后，检测所用时间优于未改变的Faster RCNN的检测效率。使用改进的区域建议网络(RPN)使得初步矩形目标候选区域减少为原来的1/3。这是一种简单有效的解决方案，大大减少了整个网络计算量，提高了算法的实时性。实验结果表明，本发明方法有效地提高了行人检测的实时性。

表3

在不同的交通环境场景下，采用本发明方法在Caltech数据集测试集中的部分检测结果如图6所示。

Claims

1.一种基于Faster RCNN算法改进的交通场景下行人检测方法，Faster R-CNN算法对交通场景下进行自动行人检测，算法中区域建议网络自动生成候选目标区域，将特征提取层提取到特征信息输入到区域建议网络，区域建议网络将输出初步矩形目标候选区域，其特征在于，利用K-means算法计算出锚框参数中的宽高比，直接带入区域建议网络中优化区域建议网络结构；利用K-means算法计算行人目标框的宽高比具体步骤如下：

3)、对于每一个样本x⁽ⁱ⁾，计算其所属的类别：

c⁽ⁱ⁾＝arg min_j||x⁽ⁱ⁾-u_j||² (1)

4)、对于每一个类j，计算该类的中心

5)、重复以上过程直到收敛，得到行人目标框的宽高比。