CN111444816A - 一种基于Faster RCNN的多尺度密集行人检测方法 - Google Patents

一种基于Faster RCNN的多尺度密集行人检测方法 Download PDF

Info

Publication number
CN111444816A
CN111444816A CN202010212877.2A CN202010212877A CN111444816A CN 111444816 A CN111444816 A CN 111444816A CN 202010212877 A CN202010212877 A CN 202010212877A CN 111444816 A CN111444816 A CN 111444816A
Authority
CN
China
Prior art keywords
detection
pedestrian
fast rcnn
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010212877.2A
Other languages
English (en)
Inventor
朱凯
胡东方
李林涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Galaxy Xintong Technology Co ltd
Original Assignee
Beijing Galaxy Xintong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Galaxy Xintong Technology Co ltd filed Critical Beijing Galaxy Xintong Technology Co ltd
Publication of CN111444816A publication Critical patent/CN111444816A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明涉及一种基于Faster RCNN的多尺度密集行人检测方法,属于目标检测和计算机视觉技术领域。本发明针对行人检测任务中,图像内行人尺寸大小不一、密集人群中行人重叠情况下容易出现漏检的问题,基于检测效果较好的Faster RCNN检测网络做出改进。首先,针对图像中的行人多尺度问题,固定RPN网络提取候选区域框过程中的anchor的比例,并根据行人真实标准框的统计分布信息,得到anchor的尺寸,以提高预测回归框的准确度,提升检测精度。针对密集人群中行人重叠情况的漏检情况,使用改进的NMS算法,减少重叠行人的相邻检测框的误除情况,提高行人检测的平均准确度,以此提升检测精度。

Description

一种基于Faster RCNN的多尺度密集行人检测方法
技术领域
本发明涉及一种基于Faster RCNN(快速区域卷积神经网络)的多尺度密集行人检测方法,属于目标检测和计算机视觉技术领域。
背景技术
随着人工智能技术的发展,行人检测技术已经成为计算机视觉领域的关键研究方向。行人检测的最重要的任务就是对行人目标进行准确定位。行人检测技术有很强的使用价值,可以与多人跟踪、行人重识别等技术结合,应用于汽车无人驾驶系统、智能机器人、智能视频监控、人体行为分析、人流量统计系统、智能交通领域。
目前的行人检测任务主要分为两类:一是基于传统图像特征的方法,二是基于深度学习的方法。基于传统图像特征的方法,主要通过手动构造行人特征,如HOG等,再结合SVM、Adaboost等分类器训练检测器来实现行人检测。但是,这种方法依赖于人工选取的行人特征,如果选取的特征表达能力不足,检测效果就会比较差。
相对于基于传统图像特征进行检测的方法,基于深度学习的方法不依赖于某一单一的特征,对于特征的利用率更高,这种方法具有更好的泛化性和鲁棒性,行人检测结果也更准确。但是,行人检测任务的难题在于图像中行人的多尺度问题和密集人群中检测不完全。在实际场景下,多个行人与摄像头之间的距离远近不一,摄像头捕获的图像中行人尺寸不同,而现有检测过程中的特征尺寸单一,无法覆盖所有的待检测行人尺寸,出现漏检情况,导致检测效果不佳。另外,在密集人群场景下,行人之间会出现重叠情况,检测出多个目标的候选区域框距离比较近时,在最终去掉重复任务的检测框时,容易误除,导致密集行人检测效果不佳。
发明内容
本发明的目的是为了解决多尺度以及密集行人情况下检测效果不佳的技术问题,提出一种基于Faster RCNN的多尺度密集行人检测方法。
本发明的目的是通过以下步骤实现的:
步骤1:获取行人检测数据样本,并制作数据集。
具体包括以下步骤:
步骤1.1:获取行人检测所需的用来训练和检测的数据样本。
步骤1.2:将获取的数据样本转化为VOC格式数据集。
步骤2:根据统计结果,确定RPN网络中适合行人目标的anchors的长宽比例和尺寸。
步骤3:根据所选择的anchor长宽比例和尺寸,以及行人检测任务修改网络参数,训练Faster RCNN网络,获取训练好的模型。
具体包括以下步骤:
步骤3.1:搭建训练模型。
步骤3.2:对Faster RCNN网络进行训练。
采用四阶段训练法。
阶段一:以端到端的模式单独训练RPN网络。
阶段二:使用阶段一得到的建议框来单独训练训练Fast RCNN网络。
阶段三:使用阶段二得到的网络初始化RPN模型,但训练时固定共享卷积层,只更新RPN网络的参数。
阶段四:保持共享卷积层固定不变,使用阶段三更新后的RPN输出的候选建议框作为输入,更新Fast RCNN网络的参数。
在上述四个阶段训练之后,得到最终训练好的Faster RCNN模型。
步骤4:使用训练好的Faster RCNN模型对行人目标进行检测,得到初步检测结果。使用soft-NMS算法,确定最终检测结果。
具体地,所述步骤4中,对得到的结果进行分类和回归,得到检测框。使用soft NMS算法减少对重叠物体检测框的误除情况,得到最终的检测结果。
有益效果
本发明针对行人检测任务中,图像内行人尺寸大小不一、密集人群中行人重叠情况下容易出现漏检的问题,基于检测效果较好的Faster RCNN检测网络做出改进。首先,针对图像中的行人多尺度问题,固定RPN网络提取候选区域框过程中的anchor的比例,并根据行人真实标准框的统计分布信息,得到anchor的尺寸,以提高预测回归框的准确度,提升检测精度。针对密集人群中行人重叠情况的漏检情况,使用改进的NMS算法,减少重叠行人的相邻检测框的误除情况,提高行人检测的平均准确度,以此提升检测精度。
附图说明
图1是本发明方法的整体流程图。
图2是本发明的Faster RCNN训练过程流程图;
图3是本发明中统计的行人样本尺寸分布图。
图4是本发明的行人检测结果示例图。
图5是本发明与Faster RCNN的检测时间与平均检测精度结果对比图。
图6是本发明与Faster RCNN的Precision-Recall对比图。
图7是本发明与Faster RCNN的检测示例对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本发明提出的一种基于Faster RCNN的多尺度密集行人检测方法做进一步详细的描述。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
实施例
一种基于Faster RCNN的多尺度密集行人检测方法,如图1所示,具体实施步骤如下:
步骤1:获取数据样本并制作数据集。具体包括以下步骤:
步骤1.1:使用Caltech Dataset行人检测数据样本进行实验。
具体地,数据样本包含约10小时、分辨率为640*480、频率为30Hz的视频。视频由车载摄像机在市区行驶过程中拍摄,总计约250000帧图片,标注了350000个行人边界框,有50%的图片里面没有行人,有约30%的图片里面有两个或两个以上的行人。使用全部的数据样本,随机选取样本加入训练集和测试集,二者比例为2:1。
步骤1.2:制作VOC数据集。
具体地,将seq格式的数据样本转变为VOC格式数据集。数据集包括JPEGImages、Annotations、ImageSets三个文件夹。其中,JPEGImages文件夹包括全部图片信息,包含训练图片和测试图片;Annotations文件夹中存放的是xml格式的标注信息文件,每一个xml文件对应一张图片;ImageSets中存放图像物体识别的分类信息。
步骤2:根据统计结果,确定RPN网络中适合行人目标的anchors的长宽比例和尺寸。具体包括以下步骤:
步骤2.1:统计Caltech数据集中,所有行人标注框的长宽比例,行人尺寸的平均长宽比例为0.41。
不同于其他RPN网络中选用多种长宽比例的anchor,本方法仅针对行人单一种类目标进行检测。需要说明的是,选取长宽比例不适合的anchor会与少数其他的检测示例相关联,于行人目标的检测精度造成较大干扰,因此,确定合适的行人尺寸的平均长宽比例,对于提升检测精度尤为重要。通过反复实验比对,本发明确定最佳行人尺寸的平均长宽比例为0.41。基于该比例,能够大幅度提升检测精度。
步骤2.2:统计Caltech数据集中,行人边界标注框的尺寸分布。
分布结果如附图3所示。根据统计结果可知,有约69%的行人高度分布在30-80个像素之间,为了覆盖全部的行人尺寸,这里选取从16像素的高度开始,放大步幅为1.3倍,与原RPN网络的相比,anchor的高度选为16×1.3n,n∈(1,2,3...9)。Anchor所能覆盖的范围更广,几乎涵盖所有的行人高度范围。这里的多个anchor尺寸是为了来实现多尺度对象的检测。另外,这里选取9个anchor。增加anchor的数量有一定几率提高检测结果,但会增加模型的训练时间和目标检测过程的时间,本方法旨在完成接近实时的检测结果,所以仍使用9个anchor。本方法的检测时间与平均检测精度同Faster RCNN算法对比见附图5。Precision-Recall曲线的对比见附图6。检测优化结果示例见附图7。
步骤3:训练Faster RCNN网络。如图2所示,具体包括以下步骤:
步骤3.1:搭建训练模型。本实施例中,在caffe的深度学习框架下搭建FasterRCNN检测网络,并且以ZF net作为特征提取的网络。
步骤3.2:训练Faster RCNN网络。
具体地,检测模型分为两个阶段进行训练。
阶段一:以端到端的模式单独训练RPN网络;
阶段二:使用阶段一得到的建议框来单独训练训练Fast RCNN网络;
阶段三:使用阶段二得到的网络初始化RPN模型,但训练时固定共享卷积层,只更新RPN网络的参数;
阶段四:保持共享卷积层固定不变,使用阶段三更新后的RPN输出的候选建议框作为输入,更新Fast RCNN网络的参数。
进一步地,在训练过程中,使用反向传播随机梯度下降(SGD)和小批量采样(mini-batch)策略。训练RPN网络时,使用大小为256的mini-batch,正锚和负锚的比例为1:1。训练Fast RCNN网络时,采用大小为128的mini-batch,正负建议框的比例为1:3。此外,SGD的初始学习率设置为0.001,在训练期间,四个步骤分别迭代60K、30K、60K、30K次之后学习率降为0.0001。并且以动量为0.9,权重衰减为0.0005更新参数。
具体地,四个阶段步骤的最大迭代次数分别为80K、40K、80K、40K次。经过训练之后,最终得到训练好的Faster RCNN检测模型。
步骤4:使用训练好的Faster RCNN模型对行人进行检测。具体包括以下步骤:
首先,将待检测图片输入到训练好的Faster RCNN网络中进行检测。给定置信度之后,进行分类和回归得到初始的结果,包含目标的类别和目标的检测框坐标。对于同一行人可能有多个检测框出现。
之后,使用soft-NMS算法去除冗余的检测框。具体流程如下:
经过检测模型,得到所有的行人检测框及其置信度。对所有检测框结果,按照置信度由高至低进行排序。保留置信度最高的检测框B,计算其他检测框bi与B之间的交并比IOU(intersection over union),计算公式如下:
Figure BDA0002423409080000061
若某检测框bi的IOU高于设定阈值,则对该检测框进行抑制,按照以下公式降低该检测框的置信度scorei
Figure BDA0002423409080000062
其中,σ表示高斯函数中的方差,此处取0.5。
当只剩下一个检测框时,结束,否则转入步骤3继续执行。
经过soft-NMS算法后,得到最终的检测结果。最终的行人检测结果示例图见附图4。
以上所述为本发明的较佳实例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (10)

1.一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,包括以下步骤:
步骤1:获取行人检测数据样本,并制作数据集;
步骤1.1:获取行人检测所需的用来训练和检测的数据样本;
步骤1.2:将获取的数据样本转化为VOC格式数据集;
步骤2:根据统计结果,确定RPN网络中适合行人目标的anchors的长宽比例和尺寸,其中,行人尺寸的平均长宽比例为0.41;
步骤3:根据所选择的anchor长宽比例和尺寸,以及行人检测任务修改网络参数,训练Faster RCNN网络,获取训练好的模型;
步骤3.1:搭建训练模型;
步骤3.2:对Faster RCNN网络进行训练,采用四阶段训练法:
阶段一:以端到端的模式单独训练RPN网络;
阶段二:使用阶段一得到的建议框,单独训练训练Fast RCNN网络;
阶段三:使用阶段二得到的网络初始化RPN模型,训练时固定共享卷积层,只更新RPN网络的参数;
阶段四:保持共享卷积层固定不变,使用阶段三更新后的RPN输出的候选建议框作为输入,更新Fast RCNN网络的参数;
在上述四个阶段训练之后,得到最终训练好的Faster RCNN模型;
步骤4:使用训练好的Faster RCNN模型对行人目标进行检测,得到初步检测结果;使用soft NMS算法减少对重叠物体检测框的误除情况,得到最终的检测结果。
2.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,步骤2中,anchor的高度选为16×1.3n,n∈(1,2,3...9),数量为9个。
3.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,步骤3中,在caffe的深度学习框架下搭建Faster RCNN检测网络,并且以ZF net作为特征提取的网络。
4.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,步骤3训练过程中,使用反向传播随机梯度下降和小批量采样策略。
5.如权利要求4所述的一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,训练RPN网络时,反向传播随机梯度下降的初始学习率设置为0.001。
6.如权利要求4所述的一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,训练时,使用大小为256的小批量采样策略,正锚和负锚的比例为1:1;训练Fast RCNN网络时,采用大小为128的小批量采样策略,正负建议框的比例为1:3。
7.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,步骤3训练Faster RCNN网络期间,四个步骤分别迭代60K、30K、60K、30K次之后学习率降为0.0001,并且以动量为0.9,权重衰减为0.0005更新参数。
8.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,步骤3训练Faster RCNN网络期间,四个阶段步骤的最大迭代次数分别为80K、40K、80K、40K次。
9.如权利要求1所述的一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,步骤4中使用soft-NMS算法去除冗余的检测框的具体流程如下:
对所有检测框结果,按照置信度由高至低进行排序;保留置信度最高的检测框B,计算其他检测框bi与B之间的交并比IOU(intersection over union),计算公式如下:
Figure FDA0002423409070000021
若某检测框bi的IOU高于设定阈值,则对该检测框进行抑制,按照以下公式降低该检测框的置信度scorei
Figure FDA0002423409070000022
其中,σ表示高斯函数中的方差。
10.如权利要求9所述的一种基于Faster RCNN的多尺度密集行人检测方法,其特征在于,σ的值取0.5。
CN202010212877.2A 2020-01-14 2020-03-24 一种基于Faster RCNN的多尺度密集行人检测方法 Pending CN111444816A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010038072 2020-01-14
CN2020100380720 2020-01-14

Publications (1)

Publication Number Publication Date
CN111444816A true CN111444816A (zh) 2020-07-24

Family

ID=71652570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010212877.2A Pending CN111444816A (zh) 2020-01-14 2020-03-24 一种基于Faster RCNN的多尺度密集行人检测方法

Country Status (1)

Country Link
CN (1) CN111444816A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033687A (zh) * 2021-04-02 2021-06-25 西北工业大学 一种雨雪气候条件下的目标检测识别方法
CN113052136A (zh) * 2021-04-22 2021-06-29 南京工业大学 一种基于改进Faster RCNN的行人检测方法
CN116229369A (zh) * 2023-03-03 2023-06-06 嘉洋智慧安全科技(北京)股份有限公司 人流量的检测方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158189A1 (en) * 2016-12-07 2018-06-07 Samsung Electronics Co., Ltd. System and method for a deep learning machine for object detection
CN109447018A (zh) * 2018-11-08 2019-03-08 天津理工大学 一种基于改进Faster R-CNN的道路环境视觉感知方法
CN109977812A (zh) * 2019-03-12 2019-07-05 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN110008853A (zh) * 2019-03-15 2019-07-12 华南理工大学 行人检测网络及模型训练方法、检测方法、介质、设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158189A1 (en) * 2016-12-07 2018-06-07 Samsung Electronics Co., Ltd. System and method for a deep learning machine for object detection
CN109447018A (zh) * 2018-11-08 2019-03-08 天津理工大学 一种基于改进Faster R-CNN的道路环境视觉感知方法
CN109977812A (zh) * 2019-03-12 2019-07-05 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN110008853A (zh) * 2019-03-15 2019-07-12 华南理工大学 行人检测网络及模型训练方法、检测方法、介质、设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱虹等: "基于Faster-RCNN的智能家居行人检测系统设计与实现", 工业控制计算机 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033687A (zh) * 2021-04-02 2021-06-25 西北工业大学 一种雨雪气候条件下的目标检测识别方法
CN113052136A (zh) * 2021-04-22 2021-06-29 南京工业大学 一种基于改进Faster RCNN的行人检测方法
CN113052136B (zh) * 2021-04-22 2023-10-10 南京工业大学 一种基于改进Faster RCNN的行人检测方法
CN116229369A (zh) * 2023-03-03 2023-06-06 嘉洋智慧安全科技(北京)股份有限公司 人流量的检测方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111126360B (zh) 基于无监督联合多损失模型的跨域行人重识别方法
US20200285896A1 (en) Method for person re-identification based on deep model with multi-loss fusion training strategy
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
CN107833213B (zh) 一种基于伪真值自适应法的弱监督物体检测方法
CN109117879B (zh) 图像分类方法、装置及系统
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
US8885943B2 (en) Face detection method and apparatus
Mathur et al. Crosspooled FishNet: transfer learning based fish species classification model
US10262214B1 (en) Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same
CN109829467A (zh) 图像标注方法、电子装置及非暂态电脑可读取储存媒体
CN111178120B (zh) 一种基于作物识别级联技术的害虫图像检测方法
CN111444816A (zh) 一种基于Faster RCNN的多尺度密集行人检测方法
CN104036284A (zh) 基于Adaboost算法的多尺度行人检测方法
CN110766041A (zh) 一种基于深度学习的害虫检测方法
CN112614187A (zh) 回环检测方法、装置、终端设备和可读存储介质
EP3620958A1 (en) Learning method, learning device for detecting lane through lane model and testing method, testing device using the same
CN113221956B (zh) 基于改进的多尺度深度模型的目标识别方法及装置
WO2022218396A1 (zh) 图像处理方法、装置和计算机可读存储介质
Lee et al. Reinforced adaboost learning for object detection with local pattern representations
CN108960005B (zh) 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统
CN105844299B (zh) 一种基于词袋模型的图像分类方法
CN108241869A (zh) 一种基于快速可变形模型和机器学习的图像目标识别方法
Abdullah et al. Vehicle counting using deep learning models: a comparative study
CN113095235B (zh) 一种基于弱监督判别机制的图像目标检测方法、系统及装置
CN112347967B (zh) 一种复杂场景下融合运动信息的行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200724

WD01 Invention patent application deemed withdrawn after publication