CN110674687A - 一种鲁棒高效的无人驾驶行人检测方法 - Google Patents
一种鲁棒高效的无人驾驶行人检测方法 Download PDFInfo
- Publication number
- CN110674687A CN110674687A CN201910764350.8A CN201910764350A CN110674687A CN 110674687 A CN110674687 A CN 110674687A CN 201910764350 A CN201910764350 A CN 201910764350A CN 110674687 A CN110674687 A CN 110674687A
- Authority
- CN
- China
- Prior art keywords
- network
- robust
- box
- candidate
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种鲁棒高效的无人驾驶行人检测方法,包括如下步骤:①选择深度残差网络作为特征提取网络;②为每一个候选框指定一个正负类标签;③定义目标损失函数;④设置候选框尺寸;⑤采用难分样本挖掘方法,使得最终的正类和负类样本的数量的比例为1:3;⑥采用数据增广;⑦训练网络。本发明使用单个卷积神经网络,直接从原始图像得到边界框的坐标和行人的概率,可以实现端到端的训练,并且深度残差网络使用的残差单元可以改善深层网络模型寻优的过程,减少模型收敛的时间开销。
Description
技术领域
本发明属于无人驾驶环境感知领域,具体涉及一种鲁棒高效的无人驾驶行人检测方法。
背景技术
行人检测单元在自动驾驶环境感知中是不可替代的一部分。在无人驾驶场景中,行人检测器不仅要处理一般行人检测中姿态、着装、遮挡和尺度等造成的外观差异问题,还必须考虑特殊应用场景所特有的问题,比如光线变化和速度的影响。因此,行人检测器应该具有较强的鲁棒性和实时性,以便自动驾驶汽车可以及时的躲避行人。行人检测是计算机视觉中一个重要的且具有挑战性的研究方向,其广泛应用成为了公司和相关研究人员的研究的热点
传统的行人检测算法是由人工设计的特征,对复杂环境的鲁棒性较差。近几年来,迅速发展的卷积神经网络已经在分类和目标检测等领域取得了令人瞩目的成绩。研究人员也开始将卷积神经网络应用于行人检测中,但这些方法的速度都非常慢,无法达到实时性的要求。相比较其他传统的目标检测方法,基于Single Shot MultiBox Detector(SSD)方法可以实现端对端的训练以及直接集成到需要实时检测的系统中。自动驾驶汽车的行人检测系统需要对复杂环境有较高的鲁棒性和实时性。因此,结合SSD方法的高精度和快速性的特点,我们提出了一种应用于无人驾驶汽车的鲁棒的快速的单个卷积神经网络的行人检测方法。将更容易优化和有更好精度的深度残差网络作为单阶段方法的基础网络,提高网络提取行人特征的能力。
发明内容
本发明的目的是克服上述现有技术中存在的不足,而提供一种鲁棒高效的无人驾驶行人检测方法,该方法使用单个卷积神经网络,直接从原始图像得到边界框的坐标和行人的概率,可以实现端到端的训练,并且深度残差网络使用的残差单元可以改善深层网络模型寻优的过程,减少模型收敛的时间开销。
如上构思,本发明的技术方案是:一种鲁棒高效的无人驾驶行人检测方法,其特征在于:包括如下步骤:
①选择深度残差网络作为特征提取网络;
②为每一个候选框指定一个正负类标签;
③定义目标损失函数;
④设置候选框尺寸;
⑤采用难分样本挖掘方法,使得最终的正类和负类样本的数量的比例为1:3;
⑥采用数据增广;
每一张训练的照片都随机采用如下的两种处理方法:1)任意的裁剪图片,使得被裁剪的图片与目标的最小IOU分别为0.1,0.3,0.5,0.7,0.9;2)任意的裁剪一小块,这一小块的尺寸是输入图片尺寸的[0.1,1],宽高比是在[0.5,2]区间内;在上述裁剪步骤完成后,每个被裁剪的一块都被重新调整大小为固定的尺寸,并且对其进行水平翻转、旋转、图像失真操作。
⑦训练网络。
所述步骤①特征提取网络选择34层深度残差网络。
所述步骤②有两种情况的默认边框被指定为一个正类:a)候选框与一个groundtruthbox有最高的交并比重叠率;b)另外一个候选框与任何ground truth box有一个高于0.5的交并比重叠率,如果候选框不属于上面的两种情况,它被指定为一个负类。
所述步骤③目标损失函数是由回归损失和分类损失组成,被定义为;
N是正类的候选框的数量,向量r是表示预测的边界框的位置的4个值,平衡回归损失和分类损失的参数α设置为1,对于回归损失函数,使用对离群点鲁棒的SmoothL1损失函数,
其中,ri,gi与Faster R-CNN有相似的边界框的回归参数,行人分类损失函数Lcls是一个log损失,
pi是在候选框中预测的行人概率。
所述步骤④利用网络中较低层的特征图和较高层中额外增加的3层卷积层的特征图来做检测,用于检测的特征图的候选框的尺度sr是在区间ar∈[0.2,0.9]之间均匀分布的,其中最低层的尺度的0.2,最高层的尺度为0.9;对于候选框,有三种不同的宽高比,分别为1,1/2和1/3,候选框的宽和高分别为和
所述步骤⑦训练网络采用随机梯度下降的方法训练模型,批尺寸为16,权重衰减为0.0005,学习率采用阶梯下降的衰减策略,其中初始学习率为10-3,momentum为0.9,gamma为0.1。
与已有技术相比,本发明的技术特点与效果:
相比较其他传统的目标检测方法,基于SSD这种统一的模型可以实现端对端的训练以及直接集成到需要实时检测的系统中。SSD方法将目标检测作为回归问题,并且只用单个深度卷积神经网络,将一系列小的卷积滤波器应用在不同层的特征图上直接预测边界框的偏移量和存在这些框中目标类别的概率。最后通过一个非极大值抑制步骤生成最后的检测结果。SSD的一个主要的创新就是在不同输出层的特征图上使用默认的边界框,为了执行在多个尺度上检测。
自动驾驶汽车的行人检测系统需要对复杂环境有较高的鲁棒性,同时满足实时性。因此,结合SSD方法的高精度和快速性的特点,我们提出了一种应用于无人驾驶汽车的鲁棒的快速的单个卷积神经网络的行人检测方法。将更容易优化和有更好精度的深度残差网络作为我们单阶段方法的基础网络,提高网络提取行人特征的能力。相比较其他行人检测方法,我们提出的方法具有以下优点:1)可以实现端对端的检测,同时满足实时性的要求;2)模型采用深度残差网络,提高了网络对于行人特征的提取能力,获得了较高的准确率。
附图说明
图1为残差学习模块图;
图2为模型结构图;
图3为网络结构图,其中:左:VGG-16模型。中:34层的平原网络。右:34层的残差网络;
图4为在不同层的特征图上不同宽高比的候选边框。
具体实施方式
参考附图,本发明一种鲁棒高效的无人驾驶行人检测方法,将回归的思想引入到基于深度学习的行人检测中而提出的一种新的基于深度学习的一阶段行人检测方法,具体实施步骤如下:
步骤1:设计特征提取网络;
由于在无人驾驶场景中,由于距离造成的行人大小的不同和光线的影响,选择高质量的基础网路对于行人检测中的特征提取是至关重要的,因此,我们选择更容易优化,性能更好的深度残差网络作为基础网络。同时无人驾驶场景下的行人检测器应满足实时性要求,故选择34层深度残差网络作为特征提取网络。
步骤2:为每一个候选框的指定一个正负类标签;
有两种情况的默认边框被指定为一个正类:1)候选框与一个ground truth box有最高的交并比重叠率;2)另外一个候选框与任何ground truth box有一个高于0.5的交并比重叠率。如果候选框不属于上面的两种情况,它被指定为一个负类。
步骤3:定义目标损失函数;
目标损失函数是由回归损失和分类损失组成,被定义为;
N是正类的候选框的数量。向量r是表示预测的边界框的位置的4个值。平衡回归损失和分类损失的参数α设置为1。对于回归损失函数,使用对离群点鲁棒的SmoothL1损失函数。
其中,ri,gi与Faster R-CNN有相似的边界框的回归参数。行人分类损失函数Lcls是一个log损失。
pi是在候选框中预测的行人概率。
步骤4:设置候选框尺寸;
网络中低层的特征图包含更多输入目标的细节信息。因此,利用网络中较低层的特征图和较高层中额外增加的3层卷积层的特征图来做检测。用于检测的特征图的候选框的尺度是sr在区间ar∈[0.2,0.9]之间均匀分布的,其中最低层的尺度的0.2,最高层的尺度为0.9。对于候选框,我们设计了3种不同的宽高比,分别为1,1/2和1/3。候选框的宽和高分别为和
步骤5:采用难分样本挖掘方法;
网络生成大量的默认框中,大部分的默认框都是负类,这会导致在正类和负类样本数量之间一个非常大的不平衡。因此,我们不使用所有负类样本,而是选择其中置信度分数较高的,使得最终的正类和负类样本的数量的比例为1:3。
步骤6:采用数据增广;
每一张训练的照片都随机采用如下的两种处理方法:1)任意的裁剪图片,使得被裁减的图片与目标的最小IOU分别为0.1,0.3,0.5,0.7,0.9;2)任意的裁剪一小块,这一小块的尺寸是输入图片尺寸的[0.1,1],宽高比是在[0.5,2]区间内。在上述裁剪步骤完成后,每个被裁减的一块都被重新调整大小为固定的尺寸,并且对其进行水平翻转、旋转、图像失真等操作。
步骤7:训练网络;
采用随机梯度下降的方法训练模型,批尺寸为16,权重衰减为0.0005。学习率采用阶梯下降的衰减策略,其中初始学习率为10-3,momentum为0.9,gamma为0.1。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种鲁棒高效的无人驾驶行人检测方法,其特征在于:包括如下步骤:
①选择深度残差网络作为特征提取网络;
②为每一个候选框指定一个正负类标签;
③定义目标损失函数;
④设置候选框尺寸;
⑤采用难分样本挖掘方法,使得最终的正类和负类样本的数量的比例为1:3;
⑥采用数据增广;
每一张训练的照片都随机采用如下的两种处理方法:1)任意的裁剪图片,使得被裁剪的图片与目标的最小IOU分别为0.1,0.3,0.5,0.7,0.9;2)任意的裁剪一小块,这一小块的尺寸是输入图片尺寸的[0.1,1],宽高比是在[0.5,2]区间内;在上述裁剪步骤完成后,每个被裁剪的一块都被重新调整大小为固定的尺寸,并且对其进行水平翻转、旋转、图像失真操作。
⑦训练网络。
2.根据权利要求1所述的一种鲁棒高效的无人驾驶行人检测方法,其特征在于:所述步骤①特征提取网络选择34层深度残差网络。
3.根据权利要求1所述的一种鲁棒高效的无人驾驶行人检测方法,其特征在于:所述步骤②有两种情况的默认边框被指定为一个正类:a)候选框与一个ground truth box有最高的交并比重叠率;b)另外一个候选框与任何ground truth box有一个高于0.5的交并比重叠率,如果候选框不属于上面的两种情况,它被指定为一个负类。
6.根据权利要求1所述的一种鲁棒高效的无人驾驶行人检测方法,其特征在于:所述步骤⑦训练网络采用随机梯度下降的方法训练模型,批尺寸为16,权重衰减为0.0005,学习率采用阶梯下降的衰减策略,其中初始学习率为10-3,momentum为0.9,gamma为0.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764350.8A CN110674687A (zh) | 2019-08-19 | 2019-08-19 | 一种鲁棒高效的无人驾驶行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764350.8A CN110674687A (zh) | 2019-08-19 | 2019-08-19 | 一种鲁棒高效的无人驾驶行人检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674687A true CN110674687A (zh) | 2020-01-10 |
Family
ID=69075495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910764350.8A Pending CN110674687A (zh) | 2019-08-19 | 2019-08-19 | 一种鲁棒高效的无人驾驶行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674687A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738088A (zh) * | 2020-05-25 | 2020-10-02 | 西安交通大学 | 一种基于单目摄像头的行人距离预测方法 |
-
2019
- 2019-08-19 CN CN201910764350.8A patent/CN110674687A/zh active Pending
Non-Patent Citations (1)
Title |
---|
YIJING WANG ET AL.: "A Robust and Efficient Pedestrian Detection Approach for Autonomous Driving", 《PROCEEDINGS OF THE 38TH CHINESE CONTROL CONFERENCE》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738088A (zh) * | 2020-05-25 | 2020-10-02 | 西安交通大学 | 一种基于单目摄像头的行人距离预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818903B (zh) | 一种基于元学习和协同注意力的小样本遥感图像目标检测方法 | |
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN108596053B (zh) | 一种基于ssd和车辆姿态分类的车辆检测方法和系统 | |
CN110378222B (zh) | 一种输电线路防震锤目标检测与缺陷识别方法及装置 | |
CN111145174B (zh) | 基于图像语义特征进行点云筛选的3d目标检测方法 | |
CN112487862B (zh) | 基于改进EfficientDet模型的车库行人检测方法 | |
CN109492596B (zh) | 一种基于K-means聚类和区域推荐网络的行人检测方法及系统 | |
CN111832655A (zh) | 一种基于特征金字塔网络的多尺度三维目标检测方法 | |
CN115205264A (zh) | 一种基于改进YOLOv4的高分辨率遥感船舶检测方法 | |
CN109801297B (zh) | 一种基于卷积实现的图像全景分割预测优化方法 | |
CN112949633B (zh) | 一种基于改进YOLOv3的红外目标检测方法 | |
CN111582029A (zh) | 一种基于密集连接与注意力机制的交通标志识别方法 | |
CN113076992A (zh) | 一种生活垃圾检测方法及装置 | |
CN115512251A (zh) | 基于双分支渐进式特征增强的无人机低照度目标跟踪方法 | |
Xu et al. | BANet: A balanced atrous net improved from SSD for autonomous driving in smart transportation | |
CN112070070A (zh) | 一种用于城市遥感场景识别的lw-cnn方法和系统 | |
CN114708566A (zh) | 一种基于改进YOLOv4的自动驾驶目标检测方法 | |
CN110634127A (zh) | 一种输电线路防震锤目标检测与缺陷识别方法及装置 | |
CN111339917A (zh) | 一种真实场景下玻璃检测的方法 | |
CN113657423A (zh) | 适用于小体积零件与堆叠零件的目标检测方法及其应用 | |
Gopal et al. | Tiny object detection: Comparative study using single stage CNN object detectors | |
CN112102241B (zh) | 一种单阶段遥感图像目标检测算法 | |
CN110674687A (zh) | 一种鲁棒高效的无人驾驶行人检测方法 | |
CN113160117A (zh) | 一种自动驾驶场景下的三维点云目标检测方法 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200110 |
|
WD01 | Invention patent application deemed withdrawn after publication |