CN109447018B - 一种基于改进Faster R-CNN的道路环境视觉感知方法 - Google Patents
一种基于改进Faster R-CNN的道路环境视觉感知方法 Download PDFInfo
- Publication number
- CN109447018B CN109447018B CN201811323004.8A CN201811323004A CN109447018B CN 109447018 B CN109447018 B CN 109447018B CN 201811323004 A CN201811323004 A CN 201811323004A CN 109447018 B CN109447018 B CN 109447018B
- Authority
- CN
- China
- Prior art keywords
- training
- network
- data set
- cnn
- gpu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000016776 visual perception Effects 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 87
- 238000001514 detection method Methods 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 230000000694 effects Effects 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 36
- 239000000523 sample Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000013526 transfer learning Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- OLBCVFGFOZPWHH-UHFFFAOYSA-N propofol Chemical compound CC(C)C1=CC=CC(C(C)C)=C1O OLBCVFGFOZPWHH-UHFFFAOYSA-N 0.000 claims description 3
- 229960004134 propofol Drugs 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000004451 qualitative analysis Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 241001590701 Vidia Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013101 initial test Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于改进Faster R‑CNN的道路环境视觉感知方法。针对复杂道路场景中目标检测和识别的高精度需求,本发明提出了基于多GPU训练的改进Faster R‑CNN算法。本发明算法使用多GPU并行训练的方法提升了训练效率;采用ResNet‑101特征提取网络提高目标检测精度;采用Soft‑NMS算法降低漏检率;同时在ROI NetWork中引入OHEM降低虚警率;为完善算法在雨雪、雾霾天气中的目标检测效果,结合国际公认的自动驾驶数据集KITTI和Oxford RobotCar对模型进行训练。实验结果证实本发明算法与Faster R‑CNN相比,在训练速度和检测精度上有明显提升,尤其在自动驾驶场景中拥有良好的泛化能力和更强的实用性。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于改进Faster R-CNN的道路环境视觉感知方法。通过对Faster R-CNN算法的改进,本方法在网络模型训练速度和目标检测精度上有明显提升,尤其在自动驾驶场景中拥有良好的泛化能力和更强的实用性。
背景技术
自动驾驶汽车的里程碑始于2009年,Google开始开发被称为Waymo的无人驾驶汽车项目。近年来,随着AlphaGo展现了深度学习的强大学习能力后,基于深度学习的环境感知、驾驶决策算法在自动驾驶中的应用使无人驾驶真正的替代人类驾驶成为可能。然而,面对复杂道路场景时,自动驾驶技术存在的安全性和可靠性问题一直是制约无人驾驶汽车推广和普及的瓶颈。视觉感知是自动驾驶感知的最主要方式。当天气状况恶劣,如雨、雪、雾霾天气;道路状况复杂,如汽车、摩托车、行人同时出现等情况,这些复杂路况对视觉感知算法仍是一个难题。
近年来的研究表明,基于深度学习的目标检测方法相比于传统的目标检测方法如Haar特征结合Adaboost算法、Hog特征结合Svm算法、DPM算法等在检测的准确率方面有了极大的提升。Faster R-CNN是基于CNN(convolutional neural network,卷积神经网络)的目标检测及识别算法的主流框架之一,采用VGG16特征提取网络对输入图片进行特征提取,然后对Feature Maps上的每个像素点都预测9个anchor boxes,再挑选出分类得分高的300个anchor boxes作为最终的Region Proposals,最后将Feature Maps和Region Proposals送入ROI-NetWork判定目标类别并获得精准的目标位置。Faster R-CNN通过创造性的使用了anchor机制,在VOC 2007 trainval&test+2012 trainval上的mAP(Mean AveragePrecision)达到较高的73.2%。但是,Faster R-CNN算法也存在诸多不足。如:Faster R-CNN只能使用单GPU进行训练,当训练样本数量巨大或特征提取网络加深时会导致训练时间过长和显存不足的问题;由于特征提取网络所提取到的特征不精细,导致目标漏检的问题;当遇到复杂场景或目标有遮挡、变形时,对目标的预测出现错误的问题。
发明内容
本发明针对Faster R-CNN的上述不足之处进行优化,提出一种基于改进FasterR-CNN的道路环境视觉感知方法。
车辆、行人的自动检测与识别是自动驾驶视觉感知的关键技术。针对复杂道路场景中目标检测和识别的高精度需求,本发明提出了基于多GPU训练的改进Faster R-CNN算法。本算法使用多GPU并行训练的方法提升了训练效率;采用ResNet-101特征提取网络代替原网络提高目标检测精度;采用Soft-NMS算法降低漏检率;同时在ROI NetWork中引入OHEM降低虚警率;为完善算法在雨雪、雾霾天气中的目标检测效果,结合国际公认的自动驾驶数据集KITTI和Oxford RobotCar对模型进行训练。实验结果证实本发明算法与Faster R-CNN相比,在训练速度和检测精度上有明显提升,尤其在自动驾驶场景中拥有良好的泛化能力和更强的实用性。
为实现上述目的,本发明采用如下技术方案:
一种基于改进Faster R-CNN的道路环境视觉感知方法,它包括,
S1、读取图片信息后,一张X*Y大小的图片会缩放至H*W,经Feature extractionnetwork模块的ResNet-101特征提取网络提取图片的Feature maps;
S2、步骤S1中输出的Feature maps进入Region proposal network模块,Regionproposal network模块运用3*3大小的滑动窗遍历Feature Maps,每个像素预测出54个anchor boxes,通过Softmax层判断anchors属于前景或者背景,再利用边框回归修正anchors获得精确的Proposals;
S3、Classification&Boundingbox regression模块收集步骤S1中得到的Featuremaps和步骤S2中得到的Proposals,通过Read-only ROI挖掘困难样本,通过Read-only ROI挖掘困难样本,使用ROI-2更新模型参数,最后得到目标物体分类结果和边框回归的偏移量;
S4、建立训练数据集:为完善算法在雨雪、雾霾天气中的目标检测效果,结合自动驾驶数据集KITTI和Oxford RobotCar组成混合自动驾驶训练集,为减少假阳性率,数据集标签整合为‘car’类和‘pedestrian’类,并将数据集制作成PASCAL VOC2007数据集的格式;
S5、训练网络模型:使用GPU_0、GPU_1联合并行训练;使用迁移学习的方式,Feature extraction network模块中的ResNet-101在ImageNet训练后得到的网络模型做为预训练模型,混合自动驾驶数据集做fine-tuning;训练方式为四步交替优化法。
所述步骤S1中X*Y大小的图片在进入网络模型前缩放至H*W,Feature extractionnetwork模块中的特征提取网络为100层的全卷积网络ResNet-101,包括Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x。本算法没有把Conv5_x输出的特征图用于RPN和RoI-NetWork&OHEM的输入。因为Conv4_x输出的特征向量精度已满足后续划分region proposal和提取proposal feature maps。经Resnet-101特征提取网络的Conv1、Conv2_x、Conv3_x、Conv4_x后,Conv4_x输出的Feature maps分别送入Region proposal network模块和Classification&Boundingbox regression模块提取Region proposals、挖掘困难样本;其中在Classification&Boundingbox regression模块的ROI Pooling层后再加入Conv5_x的九层网络增强图像特征,提升后续物体分类效果。
所述步骤S2中针对本发明使用的混合自动驾驶数据集图片尺寸,约为1242*375。以及,结合无人驾驶中目标物体小、数量多的情况。Region proposal network模块使用3*3大小的滑动窗遍历Conv4_x输出的Feature map的每个像素点,位于滑动窗中心的锚点预测6种尺度、9种比例的54个anchor boxes;anchor boxes经Softmax层提取包含目标物体的Proposals,并使用边框回归法修正Proposals的坐标;最后使用Soft-NMS方法去掉重叠度高的包围框得到精确的Proposals。
所述步骤S3中将Proposals送入Classification&Boundingbox regression模块,该模块包括只读的Read-only ROI网络和具有前-后向传播功能的ROI-2网络,两个网络间共享权重。Proposals先在Read-only ROI网络中计算分类损失和边框回归损失;然后将损失按降序排列,选择具有高损失性的Hard region proposal;最后将Hard regionproposal输入ROI-2网络中计算困难样本的损失回传给卷积神经网络来更新整个网络参数,最终得到目标物体类别和位置的精准结果。
所述步骤S4中采用KITTI数据集以及Oxford RobotCar数据集组成的混合自动驾驶数据集对模型进行训练。训练数据集选用KITTI数据集中的7481个训练图像,包含市区、乡村和高速公路采集的真实图像数据。为提高训练模型在雨雪、雾霾天气中的目标检测精度,加入Oxford RobotCar数据集中的1867个训练图片,其天气状况包括‘snow’、‘rain’和‘clouds’。为便于网络模型进行训练,数据集标签整合为‘car’类和‘pedestrian’类,并将数据集制作成PASCAL VOC2007数据集的格式。
所述步骤S5中训练时采用GPU_0和GPU_1并行训练的方法。两块GPU基于同一网络模型。在每一次迭代中,输入每块GPU的数据样本为batchsize/2,GPU根据自己分到的训练数据样本计算模型的参数,如损失、梯度。最后,将2个GPU上分别计算得到的梯度回传给CPU求平均值,得到当前的小批量梯度,每个GPU都使用这个小批量梯度分别更新自己的模型参数;使用迁移学习的方式,ResNet-101在ImageNet训练后得到的网络模型做为预训练模型,混合自动驾驶数据集做fine-tuning;训练方式为四步交替优化法。
区别于现有技术,上述技术方案具有如下优点:
A)无人驾驶技术对微小目标和被遮挡物体的检测正确率、漏检率的要求更加苛刻。本发明的Feature extraction network中的特征提取网络为ResNet-101,ResNet-101能够提取到更多和更精细的特征,提高算法的检测精度。
B)配合无人驾驶的视野要求,并结合无人驾驶中目标物体小、数量多的情况。修改Region proposal network模块中anchor boxes的比例和尺度。修改后的anchor boxes提高了RPN对目标的检测能力,使目标检测的漏检率降低、精确度提升。
C)原Faster R-CNN中使用的NMS算法对有遮挡和重叠的物体检测不灵敏,极易因前方车辆拥堵造成漏检,高的漏检率对自动驾驶的安全性和可靠性造成威胁。为了改善目标框对目标锁定的精确度,使用Soft-NMS算法。通过更合理的阈值筛选机制,有效避免了真正的区域建议框被剔除。因此,在自动驾驶中使用Soft-NMS算法高效的减少了漏检前方车辆的致命错误。
D)在自动驾驶中,异常情况的处理比正常情况更加重要,所以困难样本的训练对无人驾驶任务来说必不可少。OHEM算法使用有多样性和高损失性的困难样本的损失来更新网络模型的参数,这种方法契合目前无人驾驶数据集采集到的正常路况居多,但异常路况较少的情况,有利于解决在复杂路况和突发事件中对目标的检测和识别,并大幅提高了算法在检测和识别中的正确率和精确度。
E)使用多GPU训练,明显改善了原Faster R-CNN仅支持单GPU训练而导致的训练时间过长,以及显存显著增加而停止训练的缺点。
F)训练集采用自动驾驶数据集KITTI和Oxford RobotCar的混合数据集,有效提升了模型在多种天气状况下的泛化能力和检测精度。
附图说明
图1为改进Faster R-CNN网络结构;
图2为ResNet-101特征提取网络;
图3为Classification&Boundingbox regression模块结构和参数传播方式;
图4为各类目标物体数量所占数据集比例;
图5为多GPU并行训练实例图;
图6为Precision-Recall关系曲线;
图7为复杂道路场景中的目标检测结果图;
图8为目标车辆有遮挡、截断的检测结果图;
图9为在光照不足或目标微小情况下的目标检测结果图;
图10为严重雾霾天气下的检测结果图;
图11为暴雨天气下的检测结果图;
图12为下雪天气时的检测结果图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图给予说明。
本发明提出一种基于改进Faster R-CNN的道路环境视觉感知方法,它包括以下步骤:
S1、输入图片在进入网络模型前,首先缩放至1600*700,然后进入Featureextraction network模块中的ResNet-101特征提取网络,如图2所示。经过ResNet-101的Conv1、Conv2_x、Conv3_x、Conv4_x共91层全卷积网络后,提取到图片的Feature maps;
S2、Feature extraction network模块输出的Feature maps进入Regionproposal network模块,如图1所示。Region proposal network模块运用3*3大小的滑动窗遍历Feature Maps,每个像素预测出多个anchor boxes。为了使anchorboxes基本覆盖目标物体的各种尺度和形状,经大量实验验证后,本发明设定每个像素预测出的anchor boxes尺度有6种,6种尺度为{21,22,23,24,25,26},比例有9种{0.3:1,0.5:1,0.7:1,0.9:1,1:1,1.5:1,2:1,2.5:1,3:1},共54个anchor boxes。本发明将anchor boxes的基准窗设置为16*16,因此anchor box的面积SK如式1所示。
SK=(16*2K) K∈[1,6] (1)
anchor box的长宽比为a:1,则每个anchor box的宽WK、长HK如式2、3所示。
生成的anchor boxes通过Softmax层判断anchors属于前景或背景,再利用边框回归修正anchors获得粗略的Proposals。最后,使用Soft-NMS算法去除多余的目标框得到精确的Proposals。Soft-NMS算法使用衰减得分与重叠率成函数关系的方法用稍低的分类得分替换原分类得分。Soft NMS算法的阈值筛选法如式(4)所示。
B={b1,b2,……,bn}是一系列初始的检测框,S={s1,s2,……,sn}是它们对应的分类得分,Nt是重叠度的阈值;
S3、Classification&Boundingbox regression模块,该模块包括只读的Read-only ROI NetWork和具有前-后向传播功能的ROI-2 NetWork,两个网络间共享权重如图3所示。Proposals通过ROI Pooling层后,输出7*7大小的Proposal Feature Map;ProposalFeature Map通过Conv5_x模块的九层网络增强图像特征后,经Read-only ROI网络计算损失,包括分类损失和边框回归损失,如式5所示。
式中,表示分类损失,定义为其中pi是Region Proposal预测为目标物体概率,是GroundTruth标签。表示边框回归损失,定义为SmoothL1(t-t*),其中Hardexample的特点是具有高损失性,因此将损失按降序排列,选择高损失的Hard regionproposal;最后将Hard example输入ROI-2网络中计算困难样本的损失,将其回传给卷积神经网络来更新整个网络参数,得到精准的目标物体类别和位置坐标;
S4、建立训练数据集:本发明选用KITTI数据集中的7481个训练图像,包含市区、乡村和高速公路等场景采集的真实图像数据。此外,为了提高训练模型在雨雪、雾霾天气中的目标检测精度,选用Oxford RobotCar数据集中的1867个训练图片,天气状况包括‘snow’、‘rain’和‘clouds’。在实验中,为了配合混合数据集用于改进算法中,将其制作成PASCALVOC2007数据集的格式。由图4的混合自动驾驶数据集各类目标物体数量所占比例可以得出‘car’类与‘pedestrian’类占比极大,因此为了减少假阳性(False positives)率并平衡数据集,将原数据集标签中的‘Truck'、‘Van'等四类统一归为‘car'类;‘Person_sitting'等三类统一归为‘pedestrian'类;删减了标注信息不完整的‘Misc’等,并仅测评高度大于18像素的目标物体;
S5、训练网络模型:使用GPU_0、GPU_1联合并行训练,如图5所示。使用迁移学习的方式,ResNet-101在ImageNet训练后得到的网络模型做为预训练模型,混合自动驾驶数据集做fine-tuning。训练方式为四步交替优化法。
本发明算法改进的目的是完善Faster R-CNN算法的不足,并使算法符合无人驾驶任务的技术指标。如Faster R-CNN只能使用单GPU训练,当训练样本数量多或特征提取网络加深时会导致训练时间过长和显存不足的问题;由于特征提取网络所提取到的特征不完整,导致目标漏检的问题;当遇到复杂场景或目标有遮挡、变形时,对目标的预测出现错误的问题;以及在自动驾驶场景下尤其是各种天气中,模型泛化能力差的问题。
本发明优选一实例,一种基于改进Faster R-CNN的道路环境视觉感知方法,它包括以下步骤,
S1、输入图片首先缩放至1600*700,然后经Resnet-101特征提取网络的Conv1、Conv2_x、Conv3_x、Conv4_x后得到图片的Feature maps,如图2所示。
S2、一个3*3大小的滑动窗,由滑动窗中心的锚点为基准遍历S1中得到的Featuremaps的每一个像素,每个锚点都可以预测出6种尺度{21,22,23,24,25,26}和9种比例{0.3:1,0.5:1,0.7:1,0.9:1,1:1,1.5:1,2:1,2.5:1,3:1},共54个anchor boxes作为初始的检测框。其中最大的anchor boxes是1773*591,最小的anchor boxes是58*18,因此54个anchorboxes基本覆盖了目标物体的各种尺度和形状。然后经Softmax层找出前景,再利用边框回归修正anchors得到约6000个Proposals,最后使用Soft-NMS算法去除重叠率高的Proposals,Soft-NMS算法中的重叠度阈值Nt=0.7。
S3、综合S1中得到的Feature maps和S2中得到的Proposals,送入Classification&Boundingbox regression模块中,先经Conv5_x增强Feature maps的特征得到Proposal feature maps。将Proposal feature maps送入Read-onlyROI网络中计算分类损失和边框回归损失。然后将损失按降序排列,同时运用Soft-NMS方法选择128个困难样本。最后将困难样本输入ROI-2网络中计算困难样本的损失(其它样本的损失置零)回传给卷积神经网络来更新整个网络参数,完成对一幅图片中目标的检测和识别。
S4、建立训练数据集:训练数据采用KITTI和Oxford RobotCar数据集组成的混合无人驾驶数据集,共9348张,包括‘car’类和‘pedestrian’类。将图片中所框的目标坐标信息和种类信息转换成XML文件格式,使混合自动驾驶数据集符合PASCAL VOC数据集的格式。
S5、网络模型训练:使用GPU_0和GPU_1并联训练。使用迁移学习的方式,ResNet-101在ImageNet训练后得到的网络模型做为预训练模型,混合自动驾驶数据集做fine-tuning。训练方法选择四步交替优化法,学习率设置为0.01,BATCH_SIZE=128,每步的迭代次数设置为100000次。
实验结果与分析
实验环境与参数
本发明的实验环境为,CPU:Intel Core i7-5930K;内存:128GB DDR4 3200 MHzNon-ECC,Un-buffered内存;GPU:四块TITAN*12GB GPUS,Nvidia Geforce 12GB VIDIA驱动程序Toolkit.SDK安装;操作系统:64位Ubuntu14.04;深度学习框架为Caffe开源框架。
多GPU并行训练效果验证
本实验采取对照实验,以训练完成所需时间为最终评价标准。
数据集为KIITI数据集,带有标注的训练图片共7481张;迭代次数统一为70000次;对照组为Faster R-CNN+VGG16、Faster R-CNN+ResNet-101、Faster R-CNN+ResNet-101+OHEM;实验组为本发明提出的方法即两块GPU+Faster R-CNN+ResNet-101+OHEM。实验结果如表1所示。
表1基于KIITI数据集训练的各算法时间对比
由实验结果不难得出结论:基于两块GPU并行训练的本发明方法与现有技术中用单GPU训练的方法相比,本发明算法虽然使用比大型特征提取网络VGG16更深的ResNet-101,但其训练速度仍然提升了约20min;当特征提取网络同为ResNet-101时,本发明算法的训练时间减少了约68min;原Faster R-CNN+ResNet-101在加入OHEM结构后会出现迭代时间增加,显存瞬时峰值过大,导致显存不足、无法完成训练的问题,本发明方法很好的解决了这个难题。由此,本发明算法在节省了大量训练时间的同时,弥补了单GPU而导致的显卡容量不足、训练失败的缺陷。
定性和定量分析模型精度
目标检测任务中公认的评价指标是Precision-Recall关系曲线、AP(Interpolated average precision)值和mAP(mean Average Precision)值。
Precision-Recall关系曲线就是以Precision为纵坐标,Recall为横坐标而描绘的曲线,通过调节阈值、观察曲线变化来定性评估系统对每类物体分类情况的优劣。
Precision-Recall关系曲线中的Precision(精确率)反映了被正确识别的目标中,真阳性(True positives)所占比例,计算公式如式6所示,
其中,TP:True positives,真阳性。FP:False positives,假阳性。
Recall(召回率)反映某类被正确识别的目标物体占该类物体的比重,计算公式如式7所示。
其中,TP:True positives,真阳性。FN:False negatives,假阴性。
如图6示为使用Precision-Recall曲线对本算法进行定性分析。Precision-Recall关系曲线图中右上角的各类物体曲线均呈现凸起状,说明本算法的检测效果良好、检测精确度高。
本发明使用各类物体AP(Interpolated average precision)值定量分析模型精度;使用mAP值评价本算法在数据集上的目标检测效果。AP(Average precision)值是Precision-Recall关系曲线下的面积,使用它来定量分析模型精度。本发明中为了避免P-R曲线不稳定而导致的AP值较低的问题,使用“Interpolated average precision”的计算方法,即对变化的阈值,每次使用在所有阈值的Precision中,最大值的那个Precision值与Recall值相乘,再把所有阈值下求得的乘积值累加,如式8所示。
其中,P为Precision。R为Recall。
在图片的多目标检测和识别中,使用mAP(mean Average Precision)值来衡量模型在全部类别的物体分类任务中的好坏。mAP是多个类别物体AP值的平均值,其值越大,检测精度越高,表明检测算法的性能越好。
如表2示为本发明算法和原Faster R-CNN使用中型网络VGG1024、大型网络VGG16、深度网络ResNet-101的AP值和mAP值对比。
表2 AP值、mAP值对比
实验结果
本发明算法在自动驾驶混合数据集上训练后的测试结果如图7、图8、图9所示。从图7可以看出本算法在复杂道路场景中对车辆的检测效果良好;对图8中,目标车辆有遮挡、截断的情况,仍然可以精确的锁定目标;对于图9中左侧车辆因光照不足而模糊不清的目标物体,检测算法可以克服问题,框出目标物体,并且,对于行人的检测效果良好。
图10、图11、图12为训练模型在雨雪、雾霾天气干扰下的检测效果。在图10雾霾天气严重,车辆和行人模糊不清的情况下,本算法的检测精确度并未下降;对图11因暴雨天气目标车辆出现模糊、重影的状况,以及图12因下雪导致目标车辆被大面积遮盖的情况,本发明方法检测效果良好并准确的识别出各物体类别,漏检率很低。
Claims (6)
1.一种基于改进Faster R-CNN的道路环境视觉感知方法,其特征在于:它包括,
S1、读取图片信息后,一张X*Y大小的图片会缩放至H*W,经Feature extractionnetwork模块的ResNet-101特征提取网络提取图片的Feature maps;
S2、步骤S1中输出的Feature maps进入Region proposal network模块,Regionproposal network模块运用3*3大小的滑动窗遍历Feature maps,每个像素预测出54个anchor boxes,通过Softmax层判断anchors属于前景或者背景,再利用边框回归修正anchors获得精确的Proposals;
S3、Classification&Boundingbox regression模块收集步骤S1中得到的Featuremaps和步骤S2中得到的Proposals,通过Read-only ROI挖掘困难样本,使用ROI-2更新模型参数,最后得到目标物体分类结果和边框回归的偏移量;
S4、建立训练数据集:为完善算法在雨雪、雾霾天气中的目标检测效果,结合自动驾驶数据集KITTI和Oxford RobotCar组成混合自动驾驶训练集;为减少假阳性率,数据集标签整合为‘car’类和‘pedestrian’类,并将数据集制作成PASCALVOC2007数据集的格式;
S5、训练网络模型:使用GPU_0、GPU_1联合并行训练;使用迁移学习的方式,Featureextraction network模块中的ResNet-101在ImageNet训练后得到的网络模型做为预训练模型,混合自动驾驶数据集做fine-tuning;训练方式为四步交替优化法。
2.如权利要求1所述的一种基于改进Faster R-CNN的道路环境视觉感知方法,其特征在于:所述步骤S1中X*Y大小的图片在进入网络模型前缩放至H*W,Feature extractionnetwork模块中的特征提取网络为100层的全卷积网络ResNet-101,包括Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x;经Resnet-101特征提取网络的Conv1、Conv2_x、Conv3_x、Conv4_x后,Conv4_x输出的Feature maps分别送入Region proposal network模块和Classification&Boundingbox regression模块提取Regionproposals、挖掘困难样本;其中在Classification&Boundingbox regression模块的ROI Pooling层后再加入Conv5_x的九层网络增强图像特征,提升后续物体分类效果。
3.如权利要求2所述的一种基于改进Faster R-CNN的道路环境视觉感知方法,其特征在于:所述步骤S2中,Region proposal network模块使用3*3大小的滑动窗遍历Conv4_x输出的Feature maps的每个像素点,位于滑动窗中心的锚点预测6种尺度、9种比例的54个anchor boxes;anchor boxes经Softmax层提取包含目标物体的Proposals,并使用边框回归法修正Proposals的坐标;最后使用Soft-NMS方法去掉重叠度高的包围框得到精确的Proposals。
4.如权利要求1所述的一种基于改进Faster R-CNN的道路环境视觉感知方法,其特征在于:所述步骤S3中,将Proposals送入Classification&Boundingbox regression模块,该模块包括只读的Read-only ROI网络和具有前-后向传播功能的ROI-2网络,两个网络间共享权重;Proposals在Read-only ROI网络中计算分类损失和边框回归损失;然后将损失按降序排列,选择具有高损失性的Hard region proposal;最后将Hard region proposal输入ROI-2网络中计算困难样本的损失回传给卷积神经网络来更新整个网络参数,最终得到目标物体类别和位置的精准结果。
5.如权利要求1所述的一种基于改进Faster R-CNN的道路环境视觉感知方法,其特征在于:所述步骤S4中,训练数据集选用KITTI数据集中的7481个训练图像,包含市区、乡村和高速公路采集的真实图像数据;此外,为了提高训练模型在雨雪、雾霾天气中的目标检测精度,加入OxfordRobotCar数据集中的1867个训练图片,天气状况包括‘snow’、‘rain’和‘clouds’;为了便于网络模型进行训练,数据集标签整合为‘car’类和‘pedestrian’类,并将数据集制作成PASCALVOC2007数据集的格式。
6.如权利要求1所述的一种基于改进Faster R-CNN的道路环境视觉感知方法,其特征在于:所述步骤S5中,根据训练图片数目和对训练参数数量的预估,在训练中使用GPU_0和GPU_1;训练时,两块GPU基于同一网络模型;在每一次迭代中,输入每块GPU的数据样本为batchsize/2,GPU根据自己分到的训练数据样本计算模型的参数,包括损失和梯度;最后,将2个GPU上分别计算得到的梯度回传给CPU求平均值,得到当前的小批量梯度,每个GPU都使用这个小批量梯度分别更新自己的模型参数;使用迁移学习的方式,ResNet-101在ImageNet训练后得到的网络模型做为预训练模型,混合自动驾驶数据集做fine-tuning;训练方式为四步交替优化法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811323004.8A CN109447018B (zh) | 2018-11-08 | 2018-11-08 | 一种基于改进Faster R-CNN的道路环境视觉感知方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811323004.8A CN109447018B (zh) | 2018-11-08 | 2018-11-08 | 一种基于改进Faster R-CNN的道路环境视觉感知方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109447018A CN109447018A (zh) | 2019-03-08 |
CN109447018B true CN109447018B (zh) | 2021-08-03 |
Family
ID=65551208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811323004.8A Expired - Fee Related CN109447018B (zh) | 2018-11-08 | 2018-11-08 | 一种基于改进Faster R-CNN的道路环境视觉感知方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109447018B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977812B (zh) * | 2019-03-12 | 2023-02-24 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN110007675B (zh) * | 2019-04-12 | 2021-01-15 | 北京航空航天大学 | 一种基于行车态势图的车辆自动驾驶决策系统及基于无人机的训练集制备方法 |
CN110186471A (zh) * | 2019-05-06 | 2019-08-30 | 平安科技(深圳)有限公司 | 基于历史视频的导航方法、装置、计算机设备及存储介质 |
CN110399788A (zh) * | 2019-06-13 | 2019-11-01 | 平安科技(深圳)有限公司 | 图像的au检测方法、装置、电子设备及存储介质 |
CN110274919A (zh) * | 2019-07-10 | 2019-09-24 | 天津工业大学 | 基于Faster R-CNN的裁片花纹参数测量方法 |
CN111241943B (zh) * | 2019-12-31 | 2022-06-21 | 浙江大学 | 基于背景目标与三元组损失的场景识别与回环检测方法 |
CN111444816A (zh) * | 2020-01-14 | 2020-07-24 | 北京银河信通科技有限公司 | 一种基于Faster RCNN的多尺度密集行人检测方法 |
CN111639525A (zh) * | 2020-04-22 | 2020-09-08 | 上海擎感智能科技有限公司 | 一种感知算法的训练方法、装置及计算机存储介质 |
CN111695493B (zh) * | 2020-06-10 | 2023-12-08 | 国网山东省电力公司电力科学研究院 | 一种输电线路隐患的检测方法及系统 |
CN111860264B (zh) * | 2020-07-10 | 2024-01-05 | 武汉理工大学 | 一种基于梯度均衡策略的多任务实例级道路场景理解算法 |
CN111881029A (zh) * | 2020-07-23 | 2020-11-03 | 深圳慕智科技有限公司 | 一种面向自动驾驶的多场景自动化点云扩增方法 |
CN112329559A (zh) * | 2020-10-22 | 2021-02-05 | 空间信息产业发展股份有限公司 | 一种基于深度卷积神经网络的宅基地目标检测方法 |
CN112434618B (zh) * | 2020-11-26 | 2023-06-23 | 西安电子科技大学 | 基于稀疏前景先验的视频目标检测方法、存储介质及设备 |
US20220176998A1 (en) * | 2020-12-08 | 2022-06-09 | Guangzhou Automobile Group Co., Ltd. | Method and Device for Loss Evaluation to Automated Driving |
CN115362471A (zh) * | 2021-01-28 | 2022-11-18 | 东莞职业技术学院 | 一种金属表面缺陷检测方法及装置 |
CN113111722A (zh) * | 2021-03-17 | 2021-07-13 | 天津理工大学 | 基于改进Mask R-CNN的自动驾驶目标识别方法 |
CN113033687A (zh) * | 2021-04-02 | 2021-06-25 | 西北工业大学 | 一种雨雪气候条件下的目标检测识别方法 |
CN113409289A (zh) * | 2021-06-29 | 2021-09-17 | 南开大学 | 一种基于Faster R-CNN的古建筑砖面缺陷检测方法 |
CN113723400A (zh) * | 2021-08-23 | 2021-11-30 | 中南大学 | 一种基于红外图像的电解槽极板故障识别方法、系统、终端及可读存储介质 |
CN113743259A (zh) * | 2021-08-23 | 2021-12-03 | 吉林大学 | 基于ResOHEM-net的心律失常分类方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
CN107563446A (zh) * | 2017-09-05 | 2018-01-09 | 华中科技大学 | 一种微操作系统目标检测方法 |
CN107944412A (zh) * | 2017-12-04 | 2018-04-20 | 国网山东省电力公司电力科学研究院 | 基于多层卷积神经网络的输电线路自动识别系统及方法 |
CN108009509A (zh) * | 2017-12-12 | 2018-05-08 | 河南工业大学 | 车辆目标检测方法 |
CN108229381A (zh) * | 2017-12-29 | 2018-06-29 | 湖南视觉伟业智能科技有限公司 | 人脸图像生成方法、装置、存储介质和计算机设备 |
CN108304787A (zh) * | 2018-01-17 | 2018-07-20 | 河南工业大学 | 基于卷积神经网络的道路目标检测方法 |
CN108364006A (zh) * | 2018-01-17 | 2018-08-03 | 超凡影像科技股份有限公司 | 基于多模式深度学习的医学图像分类装置及其构建方法 |
-
2018
- 2018-11-08 CN CN201811323004.8A patent/CN109447018B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
CN107563446A (zh) * | 2017-09-05 | 2018-01-09 | 华中科技大学 | 一种微操作系统目标检测方法 |
CN107944412A (zh) * | 2017-12-04 | 2018-04-20 | 国网山东省电力公司电力科学研究院 | 基于多层卷积神经网络的输电线路自动识别系统及方法 |
CN108009509A (zh) * | 2017-12-12 | 2018-05-08 | 河南工业大学 | 车辆目标检测方法 |
CN108229381A (zh) * | 2017-12-29 | 2018-06-29 | 湖南视觉伟业智能科技有限公司 | 人脸图像生成方法、装置、存储介质和计算机设备 |
CN108304787A (zh) * | 2018-01-17 | 2018-07-20 | 河南工业大学 | 基于卷积神经网络的道路目标检测方法 |
CN108364006A (zh) * | 2018-01-17 | 2018-08-03 | 超凡影像科技股份有限公司 | 基于多模式深度学习的医学图像分类装置及其构建方法 |
Non-Patent Citations (3)
Title |
---|
"Soft-NMS–Improving Object Detection With One Line of Code";Navaneeth Bodla 等;《2017 IEEE International Conference on Computer Vision》;20171225;全文 * |
"Training Region-based Object Detectors with Online Hard Example Mining";Abhinav Shrivastava 等;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161212;全文 * |
"基于Fast R-CNN的车辆目标检测";曹诗雨 等;《中国图象图形学报》;20170531;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109447018A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447018B (zh) | 一种基于改进Faster R-CNN的道路环境视觉感知方法 | |
CN110796168B (zh) | 一种基于改进YOLOv3的车辆检测方法 | |
CN109977812B (zh) | 一种基于深度学习的车载视频目标检测方法 | |
CN111368687B (zh) | 一种基于目标检测和语义分割的人行道车辆违停检测方法 | |
CN110069986B (zh) | 一种基于混合模型的交通信号灯识别方法及系统 | |
DE112013001858B4 (de) | Mehrfachhinweis-Objekterkennung und -Analyse | |
CN111667512B (zh) | 基于改进卡尔曼滤波的多目标车辆轨迹预测方法 | |
CN112633149B (zh) | 一种域自适应雾天图像目标检测方法和装置 | |
US8712096B2 (en) | Method and apparatus for detecting and tracking vehicles | |
CN103824081B (zh) | 一种室外恶劣光照条件下的快速鲁棒交通标志检测方法 | |
CN111340855A (zh) | 一种基于轨迹预测的道路移动目标检测方法 | |
CN103310435B (zh) | 将垂直投影和最优路径相结合对车牌字符进行分割的方法 | |
CN111259796A (zh) | 一种基于图像几何特征的车道线检测方法 | |
CN109101932B (zh) | 基于目标检测的多任务及临近信息融合的深度学习方法 | |
CN113111722A (zh) | 基于改进Mask R-CNN的自动驾驶目标识别方法 | |
CN111915583A (zh) | 复杂场景中基于车载红外热像仪的车辆和行人检测方法 | |
CN106778540A (zh) | 停车检测准确的基于双层背景的停车事件检测方法 | |
Liu et al. | Real-time on-road vehicle detection combining specific shadow segmentation and SVM classification | |
CN110991447A (zh) | 基于深度学习的列车车号精确定位与识别方法 | |
CN110837769B (zh) | 一种图像处理与深度学习的嵌入式远红外行人检测方法 | |
CN109934096B (zh) | 基于特征时序相关性的自动驾驶视觉感知优化方法 | |
CN114863122A (zh) | 一种基于人工智能的智能化高精度路面病害识别方法 | |
CN114926984A (zh) | 一种实时交通冲突收集与道路安全评价方法 | |
Sheng et al. | A faster R-CNN based high-normalization sample calibration method for dense subway passenger flow detection | |
CN110826468B (zh) | 一种辅助驾驶的基于车道线检测的车辆检测测距方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210803 |