CN109447018B

CN109447018B - 一种基于改进Faster R-CNN的道路环境视觉感知方法

Info

Publication number: CN109447018B
Application number: CN201811323004.8A
Authority: CN
Inventors: 董恩增; 路尧; 佟吉刚
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2021-08-03
Anticipated expiration: 2038-11-08
Also published as: CN109447018A

Abstract

一种基于改进Faster R‑CNN的道路环境视觉感知方法。针对复杂道路场景中目标检测和识别的高精度需求，本发明提出了基于多GPU训练的改进Faster R‑CNN算法。本发明算法使用多GPU并行训练的方法提升了训练效率；采用ResNet‑101特征提取网络提高目标检测精度；采用Soft‑NMS算法降低漏检率；同时在ROI NetWork中引入OHEM降低虚警率；为完善算法在雨雪、雾霾天气中的目标检测效果，结合国际公认的自动驾驶数据集KITTI和Oxford RobotCar对模型进行训练。实验结果证实本发明算法与Faster R‑CNN相比，在训练速度和检测精度上有明显提升，尤其在自动驾驶场景中拥有良好的泛化能力和更强的实用性。

Description

一种基于改进Faster R-CNN的道路环境视觉感知方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于改进Faster R-CNN的道路环境视觉感知方法。通过对Faster R-CNN算法的改进，本方法在网络模型训练速度和目标检测精度上有明显提升，尤其在自动驾驶场景中拥有良好的泛化能力和更强的实用性。

背景技术

自动驾驶汽车的里程碑始于2009年，Google开始开发被称为Waymo的无人驾驶汽车项目。近年来，随着AlphaGo展现了深度学习的强大学习能力后，基于深度学习的环境感知、驾驶决策算法在自动驾驶中的应用使无人驾驶真正的替代人类驾驶成为可能。然而，面对复杂道路场景时，自动驾驶技术存在的安全性和可靠性问题一直是制约无人驾驶汽车推广和普及的瓶颈。视觉感知是自动驾驶感知的最主要方式。当天气状况恶劣，如雨、雪、雾霾天气；道路状况复杂，如汽车、摩托车、行人同时出现等情况，这些复杂路况对视觉感知算法仍是一个难题。

近年来的研究表明，基于深度学习的目标检测方法相比于传统的目标检测方法如Haar特征结合Adaboost算法、Hog特征结合Svm算法、DPM算法等在检测的准确率方面有了极大的提升。Faster R-CNN是基于CNN(convolutional neural network，卷积神经网络)的目标检测及识别算法的主流框架之一，采用VGG16特征提取网络对输入图片进行特征提取，然后对Feature Maps上的每个像素点都预测9个anchor boxes,再挑选出分类得分高的300个anchor boxes作为最终的Region Proposals，最后将Feature Maps和Region Proposals送入ROI-NetWork判定目标类别并获得精准的目标位置。Faster R-CNN通过创造性的使用了anchor机制，在VOC 2007 trainval&test+2012 trainval上的mAP(Mean AveragePrecision)达到较高的73.2％。但是，Faster R-CNN算法也存在诸多不足。如：Faster R-CNN只能使用单GPU进行训练，当训练样本数量巨大或特征提取网络加深时会导致训练时间过长和显存不足的问题；由于特征提取网络所提取到的特征不精细，导致目标漏检的问题；当遇到复杂场景或目标有遮挡、变形时，对目标的预测出现错误的问题。

发明内容

本发明针对Faster R-CNN的上述不足之处进行优化，提出一种基于改进FasterR-CNN的道路环境视觉感知方法。

车辆、行人的自动检测与识别是自动驾驶视觉感知的关键技术。针对复杂道路场景中目标检测和识别的高精度需求，本发明提出了基于多GPU训练的改进Faster R-CNN算法。本算法使用多GPU并行训练的方法提升了训练效率；采用ResNet-101特征提取网络代替原网络提高目标检测精度；采用Soft-NMS算法降低漏检率；同时在ROI NetWork中引入OHEM降低虚警率；为完善算法在雨雪、雾霾天气中的目标检测效果，结合国际公认的自动驾驶数据集KITTI和Oxford RobotCar对模型进行训练。实验结果证实本发明算法与Faster R-CNN相比，在训练速度和检测精度上有明显提升，尤其在自动驾驶场景中拥有良好的泛化能力和更强的实用性。

为实现上述目的，本发明采用如下技术方案：

一种基于改进Faster R-CNN的道路环境视觉感知方法，它包括，

S1、读取图片信息后，一张X*Y大小的图片会缩放至H*W，经Feature extractionnetwork模块的ResNet-101特征提取网络提取图片的Feature maps；

S2、步骤S1中输出的Feature maps进入Region proposal network模块，Regionproposal network模块运用3*3大小的滑动窗遍历Feature Maps，每个像素预测出54个anchor boxes，通过Softmax层判断anchors属于前景或者背景，再利用边框回归修正anchors获得精确的Proposals；

S3、Classification&Boundingbox regression模块收集步骤S1中得到的Featuremaps和步骤S2中得到的Proposals,通过Read-only ROI挖掘困难样本，通过Read-only ROI挖掘困难样本，使用ROI-2更新模型参数，最后得到目标物体分类结果和边框回归的偏移量；

S4、建立训练数据集：为完善算法在雨雪、雾霾天气中的目标检测效果，结合自动驾驶数据集KITTI和Oxford RobotCar组成混合自动驾驶训练集，为减少假阳性率，数据集标签整合为‘car’类和‘pedestrian’类，并将数据集制作成PASCAL VOC2007数据集的格式；

S5、训练网络模型：使用GPU_0、GPU_1联合并行训练；使用迁移学习的方式，Feature extraction network模块中的ResNet-101在ImageNet训练后得到的网络模型做为预训练模型，混合自动驾驶数据集做fine-tuning；训练方式为四步交替优化法。

所述步骤S1中X*Y大小的图片在进入网络模型前缩放至H*W，Feature extractionnetwork模块中的特征提取网络为100层的全卷积网络ResNet-101，包括Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x。本算法没有把Conv5_x输出的特征图用于RPN和RoI-NetWork&OHEM的输入。因为Conv4_x输出的特征向量精度已满足后续划分region proposal和提取proposal feature maps。经Resnet-101特征提取网络的Conv1、Conv2_x、Conv3_x、Conv4_x后，Conv4_x输出的Feature maps分别送入Region proposal network模块和Classification&Boundingbox regression模块提取Region proposals、挖掘困难样本；其中在Classification&Boundingbox regression模块的ROI Pooling层后再加入Conv5_x的九层网络增强图像特征，提升后续物体分类效果。

所述步骤S2中针对本发明使用的混合自动驾驶数据集图片尺寸，约为1242*375。以及，结合无人驾驶中目标物体小、数量多的情况。Region proposal network模块使用3*3大小的滑动窗遍历Conv4_x输出的Feature map的每个像素点，位于滑动窗中心的锚点预测6种尺度、9种比例的54个anchor boxes；anchor boxes经Softmax层提取包含目标物体的Proposals，并使用边框回归法修正Proposals的坐标；最后使用Soft-NMS方法去掉重叠度高的包围框得到精确的Proposals。

所述步骤S3中将Proposals送入Classification&Boundingbox regression模块，该模块包括只读的Read-only ROI网络和具有前-后向传播功能的ROI-2网络，两个网络间共享权重。Proposals先在Read-only ROI网络中计算分类损失和边框回归损失；然后将损失按降序排列，选择具有高损失性的Hard region proposal；最后将Hard regionproposal输入ROI-2网络中计算困难样本的损失回传给卷积神经网络来更新整个网络参数，最终得到目标物体类别和位置的精准结果。

所述步骤S4中采用KITTI数据集以及Oxford RobotCar数据集组成的混合自动驾驶数据集对模型进行训练。训练数据集选用KITTI数据集中的7481个训练图像，包含市区、乡村和高速公路采集的真实图像数据。为提高训练模型在雨雪、雾霾天气中的目标检测精度，加入Oxford RobotCar数据集中的1867个训练图片，其天气状况包括‘snow’、‘rain’和‘clouds’。为便于网络模型进行训练，数据集标签整合为‘car’类和‘pedestrian’类，并将数据集制作成PASCAL VOC2007数据集的格式。

所述步骤S5中训练时采用GPU_0和GPU_1并行训练的方法。两块GPU基于同一网络模型。在每一次迭代中,输入每块GPU的数据样本为batchsize/2，GPU根据自己分到的训练数据样本计算模型的参数，如损失、梯度。最后,将2个GPU上分别计算得到的梯度回传给CPU求平均值，得到当前的小批量梯度，每个GPU都使用这个小批量梯度分别更新自己的模型参数；使用迁移学习的方式，ResNet-101在ImageNet训练后得到的网络模型做为预训练模型，混合自动驾驶数据集做fine-tuning；训练方式为四步交替优化法。

区别于现有技术，上述技术方案具有如下优点：

A)无人驾驶技术对微小目标和被遮挡物体的检测正确率、漏检率的要求更加苛刻。本发明的Feature extraction network中的特征提取网络为ResNet-101，ResNet-101能够提取到更多和更精细的特征，提高算法的检测精度。

B)配合无人驾驶的视野要求，并结合无人驾驶中目标物体小、数量多的情况。修改Region proposal network模块中anchor boxes的比例和尺度。修改后的anchor boxes提高了RPN对目标的检测能力，使目标检测的漏检率降低、精确度提升。

C)原Faster R-CNN中使用的NMS算法对有遮挡和重叠的物体检测不灵敏，极易因前方车辆拥堵造成漏检，高的漏检率对自动驾驶的安全性和可靠性造成威胁。为了改善目标框对目标锁定的精确度，使用Soft-NMS算法。通过更合理的阈值筛选机制，有效避免了真正的区域建议框被剔除。因此，在自动驾驶中使用Soft-NMS算法高效的减少了漏检前方车辆的致命错误。

D)在自动驾驶中，异常情况的处理比正常情况更加重要，所以困难样本的训练对无人驾驶任务来说必不可少。OHEM算法使用有多样性和高损失性的困难样本的损失来更新网络模型的参数，这种方法契合目前无人驾驶数据集采集到的正常路况居多，但异常路况较少的情况，有利于解决在复杂路况和突发事件中对目标的检测和识别，并大幅提高了算法在检测和识别中的正确率和精确度。

E)使用多GPU训练，明显改善了原Faster R-CNN仅支持单GPU训练而导致的训练时间过长，以及显存显著增加而停止训练的缺点。

F)训练集采用自动驾驶数据集KITTI和Oxford RobotCar的混合数据集，有效提升了模型在多种天气状况下的泛化能力和检测精度。

附图说明

图1为改进Faster R-CNN网络结构；

图2为ResNet-101特征提取网络；

图3为Classification&Boundingbox regression模块结构和参数传播方式；

图4为各类目标物体数量所占数据集比例；

图5为多GPU并行训练实例图；

图6为Precision-Recall关系曲线；

图7为复杂道路场景中的目标检测结果图；

图8为目标车辆有遮挡、截断的检测结果图；

图9为在光照不足或目标微小情况下的目标检测结果图；

图10为严重雾霾天气下的检测结果图；

图11为暴雨天气下的检测结果图；

图12为下雪天气时的检测结果图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图给予说明。

本发明提出一种基于改进Faster R-CNN的道路环境视觉感知方法，它包括以下步骤：

S1、输入图片在进入网络模型前，首先缩放至1600*700，然后进入Featureextraction network模块中的ResNet-101特征提取网络，如图2所示。经过ResNet-101的Conv1、Conv2_x、Conv3_x、Conv4_x共91层全卷积网络后，提取到图片的Feature maps；

S2、Feature extraction network模块输出的Feature maps进入Regionproposal network模块，如图1所示。Region proposal network模块运用3*3大小的滑动窗遍历Feature Maps，每个像素预测出多个anchor boxes。为了使anchorboxes基本覆盖目标物体的各种尺度和形状，经大量实验验证后，本发明设定每个像素预测出的anchor boxes尺度有6种,6种尺度为{2¹，2²，2³，2⁴，2⁵，2⁶}，比例有9种{0.3：1，0.5：1，0.7：1，0.9：1，1：1，1.5：1，2：1，2.5：1，3：1}，共54个anchor boxes。本发明将anchor boxes的基准窗设置为16*16，因此anchor box的面积S_K如式1所示。

S_K＝(16*2^K) K∈[1,6] (1)

anchor box的长宽比为a:1,则每个anchor box的宽W_K、长H_K如式2、3所示。

生成的anchor boxes通过Softmax层判断anchors属于前景或背景，再利用边框回归修正anchors获得粗略的Proposals。最后，使用Soft-NMS算法去除多余的目标框得到精确的Proposals。Soft-NMS算法使用衰减得分与重叠率成函数关系的方法用稍低的分类得分替换原分类得分。Soft NMS算法的阈值筛选法如式(4)所示。

B＝{b₁,b₂,……,b_n}是一系列初始的检测框，S＝{s₁,s₂,……,s_n}是它们对应的分类得分，N_t是重叠度的阈值；

S3、Classification&Boundingbox regression模块，该模块包括只读的Read-only ROI NetWork和具有前-后向传播功能的ROI-2 NetWork，两个网络间共享权重如图3所示。Proposals通过ROI Pooling层后，输出7*7大小的Proposal Feature Map；ProposalFeature Map通过Conv5_x模块的九层网络增强图像特征后，经Read-only ROI网络计算损失，包括分类损失和边框回归损失，如式5所示。

式中，

表示分类损失，定义为

其中p_i是Region Proposal预测为目标物体概率，

是GroundTruth标签。

表示边框回归损失，定义为Smooth_L1(t-t^*)，其中

Hardexample的特点是具有高损失性，因此将损失按降序排列，选择高损失的Hard regionproposal；最后将Hard example输入ROI-2网络中计算困难样本的损失，将其回传给卷积神经网络来更新整个网络参数，得到精准的目标物体类别和位置坐标；

S4、建立训练数据集：本发明选用KITTI数据集中的7481个训练图像，包含市区、乡村和高速公路等场景采集的真实图像数据。此外，为了提高训练模型在雨雪、雾霾天气中的目标检测精度，选用Oxford RobotCar数据集中的1867个训练图片，天气状况包括‘snow’、‘rain’和‘clouds’。在实验中，为了配合混合数据集用于改进算法中，将其制作成PASCALVOC2007数据集的格式。由图4的混合自动驾驶数据集各类目标物体数量所占比例可以得出‘car’类与‘pedestrian’类占比极大，因此为了减少假阳性(False positives)率并平衡数据集，将原数据集标签中的‘Truck'、‘Van'等四类统一归为‘car'类；‘Person_sitting'等三类统一归为‘pedestrian'类；删减了标注信息不完整的‘Misc’等，并仅测评高度大于18像素的目标物体；

S5、训练网络模型：使用GPU_0、GPU_1联合并行训练，如图5所示。使用迁移学习的方式，ResNet-101在ImageNet训练后得到的网络模型做为预训练模型，混合自动驾驶数据集做fine-tuning。训练方式为四步交替优化法。

本发明算法改进的目的是完善Faster R-CNN算法的不足，并使算法符合无人驾驶任务的技术指标。如Faster R-CNN只能使用单GPU训练，当训练样本数量多或特征提取网络加深时会导致训练时间过长和显存不足的问题；由于特征提取网络所提取到的特征不完整，导致目标漏检的问题；当遇到复杂场景或目标有遮挡、变形时，对目标的预测出现错误的问题；以及在自动驾驶场景下尤其是各种天气中，模型泛化能力差的问题。

本发明优选一实例，一种基于改进Faster R-CNN的道路环境视觉感知方法，它包括以下步骤，

S1、输入图片首先缩放至1600*700，然后经Resnet-101特征提取网络的Conv1、Conv2_x、Conv3_x、Conv4_x后得到图片的Feature maps，如图2所示。

S2、一个3*3大小的滑动窗，由滑动窗中心的锚点为基准遍历S1中得到的Featuremaps的每一个像素，每个锚点都可以预测出6种尺度{2¹，2²，2³，2⁴，2⁵，2⁶}和9种比例{0.3：1，0.5：1，0.7：1，0.9：1，1：1，1.5：1，2：1，2.5：1，3：1}，共54个anchor boxes作为初始的检测框。其中最大的anchor boxes是1773*591，最小的anchor boxes是58*18，因此54个anchorboxes基本覆盖了目标物体的各种尺度和形状。然后经Softmax层找出前景，再利用边框回归修正anchors得到约6000个Proposals，最后使用Soft-NMS算法去除重叠率高的Proposals，Soft-NMS算法中的重叠度阈值N_t＝0.7。

S3、综合S1中得到的Feature maps和S2中得到的Proposals，送入Classification&Boundingbox regression模块中，先经Conv5_x增强Feature maps的特征得到Proposal feature maps。将Proposal feature maps送入Read-onlyROI网络中计算分类损失和边框回归损失。然后将损失按降序排列，同时运用Soft-NMS方法选择128个困难样本。最后将困难样本输入ROI-2网络中计算困难样本的损失(其它样本的损失置零)回传给卷积神经网络来更新整个网络参数，完成对一幅图片中目标的检测和识别。

S4、建立训练数据集：训练数据采用KITTI和Oxford RobotCar数据集组成的混合无人驾驶数据集，共9348张，包括‘car’类和‘pedestrian’类。将图片中所框的目标坐标信息和种类信息转换成XML文件格式，使混合自动驾驶数据集符合PASCAL VOC数据集的格式。

S5、网络模型训练：使用GPU_0和GPU_1并联训练。使用迁移学习的方式，ResNet-101在ImageNet训练后得到的网络模型做为预训练模型，混合自动驾驶数据集做fine-tuning。训练方法选择四步交替优化法，学习率设置为0.01，BATCH_SIZE＝128，每步的迭代次数设置为100000次。

实验结果与分析

实验环境与参数

本发明的实验环境为，CPU：Intel Core i7-5930K；内存：128GB DDR4 3200 MHzNon-ECC,Un-buffered内存；GPU：四块TITAN*12GB GPUS，Nvidia Geforce 12GB VIDIA驱动程序Toolkit.SDK安装；操作系统：64位Ubuntu14.04；深度学习框架为Caffe开源框架。

多GPU并行训练效果验证

本实验采取对照实验，以训练完成所需时间为最终评价标准。

数据集为KIITI数据集，带有标注的训练图片共7481张；迭代次数统一为70000次；对照组为Faster R-CNN+VGG16、Faster R-CNN+ResNet-101、Faster R-CNN+ResNet-101+OHEM；实验组为本发明提出的方法即两块GPU+Faster R-CNN+ResNet-101+OHEM。实验结果如表1所示。

表1基于KIITI数据集训练的各算法时间对比

由实验结果不难得出结论：基于两块GPU并行训练的本发明方法与现有技术中用单GPU训练的方法相比，本发明算法虽然使用比大型特征提取网络VGG16更深的ResNet-101，但其训练速度仍然提升了约20min；当特征提取网络同为ResNet-101时，本发明算法的训练时间减少了约68min；原Faster R-CNN+ResNet-101在加入OHEM结构后会出现迭代时间增加，显存瞬时峰值过大，导致显存不足、无法完成训练的问题，本发明方法很好的解决了这个难题。由此，本发明算法在节省了大量训练时间的同时，弥补了单GPU而导致的显卡容量不足、训练失败的缺陷。

定性和定量分析模型精度

目标检测任务中公认的评价指标是Precision-Recall关系曲线、AP(Interpolated average precision)值和mAP(mean Average Precision)值。

Precision-Recall关系曲线就是以Precision为纵坐标，Recall为横坐标而描绘的曲线，通过调节阈值、观察曲线变化来定性评估系统对每类物体分类情况的优劣。

Precision-Recall关系曲线中的Precision(精确率)反映了被正确识别的目标中，真阳性(True positives)所占比例，计算公式如式6所示,

其中，TP：True positives,真阳性。FP：False positives,假阳性。

Recall(召回率)反映某类被正确识别的目标物体占该类物体的比重，计算公式如式7所示。

其中，TP：True positives,真阳性。FN：False negatives,假阴性。

如图6示为使用Precision-Recall曲线对本算法进行定性分析。Precision-Recall关系曲线图中右上角的各类物体曲线均呈现凸起状，说明本算法的检测效果良好、检测精确度高。

本发明使用各类物体AP(Interpolated average precision)值定量分析模型精度；使用mAP值评价本算法在数据集上的目标检测效果。AP(Average precision)值是Precision-Recall关系曲线下的面积，使用它来定量分析模型精度。本发明中为了避免P-R曲线不稳定而导致的AP值较低的问题，使用“Interpolated average precision”的计算方法，即对变化的阈值，每次使用在所有阈值的Precision中，最大值的那个Precision值与Recall值相乘，再把所有阈值下求得的乘积值累加，如式8所示。

其中，P为Precision。R为Recall。

在图片的多目标检测和识别中，使用mAP(mean Average Precision)值来衡量模型在全部类别的物体分类任务中的好坏。mAP是多个类别物体AP值的平均值，其值越大，检测精度越高，表明检测算法的性能越好。

如表2示为本发明算法和原Faster R-CNN使用中型网络VGG1024、大型网络VGG16、深度网络ResNet-101的AP值和mAP值对比。

表2 AP值、mAP值对比

实验结果

本发明算法在自动驾驶混合数据集上训练后的测试结果如图7、图8、图9所示。从图7可以看出本算法在复杂道路场景中对车辆的检测效果良好；对图8中，目标车辆有遮挡、截断的情况，仍然可以精确的锁定目标；对于图9中左侧车辆因光照不足而模糊不清的目标物体，检测算法可以克服问题，框出目标物体，并且，对于行人的检测效果良好。

图10、图11、图12为训练模型在雨雪、雾霾天气干扰下的检测效果。在图10雾霾天气严重，车辆和行人模糊不清的情况下，本算法的检测精确度并未下降；对图11因暴雨天气目标车辆出现模糊、重影的状况，以及图12因下雪导致目标车辆被大面积遮盖的情况，本发明方法检测效果良好并准确的识别出各物体类别，漏检率很低。

Claims

1.一种基于改进Faster R-CNN的道路环境视觉感知方法，其特征在于：它包括，

S3、Classification&Boundingbox regression模块收集步骤S1中得到的Featuremaps和步骤S2中得到的Proposals,通过Read-only ROI挖掘困难样本，使用ROI-2更新模型参数，最后得到目标物体分类结果和边框回归的偏移量；

S4、建立训练数据集：为完善算法在雨雪、雾霾天气中的目标检测效果，结合自动驾驶数据集KITTI和Oxford RobotCar组成混合自动驾驶训练集；为减少假阳性率，数据集标签整合为‘car’类和‘pedestrian’类，并将数据集制作成PASCALVOC2007数据集的格式；

S5、训练网络模型：使用GPU_0、GPU_1联合并行训练；使用迁移学习的方式，Featureextraction network模块中的ResNet-101在ImageNet训练后得到的网络模型做为预训练模型，混合自动驾驶数据集做fine-tuning；训练方式为四步交替优化法。

2.如权利要求1所述的一种基于改进Faster R-CNN的道路环境视觉感知方法，其特征在于：所述步骤S1中X*Y大小的图片在进入网络模型前缩放至H*W，Feature extractionnetwork模块中的特征提取网络为100层的全卷积网络ResNet-101，包括Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x；经Resnet-101特征提取网络的Conv1、Conv2_x、Conv3_x、Conv4_x后，Conv4_x输出的Feature maps分别送入Region proposal network模块和Classification&Boundingbox regression模块提取Regionproposals、挖掘困难样本；其中在Classification&Boundingbox regression模块的ROI Pooling层后再加入Conv5_x的九层网络增强图像特征，提升后续物体分类效果。

3.如权利要求2所述的一种基于改进Faster R-CNN的道路环境视觉感知方法，其特征在于：所述步骤S2中，Region proposal network模块使用3*3大小的滑动窗遍历Conv4_x输出的Feature maps的每个像素点，位于滑动窗中心的锚点预测6种尺度、9种比例的54个anchor boxes；anchor boxes经Softmax层提取包含目标物体的Proposals，并使用边框回归法修正Proposals的坐标；最后使用Soft-NMS方法去掉重叠度高的包围框得到精确的Proposals。

4.如权利要求1所述的一种基于改进Faster R-CNN的道路环境视觉感知方法，其特征在于：所述步骤S3中，将Proposals送入Classification&Boundingbox regression模块，该模块包括只读的Read-only ROI网络和具有前-后向传播功能的ROI-2网络，两个网络间共享权重；Proposals在Read-only ROI网络中计算分类损失和边框回归损失；然后将损失按降序排列，选择具有高损失性的Hard region proposal；最后将Hard region proposal输入ROI-2网络中计算困难样本的损失回传给卷积神经网络来更新整个网络参数，最终得到目标物体类别和位置的精准结果。

5.如权利要求1所述的一种基于改进Faster R-CNN的道路环境视觉感知方法，其特征在于：所述步骤S4中，训练数据集选用KITTI数据集中的7481个训练图像，包含市区、乡村和高速公路采集的真实图像数据；此外，为了提高训练模型在雨雪、雾霾天气中的目标检测精度，加入OxfordRobotCar数据集中的1867个训练图片，天气状况包括‘snow’、‘rain’和‘clouds’；为了便于网络模型进行训练，数据集标签整合为‘car’类和‘pedestrian’类，并将数据集制作成PASCALVOC2007数据集的格式。

6.如权利要求1所述的一种基于改进Faster R-CNN的道路环境视觉感知方法，其特征在于：所述步骤S5中，根据训练图片数目和对训练参数数量的预估，在训练中使用GPU_0和GPU_1；训练时，两块GPU基于同一网络模型；在每一次迭代中,输入每块GPU的数据样本为batchsize/2，GPU根据自己分到的训练数据样本计算模型的参数，包括损失和梯度；最后,将2个GPU上分别计算得到的梯度回传给CPU求平均值，得到当前的小批量梯度，每个GPU都使用这个小批量梯度分别更新自己的模型参数；使用迁移学习的方式，ResNet-101在ImageNet训练后得到的网络模型做为预训练模型，混合自动驾驶数据集做fine-tuning；训练方式为四步交替优化法。