CN110796103A

CN110796103A - 基于Faster-RCNN的目标及其距离检测方法

Info

Publication number: CN110796103A
Application number: CN201911057836.4A
Authority: CN
Inventors: 戴小标; 张红梅; 段玉霞
Original assignee: Shaoyang University
Current assignee: Shaoyang University
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-02-14

Abstract

本发明公开了基于Faster‑RCNN的目标及其距离检测方法，包括系统总方案、多任务卷积神经网络的设计及其训练、评估和预测算法。通过在检测网络的BB回归输出层增加距离回归节点，在不增加任何计算开销的情况下，将距离回归的损失和BB回归损失融合为回归损失。利用回归损失和分类损失，对RoI卷积特征进行深度学习，充分挖掘目标分类、定位和距离估计三重任务之间差异和共性，在单一网络模型下实现多任务的训练和预测。预测时省去激光雷达测距，利用单目图像实现目标及其距离检测，从而大大节省成本。该方法达到了检测性能和效率的平衡，性能方面极佳，同时满足实时性、低成本要求。

Description

基于Faster-RCNN的目标及其距离检测方法

技术领域

本发明涉及辅助驾驶技术，尤其涉及人工智能、深度学习和基于计算机视觉技术的目标及其距离检测方法。

背景技术

汽车非常便捷，但带来严重的交通安全问题。随着汽车使用量的增加，安全问题也随之增加。根据2015年全球道路安全报告，每年有120多万人死于交通事故，还有数百万人受重伤。为改善交通安全，安全预警系统、正向碰撞警告系统、自适应巡航控制系统、车道偏离预警系统等辅助驾驶系统应运而生，逐渐应用于汽车安全驾驶中。道路目标及其距离的实时检测是这些辅助驾驶系统最核心部分。目标及其距离检测是图像处理和计算机视觉的一个重要分支，它融合了图像处理、模式识别、人工智能等许多领域的前沿技术。目前，针对辅助驾驶系统，已经有一些车辆测距方法运用目标检测与测距等相关前沿技术。

CN201810314076.X公开了基于深度学习的交通目标检测与测距方法，包括：算法模型训练步骤，选择车辆附近的图像区域样本，对图像增加样本，对增加的样本改变像素使其成为具有相等强度的图像，最后进行深度学习训练得到模型；算法模型预测步骤，基于训练得到的模型，选择车辆附近的图像区域样本，对图像区域样本对比度归一化，再进行深度卷积神经网络预测，输出图像数据。本发明使用深度学习方法将目标的识别与测距统一在单一的网络模型下，完成对交通目标的检测与测距，使系统达到了性能和效率的平衡，速度方面极佳，完全满足实时性要求。

CN201811144951.0公开了一种基于激光点云与图像融合的前方车辆距离测量方法，属于多传感器信息融合领域。首先，利用激光点云与相机图像之间的映射关系，将3D激光点云映射为二维图像。其次，根据相机图像中所识别的车辆ROI，对激光点云映射的图像进行筛选。接着，经过图像—激光点云映射，得到筛选后车辆ROI对应的激光点云。利用双目图像检测的前方车辆距离进行约束，再次筛选对应车辆的激光点云。然后，对车辆点云进行聚类，进一步去除非车辆点云。最后，使用聚类出的车辆点云计算前方车辆的距离。测试结果表明，激光点云与图像融合方法测得的距离平均误差较之双目图像方法减小近一半，均方差也有所降低。因此，本发明方法较之双目图像方法测距更精确、更稳定。

CN201710084392.8公开了一种基于单目计算机视觉技术的目标对象距离测量方法与系统，该方法包括以下步骤：通过摄像头实时采集车辆前方或后方的序列图像；根据采集的序列图像确定天际线的参考高度；以序列图像中物理尺寸不变的目标为目标对象，通过目标检测方法，确定用于距离测量的目标对象特征像素尺寸；通过光学几何模型，确定目标对象的物理尺寸；通过数据平滑方法对目标对象特征像素尺寸计算结果进行平滑，以输出稳定的物理尺寸，然后计算目标的真实特征尺寸；基于计算得到的真实特征尺寸，通过光学几何模型计算得到目标对象的距离。本发明较为全面的考虑了影响距离测量精度的多个因素，提高了计算的精度。

CN201510233157.3公开了一种双目图像中显著性目标的距离测量方法，本发明涉及一种双目图像中目标的距离测量方法。本发明的目的是提出一种双目图像中显著性目标的距离测量方法，以解决现有的目标距离测量方法处理速度慢的问题。步骤一、利用视觉显著性模型对双目图像进行显著性特征提取，并标出种子点和背景点；步骤二、对双目图像建立加权图；步骤三、利用步骤一中的种子点和背景点和步骤二中的加权图，通过随机游走图像分割算法将双目图像中的显著性目标分割出来；步骤四、通过SIFT算法将显著性目标单独进行关键点匹配；步骤五、将步骤四求出的视差矩阵K'代入双目测距的模型中求出显著性目标距离。本发明可应用于智能汽车行驶中对视野前方图像显著性目标的距离测量。

CN201710420538.1公开了一种目标距离测量方法及系统，所述方法包括：通过预先设置于车辆前端的两个摄像头，同步采集所述车辆前方景象的图像，其中，所述两个摄像头前后设置；识别每一摄像头采集的图像中的待测目标，并获取每一待测目标的高度；根据获取到的待测目标的高度计算所述待测目标与所述车辆的距离。本发明采用目标检测和匹配的方式得到待测目标在两个相机中的高度差别，并根据所述待测目标绝对高度计算其与所述车辆的距离，这样不依赖于左右基线长度，测量过程简单、方便、性能稳定。

CN201811144951.0提出采用激光结合图像测距，精度虽高，但是融合算法复杂，且激光雷达成本极高。CN201510233157.3和CN201710420538.1提出的双目测距基于视差原理，需要对两个相机(或结构光)进行精确、复杂的标定，抗环境干扰能力差。CN201710084392.8提出的单目测距基于几何成像原理，依赖于目标的正确检测，当目标被局部遮挡时将无法正常工作，抗环境干扰能力差。目前最先进的目标检测算法可分为单步算法和两步算法。CN201810314076.X通过改进YOLO算法(单步算法)训练一个卷积神经网络，同时实现目标检测与测距；此算法虽然一步到位，获得非常快的速度，但牺牲一定的检测精度。本发明通过改进Faster-RCNN算法(两步算法)指导增加距离检测的多任务卷积神经网络，先用RPN提案感兴趣区域(RoI)，再用检测网络精炼RoI的分类和定位，与此同时，检测网络还完成测距任务，实现端到端的多任务训练和预测。系统内部两阶段共享特征图实现无缝衔接和参数传递，不存在误差累积且方便进行训练调优，获得非常高的检测精度，且达到可接受的检测速度，达到了性能和效率的平衡。

发明内容

本发明的目的是通过以下技术方案实现的。

一种基于Faster-RCNN算法的目标及其距离检测方法，包括以下步骤：

(1)数据准备：数据包括训练和评估数据以及预测数据；一个摄像头和一个激光雷达上、下安装在车顶，用摄像头获取道路场景中包含待检测目标的图像(Img)，用激光雷达获取Img中待检测目标离相机的标记距离d^*，作为原始训练和评估数据；只用一个型号和参数与上述相同的摄像头获取道路场景中包含待检测目标的Img作为预测数据；

(2)训练数据和评估数据制作：对Img中K类需检测的前景目标用边界框BB进行标记，每个目标的标记用GT表示；每个GT包括以下信息：Img的路径，Img上BB的中心点水平坐标和垂直坐标以及BB的宽和高(x^*,y^*,w^*,h^*)，目标离相机的标记距离d^*和目标的标记类别k^*；通过程序随机挑选出约三分之一的Img及其GT作为评估数据，其余作为训练数据；

(3)网络训练：基于Faster-RCNN算法，用步骤(2)制作的训练数据，训练多任务卷积神经网络，使得网络具有对整幅Img中目标及其距离同时进行检测的能力；

(4)目标预测：用基于Faster-RCNN算法指导训练好的多任务卷积神经网络检测预测数据Img中的目标及其距离，同时完成对整幅Img中的目标进行定位、分类和测距的多重任务；

(5)网络评估：与步骤(4)目标预测过程一样，先用基于Faster-RCNN算法指导多任务卷积神经网络检测上述步骤(2)制作的评估数据中所有Img；再将检测结果与评估数据中的GT对比，用检测率Accuracy和距离绝对误差率均值AAER来评估多任务卷积神经网络的性能。

上述目标及其距离检测方法中的多任务卷积神经网络由基础网络、感兴趣区域(RoI)提案网络(RPN)和检测网络三部分组成；

其中基础网络由若干个卷积池化块串接而成，每个卷积池化块由若干个改变通道数的卷积层和一个缩小分辨率的池化层组成；Img通过整个基础网络后输出一张分辨率成倍缩小而通道数增加的特征图MAP_F；

RPN由至少一个RPN卷积层，再加上并行的分类输出层和回归输出层组成；分类输出层输出对锚框分类为前、背景的概率的预测值P_A＝(p_fg,p_bg)；回归输出层输出对前景锚框的BB回归偏移的预测值T_A＝(t_x,t_y,t_w,t_h)，为后续的检测网络提供RoI的边界框BB¹ _F做准备；

检测网络先后由RoI池化层、中间网络，再加上并行的目标细分类输出层和回归输出层组成；RoI池化层利用尺度各异的BB¹ _F从MAP_F中截取出RoI，并将其转换成固定尺度的RoI；中间网络由若干个卷积层加上一个池化层组成；目标细分类输出层对每个RoI输出K+1类目标细分类概率的预测值P_B＝(p₁,…,p_K,p_bg)；回归输出层对每个RoI输出K类前景目标的BB回归偏移以及距离回归参数的预测值T_B＝(t_1x,t_1y,t_1w,t_1h,t_1d,…,t_Kx,t_Ky,t_Kw,t_Kh,t_Kd)。

上述目标及其距离检测方法，所述的基于Faster-RCNN算法将所述多任务卷积神经网络前、后分成RoI提案和目标及其距离检测两个实施阶段；

RoI提案阶段包括基础网络和RPN，由RPN负责在MAP_F上初步提案上述的BB¹ _F；

目标及其距离检测阶段对应检测网络，负责预测每个提案的BB¹ _F对K+1类目标的细分类概率P_B，和对K类前景目标的BB回归偏移和距离回归参数T_B。

上述的目标及其距离检测方法，(1)网络训练时，RoI提案阶段的具体步骤为：

对每次输入的训练数据中的一张Img及Img中每个GT的BB位置尺度信息(x^*,y^*,w^*,h^*)进行缩放处理，忽略GT中的标记距离d^*等其他信息，得到缩放的图像Img_R和Img_R上每个前景目标的缩放的GT，用

表示；

Img_R通过基础网络和RPN后，在MAP_F上每个像素点预测M个锚框的前、背景分类和前景锚框的BB回归偏移，每个锚框的前、背景分类概率预测值为P_A，每个分类为前景锚框的BB回归偏移预测值为T_A；

通过A_GT生成器，对上述锚框进行前、背景锚框标记，并产生N_rpn个用于训练基础网络和RPN的标记锚框A_GT，其标记为

用上述N_rpn个A_GT的预测结果{P_A,T_A}和标记

对比计算RoI提案阶段的损失L_rpn；再通过反向传播来更新基础网络和RPN的权重；

Img_R再次通过权重刚更新的基础网络和RPN后，在MAP_F上每个像素点预测M个锚框，每个锚框的前、背景分类概率预测值为P_A，每个分类为前景锚框的BB回归偏移预测值为T_A；将预测的前景概率p_fg≥0.9的每个锚框的BB回归偏移T_A反算成Img_R上的预测边界框

通过非极大抑制算法NMS(IoU≥0.7)处理，优选出前N_B个预测为前景类的BB¹ _R；

将所述的N_B个BB¹ _R映射到MAP_F上，并圆整为MAP_F上的边界框

同时将每个GT中的BB也映射到MAP_F上，并进行圆整，加上标记距离d^*和标记类别k^*信息后，得到MAP_F上的训练检测网络用的标记

通过BB_GT及其标记生成器，根据GT_F从上述N_B个BB¹ _F中挑出N_det个作为训练检测网络的标记边界框BB_GT，其标记为

(2)网络训练时，目标及其距离检测阶段的具体步骤为：

通过检测网络的RoI池化层，用每个BB_GT在MAP_F上截取一个RoI，并将其池化成固定尺度的RoI；

上述固定尺度的RoI再通过检测网络的中间网络和两个输出层，输出对上述BB_GT的K+1类目标的细分类预测结果P_B，同时输出每个预测为前景BB_GT的K类前景目标的BB回归偏移以及距离回归参数预测值T_B；

将上述N_det个的BB_GT的预测结果{P_B,T_B}和其标记

对比计算目标及其距离检测阶段的损失L_det，通过反向传播算法更新一次检测网络权重；

最后计算当前Img训练网络的总损失L_total＝L_rpn+L_det，如此循环计算N张Img的总损失后，取其平均值，判断此平均值是否小于目标损失，小于将停止训练，输出最优网络权重，否则继续用下一组N张Img训练多任务卷积神经网络。

上述目标及其距离检测方法，(1)在目标预测和网络评估时，RoI提案阶段的具体步骤为：

将每次输入的一张Img缩放成Img_R；Img_R通过基础网络和RPN后，在MAP_F上每个像素点预测M个锚框，每个锚框的前、背景分类概率预测值为P_A，每个预测为前景锚框的BB回归偏移预测值为T_A；

将预测为前景概率p_fg≥0.9的每个锚框的BB回归偏移T_A反算成Img_R上的预测边界框BB¹ _R；通过非极大抑制算法NMS(IoU≥0.7)处理，优选出前N_B个预测为前景类的BB¹ _R；

将上述N_B个BB¹ _R映射到MAP_F上，并圆整为MAP_F上的边界框BB¹ _F；

对上述N_B个BB¹ _F进行分组，每组N_det个，最后一组不足N_det个用p_fg值最大的BB¹ _F补齐；(2)在目标预测和网络评估时，目标及其距离检测阶段的具体步骤为：

分组将BB¹ _F送入检测网络，对每个BB¹ _F在MAP_F上包围的RoI进行K+1类目标的细分类预测，预测概率为P_B，同时预测K类前景目标的BB回归偏移和距离回归参数T_B；

根据对BB¹ _F的预测细分类概率P_B中分量最大值确定该BB¹ _F的预测分类，假定p_k取值最大，则将当前BB¹ _F的预测为第k类前景目标，从T_B中取出第k类前景目标对应的BB回归偏移以及距离回归参数(t_kx,t_ky,t_kw,t_kh,t_kd)；

接着将BB回归偏移(t_kx,t_ky,t_kw,t_kh)反算成MAP_F上目标及其距离检测阶段的预测边界框BB² _F的非圆整坐标，将距离回归参数t_kd反算成目标预测距离d；再分别对每个预测为前景目标类的所有BB² _F进行NMS(IoU≥0.5)处理，优选出若干个最优的BB² _F，将这些BB² _F反向映射回Img，进行圆整后作为Img上的预测BB²＝(x²,y²,w²,h²)，连同预测细分类k和预测距离d作为最终输出结果。

上述目标及其距离检测方法，所述的A_GT生成器具体步骤如下：

以基础网络输出的MAP_F的每个像素点为中心设置M个不同尺度的BB，称之为锚框，注意这些锚框的坐标和尺度是在Img_R上进行定义的；

计算每个锚框与所有GT_R的BB的相交面积和并集面积之比，简称交并比IoU；

IoU≥0.7的锚框定义为前景标记锚框A_GT，IoU<0.3的锚框定义为背景A_GT，0.3≤IoU<0.7的锚框定义为中性A_GT；

如果还有GT_R与任何锚框的IoU值都小于0.7，则从中性A_GT中选出一个IoU最大的，将其定义更改为这个GT_R的前景A_GT；A_GT的分类标记表示为

每个前景A_GT的分类标记取值为

每个背景A_GT的分类标记取值为

每个中性A_GT的分类标记取值为

每个前景A_GT的BB回归偏移的标记为

由式(5)给出；

从前、背景A_GT中，随机挑选出N_rpn个作为RoI提案阶段训练用的A_GT，其中N_{reg_rpn}个前景A_GT，如果前景A_GT数量充足，则N_{reg_rpn}＝N_rpn/2，否则N_{reg_rpn}等于所有前景A_GT的个数，其余N_rpn-N_{reg_rpn}个从背景A_GT中随机挑选，中性A_GT不参与训练。

上述目标及其距离检测方法，所述的BB_GT及其标记生成器的具体步骤如下：

计算每一个BB¹ _F与所有GT_F中的BB的IoU；

IoU≥0.5的BB¹ _F标记为训练检测网络用的前景类标记边界框

BB_GT内目标的距离等于GT_F中的标记距离d^*，类别与GT_F的标记类别k^*一致；

0.1≤IoU<0.5的BB¹ _F标记为训练检测网络用的背景标记边界框BB_GT，类别标记为背景；

每个BB_GT的K+1类目标的细分类标记为如果当前BB_GT标记为第k类前景目标，那么

的分量

为1，其余都为0，如果当前BB_GT的标记为背景，那么

的分量

为1，其余都为0；

每个前景BB_GT对K类前景目标的BB回归偏移以及距离回归参数标记为

如果当前BB_GT被标记为第k类前景目标，那么

中只有

存在取值，且取值由式(9)给出，其余都为0；

从所有BB_GT中随机挑出N_det个用来训练检测网络，其中前景BB_GT占N_{reg_det}个，如果前景BB_GT数量充足，则N_{reg_det}＝N_det/2，否则N_{reg_det}等于所有前景BB_GT的个数，其余N_det-N_{reg_det}个从背景BB_GT中随机挑出。

上述目标及其距离检测方法，用所述基于Faster-RCNN算法训练一张Img的总损失L_Total包括RoI提案阶段的损失L_rpn和目标及其距离检测阶段的损失L_det，由下式计算：

式(1)中，RoI提案阶段的损失L_rpn由N_rpn个A_GT的前、背景分类损失L_{cls_rpn}的平均值和N_{reg_rpn}个标记为前景A_GT的BB回归损失L_{reg_rpn}的平均值组成，由下式计算：

式(2)中，P_Ai为上述第i个A_GT的分类预测概率，P_Ai＝(p_fg,p_bg)；

为上述第i个A_GT的分类标记；T_Ai为上述第i个前景A_GT的BB回归偏移预测值，T_Ai＝(t_x,t_y,t_w,t_h)；

为上述第i个前景A_GT的BB回归偏移标记值，

T_Ai和

由式(5)给出；λ_rpn为RoI提案阶段的坐标回归损失与分类损失的权衡系数，一般取λ_rpn＝1；

式(2)中，第i个A_GT的分类损失L_{cls_rpn}为二分类交叉商损失，由下式计算：

式(2)中，第i个前景A_GT的BB回归偏移的预测损失L_{reg_rpn}由下式计算：

式(4)中，当前(即第i个)前景A_GT的BB回归偏移的预测值t_j和标记值

由下式计算：

式(5)中，t_x,t_y,t_w和t_h分别为当前前景A_GT的中心水平坐标和垂直坐标及其宽和高的BB回归偏移预测值；和

分别为当前前景A_GT的中心水平坐标和、垂直坐标及其宽和高的BB回归偏移标记值；

和

分别为当前前景A_GT的中心水平坐标和垂直坐标及其宽和高的预测值；x_a,y_a,w_a和h_a分别为当前前景A_GT的中心水平坐标和垂直坐标及其宽和高；

和

分别为当前前景A_GT对应的GT_R的BB在Img_R上的中心水平坐标和垂直坐标及其宽和高的标记值；

式(1)中，目标及其距离检测阶段的损失L_det由N_det个BB_GT的目标细分类预测损失L_{cls_det}的平均值和N_{reg_det}个前景BB_GT的回归偏移的预测损失L_{reg_det}的平均值组成，由下式计算：

式(6)中，λ_det为目标及其距离检测阶段的回归损失与目标细分类损失的权衡系数，一般取λ_det＝1；对上述第i个BB_GT在MAP_F上截取的RoI对K+1类细分类损失L_{cls_det}为多分类交叉商损失，由下式计算：

式(7)中，P_Bi＝(p₁,…,p_K,p_bg)为检测网络对上述第i个BB_GT目标细分类预测概率；

为上述第i个BB_GT的目标细分类标记；

式(6)中，第i个前景BB_GT的BB回归偏移和距离回归的总回归损失L_{reg_det}由下式计算：

式(8)中，t_kj和

为当前前景BB_GT的BB回归偏移和距离回归参数，由下式计算：

式(9)中，脚标k表示当前前景BB_GT标记为第k类前景目标；t_kx,t_ky,t_kw和t_kh分别为当前前景BB_GT对第k类目标的中心水平坐标和垂直坐标及其宽和高的BB回归偏移预测值；t_kd为当前前景BB_GT的距离回归的预测值；和

分别为当前前景BB_GT对第k类目标的中心水平坐标和垂直坐标及其宽和高的BB回归偏移标记值，为当前前景BB_GT的距离回归参数的标记值；

和

分别为将当前BB_GT的预测回归偏移反算到MAP_F上的中心水平坐标和垂直坐标及其宽和高，d为当前前景BB_GT的距离的预测结果；

和分别为上述的当前BB_GT的中心水平坐标和垂直坐标及其宽和高，d_m为所有GT的距离均值；

和

分别为当前前景BB_GT在MAP_F上的中心水平坐标和垂直坐标及其宽和高的标记值，d^*为与当前前景BB_GT对应的GT_F的标记距离。

上述目标及其距离检测方法，步骤(5)所述对多任务卷积神经网络性能评估的目标检测率Accuracy和距离绝对误差率均值AAER的计算方法如下：

计算每个预测BB²与其对应Img中所有GT的IoU；同一张Img中，与任何BB²的IoU都小于0.5的GT定义为假反例FN，与GT的IoU不小于0.5的BB²定义为真正例TP，与GT的IoU小于0.5的BB²定义为假正例FP；

则，评估网络的目标检测率Accuracy根据下式计算：

式(10)中，N_TP为所述的所有

TP的个数，N_GT为评估数据中所有GT的个数，N_FP为所述的所有FP的个数；

网络的距离估计误差定义为对所有TP的距离绝对误差率均值AAER根据下式计算：

式(11)中，d为所述TP的距离预测值；d^*为所述TP对应的标记距离。

本发明通过改进Faster-RCNN算法(两步算法)指导增加距离检测的多任务卷积神经网络，先用RPN提案感兴趣区域(RoI)，再用检测网络精炼RoI的分类和定位，与此同时，检测网络还完成测距任务，实现端到端的多任务训练和预测。系统内部两阶段共享特征图实现无缝衔接和参数传递，不存在误差累积且方便进行训练调优，获得非常高的检测精度，且达到可接受的检测速度，达到了性能和效率的平衡。

附图说明

通过阅读下文具体实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施方式的系统总方案图；

图2为本发明实施方式的基于Faster-RCNN算法训练多任务神经网络的流程图；

图3为本发明实施方式的基于Faster-RCNN算法的多任务神经网络预测目标流程图；

图4为本发明实施方式的RoI提案阶段网络模型图；

图5为本发明实施方式的检测网络模型图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本发明的实施方式，提出基于Faster-RCNN的道路行人检测及其距离估计方法。首先利用相机和雷达获取19434张道路图像Img及Img中目标距离d^*；然后对Img中行人(K＝1类需检测的前景目标)用边界框BB进行标记，加上图像的绝对路径、目标离相机的标记距离d^*和目标的标记类别k^*，一共制作了84504个真实目标标记GT；用程序随机挑选出6668张Img以及Img中28959个GT作为评估数据，其余作为训练数据。系统总体框架如图1所示，训练过程：每次利用一张Img及其GT，在Faster-RCNN算法指导下对多任务卷积神经网络进行一次训练，更新一次网络权重，并计算网络训练总损失L_Total，如此训练N＝1000张图片计算一次平均总损失，如果平均总损失达到目标损失将停止训练，输出最优网络权重，否则继续下组N张图片训练。预测过程：首先利用相机获取道路Img；在Faster-RCNN算法指导下将Img送入训练好的多任务卷积神经网络进行目标定位、分类及测距。

所述对多任务卷积神经网络的具体训练过程如图2所示。整个训练过程分成RoI提案阶段和目标及其距离检测阶段。RoI提案阶段，对每次输入的一张Img及Img中每个目标的标记GT的BB进行缩放处理，得到缩放的Img_R和每个目标的缩放标记GT_R。将Img_R送入多任务卷积神经网络的基础网络，得到一张尺寸缩小而通道增加的特征图MAP_F；在MAP_F的每个像素点上定义M＝9个不同尺度的锚框；通过RPN，对MAP_F上每个锚框进行前、背景分类预测，预测概率为P_A＝(p_fg,p_bg)，同时预测每个前景锚框的BB回归偏移T_A＝(t_x,t_y,t_w,t_h)(又如图4所示)；通过A_GT生成器，计算每个锚框与所有GT_R的交并比IoU，根据IoU的取值将每一个锚框定义为前景A_GT(IoU≥0.7)、背景A_GT(IoU<0.3)和中性A_GT(0.3≤IoU<0.7)之一；如果还有一个GT_R的与任何锚框的IoU都小于0.7，则从IoU为0.3到0.7之间的锚框中选出一个IoU最大的锚框，定义为这个GT_R的前景A_GT；从所有的A_GT中，随机挑选出N_rpn＝256个A_GT作为RoI提案阶段训练用的A_GT，其中N_{reg_rpn}个前景A_GT，如果前景A_GT数量充足，则N_{reg_rpn}＝N_rpn/2，否则N_{reg_rpn}等于所有前景A_GT的个数，其余N_rpn-N_{reg_rpn}个从背景A_GT中随机挑选，中性A_GT不参与RoI提案阶段损失的计算；用这N_rpn个GT_A和其预测结果来计算RoI提案阶段的损失函数L_rpn，再通过反向传播来更新基础网络和RPN的权重，从而完成对网络RoI提案阶段的一次训练。

目标及其距离检测阶段，Img_R再次通过刚训练过的基础网络和RPN预测MAP_F上每个像素点M个不同尺度的锚框；将预测结果反算成Img_R上的BB¹ _R，对预测的前景概率p_fg≥0.9的BB¹ _R进行NMS(IoU≥0.7)处理后，优选出N_B＝64个预测为前景目标的BB¹ _R；将BB¹ _R映射到MAP_F上，并对其坐标进行圆整成BB¹ _F；同时将每个GT中的BB映射到到MAP_F上，并对其坐标进行圆整，再加上分类和距离信息后，用

表示；计算每一个BB¹ _F与所有GT_F的BB的IoU；IoU≥0.5的BB¹ _F标记为训练检测网络用的前景BB_GT，0.1≤IoU<0.5的BB_F标记为训练检测网络用的背景BB_GT；从BB_GT中随机挑出N_det＝32个用来训练检测网络，其中前景BB_GT占N_{reg_det}个，如果前景BB_GT数量充足，则N_{reg_det}＝16，否则N_{reg_det}等于所有前景BB_GT的个数，其余N_det-N_{reg_det}个从背景BB_GT中随机挑出；通过检测网络的RoI池化层，用每个BB_GT的从MAP_F上截取出一个RoI，每个RoI的分类概率标记为

例如当前BB_GT标记为第k类前景目标，那么

的分量

为1，其余都为0；计算每个前景BB_GT对K类目标的BB回归偏移以及距离回归参数标记为

如果当前BB_GT为第k类前景目标，那么只有

存在取值，其余都为0；通过检测网络输出每个BB_GT在MAP_F上包围的RoI对K+1类目标的细分类预测结果为P_B＝(p₁,…,p_K,p_bg)，和每个预测为前景的RoI对K类前景目标的BB回归偏移以及距离回归参数预测值为T_B＝(t_1x,t_1y,t_1w,t_1h,t_1d,…,t_Kx,t_Ky,t_Kw,t_Kh,t_Kd)(如图5所示)；将BB_GT的预测结果{P_B,T_B}和其标记

对比计算目标及其距离检测阶段的损失L_det，通过反向传播算法更新一次检测网络权重；最后计算当前图像训练网络的总损失L_total＝L_rpn+L_det，如此循环计算一组N＝1000张图片的总损失后取其平均值，判断此平均值是否小于目标损失，小于将停止训练，输出最优网络权重，否则继续用下一组N张Img训练多任务卷积神经网络。

所述利用多任务卷积神经网络的预测过程如图3所示。在RoI提案阶段，将每次输入的一张Img缩放成Img_R；对被RPN预测的前景概率p_fg≥0.9的每个锚框的BB回归偏移T_A换算成Img_R上的BB¹ _R，通过NMS(IoU≥0.7)处理，优选出N_B＝64个BB¹ _R；将上述N_B个BB¹ _R映射到MAP_F上，并进行圆整为BB¹ _F；对上述N_B个BB¹ _F进行分组(每组N_det＝32个)。在目标及其距离检测阶段，分组将BB¹ _F送入检测网络，预测每个BB¹ _F在MAP_F上包围的RoI对K+1类目标的细分类P_B，同时预测输出K类前景目标的BB回归偏移和距离回归参数T_B；根据对BB¹ _F的预测细分类概率P_B中分量最大值确定其预测分类；假定p_k取值最大，则将当前BB¹ _F细分为第k类前景目标的边界框，从T_B中取出第k类前景目标对应的BB回归偏移以及距离回归参数(t_kx,t_ky,t_kw,t_kh,t_kd)；接着将(t_kx,t_ky,t_kw,t_kh)反算成MAP_F上的BB² _F(坐标值不进行圆整)，将距离回归参数t_kd反算成预测距离d；再对预测为前景目标的BB² _F按类分别进行NMS(IoU≥0.5)处理，优选出若干个最优的BB² _F，将这些BB² _F反向映射回Img，作为Img上的预测BB²，连同预测细分类k和预测距离d作为最终输出结果。

与上述预测过程一样，预测上述评估数据中所有Img；再将预测结果与上述评估数据的GT对比，用检测率Accuracy和距离绝对误差率均值AAER来评估多任务卷积神经网络性能。

本发明通过改进Faster-RCNN算法(两步算法)指导增加距离检测的多任务卷积神经网络，先用RPN提案感兴趣区域(RoI)，再用检测网络精炼RoI的分类和定位，与此同时，检测网络还完成测距任务，实现端到端的训练和预测。系统内部两阶段共享特征图实现无缝衔接和参数传递，不存在误差累积且方便进行训练调优，获得非常高的检测精度，且达到可接受的检测速度。在对行人及其距离检测的测试中，检测速率超过7.58帧每秒，20米以内行人检测率Accuracy和距离误差率均值AAER分别为98％和5.75％，60米以内的行人检测率和距离估计误差率分别为80％和4.64％；系统达到了性能和效率的平衡，满足实时性要求。

以上，仅为本发明示例性的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于Faster-RCNN的目标及其距离检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的目标及其距离检测方法，其特征是，所述的多任务卷积神经网络由基础网络、感兴趣区域(RoI)提案网络(RPN)和检测网络三部分组成；

3.根据权利要求1和2所述的目标及其距离检测方法，其特征是，所述的基于Faster-RCNN算法将所述多任务卷积神经网络前、后分成RoI提案和目标及其距离检测两个实施阶段；

RoI提案阶段包括基础网络和RPN，由RPN负责在MAP_F上初步提案权利要求2所述的BB¹ _F；目标及其距离检测阶段对应检测网络，负责预测每个提案的BB¹ _F对K+1类目标的细分类概率P_B，和对K类前景目标的BB回归偏移和距离回归参数T_B。

4.根据权利要求3所述的目标及其距离检测方法，其特征是，(1)网络训练时，RoI提案阶段的具体步骤为：

表示；

用上述N_rpn个A_GT的预测结果{P_A,T_A}和标记

对比计算RoI提案阶段的损失L_rpn；

再通过反向传播来更新基础网络和RPN的权重；

将所述的N_B个BB¹ _R映射到MAP_F上，并圆整为MAP_F上的边界框同时将每个GT中的BB也映射到MAP_F上，并进行圆整，加上标记距离d^*和标记类别k^*信息后，得到MAP_F上的训练检测网络用的标记

(2)网络训练时，目标及其距离检测阶段的具体步骤为：

将上述N_det个的BB_GT的预测结果{P_B,T_B}和其标记对比计算目标及其距离检测阶段的损失L_det，通过反向传播算法更新一次检测网络权重；

5.根据权利要求3所述的目标及其距离检测方法，其特征是，(1)在目标预测和网络评估时，RoI提案阶段的具体步骤为：

6.根据权利要求4所述的目标及其距离检测方法，其特征是，所述A_GT生成器具体步骤如下：以基础网络输出的MAP_F的每个像素点为中心设置M个不同尺度的BB，称之为锚框，注意这些锚框的坐标和尺度是在Img_R上进行定义的；

每个前景A_GT的分类标记取值为每个背景A_GT的分类标记取值为

每个中性A_GT的分类标记取值为

每个前景A_GT的BB回归偏移的标记为

由权利要求8中式(5)给出；

7.根据权利要求4所述的目标及其距离检测方法，其特征是，所述的BB_GT及其标记生成器的具体步骤如下：

计算每一个BB¹ _F与所有GT_F中的BB的IoU；

IoU≥0.5的BB¹ _F标记为训练检测网络用的前景类标记边界框

每个BB_GT的K+1类目标的细分类标记为

如果当前BB_GT标记为第k类前景目标，那么

的分量

为1，其余都为0，如果当前BB_GT的标记为背景，那么

的分量

为1，其余都为0；

如果当前BB_GT被标记为第k类前景目标，那么

中只有

存在取值，且取值由权利要求8公式(9)给出，其余都为0；

8.根据权利要求4所述的目标及其距离检测方法，其特征是，用所述基于Faster-RCNN算法训练一张Img的总损失L_Total包括RoI提案阶段的损失L_rpn和目标及其距离检测阶段的损失L_det，由下式计算：

为上述第i个A_GT的分类标记；T_Ai为上述第i个前景A_GT的BB回归偏移预测值，T_Ai＝(t_x,t_y,t_w,t_h)；为上述第i个前景A_GT的BB回归偏移标记值，

T_Ai和

由下式计算：

式(5)中，t_x,t_y,t_w和t_h分别为当前前景A_GT的中心水平坐标和垂直坐标及其宽和高的BB回归偏移预测值；

和分别为当前前景A_GT的中心水平坐标和、垂直坐标及其宽和高的BB回归偏移标记值；

和

和分别为当前前景A_GT对应的GT_R的BB在Img_R上的中心水平坐标和垂直坐标及其宽和高的标记值；

为上述第i个BB_GT的目标细分类标记；

式(8)中，t_kj和

为当前前景BB_GT的BB回归偏移和距离回归参数，由下式计算：

式(9)中，脚标k表示当前前景BB_GT标记为第k类前景目标；t_kx,t_ky,t_kw和t_kh分别为当前前景BB_GT对第k类目标的中心水平坐标和垂直坐标及其宽和高的BB回归偏移预测值；t_kd为当前前景BB_GT的距离回归的预测值；

和

分别为当前前景BB_GT对第k类目标的中心水平坐标和垂直坐标及其宽和高的BB回归偏移标记值，

为当前前景BB_GT的距离回归参数的标记值；和

和

分别为权利要求7所述的当前BB_GT的中心水平坐标和垂直坐标及其宽和高，d_m为所有GT的距离均值；

和

9.根据权利要求1步骤(5)所述的目标及其距离检测方法，其特征是，所述对多任务卷积神经网络性能评估的目标检测率Accuracy和距离绝对误差率均值AAER的计算方法如下：

则，评估网络的目标检测率Accuracy根据下式计算：

式(10)中，N_TP为所述的所有TP的个数，N_GT为评估数据中所有GT的个数，N_FP为所述的所有FP的个数；