CN111126161A

CN111126161A - 一种基于关键点回归的3d车辆检测方法

Info

Publication number: CN111126161A
Application number: CN201911192400.6A
Authority: CN
Inventors: 刘宏哲; 王永森
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-05-08

Abstract

本发明公开了一种基于关键点回归的3D车辆检测方法，本方法可以对驾驶场景中的前方车辆目标进行3D检测，从而得到车辆目标的三维信息，该方法相对于2D车辆目标检测技术可以为自动驾驶汽车决策系统提供更加丰富的场景信息，以及精度更高的基础数据，帮助决策系统做出更准确的判断，提高自动驾驶汽车的安全性。因此本方法具有很广阔的应用前景。本方法与其他3D车辆检测方法相比，无需像素深度以及雷达等数据，只需要单目视觉相机获取的普通RGB图像信息即可，并且检测结果可靠。

Description

一种基于关键点回归的3D车辆检测方法

技术领域

本发明是一种用于对驾驶场景中车辆目标进行3D检测的方法，属于计算机视觉计算领域。

背景技术

如今无人驾驶汽车技术飞速发展，其中汽车驾驶所采用的环境感知手段方面，视觉传感器相对于超声、激光雷达等传感器，可获得更高、更精确、更丰富的道路场景环境信息，且价格更为低廉。而基于视觉的道路场景感知与目标行为意图分析技术中，前方车辆检测是一个非常重要的环节，它是决策系统所必需的基础数据，但是为了得到更加丰富的车辆目标信息，进而帮助决策系统做出更准确的判断，就需要对车辆进行3D检测，得到目标的三维信息。所以提出一种3D车辆检测方法尤为重要。

本发明提出的一种基于关键点回归的3D车辆检测方法主要用于自动驾驶汽车领域基于单目视觉的场景感知工作中，有着非常重要的应用价值。本方法可以对驾驶场景中的前方车辆目标进行3D检测，从而得到车辆目标的三维信息，该方法相对于2D车辆目标检测技术可以为自动驾驶汽车决策系统提供更加丰富的场景信息，以及精度更高的基础数据，帮助决策系统做出更准确的判断，提高自动驾驶汽车的安全性。因此本方法具有很广阔的应用前景。本方法与其他3D车辆检测方法相比，无需像素深度以及雷达等数据，只需要单目视觉相机获取的普通RGB图像信息即可，并且检测结果可靠。

发明内容

本发明的目的在于解决基于单目视觉进行3D车辆检测的问题，提出了一种基于关键点回归的3D车辆检测方法。

为了实现上述目的，本发明采取了如下的技术方案：一种基于关键点回归的3D车辆检测方法，该方法的实现过程如下，

步骤1：2D车辆检测；

步骤1-1：数据标注，训练数据标注采用Pascal_VOC格式，使用XML文件存储每张图片的标注结果，标注工具使用labelImg，下载安装labelImg软件，打开软件，点击“OpenDir”选择需要标注的图像所存放的文件夹，然后软件会将文件夹下所有图片加载进软件里面，此时会默认打开一张图片，然后按一下键盘字母“w”，进入标注状态，找到图片中的车辆，将鼠标箭头放在车辆左上角点击一下鼠标左键开始画矩形框，然后移动鼠标箭头到车辆右下角位置再次点击一次鼠标左键，出现提示输入标注的类别，这里输入“car”,然后点击“OK”，完成一个车辆目标的标注。标注要求是将图片中所有出现的车辆进行标注，标注数量10000张图片；

步骤1-2：模型训练，下载基于PyTorch的Faster R-CNN目标检测框架，将数据集的所有图片文件放在VOC2007数据集文件目录的JPEGImages文件夹中，将标注生成的XML文件放在VOC2007数据集文件目录的Annotations文件夹中，然后将所有图片的文件名(不包含文件后缀)放到一个名为“trainval.txt”的文件中，每行一个，然后将该文件放到放在VOC2007数据集文件目录的Main文件夹下面，完成数据的准备工作。然后下载ResNet101预训练网络模型，放到pretrained_model目录下，执行trainval_net.py文件，同时输入参--end_epoch＝50，即训练50个epoch；

步骤1-3：模型检测，在步骤1-2训练完成之后，得到最终训练好的模型文件，放入models文件夹中，将待检测的图片放入images文件中，运行test_net.py文件，得到检测的结果，即图片中车辆的外接矩形框坐标；

步骤2：车辆目标提取及预处理；

步骤2-1：根据步骤1-3得到车辆目标在图像中的外接矩形框的坐标位置B(x₁,y₁,x₂,y₂)，其中(x₁,y₁)表示矩形框左上角顶点的像素坐标，(x₂,y₂)表示矩形框右下角顶点的像素坐标，根据该两点坐标截取出此矩形框包围的像素图像，得到像素矩阵P₀，尺寸为(W,H)；W为像素图像的宽，H为像素图像的高度。

步骤2-2：对像素矩阵P₀进行尺度缩放，缩放到固定的224x224像素尺寸，得到像素矩阵P₁；

步骤3：关键点回归；

步骤3-1：准备训练数据，数据获取方式是从步骤1-1中的图片中分割出其中的车辆目标，即根据步骤1-1的标注文件中车辆目标的矩形框坐标裁剪出车辆，保存成图片，要求车辆的像素宽度大于100，数量为3000张；

步骤3-2：对数据进行标注，使用labelImg软件，如步骤1-1中，首先加载步骤3-1中保存得到的图片的文件夹，然后使用相同方法进行标注矩形框，标注的目标为车辆侧面的两个车轮和车辆的头部或者车辆的尾部，图片中看不到车轮的不进行标注；

步骤3-3：模型训练，下载基于PyTorch的MobileNetV1网络模型框架，将步骤3-2中标注好的数据集按照步骤1-2的方法放入框架中对应的文件夹中，对于每张图片标注的数据，定义车轮的坐标分别用wb₀(x₁,y₁,x₂,y₂),wb₁(x₁,y₁,x₂,y₂)表示，车尾或者车头用tb表示，两个车轮的关键点坐标分别用w₀,w₁表示，车尾或者车头的关键点用t表示，然后根据公式

得到三个关键点(w₀,w₁,t)的坐标，其中关键点t只包含图像的横轴坐标。修改trainval_net.py中对应的代码，使训练数据进行loss计算时的真值为G(w₀(x),w₀(y),w₁(x),w₁(y),t(x))，即五个参数值，MobileNetV1网络采用随机初始化进行赋值，修改最后的全连接层为5个输出值，执行trainval_net.py文件，同时输入参数--end_epoch＝30，即训练30个epoch；

步骤3-4：模型推理，将步骤2-2得到的像素矩阵P₁送入训练好的回归网络MobileNetV1中，网络输出G₁(x₁,y₁,x₂,y₂,x₃)，得到五个参数值，对应预测到的三个关键点坐标值；

步骤4：缺失点计算；

步骤4-1：定义车辆外接3D立体框用C＝{a,b,c,d,e,f,g,h}表示，其中，{a,b,c,d}表示目标车辆靠近相机侧垂直切面上从左上角按照顺时针方向的四个顶点在二维图像上的像素坐标，即a是靠近相机侧的垂直切面四边形的左上角顶点像素坐标，b是右上角顶点坐标，c是右下角顶点坐标，d是左下角顶点坐标；{e,f,g,h}是远离相机侧垂直切面上从左上角按照顺时针方向的四个顶点在二维图像上的像素坐标，即e是远离相机侧的垂直切面四边形的左上角顶点像素坐标，f是右上角顶点坐标，g是右下角顶点坐标，h是左下角顶点坐标。

步骤4-2：计算经过w₀,w₁两点的直线方程F(x)，定义直线方程

计算出直线F(x)与直线L(x＝G₁(x₃))相交的点，即为C中的点d；取c点坐标为(W,H)，取e点坐标为(0,0)；计算经过c,d两点的直线的斜率k_cd，由公式

对k_cd进行滤波处理，得到新的斜率k_cd′，由

重新计算出d点坐标；由

计算直线方程F(x)与直线K(x＝0)相交的点，即为C中的点h；依次平移线段eh，使h点分别和d点、c点重合，e点对应的两个点的坐标分别为a点和b点；平移线段dc，使d点和h点重合，此时c点对应的位置就是g点坐标；平移线段eh，使h点和g点重合，此时e点对应的位置就是f点坐标。至此，计算出构建3D立体框的顶点坐标C＝{a,b,c,d,e,f,g,h}。

步骤4-3：由公式

依次对C＝{a,b,c,d,e,f,g,h}中各个顶点的x,y坐标进行更新，得到D＝{a,b,c,d,e,f,g,h}。

步骤5：3D构建；

步骤5-1：根据步骤4-3得到顶点坐标D＝{a,b,c,d,e,f,g,h}，依据公式

进行判断是否满足立体几何模型关系，满足则依次连接a-b,b-c,c-d,d-a,e-f,f-g,g-h,h-e,a-e,b-f,c-g,d-h，完成3D构建，如果不满足则构建失败。

上述方案需要特别说明的是：

1、步骤1中的2D车辆检测非常重要，是对车辆进行3D构建的基础。

2、步骤3中的关键点检测直接决定了3D构建的准确性。

本发明的有益效果是：

本发明通过可行的技术方案，具有以下几点有益效果：

1、解决了通过激光雷达进行3D车辆检测成本高的问题。

2、本发明中的3D车辆检测方法所需要的硬件环境简单，且安装容易、成本低廉、稳定性好、实用性强。

3、本发明中的3D车辆检测方法使用了现有成熟的2D车辆检测的结果，使得3D检测效率高、稳定性好。

附图说明

图1本发明的流程示意图。

图2数据标注软件界面图。

图3数据标注样例图。

图4回归网络训练数据标注样例图。

图5车辆3D检测结果样例图。

具体实施方式

采用本发明的方法，给出一个非限定性的实例，结合图1进一步对本发明的具体实施过程进行说明。

本发明的实施方式如下：

1、按照步骤1对模型进行训练，完成之后对测试图片进行检测，得到目标车辆的坐标(844,272,1073,430)。

2、按照步骤2中的说明截取车辆目标，得到像素矩阵P₀：

[[[68 55 69]

[53 40 54]

[48 33 47]

...,

[53 41 61]

[61 49 67]

[43 33 50]]

[[63 50 66]

[54 38 55]

[54 36 53]

...,

[51 40 60]

[54 45 65]

[43 33 50]]

...,

[[76 57 66]

[75 56 65]

[74 55 64]

...,

[63 48 52]

[64 49 53]

[68 52 59]]]，

进行矩阵缩放，使矩阵尺寸固定为224x224，得到P₁：

[[[68 55 69]

[53 40 54]

[48 33 47]

...,

[52 40 60]

[61 49 67]

[43 33 50]]

...,

[[76 57 66]

[75 56 65]

[74 55 64]

...,

[63 48 52]

[64 49 53]

[68 52 59]]]。

3、根据步骤3进行回归模型训练，然后输入像素矩阵P₁，得到关键点坐标(846,401,899,423,940)。

4、根据步骤4，通过得到的关键点(846,401,899,423,940)对缺失的顶点进行计算，得到顶点坐标((941273),(1075275),(1075432),(941436),(844272),(965271),(965400),(844402))。

5、根据步骤5对得到的8个顶点坐标进行校验，校验通过，然后进行连接坐标点，得到车辆的外接立体框，如图5所示。

Claims

1.一种基于关键点回归的3D车辆检测方法，其特征在于：该方法的实现过程如下，

步骤1：2D车辆检测；

步骤2：车辆目标提取及预处理；

步骤3：关键点回归；

步骤4：缺失点计算；

步骤4-1：定义车辆外接3D立体框用C＝{a,b,c,d,e,f,g,h}表示，其中，{a,b,c,d}表示目标车辆靠近相机侧垂直切面上从左上角按照顺时针方向的四个顶点在二维图像上的像素坐标，即a是靠近相机侧的垂直切面四边形的左上角顶点像素坐标，b是右上角顶点坐标，c是右下角顶点坐标，d是左下角顶点坐标；{e,f,g,h}是远离相机侧垂直切面上从左上角按照顺时针方向的四个顶点在二维图像上的像素坐标，即e是远离相机侧的垂直切面四边形的左上角顶点像素坐标，f是右上角顶点坐标，g是右下角顶点坐标，h是左下角顶点坐标；

步骤4-2：计算经过w₀,w₁两点的直线方程F(x)，定义直线方程L(x＝G₁(x₃))，由

对k_cd进行滤波处理，得到新的斜率k_cd′，由

重新计算出d点坐标；由

计算直线方程F(x)与直线K(x＝0)相交的点，即为C中的点h；依次平移线段eh，使h点分别和d点、c点重合，e点对应的两个点的坐标分别为a点和b点；平移线段dc，使d点和h点重合，此时c点对应的位置就是g点坐标；平移线段eh，使h点和g点重合，此时e点对应的位置就是f点坐标；至此，计算出构建3D立体框的顶点坐标C＝{a,b,c,d,e,f,g,h}；

步骤4-3：由公式

依次对C＝{a,b,c,d,e,f,g,h}中各个顶点的x,y坐标进行更新，得到D＝{a,b,c,d,e,f,g,h}；

步骤5：3D构建；

根据步骤4-3得到顶点坐标D＝{a,b,c,d,e,f,g,h}，依据公式

2.根据权利要求1所述的一种基于关键点回归的3D车辆检测方法，其特征在于：

步骤1-1：数据标注，训练数据标注采用Pascal_VOC格式，使用XML文件存储每张图片的标注结果，标注工具使用labelImg，下载安装labelImg软件，打开软件，点击“Open Dir”选择需要标注的图像所存放的文件夹，然后软件会将文件夹下所有图片加载进软件里面，此时会默认打开一张图片，然后按一下键盘字母“w”，进入标注状态，找到图片中的车辆，将鼠标箭头放在车辆左上角点击一下鼠标左键开始画矩形框，然后移动鼠标箭头到车辆右下角位置再次点击一次鼠标左键，出现提示输入标注的类别，这里输入“car”,然后点击“OK”，完成一个车辆目标的标注；标注要求是将图片中所有出现的车辆进行标注，标注数量10000张图片；

步骤1-2：模型训练，下载基于PyTorch的Faster R-CNN目标检测框架，将数据集的所有图片文件放在VOC2007数据集文件目录的JPEGImages文件夹中，将标注生成的XML文件放在VOC2007数据集文件目录的Annotations文件夹中，然后将所有图片的文件名放到一个名为“trainval.txt”的文件中，每行一个，然后将该文件放到放在VOC2007数据集文件目录的Main文件夹下面，完成数据的准备工作；然后下载ResNet101预训练网络模型，放到pretrained_model目录下，执行trainval_net.py文件，同时输入参--end_epoch＝50，即训练50个epoch；

步骤1-3：模型检测，在步骤1-2训练完成之后，得到最终训练好的模型文件，放入models文件夹中，将待检测的图片放入images文件中，运行test_net.py文件，得到检测的结果，即图片中车辆的外接矩形框坐标。

3.根据权利要求2所述的一种基于关键点回归的3D车辆检测方法，其特征在于：

步骤2-1：根据步骤1-3得到车辆目标在图像中的外接矩形框的坐标位置B(x₁,y₁,x₂,y₂)，其中(x₁,y₁)表示矩形框左上角顶点的像素坐标，(x₂,y₂)表示矩形框右下角顶点的像素坐标，根据该两点坐标截取出此矩形框包围的像素图像，得到像素矩阵P₀，尺寸为(W,H)；W为像素图像的宽，H为像素图像的高度；

得到三个关键点(w₀,w₁,t)的坐标，其中关键点t只包含图像的横轴坐标；修改trainval_net.py中对应的代码，使训练数据进行loss计算时的真值为G(w₀(x),w₀(y),w₁(x),w₁(y),t(x))，即五个参数值，MobileNetV1网络采用随机初始化进行赋值，修改最后的全连接层为5个输出值，执行trainval_net.py文件，同时输入参数--end_epoch＝30，即训练30个epoch；

步骤3-4：模型推理，将步骤2-2得到的像素矩阵P₁送入训练好的回归网络MobileNet V1中，网络输出G₁(x₁,y₁,x₂,y₂,x₃)，得到五个参数值，对应预测到的三个关键点坐标值。