CN108709513A

CN108709513A - 一种基于模型拟合算法的车辆三维检测方法

Info

Publication number: CN108709513A
Application number: CN201810314019.1A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-10-26

Abstract

本发明中提出的一种基于模型拟合算法的车辆三维检测方法，其主要内容包括：车辆维度估计、车辆模型拟合、两阶段精炼卷积神经网络，其过程为，原始图像被传送到二维检测网络，该网络为在图像平面中的候选车辆生成二维边界框，选择投影后落入二维边界框的一组三维点，利用这个集合，模型拟合算法检测车辆的三维位置和三维边界框，接着将适合三维边界框的点作为输入，设计两个阶段的精炼卷积神经网络，将检测到的三维框进一步对准点云，进行最终的三维框回归和分类。本发明提出的模型拟合算法，能够利用任何二维检测网络的优势来提供三维信息，实现更高效的模型拟合过程，提高了三维车辆检测的能力和检测精度。

Description

一种基于模型拟合算法的车辆三维检测方法

技术领域

本发明涉及图像检测领域，尤其是涉及了一种基于模型拟合算法的车辆三维检测方法。

背景技术

随着人们生活水平的不断提高，汽车的数量逐年增加，对车辆的监控和管理也显得越来越困难。因此，利用智能识别的方法对车辆进行检测，可以大大提高监控和管理的准确性，也能减少大量的人力、物力和财力。运动车辆的检测可以实现对道路上运动车辆的信息采集和处理，获取车辆的大小、位置等特征信息和车辆牌照信息。在完整的智能交通系统中，车辆检测能够为道路交通控制、公共交通指挥与调度、高速公路管理和紧急事件处理等诸多交通问题提供强有力的数据支持和信息支撑。通过车辆检测，还能实现在高速公路和各个停车场的不停车收费和管理，以及违章车辆监控等，有利于提高交通管理的效率和服务能力。常用的车辆检测方法包括单色图像、立体图像、光检测和测距(LiDAR)和单色图像和激光雷达之间的融合。单声道图像由于缺乏深度信息来恢复检测到的障碍物的三维位置，因此必须进行假设和近似处理。而基于立体图像的方法随着车辆距离的增加，精度会有所下降。LiDAR方法缺乏颜色信息，分类较为困难。

本发明提出了一种基于模型拟合算法的车辆三维检测方法，原始图像被传送到二维检测网络，该网络为在图像平面中的候选车辆生成二维边界框，选择投影后落入二维边界框的一组三维点，利用这个集合，模型拟合算法检测车辆的三维位置和三维边界框，接着将适合三维边界框的点作为输入，设计两个阶段的精炼卷积神经网络，将检测到的三维框进一步对准点云，进行最终的三维框回归和分类。本发明提出的模型拟合算法，能够利用任何二维检测网络的优势来提供三维信息，实现更高效的模型拟合过程，提高了三维车辆检测的能力和检测精度。

发明内容

针对车辆检测精度下降、分类困难的问题，本发明的目的在于提供一种基于模型拟合算法的车辆三维检测方法，原始图像被传送到二维检测网络，该网络为在图像平面中的候选车辆生成二维边界框，选择投影后落入二维边界框的一组三维点，利用这个集合，模型拟合算法检测车辆的三维位置和三维边界框，接着将适合三维边界框的点作为输入，设计两个阶段的精炼卷积神经网络，将检测到的三维框进一步对准点云，进行最终的三维框回归和分类。

为解决上述问题，本发明提供一种基于模型拟合算法的车辆三维检测方法，其主要内容包括：

(一)车辆维度估计；

(二)车辆模型拟合；

(三)两阶段精炼卷积神经网络。

其中，所述的车辆三维检测方法，输入一个图像，首先为候选车辆生成二维边界框；其次，这些边界框用于选择点云的子集，使用相机和激光探测与测量(LiDAR)之间的转换；由于相机的透视特性，三维点子集可能扩展到比车辆本身大得多的区域；该子集还包含相当数量的非车辆点和相邻车辆上的点。

其中，所述的车辆维度估计，给定的二维检测网络的末端需要一个额外的回归层，首先获得数据集中所有汽车和货车的平均尺寸；令表示车辆的高度、长度和宽度；标定好的回归向量定义为：

维度回归损失显示为：

其中，λ_d是平衡原始网络中定义的损失的权重因子，例如分类损失和二维回归损失；如果二维框是汽车，则C_i是1，否则是0；R是平滑L₁损失函数，Δ_i是网络的回归向量；

为了训练修改后的网络，可以重新使用来自原始网络的预先训练的权重进行初始化；只有一小部分网络需要重新训练，而其余部分可以在训练期间保持固定。

其中，所述的车辆模型拟合，首先生成一组三维框建议，对于每个建议，将三维框内的点与三种广义汽车模型进行比较，两阶段CNN精炼卷积神经网络选择分数最高的建议；

根据随机抽样一致(RANSAC)算法的原理生成三维框建议；在每次迭代中，随机选择一个点；第二个点是从立方体内的点开始随机选取的，该点位于第一个点的中心，边长为1.5l，其中l是二维CNN估计的车长，1.5表示补偿估计误差；垂直平面来自于这两点；与平面的距离小于阈值的点都被视为平面的内点；然后从内部随机选择最多20个点；在每个点处导出穿过该点并垂直于第一垂直平面的第二垂直平面。

进一步地，所述的垂直平面，沿着这两个垂直平面之间的相交线，可以基于估计的车宽和长度，生成八个三维框；由于第一个垂直平面是可见的，根据视图方向，删除四个框；在每个剩余的框的位置，通过沿着w和l方向将边界框展开1.5倍，定义新的范围；找到新范围内的最低点，并根据高度估算确定三维框的顶部，同时确定三维框的底部；总之，在每次迭代中可以生成最多80个三维框建议。

进一步地，所述的三种广义汽车模型，这三种广义的汽车模型用于模型拟合，它们代表三类汽车：SUV、Sedan和Vans；其中两厢车被认为是SUV；这种不变性表明，如果相同类别的汽车被归一化为相同的尺寸[h,l,w]，它们的形状和轮廓将是相似的；使用三维计算机辅助设计(CAD)数据集中对汽车进行归一化来推广汽车模型；每个图都是从三维CAD模型生成的点的聚合，对齐到相同的方向并标准化为相同的尺寸；SUV/两厢车图由58个CAD模型中的点组成，轿车图由65个点组成，车厢图由10个模型中的点组成；然后将每个聚合沿着[h,l,w]方向体素化为8×18×10矩阵；矩阵中的每个元素根据其位置分配不同的分数；表示汽车外壳/表面的元素被赋予1分，表明模型拟合过程中的三维点如果落在汽车表面上，则将被计入总分；汽车外壳内部或外部的元素被赋予负值，并且离车壳越远(向内或向外)，分配的值越小；矩阵底层的元素被赋予0分；在底层检测到的点可能是地面或汽车的轮胎，这些轮胎很难相互区分，则不会受到处罚，也不会得分；

三维框建议中的点将体素化为8×18×10个网格，并与三种潜在车辆模型进行比较；由于定位不明确，网格围绕其垂直中心轴旋转180度，然后与三个模型进行比较；在所有边界框建议中，选择分数最高的建议用于下一步。

其中，所述的两阶段精炼卷积神经网络(CNN)，设计两个阶段的精炼CNN，将检测到的三维框进一步对准点云；而这仅用二维CNN就能完成；利用给定三维框中的点，第一阶段CNN输出一个新的三维框，在新的三维框中可以找到一组新的点；第二阶段CNN基于新的一组点输出概率分数，以指示这些点代表实际汽车的可能性；应用归一化和体素化策略，以矩阵形式表示点以适应CNN；此外，边界框上下文能够提供额外的信息来提高检测精度；将三维边界框的上下文包含为CNN的输入；

从模型拟合过程给出一个三维框，沿着h,l,w方向按1.5、1.5和1.6倍扩展，以包括其上下文；这个扩展框内的点被归一化并体素化为24×54×32矩阵。

进一步地，所述的两个阶段，第一阶段CNN有两个并行输出，一个用于三维框回归，另一个用于分类；而第二阶段CNN只有一个输出分类；

两个CNN的分类损失均为Softmax损失，三维框回归损失为平滑L1损失；公式(3)中定义的标定真实回归向量有七个元素，三个用于框的中心，三个用于左下角，一个用于宽度；这七个元素即可恢复三维边界框；由于不等式归一化，需要求解四次多项式；在所有输入中，X_c/l,Y_c/l,Z_c/l,L,H,W都是恒定的，因为所有三维框都被对齐并归一化为相同的尺寸。

进一步地，所述的分类，包括汽车和背景；当鸟瞰视框与标定真实鸟瞰框之间的IOU(交汇点)大于特定阈值时，三维框被分类为正面；第一阶段CNN的阈值为0.5，第二阶段的阈值为0.7；为第一阶段设置较低阈值的原因是对网络进行训练，以便能够将IoU在0.5到0.7之间的框改进到IoU可能大于0.7的更好位置；否则网络会将这些边界框视为负数，并且不会通过训练来改进它们。

进一步地，所述的训练，由于两个网络之间不共享层，所以它们的训练是独立进行的；训练批量为128，50％为正面；两个CNN都以10000次迭代进行训练，其学习速率为0.0005。

附图说明

图1是本发明一种基于模型拟合算法的车辆三维检测方法的系统流程图。

图2是本发明一种基于模型拟合算法的车辆三维检测方法的三种汽车点云图的侧视图。

图3是本发明一种基于模型拟合算法的车辆三维检测方法的SUV两个切面的分数分布图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于模型拟合算法的车辆三维检测方法的系统流程图。主要包括车辆维度估计，车辆模型拟合，两阶段精炼卷积神经网络(CNN)。

车辆三维检测方法，输入一个图像，首先为候选车辆生成二维边界框；其次，这些边界框用于选择点云的子集，使用相机和激光探测与测量(LiDAR)之间的转换；由于相机的透视特性，三维点子集可能扩展到比车辆本身大得多的区域；该子集还包含相当数量的非车辆点和相邻车辆上的点。

车辆维度估计，给定的二维检测网络的末端需要一个额外的回归层，首先获得数据集中所有汽车和货车的平均尺寸；令表示车辆的高度、长度和宽度；标定好的回归向量定义为：

维度回归损失显示为：

车辆模型拟合，首先生成一组三维框建议，对于每个建议，将三维框内的点与三种广义汽车模型进行比较，两阶段CNN精炼卷积神经网络选择分数最高的建议；

沿着这两个垂直平面之间的相交线，可以基于估计的车宽和长度，生成八个三维框；由于第一个垂直平面是可见的，根据视图方向，删除四个框；在每个剩余的框的位置，通过沿着w和l方向将边界框展开1.5倍，定义新的范围；找到新范围内的最低点，并根据高度估算确定三维框的顶部，同时确定三维框的底部；总之，在每次迭代中可以生成最多80个三维框建议。

两阶段精炼卷积神经网络(CNN)，设计两个阶段的精炼CNN，将检测到的三维框进一步对准点云；而这仅用二维CNN就能完成；利用给定三维框中的点，第一阶段CNN输出一个新的三维框，在新的三维框中可以找到一组新的点；第二阶段CNN基于新的一组点输出概率分数，以指示这些点代表实际汽车的可能性；应用归一化和体素化策略，以矩阵形式表示点以适应CNN；此外，边界框上下文能够提供额外的信息来提高检测精度；将三维边界框的上下文包含为CNN的输入；

第一阶段CNN有两个并行输出，一个用于三维框回归，另一个用于分类；而第二阶段CNN只有一个输出分类；

分类包括汽车和背景；当鸟瞰视框与标定真实鸟瞰框之间的IOU(交汇点)大于特定阈值时，三维框被分类为正面；第一阶段CNN的阈值为0.5，第二阶段的阈值为0.7；为第一阶段设置较低阈值的原因是对网络进行训练，以便能够将IoU在0.5到0.7之间的框改进到IoU可能大于0.7的更好位置；否则网络会将这些边界框视为负数，并且不会通过训练来改进它们。

由于两个网络之间不共享层，所以它们的训练是独立进行的；训练批量为128，50％为正面；两个CNN都以10000次迭代进行训练，其学习速率为0.0005。

图2是本发明一种基于模型拟合算法的车辆三维检测方法的三种汽车点云图的侧视图。将三种广义的汽车模型(SUV、Sedan和Vans)用于模型拟合；其中两厢车被认为是SUV；这种不变性表明，如果相同类别的汽车被归一化为相同的尺寸[h,l,w]，它们的形状和轮廓将是相似的；使用三维计算机辅助设计(CAD)数据集中对汽车进行归一化来推广汽车模型；每个图都是从三维CAD模型生成的点的聚合，对齐到相同的方向并标准化为相同的尺寸；SUV/两厢车图由58个CAD模型中的点组成，轿车图由65个点组成，车厢图由10个模型中的点组成；然后将每个聚合沿着[h,l,w]方向体素化为8×18×10矩阵。

图3是本发明一种基于模型拟合算法的车辆三维检测方法的SUV两个切面的分数分布图。矩阵中的每个元素根据其位置分配不同的分数；表示汽车外壳/表面的元素被赋予1分，表明模型拟合过程中的三维点如果落在汽车表面上，则将被计入总分；汽车外壳内部或外部的元素被赋予负值，并且离车壳越远(向内或向外)，分配的值越小；矩阵底层的元素被赋予0分；在底层检测到的点可能是地面或汽车的轮胎，这些轮胎很难相互区分，则不会受到处罚，也不会得分；

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于模型拟合算法的车辆三维检测方法，其特征在于，主要包括车辆维度估计(一)；车辆模型拟合(二)；两阶段精炼卷积神经网络(CNN)(三)。

2.基于权利要求书1所述的车辆三维检测方法，其特征在于，输入一个图像，首先为候选车辆生成二维边界框；其次，这些边界框用于选择点云的子集，使用相机和激光探测与测量(LiDAR)之间的转换；由于相机的透视特性，三维点子集可能扩展到比车辆本身大得多的区域；该子集还包含相当数量的非车辆点和相邻车辆上的点。

3.基于权利要求书1所述的车辆维度估计(一)，其特征在于，给定的二维检测网络的末端需要一个额外的回归层，首先获得数据集中所有汽车和货车的平均尺寸；令表示车辆的高度、长度和宽度；标定好的回归向量定义为：

维度回归损失显示为：

4.基于权利要求书1所述的车辆模型拟合(二)，其特征在于，首先生成一组三维框建议，对于每个建议，将三维框内的点与三种广义汽车模型进行比较，两阶段CNN精炼卷积神经网络选择分数最高的建议；

5.基于权利要求书4所述的垂直平面，其特征在于，沿着这两个垂直平面之间的相交线，可以基于估计的车宽和长度，生成八个三维框；由于第一个垂直平面是可见的，根据视图方向，删除四个框；在每个剩余的框的位置，通过沿着w和l方向将边界框展开1.5倍，定义新的范围；找到新范围内的最低点，并根据高度估算确定三维框的顶部，同时确定三维框的底部；总之，在每次迭代中可以生成最多80个三维框建议。

6.基于权利要求书4所述的三种广义汽车模型，其特征在于，这三种广义的汽车模型用于模型拟合，它们代表三类汽车：SUV、Sedan和Vans；其中两厢车被认为是SUV；这种不变性表明，如果相同类别的汽车被归一化为相同的尺寸[h,l,w]，它们的形状和轮廓将是相似的；使用三维计算机辅助设计(CAD)数据集中对汽车进行归一化来推广汽车模型；每个图都是从三维CAD模型生成的点的聚合，对齐到相同的方向并标准化为相同的尺寸；SUV/两厢车图由58个CAD模型中的点组成，轿车图由65个点组成，车厢图由10个模型中的点组成；然后将每个聚合沿着[h,l,w]方向体素化为8×18×10矩阵；矩阵中的每个元素根据其位置分配不同的分数；表示汽车外壳/表面的元素被赋予1分，表明模型拟合过程中的三维点如果落在汽车表面上，则将被计入总分；汽车外壳内部或外部的元素被赋予负值，并且离车壳越远(向内或向外)，分配的值越小；矩阵底层的元素被赋予0分；在底层检测到的点可能是地面或汽车的轮胎，这些轮胎很难相互区分，则不会受到处罚，也不会得分；

7.基于权利要求书1所述的两阶段精炼卷积神经网络(CNN)(三)，其特征在于，设计两个阶段的精炼CNN，将检测到的三维框进一步对准点云；而这仅用二维CNN就能完成；利用给定三维框中的点，第一阶段CNN输出一个新的三维框，在新的三维框中可以找到一组新的点；第二阶段CNN基于新的一组点输出概率分数，以指示这些点代表实际汽车的可能性；应用归一化和体素化策略，以矩阵形式表示点以适应CNN；此外，边界框上下文能够提供额外的信息来提高检测精度；将三维边界框的上下文包含为CNN的输入；

8.基于权利要求书7所述的两个阶段，其特征在于，第一阶段CNN有两个并行输出，一个用于三维框回归，另一个用于分类；而第二阶段CNN只有一个输出分类；

9.基于权利要求书8所述的分类，其特征在于，分类包括汽车和背景；当鸟瞰视框与标定真实鸟瞰框之间的IOU(交汇点)大于特定阈值时，三维框被分类为正面；第一阶段CNN的阈值为0.5，第二阶段的阈值为0.7；为第一阶段设置较低阈值的原因是对网络进行训练，以便能够将IoU在0.5到0.7之间的框改进到IoU可能大于0.7的更好位置；否则网络会将这些边界框视为负数，并且不会通过训练来改进它们。

10.基于权利要求书9所述的训练，其特征在于，由于两个网络之间不共享层，所以它们的训练是独立进行的；训练批量为128，50％为正面；两个CNN都以10000次迭代进行训练，其学习速率为0.0005。