CN114359891A

CN114359891A - 一种三维车辆检测方法、系统、装置及介质

Info

Publication number: CN114359891A
Application number: CN202111493962.1A
Authority: CN
Inventors: 李巍华; 刘佳诚; 郑少武; 郑润霖; 黎杰; 于善虎; 叶鸣
Original assignee: Guangzhou Huagong Motor Vehicle Inspection Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangzhou Huagong Motor Vehicle Inspection Technology Co ltd; South China University of Technology SCUT
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-04-15
Anticipated expiration: 2041-12-08
Also published as: CN114359891B

Abstract

本发明公开了一种三维车辆检测方法、系统、装置及介质，其中方法包括：获取双目图像以及与双目图像对应的激光雷达点云；将双目图像输入双目目标检测网络，输出车辆目标的二维包围框和第一置信值；将激光雷达点云输入激光雷达目标检测网络，输出车辆目标的候选三维包围框和第二置信值；根据二维包围框、第一置信值、候选三维包围框和第二置信值构建手工特征，将手工特征输入到后融合网络进行训练，获得候选三维包围框对应的第三置信值，根据第三置信值获取最终的三维包围框。本发明通过融合双目视觉二维目标检测结果降低了激光雷达三维车辆目标检测漏检率和误检率，提升了检测的精度和鲁棒性。本发明可广泛应用于计算机视觉技术领域。

Description

一种三维车辆检测方法、系统、装置及介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种三维车辆检测方法、系统、装置及介质。

背景技术

随着新能源汽车的快速发展，自动驾驶技术也随之成为热门研究方向。对于一个自动驾驶系统，对交通场景的精确感知能力(如检测物体的三维)是规划、决策等任务的前提，也是车辆行驶安全的重要保证。当前，自动驾驶汽车上的主要感知传感器是相机和激光雷达。图像包含丰富的语义信息，有利于目标检测，但是缺乏精确定位能力。激光雷达获得点云精度较高，但是由于点云的稀疏性，基于激光雷达点云的三维目标检测算法，对小目标、远距离目标存在一定的误检、漏检概率。所以，结合相机和激光雷达的车辆检测算法有希望结合两者的长处，获得更好的检测效果。考虑到图像数据与激光雷达点云数据在数据形式上的异构性，通过特征层融合的方法往往无法达到期望的效果，而且大多数此类网络结构比较复杂。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种三维车辆检测方法、系统、装置及介质。

本发明所采用的技术方案是：

一种三维车辆检测方法，包括以下步骤：

获取双目图像以及与所述双目图像对应的激光雷达点云；

将所述双目图像输入双目目标检测网络，输出车辆目标的二维包围框和第一置信值；

将所述激光雷达点云输入激光雷达目标检测网络，输出车辆目标的候选三维包围框和第二置信值；

根据所述二维包围框、所述第一置信值、所述候选三维包围框和所述第二置信值构建手工特征，将所述手工特征输入到后融合网络进行训练，获得所述候选三维包围框对应的第三置信值，根据所述第三置信值获取最终的三维包围框。

进一步，所述获取双目图像以及与所述双目图像对应的激光雷达点云，包括：

对数据采集设备进行标定和时间同步，其中数据采集设备包括双目相机和激光雷达；

通过数据采集设备采双目图像以及与所述双目图像对应的激光雷达点云，根据采集到的数据制作样本集；

所述三维车辆检测方法还包括网络训练的步骤：

获取训练集，根据训练集训练所述双目目标检测网络和所述激光雷达目标检测网络，且训练过程中采用的损失函数为多任务损失函数。

进一步，所述双目图像由双目相机采集获得；

所述手工特征通过以下方式构建获得：

获取一组对应的激光雷达检测结果和双目检测结果，将二维包围框对应的置信值和三维包围框对应的置信值加入手工特征；

将激光雷达目标检测网络得到的三维包围框分别投影到双目图像中的两张图像上，获取两个相应的二维包围框；

根据所述两个相应的二维包围框和双目目标检测网络输出的二维包围框计算GIoU，将计算获得的GIoU加入所述手工特征；

根据双目检测结果估计车辆目标中心点的深度，将所述深度加入手工特征；

获取三维包围框到所述双目相机中心的距离，将所述距离加入手工特征。

进一步，所述手工特征的表达式为：

其中，T_i,j为第j个激光雷达检测结果和第i对双目检测结果构造的手工特征，GIoU_li,j为双目相机的左目对应的二维包围框与三维包围框投影的GIoU，GIoU_li,j为双目相机的右目对应的二维包围框与三维包围框投影的的GIoU，

为双目相机的左目对应的二维包围框对应的置信值，

为双目相机的右目对应的二维包围框对应的置信值，

为三维包围框对应的置信值，z_i是车辆目标中心点的深度，d_j是三维检测框到左目坐标系的距离。

进一步，所述双目目标检测网络通过对Stereo R-CNN网络进行裁减获得；

所述激光雷达目标检测网络通过对SECOND网络进行修改获得。

进一步，所述数据采集设备通过以下方式进行标定：

标定所述双目相机的内参和外参；

标定所述双目相机中左目相机与所述激光雷达之间的外参，建立多传感器之间的位姿关系；

所述数据采集设备通过以下方式进行同步：

通过GPS卫星作为多传感器共同的时钟源，通过线缆连接同步触发所述双目相机和激光雷达。

进一步，所述根据采集到的数据制作样本集，包括：

由于激光雷达点云的帧率低于双目图像帧率，获取与每帧激光雷达点云的时间戳相差预设值内的双目图像作为一组样本。

进一步，所述后融合网络由4个一维卷积网络组成，输出70400x1的置信度向量。

本发明所采用的另一技术方案是：

一种三维车辆检测系统，包括：

图像获取模块，用于获取双目图像以及与所述双目图像对应的激光雷达点云；

第一检测模块，用于将所述双目图像输入双目目标检测网络，输出车辆目标的二维包围框和第一置信值；

第二检测模块，用于将所述激光雷达点云输入激光雷达目标检测网络，输出车辆目标的候选三维包围框和第二置信值；

特征融合模块，用于根据所述二维包围框、所述第一置信值、所述候选三维包围框和所述第二置信值构建手工特征，将所述手工特征输入到后融合网络进行训练，获得所述候选三维包围框对应的第三置信值，根据所述第三置信值获取最终的三维包围框。

本发明所采用的另一技术方案是：

一种三维车辆检测装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过融合双目视觉二维目标检测结果降低了激光雷达三维车辆目标检测漏检率和误检率，提升了检测的精度和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种三维车辆检测方法的流程示意图；

图2是本发明实施例中双目三维车辆检测的流程示意图；

图3是本发明实施例中激光雷达三维车辆检测的流程示意图；

图4是本发明实施例中后融合模块的网络结构图；

图5是本发明实施例中融合激光雷达和双目相机的三维车辆检测结果示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供一种三维车辆检测方法，包括以下步骤：

S1、进行传感器标定和时间同步，采集激光雷达点云和对应的双目图像，制作样本集；

S2、将训练集输入，分别训练双目目标检测网络和激光雷达目标检测网络；

S3、将待检测双目图像输入双目目标检测网络，获得每个车辆目标在左右目对应的二维包围框和置信值；

S4、将待检测激光雷达点云输入激光雷达目标检测网络，输出每个车辆目标的候选三维包围框及其置信值；

S5、利用对应的激光雷达检测结果和双目检测结果构造手工特征，将手工特征输入到后融合网络，为每个候选三维包围框生成新的置信值，经由非极大值抑制输出最终的三维包围框。

在一些可选的实施例中，传感器(包括双目相机和激光雷达)标定的具体步骤包括：标定左右目相机的内参，标定左右目相机的外参，标定左目相机与激光雷达之间的外参，建立多传感器之间的位姿关系。

在一些可选的实施例中，多个传感器之间的时间同步是通过GPS卫星作为多传感器共同的时钟源，通过线缆连接同步触发双目相机和激光雷达。

在一些可选的实施例中，样本集的制作流程为：由于激光雷达点云的帧率要低于双目图像帧率，每帧点云只取时间戳相差10ms以内的双目图像作为一组样本。

在一些可选的实施例中，训练集采用的是KITTI公开数据集，包括7481张双目图像和对应的点云。所有数据被划分为了训练集和验证集，其中训练集有3712张图片和点云，验证集有3769张图片和点云。

在一些可选的实施例中，双目目标检测网络裁减自Stereo RCNN网络，移除了特征点预测和三维目标包围框回归的网络结构。如图2所示，最终得到的双目车辆检测网络流程如下：

双目图像分别通过由ResNet-101网络构成的特征提取模块获得特征图，ResNet-101网络包含101个网络层，总共有2300万参数，这里采用预训练模型，所以这些参数都不需要训练。

左右目特征图输入Stereo RPN，Stereo RPN源自Faster RCNN的RPN网络，不过Stereo RPN输出的目标框为左右对应目标的共同包围框，通过叠加网络估计的左右目包围框偏移值，计算得到左右目标包围框。

最后通过ROI Align模块从左右特征图获得与包围框对应的特征，并通过多层全连接层获得目标分类和置信值。

训练过程中，我们将与真值包围框的IoU在0.5以上的标记为正类，IoU在0.1-0.5之间的标记为负类。

网络的多任务损失函数可以表示为：

其中，(.)^p和(.)^r分别表示RPN和RCNN，(.)_cls和(.)_reg分别表示分类和包围框回归，对应的四个权重参数随机初始化为0-1之间的浮点数，并在训练过程中根据梯度更新。为了保证计算效率，对测试图片时输出前50组二维候选框。

在一些可选的实施例中，激光雷达目标检测网络修改自SECOND网络，如图3所示，其流程如下：

首先将点云输入栅格特征提取器，每个栅格的大小是0.2x0.5x1(m)，每个栅格内部的最大点云数设置为35，利用由多个全连接层组成的VFE网络提取栅格内的点云分布特征和栅格间的关联特征，最终输出128通道的特征图。

然后将获得的特征图送入稀疏卷积层，稀疏卷积层是基于GEMM算法，通过尽可能少的计算量将稀疏的栅格特征图转化为稠密特征图，并将特征图重置为64x2x400x352的固定大小。

最后，将稠密特征图送入一个端到端的RPN网络，获得点云中车辆的三维包围框，为了增强的后面的融合模块的效果，这里网络的输出的取消了非极大值抑制操作。最后输出了70400个三维候选框和它们的置信值。

在一些可选的实施例中，手工特征的计算步骤如下：

选择一组对应的激光雷达检测结果和双目检测结果，将二维包围框的置信值和三维包围框的置信值加入手工特征。

利用传感器标定结果将激光雷达检测网络得到的三维包围框投影到在左右目相机上，而激光雷达中的三维顶点P_lidar投影到相机上p_cam的转换公式为：

其中，K_cam为相机内参矩阵，

为相机与激光雷达的外参矩阵。

对于一个三维包围框，它总共有八个顶点，分别为P1,P2...P8,将这8个顶点按照公式(2)投影到图像，对应着8个二维点：p1(x1,y1)、p2(x2,y2)...p8(x8,y8)，我们可以通过下面的公式来获取其二维包围框：

x_min＝min(x₁,x₂,...,x₈)

x_max＝max(x₁,x₂,...,x₈)

y_min＝min(y₁,y₂,...,y₈)

y_max＝max(y₁,y₂,...,y₈) (3)

将上面得到的二维包围框分别与对应的左右目二维包围框计算GIoU,并将其加入手工特征。它的计算过程如下：对于任意的二维检测框A1和A2，首先找到他们的最小包围框A3,然后计算A3\(A1∪A2)与A3面积的比值，将IoU减去上面的比值即为GIoU，即：

由双目目标检测结果估计目标中心点的深度，将其加入手工特征。

目标中心点的深度z_i的计算公式为：

其中，f为相机焦距，b为基线长度，x_l为左目检测框中心点到图像中心点的x轴坐标，x_r为右目检测框中心点到图像中心点的x轴坐标，x_l-x_r即为目标中心点的视差。

计算三维包围框到左目相机中心的距离，将其加入手工特征。

每个手工特征的维度都是7维，可以表示为：

其中，T_i,j为第j个三维检测结果和第i对二维检测结果构造的手工特征，GIoU_li,j为左目二维包围框与三维包围框在左目投影的的GIoU，GIoU_li,j为右目二维包围框与三维包围框在右目投影的的GIoU，

为左目二维包围框对应的置信值，

为右目二维包围框对应的置信值，

为三维包围框对应的置信值，d_j是三维检测框到左目坐标系的距离。

在一些可选的实施例中，如图4所示，后融合网络由4个一维卷积网络和一个最大池化层组成，分别是Conv2D(4,16,(1,1),1),Conv2D(16,32,(1,1),1),Conv2D(32,32,(1,1),1)and Conv2D(32,1,(1,1),1),其中Conv2D(c_in,c_out,k,s)的含义为：c_in,c_out分别是输入和输出的通道数，k为卷积核的大小，s为步长；

后融合网络的分类损失函数为Focal loss:

其中α设置为0.2，γ设置为2.0；

训练的初始学习率设置为0.001，衰减因子为0.8，每15个训练周期衰减一次。

为了减少计算量，只将手工特征中GIoU不为0的特征送入后融合网络,并记录它们对应的ID。最后将融合模块的输出结果通过id映射到相应的位置，其他位置置为-1，得到维度为70400x1的矩阵作为新的置信值。

图5是一些融合激光雷达和双目相机的三维车辆检测结果示意图，可见在一般交通场景中车辆三维检测的效果良好。

综上所述，本实施例提出了一种融合激光雷达和双目相机的三维车辆检测方法。该方法利用决策层融合的方式，将双目二维检测结果与激光雷达三维车辆目标检测结果相融合。双目图像和激光雷达点云分别用不同的深度学习网络进行处理，避免了数据异构性的影响。能够有效降低交通场景中车辆三维检测的漏检、误检概率，提升了检测的精度和鲁棒性，方法简单、可靠，实用性强。本文中的部分方法步骤和流程可能需要由计算机执行，从而以硬件、软件、固件及其任何组合的方式来实施。

本实施例还提供一种三维车辆检测系统，包括：

本实施例的一种三维车辆检测系统，可执行本发明方法实施例所提供的一种三维车辆检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种三维车辆检测装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图1所示方法。

本实施例的一种三维车辆检测装置，可执行本发明方法实施例所提供的一种三维车辆检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种三维车辆检测方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种三维车辆检测方法，其特征在于，包括以下步骤：

获取双目图像以及与所述双目图像对应的激光雷达点云；

2.根据权利要求1所述的一种三维车辆检测方法，其特征在于，所述获取双目图像以及与所述双目图像对应的激光雷达点云，包括：

所述三维车辆检测方法还包括网络训练的步骤：

3.根据权利要求1所述的一种三维车辆检测方法，其特征在于，所述双目图像由双目相机采集获得；

所述手工特征通过以下方式构建获得：

4.根据权利要求1所述的一种三维车辆检测方法，其特征在于，所述双目目标检测网络通过对Stereo R-CNN网络进行裁减获得；

所述激光雷达目标检测网络通过对SECOND网络进行修改获得。

5.根据权利要求2所述的一种三维车辆检测方法，其特征在于，所述数据采集设备通过以下方式进行标定：

标定所述双目相机的内参和外参；

所述数据采集设备通过以下方式进行同步：

6.根据权利要求2所述的一种三维车辆检测方法，其特征在于，所述根据采集到的数据制作样本集，包括：

7.根据权利要求1所述的一种三维车辆检测方法，其特征在于，所述后融合网络由4个一维卷积网络组成。

8.一种三维车辆检测系统，其特征在于，包括：

9.一种三维车辆检测装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-7任一项所述方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。