CN112257605A

CN112257605A - 基于自标注训练样本的三维目标检测方法、系统及装置

Info

Publication number: CN112257605A
Application number: CN202011146504.6A
Authority: CN
Inventors: 张兆翔; 张驰; 杨振
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-22
Anticipated expiration: 2040-10-23
Also published as: CN112257605B

Abstract

本发明属于计算机视觉、模式识别和机器学习领域，具体涉及了一种基于自标注训练样本的三维目标检测方法、系统及装置，旨在解决真实带标签数据获取难度大、代价高，而虚拟数据训练的模型无法适应真实场景的问题。本发明包括：通过训练好的模型进行输入图像序列的三维目标检测，其中，模型训练方法包括：向CARLA模拟器中嵌入高质量的模型；通过基于激光雷达引导的采样算法对CARLA模拟器生成的点云数据样本进行增强；以三维目标检测器VoxelNet为基础，通过引入体素级别和锚点级别的领域自适应模块进行领域偏移的对齐，并且增加一致性约束来搭建领域自适应的三维目标检测器DA‑VoxelNet。本发明使得由虚拟数据训练的三维目标检测模型能够适应真实场景，检测效果好、精度高。

Description

基于自标注训练样本的三维目标检测方法、系统及装置

技术领域

本发明属于计算机视觉、模式识别和机器学习领域，具体涉及了一种基于自标注训练样本的三维目标检测方法、系统及装置。

背景技术

三维目标检测可以提供更为详细的空间信息和语义信息，即目标类别和目标在三维空间中的位置、朝向、所占空间体积等，近年来受到越来越多的关注。通常，三维目标检测需要大量的带高质量标签的数据来训练模型。而在计算机视觉领域中，收集充分的人工标注数据的代价非常昂贵，加上三维目标检测需要的标注信息更加复杂化和专业化，数据标注成本相比分类和图像目标检测等任务更高，因此极大地阻碍了三维目标检测的发展。

幸运的是，计算机图形技术为我们解决三维目标检测算法的发展被人工标注数据限制这一问题提供了可能。随着计算机图形技术的不断发展，由计算机合成的虚拟数据越来越多地被用来弥补标注数据的不足，并应用在很多计算机视觉任务中，包括：光流估计，语义分割，视频分析，立体视觉和导航。计算机中的模拟器可以生成自带详细标注的数据，其成本只有对模拟器建模的开销，并且是一次性的——一旦模拟器组建完成，就可以源源不断的生成我们所需要的自标注训练样本。这一点非常重要。因为，利用模拟器自动生成的标注更加可靠和精准，而人工标注却不可避免地出现一些疏漏，比如，标记不合适的目标外包框。这种疏漏在点云数据中显得尤为突出，因为在点云数据中，一个目标面向激光雷达的表面会被表示为一个稀疏的点集，而背向激光雷达的表面是没有任何点来表示的，特别是相对于激光雷达具有一定距离的目标，其不可知的表面所占的比例更大，以至于点云数据的标注人员只能通过直觉去标记目标的3D外包框。但是，这种依靠直觉标记的3D外包框通常是不准确的，甚至会出现比较大的误差。此外，虚拟数据和模拟器可以很大程度上减小使用现实世界中的数据时经常难以消除的偏差。因为我们在现实世界中遇到的实际场景往往是不可控制的，这将导致模型在实际应用场景中获取的图像数据在质量、光照、背景、物体外观、观察角度等方面发生很大的变化，模拟器及其生成的自标注训练样本有助于提高训练集数据的多样性，并且能够完全覆盖真实场景的所有情况，从而减小因场景变化而带来的数据偏差。

通过模拟器获取模型训练数据，可以大大降低模型对真实带标签数据的依赖，然而，这种方法也不可避免地带来了模型从虚拟数据到真实场景的鸿沟，使得由虚拟数据训练的三维目标检测模型无法适应真实场景。

发明内容

为了解决现有技术中的上述问题，即真实带标签数据获取难度大、代价高，而虚拟数据训练的模型无法适应真实场景的问题，本发明提供了一种基于自标注训练样本的三维目标检测方法，该三维目标检测方法包括：

通过第一模型进行输入图像序列的三维目标检测，获得目标类别和目标在三维空间中的位置、朝向和所占空间体积；

其中，所述第一模型为基于虚拟样本数据和真实样本数据共同训练的三维目标检测模型，其训练方法为：

步骤S10，将所述三维目标检测模型嵌入CARLA模拟器，并通过所述CARLA模拟器生成虚拟样本数据；所述虚拟样本数据包括CARLA模拟器中的深度传感器和激光雷达得到的深度图像和点云数据；

步骤S20，获取所述三维目标检测模型的少量真实样本数据，并进行所述虚拟样本数据和真实样本数据的样本级和锚点级的特征提取，获得样本级特征图和锚点级特征图；所述真实样本数据包括真实场景中的深度传感器和激光雷达得到的深度图像和点云数据；

步骤S30，进行所述样本级特征图的特征对齐以及所述锚点级特征图的特征对齐，获得样本级对齐特征图和样本级分类标签以及锚点级对齐特征图和锚点级分类标签；

步骤S40，将获得的对齐特征图和对应的分类标签加入所述三维目标检测模型的训练样本集，并进行模型的迭代训练直至模型的损失函数值低于设定阈值或达到设定训练次数，获得训练好的第一模型。

在一些优选的实施例中，步骤S10之后还设置有虚拟样本数据增强的步骤，其方法为：

通过基于激光雷达引导的采样算法根据所述点云数据中的激光点在深度图像上的投影位置进行采样，将采样后的深度图像反投影回相机三维坐标系，得到增强后的点云数据，获得增强的虚拟样本数据。

在一些优选的实施例中，所述三维目标检测模型为具有流线结构的多凸壳的三维物理碰撞模型。

在一些优选的实施例中，步骤S20包括：

步骤S21，基于所述虚拟样本数据和真实样本数据中的点云数据构建激光点云数据库D：

其中，D_i代表激光点云数据库中第i个激光点云数据，x_i,y_i,z_i表示激光点云中第i个点相对于激光雷达的三维位置信息，R_i表示激光点云中第i个点的反射率，N为激光点云中点云的数量；

步骤S22，进行所述数据库的体素网格划分，并通过特征提取器进行每个体素网格中点云的特征提取，获得空间稀疏的体素特征；

步骤S23，通过稀疏卷积编码所述空间稀疏的体素特征，获得空间特征图f_s(x,y,z)：

其中，F(·)表示特征提取，包括三位空间栅格化操作、池化操作和全连接操作；D_i代表输入的激光点云数据，(x,y,z)表示空间特征图f_s(x,y,z)的坐标；

步骤S24，将所述空间特征图投影到顶视图进行垂直方向的维度压缩，获得样本级特征图；

步骤S25，基于所述样本级特征图，通过特征金字塔卷积网络获取不同尺度的特征，并通过反卷积层合并所述不同尺度的特征，获得锚点级特征图。

在一些优选的实施例中，步骤S30包括：

步骤S31，通过样本级二分类器进行所述样本级特征图的二分类，获得所述样本级特征图的样本级分类标签；所述样本级分类标签包括虚拟样本分类标签0和真实样本分类标签1；

步骤S32，通过锚点级二分类器进行所述样本级特征图的二分类，获得所述锚点级特征图的锚点级分类标签；所述锚点级分类标签包括虚拟样本分类标签0和真实样本分类标签1。

在一些优选的实施例中，所述样本级二分类器，其训练中的领域自适应损失函数L_sample为：

其中，F_s表示卷积和非线性激活的操作，n_s和n_t分别代表用于样本级二分类器训练的源领域和目标领域的样本数量，D_s代表样本级二分类器，

代表源领域样本数据的样本级特征图，

代表目标领域样本数据的样本级特征图。

在一些优选的实施例中，所述锚点级二分类器，其训练中的领域自适应损失函数L_anchor为：

其中，F_a表示卷积和非线性激活的操作，n_s和n_t分别代表用于锚点级二分类器训练的源领域和目标领域的样本数量，D_a代表锚点级二分类器，

代表源领域第i帧点云数据特征，

代表目标领域第i帧点云数据特征。

在一些优选的实施例中，所述样本级二分类器和锚点级二分类器的分类结果在一致性约束下趋于一致；所述一致性约束，其损失函数L_con为：

L_con＝L_conf(n_s,f_sample)+L_conf(n_t,f_anchor)

L_conf(n,f)＝‖M_s(n,f)-M_a(n,f)‖₂

其中，n＝n_s,n_t，f＝f_sample,f_anchor，D_s(F_s(p_i))_(w,h)和D_a(F_a(p_i))_(w,h)分别代表样本级二分类器和锚点级二分类器在特征向量的每个位置上的输出结果，‖·‖₂代表L2范数，H_s和W_s分别代表特征图的高和宽。

在一些优选的实施例中，所述三维目标检测模型包括目标的分类分支和回归分支；

所述分类分支的交叉熵损失函数Loss_c为：

其中，N为用于三维目标检测模型训练的样本数量，y_i表示第i个样本的标签，p_i表示第i个样本预测为正的概率；

所述回归分支的Smooth L1损失函数Smooth_L1为：

其中，x代表预测值与真实值之间的误差。

本发明的另一方面，提出了一种基于自标注训练样本的三维目标检测系统，该三维目标检测系统包括以下模块：

输入模块，用于获取输入图像序列；

目标检测模块，用于通过第一模型进行所述输入图像序列的三维目标检测，获得目标类别和目标在三维空间中的位置、朝向和所占空间体积；

本发明的有益效果：

(1)本发明基于自标注训练样本的三维目标检测方法，利用CARLA模拟器生成用于三维目标检测任务的大量自标注训练样本，可以很大程度上降低三维目标检测器对真实带标签数据的依赖，进一步的，通过引入一种新型的面向三维目标检测的领域自适应方法来引导网络跨越从虚拟数据到真实场景的鸿沟，从而使得由虚拟数据训练的三维目标检测模型能够适应真实场景，检测效果好、精度高。

(2)本发明基于自标注训练样本的三维目标检测方法，还通过基于激光雷达引导的采样算法对CARLA模拟器生成的点云数据样本进行增强，进一步提升了模型训练的效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于自标注训练样本的三维目标检测方法的流程示意图；

图2是本发明基于自标注训练样本的三维目标检测方法一种实施例的网络结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于自标注训练样本的三维目标检测方法，解决了三维数据标注成本高昂的一大痛点，借助计算机合成的自标注训练样本来解决三维目标检测算法对人工标注数据的依赖问题，并通过引入领域自适应模块引导三维目标检测模型跨越从虚拟数据到真实场景的鸿沟，从而三维目标检测模型可以基于自标注训练样本进行训练。

实现本发明方法的主要思路是：首先向CARLA模拟器中嵌入高质量的三维模型，然后使用基于激光雷达引导的采样算法对CARLA模拟器生成的虚拟点云数据样本进行增强，从而得到自标注训练样本。然后，以自标注数据训练的三维目标检测器VoxelNet为基础，通过引入体素级别的领域自适应模块和锚点级别的领域自适应模块进行领域偏移的对齐，并且在这两个模块之间增加一致性约束来搭建领域自适应的三维目标检测器：DA-VoxelNet，从而使得由CARLA模拟器生成的自标注样本训练的三维目标检测器能够适应真实场景。

本发明的一种基于自标注训练样本的三维目标检测方法，该三维目标检测方法包括：

为了更清晰地对本发明基于自标注训练样本的三维目标检测方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于自标注训练样本的三维目标检测方法，各步骤详细描述如下：

通过第一模型进行输入图像序列的三维目标检测，获得目标类别和目标在三维空间中的位置、朝向和所占空间体积。

步骤S10，将所述三维目标检测模型嵌入CARLA模拟器，并通过所述CARLA模拟器生成虚拟样本数据；所述虚拟样本数据包括CARLA模拟器中的深度传感器和激光雷达得到的深度图像和点云数据。

本发明一个实施例中，嵌入CARLA模拟器的模型为更具流线结构的多凸壳(MultiConvex Hull)的三维物理碰撞模型。

为了进一步增加模型训练的效果，步骤B10之后还设置有虚拟样本数据增强的步骤，其方法为：

步骤S20，获取所述三维目标检测模型的少量真实样本数据，并进行所述虚拟样本数据和真实样本数据的样本级和锚点级的特征提取，获得样本级特征图和锚点级特征图；所述真实样本数据包括真实场景中的深度传感器和激光雷达得到的深度图像和点云数据。

步骤S21，基于所述虚拟样本数据和真实样本数据中的点云数据构建激光点云数据库D，如式(1)所示：

其中，D_i代表激光点云数据库中第i个激光点云数据，x_i,y_i,z_i表示激光点云中第i个点相对于激光雷达的三维位置信息，R_i表示激光点云中第i个点的反射率，N为激光点云中点云的数量。

假设激光雷达点云包含一个范围为H、W、D的三维空间，分别表示垂直方向上的高度、水平方向上的位置和距离。假设每个体素的尺寸大小为ΔH,ΔW,ΔD，则整个三维空间的体素网格的尺寸可以通过H/ΔH,W/ΔW,D/ΔD计算得到。

步骤S22，进行所述数据库的体素网格划分，并通过特征提取器进行每个体素网格中点云的特征提取，获得空间稀疏的体素特征。

步骤S23，通过稀疏卷积编码所述空间稀疏的体素特征，获得空间特征图f_s(x,y,z)，如式(2)所示：

其中，F(·)表示特征提取，包括三位空间栅格化操作、池化操作和全连接操作；D_i代表输入的激光点云数据，(x,y,z)表示空间特征图f_s(x,y,z)的坐标。

步骤S24，将所述空间特征图f_s(x,y,z)投影到顶视图(即鸟瞰图)进行垂直方向的维度压缩，获得样本级特征图f_sample(u,v)。

假设原始特征为(C,D,H,W)的特征，则将高度的特征并入特征通道变为(C×D,H,W)的2D卷积特征，即样本级特征图f_sample(u,v)。

步骤S25，基于所述样本级特征图f_sample(u,v)，通过特征金字塔卷积网络获取不同尺度的特征，并通过反卷积层合并所述不同尺度的特征，获得锚点级特征图f_anchor(u,v)。

步骤S30，进行样本级特征图的特征对齐以及所述锚点级特征图的特征对齐，获得样本级对齐特征图和样本级分类标签以及锚点级对齐特征图和锚点级分类标签。

步骤S31，通过样本级二分类器进行所述样本级特征图的二分类，获得所述样本级特征图的样本级分类标签；所述样本级分类标签包括虚拟样本分类标签0和真实样本分类标签1。

将步骤S24获取的样本级特征图f_sample(u,v)送入到样本级别的样本级二分类器中进行分类，判断当前特征所属分类，此分类包含真实数据和虚拟数据两类，用于对齐当前对虚拟数据和真实数据提取的样本级别的特征。假设已经获得了虚拟数据的样本级别的特征

同时还有无标签的真实数据的样本级别的特征

领域分类标签对于虚拟数据是0，对于真实数据是1。

样本级二分类器，其训练中的领域自适应损失函数L_sample如式(3)所示：

代表源领域样本数据的样本级特征图，

代表目标领域样本数据的样本级特征图。

将步骤S25获取的锚点级特征图f_anchor(u,v)送入到锚点级别的二分类器中进行分类，判断当前特征所属分类，此分类包含真实数据和虚拟数据两类，用于对齐当前对虚拟数据和真实数据提取的锚点级别的特征。假设已经获得了虚拟数据的锚点级别的特征

同时还有无标签的真实数据的锚点级别的特征

领域分类标签对于虚拟数据是0，对于真实数据是1。

锚点级二分类器，其训练中的领域自适应损失函数L_anchor如式(4)所示：

代表源领域第i帧点云数据特征，

代表目标领域第i帧点云数据特征。

通过在样本级和锚点级两个二分类器中添加一个一致性约束，是的样本级二分类器和锚点级二分类器的分类结果趋于一致，假设特征提取器F_s输出一个宽度和高度为W_s和H_s的特征向量，而特征提取器F_a输出一个宽度和高度为W_a和H_a的特征向量，那么一致性约束的损失函数L_con可以定义如式(5)所示：

其中的一些中间参数的变换和计算方法如式(6)、式(7)和式(8)所示：

将步骤S32获取的对齐后的锚点级特征图f_anchor作为三维目标检测模型的训练集送入模型的分类分支和回归分支，通过损失函数减小预测和真实目标的标签的残差对网络进行学习。分类分支用于判断是否为目标，而回归分支用于回归出目标的位置、尺寸和方向。

本发明一个实施例中，对于分类任务中的汽车，将锚点和目标的交并比(IOU)大于0.6的设置为正样本，交并比(IOU)小于0.45的设为负样本。

分类分支的交叉熵损失函数Loss_c如式(9)所示：

其中，N为用于三维目标检测模型训练的样本数量，y_i表示第i个样本的标签，p_i表示第i个样本预测为正的概率。

本发明一个实施例中，对于回归任务，对应目标车的预定义锚点的宽、长、高的尺寸为(1.6,3.9,1.5)米。定义一个三维的真实边界框为x_g,y_g,z_g,l_g,w_g,h_g,θ_g，其中，x_g,y_g,z_g是边界框的中心位置坐标，l_g,w_g,h_g表示三维目标的长宽高，θ_g是目标在Z轴方向的转角，以*_a表示正样本的锚点，以Δ*表示对应的残差，则其关系表示如式(10)-式(16)所示：

Δθ＝sin(θ_g-θ_a) (16)

回归分支的Smooth L1损失函数Smooth_L1如式(17)所示：

其中，x代表预测值与真实值之间的误差。

如图2所示，为本发明基于自标注训练样本的三维目标检测方法一种实施例的网络结构示意图，C、D、H和W分别表示特征图的通道数量、深度、高度和宽度。

为了详细说明本发明的具体实施方式及验证发明的有效性，我们将本发明提出的方法应用于公开无人驾驶数据集KITTI。在实施例中，对于KITTI中，使用无标签的train数据集进行训练，使用val数据集进行测试。如表1所示，为本发明方法在KITTI数据集的3D目标检测结果，评价指标包括三维框和顶视图(鸟瞰图)框的平均准确率：

表1

其中，BEV AP和3D AP分别代表鸟瞰图框精度和三维框精度，Easy、Moderate和Hard分别代表KITTI数据集中的简单、中等和困难样本，从表中数据可知本发明方法在不借助任何人工标记的真实数据的前提下，可在原有方法上取得明显的性能提升，在BEV AP下的困难样本检测中提升最为明显，使用本发明所提方法使得模型性能提升了6.06个点的绝对精度，效果显著。

本发明第二实施例的基于自标注训练样本的三维目标检测系统，该三维目标检测系统包括以下模块：

输入模块，用于获取输入图像序列；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于自标注训练样本的三维目标检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于自标注训练样本的三维目标检测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于自标注训练样本的三维目标检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。