CN114972654A

CN114972654A - 一种基于路侧点云补全的三维目标检测方法

Info

Publication number: CN114972654A
Application number: CN202210678796.0A
Authority: CN
Inventors: 李骏; 张新钰; 王力; 冉冠阳; 黄健耕; 周沫
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-08-30
Anticipated expiration: 2042-06-15
Also published as: CN114972654B

Abstract

本发明属于自动驾驶领域，尤其涉及一种基于路侧点云补全的三维目标检测方法，所述方法包括：将采集的点云数据输入预先建立和训练好的点云补全模型，得到完整点云的高维特征；将完整点云的高维特征输入预先建立和训练好的目标检测网络实现三维目标检测；所述点云补全模型，基于蒙面自动编码器的设计思想，采用注意力机制实现从不完整的点云中提取完整点云的高维特征。基于本发明的方法，对现有的三维目标检测算法进行微调即可，具有很高的灵活性，并可以达到更高的三维目标检测精度。

Description

一种基于路侧点云补全的三维目标检测方法

技术领域

本发明属于自动驾驶领域，尤其涉及一种基于路侧点云补全的三维目标检测方法。

背景技术

随着经济发展和科技水平的提高，汽车成为出行最主要的交通工具之一。而汽车数量的增加也造成了大量的车车、车人冲突，造成了显著经济损失。随着人工智能的发展，自动驾驶技术有望大大减少这类冲突和损失。自动驾驶中感知系统是安全行驶的前提，感知系统使用三维目标检测算法生成周围所有目标，如其他车辆的位置、朝向、长宽高信息，作为后续的规划、决策等模块的输入。感知系统的信息获取方式有很多，如相机、激光、毫米波等，其中激光雷达通过多层发射器发射激光完成对周围环境的扫描，是非常重要的感知设备。它可以生成点云图，点云图由许多点组成，每个点都是一个四维数组(x,y,z,r)，其中(x,y,z)为点与激光的相对位置，r为反射强度。现有检测算法的激光数据大多由车载激光雷达生成，由于雷达安装在车辆的顶部，安装位置较低，导致点云只会覆盖物体表面的一部分，无法形成物体的完整点云。所以现有的基于车载激光3D目标检测算法只能从覆盖物体一部分的点云中提取特征，不仅导致检测算法需要的参数数量变多，而且还有训练时间长、精度下降等问题。而路侧激光雷达安装高度高，所以点云覆盖的更全面，遮挡更少，且可以录制一段时间的点云，并对其进行处理后形成的补全点云使三维目标检测网络可以达到更高的精度。路侧和车载雷达的区别只在于点云覆盖的完整度和点云的高度，前者使该模型在更少参数的情况下达到更高的精度，从而提高推理速度，更容易满足实时性的要求，后者使路侧数据集可以更好的用于点云补全，且训练的模型可以与车载雷达通用。

现有的点云补全所用的两种方法：1)真值降采样法：首先扫描物体表面，形成完整的均匀覆盖全表面的点云作为真值，然后对其进行遮挡或降采样作为输入，训练神经网络；2)相似补全法：以一个相似类型且表面覆盖更完整的物体点云作为真值，与该物体相似类型的点云作为输入，如找一辆点云更完整的车辆A作为真值，其他的车辆B、C作为输入，进行点云补全的训练。第一种方法中，由于无法完整扫描每一辆车，所以无法用于自动驾驶中。第二种方法中，由于三维目标检测算法需要输出目标的长宽高等信息，若车辆B、C使用车辆A的点云信息进行补全，则检测算法只会生成A的信息，而不是实际的B、C的信息，因此也无法用于实际检测。使用路侧点云和跟踪的处理方法可以克服上述缺点，应用于实际情况。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种基于路侧点云补全的三维目标检测方法。

为了实现上述目的，本发明提出了一种基于路侧点云补全的三维目标检测方法，所述方法包括：

将采集的点云数据输入预先建立和训练好的点云补全模型，得到完整点云的高维特征；

将完整点云的高维特征输入预先建立和训练好的目标检测网络实现三维目标检测；

所述点云补全模型，基于蒙面自动编码器的设计思想，采用注意力机制实现从不完整的点云中提取完整点云的高维特征。

作为上述方法的一种改进，所述点云补全模型为Transformer模型的编码器，输入为点云，输出为完整点云的高维特征，所述编码器由L个块重复堆叠，每个块包括由残差结构和层归一化连接的多头自注意力机制与多层感知机。

作为上述方法的一种改进，所述多头自注意力机制包括多个自注意力模块，每个自注意力模块通过三个可学习的变换矩阵Q、K、V生成输入点云之间的关系矩阵Attention(Q,K,V)：

其中，d_k是Q、K矩阵的列数，即向量维度，softmax(·)为归一化指数函数，T表示转置；

所述多层感知机包括两层全连接层，第一层全连接层的激活函数为ReLU，第二层全连接层不使用激活函数。

作为上述方法的一种改进，所述方法还包括对点云补全模型进行训练的步骤；具体包括：

步骤1)在路侧设备部署预先标定好的多线激光雷达和四个相机，其中，以多线激光雷达为中心，四个相机围绕部署在多线激光雷达的周围，分别指向路口的四个方向；

步骤2)通过位于十字路口的路侧设备录制连续的点云数据和图像数据；将点云和图像进行物体标注，分别生成3D检测框和2D检测框，使用外参矩阵完成两种检测框的对应；

步骤3)以步骤2)的点云数据作为原始点云数据集，并结合对应的两种检测框完成原始点云数据集的标注；

步骤4)结合跟踪算法，对标注的原始点云数据集进行补全，得到补全点云数据集；

步骤5)以原始点云数据集为输入数据，以补全点云数据集为真值，对Transformer模型进行训练，直至满足训练要求，使Transformer模型的编码器能够从原始点云中提取补全点云的高维特征，得到训练好的Transformer模型，进而得到点云补全模型；所述Transformer模型包括依次连接的编码器、解码器和线性变换层。

作为上述方法的一种改进，所述步骤2)包括：

将路侧设备设置在十字路口，四个相机对准四条道路，获取点云数据PCD_i和四个相机拍摄的图像c_ij，其中，i表示第i帧，为正整数，j表示第j个相机拍摄到的十字路口图像，1≤j≤4；

按激光雷达的频率，将点云与图像进行帧对齐；

对帧对齐的点云和图像进行标注，获取每一帧点云和图像中的检测框，所述检测框包括3D检测框和2D检测框；

使用提前标定好的外参矩阵将每一帧的3D检测框和2D检测框进行对应。

作为上述方法的一种改进，所述步骤4)包括：

步骤4-1)将每帧点云和标注的检测框依次输入跟踪算法，生成每个检测框对应的ID号；

步骤4-2)提取第i帧点云经跟踪算法生成的ID号为p的检测框内的点云，根据下式变换到各自的车辆坐标系中：

式中，[x′,y′,z′]_p表示ID号为p的检测框在车辆坐标系下的真值点云，concate(·)表示合并操作，[x,y,z]_ip表示第i帧ID号为p的检测框内的所有点云在雷达坐标系中的坐标，θ_ip表示第i帧ID号为p的检测框与雷达坐标系y轴正方向的夹角，[x_c,y_c,z_c]_ip表示第i帧ID号为p的检测框中心点在雷达坐标系中的坐标；

步骤4-3)对于同一ID号的点云进行融合，否则记录该ID号的点云；

步骤4-4)当遍历完所有帧，转至步骤4-5)，否则，令i+1，转至步骤4-2)；

步骤4-5)将基于车辆坐标系的同一ID号的点云生成点云真值CT_p，经降采样，再经逆变换转换回雷达坐标系中；

步骤4-6)将转换回雷达坐标系的GT_p点云填充进每一帧原始点云同ID号的检测框中，生成全域补全的点云地图，进而得到补全点云数据集。

作为上述方法的一种改进，所述解码器包括两个级联的多头自注意力机制和一个多层感知机。

一种基于路侧点云补全的三维目标检测系统，其特征在于，所述系统包括：点云补全模型、目标检测网络、高维特征输出模块和三维目标检测输出模块；

所述高维特征输出模块，用于将采集的点云数据输入预先建立和训练好的点云补全模型，得到完整点云的高维特征；

所述三维目标检测输出模块，用于将完整点云的高维特征输入预先建立和训练好的目标检测网络实现三维目标检测；

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述的方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上述所述的方法。

与现有技术相比，本发明的优势在于：

1、基于本发明的方法，对现有的三维目标检测算法进行微调即可，具有很高的灵活性，并可以达到更高的三维目标检测精度；

2、本发明的方法可以增强对点云特征的提取和补全，利用注意力机制生成高维特征后便于现有检测算法结合，以提升检测精度。

附图说明

图1是本发明基于路侧点云补全的三维目标检测方法的流程；

图2是本发明提出的路侧数据集点云补全方法的处理流程；

图3是路侧数据集点云补全方法示意图；

图4是编码器和解码器的结构图。

具体实施方式

本发明的方法包括两部分：首先，基于路侧数据集生成全域补全的点云数据集；其次，将上述数据集与注意力机制和三维目标检测算法结合形成新的网络模型。且只需对现有的三维目标检测算法进行微调即可，具有很高的灵活性，并可以达到更高的三维目标检测精度。

针对上述问题提出了一种基于路侧激光点云补全的三维目标检测方法。将路侧数据集结合跟踪算法，生成全感知域补全的点云。利用这两个数据集，可以训练一个可以从原始点云中提取完整点云高维特征的注意力结构，然后使用生成的完整点云高维特征进行三维目标检测。并可将训练的模型用于车载雷达，提升车载设备目标检测的精度。为实现上述目标，发明步骤如下，如图1所示：

步骤1：路侧设备使用以多线激光雷达为中心，四个相机围绕指向路口的四个方向的布局。首先，提前将相机的激光雷达进行标定。然后使用位于十字路口的路侧设备，录制连续的点云数据和图像数据；

步骤2：将点云和图像进行物体标注，生成检测框。使用外参矩阵完成3D框与2D框的对应；

步骤3：对3D框和2D框进行跟踪，生成同一物体对应的ID，并提取不同时刻的同一ID检测框内的点云，根据检测框标注的位置与角度信息，将点云变换到以检测框中心为原点，车辆朝向为y轴，车辆右侧为x轴的右手坐标系中，将变换后同ID的点云合并。然后降采样作为该ID物体的真值点云，将生成的ID真值点云替换原始数据中的该ID的点云，生成全域补全的点云图；

步骤4：使用录制的路侧数据和补全后的点云图训练模型，模型的训练和检测分开进行。训练时，利用注意力结构可以从遮挡过的点云中恢复完整点云的大部分高维信息的特性，使用上步生成的真值点云和路侧实际点云训练具有编解码器的注意力结构，使得编码器可以根据原始点云生成完整点云的高维特征。检测时只使用编码器，使用编码器从路侧实际点云中提取的完整点云的高维特征作为检测算法的输入，生成最终的3D检测框。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

本发明的实施例1提出了一种基于路侧点云补全的三维目标检测方法。

从激光点云数据中可以看出，由于物体存在遮挡，点云无法覆盖物体的整个表面，而且远处的点云比较稀疏，一个物体上的点可能会很少。点云图的这个特点要求检测网络从不完整的点云中提取特征。所提出的方法可以克服上述缺点，并有很高的灵活性，具体实现方式如下：

硬件及数据准备：路侧设备使用以多线激光雷达为中心，四个相机围绕四周的布局，并提前完成相机与激光的标定。将设备放在十字路口，四个相机对准四条道路，获取点云数据PCD_i和四个相机c_ij，其中i表示第i帧，j表示第j个相机拍摄到的十字路口图片，j为1或2或3或4。然后按激光雷达的频率，将激光与图像进行帧对齐。

将点云和图像进行标注，获取每一帧点云和图像中的3D和2D检测框3DBBox_ik，2DBBox_ijk，其中k表示点云和图片中的第k个检测框。使用提前标定好的外参矩阵将每一帧的3D和2D检测框进行对应；

数据集点云补全：步骤流程如图2。雷达坐标系为雷达中心为原点，正前方为y轴正向，右侧为x轴正向的右手系，输入点云的坐标系为雷达坐标系。车辆坐标系为三维检测框中心为原点，车辆正前方为y轴正向，右侧为x轴正向的右手系(如图3所示)。如图2的左半部分所示，首先将3D检测框输入跟踪算法，如三维卡尔曼滤波，生成每个检测框对应的ID_ik，其中i表示第i帧点云，k表示点云中的第k个检测框。并将所有检测框内的点云根据标注的检测框信息使用如下公式变换到各自的车辆坐标系中：

式中，i表示第i帧，

表示ID为p的物体在车辆坐标系下的真值点云，[x,y,z]_ip表示检测框内的所有点云的坐标，θ_ip表示检测框与雷达坐标系y轴正方向的夹角，[x_c,y_c,z_c]_ip表示检测框中心点坐标，后三者都基于雷达坐标系。如此，一帧点云被分为两大部分：一部分为障碍物在各自车辆坐标系下的点云合集，一部分为无障碍物的其他点云(原始点云中抽取3D检测框内点云后剩余部分)。concate()函数表示将同一ID变换后基于车辆坐标系的点云合并在一起，生成点云真值GT_p(p∈(1,2,3,…))，然后降采样。然后，如图2右半部分所示，将车辆坐标系下的GT_p根据公式(1)的逆变换回到雷达坐标系中，将变换回雷达坐标系的GT_p点云填充进每一帧原始点云中同ID的检测框中，生成全域补全的点云地图。对应图示如图3所示。

训练Transformer：该步主要借鉴MAE(Masked Autoencoders)的思路，训练好的MAE可以从遮挡75％的图片中恢复出完整图片的大部分特征。利用上步生成原始点云与补全点云的两个数据集训练一个应用于点云的MAE结构，使该结构可以从原始点云中生成补全点云的高维特征。

MAE主要由具有编码器和解码器的注意力机制构成。如图4所示，编码器由多个块重复堆叠而成，每个块包括多头自注意力机制MHSA(Multi-head self-Attention)与多层感知机MLP(Multi-layer Perception)两部分，并加入残差连接。对每块的输入进行层归一化处理得到向量

R表示实数域，T表示输入点云的个数，D_in表示特征维度。多头注意力机制的每个头主要由三个可学习的线性变换矩阵，

和

生成，将输入的D_in特征映射为D_out维度的特征，单个注意力机制的输出如下：

Self-Attention(X)_t，：=softmax(A_t，：)XW_val， (2)

其中，A是一个T*T的表示注意力分数的矩阵

N_h个头的MHSA的输出如下：

其中，

是一个映射矩阵。注意力的MHSA与MLP公式如下所示：

y′_l＝MHSA(LN(y_l-1))+y_l-1 (5)

y_l=MLP(LN(y′_l))+y′_l， (6)

其中，LN表示层归一化，l∈(1,2,…,L)，L为编码器块的个数。

多头自注意力机制是由多个自注意力组合形成，首先将输入X分别传递到h个不同的自注意力模块中，将输出拼接到一起，并传入线性变换层得到最终输出。

解码器以编码器的输出作为输入，结构与编码器相似。包括两个级联的多头自注意力机制和一个多层感知机，第一个多头注意力层的Q、K、V使用上一个解码器的输出生成，第二个多头注意力层的K、V矩阵使用编码器的、输出生成，Q由上一个解码器块的输出生成。将多头注意力层的输出输入到多层感知机中，感知机结构与编码器结构类似，最后通过线性变换后，使用softmax计算下一个点云的概率

如图1的训练分支所示，使用路侧录制的数据和对应的点云补全的数据，训练一个应用于点云的MAE结构。训练时，首先将整个原始点云和真值点云按x，y平面，划分为多个H*W的窗口，分别一一对应后作为注意力结构的输入和真值。每一个窗口进行随机遮挡，编码器只处理未被遮挡的点云，这种处理方式不仅可以减少数据量、加快运算速度，并且对特征提取的准确度影响不会太大。

检测：检测时主要利用注意力的编码器生成的高维特征，即图1中框所示的部分，由于解码器可以根据这个高维特征生成补全后的点云，所以该高维特征可以看作补全后的点云的高维特征，包含物体的完整特征，可以直接作为检测网络的输入，可以将现有的检测算法微调后即可嵌入该框架中。

此外，在Transformer训练好之后取编码器与目标检测网络连接，对目标检测网络进行训练。

本发明提出的方法主要是基于利用路侧激光雷达生成原始与补全两个点云数据集，训练一个能从不完整的点云中提取完整点云的高维特征的编码器，可与现有的检测算法很好的结合，以提高检测的精度。

实施例2

本发明的实施例2提出了一种基于路侧点云补全的三维目标检测系统。系统包括：点云补全模型、目标检测网络、高维特征输出模块和三维目标检测输出模块；

实施例3：

本发明的实施例3还可提供的一种计算机设备，包括：至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

其中，用户接口可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。

在本上述的实施例中，还可通过调用存储器存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器用于：

执行实施例1的方法的步骤。

实施例1的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

实施例4

本发明实施例4还可提供一种非易失性存储介质，用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例中的各个步骤。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于路侧点云补全的三维目标检测方法，所述方法包括：

2.根据权利要求1所述的基于路侧点云补全的三维目标检测方法，其特征在于，所述点云补全模型为Transformer模型的编码器，输入为点云，输出为完整点云的高维特征，所述编码器由L个块重复堆叠，每个块包括由残差结构和层归一化连接的多头自注意力机制与多层感知机。

3.根据权利要求2所述的基于路侧点云补全的三维目标检测方法，其特征在于，所述多头自注意力机制包括多个自注意力模块，每个自注意力模块通过三个可学习的变换矩阵Q、K、V生成输入点云之间的关系矩阵Attention(Q,K,V)：

4.根据权利要求3所述的基于路侧点云补全的三维目标检测方法，其特征在于，所述方法还包括对点云补全模型进行训练的步骤；具体包括：

5.根据权利要求4所述的基于路侧点云补全的三维目标检测方法，其特征在于，所述步骤2)包括：

按激光雷达的频率，将点云与图像进行帧对齐；

6.根据权利要求5所述的基于路侧点云补全的三维目标检测方法，其特征在于，所述步骤4)包括：

步骤4-5)将基于车辆坐标系的同一ID号的点云生成点云真值GT_p，经降采样，再经逆变换转换回雷达坐标系中；

7.根据权利要求4所述的基于路侧点云补全的三维目标检测方法，其特征在于，所述解码器包括两个级联的多头自注意力机制和一个多层感知机。

8.一种基于路侧点云补全的三维目标检测系统，其特征在于，所述系统包括：点云补全模型、目标检测网络、高维特征输出模块和三维目标检测输出模块；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的方法。