CN115830265A

CN115830265A - 一种基于激光雷达的自动驾驶运动障碍物分割方法

Info

Publication number: CN115830265A
Application number: CN202211361884.4A
Authority: CN
Inventors: 孙宇翔; 孟诗语
Original assignee: Shenzhen Research Institute HKPU
Current assignee: Shenzhen Research Institute HKPU
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-03-21

Abstract

本发明公开了一种基于激光雷达的自动驾驶运动障碍物分割方法，包括步骤：获取自动驾驶场景下若干连续时间戳的时序点云数据；其中，若干连续时间戳的时序点云数据包括当前时间戳的时序点云数据；根据若干连续时间戳的时序点云数据，确定各时间戳的帧间差异特征信息；将各时间戳的帧间差异特征信息和所述当前时间戳的时序点云数据的投影数据输入训练好的分割网络模型，通过语义信息为指导得到障碍物分割的状态预测掩膜和语义预测掩膜。基于点云投影的数据独特表示和端到端深度学习网络的组成来表达障碍物点云数据的特征，实现对自动驾驶场景下运动障碍物更准确的识别。

Description

一种基于激光雷达的自动驾驶运动障碍物分割方法

技术领域

本发明涉及自动驾驶、计算机视觉技术领域，尤其涉及的是一种基于激光雷达的自动驾驶运动障碍物分割方法。

背景技术

随着计算机视觉技术的发展，相机被广泛应用，相机可以捕获十分丰富的环境信息，利用颜色、纹理等特征可以进行区域分割，但是相机易受到光照、天气等自然条件的干扰。而激光雷达(LiDAR)具有测量距离远、精度高和不受光照阴影遮挡等天气因素影响，具有良好稳定性和数据健壮性，所以本方案基于激光雷达数据展开研究。

运动障碍物主要包括行人，运动的车辆等。动态的交通环境下，运动障碍物无处不在，不可避免。语义分割任务是运动障碍物的点云分割任务的基础。自主驾驶的语义分割是一项从点到面的密集分类任务，它能在一条扫描数据中有效区分天空、树木、车辆和自行车等类别。语义分割可以被看作是运动物体分割的前一步。目前LiDAR语义分割任务可以区分为三种主流方法：基于点、基于投影和基于体素的判别方法。其中特别是，由于可以直接使用二维图像分割领域的成熟神经网络的基于投影的研究方法得到了更多的关注。运动物体分割与语义分割不同，不仅是一个点式密集映射的任务，还需要有效地提取连续扫描帧之间的差异来区分动态物体障碍。

自动驾驶环境中目标物体的动静态识别是实现安全运动规划和导航的关键。自动驾驶汽车的路线必须考虑到周围运动物体的未来坐标和速度。目前障碍物检测通常基于两个步骤，首先是基于道路分割寻找障碍物，其次是区分障碍物是运动的还是静止的，由于车辆处于运动状态，很难区分背景和其他运动物体。因此需要对车辆的自我运动进行估计和补偿，进而以提取场景中的运动对象。传统的分割方法存在一定的局限性，如道路分割基于平坦道路假设，在坑洼、上下坡泛化能力不佳，自运动估计和补偿也会受到GPS信号强弱的影响。目前关于深度学习的语义分割方法研究较多，可以代替传统的道路分割方法，缓解平坦道路的假设问题。基于两步走的障碍物分割检测方法可以解决一定的实际应用问题，但由于各阶段的训练目标不一致，可能与整体的宏观目标存在偏差，从而最终很难达到最优的检测准确性。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于激光雷达的自动驾驶运动障碍物分割方法，旨在解决现有技术中无成熟完善的端到端的点云运动物体障碍物分割的方法和现有对目标特征的分割检测效果不够准确的问题。

本发明解决技术问题所采用的技术方案如下：

一种基于激光雷达的自动驾驶运动障碍物分割方法，其中，包括步骤：

获取自动驾驶场景下若干连续时间戳的时序点云数据；其中，若干连续时间戳的时序点云数据包括当前时间戳的时序点云数据；

根据若干连续时间戳的时序点云数据，确定各时间戳的帧间差异特征信息；

将各时间戳的帧间差异特征信息和所述当前时间戳的时序点云数据的投影数据输入训练好的分割网络模型，得到障碍物分割的状态预测掩膜和语义预测掩膜；

其中，所述训练好的分割网络模型包括：时序融合模块、非对称的编解码器以及点云数据形式恢复模块；

所述将各时间戳的帧间差异特征信息和所述当前时间戳的时序点云数据的投影数据输入训练好的分割网络模型，得到障碍物分割的状态预测掩膜和语义预测掩膜，包括：

将各时间戳的帧间差异特征信息和所述当前时间戳的时序点云数据的投影数据输入所述时序融合模块，得到融合特征；

将所述融合特征输入所述非对称的编解码器，得到特征信息数据；

将所述特征信息数据输入所述点云数据形式恢复模块，得到障碍物分割的状态预测掩膜和语义预测掩膜。

所述的基于激光雷达的自动驾驶运动障碍物分割方法，其中，所述非对称的编解码器包括：编码器、上下文信息模块、运动分割解码器以及语义信息解码器；所述特征信息数据包括：障碍物运动状态预测掩码和运动障碍物的语义预测掩码；

将所述融合特征输入所述非对称的编解码器，得到特征信息数据，包括：

将所述融合特征输入所述编码器，得到编码特征；

将所述编码特征输入所述上下文信息模块，得到特征图像；

将所述特征图像输入所述运动分割解码器，得到障碍物运动状态预测掩码；

将所述特征图像输入所述语义信息解码器，得到运动障碍物的语义预测掩码。

所述的基于激光雷达的自动驾驶运动障碍物分割方法，其中，所述上下文信息模块包括：四个并行的膨胀卷积层，四个并行的膨胀卷积层的膨胀速率分别为6、12、18和24；

所述编码器、所述运动分割解码器以及所述语义信息解码器均包括4个编码模块，每个编码模块包括：卷积层、批规范化层、残差模块以及激活函数层。

所述的基于激光雷达的自动驾驶运动障碍物分割方法，其中，所述根据若干连续时间戳的时序点云数据，确定各时间戳的帧间差异特征信息，包括：

将过去时间戳的所有点云坐标信息根据位姿变换统一转换至当前时间戳点云数据坐标系统下，并根据仿射变换连续时间戳的时序点云数据进行投影，得到各时间戳的时序点云数据的投影数据；

针对若干连续时间戳的时序点云数据中每一个过去时间戳的时序点云数据的投影数据，根据该过去时间戳的时序点云数据的投影数据与当前时间戳的时序点云数据的投影数据进行逐像素的相乘操作并归一化处理，得到该过去时间戳的帧间差异特征信息。

所述的基于激光雷达的自动驾驶运动障碍物分割方法，其中，所述帧间差异特征信息为：

其中，diff表示帧间差异特征信息，SP_current表示当前时间戳的时序点云数据的投影数据，SP_i表示第i个过去时间戳的时序点云数据的投影数据。

所述的基于激光雷达的自动驾驶运动障碍物分割方法，其中，所述一种基于激光雷达的自动驾驶运动障碍物分割方法，还包括：

根据所述障碍物分割的状态预测掩膜，确定障碍物的动静类别，并根据所述障碍物分割的语义预测掩膜，确定障碍物的语义类别。

所述的基于激光雷达的自动驾驶运动障碍物分割方法，其中，所述训练好的分割网络模型在训练时基于总体损失函数更新分割网络模型的模型参数；所述总体损失函数为：

Loss＝L_semantic+L_mowing+L_ls

其中，Loss表示总体损失函数，L_semantic表示语义交叉熵损失函数，L_moving表示运动障碍物损失函数，L_ls表示Lovasz Softmax损失函数。

所述的基于激光雷达的自动驾驶运动障碍物分割方法，其中，所述训练好的分割网络模型在训练时基于精度、交并比以及网络推力时间进行评价；其中，交并比为：

其中，IoU表示交并比，target∧prediction表示目标掩膜target与预测掩膜prediction之间的公共区域的像素个数，target∪prediction表示目标掩膜target与预测掩膜prediction的总的像素个数。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现如上任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上任一项所述的方法的步骤。

有益效果：基于点云投影的数据独特表示和端到端深度学习网络的组成来表达障碍物点云数据的特征，实现对自动驾驶场景下运动障碍物更准确的识别。

附图说明

图1是本发明实施例的基于激光雷达的自动驾驶运动障碍物分割方法的流程示意图。

图2是本发明实施例的点云帧间时序残差计算原理图。

图3是本发明实施例的分割网络模型的框架图。

图4是本发明实施例的基于激光雷达的自动驾驶运动障碍物分割方法的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请同时参阅图1-图4，本发明提供了一种基于激光雷达的自动驾驶运动障碍物分割方法的一些实施例。

如图1和图4所示，本发明实施例的基于激光雷达的自动驾驶运动障碍物分割方法，包括以下步骤：

步骤S100、获取自动驾驶场景下若干连续时间戳的时序点云数据；其中，若干连续时间戳的时序点云数据包括当前时间戳的时序点云数据。

具体地，在自动驾驶场景下，通过车载3D激光雷达获取若干连续时间戳的时序点云数据，由于车载3D激光雷达处于移动状态下，各时间戳的时序点云数据并不相同，各帧的时序点云数据的运动信息不仅包括坐标系内的运动障碍物的运动信息还包括了自车运动信息。在每一时间戳的时序点云数据中存在相对静止的障碍物和相对运动的障碍物，这里的相对静止是指相对于底面处于静止状态，相对运动是指相对于底面处于运动状态。本申请通过对运动障碍物进行分割识别。若干连续时间戳的时序点云数据包括当前时间戳的时序点云数据以及当前时间戳的时序点云数据之前的过去时间戳的时序点云数据，需要说明的是，当前时间戳与过去时间戳为连续的若干时间戳，具体时间戳数可以根据需要设置，例如，获取4个连续时间戳的时序点云数据，每个时间戳的点云数据的形式为(num_point，4)。

步骤S200、根据若干连续时间戳的时序点云数据，确定各时间戳的帧间差异特征信息。

得到若干时间戳时序点云数据后，确定各时间戳的帧间差异特征信息，这里的帧间差异特征信息是指过去时间戳的时序点云数据相对于当前时间戳的时序点云数据的差异特征信息，有多少过去时间戳，则有多少帧间差异特征信息。

步骤S200具体包括：

步骤S210、将过去时间戳的所有点云坐标信息根据位姿变换统一转换至当前时间戳点云数据坐标系统下，并根据仿射变换连续时间戳的时序点云数据进行投影，得到各时间戳的时序点云数据的投影数据。

具体地，如图2所示，将当前时间戳的时序点云数据和过去时间戳的时序点云数据进行自运动估计、自我运动补偿(ego motion compensation)和鸟瞰(BEV，Bird's EyeView)投影，得到投影数据。自运动估计通过若干连续时间戳的时序点云数据的旋转矩阵和平移量基于坐标系变换进行计算。投影的图像大小设置为(480,360)，投影数据包括点云坐标和强度值，可以表示为(x坐标，y坐标，z坐标，强度值)。当前时间戳的时序点云数据的投影数据记为SP_current，过去时间戳的时序点云数据的投影数据记为SP_i，即第i个过去时间戳的时序点云数据的投影数据。

步骤S220、针对若干连续时间戳的时序点云数据中每一个过去时间戳的时序点云数据的投影数据，根据该过去时间戳的时序点云数据的投影数据与当前时间戳的时序点云数据的投影数据进行逐像素的相乘操作并归一化处理，得到该过去时间戳的帧间差异特征信息。

针对每个过去时间戳的时序点云数据的投影数据，将该过去时间戳的时序点云数据的投影数据与当前时间戳的时序点云数据的投影数据进行逐像素的相乘操作，即SP_current×SP_i，然后基于当前时间戳的时序点云数据的投影数据进行归一化处理，得到该过去时间戳的帧间差异特征信息。

具体地，将过去时间戳的所有点云信息统一转换至当前时间戳点云数据坐标下，从而减少由于自车运动照成的影响，最后将转换后的多个连续时间戳数据进行投影获得其鸟瞰视图，并构造时序特征信息表示。将通过对N个时刻的点云BEV投影图进行相乘操作获取时序信息图。由于不同时刻点云帧中的静态物体的位置信息存在大量重叠，而包含运动物体的坐标信息由于帧间存在较少重叠，相应位置经过相乘操作后将变为0，最终将相乘结果进行归一化至[0，1]之间。

具体地，所述帧间差异特征信息为：

步骤S300、将各时间戳的帧间差异特征信息和所述当前时间戳的时序点云数据的投影数据输入训练好的分割网络模型，得到障碍物分割的状态预测掩膜和语义预测掩膜。

具体地，如图3所示，将各时间戳的帧间差异特征信息和当前时间戳的时序点云数据的投影数据输入训练好的分割网络模型，得到分割网络模型输出的障碍物分割的状态预测掩膜和语义预测掩膜，完成自动驾驶场景下运动障碍物的分割预测。分割网络模型具体为鸟瞰图运动障碍物分割网络模型。

所述训练好的分割网络模型包括：时序融合模块、非对称的编解码器以及点云数据形式恢复模块。步骤S300具体包括：

步骤S310、将各时间戳的帧间差异特征信息和所述当前时间戳的时序点云数据的投影数据输入所述时序融合模块，得到融合特征。

步骤S320、将所述融合特征输入所述非对称的编解码器，得到特征信息数据。

步骤S330、将所述特征信息数据输入所述点云数据形式恢复模块，得到障碍物分割的状态预测掩膜和语义预测掩膜。

具体地，时序融合模块融合各时间戳的帧间差异特征信息和当前时间戳的时序特征点云数据的投影数据，得到融合特征。将该融合特征作为非对称的编解码器的输入，通过非对称的编解码器输出特征信息数据。然后将特征信息数据输入点云数据形式恢复模块，得到障碍物分割的状态预测掩膜和语义预测掩膜。

步骤S310具体包括：

步骤S310、将各时间戳的帧间差异特征信息和所述当前时间戳的时序点云数据的投影数据进行堆叠，得到融合特征。

具体地，将各时间戳的帧间差异特征信息和当前时间戳的时序点云数据的投影数据进行堆叠，得到融合特征。

所述非对称的编解码器包括：编码器、上下文信息模块、运动分割解码器以及语义信息解码器；所述特征信息数据包括：障碍物运动状态预测掩码和运动障碍物的语义预测掩码。步骤S320具体包括：

步骤S321、将所述融合特征输入所述编码器，得到编码特征。

步骤S322、将所述编码特征输入所述上下文信息模块，得到特征图像。

步骤S323、将所述特征图像输入所述运动分割解码器，得到障碍物运动状态预测掩码。

步骤S324、将所述特征图像输入所述语义信息解码器，得到运动障碍物的语义预测掩码。

具体地，非对称的编解码结构对融合特征进行特征提取和解码，充分提取不同时间戳间的点云差异和空间特征。具体来说，先采用编码器对连续时间戳的点云数据和帧间差异特征进行特征提取，然后将提取的编码特征经过上下文信息模块来获取多尺度的运动物体特征信息，接着采用解码器对特征图像进行解码，最后融合非对称编码器和解码器的深浅层特征信息，以补充点云稀疏数据因压缩损失的特征信息。

具体地，采用编码器对连续时间戳的点云数据和帧间差异特征进行特征提取，编码器的结构基于DeepLab v3网络中的编码器进行设计，共有4个编码模块(encorderblock)，每个编码模块均由卷积层(Conv)、批规范化层(BN)、残差模块(Res)和激活函数层(Relu)组成。所提取的信息为融合特征的尺寸的1/16。

所述上下文信息模块包括：四个并行的膨胀卷积层，四个并行的膨胀卷积层的膨胀速率分别为6、12、18和24。

具体地，采用ASPP(Atrous Spatial Pyramid Pooling)模块作为上下文信息模块，进而获取多尺度的运动物体特征信息，ASPP模块可以在不损失分辨率的情况下扩大模型的感受野范围。将编码图像通过并联的采用不同膨胀速率的空洞卷积层用于捕获多尺度信息，并将输出结果特征融合。

解码器对经过特征丰富模块后的特征进行解码和进行特征上采样尺寸恢复，解码器部分包含2个子部分，其中，运动分割解码器用于输出障碍物运动状态预测掩码，即二值的运动或者静止两种状态。语义信息解码器用于输出运动障碍物的语义预测掩码，最后输出带有语义类别的运动障碍物预测标签。通过增加语义预测掩码部分进而为准确输出运动状态预测掩码进行分割预测增益。

点云形式恢复模块结合保留的当前时间戳的点云投影图像所包含的像素坐标和经过非对称的编解码模块提取的特征信息，将特征信息恢复至点云数据形式(num_point，num_class)，得到障碍物分割的状态预测掩膜和语义预测掩膜。

步骤S400、根据所述障碍物分割的状态预测掩膜，确定障碍物的动静类别，并根据所述障碍物分割的语义预测掩膜，确定障碍物的语义类别。

具体地，障碍物分割的状态预测掩膜经过Softmax函数，并计算对应运动物体分割的动静类别概率，以输出障碍物的动静类别。障碍物分割的语义预测掩膜经过Softmax函数，并计算对应运动物体分割的语义类别概率，以输出障碍物的语义类别。障碍物的语义类别包括车，大楼，可驾驶区域等，共19个类别。

相比于现有技术，本发明具有如下优点：

本发明所提出方法为端到端检测网络方法，我们的网络的输入是来自3D激光雷达的多个连续时间戳的点云数据，输出是当前时间戳的逐点级运动障碍物掩模，一站式实现分割任务，非行业使用者可以不必了解本发明方法的内部结构设计，直接应用于实际问题。

本发明只需要对关键帧进行检测，满足自动驾驶对于实时性的要求。

本发明有效提出了连续时间戳点云数据包含时序信息的帧间残差计算方法，在不增加模型计算参数的同时提供了薄弱注意力机制的特征提取能力，有效表征不同时间戳下帧间差异和运动障碍物的空间信息。

本发明提出的一种运动障碍物分割检测的识别方法，基于当前时间戳和过去时间戳的信息采取融合方式，并结合非对称的编码器和解码器结构充分提取点云时序和空间信息特征，可以在保留点云边缘信息的同时获取高层语义信息。

本发明的方法可以推广到同步定位和动态交通环境下的导航规划等下游任务，因为这些下游任务需要依赖于动静态物体的位置和信息做出相应决策。

分割网络模型采用如下步骤进行训练得到：

S1、整理数据集Semantic KITTI数据文件，获取待处理的原始Semantic KITTI数据集中点云数据前后连续的若干个关键时间戳。

S2、对点云数据进行预处理，将所获取的点云数据依次进行自运动估计、BEV投影，并保留所有点云的投影图像的像素坐标和相应特征值，进而计算帧间差异特征。

S3、构建分割网络模型。

S4、设计分割模型损失函数、利用反向传播算法优化更新分割网络模型中各个层的模型参数，以训练步骤S3构建的分割网络模型。

S5、应用分割网络模型对待测试数据进行模型测试。

S6、输出障碍物分割的状态预测掩膜和语义预测掩膜，完成自动驾驶场景下运动障碍物的分割识别。

在步骤S1中，Semantic KITTI数据序列文件在进行实验分析之前，使用公开的00-21序列，并按照常见分配比例划分确定训练集、验证集和测试集文件。例如，00-10条序列文件含有公开真实值，其中00-07和09-10条用于训练，08序列用于验证，11-21序列则用于测试，点云数据形式为(num_point，4)。

在步骤S4中，基于预测掩膜(即状态预测掩膜和语义预测掩膜)和目标掩膜更新模型参数，构建最佳分割模型。根据预测掩膜和目标掩膜计算损失函数值，在所构建分割模型反向传播，更新所述模型的各个层的模型参数。计算模型预测掩膜的损失值，输出分割结果。交叉熵函数作为模型的损失函数的一部分。同时由于本发明任务为分割任务，引进Lovasz Softmax函数，在计算模型的运动障碍物的分割损失的同时，引入语义分割损失。因此相应总体损失函数计算公式为，

Loss＝L_semantic+L_moving+L_ls

其中，Loss为总体损失函数，L_semantic为语义交叉熵损失函数，L_moving为运动障碍物损失函数。由于点云数据中动静态物体比例严重失衡，在计算损失函数时，将环境中不同类别物体所占比例的倒数作为相应障碍物类别的损失计算的权重系数，从而缓解类不平衡问题。

在BEVMos网络训练和模型参数更新时所用到的参数、函数设置如下：

选用随机梯度下降优化器训练网络，为了获得合适的学习率，应用学习率衰减策略，学习率初始值为0.001。为了避免过拟合，应用权重衰减方法，其系数设置为0.0001。

本发明实例中，以精度ACC、交并比IoU和网络推理时间指标作为选择体素大小的衡量标准，其中IoU用于量化目标掩膜和预测掩膜之间的重叠百分比，即目标掩膜和预测掩膜之间的公共区域的像素个数与两者总的像素个数的比值，计算公式如下：

其中，IoU表示交并比，target∧prediction表示目标掩膜target与预测掩膜prediction之间的公共区域的像素个数，target∪prediction表示目标掩膜target与预测掩膜prediction的总的像素个数。根据评价指标从而获得最终训练好的分割网络模型。

基于上述任意一实施例的基于激光雷达的自动驾驶运动障碍物分割方法，本发明还提供了一种计算机设备的实施例。

本发明的计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

基于上述任意一实施例的基于激光雷达的自动驾驶运动障碍物分割方法，本发明还提供了一种计算机可读存储介质的实施例。

本发明的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于激光雷达的自动驾驶运动障碍物分割方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于激光雷达的自动驾驶运动障碍物分割方法，其特征在于，所述非对称的编解码器包括：编码器、上下文信息模块、运动分割解码器以及语义信息解码器；所述特征信息数据包括：障碍物运动状态预测掩码和运动障碍物的语义预测掩码；

将所述融合特征输入所述编码器，得到编码特征；

将所述编码特征输入所述上下文信息模块，得到特征图像；

3.根据权利要求2所述的基于激光雷达的自动驾驶运动障碍物分割方法，其特征在于，所述上下文信息模块包括：四个并行的膨胀卷积层，四个并行的膨胀卷积层的膨胀速率分别为6、12、18和24；

4.根据权利要求1所述的基于激光雷达的自动驾驶运动障碍物分割方法，其特征在于，所述根据若干连续时间戳的时序点云数据，确定各时间戳的帧间差异特征信息，包括：

5.根据权利要求4所述的基于激光雷达的自动驾驶运动障碍物分割方法，其特征在于，所述帧间差异特征信息为：

6.根据权利要求1所述的基于激光雷达的自动驾驶运动障碍物分割方法，其特征在于，所述基于激光雷达的自动驾驶运动障碍物分割方法，还包括：

7.根据权利要求1所述的基于激光雷达的自动驾驶运动障碍物分割方法，其特征在于，所述训练好的分割网络模型在训练时基于总体损失函数更新分割网络模型的模型参数；所述总体损失函数为：

Loss＝L_semantic+L_moving+L_ls

8.根据权利要求1所述的基于激光雷达的自动驾驶运动障碍物分割方法，其特征在于，所述训练好的分割网络模型在训练时基于精度、交并比以及网络推力时间进行评价；其中，交并比为：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。