CN115170585A

CN115170585A - 三维点云语义分割方法

Info

Publication number: CN115170585A
Application number: CN202210816104.4A
Authority: CN
Inventors: 王晖杰; 田昊; 李嘉玮; 卢乐炜; 李弘扬; 代季峰; 乔宇
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-10-11
Anticipated expiration: 2042-07-12
Also published as: CN115170585B

Abstract

本发明提供了一种三维点云语义分割方法，包括：建立融合多种点云表达方式的神经网络；采用经过体素化处理的多帧点云作为神经网络输入；通过神经网络结合神经网络输入信息的图像信息和时序信息，进行三维点云语义分割；以及通过聚类算法对三维点云语义分割结果进行后处理。

Description

三维点云语义分割方法

技术领域

本发明涉及人工智能技术领域，特别涉及一种三维点云语义分割方法。

背景技术

近年来，伴随着科学技术的发展与设备应用层面的更新迭代，自动驾驶已经逐步走进人类的生活当中。各大汽车主机厂、高校、研究所、高新科技企业都纷纷将自动驾驶相关的软硬件技术落地作为工作的重心。感知环节是自动驾驶中最重要的环节之一，它充当了自动驾驶的“眼睛”。感知环节主要涉及到激光雷达、毫米波雷达、摄像头等传感器设备的应用，它能够检测周围环境的信息，并送入后续的流程以供一系列分析和决策。自动驾驶场景中的感知环节离不开以深度学习为骨架的感知算法。深度学习是一项重度数据依赖的工作，训练一个效果好，精度高，泛化性强的感知模型往往需要大量的有标签数据。在这个环节中，如何高效、快速地获得大量有标签数据、提高数据标注的效率是一个至关重要的问题。对于进一步推进自动驾驶领域的发展，数据标注的重要性不言而喻。

综上所述，对于环境的正确感知对于自动驾驶任务来说十分重要，这决定了网络能否对其所处的环境作出正确的感知并基于此作出正确的决策。但目前的自动驾驶环境感知存在准确度和精度较低的问题。

发明内容

本发明的目的在于提供一种三维点云语义分割方法，以解决现有的自动驾驶环境感知存在精度较低的问题。

为解决上述技术问题，本发明提供一种三维点云语义分割方法，包括：

建立融合多种点云表达方式的神经网络；

采用经过体素化处理的多帧点云作为神经网络输入；

通过神经网络结合神经网络输入信息的图像信息和时序信息，进行三维点云语义分割；以及

通过聚类算法对三维点云语义分割结果进行后处理。

可选的，在所述的三维点云语义分割方法中，还包括：

通过点云的多种表达方式，弥补在体素空间的分辨率不足及在点空间的感受野不足；以及

通过不同的体素空间划分方式，弥补远处点云的稀疏。

可选的，在所述的三维点云语义分割方法中，还包括：

通过将点分支和多种体素划分方式的体素分支进行结合，进行三维点云语义分割；

通过引入神经网络输入信息的图像信息和时序信息，提升三维点云语义分割的语义分割结果精度；以及

基于聚类对三维点云语义分割结果进行后处理，进一步提升所述语义分割结果精度。

可选的，在所述的三维点云语义分割方法中，还包括步骤一：

采集每帧点云和二维图像，通过投影关系将二者数据集中并对应；

通过投影关系获取点云和二维图像的空间对应关系；

通过额外训练的二维图像语义分割网络，获得二维图像的语义分割结果；以及

通过投影关系、以及二维图像的语义分割结果获取对应点云的类别信息，将类别信息通过one-hot编码作为点云的额外特征维度。

可选的，在所述的三维点云语义分割方法中，所述步骤一还包括：

通过多帧点云拼接引入时序信息；

将一帧点云作为网络的输入，将该帧点云前五帧的点云和后五帧的点云作为额外的神经网络输入信息，增加一维特征维度表示相对于当前帧的相对时间信息；

基于引入多帧点云导致增加点云数量、降低网络效率或造成内存溢出错误，对神经网络输入的当前帧和前五帧的点云和后五帧的点云进行体素化处理，以降低点的数量；以及

体素化后的体素当作点，以作为神经网络输入信息。

可选的，在所述的三维点云语义分割方法中，还包括步骤二：

经过步骤一处理的点云作为神经网络输入信息；

所述神经网络包括中间的点分支，通过多层感知器进行运算，以保持点云的分辨率不变，不含有下采样和上采样运算；

所述神经网络还包括两个体素分支，分别为笛卡尔式体素划分分支和圆柱体式体素划分分支，以增加网络感受野和缓解点云不均匀；以及

两个体素分支均通过稀疏卷积进行运算，均为UNet结构，在运算过程中共用四次下采样和上采样运算。

可选的，在所述的三维点云语义分割方法中，所述步骤二还包括：

在神经网络运算过程中，体素分支分别在不同阶段与点分支进行信息交互；

点分支的特征和体素分支中的特征进行加法运算；

体素和点的对应关系通过其三维空间坐标确定；以及

两个体素分支上的特征被添加至点分支上，再通过多层感知器进行点的分类运算。

可选的，在所述的三维点云语义分割方法中，还包括步骤三：

通过聚类的方式避免物体上的少数点被分类成别的类别；以及

通过追踪的方式确保同一物体在一段时间内的连续帧中具有分类的连续性，避免同一物体在不同的帧中被分类成不同的类别。

可选的，在所述的三维点云语义分割方法中，还包括：

通过提高平均交并比，预测出更加准确的三维点云语义分割结果。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据如上所述的方法的步骤。

在计算机视觉领域，基础任务主要包含分类、检测及分割。语义分割任务的目的在于为二维空间图像中的每个像素点或三维空间点云中的每个点进行分类，能够获得高分辨率的每个点的分类结果。现有针对室外场景的语义分割神经网络基于体素化的前处理，将三维空间划分成整齐的体素，若同一个体素内含有多个点，则通过池化运算和投票算法分别获得该体素的特征和标签。本发明的发明人注意到，主干网络为基于稀疏卷积的神经网络，对体素进行分类。体素化的方法会对三维空间的分辨率造成损失，在对体素分类后再进行点的分类，会造成被划分到同一个体素内的点都被预测成相同的类别。

另外，在体素化过程中，除了将空间笛卡尔式划分，还可以将三维空间的笛卡尔坐标系变换成圆柱体坐标系，并且将三维空间进行圆柱体式的体素化划分。这种圆柱体式的划分方式可以使得距离自车较近的体素较小，距离自车较远的体素较大。由于点云的密度是近密远疏的，这种圆柱体式的划分方式可以减少非空体素的数量，也可以使得每个体素内包含的点的数量更加均匀。

进一步的，除了在体素空间中的神经网络，现有工作也在点空间中进行分割任务。给定网络的输入为点的坐标和特征，网络通过最远点采样和最近邻聚类的方法使用多层感知器对点云进行特征提取和下采样。网络输出则直接为每个点的分类结果。但本发明的发明人通过研究发现，由于计算资源有限，基于点空间的网络通常只适用于室内环境。在室外环境中，由于只使用感受野十分有限的计算方式，基于点空间的网络在分割任务上的精度较低，速度与基于体素空间中的网络相比也较慢。

学术界现有技术方案中较为先进的网络包含，基于体素空间中的SPVCNN和Cylinder3D和基于点空间中的Point Transformer。

本发明的发明人还发现，SPVCNN中有点分支和体素分支，但体素分支为笛卡尔式划分的体素，无法解决点云近密远疏造成的远处点云分布不均匀的问题。Cylinder3D中通过圆柱体式的体素划分缓解了这个问题，但由于不包含点的分支，造成网络只能预测每个体素的分类结果，分辨率较低。

另外，现有三维空间点云语义分割网络通常只考虑使用单帧点云作为输入，没有考虑图像和时序上的信息，造成语义分割结果精度不高。

综上所述，现有的三维点云分割方法还存在一定局限性，需要在感受野和分辨率中进行取舍，对于室外三维点云语义分割精度不高，特别地对于长尾类别，较难得出正确的语义分割结果。本发明通过点云的多种表达方式，可以弥补在体素空间的分辨率不足及在点空间的感受野不足的问题，也可以通过不同的体素空间划分方式，弥补远处点云的稀疏问题。此外，现有方法较少考虑除点云外的图像和时序信息。本发明提出一个基于多种点云表达方式的神经网络，结合图像和时序信息，提高语义分割精度，并且提出一种基于聚类的后处理方法，进一步提升语义分割结果的精度。

基于以上洞察，本发明提供了一种三维点云语义分割方法，通过将点分支和多种体素划分方式的体素分支进行结合，并且通过引入图像信息和时序信息，提升语义分割结果的精度。本发明还提出一种基于聚类的后处理方法，进一步提升语义分割结果的精度。

附图说明

图1是本发明一实施例中的三维点云语义分割方法流程示意图；

图2是本发明一实施例中的三维点云语义分割方法的点分支和体素分支示意图；

图3是本发明一实施例中实施三维点云语义分割方法的计算机系统示意图。

具体实施方式

下面结合具体实施方式参考附图进一步阐述本发明。

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。

在本发明中，除非特别指出，“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外，“布置在…上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在…下或下方”，反之亦然。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本申请的公开范围或记载范围。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。

另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。

以下结合附图和具体实施例对本发明提出的三维点云语义分割方法作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

为实现上述目的，本发明提供了一种三维点云语义分割方法，包括：建立融合多种点云表达方式的神经网络；采用经过体素化处理的多帧点云作为神经网络输入；神经网络结合神经网络输入信息的图像信息和时序信息，进行三维点云语义分割；聚类算法对三维点云语义分割结果进行后处理。

图1～2提供了本发明的第一个实施例，其示出了三维点云语义分割方法的流程和三个分支示意图。

如图1所示，三维点云语义分割方法包括：建立融合多种点云表达方式的神经网络；采用经过体素化处理的多帧点云作为神经网络输入；神经网络结合神经网络输入信息的图像信息和时序信息，进行三维点云语义分割；以及聚类算法对三维点云语义分割结果进行后处理。

进一步的，通过点云的多种表达方式，弥补在体素空间的分辨率不足及在点空间的感受野不足；以及通过不同的体素空间划分方式，弥补远处点云的稀疏。通过将点分支和多种体素划分方式的体素分支进行结合，进行三维点云语义分割；通过引入神经网络输入信息的图像信息和时序信息，提升三维点云语义分割的语义分割结果精度；以及基于聚类对三维点云语义分割结果进行后处理，进一步提升所述语义分割结果精度。

具体的，包括步骤一：对于每帧点云，数据集中存在对应的图像。点云和图像的空间对应关系可以通过投影关系获取。即采集每帧点云和二维图像，通过投影关系将二者数据集中并对应。通过额外的训练好的二维图像语义分割网络，可以获得二维图像的语义分割结果。通过投影关系，可以通过二维图像的语义分割结果获取对应点云的类别信息，然后将类别信息通过one-hot编码作为点云的额外特征维度。

时序信息的引入通过多帧点云拼接实现。给定一帧点云作为神经网络(简称“网络”)的输入(即神经网络输入信息)，将该帧点云前后五帧的点云作为额外输入，并且增加一维特征维度表示相对于当前帧的相对时间信息。由于引入多帧点云会明显增加点云数量，降低网络效率或造成内存溢出错误，对于网络输入的十一帧(当前帧和前后五帧)点云进行体素化处理，以降低点的数量。体素化后的体素会被当作点，作为网络的输入。

步骤二，如图2所示，经过步骤一处理的点云作为网络输入(即神经网络输入信息)。网络具有三条分支。中间为点分支，通过多层感知器进行运算，目的是为了保持点云的分辨率。其它两条为体素分支，分别为笛卡尔式和圆柱体式的体素划分方式，目的是增加网络感受野和缓解点云不均匀的问题。两条体素分支均通过稀疏卷积进行运算，均为UNet结构，在运算过程中共用四次下采样和上采样运算。点分支的分辨率保持不变，不含有下采样和上采样运算。

在网络运算过程中，体素分支会分别在不同阶段与点分支进行信息交互。具体来说，点分支和体素分支中的特征会进行一个加法运算。体素和点的对应关系通过其三维空间坐标确定。在最后阶段，两个体素分支上的特征会被加到点分支上，再通过一层简单的多层感知器进行点的分类运算。

步骤三：在分割结果中可以发现，一些物体上经常出现少数点被分类成别的类别的问题。可以通过聚类的方式来减少这种情况的发生。再者，同一物体在不同的帧中有可能被分类成不同的类别。可以通过追踪的方式，来确保同一物体在一段时间上连续的帧中具有分类的连续性。

本发明具有更高的平均交并比(mean Intersection over Union)，能够预测出更加准确的三维点云语义分割结果，对自动驾驶任务有较大帮助。平均交并比为语义分割的标准度量。其计算两个集合的交集和并集之比，在语义分割的问题中，这两个集合为真实值(ground truth)和预测值(predicted segmentation)。这个比例可以变形为真正数(Intersection)比上真正、假负、假正(Union)之和。在每个类上计算交并比，之后平均。

本发明经过大量的消融和对比实验，验证了该发明的有效性。在Waymo公开数据集的三维点云语义分割比赛中，处于排行榜第一的位置。

本发明提出一种新的三维点云语义分割方法，通过将点分支和多种体素划分方式的体素分支进行结合，并且通过引入图像和时序信息，提升语义分割结果的精度。并且提出一种基于聚类的后处理方法，进一步提升语义分割结果的精度。

图3提供了本发明的第二个实施例，其示出了实现本发明的三维点云语义分割方法的计算机系统100。如非特殊说明，根据本发明的方法和/或系统可以在图3所示的计算机系统100中执行以实现本发明目的，或者本发明可以在多个根据本发明的计算机系统100中通过网络、如局域网或因特网分布式地实现。本发明的计算机系统100可以包括各种类型的计算机系统、例如手持式设备、膝上型计算机、个人数字助理(PDA)、多处理器系统、基于微处理器或可编程消费者电子设备、网络PC、小型机、大型机、网络服务器、平板计算机等等。

如图3所示，计算机系统100包括处理器111、系统总线101、系统存储器102、视频适配器105、音频适配器107、硬盘驱动器接口109、光驱接口113、网络接口114、通用串行总线(USB)接口112。系统总线101可以是若干种总线结构类型的任一种，例如存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。系统总线101用于各个总线设备之间的通信。除了图3中所示的总线设备或接口以外，其它的总线设备或接口也是可设想的。系统存储器102包括只读存储器(ROM)103和随机存取存储器(RAM)104，其中ROM 103例如可以存储用于在启动时实现信息传输的基本例程的基本输入/输出系统(BIOS)数据，而RAM104用于为系统提供存取速度较快的运行内存。计算机系统100还包括用于对硬盘110进行读写的硬盘驱动器109、用于对诸如CD-ROM之类的光介质进行读写光驱接口113等等。硬盘110例如可以存储有操作系统和应用程序。驱动器及其相关联的计算机可读介质为计算机系统100提供了计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。计算机系统100还可以包括用于图像处理和/或图像输出的视频适配器105，其用于连接显示器106等输出设备。计算机系统100还可以包括用于音频处理和/或音频输出的音频适配器107，其用于连接扬声器108等输出设备。此外，计算机系统100还可以包括用于网络连接的网络接口114，其中网络接口114可以通过诸如路由器115之类的网络装置连接到因特网116，其中所述连接可以是有线或无线的。另外，此外，计算机系统100还可以包括用于连接外围设备的通用串行总线接口(USB)112，其中所述外围设备例如包括键盘117、鼠标118以及其它外围设备、例如麦克风、摄像头等。

当本发明在图3所述的计算机系统100上实现时，可以通过将点分支和多种体素划分方式的体素分支进行结合，并且通过引入图像和时序信息，提升语义分割结果的精度。并且提出一种基于聚类的后处理方法，进一步提升语义分割结果的精度。

此外，可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，可以作为计算机程序产品下载各实施例，其中可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但这不是必需的。

综上，上述实施例对三维点云语义分割方法的不同构型进行了详细说明，当然，本发明包括但不局限于上述实施中所列举的构型，任何在上述实施例提供的构型基础上进行变换的内容，均属于本发明所保护的范围。本领域技术人员可以根据上述实施例的内容举一反三。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种三维点云语义分割方法，其特征在于，包括：

建立融合多种点云表达方式的神经网络；

采用经过体素化处理的多帧点云作为神经网络输入；

通过聚类算法对三维点云语义分割结果进行后处理。

2.如权利要求1所述的三维点云语义分割方法，其特征在于，还包括：

通过不同的体素空间划分方式，弥补远处点云的稀疏。

3.如权利要求2所述的三维点云语义分割方法，其特征在于，还包括：

4.如权利要求3所述的三维点云语义分割方法，其特征在于，还包括步骤一：

通过投影关系获取点云和二维图像的空间对应关系；

5.如权利要求4所述的三维点云语义分割方法，其特征在于，所述步骤一还包括：

通过多帧点云拼接引入时序信息；

体素化后的体素当作点，以作为神经网络输入信息。

6.如权利要求5所述的三维点云语义分割方法，其特征在于，还包括步骤二：

经过步骤一处理的点云作为神经网络输入信息；

7.如权利要求6所述的三维点云语义分割方法，其特征在于，所述步骤二还包括：

点分支的特征和体素分支中的特征进行加法运算；

体素和点的对应关系通过其三维空间坐标确定；以及

8.如权利要求7所述的三维点云语义分割方法，其特征在于，还包括步骤三：

9.如权利要求1所述的三维点云语义分割方法，其特征在于，还包括：

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据权利要求1-9之一所述的方法的步骤。