CN112560865B

CN112560865B - 一种室外大场景下点云的语义分割方法

Info

Publication number: CN112560865B
Application number: CN202011532812.2A
Authority: CN
Inventors: 冯建江; 周杰; 刘宗健
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-08-12
Anticipated expiration: 2040-12-23
Also published as: CN112560865A

Abstract

本发明提出一种室外大场景下点云的语义分割方法，属于3D点云图像处理领域。本发明的语义分割网络，采用编码器‑解码器方式处理大场景下语义分割任务，能够一次性处理所有点云，首先在共享的全连接层提取输入点特征后，通过带有降采样的编码器学习对输入点云进行特征聚合，而后利用解码器将抽象后的特征进行特征恢复和上采样，再通过一层共享的全连接层，得到每个点云的分割结果。本发明可以广泛应用于各种大场景下的点云图像语义分割任务，方法简单，分割效果好，有很高的应用价值。

Description

一种室外大场景下点云的语义分割方法

技术领域

本发明涉及3D点云图像处理领域，特别提出一种室外大场景下点云的语义分割方法。

背景技术

在现实中，点云的语义分割具有非常丰富的意义，尤其是随着人工智能的异军突起，实时智能系统亟需语义的解释。在无人车驾驶等户外大场景下的应用中，图像信息更多是由激光雷达扫描而来，通过对于采集到的信息进行分割等整合操作，可以使得车辆快速的适应当前的道路，对周围环境及突发状况进行实时的感知，帮助机器更好地服务人类。在信息爆炸的时代中，高效率表达信息的3D点云逐渐变成了成熟的数据传递形式，激光雷达等三维扫描设备收集到的点云显式编码了来自传感器的所有信息，没有像体素表达一样在量化上损失，这对于场景的端到端高效学习是有优势的。由此可见，大场景下点云的语义分割拥有丰富的研究价值。

基于点云图像的语义分割研究在近两年成为主流，以编码器-解码器为主要架构的思路依然是语义分割的基本范式。一般性的的语义分割结构由一个编码器网络和一个解码器网络组成：编码器一般是预先训练好的一个分类网络，解码器的目标则是将编码器逐步学习到的低分辨率语义特征，一步步扩展到高分辨率的像素空间中，最后得到一个密集预测。密集预测需要知道每个点的信息，因此在此基础上又有了新的改进思路，一种是在编码器-解码器之间加入直接的信息连接，可以帮助上采样的过程中尽量恢复特征细节，为了尽量保留局域特征，将收缩路径的高分辨率特征与上采样的对应输出结合到一起，允许将上下文信息传播到更高的层；另一种思路是加入扩张卷积的结构，去除基本的池化操作，在标准卷积核中加入空洞，不牺牲特征图尺寸及空间维度的前提下增加了模型的感受野。

虽然基于卷积的深度学习在处理图像等应用中已经比较成熟，但这种方法不能直接应用在点集上，主要有以下三点困难：

A)不同于像素，点集具有无序性，且点之间的距离信息是无法被显示利用的，应用深度学习时，局域上下文的的信息(包括几何特征)都无法被捕捉。一种尝试将三维点云转换为二维的格式进行后续操作，但是很明显损失了大量的细节，有时不得不进行表面重建，南辕北辙；将点云转化为3D网格形式的思路，体素化的表达效率很低，使得数据变得不必要的庞大，冗杂而繁琐。

B)点云采集具有不规则性，即3D扫描出来的点有明显的密度不均匀和噪声等特点。而在Pointnet++中采用的分层思路，每一层都递归的采用最远距离法进行采样，这在大规模点云中是非常耗时的，不可能做到实时分割。

C)研究点云分割的几种深度学习方法几乎都无法适用于大规模点云，原因在于这些方法依赖于计算量很大的采样技术和复杂的预处理步骤，且不考虑开销巨大的专用神经模块，单是一次性给百万个点进行采样都已经远远超过预算的时间，这和我们的初衷相悖。

分层循环的采样、分组、特征提取是不可行的，这在计算效率上是低下的，而且层数限制的分组和分云块的预处理方法都在根本上限制了感受野的扩增，这种特征学习天然的导致无法捕捉复杂宏观结构。另外采样实验也提示我们，分割效率的提升不应从复杂化采样手段入手，反而应该尽可能减少采样的时间代价，在特征学习模块进行设计，逐步提高感受野。

因此我们需要考虑新的采样法及特征提取思路，其必须是轻量级的，能够单次处理百万点的同时有更快的速度；同时也要是精细的，可以有效学习局部特征及保留局部几何结构，最终有可接受的分割准确性。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种室外大场景下点云的语义分割方法。本发明完善出的新型轻量级网络，在形态上保留了以往网络中编码解码、逐层降采样、逐层扩大局域信息增加语义特征的基本思路，在神经组件中只保留共享参数的多层感知器(MLP)，在点卷积过程中逐步增加视野并聚合特征，方法简单，分割效果好，有很高的应用价值。

本发明提出一种室外大场景下点云的语义分割方法，该方法分为训练阶段和应用阶段，其特征在于，该方法包括以下步骤：

1)训练阶段；

1-1)获取点云训练集；

获取室外大场景下的点云作为训练集，其中训练集中每个点均包含对应的三维坐标，以及该点对应的分类标注结果；

1-2)建立语义分割网络并进行训练，得到训练完毕的语义分割网络；

所述语义分割网络包括依次连接的第一全连接层、编码器层、解码器层和第二全连接层；

语义分割网络的输入为一个批次的维度为N*d的点云，其中，N是该批次所有点的总数，d是该批次中每个点的特征维度；将该批次的点云输入到第一全连接层，得到输入的每个点更多维的特征，然后输出到编码器层；

编码器层每一层对输入的点云进行特征聚合和降采样；每一层特征聚合中，对每一点附近的K个点进行特征的显式编码，并利用注意力机制进行特征聚合，输出四倍维数的聚合点特征；每一层的降采样则对该层完成聚合点特征学习的点进行降采样，每经过一层保留25％的点，其中前两层采用随机采样法，后两层采用逆密度采样法进行采样；

编码器层的输出点云进入解码器层进行特征恢复和上采样，每经过一层特征恢复，聚合点特征维数下降为四分之一；每一层上采样后，点数恢复为输入的点数的四倍；其中，上采样采用考虑到距离权重的类近邻插值，对附近的k’个点进行加权特征；

解码器层的输出结果通过共享的第二全连接层连接到(N,class)，其中class代表待分类的类别总数，得到输出的每个点及该点对应的每个类别的概率，其中概率最高的分类即为语义分割网络输出的该点的分类预测结果；

将每个点的分类预测结果和该点对应的标注结果相对比，利用考虑不同类别点数分布的修改交叉熵损失函数，反传训练网络，训练前向传递的概率类别和标注的差距小于设定阈值且稳定时停止训练，得到训练完毕的语义分割网络；

2)应用阶段；

2-1)获取待进行语义分割的点云；

2-2)将步骤2-1)获取的点云输入步骤1)训练完毕的语义分割网络，该网络的输出对应输入点云中每个点的分类预测结果，该分类预测结果即为步骤2-1)获取的点云最终的语义分割结果。

本发明的特点及有益效果在于：

给定室外大场景下的三维点云图像，本发明能够相对高效准确的实现点云图像的语义分割。本发明中，首先用随机采样为主、逆密度采样为辅的降采样方法取代常见的最远点采样法，保证不丢失太多语义信息的前提下大大降低网络的时间消耗，同时一定程度地克服采样点有噪声及密度不均匀的天然缺陷；而后利用新的基于点集的卷积方法直接处理点，用共享权重的MLP学习特征，并加入扩张卷积以扩大感受野，在特征聚合和上采样解码时均采用注意力机制，自动捕获邻域点特征，以获得更准确的局部信息和几何特征。本发明中，损失函数采用加权的自适应损失函数，根据训练的数据类别比例确定权值，更好的适应数据集中可能存在的不同类点数量分布不平衡的问题。本发明的分割系统在大型基准数据集上有更高的准确性和更快的处理速度，体现了实时准确的优势。

本发明可以广泛应用于各种大场景下的点云图像语义分割任务，在面向室外的智能系统中，可以对系统采集的输入点云进行实时的分割处理，从而可以相对准确的了解三维世界的构造，并对此做出理智的判断和下一步动作；类似的，在实际的无人车驾驶中，需要兼顾效率和准确率，尽量避免来不及做出反应或做出误判这两类常见错误，在以往的研究和发明中，通常习惯堆叠卷积层或其他复杂的算法尽量提高分割准确率，却忽略了实际应用中对分割速度的需求，本发明抛弃时间代价高的降采样算法和特征提取算法，强调在时间和准确度的平衡中寻求一种最适应的算法，得到更为理想的分割效果。

附图说明

图1为本发明方法的整体流程图。

图2为本发明实施例中基于点的扩张卷积原理图。

图3为本发明实施例中基于注意力机制的特征聚合原理图。

图4为本发明实施例中分割结果示意图。

具体实施方式：

本发明提出一种室外大场景下点云的语义分割方法，下面结合附图和具体实施例对本发明进一步详细说明如下。

本发明提出一种室外大场景下点云的语义分割方法，整体流程如图1所示，该方法分为训练阶段和应用阶段，包括以下步骤：

1)训练阶段；

1-1)获取点云训练集；

获取室外大场景下的点云作为训练集，训练集的点云可自行获取或采用现有的点云数据集；大场景尤其针对室外采集到的覆盖百米左右的点云图，通常每一帧至少几万个点。其中训练集中每个点均包含对应的三维坐标，以及该点对应的分类结果(标注)。

在本实施例采用的激光雷达扫描的数据集Semantic KITTI中，我们按照官方说法选取其中的00-07及09-10场景用于训练，08场景用于验证比较。对采集好的户外点云数据已有成熟的处理软件，对点云文件ASCII进行读取。文件中以二进制的形式表达点的标签，共32位，后16位是它的标签，前16位是编码实例id，这在整个场景中是和扫描时间一致的(平均0.1s一个)。从点云中抽取约106固定数量的点作为输入，其特征只有每个点三维坐标。

本发明中的语义分割网络包括依次连接的第一全连接层、编码器层、解码器层和第二全连接层；其中，编码器层和解码器层各包括四层；在编码器层的每一层包含了一次特征聚合和一次降采样，特征聚合的方式为加入扩张卷积的点卷积，同时利用注意力机制来进行特征选择和聚合，输出对应的抽象特征图；而解码器层的每一层则用于对从编码层输出的抽象特征图进行特征维度和点数的恢复，在解码器层利用类似的注意力机制进行上采样，使用距离作为权重，同时邻域点数量进行变化，直至输出到第二全连接层的点云恢复到与输入第一全连接层的点云一致的特征维度和点数。

对于某一批次输入维度为N*d的点云，其中，N是该批次所有点的总数，d是输入点云中每个点的特征维度，在此实施例中d＝3(对应每个点的三维坐标)，将该批次的点云输入到共享参数的第一全连接层，该第一全连接层用于抽象每个点更多维的特征，本实施例中，经过第一全连接层后，输入的点云的维度从3维增加到了16维。

从第一全连接层输出的结果进入编码器层，在编码器层每一层的特征聚合中，首先对每一点附近的K(K为预设邻域点个数，平均取为16)个点进行特征的显式编码(卷积)，并利用注意力机制进行特征聚合，形成固定四倍维数的聚合点特征(本实施例在编码器层，每经过一层特征提取，聚合点特征维数依次变为16*4，64*4，256*4及1024*4)，从而自动学习到局域的几何特征。

在编码器层的每一层，对学习到特征的点进行直接降采样，每经过一层保留25％的点，其中前两层采用随机采样法(直接调用numpy.random.choice()来生成随机索引，从而可以调用对应的坐标及点特征)，后两层采用逆密度采样法进行采样(近似定义到指定点最近的m个点的距离之和为ρ，其中参数m按照点云疏密自定义，按照密度ρ小到大选择固定数量的采样点)。

编码器层的四层网络中交替经历特征聚合和降采样，最终得到点数大幅减少，但维数相应丰富的输出点云。

编码器层的输出点云随后进入解码器层进行特征恢复和上采样，解码器层的每一层和编码器层完全对应，本实施例解码器层每经过一层特征恢复，聚合点特征维数依次变为1024，256，64及16，而每一层上采样后，点数恢复为输入的点数的四倍；其中，上采样采用考虑到距离权重的类近邻插值，对附近的k’个点进行加权特征(k’是插值的邻域点个数，随点数增加而减小，实施例中解码器层每一层按顺序k’分别取值为5、4、3、2)，距离较远的邻域点权重较小，权重定义和距离成反比。

解码器层的输出结果通过共享的第二全连接层连接到(N,class)，其中class代表待分类的类别总数，得到输出的每个点及该点对应的每个类别的概率，其中概率最高的分类即为语义分割网络输出的该点的分类预测结果。

将每个点的分类预测结果和该点对应的标注结果相对比，利用考虑不同类别点数分布的修改交叉熵损失函数，反传训练网络(初始学习率为0.01，每个epoch之后降低5％)，训练前向传递的概率类别和标注的差距小于阈值且较为稳定时停止训练，得到训练完毕的语义分割网络。

2)应用阶段；

2-1)获取待进行语义分割的点云：在自动获取与训练集某个相似场景中物体表面大量点的信息后，用固定的文件格式输出点云数据，从而可以在此基础上对点云文件ASCII进行读取。

本发明中编码器层的特征聚合方法，不同于像素级别的众多卷积方式，基于点云的卷积方式较为单调，且存在明显缺陷。这里我们引入对非均匀采样的点云进行高效的卷积操作，在功能上模仿CNN的效果。不同于图像可以在固定网格限制内定义卷积核，点云更加自由和无序，因而这种卷积具有排列不变性，不同的顺序并不影响卷积结果，此时我们定义核为局域点的个数，通过每个点p_i附近的邻域N_i来定义新的卷积，这也是离散卷积的一种推广。

其中函数f可以理解为特征函数，是每个d维点映射的特征。核函数g()是基于当前操作点pi和其邻域点pk的相对位置进行参数学习的多层感知器MLP。

深度网络的感受野会决定输出结果，对于分割来说，要为每个点分配语义标签，每个输出点会受到其感受野内点的影响，其他的点不参与决策，因此扩大上下文信息是很有必要的。一般的方法可以用多个卷积层进行叠加或者增加卷积核的大小，这里就是增加邻域的k值，这都会导致计算量的变化。本发明模仿图像处理中在标准卷积中加入空洞来增加模型的感受野，在不牺牲特征图尺寸的前提下扩大了感受野，基于点提出的扩张点机制，如图2，(图中对点p0进行操作，在对距离进行编码后，选用卷积的邻域点跳过了一半点，箭头表明点p2、p4和p6进行卷积，g和f的定义如上)，只是在邻域点的选择上加入空洞，比如原本只选择最近的k给点做卷积，现在加入参数d(类似于dilation rate),选择点变为距离d、2d、3d……kd的近邻点，在参数数量上改动很小，且可以集成的加入现有点卷积网络中。

为了可以真正学习到不同点的相对位置和几何关系，我们将特征定义为一系列局域信息的编码连接，除了本身点的三维坐标，还加入了到最近邻点的相对坐标，及其欧氏距离。因为点在空间中是无序的，但是对空间中任意一点来说，周围所有的点的重要程度并不是一样的，这才构成了宏观物体的丰富的几何结构。因此从自然语言处理领域对解码器-编码器的attention模型进行借鉴，在输出时学习其不同的注意力，从而给后续的输出提供不同的关注。

基于特征的注意力机制描述如下：目标是对某一数量的元素集合A{x₁,x₂……x_N}进行特征聚合成为单一的固定维数的输出y。而后寻找可学习权重W的一个聚合函数f，根据点的特点这里的f要求有排列不变性，最大池化、平均池化等只是W为空集的一个特殊情况，而通过学习权重得到针对性的注意力机制是一个更有效的、保留更多信息的池化操作。基本思路为在特征集合中每个特征学习一个注意力分数，这个分数可以看做mask自动选择重要的特征，再求和。注意力分数的计算如下：

其中c时注意力激活集合，其中包含N维向量，c_n ^d表示第n维向量的第d项，s是对其进行归一化后的注意力分数，定义方式相同，上式展示的是每一维对应的归一化过程。如图3(A就是待聚合的有N个点的特征集合，C为学习出的和重要性相关的注意力激活集合，依然是N维，而后经过上式softmax过程进行归一化，得到形式维度相同的注意力分数集合，最后和A中对应的特征加权求和即得到新的特征集合，对每一维的同一位置进行加和合并得到最终聚合特征y)，特征集合经过一个共享参数的函数g，如全连接层，得到学习好的元素为激活向量的C集合，在每一维上对集合里N个元素进行softmax归一化，得到的集合为权重分数，进而加权求和得到聚合的特征y(D维)。这个前馈神经模块自动学习聚合输入的特征集，经过证明该聚合方式具有元素置换不变性，是一种适用于点集的池化操作。

本发明在解码器层上采样的过程中，对于最近邻差值法进行改进，原方法对于新增的插值点，利用kNN找到离它最近的一个特征点，然后根据它们对应的ID直接复制相应的特征。利用这种方法来增加对应维度的点数的方法，效果非常粗糙，会有较大程度的失真。结合编码过程中采用的加入扩张的注意力机制卷积的改动方法，为了在大量点云中找到局部信息以及空间的几何关系，在上采样中尽量恢复出局部信息，我们在保证内存不会有太大的增加前提下，选取的插值邻域点不是直接找到最近的点，而是找k’个近邻点。得到这些点的信息及到中心点的距离，仿照注意力机制加入权重，这里的权重直接和距离相关，随着距离的变大这个权重减小。因此权重定义为：

其中d为距离，s为参数，同样对k’个点特征加权求和并要归一化。

在之前编码的时候特征聚合的近邻点个数K是固定的。本发明考虑让K是一个变化的数值，在浅层的特征提取时，K比较小(取为14)，而随着点数的逐渐减少和层数的增加，近邻点k数应该增加(15、16、17)。相应的解码的时候，近邻点k’也应该随着点数的增加而减少，且这个点数应和对应编码层的k有正相关的关系。

在分割中输入的数据通常不同类型的点数量分布不平衡，所以我们对于原交叉熵损失函数进行修改，引入一种加权的新的自适应损失函数，这里的损失函数并不将类别的权重固定化，而是根据训练的数据类别比例确定权值。对于标签数据集合S来说，不同类别对应的损失权重定义为：

其中S是整个标签数据集合的点数，S(i)是第i种分类类别的点数数量，w(i)是二者的比值，定义为类别权重。该类别点数数量越多权重越低。

训练时加权的交叉熵损失函数定义为：

其中L(i)是第i类的预测与真实标签的交叉熵，对于类别i进行损失的加权求和，每一层中固定了损失函数的权重。

图4展示了本发明的分割算法的输出结果。

Claims

1.一种室外大场景下点云的语义分割方法，该方法分为训练阶段和应用阶段，其特征在于，该方法包括以下步骤：

1)训练阶段；

1-1)获取点云训练集；

2)应用阶段；

2-1)获取待进行语义分割的点云；