CN115496910A

CN115496910A - 基于全连接图编码及双重扩张残差的点云语义分割方法

Info

Publication number: CN115496910A
Application number: CN202211384104.8A
Authority: CN
Inventors: 王庆栋; 王腾飞; 孙钰珊; 艾海滨; 张力
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2022-12-20
Anticipated expiration: 2042-11-07
Also published as: CN115496910B

Abstract

基于全连接图编码及双重扩张残差的点云语义分割方法，首先输入原始点云，然后进行编码，首先进行逐层下采样，使用递进的双重扩张残差模块不断扩大感受野获得更好的局部上下文信息，提取点云高维特征，使用局部全连接图特征聚合的方法确保局部邻域特征能够获得完整编码；在解码阶段，通过上采样模块逐层恢复原始点云密度，并在最后一层编码层使用全连接层进行特征维度转换，最后输出语义分割结果点云。本发明使得点云的语义分割更为快速准确，分割性能优于相关网络；使得网络能够更完整的学习局部上下文特征，对于规则分布目标以及大目标具有很好的分割效果；增强小样本物体点云语义分割精度。

Description

基于全连接图编码及双重扩张残差的点云语义分割方法

技术领域

本发明涉及点云语义分割，具体的，涉及一种基于全连接图编码及双重扩张残差的点云语义分割方法，特别适用于室内点云的语义分割。

背景技术

现有技术的点云语义分割方法主要是基于深度学习的点云语义分割方法。

基于深度学习的点云语义分割主要分为基于体素、基于点卷积与基于图神经网络的方法。

基于体素方法：受到2D卷积网络影响，一些方法尝试将点云体素化，再采用3D卷积核进行处理。3DCNN被提出并进行体素分割，同一体素内的点被赋予同一个语义标签。为了更精细化语义分割，SEGCloud网络被提出，该方法结合了3D-FCNN、三线性插值（TI）和全连通条件随机场（FC-CRF）的优点。虽然诸多学者提出针对体素化方法存在的不足进行了多方面的改进，但其导致的信息损失、显存占用大、计算量大的问题始终难以适用于各种大型复杂场景。

基于点卷积方法：由于点云的无序以及不规则特性，不经过体素化，难以应用标准CNNs。针对这一难点， PointNet网络框架被提出，该框架通过共享的多层感知器与对称池化技术学习点特征与全局特征，PointNet作为开创性的工作，解决了点云稀疏性、置换与旋转不变性问题。为了改进pointnet在局部特征方面学习能力的不足，Pointnet++，pointsift，pointcnn等重要的工作被提出。但是这种方法语义分割准确率仍然较低，且只能输入固定少数点，无法对整体室内场景进行语义分割。

基于图神经网络的方法：GNN专注于非结构数据，很多学者尝试将图卷积技术GCN引入点云语义分割中，与基于单点卷积的方法不同，图卷积方法不仅考虑到单点还顾及到点与邻域点的边，所以，其能够好的学习点云特征。相关的研究有DGCNN、SPG等，但是这些方法往往需要较高内存，计算速度慢。

因此，上述的点云语义分割方法普遍存在高噪声和不完整点云场景下准确率低、鲁棒性差；仅关注与中心点有关联的边特征和点特征，忽略了邻域点间的关系特征，局部上下文特征并未得到全面描述；对于点的分割网络，随着网络的加深，会出现梯度消失和过平滑问题，造成网络难以训练等问题。

如何解决现有技术中存在的点云语义分割的缺点，成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提出一种基于全连接图编码及双重扩张残差的点云语义分割方法，提升低质量点云场景下分割鲁棒性与准确率，提升语义分割网络上下文特征学习能力，缓解深层图网络导致的梯度消失与过平滑问题

为达此目的，本发明采用以下技术方案：

一种基于全连接图编码及双重扩张残差的点云语义分割方法，其特征在于，包括如下步骤：

原始点云数据输入步骤S110：

输入室内三维点云数据的原始点云数据，每个室内点云包括数百万个点，每个点包括XYZRGB六个通道，前三维为空间特征，后三维为颜色特征，在训练与测试过程中，每次迭代计算过程中，输入点云F_initial,其维度为[B,N,6],其中B为批次(batch)，N为点数目，6为XYZRGB特征，输入特征总数为B*N*6；

点云编码步骤S120：

对于输入点云F_initial首先进行全连接层操作，进行特征变换，得到点云特征F_full，维度为[B,N,8]，对于全连接层得到的点云特征F_full进行逐层下采样获得采样后特征F_sample，对于每层下采样得到的点云特征F_sample，都进行一次双重扩张残差处理，然后输出编码后的特征F_encode；

其中，所述双重扩张残差处理具体为：

输入特征F_sample，经过扩张率为1的扩张聚合处理，得到扩张聚合特征F1，与此同时， F_sample通过共享MLP进行特征变换得到特征F2，将特征F1与特征F2进行加和，得到第一次残差连接后特征F3，然后对于特征F3再进行扩张率为2的扩张聚合处理得到特征F4，并对于第一次残差连接后特征F3同样进行共享MLP操作得到特征F5，然后将F4和F5加和，得到二次残差连接后特征F6，然后将该特征与由F_sample经过共享MLP处理的输入特征F7再进行加和得到特征F8，最后经过激活函数LeakyReLU，LeakyReLU的公式如下：

(1)

经过激活函数后得到的特征即为F_encode；

点云解码步骤S130：

对于步骤S120编码的高维点云特征进行逐层上采样，恢复原始点云密度；

点云分割结果输出步骤S140：

对于步骤S130中最后一层的解码结果F_decode，进行全连接层处理，通过全连接层将F_decode变换为F_class，其中，F_decode的维度为[N,8]，F_class的维度为[N,13]，F_class中每个点的13个通道值代表每个点属于13个类别的概率值，将最大概率值对应的标签作为该点的结果标签，并对每种标签赋予一种颜色，最后按照N个点的顺序，将F_initial每个点的XYZ值与计算得到的标签值，以及标签值对应的RGB值(颜色)进行一一对应组合得到分割结果点云F_final，其中F_initial的维度为[N,6]，F_final的维度为[N,7]，F_final包括7个通道,分别是空间特征XYZ，与标签对应的颜色特征RGB，以及标签值。

可选的，在步骤S130中，所述扩张聚合处理具体为：

设定扩张率为k，输入颜色特征P_feature，输入特征的维度为[N,d_in]，然后对P_ feature进行扩张卷积处理得到扩张后的颜色特征P1，P1的维度为[N,d_in]，P1中的点为

，其中i<N；

同时对点坐标P_xyz进行局部全连接图特征聚合处理，得到P2，然后将P1，P2进行颜色特征及高维特征增强融合,融合方法如公式（5）所示：

(5)

其中

为融合后强化特征，

为扩张后的颜色特征，

∈P1，

为空间编码特征，

∈P2，

代表将向量按照最后一维拼接，通过上述公式，将

按照

在P1的顺序组合成增强特征P3，维度为[N，2*d_in]；

对于增强特征P3，进行注意力池化操作，得到注意力池化后的点特征

，然后将

按照

在P3的顺序组合成特征P4，维度为[N，d_out/2]，对于注意力池化后的特征P4，将再次进行扩张卷积操作，得到特征P5，维度为[N，d_out/2]，对于点坐标P_xyz进行局部全连接图特征聚合得到特征P6，维度为[N，d_out/2],然后将P5，P6利用公式（5）进行色彩特征及高维特征增强融合得到P7，维度为[N，d_out]，再对P7进行注意力池化从而得到输出特征P_ out，P_out维度为[N，d_out]。

可选的，在所述扩张聚合处理中，局部全连接图特征聚合具体为：

首先使用KNN算法对P_xyz中每个点

的邻域进行分析，其中i<N，将每个点作为中心点并获得中心点的邻域点信息，邻域点获取方法根据扩张率变化而变化；

将每个邻域点到其他邻域点的向量，欧氏距离以及目标点坐标进行串联，如公式（1），（2），（3）所示

(1)

(2)

(3)

(4)

其中

是中心点空间信息，

是第K个邻域点空间信息，K = 1,2,3…K,K代表邻域点的个数，

代表将向量按照最后一维拼接，

代表求取欧氏距离，MLP代表多层感知器，

代表邻域点向量信息编码，

代表邻域点欧氏距离信息编码,

代表第k个邻域点空间信息编码结果，

代表中心点空间信息编码结果；

通过上述公式，由

得到邻域空间信息编码结果

，然后将

按照

在P_xyz的顺序组合成新的特征，维度为[N，d_in]。

可选的，在所述扩展聚合处理中，注意力池化的具体为：

对于输入点中每个点特征

，都由K个邻域特征组成，如下列公式所示

K = 1,2,3…K,K代表邻域点的个数

对于每个邻域特征

，使用MLP以及softmax函数组合成的函数

对其进行评价，从而获得其注意力权重

,如公式(6)所示：

(6)

最后将每个邻域强化特征与其对应的注意力权重加权求和，即得到使用注意力池化方法聚合的特征

，如公式(7)所示：

(7)

K = 1,2,3…K,K代表邻域点的个数，

通过上述公式，得到注意力池化后的点特征

，然后将

按照

在输入点的顺序组合成输出特征，维度为[N，d_out/2]。

可选的，在步骤S120中，下采样的层数为5层。

可选的，在步骤S120中，所述下采样为随机下采样，和/或，

的值为0.01。

可选的，在步骤S130中，上采样的层数为5层。

可选的，所述上采样为最邻近点采样方法。

可选的，在步骤S140中，为每个标签赋予特征的RGB值。

综上，本发明具有如下的优点：

（1）提出了一种高效准确的室内点云语义分割网络。使得点云的语义分割更为快速准确，分割性能优于相关网络；

（2）提出局部全连接图编码方法，使得网络能够更完整的学习局部上下文特征，对于规则分布目标以及大目标具有很好的分割效果；

（3）使用双重扩张残差模块，在进一步扩大感受野的同时，有效缓解网络传播过程中的过度平滑以及梯度消失问题，有效缓解数据集样本不平衡问题，增强小样本物体点云语义分割精度。

附图说明

图1 是根据本发明具体实施例的基于全连接图编码及双重扩张残差的点云语义分割方法的流程图；

图2是根据本发明具体实施例的基于全连接图编码及双重扩张残差的点云语义分割的处理流程图；

图3是根据本发明具体实施例的双重扩张残差模块的处理示意图；

图4是根据本发明具体实施例的扩展聚合块的处理示意图；

图5是根据本发明具体实施例的局部全连接图的示意图；

图6是根据本发明具体实施例的定性分割后的处理示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明对于适用的术语进行如下解释：

共享MLP：通过卷积方法实现，具体参见Charles R. Qi的论文《PointNet：DeepLearning on Point Sets for 3D Classification and Segmentation》中关于sharedMLP（共享MLP）的实现过程。

扩张卷积（Dilated Convolution）：也被称为空洞卷积或者膨胀卷积，是在标准的卷积核中注入空洞，以此来增加模型的感受野。相比原来的正常卷积操作，扩张卷积多了一个参数：扩张率，指的是卷积核的点的间隔数量。在三维中则是邻域点的间隔，三维的扩张卷积引用自文献DeepGCNs:Making GCNs Go as Deep as CNNs。

MLP代表多层感知器，为本领域现有技术，即输入的特征会连接到隐层的神经元，隐层的神经元再连接到输入层的神经元。在多层感知器层与层之间是全连接的。

残差处理，通过跳层连接，减少网络平滑和过拟合，具体参见Kaiming He提出的《Deep Residual Learning for Image Recognition》。

本发明主要在于：首先输入原始点云，然后进行编码，在编码阶段，首先进行逐层下采样，针对局部点云语义信息描述不完整问题，使用递进的双重扩张残差模块不断扩大感受野获得更好的局部上下文信息，提取点云高维特征，在双重扩张残差模块之中，使用局部全连接图特征聚合的方法确保局部邻域特征能够获得完整编码。随着网络递进，每层网络使用下采样模块对点云进行相应尺度的采样；在解码阶段，通过上采样模块逐层恢复原始点云密度，并在最后一层编码层使用全连接层进行特征维度转换。最后输出语义分割结果点云，结果点云包括七个维度XYZRGB以及标签。其中每个类别的点RGB相同，且具有相同的标签。

参见图1、图2分别示出了根据本发明具体实施例的基于全连接图编码及双重扩张残差的点云语义分割方法的流程图以及处理示例；

该方法包括如下步骤：

原始点云数据输入步骤S110：

输入室内三维点云数据的原始点云数据，每个室内点云包括数百万个点，每个点包括XYZRGB六个通道，前三维为空间特征，后三维为颜色特征，在训练与测试过程中，每次迭代计算过程中，输入点云F_initial,其维度为[B,N,6],其中B为批次(batch)，N为点数目，6为XYZRGB特征，输入特征总数为B*N*6。

点云编码步骤S120：

对于输入点云F_initial首先进行全连接层操作，进行特征变换，得到点云特征F_full，维度为[B,N,8]，对于全连接层得到的点云特征F_full进行逐层下采样获得采样后特征F_sample，对于每层下采样得到的点云特征F_sample，都进行一次双重扩张残差处理，然后输出编码后的特征F_encode。

所述双重扩张残差处理能够通过诸如双重扩张残差处理模块来实现，具体步骤如图3所示：

(1)

通常

的值为0.01左右，

经过激活函数后得到的特征即为F_encode。

在该步骤中，共享MLP的操作可以通过卷积方法实现，具体为：对于输入的特征F_sample，首先扩充维度为[N,d_in,1]，然后执行卷积，卷积核大小为[1, d_in, 1, d_out]，得到F1’，F1’特征维度为 [N, 1, d_out]，再执行卷积，卷积核大小为[1,1,d_out, d_out],得到最终变换特征F2，这样做的好处是大大减少了参数的使用。

在本发明中，所述下采样为随机下采样以减少点云特征密度，提高编码维度。

该步骤中的，所述全连接层为深度学习中的操作，相当于矩阵运算，在本发明中，矩阵维度为[B,N,6,8]。

输入特征F_sample维度为[B,N,d_in]，F1，F2，F3，F4，F5，F6，F7，F8，F_encode维度均为[B,N,d_out]。

进一步的，参见图4，示出了根据本发明具体实施例的扩展聚合处理的过程，能够通过诸如扩展聚合模块来实现。

对于扩张率为k的扩张聚合处理，具体包括：输入颜色特征P_feature，输入特征的维度为[N,d_in]，然后对P_feature进行扩张卷积处理得到扩张后的颜色特征P1，P1的维度为[N,d_in]，P1中的点为

，其中i<N。本发明中扩张卷积的作用为改变获取邻域点的方法，即搜索不同范围的邻域。比如将要搜索的邻域点数设定为5，按照距离从近到远给邻域点编号为x1，x2，x3，x4，x5，x6，x7，x8，x9，x10.一阶邻域点则为x1，x2，x3，x4，x5。二阶邻域点为x2，x4，x6，x8，x10，依此类推。

同时对点坐标P_xyz(即点数为N，只包含原始xyz三个坐标维度)进行局部全连接图特征聚合（local fully connect graph encoding）处理，得到P2，然后将P1，P2进行颜色特征及高维特征增强, RGB信息能为分割提供重要线索，本发明将局部全连接图编码特征P2与扩张后的颜色特征信息P1融合，以组成新的强化特征，从而进一步增强不同类别点云区分度，融合方法如公式（5）所示：

(5)

其中

为融合后强化特征，

为扩张后的颜色特征，

∈P1，

为空间编码特征，

∈P2，

代表将向量按照最后一维拼接，通过上述公式，将

按照

在P1的顺序组合成增强特征P3，维度为[N，2*d_in]；

，然后将

按照

其中，在本步骤中，局部全连接图特征聚合（local fully connect graphencoding）参见图5，具体步骤如下：

首先使用KNN算法对P_xyz中每个点

的邻域进行分析，其中i<N，将每个点作为中心点并获得中心点的邻域点信息，邻域点获取方法根据扩张率变化而变化。KNN算法作为最常用的聚类算法，可以获得在欧氏距离上距离目标点最近的K个点的特征信息。对于目标点的每个邻域点，为了获得更加全面的编码信息，本发明赋予其相等的重要性以构建图结构编码，如图5所示，图中黑色填充点为中心点，斜线填充点为邻域内的点，无色填充点为邻域外的点，除了将中心点与邻域点相对位置考虑在内，还将邻域点间的相对位置考虑在内。

(1)

(2)

(3)

(4)

其中

是中心点空间信息，

是第K个邻域点空间信息，K = 1,2,3…K,K代表邻域点的个数，

代表将向量按照最后一维拼接，

代表求取欧氏距离，MLP代表多层感知器，

代表邻域点向量信息编码，

代表邻域点欧氏距离信息编码,

代表第k个邻域点空间信息编码结果，

代表中心点空间信息编码结果。

通过上述公式，由

得到邻域空间信息编码结果

，然后将

按照

在P_xyz的顺序组合成特征，例如P2或者P6，维度为[N，d_in]。

在本步骤中，注意力池化的具体为：

以输入点P3为例，对于输入点P3中每个点特征

，都由K个邻域特征组成，如下列公式所示

K = 1,2,3…K,K代表邻域点的个数

对于每个邻域特征

，使用MLP以及softmax函数组合成的函数

对其进行评价，从而获得其注意力权重

,如公式(6)所示：

(6)

，如公式(7)所示。

(7)

K = 1,2,3…K,K代表邻域点的个数，

通过上述公式，得到注意力池化后的点特征

，然后将

按照

在输入点P3的顺序组合成输出特征P4，维度为[N，d_out/2]。

点云解码步骤S130：

对于步骤S120编码的高维点云特征进行逐层上采样，恢复原始点云密度。

具体的，上采样方法使用的是最邻近点采样方法。

以5层采样为例，输入最后一层下采样的F_encode，维度为[N/512,512],后总共经过五层上采样，采样比率分别为[2,4,4,4,4],点数由N/512逐级恢复至N，通过MLP将每个点维度逐级从512降至8,得到最后一层的解码结果F_decode，维度为[N,8]。

点云分割结果输出步骤S140：

对于步骤S130中最后一层的解码结果F_decode，根据要分割的类别数量，进行一次全连接层（fully connected layers）处理，通过全连接层将F_decode（维度为[N,8]）变换为F_class（维度为[N,13]），F_class中每个点的13个通道值代表每个点属于13个类别的概率值，将最大概率值对应的标签（即类别）作为该点的结果标签，并为了方便可视化，对每种标签赋予一种颜色，最后按照N个点的顺序，将F_initial每个点的XYZ值与计算得到的标签值，以及标签值对应的RGB值进行一一对应组合得到分割结果点云F_final。

原始的F_initial（维度为[N,6]）输出分割结果点云F_final（维度为[N,7]），F_final包括7个通道,分别是空间特征XYZ，与标签对应的颜色特征RGB，以及标签值。

实施例：

ScanNet是一个RGB-D视频数据集，包含1500多次扫描，并带有3D相机姿势、表面重建和实例级语义分割的注释，发明使用其中的点云数据进行实验，在Scannet数据集中本发明和Pointnet++类似，使用1503个场景中的后1201个场景作为训练集，余下的前302个场景作为测试集。

表1：定性分割结果

参见表1，Scannet数据集上收集了本发明所提出的室内语义分割方法性能指标，并与Pointnet++网络以及RandLA-Net网络进行了比较，可以看出本发明的平均mIoU相较于Pointnet++提升了30.2%，相较于RandLA-Net提升了2.2%。图6则显示了本发明的方法在Scannet上的语义分割可视化结果，其中Input代表实际场景点云，Ground_Truth代表真值，即完全分割正确的结果，不同类别的点赋予不同颜色，Ours代表本发明公开的方法的分割结果。

可以看出本发明公开的方法对于室内结构化物体的分割结果准确度非常高，接近于真实值。

通过表1以及图6的定量定性结果表明，本发明的点云语义分割方法显著提高了分割精度。

综上，本发明具有如下的优点：

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.基于全连接图编码及双重扩张残差的点云语义分割方法，其特征在于，包括如下步骤：

原始点云数据输入步骤S110：

输入室内三维点云数据的原始点云数据，每个室内点云包括数百万个点，每个点包括XYZRGB六个通道，前三维为空间特征，后三维为颜色特征，在训练与测试过程中，每次迭代计算过程中，输入点云F_initial,其维度为[B,N,6],其中B为批次，N为点数目，6为XYZRGB特征，输入特征总数为B*N*6；

点云编码步骤S120：

其中，所述双重扩张残差处理具体为：

输入特征F_sample，经过扩张率为1的扩张聚合处理，得到扩张聚合特征F1，与此同时，F_sample通过共享MLP进行特征变换得到特征F2，将特征F1与特征F2进行加和，得到第一次残差连接后特征F3，然后对于特征F3再进行扩张率为2的扩张聚合处理得到特征F4，并对于第一次残差连接后特征F3同样进行共享MLP操作得到特征F5，然后将F4和F5加和，得到二次残差连接后特征F6，然后将该特征与由F_sample经过共享MLP处理的输入特征F7再进行加和得到特征F8，最后经过激活函数LeakyReLU，LeakyReLU的公式如下：

(1)

经过激活函数后得到的特征即为F_encode；

点云解码步骤S130：

点云分割结果输出步骤S140：

对于步骤S130中最后一层的解码结果F_decode，进行全连接层处理，通过全连接层将F_decode变换为F_class，其中，F_decode的维度为[N,8]，F_class的维度为[N,13]，F_class中每个点的13个通道值代表每个点属于13个类别的概率值，将最大概率值对应的标签作为该点的结果标签，并对每种标签赋予一种颜色，最后按照N个点的顺序，将F_initial每个点的XYZ值与计算得到的标签值，以及标签值对应的RGB值进行一一对应组合得到分割结果点云F_final，其中F_initial的维度为[N,6]，F_final的维度为[N,7]，F_final包括7个通道,分别是空间特征XYZ，与标签对应的颜色特征RGB，以及标签值。

2.根据权利要求1所述的点云语义分割方法，其特征在于，

在步骤S130中，所述扩张聚合处理具体为：

，其中i<N；

(5)

其中

为融合后强化特征，

为扩张后的颜色特征，

∈P1，

为空间编码特征，

∈ P2，

代表将向量按照最后一维拼接，通过上述公式，将

按照

在P1的顺序组合成增强特征P3，维度为[N，2*d_in]；

，然后将

按照

在P3的顺序组合成特征P4，维度为[N，d_out/2]，对于注意力池化后的特征P4，将再次进行扩张卷积操作，得到特征P5，维度为[N，d_out/2]，对于点坐标P_xyz进行局部全连接图特征聚合得到特征P6，维度为[N，d_out/2],然后将P5，P6利用公式（5）进行色彩特征及高维特征增强融合得到P7，维度为[N，d_out]，再对P7进行注意力池化从而得到输出特征P_out，P_ out维度为[N，d_out]。

3.根据权利要求2所述的点云语义分割方法，其特征在于，

在所述扩张聚合处理中，局部全连接图特征聚合具体为：

首先使用KNN算法对P_xyz中每个点