CN111753698A

CN111753698A - 一种多模态三维点云分割系统和方法

Info

Publication number: CN111753698A
Application number: CN202010553044.2A
Authority: CN
Inventors: 王雁刚; 杭天恺
Original assignee: Shenzhen Institute Of Southeast University; Southeast University
Current assignee: Shenzhen Institute Of Southeast University; Southeast University
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-09
Anticipated expiration: 2040-06-17
Also published as: CN111753698B

Abstract

本发明公开了一种多模态三维点云分割系统和方法，本发明能够很好地对对模态的数据进行融合，并且引入了先验掩膜，得到的场景分割的结果鲁棒性更好，且具有更高的分割精度；针对不同的场景，比如卫生间、会议室、办公室等场景都能有较好地预测结果，模型具有较好的泛化性；对于不用的用于提取点云特征的骨架网络，都可以尝试利用这里的特征和决策融合的模块，改善精度；如果计算条件允许，可以尝试更多的点，利用更大的区域，例如以同样的倍数扩大使用的点的个数和场景区域的大小，以提升整个模型的感受野，提升模型对整个场景的感知能力。

Description

一种多模态三维点云分割系统和方法

技术领域

本发明涉及计算机视觉、计算机图形学技术领域，尤其是一种多模态三维点云分割系统和方法。

背景技术

随着3D采集技术的快速发展，相关的传感器在我们的生活中越来越常见，比如各种各样的3D扫描设备、激光雷达和RGB-D相机等。三维点云数据被用在许多机器视觉任务中，比如自动驾驶、机器人导航、虚拟现实和增强现实等。此外，点云相关技术在医学图像处理、计算机图形学等领域均有着重要的作用。对于视觉任务来说，图像容易受到环境光照、拍摄角度的影响，且一定程度上丢失了物体的空间结构信息；而点云数据则能够包含三维空间特定场景的几何信息，且不易受光照等因素的影响，但是相对图像数据少了语义信息。将颜色信息和点云的空间结构信息融合使用，是十分具有现实意义和使用前景的。

对于点云分割任务，其目的是根据点表示的语义信息，将每个点进行分类。对理解真实的场景有十分重要的作用。到目前为止，三维点云的分割已经取得了很多的研究成果。概括起来可以分为两大类：1)基于投影的方法，将点云数据转化为规则的网格表示，充分地利用已经发展的比较成熟的卷积神经网络的技术进行处理；2)基于点的方法，利用点级别的多层感知机学习点的特征，而后通过全连接层实现分割。得益于一系列真实数据集的发布以及计算机算力的增加，深度学习在点云处理领域已经取得了巨大的成果。但是目前仍存在以下问题：1)点云数据天然存在稀疏性，易受噪声干扰，对点云的学习需要保证一定的鲁棒性；2)目前点云处理相关技术能应用的场景有限，由于其计算消耗较大，无法直接处理大规模真实点云场景；3)点云数据获取的同时，图片数据相对也是较为容易获取的，目前的方法都是在输入层面进行浅层的融合，缺乏高效的信息融合的方法。

发明内容

本发明所要解决的技术问题在于，提供一种多模态三维点云分割系统和方法，能够利用一些通用的点云特征提取网络，对其得到的深层特征和决策进行融合，从而提升点云场景的分割精度。

为解决上述技术问题，本发明提供一种多模态三维点云分割系统，包括：场景划分单元，对同时包含彩色信息和空间坐标信息的点云场景进行划分；点云位置信息特征提取单元，利用编码器解码器结构得到点云场景中每个点对应的特征以及预测结果；点云颜色信息特征提取单元，同样利用编码器解码器结构得到点云场景中每个点对应的特征以及预测结果；特征融合单元，对前面的位置信息特征提取单元和彩色信息特征提取单元，同时可以得到深层的特征已经最终的预测结果，分别得到其特征之后进行拼接操作，而后送入由多层感知机和激活函数构成的非线性映射中，得到预测结果；决策融合单元，根据前面的三个单元分别得到了三个预测结果，将其相加取平均得到新的预测结果。

优选的，还包括掩膜矩阵，对预测结果进行过滤屏蔽处理，得到最终的预测结果。

相应的，一种多模态三维点云分割方法，包括如下步骤：

(1)对收集得到的数据进行预处理，根据点云数据和图片像素之间的对应关系，反投影得到同时带有彩色信息和空间坐标的点云数据，并将整个场景划分为更小的区域；

(2)对每个区域内的点进行采样，将采样得到的点云的位置坐标信息送入点云特征提取网络提取特征并做出预测；

(3)将采样得到的点云的彩色信息送入点云特征提取网络提取特征并且做出预测；

(4)将步骤(2)和步骤(3)中提取出的深层的点云特征，通过共享参数的多层感知机以及激活函数构成的非线性映射，对结果进行预测；

(5)将步骤(2)、步骤(3)和步骤(4)中的预测结果求得平均，根据先验信息引入掩膜矩阵，对平均之后的结果进行过滤屏蔽，得到每个点的分类结果，即为整个场景的分割结果。

优选的，步骤(1)中，对收集得到的大规模真实场景数据(这里使用的是斯坦福发布的S3DIS公开数据集)，将场景划分为1m×1m的块状区域，或者是一定距离为半径的球面区域，对区域内点进行采样，送入框架进行预测。

优选的，步骤(2)中，组合层通过k近邻，即kNN的方式构建邻接关系，也可以是以某点为中心，选取一定的半径作一个球面，将同在球面内点赋予邻接关系。不能简单对每个点单独操作，要考虑到每个点和与之相邻的点的关系。

优选的，步骤(2)和步骤(3)中，为了提取点云数据的深层信息，存在降采样的过程，降采样通过随机采样的方式实现，为了保证采样过程能够尽可能地保留对应点云场景的空间结构信息，使用最远点采样，对于已经选择保留的点，构成一个集合，在剩下的点中选择离这些点最远的点，加入集合。

优选的，步骤(3)中，对彩色信息进行处理的时候，并不是完全脱离空间坐标信息，在进行邻域选取，局部的特征融合的时候，仍是利用了该点的空间坐标信息。

优选的，步骤(4)中，对于点云数据提取的共享参数的多层感知机，是通过一维卷积操作实现，每个点对应的特征可以看作是一个一维的信号向量，利用卷积核对其卷积提取特征。

优选的，对于该真实场景语义分割任务，是对每个点的分类任务，用以监督的损失函数通常可以选择交叉熵损失函数，或者是负对数似然损失函数。

优选的，步骤(5)中，使用到的掩膜矩阵为了过滤掉一些明显的违背事实的预测。比如实际预测时，若竖直向上为z轴的方向，那么对于天花板和地面两个类别，坐标z更大的点预测为地面的可能性就越小；相应地，坐标z越小的点预测为天花板的可能性就越小。

本发明的有益效果为：本发明提供的多模态三维点云分割方法能够很好地对对模态的数据进行融合，并且引入了先验掩膜，得到的场景分割的结果鲁棒性更好，且具有更高的分割精度；针对不同的场景，比如卫生间、会议室、办公室等场景都能有较好地预测结果，模型具有较好的泛化性；对于不用的用于提取点云特征的骨架网络，都可以尝试利用这里的特征和决策融合的模块，改善精度；如果计算条件允许，可以尝试更多的点，利用更大的区域，例如以同样的倍数扩大使用的点的个数和场景区域的大小，以提升整个模型的感受野，提升模型对整个场景的感知能力。

附图说明

图1为本发明的方法流程示意图。

图2(a)为本发明点云场景外部观察示意图。

图2(b)为本发明点云场景内部细节观察示意图。

图3为本发明提取点云特征的网络简化示意图。

图4为本发明多模态点云场景分割网络结构示意图。

图5(a)为本发明原始点云场景可视化示意图。

图5(b)为本发明利用空间信息点云场景分割结果示意图。

图5(c)为本发明利用颜色信息点云场景分割结果示意图。

图5(d)为本发明融合空间和颜色信息点云场景分割结果示意图，

图6(a)为本发明空间信息深层特征非线性降维可视化示意图。

图6(b)为本发明颜色信息深层特征非线性降维可视化示意图。

图6(c)为本发明空间和颜色信息融合后深层特征非线性降维可视化示意图。

具体实施方式

图1为根据本发明实施例一的多模态三维点云场景分割的流程图，下面参照图1，详细说明个步骤。

步骤1，对收集得到的数据进行预处理，根据点云数据和图片像素之间的对应关系，反投影得到同时带有彩色信息和空间坐标的点云数据，并将整个场景划分为更小的区域。

本实例中使用特定相机收集数据，该相机结合3个不同间距的结构光传感器，以在每个扫描位置360°旋转期间捕获18个RGB和深度图像。每次360°扫描均以60°为增量进行，每个位置提供6组三重RGB-D数据。输出是扫描区域，原始RGB-D图像和相机元数据的重建3D纹理网格。以此数据为基础生成了其他RGB-D数据，并通过对网格进行采样来制作点云。

在得到如图2(a)和图2(b)所示的整个场景的数据之后，我们对场景进行区域划分，我们选择的划分方式是将该区域划分为一个个1m×1m的块状区域。当然，区域划分也有其他的一些方式，比如选取合理长度为半径，对球面内的点进行采样，此时可能得到相对更为合理的几何图形结构。

步骤2，对每个区域内的点进行采样，将采样得到的点云的位置坐标信息送入点云特征提取网络提取特征并做出预测。

对上一步骤中处理得到的块状区域进行采样，采样过程中，我们选取的采样点的个数为4096，采样方式为随机采样。若是区域内的点的数目少于我们期望采样得到的点的个数，则随机选取一些点进行拷贝，以扩充至4096个点。为了方便后面计算，将这些点对应的在整个点云场景中的索引以二进制形式存入文件当中。

对点云特征提取网络，选择的是基于点的可以学习到上下文语义信息的PointNet++网络，当然也可以选择一些其他的用于提取点云特征的网络。该网络结构会构建点的层次分组结构，并沿层次结构逐渐抽象出越来越大的局部区域。级联的点集特征抽取层包括三个关键部分：采样层、组合层和PointNet层。采样层从输入点集中选取一些点，当作是局部区域的中心点。组合层是通过寻找邻域内的点构成局部区域点集，并将特征进行组合。PointNet层使用简单的结构对局部区域内的点集进行编码，提取特征。

一个点云特征提取层的输入是N×(d+C)大小的矩阵，其中N表示的是点的个数，d表示的每个点的坐标维数，C表示的是每个点对应的特征的维数。特征抽取层的输出是N′×(d+C′)大小的矩阵，其中N′是采样点的个数，C′是新的特征向量对应的维数。

关于采样层，给定输点云集合为{x₁,x₂,…,x_n}，使用循环最远点采样选择一个子集{x_i1,x_i2,…,x_im}。我们保证x_ij在特定的度量空间中是离点集{x_i1,x_i2,…,x_ij-1}最远的点。和随机采样相比，在给定中心点数量的情况下，最远点采样能很好地覆盖整个点集。并且相较于处理二维图片的卷积神经网络，这种方式以一种数据相关的方式产生感受野。最远点采样算法的时间复杂度为O(n²)。

对于组合层，这一层的输入是大小为N×(d+C)的点集，中心点集合坐标数据大小为N′×d。组合后的输出大小为N′×K×(d+C)。每一个组合代表的是一个局部区域，K是中心点邻域内点的数量。不同的层的K的数目是不一样的。常用的选择K个近邻点的方法有两种：1、以某点为中心，选择一定的半径，选取对应球面内的K个点；2、在整个点集查找离该点最近的K个点。

对于PointNet层，这一层的输入是N′个局部区域内的点集，数据大小为N′×K×(d+C)的矩阵。通过这一层，每个局部的点云数据被编码成局部的特征向量。输出数据的大小为N′×(d+C′)。处理时首先计算局部区域的相对位置：

i＝1,2,…,K；j＝1,2,…,d，其中

是中心点的坐标。

本结构中还使用了多尺度组合的技术，这是一种简单有效的结合多尺度特征的方法，应用具有不同尺度的分组图层，然后根据PointNet提取每个尺度的特征。将不同比例的特征拼接起来以形成多尺度的特征。

对于分割任务，由于特征抽取时的采样操作，最后得到的点云数据分辨率会降低，本实例中利用插值等操作提高特征的分辨率，并且通过跳连的操作，对深层和浅层的信息进行融合。采取一个级联的结构传递特征以使得对采样得到的数据提取特征，并且将特征再回传到原始点云上。在一个特征传播层，将点云的特征数据N_l×(d+C)传播到N_l-1个点上，其中N_l-1和N_l(N_l≤N_l-1)分别是集合抽取层的输入和输出点的个数。通过再N_l-1个点的坐标出插入N_l个点的特征向量f来实现特征传播。跳连结构有利于很好地结合点云的深层和浅层的特征，最终拼接得到的数据送入一个简易的“pointnet”模块，利用一些全连接层和ReLU激活函数更新每个点的特征。重复这些操作直到得到与原始输入点云数据相同的分辨率。其简要的网络结构如图3所示。

此处由于只是希望利用点云数据的空间位置信息，因此对应的输入点云P的坐标维数d＝3，特征维数C＝0。对于该分割任务，本实例选择的损失函数为负对数似然，通过再网络的最后一层添加LogSoftmax层，可以获得神经网络中的对数概率。设对于一个包含N个点的点云场景，其经网络预测后结果为

其中#classes为预测类别数，对应的真实的标注为target，这是一个N维的向量。对于target中的第i个元素，是预测结果

第i行中最大的那个元素的索引。

损失函数可以表示为

其中w_c表示第c类样本所占总样本的权重，引入该权重可以有效减少由于样本不均衡带来的影响。

步骤3，将采样得到的点云的彩色信息X送入点云特征提取网络提取特征并且做出预测。

步骤3中的网络结构与步骤2中类似，选取的损失函数也是一样的。只不过在输入层面，输入的原始点云数据大小为N×(d+C)，其中坐标维数d＝3，特征向量维数为C＝3，虽然都是作为输入，但是实际只是利用了点云的坐标进行邻域查找及特征融合操作，其余并未参与计算。此外，对于点云特征的RGB数据，我们首先将其归一化到区间[0,1]之间，方便计算以及保证训练稳定性。此时，返回的是得到的深层的特征矩阵以及在该情况下的预测结果。

步骤4，将步骤2和步骤3中提取出的深层的点云特征，通过共享参数的多层感知机以及激活函数构成的非线性映射，对结果进行预测。

记空间坐标信息作为输入时训练得到的参数为θ₁，最后送入多层感知机进行决策的特征为f₁，模型映射为

记点云颜色信息作为输入时训练得到的参数为θ₂，最后送入多层感知机进行决策的特征为f₂，模型映射为

θ₁≈argmax_θp(target|P,θ)

θ₂≈argmax_θp(target|X,θ)

对于该实例实际训练模型时，

和

使用一样的参数设置，同样的学习率和梯度下降方式。

步骤5，将步骤2、步骤3和步骤4中的预测结果求得平均，根据先验信息引入掩膜矩阵，对平均之后的结果进行过滤屏蔽，得到每个点的分类结果，既为整个场景的分割结果。

我们将得到的特征f₁和f₂进行拼接操作，送入一个简易的PointNet模块再进行一次决策，最终的结果由三次决策结果取平均得到。最后输出矩阵为

其中concat[·,·]表示将两个矩阵进行拼接操作，假如输入的两个矩阵大小分别为N×C₁和N×C₂，那么拼接之后的矩阵大小为N×(C₁+C₂)。pointnet(·)则是将数据的每一行通过共享权重的多层感知机、ReLU激活函数和批归一化等操作。最终得到的Obtpbt大小为N×#classes，其中N为点云场景中点的个数，#classes为预测类别数。

由于网络的pointnet层中，计算局部区域的相对位置，会造成一些结构简单但是相似的类别之间存在混叠的现象。例如对于一个实际的房间的场景，天花板和地面之间容易存在误判的现象。天花板在空间位置上时高于地板的，即对应的数据中天花板的第三个维度的z值是大于地面的z值的。此处继续引入先验信息，利用掩膜对结果进行处理，引入的掩膜矩阵Mask为

Mask是大小为N×1的列向量。利用掩膜矩阵对网络输出进行调整，

其中⊙表示逐元素相乘，:＝表示赋值，索引从1开始，

表示取输出数据的第一列。

利用调整后的网络，在真实的室内场景构成的S3DIS公开数据集上进行实验(引入信息融合模块和掩膜矩阵)，选择其中一个场景进行可视化，可视化结果如图5(a)、图5(b)、图5(c)和图5(d)所示，图5(a)是带颜色信息的点云数据，图5(b)是利用坐标信息预测得到的分割结果，图5(c)是利用颜色信息预测得到的分割结果，图5(d)是利用调整后的网络预测得到的结果。可视化通过MeshLab实现。对于得到的结果，我们选择部分点利用t-SNE算法进行降维可视化。其中图6(a)是空间信息输入点云特征提取网络得到的深层特征的可视化结果，图6(b)是颜色信息输入点云特征提取网络得到的深层特征的可视化结果，图6(c)是将两种信息分别得到的深层特征进行融合之后送入“pointnet”模块得到的特征可视化结果。可见融合之前，某些类别点的特征存在着一定的相关性，于是在决策阶段容易误判。而融合之后在特征空间分得更开，更加有利于决策。

此外，对于所有的真实场景的定量结果如表1所示。展示了几种方案得到的最终的结果。其中mIoU是分类结果的交并比的平均，是一种用于衡量分类结果好坏的指标。Acc也是一种简单的衡量模型预测结果的指标，指的是所有点中预测正确的数目占所有点的比重。第一列是空间信息作为输入得到的分割结果，第二列是颜色信息作为输入得到的分割结果，第三列是融合之后并未加入掩膜抑制的分割结果，第四列是最终的方案的预测结果。

表1所有真实场景的定量结果表

Claims

1.一种多模态三维点云分割系统，其特征在于，包括：场景划分单元，对同时包含彩色信息和空间坐标信息的点云场景进行划分；点云位置信息特征提取单元，利用编码器解码器结构得到点云场景中每个点对应的特征以及预测结果；点云颜色信息特征提取单元，同样利用编码器解码器结构得到点云场景中每个点对应的特征以及预测结果；特征融合单元，对前面的位置信息特征提取单元和彩色信息特征提取单元，同时可以得到深层的特征已经最终的预测结果，分别得到其特征之后进行拼接操作，而后送入由多层感知机和激活函数构成的非线性映射中，得到预测结果；决策融合单元，根据前面的三个单元分别得到了三个预测结果，将其相加取平均得到新的预测结果。

2.如权利要求1所述的多模态三维点云分割系统，其特征在于，还包括掩膜矩阵，对预测结果进行过滤屏蔽处理，得到最终的预测结果。

3.一种多模态三维点云分割方法，其特征在于，包括如下步骤：

(2)对每个区域内的点进行采样，将采样得到的点云的位置坐标信息送入点云特征提取网络提取特征并做出预测，特征提取网络包括采样层、组合层以及PointNet层。

4.如权利要求3所述的多模态三维点云分割方法，其特征在于，步骤(1)中，对收集得到的数据的划分是将场景划分为1m×1m的块状区域，或者是一定距离为半径的球面区域，对区域内点进行采样，送入框架进行预测。

5.如权利要求3所述的多模态三维点云分割方法，其特征在于，步骤(2)中，组合层通过k近邻，即kNN的方式构建邻接关系，或以某点为中心，选取一定的半径作一个球面，将同在球面内的点赋予邻接关系。

6.如权利要求3所述的多模态三维点云分割方法，其特征在于，步骤(2)和步骤(3)中，存在降采样的过程，降采样通过随机采样的方式实现，使用最远点采样，对于已经选择保留的点，构成一个集合，在剩下的点中选择离这些点最远的点，加入集合。

7.如权利要求3所述的多模态三维点云分割方法，其特征在于，步骤(3)中，对彩色信息进行处理时，在进行邻域选取、局部的特征融合时，仍是利用了该点的空间坐标信息。

8.如权利要求3所述的多模态三维点云分割方法，其特征在于，步骤(4)中，对于点云数据提取的共享参数的多层感知机，通过一维卷积操作实现，每个点对应的特征可以看作是一个一维的信号向量，利用卷积核对其卷积提取特征。

9.如权利要求3所述的多模态三维点云分割方法，其特征在于，对于该场景语义分割任务，是对每个点的分类任务，用以监督的损失函数通常可以选择交叉熵损失函数，或者是负对数似然损失函数。

10.如权利要求3所述的多模态三维点云分割方法，其特征在于，步骤(5)中，使用到的掩膜矩阵过滤掉一些明显的违背事实的预测。