CN111968121A

CN111968121A - 一种基于实例嵌入与语义融合的三维点云场景分割方法

Info

Publication number: CN111968121A
Application number: CN202010769175.4A
Authority: CN
Inventors: 饶云波; 张孟涵; 王艺霖; 薛俊民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-20
Anticipated expiration: 2040-08-03
Also published as: CN111968121B

Abstract

本发明公开了一种基于实例嵌入与语义融合的三维点云场景分割方法，属于图像处理技术领域。本发明针对基于深度学习的三维场景分割方法存在的技术问题，提出了一种基于实例嵌入与语义融合的三维点云场景分割方法。首先进行点云映射及特征扩展，然后进行深度神经网络模型设置及训练，并基于训练好的神经网络实现三维场景的分割处理。同时，还引入新的CRF进行分割结果优化。本发明基于三维点云的几何特性，所提取的各特征向量除去点云基本信息之外，通过三维点云的每个点的本地与邻域属性，扩展了一系列新的属性来描述三维点云的特性：散射性、线性、平面性和垂直性，提升分割性能；并基于所引入的新的CRF函数模型进一步提升对三维点云场景的分割性能。

Description

一种基于实例嵌入与语义融合的三维点云场景分割方法

技术领域

本发明属于图像处理技术领域，具体涉及三维点云场景实例分割与语义分割相结合的三维场景分割技术。

背景技术

随着低成本的3D传感器(如Kinect)和光场摄像机的日益普及，开启了许多基于3D的应用，如自动驾驶、机器人、移动导航、虚拟现实和3D游戏。三维点云的自动理解、分割识别已成为计算机图形学重要的研究分支，当前很多研究都在致力于该领域，并取得了许多成果。比如：在自动驾驶上，三维点云分割技术对场景的处理、理解、识别等提供了很多实时辅助，帮助驾驶系统更快速准确的规划路径方案及把握突发情况。

三维数据与二维图片数据在数据采集、数据处理、几何特征、数据特性等方面都有较大的不同。图片数据通常表示为二维矩阵数据格式(例如RGB pixel array)，三维数据具有更高的复杂性，有多种表达形式。常见的三维数据分为三种：(1)三维点云数据，由深度传感器或机载雷达扫描得到的深度数据；(2)三维mesh数据，由一组三角面片组成的三维数据，比较适合做数据建模与渲染；(3)三维栅格数据，将一个场景根据设置的分辨率大小，均匀切割成正方形栅格块，每个栅格根据其内部是否存在原始数据划分为两部分，形成规则网格数据。

近年研究者提出基于深度学习的三维场景分割方法，主要有以下三种：

(1)基于视图的方法：将三维对象投影至二维视图集合中，对每个二维视图集合中每个二维视图使用传统的二维卷积神经网络，最后对每个二维视图中特征进行聚合完成分割任务。但该方法问题一在于如何选择视图集中每个视图的角度。问题二在于视图集对三维模型的表达不全面，仅仅表达每个视角的数据，损失大量的位置空间数据，对三维场景的分割造成很大误差，导致分割结果并不理想。

(2)基于三维体素的方法：将非结构化几何空间数据转化为三维空间规则网格数据，并使用三维卷积网络对该数据进行训练。对于该方法，需选择其分辨率，即采用多大尺寸的网格边长。若网格边长过大，会损失较多精度，同时造成非常低的量化噪声错误，限制分割结果的精确度，反之网格边长过小，会产生很多空白区域，造成计算资源的浪费。且该方法的时间和空间的复杂度会随着分辨率的增长成O(n³)增长。

(3)基于三维点云的方法：该方法主要包括两种模式：(1)将三维点云映射到平面上再进行计算，该方法将三维点云投影到空间坐标轴上后使用不影响三维点云数据的循环神经网络进行训练，最后将各方相向上的特征进行聚合。(2)直接使用原始三维点云数据，进行端到端训练的三维点云网络。该方法主要是将原始三维点云投射到高维中去，之后使用置换不变性对三维点云进行处理，最后通过多层感知器(Multi-Layer Perceptron，MLP)将三维点云映射到对应的标签上。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于实例嵌入与语义融合的三维点云场景分割方法，从而提升分割效果。

本发明的基于实例嵌入与语义融合的三维点云场景分割方法包括下列步骤：

步骤1、点云映射及特征提取：

步骤101：将三维点云空间划分为体素空间，从而得到多个体素块；并将同一体素块内的所有点云的位置属性的均值作为映射后的新的点云位置属性；

步骤102：提取映射后的各点云的特征向量：

基于预置的邻域范围，计算每个邻域位置的三维位置坐标的协方差矩阵的特征值，并降序排列得到：对于每个邻域，计算邻域的位置坐标(XYZ)的协方差矩阵的特征值，并降序排列，得到λ₁≥λ₂≥λ₃；

计算各邻域位置的本征熵

并取本征熵E最小的邻域作为最优邻域；其中，参数

基于最优邻域的特征值λ₁、λ₂、λ₃计算每个点云的属性特征，并连同点云的颜色和三维位置坐标得到各点云的特征向量；

其中，属性特征包括：散射性S、线性L、平面性P和垂直性V，分别为：

u_j表示特征值λ_j的特征向量，ω表示权重；

步骤2、设置并训练三维点云的分类分割网络：

所述分类分割网络包括：第一位置变换网络、第一多层感知器、第二位置变换网络、第二多层感知器、最大池化层、第三多层感知器、第四多层感知器和第五多层感知器；

其中，第一位置变换网络和第二位置变换网络用于对输入的点云进行几何位置变换；通常可采用T-Net网络；第一多层感知器和第二多层感知器用于对输入的点云进行高纬空间映射处理；

分类分割网络的输入为步骤1得到的点云的特征向量依次经第一位置变换网络、第一多层感知器、第二位置变换网络、第二多层感知器和最大池化层后，得到全局特征图；

将全局特征图与第二位置变换网络后的特征图进行特征拼接，再输入第三多层感知器；

第三多层感知器用于对输入的特征图进行降维处理，降维后的特征图分别输入到第四多层感知器和第五多层感知器中，通过第四多层感知器进行实例分割、通过第五多层感知器进行语义分割；

基于预置的训练样本集和训练结束条件，对所述分类分割网络的网络参数进行训练，得到训练好的分类分割网络；

步骤3：对待处理的三维点云场景，采用步骤1的方式提取点云特征向量，并输入到训练好的分类分割网络中获取分割结果。

进一步的，还可以通过CRF(Conditional Random Field)函数模型对分割结果进行优化处理。

具体的优化处理为：

采用最小化能量函数实现对分割结果(联合语义实例的分割结果)，所述能量函数为：

其中，V表示三维场景的三维点云集合，

分别表示每个点云(也称三维顶点)v_j的语义标签和实例标签；

为关于实例标签

的一元势函数，用于表征点云属于某个实例标签的概率，下标j用于表示不同的点云；

为关于不同点云的实例标签

的二元势函数，定义为点云v_j和v_k的位置、颜色和属性特征的高斯混合，下标j,k用于表示两个不同的点云；

φ³(s,i)为基于语义标签s与实例标签i之间的相互信息定义的一元势函数，S表示语义标签集，I表示实例标签集；且φ³(s,i)＝-h_i(s)logh_i(s)，h_i(s)表示语义标签s在实例标签为i的点云中出现的频率。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明基于三维点云的几何特性，所提取的各特征向量除去点云基本信息(位置和颜色)之外，扩展了一系列新的属性来描述三维点云的特性，包括：散射性(Scattering)、线性(Linearity)、平面性(Planarity)和垂直性(Vertivality)。这些特性是通过三维点云的每个点的本地与邻域属性定义，进而提升分割性能；并引入新的CRF函数模型将语义分类和对象实例的联合优化分割结果，进一步提升对三维点云场景的分割性能。

附图说明

图1为关键点的数量对三维点云网络的精确度的影响示意图；

图2为本发明的分割网处理示意图；

图3为多层感知器示意图。

图4为三维点云的正则化处理示意图。

图5为三维点云的分割网络结构示意图。

图6为实施例的三维点云场景分割结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

针对基于深度学习的三维场景分割方法存在的技术问题，本发明提出了一种基于实例嵌入与语义融合的三维点云场景分割方法。并引入新的CRF函数模型将语义分类和对象实例的联合优化分割结果。本发明的基于实例嵌入与语义融合的三维点云场景分割方法，首先进行点云映射及特征扩展，然后进行深度神经网络模型设置，最后引入新的CRF进行分割结果优化，具体实现过程如下：

步骤一、点云映射及特征扩展。

数据集准备与处理是深度网络设置与数据处理的基础，现在三维点云数据集较之以前有所增加，但这些数据集的格式各不相同。应用于图片中的深度学习网络的数据集格式都是PNG格式，使用三维点云数据集的数据多为TXT格式，此外还有PLY格式或LiDAR格式，因此首先要解决不同三维点云格式统一转换问题，然后进行属性的提取与处理。

S1.1：点云映射。

在三维点云网络中，通过实验对比，发现深度网络的分割效果与三维点云数据中三维点云的数量有非线性关系。在三维点云网络中，关键点的数量对三维点云网络的精确度起着非常大的作用，如图1所示。在一个三维点云中，不断地减去该三维点云中点的数量，可以看出只有在关键点消失较多情况下三维点云分割的效果才会大幅度下降。因此在进行三维点云映射的处理，具体步骤如下：

S1.1.1首先将三维点云空间划分为体素空间，在本具体实施方式中，每一个场景的横坐标(X)，纵坐标(Y)以及垂直坐标(Z)的范围由该坐标表示的相距最远的点云坐标表示，同时设置每一个体素空间的边长为0.3m，不足的部分进行自动空白补齐；

S1.1.2对于三维点云的映射是将存在于一个体素块之内的所有点云聚集起来统一处理。求取平均位置属性作为映射后的新点云位置属性，求取平均颜色属性作为映射后的新点云颜色属性。

同时在进行体素空间划分时，分别为中心点云、边缘点云和顶点点云设置对应的邻域参数，即，使得映射后的中心点云和边缘点云都有一定数量的邻域点云。例如一个中心点云(即不在边缘位置的点云)的邻域至少有26个映射点云，一个边缘点云的邻域至少有17个映射点云，一个顶点点云的邻域至少有7个映射点云。这样做不仅大幅度缩减三维点云的数量，同时也为特征扩展提供了足够的邻域点云。

通过对初始三维点云数量以及删减后三维点云数量进行对比，可以发现，裁剪后的三维点云数量只有之前的十分之一，大大减少了三维点云网络的计算量。

S1.2：特征扩展。

在现有的网络中，只使用了原始网络中的XYZ(即位置坐标)信息，对于大多数的信息并没有加以利用。本发明中，根据三维点云的几何特性，除三维点云基本信息(位置坐标与RGB信息)之外扩展一系列新的属性来描述三维点云的特性。其属性包括散射性(Scattering)、线性(Linearity)、平面性(Planarity)、垂直性(Vertivality)。这些特性是通过三维点云的每个点的本地与邻域属性定义。其具体描述如下表所示：

S1.2.1散射性/线性/平面性描述。

对于每个邻域，计算邻域的位置坐标(XYZ)的协方差矩阵的特征值，并降序排列，得到λ₁≥λ₂≥λ₃。然后，根据最优邻域原则，选取邻域大小，使矢量λ₁/Λ,λ₂/Λ,λ₃/Λ与

的本征熵

最小。

基于所选取的最优邻域的λ₁、λ₂和λ₃，根据公式(1)计算每个点云的线性属性、平面性属性和散射性属性的度量值，从而限定局部邻域的形状。

线性(Linearity)描述了邻域拉长的程度，而平面度(Planarity)则评估了邻域能否被一个平面很好地拟合，最后散射值(Scattering)对应于其球面邻域中点云的散乱程度，最适用于散乱类别，例如室内的植物。这三个特征的组合称为维数。

S1.2.2垂直性描述。

邻域的垂直性证明对于区分平面和立面之间至关重要，因为它们具有相似的维度平面性(Planarity)。因此引入了一个新的描述符，称为垂直性(Vertivality)，对平面与立面进行区分，该特性是所选取的最优邻域的λ₁、λ₂和λ₃进行对应计算得到。设u₁,u₂,u₃分别是λ₁，λ₂，λ₃的特征向量，则根据公式(2)可得到当前点云的垂直性。

其中，k为预设值，即将三维空间中主方向的一元向量定义为特征向量坐标的绝对值与其特征值的加权之和，这个向量的垂直分量表征了点邻域的垂直性。

即，本发明中，将每个点云的特征信息维度由惯用的6维(三维位置坐标和三通道的颜色信息)扩展到12维：三维位置坐标(XYZ)、三通道的颜色信息(RGB)、Linearity、Planarity、Scattering和Vertivality

步骤二、基于语义与实例分割相结合的深度神经网络模型。

三维点云网络设计由三维点云的两种不同特殊性质决定：(1)三维点云是一系列无序的点集，三维点云从数据的表达形式来说是一个点的集合，因此对于点的顺序不敏感，点的顺序不影响集合本身。(2)由于三维点云从不同的角度进行扫描所得到的绝对坐标完全不同，但三维点云旋转不应改变分类结果，为克服这种问题需要对三维点云数据进行转换。

S2.1针对点云的无序特性。

通常将三维点云表达成一个二维的矩阵，即一个N行D列的矩阵。N行代表三维点云中有N个点，D列代表每一个点有D维特征。在三维点云集中，每一个点都是无序的。若将这个矩阵做一个行变换，变换后矩阵与变换前矩阵虽然不一样，但这两个矩阵所代表的点集其实是同一点集。

S2.1.1:需要一个对称函数对任意n个输入的点进行位置关系置换，使该函数始终保持相同的值。在对称函数的表达式中，通常采用置换函数ψ，如公式(3)。对任意输入的N个点进行位置关系置换，该函数会始终保持相同值。

f(x₁,x₂,…x_n)≡f(x_ψ1,x_ψ2,…x_ψn) (3)

该函数会把所有三维点云的几何特性基本上都丢失，因此需要把每一个点单独映射到一个更高维的空间。其中，ψ₁至ψ_N表示n个对应的置换函数，

S2.1.2:在更高维的空间里边再做该对称性操作。由于高维空间是一个冗余空间，用一个n(n>3)维的空间来表示一个三维空间的点，那么每一个点的信息是冗余的。由于信息的冗余，在对称性操作之后将其综合起来时，该冗余可以避免信息的丢失。在对称操作之后依然能够保存足够的三维点云信息。

S2.1.3:采用公式(4)进一步提取三维点云的特征。

f(x₁,x₂…x_n)≡γοg(h(x₁),h(x₂)…h(x_n)) (4)

该公式实际上是函数(g，h，γ)的组合。把每一个h放在每一个点上，每一个点从低维映射到高维。整个函数中只需确保函数g是对称，那么整个函数都是对称的，如图2所示。其中，P₁～P_n表示n个不同的点云。在本网络中，使用多层感知器(如图3所示的多层感知器)来描述函数h(·)和γ(·)，函数g(·)使用最大池化(Maxpooling)函数。其中，图3所示的多层感知器，包括三层，输入层(LayerL₁)、中间层(LayerL₂)和输出层(LayerL₃)，多层感知器的输出即为：h_W,b(X)，其中W表示层间权重矩阵，b表示偏置；

表示LayerL₂与LayerL₃之间的权重。

S2.2针对三维点云旋转不变性。

从不同的角度看同一个场景，其位置信息不同，但实际上代表的是同一个位置，因此希望网络能够适应这种视角变化。如图4所示，最左边输入的三维点云为n*k的矩阵，对这个n*k矩阵中的点做正交化变换可以维持三维点云的旋转不变性。但高维矩阵优化较为复杂，需要引入正则化函数，在本具体实施方式中，为了确保旋转不变性，需要尽可能使用正交矩阵，如公式(5)所示：

L_reg＝‖I-AA^T‖² (5)

L_reg是转换后的特征矩阵，I是对应于输入矩阵维度的单位矩阵，A是需要进行变换的矩阵。

其中，图4中所示的T-Net用于将不同旋转平移的原始点云和点云特征进行规范化(正交化变换)，再经过矩阵乘法(Matrix Multiply)得到对应的输出。

S2.3构建基于Point的网络模型。

将以上两个模块合并起来构造一个三维点云的分类分割网络，如图5所示。具体分割处理过程如下：

S2.3.1输入n个点，每一个点是12维，首先对输入点进行几何变换，通过一个12*12的变换网络做变换；

S2.3.2接着通过多层感知器(MLP)把每一个点投影到64维的空间上，然后再做高维空间变换，即：64维空间变换，把它变换到一个更归一化的64维空间。

S2.3.3继续通过多层感知器(MLP)把64维映射到更高的1024维空间，在这个1024维中使用对称函数，得到一个全局特征。

S2.3.4对三维点云场景做分割，根据语义标签以及实例标签进行分割输出两个结果并进行下一步的操作。

步骤三、设置CRF函数优化分割结果。

设V＝{v₁,…,v_n}是三维场景的三维点云。三维点云中的每个三维顶点v_j(j＝1,2,…,n)由其三维位置l_j＝[x_j,y_j,z_j]，颜色c_j＝[C_j,R,C_j,G,C_j,B]和维度(散射性(Scattering)、线性(Linearity)、平面性(Planarity)、垂直性(Vertivality))d_j＝[d_j,s,d_j,L,d_j,P,d_j,V]进行定义。令

表示分配给三维点云V的一组语义标签。令

表示V的一组实例标签。现在将每个顶点v_j∈V看作是一个图中的一个节点，两个任意的节点v_j,v_k由一条无向边连接，每个顶点v_j与它的语义标签

和由随机变量表示的实例标签

相关联。每个节点v_j都与两个标签