CN111311614B

CN111311614B - 基于分割网络和对抗网络的三维点云语义分割方法

Info

Publication number: CN111311614B
Application number: CN202010230019.0A
Authority: CN
Inventors: 焦李成; 李玲玲; 马清华; 刘旭; 孙启功; 刘芳; 张格格; 冯志玺; 郭雨薇; 杨淑媛; 侯彪
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2021-10-29
Anticipated expiration: 2040-03-27
Also published as: CN111311614A

Abstract

本发明公开了一种基于分割网络和对抗网络的三维点云语义分割方法，实现步骤为：(1)构建分割网络；(2)构建梯度估计模块；(3)构建对抗网络；(4)构建基于分割网和对抗网三维点云语义分割网络；(5)初始化分割网络和对抗网络；(6)生成训练数据集和训练标签集；(7)训练分割网络和对抗网络；(8)对三维点云数据进行分割。本发明通过对抗网络提取高维特征，分割网络进行点云分割，具有测试阶段点云分割时间短、分割结果精度高的优点。

Description

基于分割网络和对抗网络的三维点云语义分割方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像分类技术领域中的一种基于分割网络和对抗网络的三维点云语义分割方法。本发明可用于从室内机器人的机载深度摄像机采集的点云数据中分割障碍物，也可用于对卫星获取的城市遥感三维点云数据进行分类识别。

背景技术

点云是指通过测量仪器得到的产品外观表面的点数据集合。点云语义分割是指为点云中的每个点分配语义标签，是使用三维点云数据进行空间感知与分析的常用手段。在室内机器人避障领域，三维点云数据是记录物体的位置信息的一种重要载体。机载深度摄像机能够快速、大范围地获取到较高精度的三维点云数据，基于深度学习的点云分割方法是将三维点云数据直接输入到深度学习中，充分保留了点云数据的全局信息和局部信息，大大提高了分割精度。而在遥感图像领域，基于深度学习的点云分类方法是利用训练好的网络权重矩阵得到分割结果的多种特征图，从而对分割结果进行修正。

西安电子科技大学在其申请的专利文献“基于位置注意力和辅助网络的3D点云语义分割方法”(专利申请号：201910604264.0，授权公告号：CN110322453A)中提出了一种基于深度学习的3D点云语义分割方法。该方法首先获取室内环境中的三维点云数据，然后构建包括依次级联的特征下采样网络，位置注意力模块，特征上采样网络和辅助网络的语义分割网络，再利用基于期望最大化算法得到高斯混合模型的算法程序对点云数据进行初始分类，最后利用多分类的交叉熵损失函数对语义分割网络进行有监督的训练。该方法虽然加强了输入数据的各个质心所代表的特征之间的相关性，分割精度较高，但是，该方法仍然存在的不足之处是，由于该方法没有考虑到分割结果和真实标签之间的高维不一致性，导致了在分割结果中存在不合理的点的问题。

西安电子科技大学在其申请的专利文献“基于嵌套神经网络和栅格地图的三维点云分类方法”(专利申请号：201910493994.8，公开号：CN110222767A)中公开了一种遥感激光雷达点云分类方法。首先搭建嵌套神经网络，对三维点云数据进行标准化处理后，输入到构建的嵌套神经网络中进行训练得到分割结果，进而生成梯度图、类别图、混合图。利用坐标投影法修改三维点云的类别标签，得到最终分类结果。该方法虽然使用了有效的后处理手段更正分割结果，分类结果的区域一致性较好，但是，该方法仍然存在的不足之处是后处理过程增加了分割点云的时间，导致实际应用过程中测试阶段分割点云时间长的问题。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于分割网络和对抗网络的三维点云语义分割方法，用于解决现有三维点云语义分割方法中存在的未考虑到分割结果和真实标签之间的高维不一致性，导致了在分割结果中存在不合理的点，以及后处理过程增加了分割点云的时间，导致实际应用过程中测试阶段分割点云时间长的技术问题

为实现上述目的，本发明的思路是，首先将训练集输入到分割网络得到初始预测的标签结果，将初始预测的标签结果输入到梯度模块中得到预测标签结果，将预测标签结果和对应的标签集依次输入到对抗网络，对抗网络对依次输入的预测标签结果和标签集提取高维特征，分割网络和对抗网络交替训练，最后将只将待分割的点云输入到训练好的分割网络中，得到最后的点云语义分割结果。

本发明的技术方案包括如下步骤：

(1)构建分割网络：

(1a)搭建一个10层的分割网络，其结构依次为：第一提取层→第二提取层→第三提取层→第四提取层→第一回传层→第二回传层→第三回传层→第四回传层→第三卷积层→第四卷积层；

每个提取层的结构依次为：采样模块→分组模块→第一特征提取模块→第一最大池化模块；所述的第一特征提取模块的结构依次为：第一卷积层→第一批量归一化层→第一ReLu激活层；

每个回传层的结构依次为：插值模块→升维模块→第二特征提取模块→第二最大池化模块；所述的第二特征提取模块的结构依次为：第二卷积层→第二批量归一化层→第二ReLu激活层；

所有的采样模块均采用最远点采样算法实现；

所有的插值模块均采用三线性插值算法实现；

(1b)设置分割网络的参数如下：

将第一至第四提取层中采样模块的基准点个数依次设置为1024、512、256、128，将第一至第四提取层中第一特征提取模块的卷积核的个数依次设置为32、64、128、256，卷积核的大小均设置为3×3，卷积步长均设置为1；

将第一至第四回传层中的第二特征提取模块的卷积核的个数依次设置为128、64、32、16，卷积核的大小均设置为3×3，卷积步长均设置为1；

将第三至第四卷积层中的卷积核大小均设置为3，卷积步长均设置为1，卷积核个数依次设置为16、L，L的取值与真实标签的类别总数相等；

(2)构建梯度估计模块：

搭建一个3层的梯度估计模块，其结构依次为：加噪层→SoftMax归一化层→梯度转化层；

加噪层基于Gumbel噪声生成算法；

梯度转化层的结构依次为ArgMax层→编码层，反向传播时梯度转化层整体梯度设为1；

编码层采用onehot函数实现；

(3)构建对抗网络：

(3a)搭建一个8层的对抗网络，其结构依次为：降维层→第一提取层→第二提取层→第三提取层→第四提取层→最大池化层→第二卷积层→第三卷积层；

每个提取层的结构依次为：采样模块→分组模块→特征提取模块→最大池化模块；所述的特征提取模块的结构依次为：第一卷积层→LeakyReLu激活层；

所述的采样模块采用最远点采样算法实现；

(3b)设置对抗网络的参数如下：

将降维层的参数矩阵大小设置为L×4；

将第一至第四提取层的每个采样模块中的基准点个数依次设置为1024、512、256、128，将第一至第四提取层的每个特征提取模块中卷积核的个数依次设置为32、64、128、256，卷积核大小均设置为3×3，卷积步长均设置为1，将第一至第四提取层的每个LeakyReLu激活层的斜率均设置为0.2；

将第二至第三卷积层的卷积核大小均设置为3，卷积步长均设置为1，卷积核个数依次设置为64、32；

(4)构建基于分割网和对抗网三维点云语义分割网络：

将分割网络、梯度估计模块、对抗网络依次级联组成三维点云语义分割网络；

(5)初始化分割网络和对抗网络：

使用xavier_initializer函数将分割网络和对抗网络中所有的卷积层、批量归一化层以及降维层的权重初始化为满足Xavier分布的随机值；

(6)生成训练数据集和训练标签集：

(6a)从数据库中获取带有标签的三维点云数据文件F：{F₁,F₂,...,F_f}，其中，F_i表示第i个三维点云数据文件，F_f表示三维点云数据文件总数，F_f≥1400，每个三位点云数据文件中每行的前三个数值代表三维点云的三个维度的坐标值，后面的数字代表该三维点云的真实标签的独热编码；

(6b)用大小为1.5×1.5×1.5的立方体，步长0.75对每一个三维点云训练数据文件进行切割；

(6c)对切割后的每个数据块，采取不放回的方式随机抽取N个点组成一个点集，如果数据块中的点数不足N，则在本数据块中随机重复取样至N，重复上述过程直到数据块中所有的点都被抽取过，将每个点集中所有点的三个维度的坐标值作为一个数据集、所有点的真实标签的独热编码作为一个标签集，N≥4096；

(7)训练分割网络和对抗网络：

(7a)将每个数据集依次输入到分割网络中，分割网络输出每个数据集的初始预测的标签结果，利用分割网络的损失函数计算分割网络的损失值；

(7b)将每个数据集的初始预测的标签结果输入到梯度估计模块中，输出每个数据集的预测标签结果；

(7c)将每个数据集的预测标签结果与其对应的标签集依次输入到对抗网络中，对抗网络对依次输入的预测标签结果和标签集提取高维特征后分别输出对应的真伪概率，利用对抗网络损失函数计算对抗网络的损失值；

(7d)利用分割网络的损失函数计算分割网络中每个卷积层的卷积核的所有梯度、归一化层的所有梯度；使用Adam优化器迭代更新分割网络每个卷积层的卷积核的所有权重、归一化层的所有权重；所述Adam的初始学习率为0.001；

(7e)利用对抗网络的损失函数计算对抗网络中每个卷积层的卷积核的所有梯度、降维层的所有梯度；使用Adam优化器迭代更新对抗网络中每个卷积层的所有卷积核的所有权重、降维层的所有权重；所述Adam的初始学习率为0.0001；

(7f)依次重复步骤(7a)至(7e)，交替训练分割网络和对抗网络，直到分割网络的损失值不再产生明显变化，对抗网络的损失值接近0.25时，完成分割网络和对抗网络的训练，得到训练好的分割网络和对抗网络，分别保存训练好的分割网络中每个卷积层的每个卷积核的所有权重、归一化层的所有权重和对抗网络中每个卷积层的每个卷积核的所有权重、降维层的所有权重；

(8)对三维点云数据进行分割：

训练好的分割网络利用步骤(7f)保存的训练好的分割网络权重，对输入的待分割的三维点云进行分割，将得到的预测标签结果输入到梯度估计模块中的ArgMax层得到最终的分割结果。

本发明与现有技术相比较，具有以下优点：

第一，本发明通过对分割网络和对抗网络交替训练，利用保存的训练好的分割网络权重对输入的待分割的三维点云进行分割，由于对抗网络只参与了训练阶段，克服了现有技术问题中由于后处理过程增加了分割点云的时间，导致实际应用过程中测试阶段分割点云时间长的问题，使得本发明具有测试阶段点云分割时间短的优点；

第二，本发明将每个数据集的初始预测的标签结果输入到梯度估计模块中，输出每个数据集的预测标签结果，并利用对抗网络对依次输入的预测标签结果和标签集提取高维特征，克服了现有技术问题中由于没有考虑到分割结果和真实标签之间的高维不一致性，导致了在分割结果中存在不合理的点的问题，使得本发明具有分割结果精度高的优点。

附图说明

图1是本发明的流程图；

图2是本发明的网络结构图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参考附图1，对本发明的具体步骤做进一步的描述。

步骤1.构建分割网络。

搭建一个10层的分割网络，其结构依次为：第一提取层→第二提取层→第三提取层→第四提取层→第一回传层→第二回传层→第三回传层→第四回传层→第三卷积层→第四卷积层。

每个提取层的结构依次为：采样模块→分组模块→第一特征提取模块→第一最大池化模块；所述的第一特征提取模块的结构依次为：第一卷积层→第一批量归一化层→第一ReLu激活层。

每个回传层的结构依次为：插值模块→升维模块→第二特征提取模块→第二最大池化模块；所述的第二特征提取模块的结构依次为：第二卷积层→第二批量归一化层→第二ReLu激活层。

所有的采样模块均采用最远点采样算法实现。

所述的最远点采样算法实现的步骤是，从输入的点云中随机选择一个点作为基准点，再选择距离基准点最远的一个点作为新的基准点，重复这个过程直到得到满足设置的基准点个数。

所有的插值模块均采用三线性插值算法实现。

所述的插值模块采用三线性插值算法实现的步骤如下：

第1步，将第一至第四回传层中插值模块输出的点云的坐标依次设置为第三至第一提取层中采样模块的基准点的坐标、输入到分割网络的点云点的坐标；

第2步，利用下式计算插值模块输出的点云第i个通道的特征：

其中，FPⁱ表示插值模块输出的点云第i个通道的特征，d₁表示所有输入到插值模块的点云距离该点云的距离中第1近的距离，FP₁ ⁱ表示输入插值模块的点云中距离该点云第1近的点云第i个通道的特征，d₂表示所有输入到插值模块的点云距离该点云的距离中第2近的距离，

表示输入插值模块的点云中距离该点云第2近的点云第i个通道的特征，d₃表示所有输入到插值模块的点云距离该点云的距离中第3近的距离，

表示输入插值模块的点云中距离该点云第3近的点云第i个通道的特征，d₄表示所有输入到插值模块的点云距离该点云的距离中第4近的距离，

表示输入插值模块的点云中距离该点云第4近的点云第i个通道的特征。

设置分割网络的参数如下：

将第一至第四提取层中采样模块的基准点个数依次设置为1024、512、256、128，将第一至第四提取层中第一特征提取模块的卷积核的个数依次设置为32、64、128、256，卷积核的大小均设置为3×3，卷积步长均设置为1。

将第一至第四回传层中的第二特征提取模块的卷积核的个数依次设置为128、64、32、16，卷积核的大小均设置为3×3，卷积步长均设置为1。

将第三至第四卷积层中的卷积核大小均设置为3，卷积步长均设置为1，卷积核个数依次设置为16、L，L的取值与真实标签的类别总数相等。

步骤2.构建梯度估计模块。

搭建一个3层的梯度估计模块，其结构依次为：加噪层→SoftMax归一化层→梯度转化层。

加噪层基于Gumbel噪声生成算法。

所述的Gumbel噪声生成算法的步骤如下：

第1步，利用下式，计算Gumbel噪声：

G＝-ln(-ln(U(0,1)))

其中，G表示Gumbel噪声，ln表示以自然常数e为底的对数操作，U(0,1)表示标准随机均匀分布。

第2步，将生成的Gumbel噪声与分割网络输出的初始预测的标签结果相加。

梯度转化层的结构依次为ArgMax层→编码层，反向传播时梯度转化层整体梯度设为1。

编码层采用onehot函数实现。

步骤3.构建对抗网络。

搭建一个8层的对抗网络，其结构依次为：降维层→第一提取层→第二提取层→第三提取层→第四提取层→最大池化层→第二卷积层→第三卷积层；

所述的采样模块采用最远点采样算法实现。

设置对抗网络的参数如下：

将降维层的参数矩阵大小设置为L×4；

将第一至第四提取层的每个采样模块中的基准点个数依次设置为1024、512、256、128，将第一至第四提取层的每个特征提取模块中卷积核的个数依次设置为32、64、128、256，卷积核大小均设置为3×3，卷积步长均设置为1，将第一至第四提取层的每个LeakyReLu激活层的斜率均设置为0.2。

将第二至第三卷积层的卷积核大小均设置为3，卷积步长均设置为1，卷积核个数依次设置为64、32。

步骤4.构建基于分割网和对抗网三维点云语义分割网络：

将分割网络、梯度估计模块、对抗网络依次级联组成三维点云语义分割网络。

步骤5.初始化分割网络和对抗网络：

使用xavier_initializer函数将分割网络和对抗网络中所有的卷积层、批量归一化层以及降维层的权重初始化为满足Xavier分布的随机值。

步骤6.生成训练数据集和训练标签集：

从数据库中获取带有标签的三维点云数据文件F＝{F₁,F₁,...,F_f}，其中，F_i表示第i个三维点云数据文件，F_f表示三维点云数据文件总数，F_f≥1400，每个三位点云数据文件中每行的前三个数值代表三维点云的三个维度的坐标值，后面的数字代表该三维点云的真实标签的独热编码。

用大小为1.5×1.5×1.5的立方体，步长0.75对每一个三维点云训练数据文件进行切割。

对切割后的每个数据块，采取不放回的方式随机抽取N个点组成一个点集，如果数据块中的点数不足N，则在本数据块中随机重复取样至N，重复上述过程直到数据块中所有的点都被抽取过，将每个点集中所有点的三个维度的坐标值作为一个数据集、所有点的真实标签的独热编码作为一个标签集，N≥4096。

步骤7.训练分割网络和对抗网络：

第1步，将每个数据集依次输入到分割网络中，分割网络输出每个数据集的初始预测的标签结果，利用分割网络的损失函数计算分割网络的损失值。

所述的分割网络的损失函数如下：

loss_S＝loss_cross+loss_SA

其中，loss_S表示分割网络的损失函数，loss_cross表示分割网络的交叉熵损失，loss_SA表示分割网络的对抗损失，分别由下列公式得到：

其中，表示求和操作，R(·)表示输入到分割网络的数据集对应的标签集，ln表示以自然常数e为底的对数操作，SoftMax表示归一化指数函数，S(·)表示分割网络的输出，A(·)表示对抗网络的输出，E(·)表示梯度估计模块的输出。

第2步，将每个数据集的初始预测的标签结果输入到梯度估计模块中，输出每个数据集的预测标签结果。

第3步，将每个数据集的预测标签结果与其对应的标签集依次输入到对抗网络中，对抗网络对依次输入的预测标签结果和标签集提取高维特征后分别输出对应的真伪概率，利用对抗网络损失函数计算对抗网络的损失值。

所述的对抗网络损失函数如下：

其中，loss_A表示对抗网络的损失函数。

第4步，利用分割网络的损失函数计算分割网络中每个卷积层的卷积核的所有梯度、归一化层的所有梯度；使用Adam优化器迭代更新分割网络每个卷积层的卷积核的所有权重、归一化层的所有权重；所述Adam的初始学习率为0.0001。

第5步，利用对抗网络的损失函数计算对抗网络中每个卷积层的卷积核的所有梯度、降维层的所有梯度；使用Adam优化器迭代更新对抗网络中每个卷积层的所有卷积核的所有权重、降维层的所有权重；所述Adam的初始学习率为0.0001。

第6步，依次重复第1步至第5步，交替训练分割网络和对抗网络，直到分割网络的损失值不再产生明显变化，对抗网络的损失值接近0.25时，完成分割网络和对抗网络的训练，得到训练好的分割网络和对抗网络，分别保存训练好的分割网络中每个卷积层的每个卷积核的所有权重、归一化层的所有权重和对抗网络中每个卷积层的每个卷积核的所有权重、降维层的所有权重。

第7步，对三维点云数据进行分割。

训练好的分割网络利用保存的训练好的分割网络权重，对输入的待分割的三维点云进行分割，将得到的预测标签结果输入到梯度估计模块中的ArgMax层得到最终的分割结果。

步骤8.对三维点云数据进行分割：

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台：处理器为Intel Xeon CPU E5-26630 v3 CPU、主频为2.40GHz、内存为64GB、显卡为GeForce GTX 2080Ti。

本发明的仿真实验的软件平台：Ubuntu16.04操作系统、Python3.5开发平台、Tensorflow1.12.0。

本发明仿真实验所使用的输入点云为ScanNet三维点云数据，该三维点云数据采集自来自不同国家20位用户对周围环境拍摄的照片和Mechanical Turk平台500多名工人的标注，成像时间为2017年2月，每个点云文件大小至少为15000个点，点云共包含1513个场景和21类物体，点云格式为txt。

2.仿真内容及其结果分析：

本发明仿真实验是采用本发明和两个现有技术(Scannet、PointNet++)分别对输入的ScanNet数据集进行分割，获得数据集中每个点的分割结果。

在仿真实验中，采用的两个现有技术是指：

现有技术Scannet方法是指，Dai A等人在“Scannet:Richly-annotated 3dreconstructions of indoor scenes[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:5828-5839.”中提出的高光谱图像分类方法，简称Scannet。

现有技术PointNet++方法是指，Qi C R等人在“PointNet:Deep Learning onPoint Sets for 3D Classification and Segmentation[J].2016.”中提出的三维点云语义分割方法，简称PointNet++。

利用三个评价指标(平均交并比mIoU、总精度OA)分别对三种方法的分割结果进行评价。利用下面公式，计算平均交并比mIoU、总精度OA。

其中，T_i表示第i类点云的个数，P_i表示分类为第i类点云的个数，TP_i表示第i类点云被正确分类的个数。

将所有计算结果绘制成表1：

表1.仿真实验中本发明和各现有技术分割结果的定量分析表

方法	平均交并比mIoU(％)	总精度OA(％)
			Scannet	30.60	73.0
PointNet++	49.89	83.3
			本发明	50.70	85.4

结合表1可以看出，本发明的平均交并比mIoU为50.70％，总精度OA为85.4％，这两个指标均高于2种现有技术方法，证明本发明可以得到更高的三维点云语义分割精度。

以上仿真实验表明：本发明利用搭建的分割网络，能够提取三维点云的高阶特征进行预分割，利用搭建的对抗网络，能够对输入的预测分割结果和标签集进行区分，进而比较二者的高阶不一致性，通过处理好的三维点云数据集对分割网络和对抗网络进行训练，并保存训练好的分割网络中每个卷积层的每个卷积核的所有权重和归一化层的所有权重、对抗网络中降维层的所有权重、每个卷积层的每个卷积核的所有权重，通过保存的分割网的权重对输入的三维点云进行分割，解决了现有技术方法中存在的分割结果和真实标签存在高维不一致性、后处理过程增加分割点云的时间，导致在分割结果中存在不合理的点、测试时间长的问题，证明本发明是一种非常实用的三维点云语义分割方法。