CN110135227A

CN110135227A - 一种基于机器学习的激光点云室外场景自动分割方法

Info

Publication number: CN110135227A
Application number: CN201810136661.5A
Authority: CN
Inventors: 邓建华; 申睿涵; 孙一鸣; 周群芳; 何子远; 钱璨; 王韬; 王云; 邓力恺; 杨远望; 游长江; 管庆; 于永斌; 张开元
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2019-08-16
Anticipated expiration: 2038-02-09
Also published as: CN110135227B

Abstract

本发明涉及一种基于机器学习的激光点云室外场景自动分割方法，包括：将数据库中每一类体素数据按大致相同的比例提取出来并存储至训练集和验证集并将所有数据压缩；再将压缩后的训练数据集和验证集导入三维卷积神经网络中进行运算，从而提取各类地物的特征向量；通过每一类地物的特征向量与实际值之间代价函数来反馈调节深度神经网络的权重值，反复迭代直到代价函数小于设定阈值为止，然后可以得到一个存储着最优权重值的模型；然后利用空间信息和深度信息使用邻域算法做优化处理，这样既可以将去掉的体素点也做好分类，又能优化之前粗分类结果，从而实现细分类，并大大提高了场景分割的准确性和效率。

Description

一种基于机器学习的激光点云室外场景自动分割方法

技术领域

本发明涉及人工智能识别技术领域，尤其涉及一种基于机器学习的激光点云室外场景自动分割方法。

背景技术

激光雷达是一种非接触主动式快速获取物体表面三维密集点云的技术,可以直接获取具有三维坐标和回波次数等信息的海量、不规则空间分布的三维点云,而且受天气影响小,目前在全球变化、智慧城市、资源调查、环境监测、基础测绘等领域发挥着重要的作用。但是目前在实际生产中，由于地形变化的复杂性、地物的多样性以及点的密度不均匀性，点云物体场景重建都是人工或半自动方式完成，需要大量的人工通过摸索来设置软件相关参数，处理结果很不稳定，质量与数据处理人员的经验有很大关系。因此，发展高效、准确、自动化程度高的机载激光雷达点云场景分割是非常有必要的。

发明内容

本发明实施例通过提供一种基于机器学习的激光点云室外场景自动分割方法，解决了现有技术中室外的点云场景重建领域存在识别效率低、识别精度不高、无法全自动化的技术问题。

为了解决上述技术问题，本发明实施例提供了一种基于机器学习的激光点云室外场景自动分割方法，包括如下内容：

A.将数据库中每一类体素数据按大致相同的比例提取出来并存储至训练集和验证集并将所有数据压缩；

B.将压缩后的训练数据集和验证集导入三维卷积神经网络中进行运算，从而提取各类地物的特征向量；

C.通过每一类地物的特征向量与实际值之间代价函数反馈调节神经网络的权重值，反复迭代直到代价函数小于设定阈值，得到最优权重值的模型；

D.测试时，先将小于点数阈值的体素去掉，同时把大于体素点数阈值的体素数据进行压缩，使用之前训练好的最优模型进行计算，完成粗分类；

E.利用空间信息和深度信息使用邻域算法做优化处理，将去掉的体素点也做好分类并优化之前粗分类结果，从而实现细分类；

F.将分类好数据，按点进行可视化，不同类别用不同颜色渲染，完成室外场景分割。

采用本发明中的一个或者多个技术方案，具有如下有益效果：

1、由于采用深度三维卷积神经网络对数据库中的体素样本进行运算，从而提取出每一地物的特征向量，然后，对每一类地物的特征向量与实际值计算代价函数，当代价大于阈值时，反馈调节深度卷积神经网络中各个卷积核的权重，反复多次迭代之后，当代价函数小于阈值时，获得包含多个特征向量的最优识别模型；然后在测试时使用邻域算法进行优化，这样既大大的提高了识别精度和效率，又实现了全自动化分类。

2、由于在将体素样本导入深度卷积神经网络中进行运算时，对多个体素样本压缩打包成一个文件，能够提高读取速度并节约内存。

3.在邻域算法中利用深度信息以及相邻立方体信息来判定、分类，运算速度大大快于传统KNN算法。

附图说明

图1为本发明实施例中基于机器学习的激光点云室外场景自动分割方法流程示意图；

图2为本发明实施例中在三维卷积神经网络的中进行运算的流程图；

图3为本发明实施例中使用邻域算法进行优化的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是模拟人脑思维方式，因为人的视觉系统的信息处理是分级的，大脑的工作过程是一个不断迭代、不断抽象概念化的过程，例如，从原始信号摄入开始，接着做初步处理，然后抽象，然后进一步抽象，最后判定识别，也就是说高层的特征是低层特征的组合，从低层到高层的特征表达越来越抽象和概念化，即越来越能表现语义或者意图。深度学习其实很早就已经提出来了，但是由于硬件设施的局限性，一直没能实现，随着科技水平的不断发展，如今越来越多研究深度学习，深度学习是机器学习的一个分支，并可以做到与其他方法精度差不多的情况下，免去人工选取过程，实现自动化。另外再加上一些传统机器学习的方法提高自动化场景分割效率。

在训练的过程中，当神经网络的层数在6、7层时，所训练出的模型正确率不太理想，当层数等8层时正确率有了一个明显的提高。但是一旦超过9层，精度没有明显变化，但是明显的随着层数增加，运算速度会慢很多，在使用我们构建的数据集(5种地物类型，近8万体素样本)进行训练和测试时，线和塔的正确率达到90％左右，其他类能达到75％。

另外，我们在测试中设定了一个阈值，该阈值是对应的一个体素内点的个数总和，若小于阈值，我们则将该体素暂时去掉，因为点数过少也就是特征信息过少，很容易出现误识别，故我们只将大于阈值的体素进行数据压缩，然后导入之前训练好的模型进行一个粗分类；然后使用邻域算法进行优化，包括：纠正之前粗分类中识别错误的点，以及将之前去掉的体素里的点进行分类，这样算是完成了一个细分类。在细分类完成后，我们的精度有了明显提高，线和塔的精度已经达到了95％以上，其他类也在85％左右。

与此同时，我们使用的邻域算法是基于体素的，也就是说以一个体素为单位进行计算，体素内包含很多个点，而传统的knn算法是以点为单位计算的，所以说本发明在保证精度的前提下，运算速度也是比较可观的。

在具体实施方式中，首先是A步骤，将数据库中每一类体素数据按大致相同的比例提取出来并存储至训练集和验证集并将所有数据压缩。具体的，将提取出来的各类地物的体素样本，大部分做训练集，小部分做验证集。然后，将训练集和验证集分别压缩成一个文件，支持多进程读取，提高了读取速度、训练速度、以及减少了内存消耗。

接着，执行B步骤，将压缩后的训练数据集和验证集导入三维深度神经网络中进行运算，从而提取各类地物的特征向量。如图2所示为在三维卷积神经网络的中进行运算的流程图。

具体来说，先将训练集和验证集的压缩文件导入三维卷积神经网络的第一层卷积层(conv1)中，第一层输入是1个通道且体素分辨率是30*30*30大小，卷积核之间实现权值共享机制，大小为7*7*7，步长为1，并且使用边缘补零操作，这里需要在每条边外都补充3个长度的零值，这样可以保证体素中的每一维都能包括在卷积运算内，从而信息不会损失，输出是20通道的特征图。将偏置值和卷积过后的结果执行加法运算。然后，使用ReLU函数作为激活函数对数据做归一化处理，提供非线性因素和去除数据中的冗余，最大可能保留数据的特征，同时将结果向下传入到第二层池化层(pool1)。

第二层池化层(pool1)的输入就是第一层的最后激活函数处理后的输出，并对数据进行最大值池化(下采样，利用图像局部相关性的原理，对图像进行子抽样，可以起到降低数据维度，增加运算速度同时保留有用信息)操作，池化内核大小为2，这里是三维的，所以类似于是在一个2*2*2的立方体中查找最大值，池化步长为2，得到15*15*15大小的特征图。

第三层卷积层(conv2)，它的输入是第二层的输出，大小为5*5*5，步长为1，并且使用边缘补零操作，这里需要在每条边外都补充2个长度的零值，输出也是20通道的特征图。将偏置值和卷积过后的结果执行加法运算。然后，使用ReLU函数作为激活函数对数据做归一化处理，同时将结果向下传入到第二层池化层(pool2)。

第四层池化层(pool2)，与第二层类似，对数据进行最大值池化操作，池化内核大小为2，步长为2，得到8*8*8大小的特征图，输出通道同样为20个，池化处理后结果作为下一层的输入。

第五层也是卷积层(conv3)，它的输入是第四层的输出，大小为3*3*3，步长为1，并且使用边缘补零操作，这里需要在每条边外都补充1个长度的零值，输出也是20通道的特征图。将偏置值和卷积过后的结果执行加法运算。然后，使用ReLU函数作为激活函数对数据做归一化处理，同时将结果向下传入到第二层池化层(pool3)。

第六层池化层(pool3)，与第二层和第四层类似，对数据进行最大值池化操作，池化内核大小为2，步长为2，得到4*4*4大小的特征图，输出通道同样为20个，池化处理后结果作为下一层全连接层的输入。

第七层和第八层是全连接层以及后面的softmax操作，全连接层的输入是之前第六层的输出，特征大小和数量为4*4*4*20，先将该四维向量做拉直处理变成一个一维向量，然后进行线性运算，输出成一个300维的特征向量，然后使用softmax函数，softmax函数会输出一个n维向量(n是数据库中地物的类的总数)，另外，输出具体属于哪一类地物取决于n维向量的最大值索引。

实质上，神经网络就是在执行一个计算过程，每一层的输入与权值做点乘，以及加法处理，信息从输入层逐层传递到输出层。

在C步骤中，通过每一类地物的特征向量与实际值之间代价函数反馈调节神经网络的权重值，反复迭代直到代价函数小于设定阈值，得到最优权重值的模型。具体的，在使用softmax函数将每一类地物的特征向量与实际值计算信息交互熵，当交互熵大于设定阈值时，将交互熵通过负反馈算法通过链式法则求导，从后往前依次按极小化误差的方法反馈调节每层的权重值，当交互熵小于设置阈值(这里设置0.0001)或到达最大迭代次数(这里设250次)时停止计算，将此时的权重值保存下来，该模型即为最优模型，实际测试时可以调用。

D步骤是实际测试时，先将小于点数阈值的体素去掉，同时把大于体素点数阈值的体素数据进行压缩，使用之前训练好的最优模型进行计算，完成粗分类。具体的，先利用一个点云场景坐标信息进行体素化，再将生成的每一个体素内的点数进行求和，如果大于设定阈值(这里设20)话，该体素就保留，反之则去掉，然后把保留的体素样本全部进行数据打包，利用训练好的最优模型进行测试，可以完成大部分点的粗分类。

接着是E步骤,利用空间信息和深度信息使用邻域算法做优化处理，这样可以将去掉的体素点也做好分类，也能优化之前粗分类结果，从而实现细分类。

首先就电力线来说都是在空中的，从而有些地面上被误识别成电力线的点就可以通过深度信息处理掉，这里通过划分长方体的形式，XY固定边长这里设5米，Z轴就无限制(类似于微元法)；然后求出长方体内的最低点值(Z的最小值)，将该长方体内被识别成电力线的点的Z坐标值与最低点值作差，将差值小于阈值的点重置为未分类点(这里阈值设为10)。

同样先利用深度信息，划分长方体的形式去除地面上混杂着塔的点，不过边长这里设为10米，使用高度差的方式，在每个长方体内求出被识别成塔的点其Z轴的最大值和最小值，最大值和最小值作差，再在差值中寻找最大值，然后将差值小于阈值的点重置为未分类点(这里阈值设为0.5*差值的最大值)。但是有些比较高的植被若被识别成了塔仅仅使用深度信息是无法去掉的，又因为塔都是在线旁边的，所以每一个塔点通过寻找到电力线点的最近距离来判定，距离大于阈值的点重置为未分类点(这里阈值为所有之前电力线Z坐标值与长方体内最低点之间差值的最大值)。

针对其他类地物如：房子，道路，植被等，这里采取相邻体素法进行优化，因为在之前粗分类时，每个体素都会有一个识别结果，而房子，道路，植被这些通常是成片存在的，所有他们周围的体素必然有同类型的，在这里以一个体素为中心，提取出与之相邻的26个体素测试到目前的类型值，若与中心体素类型值相等的体素小于等于阈值的话，将中心体素内所有的点重置为未分类点(多次实验发现这里阈值设为2效果最好)。

然后再将那些未分类的点利用KNN方法进行分类，寻找与该点最近的K个点，这些点中哪一类型地物占的最多，则将该点置为哪一类。

最后执行F步骤，将E分类好数据，按点进行可视化，不同类别用不同颜色渲染，完成室外的点云场景重建。具体的，利用OpenGL画3D图形，每个点按不同的类型使用不同的颜色进行可视化。

上述的方法可以适用于室外各种地形，密度变化比较大的点云场景中，当然，本申请可以应用于智慧城市、乡村的资源环境监测、建筑物违章查询等，在本发明实施例中就不再详细赘述了。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于机器学习的激光点云室外场景自动分割方法，其特征在于，包括如下内容：

A.将数据库中每一类体素数据按相同的比例提取出来并存储至训练集和验证集并将所有数据压缩；

2.根据权利要求1所述的基于机器学习的激光点云室外场景自动分割方法，其特征在于，所述将数据库中针对同一种类地物的多个体素样本划分并存储至训练集合验证集，保证各类体素样本数大致相同，并将其压缩统一的格式，具体为：

将数据库中针对同一种类地物的占据多数比例的体素样本存储至训练集，将占据少数比例的体素样本存储至验证集，将所有训练集和验证集体素样本各自压缩打包成一个文件。

3.根据权利要求1所述的基于机器学习的激光点云室外场景自动分割方法，其特征在于，将所压缩后数据集导入深度三维卷积神经网络中进行运算，从而提取每种地物的特征向量，具体为：

将所压缩的训练集和测试集导入三维深度卷积神经网络中的八层网络中进行运算，包括:卷积、池化、全连接、ReLU等。从而提取每一种类地物的特征向量。

4.根据权利要求3所述的基于机器学习的激光点云室外场景自动分割方法，其特征在于，将所压缩后数据集导入八层的深度卷积神经网络中进行运算，从而提取每种地物的特征向量，具体包括：

将压缩后的文件数据集直接导入深度卷积神经网络的第一层卷积层中；第2层是池化层，使用最大值池化法，为了降维，提高运算速度。在前3层卷积层中依次进行SAME卷积运算、加法运算、激活函数处理后，进入第4层池化层；在第4层池化操作与第2层类似，然后将池化后的结果输入到第5层中；第5层卷积层其实也是与类似，只不过减小卷积核的长宽；第6层池化和第2、4层都是设置一样参数；池化结果作为后面全连接层的输入；在第7，8层全连接层中依次进行乘法运算、加法运算、向量拉直、激活函数处理softmax操作计算后，输出成特征向量。

5.根据权利要求4所述的基于机器学习的激光点云室外场景自动分割方法，其特征在于，所述将输出的每一类地物的特征向量与其实际值计算信息交互熵，当交互熵大于设置阈值时，反馈调节每层的权重值，当交互熵小于设置阈值时停止计算，将此时的权重值存储为最优模型，提供给测试调用，具体为：

在计算代价函数时中，使用softmax函数将每一类地物的特征向量与实际值计算信息交互熵，当交互熵大于设定阈值时，将交互熵通过负反馈算法通过链式法则求导，从后往前依次按极小化误差的方法反馈调节每层的权重值，当交互熵小于设置阈值或到达最大迭代次数时停止计算，将此时的权重值保存下来，该模型即为最优模型，实际测试时可以调用。

6.根据权利要求1所述的基于机器学习的激光点云室外场景自动分割方法，其特征在于，在实际测试时，生成体素后将数据压缩，但是只将一个体素内拥有大于设定阈值的体素保留，使用训练完成的最优模型进行粗分类，具体为：

先将生成的体素内的点数做求和，如果大于设定阈值话，该体素就保留，反之则去掉，然后把保留的体素样本全部进行数据压缩成一个文件，利用训练好的最优模型进行测试，可以完成大部分点的粗分类。

7.根据权利要求1所述的基于机器学习的激光点云室外场景自动分割方法，其特征在于，将粗分类过后的结果，再使用邻域算法进行优化，并且将之前因为体素内点数小于设定阈值的体素内的点也进行分类，完成细分类，具体为：

首先将地面上被误识别成电力线的点通过深度信息处理掉，通过划分长方体、高度差的形式，将差值小于阈值的点重置为未分类点；

利用深度信息、高度差的方式，再在差值中寻找最大值，然后将差值小于阈值的点重置为未分类点；另外加上通过每一个塔点来寻找到电力线点的最近距离来去除高层植被带来的误识别，距离大于阈值的点重置为未分类点；

针对其他类地物如：房子，道路，植被等，采取相邻体素法进行优化，以一个体素为中心，提取出与之相邻的n个体素测试到目前的类型值，若与中心体素类型值相等的体素小于等于阈值的话，将中心体素内所有的点重置为未分类点；

然后再将那些未分类的点利用KNN方法进行分类，这样就完成了整个细分类工作。

8.根据权利要求1所述的基于机器学习的激光点云室外场景自动分割方法，其特征在于，将细分类后的结果按点可视化，完成室外点云的场景重建，具体为：

将之前细分类好数据，按点进行可视化，不同类别用不同颜色渲染，完成室外点云场景重建。