CN113449736A

CN113449736A - 一种基于深度学习的摄影测量点云语义分割方法

Info

Publication number: CN113449736A
Application number: CN202110805197.6A
Authority: CN
Inventors: 徐俊; 杜宣萱; 孙力; 陶林康; 肖刚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Moganshan Research Institute Of Deqing Zhejiang University Of Technology
Priority date: 2021-01-14
Filing date: 2021-07-16
Publication date: 2021-09-28
Anticipated expiration: 2041-07-16
Also published as: CN113449736B

Abstract

一种基于深度学习的摄影测量点云语义分割方法，首先为原始点云设计一组数据增强方法来提高局限训练数据的泛化能力；然后在网络的每一层动态地更新点云局部邻域图，将跨层点描述与上下文特征结合起来并逐层汇聚点云空间潜在语义信息；最后在每个网络层引入通道注意力机制使网络能够自适应学习通道间的权重，并由此建立基于轻量级通道注意池(ChannelAttentivePooling)的点云语义分割网络，实现复杂点云的细粒度语义分割。本发明提供一种轻量级、空间关系敏感且具有良好普适性的基于深度学习的摄影测量点云语义分割方法。

Description

一种基于深度学习的摄影测量点云语义分割方法

技术领域

本发明涉及摄影测量数据处理技术领域，具体涉及一种基于深度学习的摄影测量点云语义分割方法。该方法能够实现对摄影测量点云的语义信息提取和自动标注。

背景技术

近年来，倾斜摄影测量技术发展成为国内外摄影测量与遥感领域的一种高新技术。将倾斜影像作为数据源，结合计算机视觉、计算机图形学和机器学习等邻域的理论和技术，最终实现全自动实景三维构建。该技术克服了传统摄影测量的局限，从时效性和真实性上都满足了智慧城市和数字孪生的需求，目前已被广泛应用于高精度大比例尺地形图测绘、环境监测、森林资源调查、地震灾害评估、历史建筑信息存储等领域。

通过多视影像密集匹配可以快速获得类比激光扫描数据精度的大规模室外点云。点云是近年来一些应用的高分辨率地理空间数据的基本类型，如机器人导航、自动驾驶汽车以及虚拟现实中的三维模型构建。摄影测量点云则更多表现在室外场景，特别是城市环境，必然包含大量建筑群、道路、植被、人工设施等城市地物的三维几何表达。然而这种真实感三维点云没有直接包含区分对象的语义信息，不允许在虚拟环境或地形模型中进行各种用户级或对象级交互。区别于图像常规像素，点云通常以离散的集合形式呈现，即一种无空间拓扑结构的数据。因此，分割和识别原始点云并为每个点分配一个预定义的语义类，可以抽象出地物之间的空间关系、相关动态活动，更是在不同应用领域实现表达、探索、分析和管理等任务的前提。

传统的点云处理方法大多是在对点云数据进行特定人为定义的特征提取的基础上，结合随机森林(Random Forest,RF)、支持向量机(SupportVector Machine,SVM)等分类机，通过训练一组特征分类器来完成散乱点云数据的语义分割任务。显然，这类方法的性能很大程度上要依赖专家经验和分类算法。虽然国内外很多学者基于各种应用场景提出了一些生成三维全局描述符的方法，如自旋图像、快速点特征直方图(FPFH)、热核签名(HKS)和直方图定位签名(SHOT)等，但是这种人工定义特征无法完全适用于所有语义分割场景。随着深度学习和先进的图形处理单元(GPU)技术为图像和视频的目标检测和语义分割带来显著的性能提高，一些学者转向将原始的三维点云从多角度投影到二维平面，转换为图像分割任务来处理，典型的代表有SnapNet，但通过投影降维的方法以在一定程度上损失空间信息，特别在复杂的空间分布下，会更容易得到一个很糟糕的结果；或是将像素(pixel)概念扩展到三维空间，以体素(voxel)化来组织空间点间的拓扑关系，然后再输入深度学习模型，如SEGCloud，然而这种方法是以消耗过多的内存为代价的，并且很难捕获高分辨率和细粒度的特征。

为了避免以上多方位投影和体素构造的繁琐过程，PointNet开创了一种新的直接消耗点的深度学习体系结构，它使用共享的多层感知器(Multilayer Perceptron,MLP)和变换网络(T-Net)来独立的学习每个点的特征，并以一个简单的聚合操作来提取全局表示；PointNet++考虑了点云的局部结构，它以分层的方式处理一组点，然后将得到的局部特征进一步聚合成更大的单元，生成更高层次的特征。接着研究人员进一步证明了图卷积网络(GCN)理论在建立非欧几里德数据间关系上是可行的，如SPECGCN充分利用谱卷积结合递归聚类和池策略构造图；DGCNN构造了一个基于当前特征的动态图来表示点的邻域关系，并递归地更新每个点的表示。然而以上方法还没有被用于大规模的场景。

最新的一些工作已经开始着手解决直接处理大规模室外点云的场景理解问题。SPG从图像分割的超像素思想中受启发，为大规模点云构造一个超级图进行预处理，进而再学习每个超点的语义，使每个超点都代表简单的形状并由邻接边来捕捉邻接关系；完全卷积点网络(FCPN)将体素化和点级网格结合起来，以无组织的三维表示作为输入，然后再进行有组织的三维卷积；SK-Net模型里用到了一个PDE模块来学习一组关键点；RandLA-Net提出了一个新的局部特征聚合模块，通过逐步增加每个点的接收场来保持复杂的局部结构。

值得一提的是，以上基于深度神经网络的工作基本集中在激光点云的处理上，相关摄影测量点云的语义分割研究工作较少导致缺乏公开的样本数据集。另外，由于摄影测量点云的空间分布和数据源都不同于激光点云，将激光点云的处理方法直接用到摄影测量点云上的效果并不好，现阶段细粒度语义分割对于高分辨率摄影测量点云来说仍是一个挑战。

发明内容

为了克服现有技术的不足，本发明提供了一种基于动态图卷积和通道注意力的摄影测量点云语义分割方法，采用数据增强方法来改善局限的航空数据集，此外还建立了一种轻量级、空间关系敏感的深度神经网络模型来实现摄影测量点云的语义分割。

本发明解决其技术问题所采用的技术方案是：

一种摄影测量点云语义分割方法，包括以下步骤：

步骤一、对航空点云数据集做数据增强，过程如下：

1.1)将坐标原点归于(0,0,0),通过减去各维度最小值来保证所有坐标均为正值，得到

1.2)对数据集中所有点做主成分分析(PCA)后变换坐标，保证z轴向上，同时地势对z轴的影响，并由此得到

1.3)对所有点以随机角度绕z轴旋转r次，以增加输入形状的多样性，得到

其中|J₁|＝r|J₀|；

1.4)计算兼顾原点和各维度最大值max(x)、max(y)、max(z)的各点全局归一化坐标

同时将各点的绝对坐标转换为归一化坐标p_i＝(x_i,y_i,z_i)，然后更新点描述并构造输入点云

其中

将数据集的前三项归整到0和1之间，表示学习的空间信息，同时将绝对尺寸保存在后三项中，以实现信息解耦；

1.5)训练时实时下采样，对于输入点云

随机采样得到包含H个中心点的集合

在任意中心点附近范围内取点共n个，范围大小在三个尺度[a,b,c]内随机选取，其中a、b、c是柱形采样空间的截面边长，如此得到的标准的规模为n的点云子集作为模型的最终输入；

步骤二、训练点云分割模型并输入待测的摄影测量点云，过程如下：

2.1)将跨层点描述与上下文特征结合起来并逐层汇聚，以此获得更好的特征表示，该模块称为EdgeConv++，过程如下：

2.1.1)在网络的每一层构造具有顶点V^l和边E^l的局部有向图结构，描述为元组G^l＝(V^l,E^l)，将点云中每个点看作是图中的顶点，点之间的每个边看作邻域关系。对任意中心顶点

通过基于点向欧几里德距离的KNN算法获取最近邻域点集{p_i1,p_i2,...,p_iK}；

2.1.2)建立p_i与邻域特征

的联系，其中

是边e_ij的特征描述，D为特征向量的维数。将中心点坐标捕获的全局形状结构与邻域内点和中心点之间的局部邻域信息显式的结合起来，定义如下：

2.1.3)在与中心顶点相关联的边特征集上应用一个通道对称聚合函数，接着融合上一层网络的顶点特征和当前层网络动态更新的邻域特征，然后输出当前层所更新的顶点特征，定义如下：

2.1.4)为顶点特征和局部特征分配适当权重，根据动态图选择性地聚合上下文信息，在函数g中具体用两个尺度参数来体现，其中α被初始化为0，β被初始化为1，带有自适应权重分配的顶点更新函数g定义为：

2.2)建立一个通道注意池(Channel Attentive Pooling)模块，将局部空间信息压缩(Squeeze)成一个通道描述器，然后显式的建模通道之间的动态、非线性依赖关系以自适应的提高特征的可辨性，最后加权聚合每个通道表示来获得局部通道结构信息，过程如下：

2.2.1)对于特征矩阵

其中K是邻域点的数目，C是特征通道的数目，使用局部平均池化(Average Pooling)来获得挤压局部信息描述符，分别从C个通道的K维空间计算向量χ的所有元素：

2.2.2)为计算每一个通道对于局部信息的重要性表示，即局部信息对于各个通道的依赖关系的一种预测，使用两个完全连接层来生成通道依赖关系：

s＝Ex(χ,W₁,W₂)＝σ(δ(χ,W₁),W₂)

2.2.3)将上述预测的依赖关系显式的注入至网络中，在特征映射

和标量s_c之间的进行通道乘法操作，进一步更新u^c：

2.2.4)利用边特征更新函数来增强每个邻域节点的特征表示，使增强的邻域节点特征具有局部鉴别性，能够反应其到中心顶点的信息传播过程，记为边特征；

2.2.5)利用一个具有置换不变性的对称函数来聚合增强的邻域点向信息，实现上下文信息的提取；

三维点云语义分割的深度神经网络模型在训练中利用损失函数基于真实类别进行损失值的计算，得到预测误差，使用随机梯度下降法(stochastic gradient descent,SGD)来求解训练数据集上语义分割任务的最优模型，将每一个点看作一个多分类问题，目标函数表示为：

其中y_nm是指示变量取0或1，如果该类别m和样本n的类别相同就1，否则是0；

2.3)将待测摄影测量点云输入训练好的三维点云语义分割神经网络模型，得到摄影测量点云的分割结果。

通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明根据航空激光扫描训练集的特点，提出一组数据规整和数据增强方法，从规模和质量上增强训练数据表现能力，能够提高模型对随机遮挡和地物粘连点云数据的鲁棒性，同时也能对抗训练过拟合。

(2)本发明通过考虑全局空间特征和动态局部空间两种关系，使用局部邻域信息分层融合的EdgeConv++方法以动态的捕捉点云局域间的空间关系，通过融合其跨层点描述和上下文特征来丰富每个点的表示，并进一步利用一个融合语义与细节的特征增强机制来更有效的学习复杂的局部结构。

(3)本发明将空间信息显式嵌入到特征通道，使用注意力策略来学习不同通道间的非线性关系，以自适应的增强点云特征表示。

附图说明

图1是摄影测量点云语义分割方法的具体流程图。

图2是深度神经网络结构示意图。

图3是深度神经网络中局部邻域信息分层融合模块的示意图。

图4是深度神经网络中通道注意力模块的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1～图4，一种基于深度学习的摄影测量点云语义分割方法，包括：

步骤一、对航空点云数据集做数据增强

训练数据集Vaihingen由航空机载激光扫描获取，平均密度为4points/m²，其中将753,876点作为训练集，数据集共标记有9类分别为电力线、低植被、防渗表面、汽车、围栏、屋顶、立面、灌木和树木，过程如下：

其中|J₁|＝r|J₀|；

其中

1.5)训练时实时下采样，对于输入点云

随机采样得到包含H个中心点的集合

在任意中心点附近范围内取点共4096个，范围大小在三个尺度[2,5,10]内随机选取，其中2、5、10是柱形采样空间的截面边长，如此得到的标准的规模为4096的点云子集作为模型的最终输入。

步骤二、训练点云分割模型并输入待测的摄影测量点云，使用航空点云Vaihingen训练集训练语义分割神经网络模型，训练样本标签为真实的9个语义类别，数据内容包含实际三维坐标以及经过步骤一数据增强后的归一化坐标信息，即

其中

进一步地，将摄影测量点云数据集中的点云语义分类为9类，包括：电力线、低植被、防渗表面、汽车、围栏、屋顶、立面、灌木和树木。

如图2所示，语义分割神经网络模型的每一层网络主要由具有分层提取和更新点特征功能的EdgeConv++模块和具有聚合增强特征功能的通道注意池化(ChannelAttentive Pooling)模块组成。本发明的EdgeConv++模块能够融合跨层点描述和上下文特征来丰富每个点的表示，并进一步利用一个融合语义与细节的特征增强机制来更有效的学习复杂的局部结构；通道注意池化(Channel Attentive Pooling)模块使用注意力策略来学习不同通道间的非线性关系，以自适应的增强点云特征表示，过程如下：

2.1)每一层网络都以N×F张量作为输入，如图3所示，EdgeConv++层更新每个点的KNN邻域点集{p_i1,p_i2,...,p_iK}，为顶点特征和局部特征分配适当权重，根据动态图选择性地聚合上下文信息：

2.2)多层感知器(MLP)计算每个边缘特征，层神经元的数目定义为{a₁,a_n,...,a_n}，并生成N×a_n维的张量；

2.3)如图3所示，通道注意池化(Channel Attentive Pooling)ChannelAttentive Pooling依次进行自适应特征校准、更新计算边缘特征集

以及聚合边缘特征以实现各顶点的EdgeConv++响应。

2.4)经过3层网络之后，通过融合当前低层次特征、中层次特征和高层次特征来进一步增强特征表示并输出N×192维的特征信息，馈送到网络的下一层。

2.5)经过第4层网络之后，将前4层网络的特征输出融合，并输出得到N×1216维的特征信息。

2.6)在Softmax层产生一个评分矩阵

其中M为类别数量，

表示p_n点属于类别m的概率，概率最大的索引值即为对应的类别标签。

2.7)利用pytorch包的自动梯度记录功能，由

和真实标签

计算梯度，并使用梯度下降法训练模型。其中学习率Learning rate取0.001，动量Momentum取0.9，优化方法使用Adam。随着训练的进行，逐渐减少学习率，并引入学习率衰减参数Decay Rate，每一轮(epoch)学习减少一定的学习率，以防止过学习。其中Decay Rate取1e-4，epoch取128。在分层提取特征模块中，将上下文参数K取值为20。

2.8)将待测摄影测量点云输入训练好的三维点云语义分割神经网络模型，得到摄影测量点云的分割结果。

在实践应用中，利用本方法可以得出良好的摄影测量点云语义分割结果，相比于以往无人机点云的处理方法更具普适性，并适用于复杂的大规模室外场景。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。