CN112819830A

CN112819830A - 基于深度学习与机载激光点云的单株树冠分割方法

Info

Publication number: CN112819830A
Application number: CN202110092586.9A
Authority: CN
Inventors: 云挺; 陈鑫鑫; 张运玲; 曹林
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2021-01-24
Filing date: 2021-01-24
Publication date: 2021-05-18

Abstract

本发明公开一种基于深度学习与机载激光点云的单株树冠分割方法，包括获取研究场地的点云数据；将去噪后的点云数据分为地上点和地面点；提取地上点中单株树木点云，将不同树木划分在不同的体素内；构造训练样本数据集；对PointNet深度神经网络开展训练；将待测场地的地上点通过体素化的方法细分为多个体素，将体素内点云数据转换为PointNet所需格式后，输入到训练好的PointNet模型内，识别出树的每个体素中的点云；将每个体素DSM的梯度信息结合惯性动量梯度的方法定位树冠的边界点，根据边界点勾勒出分割的树冠。本发明在体素尺度上识别树木，并结合高度相关的梯度信息来完成单株树冠的划定，单株树冠分割精确较高。

Description

基于深度学习与机载激光点云的单株树冠分割方法

技术领域

本发明属于林木技术领域，具体涉及一种基于深度学习与机载激光点云的单株树冠分割方法。

背景技术

精确分离单株树木在树木参数反演中起着至关重要的作用。森林的参数，如树木位置、树高、冠层密度、树木冠幅、树种和胸高径等，对于森林资源管理、野外清查和造林活动执行至关重要。传统的树木结构参数的获取通常是通过现场测量得到，但这一过程非常耗时耗力、破坏性也大。而光探测和测距(LiDAR)是一种自动的遥感技术，以其高精度和高效率的特点成为获取详细、准确的目标表型数据的最有效的测量技术之一。根据运载平台的不同，激光扫描系统可分为机载激光扫描(ALS)、基于卫星的激光扫描(SLS)、车载激光扫描(VLS) 和地面激光扫描(TLS)四类。与ALS类似，无人机(UAV)提供了激光雷达数据采集的替代平台，在低速、低空飞行时，可以降低成本，提供更密集的LiDAR点。

如上所述，单树冠层的检测和分割是准确估计单树结构属性的一个基本步骤。我们将现有的单株树冠分割方法分为两大类，这两种方法在林业领域都得到了广泛的应用：(1)基于 CHM(Canopy Height Model)的方法，该方法利用图像处理对单株冠幅进行分割，然后利用局部最大值来确定树冠的位置。采用标记控制的分水岭算法、基于图的分割算法、基于拓扑关系的局部轮廓展开等算法，根据检测到的树顶位置完成树冠分割。然而，由于森林的不均一性、闭塞的林冠以及不透光的冠层导致，这些算法的精度相对较低。(2)基于点的方法，该方法是一种大量计算三维点的方法。该方法有效减少了单株树尺度下信息的丢失，避免了生成CHM过程中点云插值带来的误差，如K-means聚类、mean-shift算法、体素空间投影、自适应多尺度滤波和区域生长方法。然而，由于树冠可能是极其不规则的，而且往往是严重相交的天然林，这些方法对单株树冠进行精确分割的结果仍有待改进。

深度学习作为机器学习的一个新领域，被广泛应用于图像分类、目标检测和定位等方面。使用卷积神经网络(CNN)的深度学习算法在二维图像的自动分类方面有着很好的效果和应用，如人脸识别、自动驾驶、医学成像、水果和蔬菜检测。但是更多的三维物体的表型结构会直接反映在点云中，使用二维网络会丢失原有的信息和空间特征。因此，许多研究团队都提出了三维空间目标检测的方法。

目前，随着激光扫描技术的发展，三维深度学习受到了广泛的关注。基于深度学习的三维点云识别方法可分为四大类：(1)基于特征的方法，该方法从点云中提取特征描述符，然后利用全连通网络对形状进行分类。然而，该方法受到所提取特征的表示能力的限制。(2) 多视图方法，该方法采用二维卷积对利用投影策略从不同角度转换三维点云或形状的二维图像进行分类。基于多视图的方法在分类任务中取得了良好的效果，但在转化为二维图像的过程中会丢失了原始的三维空间位置信息。(3)基于体素化的方法，就是将无序点云转化为连续排列的体素网格，通过三维卷积神经网络对体素网格进行分类。基于体素化的方法可以有效地保留每个体素中点云的原始空间信息，有利于后续的精细处理，以获得准确的目标描绘。对比上述三种方法的性能，基于体素化的方法可以使用分治策略从所研究的复杂场景的整个采集数据中识别小目标，然后将识别的结果拼接在一起，实现从整个采集数据中提取小对象。许多研究人员也提出了一些相关的深度学习框架，如PointNet,Kd-Network和PointCNN等。 PointNet是一项开创性的工作，它将每个体素中的原始点云作为深度学习的输入。该模型为面向对象分类、部分分割到场景语义解析的应用提供了统一的体系结构框架。

综上所述，需要提供一种基于PointNet方法的单株树冠分割方法，实现对单株树冠的精确分割。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于深度学习与机载激光点云的单株树冠分割方法，本基于深度学习与机载激光点云的单株树冠分割方法在体素尺度上识别树木，并结合高度相关的梯度信息来完成单株树冠的划定，单株树冠分割精确高。

为实现上述技术目的，本发明采取的技术方案为：

一种基于深度学习与机载激光点云的单株树冠分割方法，包括以下步骤：

(1)获取研究场地的激光雷达点云数据；

(2)去除点云数据的噪声点，将去噪后的点云数据分为地上点和地面点；

(3)手工提取地上点中单株树木的点云，然后以体素为界，将不同的树木划分在不同的体素内；

(4)将每个体素的单株树木点云数据格式转换为PointNet所需的格式后，构造训练样本数据集；

(5)将步骤(4)中的训练样本数据集采用数据增广的方法生成了新的训练样本数据集；

(6)采用新的训练样本数据集对PointNet深度神经网络开展训练，得到训练好的PointNet 模型；

(7)采集待测场地的激光雷达点云数据，去除点云数据的噪声点，将去噪后的点云数据分为地上点和地面点，对地上点通过体素化的方法细分为多个体素，将每个体素内的点云数据转换为PointNet所需的格式后，一起输入到训练好的PointNet模型内，自动识别出树的每个体素中的点云；

(8)将识别为树的每个体素中的点云映射到DSM上，计算得到每个体素DSM的梯度信息，将每个体素DSM的梯度信息结合惯性动量梯度的方法定位相邻树冠的边界点，再根据边界点勾勒出要分割的树冠表面，实现单株树冠的分割。

作为本发明进一步改进的技术方案，所述的激光雷达点云数据通过无人机上的Velodyne HDL-32E传感器采集获取。

作为本发明进一步改进的技术方案，所述的步骤(2)和步骤(7)中去除点云数据的噪声点，将去噪后的点云数据分为地上点和地面点，具体为：

采用高斯滤波的方法去除点云数据的噪声点，采用布模拟滤波方法将去噪后的点云分为地上点和地面点。

作为本发明进一步改进的技术方案，所述PointNet所需的格式为HDF5格式。

作为本发明进一步改进的技术方案，所述的步骤(3)具体包括：

(3.1)手工提取地上点中单株树木的点云，然后以体素为界，将不同的树木划分在不同的体素内；

(3.2)手工提取地上点中建筑物的点云，然后对属于建筑物的地上点通过体素化的方法细分为多个体素；

(3.3)手工提取地上点中除了树木和建筑物的其他物体的点云，然后对属于其他物体的地上点通过体素化的方法细分为多个体素。

作为本发明进一步改进的技术方案，所述的步骤(4)具体为：

将步骤(3)中的每个体素中的点云数据格式均转换为PointNet所需的格式后，构造训练样本数据集。

作为本发明进一步改进的技术方案，所述的PointNet深度神经网络在训练过程中，体素的损失函数为：

其中

为指示器，如果当前计算类别ζ和训练样本类别l相同，则

否则

其中类别共有三类，具体为树木、建筑物和其他物体；N＝(类别数-1)＝2； l＝{0,1,2}；

代表第j个体素内的点云p^j经过深度学习网络线性权重ω变化得到的概率， softmax代表对应的Softmax非线性激活函数；L_reg＝l2_loss(I-AA^T)，其中A为变换矩阵预测网络输出的64*64的矩阵，I为64*64大小的单位矩阵，l2_loss函数代表对矩阵(I-AA^T)中每个元素平方后求和再整除2，weight_regre为权重值。

作为本发明进一步改进的技术方案，采用随机梯度下降算法对PointNet深度神经网络各层的权重ω进行更新。

作为本发明进一步改进的技术方案，所述的步骤(8)中将识别为树的每个体素中的点云映射到DSM上，计算得到每个体素DSM的梯度信息，具体为：

将识别为树的每个体素中的点云映射到DSM上，即均匀分布的平面栅格C中，栅格单元cell_k∈C的高程值，等于单元内垂直投影的点云的最大高度值，其中k＝1,2,...m²，m²表示从单个体素内的点云导出的栅格数；

由x轴、y轴和z轴定义的三维空间中每个栅格的梯度方程为：

在方程中，

和

分别是x、y和z方向上的单位向量；梯度是哈密顿算子直接作用于每个栅格单元cell_k∈C的结果，C是单个体素内点云生成的DSM；每个体素在栅格单元尺度下的分辨率为m*m，

和

分别是每个栅格单元沿x、y和z方向上的最高扫描点高度变化的导数。

作为本发明进一步改进的技术方案，所述的步骤(8)中惯性动量梯度的方法具体方程如下：

式(3)中

是当前迭代t时刻cell_k根据式(2)计算得到的梯度值；

为t时刻根据惯性梯度公式(3)计算得到的更新梯度值，α为惯性梯度的权重；其中

代表当前cell_k的梯度在方向τ上面的投影值大小，τ＝{1，2，3...16}代表16个方向；式(4)中的

代表在16个方向中某个方向根据累加梯度值向前延伸到达的单元格：

β为步长。

本发明的有益效果为：

本发明采用新颖的深度学习框架，直接对研究场地森林的点云进行处理，以此实现单株树冠分割。本发明方法的具体步骤如下:首先，采用体素化策略，将收集到的森林的不同树种点云划分到多个体素中。这些包含点云的体素被作为PointNet深度学习框架的训练样本，用于在体素尺度上识别树冠。其次，在初始分割结果的基础上，利用与高度相关的梯度信息，结合水蔓延方法准确地刻画出各树冠的边界。同时，将检索到的单株树木冠幅与实地测量值进行比较，以此来验证了本发明所用方法的有效性。结果表明，在4种森林类型中，苗圃基地定量化结果较好(树冠检测率r＝0.90；冠幅估计R²>0.94，均方根误差RMSE<0.2m)。对于森林结构复杂、树枝交迭、多种建筑物混合的不同的寺庙园林和混交林，也取得了较好的效果(寺庙园林的R＝0.85，R²>0.88，RMSE<0.6m，混交林的r＝0.80，r²>0.85，RMSE<0.8m)。对于第四种样地类型对冠状无叶林分布的研究，本发明也得到了令人满意的成果(无叶林的 r＝0.82，R²>0.79，RMSE<0.7m)。该方法基于深度学习技术和计算机图形学理论，使用了一个很好的框架来解决不同森林的单株树冠分割和森林参数反演问题。综上所述，本基于深度学习与机载激光点云的单株树冠分割方法在体素尺度上识别树木，并结合高度相关的梯度信息来完成单株树冠的划定，单株树冠分割精确较高。

附图说明

图1为本发明的流程示意图。

图2中(a)为四个位于安徽省池州市祁山景区内的实验地点示意图。

图2中(b)为从谷歌地图获取的遥感图像。

图2中(c)为展示了四个实验场地的树木生长情况图像。

图3为收集PointNet网络的点云的部分训练集。

图4为PointNet的架构示意图。

图5中(a)为基于高度相关梯度信息的21个相邻体素中点云的单株树冠分割示意图。

图5中(b)为图5中(a)中浅白色长方体放大区域的侧视图。

图5中(c)为图5中(a)中浅白色长方体放大区域的俯视图。

图6中(a)为惯性梯度下降推动球到真实最低点而不会停留在局部伪极值点的示意图。

图6中(b)为每个树冠沿着顶点的16个方向的惯性梯度下降，寻求树冠边界点的示意图。

图7中(a)为用PointNet从输入体素进行树识别的训练精度值的曲线示意图。

图7中(b)为用PointNet从输入体素进行树识别的训练损失值的曲线示意图。

图8中(a1)为利用PointNet模型对样地类型是苗圃基地的部分激光雷达数据进行识别的示意图。

图8中(a2)为图8中(a1)中一些体素点云的放大分类结果示意图。

图8中(a3)为图8中(a1)中一些体素点云的放大分类结果示意图。

图8中(a4)为图8中(a1)中一些体素点云的放大分类结果示意图。

图9中(b1)为利用PointNet模型对样地类型是寺庙园林的部分激光雷达数据进行识别的示意图。

图9中(b2)为图9中(b1)中一些体素点云的放大分类结果示意图。

图9中(b3)为图9中(b1)中一些体素点云的放大分类结果示意图。

图9中(b4)为图9中(b1)中一些体素点云的放大分类结果示意图。

图10中(c1)为利用PointNet模型对样地类型是混交林的部分激光雷达数据进行识别的示意图。

图10中(c2)为图10中(c1)中一些体素点云的放大分类结果示意图。

图10中(c3)为图10中(c1)中一些体素点云的放大分类结果示意图。

图10中(c4)为图10中(c1)中一些体素点云的放大分类结果示意图。

图11中(d1)为利用PointNet模型对样地类型是无叶林的部分激光雷达数据进行识别的示意图。

图11中(d2)为图11中(d1)中一些体素点云的放大分类结果示意图。

图11中(d3)为图11中(d1)中一些体素点云的放大分类结果示意图。

图11中(d4)为图11中(d1)中一些体素点云的放大分类结果示意图。

图12中(a)为样地类型是苗圃基地的单株树冠分割结果示意图。

图12中(b)为样地类型是寺庙园林的单株树冠分割结果示意图。

图12中(c)为样地类型是混合林的单株树冠分割结果示意图。

图12中(d)为样地类型是无叶林的单株树冠分割结果示意图。

图13中(a)为样地类型是苗圃基地的冠幅与本发明方法比较结果示意图。

图13中(b)为样地类型是寺庙园林的冠幅与本发明方法比较结果示意图。

图13中(c)为样地类型是混交林的冠幅与本发明方法比较结果示意图。

图13中(d)为样地类型是无叶林的冠幅与本发明方法比较结果示意图。

具体实施方式

下面根据附图对本发明的具体实施方式作出进一步说明：

本实施例提供一种基于深度学习与机载激光点云的单株树冠分割方法，主要包括：(1) 利用无人机载激光LiDAR采集数据；(2)对训练和测试站点进行体素化；(3)将训练和测试站点的数据从体素化转换为模型PointNet所需的格式进行训练和测试；(4)基于模型PointNet 识别分割体素，利用梯度信息构建和描述每个体素树的边界，实现单株树冠的分割。本实施例的方法的工作流程如图1所示。

研究样地：

研究区位于安徽省西南部池州市祁山风景区(30°38’15.89”N，117°30’11.33"E)(图2)。池州市作为国家森林城市，气候温暖，四季分明，雨量充沛，属于温暖湿润的亚热带季风气候。这里的年平均降水量为1400～2200毫米，年平均气温为16.7℃，最冷月(1月)和最热月 (7月)的平均气温分别约为3.1℃和28.7℃。祁山总面积36平方公里，最高海拔868米。该地区乔木种群主要由水杉、杉木、香柏树、银杏、无患子、苹果树、杨树、樟树、木棉、和刺槐等10个树种组成。如图2所示，本实施例选取了祁山景区苗圃基地(实验场地1)、寺庙园林(实验场地2)、混交林(实验场地3)和无叶林(实验场地4)四种实验场地类型进行实验。实验场地1、2、4位于山脚下，实验场地3位于丘陵地形不均匀的山腰处。四个实验场地均由建筑、灌木和树木组成。图2为研究区域概况，图2中(a)为:四个位于安徽省池州市祁山景区内的实验地点。图2中(b)为::从谷歌地图获取的遥感图像，其中不同灰度颜色的矩形标志着不同实验地点的边界。图2中(c)为:照片展示了四个实验场地的树木生长情况。

在后续实验中，本实施例分别选取面积分别为1,947.16、44596.64、60601.78和14780.11 平方米的4个实验场地作为研究区域。提取每个子集50％区域内的植被成分和建筑物作为训练样本。其余的四个子集作为测试样本(与作为训练样本的子集不相交)。

激光数据采集：

使用大疆FC6310无人机上的Velodyne HDL-32E传感器测量激光雷达数据。系统中的激光扫描可以实现从-30.67°到+10.67°的角度调整，提供360°水平视场。该传感器每秒可以输出约70万个扫描点云，测量精度为+/-2cm。此外，该传感器具有穿透烟雾的优点，工作环境可以从-10℃到+60℃，大大提高了工作环境的冗余性。Velodyne激光雷达系统将激光扫描与 SLAM(simultaneous localization&mapping)技术相结合，可快速完成每次的扫描，并为每棵目标树生成高密度点云。在数据采集过程中，飞行速度、飞行高度和激光扫描重叠分别为18m/s、 60m(高于起飞位置水平)和40％。最终提取的点云以LAS1.2格式存储。收集到的苗圃、寺院园、混交林和无叶林生境的激光雷达平均点云密度分别为1511.30pts·m^-2、1002.17pts·m^-2、 722.31pts·m^-2和502.34pts·mm^-2；

数据预处理：

在激光扫描仪扫描的实验场地获得点云数据后，本实施例采用高斯滤波的方法去除扫描数据中的噪声点。采用布模拟滤波(CSF)方法将去噪后的点云分为地上点和地面点。然后根据不同的体素大小对地上的点进行体素化。根据PointNet的要求，本实施例将构成训练集和测试集的每个体素中的点云转换为HDF5格式。在本实施例中，HDF5文件的标准包括两部分，一是数据，另一个是标签。在数据部分，从训练和测试站点的扫描点转换的数据可得到数组 n×1024×3，其中n表示分段输入体素的总数；1024表示体素中随机采样的点云数，3表示维数，即空间位置(x，y，z)。标签用于识别某些属性或特征，或分类或包含的对象。

训练数据：

在本实施例中，手工生成了三种类型的训练数据：(1)属于不同树种和不同植物生理状态下(有和没有叶子)的单株树木；(2)不同的中国建筑风格，如宫殿、城墙、寺庙和房屋；(3)其他对象，包含裸露的地面，林下植被和一小部分对单株树(通常<20％)或相邻树的交叉部分的点云。苗圃基地、寺庙园林、混交林样地和无叶林景观的训练样本数量(包括树木和建筑物) 分别为501(树木)、168(树木)、334(建筑物)、426(树木)和166(树木)。图3显示了部分训练数据，其中手工提取的单株树木或部分建筑的点云以体素为界。图3具体展示了本实施例收集 PointNet网络的点云的部分训练集。第1至10行是针对不同树种提取相应扫描点的单株树，即(a水杉，(b)中国杉木，(c)雪松，(d)银杏，(e)皂荚，(f)苹果树，(g)杨树，(h)香树，(i)赤树和(j)槐树。最后四行：(k)、(l)、(m)和(n)是建筑物的组成部分，包括宫殿、城墙、寺庙和不同中国建筑风格的房屋，以及其他物体，包括裸露的地面、地下植被和涉及一棵树或相邻树木的交叉部分(通常<20％)的一小部分点云。

大量的样本是进行高精度训练的基础，因此为了避免过度拟合，有必要使用尽可能多的训练数据来训练神经网络。在本实施例的研究中，使用了数据增广来解决这个问题。数据增广方法是一种增加训练模型可用数据多样性的策略，而不需要实际收集新数据，从而提高模型的准确性。本实施例生成了新的训练数据集，该数据集基于每个体素中整个云的旋转由一个随机角度和沿上轴旋转。同时，将每个体素中的每个点沿着一个随机向量进行小偏移，即使用均值为零、标准差小的高斯噪声(范围为0.02-0.06)使每个训练样本中的每个点的位置发生抖动。因此，训练样本可以扩展到10240个。

测试数据：

以苗圃基地、寺院园地、混交林和无叶林为试验点，对该方法的准确性和稳健性进行了检验。1、2、3、4个试验点的林木株数分别为522、160、456和167个。去除噪声点后，相应实验点云的V₁,V₂,V₃,V₄四个扫描点集通过体素化被细分为多个体素然后，根据HDF5标准，通过体素化剖分(即v_j，v_j∈V)得到每个体素的点云。

表1为对深度学习方法的数据集的详细描述：

其中NT：树的数量。NP：扫描点的数量。NPPT：每棵树扫描点的平均数目。

通过Point Net进行训练：

PointNet是第一个直接处理无序点云数据的深度神经网络。PointNet模型有三个核心构建模块，即转换网络(T-Net)、作为集合所有体素信息的对称函数的最大池化层和多层感知器网络(MLP)。点云

表示为第j个体素中属于扫描点集

的一个3D扫描点，其中每个点p是其坐标(x,y,z)的向量，作为点的通道。点云有三个核心属性，其中(1)是无序的，表示消耗N个3D点集的网络需要不改变N个排列的输入数据原有次序；(2)整体表达性，这意味着点不是孤立的，和邻近点形成一个有意义的子集；(3)变换的不变性，这代表着深度学习表示某些转换应该不变的点集。因此，有必要在代数组合学中设计一个对称函数，该函数的值与体素中扫描点的顺序无关。PointNet网络用对称式(1)表示。

在该公式中，

为第j个体素中的输入无序点云；1024为每个体素的输入点云数；f是连续集函数，将一组点映射到一个向量；γ表示多层感知器网络，h表示单变量函数和最大池化函数的组合。无论点云的输入顺序如何，式(1)中连续集函数f的值是不变的。

图4为PointNet的架构，该体系结构主要由两个变换矩阵预测网络(T-Net)、三个多层感知器(MLP)和一个最大池化层组成。该网络以一个体素中的1024个点作为输入，应用输入和特征变换，然后通过最大池化层来聚合点特征。输出是每类输入数据划分类别的预测可能性。

图4显示了PointNet的网络体系结构。网络的输入包含n个体素和体素内1024个点的三维点云的三维坐标(n×1024×3)。T-Net是一个可以预测仿射变换矩阵的微型网络。网络中的第一个T-Net生成了仿射变换矩阵，对点云的旋转、平移等变化进行归一化处理。此时，第一个T-Net的输入是原始点云数据，第一个T-Net的输出(对齐数据)是一个3×3的旋转矩阵。然后，将原始三维点数据与第一个T-Net学习到的3×3的变换矩阵相乘，实现数据对齐，确保特定空间变换模型的不变性。

将点云(1024×3)在每个体素中的对齐数据通过一个多层感知器(MLP(64,64))，其层大小如括号中所示，得到1024×64的矩阵。MLP的完全连接层由图4上部的三个虚线框所示。然后对每个体素提取64维特征，然后利用T-Net预测网络的第二个特征空间变换矩阵预测64×64 的变换矩阵，并将该变换矩阵应用到特征上实现特征对齐。同理，将矩阵(1024×64)乘以变换矩阵(64×64)，实现特征的对齐。然后，使用第二个MLP(64 128,1024)对每个体素进行特征提取，直到特征的维数变为1024，再通过最大池化层提取每个体素的全局特征向量。最后，维度的全局特征通过第三个MLP(512,256,3)，产生3个分类，其中3个代表分类的类别(即标签定义的类别数，0代表树，1代表建筑，2代表其他对象)。可得到每个类别对应于输入点云的分类判别值。然后，通过基于Softmax函数的激活层，可以得到每个体素中点云的预测概率。

训练过程的损失函数：

以Softmax交叉熵函数为损失函数。在训练过程中，体素的损失函数定义如下：

其中，

为指示器，如果当前计算类别ζ和样本类别l相同则为

否则为

在本实施例的树冠识别分为3类的前提下(即：树木、建筑、其他物体)，设置N＝(类别数-1)＝2和l＝{0,1,2}。公式2中右边第一项可以理解为

点乘

·代表点乘。其中：

代表第j个体素内的点云经过深度学习网络线性权重ω变化得到的概率，softmax代表对应的Softmax非线性激活函数。L_reg＝l2_loss(I-AA^T)，其中A为图4中特征转换的T-Net(即第二个T-Net输出的64*64的矩阵)，I为对应大小的单位矩阵，这里为64*64大小。l2_loss 函数代表对矩阵(I-AA^T)中每个元素平方后求和再整除2。weight_regre为权重值，这里取0.001。

用随机梯度下降(SGD)算法对深度卷积神经网络各层的权重ω进行更新。层是一个容器，通常接收加权输入，再用一组主要是非线性的函数对其进行转换，然后将这些值作为输出传递给下一层。当训练损失函数小于一定的损失阈值(即收敛)时，停止训练，不再改变固定网络各层的权重，从而得到训练后的树木识别功能的深卷积神经网络。

单株树冠分割：

测试过程包含以下步骤。通过体素化将每个测试站点的点云分配给连续分布的体素。然后，利用PointNet框架对每个体素中的细分点云进行分析，并通过训练阶段对学习的参数进行分析，得到每个体素的分类结果。对于被识别为树的体素中的点云，本实施例根据高度相关的梯度信息结合惯性梯度向量开展对树冠边界的细化提取，并不受到体素边界对点云分割的制约。

首先，将识别为树的每个体素中的点云映射到DSM上，即均匀分布的平面栅格C中。栅格单元cell_k∈C的高程值，等于单元内垂直投影的点云的最大高度值，k＝1,2,...m²，其中m²表示从单个体素内的点云导出的栅格数。然后，采用局部最大搜索算法寻找在每个体素中的树顶位置。后面用g表示哈密顿算符，表示由x,y(水平)和z(垂直)轴定义的三维空间中每个栅格的梯度。对应的方程为：

在方程(3)中，

分别是x、y和z方向上的单位向量。梯度是哈密顿算子直接作用于每个栅格单元cell_k∈C的结果，这里的C也认为是单个体素内点云生成的DSM。在本实施例的研究中，每个体素在栅格单元尺度下的分辨率为m*m，

和

分别是每个栅格单元沿x,y方向和z方向的最高扫描点高度变化的导数。通常，树冠外围的表型特征呈现向下的层次结构，即树冠表面像元上的高度值由峰值向周围逐渐减小。计算的示意图如图5 所示，图5示意图显示基于高度相关梯度信息的21个相邻体素中点云的单株树冠分割。黑色长方体表示被PointNet网络模型分类为树的分割体素。图5中(b)和(c)分别是图5中(a)所示的浅白色长方体放大区域的侧视图和俯视图。因此，在两棵相邻的树之间必然存在鞍点(最低点和该点的梯度接近于0)。利用计算得到的每个体素DSM的梯度信息，结合惯性动量梯度的方法定位相邻树冠之间的谷线。最后，如果相邻两个体素内部分点云的高度值呈连续下降趋势，即沿相似方向连续梯度下降，则表明属于同一树冠的点云通过体素化被剖分为两部分。因此，本实施例会合并一个树冠的两个部分(如图5中(c)中间的树冠被相邻体素剖分成2个部分，需要合并)。

本实施例运用了惯性梯度计算的思想来刻画单株树冠的边界。通过对每个树冠的极大值点进行16个方向的梯度计算，寻找树冠和树冠边缘处的极小值，也就是那些中间点。具体方程如下：

式(4)中

是当前迭代t时刻cell_k根据式(3)计算得到的梯度值。

为t时刻根据惯性梯度公式(4)计算得到的更新梯度值，α为惯性梯度的权重，也就是每个时刻计算的当前

的梯度值受上一步计算得到的

的梯度的影响，存在类似与惯性加载的增量。其中

代表当前cell_k的梯度在方向τ上面的投影值大小，τ＝{1，2，3...16} 代表16个方向。如图6中(a)和(b)灰色线条所示。式(5)中的

β为步长。也就是说根据累加梯度与步长计算下一时刻单元格所在的位置，最终单元格会定位在树冠边界处。当单元格在各个方向上到达树冠的边界，如图6中(a)所示，即为相邻树木的边界点。然后在根据边界点勾勒出要分割的树冠表面。该方法的优点是对单株树具有多叶团簇或者树冠上层表面不平滑情况时，即具有局部凸起时，惯性冲量在迭代计算的过程中可以直接定位到树冠边界的单元格上，并且结合我们计算的梯度矢量，最终都指向树冠边界的最低点(图6中(a)所示)。这样保证本实施例提取的树冠边界的准确性。

图6示意图显示本实施例的惯性梯度下降方法，计算单元格的惯性梯度方向并按每个增长方向(灰色线条)沿惯性梯度找寻全局的最低值，进而定位树冠的边界。图6中(a)：惯性梯度下降推动球到真实最低点，而不会停留在局部伪极值点。图6中(b)：每个树冠沿着顶点的16个方向的惯性梯度下降，寻求树冠边界点，即全局最低点。

对本实施例不同试验点结构特征的选定测试点的分割结果进行了评价，其中人工测量结果TP(真阳性)是正确分割的树冠数量，FN(假阴性)是算法未检测出的真实存在的树冠， FP是(假阳性)在现实中不存在但被本实施例的模型错误地检测到的树冠数量。此外，用以下方程计算了三个测试点的r(召回率)、P(精度)和F(F-分数)。

上式中，r(召回率)表示树的检出率，P(精度)表示被检测树的正确性，F(F-分数)表示被检测树的总体精度。

从公式中可以看出，高TP、低FN和低FP值代表了树检测的高精度。

PointNet模型的训练和测试结果：

除了在Windows 10 64位PC上进行深度学习的部分外，本实施例还为实验配备了Intel(R)Core(TM)i7-7700CPU@2.80GHz处理器和16GB-RAM。由于深度学习涉及到自动化计算机系统来研究大量的训练数据，并且需要很高的计算能力，所以本实施例使用NVIDIARTX 2080Ti GPU代替CPU来减少我们的训练时间。在PointNet模型中，学习率为0.0001，批量大小为16，epochs迭代次数为200。训练损失和训练精度如图7所示。总训练和测试时间约为100小时。

图7中(a)和(b)是表示用PointNet从输入体素进行树识别的训练精度值和训练损失值的曲线。浅色区域的波动是通过对一批复杂样本反复学习有效特征来识别体素是否为树状体，但曲线的整体上升趋势和下降趋势表明训练的收敛效果较好。

随着持续的学习，训练样本(每个体素中的点云)显示出训练精度的增加趋势和训练损失的减少趋势，表明本实施例使用PointNet网络模型的方法可以进行全局优化。训练精度和训练损失在前25个迭代次数中分别有显著的增加和减少。其中的原因可能是，在处理三维对象分类中压倒性的样本时，模型PointNet由于其梯度而表现出不兼容，主要是由于这些易于分类的样本。在训练过程中，神经元网络在同一个批次中会遇到了一些复杂的样本，例如，体素包含多棵树的一部分、单株树木数据的小部分或一些低矮灌木，这影响了模型的学习效果，并导致回归损失函数值的强烈波动。经过75次迭代后，训练样本的精度和损失分别收敛到0.96和0.009，表明PointNet具有较强的拟合能力。图8-图11显示了PointNet模型对四个测试图的识别结果的侧视图。

图8-图11利用PointNet模型对4种样地类型(a)苗圃、(b)寺庙园林、(c)混交林和(d)无叶林的部分激光雷达数据进行识别。在这里本实施例采用了一个简单的表示方法，即在每个体素上面添加了对应的不同灰度值的矩阵来表示体素内点云的分类结果，图中(a1、b1、c1和 d1)中的浅色、深色和灰色矩形表示体素内矩形下的点云分别表示被识别为树、建筑物和其他物体。图中(a2，a3，a4，b2，b3，b4，c2，c3，c4，d2，d3和d4)显示了一些体素点云的放大分类结果。

表2列出了四个测试点个体体素的定量评估。在实验中，体素大小的设置是至关重要的，这会影响到PointNet模型的精度。因此，本实施例根据体素的特征(即每个测试点的E-W和 N-S方向的平均树木冠幅作为体素的长度和宽度)适当的设置了不同的规格的体素。尽可能多地使用四个测试地点的树木。苗圃基地(检测点1)具有相似树冠大小，种类和年龄的均质森林。因此，设置体素化的大小相对容易。对于具有不同建筑类型、不同树种的寺庙园林(试验场地2)，由于各种树种生长复杂，大小不一，设置体素的大小会比较麻烦。混交林(3)测试网站不同大小的树冠，复杂的交叉的树枝,包含大约15％的林冠下的树木，落叶的森林(4)与较低的树木、光秃秃的树枝和几部分覆盖了周围的灌木，很难确保立体像素包含一个完整的树。

利用初步森林调查得到的平均树冠大小来定义体素的大小。在这里，本实施例定义的体素，长、宽、高分别为:苗圃基地1.35m、1.36m、4.92m，寺庙园林6.46m、5.81m、26.96m，混交林7.08m、6.59m、48.06m，无叶林5.23m、5.2m、20.96m。

表2为用于识别树木的四个测试站点的单个体素的总体准确性评估：

T：定义为树的体素数。B：定义为建筑物的体素数。O：定义为其他对象的体素数。

对苗圃基地、寺庙园林、混交林和无叶林四个试验场，树木的体素分别为470、136、365 和137。对于苗圃基地，如图8中(a2)所示，当包含扫描点的体素被视为一小部分树冠不成熟或拓扑结构不明确的树苗(例如，不典型的塔和伞形)时，就会出现主要的错误。而PointNet 网络模型在提取每个独立点的特征和全局点云的特征中，很难从两个不同的对象中学习联合特征，这将可能导致在从分割获得的体素中提取点云特征后对不完整的冠层形状进行不正确的识别。当体素包含具有双峰分布的多个树数据的部分(即完整的树冠和相邻树冠的一小部分(<20％))时，模型一般会学习完整的信息，并总是将一个体素中的整个点云识别为树。

对于寺庙园林来说，树的空间形状是一种几何形状的原始形态，其表型特征是一个主要的树干支撑着一个椭圆形或圆锥形的树冠，这与建筑等具有规则表型特征的刚性物体不同。当个体素同时包含树木和寺庙的墙壁时，由于不明确的表型特征，很容易被错误判断。混合物的点云的树木和建筑总是认定为非树木，对此一个合理的解释是由于高数据复杂性降低了深度学习网络从树冠中提取有用信息的能力并导致不确定的点云体素的分类结果。单个体素中混合点云的分类精度可能会受到单个体素中关于树的点云的占有比例和机器学习特征提取手段的影响。相比之下，体素化后的建筑截面获得了良好的性能。本实施例预计主要原因是寺庙墙壁具有与树冠不同的规则表面特征，网络中的第一个T-Net生成了一个仿射变换矩阵，以归一化点云的旋转、平移和其他变化，从而从多视角下提供了有效的空间和距离度量，并捕获了与训练样本对应的语义特征相匹配的全局和局部特征。

对于各种树冠形状、叶团簇丛生并交叠的混交林样地，会造成森林树木分布密度不均匀，树冠间有重叠遮挡(图10中(c2))。具有丰富生物量的森林造成了复杂而难以区分的激光雷达点云，减弱了深度学习网络的识别能力。因此，包含在一些体素中的交叠树的点云被错误地识别为树。此外，一些树干倾斜、树体有歪倒的树冠的点云没有被正确识别，这与普遍的树冠的向上结构和大致对称的分枝分布结构不同，容易出现分类错误。

对于无叶状态下的林地，分类结果如图12中(d)所示。在休眠期，秃枝树木的叶片缺乏。从树模型的全局结构判断来看，本实施例成功识别了较多的树骨架。但仍有一些情况无法被网络识别，如少数树的较低部位被周围的灌木覆盖，许多树的树干或树枝被相邻的体素分割。此外，缺乏足够的落叶树训练样本也降低了深度学习网络的识别能力。

在基于PointNet模型的体素分类完成后，本实施例将采用单株树冠分割小节中提到的方法对树冠进行划分。其中提取到的单株树冠用不同的灰度颜色进行标识，如图12所示。

图12上列图片显示了本实施例的单株树冠分割结果，其中不同的颜色表示每棵树的分割结果。图12中(a)、(b)、(c)和(d)分别显示了苗圃基地、寺庙园林、混合林和无叶林的部分分割的激光雷达点云数据。

在四种不同类型的森林地点的树木分割结果中，使用PointNet网络模型的方法获得了较好性能(图12)。不难发现苗圃基地和寺庙园林(分别为r＝0.90和r＝0.85)的整体分割精度高于混交林和无叶林(分别为r＝0.80和r＝0.82)。对此的一种解释是，苗圃基地具有相似的树龄，并且均匀的种植排列，交叉生长的树木枝条较少，几乎没有林下植被，这使得体素包含更完整的点云。寺庙园林包含许多树木，它们的树冠几乎是孤立的，并通过人工修剪来改变形状。因此，有些树的树冠包络紧凑，便于利用与高度相关的梯度信息来实现单树分割。与苗圃基地不同的是，混交林和落叶天然林由多种乔木和灌木组成，枝干交错突出。很难运用深度学习模型和梯度分割方法来实现单株分割，这也归因于森林的点云数据由于遮挡造成的不足和其他树木在休眠期间裸露在外的光秃秃的枝干和不光滑的最外层树冠表面，导致相对较低的单株树分割结果(混交林的r＝0.80,无叶林的r＝0.82)。在这4种类型的森林样地中，由于同一树冠的多叶团簇、产生局部凸点的侧生长分枝和误将寺庙屋角上翘的屋檐作为树顶，会产生一些检测误差。

表3为四个测试样地上单株树冠分割的准确性评估：

	NT	NS	tp	FP	fn	r	p	f
									苗圃基地	522	511	470	41	52	0.90	02.9	01.9
寺庙园林	160	151	136	15	24	05.8	0.90	0.87
									混交林	456	445	365	80	91	0.80	0.82	01.8
无叶林	167	163	137	26	30	0.82	0.84	0.83
									总体指标	1305	1270	1108	162	197	0.85	0.87	0.86

NT：真实树的数量。NS：我们算法分割出的树的数量。TP：正确分割的树冠数量。FN：未检测到的真实树木的数量。FP：在现实中不存在但被我们的模型错误地检测到的数量。r(召回率):树检测率。P(精度)：检测树的正确性。F(F-分数)：检测树的总体精度。

冠幅估算的精度：

对于分割后的单株树木，分别从每个试验点选取100棵树计算其南北方向(Cb_n)和东西方向(Cb_e)的冠幅，并与人工分割结果进行比较，我们还计算了相关系数(R²)、均方根误差(RMSE) 和相对均方根误差(rRMSE)，以定性评价结果。

在四个测试点中，苗圃基地估算冠幅的精度最高(R²＝94.4±0.28％，RMSE＝0.13±0.01m， rRMSE＝9.59±0.70％)，这可能与树冠几何形状规则、均匀，树枝交点较少有关。混交林的准确性(R²＝85.105±0.015％，RMSE＝0.74±0.01，rRMSE＝10.835±0.245％)和寺庙园林的准确性 (R²＝88.665±0.285％，RMSE＝0.57±0.01，rRMSE＝9.31±0.33％)得到了相对较低的值，一个合理的解释是，部分树的树冠被周围高大的树木或建筑物遮挡，导致林冠中一些受抑制的树或因一些树旁边的建筑物产生冠幅估计偏差。

对于无叶林样地，我们的方法和人工测量之间的冠幅估计的一致性逐渐降低。由于地块中有很多树木都是光秃秃的树枝，没有叶子，很多树冠没有连续的垂线和光滑的树冠表面，导致生成的DSM有空的栅格单元或者缺失高程数据的空隙。这些不利因素将对坡度计算冠幅测量产生不利影响。因此，最后无叶林的冠幅估算的统计指数相对较低(R²＝79.94±0.13％， RMSE＝0.61±0.02m，rRMSE＝11.7±0.35％)。

图13用散点图显示了(a)苗圃基地、(b)寺庙园林、(c)混交林和(d)无叶林四种不同森林类型的冠幅与本实施例的方法的比较结果。

本实施例方法的优点：

从机载激光扫描数据中自动提取(分割)单株树是进行树木表型和生物物理参数估算的重要前提。目前，机器视觉算法和图像处理技术已广泛应用于单棵树分割中。然而，如果只考虑有限的几何空间信息，很难处理高度相似、密度分布变化的聚类树。例如，具有相似高度和紧密分布的簇状树冠可能被错误地检测为单株树顶，从而导致分割不足。此外，非树顶局部极大值可能被错误地检测为树顶，并导致过度分割，对于基于树冠中心和点密度分布的单株树的分割，当处理某些只有单面树冠时或树体歪倒时，由于在与邻近树木竞争生长或环境影响下(如，飓风损坏或太阳辐照度的不均匀分布)，会与预期所有偏差。高密度扫描点簇往往出现在重叠树冠的连接部分上，依附在外露枝条的树叶以及不受遮挡影响的植被，因此，这些问题会导致仅仅依靠点云的有限特征来分割单株树冠精准度的下降。

深度学习试图用层次化的方式对数据中的高级抽象特征进行建模，通过从大量样本中提取有效特征，并不断提高神经网络性能，为机器识别目标提供了更强的能力。此外，随着深度学习的快速发展，大量的研究已经致力于各种深度学习分类或分割任务，利用二维图像作为原始输入数据，实现对单株树的分割。这些方法虽然在树冠分割方面取得了良好的效果，但在转化为二维图像的过程中仍然丢失了研究目标的原始三维几何信息。森林点云存在的无序性、非均匀性、不规则性和噪声给点云分割带来了很大的挑战，现有的图像分类和分割框架不能直接应用于点云。因此，本实施例提出了一种新颖的PointNet深度学习方法，直接处理无序点云数据，实现对单株树的分割。众所周知，本实施例的研究是一个大胆的尝试，使用PointNet直接作用于扫描数据进行单株树冠分割，最大程度地保留了点云的空间特征，并在最终测试中达到了良好的性能。T-Net的模型用于对输入体素中扫描数据的旋转，平移和其他变化进行归一化处理，MLP的模型用于从各种神经网络中提取众多特征并聚合这些特征，以有效地学习关于树和其他复杂对象的特征。在训练过程中，PointNet网络模型与大量采集的训练样本一起，通过迭代向前和反向传播获得了最优权值，使模型对构成树结构的点云识别具有健壮性。

与现有方法比较：

在本实施例的研究中，本实施例将原始点云与体素化策略、PointNet网络模型和高度相关梯度信息进行了结合，这与现有的一些单株树冠分割方法不同，如分水岭算法和基于点云的聚类分割算法。

分水岭算法是基于DSM或CHM上渐近水蔓延的物理原理，最终在树冠边界的低洼区域处停止。然而，分水岭算法仅限于形状规则的树种，对于树冠相似的表型特征具有良好的性能，即树木整齐地排列成通常的塔形或伞形。对于树冠形状不规则，内部复杂的林区，森林中树木的高密度分布与相互重叠的树冠都可能导致森林冠层中的出现多个局部极大值高度顶点。此外，分水岭算法的性能容易对弱边缘(即森林林冠外表面的细微灰度变化)和DSM上的噪声处理不当，产生欠分割和过分割。对于分水岭算法来说，当遇到由冠层和次冠层树木组成的茂密森林栖息地时，这些情况将会加剧。

基于点云的聚类分割算法是一种采用自顶向下区域生长方法将单株树从最高到最低依次分割的方法。一般情况下，假设分析扫描点的几何空间特征来寻找树冠的顶端，该算法将各种距离度量耦合起来，实现单株树的分割。然而，对于不同类型的森林样地，该方法的关键参数具有不确定性。如果分配了不恰当的参数值，可能会导致树枝伸长和严重弯曲的树木被过度分割，或者可能导致相邻树冠重叠的树木被错误分割。因此，合适的参数对方法的最终性能至关重要。此外，该算法利用了激光雷达点云固有的三维结构特征，在植被元素相互遮挡、仪器扫描角度变化等原因下将导致激光脉冲对冠层采样不均匀的情况下，可能会出现误分割。

在此，将分水岭算法、基于点云的聚类分割算法和基于深度学习的方法的比较结果应用于同一地点四个实验林地(即苗圃基地、寺庙园林、混交林和无叶林)的点云，三种方法的精度列于表4。结果表明，对于树冠形状相似、种植密度低、排列整齐的苗圃基地，三种方法具有相似的分割精度。对于包含更多的树种和不同的树木结构复杂的森林，本实施例的方法增加了小树分割的准确性，这说明本实施例的深度学习框架在处理高度复杂的森林场景时可以更好地提取树体的空间复杂特征。

表4为分水岭算法、基于点云的聚类分割算法和我们的方法对四个实验林地的原始点云进行单株树冠分割的准确性比较：

NT：真实树的数量。NS：我们算法分割出的树的数量。r(召回率)：树检测率。P(精度)：检测树的正确性。F(F-分数)：检测树的总体精度。TP：正确分割的树冠数量。FN：未检测到的真实树木的数量。FP：在现实中不存在但被本实施例的模型错误地检测到的树木的数量。

本实施例设计了一种基于无人机携带的LiDAR采集的扫描点云的深度学习方法，在体素尺度上识别树木，并结合高度相关的梯度信息来完成单株树冠的划定。该分割算法由两个阶段组成。在第一阶段，通过人工提取各种形式的树木和建筑物的点云作为训练样本，将其带入PointNet模型进行网络训练，得到最优的网络参数。然后，在体素化的基础上对每个森林的点云进行细分。将每个体素中的点云作为测试样本，通过训练好的PointNet网络模型进行分析，得到分类结果。在第二阶段，在体素尺度深度学习分割结果的基础上，采用高度相关的梯度信息，精确刻画各树冠的边界。同时，将深度学习方法估计的树木冠幅与人工测量结果进行比较，验证了方法的有效性。对于四种森林地块类型(即苗圃基地、寺庙园林、混交林和无叶林)的研究结果表明，苗圃基地的树冠检测率r＝0.90和冠幅R²>0.94，具有较好的性能。对于具有复杂森林结构、分枝复杂交叉和不同类型建筑的寺庙园林和混交林(寺庙园林的R＝0.85和R²>0.88，混交林的r＝0.80，R²>0.85)也取得了良好的性能。对于第四种样地类型即无叶林的研究，本实施例也得到了较好的反演精度(无叶林的r＝0.82，R²>0.79)。与分水岭算法和基于点云的聚类分割算法相比，本实施例的方法对树的检测精度提高了1％-6％。综上所述，该研究表明，应用深度学习框架对各种森林类型的扫描点进行直接处理是可行的，可以解决单株树冠的分割问题。

本发明的保护范围包括但不限于以上实施方式，本发明的保护范围以权利要求书为准，任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。

Claims

1.一种基于深度学习与机载激光点云的单株树冠分割方法，其特征在于：包括以下步骤：

(1)获取研究场地的激光雷达点云数据；

(6)采用新的训练样本数据集对PointNet深度神经网络开展训练，得到训练好的PointNet模型；

2.根据权利要求1所述的基于深度学习与机载激光点云的单株树冠分割方法，其特征在于：所述的激光雷达点云数据通过无人机上的Velodyne HDL-32E传感器采集获取。

3.根据权利要求1所述的基于深度学习与机载激光点云的单株树冠分割方法，其特征在于：

所述的步骤(2)和步骤(7)中去除点云数据的噪声点，将去噪后的点云数据分为地上点和地面点，具体为：

4.根据权利要求1所述的基于深度学习与机载激光点云的单株树冠分割方法，其特征在于：所述PointNet所需的格式为HDF5格式。

5.根据权利要求1所述的基于深度学习与机载激光点云的单株树冠分割方法，其特征在于：所述的步骤(3)具体包括：

6.根据权利要求5所述的基于深度学习与机载激光点云的单株树冠分割方法，其特征在于：所述的步骤(4)具体为：

7.根据权利要求6所述的基于深度学习与机载激光点云的单株树冠分割方法，其特征在于：

所述的PointNet深度神经网络在训练过程中，体素的损失函数为：

其中

为指示器，如果当前计算类别ζ和训练样本类别l相同，则

否则

其中类别共有三类，具体为树木、建筑物和其他物体；N＝(类别数-1)＝2；l＝{0,1,2}；

代表第j个体素内的点云p^j经过深度学习网络线性权重ω变化得到的概率，softmax代表对应的Softmax非线性激活函数；L_reg＝l2_loss(I-AA^T)，其中A为变换矩阵预测网络输出的64*64的矩阵，I为64*64大小的单位矩阵，l2_loss函数代表对矩阵(I-AA^T)中每个元素平方后求和再整除2，weight_regre为权重值。

8.根据权利要求7所述的基于深度学习与机载激光点云的单株树冠分割方法，其特征在于：采用随机梯度下降算法对PointNet深度神经网络各层的权重ω进行更新。

9.根据权利要求7所述的基于深度学习与机载激光点云的单株树冠分割方法，其特征在于：所述的步骤(8)中将识别为树的每个体素中的点云映射到DSM上，计算得到每个体素DSM的梯度信息，具体为：

由x轴、y轴和z轴定义的三维空间中每个栅格的梯度方程为：