CN112907520A

CN112907520A - 基于端到端深度学习方法的单株树冠检测方法

Info

Publication number: CN112907520A
Application number: CN202110163462.5A
Authority: CN
Inventors: 云挺; 张宇; 朱天乐; 王丽文; 曹林
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-04

Abstract

本发明公开一种基于端到端深度学习方法的单株树冠检测方法，包括以下步骤：采集林木的机载激光雷达点云数据；对机载激光雷达点云数据进行预处理，将机载激光雷达点云数据分为地面点和非地面点，根据非地面点生成数字表面模型，将数字表面模型转换成高程图；对高程图中的每个树冠进行手动标记，将标记好的高程图作为训练样本；采用深度卷积对抗生成网络生成新的训练样本；将原训练样本和生成的训练样本对端到端深度学习网络开展训练，获得树冠识别端到端网络模型；将待测林木的高程图输入到树冠识别端到端网络模型中，自动识别树冠具体位置及反演冠幅参数。与其他先进的树冠检测算法相比，本发明可以快速而准确地从树种多样的森林中检测单株树冠。

Description

基于端到端深度学习方法的单株树冠检测方法

技术领域

本发明属于林木技术领域，具体涉及一种基于端到端深度学习方法的单株树冠检测方法。

背景技术

近年来，激光雷达在提取冠层结构参数和物理性质方面取得了可喜的成果。通过向树冠或地面发射激光脉冲并反射回传感器，机载激光雷达系统记录了反射激光脉冲提供的地面或植被的三维坐标信息。随着机载激光雷达数据采集的日益方便，出现了一系列处理这些数据的算法。传统的基于机载激光雷达的树冠检测算法可分为两类。第一种是面向三维激光点云的方法，通过直接处理点云来识别和提取单株树冠。这类算法主要包括点云聚类和多尺度动态点云分割算法。第二类是面向图像的方法，主要包括边缘检测、区域分组和分水岭分割算法。通过将三维点云转换为二维图像，大量的图像处理算法可以有效地应用于树冠检测。虽然上述算法已经取得了良好的性能，但是由于树冠形状和大小的不均匀性以及树冠环境的复杂性，检测速度和精度仍然存在一定的局限性。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于端到端深度学习方法的单株树冠检测方法，与其他先进的树冠检测算法相比，本基于端到端深度学习方法的单株树冠检测方法可以快速而准确地从树种多样的森林中检测单株树冠。

为实现上述技术目的，本发明采取的技术方案为：

一种基于端到端深度学习方法的单株树冠检测方法，包括以下步骤：

(1)、采集林木的机载激光雷达点云数据；

(2)、对机载激光雷达点云数据进行预处理，将机载激光雷达点云数据分为地面点和非地面点，根据非地面点生成数字表面模型，将数字表面模型转换成高程图；

(3)对高程图中的每个树冠进行手动标记，将标记好的高程图作为训练样本；

(4)采用深度卷积对抗生成网络对标记好的训练样本开始学习并生成新的训练样本；

(5)采用步骤(3)手动标记的训练样本和步骤(4)生成的新的训练样本对端到端深度学习网络开展训练，获得树冠识别端到端网络模型；

(6)获取待测林木的机载激光雷达点云数据，按照步骤(2)的方法获取待测林木的高程图，将该高程图输入到树冠识别端到端网络模型中，自动识别树冠具体位置与冠幅大小。

作为本发明进一步改进的技术方案，所述的步骤(1)中的林木包括苗圃、森林公园景观区和混交林。

作为本发明进一步改进的技术方案，所述的步骤(1)具体为：

利用DJI FC6310无人机搭载的Velodyne HDL-32E传感器采集林木的机载激光雷达点云数据。

作为本发明进一步改进的技术方案，所述的步骤(2)具体为：

(2.1)采用高斯滤波器对机载激光雷达点云数据进行去噪处理；

(2.2)采用布料模拟滤波方法将去燥后的机载激光雷达点云数据分为地面点和非地面点；

(2.3)根据非地面点生成数字表面模型；

(2.4)通过对数字表面模型正交投影，用不同的颜色表示高程信息，越高的地方对应的网格越亮，即像素值越大，最终得到相应的高程图。

作为本发明进一步改进的技术方案，所述的步骤(3)中对高程图中的每个树冠进行手动标记具体为：

采用LabelImg图像标注工具对林地高程图中的每个树冠进行手动标记。

作为本发明进一步改进的技术方案，所述的深度卷积对抗生成网络的目标函数为：

V(G,D)＝∫_xP_real(x)·log(D(x))dx+∫_xP_generate(x)·log(1-D(x))dx (1)；

其中D表示判别器，G表示生成器，P_real(x)表示真实数据的概率分布，P_generate(x)表示生成数据的概率分布。

作为本发明进一步改进的技术方案，所述的端到端深度学习网络在训练过程中，将损失函数I设置为：

I＝I₁+I₂+I₃ (2)；

其中预测边界框I₁的损失函数定义为：

其中，

表示网格单元i的第j个预测边界框；e₁为阈值，设置为5；num设置为7，表示每个网格单元预测7个不同尺度的目标框；M表示四个不同的尺度，分别是(13,26,52,104)，代表把每副输入图像转换为四个不同尺度的大小，其中M＝13适用于图像检测大目标树冠， M＝26适用于图像检测中等目标树冠，M＝52适用于图像检测中小目标树冠，M＝104适用于图像检测小目标树冠；

代表的是预测框与真实框之间的相交的面积，

和

分别代表预测框与真实框的中心点的x,y位置，

代表两个中心点之间的欧式距离；l_{diaglinofminimclos}代表包络预测框与真实框的最小矩形的对角线长度；

其中

与w,h分别代表预测框与真实框的宽度和高度值；；

其中预测置信度I₂的损失函数定义为：

其中，

表示预测框的置信度；S_i表示对应的实际被检测物体的置信度值；λ_noobj设置为 0.5；

其中预测类别I₃的损失函数定义为：

其中p_i(s)表示网格单元i中真实存在对象的概率，取值为1或者0；

表示网格单元i中 s类对象存在的概率；

表示网格单元i中是否存在对象，如果i中存在对象，

为1；否则，

为0；classes表示某一个类别。

作为本发明进一步改进的技术方案，所述的端到端深度学习网络采用自适应的动量估计梯度下降算法进行反向传播参数优化，具体为：

取初始t＝0时刻，第一偏置矩m_t＝0＝0，第二原始偏置矩n_t＝0＝0；

经过每次反向传播后，m_t＝β₁m_t-1+(1-β₁)g_t,

其中

计算

更新参数θ_t-1，如下式：

其中，β₁,β₂∈[0,1)，表示指数衰退率；

表示β₁按照迭代次数做指数运算；

表示β₂按照迭代次数做指数运算；∈＝10^-7，表示扰动量；μ＝0.003，表示控制参数更新快慢量；I_t表示在t时刻对应的损失函数值；θ表示网络中权重系数，

表示每个时刻损失函数I_t对网络中每个权重系数θ求导后的结果，具体如下：

本发明的有益效果为：本发明选择了一种最新的端到端目标检测算法进行单株树冠检测。与其他先进的树冠检测算法相比，端到端不仅具有较快的速度和精度，而且在检测抽象的艺术品方面也具有明显的优势。本发明通过将数字表面模型转换成高程图，本发明的树冠识别方法被直接应用在高程图上，这避免了航空影像复杂的纹理特征和三维点云的复杂几何特征可能带来的干扰。采用LabelImg图像标注工具对木林的高程图中的单株树冠进行标记，同时用深度卷积对抗生成网络生成新的训练样本，并将标记好与生成的训练样本输入端到端深度学习网络进行训练。该算法具有预测不同类型、不同树种和不同种植密度的树冠分布的潜力，可以快速而准确地从树种多样的森林样地中检测单株树冠。

附图说明

图1中(1)为拍摄的苗圃的部分航拍图像的灰度图。

图1中(2)为拍摄的森林景观区的部分航拍图像的灰度图。

图1中(3)为拍摄的混交林的部分航拍图像的灰度图。

图2为从DSM生成的高程图中检测单株树冠的端到端网络结构示意图。

图3中(1)为部分训练样本中使用LabelImg工具手动标记的苗圃高程图中的树冠的示意图。

图3中(2)为部分训练样本中使用LabelImg工具手动标记的森林景观区高程图中的树冠的示意图。

图3中(3)为部分训练样本中使用LabelImg工具手动标记的混交林高程图中的树冠的示意图。

图4为真实训练样本和采用深度卷积对抗生成网络生成的训练样本的示意图。

图5中(1)为端到端深度学习网络训练的损失曲线图。

图5中(2)为端到端深度学习网络训练的P-R曲线图。

图6中(1)为苗圃的部分测试样本中使用端到端网络模型检测其中单株树冠的测试结果图。

图6中(2)为图6中(1)的树冠检测结果的直观显示图。

图6中(3)为森林景观区的部分测试样本中使用端到端网络模型检测其中单株树冠的测试结果图。

图6中(4)为图6中(3)的树冠检测结果的直观显示图。

图6中(5)为混交林的部分测试样本中使用端到端网络模型检测其中单株树冠的测试结果图。

图6中(6)为图6中(5)的树冠检测结果的直观显示图。

图7中(1)为显示本实施例方法检测样地5内的单株树冠的结果图。

图7中(2)为显示本实施例方法检测样地7内的单株树冠的结果图。

图7中(3)为从18个不同的圆形子集(黑色圆圈)中心拍摄的18张鱼眼图像。

图8为样地5和7中18个圆形子集内的树木数量示意图。

图9中(1)为端到端网络模型预测的冠长与样地1中树木的实测冠长之间的关系的散点图。

图9中(2)为端到端网络模型预测的冠长与样地5中树木的实测冠长之间的关系的散点图。

图9中(3)为端到端网络模型预测的冠长与样地7中树木的实测冠长之间的关系的散点图。

图10中(1)为对比分水岭分割算法与本实施例的端到端深度学习算法在样地5中检测单株树冠的结果图。

图10中(2)为对比分水岭分割算法与本实施例的端到端深度学习算法在样地7中检测单株树冠的结果图。

具体实施方式

下面根据附图对本发明的具体实施方式作出进一步说明：

从激光雷达数据中提取单株树冠信息对评估和智能管理森林资源具有重要意义。先进的深度学习方法能够高效并精确的分析遥感数据和解决地球科学问题。通过将基于机载激光雷达数据生成的数字表面模型与端到端深度学习方法相结合，本实施例提出了一种新的树冠检测框架，即基于端到端深度学习方法的单株树冠检测方法。通过将数字表面模型转换成高程图，本实施例的树冠识别方法被直接应用在高程图上，这避免了航空影像复杂的纹理特征和三维点云的复杂几何特征可能带来的干扰。采用LabelImg图像标注工具对苗圃、森林景观区和混合人工林的高程图中的4980个树冠进行标记，并将标记好的高程图带入进本实施例的深度卷积对抗网络中进行训练，生成8192个人造树冠高程图样本并带入进本实施例的端到端网络中进行训练。相同研究区域的其他未标记树冠的高程图被用来构建测试集以验证本实施例的方法的有效性。结果显示，该方法在三个研究区域检测单株树冠时召回率达87.2％，总体准确率达93.6％，这表明该算法具有预测不同类型、不同树种和不同种植密度的树冠分布的潜力。

具体详情如下：

(一)材料与方法：

(1.1)研究区域：

本实施例的研究区域包括三个位于南京市南京林业大学(32.07°N，118.78°W)的不同研究区域。南京市位于秦岭淮河以南，属亚热带季风气候。年平均气温15.7℃，最冷月(1 月)和最热月(7月)的平均气温分别为-2.1℃和28.1℃。年降水量1021.3mm。第一块研究区域是苗圃，这里主要种植了桂花和鸡爪槭幼苗。树木排列整齐，种植间距约为1.5m。受树龄限制，苗圃内树苗的冠幅通常不超过2m，树高不超过4m。第二块研究区域为森林景观区，共有针叶树3种，阔叶树23种，该区域内生长着大量矮小灌木。第三块研究区域是混交林，种植了4种针叶树和大约17种阔叶树。主要树种为杉木和水杉。

(1.2)数据集：

(1.2.1)采集机载激光雷达数据及图像：

利用DJI FC6310无人机上的Velodyne HDL-32E传感器采集了三个研究区域(苗圃、森林景观区和混交林)的机载激光雷达数据。该传感器每秒发送70万个激光脉冲，并记录每个激光脉冲的返回值。水平视场角为360度，垂直视场角为+10.67至-30.67度。飞行高度为60米，重叠率为15％。2018年10月，使用同一架无人机搭载数码相机以20米/秒的速度、约150 米的高度飞行，拍摄了三个研究区域的航拍图像。同时，使用佳能EOS 6D Mark II数码相机和佳能EF 8-15mm f/4L Fisheye USM Lens在森林景观区和混交林内以垂直向上90度的角度拍摄了18张鱼眼图像。

(1.2.2)实地数据：

本实施例在提供测试样本的部分研究区域实地测量了相关数据，包括树木的位置、树种、高度和冠幅。使用Blume-Leiss高度计，根据三角原理测量树高。使用卷尺测量了每棵树南北方向和东西方向的冠长，并取两个方向上冠长的平均值作为冠幅。结合实地测量，在航拍图像上标注视觉可识别的树梢的位置。尽管人工测量不可避免地具有主观性，但它被认为是可靠和有效的信息来源。从(1)苗圃，(2)森林景观区和(3)混交林中拍摄的部分航空图像如图1所示。图1中(1)苗圃、(2)森林景观区和(3)混交林的部分航拍图像，其中三角形表示实际树梢的位置。

(1.2.3)处理点云数据：

为了去除点云中的噪声和异常值，首先采用高斯滤波器去噪，然后采用布料模拟滤波将机载激光雷达数据分为地面点和非地面点，并根据非地面点生成数字表面模型。通过对数字表面模型正交投影，得到相应的高程图。高程图中像素的灰度值对应投影点的高程信息。高程图中像素由暗变亮，对应投影点高度由低变高。

(1.3)端到端网络：

作为一种端到端的目标检测系统，端到端的整个网络结构如图2所示。端到端利用全局推理对整个图像的相关信息进行学习与预测，主要包括对现有样本的学习并生成人工训练样本及对测试集中的边界框的预测和相应置信度的预测。首先，利用k均值聚类方法对训练集中用于标记树冠的边界框聚类，聚类数设为9。这个值在保证模型相对简单的同时实现了高召回率。将输入图像划分为M×M网格单元，并在每个网格单元中预测B边界框和每个边界框的置信度。模型直接预测了每个边界框的位置坐标(x,y,w,h)。然后，约束这四个坐标以获得预测边界框对应于图像的中心位置

和大小

其中(σ(x),σ(y))是预测框中心距预测框单元左上角的偏移量，(l_x,l_y)是预测框单元距图像左上角的偏移量。b_w和b_h分别表示与预测框对应的边界框先验的宽度和高度。e^w和e^h均为指数函数，约为2.72。

其次，端到端网络通过确定对象的中心是否在网格单元中来获得预测框的置信度。如果不存在，置信度为零；否则，置信度为边界框先验与ground truth的并集(IOU)，即

本实施例将阈值设为0.5。当

时，忽略预测值；否则，只有当某一边界框先验与 ground truth的

值大于任何其他边界框先验与ground truth的

值时，具有最大

值的预测框的目标值为1。

最后，端到端网络选择一个独立的逻辑分类器进行类预测。将该方法应用于本实施例的数据集时，端到端网络为输出的每个尺度预测一个三维张量:M×[3*(4+1+1)]，表示预测的四个参数值，即3个尺度，4个坐标，1个对象，1个类。

(1.3.1)训练集与测试集：

在本研究中，本实施例使用LabelImg分别对苗圃、森林景观区和混交林的高程图中的 1905、1446和1629棵树(绿框)进行标记，并将标记的高程图作为训练样本。图3显示了三个研究区域的部分训练样本；图3中显示了部分训练样本，其中使用LabelImg工具手动标记了 (1)苗圃、(2)森林景观区和(3)混交林对应高程图中的树冠。与训练样本不同，测试样本不需要进行标记。从苗圃、森林景观区和混交林中划分9个样地，并分别选取9个样地中种植的59、84、333、65、45、82、96、76、117棵树作为测试样本树(见表3)。

(1.3.2)基于DCGAN的假训练样本生成：

DCGAN是为训练样本生成而设计的一种深度学习网络。它使用卷积步长和转置卷积进行下采样和上采样。DCGAN的目标函数如下：

V(G,D)＝∫_xP_real(x)·log(D(x))dx+∫_xP_generate(x)·log(1-D(x))dx (5)；

其中P_real(x)表示真实数据的概率分布，P_generate(x)表示生成数据的概率分布。

DCGAN通常由两个不同的部分组成：生成器G和判别器D。本实施例通常将DCGAN 定义为一个求最大和最小值的方程系统，其中生成器G要使式子(5)最小，判别器D要使式子(5)最大化。在判别器端，目标函数希望D具有最强的鉴别性能，并将真实样本与生成器生成的假样本区分开来。在生成器端，目标函数希望模型生成具有最大可能值D(x)的图像来欺骗判别器。DCGAN的网络如图2的上侧所示，用于生成端到端模型的训练样本。

本实施例用DCGAN带入上一小节中人工手动标记的苗圃1905、森林景观区1446和混交林1629的样本进行训练，共生成苗圃2000、森林景观区2000和混交林2000张的假高程图。部分生成的训练样本如图4所示。图4显示了使用深度卷积生成对抗网络(DCGAN)生成的高度图随着迭代次数的增加而变化。在训练过程开始时，生成的数据分布与实际数据纹理结构都不相似。然而，随着训练过程的进行，对抗网络的生成器能够生成相同或几乎相同的树冠高程图，并成功地欺骗判别器。这些生成的样本和原来人工标记的样本都将带入进本实施例的端到端的神经网络中开展网络模型的训练。

基于深度卷积对抗网络的新样本自动生成方法如下：

其中D为判别器，G为生成器。首先构造D使得上式值达到最大，也就是判别器对输入的真实样本判别接近于1，而生成出的样本都判别为0，从而具有最大的辨别能力。接着，构造G，公式(1)右边第一项不起作用，右边第二项使得生成的样本能够迷惑判别器，让D(G(x))尽量接近于1，从而使得该式值最小。

代表x符合指定数据P_real(x)概率分布的期望值，即真实数据的期望值。

代表生成的假样本数据概率的期望值。

公式(6)的解法分为如下2步：

第一步：对于任意的生成器G，找寻最优的判别器D，使得V(G,D)值最大，可以写为：

V(G,D)＝∫_xP_real(x)·log(D(x))dx+∫_xP_generate(x)·log(1-D(x))dx (5)；

公式(5)可以记为：

对该式求导数取极值后得到式(7)：

得到对于任意生成器，最优的判别器为：

第二步：得到最优的判别器D^*为式(4)，寻求最优的生成器G。

通过两个散度来定义，分别记为：

计算为下式：

其中，p_r＝p_real,p_g＝p_generate。如果让D_JS(p_r||p_g)≥0的值最小，即让p_r＝p_g。也就得到(4)式中判别器无法判别是真实还是生成数据。

D_KL代表Kullback–Leibler散度，D_JS代表Jensen-Shannon散度。其中D_KL描述两个概率分布

差异的一种测度。D_JS是基于D_KL散度的变体，解决了KL散度非对称的问题。一般地， JS散度是对称的，其取值是0到1之间，两个变量的概率分布完全相同时为0。

网络的构造具体如下：

对于生成器G，首先采用一系列反卷积操作，具体变换如下式所示：

H_out＝(H_in-1)×stride_H-2×padding_H+Kernelsize_H

V_out＝(V_in-1)×stride_V-2×padding_V+Kernelsize_V (10)；

其中H和V分别代表水平和垂直方向，H_in和H_out分别代表输入和输出信号的大小，stride 代表步长，Kernelsize代表卷积核大小，padding代表扩充大小。

首先，深度卷积生成器自动生成原始噪声样本：(50,100,1,1)，其中50代表每批50样本， 100代表通道数，1*1分别代表噪声的长宽都为1。将该样本代入5层的反卷积网络中进行操作，具体反卷积操作如下表：

表1、深度卷积对抗网络生成器：

其次，对于深度卷积判别器G，首先采用一系列卷积操作，具体变换如式(11)所示：

H_out＝(H_in+2×padding_H-(Kernelsize_H-1)-1)/stride_H+1

V_out＝(V_in+2×padding_V-(Kernelsze_V-1)-1)/stride_V+1 (11)；

深度卷积判别器对生成器输入的样本(50,3,96,96)，其中50代表每批50样本，3代表彩色图像的通道数，96*96分别代表生成图像的大小为96*96。将该样本代入5层卷积网络中进行操作，具体卷积操作如下表：

表2、深度卷积对抗网络判别器：

(1.3.3)基于端到端的训练和测试过程：

端到端深度学习网络(检测端到端网络)使用一种新的分类器网络DarkNet-53进行训练和测试。DarkNet-53包括53个卷积层，一些残差块，2个上采样过程和5个下采样过程。上采样将特征图和更前一层的特征图相连接以提供了更细粒度的信息，这使端到端网络能够获得三种不同尺度的特征图。下采样过程比上采样过程提供更多的语义信息。在DarkNet-53中，批处理归一化和Leaky整流线性单元(Leaky ReLU)激活函数被应用到除了最终生成输出特征图的三个卷积层以外的剩下的50个卷积层。对于批处理归一化和和Leaky ReLU激活函数, 前者不仅改善了收敛效果并避免了模型过度拟合，而且提高了模型的检测性能。后者避免了模型训练时可能出现的梯度爆炸或者消失的问题。此外，更深的卷积层使得DarkNet-53比 DarkNet-19更强大，但也意味着检测速度变慢。

在训练前，本实施例根据预训练COCO数据时模型的卷积权值来设置本实施例的初始权值，即在预训练模型的基础上进行转移学习。此外，训练集输入图像的宽度*高度被调整为默认值416×416。在训练过程中，本实施例对端到端网络进行了大约70000次迭代训练。本实施例使用64的批次，0.9的动量和0.0005的衰减。初始学习率设为0.001，而最终学习率设为0.0001。整个训练时间约为24小时。

端到端网络的测试过程主要包括四个步骤：(1)将测试集输入图像大小调整为默认值 416×416；(2)将缩放后的图像输入到端到端网络中，提取整个图像的特征，并以三种不同尺度输出特征图；(3)处理输出特征图，确定输出特征图中树冠的预测边界框。

(1.3.4)损失函数：

在整个训练过程中，端到端网络只使用一个损失函数I进行训练，它包括三个预测部分的损失，即边界框I₁、置信度I₂和类别I₃。

I＝I₁+I₂+I₃ (12)；

其中预测边界框I₁的损失函数定义为：

其中，

表示网格单元i的第j个预测边界框。e₁为该项的阈值，这里设置为5。num设置为9，表示每个网格单元预测9个不同尺度的目标框。M这里选取四个不同的尺度，分别是 (13,26,52,104)，代表本实施例把每副输入图像转换为四个不同尺度的大小，其中M＝13适用于图像检测大目标树冠，M＝26适用于图像检测中等目标树冠，M＝52适用于图像检测中小目标树冠，M＝104适用于图像检测小目标树冠。

代表的是预测框与真实框之间的相交的面积，

和

分别代表预测框与真实框的中心点的x,y位置，

代表两个中心点之间的欧式距离。l_{diaglinofminimclos}代表包络两个框(预测框与真实框)的最小矩形的对角线长度。

其中

与w,h分别代表预测框与真实框的宽度和高度值。v值可以得到两个框在形状上的变化。

其中预测置信度I₂的损失函数定义为：

其中，

表示预测框的置信度；S_i表示对应的实际被检测物体的置信度值；λ_noobj设置为 0.5；。

预测类别I₃的损失函数定义为：

表示网格单元i中 s类对象存在的概率。

表示网格单元i中是否存在对象，如果i中存在对象，

为1；否则，

为0。

(1.3.5)惯性梯度的网络模型反向传播：

在整个端到端网络的反向传播参数最优化方面，本实施例运用了自适应的动量估计梯度下降算法，具体如下：

取初始t＝0时刻第一偏置矩m_t＝0＝0，第二原始偏置矩n_t＝0＝0。

其中

经过每次反向传播后，m_t＝β₁m_t-1+(1-β₁)g_t,

然后计算

最后更新参数θ_t-1，如下式：

其中，β₁,β₂∈[0,1)，代表指数衰退率。β^t代表按照迭代次数做指数运算。本实施例方法中β₁＝0.91，β₂＝0.98，∈＝10^-7是一个扰动量。μ＝0.003是一个控制参数更新快慢量。本实施例的算法一般t＝10⁴。I_t表示在t时刻对应的损失函数值；θ表示网络中的每层的权重系数，

表示每个时刻损失函数I_t对网络中每个权重系数θ求导，具体如下：

(1.4)评估端到端网络检测的效果：

在测试过程中，有四种不同的检测结果：正确检测实际存在的树，错误检测实际不存在的树(即过检误差)，错误检测实际存在的树(即遗漏误差)，正确检测实际不存在的树。四个条件对应的树的数量由真阳性(TP)、假阳性(FP)、假阴性(FN)和真阴性(TN)表示。TP+FP表示端到端网络检测到的树的总数，而实际存在的树的总数用TP+FN表示。

模型的检测效率是影响检测结果的主要因素。为了评价端到端网络的性能，本实施例选择精确度(p)、召回率(r)和F₁score(F₁)作为评价指标。p表示模型正确检测到的树的数量与模型检测到的树总数的比值。r表示模型正确检测的树的数量与实际存在的树的总数的比值，即检测率。F₁表示p和r之间的调和平均值。p、r和F₁的值越接近1，端到端网络的检测效率越高，性能越好。p、r和F₁由以下方程式定义：

(2.1)损失分析：

端到端网络模型的训练损失曲线如图5(1)所示。损失在前5000次迭代中迅速减少，并在15000次迭代后逐渐稳定，最终损失约为0.04。损失曲线的收敛时间和收敛速度主要取决于选择适当的学习率。在训练开始时，由于缺乏已知信息，需要设置较高的初始学习率。随着训练的进行，有必要降低学习率，使损失函数更平稳地收敛到最优值。本实施例的训练得到了很小的最终损失，这表明网络的预测值和地面真值之间的误差很小，模型具有良好的性能。

以DIOU作为阈值，计算训练过程中的准确率和召回率与阈值变化的关系。这里，初始阈值设置为1并逐渐减小到0.1，每个步骤之间的间隔为0.02，并且计算每个步骤的精确度p 和召回率r，如图5(2)所示。当阈值趋向于1时，图5(2)中曲线的精度趋向于1并且召回接近于0，当阈值趋向于0时反之亦然。曲线下的面积精度接近1，这意味着本实施例的分类器几乎没有预测误差。为了有效地根据P-R曲线判断模型的性能，利用F₁指标在精确度和召回率之间找到折衷点。根据公式(13)，F₁在p＝r时具有相对较高的值为0.84，说明本实施例方法的有效性。

(2.2)端到端网络的单株树冠检测：

图6显示了(1)苗圃、(3)森林景观区和(5)混交林的部分测试样本中，端到端网络预测的树冠分布(矩形框)。图6中(2)、(4)和(6)使用三种不同的形状的点云直观地表示三种测试结果，即正确预测的树冠(三角形点云)、错误预测的树冠(矩形点云)和遗漏的树冠(实心圆形点云)，其中三角形表示正确预测的树冠的树梢。用端到端网络对苗圃、森林景观区和混交林的476、192和289棵样本树进行检测，分别正确检出430、166和238棵树，误检出19、15和23棵不存在的树，漏检46、26和51棵树。

一般情况下，苗圃中小树的平均冠幅小于其他类型样地中成熟树的平均冠幅。在检测大树冠时，只从低分辨率的特征图中提取树冠特征是足够的(13²)；而在检测小树冠时，只提取低分辨率的特征容易产生遗漏错误，这就要求端到端网络提取高分辨率的特征。在这里，端到端网络生成不同尺度的输出特征图(13²,26²,52²)，用于检测不同大小的树冠。值得注意的是，在苗圃测试树冠时，一些树冠很小的树木仍然很容易丢失(见图6(1))。一个可能的原因是这些树冠的地面真值框和相应的预测框之间的IOU总是小于阈值(0.5)，这使得它们在测试过程中无法被端到端网络识别。考虑到苗圃内树木的树冠大小相似，树冠较小而未被识别的树木数量较少，冠幅差异引起的误差对整体检测精度有着很小的影响。此外，本实施例不仅要分析树冠的大小，还要分析树冠的形状。在森林景观区和混交林中，水杉和杉木具有相似的金字塔形状，而对其他树种如棕榈、鹅掌楸和垂柳则具有外扩形的树冠，树冠形状不仅在树种间有明显差异，而且在树种内也有明显差异。这一发现表明，准确检测各种形状的树冠需要模型具有较强的学习和检测能力。

与苗圃内树木简单的水平和垂直结构相比，由于树种多样性程度高、树龄差异大、树木生长状况不同，森林景观区和混交林的冠层更加复杂。虽然苗圃测试样本树的数量约为森林景观区或混交林的两倍，但苗圃内出现的过检误差比混交林更少，并且出现遗漏误差的次数约为森林景观区的两倍。

表3总结了三个研究区域(苗圃、森林景观区、混交林)提供的训练和测试样本中的树木数量，测试结果和精度分析。三个研究区域共为训练集提供10980棵样本树(其中4980个真实样本，6000个对抗网络合成样本)，为测试集提供957棵样本树。通过对3个研究区域内9个测试样地的单株树冠检测结果进行分析，发现9个样地的p值在0.90～0.98之间，苗圃总p值(0.96)高于森林景观区(0.92)和混交林(0.91)。9个样地的r值差异很大，从0.78 到0.92不等。此外，与森林景观区(0.87-0.90)和混交林(0.84-0.90)的F₁值范围相比，苗圃样地的F₁值均大于0.90。对三个研究区域的检测结果进行综合评价和分析后发现，本实施例的端到端网络在苗圃内检测单株树冠的效果最好。

表3、应用深度学习方法对苗圃、森林景观区和混交林进行树冠检测的准确性评价：

注意：TP：正确检测实际存在的树；FP：错误检测实际不存在的树(即过检误差)；FN：错误检测实际存在的树(即遗漏误差)；p：模型正确检测到的树的数量与模型检测到的树总数的比值；r：模型正确检测的树的数量与实际存在的树的总数的比值；F₁：p和r的调和平均值。

(3.1)本实施例方法的可行性：

深度学习技术通过有效地提取和分析大量目标的特征信息，为实现汽车自动驾驶、目标识别与跟踪、语音自动识别等领域的智能系统提供了技术支持。近年来，将遥感数据与深度学习技术相结合的方法越来越多地被应用于解决林业中的问题，如单株树分割、树种分类及树冠信息提取。本研究首次将基于深度学习的端到端网络与机载激光雷达数据转换得到的高程图相结合，在不同类型的森林样地中进行单株树冠检测。

端到端网络检测苗圃、森林景观区和混交林中的单株树冠时，总召回率分别为90.3％、 86.5％和82.4％，这表明在不同环境中，使用本实施例的方法检测单株树冠可以获得相对稳定的检出率。单株树冠的检测率随树种多样性、种植密度和冠层结构复杂性的增加而降低。对于在高密度激光雷达数据中描绘单株树冠的其他自动化方法(检测率为72-74％)，本实施例的深度学习方法表现出更好的检测效率。与以往利用不同机载遥感数据(如(MEIS)-II数据和IKONOS数据)识别单株树木的研究相比，本实施例的方法具有相似或更高的精度。由于该方法在不同类型的林分中表现出良好的鲁棒性和可扩展性，并在自动实时的检测树冠时获取较高的精度，因此在林业及相关领域具有广泛的应用前景。

从苗圃到森林景观区，再到混交林，林冠结构复杂度逐渐增加。在开放系统中，树与树之间有很大的间隙，小树的横向和纵向生长很少被相邻树冠遮挡。此外，物种多样性程度小、样地内林下树木少、树高差异小等因素也对苗圃内树冠的正确检测产生了有利影响。因此，与森林景观区和混交林相比，本方法在对苗圃测试样本进行检测时，获得了单个研究区域总体p(0.96)、r(0.90)、F₁(0.93)的最高值。

对于生长在森林景观区和混交林中冠幅较大的阔叶树种，由于侧枝和树干的大小和形状相似，因此容易将侧枝误认为单独的树冠。对于树枝重叠交错、树冠边缘模糊的树木，很难提取出完整、清晰的树冠表面形态特征，因此在测试过程中可能将多个树冠检测为一个树冠。

在森林景观区和混交林中，林下植被和生长在树冠重叠连续的相邻树种之间的树木是造成遗漏误差的主要原因。在点云数据采集过程中，由于上层和中层树冠的遮挡，只有部分激光脉冲能通过枝叶间隙到达下层冠层，导致只能获取稀疏的下层冠层的点云。为了减少端到端网络检测时受客观因素引起的误差，本实施例在森林景观区和混交林中只选取3米以上的树木进行树冠检测的分析和评价。此外，机载激光雷达数据生成的高程图从垂直于地面的角度观测树木，这限制了林下树木冠层表面特征的提取。如果用地面激光扫描仪获取林下植被的清晰点云，并按高度进行层次分析，单株树冠检测的效果可能更好。

(3.2)实地测量数据的验证：

图7中(1)和(2)分别显示了端到端网络在测试集样地5和7上的测试结果(矩形框)。根据实地测量数据，手工标注实际树的位置(三角形)和树种(文字)。图7中(3)是从18个不同的圆形子集(黑色圆圈)中心拍摄的18张鱼眼图像，其中三角形表示实际树梢的位置。生长在样地5和样地7内的树种包括水杉(MG)、香樟(CC)、枫杨(CA)、金钱松(PS)、鹅掌楸(LC)、朴树(HB)、杉木(CF)、白玉兰(MD)、枣树(JU)、木瓜树(PP)、垂柳(WL)、紫叶李(PL)、棕榈(PA)、桂花(SO)、日本樱花(JC)、含笑树(MF)和鸡爪槭(AP)。

根据野外调查资料，各种各样的树种，如水杉(MG)、香樟(CC)、枫杨(CA)、金钱松(PS)，鹅掌楸(LC)、朴树(HB)、杉木(CF)、白玉兰(MD)、枣树(JU)、木瓜树(PP)、垂柳(WL)、紫叶李(PL)、棕榈(PA)、桂花(SO)、日本樱花(JC)、含笑树(MF)和鸡爪槭(AP)生长在样地5和样地7。如图6显示，本实施例的网络模型正确检测到119个树冠，错误的检测了11个不存在的树冠，遗漏了22棵树，检测率为84.4％。其中过检错误主要是由于阔叶树的多个独立分枝和多树干树(如SO)产生的干扰导致的。每张鱼眼图像的叶面积指数(LAI)在R环境下计算，范围为1.68到3.11。当子集中树的树高和冠幅较大，且主要树种为阔叶树时，鱼眼图像的LAI值通常较大。

表4列出了端到端网络检测的17种树种中每种树的数量和检出率，以及根据样地5和7 的实测数据获取的每种树种的实际数量、平均树高和平均冠幅。树高是影响单株树冠检测的重要因素。在样地5和样地7的测试样本中，有10种平均高度超过10m的树种(MG、CC、CA、PS、LC、HB、CF、MD、JU和PP)和7种平均高度低于10m的树种(WL、PL、PA、 SO、JC、MF和AP)。其中8种树种(MG、CC、CA、PS、LC、HB、CF和PP) 的检出率高于85％。平均树高小于10m的树种是林下植被的主要组成部分，其中3种树种(WL、 PL和AP)的检出率均小于60％，4种树种(PA、SO、JC和MF)的检出率均大于70％。对于同一树种，高度低于平均值的树木更难被发现。此外，由于林冠结构和形状的不同，针叶树和阔叶树的检测结果也存在差异。两个样地针叶树和阔叶树的实际数量分别为79株和62 株，其中针叶树的检出率(91.1％)高于阔叶树(75.8％)。

表4：样地5和样地7内17种树种的部分属性和检测率，以及深度学习算法检测到的树木数量与实地测量数据的对比：

注意：平均树高：属于同一树种的所有树的树高平均值；冠长：每棵树在南北和东西方向上树冠长度的平均值；平均冠幅：属于同一树种的所有树的冠长平均值；Y：端到端网络检测；F：实地检测。

图8显示端到端网络在18个不同子集中正确检测到的树冠数与实际树冠数的对比，以及根据每个子集的鱼眼图像计算出的对应的LAI值。LAI值在1.5-2.0之间的3个子集(第7、 12和16子集)出现遗漏错误，第14子集中检测到的树冠数与实际树冠数一致。端到端网络在LAI范围为2.0-2.5的3个子集(第9、13和17子集)中正确检测到的树冠数与实际树冠数一致。LAI值大于2.5的子集中，第2子集中出现4个遗漏错误，第1、3、4和6子集很少出现遗漏错误。结果表明，较高的LAI(LAI>2.5)可能会削弱深度学习方法检测树冠的精度，这可能是受被遮挡的下层植被的影响。图8表示样地5和7中18个圆形子集内的树木数量，其中浅灰色矩形条表示由端到端网络正确检测到的每个子集内的树木数量，深灰色矩形条表示实际清查的每个子集内的树木数量。数字表示根据每个子集中拍摄的鱼眼图像计算的相应的LAI值。

根据高程图的方位，端到端网络预测框的宽和长分别对应树木南北和东西方向的冠长。图9显示了(1)样地1，(2)样地5和(3)样地7中本实施例的方法预测的南北和东西方向的冠长与实地测量冠长的对比。图9的散点图显示了端到端网络预测的冠长与(1)样地1、(2)样地5和(3)样地7中树木的实测冠长之间的关系，其中深灰色方块表示南北方向的冠长，浅灰色方块表示东西方向的冠长。粗黑实线和细黑实线分别是南北方向和东西方向上的拟合线。用两个统计指标R²和均方根误差(RMSE)分析了三个研究区域中预测冠长与实测冠幅的线性回归模型。由于树木种植整齐，样地1获得了最大R²(93.91±0.49％)和最小RMSE(0.37±0.09m)。样地5具有相对较低的R²(91.47±0.75％)和最大的RMSE(0.77±0.10m)。由于树冠形状各异且相邻树冠枝叶交错，样地7获得了最小的R²(90.78±0.85％)和相对较大的RMSE(0.71±0.01m)。三个研究区域在南北方向(粗黑实线)和东西方向(细黑实线)上的拟合线表明，该方法能很好地预测冠幅。

(3.3)与传统分水岭分割算法的比较：

为了探索端到端网络相对于传统树冠检测方法的优势，本实施例将分水岭分割算法和局部最大滤波方法相结合，在样地5和7中描绘单株树冠(图10)；图10对比分水岭分割算法 (灰白色区域)与本实施例的深度学习算法(矩形框)在(1)样地5和(2)样地7中检测单株树冠的结果。黑色方块表示分水岭分割正确检测的树冠的树梢，圆形空心点表示分水岭分割遗漏的树冠。使用分水岭分割算法检测树冠时，在样地5和7中共正确检测出109个树冠(黑色方块)，15个不存在的树冠被错误地识别，32个树冠(圆形空心点)未被检测到。虽然分水岭分割算法在不同环境下的树冠检测效果相比其他传统的树冠检测算法较稳定，但深度学习方法在树种丰富、树冠连续的封闭树冠环境下进行树冠检测时显示出更好的性能。结果表明，在森林景观区和混交林中检测树冠时，采用分水岭分割算法检测单株树冠的检出率为77.3％，比端到端网络的检出率低9.9％。随着深度学习训练样本的树种多样性和种植密度的增加，这一差距将增大。

(4)总结：

结果表明，基于机载雷达数据的端到端网络目标检测算法能够有效地从点云中识别单株树冠。在提取训练样本特征和优化深度学习模型参数的基础上，将该算法应用于苗圃、森林景观区和混交林这三种不同类型林地的测试集时，分别正确的检测到90.3％、86.5％和82.4％的树冠。在树种较多的情况下，本实施例得到的树冠检测精度略高于以往的研究。因此，本实施例的算法可以快速而准确地从树种多样的森林样地中检测单株树冠。未来的工作将包括结合机载激光雷达数据与地面激光扫描仪数据，使用先进的深度学习方法进一步分析树冠结构和特征。

本发明的保护范围包括但不限于以上实施方式，本发明的保护范围以权利要求书为准，任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。

Claims

1.一种基于端到端深度学习方法的单株树冠检测方法，其特征在于：包括以下步骤：

(1)、采集林木的机载激光雷达点云数据；

2.根据权利要求1所述的基于端到端深度学习方法的单株树冠检测方法，其特征在于：所述的步骤(1)中的林木包括苗圃、森林公园景观区和混交林。

3.根据权利要求2所述的基于端到端深度学习方法的单株树冠检测方法，其特征在于：所述的步骤(1)具体为：

4.根据权利要求1所述的基于端到端深度学习方法的单株树冠检测方法，其特征在于：所述的步骤(2)具体为：

(2.3)根据非地面点生成数字表面模型；

5.根据权利要求1所述的基于端到端深度学习方法的单株树冠检测方法，其特征在于：所述的步骤(3)中对高程图中的每个树冠进行手动标记具体为：

6.根据权利要求1所述的基于端到端深度学习方法的单株树冠检测方法，其特征在于：所述的深度卷积对抗生成网络的目标函数为：

V(G,D)＝∫_xP_real(x)·log(D(x))dx+∫_xP_generate(x)·log(1-D(x))dx (1)；

7.根据权利要求1所述的基于端到端深度学习方法的单株树冠检测方法，其特征在于：所述的端到端深度学习网络在训练过程中，将损失函数I设置为：

I＝I₁+I₂+I₃ (2)；

其中预测边界框I₁的损失函数定义为：

其中，

表示网格单元i的第j个预测边界框；e₁为阈值，设置为5；num设置为7，表示每个网格单元预测7个不同尺度的目标框；M表示四个不同的尺度，分别是(13,26,52,104)，代表把每副输入图像转换为四个不同尺度的大小，其中M＝13适用于图像检测大目标树冠，M＝26适用于图像检测中等目标树冠，M＝52适用于图像检测中小目标树冠，M＝104适用于图像检测小目标树冠；