CN116662777A

CN116662777A - 大尺度森林碳储量预估的高维机载LiDAR变量选择方法

Info

Publication number: CN116662777A
Application number: CN202310637591.2A
Authority: CN
Inventors: 符利勇; 张晓芳; 唐守正; 李骁尧; 张会儒
Original assignee: Research Institute Of Forest Resource Information Techniques Chinese Academy Of Forestry
Current assignee: Research Institute Of Forest Resource Information Techniques Chinese Academy Of Forestry
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-29

Abstract

本发明提供了大尺度森林碳储量预估的高维机载LiDAR变量选择方法，属于数据分析领域，本发明提出的方法结合了确定独立筛选技术、相关系数和方差膨胀因子，SPV能较好地处理高维、强相关和强共线性的变量，通过其提取得到的变量不仅是重要变量，而且变量之间是弱相关和弱共线。该发明提出的特征选择方法SPV不仅结合了SIS和VIF的优点，还避免了它们的缺点。即SPV不仅解决了SIS无法保证提取的变量都是重要变量的问题，还解决了变量顺序对VIF回归质量有重大影响的缺陷。总之，SPV选择的变量不仅是具有弱相关性的重要变量，而且具有弱共线性，这不能通过单独使用SIS或VIF来实现。

Description

大尺度森林碳储量预估的高维机载LiDAR变量选择方法

技术领域

本发明涉及数据分析领域，尤其涉及大尺度森林碳储量预估的高维机载LiDAR变量选择方法。

背景技术

森林生态系统包含陆地生态系统中储存的大部分碳。因此，森林比任何其他陆地生态系统都更能储存碳，占大气和地球陆地表面之间年度碳通量的90％。森林在全球碳循环中发挥着重要的作用，研究和建立森林生态系统的生物量及其生长潜力的估算方法体系能够为应对全球气候变化以及制定相关林业政策提供必要的基础和保证。林分生物量模型能够提供林分生物量估计和生长变化的量化信息，对林分生物量的准确估计和长期生长变化进行模拟，可为森林经营管理和决策提供依据，并促进森林碳汇的可持续经营。因此，准确估计林分生物量，需要有效的模型和工具。

目前有两种方式来获得一棵树的生物量，一是伐倒此树直接得其干重，该方式得到的结果精准但实施难度大，另一种方式是根据其树种，输入胸径和树高到该树种对应的异速方程得到其生物量，在以往的研究者，科研人员证实通过异速方程得到生物量的精度高，可以广泛地应用。因此，输入树的胸径、树高到异速方程得到其生物量是最普遍的方法。但对于大尺度的研究区域，野外调查得到胸径、树高来获取生物量的方式费时费力，效率低。遥感技术可以周期性地获取大面积森林的空间信息，因此是时空尺度上估计林分和单木特征属性的可行技术。

激光雷达(LiDAR)是最具潜力的遥感技术之一，能达到省时、省力的目的，而且LiDAR被证明是一种有效和准确的工具，可用于大面积森林树冠预估。按照搭载平台的不同，LiDAR系统可以进一步分为地面、机载和星载LiDAR。其中地面激光雷达常用来测算单木胸径和单木三维可视化；机载LiDAR数据主要用于单木和林分尺度森林冠层高度、叶面积指数和生物量的精确估测；星载LiDAR由于其全球范围覆盖，且数据获取成本低，可以实现光斑尺度和区域尺度森林冠层结构参数的精确反演。在比较研究中，机载激光雷达对森林生物量的估计比光学卫星LiDAR、机载多光谱和高光谱传感器和机载合成孔径雷达传感器更准确。在许多研究中机载激光雷达预测AGB表现良好，因此，基于机载激光雷达估计AGB是一种理想方案。

由激光雷达衍出来的变量有着强相关、共线性强和维度高的特点。高维度的变量不利于模型构建，一方面，高维变量在建模过程中会导致模型参数的计算变得困难；另一方面，当使用所有变量构建模型，由于变量与目标变量之间可能存在纯偶然的关联，导致最后得到的模型解释性差。因此，在使用激光雷达变量反演相关森林因子前需要先进行变量筛选。目前最常来筛选激光雷达变量的方式是逐步特征方法，但是当预测变量高度相关时，逐步特征选择技术往往表现不佳。

发明内容

本发明针对现有技术中的不足，提供了大尺度森林碳储量预估的高维机载LiDAR变量选择方法，本发明是基于Fan(Fan J and Lv J，2008)提出的确定独立筛选(SureIndependence Screening，SIS)和方差膨胀系数(Variance Inflation Factor，VIF)进行改进得到的。本发明提出一种特征选择方法SPV，该方法结合确定独立筛选(SureIndependence Screening，SIS)、相关系数(Pearson correlation coefficient)和方差膨胀系数(Variance Inflation Factor，VIF)。SPV能较好地处理高维、强相关和强共线性的变量，通过SPV提取得到的变量不仅是重要变量，而且变量之间是弱相关和弱共线。

具体的通过以下方面的技术方案实现了本发明：

大尺度森林碳储量预估的高维机载LiDAR变量选择方法，包括以下步骤：

(1)分别计算自变量x_i与因变量Y的相关系数ω_i(式1)，ω_i表示着变量的重要性，ω_i值越大表示变量越重要；然后，按相关系数绝对值|ω_i|从大到小对自变量进行排序；

(2)设置阈值μ(μ的初始值设定为1)，根据阈值得到对应的变量子集。得到一组特征子集的步骤如下：首先，计算自变量两两之间的相关系数值|α_ij|(|α_ij|表示自变量x_i和自变量x_j的相关系数)，所有自变量两两之间的相关系数集合定义为

然后，逐一比较集合Θ中的相关系数值和阈值μ的大小，若|α_ij|≥μ且|ω_i|＞|ω_j|则删除变量x_j；并从集合Θ中删除变量x_j与其他变量的相关系数值，若|α_ij|≥μ，|ω_i|＜|ω_j|则删除变量x_i，并从集合Θ中删除变量x_i与其他变量的相关系数值，若|α_ij|＜μ，则自变量x_i和自变量x_j都予以保留；

(3)判断某个阈值μ得到的变量子集是否为SPV最终选择变量。计算根据阈值μ得到的变量子集的VIF值，若该组变量的最大VIF值小于10，则输出阈值μ、最大VIF值，输出该组变量作为SPV最后筛选后得到变量，并停止计算；否则设置阈值μ＝μ-0.05，然后重复步骤(2)和步骤(3)。

SIS的思想就是运用相关学习准则，可以对超高维数据进行降维。SIS的基本思想是以因变量Y为中心化向量，计算Y与每一个自变量xi的相关系数，根据相关性系数值进行变量的选择。SIS先计算Y与每一个自变量x_i的相关系数ω_i(式1)，若ω_i越大则表明x_i与Y的相关性越强，按照|ω_i|从大到小来进行排序，然后取前N(N由研究者自行定义，常取值为n/ln n，其中n为数据的条数)个变量作为特征子集来训练模型。该算法中子集的个数n要个人确定，因此在只使用SIS方法筛选得到的变量错误率比较高，且SIS无法保证得到的变量是弱相关、弱共线性。

ω＝X^TY (1)

其中：ω＝(ω₁，…，ω_p)，

相关系数ω可用传统的Pearson相关系数或者距离相关性(DistanceCovariance)系数，文发明中的实验采取的是Pearson相关系数，其定义如下：

其中：和/>分别为特征集平均值和目标变量平均值。

方差膨胀系数(variance inflation factor，VIF)是衡量多元线性回归模型中复(多重)共线性严重程度的一种度量。VIF值越大，代表变量之间越有共性性问题。当VIF＜10，表明变量不存在多重共线性；当10≤VIF＜100，变量存在较强的多重共线性；当VIF≥100；变量之间存在严重多重共线性。VIF只考虑每个变量一次，因此遗憾的是，VIF筛选得到的变量效果在很大程度上取决于变量进入VIF筛选的顺序。计算某个预测变量i的VIF值见式(3)。

其中是预测变量i对剩余预测变量进行最小二乘回归的确定系数。

本发明有益效果：

(1)本发明提出的方法结合了确定独立筛选(Sure Independence Screening，SIS)技术、相关系数(Pearson correlation coefficient)和方差膨胀因子(VarianceInflation Factor，VIF)，SPV较好地处理高维、强相关和强共线性的变量，通过其提取得到的变量不仅是重要变量，而且变量之间是弱相关和弱共线。

(2)该发明提出的特征选择方法SPV不仅结合了SIS和VIF的优点，还避免了它们的缺点。SPV不仅解决了SIS无法保证提取的变量都是重要变量的问题，还解决了变量顺序对VIF回归质量有重大影响的缺陷。总之，SPV选择的变量不仅是具有弱相关性的重要变量，而且具有弱共线性，这不能通过单独使用SIS或VIF来实现。

(3)本发明的关键点是设置阈值μ来限定变量之间的相关系数不大于μ，用来削弱变量之间的相关性，同时加入VIF技术来保证得到的变量是弱共线性的。

附图说明

为了更清楚的说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见的，对于本领域技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1可用于建模的106个激光雷达点云衍生变量；

图2分别使用SPV和逐步回归得到的用于预估桉树林生物量的变量；

图3不同方式得到的最后用于预估桉树林生物量的变量；

图4二种特征选择方法和四类回归模型得到的预估桉树林生物量的八个反演模型精度；

图5分别使用SPV和逐步回归得到的用于预估杉木林生物量的变量；

图6不同方式得到的最后用于预估杉木林生物量的变量；

图7二种特征选择方法和四类回归模型得到的预估杉木林生物量的八个反演模型精度。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在本申请实施例的描述中，术语“第一”“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本申请中，除非另有明确的规定和限定，术语“安装”“相连”“连接”“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本申请中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

SIS虽然可以用于超高维变量降维，但SIS也存在问题。首先，该算法中子集的个数N要个人确定，因此存在一定的误差性。其次，与目标变量相关性相对较弱的自变量相比，SIS可能优先选择一些与重要自变量高度相关的非重要自变量，这意味着无法保证所获得的变量是弱相关且弱共线性。综上可知，在只使用SIS方法筛选得到的变量错误率比较高，其次，针对LiDAR变量强相关、多重共线性的特点，SIS无法保证得到的变量是弱相关、弱共线性，但许多统计方法对共线性很敏感：即参数估计可能不稳定，导致估计的标准误差膨胀，因此推断统计会有偏差。但即使对于共线性不太敏感的统计方法，由于共线性强的变量效应无法分离，导致方法的外推可能出现严重错误。

VIF回归在变量存在高度多重共线性的情况下表现良好。研究表明，当VIF值低于10时，变量之间不存在多重共线性。然而，VIF只考虑每个变量一次，因此遗憾的是，VIF筛选得到的变量效果在很大程度上取决于变量进入VIF筛选的顺序。

受SIS技术思想的启发，本研究将在其SIS的基础上，进一步考虑自变量之间的相关性和添加VIF来判断最后得到的变量是弱共线性。总的来说，本发明提出的方法结合了确定独立筛选(Sure Independence Screening，SIS)技术、相关系数(Pearson correlationcoefficient)和方差膨胀因子(Variance Inflation Factor，VIF)，SPV较好地处理高维、强相关和强共线性的变量，通过其提取得到的变量不仅是重要变量，而且变量之间是弱相关、弱共线。

ω＝X^TY (1)

其中：ω＝(ω₁，…，ω_p)，

其中：和/>分别为特征集平均值和目标变量平均值。

其中是预测变量j对剩余预测变量进行最小二乘回归的确定系数。

以下通过两个例子来说明基于SPV筛选变量构建生物量反演模型的效果：

实施例1：实验数据来自广西壮族自治区的第五次森林清查，共有283个桉树林样地，样地大小为30m×20m，每个样地的优势树种主要为巨尾桉。样地单株桉树的生物量采用异速方程AGB＝0.138D^2.436获得，其中D是单木胸径，AGB是单木对应的地上生物量。每个样地的AGB由样地内所有单木相加总和得到，238个桉树样地的AGB最大值为196.69t/ha(吨/公顷)，最小值为2.76t/ha，平均值为81.16t/ha。每个样地对应的点云数据衍生出来的激光雷达点云参数主要分为高度变量、密度变量和结构变量，点云参数的计算方式参考文献(Bouvier et al.，2015)(Korhonen et al.，2011)(李增元等，2015)，点云参数描述见图1。

用SPV筛选变量并构建反演模型的示例具体实现步骤为：

步骤一：输入283个样本数据作为训练数据，分布基于SPV和逐步回归进行特征选择，最终选择得到的变量见图2。从表中可以看出由SPV得到的变量两两之间的相关系数小于0.6，确保了得到的变量之间是弱相关，变量的最大VIF值为8.2，确保了变量之间不存在强共线性；而逐步回归得到的变量最大VIF值高达2409.30，变量之间存在着高度多重共线性问题。

步骤二：基于筛选后的特征变量，用283条样本数据来训练回归模型，在本示例中展示了4类回归算法的效果，4类回归算法分别为多元线性回归(LR)，加性模型(GAM)，支持向量回归(SVR)和随机森林回归(RF)，采用5折交叉验证来选择支持向量回归和随机森林回归的最优超参数。在建模过程中保证所有的变量显著，对不显著的变量进一步删除，不再进入最后模型构建。基于不同的特征选择方法得到的最后用于构建模型的变量见图3。

步骤三：采用留一交叉验证模型精度。采用相对均方根误差(rRMSE，式5)和调整的R2(式7)评价指标来评价模型精度。最后采用2类特征选择方法和4类回归算法构建的8个模型的留一交叉验证结果见图4。

其中AGB_i是GAM模型预测样地i的AGB，AGB_i是样地i实测的AGB，是所有样地实测的AGB平均值，n是用来构建模型的样地总数，本例子中n＝283。

另外从图3中可以看出SPV选择得到的最终用于建模的变量比SPV选择得到的最终用于建模的变量数量少；从图4中可以看出，当采用GAM和RF算法构建模型时，SPV选择得到的变量构建得到的模型精度要高于逐步回归选择得到的变量构建得到的模型，具体表现为更高，rRMSE更低。总的来说，本发明提出的SPV选择方法在针对高维、强相关和强共线性的激光雷达衍生变量时，不仅可以降低变量维度，而且SPV最终选择得到的变量构建的模型精度高于逐步回归最终选择得到的变量构建的模型。

实施例2：实验数据来自广西壮族自治区的第五次森林清查，共有228个杉木林样地，样地大小为30m×20m，每个样地的优势树种主要为杉木。样地单株杉木的生物量采用异速方程AGB＝0.076370D^2.40393获得，其中D是单木胸径，AGB是单木对应的地上生物量。每个样地的AGB由样地内所有单木相加总和得到，228个杉木样地的AGB最大值为190.34t/ha(吨/公顷)，最小值为16.52t/ha，平均值为91.16t/ha。每个样地对应的点云数据衍生出来的激光雷达点云参数描述见例子中的图1。

用SPV筛选变量并构建反演模型的示例具体实现步骤为：

步骤一：输入228个杉木样本数据作为训练数据，分布基于SPV和逐步回归进行特征选择，最终选择得到的变量见图6。从表中可以看出由SPV得到的变量两两之间的相关系数小于0.7，确保了得到的变量之间是弱相关，变量的最大VIF值为8.2，确保了变量之间不存在强共线性。逐步回归选择的变量通过VIF检测也不存在强共线性。

步骤二：基于筛选后的特征变量，用228条样本数据来训练回归模型，在本示例中展示了4类回归算法的效果，采用5折交叉验证来确定支持向量回归和随机森林回归的最优超参数。在建模过程中保证所有的变量显著，对不显著的变量进一步删除，不再进入最后模型构建。基于不同的特征选择方法得到最后用于构建模型的变量见图6。

步骤三：采用留一交叉验证模型精度。采用例子1中的相对均方根误差(rRMSE，式5)和调整的R2(式7)评价指标来评价模型精度。最后采用2类特征选择方法和4类回归算法构建的8个杉木林分生物量预估模型的留一交叉验证结果见图7。

另外从图7中可以看出SPV选择得到的最终用于建模的变量比SPV选择得到的最终用于建模的变量可解释性强，比如逐步回归中出现的hp5变量，为杉木林5％的点云所在的高度，不可用来描述森林整体分布情况；其次，从图7中可以看出，当采用LM、GAM和SVR算法构建模型时，SPV选择得到的变量构建得到的模型精度要高于逐步回归选择得到的变量构建得到的模型，具体表现为更高，rRMSE更低。总的来说，本发明提出的SPV选择方法在针对高维、强相关和强共线性的激光雷达衍生变量时，不仅可以降低变量维度，而且SPV最终选择得到的变量构建的模型精度高于逐步回归最终选择得到的变量构建的模型。

容易理解的是，本领域技术人员在本申请提供的几个实施例的基础上，可以对本申请的实施例进行结合、拆分、重组等得到其他实施例，这些实施例均没有超出本申请的保护范围。

以上的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

1.大尺度森林碳储量预估的高维机载LiDAR变量选择方法，其特征在于：包括以下步骤：

(1)分别通过SIS计算自变量x_i与因变量Y的相关系数ω_i，ω_i表示着变量的重要性，ω_i值越大表示变量越重要；然后，按相关系数绝对值|ω_i|从大到小对自变量进行排序；

(2)设置阈值μ，μ的初始值设定为1，根据阈值得到对应的变量子集；得到一组特征子集的步骤如下：首先，计算自变量两两之间的相关系数值|α_ij|；|α_ij|表示自变量x_i和自变量x_j的相关系数，所有自变量两两之间的相关系数集合定义为

然后，逐一比较集合Θ中的相关系数值和阈值μ的大小，若|α_il|≥μ且|ω_i|＞|ω_j|则删除变量x_j；并从集合Θ中删除变量x_j与其他变量的相关系数值，若|α_ij|≥μ，|ω_i|＜|ω_j|则删除变量x_i，并从集合Θ中删除变量x_i与其他变量的相关系数值，若|α_ij|＜μ，则自变量x_i和自变量x_j都予以保留；

(3)判断某个阈值μ得到的变量子集是否为SPV最终选择变量；计算根据阈值μ得到的变量子集的VIF值，若该组变量的最大VIF值小于10，则输出阈值μ、最大VIF值，输出该组变量作为SPV最后筛选后得到变量，并停止计算；否则设置阈值μ＝μ-0.05，然后重复步骤(2)和步骤(3)。

2.根据权利要求1所述的大尺度森林碳储量预估的高维机载LiDAR变量选择方法，其特征在于：步骤(1)中SIS先按照式1计算Y与每一个自变量x_i的相关系数ω_i，若ω_i越大则表明x_i与Y的相关性越强，按照|ω_i|从大到小来进行排序；

ω＝X^TY (1)

其中：ω＝(ω₁，…，ω_p)。

3.根据权利要求1所述的大尺度森林碳储量预估的高维机载LiDAR变量选择方法，其特征在于：其中，相关系数ω可以为Pearson相关系数或者距离相关性系数。

4.根据权利要求3所述的大尺度森林碳储量预估的高维机载LiDAR变量选择方法，其特征在于：使用的是Pearson相关系数，其定义如下：

其中：和/>分别为特征集平均值和目标变量平均值。

5.根据权利要求1所述的大尺度森林碳储量预估的高维机载LiDAR变量选择方法，其特征在于：步骤(3)中，VIF是衡量多元线性回归模型中复(多重)共线性严重程度的一种度量；VIF值越大，代表变量之间越有共性性问题；当VIF＜10，表明变量不存在多重共线性；当10≤VIF＜100，变量存在较强的多重共线性；当VIF≥100；变量之间存在严重多重共线性。

6.根据权利要求1或6所述的大尺度森林碳储量预估的高维机载LiDAR变量选择方法，其特征在于：步骤(3)中，计算某个预测变量i的VIF值见式(3)