CN109214591B

CN109214591B - 一种木本植物地上生物量预测方法及系统

Info

Publication number: CN109214591B
Application number: CN201811187160.6A
Authority: CN
Inventors: 张晓宇; 葛会硕; 李炳虹; 宋跃朋; 张德强
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2020-07-24
Anticipated expiration: 2038-10-12
Also published as: CN109214591A

Abstract

本发明公开了一种木本植物地上生物量预测方法及系统。所述方法首先获取BP神经网络的输入向量(木本植物的茎长、叶片数和根数)和输出向量(木本植物的茎叶鲜重和茎叶干重)；根据所述输入向量和输出向量构建地上生物量预测的BP神经网络模型；然后根据多个训练样本对BP神经网络模型进行循环往复训练，生成训练后的BP神经网络模型，即可直接采用训练后的BP神经网络模型预测木本植物的地上生物量(茎叶鲜重和茎叶干重)。所述训练后的BP神经网络模型选用木本植物表型特征(茎长、叶片数和根数)作为自变量，降低了样本数据获取的复杂度和获取时间，无需耗费大量人力物力；由于表型特征和地上生物量联系紧密，因此预测结果具有很高的准确率。

Description

一种木本植物地上生物量预测方法及系统

技术领域

本发明涉及地上生物量预测技术领域，特别是涉及一种木本植物地上生物量预测方法及系统。

背景技术

生物量是生态系统运行的能量基础和营养物质来源,也是整个生态系统生产力的重要体现(BROWNS，LUGOAE.1984)。同时也是反映群落或生态系统功能强弱的重要指标(赵同谦，欧阳志云，郑华.etal2004)。在植被生态学研究中，生物量既是表征植物群落数量特征的重要参数，又是反映植物群落初级生产力重要指标，也是生态系统获取能量能力的主要体现，对生态系统结构的形成以及生态系统的功能具有十分重要的影响(宇万太，于永强.2001)。立木生物量由地上和地下两部分组成，由于生物量测定非常费时费力，尤其是地下生物量的测定，不仅成本高，而且操作难度大(黄建辉，韩兴国，陈灵芝.1999)。1876年Ebermeryer在德国进行的几种森林的树枝落叶量和木材重量的测定是最早有关生物量的研究(EbermeyrE.1876)。20世纪50年代，世界各国才开始重视对森林生物量的研究，日本、美国相继开展了森林生产的研究，开始对各自国家内的主要森林生态系统生物量和生产力进行实际调查和资料收集(张建设，王刚.2014)。到了20世纪80年代，随着全球环境问题日益突出，国际科教理事会再次提出了规模空前的全球变化研究即国际地圈与生物圈计划，又大大推动了对生物量的研究，至今生态系统生物量的研究一直是生态学研究的一个重要方向(BotkinDB，Woodwe11，G1M1Tempel.etal1970)。

以往对生物量的测定有传统的二氧化碳平衡法、数学模型模拟法、平均生物量法、材积转换法以及光学遥感法。传统的二氧化碳平衡法是将森林生态系统的叶、枝、干和土壤等组分封闭在不同的气室内，根据气室CO₂浓度变化计算各个组分的光合速率与呼吸速率，进而推算出整个生态系统CO₂的流动和平衡(BotkinDB，Woodwe11，G1M1Tempel.1970)。此方法对环境条件要求较高，在自然环境下使用红外CO₂分析器很难达到，所以导致测定误差较大且效率低。例如，要想在一个开放的或半封闭的系统中准确地测定大约10cm²面积叶片的CO₂交换，需要能在大约340mg/kg的普通大气CO₂浓度背景下分辨0.1-1.0mg/kgCO₂摩尔分数的仪器，这就要求长气室、恒温、充分预热等条件。数学模型模拟法概括起来有3种基本类型:线性模型、非线性模型、多项式模型。材积转换法主要包括生物量转换因子法和生物量转换因子连续函数法。这两种方法是常用预测方法，但解决复杂非线性问题时可能误差较大。平均生物量法是指基于野外实测各类型森林样地的单位面积生物量，再乘以该类型森林面积，从而推算出区域森林生物量，该法在早期区域、国家及全球尺度上的森林生态系统生物量估算都曾得到过广泛的应用(DixonRK，BrownS，HoughtonRA，etal.1994)，然而平均生物量法的实现需要耗费大量人力物力。光学遥感方法是从光合作用即植被生产力形成的生理过程出发，根据植物对太阳辐射的吸收、反射、透射及其辐射在植被冠层内及大气中的传输，结合植被生产力的生态影响因子，在卫星接受到的信息之间建立科学完整的数学模型及其解析式进行遥感信息与环境因子的反演从而估计生物量(SpencerRD，GreenMA，BlggsPH.1997)；遥感方法成本较高且人为干扰大，变更数据获取速度慢，多次接收会造成误差累积。可见，目前国内外生物量的研究方法普遍存在测定误差大、效率低、耗费人力物力、测定成本较高的技术问题。

发明内容

本发明的目的是提供一种木本植物地上生物量预测方法及系统，以准确、高效预测木本植物的地上生物量，且预测过程省时省力、所需成本较低。

为实现上述目的，本发明提供了如下方案：

一种木本植物地上生物量预测方法，所述木本植物地上生物量预测方法包括：

获取BP神经网络的输入向量和输出向量；所述输入向量为木本植物的茎长、叶片数和根数；所述输出向量为木本植物的茎叶鲜重和茎叶干重；

根据所述输入向量和所述输出向量构建地上生物量预测的BP神经网络模型；

获取所述BP神经网络模型的多个训练样本；所述训练样本包括输入样本和输出样本；

根据多个所述训练样本对所述BP神经网络模型进行循环往复训练，生成训练后的BP神经网络模型；

获取待预测木本植物的茎长、叶片数和根数作为当前输入向量；

将所述当前输入向量输入所述训练后的BP神经网络模型，获得所述待预测木本植物的茎叶鲜重和茎叶干重。

可选的，所述根据所述输入向量和所述输出向量构建地上生物量预测的BP神经网络模型，具体包括：

根据所述输入向量的维数确定所述BP神经网络模型的输入层神经元个数；

根据所述输出向量的维数确定所述BP神经网络模型的输出层神经元个数；

根据所述输入层神经元个数与所述输出层神经元个数确定所述BP神经网络模型的隐含层神经元个数；

根据所述输入层神经元个数、所述输出层神经元个数及所述隐含层神经元个数构建所述BP神经网络模型。

可选的，所述根据多个所述训练样本对所述BP神经网络模型进行循环往复训练，生成训练后的BP神经网络模型，具体包括：

根据第k个输入样本及公式

确定隐含层输入向量；其中

为第k个输入样本对应的隐含层输入向量，其中h＝1，2，...，p，p为隐含层神经元数量；n为输入层神经元数量；w_ih为输入层到隐含层的连接权值；x_i(k)为第k个输入样本；b_h为隐含层各神经元的阈值；

根据所述隐含层输入向量

及公式

确定隐含层输出向量；其中

为第k个输入样本对应的隐含层输出向量；

根据所述隐含层输出向量

及公式

确定输出层输入向量；其中

为第k个输入样本对应的输出层输入向量；w_h0为隐含层到输出层的连接权值；b₀为输出层各神经元的阈值；

根据所述输出层输入向量

及公式

确定输出层输出向量；其中

为第k个输入样本对应的输出层输出向量；

根据所述输出层输入向量和所述输出层输出向量修正隐含层到输出层的连接权值；

根据所述隐含层与输出层的连接权值修正输入层到隐含层的连接权值；

根据所述隐含层到输出层的连接权值及所述输入层到隐含层的连接权值确定当前BP神经网络模型；

获取所述当前BP神经网络模型的实际输出；

根据所述实际输出确定全局误差；

判断所述全局误差是否小于预设误差值，获得第一判断结果；

若所述第一判断结果为所述全局误差小于预设误差值，确定所述当前BP神经网络模型为所述训练后的BP神经网络模型；

若所述第一判断结果为所述全局误差不小于预设误差值，令k＝k+1，返回所述根据第k个输入样本及公式

确定隐含层输入向量的步骤。

可选的，所述根据所述输出层输入向量和所述输出层输出向量修正隐含层到输出层的连接权值，具体包括：

根据隐含层到输出层的权值修正公式

修正隐含层到输出层的连接权值w_h0；其中

为连接权值w_h0的第N次修正值；

为连接权值w_h0的第N+1次修正值；η为权重变化率；δ_o(k)为误差函数对输出层各神经元的偏导数。

可选的，所述根据所述隐含层与输出层的连接权值修正输入层到隐含层的连接权值，具体包括：

根据输入层到隐含层的权值修正公式

修正输入层到隐含层的连接权值w_ih；其中

为连接权值w_ih的第N次修正值；

为连接权值w_ih的第N+1次修正值；δ_h(k)为误差函数对隐含层各神经元的偏导数。

可选的，所述根据所述实际输出确定全局误差，具体包括：

根据所述实际输出及全局误差公式

确定全局误差；其中E为全局误差；m为每个训练样本的变量维数；d_o(k)为第k个输入样本对应的期望输出向量；y_o(k)为第k个输入样本对应的实际输出向量。

一种木本植物地上生物量预测系统，所述木本植物地上生物量预测系统包括：

输入向量及输出向量获取模块，用于获取BP神经网络的输入向量和输出向量；所述输入向量为木本植物的茎长、叶片数和根数；所述输出向量为木本植物的茎叶鲜重和茎叶干重；

BP神经网络模型构建模块，用于根据所述输入向量和所述输出向量构建地上生物量预测的BP神经网络模型；

训练样本获取模块，用于获取所述BP神经网络模型的多个训练样本；所述训练样本包括输入样本和输出样本；

BP神经网络模型训练模块，用于根据多个所述训练样本对所述BP神经网络模型进行循环往复训练，生成训练后的BP神经网络模型；

当前输入向量获取模块，用于获取待预测木本植物的茎长、叶片数和根数作为当前输入向量；

地上生物量预测模块，用于将所述当前输入向量输入所述训练后的BP神经网络模型，获得所述待预测木本植物的茎叶鲜重和茎叶干重。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种木本植物地上生物量预测方法及系统，所述方法及系统首先获取BP神经网络的输入向量和输出向量；所述输入向量为木本植物的茎长、叶片数和根数；所述输出向量为木本植物的茎叶鲜重和茎叶干重；根据所述输入向量和所述输出向量构建地上生物量预测的BP神经网络模型；然后根据多个所述训练样本对所述BP神经网络模型进行循环往复训练，生成训练后的BP神经网络模型，即可直接采用所述训练后的BP神经网络模型预测木本植物的地上生物量(茎叶鲜重和茎叶干重)。所述训练后的BP神经网络模型选用木本植物表型特征(茎长、叶片数和根数)作为自变量，降低了样本数据获取的复杂度和获取时间，无需耗费大量人力物力；由于表型特征和地上生物量联系紧密，因此预测结果具有很高的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据本发明提供的附图获得其他的附图。

图1为本发明提供的木本植物地上生物量预测方法的方法流程图；

图2为采用典型相关分析方法对小叶杨表型特征和生理特征进行相关性分析的分析结果示意图一；

图3为采用典型相关分析方法对小叶杨表型特征和生理特征进行相关性分析的分析结果示意图二；

图4为采用层次聚类法对小叶杨表型特征和生理特征进行聚类划分的结果示意图；

图5为推荐聚类个数示意图一；

图6为推荐聚类个数示意图二；

图7为采用K-means聚类方法进行聚类划分的结果示意图一；

图8为采用基于人工蜂群算法的K-means聚类方法进行聚类划分的结果示意图二；

图9为BP神经网络模型的传递过程示意图；

图10为本发明构建的地上生物量预测的BP神经网络模型的示意图；

图11为本发明提供的木本植物地上生物量预测系统的系统结构图；

图12为采用本发明提供的木本植物地上生物量预测方法预测木本植物茎叶鲜重的预测结果图；

图13为采用本发明提供的木本植物地上生物量预测方法预测木本植物茎叶干重的预测结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的木本植物地上生物量预测方法的方法流程图。参见图1，所述木本植物地上生物量预测方法包括：

步骤101：获取BP神经网络的输入向量和输出向量。所述输入向量为木本植物的茎长、叶片数和根数；所述输出向量为木本植物的茎叶鲜重和茎叶干重。

在所述步骤101获取BP神经网络的输入向量和输出向量之前，首先需要确定木本植物地上生物量与木本植物的哪些生物特征相关，并从中确定与木本植物地上生物量联系最为紧密的木本植物表型特征作为所述输入向量，从而准确预测木本植物的地上生物量(茎叶鲜重和茎叶干重)。

本发明中，木本植物表型特征包括木本植物幼苗的茎长、叶片特征和根特征；其中叶片特征为叶片数，根特征为根长和根数。木本植物生理特征包括木本植物幼苗的地上和地下部分重量特征和含水量特征，其中地上和地下部分重量特征包括茎叶鲜重、茎叶干重、根鲜重、根干重；含水量特征包括茎叶含水量和根部含水量。

本发明首先采用典型相关分析方法和层次聚类法对小叶杨表型特征和生理特征进行相关性分析和聚类分析，解释了两者之间的联系；其次将基于人工蜂群算法的K-means聚类方法应用到木本植物中，并基于木本植物表型特征(茎长、叶片数和根数)建立BP神经网络模型预测其生理特征(茎叶鲜重、茎叶干重和茎叶含水量)。所述BP神经网络模型模型还可用于筛选木本植物优良品种，节省时间与经济成本。更重要的是，本发明提供的方法及系统适用于大多数木本植物。

因此在所述步骤101获取BP神经网络的输入向量和输出向量之前，还包括以下步骤：

S10：获取样本。

在全国整个小叶杨地理分布(陕西，青海，河北，河南，宁夏，北京，内蒙，辽宁)中，采集485个小叶杨样本，选取其中的57个个体作为样本，用这57个样本的茎叶部分和根部进行分析。

S11：获取样本表型特征及生理特征。

小叶杨幼苗表型特征数据借助卷尺获得，用卷尺测量小叶杨样本的茎长和根长，并获得样本的叶片数和根数。生理特征的测量是首先将幼苗样本在根部剪断，并将根部清洗干净，分别称取茎叶鲜重和根鲜重(Wf)。然后将样本于105℃下杀青30min，80℃烘干至恒重，称此时的干重，获得茎叶干重和根干重(Wd)。则其茎叶含水量和根部含水量可采用下式获得：

S12：采用典型相关分析方法和层次聚类法对小叶杨表型特征和生理特征进行相关性分析和聚类分析。

结合典型相关分析和层次聚类法，基于测量得到的样本表型特征数据和生理特征数据，对小叶杨茎叶含水量、根部含水量、根数、根部鲜重、根部干重、叶片数、茎长、茎叶鲜重和茎叶干重这9个特征进行相关性分析和聚类划分，分析木本植物表型特征与生理特征之间的相关性以及内在联系，探究影响幼苗生长的重要变量。

图2为采用典型相关分析方法对小叶杨表型特征和生理特征进行相关性分析的分析结果示意图一。图3为采用典型相关分析方法对小叶杨表型特征和生理特征进行相关性分析的分析结果示意图二。图2与图3的横坐标为表型特征的线性组合，纵坐标为生理特征的线性组合。首先，在每组变量中寻找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数；然后选取和已经挑选出的这对线性组合不相关的另一对线性组合，并使其相关系数最大，如此下去，直到两组变量的相关性被提取完毕为止。被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。例如，图2中的横、纵坐标分别是第一对典型变量的值(U1是表型特征的线性组合，V1是生理特征的线性组合)并对数据进行了标准化，图2是第二対典型变量。

从图2及图3所示的典型相关结果可知，一共有四个典型相关变量，其相关系数R分别为0.9263、0.7767、0.3119、0.2172，经检验在a＝0.05水平上，前两个典型相关变量显著相关，其P值分别为9.6099e^-21和2.1857e^-06，于是前两对典型变量的线性组合为

1)第一对典型变量U1和V1中，U1为小叶杨表型特征，其中S.L(茎长)较其它表型特征有很大的载荷，说明小叶杨幼苗的茎长是其生长发育的重要指标，在表型特征中占主导地位。R.N(根数量)较L.N(叶片数量)和A.R.N(平均根长)有较大的载荷，说明在幼苗的生长发育中，根部发达的幼苗对生长起着正面作用；V1为小叶杨幼苗生理特征，S.L.F.W(茎叶鲜重)和R.F.W(根鲜重)较其它生理特征有很大的载荷，说明在生理特征中幼苗的生长体现在地上部分和地下部分的生物量上，其次S.L.W.C(茎叶含水量)和R.W.C(根部含水量)较S.L.D.W(茎叶干重)有较大的载荷，这是由于植物含水量是其自身生长发育以及代谢的重要指标。

2)第二对典型变量中，在小叶杨幼苗表型特征指标中，A.R.N(平均根长)和R.N(根数量)较其他变量的载荷大，在其生理特征中，S.L.F.W(茎叶鲜重)、R.F.W(根鲜重)、S.L.D.W(茎叶干重)上载荷依然很大，说明了其主导地位，S.L.W.C(茎叶含水量)、R.W.C(根部含水量)上载荷也较大，说明这几项生理指标都很重要。

将原始样本数据代入前两对典型变量中可得到典型变量的得分，从得分等值平面图看出，散点在一条近似的直线上分布，两者之间呈线性相关关系，说明用典型相关方法可以较好的说明小叶杨幼苗地上部分与地下部分变量的相关关系。

图4为采用层次聚类法对小叶杨表型特征和生理特征进行聚类划分的结果示意图。从层次聚类图图4来看，显著的聚类有两类，茎叶含水量和根部含水量有很强的相关性，可以认为小叶杨幼苗不论是地上部分还是地下部分含水量比重是相同的，另外样本地上部分茎长和茎叶干重及湿重有很强相关性，说明可以用茎叶的干重和湿重之一来分析地上茎叶的特征，通过进行相关性分析发现小叶杨幼苗的茎长和叶片数、茎叶和根重量、根数的关系比较密切。表明通过木本植物表型特征(茎长、叶片数和根数)建立BP神经网络模型预测其生理特征(茎叶鲜重、茎叶干重和茎叶含水量)是可行的。

S13：确定样本最优聚类个数。

下面结合K-means聚类和基于人工蜂群算法的K-means聚类方法，基于测量得到的样本表型特征数据和生理特征数据，对57个代表样本进行子品种的划分，确定样本最优聚类个数。

采用K-means聚类方法对木本植物样本进行子品种划分的步骤如下：

(1)选取木本植物样本的表型特征数据作为需要的变量数据；

(2)对所述变量数据进行归一化处理，得到归一化变量数据；

(3)将给定数据集X＝{x₁,x₂,...,x_d}划分为多个不同类别C＝{C₁,C₂,...,C_k}，其中x_i(i＝1,2,3,...,n)为d维向量，k为类别数。X＝{x₁,x₂,...,x_d}中各变量数据x₁，x₂，...，x_d分别对应木本植物样本的茎长，叶片数，根数，茎叶鲜重，根干重，茎叶干重，根干重，茎叶含水量和根部含水量这9种变量数据，因此向量维数d＝9。C为聚类簇，由R语言的Nbclust包中26个聚类评价指标建议聚为两类(k＝2)，得到的第一类为C₁，第二类为C₂。则满足约束条件：

基于划分的聚类分析的衡量准则函数为：

其中d(x_i,c_j)表示数据x_i与所属类中心c_j的距离；J表示所有类内距离和，J越小，表示聚类效果越好。

采用基于人工蜂群算法的K-means聚类方法对木本植物样本进行子品种划分的步骤如下：

A.人工蜂群算法具体步骤：

A1：初始化蜜源。人工蜂群算法中含有SN个蜜源的初始种群分别为X＝{X₁,X₂,...,X_SN}，每个蜜源X_i＝{x_i1,x_i2,...,x_in}是一个D维向量，对应优化问题的一个可行解，其中X为聚类中心，从木本植物样本中随机选取，本发明中取蜜蜂数量SN＝30，每个蜜蜂由k*D维矩阵组成，其中聚类个数k＝2。x_in为每个样本的变量，变量分别为茎长、叶片数、根数、茎叶鲜重、根鲜重、茎叶干重、根干重、茎叶含水量和根部含水量，所以n＝D＝9。则有：

其中

表示第i个蜜源的第j维分量，j＝1,2,...,D，比如第i个蜜源(聚类中心)的茎长变量(j＝1)，

和

分别表示蜜源的第j维分量的上、下限，即蜜源第j维分量的最大值和最小值，rand(0,1)为区间内均匀分布的随机数。

A2：引领蜂搜索过程。随后进行算法迭代，引领蜂在当前位置附近展开邻域搜索，产生于一个新位置V_i作为候选蜜源并计算其适应度，搜索公式为：

其中

为新产生的蜜源的第j维分量；

为随机选取的蜜源，k,j是从各自定义范围内随机选取的两个数，

为区间[-1,1]内的控制邻域搜索范围的随机数。引领蜂采用“贪婪原则”进行蜜源选择，即：如果搜索到的新蜜源V_i的适应度高于原蜜源X_i，则以V_i替换X_i；否则保持X_i不变。

新蜜源

由公式(8)产生，以适应度为准则，步骤A2是从样本中更新聚类中心，可能开始随机以第1、2、3个样本为聚类中心，后来迭代更新又变成另3个样本作为聚类中心。

A3：跟随蜂选择过程。在所有引领蜂完成邻域搜索后，跟随蜂根据轮盘赌选择策略从引领蜂搜索到的蜜源中选择跟随的蜜源，一个蜜源被选择的概率P_i为:

fit_i为第i个蜜源的质量，fit_i＝RN_i/J_i,i＝1,2,...,N，对应第i个解的适应度，RN_i为第i个类的点的个数。跟随蜂选择蜜源后在选中蜜源位置附近同样通过式(8)展开邻域搜索并以“贪婪原则”进行选择。

A4：侦察蜂搜索过程。若某蜜源经过lim次迭代后其质量没有更新，表明该蜜源陷入局部最优，就要被放弃；与之对应的引领蜂转换为侦察蜂，并根据式(7)产生新蜜源代替该蜜源。在全部迭代次数完成后，将适应度最大的蜜源作为最优解。

K-means聚类算法的一个缺点是聚类中心选取容易陷入局部最优，因此本发明采用人工蜂群算法选取聚类中心，即将得到的所述最优解作为K-means聚类算法的聚类中心。

B.基于人工蜂群算法的K-means聚类算法步骤：

B1：设置引领蜂、跟随蜂和侦察蜂的数量(引领蜂＝跟随蜂)；最大迭代次数MCN(＝100)以及控制参数lim(＝10)；当前迭代次数Cycle，初始值为1；聚类类别数k；产生{Z₁,Z₂,...,Z_N}个初始蜂群。初始蜂群个数N为30，每个Z_i代表k*D的矩阵，即将全部木本植物样本分成了30个簇，每个簇里是2行9列的数据，每个簇作为一个初始蜂群，簇中可以有重叠。

B2：对初始蜂群进行一次聚类划分，计算每只蜜蜂的适应度，按照适应度大小排序，将前一半作为引领蜂，后一半作为跟随蜂。

B3：引领蜂利用式(8)对其邻域进行搜索，得到新的位置，按照贪婪选择原则，如果新的位置的适应度大于原先位置的适应度，则用新的位置更新原位置；否则保持原位置不变。当所有引领蜂完成邻域搜索后计算概率P_i。

B4：跟随蜂利用算得的概率P_i并基于轮盘赌原则选择引领蜂，P_i越大引领蜂i的适应度越大，被跟随蜂选中的概率越大。当跟随蜂完成引领蜂选择后利用式(8)对邻域搜索，同样按照贪婪选择原则选择适应度高的位置。

B5：在所有跟随蜂完成搜索后，将得到的位置(所述最优解)作为聚类中心，对数据进行一次K均值迭代聚类，根据聚类划分用每一类的新的聚类中心更新蜂群。

B6：如果某引领蜂在lim次迭代后结果都没有改变，则由引领蜂变为侦察蜂，并随机产生一个新的位置取代原位置。

B7：如果当前迭代次数大于最大次数MCN，则迭代结束，最终将所有木本植物样本聚类为2类(k＝2)，得到的第一类为C₁，第二类为C₂。聚类结果如图5和图6所示。

图5为推荐聚类个数示意图一。图6为推荐聚类个数示意图二。图5横坐标表示聚类个数，纵坐标代表在横坐标确定的情况下的值，较大的值对应最优聚类个数。图6横坐标也是聚类个数，纵坐标代表评判指标(R语音软件中NbClust包中有26个评判指标)。图6中最高的直方图表示有8个指标建议聚为两类。因此从图5和图6中可以看出，小叶杨样本的最优聚类个数为2。

图7为采用K-means聚类方法进行聚类划分的结果示意图一。图8为采用基于人工蜂群算法的K-means聚类方法进行聚类划分的结果示意图二。图7和图8中横、纵坐标分别表示的是样本的茎长和叶片数，只是直观显示，聚类结果是结合10个特征划分的(开始的9个特征加上平均根长)。图中点为样本，图中“+”和“*”代表把样本分为了两类：

第一类小叶杨幼苗样本主要来自陕西(东经110度，北纬34度)和河南(东经113度，北纬33度)，气候类型都属于温带亚热带季风气候，两省地理位置和气候条件相似，共同特点是夏季高温多雨，冬季寒冷干燥，四季分明；这一子类小叶杨样本特征是茎长较短，平均为7.88cm，叶片数平均为7.94，茎叶重量较小，平均为0.71g，根部含水量平均为0.83。

第二类小叶杨样本主要来自中国西北部，包括陕西、青海、宁夏。宁夏属于典型的大陆型半湿润半干旱气候，气温日差大，日照时间长且太阳辐射强。青海是高原大陆性气候，昼夜温差大、降雨少而集中、日照长、太阳辐射强等特点，内蒙古属典型的中温带季风气候，晴天多，日照时间长，降水量少而不匀、寒暑变化剧烈的显著特点，这一子类小叶杨样本茎长较长，平均为16.51cm，叶片数也较多，平均为11.24，茎叶重量为1.51g，根部含水量和第一子类样本相似为0.82。

通过两类小叶杨样本的对比分析发现位于中国西北部的小叶杨个体表型特征比中西部地区样本长势好，幼苗根数也较多，在防沙固土方面表现明显优势，两类样本在生理特征如茎叶含水量和根部含水量方面相差不大。

从图7及图8所示的聚类结果来看，用两种方法的聚类结果除在辽宁盖州市和河南伊川县2例小叶杨幼苗样本中结果不同，其余55例聚类结果相同，而由于基于人工蜂群算法的K-means聚类方法比K-means聚类方法具有全局收敛性，所以本发明采用基于人工蜂群算法的K-means方法的聚类结果。

传统的UPGMA聚类分析(陈永华，吴晓芙，郝君等.2012)效率较低，不具有再分配能力，影响聚类的准确性。本发明将基于人工蜂群算法的K-means聚类方法应用到木本植物中，根据木本植物表型特征和生理特征对不同地区其进行聚类分组，使不同地区幼苗样本更具解释性。

步骤102：根据所述输入向量和所述输出向量构建地上生物量预测的BP神经网络模型。

所述BP神经网络模型分为两个过程：工作信号正向传递子过程和误差信号反向传递子过程。图9为BP神经网络模型的传递过程示意图。图10为本发明构建的地上生物量预测的BP神经网络模型的示意图。图10中工作信号先正向传播，再逆向传播，来回反复直到达到计算精度或最大迭代次数，再进行下一个样本的训练图中初始权值w和阈值b的初值是随机生成的。

本发明地上生物量预测的BP神经网络模型构建方法具体包括：

根据所述输入向量的维数确定所述BP神经网络模型的输入层神经元个数n；所述输入向量为x＝(x₁,x₂,x₃)(茎长，叶片数，根数)，因此确定输入层神经元个数n＝3；

根据所述输出向量的维数确定所述BP神经网络模型的输出层神经元个数；每个样本的输出向量为茎叶鲜重/茎叶干重，所以输出层神经元个数q＝2。根据所述输入层神经元个数n与所述输出层神经元个数q确定所述BP神经网络模型的隐含层神经元个数p；一般隐含层节点个数要大于输入层和输出层节点个数，隐含层节点过多会造成“过拟合”，因此本发明中确定所述BP神经网络模型的隐含层神经元个数p＝5；

所述BP神经网络模型输入层有n个神经元，隐含层有p个神经元，输出层有q个神经元，其中输入向量为x＝(x₁,x₂,...,x_n)，隐含层输入向量为

隐含层输出向量为

输出层输入向量为

输出层输出向量为

期望输出向量为d₀＝(d₁,d₂,...,d_q)，输入层与中间层的连接权值为w_ih，隐含层与输出层的连接权值为w_h0，隐含层各神经元的阈值为b_h，输出层各神经元的阈值为b₀，样本数据个数k＝1,2,...,m。激活函数为S型函数：

误差函数为：

本发明构建的地上生物量预测的BP神经网络模型输入向量为x＝(x₁,x₂,x₃)(x₁，x₂，x₃分别表示茎长，叶片数，根数)；

为输入向量x＝(x₁,x₂,x₃)经过加权w_ih后进入隐含层时的输入向量，此时维数由3变为5；

为

经过各神经元阈值b_h后输出的向量，维数为5；

为

经过隐含层与输出层的权值w_h0加权后得到的输出层的向量，此时维数由5变成了1；

为多个训练样本的实际输出(BP神经网络训练出来的茎叶鲜重/茎叶干重)。

所述步骤102中，建立预测模型也可以考虑使用支持向量机、梯度提升以及高斯过程回归等方法，但是针对木本植物的地上生物量预测，BP神经网络模型的预测最为准确，因此本发明所述方法选择建立所述BP神经网络模型。

步骤103：获取所述BP神经网络模型的多个训练样本；所述训练样本包括输入样本和输出样本。

选取全国覆盖木本植物的同一物种木本植物个体，得到木本植物样本。从所述木本植物样本中选取预设个数的样本作为所述训练样本。

测量所述训练样本的表型特征作为输入样本，所述表型特征包括茎长、叶片数和根数。测量所述训练样本的生理特征作为输出样本，所述生理特征包括茎叶鲜重和茎叶干重。

基于所述木本植物样本的表型特征和生理特征数据，采用典型相关分析方法和层次聚类方法分析地上部分特征和地下部分特征的相关性并进行聚类；利用NbClust软件包中组内平方误差和26个聚类评估指标确定样本的最优聚类组数，并结合K-means聚类方法和基于人工蜂群算法的K-means聚类方法对木本植物个体进行聚类分组。

步骤104：根据多个所述训练样本对所述BP神经网络模型进行循环往复训练，生成训练后的BP神经网络模型。

所述BP神经网络模型的训练方法具体包括以下步骤：

步骤(1)：网络初始化。给各连接权值分别赋一个区间(-1,1)内的随机数，设定误差函数e，给定计算精度ε和最大学习次数M。

计算精度优选为ε＝10e^-5，最大学习次数优选为M＝100。

步骤(2)：随机选取第k个输入样本以及对应的期望输出：

其中x₁(k)，x₂(k)，...，x_n(k)分别代表3个输入变量(茎长、叶片数和根数)；d_o(k)代表因变量(茎叶鲜重/茎叶干重)。

步骤(3)：计算隐含层各神经元的输入和输出：

其中隐含层输入向量

是输入层经过加权得到的，隐含层输出向量

是加权后由激活函数计算出的隐含层输出值；输出层输入向量

是隐含层输出值经过加权得到的输出层输入值；输出层输出向量

是输出层输入值代入激活函数得到的输出层输出值。

具体为，根据第k个输入样本及公式

确定隐含层输入向量；其中

根据所述隐含层输入向量

及公式

确定隐含层输出向量；其中

为第k个输入样本对应的隐含层输出向量；

根据所述隐含层输出向量

及公式

确定输出层输入向量；其中

根据所述输出层输入向量

及公式

确定输出层输出向量；其中

为第k个输入样本对应的输出层输出向量；

步骤(4)：根据所述输出层输入向量和所述输出层输出向量修正隐含层到输出层的连接权值。

利用网络期望输出和实际输出，计算误差函数对输出层的各神经元的偏导数δ_o(k)可得修正隐含层到输出层的连接权值满足关系式：

完成一次正向传播(从输入层-隐含层-输出层)后，此时的误差函数(BP计算出的值和实际训练的值为自变量构成的函数)值一般大于预设的计算精度ε，所以就要进行逆向传播(反过去修正权值，使误差变小)，一直反复修正权值和阈值，使误差函数值达到计算精度。所以这里计算偏导就是修正权值，这里是数学推理过程，符号表示和前文一样。式(14)中：

利用输出层各神经元δ_o(k)和隐含层各神经元的输出来修正连接权值

即：

得到的隐含层到输出层的权值修正公式：

其中

为连接权值w_h0的第N次修正值；

为连接权值w_h0的第N+1次修正值；η为权重变化率，0＜η＜1，η的值太大会影响

的稳定，太小会使

的求取收敛速度太慢；δ_o(k)为误差函数对输出层各神经元的偏导数。

步骤(5)：根据所述隐含层与输出层的连接权值修正输入层到隐含层的连接权值。

利用隐含层到输出层的连接权值、输出层的δ_o(k)和隐含层的输出计算误差函数对隐含层各神经元的偏导数δ_h(k)可得修正输入层到隐含层的连接权值满足公式：

利用隐含层各神经元的δ_h(k)和输入层神经元的输入参数修正连接权值：

得到的输入层到隐含层的权值修正公式：

其中

为连接权值w_ih的第N次修正值；

步骤(6)：根据所述隐含层到输出层的连接权值及所述输入层到隐含层的连接权值确定当前BP神经网络模型。

步骤(7)：获取所述当前BP神经网络模型的实际输出。

步骤(8)：根据所述实际输出确定全局误差。

所述全局误差计算公式为：

其中E为全局误差；m为每个训练样本的变量维数；d_o(k)为第k个输入样本对应的期望输出向量；y_o(k)为第k个输入样本对应的实际输出向量。

步骤(9)：判断所述全局误差是否小于预设误差值，获得第一判断结果。

若所述第一判断结果为所述全局误差小于预设误差值，或者学习次数大于设定的最大次数，则算法结束，确定所述当前BP神经网络模型为所述训练后的BP神经网络模型；

若所述第一判断结果为所述全局误差不小于预设误差值，令k＝k+1，选取下一个学习样本及对应的期望输出，返回所述步骤(3)，进行下一轮学习。

步骤105：获取待预测木本植物的茎长、叶片数和根数作为当前输入向量。

步骤106：将所述当前输入向量输入所述训练后的BP神经网络模型，获得所述待预测木本植物的茎叶鲜重和茎叶干重。

所述训练后的BP神经网络模型的自变量是易于测量的表型特征(木本植物的茎长、叶片数和根数)，以茎叶鲜重或茎叶干重这两个生理特征为因变量，而需要预测的茎叶鲜重和茎叶干重是生理特征，不易于测量，通过本发明建立所述训练后的BP神经网络模型可以直接得到所述待预测木本植物的茎叶鲜重和茎叶干重，而不需专门的仪器，降低了样本数据获取的复杂度和获取时间，无需耗费大量人力物力，预测效率极高。并且由于表型特征和地上生物量联系紧密，因此预测结果具有很高的准确率。

本发明还提供一种木本植物地上生物量预测系统。图11为本发明提供的木本植物地上生物量预测系统的系统结构图。参见图11，所述木本植物地上生物量预测系统包括：

输入向量及输出向量获取模块1101，用于获取BP神经网络的输入向量和输出向量；所述输入向量为木本植物的茎长、叶片数和根数；所述输出向量为木本植物的茎叶鲜重和茎叶干重；

BP神经网络模型构建模块1102，用于根据所述输入向量和所述输出向量构建地上生物量预测的BP神经网络模型；

训练样本获取模块1103，用于获取所述BP神经网络模型的多个训练样本；所述训练样本包括输入样本和输出样本；

BP神经网络模型训练模块1104，用于根据多个所述训练样本对所述BP神经网络模型进行循环往复训练，生成训练后的BP神经网络模型；

当前输入向量获取模块1105，用于获取待预测木本植物的茎长、叶片数和根数作为当前输入向量；

地上生物量预测模块1106，用于将所述当前输入向量输入所述训练后的BP神经网络模型，获得所述待预测木本植物的茎叶鲜重和茎叶干重。

其中，所述BP神经网络模型构建模块1102具体包括：

输入层神经元个数确定单元，用于根据所述输入向量的维数确定所述BP神经网络模型的输入层神经元个数；

输出层神经元个数确定单元，用于根据所述输出向量的维数确定所述BP神经网络模型的输出层神经元个数；

隐含层神经元个数确定单元，用于根据所述输入层神经元个数与所述输出层神经元个数确定所述BP神经网络模型的隐含层神经元个数；

BP神经网络模型构建单元，用于根据所述输入层神经元个数、所述输出层神经元个数及所述隐含层神经元个数构建所述BP神经网络模型。

所述BP神经网络模型训练模块1104具体包括：

隐含层输入向量确定子模块，用于根据第k个输入样本及公式

确定隐含层输入向量；其中

隐含层输出向量确定子模块，用于根据所述隐含层输入向量

及公式

确定隐含层输出向量；其中

为第k个输入样本对应的隐含层输出向量；

输出层输入向量确定子模块，用于根据所述隐含层输出向量

及公式

确定输出层输入向量；其中

输出层输出向量确定子模块，用于根据所述输出层输入向量

及公式

确定输出层输出向量；其中

为第k个输入样本对应的输出层输出向量；

第一连接权值修正子模块，用于根据所述输出层输入向量和所述输出层输出向量修正隐含层到输出层的连接权值；

第二连接权值修正子模块，用于根据所述隐含层与输出层的连接权值修正输入层到隐含层的连接权值；

当前BP神经网络模型确定子模块，用于根据所述隐含层到输出层的连接权值及所述输入层到隐含层的连接权值确定当前BP神经网络模型；

实际输出获取子模块，用于获取所述当前BP神经网络模型的实际输出；

全局误差确定子模块，用于根据所述实际输出确定全局误差；

误差判断子模块，用于判断所述全局误差是否小于预设误差值，获得第一判断结果；

训练后的BP神经网络模型确定子模块，用于若所述第一判断结果为所述全局误差小于预设误差值，确定所述当前BP神经网络模型为所述训练后的BP神经网络模型；

循环训练子模块，用于若所述第一判断结果为所述全局误差不小于预设误差值，令k＝k+1，返回所述根据第k个输入样本及公式

确定隐含层输入向量的步骤。

所述第一连接权值修正子模块具体包括：

根据隐含层到输出层的权值修正公式

修正隐含层到输出层的连接权值w_h0；其中

为连接权值w_h0的第N次修正值；

所述第二连接权值修正子模块具体包括：

根据输入层到隐含层的权值修正公式

修正输入层到隐含层的连接权值w_ih；其中

为连接权值w_ih的第N次修正值；

所述全局误差确定子模块，具体包括：

全局误差确定单元，用于根据所述实际输出及全局误差公式

下面通过具体的实施例说明木本植物地上生物量预测方法及系统的地上生物量预测效果。

采用本发明提供的木本植物地上生物量预测方法，通过以茎长、叶片数和根数为自变量，以茎叶鲜重和茎叶干重为因变量，建立BP神经网络模型，通过训练得到所述训练后的BP神经网络模型，采用所述训练后的BP神经网络模型对木本植物的茎叶鲜重及茎叶干重进行预测，得到预测结果如图12和13所示。图12为采用本发明提供的木本植物地上生物量预测方法预测木本植物茎叶鲜重的预测结果图。图13为采用本发明提供的木本植物地上生物量预测方法预测木本植物茎叶干重的预测结果图。本发明实施例选择的57个小叶杨幼苗样本中，随机选取45个样本作为训练样本来训练模型，其余的12个样本作为测试样本，如图中的12个点所示。图12及13中，圆圈为BP神经网络预测值，星星为真实的样本数据，预测值与真实值重合度越高，表明本发明方法的预测精度越高。表1为小叶杨幼苗地上部分生物量的预测结果。

表157例小叶杨幼苗样本生理特征预测结果

表1中，E为全局误差，MAE为平均绝对误差，MSE为均方误差。结合图12、13及表1可以看出，采用本发明方法预测木本植物茎叶鲜重和茎叶干重的预测精度分别达到了93.18％和83.36％，相对误差E分别为0.0091和0.0258，平均绝对误差MAE分别为1.6224和0.8116，均方误差MSE分别为0.2618和0.0621，判定系数R²＝0.8336，表明本发明方法预测木本植物茎叶鲜重和茎叶干重的预测准确率极高。

本发明中，对小叶杨幼苗表型特征和生理特征，使用典型相关分析和层次聚类法进行变量相关性分析和聚类划分，发现两者之间的关联和对小叶杨幼苗有较大影响的变量。聚类时，将传统的聚类方法(K-means聚类)和基于人工蜂群算法的K-means聚类作比较，本发明使用的基于人工蜂群算法的K-means聚类所得输出结果更具解释性，保留了小叶杨个体间差异的不确定性。建立木本植物地上生物量预测模型时，选用表型特征作为自变量，降低了数据获取的复杂度，表型特征和地上生物量联系紧密，使预测更准确。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。