CN110826764B

CN110826764B - 基于随机森林算法的植被指数预测方法、系统及设备

Info

Publication number: CN110826764B
Application number: CN201910905230.5A
Authority: CN
Inventors: 荆文龙; 李勇; 刘杨晓月; 杨骥; 夏小琳
Original assignee: Guangzhou Institute of Geography of GDAS
Current assignee: Guangzhou Institute of Geography of GDAS
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-11-24
Anticipated expiration: 2039-09-24
Also published as: CN110826764A

Abstract

本发明涉及一种基于随机森林算法的植被指数预测方法、系统及设备，通过以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型，利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数，获取植被指数预测值。相对于现有技术，本发明解决了现有技术中植被指数缺失问题，用户可利用本发明实现任意时间段的植被指数预测，完善了植被指数数据。

Description

基于随机森林算法的植被指数预测方法、系统及设备

技术领域

本发明涉及地理信息技术领域，尤其是涉及一种基于随机森林算法的植被指数预测方法、系统及设备。

背景技术

植被指数是从多光谱遥感数据中提取的、能够有效度量地表植被状况的数值，是基于连续时间序列的卫星遥感数据，与植被的覆盖度、生物量等有较好的相关性。

然而，现有的植被指数数据涉及的时间周期较短，而长时间的植被指数在反应区域地表植被情况及周期性变化及研究区域生态环境承载力上具有重要作用。然而，由于植被指数数据量大，数据维度多，对植被指数进行预测时，选择所述植被指数中的特征显得尤为重要，其选择结果影响预测结果，影响预测的准确性。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种无需进行特征选择、准确率高的基于随机森林算法的植被指数预测方法、系统及设备。

一种基于随机森林算法的植被指数预测方法，包括以下步骤：

获取植被指数数据，选取预设时间段内的所述植被指数数据作为训练数据集，根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据；

将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合，生成半月尺度的第二输入数据；

获取预设时间段内的高程数据，以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型；

其中，所述随机森林模型通过在训练数据集中随机有放回抽取若干个子集，每个子集生成一棵分类与回归树，利用最优变量及对应的最优值对所述分类与回归树进行划分，通过对若干个分类与回归树的预测值进行平均获得植被指数预测值；

获取目标时间段的全球陆地数据同化系统流域地表模型数据，将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据，利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数，获取植被指数预测值。

相对于现有技术，本发明通过以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型，利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数，获取植被指数预测值，所述随机森林通过随机选取特征遍历减少每棵树之间的相关性，提高每棵树之间的分类精度，实现了任意时间段的植被指数预测，解决了现有技术中植被指数缺失问题，用户可利用本发明完善植被指数数据，同时本发明为多棵分类与回归树并行计算，计算效率高，最终结合多棵分类与回归树的预测结果进行植被指数的预测，准确性较高。

在本发明一个实施例中，所述以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型的步骤包括：

在训练数据集中随机有放回抽取子集，每个子集生成一棵分类与回归树；

利用最优变量s_t和对应最优值s^*将t节点划分为t_L和t_R两棵子树，令每棵子树之间的样本具有最大差异性：

Δi(s，t)＝i(t)-p_Li(t_L)-p_Ri(t_R)

其中，Δi(s,t)是t节点划分后的精度，i(t_L)、i(t_R)分别是两棵子树t_L、t_R的精度，p_L、p_R分别是两棵子树t_L、t_R的精度的系数，

分别是两棵子树t_L、t_R的样本数量，i(t)是植被指数拟合模型精度量测函数：

N_t是节点t包含的样本数，y_i是节点t中样本i的植被指数输入值，y是y集合算术平均值：

计算样本在分类与回归树中传播时所达到对应叶子节点的值，获得植被指数预测值；

将所有单个分类与回归树的预测结果进行平均，获得植被指数预测值：

其中，f是植被指数预测值，N_tree是分类与回归树的数量，f_i(x)是每棵分类与回归树的植被指数预测值。通过利用分类与回归树实现对单个子集的植被指数预测，通过将所有单个分类与回归树的预测结果进行平均，获得准确性较高的植被指数预测值。

在本发明一个实施例中，所述以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型步骤中，按照以下方式计算每一个自变量参与所述随机森林模型的权重值：

其中，p(t)是样本到达节点t的比率，即N_t/N，N_t是节点t包含的样本数，N是样本数据的样本数，v(s_t)是用于分割s_t的变量，p(t)Δi(s_t,t)为节点t的加权精度减少比率；X_j是自变量。所述随机森林模型还通过计算每一个自变量参与所述随机森林模型的权重值，减少相关性低的自变量对随机森林模型预测结果的影响，提高预测准确性。

在本发明一个实施例中，所述基于随机森林算法的植被指数预测方法还包括以下步骤：判断所述极端梯度提升模型预测结果的精度是否达到设定精度，若是，输出植被指数预测值；否则，修改所述随机森林模型的分类与回归树的数目，重新获取植被指数预测值。通过反馈、改进模型参数、重新训练、输出结果的迭代优化过程，使植被数据的预测值更加准确和全面。

本发明还提供了一种植被指数预测系统，包括：

第一输入数据获取模块，用于获取植被指数数据，选取预设时间段内的所述植被指数数据作为训练数据集，根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据；

第二输入数据获取模块，用于将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合，生成半月尺度的第二输入数据；

随机森林模型构建模块，所述随机森林模型构建模块以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型；

随机森林模型训练模块，用于获取目标时间段的植被指数数据，将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据，利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数，获取植被指数预测值。

在本发明一个实施例中，所述随机森林模型构建模块包括：

树生成单元，用于在训练数据集中随机有放回抽取子集，每个子集生成一棵分类与回归树；

子树划分单元，用于利用最优变量s_t和对应最优值s^*将t节点划分为t_L和t_R两棵子树，令每棵子树之间的样本具有最大差异性：

Δi(s，t)＝i(t)-p_Li(t_L)-p_Ri(t_R)

预测值获取单元，用于计算样本在分类与回归树中传播时所达到对应叶子节点的值，获得单个分类与回归树的植被指数预测值；

植被指数获取单元，用于将所有单个分类与回归树的预测结果进行平均，获得植被指数预测值：

其中，f是植被指数预测值，N_tree是分类与回归树的数量，f_i(x)是每棵分类与回归树的植被指数预测值。

在本发明一个实施例中，所述随机森林模型构建模块还包括权重值计算单元，所述权重值计算单元用于按照以下方式计算每一个自变量参与所述随机森林模型的权重值：

其中，p(t)是样本到达节点t的比率，即N_t/N，N_t是节点t包含的样本数，N是样本数据的样本数，v(s_t)是用于分割s_t的变量，p(t)Δi(s_t,t)为节点t的加权精度减少比率；X_j是自变量。

在本发明一个实施例中，所述植被指数预测系统还包括：判断模块，用于将选取训练数据集后剩余的植被指数数据作为验证数据集，利用所述验证数据集判断所述随机森林模型预测结果的精度是否达到设定精度，若是，输出植被指数预测值；否则，修改所述随机森林模型的分类与回归树的数目，重新获取植被指数预测值。

本发明还提供了一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述的基于随机森林算法的植被指数预测方法的步骤。

本发明还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的基于随机森林算法的植被指数预测方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1是本发明实施例中一种基于随机森林算法的植被指数预测方法的流程图；

图2是本发明实施例中基于随机森林算法的植被指数预测方法步骤S4的流程图；

图3是本发明实施例中植被指数预测系统的结构示意图；

图4是本发明实施例中随机森林模型训练模块4的结构示意图。

具体实施方式

实施例

请参阅图1，本发明提供了一种基于随机森林算法的植被指数预测方法，包括以下步骤：

步骤S1：获取植被指数数据，选取预设时间段内的所述植被指数数据作为训练数据集，根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据。

在本实施例，所述植被指数数据为1981年7月-2015年12月共计35年828期AVHRRGIMMS3g.v1(AVHRR:Advanced Very High Resolution Radiometer.GIMMS:GlobalInventory Modelling and Mapping Studies)植被指数(NDVI,Normalized DifferenceVegetation Index)数据，所述植被指数数据中选取其中一段时间的植被指数数据作为训练数据集指的是从上述植被指数数据中随机抽取，选择其中的30年数据作为训练数据集，余下的5年数据作为验证数据集用来检验训练结果的可靠性。所述高质量像元值(flag＝0)为所述训练数据集中噪声最低的像元值，保证模型输入数据的数据质量。

步骤S2：将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合，生成半月尺度的第二输入数据；其中，所述预设时间段内的全球陆地数据同化系统流域地表模型(GLDAS CLSML4，Global Land Data Assimilation SystemCatchmentLand Surface Model Level4)数据集为1981年7月-2015年12月的全球陆地数据同化系统流域地表模型数据集。所述全球陆地数据通化系统流域地表模型数据集包括但不限于地表温度、地表水储量、植物冠层表面水分、土壤水分、裸土蒸散、大气温度和降水等数据。所述半月尺度的第二输入数据为以每半月进行整合而成的预设时间段内的全球陆地数据同化系统流域地表模型数据集。

在一个实施例中，所述植被指数数据、全球陆地数据同化系统流域地表模型数据集和高程数据在步骤S1之前进行了规范化统一所有数据的投影与空间坐标系、时间分辨率、空间分辨率的预处理，方便后续随机森林模型的应用。

步骤S3：获取预设时间段内的高程数据，以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型；所述随机森林模型是一种优秀的集成学习方法。它采用了一种通用的样本抽取技术，反复随机有放回选择一组随机样本进行训练。每个子集中生成一棵分类与回归树(CART)，是一种基于机器学习的二元分类(或回归)树算法，其最终预测值是所有子集的取值平均。

如图2所示，所述以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型的步骤包括：

步骤S301：在训练数据集中随机有放回抽取子集，每个子集的大小为原始样本集的2/3，所述子集包括递归过程从大小为n个样本，每个子集生成一棵分类与回归树。

步骤S302：利用最优变量s_t和对应最优值s^*将t节点划分为t_L和t_R两棵子树，令每棵子树内的样本具有最大相似度，每棵子树之间的样本具有最大差异性：

Δi(s，t)＝i(t)-p_Li(t_L)-p_Ri(t_R)

步骤S303：计算样本在分类与回归树中传播时所达到对应叶子节点的值，获得单个分类与回归树的植被指数预测值；

步骤S304：将所有单个分类与回归树的预测结果进行平均，获得植被指数预测值：

在本发明一个实施例中，所述以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型步骤中，通过将所有使用自变量X_j的节点t的加权精度减少比率p(t)Δi(s_t,t)相加，并根据森林中所有树的算术平均值得到每一个自变量参与所述随机森林模型的权重值，按照以下方式计算每一个自变量参与所述随机森林模型的权重值：

其中，p(t)是样本到达节点t的比率，即N_t/N，N_t是节点t包含的样本数，N是样本数据的样本数，v(s_t)是用于分割s_t的变量，p(t)Δi(s_t,t)为节点t的加权精度减少比率。所述随机森林模型还通过计算每一个自变量参与所述随机森林模型的权重值，减少相关性低的自变量对随机森林模型预测结果的影响，提高预测准确性。

步骤S4：获取目标时间段的全球陆地数据同化系统流域地表模型数据，将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据，利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数，获取植被指数预测值。

在一个实施例中，所述基于随机森林算法的植被指数预测方法还包括：步骤S5：判断所述植被指数是否满足预设的精度要求，若是，输出植被指数预测值；否则，修改所述随机森林模型的分类与回归树的数目，重新获取植被指数预测值。具体地，将验证数据集输入所述随机森林算法模型进行植被指数预测值预测，将该植被指数预测值与验证数据集中的植被指数数据进行比较，根据比较结果判断所述植被指数是否达到预设的精度要求，其中，所述预设的精度要求可根据用户实际需求进行设定。

如图3所示，本发明还提供了一种植被指数预测系统，包括：

第一输入数据获取模块1，用于获取植被指数数据，选取预设时间段内的所述植被指数数据作为训练数据集，根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据；

第二输入数据获取模块2，用于将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合，生成半月尺度的第二输入数据；

随机森林模型构建模块3，所述随机森林模型构建模块以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型；

其中，所述随机森林模型通过在训练数据集中随机有放回抽取若干个子集，每个子集生成一棵分类与回归树，利用最优变量及对应的最优对所述分类与回归树进行划分，通过对所述若干个分类与回归树的预测值进行平均获得植被指数预测值；

在本发明一个实施例中，如图4所示，所述随机森林模型构建模块3包括：

树生成单元301，用于在训练数据集中随机有放回抽取子集N_tree，每个子集生成一棵分类与回归树；

子树划分单元302，用于使用递归过程从大小为n的训练数据集作为样本构建分类与回归树，利用最优变量s_t和对应最优值s^*将t节点划分为t_L和t_R两棵子树，令每棵子树之间的样本具有最大差异性：

Δi(s，t)＝i(t)-p_Li(t_L)-p_Ri(t_R)

预测值获取单元303，用于计算样本在分类与回归树中传播时所达到对应叶子节点的值，获得单个分类与回归树的植被指数预测值；

植被指数获取单元304，用于将所有单个分类与回归树的预测结果进行平均，获得植被指数预测值：

在本发明一个实施例中，所述随机森林模型构建模块3还包括权重值计算单元，所述权重值计算单元用于按照以下方式计算每一个自变量参与所述随机森林模型的权重值：

其中，p(t)是样本到达节点t的比率，即N_t/N，N_t是节点t包含的样本数，N是样本数据的样本数，v(s_t)是用于分割s_t的变量，p(t)Δi(s_t,t)为节点t的加权精度减少比率。

随机森林模型训练模块4，用于获取目标时间段的植被指数数据，，将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据，利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数，获取植被指数预测值。

所述植被指数预测系统还包括：判断模块5，用于将选取训练数据集后剩余的植被指数数据作为验证数据集，利用所述验证数据集判断所述随机森林模型预测结果的精度是否达到设定精度，若是，输出植被指数预测值；否则，修改所述随机森林模型的分类与回归树的数目，重新获取植被指数预测值。

本发明还提供了一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现上述任意一项所述的基于随机森林算法的植被指数预测方法的步骤。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本发明还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述基于随机森林算法的植被指数预测方法的步骤。

相对于现有技术，本发明通过以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型，利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数，获取植被指数预测值，所述随机森林通过随机选取特征遍历减少每棵树之间的相关性，提高每棵树之间的分类精度，实现了任意时间段的植被指数预测，解决了现有技术中植被指数缺失问题，用户可利用本发明完善植被指数数据，方便研究者进行研究；同时本发明为多棵分类与回归树并行计算，计算效率高，最终结合多棵分类与回归树的预测结果进行植被指数的预测，准确性较高。本发明所述植被指数数据的模拟是一个“输入-训练-反馈-改进算法-训练-输出”的自动迭代优化过程，通过达到设定的精度，生成年长时间序列、空间完整覆盖的植被指数数据。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种基于随机森林算法的植被指数预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于随机森林算法的植被指数预测方法，其特征在于：所述以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型的步骤包括：

Δi(s，t)＝i(t)-p_Li(t_L)-p_Ri(t_R)

其中，Δi(s，t)是t节点划分后的精度，i(t_L)、i(t_R)分别是两棵子树t_L、t_R的精度，p_L、p_R分别是两棵子树t_L、t_R的精度的系数，

计算样本在分类与回归树中传播时所达到对应叶子节点的值，获得单个分类与回归树的植被指数预测值；

3.根据权利要求2所述的基于随机森林算法的植被指数预测方法，其特征在于：所述以植被指数作为因变量，以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量，构建随机森林模型步骤中，按照以下方式计算每一个自变量参与所述随机森林模型的权重值：

其中，p(t)是样本到达节点t的比率，即N_t/N，N_t是节点t包含的样本数，N是样本数据的样本数，v(s_t)是用于分割s_t的变量，p(t)Δi(s_t，t)为节点t的加权精度减少比率；X_j是自变量。

4.根据权利要求1所述的基于随机森林算法的植被指数预测方法，其特征在于：所述基于随机森林算法的植被指数预测方法还包括以下步骤：将选取训练数据集后剩余的植被指数数据作为验证数据集，利用所述验证数据集判断所述随机森林模型预测结果的精度是否达到设定精度，若是，输出植被指数预测值；否则，修改所述随机森林模型的分类与回归树的数目，重新获取植被指数预测值。

5.一种植被指数预测系统，其特征在于：包括：

随机森林模型训练模块，用于获取目标时间段的全球陆地数据同化系统流域地表模型数据，将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据，利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数，获取植被指数预测值。

6.根据权利要求5所述的植被指数预测系统，其特征在于：所述随机森林模型构建模块包括：

Δi(s，t)＝i(t)-p_Li(t_L)-p_Ri(t_R)

7.根据权利要求6所述的植被指数预测系统，其特征在于：所述随机森林模型构建模块还包括权重值计算单元，所述权重值计算单元用于按照以下方式计算每一个自变量参与所述随机森林模型的权重值：

8.根据权利要求5所述的植被指数预测系统，其特征在于：所述植被指数预测系统还包括：判断模块，用于将选取训练数据集后剩余的植被指数数据作为验证数据集，利用所述验证数据集判断所述随机森林模型预测结果的精度是否达到设定精度，若是，输出植被指数预测值；否则，修改所述随机森林模型的分类与回归树的数目，重新获取植被指数预测值。

9.一种计算机可读存储介质，其上储存有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-4任意一项所述的基于随机森林算法的植被指数预测方法的步骤。

10.一种计算机设备，其特征在于：包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4中任意一项所述的基于随机森林算法的植被指数预测方法的步骤。