CN110852472B

CN110852472B - 一种基于随机森林算法的陆地水储量预测方法及设备

Info

Publication number: CN110852472B
Application number: CN201910904058.1A
Authority: CN
Inventors: 刘杨晓月; 夏小琳; 荆文龙; 李勇; 杨骥
Original assignee: Guangzhou Institute of Geography of GDAS
Current assignee: Guangzhou Institute of Geography of GDAS
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-11-10
Anticipated expiration: 2039-09-24
Also published as: CN110852472A

Abstract

本发明提供一种基于随机森林算法的陆地水储量预测方法及设备，包括：获取地表参数信息、陆地水储量信息及陆地水储量信息的空间分辨率；对所述地表参数信息进行降低空间分辨率的重采样，得到第一地表参数信息；随机抽取所述第一地表参数信息和所述陆地水储量信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型；将所述目标地表参数信息进行降低空间分辨率的重采样，得到第二地表参数信息；将所述第二地表参数信息输入所述随机森林回归模型，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。相对于现有技术，本发明能够实现对历史时期的陆地水储量信息的精准预测，进而得到长时间序列的陆地水储量动态变化数据。

Description

一种基于随机森林算法的陆地水储量预测方法及设备

技术领域

本发明涉及地理信息技术领域，特别是涉及一种基于随机森林算法的陆地水储量预测方法及设备。

背景技术

地球是一个随时间空间变化的动力学系统，地球系统的物质质量重新分布会导致不同时间尺度的地球重力场变化。从而利用重力观测量就可以了解物质迁移和交换。在物质迁移研究中，陆地水储量对全球气候变化、经济发展和人类生活有着非常重大的意义。

但是，由于早年科学发展水平的限制，无法发射重力卫星，利用重力卫星检测地球重力场的变化，因而，无法获取历史时期内的陆地水储量信息，为研究长时间序列的陆地水储量动态变化带来了难题，并且现有回溯重建方法难以处理高维的海量数据，无法在数据特征缺失的情况下，维持预测的准确性。

发明内容

为克服相关技术中存在的问题，本发明实施例提供了一种基于随机森林算法的陆地水储量预测方法及设备。

根据本发明实施例的第一方面，提供一种基于随机森林算法的陆地水储量预测方法，包括如下步骤：

获取地表参数信息、陆地水储量信息及陆地水储量信息的空间分辨率；其中，所述地表参数信息包括流域地表信息、高程数据信息和气候分区信息；

对所述地表参数信息进行降低空间分辨率的重采样，得到第一地表参数信息，使所述第一地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同；

随机抽取所述第一地表参数信息和所述陆地水储量信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，每组所述样本数据包括多个第一地表参数信息和对应的多个陆地水储量信息；每组所述样本数据构建一棵决策树；所述随机森林回归模型包含多棵决策树；

获取待预测时间内的目标地表参数信息，将所述目标地表参数信息进行降低空间分辨率的重采样，得到第二地表参数信息，使所述第二地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同；

将所述第二地表参数信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。

根据本发明实施例的第二方面，提供一种基于随机森林算法的陆地水储量预测装置，包括：

采集单元，用于获取地表参数信息、陆地水储量信息及陆地水储量信息的空间分辨率；其中，所述地表参数信息包括流域地表信息、高程数据信息和气候分区信息；

第一重采样单元，用于对所述地表参数信息进行降低空间分辨率的重采样，得到第一地表参数信息，使所述第一地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同；

构建单元，用于随机抽取所述第一地表参数信息和所述陆地水储量信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，每组所述样本数据包括多个第一地表参数信息和对应的多个陆地水储量信息；每组所述样本数据构建一棵决策树；所述随机森林回归模型包含多棵决策树；

第二重采样单元，用于获取待预测时间内的目标地表参数信息，将所述目标地表参数信息进行降低空间分辨率的重采样，得到第二地表参数信息，使所述第二地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同；

确认单元，用于将所述第二地表参数信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。

根据本发明实施例的第三方面，提供一种基于随机森林算法的陆地水储量预测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的陆地水储量预测方法的步骤

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的陆地水储量预测方法的步骤。

本发明实施例中获取地表参数信息、陆地水储量信息及陆地水储量信息的空间分辨率；其中，所述地表参数信息包括流域地表信息、高程数据信息和气候分区信息；对所述地表参数信息进行降低空间分辨率的重采样，得到第一地表参数信息，使所述第一地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同；随机抽取所述第一地表参数信息和所述陆地水储量信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，每组所述样本数据包括多个第一地表参数信息和对应的多个陆地水储量信息；每组所述样本数据构建一棵决策树；所述随机森林回归模型包含多棵决策树；获取待预测时间内的目标地表参数信息，将所述目标地表参数信息进行降低空间分辨率的重采样，得到第二地表参数信息，使所述第二地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同；将所述第二地表参数信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。上述技术方案，综合考虑多种地表参数信息对陆地水储量信息的影响，基于已有的陆地水储量信息和地表参数信息，建立陆地水储量信息与地表参数信息的非线性映射关系模型，将历史时期地表参数信息应用于该模型，能够实现历史时期的陆地水储量信息的精准预测，进而得到长时间序列的陆地水储量动态变化数据。并且，通过随机森林算法构建建立陆地水储量信息与地表参数信息的非线性映射关系模型，能够高效处理高维海量数据，能够在数据特征缺失的情况下，维持预测的准确性

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明第一个示例性实施例示出的基于随机森林算法的陆地水储量预测方法的流程示意图；

图2为本发明第一个示例性实施例示出的基于随机森林算法的陆地水储量预测方法中S103的流程示意图；

图3为本发明第一个示例性实施例示出的基于随机森林算法的陆地水储量预测方法中S105的流程示意图；

图4为本发明第二个示例性实施例示出的基于随机森林算法的陆地水储量预测方法的流程示意图；

图5为本发明第三个示例性实施例示出的基于随机森林算法的陆地水储量预测方法的流程示意图；

图6为本发明一个示例性实施例示出的基于随机森林算法的陆地水储量预测装置的结构示意图；

图7为本发明一个示例性实施例示出的基于随机森林算法的陆地水储量预测设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本发明第一个示例性实施例示出的基于随机森林算法的陆地水储量预测方法的流程示意图。本实施例移动应用配置方法的执行主体是陆地水储量预测设备，如图1所示的基于随机森林算法的陆地水储量预测方法可包括：

S101：获取地表参数信息、陆地水储量信息及陆地水储量信息的空间分辨率；其中，所述地表参数信息包括流域地表信息、高程数据信息和气候分区信息。

陆地水储量预测设备获取地表参数信息、陆地水储量信息及陆地水储量信息的空间分辨率。其中，陆地水储量信息包括地下水储量、河流水储量、湖泊水储量、冰川水储量和土壤水储量等。2002年，重力卫星Grace被研制发射，该重力卫星能够通过监测地球的重力变化，精准估计2002年后的陆地水储量信息，但由于早年对陆地水储量的监测能力有限，故2002年前的陆地水储量信息难以被准确评估，因而，上述陆地水储量信息为2002年后已知的陆地水储量信息。

陆地水储量信息的空间分辨率是指卫星遥感影像上能够识别的两个物体的最小距离，简单来说就是陆地水储量信息能够被分辨的最小单元。在本实施例中，利用a°×b°表示陆地水水储量信息的空间分辨率，其中，a°表示经度，b°表示纬度。例如：0.01°×0.01°则表示陆地水储量信息能够被分辨的最小单元为0.01经度×0.01纬度所形成的单元，1°×1°则表示陆地水储量信息能够被分辨的最小单元为1经度×1纬度所形成的单元。本实施例选取陆地水储量信息的空间分辨率为0.5°×0.5°，0.5°×0.5°的空间分辨率能够在保证监测精度的同时，合理减低运算量，提高算法效率。

地表参数信息包括流域地表信息、高程数据信息和气候分区信息。其中，流域地表信息又包括净短波辐射通量、净长波辐射通量、净潜热通量、净感热通量、热通量、降雪比率、降水比率、蒸散发、暴雨表面径流速、基流地下水径流速、融雪速度、雪表温度、表面平均温度、雪深水当量、积雪深度、地表土壤湿度、植被根系土壤湿度、剖面土壤湿度、冠层水分蒸发速率、蒸腾速率、裸土直接蒸发速率、植被冠层表面储水量、积雪蒸发速率、气动电导率、流域水储量、地下水储量、风速、总降水率、温度、比湿、气压、下行短波辐射和下行长波辐射等33个变量信息。高程数据信息为数字高程模型(Digital Elevation Model，DEM)，其表示地面地形的数字化高程信息。气候分区信息是基于气候分类的原则和生产建设的需要，将目标区域分成若干气候特征相似的小区域而得到的信息。地表参数信息对陆地水储量信息均存在直接或间接的影响，该地表参数信息也为2002年后的地表参数信息。

S102：对所述地表参数信息进行降低空间分辨率的重采样，得到第一地表参数信息，使所述第一地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同。

陆地水储量预测设备对所述地表参数信息进行降低空间分辨率的重采样，得到第一地表参数信息，使所述第一地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同。其中，在遥感领域，重采样是指从高分辨率的遥感影像中提取低分辨率影像的过程，常用的重采样方法有最邻近内插法、双线性内插法和三次卷积内插法，高分辨率的数据经过重采样能够形成低分辨率的数据，以匹配众多处理场景下的对数据分辨率的要求。由于本实施例中，各个地表参数信息的空间分辨率不等，且与陆地水储量信息的空间分辨率有所差异，因而采用重采样方法将各个地表参数信息的空间分辨率均转化为与陆地水储量信息的空间分辨率相同，使空间分辨率保持一致。

此外，陆地水储量设备还可以对第一地表参数信息和陆地水储量信息的时间分辨率进行调整，使两者的时间分辨率保持一致，例如第一地表参数信息为每天的第一地表参数信息，则陆地水储量信息也为每天的陆地水储量信息，具体的时间分辨率在本实施例中不做限制。

S103：随机抽取所述第一地表参数信息和所述陆地水储量信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，每组所述样本数据包括多个第一地表参数信息和对应的多个陆地水储量信息；每组所述样本数据构建一棵决策树；所述随机森林回归模型包含多棵决策树。

陆地水储量预测设备随机抽取所述第一地表参数信息和所述陆地水储量信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，每组所述样本数据包括多个第一地表参数信息和对应的多个陆地水储量信息；每组所述样本数据构建一棵决策树；所述随机森林回归模型包含多棵决策树。

随机森林算法是一种集成学习算法，属于机器学习中监督学习的范畴，主要用于解决分类问题。其通过采用一种样本抽取技术，反复进行随机、有放回地选取一组样本数据加以训练，对每组样本数据建立一棵决策树，最终对每个决策树输出的预测值取平均值，得到最终的预测结果。

决策树简单来说就是用来进行决策的树状结构，决策树的构建可以基于ID3算法、C4.5算法和CART算法等，C4.5算法和CART算法均为ID3算法衍生出来的。在本实施例中，选用CART算法构建决策树，形成的每棵树称为CART树。构建CART树的关键在于如何选取分类的节点，进行数据的分类，使得分类后的两个子节点内的数据节点具有最大的样本差异性。

具体地，在本实施例中，通过从第一地表参数信息和陆地水储量信息构成的原始数据集中随机、有放回的抽取N_tree组样本数据，每组样本数据的大小选取为原始数据集的

例如：原始数据集的大小为9000，则抽取的每组样本数据的大小为6000，对于每组样本数据的大小可根据实际情况进行调整，在此不做限制。基于N_tree组样本数据，一共构建N_tree棵CART树，形成随机森林模型。

基于样本数据建立N_tree棵CART树，N_tree棵CART树的建立过程均相同，为构建CART树，S103可以包括S1031～S1032，如图2所示，S1031～S1032具体如下：

S1031：确定所述地表参数信息为所述决策树的划分变量；其中，所述划分变量将所述决策树内的节点划分为两个子节点。

陆地水储量设备确定所述地表参数信息为所述决策树的划分变量。其中，划分变量将决策树内的节点划分为两个子节点。构建CART树的关键在于如何从划分变量里，选取当前节点的最优划分变量和最优划分变量对应的最优值，对当前节点内的样本数据进行划分，使得划分后的两个子节点内的样本数据具有最大的样本差异性。

S1032：基于所述样本数据，计算决策树内每个节点的最优划分变量和所述最优划分变量对应的最优值，构建所述决策树；其中，所述最优划分变量和所述最优值的计算公式如下：

Δi(s,t)＝i(t)-p_Li(t_L)-p_Ri(t_R)

Δi(s,t)表示利用划分变量s将节点t划分为子节点t_L和t_R之后，t_L内样本数据和t_R内样本数据之间的差异值，最大的差异值对应的划分变量s为节点t的最优划分变量，最大的差异值对应的划分变量s的值为最优值；N_t表示节点t内样本数据的个数；N_tL表示子节点t_L内样本数据的个数；y_i表示节点t内第i个样本数据的陆地水储量信息，y表示节点t中所有样本数据的陆地水储量信息的算术平均值。

本实施例中，采取遍历的方法遍历所有未用于划分节点的划分变量，得到最优划分变量和对应的最优值，使得子节点内的数据节点具有最大的样本差异性，即使Δi(s,t)的值最大。每选取一个最优划分变量和对应的最优值，就能够将节点内的数据节点划分至两棵子树中，通过选取不同的地表参数信息为最优变量，不断的将节点进行更细致的划分，最终得到一棵CART决策树。

S104：获取待预测时间内的目标地表参数信息，将所述目标地表参数信息进行降低空间分辨率的重采样，得到第二地表参数信息，使所述第二地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同。

陆地水储量预测设备获取待预测时间内的目标地表参数信息，将所述目标地表参数信息进行降低空间分辨率的重采样，得到第二地表参数信息，使所述第二地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同。其中，待预测时间需满足在该时间内仅有地表参数信息，而无陆地水储量信息。由于本实施例中，各目标地表参数信息的空间分辨率不等，且与建立随机森林回归模型的样本的空间分辨率有所差异，因而采用重采样方法将各个目标地表参数信息的空间分辨率均转化为与建立随机森林回归模型的样本的空间分辨率相同，使空间分辨率保持一致。

S105：将所述第二地表参数信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。

陆地水储量预测设备将所述第二地表参数信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。具体地，随机森林回归模型中每棵CART树都会输出一个待预测时间内的陆地水储量信息，将每棵CART树输出的待预测时间内的陆地水储量信息相加并取平均值，得到目标陆地水储量信息。

进一步地，为准确获得目标陆地水储量信息，S105还可以包括S1051～S1052，如图3所示，S1051～S1052具体如下：

S1051：将所述第二地表参数信息输入所述随机森林回归模型内的决策树，得到多棵所述决策树的输出信息；其中，每棵所述决策树输出一个所述输出信息，所述输出信息为待预测时间内所述目标地表参数信息对应的陆地水储量信息。

陆地水储量预测设备将所述第二地表参数信息输入所述随机森林回归模型，即，将第二地表参数信息输入N_tree棵CART树，第二地表参数信息在N_tree棵CART树中向下传播，假设其在第i棵CART树中，最终到达叶子节点为C，则节点C中的所有数据节点所表示的陆地水储量的算术平均值为该CART树的陆地水储量预测值，即待预测时间内目标地表参数信息对应的陆地水储量信息。其中，每棵CART树输出一个待预测时间内所述目标地表参数信息对应的陆地水储量信息。

S1052：计算所述输出信息的平均值，得到目标陆地水储量信息；其中，目标陆地水储量信息的计算公式如下：

f表示目标陆地水储量信息，N_tree表示决策树的数量，f_i(x)表示第i棵决策树的输出信息。待预测时间内目标地表参数对应的陆地水储量信息为

即为目标陆地水储量信息。

上述方案综合考虑多种地表参数信息对陆地水储量信息的影响，基于随机森林算法和CART树算法建立陆地水储量信息与地表参数信息的非线性映射关系模型，将待预测时间内的地表参数信息应用于该模型，实现了对待预测时间内的陆地水储量信息的精准预测，基于该预测数据，能够构建长时间序列的陆地水储量动态变化数据，进而推进对陆地水储量的相关研究工作。

请参阅图4，图4为本发明第二个示例性实施例示出的基于随机森林算法的陆地水储量预测方法的流程示意图。本实施例移动应用配置方法的执行主体是陆地水储量预测设备，如图4所示的基于随机森林算法的陆地水储量预测方法可包括：

S201：获取地表参数信息、陆地水储量信息及陆地水储量信息的空间分辨率；其中，所述地表参数信息包括流域地表信息、高程数据信息和气候分区信息。

S202：对所述地表参数信息进行降低空间分辨率的重采样，得到第一地表参数信息，使所述第一地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同。

S203：计算所述第一地表参数信息的第一平均值信息；其中，所述第一平均值信息为预设时间段内所述第一地表参数信息的平均值。

S204：计算所述陆地水储量信息的第二平均值信息；其中，所述第二平均值信息为预设时间段内所述陆地水储量信息的平均值。

S205：随机抽取所述第一平均值信息和所述第二平均值信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，每组所述样本数据包括第一平均值信息和对应的第二平均值信息；每组所述样本数据构建一棵决策树；所述随机森林回归模型包含多棵决策树。

S206：获取待预测时间内的目标地表参数信息，将所述目标地表参数信息进行降低空间分辨率的重采样，得到第二地表参数信息，使所述第二地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同。

S207：计算所述第二地表参数信息的第三平均值信息；其中，所述第三平均值信息为预设时间段内所述第二地表参数信息的平均值。

S208：将所述第三平均值信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。

本实施例与第一个示例性实施例不同之处在于步骤S203～S205及S207～S208，步骤S201～S202请参阅步骤S101～S102的相关描述，步骤S206请参阅步骤S104的相关描述，此处不再赘述，S203～S205及S207～S208具体如下：

陆地水储量预测设备计算第一地表参数信息的第一平均值信息。其中，第一平均值信息为预设时间段内第一地表参数信息的平均值。该预设时间段可以为每天、每周、每月或每年等任意合理的时间段，在本实施例中，设定预设时间段为每月，则第一平均值信息为每月内第一地表参数信息的平均值。例如:假设根据步骤S202得到的第一地表参数信息为2003年至2018年内每天的第一地表参数信息，则按照自然月对2003年至2018年内每天的第一地表参数信息进行划分，计算各自然月内所有第一地表参数信息的算术平均值，即为第一平均值信息。

陆地水储量预测设备计算陆地水储量信息的第二平均值信息。其中，第二平均值信息为预设时间段内陆地水储量信息的平均值。该预设时间段可以为每天、每周、每月或每年等任意合理的时间段，在本实施例中，设定预设时间段为每月，则第二平均值信息为每月内陆地水储量信息的平均值。例如:假设根据步骤S201得到的陆地水储量信息为2003年至2018年内每天的陆地水储量信息，则按照自然月对2003年至2018年内每天的陆地水储量信息进行划分，计算各自然月内所有陆地水储量信息的算术平均值，即为第二平均值信息。

陆地水储量预测设备随机抽取所述第一平均值信息和所述第二平均值信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，每组所述样本数据包括第一平均值信息和对应的第二平均值信息；每组所述样本数据构建一棵决策树；所述随机森林回归模型包含多棵决策树。在本实施例中，构建随机森林回归模型的方式与步骤S103中所述方式相同，均选用CART算法构建随机森林内的决策树。

通过计算上述第一平均值信息和第二平均值信息，能够调整陆地水储量信息和第一地表参数信息的时间分辨率，使两者时间分辨率保持一致，同时由于陆地水储量信息和第一地表参数信息可能为海量数据，上述操作能够降低数据总量，同时维持数据的有效性，有利于随机森林回归模型的构建。

陆地水储量预测设备计算第二地表参数信息的第三平均值信息。其中，第三平均值信息为预设时间段内第二地表参数信息的平均值。该预设时间段可以为每天、每周、每月或每年等任意合理的时间段，在本实施例中，设定预设时间段为每月，则第一平均值信息为每月内第二地表参数信息的平均值。例如:假设根据步骤S206得到的第二地表参数信息为1990年至2001年内每天的第一地表参数信息，则按照自然月对1990年至2001年内每天的第二地表参数信息进行划分，计算各自然月内所有第二地表参数信息的算术平均值，即为第三平均值信息。

陆地水储量预测设备将所述第二地表参数信息输入所述随机森林回归模型，即，将第三平均值信息输入N_tree棵CART树，第三平均值信息在CART树中向下传播，假设其在第i棵CART树中，最终到达叶子节点为C，则节点C中的所有数据节点所表示的陆地水储量的算术平均值即为该CART树的陆地水储量预测值f_i(x)。待预测时间内目标地表参数对应的陆地水储量信息为

即为N_tree棵CART树的输出结果的算术平均值。例如：若第三平均值信息为1990年至2001年各自然月内所有第二地表参数信息的算术平均值，表示为(m₁,m₂,m₃...m₄₈)，将m₁输入N_tree棵CART树，得到的N_tree棵CART树的输出结果的算术平均值即为该待预测自然月内的陆地水储量信息l₁，再依次将m₂,m₃...m₄₈输入N_tree棵CART树，最终得到待预测时间内的陆地水储量信息(l₁,l₂,l₃...l₄₈)。

通过计算所述第二地表参数信息的第三平均值信息，能够调整第二地表参数信息、第一地表参数信息和陆地水储量信息的时间分辨率，使三者时间分辨率保持一致，进而使待预测时间内的陆地水储量信息的预测结果更为精准。

请参阅图5，图5为本发明第三个示例性实施例示出的基于随机森林算法的陆地水储量预测方法的流程示意图。本实施例移动应用配置方法的执行主体是陆地水储量预测设备，如图5所示的基于随机森林算法的陆地水储量预测方法可包括：

S301：获取地表参数信息、陆地水储量信息及陆地水储量信息的空间分辨率；其中，所述地表参数信息包括流域地表信息、高程数据信息和气候分区信息。

S302：对所述地表参数信息进行降低空间分辨率的重采样，得到第一地表参数信息，使所述第一地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同。

S303：随机抽取所述第一地表参数信息和所述陆地水储量信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，每组所述样本数据包括多个第一地表参数信息和对应的多个陆地水储量信息；每组所述样本数据构建一棵决策树；所述随机森林回归模型包含多棵决策树；

S304：获取待预测时间内的目标地表参数信息，将所述目标地表参数信息进行降低空间分辨率的重采样，得到第二地表参数信息，使所述第二地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同。

S305：将所述第二地表参数信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。

S306：基于所述随机森林回归模型内的参数重要性评估算法，得到所述第一地表参数信息对应的地表参数的重要性指数。

本实施例与第一个示例性实施例不同之处在于步骤S306，步骤S301～S305请参阅步骤S101～S105的相关描述，此处不再赘述，S306具体如下：

陆地水储量预测设备基于所述随机森林回归模型内的参数重要性评估算法，得到所述第一地表参数信息的重要性信息；参数重要性评估算法用于计算每个所述地表参数信息的重要性指数，其中，参数重要性评估算法的计算公式如下：

VI(X_j)表示第j个第一地表参数信息对应的重要性指数，N_tree表示决策树的数量，v(st)是用于划分节点t的划分变量，p(t)是样本数据到达节点t的比率，N为所有样本数据的数量，N_t为到达节点t的样本数据。

通过计算第一地表参数信息的重要性信息，能够更清楚的获知地表参数信息中哪些参数信息对于陆地水储量信息具有更高的影响力，推进后续研究工作的开展。

请参见图6，图6为本发明一个示例性实施例示出的基于随机森林算法的陆地水储量预测装置的结构示意图。包括的各单元用于执行图1～图5对应的实施例中的各步骤，具体请参阅图1～图5各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图6，基于随机森林算法的陆地水储量预测装置4包括：

采集单元410，用于获取地表参数信息、陆地水储量信息及陆地水储量信息的空间分辨率；其中，所述地表参数信息包括流域地表信息、高程数据信息和气候分区信息；

第一重采样单元420，用于对所述地表参数信息进行降低空间分辨率的重采样，得到第一地表参数信息，使所述第一地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同；

构建单元430，用于基于所述第一地表参数信息和所述陆地水储量信息，构建随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，所述第一地表参数信息作为所述随机森林回归模型的输入样本，所述陆地水储量信息为所述随机森林回归模型的输出样本；

第二重采样单元440，用于获取待预测时间内的目标地表参数信息，将所述目标地表参数信息进行降低空间分辨率的重采样，得到第二地表参数信息，使所述第二地表参数信息的空间分辨率与所述陆地水储量信息的空间分辨率相同；

确认单元450，用于将所述第二地表参数信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。

请参见图7，图7是本发明实施例提供的基于随机森林算法的陆地水储量预测设备的示意图。如图7所示，该实施例的陆地水储量预测设备5包括：处理器500、存储器510以及存储在所述存储器510中并可在所述处理器500上运行的计算机程序520，例如陆地水储量预测程序。所述处理器500执行所述计算机程序520时实现上述各个陆地水储量预测方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器500执行所述计算机程序520时实现上述各装置实施例中各模块/单元的功能，例如图所示模块410至450的功能。

示例性的，所述计算机程序520可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器510中，并由所述处理器500执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序520在所述陆地水储量预测设备5中的执行过程。例如，所述计算机程序520可以被分割成采集单元、第一重采样单元、构建单元、第二重采样单元和确定单元，各单元具体功能如下：

构建单元，用于基于所述第一地表参数信息和所述陆地水储量信息，构建随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，所述第一地表参数信息作为所述随机森林回归模型的输入样本，所述陆地水储量信息为所述随机森林回归模型的输出样本；

所述陆地水储量预测设备5可包括，但不仅限于，处理器500、存储器510。本领域技术人员可以理解，图5仅仅是陆地水储量预测设备5的示例，并不构成对陆地水储量预测设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述陆地水储量预测设备5还可以包括输入输出设备、网络接入设备、总线等。

所称处理器500可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器510可以是所述陆地水储量预测设备5的内部存储单元，例如陆地水储量预测设备5的硬盘或内存。所述存储器510也可以是所述陆地水储量预测设备5的外部存储设备，例如所述陆地水储量预测设备5上配备的插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器510还可以既包括所述陆地水储量预测设备5的内部存储单元也包括外部存储设备。所述存储器510用于存储所述计算机程序以及所述陆地水储量预测设备所需的其他程序和数据。所述存储器510还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种基于随机森林算法的陆地水储量预测方法，其特征在于，包括步骤：

2.根据权利要求1所述的陆地水储量预测方法，其特征在于，所述随机抽取所述第一地表参数信息和所述陆地水储量信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系，包括步骤：

确定所述第一地表参数信息为所述决策树的划分变量；其中，所述划分变量将所述决策树内的节点划分为两个子节点；

基于所述样本数据，计算决策树内每个节点的最优划分变量和所述最优划分变量对应的最优值，构建所述决策树；其中，所述最优划分变量和所述最优值的计算公式如下：

Δi(s,t)＝i(t)-p_Li(t_L)-p_Ri(t_R)

Δi(s,t)表示利用划分变量s将节点t划分为子节点t_L和t_R之后，t_L内样本数据和t_R内样本数据之间的差异值，当Δi(s,t)最大时，对应的划分变量s为节点t的最优划分变量，对应的划分变量s的值为最优值；N_t表示节点t内样本数据的数量；N_tL表示子节点t_L内样本数据的数量；y_i表示节点t内第i个样本数据的陆地水储量信息，y表示节点t内所有样本数据的陆地水储量信息的算术平均值；i(t)表示节点t内所有样本数据的陆地水储量的整体差异性；i(t_L)表示子节点t_L内所有样本数据的陆地水储量的整体差异性，i(t_R)表示子节点t_R内所有样本数据的陆地水储量的整体差异性；p_L表示子节点t_L内样本数据的数量与节点t内样本数据的数量之间的比值，p_R表示子节点t_R内样本数据的数量与节点t内样本数据的数量之间的比值。

3.根据权利要求1所述的陆地水储量预测方法，其特征在于，所述将所述第二地表参数信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息，包括步骤：

将所述第二地表参数信息输入所述随机森林回归模型内的决策树，得到多棵所述决策树的输出信息；其中，每棵所述决策树输出一个所述输出信息，所述输出信息为待预测时间内所述目标地表参数信息对应的陆地水储量信息；

计算所述输出信息的平均值，得到目标陆地水储量信息；其中，目标陆地水储量信息的计算公式如下：

f表示目标陆地水储量信息，N_tree表示决策树的数量，f_i(x)表示第i棵决策树的输出信息。

4.根据权利要求1-3任意一项所述的陆地水储量预测方法，其特征在于，所述随机抽取所述第一地表参数信息和所述陆地水储量信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系，还包括步骤：

计算所述第一地表参数信息的第一平均值信息；其中，所述第一平均值信息为预设时间段内所述第一地表参数信息的平均值；

计算所述陆地水储量信息的第二平均值信息；其中，所述第二平均值信息为预设时间段内所述陆地水储量信息的平均值；

随机抽取所述第一平均值信息和所述第二平均值信息组成多组样本数据，基于所述样本数据构建决策树，形成随机森林回归模型，通过所述随机森林回归模型建立所述第一地表参数信息和所述陆地水储量信息的非线性映射关系；其中，每组所述样本数据包括第一平均值信息和对应的第二平均值信息；每组所述样本数据构建一棵决策树；所述随机森林回归模型包含多棵决策树。

5.根据权利要求1-3任意一项所述陆地水储量预测方法，其特征在于，所述将所述第二地表参数信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多个陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息，还包括步骤：

计算所述第二地表参数信息的第三平均值信息；其中，所述第三平均值信息为预设时间段内所述第二地表参数信息的平均值；

将所述第三平均值信息输入所述随机森林回归模型，得到待预测时间内所述目标地表参数信息对应的多棵所述决策树预测的陆地水储量信息，计算所述多个陆地水储量信息的平均值，得到目标陆地水储量信息。

6.根据权利要求2所述陆地水储量预测方法，其特征在于，还包括步骤：

基于所述随机森林回归模型内的参数重要性评估算法，得到所述第一地表参数信息对应的地表参数的重要性指数；其中，参数重要性评估算法的计算公式如下：

X_j表示第j个第一地表参数信息，VI(X_j)表示第j个第一地表参数信息对应的重要性指数，N_tree表示决策树的数量，v(st)是用于划分节点t的划分变量，p(t)是样本数据到达节点t的比率，N为所有样本数据的数量，N_t为到达节点t的样本数据。

7.根据权利要求1至3任意一项所述的陆地水储量预测方法，其特征在于：

所述陆地水储量信息的空间分辨率的空间分辨率为0.5°×0.5°。

8.一种基于随机森林算法的陆地水储量预测装置，其特征在于，包括：

9.一种基于随机森林算法的陆地水储量预测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。