CN110826764B - 基于随机森林算法的植被指数预测方法、系统及设备 - Google Patents

基于随机森林算法的植被指数预测方法、系统及设备 Download PDF

Info

Publication number
CN110826764B
CN110826764B CN201910905230.5A CN201910905230A CN110826764B CN 110826764 B CN110826764 B CN 110826764B CN 201910905230 A CN201910905230 A CN 201910905230A CN 110826764 B CN110826764 B CN 110826764B
Authority
CN
China
Prior art keywords
vegetation index
data
random forest
classification
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910905230.5A
Other languages
English (en)
Other versions
CN110826764A (zh
Inventor
荆文龙
李勇
刘杨晓月
杨骥
夏小琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Geography of GDAS
Original Assignee
Guangzhou Institute of Geography of GDAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Geography of GDAS filed Critical Guangzhou Institute of Geography of GDAS
Priority to CN201910905230.5A priority Critical patent/CN110826764B/zh
Publication of CN110826764A publication Critical patent/CN110826764A/zh
Application granted granted Critical
Publication of CN110826764B publication Critical patent/CN110826764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Husbandry (AREA)
  • Health & Medical Sciences (AREA)
  • Agronomy & Crop Science (AREA)
  • Mining & Mineral Resources (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于随机森林算法的植被指数预测方法、系统及设备,通过以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型,利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数,获取植被指数预测值。相对于现有技术,本发明解决了现有技术中植被指数缺失问题,用户可利用本发明实现任意时间段的植被指数预测,完善了植被指数数据。

Description

基于随机森林算法的植被指数预测方法、系统及设备
技术领域
本发明涉及地理信息技术领域,尤其是涉及一种基于随机森林算法的植被指数预测方法、系统及设备。
背景技术
植被指数是从多光谱遥感数据中提取的、能够有效度量地表植被状况的数值,是基于连续时间序列的卫星遥感数据,与植被的覆盖度、生物量等有较好的相关性。
然而,现有的植被指数数据涉及的时间周期较短,而长时间的植被指数在反应区域地表植被情况及周期性变化及研究区域生态环境承载力上具有重要作用。然而,由于植被指数数据量大,数据维度多,对植被指数进行预测时,选择所述植被指数中的特征显得尤为重要,其选择结果影响预测结果,影响预测的准确性。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种无需进行特征选择、准确率高的基于随机森林算法的植被指数预测方法、系统及设备。
一种基于随机森林算法的植被指数预测方法,包括以下步骤:
获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
获取预设时间段内的高程数据,以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型;
其中,所述随机森林模型通过在训练数据集中随机有放回抽取若干个子集,每个子集生成一棵分类与回归树,利用最优变量及对应的最优值对所述分类与回归树进行划分,通过对若干个分类与回归树的预测值进行平均获得植被指数预测值;
获取目标时间段的全球陆地数据同化系统流域地表模型数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据,利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数,获取植被指数预测值。
相对于现有技术,本发明通过以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型,利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数,获取植被指数预测值,所述随机森林通过随机选取特征遍历减少每棵树之间的相关性,提高每棵树之间的分类精度,实现了任意时间段的植被指数预测,解决了现有技术中植被指数缺失问题,用户可利用本发明完善植被指数数据,同时本发明为多棵分类与回归树并行计算,计算效率高,最终结合多棵分类与回归树的预测结果进行植被指数的预测,准确性较高。
在本发明一个实施例中,所述以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型的步骤包括:
在训练数据集中随机有放回抽取子集,每个子集生成一棵分类与回归树;
利用最优变量st和对应最优值s*将t节点划分为tL和tR两棵子树,令每棵子树之间的样本具有最大差异性:
Δi(s,t)=i(t)-pLi(tL)-pRi(tR)
Figure GDA0002598242940000025
Figure GDA0002598242940000026
其中,Δi(s,t)是t节点划分后的精度,i(tL)、i(tR)分别是两棵子树tL、tR的精度,pL、pR分别是两棵子树tL、tR的精度的系数,
Figure GDA0002598242940000021
分别是两棵子树tL、tR的样本数量,i(t)是植被指数拟合模型精度量测函数:
Figure GDA0002598242940000022
Nt是节点t包含的样本数,yi是节点t中样本i的植被指数输入值,y是y集合算术平均值:
Figure GDA0002598242940000023
计算样本在分类与回归树中传播时所达到对应叶子节点的值,获得植被指数预测值;
将所有单个分类与回归树的预测结果进行平均,获得植被指数预测值:
Figure GDA0002598242940000024
其中,f是植被指数预测值,Ntree是分类与回归树的数量,fi(x)是每棵分类与回归树的植被指数预测值。通过利用分类与回归树实现对单个子集的植被指数预测,通过将所有单个分类与回归树的预测结果进行平均,获得准确性较高的植被指数预测值。
在本发明一个实施例中,所述以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型步骤中,按照以下方式计算每一个自变量参与所述随机森林模型的权重值:
Figure GDA0002598242940000031
其中,p(t)是样本到达节点t的比率,即Nt/N,Nt是节点t包含的样本数,N是样本数据的样本数,v(st)是用于分割st的变量,p(t)Δi(st,t)为节点t的加权精度减少比率;Xj是自变量。所述随机森林模型还通过计算每一个自变量参与所述随机森林模型的权重值,减少相关性低的自变量对随机森林模型预测结果的影响,提高预测准确性。
在本发明一个实施例中,所述基于随机森林算法的植被指数预测方法还包括以下步骤:判断所述极端梯度提升模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述随机森林模型的分类与回归树的数目,重新获取植被指数预测值。通过反馈、改进模型参数、重新训练、输出结果的迭代优化过程,使植被数据的预测值更加准确和全面。
本发明还提供了一种植被指数预测系统,包括:
第一输入数据获取模块,用于获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
第二输入数据获取模块,用于将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
随机森林模型构建模块,所述随机森林模型构建模块以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型;
其中,所述随机森林模型通过在训练数据集中随机有放回抽取若干个子集,每个子集生成一棵分类与回归树,利用最优变量及对应的最优值对所述分类与回归树进行划分,通过对若干个分类与回归树的预测值进行平均获得植被指数预测值;
随机森林模型训练模块,用于获取目标时间段的植被指数数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据,利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数,获取植被指数预测值。
在本发明一个实施例中,所述随机森林模型构建模块包括:
树生成单元,用于在训练数据集中随机有放回抽取子集,每个子集生成一棵分类与回归树;
子树划分单元,用于利用最优变量st和对应最优值s*将t节点划分为tL和tR两棵子树,令每棵子树之间的样本具有最大差异性:
Δi(s,t)=i(t)-pLi(tL)-pRi(tR)
Figure GDA0002598242940000046
Figure GDA0002598242940000047
其中,Δi(s,t)是t节点划分后的精度,i(tL)、i(tR)分别是两棵子树tL、tR的精度,pL、pR分别是两棵子树tL、tR的精度的系数,
Figure GDA0002598242940000041
分别是两棵子树tL、tR的样本数量,i(t)是植被指数拟合模型精度量测函数:
Figure GDA0002598242940000042
Nt是节点t包含的样本数,yi是节点t中样本i的植被指数输入值,y是y集合算术平均值:
Figure GDA0002598242940000043
预测值获取单元,用于计算样本在分类与回归树中传播时所达到对应叶子节点的值,获得单个分类与回归树的植被指数预测值;
植被指数获取单元,用于将所有单个分类与回归树的预测结果进行平均,获得植被指数预测值:
Figure GDA0002598242940000044
其中,f是植被指数预测值,Ntree是分类与回归树的数量,fi(x)是每棵分类与回归树的植被指数预测值。
在本发明一个实施例中,所述随机森林模型构建模块还包括权重值计算单元,所述权重值计算单元用于按照以下方式计算每一个自变量参与所述随机森林模型的权重值:
Figure GDA0002598242940000045
其中,p(t)是样本到达节点t的比率,即Nt/N,Nt是节点t包含的样本数,N是样本数据的样本数,v(st)是用于分割st的变量,p(t)Δi(st,t)为节点t的加权精度减少比率;Xj是自变量。
在本发明一个实施例中,所述植被指数预测系统还包括:判断模块,用于将选取训练数据集后剩余的植被指数数据作为验证数据集,利用所述验证数据集判断所述随机森林模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述随机森林模型的分类与回归树的数目,重新获取植被指数预测值。
本发明还提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的基于随机森林算法的植被指数预测方法的步骤。
本发明还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的基于随机森林算法的植被指数预测方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明实施例中一种基于随机森林算法的植被指数预测方法的流程图;
图2是本发明实施例中基于随机森林算法的植被指数预测方法步骤S4的流程图;
图3是本发明实施例中植被指数预测系统的结构示意图;
图4是本发明实施例中随机森林模型训练模块4的结构示意图。
具体实施方式
实施例
请参阅图1,本发明提供了一种基于随机森林算法的植被指数预测方法,包括以下步骤:
步骤S1:获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据。
在本实施例,所述植被指数数据为1981年7月-2015年12月共计35年828期AVHRRGIMMS3g.v1(AVHRR:Advanced Very High Resolution Radiometer.GIMMS:GlobalInventory Modelling and Mapping Studies)植被指数(NDVI,Normalized DifferenceVegetation Index)数据,所述植被指数数据中选取其中一段时间的植被指数数据作为训练数据集指的是从上述植被指数数据中随机抽取,选择其中的30年数据作为训练数据集,余下的5年数据作为验证数据集用来检验训练结果的可靠性。所述高质量像元值(flag=0)为所述训练数据集中噪声最低的像元值,保证模型输入数据的数据质量。
步骤S2:将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;其中,所述预设时间段内的全球陆地数据同化系统流域地表模型(GLDAS CLSML4,Global Land Data Assimilation SystemCatchmentLand Surface Model Level4)数据集为1981年7月-2015年12月的全球陆地数据同化系统流域地表模型数据集。所述全球陆地数据通化系统流域地表模型数据集包括但不限于地表温度、地表水储量、植物冠层表面水分、土壤水分、裸土蒸散、大气温度和降水等数据。所述半月尺度的第二输入数据为以每半月进行整合而成的预设时间段内的全球陆地数据同化系统流域地表模型数据集。
在一个实施例中,所述植被指数数据、全球陆地数据同化系统流域地表模型数据集和高程数据在步骤S1之前进行了规范化统一所有数据的投影与空间坐标系、时间分辨率、空间分辨率的预处理,方便后续随机森林模型的应用。
步骤S3:获取预设时间段内的高程数据,以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型;所述随机森林模型是一种优秀的集成学习方法。它采用了一种通用的样本抽取技术,反复随机有放回选择一组随机样本进行训练。每个子集中生成一棵分类与回归树(CART),是一种基于机器学习的二元分类(或回归)树算法,其最终预测值是所有子集的取值平均。
其中,所述随机森林模型通过在训练数据集中随机有放回抽取若干个子集,每个子集生成一棵分类与回归树,利用最优变量及对应的最优值对所述分类与回归树进行划分,通过对若干个分类与回归树的预测值进行平均获得植被指数预测值;
如图2所示,所述以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型的步骤包括:
步骤S301:在训练数据集中随机有放回抽取子集,每个子集的大小为原始样本集的2/3,所述子集包括递归过程从大小为n个样本,每个子集生成一棵分类与回归树。
步骤S302:利用最优变量st和对应最优值s*将t节点划分为tL和tR两棵子树,令每棵子树内的样本具有最大相似度,每棵子树之间的样本具有最大差异性:
Δi(s,t)=i(t)-pLi(tL)-pRi(tR)
Figure GDA0002598242940000063
Figure GDA0002598242940000064
其中,Δi(s,t)是t节点划分后的精度,i(tL)、i(tR)分别是两棵子树tL、tR的精度,pL、pR分别是两棵子树tL、tR的精度的系数,
Figure GDA0002598242940000061
分别是两棵子树tL、tR的样本数量,i(t)是植被指数拟合模型精度量测函数:
Figure GDA0002598242940000062
Nt是节点t包含的样本数,yi是节点t中样本i的植被指数输入值,y是y集合算术平均值:
Figure GDA0002598242940000071
步骤S303:计算样本在分类与回归树中传播时所达到对应叶子节点的值,获得单个分类与回归树的植被指数预测值;
步骤S304:将所有单个分类与回归树的预测结果进行平均,获得植被指数预测值:
Figure GDA0002598242940000072
其中,f是植被指数预测值,Ntree是分类与回归树的数量,fi(x)是每棵分类与回归树的植被指数预测值。
在本发明一个实施例中,所述以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型步骤中,通过将所有使用自变量Xj的节点t的加权精度减少比率p(t)Δi(st,t)相加,并根据森林中所有树的算术平均值得到每一个自变量参与所述随机森林模型的权重值,按照以下方式计算每一个自变量参与所述随机森林模型的权重值:
Figure GDA0002598242940000073
其中,p(t)是样本到达节点t的比率,即Nt/N,Nt是节点t包含的样本数,N是样本数据的样本数,v(st)是用于分割st的变量,p(t)Δi(st,t)为节点t的加权精度减少比率。所述随机森林模型还通过计算每一个自变量参与所述随机森林模型的权重值,减少相关性低的自变量对随机森林模型预测结果的影响,提高预测准确性。
步骤S4:获取目标时间段的全球陆地数据同化系统流域地表模型数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据,利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数,获取植被指数预测值。
在一个实施例中,所述基于随机森林算法的植被指数预测方法还包括:步骤S5:判断所述植被指数是否满足预设的精度要求,若是,输出植被指数预测值;否则,修改所述随机森林模型的分类与回归树的数目,重新获取植被指数预测值。具体地,将验证数据集输入所述随机森林算法模型进行植被指数预测值预测,将该植被指数预测值与验证数据集中的植被指数数据进行比较,根据比较结果判断所述植被指数是否达到预设的精度要求,其中,所述预设的精度要求可根据用户实际需求进行设定。
如图3所示,本发明还提供了一种植被指数预测系统,包括:
第一输入数据获取模块1,用于获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
第二输入数据获取模块2,用于将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
随机森林模型构建模块3,所述随机森林模型构建模块以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型;
其中,所述随机森林模型通过在训练数据集中随机有放回抽取若干个子集,每个子集生成一棵分类与回归树,利用最优变量及对应的最优对所述分类与回归树进行划分,通过对所述若干个分类与回归树的预测值进行平均获得植被指数预测值;
在本发明一个实施例中,如图4所示,所述随机森林模型构建模块3包括:
树生成单元301,用于在训练数据集中随机有放回抽取子集Ntree,每个子集生成一棵分类与回归树;
子树划分单元302,用于使用递归过程从大小为n的训练数据集作为样本构建分类与回归树,利用最优变量st和对应最优值s*将t节点划分为tL和tR两棵子树,令每棵子树之间的样本具有最大差异性:
Δi(s,t)=i(t)-pLi(tL)-pRi(tR)
Figure GDA0002598242940000083
Figure GDA0002598242940000084
其中,Δi(s,t)是t节点划分后的精度,i(tL)、i(tR)分别是两棵子树tL、tR的精度,pL、pR分别是两棵子树tL、tR的精度的系数,
Figure GDA0002598242940000081
分别是两棵子树tL、tR的样本数量,i(t)是植被指数拟合模型精度量测函数:
Figure GDA0002598242940000082
Nt是节点t包含的样本数,yi是节点t中样本i的植被指数输入值,y是y集合算术平均值:
Figure GDA0002598242940000091
预测值获取单元303,用于计算样本在分类与回归树中传播时所达到对应叶子节点的值,获得单个分类与回归树的植被指数预测值;
植被指数获取单元304,用于将所有单个分类与回归树的预测结果进行平均,获得植被指数预测值:
Figure GDA0002598242940000092
其中,f是植被指数预测值,Ntree是分类与回归树的数量,fi(x)是每棵分类与回归树的植被指数预测值。
在本发明一个实施例中,所述随机森林模型构建模块3还包括权重值计算单元,所述权重值计算单元用于按照以下方式计算每一个自变量参与所述随机森林模型的权重值:
Figure GDA0002598242940000093
其中,p(t)是样本到达节点t的比率,即Nt/N,Nt是节点t包含的样本数,N是样本数据的样本数,v(st)是用于分割st的变量,p(t)Δi(st,t)为节点t的加权精度减少比率。
随机森林模型训练模块4,用于获取目标时间段的植被指数数据,,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据,利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数,获取植被指数预测值。
所述植被指数预测系统还包括:判断模块5,用于将选取训练数据集后剩余的植被指数数据作为验证数据集,利用所述验证数据集判断所述随机森林模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述随机森林模型的分类与回归树的数目,重新获取植被指数预测值。
本发明还提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现上述任意一项所述的基于随机森林算法的植被指数预测方法的步骤。
本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本发明还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述基于随机森林算法的植被指数预测方法的步骤。
相对于现有技术,本发明通过以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型,利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数,获取植被指数预测值,所述随机森林通过随机选取特征遍历减少每棵树之间的相关性,提高每棵树之间的分类精度,实现了任意时间段的植被指数预测,解决了现有技术中植被指数缺失问题,用户可利用本发明完善植被指数数据,方便研究者进行研究;同时本发明为多棵分类与回归树并行计算,计算效率高,最终结合多棵分类与回归树的预测结果进行植被指数的预测,准确性较高。本发明所述植被指数数据的模拟是一个“输入-训练-反馈-改进算法-训练-输出”的自动迭代优化过程,通过达到设定的精度,生成年长时间序列、空间完整覆盖的植被指数数据。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种基于随机森林算法的植被指数预测方法,其特征在于,包括以下步骤:
获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
获取预设时间段内的高程数据,以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型;
其中,所述随机森林模型通过在训练数据集中随机有放回抽取若干个子集,每个子集生成一棵分类与回归树,利用最优变量及对应的最优值对所述分类与回归树进行划分,通过对若干个分类与回归树的预测值进行平均获得植被指数预测值;
获取目标时间段的全球陆地数据同化系统流域地表模型数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据,利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数,获取植被指数预测值。
2.根据权利要求1所述的基于随机森林算法的植被指数预测方法,其特征在于:所述以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型的步骤包括:
在训练数据集中随机有放回抽取子集,每个子集生成一棵分类与回归树;
利用最优变量st和对应最优值s*将t节点划分为tL和tR两棵子树,令每棵子树之间的样本具有最大差异性:
Δi(s,t)=i(t)-pLi(tL)-pRi(tR)
Figure FDA0002598242930000011
Figure FDA0002598242930000012
其中,Δi(s,t)是t节点划分后的精度,i(tL)、i(tR)分别是两棵子树tL、tR的精度,pL、pR分别是两棵子树tL、tR的精度的系数,
Figure FDA0002598242930000013
分别是两棵子树tL、tR的样本数量,i(t)是植被指数拟合模型精度量测函数:
Figure FDA0002598242930000014
Nt是节点t包含的样本数,yi是节点t中样本i的植被指数输入值,y是y集合算术平均值:
Figure FDA0002598242930000021
计算样本在分类与回归树中传播时所达到对应叶子节点的值,获得单个分类与回归树的植被指数预测值;
将所有单个分类与回归树的预测结果进行平均,获得植被指数预测值:
Figure FDA0002598242930000022
其中,f是植被指数预测值,Ntree是分类与回归树的数量,fi(x)是每棵分类与回归树的植被指数预测值。
3.根据权利要求2所述的基于随机森林算法的植被指数预测方法,其特征在于:所述以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型步骤中,按照以下方式计算每一个自变量参与所述随机森林模型的权重值:
Figure FDA0002598242930000023
其中,p(t)是样本到达节点t的比率,即Nt/N,Nt是节点t包含的样本数,N是样本数据的样本数,v(st)是用于分割st的变量,p(t)Δi(st,t)为节点t的加权精度减少比率;Xj是自变量。
4.根据权利要求1所述的基于随机森林算法的植被指数预测方法,其特征在于:所述基于随机森林算法的植被指数预测方法还包括以下步骤:将选取训练数据集后剩余的植被指数数据作为验证数据集,利用所述验证数据集判断所述随机森林模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述随机森林模型的分类与回归树的数目,重新获取植被指数预测值。
5.一种植被指数预测系统,其特征在于:包括:
第一输入数据获取模块,用于获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
第二输入数据获取模块,用于将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
随机森林模型构建模块,所述随机森林模型构建模块以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建随机森林模型;
其中,所述随机森林模型通过在训练数据集中随机有放回抽取若干个子集,每个子集生成一棵分类与回归树,利用最优变量及对应的最优值对所述分类与回归树进行划分,通过对若干个分类与回归树的预测值进行平均获得植被指数预测值;
随机森林模型训练模块,用于获取目标时间段的全球陆地数据同化系统流域地表模型数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为随机森林模型的样本数据,利用随机森林模型对所述样本数据进行分类并根据所述分类结果回归预测目标时间段的植被指数,获取植被指数预测值。
6.根据权利要求5所述的植被指数预测系统,其特征在于:所述随机森林模型构建模块包括:
树生成单元,用于在训练数据集中随机有放回抽取子集,每个子集生成一棵分类与回归树;
子树划分单元,用于利用最优变量st和对应最优值s*将t节点划分为tL和tR两棵子树,令每棵子树之间的样本具有最大差异性:
Δi(s,t)=i(t)-pLi(tL)-pRi(tR)
Figure FDA0002598242930000031
Figure FDA0002598242930000032
其中,Δi(s,t)是t节点划分后的精度,i(tL)、i(tR)分别是两棵子树tL、tR的精度,pL、pR分别是两棵子树tL、tR的精度的系数,
Figure FDA0002598242930000033
分别是两棵子树tL、tR的样本数量,i(t)是植被指数拟合模型精度量测函数:
Figure FDA0002598242930000034
Nt是节点t包含的样本数,yi是节点t中样本i的植被指数输入值,y是y集合算术平均值:
Figure FDA0002598242930000035
预测值获取单元,用于计算样本在分类与回归树中传播时所达到对应叶子节点的值,获得单个分类与回归树的植被指数预测值;
植被指数获取单元,用于将所有单个分类与回归树的预测结果进行平均,获得植被指数预测值:
Figure FDA0002598242930000036
其中,f是植被指数预测值,Ntree是分类与回归树的数量,fi(x)是每棵分类与回归树的植被指数预测值。
7.根据权利要求6所述的植被指数预测系统,其特征在于:所述随机森林模型构建模块还包括权重值计算单元,所述权重值计算单元用于按照以下方式计算每一个自变量参与所述随机森林模型的权重值:
Figure FDA0002598242930000041
其中,p(t)是样本到达节点t的比率,即Nt/N,Nt是节点t包含的样本数,N是样本数据的样本数,v(st)是用于分割st的变量,p(t)Δi(st,t)为节点t的加权精度减少比率;Xj是自变量。
8.根据权利要求5所述的植被指数预测系统,其特征在于:所述植被指数预测系统还包括:判断模块,用于将选取训练数据集后剩余的植被指数数据作为验证数据集,利用所述验证数据集判断所述随机森林模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述随机森林模型的分类与回归树的数目,重新获取植被指数预测值。
9.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:该计算机程序被处理器执行时实现如权利要求1-4任意一项所述的基于随机森林算法的植被指数预测方法的步骤。
10.一种计算机设备,其特征在于:包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4中任意一项所述的基于随机森林算法的植被指数预测方法的步骤。
CN201910905230.5A 2019-09-24 2019-09-24 基于随机森林算法的植被指数预测方法、系统及设备 Active CN110826764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910905230.5A CN110826764B (zh) 2019-09-24 2019-09-24 基于随机森林算法的植被指数预测方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910905230.5A CN110826764B (zh) 2019-09-24 2019-09-24 基于随机森林算法的植被指数预测方法、系统及设备

Publications (2)

Publication Number Publication Date
CN110826764A CN110826764A (zh) 2020-02-21
CN110826764B true CN110826764B (zh) 2020-11-24

Family

ID=69548191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910905230.5A Active CN110826764B (zh) 2019-09-24 2019-09-24 基于随机森林算法的植被指数预测方法、系统及设备

Country Status (1)

Country Link
CN (1) CN110826764B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639803A (zh) * 2020-05-29 2020-09-08 福州市规划设计研究院 一种应用于气候变化情景下区域未来植被指数的预估方法
CN112381332A (zh) * 2020-12-02 2021-02-19 中国科学院空天信息创新研究院 一种基于聚落对象的人口空间分布预测方法
CN114997549B (zh) * 2022-08-08 2022-10-28 阿里巴巴(中国)有限公司 黑盒模型的解释方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107271382A (zh) * 2017-06-02 2017-10-20 西北农林科技大学 一种不同生育期油菜叶片spad值遥感估算方法
CN108229403A (zh) * 2018-01-08 2018-06-29 中国科学院遥感与数字地球研究所 一种用于估算植被叶面积指数的混合模型构建方法
CN109447325A (zh) * 2018-09-30 2019-03-08 广州地理研究所 基于随机森林算法的降水数据检测方法、装置及电子设备
CN109884664A (zh) * 2019-01-14 2019-06-14 武汉大学 一种城市地上生物量光学微波协同反演方法及系统
WO2019145895A1 (en) * 2018-01-24 2019-08-01 The State Of Israel, Ministry Of Agriculture & Rural Development Agricultural Research Organization Method and system for estimating crop coefficient and evapotranspiration of crops based on remote sensing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586105B2 (en) * 2016-12-30 2020-03-10 International Business Machines Corporation Method and system for crop type identification using satellite observation and weather data
CN109993062B (zh) * 2019-03-04 2022-11-18 辽宁师范大学 一种湿地植被根际土壤微生物高光谱植被指数监测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107271382A (zh) * 2017-06-02 2017-10-20 西北农林科技大学 一种不同生育期油菜叶片spad值遥感估算方法
CN108229403A (zh) * 2018-01-08 2018-06-29 中国科学院遥感与数字地球研究所 一种用于估算植被叶面积指数的混合模型构建方法
WO2019145895A1 (en) * 2018-01-24 2019-08-01 The State Of Israel, Ministry Of Agriculture & Rural Development Agricultural Research Organization Method and system for estimating crop coefficient and evapotranspiration of crops based on remote sensing
CN109447325A (zh) * 2018-09-30 2019-03-08 广州地理研究所 基于随机森林算法的降水数据检测方法、装置及电子设备
CN109884664A (zh) * 2019-01-14 2019-06-14 武汉大学 一种城市地上生物量光学微波协同反演方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Estimation Model for Dust-Retention Content of Main Green Plants in South China Based on the Red Edge of Reflectance》;chongyang wang 等;《IEEE International Geoscience and Remote Sensing Symposium》;20180731;第3355-3357页 *
《利用GIS地理统计模块预测海南岛植被指数季节性变化趋势》;刘少军 等;《热带地理》;20061130;第26卷(第4期);第319-322页 *
《利用不同植被指数估算植被覆盖度的比较研究》;杨晓月 等;《国土资源遥感》;20121215(第4期);第95-100页 *
《县域尺度森林地上生物量遥感估测方法研究》;蒋云姣 等;《西南林业大学学报》;20151231;第35卷(第6期);第35-59页 *

Also Published As

Publication number Publication date
CN110826764A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
Pecchi et al. Species distribution modelling to support forest management. A literature review
Lyons et al. A comparison of resampling methods for remote sensing classification and accuracy assessment
CN114254561B (zh) 一种内涝预测方法、系统及存储介质
CN110245709B (zh) 基于深度学习和自注意力的3d点云数据语义分割方法
Galelli et al. Tree‐based iterative input variable selection for hydrological modeling
CN110826764B (zh) 基于随机森林算法的植被指数预测方法、系统及设备
US20210064802A1 (en) Method and System for Increasing the Resolution of Physical Gridded Data
CN102831440B (zh) 一种广域遥感影像决策树分类方法及装置
Flecher et al. A stochastic daily weather generator for skewed data
Surabuddin Mondal et al. Modeling of spatio-temporal dynamics of land use and land cover in a part of Brahmaputra River basin using Geoinformatic techniques
Konomi et al. Adaptive Bayesian nonstationary modeling for large spatial datasets using covariance approximations
Akbarian et al. Monthly streamflow forecasting by machine learning methods using dynamic weather prediction model outputs over Iran
CN110852149B (zh) 基于分类和回归树算法的植被指数预测方法、系统及设备
Mas et al. A suite of tools for assessing thematic map accuracy
Marshall et al. Modeling the catchment via mixtures: Issues of model specification and validation
Feng et al. A cellular automata model based on nonlinear kernel principal component analysis for urban growth simulation
CN114723149A (zh) 土壤墒情预测方法、装置、电子设备及存储介质
Chen et al. Calibration and analysis of the uncertainty in downscaling global land use and land cover projections from GCAM using Demeter (v1. 0.0)
Vosper et al. Deep learning for downscaling tropical cyclone rainfall to hazard‐relevant spatial scales
CN116955450A (zh) 一种融合流域产汇流时空过程的水文预报方法和系统
Masud et al. Monitoring and predicting landuse/landcover change using an integrated markov chain & multilayer perceptron models: A case study of sahiwal tehsil
CN110852475B (zh) 基于极端梯度提升算法的植被指数预测方法、系统及设备
CN114841402A (zh) 一种基于多特征图网络的地下水位高度预测方法及系统
CN115759291B (zh) 一种基于集成学习的空间非线性回归方法及系统
Sen et al. Model generalization of two different drainage patterns by self-organizing maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 510075 one of the compound No. 100, Xianlie Middle Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Institute of geography, Guangdong Academy of Sciences

Address before: 510075 one of the compound No. 100, Xianlie Middle Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU INSTITUTE OF GEOGRAPHY