CN110852475A - 基于极端梯度提升算法的植被指数预测方法、系统及设备 - Google Patents

基于极端梯度提升算法的植被指数预测方法、系统及设备 Download PDF

Info

Publication number
CN110852475A
CN110852475A CN201910905212.7A CN201910905212A CN110852475A CN 110852475 A CN110852475 A CN 110852475A CN 201910905212 A CN201910905212 A CN 201910905212A CN 110852475 A CN110852475 A CN 110852475A
Authority
CN
China
Prior art keywords
data
vegetation index
extreme gradient
gradient lifting
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910905212.7A
Other languages
English (en)
Other versions
CN110852475B (zh
Inventor
荆文龙
刘杨晓月
李勇
杨骥
夏小琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Geography of GDAS
Original Assignee
Guangzhou Institute of Geography of GDAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Geography of GDAS filed Critical Guangzhou Institute of Geography of GDAS
Priority to CN201910905212.7A priority Critical patent/CN110852475B/zh
Publication of CN110852475A publication Critical patent/CN110852475A/zh
Application granted granted Critical
Publication of CN110852475B publication Critical patent/CN110852475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computational Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于极端梯度提升算法的植被指数预测方法、系统及设备,通过以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型,利用极端梯度提升模型对所述样本数据进行迭代学习,预测目标时间段的植被指数,获取植被指数预测结果。相对于现有技术,本发明解决了现有技术中植被指数缺失问题,用户可利用本发明实现任意时间段的植被指数预测,完善植被指数数据。

Description

基于极端梯度提升算法的植被指数预测方法、系统及设备
技术领域
本发明涉及地理信息技术领域,尤其是涉及一种基于极端梯度提升算法的植被指数预测方法、系统及设备。
背景技术
植被指数是从多光谱遥感数据中提取的、能够有效度量地表植被状况的数值,与植被的覆盖度、生物量等有较好的相关性。然而,现有的植被指数数据涉及的时间周期较短,尚没有提取长时间植被指数的方法,而长时间植被指数在反应区域地表植被情况及周期性变化及研究区域生态环境承载力上具有重要作用。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种获取预设时间段植被指数的基于极端梯度提升算法的植被指数预测方法、系统及设备。
一种基于极端梯度提升算法的植被指数预测方法,包括以下步骤:
获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
获取预设时间段内的高程数据,以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型;
其中,所述极端梯度提升模型以若干决策树作为学习单元,根据上一决策树输出结果与实际值的残差拟合下一决策树,通过对若干决策树输出结果进行求和获得植被指数预测值;
获取目标时间段的全球陆地数据同化系统流域地表模型数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为极端梯度提升模型的样本数据,利用极端梯度提升模型对所述样本数据进行迭代学习,预测目标时间段的植被指数,获取植被指数预测结果。
相对于现有技术,本发明通过以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型,利用极端梯度提升模型对所述样本数据进行迭代学习,预测目标时间段的植被指数,获取植被指数预测结果,本发明解决了现有技术中植被指数缺失问题,用户可利用本发明实现任意时间段的植被指数预测,完善植被指数数据。
在本发明一个实施例中,所述以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型的步骤包括:
设定数据集
Figure BDA0002213077060000021
所述极端梯度提升模型的学习单元的损失函数为
Figure BDA0002213077060000022
迭代次数t和决策树的棵树k,令迭代次数t和决策树的棵树k在设定的数据集中进行遍历,验证精度并选取精度最高的迭代次数t和决策树的棵树k作为所述极端梯度提升模型参数;其中,xi为自变量,n为数据集样本数,yi为实际输出结果,为所述极端梯度提升模型输出结果;
按照以下方式获取极端梯度提升模型第t次的预测值
Figure BDA0002213077060000025
Figure BDA0002213077060000026
其中,
Figure BDA0002213077060000027
为所述极端梯度提升模型t-1次的输出结果,ft(xi)为决策树第t次迭代输出结果;
在训练数据集中随机有放回抽取若干子集K,每个子集生成一棵决策树,对每一棵决策树进行训练,获得残差
Figure BDA0002213077060000028
按照以下方式最小化训练损失函数:
Figure BDA0002213077060000029
其中,γ为正则项系数;
对所述若干决策树的预测结果进行求和,获得植被指数预测值:
Figure BDA00022130770600000210
其中,fk是单个决策树的预测结果,
Figure BDA00022130770600000211
是所有决策树CART的集合。通过利用决策树实现对单个子集的植被指数预测,通过将所述若干决策树的预测结果进行平均,获得准确性较高的植被指数预测值。
在本发明一个实施例中,所述基于极端梯度提升算法的植被指数预测方法还包括以下步骤:判断所述极端梯度提升模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述极端梯度提升模型的决策树的数目,重新获取植被指数预测值。通过反馈、改进模型参数、重新训练、输出结果的迭代优化过程,使植被数据的预测值更加准确和全面。
本发明还提供了一种植被指数预测系统,包括:
第一输入数据获取模块,用于获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
第二输入数据获取模块,用于将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
极端梯度提升模型构建模块,所述极端梯度提升模型构建模块以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型;
其中,所述极端梯度提升模型以若干决策树作为学习单元,根据上一决策树输出结果与实际值的残差拟合下一决策树,通过对若干决策树输出结果进行求和获得植被指数预测值;
极端梯度提升模型训练模块,用于获取目标时间段的植被指数数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为极端梯度提升模型的样本数据,利用极端梯度提升模型对所述样本数据进行迭代学习,预测目标时间段的植被指数,获取植被指数预测结果。
在本发明一个实施例中,所述极端梯度提升模型构建模块包括:
设置单元,用于设定数据集
Figure BDA0002213077060000031
所述极端梯度提升模型的学习单元的损失函数为迭代次数t和决策树的棵树k,令迭代次数t和决策树的棵树k在设定的数据集中进行遍历,验证精度并选取精度最高的迭代次数t和决策树的棵树k作为所述极端梯度提升模型参数;其中,xi为自变量,n为数据集样本数,yi为实际输出结果,
Figure BDA0002213077060000033
为所述极端梯度提升模型输出结果;
预测值获取单元,用于按照以下方式获取极端梯度提升模型第t次的预测值
Figure BDA0002213077060000035
其中,
Figure BDA0002213077060000036
为所述极端梯度提升模型t-1次的输出结果,
Figure BDA0002213077060000037
ft(xi)为决策树第t次迭代输出结果;
残差获取单元,用于在训练数据集中随机有放回抽取若干子集K,每个子集生成一棵决策树,对每一棵决策树进行训练,获得残差
Figure BDA0002213077060000038
损失函数训练单元,用于按照以下方式最小化训练损失函数:
Figure BDA0002213077060000039
其中,γ为正则项系数;
植被指数获取单元,用于对所述若干决策树的预测结果进行求和,获得植被指数预测值:
Figure BDA0002213077060000041
其中,fk是单个决策树的预测结果,
Figure BDA0002213077060000042
是所有决策树CART的集合。
在本发明一个实施例中,所述植被指数预测系统还包括:判断模块,用于判断所述极端梯度提升模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述极端梯度提升模型的决策树的数目,重新获取植被指数预测值。
本发明还提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的基于极端梯度提升算法的植被指数预测方法的步骤。
本发明还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的基于极端梯度提升算法的植被指数预测方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明实施例中一种基于极端梯度提升算法的植被指数预测方法的流程图;
图2是本发明实施例中基于极端梯度提升算法的植被指数预测方法步骤S4的流程图;
图3是本发明实施例中植被指数预测系统的结构示意图;
图4是本发明实施例中极端梯度提升模型训练模块4的结构示意图。
具体实施方式
实施例
请参阅图1,本发明提供了一种基于极端梯度提升算法的植被指数预测方法,包括以下步骤:
步骤S1:获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据。
在本实施例,所述植被指数数据为1981年7月-2015年12月共计35年828期AVHRRGIMMS3g.v1(AVHRR:Advanced Very High Resolution Radiometer.GIMMS:GlobalInventory Modelling and Mapping Studies)植被指数(NDVI,Normalized DifferenceVegetation Index)数据,所述植被指数数据中选取其中一段时间的植被指数数据作为训练数据集指的是从上述植被指数数据中随机抽取,选择其中的30年数据作为训练数据集,余下的5年数据作为验证数据集用来检验训练结果的可靠性。所述高质量像元值(flag=0)为所述训练数据集中噪声最低的像元值,保证模型输入数据的数据质量。
步骤S2:将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;其中,所述预设时间段内的全球陆地数据同化系统流域地表模型(GLDAS CLSML4,Global Land Data Assimilation SystemCatchmentLand Surface Model Level4)数据集为1981年7月-2015年12月的全球陆地数据同化系统流域地表模型数据集。所述全球陆地数据通化系统流域地表模型数据集包括但不限于地表温度、地表水储量、植物冠层表面水分、土壤水分、裸土蒸散、大气温度和降水等数据。所述半月尺度的第二输入数据为以每半月进行整合而成的预设时间段内的全球陆地数据同化系统流域地表模型数据集。
在一个实施例中,所述植被指数数据、全球陆地数据同化系统流域地表模型数据集和高程数据在步骤S1之前进行了规范化统一所有数据的投影与空间坐标系、时间分辨率、空间分辨率的预处理,方便后续极端梯度提升模型的应用。
步骤S3:获取预设时间段内的高程数据,以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型;
其中,所述极端梯度提升模型以若干决策树作为学习单元,根据上一决策树输出结果与实际值的残差拟合下一决策树,通过对若干决策树输出结果进行求和获得植被指数预测值;所述极端梯度提升模型为一种基于适当代价函数的优化算法,在第i-1棵树预测的残差上拟合第i棵树,以修正后一棵树的误差,其最终的预测结果通过对每棵树的输出结果求和得到。
如图2所示,所述以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型的步骤包括:
步骤S301:设定一个数据集设定所述极端梯度提升模型的学习单元的损失函数为
Figure BDA0002213077060000052
迭代次数t和决策树的棵树k,令迭代次数t和决策树的棵树k在设定的数据集中进行遍历,验证每种t、k组合的模拟结果的精度,并选取精度最高的迭代次数t和决策树的棵树k作为所述极端梯度提升模型参数进行植被指数的回归重建;其中,xi为自变量,n为数据集样本数,yi为实际输出结果,
Figure BDA0002213077060000053
为所述极端梯度提升模型输出结果;
步骤S302:按照以下方式获取极端梯度提升模型第t次的模拟预测值
Figure BDA0002213077060000054
Figure BDA0002213077060000061
所述极端梯度提升模型从
Figure BDA0002213077060000062
开始,其中,
Figure BDA0002213077060000063
为所述极端梯度提升模型t-1次的输出结果,ft(xi)为决策树第t次迭代输出结果;
步骤S303:在训练数据集中随机有放回抽取若干子集K,每个子集生成一棵决策树,对每一棵决策树进行训练,获得残差
Figure BDA0002213077060000064
步骤S304:按照以下方式最小化训练损失函数,得到所述极端梯度提升模型的最小残差:
Figure BDA0002213077060000065
其中,γ为正则项系数;
步骤S305:对所述若干决策树的预测结果进行求和,获得植被指数预测值:
Figure BDA0002213077060000066
其中,fk是单个决策树的预测结果,
Figure BDA0002213077060000067
是所有决策树CART的集合。
步骤S4:获取目标时间段的全球陆地数据同化系统流域地表模型数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为极端梯度提升模型的样本数据,利用极端梯度提升模型对所述样本数据进行迭代学习,预测目标时间段的植被指数,获取植被指数预测结果。
在一个实施例中,所述基于极端梯度提升算法的植被指数预测方法还包括:步骤S5:判断所述植被指数是否满足预设的精度要求,若是,输出植被指数预测值;否则,修改所述极端梯度提升模型的决策树的数目,重新获取植被指数预测值。具体地,将验证数据集输入所述极端梯度提升模型进行植被指数预测值预测,将该植被指数预测值与验证数据集中的植被指数数据进行比较,根据比较结果判断所述植被指数是否达到预设的精度要求,其中,所述预设的精度要求可根据用户实际需求进行设定。
如图3所示,本发明还提供了一种植被指数预测系统,包括:
第一输入数据获取模块1,用于获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
第二输入数据获取模块2,用于将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
极端梯度提升模型构建模块3,所述极端梯度提升模型构建模块以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型;其中,所述高程数据为预设时间段内的高程数据。
其中,所述极端梯度提升模型以若干决策树作为学习单元,根据上一决策树输出结果与实际值的残差拟合下一决策树,通过对若干决策树输出结果进行求和获得植被指数预测值;
在本发明一个实施例中,如图4所示,所述极端梯度提升模型构建模块3包括:
参数获取单元301,用于设定数据集
Figure BDA0002213077060000071
所述极端梯度提升模型的学习单元的损失函数为
Figure BDA0002213077060000072
迭代次数t和决策树的棵树k,令迭代次数t和决策树的棵树k在设定的数据集中进行遍历,验证精度并选取精度最高的迭代次数t和决策树的棵树k作为所述极端梯度提升模型参数;其中,xi为自变量,n为数据集样本数,yi为实际输出结果,
Figure BDA0002213077060000073
为所述极端梯度提升模型输出结果;
预测值获取单元302,用于按照以下方式获取极端梯度提升模型第t次的预测值
Figure BDA0002213077060000074
Figure BDA0002213077060000075
其中,为所述极端梯度提升模型t-1次的输出结果,
Figure BDA0002213077060000077
ft(xi)为决策树第t次迭代输出结果;
残差获取单元303,用于在训练数据集中随机有放回抽取若干子集K,每个子集生成一棵决策树,对每一棵决策树进行训练,获得残差
Figure BDA0002213077060000078
损失函数训练单元304,用于按照以下方式最小化训练损失函数:
Figure BDA0002213077060000079
其中,γ为正则项系数;
植被指数获取单元305,用于对所述若干决策树的预测结果进行求和,获得植被指数预测值:
Figure BDA00022130770600000710
其中,fk是单个决策树的预测结果,
Figure BDA00022130770600000711
是所有决策树CART的集合。
极端梯度提升模型训练模块4,用于获取目标时间段的植被指数数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为极端梯度提升模型的样本数据,利用极端梯度提升模型对所述样本数据进行迭代学习,预测目标时间段的植被指数,获取植被指数预测结果。
所述植被指数预测系统还包括:判断模块5,用于判断所述极端梯度提升模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述极端梯度提升模型的决策树的数目,重新获取植被指数预测值。
本发明还提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现上述任意一项所述的基于极端梯度提升算法的植被指数预测方法的步骤。
本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本发明还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的基于极端梯度提升算法的植被指数预测方法的步骤。
相对于现有技术,本发明通过以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型,利用极端梯度提升模型对所述样本数据进行迭代学习,预测目标时间段的植被指数,获取植被指数预测结果实现了对现有技术中缺失的植被指数问题,完善了植被指数数据,方便研究者进行研究。本发明所述植被指数数据的模拟是一个“输入-训练-反馈-改进算法-训练-输出”的迭代优化过程,通过达到设定的精度,生成年长时间序列、空间完整覆盖的植被指数数据。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (8)

1.一种基于极端梯度提升算法的植被指数预测方法,其特征在于,包括以下步骤:
获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
获取预设时间段内的高程数据,以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型;
其中,所述极端梯度提升模型以若干决策树作为学习单元,根据上一决策树输出结果与实际值的残差拟合下一决策树,通过对若干决策树输出结果进行求和获得植被指数预测值;
获取目标时间段的全球陆地数据同化系统流域地表模型数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为极端梯度提升模型的样本数据,利用极端梯度提升模型对所述样本数据进行迭代学习,预测目标时间段的植被指数,获取植被指数预测值。
2.根据权利要求1所述的基于极端梯度提升算法的植被指数预测方法,其特征在于:所述以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型的步骤包括:
设定数据集
Figure FDA0002213077050000011
所述极端梯度提升模型的学习单元的损失函数为
Figure FDA0002213077050000012
迭代次数t和决策树的棵树k,令迭代次数t和决策树的棵树k在设定的数据集中进行遍历,验证精度并选取精度最高的迭代次数t和决策树的棵树k作为所述极端梯度提升模型参数;其中,xi为自变量,n为数据集样本数,yi为实际输出结果,
Figure FDA0002213077050000014
为所述极端梯度提升模型输出结果;
按照以下方式获取极端梯度提升模型第t次的模拟预测值
Figure FDA0002213077050000015
Figure FDA0002213077050000016
其中,
Figure FDA0002213077050000017
Figure FDA0002213077050000018
为所述极端梯度提升模型t-1次的输出结果,
Figure FDA0002213077050000019
ft(xi)为决策树第t次迭代输出结果;
在训练数据集中随机有放回抽取若干子集K,每个子集生成一棵决策树,对每一棵决策树进行训练,获得残差
Figure FDA00022130770500000110
按照以下方式最小化训练损失函数:
Figure FDA0002213077050000021
其中,γ为正则项系数;
对所述若干决策树的预测结果进行求和,获得植被指数预测值:
Figure FDA0002213077050000022
其中,fk是单个决策树的预测结果,
Figure FDA0002213077050000023
是所有决策树CART的集合。
3.根据权利要求1所述的基于极端梯度提升算法的植被指数预测方法,其特征在于:所述基于极端梯度提升算法的植被指数预测方法还包括以下步骤:判断所述极端梯度提升模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述极端梯度提升模型的决策树的数目,重新获取植被指数预测值。
4.一种植被指数预测系统,其特征在于:包括:
第一输入数据获取模块,用于获取植被指数数据,选取预设时间段内的所述植被指数数据作为训练数据集,根据预设的规则从所述训练数据集选取高质量像元值作为第一输入数据;
第二输入数据获取模块,用于将预设时间段内的全球陆地数据同化系统流域地表模型数据集以每半月进行整合,生成半月尺度的第二输入数据;
极端梯度提升模型构建模块,所述极端梯度提升模型构建模块以植被指数作为因变量,以全球陆地数据同化系统流域地表模型数据集和高程数据作为自变量,构建极端梯度提升模型;
其中,所述极端梯度提升模型以若干决策树作为学习单元,根据上一决策树输出结果与实际值的残差拟合下一决策树,通过对若干决策树输出结果进行求和获得植被指数预测值;
极端梯度提升模型训练模块,用于获取目标时间段的植被指数数据,将所述第一输入数据、第二输入数据、高程数据和目标时间段的全球陆地数据同化系统流域地表模型数据作为极端梯度提升模型的样本数据,利用极端梯度提升模型对所述样本数据进行迭代学习,预测目标时间段的植被指数,获取植被指数预测结果。
5.根据权利要求4所述的植被指数预测系统,其特征在于:所述极端梯度提升模型构建模块包括:
参数获取单元,用于设定所述极端梯度提升模型的学习单元的损失函数为
Figure FDA0002213077050000025
迭代次数t和决策树的棵树k,令迭代次数t和决策树的棵树k在设定的数据集中进行遍历,验证每种t、k组合的模拟结果的精度,并选取精度最高的迭代次数t和决策树的棵树k作为所述极端梯度提升模型参数;其中,yi为实际输出结果,
Figure FDA0002213077050000026
为所述极端梯度提升模型输出结果;
预测值获取单元,用于按照以下方式获取极端梯度提升模型第t次的预测值
Figure FDA0002213077050000031
其中,
Figure FDA0002213077050000033
Figure FDA0002213077050000034
为所述极端梯度提升模型t-1次的输出结果,
Figure FDA0002213077050000035
ft(xi)为决策树第t次迭代输出结果;
残差获取单元,用于在训练数据集中随机有放回抽取若干子集K,每个子集生成一棵决策树,对每一棵决策树进行训练,获得残差
Figure FDA0002213077050000036
损失函数训练单元,用于按照以下方式最小化训练损失函数:
Figure FDA0002213077050000037
其中,γ为正则项系数;
植被指数获取单元,用于对所述若干决策树的预测结果进行求和,获得植被指数预测值:
Figure FDA0002213077050000038
其中,fk是单个决策树的预测结果,
Figure FDA0002213077050000039
是所有决策树的集合。
6.根据权利要求4所述的植被指数预测系统,其特征在于:所述植被指数预测系统还包括:判断模块,用于判断所述极端梯度提升模型预测结果的精度是否达到设定精度,若是,输出植被指数预测值;否则,修改所述极端梯度提升模型的决策树的数目,重新获取植被指数预测值。
7.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:该计算机程序被处理器执行时实现如权利要求1-3任意一项所述的基于极端梯度提升算法的植被指数预测方法的步骤。
8.一种计算机设备,其特征在于:包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-3中任意一项所述的基于极端梯度提升算法的植被指数预测方法的步骤。
CN201910905212.7A 2019-09-24 2019-09-24 基于极端梯度提升算法的植被指数预测方法、系统及设备 Active CN110852475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910905212.7A CN110852475B (zh) 2019-09-24 2019-09-24 基于极端梯度提升算法的植被指数预测方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910905212.7A CN110852475B (zh) 2019-09-24 2019-09-24 基于极端梯度提升算法的植被指数预测方法、系统及设备

Publications (2)

Publication Number Publication Date
CN110852475A true CN110852475A (zh) 2020-02-28
CN110852475B CN110852475B (zh) 2020-10-23

Family

ID=69596060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910905212.7A Active CN110852475B (zh) 2019-09-24 2019-09-24 基于极端梯度提升算法的植被指数预测方法、系统及设备

Country Status (1)

Country Link
CN (1) CN110852475B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667187A (zh) * 2020-06-10 2020-09-15 中交第二公路勘察设计研究院有限公司 基于多源遥感数据的公路滑坡危险性评价方法
CN113211160A (zh) * 2021-04-08 2021-08-06 北京工业大学 基于极端梯度提升的滚珠丝杠副热变形补偿系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426153A (zh) * 2011-11-21 2012-04-25 南京农业大学 一种基于冠层高光谱指数的小麦植株水分监测方法
CN103913425A (zh) * 2014-04-17 2014-07-09 河南农业大学 基于光谱指数和气候因子耦合的冬小麦籽粒蛋白质含量预测方法及其预测模型的构建方法
CN108172301A (zh) * 2018-01-31 2018-06-15 中国科学院软件研究所 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
CN109117956A (zh) * 2018-07-05 2019-01-01 浙江大学 一种最佳特征子集的确定方法
CN109711636A (zh) * 2019-01-09 2019-05-03 南京工业大学 一种基于混沌萤火虫与梯度提升树模型的河流水位预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426153A (zh) * 2011-11-21 2012-04-25 南京农业大学 一种基于冠层高光谱指数的小麦植株水分监测方法
CN103913425A (zh) * 2014-04-17 2014-07-09 河南农业大学 基于光谱指数和气候因子耦合的冬小麦籽粒蛋白质含量预测方法及其预测模型的构建方法
CN108172301A (zh) * 2018-01-31 2018-06-15 中国科学院软件研究所 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
CN109117956A (zh) * 2018-07-05 2019-01-01 浙江大学 一种最佳特征子集的确定方法
CN109711636A (zh) * 2019-01-09 2019-05-03 南京工业大学 一种基于混沌萤火虫与梯度提升树模型的河流水位预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HENG ZHANG等: "High-resolution vegetation mapping using extreme gradient boosting based on extensive features", 《REMOTE SENSING》 *
JOHN NAY等: "A machine-learning approach to forecasting remotely sensed vegetation health", 《INTERNATIONAL JOURNAL OF REMOTE SENSING》 *
李伟等: "基于极限梯度提升树的输电线路缺陷风险预报", 《控制工程》 *
王文倩: "基于机器学习和零膨胀模型估算大兴安岭树种生物量", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667187A (zh) * 2020-06-10 2020-09-15 中交第二公路勘察设计研究院有限公司 基于多源遥感数据的公路滑坡危险性评价方法
CN111667187B (zh) * 2020-06-10 2023-09-15 中交第二公路勘察设计研究院有限公司 基于多源遥感数据的公路滑坡危险性评价方法
CN113211160A (zh) * 2021-04-08 2021-08-06 北京工业大学 基于极端梯度提升的滚珠丝杠副热变形补偿系统及方法

Also Published As

Publication number Publication date
CN110852475B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
Pecchi et al. Species distribution modelling to support forest management. A literature review
Safari et al. A comparative assessment of multi-temporal Landsat 8 and machine learning algorithms for estimating aboveground carbon stock in coppice oak forests
Antonarakis et al. Using Lidar and Radar measurements to constrain predictions of forest ecosystem structure and function
CN110826173B (zh) 一种土壤水分数据获取方法、系统、存储介质及设备
CN110852149B (zh) 基于分类和回归树算法的植被指数预测方法、系统及设备
CN110852475B (zh) 基于极端梯度提升算法的植被指数预测方法、系统及设备
CN110826764B (zh) 基于随机森林算法的植被指数预测方法、系统及设备
Shuman et al. Testing individual-based models of forest dynamics: Issues and an example from the boreal forests of Russia
CN111639803A (zh) 一种应用于气候变化情景下区域未来植被指数的预估方法
Hill et al. The use of CO 2 flux time series for parameter and carbon stock estimation in carbon cycle research
Wen et al. Applying an artificial neural network to simulate and predict Chinese fir (Cunninghamia lanceolata) plantation carbon flux in subtropical China
CN110852415B (zh) 基于神经网络算法的植被指数预测方法、系统及设备
CN116227554A (zh) 一种气象数据的模拟数据修正方法及装置、电子设备
CN115545334A (zh) 土地利用类型预测方法、装置、电子设备及存储介质
Lilleleht et al. Spatial forest structure reconstruction as a strategy for mitigating edge-bias in circular monitoring plots
Lu et al. Global prediction of gross primary productivity under future climate change
Jevšenak et al. Modelling seasonal dynamics of secondary growth in R
CN112560633A (zh) 基于深度学习的植物关键物候期时间点预测方法及系统
CN116341841A (zh) 径流预报误差校正方法、装置、设备、介质和程序产品
CN116663915A (zh) 光伏出力超短期预测方法及装置
Saranya et al. A comparative evaluation of streamflow prediction using the SWAT and NNAR models in the Meenachil River Basin of Central Kerala, India
Van der Meersch et al. Estimating process‐based model parameters from species distribution data using the evolutionary algorithm CMA‐ES
CN112766592A (zh) 夏季登陆中国台风数量预测方法、装置、设备及存储介质
CN113361596B (zh) 一种传感器数据增广方法、系统及存储介质
CN116432145B (zh) 积雪深度获取方法、装置、存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 510075 one of the compound No. 100, Xianlie Middle Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Institute of geography, Guangdong Academy of Sciences

Address before: 510075 one of the compound No. 100, Xianlie Middle Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU INSTITUTE OF GEOGRAPHY