CN114723166A - 一种基于XGBoost模型的地表温度重建方法 - Google Patents

一种基于XGBoost模型的地表温度重建方法 Download PDF

Info

Publication number
CN114723166A
CN114723166A CN202210453355.0A CN202210453355A CN114723166A CN 114723166 A CN114723166 A CN 114723166A CN 202210453355 A CN202210453355 A CN 202210453355A CN 114723166 A CN114723166 A CN 114723166A
Authority
CN
China
Prior art keywords
surface temperature
model
xgboost
meteorological
earth surface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210453355.0A
Other languages
English (en)
Inventor
刘法
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Geographic Sciences and Natural Resources of CAS filed Critical Institute of Geographic Sciences and Natural Resources of CAS
Priority to CN202210453355.0A priority Critical patent/CN114723166A/zh
Publication of CN114723166A publication Critical patent/CN114723166A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Investigating Or Analyzing Materials Using Thermal Means (AREA)

Abstract

本发明公开了一种基于XGBoost模型的地表温度重建方法,包括以下步骤:步骤S1、准备地面气象观测数据并进行数据预处理,按照类别存储为不同气象要素;步骤S2、对步骤S1气象要素与地表温度的相关性进行排序,选取影响地表温度的主要气象要素构建气象要素数据集;步骤S3、利用步骤S2筛选的气象要素数据集对XGBoost地表温度模型进行训练;步骤S4、通过网格搜索和K折交叉验证寻找XGBoost地表温度模型的最佳参数;步骤S5、利用训练好的XGBoost地表温度模型对地表温度进行重建。本发明不依赖于稀缺气象要素,应用常规地面气象观测数据为输入,计算出降雪条件下的地表温度,该方法操作简单、不受气象条件影响、无需仪器维护,提高了估算精度。

Description

一种基于XGBoost模型的地表温度重建方法
技术领域
本发明涉及地表温度重建技术领域,尤其涉及的是一种基于XGBoost模型的地表温度重建方法。
背景技术
地表温度(Land Surface Temperature,LST)是地表能量平衡和水循环过程的关键变量,在地-气相互作用中发挥着重要作用,对高温预测、干旱监测、生态环境监测、全球水文和气候监测等领域都具有重要的应用价值。地面气象站点观测的地面温度由于具有可靠性高,时间序列长的优点,被常规用于验证其它地表温度产品(如,MODIS LST数据)。但是,气象站数据易受非气候因素的影响(如仪器更换,观测场迁移等),这会导致观测数据的不均一性和错误的结论。例如,我国气象观测点在2002年以后开始逐渐采用自动站取代人工观测,但由于自动站地表温度的观测规范与人工观测不同,会造成冬季地面有积雪的条件下自动站观测地表温度与人工观测存在严重的偏差。对于人工观测,需要在积雪后将温度计放在雪面上。而自动站观测的铂电阻地温传感器在被雪掩埋的情况下仍然可以工作,这导致测量的地表温度值偏高,无法代表真实的地表温度。因此,为了得到准确的地表温度数据,需要对降雪条件下自动观测站观测的地表温度数据进行修正和重新估算。
现有技术在估算地表温度时,主要通过气象要素和降雪覆盖要素(例如,雪深数据)与地表温度建立多元回归关系来预测不同降雪覆盖条件下地表温度。这种方法的主要特点是计算简单,但地表温度的预测精度高度依赖降雪覆盖数据质量,而降雪数据较难获取且在很多地区缺乏降雪数据记录。因而,对于缺乏或降雪数据较差的地区,现有方法得到的计算值误差较大,导致无法得到可接受的地表温度估算值。此外,随着空间遥感技术的发展,利用星载红外传感器可以获取地表温度数据。尽管如此,通过遥感技术获取的地表温度数据经常受到云和大气条件的强烈影响,导致该地表温度数据的置信度低。
发明内容
本发明所要解决的技术问题是针对现有技术的不足提供一种基于XGBoost模型的地表温度重建方法。该方法是仪器观测、多重线性回归估算等之外的新方法,该方法具有更强的区域适用性,高精度,无需仪器维护,输入变量容易获取的优点。
本发明的技术方案如下:
一种基于XGBoost的地表温度重建方法,包括以下步骤:
步骤S1、准备地面气象观测数据并进行数据预处理,按照类别存储为不同气象要素;
步骤S2、对步骤S1气象要素与地表温度的相关性进行排序,选取影响地表温度的主要气象要素构建气象要素数据集;
步骤S3、利用步骤S2筛选的气象要素数据集对XGBoost地表温度模型进行训练;
步骤S4、通过网格搜索和K折交叉验证寻找XGBoost地表温度模型的最佳参数;
步骤S5、利用训练好的XGBoost地表温度模型对地表温度进行重建。
所述的基于XGBoost的地表温度重建方法,步骤S1所述地面气象观测观测数据包括但不限于人工观测的地表温度、气温、日照时数、降雨、空气湿度和风速;数据预处理是指检测地面观测数据缺失值,采用袋装算法进行缺失值插补计算。
所述的基于XGBoost的地表温度重建方法,步骤S2选取影响地表温度的主要气象要素,是通过计算气象要素与地表温度的Pearson相关系数,明确气象要素对地表温度影响程度,筛选出对地表温度影响最高的m个主要气象要素,使用选出的m个气象要素对步骤S1的地面观测观测数据集进行降维处理;Pearson相关系数公式如下:
Figure BDA0003617807020000031
式中,X为气象变量,Y为地表温度,n为天数。
所述的基于XGBoost的地表温度重建方法,步骤S3中XGBoost模型是一种集成式提升算法,其不断往模型中加入基础决策树模型,用于训练上一棵树的预测的误差,进而提高建模数据的预测能力,其表达式如下:
Figure BDA0003617807020000032
式中,k为决策树的棵数,fk为函数空间R的一个函数;
Figure BDA0003617807020000033
为预测值;xi为输入的第i个数据,R为构成模型的多棵决策树的集合。在XBGoost算法训练的过程中,每一棵决策树都会产生一个节点的权重值,将这些权重值累加到一起,则得到样本最终预测值
Figure BDA0003617807020000034
所述的基于XGBoost的地表温度重建方法,步骤S4中网格搜索是一种调参手段,在所有候选参数中,通过循环寻找表现最好的参数作为最终结果,K折交叉验证是一种重采样方法,它将数据集随机平均分为K份,以其中K-1份数据集训练模型,将剩余数据集验证模型性能;通过网格搜索法和K折交叉验证法结合起来可以获取模型的最优参数;其中,使用均方根误差(RMSE)和决定系数(R2)来评估模型的精度;
Figure BDA0003617807020000035
Figure BDA0003617807020000041
式中,Yi,m为观测的地表温度值;Yi,e为模型预测的地表温度值;
Figure BDA0003617807020000042
为观测地表温度的平均值;n为数据样本大小;其中,RMSE和MAE越小,R2越大,说明模型性能越好,对应的模型参数为最佳参数。
所述的基于XGBoost的地表温度重建方法,步骤S5是将最佳参数的XGBoost地表温度模型转换为应用程序,对降雪覆盖条件下自动站地表温度进行重建。
本发明针对现有的方法的局限性,提出了一种以机器学习算法为基础的,不依赖于稀缺气象要素(例如,雪深数据),应用常规地面气象观测数据(包括但不限于地表温度、气温、日照时数、降雨、空气湿度和风速等)为输入,计算出降雪条件下的地表温度,该方法操作简单、不受气象条件影响、无需仪器维护,提高了估算精度。
附图说明
图1为地表温度计算流程图;
图2为基于XGBoost模型对降雪覆盖条件下自动站地表温度的重建;a为未修正的长春气象站点的地表温度和空气温度;b为未修正的长春气象站点的地气温差;c为XGBoost模型重建的地表温度;d为XGBoost模型修正后的地气温差。黑线为由人工观测变为自动站观测的时间分界线(自2003年开始);
图3为长春气象站点人工观测的日地表温度与XGBoost模拟日地表温度散点图(注:虚线代表1:1线,实线为最佳拟合线);
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
本发明以1971-2019年中国长春气象站点的地表温度观测数据为例,利用XGBoost模型对降雪覆盖条件下自动站地表温度进行重建。
如图2所示,长春站在2002年之后采用自动站对地表温度进行测量,这导致在降雪覆盖条件下的地表温度在2002年以后出现了明显的上升(图2a),通过地表温度与空气温度差值(地气温差)可以更明显的观察到这一现象(图2b)。图2c-d是利用XGBoost模型对降雪覆盖条件下自动站地表温度进行了重建,结果显示经过重建后的地表温度高估被修正,且更符合实际情况。图3是长春气象站点人工观测的日地表温度与XGBoost模拟日地表温度散点图。如图3所示,XGBoost模型估算的地表温度与地面人工观测地表温度的拟合度极高,RMSE达到1.612℃,R2达到了0.989。表明XGBoost地表温度模型,具有非常高的估算精度,可以有效快速的修正和重建因人为或气象条件改变导致的地表温度偏差。具体的重建过程如下:
步骤S1:准备1971-2019年间的常规地面观测气象数据,包括日地表温度(人工观测)、气温(最高气温、平均温度和最低气温)、日照时数、降雨、空气湿度、风速等;由于气象数据观测存在数据缺失的问题,为此我们采用袋装算法对缺失值进行了插补;
步骤S2:将步骤S1的数据按照仪器更换时间节点分为训练期和重建期,其中训练期的数据集区间为1971-2002年(人工观测地表温度),重建期为2003-2019年(自动站观测地表温度);在此基础上,通过气象要素与地表温度的Pearson相关系数,筛选出了对地表温度影响最高的6个常规气象要素(包括日最高气温、平均温度、最低气温、日照时数、降雨和空气湿度)作为训练XGBoost地表温度模型的输入变量,人工观测的地表温度作为目标变量;
步骤S3:利用步骤S2筛选的数据集对XGBoost地表温度模型进行训练,为了获取XGBoost地表温度模型更高的精度,通过网格搜索法和K折交叉验证法结合起来获取模型的最优参数组合。其中,计算得到的均方根误差(RMSE)值最低和R2最高所对应的参数组合为最优参数组合;
步骤S4:将步骤S3计算得到的最佳参数组合的XGBoost地表温度模型转换为应用程序;将重建期(2003-2019)的6个气象要素(包括日最高气温、平均温度、最低气温、日照时数、降雨和空气湿度)作为训练好的XGBoost地表温度模型输入变量,估算自动站观测期间(2003-2019)长春站降雪覆盖条件下自动站观测的地表温度,得到一套重建后地表温度。
结果如图2和图3所示,本发明公开的基于XGBoost模型重建地表温度的方法,应用常规地面气象观测数据,可以高效快速的重建降雪覆盖下自动站观测偏高的地表温度,该方法具有操作简单、不受气象条件影响、高精度和无需仪器维护的优点。此外,该方法同样适用于缺乏观测的区域的地表温度重建。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种基于XGBoost模型的地表温度重建方法,其特征在于,包括以下步骤:
步骤S1、准备地面气象观测数据并进行数据预处理,按照类别存储为不同气象要素;
步骤S2、对步骤S1气象要素与地表温度的相关性进行排序,选取影响地表温度的主要气象要素构建气象要素数据集;
步骤S3、利用步骤S2筛选的气象要素数据集对XGBoost地表温度模型进行训练;
步骤S4、通过网格搜索和K折交叉验证寻找XGBoost地表温度模型的最佳参数;
步骤S5、利用训练好的XGBoost地表温度模型对地表温度进行重建。
2.根据权利要求1所述的基于XGBoost模型的地表温度重建方法,其特征在于,步骤S1所述地面气象观测观测数据包括人工观测的地表温度、气温、日照时数、降雨、空气湿度和风速;数据预处理是指检测地面观测数据缺失值,采用袋装算法进行缺失值插补计算。
3.根据权利要求1所述的基于XGBoost模型的地表温度重建方法,其特征在于,步骤S2选取影响地表温度的主要气象要素,是通过计算气象要素与地表温度的Pearson相关系数,明确气象要素对地表温度影响程度,筛选出对地表温度影响最高的m个主要气象要素,使用选出的m个气象要素对步骤S1的地面观测观测数据集进行降维处理;Pearson相关系数公式如下:
Figure FDA0003617807010000011
式中,X为气象变量,Y为地表温度,n为天数。
4.根据权利要求1所述的基于XGBoost模型的地表温度重建方法,其特征在于,步骤S3中XGBoost模型是一种集成式提升算法,其不断往模型中加入基础决策树模型,用于训练上一棵树的预测的误差,进而提高建模数据的预测能力,其表达式如下:
Figure FDA0003617807010000021
式中,k为决策树的棵数,fk为函数空间R的一个函数;
Figure FDA0003617807010000022
为预测值;xi为输入的第i个数据,R为构成模型的多棵决策树的集合,在XBGoost算法训练的过程中,每一棵决策树都会产生一个节点的权重值,将这些权重值累加到一起,则得到样本最终预测值
Figure FDA0003617807010000023
5.根据权利要求1所述的基于XGBoost模型的地表温度重建方法,其特征在于,步骤S4中网格搜索是一种调参手段,在所有候选参数中,通过循环寻找表现最好的参数作为最终结果,K折交叉验证是一种重采样方法,它将数据集随机平均分为K份,以其中K-1份数据集训练模型,将剩余数据集验证模型性能;通过网格搜索法和K折交叉验证法结合起来可以获取模型的最优参数;其中,使用均方根误差(RMSE)和决定系数(R2)来评估模型的精度;
Figure FDA0003617807010000024
Figure FDA0003617807010000025
式中,Yi,m为观测的地表温度值;Yi,e为模型预测的地表温度值;
Figure FDA0003617807010000026
为观测地表温度的平均值;n为数据样本大小;其中,RMSE和MAE越小,R2越大,说明模型性能越好,对应的模型参数为最佳参数。
6.根据权利要求1所述的基于XGBoost模型的地表温度重建方法,其特征在于,步骤S5是将最佳参数的XGBoost地表温度模型转换为应用程序,对降雪覆盖条件下自动站地表温度进行重建。
CN202210453355.0A 2022-04-27 2022-04-27 一种基于XGBoost模型的地表温度重建方法 Pending CN114723166A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210453355.0A CN114723166A (zh) 2022-04-27 2022-04-27 一种基于XGBoost模型的地表温度重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210453355.0A CN114723166A (zh) 2022-04-27 2022-04-27 一种基于XGBoost模型的地表温度重建方法

Publications (1)

Publication Number Publication Date
CN114723166A true CN114723166A (zh) 2022-07-08

Family

ID=82245581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210453355.0A Pending CN114723166A (zh) 2022-04-27 2022-04-27 一种基于XGBoost模型的地表温度重建方法

Country Status (1)

Country Link
CN (1) CN114723166A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391746A (zh) * 2022-10-28 2022-11-25 航天宏图信息技术股份有限公司 针对气象要素数据的插值方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199185A (zh) * 2019-11-26 2020-05-26 广州地理研究所 基于XGBoost学习算法的地表温度降尺度方法、系统及设备
CN112016052A (zh) * 2020-08-20 2020-12-01 广东省气象探测数据中心 基于多源数据的近地表日最高气温估算方法、系统及终端
CN113283155A (zh) * 2021-03-22 2021-08-20 中国农业科学院农业资源与农业区划研究所 一种近地表气温估算方法、系统、存储介质及设备
CN114019579A (zh) * 2021-08-24 2022-02-08 中国农业科学院农业资源与农业区划研究所 高时空分辨率近地表空气温度重构方法、系统、设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199185A (zh) * 2019-11-26 2020-05-26 广州地理研究所 基于XGBoost学习算法的地表温度降尺度方法、系统及设备
CN112016052A (zh) * 2020-08-20 2020-12-01 广东省气象探测数据中心 基于多源数据的近地表日最高气温估算方法、系统及终端
CN113283155A (zh) * 2021-03-22 2021-08-20 中国农业科学院农业资源与农业区划研究所 一种近地表气温估算方法、系统、存储介质及设备
CN114019579A (zh) * 2021-08-24 2022-02-08 中国农业科学院农业资源与农业区划研究所 高时空分辨率近地表空气温度重构方法、系统、设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEIWEI TAN: "Reconstruction of All-Weather Daytime and Nighttime MODIS Aqua-Terra Land Surface Temperature Products Using an XGBoost Approach", 《REMOTR SENSING》 *
房国志等: "城市空间典型下垫面温度监测与估算", 《仪器仪表学报》 *
颜佳楠: "基于XGBoost的LST空间降尺度方法", 《多源遥感智能处理与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391746A (zh) * 2022-10-28 2022-11-25 航天宏图信息技术股份有限公司 针对气象要素数据的插值方法、装置、电子设备及介质
CN115391746B (zh) * 2022-10-28 2023-01-31 航天宏图信息技术股份有限公司 针对气象要素数据的插值方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN110555561B (zh) 一种中长期径流集合预报方法
CN108304668B (zh) 一种结合水文过程数据和历史先验数据的洪水预测方法
Landberg et al. Short-term prediction of local wind conditions
CN106597575B (zh) 基于交叉验证和二维高斯分布赋权的降水量空间插值方法
CN108896021B (zh) 基于航空摄影测量点云提取人工林林分结构参数的方法
CN113221765B (zh) 一种基于数字相机影像有效像元的植被物候期提取方法
CN109472283B (zh) 一种基于多重增量回归树模型的危险天气预测方法和装置
CN109800921B (zh) 基于遥感物候同化和粒子群优化的区域冬小麦估产方法
CN110619291B (zh) 一种植被覆盖度与气候因子非线性响应关系的识别方法
CN111062526B (zh) 一种冬小麦单产预测方法及系统
KR101908865B1 (ko) 기온 측정 자료의 품질 분석방법
CN113743013A (zh) 一种基于XGBoost气温预测数据修正的方法
Abaurrea et al. Forecasting local daily precipitation patterns in a climate change scenario
CN115495991A (zh) 一种基于时间卷积网络的降水区间预测方法
CN111784023A (zh) 一种短时邻近雾能见度预测方法
CN111639803A (zh) 一种应用于气候变化情景下区域未来植被指数的预估方法
CN112330197B (zh) 一种气象水文数据质量控制与评价方法
CN117763970B (zh) 基于图像深度学习的稀缺资料地区水文模型参数重建方法
CN115238947A (zh) 气候变化下旱涝急转事件的社会经济暴露度预估方法
CN114297578A (zh) 一种基于遥感的草地植被覆盖度估算及预测方法
CN114723166A (zh) 一种基于XGBoost模型的地表温度重建方法
CN118211721B (zh) 基于人工智能的建筑能耗预测方法
CN109543911B (zh) 一种日照辐射预测方法及系统
CN110968926B (zh) 一种基于改进背景误差协方差矩阵预测大气参数的方法
CN112883577B (zh) 一种海上风电场出力典型场景生成方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220708

RJ01 Rejection of invention patent application after publication