CN113743013A - 一种基于XGBoost气温预测数据修正的方法 - Google Patents

一种基于XGBoost气温预测数据修正的方法 Download PDF

Info

Publication number
CN113743013A
CN113743013A CN202111049643.1A CN202111049643A CN113743013A CN 113743013 A CN113743013 A CN 113743013A CN 202111049643 A CN202111049643 A CN 202111049643A CN 113743013 A CN113743013 A CN 113743013A
Authority
CN
China
Prior art keywords
data
time
training
air temperature
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111049643.1A
Other languages
English (en)
Inventor
徐珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Cap Data Service Co ltd
Original Assignee
Chengdu Cap Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Cap Data Service Co ltd filed Critical Chengdu Cap Data Service Co ltd
Priority to CN202111049643.1A priority Critical patent/CN113743013A/zh
Publication of CN113743013A publication Critical patent/CN113743013A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Abstract

本发明属于气象预测技术领域,具体涉及一种基于XGBoost气温预测数据修正的方法。本发明是一种基于XGBoost的气温预测数据修正的方法,旨在提高气温预测数据的准确性。这是由于气象数值预报数据本身存在偏差,因此需要修正技术对预报偏差进行修正来提供预报的准确率。为了验证气温预测数据修正的效果,本发明选择同一评价指标对修正前后的气温预测数据进行质量检测,并在模型训练时按照时间划分训练集和测试集,可以提取气温随时间变化的趋势,优于随机划分训练集和测试集。

Description

一种基于XGBoost气温预测数据修正的方法
技术领域
本发明属于气象预测技术领域,具体涉及一种基于XGBoost气温预测数据修正的方法。
背景技术
天气预报(测)或气象预报(测)是使用现代科学技术对未来某一地点地球大气层的状态进行预测。从史前人类就已经开始对天气进行预测来相应地安排其工作与生活(比如农业生产、军事行动等等)。今天的天气预报主要是使用收集大量的数据(气温、湿度、风向和风速、气压等等),然后使用目前对大气过程的认识(气象学)来确定未来空气变化。
数值天气预报(numerical weather prediction)是指根据大气实际情况,在一定的初值和边值条件下,通过大型计算机作数值计算,求解描写天气演变过程的流体力学和热力学的方程组,预测未来一定时段的大气运动状态和天气现象。
数值天气预报普遍存在系统偏差,这是因为数值模式所描述的大气运动物理过程是有限的,且次网格过程参数化问题难以精确处理。因此需要订正技术对预报偏差进行订正来提供预报的准确率。
地面气温是人们日常生活最关注的气象要素之一,现有的温度预报订正方法主要包括滑动平均订正、多模式集成、线性回归等方法,订正效果不理想,并且没有考虑气象要素的时空关联性。
发明内容
本发明提供的一种基于XGBoost的气温预测数据修正的方法,对多源异构的气象预报数据将进行数据融合处理,评价指标除了通用性较强的回归评价标准以外,还引入气象学评价指标,使质量评价结果更加准确。
为实现上述目的,本发明采用如下技术方案:
一种基于XGBoost气温预测数据修正的方法,如图1所示,包括以下步骤:
S1、获取历史预报数据和历史观测数据;
S2、对步骤S1获取到的数据进行预处理,包括数据重复性检查、界限值检查、极值检查、时间一致性检查和空间一致性检查,通过预处理消除错误数据后,将得到的历史预报数据和历史观测数据进行时空上的近邻匹配,获得时空匹配后的数据;
S3、对预处理后的历史预报数据进行质量检测,具体为使用RMSE均方根误差作为检测结果:
Figure BDA0003252272730000021
其中n为有效样本量,yi为i时刻某个气象要素的标准数据,
Figure BDA0003252272730000022
为i时刻对应气象要素的预报值;RMSE均方根误差是一种常用的衡量预测值与实际值之间偏差的度量方式;
S4、将步骤S2得到的时空匹配后的数据进行时空特征的提取,包括预测时间的年、月、小时和预测点位的海拔高度值,获得时空特征值;
使用历史预报数据的气象特征(包括历史预报气温、风速、风向、湿度等)和时空特征值构成历史预报特征值,并对历史预报特征值进行标准化处理,形成原始特征集X;使用历史观测数据中的气温作为标签数据Y。选用随机森林模型进行特征选择:该模型的feature_importances_参数值表示随机森林模型在拟合后认为的所给训练属性列的重要程度,步骤如下:a)对原始特征集X和标签数据Y分别按照7:3的比例划分训练集(Xtrain,Ytrain)和测试集(Xtest,Ytest),利用随机森林模型对训练集进行拟合训练;b)对随机森林中的特征变量按照VI(Variable Importance)降序排序;c)确定删除比例,从当前的特征变量中剔除相应比例不重要的指标,从而得到一个新的特征集;d)用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序;e)重复以上步骤,直到剩下m个特征,记为(X1,X2,…,Xm)。
S5、令步骤S4得到的特征数据集(X1,X2,…,Xm)的时间序列为t0,t1,t2,…,tn,选择时间为t0,t1,t2,…,ti的数据为训练数据集train,0<i<n,时间为ti+1,ti+2,…,tn的数据为测试数据集test,利用XGBoost对训练数据集进行拟合训练,再将训练出的模型对测试数据集进行预测测试,最终选择出收敛、预测准确率较高且鲁棒性较好的修正模型;
计算修正模型修正后的气温预测数据和气温观测数据的RMSE,并与步骤S3得到的检测结果进行对比,若修正后的RMSE小于步骤S3得到的RMSE,则认为得到的修正模型是有效的,否则回到步骤S5重新选择训练数据集进行训练;
S6、利用得到的修正模型对目标气温预测数据进行修正。
本发明的有益效果为,本发明对历史数值预报数据和历史观测数据采用数据时空匹配的方法,在一定程度上降低了数据在时空上的误差,并通过随机森林进行特征选择,最后选择XGBoost进行模型训练,实现气温预测数据的修正。
附图说明
图1为本发明的逻辑顺序示意图;
具体实施方式
下面结合实际应用环境对本发明的方案进行进一步描述:
本发明的方法主要包括:
S1、获取历史预报数据和历史观测数据;在实际应用中,数据获取的渠道较多,例如可通过欧洲中期天气预报中心(European Centre for Medium-Range WeatherForecasts简称ECMWF)获取历史气象预报数据,包括24个气象要素,时间分辨率为6小时,空间分辨率为0.125°;历史观测数据的来源于地面气象站,包含观测位置、观测时间和温度值,时间分辨率为1小时,空间分辨率为气象站点位;
S2、对步骤S1获取到的数据进行预处理,包括数据重复性检查、界限值检查、极值检查、时间一致性检查和空间一致性检查,通过预处理消除错误数据后,将得到的历史预报数据和历史观测数据进行时空上的近邻匹配,获得时空匹配后的数据;
预处理的方法中:数据重复性检查,指数据没有重复数据;界限值检查,指数据必须在界限值之内的检查。界限值这里特指从气候学的角度不可能发生的,比如国内地面气温最高值不可能高于60℃;极值检查,指数据是否超过极值的检查。极值是指在某个固定地点的某个的时间段内出现概率很小或不可能出现的气象数据。比如七八月份出现地面气温为零下的概率很小甚至不可能出现;时间一致性检查,指一定时间范围内,同一位置的气候数据变化具有特定的规律;空间一致性检查,指在一个地区内,气象要素分布的地理空间具有相关性,空间距离近的气象观测站比距离较远的具有更大的相关性;历史预报数据和历史观测数据的时空分辨率不同,需要对历史预报数据和历史观测数据进行时空上的近邻匹配;
S3、对预处理后的历史预报数据进行质量检测,具体为使用RMSE均方根误差作为检测结果:
Figure BDA0003252272730000041
其中n为有效样本量,yi为i时刻某个气象要素的标准数据,
Figure BDA0003252272730000042
为i时刻对应气象要素的预报值;RMSE均方根误差是一种常用的衡量预测值与实际值之间偏差的度量方式;为了对检测结果进行区别,用RMSEecmwf表示欧洲中期天气预报中心气温预测数据质量的检测结果。
S4、将步骤S2得到的时空匹配后的数据进行时空特征的提取,包括预测时间的年、月、小时和预测点位的海拔高度值,获得时空特征值;
使用历史预报数据的气象特征(包括历史预报气温、风速、风向、湿度等)和时空特征值构成历史预报特征值,并对历史预报特征值进行标准化处理,形成原始特征集X;使用历史观测数据中的气温作为标签数据Y。选用随机森林模型进行特征选择:该模型的feature_importances_参数值表示随机森林模型在拟合后认为的所给训练属性列的重要程度,步骤如下:a)对原始特征集X和标签数据Y分别按照7:3的比例划分训练集(Xtrain,Ytrain)和测试集(Xtest,Ytest),利用随机森林模型对训练集进行拟合训练;b)对随机森林中的特征变量按照VI(Variable Importance)降序排序;c)确定删除比例,从当前的特征变量中剔除相应比例不重要的指标,从而得到一个新的特征集;d)用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序;e)重复以上步骤,直到剩下m个特征,记为9X1,X2,…,Xm)。
S5、令步骤S4得到的特征数据集(X1,X2,…,Xm)的时间序列为t0,t1,t2,…,tn,选择时间为t0,t1,t2,…,ti的数据为训练数据集train,0<i<n,时间为ti+1,ti+2,…,tn的数据为测试数据集test,利用XGBoost对训练数据集进行拟合训练,再将训练出的模型对测试数据集进行预测测试,最终选择出收敛、预测准确率较高且鲁棒性较好的修正模型;
计算修正模型修正后的气温预测数据和气温观测数据的RMSE,并与步骤S3得到的检测结果进行对比,若修正后的RMSE小于步骤S3得到的RMSE,则认为得到的修正模型是有效的,否则回到步骤S5重新选择训练数据集进行训练;例如,计算模型修正后的气温预测数据和气温观测数据的RMSE,用RMSEecmwf模型修正表示,与S3中质量检测中的RMSE对比,如果RMSEecmwf模型修正<RMSEecmwf,表示气温模型修正是有效的。
S6、利用得到的修正模型对目标气温预测数据进行修正。
本发明是一种基于XGBoost的气温预测数据修正的方法,旨在提高气温预测数据的准确性。这是由于气象数值预报数据本身存在偏差,因此需要修正技术对预报偏差进行修正来提供预报的准确率。为了验证气温预测数据修正的效果,本发明选择同一评价指标对修正前后的气温预测数据进行质量检测,并在模型训练时按照时间划分训练集和测试集,可以提取气温随时间变化的趋势,优于随机划分训练集和测试集。
与滑动平均修正、多模式集成、线性回归等方法进行气温修正相比,本发明选择用随机森林进行特征选择,降低计算开销和提高分类性能,修正模型选择XGBoost,该模型在代价函数里加入了正则项,用于控制模型的复杂度,使学习出来的模型更加简单,防止过拟合。为了验证气温预测数据修正的效果,本发明选择同一评价指标对修正前后的气温预测数据进行质量检测。

Claims (1)

1.一种基于XGBoost气温预测数据修正的方法,其特征在于,包括以下步骤:
S1、获取历史预报数据和历史观测数据;
S2、对步骤S1获取到的数据进行预处理,包括数据重复性检查、界限值检查、极值检查、时间一致性检查和空间一致性检查,通过预处理消除错误数据后,将得到的历史预报数据和历史观测数据进行时空上的近邻匹配,获得时空匹配后的数据;
S3、对预处理后的历史预报数据进行质量检测,具体为使用RMSE均方根误差作为检测结果:
Figure FDA0003252272720000011
其中n为有效样本量,yi为i时刻某个气象要素的标准数据,
Figure FDA0003252272720000012
为i时刻对应气象要素的预报值;
S4、将步骤S2得到的时空匹配后的数据进行时空特征的提取,包括预测时间的年、月、小时和预测点位的海拔高度值,获得时空特征值;
使用历史预报数据的气象特征和时空特征值构成历史预报特征值,并对历史预报特征值进行标准化处理,形成原始特征集X;使用历史观测数据中的气温作为标签数据Y;选用随机森林模型进行特征选择:定义模型中feature_importances_参数值表示随机森林模型在拟合后认为的所给训练属性列的重要程度,步骤如下:a)对原始特征集X和标签数据Y分别按照7∶3的比例划分训练集(Xtrain,Ytrain)和测试集(Xtest,Ytest),利用随机森林模型对训练集进行拟合训练;b)对随机森林中的特征变量按照VI降序排序;c)确定删除比例,从当前的特征变量中剔除相应比例不重要的指标,从而得到一个新的特征集;d)用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序;e)重复以上步骤,直到剩下m个特征,记为(X1,X2,…,Xm);
S5、令步骤S4得到的特征数据集(X1,X2,…,Xm)的时间序列为t0,t1,t2,…,tn,选择时间为t0,t1,t2,…,ti的数据为训练数据集train,0<i<n,时间为ti+1,ti+2,…,tn的数据为测试数据集test,利用XGBoost对训练数据集进行拟合训练,再将训练出的模型对测试数据集进行预测测试,最终选择出收敛、预测准确率较高且鲁棒性较好的修正模型;
计算修正模型修正后的气温预测数据和气温观测数据的RMSE,并与步骤S3得到的检测结果进行对比,若修正后的RMSE小于步骤S3得到的RMSE,则认为得到的修正模型是有效的,否则回到步骤S5重新选择训练数据集进行训练;
S6、利用得到的修正模型对目标气温预测数据进行修正。
CN202111049643.1A 2021-09-08 2021-09-08 一种基于XGBoost气温预测数据修正的方法 Withdrawn CN113743013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111049643.1A CN113743013A (zh) 2021-09-08 2021-09-08 一种基于XGBoost气温预测数据修正的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111049643.1A CN113743013A (zh) 2021-09-08 2021-09-08 一种基于XGBoost气温预测数据修正的方法

Publications (1)

Publication Number Publication Date
CN113743013A true CN113743013A (zh) 2021-12-03

Family

ID=78736965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111049643.1A Withdrawn CN113743013A (zh) 2021-09-08 2021-09-08 一种基于XGBoost气温预测数据修正的方法

Country Status (1)

Country Link
CN (1) CN113743013A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648181A (zh) * 2022-05-24 2022-06-21 国能大渡河大数据服务有限公司 一种基于机器学习的降水预报修正方法及系统
CN115032720A (zh) * 2022-07-15 2022-09-09 国网上海市电力公司 基于随机森林的多模式集成预报在地面气温预报中的应用
CN115688588A (zh) * 2022-11-04 2023-02-03 自然资源部第一海洋研究所 一种基于改进xgb方法的海表面温度日变化振幅预测方法
CN115859765A (zh) * 2022-09-29 2023-03-28 中山大学 城市扩张的预测方法、装置、设备及存储介质
CN116167509A (zh) * 2022-07-20 2023-05-26 中科三清科技有限公司 气温预测方法、装置、存储介质及电子设备
CN116756522A (zh) * 2023-08-14 2023-09-15 中科三清科技有限公司 概率预报方法、装置、存储介质及电子设备
CN117892638A (zh) * 2024-03-14 2024-04-16 河海大学 一种利用条件概率函数的干旱形成时间预测方法及系统
CN117892638B (zh) * 2024-03-14 2024-05-17 河海大学 一种利用条件概率函数的干旱形成时间预测方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648181A (zh) * 2022-05-24 2022-06-21 国能大渡河大数据服务有限公司 一种基于机器学习的降水预报修正方法及系统
CN114648181B (zh) * 2022-05-24 2022-11-18 国能大渡河大数据服务有限公司 一种基于机器学习的降水预报修正方法及系统
CN115032720A (zh) * 2022-07-15 2022-09-09 国网上海市电力公司 基于随机森林的多模式集成预报在地面气温预报中的应用
CN116167509A (zh) * 2022-07-20 2023-05-26 中科三清科技有限公司 气温预测方法、装置、存储介质及电子设备
CN116167509B (zh) * 2022-07-20 2023-09-29 中科三清科技有限公司 气温预测方法、装置、存储介质及电子设备
CN115859765A (zh) * 2022-09-29 2023-03-28 中山大学 城市扩张的预测方法、装置、设备及存储介质
CN115859765B (zh) * 2022-09-29 2023-12-08 中山大学 城市扩张的预测方法、装置、设备及存储介质
CN115688588A (zh) * 2022-11-04 2023-02-03 自然资源部第一海洋研究所 一种基于改进xgb方法的海表面温度日变化振幅预测方法
CN116756522A (zh) * 2023-08-14 2023-09-15 中科三清科技有限公司 概率预报方法、装置、存储介质及电子设备
CN116756522B (zh) * 2023-08-14 2023-11-03 中科三清科技有限公司 概率预报方法、装置、存储介质及电子设备
CN117892638A (zh) * 2024-03-14 2024-04-16 河海大学 一种利用条件概率函数的干旱形成时间预测方法及系统
CN117892638B (zh) * 2024-03-14 2024-05-17 河海大学 一种利用条件概率函数的干旱形成时间预测方法及系统

Similar Documents

Publication Publication Date Title
CN113743013A (zh) 一种基于XGBoost气温预测数据修正的方法
CN111045117B (zh) 一种气候监测预测平台
CN105224960A (zh) 基于聚类算法的玉米种子高光谱图像分类识别模型更新方法
CN113919231A (zh) 基于时空图神经网络的pm2.5浓度时空变化预测方法及系统
CN113108918B (zh) 一种极轨气象卫星热红外遥感数据反演气温方法
CN108319772A (zh) 一种波浪长期数据的再分析方法
CN111192267A (zh) 一种基于unet网络的多源感知融合遥感图像分割方法及应用
CN110826689A (zh) 一种基于深度学习的预测县级单位时序gdp的方法
CN112215393A (zh) 基于自适应时空尺度选择的降水数值预报后处理订正方法
CN113505923A (zh) 一种地区电网短期负荷预测方法及系统
CN115544889A (zh) 基于深度学习的数值模式降水偏差校正方法
CN113536576A (zh) 一种数值预报产品距平积分动力统计订正方法和系统
CN113742927B (zh) 一种气象预报数据质量检测的方法
CN115526413A (zh) 一种基于全连接神经网络日最高气温的预报方法
CN101446828A (zh) 一种非线性过程质量预报方法
CN114692981A (zh) 基于Seq2Seq模型的中长期径流预报方法和系统
CN114330120A (zh) 一种基于深度神经网络预测24小时pm2.5浓度的方法
CN113984198A (zh) 一种基于卷积神经网络的短波辐射预测方法及系统
CN108614803A (zh) 一种气象数据质量控制方法及系统
CN113742929B (zh) 一种针对格点气象实况的数据质量评价方法
CN116565864A (zh) 一种基于pca-rbf算法的光伏发电功率预报方法
CN113108949B (zh) 一种基于模型融合的探空仪温度传感器误差预测方法
CN115238967A (zh) 一种结合云图和相邻电站集群的光伏功率预测方法及装置
CN115936242A (zh) 空气质量与交通状况的溯源关系数据获取方法及装置
CN114723166A (zh) 一种基于XGBoost模型的地表温度重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211203

WW01 Invention patent application withdrawn after publication