CN116306215A - 一种基于集成学习的降水预测方法及系统 - Google Patents

一种基于集成学习的降水预测方法及系统 Download PDF

Info

Publication number
CN116306215A
CN116306215A CN202211569847.2A CN202211569847A CN116306215A CN 116306215 A CN116306215 A CN 116306215A CN 202211569847 A CN202211569847 A CN 202211569847A CN 116306215 A CN116306215 A CN 116306215A
Authority
CN
China
Prior art keywords
precipitation
training
observation
value
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211569847.2A
Other languages
English (en)
Inventor
李欣艳
杨元建
张文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211569847.2A priority Critical patent/CN116306215A/zh
Publication of CN116306215A publication Critical patent/CN116306215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于集成学习的降水预测方法及系统,方法包括:获取需要降水预测时段和区域的预报因子,构建准时空同步的训练集和测试集;使用训练集通过相互交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,并对三种单一机器学习模型的定量降水估计结果进行线性回归得到三种单一机器学习模型的权重,对测试集的三种单一机器学习模型定量降水估计结果加权相加,得到基于集成学习的定量降水估计;将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测。本发明提高了降水预测的准确性和实用性。

Description

一种基于集成学习的降水预测方法及系统
技术领域
本发明属于降水预报技术领域,具体涉及一种基于集成学习的降水预测方法及系统。
背景技术
受西风系统和副热带季风的共同影响,东亚是全球雨季最长、雨量最充沛、暴雨频发的地区之一。因此,加强中国及其周边地区汛期降水监测方法研究至关重要,有助于提升大型暴雨灾害的预警及应急能力。
卫星观测降水不受地理环境条件限制,具有覆盖范围广,时空分辨率高的特点,利用卫星遥感光谱资料反演获得大范围、高质量的降水产品一直是卫星定量降水估计(Quantitative Precipitation Estimation,QPE)的热点和难点问题。风云四号卫星(FY-4)是中国第二代地球静止气象卫星,其上多通道扫描成像辐射仪(AdvancedGeostationary Radiation Imager,AGRI)具有从可见光至长波红外的14个探测波段,覆盖了可见光、短波红外、中波红外和长波红外等波段。然而,在提高天气监测和预报水平方面,目前的研究大多使用单一机器学习方法来进行卫星光谱遥感降水,存在过度学习和稳定性不足等问题,容易引发过度拟合现象,影响了模型的准确性和实用性。
发明内容
为解决现有技术中的不足,本发明提供一种基于集成学习的降水预测方法及系统,提高了降水预测的准确性和实用性。
为达到上述目的,本发明所采用的技术方案是:
第一方面,提供一种基于集成学习的降水预测方法,包括:获取需要降水预测时段和区域的预报因子,构建准时空同步的训练集和测试集;使用训练集通过相互交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,并对三种单一机器学习模型的定量降水估计结果进行线性回归得到三种单一机器学习模型的权重,对测试集的三种单一机器学习模型定量降水估计结果加权相加,得到基于集成学习的定量降水估计;将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测。
进一步地,所述获取需要降水预测时段和区域的预报因子,构建训练集和测试集,包括:获取1h时间分辨率的FY-4A光谱数据、云参数产品、ERA5再分析物理量资料、高密度自动站的降水观测值和数字高程数据,并通过线性插值,样条插值,双调和样条插值构建训练集和测试集,用于训练集成学习模型和定量降水估计,其中,FY-4A指风云四号A星。
进一步地,还包括:通过FY-4A光谱数据构造和降水强相关的组合通道信息,分别是风云四号A星多个不同的光谱通道两两相减构造的六个亮温差:T6.25-T10.7、T8.5-T10.7、T7.1-T12.0、T12.0-T10.7、T3.75L-T7.1和T3.75L-T10.7;亮度梯度CTTG;其中,亮度梯度CTTG的定义如下:
Figure SMS_1
其中,T代表10.7微米的光谱亮温,i和j代表像素点位置。
进一步地,所述通过线性插值,样条插值,双调和样条插值构建训练集和测试集,用于训练集成学习模型和定量降水估计,包括:基于FY-4A/AGRI、ERA5和DEM的空间分辨率的差异,对数据进行插值处理构造准时空同步的训练集和测试集;构建训练集的方法为根据高密度自动站的地理位置信息,对卫星观测数据进行0.01°×0.01°空间分辨率的样条插值,选择距离最近的四个点的ERA5数据和DEM数据进行线性插值;匹配上高密度自动站观测的逐小时降水量数据,用于模型训练;构造测试集的方法为根据卫星观测数据的地理位置信息,选择距离最近的四个点的ERA5数据和DEM数据进行线性插值,故测试集的空间分辨率为4km×4km;匹配上双调和样条插值的高密度自动站降水数据,用于评估集成学习模型和定量降水估计性能。
进一步地,通过五折交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,包括:确定随机森林和极度随机树的两个参数,分别是单个决策树使用特征的最大数量max_features和决策树的个数n_trees;max_features的数值小于输入的变量参数,max_features的取值为1,k/2,
Figure SMS_2
或log2(k)+1,k为模型输入的变量个数;决策树的个数n_trees的取值为500~800;因此,将n_trees设置为以500为首项,10为公差,800为末项的递增数列,以模型降水估计值和降水观测值的相关系数为评价指标,递增数列中,使相关系数最高的项为模型n_trees参数;相关系数的定义为:
Figure SMS_3
其中,Gi表示第i个观测站观测到的降水量;
Figure SMS_4
表示所有观测站观测到的降水量的平均值;Si表示QPE算法估计第i个格点的降水量;/>
Figure SMS_5
表示QPE算法估计的所有降水格点的降水量;n表示观测站的数量;确定XGBoost模型的五个参数,分别是弱评估器的数量n_estimators、学习率learning_rate、树的最大深度max_depth、损失函数的最低值gamma和正则化惩罚系数alpha;其中,设置弱评估器的数量n_estimators为训练得到的决策树的个数n_trees,learning_rate的取值为0.01~0.2,max_depth的取值为3~10,gamma的取值范围为0~0.3,alpha的取值范围为0~0.3;使用训练n_trees时同样的训练方法,对学习率learning_rate、树的最大深度max_depth、损失函数的最低值gamma和正则化惩罚系数alpha分别在有效取值范围内设置等差数列,以最优相关系数为评价指标分别训练,训练每个参数时,其余参数的值保持不变。
进一步地,将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测,包括:对于任意待分析像元X,定义其背景值为Xb,则再分析结果Xa可表示为
Xa=Xb+K(Yo-HXb) (3)
其中,Yo为待分析像元邻域内的Mn个观测值;H为观测算子;HXb表示观测值Yo对应的背景值;K为卡尔曼增益,用于量化邻近观测值对分析点的相对贡献,可表示为
K=PbHT(HPbHT+R)-1 (4)
其中,HT为H的转置矩阵;观测误差协方差矩阵R为对角矩阵,对角元素由对应产品的观测误差方差εo组成;背景误差协方差矩阵Pb为对称矩阵,可表示为
Figure SMS_6
其中,εb为背景误差方差;背景场和观测场的误差方差通过实测值进行估计;ρ(i,j)表示格点i和j之间的空间关联,采用高斯权重函数来近似拟合这种空间相关性:
Figure SMS_7
Figure SMS_8
其中,dx和dy分别代表数据点i、j空间距离dij在径向和纬向的正交分量,lx和ly表示相关性在空间上的关联距离。
第二方面,提供一种基于集成学习的降水预测系统,包括:数据获取模块,用于获取需要降水预测时段和区域的预报因子,构建训练集和测试集;降水估计模块,用于使用训练集通过相互交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,并对三种单一机器学习模型的定量降水估计结果进行线性回归得到三种单一机器学习模型的权重,对测试集的三种单一机器学习模型定量降水估计结果加权相加,得到基于集成学习的定量降水估计;融合模块,用于将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测。
与现有技术相比,本发明所达到的有益效果:
(1)本发明通过相互交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,并对三种单一机器学习模型的定量降水估计结果进行线性回归得到三种单一机器学习模型的权重,对测试集的三种单一机器学习模型定量降水估计结果加权相加,得到基于集成学习的定量降水估计;将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测;提高了降水预测的准确性和实用性;
(2)本发明通过使用的集成学习,将多个弱学习器组合成一个强学习器;保证了弱学习器的多样性,使得其得到的结果往往比单个学习器的效果好,将有利于减弱降水定量估计中的极端性和不确定性;此外,机器学习采用多通道及其组合信息输入,加上集成学习算法,可以弥补以往红外信息的单一缺陷;
(3)本发明通过结合高密度自动站和气象物理量场,建立的FY-4A QPE算法对东亚夏季降水的监测预报以及防灾减灾等具有重要的科学支撑和应用价值;相比而言,以往的研究只包含了云顶信息,本发明通过引入气象物理场,有利于提高基于卫星云参数反演降水能力。
附图说明
图1为本发明实施例提供的一种基于集成学习的降水预测方法的流程图(虚线表示集成学习模型训练路径,实线表示定量降水估计的实现路径);
图2为三种单一机器学习模型定量降水估计与高密度自动站降水观测的比较(黑色点划线为1:1线,色标为对数尺度下以0.5mm/h为间隔的出现频率;(a)为随机森林模型白天测试集降水估计;(b)为随机森林模型夜晚测试集降水估计;(c)为XGBoost模型白天测试集降水估计;(d)为XGBoost模型夜晚测试集降水估计;(e)为极度随机树模型白天测试集降水估计;(f)为极度随机树模型夜晚测试集降水估计);
图3为集成学习定量降水估计与高密度自动站降水观测的比较(黑色点划线为1:1线,色标为对数尺度下以0.5mm/h为间隔的出现频率;(a)为集成学习白天测试集降水估计;(b)为集成学习夜晚测试集降水估计);
图4为融合资料的定量降水估计结果与高密度自动站降水观测值的比较(黑色点划线为1:1线,色标为对数尺度下以0.5mm/h为间隔的出现频率)。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
如图1所示,一种基于集成学习的降水预测方法,即基于集成学习的风云四号静止卫星定量降水估计与多源降水融合方法,包括:获取需要降水预测时段和区域的预报因子,构建训练集和测试集;使用训练集通过相互交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,并对三种单一机器学习模型的定量降水估计结果进行线性回归得到三种单一机器学习模型的权重,对测试集的三种单一机器学习模型定量降水估计结果加权相加,得到基于集成学习的定量降水估计;将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测。
101、获取需要降水预测时段和区域的预报因子,构建准时空同步的训练集和测试集。获取需进行定量降水估计附近过去一段时间的1h时间分辨率的FY-4A(风云四号A星)光谱数据、云参数产品、ERA5(ECMWF Reanalysis v5)再分析物理量资料、高密度自动站的降水观测值、数字高程数据(Digital Elevation Model,DEM),本发明所涉及到的监测数据全部都是仪器监测自动上传和网站下载获取到的,无需通过人工监测获取。
本发明使用的所有降水预报因子如表1所示。
表1降水预报因子
Figure SMS_9
FY-4A光谱数据、云参数产品可以从风云卫星遥感数据服务网下载(http://satellite.nsmc.org.cn/PortalSite/Data/Satellite.aspx);
ERA5再分析物理量资料可以从欧洲中期天气预报中心网站下载(https://cds.climate.copernicus.eu/cdsapp#!/dataset/reanalysis-era5-single-levels?tab=form);
降水观测值可以由高密度自动站雨量计检测到后自动上传;
数字高程数据可以从地理空间数据云网站(http://www.gscloud.cn/sources/?cdataid=302&pdataid=10)下载。
另外,通过风云四号光谱数据可以构造和降水强相关的组合通道信息,它们分别是:T6.25-T10.7,T8.5-T10.7,T7.1-T12.0,T12.0-T10.7,T3.75L-T7.1,T3.75L-T10.7,CTTG。其中,前六个数据表示风云四号卫星多个不同的光谱通道两两相减构造的亮温差,CTTG为亮度梯度,它的定义如下:
Figure SMS_10
其中,T代表10.7微米的光谱亮温,i和j代表像素点位置。
102、分为白天和夜晚分别建立风云四号卫星和多源降水的准时空同步数据集;具体地,白天的数据集可以用来训练8时到16时的定量降水估计模型,夜晚的数据集可以用来训练其他时间段的定量降水估计模型。由于风云四号卫星可见光通道在夜晚无法识别有效信息,所以在夜晚数据集中剔除可见光通道信息,降低模型复杂度并避免过拟合。
FY-4A/AGRI的空间分辨率为4km×4km,ERA5再分析资料的空间分辨率为0.25°×0.25°,DEM的空间分辨率为1km×1km。由于其空间分辨率有所差异,故需对数据进行插值处理构造准时空同步的训练集和测试集。构建训练集的方法为根据高密度自动站的地理位置信息,对卫星观测数据进行0.01°×0.01°空间分辨率的样条插值,选择距离最近的四个点的ERA5数据和DEM数据进行线性插值。匹配上高密度自动站观测的逐小时降水量数据,用于模型训练。构造测试集方法为根据卫星观测数据的地理位置信息,选择距离最近的四个点的ERA5数据和DEM数据进行线性插值,故测试集的空间分辨率为4km×4km。匹配上双调和样条插值的高密度自动站降水数据,用于评估算法性能。
使用训练集通过相互交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,并对三种单一机器学习模型的定量降水估计结果进行线性回归得到三种单一机器学习模型的权重,对测试集的三种单一机器学习模型定量降水估计结果加权相加,得到基于集成学习的定量降水估计。
103、利用构造的准时空同步的训练集训练随机森林(Random Forest,RF)、XGBoost、极度随机树(Extra Tree,ET)等三种单一机器学习模型。
RF和ET均为基于随机决策树求平均值算法,建立这两种模型需要确定两个重要的参数,分别是单个决策树使用特征的最大数量max_features和决策树的个数n_trees。max_features的数值应该小于输入的变量参数,一般情况下,max_features的取值为1,k/2,
Figure SMS_11
或log2(k)+1等,k为模型输入的变量个数,本发明选取k/2作为树节点的输入变量数,即max_features=17。决策树的个数n_trees的取值在500~800时,是比较理想的分类。因此,将n_trees设置为以500为首项,10为公差,800为末项的递增数列,以模型降水估计值和降水观测值的相关系数为评价指标,认为数列中,使相关系数最高的项为模型n_trees参数。相关系数的定义为:
Figure SMS_12
其中,Gi表示第i个观测站观测到的降水量;
Figure SMS_13
表示所有观测站观测到的降水量的平均值;Si表示QPE算法估计第i个格点的降水量;/>
Figure SMS_14
表示QPE算法估计的所有降水格点的降水量;n表示观测站的数量;
XGBoost算法需观测要确定五个重要的参数,分别是弱评估器的数量n_estimators、学习率learning_rate、树的最大深度max_depth、损失函数的最低值gamma和正则化惩罚系数alpha。其中,弱评估器的数量n_estimators可以类比RF算法和ET算法中的决策树数目n_trees,故将n_estimators设为通过上文方法训练得到的n_trees;learning_rate的典型值为0.01~0.2,max_depth通常取值范围在3~10之间,gamma通常取值范围在0~0.3之间,alpha通常取值范围在0~0.3之间,使用上文中训练n_trees时同样的训练方法,对这四个参数分别在有效取值范围内设置等差数列,以最优相关系数为评价指标分别训练,训练每个参数时,其余参数的值保持不变。
104、将准时空同步的训练集输入三个单一机器学习模型中,得到三种降水估计结果,将三种降水估计结果和训练集中的降水观测值匹配,通过线性回归获得各单一机器学习权重。
105、将准时空同步的测试集输入三个单一机器学习模型中,得到三种降水估计结果,将三种降水估计结果和步骤104得到的单一机器学习权重线性相加,得到基于集成学习的风云四号卫星的定量降水估计。
将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测。
106、利用最优插值(Optimum Interpolation,OI),对基于集成学习的风云四号卫星的定量降水估计和高密度自动站的降水观测进行融合,得到基于集成学习的风云四号静止卫星定量降水估计与多源降水融合的降水估计。
最优插值分析首先需要一个初估场,基于集成学习的风云四号卫星的定量降水估计的空间覆盖率高,将其设为初估场。在网格内有站点分布的格点上,高密度自动站降水观测的精度高,将其作为观测值。最优插值的基本原理总结如下:对于任意待分析像元X,定义其背景值为Xb,则再分析结果Xa可表示为
Xa=Xb+K(Yo-HXb) (3)
其中,Yo为待分析像元邻域内的Mn个观测值;H为观测算子;HXb表示观测值Yo对应的背景值;K为卡尔曼增益,用于量化邻近观测值对分析点的相对贡献,可表示为
K=PbHT(HPbHT+R)-1 (4)
其中,HT为H的转置矩阵;观测误差协方差矩阵R为对角矩阵,对角元素由对应产品的观测误差方差εo组成;背景误差协方差矩阵Pb为对称矩阵,可表示为
Figure SMS_15
其中,εb为背景误差方差;背景场和观测场的误差方差通过实测值进行估计;ρ(i,j)表示格点i和j之间的空间关联,采用高斯权重函数来近似拟合这种空间相关性:
Figure SMS_16
Figure SMS_17
其中,dx和dy分别代表数据点i、j空间距离dij在径向和纬向的正交分量,lx和ly表示相关性在空间上的关联距离。
下面结合一个应用场景实例来对本方法进行进一步地详细说明:
选取2019年6月23日-24日发生在中国华南地区(109-118°E,20-26°N)的一次降水时间长,覆盖范围大的暴雨过程作为案例,阐述本方法流程。将FY-4A卫星光谱数据、云参数产品、ERA5再分析物理量资料与小时分辨率的地面高密度自动站观测的地面降水数据集进行时空匹配,使降水信息和卫星光谱信号具有较高的准时空同步性,建立了一种基于集成学习的风云四号静止卫星定量降水估计与多源降水融合方法,具体步骤如下:
步骤A:获取步骤101提到的研究区域研究时间段的所有数据,即中国华南地区(109-118°E,20-26°N)2019年6月23日-24日的1h时间分辨率的FY-4A光谱数据、云参数产品、ERA5再分析物理量资料、高密度自动站的降水观测值和DEM,按照步骤102的方法分别构建白天和夜晚的训练集和测试集。
步骤B:按照步骤103的方法训练单一机器学习模型,具体地,就是训练RF,XGBoost,ET等三个模型的最优参数。对于RF和ET参数,单个决策树使用特征的最大数量max_features为17,决策树的个数n_trees为550;对于XGBoost的参数,弱评估器的数量n_estimators为550、学习率learning_rate为0.1、树的最大深度max_depth为10、损失函数的最低值gamma为0.1和正则化惩罚系数alpha为0.3。
步骤C:使用训练集分别训练三个单一机器学习模型,并将测试集输入模型验证各单一机器学习模型的定量降水估计能力。它们的定量降水估计结果与高密度自动站降水观测值的比较如图2所示,相关系数均达到了0.65以上。
步骤D:对训练集的三种单一机器学习模型的定量降水估计结果进行线性回归,获得各单一机器学习的权重,与测试集的三种单一机器学习模型的输出结果线性相加,得到集成学习的定量降水估计。集成学习的定量降水估计结果与高密度自动站降水观测值的比较如图3所示,集成学习定量降水估计的相关系数在各单一机器学习模型的基础上有所提高。
步骤E:利用最优插值(Optimum Interpolation,OI),对基于集成学习的风云四号卫星的定量降水估计和高密度自动站的降水观测进行融合。融合资料的定量降水估计结果与高密度自动站降水观测值的比较如图4所示。
综上所述,本发明通过结合高密度自动站和气象物理量场,建立的基于集成学习的风云四号静止卫星定量降水估计与多源降水融合方法对东亚夏季降水的监测预报以及防灾减灾等具有重要的科学支撑和应用价值。相比而言,以往的研究只包含了云顶信息,本发明通过引入气象物理场,有利于提高基于卫星云参数反演降水能力。未来在实际应用中,可以用中国T639全球预报系统、欧洲中期天气预报中心或美国国家环境预报中心全球预报系统等气象预报场,结合实时的FY-4A卫星光谱信息和云参数产品实现对东亚范围内降水的大范围、动态连续监测,具有重要的示范意义和应用价值。
实施例二:
基于实施例一所述的一种基于集成学习的降水预测方法,本实施例提供一种基于集成学习的降水预测系统,包括:
数据获取模块,用于获取需要降水预测时段和区域的预报因子,构建训练集和测试集;
降水估计模块,用于使用训练集通过相互交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,并对三种单一机器学习模型的定量降水估计结果进行线性回归得到三种单一机器学习模型的权重,对测试集的三种单一机器学习模型定量降水估计结果加权相加,得到基于集成学习的定量降水估计;
融合模块,用于将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种基于集成学习的降水预测方法,其特征在于,包括:
获取需要降水预测时段和区域的预报因子,构建准时空同步的训练集和测试集;
使用训练集通过相互交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,并对三种单一机器学习模型的定量降水估计结果进行线性回归得到三种单一机器学习模型的权重,对测试集的三种单一机器学习模型定量降水估计结果加权相加,得到基于集成学习的定量降水估计;
将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测。
2.根据权利要求1所述的基于集成学习的降水预测方法,其特征在于,所述获取需要降水预测时段和区域的预报因子,构建训练集和测试集,包括:获取1h时间分辨率的FY-4A光谱数据、云参数产品、ERA5再分析物理量资料、高密度自动站的降水观测值和数字高程数据,并通过线性插值,样条插值,双调和样条插值构建训练集和测试集,用于训练集成学习模型和定量降水估计,其中,FY-4A指风云四号A星。
3.根据权利要求2所述的基于集成学习的降水预测方法,其特征在于,还包括:通过FY-4A光谱数据构造和降水强相关的组合通道信息,分别是风云四号A星多个不同的光谱通道两两相减构造的六个亮温差:T6.25-T10.7、T8.5-T10.7、T7.1-T12.0、T12.0-T10.7、T3.75L-T7.1和T3.75L-T10.7;亮度梯度CTTG;其中,亮度梯度CCTG的定义如下:
Figure FDA0003987541420000011
其中,T代表10.7微米的光谱亮温,i和j代表像素点位置。
4.根据权利要求2所述的基于集成学习的降水预测方法,其特征在于,所述通过线性插值,样条插值,双调和样条插值构建训练集和测试集,用于训练集成学习模型和定量降水估计,包括:
基于FY-4A/AGRI、ERA5和DEM的空间分辨率的差异,对数据进行插值处理构造准时空同步的训练集和测试集;
构建训练集的方法为根据高密度自动站的地理位置信息,对卫星观测数据进行0.01°×0.01°空间分辨率的样条插值,选择距离最近的四个点的ERA5数据和DEM数据进行线性插值;匹配上高密度自动站观测的逐小时降水量数据,用于模型训练;
构造测试集的方法为根据卫星观测数据的地理位置信息,选择距离最近的四个点的ERA5数据和DEM数据进行线性插值,故测试集的空间分辨率为4km×4km;匹配上双调和样条插值的高密度自动站降水数据,用于评估集成学习模型和定量降水估计性能。
5.根据权利要求1所述的基于集成学习的降水预测方法,其特征在于,通过五折交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,包括:
确定随机森林和极度随机树的两个参数,分别是单个决策树使用特征的最大数量max_features和决策树的个数n_trees;max_features的数值小于输入的变量参数,max_features的取值为1,k/2,
Figure FDA0003987541420000021
或log2(k)+1,k为模型输入的变量个数;决策树的个数n_trees的取值为500~800;因此,将n_trees设置为以500为首项,10为公差,800为末项的递增数列,以模型降水估计值和降水观测值的相关系数为评价指标,递增数列中,使相关系数最高的项为模型n_trees参数;相关系数的定义为:
Figure FDA0003987541420000022
其中,Gi表示第i个观测站观测到的降水量;
Figure FDA0003987541420000023
表示所有观测站观测到的降水量的平均值;Si表示QPE算法估计第i个格点的降水量;/>
Figure FDA0003987541420000024
表示QPE算法估计的所有降水格点的降水量;n表示观测站的数量;
确定XGBoost模型的五个参数,分别是弱评估器的数量n_estimators、学习率learning_rate、树的最大深度max_depth、损失函数的最低值gamma和正则化惩罚系数alpha;
其中,设置弱评估器的数量n_estimators为训练得到的决策树的个数n_trees,learning_rate的取值为0.01~0.2,max_depth的取值为3~10,gamma的取值范围为0~0.3,alpha的取值范围为0~0.3;使用训练n_trees时同样的训练方法,对学习率learning_rate、树的最大深度max_depth、损失函数的最低值gamma和正则化惩罚系数alpha分别在有效取值范围内设置等差数列,以最优相关系数为评价指标分别训练,训练每个参数时,其余参数的值保持不变。
6.根据权利要求1所述的基于集成学习的降水预测方法,其特征在于,将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测,包括:
对于任意待分析像元X,定义其背景值为Xb,则再分析结果Xa可表示为
Xa=Xb+K(Yo-HXb) (3)
其中,Yo为待分析像元邻域内的Mn个观测值;H为观测算子;HXb表示观测值Yo对应的背景值;K为卡尔曼增益,用于量化邻近观测值对分析点的相对贡献,可表示为
K=PbHT(HPbHT+R)-1 (4)
其中,HT为H的转置矩阵;观测误差协方差矩阵R为对角矩阵,对角元素由对应产品的观测误差方差εo组成;背景误差协方差矩阵Pb为对称矩阵,可表示为
Figure FDA0003987541420000031
其中,εb为背景误差方差;背景场和观测场的误差方差通过实测值进行估计;ρ(i,j)表示格点i和j之间的空间关联,采用高斯权重函数来近似拟合这种空间相关性:
Figure FDA0003987541420000041
Figure FDA0003987541420000042
其中,dx和dy分别代表数据点i、j空间距离dij在径向和纬向的正交分量,lx和ly表示相关性在空间上的关联距离。
7.一种基于集成学习的降水预测系统,其特征在于,包括:
数据获取模块,用于获取需要降水预测时段和区域的预报因子,构建训练集和测试集;
降水估计模块,用于使用训练集通过相互交叉验证分别训练随机森林、XGBoost和极度随机树三种单一机器学习模型,并对三种单一机器学习模型的定量降水估计结果进行线性回归得到三种单一机器学习模型的权重,对测试集的三种单一机器学习模型定量降水估计结果加权相加,得到基于集成学习的定量降水估计;
融合模块,用于将基于集成学习的定量降水估计设为初估场、通过双调和样条插值的同一时空分辨率下的高密度自动站降水观测设为观测值,对初估场和观测值进行最优插值融合,用于降水预测。
CN202211569847.2A 2022-12-08 2022-12-08 一种基于集成学习的降水预测方法及系统 Pending CN116306215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211569847.2A CN116306215A (zh) 2022-12-08 2022-12-08 一种基于集成学习的降水预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211569847.2A CN116306215A (zh) 2022-12-08 2022-12-08 一种基于集成学习的降水预测方法及系统

Publications (1)

Publication Number Publication Date
CN116306215A true CN116306215A (zh) 2023-06-23

Family

ID=86815566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211569847.2A Pending CN116306215A (zh) 2022-12-08 2022-12-08 一种基于集成学习的降水预测方法及系统

Country Status (1)

Country Link
CN (1) CN116306215A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349795A (zh) * 2023-12-04 2024-01-05 水利部交通运输部国家能源局南京水利科学研究院 基于ann和gwr耦合的降水融合方法和系统
CN117391221A (zh) * 2023-12-11 2024-01-12 南京邮电大学 基于机器学习的ndvi预测集成优化方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349795A (zh) * 2023-12-04 2024-01-05 水利部交通运输部国家能源局南京水利科学研究院 基于ann和gwr耦合的降水融合方法和系统
CN117349795B (zh) * 2023-12-04 2024-02-02 水利部交通运输部国家能源局南京水利科学研究院 基于ann和gwr耦合的降水融合方法和系统
CN117391221A (zh) * 2023-12-11 2024-01-12 南京邮电大学 基于机器学习的ndvi预测集成优化方法及系统
CN117391221B (zh) * 2023-12-11 2024-02-20 南京邮电大学 基于机器学习的ndvi预测集成优化方法及系统

Similar Documents

Publication Publication Date Title
Nipen et al. Adopting citizen observations in operational weather prediction
CN116306215A (zh) 一种基于集成学习的降水预测方法及系统
Chelbi et al. Solar radiation mapping using sunshine duration-based models and interpolation techniques: Application to Tunisia
CN110020462B (zh) 一种对气象数据进行融合处理并生成数值天气预报的方法
CN111027175B (zh) 基于耦合模型集成模拟的洪水对社会经济影响的评估方法
Wang et al. Surface solar radiation forecasts by advecting cloud physical properties derived from Meteosat Second Generation observations
Doubrawa et al. Satellite winds as a tool for offshore wind resource assessment: The Great Lakes Wind Atlas
Dangendorf et al. Characteristics of intra-, inter-annual and decadal sea-level variability and the role of meteorological forcing: the long record of Cuxhaven
Song et al. An improved surface soil moisture downscaling approach over cloudy areas based on geographically weighted regression
Diodato et al. How the aggressiveness of rainfalls in the Mediterranean lands is enhanced by climate change
Okamoto Assimilation of overcast cloudy infrared radiances of the geostationary MTSAT‐1R imager
CN111210483B (zh) 基于生成对抗网络和数值模式产品的仿真卫星云图生成方法
Moreno et al. Validation of daily global solar irradiation images from MSG over Spain
Ruiz-Arias et al. A topographic geostatistical approach for mapping monthly mean values of daily global solar radiation: A case study in southern Spain
Engerer et al. Himawari-8 enabled real-time distributed PV simulations for distribution networks
Yoo et al. Spatial downscaling of MODIS land surface temperature: Recent research trends, challenges, and future directions
Xie et al. Green-up of deciduous forest communities of northeastern North America in response to climate variation and climate change
Guèye et al. Weather regimes over Senegal during the summer monsoon season using self-organizing maps and hierarchical ascendant classification. Part I: synoptic time scale
Rincón et al. Bias correction of global irradiance modelled with weather and research forecasting model over Paraguay
Khare et al. Seasonal-based analysis of vegetation response to environmental variables in the mountainous forests of Western Himalaya using Landsat 8 data
Kumah et al. Near real-time estimation of high spatiotemporal resolution rainfall from cloud top properties of the MSG satellite and commercial microwave link rainfall intensities
Koenig et al. The MSG global instability indices product and its use as a nowcasting tool
CN111652126A (zh) 一种基于卫星云图的反演辐射方法
CN114490905A (zh) 一种晴空地表净长波辐射一体化反演方法及系统
CN113408111A (zh) 大气可降水量反演方法及系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination