CN113537600A - 一种全过程耦合机器学习的中长期降水预报建模方法 - Google Patents
一种全过程耦合机器学习的中长期降水预报建模方法 Download PDFInfo
- Publication number
- CN113537600A CN113537600A CN202110816680.4A CN202110816680A CN113537600A CN 113537600 A CN113537600 A CN 113537600A CN 202110816680 A CN202110816680 A CN 202110816680A CN 113537600 A CN113537600 A CN 113537600A
- Authority
- CN
- China
- Prior art keywords
- forecast
- model
- training
- period
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000010801 machine learning Methods 0.000 title claims abstract description 27
- 238000001556 precipitation Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 11
- 230000008030 elimination Effects 0.000 claims abstract description 8
- 238000003379 elimination reaction Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 62
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012795 verification Methods 0.000 claims description 22
- 238000004088 simulation Methods 0.000 claims description 19
- 238000007637 random forest analysis Methods 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000007717 exclusion Effects 0.000 claims description 3
- 238000013486 operation strategy Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims 4
- 238000011160 research Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种全过程耦合机器学习的中长期降水预报建模方法,其包括以下步骤:S1,数据处理:收集实测降水、130项气象‑气候指数等资料,并确定预报结构;S2,因子筛选:提出一种基于拉普拉斯分数‑递归特征消除的因子筛选方法,并得到预报因子集;S3,模型构建:构建多种机器学习模型,并采用上述预报结构与预报因子集求取多套子预报结果;S4,多模型融合:提出一种基于改进堆叠法的多模型融合技术,输出最终预报结果。本发明将机器学习理论的最新研究成果应用于中长期降水预报的各个环节,理论依据充分,实际应用合理,能有效提高月‑季‑年尺度降水预报的准确度与可靠度。
Description
技术领域
本发明涉及气象水文预报领域,具体涉及一种全过程耦合机器学习的中长期降水预报建模方法。
背景技术
中长期降水预报泛指预见期在月-季-年尺度,并给出逐时段降水总量的预报。精细化的中长期预报作为连接短中期天气预报与气候预估之间的桥梁,是实现水资源科学调配、提高水资源利用效率的基础性关键技术,对流域规划与管理、旱涝灾害的预警预测具有指导意义。同时,中长期降水预报因变化规律复杂、预报难度明显,处于天气-气候一体化预报中的预报缝隙,也是当前气象水文预报领域的研究重点和热点。
随着计算机技术的快速发展,基于大数据挖掘技术的机器学习方法因其泛化能力高、鲁棒性强,逐渐应用于中长期降水预报中。该类方法本质上建立输入数据与输出数据的黑箱模型,通过采用数学函数代替物理机制的方式,规避复杂的大气运动与水文循环过程,有效提高了预报范围与预报精度。目前的研究仍存在以下不足:基于机器学习的中长期降水预报建模方法主要分为预报因子筛选、预报模型构建、多模型结果融合三个环节,大多研究仅将机器学习应用于某个单一环节,而非全过程耦合研究。
发明内容
为了解决现有技术存在的不足,本发明提出一种全过程耦合机器学习的中长期降水预报建模方法,可显著提高预报的准确度与可靠度。
本发明采用的技术方案为:
一种全过程耦合机器学习的中长期降水预报建模方法,包括以下步骤:
S1、基础数据处理:收集流域内站点或格点的实测降水序列,收集130项气象-气候指数数据集作为初选预报因子集,根据预报预见期、因子滞后期等确定预报结构;
S2、预报因子筛选:提出一种基于拉普拉斯分数-递归特征消除的因子筛选方法,进而获取站点或格点降水在某一预见期下的最终预报因子集;
S3、预报模型构建:根据机器学习理论建模方法的理论差异,分别构建弹性网络回归、支持向量机、随机森林、极端梯度提升树、轻量梯度提升树模型,采用上述预报结构与预报因子集合获取五套预报结果;
S4、多模型结果融合:提出一种基于改进堆叠算法的多模型融合技术,重构预报结构并进行二次迭代训练,输出最终融合预报结果。
进一步地,步骤S1中:
所述130项气象-气候指数数据集为中国气象局国家气候中心发布,包括88项逐月大气环流指数、26项逐月海温指数以及16项逐月其他指数;
所述预报结构定义如下,将每个月第一天发布该月降水总量定义为预见期0个月(LD=0),发布下个月降水总量定义为预见期1个月(LD=1),以此类推。考虑到大尺度气象-气候指数的作用延迟性较长,本发明专利假定气象-气候指数数据集的作用滞后期(LG)为(LD+1)至(LD+12)个月。
进一步地,步骤S2中:
所述拉普拉斯分数定义如下,设初选预报因子集共有n个d维样本,首先利用k近邻法,k取5对样本进行聚类。若第i个样本xi是第j个样本xj的最邻近的k个样本之一,则两者为相邻,否则为不相邻,计算所有样本间的权重Sij:
式中,t为常数,取1;||xi-xj||为欧式距离。令fri为第i个样本的第r个特征,fr=[fr1,fr2,…,frn]T为第r个特征值构建的向量D,D为对角矩阵且满足D=diag(S1),可得到则fr的方差可表达为令L=D-S,S为权重矩阵,可得:
此时,第r个特征的拉普拉斯分数为:
所述递归特征消除是一种迭代运算策略,首先计算初选预报因子集中各个特征与降水序列的拉普拉斯分数,选择分数最小(相关度强、区分度高)的100个作为初始因子集进行迭代训练。每轮训练时,当在新因子集上表现的训练误差更小,或训练误差相当但包含的因子数更少时,就将新因子保留下来,否则移除若干权值系数小的因子,再基于新的因子集进行下一轮训练,直至达到所需的因子数量或迭代次数为止。
进一步地,步骤S3中:
所述弹性网络回归(ENR)采用结构损失最小化策略,是一种引入L1正则项与L2正则项的增强版多元回归模型;ENR兼具套索回归与岭回归的优点,是性能最优的线性回归模型,其缺点为对非线性数据泛化能力较弱,作为预报模型的对照组,检验其余模型的预报性能。
所述支持向量机(SVR)是一种基于统计学习理论的机器学习模型,采用结构风险最小化准则,求解凸二次规划问题;SVR形式上类似神经网络,输出中间节点的线性组合,每个节点对应一个支持向量。
所述随机森林(RF)是一种基于CART树的并行增强模型,一棵CART树即为一个子预报模型,RF首先大量训练CART树(10000棵),通过剪枝法简化子模型防止出现过拟合现象,并利用信息增益准则选择最佳分叉路线,采用自助采样法最大程度保证子预报模型的独立性,最后根据投票平均法输出最终的预报结果。
所述极端梯度提升树(XGB)是一种基于CART树的串行增强模型,与RF不同的是,XGB首先只训练一棵CART树,根据训练表现对样本分布进行调整,提高预测出错样本的关注度,再基于调整后的样本分布继续训练下一棵CART树,迭代训练直至达到子模型数量或前后两个子模型相同为止,最终将全部子模型加权输出。
所述轻量梯度提升树模型(LGB)是一种基于CART树的轻量化串行增强模型,与XGB相比,LGB包含梯度单侧采样法与互斥性特征合并法两种改进算法。
进一步地,步骤S4中,所述改进堆叠算法本质为一种两层学习模型,其包括以下子步骤:
S4.1、在第一层中,按照8:2的形式将完整数据集分为训练期和测试期两部分。在训练期,N个第一层模型(初级学习器)并行模拟,并采用p-LOOCV的方式对每一个初级学习器进行训练。p-LOOCV是指:假定训练期中包含M个样本,则将训练期划分为互斥的M个子集,每次用M-1个子集的并集作为训练集,余下的1个子集作为验证集,重复p次并将模拟结果取均值。采用p-LOOCV可得到M个子验证集,此时将M个子验证集构造为一个新的验证集,由此,最终可得到N个验证集。
S4.2、在第一层的测试期中,利用全部训练期样本再分别训练N个初级学习器,并以测试期样本对N个初级学习器进行测试,得到N个预测集。利用某种确定性预报的评价指标(如相对误差、纳什效率系数等),评估N个初级学习器在测试期的模拟技巧,并选出模拟技巧最佳的预报模型作为第二层模型(元学习器)。
S4.3、在第二层中,将S4.1中产生的N个验证集作为训练期的样本训练元学习器,并以测试期的样本进行元学习器的预测模拟与评估。同时,在第二层中为了避免过拟合现象的出现,仍然使用p-LOOCV训练数据,并通过数值模拟得到最终融合策略中各个子模型的权重。
本发明的有益效果为:
本发明提出的一种全过程耦合机器学习的中长期降水预报建模方法,充分考虑现有技术与方法存在的不足,将机器学习理论的最新研究成果应用于中长期降水预报中预报因子筛选、预报模型构建、多模型结果融合各个环节,理论依据充分,实际应用合理,能有效提高月-季-年尺度降水预报的准确度与可靠度。
附图说明
图1为本发明实施例一种全过程耦合机器学习的中长期降水预报建模方法的流程图;
图2为本发明实施例涉及的预报结构示意图;
图3为本发明实施例涉及的改进堆叠算法结构示意图;
图4为本发明实施例涉及的不同预见期(LD)下多模型的相似度评分(ACC)、准确度评分(MSSS)、预报等级评分(Pg)逐格点、逐月均值统计图。
具体实施方式
为使本发明的技术方案、优点效果更为清晰,以下结合附图对本发明作进一步的详细说明:
如图1所示,本发明实施例所提供的一种全过程耦合机器学习的中长期降水预报建模方法包括以下步骤:
S1、基础数据处理:收集流域内站点或格点的实测降水序列,收集130项气象-气候指数数据集作为初选预报因子集,根据预报预见期、因子滞后期等确定预报结构;
进一步地,S1中所述130项气象-气候指数数据集为中国气象局国家气候中心发布,包括88项逐月大气环流指数、26项逐月海温指数以及16项逐月其他指数;
S1中所述预报结构定义如下:将每个月第一天发布该月降水总量定义为预见期0个月(LD=0),发布下个月降水总量定义为预见期1个月(LD=1),以此类推。考虑到大尺度气象-气候指数的作用延迟性较长,本发明专利假定气象-气候指数数据集的作用滞后期(LG)为(LD+1)至(LD+12)个月。
实施例以我国逐月格点实测降水为实施对象,模拟时段为1982-2015年,空间分辨率0.5°×0.5°,共计3781个格点,由于逐月降水总量差异较大,在实际模拟时需分月处理。所述130项气象-气候指数数据集如表1所示,可在中国气象局国家气候中心下载。所述预报结构如图2所示,以1982年1月1日发布1982年1月至6月降水总量预报为例,此时的预见期分别为0个月(LD=0)至5个月(LD=5)。对于LD=0而言,初始预报因子数据集的作用滞后期(LG)为1至12个月,即数据集为1981年1月至1981年12月;对于LD=1而言,所用初始预报因子数据集的作用滞后期(LG)为2至13个月,即数据集为1980年12月至1981年11月,以此类推。且对于所有的预报结构而言,其初始预报因子数据集均为共计1560(12*130)组因子序列。
表1中国气象局国家气候中心提供的130项气象-气候指数数据集
S2、预报因子筛选:提出一种基于拉普拉斯分数-递归特征消除的因子筛选方法,进而获取站点或格点降水在某一预见期下的最终预报因子集;
进一步地,S2中所述拉普拉斯分数定义如下,设初选预报因子集共有n个d维样本,首先利用k近邻法(k取5)对样本进行聚类。若第i个样本xi是第j个样本xj的最邻近的k个样本之一,则两者为相邻,否则为不相邻,计算所有样本间的权重Sij:
式中,t为常数,取1;||xi-xj||为欧式距离。令fri为第i个样本的第r个特征,fr=[fr1,fr2,...,frn]T为第r个特征值构建的向量D,D为对角矩阵且满足D=diag(S1),可得到则fr的方差可表达为令L=D-S,S为权重矩阵,可得:
此时,第r个特征的拉普拉斯分数为:
S2中所述递归特征消除是一种迭代运算策略,首先计算初选预报因子集中各个特征与降水序列的拉普拉斯分数,选择分数最小(相关度强、区分度高)的100个作为初始因子集进行迭代训练。每轮训练时,当在新因子集上表现的训练误差更小,或训练误差相当但包含的因子数更少时,就将新因子保留下来,否则移除若干权值系数小的因子,再基于新的因子集进行下一轮训练,直至达到所需的因子数量或迭代次数为止。
实施例中1560个34维初选预报因子数据集,首先利用k近邻法(k取5)进行聚类,计算相应权重矩阵与拉普拉斯分数,选取拉普拉斯分数最小的100个作为初始因子集,利用递归特征消除策略进行迭代训练,直至达到N个最终预报因子集(N取15)或M次迭代为止(M取10000)。
S3、预报模型构建:根据机器学习理论建模方法的理论差异,分别构建弹性网络回归、支持向量机、随机森林、极端梯度提升树、轻量梯度提升树模型,采用上述预报结构与预报因子集合获取五套预报结果;
进一步地,S3中所述弹性网络回归(ENR)采用结构损失最小化策略,是一种引入L1正则项与L2正则项的增强版多元回归模型。ENR兼具套索回归与岭回归的优点,是性能最优的线性回归模型,其缺点为对非线性数据泛化能力较弱,作为预报模型的对照组,检验其余模型的预报性能。
S3中所述支持向量机(SVR)是一种基于统计学习理论的机器学习模型,采用结构风险最小化准则,求解凸二次规划问题。SVR形式上类似神经网络,输出中间节点的线性组合,每个节点对应一个支持向量。
S3中所述随机森林(RF)是一种基于CART树的并行增强模型。一棵CART树即为一个子预报模型,RF首先大量训练CART树(10000棵),通过剪枝法简化子模型防止出现过拟合现象,并利用信息增益准则选择最佳分叉路线,采用自助采样法最大程度保证子预报模型的独立性,最后根据投票平均法输出最终的预报结果。
S3中所述极端梯度提升树(XGB)是一种基于CART树的串行增强模型。与RF不同的是,XGB首先只训练一棵CART树,根据训练表现对样本分布进行调整,提高预测出错样本的关注度,再基于调整后的样本分布继续训练下一棵CART树,迭代训练直至达到子模型数量或前后两个子模型相同为止,最终将全部子模型加权输出。
S3中所述轻量梯度提升树模型(LGB)是一种基于CART树的轻量化串行增强模型,与XGB相比,LGB包含梯度单侧采样法与互斥性特征合并法两种改进算法,具有内存消耗小、训练效率高、在并行计算与高维数据中扩展性强的特点。
实施例分别构建弹性网络回归(ENR)、支持向量机(SVR)、随机森林(RF)、极端梯度提升树(XGB)、轻量梯度提升树(LGB)五个子预报模型,采用p-LOOCV的方式对每一格点、每一年、每一月进行模拟,输出子预报结果。
S4、多模型结果融合:提出一种基于改进堆叠算法的多模型融合技术,重构预报结构并进行二次迭代训练,输出最终融合预报结果。
进一步地,S4中所述改进堆叠算法本质为一种两层学习模型,其包含以下步骤:
S4.1、在第一层中,按照8:2的形式将完整数据集分为训练期和测试期两部分。在训练期,N个第一层模型(初级学习器)并行模拟,并采用p-LOOCV的方式对每一个初级学习器进行训练。p-LOOCV是指:假定训练期中包含M个样本,则将训练期划分为互斥的M个子集,每次用M-1个子集的并集作为训练集,余下的1个子集作为验证集,重复p次并将模拟结果取均值。采用p-LOOCV可得到M个子验证集,此时将M个子验证集构造为一个新的验证集,由此,最终可得到N个验证集。
S4.2、在第一层的测试期中,利用全部训练期样本再分别训练N个初级学习器,并以测试期样本对N个初级学习器进行测试,得到N个预测集。利用某种确定性预报的评价指标(如相对误差、纳什效率系数等),评估N个初级学习器在测试期的模拟技巧,并选出模拟技巧最佳的预报模型作为第二层模型(元学习器)。
S4.3:在第二层中,将S4.1中产生的N个验证集作为训练期的样本训练元学习器,并以测试期的样本进行元学习器的预测模拟与评估。同时,在第二层中为了避免过拟合现象的出现,仍然使用p-LOOCV训练数据,并通过数值模拟得到最终融合策略中各个子模型的权重。
实施例中改进堆叠算法流程图如图3所示,在第一层中,将34年完整数据集分为30年训练期样本及4年测试期样本。在训练期,对5个子预报模型并行模拟,分别采用p-LOOCV迭代训练30次,每次以29个子集的并集作为训练集,余下1个子集作为验证集,并将30个子验证集通过重复10次取均值的方式,形成5个验证集。在测试期,利用4年样本分别训练5个子预报模型,并得到5个预测集,利用相对误差指标,评估子预报模型在测试期的模拟性能,并选出模拟技巧最佳的预报模型(XGB模型)作为第二层中的元学习器。将第一层中产生的5个验证集作为训练期的样本,训练第二层中的元学习器,并融合输出最终预报结果。
中长期降水预报技巧评价通常包括相似度、准确度与预报等级三个方面,本发明专利分别采用距平相关系数(ACC)、平均方差技巧评分(MSSS)、分级检验评分(Pg)对5个子模型独立预报结果(ENR、SVR、RF、XGB、LGB)、改进堆叠算法融合结果(MSES)、常作为多模型融合技术的贝叶斯模型平均法结果(BMA)进行对比分析。图4所示为三个指标评分,由逐格点、逐月计算得到:(a)为ACC评分,反映了预报值与实测值空间性的相似程度,越接近于1表明技巧越高,通常取0作为有预报意义的标准;(b)为MSSS评分,反映了实际预报误差与气候学预报误差的比值,越接近于1表明技巧越高,通常取0作为有预报意义的标准;(c)为Pg评分,反映了预测值与实测值降水距平百分率的量级接近程度,越接近100表明技巧越高,通常取50作为有预报意义的标准。每一个子图的横坐标为各个预见期(LD=0至LD=5),纵坐标为该预见期下的指标评分。不难发现,MSES在所有预见期下均展现最佳预报技巧。本发明充分考虑现有技术与方法存在的不足,将机器学习理论的最新研究成果应用于中长期降水预报中预报因子筛选、预报模型构建、多模型结果融合各个环节,理论依据充分,实际应用合理,能有效提高月-季-年尺度降水预报的准确度与可靠度。
上述实施例以及实施例中的具体参数仅是为了清楚表述发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所做的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (5)
1.一种全过程耦合机器学习的中长期降水预报建模方法,其特征在于:它包括如下步骤:
S1、基础数据处理:收集流域内站点或格点的实测降水序列,收集130项气象-气候指数数据集作为初选预报因子集,根据预报预见期、因子滞后期等确定预报结构;
S2、预报因子筛选:提出一种基于拉普拉斯分数-递归特征消除的因子筛选方法,进而获取站点或格点降水在某一预见期下的最终预报因子集;
S3、预报模型构建:根据机器学习理论建模方法的理论差异,分别构建弹性网络回归、支持向量机、随机森林、极端梯度提升树、轻量梯度提升树模型,采用上述预报结构与预报因子集合获取五套预报结果;
S4、多模型结果融合:提出一种基于改进堆叠算法的多模型融合技术,重构预报结构并进行二次迭代训练,输出最终融合预报结果。
2.根据权利要求1所述的全过程耦合机器学习的中长期降水预报建模方法,其特征在于:在步骤S1中:
所述130项气象-气候指数数据集为中国气象局国家气候中心发布,包括88项逐月大气环流指数、26项逐月海温指数以及16项逐月其他指数;
所述预报结构定义为:将每个月第一天发布该月降水总量定义为预见期0个月,即LD=0,发布下个月降水总量定义为预见期1个月,即LD=1,以此类推;考虑到大尺度气象-气候指数的作用延迟性较长,假定气象-气候指数数据集的作用滞后期LG为LD+1至LD+12个月。
3.根据权利要求1所述的全过程耦合机器学习的中长期降水预报建模方法,其特征在于:在步骤S2中:
所述拉普拉斯分数定义为:设初选预报因子集共有n个d维样本,首先利用k近邻法,k取5,对样本进行聚类;若第i个样本xi是第j个样本xj的最邻近的k个样本之一,则两者为相邻,否则为不相邻,计算所有样本间的权重Sij:
式中,t为常数,取1;||xi-xj||为欧式距离;令fri为第i个样本的第r个特征,fr=[fr1,fr2,…,frn]T为第r个特征值构建的向量D,D为对角矩阵且满足D=diag(S1),可得到则fr的方差可表达为令L=D-S,S为权重矩阵,可得:
此时,第r个特征的拉普拉斯分数为:
所述递归特征消除是一种迭代运算策略,首先计算初选预报因子集中各个特征与降水序列的拉普拉斯分数,选择分数最小(相关度强、区分度高)的100个作为初始因子集进行迭代训练;每轮训练时,当在新因子集上表现的训练误差更小,或训练误差相当但包含的因子数更少时,就将新因子保留下来,否则移除若干权值系数小的因子,再基于新的因子集进行下一轮训练,直至达到所需的因子数量或迭代次数为止。
4.根据权利要求1所述的全过程耦合机器学习的中长期降水预报建模方法,其特征在于:在步骤S3中:
所述弹性网络回归ENR采用结构损失最小化策略,是一种引入L1正则项与L2正则项的增强版多元回归模型;作为预报模型的对照组,检验其余模型的预报性能;
所述支持向量机SVR是一种基于统计学习理论的机器学习模型,采用结构风险最小化准则,求解凸二次规划问题;SVR形式上类似神经网络,输出中间节点的线性组合,每个节点对应一个支持向量;
所述随机森林RF是一种基于CART树的并行增强模型,一棵CART树即为一个子预报模型,RF首先大量训练CART树,CART树为10000棵,通过剪枝法简化子模型防止出现过拟合现象,并利用信息增益准则选择最佳分叉路线,采用自助采样法最大程度保证子预报模型的独立性,最后根据投票平均法输出最终的预报结果;
所述极端梯度提升树XGB是一种基于CART树的串行增强模型,与RF不同的是,XGB首先只训练一棵CART树,根据训练表现对样本分布进行调整,提高预测出错样本的关注度,再基于调整后的样本分布继续训练下一棵CART树,迭代训练直至达到子模型数量或前后两个子模型相同为止,最终将全部子模型加权输出;
所述轻量梯度提升树模型LGB是一种基于CART树的轻量化串行增强模型,与XGB相比,LGB包含梯度单侧采样法与互斥性特征合并法两种改进算法。
5.根据权利要求1所述的全过程耦合机器学习的中长期降水预报建模方法,其特征在于:步骤S4中所述改进堆叠算法本质为一种两层学习模型,其包括以下子步骤:
S4.1、在第一层中,按照8:2的形式将完整数据集分为训练期和测试期两部分,在训练期,并行模拟N个第一层模型,即初级学习器,并采用p-LOOCV的方式对每一个初级学习器进行训练;p-LOOCV是指:假定训练期中包含M个样本,则将训练期划分为互斥的M个子集,每次用M-1个子集的并集作为训练集,余下的1个子集作为验证集,重复p次并将模拟结果取均值;采用p-LOOCV得到M个子验证集,此时将M个子验证集构造为一个新的验证集,由此,最终得到N个验证集;
S4.2、在第一层的测试期中,利用全部训练期样本再分别训练N个初级学习器,并以测试期样本对N个初级学习器进行测试,得到N个预测集;利用某种确定性预报的评价指标(如相对误差、纳什效率系数等),评估N个初级学习器在测试期的模拟技巧,并选出模拟技巧最佳的预报模型作为第二层模型即元学习器;
S4.3、在第二层中,将S4.1中产生的N个验证集作为训练期的样本训练元学习器,并以测试期的样本进行元学习器的预测模拟与评估;同时,在第二层中为了避免过拟合现象的出现,仍然使用p-LOOCV训练数据,并通过数值模拟得到最终融合策略中各个子模型的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110816680.4A CN113537600B (zh) | 2021-07-20 | 2021-07-20 | 一种全过程耦合机器学习的中长期降水预报建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110816680.4A CN113537600B (zh) | 2021-07-20 | 2021-07-20 | 一种全过程耦合机器学习的中长期降水预报建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537600A true CN113537600A (zh) | 2021-10-22 |
CN113537600B CN113537600B (zh) | 2024-04-02 |
Family
ID=78100326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110816680.4A Active CN113537600B (zh) | 2021-07-20 | 2021-07-20 | 一种全过程耦合机器学习的中长期降水预报建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537600B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118640A (zh) * | 2022-01-29 | 2022-03-01 | 中国长江三峡集团有限公司 | 长期降水预测模型构建方法、长期降水预测方法及装置 |
CN115049443A (zh) * | 2022-08-15 | 2022-09-13 | 国能日新科技股份有限公司 | 基于多尺度特征的自适应回归气象中长期优化方法及系统 |
CN115796000A (zh) * | 2022-10-26 | 2023-03-14 | 中国水利水电科学研究院 | 一种基于堆叠机器学习算法的短期气温预报集合订正方法 |
CN116341391A (zh) * | 2023-05-24 | 2023-06-27 | 华东交通大学 | 基于STPM-XGBoost模型的降水预测方法 |
WO2023146926A1 (en) * | 2022-01-27 | 2023-08-03 | Reorg Research, Inc. | Automatic computer prediction of enterprise events |
CN116611588A (zh) * | 2023-07-19 | 2023-08-18 | 水利部水利水电规划设计总院 | 降水多驱动因子分段率定优化预报方法及系统 |
CN116881624A (zh) * | 2023-09-06 | 2023-10-13 | 北京师范大学 | 复合型极端事件预报方法、装置、计算机设备和存储介质 |
CN117558452A (zh) * | 2024-01-11 | 2024-02-13 | 北京大学人民医院 | Mods风险评估模型构建方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014075108A2 (en) * | 2012-11-09 | 2014-05-15 | The Trustees Of Columbia University In The City Of New York | Forecasting system using machine learning and ensemble methods |
CN107292098A (zh) * | 2017-06-15 | 2017-10-24 | 河海大学 | 基于前期气象因子与数据挖掘技术的中长期径流预报方法 |
CN112380778A (zh) * | 2020-11-26 | 2021-02-19 | 华南理工大学 | 一种基于海温的气象干旱预报方法 |
CN112801357A (zh) * | 2021-01-21 | 2021-05-14 | 长江慧控科技(武汉)有限公司 | 日照辐射量预测方法、装置、设备及存储介质 |
CN112906298A (zh) * | 2021-02-05 | 2021-06-04 | 重庆邮电大学 | 一种基于机器学习的蓝莓产量预测方法 |
-
2021
- 2021-07-20 CN CN202110816680.4A patent/CN113537600B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014075108A2 (en) * | 2012-11-09 | 2014-05-15 | The Trustees Of Columbia University In The City Of New York | Forecasting system using machine learning and ensemble methods |
CN107292098A (zh) * | 2017-06-15 | 2017-10-24 | 河海大学 | 基于前期气象因子与数据挖掘技术的中长期径流预报方法 |
CN112380778A (zh) * | 2020-11-26 | 2021-02-19 | 华南理工大学 | 一种基于海温的气象干旱预报方法 |
CN112801357A (zh) * | 2021-01-21 | 2021-05-14 | 长江慧控科技(武汉)有限公司 | 日照辐射量预测方法、装置、设备及存储介质 |
CN112906298A (zh) * | 2021-02-05 | 2021-06-04 | 重庆邮电大学 | 一种基于机器学习的蓝莓产量预测方法 |
Non-Patent Citations (1)
Title |
---|
许斌;杨凤根;郦于杰;: "两类集成学习算法在中长期径流预报中的应用", 水力发电, no. 04 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023146926A1 (en) * | 2022-01-27 | 2023-08-03 | Reorg Research, Inc. | Automatic computer prediction of enterprise events |
GB2615205A (en) * | 2022-01-29 | 2023-08-02 | China Three Gorges Corp | Long term precipitation prediction model establishing method, and long-term precipitation prediction method and apparatus |
WO2023284887A1 (zh) * | 2022-01-29 | 2023-01-19 | 中国长江三峡集团有限公司 | 长期降水预测模型构建方法、长期降水预测方法及装置 |
CN114118640A (zh) * | 2022-01-29 | 2022-03-01 | 中国长江三峡集团有限公司 | 长期降水预测模型构建方法、长期降水预测方法及装置 |
CN115049443A (zh) * | 2022-08-15 | 2022-09-13 | 国能日新科技股份有限公司 | 基于多尺度特征的自适应回归气象中长期优化方法及系统 |
CN115049443B (zh) * | 2022-08-15 | 2022-10-28 | 国能日新科技股份有限公司 | 基于多尺度特征的自适应回归气象中长期优化方法及系统 |
CN115796000A (zh) * | 2022-10-26 | 2023-03-14 | 中国水利水电科学研究院 | 一种基于堆叠机器学习算法的短期气温预报集合订正方法 |
CN115796000B (zh) * | 2022-10-26 | 2023-06-20 | 中国水利水电科学研究院 | 一种基于堆叠机器学习算法的短期气温预报集合订正方法 |
CN116341391A (zh) * | 2023-05-24 | 2023-06-27 | 华东交通大学 | 基于STPM-XGBoost模型的降水预测方法 |
CN116341391B (zh) * | 2023-05-24 | 2023-08-04 | 华东交通大学 | 基于STPM-XGBoost模型的降水预测方法 |
CN116611588A (zh) * | 2023-07-19 | 2023-08-18 | 水利部水利水电规划设计总院 | 降水多驱动因子分段率定优化预报方法及系统 |
CN116611588B (zh) * | 2023-07-19 | 2023-09-22 | 水利部水利水电规划设计总院 | 降水多驱动因子分段率定优化预报方法及系统 |
CN116881624A (zh) * | 2023-09-06 | 2023-10-13 | 北京师范大学 | 复合型极端事件预报方法、装置、计算机设备和存储介质 |
CN116881624B (zh) * | 2023-09-06 | 2023-11-17 | 北京师范大学 | 复合型极端事件预报方法、装置、计算机设备和存储介质 |
CN117558452A (zh) * | 2024-01-11 | 2024-02-13 | 北京大学人民医院 | Mods风险评估模型构建方法、装置、设备及介质 |
CN117558452B (zh) * | 2024-01-11 | 2024-03-26 | 北京大学人民医院 | Mods风险评估模型构建方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113537600B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113537600B (zh) | 一种全过程耦合机器学习的中长期降水预报建模方法 | |
CN109142171B (zh) | 基于特征扩张的融合神经网络的城市pm10浓度预测方法 | |
Cannon | A flexible nonlinear modelling framework for nonstationary generalized extreme value analysis in hydroclimatology | |
Beccali et al. | Forecasting daily urban electric load profiles using artificial neural networks | |
CN111665575B (zh) | 一种基于统计动力的中长期降雨分级耦合预报方法及系统 | |
CN108009674A (zh) | 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法 | |
CN111861013B (zh) | 一种电力负荷预测方法及装置 | |
CN112288164B (zh) | 一种计及空间相关性和修正数值天气预报的风功率组合预测方法 | |
Zhou et al. | Urban expansion simulation and development-oriented zoning of rapidly urbanising areas: A case study of Hangzhou | |
CN111461453A (zh) | 一种基于多模型组合的中长期径流集合预报方法 | |
CN113537469B (zh) | 一种基于LSTM网络和Attention机制的城市需水预测方法 | |
CN113705877A (zh) | 基于深度学习模型的实时月径流预报方法 | |
CN115374995A (zh) | 一种分布式光伏、小风电场站功率预测方法 | |
CN112232561A (zh) | 基于约束并行lstm分位数回归的电力负荷概率预测方法 | |
CN112396152A (zh) | 一种基于cs-lstm的洪水预报方法 | |
CN103279672B (zh) | 基于噪声模型支持向量回归技术的短期风速预报方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN115600729A (zh) | 一种考虑多属性网格电网负荷预测方法 | |
Kajbaf et al. | Temporal downscaling of precipitation from climate model projections using machine learning | |
CN115759389A (zh) | 基于天气类型的相似日组合策略的日前光伏功率预测方法 | |
CN114897264A (zh) | 一种基于迁移学习的小样本场景下光伏出力区间预测方法 | |
CN114372631A (zh) | 一种基于小样本学习和lstm的缺资料地区径流预测方法 | |
Bouallègue et al. | Statistical Modeling of 2-m Temperature and 10-m Wind Speed Forecast Errors | |
Hu et al. | Impacts of building load dispersion level on its load forecasting accuracy: Data or algorithms? Importance of reliability and interpretability in machine learning | |
Abdelaziz et al. | Convolutional Neural Network With Genetic Algorithm for Predicting Energy Consumption in Public Buildings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 310002, No. 66, Funing lane, Shangcheng District, Zhejiang, Hangzhou Applicant after: Zhejiang water resources and Hydropower Survey and Design Institute Co.,Ltd. Address before: 310002, No. 66, Funing lane, Shangcheng District, Zhejiang, Hangzhou Applicant before: ZHEJIANG DESIGN INSTITUTE OF WATER CONSERVANCY & HYDROELECTRIC POWER |
|
GR01 | Patent grant | ||
GR01 | Patent grant |