CN113537600A

CN113537600A - 一种全过程耦合机器学习的中长期降水预报建模方法

Info

Publication number: CN113537600A
Application number: CN202110816680.4A
Authority: CN
Inventors: 郦于杰; 许继良; 张晓鹏; 周芬; 李博; 侯云青
Original assignee: Zhejiang Design Institute of Water Conservancy and Hydroelectric Power
Current assignee: Zhejiang Design Institute of Water Conservancy and Hydroelectric Power
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-22
Anticipated expiration: 2041-07-20
Also published as: CN113537600B

Abstract

本发明公开了一种全过程耦合机器学习的中长期降水预报建模方法，其包括以下步骤：S1，数据处理：收集实测降水、130项气象‑气候指数等资料，并确定预报结构；S2，因子筛选：提出一种基于拉普拉斯分数‑递归特征消除的因子筛选方法，并得到预报因子集；S3，模型构建：构建多种机器学习模型，并采用上述预报结构与预报因子集求取多套子预报结果；S4，多模型融合：提出一种基于改进堆叠法的多模型融合技术，输出最终预报结果。本发明将机器学习理论的最新研究成果应用于中长期降水预报的各个环节，理论依据充分，实际应用合理，能有效提高月‑季‑年尺度降水预报的准确度与可靠度。

Description

一种全过程耦合机器学习的中长期降水预报建模方法

技术领域

本发明涉及气象水文预报领域，具体涉及一种全过程耦合机器学习的中长期降水预报建模方法。

背景技术

中长期降水预报泛指预见期在月-季-年尺度，并给出逐时段降水总量的预报。精细化的中长期预报作为连接短中期天气预报与气候预估之间的桥梁，是实现水资源科学调配、提高水资源利用效率的基础性关键技术，对流域规划与管理、旱涝灾害的预警预测具有指导意义。同时，中长期降水预报因变化规律复杂、预报难度明显，处于天气-气候一体化预报中的预报缝隙，也是当前气象水文预报领域的研究重点和热点。

随着计算机技术的快速发展，基于大数据挖掘技术的机器学习方法因其泛化能力高、鲁棒性强，逐渐应用于中长期降水预报中。该类方法本质上建立输入数据与输出数据的黑箱模型，通过采用数学函数代替物理机制的方式，规避复杂的大气运动与水文循环过程，有效提高了预报范围与预报精度。目前的研究仍存在以下不足：基于机器学习的中长期降水预报建模方法主要分为预报因子筛选、预报模型构建、多模型结果融合三个环节，大多研究仅将机器学习应用于某个单一环节，而非全过程耦合研究。

发明内容

为了解决现有技术存在的不足，本发明提出一种全过程耦合机器学习的中长期降水预报建模方法，可显著提高预报的准确度与可靠度。

本发明采用的技术方案为：

一种全过程耦合机器学习的中长期降水预报建模方法，包括以下步骤：

S1、基础数据处理：收集流域内站点或格点的实测降水序列，收集130项气象-气候指数数据集作为初选预报因子集，根据预报预见期、因子滞后期等确定预报结构；

S2、预报因子筛选：提出一种基于拉普拉斯分数-递归特征消除的因子筛选方法，进而获取站点或格点降水在某一预见期下的最终预报因子集；

S3、预报模型构建：根据机器学习理论建模方法的理论差异，分别构建弹性网络回归、支持向量机、随机森林、极端梯度提升树、轻量梯度提升树模型，采用上述预报结构与预报因子集合获取五套预报结果；

S4、多模型结果融合：提出一种基于改进堆叠算法的多模型融合技术，重构预报结构并进行二次迭代训练，输出最终融合预报结果。

进一步地，步骤S1中：

所述130项气象-气候指数数据集为中国气象局国家气候中心发布，包括88项逐月大气环流指数、26项逐月海温指数以及16项逐月其他指数；

所述预报结构定义如下，将每个月第一天发布该月降水总量定义为预见期0个月(LD＝0)，发布下个月降水总量定义为预见期1个月(LD＝1)，以此类推。考虑到大尺度气象-气候指数的作用延迟性较长，本发明专利假定气象-气候指数数据集的作用滞后期(LG)为(LD+1)至(LD+12)个月。

进一步地，步骤S2中：

所述拉普拉斯分数定义如下，设初选预报因子集共有n个d维样本，首先利用k近邻法，k取5对样本进行聚类。若第i个样本x_i是第j个样本x_j的最邻近的k个样本之一，则两者为相邻，否则为不相邻，计算所有样本间的权重S_ij：

式中，t为常数，取1；||x_i-x_j||为欧式距离。令f_ri为第i个样本的第r个特征，f_r＝[f_r1,f_r2,…,f_rn]^T为第r个特征值构建的向量D，D为对角矩阵且满足D＝diag(S1)，

可得到

则f_r的方差可表达为

令L＝D-S，S为权重矩阵，可得：

此时，第r个特征的拉普拉斯分数为：

所述递归特征消除是一种迭代运算策略，首先计算初选预报因子集中各个特征与降水序列的拉普拉斯分数，选择分数最小(相关度强、区分度高)的100个作为初始因子集进行迭代训练。每轮训练时，当在新因子集上表现的训练误差更小，或训练误差相当但包含的因子数更少时，就将新因子保留下来，否则移除若干权值系数小的因子，再基于新的因子集进行下一轮训练，直至达到所需的因子数量或迭代次数为止。

进一步地，步骤S3中：

所述弹性网络回归(ENR)采用结构损失最小化策略，是一种引入L1正则项与L2正则项的增强版多元回归模型；ENR兼具套索回归与岭回归的优点，是性能最优的线性回归模型，其缺点为对非线性数据泛化能力较弱，作为预报模型的对照组，检验其余模型的预报性能。

所述支持向量机(SVR)是一种基于统计学习理论的机器学习模型，采用结构风险最小化准则，求解凸二次规划问题；SVR形式上类似神经网络，输出中间节点的线性组合，每个节点对应一个支持向量。

所述随机森林(RF)是一种基于CART树的并行增强模型，一棵CART树即为一个子预报模型，RF首先大量训练CART树(10000棵)，通过剪枝法简化子模型防止出现过拟合现象，并利用信息增益准则选择最佳分叉路线，采用自助采样法最大程度保证子预报模型的独立性，最后根据投票平均法输出最终的预报结果。

所述极端梯度提升树(XGB)是一种基于CART树的串行增强模型，与RF不同的是，XGB首先只训练一棵CART树，根据训练表现对样本分布进行调整，提高预测出错样本的关注度，再基于调整后的样本分布继续训练下一棵CART树，迭代训练直至达到子模型数量或前后两个子模型相同为止，最终将全部子模型加权输出。

所述轻量梯度提升树模型(LGB)是一种基于CART树的轻量化串行增强模型，与XGB相比，LGB包含梯度单侧采样法与互斥性特征合并法两种改进算法。

进一步地，步骤S4中，所述改进堆叠算法本质为一种两层学习模型，其包括以下子步骤：

S4.1、在第一层中，按照8:2的形式将完整数据集分为训练期和测试期两部分。在训练期，N个第一层模型(初级学习器)并行模拟，并采用p-LOOCV的方式对每一个初级学习器进行训练。p-LOOCV是指：假定训练期中包含M个样本，则将训练期划分为互斥的M个子集，每次用M-1个子集的并集作为训练集，余下的1个子集作为验证集，重复p次并将模拟结果取均值。采用p-LOOCV可得到M个子验证集，此时将M个子验证集构造为一个新的验证集，由此，最终可得到N个验证集。

S4.2、在第一层的测试期中，利用全部训练期样本再分别训练N个初级学习器，并以测试期样本对N个初级学习器进行测试，得到N个预测集。利用某种确定性预报的评价指标(如相对误差、纳什效率系数等)，评估N个初级学习器在测试期的模拟技巧，并选出模拟技巧最佳的预报模型作为第二层模型(元学习器)。

S4.3、在第二层中，将S4.1中产生的N个验证集作为训练期的样本训练元学习器，并以测试期的样本进行元学习器的预测模拟与评估。同时，在第二层中为了避免过拟合现象的出现，仍然使用p-LOOCV训练数据，并通过数值模拟得到最终融合策略中各个子模型的权重。

本发明的有益效果为：

本发明提出的一种全过程耦合机器学习的中长期降水预报建模方法，充分考虑现有技术与方法存在的不足，将机器学习理论的最新研究成果应用于中长期降水预报中预报因子筛选、预报模型构建、多模型结果融合各个环节，理论依据充分，实际应用合理，能有效提高月-季-年尺度降水预报的准确度与可靠度。

附图说明

图1为本发明实施例一种全过程耦合机器学习的中长期降水预报建模方法的流程图；

图2为本发明实施例涉及的预报结构示意图；

图3为本发明实施例涉及的改进堆叠算法结构示意图；

图4为本发明实施例涉及的不同预见期(LD)下多模型的相似度评分(ACC)、准确度评分(MSSS)、预报等级评分(Pg)逐格点、逐月均值统计图。

具体实施方式

为使本发明的技术方案、优点效果更为清晰，以下结合附图对本发明作进一步的详细说明：

如图1所示，本发明实施例所提供的一种全过程耦合机器学习的中长期降水预报建模方法包括以下步骤：

进一步地，S1中所述130项气象-气候指数数据集为中国气象局国家气候中心发布，包括88项逐月大气环流指数、26项逐月海温指数以及16项逐月其他指数；

S1中所述预报结构定义如下：将每个月第一天发布该月降水总量定义为预见期0个月(LD＝0)，发布下个月降水总量定义为预见期1个月(LD＝1)，以此类推。考虑到大尺度气象-气候指数的作用延迟性较长，本发明专利假定气象-气候指数数据集的作用滞后期(LG)为(LD+1)至(LD+12)个月。

实施例以我国逐月格点实测降水为实施对象，模拟时段为1982-2015年，空间分辨率0.5°×0.5°，共计3781个格点，由于逐月降水总量差异较大，在实际模拟时需分月处理。所述130项气象-气候指数数据集如表1所示，可在中国气象局国家气候中心下载。所述预报结构如图2所示，以1982年1月1日发布1982年1月至6月降水总量预报为例，此时的预见期分别为0个月(LD＝0)至5个月(LD＝5)。对于LD＝0而言，初始预报因子数据集的作用滞后期(LG)为1至12个月，即数据集为1981年1月至1981年12月；对于LD＝1而言，所用初始预报因子数据集的作用滞后期(LG)为2至13个月，即数据集为1980年12月至1981年11月，以此类推。且对于所有的预报结构而言，其初始预报因子数据集均为共计1560(12*130)组因子序列。

表1中国气象局国家气候中心提供的130项气象-气候指数数据集

进一步地，S2中所述拉普拉斯分数定义如下，设初选预报因子集共有n个d维样本，首先利用k近邻法(k取5)对样本进行聚类。若第i个样本x_i是第j个样本x_j的最邻近的k个样本之一，则两者为相邻，否则为不相邻，计算所有样本间的权重S_ij：

式中，t为常数，取1；||x_i-x_j||为欧式距离。令f_ri为第i个样本的第r个特征，f_r＝[f_r1,f_r2,...,f_rn]^T为第r个特征值构建的向量D，D为对角矩阵且满足D＝diag(S1)，

可得到

则f_r的方差可表达为

令L＝D-S，S为权重矩阵，可得：

此时，第r个特征的拉普拉斯分数为：

S2中所述递归特征消除是一种迭代运算策略，首先计算初选预报因子集中各个特征与降水序列的拉普拉斯分数，选择分数最小(相关度强、区分度高)的100个作为初始因子集进行迭代训练。每轮训练时，当在新因子集上表现的训练误差更小，或训练误差相当但包含的因子数更少时，就将新因子保留下来，否则移除若干权值系数小的因子，再基于新的因子集进行下一轮训练，直至达到所需的因子数量或迭代次数为止。

实施例中1560个34维初选预报因子数据集，首先利用k近邻法(k取5)进行聚类，计算相应权重矩阵与拉普拉斯分数，选取拉普拉斯分数最小的100个作为初始因子集，利用递归特征消除策略进行迭代训练，直至达到N个最终预报因子集(N取15)或M次迭代为止(M取10000)。

进一步地，S3中所述弹性网络回归(ENR)采用结构损失最小化策略，是一种引入L1正则项与L2正则项的增强版多元回归模型。ENR兼具套索回归与岭回归的优点，是性能最优的线性回归模型，其缺点为对非线性数据泛化能力较弱，作为预报模型的对照组，检验其余模型的预报性能。

S3中所述支持向量机(SVR)是一种基于统计学习理论的机器学习模型，采用结构风险最小化准则，求解凸二次规划问题。SVR形式上类似神经网络，输出中间节点的线性组合，每个节点对应一个支持向量。

S3中所述随机森林(RF)是一种基于CART树的并行增强模型。一棵CART树即为一个子预报模型，RF首先大量训练CART树(10000棵)，通过剪枝法简化子模型防止出现过拟合现象，并利用信息增益准则选择最佳分叉路线，采用自助采样法最大程度保证子预报模型的独立性，最后根据投票平均法输出最终的预报结果。

S3中所述极端梯度提升树(XGB)是一种基于CART树的串行增强模型。与RF不同的是，XGB首先只训练一棵CART树，根据训练表现对样本分布进行调整，提高预测出错样本的关注度，再基于调整后的样本分布继续训练下一棵CART树，迭代训练直至达到子模型数量或前后两个子模型相同为止，最终将全部子模型加权输出。

S3中所述轻量梯度提升树模型(LGB)是一种基于CART树的轻量化串行增强模型，与XGB相比，LGB包含梯度单侧采样法与互斥性特征合并法两种改进算法，具有内存消耗小、训练效率高、在并行计算与高维数据中扩展性强的特点。

实施例分别构建弹性网络回归(ENR)、支持向量机(SVR)、随机森林(RF)、极端梯度提升树(XGB)、轻量梯度提升树(LGB)五个子预报模型，采用p-LOOCV的方式对每一格点、每一年、每一月进行模拟，输出子预报结果。

进一步地，S4中所述改进堆叠算法本质为一种两层学习模型，其包含以下步骤：

S4.3：在第二层中，将S4.1中产生的N个验证集作为训练期的样本训练元学习器，并以测试期的样本进行元学习器的预测模拟与评估。同时，在第二层中为了避免过拟合现象的出现，仍然使用p-LOOCV训练数据，并通过数值模拟得到最终融合策略中各个子模型的权重。

实施例中改进堆叠算法流程图如图3所示，在第一层中，将34年完整数据集分为30年训练期样本及4年测试期样本。在训练期，对5个子预报模型并行模拟，分别采用p-LOOCV迭代训练30次，每次以29个子集的并集作为训练集，余下1个子集作为验证集，并将30个子验证集通过重复10次取均值的方式，形成5个验证集。在测试期，利用4年样本分别训练5个子预报模型，并得到5个预测集，利用相对误差指标，评估子预报模型在测试期的模拟性能，并选出模拟技巧最佳的预报模型(XGB模型)作为第二层中的元学习器。将第一层中产生的5个验证集作为训练期的样本，训练第二层中的元学习器，并融合输出最终预报结果。

中长期降水预报技巧评价通常包括相似度、准确度与预报等级三个方面，本发明专利分别采用距平相关系数(ACC)、平均方差技巧评分(MSSS)、分级检验评分(Pg)对5个子模型独立预报结果(ENR、SVR、RF、XGB、LGB)、改进堆叠算法融合结果(MSES)、常作为多模型融合技术的贝叶斯模型平均法结果(BMA)进行对比分析。图4所示为三个指标评分，由逐格点、逐月计算得到：(a)为ACC评分，反映了预报值与实测值空间性的相似程度，越接近于1表明技巧越高，通常取0作为有预报意义的标准；(b)为MSSS评分，反映了实际预报误差与气候学预报误差的比值，越接近于1表明技巧越高，通常取0作为有预报意义的标准；(c)为Pg评分，反映了预测值与实测值降水距平百分率的量级接近程度，越接近100表明技巧越高，通常取50作为有预报意义的标准。每一个子图的横坐标为各个预见期(LD＝0至LD＝5)，纵坐标为该预见期下的指标评分。不难发现，MSES在所有预见期下均展现最佳预报技巧。本发明充分考虑现有技术与方法存在的不足，将机器学习理论的最新研究成果应用于中长期降水预报中预报因子筛选、预报模型构建、多模型结果融合各个环节，理论依据充分，实际应用合理，能有效提高月-季-年尺度降水预报的准确度与可靠度。

上述实施例以及实施例中的具体参数仅是为了清楚表述发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所做的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种全过程耦合机器学习的中长期降水预报建模方法，其特征在于：它包括如下步骤：

2.根据权利要求1所述的全过程耦合机器学习的中长期降水预报建模方法，其特征在于：在步骤S1中：

所述预报结构定义为：将每个月第一天发布该月降水总量定义为预见期0个月，即LD＝0，发布下个月降水总量定义为预见期1个月，即LD＝1，以此类推；考虑到大尺度气象-气候指数的作用延迟性较长，假定气象-气候指数数据集的作用滞后期LG为LD+1至LD+12个月。

3.根据权利要求1所述的全过程耦合机器学习的中长期降水预报建模方法，其特征在于：在步骤S2中：

所述拉普拉斯分数定义为：设初选预报因子集共有n个d维样本，首先利用k近邻法，k取5，对样本进行聚类；若第i个样本x_i是第j个样本x_j的最邻近的k个样本之一，则两者为相邻，否则为不相邻，计算所有样本间的权重S_ij：

式中，t为常数，取1；||x_i-x_j||为欧式距离；令f_ri为第i个样本的第r个特征，f_r＝[f_r1,f_r2,…,f_rn]^T为第r个特征值构建的向量D，D为对角矩阵且满足D＝diag(S1)，

可得到

则f_r的方差可表达为

令L＝D-S，S为权重矩阵，可得：

此时，第r个特征的拉普拉斯分数为：

所述递归特征消除是一种迭代运算策略，首先计算初选预报因子集中各个特征与降水序列的拉普拉斯分数，选择分数最小(相关度强、区分度高)的100个作为初始因子集进行迭代训练；每轮训练时，当在新因子集上表现的训练误差更小，或训练误差相当但包含的因子数更少时，就将新因子保留下来，否则移除若干权值系数小的因子，再基于新的因子集进行下一轮训练，直至达到所需的因子数量或迭代次数为止。

4.根据权利要求1所述的全过程耦合机器学习的中长期降水预报建模方法，其特征在于：在步骤S3中：

所述弹性网络回归ENR采用结构损失最小化策略，是一种引入L1正则项与L2正则项的增强版多元回归模型；作为预报模型的对照组，检验其余模型的预报性能；

所述支持向量机SVR是一种基于统计学习理论的机器学习模型，采用结构风险最小化准则，求解凸二次规划问题；SVR形式上类似神经网络，输出中间节点的线性组合，每个节点对应一个支持向量；

所述随机森林RF是一种基于CART树的并行增强模型，一棵CART树即为一个子预报模型，RF首先大量训练CART树，CART树为10000棵，通过剪枝法简化子模型防止出现过拟合现象，并利用信息增益准则选择最佳分叉路线，采用自助采样法最大程度保证子预报模型的独立性，最后根据投票平均法输出最终的预报结果；

所述极端梯度提升树XGB是一种基于CART树的串行增强模型，与RF不同的是，XGB首先只训练一棵CART树，根据训练表现对样本分布进行调整，提高预测出错样本的关注度，再基于调整后的样本分布继续训练下一棵CART树，迭代训练直至达到子模型数量或前后两个子模型相同为止，最终将全部子模型加权输出；

所述轻量梯度提升树模型LGB是一种基于CART树的轻量化串行增强模型，与XGB相比，LGB包含梯度单侧采样法与互斥性特征合并法两种改进算法。

5.根据权利要求1所述的全过程耦合机器学习的中长期降水预报建模方法，其特征在于：步骤S4中所述改进堆叠算法本质为一种两层学习模型，其包括以下子步骤：

S4.1、在第一层中，按照8:2的形式将完整数据集分为训练期和测试期两部分，在训练期，并行模拟N个第一层模型，即初级学习器，并采用p-LOOCV的方式对每一个初级学习器进行训练；p-LOOCV是指：假定训练期中包含M个样本，则将训练期划分为互斥的M个子集，每次用M-1个子集的并集作为训练集，余下的1个子集作为验证集，重复p次并将模拟结果取均值；采用p-LOOCV得到M个子验证集，此时将M个子验证集构造为一个新的验证集，由此，最终得到N个验证集；

S4.2、在第一层的测试期中，利用全部训练期样本再分别训练N个初级学习器，并以测试期样本对N个初级学习器进行测试，得到N个预测集；利用某种确定性预报的评价指标(如相对误差、纳什效率系数等)，评估N个初级学习器在测试期的模拟技巧，并选出模拟技巧最佳的预报模型作为第二层模型即元学习器；

S4.3、在第二层中，将S4.1中产生的N个验证集作为训练期的样本训练元学习器，并以测试期的样本进行元学习器的预测模拟与评估；同时，在第二层中为了避免过拟合现象的出现，仍然使用p-LOOCV训练数据，并通过数值模拟得到最终融合策略中各个子模型的权重。