CN111815037A

CN111815037A - 一种基于注意力机制的可解释性短临极端降雨预测方法

Info

Publication number: CN111815037A
Application number: CN202010587176.7A
Authority: CN
Inventors: 张鹏程; 曹文南
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-23
Anticipated expiration: 2040-06-24
Also published as: CN111815037B

Abstract

本发明提出了一种基于注意力机制的可解释性短临极端降雨预测方法，首先通过随机森林对使用参数进行筛选，然后计算待测站点的标准降水指数(SPI)，将标准降水指数和所选参数组成新的矩阵输入到长短期记忆网络中进行训练，并在神经网络中加入注意力机制，在训练过程中对注意力机制的权重计算进行可视化，最后以3小时为单位，可预测目标地区未来3、6、9、12小时的降雨量，预测过程中使用注意力机制针对短临强降雨的情况进行了优化，提高了模型针对极端天气的预测能力，同时也增强了模型的可解释性。

Description

一种基于注意力机制的可解释性短临极端降雨预测方法

技术领域

本发明涉及降雨预测领域，尤其是一种基于注意力机制的可解释性短临极端降雨预测方法。

背景技术

大气降水是全球水循环的重要组成部分，特别是在干旱和半干旱地区，降雨是主要的供水来源。研究降雨预报对经济发展和提升人民的生活质量具有重大意义。降雨预报的类别按照预报时间来划分一般分为四类，短临预报、短期预报、中期预报和长期预报，其中短临预报可以预警泥石流等灾害的发生，同时指导当地的交通及人们的出行。另外，气象条件的变异性、多样性和复杂性使得极端降雨的情况难以预测，这给降雨预报工作带来了巨大困难。现有方法往往存在短临强降雨预测不准确的情况，如何提高对这种极端气候的预测精度成为气象领域研究的热点话题。

近年来，机器学习广泛应用于降雨预测，文献[付明明.ARIMA模型在新疆喀什地区中长期降水量预测中的应用研究[J].地下水,2019,第41卷(3):142-144.]中利用ARIMA模型预测了新疆喀什地区的年降水量，从空间的角度分析了降水的总体分布。文献[周雨婷,王栋,王远坤,王文鹏,孟德青.典型降水预报ANN多指标优选——以太湖湖西区为例[J].水文,2020,40(01):35-39.]利用多种人工神经网络对五个地区的年降水量进行预测，通过多种指标筛选出GRNN为最优神经网络。然而由于预测的时间跨度较长，对于短时降雨量没有指导意义。文献[张鹏程,贾旸旸.一种基于多层感知器的动态区域联合短时降水预报方法[J].计算机应用与软件,2018,第35卷(11):153-158，183.]利用多层感知器，结合周围站点的气象状态对目标站点进行3小时内的降雨预测，结果表明，多层感知器具有良好的预测能力。然而，对于该地的气候特征难以适用于全部地区，因此模型对于短时强降雨的情况预测准确率较低，泛化能力较为薄弱。

发明内容

发明目的：针对现有技术中存在的问题和不足，为了提高模型的预测精度和预测效率，本发明提供一种基于注意力机制的可解释性短临极端降雨预测方法，它克服了短时极端降雨预测不精确、模型训练时间长的特点，并通过对注意力机制权重的可视化有效增强了模型的可解释性。

技术方案：为实现上述发明目的，本发明所述的一种基于注意力机制的短临极端降雨预测方法，包括如下步骤：

(1)收集气象站点的观测数据并对得到的数据集进行筛选和数据清洗；

(2)利用随机森林算法计算气象站点观测得到的气象因子和降雨量的相关性，并对因子的重要性排序，选择最重要的若干因子；

(3)计算待测站点的标准降水指数；

(4)将参数融合形成新的矩阵；

(5)将筛选后的气象因子参数值和标准降水指数归一化后输入到带有注意力机制的长短期记忆网络中进行训练；

(6)模型训练好后进行注意力机制可视化并预测降雨值。

所述步骤(1)是筛选数据集和对数据集进行简单的清洗，所述步骤(1)进一步为：

(11)从气象局获取各个站点的气象观测数据，以地面站点的观测数据作为依据；地面观测数据包括总云量、风向、风速、海平面气压、3小时变压、6小时降水、低云量、低云高、露点、温度和能见度因子；

(12)将数据集根据年份分为训练数据和测试数据两部分；

(13)清洗数据，将数据中存在缺失的，含有异常值的相关数据去除。

所述步骤(2)中对降雨量密切相关的气象因子进行筛选，所述步骤(2)进一步为：

(21)从训练数据集中随机选出M个样本，然后放回，进行N次取样，每一次取样生成一个训练集，得到N个训练集；M为设定的训练集中的样本数量，N为设定的训练集数量；

(22)对于每一个训练集，训练一个决策树模型；

(23)对于单个决策树模型，在每次分裂时根据基尼指数选择最好的特征进行分裂；

(24)每一个决策树模型持续分裂，直到节点的所有训练样例都属于同一类；在分裂的过程中保留决策树的完整性，不对决策树进行剪枝操作；

(25)生成的N棵决策树组成随机森林，按多棵树分类器投票决定每个因子最终的权重大小；

(26)计算出每个因子的影响权重后，按照权重大小对相关因子进行降序排序，选出影响最大的5个因子作为模型的实验因子。

目标站点的地理位置一定程度上影响着降雨的量级和频率，季风性气候的区域降雨往往集中在一段时间内。标准化降水指数可以反映该地区一段时间内的降水变化的特点，因此，研究待测站点的降水特点可以有效的调高模型对于强降雨或极端降雨样本的预测能力，所属步骤(3)进一步为：

(31)取出待测站点的降雨量，设某一时段的降雨量为x,则其τ分布的概率密度函数为：

式中，α为形状参数，β为尺度参数，τ(α)为Gamma函数；

(32)采用极大似然法估计参数α与β；

(33)由于Gamma函数中不包含x＝0的情况，但实际情况降水量可能为0，因此累积概率公式为：H(x)＝q+(1-q)G(x)，其中q为降水量为0的概率，

G(x)为在该时间段小于降水x的概率；

(34)累计概率H(x)转换成标准正态分布函数，计算待测站点的标准降水指数SPI值；当0<H(x)≤0.5时：

式中

当0.5<H(x)＜1时：

式中，

两式中c₀＝2.515517，c₁＝0.8028，c₂＝0.010328，d₁＝1.432788，d₂＝0.189269，d₃＝0.001308。

所述步骤(4)中将因子整合成一个矩阵，所述步骤4进一步为：

(41)将步骤(2)中选取的因子和站点的标准降水指数组成n行m列的矩阵

n代表不同时间的样本数据，m代表一条样本数据所含有的信息量，包括时间，站点编号，筛选的气象因子和标准降水指数；

(42)将矩阵

进行归一化处理，将矩阵中的数据转化成[0,1]范围，归一化处理后得到矩阵

步骤(5)将长短期记忆网络中加入注意力机制，对模型进行训练，所述步骤5进一步为：

(51)初始化长短期记忆网络LSTM的权值和偏置参数；

(52)将归一化后的矩阵

输入到LSTM中的输入层，

表示

中t时刻第s个因子，其中1≤t≤n，1≤s≤m，将

映射为

(53)计算注意力机制的权重，

其中，

为第s个因子在时间t时刻的权重，

为注意力参数；C_t＝f_t*C_t-1+i_t*c_t,

W₁,W₂,W_f,W_i,W_c表示权重矩阵系数矩阵，b_f,b_c,b_i是偏置项，·表示矩阵的乘积，*表示元素的乘积，[,]表示两个元素在水平方向上拼接为一个长向量，长短期记忆网络的神经元在t时刻的状态为C_t,输入门为i_t，遗忘门为f_t,当前输入的单元状态为c_t，

经过注意力加权得到的输出序列

(54)将注意力计算得到的

替换步骤(53)中长短期记忆网络中的

来更新权值，并将更新的权值输入到下一个隐含层中；

(55)利用批量梯度下降法计算网络的损失函数值，循环执行步骤(52)到步骤(54)，更新长短期记忆网络的权值和偏置参数，待模型迭代稳定后结束模型的训练。步骤(6)待模型训练结束后，将测试集的数据输入到模型中，并记录每一时刻的注意力机制权值并进行可视化，最后输出预测的降雨值。所述步骤6进一步为：

(61)待模型训练稳定后，将测试集的数据输入到模型中，同时对模型中注意力机制计算的权重进行可视化，记录每一时刻注意力机制得到的权重值并以图的形式展示，图的横坐标为输入模型的每个因子，包括步骤(2)筛选的气象因子以及标准降水指数，纵坐标为历史时刻，不同的权重值通过颜色块来表示，颜色越深代表权重的值越大；

(62)模型输出目标站点未来3小时内的降雨值。

有益效果：本发明提供的一种基于注意力机制的可解释性短临极端降雨预测方法，与现有技术相比，本发明的优点在于：考虑了目标站点的气候特征，克服了单个站点短时间内对极端降雨预报不准确的特点，同时，长短期记忆网络存在信息丢失的问题，本方法通过加入注意力机制可以对降雨影响较大的因子赋予更高的权重，强化对于重要因子的学习能力，提高模型对于极端降雨的预测精度。另外，对注意力机制的可视化展示也增强了模型的可解释性。本发明的模型效果在全国92个气象站点得到了验证，增强了模型的泛化能力。

附图说明

图1为本发明实施例的整体步骤图；

图2为本发明具体示例的方法流程图；

图3为本发明实施例中的带有注意力机制的网络结构示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的一种基于注意力机制的可解释性短临极端降雨预测方法，主要包括如下步骤：

步骤1：收集气象站点的观测数据并对得到的数据集进行筛选和数据清洗；

步骤2：利用随机森林算法计算气象站点观测得到的气象因子和降雨量的相关性，并对因子的重要性排序，选择最重要的若干因子；

步骤3：计算待测站点的标准降水指数；

步骤4：将参数融合形成新的矩阵；

步骤5：将筛选后的气象因子参数值和标准降水指数归一化后输入到带有注意力机制的长短期记忆网络中进行训练；

步骤6：待模型稳定后进行注意力机制可视化并预测降雨值。

如图2所示，本发明实施例公开的一种基于注意力机制的可解释性短临极端降雨预测方法，具体步骤如下：

步骤1：获取气象站点观测得到的气象数据，由于一些物理和人为因素的影响，数据存在异常或者缺失的问题，所以需要对数据进行清洗，筛选出数据段较为完整的标签数据作为输入数据，从数据的角度提升模型预测的准确性，具体步骤如下：

步骤11：从气象局获取各个站点的气象观测数据，以地面站点的观测数据作为主要依据。地面观测数据包括总云量、风向、风速、海平面气压、3小时变压、6小时降水、低云量、低云高、露点、温度和能见度因子；

步骤12：将数据集根据年份分为训练数据和测试数据两部分；

步骤13：初步清洗数据，将数据中存在缺失的，含有异常值的相关数据去除。

步骤2：选择和确定与降雨密切相关的气象因子，这一步主要是为了将模型的主要算力集中在对影响较大的几个气象因子上，减少了模型的计算量和训练时间，同时也可以排除干扰因子的对于模型结果的影响。具体步骤如下:

步骤21：从原始训练集中使用自助法(Bootstraping)随机选出M个样本，然后放回，进行N次取样，每一次取样生成一个训练集，得到N个训练集；本例中，随机选出100000个样本，随机进行1000次取样，生成1000个训练集，每个训练集中有100个样本；

步骤22：对于每一个训练集，训练一个决策树模型；

步骤23：对于单个决策树模型，假设训练样本特征的个数为a，在每次分裂时根据基尼指数选择最好的特征进行分裂。若有K个类，样本点属于第k类的概率为p_k,则基尼指数的计算公式为

步骤24：每一个决策树模型持续分裂，直到该节点的所有训练样例都属于同一类。在分裂的过程中保留决策树的完整性，不对决策树进行剪枝操作；

步骤25：生成的n棵决策树组成随机森林，按多棵树分类器投票决定每个因子最终的权重大小；

步骤26：计算出每个因子的影响权重后，按照权重大小对相关因子进行降序排序，选出影响最大的5个因子作为模型的实验因子。本实验影响最大的5个因子为风向、风速、云量、温度、露点。

步骤3：模型对于样本量较少的极端降雨存在预报准确率较低的情况，极端降雨的形成与目标站点的气候情况相关，步骤2中筛选的因子是即时性的气象指标，并不能反映目标站点的气候特征。计算标准降水指数可以反映目标站点在一段时间内的降雨量情况，有效提升强降雨等小样本事件预测准确率。具体步骤如下：

步骤31：取出待测站点的降雨量，设该时段的降雨量为x,则其τ分布的概率密度函数为：

式中，α为形状参数，β为尺度参数，τ(α)为Gamma函数；

步骤32：采用极大似然法估计参数α与β，计算公式为：

式中

x_i为降水量序列的样本，

为该时段降水的平均值，m为计算序列的长度；

步骤33：由于Gamma函数中不包含x＝0的情况，但实际情况降水量可能为0，因此累积概率公式为：H(x)＝q+(1-q)G(x)，其中q为降水量为0的概率，

G(x)即为在该时间段小于降水x的概率；

步骤34：累计概率H(x)转换成标准正态分布函数，计算待测站点的SPI值。当0<H(x)≤0.5时：

式中

当0.5<H(x)＜1时：

式中，

两式中c₀＝2.515517，c1＝0.8028，c₂＝0.010328，d₁＝1.432788，d₂＝0.189269，d₃＝0.001308。

步骤4：将筛选出的5个因子和标准降水指数整合到一个矩阵中，方便模型训练，具体步骤如下：

步骤41：将步骤2中选取的因子和站点的标准降水指数组成n行m列的矩阵

步骤42：将矩阵

进行归一化处理，根据公式

将矩阵中的数据转化成[0,1]范围，其中X_min和X_max分别是矩阵每行的最小值和最大值，归一化处理后得到矩阵

步骤5：增加注意力机制可以有效的解决长短期记忆网络中存在的长距离信息弱化问题，注意力机制可以对影响降雨较大的因子强化训练，不丢失重要的信息，提升了模型的准确率。如图3所示，具体步骤如下：

步骤51：初始化长短期记忆网络LSTM的权值和偏置参数；

步骤52：将归一化后的矩阵

输入到LSTM中的输入层，

表示

中t时刻第s个因子的值，其中1≤t≤n，1≤s≤m。将

映射为

其中

激活函数为sigmoid函数，公式为

步骤53：计算注意力机制的权重，

其中，

为第s个因子在时间t时刻的权重，

为注意力参数；C_t＝f_t*C_t-1+i_t*c_t,

经过注意力加权得到的输出序列

步骤54：将注意力计算得到的

替换步骤53中长短期记忆网络中的

来更新权值，并将更新的权值输入到下一个隐含层中；

步骤55：利用批量梯度下降法计算网络的损失函数值，循环执行步骤52到步骤54，更新长短期记忆网络的权值和偏置参数1000次，待模型迭代稳定后结束模型的训练。

步骤6：注意力机制可视化可以直观地展现重要因子对于降雨量的影响，增加对模型的可解释性。在训练稳定后，模型输出未来3小时内的降雨值。具体步骤如下：

步骤61：待模型训练稳定后，将测试集的数据输入到模型中，同时对模型中注意力机制计算的权重进行可视化，记录每一时刻注意力机制得到的权重值并以图的形式展示。图的横坐标为输入模型的每个因子，纵坐标为历史时刻，不同的权重值通过颜色块来表示，颜色越深代表权重的值越大；

步骤62：模型输出目标站点未来3小时内的降雨值，其中，未来6、9、12小时的降雨值可以通过多段3小时预测得到的降雨值进行拼接。

Claims

1.一种基于注意力机制的可解释性短临极端降雨预测方法，其特征在于，包括如下步骤：

(3)计算待测站点的标准降水指数；

(4)将参数融合形成新的矩阵；

(6)模型训练好后进行注意力机制可视化并预测降雨值。

2.根据权利要求1所述的一种基于注意力机制的可解释性短临极端降雨预测方法，其特征在于，所述步骤(1)包括：

(12)将数据集根据年份分为训练数据和测试数据两部分；

3.根据权利要求1所述的一种基于注意力机制的可解释性短临极端降雨预测方法，其特征在于，所述步骤(2)包括：

(22)对于每一个训练集，训练一个决策树模型；

(26)计算出每个因子的影响权重后，按照权重大小对相关因子进行降序排序，选出影响最大的若干因子作为模型的实验因子。

4.根据权利要求1所述的一种基于注意力机制的可解释性短临极端降雨预测方法，其特征在于，所述步骤(3)包括：

(31)取出待测站点的降雨量，设某一时段的降雨量为x，则其τ分布的概率密度函数为：

式中，α为形状参数，β为尺度参数，τ(α)为Gamma函数；

(32)采用极大似然法估计参数α与β；

G(x)为在该时间段小于降水x的概率；

(34)累计概率H(x)转换成标准正态分布函数，计算待测站点的标准降水指数SPI值；当0＜H(x)≤0.5时：

式中

当0.5＜H(x)＜1时：

式中，

5.根据权利要求1所述的一种基于注意力机制的可解释性短临极端降雨预测方法，其特征在于，所述步骤(4)包括：

(42)将矩阵

进行归一化处理，将矩阵中的数据转化成[0，1]范围，归一化处理后得到矩阵

6.根据权利要求1所述的一种基于注意力机制的可解释性短临极端降雨预测方法，其特征在于，所述步骤(5)包括：

(51)初始化长短期记忆网络LSTM的权值和偏置参数；

(52)将归一化后的矩阵

输入到LSTM中的输入层，

表示

中t时刻第s个因子，其中1≤t≤n，1≤s≤m，将

映射为

(53)计算注意力机制的权重，

其中，

为第s个因子在时间t时刻的权重，

为注意力参数；C_t＝f_t*C_t-1+i_t*c_t,

经过注意力加权得到的输出序列

(54)将注意力计算得到的

替换步骤(53)中长短期记忆网络中的

来更新权值，并将更新的权值输入到下一个隐含层中；

(55)利用批量梯度下降法计算网络的损失函数值，循环执行步骤(52)到步骤(54)，更新长短期记忆网络的权值和偏置参数，待模型迭代稳定后结束模型的训练。

7.根据权利要求1所述的一种基于注意力机制的可解释性短临极端降雨预测方法，其特征在于，所述步骤(6)包括：

(62)模型输出目标站点未来3小时内的降雨值。