CN111767517B

CN111767517B - 一种应用于洪水预测的BiGRU多步预测方法、系统及存储介质

Info

Publication number: CN111767517B
Application number: CN202010421199.0A
Authority: CN
Inventors: 陈晨; 梁肖旭; 吕宁; 邓可笈; 惠强; 周扬
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2024-05-03
Anticipated expiration: 2040-05-18
Also published as: CN111767517A

Abstract

本发明属于信息处理技术领域，公开了一种应用于洪水预测的BiGRU多步预测方法、系统及存储介质，在Attention机制层，将隐藏层状态序列向量输入到可学习函数产生概率向量；后续隐藏层中间向量由向量加权平均产生，Attention通过循环计算每个时间步隐藏层状态序列的自适应加权平均产生中间向量，把每个时间步重要的信息按一定权重向后输出，随着时间推移整合信息的能力。本发明可以随着时间的推移将信息保存在内存中，在处理时间序列问题中，具有很大的优势；结合Attention机制，试验结果表明基于Attention机制的BiGRU多步洪水预报模型能更好地预测洪峰到达时间和洪峰峰值。

Description

一种应用于洪水预测的BiGRU多步预测方法、系统及存储介质

技术领域

本发明属于信息处理技术领域，尤其涉及一种应用于洪水预测的BiGRU多步预测方法、系统及存储介质。

背景技术

目前，在世界各地，每年都会因为极端暴雨天气形成的洪水造成大量的人员伤亡和经济损失。洪水预报是防洪减灾过程中非常重要的一个措施。洪水预报的准确性将直接影响水库调度、防洪抢险、工农业安全等措施的实施。目前，关于降水的行为和潜在的物理定律仍然有很多未被理解的问题。要认识到动态过程各个方面之间所有的复杂关系，这是非常不容易的。洪水预报的挑战之一就是模型的选择，在过去的几十年里，传统的洪水预报方法研究非常多，大致可以分为两类：基于物理过程的模型和基于数据驱动的模型。基于物理过程的模型由于其明确的水文意义而被广泛接受和应用。然而，由于洪水出现的复杂性和对洪水的不同反应，很难研究出完全基于物理的预测模型；此外，水文模型往往需要校准大量的参数，很难获得最优的参数。基于数据驱动的模型主要根据水文现象的统计规律，通过考虑一个水文现象的统计关系来预测未来的水文过程。人工神经网络作为数据驱动模型的一种，由于其其强大的泛化能力和自适应学习能力，近年来在水文领域得到了快速的发展。受LSTM在机器翻译中的成功的推动，一些研究已经探索了LSTM在水文时间序列预测上的应用，并获得了不错的结果。A.M等人也将LSTM和GRU神经网络应用到径流流量预测，也取得了较好的预测效果。注意力机制最早在图像识别领域中应用，而后也被广泛应用于回归问题，注意力机制可以使得神经网络自动选择与输出匹配的特定输入，可以较好的提升模型的预测效果。

水文流量预测是一种时间序列预测过程，受前期各方面因素的影响比较大。GRU作为LSTM的一种变体，将遗忘门和输入门合成了一个单一的更新门，同样混合了细胞状态和隐藏状态。相对于LSTM，GRU结构更加简单。在进行模型算法选择时，要结合具体的任务来进行比较分析。事实上，在水文流量预测的过程中，需要对较长时期内的洪峰到达时间及其洪峰峰值进行准确预报，以便采取更好的措施减少洪灾造成的损失。在社会高速发展的今天，科技水平不断提升，人口不断增加，洪水造成的损失越来越大。人类需要逐步提高对洪水灾害的控制能力。为此，许多专家学者做了大量的研究。新安江模型通过考虑水在土壤中存储容量的变化，将降雨、蒸散发、流量等数据的数值转化为水文预测，模拟了水文系统主要组成部分之间的相互关系。但是其中有些参数是主观的，每个参数都与流域的物理结构和性质有关。E.Cooper等人研究表明，模型参数的设置对预测结果有很大的影响。模糊分析法主要考虑水文现象的模糊性，将模糊分析与系统分析结合起来，形成了新的模糊随机系统分析体系，建立了模糊识别预测模型。虽然它丰富了中长期水文预报的理论，但由于其信息带有主观性，因此应用也受到了一定的限制。小波理论分析法以傅里叶分析法为基础，从时频分析的角度出发，考虑每一个水文序列均含有多种频率成分，每一频率成分都有自身的制约因素和发展规律来进行预报。然而，它仅从水文序列本身出发构造模型，很难把握水文序列的内在机制。

神经网络预测法是基于模仿人类大脑的结构和功能而构成的一种信息处理系统，具有强大的能力。在1943年，W.S.等人最早提出人工神经网络。1986年，Rumelhart等人将反向传播算法引入后，人工神经网络的应用得到了快速的发展。Hsu等人首先提出了基于神经网络原理的洪水流量预测思路，并在降雨径流模拟中获得了较好的预报结果。Jabbari等人利用实时偏差矫正的方法，改善了人工神经网络实时洪水预报的性能。然而，人工神经网络不能将时间序列的一个显式特征，很难处理时序非线性系统的问题。RNN神经网络包含记忆单元，它可以记录先前样本的信息，能够解决样本输入是连续的时间序列，且序列长短不一的问题。Doppelmayr等人通过比较不同模型的预测效果，使用时间序列分析技术进行预测可以延长洪水预报的提前期。Zhang等人采用RNN、LSTM和GRU神经网络预测溪洛渡水库的流量，并分析了影响水库运行的主要因素，为模型的应用研究提供了参考。Raffel等人使用Attention机制解决一些递归神经网络中序列依赖长期时间步记忆的问题，这种问题可能会造成梯度消失或梯度爆炸。D.Zhang等人通过比较不同神经网络之间的结构性能，利用雨量计和水文传感器所记录的数据，验证了LSTM在多步预测方面的优势。Abstract洪水每年造成巨大危害，准确的预测可以显著减少洪水灾害造成的损失。然而，由于洪水形成过程的复杂性，传统洪水预报模型在进行长期水文流量序列预测时，往往很难作出准确、可靠的预报结果。

通过上述分析，现有技术存在的问题及缺陷为：由于洪水形成过程的复杂性，传统洪水预报模型在进行长期水文流量序列预测时，往往很难作出准确、可靠的预报结果。

发明内容

针对现有技术存在的问题，本发明提供了一种应用于洪水预测的BiGRU多步预测方法、系统及存储介质。

本发明是这样实现的，一种应用于洪水预测的BiGRU多步预测方法，所述应用于洪水预测的BiGRU多步预测方法包括：

第一步，在Attention机制层，将隐藏层状态序列向量输入到可学习函数产生概率向量；

第二步，后续隐藏层中间向量由向量加权平均产生，Attention通过循环计算每个时间步隐藏层状态序列的自适应加权平均产生中间向量，把每个时间步重要的信息按一定权重向后输出，随着时间推移整合信息的能力。

进一步，所述应用于洪水预测的BiGRU多步预测方法输入层序列为X＝{x₁,x₂,…x_n}，隐藏层为长度为t的时间步序列h＝{h₁,h₂,…h_t}。

进一步，所述应用于洪水预测的BiGRU多步预测方法在Attention机制层，将隐藏层状态序列向量h输入到可学习函数a(h_t)以产生概率向量α＝{α₁,α₂,…α_t}，后续隐藏层中间向量s＝{s₁,s₂,…s_m}由向量h加权平均产生，其权重为概率向量α，注意力机制直接简化为如下公式：

e_t＝a(h_t)；

式中，a(·)是一个可以学习的函数，e_t为结果中间值，它只依赖于隐藏层状态向量h；

所述应用于洪水预测的BiGRU多步预测方法的权重α对应指数函数softmax(·)函数，获得每个序列中每个元素对应的注意力分布概率；

所述应用于洪水预测的BiGRU多步预测方法加入drpout层和正则化项L2，正则化项取lambda，参数设置为：隐藏层结构100-40-15、输出层个数36、优化器Adam、正则化项lambda、时间步大小100、学习率大小0.01、批处理大小100、参数更新次数80、时差范围20。

进一步，所述应用于洪水预测的BiGRU多步预测方法对数据分布的特征，首先利用相关性分析法对已处理好的等时段的降雨量和流量数据进行分析，求取各个雨量站的降雨量与流量之间的相关系数，根据相关系数的大小获取各个雨量站的权重，公式如下：

式中，r_i为第i个雨量站和流量之间的相关系数，m为雨量站的总数，α_i为第i个雨量站的权重，将每个时段的降雨进行加权求和；

流量预测系统的输入矢量和输出矢量之间的关系表示为：

Y＝R(X)；

其中X＝[x₁,x₂,…x_n]^T为输入矢量，Y＝[y₁,y₂,…y_n]^T，n为数据的数量，F(·)表示复杂的关系。

进一步，所述应用于洪水预测的BiGRU多步预测方法的GRU神经网络对应更新公式如下：

重置门：

r_t＝σ(W_r·[h_t-1,x_t])；

更新门：

z_t＝σ(W_z·[h_t-1,x_t])；

候选隐含状态：

隐含状态：

输出：

y_t＝σ(W_o·h_t)；

式中，σ为激活函数，z_t和r_t分别为t时刻更新门、重置门的状态向量，h_t和h_t-1分别为t和t-1时刻GRU单元的的状态向量，是t时刻更新GRU单元状态的信息，W_r，W_z和/>分别是重置门、更新门和GRU单元状态学习的权重矩阵。

进一步，所述应用于洪水预测的BiGRU多步预测方法确定洪水预报的评估标准，根据获得的水文流量多步预测模型结构，通过测试不同基于LSTM与GRU神经网络多步预测模型结构，对模型进行评估，洪水到来的洪峰时间误差、峰值误差以及洪水过程使用相对误差、均方根误差和确定性系数R²，定义如下：

式中，y_real(i)，y_real为实际测量值，y_pred(i),y_pred为模型预测的值，n是预测样本的总数，对于洪峰预报，以实测洪峰流量的20％作为许可误差。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种实施所述应用于洪水预测的BiGRU多步预测方法的BiGRU多步洪水预测系统，所述BiGRU多步洪水预测系统包括：

混合输入层，用于实现序列的输入；

隐藏层，用于输入时间步序列；

Attention机制层，将隐藏层状态序列向量h输入到可学习函数产生概率向量；

输出层，用于把每个时间步重要的信息按一定权重向后输出。

本发明的另一目的在于提供一种终端，所述终端搭载所述应用于洪水预测的BiGRU多步预测系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：GRU神结构作为RNN神经网络的一种变体，在处理时间序列问题时具有较大的优势，并且Attention机制能够自动匹配输入序列不同时间步的权重参数，提取与输出更有用的信息，提高模型的预测效果。本发明基于中国河南省息县淮河流域的2011-1018年的历史数据，提出了一种基于Attention机制的BiGRU神经网络多步预测模型。模型使用Attention机制自动调整每个时间步输入特征与输出的匹配程度，与基于LSTM的相关预测模型相比，该模型在进行多步预测时，通过评估洪峰到来时间误差、峰值误差，不仅具有较好的水文流量预测效果，而且在训练和预测时具有更快的运行速度。

本发明结合GRU神经网络和Attention机制的优势，提出了一种基于Attention机制应用于洪水预测的BiGRU多步预测模型：(1)提出了一种基于Attention机制的BiGRU多步预测模型，较好地提升了过程性水文预报的效果；(2)设计模型试验，并与基于LSTM神经网络的相关模型进行实验对比，结果表明，该模型具有更小的确定性系数和平方根误差，预测效果更好；(3)评估了洪峰到达时间误差和洪峰误差，在误差许可范围内，模型预测准确率为100％，较好的满足了洪水预报的需求。

本发明的目的是提升模型在较长时间段内水文流量预测的准确性。LSTM神经网络和GRU神经网络在递归层中有反馈环，可以随着时间的推移将信息保存在内存中，在处理时间序列问题中，具有很大的优势。本发明结合Attention机制，对基于LSTM神经网络的多步预测模型和基于GRU神经网络的多步预测模型进行了对比试验分析。试验结果表明基于Attention机制的BiGRU多步预报模型能更好地预测洪峰到达时间和洪峰峰值。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的BiGRU多步预测方法流程图。

图2是本发明实施例提供的BiGRU多步预测系统的结构示意图；

图中：1、混合输入层；2、隐藏层；3、Attention机制层；4、输出层。

图3是本发明实施例提供的流域雨量站和水文站分布图息县水文站在图中最右侧示意图。

图4是本发明实施例提供的50个站点的年平均降雨量分布图。

图5是本发明实施例提供的GRU单元结构图。

图6是本发明实施例提供的GRU单元结构图。

图7是本发明实施例提供的注意力BiGRU模型示意图。

图8是本发明实施例提供的不同GRU和LSTM模型试验结果对比示意图。

图9是本发明实施例提供的不同预测时长结果对比图。

图10是本发明实施例提供的10场洪水流量过程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种应用于洪水预测的BiGRU多步预测方法、系统及存储介质，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的应用于洪水预测的BiGRU多步预测方法包括以下步骤：

S101：在Attention机制层，将隐藏层状态序列向量输入到可学习函数产生概率向量；

S102：后续隐藏层中间向量由向量加权平均产生，Attention通过循环计算每个时间步隐藏层状态序列的自适应加权平均产生中间向量，把每个时间步重要的信息按一定权重向后输出，随着时间推移来整合信息的能力。

如图2所示，本发明提供的应用于洪水预测的BiGRU多步预测系统包括：

混合输入层1，用于实现序列的输入；

隐藏层2，用于输入时间步序列；

Attention机制层3，将隐藏层状态序列向量h输入到可学习函数产生概率向量；

输出层4，用于把每个时间步重要的信息按一定权重向后输出。

下面结合附图对本发明的技术方案作进一步的描述。

1、研究区域，息县子流域位于河南省南部，在淮河中上游部分，是淮河的主要发源地之一。流域范围为东经113°15′～114°46′，北纬31°31′～32°43′，流域面积约为10190Km²，形状呈扇形。流域内大多以山区和丘陵为主，小部分为平原洼地，土壤大多为轻粉质的壤土、沙壤土和少许粉质黏土。植被分布比较良好，风沙侵蚀不严重。流域地处北亚热带和暖温带的过渡地带，在气候上具有过度特征。图3展示了以研究流域内的雨量测量站和水文测量站点等具体分布。

在6月至9月，由于汛期降雨受季风的影响，一般每年4、5月份降雨开始逐渐增多，随着江淮流域进入梅雨天气，6月上中旬主汛期开始。该流域内总共有50个测量站，分别记录了流域内的时段降水量、水位、流量和天气状况等。图4显示了50个站点的年平均降雨量。如图所示，各站年平均降雨量分布相对比较均匀，2011年至2018年平均年降水量740.05mm。

为了能够较好的体现洪水到来的过程以及洪峰到来的时间和峰值，本发明针对各测量站点收集的的流量、水位、水库水位、降雨量等数据，分别进行等时段均值处理，时段长度为1个小时。由于出现设备故障，现场条件恶劣和程序维护等原因，收集到的数据可能存在一些缺失值。在水文学中，反距离加权法是传统的处理水文数据缺失值的估计方法之一，具体公式如下：

式中，X_t是t时刻丢失数据的估计值，X_i为距离t时刻第i个数据，W_i为对应权值，N是相邻数据的数目。其中，对应第i个权值计算如下：

式中，d_it是目标缺失数据与第i_th个数据之间的距离。权重随着距离目标距离的增加而减小。p的值越大，对越接近目标值的影响越大。p值范围通常在1.0～6.0之间，最常用的值为2。在本发明中，其最佳值为2，与目标数据相邻的数据数量为3。

针对数据分布的特征，首先利用相关性分析法对已处理好的等时段的降雨量和流量数据进行分析，求取各个雨量站的降雨量与流量之间的相关系数，然后根据相关系数的大小获取各个雨量站的权重，其公式如下：

式中，r_i为第i个雨量站和流量之间的相关系数，m为雨量站的总数，α_i为第i个雨量站的权重。本发明将每个时段的降雨进行加权求和。预处理后的2011年至2018年息县流域降雨量与流量数据每年的变化趋势如图5所示。

流量预测系统的输入矢量和输出矢量之间的关系可以表示为：

Y＝R(X) (4)

其中X＝[x₁,x₂,…x_n]^T为输入矢量，Y＝[y₁,y₂,…y_n]^T，n为数据的数量，F(·)表示复杂的关系。这种系统可以通过神经网络进行估计计算。

2、GRU神经网络，GRU结构是一种特殊的递归神经网络，旨在克服传统RNN神经网络学习长期依赖性的弱点，在进行水文时间序列流量预报时，具有较大的优势。GRU输入输出的结构与普通的RNN相似，其中的内部思想与LSTM相似。它是与LSTM功能几乎一样的另一个常用的网络结构，亦叫门控循环神经网络，它将忘记门和输入门合成了一个单一的更新门，同时还混合了细胞状态和隐藏状态及其他一些改动，同样也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。GRU神经网络单元比标准的LSTM神经网络单元要简单，其结构如图6所示。

对应更新公式如下：

重置门：

r_t＝σ(W_r·[h_t-1,x_t]) (5)

更新门：

z_t＝σ(W_z·[h_t-1,x_t]) (6)

候选隐含状态：

隐含状态：

输出：

y_t＝σ(W_o·h_t) (9)

3、基于Attention机制的应用于洪水预测的BiGRU神经网络多步预测模型，水文流量预测是一种时间序列预测过程，受前期各方面因素的影响比较大。GRU作为LSTM的一种变体，将遗忘门和输入门合成了一个单一的更新门，同样混合了细胞状态和隐藏状态。双向GRU，即BiGRU，是由前向GRU和后向GRU组合而成，在水文预测时能够综合考虑输入序列的上下文信息。相对来说标准的BiLSTM和BiGRU差别并不大，BiGRU的构造相对更为简单，在训练数据量很大时，BiGRU能够节省很多时间。在进行模型算法选择时，要结合具体的任务来进行比较分析。

Attention机制模仿了生物观察行为的内部过程，是一种能让模型对重要信息重点关注并充分学习的技术。在模型中加入attention机制会对输入序列前后整体进行权重匹配筛选，通过此种加权方式能够让神经网络学习到空间上或者时序上的结构关系。由于attention机制能够关注整个输入序列对流量的匹配影响，并且注意力可微，能够由神经网络自主生成匹配权重，因此本发明采用attention机制来关注模型的输入特征。注意力机制的引入主要是将BiGRU模型结构进行了优化，在进行多步流量预测中，调整每个时间步输入特征对输出流量的匹配程度。将应用于洪水预测的BiGRU注意力模型结构展开如图7所示。

如图8所示，基于Attention机制的应用于洪水预测的BiGRU多步预测模型大致分为四层：混合输入层、隐藏层、Attention机制层和输出层。输入层序列为X＝{x₁,x₂,…x_n}，隐藏层为长度为t的时间步序列h＝{h₁,h₂,…h_t}。在Attention机制层，将隐藏层状态序列向量h输入到可学习函数a(h_t)以产生概率向量α＝{α₁,α₂,…α_t}，后续隐藏层中间向量s＝{s₁,s₂,…s_m}由向量h加权平均产生，其权重为概率向量α。其注意力机制可以直接简化为如下公式：

e_t＝a(h_t) (10)

式中，a(·)是一个可以学习的函数，e_t为结果中间值，它只依赖于隐藏层状态向量h。Attention可以被看做是通过循环计算每个时间步隐藏层状态序列h的自适应加权平均来产生中间向量s，这样就可以把每个时间步重要的信息按一定权重向后输出，它是一个随着时间推移来整合信息的能力。权重α对应指数函数softmax(·)函数，由此获得每个序列中每个元素对应的注意力分布概率。通过这种机制，模型也可以处理可变长度的序列。

为了降低模型在训练完成后发生过拟合的风险，本发明在模型中加入了drpout层和正则化项L2，正则化项取lambda，从而降低模型结构误差。针对模型中的网络层数和神经元个数，通过试算法进行实验对比，通过试用不同的个数，多次试验确定使模型均方根误差最小时的参数。对于优化器，同样选择目前效果最好的Adam算法来优化神经网络的结构。对于学习率和批次大小，通过实验将其设置为0.01和100。综上所述，最终模型参数设置如表1所示。

表1模型参数设置表

隐藏层结构	100-40-15
		输出层个数	36
优化器	Adam
		正则化项	lambda
时间步大小	100
		学习率大小	0.01
批处理大小	100
		参数更新次数	80
时差范围	20

根据上述得到的基于Attention机制的应用于洪水预测的BiGRU多步水文流量预测模型(A-BiGRU)的结构，使用息县2011-2018年收集到的水文数据，以2011-2017年的水文数据作为训练集，2018年的水文数据作为测试集，训练LSTMC流量预测模型并对其进行仿真。为了说明本发明中GRU相对LSTM的优势，本发明对基于Attention机制的BiGRU多步预测模型的结果按以下方式进行了比较，将一定时差范围内的降雨量和流量作为输入特征，通过比较基于Attention机制的BiLSTM多步水文流量预测模型(A-BiLSTM)、基于Attention机制的GRU多步水文流量预测模型(A-GRU)、基于Attention机制的LSTM多步水文流量预测模型(A-LSTM)、GRU多步预测模型和LSTM多步预测模型，评估不同模型的预报效果。

本发明首先描述了洪水预报的评估标准，然后根据已获得的水文流量多步预测模型结构，通过测试不同基于LSTM与GRU神经网络多步预测模型结构，进一步对模型进行评估。在实际的洪水预报过程中，本发明非常需要了解洪水到来的洪峰时间误差、峰值误差以及洪水过程。为了评估所提出模型的性能和数据的处理方法，依据国家标准的水文预报规范要求，本发明使用相对误差、均方根误差和确定性系数R²，其定义如下：

式中，y_real(i)，y_real为实际测量值，y_pred(i),y_pred为模型预测的值，n是预测样本的总数。对于洪峰预报，以实测洪峰流量的20％作为许可误差。对于洪峰时间预报，以预报根据时间至实测洪峰出现时间之间时距的30％作为许可误差。对于精度评定，以合格预报次数和预报总次数之比的百分数为合格率，表示多次预报总体精度水平。

下面结合试验对本发明的技术效果作详细的描述。

为了说明本发明中GRU相对LSTM的优势，本发明对基于Attention机制的应用于洪水预测的BiGRU多步预测模型的结果按以下方式进行了比较，将一定时差范围内的降雨量和流量作为输入特征，通过比较基于Attention机制的BiLSTM多步水文流量预测模型(A-BiLSTM)、基于Attention机制的GRU多步水文流量预测模型(A-GRU)、基于Attention机制的LSTM多步水文流量预测模型(A-LSTM)、GRU多步预测模型和LSTM多步预测模型，评估不同模型的预报效果。

图9所示以GRU为基础的A-BiGRU、A-GRU、GRU三种多步预测模型和以LSTM为基础的A-BiLSTM、A-LSTM和LSTM三种多步预测模型对未来36小时的流量预测结果对比，性能评估都使用均方根误差RMSE和确定性系数R²作为误差模型评价指标。具体对应模型预报性能评估如图8所示。

表2不同流量预测模型性能对比

模型	RMSE	R2
			A-BiGRU	48.6	0.89
A-GRU	61.38	0.84
			GRU	70.86	0.78
A-BiLSTM	58.92	0.85
			A-LSTM	64.79	0.82
LSTM	79.62	0.72

从图8和表2中可以看出，在预测流量未来36小时时，不同模型的流量预测性能有一定的差异。总体来看，使用时间序列多步预测模型能够捕获输入水文序列的有效特征信息，具有较好的预测效果；相对来说，使用GRU作为基础架构的模型整体上要比LSTM作为基础预测单元效果要好一点。在使用GRU神经网络作为基础架构的预测模型中，表现最差的为GRU多步预测模型；在GRU多步预测模型的基础上，添加Attention机制之后，整体预测效果有了较大的提升；基于Attention的应用于洪水预测的BiGRU神经网络多步预测模型，在综合考虑输入序列上下文信息的同时，有效分配输入序列不同时间步的权重，最终预测性能最好。

在进行多步预测时，一般来说，对未来流量预测的时间越长，模型对于未来流量预测的能力就会下降，导致流量预测的准确率降低，因此需要选取合适的流量预测步长。因此，本发明对未来24小时、36小时和48小时分别进行了实验对比，其结果如图10所示，对应具体评估结果如表3所示。

表3不同预测时长性能对比

预测时长/h	RMSE	R2
			24	39.91	0.93
36	48.6	0.89
			48	80.03	0.78

从图10和表3中可以看出，在预测未来24小时的流量时，模型的预测效果准确度最高；在预测未来36小时的流量时，模型的预测效果准确度稍微下降，模型预测的洪峰峰值时间和洪峰峰值与实际相比，基本符合；在预测未来48小时的流量时，模型的预测效果准确率降低不少，在某些时刻，预测洪峰峰值和实际峰值误差相对较大。结合水文相关部门和模型预测性能需要，本发明将模型预测未来时间长度确定为36小时。

为了更好地说明基于Attention机制的应用于洪水预测的BiGRU神经网络多步预测模型的效果，在获取到的息县2011-2018年的数据集中，分别选取2014至2018年的其中一年作为测试集，其余作为训练集，分别进行了测试集流量预测，从中选取每年出现洪水峰值较大的洪水过程，每年2场，总共10场，其最终结果如图10所示。针对这10场洪水过程，本发明对其进行了评估。在表4中本发明对应观察到模型流量预测过程中洪峰形成的开始时间、实际峰值到来的时间、预测的峰值时间，峰值时间误差、实际峰值、预测峰值、峰值误差和洪水过程的均方根误差。

表4 A-BiGRU：峰值时间误差，峰值误差，RMSE

根据图10和表4的结果显示，可以看到洪峰时间到达误差都满足在许可误差的30％以内，预报精度为100％；峰值误差也均满足许可误差的20％以内，预报精度为100％；对应各场洪水过程的均方误差也普遍较小，预测值与实际值拟合效果较好。因此，本发明所提出的基于Attention机制的BiGRU神经网络多步预测模型在进行较长时间段的流量预测过程中能够产生较好的预报效果，满足洪水预报的要求。

在防洪减灾中，对流量的长期预测非常重要。由于Attention机制能够自动匹配输入序列不同时间步的权重参数，提取与输出更有用的信息，能够综合考虑全局输入特征的全局联系和局部联系。对此本发明提出了一种基于Attention机制的BiGRU神经网络多步预测模型，该模型在进行多步预测时，不仅具有较高的洪水流量预测精度，而且在训练和测试时具有更快的运行速度。本发明通过对预测的洪峰到来时间误差、峰值误差和RMSE进行评估，均能够达到较好的效果，对防洪减灾中具有一定的现实意义。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种应用于洪水预测的BiGRU多步预测方法，其特征在于，所述BiGRU多步预测方法包括：

第二步，后续隐藏层中间向量由向量加权平均产生，Attention通过循环计算每个时间步隐藏层状态序列的自适应加权平均产生中间向量，把每个时间步重要的信息按一定权重向后输出，随着时间推移整合信息的能力；

所述应用于洪水预测的BiGRU多步预测方法基于一个特定的模型，所述模型具体包括：

混合输入层，用于实现序列的输入；

隐藏层，用于输入时间步序列；

输出层，用于把每个时间步重要的信息按一定权重向后输出；

将一定时差范围内的降雨量和流量作为输入特征，将预测的未来一段时间的流量、洪峰峰值时间和洪峰峰值作为输出特征。

2.如权利要求1所述的应用于洪水预测的BiGRU多步预测方法，其特征在于，所述应用于洪水预测的BiGRU多步预测方法输入层序列为X＝{x₁,x₂,…x_n}，隐藏层为长度为t的时间步序列h＝{h₁,h₂,…h_t}。

3.如权利要求1所述的应用于洪水预测的BiGRU多步预测方法，其特征在于，所述应用于洪水预测的BiGRU多步预测方法在Attention机制层，将隐藏层状态序列向量h输入到可学习函数a(h_t)以产生概率向量α＝{α₁,α₂,…α_t}，后续隐藏层中间向量s＝{s₁,s₂,…s_m}由向量h加权平均产生，其权重为概率向量α，注意力机制直接简化为如下公式：

e_t＝a(h_t)；

4.如权利要求1所述的应用于洪水预测的BiGRU多步预测方法，其特征在于，所述应用于洪水预测的BiGRU多步预测方法对数据分布的特征，首先利用相关性分析法对已处理好的等时段的降雨量和流量数据进行分析，求取各个雨量站的降雨量与流量之间的相关系数，根据相关系数的大小获取各个雨量站的权重，公式如下：

流量预测系统的输入矢量和输出矢量之间的关系表示为：

Y＝R(X)；

5.如权利要求1所述的应用于洪水预测的BiGRU多步预测方法，其特征在于，所述应用于洪水预测的BiGRU多步预测方法的GRU神经网络对应更新公式如下：

重置门：

r_t＝σ(W_r·[h_t-1,x_t])；

更新门：

z_t＝σ(W_z·[h_t-1,x_t])；

候选隐含状态：

隐含状态：

输出：

y_t＝σ(W_o·h_t)；

6.如权利要求1所述的应用于洪水预测的BiGRU多步预测方法，其特征在于，所述应用于洪水预测的BiGRU多步预测方法确定洪水预报的评估标准，根据获得的水文流量多步预测模型结构，通过测试不同基于LSTM与GRU神经网络多步预测模型结构，对模型进行评估，洪水到来的洪峰时间误差、峰值误差以及洪水过程使用相对误差、均方根误差和确定性系数R²，定义如下：

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～6任意一项所述应用于洪水预测的BiGRU多步预测方法。

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～6任意一项所述应用于洪水预测的BiGRU多步预测方法。

9.一种实施权利要求1～6任意一项所述应用于洪水预测的BiGRU多步预测方法的BiGRU多步洪水预测系统，其特征在于，所述BiGRU多步洪水预测系统包括：

混合输入层，用于实现序列的输入；

隐藏层，用于输入时间步序列；

将一定时差范围内的降雨量和流量作为输入特征，将预测的未来一段时间的流量、洪峰峰值时间和洪峰峰值作为输出特征；

输入层序列为X＝{x₁,x₂,…x_n}，隐藏层为长度为t的时间步序列h＝{h₁,h₂,…h_t}；在Attention机制层，将隐藏层状态序列向量h输入到可学习函数a(h_t)以产生概率向量α＝{α₁,α₂,…α_t}，后续隐藏层中间向量s＝{s₁,s₂,…s_m}由向量h加权平均产生，其权重为概率向量α；其注意力机制可以直接简化为如下公式：

e_t＝a(h_t) (10)

式中，a(·)是一个可以学习的函数，e_t为结果中间值，它只依赖于隐藏层状态向量h。

10.一种终端，其特征在于，所述终端搭载权利要求9所述应用于BiGRU多步预测系统。