CN111079998A

CN111079998A - 基于长短时序相关性注意力机制模型的流量预测方法

Info

Publication number: CN111079998A
Application number: CN201911221531.2A
Authority: CN
Inventors: 陈曦; 黄嘉旭; 刘敏; 丁婕; 侯宇飞
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-28
Anticipated expiration: 2039-12-03
Also published as: CN111079998B

Abstract

一种基于长短时序相关性注意力机制模型的流量预测方法，属于水文监测技术领域。本发明针对现有流量预测数据驱动模型用于中长期流量预测时精度低的问题。包括：对预测当天的前连续7天的流量数据作线性变换，获得初次变换后数据作为查询、键及值的输入；对查询、键及值内的数据分别进行线性变换后，再采用放缩点积注意力机制模型进行处理；处理结果经Concat函数融合后，再进行线性变换，获得长度为7×1的一级向量；再通过长短期记忆网络LSTM获得同步变换数据；对同步变换数据与初次变换后数据求解相关性，得到长度为7×1的二级向量；对一级向量与二级向量采用Concat函数进行加权求和，再正切变换后进行线性变换，获得预测结果。本发明用于流量预测。

Description

基于长短时序相关性注意力机制模型的流量预测方法

技术领域

本发明涉及基于长短时序相关性注意力机制模型的流量预测方法，属于水文监测技术领域。

背景技术

径流预报对于水资源管理至关重要，包括但不限于防洪，减灾，水库运营和生态系统保护等方面。水文模型是真实水文系统的简化表示，即表示降雨径流和融雪径流过程。数学水文模型主要可分为三类：概念模型，基于物理的模型和经验模型。概念模型和基于物理的模型都是基于过程的模型，它们在一定程度上明确地描述和量化了水文过程和水平衡。经验模型也称为黑箱模型，使用数据驱动的方法从统计角度估计输入-输出关系。长期以来，基于过程的模型由于其透明的模型结构和参数化在水文界起着主导作用，在测量流域中具有令人满意的模型性能。但是这些模型仍然面临着巨大的内在的新旧挑战。挑战之一就是径流过程的复杂性阻碍了基于过程模型的预报准确性的进一步提高。随着越来越多的地球观测数据和快速发展的数据驱动技术(尤其是在工业上)，数据驱动方法引起了水文学和水科学领域的前所未有的关注。在最开始的阶段，线性随机模型包括自回归滑动平均和差分整合移动平均自回归被用于预测径流的时间序列，取得了不错的表现。这些模型基于输入和输出是线性相关的假设。实际上，它们在实际应用中是非线性相关的。因此，这些模型导致相对较差的性能。随着机器学习的发展，许多的非线性模型例如人工神经网络，支持向量机，支持向量回归(Support Vector Regression,SVR)和extreme gradient boosting(XGBoost)已经被用于径流预测研究。但是哪种模型能取得最好的效果并没有明确的结论。

众所周知，在不同的径流大小情况下，产流过程有着很大的不同。比如暴风雨会导致流量短时间内迅速的上升，而基流的大小是受其他因素的影响。因此，简单的人工神经网络不能准确的预测流量的变化。经过研究发现，基流是一种准周期信号，在不同的流量情况下它会受到不同噪声信号的干扰。小波变换能够有效的将原始信号分解成不同的时间尺度，从而提高预测的精度。同时例如奇异谱分析，主成分分析和集合经验模态分解等方法使用适当的数据预处理技术可以获得信号降噪并提高预测精度。

近年来，深度学习被用于径流预测并取得了很好的效果。Assem等人通过30年的最高温，最低温和流量数据，运用深度卷积神经网络预测水位和径流量。长短期记忆网络(Long short-term memory,LSTM)是一种特殊的循环神经网络，它被用于解决长时间序列的问题。Tian等人在径流量预测上比较了四种循环神经网络的性能，长短期记忆网络的表现好于其他的模型尤其是在小流域上。

随着注意力机制被广泛用于机器翻译，自动图像描述以及一些相关领域。Zoph和Knight将全局和局部注意力机制结合长短期记忆网络和循环神经网络，进行机器翻译和摘要提取。同时，Mashlakov等人在循环神经网络应用两头注意力机制进行电池电量的预测。考虑到径流量时间序列的特征，长短期相关注意力模型被作为回归模型进行每日流量的监测。目前的径流预测在短期预报的精度是可以接受的，但是在中长期时序预测的精度明显下降，无法准确预测径流量。

支持向量回归(Support Vector Regression,SVR)用于描述支持向量的回归。在支持向量回归中，使用了线性函数的假设空间，通过非线性映射函数，将输入向量映射到高维特征空间。使用优化算法进行训练，该算法通过统计学习理论实现学习偏差。通过找到回归函数来估计一组采样点x和期望值y之间的函数依赖性是支持向量回归的学习目标。支持向量回归中使用核函数来变更维输入空间并获得更可靠的回归。径向基函数(RBF)是支持向量回归中最常用的函数。

循环神经网络在神经元之间建立连接，形成定向循环。这种类型的结构建立了一个内部自环单元，可以展示动态的时间行为。这些结构还允许循环神经网络记住以前的信息。不幸的是，传统的循环神经网络结构经常导致梯度消失和梯度爆炸的问题。为了解决这些问题，长短期记忆网络作为一种特殊的循环神经网络被提出。通过向模块引入门，它可以长时间保留状态，而不会失去短期依赖性。门可以选择性地让信息通过以选择要记住的内容和要忘记的内容。因此，在训练梯度中不会消失。

XGBoost是一种可扩展树增强系统，旨在减少过度拟合和训练时间。它是一种增强树模型，它使用梯度增强组合了大量地树模型。XGBoost中的增强树可用于分类和回归。该算法的思想是不断通过变换特征产生树。实际上，每次添加一棵树就是在学习一个新函数，以拟合最后一个预测的残差。当训练k棵树时，需要预测样本的得分。每棵树中的叶节点对应于此样本的特征。每个叶节点对应一个得分，并且每颗树对应的得分相加以表示样本的预测值。

Light gradient boosting machine(LightGBM)是基于决策树的梯度提升框架和学习算法。它是基于梯度的单边采样和互斥特征捆绑算法的一种改进的梯度提升决策树算法。与XGBoost和常规梯度提升决策树算法相比，lightGBM具有更快的训练速度，更低的内存消耗和更高的准确性。

LightGBM使用基于梯度的单边采样算法选择分裂点。基于梯度的单边采样算法根据梯度的绝对值，对数据进行降序排序，并首先选择顶部的a×100％样本。然后，它随机选择其余数据的b×100％样本并乘以(1-a)/b。两个部分的样本组成一个新的数据集，并继续学习在何处进行分裂。重复之前的操作，直到达到所需的迭代时间或收敛为止。

使用互斥特征捆绑可以减少特征数量和训练时间。由于高维度数据的特征空间的稀疏性，可以捆绑特征以减少特征数量。在LightGBM中，通常用直方图算法进行互斥特征的捆绑。直方图算法的基本方法是将特征的连续值离散为k个整数，并构造宽度为k的直方图。当遍历数据时，根据离散化后的值作为索引在直方图中累积统计量。遍历数据一次后，直方图累积所需的统计信息。然后根据遍历得到的直方图的离散值，找到最佳分裂点。

现有的流量预测数据驱动模型没有考虑到中短期输入数据之间的耦合作用，在用于中长期流量预测时精度较低，不能达到实际的精度要求。本发明面向种基于长短时序相关性，考虑到了中短期输入数据之间的耦合作用，并引入没有编码器和解码器的自注意机制，建模不同时间之间的数据依赖。

发明内容

针对现有流量预测数据驱动模型用于中长期流量预测时精度低的问题，本发明提供一种基于长短时序相关性注意力机制模型的流量预测方法。

本发明的一种基于长短时序相关性注意力机制模型的流量预测方法，包括：

采集监测点预测当天的前连续15天的流量数据；

对预测当天的前连续7天的流量数据作线性变换，获得初次变换后数据作为查询、键及值的输入；对查询、键及值内的数据分别进行线性变换后，再采用放缩点积注意力机制模型进行处理；处理结果经Concat函数融合后，再进行线性变换，获得长度为7×1的一级向量；

将预测当天的前连续15天的流量数据线性变换后，输入长短期记忆网络LSTM，得到15×1的向量，将15×1的向量进行线性变换后获得同步变换数据；

对所述同步变换数据与所述初次变换后数据求解相关性，获得15×1的相关性向量，再进行线性变换得到长度为7×1的二级向量；

对所述一级向量与二级向量采用Concat函数进行加权求和，求和后再经正切函数进行正切变换，对正切变换的结果再进行线性变换，获得预测结果。

根据本发明的基于长短时序相关性注意力机制模型的流量预测方法，所述放缩点积注意力机制模型采用的函数包括：

Attention是自注意函数，其中Q表示查询内的矩阵，K表示键内的矩阵，V表示值内的矩阵；d表示键内的矩阵的维度。

根据本发明的基于长短时序相关性注意力机制模型的流量预测方法，所述放缩点积注意力机制模型包括一号矩阵相乘单元、Softmax函数和二号矩阵相乘单元；

所述一号矩阵相乘单元将线性变换后的查询和键内的数据相乘后，经Softmax函数得到概率值的矩阵；线性变换后的值内的数据与所述概率值的矩阵经二号矩阵相乘单元进行相乘运算，获得放缩点积注意力机制模型的处理结果。

本发明的有益效果：本发明方法中，短期的时间序列记录了最近七天的径流量信息，长期的时间序列记录了最近十五天的径流量信息。本发明方法能够提高数据驱动模型在中长期径流预测的精度，本发明方法在1到7天的预测结果都能满足精度要求。

经实验验证，本发明所述所述的长短时序相关性注意力机制模型与现有其它预测模型相比较，预测精度均高于其它模型，因此，提高了径流量预测的精度。

附图说明

图1是本发明所述的基于长短时序相关性注意力机制模型的流量预测方法的流程图；

图2是本发明中应用的研究区和四个监测站的位置图；

图3是五种模型在四个站点第一天预测的时间序列和局部放大图；

其中(a)为五种模型在Grand Rapids监测站第一天预测的时间序列和局部放大图；

(b)为五种模型在Aitkin监测站第一天预测的时间序列和局部放大图；

(c)为五种模型在St.Louis监测站第一天预测的时间序列和局部放大图；

(d)为五种模型在Thebes监测站第一天预测的时间序列和局部放大图；

图4是五种模型在四个站点第四天预测的时间序列和局部放大图；

其中(a)为五种模型在Grand Rapids监测站第四天预测的时间序列和局部放大图；

(b)为五种模型在Aitkin监测站第四天预测的时间序列和局部放大图；

(c)为五种模型在St.Louis监测站第四天预测的时间序列和局部放大图；

(d)为五种模型在Thebes监测站第四天预测的时间序列和局部放大图；

图5是五种模型在四个站点第七天预测的时间序列和局部放大图；

其中(a)为五种模型在Grand Rapids监测站第七天预测的时间序列和局部放大图；

(b)为五种模型在Aitkin监测站第七天预测的时间序列和局部放大图；

(c)为五种模型在St.Louis监测站第七天预测的时间序列和局部放大图；

(d)为五种模型在Thebes监测站第七天预测的时间序列和局部放大图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方式一、结合图1所示，本发明的第一方面提供了一种基于长短时序相关性注意力机制模型的流量预测方法，包括：

采集监测点预测当天的前连续15天的流量数据；

所述查询、键及值内的数据进行线性变换后，数据变换到一个新的维度。

进一步，结合图1所示，所述不带编码器和解码器的放缩点积注意力机制模型采用的函数包括：

再进一步，结合图1所示，所述不带编码器和解码器的放缩点积注意力机制模型包括一号矩阵相乘单元、Softmax函数和二号矩阵相乘单元；

所述线性变换后的值内的数据与所述概率值的矩阵进行相乘后，在Concat函数中将不同维度的矩阵进行融合后，再进行线性变换。所述放缩点积注意力机制模型采用的函数即为Concat函数中采用的函数。

本发明方法中的模型correlated long-and short-term attentive model(CLSTAM)上用到了注意力机制。注意力机制通过向神经网络的隐藏层分配不同的关注权重，使得隐藏层将关注关键信息。长短期记忆网络隐藏层的输出向量H＝{h₁,h₂,…,h_t}做为注意力机制的输入，其中h_t表示t时刻隐藏层的状态，上下文向量v_t是h_i和α_i相乘得到的，i＝1,2,3,……t；其中α_i是h_i的注意力权重：

每一个隐藏层输出向量的注意力权重α_i可以由下式计算：

e_i＝tanh(W_hh_i+b_h),e_i∈[-1,1]，

其中W_h是h_i的权重矩阵，b_h是h_i的偏移，W_h和b_h的值都可以在训练阶段被调整。

在时间序列中学习依赖关系有助于预测。但是，前向和后向路径的长度将减弱学习这种依赖性的能力。较短的前向和后向信号路径使学习依赖关系更加容易。为了获得更准确的依赖关系，本发明的CLSTAM中使用了放缩点积注意力机制(scaled dot-productattention)。

放缩点积注意力机制模型中，Q,K,V代表query(查询)，key(键)和value(值)的矩阵。Q是先前的解码器的状态，K和V是由输入线性变化而来。与累加的注意力机制相比，放缩点积注意力机制在训练过程中更快。Q,K,V经过线性变换后再进行放缩点积注意力操作。相关性是在放缩点积注意力中计算得到的。当Q＝K＝V时，放缩点积注意力被叫做自注意。自注意被广泛的应用于机器翻译，摘要提取和自然语言处理等领域。

本发明长短时序相关性注意力机制模型(correlated long-and short-termattentive model,CLSTAM)的创新点：

1、引入注意力机制来计算日径流预测的相互依赖性；

2、将长时间序列映射到相对短时间序列上并进行合并进行径流量预测。

本发明方法中首先将径流量数据输入长短期记忆网络，得到对应的隐藏层的值；选取预测当天的前15天数据作为长时间序列，选取预测当天的前7天数据作为短时间序列。然后利用注意力机制对长时间序列和短时间序列求解相关性，得到15×7的矩阵，再将该矩阵乘以短时间序列，得到15×1的向量，并将这个向量映射到7天的长度上，得到7×1的向量。对短时间序列做自注意处理，将短时间序列作为query，key和value的输入，做线性处理，query和key相乘，其结果经过softmax之后与value相乘，做线性处理，得到一个长度为7×1的向量。然后对前两步得到的结果进行加权求和，将得到的结果做正切变换，再做线性处理得到注意力机制最后输出的结果。其中所有的权重在训练阶段都被自动调整。选取均方根误差，平均绝对误差，纳什效率系数和相关系数作为评价模型性能的指标。其中均方根误差和平均绝对误差越接近0，模型效果越好；纳什效率系数和相关系数越接近1，模型效果越好。纳什效率系数大于0.9，表示该模型是令人满意的；纳什效率系数在0.8-0.9之间，表示该模型是相当好的模型；纳什效率小于0.8，表示该模型不令人满意。在求得相关系数后，需要用p值进行显著性检验，所述p值是用来判定假设检验结果的一个参数。

采用本发明中的CLSTAM模型与现有其他模型同时对密西西比河上的四个径流量监测站进行流量预测，可以获知，本发明方法能够取得最佳精度。在第一天到第七天的径流量预测中，CLSTAM模型的精度高于其他几个模型。对比没有加注意力机制的LSTM模型，CLSTAM模型精度有较大幅度的提升。由于用注意力机制获取前几天径流量的相关性，因而能够很好的提高径流量预测的精度。与其他机器学习的模型比较，CLSTAM模型的精度均有明显的提升。比较各模型的相关系数，纳什效率系数，均方根误差和平均绝对误差，CLSTAM的各项评级指标都优于其他现有的模型，例如SVR，LSTM，XGBoost和LightGBM模型。

比较长短期记忆网络和本发明的模型，从模型的均方根误差和平均绝对误差来看，注意力机制明显地提高了预测的精度，尤其是在径流量大的时候。注意力机制在平均绝对误差上的降低效果好于在均方根误差上的降低。在四个监测站，平均绝对误差分别下降了13.12％，24.61％，31.91％和39.29％，而均方根误差分别下降了11.16％，18.83％，25.35％和33.47％。说明注意力机制能很好的提高径流量预测的整体精度，但是在极端值预测精度上提高不太明显。

从相关系数来看，两个模型都保持在很高的水平。使用LSTM模型的相关系数在预测的第七天依然高于0.8。加入了注意力机制后，相关系数在所有时间都保持在0.9以上。且所有天的相关系数的p值都接近于0，通过了显著性检验。

从纳什效率系数来看，LSTM能够在前三天维持在0.9以上，并且比较接近加入注意力机制之后的模型的纳什效率系数。但是在第三天之后预测精度明显下降，在其中的两个监测站，纳什效率系数第七天的值甚至低于0.7。加入了注意力机制之后，纳什效率系数显著提高。在前四天的预测中，纳什效率系数都高于0.9。到预测的第七天，其中三个监测站的纳什效率系数大于0.8，另一个为0.794。注意力机制能够提高大约15％的纳什效率系数。在预测的前几天，纳什效率系数在径流量大的监测站更高，预测精度更高。

比较本CLSTAM模型和其他机器学习的模型，CLSTAM模型同样有更高的精度。随着预测时间的增加，CLSTAM的优势更加明显。径流量值越大，CLSTAM在预测精度上的提高越明显。

SVR模型在第一个站点的预测结果还是可以接受的，但是在另外三个监测站的预测结果误差较大，均方根误差和平均绝对误差是其他几种模型的几倍，纳什效率系数从第四天开始出现负值。

从均方根误差和平均绝对误差来看，在流量值较小的时候，所有模型预测结果在预测的第一天差距不大，都有很高的精度，CLSTAM模型稍微好于其他模型。在预测的第四天和第五天差距最大。在1-7天的预测中，CLSTAM模型一直是最好的预测模型。在流量较大的时候，LightGBM，XGBoost和CLSTAM模型在预测的第一天差距较大，在预测的第七天，本发明的误差比另外两种方法有超过15％的降低。

从相关系数来看，CLSTAM模型的相关系数在1到7天的预测一直高于0.9，其他模型的相关系数在大部分从第六天开始低于0.9，所有模型的p值都接近于0，通过了显著性检验。从纳什效率系数来看，LightGBM和XGBoost在预测的第五天基本都能保持在0.8以上，说明这两种方法在预测五天左右的流量可信度较高。在预测第七天，LightGBM在四个监测站的纳什效率系数分别为0.787，0.701，0.650和0.724，XGBoost在四个监测站的纳什效率系数分别为而本0.778，0.700，0.659和0.750，CLSTAM模型预测到第七天基本保持在0.8以上，被认为是相当好的模型。

具体实施例：

首先，选取密西西比河上的四个监测站，分别为Grand Rapids，Aitkin，St.Louis和Thebes监测站，获取Grand Rapids监测站1948年10月3日到1997年12月31日连续17987天的日径流量数据，Aitkin监测站1945年3月1日到1991年11月2日连续17048天的日径流量数据，St.Louis监测站1931年12月1日到2002年9月16日连续25858天的日径流量数据，Thebes监测站1939年10月1日到2000年10月21日连续22293天的日径流量数据。分别对每个监测站的径流量数据做归一化处理，前80％的数据用于模型训练，后20％的数据用于检验模型的精度。其次，将这些数据输入长短期记忆网络，得到对应的隐藏层的值，选取预测当天的前15天数据作为长时间序列，取预测当天的前7天数据作为短时间序列。然后利用注意力机制对长时间序列和短时间序列求解相关性，得到15×7的矩阵，再将该矩阵乘以短时间序列，得到15×1的向量，并将这个向量映射到7天的长度上。对短时间序列做自注意处理，得到一个长度为7×1的向量。然后对前两步得到的结果进行加权求和，将得到的结果做正切变换，再做线性变换得到注意力机制最后输出的结果。其中所有的权重在训练阶段都被自动调整。

在本发明的对比实验中，其它四个模型分别为SVR,XGBoost,LightGBM和LSTM模型。对SVR,XGBoost,LightGBM和LSTM模型输入预测当天前15天的数据，预测第一天到第七天的径流量。

图3，图4和图5分别显示了所有模型在四个站点的第一天，第四天和第七天的预测时间序列。径流量预测的更多细节在局部放大图中显示。

在图3(a)中，尽管所有模型在径流量预测中表现良好，但LSTM和SVR模型不能很好地适应峰值和谷值。LightGBM，XGBoost和CLSTAM模型适合大多数峰值。但是，LightGBM和XGBoost无法在几个谷值处很好地拟合。在Aitkin，St.Louis和Thebes站获得LightGBM，XGBoost和CLSTAM模型的相似结果(图3(b)-(d))。图3(b)-(d)显示，SVR模型的预测性能最差。在干旱季节，SVR模型的预测结果明显高于观测值。图3(b)-(d)表明，LSTM模型在径流序列开始和结束时的预测能力不足。

图3(a)的局部放大图显示了在Grand Rapids站的峰值处的预测结果。SVR模型性能最差，预测结果远高于观测值。LightGBM，XGBoost，LSTM和CLSTAM模型具有相似的性能。所有模型的结果均略高于观测值。图3(b)的局部放大图显示，除SVR模型外，其他四个模型都具有很强的捕获径流峰值的能力。图3(c)-3(d)的局部放大图显示，当基流较大时，CLSTAM，LSTM和SVR模型在峰值预测中很有效。LightGBM和XGBoost模型始终低估了峰值。

图4显示了四个监测站点所有模型在第四天的预测结果。显然，预测结果比第一天的结果差。其中出现了预测结果为负值的情况，是不合理的。因此，这些负值设置为零。SVR，LightGBM和XGBoost模型的结果与观测值相比有一个轻微的滞后，在它们之中，SVR模型的滞后最明显。图4(a)说明了LSTM模型在拟合径流序列的开始，结束和峰值方面的能力较差。CLSTAM，LightGBM和XGBoost模型在预测中表现良好。从图4(a)可以看出，SVR模型预测的结果范围比观测值大。图4(b)-(d)显示，在干旱季节，SVR模型的预测结果明显高于的观测值，说明了SVR模型对径流量预测能力的不足。图4(b)表明，与其他模型相比，在峰值预测中，CLSTAM模型具有最佳性能。CLSTAM模型和LSTM模型的性能在Aitkin和St.Louis站中比较接近，并且优于其他模型(见图4(b)和4(c))。LightGBM和XGBoost模型在某些极大值点上不能很好地拟合(见图4(c))。从图4(d)中可以看出，LightGBM和XGBoost模型的预测结果与观测值相比略有滞后。LSTM模型在序列开始和结束时的预测结果偏差较大。总体而言，CLSTAM模型具有最佳性能，而SVR模型具有最差性能。

图4的局部放大图显示了第四天的预测结果的细节。图4(a)和4(b)的局部放大图像显示了在Grand Rapids和Aitkin站峰值预测的表现。在图4(a)的局部放大图像中，SVR模型的性能最差，并且高估了峰值径流量。LightGBM，XGBoost，LSTM和CLSTAM模型具有相似的性能。图4(b)的局部放大图表明，LSTM和CLSTAM模型具有很好的捕获径流量峰值的能力，LightGBM和XGBoost模型高估了峰值，而SVR模型低估了峰值。图4(c)和图4(d)的局部放大图显示了在St.Louis和Thebes站预测基流时的表现。两个监测站点的SVR模型的预测结果远高于观测到的径流量。CLSTAM，LSTM，LightGBM和XGBoost模型具有相似的性能。同时，CLSTAM模型与其他三个模型相比最为稳定。其他三个模型的预测结果存在一定的波动，结果范围大于观测值。LSTM模型高估了大部分基流中发的高值。

图5显示了在四个站点中第七天所有模型的预测结果。显然，预测的结果在所有7天中是最差的，所有模型的预测的径流序列都落后于观测到的径流序列。滞后时间的排序为CLSTAM<LightGBM<XGBoost<LSTM<SVR。CLSTAM模型具有最好的预测能力。图5(a)说明了SVR模型在大多数时间都高估了径流量。从图5(a)-(c)中可以发现，LSTM模型在序列的开始和结束时预测精度不佳，且LSTM模型在图5(a)中的预测峰值和谷值表现不佳。图5(b)-5(d)表明，LightGBM和XGboost模型峰值预测的结果不佳，而SVR模型高估了旱季的径流。如图5(d)所示，LSTM模型的峰值预测能力差。CLSTAM模型是最稳定，最准确的模型，拟合了干旱季节的大部分时序(图5(a)-5(d))。

在图5的局部放大图中，可以明显看到预测模型的滞后，而CLSTAM模型的滞后量最小。在图5(a)，5(b)和5(d)局部放大图中，选择径流序列的中低值来比较模型的性能，而图5(c)显示了峰值处的预测。图5(a)的局部放大图显示，SVR模型预测的结果高于观测值，而LSTM模型的结果低于观测值。而且，两个模型的径流量变动都很频繁。其他三个模型的预测误差要小得多，并且相对拟合的更好。图5(b)的局部放大图显示了在径流较低时的微小波动预测的准确性。显然，LightGBM，XGBoost和LSTM模型高估了径流的变化。SVR模型无法满足第七天几乎所有径流序列的预测。CLSTAM模型显示了在基流预测的良好的能力和高精度。在图5(c)的局部放大图中，CLSTAM模型在这五个模型中具有最高的精度，而SVR模型具有最低的精度。LightGBM和XGBoost模型的预测结果相似，并且都低估了峰值。LSTM模型稍微高估了径流值。图5(d)的局部放大图显示了在第七天预测与观测到的径流序列之间最明显的滞后。CLSTAM模型的滞后最少，并且预测值最接近于观测值。在这五个模型中，SVR模型的误差最大。LSTM模型预测值的波动大于观察值。另外两个模型在径流量较低时预测能力差。

下面通过表格展示各种模型在各监测站的日径流量预测的性能：

表1.比较五种模型在Grand Rapids监测站的日径流量预测的性能

表中R(correlation coefficient)为相关系数，NSE(Nash-Sutcliffeefficiency coefficient)为纳什效率系数，RMSE(root mean square error)为均方根误差，MAE(mean absolute error)为平均绝对误差。

表2.比较五种模型在Aitkin监测站的日径流量预测的性能

表3.比较五种模型在St.Louis监测站的日径流量预测的性能

表4.比较五种模型在Thebes监测站的日径流量预测的性能

给合上述四个表格中五种模型对日径流量预测的性能的对比，可以确定本发明方法的预测精度更高。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.一种基于长短时序相关性注意力机制模型的流量预测方法，其特征在于，包括：

采集监测点预测当天的前连续15天的流量数据；

2.根据权利要求1所述的基于长短时序相关性注意力机制模型的流量预测方法，其特征在于，所述放缩点积注意力机制模型采用的函数包括：

3.根据权利要求1或2所述的基于长短时序相关性注意力机制模型的流量预测方法，其特征在于，所述放缩点积注意力机制模型包括一号矩阵相乘单元、Softmax函数和二号矩阵相乘单元；