CN111079998B - 基于长短时序相关性注意力机制模型的流量预测方法 - Google Patents

基于长短时序相关性注意力机制模型的流量预测方法 Download PDF

Info

Publication number
CN111079998B
CN111079998B CN201911221531.2A CN201911221531A CN111079998B CN 111079998 B CN111079998 B CN 111079998B CN 201911221531 A CN201911221531 A CN 201911221531A CN 111079998 B CN111079998 B CN 111079998B
Authority
CN
China
Prior art keywords
data
transformation
vector
matrix
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911221531.2A
Other languages
English (en)
Other versions
CN111079998A (zh
Inventor
陈曦
黄嘉旭
刘敏
丁婕
侯宇飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201911221531.2A priority Critical patent/CN111079998B/zh
Publication of CN111079998A publication Critical patent/CN111079998A/zh
Application granted granted Critical
Publication of CN111079998B publication Critical patent/CN111079998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

一种基于长短时序相关性注意力机制模型的流量预测方法,属于水文监测技术领域。本发明针对现有流量预测数据驱动模型用于中长期流量预测时精度低的问题。包括:对预测当天的前连续7天的流量数据作线性变换,获得初次变换后数据作为查询、键及值的输入;对查询、键及值内的数据分别进行线性变换后,再采用放缩点积注意力机制模型进行处理;处理结果经Concat函数融合后,再进行线性变换,获得长度为7×1的一级向量;再通过长短期记忆网络LSTM获得同步变换数据;对同步变换数据与初次变换后数据求解相关性,得到长度为7×1的二级向量;对一级向量与二级向量采用Concat函数进行加权求和,再正切变换后进行线性变换,获得预测结果。本发明用于流量预测。

Description

基于长短时序相关性注意力机制模型的流量预测方法
技术领域
本发明涉及基于长短时序相关性注意力机制模型的流量预测方法,属于水文监测技术领域。
背景技术
径流预报对于水资源管理至关重要,包括但不限于防洪,减灾,水库运营和生态系统保护等方面。水文模型是真实水文系统的简化表示,即表示降雨径流和融雪径流过程。数学水文模型主要可分为三类:概念模型,基于物理的模型和经验模型。概念模型和基于物理的模型都是基于过程的模型,它们在一定程度上明确地描述和量化了水文过程和水平衡。经验模型也称为黑箱模型,使用数据驱动的方法从统计角度估计输入-输出关系。长期以来,基于过程的模型由于其透明的模型结构和参数化在水文界起着主导作用,在测量流域中具有令人满意的模型性能。但是这些模型仍然面临着巨大的内在的新旧挑战。挑战之一就是径流过程的复杂性阻碍了基于过程模型的预报准确性的进一步提高。随着越来越多的地球观测数据和快速发展的数据驱动技术(尤其是在工业上),数据驱动方法引起了水文学和水科学领域的前所未有的关注。在最开始的阶段,线性随机模型包括自回归滑动平均和差分整合移动平均自回归被用于预测径流的时间序列,取得了不错的表现。这些模型基于输入和输出是线性相关的假设。实际上,它们在实际应用中是非线性相关的。因此,这些模型导致相对较差的性能。随着机器学习的发展,许多的非线性模型例如人工神经网络,支持向量机,支持向量回归(Support Vector Regression,SVR)和extreme gradient boosting(XGBoost)已经被用于径流预测研究。但是哪种模型能取得最好的效果并没有明确的结论。
众所周知,在不同的径流大小情况下,产流过程有着很大的不同。比如暴风雨会导致流量短时间内迅速的上升,而基流的大小是受其他因素的影响。因此,简单的人工神经网络不能准确的预测流量的变化。经过研究发现,基流是一种准周期信号,在不同的流量情况下它会受到不同噪声信号的干扰。小波变换能够有效的将原始信号分解成不同的时间尺度,从而提高预测的精度。同时例如奇异谱分析,主成分分析和集合经验模态分解等方法使用适当的数据预处理技术可以获得信号降噪并提高预测精度。
近年来,深度学习被用于径流预测并取得了很好的效果。Assem等人通过30年的最高温,最低温和流量数据,运用深度卷积神经网络预测水位和径流量。长短期记忆网络(Long short-term memory,LSTM)是一种特殊的循环神经网络,它被用于解决长时间序列的问题。Tian等人在径流量预测上比较了四种循环神经网络的性能,长短期记忆网络的表现好于其他的模型尤其是在小流域上。
随着注意力机制被广泛用于机器翻译,自动图像描述以及一些相关领域。Zoph和Knight将全局和局部注意力机制结合长短期记忆网络和循环神经网络,进行机器翻译和摘要提取。同时,Mashlakov等人在循环神经网络应用两头注意力机制进行电池电量的预测。考虑到径流量时间序列的特征,长短期相关注意力模型被作为回归模型进行每日流量的监测。目前的径流预测在短期预报的精度是可以接受的,但是在中长期时序预测的精度明显下降,无法准确预测径流量。
支持向量回归(Support Vector Regression,SVR)用于描述支持向量的回归。在支持向量回归中,使用了线性函数的假设空间,通过非线性映射函数,将输入向量映射到高维特征空间。使用优化算法进行训练,该算法通过统计学习理论实现学习偏差。通过找到回归函数来估计一组采样点x和期望值y之间的函数依赖性是支持向量回归的学习目标。支持向量回归中使用核函数来变更维输入空间并获得更可靠的回归。径向基函数(RBF)是支持向量回归中最常用的函数。
循环神经网络在神经元之间建立连接,形成定向循环。这种类型的结构建立了一个内部自环单元,可以展示动态的时间行为。这些结构还允许循环神经网络记住以前的信息。不幸的是,传统的循环神经网络结构经常导致梯度消失和梯度爆炸的问题。为了解决这些问题,长短期记忆网络作为一种特殊的循环神经网络被提出。通过向模块引入门,它可以长时间保留状态,而不会失去短期依赖性。门可以选择性地让信息通过以选择要记住的内容和要忘记的内容。因此,在训练梯度中不会消失。
XGBoost是一种可扩展树增强系统,旨在减少过度拟合和训练时间。它是一种增强树模型,它使用梯度增强组合了大量地树模型。XGBoost中的增强树可用于分类和回归。该算法的思想是不断通过变换特征产生树。实际上,每次添加一棵树就是在学习一个新函数,以拟合最后一个预测的残差。当训练k棵树时,需要预测样本的得分。每棵树中的叶节点对应于此样本的特征。每个叶节点对应一个得分,并且每颗树对应的得分相加以表示样本的预测值。
Light gradient boosting machine(LightGBM)是基于决策树的梯度提升框架和学习算法。它是基于梯度的单边采样和互斥特征捆绑算法的一种改进的梯度提升决策树算法。与XGBoost和常规梯度提升决策树算法相比,lightGBM具有更快的训练速度,更低的内存消耗和更高的准确性。
LightGBM使用基于梯度的单边采样算法选择分裂点。基于梯度的单边采样算法根据梯度的绝对值,对数据进行降序排序,并首先选择顶部的a×100%样本。然后,它随机选择其余数据的b×100%样本并乘以(1-a)/b。两个部分的样本组成一个新的数据集,并继续学习在何处进行分裂。重复之前的操作,直到达到所需的迭代时间或收敛为止。
使用互斥特征捆绑可以减少特征数量和训练时间。由于高维度数据的特征空间的稀疏性,可以捆绑特征以减少特征数量。在LightGBM中,通常用直方图算法进行互斥特征的捆绑。直方图算法的基本方法是将特征的连续值离散为k个整数,并构造宽度为k的直方图。当遍历数据时,根据离散化后的值作为索引在直方图中累积统计量。遍历数据一次后,直方图累积所需的统计信息。然后根据遍历得到的直方图的离散值,找到最佳分裂点。
现有的流量预测数据驱动模型没有考虑到中短期输入数据之间的耦合作用,在用于中长期流量预测时精度较低,不能达到实际的精度要求。本发明面向种基于长短时序相关性,考虑到了中短期输入数据之间的耦合作用,并引入没有编码器和解码器的自注意机制,建模不同时间之间的数据依赖。
发明内容
针对现有流量预测数据驱动模型用于中长期流量预测时精度低的问题,本发明提供一种基于长短时序相关性注意力机制模型的流量预测方法。
本发明的一种基于长短时序相关性注意力机制模型的流量预测方法,包括:
采集监测点预测当天的前连续15天的流量数据;
对预测当天的前连续7天的流量数据作线性变换,获得初次变换后数据作为查询、键及值的输入;对查询、键及值内的数据分别进行线性变换后,再采用放缩点积注意力机制模型进行处理;处理结果经Concat函数融合后,再进行线性变换,获得长度为7×1的一级向量;
将预测当天的前连续15天的流量数据线性变换后,输入长短期记忆网络LSTM,得到15×1的向量,将15×1的向量进行线性变换后获得同步变换数据;
对所述同步变换数据与所述初次变换后数据求解相关性,获得15×1的相关性向量,再进行线性变换得到长度为7×1的二级向量;
对所述一级向量与二级向量采用Concat函数进行加权求和,求和后再经正切函数进行正切变换,对正切变换的结果再进行线性变换,获得预测结果。
根据本发明的基于长短时序相关性注意力机制模型的流量预测方法,所述放缩点积注意力机制模型采用的函数包括:
Figure BDA0002300986050000041
Attention是自注意函数,其中Q表示查询内的矩阵,K表示键内的矩阵,V表示值内的矩阵;d表示键内的矩阵的维度。
根据本发明的基于长短时序相关性注意力机制模型的流量预测方法,所述放缩点积注意力机制模型包括一号矩阵相乘单元、Softmax函数和二号矩阵相乘单元;
所述一号矩阵相乘单元将线性变换后的查询和键内的数据相乘后,经Softmax函数得到概率值的矩阵;线性变换后的值内的数据与所述概率值的矩阵经二号矩阵相乘单元进行相乘运算,获得放缩点积注意力机制模型的处理结果。
本发明的有益效果:本发明方法中,短期的时间序列记录了最近七天的径流量信息,长期的时间序列记录了最近十五天的径流量信息。本发明方法能够提高数据驱动模型在中长期径流预测的精度,本发明方法在1到7天的预测结果都能满足精度要求。
经实验验证,本发明所述所述的长短时序相关性注意力机制模型与现有其它预测模型相比较,预测精度均高于其它模型,因此,提高了径流量预测的精度。
附图说明
图1是本发明所述的基于长短时序相关性注意力机制模型的流量预测方法的流程图;
图2是本发明中应用的研究区和四个监测站的位置图;
图3是五种模型在四个站点第一天预测的时间序列和局部放大图;
其中(a)为五种模型在Grand Rapids监测站第一天预测的时间序列和局部放大图;
(b)为五种模型在Aitkin监测站第一天预测的时间序列和局部放大图;
(c)为五种模型在St.Louis监测站第一天预测的时间序列和局部放大图;
(d)为五种模型在Thebes监测站第一天预测的时间序列和局部放大图;
图4是五种模型在四个站点第四天预测的时间序列和局部放大图;
其中(a)为五种模型在Grand Rapids监测站第四天预测的时间序列和局部放大图;
(b)为五种模型在Aitkin监测站第四天预测的时间序列和局部放大图;
(c)为五种模型在St.Louis监测站第四天预测的时间序列和局部放大图;
(d)为五种模型在Thebes监测站第四天预测的时间序列和局部放大图;
图5是五种模型在四个站点第七天预测的时间序列和局部放大图;
其中(a)为五种模型在Grand Rapids监测站第七天预测的时间序列和局部放大图;
(b)为五种模型在Aitkin监测站第七天预测的时间序列和局部放大图;
(c)为五种模型在St.Louis监测站第七天预测的时间序列和局部放大图;
(d)为五种模型在Thebes监测站第七天预测的时间序列和局部放大图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
具体实施方式一、结合图1所示,本发明的第一方面提供了一种基于长短时序相关性注意力机制模型的流量预测方法,包括:
采集监测点预测当天的前连续15天的流量数据;
对预测当天的前连续7天的流量数据作线性变换,获得初次变换后数据作为查询、键及值的输入;对查询、键及值内的数据分别进行线性变换后,再采用放缩点积注意力机制模型进行处理;处理结果经Concat函数融合后,再进行线性变换,获得长度为7×1的一级向量;
将预测当天的前连续15天的流量数据线性变换后,输入长短期记忆网络LSTM,得到15×1的向量,将15×1的向量进行线性变换后获得同步变换数据;
对所述同步变换数据与所述初次变换后数据求解相关性,获得15×1的相关性向量,再进行线性变换得到长度为7×1的二级向量;
对所述一级向量与二级向量采用Concat函数进行加权求和,求和后再经正切函数进行正切变换,对正切变换的结果再进行线性变换,获得预测结果。
所述查询、键及值内的数据进行线性变换后,数据变换到一个新的维度。
进一步,结合图1所示,所述不带编码器和解码器的放缩点积注意力机制模型采用的函数包括:
Figure BDA0002300986050000051
Attention是自注意函数,其中Q表示查询内的矩阵,K表示键内的矩阵,V表示值内的矩阵;d表示键内的矩阵的维度。
再进一步,结合图1所示,所述不带编码器和解码器的放缩点积注意力机制模型包括一号矩阵相乘单元、Softmax函数和二号矩阵相乘单元;
所述一号矩阵相乘单元将线性变换后的查询和键内的数据相乘后,经Softmax函数得到概率值的矩阵;线性变换后的值内的数据与所述概率值的矩阵经二号矩阵相乘单元进行相乘运算,获得放缩点积注意力机制模型的处理结果。
所述线性变换后的值内的数据与所述概率值的矩阵进行相乘后,在Concat函数中将不同维度的矩阵进行融合后,再进行线性变换。所述放缩点积注意力机制模型采用的函数即为Concat函数中采用的函数。
本发明方法中的模型correlated long-and short-term attentive model(CLSTAM)上用到了注意力机制。注意力机制通过向神经网络的隐藏层分配不同的关注权重,使得隐藏层将关注关键信息。长短期记忆网络隐藏层的输出向量H={h1,h2,…,ht}做为注意力机制的输入,其中ht表示t时刻隐藏层的状态,上下文向量vt是hi和αi相乘得到的,i=1,2,3,……t;其中αi是hi的注意力权重:
Figure BDA0002300986050000061
每一个隐藏层输出向量的注意力权重αi可以由下式计算:
Figure BDA0002300986050000062
Figure BDA0002300986050000063
ei=tanh(Whhi+bh),ei∈[-1,1],
其中Wh是hi的权重矩阵,bh是hi的偏移,Wh和bh的值都可以在训练阶段被调整。
在时间序列中学习依赖关系有助于预测。但是,前向和后向路径的长度将减弱学习这种依赖性的能力。较短的前向和后向信号路径使学习依赖关系更加容易。为了获得更准确的依赖关系,本发明的CLSTAM中使用了放缩点积注意力机制(scaled dot-productattention)。
放缩点积注意力机制模型中,Q,K,V代表query(查询),key(键)和value(值)的矩阵。Q是先前的解码器的状态,K和V是由输入线性变化而来。与累加的注意力机制相比,放缩点积注意力机制在训练过程中更快。Q,K,V经过线性变换后再进行放缩点积注意力操作。相关性是在放缩点积注意力中计算得到的。当Q=K=V时,放缩点积注意力被叫做自注意。自注意被广泛的应用于机器翻译,摘要提取和自然语言处理等领域。
本发明长短时序相关性注意力机制模型(correlated long-and short-termattentive model,CLSTAM)的创新点:
1、引入注意力机制来计算日径流预测的相互依赖性;
2、将长时间序列映射到相对短时间序列上并进行合并进行径流量预测。
本发明方法中首先将径流量数据输入长短期记忆网络,得到对应的隐藏层的值;选取预测当天的前15天数据作为长时间序列,选取预测当天的前7天数据作为短时间序列。然后利用注意力机制对长时间序列和短时间序列求解相关性,得到15×7的矩阵,再将该矩阵乘以短时间序列,得到15×1的向量,并将这个向量映射到7天的长度上,得到7×1的向量。对短时间序列做自注意处理,将短时间序列作为query,key和value的输入,做线性处理,query和key相乘,其结果经过softmax之后与value相乘,做线性处理,得到一个长度为7×1的向量。然后对前两步得到的结果进行加权求和,将得到的结果做正切变换,再做线性处理得到注意力机制最后输出的结果。其中所有的权重在训练阶段都被自动调整。选取均方根误差,平均绝对误差,纳什效率系数和相关系数作为评价模型性能的指标。其中均方根误差和平均绝对误差越接近0,模型效果越好;纳什效率系数和相关系数越接近1,模型效果越好。纳什效率系数大于0.9,表示该模型是令人满意的;纳什效率系数在0.8-0.9之间,表示该模型是相当好的模型;纳什效率小于0.8,表示该模型不令人满意。在求得相关系数后,需要用p值进行显著性检验,所述p值是用来判定假设检验结果的一个参数。
采用本发明中的CLSTAM模型与现有其他模型同时对密西西比河上的四个径流量监测站进行流量预测,可以获知,本发明方法能够取得最佳精度。在第一天到第七天的径流量预测中,CLSTAM模型的精度高于其他几个模型。对比没有加注意力机制的LSTM模型,CLSTAM模型精度有较大幅度的提升。由于用注意力机制获取前几天径流量的相关性,因而能够很好的提高径流量预测的精度。与其他机器学习的模型比较,CLSTAM模型的精度均有明显的提升。比较各模型的相关系数,纳什效率系数,均方根误差和平均绝对误差,CLSTAM的各项评级指标都优于其他现有的模型,例如SVR,LSTM,XGBoost和LightGBM模型。
比较长短期记忆网络和本发明的模型,从模型的均方根误差和平均绝对误差来看,注意力机制明显地提高了预测的精度,尤其是在径流量大的时候。注意力机制在平均绝对误差上的降低效果好于在均方根误差上的降低。在四个监测站,平均绝对误差分别下降了13.12%,24.61%,31.91%和39.29%,而均方根误差分别下降了11.16%,18.83%,25.35%和33.47%。说明注意力机制能很好的提高径流量预测的整体精度,但是在极端值预测精度上提高不太明显。
从相关系数来看,两个模型都保持在很高的水平。使用LSTM模型的相关系数在预测的第七天依然高于0.8。加入了注意力机制后,相关系数在所有时间都保持在0.9以上。且所有天的相关系数的p值都接近于0,通过了显著性检验。
从纳什效率系数来看,LSTM能够在前三天维持在0.9以上,并且比较接近加入注意力机制之后的模型的纳什效率系数。但是在第三天之后预测精度明显下降,在其中的两个监测站,纳什效率系数第七天的值甚至低于0.7。加入了注意力机制之后,纳什效率系数显著提高。在前四天的预测中,纳什效率系数都高于0.9。到预测的第七天,其中三个监测站的纳什效率系数大于0.8,另一个为0.794。注意力机制能够提高大约15%的纳什效率系数。在预测的前几天,纳什效率系数在径流量大的监测站更高,预测精度更高。
比较本CLSTAM模型和其他机器学习的模型,CLSTAM模型同样有更高的精度。随着预测时间的增加,CLSTAM的优势更加明显。径流量值越大,CLSTAM在预测精度上的提高越明显。
SVR模型在第一个站点的预测结果还是可以接受的,但是在另外三个监测站的预测结果误差较大,均方根误差和平均绝对误差是其他几种模型的几倍,纳什效率系数从第四天开始出现负值。
从均方根误差和平均绝对误差来看,在流量值较小的时候,所有模型预测结果在预测的第一天差距不大,都有很高的精度,CLSTAM模型稍微好于其他模型。在预测的第四天和第五天差距最大。在1-7天的预测中,CLSTAM模型一直是最好的预测模型。在流量较大的时候,LightGBM,XGBoost和CLSTAM模型在预测的第一天差距较大,在预测的第七天,本发明的误差比另外两种方法有超过15%的降低。
从相关系数来看,CLSTAM模型的相关系数在1到7天的预测一直高于0.9,其他模型的相关系数在大部分从第六天开始低于0.9,所有模型的p值都接近于0,通过了显著性检验。从纳什效率系数来看,LightGBM和XGBoost在预测的第五天基本都能保持在0.8以上,说明这两种方法在预测五天左右的流量可信度较高。在预测第七天,LightGBM在四个监测站的纳什效率系数分别为0.787,0.701,0.650和0.724,XGBoost在四个监测站的纳什效率系数分别为而本0.778,0.700,0.659和0.750,CLSTAM模型预测到第七天基本保持在0.8以上,被认为是相当好的模型。
具体实施例:
首先,选取密西西比河上的四个监测站,分别为Grand Rapids,Aitkin,St.Louis和Thebes监测站,获取Grand Rapids监测站1948年10月3日到1997年12月31日连续17987天的日径流量数据,Aitkin监测站1945年3月1日到1991年11月2日连续17048天的日径流量数据,St.Louis监测站1931年12月1日到2002年9月16日连续25858天的日径流量数据,Thebes监测站1939年10月1日到2000年10月21日连续22293天的日径流量数据。分别对每个监测站的径流量数据做归一化处理,前80%的数据用于模型训练,后20%的数据用于检验模型的精度。其次,将这些数据输入长短期记忆网络,得到对应的隐藏层的值,选取预测当天的前15天数据作为长时间序列,取预测当天的前7天数据作为短时间序列。然后利用注意力机制对长时间序列和短时间序列求解相关性,得到15×7的矩阵,再将该矩阵乘以短时间序列,得到15×1的向量,并将这个向量映射到7天的长度上。对短时间序列做自注意处理,得到一个长度为7×1的向量。然后对前两步得到的结果进行加权求和,将得到的结果做正切变换,再做线性变换得到注意力机制最后输出的结果。其中所有的权重在训练阶段都被自动调整。
在本发明的对比实验中,其它四个模型分别为SVR,XGBoost,LightGBM和LSTM模型。对SVR,XGBoost,LightGBM和LSTM模型输入预测当天前15天的数据,预测第一天到第七天的径流量。
图3,图4和图5分别显示了所有模型在四个站点的第一天,第四天和第七天的预测时间序列。径流量预测的更多细节在局部放大图中显示。
在图3(a)中,尽管所有模型在径流量预测中表现良好,但LSTM和SVR模型不能很好地适应峰值和谷值。LightGBM,XGBoost和CLSTAM模型适合大多数峰值。但是,LightGBM和XGBoost无法在几个谷值处很好地拟合。在Aitkin,St.Louis和Thebes站获得LightGBM,XGBoost和CLSTAM模型的相似结果(图3(b)-(d))。图3(b)-(d)显示,SVR模型的预测性能最差。在干旱季节,SVR模型的预测结果明显高于观测值。图3(b)-(d)表明,LSTM模型在径流序列开始和结束时的预测能力不足。
图3(a)的局部放大图显示了在Grand Rapids站的峰值处的预测结果。SVR模型性能最差,预测结果远高于观测值。LightGBM,XGBoost,LSTM和CLSTAM模型具有相似的性能。所有模型的结果均略高于观测值。图3(b)的局部放大图显示,除SVR模型外,其他四个模型都具有很强的捕获径流峰值的能力。图3(c)-3(d)的局部放大图显示,当基流较大时,CLSTAM,LSTM和SVR模型在峰值预测中很有效。LightGBM和XGBoost模型始终低估了峰值。
图4显示了四个监测站点所有模型在第四天的预测结果。显然,预测结果比第一天的结果差。其中出现了预测结果为负值的情况,是不合理的。因此,这些负值设置为零。SVR,LightGBM和XGBoost模型的结果与观测值相比有一个轻微的滞后,在它们之中,SVR模型的滞后最明显。图4(a)说明了LSTM模型在拟合径流序列的开始,结束和峰值方面的能力较差。CLSTAM,LightGBM和XGBoost模型在预测中表现良好。从图4(a)可以看出,SVR模型预测的结果范围比观测值大。图4(b)-(d)显示,在干旱季节,SVR模型的预测结果明显高于的观测值,说明了SVR模型对径流量预测能力的不足。图4(b)表明,与其他模型相比,在峰值预测中,CLSTAM模型具有最佳性能。CLSTAM模型和LSTM模型的性能在Aitkin和St.Louis站中比较接近,并且优于其他模型(见图4(b)和4(c))。LightGBM和XGBoost模型在某些极大值点上不能很好地拟合(见图4(c))。从图4(d)中可以看出,LightGBM和XGBoost模型的预测结果与观测值相比略有滞后。LSTM模型在序列开始和结束时的预测结果偏差较大。总体而言,CLSTAM模型具有最佳性能,而SVR模型具有最差性能。
图4的局部放大图显示了第四天的预测结果的细节。图4(a)和4(b)的局部放大图像显示了在Grand Rapids和Aitkin站峰值预测的表现。在图4(a)的局部放大图像中,SVR模型的性能最差,并且高估了峰值径流量。LightGBM,XGBoost,LSTM和CLSTAM模型具有相似的性能。图4(b)的局部放大图表明,LSTM和CLSTAM模型具有很好的捕获径流量峰值的能力,LightGBM和XGBoost模型高估了峰值,而SVR模型低估了峰值。图4(c)和图4(d)的局部放大图显示了在St.Louis和Thebes站预测基流时的表现。两个监测站点的SVR模型的预测结果远高于观测到的径流量。CLSTAM,LSTM,LightGBM和XGBoost模型具有相似的性能。同时,CLSTAM模型与其他三个模型相比最为稳定。其他三个模型的预测结果存在一定的波动,结果范围大于观测值。LSTM模型高估了大部分基流中发的高值。
图5显示了在四个站点中第七天所有模型的预测结果。显然,预测的结果在所有7天中是最差的,所有模型的预测的径流序列都落后于观测到的径流序列。滞后时间的排序为CLSTAM<LightGBM<XGBoost<LSTM<SVR。CLSTAM模型具有最好的预测能力。图5(a)说明了SVR模型在大多数时间都高估了径流量。从图5(a)-(c)中可以发现,LSTM模型在序列的开始和结束时预测精度不佳,且LSTM模型在图5(a)中的预测峰值和谷值表现不佳。图5(b)-5(d)表明,LightGBM和XGboost模型峰值预测的结果不佳,而SVR模型高估了旱季的径流。如图5(d)所示,LSTM模型的峰值预测能力差。CLSTAM模型是最稳定,最准确的模型,拟合了干旱季节的大部分时序(图5(a)-5(d))。
在图5的局部放大图中,可以明显看到预测模型的滞后,而CLSTAM模型的滞后量最小。在图5(a),5(b)和5(d)局部放大图中,选择径流序列的中低值来比较模型的性能,而图5(c)显示了峰值处的预测。图5(a)的局部放大图显示,SVR模型预测的结果高于观测值,而LSTM模型的结果低于观测值。而且,两个模型的径流量变动都很频繁。其他三个模型的预测误差要小得多,并且相对拟合的更好。图5(b)的局部放大图显示了在径流较低时的微小波动预测的准确性。显然,LightGBM,XGBoost和LSTM模型高估了径流的变化。SVR模型无法满足第七天几乎所有径流序列的预测。CLSTAM模型显示了在基流预测的良好的能力和高精度。在图5(c)的局部放大图中,CLSTAM模型在这五个模型中具有最高的精度,而SVR模型具有最低的精度。LightGBM和XGBoost模型的预测结果相似,并且都低估了峰值。LSTM模型稍微高估了径流值。图5(d)的局部放大图显示了在第七天预测与观测到的径流序列之间最明显的滞后。CLSTAM模型的滞后最少,并且预测值最接近于观测值。在这五个模型中,SVR模型的误差最大。LSTM模型预测值的波动大于观察值。另外两个模型在径流量较低时预测能力差。
下面通过表格展示各种模型在各监测站的日径流量预测的性能:
表1.比较五种模型在Grand Rapids监测站的日径流量预测的性能
Figure BDA0002300986050000111
Figure BDA0002300986050000121
表中R(correlation coefficient)为相关系数,NSE(Nash-Sutcliffeefficiency coefficient)为纳什效率系数,RMSE(root mean square error)为均方根误差,MAE(mean absolute error)为平均绝对误差。
表2.比较五种模型在Aitkin监测站的日径流量预测的性能
Figure BDA0002300986050000122
Figure BDA0002300986050000131
表3.比较五种模型在St.Louis监测站的日径流量预测的性能
Figure BDA0002300986050000132
Figure BDA0002300986050000141
表4.比较五种模型在Thebes监测站的日径流量预测的性能
Figure BDA0002300986050000142
给合上述四个表格中五种模型对日径流量预测的性能的对比,可以确定本发明方法的预测精度更高。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (2)

1.一种基于长短时序相关性注意力机制模型的流量预测方法,其特征在于,包括:
采集监测点预测当天的前连续15天的流量数据;
对预测当天的前连续7天的流量数据作线性变换,获得初次变换后数据作为查询、键及值的输入;对查询、键及值内的数据分别进行线性变换后,再采用放缩点积注意力机制模型进行处理;处理结果经Concat函数融合后,再进行线性变换,获得长度为7×1的一级向量;
将预测当天的前连续15天的流量数据线性变换后,输入长短期记忆网络LSTM,得到15×1的向量,将15×1的向量进行线性变换后获得同步变换数据;
对所述同步变换数据与所述初次变换后数据求解相关性,获得15×1的相关性向量,再进行线性变换得到长度为7×1的二级向量;
对所述一级向量与二级向量采用Concat函数进行加权求和,求和后再经正切函数进行正切变换,对正切变换的结果再进行线性变换,获得预测结果;
所述放缩点积注意力机制模型包括一号矩阵相乘单元、Softmax函数和二号矩阵相乘单元;
所述一号矩阵相乘单元将线性变换后的查询和键内的数据相乘后,经Softmax函数得到概率值的矩阵;线性变换后的值内的数据与所述概率值的矩阵经二号矩阵相乘单元进行相乘运算,获得放缩点积注意力机制模型的处理结果;
首先将流量数据输入长短期记忆网络LSTM,得到对应的隐藏层的值;选取预测当天的前连续15天的流量数据作为长时间序列,选取预测当天的前连续7天的流量数据作为短时间序列;然后利用注意力机制对长时间序列和短时间序列求解相关性,得到15×7的矩阵,再将所述15×7的矩阵乘以短时间序列,得到15×1的向量,并将所述15×1的向量映射到7天的长度上,得到7×1的向量;
对短时间序列做自注意处理,将短时间序列作为查询、键及值的输入,做线性处理,查询和键相乘,其结果经过softmax函数之后与值相乘,做线性处理,得到一个长度为7×1的向量;
然后对前两步得到的结果进行加权求和,将得到的结果做正切变换,再做线性处理得到注意力机制最后输出的结果。
2.根据权利要求1所述的基于长短时序相关性注意力机制模型的流量预测方法,其特征在于,所述放缩点积注意力机制模型采用的函数包括:
Figure FDA0002723190810000011
Attention是自注意函数,其中Q表示查询内的矩阵,K表示键内的矩阵,V表示值内的矩阵;d表示键内的矩阵的维度。
CN201911221531.2A 2019-12-03 2019-12-03 基于长短时序相关性注意力机制模型的流量预测方法 Active CN111079998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911221531.2A CN111079998B (zh) 2019-12-03 2019-12-03 基于长短时序相关性注意力机制模型的流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911221531.2A CN111079998B (zh) 2019-12-03 2019-12-03 基于长短时序相关性注意力机制模型的流量预测方法

Publications (2)

Publication Number Publication Date
CN111079998A CN111079998A (zh) 2020-04-28
CN111079998B true CN111079998B (zh) 2020-12-01

Family

ID=70312603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911221531.2A Active CN111079998B (zh) 2019-12-03 2019-12-03 基于长短时序相关性注意力机制模型的流量预测方法

Country Status (1)

Country Link
CN (1) CN111079998B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860939B (zh) * 2020-06-02 2022-04-08 合肥工业大学 基于注意力机制和rclstm网络的客流量预测方法及系统
CN111753965A (zh) * 2020-06-30 2020-10-09 长江水利委员会水文局 一种基于深度学习的河流流量自动整编方法及系统
CN112308702A (zh) * 2020-10-30 2021-02-02 北京云从科技有限公司 一种信贷风险评估方法、装置、介质及设备
CN113139700B (zh) * 2020-11-30 2022-03-11 中科三清科技有限公司 一种河流流量预测方法、装置、设备及存储介质
CN112819219A (zh) * 2021-01-26 2021-05-18 河海大学 一种基于自注意力机制的时序网络的洪水流量预测方法
CN115206092B (zh) * 2022-06-10 2023-09-19 南京工程学院 一种基于注意力机制的BiLSTM和LightGBM模型的交通预测方法
CN116562176B (zh) * 2023-07-11 2023-10-03 成都理工大学 一种基于耦合神经网络与水文物理模型的径流模拟方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109242140A (zh) * 2018-07-24 2019-01-18 浙江工业大学 一种基于LSTM_Attention网络的交通流预测方法
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN109583656A (zh) * 2018-12-06 2019-04-05 重庆邮电大学 基于a-lstm的城市轨道交通客流量预测方法
CN109583565A (zh) * 2018-11-07 2019-04-05 河海大学 基于注意力模型长短时记忆网络的洪水预测方法
CN110197307A (zh) * 2019-06-03 2019-09-03 上海海洋大学 一种结合注意力机制的区域型海表面温度预测方法
CN110390010A (zh) * 2019-07-31 2019-10-29 电子科技大学 一种自动文本摘要方法
CN110445646A (zh) * 2019-07-30 2019-11-12 广东工业大学 一种基于注意力机制和流量预测模型的资源预留方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102033411B1 (ko) * 2016-08-12 2019-10-17 한국전자통신연구원 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법
CN109460855A (zh) * 2018-09-29 2019-03-12 中山大学 一种基于聚焦机制的群体流量预测模型及方法
CN110138595A (zh) * 2019-04-12 2019-08-16 中国科学院深圳先进技术研究院 动态加权网络的时间链路预测方法、装置、设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN109242140A (zh) * 2018-07-24 2019-01-18 浙江工业大学 一种基于LSTM_Attention网络的交通流预测方法
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN109583565A (zh) * 2018-11-07 2019-04-05 河海大学 基于注意力模型长短时记忆网络的洪水预测方法
CN109583656A (zh) * 2018-12-06 2019-04-05 重庆邮电大学 基于a-lstm的城市轨道交通客流量预测方法
CN110197307A (zh) * 2019-06-03 2019-09-03 上海海洋大学 一种结合注意力机制的区域型海表面温度预测方法
CN110445646A (zh) * 2019-07-30 2019-11-12 广东工业大学 一种基于注意力机制和流量预测模型的资源预留方法
CN110390010A (zh) * 2019-07-31 2019-10-29 电子科技大学 一种自动文本摘要方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spatio-Temporal Attention LSTM Model for Flood forecasting;Yukai Ding etc.;《2019 International Conference on Internet of Things and IEEE Green Computing and Communication and IEEE Cyber,Physical and Social Computing and IEEE Smart Data》;20190717;第458-465页 *
基于多特征自注意力BLSTM的中文实体关系抽取;李卫疆等;《中文信息学报》;20191031;第48-72页 *

Also Published As

Publication number Publication date
CN111079998A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111079998B (zh) 基于长短时序相关性注意力机制模型的流量预测方法
CN109272146B (zh) 一种基于深度学习模型和bp神经网络校正的洪水预测方法
Gao et al. Short-term runoff prediction with GRU and LSTM networks without requiring time step optimization during sample generation
Li et al. Multi-step wind speed prediction based on turbulence intensity and hybrid deep neural networks
CN109299812B (zh) 一种基于深度学习模型和knn实时校正的洪水预测方法
Todini A model conditional processor to assess predictive uncertainty in flood forecasting
Li et al. A new flood forecasting model based on SVM and boosting learning algorithms
Lian et al. A novel data-driven tropical cyclone track prediction model based on CNN and GRU with multi-dimensional feature selection
Shiri et al. Estimation of daily suspended sediment load by using wavelet conjunction models
CN114006826B (zh) 一种融合流量特征的网络流量预测方法
Yan et al. A stream prediction model based on attention-LSTM
Nourani et al. A new hybrid algorithm for rainfall–runoff process modeling based on the wavelet transform and genetic fuzzy system
CN115310536A (zh) 基于神经网络和gcn深度学习模型的水库水位预测预警方法
Li et al. Decomposition-ANN methods for long-term discharge prediction based on Fisher’s ordered clustering with MESA
Ibrahim et al. Forecasting multi-step-ahead reservoir monthly and daily inflow using machine learning models based on different scenarios
CN112016839A (zh) 一种基于qr-bc-elm的洪涝灾害预测预警方法
Coppola Jr et al. Fuzzy rule-based methodology for estimating monthly groundwater recharge in a temperate watershed
Başakin et al. Monthly river discharge prediction by wavelet fuzzy time series method
Nazir et al. Improving the prediction accuracy of river inflow using two data pre-processing techniques coupled with data-driven model
Couta et al. River flow forecasting using long short-term memory
Cui et al. Exploration of dual-attention mechanism-based deep learning for multi-step-ahead flood probabilistic forecasting
CN111428421A (zh) 一种物理机制引导深度学习的降雨径流模拟方法
Stokelj et al. Enhanced artificial neural network inflow forecasting algorithm for run-of-river hydropower plants
CN115330085A (zh) 基于深度神经网络且无未来信息泄露的风速预测方法
Dawson et al. Inductive learning approaches to rainfall-runoff modelling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 3663 Zhongshan North Road, Putuo District, Shanghai

Applicant after: EAST CHINA NORMAL University

Address before: 150000 Huawei building, No.43, Mingmin street, Nangang District, Harbin City, Heilongjiang Province

Applicant before: EAST CHINA NORMAL University

GR01 Patent grant
GR01 Patent grant