CN115859620A - 一种基于多头注意力机制和图神经网络的径流重建方法 - Google Patents

一种基于多头注意力机制和图神经网络的径流重建方法 Download PDF

Info

Publication number
CN115859620A
CN115859620A CN202211534229.4A CN202211534229A CN115859620A CN 115859620 A CN115859620 A CN 115859620A CN 202211534229 A CN202211534229 A CN 202211534229A CN 115859620 A CN115859620 A CN 115859620A
Authority
CN
China
Prior art keywords
data
model
time
layer
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211534229.4A
Other languages
English (en)
Inventor
杨勤丽
孙文平
邵俊明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202211534229.4A priority Critical patent/CN115859620A/zh
Publication of CN115859620A publication Critical patent/CN115859620A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多头注意力机制和图神经网络的径流重建方法。首先收集流域内与径流相关的影响特征,然后构建特征与径流对应的图数据集,设计基于多头注意力机制的图神经网络模型,根据得到的重建模型就可以进行缺失值填充。同时,考虑到GCN在关注空间特征时会忽略某些时间特征,所以加入TCN先提取时间特征,提高了模型捕获有效时间特征的能力,减少了对于流域内部水文物理机制的依赖性,有效扩大了模型的适用范围。

Description

一种基于多头注意力机制和图神经网络的径流重建方法
技术领域
本发明属于水文水资源领域,更为具体地讲,涉及一种基于多头注意力机制和图神经网络的径流数据重建方法。
背景技术
径流预测是水文科学研究中非常重要的一部分,对于洪水预报、水资源开发与利用、蓄水抗旱等具有重要意义。然而,由于径流数据是时空数据,具有维度高、易受噪音影响、监测不连续等特点,在采集过程中通常会引起数据缺失、数据冗余等异常现象,这将直接导致下游任务难以进行,强行使用错误数据会导致结果不够准确,甚至得出完全错误的结论,其中,数据缺失会对结果产生非常大的影响,因此缺失数据重建是进行径流预测的重要步骤。
现今产生数据缺失的情况主要有三种:完全随机缺失、随机缺失和非随机缺失,传统的径流数据重建方法主要基于统计学和回归模型。统计学方法分为时间重建和空间插值,时间重建主要有均值填充、中值填充等,分析数据时间特性并进行重建,但是数据重建后可能出现断点,因此实际填补效果并不理想;空间插值有反权重距离(IDW)、克里金(Kriging)插值等,通过分析空间相关性即具有空间关系的节点同一时刻数据来进行缺失数据重建,不考虑数据时间相关性,但这也会导致某些情况下的错误填补和断点。回归模型主要有自回归模型(AR)、自回归差分移动平均模型(ARIMA)等,这类方法简单快捷,缺点是估计值不够准确,容易破环数据的统计特性和变化趋势。基于浅层的机器学习的方法,如最近邻(KNN)、递归神经网络(RNN)和期望最大化算法(EM)等,在处理单条非线性的数据时效果较好,但对于具有时空特性的径流数据来说,处理效果并不好。在此背景下,如何充分利用径流数据的时空间相关性来进行精准的缺失数据重建显得尤为重要。
图神经网络可将径流数据看作图数据进行处理。图数据由节点与边组成,其中,节点可拥有不同属性,边表示节点之间的关系。将传感器看作图节点,影响因子(降水、径流等)作为节点属性,水流流向即为边的方向,据此,可构建时空图神经网络。时空图神经网络在对缺失数据进行重建时不仅能挖掘数据的时间相关性,还能挖掘节点与其邻居节点间的空间相关性。因此,提出了一种基于多头注意力机制和图神经网络的缺失径流数据重建方法。注意力机制是一种训练模型学习如何选择重要的输入,即突出对下游模型或模块的影响较大的重要特征,在训练时,根据初始权重给序列中的重要特征增加权重,让模型能够聚焦于重要特征。模型在对当前位置的信息进行编码时,会过度将注意力集中于自身的位置,因此,使用多头注意力机制给予注意力层的输出包含有不同子空间中的编码表示信息,从而增强模型的表达能力。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于多头注意力机制和图神经网络的缺失径流数据重建方法,在现有技术基础上充分利用数据,可以显著提升重建的精度。
为实现上述发明目的,本发明基于多头注意力机制和图神经网络的缺失径流数据重建方法,其特征在于,包括以下步骤:
(1)、收集研究流域内与径流密切相关的特征,如流域内降水、径流、气温、蒸散发等。
(2)、数据预处理,在流域关键处设计节点,统计收集到的数据,由于输入的数据之间数量级有时候差别较大,采用离差标准化方法对输入数据进行归一化,其转换公式为:
Figure BDA0003976940150000021
其中,X*为归一化后的数据,其范围在[0,1],X为原始数据,Xmax为原始数据的最大值,Xmin为原始数据的最小值。
(3)、建立多头注意力机制的图神经网络模型。深度网络主要分为三个部分,首先是时注意力块,使用三个TCN(时间卷积网络)+Multi-Head Attention块提取时间特征;其次是空间注意力块,使用GCN(图卷积网络)+Multi-Head Attention机制,融合时间块并用于提取空间特征;最后是全连接网络,对图神经网络编码的多维状态向量转化为每个时刻的预测值,对缺失值进行填补;其他激活函数使用指数线性激活函数GLU,最后一层的激活函数使用线性激活函数linear。
(4)、模型训练。将数据划分为训练集和测试集,使用训练集输入模型进行训练,损失函数使用平方根误差,优化器使用adam优化器,进行多次迭代使模型拟合并达到最优。
(5)、使用训练好的模型在测试集上进行测试,根据真实数据对预测结果进行评估。
本发明的目的是这样实现的。
本发明利用深度学习算法,采用一种基于多头注意力机制和图神经网络的缺失径流数据重建方法。首先收集流域内与径流相关的影响特征,然后构建特征与径流对应的图数据集,通过训练就能得到基于多头注意力机制的图神经网络模型,根据得到的预测模型就可以进行缺失值填充。同时,考虑到GCN在关注空间特征时会忽略某些时间特征,所以加入的TCN先提取时间特征,提高了模型捕获有效时间特征的能力,并且加入多头注意力机制聚焦重要输入并防止过拟合,因而具有较高的预测精度。此外,本发明使用以数据驱动的深度学习方法,减少了对于流域内部水文物理机制的依赖性,有效扩大了模型的适用范围。
附图说明
图1是本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法的一种具体实施方式流程图;
图2是TCN结构示意图;
图3是ST块示意图;
图4是本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法的深度神经网络模型结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法的一种具体实施方式流程图。
在本实施例中,如图1所示,本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法包括以下步骤:
S1:流域数据收集
从流域内各个气象站点收集与径流密切相关的影响因子,包括:长序列逐日、周、月降水量、气温、水面蒸发量、风速、空气湿度、河川径流量和卫星云图雷达信息等。
S2:数据预处理
在实施过程中选取关键节点,将原始数据转化为图数据,此外,由于输入的数据为不同类别的数据,其数量级有时候差别较大,故采用离差标准化方法对输入数据进行归一化,其转换公式为:
Figure BDA0003976940150000041
其中,X*为归一化后的数据,其范围在[0,1],X为原始数据,Xmax为原始数据的最大值,Xmin为原始数据的最小值,输入X=(x0,x1,…,xT)∈RP×N×D表示输入的节点为N,时序长度为P,特征向量长度为D的图数据,第一排为缺失20%的径流数据。
S3:建立含多头注意力机制的图神经网络模型
该模型由三部分组成,首先是TCN网络,通过TCN网络对输入数据跨时间步提取特征,并在每个时刻进行输出;TCN结构如图2所示,其中,每一层的输入,是上一层的kernelsize(图中为2)个时刻的输出,整个TCN利用了1-D FCN(全卷积)网络的结构,每一个隐藏层的输入输出的时间长度都相同,维持相同的时间步。为了有效获取长时间依赖关系,利用了膨胀因果卷积,引入膨胀因子(dilation factor),对于dilation=[1,2,4]的TCN,其结构如图2,每层的卷积个数不变,但是下一层进行卷积膨胀,即下一层参与卷积的时刻会膨胀,膨胀系数一般是2的指数次方。加入多头注意力机制后的具体公式如下:
Figure BDA0003976940150000042
Figure BDA0003976940150000043
Figure BDA0003976940150000044
其中,Nt∈RP×D为划分出的时间片集合,D为特征向量的维度,
Figure BDA0003976940150000045
表示第l层、ti时刻的隐藏向量,/>
Figure BDA0003976940150000051
为其权重,也就是注意力机制的系数,代表了时刻tj对时刻ti的重要程度,/>
Figure BDA0003976940150000052
和/>
Figure BDA0003976940150000053
表示三个不同的线性变换:f(x)=ReLU(xW+b),表示添加的多头机制,可以理解为单个注意力机制的延伸。/>
其次是图卷积神经网络,利用节点之间的连接关系构建邻接矩阵A,每个节点的时序数据经过TCN后,加权求和后输出作为图神经节点的输入,如图4所示;G={E,V,A},其中E表示图的边,V为节点,A为邻接矩阵,储存了节点间的连接信息。使用图卷积神经网络在图数据的空间域上进行高阶特征提取,图卷积公式如下:
Θ*gx=UΘ(Λ)UTx
其中,x为信号,图核Θ为对角矩阵,
Figure BDA0003976940150000054
(In是单位矩阵,D是度矩阵,Λ由图拉普拉斯矩阵L的特征值组成的对角矩阵)。
运用切比雪夫多项式和一阶多项式近似,并将D归一化后,得到最终的图卷积:
Figure BDA0003976940150000055
θ为图核的共享参数。
加入注意力机制后的公式跟时域基本相同:
Figure BDA0003976940150000056
Figure BDA0003976940150000057
Figure BDA0003976940150000058
其中,n为节点集合,
Figure BDA0003976940150000059
表示第l层、i节点的隐藏向量,βi,j为其权重,代表了节点j对节点i的重要程度。
一个TCN层和一个GCN层组成一个ST块,整个模型一个包含两个ST块,如图3。
最后是输出层,是一个普通的全连接前馈神经网络,用来对图神经网络编码的多维状态向量转化为每个时刻的预测量,在最后用于对输出结果的降维;
S4:模型训练
首先,将数据划分为训练集和测试集,包含输入X与标签
Figure BDA00039769401500000510
(完整的径流数据)的缺失训练集用来对模型进行训练,确定各层的权重参数,测试集用来评估最终模型的预测精度;
使用训练集输入模型进行训练时,先根据初始化方法,对模型每层的权重进行初始化,然后输入数据,先前向计算得到模型的输出,然后根据损失函数和真实标签计算损失,其中损失函数使用平方根误差,计算梯度反向传播更新每一层的权重,通过梯度下降多次迭代使模型拟合并达到最优,其中优化器使用adam优化器,最终获得训练完成的图神经网络模型;
S5:缺失数据重建
在模型中输入测试集的数据,进行径流数据的重建,根据评估方法,对预测结果进行评估,以验证模型的合理性;评估函数如下,
相对误差RE:
Figure BDA0003976940150000061
其中,
Figure BDA0003976940150000062
表示缺失实测值,/>
Figure BDA0003976940150000063
表示缺失预测值,t表示第t时刻;/>
在实际应用中,根据流域,训练好模型以后就可以根据当前的输入来预测缺失的某个时刻的降水量或径流量;
本发明中,针对缺失数据处理方法中的不足提出了一种基于多头注意力机制和图神经网络的深度神经网络来进行缺失径流数据重建方法。本发明在加入注意力机制和使用深度学习等关键技术上做出了创新。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于多头注意力机制和图神经网络的径流重建方法,其特征在于,包括以下步骤:
(1)、收集研究流域内与径流密切相关的特征,如流域内降水、径流、气温、蒸散发等。
(2)、数据预处理,在流域关键处设计节点,统计收集到的数据,由于输入的数据之间数量级有时候差别较大,采用离差标准化方法对输入数据进行归一化,其转换公式为:
Figure FDA0003976940140000011
其中,X*为归一化后的数据,其范围在[0,1],X为原始数据,Xmax为原始数据的最大值,Xmin为原始数据的最小值。
(3)、建立多头注意力机制的图神经网络模型。深度网络主要分为三个部分,首先是时注意力块,使用三个TCN(时间卷积网络)+Multi-Head Attention块提取时间特征;其次是空间注意力块,使用GCN(图卷积网络)+Multi-Head Attention机制,融合时间块并用于提取空间特征;最后是全连接网络,对图神经网络编码的多维状态向量转化为每个时刻的预测值,对缺失值进行填补;其他激活函数使用指数线性激活函数GLU,最后一层的激活函数使用线性激活函数linear。
(4)、模型训练。将数据划分为训练集和测试集,使用训练集输入模型进行训练,损失函数使用平方根误差,优化器使用adam优化器,进行多次迭代使模型拟合并达到最优。
(5)、使用训练好的模型在测试集上进行测试,根据真实数据对预测结果进行评估。
2.根据权利要求1所述的径流预测方法,其特征在于,步骤(3)中,所述的时空图神经网络模型,和步骤(4)中,所述的神经网络模型训练:
2.1)、该模型由三部分组成,首先是TCN网络,通过TCN网络对输入数据跨时间步提取特征,并在每个时刻进行输出;TCN结构如图2所示,其中,每一层的输入,是上一层的kernelsize(图中为2)个时刻的输出,整个TCN利用了1-D FCN(全卷积)网络的结构,每一个隐藏层的输入输出的时间长度都相同,维持相同的时间步。为了有效获取长时间依赖关系,利用了膨胀因果卷积,引入膨胀因子(dilation factor),对于dilation=[1,2,4]的TCN,其结构如图2,每层的卷积个数不变,但是下一层进行卷积膨胀,即下一层参与卷积的时刻会膨胀,膨胀系数一般是2的指数次方。加入多头注意力机制后的具体公式如下:
Figure FDA0003976940140000021
Figure FDA0003976940140000022
Figure FDA0003976940140000023
其中,Nt∈RP×D为划分出的时间片集合,D为特征向量的维度,
Figure FDA0003976940140000024
表示第l层、ti时刻的隐藏向量,/>
Figure FDA0003976940140000025
为其权重,也就是注意力机制的系数,代表了时刻tj对时刻ti的重要程度,
Figure FDA0003976940140000026
和/>
Figure FDA0003976940140000027
表示三个不同的线性变换:f(x)=ReLU(xW+b),表示添加的多头机制,可以理解为单个注意力机制的延伸。
其次是图卷积神经网络,利用节点之间的连接关系构建邻接矩阵A,每个节点的时序数据经过TCN后,加权求和后输出作为图神经节点的输入,如图4所示;G={E,V,A},其中E表示图的边,V为节点,A为邻接矩阵,储存了节点间的连接信息。使用图卷积神经网络在图数据的空间域上进行高阶特征提取,图卷积公式如下:
Θ*gx=UΘ(Λ)UTx
其中,x为信号,图核Θ为对角矩阵,L=In-
Figure FDA0003976940140000028
(In是单位矩阵,D是度矩阵,Λ由图拉普拉斯矩阵L的特征值组成的对角矩阵)。
运用切比雪夫多项式和一阶多项式近似,并将D归一化后,得到最终的图卷积:
Figure FDA0003976940140000029
θ为图核的共享参数。
加入注意力机制后的公式跟时域基本相同:
Figure FDA00039769401400000210
Figure FDA00039769401400000211
Figure FDA00039769401400000212
其中,n为节点集合,
Figure FDA0003976940140000031
表示第l层、i节点的隐藏向量,βi,j为其权重,代表了节点j对节点i的重要程度。
一个TCN层和一个GCN层组成一个ST块,整个模型一个包含两个ST块,如图3。
最后是输出层,是一个普通的全连接前馈神经网络,用来对图神经网络编码的多维状态向量转化为每个时刻的预测量,在最后用于对输出结果的降维;
2.2)、首先,将数据划分为训练集和测试集,训练集用来对模型进行训练,确定各层的权重参数,测试集用来评估最终模型的精度;
所述模型训练流程为:先根据初始化方法,对模型每层的权重进行初始化,然后输入数据,每个节点的数据先进行时间卷积TCN并计算多头注意力,得到的时序隐向量特征输入GCN注意力层,最后将输出的多维隐向量特征输入全连接层进行降维,得到最终的重建数据。将前向计算得到的输出,根据损失函数和真实标签计算损失,其中损失函数使用平方根误差,计算梯度反向传播更新每一层的权重,通过梯度下降多次迭代使模型拟合并达到最优,其中优化器使用adam优化器,最终获得训练完成的多头注意力机制的图神经网络模型。
CN202211534229.4A 2022-12-02 2022-12-02 一种基于多头注意力机制和图神经网络的径流重建方法 Pending CN115859620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211534229.4A CN115859620A (zh) 2022-12-02 2022-12-02 一种基于多头注意力机制和图神经网络的径流重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211534229.4A CN115859620A (zh) 2022-12-02 2022-12-02 一种基于多头注意力机制和图神经网络的径流重建方法

Publications (1)

Publication Number Publication Date
CN115859620A true CN115859620A (zh) 2023-03-28

Family

ID=85669150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211534229.4A Pending CN115859620A (zh) 2022-12-02 2022-12-02 一种基于多头注意力机制和图神经网络的径流重建方法

Country Status (1)

Country Link
CN (1) CN115859620A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227365A (zh) * 2023-05-06 2023-06-06 成都理工大学 一种基于改进vmd-tcn的滑坡位移预测方法
CN116504076A (zh) * 2023-06-19 2023-07-28 贵州宏信达高新科技有限责任公司 基于etc门架数据的高速公路车流量预测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227365A (zh) * 2023-05-06 2023-06-06 成都理工大学 一种基于改进vmd-tcn的滑坡位移预测方法
CN116227365B (zh) * 2023-05-06 2023-07-07 成都理工大学 一种基于改进vmd-tcn的滑坡位移预测方法
CN116504076A (zh) * 2023-06-19 2023-07-28 贵州宏信达高新科技有限责任公司 基于etc门架数据的高速公路车流量预测方法

Similar Documents

Publication Publication Date Title
Cannon A flexible nonlinear modelling framework for nonstationary generalized extreme value analysis in hydroclimatology
CN115859620A (zh) 一种基于多头注意力机制和图神经网络的径流重建方法
Wu et al. Prediction of rainfall time series using modular artificial neural networks coupled with data-preprocessing techniques
CN109299812B (zh) 一种基于深度学习模型和knn实时校正的洪水预测方法
CN111680912B (zh) 一种旱涝急转风险评估方法
Sartini et al. Comparing different extreme wave analysis models for wave climate assessment along the Italian coast
CN111665575B (zh) 一种基于统计动力的中长期降雨分级耦合预报方法及系统
CN115169724A (zh) 一种基于时空图卷积神经网络的径流预测方法
CN111126704A (zh) 基于多图卷积和记忆网络的多区域降水量预测模型构建方法
CN116822382B (zh) 基于时空多重特性图卷积的海表面温度预测方法及网络
CN113610286B (zh) 顾及时空相关性和气象因素的pm2.5浓度预测方法及装置
Wang et al. Wind power curve modeling with asymmetric error distribution
CN114049545B (zh) 一种基于点云体素的台风定强方法、系统、设备及介质
Nourani et al. A new hybrid algorithm for rainfall–runoff process modeling based on the wavelet transform and genetic fuzzy system
CN114792158A (zh) 基于时空融合图神经网络的多风电场短期功率预测方法
He et al. Data-driven multi-step prediction and analysis of monthly rainfall using explainable deep learning
Wang et al. Customized deep learning for precipitation bias correction and downscaling
Song et al. Application of a novel signal decomposition prediction model in minute sea level prediction
CN112446550B (zh) 一种短期建筑负荷概率密度预测方法
Naz et al. Archimedean copula-based bivariate flood-frequency analysis on Sukkur, Pakistan
CN116484189A (zh) 一种基于深度学习的era5降水产品降尺度方法
Xu et al. ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast
Yu et al. A Deep Learning-Based Multi-model Ensemble Method for Hydrological Forecasting
CN117809203B (zh) 一种多任务持续学习的跨海域热带气旋强度估计方法
Kesavavarthini et al. Bias correction of CMIP6 simulations of precipitation over Indian monsoon core region using deep learning algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination