CN115859620A - 一种基于多头注意力机制和图神经网络的径流重建方法 - Google Patents
一种基于多头注意力机制和图神经网络的径流重建方法 Download PDFInfo
- Publication number
- CN115859620A CN115859620A CN202211534229.4A CN202211534229A CN115859620A CN 115859620 A CN115859620 A CN 115859620A CN 202211534229 A CN202211534229 A CN 202211534229A CN 115859620 A CN115859620 A CN 115859620A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- time
- layer
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000001556 precipitation Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001364 causal effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000011423 initialization method Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 238000011425 standardization method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000009467 reduction Effects 0.000 claims 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多头注意力机制和图神经网络的径流重建方法。首先收集流域内与径流相关的影响特征,然后构建特征与径流对应的图数据集,设计基于多头注意力机制的图神经网络模型,根据得到的重建模型就可以进行缺失值填充。同时,考虑到GCN在关注空间特征时会忽略某些时间特征,所以加入TCN先提取时间特征,提高了模型捕获有效时间特征的能力,减少了对于流域内部水文物理机制的依赖性,有效扩大了模型的适用范围。
Description
技术领域
本发明属于水文水资源领域,更为具体地讲,涉及一种基于多头注意力机制和图神经网络的径流数据重建方法。
背景技术
径流预测是水文科学研究中非常重要的一部分,对于洪水预报、水资源开发与利用、蓄水抗旱等具有重要意义。然而,由于径流数据是时空数据,具有维度高、易受噪音影响、监测不连续等特点,在采集过程中通常会引起数据缺失、数据冗余等异常现象,这将直接导致下游任务难以进行,强行使用错误数据会导致结果不够准确,甚至得出完全错误的结论,其中,数据缺失会对结果产生非常大的影响,因此缺失数据重建是进行径流预测的重要步骤。
现今产生数据缺失的情况主要有三种:完全随机缺失、随机缺失和非随机缺失,传统的径流数据重建方法主要基于统计学和回归模型。统计学方法分为时间重建和空间插值,时间重建主要有均值填充、中值填充等,分析数据时间特性并进行重建,但是数据重建后可能出现断点,因此实际填补效果并不理想;空间插值有反权重距离(IDW)、克里金(Kriging)插值等,通过分析空间相关性即具有空间关系的节点同一时刻数据来进行缺失数据重建,不考虑数据时间相关性,但这也会导致某些情况下的错误填补和断点。回归模型主要有自回归模型(AR)、自回归差分移动平均模型(ARIMA)等,这类方法简单快捷,缺点是估计值不够准确,容易破环数据的统计特性和变化趋势。基于浅层的机器学习的方法,如最近邻(KNN)、递归神经网络(RNN)和期望最大化算法(EM)等,在处理单条非线性的数据时效果较好,但对于具有时空特性的径流数据来说,处理效果并不好。在此背景下,如何充分利用径流数据的时空间相关性来进行精准的缺失数据重建显得尤为重要。
图神经网络可将径流数据看作图数据进行处理。图数据由节点与边组成,其中,节点可拥有不同属性,边表示节点之间的关系。将传感器看作图节点,影响因子(降水、径流等)作为节点属性,水流流向即为边的方向,据此,可构建时空图神经网络。时空图神经网络在对缺失数据进行重建时不仅能挖掘数据的时间相关性,还能挖掘节点与其邻居节点间的空间相关性。因此,提出了一种基于多头注意力机制和图神经网络的缺失径流数据重建方法。注意力机制是一种训练模型学习如何选择重要的输入,即突出对下游模型或模块的影响较大的重要特征,在训练时,根据初始权重给序列中的重要特征增加权重,让模型能够聚焦于重要特征。模型在对当前位置的信息进行编码时,会过度将注意力集中于自身的位置,因此,使用多头注意力机制给予注意力层的输出包含有不同子空间中的编码表示信息,从而增强模型的表达能力。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于多头注意力机制和图神经网络的缺失径流数据重建方法,在现有技术基础上充分利用数据,可以显著提升重建的精度。
为实现上述发明目的,本发明基于多头注意力机制和图神经网络的缺失径流数据重建方法,其特征在于,包括以下步骤:
(1)、收集研究流域内与径流密切相关的特征,如流域内降水、径流、气温、蒸散发等。
(2)、数据预处理,在流域关键处设计节点,统计收集到的数据,由于输入的数据之间数量级有时候差别较大,采用离差标准化方法对输入数据进行归一化,其转换公式为:
其中,X*为归一化后的数据,其范围在[0,1],X为原始数据,Xmax为原始数据的最大值,Xmin为原始数据的最小值。
(3)、建立多头注意力机制的图神经网络模型。深度网络主要分为三个部分,首先是时注意力块,使用三个TCN(时间卷积网络)+Multi-Head Attention块提取时间特征;其次是空间注意力块,使用GCN(图卷积网络)+Multi-Head Attention机制,融合时间块并用于提取空间特征;最后是全连接网络,对图神经网络编码的多维状态向量转化为每个时刻的预测值,对缺失值进行填补;其他激活函数使用指数线性激活函数GLU,最后一层的激活函数使用线性激活函数linear。
(4)、模型训练。将数据划分为训练集和测试集,使用训练集输入模型进行训练,损失函数使用平方根误差,优化器使用adam优化器,进行多次迭代使模型拟合并达到最优。
(5)、使用训练好的模型在测试集上进行测试,根据真实数据对预测结果进行评估。
本发明的目的是这样实现的。
本发明利用深度学习算法,采用一种基于多头注意力机制和图神经网络的缺失径流数据重建方法。首先收集流域内与径流相关的影响特征,然后构建特征与径流对应的图数据集,通过训练就能得到基于多头注意力机制的图神经网络模型,根据得到的预测模型就可以进行缺失值填充。同时,考虑到GCN在关注空间特征时会忽略某些时间特征,所以加入的TCN先提取时间特征,提高了模型捕获有效时间特征的能力,并且加入多头注意力机制聚焦重要输入并防止过拟合,因而具有较高的预测精度。此外,本发明使用以数据驱动的深度学习方法,减少了对于流域内部水文物理机制的依赖性,有效扩大了模型的适用范围。
附图说明
图1是本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法的一种具体实施方式流程图;
图2是TCN结构示意图;
图3是ST块示意图;
图4是本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法的深度神经网络模型结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法的一种具体实施方式流程图。
在本实施例中,如图1所示,本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法包括以下步骤:
S1:流域数据收集
从流域内各个气象站点收集与径流密切相关的影响因子,包括:长序列逐日、周、月降水量、气温、水面蒸发量、风速、空气湿度、河川径流量和卫星云图雷达信息等。
S2:数据预处理
在实施过程中选取关键节点,将原始数据转化为图数据,此外,由于输入的数据为不同类别的数据,其数量级有时候差别较大,故采用离差标准化方法对输入数据进行归一化,其转换公式为:
其中,X*为归一化后的数据,其范围在[0,1],X为原始数据,Xmax为原始数据的最大值,Xmin为原始数据的最小值,输入X=(x0,x1,…,xT)∈RP×N×D表示输入的节点为N,时序长度为P,特征向量长度为D的图数据,第一排为缺失20%的径流数据。
S3:建立含多头注意力机制的图神经网络模型
该模型由三部分组成,首先是TCN网络,通过TCN网络对输入数据跨时间步提取特征,并在每个时刻进行输出;TCN结构如图2所示,其中,每一层的输入,是上一层的kernelsize(图中为2)个时刻的输出,整个TCN利用了1-D FCN(全卷积)网络的结构,每一个隐藏层的输入输出的时间长度都相同,维持相同的时间步。为了有效获取长时间依赖关系,利用了膨胀因果卷积,引入膨胀因子(dilation factor),对于dilation=[1,2,4]的TCN,其结构如图2,每层的卷积个数不变,但是下一层进行卷积膨胀,即下一层参与卷积的时刻会膨胀,膨胀系数一般是2的指数次方。加入多头注意力机制后的具体公式如下:
其中,Nt∈RP×D为划分出的时间片集合,D为特征向量的维度,表示第l层、ti时刻的隐藏向量,为其权重,也就是注意力机制的系数,代表了时刻tj对时刻ti的重要程度,和表示三个不同的线性变换:f(x)=ReLU(xW+b),表示添加的多头机制,可以理解为单个注意力机制的延伸。
其次是图卷积神经网络,利用节点之间的连接关系构建邻接矩阵A,每个节点的时序数据经过TCN后,加权求和后输出作为图神经节点的输入,如图4所示;G={E,V,A},其中E表示图的边,V为节点,A为邻接矩阵,储存了节点间的连接信息。使用图卷积神经网络在图数据的空间域上进行高阶特征提取,图卷积公式如下:
Θ*gx=UΘ(Λ)UTx
运用切比雪夫多项式和一阶多项式近似,并将D归一化后,得到最终的图卷积:
θ为图核的共享参数。
加入注意力机制后的公式跟时域基本相同:
一个TCN层和一个GCN层组成一个ST块,整个模型一个包含两个ST块,如图3。
最后是输出层,是一个普通的全连接前馈神经网络,用来对图神经网络编码的多维状态向量转化为每个时刻的预测量,在最后用于对输出结果的降维;
S4:模型训练
使用训练集输入模型进行训练时,先根据初始化方法,对模型每层的权重进行初始化,然后输入数据,先前向计算得到模型的输出,然后根据损失函数和真实标签计算损失,其中损失函数使用平方根误差,计算梯度反向传播更新每一层的权重,通过梯度下降多次迭代使模型拟合并达到最优,其中优化器使用adam优化器,最终获得训练完成的图神经网络模型;
S5:缺失数据重建
在模型中输入测试集的数据,进行径流数据的重建,根据评估方法,对预测结果进行评估,以验证模型的合理性;评估函数如下,
相对误差RE:
在实际应用中,根据流域,训练好模型以后就可以根据当前的输入来预测缺失的某个时刻的降水量或径流量;
本发明中,针对缺失数据处理方法中的不足提出了一种基于多头注意力机制和图神经网络的深度神经网络来进行缺失径流数据重建方法。本发明在加入注意力机制和使用深度学习等关键技术上做出了创新。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于多头注意力机制和图神经网络的径流重建方法,其特征在于,包括以下步骤:
(1)、收集研究流域内与径流密切相关的特征,如流域内降水、径流、气温、蒸散发等。
(2)、数据预处理,在流域关键处设计节点,统计收集到的数据,由于输入的数据之间数量级有时候差别较大,采用离差标准化方法对输入数据进行归一化,其转换公式为:
其中,X*为归一化后的数据,其范围在[0,1],X为原始数据,Xmax为原始数据的最大值,Xmin为原始数据的最小值。
(3)、建立多头注意力机制的图神经网络模型。深度网络主要分为三个部分,首先是时注意力块,使用三个TCN(时间卷积网络)+Multi-Head Attention块提取时间特征;其次是空间注意力块,使用GCN(图卷积网络)+Multi-Head Attention机制,融合时间块并用于提取空间特征;最后是全连接网络,对图神经网络编码的多维状态向量转化为每个时刻的预测值,对缺失值进行填补;其他激活函数使用指数线性激活函数GLU,最后一层的激活函数使用线性激活函数linear。
(4)、模型训练。将数据划分为训练集和测试集,使用训练集输入模型进行训练,损失函数使用平方根误差,优化器使用adam优化器,进行多次迭代使模型拟合并达到最优。
(5)、使用训练好的模型在测试集上进行测试,根据真实数据对预测结果进行评估。
2.根据权利要求1所述的径流预测方法,其特征在于,步骤(3)中,所述的时空图神经网络模型,和步骤(4)中,所述的神经网络模型训练:
2.1)、该模型由三部分组成,首先是TCN网络,通过TCN网络对输入数据跨时间步提取特征,并在每个时刻进行输出;TCN结构如图2所示,其中,每一层的输入,是上一层的kernelsize(图中为2)个时刻的输出,整个TCN利用了1-D FCN(全卷积)网络的结构,每一个隐藏层的输入输出的时间长度都相同,维持相同的时间步。为了有效获取长时间依赖关系,利用了膨胀因果卷积,引入膨胀因子(dilation factor),对于dilation=[1,2,4]的TCN,其结构如图2,每层的卷积个数不变,但是下一层进行卷积膨胀,即下一层参与卷积的时刻会膨胀,膨胀系数一般是2的指数次方。加入多头注意力机制后的具体公式如下:
其中,Nt∈RP×D为划分出的时间片集合,D为特征向量的维度,表示第l层、ti时刻的隐藏向量,为其权重,也就是注意力机制的系数,代表了时刻tj对时刻ti的重要程度,和表示三个不同的线性变换:f(x)=ReLU(xW+b),表示添加的多头机制,可以理解为单个注意力机制的延伸。
其次是图卷积神经网络,利用节点之间的连接关系构建邻接矩阵A,每个节点的时序数据经过TCN后,加权求和后输出作为图神经节点的输入,如图4所示;G={E,V,A},其中E表示图的边,V为节点,A为邻接矩阵,储存了节点间的连接信息。使用图卷积神经网络在图数据的空间域上进行高阶特征提取,图卷积公式如下:
Θ*gx=UΘ(Λ)UTx
运用切比雪夫多项式和一阶多项式近似,并将D归一化后,得到最终的图卷积:
θ为图核的共享参数。
加入注意力机制后的公式跟时域基本相同:
一个TCN层和一个GCN层组成一个ST块,整个模型一个包含两个ST块,如图3。
最后是输出层,是一个普通的全连接前馈神经网络,用来对图神经网络编码的多维状态向量转化为每个时刻的预测量,在最后用于对输出结果的降维;
2.2)、首先,将数据划分为训练集和测试集,训练集用来对模型进行训练,确定各层的权重参数,测试集用来评估最终模型的精度;
所述模型训练流程为:先根据初始化方法,对模型每层的权重进行初始化,然后输入数据,每个节点的数据先进行时间卷积TCN并计算多头注意力,得到的时序隐向量特征输入GCN注意力层,最后将输出的多维隐向量特征输入全连接层进行降维,得到最终的重建数据。将前向计算得到的输出,根据损失函数和真实标签计算损失,其中损失函数使用平方根误差,计算梯度反向传播更新每一层的权重,通过梯度下降多次迭代使模型拟合并达到最优,其中优化器使用adam优化器,最终获得训练完成的多头注意力机制的图神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211534229.4A CN115859620A (zh) | 2022-12-02 | 2022-12-02 | 一种基于多头注意力机制和图神经网络的径流重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211534229.4A CN115859620A (zh) | 2022-12-02 | 2022-12-02 | 一种基于多头注意力机制和图神经网络的径流重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115859620A true CN115859620A (zh) | 2023-03-28 |
Family
ID=85669150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211534229.4A Pending CN115859620A (zh) | 2022-12-02 | 2022-12-02 | 一种基于多头注意力机制和图神经网络的径流重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115859620A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227365A (zh) * | 2023-05-06 | 2023-06-06 | 成都理工大学 | 一种基于改进vmd-tcn的滑坡位移预测方法 |
CN116504076A (zh) * | 2023-06-19 | 2023-07-28 | 贵州宏信达高新科技有限责任公司 | 基于etc门架数据的高速公路车流量预测方法 |
CN117151285A (zh) * | 2023-08-29 | 2023-12-01 | 淮阴工学院 | 一种基于多要素注意力时空图卷积网络的径流预报方法 |
-
2022
- 2022-12-02 CN CN202211534229.4A patent/CN115859620A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227365A (zh) * | 2023-05-06 | 2023-06-06 | 成都理工大学 | 一种基于改进vmd-tcn的滑坡位移预测方法 |
CN116227365B (zh) * | 2023-05-06 | 2023-07-07 | 成都理工大学 | 一种基于改进vmd-tcn的滑坡位移预测方法 |
CN116504076A (zh) * | 2023-06-19 | 2023-07-28 | 贵州宏信达高新科技有限责任公司 | 基于etc门架数据的高速公路车流量预测方法 |
CN117151285A (zh) * | 2023-08-29 | 2023-12-01 | 淮阴工学院 | 一种基于多要素注意力时空图卷积网络的径流预报方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115859620A (zh) | 一种基于多头注意力机制和图神经网络的径流重建方法 | |
Cannon | A flexible nonlinear modelling framework for nonstationary generalized extreme value analysis in hydroclimatology | |
Wang et al. | A compound framework for wind speed forecasting based on comprehensive feature selection, quantile regression incorporated into convolutional simplified long short-term memory network and residual error correction | |
CN111680912B (zh) | 一种旱涝急转风险评估方法 | |
CN109299812B (zh) | 一种基于深度学习模型和knn实时校正的洪水预测方法 | |
CN111665575B (zh) | 一种基于统计动力的中长期降雨分级耦合预报方法及系统 | |
Sartini et al. | Comparing different extreme wave analysis models for wave climate assessment along the Italian coast | |
CN115169724A (zh) | 一种基于时空图卷积神经网络的径流预测方法 | |
CN116822382B (zh) | 基于时空多重特性图卷积的海表面温度预测方法及网络 | |
CN113610286B (zh) | 顾及时空相关性和气象因素的pm2.5浓度预测方法及装置 | |
He et al. | Data-driven multi-step prediction and analysis of monthly rainfall using explainable deep learning | |
Wang et al. | Wind power curve modeling with asymmetric error distribution | |
CN114049545B (zh) | 一种基于点云体素的台风定强方法、系统、设备及介质 | |
CN116128141B (zh) | 风暴潮预测方法、装置、存储介质及电子设备 | |
CN106845080A (zh) | 基于差异修正的景区旅游气象灾害智能预测方法 | |
CN114792158A (zh) | 基于时空融合图神经网络的多风电场短期功率预测方法 | |
Xu et al. | Extremecast: Boosting extreme value prediction for global weather forecast | |
CN117132129A (zh) | 考虑天气因素的园区碳排放图神经网络预测方法及系统 | |
CN112446550B (zh) | 一种短期建筑负荷概率密度预测方法 | |
Naz et al. | Archimedean copula-based bivariate flood-frequency analysis on Sukkur, Pakistan | |
Idemudia et al. | Evaluating the performance of Random Forest, Decision Tree, Support Vector Regression and Gradient Boosting for streamflow prediction | |
Wang et al. | A two-stage electricity consumption forecasting method integrated hybrid algorithms and multiple factors | |
CN114004421B (zh) | 一种基于时空集成学习的交通数据缺失值插补方法 | |
CN117809203B (zh) | 一种多任务持续学习的跨海域热带气旋强度估计方法 | |
CN113610302B (zh) | 一种基于逐步聚类与循环神经网络的地表温度降尺度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |