CN115859620A

CN115859620A - 一种基于多头注意力机制和图神经网络的径流重建方法

Info

Publication number: CN115859620A
Application number: CN202211534229.4A
Authority: CN
Inventors: 杨勤丽; 孙文平; 邵俊明
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-03-28

Abstract

本发明公开了一种基于多头注意力机制和图神经网络的径流重建方法。首先收集流域内与径流相关的影响特征，然后构建特征与径流对应的图数据集，设计基于多头注意力机制的图神经网络模型，根据得到的重建模型就可以进行缺失值填充。同时，考虑到GCN在关注空间特征时会忽略某些时间特征，所以加入TCN先提取时间特征，提高了模型捕获有效时间特征的能力，减少了对于流域内部水文物理机制的依赖性，有效扩大了模型的适用范围。

Description

一种基于多头注意力机制和图神经网络的径流重建方法

技术领域

本发明属于水文水资源领域，更为具体地讲，涉及一种基于多头注意力机制和图神经网络的径流数据重建方法。

背景技术

径流预测是水文科学研究中非常重要的一部分，对于洪水预报、水资源开发与利用、蓄水抗旱等具有重要意义。然而，由于径流数据是时空数据，具有维度高、易受噪音影响、监测不连续等特点，在采集过程中通常会引起数据缺失、数据冗余等异常现象，这将直接导致下游任务难以进行，强行使用错误数据会导致结果不够准确，甚至得出完全错误的结论，其中，数据缺失会对结果产生非常大的影响，因此缺失数据重建是进行径流预测的重要步骤。

现今产生数据缺失的情况主要有三种：完全随机缺失、随机缺失和非随机缺失，传统的径流数据重建方法主要基于统计学和回归模型。统计学方法分为时间重建和空间插值，时间重建主要有均值填充、中值填充等，分析数据时间特性并进行重建，但是数据重建后可能出现断点，因此实际填补效果并不理想；空间插值有反权重距离(IDW)、克里金(Kriging)插值等，通过分析空间相关性即具有空间关系的节点同一时刻数据来进行缺失数据重建，不考虑数据时间相关性，但这也会导致某些情况下的错误填补和断点。回归模型主要有自回归模型(AR)、自回归差分移动平均模型(ARIMA)等，这类方法简单快捷，缺点是估计值不够准确，容易破环数据的统计特性和变化趋势。基于浅层的机器学习的方法，如最近邻(KNN)、递归神经网络(RNN)和期望最大化算法(EM)等，在处理单条非线性的数据时效果较好，但对于具有时空特性的径流数据来说，处理效果并不好。在此背景下，如何充分利用径流数据的时空间相关性来进行精准的缺失数据重建显得尤为重要。

图神经网络可将径流数据看作图数据进行处理。图数据由节点与边组成，其中，节点可拥有不同属性，边表示节点之间的关系。将传感器看作图节点，影响因子(降水、径流等)作为节点属性，水流流向即为边的方向，据此，可构建时空图神经网络。时空图神经网络在对缺失数据进行重建时不仅能挖掘数据的时间相关性，还能挖掘节点与其邻居节点间的空间相关性。因此，提出了一种基于多头注意力机制和图神经网络的缺失径流数据重建方法。注意力机制是一种训练模型学习如何选择重要的输入，即突出对下游模型或模块的影响较大的重要特征，在训练时，根据初始权重给序列中的重要特征增加权重，让模型能够聚焦于重要特征。模型在对当前位置的信息进行编码时，会过度将注意力集中于自身的位置，因此，使用多头注意力机制给予注意力层的输出包含有不同子空间中的编码表示信息，从而增强模型的表达能力。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于多头注意力机制和图神经网络的缺失径流数据重建方法，在现有技术基础上充分利用数据，可以显著提升重建的精度。

为实现上述发明目的，本发明基于多头注意力机制和图神经网络的缺失径流数据重建方法，其特征在于，包括以下步骤：

(1)、收集研究流域内与径流密切相关的特征，如流域内降水、径流、气温、蒸散发等。

(2)、数据预处理，在流域关键处设计节点，统计收集到的数据，由于输入的数据之间数量级有时候差别较大，采用离差标准化方法对输入数据进行归一化，其转换公式为：

其中，X^*为归一化后的数据，其范围在[0,1]，X为原始数据，X_max为原始数据的最大值，X_min为原始数据的最小值。

(3)、建立多头注意力机制的图神经网络模型。深度网络主要分为三个部分，首先是时注意力块，使用三个TCN(时间卷积网络)+Multi-Head Attention块提取时间特征；其次是空间注意力块，使用GCN(图卷积网络)+Multi-Head Attention机制，融合时间块并用于提取空间特征；最后是全连接网络，对图神经网络编码的多维状态向量转化为每个时刻的预测值，对缺失值进行填补；其他激活函数使用指数线性激活函数GLU，最后一层的激活函数使用线性激活函数linear。

(4)、模型训练。将数据划分为训练集和测试集，使用训练集输入模型进行训练，损失函数使用平方根误差，优化器使用adam优化器，进行多次迭代使模型拟合并达到最优。

(5)、使用训练好的模型在测试集上进行测试，根据真实数据对预测结果进行评估。

本发明的目的是这样实现的。

本发明利用深度学习算法，采用一种基于多头注意力机制和图神经网络的缺失径流数据重建方法。首先收集流域内与径流相关的影响特征，然后构建特征与径流对应的图数据集，通过训练就能得到基于多头注意力机制的图神经网络模型，根据得到的预测模型就可以进行缺失值填充。同时，考虑到GCN在关注空间特征时会忽略某些时间特征，所以加入的TCN先提取时间特征，提高了模型捕获有效时间特征的能力，并且加入多头注意力机制聚焦重要输入并防止过拟合，因而具有较高的预测精度。此外，本发明使用以数据驱动的深度学习方法，减少了对于流域内部水文物理机制的依赖性，有效扩大了模型的适用范围。

附图说明

图1是本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法的一种具体实施方式流程图；

图2是TCN结构示意图；

图3是ST块示意图；

图4是本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法的深度神经网络模型结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法的一种具体实施方式流程图。

在本实施例中，如图1所示，本发明一种基于多头注意力机制和图神经网络的缺失径流数据重建方法包括以下步骤：

S1：流域数据收集

从流域内各个气象站点收集与径流密切相关的影响因子，包括：长序列逐日、周、月降水量、气温、水面蒸发量、风速、空气湿度、河川径流量和卫星云图雷达信息等。

S2：数据预处理

在实施过程中选取关键节点，将原始数据转化为图数据，此外，由于输入的数据为不同类别的数据，其数量级有时候差别较大，故采用离差标准化方法对输入数据进行归一化，其转换公式为：

其中，X^*为归一化后的数据，其范围在[0,1]，X为原始数据，X_max为原始数据的最大值，X_min为原始数据的最小值，输入X＝(x₀,x₁,…,x_T)∈R^P×N×D表示输入的节点为N，时序长度为P，特征向量长度为D的图数据，第一排为缺失20％的径流数据。

S3：建立含多头注意力机制的图神经网络模型

该模型由三部分组成，首先是TCN网络，通过TCN网络对输入数据跨时间步提取特征，并在每个时刻进行输出；TCN结构如图2所示，其中，每一层的输入，是上一层的kernelsize(图中为2)个时刻的输出，整个TCN利用了1-D FCN(全卷积)网络的结构，每一个隐藏层的输入输出的时间长度都相同，维持相同的时间步。为了有效获取长时间依赖关系，利用了膨胀因果卷积，引入膨胀因子(dilation factor)，对于dilation＝[1,2,4]的TCN，其结构如图2，每层的卷积个数不变，但是下一层进行卷积膨胀，即下一层参与卷积的时刻会膨胀，膨胀系数一般是2的指数次方。加入多头注意力机制后的具体公式如下：

其中，N_t∈R^P×D为划分出的时间片集合，D为特征向量的维度，

表示第l层、t_i时刻的隐藏向量，

为其权重，也就是注意力机制的系数，代表了时刻t_j对时刻t_i的重要程度，

和

表示三个不同的线性变换:f(x)＝ReLU(xW+b)，表示添加的多头机制，可以理解为单个注意力机制的延伸。

其次是图卷积神经网络，利用节点之间的连接关系构建邻接矩阵A，每个节点的时序数据经过TCN后，加权求和后输出作为图神经节点的输入，如图4所示；G＝{E,V,A}，其中E表示图的边，V为节点，A为邻接矩阵，储存了节点间的连接信息。使用图卷积神经网络在图数据的空间域上进行高阶特征提取，图卷积公式如下：

Θ*_gx＝UΘ(Λ)U^Tx

其中，x为信号，图核Θ为对角矩阵，

(I_n是单位矩阵，D是度矩阵，Λ由图拉普拉斯矩阵L的特征值组成的对角矩阵)。

运用切比雪夫多项式和一阶多项式近似，并将D归一化后，得到最终的图卷积：

θ为图核的共享参数。

加入注意力机制后的公式跟时域基本相同：

其中，n为节点集合，

表示第l层、i节点的隐藏向量，β_i,j为其权重，代表了节点j对节点i的重要程度。

一个TCN层和一个GCN层组成一个ST块，整个模型一个包含两个ST块，如图3。

最后是输出层，是一个普通的全连接前馈神经网络，用来对图神经网络编码的多维状态向量转化为每个时刻的预测量，在最后用于对输出结果的降维；

S4：模型训练

首先，将数据划分为训练集和测试集，包含输入X与标签

(完整的径流数据)的缺失训练集用来对模型进行训练，确定各层的权重参数，测试集用来评估最终模型的预测精度；

使用训练集输入模型进行训练时，先根据初始化方法，对模型每层的权重进行初始化，然后输入数据，先前向计算得到模型的输出，然后根据损失函数和真实标签计算损失，其中损失函数使用平方根误差，计算梯度反向传播更新每一层的权重，通过梯度下降多次迭代使模型拟合并达到最优，其中优化器使用adam优化器，最终获得训练完成的图神经网络模型；

S5：缺失数据重建

在模型中输入测试集的数据，进行径流数据的重建，根据评估方法，对预测结果进行评估，以验证模型的合理性；评估函数如下，

相对误差RE：

其中，

表示缺失实测值，

表示缺失预测值，t表示第t时刻；

在实际应用中，根据流域，训练好模型以后就可以根据当前的输入来预测缺失的某个时刻的降水量或径流量；

本发明中，针对缺失数据处理方法中的不足提出了一种基于多头注意力机制和图神经网络的深度神经网络来进行缺失径流数据重建方法。本发明在加入注意力机制和使用深度学习等关键技术上做出了创新。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于多头注意力机制和图神经网络的径流重建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的径流预测方法，其特征在于，步骤(3)中，所述的时空图神经网络模型，和步骤(4)中，所述的神经网络模型训练：

2.1)、该模型由三部分组成，首先是TCN网络，通过TCN网络对输入数据跨时间步提取特征，并在每个时刻进行输出；TCN结构如图2所示，其中，每一层的输入，是上一层的kernelsize(图中为2)个时刻的输出，整个TCN利用了1-D FCN(全卷积)网络的结构，每一个隐藏层的输入输出的时间长度都相同，维持相同的时间步。为了有效获取长时间依赖关系，利用了膨胀因果卷积，引入膨胀因子(dilation factor)，对于dilation＝[1,2,4]的TCN，其结构如图2，每层的卷积个数不变，但是下一层进行卷积膨胀，即下一层参与卷积的时刻会膨胀，膨胀系数一般是2的指数次方。加入多头注意力机制后的具体公式如下：

表示第l层、t_i时刻的隐藏向量，

和

Θ*_gx＝UΘ(Λ)U^Tx

其中，x为信号，图核Θ为对角矩阵，L＝I_n-

θ为图核的共享参数。

加入注意力机制后的公式跟时域基本相同：

其中，n为节点集合，

2.2)、首先，将数据划分为训练集和测试集，训练集用来对模型进行训练，确定各层的权重参数，测试集用来评估最终模型的精度；

所述模型训练流程为：先根据初始化方法，对模型每层的权重进行初始化，然后输入数据，每个节点的数据先进行时间卷积TCN并计算多头注意力，得到的时序隐向量特征输入GCN注意力层，最后将输出的多维隐向量特征输入全连接层进行降维，得到最终的重建数据。将前向计算得到的输出，根据损失函数和真实标签计算损失，其中损失函数使用平方根误差，计算梯度反向传播更新每一层的权重，通过梯度下降多次迭代使模型拟合并达到最优，其中优化器使用adam优化器，最终获得训练完成的多头注意力机制的图神经网络模型。