CN116821776A

CN116821776A - 一种基于图自注意力机制的异质图网络节点分类方法

Info

Publication number: CN116821776A
Application number: CN202311099604.1A
Authority: CN
Inventors: 王翔; 邓维康
Original assignee: Fujian University Of Science And Technology
Current assignee: Fujian University Of Science And Technology
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-09-29
Anticipated expiration: 2043-08-30
Also published as: CN116821776B

Abstract

本发明提供了交通流预测技术领域的一种基于图自注意力机制的异质图网络节点分类方法，包括：步骤S1、获取大量的交通异质图网络的数据集并划分为训练集、验证集和测试集，从训练集、验证集和测试集中提取交通异质图网络的节点特征矩阵和邻接矩阵集合；步骤S2、创建一异质图自注意力网络模型；步骤S3、利用训练集对异质图自注意力网络模型进行训练，利用验证集对训练后的异质图自注意力网络模型进行验证；步骤S4、利用测试集对异质图自注意力网络模型进行测试，并不断优化超参数；步骤S5、利用异质图自注意力网络模型进行交通异质图网络的节点分类，进而进行交通流预测。本发明的优点在于：极大的提升了交通流预测的准确率。

Description

一种基于图自注意力机制的异质图网络节点分类方法

技术领域

本发明涉及交通流预测技术领域，特别指一种基于图自注意力机制的异质图网络节点分类方法。

背景技术

图神经网络（Graph Neural Networks，简称GNNs）是一类用于图数据挖掘的深度学习方法，被广泛应用于众多领域并且取得了很好的成果。在异质图网络上进行节点分类是GNNs的一项重要任务，异质图网络指由不同类型的节点和边（关系）组成的图网络，存在于许多现实世界的场景中，如社交网络中的用户和用户之间的多种关系，化合物分子中不同类型的原子和化学键等。异质图网络节点分类的目标是将所有节点分类到对应的类别中，从而更好地理解和学习异质图网络的结构和特征。

异质图网络的节点分类可应用在不同领域，如金融风险评估、推荐系统、医疗诊断等。在金融风险评估领域，可以使用异质图网络表示用户、资产和交易等信息，并通过节点分类来评价客户的信用等级和风险水平；在推荐系统领域，可以使用异质图网络表示用户、商品和用户商品交互信息，并通过节点分类来得到用户的兴趣和购买行为；在医疗诊断领域，可以使用异质图网络表示疾病、症状、药物等信息，并通过节点分类来预测疾病的类型以及严重程度。异质图网络的节点分类具有现实意义，可以更好地帮助我们理解及分析复杂的图结构数据，从而在多个领域实现更准确的预测。

由于异质图网络中的节点和边具有不同的类型，因此在进行节点分类时，不仅需要考虑节点的特征，同时需要考虑节点间复杂的异构信息。例如，在社交网络中，用户节点可能具有不同的类型以及节点间存在不同的联系等异构信息，而节点特征可能具有如年龄、性别、职业、爱好等属性，这些属性和异构信息可以作为图的特征输入到GNNs中，以帮助提高分类的准确性。

异质图网络节点分类的一大难点是如何使用其丰富的异构信息提高分类的准确率，传统方法通常是使用异质图网络上的元路径来定义不同类型节点之间的关系，并利用元路径推导出节点之间的相似性，然后使用GNNs对节点进行编码和分类，但传统方法无法捕捉到异质图网络中节点的高阶语义信息，无法学习到元路径以外的一些节点特征表示信息，导致使用传统方法进行交通流预测时，预测（节点分类）的准确率不尽如人意。

因此，如何提供一种基于图自注意力机制的异质图网络节点分类方法，实现提升交通流预测的准确率，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种基于图自注意力机制的异质图网络节点分类方法，实现提升交通流预测的准确率。

本发明是这样实现的：一种基于图自注意力机制的异质图网络节点分类方法，包括如下步骤：

步骤S1、获取大量的交通异质图网络的数据集，按预设比例将所述数据集划分为训练集、验证集和测试集，从所述训练集、验证集和测试集中分别提取交通异质图网络的节点特征矩阵和邻接矩阵集合；

步骤S2、基于全局自注意力模块、图自注意力模块以及输出模块创建一异质图自注意力网络模型；

步骤S3、利用所述训练集对异质图自注意力网络模型进行训练，利用所述验证集对训练后的异质图自注意力网络模型进行验证；

步骤S4、利用所述测试集对验证后的异质图自注意力网络模型进行测试，并不断优化所述异质图自注意力网络模型的超参数；

步骤S5、利用测试后的所述异质图自注意力网络模型进行交通异质图网络的节点分类，进而进行交通流预测。

进一步的，所述步骤S1中，所述预设比例为2：1：7。

进一步的，所述步骤S1中，所述节点特征矩阵为：

X∈R^N×d；

所述邻接矩阵集合为不同类型边的邻接矩阵集合，公式为：

；

其中，X表示节点特征；R表示实数；N表示节点数量；d表示节点特征的输入维度；A表示邻接矩阵；K表示异质图的边的类型数；k表示邻接矩阵编号。

进一步的，所述步骤S2中，所述全局自注意力模块用于学习交通异质图网络中各节点在全局的节点特征依赖和节点特征表示；

所述全局自注意力模块的学习过程为：

S211、将所述节点特征矩阵X分别通过三个可学习的矩阵W_Q、W_K、W_V投影为Q、K、V：

Q=XW_Q，K=XW_K，V=XW_V；

其中，W_Q∈R^d×dk；W_K∈R^d×dk；W_V∈R^d×dv；dk=dv=d；

S212、对所述Q、K、V应用归一化的点乘注意力机制计算自注意力矩阵SAttn：

；

其中,softmax()表示归一化指数函数；T表示矩阵转置操作；

S213、并行执行多次归一化的点乘注意力机制，把计算得到的各所述自注意力矩阵SAttn相加取均值，得到节点嵌入X_MHead：

；

其中，X_MHead∈R^N×d，表示经过多头注意力机制学习得到的节点嵌入；Head表示多头注意力机制的头数；W₀∈R^d×dv；

S214、对所述节点嵌入X_MHead与Q做残差连接后进行归一化，得到节点嵌入X_N1：

X_N1=Norm(Q+X_MHead(Q,K,V))；

其中，X_N1∈R^N×d，表示经过第一次归一化后得到的节点嵌入;Norm()表示归一化函数；

S215、将所述节点嵌入X_N1输送到由两层线性连接层组成的前馈网络，并在两个所述线性连接层之间使用激活函数Relu来增加全局自注意力模块的非线性，得到节点嵌入X_FFN：

X_FFN=Linear(Relu(Linear(X_N1)))；

其中，X_FFN∈R^N×d，表示经过前馈网络后得到的节点嵌入；Linear()表示线性连接层；

S216、对所述节点嵌入X_FFN与X_N1做残差连接后进行归一化，得到节点嵌入X_N2：

X_N2=Norm(X_N1+X_FFN)；

S217、对所述节点特征矩阵X和节点嵌入X_N2进行拼接，得到节点特征表示X_G：

X_G=X‖X_N2；

其中，X_G∈R^N×2d；‖表示拼接操作。

进一步的，所述步骤S2中，所述图自注意力模块用于学习交通异质图网络中不同类型边和节点特征的表示；

所述图自注意力模块的学习过程为：

S221、把不同类型边所构成的邻接矩阵A聚合在一起，得到新的邻接矩阵A_C：

A_C=Conv(A;W_C)=AW_C；

其中，A_C∈R^N×N；Conv()表示卷积函数；W_C∈R^K×1×1，表示可学习的参数矩阵；

S222、在所述邻接矩阵A_C、节点特征表示X_G的基础上，利用图卷积层学习交通异质图网络的节点以及其一阶邻居的特征信息，得到节点嵌入X_C：

X_C=Relu(GraphConv(X_G;A_C))=Relu(A_CX_GW)；

其中，X_C∈R^N×dout,表示经过图卷积层学习得到的节点嵌入；dout表示输出的嵌入维度；GraphConv()表示图卷积操作；W∈R^2d×dout，表示图卷积的权重矩阵；

S223、给定节点嵌入X_C=[x₁,x₂…x_N]^T∈R^N×dout,x_N∈R^dout,表示节点N的特征表示；对于存在连接边的节点i和节点j，使用可学习参数W_q、W_k、b_q、b_k，将节点i的特征x_i和节点j的特征x_j分别转化为q_i和k_j：

q_i=W_qx_i+b_q；

k_j=W_kx_j+b_k；

其中，q_i∈R^dout,k_j∈R^dout,均为向量；

S224、将所述邻接矩阵A_C通过可学习参数W_e、b_e转换为边缘特征e_ij，将所述边缘特征e_ij加入向量k_j，得到向量k_j’：

e_ij=W_eA_ij+b_e；

k_j’=k_j+e_ij；

其中，A_ij为邻接矩阵A_C中的元素值，表示节点i和节点j之间存在相连的边；

S225、计算从节点j到节点i的每一条边的归一化点乘注意力α_ij：

；

其中，exp()表示以自然常数e为底的指数函数；N(i)表示节点i基于邻接矩阵A_C的一阶邻居节点；

S226、通过可学习参数W_v、b_v将节点j的特征x_j转换为v_j：

v_j=W_vx_j+b_v；

其中，v_j∈R^dout；

S227、基于所述v_j、α_ij、e_ij计算多头注意力，得到节点嵌入z_i：

；

S228、对所述节点嵌入z_i引入门控单元Gate以及残差连接，得到节点嵌入：

r_i=W_rx_i+b_r；

d_i=z_i‖r_i‖(z_i-r_i)；

；

;

其中，W_r、b_r、W_g均为可学习参数，且W_g∈R^3dout；i表示节点编号；T表示转置操作；‖表示拼接操作；d表示拼接操作后得到的矢量；

S229、对所述节点嵌入进行归一化，得到节点嵌入Z_i：

；

其中，Z_i∈R^dout；

S230、重复两次S221-S229的学习过程，在经过所述图自注意力模块的学习后，获得所有节点最终的节点嵌入Z，Z∈R^N×dout。

进一步的，所述步骤S2中，所述输出模块用于预测节点类别；

所述输出模块的计算过程为：

将所述节点嵌入Z输入两个全连接层和softmax函数得到预测的节点类别P：

P=softmax(Linear(Linear(Z)));

其中，P∈R^1×n，n表示节点类别数。

进一步的，所述步骤S4中，所述超参数至少包括随机失活率、权值衰减率以及学习率。

本发明的优点在于：

通过获取大量的交通异质图网络的数据集并划分为训练集、验证集和测试集，从训练集、验证集和测试集中分别提取异质图网络的节点特征矩阵和邻接矩阵集合；基于全局自注意力模块、图自注意力模块以及输出模块创建一异质图自注意力网络模型，利用训练集对异质图自注意力网络模型进行训练，利用验证集对训练后的异质图自注意力网络模型进行验证，利用测试集对验证后的异质图自注意力网络模型进行测试，并不断优化异质图自注意力网络模型的超参数，最后利用测试后的异质图自注意力网络模型进行交通流预测；由于全局自注意力模块用于学习交通异质图网络中各节点在全局的节点特征依赖和节点特征表示，图自注意力模块用于学习交通异质图网络中不同类型边和节点特征的表示，在整个学习过程中不需要使用元路径，并能够更好学习交通异质图网络丰富的特征信息和高阶语义信息，具有更强大的异质图网络的节点特征学习能力，进而极大的提升了交通流预测的准确率。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于图自注意力机制的异质图网络节点分类方法的流程图。

图2是本发明异质图自注意力网络模型的结构示意图。

图3是本发明全局自注意力模块中多头注意力的结构示意图。

图4是本发明图转换注意力层的结构示意图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：创建由全局自注意力模块、图自注意力模块以及输出模块组成的异质图自注意力网络模型，全局自注意力模块用于学习交通异质图网络中各节点在全局的节点特征依赖和节点特征表示，图自注意力模块用于学习交通异质图网络中不同类型边和节点特征的表示，在整个学习过程中不需要使用元路径，并能够更好学习交通异质图网络丰富的特征信息和高阶语义信息，具有更强大的异质图网络的节点特征学习能力，以提升交通流预测的准确率。

请参照图1至图4所示，本发明一种基于图自注意力机制的异质图网络节点分类方法的较佳实施例，包括如下步骤：

步骤S1、获取大量的交通异质图网络的数据集，按预设比例将所述数据集划分为训练集、验证集和测试集，从所述训练集、验证集和测试集中分别提取交通异质图网络的节点特征矩阵和邻接矩阵集合；具体实施时，所述数据集可选取交通异质图网络的公共基准数据集ACM、DBLP和IMDB；

训练过程中，使用交叉熵损失作为损失函数来衡量所述异质图自注意力网络模型的性能：loss=CrossEntropy(Y,P)；

其中，P={p1,p2,p3…pn}，表示模型的与测试；Y={y1,y2,y3…yn}，表示模型的标签；

所述步骤S1中，所述预设比例为2：1：7。

所述步骤S1中，所述节点特征矩阵为：

X∈R^N×d；

所述邻接矩阵集合为不同类型边的邻接矩阵集合，公式为：

；

其中，X表示节点特征；R表示实数；N表示节点数量；d表示节点特征的输入维度；A表示邻接矩阵；K表示异质图的边的类型数；k表示邻接矩阵编号；

所述邻接矩阵集合可简写为张量A∈R^N×N×K。

所述步骤S2中，所述全局自注意力模块用于学习交通异质图网络中各节点在全局的节点特征依赖和节点特征表示；所述全局自注意力模块主要由残差连接、前馈网络(FeedForward)和多头注意力(Multi-Head Attention)组成，其中，残差连接用于缓解模型的过拟合；多头注意力用于学习交通异质图网络节点全局的特征依赖关系；

所述全局自注意力模块的学习过程为：

S211、将所述节点特征矩阵X经过输入嵌入层（Input Embedding层），分别通过三个可学习的矩阵W_Q、W_K、W_V投影为Q、K、V：

Q=XW_Q，K=XW_K，V=XW_V；

其中，W_Q∈R^d×dk；W_K∈R^d×dk；W_V∈R^d×dv；dk=dv=d；

；

其中,softmax()表示归一化指数函数；T表示矩阵转置操作；

；

其中，X_MHead∈R^N×d，表示经过多头注意力机制学习得到的节点嵌入；Head表示多头注意力机制的头数，即需要执行多头注意力机制的次数；W₀∈R^d×dv；

引入多头注意力机制为了稳定自注意力的计算结果；

S214、对所述节点嵌入X_MHead与Q做残差连接后进行归一化，并在多头注意力机制中引入残差连接，得到节点嵌入X_N1：

X_N1=Norm(Q+X_MHead(Q,K,V))；

X_FFN=Linear(Relu(Linear(X_N1)))；

S216、对所述节点嵌入X_FFN与X_N1做残差连接后进行归一化，并引入残差连接，得到节点嵌入X_N2：

X_N2=Norm(X_N1+X_FFN)；

X_G=X‖X_N2；

其中，X_G∈R^N×2d；‖表示拼接操作。

此步骤为了缓解模型的过拟合，为了防止在经过全局自注意力模块学习过程中丢弃掉一些有用的、原始的节点特征信息，在全局自注意力模块的最外层加入一个做拼接操作的残差连接。

所述步骤S2中，所述图自注意力模块用于学习交通异质图网络中不同类型边和节点特征的表示；所述图自注意力模块由图卷积层（Graph Convolution）和图转换注意力层（Graph Trans-Attention层）交替叠加四层组成；利用图卷积层学习节点及其周围一阶邻居的特征信息；图转换注意力层对多头注意力机制进行了改变，在其学习过程中加入异质图网络边的特征信息，并加入了一个门控单元Gate来防止模型的过平滑；在整个图自注意力模块中的每一个传播层之后，都引入激活函数ReLU来提高模型的非线性拟合能力；

所述图自注意力模块的学习过程为：

A_C=Conv(A;W_C)=AW_C；

为了不丢失节点自身的特征，在每种类型关系的邻接矩阵上添加自连接的边，即在聚合前每一个不同类型关系的邻接矩阵A_k加上单位矩阵；

S222、在所述邻接矩阵A_C、节点特征表示X_G的基础上，利用图卷积层（GraphConvolution）学习交通异质图网络的节点以及其一阶邻居的特征信息，得到节点嵌入X_C：

X_C=Relu(GraphConv(X_G;A_C))=Relu(A_CX_GW)；

S223、在经过图卷积层学习之后，为了能够学习到异质图网络节点特征的高阶语义信息，进一步使用多头注意力机制，特别是在考虑异质图网络结构信息的情况下，将多头注意力机制进行改变，加入异质图网络边的特征信息，设计一个Graph Trans-Attention层来学习交通异质图网络节点特征的高阶信息，即给定节点嵌入X_C=[x₁,x₂…x_N]^T∈R^N×dout,x_N∈R^dout,表示节点N的特征表示；对于存在连接边的节点i和节点j，使用可学习参数W_q、W_k、b_q、b_k，将节点i的特征x_i和节点j的特征x_j分别转化为q_i和k_j：

q_i=W_qx_i+b_q；

k_j=W_kx_j+b_k；

其中，q_i∈R^dout,k_j∈R^dout,均为向量；

e_ij=W_eA_ij+b_e；

k_j’=k_j+e_ij；

；

其中，exp()表示以自然常数e为底的指数函数；N(i)表示节点i基于邻接矩阵A_C的一阶邻居节点，包括其自身；

S226、通过可学习参数W_v、b_v将节点j的特征x_j转换为v_j：

v_j=W_vx_j+b_v；

其中，v_j∈R^dout；

；

即独立计算Head次注意力，取平均值作为节点i的节点嵌入z_i；

S228、为了防止模型的过平滑，在Graph Trans-Attention层中，对所述节点嵌入引入门控单元Gate以及残差连接，得到节点嵌入：

r_i=W_rx_i+b_r；

d_i=z_i‖r_i‖(z_i-r_i)；

；

;

S229、对所述节点嵌入进行归一化，得到节点嵌入Z_i：

；

其中，Z_i∈R^dout；引入激活函数来增加模型的非线性表示能力；

所述步骤S2中，所述输出模块用于预测节点类别；

所述输出模块的计算过程为：

将所述节点嵌入Z输入两个全连接层（MLP）和softmax函数得到预测的节点类别P：

P=softmax(Linear(Linear(Z)));

其中，P∈R^1×n，n表示节点类别数。

所述步骤S4中，所述超参数至少包括随机失活率（dropout）、权值衰减率（weight-decay）以及学习率。

具体实施时，训练总迭代次数为50次，优化器使用Adam；全局自注意力模块的学习率设置为0.0004、权值衰减率设置为0.001；图自注意力模块的学习率设置为0.005、权值衰减率设置为0.001；输出模块的学习率设置为0.001、权值衰减率设置为0.001；根据不同的数据集对随机失活率进行调整，ACM的随机失活率为0.3，DBLP的随机失活率为0.0，IMDB的随机失活率为0.5。

所述异质图自注意力网络模型在ACM、DBLP和IMDB三个异质图网络公共数据集中，使用图节点分类任务指标F1-macro和F1-micro对模型的特征学习能力进行评测，结果表明能够对异质图网络的节点特征进行有效的学习，并且实验的结果超越了传统方法。

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于图自注意力机制的异质图网络节点分类方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于图自注意力机制的异质图网络节点分类方法，其特征在于：所述步骤S1中，所述预设比例为2：1：7。

3.如权利要求1所述的一种基于图自注意力机制的异质图网络节点分类方法，其特征在于：所述步骤S1中，所述节点特征矩阵为：

X∈R^N×d；

所述邻接矩阵集合为不同类型边的邻接矩阵集合，公式为：其中，X表示节点特征；R表示实数；N表示节点数量；d表示节点特征的输入维度；A表示邻接矩阵；K表示异质图的边的类型数；k表示邻接矩阵编号。

4.如权利要求3所述的一种基于图自注意力机制的异质图网络节点分类方法，其特征在于：所述步骤S2中，所述全局自注意力模块用于学习交通异质图网络中各节点在全局的节点特征依赖和节点特征表示；

所述全局自注意力模块的学习过程为：

Q=XW_Q，K=XW_K，V=XW_V；

其中，W_Q∈R^d×dk；W_K∈R^d×dk；W_V∈R^d×dv；dk=dv=d；

；

其中,softmax()表示归一化指数函数；T表示矩阵转置操作；

；

X_N1=Norm(Q+X_MHead(Q,K,V))；

X_FFN=Linear(Relu(Linear(X_N1)))；

X_N2=Norm(X_N1+X_FFN)；

X_G=X‖X_N2；

其中，X_G∈R^N×2d；‖表示拼接操作。

5.如权利要求4所述的一种基于图自注意力机制的异质图网络节点分类方法，其特征在于：所述步骤S2中，所述图自注意力模块用于学习交通异质图网络中不同类型边和节点特征的表示；

所述图自注意力模块的学习过程为：

A_C=Conv(A;W_C)=AW_C；

X_C=Relu(GraphConv(X_G;A_C))=Relu(A_CX_GW)；

S223、给定节点嵌入X_C=[x₁,x₂…x_N]^T∈R^N×dout,x_i∈R^dout,表示节点N的特征表示；对于存在连接边的节点i和节点j，使用可学习参数W_q、W_k、b_q、b_k，将节点i的特征x_i和节点j的特征x_j分别转化为q_i和k_j：

q_i=W_qx_i+b_q；

k_j=W_kx_j+b_k；

其中，q_i∈R^dout,k_j∈R^dout,均为向量；

e_ij=W_eA_ij+b_e；

k_j’=k_j+e_ij；

；

S226、通过可学习参数W_v、b_v将节点j的特征x_j转换为v_j：

v_j=W_vx_j+b_v；

其中，v_j∈R^dout；

；

r_i=W_rx_i+b_r；

d_i=z_i‖r_i‖(z_i-r_i)；

；

;

S229、对所述节点嵌入进行归一化，得到节点嵌入Z_i：

；

其中，Z_i∈R^dout；S230、重复两次S221-S229的学习过程，在经过所述图自注意力模块的学习后，获得所有节点最终的节点嵌入Z，Z∈R^N×dout。

6.如权利要求5所述的一种基于图自注意力机制的异质图网络节点分类方法，其特征在于：所述步骤S2中，所述输出模块用于预测节点类别；

所述输出模块的计算过程为：

P=softmax(Linear(Linear(Z)));

其中，P∈R^1×n，n表示节点类别数。

7.如权利要求1所述的一种基于图自注意力机制的异质图网络节点分类方法，其特征在于：所述步骤S4中，所述超参数至少包括随机失活率、权值衰减率以及学习率。