CN115456093A

CN115456093A - 一种基于注意力图神经网络的高性能图聚类方法

Info

Publication number: CN115456093A
Application number: CN202211145419.7A
Authority: CN
Inventors: 卞静; 程广亮; 周永章; 李焱
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-09

Abstract

本发明公开了一种基于注意力图神经网络的高性能图聚类方法，如下：将获取的数据处理为属性图的结构形式；构建并使用多层图注意力神经网络对属性图进行特征抽取，获得属性图的第一隐藏表达；对完整的属性图进行子图采样，将属性图划分为若干子图；构建并使用多层图卷积神经网络分别对每个子图进行特征抽取，获得所有子图的第二隐藏表达的数据集；将第二隐藏表达的数据集中每个节点的第二隐藏表达，和第一隐藏表达进行堆叠、融合，得到最终的隐藏表达；将最终的隐藏表达输入多层感知机中，输出每个节点对每个类别的聚类分配信息。本发明能显著提升图表示学习能力，提高属性图聚类的性能，能够更精确地挖掘数据中潜在的信息和知识。

Description

一种基于注意力图神经网络的高性能图聚类方法

技术领域

本发明涉及数据挖掘技术领域，更具体的，涉及一种基于注意力图神经网络的高性能图聚类方法。

背景技术

图聚类是指在图结构发现密集连接的子网络这一动作，以及延伸出的一系列技术。现代网络在规模、多样性和复杂性上呈指数增长。由于网络的变化，各种各样呈现出网络结构的不同类型的网络正在诞生，如物联网数据、无线传感器数据、云数据、学术领域的共同引用和社交网络数据等。大规模网络结构加剧了提取关键信息的难度，而图聚类测的一个关键作用就可用于从网络中提取可用的信息。在蛋白质网络中，图聚类有助于发现相似生物学功能的蛋白质；在企业网络中，可以通过研究公司的内部关系将员工分组为社区；在Twitter和Facebook等社交网络中，具有共同兴趣或共同朋友的用户可能是同一个社区的成员。作为图数据挖掘的经典任务，图聚类技术、指标有newman最先提出，其发展经历了从图切割、k-means到谱聚类过程。

图神经网络：图神经网络(Graph Neural Network，GNN)是指使用神经网络来学习图结构数据，提取和发掘图结构数据中的特征和模式，满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。

GNN的历史最早可以追溯到2005年，Gori等人第一次提出GNN概念，用RNN来处理无向图、有向图、标签图和循环图等。Bruna等人提出将CNN应用到图上，通过对卷积算子巧妙的转换，提出了图卷积网络(Graph Convolutional Netwok，GCN)，并衍生了许多变体。除了图卷积神经网络，GNN主流算法还包括有图自编码器、图生成网络、图循环网络以及图注意力网络。图神经网络强大的表示能力，使得它在包括引文网络、社交网络、交通网络、交易网络、化学分子结构、蛋白质网络等领域，都有广泛的应用。

图神经网络和神经网络一样在许多任务中作为核心支柱进行编码。一个通用的GNN(graph neural network)计算框架对每个节点在每一层都有两步核心计算:(1)汇聚；每个节点汇聚其邻居节点的信息；(2)更新；根据节点上一层的表示+这一层的邻居节点信息，更新节点的表示。

目前，现有技术图分割算法，其采用谱聚类:谱聚类是从图论中演化出来的算法，它的主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

这类图分割算法存在局限性如下：

1.图分割算法仅仅使用了网络连接拓扑作为分割的依据，而没有考虑到边权重信息。由于缺乏对网络的有效建模方式，图分割算法只能局限于肉眼可见的网络结构，其应用局限性很大。

2.图切割算法的时间复杂性很高，难以应用到大型网络中。

又有现有技术如样本点度量算法，其采用k-means:是通过样本点距离进行聚类类的算法，其主要思想是样本点距离近的点就分到同一类，初始类中心的选择会影响k-means聚类的效果。

而样本点度量算法存在的局限性：聚类没有考虑到节点属性，仅仅通过样本点的拓扑结构作为社区检测的依据。真实的网络，节点会有着非常丰富的属性信息，样本点度算法往往只关心样本点距离和拓扑结构，丢失了节点属性。

又有现有技术，如标签传播算法，由Raghavan等人提出了一种基于标签传播的社区检测算法LPA。LPA算法的原理是：每个节点都用唯一的标签初始化，并且在算法的每次迭代中，每个节点都采用邻居中出现频次最高的社区标签作为自己的标签。随着标签传播，内部联系紧密的图会很快连成同一个社区。如此反复迭代，直到收敛，最后将具有相同标签的节点分组为社区。该算法相对于其他方法的优势在于其简单性和时间效率。

而标签传播算法(LPA)的局限性：每次标签传播迭代结果不稳定，聚类效果不好。

又有现有技术，如图神经网络方法，采用AGC(Adaptive Graph ConvolutionalNeural Networks)：在训练过程中学习对于任意输入的图学习到一个任务驱动的自适应图表示，并且引入距离度量学习来更有效地学习图表示。

而图神经网络的局限性：AGC：仅仅把聚类任务视为节点级别的任务，这种方式无法充分利用网络的结构，同时聚合邻居信息时把所有邻居权重都一致，对边权的考虑不够。本发明通过使用子图采样和图注意力的方式，额外考虑了局部网络结构、以及边权的信息，进而获取更加精确的交易图嵌入，显著提升图表示学习能力，提高聚类的性能。

发明内容

本发明为了解决以上现有技术存在的不足与缺陷的问题，提供了一种基于注意力图神经网络的高性能图聚类方法，其能显著提升图表示学习能力，提高属性图聚类的性能，能够更精确地挖掘数据中潜在的信息和知识。

为实现上述本发明目的，采用的技术方案如下：

一种基于注意力图神经网络的高性能图聚类方法，所述的方法包括步骤如下：

将获取的数据处理为属性图的结构形式；

构建并使用多层图注意力神经网络对属性图进行特征抽取，获得属性图的第一隐藏表达；

对完整的属性图进行子图采样，将属性图划分为若干子图；

构建并使用多层图卷积神经网络分别对每个子图进行特征抽取，获得所有子图的第二隐藏表达的数据集；

将第二隐藏表达的数据集中每个节点的第二隐藏表达，和第一隐藏表达进行堆叠、融合，得到最终的隐藏表达；

将最终的隐藏表达输入多层感知机中，输出每个节点对每个类别的聚类分配信息。

优选地，在得到每个节点对每个类别的聚类分配信息之后，还基于模块度设计一个损失函数，将聚类分配信息输入到损失函数中；

再通过反向传播与梯度下降，更新多层感知机、多层图卷积神经网络和多层图注意力神经网络的参数；寻找损失最小的聚类分配。

优选地，所述将获取的数据处理为属性图的结构形式，具体如下：

对于图关系数据进行预处理，首先根据相似图构建的方式，将数据处理为属性图的结构形式，定义为G＝(V,E)，其中V为图G的节点，E为图G中的节点之间的边；节点的特征采用X表示，对每个节点i，其节点特征表示为Xi，最终构成一个特征矩阵X_N*D，其中N是节点数目，D是特征维度数；通过邻接矩阵A来表示整个图G的结构信息。

进一步地，所述的多层图注意力神经网络的结构如下：

以GAT+dropout+激活函数relu+标准化函数BatchNorm为一层GAT模块，叠加多层GAT模块组成的多层图注意力神经网络。

进一步地，每一层GAT模块的操作公式表示为：

其中，α_ij为节点i基于注意力机制，从邻居节点获得的权重；W为待训练参数；σ为激活函数；Norm为归一化函数、

表示节点i在l+1层GAT网络的隐藏表示；

表示节点j在第l层GAT网络的隐藏表示j表示节点的标识。

进一步地，所述的多层图卷积神经网络的结构如下：

以GCN+drouput+激活函数relu+标准化函数BatchNorm为一层GCN模块，叠加多层GCN模块组成的多层图卷积神经网络。

进一步地，每一层GCN模块的操作公式表示为:

其中，σ为激活函数、N(i)为节点i的邻居、A[i,j]是邻接矩阵的i行j列元素、W为待训练参数、l为层序号、i和j是节点序号，

表示节点j在第l层GCN网络的隐藏表示、

表示节点i在l+1层GCN网络的隐藏表示。

进一步地，使用二社区划分的模块度来作为属性图嵌入的监督信号，同时考虑全局、局部网络信息以及边权信息来学习属性图的特征，以模块度构造损失函数来衡量嵌入向量划分的好坏；

使用负模块度来计算节点嵌入的损失，然后对多层注意力图神经网络和多层图卷积神经网络进行训练。

进一步地，二社区划分的模块度的公式如下：

令

则有：

根据节点i属于两个社区中的某一个，h_i等于1或-1；m是图中节点度之和；k_i是节点i的度，k_ik_j/2m表示节点i和节点j随机组合情况下，它们之间的边数；a_ij是邻接矩阵元素；

对K>2的情况，有公式如下:

L_MOD(H,B)＝Q＝Tr(H^TBH),

s.t.Tr(H^TH)＝N

其中，Tr是矩阵迹，N是节点个数、L_MOD表示损失函数、H是所有节点隐藏表示的矩阵形式；s.t表示约束条件。

优选地，对完整的属性图进行子图采样，将属性图划分为若干子图，具体如下：

采样规则为：遍历每个节点，根据一个随机规则，首先采样其所有的1度邻居，然后再使用同样规则，以1度邻居为起点，获取2度邻居，节点与1度、2度邻居构成一个子图，最终得到子图集合{G_sub}；

每个子图采用属性图的节点特征来作为自身的节点特征，构建一个邻接矩阵Asub_i来表示对于图的结构信息。

本发明的有益效果如下：

现有的属性图聚类方案中，图分割和样本距离类机器学习方法，无法充分利用网络的信息，标签传播算法不稳定，以往的图神经网络方法如AGC没有考虑到局部网络结构、邻居节点权重等信息。本发明公开了一个基于注意力图神经网络的高性能图聚类方法，能够从子图与整图两个层次挖掘属性图数据的信息，同时通过注意力机制考虑到了边权信息。相较于其他基于统计学的特征工程或者传统图结构的方法而言，本发明具有更好的拓展性，并且解决了统计学方法无法共享参数、无法利用节点特征的缺点，摆脱了以往图神经网络模型对局部网络信息、边权信息挖掘不充分的局限性，实现真正端到端的高性能图聚类。

附图说明

图1是本发明所述的图聚类方法的流程示意图。

图2是本发明所述的图聚类方法的模型示意图。

图3是本发明所述的图聚类方法的模型的聚类结果随着迭代次数的变化(modularity)。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

现实世界中的图数据规模日益趋向海量化发展，从这些大规模图中分析用户所需要的信息，是一个极具挑战性的难题。从数据管理角度出发，对大规模数据进行按需加载，将节省大量计算资源。好的图聚类，为上述需求提供了解决方案。

现有的属性图聚类方案中，图分割和样本距离类机器学习方法，无法充分利用网络的信息，标签传播算法不稳定，以往的图神经网络方法如AGC没有考虑到局部网络结构、邻居节点权重等信息。

本实施例提出了一个基于注意力图神经网络的高性能图聚类方法，能够从子图与整图两个层次挖掘属性图数据的信息，同时通过注意力机制考虑到了边权信息。相较于其他基于统计学的特征工程或者传统图结构的方法而言，本发明具有更好的拓展性，并且解决了统计学方法无法共享参数、无法利用节点特征的缺点，摆脱了以往图神经网络模型对局部网络信息、边权信息挖掘不充分的局限性，实现真正端到端的高性能图聚类。

如图1、2所示，一种基于注意力图神经网络的高性能图聚类方法，所述的方法包括步骤如下：

S1：将获取的数据处理为属性图的结构形式。

在一个具体的实施例中，可以使用python库函数pytorch_geometric加载图数据集作为数据集，所述将获取的数据处理为属性图的结构形式，具体如下：

对于图关系数据进行预处理，首先根据相似图构建的方式，将数据处理为属性图的结构形式，定义为G＝(V,E)，其中V为图G的节点，E为图G中的节点之间的边；节点的特征采用X表示，对每个节点i，其节点特征表示为Xi，最终构成一个特征矩阵X_N*D，其中N是节点数目，D是特征维度数；通过邻接矩阵A来表示整个图G的结构信息。本实施例以稀疏矩阵csr_matrix的形式存储图的邻接矩阵A。

S2：构建并使用多层图注意力神经网络对属性图进行特征抽取，获得属性图的第一隐藏表达；本实施例将属性图的邻接矩阵A、特征矩阵X_N*D作为初始输入，输入到多层图注意力神经网络，学习到每个节点的隐藏特征表示，输出为Z_N*F，其中F为隐藏特征维度数。

S3：对完整的属性图进行子图采样，将属性图划分为若干子图。

在一个具体的实施例中，采样规则为：遍历每个节点，根据一个随机规则，首先采样其所有的1度邻居，然后再使用同样规则，以1度邻居为起点，获取2度邻居，节点与1度、2度邻居构成一个子图，最终得到子图集合{G_sub}；针对属性图G进行子图采样，将采样后的子图定义为Gsub_i；子图集合表示为{G_sub}。

每个子图采用属性图的节点特征来作为自身的节点特征，构建一个邻接矩阵Asub_i来表示子图的结构信息。

S4：构建并使用多层图卷积神经网络分别对每个子图进行特征抽取，获得所有子图的第二隐藏表达的数据集。

本实施例中，将子图结构即子图的邻接矩阵Asub_i、节点特征输入多层图卷积神经网络，输出每一个子图的第二隐藏表达Z_sub；最终获得所有子图的第二隐藏表达，由此得到第二隐藏表达的数据集。

S5：将第二隐藏表达的数据集中每个节点的第二隐藏表达，和第一隐藏表达进行堆叠、融合，得到最终的隐藏表达。

S6：将最终的隐藏表达输入多层感知机中，输出每个节点对每个类别的聚类分配信息。

在一个具体的实施例中，在得到每个节点对每个类别的聚类分配信息之后，还基于模块度设计一个损失函数，将聚类分配信息输入到损失函数中；

本实施例中，所述的聚类分配信息为节点的软标签，将每个节点的软标签组成整个属性图的聚类分配矩阵，与完整属性图的邻接矩阵输入损失函数中。

在一个具体的实施例中，所述的多层图注意力神经网络的结构如下：

在一个具体的实施例中，每一层GAT模块的操作公式表示为：

其中，α_ij为节点i基于注意力机制，从邻居节点获得的权重，W为待训练参数；σ为激活函数；Norm为归一化函数、

表示节点i在l+1层GAT网络的隐藏表示；

表示节点j在第l层GAT网络的隐藏表示j表示节点的标识。

在一个具体的实施例中，所述的多层图卷积神经网络的结构如下：

在一个具体的实施例中，每一层GCN模块的操作公式表示为：

表示节点j在第l层GCN网络的隐藏表示、

表示节点i在l+1层GCN网络的隐藏表示。

在一个具体的实施例中，使用二社区划分的模块度来作为属性图嵌入的监督信号，同时考虑全局、局部网络信息以及边权信息来学习属性图的特征，以模块度构造损失函数来衡量嵌入向量划分的好坏。

使用负模块度来计算节点嵌入的损失，然后对多层注意力图神经网络和多层图卷积神经网络进行训练，实现最大化模块度即最小化损失函数。使得能够得到聚类效果好的模型，模型训练好的同时，完成对图的最佳聚类。

在本实施例中，当模块度不再上升或者模型训练迭代到最大次数之后，停止训练，对聚类分配矩阵采用argmax函数将软标签转变为预测标签；将预测标签和完整属性图的邻接矩阵一起进行模型效果评估，具体可以运用指标函数modularity和图电导验证其聚类效果。

二社区划分的模块度的公式如下：

令

则有：

根据节点i属于两个社区中的某一个，h_i等于1或-1；m是图中节点度之和；k_i是节点i的度，k_ik_j/2m表示节点i和节点j随机组合情况下，它们之间的边数；a_ij是邻接矩阵元素。

对K>2的情况，有公式如下:

L_MOD(H,B)＝Q＝Tr(H^TBH),

s.t.Tr(H^TH)＝N

本实施例提出了一个以模块度为自监督信号+图注意力神经网络的方案，通过同时考虑网络的全局与局部信息，利用节点与边的属性信息，将高维稀疏网络映射到低微稠密的特征空间，再以负模块度进行损失判定，能够同时考虑整体网络结构、节点属性以及局部网络的结构信息，进而获取更加准确的图特征表达，显著提升图表示学习能力，提高属性图聚类的性能，能够更精确地挖掘数据中潜在的信息和知识。

已有的各方法对属性图的聚类效果如下：

表1：标准数据集实验结果

可以看到，在标准数据集Cora和CiteSeer、PubMed中，所述的方法的性能超过了经典方法K-means++、谱聚类、Mincut，也超过了标签传播算法LPA，在大型图上所述的方法的效果(模块度)显著超越了包括AGC在内其他所有方法。

本实施例可以有益于现实网络的数据挖掘与分析，提升对大型网络的切分效果，方便下游任务对网络数据的应用；为属性图聚类方法提供了一种新的基于图注意力神经网络的解决方案，克服了传统的图聚类算法，例如K-mean需要指定聚类中心个数，以及LPA标签算法结果波动无法得到稳定效果的聚类结果的缺点，还有启发式算法聚类速度慢的缺点，同时充分挖掘图的整体、和局部的信息，还基于注意力机制对信息聚合过程中的权重进行了考虑，实现了端到端一键式的图聚类。如图3所示，所述的图聚类方法的模型的聚类结果随着迭代次数的变化(modularity)。

实施例2

基于实施例1所述的一个基于注意力图神经网络的高性能图聚类方法，本实施例提供了一个具体的实施例。

引文网络cora是一款经典网络结构数据集，Cora数据集包含2708篇科学出版物，5429条边，总共7种类别。数据集中的每个出版物都由一个0/1值的词向量描述，表示字典中相应词的缺失/存在。该词典由1433个独特的词组成。意思就是说每一个出版物都由1433个特征构成，每个特征仅由0/1表示。出版物作为节点，而边则是出版物之间的引用关系。数据集cora与citeseer、pubmed一起都是GNN任务的基础标准数据集。

模块度是一种衡量社区划分的度量指标，由Newman和Girvan提出，它的思想是好的网络划分不仅仅是指社区之间的边数量少，而是指社区之间的边比预期的少。它的建模公式为:

其中，A表示图的邻接矩阵，δ是示性函数，当C_i＝C_j的时候为1，否则为0。C_i是节点i的社区，

是图的边数，k_i＝∑_jA_ij为节点i的度。当Q越大的时候，表示社区划分的结构越清晰。

在图论中，使用图电导衡量图的紧密程度，控制着图G上进行随机游走收敛到平均分布的速度。图电导越小，划分的结果越好。对于图的划分

该划分的电导为：

其中，a_ij是图G的邻接矩阵的项，a(S)是图S的边数。对于图G而言，图G的电导是所有可能图划分的电导的最小值。

实施步骤:

1)使用python科学库pytorch_geometric将引文网络cora加载到程序，将其建模为属性图的结构形式，定义为图G。

2)分别获取代表图G结构信息的邻接矩阵A，以及代表节点特征的特征矩阵X；节点是论文，边是论文引用关系。节点有1433维的初始特征，样本点标签是有8类。

3)把邻接矩阵A，与特征矩阵X，作为初始输入，输入多层图注意力神经网络(本实施例以四层GAT为例)，获取完整属性图的第一隐藏表达Z_all。

4)对完整属性图G进行子图采样，划分为若干子图；采样规则为：遍历每个节点，根据一个随机规则，首先采样其所有的1度邻居，然后再使用同样规则，以1度邻居为起点，获取2度邻居，节点与1度、2度邻居构成一个子图，最终得到子图集合{G_sub}。

5)遍历子图集合{G_sub}，用每一个子图的子图邻接矩阵A_sub，与对应的节点特征信息，输入多层图卷积神经网络(本实施例以四层GCN为例)，输出子图的第二隐藏表达Z_sub；最终获得所有子图的第二隐藏表达的数据集{Z_sub}。

6)将从数据集{Z_sub}中提取每个节点的第二隐藏表达，然后和第一隐藏表达Z_all进行堆叠、融合，得到最终的隐藏表达Z。

7)获得的隐藏表达Z经过多层感知机MLP，得到一个形状为N×C的聚类分配矩阵，再将聚类分配矩阵输入到由负模块度构成的损失函数中，再反向传播+梯度下降，更新多层感知机、多层图卷积神经网络和多层图注意力神经网络的参数，寻找损失最小的聚类分配，从而得到聚类效果最好的模型。。

整体实施的伪算法如下：

实施例3

一种计算机系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如实施例1所述文本描述驱动的行人搜索方法的步骤。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。