CN116628524A

CN116628524A - 一种基于自适应图注意力编码器的社区发现方法

Info

Publication number: CN116628524A
Application number: CN202310632264.8A
Authority: CN
Inventors: 杨煜; 段威威; 李建平
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-22

Abstract

本发明涉及数据挖掘技术领域，具体为一种基于自适应图注意力编码器的社区发现方法。本方案首先通过构造Laplacian平滑特征滤波器消除图特征中的高频噪声，使图特征更加平滑，有利于获得更具有代表性的节点嵌入，消除噪声对模型网络的影响；再通过自适应图注意力编码器，将图网络的拓扑结构和节点特征信息进行充分融合，通过图注意力机制学习图网络的潜在节点嵌入向量；之后由图嵌入向量计算相似度矩阵，根据相似度进行训练样本的选择，进行自适应训练，通过自适应机制丰富了数据集，便于网络模型学习到更加丰富的参数；最后通过自训练聚类，获得了面向聚类的节点嵌入，从而提高了图网络节点社区发现的准确度。

Description

一种基于自适应图注意力编码器的社区发现方法

技术领域

本发明涉及数据挖掘技术领域，具体为一种基于自适应图注意力编码器的社区发现方法。

背景技术

在复杂网络中挖掘社区的这一过程被称为社区发现。社区发现旨在将一个网络划分为若干个社区内节点紧密连接的团体，它的特点是在同一社区中的节点密集连接，不同社区间的节点稀疏连接。也正如人际交往中，人们总是和关系密切的人来往较多，形成了一个小团体，并且可能和朋友的朋友相结识。经过划分后的社区能够将底层的网络结构和重要信息显式地表现出来。可以应用于推荐系统、社交好友推荐、疫情的检测预防等各领域。

随着网络数据的不断增长和复杂度的不断提高，社区发现算法也面临着越来越多的挑战。首先，网络的规模和复杂度不断增加，计算复杂度和存储复杂度也随之增加；其次，网络的结构和特征不断变化，需要算法能够适应动态变化的网络环境；此外，不同类型的网络有着不同的特征和规律，需要算法能够针对不同类型网络进行优化。

目前惯用的社区发现算法是基于图卷积网络(Graph Convolutional Network)的社区发现算法。基于图卷积网络的社区发现算法需要进行多层卷积操作，从而得到每个节点的图嵌入表示，并以此来进行社区发现。但基于图卷积网络的社区发现算法也有一些缺点，例如：

(1)算法的泛化能力较低：只能处理简单的图结构，对于复杂的图结构和边权重的处理能力相对较弱。

(2)需要大量的训练数据：算法需要许多标记数据进行训练才能得出良好的模型，而这些标记数据通常需要手动标注，成本较高。

(3)对于大型网络的处理能力较弱：算法的时间和空间复杂度在处理大型网络时可能无法承受，也难以处理大量的节点和链接。

发明内容

本发明所解决的技术问题在于现有的社区发现算法在处理大型网络时的时间和空间复杂度过高，导致图网络节点社区发现的准确度过低。

本发明提供的基础方案：一种基于自适应图注意力编码器的社区发现方法，应用于一种自适应图注意力模型，方法包括步骤：

S1：初始化参数，读取图网络数据，构建Laplacian平滑特征滤波器；

S2：更新图网络节点特征并训练自适应图注意力编码器；

S3：更新阈值，根据标签选择样本并计算节点标签；

S4：通过自训练谱聚类算法对节点标签进行聚类，获取社区发现的图网络节点表示和社区划分结果。

进一步，所述S1中初始化的参数包括自适应图注意力编码器参数和网络训练经验阈值参数。

进一步，所述S1中构建Laplacian平滑特征滤波器包括步骤：

S11：输入包括邻接矩阵A和节点特征矩阵X在内的图网络数据，计算出图的标准化拉普拉斯矩阵L_s：

式中，I为单位矩阵，D为图的度矩阵，A为图的邻接矩阵；

S12：根据图的标准化拉普拉斯矩阵L_s构建图网络数据的过滤器矩阵G和平滑特征矩阵

式中，U为过滤器矩阵G的分解矩阵，Λ为过滤器矩阵G分解后的对角矩阵，k为过滤器矩阵频率响应函数的参数。

进一步，所述S2中，更新图网络节点特征包括步骤：

S21：将过滤器矩阵G和平滑特征矩阵输入自适应图注意力编码器构建权重系数

式中，e_ij表示结点i和结点j的相关性系数，W为网络层的共享参数；

S22：基于权重系数更新节点特征：

S23：构建嵌入矩阵Z：

式中，h_i′为更新后的节点特征，σ是激活函数，是在k个不同的注意力机制中的归一化结果，Z是经过图注意力网络编码后的特征矩阵。

进一步，所述S2中，训练自适应图注意力编码器包括步骤：

S24：构建模块度矩阵Q：

是一个NP-Hard问题，将H矩阵进行归一化为

S25：基于模块度矩阵Q，通过交叉熵损失函数训练自适应图注意力编码器：

式中，L_R为图注意力编码器交叉熵损失，L_M为模块度最大化损失，C是一个可学习的全连接层。

进一步，所述S3中，更新阈值包括步骤S31：

式中，是正负样本的初始边界，/>为正负样本的结束边界，r_pos，r_neg为正负样本的初始值，T是模型模型边界值的更新次数。

进一步，所述S3中，选择样本包括步骤S32：

式中，l_ij为正负样本的标签值，正样本的标签值为1，负样本标签值为0。

进一步，所述S3中，节点标签的计算包括：

S33：在迭代终止时，计算分布p_iu：

式中，p_iu为真实标签的概率分布，q_iu表示节点i属于第u个簇的概率。

S34：计算节点标签s_i：

式中，s_i表示节点i属于哪一个簇。

进一步，所述S4中，社区发现的图网络节点表示和社区划分结果包括：

L＝L_R+βL_M+γL_c

式中，P表示真实标签的概率分布，Q表示模型预测的标签概率分布，KL用于求两个概率分布之间的散度，KL散度越小，则表示两个概率分布越接近，模型的预测结果越准确。L为模型整体的损失函数，L_R为图注意力编码器交叉熵损失，L_M为模块度最大化损失，L_c为自训练聚类分类损失。

本发明的原理及优点在于：本方案中，首先通过构造Laplacian平滑特征滤波器消除图特征中的高频噪声，使图特征更加平滑，有利于获得更具有代表性的节点嵌入，消除噪声对模型网络的影响；再通过自适应图注意力编码器，将图网络的拓扑结构和节点特征信息进行充分融合，通过图注意力机制学习图网络的潜在节点嵌入向量；之后由图嵌入向量计算相似度矩阵，根据相似度进行训练样本的选择，进行自适应训练，通过自适应机制丰富了数据集，便于网络模型学习到更加丰富的参数；最后通过自训练聚类，获得了面向聚类的节点嵌入，从而提高了图网络节点社区发现的准确度。经试验验证，本方案通过使用Laplacian平滑滤波器、自适应图注意力编码器模块、模块度最大化模块和自训练聚类模块，最大化普适了不同特征分布的图网络数据的社区发现任务，对不同图网络数据的下游任务社区发现都具有较优的性能和可拓展性

附图说明

图1为本发明一种基于自适应图注意力编码器的社区发现方法实施例的步骤流程图。

图2为本发明一种基于自适应图注意力编码器的社区发现方法实施例的自适应图注意力模型框架图。

具体实施方式

下面通过具体实施方式进一步详细说明：

具体实施过程如下：

实施例一

实施例一基本如附图1所示，一种基于自适应图注意力编码器的社区发现方法，应用于一种自适应图注意力模型，其方法包括步骤：

S2：更新图网络节点特征并训练自适应图注意力编码器；

S3：更新阈值，根据标签选择样本并计算节点标签；

如图2所示，本实施例中自适应图注意力模型包括Laplacian平滑特征滤波器模块、自适应图注意力编码器模块、模块度最大化模块和自训练聚类模块；

Laplacian平滑特征滤波器模块用于设计拉普拉斯滤波器为低通滤波器；对节点特征矩阵X中的高频噪声进行去噪音处理。过滤后的特征X'将作为自适应图注意力编码器的输入；通过构造Laplacian平滑特征滤波器可以消除图特征中的高频噪声，使图特征更加平滑，有利于获得更具有代表性的节点嵌入，消除噪声对模型网络的影响。

自适应图注意力编码器模块采用图注意力机制，用于聚类邻居节点的特征并加入可能在同一簇内的先验节点聚类信息，自适应地根据相似度选择节点对构建训练集并以监督的方式训练编码器。

模块化最大化模块用于利用高阶节点之间的相似度来优化节点表示并捕获原始网络的整体结构；通过融合模块度最大化模块，在构建自适应图注意力编码器的同时将会把最终聚类结果的模块度损失考虑在内，确保图聚类的最终结果中每个簇的模块度都是最大的，即每一个簇中的的结点都是连接较为紧密的。

自训练聚类模块用于根据学习到的表示进行聚类，或根据当前聚类结果对潜在表示进行操作；通过自训练聚类模块，能够得到图网络结点聚类的结果，同时自训练聚类模块将整个模型的各个组件作为一个整体进行参数优化，使获得的图节点嵌入更加针对于结点聚类任务。

本实施例中，S1中初始化的参数包括自适应图注意力编码器参数和网络训练经验阈值参数。对参数进行随机初始化之后构建Laplacian平滑特征滤波器。通过构造Laplacian平滑特征滤波器可以消除图特征中的高频噪声，使图特征更加平滑，有利于获得更具有代表性的节点嵌入，消除噪声对模型网络的影响。

具体的，S1中构建Laplacian平滑特征滤波器包括步骤:

式中，I为单位矩阵，D为图的度矩阵，A为图的邻接矩阵；

式中，U为过滤器矩阵G的分解矩阵，Λ为过滤器矩阵G分解后的对角矩阵，k为过滤器矩阵频率响应函数的参数。现有技术通常是直接使用源数据进行分析训练，而本方案中对源数据的噪声使用Laplacian平滑特征滤波器进行过来，消除了源数据中噪声的影响。

S2中，将过滤器矩阵G和平滑特征矩阵作为自适应图注意力编码器的输入，迭代提取并计算网络节点间的权重系数/>嵌入矩阵Z以及模块度矩阵Q，之后经过自适应图注意力编码器网络层训练，去的图网络数据的隐藏层表示向量。

具体的，S2包括步骤：

式中，e_ij表示结点i和结点j的相关性系数，W为网络层的共享参数。

S22：基于权重系数更新节点特征：

S23：构建嵌入矩阵Z：

式中，h_i′为更新后的节点特征，σ是激活函数，是在k个不同的注意力机制中的归一化结果，Z是经过图注意力网络编码后的特征矩阵。现有技术中均没有考虑到模块度最大化损失，本方案在训练自适应图注意力编码器的同时，融合模块度最大化损失，使取得的聚类更加精准。

之后进行自适应图注意力编码器的训练，S24：构建模块度矩阵Q：

式中，B是模块度矩阵，Tr()表示矩阵的迹，H表示聚类分配矩阵，由于最大化模块度是一个NP-Hard问题，将H矩阵进行归一化为

S3中，通过训练之后的自适应图注意力编码器，更新阈值，并根据标签选择样本，求取节点标签。

具体的，更新阈值包括步骤S31：

选择样本包括步骤S32：

节点标签的计算包括：

S33：在迭代终止时，计算分布p_iu：

S34：计算节点标签s_i：

式中，s_i表示节点i属于哪一个簇。本方案通过阈值更新，使每次模型训练的数据集都不相同，丰富了数据集。模型的参数更加可靠稳定，以往的方法未采用在训练过程中进行迭代阈值更新。

S4中，通过自训练谱聚类算法对节点标签进行聚类，获取社区发现的图网络节点表示和社区划分结果，其中，社区发现的图网络节点表示和社区划分结果包括：

L＝L_R+βL_M+γL_c

本方案通过自训练聚类模块，得到了图网络结点聚类的结果，同时自训练聚类模块将整个模型的各个组件作为一个整体进行参数优化，使获得的图节点嵌入更加针对于结点聚类任务。以往的方法，往往通过两步走策略，先进行模型训练获取网络节点的潜在嵌入向量，再在潜在嵌入向量的基础上运用传统聚类算法像Kmeans、Spectral Clustering进行聚类，这样获得的嵌入向量不是针对聚类任务的，进行图聚类对的准确性往往较差。

此外，本方案还Cora数据集为例进行了相关实验如下：

实验的消融实验和性能对比分析如表1和表2所示：

表1不同模型变体在数据集Cora上的评估

表1消融实验使用数据集Cora数据集：该数据集共2708个样本点，每个样本点都是一篇科学论文，所有样本点被分为8个类别，类别分别是：基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习和理论。每篇论文都由一个1433维的词向量表示，所以，每个样本点具有1433个特征。词向量的每个元素都对应一个词，且该元素只有0或1两个取值。取0表示该元素对应的词不在论文中，取1表示在论文中。所有的词来源于一个具有1433个词的字典。在该数据集上针对不同的模型变体采用ACC、NMI、ARI和F1社区发现分类的性能评估指标进行消融实验分析显示本发明的方法自训练聚类模块对发明方法的性能提升起到决定性的主导作用。

表2不同输入和方法在不同数据集上的评估

表2中标记粗体和下划线值分别表示所有方法和所有基线中的最高分数。利用图的拓扑结构和节点特征的图的聚类方法已被证明比那些只使用这些信息之一的方法效果更好。在Cora数据集上的实验证实了这一说法，其中AGAE、GAE、VGAE、ARGA和ARVGA的性能优于所有仅使用一种特征的方法。这突出了捕获这两个特征之间的相互作用以增强聚类表现的重要性。表中显示本发明方法除数据集Wiki的NMI性能评估指标外，其余评估指标都胜过标注所列方法。

本方案中自适应图注意力编码器(AGAE)性能优越的原因归因于多种原因：

(1)Laplacian平滑特征滤波器消除了图特征中的高频噪声。

(2)采用模块化最大化的自适应图注意编码器，有效地集成了图的节点特征和拓扑结构信息。

(3)部署专用模块进行自训练聚类，整个模型形成了统一的框架，使获得的结点嵌入更面向聚类化，提高了聚类效率。

综上所述，本发明使用Laplacian平滑滤波器、自适应图注意力编码器模块、模块度最大化模块和自训练聚类模块，最大化普适了不同特征分布的图网络数据的社区发现任务，对不同图网络数据的下游任务社区发现都具有较优的性能和可拓展性。

以上的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基于自适应图注意力编码器的社区发现方法，其特征在于，应用于一种自适应图注意力模型，方法包括步骤：

S2：更新图网络节点特征并训练自适应图注意力编码器；

S3：更新阈值，根据标签选择样本并计算节点标签；

2.根据权利要求1所述的一种基于自适应图注意力编码器的社区发现方法，其特征在于：所述S1中初始化的参数包括自适应图注意力编码器参数和网络训练经验阈值参数。

3.根据权利要求2所述的一种基于自适应图注意力编码器的社区发现方法，其特征在于，所述S1中构建Laplacian平滑特征滤波器包括步骤：

式中，I为单位矩阵，D为图的度矩阵，A为图的邻接矩阵；

4.根据权利要求3所述的一种基于自适应图注意力编码器的社区发现方法，其特征在于，所述S2中，更新图网络节点特征包括步骤：

S21：将过滤器矩阵G和平滑特征矩阵输入自适应图注意力编码器构建权重系数/>

S22：基于权重系数更新节点特征：

S23：构建嵌入矩阵Z：

式中，h_i ^′为更新后的节点特征，σ是激活函数，是在k个不同的注意力机制中的归一化结果，Z是经过图注意力网络编码后的特征矩阵。

5.根据权利要求4所述的一种基于自适应图注意力编码器的社区发现方法，其特征在于，所述S2中，训练自适应图注意力编码器包括步骤：

S24：构建模块度矩阵Q：

6.根据权利要求5所述的一种基于自适应图注意力编码器的社区发现方法，其特征在于，所述S3中，更新阈值包括步骤S31：

7.根据权利要求6所述的一种基于自适应图注意力编码器的社区发现方法，其特征在于，所述S3中，选择样本包括步骤S32：

8.根据权利要求7所述的一种基于自适应图注意力编码器的社区发现方法，其特征在于：所述S3中，节点标签的计算包括：

S33：在迭代终止时，计算分布p_iu：

S34：计算节点标签a_i：

式中，s_i表示节点i属于哪一个簇。

9.根据权利要求8所述的一种基于自适应图注意力编码器的社区发现方法，其特征在于：所述S4中，社区发现的图网络节点表示和社区划分结果包括：

L＝L_R+βL_M+γL_c