CN116010813A

CN116010813A - 基于图神经网络融合标签节点影响度的社区检测方法

Info

Publication number: CN116010813A
Application number: CN202211655294.2A
Authority: CN
Inventors: 刘洪涛; 王永坤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-04-25

Abstract

本发明涉及一种基于图神经网络融合标签节点影响度的社区检测方法，属于社区检测领域，包括以下步骤：S1：使用标签传播算法标注每个节点的标签，根据所有正则化后的边权值，将节点的标签传播到相邻节点，从而预处理图中的节点特征表示；S2：计算每个节点的节点影响度；S3：将标签矩阵和节点影响度矩阵，作为图卷积神经网络GCN的输入，通过图卷积神经网络提取节点特征，并进行分层传播和训练；S4：将训练后的图卷积神经网络GCN对社区的结构进行构建与检测，最终得出图的分类结果集。

Description

基于图神经网络融合标签节点影响度的社区检测方法

技术领域

本发明属于社区检测领域，涉及一种基于图神经网络融合标签节点影响度的社区检测方法。

背景技术

随着互联网的不断发展，在海量数据爆炸式增长的时代，我们如何从数据中提取有效的信息，成为了一大难点。各式各样的数据组成的形态各异的网络，引起了各类专家学者的关注，并致力于对图结构网络进行解释和分析。由于图结构网络在现实中具有许多应用，从移动通信网络、交通网络、社交网络到推荐系统、网络言论中心的分析等等。虽然这些网络属于不同的研究领域，但本质上都有图数据结构的规律，网络的小世界和无标度性质。小世界性质，即复杂网络具有很高聚类系数的属性；无标度性，即度分布符合幂律分布的复杂网络的性质；网络具有的社区结构，即复杂网络的聚类结构，现实网络中，少数节点往往拥有大量连接。图(Graph)由顶点(Vertex)和边(Edge)组成，G＝<V,E>。从社区结构中寻找节点之间的关系，便称为社区检测(Community detection)。

神经网络作为机器学习方面的经典方法，已经在社会上具有各种复杂的场景应用。如：人脸识别，自然语言信息识别，但是这种神经网络模型无法应用到图数据结构这种非欧几里德域的数据上。直到最近，针对图设计的图神经网络模型被设计用来解决这一问题，图神经网络可以通过图的拓扑结构，直接对数据进行局部参数共享，扩展了卷积神经网络特征提取的范围，能够有效的对图的数据进行提取。

社区检测的传统方法长常通过对图结构的节点特征提取，进行迭代与分类，传统方法能够检测社区，但是仍然存在检测结果不稳定、不确定性大等缺点。对于基于图神经网络的社区检测方法，存在对图神经网络的标签依赖过重，标签的不同，会导致训练和预测时的区别，影响分类结果的准确性。

发明内容

有鉴于此，本发明的目的在于提供一种图神经网络融合标签节点影响度的社区检测方法，解决基于图神经网络的社区检测对节点依赖过重的问题。并区别于传统社区检测的性能不稳定的缺点，以及利用融合传统方法的模型对节点进行划分，提高分类结果准确性和模型的稳定性。

为达到上述目的，本发明提供如下技术方案：

一种基于图神经网络融合标签节点影响度的社区检测方法，包括以下步骤：

S1：使用标签传播算法标注每个节点的标签，根据所有正则化后的边权值，将节点的标签传播到相邻节点，从而预处理图中的节点特征表示；

S2：计算每个节点的节点影响度；

S3：将标签矩阵和节点影响度矩阵，作为图卷积神经网络GCN的输入，通过图卷积神经网络提取节点特征，并进行分层传播和训练；

S4：将训练后的图卷积神经网络GCN对社区的结构进行构建与检测，最终得出图的分类结果集。

进一步，步骤S1具体包括以下步骤：

对给定的网络G＝(V,E,X)进行特征抽取，以捕获对应的邻接矩阵；

输入网络中，将

作为k(k>0)次迭代中的软标签矩阵，其中第i行

表示在第k次迭代中，节点V_i的预测标签分布；当k＝0时，初始标签矩阵

由one-hot编码的标记指示向量

组成；

根据标签传播算法，将矩阵的迭代化为如下两个步骤

Y^(k+1)＝D^-1A Y^(k) (1)

根据公式1，根据所有正则化后的边权值，将节点的标签传播到相邻节点；

根据公式2，所有标记过的节点都重置为初始值。

进一步，步骤S2具体包括以下步骤：

S21：计算每个节点的节点局部重要性LNI：

S22：计算节点相似度Sim(u,v)，反映节点之间的连接强度：

其中p(u,v)表示节点u到节点v的路径：

S23：计算每个节点的节点局部影响度LNNI，作为邻居节点v对u的影响：

S24：使用节点局部影响度作为标尺，检测邻居节点对需要更新标签的节点的不同影响；

S25：将矩阵迭代化：

L^k+1＝D^-1AL^k (6)

其中，L^(k)表示节点局部影响度，在第k层的影响，并据此预测第k+1层的节点影响度。

进一步，步骤S3具体包括以下步骤：

S31：将标签矩阵和节点影响度矩阵，作为图卷积神经网络GCN的输入，通过图卷积神经网络提取节点特征：

其中，

表示由

定义的归一化邻接矩阵，softmax(·)和ReLu(·)分别是由

和ReLu(x)＝max(0,x)定义的两个激活函数；其中Z＝∑_iexp(x_i)，W⁽⁰⁾和W⁽¹⁾是权重矩阵；

S32：把提取出的节点传入卷积层之中，进行训练，图神经网络在第k层的特征传播方程如下：

Z＝σ(D^-1AX^kW^k) (8)

其中，σ表示可定义的激活函数，A表示归一化邻接矩阵，X^k表示第k层被经过标签传播和节点局部影响度迭代过后的图的特征矩阵。

进一步，步骤S4具体包括：

在获得迭代过后的图节点表示后，将根据卷积后的节点特征，更新标签矩阵Y和节点影响度矩阵L，之后重复步骤S2，为还没有标记的节点记录标签；

将结果采用L2Loss方法进行损失计算，图卷积神经网络GCN模块采用交叉熵损失进行损失计算，经过模型训练和预测后，获得分类结果集。

本发明的有益效果在于：

1)本发明提出了标签传播算法和节点影响度相结合来优化节点特征和属性网络，可以充分利用每个节点原有的标签，提高社区划分的效率，并且通过节点影响度来给每个节点分配适当的标签，提高分类准确度。

2)考虑到以往常用的图卷积神经网络通过对图的特征提取，再采用拉普拉斯算子进行处理，会导致对标签依赖过重，训练和预测准确度不一致的问题，因此本发明采用融合节点影响度和图神经网络的方法，通过将标签和节点影响度作为一个特征融入节点，可以提高模型效率和降低标签间的误差传播。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述基于图神经网络融合标签节点影响度的社区检测方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，一种基于图神经网络融合标签节点影响度的社区检测方法，包括以下步骤：

步骤一：标签传播。标签传播算法LPA通过标签矩阵，预处理图中的节点特征表示。通过LPA算法对输入继续处理，以标注每个节点的标签，以便之后进行迭代。提前对卷积层输入进行处理，可以防止之后模型对标签的过度依赖。

根据标签传播算法，首先我们可以根据所有正则化后的边权值，将节点的标签传播到相邻节点。

本发明首先对给定的网络G＝(V,E,X)进行特征抽取，以捕获对应的邻接矩阵等网络特征。输入网络中，让

作为k(k>0)次迭代中的软标签矩阵,其中第i行

表示在第k次迭代中，节点V_i的预测标签分布。当k＝0时，初始标签矩阵

由one-hot编码的标记指示向量

组成。

根据标签传播算法，我们可以将矩阵的迭代化为如下两个步骤

Y^(k+1)＝D^-1A Y^(k) (1)

根据公式1，我们可以根据所有正则化后的边权值，将节点的标签传播到相邻节点。再根据公式2，所有标记过的节点都会重置为初始值，因为标签传播算法中，会保留被标记节点的标签，使得未标记的节点不会影响到已经标记的节点。

步骤二：节点影响度。对于一个给定的网络G＝(V,E,X)，节点局部重要性描述了一个节点是这个社区中心的概率。假设节点Vi与很多的邻接节点相连接，这些相邻节点彼此紧密连接，一个节点所连接的邻接节点越多，则节点的重要程度就越大。节点的重要性可以表示为：

本发明首先给定每个节点的节点局部影响度LNI，通过节点相似度，即节点和邻接节点的特征，用于反映节点之间的连接强度，节点相似度如公式3所示：

其中p(u,v)表示节点u到节点v的路径。如公式4所示：

节点局部影响度(Local Neighbor Node Influence)作为邻居节点v对u的影响，如公式5所示：

结合节点之间的节点局部重要性LNI和节点相似度Sim来计算节点局部影响度LNNI，并使用节点局部影响度来作为标尺，检测邻居节点对需要更新标签的节点的不同影响，我们则可以更合理的抽取节点的特征。

之后，将矩阵的迭代化为如下的公式6：

L^k+1＝D^-1AL^k (6)

图神经网络。图神经网络GCN是一个多层前馈神经网络的前层架构。它提取了图中的节点特征，并进行分层传播。GCN在卷积中，自然地形成了图的拓扑结构和节点属性，这有助于使复杂网络上的半监督学习问题更容易。通过对图的输入构建标签传播矩阵和节点局部影响度矩阵，我们可以将这些特征传入图卷积神经网络中，进行分层传播和训练，对社区的结构进行构建与检测，最终得出图的分类结果集。

将标签矩阵和节点影响度矩阵，作为图卷积神经网络GCN的输入，通过图卷积神经网络提取节点特征，如公式7所示：

其中，

表示由

定义的归一化邻接矩阵，softmax(·)和ReLu(·)分别是由

和ReLu(x)＝max(0,x)定义的两个激活函数。其中Z＝∑_iexp(x_i)，而W⁽⁰⁾和W⁽¹⁾是权重矩阵。之后，把提取出的节点传入卷积层之中，进行训练，图神经网络在第k层的特征传播方程如公式8：

Z＝σ(D^-1AX^kW^k) (8)

其中，σ表示可定义的激活函数，如softmax(·)。A表示归一化邻接矩阵，X^k则表示第k层被经过标签传播和节点局部影响度迭代过后的图的特征矩阵。

步骤四：结果集处理。在获得迭代过后的图节点表示后，将根据卷积后的节点特征，更新标签矩阵Y和节点影响度矩阵L，之后重复步骤2，为还没有标记的节点记录标签。

最后将结果采用L2Loss方法进行损失计算，图卷积神经网络GCN模块采用交叉熵损失进行损失计算，经过模型训练和预测后，获得分类结果集。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。