CN114817653A - 一种基于中心节点图卷积网络的无监督社区发现方法 - Google Patents

一种基于中心节点图卷积网络的无监督社区发现方法 Download PDF

Info

Publication number
CN114817653A
CN114817653A CN202110121984.9A CN202110121984A CN114817653A CN 114817653 A CN114817653 A CN 114817653A CN 202110121984 A CN202110121984 A CN 202110121984A CN 114817653 A CN114817653 A CN 114817653A
Authority
CN
China
Prior art keywords
node
nodes
community
cluster
unsupervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110121984.9A
Other languages
English (en)
Inventor
邓丽平
郑文
崔佳梅
刘彦君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202110121984.9A priority Critical patent/CN114817653A/zh
Publication of CN114817653A publication Critical patent/CN114817653A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于中心节点图卷积网络的无监督社区发现方法,构建检测模型CN‑GCN,采用“中心‑扩展”算法在确定中心节点的基础上,扩展拥有更多共同邻居和具有类似社区成员身份的节点,形成中心节点簇;利用中心节点簇训练GCN模型,用训练好的GCN模型对整个网络节点进行聚类或社区发现。本发明的社区中心节点簇可以容纳拥有更多共同邻居和具有类似社区成员身份的节点,这些节点具有类似属性,进而提高社区子图的模块性;本发明结合社区中心节点的CN‑GCN模型可以提高节点领域的划分能力。

Description

一种基于中心节点图卷积网络的无监督社区发现方法
技术领域
本发明涉及图卷积网络GCN无监督社区发现领域,具体是一种基于中心节点的GCN无监督社区发现方法。
背景技术
复杂网络如生物网络、通信网络和社会网络,分别是生物系统、通信系统和相互作用系统的抽象表示,网络既是一种表示形式,也是一种深入了解复杂系统的分析工具。复杂网络最重要的特性之一是其社区结构,近年来,网络社区检测是复杂网络领域的的研究热点。网络社区被定义为一组内部紧密连接的节点,在网络中扮演着非常重要的角色。社区检测的目标是根据网络拓扑、节点相似性等,将网络中的每个节点分配给一个社区,可以帮助揭示和理解复杂系统的重要隐藏属性。
图卷积网络(Graph Convolutional Networks,GCN),由于其在图节点有监督和半监督分类方面的成功,近年来引起了广泛的关注,并用于社区检测。如文献MRFasGCN,是一种基于GCN的半监督社区检测方法,在GCN框架中纳入了社区的马尔可夫随机场(MarkovRandom field,MRF)建模,取得不错的效果。JIN 2020,在MRFasGCN 中引入以社区为中心的双解码器,以无监督的方式分别重建网络结构和节点属性,实现在输入空间中的社区检测。除了网络拓扑特性,社区中心节点相似性度量在图聚类算法起着重要作用。ISCD+,Chen等算法根据社区内节点间的连通能力定义节点间的相似性,基于此进行有效的社区发现。分析现有方法,在社区检测中虽然引入GCN取得不错的效果,但是没有考虑社区中心节点和中心节点簇在社区监测问题中的重要性。在当前复杂网络的研究中,对网络中心节点和中心节点簇的发现结果进行合理度量,可以提高节点领域的划分能力,从而提高社区检测能力。
发明内容
本发明要解决的技术问题在于,针对现有技术中存在的不足,本发明提供一种基于中心节点的GCN无监督社区发现方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于中心节点的GCN无监督社区发现方法,包括:
步骤1,构建网络G=(V,E),其中,V和E分别表示节点和边的集合;顶点属性X,令X∈R|v|×q为包含特征为xv的节点的矩阵,矩阵中每一行xv为节点v的特征向量;聚类个数m.;
步骤2,计算G的节点相似性矩阵SG(vi,vj)和节点权重矩阵 wG(vi);
步骤3,根据节点相似性矩阵和节点权重矩阵计算初始簇中心 ch;
步骤4,用初始簇训练图卷积网络模型,
Figure BDA0002922487560000021
定义
Figure BDA0002922487560000022
Figure BDA0002922487560000023
(其中,
Figure BDA0002922487560000024
),其中W(0)W(1)和 ReLU(Softmax)分别是权重参数和激活函数(和第二)卷积层;
步骤5,用训练好的图卷积网络模型对图G进行划分,得到当前簇发现结果Ω0.计算当前簇发现结果的目标函数值F(Ω0);
步骤6,输出图聚类结果Ω={V1,V2,…,Vm},作为无监督网络社区。
其中,计算G的节点相似性矩阵SG(vi,vj)和节点权重矩阵wG(vi);如公式(1)、(2)所示:
SG(vi,vj)=α1A+α2A23A3 (1)
其中,SG(vi,vj)为网络G的矩阵,Al为节点vi和vj间长度为l 的点不重复路径的数目;α123为自由参数;通常α1>α2≥α3且α123=1;SG(vi,vj)为节点vi和vj的邻域相似性,且SG(vi,vj)越高, vi和vj在局部邻域内的连通性越好;
Figure BDA0002922487560000031
给定网络G=(V,E)及SSLP矩阵,对节点vi∈V,定义其权重为wG(vi),通过公式(2)计算V中所有节点的权重,由于SSLP(vi,vj)表示节点vi和vj在局部邻域内的连通性,因此wG(vi)表示节点vi在局部邻域内的连通能力,其值越大,节点权重越大,表明节点vi在局部邻域内连通能力越强,越有可能成为某个簇的中心节点;因此,选择权重值wG(vi)最大的节点为中心节点,若有多个节点同为权重最大的节点,则都为中心节点,构成了中心节点簇的初始状态。
其中,根据节点相似性矩阵和节点权重矩阵计算初始簇中心ch,根据公式(1)(2)计算:
Figure BDA0002922487560000032
对第h个簇,选择
Figure BDA0002922487560000033
作为第h个初始簇中心ch,得到m个初始的中心节点,分别为{c1,c2,…,cm},令初始簇 Vi={ci}(1≤i≤m)。
其中,用初始簇训练图卷积网络模型,
Figure BDA0002922487560000034
与现有技术相比,本发明提出了一种基于中心节点图卷积网络的无监督社区发现方法,构建检测模型CN-GCN,采用“中心-扩展”算法在确定中心节点的基础上,扩展拥有更多共同邻居和具有类似社区成员身份的节点,形成中心节点簇;利用中心节点簇训练GCN模型,用训练好的GCN模型对整个网络节点进行聚类或社区发现。本发明的社区中心节点簇可以容纳拥有更多共同邻居和具有类似社区成员身份的节点,这些节点具有类似属性,进而提高社区子图的模块性;本发明结合社区中心节点的CN-GCN模型可以提高节点领域的划分能力。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明提供的一种基于中心节点的GCN无监督社区发现方法的流程示意图。
图2是本发明提供的一种基于中心节点的GCN无监督社区发现方法的整体框架示意图。
图3是本发明提供的一种基于中心节点的GCN无监督社区发现方法在数据集Karate上与经典5种算法对比结果示意图。
图4是本发明提供的一种基于中心节点的GCN无监督社区发现方法在数据集dolphins上与经典5种算法对比结果示意图。
图5是本发明提供的一种基于中心节点的GCN无监督社区发现方法在数据集polbooks上与经典5种算法对比结果示意图。
图6是本发明提供的一种基于中心节点的GCN无监督社区发现方法在数据集football上与经典5种算法对比结果示意图。
图7是本发明提供的一种基于中心节点的GCN无监督社区发现方法在数据集polblogs上与经典5种算法对比结果示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
如图1和图2所示,本发明设计了一种基于中心节点的GCN无监督社区发现方法,首先采用“中心-扩展”算法在确定中心节点的基础上,扩展拥有更多共同邻居和具有类似社区成员身份的节点,形成中心节点簇。然后,用这些中心节点簇训练GCN模型,用训练好的GCN模型对整个网络节点进行聚类或社区发现。具体步骤包括:
步骤1,构建网络G=(V,E),其中,V和E分别表示节点和边的集合;顶点属性X,令X∈R|v|×q为包含特征为xv的节点的矩阵,矩阵中每一行xv为节点v的特征向量;聚类个数m.;
步骤2,计算G的节点相似性矩阵SG(vi,vj)和节点权重矩阵 wG(vi);
步骤3,根据节点相似性矩阵和节点权重矩阵计算初始簇中心 ch;
步骤4,用初始簇训练图卷积网络模型,
Figure BDA0002922487560000051
定义
Figure BDA0002922487560000052
Figure BDA0002922487560000053
(其中,
Figure BDA0002922487560000054
),其中W(0)W(1)和 ReLU(Softmax)分别是权重参数和激活函数(和第二)卷积层;
步骤5,用训练好的图卷积网络模型对图G进行划分,得到当前簇发现结果Ω0.计算当前簇发现结果的目标函数值F(Ω0);
步骤6,输出图聚类结果Ω={V1,V2,…,Vm},作为无监督网络社区。
其中,计算G的节点相似性矩阵SG(vi,vj)和节点权重矩阵wG(vi);如公式(1)、(2)所示:
SG(vi,vj)=α1A+α2A23A3 (1)
其中,SG(vi,vj)为网络G的矩阵,Al为节点vi和vj间长度为l 的点不重复路径的数目;α123为自由参数;通常α1>α2≥α3且α123=1;SG(vi,vj)为节点vi和vj的邻域相似性,且SG(vi,vj)越高, vi和vj在局部邻域内的连通性越好;
Figure BDA0002922487560000055
给定网络G=(V,E)及SSLP矩阵,对节点vi∈V,定义其权重为wG(vi),通过公式(2)计算V中所有节点的权重,由于SSLP(vi,vj)表示节点vi和vj在局部邻域内的连通性,因此wG(vi)表示节点vi在局部邻域内的连通能力,其值越大,节点权重越大,表明节点vi在局部邻域内连通能力越强,越有可能成为某个簇的中心节点;因此,选择权重值wG(vi)最大的节点为中心节点,若有多个节点同为权重最大的节点,则都为中心节点,构成了中心节点簇的初始状态。
其中,根据节点相似性矩阵和节点权重矩阵计算初始簇中心ch,根据公式(1)(2)计算:
Figure BDA0002922487560000061
对第h个簇,选择
Figure BDA0002922487560000062
作为第h个初始簇中心ch,得到m个初始的中心节点,分别为{c1,c2,…,cm},令初始簇 Vi={ci}(1≤i≤m)。
其中,用初始簇训练图卷积网络模型,
Figure BDA0002922487560000063
本发明的社区发现方法,应用在真实数据集空手道俱乐部 (Zachary's KarateClub)、海豚社交网络(Dolphins Social Network)、2004 年美国政治博客网络Polblogs、美国政治相关书籍Polbooks和2000 赛季大学生美式大学生足球网络(American CollegeFootball Network) 五个带标签数据集进行实验,对CN-GCN模型进行评测,并与与经典的5种算法Fluid-C、EM、LPA、BGLL、GN来对本发明提出的 CN-GCN方法进行评测.实验结果如图3、4、5、6、7所示。选用标准互信息(NMI)、调整兰德系数(ARI)和模块性对聚类结果进行评价,划分结果与原始划分的吻合程度越高,NMI、ARI和模块性的值越高。
从模块性来看,本发明方法比EM高20%,略低于其它四种方法; BGLL方法的模块性较高,但针对Football这个数据集,本发明 CN-GCN的模块性与BGLL的模块性能基本持平。这是因为参赛队被分成8-12个小组的会议,在实验中取12个社区数,社区数的个数增多使得中心节点个数增加,从而提高CN-GCN的效果。从实验结果如图3和图4,可以得到本发明方法在NMI、ARI效果均高于其他五种典型方法,这进一步验证了它相对于现有方法的有效性。这也证实了结合中心节点的图卷积网络CN-GCN方法有效提高聚类效果。
本发明算法在大多数情况下性能均优于比较算法.其中,Fluid-C 和LPA代表了CD算法中的最新技术。LPA建议的标签传播过程只使用网络结构来指导其进程,不需要外部参数设置。每个节点根据其近邻的社区对其所属的社区做出自己的决定。这些局部决策导致了特定网络中社区结构的出现。Fluid-C能够识别出高质量的社区,接近目前最先进的最佳选择。Fluid-C在NMI性能方面的主要限制是,由于瓶颈边缘的影响,它不能完全恢复混合参数较小的图上的ground truth共同体。然而,本文提出CN-GCN方法在5个数据集的NMI、 ARI性能上平均高于Fluid-C算法,从而说明了CN-GCN算法的有效性。本文提出可扩展的中心节点选取策略(即“中心-扩展”算法),提高图卷积网络模型训练性能。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (4)

1.一种基于中心节点的GCN无监督社区发现方法,其特征在于,包括:
步骤1,构建网络G=(V,E),其中,V和E分别表示节点和边的集合;顶点属性X,令X∈R|v|×q为包含特征为xv的节点的矩阵,矩阵中每一行xv为节点v的特征向量;聚类个数m.;
步骤2,计算G的节点相似性矩阵SG(vi,vj)和节点权重矩阵wG(vi);
步骤3,根据节点相似性矩阵和节点权重矩阵计算初始簇中心ch;
步骤4,用初始簇训练图卷积网络模型,
Figure RE-FDA0003115062890000011
定义
Figure RE-FDA0003115062890000012
(其中,
Figure RE-FDA0003115062890000013
),其中W(0) W(1)和ReLU(Softmax)分别是权重参数和激活函数(和第二)卷积层;
步骤5,用训练好的图卷积网络模型对图G进行划分,得到当前簇发现结果Ω0.计算当前簇发现结果的目标函数值F(Ω0);
步骤6,输出图聚类结果Ω={V1,V2,...,Vm},作为无监督网络社区。
2.根据权利要求1所述的基于中心节点的GCN无监督社区发现方法,其特征在于,计算G的节点相似性矩阵SG(vi,vj)和节点权重矩阵wG(vi);如公式(1)、(2)所示:
SG(vi,vj)=α1A+α2A23A3 (1)
其中,SG(vi,vj)为网络G的矩阵,Al为节点vi和vj间长度为l的点不重复路径的数目;α1,α2,α3为自由参数;通常α1>α2≥α3且α123=1;SG(vi,vj)为节点vi和vj的邻域相似性,且SG(vi,vj)越高,vi和vj在局部邻域内的连通性越好;
Figure RE-FDA0003115062890000014
给定网络G=(V,E)及SSLP矩阵,对节点vi∈V,定义其权重为wG(vi),通过公式(2)计算V中所有节点的权重,由于SSLP(vi,vj)表示节点vi和vj在局部邻域内的连通性,因此wG(vi)表示节点vi在局部邻域内的连通能力,其值越大,节点权重越大,表明节点vi在局部邻域内连通能力越强,越有可能成为某个簇的中心节点;因此,选择权重值wG(vi)最大的节点为中心节点,若有多个节点同为权重最大的节点,则都为中心节点,构成了中心节点簇的初始状态。
3.根据权利要求1所述的基于中心节点的GCN无监督社区发现方法,其特征在于,根据节点相似性矩阵和节点权重矩阵计算初始簇中心ch,根据公式(1)(2)计算:
Figure RE-FDA0003115062890000021
对第h个簇,选择
Figure RE-FDA0003115062890000022
作为第h个初始簇中心ch,得到m个初始的中心节点,分别为{c1,c2,…,cm},令初始簇Vi={ci}(1≤i≤m)。
4.根据权利要求1所述的基于中心节点的GCN无监督社区发现方法,其特征在于,用初始簇训练图卷积网络模型,
Figure RE-FDA0003115062890000023
Figure RE-FDA0003115062890000024
CN202110121984.9A 2021-01-29 2021-01-29 一种基于中心节点图卷积网络的无监督社区发现方法 Pending CN114817653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110121984.9A CN114817653A (zh) 2021-01-29 2021-01-29 一种基于中心节点图卷积网络的无监督社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110121984.9A CN114817653A (zh) 2021-01-29 2021-01-29 一种基于中心节点图卷积网络的无监督社区发现方法

Publications (1)

Publication Number Publication Date
CN114817653A true CN114817653A (zh) 2022-07-29

Family

ID=82526873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110121984.9A Pending CN114817653A (zh) 2021-01-29 2021-01-29 一种基于中心节点图卷积网络的无监督社区发现方法

Country Status (1)

Country Link
CN (1) CN114817653A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808616A (zh) * 2024-02-28 2024-04-02 中国传媒大学 一种基于图嵌入和节点亲密度的社区发现方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808616A (zh) * 2024-02-28 2024-04-02 中国传媒大学 一种基于图嵌入和节点亲密度的社区发现方法及系统

Similar Documents

Publication Publication Date Title
CN106411572B (zh) 一种结合节点信息和网络结构的社区发现方法
CN111862140A (zh) 一种基于协同模块级搜索的全景分割网络及方法
CN110263236B (zh) 基于动态多视图学习模型的社交网络用户多标签分类方法
CN110347881A (zh) 一种基于路径回溯图嵌入的群体发现方法
CN113297427A (zh) 一种基于u型嵌套网络的图分类方法
CN110909173A (zh) 一种基于标签传播的非重叠社区发现方法
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
CN109921936A (zh) 基于memetic框架的多目标动态网络社区划分方法
Yang et al. Linearly decreasing weight particle swarm optimization with accelerated strategy for data clustering
CN110956223A (zh) 一种复杂网络图的概要方法及其在蛋白质关系网中的应用
Tang et al. An adaptive discrete particle swarm optimization for influence maximization based on network community structure
CN115481682A (zh) 一种基于监督对比学习与结构推断的图分类训练方法
CN113190939A (zh) 基于多边形系数的大型稀疏复杂网络拓扑分析和简化方法
CN112165401A (zh) 一种基于网络剪枝和局部社区扩展的边社区发现算法
CN114817653A (zh) 一种基于中心节点图卷积网络的无监督社区发现方法
CN114641006A (zh) 一种基于二进制蜻蜓优化算法的认知无线电网络的频谱分配方法
Shi et al. PSO-based community detection in complex networks
CN108596778B (zh) 一种基于兴趣空间的社区划分方法
CN111339635A (zh) 基于阻尼因子的多元宇宙算法的dna存储编码优化方法
CN116756207A (zh) 基于折扣策略与改进离散乌鸦搜索算法的网络关键节点挖掘方法
Chira et al. Collaborative community detection in complex networks
CN114169504B (zh) 基于自适应滤波的图卷积神经网络池化方法
CN112347369B (zh) 基于网络表征的集成学习动态社会网络链路预测方法
CN111698690B (zh) 基于改进小生境遗传的认知无线网络频谱分配方法
CN114900871A (zh) 一种基于亲和传播和混沌狮群的无线传感器网络分簇方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination