CN105162648B - 基于骨干网络扩展的社团检测方法 - Google Patents

基于骨干网络扩展的社团检测方法 Download PDF

Info

Publication number
CN105162648B
CN105162648B CN201510470499.7A CN201510470499A CN105162648B CN 105162648 B CN105162648 B CN 105162648B CN 201510470499 A CN201510470499 A CN 201510470499A CN 105162648 B CN105162648 B CN 105162648B
Authority
CN
China
Prior art keywords
network
community
backbone
nodes
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510470499.7A
Other languages
English (en)
Other versions
CN105162648A (zh
Inventor
刘瑶
刘峤
秦志光
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510470499.7A priority Critical patent/CN105162648B/zh
Publication of CN105162648A publication Critical patent/CN105162648A/zh
Application granted granted Critical
Publication of CN105162648B publication Critical patent/CN105162648B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于骨干网络扩展的社团检测方法,用于在大规模复杂网络中进行快速的社团发现。本发明主要包括:使用基于节点权重的改进型PageRank算法(WP)对输入的网络进行计算,选取WP值大于阈值的节点作为网络的骨干节点;遍历整体网络,抽取骨干节点和连接任意两个骨干节点的边从而构成骨干网络;在骨干网络中运行层次聚类算法得到骨干社团结构;采用扩展算法,将骨干社团扩展到全网,得到整体网络的社团结构。本发明将层次聚类算法的运行范围缩小到骨干网络,避免在全网进行聚类,具有较小的时间复杂度,适合于大规模复杂网络中的社团发现。另外本发明能够通过追踪骨干社团的变化快速捕获到整体社团的变化细节,适合于快速演变网络中的社团发现。

Description

基于骨干网络扩展的社团检测方法
技术领域
本发明涉及数据挖掘和复杂网络分析领域,特别是涉及大规模社会网络下的社团快速划分,具体是一种基于骨干网络扩展的高效社团检测方法。
背景技术
现实世界中存在着大量的复杂系统,如生物分子系统,交通运输系统,邮件系统等等。为了研究这些复杂系统中隐含的规律并利用这些规律服务于现实世界中人类的各项需求,通常把这些复杂网络建模为网络。系统中的实体看作网络中的节点,实体之间的联系看作网络中的连接或边。例如,交通运输网络中节点对应于各个路口,边代表路口之间的道路;蛋白质相互作用网络中的节点代表蛋白质,边对应于蛋白质之间的相互作用关系;音乐人合作网络中节点对应于不同的音乐人,边代表音乐人之间的合作关系。
于复杂系统的多领域性,复杂网络的研究吸引了来自计算机、物理、生物、数学和复杂性科学等众多领域的研究者,目前已经复杂网络领域中的一些问题成为了多学科交叉研究的热点问题之一。通过对各种类型网络(如邮件网络、蛋白质网络、合作者网络等)的研究分析,发现复杂网络中普遍存在着小世界、无标度等基本统计特性。
学者对网络性质物理意义和数学特性的深入研究,复杂网络的社团结构的特性被挖掘出来。社团也可以看作组或者一个社区。在网络中,位于用一个社团的节点之间的联系比较紧密,而位于不同社团的节点之间的联系比较稀松。
由于社团职能或性质的不同,网络中往往包括多个社团。例如,在Enron公司邮件网络中,同一个社团的个体通常是同一个部门或具有相似背景;在蛋白质网络中,同一个蛋白质复合体的蛋白质相互作用共同完成某个复杂的生物过程;在音乐家合作网络中,同一个社团中的音乐家通常有相似的背景或其音乐有相似的特点。
研究网络社团结构有助于理解网络结构、分析网络特性、发现网络中隐藏的规律,具有重要的理论研究意义及实际应用价值。如,对WWW网络中的新闻及其评论进行社团划分,能够脱落关键词的制约,发现主题相似的页面,对信息检索、网络热点话题的发现及舆情发现及控制起到重要作用。
随着研究人员对复杂网络社团检测问题的关注,研究人员也提出了很多网络社团划分的方法,主要包括以下五种:(1)基于模块度优化的社团检测方法;(2)基于层次的社团检测方法;(3)基于谱的社团检测方法;(4)基于网络动力学的社团检测方法;(5)其他方法。
基于模块度优化的社团检测方法的目的是不断调节节点的归属性,使得模块度函数值Q最大。模块度函数是Newman提出来用来评价社团划分质量的指标函数。模块度的公式为下式,其中ki和kj是节点的度,Ci是节点i所属的社团,m是网络的总边数,当Ci=Cj时δ(Ci,Cj)=1,否则为0。
模块度函数Q为一个网络划分的社团结构是否明显提供了一种度量方式。一般来说,Q值越大,对应的社团结构越明显,目前公认的是如果一个网络的划分的Q值大于0.3,则认为该网络存在明显的社团结构。因此,基于模块度优化的社团划分方法等价于找到网络的一个划分,使得Q值最大化。优化模块度是一个NP-hard问题,研究人员提出了很多启发式的搜索算法来得到局部最优解,如群体智能算法、极值最优化算法、贪婪算法和模拟退火算法等。
由于网络中不同节点在网络中的所属地位不同会导致网络出现分层现象。基于层次的社团检测方法就是利用这种分层现象来对网络进行社团划分的。常见的层次社团划分方法有自上而下的分裂算法和自下而上的凝聚算法两种。分裂算法通过移除边来检测社团的分层结构。以GN算法为例,首先计算网络中所有边的介数值,然后删除介数值最大的那条边,重新计算网络中所剩边的介数值,重复这个过程直到删除了网络中的所有边,其他分裂算法与GN算法相似,区别在于边的删除方法不同。凝聚算法将网络中的节点看成单独的社团,计算社团间的相似性,然后合并相似性最大的两个社团到一个新社团,重新更新社团间的相似性。重复以上步骤直到所有节点都凝聚为一个社团。常见的凝聚算法有Bagrow提出的局部社团划分算法,Clauset提出的局部模块度算法。
基于谱的社团检测方法建立在图论的谱图理论基础上,其本质是将聚类问题转化为图的划分问题,是一种点对聚类算法,对数据聚类具有很好的应用前景。谱聚类一般包括三个主要步骤:(1)构建表示样本集的矩阵Z;(2)通过计算Z的前k个特征值与特征向量,构建特征向量空间;(3)利用k-均值或其他经典聚类算法对特征向量空间中的特征向量进行聚类。按照谱聚类算法的划分准则不同,讲算法分为迭代谱和多路谱两类。常见的迭代谱聚类算法包括PF算法、SM算法、SLH算法;常见的多路谱聚类算法有NJW算法、MS算法。
基于网络动力学的社团检测方法是通过分析网络上的动力学过程变化检测网络社团结构的。如被广泛用于社团结构检测的随机游走方法就是一种常见的网络动力学过程。Von Dongen基于随机游走方法提出了马尔科夫聚类算法(MCL)。Rosvall和Bergstrom根据信息论中的编码原理与随机游走过程分析社团结构,并通过对其算法扩展,使其可以检测网络中的层次结构。Fan Chung等人提出了Pagerank-Nibble算法,该算法检测包含某个节点的稠密模块。
其他网络社团结构划分的方法还包括派系过滤算法(CPM)、标签传递算法、基于边社团的划分方法等等。
虽然,以上算法都能够解决网络社团划分的一些问题,然而大部分算法都存在着一下问题。
1、对于一个大规模的网络,很多算法需要根据不同的情景引入各种节点属性度量的方法,如节点间路径的数目和节点相似性计算等,这些度量需要多次迭代会导致算法效率比较低,复杂度较大。
2、由于不同算法使用的划分标准不同,导致社团划分的结果也不尽相同。很多算法都只追求达到较高的模块度或其他标准,而不注重网络的真实社团结构。
3、大多数真实世界的网络,人们无法知道该网络的真实社团数目,而很多算法需要在社团划分之前指定社团的个数。
发明内容
为了克服上述技术的不足,本发明提供了一种基于骨干网络扩展的社团检测方法。通过使用WP算法计算出网络中各节点的影响力,得到骨干网络的网络拓扑;运行层次聚类算法得到骨干网络的社团结构,再采用扩展算法得到全局网络的社团结构。由于只在骨干网络运行层次聚类算法,本发明的计算复杂度较小,可以快速高效地发现网络的真实社团结构。
为了实现上述目的,本发明采用以下技术方案:一种基于骨干网络扩展的社团检测方法,主要步骤如下:
1.以点对的形式输入网络数据,利用图的数据结构保存网络数据,并形成网络图G(V,E)。
2.使用基于节点权重的改进型PageRank(WP)算法计算网络G(V,E)中所有节点的影响力(WP值);根据节点的WP值对网络节点进行排序;按照节点排序结果选取骨干节点。
基于节点权重的PageRank算法(WP)的计算公式为:
其中,是节点vi的度,是整个网络中所有节点的度值的总和,WP(vj)是节点vj的WP值。
3.创建空的骨干网络,将所有的骨干节点加入到骨干网络;遍历网络G(V,E),选取两个端点都为骨干节点的边加入骨干网络。
4.利用层次聚类方法得到骨干网络的社团结构。
(1)新建一个骨干社团集合KS,KS=Φ;
(2)新建一个骨干社团KC。从一个不在KS中的骨干节点u出发,遍历其在骨干网络中的邻居节点。当邻居节点v相对于社团KC的适应度函数f(v)>0时,将v加入到骨干社团KC,直到遍历完u的所有邻居节点。将社团KC加入到KS中,KS=KS+{KC};
(3)重复步骤(2)直到所有的骨干节点都包含在KS中。
节点对社团的适应度函数如下所示:
f(v)=f(C+{v})-f(C-{v})
其中v为一个新的节点,C为一个社团,为所有在社团C中的节点的WP值的总和,为所有不在社团C中的邻居节点的WP值的总和。
5.利用扩展方法,得到整体网络的社团结构。
(1)初始化整体网络的社团结构CS为骨干网络的社团结构KS。
(2)对于每个非骨干节点v,遍历其所有邻居节点,如果邻居节点u包含在社团集合CS,那么计算节点v和节点u所在的社团之间的密切度。比较节点v和其所有邻居社团之间的密切度,将节点v加入密切度最大的社团。
节点和社团的密切度计算公式如下所示:
其中,等号右边分子部分表示在社团C中与节点v有直接边联系的所有节点的WP值的总和与节点v的WP值之和,分母为社团C的所有节点的WP值的总和与节点v的WP值之和。
与现有技术相比,本发明的有益效果是:
1.使用基于节点权重的改进型PageRank算法,可以更加真实地反映网络中节点的影响力。针对真实世界中不同类型的网络,可调整骨干节点占所有节点的比例,以反映真实世界中不同的组织结构。
2.考虑到节点之间的影响力和交互关系,将网络节点分成两种不同的层次的节点:骨干节点和普通节点。对不同的节点使用不同的方法进行处理,可以更有效地发现整体网络的社团结构,得到更准确、更符合真实关系的划分结果。
3.通过骨干网络的社团结构能够快速得到整体网络的社团框架,普通节点只需要计算其与邻居社团的密切度就能够加入到社团中。这种先聚类再扩展的方法大大地降低了计算复杂度,缩小了计算规模,在超大规模网络中能够快速获得有效的划分结果,有更广泛的实际应用价值。
附图说明
图1为本发明的实现流程图;
图2为本发明的实验1——空手道俱乐部的真实网络拓扑图。
图3为利用本发明方法实现社团划分后的空手道俱乐部网络图。
图4为本发明实验2——论文合作者(DBLP)数据的真实网络拓扑图。
图5为利用本发明方法实现社团划分后的论文合作者(DBLP)数据网络图。
具体实施方式
本发明的目的是通过扩展骨干网络的社团结构以得到整体网络的社团结构。本发明首先通过对网络节点的影响力进行排序,找到骨干网络;进而对骨干网络进行层次聚类得到骨干网络的社团结构;最后通过扩展方法将骨干社团结构扩展为全局网络的社团结构。下面结合附图和实例对本发明进行进一步地详细说明。
为了验证本发明的准确性及有效性,采用两个复杂网络领域著名的数据集作为实验数据集。这两个实验数据集分别为空手道俱乐部数据集、DBLP数据集。
实例1空手道俱乐部数据集
空手道俱乐部数据集为美国学者Wayne Zachary将美国一所大学空手道俱乐部成员三年之间的交互关系构造而成的数据集,其关系网络如图2所示。该网络中包括34个节点,78条边,每一个节点代表一个俱乐部成员,如果两个成员之间经常有联系那么代表这两个成员的节点之间就有一条连接。
由于主管John A.(节点34)与教练Mr.Hi(节点1)之间发生争执,导致该网络分裂成以他们为骨干的两个群体,如图3,图中不同的节点颜色代表不同的社团。由于该网络为一个真实世界的网络,并且研究人员知道该网络的真实社团结构,因而该网络常被用来测试社团检测方法的有效性。
本发明对空手道俱乐部数据集进行实验的步骤为:
1.以点对的形式输入78条边,利用图的数据结构保存网络数据,并形成网络图G(V,E)。
2.使用基于节点权重的PageRank算法(WP)计算网络G(V,E)中节点的影响力(WP值);根据节点的WP值对网络节点排序;选取其中前6%的节点作为骨干节点,即在表1中的节点1和节点34。
表1 节点的影响力
序号 节点 WP值 节点 WP值 节点 WP值 节点 WP值
1 1 154.40 7 52.32 26 35.37 19 20.31
2 34 154.23 9 49.50 25 35.28 21 20.31
3 33 115.17 14 49.38 29 31.04 15 20.31
4 3 95.97 28 43.23 20 30.26 23 20.31
5 2 87.63 30 42.80 17 28.42 16 20.31
6 32 63.69 8 40.42 27 21.60 10 20.00
7 4 60.05 31 40.06 13 21.02 12 10.58
8 24 54.13 5 37.75 18 20.79
9 6 52.32 11 37.75 22 20.79
3.创建空的骨干网络,将骨干节点加入到骨干网络;遍历网络G(V,E),由于节点34和节点1这两个节点之间没有联系,则此时骨干网络被分为两个社团,一个社团含有节点1,另一个节点含有节点34。
4.利用扩展方法得到整体网络的社团结构。
(1)初始化整体网络的社团结构CS为骨干网络的社团结构KS。
(2)对每个普通节点v,遍历其所有邻居节点。如果其邻居节点中有社团结构CS中包含的节点u,那么计算节点v和节点u所在的社团之间的密切度。比较节点v和其所有邻居社团之间的密切度,将节点v加入密切度最大的那个社团。
以节点9为例,该节点的邻居节点为节点1,节点3,节点34,节点33,节点31。当计算9的社团归属时,节点1,3已经被加入到社团1中,节点33,34也被加入到社团2中了。由于此时社团1中的节点有节点1,节点2,节点3,节点4,节点6,节点7,社团1中的节点有节点33,节点34,节点32,节点24。根据密切度公式计算,节点9与社团1的密切度为0.418,与社团2的密切度为0.498,因此节点9加入到社团2。
通过基于骨干网络扩展的社团检测方法,本发明可以得到空手道俱乐部的社团划分结果,该结果与真实世界中的社团情况一致,因此可以证明本发明的计算结果是准确有效的。
实例2DBLP论文合作者数据集
DBLP论文合作者网络收集了计算机领域内对研究的成果以作者为核心的大部分计算机类英文文献。本发明仅提取了2003年到2014年12年间DBLP数据集中的数据挖掘领域221个会议论文作者的合作情况。这个数据集有超过94000个论文作者,255925条作者之间的合作关系,平均每个节点的度为8.9。图4为DBLP数据集没有进行社团划分时,部分网络的真实拓扑结构。
本发明使用基于骨干网络扩展的社团检测方法对该数据进行计算,在DBLP数据集中骨干节点占总节点数目的比例为40%。本发明对DBLP数据集中的数据进行社团划分后,该网络的模块度为0.65,社团数目为11817个。而对于近10万节点,25万条边构成的网络,本发明仅需68秒。图5为DBLP数据集社团检测之后网络的部分真实拓扑结构。
通过对DBLP数据集进行社团划分,可以证明本发明可以快速高效地处理大规模数据集。

Claims (1)

1.一种基于骨干网络扩展的社团检测方法,其特征在于,包括以下步骤:
(1)以点对的形式输入网络数据,利用图的数据结构保存网络数据,并形成网络图G(V,E);
(2)使用基于权重的改进型PageRank算法计算网络G(V,E)中节点的影响力即WP值;根据节点的WP值对网络节点进行排序;按照节点排序结果选取骨干节点;
(3)创建骨干网络,将所有的骨干节点以及两个端点均为骨干节点的边加入骨干网络;
(4)在骨干网络中运行层次聚类方法,得到骨干社团结构;
(5)使用扩展方法,将骨干社团扩展到全网,得到整体网络的社团结构;
所述的层次聚类方法具体步骤如下:
(1)新建一个核心社团结构KS,KS=Φ;
(2)从一个不在KS中的节点u出发,新建一个核心社团KC,遍历其邻居节点;当邻居节点v相对于社团KC的适应度函数f(v)>0时将v加入到社团KC,直到遍历完u的所有邻居节点,将社团KC加入到KS中,KS=KS+{KC};
(3)重复步骤(2)直到所有的骨干节点都包含在KS中;
所述的节点对社团的适应度函数为:
f(v)=f(C+{v})-f(C-{v})
其中v为一个新的节点,C为一个社团,为所有在社团C中的节点的基于WP值的总和,为所有在社团C中节点的不在社团C中的邻居节点的WP值的总和。
CN201510470499.7A 2015-08-04 2015-08-04 基于骨干网络扩展的社团检测方法 Expired - Fee Related CN105162648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510470499.7A CN105162648B (zh) 2015-08-04 2015-08-04 基于骨干网络扩展的社团检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510470499.7A CN105162648B (zh) 2015-08-04 2015-08-04 基于骨干网络扩展的社团检测方法

Publications (2)

Publication Number Publication Date
CN105162648A CN105162648A (zh) 2015-12-16
CN105162648B true CN105162648B (zh) 2018-07-10

Family

ID=54803409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510470499.7A Expired - Fee Related CN105162648B (zh) 2015-08-04 2015-08-04 基于骨干网络扩展的社团检测方法

Country Status (1)

Country Link
CN (1) CN105162648B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108958793B (zh) * 2018-07-24 2020-11-10 北京理工大学 一种基于改进gn算法的程序控制流图划分方法
CN110287237B (zh) * 2019-06-25 2021-07-09 上海诚数信息科技有限公司 一种基于社会网络结构分析社团数据挖掘方法
CN111030854A (zh) * 2019-12-04 2020-04-17 兰州交通大学 一种Spark云服务环境下面的复杂网络社团发现方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A core-based community detection algorithm for networks;wei wang等;《2010 international conference on computational aspects of social networks 》;20101231;1-4 *
动态社会网络的社团结构检测与分析;刘瑶等;《电子科技大学学报》;20140930;全文 *

Also Published As

Publication number Publication date
CN105162648A (zh) 2015-12-16

Similar Documents

Publication Publication Date Title
Cavallari et al. Embedding both finite and infinite communities on graphs [application notes]
CN104102745B (zh) 基于局部最小边的复杂网络社团挖掘方法
Gui et al. A community discovery algorithm based on boundary nodes and label propagation
Zheng et al. Migo-nas: Towards fast and generalizable neural architecture search
Ozaki et al. A simple acceleration method for the Louvain algorithm
CN106991127B (zh) 一种基于拓扑特征扩展的知识主题短文本层次分类方法
CN106055627A (zh) 话题领域中社交网络关键节点的识别方法
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
CN107784327A (zh) 一种基于gn的个性化社区发现方法
CN111680498B (zh) 实体消歧方法、装置、存储介质及计算机设备
CN105162648B (zh) 基于骨干网络扩展的社团检测方法
CN107133274B (zh) 一种基于图知识库的分布式信息检索集合选择方法
Souravlas et al. Probabilistic community detection in social networks
CN110717043A (zh) 基于网络表示学习训练的学术团队构建方法
Gao et al. Accelerating graph mining algorithms via uniform random edge sampling
Lu et al. Hete_MESE: multi-dimensional community detection algorithm based on multiplex network extraction and seed expansion for heterogeneous information networks
Ismail et al. Modularity approach for community detection in complex networks
CN107862073B (zh) 一种基于节点重要度和分离度的Web社区划分方法
Ma et al. Fuzzy nodes recognition based on spectral clustering in complex networks
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
Amin et al. Advanced community identification model for social networks
Yang et al. Large-scale metagenomic sequence clustering on map-reduce clusters
Chen et al. Community Detection Based on DeepWalk Model in Large‐Scale Networks
Pratiwi et al. Grouping Number of Library Members For Determining the Location of Socialization Using Clustering Method
Chen et al. Recommending interesting landmarks based on geo-tags from photo sharing sites

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180710

Termination date: 20210804