CN103020163A - 一种网络中基于节点相似度的网络社区划分方法 - Google Patents

一种网络中基于节点相似度的网络社区划分方法 Download PDF

Info

Publication number
CN103020163A
CN103020163A CN2012104884337A CN201210488433A CN103020163A CN 103020163 A CN103020163 A CN 103020163A CN 2012104884337 A CN2012104884337 A CN 2012104884337A CN 201210488433 A CN201210488433 A CN 201210488433A CN 103020163 A CN103020163 A CN 103020163A
Authority
CN
China
Prior art keywords
value
community
node
attribute
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104884337A
Other languages
English (en)
Inventor
窦万春
张绍谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN2012104884337A priority Critical patent/CN103020163A/zh
Publication of CN103020163A publication Critical patent/CN103020163A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种网络中基于节点相似度的网络社区划分方法,包括以下步骤:抽取用户对于网络社区划分的偏好信息并确定属性权重;从网络中的用户配置文件中获取数据集;以每个节点为一个网络社区,计算不同网络社区间的相似度,并将网络社区对按照相似度生成最大堆;选择具有最大相似度的节点对进行合并;计算新网络社区与其它网络社区间的相似度,插入至最大堆,并从最大堆中删除被合并网络社区的相关记录;计算新的网络社区划分的Q值;重复上述步骤直至所有节点都被合并至同一网络社区中,并找出Q值极值点及其相应划分;修改各属性权重,重复算法;汇总不同权重取值时的Q值极值及相应网络划分,将其中Q值较高的多个划分推荐给用户。

Description

一种网络中基于节点相似度的网络社区划分方法
技术领域
本发明涉及计算机软件技术领域,特别是一种网络中基于节点相似度的网络社区划分方法,通过对网络中节点及链接属性的分析实现对复杂网络中节点的网络社区划分。
背景技术
网络结构广泛存在于自然界和现实生活中,如通讯网络、交通网络、电力网络、航空网络、食物链网络及蛋白质交互网络等,虽然上述网络结构来自于不同领域,具有不同背景,但具有相似的结构特征,如网络的“无尺度特性(Power-Law)”、“小世界特性(Small-World)”、“高聚集系数(High Clustering Coefficient)”、“自相似性(Self-Similarity)”等;同时,网络连接结构可能会随时间而不断变化,且连接间可能具有不同的权重或方向。现实社会中人也不是孤立的,人与人之间的亲戚关系、朋友关系、上下级关系、同时关系等不同的社会交互构成了一种重要的社会关系网络,简称社会网络。社会网络具有广泛的应用价值,目前已被引入各种领域,如广告传播与市场营销、计算机病毒与犯罪网络及IT与通信行业等。由于社会网络中含有众多个体及个体间的关联信息,具有重要的研究与分析价值,因而社会网络分析成为数据挖掘的一个重要分支,如何从复杂网络结构中挖掘出潜在的模式和知识成为数据挖掘中一个新兴的热点研究领域。
随着对实际网络拓扑结构和物理意义的深入研究,研究人员逐渐发现除了典型的“无尺度”、“小世界”及“高聚集系数”等特征外,现实世界的网络还具有“网络社区结构”,即网络社区内节点之间的连接相对非常紧密,但各网络社区之间的连接相对较为稀疏,这些网络社区结构代表了社会网络中具有相同兴趣或偏好的团体。如何快速有效地发现网络中的网络社区结构对于揭示网络的局部功能与其自身的拓扑结构之间的相互影响的关系具有十分重要的推动作用。
对于社会网络中网络社区结构的探测,学术界已经进行了大量的研究。例如,M.E.J.Newman等人在“Finding and evaluating community structure in networks(PhysicalReview E,Vol.69,No.2,pp.026113,2003)”中提出了一种基于层次聚类算法的边消去算法,算法利用最短路径求出每条边的“betweenness”值,然后每次去掉网络中“betweenness”值最大的边,并引入“模块化度”作为评价网络社区划分结果的评价指标;之后M.E.J.Newman在“Fast algorithm for detecting community structure in networks(Physical Review E,Vol.60,No.6,pp.066133,2004)”中提出了效率更高的基于每条边“betweenness”值的网络社区发现算法;Ye,Z.等人在“Adaptive clustering algorithm forcommunity detection in complex networks(Physical Review E,Vol.78,No.4,pp.046115,2008)”中根据自适应及自组织动力学特征提出了一种网络社区发现算法,能避免节点误划分入不正确网络社区后不能重新加入正确网络社区的情况;Nan Du等人在“Overlapping community structure detection in networks (Proceedings of the 17th ACMconference on Information and knowledge management(CIKM’08),pp.1371-1372,2008)”中提出了一种基于局部算法的重叠网络社区发现算法;Liu Xu等人在“Communitydetection by neighborhood similarity(CHIN.PHYS.LETT.,Vol.29,No.4,pp.048902,2012)”中;Tore Opsahl等人在“Clustering in weighted networks(Social Networks,Vol.31,No.2,pp.155-163,2009)”中对带权重的网络社区发现进行了探讨;M.E.J.Newman在“Analysis of weighted networks(Physical Review E,Vol.70,No.5,pp.056131,2004)”中提出了一种将加权网络转化为不加权网络的映射方法。
但我们发现在已有的研究方法都是利用网络的拓扑结构对网络中的网络社区进行探索,并没有综合利用网络中的节点信息,从而可能会造成网络社区结构划分的不精确,达不到用户的理想要求;同时,随着网络社区结构探测研究的不断深入,用户对网络社区结构的需求也趋于多样化,不同用户之间对于网络社区结构探测的出发点或偏好不同,因此,以往只向用户提供单一划分结果的研究方法逐渐不能满足用户的需求。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种网络中基于节点相似度的网络社区划分方法。
本发明公开了一种互联网基于节点相似度的网络社区划分方法,包括以下步骤:
步骤1,从网络中的用户配制文件和用户日志文件中抽取用户对于网络社区划分的偏好信息;
步骤2,从网络中的用户配置文件中获取数据集,所述数据集包含所有节点的属性值及节点之间的链接属性值;设定节点总属性权重与链接属性权重取值集合,节点总属性权重值
Figure BDA00002468222500031
的取值集合为{0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0},链接属性权重值
Figure BDA00002468222500032
的取值集合为{0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0};初始状态下,节点总属性权重值为0.5,链接属性权重值
Figure BDA00002468222500034
为0.5;根据节点属性数量,设定节点属性权重值的集合,每个节点属性权重值为0.1的整数倍,且所有节点属性权重值之和为1,初始状态下,每个节点属性权重值相等;
步骤3,以每个节点为一个网络社区,计算不同网络社区间的相似度,并将网络社区对按照相似度生成最大堆,选择具有最大相似度的节点对进行合并得到新网络社区;计算新网络社区与其它网络社区间的相似度,插入至最大堆,并从最大堆中删除被合并网络社区的对应记录;
步骤4,计算网络社区划分的模块度Q值;重复步骤3直至所有节点都被合并至同一网络社区中,找出模块度Q值极值点;
步骤5,根据步骤2中的节点属性权重值的集合,修改节点属性权重值,重复步骤3~步骤4,直至遍历所有节点属性权重值;汇总模块度Q值极值点处的网络社区划分,并将网络社区划分方案按照Q值极值大小排列;
步骤6,根据步骤2中的节点总属性权重值的集合与链接属性权重值的集合修改节点总属性权重值
Figure BDA00002468222500035
与链接属性权重值
Figure BDA00002468222500036
重复步骤3~步骤5,直至遍历所有节点总属性权重值与链接属性权重值;汇总所得模块度Q值极值点处的网络社区划分,将网络社区划分方案按照Q值极值大小排列输出。
用户配制文件、用户日志文件以及用户配置文件一般存储于网络服务器中。
本发明中,步骤1中,用户对于网络社区划分的偏好信息通过选取网络的属性集和属性间的权重值进行表征,其中属性集包括节点属性、节点间的链接属性;所述网络的属性集描述为:T={TN,TE},其中T表示所选取属性集,TN表示节点属性,TE表示链接属性;TN表示为TN={t1,t2,…ti,…,tp},其中ti表示所选取的第i个节点属性,TE为TE={ids,idd,weight},其中,ids与idd表示链接的相邻节点,weight表示该链接的权重值;TN中各属性的权重值W描述为W={w1,w2,…wi,…wp},其中wi表示属性ti的权重值,其中p为节点属性的数量,1≤i≤p;初始化时,所有属性的权重值相等且所有属性的权重值之和为1。
本发明中,节点的属性均为多值属性,算法初始化时节点的属性值可以表示为
Figure BDA00002468222500041
其中,
Figure BDA00002468222500042
表示第i个节点的第j个属性值的集合,其中1≤i≤m,,m为网络中节点个数,1≤j≤p,其中每个元素表示其中的一个属性值,
Figure BDA00002468222500043
表示属性值的总个数;随着算法中单个节点的不断合并,节点的相应属性值也将不断合并或累加,节点的属性值
Figure BDA00002468222500044
和链接的属性值Di分别表示为:
C i j = c i j 1 nm i j 1 c i j 2 nm i j 2 · · · · · · c i j x i j nm i j x i j , D i = id i 1 wt i 1 id i 2 wt i 2 · · · · · · id i l wt i l ,
其中,
Figure BDA00002468222500047
表示集合
Figure BDA00002468222500048
中的一个属性值,表示相应的属性值
Figure BDA000024682225000410
在形成的新网络社区中的数目;
Figure BDA000024682225000411
表示与网络社区与外部相连的第l个链接,1≤l≤Numl,Numl为该网络社区与外部相连的链接的数量,
Figure BDA000024682225000412
表示该链接的权重值。
本发明中,网络的节点属性信息及链接属性信息采用本体技术表示。
本发明中,节点之间的相似度的采用以下方法计算:该方法基于全局最大化函数globalMaxSim(S,Q),globalMaxSim(
Figure BDA000024682225000414
S,Q)用于比较集合S与Q的最大相似度,可表示为:
Figure BDA000024682225000415
集合S和集合Q分别对应是节点属性值的集合和链接属性值的集合,|S|和|Q|分别表示集合S和集合Q中的元素数目,I,J分别表示集合S与Q中元素的下标序列集合,si,qj分别是集合S与集合Q中的元素,fi,j用于表示元素si,qj是否被选中作为最大相似度的一个匹配公式,如果选中,则fi,j的值为1,否则为0。globalMaxSim(
Figure BDA000024682225000416
S,Q)可实现全局相似度的最大化,并只有在两个集合完全相同的情况下才会出现相似度为1的情况。
本发明中,节点的相似度计算方法如下:
Figure BDA00002468222500051
Figure BDA00002468222500052
Figure BDA00002468222500053
其中фSim表示节点间的总相似度,TNSim表示节点属性的相似度,TESim表示链接属性的相似度;wj表示第j个节点属性的权重值;
Figure BDA00002468222500054
为节点i的第j个节点属性的值的集合,
Figure BDA00002468222500055
为节点i'的第j个节点属性的值的集合,Di与Di′分别为节点i和节点i'的链接属性的值集合;函数
Figure BDA00002468222500056
用于比较两个元素值,若两个值相同或相等则返回1,否则返回0;
Figure BDA00002468222500057
Figure BDA00002468222500058
分别表示节点总属性的权重值和链接属性的权重值;TNSim通过分别计算两节点或网络社区的相应属性值的匹配度,并进行简单加权计算求得;TESim通过计算两节点或网络社区的链接的匹配度求得;最后,фSim由TNSim和TESim两者通过简单加权求得。
本发明中,节点的合并过程采用最大堆数据结构,以提高整个算法的效率。
本发明中,在获取邻居相似度的基础上使用层次化的聚类方法,迭代合并具有最大相似度的邻居节点/网络社区,每次合并都会计算合并后的模块度值即Q值,直至所有节点都合并为一个网络社区,找到具有Q值极值点的划分。
本发明中,网络中网络社区划分结果使用网络的模块度即Q值进行评测,Q值越高表示网络社区的划分结果越好,Q值如下:
Q = Σ i ( e ii - a i 2 ) = Tre - | | e 2 | | ,
其中,e是用于表示一个划分成k个网络社区的网络的邻接矩阵,eij的值等于网络社区i网络社区j之间相连的边数除以网络中的总的边数,eii表示i=j,Tre的值等于网络中每个网络社区内的边数的总和除以网络中的总边数,ai的值等于网络中网络社区i与其它网络社区相连的边数除以网络中的总边数。
本发明中,在获取邻居相似度的基础上使用层次化的聚类方法,迭代合并具有最大相似度的邻居节点/网络社区,每次合并都会计算合并后的模块度值即Q值,直至所有节点都合并为一个网络社区,找到具有Q值极值点的划分。
本发明中,采用多组权重值进行计算,即按照节点总属性权重值 w T N = { 0.0,0.1,0.2 , 0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0 } , 链接属性权重值 W T E = { 0.0,0.1,0.2,0.3,0.4,0.5,0.6 , 0.7,0.8,0.9,1.0 } 和步骤2中计算得到的多组节点属性权重值进行计算;针对每组权重值提取Q值极值点时刻的网络划分,最后从上述网络划分中提取Q值极值较高的划分推荐给用户,以供用户自主选择。
步骤5中,逐次修改节点属性权重值,即是将节点属性权重值的集合中的每个值逐个作为节点属性权重值。
步骤6中,将节点总属性权重值的集合和链接属性权重值
Figure BDA00002468222500066
的集合中的值逐一作为节点总属性权重值和链接属性权重值
Figure BDA00002468222500068
除去初始状态下节点总属性权重值和链接属性权重值,并汇总所得模块度Q值极值点处的网络社区划分,将网络社区划分方案按照Q值极值大小排列输出。
有益效果:本发明综合利用了网络中的节点属性信息及节点间的链接信息,同时能向用户反馈多个模块度较高的划分结果,以满足用户的多样化需求。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述特征及其他方面的优点将会变得更加清楚。
图1本发明的基于节点相似度的网络社区发现算法的逻辑框图;
图2本发明所用的globalMaxSim(
Figure BDA00002468222500069
S,Q)函数的应用示例图;
图3本发明在科学家合作网络中所取得结果示意图。
具体实施方式:
如图1所示,本发明公开了一种互联网环境下基于节点相似度的网络社区划分方法,包括以下步骤:
步骤1,从网络中的用户配制文件和用户日志文件中抽取用户对于网络社区划分的偏好信息;
步骤2,从网络中的用户配置文件中获取数据集,所述数据集包含所有节点的属性值及节点之间的链接属性值;设定节点总属性权重与链接属性权重取值集合,节点总属性权重值
Figure BDA00002468222500071
的取值集合为{0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0},链接属性权重值
Figure BDA00002468222500072
的取值集合为{0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0};初始状态下,节点总属性权重值
Figure BDA00002468222500073
为0.5,链接属性权重值
Figure BDA00002468222500074
为0.5;根据节点属性数量,设定节点属性权重值的集合,每个节点属性权重值为0.1的整数倍,且所有节点属性权重值之和为1,初始状态下,每个节点属性权重值相等;
步骤3,以每个节点为一个网络社区,计算不同网络社区间的相似度,并将网络社区对按照相似度生成最大堆,选择具有最大相似度的节点对进行合并得到新网络社区;计算新网络社区与其它网络社区间的相似度,插入至最大堆,并从最大堆中删除被合并网络社区的对应记录;
步骤4,计算网络社区划分的模块度Q值;重复步骤3直至所有节点都被合并至同一网络社区中,找出模块度Q值极值点;
步骤5,根据步骤2中的节点属性权重值的集合,修改节点属性权重值,重复步骤3~步骤4,直至遍历所有节点属性权重值;汇总模块度Q值极值点处的网络社区划分,并将网络社区划分方案按照Q值极值大小排列;
步骤6,根据步骤2中的节点总属性权重值的集合与链接属性权重值的集合修改节点总属性权重值
Figure BDA00002468222500075
与链接属性权重值重复步骤3~步骤5,直至遍历所有节点总属性权重值与链接属性权重值;汇总所得模块度Q值极值点处的网络社区划分,将网络社区划分方案按照Q值极值大小排列输出。
本发明中,网络社区划分基于用户的兴趣偏好,用户的兴趣偏好通过算法选取网络中的不同属性集及属性间的权重进行表征,其中属性集包括节点属性、节点间链接的属性;所述网络的属性集可以描述为:T={TN,TE},其中T表示所选取属性集,TN表示节点属性,TE表示链接属性;TN可表示为TN={t1,t2,…ti,…,tp},其中ti表示所选取的第i个节点属性,TE可以描述为TE={ids,idd,weight},其中,ids与idd表示链接的相邻端点,两者可以互换,weight表示该链接的权重;TN中各属性的权重可以描述为W={w1,w2,…wi,…wp},其中wi表示属性ti的权重值。
本发明中,节点的属性均为多值属性,算法初始化时节点的属性值可以表示为
Figure BDA00002468222500081
其中,
Figure BDA00002468222500082
表示第i个节点的第j个属性值的集合,其中每个元素表示其中的一个属性值;随着算法中单个节点的不断合并,节点的相应属性值也将不断合并或累加,节点的属性值
Figure BDA00002468222500083
和链接的属性值Di分别表示为:
C i j = c i j 1 nm i j 1 c i j 2 nm i j 2 · · · · · · c i j x i j nm i j x i j , D i = id i 1 wt i 1 id i 2 wt i 2 · · · · · · id i l wt i l ,
其中,
Figure BDA00002468222500086
表示
Figure BDA00002468222500087
的一个属性值,
Figure BDA00002468222500088
表示相应的属性值在形成的新网络社区中的数目;表示与网络社区与外部相连的第l个链接,
Figure BDA00002468222500089
表示该链接的权重值。
本发明中,网络的节点属性信息及链接属性信息采用本体技术表示。
本发明中,提出了一种改进的邻居相似度的计算方法,该方法基于globalMaxSim(
Figure BDA000024682225000810
S,Q)函数,globalMaxSim(S,Q)用于比较集合S与Q的最大相似度,可表示为:
Figure BDA000024682225000812
其中|S|和|Q|分别表示集合S和Q中的元素数目,fi,j用于计算两个元素值之间的相似度,globalMaxSim(
Figure BDA000024682225000813
S,Q)可实现全局相似度的最大化,并只有在两个集合完全相同的情况下才会出现相似度为1的情况。
本发明中,节点的相似度计算方法如下:
Figure BDA00002468222500091
Figure BDA00002468222500092
其中фSim表示邻居的总相似度,TNSim表示节点属性的相似度,TESim表示链接属性相似度,
Figure BDA00002468222500093
Figure BDA00002468222500094
分别表示节点总属性权重值和链接属性的权重值;TNSim通过分别计算两节点或网络社区的相应属性值的匹配度,并进行简单加权计算求得;TESim通过计算两节点或网络社区的链接的匹配度求得;最后,фSim由TNSim和TESim两者通过简单加权求得。
本发明中,节点的合并过程采用最大堆数据结构,以提高整个算法的效率。
本发明中,网络中网络社区划分结果使用网络的模块度即Q值进行评测,Q值越高表示网络社区的划分结果越好,Q值如下:
Figure BDA00002468222500095
其中,e是用于表示一个划分成k个网络社区的网络的邻接矩阵,eij的值等于网络社区i网络社区j之间相连的边数除以网络中的总的边数,eii表示i=j,Tre的值等于网络中每个网络社区内的边数的总和除以网络中的总边数,ai的值等于网络中网络社区i与其它网络社区相连的边数除以网络中的总边数。
本发明中,在获取邻居相似度的基础上使用层次化的聚类方法,迭代合并具有最大相似度的邻居节点/网络社区,每次合并都会计算合并后的模块度值即Q值,直至所有节点都合并为一个网络社区,找到具有Q值极值点的划分。
本发明中,采用多组权重值进行计算,即按照节点总属性权重值 w T N = { 0.0,0.1,0.2 , 0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0 } , 链接属性权重值 W T E = { 0.0,0.1,0.2,0.3,0.4,0.5,0.6 , 0.7,0.8,0.9,1.0 } 和步骤2中计算得到的多组节点属性权重值进行计算;针对每组权重值提取Q值极值点时刻的网络划分,最后从上述网络划分中提取Q值极值较高的划分推荐给用户,以供用户自主选择。
实施例
本实施例通过统计某大学中计算机系老师的相关数据构建了一个科学家合作网络,网络中的节点表示学校计算机系的老师,科学家之间的链接表示两者有一篇或者多篇合作发表论文,论文的数据来源于DBLP数据库。假定用户期望算法能将科学家的学校及研究方向等属性考虑到网络社区划分中,如表1所示为选取的节点属性与网络链接属性,其中,Schools与Interests是节点属性,Schools用于记录科学家的相关学校信息,如攻读博士学位期间所在学校、近期的交流访问学校等,如有多个则只记录影响最大的4所学校,Interests用于记录科学家的研究方向或研究兴趣,如有多个则只记录最感兴趣的4个方向;Coauthors与Paper Number是链接属性,Coauthors用于记录科学家的科研合作者,合作者信息由DBLP数据库中查询得到,Paper Number则用于记录合作科学家之间的已合作发表论文数量。
表1:
  编号   字段名称  字段用途
  1   Schools  记录科学家相关的学校名称,每人最多4个学校
  2   Interests  记录科学家的研究方向或兴趣,每人最多4个
  3   Coauthors  记录科学家在DBLP数据库中的合作者
  4   Paper Number  记录两位科学家在DBLP数据库中的合作论文数
按照图1所示的流程,在获取用户偏好信息及数据集后,算法初始化
Figure BDA00002468222500101
Figure BDA00002468222500102
School属性及Interests属性的权重分别为0.5,并在此基础上计算网络中节点间的相似度,节点间的相似度计算依赖于globalMaxSim(
Figure BDA00002468222500103
S,Q)函数,globalMaxSim(
Figure BDA00002468222500104
S,Q)函数的应用示例如图2所示。图2中,S与Q分别表示两个元素的集合,通过函数globalMaxSim(
Figure BDA00002468222500105
S,Q)计算S与Q之间的相似度。图2中,S集合中的元素与Q中集合的元素间都有一条边,每条边上的数字表示通过
Figure BDA00002468222500106
函数所求的两元素间的相似度,如s1与q1间的相似度为1.0,s2与q4间的相似度是0.2,通过globalMaxSim(
Figure BDA00002468222500107
S,Q)函数求得的S与Q的相似度是全局最大相似度,图2中所示S与Q的相似度为0.675,即:
在globalMaxSim(
Figure BDA00002468222500109
S,Q)函数基础上,通过求解节点间的节点属性相似度和链接属性相似度最终求得节点间的相似度。从而,不断合并具有最大相似度的节点,并最终找出具有最大Q值极值的网络划分。
Figure BDA00002468222500111
Figure BDA00002468222500112
School属性及Interests属性的权重分别为0.5时的Q值极值最大值为0.253516。
表2:
  编号   School属性权重   Interests属性权重  Q值极值最大值
  1   0.0   1.0  0.245361
  2   0.1   0.9  0.151737
  3   0.2   0.8  0.223445
  4   0.5   0.5  0.253516
  5   0.6   0.4  0.181656
  6   0.8   0.2  0.151970
  7   0.9   0.1  0.221855
进而,更改节点的不同属性权重,即更改School属性与Interests属性的不同权重,并求取Q值极值的最大值,表2所示为School属性与Interests属性的不同权重值与相应的Q值极值最大值。并可根据情况,调整的值,即调整节点属性与链接属性的权重值,并求取Q值极值最大值,表3所示为School属性与Interests属性分别为0.5时,取不同
Figure BDA00002468222500114
Figure BDA00002468222500115
值时的Q值极值最大值情况。
表3:
  编号   节点属性权重   链接属性权重  Q值极值最大值
  1   0.0   1.0  0.131219
  2   0.1   0.9  0.161522
  3   0.2   0.8  0.219279
  4   0.3   0.7  0.117815
  5   0.4   0.6  0.253516
  6   0.5   0.5  0.199720
  7   0.6   0.4  0.244223
  8   0.7   0.3  0.176119
  9   0.8   0.2   0.171582
  10   0.9   0.1   0.139950
本实施例将所有的Q值极值最大值汇总后,提取Q值极值较高的几个网络社区划分方案,并将之提供给用户,以供用户进行自主选择。图3所示为在
Figure BDA00002468222500121
Figure BDA00002468222500122
情况下,Schools与Interests取不同权重时的Q值极大值变化情况图,在对
Figure BDA00002468222500123
Figure BDA00002468222500124
值改变的前提下,系统最终将虚线以上的5个Q值极值点所对应的网络划分推荐给用户,以供用户进行选择,其中,虚线所代表的是本方法向用户推荐划分的Q值阈值,即将Q值高于虚线值的划分推荐给用户。
本发明提供了一种互联网环境下基于节点相似度的网络社区划分方法的思路,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (7)

1.一种网络中基于节点相似度的网络社区划分方法,其特征在于,包括以下步骤:
步骤1,从网络中的用户配制文件和用户日志文件中抽取用户对于网络社区划分的偏好信息;
步骤2,从网络中的用户配置文件中获取数据集,所述数据集包含所有节点的属性值及节点之间的链接属性值;设定节点总属性权重与链接属性权重取值集合,节点总属性权重值
Figure FDA00002468222400011
的取值集合为{0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0},链接属性权重值
Figure FDA00002468222400012
的取值集合为{0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0};初始状态下,节点总属性权重值
Figure FDA00002468222400013
为0.5,链接属性权重值
Figure FDA00002468222400014
为0.5;根据节点属性数量,设定节点属性权重值的集合,每个节点属性权重值为0.1的整数倍,且所有节点属性权重值之和为1,初始状态下,每个节点属性权重值相等;
步骤3,以每个节点为一个网络社区,计算不同网络社区间的相似度,并将网络社区对按照相似度生成最大堆,选择具有最大相似度的节点对进行合并,得到新网络社区;计算新网络社区与其它网络社区间的相似度,插入至最大堆,并从最大堆中删除被合并网络社区的对应记录;
步骤4,计算网络社区划分的模块度Q值;重复步骤3直至所有节点都被合并至同一网络社区中,找出模块度Q值极值点;
步骤5,根据步骤2中的节点属性权重值的集合,修改节点属性权重值,重复步骤3~步骤4,直至遍历所有节点属性权重值;汇总模块度Q值极值点处的网络社区划分,并将网络社区划分方案按照Q值极值大小排列;
步骤6,根据步骤2中的节点总属性权重值的集合与链接属性权重值的集合修改节点总属性权重值
Figure FDA00002468222400015
与链接属性权重值
Figure FDA00002468222400016
重复步骤3~步骤5,直至遍历所有节点总属性权重值与链接属性权重值;汇总所得模块度Q值极值点处的网络社区划分,将网络社区划分方案按照Q值极值大小排列输出。
2.根据权利要求1所属的一种基于节点相似度的网络社区划分方法,其特征在于,步骤1中,用户对于网络社区划分的偏好信息通过选取网络的属性集和属性间的权重值进行表征,其中属性集包括节点属性、节点间的链接属性;所述网络的属性集描述为:T={TN,TE},其中T表示所选取属性集,TN表示节点属性,TE表示链接属性;TN表示为TN={t1,t2,…ti,…,tp},其中ti表示所选取的第i个节点属性,TE为TE={ids,idd,weight},其中,ids与idd表示链接的相邻节点,weight表示该链接的权重值;TN中各属性的权重值W描述为W={w1,w2,…wi,…wp},其中wi表示属性ti的权重值,其中p为节点属性的数量,1≤i≤p;初始化时,所有属性的权重值相等且所有属性的权重值之和为1。
3.根据权利要求1所述的一种基于节点相似度的网络社区划分方法,其特征在于,步骤2中,节点的属性为多值属性,初始化时节点的属性值表示为
Figure FDA00002468222400021
其中,表示第i个节点的第j个属性值的集合,其中1≤i≤m,,m为网络中节点个数,1≤j≤p,每个元素表示一个属性值,
Figure FDA00002468222400023
表示属性值的总个数;节点的属性值和链接的属性值Di分别表示为:
C i j = c i j 1 nm i j 1 c i j 2 nm i j 2 · · · · · · c i j x i j nm i j x i j , D i = id i 1 wt i 1 id i 2 wt i 2 · · · · · · id i l wt i l ,
其中,
Figure FDA00002468222400027
表示集合
Figure FDA00002468222400028
中的一个属性值,
Figure FDA00002468222400029
表示相应的属性值
Figure FDA000024682224000210
在形成的新网络社区中的数目;表示与网络社区与外部相连的第l个链接,1≤l≤Numl,Numl为该网络社区与外部相连的链接的数量,
Figure FDA000024682224000212
表示该链接的权重值。
4.根据权利要求1所述的一种基于节点相似度的网络社区划分方法,其特征在于,步骤3中节点之间的相似度的采用以下基于全局最大化函数globalMaxSim(
Figure FDA000024682224000213
S,Q)方法计算:
Figure FDA000024682224000214
Figure FDA000024682224000215
Figure FDA000024682224000216
其中фSim表示节点间的总相似度,TNSim表示节点属性的相似度,TESim表示链接属性的相似度;wj表示第j个节点属性的权重值;
Figure FDA00002468222400031
为节点i的第j个节点属性的值的集合,
Figure FDA00002468222400032
为节点i'的第j个节点属性的值的集合,Di与Di′分别为节点i和节点i'的链接属性的值集合;函数
Figure FDA00002468222400033
用于比较两个元素值,若两个值相同或相等则返回1,否则返回0;
全局最大化函数globalMaxSim(
Figure FDA00002468222400034
S,Q)用于计算集合S与集合Q的最大相似度,表示为:
Figure FDA00002468222400035
集合S和集合Q分别对应是节点属性值的集合和链接属性值的集合,|S|和|Q|分别表示集合S和集合Q中的元素数目,I,J分别表示集合S与Q中元素的下标序列集合,si,qj分别是集合S与集合Q中的元素,fi,j用于表示元素si,qj是否被选中作为最大相似度的一个匹配公式,如果选中,则fi,j的值为1,否则为0。
5.根据权利要求1所述的一种基于节点相似度的网络社区划分方法,其特征在于,网络社区划分的模块度Q值采用以下公式计算:
模块度 Q = Σ i ( e ii - a i 2 ) = Tre - | | e 2 | | ,
其中,e是用于表示一个划分成多个网络社区的网络的邻接矩阵,eij的值等于网络社区i和网络社区j之间相连的边数除以网络中的总的边数,eii表示i=j,Tre的值等于网络中每个网络社区内的边数的总和除以网络中的总边数,ai的值等于网络中网络社区i与其它网络社区相连的边数除以网络中的总边数。
6.根据权利要求1所述的一种基于节点相似度的网络社区划分方法,其特征在于,步骤5中,逐次修改节点属性权重值,即是将节点属性权重值的集合中的每个值逐个作为节点属性权重值。
7.根据权利要求1所述的一种基于节点相似度的网络社区划分方法,其特征在于,步骤6中,将节点总属性权重值的集合和链接属性权重值
Figure FDA00002468222400042
的集合中的值逐一作为节点总属性权重值
Figure FDA00002468222400043
和链接属性权重值
Figure FDA00002468222400044
除去初始状态下节点总属性权重值和链接属性权重值,并汇总所得模块度Q值极值点处的网络社区划分,将网络社区划分方案按照Q值极值大小排列输出。
CN2012104884337A 2012-11-26 2012-11-26 一种网络中基于节点相似度的网络社区划分方法 Pending CN103020163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104884337A CN103020163A (zh) 2012-11-26 2012-11-26 一种网络中基于节点相似度的网络社区划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104884337A CN103020163A (zh) 2012-11-26 2012-11-26 一种网络中基于节点相似度的网络社区划分方法

Publications (1)

Publication Number Publication Date
CN103020163A true CN103020163A (zh) 2013-04-03

Family

ID=47968767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104884337A Pending CN103020163A (zh) 2012-11-26 2012-11-26 一种网络中基于节点相似度的网络社区划分方法

Country Status (1)

Country Link
CN (1) CN103020163A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336865A (zh) * 2013-06-26 2013-10-02 中国科学院信息工程研究所 一种动态通信网络构建方法及装置
CN103927371A (zh) * 2014-04-24 2014-07-16 厦门理工学院 一种基于局部相似度的社区挖掘方法
CN106453096A (zh) * 2016-09-05 2017-02-22 北京邮电大学 一种动态网络社区发现方法及装置
CN107623688A (zh) * 2017-09-15 2018-01-23 杭州美创科技有限公司 用户网络安全配置推荐方法
CN107862073A (zh) * 2017-11-24 2018-03-30 山西大学 一种基于节点重要度和分离度的Web社区划分方法
CN108427956A (zh) * 2017-02-14 2018-08-21 腾讯科技(深圳)有限公司 一种对象聚类方法和装置
CN108712287A (zh) * 2018-05-22 2018-10-26 同济大学 基于节点相似度的vanet社区发现方法
CN110032603A (zh) * 2019-01-22 2019-07-19 阿里巴巴集团控股有限公司 一种对关系网络图中的节点进行聚类的方法及装置
CN110351106A (zh) * 2018-04-03 2019-10-18 中移(苏州)软件技术有限公司 一种网络结构的检测方法、装置、电子设备及存储介质
CN111475736A (zh) * 2020-03-18 2020-07-31 华为技术有限公司 社区挖掘的方法、装置和服务器
CN111696626A (zh) * 2019-11-22 2020-09-22 长春工业大学 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法
CN112488767A (zh) * 2020-12-10 2021-03-12 吉林亿联银行股份有限公司 一种客户群体划分方法及装置
CN113536383A (zh) * 2021-01-27 2021-10-22 支付宝(杭州)信息技术有限公司 基于隐私保护训练图神经网络的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877711A (zh) * 2009-04-28 2010-11-03 华为技术有限公司 社会网络建立方法及装置、以及社区发现方法及装置
CN102456062A (zh) * 2010-11-04 2012-05-16 中国人民解放军国防科学技术大学 社区相似度计算方法与社会网络合作模式发现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877711A (zh) * 2009-04-28 2010-11-03 华为技术有限公司 社会网络建立方法及装置、以及社区发现方法及装置
CN102456062A (zh) * 2010-11-04 2012-05-16 中国人民解放军国防科学技术大学 社区相似度计算方法与社会网络合作模式发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YING PAN等: "Detecting community structure in complex networks via node similarity", 《PHYSICA A:STATISTICAL MECHANICS AND ITS APPLICATIONS》, vol. 389, no. 14, 15 July 2010 (2010-07-15), pages 2849 - 2857, XP027030330 *
ZHANG SHAOQIAN等: "An Enhanced Community Detection Method Based on Neighborhood Similarity", 《CLOUD AND GREEN COMPUTING(CGC),2012 SECOND INTERNATIONAL CONFERENCE ON. IEEE》, 3 November 2012 (2012-11-03), pages 493 - 500, XP032329123, DOI: 10.1109/CGC.2012.71 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336865B (zh) * 2013-06-26 2016-09-07 中国科学院信息工程研究所 一种动态通信网络构建方法及装置
CN103336865A (zh) * 2013-06-26 2013-10-02 中国科学院信息工程研究所 一种动态通信网络构建方法及装置
CN103927371A (zh) * 2014-04-24 2014-07-16 厦门理工学院 一种基于局部相似度的社区挖掘方法
CN103927371B (zh) * 2014-04-24 2017-02-22 厦门理工学院 一种基于局部相似度的社区挖掘方法
CN106453096A (zh) * 2016-09-05 2017-02-22 北京邮电大学 一种动态网络社区发现方法及装置
CN106453096B (zh) * 2016-09-05 2019-06-14 北京邮电大学 一种动态网络社区发现方法及装置
CN108427956B (zh) * 2017-02-14 2019-08-06 腾讯科技(深圳)有限公司 一种对象聚类方法和装置
CN108427956A (zh) * 2017-02-14 2018-08-21 腾讯科技(深圳)有限公司 一种对象聚类方法和装置
WO2018149292A1 (zh) * 2017-02-14 2018-08-23 腾讯科技(深圳)有限公司 一种对象聚类方法和装置
US10936669B2 (en) 2017-02-14 2021-03-02 Tencent Technology (Shenzhen) Company Limited Object clustering method and system
CN107623688A (zh) * 2017-09-15 2018-01-23 杭州美创科技有限公司 用户网络安全配置推荐方法
CN107862073A (zh) * 2017-11-24 2018-03-30 山西大学 一种基于节点重要度和分离度的Web社区划分方法
CN107862073B (zh) * 2017-11-24 2021-03-30 山西大学 一种基于节点重要度和分离度的Web社区划分方法
CN110351106A (zh) * 2018-04-03 2019-10-18 中移(苏州)软件技术有限公司 一种网络结构的检测方法、装置、电子设备及存储介质
CN110351106B (zh) * 2018-04-03 2022-01-25 中移(苏州)软件技术有限公司 一种网络结构的检测方法、装置、电子设备及存储介质
CN108712287B (zh) * 2018-05-22 2020-12-29 同济大学 基于节点相似度的vanet社区发现方法
CN108712287A (zh) * 2018-05-22 2018-10-26 同济大学 基于节点相似度的vanet社区发现方法
CN110032603A (zh) * 2019-01-22 2019-07-19 阿里巴巴集团控股有限公司 一种对关系网络图中的节点进行聚类的方法及装置
CN111696626A (zh) * 2019-11-22 2020-09-22 长春工业大学 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法
CN111475736A (zh) * 2020-03-18 2020-07-31 华为技术有限公司 社区挖掘的方法、装置和服务器
CN112488767A (zh) * 2020-12-10 2021-03-12 吉林亿联银行股份有限公司 一种客户群体划分方法及装置
CN112488767B (zh) * 2020-12-10 2024-02-02 吉林亿联银行股份有限公司 一种客户群体划分方法及装置
CN113536383A (zh) * 2021-01-27 2021-10-22 支付宝(杭州)信息技术有限公司 基于隐私保护训练图神经网络的方法及装置
CN113536383B (zh) * 2021-01-27 2023-10-27 支付宝(杭州)信息技术有限公司 基于隐私保护训练图神经网络的方法及装置

Similar Documents

Publication Publication Date Title
CN103020163A (zh) 一种网络中基于节点相似度的网络社区划分方法
Wang et al. Tracking the evolution of overlapping communities in dynamic social networks
Zarandi et al. Community detection in complex networks using structural similarity
Hmimida et al. Community detection in multiplex networks: A seed-centric approach
Yang et al. Identifying influential spreaders in complex networks based on network embedding and node local centrality
Wang et al. Review on community detection algorithms in social networks
CN102810113B (zh) 一种针对复杂网络的混合型聚类方法
CN103325061A (zh) 一种社区发现方法和系统
CN107784598A (zh) 一种网络社区发现方法
CN104933624A (zh) 复杂网络的社团发现方法及社团重要节点发现方法
Xu et al. A novel disjoint community detection algorithm for social networks based on backbone degree and expansion
Lee et al. Erasable itemset mining over incremental databases with weight conditions
Xu et al. Finding overlapping community from social networks based on community forest model
Zhou et al. Predicting links based on knowledge dissemination in complex network
Guo et al. A general method of community detection by identifying community centers with affinity propagation
Hu et al. A new algorithm CNM-Centrality of detecting communities based on node centrality
Bhat et al. OCMiner: a density-based overlapping community detection method for social networks
Wang et al. Uncovering fuzzy communities in networks with structural similarity
Wang et al. Link prediction based on weighted synthetical influence of degree and H-index on complex networks
Wang et al. Modeling higher-order interactions in complex networks by edge product of graphs
Pan et al. Overlapping community detection via leader-based local expansion in social networks
Gupta et al. Recent trends on community detection algorithms: A survey
CN112380455A (zh) 基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法
Liu et al. Link community detection combined with network pruning and local community expansion
Kheirkhahzadeh et al. Community detection in social networks using consensus clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130403