CN105243593A - 基于混合测度的加权网络社区聚类方法 - Google Patents

基于混合测度的加权网络社区聚类方法 Download PDF

Info

Publication number
CN105243593A
CN105243593A CN201510469622.3A CN201510469622A CN105243593A CN 105243593 A CN105243593 A CN 105243593A CN 201510469622 A CN201510469622 A CN 201510469622A CN 105243593 A CN105243593 A CN 105243593A
Authority
CN
China
Prior art keywords
node
community
network
weighting
cohesion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510469622.3A
Other languages
English (en)
Inventor
刘瑶
刘峤
秦志光
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510469622.3A priority Critical patent/CN105243593A/zh
Publication of CN105243593A publication Critical patent/CN105243593A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于混合测度的加权社会网络社区聚类方法,用来挖掘大规模复杂网络中节点的聚类关系。该方法包括:引入一种新的节点亲密度定义,用于衡量有向加权网络中节点之间的关联强度;通过新定义的节点亲密度对有向/无向网络的边进行加权处理;提出一种基于节点亲密度和度的模块度新定义,并使用这个混合测度对有向/无向网络进行分层次的社区结构检测。与传统的社区结构检测方法相比,混合测度增加了社区划分时可参考的节点关系信息,提高了社区划分的质量,降低了超大社区的规模。同时,该方法为无向无权、有向无权、无向加权、有向加权网络的社区划分提供了一种统一的分析方法。

Description

基于混合测度的加权网络社区聚类方法
技术领域
本发明涉及数据挖掘和复杂网络分析领域,特别涉及大规模加权社会网络中基于混合测度的社区结构检测方法。
技术背景
随着以互联网为主的社交网络的广泛应用,越来越多的人加入到社会网络中进行信息交流活动。社会网络的应用改变了人们制造、传播和使用信息的方式。同时,社会网络中用户的规模和所制造的信息也在快速增加。据BusinessInsider的报道,世界上最大的社交网站Facebook的用户数量在2014年7月25日已经突破22亿,占全球总人口的1/3。新浪微博的活跃用户数量在2014年9月30日达到1.67亿,并且每天新增的微博信息达到1亿条之多。
目前,已有许多学者使用复杂网络的理论和方法从关键成员影响力、社区发现、用户兴趣建模等不同的方向对社会网络进行了深入的研究。其中,社区发现作为社会网络研究中的一个基础性问题,不仅在社会学、生物学、电子商务等方面具有重要研究意义,在网络安全方面也具有实际应用价值。现有的信息网络是一个边界模糊、层次不清、高度分布、动态演化的复杂网络。在这种大型的复杂网络中挖掘社区结构有助于找到系统的边界区和核心区,以便在边界区域部署防火墙、防病毒软件和入侵检测系统等安全设备从而对边界内部实施隔离和保护。另外通过核心社区和骨干结点的识别,有助于控制病毒、舆情在网络中的快速传播。在犯罪组织识别方面,针对国际化恐怖主义和有组织犯罪将活动逐步转移到信息较为隐秘的网络上来,引入社区分析技术能够快速地提取社区结构,分析其上下级关系,锁定关键目标群体,这对犯罪侦查、恐怖活动预测、态势掌控等都具有重要意义。
近年来,研究者在社会网络分析方面做了大量的工作,但是大部份都是基于无权网络。无权网络中的社区划分就是将网络划分为若干个社区,使得社区内部节点之间的连接相对紧密,不同社区的节点之间的连接相对稀疏。然而现实网络如博客网络、电子邮件网络、科学家合作网络、新陈代谢网络等在本质上就是加权网络,不仅要观察两个节点之间是否有关联还要观察其关联的强度。节点之间的关系应该是个渐变有梯度的值,它不应该只有“亲密”和“不亲密”两种界定,而应该有“不亲密”、“比较亲密”、“亲密”和“非常亲密”等这样梯度化的量度方式。
现代图论技术的发展为复杂社会网络的研究带来了深远的影响。其中,与真实社会网络最相关的一个图论特征就是社区结构,也称为聚类。在计算机科学、社会学、生物学等领域都有大量的研究人员使用图论的理论和方法来进行社区结构的检测,主要包括:图分割方法,如GN(Girvan-Newman)算法;模块度最优化方法,如FastNewman算法、Luovain算法、SA(SimulatedAnnealing)算法等;标签传播方法,如LPA(LabelPropagationAlgorithm)算法、基于hubs的算法、Copra算法等;动力学方法,如FEC(FindingandExtractingCommunities)算法、Infomap算法、RN(Ronhovde-Nussinov)算法等。这些算法都是基于网络的结构信息进行社区发现,近年来一些学者开始考虑将网络节点的属性信息加入到社区发现中。Steinhaeuser等人提出了一种为边加权的NAS(nodeattributesimilarity)方法,然后将其与传统的随机游走方法结合。Dang等人将模块度函数与节点属性相似度函数进行加权求和,然后利用Luovain算法检测出社区结构。Naresh等人提出利用多个属性的相似性并通过传统的聚类方法发Twitter的社区。Deitrick等人利用用户在一段时间内发过的tweets信息来逐步提高社区发现的效果。孙怡帆等人通过基于相似度的模块度函数来挖掘微博网络中的社区结构。
在这些算法中,模块度最优化算法是当前使用最广的一种社区结构检测方法。Newman提出模块度的测度最早是为GN算法定义一个终止条件,后来迅速成为众多社区检测算法衡量社区划分质量的一个重要标准。但是模块度的定义仍然存在一些问题。一般认为,模块度值越大,所得到的划分也越好。但是模块度优化时存在着分辨率限制(resolutionlimit)和极端退化(extremedegeneraciess)问题。分辨率限制问题是指使用模块度优化的算法不能发现尺寸小于一定规模的社区。极端退化问题是指全局的模块性最大化划分常常隐藏在大量(指数级)的结构并不相似的高模块性解中。
由于模块度的定义已经催生了大量优秀的社区检测方法,与其放弃这些方法,不如考虑能否用较小的代价增强模块度最优化算法划分社区结构的有效性。Khadivi等人认为采用链接加权的预处理机制和应用多层次、多粒度的社区检测算法,可缓解模块度函数的分辨率限制和极端退化问题。
发明内容
为了解决上述问题,本发明着重研究如何给复杂网络的链接分配合适的权重,并采用分层次的模块度最优化算法思想来获得更有效、准确的社区划分结果。本发明综合考虑网络的拓扑结构以及节点之间关联的亲疏程度,提出了一种基于混合测度的加权网络社区结构发现方法。针对模块度最优化带来的分辨率限制问题和极端退化现象,通过在模块度定义中引入节点亲密度和节点度两个因子,增加社区划分时可参考的节点关系信息,从而提高社区划分的质量,降低超大社区的规模。
本发明所采用的技术方案主要包括:通过定义节点亲密度对有向/无向网络的边进行加权处理;提出一种基于节点亲密度和度的模块度新测度,使用分层次的检测算法,对有向/无向加权网络进行社区结构发现。具体内容如下:
1.网络初始化:将一个具体的网络抽象表示为加权图G(N,E,W),用邻接矩阵Aij表示网络中节点间的连通关系,并计算有向/无向网络中节点的度。
2.在实际的社会网络中,我们所获得的原始数据是可以直接反映两节点之间联系的频繁程度。因此,我们提出节点亲密度这个新的测量指标来处理这些原始数据的加权操作;同时给出其在有向/无向两种不同网络类型下的明确定义。
3.基于模块度最优化的社区划分算法倾向于将度较高的节点划分到不同的社区中。在设计社区划分的节点聚类选择判据时,应综合考虑节点亲密度和节点度两个影响因素。因此边的权重取决于两个因素,一个是节点之间联系的亲密度,另一个是两个节点的度值。
4.在新的边权重定义的基础上,可以得到基于节点亲密度和度的模块度新定义。使用这个新的混合模块度测度,对有向/无向加权网络进行基于模块度最优化思想的社区结构检测。该方法在社区划分时能够获得较高的聚类质量,并且能够快速检测到网络中的层次化社区结构。
5.基于混合模块度的加权社会网络分层次社区聚类算法主要分为两个阶段进行重复迭代。
第一阶段,在N个节点的无权网络中,通过边的加权处理得到每条边的新权重值。接下来,每个节点形成一个社区,社区个数的初始值为N。然后,对于任意节点i,将节点i加入到与它相邻的每一个邻居节点所在的社区,并计算加入后的模块度增量ΔQ。比较ΔQ的值,选取ΔQ为最大值时对应的那个邻居节点j,将节点i加入到节点j所在的社区,这里要求ΔQ值必须为正。当所有的模块度增量ΔQ都为负值时,节点i保持不动仍然放置在原始社区。这个合并社区的过程重复迭代,直到没有节点的转移能使模块度值增加,这时得到社区结构的第一层次。
第二阶段,以第一个阶段检测出来的社区作为新的节点,构建一个新的网络,原社区之间的边权重值之和作为新节点之间的边的权重值,原社区内部边的权重值之和作为新节点的自循环边的权重值;然后在新网络中重复所述第一阶段的算法进行社区结构的检测,得到社区结构的第二层次;
重复迭代执行第一阶段和第二阶段,直到社区结构不能再划分出更高层次为止,并得到模块度的最大值。
与现有技术相比,本发明的有益效果是:
1.采用链接加权的预处理机制和应用多层次、多粒度的社区检测算法,缓解了模块度函数的分辨率限制和极端退化问题;
2.通过在模块度定义中引入节点亲密度和节点度两个因子,增加社区划分时可参考的节点关系信息,从而提高社区划分的质量,降低超大社区的规模;
3.本发明不需要用户预先指定社区个数、社区规模之类的参数,避免了人为的不恰当干预;
4.本发明采用了局部优化与多层次聚类的基本思想,在社团划分时能够获得较高的聚类质量,并且能够快速检测到网络中的层次化社团结构。
附图说明
图1为本发明的方法流程图;
图2为在本发明上面进行实验的真实数据集;
图3为在本发明上面进行实验的LFR不同参数配置生成的四个基准模拟数据集;
图4为本发明和其它方法对ENRON邮件数据集进行聚类得到的社区大小规模分布比较;
图5为本发明对ENRON邮件数据集进行聚类得到的社区模块度和社区数目比较;
图6为本发明和其它方法对DBLP数据集进行聚类得到的社区大小规模分布比较;
图7为本发明和其它方法对DBLP数据集进行聚类得到的社团总个数和模块度值的比较;
图8为本发明和其它方法对各数据集进行聚类得到的最大社区的比较;
图9为本发明对LFR模拟数据集下CDID算法精确度比较。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
图1是本发明进行社区结构发现的流程图,其主要步骤包括:
1.对网络进行初始化:
将一个具体的网络抽象为由点集V和边集E组成的图G=(V,E),用矩阵Aij表示网络节点间的连通关系;图G=(V,E)中节点个数为n,其节点依次标记为vi(i=1,2,3……n);若节点vi和vj之间有边相连,则Aij=1,否则Aij=0。
节点的度是与一个节点关联的边的数目。
若图G为无向图,节点vi的度表示如下:
ki=∑jAij
若图G为有向图,节点vi的入度、出度、度分别表示如下:
k i i n = Σ j = 1 n A j i , k i o u t = Σ j = 1 n A i j , k i = k i i n + k i o u t
在复杂网络中,大多数节点之间的发生联系的次数不止一次,在初始化过程中需要统计节点之间发生联系的次数。在无向图中,用qij表示vi和vj传输的信息量或联系的次数,如果vi和vj之间的信息量或联系次数为3,即qij=3,同时qi=Σjqij;在有向图中,用qij表示vi向vj传输的信息量或联系的次数,如果vi向vj传输的信息量或联系次数为3,vj向vi传输的信息量或联系次数为5,即qij=3,qji=5。
2.节点亲密度的计算:
在实际的社会网络中,所获得的原始数据是可以直接反映两节点之间联系的频繁程度。因此,引入节点亲密度这个新的测量指标来处理这些原始数据的加权操作;同时给出其在有向/无向两种不同网络类型下的明确定义。
在无向图中,节点的亲密度Iij用于衡量两节点之间互动关系的程度,定义如下:
I i j = q i j q i q j
其中,qij为节点i与节点j之间传输的信息量或联系的次数;qi=Σjqij
在有向图中,节点的亲密度属于单向关系,用来衡量一个节点向另一个节点联系的频繁程度。设qij为用户i向用户j传递的信息,即节点i到节点j的出度值;qji为用户i从用户j接收的信息,即节点j到节点i的入度值。节点i对节点j的亲密度定义如下:
I i j * = q i j q i o u t q j i n
其中,表示节点i向所有节点传输的信息总和;表示节点j从其他所有节点接收的信息总和。
1.网络边权重的计算:
连接两个节点的边权重取决于两个因素,一个是节点之间联系的亲密度,另一个是两个节点的度值。即:边的权重不能只依赖于节点之间关系的紧密程度,还要考虑度值大的两个节点更倾向于划分在不同的社团中。
在无向加权网络中,节点i与j连接边的权重可表示为:
W i j = α · I i j + ( 1 - α ) · A i j k i k j
在有向加权网络中,节点i到节点j的有向边权重可表示为:
W i j * = α · I i j * + ( 1 - α ) · A i j k i o u t k j i n
其中α为影响因子,取值范围是[0,1]。影响因子α合理地平衡了节点亲密度和节点度值对边权重的影响。
2.基于节点亲密度和度的混合模块度的计算:
应用新的边权重公式,无向加权网络中基于节点亲密度和度的新的加权模块度Qw如下所示:
Q w = 1 2 w Σ i j [ W i j - w i w j 2 w ] δ ( c i , c j )
3.其中,邻接矩阵W代表一个无向加权网络,矩阵的元素值不再是0或1,而是与之对应的边的权重值Wij。w=∑ijWij/2表示网络中边的总权重值。
对于有向加权网络,基于节点亲密度和度的加权模块度Q*如下所示:
Q * = 1 w * Σ i j [ W i j * - w i o u t w j i n w * ] δ ( c i , c j )
4.其中,邻接矩阵W*表示一个有向加权网络;分别为节点i的出向权重和入向权重; w i * = w i i n + w i o u t , w * = Σ i j W i j * .
5.基于混合模块度的加权社会网络分层次社区聚类算法,主要分为两个阶段进行重复迭代。
第一阶段,在N个节点的无权网络中,通过边的加权处理得到每条边的新权重值。接下来,每个节点形成一个社区,社区个数的初始值为N。然后,对于任意节点i,将节点i加入到与它相邻的每一个邻居节点所在的社区,并计算加入后的模块度增量ΔQ。比较ΔQ的值,选取ΔQ为最大值时对应的那个邻居节点j,将节点i加入到节点j所在的社区,这里要求ΔQ值必须为正。当所有的模块度增量ΔQ都为负值时,节点i保持不动仍然放置在原始社区。这个合并社区的过程重复迭代,直到没有节点的转移能使模块度值增加,这时得到社区结构的第一层次。
在无向加权网络中,基于无向加权模块度公式,将节点i移动到其邻居节点j所在的社团Cj所导致的社团模块度增量ΔQ可采用以下公式计算:
Δ Q = [ w c j i s o * + w i , c j 2 w - ( w c j r e l + w i 2 w ) 2 ] - [ w c j i s o * 2 w - ( w c j r e l 2 w ) 2 - ( w i 2 w ) 2 ]
其中是社团Cj所有内部无向边的权重值之和,是连接节点i与社团Cj内部节点的所有无向边的权重值之和,是与社团Cj的内部节点有关联的所有无向边的权重值之和,wi是与节点i有关联的所有无向边的权重值之和,w是网络中所有无向边的权重值之和。
在有向加权网络中,基于有向加权模块度公式,将节点i移动到其邻居节点j所在的社团Cj所导致的社团模块度增量ΔQ可采用以下公式计算:
ΔQ * = [ w c j i s o * + w i , c j * w * - ( w c j i n + w i i n ) ( w c j o u t + w i o u t ) ( w * ) 2 ] - [ w c j i s o * w * - w c j i n w c j o u t ( w * ) 2 - w i i n w i o u t ( w * ) 2 ]
其中是社团Cj所有内部有向边的权重值之和,是连接节点i与社团Cj内部节点的所有有向边的权重值之和,是从社团Cj外部节点指向社团Cj内部节点的所有有向边的权重值之和,是从社团Cj内部节点指向社团Cj外部节点的所有有向边的权重值之和,是指向节点i的所有有向边的权重值之和,是从节点i出发的所有有向边的权重值之和,w*是网络中所有有向边的权重值之和。
第二阶段,以第一个阶段检测出来的社区作为新的节点,构建一个新的网络,原社区之间的边权重值之和作为新节点之间的边的权重值,原社区内部边的权重值之和作为新节点的自循环边的权重值;然后在新网络中重复所述第一阶段的算法进行社区结构的检测,得到社区结构的第二层次;
重复迭代执行第一阶段和第二阶段,直到社区结构不能再划分出更高层次为止,并得到模块度的最大值。
为了验证本发明在无向无权、有向无权、无向加权、有向加权4种不同类型网络下的性能,我们选用了4个不同类型的真实社会网络数据集和一个人工生成的基准网络数据集(LFRBenchmark)。
数据集1:由CALO项目(aCognitiveAssistantthatLearnsandOrganizes)收集并提供的ENRON电子邮件数据集;该数据集是2001年美国安然公司151名高级管理者之间邮件往来记录,共计33,124封邮件。
数据集2:Cellphonecalls数据集;包含2006年6月份在IslaDelSueno的400部手机10天内的9,834次通话记录。对Cellphonecalls网络进行社团划分意在提供Catalano组织的关键信息。
数据集3:某高校电子邮件数据集;这是我们采集的某高校邮件服务器上2011年1月至12月的邮件数据。用节点来表示邮件用户,用边来表示两个用户之间有邮件传送的关系,且传送关系具有有向性。另外考虑到域外用户和本域用户,只提取发送方和接收方都是本域用户的邮件。经处理,该数据集包含4,368个节点,679,290封邮件,每个用户一年的平均邮件收发量是155.52封。
数据集4:DBLP论文合著关系网络;即由论文合著作者之间形成的社会关系网络。DBLP是由德国特里尔(Trier)大学建立的一个计算机类期刊和会议论文集的数据库系统,为用户提供权威的论文数据和方便的查询服务。本实验下载并抽取了该站点提供的2011年到2015年被421个与数据库系统、数据挖掘、数据安全等领域相关的国际会议(包括SIGMOD、VLDB、KDD、ICDE等)所收录的论文104,110篇,其中合著作者142,419位。
上述4个真实数据集可由图2简单汇总表示,仿真数据集LFR的参数配置如图3所示。
图4给出了使用CDID方法、NW方法以及SW方法对ENRON邮件数据集进行社团划分的结果比较。对于CDID方法,α=1,表明在公式(10)中a取值1;α=0.8,表明在公式(10)中α取值0.8。从图中可以看出,CDID方法划分结果的社团粒度小于NW和SW划分结果的社团粒度;CDID方法能够发现较小的社团,有效缓解了模块度最优化算法的分辨率限制问题。同时由于CDID方法引入了新权重,社团划分时可参考的信息更多,超大社团的规模也有所减少,社团划分的准确性有所提高。
图5展示了CDID方法与NW方法、SW方法对ENRON邮件数据集进行社团划分后得到的社团数目和模块度的对比,横坐标表示影响因子α的取值。从图中可看出,当采用NW方法进行社团划分时,得到的模块度值为0.410,社团个数为8;当采用SW方法时,得到的模块度值为0.522,社团个数为8;而采用CDID方法,当α=1时,模块度值为0.631,社团个数为9。实验结果表明CDID方法在保证较高的模块度值(即社团划分质量)时,能得到更多的社团数目即更细致的社团划分,有效缓解了模块度最优化算法的极端退化问题。从图5也可以看出:当α值越大时,社团的模块度值越高,当α值为0.8时社团个数最多。可见,相对于节点的拓扑度,节点之间的亲密度对社团划分的模块度和社团层次结构的影响力更大。
图6展示了采用CDID方法、NW方法以及SW方法对DBLP网络进行社团划分得到社团大小的规模分布情况。为了更清楚地展示对比结果,图中仅显示了社团大小最大的80个社团。
三种方法得到的社团数目都在7900以上,从图5可以看出,CDID方法检测到的社团粒度明显小于NW加权方法和SW加权方法。NW方法检测到的最大社团为4955,SW方法检测到的最大社团为3082,CDID方法检测到的最大社团为1815,相比NW方法降低了63%,相比SW方法降低了41%。CDID方法的模块度值为0.952,比NW方法增加了10.7%,比DW方法增加了8.1%。因此,我们可以说CDID方法在减小超大社团的规模,缓解模块度的分辨率限制问题,提高社团划分质量方面有着良好的表现。
图7展示了影响因子α采用不同值的CDID方法、NW方法以及SW方法,对DBLP数据集进行社团划分得到的模块度和社团数目的对比。
从图7中可以看出采用CDID方法进行社团划分时,其划分结果具有相对较高的模块度值。同时,当影响因子α的取值从0增加到1时,CDID方法得到的社团数目介于8050至8100之间;相比于NW方法和SW方法的划分结果,其社团数目高出100个左右;可见,许多规模较小的社团都清晰地被划分出来,社团层次更加细致。
图8给出了采用NW方法、SW方法以及CDID方法对各数据集进行社团划分的结果。图中横轴表示不同数据源,纵轴表示CDID、SW、NW方法在四个不同数据集上面的检测到的最大社团的规模大小。该条形统计图更明显地展示出CDID方法在社团划分中具有较小的社团粒度。
图8给出了使用LFR模型生成的有向和无向基准网络在不同u值下的所对应的NMI值。u值越大,模拟网络的社团结构越不明显,因此得到正确划分结果的难度越大。
从图8中可以看出,在u<=0.6时,CDID方法的NMI值都是比较高的;当u>0.6时,节点数为5000的网络NMI值稍有降低;当u=0.8时,NMI值维持在0.7以上。值得注意的是,当u>=0.8时LFR网络的社团结构已不明显,但CDID方法的NMI值仍在0.7以上,这说明CDID方法在结构明显的网络和结构不明显的网络中都能获得准确度较高的社团检测结果,也证明CDID方法是一个有效可信的方法。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (6)

1.一种基于混合测度的加权社会网络社区聚类方法,其特征在于,包括以下步骤:
(1)网络初始化;
(2)提出一种新的节点亲密度定义;
(3)通过新定义的节点亲密度,对有向/无向网络的边进行加权处理;
(4)提出一种基于节点亲密度和度的模块度新测度;
(5)使用混合模块度对有向/无向加权网络进行分层次的社区结构检测。
2.根据权利要求1所述的基于混合测度的加权社会网络社区结构发现方法,其特征在于,所述的网络初始化是将一个具体的网络抽象表示为加权图G(N,E,W)。N为网络中的节点集合,表示所有用户;E为网络中节点之间的边,表示用户间的交流互动行为;W为边的权重,表示两节点互动行为的紧密程度,值越大表示用户之间互动连接越紧密。用邻接矩阵Aij表示网络中节点间的连通关系。
3.根据权利要求1所述的基于混合测度的加权社会网络社区结构发现方法,其特征在于,所述的节点亲密度在有向/无向两种不同网络类型下的定义如下:
在无向图中,节点的亲密度Iij用于衡量两节点之间互动关系的程度,定义如下:
I i j = q i j q i q j
其中,qij为节点i与节点j之间传输的信息量或联系的次数;qi=Σjqij
在有向图中,节点的亲密度属于单向关系,用来衡量一个节点向另一个节点联系的频繁程度。设qij为用户i向用户j传递的信息,即节点i到节点j的出度值;qji为用户i从用户j接收的信息,即节点j到节点i的入度值。节点i对节点j的亲密度定义如下:
I i j * = q i j q i o u t q j i n
其中,表示节点i向所有节点传输的信息总和;表示节点j从其他所有节点接收的信息总和。
4.根据权利要求1所述的基于混合测度的加权社会网络社区结构发现方法,其特征在于,连接两个节点的边权重取决于两个因素,一个是节点之间联系的亲密度,另一个是两个节点的度值。所述的有向/无向网络的边的加权处理包括:
在无向加权网络中,节点i与j连接边的权重可表示为:
W i j = &alpha; &CenterDot; I i j + ( 1 - &alpha; ) &CenterDot; A i j k i k j
在有向加权网络中,节点i到节点j的有向边权重可表示为:
W i j * = &alpha; &CenterDot; I i j * + ( 1 - &alpha; ) &CenterDot; A i j k i o u t k j i n
其中α为影响因子,取值范围是[0,1]。影响因子α合理地平衡了节点亲密度和节点度值对边权重的影响。
5.根据权利要求1所述的基于混合测度的加权社会网络社区结构发现方法,其特征在于,所述的基于节点亲密度和度的混合模块度新定义如下:
无向加权网络中基于节点亲密度和度的新的加权模块度Qw如下所示:
Q w = 1 2 w &Sigma; i j &lsqb; W i j - w i w j 2 w &rsqb; &delta; ( c i , c j )
其中,邻接矩阵W代表一个无向加权网络,矩阵的元素值不再是0或1,而是与之对应的边的权重值Wij。w=ΣijWij/2表示网络中边的总权重值。
对于有向加权网络,基于节点亲密度和度的加权模块度Q*如下所示:
Q * = 1 w * &Sigma; i j &lsqb; W i j * - w i o u t w j i n w * &rsqb; &delta; ( c i , c j )
其中,邻接矩阵W*表示一个有向加权网络;分别为节点i的出向权重和入向权重; w i * = w i i n + w i o u t , w * = &Sigma; i j W i j * .
6.根据权利要求1所述的基于混合测度的加权社会网络社区结构发现方法,其特征在于,所述的基于混合模块度的加权社会网络分层次社区聚类算法主要分为两个阶段进行重复迭代。
第一阶段,在N个节点的无权网络中,通过边的加权处理得到每条边的新权重值。接下来,每个节点形成一个社区,社区个数的初始值为N。然后,对于任意节点i,将节点i加入到与它相邻的每一个邻居节点所在的社区,并计算加入后的模块度增量ΔQ。比较ΔQ的值,选取ΔQ为最大值时对应的那个邻居节点j,将节点i加入到节点j所在的社区,这里要求ΔQ值必须为正。当所有的模块度增量ΔQ都为负值时,节点i保持不动仍然放置在原始社区。这个合并社区的过程重复迭代,直到没有节点的转移能使模块度值增加,这时得到社区结构的第一层次。
第二阶段,以第一个阶段检测出来的社区作为新的节点,构建一个新的网络,原社区之间的边权重值之和作为新节点之间的边的权重值,原社区内部边的权重值之和作为新节点的自循环边的权重值;然后在新网络中重复所述第一阶段的算法进行社区结构的检测,得到社区结构的第二层次;
重复迭代执行第一阶段和第二阶段,直到社区结构不能再划分出更高层次为止,并得到模块度的最大值。
CN201510469622.3A 2015-08-04 2015-08-04 基于混合测度的加权网络社区聚类方法 Pending CN105243593A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510469622.3A CN105243593A (zh) 2015-08-04 2015-08-04 基于混合测度的加权网络社区聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510469622.3A CN105243593A (zh) 2015-08-04 2015-08-04 基于混合测度的加权网络社区聚类方法

Publications (1)

Publication Number Publication Date
CN105243593A true CN105243593A (zh) 2016-01-13

Family

ID=55041228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510469622.3A Pending CN105243593A (zh) 2015-08-04 2015-08-04 基于混合测度的加权网络社区聚类方法

Country Status (1)

Country Link
CN (1) CN105243593A (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105915376A (zh) * 2016-04-13 2016-08-31 华南理工大学 基于p2p点播系统的日志信息网络结构化方法及其系统
CN105915602A (zh) * 2016-04-13 2016-08-31 华南理工大学 基于社区检测算法p2p网络的调度方法及其系统
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN106529562A (zh) * 2016-09-09 2017-03-22 浙江工业大学 一种基于Email网络的开源软件项目开发者预测方法
CN106533796A (zh) * 2016-12-15 2017-03-22 北京邮电大学 基于分组业务流社团结构的服务质量波动传播控制方法
CN107103551A (zh) * 2017-03-20 2017-08-29 重庆邮电大学 一种选取种子节点的合著网络社区划分方法
CN107465524A (zh) * 2016-06-03 2017-12-12 国网辽宁省电力有限公司大连供电公司 一种基于社团结构的电力通信网络安全性分析方法
CN107784327A (zh) * 2017-10-27 2018-03-09 天津理工大学 一种基于gn的个性化社区发现方法
CN107832964A (zh) * 2017-11-21 2018-03-23 江苏神威云数据科技有限公司 银行客户关系圈分析方法及系统
CN108009710A (zh) * 2017-11-19 2018-05-08 国家计算机网络与信息安全管理中心 基于相似度和TrustRank算法的节点测试重要度评估方法
CN108133234A (zh) * 2017-12-21 2018-06-08 广东工业大学 基于稀疏子集选择算法的社区检测方法、装置及设备
CN109345403A (zh) * 2018-09-04 2019-02-15 河海大学 一种基于局部模块度的层次重叠社区发现方法
CN109905254A (zh) * 2017-12-07 2019-06-18 航天信息股份有限公司 一种社区发现方法及装置
CN109977979A (zh) * 2017-12-28 2019-07-05 中国移动通信集团广东有限公司 定位种子用户的方法、装置、电子设备和存储介质
CN110008967A (zh) * 2019-04-08 2019-07-12 北京航空航天大学 一种融合结构和语义模态的行为表征方法和系统
CN110032665A (zh) * 2019-03-25 2019-07-19 阿里巴巴集团控股有限公司 确定关系网络图中图节点向量的方法及装置
CN110084395A (zh) * 2019-02-18 2019-08-02 天津科技大学 网络舆情演化结果的预测方法、装置、服务器及存储介质
CN110110212A (zh) * 2018-01-22 2019-08-09 杭州橙鹰数据技术有限公司 社团发现方法、服务器、终端装置和系统
CN110417594A (zh) * 2019-07-29 2019-11-05 吉林大学 网络构建方法、装置、存储介质及电子设备
CN110943877A (zh) * 2018-09-21 2020-03-31 华为技术有限公司 网络状态测量方法、设备及系统
CN111047079A (zh) * 2019-11-25 2020-04-21 山东师范大学 一种风电场风速时间序列预测方法及系统
CN111090984A (zh) * 2019-11-25 2020-05-01 江苏大学 一种基于文献耦合分析的社区划分系统及方法
CN111191146A (zh) * 2019-11-27 2020-05-22 重庆特斯联智慧科技股份有限公司 一种基于社会网络分析算法的家庭成员通联方法和系统
CN112052404A (zh) * 2020-09-23 2020-12-08 西安交通大学 多源异构关系网络的群体发现方法、系统、设备及介质
CN112800048A (zh) * 2021-03-17 2021-05-14 电子科技大学 一种基于图表示学习的通信网用户通信记录补全方法
WO2021164174A1 (zh) * 2020-02-17 2021-08-26 平安科技(深圳)有限公司 云平台的缓存服务器部署方法、装置和计算机设备
CN115563400A (zh) * 2022-09-19 2023-01-03 广东技术师范大学 一种基于模体加权聚合的多路网络社区检测方法及装置
CN117808616A (zh) * 2024-02-28 2024-04-02 中国传媒大学 一种基于图嵌入和节点亲密度的社区发现方法及系统

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105915602A (zh) * 2016-04-13 2016-08-31 华南理工大学 基于社区检测算法p2p网络的调度方法及其系统
CN105915376A (zh) * 2016-04-13 2016-08-31 华南理工大学 基于p2p点播系统的日志信息网络结构化方法及其系统
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN107465524A (zh) * 2016-06-03 2017-12-12 国网辽宁省电力有限公司大连供电公司 一种基于社团结构的电力通信网络安全性分析方法
CN106529562A (zh) * 2016-09-09 2017-03-22 浙江工业大学 一种基于Email网络的开源软件项目开发者预测方法
CN106533796B (zh) * 2016-12-15 2019-06-14 北京邮电大学 基于分组业务流社团结构的服务质量波动传播控制方法
CN106533796A (zh) * 2016-12-15 2017-03-22 北京邮电大学 基于分组业务流社团结构的服务质量波动传播控制方法
CN107103551A (zh) * 2017-03-20 2017-08-29 重庆邮电大学 一种选取种子节点的合著网络社区划分方法
CN107784327A (zh) * 2017-10-27 2018-03-09 天津理工大学 一种基于gn的个性化社区发现方法
CN108009710A (zh) * 2017-11-19 2018-05-08 国家计算机网络与信息安全管理中心 基于相似度和TrustRank算法的节点测试重要度评估方法
CN107832964A (zh) * 2017-11-21 2018-03-23 江苏神威云数据科技有限公司 银行客户关系圈分析方法及系统
CN109905254A (zh) * 2017-12-07 2019-06-18 航天信息股份有限公司 一种社区发现方法及装置
CN108133234A (zh) * 2017-12-21 2018-06-08 广东工业大学 基于稀疏子集选择算法的社区检测方法、装置及设备
CN108133234B (zh) * 2017-12-21 2021-03-16 广东工业大学 基于稀疏子集选择算法的社区检测方法、装置及设备
CN109977979A (zh) * 2017-12-28 2019-07-05 中国移动通信集团广东有限公司 定位种子用户的方法、装置、电子设备和存储介质
CN109977979B (zh) * 2017-12-28 2021-12-07 中国移动通信集团广东有限公司 定位种子用户的方法、装置、电子设备和存储介质
CN110110212A (zh) * 2018-01-22 2019-08-09 杭州橙鹰数据技术有限公司 社团发现方法、服务器、终端装置和系统
CN109345403A (zh) * 2018-09-04 2019-02-15 河海大学 一种基于局部模块度的层次重叠社区发现方法
CN110943877A (zh) * 2018-09-21 2020-03-31 华为技术有限公司 网络状态测量方法、设备及系统
CN110943877B (zh) * 2018-09-21 2022-02-22 华为技术有限公司 网络状态测量方法、设备及系统
CN110084395A (zh) * 2019-02-18 2019-08-02 天津科技大学 网络舆情演化结果的预测方法、装置、服务器及存储介质
WO2020192289A1 (zh) * 2019-03-25 2020-10-01 阿里巴巴集团控股有限公司 确定关系网络图中图节点向量的方法及装置
CN110032665B (zh) * 2019-03-25 2023-11-17 创新先进技术有限公司 确定关系网络图中图节点向量的方法及装置
CN110032665A (zh) * 2019-03-25 2019-07-19 阿里巴巴集团控股有限公司 确定关系网络图中图节点向量的方法及装置
CN110008967A (zh) * 2019-04-08 2019-07-12 北京航空航天大学 一种融合结构和语义模态的行为表征方法和系统
CN110417594B (zh) * 2019-07-29 2020-10-27 吉林大学 网络构建方法、装置、存储介质及电子设备
CN110417594A (zh) * 2019-07-29 2019-11-05 吉林大学 网络构建方法、装置、存储介质及电子设备
CN111090984B (zh) * 2019-11-25 2024-03-19 江苏大学 一种基于文献耦合分析的社区划分系统及方法
CN111090984A (zh) * 2019-11-25 2020-05-01 江苏大学 一种基于文献耦合分析的社区划分系统及方法
CN111047079B (zh) * 2019-11-25 2022-05-13 山东师范大学 一种风电场风速时间序列预测方法及系统
CN111047079A (zh) * 2019-11-25 2020-04-21 山东师范大学 一种风电场风速时间序列预测方法及系统
CN111191146A (zh) * 2019-11-27 2020-05-22 重庆特斯联智慧科技股份有限公司 一种基于社会网络分析算法的家庭成员通联方法和系统
CN111191146B (zh) * 2019-11-27 2023-06-16 重庆特斯联智慧科技股份有限公司 一种基于社会网络分析算法的家庭成员通联方法和系统
WO2021164174A1 (zh) * 2020-02-17 2021-08-26 平安科技(深圳)有限公司 云平台的缓存服务器部署方法、装置和计算机设备
CN112052404A (zh) * 2020-09-23 2020-12-08 西安交通大学 多源异构关系网络的群体发现方法、系统、设备及介质
CN112052404B (zh) * 2020-09-23 2023-08-15 西安交通大学 多源异构关系网络的群体发现方法、系统、设备及介质
CN112800048B (zh) * 2021-03-17 2021-08-06 电子科技大学 一种基于图表示学习的通信网用户通信记录补全方法
CN112800048A (zh) * 2021-03-17 2021-05-14 电子科技大学 一种基于图表示学习的通信网用户通信记录补全方法
CN115563400A (zh) * 2022-09-19 2023-01-03 广东技术师范大学 一种基于模体加权聚合的多路网络社区检测方法及装置
CN117808616A (zh) * 2024-02-28 2024-04-02 中国传媒大学 一种基于图嵌入和节点亲密度的社区发现方法及系统

Similar Documents

Publication Publication Date Title
CN105243593A (zh) 基于混合测度的加权网络社区聚类方法
Wang et al. Users’ mobility enhances information diffusion in online social networks
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
Xin et al. An adaptive random walk sampling method on dynamic community detection
Zhang et al. Quality-aware user recruitment based on federated learning in mobile crowd sensing
Xu et al. Mobile cellular big data: Linking cyberspace and the physical world with social ecology
Guo et al. An ensemble forecast model of dengue in Guangzhou, China using climate and social media surveillance data
CN104268271A (zh) 一种兴趣和网络结构双内聚的社交网络社区发现方法
Hao et al. k-Cliques mining in dynamic social networks based on triadic formal concept analysis
Yabe et al. Resilience of interdependent urban socio-physical systems using large-scale mobility data: Modeling recovery dynamics
He et al. Simultaneously simulate vertical and horizontal expansions of a future urban landscape: A case study in Wuhan, Central China
Su et al. A seed-expanding method based on random walks for community detection in networks with ambiguous community structures
Lim et al. Seismic reliability assessment of lifeline networks using clustering‐based multi‐scale approach
CN104462374A (zh) 一种广义最大度随机游走图抽样算法
Pinto et al. Review of cybersecurity analysis in smart distribution systems and future directions for using unsupervised learning methods for cyber detection
Ahmadi et al. Deep federated learning-based privacy-preserving wind power forecasting
Rani et al. A survey of tools for social network analysis
Xie et al. Temporal-amount snapshot multigraph for ethereum transaction tracking
Haldar et al. Activity location inference of users based on social relationship
CN107357886A (zh) 一种基于局部h‑index的信息传播关键节点识别方法
Sun et al. Anomaly subgraph detection with feature transfer
Wang et al. A CyberGIS environment for analysis of location-based social media data
Banweer et al. Multi-stage collaborative filtering for tweet geolocation
Ma et al. Fuzzy nodes recognition based on spectral clustering in complex networks
CN105761152A (zh) 社交网络中一种基于三元组的参与话题预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160113

RJ01 Rejection of invention patent application after publication