CN105469315A - 基于增量聚类的动态社会网络社团结构演化方法 - Google Patents
基于增量聚类的动态社会网络社团结构演化方法 Download PDFInfo
- Publication number
- CN105469315A CN105469315A CN201510470808.0A CN201510470808A CN105469315A CN 105469315 A CN105469315 A CN 105469315A CN 201510470808 A CN201510470808 A CN 201510470808A CN 105469315 A CN105469315 A CN 105469315A
- Authority
- CN
- China
- Prior art keywords
- community
- node
- core
- network
- community structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000000638 solvent extraction Methods 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013476 bayesian approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于增量聚类的动态社会网络社团演化方法,用于解决大规模网络中社团结构检测以及社团演化追踪的问题。该方法包括以下步骤:抽取整个网络的核心节点构成核心子图;在t=0时刻的核心子图上运行层次聚类算法以到核心社团的初始结构,并在此基础上使用扩展算法得到整个网络的社团结构;在t>0时刻,根据相邻时刻网络的动态演化情况采用增量聚类算法得到当前时刻的核心社团结构并扩展它得到整体社团结构。通过引入核心子图,本方法避免了在整个网络中进行增量计算,加快了处理速度从而适用于大规模网络下的社团发现。另外通过引入社团结构偏移度的概念,本方法避免了长时间演变后社团结构出现较大偏差,提高了社团演化追踪的准确度。
Description
技术领域
本发明涉及数据挖掘和复杂网络分析领域,特别涉及动态社会网络社团划分方法,具体是一种基于增量聚类的动态社会网络社团结构演化方法及系统。
背景技术
随着信息科学技术的发展,各个领域中的网络数据呈指数级增长,如邮件通信中各个越来越多的邮件网络,电话通信网络中积攒下来的电话通信网络,生物科学领域的蛋白质网络等等。对于这些网络数据的研究可以帮助相关人员分析网络特性进而达到充分利用这些网络的目的。
在各种类型的复杂网络中,存在一些随着时间的变化而演化的网络,如近年来,越来越多的研究人员使用图理论来研究动态演化网络。将网络看成一个图模型,其中图中的节点表示网络中的个体,边表示节点之间的联系。在网络中,节点之间相互联系并彼此之间交换信息。聚类表示网络中特征相似的节点之间的分组,也可以称为社团。从本质上而言,社团划分将彼此之间有紧密联系的节点加入到同一个社团,彼此之间联系不紧密的节点加入到了不同的社团。
传统的社会网络分析方法将网络看作一个静态网络。静态网络方法对于动态网络的处理为把所有时刻的动态网络看作一个网络或者把动态网络按照时刻分割成一系列网络快照,对每一个快照使用静态方法分析。这种处理方法忽略了社团的一个重要特征——社团随时间演化的特性。
现实世界的网络经常随着节点或边的增加删除而发生变化,如,邮件网络中,由于用户的工作和兴趣的变化,不同用户间的通信状态随时间动态的变化;论文合作者关系网络中,由于论文作者研究邻域的改变,作者之间的合作关系也会随之发生变化;微博网络中,由于博友们之间的兴趣爱好发生变化,不同博友之间的互动也会随之发生变化等。以上这些场景可以分成两种类型:慢速演变网络和快速演变网络。论文合作者网络属于慢速演变网络,在这种网络中,节点或边的加入往往需要几周甚至几个月。电话通信网络属于快速演变网络,在这种网络中,节点或边的加入可能只需要几秒钟。
由于动态社会网络演化过程研究的复杂性以及实验数据的匮乏,动态社会网络的社团结构检测研究还处于刚刚起步的阶段。随着一些动态网络数据集的公开化,研究人员可以监测真实网络的动态演化过程,这使得对网络中社团结构的形成、演化和解体等现象的研究成为了可能。动态社会网络的社团结构检测方法主要分为基于增量聚类和基于演化聚类两种类型的社团检测方法。
演化聚类的概念是由Chakrabarti等人提出的。算法框架依据动态网络变化缓慢的基本特征,在对每个时刻的网络进行聚类时,同时考虑两个相互冲突的准则,既要使聚类结果与当前时刻的网络结构尽量一致,又要使当前聚类结果与上一时刻的聚类结果差异较小。演化聚类方法引入了快照代价(SnapshotCost)和时间代价(TemporalCost)两个概念,总体目标函数为:。快照代价用于评测对于某个网络快照的聚类结果的质量,而时间代价用于校准当前聚类结果对于历史数据或者历史聚类结果的符合度。演化聚类算法的目标是最小化总体目标函数。
基于这一框架,Chi等人基于谱聚类提出了保持聚类质量(PCQ)和保持聚类成员(PCM)两个框架;Lin等人通过贝叶斯方法提出FacetNet框架。然而由于网络规模的不断增大及演化聚类方法自身的限制,演化聚类方法需要很长的计算时间。这种方法不适用于大规模动态网络的社团划分。
增量聚类利用相邻时刻网络社团结构变化不明显的特性,对于初始时刻的网络利用静态划分的方法进行社团划分。然后接下来时刻的网络是以其前一时刻社团划分的结果为基础,结合网络中节点和边的细微变化,根据相关算法对前一时刻的社团结构进行调整,得到符合该时刻的网络社团结构。Nguyen等人提出了快速社团划分自适应算法,这种算法是一种基于模块度计算的自适应算法,能够检测和追踪动态社会网络的社团结构。Ma等人提出了CUT算法,当社会网络在不同的时刻变化时,该算法只需跟踪社团的种子节点来更新社团结构,不需要重新计算整个网络。Takaffoli等人提出了使用静态L-度量的方法检测动态社团。基于动态网络中相邻时刻网络变化很小的特性,增量聚类方法通过只处理变化的节点或边的方法能够快速的计算出网络的社团结构,使用于大规模网络,但是这种方法会降低聚类的质量。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于增量聚类的动态社会网络社团结构演化方法。这种方法可以快速的计算出网络的社团结构并且由于考虑了与历史社团结构的偏移情况,从而不会降低网络的聚类质量。
本发明所采用的技术方案是:将动态网络划分为一系列连续时刻的网络快照,使用改进型的PageRank算法得到每一个时刻的核心节点和核心子图。对初始时刻的核心子图使用基于层次聚类的社团检测算法来找到核心社团结构;对于后续时刻的核心子图使用增量聚类算法得到核心社团结构;如果得到的核心社团结构偏离初始时刻核心社团结构较大,则使用基于层次聚类的社团检测算法来重新得到核心社团结构并将其视为新的初始核心社团结构;最后使用扩展方法扩展核心社团结构,得到整个网络的社团结构。其实现步骤如下:
(1)输入t=[0…n]时刻的网络,利用基于节点权重的改进型PageRank(MP)算法找到每一个时刻的核心节点KVt及核心子图Kt。核心子图节点的选择是由不同的网络的不同特征确定的。由于结点的PR*值越大代表这个节点在网络中越重要,选择网络中PR*值比较大的一些节点作为网络的核心节点。
MP算法公式为:
其中,是节点vi的度,是整个网络中所有节点的度值的总和,PR*(vj)是节点vj的权重值。
(2)在t=0时刻,利用基于层次聚类的社团检测算法找到初始时刻的核心社团划分CS0;
(3)在t(t>0)时刻,利用基于增量聚类的快速社团划分方法找到t时刻的核心社团划分CSt。其步骤包括:
①初始化t时刻的核心社团结构KSt为t-1时刻的核心社团结构KSt-1,即KSt=KSt-1;
②在核心社团结构KSt中删除Kt中不包含的边和节点;
③在核心社团结构KSt中根据每一个社团的连通性判断该社团是否需要分裂;
④对于所有Kt含有的节点而Kt-1不含有的节点,根据节点与每一个社团的亲密度来判断该节点是否需要加入某一个社团。
当新加节点v和核心社团结构KSt中的所有节点都没有联系时,新建一个社团并将新加节点v加入该社团;当新加节点v只和社团结构KSt中的一个社团有联系时,将v加入到该社团;当新加节点v和社团结构KSt中的多个社团有联系时,计算v和这些社团的亲密度,将v加入到亲密度最大的社团中。
节点与社团之间的亲密度为:
其中,等号右边分子部分表示在社团C中与节点v有直接边联系的所有节点的PR*值的总和与节点v的PR*值的和,分母为社团C的所有节点的PR*值的总和与节点v的PR*值的和。
⑤在核心社团结构KSt中加入核心子图Kt含有而Kt-1不含有的边;
⑥对于核心社团结构KSt中的每两个社团,计算两个社团的公共边总数。当公共边总数大于每个社团的内部边数的20%时,将这两个社团合并。此时得到由增量聚类算法获得的社团结构KSt={KC1,KC2,......,KCm};
⑦根据社团结构的偏移度(CSM)来衡量社团划分的有效性。CSM定义为下:
其中,|KE0|是初始时刻核心子图边的条数,Δ|KEt,t-1|是t时刻和t-1时刻核心子图的公共的边的条数.
如果SCM≤β(β为给定的参数),t时刻的社团结构为步骤⑥划分结果,否则,利用利用基于层次聚类的社团检测算法重新划分t时刻的社团结构。
⑧利用扩展方法,将核心社团结构KSt扩展到全网,得到t时刻的整体网络的社团结构CSt={C1,C2,...,Cn}。扩展方法为:初始化整体网络的社团结构CSt为核心子图的社团结构KSt,对任意一个非核心节点的节点v,遍历它的邻居节点直到发现一个邻居节点属于CSt并将节点v加入到该邻居节点所在的社团。
与现有技术相比,本发明的有益效果是:
(1)本发明提出一个统一的社团聚类框架来检测和跟踪缓慢演化和快速演化网络的社团结构。通过在核心子图上提取核心社团,然后将这些核心社团扩展到整体网络中的方法,可以快速地在大规模和流媒体网络中进行社团划分。
(2)本发明提出一个统一的框架将增量聚类和演化聚类相结合,在保证快速划分的基础上,提高了聚类质量。社团结构由当前时刻的检测结果和历史时刻的社团结构来共同决定。因此本发明可以在含有噪音的大规模网络中保持较高的聚类质量。
(3)本发明可以依据核心社团的变化情况快速推断出整体社团演化的发展趋势。本发明对参数的要求不高,只需要设置一个核心子图的规模而不需要其他的参数。因此,本发明可以简单快速地跟踪各种类型网络的社团演化情况。
附图说明
图1为基于增量聚类的动态社会网络社团结构演化方法的流程图;
图2为一个社团在相邻两个时刻删除结点或边的情况图。
图3(a)为本发明与现有经典方法对数据集SYN-FIX(z=3)不同时刻社团划分后模块度的变化比较图。图3(b)为本发明与现有经典方法对数据集SYN-FIX(z=3)不同时刻社团划分后归一化互信息值比较图。
图4(a)为本发明与现有经典方法对数据集SYN-FIX(z=5)不同时刻社团划分后模块度的变化比较图。图4(b)为本发明与现有经典方法对数据集SYN-FIX(z=5)不同时刻社团划分后归一化互信息值比较图。
图5(a)为本发明与现有经典方法对数据集SYN-VAR(z=5)不同时刻社团划分后模块度的变化比较图。图5(b)为本发明与现有经典方法对数据集SYN-VAR(z=5)不同时刻社团划分后归一化互信息值比较图。
图6(a)为本发明与现有经典方法对Enronemail数据集不同时刻社团划分后模块度变化比较图。图6(b)为本发明与现有经典方法对Enronemail数据集不同时刻社团划分后归一化互信息值比较图。图6(c)为本发明与现有经典方法对Enronemail数据集不同时刻社团划分后社团个数比较图。图6(d)为本发明与现有经典方法对Enronemail数据集不同时刻社团划分运行时间比较图。
图7(a)为本发明对数据集DBLPdataset不同时刻社团划分后归一化互信息值比较图。图7(b)为本发明对数据集DBLPdataset不同时刻社团划分运行时间比较图。
图8为DBLP数据集作者Wei-YingMa所在社团规模变化图。图8(a)表示t1时刻其所在的社团的规模;图8(b)表示t3时刻其所在的社团的规模;图8(c)表示t5时刻其所在的社团的规模;图8(d)表示t7时刻其所在的社团的规模。
具体实施方式
利用基于增量聚类的动态社会网络社团结构演化方法对不同数据集进行社团划分的步骤如下:
(1)输入t=0时刻的网络,并利用基于核心社团扩展的社团检测方法找到初始时刻上网络的社团划分CS0;
(2)输入t时刻的网络,利用MP算法计算每个网络结点的PR*值,并选择网络中前9%的节点作为网络的核心节点,并以这些节点为基础找到连接这些节点的边形成核心子图Kt。
(3)初始化t时刻的核心社团KSt为t-1时刻的核心社团KSt-1,并删除核心子图Kt没有的节点和边;然后根据此时网络中社团的连通情况,分裂、删除或不处理这些社团。
例如图2中,图2(a)是t时刻的一个社团KCi的结果,由于节点/边的删除,在t+1时刻社团KCi可能分裂成两个社团如图2(b)、(c),此时删除社团KCi并新建两个社团KCi+1和KCi+2,将分裂后的社团分别加入到这两个社团;社团KCi也可能不分裂如图2(d)、(e),此时不处理改社团;如果社团KCi所剩节点数为0个,则直接删除该社团。
(4)根据核心子图Kt中含有但核心社团KSt中不含有的节点与KSt中社团的亲密性,判断新的节点是加入已有社团还是为其新建社团;根据此时核心社团KSt的节点情况将边加入到该社团结构。
(5)根据社团结构中每两个社团的之间的关联度,判断这两个社团是否合并。如果这两个社团需要合并,那么将一个社团的所有节点加入到另外一个社团,并删除前面的社团。计算关联度的方法为:计算两个社团公共边总数。当这个总数大于每个社团的内部边条数的20%时,认为这两个社团有较高的关联关系可以将这两个社团合并。此时得到由增量聚类算法获得的核心社团结构KSt={KC1,KC2,......,KCm};
(6)根据社团结构的CSM来衡量社团划分的有效性。如果CSM≤β(β为给定的参数),t时刻的核心社团结构为步骤(2)至(5)划分结果,否则,利用基于层次聚类的社团检测算法重新划分t时刻的核心社团结构。
(7)利用扩展方法扩展核心社团为整个网络的社团。
实例1仿真数据
利用本发明中基于增量聚类的动态社会网络社团演化方法完成SYN-FIX和SYN-VAR两个数据集的动态社团划分及发现其演化规律。SYN-FIX数据集是一个节点数量固定的动态数据集。这个数据集包括被分配到4个社团的128个节点。每个社团包括32个节点,在这个数据集中节点的平均度为16,不同节点之间平局分享z条的边。边与边之间是相互独立的,并且在同一个社团中的两个结点之间有边的概率较大,而在不同社团的两个结点有边的可能性较小。整个网络被分为10个时刻。
图3(a)为本发明与现有经典方法对数据集SYN-FIX(z=3)不同时刻社团划分后模块度的变化比较图。从图3(a)可以看出,本发明(FICET)的方法在不同时刻所获得的模块度均大于0.3,而且大于其他两种方法所获得的结果。图3(b)为本发明与现有经典方法对数据集SYN-FIX(z=3)不同时刻社团划分后归一化互信息值比较图。同样,本发明的方法所获得的NMI值大于等于FacetNet方法所获得的值,同时远大于DSBM方法所获得的NMI值。
当z=5时,本发明使用以上方法来检测当z=5时,SYN-FIX数据集的社团划分和演化情况。图4(a)为本发明与现有经典方法对数据集SYN-FIX(z=5)不同时刻社团划分后模块度的变化比较图。从图4(a)可以看出,本发明(FICET)的方法在初初始时刻以外的其他时刻所获得的模块度均大于其他两种方法所获得的结果。图4(b)为本发明与现有经典方法对数据集SYN-FIX(z=5)不同时刻社团划分后归一化互信息值比较图。同样,本发明的方法所获得的NMI值在大多数时刻都大于等于FacetNet方法所获得的值,除初始时刻外的其他按时刻都大于DSBM方法所获得的NMI值。
SYN-VAR数据集是一个节点数量不固定的动态数据集。初始时刻,这个数据集包括256个节点,包括4个社团,每个社团包括64个节点。整个网络被分为10个时刻。10个时刻社团的数目分别是4,5,6,7,8,8,7,6,5,4。
本发明选择SYN-VAR(z=5)时的数据集中节点MP值排列前25%的节点作为核心节点。图5(a)为本发明与现有经典方法对数据集SYN-VAR(z=5)不同时刻社团划分后模块度的变化比较图。从图5(a)可以看出,本发明(FICET)的方法在不同时刻所获得的模块度的均值为0.45,而FacetNet方法所获得的均值为0.32,DSBM方法所获得的均值为0.13。图5(b)为本发明与现有经典方法对数据集SYN-VAR(z=5)不同时刻社团划分后归一化互信息值比较图。同样,本发明的方法所获得的NMI均值为0.51,FacetNet方法所获得的均值为0.29,DSBM方法所获得的均值为0.1。因此本发明的方法远优于其他方法。
实例2真实数据
Enronemail数据集
Enron邮件数据集是美国安然公司员工使用邮件通信的数据集,其中每一个员工的邮件账号为一个节点,一个员工之间的发/送邮件的行为为边。本发明使用安然公司2001年整年的邮件发送情况作为数据集,其中包括898个节点和5674条边。本发明将enron邮件数据集2001年按12个月来分共分为12个时刻,选择节点MP值排序前30%的节点为核心节点,安装本节所述步骤对安然邮件数据集进行社会划分。
图6(a)为本发明与FacetNet方法对Enronemail数据集不同时刻社团划分后模块度变化比较图。由图中可以看出,本发明计算划分社团后各个时刻的模块度值在0.62到0.72之间,FacetNet方法对不同时刻进行社团划分后的模块度仅在0.4到0.75之间,从模块度的角度看来,本发明的方法远好于FacetNet方法。图6(b)中可以看出本发明所用的方法与真实实验结果的相似性达到了70%左右,而FacetNet方法最大的相似性才为50%左右。图6(c)为本发明与FacetNet方法对Enronemail数据集不同时刻社团划分后社团个数比较图。图6(d)为本发明与FacetNet方法对Enronemail数据集不同时刻社团划分运行时间比较图。从图中可以看出在1000个节点一下的网络中本发明的运行时间远小于FacetNet方法。
DBLP论文合作者网络
DBLP论文合作者网络收集了计算机领域内对研究的成果以作者为核心的大部分计算机类英文文献。本发明仅提取了2003年到2014年12年间DBLP数据集中的数据挖掘领域221个会议论文作者的合作情况。这个数据集有超过94000个论文作者,835000条作者之间的合作关系,平均每个节点的度为8.9。本发明选择每连续的三年作为一个时刻。在本例中,第一个时刻段2003年到2005年,第二个时刻为2004年到2006年,以此类推。
表1为不同时刻DBLP数据集的统计信息,其中,T代表是第几个时刻,MQ代表各个时刻的模块度值,C代表社团个数,V代表节点的数目,E代表边的数目,D代表节点的平均度,CC代表平均聚类系数,S代表网络平均最短距离,N代表网络平均距离,W代表连通组件的数目。
T | MQ | C | V | E | D | CC | S | N | W |
1 | 0.73 | 3287 | 17580 | 38122 | 3.772 | 0.861 | 8.156 | 23 | 3255 |
2 | 0.73 | 3740 | 20854 | 45530 | 3.809 | 0.86 | 8.559 | 28 | 3665 |
3 | 0.72 | 4400 | 24266 | 53050 | 3.804 | 0.857 | 8.64 | 30 | 42226 --> |
4 | 0.70 | 4749 | 25963 | 57710 | 3.875 | 0.857 | 8.383 | 25 | 4420 |
5 | 0.69 | 4748 | 26337 | 60702 | 4.005 | 0.858 | 8.306 | 27 | 4350 |
6 | 0.69 | 4871 | 27679 | 66092 | 4.174 | 0.86 | 8.157 | 27 | 4323 |
7 | 0.69 | 5170 | 30243 | 73428 | 4.318 | 0.859 | 8.251 | 38 | 4452 |
8 | 0.70 | 5735 | 34004 | 82833 | 4.406 | 0.857 | 8.001 | 24 | 4725 |
9 | 0.69 | 6089 | 36735 | 91379 | 4.523 | 0.855 | 7.703 | 29 | 4928 |
10 | 0.67 | 6284 | 37695 | 95222 | 4.6 | 0.856 | 7.674 | 26 | 4916 |
表1
从图7(a)可以看出本发明所用的方法与真实实验结果的相似性达到了75%以上,而此时其他两种方法因为数据集的规模问题已经无法对该数据集进行社团划分了。图7(b)为本发明方法对DBLP数据集不同时刻社团划分运行时间比较图。从图中可以看出既使网络的节点个数已经达到了数万个,本发明对于不同时刻连续计算的运行时间也不超过7秒。
为了充分说明本发明追踪网络演化的能力,本发明选取了一位作者,对这名作者的论文发表情况和他所在社团变化情况进行介绍。表2为该作者在不同时刻发表论文的篇数,合作者数目及所在社团节点个数的统计。
T1 | T2 | T3 | T4 | T5 | T6 | T7 | T8 | T9 | |
papers | 60 | 70 | 48 | 33 | 17 | 12 | 6 | 3 | 0 |
coauthors | 280 | 306 | 191 | 114 | 64 | 48 | 24 | 7 | 0 |
Community nodes | 21 | 75 | 80 | 18 | 9 | 10 | 6 | 0 | 0 |
表2
为了更加充分的说明该作者所在社团的变化,本发明将选取了4个不同时刻来展示该作者所在社团的社团结构,如图8。可以很明显地看出该作者所在社团的规模是先增大后减小的,这与该作者的任职经历有很大的联系。该作者在2005年到2009年之间是ISRC的首席研究员,这段时间该作者的工作重点为研究,因此该作者这段时间的论文发表较多。而之后,该作者成为了董事总经理助理,工作重点的转移使得该作者发表论文的数据减少。因此结合该作者实际工作情况和其论文发表情况,可以看出本发明的社团划分结果充分的反映了该作者的真实情况。
Claims (11)
1.一种基于增量聚类的动态社会网络社团结构演化方法,其特征在于,包括以下步骤:
(1)输入t=0时刻的网络,利用静态社团划分算法找到核心子图的初始社团划分KS0,并将KS0扩展到全网得到整体网络的初始社团结构CS0;
(2)输入t(t>0)时刻的网络,利用基于增量聚类的快速社团划分方法找到核心社团结构KSt,并将KSt扩展到全网得到该时刻整体网络的社团结构CSt;
(3)得到一个较长时间段内的社团结构时间演化序列{CS0,CS1,…,CSt,…,CSn},发现动态社团结构的演化规律。
2.根据权利要求1所述的基于增量聚类的动态社会网络社团结构演化方法,其特征在于,所述静态社团划分算法为一种基于层次聚类的社团检测方法。
3.根据权利要求1所述的基于增量聚类的动态社会网络社团结构演化方法,其特征在于,所述基于增量聚类的快速社团划分方法的实现步骤包括:
(1)利用基于节点权重的改进型PageRank算法找到每一个时刻的核心节点KVt及核心子图Kt;
(2)使用基于层次聚类的社团检测算法得到t=0时刻的核心社团结构KS0;
(3)为t(t>0)时刻的核心子图Kt的社团结构KSt赋初始值,KSt=KSt-1;
(4)在KSt中删除Kt中不包含的边和节点;
(5)在KSt中根据每一个社团的连通性判断该社团是否需要分裂;
(6)对于所有Kt包含但Kt-1不包含的节点,根据节点与每一个社团的亲密度来判断该节点是否需要加入某一个社团;
(7)在KSt中加入所有Kt包含但Kt-1不包含的边;
(8)对于KSt中的社团,计算两两之间的关联度,并判断是否需要将这两个社团合并;
(9)得到由增量聚类算法获得的核心社团结构KSt={KC1,KC2,......,KCm};
(10)根据社团结构偏移度(CSM)来判断KSt的有效性,如果CSM≤β(β为给定的参数),t时刻的核心社团结构KSt为步骤8得到的结果;否则,利用基于层次聚类的社团检测算法重新计算得到KSt。
(11)使用扩展算法,将KSt扩展到全网,得到t时刻整体网络的社团结构CSt={C1,C2,...,Cn}。
4.根据权利要求3所述的基于增量聚类的快速社团划分方法,其特征在于,所述的改进型PageRank算法(MP)是根据新的节点权重计算公式来得到核心节点KVt。新的节点权重公式为:
其中,是节点vi的度,是整个网络中所有节点的度值的总和,PR*(vj)是节点vj的权重值。
5.根据权利要求3所述的基于增量聚类的快速社团划分方法,其特征在于,所述核心子图节点的选择是由不同类型网络的不同特征确定的。由于结点的PR*值越大代表这个节点在网络中越重要,选择网络中PR*值比较大的一些节点作为网络的核心节点。
6.根据权利要求3所述的基于增量聚类的快速社团划分方法,其特征在于,所述核心子图社团结构的分裂是由社团的连通性决定的。
7.根据权利要求3所述的基于增量聚类的快速社团划分方法,其特征在于,所述核心子图社团结构新节点的加入策略说明如下:当新加节点v和社团结构KSt中的所有节点都没有联系时,新建一个社团并将新加节点v加入这个社团;当新加节点v只和社团结构KSt中的一个社团有联系时,将v加入到该社团;当新加节点v和社团结构KSt中的多个社团有联系时,计算v和这些社团的亲密度,将v加入到亲密度最大的社团中。
8.根据权利要求7所述的核心子图社团结构新节点的加入策略,其特征在于,节点与社团之间的亲密度定义如下:
其中,等号右边分子部分表示在社团C中与节点v有直接边联系的所有节点的PR*值的总和与节点v的PR*值的和,分母为社团C的所有节点的PR*值的总和与节点v的PR*值的和。
9.根据权利要求3所述的基于增量聚类的快速社团划分方法,其特征在于,所述核心子图社团合并的策略是由社团之间的关联度决定的。当两个社团的公共边的总数大于每个社团的内部边总数的20%时,将这两个社团合并。
10.根据权利要求3所述的基于增量聚类的快速社团划分方法,其特征在于,所述社团结构的偏移度(CSM)为:
其中,|KE0|是初始时刻核心子图边的条数,Δ|KEt,t-1|是t时刻和t-1时刻核心子图的公共边的条数。
11.根据权利要求3所述的基于增量聚类的快速社团划分方法,其特征在于,所述扩展方法为:初始化整体网络的社团结构CSt为核心社团结构KSt,对任意一个非核心节点的节点v,遍历它的邻居节点直到发现一个邻居节点属于CSt并将节点v加入到该邻居节点所在的社团。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510470808.0A CN105469315A (zh) | 2015-08-04 | 2015-08-04 | 基于增量聚类的动态社会网络社团结构演化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510470808.0A CN105469315A (zh) | 2015-08-04 | 2015-08-04 | 基于增量聚类的动态社会网络社团结构演化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105469315A true CN105469315A (zh) | 2016-04-06 |
Family
ID=55606978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510470808.0A Pending CN105469315A (zh) | 2015-08-04 | 2015-08-04 | 基于增量聚类的动态社会网络社团结构演化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105469315A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106027526A (zh) * | 2016-05-23 | 2016-10-12 | 北京网康科技有限公司 | 一种追踪网络联通图中团体演化的方法及装置 |
CN107094284A (zh) * | 2017-05-02 | 2017-08-25 | 湘潭大学 | 一种基于谱聚类算法的机会网络群组移动方法 |
CN109359115A (zh) * | 2018-10-25 | 2019-02-19 | 中国互联网络信息中心 | 基于图数据库的分布式存储方法、装置及系统 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
CN109859054A (zh) * | 2018-12-13 | 2019-06-07 | 平安科技(深圳)有限公司 | 网络社团挖掘方法、装置、计算机设备及存储介质 |
CN110310697A (zh) * | 2019-06-19 | 2019-10-08 | 江南大学 | 一种动态残基相互作用网络的社团检测方法 |
CN111382318A (zh) * | 2020-03-14 | 2020-07-07 | 平顶山学院 | 一种基于信息动力学的动态社团检测方法 |
CN112015954A (zh) * | 2020-08-28 | 2020-12-01 | 平顶山学院 | 基于马太效应的社团检测方法 |
CN113436674A (zh) * | 2021-06-23 | 2021-09-24 | 兰州大学 | 一种基于topsis种子扩张的增量式社团检测方法—tseia |
CN114827352A (zh) * | 2021-01-28 | 2022-07-29 | 中国电信股份有限公司 | 电信诈骗检测方法、装置以及存储介质 |
-
2015
- 2015-08-04 CN CN201510470808.0A patent/CN105469315A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106027526A (zh) * | 2016-05-23 | 2016-10-12 | 北京网康科技有限公司 | 一种追踪网络联通图中团体演化的方法及装置 |
CN107094284B (zh) * | 2017-05-02 | 2020-05-19 | 湘潭大学 | 一种基于谱聚类算法的机会网络群组移动方法 |
CN107094284A (zh) * | 2017-05-02 | 2017-08-25 | 湘潭大学 | 一种基于谱聚类算法的机会网络群组移动方法 |
CN109359115A (zh) * | 2018-10-25 | 2019-02-19 | 中国互联网络信息中心 | 基于图数据库的分布式存储方法、装置及系统 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
CN109859054A (zh) * | 2018-12-13 | 2019-06-07 | 平安科技(深圳)有限公司 | 网络社团挖掘方法、装置、计算机设备及存储介质 |
CN109859054B (zh) * | 2018-12-13 | 2024-03-05 | 平安科技(深圳)有限公司 | 网络社团挖掘方法、装置、计算机设备及存储介质 |
CN110310697A (zh) * | 2019-06-19 | 2019-10-08 | 江南大学 | 一种动态残基相互作用网络的社团检测方法 |
CN111382318A (zh) * | 2020-03-14 | 2020-07-07 | 平顶山学院 | 一种基于信息动力学的动态社团检测方法 |
CN111382318B (zh) * | 2020-03-14 | 2024-02-02 | 平顶山学院 | 一种基于信息动力学的动态社团检测方法 |
CN112015954A (zh) * | 2020-08-28 | 2020-12-01 | 平顶山学院 | 基于马太效应的社团检测方法 |
CN112015954B (zh) * | 2020-08-28 | 2021-08-27 | 平顶山学院 | 基于马太效应的社团检测方法 |
CN114827352A (zh) * | 2021-01-28 | 2022-07-29 | 中国电信股份有限公司 | 电信诈骗检测方法、装置以及存储介质 |
CN113436674A (zh) * | 2021-06-23 | 2021-09-24 | 兰州大学 | 一种基于topsis种子扩张的增量式社团检测方法—tseia |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105469315A (zh) | 基于增量聚类的动态社会网络社团结构演化方法 | |
Gregory | Fuzzy overlapping communities in networks | |
Wang et al. | Locating structural centers: A density-based clustering method for community detection | |
Falkowski et al. | Dengraph: A density-based community detection algorithm | |
CN106055627B (zh) | 话题领域中社交网络关键节点的识别方法 | |
CN104102745B (zh) | 基于局部最小边的复杂网络社团挖掘方法 | |
TW200828053A (en) | A method for grid-based data clustering | |
CN111241421B (zh) | 基于社交上下文信息的用户转发行为预测方法 | |
CN110389950B (zh) | 一种快速运行的大数据清洗方法 | |
CN107527295A (zh) | 基于时态合著网络的学术团队动态社区发现方法及其质量评估方法 | |
Gao et al. | Evolutionary community discovery in dynamic networks based on leader nodes | |
KR20140068650A (ko) | 중첩 커뮤니티 검출 방법 | |
CN101901251B (zh) | 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法 | |
CN111639191A (zh) | 一种新型冠状病毒知识图谱模拟疫情发展趋势的预测方法 | |
Han et al. | Community detection in dynamic networks via adaptive label propagation | |
CN107784327A (zh) | 一种基于gn的个性化社区发现方法 | |
CN111667373B (zh) | 基于邻居子图社交网络动态增量的演化社区发现方法 | |
US8700756B2 (en) | Systems, methods and devices for extracting and visualizing user-centric communities from emails | |
Yoo et al. | Sampling subgraphs with guaranteed treewidth for accurate and efficient graphical inference | |
CN109783696B (zh) | 一种面向弱结构相关性的多模式图索引构建方法及系统 | |
CN107358534A (zh) | 社交网络的无偏数据采集系统及采集方法 | |
Gao et al. | Accelerating graph mining algorithms via uniform random edge sampling | |
CN105162648B (zh) | 基于骨干网络扩展的社团检测方法 | |
CN111861772A (zh) | 一种基于局部结构的密度最大化重叠社团发现方法及系统 | |
CN113901984A (zh) | 一种基于节点邻域的聚类系数的分层随机游走抽样方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160406 |