CN113436674B - 一种基于topsis种子扩张的增量式社团检测方法—tseia - Google Patents
一种基于topsis种子扩张的增量式社团检测方法—tseia Download PDFInfo
- Publication number
- CN113436674B CN113436674B CN202110696488.6A CN202110696488A CN113436674B CN 113436674 B CN113436674 B CN 113436674B CN 202110696488 A CN202110696488 A CN 202110696488A CN 113436674 B CN113436674 B CN 113436674B
- Authority
- CN
- China
- Prior art keywords
- network
- community
- time
- community structure
- act
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/30—Dynamic-time models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于TOPSIS种子扩张的增量式社团检测方法—TSEIA,对于动态网络的第一个快照,使用静态局部社团检测算法TSELA检测其社团结构;从第二个快照开始,首先检测当前快照的活跃顶点集。然后对活跃顶点集构建子图并使用静态局部社团检测算法TSELA提取子图的初始社团结构;此时,得到了包含网络所有顶点的活跃顶点子图上检测到的社团以及非活跃顶点所在社团;最终将可能同属一个社团的子社团进行合并,得到当前快照的最终社团结构。对每一快照重复执行上述操作,即可提取出随时间演化的动态网络中的所有社团结构。本发明能够解决全局方法因效率低无法适用于大规模网络的问题,同时能解决许多现有局部方法中存在的性能不稳定、检测结果质量不佳的问题。
Description
技术领域
本发明属于复杂网络中的社团检测技术领域,涉及一种从动态复杂网络中检测社团结构的方法,具体涉及一种基于种子扩张的增量式社团检测方法。
背景技术
许多复杂系统可以被抽象为复杂网络,利用顶点和边表示系统的主要成员及成员间的相互关系。目前,复杂网络分析已经应用于诸多领域,如体育竞赛网络[1]、生物网络[2][3]、社交网络[4][5]、政治选举网络[6]等。对于这些网络,社团结构是其重要特征之一。社团就是网络中一部分顶点组成的集合,集合内顶点之间的边相对密集,而集合内的边连接到网络其余集合中的边较为稀疏[6]。
网络中的社团一般对应于系统的功能模块,如蛋白质相互作用网络或代谢网络中的复合物与通路[2],社交网络中具有相同职业、兴趣的真实社会群体[4]等。因此,我们可以通过检测相应网络中的社团结构来探索系统的功能特征。此外,研究表明[7][8],通过社团划分的结果能够挖掘出网络的其他重要特征,这些特征不管是在网络层面还是在顶点层面都无法获取。因此,可以通过社团检测(Community Detection)来探索网络中的一些其他重要属性。此外,社团检测可以作为基础,帮助推动相关领域其他方面的一些研究,如预防疫情传播[9]、疾病检测[10]、链接预测[11]、影响力最大化[12]等。总体而言,近年来社团检测问题引起了不同领域的许多研究者的关注。
在该领域,已经提出了大量的社团检测方法[13][14],其中大多方法是全局性的,在大多数情况下时间复杂度比较高,运行比较耗时。与此不同,局部方法因其效率高而成为近年来研究的热点。种子扩张方法是一种典型的局部方法,它首先利用各种中心性指标来识别社团中的种子顶点,然后将其他顶点合并到种子顶点所在社团来扩张每个社团,以此检测网络的社团结构。
在现实中,大多数系统都是随时间动态变化的,与之对应的网络也随时间动态演化。动态网络可以看作是由一系列的静态快照构成的时序网络,随着时间的变化,不同快照的拓扑结构也将发生变化。因此,在随时间变化的动态网络中检测社团结构是本发明研究的重点。
目前,在动态复杂网络中进行社团检测已经成为社交网络分析方面的热点研究问题。一般情况下,动态网络上的社团检测方法可以分为两类[15]:基于传统社团检测方法的独立算法和增量式的更新算法。
基于传统社团检测方法的独立算法
这一类方法把随时间动态演化的网络看做一系列互不相关的独立的静态快照,在每一个快照上单独运行传统的静态社团检测算法提取其社团结构,当前快照的社团检测过程不受相邻时刻快照的社团结构结果的影响。因此,每一个静态社团检测算法都能用于单独提取动态复杂网络中的社团结构。2007年,Palla,Barabási和Vicsek[16]最早使用独立检测的方式研究动态演化网络中的社团变化。该方法通过引入经典的静态重叠社团检测算法CPM[17]对动态网络中的快照进行单独的社团结构提取,然后对随时间变化的网络的社团结构进行对比分析,以此达到利用独立的社团检测算法跟踪动态网络社团变化的目的。2013年,Bródka等人[18]提出了衡量群体演化的方法GED(Group Evolution Discovery),其中也使用了静态社团检测算法CPM与Louvain,对动态网络中的时间片进行单独的社团结构提取。此外,Infomap算法[19]还通过在单层网络结构中定义顶点级别层依赖,通过形成状态顶点的层间连接以及邻域流耦合组生成高分辨率但稀疏的多层网络,以此来发现网络中的社团结构。
在随时间演化的动态网络中,由于传统的独立社团检测算法需要对网络的每个快照进行完全独立的检测,因此,该类方法的时间复杂度较高。此外,该类方法在检测当前网络快照的社团结构时未考虑网络的历史社团结构信息,将会导致检测到的社团结构质量不高,容易丢失网络的历史信息。但是,对于相邻快照之间拓扑结构变化比较大的网络来说,使用此方法能够保证当前快照的社团检测不受相邻快照的影响,得到更加稳定的社团划分。
增量式的更新算法
对于增量式社团检测方式来说,相邻快照之间的网络总是相互影响,当前快照的社团检测必须依赖网络的历史社团结构信息。由于增量式社团检测算法具有时间复杂度低和检测结果稳定的特点。因此,增量式社团检测方法是目前动态社团检测研究领域的热点方法。代表算法有[20][21][22][23][24]。其中,算法DYNMOGA[20]将动态网络社团检测问题抽象化为一个多目标优化问题,并用遗传算法以优化方式进行社团结构的挖掘。不但将描述当前网络社团结构质量的标准作为待优化的目标,还将评价相邻时间快照之间的社团结构演化质量标准加入目标函数组成多目标优化问题。最后,通过将多目标优化问题与遗传算法结合获取当前网络快照的社团结构。算法ALPA[21]是在LPA算法[26]的基础上演化而来的动态增量式社团检测算法,ALPA在对LPA算法演化的过程中,引入了预热(warm-up)和局部标签传播(Local label propagation,LLP)两个阶段的处理过程。在对一个初始社团结构进行更新的过程中,预热操作是为了在LLP阶段之前解决处于两个社团间顶点被划分到错误社团的问题。若一个顶点的标签不是其邻居中大部分顶点所带的一类标签,先将该顶点定义为活跃顶点,然后通过LLP过程对初始网络更新得到网络的社团结构。算法LabelRankT[24]也是一种基于前一时刻网络社团结构对当前时刻网络进行社团检测的算法,该算法定义了一种新的标签更新规则对网络中顶点的标签进行迭代更新,得到网络的社团划分。还有一类算法通过借助分类器的方式进行顶点的划分,用于社团检测的研究。例如,算法LBTR[23]使用两种机器学习分类器(逻辑回归和支持向量机)选择出需要被修正社团归属的顶点,通过这种方式极大地提高了社团检测的效率。
此外,不同于独立社团检测方式与增量式社团检测方式,基于所有快照的跨时间方式的社团检测算法也开始出现在人们的视野。在检测当前网络快照的社团结构时,不但依赖于网络的历史信息,而且依赖于当前时刻之后的网络信息。例如,Sarantopoulos等人在2019年提出的算法Timerank[25]首先使用三维张量表示一个网络,其中,前两维表示顶点,第三维表示时间点。然后,在张量上进行随机游走获取网络的社团演化信息。
与全局方法相比,局部方法的效率较高,能适用于规模较大的网络。但上述这些方法在追求运算效率的同时,往往以牺牲最终检测得到的社团结构的质量为代价;另外,一些方法的性能不稳定,适用范围较小,在一些网络上能够检测得到较好的结果,但在其它网络上其效果不甚理想。
参考文献
[1]Michelle Girvan,Mark EJ Newman.Community structure in social andbiological networks[J].Proceedings of the national academy of sciences,99(12):7821–7826,2002.
[2]Tamás Nepusz,Haiyuan Yu,Alberto Paccanaro.Detecting overlappingprotein complexes in protein-protein interaction networks[J].Nature methods,9(5):471,2012.
[3]Wei Liu,Ling Chen.Community detection in disease-gene networkbased on principal component analysis[J].Tsinghua Science and Technology,18(5):454–461,2013.
[4]Yves van Gennip,Blake Hunter,Raymond Ahn,Peter Elliott,Kyle Luh,Megan Halvorson,Shannon Reid,Matthew Valasik,James Wo,George E Tita etal.Community detection using spectral clustering on sparse geosocial data[J].SIAM Journal on Applied Mathematics,73(1):67–83,2013.
[5]王英奎,郭洪亮,朱鹏飞.社交网络上的社团发现方法综述[J].中文信息,(2018年06):4–82,2018.
[6]Lada A Adamic,Natalie Glance.The political blogosphere and the2004 us election:divided they blog[C].In Proceedings of the 3rd internationalworkshop on Link discovery,pages 36–43.ACM,2005.
[7]M.E.J.Newman.Finding community structure in networks using theeigenvectors of matrices[J].Phys.Rev.E,74:036104,Sep 2006.
[8]Ying Pan,De-Hua Li,Jian-Guo Liu,Jing-Zhang Liang.Detectingcommunity structure in complex networks via node similarity[J].Physica A:Statistical Mechanics and its Applications,389(14):2849–2857,2010.
[9]Xiaolong Deng,Ying Wen,Yuanhao Chen.Highly efficient epidemicspreading model based lpa threshold community detection method[J].Neurocomputing,210:3–12,2016.
[10]Laura Cantini,Enzo Medico,Santo Fortunato,MicheleCaselle.Detection of gene communities in multi-networks reveals cancerdrivers[J].Scientific reports,5:17386,2015.
[11]Zuxi Wang,Yao Wu,Qingguang Li,Fengdong Jin,Wei Xiong.Linkprediction based on hyperbolic mapping with community structure for complexnetworks[J].Physica A:Statistical Mechanics and its Applications,450:609–623,2016.
[12]Masoud Jalayer,Morvarid Azheian,Mehrdad Agha Mohammad AliKermani.A hybrid algorithm based on community detection and multi attributedecision making for influence maximization[J].Computers&IndustrialEngineering,120:234–250,2018.
[13]Santo Fortunato.Community detection in graphs[J].Physics Reports,486(3-5):75–174,2010.
[14]Santo Fortunato,Darko Hric.Community detection in networks:A userguide[J].Physics Reports,659:1–44,2016.Community detection in networks:Auserguide.
[15]Kadkhoda Mohammadmosaferi K,Naderi H.Evolution of communities indynamic social networks:An efficient map-based approach[J].Expert Systemswith Applications,2020,147:113221.
[16]Palla G,BarabásiA-L,Vicsek T.Quantifying social group evolution[J].Nature,2007,446(7136):664–667.
[17]Palla G,Derényi I,Farkas I,et al.Uncovering the overlappingcommunity structure of complex networks in nature and society[J].nature,2005,435(7043):814–818.
[18]Bródka P,Saganowski S,Kazienko P.GED:the method for groupevolution discovery in social networks[J].Social Network Analysis and Mining,2013,3(1):1–14.
[19]Aslak U,Rosvall M,Lehmann S.Constrained information flows intemporal networks reveal intermittent communities[J].Physical Review E,2018,97(6):062312.
[20]Folino F,Pizzuti C.An Evolutionary Multiobjective Approach forCommunity Discovery in Dynamic Networks[J].IEEE Transactions on Knowledge andData Engineering,2014,26(8):1838–1852.
[21]Han J,Li W,Zhao L,et al.Community detection in dynamic networksvia adaptive label propagation[J].PloS one,2017,12(11):e0188655.
[22]Berger-Wolf T Y,Saia J.A framework for analysis of dynamic socialnetworks[C]//Proceedings of the 12th ACM SIGKDD international conference onKnowledge discovery and data mining.2006:523–528.
[23]Shang J,Liu L,Li X,et al.Targeted revision:A learning-basedapproach for incremental community detection in dynamic networks[J].PhysicaA:Statistical Mechanics and its Applications,2016,443:70–85.
[24]Xie J,Chen M,Szymanski B K.LabelRankT:Incremental CommunityDetection in Dynamic Networks via Label Propagation[C]//.New York,NY,USA:Association for Computing Machinery,2013.
[25]Sarantopoulos I,Papatheodorou D,Vogiatzis D,et al.Timerank:Arandom walk approach for community discovery in dynamic networks[C]//International Conference on Complex Networks and their Applications.2018:338–350.
[26]Raghavan U N,Albert R,Kumara S.Near linear time algorithm todetect community structures in large-scale networks[J].Physical review E,2007,76(3):036106.
发明内容
为了克服上述现有技术中存在的问题,本发明提供一种稳定、高效的针对动态复杂网络的基于TOPSIS(Technique for Order Preference by Similarity to an IdealSolution)[28]多属性决策技术的增量式社团检测方法TSEIA(Incremental CommunityDetection Algorithm Based on TOPSIS Seed-Expanding in Dynamic Networks)。
本发明所采用的技术方案是:
一种基于TOPSIS种子扩张的增量式社团检测方法—TSEIA,对于动态网络的第一个快照,使用静态局部社团检测算法TSELA检测其社团结构;从第二个快照开始,首先检测当前快照的活跃顶点集,然后对活跃顶点集构建子图并使用静态局部社团检测算法TSELA提取子图的初始社团结构;此时,得到了包含网络所有顶点的两部分社团,分别为活跃顶点子图上检测到的社团以及非活跃顶点所在社团;最终将可能同属于一个社团的子社团进行合并,得到当前快照的最终社团结构;对每一快照重复执行上述操作,即可提取出随时间演化的动态网络中的所有社团结构。
其总体框架如算法1所示,具体为:
1)使用TSELA算法得到t=1时刻网络的社团结构:
CS1←TSELA(G1(V1,E1),K,C,w)
2)使用ActiveNode算法检测t时刻网络中的活跃顶点(t≥2),得到活跃顶点集合Vt act:Vt act←ActiveNode(Gt,Gt-1,θ,η)
6)Return CSt
7)重复执行步骤2-6,直到检测出网络所有快照的社团结构;
其中,G={G1(V1,E1),G2(V2,E2),…,GT(VT,ET)},动态网络;CSt,t时刻快照的社团结构;Vt act,t时刻网络中检测到的活跃顶点集合;t时刻网络中活跃顶点构建的子图网络;K,初始社团数目;C,k个计算中心性的函数;w,k维权重向量;θ和η,邻居顶点数目的阈值;CS:检测到的社团结构。
所述步骤2,即检测当前时刻网络的活跃顶点集的实现算法-算法2具体为:
2)若(vm,vn)在社团CSt-1中是属于社团间的边,则将其全部加入活跃顶点集合:
If CSt-1.index(vm)≠CSt-1.index(vn)then
Vt act←Vt act∪{vm}
Vt act←Vt act∪{vn}
3)若边(vm,vn)含有新增的顶点,则将其全部加入活跃顶点集合:
If vm∈Vt add or vn∈Vt add then
Vt act←Vt act∪{vm}
Vt act←Vt act∪{vn}
5)若边(vp,vq)在社团CSt-1中是属于社团内的边,并且边对应的顶点未消失,则将其全部加入活跃顶点集合:
If CSt-1.index(vp)=CSt-1.index(vq)and vp∈Vt and vq∈Vt then
Vt act←Vt act∪{vp}
Vt act←Vt act∪{vq}
6)Return{Vt act};
其中,Gt(Vt,Et),t时刻网络;Gt-1(Vt-1,Et-1),t-1时刻网络;CSt-1,t-1时刻快照的社团结构CSt-1;t时刻网络新增的边;t时刻网络消失的边;t时刻网络新增的顶点;Vt die,t时刻网络消失的顶点;Vt act,t时刻网络的活跃顶点集合。
所述步骤3,即对当前时刻网络进行子图构建及社团结构提取的实现算法-算法3具体为:
3)将每个种子顶点v∈S分别当做一个新的社团中的第一个顶点:
For vj∈CSj do
If vj∈Vt act then
CSj←CSj-{vj}
CSj←CSj-{vj}
4)Return其中,Gt(Vt,Et),t时刻网络;Gt-1(Vt-1,Et-1),t-1时刻网络;CSt-1,t-1时刻网络的社团结构;Vt act,当前子图网络的活跃顶点集合;t时刻子图初始社团结构;t时刻网络的初始社团结构。
本发明的有益效果:
1.本发明提出的动态社团检测方法原理简单、易于实现;
2.本发明提出方法时间复杂度较低,能够适用于大小规模不一的各种网络;
3.本发明提出的方法能够在随时间变化的动态网络中稳定地提取出高质量的社团结构,不会受网络相邻快照演化剧烈程度的影响。
附图说明
图1是社团诞生和消亡网络的演化信息:(a)顶点演化信息,(b)边演化信息;
图2是社团扩张和收缩网络的演化信息:(a)顶点演化信息,(b)边演化信息;
图3是社团合并和分裂网络的演化信息:(a)顶点演化信息,(b)边演化信息;
图4是Cell Phone Calls网络的演化信息:(a)顶点演化信息,(b)边演化信息;
图5是As-Oregon网络的演化信息:(a)顶点演化信息,(b)边演化信息;
图6是HEP-TH网络的演化信息:(a)顶点演化信息,(b)边演化信息;
图7是AS-Internet网络的演化信息:(a)顶点演化信息,(b)边演化信息;
图8是Enron emails网络的演化信息:(a)顶点演化信息,(b)边演化信息;
图9是TSEIA方法及对比算法从社团诞生和消亡网络中得到的检测结果对应的度量指标的曲线图:(a)度量指标模块度变化曲线,(b)度量指标归一化互信息变化曲线;
图10是TSEIA方法及对比算法从社团扩张和收缩网络中得到的检测结果对应的度量指标的曲线图:(a)度量指标模块度变化曲线,(b)度量指标归一化互信息变化曲线;
图11是TSEIA方法及对比算法从社团合并和分裂网络中得到的检测结果对应的度量指标的曲线图:(a)度量指标模块度变化曲线,(b)度量指标归一化互信息变化曲线;
图12是TSEIA方法及对比算法从Cell Phone Calls网络中得到的检测结果统计图:(a)度量指标模块度变化曲线,(b)度量指标模块度箱型图;
图13是TSEIA方法及对比算法从As-Oregon网络中得到的检测结果统计图:(a)度量指标模块度变化曲线,(b)度量指标模块度箱型图;
图14是TSEIA方法及对比算法从HEP-TH网络中得到的检测结果统计图:(a)度量指标模块度变化曲线,(b)度量指标模块度箱型图;
图15是TSEIA方法及对比算法从As-Internet网络中得到的检测结果统计图:(a)度量指标模块度变化曲线,(b)度量指标模块度箱型图;
图16是TSEIA方法及对比算法从Enron emails网络中得到的检测结果统计图:(a)度量指标模块度变化曲线,(b)度量指标模块度箱型图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
第一部分,关于本发明的详细说明。
本发明提出的TSEIA是在静态局部社团检测算法TSELA的基础上演化而来的针对动态网络的增量式社团检测算法。由于增量式社团检测算法能够在保留前一时刻网络社团结构信息的同时,通过微调更新的策略来提升检测当前快照社团结构的效率。因此,增量式社团检测算法在动态社团检测领域成为近年来人们研究的重点。本发明的实现思想具体是:对于动态网络的第一个快照,使用我们之前提出的静态局部社团检测算法TSELA(LocalCommunity Detection Algorithm Based on TOPSIS Seed-Expanding in StaticNetworks)[27]检测其社团结构。从第二个快照开始,首先检测当前快照的活跃顶点集。然后对活跃顶点集构建子图并使用静态局部社团检测算法TSELA提取子图的初始社团结构。由于非活跃顶点保留着网络的历史社团信息,因此,我们将非活跃顶点所在的前一时刻社团进行保留来保存网络的历史社团结构信息。此时,得到了包含网络所有顶点的两部分社团,分别为活跃顶点子图上检测到的社团以及非活跃顶点所在社团。由于初始社团数目往往远大于实际的社团数目,另外有一些小社团存在。因此,最终考虑一个合并的后处理操作将实际社团结构中可能同属一个社团的子社团进行合并,得到当前快照的最终社团结构。对每一快照重复执行上述操作,即可提取出随时间演化的动态网络中的所有社团结构。
TSEIA的框架如算法1所示。
在增量式社团检测算法中,由于当前快照的社团结构检测需要依赖前一快照的社团结构信息。因此,t=1时刻快照的社团结构需要使用静态网络社团检测算法TSELA得到,并将其结果应用于后续快照的社团检测中。
活跃顶点检测
算法1通过调用函数ActiveNode()检测网络中的活跃顶点。由于在使用增量式方法在动态网络中检测社团结构时,t时刻网络的社团结构将依赖于t-1时刻网络的社团划分,其中从t-1时刻到t时刻社团归属可能发生变化的顶点称之为活跃顶点。本发明中,TSEIA方法将第t-1时刻快照演化为t时刻快照时的三类边对应的顶点认定为活跃顶点:在新增的边集中,若边对应的两个顶点在t-1时刻快照的社团结构中分属于两个不同的社团,由于社团间边的增加会削弱社团结构的强度,因此,这类边对应的顶点的社团归属可能发生变化,需要将此类顶点作为活跃顶点,重新检测其社团结构;此外,在新增的边集中,可能还存在包含新增顶点的边,由于这些边的加入都会使原有的社团结构强度变弱,因此,也将此类边对应的顶点认定为活跃顶点;对于消失的边,仅考虑以下类型边对应的顶点,在t时刻快照中边对应的两个顶点同属于一个社团,而在t-1时刻的快照中对应的顶点存在,边消失。由于上述这类社团内的边的消失也会使得社团结构强度变弱,因此,此类边对应的顶点也应该加入活跃顶点集。至此,活跃顶点检测完成,算法2的伪代码实现了这一过程。
子图初始社团检测
算法1中调用函数ActiveNode()后,得到了当前时刻网络中的活跃顶点集合。该算法接着在第3步对上述得到的活跃顶点构建子图,并从中提取社团结构。该步骤的逻辑实现于算法3中。
社团更新
在动态社团检测中,增量式社团检测方法在利用t-1时刻快照的社团结构得到t时刻快照的社团结构的过程中,由于继承了t-1时刻快照的主要社团结构,而只对部分变化的顶点及边作出调整的特点,使得增量式社团检测方法具有低时耗、高稳定性的优势。在本文中,也将t-1时刻快照的主要社团进行保留,通过调用算法1中的函数Updating()在t-1时刻社团结构的基础上进行保留并对网络演化过程中的活跃顶点集、消失顶点集、以及新增顶点集进行社团重新分配来保留t-1时刻网络演化到t时刻时主要的社团结构。由于本发明在上述已经对活跃顶点集构成的子图进行了单独的社团挖掘,因此首先从t-1时刻网络的社团结构中删除t时刻网络的活跃顶点集。其次,在网络
演化过程中,会伴随有新顶点的产生以及旧顶点的消失,对于前者来说,由于新产生的顶点在活跃顶点检测的过程中演变成了活跃顶点,因此,在子图构建中新增顶点再无需关注;对于后者来说,消失的顶点将对社团结构不会有任何影响,因此,在网络演化过程中,该算法会将消失的顶点在上一时刻继承来的社团结构中直接删除。到目前为止,t时刻快照的初始社团主要由两部分组成:t时刻网络活跃顶点构建的子图中得到的初始社团以及从t-1时刻快照的社团结构中继承来的主要社团。最后,本文对其进行合并得到t时刻网络的初始社团结构。函数Updating()的具体实现使用算法4中的伪代码进行了进一步说明。
社团合并
通过以上步骤,已经得到了网络的初始社团结构,该算法得到的初始社团结构中会存在一些较小的社团。为了克服此问题,本文在算法TSEIA中
加入了后处理步骤merge()将一些较小的社团进行合并,以得到最终的社团结构。算法1中的步骤5实现了TSEIA中社团合并的功能。
由于无法预先知道网络的真实社团数目,因此在社团合并过程中的停止条件是需要解决的一个重要问题。本文选用FastQ算法的思想进行社团合并。根据文献[29]可知,合并社团Ci和Cj带来的利益(即模块度增益)计算方式如公式1所示:
ΔQ=2(eij-aiaj), (1)
其中,e表示k×k的矩阵,k是社团的数目。eij表示社团Ci和Cj之间边的数目与网络中总边数的比值。表示矩阵e中第i行的和,则ai代表连接到社团Ci内部顶点的边的数目与总边数的比值。重复合并带来模块度增益最大的两个社团,直到所有合并方式所得利益值非正时停止合并。
第二部分:本发明计算时间复杂的说明
通过以上对TSEIA算法的分析,可知其运行时间主要由四部分组成。首先是检测当前网络快照的活跃顶点,实现于算法2。易知,其时间复杂度为O(|Vt|)。其次,为活跃顶点构建子图并检测子图的初始社团结构也是TSEIA算法的时间消耗点。前者能够在时间内完成;对于后者而言,时间复杂度最大是O(nlogn)+O(nlogn)。因此,执行此部分所需总的时间复杂度为在算法1中第4步Updating()过程中,时间消耗主要在以下运算中:在t-1时刻快照的社团结构中删除活跃顶点。该过程将最多在O(|Vt act|)的时间复杂度内完成。对于算法1中第5步merge()过程,根据TSELA中的分析可知,该步骤的时间复杂度为O(m)。
通过以上分析,可得知TSEIA算法的总时间复杂度为:O(|Vt|)+O(nlogn)+O(|Vt act|)+O(m)~O(m),对于稀疏网络,O(m)~O(n)o因此,该方法可以高效地检测动态网络的社团结构。
第三部分:本发明的效果验证。
1.实验数据集介绍
本发明所使用的动态人工合成网络数据集是由网络合成工具生成,该工具是由Greene和Doyle等人[30]在Lancichinetti和Fortunato提出的时间网络生成器[31]基础上改编而来的。相比于时间网络生成器,改编后的生成器可以按照不同的网络演化事件生成随时间演化的无权无向图。为了避免算法偶然性,在同一事件的同一个参数设置下将随机生成10个网络快照,最终将评价指标的平均值作为算法在该数据集上的实验结果。网络生成过程中具体的参数设置信息为:顶点数小于等于1000,平均度等于20,最大度等于50,混合参数μ等于0.2,三种事件分别是社团诞生与消亡事件、社团扩张与收缩事件以及社团合并与分裂事件。最终在三种事件下分别生成的动态人工合成网络数据集的演化信息如图1~图3展示,图中N表示顶点数目,E表示边数目,三条虚线分别表示最小值,最大值以及平均值。
为了测试TSEIA的稳定性,本发明还引入了5个动态真实网络数据集进行了实验,分别是Cell Phone Calls网络[32]、As-Oregon网络[32]、HEP-TH网络[33]、AS-Internet网络[33]以及Enron emails网络[33]。网络的演化信息如图4~图8所示,图中N表示顶点数目,E表示边数目,三条虚线分别表示最小值,最大值以及平均值。
2.实验结果展示与分析
社团诞生和消亡网络实验结果
图9表示社团诞生和消亡网络的实验结果,图9(a)和图9(b)分别表示TSEIA以及对比算法在社团诞生和消亡网络上的模块度值及归一化互信息值。在图9(a)中的前7个快照中,TSEIA与算法LabelRankT、DYNMOGA以及Infomap的表现一样,均获得了最大的模块度值。从第8个快照开始,该算法的模块度值有所下降,但依然高于LBTR-SVM以及LPA-CNP-E的得分。在图9(b)中,TSEIA的NMI值表现趋势与模块度值一致,在前7个快照中均接近于最大值1,从第8个快照开始NMI值有所下降,但均大于0.95。此结果说明TSEIA在社团诞生和消亡事件中能够稳定地提取出接近于实际结构的社团结果。
社团合并和分裂网络实验结果
在社团合并和分裂网络中,TSEIA以及其他对比算法的表现如图10所示。图10(a)展示了TSEIA以及对比算法的模块度表现,从图中可以看出,随着网络的演化,所有算法的模块度值均呈现出整体下降的趋势。然而,TSEIA在所有的算法中依然取得了最高的模块度得分。在图10(b)的NMI值比较中,算法LabelRankT、DYNMOGA以及Infomap都取得了最大值1,高于TSEIA的得分。然而,TSEIA在所有快照上的NMI值依然高于0.98,并在前两个快照及最后一个快照中的得分达到了最大值1。综合模块度与NMI值表现来看,TSEIA在社团合并和分裂事件中检测到的社团结构仍然具有较高的质量。
社团扩张和收缩网络实验结果
在社团扩张和收缩网络中,算法在模块度及归一化互信息上的表现分别如图11中的(a)与(b)所示。从总体上来看,TSEIA在所有对比算法中均表现的最好,LPA-CNP-E依然表现的最差。具体来说,在所有快照中,TSEIA在模块度上的得分一直稳定在0.95左右,而在NMI的得分上,均在最大值1附近波动。该结果更加直观地显示了TSEIA在所有对比算法中的优越性。
为了验证TSEIA的稳定性,在人工合成网络上进行完实验后,还在5个实际网络上进行了实验。本章仅使用模块度Q对算法的表现进行评估,实验结果平均值列在表1中,加粗数值与下划线数值分别表示算法在该网络上模块度的最高得分与第二得分。
Cell Phone Calls网络实验结果
表1:动态网络模块度均值
图12展示了TSEIA以及其余5个对比算法在Cell Phone Calls网络上的实验结果。图12(a)描述了模块度值随着网络演化的变化情况,从图中可以看出,TSEIA的得分在第一个快照上超过其他对比算法,在其余快照的比较中均未能获得最大值。从总体上来看,TSEIA在该网络上的表现呈现出先下降后上升的态势,这与Cell Phone Calls网络的拓扑结构有关。TSEIA虽然在该网络上未获得最大的模块度得分,但其表现在所有快照中依然优于对比算法LabelRankT以及LPA-CNP-E。图12(b)展示了6个算法在所有网络快照中的实验结果的总体离散程度及偏向,通过观察箱型图中盒子的长度可知,TSEIA实验结果的统计盒子最短,说明结果的离散程度最低,进而说明算法越稳定。通过以上分析可知,TSEIA在CellPhone Calls网络中不但能够提取出可观的社团结构,而且能够在随时间演化的网络中,保持高稳定的表现。
AS-Oregon网络实验结果
图13展示了TSEIA以及对比算法在AS-Oregon网络上的实验结果。随着网络的演化,模块度的变化情况以及网络的总体统计信息如图13(a)与图13(b)显示。从图13(a)可以看出,LBTR-SVM在所有快照上均取得了最高的模块度得分,TSEIA在该网络上的表现仅次于LBTR-SVM,并远远高于其它四个算法(LabelRankT、DYNMOGA、Infomap以及LPA-CNP-E)的表现,尤其是LPA-CNP-E,在大多数快照中只得到了不到0.1的模块度值。在图13(b)所示的统计信息中,LBTR-SVM的结果依然拥有最低的离散程度以及最高的各项统计值,TSEIA的各项统计值仅次于LBTR-SVM,排名第二。通过以上分析可知,TSEIA虽然在该网络上未获得最大的模块度值,但是其表现依然优于大多数对比算法。因此,TSEIA的表现依然可以被认可。
HEP-TH网络实验结果
图14展示了TSEIA以及对比算法在论文引用网络HEP-TH上的实验结果,从图14(a)中能够看出TSEIA在所有快照上的模块度得分均接近于最大值1,LBTR-SVM虽然在其中的5个快照上达到了与TSEIA相似的得分,然而在14(b)所示的模块度值离散程度表现中,TSEIA的表现远远稳定于LBTR-SVM的表现。LPA-CNP-E在该网络上的模块度的得分虽然有所提升,但在所有算法中依然是表现最差的。并且,通过图14(b)能够发现,LPA-CNP-E的离散程度最高并且出现了异常值,这表明LPA-CNP-E的稳定性很差。因此,不管是从模块度的变化趋势还是离散程度方面来看,TSEIA在所有算法中都表现的最好,再一次验证了TSEIA在动态网络社团检测方面的优越性。
AS-Internet网络实验结果
AS-Internet网络的实验结果如图15所示,图15(a)展示了模块度值随网络演化的波动情况,从图中可以看出TSEIA的表现与LBTR-SVM交替领先。具体来说,在t=406快照之前,LBTR-SVM的模块度得分大于TSEIA的得分。在t=406至t=419期间的快照中,由于网络中的顶点及边数目都出现了急剧下降的情况,导致所有算法的模块度得分都出现了大幅下跌的现象。然而,从t=420快照开始,随着网络结构的恢复,TSEIA超过LBTR-SVM的得分排名第一,这表明TSEIA能够在网络发生急剧变化的情况下,不容易被历史社团结构影响,依然保持其高效性,检测高质量的社团结构。此外,图15(b)展示了模块度得分的总体分布情况,由于该网络包含多达733个网络快照,并且有些快照会出现结构急剧变化的情况,因此所有算法取得的模块度值都出现了异常值,属于正常现象。通过观察盒子形状易知,TSEIA依然属于所有算法中检测结果离散化程度较低、表现最稳定的算法。此实验表明,算法TSEIA不仅能在急剧变化的网络快照中高效地提取出最优的社团结构,而且能在网络快照比较多的情况下依然保持高度稳定。
Enron emails网络实验结果
在安然公司成员之间的电子邮件网络中,总共包含104个网络快照,TSEIA及对比算法的实验结果如图16所示。从图16中能够看出,随着网络的演化,所有算法在此网络上的模块度值波动均比较大,LabelRankT表现最为明显,导致这种现象的主要原因是Enronemails网络相邻快照间的演化比较剧烈。然而,在大多数快照中,TSEIA的模块度得分均获得了最大值,只有在少数情况下,LBTR-SVM与DYNMOGA会超过TSEIA的表现,得到更高的模块度分数。通过图16(b)能够发现,与AS-Internet网络一样,由于该网络包含的快照较多,因此,所有算法的检测值中均出现了异常值,然而TSEIA的检测结果中出现的异常值靠近最值点较近,并且TSEIA的模块度得分均值、最大值以及最小值相比其他算法都较高。这在一定程度上说明了TSEIA相比于其他算法效率更高。此实验再次验证了本文提出的TSEIA能够在变化比较大的网络中稳定地提取出高质量的社团结构。
通过对以上5个不同的实际网络的实验结果分析可知,TSEIA在其中4个网络中均表现的较好。具体来说,TSEIA在HEP-TH以及Enron emails网络上均取得了最大的模块度平均得分,在AS-Orgen与AS-Internet网络上得分排名第二,只有在Cell Phone Calls网络上未获得前二名的得分。总之,TSEIA不仅能够在AS-Orgen与HEP-TH这种快照数目不多的小型网络中得到较优的模块度分数,而且能够在AS-Internet以及Enron emails这种快照数目较多的大型网络中稳定地提取出高质量的社团结构。同时,由于网络AS-Internet以及Enron emails在演化过程中均出现了社团规模急剧变化的情况,因此,TSEIA在该组网络上的表现能够更加证明TSEIA相比于其他算法的优越性。
参考文献
[27]Cheng J,Zhang W,Yang H,et al.A Seed-Expanding Method Based onTOPSIS for Community Detection in Complex Networks[J].Complexity,2020,2020.
[28]Hwang C-L,Yoon K.Methods for multiple attribute decision making[G]//Multiple attribute decision making.[S.l.]:Springer,1981:58–191.
[29]Newman M E.Fast algorithm for detecting community structure innetworks[J].Physical review E,2004,69(6):066133.
[30]Greene D,Doyle D,Cunningham P.Tracking the Evolution ofCommunities in Dynamic Social Networks[C]//2010 International Conference onAdvances in Social Networks Analysis and Mining.2010:176–183.
[31]Lancichinetti A,Fortunato S.Benchmarks for testing communitydetection algorithms on directed and weighted graphs with overlappingcommunities[J].Physical review.E,Statistical,nonlinear,and soft matterphysics,2009,80:016118.
[32]Leskovec J,Jure,Kleinberg,et al.Graphs over time:densificationlaws,shrinking diameters and possible explanations[C]//.2005.
[33]Klimt B,Yang Y.Introducing the Enron Corpus.[C]//.2004.
Claims (4)
1.一种基于TOPSIS种子扩张的增量式社团检测方法—TSEIA,其特征在于,对于动态网络的第一个快照,使用静态局部社团检测算法TSELA检测其社团结构;从第二个快照开始,首先检测当前快照的活跃顶点集,然后对活跃顶点集构建子图并使用静态局部社团检测算法TSELA提取子图的初始社团结构;此时,得到了包含网络所有顶点的两部分社团,分别为活跃顶点子图上检测到的社团以及非活跃顶点所在社团;最终将可能同属于一个社团的子社团进行合并,得到当前快照的最终社团结构;对每一快照重复执行上述操作,即可提取出随时间演化的动态网络中的所有社团结构;其总体框架如算法1所示,具体为:
1)使用TSELA算法得到t=1时刻网络的社团结构:
CS1←TSELA(G1(V1,E1),K,C,w)
2)使用ActiveNode算法检测t时刻网络中的活跃顶点(t≥2),得到活跃顶点集合Vt act:Vt act←ActiveNode(Gt,Gt-1,θ,η)
6)Return CSt
7)重复执行步骤2-6,直到检测出网络所有快照的社团结构;
2.根据权利要求1所述的一种基于TOPSIS种子扩张的增量式社团检测方法—TSEIA,其特征在于,所述步骤2,即检测当前时刻网络的活跃顶点集的实现算法—算法2具体为:
2)若(vm,vn)在社团CSt-1中是属于社团间的边,则将其全部加入活跃顶点集合:
If CSt-1.index(vm)≠CSt-1.index(vn)then
Vt act←Vt act∪{vm}
Vt act←Vt act∪{vn}
3)若边(vm,vn)含有新增的顶点,则将其全部加入活跃顶点集合:
If vm∈Vt add or vn∈Vt add then
Vt act←Vt act∪{vm}
Vt act←Vt act∪{vn}
5)若边(vp,vq)在社团CSt-1中是属于社团内的边,并且边对应的顶点未消失,则将其全部加入活跃顶点集合:
If CSt-1.index(vp)=CSt-1.index(vq)and vp∈Vt and vq∈Vt then
Vt act←Vt act∪{vp}
Vt act←Vt act∪{vq}
6)Return{Vt act};
For vj∈CSj do
If vj∈Vt act then
CSj←CSj-{vj}
CSj←CSj-{vj}
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696488.6A CN113436674B (zh) | 2021-06-23 | 2021-06-23 | 一种基于topsis种子扩张的增量式社团检测方法—tseia |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696488.6A CN113436674B (zh) | 2021-06-23 | 2021-06-23 | 一种基于topsis种子扩张的增量式社团检测方法—tseia |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113436674A CN113436674A (zh) | 2021-09-24 |
CN113436674B true CN113436674B (zh) | 2023-02-17 |
Family
ID=77753529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110696488.6A Active CN113436674B (zh) | 2021-06-23 | 2021-06-23 | 一种基于topsis种子扩张的增量式社团检测方法—tseia |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436674B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107240028A (zh) * | 2017-05-03 | 2017-10-10 | 同济大学 | 复杂网络中基于节点活跃度的非对称社团扩展的重叠社区发现及预测方法 |
CN108492201A (zh) * | 2018-03-29 | 2018-09-04 | 山东科技大学 | 一种基于社区结构的社交网络影响力最大化方法 |
CN108765180A (zh) * | 2018-05-29 | 2018-11-06 | 福州大学 | 基于影响力与种子扩展的重叠社区发现方法 |
CN109493246A (zh) * | 2018-11-22 | 2019-03-19 | 中国矿业大学 | 一种动态社交网络社区演化分析方法及其系统 |
CN109615550A (zh) * | 2018-11-26 | 2019-04-12 | 兰州大学 | 一种基于相似性的局部社团检测方法 |
CN109921921A (zh) * | 2019-01-26 | 2019-06-21 | 复旦大学 | 一种时变网络中时效稳定社团的检测方法和装置 |
CN111861772A (zh) * | 2020-07-15 | 2020-10-30 | 安徽大学 | 一种基于局部结构的密度最大化重叠社团发现方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661482A (zh) * | 2008-08-27 | 2010-03-03 | 国际商业机器公司 | 在网络中识别相似子图的方法和设备 |
US8090665B2 (en) * | 2008-09-24 | 2012-01-03 | Nec Laboratories America, Inc. | Finding communities and their evolutions in dynamic social network |
US8914371B2 (en) * | 2011-12-13 | 2014-12-16 | International Business Machines Corporation | Event mining in social networks |
CN105469315A (zh) * | 2015-08-04 | 2016-04-06 | 电子科技大学 | 基于增量聚类的动态社会网络社团结构演化方法 |
US20180018709A1 (en) * | 2016-05-31 | 2018-01-18 | Ramot At Tel-Aviv University Ltd. | Information spread in social networks through scheduling seeding methods |
CN108509551B (zh) * | 2018-03-19 | 2022-03-01 | 西北大学 | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 |
CN112905656A (zh) * | 2021-01-29 | 2021-06-04 | 重庆理工大学 | 一种融合时序网络的动态社区发现系统 |
CN112905907B (zh) * | 2021-01-29 | 2021-09-28 | 重庆理工大学 | 一种系统进化移植分区时序网络的动态社区发现方法 |
-
2021
- 2021-06-23 CN CN202110696488.6A patent/CN113436674B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107240028A (zh) * | 2017-05-03 | 2017-10-10 | 同济大学 | 复杂网络中基于节点活跃度的非对称社团扩展的重叠社区发现及预测方法 |
CN108492201A (zh) * | 2018-03-29 | 2018-09-04 | 山东科技大学 | 一种基于社区结构的社交网络影响力最大化方法 |
CN108765180A (zh) * | 2018-05-29 | 2018-11-06 | 福州大学 | 基于影响力与种子扩展的重叠社区发现方法 |
CN109493246A (zh) * | 2018-11-22 | 2019-03-19 | 中国矿业大学 | 一种动态社交网络社区演化分析方法及其系统 |
CN109615550A (zh) * | 2018-11-26 | 2019-04-12 | 兰州大学 | 一种基于相似性的局部社团检测方法 |
CN109921921A (zh) * | 2019-01-26 | 2019-06-21 | 复旦大学 | 一种时变网络中时效稳定社团的检测方法和装置 |
CN111861772A (zh) * | 2020-07-15 | 2020-10-30 | 安徽大学 | 一种基于局部结构的密度最大化重叠社团发现方法及系统 |
Non-Patent Citations (3)
Title |
---|
"A Seed-Expanding Method Based on TOPSIS for Community Detection in Complex Networks";Cheng J等;《Complexity》;20200323;全文 * |
"复杂网络中的社团检测方法研究";程建军;《中国博士学位论文全文数据库》;20160315;全文 * |
"社交网络群体行为演化机制研究";刘秋霞;《中国优秀硕士学位论文全文数据库》;20180415;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113436674A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Issa et al. | ASCA-PSO: Adaptive sine cosine optimization algorithm integrated with particle swarm for pairwise local sequence alignment | |
Singh et al. | Performance evaluation of k-means and heirarichal clustering in terms of accuracy and running time | |
Bortner et al. | Progressive clustering of networks using structure-connected order of traversal | |
CN106886524A (zh) | 一种基于随机游走的社会网络社区划分方法 | |
CN105183796A (zh) | 一种基于聚类的分布式链路预测方法 | |
CN106845536B (zh) | 一种基于图像缩放的并行聚类方法 | |
Zhou et al. | A density based link clustering algorithm for overlapping community detection in networks | |
CN110838072A (zh) | 一种基于社区发现的社交网络影响力最大化方法及系统 | |
Chen et al. | Differentiated graph regularized non-negative matrix factorization for semi-supervised community detection | |
Ben HajKacem et al. | STiMR k-means: an efficient clustering method for big data | |
CN108614932B (zh) | 基于边图的线性流重叠社区发现方法、系统及存储介质 | |
Kanj et al. | Shared nearest neighbor clustering in a locality sensitive hashing framework | |
CN113436674B (zh) | 一种基于topsis种子扩张的增量式社团检测方法—tseia | |
CN103902547A (zh) | 一种基于mdl的增量式动态社区快速发现方法及系统 | |
Peng et al. | Predicting protein functions by using unbalanced bi-random walk algorithm on protein-protein interaction network and functional interrelationship network | |
CN110706743A (zh) | 一种平衡采样与图检索的蛋白质互作网络模体检测方法 | |
Lopez et al. | Extracting biological knowledge by fuzzy association rule mining | |
Xu et al. | An iterative neighborhood local search algorithm for capacitated centered clustering problem | |
CN105354243B (zh) | 基于归并聚类的并行化频繁概率子图搜索方法 | |
O'Connor et al. | Biclustering using message passing | |
Zhu et al. | Community mining in complex network based on parallel genetic algorithm | |
Long et al. | A unified community detection algorithm in large-scale complex networks | |
CN112733926A (zh) | 一种基于半监督的多层网络聚类方法 | |
Toujani et al. | Optimal initial partitionning for high quality hybrid hierarchical community detection in social networks | |
Mythili et al. | Research Analysis on Clustering Techniques in Wireless Sensor Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |