CN104657418A - 一种基于隶属度传播的复杂网络模糊社团挖掘方法 - Google Patents
一种基于隶属度传播的复杂网络模糊社团挖掘方法 Download PDFInfo
- Publication number
- CN104657418A CN104657418A CN201410801991.3A CN201410801991A CN104657418A CN 104657418 A CN104657418 A CN 104657418A CN 201410801991 A CN201410801991 A CN 201410801991A CN 104657418 A CN104657418 A CN 104657418A
- Authority
- CN
- China
- Prior art keywords
- corporations
- node
- membership
- degree
- seed node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005540 biological transmission Effects 0.000 title abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 26
- 230000000644 propagated effect Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 230000006854 communication Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 241000238876 Acari Species 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000005457 optimization Methods 0.000 description 8
- 235000005156 Brassica carinata Nutrition 0.000 description 7
- 244000257790 Brassica carinata Species 0.000 description 7
- 238000005065 mining Methods 0.000 description 7
- 238000009412 basement excavation Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 241001481833 Coryphaena hippurus Species 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001632422 Radiola linoides Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于隶属度传播的复杂网络模糊社团挖掘方法,首先,建立社团种子节点的选取框架,以社团种子节点的基本特征为依据,确定种子节点选取的测试顺序;然后,根据真实世界中各种复杂网络的客观规律,构建网络节点之间的隶属度传播模型,该模型将种子节点的社团隶属度传播至非种子节点;在此基础上,以优化社团划分结果的模块度为目标,确定社团种子节点的选取准则;最后,当社团种子节点选取完毕后,通过调整节点社团属性以及合并社团的方式,对模块度进行进一步优化,并修正各节点的社团隶属度,得到最终的模糊社团挖掘结果。本发明在稳定性、鲁棒性、有效性方面具有一定优势;该方法具备在计算开销与整体性能之间进行折衷的灵活性。
Description
技术领域
本发明涉及复杂网络、社团检测和模糊聚类,特别是涉及复杂网络中的模糊社团挖掘,具体地说是一种基于隶属度传播的复杂网络模糊社团挖掘方法。
背景技术
节点的聚集现象是复杂网络拓扑结构的重要特性,近十年以来,网络中的社团结构分析成为了复杂网络科学领域的前沿研究热点之一。人们发现,真实世界中的复杂网络常常可以被划分为若干个社团。在同一社团内部,节点之间连接紧密,而属于不同社团的节点之间则连接稀疏。发现网络中的社团,可以揭示网络的宏观拓扑结构,从而能够对不同领域的各种应用起到重要的支撑作用。当前对于网络社团挖掘算法的研究,主要发源于美国密歇根大学的Girvan与Newman,他们提出了一个广泛应用的社团划分质量模块度函数(modularity)。模块度含义下的社团是一个子图,且该子图中的内部边的数量,应该大于该子图的随机模型所产生的边的数量。模块度通常表示为Q,其定义如下:
其中,wij为节点vi和vj之间的边eij的权重,为网络中所有边的权重之和,deg(vi)是节点vi的度;Ci表示vi所属的社团,δ(μ,υ)表示冲激函数,当μ=υ时取值为1,否则取值为0。上式标明,若社团的内部边的数量小于该其随机模型所产生的边的数量,则模块度受到惩罚。模块度的值介于0到1之间,越大则表明网络具有越显著的社团结构。
在目前众多的网络社团挖掘算法中,标签传播和模块度优化是两类最为流行的方法。标签传播利用信息扩散理论进行社团检测,认为节点的社团属性由其邻居节点的社团属性所决定。这一基本思想直观、易与理解,且现实情况相符。然而,在标签传播算法中,节点的社团属性仅考虑了其邻居节点的因素,损失了大量的网络拓扑信息,导致其性能的稳定性较差。当模块度成为广泛接受的网络社团划分质量度量指标后,网络社团挖掘常常被转化为对模块度的优化问题。虽然模块度函数存在分辨率限制的问题,但在实际应用中仍然取得了巨大成功。基于模块度优化的社团挖掘方法,是目前最为流行、应用最为广泛的网络社团挖掘算法之一,具有较强的鲁棒性和较高的检测质量。然而,模块度优化方法缺乏直观的物理意义。
网络中往往存在着社团重叠的现象,即许多节点可以同时归属于多个社团。例如,在社交网络中,人们可以同时属于他们的亲属圈、朋友圈、工作关系圈、兴趣爱好圈等等;在计算机网络中,网关往往也可视为各个子网的共有节点。网络重叠社团的挖掘,是近几年来网络社团检测领域的热点问题,受到了广泛关注。由社团重叠所衍生出的更为严格的问题,是量化网络节点属于某社团的程度,即模糊社团挖掘。假设网络中存在c个社团,则将节点v属于每个社团的程度定义为c维向量u,称之为节点v的隶属度(membership-degree)向量,其第k个分量反映了节点v属于第k个社团Ck的程度或可能性。隶属度向量u应满足如下约束:
u[k|k=1,2,…,c]∈[0.0,1.0]且
在进行网络社团的无重叠划分时,则考虑隶属度向量中的最大分量,当:时,认为节点v属于社团Cl。
目前,国内外关于模糊社团挖掘的方法尚不多,且这些方法大多需要关于网络社团结构的先验知识或算法的相关参数,如基于模糊聚类的算法、基于节点相似度的算法、有界非负矩阵三分解算法、基于粒子群的算法等,使其应用范围受到了较大限制。另外,相关学者提出了几种基于模块度扩展的模糊社团模块度函数。然而,目前在模糊社团挖掘的质量评价方面,尚不存在广为接受的统一方法。
另外,国内外不少学者经研究发现,网络社团中常常存在核心节点或种子节点,其相关先验有助于社团检测。美国宾夕法尼亚州立大学的Raghavan等认为,在标签传播过程中保持核心节点的标签不变,将大大提升标签传播算法的性能。2011年,斯洛文尼亚卢布尔雅那大学的等提出了一种保守与扩张策略相结合的标签传播算法,用于发现社团中的核心节点。2013年,大连理工大学的王兴元等提出了一种基于核心节点的社团检测方法,他们认为核心节点最为显著的特征是相对邻居节点而言的最大连接数量。
发明内容
本发明要解决的技术问题为:将标签传播与模块度优化这两类流行的社团挖掘方法的基本思想相结合,在相邻的节点之间传播隶属度,充分利用网络的整体拓扑结构,克服标签传播算法的网络拓扑信息损失问题;在模块度优化的监督下进行社团种子节点的自动选取,在确保高质量社团划分的前提下,突破现有模糊社团挖掘方法依赖先验、需要进行参数调优的限制。
为了完成发明目的,本发明解决上述技术问题采用的技术方案是:基于隶属度传播的模糊社团挖掘算法MDP(Membership-Degree Propagation),实现步骤如下:
步骤(1)、建立社团种子节点的选取框架,以社团种子节点的基本特征为依据,确定种子节点选取的测试顺序;
步骤(2)、根据真实世界中各种复杂网络的客观规律,构建网络节点之间的隶属度传播模型,在传播过程中,社团种子节点的隶属度向量保持不变,而非种子节点的隶属度向量则进行迭代更新,通过这种方式,将种子节点的社团隶属度传播至非种子节点;
步骤(3)、在此基础上,以优化社团划分结果的模块度为目标,确定社团种子节点的选取准则,即:若某节点被标记为种子节点后,社团划分结果的模块度没有减小,则将该节点接受为新的种子节点;
步骤(4)、当社团种子节点选取完毕后,通过调整节点社团属性以及合并社团的方式,对模块度进行进一步优化,并修正各节点的社团隶属度,得到最终的模糊社团挖掘结果。
其中,所述步骤(1)中确定社团种子节点选取的测试顺序的过程为:社团种子的度通常较大,并且往往大于其邻居节点的度;根据这一基本特征,在社团种子节点的选取过程中,按照度从大到小的顺序测试节点是否为种子节点;对于同度节点,则考虑其邻居节点度之和,即按照邻居节点度之和从小到大的顺序进行测试。
其中,所述步骤(2)中隶属度传播的过程为:社团种子节点的隶属度向量保持不变,而非种子节点的隶属度向量则进行迭代更新;在每次更新计算中,根据边的权重,将非种子节点的隶属度向量取为其邻居节点的隶属度向量的加权平均;当所有非种子节点的隶属度向量收敛至稳定状态时,传播过程结束。
其中,所述步骤(3)中社团种子节点选取的过程为:根据步骤(1)中确定的社团种子节点选取的测试顺序,将节点逐一标记为种子节点;将某节点标记为种子节点后,进行隶属度传播,并将传播结果转化为非重叠社团划分结果;然后利用模块度对该划分结果进行评价,若模块度减小,则将该节点重新标记为非种子节点;每当接受一个新的种子节点后,还需对已有种子节点进行筛选。
其中,所述步骤(4)中对模块度进行进一步优化的过程为:该过程分为两个阶段;第一阶段,通过调整节点的社团属性对模块度进行优化,在该阶段,若某社团最终消失,则将各节点隶属度向量的对应分量删除,并将该社团的种子节点的隶属度向量取为其邻居节点的隶属度向量的加权平均;第二阶段,通过合并两个社团对模块度进行优化,在该阶段,若两个社团合并,则将各节点隶属度向量的这两个对应分量相加合并。
本发明与现有技术相比的优点在于:
(1)本发明的隶属度传播模型,充分利用了网络的整体拓扑信息,克服了标签传播算法的拓扑信息损失问题,从而能够获得合理的各节点隶属度向量。
(2)本发明的社团种子节点选取框架,在模块度的指导下,能够自动获得网络中的社团种子节点,同时确保社团划分的质量。
(3)本发明的社团种子节点选取顺序,考虑了社团种子节点的基本特征,有效地支持了种子节点的准确、快速选取。
(4)本发明提出的模糊社团挖掘算法,不依赖社团结构的相关先验,不需要进行参数调优,突破了现有技术所通常受到的限制。
(5)本发明提出的模糊社团挖掘算法,在稳定性、鲁棒性、以及各种评价指标方面,与现有技术相比均具有优势。
附图说明
图1是本发明的总体设计图;
图2是本发明隶属度传播的示意图,其中,图2(a)为Karate网络隶属度传播前的初始化状态,图2(b)为隶属度传播过程中第1次迭代后的状态,图2(c)为隶属度传播过程中第5次迭代后的状态,图2(d)为Karate网络隶属度传播的最终结果;
图3是本发明在真实网络上非重叠社团挖掘结果的示意图,其中,图3(a)为Euroroad网络的非重叠社团挖掘结果,图3(b)为Netsci网络的非重叠社团挖掘结果;
图4是本发明与其它先进算法在基准网络上的NMI性能对比,其中,图4(a)为小规模LFR基准网络上的对比结果,图4(b)为大规模LFR基准网络上的对比结果;
图5是本发明与其它先进算法在基准网络上的Fuzzy Rand Index性能对比,其中,图5(a)为混合参数0.1、平均节点度12的性能对比,图5(b)为混合参数0.1、平均节点度24的性能对比,图5(c)为混合参数0.3、平均节点度12的性能对比,图5(d)为混合参数0.3、平均节点度24的性能对比。
具体实施方式
下面结合附图对本发明作详细说明。
参阅图1本发明的总体设计图,本发明首先根据社团种子节点的度通常较大且往往大于其邻居节点的度这一基本特征,确定种子节点的选取顺序:按照度从大到小的顺序测试节点是否为种子节点,对于同度节点,则考虑其邻居节点度之和,即按照邻居节点度之和从小到大的顺序进行测试。因此,将网络中的所有节点排序为V={vi},该排序满足:
deg(vi)≥deg(vi+1)且deg2(vi)≤deg2(vi+1)
deg2(vi)为节点vi的邻居节点度之和,即:
其中N{vi}为节点vi的邻居节点集合。MDP继承了标签传播方法的基本思想,认为节点的社团属性取决于其邻居节点。但与标签传播不同的是,MDP在相邻节点间传播隶属度。本发明认为节点vi的隶属度向量应为其邻居节点隶属度向量的加权平均,即:
同时,本发明认为社团Ck的种子节点,其隶属度向量的第k个分量的值为1.0,而其它分量均为0.0。在隶属度传播过程中,种子节点的隶属度向量保持不变,而非种子节点的隶属度向量则根据上式迭代更新。随着迭代更新的进行,非种子节点的隶属度向量将逐渐收敛,直至:
Δu=max((|ui-u'i|)|vi∈V)<εs
满足时,迭代停止。其中,u'i是节点vi在本次迭代之前的隶属度向量,|·|表示向量的模,εs是预设的误差阈值(足够小)。在每次迭代中,首先更新社团种子节点的一阶邻居节点的隶属度向量,然后更新二阶邻居节点,以此类推,直至网络中的所有节点均已被访问。这种更新顺序能够避免无效计算,加速算法收敛。
参阅图2对网络分析领域中经典数据集Karate的隶属度传播过程的可视化。首先,假设网络中存在2个社团,在初始化时,取白色节点和黑色节点为种子节点,将其隶属度向量分别初始化为(1.0,0.0)和(0.0,1.0),而将非种子节点的隶属度向量初始化为(0.5,0.5),如图2(a)所示;然后,根据进行隶属度传播,并根据非种子节点的隶属度向量设置其灰度值,以呈现非种子节点隶属度向量的变化情况。图2(c)和图2(c)分别给出了迭代1次和5次后的状态,经过12次迭代后,Δu<εs(本例中εs=10-4),隶属度传播结束。传播结果如图2(c)所示,其中的虚线表示最终的无重叠社团划分结果,该结果与Karate俱乐部成员的真实划分情况完全一致。并且,根据节点的隶属度向量可以发现,实线框中的节点具有非常接近的隶属度分量(0.508,0.492),因而是一个典型的公共节点。
MDP对于种子节点的选取,是在模块度优化的监督下进行的。基于一组社团种子节点,通过隶属度传播计算可以获得一个无重叠社团划分结果,该划分结果的质量能够通过模块度进行衡量。因此,本发明种子节点选取的目标是使其产生的无重叠社团划分结果对应的模块度最大化。简言之,测试一个节点是否为社团种子节点,即判断将该节点取为社团种子节点后,无重叠社团划分结果对应的模块度是否增大。
每当发现一个新的种子节点后,需要对已有种子节点执行一次筛选过程。该过程对当前的所有种子节点进行逐个校验,以检测是否存在一些种子节点,将其重新标记为普通节点能够增大非重叠社团划分的模块度。若存在,则将使模块度增大最多的种子节点重新标记为普通节点;重复上述校验过程,直至此类种子节点消失。该步骤不仅能够进一步优化模块度,最重要的作用是消除了之前所选取的不好的种子节点对后续种子节点选取产生的影响。
本发明利用节点度阈值degs设置种子点选取的终止条件。当V中尚未经过测试的节点的度均小于degs时,社团种子节点选取过程结束。在社团种子节点选取过程结束以后,对模块度进行进一步优化。优化过程分为两个阶段;第一阶段,通过调整节点的社团属性对模块度进行优化,在该阶段,若某社团最终消失,则将各节点隶属度向量的对应分量删除,并将该社团的种子节点的隶属度向量取为其邻居节点的隶属度向量的加权平均;第二阶段,通过合并两个社团对模块度进行优化,在该阶段,若两个社团合并,则将各节点隶属度向量的这两个对应分量相加合并。
为了证明本发明在网络社团挖掘方面的能力,一方面,本发明对比了MDP与当今5种先进算法在非重叠社团挖掘方面的性能,包括美国麻省理工学院的Sobolevsky等2014年提出的Combo算法、比利时鲁汶大学的Blondel等2008年提出的LUV、美国新墨西哥大学的Clauset等2004年提出的GMO、美国宾夕法尼亚州立大学的Raghavan等2007年提出的LPA、上海交通大学的楼昊等2013年提出的CNPELAP。对于社团结构未知的真实网络,通常利用模块度对其非重叠社团划分的质进行度量。因此,对比算法在真实网络上得到的模块度,是比较其性能优劣的主要方式。本实验的数据包括Karate、Dolphin、Lesmis(加权网络)、Polbook、Football、Netsci(加权网络)、Email、Euroroad、Amazon、Powergrid、WordNet、PGP等,涵盖了网络通信、社交网络、电子商务、基础设施网络等广泛领域。在本实验中,仅考虑这些网络中的最大子图。
各算法对上述网络的社团检测结果如表1所示。其中,n和m分别表示网络中节点和边的数量,c和Q分别表示算法检测到的社团数量以及获得的模块度指标。考虑到算法的不确定性,测试中对各算法在每个数据集上均进行了10次随机重复测试,表1中显示的是其测试结果中的最优模块度及其对应的社团数量。在12个数据集中,MDP、Combo和LUV算法分别得到了7、7、4个最高模块度指标。在多次重复实验中,对于deg和deg2均相同的节点,随机地改变其在种子节点选取过程中的测试顺序,MDP算法的结果并未发生变化。因此,本实验的结果充分表明了本发明提出的基于隶属度传播的模糊社团检测算法MDP,能够高质量、稳定地对真实网络进行非重叠社团划分。参阅图3(a)和图3(b)中对MDP算法在两个典型真实网络Euroroad和Netsci(无权和加权)非重叠社团挖掘结果的可视化,其中属于同一社团的节点位于曲线包围的同一个闭合区域内,边的宽度与其权重成正比。
表1 真实网络中非重叠社团挖掘结果对比(c/Q)
数据集 | n | m | MDP | Combo | LUV | GMO | LPA | CNPELPE |
Karate | 34 | 78 | 4/0.4198 | 4/0.4198 | 4/0.4198 | 3/0.3807 | 4/0.4156 | 2/0.3718 |
Dolphin | 62 | 159 | 5/0.5276 | 4/0.5268 | 5/0.5241 | 4/0.4955 | 4/0.5268 | 3/0.4833 |
Lesmis | 77 | 254 | 6/0.5619 | 6/0.5619 | 6/0.5619 | 5/0.5006 | 7/0.5580 | 2/0.3916 |
Polbook | 105 | 441 | 4/0.5269 | 5/0.5272 | 4/0.5208 | 4/0.5020 | 4/0.5262 | 3/0.4600 |
Football | 155 | 613 | 10/0.6046 | 10/0.6046 | 10/0.6046 | 7/0.5773 | 10/0.6046 | 8/0.6007 |
Netsci | 379 | 914 | 20/0.8506 | 21/0.8503 | 19/0.8500 | 19/0.8374 | 42/0.8125 | 16/0.7994 |
Euroroad | 1039 | 1305 | 22/0.8722 | 23/0.8752 | 24/0.8697 | 23/0.8630 | 77/0.8153 | 54/0.8316 |
1133 | 5451 | 9/0.5766 | 9/0.5815 | 10/0.5507 | 13/0.5130 | 22/0.5477 | 1/0 | |
Amazon | 2879 | 3886 | 12/0.6957 | 13/0.6965 | 13/0.6961 | 10/0.6685 | 15/0.6942 | 1/0 |
Powergrid | 4941 | 6594 | 40/0.9389 | 38/0.9384 | 38/0.9370 | 41/0.9341 | 491/0.8100 | 259/0.8633 |
Wordnet | 8567 | 9735 | 69/0.8817 | 51/0.8772 | 73/0.8830 | 74/0.8828 | 1024/0.7765 | 396/0.8416 |
PGP | 10680 | 24316 | 93/0.8832 | 85/0.8795 | 109/0.8812 | 196/0.8521 | 948/0.8155 | 203/0.7400 |
本发明采用Lancichinetti等提出的非重叠LFR基准网络,对比各算法针对社团结构已知的计算机合成网络进行非重叠社团挖掘的性能,并采用西班牙巴塞罗那大学的Danon等提出的标准化互信息NMI作为质量评价指标。NMI的值介于0到1之间,越大则表明挖掘结果越准确。测试中,网络规模分别取n=1000和n=5000,分别称其为小规模和大规模LFR基准网络,混合参数μ从0.1增加至0.8,间隔为0.1。参阅图4中MDP与其它算法在基准网络上的NMI性能对比,在小规模LFR基准网络上,如图4(a)所示,MDP算法的表现明显优于其它算法。在大规模LFR基准网络上,如图4(b)所示,当μ较小时,MDP算法的性能略逊于标签传播算法,但当μ较大时,标签传播算法的准确率急剧下降,而MDP则下降较为缓慢。因此,本实验的结果充分表明了MDP算法在合成网络上较鲁棒性较强的非重叠社团检测能力。
另一方面,本发明对比了MDP与当今2种先进算法在模糊社团挖掘方面的性能,包括英国牛津大学的Psorakis等2011年提出的NMF算法、香港科技大学的张宇等2012年提出的BNMTF。其中NMF算法不依赖先验知识与相关参数,而BNMTF则需要预先给定网络中社团数量的上限值cmax。由于这两种算法的空间复杂度和时间复杂度都较高,因此本实验仅在较小的网络上进行,并将cmax取值为略大于表1中最好结果对应的社团数量。对于真实网络,测试中采用密歇根理工大学的Havens等2013年提出的柔性模块度Qg作为模糊社团检测结果的质量评价指标。考虑到这两种算法的不确定性,测试中对各算法在每个数据集上均进行了10次重复测试,表2中显示的是其测试结果中Qg的最大值及其对应的社团数量。
表2 真实网络中模糊社团挖掘结果对比(c/Qg)
算法 | Karate | Dolphin | Lesmis | Polbook | Football | Netsci | Euroroad |
MDP | 4/0.3413 | 5/0.3998 | 6/0.4376 | 4/0.4155 | 9/0.3459 | 20/0.6555 | 22/0.6766 |
NMF | 5/0.1945 | 6/0.4275 | 9/0.4367 | 8/0.4594 | 8/0.4242 | 72/0.5948 | 182/0.3618 |
BNMTF | 3/0.1491 | 2/0.3627 | 5/0.3234 | 5/0.4248 | 2/0.3273 | 22/0.2024 | 25/0.353 |
本发明采用英国布里斯托大学的Gregory等2011年提出的将重叠LFR基准网络转换为模糊社团形式的方法,对比各算法针对社团结构已知的计算机合成网络进行模糊社团挖掘的性能,并采用Hullermeier等提出的模糊随机指标(Fuzzy Rand Index)作为质量评价指标。该指标的取值范围为0到1,其值越大,表明算法得到的节点隶属度向量越合理。测试中,取基准网络的规模为n=500,cmax=50(略大于基准网络中的真实社团数量),μ∈{0.1,0.3},平均节点度〈k〉∈{12,24},重叠社团间公共节点的比例从0.1增加至1。参阅图5中MDP与其它算法在具有不同混合参数和平均节点度的基准网络上的Fuzzy Rand Index性能对比,MDP算法在基准网络上的模糊社团检测性能明显优于对比算法。
综上所述,本发明提出的模糊社团挖掘算法,不依赖社团结构的相关先验,不需要进行参数调优,并且在稳定性、鲁棒性、以及各种评价指标方面,与现有技术相比均具有优势。
本发明未详细阐述部分属于本领域技术人员的公知技术。
以上所述仅为本发明的一些基本说明,依据本发明的技术方案所做的任何等效变换,均应属于本发明的保护范围。
Claims (7)
1.一种基于隶属度传播的复杂网络模糊社团挖掘方法,其特征在于实现步骤如下:
步骤(1)、建立社团种子节点的选取框架,以社团种子节点的基本特征为依据,确定种子节点选取的测试顺序;
步骤(2)、根据真实世界中各种复杂网络的客观规律,构建网络节点之间的隶属度传播模型,在传播过程中,社团种子节点的隶属度向量保持不变,而非种子节点的隶属度向量则进行迭代更新,通过这种方式,将种子节点的社团隶属度传播至非种子节点;
步骤(3)、在此基础上,以优化社团划分结果的模块度为目标,确定社团种子节点的选取准则,即:若某节点被标记为种子节点后,社团划分结果的模块度没有减小,则将该节点接受为新的种子节点;
步骤(4)、当社团种子节点选取完毕后,通过调整节点社团属性以及合并社团的方式,对模块度进行进一步优化,并修正各节点的社团隶属度,得到最终的模糊社团挖掘结果。
2.根据权利要求1所述的基于隶属度传播的复杂网络模糊社团挖掘方法,其特征在于:所述步骤(1)中确定社团种子节点选取的测试顺序的过程为:社团种子节点的度通常较大,并且往往大于其邻居节点的度,根据这一基本特征,在社团种子节点的选取过程中,按照度从大到小的顺序测试节点是否为种子节点,对于同度节点,则考虑其邻居节点度之和,即按照邻居节点度之和从小到大的顺序进行测试。
3.根据权利要求1所述的基于隶属度传播的复杂网络模糊社团挖掘方法,其特征在于:所述步骤(2)中隶属度传播的过程为:社团种子节点的隶属度向量保持不变,而非种子节点的隶属度向量则进行迭代更新,当所有非种子节点的隶属度向量收敛至稳定状态时,传播过程结束。
4.根据权利要求3所述的基于隶属度传播的复杂网络模糊社团挖掘方法,其特征在于:所述步骤(2)中非种子节点隶属度向量迭代更新的实现为:在每次更新计算中,根据边的权重,将非种子节点的隶属度向量取为其邻居节点的隶属度向量的加权平均。
5.根据权利要求1所述的基于隶属度传播的复杂网络模糊社团挖掘方法,其特征在于:所述步骤(3)中社团种子节点的选取准则为:将某节点标记为种子节点,并进行隶属度传播,然后将传播结果转化为非重叠社团划分结果;利用模块度对该划分结果进行评价,若模块度减小,则将该节点重新标记为非种子节点。
6.根据权利要求1所述的基于隶属度传播的复杂网络模糊社团挖掘方法,其特征在于:所述步骤(3)中社团种子节点的选取准则还包括:每当接受一个新的种子节点后,需对已有种子节点进行筛选。
7.根据权利要求1所述的基于隶属度传播的复杂网络模糊社团挖掘方法,其特征在于:所述步骤(4)中对模块度进行进一步优化的过程分为两个阶段:第一阶段,通过调整节点的社团属性对模块度进行优化,在该阶段,若某社团最终消失,则将各节点隶属度向量的对应分量删除,并将该社团的种子节点的隶属度向量取为其邻居节点的隶属度向量的加权平均;第二阶段,通过合并两个社团对模块度进行优化,在该阶段,若两个社团合并,则将各节点隶属度向量的这两个对应分量相加合并。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410801991.3A CN104657418B (zh) | 2014-12-18 | 2014-12-18 | 一种基于隶属度传播的复杂网络模糊社团挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410801991.3A CN104657418B (zh) | 2014-12-18 | 2014-12-18 | 一种基于隶属度传播的复杂网络模糊社团挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104657418A true CN104657418A (zh) | 2015-05-27 |
CN104657418B CN104657418B (zh) | 2018-01-19 |
Family
ID=53248546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410801991.3A Active CN104657418B (zh) | 2014-12-18 | 2014-12-18 | 一种基于隶属度传播的复杂网络模糊社团挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104657418B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106301888A (zh) * | 2016-07-27 | 2017-01-04 | 西安电子科技大学 | 基于核节点和社区融合策略的网络社区划分方法 |
CN106503473A (zh) * | 2016-11-15 | 2017-03-15 | 成都信息工程大学 | 基于动态优化模糊模式算法的医疗数据不确定性分析方法 |
CN107133877A (zh) * | 2017-06-06 | 2017-09-05 | 安徽师范大学 | 网络中重叠社团的挖掘方法 |
CN107743070A (zh) * | 2016-08-12 | 2018-02-27 | 华为技术有限公司 | 一种双属性网络的社群划分方法及装置 |
CN109190204A (zh) * | 2018-08-15 | 2019-01-11 | 贵州大学 | 一种基于复杂网络的复杂机械产品模块划分方法 |
CN109241990A (zh) * | 2018-07-19 | 2019-01-18 | 杭州电子科技大学 | 一种基于多标签传播的三维模型标注方法 |
CN109344259A (zh) * | 2018-07-20 | 2019-02-15 | 西安交通大学 | 一种基于多层划分框架的rdf分布式存储方法 |
CN109726895A (zh) * | 2018-12-04 | 2019-05-07 | 浙江大华技术股份有限公司 | 一种多目标点的任务执行规划方法及装置 |
CN109828998A (zh) * | 2019-01-14 | 2019-05-31 | 中国传媒大学 | 基于核心群体挖掘和意见领袖识别结果的分群方法及系统 |
CN110032682A (zh) * | 2019-04-17 | 2019-07-19 | 腾讯科技(上海)有限公司 | 一种信息推荐列表生成方法、装置及设备 |
CN111030854A (zh) * | 2019-12-04 | 2020-04-17 | 兰州交通大学 | 一种Spark云服务环境下面的复杂网络社团发现方法 |
CN111353551A (zh) * | 2020-03-13 | 2020-06-30 | 广东工业大学 | 一种面向产品装配工艺的非均匀样本均衡化方法及系统 |
CN112215690A (zh) * | 2020-09-08 | 2021-01-12 | 北京数美时代科技有限公司 | 基于多关联网络的黑产团伙分析方法、装置、计算机设备 |
CN112446634A (zh) * | 2020-12-03 | 2021-03-05 | 兰州大学 | 一种社交网络中影响力最大化节点的探测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130144990A1 (en) * | 2010-03-05 | 2013-06-06 | Zte Corporation | Configuration method and system of complex network and configuration and management module of server resources |
CN103425738A (zh) * | 2013-07-03 | 2013-12-04 | 西安理工大学 | 基于模糊合作博弈的网络重叠社区发现方法 |
CN104199852A (zh) * | 2014-08-12 | 2014-12-10 | 上海交通大学 | 基于节点隶属度的标签传播社团结构挖掘方法 |
-
2014
- 2014-12-18 CN CN201410801991.3A patent/CN104657418B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130144990A1 (en) * | 2010-03-05 | 2013-06-06 | Zte Corporation | Configuration method and system of complex network and configuration and management module of server resources |
CN103425738A (zh) * | 2013-07-03 | 2013-12-04 | 西安理工大学 | 基于模糊合作博弈的网络重叠社区发现方法 |
CN104199852A (zh) * | 2014-08-12 | 2014-12-10 | 上海交通大学 | 基于节点隶属度的标签传播社团结构挖掘方法 |
Non-Patent Citations (4)
Title |
---|
RONGHUA SHANG等: "Community detection based on modularity and an improved genetic algorithm", 《PHYSICA A: STATISTICAL MECHANICS AND ITS APPLICATIONS》 * |
ZHEN ZHOU等: "Community Detection Based on an Improved Modularity", 《PATTERN RECOGNITION. CCPR 2012. COMMUNICATIONS IN COMPUTER AND INFORMATION SCIENCE》 * |
王佳嘉: "动态复杂网络社区发现算法研究及应用", 《万方数据知识服务平台》 * |
黄宝林: "复杂网络中的重叠社区结构检测算法研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106301888A (zh) * | 2016-07-27 | 2017-01-04 | 西安电子科技大学 | 基于核节点和社区融合策略的网络社区划分方法 |
CN107743070A (zh) * | 2016-08-12 | 2018-02-27 | 华为技术有限公司 | 一种双属性网络的社群划分方法及装置 |
CN107743070B (zh) * | 2016-08-12 | 2021-08-31 | 华为技术有限公司 | 一种双属性网络的社群划分方法及装置 |
CN106503473A (zh) * | 2016-11-15 | 2017-03-15 | 成都信息工程大学 | 基于动态优化模糊模式算法的医疗数据不确定性分析方法 |
CN107133877A (zh) * | 2017-06-06 | 2017-09-05 | 安徽师范大学 | 网络中重叠社团的挖掘方法 |
CN107133877B (zh) * | 2017-06-06 | 2021-02-09 | 安徽师范大学 | 网络中重叠社团的挖掘方法 |
CN109241990A (zh) * | 2018-07-19 | 2019-01-18 | 杭州电子科技大学 | 一种基于多标签传播的三维模型标注方法 |
CN109344259B (zh) * | 2018-07-20 | 2022-02-22 | 西安交通大学 | 一种基于多层划分框架的rdf分布式存储方法 |
CN109344259A (zh) * | 2018-07-20 | 2019-02-15 | 西安交通大学 | 一种基于多层划分框架的rdf分布式存储方法 |
CN109190204B (zh) * | 2018-08-15 | 2022-07-15 | 贵州大学 | 一种基于复杂网络的复杂机械产品模块划分方法 |
CN109190204A (zh) * | 2018-08-15 | 2019-01-11 | 贵州大学 | 一种基于复杂网络的复杂机械产品模块划分方法 |
CN109726895A (zh) * | 2018-12-04 | 2019-05-07 | 浙江大华技术股份有限公司 | 一种多目标点的任务执行规划方法及装置 |
CN109726895B (zh) * | 2018-12-04 | 2021-02-26 | 浙江大华技术股份有限公司 | 一种多目标点的任务执行规划方法及装置 |
CN109828998A (zh) * | 2019-01-14 | 2019-05-31 | 中国传媒大学 | 基于核心群体挖掘和意见领袖识别结果的分群方法及系统 |
CN109828998B (zh) * | 2019-01-14 | 2021-05-25 | 中国传媒大学 | 基于核心群体挖掘和意见领袖识别结果的分群方法及系统 |
CN110032682A (zh) * | 2019-04-17 | 2019-07-19 | 腾讯科技(上海)有限公司 | 一种信息推荐列表生成方法、装置及设备 |
CN110032682B (zh) * | 2019-04-17 | 2023-08-11 | 腾讯科技(上海)有限公司 | 一种信息推荐列表生成方法、装置及设备 |
CN111030854A (zh) * | 2019-12-04 | 2020-04-17 | 兰州交通大学 | 一种Spark云服务环境下面的复杂网络社团发现方法 |
US11429070B2 (en) | 2020-03-13 | 2022-08-30 | Guangdong University Of Technology | Inhomogeneous sample equalization method and system for product assembly process |
CN111353551A (zh) * | 2020-03-13 | 2020-06-30 | 广东工业大学 | 一种面向产品装配工艺的非均匀样本均衡化方法及系统 |
CN112215690A (zh) * | 2020-09-08 | 2021-01-12 | 北京数美时代科技有限公司 | 基于多关联网络的黑产团伙分析方法、装置、计算机设备 |
CN112446634B (zh) * | 2020-12-03 | 2021-08-06 | 兰州大学 | 一种社交网络中影响力最大化节点的探测方法及系统 |
CN112446634A (zh) * | 2020-12-03 | 2021-03-05 | 兰州大学 | 一种社交网络中影响力最大化节点的探测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104657418B (zh) | 2018-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104657418A (zh) | 一种基于隶属度传播的复杂网络模糊社团挖掘方法 | |
Guo | Explainable artificial intelligence for 6G: Improving trust between human and machine | |
Biswas et al. | Semidefinite programming based algorithms for sensor network localization | |
Li et al. | Event‐triggered Kalman consensus filter over sensor networks | |
Peng et al. | Optimal network topology for structural robustness based on natural connectivity | |
Deng et al. | Distributed optimisation design with triggers for disturbed continuous‐time multi‐agent systems | |
Li et al. | Functional immunization of networks based on message passing | |
CN104995870A (zh) | 多目标服务器布局确定 | |
CN103020267B (zh) | 基于三角簇多标签传播的复杂网络社区结构挖掘方法 | |
CN104199852A (zh) | 基于节点隶属度的标签传播社团结构挖掘方法 | |
Nguyen et al. | Stochastic dominance in stochastic DCOPs for risk-sensitive applications | |
CN108809697A (zh) | 基于影响力最大化的社交网络关键节点识别方法及系统 | |
CN109816113A (zh) | 基于分布式量子计算机的搜索方法及系统 | |
CN112182306B (zh) | 一种基于不确定图的社区发现方法 | |
CN108966120B (zh) | 一种用于动态集群网络改进的组合三边定位方法及系统 | |
CN104700311B (zh) | 一种社会网络中的邻域跟随社区发现方法 | |
Yeh | A sequential decomposition method for estimating flow in a multi-commodity, multistate network | |
Baldoni et al. | On the solvability of anonymous partial grids exploration by mobile robots | |
CN104156462A (zh) | 基于元胞自动学习机的复杂网络社团挖掘方法 | |
CN105095613A (zh) | 一种基于序列数据进行预测的方法及装置 | |
Janeja et al. | Random walks to identify anomalous free-form spatial scan windows | |
CN109033603B (zh) | 基于源流路径链的智能变电站二次系统仿真方法 | |
Fu et al. | Complexity vs. optimality: Unraveling source-destination connection in uncertain graphs | |
Guidoni et al. | A small world approach for scalable and resilient position estimation algorithms for wireless sensor networks | |
CN109949164A (zh) | 一种基于投资关系网络的重要节点挖掘方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |