CN107240028B

CN107240028B - 一种Fedora系统组件复杂网络中的重叠社区检测方法

Info

Publication number: CN107240028B
Application number: CN201710303329.9A
Authority: CN
Inventors: 程久军; 吴潇; 黄震华; 张长柱; 秦鹏宇; 陈向荣; 杨阳; 廖竞学; 邵剑雨; 尚铮; 米浩
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2020-09-15
Anticipated expiration: 2037-05-03
Also published as: CN107240028A

Abstract

针对目前关于复杂网络演化中重叠社区发现的研究并没有考虑节点个体的动态演化、不均匀活跃度分布和多尺度性(Multi‐scaling)，使得重叠社区不能同时有较高的NMI(NMI，Normalized Mutual Information)和F‐score值等问题，本发明公开一种复杂网络中基于节点活跃度的非对称社团扩展的重叠社区发现及预测方法。首先，定义节点活跃度，将节点活跃度用于重叠社区扩展的目标函数；然后，社区扩展及使用最大社团作为扩展种子；最后，给出基于节点活跃度的非对称社团扩展算法。本发明从根本上提升了复杂网络中的重叠社区的检测准确率，并且对未来重叠社区具有较好的预测能力。

Description

一种Fedora系统组件复杂网络中的重叠社区检测方法

技术领域

本发明涉及复杂网络领域，具体涉及复杂网络中基于节点活跃度的非对称社团扩展的重叠社区发现及预测方法。

背景技术

2005年，Palla等人提出允许节点同时属于多个社区的定义，即允许社区重叠。他们将传统社区发现问题推广为重叠社区发现。为了得到重叠社区，Palla等人基于社区内节点与社区内其他多数节点有连接而不必与所有节点连接的性质，提出了CPM算法(CPM，Clique Percolation Method)。在CPM算法中，首先搜索一种称为k-clique的结构(至少包含k个节点的完全子图且不是任何其他完全子图的子集)，然后寻找相邻的k-clique(共享k-1个节点)，通过将相邻的k-clique合并得到重叠社区。CPM主要解决无向、无权的网络中的重叠社区发现问题，而其扩展方法CPMd和CPMw则分别解决有向的和带权网络中的重叠社区发现问题。然而，CPM的时间复杂度较高且识别准确率较低，对重叠节点的检测能力较差。另外，由于其时间复杂度高，在分析某些大型网络时，CPM运行无法停止。

为了改进重叠社区发现方法，有人提出用边代替节点作为考虑对象，对边进行层级聚类从而得到重叠社区的方法。例如，在Ahn等人提出的linkcomm算法中，首先为节点k的边e_ik和边e_jk定义相似性函数：

其中N_i和N_j表示节点i和j的邻居节点集合。然后将该相似度函数应用于传统的AHC算法，即不断地选择一对相似度最高、以边作为元素的集合进行合并，从而得到以边作为叶节点的树图。在该树图中，通过切除某些分支从而得到重叠社区。linkcomm算法的时间复杂为O(n·k_max)，其中n代表节点数，k_max表示节点的最大度。然而，随机性强的网络存在大量介于社区之间的边，此时相似性函数不能很好匹配社区定义，降低了linkcomm算法的准确率。

从某局部区域开始，采用一定的优化策略进行扩展得到重叠社区是一种有效的方法。Baumes等人提出一种分两步的策略，即首先使用Rank Removal算法按照一定原则对节点排序，再逐步删除排序靠前的节点，直到网络成为多个较小的、不相交的簇核(ClusterCore)。然后以它们为起点，不断添加或删除节点来优化一个局部密度函数，直到函数取值不再增加，得到重叠社区(Iterative Scan算法)。该局部密度函数满足重叠社区的定义，即

其中

是社区内度(等于社区内的边数乘以2)，而

是社区外度(等于社区内的节点与社区外节点的连接总数)。f(c)取值越大，表示社区内的节点连接密度越高于社区内外连接的密度。该方法在扩展的过程中允许删除节点，因而会将连通分量断开。但是该问题在修改后的算法CIS中已被解决。此外，该函数还存在一个重要缺陷，即如果把网络看作整体，该局部密度函数取得理论上的最大值1。该值表示发现了最准确的社区，但实际上没有检测到任何社区。

Lancichinetti等人也提出通过局部扩展和优化目标函数的方法来发现重叠社区，即LFM方法(LFM，Lancichinetti Fortunato Method)。与Baumes的方法不同，LFM随机选择一个未分配至任何社区的节点作为种子，即初始节点集合，且推广原社区目标函数为：

其中指数0<α<1是社区分辨率参数，影响发现社区的大小。α取值越高，社区节点越少。在同一网络中使用不同α，可以构造嵌套重叠社区。LFM在网络随机性低、社区结构易检测时准确率较高，但是会受到随机性增加、重叠程度和重叠多样性等因素的影响。LFM采用随机节点作为种子有一定的盲目性。Lee等人注意到了该问题，提出用最大社团(MaximalClique)作为种子且采用贪心策略来优化LFM的目标函数，从而提出GCE方法(GCE，GreedyClique Expansion)。GCE在随机程度高时，对重叠社区的检测准确率有了很大提高。

除上面讨论的方法外，另一个重要的研究方向是模糊社区发现。该问题假设每个节点可以属于多个社区但隶属社区的程度不同，为所属社区引入了隶属度(BelongingCoefficient)，量化节点对社区的“忠诚度”。此外基于博弈论、演讲者听众交互(Speaker-Listener Interaction)等的重叠社区发现方法也被提出。总体看来，目前对重叠社区发现的研究集中在提高检测准确率和降低运行时间上，忽略了对重叠社区演化的研究。

现有研究主要基于扩展、密度、层级聚类和统计推断等方法实现重叠社区发现，使得重叠社区发现及分析方法客观存在检测准确率低、重叠节点分配错误率高、无法预测重叠社区未来演化等缺陷，缺乏在动态网络环境中实现重叠社区演化分析的方法体系，成为阻碍复杂网络中重叠社区的相关理论和应用发展的瓶颈。

发明内容

本发明目的在于公开一种复杂网络中基于节点活跃度的非对称社团扩展的重叠社区发现及预测方法，对重叠社区发现及预测进行深入系统的研究，从而有效提高重叠社区检测准确率及预测成功率。

本发明的方法技术方案:

本发明大致的方法过程：基于目前关于重叠社区发现的研究并没有考虑节点个体的动态演化、不均匀活跃度分布和多尺度性(Multi-scaling)等问题，给出节点活跃度的相关定义和解析，在此基础上，将节点活跃度用于重叠社区扩展的目标函数，进行社区扩展及使用最大社团作为扩展种子的相关解析，给出基于节点活跃度的非对称社团扩展算法，实现重叠社区发现。

有益效果

本发明方法，针对现实中的复杂网络系统存在高度的动态特性，现有研究主要基于扩展、密度、层级聚类和统计推断等方法实现重叠社区发现，使得重叠社区发现及分析方法客观存在检测准确率低、无法预测重叠社区未来演化等缺陷，缺乏在动态网络环境中实现重叠社区演化分析的方法体系，成为阻碍复杂网络中重叠社区的相关理论和应用发展的瓶颈。本发明研究方法，针对以上问题，从关于节点演化的优先连接机制和多尺度性出发，围绕重叠社区发现及预测这一主线开展研究，给出一种基于节点活跃度的非对称社团扩展的重叠社区发现及预测方法。该方法有效提高了重叠社区检测准确率及预测成功率。本发明从根本上保障了理解各类系统的组织及动态特征。例如，在引文网络中，重叠社区发现及预测有助于找出引文社区即研究领域，预测未来研究领域。本发明研究方法可应用于社会学、生物学、化学、互联网等领域，分析重叠社区演化从而发现有用的信息或知识，具有广阔的应用前景。

附图说明

图1检测到的重叠社区大小

图2检测的重叠社区与真实社区大小之差

图3在LFR图上检测的NMI准确率(O_m＝3,O_n＝10％)

图4在LFR图上检测的NMI准确率(O_m＝5,O_n＝10％)

图5在LFR图上检测的重叠节点准确率(O_m＝3,O_n＝10％)

图6为本发明方法流程图。

图7为算法1流程图。

图8为算法2流程图。

附表说明

表1 LFR基准图的参数及含义

表2在Fedora网络上的重叠社区发现结果

具体实施方式

以下给出若干实施方式对本发明技术方案做进一步说明。

实施方式一

以下对各步骤进行详述。

所述步骤1中，节点活跃度的定义与解析

为了度量节点的活跃程度，本发明对节点适应度模型进行扩展，得到了节点活跃度(Node Vitality)。适应度模型用于对演化网络中不同节点的竞争能力进行度量，从而解释复杂网络的动态演化过程中的多尺度性，即除了高节点有更大的概率建立连接之外，“优质”节点也容易与其他节点创建新的连接，因而拥有较强竞争力。但是，原始的节点适应度是一个固定值，而节点的竞争力应该是变化的。本发明定义节点活跃度为一个与节点i相关联的实值v_i∈[-1,1]，v_i是描述节点i在网络演化中快速创建或删除连接的内在能力并且是可变的。例如，在社交网络中，节点活跃度可能对应一个人快速结交新朋友的社交能力。当v_i>0时，节点i的边有增加的趋势；当v_i<0时，节点i的边有减少的趋势。|v_i|越大表示节点i在未来改变所在重叠社区的可能性越大。

在演化过程中，节点活跃度会影响节点边数即影响节点度k_i的改变。本发明假设网络的演化表示为快照序列

其中，每个快照g_t可以视为一个静态网络g_t(V_t,E_t)(1≤t≤n)，V_t和E_t分别表示快照g_t的节点集合和边集合。因此，通过比较快照g_t-1和g_t和分析k_i的变化，可以得到节点活跃度v_i。在节点适应度模型中，所有节点的k_i服从幂律度分布，则一个节点的k_i随时间的演化由一个与适应度η_i的分布有关的动态指数β(η_i)决定，即：

其中，t表示网络的年龄，t_i表示节点的年龄，m是网络中边数的改变量除以节点个数的改变量。β_i(η_i)∈(0,1)是一个与适应度的分布ρ(η_i)及节点i的适应度η_i相关的指数。如前所述，η_i是一个固定值因而无法表示节点变化后的活跃度。本发明将公式中的β(η_i)改为α(v_i(t))，其中α(·)表示一个节点活跃度的函数。

如果网络是不演化的，即g₁＝…＝g_n，则v_i与η_i正相关。为了简单起见，可以假设α(·)是一个常函数，则v_i(t)＝α^-1(β(η_i))＝u·β(η_i)。u是一个常数，不会影响节点活跃度的比较，因而将它忽略。所以，在一个快照中v_i(t)＝β(η_i)，并对(4)进行适当的变换，得到快照g_t中节点i的活跃度为

其中，m≠0，sgn(·)是一个符号函数。在该公式中，节点i的变化速度k_i(t)可以通过

得到，即比较两个相邻快照中节点i的度。因此，节点活跃度v_i(t)为：

在公式(6)中，如果节点i满足

本发明规定其节点活跃度v_i(t)＝0。还需要指出的是，网络的年龄必须总是大于节点的年龄，即t>t_i。

公式(6)通过比较快照g_t-1和g_t推导出g_t中的活跃度，而无法得到g_t-1中的活跃度。当只有一个静态网络时，无法得到各节点的活跃度；对于快照序列

无法得到g₁中的节点活跃度，此时假设所有节点活跃度为同一个值。对

进行分析时，本发明利用快照索引τ∈{1,2,…,n}作为

的年龄，每个节点第一次出现时所在的快照索引τ_i加1作为节点的年龄，即τ_i+1。

从公式(6)可以看出，当节点的边数改变量越大，活跃度越高。然而，公式(6)不能保证v_i(t)∈[-1,1]。因此，对公式(6)得到的活跃度进行最小-最大归一化(Min-MaxNormalization)，如下

当得到节点活跃度之后，为了找出快照中的活跃节点并对其进行分析，本发明引入一个活跃度阈值v^*∈[0,1]。活跃度满足|v_i|>v^*的节点是活跃节点，其余节点是普通节点。v^*可以根据具体的网络设定。一种直接方法是将快照中所有节点活跃度的平均值作为v^*。

所述步骤2中，利用节点活跃度，组合适应度函数与演化相似度，建立重叠社区扩展的目标函数

适应度函数用于度量一组节点间紧密程度，判断这组节点是否能作为一个重叠社区，是扩展法的重叠社区发现方法中的优化目标函数。一个在LFM(LFM，LancichinettiFortunato Method)和GCE(GCE，Greedy Clique Expansion)中能得到较好结果的适应度函数为：

其中，W_in和W_out分别是重叠社区内部节点之间和内外节点之间的连接数，参数α用于控制所发现重叠社区的大小。该函数假设所有节点活跃度相同，忽略了它们演化趋势不同，使得结果与未来快照不一致，缺乏预测能力。因此，本发明引入演化相似度ρ表示当前重叠社区c_t与其在未来快照中对应的重叠社区c_t+1间的相似度。一个重叠社区除了应具有紧密的内部连接和稀疏的外部连接外，还应具有较高的演化相似度，从而既匹配当前快照又能预测未来状态。为了检测这样的重叠社区，将节点活跃度与适应度函数组合，推导新优化目标函数用于扩展。

首先，借助于随机块模型(SBM，Stochastic Block-Model)，分析适应度函数是如何得到的。一个随机块模型中包含K个块，每个块对应一个社区，每个节点属于其中一个块。然后，定义一个K×K的概率矩阵ψ，其中元素ψ_i,j表示第i个块中的节点与第j个块中的节点的连接概率。通过让矩阵ψ的取值不同，随机块模型可以描述任意类型的网络。基于扩展的社区发现方法等价于用随机块模型拟合一个快照，即推断模型参数K、矩阵ψ和节点到块的分配关系。

因为一次扩展过程只考虑一个节点集合，本发明将当前考虑的节点集合作为一个块

并且将所有其余节点视为另一个块

简化了块数K＝2。块

被初始化为某个初始节点集合即种子，扩展完成后，

作为一个重叠社区。此时，随机块的概率矩阵ψ为

其中，ξ₁₁和ξ₂₂分别表示块

和

中的任意两节点间的连接概率，ξ₁₂表示

和

之间节点的连接概率。根据社区的定义，ξ₁₁应该较大而ξ₁₂应该较小，ξ₂₂对于

是否对应重叠社区没有影响，可以忽略。比值ξ₁₁/ξ₁₂的大小可以检验块

成为一个重叠社区的程度。比值越大表示

越有资格成为重叠社区。

现在，ξ₁₁和ξ₁₂是未知的且块

是初始状态，必须通过扩展

来估计ξ₁₁和ξ₁₂，从而发现

所对应的重叠社区。参数ξ₁₁可以用当前节点集合的内部节点之间的边概率的期望估计如下

其中，i和j分别代表

中的一个节点，p_ij代表i和j之间的边概率，n是块

中的节点个数，W_in是节点集合内边的总数。实际上，公式(10)假设节点集合内的一对节点产生边的概率相同。类似地，ξ₁₂可以估计为

其中，i和j分别代表代表

和

中的节点，m代表块

中的节点个数，W_out代表介于

和

之间的边数。由于大多数网络是稀疏的，可以认为n≈m从而用n²代替n·m。现在，比值ξ₁₁/ξ₁₂能够度量

是否能作为一个重叠社区，因而可以作为优化目标函数。为了使扩展可以用参数控制，一种更好的方法是将ξ₁₁/ξ₁₂带入函数f(x)＝x/(1+x)^α，即

即在LFM和GCE方法中所采用的适应度函数。

为了得到考虑了节点活跃度的适应度函数，本发明给随机块模型中的节点定义演化相似度ρ_i，描述

或

中的节点出现在

中的概率。因此，节点i的演化相似度为

其中，

表示节点i在已知当前属于

的条件下未来出现于

的概率。类似的，

表示当前属于

的节点在未来出现于

的概率。ρ_i与节点活跃度v_i及社区节点与

中的其它节点的连接数k_in相关，可以估计如下

通过公式(14)得到节点集合的演化相似度之后，本发明可以计算出

与

之间的演化相似度如下

其中，n是

中节点的个数。如前所述，传统的适应度函数没有考虑节点活跃度不同。为了将上面根据活跃度及演化相似度用于新的目标函数，将公式(8)与(15)组合，得到新的优化目标函数如下

其中，参数β∈[0,1]控制在传统的适应度函数和演化相似度之间的折中。公式(16)不仅考虑了当前快照g_t中节点间的连接关系，还考虑了不同节点具有不同的演化趋势，使用新的目标函数检测得到的重叠社区能预测其未来状态。

所述步骤3中，分析了对重叠社区发现结果产生影响的种子和将其进行非对称性扩展

除了目标函数之外，用于扩展的初始节点集合即种子对基于扩展法的重叠社区发现的结果也会产生重要影响。LFM方法曾使用尚未处理过的随机选择的节点作为种子，而有研究者则使用未处理过的随机选择的边作为种子进行扩展。但是，在LFR图(LFR，Lancichinetti Fortunato Radicchi)上的结果证明随机节点和随机边并非好的选择。最近，有人提出了使用最大社团作为种子，获得了较好的结果。本发明也将采用最大社团用于扩展，因为其内部连接密度最高。

在扩展之前，本发明需要搜索当前快照g_t中的所有最大社团从而对它们进行扩展。在一个网络中搜索所有的最大社团是图论中的一个经典问题并且已经过充分研究。一种解决枚举所有最大社团问题的高效算法是Bron-Kerbosch算法。该算法的第一个版本自从1973年提出以来，已经产生了几个变种。本发明选择带节点枢轴(Vertex Pivoting)及排序的Bron-Kerbosch算法来枚举最大社团。其参数k指定社团中节点个数的最小值。通常情况下，参数k应设为4。

在完成对所有最大社团的搜索后，第二步是将这些社团作为种子进行扩展。将一个种子记为S，则与其相邻的节点集合N表示为

其中，i是S中的一个节点，N(i)表示节点i的所有邻居节点。在每次扩展时，本发明都从N中选择一个节点放入S中，即把它从集合N移动到集合S中。在每次从N中选择节点时，本发明对公式(16)中的目标函数进行局部贪心优化，即从N中选择一个节点使得该节点放入S后函数f的取值最大。在每次选择之前，集合S的函数值为f(S)。本发明试探性地将N中的每个节点放入S，从而计算新的函数值与f(S)的差，即

f_i＝f(S∪{i})-f(S) (18)

集合N中的每个节点i都有一个f_i值。本发明从N中选择函数取值为正且取值最大的节点，即选择节点j并将它真正放入S中，

上面选择节点的过程保证了每次都使得目标函数的取值增大。在将节点j放入S之后，本发明需要对S的邻居节点集合N进行更新，从而保持与S的状态一致。重复上面所述的过程，每次都选择一个节点放入集合S中从而优化目标函数。当无法再找到任何一个能优化公式(19)的节点时，扩展过程终止。此时，集合S所对应的目标函数值为局部最优值，S作为一个检测到的重叠社区。由于该优化目标函数更容易选择活跃节点，因此称为非对称性扩展，如算法1所示(图7所示)。

该非对称性扩展算法无法避免不同的社团扩展为相同或极为接近的节点集合，导致检测结果中存在多个几乎一样的社区。该问题不仅导致结果的NMI准确度下降，还会占用大量计算时间引起执行速度变慢。为了避免重复检测，计算扩展后的节点集合S_c与未扩展节点集合S_u间的相对重叠率，即：

其中，集合S_u即前面所述的种子。如果σ_i取值越大，S_u再次扩展成为一个与S_c接近的社区的可能性越大。因此，当σ_i大于某阈值σ时，本发明舍弃集合S_u。

所述步骤4中，给出基于节点活跃度的非对称社团扩展的重叠社区发现算法

至此本发明已经讨论了基于节点活跃度的重叠社区发现中的演化相似度、目标函数、种子和非对称性扩展等各部分。利用节点活跃度和非对称性社团扩展的重叠社区发现过程如算法1所示。在该算法中，静态网络和动态网络分别采用不同的输入格式。

当分析静态网络时，输入数据仅有一个快照g；当分析动态网络时，输入数据是一个快照序列{g₁,g₂,…g_n}，其中每一个快照都可以视为一个静态网络。在分析动态网络时，还需要一个索引指定在哪个快照中进行分析。在给定Bron-Kerbosch算法的参数k，相对覆盖率阈值σ，目标函数控制参数α和β之后，进行重叠社区发现如算法2所示。首先，计算各节点的活跃度v_i。接下来利用Bron-Kerbosch算法搜索快照中的所有最大社团作为扩展的种子。然后，本发明采用CCH方法(CCH，Clique Coverage Heuristic)去掉相似的种子，避免重复发现相同社区。通过对目标函数(17)进行优化来扩展每个种子。当所有种子都扩展后，比较所发现的重叠社区并消除重复结果。

如算法2所示(图8所示)，基于节点活跃度的重叠社区发现中的5个参数需要指定。当分析稠密的网络时，参数k可能需要适当增大以减少Bron-Kerbosch算法返回的最大社团个数。k对检测准确率影响不大，只会影响种子个数，且算法中的CCH方法可去掉不必要的种子。α通常设为1，控制重叠社区大小。要使节点个数更多，α应设为更小的值。β控制在适应度函数和演化相似度之间的平衡，β更大使得重叠社区更匹配未来状态。σ是判断重叠社区重复的阈值。应该根据网络重叠特征决定σ，对于社区重叠程度高的网络应将σ设为较小的值。

所述步骤5中，对目标函数进行试验验证

首先，本发明用于验证新推导的目标函数是否解决重叠社区发现中的过度扩展问题，即部分重叠社区的节点数远高于正常值。在该组实验中，用LFR图来生成网络。LFR共提供了10个参数，其取值及含义如表1所示。其中，n对检测结果没有太大影响；真实网络中节点的平均度约为15，因而

τ₁和τ₂分别控制节点度分布和社区大小分布；O_n控制重叠节点个数；O_m控制节点最多同时属于几个社区；参数μ定义一个节点在重叠社区内的边与该节点所有边数的比值，μ取值越大则重叠社区越难检测。

首先，本发明按照表1中的参数配置生成合成网络。将μ设为较大值是为了增大过度扩展问题的出现几率。然后，本发明在该网络上分别执行GCE(记为“G₁”)，使用原适应度函数的ACENV(记为“A₀”)和使用新目标函数的ACENV(记为“A₁”)，并与真实社区(记为“G₀”)比较。

为了检测G₁,A₀和A₁是否解决社区过度扩展问题，将三者得到的社区大小与G₀比较，结果如图1所示。为了绘图方便，G₀和A₁位于x轴的下方，G₁和A₀位于x轴的上方。对G₀中的社区，按照雅可比指数相似度(Jaccard Index)分别寻找G₁，A₀和A₁中最接近的社区。并且规定G₁，A₀和A₁中的社区只与G₀中的匹配一次，舍弃相似度极低的社区。通过以上方式将G₁，A₀和A₁中的社区与G₀对齐并比较社区大小。

如图1所示，x轴中的一列代表G₀中的一个社区或G₁、A₀和A₁中与G₀最接近的社区，y轴表示该社区的节点数。在A₀中对应x＝1的社区的节点数实际上是1000，为了节省空间，在图中未全部画出。由此可见，A₀中对应x＝1的社区的节点数达到了1000，即产生了过度扩展问题。过大的社区使得A₀中的社区个数明显减少，许多本应检测到的社区由于与x＝1存在太多公共节点被错误地舍弃。然而在A₁中，社区数量及大小都更接近G₀且没有产生过大的社区。

为了更清楚地比较G₁，A₀和A₁与G₀的差异，本发明分别将G₁，A₀和A₁中社区的大小减去G₀相应社区的大小，结果如图2所示。因此，G₀对应图2中的直线y＝0，位于x＝0上方的点表示社区大于真实社区，位于x＝0下方的点表示社区小于真实社区。从图2可以看出，A₁最接近于G₀，优于G₁和A₀。通过分析图3中的实验结果，本发明证明了使用新推导的目标函数避免了节点过度扩展，减少了社区被不当舍弃的情况发生。

所述步骤6中，利用合成网络对重叠社区发现及其准确率检测

在这里的实验中，本发明在LFR生成的网络上比较ACENV与其他当前最佳方法的准确率，包括GANXiSw、COPRA和GCE等方法。首先，按照表1中所列的参数用LFR生成具有不同特征的网络。然后，分别在这些网络上执行GANXiSw、COPRA、GCE和ACENV。当执行完成以后，本发明分别用NMI和F-score对这些方法得到的结果进行检验。

在生成LFR图时，本发明通过控制LFR的参数μ和O_m取不同的值来检验不同方法所得到的结果。前人在实验中仅研究了μ或O_m而没有研究μ和O_m同时对结果产生的影响。在给定O_m之后，为了比较不同方法对社区的检测能力，本发明让参数μ以0.1为间隔从0.1变动到0.8并生成相应的网络并执行检测。另外，为了比较不同重叠程度下的社区检测能力，本发明将O_n设为10％的节点、μ分别设为0.3和0.5，让O_m从1变动到8从而生成LFR图并检测。当μ或O_m不断增加时，社区的检测难度也不断增加。

许多重叠社区发现方法都提供参数从而更好地完成检测，且使用不同的参数会产生不同的结果。在用COPRA进行检测时，本发明让其唯一参数v等于LFR参数O_m，因为它们含义相同；在用GANXiSw进行检测时，本发明让其参数α从0.05取值到0.5，选择最好的结果参与比较；在用GCE进行检测时，将其参数设为默认值，即k＝4,α＝1.0；在用ACENV进行检测时，参数设置为k＝4,α＝1.0,σ＝0.75，其中重叠节点再分配算法的参数ξ＝0.3。本发明用NMI对所有结果进行度量。

在O_m＝3，O_n＝10％的条件下，这4种方法的NMI准确率如图3所示。可以看见，所有方法的NMI都随μ增大而下降。当μ<0.4时，所有方法的NMI都超过了0.6，此时CORPA最差而ACENV最好。当μ>0.4时，GANXiSw和COPRA的NMI快速下降到0，而GCE和ACENV依然能够检测到社区。图4与图3类似但是提高了重叠多样性O_m，其结果与图3所示的近似。从图3和图4可以看出，ACENV在不同的μ和O_m取值下，NMI最高。

在O_m＝3，O_n＝10％的条件下，这4种重叠社区发现方法的重叠节点检测准确率(F-score)与μ的关系如图5所示。很显然，COPRA和GCE的F-score几乎为0，表明这两种方法无法正确处理重叠节点。GANXiSw能正确处理重叠节点，但是ACENV的F-score准确率更高。

从以上结果可以看出，ACENV的NMI准确率和F-score准确率均超过了当前最好的方法。在本发明用不同的混合度参数μ、重叠程度O_m生成的LFR图上进行重叠社区发现时，GCE和ACENV的NMI准确率是最高的，而GANXiSw和ACENV的F-score准确率是最高的。从总体上看，ACENV的NMI和F-score均优于其它参与比较的方法。通过以上实验比较，本发明证明了ACENV的重叠社区检测准确率在所有参与比较的重叠社区发现方法中是最高的。

所述步骤7中，在真实网络环境下对重叠社区发现及其准确率检测

本发明在一个根据真实系统构造得到的网络中进行重叠社区发现，从而验证ACENV的实际应用能力。首先，本发明根据Fedora系统组件中的RPM包依赖关系构造出了这样的网络，将其简称“Fedora网络”。然后，由于缺乏真实社区作为参照，本发明采用社区发现领域中另一个常用的模块度作为度量指标。另外，本发明还分析了所检测到的重叠社区对未来节点集合的预测能力。

在Fedora网络中，一个节点代表一个软件模块，例如glibc、vim和gdb等。不同的模块之间存在着依赖关系，例如vim依赖glibc。如果两模块间存在依赖关系，则在两节点之间创建一条边，构造出一个网络。由于Fedora系统不断发展，本发明选择第7到13版来构造快照，并为一个版本构造一个了网络快照。Fedora网络的节点互相协作完成复杂任务，构成了社区。

在构造出快照后，本发明分别以β＝0和β＝0.1运行ACENV，并与GCE和GANXiSw比较。以模块度作为度量函数的检测结果如表2所示。为了度量结果与未来社区的相似程度，即对社区演化的预测能力，计算从快照g_t得到的社区在g_t+1中的模块度，即映射模块度。ACENV的两模块度均高于其它方法。

表2

另外，在使用不同的参数应用ACENV对Fedora网络进行重叠社区发现时，本发明还发现了许多有趣的特性。通过使β从0变到1、每次增加0.1分别执行ACENV，所得到的社区发现结果非常接近。特别地，当β＝1时，即完全用演化相似度代替适应度作为优化目标函数，ACENV依然得到了模块度和映射模块度都较高的结果。该现象的一种可能的解释是，在Fedora系统的研发过程中，一个子系统常作为一个整体进行处理，要么该子系统的所有组件全部被删除要么保持不变。因为一个子系统模块在设计完成后，通常不会发生较大变化。

实施及验证例二

具体方法包括如下步骤：

步骤1.节点活跃度的定义与解析；

步骤2.利用节点活跃度，结合适应度函数与演化相似度，建立重叠社区扩展的目标函数；

步骤3.分析了对重叠社区发现结果产生影响的种子和将其进行非对称性扩展；

步骤4.基于节点活跃度的非对称社团扩展的重叠社区发现算法。

步骤5.对目标函数进行试验验证

步骤6.利用合成网络对重叠社区进行发现及其准确率检测

步骤7.在真实网络环境下对重叠社区发现及其准确率检测

每个步骤详述如下。

一、定义和解析节点活跃度

为了度量节点的活跃程度，本发明对节点适应度模型进行扩展，得到了节点活跃度(Node Vitality)，简称活跃度。适应度模型用于对演化网络中不同节点的竞争能力进行度量，从而解释复杂网络的动态演化过程中的多尺度性，即除了高节点有更大的概率建立连接之外、“优质”节点也容易与其他节点创建新的连接，因而拥有较强竞争力。但是，原始的节点适应度是一个固定值，而节点的竞争力应该是变化的。本发明定义活跃度为一个与节点i相关联的实值v_i∈[-1,1]，v_i是可变的且描述节点i在网络演化中快速创建或删除连接的内在能力。

二、建立重叠社区扩展的目标函数

一个重叠社区除了应具有紧密的内部连接和稀疏的外部连接外，还应具有较高的演化相似度，从而既匹配当前快照又能预测未来状态。为了检测这样的重叠社区，将节点活跃度与适应度函数组合，推导新优化目标函数用于扩展。

三、分析对重叠社区发现结果产生影响的种子和将其进行非对称性扩展

本发明采用最大社团用于扩展，因为其内部连接密度最高。

在扩展之前，需要搜索当前快照g_t中的所有最大社团从而对它们进行扩展。在一个网络中搜索所有的最大社团是图论中的一个经典问题并且已经过充分研究。一种解决枚举所有最大社团问题的高效算法是Bron-Kerbosch算法。该算法的第一个版本自从1973年提出以来，已经产生了几个变种。本发明选择带节点枢轴(Vertex Pivoting)及排序的Bron-Kerbosch算法来枚举最大社团。其参数k指定社团中节点个数的最小值。通常情况下，参数k应设为4。在完成对所有最大社团的搜索后，第二步是将这些社团作为种子进行扩展。

四、给出基于节点活跃度的非对称社团扩展的重叠社区发现算法

当ACENV用于分析静态网络时，输入数据仅有一个快照g；当分析动态网络时，输入数据是一个快照序列{g₁,g₂,…g_n}，其中每一个快照都可以视为一个静态网络。在分析动态网络时，还需要一个索引指定在哪个快照中进行分析。在给定Bron-Kerbosch算法的参数k，相对覆盖率阈值σ，目标函数控制参数α和β之后，ACENV进行重叠社区发现。首先，计算各节点的活跃度v_i。接下来利用Bron-Kerbosch算法搜索快照中的所有最大社团作为扩展的种子。然后，采用CCH方法(CCH，Clique Coverage Heuristic)去掉相似的种子，避免重复发现相同社区。通过对目标函数进行优化来扩展每个种子。当所有种子都扩展后，比较所发现的重叠社区并消除重复结果。

五、对目标函数进行试验验证

首先，按照表1中的参数配置生成合成网络。将μ设为较大值是为了增大过度扩展问题的出现几率。然后，本发明在该网络上分别执行GCE(记为“G₁”)，使用原适应度函数的ACENV(记为“A₀”)和使用新目标函数的ACENV(记为“A₁”)，并与真实社区(记为“G₀”)比较。

表1

六、利用合成网络对重叠社区进行发现及其准确率检测

本发明在LFR生成的网络上比较ACENV与其他当前最佳方法的准确率，包括GANXiSw、COPRA和GCE等方法。首先，按照表1中所列的参数用LFR生成具有不同特征的网络。然后，分别在这些网络上执行GANXiSw、COPRA、GCE和ACENV。当执行完成以后，分别用NMI和F-score对这些方法得到的结果进行检验。

七、在真实网络环境下对重叠社区发现及其准确率检测

在一个根据真实系统构造得到的网络中进行重叠社区发现，从而验证ACENV的实际应用能力。首先，根据Fedora系统组件中的RPM包依赖关系构造出了这样的网络，将其简称“Fedora网络”。然后，由于缺乏真实社区作为参照，采用社区发现领域中另一个常用的模块度作为度量指标。另外，还分析了所检测到的重叠社区对未来节点集合的预测能力。

在Fedora网络中，一个节点代表一个软件模块，例如glibc、vim和gdb等。不同的模块之间存在着依赖关系，例如vim依赖glibc。如果两模块间存在依赖关系，则在两节点之间创建一条边，构造出一个网络。由于Fedora系统不断发展，本发明选择第7到13版来构造快照，并为一个版本构造一个了网络快照。Fedora网络的节点互相协作完成复杂任务，构成了社区。在构造出快照后，分别以β＝0和β＝0.1运行ACENV，并与GCE和GANXiSw比较。为了度量结果与未来社区的相似程度，即对社区演化的预测能力，计算从快照g_t得到的社区在g_t+1中的模块度，即映射模块度。

本发明创新点

创新之一：提出了一种基于复杂网络环境下的节点活跃度的概念及其合理的表示方法，从而更客观地体现重叠社区发现的真实性和可靠性。针对目前关于复杂网络演化中重叠社区发现的研究并没有考虑节点个体的动态演化、不均匀活跃度分布和多尺度性(Multi-scaling)等问题，用节点活跃度更好地量化了节点的动态程度。

创新之二：对复杂网络中重叠社区的节点活跃度进行分析，给出了一种基于节点活跃度的非对称社团扩展的重叠社区发现及预测方法。首先，定义节点活跃度，讨论如何将节点活跃度用于重叠社区扩展的目标函数；然后，介绍社区扩展及使用最大社团作为扩展种子的相关问题；最后，给出基于节点活跃度的非对称社团扩展算法。本发明从根本上提升了复杂网络中的重叠社区的检测准确率，并且对未来重叠社区具有较好的预测能力。

Claims

1.一种Fedora系统组件复杂网络中的重叠社区检测方法，其特征在于，根据Fedora系统组件中的RPM包依赖关系构造出复杂网络，在Fedora网络中，一个节点代表一个软件模块，不同的模块之间存在着依赖关系，如果两模块间存在依赖关系，则在两节点之间创建一条边，构造出一个网络；Fedora网络的节点互相协作完成复杂任务，构成了社区；

按如下参数配置生成合成网络：

节点个数n；平均度

最大度k_max；混合度μ；与度分布关系τ₁；与社区大小分布关系τ₂；最小社区大小c_min；最大社区大小c_max；重叠节点个数O_n；节点重叠程度O_m；

给出节点活跃度的相关定义和解析，在此基础上，将节点活跃度用于重叠社区扩展的目标函数，进行社区扩展及使用最大社团作为扩展种子的相关解析，给出基于节点活跃度的非对称社团扩展算法，实现重叠社区发现；

具体方法包括如下步骤：

步骤1，节点活跃度的定义与解析

节点活跃度的定义如下：

定义节点活跃度为一个与节点i相关联的实值v_i∈[-1,1]，v_i是描述节点i在网络演化中快速创建或删除连接的内在能力并且是可变的；当v_i>0时，节点i的边有增加的趋势；当v_i<0时，节点i的边有减少的趋势；|v_i|越大表示节点i在未来改变所在重叠社区的可能性越大；

解析过程如下：

在演化过程中，节点活跃度会影响节点边数即影响节点度k_i的改变；设网络的演化表示为快照序列

其中，每个快照g_t视为一个静态网络g_t(V_t,E_t)(1≤t≤n)，V_t和E_t分别表示快照g_t的节点集合和边集合；通过比较快照g_t-1和g_t和分析k_i的变化，得到节点活跃度v_i；节点适应度模型的所有节点的k_i服从幂律度分布，则一个节点的k_i随时间的演化由一个与适应度η_i的分布有关的动态指数β(η_i)决定，即：

其中，t表示网络的年龄，t_i表示节点的年龄，m是网络中边数的改变量除以节点个数的改变量；β_i(η_i)∈(0,1)是一个与适应度的分布ρ(η_i)及节点i的适应度η_i相关的指数；

将公式(4)中的β(η_i)改为α(v_i(t))，其中α(·)表示一个节点活跃度的函数；

在一个快照中v_i(t)＝β(η_i)，并对(4)进行变换，得到快照g_t中节点i的活跃度为

其中，m≠0，sgn(·)是一个符号函数；在该公式中，节点i的变化速度k_i(t)通过

得到，即比较两个相邻快照中节点i的度；节点活跃度v_i(t)为：

在公式(6)中，如果节点i满足

规定其节点活跃度v_i(t)＝0；

网络的年龄必须总是大于节点的年龄，即t>t_i；

公式(6)通过比较快照g_t-1和g_t推导出g_t中的活跃度，而无法得到g_t-1中的活跃度；当只有一个静态网络时，无法得到各节点的活跃度；对于快照序列

无法得到g₁中的节点活跃度，此时假设所有节点活跃度为同一个值；对

进行分析时，利用快照索引τ∈{1,2,…,n}作为

的年龄，每个节点第一次出现时所在的快照索引τ_i加1作为节点的年龄，即τ_i+1；

从公式(6)看出，当节点的边数改变量越大，活跃度越高；

步骤2中，利用节点活跃度，组合适应度函数与演化相似度，建立重叠社区扩展的目标函数，目标函数如下

其中，参数β∈[0,1]；W_in和W_out分别是重叠社区内部节点之间和内外节点之间的连接数；当前节点集合作为一个块

n是块

中的节点个数；随机块模型中的节点演化相似度ρ_i；

步骤3，分析了对重叠社区发现结果产生影响的种子和将其进行非对称性扩展：

第一步搜索当前快照g_t中的所有最大社团，第二步是将这些社团作为种子进行扩展；

将一个种子记为S，则与其相邻的节点集合N表示为

其中，i是S中的一个节点，N(i)表示节点i的所有邻居节点；在每次扩展时，都从N中选择一个节点放入S中，即把它从集合N移动到集合S中；在每次从N中选择节点时，对公式(16)中的目标函数进行局部贪心优化，即从N中选择一个节点使得该节点放入S后函数f的取值最大；在每次选择之前，集合S的函数值为f(S)；试探性地将N中的每个节点放入S，从而计算新的函数值与f(S)的差，即

f_i＝f(S∪{i})-f(S) (18)

集合N中的每个节点i都有一个f_i值，从N中选择函数取值为正且取值最大的节点，即选择节点j并将它真正放入S中，

在将节点j放入S之后，需要对S的邻居节点集合N进行更新，从而保持与S的状态一致；重复上述过程，每次都选择一个节点放入集合S中从而优化目标函数；当无法再找到任何一个能优化公式(19)的节点时，扩展过程终止；此时，集合S所对应的目标函数值为局部最优值，S作为一个检测到的重叠社区；

步骤4，给出基于节点活跃度的非对称社团扩展的重叠社区发现算法：第1步：计算节点i的活跃度

当n＝1时，节点i的活跃度为0；当n大于1时，计算得到节点i的活跃度v_i；

第2步：把快照g_t以参数k利用bron-kerbosch算法搜索得到种子，表示为bron-kerbosch(g_i,k)；

第3步：用启发式社团覆盖CCH方法过滤相似的种子，相似两种子之间的相对覆盖率小于阈值σ，只保留不同种子s，得到种子集合seeds；

第4步：对于每一个过滤后得到的种子s，作为初始节点集合，然后不断地从与其相邻的节点中寻找合适的节点放入集合，集合逐步扩展为社区c；

第5步：根据社区c和之前扩展得到的其他社区c_i，两两计算出相对覆盖率relative-overlap(c,c_i)，如果相对覆盖率均小于阈值σ，则把社区c放入已找到的社区集合C，

并且把s从seeds中删除；

第6步：计算社区c与种子集合seeds中剩余种子s_j之间的相对覆盖率relative-overlap(c,s_j)，如果大于0，则把s_j也从种子集合中删除。