CN104933624A

CN104933624A - 复杂网络的社团发现方法及社团重要节点发现方法

Info

Publication number: CN104933624A
Application number: CN201510372969.6A
Authority: CN
Inventors: 徐杰; 马瑞琼; 何庆强; 孙健
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2015-09-23

Abstract

本发明公开了一种复杂网络的社团发现方法及社团重要节点发现方法，首先根据复杂网络的拓扑结构和节点间连接次数计算得到每条边的边权，以边权最大的边为新社团的起始边，对新社团进行扩张，每次扩张时计算社团邻点的局部社团判断函数，如果局部社团判断函数大于0，即将邻点和对应边划分进行社团，社团停止生长后，从剩下的边中选择边权最大边作为另一个新社团的起始边，继续划分；在进行社团重要节点发现时，先计算得到各节点受到同一社团的邻点的影响因子，然后根据节点受到邻点的影响因子和邻点受到节点的影响因子计算得到节点的重要度，完成重要节点发现。本发明准确度高且时间复杂度低，尤其适合应用于大规模复杂网络。

Description

复杂网络的社团发现方法及社团重要节点发现方法

技术领域

本发明属于复杂网络技术领域，更为具体地讲，涉及一种复杂网络的社团发现方法及社团重要节点发现方法。

背景技术

复杂网络的研究是现今科学研究中的一个热点，它已渗透到各个领域，并成为这些领域的重要研究方向。不同领域的复杂网络，都可以用图的形式来表示。点表示复杂网络中的个体，边表示复杂网络中个体之间的关系，边的权重用来表示个体之间的联系。由此看出，复杂网络的结构是由大量的点和它们之间的相互作用关系组成的。随着对复杂网络的深入研究，发现复杂网络中呈现出大量的社团结构，即具有相同特性的节点之间的联系较多，而不同特性的节点之间联系较少。复杂网络中的社团就是这些具有相同特性的节点以及连接它们之间的边所组成的子图集合。

现有的社团发现算法主要包括Kernighan-Lin算法、谱平分法、派系过滤算法和分级聚类算法等。分级聚类算法根据将网络中的边删除或添加，又细分为分裂算法和凝聚算法。常见的分裂算法包括：GN算法、采用节点集的GN算法、快速分裂算法、基于相异性的算法和基于信息中心度的算法等。常见的凝聚算法包括：Fast Newman算法、CNM算法和结合谱分析的凝聚算法等。

以上介绍的算法都是基于网络全局来考虑的，有时候人们只对网络的局部信息感兴趣。l-shell算法和Clauset算法就是两种比较典型的基于网络局部信息的算法。后来，Raghavan提出快速标号传播算法(LPA算法)。而之后，Xie等人又提出了通过标签传播进行社团检测的LabelRank算法对LPA改进，避免了结果的随机输出，并且提高了社团检测的性能。Yang等人基于边的结构和节点的属性提出了CESNA算法。马杰良提出了基于局部稠密度的社团划分算法。陈端兵提出了重叠社区挖掘的两段策略算法。

大多数真实的复杂网络是加权网，无权网无法体现出这些网络中节点之间的连接强度。引入边权，既可以体现真实网络拓扑结构的复杂性，又可以更好地体现真实网络拓扑结构之间的相互联系，为社团发现提供更多的依据。因此，在对复杂网络进行社团发现前，需先对具有社团结构的加权网建模。

随着科学技术的进步，信息量急剧增长。经典的社团发现算法由于时间复杂度高，已经无法完成大规模复杂网络的社团发现，研究准确度高且时间复杂度低的大规模复杂网络的社团发现算法迫在眉睫。经典的社团发现算法都是将节点作为划分对象，通过对节点设计适当的划分方法来获取点的社团结构，但以节点为划分对象的社团发现算法需要先找到网络中的关键节点，从关键节点开始发现网络中的社团，这就导致这些算法的准确度还与网络中的关键节点相关。

在一个社团中，往往存在着一个或多个重要节点，这些节点在社团中具有很大的影响力，所以发现社团中的重要节点对网络的安全、控制和监管具有重要意义。常见的重要节点发现算法考虑因素片面单一，有的是基于节点之间的直接连接状态，有的是基于目标节点到其他节点的最优连接方式等，且是用于寻找全网中的重要节点，因此，需要探索考虑因素周全的社团中重要节点的发现算法。

发明内容

本发明的目的在于克服现有技术的不足，提供一种准确度高且时间复杂度低、适合大规模复杂网络的社团发现方法及社团重要节点发现方法。

为实现上述发明目的，本发明复杂网络的社团发现方法，包括以下步骤：

S1：首先得到复杂网络的拓扑结构，即复杂网络中的节点和节点之间的连接关系，并得到节点间连接次数；

S2：计算复杂网络中每条边的边权w_ij：

w_{i j} = T_{i j} + \frac{\underset{k &Element; N_{i} \cap N_{j}}{Σ} T_{i k} T_{j k}}{\sqrt{\underset{k &Element; N_{i}}{Σ} T_{i k}^{2} \cdot \underset{k &Element; N_{j}}{Σ} T_{j k}^{2}}}

其中，i、j分别表示两个不同节点的序号，取值范围为1≤i≠j≤n，n表示复杂网络中的节点数量；T_ij表示节点间连接次数，N_i和N_j分别为节点i和节点j的邻点集合，k∈N_i∩N_j表示节点k为节点i和节点j的共同邻点，T_ik和T_jk分别为节点i和节点k、节点j和节点k的连接次数；

S3：对复杂网络中所有边按边权w_ij的从大到小进行排序，得到边序列E；

S4：令社团序号m＝1；

S5：划分得到社团C_m，具体方法包括以下步骤：

S5.1：从边序列E中选择第一条边作为社团C_m的初始边，该边的两个端点划分进社团C_m；

S5.2：统计当前社团C_m的邻点集合U；

S5.3：从邻点集合U中取出一个邻点记为u，计算邻点u对应的局部社团判断函数值M(e_ui)，计算公式为：

M (e_{u i}) = \frac{\underset{i &Element; C}{Σ} w_{u i}}{s_{u}} - \frac{\underset{i &Element; C, j &Element; C}{Σ} w_{j i}}{\underset{j &Element; C}{Σ} s_{j}}

其中，s_u表示邻点u的点权，

s_{u} = \underset{o &NotElement; C}{Σ} w_{u o} + \underset{i &Element; C}{Σ} w_{u i}, \underset{j &Element; C}{Σ} s_{j} = 2 \underset{i &Element; C, j &Element; C}{Σ} w_{j i} + \underset{o &NotElement; C, j &Element; C}{Σ} w_{j o};

S5.4：如果M(e_ui)＞0，则将邻点u及邻点u与当前社团C_m内的节点的所有边都划分进社团C_m，返回步骤S5.2；否则从邻点集合U中删除邻点u，进入步骤S5.5；

S5.5：判断邻点集合U是否为空，如果不是，返回步骤S5.3，否则社团C_m划分完毕；

S6：从边序列E中将社团C_m包含的所有边删除，如果当前边序列E为空，进入步骤S7，否则令m＝m+1，返回步骤S5；

S7：如果复杂网络中存在孤立点，将每个孤立点分别作为一个社团；

S8：处理社团间的重叠点，处理方法为：

记重叠点被划分进P个社团，分别计算节点的邻边中所有属于每个社团C_p的边权和W_p，也就是节点与社团C_p中节点的边的边权和，计算公式为：

W_{p} = \underset{i &Element; N_{\tilde{u}} \cap C_{p}}{Σ} w_{\tilde{u} i}

其中，p的取值范围为1≤p≤P；

从得到的P个边权和W_p中选择最大边权和对应的社团作为节点的归属社团，从其他社团中删除节点

本发明还提供了一种复杂网络的社团重要节点发现方法，包括以下步骤：

S1：计算社团中各节点的点权S_r：

s_{r} = \underset{t &Element; C \cap N_{r}}{Σ} w_{r t}

其中，r表示社团的节点序号，取值范围为1≤r≤R，R表示社团中节点的数量；C表示节点r所在的社团，N_r表示节点r的邻点集合，节点t同属于社团C，并且是节点r的邻点，w_rt表示节点r和节点t的边的边权；

S2：计算节点r相对于其邻点t的度中心性因子K_rt，计算公式为：

K_{r t} = \frac{k_{r}}{< k >} \cdot \frac{w_{r t}}{\overset{&OverBar;}{U}}

其中，k_r表示节点r在社团C内的度，＜k＞为社团C的平均度，为社团C团的平均单位权，计算公式分别为：

< k > = \frac{\underset{r &Element; C}{Σ} k_{r}}{R}

\overset{&OverBar;}{U} = \frac{\underset{r &Element; C}{Σ} \frac{s_{r}}{k_{r}}}{R}

S3：分别计算社团中各个节点r到社团C中其他节点的平均最短距离d_r：

d_{r} = \frac{\underset{t^{'} &Element; C}{Σ} m i n (\frac{1}{w_{{rλ}_{1}}} + \frac{1}{w_{λ_{1} λ_{2}}} + ... + \frac{1}{w_{λ_{F} t^{'}}})}{R - 1}

其中，λ₁至λ_F表示节点r到节点t′之间最短路径所经过的中间节点，t′取值范围为1≤t′≠r≤R；

S4：计算各个节点的接近度因子D_r＝1/d_r；

S5：计算节点r受到同一社团的邻点t的影响因子L_rt＝K_rt·D_t；

S6：计算各个节点的重要度并将社团中的节点按重要度从大到小进行排序，重要度计算公式为：

I_{r} = \underset{t &Element; C \cap N_{r}}{Σ} (L_{r t} + L_{t r}) .

本发明复杂网络的社团发现方法及社团重要节点发现方法，首先根据复杂网络的拓扑结构和节点间连接次数计算得到每条边的边权，以边权最大的边为新社团的起始边，对新社团进行扩张，每次扩张时计算社团邻点的局部社团判断函数，如果局部社团判断函数大于0，即将邻点和对应边划分进行社团，社团停止生长后，从剩下的边中选择边权最大边作为另一个新社团的起始边，继续划分；在进行社团重要节点发现时，先计算得到各节点受到同一社团的邻点的影响因子，然后根据节点受到邻点的影响因子和邻点受到节点的影响因子计算得到节点的重要度，完成重要节点发现。

本发明具有以下有益效果：

(1)采用本发明得到社团发现结果更加准确，更符合网络实际，并且执行效率较高，尤其适用于大规模网络；

(2)在进行重要节点发现时，综合考虑了节点的权重、号召力、位置和邻点的因素，最终得到的结果更加合理。

附图说明

图1是本发明复杂网络的社团发现方法的流程图；

图2是本发明中社团划分的流程图；

图3是复杂网络的重要节点发现方法的流程图；

图4是采用本发明社团发现方法对Zachary网络的社团发现结果；

图5是采用本发明和两种对照算法对四种社团网络得到的社团发现结果的模块度对比曲线；

图6是采用本发明和两种对照算法对四种社团网络进行社团发现的执行时间对比曲线。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明复杂网络的社团发现方法的流程图。如图1所示，本发明复杂网络的社团发现方法包括以下步骤：

S101：获取复杂网络的信息：

首先得到复杂网络的拓扑结构，即复杂网络中的节点和节点之间的连接关系，并得到节点间连接次数。

S102：计算复杂网络中每条边的边权：

本发明中，定义复杂网络中的每条边e_ij的边权w_ij为边的节点间连接次数T_ij与结构相似度δ_ij之和，其中i、j分别表示两个不同节点的序号，取值范围为1≤i≠j≤n，n表示复杂网络中的节点数量。节点间连接次数T_ij是已知的，要计算权重w_ij需要先计算结构相似度δ_ij。结构相似度δ_ij的计算公式为：

δ_{i j} = \frac{\underset{k &Element; N_{i} \cap N_{j}}{Σ} T_{i k} T_{j k}}{\sqrt{\underset{k &Element; N_{i}}{Σ} T_{i k}^{2} \cdot \underset{k &Element; N_{j}}{Σ} T_{j k}^{2}}} - - - (1)

其中，N_i和N_j分别为节点i和节点j的邻点集合，k∈N_i∩N_j表示节点k为节点i和节点j的共同邻点，T_ik和T_jk分别为节点i和节点k、节点j和节点k的连接次数。

那么，边权w_ij的计算公式为：

w_{i j} = T_{i j} + δ_{i j} = T_{i j} + \frac{\underset{k &Element; N_{i} \cap N_{j}}{Σ} T_{i k} T_{j k}}{\sqrt{\underset{k &Element; N_{i}}{Σ} T_{i k}^{2} \cdot \underset{k &Element; N_{j}}{Σ} T_{j k}^{2}}} - - - (2)

本发明所采用的边权w_ij不仅可以反映出共同邻点k和节点i或节点j之间连接次数的变化，还可以体现出节点i和节点j的共同邻点的个数、节点i或节点j的点权。

S103：对边权进行排序得到边序列：

对复杂网络中所有边按边权w_ij的从大到小进行排序，得到边序列E。

S104：令社团序号m＝1。

S105：划分得到社团C_m：

首先介绍本发明划分社团的原理：

对于加权网络的局部社团C，其结构函数E(C)可以表示为：

E (C) = \frac{E_{i n}}{E_{i n} + E_{o u t}} = \frac{\underset{i &Element; C, j &Element; C}{Σ} w_{j i}}{\underset{i &Element; C, j &Element; C}{Σ} w_{j i} + \underset{o &NotElement; C, j &Element; C}{Σ} w_{j o}} - - - (3)

其中，E_in为社团C内的边权和，E_out为社团C外的边权和。节点i和节点j为社团C内的节点，节点o为社团C外的节点。

假设从某边开始出发，探测出包含该边的社团C，在社团C的增长过程中，它总是不断的吸收社团的邻边，当把社团C内的节点与邻点u相连的边划分进社团C后，其结构函数的增量为：

\begin{matrix} Δ E (C \cup e_{u i}) = E (C \cup e_{u i}) - E (C) \\ \begin{matrix} = \frac{E_{i n} + \underset{i &Element; C}{Σ} w_{u i}}{E_{i n} + E_{o u t} + \underset{o &NotElement; C}{Σ} w_{u o}} - \frac{E_{n}}{E_{i n} + E_{o u t}} \\ = \frac{\underset{i &Element; C, j &Element; C}{Σ} w_{j i} + \underset{i &Element; C}{Σ} w_{u i}}{\underset{i &Element; C, j &Element; C}{Σ} w_{j i} + \underset{o &NotElement; C, j &Element; C}{Σ} w_{j o} + \underset{o &NotElement; C}{Σ} w_{u o}} - \frac{\underset{i &Element; C, j &Element; C}{Σ} w_{j i}}{\underset{i &Element; C, j &Element; C}{Σ} w_{j i} + \underset{o &NotElement; C, j &Element; C}{Σ} w_{j o}} \end{matrix} \end{matrix} - - - (4)

由于本发明是对复杂网络中的边进行社团发现，也就是说被划分进社团的边的两点也同时被划分进社团，所以社团中的点权之和等于社团内的边权和的二倍加上社团内的点与社团外的点相连的边权和，即：

\underset{j &Element; C}{Σ} s_{j} = 2 \underset{i &Element; C, j &Element; C}{Σ} w_{j i} + \underset{o &NotElement; C, j &Element; C}{Σ} w_{j o} - - - (5)

s_{u} = \underset{o &NotElement; C}{Σ} w_{u o} + \underset{i &Element; C}{Σ} w_{u i} - - - (6)

其中，s_j表示节点j的点权，s_u为邻点u的点权，w_ui为点u与社团C内的点相连的边权，w_uo为点u与社团C外的点相连的边权。

当ΔE(C∪e_ui)＞0时，即当把社团C内的节点与邻点u相连的边划分进社团后，社团C的结构更好。令ΔE(C∪e_ui)＞0，则

\frac{\underset{i &Element; C, j &Element; C}{Σ} w_{j i}}{\underset{j &Element; C}{Σ} s_{j}} < \frac{\underset{i &Element; C}{Σ} w_{u i}}{s_{u}} - - - (7)

由式(7)可知，当社团C的邻点u与社团内的点相连的边权之和与点u的点权s_u之比，大于社团C内的边权之和与社团内的点权和之比时，说明把社团C的邻点u与社团内的节点相连的边划分进社团后，社团C的结构更好，因此，把邻点u与社团内点的相连的边划分进社团C。

从而可以得到是否将邻点u与社团内的节点的相连的边划分进社团C的局部社团判断函数M(e_ui)的计算公式为：

M (e_{u i}) = \frac{\underset{i &Element; C}{Σ} w_{u i}}{s_{u}} - \frac{\underset{i &Element; C, j &Element; C}{Σ} w_{j i}}{\underset{j &Element; C}{Σ} s_{j}} - - - (8)

其中，u为社团C的邻点，s_u为邻点u的点权，w_ui为邻点u与社团C内的节点i相连的边权，为划分进社团C内的边权之和，为社团内点的点权之和。

图2是本发明中社团划分的流程图。如图2所示，从复杂网络中划分得到第m个社团C_m的具体方法包括以下步骤：

S201：初始化社团：

从边序列E中选择第一个边(即边权最大的边)作为社团C_m的初始边加入社团C_m的边集合E_m，并将该边的两个端点划分进社团C_m的点集合V_m，即初始化社团C_m＝{E_m,V_m}。

S202：统计当前社团的邻点集合：

统计当前社团C_m的邻点集合U。

S203：计算邻点u对应的局部社团判断函数：

从邻点集合U中取出一个邻点记为u，计算邻点u对应的局部社团判断函数值M(e_ui)，根据公式(8)计算得到M(e_ui)。

S204：判断是否M(e_ui)＞0，如果是，进入步骤S205，否则进入步骤S206。

S205：添加社团节点和边：

将邻点u及邻点u与当前社团C_m内的节点的所有边都划分进社团C_m，即将邻点u加入点集合V_m，邻点u与当前社团C_m内的节点的所有边都加入边集合E_m。由于社团C_m更新了，那么其邻点集合U也要更新，因此返回步骤S202。

S206：删除邻点u：

从邻点集合U中删除邻点u，进入步骤S207。

S207：判断邻点集合U是否为空，如果不是，返回步骤S203，否则社团停止生长，社团C_m划分完毕。这是因为如果邻点集合为空，说明社团C_m的当前邻点邻点集合U中的所有邻点均没有添加到社团中，即社团停止生长，那么社团C_m划分完毕。

S106：更新边序列：

从边序列E中将社团C_m的边集合E_m中包含的所有边删除，即E＝E-E_m。

S107：判断当前边序列E是否为空，如果是，即基于边的复杂网络社团划分结束，进入步骤S109，否则进入步骤S108。

S108：令m＝m+1，返回步骤S105。

S109：判断复杂网络中是否存在孤立点，如果是，进入步骤S110，否则不作任何操作，直接进入步骤S111。

S110：对孤立点划分社团：

将每个孤立点分别作为一个社团，即该孤立点自身作为一个社团，进入步骤S111。

S111：处理社团间的重叠点：

在非孤立点的社团中，由于利用局部社团判断函数进行社团划分，在划分时可能出现重叠点，即这些节点归属于两个或以上的社团，因此，还需要进一步对这些重叠点进行细分。判断这些重叠点归属于被划分进的多个社团中的某一个社团，主要看这个点与哪个社团的关系更紧密，最紧密的那个社团就是这个点的归属。依据这个原理，只需要找到重叠点的邻边中与该点所属社团相同的所有边的边权和的最大值，拥有这个边权和最大值的社团即为该重叠点所属的社团。具体方法为：

W_{p} = \underset{i &Element; N_{\tilde{u}} \cap C_{p}}{Σ} w_{\tilde{u} i} - - - (9)

其中，p的取值范围为1≤p≤P。

可见，总共得到P个边权和W_p，从中选择最大边权和对应的社团作为节点的归属社团，从其他社团中删除节点在处理重叠点时，不对边进行操作，即只删除重叠节点，不删除边。

对每个重叠点均进行以上处理，使社团划分结果中不存在重叠点，得到最终的社团划分结果。

本发明还提供了一种复杂网络的社团重要节点发现方法。图3是复杂网络的重要节点发现方法的流程图。如图3所示，本发明复杂网络的社团重要节点发现方法包括以下步骤：

S301：计算社团中各节点的点权：

根据社团中各条边的边权，即公式(2)计算得到的边权，计算社团中各节点在社团内的点权S_r，r表示社团的节点序号，取值范围为1≤r≤R，R表示社团中节点的数量。点权S_r的计算公式为：

s_{r} = \underset{t &Element; C \cap N_{r}}{Σ} w_{r t} - - - (10)

其中，C表示节点r所在的社团，N_r表示节点r的邻点集合，节点t同属于社团C，并且是节点r的邻点，w_rt表示节点r和节点t的边的边权。

S302：计算社团各节点的度中心性因子：

节点r相对于其邻点t的度中心性因子K_rt的计算公式为：

K_{r t} = \frac{k_{r}}{< k >} \cdot \frac{w_{r t}}{\overset{&OverBar;}{U}} - - - (11)

其中，k_r表示节点r在社团C内的度，＜k＞为社团C的平均度，k_r/＜k＞表示节点r对社团C的度贡献，为社团C团的平均单位权，计算公式分别为：

< k > = \frac{\underset{r &Element; C}{Σ} k_{r}}{R} - - - (12)

\overset{&OverBar;}{U} = \frac{\underset{r &Element; C}{Σ} \frac{s_{r}}{k_{r}}}{R} - - - (13)

S303：计算各节点到社团其他节点的平均最短距离：

分别计算社团中各个节点r到社团C中其他节点的平均最短距离d_r为：

d_{r} = \frac{\underset{t^{'} &Element; C}{Σ} d_{{rt}^{'}}}{R - 1} = \frac{\underset{t^{'} &Element; C}{Σ} m i n (\frac{1}{w_{{rλ}_{1}}} + \frac{1}{w_{λ_{1} λ_{2}}} + ... + \frac{1}{w_{λ_{F} t^{'}}})}{R - 1} - - - (14)

其中，λ₁至λ_F表示节点r到节点t′之间最短路径所经过的中间节点，t′取值范围为1≤t′≠r≤R。由于节点r和节点t′属于同一个社团C，因此总有连接这两个节点的路径。d_r越小，说明节点r越接近网络中的其他节点，因此通过平均最短路径d_r，就可以计算得到节点r的接近度因子。

S304：计算各节点的接近度因子：

计算节点r的接近度因子D_r＝1/d_r。

S305：计算各节点受到邻点的影响因子：

在社团C中，每个节点都会受到同一社团的邻点的影响，那么节点r受到同一社团的邻点t的影响因子L_rt的计算公式为：L_rt＝K_rt·D_t。

S306：计算节点的重要度并排序：

社团中节点的重要性不仅受该节点的度、点权、最短路径数的影响，还受它邻居节点的影响，节点对其邻居节点的影响为自身因素，而邻居节点对这个节点的影响为附加因素。综合上述因子的考虑，本发明提出了社团中节点的重要度函数，由两部分组成，一部分是自身因素，另外一部分是附加因素。节点r的重要度计算公式为：

I_{r} = \underset{t &Element; C \cap N_{r}}{Σ} (L_{r t} + L_{t r}) - - - (15)

将社团中的节点按计算得到的重要度从大到小进行排序。

为了说明本发明的技术效果，采用具体的社团网络进行实验验证。采用的社团网络为Zachary网络。Zachary网络是一个检验不同社团发现算法的经典真实的网络。该网络是Zachary在上世纪用了两年时间观察研究空手道俱乐部成员之间的关系而得到的。在调查过程中，俱乐部的主管和校长产生争执，分裂成了两个团体。图4是采用本发明社团发现方法对Zachary网络的社团发现结果。如图4所示，采用本发明将Zachary网络划分成了两个社团(将属于不同社团的节点也颜色来区分)，其中点1和点34分别为俱乐部的主管和校长，以主管所在社团为社团1，校长所在社团为社团2。表1是本发明社团发现方法对Zachary网络进行社团发现的评价指标。

节点数	边数	模块度函数	执行时间(秒)	发现社团数
					34	78	0.421	0.025	2

表1

从表1可以看出，采用本发明社团发现方法划分得到的最终社团结构与Zachary网络中存在的真实社团结构完全一样，且算法的执行时间很短，说明本发明对Zachary网络的划分不仅准确度高，而且执行效率也高。

分别采用本发明的重要节点发现方法对以上得到的两个社团进行重要节点发现。为了说明技术效果，还采用度中心性算法和接近度算法作为对照算法。表2是三种算法得到的节点重要度排序。

表2

从表2中可以看出，三种算法对点1、2、4和12的重要度排序一致。在社团1中点1是最重要的，这与真实网络中点1为俱乐部的主管情况相一致。在度中心性算法中点3比点6和点7重要，而在接近度算法中，点3、点6和点7的重要度都一样，但从Zachary网络拓扑图中可以看出，首先点3在社团1中的度大于点6和点7，其次点3连接的点比点6和点7连接的点更重要，点3的邻点中有社团1中最重要的3个点，而点6和点7只与点1和社团边缘的点相连接，所以点3应该比点6和点7更重要，这与本发明的节点重要度排序结果一致。由此可知，本发明的重要节点发现方法比接近度算法和度中心性算法的准确度更高，更贴近真实情况。

此外，为了说明本发明的实际应用性，对Zachary网络、Dolphins网络、Football网络和Scientist网络这4个网络，分别采用本发明和经典的社团发现算法中的代表算法：GN算法和Fast Newman算法进行对比，主要对比模块度函数和执行时间这两种评价指标，从而更直观的说明本发明的优劣性。Zachary网络、Dolphins网络、Football网络和Scientist网络的数据集规模是依次增大的，即节点数和边数依次增加。

图5是采用本发明和两种对照算法对四种社团网络得到的社团发现结果的模块度对比曲线。如图5所示，Fast Newman算法的模块度始终小于GN算法的模块度。在数据量较小的Zachary网络中，本发明的模块度和Fast Newman算法相当，而GN算法的模块度明显高于其他两种算法。当数据量逐渐增大时，3种算法的模块度虽然都有所增加，但本发明的模块度增长的更快，GN算法的优势明显减小。对于数量最大的Scientist网络，本发明的模块度已经超过了GN算法的模块度，成为了最大值。

图6是采用本发明和两种对照算法对四种社团网络进行社团发现的执行时间对比曲线。如图6所示，GN算法的执行时间明显高于其他两种算法，当数据量为115个节点的Football网络时，执行时间已经达到了9.645s，这与其极高的时间复杂度有关，因此GN算法不适用大规模网络社团发现。本发明和FastNewman算法的时间复杂度低，但本发明的执行时间在对数据量较大的网络进行社团发现时，其执行时间明显低于Fast Newman算法。由此可知，本发明的社团发现算法利用网络拓扑的局部信息对边进行社团划分寻找局部社团的方法，与经典的社团发现算法中需要网络全部拓扑信息对点进行社团划分寻找全局社团的方法相比，大大提高了算法的执行效率。

从以上分析可知，本发明在数据集规模较大的网络中具有较大优势。下面采用两个大规模网络：安然公司邮件数据集和欧盟电子邮件网络通信数据集，来进行实验验证。表3是采用本发明对两个大规模网络进行社团发现的评价指标。

表3

从表3中可以看出，本发明在对大规模复杂网络进行社团发现时，具有较高的模块度，说明社团划分的结构明显。且执行时间相对于数据量的规模来说，极短，在较短的时间内，发现了大规模复杂网络中的大量社团。

综上所述，本发明在保持社团划分准确度的前提下，大大降价了算法的执行时间，尤其是对数据量较大的网络来说，本发明的执行时间明显缩短，准确度也可以保持在较高水平，甚至高于其他算法，所以本发明在降低算法执行时间的同时，有效提高了发现社团的质量，适合用于大规模复杂网络。在划分得到的社团中发现重要节点时，本发明综合考虑了节点的权重、号召力、位置和邻点的因素，与常见的重要节点发现算法相比，本发明更合理且易区分开节点的重要度，适合用于大规模的复杂网络中。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种复杂网络的社团发现方法，其特征在于，包括以下步骤：

S2：计算复杂网络中每条边的边权w_ij：

S3：对复杂网络中所有边按边权w_ij从大到小进行排序，得到边序列E；

S4：令社团序号m＝1；

S5：划分得到社团C_m，具体方法包括以下步骤：

S5.2：统计当前社团C_m的邻点集合U；

其中，s_u表示邻点u的点权，

S6：从边序列E中将社团C_m包含的所有边删除，如果当前当前边序列E为空，进入步骤S7，否则令m＝m+1，返回步骤S5；

S8：处理社团间的重叠点，处理方法为：

记重叠点被划分进P个社团，分别计算节点的邻边中所有属于每个社团C_p的边权和W_p，计算公式为：

其中，p的取值范围为1≤p≤P；

从得到的P个边权和W_p中选择最大边权和对应的社团作为节点的归属社团，从其他社团中删除节点。

2.一种复杂网络的社团重要节点发现方法，其特征在于，包括以下步骤：

S1：计算社团中各节点在社团内的点权S_r：

其中，k_r表示节点r在社团C内的度，＜k＞为社团C所有节点的平均度，U为社团C团的平均单位权，计算公式分别为：

其中，λ₁至λ_F表示节点r到节点t′之间最短路径所经过的中间节点，t′的取值范围为1≤t′≠r≤R；

S4：计算各个节点的接近度因子D_r＝1/d_r；

S5：计算各个节点的重要度并将社团中的节点按重要度从大到小进行排序，重要度计算公式为：