CN101383748B

CN101383748B - 一种复杂网络中的社区划分方法

Info

Publication number: CN101383748B
Application number: CN2008102241755A
Authority: CN
Inventors: 韩言妮; 武文琛; 李德毅; 张书庆
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2008-10-24
Filing date: 2008-10-24
Publication date: 2011-04-13
Anticipated expiration: 2028-10-24
Also published as: CN101383748A

Abstract

本发明提出一种复杂网络中的社区划分方法，以若干个不同的局部带有影响力的节点为核心，并使节点的影响力从核心逐层向外均匀扩散，最终形成了以影响力最大的节点为核心，逐层扩展中节点的影响力不断衰减，它们之间相互关联形成一个局部区域，扩展到方法的停止，节点影响力很小，到达该局部区域的网络边缘。对于一个大规模的无序复杂网络，能够迅速的定位不同重要程度的节点位置，挖掘出一些更细粒度上的信息，同时可以保持了原有网络的结构特性不变，对原有的大规模复杂网络进行简化与规模的缩小，不仅可以提高搜索的效率，更可以从宏观上更清晰的分析出大规模网络的结构。

Description

一种复杂网络中的社区划分方法

技术领域

本发明属于数据挖掘领域，涉及一种社区划分方法，具体设计一种复杂网络中的社区划分方法。

背景技术

20世纪90年代以来，以互联网为代表的信息技术的迅猛发展使人类社会大步迈入了网络时代。复杂网络无处不在，在现实世界中，从互联网万维网，从城市公路网到航空路线图，从超大规模集成电路到大型电力网格，从细胞神经网络到蛋白质相互作用网络；复杂网络还可以用来描述人与人之间的社会关系，科学家之间的合作关系，论文之间的引用关系，生物界中物种之间的捕食关系；甚至文本中词与词之间的语义关系等，都可以看作是复杂网络，可以说，人们已经生活在一个充满着各种各样的复杂网络的世界中。如图1所示是2001年美国A.L.Barabasi研究组构造的芽殖酵母蛋白质相互作用的复杂网络，芽殖酵母是生物学研究中广泛应用的单细胞真核模式生物，将蛋白质抽象为节点，蛋白质直接的相互作用抽象为边，用网络的方法构建出蛋白质相互作用网络对系统研究细胞内各种生命活动有着重要意义，从图中可以看出，蛋白质交互网络中，每个蛋白质的与其他的蛋白质连接不是均匀的，蛋白质的连接度服从幂率分布，即越重要的蛋白，与它连接的线段数目越多，如果有针对性的删除网络中连接度非常大的节点，网络很容易被破坏，进一步研究发现越是年龄古老的蛋白，与它连接的线段数目越多，说明了蛋白质网络结构上的无标度特性。这些都是复杂网络所包含的典型特性，下面分别介绍：

小世界特性：看似毫不相干、形态各异的真是网络都是受某些简单规则驱动自组织形成的，它们都具有一些相同的拓扑性质，小世界网络既有与规则网络类似的聚集特性，又具有与随机网络类似的较小的平均路径长度。由于不同集团之间的长程连接导致网络的平均直径较小，即为小世界特性；

无标度特性：大量的复杂网络中，节点的度分布明显地不同于泊松分布，而是具有幂律形式，这种幂律分布的形式与分形(Fractal)中的自相似(self-similarity)特点一样，没有明显的特征长度，如果把函数曲线放在双对数坐标系下，则其大致成直线，即函数的相对变化与变量的相对变化成线性关系，这正是自相似的数学含义，即为无标度特性；

社区特性：网络中呈现出社区结构，或者说是抱团(clustering)特征。大量实证研究表明，许多网络是异构的，可以被分解为若干个社区，各个社区内部节点之间存在较多的连接，而不同社区之间的节点连接则相对较少；

目前，复杂网络研究已经渗透到数理学科、生命学科和工程学科等众多不同的领域，对复杂网络的定量和定性特征的科学理解，已成为网络时代科学研究中一个极其重要的挑战性课题，甚至被称为“网络的新科学(new science of networks)”。而复杂网络中的社区结构是网络高聚集性与模块化特征的反映。在网络中自动搜索或发现社区结构，具有重要的实用价值。例如，社会网中的社区可能代表具有共同兴趣、爱好的社会团体；科学引文网中的社区可能代表与某一主题相关的论文；生物化学网络或电子电路网络中的社区可能代表功能相关的蛋白质组或某一类功能单元；万维网中的社区可能代表主题相关的若干网页，可进一步用于提高网络搜索结果的相关性和准确性，实现信息过滤、热点话题跟踪和网络情报分析等。因此，如何从大规模的复杂网络中识别不同类型的节点，对异构的节点类型其进行分类，从而发掘网络中的社区结构，有助于我们更好地理解系统不同层次的结构和功能特性。

采用物理场中的物质粒子间的相互作用及其场描述的方式，引入抽象的网络拓扑空间进行处理，通过节点之间的相关作用，产生了节点影响力的叠加，由于节点位置的差异，节点所受到网络中其它所有节点对其的影响力以及它扩散到网络中其它节点的影响力都是不同的，可以很好的刻画出复杂网络拓扑中节点分布的不均匀性和局部社区聚集的特性。同时网络中节点间的相互作用具有局域特性，每个节点的影响能力会随网络距离的增长而快速衰减，同时节点作用力的范围较小，可以忽略较远范围外的节点影响力值的叠加计算，从而有效减少运算复杂度。

在一个网络拓扑中，与局部核心节点紧密连接的节点，即为网络中的骨干成员，在这个局部的区域内，它们受到了核心节点的影响与作用，同时也反作用的影响着该区域内的核心节点；重叠节点是从社区提取出骨干成员后，网络呈现出不同局部中心的社团结构，如果两个社区之间的节点存在着交集，即该节点与多个局部社区都存在相互的关联和影响，称为重叠节点，这种类型的节点更多的承担着多面性和中立性的角色，孤立节点是在局部中心的扩散过程中，没有被该局部中心影响力所覆盖的一些外围节点，这类的节点在网络拓扑中往往处于边缘的位置，它们对网络中其它节点的影响力很少，同样，也很少受到其它节点对它的影响。

对于社区划分方法，传统可分为两类：自下而上的凝聚式方法(agglomerative methods)和自上而下的分裂式方法(division methods)。

第一种是对于网络中的任意一对节点v_i和v_j，定义一个描述节点间连接紧密程度的量W_ij。算法开始时，去除网络中所有的边，将剩下的每个节点视为一个个单独的社区。按照W_ij由大到小的顺序，依次连接网络中的节点。在每一步，网络中的节点组成了若干个连通分支，随着算法的进行，连通分支数量越来越少，最后，所有的节点均连接到一个分支中。算法进行的每一步所得到的分支构成了一个树状图(dendrogram)。

第二种是分裂式方法：该方法与凝聚式方法正好想法，是从原网络出发，按照一定的规则，依次移除网络中的边，从而将网络分解成越来越小的连通分支，直至最后所有节点自成一个社区。

复杂网络中的社区现象，已经成为复杂网络领域中一个非常重要的研究热点。Girvan，Newman等很多著名的科学家都提出了自己的社区挖掘方法，对复杂网络的社区挖掘目前呈现百家争鸣的状态，然而，不同算法的时间、空间复杂度也相差很大。下面列举3种比较广泛应用的方法。

M.Girvan与M.E.J.Newman在2001年提出了基于边介数的社区发现方法，即GN算法。这种算法在社会学的分级聚类方法中属于分裂方法。提出以边介数作为划分不同社区的标准。边介数定义为网络中所有最短路径经过该边的次数。根据社区的特性可知，社区间的最短路径通过社区间边的频率远大于社区内部的边，所以社区之间的边比社区内部的边有更大的边介数，通过反复移除这些介数较高的边就能使整个网络分解为不相连的社区。

GN算法的核心算法如下：

(1)计算网络中所有边的边介数

(2)移除介数最高的边

(3)重新计算所有受影响边的边介数

(4)从2重复执行，直到所有的边都被移除

GN算法的缺点：

1、由于每次计算都要分析整个网络的介数，算法时间复杂度较高(O(mn))，n和m分别为网络的节点数和边数

2、通过树状图把网络分解到节点，强迫任何一个节点必须属于一个社区，而并没有考虑是否真正有意义。

Kernighan-Lin算法是一种贪婪(Greedy)算法，通过对社区内部以及社区间边的优化，对网络进行划分。算法的核心思想是引入一个增益函数Q，Q等于两个社区内部的边数之和减去这两个社区之间的边数，基于贪婪思想找到使Q的增益最大的划分。算法可以分为如下几个步骤：

(1)指定规模或者随机地将现有网络划分为两个社区i和j；

(2)分别从两个社区内各取一个节点N_i和N_j，计算并记录这两个节点的增益函数的变化值ΔQ＝|Q_交换后-Q_交换前|，其中，Q_交换后表示交换后的增益函数值，Q_交换前表示交换前的增益函数值。根据记录的ΔQ的最大值，将其关联的一对节点N_k和N₁进行交换。

(3)不再选择已经交换过的节点，重复2)的过程，直到某个社区i或j内的所有节点都被交换一次为止。

经过上述步骤后，所得网络的结构即为对该网络的社区划分。

Kernighan-Lin算法是一种二分法，即通过这种方法将网络划分为两个社区，但是这两个社区的大小需要事先给定，否则，就很可能不会得到正确的结果。Kernighan-Lin算法的这个缺陷使得它在实际网络分析中难以应用。

基于图的Laplace矩阵的特征值的谱二分法(Spectral bisection method)，是通过分析图的拉普拉斯(Laplacian)矩阵的特征向量来完成社区的划分的。当一个网络中仅存在两个社团，也就是说该网络的Laplace矩阵L仅对应两个对角矩阵块时的情况。对一个实对称的矩阵而言，它的非退化的特征值对应的特征向量总是正交的。因此，除最小特征值0以外，矩阵L其它特征值对应的特征向量总是包含正、负两种元素。这样，当网络由两个社团构成时，就可以根据非零特征值相应的特征向量中的元素对应网络的节点进行分类。其中，所有正元素对应的那些节点都属于同一个社团，而所有的负元素对应的节点则属于另一个社团。这是谱平分法的理论基础。

谱平分方法最大的缺陷就是当网络的确是近似地分成两个社团时，用谱平分法可以得到非常好的效果。如果要将一个网络分成两个以上的社团，就必须对子社团多次重复该算法。而且谱平分法划分结果的优点也不能得到充分体现。

总之，与社区相关的理论涉及图论、模式识别和社会学等多个领域等，但大部分算法都存在如下一些问题。

1、对于一个大规模的网络，需要根据不同的情境引入各种节点相似性度量标准，例如结构化等价和层次聚类中的节点间路径的数目等等，计算网络中任意两个节点间连接紧密程度，算法效率比较低，复杂度较大；

2、不能保证得到最优的网络划分结果，由于需要人为指定期望的社区数目或者是提供算法终止的一个临界阈值，因此，并不能保证得到的划分是一种最优的网络划分结果，并且实际应用中，由于用户无法预知社区的大小，通常需要用多种大小不同的划分方案对网络进行划分，之后通过引入一些最优化原则选取最佳的划分方案，算法的复杂度比较高。

3、在所有的社区划分方法中，对于每个节点的划分结果只能仅仅属于一个单独的社区，属于一种硬划分，这与现实世界的网络结构与节点位置在某种程度上存在着差异，譬如真实网络中存在节点成员可以属于不同的社区，可以从不同的视角发现该成员在不同的社区连接的网络拓扑中承担不同的角色与任务，而传统的算法只能进行精确的划分，对真实网络而言，丢失了很多重要的信息。

发明内容

本发明提出一种复杂网络中的社区划分方法，以若干个不同的局部带有影响力的节点为核心，并使节点的影响力从核心逐层向外均匀扩散，最终形成了以影响力最大的节点为核心，逐层扩展中节点的影响力不断衰减，它们之间相互关联形成一个局部区域，扩展到方法的停止，节点影响力很小，到达该局部区域的网络边缘。本方法能够很好的识别网络中的局部社团结构，并对网络内成员类型进行分类，更加符合真实网络中节点多样性的特点，尤其对于一个大规模的无序复杂网络，能够迅速的定位不同重要程度的节点位置，挖掘出一些更细粒度上的信息，同时可以保持了原有网络的结构特性不变，对原有的大规模复杂网络进行简化与规模的缩小，不仅可以提高搜索的效率，更可以从宏观上更清晰的分析出大规模网络的结构。

一种复杂网络中的社区划分方法，包括如下步骤：

步骤1：对于给定的拓扑结构，基于节点局部影响力的特性，选取整个网络结构中的影响范围，计算网络中所有节点相互作用之后而产生的影响力叠加值；

步骤2：选取影响力值最大的节点为中心，选取与该节点直接相连的节点为第一层，按跳数向外扩展，扩展与它相邻的邻居节点作为下一层，形成一个以影响力最大的节点为中心，各层节点中最大影响力数值不断下降趋势的区域；

步骤3：计算每层扩展节点对下一层节点和对上一层节点连接的边数的比值，当这个比值下降时，停止该局部中心的扩展；在扩展的过程中，如果在当前扩展层中存在节点的影响力数值大于前一层节点的最大影响力值，那么就删除该节点，并且对该次扩展的所有剩余节点，利用归属度对剩余节点中每个节点是否属于该局部区域进行判断；否则当前扩展层中存在节点的影响力数值都小于前一层节点的最大影响力值，全部归入该中心形成的局部社团；

步骤4：输出与该局部中心最大值节点存在紧密连接的所有成员，即属于该局部区域的骨干成员(它们对该局部影响力最大的节点都产生影响力的叠加，同时也被最大影响力的局部中心所影响和覆盖)，结束本次扩展；

步骤5：对网络中剩余的节点，转到步骤2，直至网络中所有节点都被扩展过；

步骤6：输出不同局部社区之间的重叠节点和边缘节点，并对边缘节点进行社区归属的判断，统计它与已有局部社区的连接情况，判断该边缘节点是属于哪个局部社区，本方法结束。

所述步骤1中计算网络中所有节点相互作用之后而产生的影响力叠加值，采用香农熵的方式，公式如下所示：

其中，H表示香农熵的值，

为标准化因子，

为网络中节点v₁，…，v_n的影响力值；

如果每个节点的影响力值相同，则说明网络拓扑中节点没有差异，即具有最大的香农熵，反之，如果节点的影响力非常的不同，则说明不确定性最小，具有最小的香农熵，选取香农熵为最小的影响范围值。

所述步骤3中的边数比值，计算公式如下：

\frac{N (s, d)}{N (s, d - 1)}

其中，N(s，d)表示d层所有的扩展节点s的边数，N(s，d-1)表示d层所有的扩展节点s在d-1层的边数。

所述步骤3的归属度为节点与前层节点的连接边数与该节点本身固有的度数的比值，对该节点是否属于该局部区域进行判断，当归属度大于0.5时，则认为该节点属于该局域社区，对该节点进行归并到该局部的社区内部。

所述步骤6中对该边缘节点进行社区归属的的判断，具体方法是选择每个边缘节点与每个不同社区内部存在的连边数目，连边数目越大的社区为该边缘节点的所属社区。

本发明一种复杂网络中的社区划分方法的优点在于：

(1)借用物理学中场的思想，可以更真实的反应网络中节点拓扑位置的差异性和影响力程度，并且对于不同的网络，调整网络中节点的影响力范围，更加体现了节点的本质特性；

(2)以影响力大的节点为网络中的局部中心，不仅从数学分析还是从网络中社区的本质特性，这种思想都能够很好的体现出社区的结构和网络内节点之间的交互关系，而不需要更多的人为指定与先验知识对网络进行限制；

(3)通过节点之间的影响力和交互关系，可以将网络中的节点分为多种不同的类型，骨干成员、重叠节点和孤立节点。从不同类型节点的分布情况，也可以进一步的发现整个网络的社区结构，从而完成对社区结构的发掘，并且没有对节点唯一归属的约束，划分的结果不仅准确性高而且更自然合理；

(4)算法的复杂程度低，由于对节点进行了预处理，因此在发掘网络中节点类型和分类的过程中，大大降低了计算的复杂程度，相对于其它的社区结构发现方法而言，性能更优，并且对于大规模的网络，有更多的应用价值。

附图说明

图1为现实世界中蛋白质相互作用的复杂网络，呈现出明显的复杂网络特性；

图2为本发明一种复杂网络中的社区划分方法的实验载体空手道俱乐部的真实网络拓扑图；

图3为本发明一种复杂网络中的社区划分方法的实验载体空手道俱乐部网络的原始图；

图4为本发明一种复杂网络中的社区划分方法的步骤流程图；

图5为本发明一种复杂网络中的社区划分方法的网络成员识别的初始状态1；

图6为本发明一种复杂网络中的社区划分方法的网络成员识别的初始状态2；

图7为本发明一种复杂网络中的社区划分方法的网络成员识别的初始状态3；

图8为本发明一种复杂网络中的社区划分方法的网络成员识别的初始状态4；

图9为本发明一种复杂网络中的社区划分方法的网络成员识别的初始状态5；

图10为本发明一种复杂网络中的社区划分方法的网络成员识别的初始状态6；

图11为本发明一种复杂网络中的社区划分方法的网络成员识别的最终结果网络拓扑图；

图12为本发明一种复杂网络中的社区划分方法的网络成员识别的节点的影响力变化曲线。

具体实施方式

下面将结合附图对本发明作进一步的详细说明。

本发明的目的在于基于网络中节点的影响力大小而提出一种挖掘不同节点类型的方法，采取物理学中场的思想，计算网络拓扑空间中节点的影响力场的相互作用大小，并按照影响力从大到小的结果进行输出，提取以最大影响力为核心的节点所覆盖的节点成员称为骨干成员，局部区域之间相互重叠的节点集合为重叠节点，没有被该区域的核心节点所覆盖的节点即为孤立节点，从而对大规模复杂网络中众多的节点从微观的层面进行了分类，发现更细粒度上的一些潜在的信息。

为了验证本方法的正确性与有效性，本实施例采用该领域研究者公认的数据集为实验载体，进一步的详细说明，采用著名的Zachary社会关系网。

20世纪70年代，Wayne Zachary用三年时间(1970～1972年)观察美国一所大学空手道俱乐部成员间的社会关系，并构造如图2所示的俱乐部成员社会关系网。网络包含34个节点，78条边，每个节点表示一个俱乐部成员，节点间的连接表示两个成员经常一起出现在俱乐部活动(如空手道训练、俱乐部聚会等)之外的其他场合，即在俱乐部之外他们可以被称为朋友。

调查过程中，该俱乐部因为主管John A.(节点34)与教练Mr.Hi(节点1)之间的争执而分裂成2个各自以他们为核心的小俱乐部，图中不同颜色与形状的节点代表分裂后的小俱乐部成员。由于该网络作为一个真实的小型社会关系网，大量被研究者用于测试社区发现方法的有效性。

首先对整个网络中所有节点的类型不进行任何的标注和处理，节点的类型和大小形状进行统一，即最原始的网络拓扑图，如图3所示，图中所有的34个点都表示该俱乐部的个体，从图中可以看出，这些个体地位均等，体现不出个体周围的紧密连接程度，下面进行按实例逐步实施，如图4所示：

步骤1：对俱乐部网络中的所有节点，计算它们的影响力值，所以首先根据网络的拓扑结构，选取最优的影响范围大小，从而，说明在此影响范围的情况下，网络中节点的差异性最大，整个网络的不确定性程度也最大。

计算网络节点的影响范围，采用香农熵的方式，公式如下所示，信息论中，香农熵是用来度量系统不确定性程度，熵越大，不确定性就越大，如果每个节点的影响力值相同，则说明网络拓扑中节点没有差异，即具有最大的香农熵，反之，如果节点的影响力非常的不同，则说明不确定性最小，具有最小的香农熵，因此为了突出节点位置与影响力范围的不同，选取香农熵为最小的影响范围值。

其中，

为标准化因子，

为网络中节点v₁，…，v_n的影响力值。

采用香农熵公式选取影响力最小时候的影响因子取值，即为最优的影响范围，具体采用搜索中的折半方法，通过不断折半选取影响范围值，使搜索的区间不断减小，直至获得满足精度要求的影响范围极小值，即为最优影响范围，对于该俱乐部网络取得的值为σ等于0.942463。

使用物理场中的高斯函数的形态，抽象出如下公式计算节点的影响力大小，如下式所示，即为网络拓扑中每个节点被整个空间其它所有节点影响力的一个叠加的影响力总和，数值最大，表明该节点在整个网络中影响程度越大：

其中，n表示网络中的节点数目，d_ij表示节点v_i，v_j间的网络距离，这里采用最短路径长度(即从一个节点到另外一个节点所经过的边的条数的最小值)来度量；σ是网络中所求取得最优影响范围。从而得到该网络中每个节点的影响力大小结果如表1所示。

表1Zachary网络原始的网络中每个节点的影响力大小结果

节点标签	最优影响范围σ下的节点影响力值	节点标签	最优影响范围σ下的节点影响力值
				34	6.514539	26	1.973154
1	6.190155	25	1.973154
				33	4.892616	20	1.973154
3	4.243847	11	1.973154
				2	3.919462	5	1.973154

32

2.946308

27

1.648769

4	2.946308	23	1.648769
				24	2.621923	22	1.648769
14	2.621923	21	1.648769
				9	2.621923	19	1.648769
31	2.297539	18	1.648769
				30	2.297539	17	1.648769
28	2.297539	16	1.648769
				8	2.297539	15	1.648769
7	2.297539	13	1.648769
				6	2.297539	10	1.648769
29	1.973154	12	1.324385

步骤2：对于该俱乐部网络而言，影响力值最大的节点为34号节点，扩展以34号节点为中心的所有邻居节点作为下一层，之后在以34号节点的所有邻居的直接邻居进行不断循环扩展，形成一个以影响力最大的34号节点为中心，扩展的各层节点中最大影响力数值不断下降的趋势的区域；

从表中的结果我们可以看出该网络中影响力值最大的节点为34，选取34号节点为一个局部中心，逐层扩展与它相邻的邻居节点，形成一个以影响力最大的34号节点为中心，各层节点中最大影响力数值不断下降的趋势；

步骤3：计算以34为局部中心进行扩展的过程，每层扩展出来的所有节点对下一层节点和对上一层节点连接的边数的比值，计算公式如下：

\frac{N (s, d)}{N (s, d - 1)}

其中，N(s，d)表示以局部中心向下扩展到d层，d层中所有的扩展节点s的边数，N(s，d-1)表示d层中所有的扩展节点s在d-1层的边数。

当上述的比值出现下降时，停止该局部中心的循环扩展过程；在之前的扩展过程中，如果出现当前扩展层中存在节点的影响力数值大于前一层节点的最大影响力值，那么就删除该节点，并且对该次扩展的所有剩余节点，利用归属度判断该次扩展的所有剩余节点是否属于该局部区域，归属度为节点与前层节点的连接边数与该节点本身度数的比值，对该节点是否属于该局部区域进行判断，当归属度大于0.5时，则认为该节点属于该局域社区，对该节点进行归并到该局部的社区内部。

如果当前扩展层中存在节点的影响力数值都小于前一层节点的最大影响力值，即每层扩展的节点中最大的影响力数值都呈一个下降的趋势，全部归入该局部中心形成的局部社团。

以34号节点为局部中心值进行扩展，初始状态1如图5所示。从图中可以看出，34号节点为圆形标记，其它圆形外层为方型的节点表示以34为节点下层待扩展的所有节点。因此，选取影响力值最大的节点34为局部中心进行邻居节点的扩展，包含节点{9，10，14，15，16，19，20，21，23，24，27，28，29，30，31，32，33}，从表1中可以看出该层节点中影响力最大的为33号节点，值为4.892616；计算34号节点向外层扩展的所有节点{9，10，14，15，16，19，20，21，23，24，27，28，29，30，31，32，33}，对前一层节点和对后一层节点连接的边数，分别为{34→9，34→10，34→14，34→15，34→16，34→19，34→20，34→21，34→23，34→24，34→27，34→28，34→29，34→30，34→31，34→32，34→33}，共17条；{24→26，28→25，26→32，25→32，1→32，1→20，1→9，1→14，3→28，3→29，3→10，3→9，3→14，2→20，2→31，2→14，4→14，3→33}，共18条；计算后一层与前一层之间的边数的比值为1.058824，没有满足比值下降的终止条件，因此继续扩展。

此时，以34为局部中心的节点包括{9，10，14，15，16，19，20，21，23，24，27，28，29，30，31，32，33}。形成的初始状态2如图6所示，从图中我们可以看出，与表示初始状态1的图5相比，第一层扩展的所有节点{9，10，14，15，16，19，20，21，23，24，27，28，29，30，31，32，33}的形状都变成了圆形，即都是属于34为中心的局部区域，而下一层待扩展的节点{1，2，3，4，25，26}用圆形带外方型轮廓来标识，表示待扩展的所有节点。

继续扩展以34为局部中心的节点的下层节点{1，2，3，4，25，26}，统计该层节点{1，2，3，4，25，26}对上一层和对下一层的边数，分别为18条：{24→26，28→25，26→32，25→32，1→32，1→20，1→9，1→14，3→28，3→29，3→10，3→9，3→14，2→20，2→31，2→14，4→14，3→33}和15条：{3→8，1→7，1→6，1→5，1→11，1→13，1→12，1→22，1→18，4→13，2→22，2→18，2→8，1→8，4→8}，比值为0.833333，小于上次扩展中的比值1.058824，即在该层扩展过程中出现了边比值下降的趋势，即以34号节点为局部中心的扩展到达社区的边缘，该次扩展停止。

对该层中所有节点进行比较，从表1中可以看出，由于1的影响力值大于前层的最大值，即33号节点，因此在扩展的该层节点中删除节点1，并且对最外层的节点{2，3，4，25，26}依据归属度进行判断，如下所示：

节点标号向内的度数总度数结论

2 2 9 排除

3 6 10 保留

4 1 6 排除

25 2 3 保留

26 2 3 保留

步骤4：输出俱乐部网络中以34号节点为局部中心的所有骨干成员，包括{34，9，10，14，15，16，19，20，21，23，24，27，28，29，30，31，32，33，3，25，26}，初始状态3如图7所示，从图中我们可以看出，这是本方法以34节点为中心扩展的最终结果，与图6相比，将图6中待扩展的节点，即圆形方型外框的节点，依据归属度和影响力值进行比较，删除了不属于本区域的成员，所有的节点都是圆形节点，用外轮廓标记了本方法的最终结果成员。

步骤5：对网络中剩余的节点，转到步骤2，

步骤2a：从剩余的所有节点中，选取影响力值最大的节点为1，新一轮的递归查找开始，初始状态4如图8所示。从图中可以看出，1号节点为竖方型标记，其它圆形外层为方型的节点表示以34为节点下层待扩展的所有节点。因此，选取影响力值最大的节点1为局部中心进行邻居节点的扩展，包含节点{2，3，4，5，6，7，8，9，11，12，13，14，18，20，22，32}。

步骤3a：从表1中可以看出该层节点中影响力最大的为3号节点，值为4.243847；计算1号节点向外层扩展的所有节点{2，3，4，5，6，7，8，9，11，12，13，14，18，20，22，32}对上一层和对下一层的边的数目，分别为16条：{1→2，1→3，1→4，1→5，1→6，1→7，1→8，1→9，1→11，1→12，1→13，1→14，1→18，1→20，1→22，1→32}和17条：{32→25，32→26，3→28，3→29，29→32，34→32，34→20，34→9，34→14，33→32，33→3，33→9，10→3，31→9，31→2，17→6，17→7}，计算它们之间的比值为1.062500，此时形成的初始状态5如图9所示。从图中我们可以看出，与表示初始状态4的图8相比，第一层扩展的所有节点{2，3，4，5，6，7，8，9，11，12，13，14，18，20，22，32}的形状都变成了竖方型，即都是属于以1号节点为中心的局部区域，而下一层待扩展的节点{17，25，26，28，29，33，34，31，10}用圆形带外方型轮廓来标识。

以1号节点为局部中心进行第二层的扩展，包含的节点为{17，25，26，28，29，33，34，31，10}，统计该层节点{17，25，26，28，29，33，34，31，10}对上一层和对下一层的边数，分别为17条17条{32→25，32→26，3→28，3→29，29→32，34→32，34→20，34→9，34→14，33→32，33→3，33→9，10→3，31→9，31→2，17→6，17→7}和17条{24→26，24→28，24→34，24→33，30→34，30→33，27→34，21→34，21→33，15→34，15→33，19→34，19→33，23→34，23→33，16→33，16→34}计算它们之间的比值为1，比值出现下降，停止局部中心1号节点的扩展。

对该层的所有节点{17，25，26，28，29，33，34，31，10}进行影响力值与归属度的比较，从表1中可以发现，由于该层的节点33(4.892616)和34(6.514539)的影响力值大于前层节点的影响力值得最大值3号节点，为4.243847。因此删除33和34，并对该层剩余的所有节点{17，25，26，28，29，31，10}进行归属度的比较，如下所示：

节点标号向内的度数总度数结论

10 1 2 删除

31 2 4 删除

29 2 3 保留

28 1 4 删除

25 1 3 删除

26 1 3 删除

17 2 2 保留

步骤4a：输出俱乐部网络中以1号节点为局部中心的所有骨干成员，包括{2，3，4，5，6，7，8，9，11，12，13，14，18，20，22，32，17，29}，如图10所示，从图中我们可以看出，这是本方法以1节点为中心扩展的最终结果，与图9相比，将图9中待扩展的节点，即圆形方型外框的节点，依据归属度和影响力值进行比较，删除了不属于本区域的成员，所有的节点都是方形节点，用外轮廓加粗标记了1社区的最终结果成员。

步骤5a：此时网络中所有节点都已经被发现，算法完毕

步骤6：输出不同局部社区内同时存在的节点，即两个局部社区之间的重叠节点；输出边缘节点，并对边缘节点进行社区归属的判断，统计它与已有局部社区的连边情况，判断该边缘节点是属于哪个局部社区。也就是对节点的连边情况进行判断，选择连边数目最大的社区为该边缘节点的所属社区。本方法结束。

以34为局部中心的区域和以1号节点为局部中心的区域中的重叠节点为{3，9，14，32，29，20}；

该网络不存在边缘节点；

实验结果最终形成的拓扑结构图如图11所示，其中黄色圆圈代表34为局部中心的社区成员，红色方形代表1为局部中心的社区成员，其中蓝色三角型的代表两个社区之间的重叠节点。从图中可以看出对于整个网络拓扑，实际是分别以两个局部中心(34号节点和1号节点)而形成了相对连接紧密的区域，在各自的局部空间内，成员之间的关系更紧密，并且逐层向下影响力越来越小，它们的边界区分非常明显，并且在两个区域的中间位置，存在一些节点与两个区域都存在着紧密的联系，为重叠节点。

在整个网络扩展的过程中，节点的影响力变化趋势如图12所示，横坐标表示网络中节点的标签，纵坐标表示节点的拓扑势值。从折线图中可以看出，首先选出了影响力最大的34号节点，之后进行扩展它的下一层节点{9，10，14，15，16，19，20，21，23，24，27，28，29，30，31，32，33}，它们的影响力值也不断的衰减，由于边数比值没有下降，所以进行再下一层的扩展，节点为{3，25，26}，第一次循环结束，重复步骤2，以1为局部中心，之后进行扩展它的下一层节点{17，25，26，28，29，33，34，31，10}，它们的影响力值也不断的衰减，由于边数比值没有下降，所以进行再下一层的扩展，节点为{17，29}，算法停止，从折线图的变化趋势可以很好的看出，在扩展的过程中，每层节点的影响力呈下降趋势。

进一步，如果对该网络中的重叠节点进行精确划分，在归属度的基础上，比较每个重叠节点与各自每个社区内骨干成员之间的边的数目，边数越多，则与该社区的连接更为紧密，判断其属于该社区，这样对各种类型的节点进行了精确的归属度划分，便形成了明确的社区结构。

针对该俱乐部网络中的重叠节点分析结果如下：

社区1(34) 社区2(1) 结论

3 3 4 2

9 3 1 1

14 1 3 2

32 4 1 1

29 1 0 1

20 1 2 2

因此，对所有的重叠节点进行归属后，便得到了俱乐部网络的社区结构，实验结果表明，经过该方法得到的社区结果与俱乐部网络的真实结构划分结果完全相同如图2所示，不存在任何误分的节点。这也体现了本方法的正确性和有效性。

Claims

1.一种复杂网络中的社区划分方法，其特征在于，包括如下步骤：

步骤一：对于给定的拓扑结构，基于节点局部影响力的特性，采用香农熵的方式选取整个网络结构中的影响范围，采用物理场中高斯函数计算网络中所有节点相互作用之后而产生的影响力值；

所述采用香农熵的方式，公式如下所示：

其中，H表示香农熵的值；

为标准化因子；

为网络中节点v₁，…，v_n的影响力值；如果每个节点的影响力值相同，则具有最大的香农熵，反之，如果节点的影响力非常的不同，则具有最小的香农熵，选取香农熵为最小的影响范围值；

所述采用物理场中高斯函数计算网络中所有节点相互作用之后而产生的影响力值，如下式所示：

其中，n表示网络中的节点数目；d_ij表示节点v_i，v_j间的网络距离，采用最短路径长度来度量，所述最短路径长度是指从一个节点到另外一个节点所经过的边的条数的最小值；σ是网络中所求取得最优影响范围，所述最优影响范围指采用香农熵公式选取香农熵为最小的影响范围值，具体采用搜索中的折半方法，通过不断折半选取影响范围值，使搜索的区间不断减小，直至获得满足精度要求的影响范围极小值；

步骤二：选取影响力值最大的节点为局部社区中心，选取与该节点直接相连的节点为第一层，按跳数向外扩展，扩展与它相邻的邻居节点作为下一层，形成一个以影响力值最大的节点为局部社区中心，各层节点中最大影响力数值不断下降趋势的局部社区；

步骤三：计算每层扩展节点对下一层节点和对上一层节点连接的边数的比值，当这个比值下降时，停止该局部社区的扩展；在扩展的过程中，如果在当前扩展层中存在节点的影响力数值大于前一层节点的最大影响力值，那么就删除该节点，并且对该次扩展的所有剩余节点，利用归属度对剩余节点中每个节点是否属于该局部社区进行判断；如果当前扩展层中存在节点的影响力数值都小于前一层节点的最大影响力值，则全部归入该局部社区中心形成的局部社区；

步骤四：输出与该局部社区中心存在紧密连接的所有成员，所述输出的成员属于该局部社区的骨干成员，所述局部社区的骨干成员对该局部社区中心都产生影响力的叠加，同时也被局部社区中心所影响和覆盖，结束本次扩展；

步骤五：对网络中剩余的节点，转到步骤二，直至网络中所有节点都被扩展过；

步骤六：输出不同局部社区之间的重叠节点和边缘节点，并对边缘节点进行社区归属的判断，统计它与已有局部社区的连接情况，判断该边缘节点是属于哪个局部社区，本方法结束。

2.根据权利要求1所述一种复杂网络中的社区划分方法，其特征在于：所述步骤三中的边数比值，计算公式如下：

\frac{N (s, d)}{N (s, d - 1)}

3.根据权利要求1所述一种复杂网络中的社区划分方法，其特征在于：所述步骤三的归属度为节点与前层节点的连接边数与该节点本身固有的度数的比值，对该节点是否属于该局部社区进行判断，当归属度大于0.5时，则认为该节点属于该局部社区，对该节点进行归并到该局部的社区内部。

4.根据权利要求1所述一种复杂网络中的社区划分方法，其特征在于：所述步骤六中对该边缘节点进行社区归属的判断，具体方法是选择每个边缘节点与每个不同社区内部存在的连边数目，连边数目最大的社区为该边缘节点的所属社区。