CN106599090A

CN106599090A - 基于结构中心性的网络社区发现方法

Info

Publication number: CN106599090A
Application number: CN201611052197.9A
Authority: CN
Inventors: 潘理; 汪晓锋; 李建华
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2017-04-26

Abstract

本发明提供了一种基于结构中心性的网络社区发现方法，其能有效揭示复杂网络中固有的社区结构。根据节点的局部交互信息及节点间全局信息，提出了一种节点中心性度量，以定位网络中的局部结构中心节点，同时确定社区聚类数量；基于识别的结构中心，本发明采用一种启发式的局部搜索策略，从结构中心向边缘扩展的方式揭示完整的社区结构。同时，本发明通过对社区结构定义一个边界区域，有效识别出了网络社区中不同的节点角色，以揭示网络群体结构特征。通过大量实验证明了本方法能有效揭示网络中的社区结构，普适性较强，具有较高的应用价值。

Description

基于结构中心性的网络社区发现方法

技术领域

本发明属于复杂网络分析技术研究领域。具体地，涉及一种基于结构中心性的网络社区发现方法。

背景技术

复杂网络是对复杂系统的一种抽象描述，网络中的节点表示复杂系统中的个体，网络中的连边表示复杂系统中个体间的内在联系。复杂网络已成为一个广泛的交叉学科，其涉及物理、生物、社会科学、系统科学、网络科学等学科领域，逐渐成为解决复杂问题的一个挑战性研究课题，并在众多领域有着广泛的应用，如社交网络分析、生物工程、电力与交通、人类行为分析、大数据分析等。对复杂网络的研究分析，极大地拓展了人们理解世界的广度和深度，有着重大的现实意义。目前，在大量的复杂网络研究中，对复杂网络中社区结构的研究是一个重大的研究焦点。一般说来，复杂网络中的社区结构对应复杂系统中不同的功能模块和结构单元。对于给定的网络结构划分，社区内部节点相对于社区之间有着更紧密的连接。例如在社交网络中，由于社会交互性的增强，基于不同兴趣、主题、职业、地域等特征形成的大量紧密群体，社区结构特征尤为明显。通信网络中的社区代表了通信群或个人关系网。因此，挖掘网络中紧密联系的社区结构对理解和分析网络结构属性、信息传播规律、人类社会组织结构等有重要的理论意义和广泛的应用价值。

网络社区发现旨在揭示网络中带有某种自然属性的局部结构，根据一定的规则，将网络中相互连接的节点划分为若干模块，使得各模块内部的联系相对稠密，模块间的连接相对稀疏。尽管社区结构的概念便于理解，但由于网络结构的多样性和复杂性，社区发现方法也复杂多样。在复杂网络的社区结构研究中，大量的社区发现算法被提出，如基于图分割、层次聚类、派系过滤、中心度测量、谱聚类、基于模块度优化、连边检测等。尽管如此，大部分方法需要先验知识指导才能实现有效划分，同时没有提出一个统一的度量准则，因此有其局限性。根据社区结构的定义，一个网络可以看作是多个社区组合而成。对于社区结构划分，仍然有两个关键问题需要解决：一是确定社区结构的数量。对于一个的复杂网络结构，其社区划分和节点的从属关系是无法提前预知的，而目前很多社区发现方法需要预先设定社区的数量；另一个就是每个社区成员确定。在现实网络中，由于网络机构的复杂性和多样性，一个节点应属于此社区而非彼社区，或者同时属于多个不同社区。如何确定网络节点的类别属性，避免社区结构的不合理划分，依然是一个挑战性的问题。传统的社区划分方法如图分割将网络中的每一个节点硬性地划分到一个特定的社区，而忽略了其内在联系。

另外，社区结构中的节点是基于某种相似性或共同特征如社交网络中的不同兴趣、爱好、主题等关系联系在一起，具有某种相同的属性，这是人们研究社区划分的出发点之一。对于非重叠社区发现问题来说，目前大量现有的社区结构发现方法从全局的角度划分社区，使得既定的目标函数得到最优解，如此的划分会导致社区的不合理划分。实际上，在真实网络结构如社交网络中，社区的形成主要取决于个体间的局部交互，而受整个网络的影响甚微。另外，尽管有一些局部的方法被提出，但是这些局部社区发现方法不能揭示固有的社区结构，同时忽略了社区中不同的节点角色。

针对社区发现中的聚类数目和社区有效划分两个基本问题，本发明提出了一种基于结构中心性的网络社区结构发现方法。该方法有效揭示了潜在的社区结构，同时识别出了网络社区中不同的节点角色。本发明提出用密度聚类的思想而来解决复杂网络中的社区结构发现问题。

发明内容

针对现有技术中的缺陷，本发明提供一种基于结构中心性的网络社区发现方法。

根据本发明提供的一种基于结构中心性的网络社区发现方法，包括如下步骤：

步骤S1、建立待分析网络的邻接矩阵A，根据节点顺序对待分析网络中的节点进行编号，编号从1开始，构建元素为0或1的N阶方阵，其中N为节点总个数；

步骤S2、初始化标记所有节点为未分类节点；

步骤S3、识别出待分析网络中的结构中心节点；

步骤S4、选取一个未被处理的结构中心节点并初始化为初始的社区结构，通过局部节点扩展进而识别整个社区结构；

步骤S5、针对识别到的社区结构，找到对应的社区边界，逐步识别出不同的节点角色作为节点分类，并划分到各自的社区结构中；若还存在未被处理的结构中心节点，则返回步骤S4继续执行；否则，则认为完成社区结构划分。

优选地，步骤S5包括，认为完成社区结构划分并进入步骤S6继续执行；

步骤S6、基于社区结构划分，评价社区结构划分的质量。

优选地，所述步骤S3，具体过程包括：

步骤S31、对待分析网络计算结构中心性：

sc(i)＝ρ_i*δ_i，i∈[1，N]

其中，sc(i)表示节点i的结构中心性；i表示节点序号，N为网络节点数；ρ_i表示节点i的局部密度；δ_i表示节点i与局部密度高于ρ_i的节点j之间最小的相对距离；其中，当x＜0时，则函数ψ(x)＝1，否则，则函数ψ(x)＝0；d_ij表示邻接矩阵A中节点i与节点j之间的距离，d_c为截断距离；ρ_j表示节点j的局部密度，

步骤S32、计算待分析网络中全部节点的平均结构中心性，将结构中心性大于平均结构中心性的节点作为候选结构中心节点，插入候选中心节点队列CC；

步骤S33、将候选中心节点队列CC中的候选结构中心节点按结构中心性降序排列；

步骤S34、在候选中心节点队列CC中，选取第一个候选结构中心节点作为结构中心节点，并从候选中心节点队列CC中删除该候选结构中心节点；

步骤S35、计算当前候选队列队CC中待识别的第一个候选结构中心节点与已识别的所有结构中心节点间的距离，如果距离小于截取距离d_c则将该候选结构中心节点作为结构中心节点且删除这个候选结构中心节点，否则作为已识别的候选结构中心节点保留在候选队列CC中；

其中，步骤S35被反复执行，直到识别出所有的结构中心节点。

优选地，所述步骤S4，具体包括：

步骤S41、初始化结构中心节点为初始的社区结构，其中，将社区结构记为

步骤S42、将社区结构的邻居节点逐一合并到社区结构中，具体为：

当邻居节点v添加到社区结构后，计算社区结构的子图密度增益ΔD_v；社区结构的子图密度函数定义如下：

其中，表示社区结构内部连边的数量，表示社区结构内部节点的数量，ρ_i为节点i的局部密度；

步骤S43、当ΔD_v＞0时，保持将邻居节点添加至社区结构中，否则将该邻居节点从社区结构中去除，然后更新社区结构的邻居节点集合；

其中，步骤S43被反复执行，直到社区结构的子图密度函数不再增加为止。

优选地，所述步骤S5，具体步骤包括：

步骤S51、基于识别的第i个社区结构找到第i个社区结构的社区边界区域社区边界区域由社区边界节点组成，定义如下：

其中，v，w分别表示属于第i个社区结构第j个社区结构的节点，dist(v，w)表示两节点v，w间的距离；

步骤S52、计算社区结构的社区边界密度ρ_b；

社区边界密度ρ_b定义为社区边界区域中具有最大密度的边界节点，公式定义如下：

ρb＝max_i∈Bρ_i

步骤S53、将社区结构中节点密度小于社区边界密度ρ_b的社区边界节点划分为边缘节点，而节点密度大于或等于ρ_b的社区边界节点划分为核心节点，其中，社区边界区域记为B，i∈B表示所有社区边界区域中的社区边界节点。

优选地，社区结构划分的质量的具体计算公式定义如下：

其中，Q表示社区结构划分的质量；i为社区结构数量，e_ii表示第i个社区结构内部节点间连边的数量占整个网络边数的比例，a_i表示一端与第i个社区结构中节点相连的连边数量占整个网络连边数量的比例。

与现有技术相比，本发明具有如下的有益效果：

1、本发明在传统网络社区发现的基础上，运用密度聚类的方法实现网络社区结构的有效划分；与现有算法不同的是，该方法直接定位社区结构中心，然后扩展整个有意义的社区结构，从而避免了网络结构的不合理划分，并进一步提高了社区结构划分的合理性和可靠性；

2、本发明基于密度聚类思想提出了一种新的节点中心性度量，从多维角度挖据节点属性，在完成网络划分前就能有效确定网络中的社区结构数量；

3、本发明基于节点的局部密度特性，结合节点的局部结构信息，提出了社区边界的概念，有效区分了社区结构中不同的节点角色。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1、图2为本发明所提供方法在真实网络结构中的应用示意图。

图3为本发明所提供方法与其他方法在GN网络上的性能对比图。

图4、图5为本发明所提供方法与其他方法在小规模LFR网络上的性能对比图。

图6、图7为本发明所提供方法与其他方法在较大规模LFR网络上的性能对比图

图8、图9为本发明分析一个真实网络的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明公开了一种基于结构中心性的网络社区发现方法。该方法能有效揭示复杂网络中固有的社区结构。根据节点的局部交互信息及节点间全局信息，提出了一种节点中心性度量，以定位网络中的局部结构中心节点，同时确定社区聚类数量；基于识别的结构中心，本发明采用一种启发式的局部搜索策略，从结构中心向边缘扩展的方式揭示完整的社区结构。同时，本发明通过定义一个边界区域，有效识别出了网络社区中不同的节点角色，以揭示网络群体结构特征。通过大量实验证明了本方法能有效揭示网络中的社区结构，普适性较强，具有较高的应用价值。

根据本发明提供的基于结构中心性的网络社区发现方法，包括：

S1、建立待分析网络的邻接矩阵A，根据节点顺序对待分析网络中的节点进行编号，编号从1开始，构建元素为0或1的N阶方阵，其中N为节点总个数；

S2、初始化标记所有节点为未分类节点；

S3、识别出待分析网络中的结构中心节点；

S4、选取一个未被处理的结构中心节点并初始化为初始的社区结构，通过局部节点扩展进而识别整个社区结构；

S5、针对识别到的社区结构，找到对应的社区边界，逐步识别出不同的节点角色作为节点分类，并划分到各自的社区结构中；若还存在未被处理的结构中心节点，则返回步骤S4继续执行；否则，则认为完成社区结构划分，并进入步骤S6继续执行；

S6、基于社区结构划分，评价社区结构划分的质量。

所述步骤S3具体包括：

S31、对待分析网络计算其结构中心性分布。结构中心性由具有较大的局部密度同时与其他高密度节点保持相对大的距离的节点来刻画。为了定位局部结构中心节点，本方法提出结构中心性以度量结构中心节点。

其中，节点局部密度定义如下：

其中，当x＜0时，ψ(x)＝1，否则ψ(x)＝0。d_ij表示连接矩阵A中节点i与节点j之间的距离，d_c为截断距离。距离度量有多种替代形式，在此采用最短路径作为距离度量。

其中，相对距离表示节点以其他高密度节点间的最小距离，其定义如下：

因此，结构中心性定义如下；

sc(i)＝ρ_i*δ_i

其中，i表示网络节点序号(i∈[1，N])，ρ_i表示节点i的局部密度，δ_i表示节点i与其他高密度节点间最大的相对距离；

S32、计算节点的平均结构中心性，将大于平均值的节点插入候选中心节点队列CC；

S33、将候选结构中心节点按局部密度降序排列；

S34、选取第一个节点作为首个结构中心节点，并从候选队列中删除该节点；

S35、计算当前候选队列队CC中待识别的第一个候选结构中心节点与已识别的所有结构中心节点间的距离，如果距离小于截取距离d_c则将该候选结构中心节点作为结构中心节点且删除这个候选结构中心节点，否则作为已识别的候选结构中心节点保留在候选队列CC中；

其中，步骤S35被重复执行，直到识别出所有的结构中心节点。

优选地，所述步骤S4，具体步骤包括：

S41、初始化结构中心节点为初始的社区结构

S42、将社区结构的邻居节点逐一合并到社区结构中，具体为：

其中，表示社区结构内部连边的数量，表示社区结构内部节点的数量，ρ_i为节点i的局部密度；当截断距离d_c取值为1时，其中k_i表示节点i的度，即表示节点局部密度与节点度等价；

定位结构中心节点的过程如图1、图2所示。其中图1表示一个规模为1000个节点的基准网络在节点密度和相对距离两个维度上的分布。该基准网络接近真实网络结构，其节点度分布和网络社区规模分布均服从幂律分布，且具有已知的社区结构划分。图2表示该基准网络节点的结构中心性分布情况，其中，在水平截线以上的16个节点对应不同的结构中心节点。通过分析可知，这些识别节点分别分布在不同的社区中，与真实的网络社区划分完全一致。

S43、当ΔD_v＞0时，保持将邻居节点添加至社区结构中，否则将该邻居节点从社区结构中去除，然后更新社区结构的邻居节点集合；

优选地，所述步骤S5，具体步骤包括：

S51、基于识别的第i个社区结构找到第i个社区结构的社区边界区域社区边界区域由社区边界节点组成，定义如下：

S52、计算社区结构的社区边界密度ρ_b；

ρ_b＝max_i∈Bρ_i

S53、将社区结构中节点密度小于社区边界密度ρ_b的社区边界节点划分为边缘节点(outlier)，而节点密度大于或等于ρ_b的社区边界节点划分为核心节点(cores)。

社区结构划分的质量的具体计算公式定义如下：

是表示社区结构的统一符号，则表示第i个社区结构。

B是表示社区边界区域的统一符号，B_i则表示第i个社区边界区域。

为详细说明说提供方法的有效性和可扩展性，本发明通过实验进行了下面的实施例。

1)实验条件：CPU Intel Pentium Dual-Core 2.0-GHz，RAM 4.00GB，Windows 7操作系统，仿真软件RStudio。

2)实验对象

实验分别选取人工合成网络和真实世界网络。

人工合成网络

人工生成网络分别使用GN基准网络和LFR基准网络。GN基准网络由Girvan和Newman于2002年在论文“Community structure in social and biological networks”(Girvan M，Newman M.E.Proceedings of the National Academy of Sciences of theUnited States of America.2002，99(12)：7821-6.)中提出。该网络由128个节点组成四个相等规模的社区结构，节点具有相同的度分布，而节点的出度和入度可调节，其用混合参数μ表示节点的出入度比例以调整网络的模糊程度，μ值越大，网络社区间的界限越模糊。LFR基准网络由Lancichinetti等人在2008年提出(Lancichinetti A，Fortunato S，RadicchiF.Benchmark graphs for testing community detection algorithms.Physical ReviewE.2008，78(4)：046110.)。实际上，LFR基准网络是GN基准网络的扩展，其反映了节点度分布和社区结构规模分布的同质性，即节点度分布和社区规模满足幂律分布，使得网络结果更接近真实网络。为了评价发明方法的性能，使用标准互信息(NMI)来度量划分结果。若NMI值越接近于1，说明发现的网络社区结构越接近真实的社区结构。

本发明说描述方法在实验中用LCCD表示。同时，为体现其性能效果，本方法与其他六个经典的社区发现方法进行了比较。这些方法包括三个局部方法：Pons等人于2005年在《20th International Symposium on Computer and Information Sciences》上发表的论文“Computing communities in large networks using random walks”中提出的Walktrap方法、Raghavan等人2007年在《Physical review E》上发表的论文“Near lineartime algorithm to detect community structures in large-scale networks”中提出的LPA方法，和Xu等人2007年在《Proceedings of the 13th ACM SIGKDD internationalconference on Knowledge discovery and data mining》上发表的论文“Scan:astructural clustering algorithm for networks”中提出的SCAN方法，以及包括三个全局方法：Clauset等人2004年在《Physical review E》上发表的论文“Finding communitystructure in very large networks”中提出的CNM方法、Blondel等人于2008年在《Journal of Statistical Mechanics》上发表的“Fast unfolding of communities inlarge networks”中提出的Louvain方法，以及Rosvall和Bergstrom于2008年在《Proceedings of the National Academy of Sciences of the United States ofAmerica》上发表的“Maps of random walks on complex networks reveal communitystructure”中提出的Infomap方法。

基于GN基准网络的仿真实验结果如图3所示。当混合系数小于0.15时，所有方法都能有效检测真实的网络社区结构，即NMI＝1。随着混合系数逐渐增大，各方法的社区结构识别能力呈现不同程度下降。如图3所示，当混合系数不大于0.4时，除了本发明所提供方法LCCD外，还有其他三个方法：Walktrap、Infomap和Lovvain能有效揭示真实的社区结构。然而，当混合系数继续增大，各个方法对网络社区的识别性能都有不同程度下降，但LCCD方法相对其他所有方法仍然具有较大优势。可以发现，尽管LCCD方法在定混合系数小于0.55时的NMI分数略低于Louvain方法，但是，当混合系数超过0.55时，LCCD方法在GN基准网络上表现出最佳性能，并趋于稳定。原因在于本方法是基于社区结构中心的局部扩展策略，在网络社区边界模糊的情况下，仍然能识别最近邻的节点而保持一定的识别能力。显而易见，本发明所提供方法对于社区边界模糊的网络结构具有明显优势。

基于LFR基准网络的仿真实验结果如图4、图5以及图6、图7所示。为了分析网络规模和社区规模对本方法的影响，在此采用了两种不同节点规模(N＝1000和N＝10000)、不同社区规模(B表示大规模社区，S表示小规模社区)分布的LFR基准网络来进行对比，如图中1000B和10000S所示。在LFR网络中，节点度分布、社区数量和社区规模均有变化。当小规模网络的混合系数不大于0.5时(图4、图5)及大规模网络的混合系数不大于0.6时(图6、图7)，本方法能完全揭示真实的网络社区划分。通过观察可以发现，在其他所有对比方法中，仅Louvain方法具有与LCCD相比拟的性能。其中，Infomap方法在混合系数小于0.6时获得最佳的NMI分数，性能稳定。但随着混合系数的增大，其识别能力急剧下降。而本发明说描述方法在混合系数不断降低时仍然能保持一定的识别能力。该实验进一步体现了本方法的有效性和稳定性。

真实世界网络

本发明实验中的真实世界网络选用Zachary空手道俱乐部社交网络。此网络广泛用于测试社区检测算法的有效性和可靠性。此网络是基于Zachery对该俱乐部成员间的社会交互进行了长达两年时间的调查和观察，并构建了一个具有34个俱乐部成员78条边的交互网络。在观察过程中，由于俱乐部管理者(节点1)和教练(节点33)分歧，最终俱乐部成员分裂成两个较小的社区结构。本方法应用于此真实世界网络的结果如图8、图9所示。

在实验中，本发明所提方法能有效检测出网络结构中的分裂现象。实验结果表明，两个带有明显社区结构的群组被检测出，如图8所示。其中，不同的颜色对应不同的社区结构，不同的形状表示不同的节点角色。而在灰度图中，节点序号为1和34的深色圆形节点对应两个结构中心，正方形节点社区中的核心节点，而浅色圆形节点为边缘节点。图9显示了本方法对网络中的结构中心节点的识别过程。通过分析网络中各节点的局部密度和相对距离度量，在这两种度量组成的二维空间坐标中，可以观察到节点差异性分布。其中，偏离大部分节点较远的两个节点同时具有较大的密度和相对距离，从而被识别为结构中心节点，而后续的过程是围绕结构中心节点进行的扩展。通过对比发现，该结果与真实网络划分完全一致。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于结构中心性的网络社区发现方法，其特征在于，包括如下步骤：

步骤S2、初始化标记所有节点为未分类节点；

步骤S3、识别出待分析网络中的结构中心节点；

2.根据权利要求1所述基于结构中心性的网络社区发现方法，其特征在于，步骤S5包括，认为完成社区结构划分并进入步骤S6继续执行；

步骤S6、基于社区结构划分，评价社区结构划分的质量。

3.根据权利要求1所述基于结构中心性的网络社区发现方法，其特征在于，所述步骤S3,具体过程包括：

步骤S31、对待分析网络计算结构中心性：

sc(i)＝ρ_i*δ_i，i∈[1,N]

其中，sc(i)表示节点i的结构中心性；i表示节点序号，N为网络节点数；ρ_i表示节点i的局部密度；δ_i表示节点i与局部密度高于ρ_i的节点j之间最小的相对距离；其中，当x<0时，则函数ψ(x)＝1，否则，则函数ψ(x)＝0；d_ij表示邻接矩阵A中节点i与节点j之间的距离，d_c为截断距离；ρ_j表示节点j的局部密度；

4.根据权利要求1所述基于结构中心性的网络社区发现方法，其特征在于，所述步骤S4，具体包括：

步骤S43、当ΔD_v>0时，保持将邻居节点添加至社区结构中，否则将该邻居节点从社区结构中去除，然后更新社区结构的邻居节点集合；

5.根据权利要求1所述基于结构中心性的网络社区发现方法，其特征在于，所述步骤S5，具体步骤包括：

其中，v,w分别表示属于第i个社区结构第j个社区结构的节点，dist(v,w)表示两节点v,w间的距离；

步骤S52、计算社区结构的社区边界密度ρ_b；

社区边界密度ρ_b定义为社区边界区域中具有最大密度的社区边界节点，公式定义如下：

ρ_b＝max_i∈Bρ_i

步骤S53、将社区结构中节点密度小于社区边界密度ρ_b的社区边界节点划分为边缘节点，而节点密度大于或等于ρ_b的社区边界节点划分为核心节点；其中，社区边界区域记为B，i∈B表示所有社区边界区域中的社区边界节点。

6.根据权利要求2所述基于结构中心性的网络社区发现方法，其特征在于，社区结构划分的质量的具体计算公式定义如下：