CN111464343A

CN111464343A - 一种基于平均互信息的最大派系贪心扩展社区发现方法及系统

Info

Publication number: CN111464343A
Application number: CN202010204588.8A
Authority: CN
Inventors: 李东; 李衍君
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-22
Filing date: 2020-03-22
Publication date: 2020-07-28
Anticipated expiration: 2040-03-22
Also published as: CN111464343B

Abstract

本发明申请公开了一种基于平均互信息的最大派系贪心扩展社区发现方法及系统，AMI‑GCE方法是基于派系的局部扩展社区检测方法，该方法首先会找出复杂网络中的所有最大派系并设置为种子社区，然后再对每一个派系进行局部扩展，每个派系经过扩展后都形成一个稳定的社区结构。在对每一个派系进行扩展时使用了适应度函数与平均互信息相结合的划分标准来判断，选择该派系的邻接点中符合标准的节点加入该派系。重复以上所有的步骤直到所有的种子社区都扩展完毕，此时经过扩展后得到的所有稳定的社区结构就是该复杂网络的社区。不仅考虑了网络中的节点信息，也考虑了节点间的连接信息，有效地提高了社区划分的准确性。

Description

一种基于平均互信息的最大派系贪心扩展社区发现方法及系统

技术领域

本发明申请涉及社区划分质量评价领域，具体涉及一种基于平均互信息的最大派系贪心扩展社区发现方法及系统。

背景技术

近年来，互联网与物联网技术发展迅猛，与此同时，对于复杂网络的研究也成为多个领域的研究热点。复杂网络是指多样、多变以及大规模的网络，具有自组织、自相似、吸引子、小世界效应、无标度性等特性，可以使用拓扑图对其进行建模，建模后由数量巨大的点集以及错综复杂的边集构成。现实生活中有很多这样的复杂网络，比如电力系统、神经网络、社交网络、交通网络、计算机网络等。在社区划分中，社区划分系统通常会构造并评判多种社区结构，并从一种社区结构演变到另一种社区结构。优化社区划分系统的关键是找到一种社区划分质量评价方法，通过该评价方法优化社区划分系统，从而提高社区划分系统的准确性。许多不同种类的优秀社区发现方法也相继被提出。例如派系过滤类方法，该类方法以派系是社区的基本组成单元为出发点进行社区发现；局部扩展类方法，该类方法以社区是由部分中心节点组成为出发点，通过对社区增删节点来完成社区发现。这两类方法一般存在着以下三个缺点：(1)准确度不够高；(2)仅考虑了复杂网络中节点间的连接信息；(3)仅适用于发现重叠社区。

发明内容

本发明申请的目的是针对现有技术的不足，提供了一种基于平均互信息的最大派系贪心扩展社区发现方法，从社区划分质量评价的角度出发，将平均互信息与适应度通过加权的方式进行结合，不仅考虑了网络中的节点信息，也考虑了节点间的连接信息，从而有效地提高了社区划分的准确性。同时本发明申请还公开了一种基于平均互信息的最大派系贪心扩展社区发现方法的系统。

本发明的目的至少通过如下技术方案之一实现。

一种基于平均互信息的最大派系贪心扩展社区发现方法，包括以下步骤：

S1、服务器接收社区划分请求；

S2、利用网络边集V生成网络图；

S3、在网络图中找出所有最大派系；

S4、对所有最大派系进行筛选，筛选后的最大派系初始化为网络图的种子社区集合；

S5、对种子社区集合进行排序，并维持一个已确定社区集合；

S6、从排序后的种子社区集合中选择种子社区S；

S7、判断种子社区S与已确定社区之间的间距是否小于设定的阈值，若是，则进行步骤S6，否则进行步骤S8；

S8、遍历种子社区S的所有邻接节点，并选择合适的邻接节点加入种子社区，直到无合适邻接节点即扩展完毕成为稳定社区CS；

S9、判断稳定社区CS与已确定社区之间的间距是否小于设定的阈值，若是，则进行步骤S6，否则进行S10；

S10、重复步骤S6至S9，直到种子社区集合所有种子社区遍历完毕，得到重叠社区划分结果；

S11、若用户请求为非重叠社区，则对重叠点进行处理，得到非重叠社区划分结果；

S12、遍历网络所有未被遍历的节点，使节点尽可能得到划分；

S13、输出最终的社区划分结果。

进一步地，步骤S3的具体过程为：确定最大派系的节点个数为k，利用算法找出网络图中包含有k个节点的所有最大派系。

进一步地，步骤S4中，对步骤S3所得到的最大派系根据社区间距公式δ_E两两间计算并比较进行筛选，若小于设定的阈值∈，则丢弃当前种子社区，并选取下一种子社区。

进一步地，步骤S5中所述排序为对种子社区集合中的社区根据所含节点个数从多到少进行排序。

进一步地，步骤S7中，种子社区S与已确定社区之间的间距δ_E(S，S′)＝1-|S∩S′|/min(|S|，|S′|)，若小于设定的阈值∈，则丢弃当前社区，并选取下一种子社区。

进一步地，步骤S8中所述选择合适的邻接节点的具体过程为：用户在步骤S1时输入参数μ和参数α，

使用用户输入的参数μ和参数α计算当前种子社区S的AF_S值，遍历种子社S的所有邻接节点，并取邻接节点加入种子社区后得到的社区S′的AF_S′最大值，如果AF_S＜AF_S′，那么将对应的邻接节点加入到社区S中，若AF_S＞AF_S′，则当前的种子社区扩展成稳定社区，其中，AF_S＝μ*I_P+(1-μ)*F_S，为修正后的评价函数，其中I_p＝ω*I(X；Y)，X表示划分前复杂网络的社区结构，Y表示划分后复杂网络的社区结构，ω表示社区划分前后复杂网络的社区结构关联性，I(X；Y)表示社区结构X和Y的平均互信息值；

其中

表示头尾节点都在社区S中的边的数量的两倍，

表示只有一个节点在社区S中的边的数量，参数α为可调参数，值越小社区越大，参数μ为人为设定，其表示的是在对种子社区进行扩展时考虑节点信息的多少。

进一步地，步骤S9中，稳定社区CS与已确定社区之间的间距为δ_E(S，S′)＝1-|S∩S′|/min(|S|，|S′|)。

进一步地，根据用户输入的是否重叠社区参数

来决定是否进行步骤S11，若

则说明最后输出的结果为重叠社区，不进行步骤S11；若

进行步骤S11，输出的结果为非重叠社区，此时使用WFA值来对重叠点进行最后的划分，其中，

I_P表示重叠点加入某一社区后整个社区结构的平均互信息，

表示第i个社区的适应度值，WFA表示划分后的社区结构中各社区适应度值总和与相应平均互信息值的加权平均值。

进一步地，步骤12的具体过程为：遍历网络中的剩余节点，计算比较WFA值以确定最终的划分社区，直到所有节点划入社区结构或无法再扩展更多节点为止，这样就能尽可能地对网络节点进行划分。

同时，本发明公开了一种应用于上述基于平均互信息的最大派系贪心扩展社区发现方法的系统，所述系统包括客户端和服务器，所述客户端用户发送社区划分请求以及数据，其中服务器包括以下模块：

请求接收模块：用于接收客户端发送的社区划分请求以及数据；

网络图生成模块：用于利用接收的网络边集生成网络图；

最大派系搜索模块：用于在网络图中找到所有符合用户要求的所有最大派系；

社区间距计算模块：用于计算社区间的距离；

平均互信息计算模块：用于计算平均互信息值，得到互信息结果；

适应度计算模块：用于适应度值；

AF_S计算模块：用于计算AF_S值和AF_S′值；

WFA计算模块：用于计算WFA值；

非重叠社区处理模块：用于对重叠节点进行最后归属社区的划分，以得到非重叠划分结果；

剩余节点处理模块：用于对剩余未划分节点的进行最后的划分处理，以尽可能对网络中的节点划分；

输出模块：用于将最终的社区划分结果发送至客户端。

本申请与现有技术相比，具有以下的有益效果：

1、本发明申请通过在社区划分系统中引入基于平均互信息的最大派系贪心扩展社区发现方法，该方法是基于派系的局部扩展社区检测方法，首先会找出复杂网络中的所有最大派系并设置为种子社区，然后再对每一个派系进行局部扩展，每个派系经过扩展后都形成一个稳定的社区结构。在对每一个派系进行扩展时使用了适应度函数与平均互信息相结合的划分标准来判断，选择该派系的邻接节点中符合标准的节点加入该派系。重复以上所有的步骤直到所有的种子社区都扩展完毕，此时经过扩展后得到的所有稳定的社区结构就是该复杂网络的社区。该方法同时考虑了网络中的节点信息与节点间的连接信息，有效地提高了社区划分的准确性。

2、本发明申请采用基于平均互信息的最大派系贪心扩展社区发现方法，该方法相对于其它社区发现方法而言，具有更好的准确性。

附图说明

图1为本发明实施例基于平均互信息的最大派系贪心扩展社区发现方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本发明实施例在基于派系的局部扩展社区发现方法的基础上，加入了基于平均互信息的社区合并方法。首先找出复杂网络中的所有最大派系，并设置为种子社区集合；在种子社区集合中依次按照节点数量从大到小排序，并选择数量最多的种子社区进行扩展；遍历种子社区的所有邻接节点，并筛选出合适的邻接节点加入到种子社区进行扩展，扩展完毕后形成稳定社区；重复以上步骤直至种子社区集合中的所有种子社区均遍历完毕，此时得到所有的稳定社区就是该网络最终的社区划分结果。

本发明实施例另外提供了一种基于平均互信息的最大派系贪心扩展社区发现系统，所述系统包括客户端和服务器，其中，客户端用于发送社区划分请求以及发送网络边集E、参数μ、参数α、是否重叠社区

派系大小k等数据，服务器包括以下模块：请求接收模块：用于接收客户端发送的社区划分请求以及数据；网络图生成模块：用于利用接收的边数据集生成自定义网络图；最大派系搜索模块：用于在网络图中找到所有符合用户要求的所有最大派系；社区间距计算模块：用于计算社区间的距离；平均互信息计算模块：用于计算平均互信息值，得到互信息结果；适应度计算模块：用于适应度值；AF_S计算模块：用于计算AF_S值和AF_S′值；WFA计算模块：用于计算WFA值；非重叠社区处理模块：用于对重叠节点进行最后归属社区的划分，以得到非重叠划分结果；剩余节点处理模块：用于对剩余未划分节点的进行最后的划分处理，以尽可能对网络中的节点划分；输出模块：用于将最终的社区划分结果发送至客户端。

下面对本发明实施例提供的一种基于平均互信息的最大派系贪心扩展社区发现方法及系统做详细说明。

首先，对本发明实施例提供的方法及系统中所涉及到的相关术语，我们给出如下定义，并结合定义说明该发明的基本原理：

定义1：社区结构X表示社区划分前的社区结构，X_i表示社区结构X中的第i个社区。社区结构Y表示经过社区划分后的社区结构，Y_j表示社区结构Y中的第j个社区。n_xi表示社区X_i中的节点总数，n_yj表示社区Y_j中的节点总数，n表示网络中的节点总数。

定义2：(完全子图)若在网络中存在极大完全子图G，节点集记为V，边集记为E。同时图G₁中存在g₁个节点，记为节点集v₁；节点间都存在边互相连接，边集记为e₁。若图G₁的节点集v₁和边集e₁都是图G的节点集V和边集E的子集，则称图G₁为图G的完全子图。

定义3：(最大派系)完全子图U不包含在图G中的更大完全子图中，则完全子图U称为图G的最大派系(即指图G中含节点数最多的完全子图)，最大派系也被称为最大团。

定义4：(平均互信息)平均互信息是一个随机变量包含另一个随机变量信息量的度量。对于两个随机变量X和Y，它们的联合概率密度函数为P(x,y)，其边际概率密度函数分别是P(x)和P(y)。平均互信息I(X；Y)为联合分布P(x,y)和乘积分布P(x)P(y)之间的相对熵，其计算公式如下：

I(X；Y)＝Σ_xΣ_yP(x,y)log₂[P(x,y)/(P(x)*P(y))] (1)

定义5：(适应度)适应度值用于描述一个社区的紧密程度，值越大则表明该社区约紧密。可用于判断一个节点是否适合加入到社区中，假如节点加入社区后使得该社区的适应度值提高，则说明将该节点加入到社区中是合适的，计算公式如下：

其中，

表示头尾节点都在社区S中的边的数量的两倍，

表示头尾节点中只有一个节点在社区S中的边的数量。参数α为可调参数，值越小社区越大，0.9-1.5为推荐的取值范围，默认为1。

定义6：(修正后评价函数)修正后的评价函数通过分配权重的方式将平均互信息值与适应度值进行结合，记作AF_S，公式下：

AF_S＝μ*I_P+(1-μ)*F_S (4)

其中，μ为人为设定的可调参数，它表示进行种子社区扩展时考虑网络节点信息的权重，取值范围建议为[0,0.9]，μ越大则考虑网络节点信息越多，考虑网络连接信息越少。

本实施例提供的基于平均互信息的最大派系贪心扩展社区发现方法的流程图如图1所示，具体包括以下步骤：

步骤101：用户输入网络边集V，参数μ，参数α，是否重叠社区

派系大小k等数据，以空格为分隔符。

步骤102：利用网络边集V生成自定义网络图，通过Born-Kerbosch派系枚举算法在网络图中找到所有的节点数为k的最大派系并进行筛选，将筛选得到的派系加入到种子社区集合中，初始化社区结构为种子社区集合。

步骤103：对种子社区集合内的所有种子社区依照节点数量从大到小进行排序。

步骤104：从种子社区集合中找到未扩展节点数量最多的种子社区S。

步骤105：计算当前种子社区S与已确定社区集合中的每个社区的间距δ_E，若小于设定的阈值∈(本实施例中阈值设定为0.6)，则表明当前种子社区与已确定社区间距过小，重合度高，丢弃当前种子社区，进行步骤104，否则进行步骤106。

社区间距公式如下：

δ_E(S，S′)＝-1-|S∩S′|/min(|S｜,|S′|),

S,S′表示两个不同的社区。

步骤106：使用参数μ和参数α计算当前种子社区S的AF_S值，遍历种子社区S的所有邻接节点，并取邻接节点加入种子社区后得到的社区S′的AF_S′最大值。如果AF_S<F_S′，那么将对应的邻接节点加入到社区S中，若AF_S>AF_S′，则当前的种子社区扩展完毕，形成稳定社区CS。

步骤107：检测扩展完毕后的种子社区即稳定社区CS与已确定社区的间距δ_E是否小于阈值∈(取值0.6)，是则表明当前扩展得到的社区与已确定社区的间距过小，重合度高，丢弃该社区并进行步骤104，否则进行步骤108。

步骤108：将当前扩展完成的社区加入到已确定社区集合。

步骤109：种子社区集合是否已全部遍历，是则进行步骤110，否则进行步骤104。

步骤110：遍历完种子社区集合后得到重叠社区划分结果。

步骤111：根据参数

来决定需要的结果是重叠社区还是非重叠社区，是则进行步骤113，否则进行步骤112。

步骤112：对重叠节点根据WFA值来进行最终归属社区的划分。

步骤113：遍历网络中的剩余节点，计算比较WFA值以确定最终的划分社区，直到所有节点划入社区结构或无法再扩展更多节点为止。

步骤114：输出最后的社区划分结果。

AMI-GCE方法描述

输入：网络边集V，参数μ，参数α，是否重叠社区

派系大小k

输出：社区划分C

1利用网络边集V生成网络图；

2在网络图中找到所有的节点数为k的最大派系，并将这些派系加入到种子社区集合中，初始化社区结构为种子社区集合；

3从种子社区集合中找到未扩展节点数量最多的种子社区S；

4计算当前种子社区S与已确定社区集合中的每个社区的间距δ_E，若小于设定的阈值∈，则表明当前种子社区与已确定社区重合，丢弃当前种子社区，并选取下一种子社区，否则转5；

5使用参数μ和参数α计算当前种子社区S的AF_S值，遍历种子社区S的所有邻接节点，并取邻接节点加入种子社区后得到的社区S′的AF_S′最大值。如果AF_S＜AF_S′，那么将对应的邻接节点加入到社区S中，若AF_S＞AF_S′，则当前的种子社区扩展完毕；

6检测扩展完毕后的种子社区与已确定社区的间距δ_E是否小于阈值∈，是则丢弃该种子社区，否则加入到已确定社区集合；

7重复2至3，直到集合中的所有种子社区遍历完为止，得到重叠社区的划分结果；

8根据是否重叠社区

来决定是否进行该步骤，若

则说明最后输出的结果为重叠社区；若

则输出的结果为非重叠社区，此时使用WFA值来对重叠点进行最后的划分，其中，

I_P表示重叠点加入某一社区后整个社区结构的平均互信息，

表示第i个社区的适应度值，WFA表示划分后的社区结构中各社区适应度值总和与相应平均互信息值的加权平均值，计算重叠点分别加入到与之关联的单个社区的WFA值，然后将重叠点加入到能得到WFA值为最大值的那个社区中，从而得到非重叠社区划分结果。

9遍历网络中的剩余节点，计算比较WFA值以确定最终的划分社区，直到所有节点划入社区结构或无法再扩展更多节点为止；

10输出最终的社区划分结果C。

综上所述，本发明实施例提供的一种基于平均互信息的最大派系贪心扩展社区发现方法，该方法在基于派系的局部扩展社区发现方法的基础上，加入了基于平均互信息的社区合并方法。首先找出复杂网络中的所有最大派系，并设置为种子社区集合；在种子社区集合中依次按照节点数量从大到小排序，并选择数量最多的种子社区进行扩展；遍历种子社区的所有邻接节点，并筛选出合适的邻接节点加入到种子社区进行扩展，扩展完毕后形成稳定社区；重复以上步骤直至种子社区集合中的所有种子社区均遍历完毕，此时得到所有的稳定社区就是该网络最终的社区划分结果。该方法同时考虑了网络中的节点信息与节点间的连接信息，有效地提高了社区划分的准确性，使得改进社区划分系统成为一种新的社区划分系统。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于平均互信息的最大派系贪心扩展社区发现方法，其特征在于：包括以下步骤：

S1、服务器接收社区划分请求；

S2、利用网络边集V生成网络图；

S3、在网络图中找出所有最大派系；

S6、从排序后的种子社区集合中选择种子社区S；

S10、重复步骤S6至S9，直到种子社区集合内所有种子社区遍历完毕，得到重叠社区划分结果；

S13、输出最终的社区划分结果。

2.根据权利要求1所述的一种基于平均互信息的最大派系贪心扩展社区发现方法，其特征在于：步骤S3的具体过程为：确定最大派系的节点个数为k，利用Born-Kerbosch派系枚举算法找出网络图中包含有k个节点的所有最大派系。

3.根据权利要求1所述的一种基于平均互信息的最大派系贪心扩展社区发现方法，其特征在于：步骤S4中，对步骤S3所得到的最大派系根据社区间距公式δ_E(S，S′)＝1-|S∩S′|/min(|S|，|S′|)两两间计算并比较进行筛选，若小于设定的阈值∈，则丢弃当前种子社区，并选取下一种子社区。

4.根据权利要求1所述的一种基于平均互信息的最大派系贪心扩展社区发现方法，其特征在于：步骤S5中所述排序为对种子社区集合中的社区根据所含节点个数从多到少进行排序。

5.根据权利要求1所述的一种基于平均互信息的最大派系贪心扩展社区发现方法，其特征在于：步骤S7中，种子社区S与已确定社区之间的间距δ_E(S，S′)＝1-|S∩S′|/min(|S|，|S′|)，若小于设定的阈值∈，则丢弃当前社区，并选取下一种子社区。

6.根据权利要求1所述的一种基于平均互信息的最大派系贪心扩展社区发现方法，其特征在于：步骤S8中所述选择合适的邻接节点的具体过程为：输入参数μ和参数α，

使用输入的参数μ和参数α计算当前种子社区S的AF_S值，遍历种子社区S的所有邻接节点，并取邻接节点加入种子社区后得到的社区S′的AF_S′最大值，如果AF_S＜AF_S′，那么将对应的邻接节点加入到社区S中，若AF_S＞AF_S′，则当前的种子社区扩展成稳定社区，其中，AF_S＝μ*I_P+(1-μ)*F_S，为修正后的评价函数，其中I_p＝ω*I(X；Y)，X表示划分前复杂网络的社区结构，Y表示划分后复杂网络的社区结构，ω表示社区划分前后复杂网络的社区结构关联性，I(X；Y)表示社区结构X和Y的平均互信息值；