CN110232638A

CN110232638A - 一种基于节点重要性与局部扩展的重叠社区发现方法

Info

Publication number: CN110232638A
Application number: CN201910521883.3A
Authority: CN
Inventors: 刘洪涛; 陆阳阳; 吴渝; 杨杰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-09-13

Abstract

本发明请求保护一种基于节点重要性与局部扩展优化的重叠社区识别方法，包括下列主要步骤：S1，首先通过改进的聚类系数方法得到社区网络的种子节点，根据聚类系数结果进行重要性排序，将满足阈值条件的节点作为核心节点；S2，选择完核心节点后，采取节点与社区的相似度办法选取其邻居节点组成初始核心社区；S3，然后利用自适应函数进行初始核心社区的局部扩充；S4，最后，对于自由节点和相似度较高的社区进行一个全局的社区优化，最终得到划分较好的重叠社区。S5，对划分的重叠社区进行模块度计算以评估社区划分的质量。本发明能在稀疏程度不同的网络上准确发现重叠节点和对应的重叠社区、算法的时间复杂度和空间复杂度较低以及有更高的划分质量。

Description

一种基于节点重要性与局部扩展的重叠社区发现方法

技术领域

本发明属于属于数据挖掘领域，特别是涉及一种基于节点重要性与局部扩展的重叠社区发现方法。

背景技术

复杂网络是现实世界中复杂系统的高度抽象，如生物系统中的新陈代谢网、蛋白质相互作用网，科技系统中的因特网、万维网,社会系统中的科学家协作网、电子邮件网等。除了小世界特性和无标度特性外，社区结构是复杂网络最重要的拓扑结构特征之一，已成为多学科交叉研究的热点早一。挖掘复杂网络的社区结构，对分析网络的拓扑结构、理解网络的功能及预测网络的行为等具有重要的理论意义和实用价值。

复杂网络中的社区结构通常表现为社区内的点连接紧密，而社区间的点连接稀疏，社区发现就是研究复杂网络结构的关键技术之一。目前，社区发现的研究成果可以被应用于网络舆情监控、个性化兴趣推荐、蛋白质功能预测等诸多领域。

社区发现技术不仅在学术界引起了广泛的关注，在工业界同样有着广泛地应用。比如，在标签系统中，往往都存在“歧义标签”，即一个标签可以表示多种语义，而使用社区发现技术能够定位歧义标签所处的语境，从而帮助系统正确地理解标签。在推荐系统中，社区发现能够帮助提高系统推荐的准确性以及应对推荐系统的冷启动问题。在社交网络中，社区发现技术能够有效地发现朋友圈。在信息网络中进行社区发现，能够帮助更好地理解信息的流向，在此基础之上便可以进行广告定向投放等商业活动。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于节点重要性与局部扩展的重叠社区发现方法。本发明的技术方案如下：

一种基于节点重要性与局部扩展的重叠社区发现方法，其包括以下步骤：

S1，首先通过改进的聚类系数方法得到社区网络的种子节点，改进的聚类系数方法改进主要在于结合了原有的聚类系数共和和Jaccard公式，根据改进的聚类系数结果进行重要性排序，将满足阈值条件的节点作为核心节点，该阈值范围设置在0到1之间，并根据模块度函数进行不断调整；

S2，选择完核心节点后，采用节点与社区的相似度公式选取邻居节点组成初始核心社区；

S3，然后利用自适应函数进行初始核心社区的局部扩展；

S4，最后，对于自由节点和相似度较高的社区进行一个全局的社区优化，最终得到划分较好的重叠社区；

S5，对划分的重叠社区进行模块度计算以评估社区划分的质量。

进一步的，所述步骤S1根据聚类系数结果进行重要性排序，将满足阈值条件的节点作为核心节点，具体包括以下步骤：

读取输入的没有加权无向图的数据，将无向图的数据转为邻接矩阵的方式存储起来，形成一个M×N的邻接矩阵，其中，1代表的是两个节点之间是有边直接相连的，0代表节点之间是无直接相连的，对每个节点进行标号处理，并将其放入改进的聚类系数公式中，计算每个节点在当前网络的重要性程度值I_k；将得出的重要性值I_K存储在字典类型的数据中，表示为{“k”：I_k}，并且通过进行排序工作，将重要性节点按标号进行排序，最后统计每个节点k的重要性值Ik大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。

进一步的，所述步骤S1中社区核心节点的选取包括步骤：

(1)根据复杂网络数据构建无向图的邻接矩阵；

(2)改进的聚类系数公式来确定每个节点的重要性程度：

其中，i,j是节点k的邻居节点，e_ij表示节点i与节点k所连接的边表示，N(k)，N(m)分别是k，m的邻居集合，d(k)为节点k的度数，I_k代表了节点k的重要性程度，如果节点的重要性越高其值越大；

(3)将计算出的每个节点k的重要性数值进行排序，并将其保存为字典的数据类型，字典是python的一种数据类型；

(4)然后统计每个节点k的重要性值I_k大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。

进一步的，所述步骤S2中初始核心社区选取的方法包括步骤：

计算出核心社区节点，将其设置为初始社区的第一个节点，使用节点与社区的相似度公式，计算其周围邻居节点与核心节点的相似度，如果相似度满足所设置的阈值条件，就将该节点加入原先的初始社区；

其中，S_kc(k,C)就是节点与社区的相似度值，N_s(C)是表示与社区C有直接连接边的节点集合,S_kc(k,C)的值反映了节点与社区的相似程度。其值越大，表明该节点与社区的相似度越大。

进一步的，所述步骤S3中核心社区的局部扩展的方法包括步骤：

根据相似度公式来选取候选节点，如果候选节点加入社区后满足自适应函数的公式，则将节点加入该社区中，否则该节点为自由节点，每完成一轮节点

其中，CQ就是自适应函数的表示，C_in和C_out分别代表社区内部的度数总和与社区外部的度数总和，参数ɑ是一个正实数，用来控制社区发现的规模，CQ的值越大，说明社区内部节点之间的紧密的越高。

进一步的，所述步骤S4中社区优化的方法包括步骤：

在社区扩展过程中，网络中可能还会存在未属于任何社区的自由节点，而且社区集合中还会出现相似度高的社区，因此，需要对社区进行优化，即对自由节点进行节点相似度社区分配或让其独立形成一个社区，该过程结束后检测是否有社区与社区之间有较高的相似度，如果存在则将满足相似社区阈值的社区进行合并；

其中，S_cc(C_m,C_n)表示社区m与社区n之间的相似度值表示，S_cc(C_m,C_n)的值越大，说明社区C_m与社区C_n的相似度越大，如果满足设定的阈值范围就将其合并。

进一步的，所述步骤S5对划分的重叠社区进行模块度计算包括步骤：

对划分好的重叠社区OverC进行一个质量函数的评估，质量函数的评估公式是目前重叠社区划分作评估函数运用较普遍的函数，将社区的编号nc，社区的的邻接矩阵表达式Adj，节点的数目num，每个几点的度degree以及每个节点所属的社区个数t带入EQ计算表达式，得出社区划分的质量数值，其值越高，说明划分的质量越高。

进一步的，对划分的社区进行模块度EQ计算，根据此数值的大小来判定重叠社区划分的质量，质量函数的评估公式EQ如下：

其中，m为网络中边的总数；c为划分得到的社区的数目；O为节点i所属的社区个数；k_i为节点i的度；A_ij用于判断节点i和节点j之间是否存在连接，若存在连接则A_ij为1，否则为0。

本发明的优点及有益效果如下：

1.本发明将局部扩展的方法融入到社区发现的算法之中，一方面，算法在用影响力方式得到紧密的种子社区之后，对相似度较高的种子社区进行合并，从而提高了发现高质量的社区的能力。接着再利用相似度以及优化CQ函数扩展不同的种子社区，启发式的发现网络中的重叠节点，另一方面，与现有的基于局部扩展的代表性重叠社区发现算法相比，所提算法能在稀疏程度不同的网络上准确发现重叠节点和对应的重叠社区。

2.本章改进后的重叠社区发现算法主要分两个步骤:初始化，构建节点重要度集合NodeI,构建核心社区，该部分的时间复杂度是O(n)；依据归属度对核心社区进行扩展，该部分的时间复杂度是O(cn)，其中c是社区的分区数量。由于c的数量和n相比是微不足道的，因此，本章所提出来的社区划分算法；最终的时间复杂度为O(n2)。空间复杂度，使用NodeI集合存放了所有节点的重要度。该集合的大小为n,其中n是节点的数量。使用m个边构建成了网络图。因此，本章所提出来的算法最终的空间复杂度为:Space＝0(max{m,n})＝O(m)。

3.通过计算社区划分的EQ评估值，与其他算法相比较有更高的社区划分质量。

附图说明

图1是本发明提供优选实施例社区核心节点示意图；

图2为项目邻接矩阵示意图；

图3为项目初始核心社区示意图；

图4为局部扩展社区的示意图；

图5为社区优化后的示意图；

图6表示社区划分的质量函数结果示意图；

图7为本发明提供优选实施例的一种基于节点重要性与局部扩展的重叠社区发现方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

S1，读取输入的无向图的数据，这里用的是没有加权的无向图，将无向图的数据转为邻接矩阵的方式存储起来，形成一个M×N的邻接矩阵。其中，1代表的是两个节点之间是有边直接相连的，0代表节点之间是无直接相连的。对每个节点进行标号处理，并将其放入改进的聚类系数公式中，计算每个节点在当前网络的重要性程度值I_k；将得出的重要性值I_K存储在字典类型的数据中，一般表示为{“k”：I_k}，并且通过进行排序工作，将重要性节点按标号进行排序。最后然后统计每个节点k的重要性值Ik大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。

S2，通过计算出核心种子节点，选取核心种子节点及其周围的邻居节点作为初始核心社区，通过计算节点与社区之间的相似度函数S_KC来确定节点k能否加入该社区。相似度的程度是根据后期整个网络的模块度的大小来进行设置阈值，如果满足该阈值的要求，节点k就加入该社区。这样就完成了初始核心社区的建立。

S3，确定好初始核心社区S_seeds之后，根据节点与社区的相似度公式S_KC来选取候选节点，如果候选节点加入社区后满足自适应函数公式CQ，则将节点加入该社区中，否则该节点为自由节点f。在此过程中，每完成一轮节点的加入之后，要重新计算节点的邻居节点集合，直到集合为空停止。

S4，在社区扩展过程完成之后，网络中可能还会存在未属于任何社区的自由节点f，而且社区集合中还会出现相似度高的社区S_C。因此，需要对社区进行优化。将自由节点单独保存在一个数组F中，即对自由节点进行节点相似度社区分配或让其独立形成一个社区，该过程结束后检测是否有社区与社区之间有较高的相似度，如果存在则将满足相似社区阈值S_CC大于某个值的社区进行合并，最后输出划分好的重叠社区及其对应的节点。

S5，对划分好的重叠社区OverC进行一个质量函数的评估，该公式是目前重叠社区划分作评估函数运用较普遍的函数。将社区的编号nc，社区的的邻接矩阵表达式Adj，节点的数目num，每个几点的度degree以及每个节点所属的社区个数t带入EQ计算表达式，得出社区划分的质量数值，其值越高，说明划分的质量越高。

进一步的，所述步骤S1中社区核心节点的选取包括步骤：

(1)根据复杂网络数据构建无向图的邻接矩阵；

(2)改进的聚类系数公式来确定每个节点的重要性程度：

其中，i,j是节点k的邻居节点，N(k)，N(m)分别是k，m的邻居集合，d(k)为节点k的度数。I_k代表了节点k的重要性程度，如果节点的重要性越高其值越大。

(3)将计算出的每个节点k的重要性数值进行排序，并将其保存为字典的数据类型。

计算出核心社区节点，将其设置为初始社区的第一个节点，使用节点与社区的相似度公式，计算其周围邻居节点与核心节点的相似度，如果相似度满足所设置的阈值条件，就将该节点加入原先的初始社区。

其中，N_s(C)是表示与社区C有直接连接边的节点集合,S_kc(k,C)的值反映了节点与社区的相似程度。其值越大，表明该节点与社区的相似度越大。

根据相似度公式来选取候选节点，如果候选节点加入社区后满足自适应函数的公式，则将节点加入该社区中，否则该节点为自由节点。

其中，C_in和C_out分别代表社区内部的度数总和与社区外部的度数总和，参数ɑ是一个正实数，用来控制社区发现的规模。CQ的值越大，说明社区内部节点之间的紧密的越高。

进一步的，所述步骤S4中社区优化的方法包括步骤：

在社区扩展过程中，网络中可能还会存在未属于任何社区的自由节点，而且社区集合中还会出现相似度高的社区。因此，需要对社区进行优化。即对自由节点进行节点相似度社区分配或让其独立形成一个社区，该过程结束后检测是否有社区与社区之间有较高的相似度，如果存在则将满足相似社区阈值的社区进行合并。

其中，S_cc(C_m,C_n)的值越大，说明社区C_m与社区C_n的相似度越大，如果满足设定的阈值范围就将其合并。

进一步的，所述步骤S5中社区优化的方法包括步骤：

对划分的社区进行模块度EQ计算，根据此数值的大小来判定重叠社区划分的质量。

优选的，本发明具体实施例为：一种基于节点重要性与局部扩展的重叠社区发现算法，包括以下步骤：

第一步，构建网络社区的核心节点。如图1所示，获取网络社区的节点，将社区的节点转化为邻接矩阵的表示形式，在本实施方式中使用karate数据集的输入，一共有34个节点，77条边，将其转化为34×34的邻接矩阵，如图2所示，然后根据改进的聚类系数，对每个编号为k的节点计算其重要性系数I_k，将计算出的每个节点k的重要性数值进行排序，并将其保存为字典的数据类型,其表示形式为{“k”：I_k}。

然后统计每个节点k的重要性值I_k大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。

例如在本实施方式中编号为6的节点，其邻居数目为3，该节点的重要性比其周围2个节点的重要性大，值I_k＝2/3，如果社区的阈值为0.5，则6号节点就会被推荐为核心节点。

第二步，构建初始核心社区。如图3所示，将构建好的核心节点存储在集合中，通过计算每个节点与其周围邻居节点的相似度。

在本实施方式中计算节点6号的相似度，根据划分好的核心节点组成的社区，分别计算其周围的直接相连的节点总数N1，再计算以6号节点为中心的其周围的邻居节点的总数N2。根据节点与社区的相似度公式，先计算两种N1与N2的交集，再计算N1与N2的并集，两者的比值就是6号节点相对于某个社区的相似度值。可以初始设置一个以0.5为大小的数值作为相似度的阈值，如果计算得出的相似度阈值大于这个阈值，就将6号节点放入对应的社区，如果不是，就舍弃，再看其与其他社区的相似度。整个过程遍历下来就组成了初始的核心社区。

第三步，局部扩展的社区发现方法。如图4所示，通过前两个步骤，得到初始社区后，再根据自适应函数来进行社区的扩展。

在本实施方式中，计算以[24,4,26,28,30,33,34]为初始社区的集合扩展，先计算该社区的邻居集合，将邻居节点存储起来，其计算结果为[1,3,8,14,17,18,20,22]]，通过遍历每个节点与该社区的相似度，选出较高相似度的作为备选加入的节点并将其存为集合形式。再根据自适应函数公式来确定是否该节点可以加入或者舍去，如果将备选节点加入后CQ的值大于原来的数值，就将该节点k加入社区中，否则将其在邻居集合中舍去。一轮遍历完成之后，重新计算社区的邻居集合，在进行上述操作。可以得到结果为[6,7,11,17,5,12,1]的一个扩展社区。

第四步，社区优化的结果。如图5所示，在社区扩展过程中，网络中可能还会存在未属于任何社区的自由节点，而且社区集合中还会出现相似度高的社区。因此，需要对社区进行优化，即对自由节点进行社区分配或让其独立形成一个社区，然后合并相似度较高的社区。

在本实施方式中，优化主要分为两个步骤:第一步，计算节点与各个社区的相似度S，当S大于阈值ε时就把节点加入该社区，否则就让其形成一个单独社区；第二步，计算社区与社区之间的相似度S，当S大于阈值ε时，将社区进行合并。最后得到网络社区划分的结果

第五步，计算社区划分后的评估值。如图6所示，将划分好的社区，将社区的编号nc，社区的的邻接矩阵表达式Adj，节点的数目num，每个几点的度degree以及每个节点所属的社区个数t带入EQ计算表达式，得出社区划分的质量数值，其值越高，说明划分的质量越高。

该基于节点重要性与局部扩展的重叠社区划分算法，不仅能较为准确的得到社区划分的结果；还能在较大数据集的情况下快速完成实验的结果。这为以后大数据社区网络情况下的社区划分提供了一种更加高效的选着方法。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于节点重要性与局部扩展的重叠社区发现方法，其特征在于，包括以下步骤：

S3，然后利用自适应函数进行初始核心社区的局部扩展；

2.根据权利要求1所述的一种基于节点重要性与局部扩展的重叠社区发现方法，其特征在于，所述步骤S1根据聚类系数结果进行重要性排序，将满足阈值条件的节点作为核心节点，具体包括以下步骤：

3.根据权利要求2所述的一种基于节点重要性与局部扩展的重叠社区发现方法，其特征在于，所述步骤S1中社区核心节点的选取包括步骤：

(1)根据复杂网络数据构建无向图的邻接矩阵；

(2)改进的聚类系数公式来确定每个节点的重要性程度：

4.根据权利要求3所述的一种基于节点重要性与局部扩展的重叠社区发现方法，其特征在于，所述步骤S2中初始核心社区选取的方法包括步骤：

5.根据权利要求4所述的一种基于节点重要性与局部扩展的重叠社区发现方法，其特征在于，所述步骤S3中核心社区的局部扩展的方法包括步骤：

根据相似度公式来选取候选节点，如果候选节点加入社区后满足自适应函数的公式，则将节点加入该社区中，否则该节点为自由节点，每完成一轮节点的加入之后，要重新计算节点的邻居节点集合，直到集合为空停止；

6.根据权利要求5所述的一种基于节点重要性与局部扩展的重叠社区发现方法，其特征在于，所述步骤S4中社区优化的方法包括步骤：

7.根据权利要求6所述的一种基于节点重要性与局部扩展的重叠社区发现方法，其特征在于，所述步骤S5对划分的重叠社区进行模块度计算包括步骤：

8.根据权利要求7所述的一种基于节点重要性与局部扩展的重叠社区发现方法，其特征在于，对划分的社区进行模块度EQ计算，根据此数值的大小来判定重叠社区划分的质量，质量函数的评估公式EQ如下：