CN110909173A

CN110909173A - 一种基于标签传播的非重叠社区发现方法

Info

Publication number: CN110909173A
Application number: CN201911104753.6A
Authority: CN
Inventors: 许国艳; 朱帅; 景子栩; 王俊
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-03-24

Abstract

本发明公开了一种基于标签传播的非重叠社区发现方法，首先赋予每个节点不同的标签，然后计算出节点的影响力值降序排列，对于排序好的节点进行标签传播，根据邻居节点的标签更新节点的标签，如果存在多个数量相同的标签时则进行进一步的筛选，若仍然出现多个标签影响力相同的情况，则随机选择一个标签。当网络中节点标签不再变化时迭代停止，最终将具有相同标签的节点划分为一个社区。本发明通过k核分解计算节点的影响力值并且排序，减小了随机排列造成的随机性，通过标签影响力来选择标签，减小了标签随机选择造成的随机性，从而解决了现有的LPA算法存在随机性的问题，有效地提高了社区的识别和划分的质量。

Description

一种基于标签传播的非重叠社区发现方法

技术领域

本发明涉及社交网络领域中的非重叠社区发现技术，具体涉及一种基于标签传播的非重叠社区发现方法。

背景技术

在社会信息化飞速发展的今天，社交网络也日益成为人类社会关系的重要组成部分，成为了人际关系的一种表示形式，在此同时社交网络也是信息传播的重要渠道和载体，是日常生活的重要组成部分。类似的像新浪微博、贴吧、博客、抖音、微信等这样的社交平台也越来越多的出现在我们的日常生活中，这些不断出现的社交平台，丰富了我的生活的同时也促进了社交网络规模的不断扩大，在社交网络中节点可以表示网络中的一个用户，而他们之间的某些关系联系则可以用网络中的连接边来表示。在前面很多的学者研究下，我们发现这样的网络并不是杂乱无序，没有规律可寻的，网络中的节点之间是可以按照不同的条件或规则，将它们合并或划分到相同或不同社区，近年来很多学者对于这些社区合并或者划分方法的研究产生了兴趣。

社区发现就是社区合并或者划分的一个过程，是将一个大的网络通过一定的规则或者条件分成一些小社区，这其中最简单的思想就是将网络中那些连接紧密的节点划分到一个社区中。社区发现存在着较高的研究和应用价值，比如对于交通网络合理划分后可以对交通状况路线安排有更好的把握；对于类似天猫淘宝用户网络，划分后可以对同一社区中的用户进行购物推荐等；社交网络中的各个用户可能有很多的兴趣爱好，而也存在着不少用户只对某方面兴趣浓厚，这就需要我们具备社区发现的理论知识，对于社交网络的社区发现，区分不同的群体，尽可能的将他们归类到某个团体当中，预测未来趋势。

在目前这个信息化的时代，网络的不断普及，社交平台的不断出现，社交网络也在慢慢渗入到人们的生活中，其社区结构的研究也越来越多，社交网络映射成的网络图结构的划分引起了众多学者的关注。网络结构分为非重叠结构、重叠结构、层次结构等等。

对于非重叠的社区结构的划分涌现出了很多经典的算法，Givran和Newman提出的GN算法是基于非重叠社区最经典的算法之一，但是该算法存在局限性，时间复杂度过高，对于规模较大的网络结构适用性不好。随后Newman等人提出了一种高效的算法CNM，与GN算法相比操作简单，时间效率高，但是CNM算法在前期的工作量较大，随后Newman继续改进算法，给出了模块度的思想，但是这些算法在时间效率上都存在这缺陷。Raghavan等人提出的基于标签传播的算法LPA，该算法也存在着随机性的缺陷，但是LPA算法操作简单，在时间复杂度上有着巨大的优势，能适用于大型社会网络的社区划分。在现代社会网络规模较大，节点数量较多，LPA算法有着很强的适用性与实用性。

但是LPA算法也存在一些不足，第一个随机性在于节点的随机排列，并且在更新时随意的选择一个节点更新，这使得每个节点都有可能优先更新，第二个随机性在于当出现多个邻居节点的标签数量最大时，随机选择一个作为节点的标签。这两处的随机性会造成社区划分结果可能出现极好值也可能出现极差值，这两种随机性的做法给社区识别结果带来很高的不稳定性导致社区识别质量不高。

发明内容

发明目的：为了克服非重叠社区发现算法中LPA算法中存在的随机性的不足，提供一种基于标签传播的非重叠社区发现方法。

技术方案：为实现上述目的，本发明提供一种基于标签传播的非重叠社区发现方法，包括如下步骤：

S1：赋予每个节点不同的标签；

S2：使用k核分解得到一个k核值，基于k核值计算出节点的影响力值并且降序排列，设置迭代次数t＝1；

S3：对于排好序的节点进行标签传播，根据邻居节点的标签更新节点的标签，若存在多个数量相同的标签时则进行进一步的筛选，若仍然出现多个标签影响力相同的情况，则随机选择一个标签；

S4：当网络中节点标签不再变化或达到最大迭代次数，则迭代终止，否则t＝t+1继续迭代；

S5：将具有相同标签的节点划分为一个社区。

进一步的，所述步骤S2中节点的影响力值的具体计算方法为：

S2-1：结合k核分解的k核值、遍历的次数和总次数给不同节点的影响力更进一步的划分，按照公式：

定义新的Kb值；

其中m表示当前k核值总的遍历次数，n为删除该节点需要遍历的次数；

S2-2：以邻居节点的k核值为依据对于节点进行排序：

其中，N(i)为节点i的邻居节点集合，v_j(k-shell)为邻居节点j的k核值；

S2-3：对节点局部核值影响力公式进行扩展，得到新的节点局部影响力计算公式：

进一步的，所述步骤S3中标签筛选的具体方法为：

S3-1：出现多个标签数量相同节点标签则按原算法随机选择一个作为节点标签；

S3-2：对这样的随机选择进行弱化，按照公式：

计算节点i所拥有标签l的影响力，其中N^l(i)表示拥有l标签的i的邻居节点集合；

S3-3：按照公式：

c(l)＝arg max INF(l)

对标签进行更新。

进一步的，所述步骤S2中使用k核分解的具体步骤为：

A)用分解法将外层的节点剥掉，将网络分解成核心到外层的层次，处于核心层的节点具有较高的影响力；

B)用K核值将网络中的节点划分为不同的层级，将网络划分为核心层和边缘层；

C)核心层的节点处在网络中的核心位置表示为公式：

core(i)＝node(k＝max(k))

而边缘层的节点处于网络中边缘位置表示为公式：

core(i)＝node(k＝min(k))；

D)通过k核分解得到的k核值大的节点则是一个网络中一些重要的节点。

有益效果：本发明与现有技术相比，通过k核分解计算节点的影响力值并且排序，减小了随机排列造成的随机性，通过标签影响力来选择标签，减小了标签随机选择造成的随机性，从而解决了现有的LPA算法存在随机性的问题，有效地提高了社区的识别和划分的质量。

附图说明

图1是网络中非重叠社区结构示例图；

图2是LPA算法的具体步骤图；

图3是同步更新标签震荡图；

图4是本发明算法的流程图；

图5是k＝1时第一次分解图；

图6是k＝1时第二次分解图；

图7是k＝1时第三次分解图；

图8是k＝2时第一次分解图；

图9是k＝3时第一次分解图；

图10是真实网络模块度Q值对比图；

图11是真实网络NMI值对比图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明。

实施例1：

本实施例中分别将现有的LPA算法和本发明提供的基于标签传播的非重叠社区发现算法(KILPA)应用于非重叠社区的发现，如图1所示，非重叠社区是指一个节点只存在一个社区中，是一个非重叠社区结构示意图，其中有13个节点，这些节点分别构成C₁、C₂、C₃这几个社区，该网络既可以用{1,2,3,4…..13}表示，也可以用{C₁,C₂,C₃}表示，根据不同的标准选择用哪种方式表达，这三个社区没有相交的节点。

如图2所示，现有的LPA算法，其具体的步骤如下：

步骤1：初始化网络中的节点标签，给所有的节点分配一个唯一的数字标签。

步骤2：随机对网络中节点排序。

步骤3：对网络中的节点进行更新。其中标签更新公式如下所示，根据邻居节点标签数来判断当前节点i的标签，选择出现次数最多的标签来更新当前节点的标签。如果出现多个最大标签数时，随机选择其中一个更新当前节点的标签。

其中l_i表示节点i待更新标签，δ(l_j,l)表示克罗内克函数，此函数的最优解为当邻居节点中标签数量最多的标签。

步骤4：不断重复步骤2和步骤3，直到网络所有节点的标签都趋向于稳定时停止迭代。

步骤5：迭代停止后，将网络中所有节点具有相同标签的节点划分到一个社区中。

节点更新方式：

如图3所示，节点在更新时，有同步和异步更新两种方式，同步更新为第t次迭代时标签由t-1次迭代时的邻居标签来决定。即c_x(t)＝f(c_x1(t-1),c_x2(t-1),.......,c_xk(t-1))，同步更新的问题在于在二分图或者是类似二分图的网络结构中容易出现标签震荡，具体如图3所示；异步更新节点在第t次迭代时标签由已经更新过的部分节点标签和未更新过的一些节点标签共同决定，即c_x(t)＝f(c_x1(t),c_x2(t),c_xm(t),c_x(m+1)(t-1).......,c_xk(t-1))。

上述LPA算法主要问题在于标签更新时节点随机排列和更新当前节点标签时根据邻居节点的标签数量来选择当前节点的标签，若邻居标签存在多个数目最大的标签则LPA算法随机选取一个标签作为待更新节点的标签。节点的随机排列导致每个节点都可能优先更新，而标签的随机选择更会导致算法的社区识别结果不稳定，这两处的随机做法使得LPA算法的识别结果可能产生极好值也可能产生极差值，波动性较大，稳定性不高，导致算法识别社区质量不高。

如图4所示，一种基于标签传播的非重叠社区发现算法(KILPA)，其具体步骤如下：

S1：赋予每个节点唯一的不同的标签；

S5：将具有相同标签的节点划分为一个社区。

本实施例中本发明的KILPA算法是在LPA算法上进行了改进，算法改进思想为设置合理的节点排列顺序，随机选择时设置合理的标签选择规则。k核分解是一种常用的对于网络中节点影响力度量方法，它可以展现节点在网络中的层级性质，通常认为k核值越高的节点在网络中的影响力越大，我们结合节点局部影响力的思想对于k核分解出的k核值进行更进一步的计算并排序。

K核分解是用分解法将外层的节点剥掉，将网络分解成核心到外层的层次，处于核心层的节点具有较高的影响力。K核值将网络中的节点划分为不同的层级，将网络划分为核心层和边缘层，核心层的节点往往处在网络中的核心位置表示为公式：

core(i)＝node(k＝max(k))

而边缘层的节点处于网络中边缘位置表示为公式：

core(i)＝node(k＝min(k))

K核的最重要的特征是它具有连通性，如果网络中的图为k连通，那么意味着核中的任意两节点之间存在着k条不相交的路径，那么核数越大的节点它的连通性就越好。通过k核分解得到的k核值大的节点是一个网络中一些重要的节点。一个简单的k核分解示例如图5至图9所示。首先设置k为1，遍历网络中的所有节点去掉度为1的节点及其连边，此时就可以删除网络中的1,2,3,5,9,14,16，如图5所示，设置这些节点的k核值为1。发现网络中还存在着度为1的节点，再次遍历网络中的节点，这次删除节点4,15，如图6所示，将这些节点的k核值设置为1。此时发现网络中依然存在度为1的节点，再次遍历网络中剩余节点删除节点6，如图7所示，并将它的k核值设置为1，此时发现剩余节点中不在有度为1的节点，那么k＝1的遍历终止。提升k的值为2，再次对于剩余的节点进行k核分解，删除了节点7,8，发现删除7,8两个节点之后，网络中不存在度为2的节点，如图8所示，则k＝2的遍历终止，经过了一次遍历。再次提升k的值为3，遍历网络中剩余的节点，发现删除了网络中最后剩余的10,11,12,13，删除过后网络中没有剩余节点，如图9所示，此时对于网络中的k核分解结束，对于网络中的每个点都有一个k核值。

节点影响力：

表1展示了所有节点经过k核分解后各个节点得到的k核值。

表1 k核分解表

由上表可以得知，k核分解是对于网络中的节点一个影响力的度量，但是k核分解也存在着局限性，它是一种粗粒度的划分，经过k核分解之后，一个网络中存在着大量k核值相同的节点，区分精度不高，结合k核分解的k核值、遍历的次数和总次数给不同节点的影响力更进一步的划分，定义新的Kb值，如公式所示：

其中m表示当前k核值总的遍历次数，n为删除该节点需要遍历的次数，但是上述计算公式也存在着缺陷，对于相同k核的节点区分度还并不明显，还存在着Kb值相等的情况如节点10,11,12,13的Kb值都为6，于是提出了一种节点的局部核值影响力的计算方法，主要是以邻居节点的k核值为依据对于节点进行排序如下公式所示：

其中，N(i)为节点i的邻居节点集合，v_j(k-shell)为邻居节点j的k核值，本实施例将节点之间的遍历次数、总的遍历次数和邻居节点考虑进去进行融合，对于节点局部核值影响力公式进行扩展，得到新的节点局部影响力计算公式如公式所示：

由表2可得，从k核分解得到一个粗粒度的划分，很多节点会得到相同的影响力值，经过公式得到Kb值还是存在着大量的值相同的节点，而经过局部节点重要性k-nshell计算后对于很多边缘节点的影响力很难估计，使用改进后的局部影响力计算公式，对于节点的局部影响力有了更进一步的划分，虽然节点11,13的局部影响力值还是相同，通过观察图6可以得到节点11,13处在网络中的位置与连接节点数目大体可以粗略判断这两个节点具有相同的局部影响力，对于节点7,8他们局部影响力k-nshell值相同，但是观察能得出节点7的连接节点数要高于8，从影响力的传播角度看，节点7对于其他节点的影响能力是要高于节点8，经过改进后的局部影响力计算能将节点7,8区别对待，并且对于边缘节点也有一定的区分度。

根据表2可得给出的局部影响力计算具有一定的合理性并且能对节点进行更一步的排序。

表2节点影响力排序表

根据上述描述，本实施例中本发明提供的KILPA算法设计可以主要分为标签初始化和标签筛选两部分，其具体如下：

(1)标签初始化

首先赋予每个节点唯一的不同的标签，按照上述方法，k核分解一个k核值，计算每个节点的影响力并排序。若存在影响力相同的节点则随机排列。

(2)标签筛选

影响算法稳定性的另一个重要原因是邻居节点中出现了多个标签数量最多节点标签则按原算法随机选择一个作为节点标签，对于这样的随机选择进行弱化，综合上文给出的影响力计算方式，给出节点i所拥有标签l的影响力计算如公式所示：

其中N^l(i)表示拥有l标签的i的邻居节点集合。则标签更新方式为如公式所示：

c(l)＝argmaxINF(l)

本实施例中还给出了KILPA算法的主要伪代码，如算法1所示：

实施例2：

为了定量的分析所提出算法的社区发现质量，本实施例在三个真实网络上进行了实验，并将实施例1所提出的KILPA算法和经典GN算法和基于标签传播算法LPA、LPAm、LPAm+算法进行对比，因为标签传播算法或多或少的都存在着随机性，均为多次实验取均值的结果进行对比。

实验数据：

采用Karate数据集，Dolphins数据集，Football数据集三种不同的数据集。

Karate数据集是由社会学家Zachary发现的一个真实社会网络，反映了空手道俱乐部的成员关系网络，每个节点对应着一位成员共有34个节点，78条边，每条边对应着两个节点成员是朋友关系，然而，在研究的过程当中，由于Karate俱乐部的管理者和俱乐部的教练发生了矛盾分歧，使得俱乐部划分成了两个社区。

Dolphins数据集由生物学家David发现的存在海豚群落中的真实网络，是对62只海豚的生活习性进行了长期的观察得到的网络图，包含62个节点和159条边，如果两只海豚经常一起活动，则两个海豚代表的节点之间就存在一条边。David根据海豚的年龄将他们分为了两个社区。

Football数据集是由Newman等人收集，在分析美国高校橄榄球比赛而得到的关系网络，一共有115所学校参加比赛，全部赛程一共进行了613场，联盟内部的球队比赛评分，而与外部的球队比赛较少，按照各个球队所来自的地区分成了12个社区。

评价标准：

(1)标准化互信息NMI：在已知社区划分结果的情况下，特别是在人工生成网络中，社区结构是已知的，这样就可以利用标准化互信息NMI来衡量社区的划分质量，相似度具体计算公式为：

其中，N是矩阵，N矩阵中行表示真实社区，列表示算法所识别出来的社区，N_ij为出现在已知社区中又出现在算法划分的社区中的节点数，N_i表示已知的社区数目，N_j表示为算法划分的社区数。NMI的取值范围为[0,1]，利用社区发现算法得到的社区结构与已知的社区结构越相近，NMI的值越趋近于1，说明该算法得到的社区结构与真实社区结构越相似。

(2)模块度Q函数：通过算法得到的社区结构，则需要一个评价标准去评价的到社区结构的质量能够评价出不同算法的优劣，评价社区质量的Q函数如下公式所示：

模块度函数具体表示为社区网络的内部边的比例与随机网络在相同的情况下社区内期望边的差值，若这个差值相差越大表明社区结构越好。其中，A_ij表示邻接矩阵中的元素，如果i、j之间存在连边，则A_ij＝1否则为0，此外δ(C_i,C_j)表示为一个二值函数，如果节点i和节点j在同一个社区当中，则这个二值函数为1，否则为0。模块度最小为0，则表示了网络中的全部节点属于了同一个社区，模块度越大表示划分的结构越好。

下面结合附图对性能进行对比分析：

图10表示了各个算法在3个真实网络上的模块度Q值对比，从图10中可以看出KILPA算法在karat和Dolphins数据集上模块度要高于GN、LPA和LPAm算法，在Dolphins数据集上KILPA算法模块度低于GN，高于LPA、LPAm算法，而在Football数据集上表现一般低于GN算法，但是略低于LPA和LPAm算法但是相差不大。LPAm+算法是依据贪婪凝聚方法提出的模块度最大化算法，依据相似度合并社区。由图10可以得出LPAm+算法在三个真实网络的模块度上都取得了较高的模块度Q值。总体而言，本章算法KILPA在模块度Q值上低于LPAm+算法外，其Karate、Dolphis和Football数据集上均表现良好。

图11表示了各个算法在3个真实网络上的NMI值对比图。如图11所示，KILPA算法在Karate上的NMI值较高划分质量高，相比于GN、LPA、LPAm、LPAm+有较大优势，在Dolphins数据集上也要优于GN、LPA、LPAm和LPAm+算法，GN算法在Karatehe和Dolphins相比于LPA算法识别质量较好一点，LPA算法由于存在随机性识别质量不高，而在Football数据集上KILPA算法与LPAm+算法相当但是都要略高于其他三个算法。总体而言KILPA算法在三个数据集上得到了较好的NMI值，相比于GN、LPA、LPAm和LPAm+，KILPA算法存在一定优势，能识别出较好的社区质量。

本实施例中为了更充分的评价标签传播算法的性能，把GN算法、LPA算法、LPAm算法、LPAm+算法和KILPA算法在Karate、Dolphins、Football三个真实数据集上所需要的时间消耗进行对比，如表3所示：

表3真实网络时间消耗对比

在Karate这样规模较小的社区上GN算法的时间消耗并不多，但是随着社区规模增大如Football数据集GN算法需要消耗的时间急速增长，而标签传播算法体现出它的优势，但是相比于GN算法存在非常大的优势，时间消耗上优势明显。

由实验结果可以看出，本发明方法具有良好的效果，改进的KILPA算法在识别社区质量上相较于LPA算法有明显的提升。