CN107133877A

CN107133877A - 网络中重叠社团的挖掘方法

Info

Publication number: CN107133877A
Application number: CN201710419287.5A
Authority: CN
Inventors: 孙丽萍; 罗永龙; 刘君; 鲍舒婷; 郑孝遥; 陈付龙
Original assignee: Anhui Normal University
Current assignee: Anhui Normal University
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2017-09-05
Anticipated expiration: 2037-06-06
Also published as: CN107133877B

Abstract

本发明揭示了一种网络中重叠社团的挖掘方法，包括步骤A、通过定义种子选择的过程，在种子选择迭代过程中依次选择不属于覆盖集的顶点作为种子，并根据顶点覆盖增长率的变化范围确定种子数目，自适应产生最优种子；B、利用个性化PageRank算法以各顶点为起点扩展社团范围，覆盖多数顶点；C、将未覆盖顶点自适应划分到邻近社团中，调整社团结构，完成社团划分。本发明的优点在于网络中重叠社团的挖掘方法通过对顶点增长覆盖率等的定义，可在种子选择阶段根据社团结构自行产生最优种子，并能在个性PageRank算法后自适应地合并和调整未覆盖顶点。

Description

网络中重叠社团的挖掘方法

技术领域

本发明涉及在复杂网络中对重叠社团进行检测和划分的方法，具体涉及一种基于种子选择和种子扩展的自适应社团检测方法。

背景技术

挖掘复杂网络中的社团结构，对于发现复杂网络中的隐藏规律、预测网络行为以及增强网络的安全可信度具有重要的理论意义和广泛的应用前景。社团检测作为网络分析领域中的基础课题，在生物科学、社会学、计算机科学、经济学等众多研究领域都具有应用价值。对于某一特定的网络，可以采用一定的模型将其转化为只考虑边和顶点关系的图结构。复杂网络的一大基本特征是具有较明显的“社团”划分，属于同一社团的顶点间连接紧密，而不同社团间连接稀疏。相同社团内的顶点具有某些相似的特征，而不同社团的顶点特征差异较大。针对真实复杂网络的社团检测有利于识别网络结构，分析网络特性。

多数传统的社团检测方法将图中顶点划分到某一特定社团中。然而在现实世界，顶点可能属于多社团共享状态。如社交网络中，个人鉴于其不同身份，参与多个社交圈子。考虑顶点属于多个社团的情况更具有实用性和研究价值。重叠社团检测允许多个社团间相互重叠，重叠区域内的顶点属于这若干个社团共有。因此，重叠社团检测成为社团检测问题中需要进一步探究的问题。

Whang等人提出两种不同的种子选择方法，分别使用各社团的中心顶点和“高密度”顶点作为种子来源，不能有效处理含离群点的网络结构；种子数目事先指定，无法根据社团规模自行调整。Coscia等人提出的DEMON方法采用“局部为先”思想，结合了标记传播法进行社团检测，易陷入局部最优的状态，无法根据社团整体结构动态调整种子分布。

发明内容

本发明所要解决的技术问题是实现一种能够处理复杂网络中的社团检测问题的方法，也是一种复杂网络的重叠社团挖掘方法，该方法需要能够自适应各类型的复杂网络中的重叠社团检测，根据社团整体结构动态调整种子分布，达到适用范围广泛，效率较高的要求。

为了实现上述目的，本发明采用的技术方案为：网络中重叠社团的挖掘方法，包括以下步骤：

步骤1、种子选择阶段：在定义种子选择的过程中根据社团结构自适应产生最优的种子；

步骤2、种子扩展阶段：利用个性化PageRank算法，并根据社团和种子顶点间的关系进行种子扩展，覆盖网络多数顶点；

步骤3、社团扩展阶段：将未覆盖的顶点自适应划分到邻近社团中，完成社团划分。

所述步骤1中，先定义种子集、覆盖集和顶点覆盖增长率的概念，将顶点按照度从大到小排序，之后在种子选择迭代过程中依次选择不属于覆盖集的顶点作为种子，并根据顶点覆盖增长率的变化范围确定种子数目，根据顶点覆盖增长率的定义选择顶点，并获取初始种子集。

所述步骤2中，基于种子选择阶段得到的初始种子集按顺序对其中的种子及其邻接点进行种子扩展。

所述步骤3中，在PageRank算法结束时，未被覆盖的社团可分成两种类型，种类一、顶点至少有一个邻接点属于簇类中，种类二、顶点是离群点，其所有邻接点也都未被覆盖，如果顶点属于种类一，则将顶点与其邻接点分到同一社团中；如果顶点属于种类二，则将顶点与可能存在的邻接点组成一个新社团。

所述步骤1包括以下步骤：

步骤1.1、记G(V,E)为无向图，顶点集记为V＝{v₁,v₂,...v_N}，对应N个顶点和边集将顶点按照度从大到小排序，并对其进行1到n编号，计算顶点v_i的度degree(v_i)，初始化i＝1；

步骤1.2、记Coverage_i-1包含第i次迭代时生成的种子集及它们的邻接点；

定义式：Coverage_i＝s_i∪neighbor(s_i)∪Coverage_i-1；其中s_i表示第i次迭代时选择的种子，neighbor(s_i)表示s_i的邻接点，n为迭代的次数；

如果顶点v_i不存在于第i-1次迭代时生成的种子集及它们的邻接点集合Coverage_i-1中，则利用式Seed_i＝s_i∪Seed_i-1(i＝1,2,...,n)，计算第i次迭代时生成的种子集Seed_i，将顶点v_i加入种子集Seed_i中，并计算Coverage_i，将顶点v_i和它的邻接点和上一次迭代生成的Coverage_i-1加入集合Coverage_i中；

步骤1.3、利用顶点覆盖增长率GrowthRate_i控制种子的数量；

再通过计算顶点覆盖增长率GrowthRate_i，其中size(Coverage_i)是Coverage_i中元素的个数；

如果GrowthRate_i＞η，表明还有顶点可以加入种子集，i＝i+1，找到序列中的下一个顶点，并循环步骤1.2和步骤1.3，若条件不满足，则进入步骤1.4；

步骤1.4、将上一次迭代的种子集Seed_i-1复制到Seed_all，Seed_all就是选择完毕的种子集。

所述步骤2包括以下步骤：

步骤2.1、基于种子选择阶段，已经得到初步种子集Seed_all，记α为传送概率，ε为随机游走的误差，初始化count＝1，对于Seed_all中所有种子s_count按顺序进行扩展；

步骤2.2、利用T←{s_count}∪{neighbor(s_count)}将s_count及它的邻接点neighbor(s_count) 加入集合T中，寻找s_count的邻接点中是否存在可能的种子；

步骤2.3、设X_i＝{x_1i,x_2i,...,x_ni}为page-rank算法第i次随机游走后的 Page-Rank向量，向量R_i＝{r_1i,r_2i,...,r_ni}为每个顶点第i次随机游走时的启动向量，之后对于点集合V中的任意顶点v，顶点v在第1次随机游走后的概率x_v1＝0，对于集合V/T中的任意顶点v，顶点v在第1次随机游走后启动向量的概率r_v1＝0，对于集合T中的任意顶点v，顶点v在第1次随机游走后启动向量的概率最后令i＝1；

步骤2.4、如果此时满足r_vi＞degree(v)·ε；

利用计算顶点v在第i+1次随机游走后的概率x_v(i+1)，对于边集合E中所有与v相连的边(v,u)；

利用r_ui＝r_u(i-1)+(1-α)r_v(i-1)/2degree(v)计算顶点u在第i+1次随机游走后启动向量的概率r_u(i+1)，其中α为传送概率，ε为随机游走的误差(ε-approximate)，两者取值位于(0,1]之间；

利用r_vi＝(1-α)r_v(i-1)/2计算顶点v在第i+1次随机游走后启动向量的概率r_v(i+1)；

之后对点集V中的下一个顶点进行计算，如果此时还满足r_vi＞degree(v)·ε条件，则循环步骤2.4，若干不满足，则进入步骤2.5；

步骤2.5、对于点集合V中所有顶点v，如果就将该顶点作为新种子加入C_count；

步骤2.6、将C_count加入社团集合C中，继续从步骤2.1开始从Seed_all下一个种子进行种子扩展，直到遍历完Seed_all中的所有种子。

所述步骤3包括以下步骤：

步骤3.1、基于种子扩展阶段生成的社团集合C，将C中的每个社团C_i复制给C_i'，最终保存在社团集合C'中；

步骤3.2、对于在点集合V不在集合C中的顶点，即没有被划分到任何一个社团中的剩余顶点v，利用Remain←Remain∪{v}将顶点加入到剩余集合Remain中；

步骤3.3、对于剩余集合Remain中的顶点v，如果v存在至少有一个邻接点u 属于簇类中，利用C_i'←C_i'∪{v}将v与u所在的社团合并，否则，说明v是离群点，其所有邻接点也都未被覆盖，利用C'_M+1←{v}∪{neighbor(v)}将顶点v与它的邻接点合并形成一个新社团。

本发明的优点在于网络中重叠社团的挖掘方法通过对顶点增长覆盖率等的定义，可在种子选择阶段根据社团结构自行产生最优种子，并能在个性PageRank 算法后自适应地合并和调整未覆盖顶点。

附图说明

下面对本发明说明书中每幅附图表达的内容作简要说明：

图1为网络中重叠社团的挖掘方法流程图；

图2为种子选择阶段控制流程图；

图3为种子扩展阶段控制流程图；

图4为社团扩展阶段控制流程图。

具体实施方式

如图1所示，重叠社团挖掘方法通过以下三步实现：

步骤1、种子选择阶段：通过定义种子选择的过程，根据社团结构自适应产生最优种子。定义种子集，覆盖集和顶点覆盖增长率的概念，将顶点按照度从大到小排序。然后在种子选择迭代过程中依次选择不属于覆盖集的顶点作为种子并根据顶点覆盖增长率的变化范围确定种子数目。根据顶点覆盖增长率的定义选择顶点，结合贪心法思想，获取初始种子集。

步骤2、种子扩展阶段：利用个性化PageRank算法根据社团和种子顶点间的关系进行种子扩展，覆盖网络多数顶点。基于种子选择阶段得到的初始种子集按顺序对其中的种子及其邻接点进行种子扩展。

步骤3、社团扩展阶段：将未覆盖顶点自适应划分到临近社团中，完成社团划分。在PageRank算法结束时，未被覆盖的社团可分成两种类型，一种顶点至少有一个邻接点属于簇类中；另一种顶点是离群点，其所有邻接点也都未被覆盖。如果顶点属于前者，则与其邻接点分到同一社团中；如果顶点属于后者，则将它与可能存在的邻接点组成一个新社团。

如图2所示，种子选择阶段包括以下步骤：

步骤1.1记G(V,E)为无向图，顶点集记为V＝{v₁,v₂,...v_N}，对应N个顶点和边集将顶点按照度从大到小排序，并对其进行1到n编号，计算顶点v_i的度degree(v_i)，初始化i＝1；

步骤1.2记Coverage_i-1包含第i次迭代时生成的种子集及它们的邻接点，具体定义如式(1)，如果顶点v_i不存在于第i-1次迭代时生成的种子集及它们的邻接点集合Coverage_i-1中，则利用式(2)计算第i次迭代时生成的种子集Seed_i，将顶点v_i加入种子集Seed_i中，利用式(1)计算Coverage_i，将顶点v_i和它的邻接点和上一次迭代生成的Coverage_i-1加入集合Coverage_i中；

步骤1.3利用顶点覆盖增长率GrowthRate_i控制种子的数量，再通过式(3)计算顶点覆盖增长率GrowthRate_i，如果GrowthRate_i＞η，说明还有顶点可以加入种子集，i＝i+1，找到序列中的下一个顶点，循环步骤1.2和1.3，如果不满足该条件，则进入步骤1.4；

步骤1.4将上一次迭代生成的种子集Seed_i-1复制到Seed_all，Seed_all就是选择完毕的种子集。

公式如下：

Coverage_i＝s_i∪neighbor(s_i)∪Coverage_i-1 (1)

式(1)中，s_i表示第i次迭代时选择的种子，neighbor(s_i)表示s_i的邻接点，n为迭代的次数。

Seed_i＝s_i∪Seed_i-1(i＝1,2,...,n) (2)

其中size(Coverage_i)是Coverage_i中元素的个数。

如图3所示，种子扩展阶段包括以下步骤：

步骤2.1基于种子选择阶段，已经得到初步种子集Seed_all，记α为传送概率，ε为随机游走的误差，初始化count＝1，对于Seed_all中所有种子s_count按顺序进行扩展；

步骤2.2首先利用式(4)将s_count及它的邻接点neighbor(s_count)加入集合T中，寻找s_count的邻接点中是否存在可能的种子；

步骤2.3设X_i＝{x_1i,x_2i,...,x_ni}为page-rank算法第i次随机游走后的 Page-Rank向量，向量R_i＝{r_1i,r_2i,...,r_ni}为每个顶点第i次随机游走时的启动向量。然后对于点集合V中的任意顶点v，顶点v在第1次随机游走后的概率x_v1＝0。对于集合V/T中的任意顶点v，顶点v在首次随机游走后启动向量的概率r_v1＝0。对于集合T中的任意顶点v，顶点v在首次随机游走后启动向量的概率最后令i＝1；

步骤2.4如果此时满足式(5)，利用式(6)计算顶点v在第i+1次随机游走后的概率x_v(i+1)。对于边集合E中所有与v相连的边(v,u)，利用式(8)计算顶点u在第 i+1次随机游走后启动向量的概率r_u(i+1)。利用式(7)计算顶点v在第i+1次随机游走后启动向量的概率r_v(i+1)。然后对点集V中的下一个顶点进行计算，如果此时还满足式(5)这个条件，则循环该步骤，不满足，则进入步骤2.5；

步骤2.5对于点集合V中所有顶点v，如果就将该顶点作为新种子加入C_count；

步骤2.6将C_count加入社团集合C中，继续从步骤2.1开始从Seed_all下一个种子进行种子扩展，直到遍历完Seed_all中的所有种子。

T←{s_count}∪{neighbor(s_count)}； (4)

r_vi＞degree(v)·ε (5)

r_vi＝(1-α)r_v(i-1)/2 (7)

r_ui＝r_u(i-1)+(1-α)r_v(i-1)/2degree(v) (8)

其中α为传送概率，ε为随机游走的误差(ε-approximate)，两者取值位于(0,1] 之间。

如图4所述，社团扩展阶段包括以下步骤：

步骤3.1基于种子扩展阶段生成的社团集合C，将C中的每个社团C_i复制给C_i'，最终保存在社团集合C'中；

步骤3.2对于在点集合V不在集合C中的顶点，就是所要找的没有被划分到任何一个社团中的剩余顶点v，利用式(9)将顶点加入到剩余集合Remain；

步骤3.3对于剩余集合Remain中的顶点v，如果v存在至少有一个邻接点u 属于簇类中，利用式(10)将v与u所在的社团合并。否则，说明v是离群点，其所有邻接点也都未被覆盖，利用式(11)将顶点v与它的邻接点合并形成一个新社团。

Remain←Remain∪{v} (9)

C_i'←C_i'∪{v} (10)

C'_M+1←{v}∪{neighbor(v)} (11)

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.网络中重叠社团的挖掘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的网络中重叠社团的挖掘方法，其特征在于：所述步骤1中，先定义种子集、覆盖集和顶点覆盖增长率的概念，将顶点按照度从大到小排序，之后在种子选择迭代过程中依次选择不属于覆盖集的顶点作为种子，并根据顶点覆盖增长率的变化范围确定种子数目，根据顶点覆盖增长率的定义选择顶点，并获取初始种子集。

3.根据权利要求1所述的网络中重叠社团的挖掘方法，其特征在于：所述步骤2中，基于种子选择阶段得到的初始种子集按顺序对其中的种子及其邻接点进行种子扩展。

4.根据权利要求1所述的网络中重叠社团的挖掘方法，其特征在于：所述步骤3中，在PageRank算法结束时，未被覆盖的社团可分成两种类型，种类一、顶点至少有一个邻接点属于簇类中，种类二、顶点是离群点，其所有邻接点也都未被覆盖，如果顶点属于种类一，则将顶点与其邻接点分到同一社团中；如果顶点属于种类二，则将顶点与可能存在的邻接点组成一个新社团。

5.根据权利要求1或2所述的网络中重叠社团的挖掘方法，其特征在于，所述步骤1包括以下步骤：

步骤1.3、利用顶点覆盖增长率GrowthRate_i控制种子的数量；

6.根据权利要求1或3所述的网络中重叠社团的挖掘方法，其特征在于，所述步骤2包括以下步骤：

步骤2.2、利用T←{s_count}∪{neighbor(s_count)}将s_count及它的邻接点neighbor(s_count)加入集合T中，寻找s_count的邻接点中是否存在可能的种子；

步骤2.3、设X_i＝{x_1i,x_2i,...,x_ni}为page-rank算法第i次随机游走后的Page-Rank向量，向量R_i＝{r_1i,r_2i,...,r_ni}为每个顶点第i次随机游走时的启动向量，之后对于点集合V中的任意顶点v，顶点v在第1次随机游走后的概率x_v1＝0，对于集合V/T中的任意顶点v，顶点v在第1次随机游走后启动向量的概率r_v1＝0，对于集合T中的任意顶点v，顶点v在第1次随机游走后启动向量的概率最后令i＝1；

步骤2.4、如果此时满足r_vi＞degree(v)·ε；

7.根据权利要求1或4所述的网络中重叠社团的挖掘方法，其特征在于，所述步骤3包括以下步骤：

步骤3.1、基于种子扩展阶段生成的社团集合C，将C中的每个社团C_i复制给C'_i，最终保存在社团集合C'中；

步骤3.3、对于剩余集合Remain中的顶点v，如果v存在至少有一个邻接点u属于簇类中，利用C'_i←C'_i∪{v}将v与u所在的社团合并，否则，说明v是离群点，其所有邻接点也都未被覆盖，利用C'_M+1←{v}∪{neighbor(v)}将顶点v与它的邻接点合并形成一个新社团。