CN107609982A

CN107609982A - 考虑社区结构稳定度和增量相关节点进行社区发现的方法

Info

Publication number: CN107609982A
Application number: CN201710829612.5A
Authority: CN
Inventors: 郭昆; 郭文忠; 陈羽中; 牛玉贞; 李国辉
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-01-19
Anticipated expiration: 2037-09-14
Also published as: CN107609982B

Abstract

本发明涉及一种考虑社区结构稳定度和增量相关节点进行社区发现的方法，包括以下步骤：1、生成初始社区集，设置社区的初始权重，并初始化迭代时刻；2、计算增量相关节点集合IV _t；3、遍历每个社区，解散社区集NS _t中社区权重和社区规模小于阈值的社区；4、对集合IV _t中的节点进行社区划分，生成新社区；5、遍历每个新社区，解散社区规模小于阈值的新社区；6、遍历剩余相关节点集合IV _t‑rm中各节点，计算节点与相邻社区的相似度，将其加入相似度最高的社区，生成社区集NS _t；7、更新每个社区的稳定度和权重；8、计算NS _t的社区结构稳定度；9、判断是否满足迭代停止条件，以结束计算。该方法可以高效、准确地进行社区发现。

Description

考虑社区结构稳定度和增量相关节点进行社区发现的方法

技术领域

本发明涉及社交网络上的重叠社区发现技术领域，特别是一种考虑社区结构稳定度和增量相关节点进行社区发现的方法。

背景技术

随着Web 2.0技术的发展，人们通过注册Twitter、FaceBook、微博等社交平台的帐号，相互认识并成为好友。因此，社交网络已经成为人们生活中不可或缺的一部分。复杂网络可以被抽象为有向或无向图结构，借助图论的相关工具与方法，可以刻画社区结构，并设计基于图论方法的社区发现算法。社区结构的发现就是将网络节点按照其内在的拓扑结构连接的紧密程度划分成若干个子图的过程。分析并发现其结构对于用户行为分析，情感分析，个体影响力分析等都具有重要作用。

针对复杂网络的特征，如小世界、无标度、拥有社区结构等。有许多学者进行了大量研究，提出了很多经典的社区发现算法。传统对社区结构的研究主要针对静态网络的社区发现，基于MapReduce等并行计算模型的静态社区发现算法已经能够很容易地处理包含大规模的社交网络。但是，在真实环境中，网络并不是一成不变的，它们往往随着时间变化，具有动态的特征。目前，动态网络的社区检测主要包括进化聚类和增量聚类。增量方法将前一时刻社区检测的输出结果作为下一个时刻的输入，由于增量聚类的时间开销较少，因此，基于增量的社区划分算法得到了广泛关注。

现有的增量社区发现算法在社区发现方面已经取得一定成果，但仍然存在以下几个问题：首先随着时间的推移，基于增量式的社区发现会存在累积效应产生的误差；其次，面对更大规模的社交网络，如何提高算法的运行效率；最后，只考虑了所有社区的变化，而没有考虑各个社区的变化情况。

发明内容

本发明的目的在于提供一种考虑社区结构稳定度和增量相关节点进行社区发现的方法，该方法可以高效、准确地进行社区发现。

为实现上述目的，本发明的技术方案是：一种考虑社区结构稳定度和增量相关节点进行社区发现的方法，包括以下步骤：

步骤1：采用SLPA算法在网络G₁上生成初始社区集NS₁；

步骤2：对任意社区c∈NS₁，设置社区c的初始权重wc(c,t₀)＝1.0；

步骤3：初始化迭代时刻iter＝2；

步骤4：计算t时刻相较于t-1时刻的增量相关节点集合IV_t；

步骤5：并行遍历t时刻社区集NS_t中的每个社区，解散社区权重小于阈值wc_min的社区和社区规模小于阈值cs_min的社区，将被解散的社区内的节点加入IV_t；

步骤6：采用SLPA算法对集合IV_t中的节点进行社区划分，生成新社区；

步骤7：并行遍历每个新社区，解散社区规模小于cs_min的新社区，将被解散的社区内的节点从集合IV_t中删除，加入剩余相关节点集合IV_t-rm，并将剩余的社区加入t-1时刻社区集NS_t-1；

步骤8：并行遍历集合IV_t-rm中的每个节点，计算节点与相邻社区的相似度，将其加入到相似度最高的社区，生成t时刻社区集NS_t；

步骤9：更新社区集NS_t中每个社区的稳定度和权重；

步骤10：计算社区集NS_t的社区结构稳定度S_m，如果社区结构稳定度S_m大于等于阈值S_min，则输出社区集NS_t；否则，调用SLPA算法输出社区集NS_t；

步骤11：判断是否满足迭代停止条件，是则计算结束，否则令迭代时刻iter加1，并返回步骤4。

进一步地，在步骤4中，计算增量相关节点集合IV_t的方法为：

步骤4.1：根据t时刻和t-1时刻的网络，得到t时刻和t-1时刻的所有节点，两者求差集得到增加与减少的节点，将这些节点加入增量相关节点集合；

步骤4.2：根据t-1时刻的社区，再根据t时刻和t-1时刻的网络，判断增加与删除的边，如果增加的边在t-1时刻属于不同的社区以及减少的边在t-1时刻属于相同的社区，将这些边所在的节点加入增量相关节点集合；

步骤4.3：将步骤4.1和4.2得到的合并，即为增量相关节点集合IV_t。

进一步地，在步骤5中，解散社区权重小于阈值wc_min的社区和社区规模小于cs_min的社区的方法为：

步骤5.1：社区权重结构为(社区id，社区权重)，社区规模结构为(社区id，社区规模)，对两者进行合并操作，得到社区权重规模结构为(社区id，(社区权重，社区规模))；

步骤5.2：遍历每个社区，解散社区权重小于阈值wc_min的社区和社区规模小于cs_min的社区。

进一步地，在步骤8中，计算集合IV_t-rm中节点与相邻社区的相似度，将其加入到相似度最高的社区，生成t时刻社区集NS_t的方法如下：

步骤8.1：计算剩余相关节点集合IV_t-rm中节点i与相邻社区k中每个相邻节点的相似度sim，进行求和，得到节点i与相邻社区k的相似度，相似度sim的计算公式如式(1)所示：

且NB_i∩NB_j∈C_k，NB_i∪NB_j∈C_k

(1)

其中，sim(i,j)表示节点i和节点j的相似度，集合NB_i表示节点i的邻居，集合NB_j表示节点j的邻居，两者的并集均在社区C_k中，sim(i,j)值在[0,1]区间上；

步骤8.2：判断是否计算完节点i与所有相邻社区的相似度，是则转下一步，否则返回步骤8.1计算节点i与其他相邻社区的相似度；

步骤8.3：将节点i归属到相似度最高的社区中，作为该节点的隶属社区，隶属社区s_l的计算公式如式(2)所示：

进一步地，在步骤9中，更新社区集NS_t中每个社区的稳定度和权重的步骤如下：

步骤9.1：为每个社区设置一个社区结构稳定度st(c,t)，社区结构稳定度st(c,t)的计算公式如式(3)所示：

其中，|·|表示集合大小，|e_c,t ⁺|和|e_c,t ^－|分别表示t时刻社区c的增加和减少的边数，|v_c,t ⁺|和|v_c,t ^－|分别表示t时刻社区c的增加和减少的节点数，|NB(v)|表示t时刻与节点v归属同一社区的所有邻居节点数；|E_c,t|和|E_c,t-1|分别表示t时刻和t-1时刻社区c边的总数，|E_c,t|和|E_c,t-1|分别表示t时刻和t-1时刻社区c节点的总数；

步骤9.2：借鉴数据流聚类中的思想，引入衰减系数，以避免长期存在的历史社区对新社区发现的影响；有些社区可能随着时间的推移，社区稳定结构保持较好，则适当减慢其衰减速度，而有些社区较不稳定，则适当加快其衰减速度，社区的权重wc(c,t)的更新公式如(4)如示；

其中，0＜λ≤1表示权重衰减系数，t和t₀分别表示当前时刻与初始时刻，wc(c,t)表示t时刻社区c的权重；st(c,t)表示t时刻社区c的结构稳定度，当st(c,t)大于等于给定社区结构稳定度阈值st_min时，以倍速率进行衰减，否则，以倍速率进行衰减。

进一步地，在步骤10中，输出社区集NS_t的计算过程为：

步骤10.1：设置阈值S_min，在每次增量社区发现完成后，根据公式(5)计算社区结构稳定度：

其中，st(c,t)表示t时刻社区c的结构稳定度，t’为重新进行社区发现的时刻，S_m的值为从t’时刻到T时刻所有社区的结构稳定度的平均值；

步骤10.2：如果S_m≥S_min时，输出当前时刻的社区集NS_t，否则重新运行SLPA算法，输出当前时刻的社区结构集NS_t。

相较于现有技术，本发明的有益效果是：以前一个时刻得到的社区结构为基础，通过基于Jaccard系数的社区归属判定条件来调整增量相关节点的社区归属，同时考虑每个社区的结构稳定度，以发现动态网络社区。通过增量方法分析相邻时刻网络的变化，避免了对整个网络进行重新划分，从而大大减少了算法的时间开销，具有良好的动态社区发现能力。

附图说明

图1是本发明实施例的实现流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明考虑社区结构稳定度和增量相关节点进行社区发现的方法，综合运用了引进流聚类中的衰减系数、Jaccard相似度社区归属判定条件、社区结构稳定度计算以及并行计算技术，实现大规模社交网络上的社区发现，如图1所示，包括以下步骤：

步骤1：采用SLPA算法在网络G₁上生成初始社区集NS₁。

步骤2：对任意社区c∈NS₁，设置社区c的初始权重wc(c,t₀)＝1.0。

步骤3：初始化迭代时刻iter＝2。

步骤4：计算t时刻相较于t-1时刻的增量相关节点集合IV_t。具体方法为：

步骤5：并行遍历t时刻社区集NS_t中的每个社区，解散社区权重小于阈值wc_min的社区和社区规模小于阈值cs_min的社区，将被解散的社区内的节点加入IV_t。具体方法为：

步骤6：采用SLPA算法对集合IV_t中的节点进行社区划分，生成新社区。

步骤7：并行遍历每个新社区，解散社区规模小于cs_min的新社区，将被解散的社区内的节点从集合IV_t中删除，加入剩余相关节点集合IV_t-rm(表示生成新社区中规模小于cs_min的新社区的节点集合)，并将剩余的社区加入t-1时刻社区集NS_t-1。

步骤8：并行遍历集合IV_t-rm中的每个节点，计算节点与相邻社区的相似度，将其加入到相似度最高的社区，生成t时刻社区集NS_t。具体方法为：

且NB_i∩NB_j∈C_k，NB_i∪NB_j∈C_k

(1)

步骤9：更新社区集NS_t中每个社区的稳定度和权重。具体步骤为：

步骤9.1：随着时间的不断推移，基于增量式的社区发现的误差会累积。为每个社区设置一个社区结构稳定度st(c,t)，考虑了相邻时刻节点和边的变化，社区结构稳定度st(c,t)的计算公式如式(3)所示：

步骤10：计算社区集NS_t的社区结构稳定度S_m，如果社区结构稳定度S_m大于等于阈值S_min，则输出社区集NS_t；否则，调用SLPA算法输出社区集NS_t。由于增量社区发现会存在累积误差，这里是一个条件判断，判断如果社区结构稳定度大于阈值，直接输出结果；如果小于阈值，说明累积误差较大，就调用SLPA算法跑全量数据，跟步骤1中的初始时刻是一样的。具体计算过程为：

步骤11：判断是否满足迭代停止条件(一开始设置迭代次数iter＝2，迭代停止条件就是T，T为总的时刻，当达到T时刻，算法结束)，是则计算结束，否则令迭代时刻iter加1，并返回步骤4。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种考虑社区结构稳定度和增量相关节点进行社区发现的方法，其特征在于，包括以下步骤：

步骤1：采用SLPA算法在网络G₁上生成初始社区集NS₁；

步骤3：初始化迭代时刻iter＝2；

步骤4：计算t时刻相较于t-1时刻的增量相关节点集合IV_t；

步骤9：更新社区集NS_t中每个社区的稳定度和权重；

2.根据权利要求1所述的考虑社区结构稳定度和增量相关节点进行社区发现的方法，其特征在于，在步骤4中，计算增量相关节点集合IV_t的方法为：

3.根据权利要求1所述的考虑社区结构稳定度和增量相关节点进行社区发现的方法，其特征在于，在步骤5中，解散社区权重小于阈值wc_min的社区和社区规模小于cs_min的社区的方法为：

4.根据权利要求1所述的考虑社区结构稳定度和增量相关节点进行社区发现的方法，其特征在于，在步骤8中，计算集合IV_t-rm中节点与相邻社区的相似度，将其加入到相似度最高的社区，生成t时刻社区集NS_t的方法如下：

且NB_i∩NB_j∈C_k，NB_i∪NB_j∈C_k (1)

<mrow> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>k</mi> </mrow> <mi>n</mi> </munderover> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

5.根据权利要求1所述的考虑社区结构稳定度和增量相关节点进行社区发现的方法，其特征在于，在步骤9中，更新社区集NS_t中每个社区的稳定度和权重的步骤如下：

<mrow> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mn>4</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msup> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> </msup> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>E</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msup> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> </msup> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>E</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mn>4</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <mrow> <mo>|</mo> <mrow> <msup> <msub> <mi>v</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> </msup> </mrow> <mo>|</mo> </mrow> <mo>+</mo> <mrow> <mo>|</mo> <mi>N</mi> <mi>B</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>v</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> </msup> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mrow> <mrow> <mo>|</mo> <msub> <mi>V</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mfrac> <mrow> <mrow> <mo>|</mo> <mrow> <msup> <msub> <mi>v</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> </msup> </mrow> <mo>|</mo> </mrow> <mo>+</mo> <mrow> <mo>|</mo> <mi>N</mi> <mi>B</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>v</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> </msup> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mrow> <mrow> <mo>|</mo> <msub> <mi>V</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

6.根据权利要求5所述的考虑社区结构稳定度和增量相关节点进行社区发现的方法，其特征在于，在步骤10中，输出社区集NS_t的计算过程为：

<mrow> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> </mrow> <mi>T</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>