CN107194818A

CN107194818A - 基于节点重要度的标签传播社区发现算法

Info

Publication number: CN107194818A
Application number: CN201710238093.5A
Authority: CN
Inventors: 张贤坤; 任静; 荚佳; 宋琛; 张倩
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2017-04-13
Filing date: 2017-04-13
Publication date: 2017-09-22

Abstract

本发明涉及一种基于节点重要度的标签传播社区发现算法，其主要技术特点是：初始化每个节点的唯一标签；计算每个节点重要度，并按节点重要度从高到低对节点排序，生成有序序列；设置迭代次数t＝1；对有序序列中的任意节点，根据标签选择方法和标签更新规则将该节点的标签更新为其邻接节点标签集中影响力最大的标签；若迭代次数t＝＝max Iter或每个节点的标签为影响力最大的标签，则将具有同样标签的节点归入相同社区，处理结束；否则，迭代次数t加1，继续更新。本发明设计合理，在复杂度相似的情况下能够显著提高社区发现的质量，缩短迭代周期，具有较高的准确性和稳定性，可广泛用于社区发现、社交网络等领域。

Description

基于节点重要度的标签传播社区发现算法

技术领域

本发明属于智能信息处理技术领域，尤其是一种基于节点重要度的标签传播社区发现算法。

背景技术

社会网络中的社区发现对于社会网络分析具有重要意义。近10年来，已有很多社会网络社区发现方法被提出，依据采用的求解策略不同，主要可以分为基于优化的社区发现方法和基于启发式的社区发现方法，基于优化的方法通过设置目标函数并迭代逼近函数最优值实现社区发现，具有代表性的方法包括谱方法和模块度最大化方法。基于启发式策略的方法通过设置启发规则来寻找最优社区划分，代表性的算法如GN(Girvan-Newman)算法和WH(Wu-Huberman)算法。

标签传播算法是一种基于图的半监督学习方法，其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。其利用样本间的关系建立关系完全图模型，在完全图中，节点包括已标注和未标注数据，其边表示两个节点的相似度，节点的标签按相似度传递给其他节点。标签数据就像是一个源头，可以对无标签数据进行标注，节点的相似度越大，标签越容易传播。

2007年，Raghavan等人提出了一种基于标签传播思想的快速社区发现算法LPA(Label Propagation Algorithm)，LPA算法在迭代更新节点标签的过程中存在不确定性和随机性，导致其结果准确性和稳定性常常不能达到预期。之后又有学者分别从不同角度对LPA算法进行改进，但是这些算法仅根据标签的个数评判标签的影响力，没有考虑标签更新的顺序和节点自身重要度对标签选择的影响。在大规模社交网络中，比如微博社会网络，如果考虑节点先验属性对节点重要度的影响。

综上所述，现有的标签传播算法在准确性和稳定性上都存在很大的提升空间。

发明内容

本发明的目的在于克服现有技术的不足，提供基于节点重要度的标签传播社区发现算法，能够在复杂度相似的情况下能够显著提高社区发现的质量，缩短迭代周期，从而提高社区发现的准确性和稳定性。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于节点重要度的标签传播社区发现算法，包括以下步骤：

步骤1：初始化每个节点的唯一标签；

步骤2：计算每个节点重要度，并按节点重要度从高到低对节点排序，生成有序序列；

步骤3：设置迭代次数t＝1；

步骤4：对有序序列中的任意节点，根据标签选择方法和标签更新规则将该节点的标签更新为其邻接节点标签集中影响力最大的标签；

步骤5：设置最大迭代次数为max Iter，若迭代次数t＝＝max Iter或每个节点的标签为影响力最大的标签，则将具有同样标签的节点归入相同社区，处理结束；否则，迭代次数t加1，返回步骤4；

进一步，所述步骤2节点重要度的计算公式为：

其中，NI(i)表示节点i的重要度，Inf(i)表示节点i的先验重要度，α表示衡量邻接节点重要度对节点i影响力的系数，α取值从0到1，N(i)表示节点i的邻接节点集，d(j)表示节点i的邻接节点j的度数。

进一步，所述步骤4标签选择方法的计算公式如下：

其中，LI(i,l)表示标签l对节点i的影响力，N^l(i)表示节点i周围标签为l的集合，d(j)表示节点i的邻接节点j的度数,NI(j)表示节点i的相邻节点j的重要度。

进一步，所述步骤4标签更新规则的计算公式如下：

其中，c_i表示节点i的邻接标签出现多个标签的数量同为最大值时选择的标签，lmax表示标签数量为最大值的标签集合，LI(i,l)表示标签l对节点i的影响力。

本发明的优点和积极效果是：

本发明通过计算每个节点重要度并按节点重要度从高到低对节点排序，同时采用标签选择方法和标签更新规则进行节点标签更新，能够在复杂度相似的情况下能够显著提高社区发现的质量，缩短迭代周期，能够准确并稳定地发现网络中的社区，可广泛用于社区发现、社交网络等领域。

附图说明

图1a为本发明更新节点4的示意图；

图1b为本发明更新节点6的示意图；

图1c为本发明更新节点2的示意图；

图2为本发明与NIBLPA、LPA在不同参数α得到的模块度对比图；

图3为本发明与NIBLPA、LPA在参数α＝0.4时的50次重复试验对比图；

图4为本发明与NIBLPA、LPA在不同参数α得到的迭代次数对比图；

图5为本发明与NIBLPA、LPA在不同参数α得到的运行时间对比图。

具体实施方式

以下结合附图对本发明实施例做进一步详述：

步骤1：初始化每个节点v∈V的唯一标签，c_i＝i。

在本实施例中，初始化六个节点1、2、3、4、5、6的标签分别为a、b、c、d、e、f，如图1a所示。

步骤2：根据重要度计算方法计算每个节点重要度，并按节点重要度从高到低对节点排序，生成有序序列V'＝{v_l,v_s,···,v_n}，其中NI(v_l)≥NI(v_s)≥···≥NI(v_n)。

在本步骤中，计算每个节点重要度是基于先验属性得到的重要度而提出的一种新的重要度计算方法，其计算公式如下：

其中，NI(i)表示节点i的重要度，Inf(i)表示节点i的先验重要度，α表示衡量邻接节点重要度对节点i影响力的系数，取值从0到1，N(i)表示节点i的邻接节点集，d(j)表示节点i的邻接节点j的度数。

通过上述重要度计算公式，计算得到节点1-6新的重要度分别为：1.3302、0.943、1.3132、1.3702、0.9793、1.3662，如图1a所示；然后按照新的节点重要度按照从大到小的顺序进行排序，得到标签更新序列为4-6-1-3-5-2。

步骤3：设置迭代次数t＝1。

步骤4：对任意节点v∈V'，根据标签选择方法和标签更新规则将v_i的标签更新为其邻接节点标签集中影响力最大的标签。

标签选择方法是一种基于标签影响力的标签选择方法，即计算各标签的影响力，取影响力最大的标签赋予节点，其计算公式如下：

其中LI(i,l)表示标签l对节点i的影响力，N^l(i)表示节点i周围标签为l的集合。

标签更新规则是一种新的标签更新规则，其计算公式如下：

其中c_i表示节点i的邻接标签出现多个标签的数量同为最大值时选择的标签，lmax表示标签数量为最大值的标签集合，即节点i的邻接节点出现多个标签的数量同为最大值时，根据公式重新计算数量为最大值的标签对节点i的影响力，选择具有最大标签影响力的标签赋给节点i。

本步骤的具体实现方法为：(1)更新节点4，使用(l,n,LI(l))形式来表达节点4的邻接标签信息，其中l表示标签，n表示该标签的数量，LI(l)表示标签l的影响力。如图1a所示，节点4有3个邻接节点，且邻接节点分别拥有不同的标签，所以节点4的邻接标签信息为：{(a,1,0.4434),(e,1,0.4897),(f,1,0.4554)}，因此，选择标签e作为节点4的新标签；(2)更新节点6，在更新节点4的标签为e之后，节点6的邻接标签信息为{(e,2),(c,1)}，由于邻接节点的标签最大值只有一个，因此不再计算标签影响力，并选择标签e更新节点6，其过程如图1b所示；节点1和3的标签传播过程和节点4、6的相似，均被更新为标签b，具体过程不再赘述；(3)节点5和节点2由于其邻接标签信息的标签都是其自身的标签，因此不再更新，其过程如图1c所示。

从上述标签传播过程中可以看出，仅仅通过一次迭代，本发明的算法就获得了包含两个社区的结果，并且完全符合正确的社区划分情况。因此，算法具有良好的稳定性和准确性。

步骤5：设置最大迭代次数为max Iter，若迭代次数t＝＝max Iter或每个节点的标签为影响力最大的标签，将具有同样标签的节点归入相同社区，算法处理结束；否则t＝t+1，返回步骤4。

通过实现结果可以对本发明做进一步验证。如图2所示，本发明(LPA_NI算法)在参数α＝0.4时取得的模块度明显高于NIBLPA算法和LPA算法，而且随着邻接节点重要度对节点i的影响力逐渐增大的过程中，LPA_NI算法的社区划分质量先开始提高，后逐渐降低，因此，邻接节点重要度适量的影响会显著提高算法LPA_NI图1b为的准确性，同时获取最优的划分结果。

如图3所示，LPA_NI算法和NIBLPA算法在50次重复试验中得到的模块度Q值都是0.6995和0.6197，由于这两种算法都改进了更新序列和标签选择过程中的随机性，因此可以得到很好的稳定性，而LPA算法因为其算法存在随机性，导致每次得到的模块度都会变化，因此稳定性较差，而本发明在得到较高的模块度的同时依然具备很好的稳定性。

从图4和图5中可以看出，随着参数α的增大，LPA_NI算法和LPA算法的迭代次数比较稳定，分别都稳定在7次和14次，而NIBLPA算法有较大波动，迭代次数在前期稳定在8次左右，之后次数会激增到17、21、13次。实验结果表明，LPA_NI算法的迭代次数明显小于LPA算法和NIBLPA算法，自然运算时间也会明显优于其他算法，而且仅依靠k-shell值计算得到节点重要度并能完全描述节点在大规模社交网络中的影响力，因此在参数α≥0.8时，社区的迭代次数和运行时间会明显增高，而LPA_NI算法利用先验知识计算得到的重要度更准确，因此其迭代次数和运行时间都会更少，而且稳定性要明显好于其他两种算法。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于节点重要度的标签传播社区发现算法，其特征在于包括以下步骤：

步骤1：初始化每个节点的唯一标签；

步骤3：设置迭代次数t＝1；

步骤5：设置最大迭代次数为maxIter，若迭代次数t＝＝maxIter或每个节点的标签为影响力最大的标签，则将具有同样标签的节点归入相同社区，处理结束；否则，迭代次数t加1，返回步骤4。

2.根据权利要求1所述的基于节点重要度的标签传播社区发现算法，其特征在于：所述步骤2节点重要度的计算公式为：

3.根据权利要求1所述的基于节点重要度的标签传播社区发现算法，其特征在于：所述步骤4标签选择方法的计算公式如下：

4.根据权利要求1所述的基于节点重要度的标签传播社区发现算法，其特征在于：所述步骤4标签更新规则的计算公式如下：