CN101859315A

CN101859315A - 基于度启发式的社交网络影响力最大化求解方法

Info

Publication number: CN101859315A
Application number: CN201010162309A
Authority: CN
Inventors: 蔡皖东; 罗知林; 李勇军
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2010-04-30
Filing date: 2010-04-30
Publication date: 2010-10-13

Abstract

本发明公开了一种基于度启发式的社交网络影响力最大化求解方法，其目的是解决现有贪婪方法全搜索社交网络节点具有复杂度高的技术问题。技术方案是将大量影响力较小的节点排除在种子节点搜寻范围之外，缩小了种子节点搜索范围，节约了大量盲目搜寻的时间，明显降低了社交网络影响力最大化求解方法的复杂度并提高了效率。实验验证和实际测试表明，本发明方法与现有技术贪婪方法相比，在影响力不受损失的情况下，运行时间只有现有技术方法的10％～50％。

Description

基于度启发式的社交网络影响力最大化求解方法

技术领域

本发明涉及一种社交网络影响力最大化求解方法，特别是基于度启发式的社交网络影响力最大化求解方法。

背景技术

社交网络影响力最大化问题是指在社交网络中如何寻找一部分节点(种子节点)，使其具有最大影响力，此问题是一个NP难问题，目前提出的解决方法主要采用贪婪方法，即每次选取影响力增值最大的节点。Kempe等在文献Maximizing the spread ofinfluence through a social network(SIGKDD，pages 137-146，2003)中针对社交网络影响力最大化问题提出了一种原始的贪婪方法。该方法在每次选择种子节点过程中，选取加入到种子节点集合后影响力增值最大的节点作为种子节点，并将它加入到种子节点集合中。该方法得到种子节点的影响力不低于最优方法的(1-1/e)，但此贪婪方法每次选择种子节点需要搜索社交网络所有节点，因此该方法的效率非常低。

Leskovec等在文献中Cost-effective outbreak detection in networks(SIGKDD，pages420-429，2007)提出一个CELF(Cost-Effective Lazy Forward selection)优化贪婪方法，该方法是基于影响力具有子模函数特征提出的，即所有节点的影响力随着种子节点集合中节点数目增加在减弱，具有单调递减性。该方法分为两个步骤：第一个步骤用于选择第一个种子节点，在全部节点中搜索种子节点，选择影响力最大节点加入到种子节点集合中；第二个步骤用于选择余下种子节点，利用影响力具有单调递减性这一性质在部分影响力较大节点中搜索种子节点。由于在第二个步骤中此方法搜索种子节点空间的减少，该方法的效率有了较大提高。

陈卫等在文献中Efficient influence maximization in social networks(SIGKDD，pp.199-208，2009)提出了NewGreedy和MixGreedy两个新的贪婪方法，均用于特定信息传播模型中，比如独立级联模型、带权级联模型等。其中NewGreedy方法是以节点间影响因子p选择相关边，建立一个全新的子图，然后在子图中选择度数最大的节点为种子节点。而MixGreedy方法则分为两部分：第一部分用NewGreedy思想选取第一个种子节点，第二部分用CELF优化贪婪方法思想选取余下种子节点。MixGreedy方法结合了NewGreedy方法与CELF优化贪婪方法的优点，其效率比CELF优化贪婪方法有所提高。

发明内容

为了克服现有贪婪方法全搜索社交网络节点具有复杂度高的不足，本发明提供一种基于度启发式的社交网络影响力最大化求解方法。该方法将大量影响力较小的节点排除在种子节点搜寻范围之外，可以缩小种子节点搜索范围，节约大量盲目搜寻的时间，明显降低社交网络影响力最大化求解方法的复杂度并提高效率。

本发明解决其技术问题所采用的技术方案：一种基于度启发式的社交网络影响力最大化求解方法，其特征在于包括下述步骤：

(a)输入社交网络数据，对节点按度数由大到小排序，选取前r％的高度数节点形成新的节点集合；其中r＝1～20；

(b)申请大小与新的集合节点数目相同的堆栈并清空，在某一特定信息传播模型中计算新的集合中每个节点的影响力，并将所有节点的影响力建成一个最大堆，影响力最大的节点在最大堆顶部；将最大堆顶部的节点加入到种子节点集合中，对最大堆顶部清零并重新排序，第一个种子节点选取过程结束；

(c)选取最大堆顶部的节点，重新计算最大堆顶部的节点加入到种子节点集合后影响力增值

式中，

表示影响力函数，S表示种子节点集合，v表示新加入节点；

然后用堆排序算法重新排序，如果最大堆顶部的节点未发生改变或者是在本轮选择种子过程中重新计算过的节点，则将最大堆顶部的节点加入到种子节点集合中，然后对最大堆顶部清为零并重新排序，本轮种子节点选取过程结束，否则再次计算最大堆顶部的节点加入到种子节点集合后影响力增值，并对最大堆重新排序，直到最大堆顶部的节点不发生改变或者在本轮选择种子中重新计算过的节点为止。

本发明的有益效果是：传统的贪婪方法采用的是在所有社交网络节点中搜索种子节点，因而必须计算每个节点的影响力，耗费了大量计算时间。而本发明方法考虑了社交网络节点度的因素，由于社交网络节点度呈幂律分布，即社交网络存在着大量度数低的节点和少量度数高的节点，是典型的非均匀网络，而在社交网络中的信息是经过边传播的，实验表明节点的度数越高，其影响力均值也就越大，因而节点的度与影响力存在很强的关联性，节点的度呈幂律分布以及节点的度与影响力强关联性说明社交网络存在着大量影响力较小的节点和少量影响力较大的节点。而在影响力最大化问题中种子节点需要具有较大影响力，因此大量影响力较小的节点成为种子节点的概率非常低，将影响力较小的节点排除在种子节点搜寻范围之外，从而缩小了种子节点搜索范围，而种子节点搜寻范围的减少意味着只需计算少部分影响力较大的节点，节约了大量盲目搜寻的时间，使计算效率有了明显的提高。通过实验验证和实际测试表明，本发明方法与现有技术贪婪方法相比，在影响力不受损失的情况下，运行时间只有现有技术方法的10％～50％，运行效率明显提高，并且具有较好的可扩展性，在求解大规模社交网络影响力最大化问题时，本方法性能更优。

下面结合具体实施方式对本发明作详细说明。

具体实施方式

本方法所涉及的基本概念解释如下：

(1)信息传播模型：用计算机模拟实际网络中信息传播的模型，影响力最大化实质上是在信息传播模型中寻找具有最大影响力的种子节点集合。目前基本的信息传播模型主要有三种：独立级联模型、带权级联模型和线性阈值模型。

(2)影响力：节点或节点集合在社交网络中能够影响的节点数目大小。

本实施例所涉及的信息传播模型是独立级联模型，介绍如下：

在独立级联模型中，社交网络被抽象成为一个无向图G＝(V；E)，其中V代表网络中的用户，E代表用户间的关系。当信息在网络中传播时，节点有两种状态：活跃和非活跃，其中活跃表示节点接受信息，而非活跃则表示节点还未接受信息，节点只能由非活跃转为活跃状态，而不能由活跃转为非活跃状态。信息只能通过边E传播，没有边相连的节点则不能直接相互影响。每个活跃节点对非活跃节点的影响是相互独立的，活跃节点以固定的影响因子p激活非活跃节点，其中0＜p＜1。信息传播过程如下：初始选定K个节点作为活跃节点集，在每次迭代过程中，活跃节点集中的节点以影响因子p激活其非活跃邻居节点，并把被激活的邻居节点加入到活跃节点集中，作为下一次迭代过程新的活跃节点集。当不再有非活跃节点加入时，整个迭代过程结束。

本实施例设定独立级联模型的影响因子p为0.01，种子节点为50个，r值为1。

1.选取高度数节点。

输入社交网络数据，对节点按度数由大到小排序，选取前r％的高度数节点形成新的节点集合，其中r值大小依据经验取值，与社交网络节点规模及拓扑结构、种子节点数目等相关，一般为1至20之间。

如输入一个实际的社交网络数据，来源于论文共享网站arXiv(www.arXiv.org)“高能物理理论”版块，其包含15233个节点和58891条边。对社交网络节点按度数由大到小排序，依据经验，选取前1％的节点形成新的节点集合，集合包含152个节点，所有节点度数均大于70。

2.选取第一个种子节点。

申请大小与新的集合节点数目相同的堆栈并清空，在某一特定信息传播模型中计算新的集合中每个节点的影响力，并将所有节点的影响力建成一个最大堆，因而影响力最大的节点在最大堆顶部。将最大堆顶部的节点加入到种子节点集合中，然后对最大堆顶部清为零并重新排序，第一个种子节点选取过程结束。

如申请一个大小为152的堆栈并清空，在独立级联模型中分别计算152个节点的影响力，将所有节点的影响力存在堆栈中，并建成一个最大堆，影响力最大的节点位于最大堆顶部，其度数和影响力大小分别是341和8.27835。将此节点加入到种子节点集合中，然后对最大堆顶部清为零，用堆排序算法重新排序，第一个种子选取过程结束。得到的第一个种子节点影响力为8.27835。

3.选取余下种子节点

选取最大堆顶部的节点，重新计算其加入到种子节点集合后影响力增值，即

其中

表示影响力函数，S表示种子节点集合，v表示新加入节点。然后用堆排序算法重新排序。如果最大堆顶部的节点未发生改变或者是在本轮选择种子过程中重新计算过的节点，则将最大堆顶部的节点加入到种子节点集合中，然后对最大堆顶部清为零并重新排序，次轮种子节点选取过程结束，否则再次计算最大堆顶部的节点加入到种子节点集合后影响力增值，并对最大堆重新排序，直到最大堆顶部的节点不发生改变或者在本轮选择种子中重新计算过的节点为止。其他种子节点选取过程与此过程相同，直到所有种子节点选取完毕。

如选择重新排序后最大堆顶部的节点，计算此节点加入到种子节点集合后影响力增值，然后在堆栈中重新排序。判断最大堆顶部的节点是否为种子节点，条件是最大堆顶部的节点未发生改变或者是在本轮选择种子过程中重新计算过的节点，如果条件满足，则将最大堆顶部的节点加入到种子节点集合中，然后对最大堆顶部清为零并重新排序，本轮种子节点选取过程结束，否则再次计算最大堆顶部的节点加入到种子节点集合后影响力增值，并对最大堆重新排序，直到最大堆顶部的节点未发生改变或者是在本轮选择种子中重新计算过的节点为止，得到第二个种子节点影响力增值为5.44055。其他种子节点选取过程与此过程相同，直到所有种子节点选取完毕，最终50个种子节点的影响力为133.52。

Claims

1.一种基于度启发式的社交网络影响力最大化求解方法，其特征在于包括下述步骤：

式中，

表示影响力函数，S表示种子节点集合，v表示新加入节点；