CN106789338B

CN106789338B - 一种在动态大规模社交网络中发现关键人物的方法

Info

Publication number: CN106789338B
Application number: CN201710036505.7A
Authority: CN
Inventors: 牛建伟; 杨海峰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-01-18
Filing date: 2017-01-18
Publication date: 2020-10-30
Anticipated expiration: 2037-01-18
Also published as: CN106789338A

Abstract

本发明公开了一种在动态大规模社交网络中发现关键人物的方法，属于数据挖掘和社交网络分析领域。所述方法首先进行节点标号与参数k选择，然后在确定的局部网络进行节点间相互影响力计算；再计算单节点的重要性指标，依据任务类型找到关键人物。本发明提出了万有影响力的概念并给出局部网络中计算两个节点间万有影响力和重要性指标值的公式，在大规模动态社交网络中有优势；该方法根据任务类型的不同可以有不同的计算结果处理策略，并可以通过调整参数k来平衡时间复杂度和准确率。

Description

一种在动态大规模社交网络中发现关键人物的方法

技术领域

本发明涉及复杂网路中节点重要性指标计算和动态大规模社交网络中关键人物发现的方法，属于数据挖掘和社交网络分析领域。

背景技术

近年来，越来越多的人开始使用像微博、推特和脸书等在线社交网络应用，使得社交网络数据总量呈爆发式增长；同时，网络规模的快速增长导致了网络结构的动态变化。用户可以在这些社交网络平台上交换和共享信息，而不同的用户所具备的影响力是各不相同的，所以识别社交网络中的关键人物是有现实意义的。

在研究的起步阶段，传统的中心度指标被广泛使用。其中，最简单的是度中心度：仅仅依据一个节点的邻居节点个数来衡量这个节点的重要性程度。另外两个被广泛使用的传统中心度指标是接近中心度和介数中心度。接近中心度使用当前节点到所有其他节点最短路径长度的平均值作为评价标准。介数中心度基于当前节点落在所有节点对间最短路径上的次数来比较节点的重要性。

由于传统的中心度指标的适用性不强，研究者致力于提取复杂网络中高度互连的部分子网。K-shell分解方法就是这一方向的杰出成果：通过迭代地移出度中心度小于等于k的节点直到网络中不再包含度中心度小于等于k的节点，并将这些节点的K-shell指标值赋为k，然后继续移出度中心度小于等于k+1的节点直到网络中不再有节点时算法结束。Dorogovtsev等人在2006年提出了K-core分解来描述真实复杂网络的拓扑结构(参考文献【1】：S.N.Dorogovtsev,A.V.Goltsev,and J.F.F.Mendes.K-core organization ofcomplex networks,Physical review letters,vol.96,no.4,p.040601,2006.)。为了提高K-shell方法的准确度，A.Zeng等人在2013年提出了混合度分解方法：通过自定义新的混合度指标来作为分解网络的依据(参考文献【2】：D.-B.Chen,R.Xiao,A.Zeng,and Y.-C.Zhang.Path diversity improves the identification of influential spreaders,EPL(Europhysics Letters),vol.104,no.6,p.68006,2013.)。

Domingos和Richardson等人在2002年将影响力最大化作为一个算法问题，提出了一个从协同过滤数据库中挖掘社交网络模型的概率性算法(参考文献【3】：M.Richardsonand P.Domingos,Mining knowledge-sharing sites for viral marketing,inProceedings of the eighth ACM SIGKDD international conference on Knowledgediscovery and data mining.ACM,2002,pp.61–70.)，并将这一模型应用于最优化市场决定上。这是一个理论问题，对应的实际问题是如何在现实复杂网络中识别关键节点。

Qingcheng Hu等人于2013年提出了一个K-shell社区中心度模型(参考文献【4】：Q.Hu,Y.Gao,P.Ma,Y.Yin,Y.Zhang,and C.Xing.A new approach to identifyinfluential spreaders in complex networks,in Web-Age InformationManagement.Springer,2013,pp.99–104.)：不仅考虑节点的内部属性，同时参考节点所属社区这样的外部信息。Joonhyun Bae等人在2014年提出了内核中心度指标(参考文献【5】：J.Bae and S.Kim.Identifying and ranking influential spreaders in complexnetworks by neighborhood coreness,Physica A:Statistical Mechanics and itsApplications,vol.395,pp.549–559,2014.)：综合考虑邻居节点的K-shell指标值来计算该节点的重要性程度。

以上社交网络分析和关键人物发现的工作没有考虑到现实社交网络的动态性和大数据性质，其中全局性的算法时间复杂度较高。

发明内容

本发明的目的是提供一种创新的社交网络中节点重要性指标计算方法并依据节点的重要性指标排序结果来识别社交网络中的关键人物。本发明是受到了牛顿在物理学中提出的万有引力定律的启发，假设社交网络中的任意两个节点之间存在着相互影响力：根据万有引力定律，用节点的度中心度指标作为节点的质量，两节点之间的距离用两节点间最短路径长度表示。本发明通过局部分解策略将整个网络分解出局部子网络，并在局部子网络中计算节点的重要性指标。

本发明包含了节点标号与参数选择、局部网络提取与节点间相互影响力计算、单节点的重要性指标计算以及依据任务类型找到关键人物四个部分。本发明提出的创新计算方法包含一个参数k，这个参数可以依据不同规模的应用对时间复杂度和准确率两方面的要求来动态调整。为了评估算法的表现，本发明基于SIR(Suspectible-Infected-Recovered)模型分别在一个简单社交网络数据集和一个真实复杂社交网络数据集中做了模拟实验，结果表明本发明提出的创新计算方法优于K-shell分解、介数中心度和度中心度方法。

本发明提供的一种在动态大规模社交网络中发现关键人物的方法，包括以下几个步骤：

步骤1：节点标号与参数选择。

先将社交网络中的各个节点用简单的数字序号表示，同时，需要通过参数k的指定来决定用于计算的局部网络规格大小。k为距离待计算节点跳数的最大值。

步骤2：局部网络提取与节点间相互影响力计算。

本发明中提出的影响力计算方法并不是基于整个网络进行计算的，而是先选择到待计算节点的跳数小于等于参数k的所有节点组成一个局部网络，然后再在局部网络中使用影响力计算方法来算出该节点的重要性指标。影响力计算方法是受到牛顿万有引力理论的启发，假设局部网络中的任意两个节点之间存在着万有影响力，这个万有影响力的大小与两个节点的度中心度之间是正比例关系其中，与两个节点间距离的对数是反比例关系。

步骤3：单节点的重要性指标计算。

待计算节点的重要性指标由局部网络中的其它节点对它的万有影响力的和来表示。本发明提出的重要性指标计算属于局部计算方法，在动态大规模社交网络中可以通过调节参数k的大小来平衡计算复杂度和准确性之间的关系。

步骤4：依据任务类型找到关键人物。

本发明中步骤3中的重要性指标计算结果是找到关键人物的依据，应用步骤3中对单节点重要性指标计算的方法来对整个网络中所有节点进行计算，最后根据任务类型的不同可以有不同的计算结果处理策略：如果需要影响力最高或者最低的m个人，此时，可以通过使用最大堆或者最小堆保存计算结果的方式实现一边计算结果一边筛选关键人物，同时大大减少保存结果的空间；但如果需要知道所有人的影响力指标值就需要对所有的结果进行排序了。最后，依据标号与人物的对应关系找到对应的人。

本发明的优点在于：

(1)提出了万有影响力的概念并给出计算两个节点间万有影响力的公式，可以通过定量计算来得到任意两个节点之间的相互影响力值。

(2)提出了一种根据万有影响力来计算单节点重要性指标的局部计算方法，该方法不是全局计算方法，所以在大规模动态社交网络中有优势。

(3)提出了一种在动态大规模社交网络中发现关键人物的方法，该方法根据任务类型的不同可以有不同的计算结果处理策略，并通过调整参数k来平衡时间复杂度和准确率。

附图说明

图1是简单社交网络图例。

图2是本发明的整体步骤流程示意图。

图3是简单社交网络单源结果图。

图4是真实复杂社交网络单源传播结果图。

图5是真实复杂社交网络多源传播结果图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的详细说明。

本发明提出了一种在动态大规模社交网络中发现关键人物的方法，目的是提供一种创新的社交网络中节点重要性指标计算方法并依据节点的重要性指标排序结果来识别社交网络中的关键人物。所述的动态大规模社交网络是指真实生活中的复杂网络，例如新浪微博所有用户组成的社交网络，网络数据规模巨大、结构异常复杂而且人与人之间的关系在动态变化。所述的关键人物是指能在网络中起到关键作用的人物，例如新浪微博中的大V可以影响他的粉丝，并在传播信息方面起到关键作用。

本发明中提出的在动态大规模社交网络中发现关键人物方法主要包括四个过程：(1)节点标号与参数选择；(2)局部网络提取与节点间相互影响力计算；(3)单节点的重要性指标计算；(4)依据任务类型找到关键人物。

本发明提出的在动态大规模社交网络中发现关键人物的具体实现流程如图2所示，包括以下几个步骤：

步骤1：节点标号与参数选择。

将社交网络中的各个节点从1到n顺序标号，用简单的数字序号表示节点，并记录对应关系。如图1所示，该简单社交网络图例中总共包括14个节点和15条边，对应于真实社交网络中的14个人及15种对应关系。由于目前真实的复杂社交网络具有大数据和动态变化的特性，所以全局计算方法并不适合应用在这种场景下，所以本发明提出的是一个局部计算的方法。该方法需要通过参数k的指定来决定用于计算的局部网络规格大小，即只需要关注待求节点在k跳范围内的所有节点：通常在处理小规模网络时，指定k为3；当网络的规模比较大时，可以指定k为6。

步骤2：局部网络提取与节点间相互影响力计算。

本发明中提出的创新计算方法并不是基于整个网络进行计算的，而是先选择到待计算节点的跳数小于等于参数k的所有节点组成一个局部网络，然后再在局部网络中使用创新计算方法来算出待计算节点的重要性指标。创新计算方法是受到牛顿万有引力理论的启发，假设局部网络中的任意两个节点之间存在着万有影响力，这个万有影响力的大小与两个节点的度中心度之间是正比例关系，与两个节点间距离的对数是反比例关系。

以图1网络中的节点4来举例说明：它的1跳节点包括节点2、5、6、12和14，它的2跳节点包括1、3、7、8和13，它的3跳节点只有9，它的4跳节点有10和11。用MI(a，b)表示节点a与节点b之间的相互影响力大小，其计算公式如下：

其中，DC(a)为节点a的度中心度指标值，DC(b)为节点b的度中心度指标值，D(a，b)为节点a与节点b之间的距离即两节点之间的最短路径长度，e为自然对数的底数，是一个无限不循环小数，其值约为2.718281828459...。

步骤3：单节点的重要性指标计算。

待计算节点的重要性指标由所有局部网络中的其它节点对它的万有影响力的和来表示，用II(v)来表示节点v的重要性指标的大小，其计算公式如下：

其中，v为待计算节点，G(v)表示节点v的局部网络。

当k＝1时，节点4的重要性指标为：

II_k＝1(4)＝MI(2，4)+MI(5，4)+MI(6，4)+MI(12，4)+MI(14，4)

当k＝2时，

II_k＝2(4)＝II_k＝1(4)+MI(1，4)+MI(3，4)+MI(7，4)+MI(8，4)+MI(13，4)

当k＝3时，

II_k＝3(4)＝II_k＝2(4)+MI(9，4)

当k＝4时，

II_k＝4(4)＝II_k＝3(4)+MI(10，4)+MI(11，4)

本发明提出的计算方法属于可调整的局部计算方法，在动态大规模社交网络中可以通过调节参数k的大小来平衡计算复杂度和准确性之间的关系。当k＝4时，该方法退化为全局计算方法，时间复杂度较高但同时准确度上较高。

步骤4：依据任务类型找到关键人物。

本发明中步骤3中的计算结果是找到关键人物的依据，应用步骤3中对单节点重要性指标计算的方法来对整个网络中所有节点进行计算，最后根据任务类型的不同可以有不同的计算结果处理策略：如果需要影响力最高或者最低的m个人，此时，可以通过使用最大堆或者最小堆保存计算结果的方式实现一边计算结果一边筛选关键人物，可以将最终较少的m个结果以表格的形式展现出来同时大大减少保存结果所需的空间；但如果需要知道所有人的重要性排序就必须对所有人的重要性指标值进行排序了。得到了关键人物的标号之后，依据步骤1保存的标号与人物的对应关系就可以找出对应的关键人物了。

图3是对图1中网络进行K-shell中心度、介数中心度、度中心度和本发明提出的方法计算后得到的重要性指标值结果图：其中最后一列中的模拟感染率是通过使用SIR模型模拟信息传播过程以各节点作为单一感染源去感染整个网络得到的被感染节点占整个网络中节点的比例，该值可以作为节点的近似重要性指标值，是节点真实重要性的一个重要参考；第2、3、4和5列中都是对应的重要性指标值。通过图片可以了解到本发明提供的方法能够最准确地计算出各节点的重要性，同时也说明本发明的方法在这种简单网络结构中是有实际作用的。

图4是在网络中的真实数据集(斯坦福大学收集的GR-QC数据集)模拟单源(以单一节点作为初始节点)传播进行K-shell中心度、介数中心度、度中心度和本发明提出的方法计算后得到的重要性指标值结果图。图中横坐标代表这四个方法计算出来的重要性指标值，纵坐标代表各节点的近似重要性指标值，理想情况下，最后描点显示的曲线应该是一条正比例直线。从介数中心度图中可以看到感染率高的节点对应的介数中心度值较低，说明介数中心度对这些重要节点的区分度很低，各点分布比较散，无法拟合正比例曲线。K-shell中心度图中有很多具有相同的K-shell值但是对应的感染率却各不相同的节点，总体拟合正比例关系比较差。度中心度图中感染率高的点对应的度中心度的值也比较高，结果曲线拟合正比例关系比较好，但也有很多噪音点。本发明图中曲线拟合正比例关系最好，基本满足感染率越高的节点对应的重要性指标值也越大，噪音点的数目也明显比其他三种方法的少；虽然重要性低的节点会出现积聚现象，这可能是由两方面原因导致的：一方面是由于局部计算导致的，虽然这些低重要性节点的总体网络结构有差异，但是本发明使用的方法只考虑k跳范围内节点组成的局部网络，局部网络结构相同就会有相同的重要性指标值；另一方面是由于通过计算得到这些节点的重要性指标值差异比较小，在图中的区分度比较低，在显示上出现了重叠。结果表明，本发明提出的方法比其他三种得到的结果更好，即本发明提出中的方法应用在单源传播上可以达到很好的效果；同时局部计算性使其在时间复杂度上有一定优势。

图5是在网络中的真实数据集(斯坦福大学收集的GR-QC数据集)模拟多源(以多个节点作为初始节点集合)传播进行K-shell中心度、介数中心度、度中心度和本发明提出的方法计算后得到的重要性指标值结果图。图中横坐标代表初始传播节点的个数，纵坐标代表选中节点集合的近似重要性指标值，纵坐标值越大表示选出的节点集合重要性越高。结果表明，本发明提出的方法在从多源传播中找出重要人物上比其他三种方法得到的结果更好，即本发明提出的方法应用在多源传播上也可以达到很理想的效果；同时局部计算性使其在时间复杂度上有一定优势。

Claims

1.一种在动态大规模社交网络中发现关键人物的方法，假设动态大规模社交网络中的任意两个节点之间存在着相互影响力：根据万有引力定律，用节点的度中心度指标作为节点的质量，两节点之间的距离用两节点间最短路径长度表示；通过局部分解策略将整个网络分解出局部子网络，并在局部子网络中计算节点的重要性指标；

其包括以下几个步骤，

步骤1：节点标号与参数选择；

先将社交网络中的各个节点用简单的数字序号表示，同时，需要通过参数k的指定来决定用于计算的局部网络规格大小；k为距离待计算节点跳数的最大值；

步骤2：局部网络提取与节点间相互影响力计算；

选择到待计算节点的跳数小于等于参数k的所有节点组成一个局部网络，然后在局部网络中待计算节点的影响力；

局部网络中的任意两个节点之间存在着万有影响力，这个万有影响力的大小与两个节点的度中心度之间是正比例关系，其中与两个节点间距离的对数是反比例关系；

步骤3：单节点的重要性指标计算；

待计算节点的重要性指标由局部网络中的其它节点对它的万有影响力的和来表示；

重要性指标计算属于局部计算方法，在动态大规模社交网络中通过调节参数k的大小来平衡计算复杂度和准确性之间的关系；

步骤4：依据任务类型找到关键人物；

如果需要影响力最高或者最低的m个人，通过使用最大堆或者最小堆保存计算结果的方式实现一边计算结果一边筛选关键人物；如果需要知道所有人的重要性排序就必须对所有人的重要性指标值进行排序，得到关键人物的标号之后，依据步骤1保存的标号与人物的对应关系找出对应的关键人物；

其特征在于：

所述的相互影响力用MI(a，b)表示，则有：

其中，DC(a)为节点a的度中心度指标值，DC(b)为节点b的度中心度指标值，D(a，b)为节点a与节点b之间的距离即两节点之间的最短路径长度，e为自然对数的底数；

所述的单节点的重要性指标，用II(v)来表示节点v的重要性指标的大小，则有：

其中，v为待计算节点，G(v)表示节点v的局部网络。