CN111428323B

CN111428323B - 复杂网络中利用广义折扣度与k-shell识别一组关键节点的方法

Info

Publication number: CN111428323B
Application number: CN202010297711.5A
Authority: CN
Inventors: 杨云云; 张俊丽; 程兰; 谢珺; 赵明明
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-06-23
Anticipated expiration: 2040-04-16
Also published as: CN111428323A

Abstract

本发明公开了一种复杂网络中利用广义折扣度与k‑shell识别一组关键节点的方法，由度中心性启发，用邻居的概念提出了广义折扣度的概念，并利用广义折扣度计算一组节点的度中心性，即一组节点在网络中的邻居数越多则一组节点对网络的影响力越大，同时考虑了k‑shell用于解决网络中单个节点的位置并确定节点对网络的影响。该方法，该算法挖掘所需费用少、传播范围广、传播信息量多；在六个真实网络中进行仿真实验以及结果分析，并与10种其他算法进行对比，发现本发明方法选择的初始传播者分布范围广、传播速度快、传播范围广。

Description

复杂网络中利用广义折扣度与k-shell识别一组关键节点的方法

技术领域

本发明涉及复杂网络关键节点簇的挖掘方法技术领域，具体为一种复杂网络的关键节点簇中利用广义折扣度与k-shell相结合来挖掘一组关键节点的方法。

背景技术

近几年，科技迅猛发展，社会生活越来越丰富，各种数据如井喷式产生，数量惊人，形式多样，种类五花八门，如何在如此惊人的数据中挖掘有效信息是目前大家探讨的热点。同时复杂网络研究也应运而生，并且借助着大数据的平台得到了飞速发展。关键节点簇的挖掘是复杂网络数据挖掘中重要的研究内容之一。

网络中的关键节点簇描述了一类在网络中所占的数量一般很少，但是重要程度非常高的节点集合。相比起其它大多数节点，关键节点簇控制着整个网络，例如信息的有效传播，保持网络正常功能、快速瓦解恶意网络等。关键节点簇的特征：如果将它们从网络中移除，可能使网络遭受最大规模的破坏；关键节点簇在网络中的影响能够以最快速有效的方式传播到网络中几乎全部的节点；关键节点簇的范围波及网络的各个方面，例如在网络中信息的传播、流行病控制、故障和拥塞等方面都有重要作用。

目前，基于top-X的中心性的方法尤为适用于考虑单个关键节点的情况。在许多情况下，谣言、想法、观点或广告宣传可能都同时从不同的节点开始，并且需要挖掘关键节点簇(初始传播者)。此时，考虑挖掘关键节点簇时，传统方法通常会根据中心性值对网络中的节点进行排序，并选择排名最靠前的节点作为关键节点簇，即基于top-X方法。但是，基于节点中心性排名来确定关键节点簇仍然存在巨大挑战：存在“相消干涉”现象的关键节点。在某些网络中，若是单单从这些排序关键节点出发进行挖掘，会导致资源浪费，并且不仅不能增强数据挖掘的效果反而会降低其挖掘精度。因此研究一种复杂网络关键节点簇挖掘的方法是十分有必要的。

发明内容

本发明解决目前现有技术指标单一化，在对复杂网络节点进行挖掘时所需费用昂贵、传播范围有限、传播信息量不足，且没有考虑传播者与传播者之间的联系，因此利用广义折扣度与k-shell相结合来挖掘一组关键节点的方法具有广泛的应用前景。

本发明是采用如下技术方案实现的：

一种复杂网络中利用广义折扣度与k-shell识别一组关键节点的方法，包括如下步骤：

步骤一、模型构建

设立一个无向无权的网络G＝(N,M)，有N个节点，M条边，邻接矩阵表示为A＝(A_ij)_N×N，A_ij是邻接矩阵的元素，如果节点i与节点j之间存在链接则A_ij＝1，否则为A_ij＝0；网络中节点i的度为

步骤二、定义1：一组节点的度

复杂网络中，一个节点的度值是与该节点存在直接链接的节点的数目；使用广义折扣度GDD来表示一组节点中单个节点的折扣度，

GDD定义为：

其中S为选择的初始传播者；

一组节点的度定义为：

其中L为所选初始传播者S的大小。

步骤三、定义2：一组节点的GDDKS指标

复杂网络中每个节点的位置不同，其重要性程度也不同；

GDD(i)结合k-shell，则单个节点的GDDK(i)指标定义为：

其中s_i是节点i的k-shell值；a表示一组节点度的权重，b表示k-shell值的权重，当参数a>b时，表示GDDK(i)中k-shell对节点的影响小于对GDD的影响；对于a<b时，则情况相反；对于a＝b时，它们对于节点同样重要；

一组节点的GDDKS(S)指标表示为：

步骤四、GDDKS方法

4.1、选择候选节点

使用社区探索算法识别小集团C＝{c₁,c₂,...,c_s}，s是识别出小集团的数量，并利用社区重叠属性来识别候选节点；考虑每个小集团的核心节点，小集团之间的公共节点以及小集团之间的桥接节点；核心节点CNs由各小集团的度中心性的top-X节点组成，选择X为小集团规模的20％，若X＜1，则令X＝1；公共节点CMNs由同时存在于多个小集团中的节点组成；

CMNs＝{i|CMN(i)＞1} (9)

其中如果节点i在小集团

中，则有δ(i,c_j)＝1；等式(9)中，CMN(i)＞1表示节点i存在小集团共用现象；连接多个小集团但其自身不在这些小集团中的节点构成桥节点(BNs)；

BNs＝{i|BN(i)＞1} (13)

其中card(φ(i,c_j))为集合φ(i,c_j)中元素的个数；q_p表示节点i的第p个邻居，p的最大值为节点i的度(D(i))；根据式(6)、(9)、(13)，得到三个重要的节点集：

三个集合中均出现的节点被选择为初始传播者ISs的一部分，而这些集合中其余的节点被选择为候选节点INs；

4.2、从候选节点中选择初始传播者

从集合INs中选择一个节点添加到集合ISs，此时集合ISs将形成一个新集合ISs′，然后，利用公式(5)计算新集合ISs′的GDDKS(GDDKS(ISs))指标的值之后，从新集合ISs′中删除该节点；然后从集合INs中选择另一个节点添加到集合ISs，此时集合ISs将再次形成一个新集合ISs″，然后，利用公式(5)计算新集合ISs″的GDDKS指标的值之后，从新集合ISs″中删除该节点；重复以上过程，直到遍历集合INs中的所有节点；最后，选择GDDKS指标值最大的那个新集合ISs(集合INs中一个节点+集合ISs)作为初始传播者的集合，即该新集合ISs的GDDKS指标值是目前获得的最高值，则更新集合ISs(指GDDKS指标值最大的新集合ISs)；

4.3、执行迭代

在复杂网络中重复步骤4.2，直到最后更新后的集合ISs中，已经选择了r个初始传播者时结束(此时更新后的集合ISs中节点的数量为r个)；即：最后更新的集合ISs被视为一组初始传播源，其中包含了r个初始传播者。

本发明与现有技术相比具有以下优点：

1、本发明对网络节点通过其社区属性进行预处理，选出有限的节点作为候选节点，降低计算复杂度。

2、本发明考虑了一组节点的度，抑制了节点之间的“相消干涉”，并考虑了节点自身对网络的重要性，即节点的k-shell中心性。

3、目标函数有助于找到传播范围最广、传播信息量最多以及考虑一组节点协同作用的关键节点簇。

本发明由度中心性启发，用邻居的概念提出了广义折扣度的概念，并利用广义折扣度计算一组节点的度中心性，即一组节点在网络中的邻居数越多则一组节点对网络的影响力越大，同时考虑了k-shell用于解决网络中单个节点的位置并确定节点对网络的影响。

本发明设计合理，提出了一组节点度以及一种识别一组关键节点的方法，并且可以作为一组节点的评价指标；该方法挖掘所需费用少、传播范围广、传播信息量多；在六个真实网络中进行仿真实验以及结果分析，并与10种其他算法进行对比，发现本发明方法选择的初始传播者分布范围广、传播速度快、传播范围广。

附图说明

图1表示由GDDKS识别的节点在不同参数(包括k，a和b)下的平均最短路径长度中的性能。

图2表示在不同网络中GDDKS值随节点的数量的变化而变化。X-轴和Y-轴分别表示初始传播者的数量和GDDKS值，点的颜色表示由一组节点获得的GDDKS的值的大小。

图3表示在the single-contact SIR模型中，六个网络中传染影响范围F(t)随时间t的变化过程。实验中，图(a)中r＝30，图(b)中r＝40，图(c)、(d)、(f)中r＝150和图(e)中r＝20，r表示初始传播者的数量，传播率为λ＝1.5和感染节点的恢复概率为μ＝1/<k>。实验结果均是100次独立运行的平均值。

图4表示在the single-contact SIR模型中，六个网络中比较了具有不同初始传播者数量在不同算法中获得的最终传播范围F(c)的变化。实验中传播速率为λ＝1.5，感染节点的恢复概率为μ＝1/<k>。实验结果均是100次独立运行的平均值。

图5表示在the single-contact SIR模型中，在六个网络中比较了不同传播速率λ在不同算法中获得的最终传播范围F(c)的变化。实验中，传播者的数量与图4相同，并且感染节点的恢复概率为μ＝1/<k>。实验结果均是100次独立运行的平均值。

图6表示通过十种方法与新提出的GDDKS获得的传播者之间的平均最短路径长度LASP随初始传播者数量的变化的情况。

具体实施方式

下面结合实验分析对本发明进行详细说明。

一种复杂网络关键节点簇中利用广义折扣度与k-shell相结合来识别一组关键节点的方法，包括以下操作步骤：

步骤一、模型构建

设立一个无向无权的网络G＝(N,M)，有N个节点，M条边，邻接矩阵表示为A＝(A_ij)_N×N，A_ij是邻接矩阵的元素，如果节点i与节点j之间存在链接则A_ij＝1，否则为A_ij＝0。网络中节点i的度为

步骤二、定义1：一组节点的度

复杂网络中，一个节点的度值是与该节点存在直接链接的节点(邻居节点)的数目。借鉴节点度的定义，利用广义折扣求解一组节点的度。

使用广义折扣度(the generalized discount degree，GDD)来表示一组节点中单个节点的折扣度。GDD定义为

其中S为选择的初始传播者。GDD的特征：如果选择的初始传播者集S分布越集中，则这些节点之间的内部链接数越多，且GDD(i)值越小；反之，如果集合S中的节点分布范围较广，即节点之间的平均最短距离较长，同时节点之间的内部联系较少，则GDD(i)相应地更接近于D(i)。则一组节点的度定义为：

其中L为所选初始传播者S的大小。通过广义折扣度求解一组节点的度。

步骤三、定义2：一组节点的GDDKS指标

复杂网络中每个节点的位置不同，其重要性程度也不同。网络的拓扑不变性：k-shell可以对网络中的节点依据其在网络中的位置而对其进行重要性排序，并确定网络中节点的位置。k-shell逐层剥离外部节点，并找到影响较大的内部节点。基于此，GDD(i)结合k-shell，则单个节点的GDDK(i)指标定义为：

其中s_i是节点i的k-shell值。a表示一组节点度的权重，b表示k-shell值的权重，当参数为a＝3,b＝1时，表示GDDK(i)中k-shell对节点的影响小于对GDD的影响；对于a＝1,b＝3，则情况恰恰相反(表示GDDK(i)中k-shell对节点的影响大于对GDD的影响)；对于a＝1,b＝1，它们对于节点同样重要。则一组节点的GDDKS(S)指标表示为：

步骤四、GDDKS方法

4.1、选择候选节点

Gergely等人引入了一种方法(k-clique communities)来分析重叠社区的主要统计特征，这为揭示复杂系统的模块化结构迈出了一步(Palla G,Derényi I,Farkas I,etal.2005.Uncovering the overlapping community structure of complex networks innature and society[J].Nature,2005,435(7043):814-818.doi:10.1038/nature03607)。一个典型的社区由几个完整(完全连接)的子图组成，这些子图往往共享它们的许多节点。因此，一个k-clique社区联系着所有k-clique(大小为k的完全子图)，这些k-clique可以通过一系列相邻的k-clique可以通过彼此相互到达。这说明了社区的一个本质特征：其他社团可以通过该社团这些连接性能良好的节点子集来进行访问。但是，网络的其他部分无法从特定的k-clique到达，但它们可能包含更多其他种类的k-clique社区。反过来，一个节点可以属于多个社区。所有这些社区都可以系统地进行探索，并且这种社区探索方式会使得许多社区重叠化。在大多数情况下，需要放宽这一定义。为了找到有意义的社区，Gergely等人认为识别它们需满足以下几个基本要求：不能限制太多；应该基于链接的密度；要求局域化；不应该产生任何剪切节点或剪切链接(其删除将使社区分离)；当然，它应该允许重叠属性的存在。虽然k-clique社区的所有集合的数值确定是一个多项式问题，但Gergely等人使用的算法(可以从http://angel.elte.hu/clustering/下载)是指数型的，因为它对实际网络图来说更有效。该方法首先定位网络中所有的团(最大完全子图)，然后通过对团与团的重叠矩阵进行标准分量分析来识别社区。

因此，使用上述的社区探索算法识别小集团C＝{c₁,c₂,…,c_s}，s是识别出小集团的数量，并利用社区重叠属性来识别候选节点。k_clique_communities算法中有一个参数k，该参数确定clique的大小(一般k＝4，若网络太小k也可取更小的值)。

在实验中，需要讨论k值对GDDKS算法的影响并确定k值。考虑每个小集团的核心节点，小集团之间的公共节点以及集团之间的桥接节点。核心节点(CNs)由各小集团的度中心性的top-X节点组成，如等式(6)所示。选择X为小集团规模的20％大小，若X＜1，则令X＝1。公共节点(CMNs)由同时存在于多个小集团中的节点组成。

CMNs＝{i|CMN(i)＞1} (9)

其中如果节点i在小集团

中，则有δ(i,c_j)＝1。等式(9)中，CMN(i)＞1表示节点i存在小集团共用现象。连接多个小集团但其自身不在这些集团中的节点构成桥节点(BNs)。

BNs＝{i|BN(i)＞1} (13)

其中card(φ(i,c_j))为集合φ(i,c_j)中元素的个数。q_p表示节点i的第p个邻居，p的最大值为节点i的度(D(i))。根据式(6)、(9)、(13)，得到三个重要的节点集：

三个集合中均出现的节点被选择为初始传播者(ISs)的一部分，而这些集合中其余的节点被选择为候选节点(INs)。

4.2、从候选节点中选择初始传播者

从集合INs中选择一个节点添加到集合ISs，此时集合ISs将形成一个新集合ISs′，然后，利用公式(5)计算新集合ISs′的GDDKS(GDDKS(ISs))指标的值之后，从新集合ISs′中删除该节点；然后从集合INs中选择另一个节点添加到集合ISs，此时集合ISs将再次形成一个新集合ISs″，然后，利用公式(5)计算新集合ISs″的GDDKS指标的值之后，从新集合ISs″中删除该节点；重复以上过程，直到遍历集合INs中的所有节点；最后，选择GDDKS指标值最大的那个新集合ISs(集合INs中一个节点+集合ISs)作为初始传播者的集合，即该新集合ISs的GDDKS指标值是目前获得的最高值，则更新集合ISs(指GDDKS指标值最大的新集合ISs)。

4.3、执行迭代

实验结果分析如下：

1、传播模型

在本方法中，使用新的SIR流行病传播模型来验证GDDKS对识别多关键节点的效果。在SIR传播过程中，每个节点在单位时间点仅可以处于以下三种状态之一：易感(S)、感染(I)和恢复(R)。在经典的SIR传播过程中，受感染节点(I)以概率β感染其易感邻居(S)，然后以恢复概率μ恢复(R)。考虑一个改进的SIR传播过程，其中受感染节点在单位时间内只与其一个邻居接触，定义为the single-contact SIR传播过程。开始时，除了最初的传播源外，所有节点的状态均被标记为易感。然后在单位时间内，每个感染节点随机接触一个邻居，试图以概率β感染该邻居，同时节点本身也会概率μ恢复健康。当网络中不再有感染的个体时，传播过程结束。在本方案中，认为μ＝1/<k>，其中<k>表示网络的平均度，传播速率为λ＝β/μ，并且传播速率显示了the single-SIR传播的传播特征。

2、数据描述

为了评估MCCD方法的性能，将其应用于六个具有不同大小的真实网络：Jazz(爵士乐手的协作网络)，USAir(美国航空运输网络)，Netscience(科学家之间的共同作者网络)，URVemail(URV的电子邮件网络)，Dolphins(海豚之间的通信网络)，Hamsterster(hamsterster.com网站的社交网络)。为了简单起见，将这些网络视为无向和不加权网络。表1列出了这六个网络的详细统计属性。其中，网络有N个节点，E条边。L和C分别为平均最短路径长度和平均聚类系数。<k>表示网络的平均度β_c表示流行病阈值，定义为

表1六个实际网络的基本拓扑属性

3、实验结果及其分析

比较了DC(Degrees Centrality)、BC(Betweenness Centrality)、CC(ClosenessCentrality)、PR(PageRank)、KS(K-Shell)、SSD(SingleDiscount)、SDD(DegreeDiscount)、CL(Localrank)、CT(Clusterrank)、VR(VoteRank)和本发明所述的新方法GDDKS在六种真实网络(a)Jazz、(b)USAir、(c)Netscience、(d)URVemail、(e)Dolphins和(f)Hamsterster中在the single-contact SIR模型中的性能。实验均是对超过100次独立运行结果进行了平均。为了比较不同影响力最大化指标的有效性，利用了函数F(t)和F(c)。F(t)是在thesingle-contact SIR模型中感染规模随时间变化的函数，即中在t时刻网络中感染节点和恢复节点总数。当网络中没有受感染的节点时，感染规模趋于稳定，传播过程结束。因此，采用最终感染规模

与网络节点总数的比值作为最终传播能力的评价指标F(c)。平均最短路径长度L_ASP为在集合S中每两个传播者i，j之间的平均距离，用L_ASP评估初始传播者在网络中的分散程度。

首先，在图1中分析由L_ASP测得的平均最短路径长度与GDDKS的参数之间的相关性。图1中的一个点代表网络中的一组节点。请注意，a值越高而k越低，则L_ASP与GDDKS之间的正相关性越强。当a＝3时，GDDKS的性能会更好，尤其是在网络Jazz、USAir、Dolphins和Hamsterster中，这表明此方法中一组节点的度中心性对识别初始传播者具有驱动作用。而且更清楚的是，由GDDKS(参数a＝3，b＝1)识别的初始传播者分布更广泛。同时，k越小，GDDKS的性能越好。因此，在子图(a)中选择k＝14，在子图(b-d)中选择k＝4，在子图(e)中选择k＝2，在子图(d)中选择k＝8。在六个实际网络中，选择以上参数时，GDDKS值随初始传播者数量的变化的情况如图2所示。图1中的圆点和图2中的星点表示GDDKS指数达到峰值时的情况。考虑到图1和图2所示的GDDKS值的实验结果，得出的结论是，在任何网络中，随着节点数量的变化，GDDKS都存在一个峰值点。考虑两个极端：当网络中没有节点被选为传播者，其一组初始传播者的度为0；而如果选择网络中所有节点为传播者，其一组初始传播者的度为0。

图3中(a)-(f)是Jazz、USAir、Netscience、URVemail、Dolphinis和Hamsterster网络的结果。该实验是在六种实际网络中传播者数量不变时，传播范围随时间变化的情况，其中传播速率λ＝1.5，初始传播者数量r与网络的大小相关。从图3可以看出，除了初始传播阶段外，GDDKS得到的初始传播源信息的传播速度要快于其他指标，特别是在USAir、Netscience和Hamsterster中。

图4为在相同传播速率下(λ＝1.5)不同传播这数量r对不同方法性能的影响。显然，GDDKS在初始传播者数量相同的情况下，可以获得比其他方法更大的最终影响范围F(c)，特别是在节点集平均最短路径长度值较大(从图6图中可以看出)的情况下更为明显。然而，图4图中GDDKS的性能与一组节点的度变化趋势相同，即随着节点数量的变化，GDDKS会出现峰值和低谷。因此，在6个网络中，当初始传播者的数量过大或过小时，GDDKS的性能会很差。也就是说，与其他方法相比，GDDKS在广泛的领域具有显著的优势。另外，在6个实际网络中随着r的不断增加，GDDKS的影响范围不断扩大。而KS和CL的影响范围在大多数网络中传播较缓慢，其结果曲线最接近x轴，特别是在Jazz网络中。这表明，传统启发式算法选择的初始传播者在传播影响上往往存在较大的重叠，导致传播冗余。

然后，在传播者数量固定的情况下，分析传播率从1.0到2.0时最终传播规模F(c)的变化情况，如图5图所示。实验中的初始传播者的数目可根据网络的规模来进行选择。在不同传播率的情况下，通过对图5中GDDKS性能考察，可以发现在大多数网络中GDDKS方法在r的很大范围内其效果要优于其他方法。此外，GDDKS方法考虑了网络中一组节点的度。因此，GDDKS方法在传播方面比其他算法实验效果更好。在Jazz网络中，当λ＝1.4时，虽然GDDKS的结果不是最好的，但是它的性能仍然值得认可。当λ为其他值时，GDDKS的性能比其他任何方法更好。在其他实际网络中，不管λ值是多少，GDDKS的实验效果都是最好的。但KS和CL实验效果不佳。最重要的原因可能是，具有较大KS或CL中心性的节点往往紧密相连，如图6所示由KS或CL选择的初始传播者之间的平均最短路径长度较短。因此，选择这些节点作为初始传播者将导致严重的传播重叠，影响传播的速度与范围。

此外，研究每对初始传播源之间的平均最短路径长度L_ASP，如图6所示，它揭露了在不同规模的传播源的情况下，不同指标所选择的传播源的平均最短路径长度L_ASP。从图6中可以看出，在USAir、URVemail、Dolphins和Hamsterster网络s中，本发明所述的GDDKS方法比其他指标更能激发最大的L_ASP，特别是在URVemail和Hamsterster networks中。而对于Jazz和Netscience网络，当初始传播者数目较少时，本发明所述的方法所获到的初始传播者之间的L_ASP小于BC和SDD算法，但是其效果仍可圈可点。结合SIR仿真实验结果，发现GDDKS不仅保证了初始传播源分布范围广泛，而且保证了传播者的传播影响力。

总之，本发明提出并实现了一种有效和新颖的方法，GDDKS，来识别一组初始传播者。GDDKS将广义度折扣启发式与k-shell分解方法相结合。首先，利用网络的社区结构特性选择候选节点；然后利用广义度折扣启发式算法和k-shell分解从这些候选节点中选择初始传播者。利用广义度折扣启发式算法求解一组节点的度，确定一组节点对网络的整体影响。利用k-shell求解网络中单个节点的位置，确定该节点对网络的影响。为了验证该方法的有效性，使用了the single-contact SIR模型来评估该方法选择的节点与其他算法选择节点的不同传播影响力。在6个真实网络上的实验结果表明，在新的SIR模型下，GDDKS方法比传统的基准方法传播速度更快、最终传播范围更广。此外，与其他许多基于中心的方法和启发式方法相比，本发明方法选择了对网络影响较大但不是最重要的节点，这降低挖掘难度且分布广泛，有效地减少了信息传播的亢余。

虽然以上描述了本发明的具体实施方案，本领域的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用变形、修饰、等同替换或等效替换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种复杂网络中利用广义折扣度与k-shell识别一组关键节点的方法，其特征在于：包括如下步骤：

步骤一、模型构建

步骤二、定义1：一组节点的度

复杂网络中，一个节点的度值是与该节点存在直接链接的节点的数目；使用广义折扣度GDD来表示一组节点中单个节点的折扣度，GDD定义为：

其中S为选择的初始传播者；

一组节点的度定义为：

其中L为所选初始传播者S的大小；

步骤三、定义2：一组节点的GDDKS指标

复杂网络中每个节点的位置不同，其重要性程度也不同；

GDD(i)结合k-shell，则单个节点的GDDK(i)指标定义为：

一组节点的GDDKS(S)指标表示为：

步骤四、GDDKS方法

4.1、选择候选节点

使用社区探索算法识别小集团C＝{c₁,c₂,...,c_s}，s是识别出小集团的数量，并利用社区重叠属性来识别候选节点；考虑每个小集团的核心节点，小集团之间的公共节点以及集团之间的桥接节点；核心节点CNs由各小集团的度中心性的top-X节点组成，选择X为小集团规模的20％，若X＜1，则令X＝1；公共节点CMNs由同时存在于多个小集团中的节点组成；

CMNs＝{i|CMN(i)＞1} (9)

其中如果节点i在小集团

中，则有δ(i,c_j)＝1；等式(9)中，CMN(i)＞1表示节点i存在小集团共用现象；连接多个小集团但其自身不在这些集团中的节点构成桥节点(BNs)；

BNs＝{i|BN(i)＞1} (13)

4.2、从候选节点中选择初始传播者

从集合INs中选择一个节点添加到集合ISs，此时集合ISs将形成一个新集合ISs′，然后，利用公式(5)计算新集合ISs′的GDDKS指标的值之后，从新集合ISs′中删除该节点；然后从集合INs中选择另一个节点添加到集合ISs，此时集合ISs将再次形成一个新集合ISs″，然后，利用公式(5)计算新集合ISs″的GDDKS指标的值之后，从新集合ISs″中删除该节点；重复以上过程，直到遍历集合INs中的所有节点；最后，选择GDDKS指标值最大的那个新集合ISs作为初始传播者的集合，即该新集合ISs的GDDKS指标值是目前获得的最高值，则更新集合ISs；

4.3、执行迭代

在复杂网络中重复步骤4.2，直到最后更新后的集合ISs中，已经选择了r个初始传播者时结束；即：最后更新的集合ISs被视为一组初始传播源，其中包含了r个初始传播者。