CN115329209A

CN115329209A - 一种改进K-shell的时序社交网络影响力最大化方法

Info

Publication number: CN115329209A
Application number: CN202210840379.1A
Authority: CN
Inventors: 朱文龙; 苗雨; 杨双双; 崔连和; 王海珍
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-11-11

Abstract

本发明提出了一种改进K‑shell的时序社交网络影响力最大化方法，涉及时序社交网络影响力最大化领域，本发明分为预处理和查询阶段，首先对时序社交网络进行分层，并得到节点的位置信息；然后基于分层好的时序社交网络，根据节点的位置信息构建备选种子网络，对于备选种子网络中的每一个备选种子计算其综合度，依次从备选种子网络中选择综合度较大的节点作为种子节点，在时序社交网络中进行传播；本发明能够在社交网络中关注时间属性，并且根据节点的位置属性和动态属性进行种子选择，在时序社交网络中选择最优的种子进行消息的广泛传播。

Description

一种改进K-shell的时序社交网络影响力最大化方法

技术领域

本发明属于时序社交网络影响力最大化领域，具体地，涉及一种改进K-shell的时序社交网络影响力最大化方法。

背景技术

近年来，随着互联网的快速发展和智能终端的日益普及，在线社交网络已经成为人们获取信息和传播信息的重要渠道。且在线社交网络结构的复杂性、用户规模的庞大性、信息产生的海量性、以及传播的快速性和难以溯源等特点，使得在线社交网络中信息传播所产生的效用，不仅对人们的工作和生活方式，还对国家政治经济生活运行和社会的安全与稳定，都具有重要的作用。因此，社交网络影响力传播在数据挖掘和社交网络分析中至关重要，且这种研究已广泛应用于病毒式营销。例如，一家公司会选择最有影响力的用户，希望通过口耳相传来创建一系列产品的口碑效应。现有的研究大部分仅关注静态社交网络，忽略了社交网络的时序性，如人与人之间的电话网络和邮件传送、交通网络以及脑神经网络等，在这些网络中，节点之间并不会自始至终都会存在联系，而是只在某个时间段存在联系，即网络具有时序性。

目前首次把影响力最大化问题建模在特定的传播模型上寻找影响力最大化的k个节点的离散优化问题，并证明在多种传播模型下，影响力最大化问题是一个NP-hard问题。近几年来，随着社交网络影响力最大化相关研究的兴起，时序社交网络影响力最大化问题正受到越来越多学者的关注。

针对时序社交网络转化为时序图研究影响力最大化问题，对传统独立级联模型进行改进提出了ICT模型，并以此为基础借鉴贪心算法思想提出了AIMT和IMIT以解决时序图影响力最大化问题。但由于这种算法借鉴贪心的思想，算法运行时间耗时较长，对于大规模的时序社交网络不友好。鉴于此，又提出了TIM算法，分别利用时序启发阶段和时序贪心阶段，选择影响力估计值最大的备选节点和影响力最大的种子节点，但是在时序贪心阶段，虽然相较于IMIT算法，缩短了运行时间，但在计算边际收益时仍需要较长的时间，不适用于大规模时序社交网络。虽然研究者们从不同的角度对时序社交网络中的影响力最大化问题进行了研究，但现有的研究依赖传播模型，并不是纯启发式算法，导致性能方面稍有不足。

发明内容

本发明为了解决时序社交网络影响力最大化问题，提出了一种改进K-shell的时序社交网络影响力最大化方法，在社交网络中寻找符合时序关系的种子集，使得该集合在网络中的信息影响力传播范围最广，能够在较短时间内从时序社交网络中选择最优种子集进行信息传播，进而得到影响力最大化的效果。

本发明通过以下技术方案实现：

一种改进K-shell的时序社交网络影响力最大化方法：

所述方法具体包括以下步骤：

步骤1，根据节点的时序特征对时序社交网络G_T进行分层，并得到节点的位置信息；

步骤2，基于分层好的时序社交网络，根据节点的位置信息构建备选种子网络；

步骤3，对于备选种子网络中的每一个备选种子u，计算其综合度H(u)；

步骤4，依次从备选种子网络中选择综合度较大的前k个节点作为种子节点，完成在时序社交网络中的影响力最大化传播。

进一步地，在步骤1中，时序社交网络G_T的已知信息为：

给定网络G_T(V,E,T_E)表示节点之间具有时序关系的社交网络图，

V表示节点的集合，E表示边的集合，其中|V|＝n，|E|＝m，T_E表示各节点间存在联系时刻的集合，

节点的时序特征为节点与其出邻居节点的联系次数之和，T(u)＝∑_v＝O(u)|T_(u,v)|；

其中，T(u)表示节点u与u出邻居的联系次数，|T_(u,v)|表示边(u,v)的联系次数，O(u)表示节点u的出度节点集合。

进一步地，在步骤1中，具体包括以下步骤：

步骤11，对于时序社交网络G_T中的任意节点u，计算该节点与出邻居节点的联系次数T(u)；

步骤12，根据每个节点的联系次数T(u)，利用K-shell思想对时序社交网络进行分层，计算出每个节点的位置属性，即Ks值。

进一步地，所述步骤12的具体网络分层方法为：

步骤121，不断删除时序网络图G_T中联系次数为1的节点及其时序边，直到时序网络图中不再出现联系次数为1的节点，此时将所有被删节点归为1-shell层，并为其分配Ks值，该值为1；

步骤122，不断删除网络中联系次数为2的节点及其时序边，将所删节点归为2-shell层，并为其分配Ks值，该值为2；

步骤123，重复上述过程，直到网络图中所有节点均被分层、分配Ks值；

其中，Ks值越大的节点所属的层越靠近网络的核心层，处于网络核心层的节点具有最大的影响力。

进一步地，在步骤2中，所述备选种子网络的大小为N；

步骤21，逆序遍历时序社交网络的shell层；

步骤22，将遍历的节点u加入到备选种子网络G(seed)中；

步骤23，检测当前备选种子网络G(seed)大小是否超过N，若超过，则停止遍历，否则继续执行步骤21和步骤22，完成备选种子网络的构建。

进一步地，在步骤3中，节点的综合度H(u)表示如下：

其中H(u)表示节点u的综合度，O(u)表示节点u的出度节点集合，|out_degree(u)|表示u的出度。

进一步地，在步骤3中具体包括以下步骤：

步骤31，遍历备选种子网络中的备选种子u，计算u的出度|out_degree(u)|；

步骤32，遍历备选种子u的出邻居节点v，计算出邻居节点v的出度|out_degree(v)|，并将其相加；

步骤33，根据节点的综合度计算公式，计算出各个备选种子节点的综合度。

进一步地，在步骤4中，依次从备选种子网络中选择综合度较大的前k个节点加入种子集。种子集S的大小为k；具体包括以下步骤：

步骤41，根据综合度大小，对备选种子网络G(seed)中的备选种子进行排序；

步骤42，选择综合度较大的前k个备选种子节点u加入到种子集S中，即v＝argmax_u{H(u)|u∈G(seed)}；

步骤43，将种子节点在时序社交网络中进行传播。

一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时实现上述任一项所述方法的步骤。

本发明有益效果

与现有的技术相比，本发明具有以下优点：

本发明能够在社交网络中关注时间属性，并且根据节点的位置属性和动态属性进行种子选择，在时序社交网络中选择最优的种子进行消息的广泛传播。

简单有效：本发明在预处理阶段通过节点的时序特征对时序社交网络进行分层，减少了在线查询阶段的运行时间，在线查询阶段为了避免同一核层中节点影响力覆盖，以及不同核层节点的影响力覆盖问题，通过构建备选种子网络，计算备选种子的综合度选择最优种子，影响力传播效果明显。

实用性强：时序社交网络影响力最大化问题中，网络和节点具有时序性，本发明能够针对时序社交网络，根据节点的时序特征选择最优种子，更接近于网络实际情况，具有很强的实用性。

附图说明

图1为本发明改进K-shell在时序社交网络影响力最大化方法的流程示意图；

图2为本发明的一个典型的时序社交网络应用样例；

图3为在传播模型和传播概率相等的条件下，本发明方法与其他四个典型方法在CollegeMsg时序社交网络上的影响传播对比图；

图4为在传播模型和传播概率相等的条件下，本发明方法与其他四个典型方法在Email-Eu-core时序社交网络上的影响传播对比图；

图5为在传播模型和传播概率相等的条件下，本发明方法与其他四个典型方法在Math Overflow时序社交网络上的影响传播对比图；

图6为在传播模型和传播概率相等的条件下，本发明方法与其他四个典型方法在Ask Ubuntu时序社交网络上的影响传播对比图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种改进K-shell的时序社交网络影响力最大化方法：

所述方法具体包括以下步骤：

步骤3，对于备选种子网络中的每一个备选种子u，计算其综合度H(u)，所述综合度H(u)包括节点u的直接影响与间接影响；

步骤4，依次从备选种子网络中选择综合度较大的前k个节点作为种子节点，完成在时序社交网络中的影响力最大化传播，即对于时序社交网络，通过最优种子集完成影响力的最大化传播。

在步骤1中，时序社交网络G_T的已知信息为：

V表示节点的集合，E表示边的集合，其中|V|＝n，|E|＝m，T_E表示各节点间存在联系时刻的集合，T_(v,v)表示在节点u和v之间存在联系的时刻的集合，T_(u,v)∈T_E；

在步骤1中，具体包括以下步骤：

所述步骤12的具体网络分层方法为：

在步骤2中，所述备选种子网络的大小为N，这是根据时序社交网络和种子集的大小所定。

步骤21，逆序遍历时序社交网络的shell层；因为shell值越大，越接近网络核心。

步骤22，将遍历的节点u加入到备选种子网络G(seed)中；

在步骤3中，节点的综合度H(u)表示如下：

在步骤3中具体包括以下步骤：

在步骤4中，依次从备选种子网络中选择综合度较大的前k个节点加入种子集。种子集S的大小为k；具体包括以下步骤：

步骤43，将种子节点在时序社交网络中进行传播。

以图2为例，说明本发明的应用场景及过程。

应用场景：如图2是一个含有10个节点时序社交网络，目标是要在该社交网络中寻找2个种子节点，使得该种子节点可以在传播中将影响力最大化。

过程如下：

1)计算时序社交网络中每个节点的时序特征，所谓时序特征指节点与其出邻居的联系次数之和，如节点1与节点2联系了两次，节点1与节点3联系了一次，因此节点1的联系次数为3。

2)根据步骤1计算的节点的时序特征对时序社交网络进行分层，首先，不断删除网络中联系次数为1的节点及其时序边，直到时序网络图中不再出现此类节点，此时将所有被删节点归为1-shell层，并为其分配Ks值，该值为1；其次，不断删除网络中联系次数为2的节点及其时序边，将所删节点归为2-shell层,并为其分配Ks值，该值为2；重复上述过程，直到网络图中所有节点均被分层、分配Ks值，其中Ks值越大，越靠近核心。

如图2所示，该时序社交网络分为三层，节点1属于第三层，节点2,9,6,3属于第二层，节点10,4,7,8,5属于第一层。

3)构建备选种子网络，即选择靠近网络核心的N个节点加入备选种子网络，参数N由网络和种子集大小所定，该案例中N＝5，即备选种子网络中包括节点1,2,9,6,3。

4)计算备选网络中备选种子节点u的综合度H(u)，如节点1的综合度为

5)对备选种子网络中备选种子节点的综合度进行排序，选择前k＝2个综合度较大的节点加入种子集合中，即节点1和节点2加入种子集合。

为了验证本发明的有效性，下面以仿真实验来进一步说明、需要说明的是，实验中应用的参数并不影响本发明的一般性。

(1)实验环境：

实验平台的操作系统为64位的Windows 10，CPU为英特尔Core i5-8250U@1.60GHz四核，内存为8GB，硬盘为128GB，编程环境为Pycharm。

(2)实验数据集：

实验采用了四个真实的时序社交网络数据集：其中数据集1(CollegeMsg)源于由私人消息组成的加州大学分校在线社交网络。数据集2(Email-Eu-core)为欧洲某大型研究机构的电子邮件数据。数据集3源于Math Overflow上的一个时间交互网络。数据集4源于Ask Ubuntu上的一个时间交互网络，这四个数据集都可以在http://snap.stanford.edu/ data上下载。

数据集名称	节点数/个	时序边数/条	静态边数/条	时间跨度/条
					CollegeMsg	1899	59835	20296	193
Email-Eu-core	986	332334	24929	803
					MathOverflow	21688	107581	90489	2350
AskUbuntu	75555	356822	178210	2418

表1四个数据集基本信息表

(3)对比算法：

本发明提出的方法为KTIM，本发明对比的算法包括IMIT、TIM、Degree-Discount、CCA。

其中IMIT算法是以贪心算法为基础，优化节点边际收益进行选优质种子。

TIM算法是半启发式半贪心算法,分别利用时序启发阶段和时序贪心阶段，选择影响力估计值最大的备选节点和影响力最大的种子节点。

CCA算法是基于核数层次特征和影响半径的启发式算法，最后综合核数和度数两个属性，找出影响力节点集合。

DegreeDiscount算法作为启发式算法的代表，选取度数最大的节点作为种子节点，然后将所选节点邻居的度数进行折扣，直到选择k个节点。

(4)实验设置：

在时序社交网络G_T中，设置备选种子网络的大小N为200，目标种子集的大小为10,20,30,40,50。

传播模型采用ICT模型，对E中的每条边E_u,v，设置其传播概率为：

其中，|T(u,v)|表示节点u与节点v的联系次数，v'表示v的所有入度节点，In(v)表示节点v的入度节点。

对比实验中，为了追求精确，IMIT算法计算边际收益蒙特卡洛模拟次数设置为100；TIM算法计算边际收益蒙特卡洛模拟次数设置为100，备选种子数量设置为100；CCA算法的影响半径参数设置为1。

其中，由于IMIT算法和TIM算法在计算边际收益时要进行蒙特卡洛模拟100次耗时较长，所以IMIT算法和TIM算法做了数据离线处理，否则算法运行时间将远大于未做离线预处理的时间。

图3显示了五种算法在传播模型和传播概率相同的情况下在CollegeMsg数据集下的影响力传播效果。

图4显示了五种算法在传播模型和传播概率相同的情况下在Email-Eu-core数据集下的影响力传播效果。

图5显示了五种算法在传播模型和传播概率相同的情况下在Math Overflow数据集下的影响力传播效果。

图6显示了五种算法在传播模型和传播概率相同的情况下在Ask Ubuntu数据集下的影响力传播效果。

表2显示了五种算法在四个时序社交网络中选择50个种子集的算法运行时间。

从仿真结果看出，本发明的方法可以在综合时间和影响力扩展度的情况下选择最优种子集，其性能明显优于其他对比方法。

表2算法整体运行时间

本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM，DR RAM)。应注意，本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disc，SSD))等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

以上对本发明所提出的一种改进K-shell的时序社交网络影响力最大化方法，进行了详细介绍，对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种改进K-shell的时序社交网络影响力最大化方法，其特征在于：

所述方法具体包括以下步骤：

2.根据权利要求1所述方法，其特征在于：

在步骤1中，时序社交网络G_T的已知信息为：

给定网络G_T(V，E，T_E)表示节点之间具有时序关系的社交网络图，

节点的时序特征为节点与其出邻居节点的联系次数之和，T(u)＝∑_v＝O(u)|T_(u，v)|；

其中，T(u)表示节点u与u出邻居的联系次数，|T_(u，v)|表示边(u，v)的联系次数，O(u)表示节点u的出度节点集合。

3.根据权利要求2所述方法，其特征在于：

在步骤1中，具体包括以下步骤：

4.根据权利要求3所述方法，其特征在于：

所述步骤12的具体网络分层方法为：

5.根据权利要求4所述方法，其特征在于：

在步骤2中，所述备选种子网络的大小为N；

步骤21，逆序遍历时序社交网络的shell层；

步骤22，将遍历的节点u加入到备选种子网络G(seed)中；

6.根据权利要求5所述方法，其特征在于：

在步骤3中，节点的综合度H(u)表示如下：

7.根据权利要求6所述方法，其特征在于：

在步骤3中具体包括以下步骤：

8.根据权利要求7所述方法，其特征在于：

步骤43，将种子节点在时序社交网络中进行传播。

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至8中任一项所述方法的步骤。