CN114595398A

CN114595398A - 一种演化社交网络中用户行为驱动的影响力最大化方法

Info

Publication number: CN114595398A
Application number: CN202210189837.XA
Authority: CN
Inventors: 袁野; 周金平; 魏鹏; 马玉亮
Original assignee: Thinvent Digital Technology Co Ltd
Current assignee: Thinvent Digital Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-07

Abstract

本发明公开了一种演化社交网络中用户行为驱动的影响力最大化方法，该方法包括：步骤1，获取社交网络中用户的行为数据，建立随时间演化的演化社交网络模型；步骤2，根据用户的行为日志，计算用户之间的信息传播概率，以得到演化社交网络中边的权重；步骤3，对独立级联传播模型进行改进，建立用户行为驱动的独立级联传播模型；步骤4，根据改进的反向采样方法，查询不同时间点下演化社交网络中最有影响力的k个节点，即种子节点集合；步骤5，验证用户行为驱动的独立级联传播模型的有效性。本发明能够解决现有技术未考虑用户行为对信息传播的影响，不能在演化社交网络上准确查询出影响力最大的用户的问题。

Description

一种演化社交网络中用户行为驱动的影响力最大化方法

技术领域

本发明涉及社交网络技术领域，特别是涉及一种演化社交网络中用户行为驱动的影响力最大化方法。

背景技术

随着互联网技术的发展，越来越多的虚拟社交网络相继出现，如大型社交网站Facebook、手机通信形成的人际关系网络等。这些新出现的社交网络与传统的社交网络相比，具有很强的动态特征，称之为演化社交网络(Evolving Social Network)。演化社交网络是一种会随时间不断变化的网络，在整个演化的过程中，网络中的用户数量和用户之间的关系会不断变化，用户与用户之间的影响并不会保持恒定不变，而是会随着用户行为的改变而改变，因此关注演化特性能更合理得建模研究社交网络。

社会影响指一个人的情绪、意见或者行为会对其他人产生影响的现象，例如人们在社交网络中分享并传播自己的想法、新闻和其他信息，从而影响网络中的其他用户，而社交网络作为媒介，在社会个体相互影响、传播信息与观点方面，发挥着根本性的作用。

影响力最大化(Influence Maximization，简称IM)问题是指在网络中寻找k个用户作为种子节点，使得信息于特定的传播模型(如独立级联传播模型、线性阈值传播模型)下，通过这k个用户在网络中尽可能多的影响到其他用户。目前，影响力最大化具有广泛的应用场景，例如市场营销、个性化推荐、专家用户发现和内容排序等。因此通过分析社交网络数据，剖析社会现象，度量用户影响力成为了当前研究的一大热点。

目前，社交网络中解决影响力最大化问题的近似算法有很多种。

尽管上述影响力最大化问题已被广泛关注，但是现有的工作主要在静态图中展开，即在传播过程中，社交网络的拓扑结构和节点关系保持不变。然而在现实生活中，信息传播的社交网络均是动态变化的。根据CNNIC在2020年9月给出的中国互联网络发展统计报告，截至到2020年6月，我国即时通信用户规模达9.31亿，占网民整体的99.0％，网络视频用户规模达8.88亿，占网民整体的94.5％，社交网络中的用户规模在不断增长，社交网络的结构也在不断演化。现有研究往往还忽略了用户行为对信息传播的影响，部分信息扩散过程往往持续数天甚至数月，在此期间，用户行为的变化，如新用户的加入与离开，信息的发布或删除，都会对信息的传播产生影响。

公开号为CN112446634A的中国专利公开了“一种社交网络中影响力最大化节点的探测方法及系统”，其技术方案在建立网络结构的时候没有考虑网络的时序性，当网络结构随着时间变化时，该方法探测的种子节点会失去有效性，在计算节点的影响力期望值时，没有考虑影响力期望值会随时间变化的情况。

公开号为CN112380456A的中国专利公开了一种基于凝聚熵的动态影响力最大化方法，其提出了一种基于凝聚熵的动态影响力最大化方法，但是该方法利用重叠社区动态地选择种子节点，没有真正考虑网络结构随时间变化的特性，也没有考虑用户行为变化对信息传播产生的影响，因此计算出的种子节点对于演化社交网络不具有有效性。

因此，当前影响力最大化问题解决方案没有考虑用户行为对信息传播的影响，但是用户行为的改变会使信息传播概率发生改变，从而对网络中信息的传播产生影响。同时，网络演化过程中用户的规模和社交关系不断变化，这种不断变化的特性在静态图中难以观察到，阻碍了目前影响力最大化问题解决方案对最具影响力用户的识别。因此，如何在演化社交网络上准确查询出影响力最大的用户是一个需要解决的技术问题。

发明内容

为此，本发明的目的在于提出一种演化社交网络中用户行为驱动的影响力最大化方法，以解决现有技术未考虑用户行为对信息传播的影响，不能在演化社交网络上准确查询出影响力最大的用户的问题。

本发明提供一种演化社交网络中用户行为驱动的影响力最大化方法，包括：

步骤1，获取社交网络中用户的行为数据，建立随时间演化的演化社交网络模型，通过该演化社交网络模型，使信息能够在不断演化的社交网络中进行传播；

步骤2，根据用户的行为日志，计算用户之间的信息传播概率，以得到演化社交网络中边的权重；

步骤3，对独立级联传播模型进行改进，建立用户行为驱动的独立级联传播模型；

步骤4，根据改进的反向采样方法，查询不同时间点下演化社交网络中最有影响力的k个节点，即种子节点集合；

步骤5，设计节点相似性算法比较种子节点集合与受影响节点相似性，验证用户行为驱动的独立级联传播模型的有效性。

上述演化社交网络中用户行为驱动的影响力最大化方法，其中，步骤1具体包括：

获取社交网络中用户的行为数据，建立随时间演化的演化社交网络模型G_m＝(V_m，E_m，W_m)，其中，m表示时刻，V_m表示m时刻的用户节点集合，E_m表示m时刻边的集合，W_m表示m时刻边上权重的集合。

上述演化社交网络中用户行为驱动的影响力最大化方法，其中，步骤2具体包括：

根据行为日志抽象出关系动作元组(u，a，t_k)，(u，a，t_k)表示用户u在t_k时刻执行了动作a，令A_u表示用户u在数据集中执行的动作，A_v表示用户v在数据集中执行的动作，A_u∩A_v表示用户u和用户v都执行的动作，分析演化社交网络模型中所有节点的行为日志，并根据每个节点与其邻居的动作计算节点对其邻居影响力持续时间窗口τ_u，v：

其中，A表示执行的动作集合，t_u(a)表示用户u在t时刻执行了动作a，t_v(a)表示用户v在t时刻执行了动作a；

利用持续时间窗口计算用户之间的信息传播概率p_u，v：

其中，

表示存在，Δt＝t_v-t_u，Δt表示用户v执行动作a的时间t_v与用户u执行动作a的时间t_u的时间差，prop表示用户u和用户v在时间差Δt之内执行的相同动作的数量。

上述演化社交网络中用户行为驱动的影响力最大化方法，其中，步骤3具体包括：

步骤3.1，给定一个时间点，计算该时间点下每个用户对其邻居的影响持续窗口，利用信息传播概率的计算公式计算信息传播概率，任意节点v是否被激活由一个邻居对它的影响值所决定，对于给定一个初始活跃节点集合，通过以下过程进行级联的传播过程：

步骤3.2，在传播开始，给定一个初始活跃的节点集合S，激活的节点将在之后的级联过程中保持激活状态；

步骤3.3，在t时刻，新近被激活的节点u对它的邻接节点v产生影响，成功的概率为p_u，v，若v有多个邻居节点都是新近被激活的节点，那么这些节点将以任意顺序尝试激活节点v；

步骤3.4，如果节点v被激活成功，那么在t+1时刻，节点v转为活跃状态，将对其邻接非活跃节点产生影响；否则，节点v在t+1时刻状态不发生变化；

步骤3.5，不断重复上述过程，没有可以被激活节点的时候，影响传播终止。

上述演化社交网络中用户行为驱动的影响力最大化方法，其中，步骤4具体包括：

步骤4.1，随机选择节点v∈V，V表示用户节点集合；

步骤4.2，对能够激活v的节点集合R进行反向采样，对于每个节点u∈V，其出现在R中的概率等于u能够激活v的概率，将R记为v的反向可达集；

步骤4.3，重复上述步骤4.1、步骤4.2，生成多个反向可达集，寻找出现次数最多的节点，将其加入到种子节点集合，将出现次数最多的节点从反向可达集中删除，重复k次，输出大小为k的影响力最大的种子集合。

上述演化社交网络中用户行为驱动的影响力最大化方法，其中，步骤5具体包括：

利用节点执行的动作将节点建模成一个向量，比较种子节点与受影响节点向量的相似度，以判断受影响节点是否真正受到影响，进而评估种子用户的有效性。

与现有技术相比，本发明提供的方法，根据获取的社交网络中用户的行为数据，建立了随时间演化的演化社交网络模型，通过该演化社交网络模型，使信息能够在不断演化的社交网络中进行传播，并且在该模型的基础上改进了反向采样方法，能更加真实有效的查询网络中影响力最大的k个用户，避免了随机选择信息传播概率带来的偏差，使得对用户影响力的计算更加高效准确，查询出的用户集合也更加真实有效。本发明考虑了用户行为对信息传播的影响，以及网络演化过程中用户的规模和社交关系不断变化，能够在演化社交网络上更加准确的查询出影响力最大的用户。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一实施例的演化社交网络中用户行为驱动的影响力最大化方法的逻辑原理示意图；

图2是演化网络信息传递的一个示意图；

图3是一示例性的计算消息传播概率的示意图；

图4是在四个不同数据集下，本发明的模型与其他模型在计算节点影响力上的对比图；

图5是BDIC模型和IC模型下不同大小的种子集合与受影响节点相似度随时间变化示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了后续描述的方便，首先对演化社交网络和独立级联传播模型的相关概念进行简单说明。

演化社交网络即不断发展的网络，本发明以时间轮向前演化，第0～T时间为第一轮，且第m轮为(m-1)T～mT的时间间隔，使用G_m＝(V_m，E_m，W_m)表示时刻m的社交网络。假设所有的边都是有向边，这里(u，v)表示从用户(也称节点)u到用户v的边，用户之间的影响只能沿着边(u，v)从u扩散到v。如果存在(u，v)则说明u是v的邻居，在每一个时刻m，都可以识别出最具影响力的一组种子节点。

独立级联传播(Independent Cascade，IC)模型描述的是信息在社交网络中是如何传播的，社交网络中每个节点都有两种状态：激活与未激活；每一个节点都只能从未激活状态转变为激活状态并保持激活状态直到传播结束；每个节点可以被它相邻的节点激活，任意节点v是否被激活由一个邻居对它的信息传播概率p_uv所决定。p_uv一般是随机选择且p_uv∈[0，1)。信息从初始的活跃节点开始传播，直到没有可以被激活节点的时候，传播终止。

请结合图1，本发明一实施例提出的演化社交网络中用户行为驱动的影响力最大化方法，包括步骤1～步骤5：

步骤1，获取社交网络中用户的行为数据，建立随时间演化的演化社交网络模型，通过该演化社交网络模型，使信息能够在不断演化的社交网络中进行传播。

其中，步骤1具体包括：

图2为演化网络信息传递的一个示意图，剪头表示消息传播方向，随着时间t的推移，收到消息的点不断地通过边继续传播消息，同时传播消息的边也不断变化，直到没有边可以传播消息则过程停止。

步骤2，根据用户的行为日志，计算用户之间的信息传播概率，以得到演化社交网络中边的权重。

其中，根据用户的行为日志，计算用户之间的信息传播概率，而不是简单地随机选择信息传播概率，如此一来，可以得到演化社交网络中的边的权重，进而对独立级联模型进行改进，建立用户行为驱动的独立级联(Behavior Driven Independent Cascading，BDIC)传播模型。利用该模型可以查询出演化社交网络中影响力最大的一组用户。

步骤2具体包括：

利用持续时间窗口计算用户之间的信息传播概率p_u，v：

其中，

表示存在，Δt＝t_v-t_u，Δt表示用户v执行动作a的时间t_v与用户u执行动作a的时间t_u的时间差，prop表示用户u和用户v在时间差Δt之内执行的相同动作的数量。该公式中的分子表示的意思是找出用户u和用户v都执行过的动作a的数量(可能不止一个)，并且时间差Δt是小于τ_u，v的。

图3为一示例性的计算消息传播概率的示意图，(a)为三个用户P、Q、R的动作日志，其中包含三个动作a₁、a₂和a₃；(b)、(c)、(d)分别是三个动作的传播图PG，边上的数字表示传播动作所需要的时间，传播图PG中的边都是有向边，建立模型影响力矩阵(IM)，IM[i，j]＝(p_i，j，τ_i，j)，例如IM[P，R]＝(1/2，10)表示：用户P在时间为10的窗口内执行了a₁和a₂两个动作，用户R在窗口内有一个动作a₁与用户P相同，因此时间间隔τ_P，R为10时，概率P_P，R为1/2。

步骤3，对独立级联传播模型进行改进，建立用户行为驱动的独立级联传播模型。

其中，步骤3具体包括：

步骤4，根据改进的反向采样方法，查询不同时间点下演化社交网络中最有影响力的k个节点，即种子节点集合。

其中，步骤4具体包括：

步骤4.1，随机选择节点v∈V，V表示用户节点集合；

步骤4.3，重复上述步骤4.1、步骤4.2，生成多个(例如1000个)反向可达集，寻找出现次数最多的节点，将其加入到种子节点集合，将出现次数最多的节点从反向可达集中删除，重复k次，输出大小为k的影响力最大的种子集合。

其中，步骤5具体包括：

利用节点执行的动作将节点建模成一个向量，比较种子节点与受影响节点向量的相似度，以判断受影响节点是否真正受到影响，进而评估种子用户的有效性。需要指出的是，在验证种子集合的有效性时，本实施例采用计算两个用户行为向量的余弦值作为有效性度量，具体实施时，也可以换成切比雪夫距离或者杰卡德相似性系数度量种子集合有效性。

上述方法建立了演化社交网络中用户行为驱动的信息传播模型(BDIC)，通过分析用户之间的行为计算用户之间信息传播概率，从事实出发计算信息传播概率，比其他信息传播模型更加符合实际情况。在BDIC模型基础上改进了反向采样方法查询网络中影响力最大的k个节点。该方法还设计了有效性算法计算种子集合的有效性。

图4表示的是在四个不同数据集下，本发明的模型与其他模型在计算节点影响力上的对比图，四个数据集分别是Digg社交网络数据集，新浪微博社交网络数据集，在Digg数据集的基础上基于随机分布生成的数据集data3，在Weibo数据集的基础上利用正态分布生成的数据集data4，数据集的具体信息见表1。

表1

对比图4的(a)、(b)、(c)、(d)可以看出：不论是在真实的数据集还是合成数据集，BDIC模型得出的种子节点影响力均大于IC下的种子节点。可以说明在寻找最具影响力的节点方面BDIC模型比IC更加有效，得出节点集合的影响更加广泛。

图5为BDIC模型和IC模型下不同大小的种子集合与受影响节点相似度随时间变化示意图。通过对每个数据集中用户行为分析，本实施例将数据集1、2、3、4的窗口大小分别设置为4.6天、14.3天、8.1天和8.1天。同时为了方便观察，将图5中的横坐标时间设置为整数。通过图5的比较，随着时间不断演化，数据集1中，BDIC下种子节点与其邻居的相似度平均比IC高出15％。数据集3中，BDIC下种子节点相似度比IC下高20％。数据集2、4中BDIC下种子节点平均相似度比IC要高10％。

因此不论是种子集合大小取5或15，由BDIC得出的种子节点集合相似度比IC模型下的种子节点相似度平均要高10％-20％，可以说明本发明提出的BDIC模型下找到的种子节点集合比IC模型更加真实。这一结果符合现实中的消息传播行为：当用户接受其他节点的影响后，该用户行为会与影响他的节点趋于相似，证明了基于BDIC模型方法找到的种子节点更加贴合实际情景。

综上，根据本实施例提供的演化社交网络中用户行为驱动的影响力最大化方法，根据获取的社交网络中用户的行为数据，建立了随时间演化的演化社交网络模型，通过该演化社交网络模型，使信息能够在不断演化的社交网络中进行传播，并且在该模型的基础上改进了反向采样方法，能更加真实有效的查询网络中影响力最大的k个用户，避免了随机选择信息传播概率带来的偏差，使得对用户影响力的计算更加高效准确，查询出的用户集合也更加真实有效。本发明考虑了用户行为对信息传播的影响，以及网络演化过程中用户的规模和社交关系不断变化，能够在演化社交网络上更加准确的查询出影响力最大的用户。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种演化社交网络中用户行为驱动的影响力最大化方法，其特征在于，包括：

2.根据权利要求1所述的演化社交网络中用户行为驱动的影响力最大化方法，其特征在于，步骤1具体包括：

3.根据权利要求2所述的演化社交网络中用户行为驱动的影响力最大化方法，其特征在于，步骤2具体包括：

根据行为日志抽象出关系动作元组(u,a,t_k)，(u,a,t_k)表示用户u在t_k时刻执行了动作a，令A_u表示用户u在数据集中执行的动作，A_v表示用户v在数据集中执行的动作，A_u∩A_v表示用户u和用户v都执行的动作，分析演化社交网络模型中所有节点的行为日志，并根据每个节点与其邻居的动作计算节点对其邻居影响力持续时间窗口τ_u,v：

利用持续时间窗口计算用户之间的信息传播概率p_u,v：

其中，

4.根据权利要求3所述的演化社交网络中用户行为驱动的影响力最大化方法，其特征在于，步骤3具体包括：

步骤3.3，在t时刻，新近被激活的节点u对它的邻接节点v产生影响，成功的概率为p_u,v，若v有多个邻居节点都是新近被激活的节点，那么这些节点将以任意顺序尝试激活节点v；

5.根据权利要求4所述的演化社交网络中用户行为驱动的影响力最大化方法，其特征在于，步骤4具体包括：

步骤4.1，随机选择节点v∈V，V表示用户节点集合；

6.根据权利要求5所述的演化社交网络中用户行为驱动的影响力最大化方法，其特征在于，步骤5具体包括：