CN105138667A

CN105138667A - 一种考虑时延约束的社会网络初始关键节点选取方法

Info

Publication number: CN105138667A
Application number: CN201510562450.4A
Authority: CN
Inventors: 邓晓衡; 潘琰; 沈海澜; 桂劲松
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2015-09-07
Filing date: 2015-09-07
Publication date: 2015-12-09
Anticipated expiration: 2035-09-07
Also published as: CN105138667B

Abstract

一种考虑时延约束的社会网络初始关键节点选取方法。本发明首先结合见面概率和激活概率将网络中用户之间的影响力量化表示为信用分配过程结束后积累在节点上的信用值大小。通过对网络结构和用户行为记录的学习，将尝试见面并激活其他用户而产生的传播阻碍作用转化为传播增量路径度量，并结合时延约束条件限定性地分配信用。最后使用贪心思想递归选取边际收益最大的节点组成初始关键节点集合。本发明构建了一种新的社会网络初始关键节点选取方法，结合概率事件和时延约束条件，改进了以往仅基于节点度值评价节点影响力规则的弊端，提高了选取过程的执行效率，并更加真实有效地模拟和预测网络中行为的传播过程。

Description

一种考虑时延约束的社会网络初始关键节点选取方法

技术领域

本发明属于计算机技术领域，涉及一种考虑时延约束的社会网络初始关键节点选取方法。

背景技术

互联网的发展不仅为我们带来了生活上的便捷，而且使我们交流与沟通方式产生了巨大的变化。随着越来越多的人使用诸如移动终端等更加便捷的数据交换设备，交友与分享智慧的途径变得更加丰富多样，社会结构变得更加复杂，人与人之间的联系也变得更加紧密。一般情况下，通过在线社会网络中用户之间的联系，信息可以以极快的速度和极小的代价进行传播。正因为如此，影响力在社会网络中的扩散和传播为病毒式营销带来了前所未有的机遇和挑战，如何找到初始用户群体使得信息最终的影响传播范围最大已成为热点研究领域之一。

对于大型网络中初始关键节点选取的问题被定义为影响力最大化问题。在现实社会网络中，话题的关注与谈论热度会随着时间的推移呈现衰减的特性，在影响力传播的同时，商家往往追求的是在一段时期或者一定传播代价范围内影响力传播覆盖范围的最大化。当前大部分的研究工作都是基于对传统经典影响力级联模型的优化，或者对启发式算法的准确度进行改进，对于影响力的评估则主要基于网络结构和节点度值，时延约束条件以及传播时延的特性则很少被挖掘并应用于对初始关键节点的评估中。

针对上述不足，提出一种考虑时延约束的社会网络初始关键节点选取方法，针对时延约束的影响力最大化问题进行研究，加入见面概率来描述影响力在相邻节点之间传播延迟的特性。该方法结合了见面概率，条件激活概率以及影响力随时间衰减的特性对节点之间的影响力进行评价，并将其优化应用在相邻节点之间的信用分配评估过程之中。最后结合贪心思想得到初始社会网络初始关键节点集合。已知节点之间的见面事件是它们发生影响作用的前提和必要条件，并且一个节点在同一时刻只能和一个出邻居节点发生碰面并尝试激活。

发明内容

本发明的目的是提出一种考虑时延约束的社会网络初始关键节点选取方法(CDTC)，使用信用分布过程结束后积累在节点上的信用值作为节点关键性的衡量标准。提出传播增量路径对节点之间因尝试见面并激活而产生的信息传播阻碍作用进行评价。结合见面概率，条件激活概率以及影响力随时间衰减的特性对节点之间的直接信用分布进行优化分配，并且结合网络结构和用户行为记录对信用分布和影响力的传播过程进行构建，最后结合贪心思想递归选取边际收益最大的节点得到社会网络初始关键节点集合。具体步骤如下：

步骤1：将用户行为记录用L表示，社会网络中用户之间的关系用网络结构图G＝(V,E)表示，其中V代表网络中的全部节点的集合，E表示网络中全部边的集合；

步骤2：计算网络中相邻节点之间的综合激活概率，具体过程如下：设定事件A表示相邻节点之间的见面事件，概率为m，事件B表示见面成功条件下相邻节点之间激活成功的事件,概率为α。由贝叶斯定理可得条件概率即节点未被相邻且已处于激活状态的节点激活的条件下两节点未发生见面的概率，其中和分别为事件A的和事件B的对立事件。令事件C表示节点发生见面但并未被相邻节点激活的事件，综合考虑条件概率以及条件概率

P (\overset{&OverBar;}{A} | \overset{&OverBar;}{B}) = \frac{1 - m}{1 - m α},

计算似然函数：

L (m; α) = \frac{1 - m}{1 - m α} \cdot \frac{(1 - α) m}{1 - m α} = \frac{(1 - m) (1 - α) m}{{(1 - m α)}^{2}}

取对数似然函数，并取关于参数α的梯度，令梯度等于0，得到m与α之间的关系为假设图中存在一条行为传播路径P＝{v₁,v₂,v₃,…,v_n}，其中相邻节点之间的边(v_i,v_j)∈P，则节点v_i对节点v_j的综合激活概率

步骤3：使用sigmoid函数模拟影响力随时间衰减的特性，对影响力进行平滑衰减变换，并以此作为相邻节点之间分配直接影响力的依据，即分配给节点v_i让其影响节点v_j的直接信用计算如下：

γ_{v_{i}, v_{j}} = \frac{b_{v_{i}, v_{j}}}{(1 + \exp (t_{v_{j}} (a) - t_{v_{i}} (a)))}

其中a代表特定的行为，t_vi(a)和分别代表节点v_i和节点v_j执行行为a的时刻；当两者的之间的时间跨度越大时，表明分配的信用值越小，v_i对v_j的影响力也就越弱；

步骤4：通过遍历用户行为记录L，针对不同的行为，将节点之间反复见面并尝试激活对行为传播的时间阻碍作用转嫁为传播增量路径长度的计算；其计算过程如下：已知相邻两个节点之间见面并尝试激活的工作是独立重复的伯努利试验，则节点v_j被节点v_i首次成功激活之前节点v_i一共尝试见面并激活节点v_j的试验次数服从几何分布，用随机变量根据几何分布的期望和方差得到随机变量X_vi,vj的估计量为则对于行为a的传播增量路径PIP_a的长度为：

l e n g t h ({PIP}_{a}) = \underset{(v_{i}, v_{j}) &Element; P}{Σ} {\frac{2 - α - \sqrt{(2 - 2 α) (2 - α)}}{α}}

步骤5：沿着传播增量路径逆向对路径上的节点进行信用值分配，PIP_a(v,u)表示对于行为a，节点v到节点u之间的传播增量路径；节点之间的信用分配采用级联方式，对于边(w,u)∈PIP_a(v,u)，不仅节点w会被分配信用，节点w之前对于行为a的前任执行者也会被分配信用让其影响节点u，同时结合时延约束条件τ将信用分配限制在一定范围之内，从而简化信用分布的复杂度，提高计算的效率；对于行为a和传播增量路径中任意的两个节点v和节点u，给予节点v让其影响节点u的总信用计算如下：

Γ_{v, u} (a) = \underset{w &Element; N_{i n} (u), l e n g t h ({PIP}_{a} (v, u)) \leq τ}{Σ} Γ_{v, w} (a) \cdot γ_{w, u} (a)

节点w为节点u的入邻居，length(PIP_a(v,u))表示对于行为a，节点v到节点u之间的传播增量路径长度，Γ_w,u(a)为对于行为a，给予节点w让其影响节点u的总信用；N_in(u)为节点u的入邻居节点集合，γ_w,u(a)为对于行为a，给予节点w让其影响节点u的信用大小；相似地，给予初始关键节点集合S让其影响节点u的总信用计算如下：

Γ_{S, u} (a) = \underset{w &Element; N_{i n} (u) \cap w &NotElement; S, l e n g t h ({PIP}_{a} (v, u)) \leq τ}{Σ} Γ_{S, w} (a) \cdot γ_{w, u} (a)

其中Γ_S,w(a)为对于行为a，给予初始关键节点集合S让其影响节点w的总信用；

步骤6：使用σ_CDTC(S)代表信用分布函数，其值等于给予初始关键节点集合S让其影响网络中其余节点的总信用，即为节点u所执行的行为的集合，为节点u所执行行为的数量，则对于网络中的任意节点v，计算节点v对于所有行为的边际收益：

其中，V代表网络中节点的全集，为通过行为a在节点集合V-S中给予节点v让其影响节点u的信用；根据公式，计算网络中某一节点v的边际收益，只需要计算给予节点v让其影响除当前初始关键节点集合S之外的其他节点的总信用，即以及对于行为a，给予当前初始关键节点集合S让其影响节点v的信用值Γ_S,v(a)；将计算得到的节点的边际收益进行排序，选取边际收益最大的节点插入初始关键节点集合S中；

步骤7：判断初始关键节点集合中元素的个数是否已经达到要求的个数k，如果未达到，则对除当前初始关键节点集合之外的节点之间的信用分布进行更新，并重新回到步骤5；如果已经达到，则得到最终所要选取的初始关键节点集合。

本发明提出一种考虑时延约束的社会网络初始关键节点选取方法，加入事件概率来描述影响力在相邻节点之间传播延迟的特性，结合了见面概率，条件激活概率以及影响力随时间衰减的特性对节点之间的影响力进行评价，并将其优化应用在相邻节点之间的信用分配评估过程之中。并结合网络结构和用户行为记录对信用分布和影响力的传播过程进行构建，生成传播增量路径，将用户之间反复见面并尝试激活对传播的阻碍作用映射为传播增量路径长度的计算，针对训练数据集中记录的每一种行为沿着传播增量路径逆向分配代表影响力大小的信用值，最后结合贪心思想递归选取边际收益最大的节点得到社会网络初始关键节点集合。实验结果显示，本发明使得初始关键节点的选取结果更加准确和高效，相比传统方案也具有更好的传播效果。

附图说明

图1是本发明提出的一种考虑时延约束的社会网络初始关键节点选取方法流程图；

图2是实施例1中CDTC，CD，IC和LT这4种不同的方法对于初始关键节点选取所消耗的运行时间对比图；

图3是实施例1中缩小纵坐标后，CDTC，CD这2种不同的方法对于初始关键节点选取所消耗的运行时间对比图；

图4是实施例1中CDTC和CD这2种不同的方法对于初始关键节点选取所消耗的内存空间对比图；

图5是实施例1中CDTC，CD，IC和LT这4种不同的方法选取初始关键节点的影响力传播效果对比图；

图6是实施例1中CDTC，CD这2种方法对于选取的初始关键节点的影响力传播效果相比与真实传播结果的对比图；

图7是实施例1中对于测试集行为的影响力预测结果对比图。

具体实施方式

下面将结合附图、理论分析和仿真实验对本发明作进一步的详细说明。

本发明将社会网络构造为一个网络结构图G＝(V,E)，其中V表示图中全部节点的集合，E代表网络中全部边的集合。令S代表初始关键节点集合，σ_M(S)表示影响力传播函数，M为模型参数，在本发明中将影响力体现为信用分布过程结束后积累在节点上的信用值的大小，节点被分配的信用值越高代表节点的影响力越大。信用分布函数σ_CDTC(S)定义为给予当前初始关键节点集合S让其影响其余节点的总信用,即令Γ_S,u(a)代表对于行为a，给予当前初始关键节点集合S让其影响节点u的总信用。为节点u所执行的行为的集合。为节点u所执行行为的数量。最终的目标就是找到个数为k的初始关键节点集合，使得在整个网络中被成功影响的节点个数的期望值最大。

本发明提出一种考虑时延约束的社会网络初始关键节点选取方法，加入事件概率来描述影响力在相邻节点之间传播延迟的特性。该方法结合了见面概率，条件激活概率以及影响力随时间衰减的特性对节点之间的影响力进行评价，并将其优化应用在相邻节点之间的信用分配评估过程之中。结合网络结构和用户行为记录对信用分布和影响力的传播过程进行构建，生成传播增量路径，针对训练数据集中记录的每一种行为沿着传播增量路径逆向分配代表影响力大小的信用值，最后结合贪心思想递归选取边际收益最大的节点得到社会网络初始关键节点集合。图1为本发明提出的一种考虑时延约束的社会网络初始关键节点选取方法流程图，具体实施步骤如下：

P (\overset{&OverBar;}{A} | \overset{&OverBar;}{B}) = \frac{1 - m}{1 - m α},

计算似然函数：

L (m; α) = \frac{1 - m}{1 - m α} \cdot \frac{(1 - α) m}{1 - m α} = \frac{(1 - m) (1 - α) m}{{(1 - m α)}^{2}}

γ_{v_{i}, v_{j}} = \frac{b_{v_{i}, v_{j}}}{(1 + \exp (t_{v_{j}} (a) - t_{v_{i}} (a)))}

l e n g t h ({PIP}_{a}) = \underset{(v_{i}, v_{j}) &Element; P}{Σ} {\frac{2 - α - \sqrt{(2 - 2 α) (2 - α)}}{α}}

Γ_{v, u} (a) = \underset{w &Element; N_{i n} (u), l e n g t h ({PIP}_{a} (v, u)) \leq τ}{Σ} Γ_{v, w} (a) \cdot γ_{w, u} (a)

Γ_{S, u} (a) = \underset{w &Element; N_{i n} (u) \cap w &NotElement; S, l e n g t h ({PIP}_{a} (v, u)) \leq τ}{Σ} Γ_{S, w} (a) \cdot γ_{w, u} (a)

为了验证本发明的有效性和可靠性，下面对信用分布函数的单调性和子模特性进行理论推导和分析。

已知相邻节点之间的见面概率m≤1，分配给节点v_i让其影响相邻节点v_j的信用为其中a代表特定的行为，t_vi(a)和分别代表节点v_i和节点v_j执行行为a的时刻。根据信用分布函数的计算公式，假设存在初始关键节点集合S和节点集合T，满足虽然时延约束条件τ将信用分布限制在一定范围之内，但是明显有σ_CDTC(S)<σ_CDTC(T)，即信用分布函数σ_CDTC(S)为单调递增函数。

因为在本发明中使用信用分配过程结束后积累在节点的信用值来表现不同节点的影响力大小，所以根据信用分布函数的计算公式，对于信用分布函数子模特性的证明转嫁为证明给予初始关键节点集合S让其影响节点w的总信用Γ_S,w是否具有相同的性质。假设Γ_S,w具有子模特性，当前信用分配的路径长度为η。加入时延约束条件τ，当η<τ并且η+1≤τ时，对于任意节点根据子模特性可以得出Γ_S+x,w(a；η)-Γ_S,w(a；η)≥Γ_T+x,w(a；η)-Γ_T,w(a；η)。当路径长度为η+1时，根据给予关键节点集合S让其影响节点u的总信用的计算公式推出

Γ_{S + x, w} (a; η + 1) - Γ_{S, w} (a; η + 1) = \underset{u &Element; N_{i n} (w)}{Σ} Γ_{S + x, u} (a; η) \cdot γ_{u, w} (a) - \underset{u &Element; N_{i n} (w)}{Σ} Γ_{S, u} (a; η) \cdot y_{u, w} (a),

其中以Γ_S+x,w(a；η+1)为例，表示在当前信用分配的路径长度为η+1的情况下，对于行为a，给予节点集合S+x，让其影响节点w的信用。进一步等式化简为

Γ_{S + x, w} (a; η + 1) - Γ_{S, w} (a; η + 1) = \underset{u &Element; N_{i n} (w)}{Σ} (Γ_{S + x, u} (a; η) - Γ_{S, u} (a; η)) \cdot γ_{u, w} (a),

根据子模特性，得到不等式Γ_S+x,w(a；η+1)-Γ_S,w(a；η+1)≥Γ_T+x,w(a；η+1)-Γ_T,w(a；η+1)，所以当η<τ且η+1≤τ时，信用分布函数具有子模特性。

当η≥τ时，因为信用的分配受到时延约束条件τ的限制，距离过长的节点不再被分配信用，即Γ_S,w(a；η+1)＝0，所以信用分布函数依然具有子模特性，这样也保证了本发明对于初始关键节点选取的有效性和可靠性。

实施例1：

在该实施例中，采用来自真实的照片分享网站Flickr的数据集，根据照片的来源共分为4个部分，选择其中之一作为实验对象，包含2602个节点和222292条边和24648张照片。因为信用分布服从时延约束和网络结构，所以对两个原始数据集进行处理，分别得到两个文件，其中图文件记录作者之间的关联关系，用户行为记录文件包含以时间顺序记录的用户行为，并且将用户行为记录分成两部分，分别作为测试集和训练集为记录。

由图2和图3可知，通过一种考虑时延约束的社会网络初始关键节点选取方法(CDTC)对于同等数量上的初始关键节点选取所需的运行时间低于其他传统方法对于初始关键节点选取所消耗的时间，从图中记录的运行时间分布可以看出，随着需要选取的初始关键节点数目的增加，运行时间的增长趋势是线性的，并且明显少于在独立级联模型(IC)和线性阈值模型(LT)上选取同等数量初始节点的执行时间。实验结果证明本发明方法在运行时间方面具有高效性和可扩展性。

由图4可知，随着初始集合节点的增加，本发明方法对于初始关键节点选取所消耗的内存空间低于传统信用分布模型上对同等数量的初始关键节点的选取工作，这是因为加入传播增量路径和时延约束条件后对信用分配的限制和简化作用，相比之下，本发明方法在选取同等数量初始节点的情况下内存空间消耗要低于独立级联模型(IC)和线性阈值模型(LT)的，这种优势随着初始节点选取的增多而更加明显。实验结果表明，对于影响力最大化初始节点选取的工作，本发明方法无论是在时间运行方面还是在内存空间消耗方面均表现出更高的优势和效率。

由图5和图6可知，一种考虑时延约束的社会网络初始关键节点选取方法(CDTC)在影响力传播方面虽然略低与传统模型，但因为其值更接近真实值，所以本发明方法具有更强影响力描述和传播能力。相比于独立级联模型(IC)和线性阈值模型(LT)，本发明方法的另一个优势在于它是对用户真实的行为记录进行学习，并结合事件概率和影响力随时间的衰减特性而不是仅仅依据网络结构对用户影响力进行评价，所以能够更加真实地反映用户行为和用户的影响力，具有更高的真实性和可靠性。

对比使用本发明方法(CDTC)和传统信用分布两种方法针对测试集中记录的行为进行影响力传播预测，测试集包含全部1816种行为，实验结束后按照真实的影响力传播结果对不同的行为进行排序，并将实验预测结果与真实值进行对比。如图7所示，本发明方法和传统方法对测试集行为样本的影响力传播预测结果均低于真实的影响力传播值，但是从对比结果可以看出，相比于传统方法，本发明方法对用户行为预测效果有一定程度的优化和提升，并具有更高的影响力预测精确度。

从以上实验可知，本发明方法无论从运行时间还是内存空间消耗方面均表现出高效的特性，通过学习真实行为传播记录，能够更加真实地反映用户行为和用户的影响力，除此之外，实验证明本发明方法对初始关键节点的选取具有更高的准确性和可靠性。

Claims

1.一种考虑时延约束的社会网络初始关键节点选取方法，其包括以下步骤：

步骤2：计算网络中相邻节点之间的综合激活概率，具体过程如下：设定事件A表示相邻节点之间的见面事件，概率为m，事件B表示见面成功条件下相邻节点之间激活成功的事件,概率为α；由贝叶斯定理可得条件概率即节点未被相邻且已处于激活状态的节点激活的条件下两节点未发生见面的概率，其中和分别为事件A的和事件B的对立事件；令事件C表示节点发生见面但并未被相邻节点激活的事件，综合考虑条件概率以及条件概率计算似然函数：

L (m; α) = \frac{1 - m}{1 - m α} \cdot \frac{(1 - α) m}{1 - m α} = \frac{(1 - m) (1 - α) m}{{(1 - m α)}^{2}}

取对数似然函数，并取关于参数α的梯度，令梯度等于0，得到m与α之间的关系为假设图中存在一条行为传播路径P＝{v₁,v₂,v₃,...,v_n}，其中相邻节点之间的边(v_i,v_j)∈P，则节点v_i对节点v_j的综合激活概率

γ_{v_{i}, v_{j}} = \frac{b_{v_{i}, v_{j}}}{(1 + \exp (t_{v_{j}} (a) - t_{v_{i}} (a)))}

其中a代表特定的行为，和分别代表节点v_i和节点v_j执行行为a的时刻；当两者的之间的时间跨度越大时，表明分配的信用值越小，v_i对v_j的影响力也就越弱；

步骤4：通过遍历用户行为记录L，针对不同的行为，将节点之间反复见面并尝试激活对行为传播的时间阻碍作用转嫁为传播增量路径长度的计算；其计算过程如下：已知相邻两个节点之间见面并尝试激活的工作是独立重复的伯努利试验，则节点v_j被节点v_i首次成功激活之前节点v_i一共尝试见面并激活节点v_j的试验次数服从几何分布，用随机变量根据几何分布的期望和方差得到随机变量X_vi,vj的估计量为

X_{v_{i}, v_{j}} = \frac{1}{b_{v i, v j}} - \frac{\sqrt{1 - b_{v i, v j}}}{b_{v i, v j}} = \frac{2 - α - \sqrt{(2 - 2 α) (2 - α)}}{α},

则对于行为a的传播增量路径PIP_a的长度为：

l e n g t h ({PIP}_{a}) = \underset{(v_{i}, v_{j}) &Element; P}{Σ} {\frac{2 - α - \sqrt{(2 - 2 α) (2 - α)}}{α}}

Γ_{v, u} (a) = \underset{w &Element; N_{i n} (u), l e n g t h ({PIP}_{a} (v, u)) \leq τ}{Σ} Γ_{v, w} (a) \cdot γ_{w, u} (a)

Γ_{S, u} (a) = \underset{w &Element; N_{i n} (u) \cap w &NotElement; S, l e n g t h ({PIP}_{a} (v, u)) \leq τ}{Σ} Γ_{S, w} (a) \cdot γ_{w, u} (a)