CN106355506A

CN106355506A - 一种在线社会网络中影响力最大化初始节点选取方法

Info

Publication number: CN106355506A
Application number: CN201610671518.7A
Authority: CN
Inventors: 邓晓衡; 曹德娟; 潘琰; 桂劲松; 沈海澜
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-08-15
Filing date: 2016-08-15
Publication date: 2017-01-25
Anticipated expiration: 2036-08-15
Also published as: CN106355506B

Abstract

本发明公开了一种在线社会网络中影响力最大化初始节点选取方法，根据用户的行为日志，得到用户对于他的邻居用户基于行为时间延迟的直接影响力；结合社会网络中所有异构节点的点特征和不同个体之间的边特征，构建用户节点特征向量并计算向量之间的相似度，以此作为社会网络中用户节点之间的潜在影响力的评判依据。最后求解最大边际收益节点作为影响力最大化初始关键节点。本发明综合考虑用户行为记录和社会网络复杂的异构节点的关联关系，能有效地选取影响力最大化初始关键节点，并更加真实地反映影响力传播效果。

Description

一种在线社会网络中影响力最大化初始节点选取方法

技术领域

本发明属于计算机技术领域，涉及一种在线社会网络中影响力最大化初始节点选取方法。

背景技术

随着在线社会网络的发展，如Google+,Facebook等在线社交平台已成为信息传播的重要渠道。正如信息在网络节点中的传播过程一样，影响力借助“口碑效应”和“病毒式营销”方式级联性地在网络中扩散开来。如何最大限度地利用在线社会网络信息传播的特性，并发掘个人所蕴含的潜在影响力大小，成为许多亟待解决的问题之一，因此，影响力最大化问题的研究具有至关重要的意义，如何找到初始用户群体使得信息最终的影响传播范围最大已成为热点研究领域之一。

影响力最大化就是寻找网络中最具影响力的初始关键节点，使得信息最终的传播范围最广。在现实社会网络中，影响力传播与话题、用户标签、用户网络结构、用户行为偏好息息相关。当前大多数工作是对基于IC模型(独立级联模型)和LT模型(线性阈值模型)的启发策略进行改进或是结合网络结构提高算法的执行效率，并没有考虑社会网络中异构节点之间的复杂影响作用。在影响力传播时，节点对于信息的偏好程度，以及拥有共同标签和朋友的用户对于他们之间影响力的提升作用很少被研究并作为初始节点的评判依据。

因此，有必要提供一种更为完善的在线社会网络中影响力最大化初始节点选取方法。

发明内容

本发明所解决的技术问题是，针对现有技术的不足，提出一种在线社会网络中影响力最大化初始节点选取方法，基于在线社会网络用户行为记录和异构节点关联关系，求解最大边际收益节点作为影响力最大化初始节点，结果更加准确和可靠。

本发明的技术方案为：

一种在线社会网络中影响力最大化初始节点选取方法，包括以下步骤：

步骤1：对在线社会网络的数据集进行处理，得到真实的用户执行行为记录得到真实的用户执行行为记录和在线社会网络的拓扑结构图G(V,E)；其中，V表示在线社会网络中的节点集合，包括用户节点和消息节点；E代表在线社会网络中的边集合；

计算考虑时间延迟后用户节点u对v的直接影响力D_Inf(u,v)；

步骤2：基于用户节点的标签属性，推测拥有相同标签的用户节点节点会互相影响，计算基于标签的用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v)；

步骤3：基于用户节点的共同邻居节点属性，推测影响力通过节点的邻居节点进行传播扩散，计算基于共同邻居节点的用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v)：

步骤4：将Tag_Inf(u,v)和N_Inf(u,v)加权计算得到用户节点u和v之间基于用户节点属性的潜在影响力Attr_Pot_Inf(u,v)；

步骤5：根据用户节点对于消息执行的行为，并由消息的话题关键字得到消息的内容相似度，计算用户节点u和v之间的基于行为的潜在影响力Act_Pot_Inf(u,v)；

步骤6：将Attr_Pot_Inf(u,v)和Act_Pot_Inf(u,v)加权计算得到用户节点u和v之间的潜在影响力Pot_Inf(u,v)；

步骤7：将D_Inf(u,v)与Pot_Inf(u,v)加权计算得到u对v的综合影响力Comp_Inf(u,v)；

步骤8：根据步骤7计算结果，得到在线社会网络中综合影响力传播路径，计算用户节点u对v的传播综合影响力总和φ_u,v(v)；

步骤9：定义节点u边际收益为σ_{Marginal_Revenue}(u)，计算公式如下：

σ_{M \arg i n a l_Re v e n u e} (u) = (1 - \underset{s &Element; S}{Σ} φ_{s, u} (u)) \cdot \underset{v &Element; (A - S)}{Σ} φ_{u, v} (v)

其中，s为初始节点集合S中的节点，φ_s,u(u)代表节点s对节点u的传播综合影响力，A代表在线社会网络中所有用户节点的集合；初始节点集合的初始值为

由上述公式计算在线社会网络中所有用户节点的边际收益，并将计算得到的边际收益从大到小进行排序，选取排序后的前10k个用户节点插入到队列Q中，从队列Q中选出边际收益最大的用户节点插入初始节点集合S中；

步骤10：判断初始节点集合中元素的个数|S|是否已经达到要求的个数k，如果未达到，返回步骤9，重新计算并更新队列Q中剩余节点的边际收益，然后重新排序，选出边际收益最大的用户节点插入初始节点集合S中；如果已经达到，则得到影响力最大化初始节点集合S。

以下对上述各个步骤进行进一步具体说明。

所述步骤1中，考虑时间延迟后用户节点u对v的直接影响力D_Inf(u,v)的计算方法为：

设V中存在两个用户节点u和v，若v对与u相关的消息执行过行为，则u和v之间存在直接影响力，u和v之间存在一条连边，u和v称为相邻节点；其中执行过行为指进行过发布、点赞、评论或转发行为；与u相关的消息是指u发布、点赞、评论或转发的消息；

给定两个相邻节点u和v，定义u对v的影响力Inf(u,v)计算公式如下：

I n f (u, v) = \frac{| M (u) \cap M (v) |}{| M (u) |}

考虑用户执行行为的时间延迟对影响力的衰减效应，定义考虑时间延迟后u对v的直接影响力D_Inf(u,v)计算公式如下：

D_I n f (u, v) = I n f (u, v) \cdot e^{- \frac{t - T}{T}}

其中，t表示v对与u相关的消息执行行为的平均时间延迟，T表示v对与其所有邻居节点相关的消息执行行为的平均时间延迟。

所述步骤2中，基于标签的用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v)的计算方法为：

将所有用户节点的标签汇总构建一个标签词袋(Tags Bag)，标签词袋中所有标签的个数记为N；依据用户节点的标签构建用户节点的标签特征向量，标签特征向量的维度就是标签词袋中所有标签的个数N，每一维代表标签词袋(Tags Bag)中的一个标签；初始化标签特征向量的每一维的元素值都为0；用户节点u的标签特征向量记为ξ_{u_tags}＝(ξ_{u_tag1},ξ_{u_tag2},…,ξ_{u_tagi},…,ξ_{u_tagN})；

对于任意一个用户节点u和其对应的标签集合，计算标签集合中每个标签tag_i对应于u的标签特征值TF-IDF(Tag_i,u)，公式如下：

T F - I D F ({Tag}_{i, u}) = \frac{n {(t a g)}_{i, u}}{\underset{k}{Σ} n {(t a g)}_{k, u}} \cdot l o g \frac{| U |}{| {{tag}_{i} &Element; u} |}

其中n(tag)_i,u表示标签tag_i在用户节点u的所有标签中出现的次数，表示用户节点u的所有标签总数，|U|表示在线社会网络中所有用户节点个数，|{tag_i∈u}|表示在线社会网络中拥有标签tag_i的用户节点个数；

根据用户节点u对应的标签集合中每个标签tag_i对应于u的标签特征值TF-IDF(Tag_i,u)，更新u的标签特征向量ξ_{u_tags}中相应维的元素值ξ_{u_tagi}，得到更新后的ξ_{u_tags}；

对于G(V,E)中的任意两个用户节点u和v，根据它们相应的标签特征向量ξ_{u_tags}和ξ_{v_tags}的余弦相似度，计算两个用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v)：

Tag_Inf(u,v)＝cos(ξ_{u_tags},ξ_{v_tags})。

所述步骤3中，基于共同邻居节点的用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v)的计算方法为：

对于G(V,E)中任意一个用户节点，依据邻居节点构建用户的邻居节点特征向量，维度为在线社会网络中的用户节点个数|U|，初始化邻居节点特征向量的每一维的元素值均为0；用户节点u的邻居节点特征向量记为ξ_{u_neighbors}＝(ξ_{u_neighbor1},ξ_{u_neighbor2},…,ξ_{u_neighbori},…,ξ_{u_neighbor|U|})；

对于用户节点u和其对应的邻居节点集合，计算邻居节点集合每个邻居节点neighbor_i对于u的邻居节点特征值TF-IDF(Neighbor_i,u)，公式如下：

T F - I D F ({Neighbor}_{i, u}) = \frac{n {(n e i g h b o r)}_{i, u}}{\underset{k}{Σ} n {(n e i g h b o r)}_{k, u}} \cdot l o g \frac{| U |}{| {{neighbor}_{i} &Element; u} |}

其中n(neighbor)_i,u表示邻居节点neighbor_i在u的所有邻居中出现的次数(取值为1)，表示u的所有邻居节点个数，|{neighbor_i∈u}|表示在线社会网络中拥有邻居节点neighbor_i的用户节点个数；

根据每个邻居节点neighbor_i对于u的邻居节点特征值TF-IDF(Neighbor_i,u)，更新u的邻居节点特征向量ξ_{u_neighbors}中相应维的元素值ξ_{u_neighbori}，得到更新后的ξ_{u_neighbors}；

对于G(V,E)中的任意两个用户节点u和v，根据它们相应的邻居节点特征向量ξ_{u_neighbors}和ξ_{v_neighbors}的余弦相似度，计算两个用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v)：

N_Inf(u,v)＝cos(ξ_{u_neighbors},ξ_{v_neighbors})。

所述步骤4中，用户节点u和v之间基于用户节点属性的潜在影响力Attr_Pot_Inf(u,v)的计算方法为：

将用户节点u和v之间基于标签的用户之间潜在影响力和基于共同邻居节点的用户之间潜在影响力加权之和定义为u和v之间基于用户属性的潜在影响力Attr_Pot_Inf(u,v)，计算公式如下：

Attr_Pot_Inf(u,v)＝α·Tag_Inf(u,v)+(1-α)·N_Inf(u,v)

其中0<α<1。

所述步骤5中，用户节点u和v之间的基于行为的潜在影响力Act_Pot_Inf(u,v)的计算方法为：

在G(V,E)中，用户节点u和消息节点m是异构的关系，根据用户节点u对于消息节点m执行的行为【包括发布、接收的点赞、评论和转发行为】，挖掘异构节点构成的边<用户-消息>、<消息-用户>的特征，并且挖掘消息节点之间构成的边<消息-消息>的特征，根据消息的话题关键字得到消息的内容相似度，以此为依据计算两个用户之间的基于行为的潜在影响力，具体步骤如下：

步骤5.1：挖掘异构节点构成的边<用户-消息>、<消息-用户>的特征：

对于特定用户节点u，针对其发布的消息m，计算接收到其他用户点赞、评论和转发行为次数分别为a₁、a₂和a₃，构建行为次数特征向量ξ_action＝{a₁,a₂,a₃}，设置相应的权重向量为ω＝{m₁,m₂,m₃}，其中m₁,m₂,m₃∈(0,1)；计算用户节点u对于其发布的消息m产生的影响力UM_Inf(u,m)，公式为：

U M_I n f (u, m) = \frac{1}{1 + e^{- (ξ_{a c t i o n} \cdot ω)}}

同理，消息m对于它的发布者u传递作用产生的影响力MU_Inf(m,u)等价于用户u对于其发布的消息m产生的影响力UM_Inf(u,m)，即MU_Inf(m,u)＝UM_Inf(u,m)。

步骤5.2：挖掘消息节点m构成的边<消息-消息>的特征，根据消息的话题关键字得到消息的内容相似度，步骤可分为：提取每条消息的话题关键字，将所有消息的话题关键字汇总，构建话题关键字词袋，话题关键字词袋中话题关键字总数记为M；针对每条消息构建话题关键字特征向量，话题关键字特征向量的维度就是话题关键字词袋中话题关键字总数M，初始化话题关键字特征向量的每一维的元素值均为0；消息节点m的话题关键字特征向量记为ξ_{m_topics}＝(ξ_{m_topic1},ξ_{m_topic2},…,ξ_{m_topici},…,ξ_{m_topicM})；

对于消息节点m和其对应的话题关键字集合，计算话题关键字集合中每个话题关键字topic_i对于消息节点m的话题关键字特征值TF-IDF(topic_i,m)，计算如下：

T F - I D F ({topic}_{i, m}) = \frac{n {(t o p i c)}_{i, m}}{\underset{k}{Σ} n {(t o p i c)}_{k, m}} \cdot l o g \frac{| M |}{| {{topic}_{i} &Element; m} |}

其中n(topic)_i,m表示话题关键字topic_i在消息节点m的所有话题关键字中出现的次数，表示消息节点m的所有话题关键字出现的次数总和，|M|表示在线社会网络中的消息节点个数，|{topic_i∈m}|表示拥有话题关键字topic_i的消息节点个数；

根据每个话题关键字topic_i对于消息节点m的话题关键字特征值TF-IDF(topic_i,m)，更新消息节点m的话题关键字特征向量ξ_{m_topics}中相应维的元素值ξ_{m_topici}，得到更新后的ξ_{m_topics}；

对于G(V,E)中的任意两个消息节点m和n，根据它们相应的话题特征向量ξ_{m_topics}和ξ_{n_topics}的余弦相似度，计算两个消息节点m和n的内容相似度：

Sim(m,n)＝cos(ξ_{m_topics},ξ_{n_topics})；

步骤5.3：对于给定用户u和v，根据u和v发布的消息的相似度，通过以下公式来计算基于用户行为的用户之间的潜在影响力Act_Pot_Inf(u,v)：

A c t_P o t_I n f (u, v) = \underset{m &Element; M^{'} (u), n &Element; M^{'} (v)}{Σ} U M_I n f (u, m) \cdot S i m (m, n) \cdot M U_I n f (n, v);

其中，M′(u)表示u发布过的消息集合，M′(v)表示用户v发布过的消息集合。

所述步骤6中，用户节点u和v之间的潜在影响力Pot_Inf(u,v)的计算方法为：

根据两个用户之间基于用户属性的潜在影响力和基于行为的潜在影响力，由以下公式计算用户u和用户v之间的潜在影响力Pot_Inf(u,v)：

Pot_Inf(u,v)＝λ·Attr_Pot_Inf(u,v)+(1-λ)·Act_Pot_Inf(u,v)

其中λ∈(0,1)。

所述步骤7中，u对v的综合影响力Comp_Inf(u,v)的计算方法为：

对于G(V,E)中任意两个用户节点u和v，对考虑时间延迟后用户节点u对v的直接影响力和用户u和用户v之间的潜在影响力进行综合，得到u对v的综合影响力Comp_Inf(u,v)：

Comp_Inf(u,v)＝D_Inf(u,v)+Pot_Inf(u,v)；

所述步骤8中，用户节点u对v的传播综合影响力总和φ_u,v(v)的计算方法为：

根据步骤7计算结果，得到在线社会网络中综合影响力传播路径，对于用户节点u和用户节点v，使用φ_u,v(v)表示用户节点u对用户节点v的传播综合影响力总和φ_u,v(v)，其计算公式如下：

φ_{u, v} (v) = \{\begin{matrix} 0 & i f & X \\ C o m p_I n f (u, v) & i f & Y \\ \underset{w &Element; I (v)}{Σ} φ_{u, w} (w) \cdot C o m p_I n f (w, v) & i f & Z \end{matrix}

其中，条件X表示u对v没有综合影响力传播路径，则φ_u,v(v)＝0；

条件Y表示u对v的综合影响力传播路径只存在一条一跳路径u→v，则φ_u,v(v)＝Comp_Inf(u,v)；

条件Z表示u对v的综合影响力传播路径存在多条，其中φ_u,w(w)表示用户节点u对用户节点w的传播综合影响力总和；I(v)表示在线社会网络中对v的综合影响力传播路径存在一条一跳路径的用户节点集合{w₁,w₂,...,w_n}。

上述公式推导过程为：遍历用户节点u对用户节点v的综合影响力传播路径，若u对v的综合影响力传播路径只存在一条一跳路径：u→v，则φ_u,v(v)＝φ_u,u(u)·Comp_Inf(u,v)＝Comp_Inf(u,v)，因为φ_u,u(u)＝1；若u对v的综合影响力传播路径只存在一条两跳路径：u→w→v，则φ_u,v(v)＝φ_u,w(w)·Comp_Inf(w,v)且φ_u,w(w)＝Comp_Inf(u,w)，因此φ_u,v(v)＝Comp_Inf(u,w)·Comp_Inf(w,v)；若u对v的综合影响力传播路径存在多条两跳路径：u→w₁→v,u→w₂→v,......,u→w_n→v，则且φ_u,w(v)＝Comp_Inf(u,w)；若u对v的综合影响力传播路径存在多条多跳路径：u→h₁→...→b₁→w₁→v,u→h₂→...→b₂→w₂→v,......,u→h_n→...→b_n→w_n→v，则其中I(v)表示在线社会网络中对用户节点v有综合影响力的节点的集合{w₁,w₂,...,w_n}，由此可知，u对v的传播综合影响力总和可以通过遍历综合影响力传播路径，递推计算，因此u对v的传播综合影响力总和可以总结归纳为

有益效果：

本发明提出了一种在线社会网络中影响力最大化初始节点选取方法。基于在线社会网络用户行为记录和异构节点关联关系，提出一种综合考虑节点之间直接和潜在影响力的影响力传播混合模型，命名为DPIS(Direct And Potential Influence Spread)模型。该模型大致分为两部分，第一阶段，根据用户的行为日志，得到用户对于他的邻居用户基于行为时间延迟的直接影响力。第二阶段，结合社会网络中所有异构节点的点特征和不同个体之间的边特征，构建用户节点特征向量并计算向量之间的相似度，以此作为社会网络中用户节点之间的潜在影响力的评判依据。最后结合贪心算法和DPIS模型提出了CIGA算法求解最大边际收益节点作为影响力最大化初始节点。实验在Hadoop、Spark分布式集群平台下，基于真实社会网络数据集，借助Mapreduce、Rdd计算框架进行建模。实验结果表明，结合分布式大数据平台的DPIS模型和CIGA算法对比于传统IC、LT和CD-NF模型上的方法，具有更好的影响力传播效果和更高的初始节点选取质量。

本发明构建了一种新的社会网络初始关键节点选取方法，在Hadoop和Spark分布式集群平台高效处理数据，综合考虑用户行为记录和社会网络复杂的异构节点的关联关系有效地选取影响力最大化初始关键节点，并更加真实地反映影响力传播效果。

附图说明

图1是本发明提出的一种基于用户行为和相似度的社会网络影响力最大化初始节点选取方法的流程图；

图2是实施例1中DPIS，CD-NF，IC和LT这4种不同的方法选取的初始关键节点的影响力传播效果对比图；

图3是实施例1中DPIS，CD-NF，IC和LT这4种不同的方法选取的初始关键节点所接收的其他节点的真实行为执行次数对比图；

图4是实施例1中只考虑直接影响力和考虑综合影响力选取的初始关键节点的影响力传播效果对比图；

图5是实施例1中只考虑直接影响力和考虑综合影响力选取的初始关键节点的所接收的其他节点的真实行为执行次数对比图；

图6是实施例1中DPIS，CD-NF，IC和LT这4种不同的方法选取的前10个初始关键节点所接受的其他节点真实的行为执行次数对比图。

具体实施方式

为了更加详细的描述本发明提出的一种基于用户行为和相似度的社会网络影响力最大化初始节点选取方法,下面结合附图和实例对本发明作进一步的说明。

本发明提出一种基于用户行为和相似度的社会网络影响力最大化初始关键节点选取方法。基于在线社会网络用户行为记录和异构节点关联关系，提出一种综合考虑节点之间直接和潜在影响力的影响力传播混合模型，命名为DPIS(Direct And PotentialInfluence Spread)模型。该模型大致分为两部分，第一阶段，根据用户的行为日志，得到用户对于他的邻居用户基于行为时间延迟的直接影响力。第二阶段，结合社会网络中所有异构节点的点特征和不同个体之间的边特征，构建用户节点特征向量并计算向量之间的相似度，以此作为社会网络中用户节点之间的潜在影响力的评判依据。最后结合贪心算法和DPIS模型提出了CIGA算法求解最大边际收益节点作为影响力最大化初始节点。图1为本发明提出的一种基于用户属性和相似度的社会网络影响力最大化初始关键节点选取方法流程图，具体实施步骤如下：

实施例1：

在该实施例中，使用来自SNAP中的Flickr图片媒体分享社交网络的原始数据集，原始数据集是Flickr社交网络的xml文件，提取关于用户行为记录和用户属性信息的关键字段，包括4546张照片，2662个照片发布者节点，40808个用户节点和618491条边。

本实施例在分布式Hadoop和Spark集群上实现，借助HDFS(分布式文件系统)作为数据存储层，借助Mapreduce和Rdd计算框架搭建计算编程模型作为数据计算层，高效快速并行处理数据，构建模型和算法求解影响力最大化初始节点，并设计不同的对比实验分析初始节点选取效果和质量，从而验证理论分析方法的正确性。

本实施例主要对基于直接和潜在影响力传播模型DPIS和CIGA算法进行设计，并且与传统IC模型(独立级联模型)、LT模型(线性阈值模型)和CD-NF模型(基于节点特性的信用分布模型)对比，IC模型中相邻点之间的边激活概率是通过EM算法(最大期望算法)学习而来，而LT模型相邻节点v和u的边激活概率pp(u，v)使用公式pp(u,v)＝1/N(u)进行计算，其中N(u)代表节点u的邻居节点个数。针对不同方法选取的初始节点，设计对比实验比较影响力传播效果，验证本发明的模型和算法对于影响力最大化初始节点选取的有效性。同时统计社会网络中节点接收的真实行为执行次数来对比基于综合影响力和直接影响力传播的初始节点选取结果，验证综合考虑直接和潜在影响力选取的初始节点相比于只考虑直接影响力选取的初始节点会产生更广的影响力传播范围。最后统计社会网络中四种模型前10个初始节点接收的真实行为执行次数，对比结果并验证本发明的方法相比于其他三种方法对于影响力初始节点选取方面具有更高的质量。

由图2可知，当初始节点个数为50时，DPIS、CD-NF、IC、LT四种方法求解的初始节点在社会网络中产生的影响力总和依次为1046、544、416、412。图3表示四种方法求解的初始节点真实影响效果，即在真实社交网站中接收到其他用户的行为执行次数，包括点赞、评论、转发等行为执行次数。由图2和3可知，DPIS不仅在影响力传播结果(影响力分布结果)明显高于其他三个方法，并且与真实用户接收的行为记录对比，DPIS求解的初始节点接收的其他节点行为执行次数总和也明显高于其它三种方法。相比于IC和LT模型，DPIS是根据社会网络真实用户行为记录和异构节点关联来分析挖掘影响力传播，而不仅仅是依据网络结构对用户影响力和影响力传播进行评判。而相比于CD-NF模型，DPIS综合考虑所有异构节点的点特征和异构节点构成的边特性，并且加入用户节点的标签属性，挖掘用户的潜在影响力，而CD-NF仅仅考虑用户节点的基于时间因素和行为的点特征，所以本发明的模型和算法更加全面地考虑影响力传播过程中各个因素，更加准确地反映影响力传播效果。

DPIS模型综合考虑了用户直接和潜在影响力。为了验证用户潜在影响力对于初始节点选取的效果提升，本实施例设计实验对比只考虑用户直接影响力和综合考虑直接和潜在影响力求解的初始节点结果。值得说明的是，在本实验中，步骤4中的α、步骤6中的λ的取值分别为0.5和0.67，由图4可知，当选取50个初始节点时，综合考虑直接和潜在影响力求解的初始节点影响力总和与只考虑直接影响力求解的初始节点影响力总和分别为1046和760，在真实社交网络集中接收的其他节点行为执行次数分别为11754和11381。由图5可知，综合考虑直接和潜在影响求解的初始节点接收到的行为执行次数总体上都高于只考虑直接影响力，因此表明潜在影响力能有效扩大影响力传播范围。

为了对比DPIS与其他三种方法求解的初始节点的质量，将DPIS、CD-NF、CD、LT四种方法求解的前10个初始节点接收的其他节点行为执行次数对比。由图6可知，基于DPIS模型求解的前10个初始节点接收到的其他节点的行为执行次数总体上都高于其他三个模型。同时，基于真实Flickr社会网络数据集，统计每个用户接收的其他用户执行行为的次数并按从大到小排序，由于我们的目标是对比用户影响力大小，将DPIS求解的前10个初始节点与用户实际接收行为执行次数逆序排序结果对比。DPIS求解的第一个初始节点为行为执行次数逆序排序结果的第一名，此节点接收到1314次其他节点行为，并且DPIS方法求解的初始节点接收的行为执行次数大体上都很高，在用户接收行为执行次数逆序排序结果中排名很靠前，由此表明本发明的模型和算法能有效地挖掘网络中的能引起其他节点关注并执行行为的节点，从而保证了初始节点的选取质量。

从以上实验可知，本发明方法基于用户行为记录和用户复杂的关联关系，综合考虑用户的直接影响力和潜在影响力来挖掘影响力最大化初始节点，能够更加真实地反映用户行为和用户的影响力，实验表明本发明方法在初始节点选取质量和影响力传播评估效果方面具有准确性和可靠性。

Claims

1.一种在线社会网络中影响力最大化初始节点选取方法，其特征在于，包括以下步骤：

计算考虑时间延迟后用户节点u对v的直接影响力D_Inf(u,v)；

步骤2：基于用户节点的标签属性，计算基于标签的用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v)；

步骤3：基于用户节点的共同邻居节点属性，计算基于共同邻居节点的用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v)：

2.根据权利要求1所述的在线社会网络中影响力最大化初始节点选取方法，其特征在于，所述步骤1中，考虑时间延迟后用户节点u对v的直接影响力D_Inf(u,v)的计算方法为：

定义考虑时间延迟后u对v的直接影响力D_Inf(u,v)计算公式如下：

3.根据权利要求2所述的在线社会网络中影响力最大化初始节点选取方法，其特征在于，所述步骤2中，基于标签的用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v)的计算方法为：

将所有用户节点的标签汇总构建一个标签词袋，标签词袋中所有标签的个数记为N；依据用户节点的标签构建用户节点的标签特征向量，标签特征向量的维度就是标签词袋中所有标签的个数N，每一维代表标签词袋中的一个标签；初始化标签特征向量的每一维的元素值都为0；用户节点u的标签特征向量记为ξ_{u_tags}＝(ξ_{u_tag1},ξ_{u_tag2},…,ξ_{u_tagi},…,ξ_{u_tagN})；

Tag_Inf(u,v)＝cos(ξ_{u_tags},ξ_{v_tags})。

4.根据权利要求3所述的在线社会网络中影响力最大化初始节点选取方法，其特征在于，所述步骤3中，基于共同邻居节点的用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v)的计算方法为：

N_Inf(u,v)＝cos(ξ_{u_neighbors},ξ_{v_neighbors})。

5.根据权利要求4所述的在线社会网络中影响力最大化初始节点选取方法，其特征在于，所述步骤4中，用户节点u和v之间基于用户节点属性的潜在影响力Attr_Pot_Inf(u,v)的计算方法为：

Attr_Pot_Inf(u,v)＝α·Tag_Inf(u,v)+(1-α)·N_Inf(u,v)

其中0<α<1。

6.根据权利要求5所述的在线社会网络中影响力最大化初始节点选取方法，其特征在于，所述步骤5中，用户节点u和v之间的基于行为的潜在影响力Act_Pot_Inf(u,v)的计算方法为：

步骤5.2：挖掘消息节点m构成的边<消息-消息>的特征，根据消息的话题关键字得到消息的内容相似度，步骤具体为：

提取每条消息的话题关键字，将所有消息的话题关键字汇总，构建话题关键字词袋，话题关键字词袋中话题关键字总数记为M；针对每条消息构建话题关键字特征向量，话题关键字特征向量的维度就是话题关键字词袋中话题关键字总数M，初始化话题关键字特征向量的每一维的元素值均为0；消息节点m的话题关键字特征向量记为ξ_{m_topics}＝(ξ_{m_topic1},ξ_{m_topic2},…,ξ_{m_topici},…,ξ_{m_topicM})；

Sim(m,n)＝cos(ξ_{m_topics},ξ_{n_topics})；

7.根据权利要求6所述的在线社会网络中影响力最大化初始节点选取方法，其特征在于，所述步骤6中，用户节点u和v之间的潜在影响力Pot_Inf(u,v)的计算方法为：

Pot_Inf(u,v)＝λ·Attr_Pot_Inf(u,v)+(1-λ)·Act_Pot_Inf(u,v)

其中λ∈(0,1)。

8.根据权利要求7所述的在线社会网络中影响力最大化初始节点选取方法，其特征在于，所述步骤7中，u对v的综合影响力Comp_Inf(u,v)的计算方法为：

Comp_Inf(u,v)＝D_Inf(u,v)+Pot_Inf(u,v)。

9.根据权利要求8所述的在线社会网络中影响力最大化初始节点选取方法，其特征在于，所述步骤8中，用户节点u对v的传播综合影响力总和φ_u,v(v)的计算方法为：