CN106355506A - 一种在线社会网络中影响力最大化初始节点选取方法 - Google Patents

一种在线社会网络中影响力最大化初始节点选取方法 Download PDF

Info

Publication number
CN106355506A
CN106355506A CN201610671518.7A CN201610671518A CN106355506A CN 106355506 A CN106355506 A CN 106355506A CN 201610671518 A CN201610671518 A CN 201610671518A CN 106355506 A CN106355506 A CN 106355506A
Authority
CN
China
Prior art keywords
node
user
inf
influence
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610671518.7A
Other languages
English (en)
Other versions
CN106355506B (zh
Inventor
邓晓衡
曹德娟
潘琰
桂劲松
沈海澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201610671518.7A priority Critical patent/CN106355506B/zh
Publication of CN106355506A publication Critical patent/CN106355506A/zh
Application granted granted Critical
Publication of CN106355506B publication Critical patent/CN106355506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种在线社会网络中影响力最大化初始节点选取方法,根据用户的行为日志,得到用户对于他的邻居用户基于行为时间延迟的直接影响力;结合社会网络中所有异构节点的点特征和不同个体之间的边特征,构建用户节点特征向量并计算向量之间的相似度,以此作为社会网络中用户节点之间的潜在影响力的评判依据。最后求解最大边际收益节点作为影响力最大化初始关键节点。本发明综合考虑用户行为记录和社会网络复杂的异构节点的关联关系,能有效地选取影响力最大化初始关键节点,并更加真实地反映影响力传播效果。

Description

一种在线社会网络中影响力最大化初始节点选取方法
技术领域
本发明属于计算机技术领域,涉及一种在线社会网络中影响力最大化初始节点选取方法。
背景技术
随着在线社会网络的发展,如Google+,Facebook等在线社交平台已成为信息传播的重要渠道。正如信息在网络节点中的传播过程一样,影响力借助“口碑效应”和“病毒式营销”方式级联性地在网络中扩散开来。如何最大限度地利用在线社会网络信息传播的特性,并发掘个人所蕴含的潜在影响力大小,成为许多亟待解决的问题之一,因此,影响力最大化问题的研究具有至关重要的意义,如何找到初始用户群体使得信息最终的影响传播范围最大已成为热点研究领域之一。
影响力最大化就是寻找网络中最具影响力的初始关键节点,使得信息最终的传播范围最广。在现实社会网络中,影响力传播与话题、用户标签、用户网络结构、用户行为偏好息息相关。当前大多数工作是对基于IC模型(独立级联模型)和LT模型(线性阈值模型)的启发策略进行改进或是结合网络结构提高算法的执行效率,并没有考虑社会网络中异构节点之间的复杂影响作用。在影响力传播时,节点对于信息的偏好程度,以及拥有共同标签和朋友的用户对于他们之间影响力的提升作用很少被研究并作为初始节点的评判依据。
因此,有必要提供一种更为完善的在线社会网络中影响力最大化初始节点选取方法。
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提出一种在线社会网络中影响力最大化初始节点选取方法,基于在线社会网络用户行为记录和异构节点关联关系,求解最大边际收益节点作为影响力最大化初始节点,结果更加准确和可靠。
本发明的技术方案为:
一种在线社会网络中影响力最大化初始节点选取方法,包括以下步骤:
步骤1:对在线社会网络的数据集进行处理,得到真实的用户执行行为记录得到真实的用户执行行为记录和在线社会网络的拓扑结构图G(V,E);其中,V表示在线社会网络中的节点集合,包括用户节点和消息节点;E代表在线社会网络中的边集合;
计算考虑时间延迟后用户节点u对v的直接影响力D_Inf(u,v);
步骤2:基于用户节点的标签属性,推测拥有相同标签的用户节点节点会互相影响,计算基于标签的用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v);
步骤3:基于用户节点的共同邻居节点属性,推测影响力通过节点的邻居节点进行传播扩散,计算基于共同邻居节点的用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v):
步骤4:将Tag_Inf(u,v)和N_Inf(u,v)加权计算得到用户节点u和v之间基于用户节点属性的潜在影响力Attr_Pot_Inf(u,v);
步骤5:根据用户节点对于消息执行的行为,并由消息的话题关键字得到消息的内容相似度,计算用户节点u和v之间的基于行为的潜在影响力Act_Pot_Inf(u,v);
步骤6:将Attr_Pot_Inf(u,v)和Act_Pot_Inf(u,v)加权计算得到用户节点u和v之间的潜在影响力Pot_Inf(u,v);
步骤7:将D_Inf(u,v)与Pot_Inf(u,v)加权计算得到u对v的综合影响力Comp_Inf(u,v);
步骤8:根据步骤7计算结果,得到在线社会网络中综合影响力传播路径,计算用户节点u对v的传播综合影响力总和φu,v(v);
步骤9:定义节点u边际收益为σMarginal_Revenue(u),计算公式如下:
σ M arg i n a l _ Re v e n u e ( u ) = ( 1 - Σ s ∈ S φ s , u ( u ) ) · Σ v ∈ ( A - S ) φ u , v ( v )
其中,s为初始节点集合S中的节点,φs,u(u)代表节点s对节点u的传播综合影响力,A代表在线社会网络中所有用户节点的集合;初始节点集合的初始值为
由上述公式计算在线社会网络中所有用户节点的边际收益,并将计算得到的边际收益从大到小进行排序,选取排序后的前10k个用户节点插入到队列Q中,从队列Q中选出边际收益最大的用户节点插入初始节点集合S中;
步骤10:判断初始节点集合中元素的个数|S|是否已经达到要求的个数k,如果未达到,返回步骤9,重新计算并更新队列Q中剩余节点的边际收益,然后重新排序,选出边际收益最大的用户节点插入初始节点集合S中;如果已经达到,则得到影响力最大化初始节点集合S。
以下对上述各个步骤进行进一步具体说明。
所述步骤1中,考虑时间延迟后用户节点u对v的直接影响力D_Inf(u,v)的计算方法为:
设V中存在两个用户节点u和v,若v对与u相关的消息执行过行为,则u和v之间存在直接影响力,u和v之间存在一条连边,u和v称为相邻节点;其中执行过行为指进行过发布、点赞、评论或转发行为;与u相关的消息是指u发布、点赞、评论或转发的消息;
给定两个相邻节点u和v,定义u对v的影响力Inf(u,v)计算公式如下:
I n f ( u , v ) = | M ( u ) ∩ M ( v ) | | M ( u ) |
其中,M(u)表示u执行过行为的消息集合,|M(u)|代表u执行过行为的消息条数;M(v)表示用户v执行过行为的消息集合,|M(v)|代表v执行过行为的消息条数;|M(u)∩M(v)|表示u和v共同执行过行为的消息条数;
考虑用户执行行为的时间延迟对影响力的衰减效应,定义考虑时间延迟后u对v的直接影响力D_Inf(u,v)计算公式如下:
D _ I n f ( u , v ) = I n f ( u , v ) · e - t - T T
其中,t表示v对与u相关的消息执行行为的平均时间延迟,T表示v对与其所有邻居节点相关的消息执行行为的平均时间延迟。
所述步骤2中,基于标签的用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v)的计算方法为:
将所有用户节点的标签汇总构建一个标签词袋(Tags Bag),标签词袋中所有标签的个数记为N;依据用户节点的标签构建用户节点的标签特征向量,标签特征向量的维度就是标签词袋中所有标签的个数N,每一维代表标签词袋(Tags Bag)中的一个标签;初始化标签特征向量的每一维的元素值都为0;用户节点u的标签特征向量记为ξu_tags=(ξu_tag1u_tag2,…,ξu_tagi,…,ξu_tagN);
对于任意一个用户节点u和其对应的标签集合,计算标签集合中每个标签tagi对应于u的标签特征值TF-IDF(Tagi,u),公式如下:
T F - I D F ( Tag i , u ) = n ( t a g ) i , u Σ k n ( t a g ) k , u · l o g | U | | { tag i ∈ u } |
其中n(tag)i,u表示标签tagi在用户节点u的所有标签中出现的次数,表示用户节点u的所有标签总数,|U|表示在线社会网络中所有用户节点个数,|{tagi∈u}|表示在线社会网络中拥有标签tagi的用户节点个数;
根据用户节点u对应的标签集合中每个标签tagi对应于u的标签特征值TF-IDF(Tagi,u),更新u的标签特征向量ξu_tags中相应维的元素值ξu_tagi,得到更新后的ξu_tags
对于G(V,E)中的任意两个用户节点u和v,根据它们相应的标签特征向量ξu_tags和ξv_tags的余弦相似度,计算两个用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v):
Tag_Inf(u,v)=cos(ξu_tagsv_tags)。
所述步骤3中,基于共同邻居节点的用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v)的计算方法为:
对于G(V,E)中任意一个用户节点,依据邻居节点构建用户的邻居节点特征向量,维度为在线社会网络中的用户节点个数|U|,初始化邻居节点特征向量的每一维的元素值均为0;用户节点u的邻居节点特征向量记为ξu_neighbors=(ξu_neighbor1u_neighbor2,…,ξu_neighbori,…,ξu_neighbor|U|);
对于用户节点u和其对应的邻居节点集合,计算邻居节点集合每个邻居节点neighbori对于u的邻居节点特征值TF-IDF(Neighbori,u),公式如下:
T F - I D F ( Neighbor i , u ) = n ( n e i g h b o r ) i , u Σ k n ( n e i g h b o r ) k , u · l o g | U | | { neighbor i ∈ u } |
其中n(neighbor)i,u表示邻居节点neighbori在u的所有邻居中出现的次数(取值为1),表示u的所有邻居节点个数,|{neighbori∈u}|表示在线社会网络中拥有邻居节点neighbori的用户节点个数;
根据每个邻居节点neighbori对于u的邻居节点特征值TF-IDF(Neighbori,u),更新u的邻居节点特征向量ξu_neighbors中相应维的元素值ξu_neighbori,得到更新后的ξu_neighbors
对于G(V,E)中的任意两个用户节点u和v,根据它们相应的邻居节点特征向量ξu_neighbors和ξv_neighbors的余弦相似度,计算两个用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v):
N_Inf(u,v)=cos(ξu_neighborsv_neighbors)。
所述步骤4中,用户节点u和v之间基于用户节点属性的潜在影响力Attr_Pot_Inf(u,v)的计算方法为:
将用户节点u和v之间基于标签的用户之间潜在影响力和基于共同邻居节点的用户之间潜在影响力加权之和定义为u和v之间基于用户属性的潜在影响力Attr_Pot_Inf(u,v),计算公式如下:
Attr_Pot_Inf(u,v)=α·Tag_Inf(u,v)+(1-α)·N_Inf(u,v)
其中0<α<1。
所述步骤5中,用户节点u和v之间的基于行为的潜在影响力Act_Pot_Inf(u,v)的计算方法为:
在G(V,E)中,用户节点u和消息节点m是异构的关系,根据用户节点u对于消息节点m执行的行为【包括发布、接收的点赞、评论和转发行为】,挖掘异构节点构成的边<用户-消息>、<消息-用户>的特征,并且挖掘消息节点之间构成的边<消息-消息>的特征,根据消息的话题关键字得到消息的内容相似度,以此为依据计算两个用户之间的基于行为的潜在影响力,具体步骤如下:
步骤5.1:挖掘异构节点构成的边<用户-消息>、<消息-用户>的特征:
对于特定用户节点u,针对其发布的消息m,计算接收到其他用户点赞、评论和转发行为次数分别为a1、a2和a3,构建行为次数特征向量ξaction={a1,a2,a3},设置相应的权重向量为ω={m1,m2,m3},其中m1,m2,m3∈(0,1);计算用户节点u对于其发布的消息m产生的影响力UM_Inf(u,m),公式为:
U M _ I n f ( u , m ) = 1 1 + e - ( &xi; a c t i o n &CenterDot; &omega; )
同理,消息m对于它的发布者u传递作用产生的影响力MU_Inf(m,u)等价于用户u对于其发布的消息m产生的影响力UM_Inf(u,m),即MU_Inf(m,u)=UM_Inf(u,m)。
步骤5.2:挖掘消息节点m构成的边<消息-消息>的特征,根据消息的话题关键字得到消息的内容相似度,步骤可分为:提取每条消息的话题关键字,将所有消息的话题关键字汇总,构建话题关键字词袋,话题关键字词袋中话题关键字总数记为M;针对每条消息构建话题关键字特征向量,话题关键字特征向量的维度就是话题关键字词袋中话题关键字总数M,初始化话题关键字特征向量的每一维的元素值均为0;消息节点m的话题关键字特征向量记为ξm_topics=(ξm_topic1m_topic2,…,ξm_topici,…,ξm_topicM);
对于消息节点m和其对应的话题关键字集合,计算话题关键字集合中每个话题关键字topici对于消息节点m的话题关键字特征值TF-IDF(topici,m),计算如下:
T F - I D F ( topic i , m ) = n ( t o p i c ) i , m &Sigma; k n ( t o p i c ) k , m &CenterDot; l o g | M | | { topic i &Element; m } |
其中n(topic)i,m表示话题关键字topici在消息节点m的所有话题关键字中出现的次数,表示消息节点m的所有话题关键字出现的次数总和,|M|表示在线社会网络中的消息节点个数,|{topici∈m}|表示拥有话题关键字topici的消息节点个数;
根据每个话题关键字topici对于消息节点m的话题关键字特征值TF-IDF(topici,m),更新消息节点m的话题关键字特征向量ξm_topics中相应维的元素值ξm_topici,得到更新后的ξm_topics
对于G(V,E)中的任意两个消息节点m和n,根据它们相应的话题特征向量ξm_topics和ξn_topics的余弦相似度,计算两个消息节点m和n的内容相似度:
Sim(m,n)=cos(ξm_topicsn_topics);
步骤5.3:对于给定用户u和v,根据u和v发布的消息的相似度,通过以下公式来计算基于用户行为的用户之间的潜在影响力Act_Pot_Inf(u,v):
A c t _ P o t _ I n f ( u , v ) = &Sigma; m &Element; M &prime; ( u ) , n &Element; M &prime; ( v ) U M _ I n f ( u , m ) &CenterDot; S i m ( m , n ) &CenterDot; M U _ I n f ( n , v ) ;
其中,M′(u)表示u发布过的消息集合,M′(v)表示用户v发布过的消息集合。
所述步骤6中,用户节点u和v之间的潜在影响力Pot_Inf(u,v)的计算方法为:
根据两个用户之间基于用户属性的潜在影响力和基于行为的潜在影响力,由以下公式计算用户u和用户v之间的潜在影响力Pot_Inf(u,v):
Pot_Inf(u,v)=λ·Attr_Pot_Inf(u,v)+(1-λ)·Act_Pot_Inf(u,v)
其中λ∈(0,1)。
所述步骤7中,u对v的综合影响力Comp_Inf(u,v)的计算方法为:
对于G(V,E)中任意两个用户节点u和v,对考虑时间延迟后用户节点u对v的直接影响力和用户u和用户v之间的潜在影响力进行综合,得到u对v的综合影响力Comp_Inf(u,v):
Comp_Inf(u,v)=D_Inf(u,v)+Pot_Inf(u,v);
所述步骤8中,用户节点u对v的传播综合影响力总和φu,v(v)的计算方法为:
根据步骤7计算结果,得到在线社会网络中综合影响力传播路径,对于用户节点u和用户节点v,使用φu,v(v)表示用户节点u对用户节点v的传播综合影响力总和φu,v(v),其计算公式如下:
&phi; u , v ( v ) = 0 i f X C o m p _ I n f ( u , v ) i f Y &Sigma; w &Element; I ( v ) &phi; u , w ( w ) &CenterDot; C o m p _ I n f ( w , v ) i f Z
其中,条件X表示u对v没有综合影响力传播路径,则φu,v(v)=0;
条件Y表示u对v的综合影响力传播路径只存在一条一跳路径u→v,则φu,v(v)=Comp_Inf(u,v);
条件Z表示u对v的综合影响力传播路径存在多条,其中φu,w(w)表示用户节点u对用户节点w的传播综合影响力总和;I(v)表示在线社会网络中对v的综合影响力传播路径存在一条一跳路径的用户节点集合{w1,w2,...,wn}。
上述公式推导过程为:遍历用户节点u对用户节点v的综合影响力传播路径,若u对v的综合影响力传播路径只存在一条一跳路径:u→v,则φu,v(v)=φu,u(u)·Comp_Inf(u,v)=Comp_Inf(u,v),因为φu,u(u)=1;若u对v的综合影响力传播路径只存在一条两跳路径:u→w→v,则φu,v(v)=φu,w(w)·Comp_Inf(w,v)且φu,w(w)=Comp_Inf(u,w),因此φu,v(v)=Comp_Inf(u,w)·Comp_Inf(w,v);若u对v的综合影响力传播路径存在多条两跳路径:u→w1→v,u→w2→v,......,u→wn→v,则且φu,w(v)=Comp_Inf(u,w);若u对v的综合影响力传播路径存在多条多跳路径:u→h1→...→b1→w1→v,u→h2→...→b2→w2→v,......,u→hn→...→bn→wn→v,则其中I(v)表示在线社会网络中对用户节点v有综合影响力的节点的集合{w1,w2,...,wn},由此可知,u对v的传播综合影响力总和可以通过遍历综合影响力传播路径,递推计算,因此u对v的传播综合影响力总和可以总结归纳为
有益效果:
本发明提出了一种在线社会网络中影响力最大化初始节点选取方法。基于在线社会网络用户行为记录和异构节点关联关系,提出一种综合考虑节点之间直接和潜在影响力的影响力传播混合模型,命名为DPIS(Direct And Potential Influence Spread)模型。该模型大致分为两部分,第一阶段,根据用户的行为日志,得到用户对于他的邻居用户基于行为时间延迟的直接影响力。第二阶段,结合社会网络中所有异构节点的点特征和不同个体之间的边特征,构建用户节点特征向量并计算向量之间的相似度,以此作为社会网络中用户节点之间的潜在影响力的评判依据。最后结合贪心算法和DPIS模型提出了CIGA算法求解最大边际收益节点作为影响力最大化初始节点。实验在Hadoop、Spark分布式集群平台下,基于真实社会网络数据集,借助Mapreduce、Rdd计算框架进行建模。实验结果表明,结合分布式大数据平台的DPIS模型和CIGA算法对比于传统IC、LT和CD-NF模型上的方法,具有更好的影响力传播效果和更高的初始节点选取质量。
本发明构建了一种新的社会网络初始关键节点选取方法,在Hadoop和Spark分布式集群平台高效处理数据,综合考虑用户行为记录和社会网络复杂的异构节点的关联关系有效地选取影响力最大化初始关键节点,并更加真实地反映影响力传播效果。
附图说明
图1是本发明提出的一种基于用户行为和相似度的社会网络影响力最大化初始节点选取方法的流程图;
图2是实施例1中DPIS,CD-NF,IC和LT这4种不同的方法选取的初始关键节点的影响力传播效果对比图;
图3是实施例1中DPIS,CD-NF,IC和LT这4种不同的方法选取的初始关键节点所接收的其他节点的真实行为执行次数对比图;
图4是实施例1中只考虑直接影响力和考虑综合影响力选取的初始关键节点的影响力传播效果对比图;
图5是实施例1中只考虑直接影响力和考虑综合影响力选取的初始关键节点的所接收的其他节点的真实行为执行次数对比图;
图6是实施例1中DPIS,CD-NF,IC和LT这4种不同的方法选取的前10个初始关键节点所接受的其他节点真实的行为执行次数对比图。
具体实施方式
为了更加详细的描述本发明提出的一种基于用户行为和相似度的社会网络影响力最大化初始节点选取方法,下面结合附图和实例对本发明作进一步的说明。
本发明提出一种基于用户行为和相似度的社会网络影响力最大化初始关键节点选取方法。基于在线社会网络用户行为记录和异构节点关联关系,提出一种综合考虑节点之间直接和潜在影响力的影响力传播混合模型,命名为DPIS(Direct And PotentialInfluence Spread)模型。该模型大致分为两部分,第一阶段,根据用户的行为日志,得到用户对于他的邻居用户基于行为时间延迟的直接影响力。第二阶段,结合社会网络中所有异构节点的点特征和不同个体之间的边特征,构建用户节点特征向量并计算向量之间的相似度,以此作为社会网络中用户节点之间的潜在影响力的评判依据。最后结合贪心算法和DPIS模型提出了CIGA算法求解最大边际收益节点作为影响力最大化初始节点。图1为本发明提出的一种基于用户属性和相似度的社会网络影响力最大化初始关键节点选取方法流程图,具体实施步骤如下:
实施例1:
在该实施例中,使用来自SNAP中的Flickr图片媒体分享社交网络的原始数据集,原始数据集是Flickr社交网络的xml文件,提取关于用户行为记录和用户属性信息的关键字段,包括4546张照片,2662个照片发布者节点,40808个用户节点和618491条边。
本实施例在分布式Hadoop和Spark集群上实现,借助HDFS(分布式文件系统)作为数据存储层,借助Mapreduce和Rdd计算框架搭建计算编程模型作为数据计算层,高效快速并行处理数据,构建模型和算法求解影响力最大化初始节点,并设计不同的对比实验分析初始节点选取效果和质量,从而验证理论分析方法的正确性。
本实施例主要对基于直接和潜在影响力传播模型DPIS和CIGA算法进行设计,并且与传统IC模型(独立级联模型)、LT模型(线性阈值模型)和CD-NF模型(基于节点特性的信用分布模型)对比,IC模型中相邻点之间的边激活概率是通过EM算法(最大期望算法)学习而来,而LT模型相邻节点v和u的边激活概率pp(u,v)使用公式pp(u,v)=1/N(u)进行计算,其中N(u)代表节点u的邻居节点个数。针对不同方法选取的初始节点,设计对比实验比较影响力传播效果,验证本发明的模型和算法对于影响力最大化初始节点选取的有效性。同时统计社会网络中节点接收的真实行为执行次数来对比基于综合影响力和直接影响力传播的初始节点选取结果,验证综合考虑直接和潜在影响力选取的初始节点相比于只考虑直接影响力选取的初始节点会产生更广的影响力传播范围。最后统计社会网络中四种模型前10个初始节点接收的真实行为执行次数,对比结果并验证本发明的方法相比于其他三种方法对于影响力初始节点选取方面具有更高的质量。
由图2可知,当初始节点个数为50时,DPIS、CD-NF、IC、LT四种方法求解的初始节点在社会网络中产生的影响力总和依次为1046、544、416、412。图3表示四种方法求解的初始节点真实影响效果,即在真实社交网站中接收到其他用户的行为执行次数,包括点赞、评论、转发等行为执行次数。由图2和3可知,DPIS不仅在影响力传播结果(影响力分布结果)明显高于其他三个方法,并且与真实用户接收的行为记录对比,DPIS求解的初始节点接收的其他节点行为执行次数总和也明显高于其它三种方法。相比于IC和LT模型,DPIS是根据社会网络真实用户行为记录和异构节点关联来分析挖掘影响力传播,而不仅仅是依据网络结构对用户影响力和影响力传播进行评判。而相比于CD-NF模型,DPIS综合考虑所有异构节点的点特征和异构节点构成的边特性,并且加入用户节点的标签属性,挖掘用户的潜在影响力,而CD-NF仅仅考虑用户节点的基于时间因素和行为的点特征,所以本发明的模型和算法更加全面地考虑影响力传播过程中各个因素,更加准确地反映影响力传播效果。
DPIS模型综合考虑了用户直接和潜在影响力。为了验证用户潜在影响力对于初始节点选取的效果提升,本实施例设计实验对比只考虑用户直接影响力和综合考虑直接和潜在影响力求解的初始节点结果。值得说明的是,在本实验中,步骤4中的α、步骤6中的λ的取值分别为0.5和0.67,由图4可知,当选取50个初始节点时,综合考虑直接和潜在影响力求解的初始节点影响力总和与只考虑直接影响力求解的初始节点影响力总和分别为1046和760,在真实社交网络集中接收的其他节点行为执行次数分别为11754和11381。由图5可知,综合考虑直接和潜在影响求解的初始节点接收到的行为执行次数总体上都高于只考虑直接影响力,因此表明潜在影响力能有效扩大影响力传播范围。
为了对比DPIS与其他三种方法求解的初始节点的质量,将DPIS、CD-NF、CD、LT四种方法求解的前10个初始节点接收的其他节点行为执行次数对比。由图6可知,基于DPIS模型求解的前10个初始节点接收到的其他节点的行为执行次数总体上都高于其他三个模型。同时,基于真实Flickr社会网络数据集,统计每个用户接收的其他用户执行行为的次数并按从大到小排序,由于我们的目标是对比用户影响力大小,将DPIS求解的前10个初始节点与用户实际接收行为执行次数逆序排序结果对比。DPIS求解的第一个初始节点为行为执行次数逆序排序结果的第一名,此节点接收到1314次其他节点行为,并且DPIS方法求解的初始节点接收的行为执行次数大体上都很高,在用户接收行为执行次数逆序排序结果中排名很靠前,由此表明本发明的模型和算法能有效地挖掘网络中的能引起其他节点关注并执行行为的节点,从而保证了初始节点的选取质量。
从以上实验可知,本发明方法基于用户行为记录和用户复杂的关联关系,综合考虑用户的直接影响力和潜在影响力来挖掘影响力最大化初始节点,能够更加真实地反映用户行为和用户的影响力,实验表明本发明方法在初始节点选取质量和影响力传播评估效果方面具有准确性和可靠性。

Claims (9)

1.一种在线社会网络中影响力最大化初始节点选取方法,其特征在于,包括以下步骤:
步骤1:对在线社会网络的数据集进行处理,得到真实的用户执行行为记录得到真实的用户执行行为记录和在线社会网络的拓扑结构图G(V,E);其中,V表示在线社会网络中的节点集合,包括用户节点和消息节点;E代表在线社会网络中的边集合;
计算考虑时间延迟后用户节点u对v的直接影响力D_Inf(u,v);
步骤2:基于用户节点的标签属性,计算基于标签的用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v);
步骤3:基于用户节点的共同邻居节点属性,计算基于共同邻居节点的用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v):
步骤4:将Tag_Inf(u,v)和N_Inf(u,v)加权计算得到用户节点u和v之间基于用户节点属性的潜在影响力Attr_Pot_Inf(u,v);
步骤5:根据用户节点对于消息执行的行为,并由消息的话题关键字得到消息的内容相似度,计算用户节点u和v之间的基于行为的潜在影响力Act_Pot_Inf(u,v);
步骤6:将Attr_Pot_Inf(u,v)和Act_Pot_Inf(u,v)加权计算得到用户节点u和v之间的潜在影响力Pot_Inf(u,v);
步骤7:将D_Inf(u,v)与Pot_Inf(u,v)加权计算得到u对v的综合影响力Comp_Inf(u,v);
步骤8:根据步骤7计算结果,得到在线社会网络中综合影响力传播路径,计算用户节点u对v的传播综合影响力总和φu,v(v);
步骤9:定义节点u边际收益为σMarginal_Revenue(u),计算公式如下:
其中,s为初始节点集合S中的节点,φs,u(u)代表节点s对节点u的传播综合影响力,A代表在线社会网络中所有用户节点的集合;初始节点集合的初始值为
由上述公式计算在线社会网络中所有用户节点的边际收益,并将计算得到的边际收益从大到小进行排序,选取排序后的前10k个用户节点插入到队列Q中,从队列Q中选出边际收益最大的用户节点插入初始节点集合S中;
步骤10:判断初始节点集合中元素的个数|S|是否已经达到要求的个数k,如果未达到,返回步骤9,重新计算并更新队列Q中剩余节点的边际收益,然后重新排序,选出边际收益最大的用户节点插入初始节点集合S中;如果已经达到,则得到影响力最大化初始节点集合S。
2.根据权利要求1所述的在线社会网络中影响力最大化初始节点选取方法,其特征在于,所述步骤1中,考虑时间延迟后用户节点u对v的直接影响力D_Inf(u,v)的计算方法为:
设V中存在两个用户节点u和v,若v对与u相关的消息执行过行为,则u和v之间存在直接影响力,u和v之间存在一条连边,u和v称为相邻节点;其中执行过行为指进行过发布、点赞、评论或转发行为;与u相关的消息是指u发布、点赞、评论或转发的消息;
给定两个相邻节点u和v,定义u对v的影响力Inf(u,v)计算公式如下:
其中,M(u)表示u执行过行为的消息集合,|M(u)|代表u执行过行为的消息条数;M(v)表示用户v执行过行为的消息集合,|M(v)|代表v执行过行为的消息条数;|M(u)∩M(v)|表示u和v共同执行过行为的消息条数;
定义考虑时间延迟后u对v的直接影响力D_Inf(u,v)计算公式如下:
其中,t表示v对与u相关的消息执行行为的平均时间延迟,T表示v对与其所有邻居节点相关的消息执行行为的平均时间延迟。
3.根据权利要求2所述的在线社会网络中影响力最大化初始节点选取方法,其特征在于,所述步骤2中,基于标签的用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v)的计算方法为:
将所有用户节点的标签汇总构建一个标签词袋,标签词袋中所有标签的个数记为N;依据用户节点的标签构建用户节点的标签特征向量,标签特征向量的维度就是标签词袋中所有标签的个数N,每一维代表标签词袋中的一个标签;初始化标签特征向量的每一维的元素值都为0;用户节点u的标签特征向量记为ξu_tags=(ξu_tag1u_tag2,…,ξu_tagi,…,ξu_tagN);
对于任意一个用户节点u和其对应的标签集合,计算标签集合中每个标签tagi对应于u的标签特征值TF-IDF(Tagi,u),公式如下:
其中n(tag)i,u表示标签tagi在用户节点u的所有标签中出现的次数,表示用户节点u的所有标签总数,|U|表示在线社会网络中所有用户节点个数,|{tagi∈u}|表示在线社会网络中拥有标签tagi的用户节点个数;
根据用户节点u对应的标签集合中每个标签tagi对应于u的标签特征值TF-IDF(Tagi,u),更新u的标签特征向量ξu_tags中相应维的元素值ξu_tagi,得到更新后的ξu_tags
对于G(V,E)中的任意两个用户节点u和v,根据它们相应的标签特征向量ξu_tags和ξv_tags的余弦相似度,计算两个用户节点u和v之间基于标签的潜在影响力Tag_Inf(u,v):
Tag_Inf(u,v)=cos(ξu_tagsv_tags)。
4.根据权利要求3所述的在线社会网络中影响力最大化初始节点选取方法,其特征在于,所述步骤3中,基于共同邻居节点的用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v)的计算方法为:
对于G(V,E)中任意一个用户节点,依据邻居节点构建用户的邻居节点特征向量,维度为在线社会网络中的用户节点个数|U|,初始化邻居节点特征向量的每一维的元素值均为0;用户节点u的邻居节点特征向量记为ξu_neighbors=(ξu_neighbor1u_neighbor2,…,ξu_neighbori,…,ξu_neighbor|U|);
对于用户节点u和其对应的邻居节点集合,计算邻居节点集合每个邻居节点neighbori对于u的邻居节点特征值TF-IDF(Neighbori,u),公式如下:
其中n(neighbor)i,u表示邻居节点neighbori在u的所有邻居中出现的次数(取值为1),表示u的所有邻居节点个数,|{neighbori∈u}|表示在线社会网络中拥有邻居 节点neighbori的用户节点个数;
根据每个邻居节点neighbori对于u的邻居节点特征值TF-IDF(Neighbori,u),更新u的邻居节点特征向量ξu_neighbors中相应维的元素值ξu_neighbori,得到更新后的ξu_neighbors
对于G(V,E)中的任意两个用户节点u和v,根据它们相应的邻居节点特征向量ξu_neighbors和ξv_neighbors的余弦相似度,计算两个用户节点u和v之间基于共同邻居节点的潜在影响力N_Inf(u,v):
N_Inf(u,v)=cos(ξu_neighborsv_neighbors)。
5.根据权利要求4所述的在线社会网络中影响力最大化初始节点选取方法,其特征在于,所述步骤4中,用户节点u和v之间基于用户节点属性的潜在影响力Attr_Pot_Inf(u,v)的计算方法为:
Attr_Pot_Inf(u,v)=α·Tag_Inf(u,v)+(1-α)·N_Inf(u,v)
其中0<α<1。
6.根据权利要求5所述的在线社会网络中影响力最大化初始节点选取方法,其特征在于,所述步骤5中,用户节点u和v之间的基于行为的潜在影响力Act_Pot_Inf(u,v)的计算方法为:
步骤5.1:挖掘异构节点构成的边<用户-消息>、<消息-用户>的特征:
对于特定用户节点u,针对其发布的消息m,计算接收到其他用户点赞、评论和转发行为次数分别为a1、a2和a3,构建行为次数特征向量ξaction={a1,a2,a3},设置相应的权重向量为ω={m1,m2,m3},其中m1,m2,m3∈(0,1);计算用户节点u对于其发布的消息m产生的影响力UM_Inf(u,m),公式为:
同理,消息m对于它的发布者u传递作用产生的影响力MU_Inf(m,u)等价于用户u对于其发布的消息m产生的影响力UM_Inf(u,m),即MU_Inf(m,u)=UM_Inf(u,m)。
步骤5.2:挖掘消息节点m构成的边<消息-消息>的特征,根据消息的话题关键字得到消息的内容相似度,步骤具体为:
提取每条消息的话题关键字,将所有消息的话题关键字汇总,构建话题关键字词袋,话题关键字词袋中话题关键字总数记为M;针对每条消息构建话题关键字特征向量,话题关键字特征向量的维度就是话题关键字词袋中话题关键字总数M,初始化话题关键字特征向量的每一维的元素值均为0;消息节点m的话题关键字特征向量记为ξm_topics=(ξm_topic1m_topic2,…,ξm_topici,…,ξm_topicM);
对于消息节点m和其对应的话题关键字集合,计算话题关键字集合中每个话题关键字topici对于消息节点m的话题关键字特征值TF-IDF(topici,m),计算如下:
其中n(topic)i,m表示话题关键字topici在消息节点m的所有话题关键字中出现的次数,表示消息节点m的所有话题关键字出现的次数总和,|M|表示在线社会网络中的消息节点个数,|{topici∈m}|表示拥有话题关键字topici的消息节点个数;
根据每个话题关键字topici对于消息节点m的话题关键字特征值TF-IDF(topici,m),更新消息节点m的话题关键字特征向量ξm_topics中相应维的元素值ξm_topici,得到更新后的ξm_topics
对于G(V,E)中的任意两个消息节点m和n,根据它们相应的话题特征向量ξm_topics和ξn_topics的余弦相似度,计算两个消息节点m和n的内容相似度:
Sim(m,n)=cos(ξm_topicsn_topics);
步骤5.3:对于给定用户u和v,根据u和v发布的消息的相似度,通过以下公式来计算基于用户行为的用户之间的潜在影响力Act_Pot_Inf(u,v):
其中,M′(u)表示u发布过的消息集合,M′(v)表示用户v发布过的消息集合。
7.根据权利要求6所述的在线社会网络中影响力最大化初始节点选取方法,其特征在于,所述步骤6中,用户节点u和v之间的潜在影响力Pot_Inf(u,v)的计算方法为:
Pot_Inf(u,v)=λ·Attr_Pot_Inf(u,v)+(1-λ)·Act_Pot_Inf(u,v)
其中λ∈(0,1)。
8.根据权利要求7所述的在线社会网络中影响力最大化初始节点选取方法,其特征在于, 所述步骤7中,u对v的综合影响力Comp_Inf(u,v)的计算方法为:
Comp_Inf(u,v)=D_Inf(u,v)+Pot_Inf(u,v)。
9.根据权利要求8所述的在线社会网络中影响力最大化初始节点选取方法,其特征在于,所述步骤8中,用户节点u对v的传播综合影响力总和φu,v(v)的计算方法为:
其中,条件X表示u对v没有综合影响力传播路径,则φu,v(v)=0;
条件Y表示u对v的综合影响力传播路径只存在一条一跳路径u→v,则φu,v(v)=Comp_Inf(u,v);
条件Z表示u对v的综合影响力传播路径存在多条,其中φu,w(w)表示用户节点u对用户节点w的传播综合影响力总和;I(v)表示在线社会网络中对v的综合影响力传播路径存在一条一跳路径的用户节点集合{w1,w2,...,wn}。
CN201610671518.7A 2016-08-15 2016-08-15 一种在线社会网络中影响力最大化初始节点选取方法 Active CN106355506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610671518.7A CN106355506B (zh) 2016-08-15 2016-08-15 一种在线社会网络中影响力最大化初始节点选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610671518.7A CN106355506B (zh) 2016-08-15 2016-08-15 一种在线社会网络中影响力最大化初始节点选取方法

Publications (2)

Publication Number Publication Date
CN106355506A true CN106355506A (zh) 2017-01-25
CN106355506B CN106355506B (zh) 2020-01-14

Family

ID=57844075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610671518.7A Active CN106355506B (zh) 2016-08-15 2016-08-15 一种在线社会网络中影响力最大化初始节点选取方法

Country Status (1)

Country Link
CN (1) CN106355506B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507020A (zh) * 2017-07-27 2017-12-22 上海交通大学 获取网络传播影响力竞争优势最大化的方法
CN108876648A (zh) * 2018-06-29 2018-11-23 中国矿业大学 基于节点覆盖范围的社交网络影响力最大化方法及系统
CN109033834A (zh) * 2018-07-17 2018-12-18 南京邮电大学盐城大数据研究院有限公司 一种基于文件关联关系的恶意软件检测方法
CN109345284A (zh) * 2018-08-31 2019-02-15 阿里巴巴集团控股有限公司 商家营销的返佣系数的确定方法、装置及服务器
CN109446171A (zh) * 2017-08-30 2019-03-08 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN109617887A (zh) * 2018-12-21 2019-04-12 咪咕文化科技有限公司 一种信息处理方法、装置及存储介质
CN110110974A (zh) * 2019-04-17 2019-08-09 福建天泉教育科技有限公司 关键意见领袖的识别方法及计算机可读存储介质
CN110188422A (zh) * 2019-05-16 2019-08-30 深圳前海微众银行股份有限公司 一种基于网络数据提取节点的特征向量的方法及装置
CN110838072A (zh) * 2019-10-24 2020-02-25 华中科技大学 一种基于社区发现的社交网络影响力最大化方法及系统
CN112256756A (zh) * 2020-10-22 2021-01-22 重庆邮电大学 一种基于三元关联图和知识表示的影响力发现方法
WO2021217933A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 同质网络的社群划分方法、装置、计算机设备和存储介质
CN113656797A (zh) * 2021-10-19 2021-11-16 航天宏康智能科技(北京)有限公司 行为特征提取方法以及行为特征提取装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616200A (zh) * 2015-02-11 2015-05-13 中南大学 一种基于节点特性的影响力最大化初始节点选取方法
CN105138667A (zh) * 2015-09-07 2015-12-09 中南大学 一种考虑时延约束的社会网络初始关键节点选取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616200A (zh) * 2015-02-11 2015-05-13 中南大学 一种基于节点特性的影响力最大化初始节点选取方法
CN105138667A (zh) * 2015-09-07 2015-12-09 中南大学 一种考虑时延约束的社会网络初始关键节点选取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOHENG DENG等: "Credit Distribution and Influence Maximization in Online Social Networks Using Node Features", 《2015 12TH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 *
吴凯等: "基于微博网络的影响力最大化算法", 《计算机应用》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507020A (zh) * 2017-07-27 2017-12-22 上海交通大学 获取网络传播影响力竞争优势最大化的方法
CN107507020B (zh) * 2017-07-27 2021-10-08 上海交通大学 获取网络传播影响力竞争优势最大化的方法
CN109446171A (zh) * 2017-08-30 2019-03-08 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN109446171B (zh) * 2017-08-30 2022-03-15 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN108876648B (zh) * 2018-06-29 2021-02-02 中国矿业大学 基于节点覆盖范围的社交网络影响力最大化方法及系统
CN108876648A (zh) * 2018-06-29 2018-11-23 中国矿业大学 基于节点覆盖范围的社交网络影响力最大化方法及系统
CN109033834A (zh) * 2018-07-17 2018-12-18 南京邮电大学盐城大数据研究院有限公司 一种基于文件关联关系的恶意软件检测方法
CN109345284A (zh) * 2018-08-31 2019-02-15 阿里巴巴集团控股有限公司 商家营销的返佣系数的确定方法、装置及服务器
CN109617887A (zh) * 2018-12-21 2019-04-12 咪咕文化科技有限公司 一种信息处理方法、装置及存储介质
CN109617887B (zh) * 2018-12-21 2021-06-15 咪咕文化科技有限公司 一种信息处理方法、装置及存储介质
CN110110974A (zh) * 2019-04-17 2019-08-09 福建天泉教育科技有限公司 关键意见领袖的识别方法及计算机可读存储介质
CN110110974B (zh) * 2019-04-17 2022-03-29 福建天泉教育科技有限公司 关键意见领袖的识别方法及计算机可读存储介质
CN110188422A (zh) * 2019-05-16 2019-08-30 深圳前海微众银行股份有限公司 一种基于网络数据提取节点的特征向量的方法及装置
CN110188422B (zh) * 2019-05-16 2022-12-20 深圳前海微众银行股份有限公司 一种基于网络数据提取节点的特征向量的方法及装置
CN110838072A (zh) * 2019-10-24 2020-02-25 华中科技大学 一种基于社区发现的社交网络影响力最大化方法及系统
WO2021217933A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 同质网络的社群划分方法、装置、计算机设备和存储介质
CN112256756A (zh) * 2020-10-22 2021-01-22 重庆邮电大学 一种基于三元关联图和知识表示的影响力发现方法
CN112256756B (zh) * 2020-10-22 2022-09-23 重庆邮电大学 一种基于三元关联图和知识表示的影响力发现方法
CN113656797A (zh) * 2021-10-19 2021-11-16 航天宏康智能科技(北京)有限公司 行为特征提取方法以及行为特征提取装置
CN113656797B (zh) * 2021-10-19 2021-12-21 航天宏康智能科技(北京)有限公司 行为特征提取方法以及行为特征提取装置

Also Published As

Publication number Publication date
CN106355506B (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN106355506A (zh) 一种在线社会网络中影响力最大化初始节点选取方法
Zeng et al. Fmore: An incentive scheme of multi-dimensional auction for federated learning in mec
CN104731962B (zh) 一种社交网络中基于相似社团的好友推荐方法及系统
Wan et al. Information propagation model based on hybrid social factors of opportunity, trust and motivation
Li et al. Three-hop velocity attenuation propagation model for influence maximization in social networks
Leng et al. Interpretable recommender system with heterogeneous information: A geometric deep learning perspective
Zhang et al. Proposing a new friend recommendation method, FRUTAI, to enhance social media providers' performance
Wang et al. A multidimensional network link prediction algorithm and its application for predicting social relationships
Hao et al. Discovering influential users in micro-blog marketing with influence maximization mechanism
Rao et al. CBIM: Community-based influence maximization in multilayer networks
Ishfaq et al. Identifying the influential nodes in complex social networks using centrality-based approach
Li et al. An efficient influence maximization algorithm based on clique in social networks
Vikatos et al. Marketing campaign targeting using bridge extraction in multiplex social network
Dong et al. TSIFIM: A three-stage iterative framework for influence maximization in complex networks
Sun et al. Overlapping community detection based on information dynamics
Jokar et al. Overlapping community detection in complex networks using fuzzy theory, balanced link density, and label propagation
Yin et al. A survey of learning-based methods for cold-start, social recommendation, and data sparsity in e-commerce recommendation systems
Muhuri et al. Analysis of the pertinence of indian women’s institutions in collaborative research
Zeng et al. Collaborative filtering via heterogeneous neural networks
CN107729569A (zh) 一种融合网络结构和文本信息的社交关系预测方法
Cheng et al. A Seed‐Expanding Method Based on TOPSIS for Community Detection in Complex Networks
Jain et al. Discovering influential users in social network using weighted cumulative centrality
Kumari et al. Online influence maximization using rapid continuous time independent cascade model
Cui et al. DMFA-SR: Deeper membership and friendship awareness for social recommendation
Song et al. FedInf: Social influence prediction with federated learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant