CN106022821A - 一种基于成本效益的影响最大化方法 - Google Patents

一种基于成本效益的影响最大化方法 Download PDF

Info

Publication number
CN106022821A
CN106022821A CN201610319986.8A CN201610319986A CN106022821A CN 106022821 A CN106022821 A CN 106022821A CN 201610319986 A CN201610319986 A CN 201610319986A CN 106022821 A CN106022821 A CN 106022821A
Authority
CN
China
Prior art keywords
node
probability
cost
influence
benefit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610319986.8A
Other languages
English (en)
Inventor
曹玖新
薛凌云
赵钊
刘波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201610319986.8A priority Critical patent/CN106022821A/zh
Publication of CN106022821A publication Critical patent/CN106022821A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一中基于成本效益的影响最大化方法,针对处理好的新浪微博网络和固定的预算,首先在分析网络拓扑模型和信息传播特征的基础上对节点的成本进行建模,给出节点成本的计算方法;然后基于信号传播模型对节点的影响力进行建模,提出了节点概率覆盖模型;设计了惰性节点选择算法,根据节点的概率覆盖模型和节点的边际收益计算方法得到节点概率覆盖范围的边际收益,将节点概率覆盖范围的边际收益与节点成本的比值作为选择标准,选择种子节点集合,分别在固定概率的独立级联模型和变概率下的独立级联模型上进行实验得到种子节点最终的影响范围。

Description

一种基于成本效益的影响最大化方法
技术领域
本发明涉及一种基于成本效益的影响最大化方法,属于社会计算领域,特别是社交网络领域。
背景技术
随着互联网的飞速发展以及人们对信息时代新型社交形式的探索,大量的社交网络服务(SNS)应运而生,例如国外的Facebook、Twitter以及国内的人人网和新浪微博等。人们在网络中因不同的社会关系和人际互动而形成不同的社会网络,这些在线社交网络大大降低了人们社交的时间和物质成本,并且在很大程度上将线下真实的人际关系网络复制到了线上,真实地反映了人们的社会关系,社交网络在改变人们生活方式的同时,也为科研工作者提供了一个良好的研究平台。
信息时代下,依托社交网络产生了一种全新的营销模式——“病毒式营销”(viralmarketing),病毒营销的基础是“口碑效应”(word-of-mouth),通过鼓励目标受众,把想要推广的信息像病毒一样传递给周围的人,让每一个受众都成为传播者,让要推广的信息在曝光率和营销上产生几何级的增长速度。
确定有影响力的个人或群体作为最初的目标受众是病毒营销最关键的步骤,商家希望要推广的产品可以影响到尽可能多的人,也即将自己的影响力最大化。但是,在以往对影响最大化问题的研究中,人们忽略了重要的一点,就是在选择初始受众时对各个节点要付出的成本。许多学者在选择初始受众时,对选择不同节点所要付出的成本“一视同仁”,然而事实并非如此,请明星做推广与普通人做推广所需要的花费相差巨大,不同的明星之间也是千差万别。
发明内容
发明目的:针对现有技术中存在的问题,本发明提出一种基于成本效益的影响最大化方法,给定网络和预算,在分析网络拓扑模型和信息传播特征的基础上对节点成本进行建模,经过对影响力的传播分析后,提出了节点的概率覆盖模型,设计了选择初始种子集合的方法,使得最终种子集合的影响范围得以提高。
技术方案:一种基于成本效益的影响最大化方法,给定一个网络和固定的预算,在花费不超过预算的情况下选择一个初始节点集合来传播所述初始节点集合的影响力,使得最终受到影响的节点数量最多;包括如下步骤:
1)对从新浪微博获取的数据集进行预处理,剔除不活跃的用户节点,得到新浪微博关注关系的子图;
2)分析步骤1)所得子图的网络拓扑模型和信息传播特征,对网络中用户节点的成本进行建模,给出节点成本的计算方法为:
cost(v)=degree(v) (1)
其中:cost(v)表示节点v的成本,degree(v)表示节点v的粉丝数或好友数;
3)基于步骤2)所得信号传播特征设计节点概率覆盖模型,根据节点概率覆盖模型和节点的边际收益计算方法得到节点概率覆盖范围的边际收益;具体步骤如下:
(1)节点v的最短路径为:
SP(s,v)=<s,s1,…,v> (2)
(2)节点s到v的最短距离:
distance(s,v)=|SP(s,v)|-1 (3)
(3)节点s到v的影响力传播路径:
Path(s,v)=<s,s1,…,v> (4)
其中:distance(s,s)≤distance(s,s1)≤…≤distance(s,v),从节点s开始经过一条路径激活节点v,这条路径上的节点顺序只能是离s越来越远,只允许节点向相对源点s更远的节点传播影响力,而禁止一个节点向比自己近的节点传播影响力,同时,为了避免节点概率覆盖范围的重复,从源节点出发到其它节点的影响力传播路径不会经过已经处于激活态的节点,即A为待选种子集合;
(4)节点s沿影响力传播路径Path(s,v)传播给v的信号量强度为:
p ( P a t h ( s , v ) ) = &Pi; 1 n p p ( s i , s i + 1 ) , n = | P a t h ( s , v ) | - 1 - - - ( 5 )
其中:pp(si,si+1)是影响力传播路径中si对节点si+1的影响概率;因为节点s到节点v有许多条概率传播路径,给定一个阈值θ,规定只取路径传播概率不小于θ的概率传播路径;
(5)节点v接收到节点s的影响力信号累计为:
Prob(s,v)=∑p(Path(s,v))≥θp(Path(s,v)) (6)
(6)节点s的概率覆盖范围为:
ProbCover(s)=∑v∈VProb(s,v) (7)
(7)节点s的概率覆盖范围的边际收益为:
MGs,A=ProbCover(A∪{s})-Probcover(A) (8)
4)将步骤3)得到的节点概率覆盖范围的边际收益与节点成本的比值MGv,A/cost(v)作为选择初始种子节点集合的标准,选择性价比最优的节点;
5)分别在固定概率的独立级联模型和变概率下的独立级联模型上进行模拟传播实验,得出种子集合最终的影响范围。
进一步的,步骤1所述的数据集为通过爬虫程序从新浪微博API(应用程序编程接口)获得。
进一步的,步骤1)所述的剔除不活跃的用户节点的具体方法为:设定一个阈值σ,对爬虫程序中爬取数据的时间段内所发微博数目大于阈值σ的用户保留下来,其余用户将作为不活跃用户被剔除。
进一步的,所述步骤5)具体如下:在固定概率的情况下,两个节点间的影响概率Puv是一个系统常量;在变概率的情况下,由于新浪微博网络中,用户之间通过转发和评论进行动态交互,节点之间的传播概率由节点间的交互强度决定,节点u对节点v的传播概率为:
进一步的,采用惰性计算方法计算节点的概率覆盖范围的边际收益。
有益效果:本发明采用如上技术方案,具有如下优点:
1、考虑到节点推广成本的差异,不同的人推广成本各异,更符合现实情况的需求;
2、引入了节点的概率覆盖模型,综合考虑网络拓扑和传播模型的特点,用节点的概率覆盖范围来衡量节点的影响力,比一般从节点自身属性出发来标识节点影响力,比如节点的度数、介数、聚类系数等更为准确;
3、利用了子模函数的特性,减少不必要的重复计算;
4、在成本一定的情况下,种子节点集合的影响范围更大。
附图说明
图1为本发明的种子集合选取流程图;
图2为本发明的整体系统框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等同变换均落于本申请所附权利要求所限定的范围。
本发明所述的一种基于成本效益的影响最大化方法,给定一个网络和固定的预算,在花费不超过预算的情况下选择一个初始节点集合来传播所述初始节点集合的影响力,使得最终受到影响的节点数量最多;包括如下步骤:
1)对从新浪微博获取的数据集进行预处理,剔除不活跃的用户节点,得到新浪微博关注关系的子图;所述的数据集为通过爬虫程序从新浪微博API(应用程序编程接口)获得。所述的剔除不活跃的用户节点的具体方法为:设定一个阈值σ,对爬虫程序中爬取数据的时间段内所发微博数目大于阈值σ的用户保留下来,其余用户将作为不活跃用户被剔除。
2)分析步骤1)所得子图的网络拓扑模型和信息传播特征,对网络中用户节点的成本进行建模,社交网络的拓扑性质决定了不同位置的用户节点具有不同的重要性,处于网络中心位置的用户有更大的节点度数,在信息传播的过程中更有可能取得邻居节点的信任并起到信息传递的桥梁纽带作用,在产品的推广过程中,这些节点的传播影响力更大。根据以上分析,给出节点成本的计算方法为:
cost(v)=degree(v) (1)
其中:cost(v)表示节点v的成本,degree(v)表示节点v的粉丝数或好友数;广告商在利用社交平台做推广时,通常根据用户的粉丝数或好友数来支付相应的报酬,节点用户的粉丝数越高,节点的成本越高。
3)基于步骤2)所得信号传播特征设计节点概率覆盖模型,根据节点概率覆盖模型和节点的边际收益计算方法得到节点概率覆盖范围的边际收益;把节点的影响力看做是一种信号,假设节点s是一个信息源,以它为中心向周围发射信号(也即传播影响力),信号向外传播时会根据边上的概率衰减,其他节点接收到信号后会累积记录下自己收到的信号量,并且规定信号只能以s为中心向外扩散传播,也即信号在传播的过程中是由距离s近的节点传递给距离s远的节点,而信号衰减到一定程度后也会停止传播,最后统计所有节点收到的信号量之和,那么节点s传播出去的信号量越大就认为它的影响力越强。具体步骤如下:
(1)节点v的最短路径为:
SP(s,v)=<s,s1,…,v> (2)
(2)节点s到v的最短距离:
distance(s,v)=|SP(s,v)|-1 (3)
(3)节点s到v的影响力传播路径:
Path(s,v)=<s,s1,…,v> (4)
其中:distance(s,s)≤distance(s,s1)≤…≤distance(s,v),从节点s开始经过一条路径激活节点v,这条路径上的节点顺序只能是离s越来越远,只允许节点向相对源点s更远的节点传播影响力,而禁止一个节点向比自己近的节点传播影响力,同时,为了避免节点概率覆盖范围的重复,从源节点出发到其它节点的影响力传播路径不会经过已经处于激活态的节点,即A为待选种子集合;
(4)节点s沿影响力传播路径Path(s,v)传播给v的信号量强度为:
p ( P a t h ( s , v ) ) = &Pi; 1 n p p ( s i , s i + 1 ) , n = | P a t h ( s , v ) | - 1 - - - ( 5 )
其中:pp(si,si+1)是影响力传播路径中si对节点si+1的影响概率;因为节点s到节点v有许多条概率传播路径,给定一个阈值θ,规定只取路径传播概率不小于θ的概率传播路径;
(5)节点v接收到节点s的影响力信号累计为:
Prob(s,v)=Σp(Path(s,v))≥θP(Path(s,v)) (6)
(6)节点s的概率覆盖范围为:
ProbCover(s)=∑v∈VProb(s,v) (7)
(7)节点s的概率覆盖范围的边际收益为:
MGs,A=ProbCover(A∪{s})-Probcover(A) (8)
此处,如果初始节点集合A较大即处于激活态节点的数量较多,这时从源节点出发到达节点v的影响力传播路径有可能减少,那么节点v所能获得的影响力累积也会随之减少。相应的,该节点的概率覆盖范围也会随着初始节点集合的增大而减小,可以假设有两个初始节点集合S和T,且S是T的子集,节点v加入到两个不同的初始节点集合所得到的概率覆盖范围的边际收益满足:
MG v , s &GreaterEqual; MG v , T , S &SubsetEqual; T - - - ( 9 )
公式(8)(9)说明节点概率覆盖范围计算方法符合子模函数的特性,节点v在当前轮数所能获得的边际收益不会超过之前轮数所能获得的边际收益,即符合子模特性,就可以根据惰性计算方法减少不必要的重复计算。
4)将步骤3)得到的节点概率覆盖范围的边际收益与节点成本的比值MGv,A/cost(v)作为选择初始种子节点集合的标准,选择性价比最优的节点;
5)分别在固定概率的独立级联模型和变概率下的独立级联模型上进行模拟传播实验,得出种子集合最终的影响范围。具体如下:在固定概率的情况下,两个节点间的影响概率Puv是一个系统常量;在变概率的情况下,由于新浪微博网络中,用户之间通过转发和评论进行动态交互,节点之间的传播概率由节点间的交互强度决定,节点u对节点v的传播概率为:
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.一种基于成本效益的影响最大化方法,其特征在于,给定一个网络和固定的预算,在花费不超过预算的情况下选择一个初始节点集合来传播所述初始节点集合的影响力,使得最终受到影响的节点数量最多;包括如下步骤:
1)对从新浪微博获取的数据集进行预处理,剔除不活跃的用户节点,得到新浪微博关注关系的子图;
2)分析步骤1)所得子图的网络拓扑模型和信息传播特征,对网络中用户节点的成本进行建模,给出节点成本的计算方法为:
cost(v)=degree(v) (1)
其中:cost(v)表示节点v的成本,degree(v)表示节点v的粉丝数或好友数;
3)基于步骤2)所得信息传播特征设计节点概率覆盖模型,根据节点概率覆盖模型和节点的边际收益计算方法得到节点概率覆盖范围的边际收益;具体步骤如下:
(1)节点v的最短路径为:
SP(s,v)=<s,s1,…,v> (2)
(2)节点s到v的最短距离:
distance(s,v)=|SP(s,v)|-1 (3)
(3)节点s到v的影响力传播路径:
Path(s,v)=<s,s1,…,v> (4)
其中:distance(s,s)≤distance(s,s1)≤…≤distance(s,v),
A为待选种子集合;
(4)节点s沿影响力传播路径Path(s,v)传播给v的信号量强度为:
p ( P a t h ( s , v ) ) = &Pi; 1 n p p ( s i , s i + 1 ) , n = | P a t h ( s , v ) | - 1 - - - ( 5 )
其中:pp(si,si+1)是影响力传播路径中si对节点si+1的影响概率;给定一个阈值θ,规定只取路径传播概率不小于θ的概率传播路径;
(5)节点v接收到节点s的影响力信号累计为:
Prob(s,v)=∑p(Path(s,v))≥θp(Path(s,v)) (6)
(6)节点s的概率覆盖范围为:
ProbCover(s)=∑v∈VProb(s,v) (7)
(7)节点s的概率覆盖范围的边际收益为:
MGs,A=ProbCover(A∪{s})-Probcover(A) (8)
4)将步骤3)得到的节点概率覆盖范围的边际收益与节点成本的比值MGv,A/cost(v)作为选择初始种子节点集合的标准,选择性价比最优的节点;
5)分别在固定概率的独立级联模型和变概率下的独立级联模型上进行模拟传播实验,得出种子集合最终的影响范围。
2.根据权利要求1所述的基于成本效益的影响最大化方法,其特征在于,步骤1所述的数据集为通过爬虫程序从新浪微博API获得。
3.根据权利要求2所述的基于成本效益的影响最大化方法,其特征在于,步骤1)所述的剔除不活跃的用户节点的具体方法为:设定一个阈值σ,对爬虫程序中爬取数据的时间段内所发微博数目大于阈值σ的用户保留下来,其余用户将作为不活跃用户被剔除。
4.根据权利要求1所述的基于成本效益的影响最大化方法,其特征在于,所述步骤5)具体如下:在固定概率的情况下,两个节点间的影响概率Puv是一个系统常量;在变概率的情况下,由于新浪微博网络中,用户之间通过转发和评论进行动态交互,节点之间的传播概率由节点间的交互强度决定,节点u对节点v的传播概率为:
5.根据权利要求1所述的基于成本效益的影响最大化方法,其特征在于,采用惰性计算方法计算节点的概率覆盖范围的边际收益。
CN201610319986.8A 2016-05-13 2016-05-13 一种基于成本效益的影响最大化方法 Pending CN106022821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610319986.8A CN106022821A (zh) 2016-05-13 2016-05-13 一种基于成本效益的影响最大化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610319986.8A CN106022821A (zh) 2016-05-13 2016-05-13 一种基于成本效益的影响最大化方法

Publications (1)

Publication Number Publication Date
CN106022821A true CN106022821A (zh) 2016-10-12

Family

ID=57096841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610319986.8A Pending CN106022821A (zh) 2016-05-13 2016-05-13 一种基于成本效益的影响最大化方法

Country Status (1)

Country Link
CN (1) CN106022821A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107566244A (zh) * 2017-07-24 2018-01-09 平安科技(深圳)有限公司 一种网络账户的选取方法及其设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN104134159A (zh) * 2014-08-04 2014-11-05 中国科学院软件研究所 一种基于随机模型预测信息最大化传播范围的方法
CN105095419A (zh) * 2015-07-15 2015-11-25 哈尔滨工程大学 一种面向微博特定类型用户的信息影响力最大化方法
CN105138667A (zh) * 2015-09-07 2015-12-09 中南大学 一种考虑时延约束的社会网络初始关键节点选取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN104134159A (zh) * 2014-08-04 2014-11-05 中国科学院软件研究所 一种基于随机模型预测信息最大化传播范围的方法
CN105095419A (zh) * 2015-07-15 2015-11-25 哈尔滨工程大学 一种面向微博特定类型用户的信息影响力最大化方法
CN105138667A (zh) * 2015-09-07 2015-12-09 中南大学 一种考虑时延约束的社会网络初始关键节点选取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107566244A (zh) * 2017-07-24 2018-01-09 平安科技(深圳)有限公司 一种网络账户的选取方法及其设备
WO2019019368A1 (zh) * 2017-07-24 2019-01-31 平安科技(深圳)有限公司 一种网络账户的选取方法及其设备

Similar Documents

Publication Publication Date Title
US11659050B2 (en) Discovering signature of electronic social networks
Xu et al. Information security in big data: privacy and data mining
JP6367289B2 (ja) オンライン・ソーシャル・ネットワークにおけるネットワーク指向の製品ロールアウト
Wang et al. Understanding the power of opinion leaders’ influence on the diffusion process of popular mobile games: Travel Frog on Sina Weibo
King et al. A toolkit for optimizing fish passage barrier mitigation actions
Sponder et al. Digital analytics for marketing
Lenormand et al. A universal model of commuting networks
US9542503B2 (en) Estimation of closeness of topics based on graph analytics
Gonzalez-Bailon Opening the black box of link formation: Social factors underlying the structure of the web
Jeong et al. Integrating buildings into a rural landscape using a multi-criteria spatial decision analysis in GIS-enabled web environment
CN104281882A (zh) 基于用户特征的预测社交网络信息流行度的方法及系统
Rocha et al. Trends and Advances in Information Systems and Technologies: Volume 1
Cann et al. Ideological biases in social sharing of online information about climate change
CN108874877A (zh) 一种面向位置社交网络的基于图链接分析的兴趣点推荐方法
Salim et al. Data analytics of social media 3.0: Privacy protection perspectives for integrating social media and Internet of Things (SM-IoT) systems
US11245649B2 (en) Personalized low latency communication
Liang et al. Case study of selecting decision-making schemes in large-scale infrastructure projects
Liao et al. Devrank: Mining influential developers in github
Hexmoor Computational network science: an algorithmic approach
CN105978729A (zh) 一种基于用户上网日志及位置的手机信息推送系统及方法
CN106022821A (zh) 一种基于成本效益的影响最大化方法
Tolica et al. The role of Internet and SEO in branding destinations: Case of Albania as a new destination in Balkans
Celestini et al. Epidemics in a synthetic urban population with multiple levels of mixing
Vargas et al. The researcher–practitioner symbiosis: Evolving mutualisms from parachutes
Wamala Does IT count?: complexities between access to and use of information technologies among Uganda's farmers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012