CN109409495A - 基于抽样的线性阈值模型下的影响力最大化方法 - Google Patents

基于抽样的线性阈值模型下的影响力最大化方法 Download PDF

Info

Publication number
CN109409495A
CN109409495A CN201811199731.8A CN201811199731A CN109409495A CN 109409495 A CN109409495 A CN 109409495A CN 201811199731 A CN201811199731 A CN 201811199731A CN 109409495 A CN109409495 A CN 109409495A
Authority
CN
China
Prior art keywords
seed
influence
probability
positive
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811199731.8A
Other languages
English (en)
Inventor
陈崚
鞠伟嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN201811199731.8A priority Critical patent/CN109409495A/zh
Publication of CN109409495A publication Critical patent/CN109409495A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Robotics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了一种基于抽样的线性阈值模型下的影响力最大化方法,首先根据有向图中的所有路径,划分出许多顶点对并计算出所有顶点对(v,u)的正、负激活概率;然后始化种子集合S能激活其余节点的正、负影响力估计;再初始化正影响力效益值;使用新加入的种子计算种子集合对所有u∈V\S的正、负影响力估计;使用新加入种子x对u∈V\S计算x加入S之后可以产生的正影响效益;最后依据种子集合个数k确定种子集合S;本方法避免了大量的计算模拟,提高了速度,缩短了时间。

Description

基于抽样的线性阈值模型下的影响力最大化方法
技术领域
本发明属于社会网络科学领域,特别是一种基于抽样的线性阈值模型下的影响力最大化方法。
背景技术
随着社会网络的日益壮大,商家消费者身份的互相转换,影响力也成为每个人的关注点。具有新型商品或者需要推广的信息就会通过寻找具有影响力的传播者进行宣传。然而,人们往往会苦于如何寻找出合适的初始传播者才可以将影响力效益达到最大。如果商家和消费者可以在众多需求和选择中寻找出自己所需要的并将此影响力扩大,使得广大人民都了解自己所需要的或者隐性需求,那么就有望将自身的潜在需求转化为实际需求,使得影响力随之扩大,不仅可以在短时间内提高商家在该方面的影响力,也有助于提升消费者的内心接受率,达到扩大基础人群的数量,使得影响力再最大化。在传播过程中,商家之间的竞争就会造成一些消极影响,而由“朋友的朋友是我的朋友,敌人的敌人是我的朋友”这样的三角关系下,能够根据带符号的基于路径分析下针对减少计算模拟时间的影响力最大化方法应运而生。传统的影响力最大化方法有基于线性阈值的影响力最大化方法、有基于独立级联的最大化方法、有基于启发式方法的影响力最大化方法等等。
在计算机科学领域,基于互联网和大数据的影响力传播研究也从21世纪开始兴起。影响力传播的研究主要有三大支柱:第一是影响力传播的模型,主要描述影响力在社交网络中如何传播、有何特点和性质;第二是影响力传播的学习,即如何利用网络大数据挖掘学习影响力传播模式和具体传播模型的参数;第三是影响力传播优化,着重于考虑在不同的传播模型下,如何通过施加外部作用(比如选取有影响力的初始传播用户和改变传播途径等)来扩大希望传播的影响力或者控制和减弱不希望传播的影响力,也包括有效的监控影响力的传播等。
影响力最大化旨在一个网络中找到k个种子节点并通过这k个种子使得整个网络的影响力达到最大。最初由Kempe等人提出的基于独立级联和线性阈值的两个基本模型并证明了这一问题是NP-hard问题。几乎所有的研究都是在这两个模型之下开展的。传统的独立级联模型中,每个节点都会有一个可能被激活的概率p,假定v是被激活的种子,当节点v向其邻居节点u传达的概率大于p,则u被激活。相较于线性阈值模型,该模型的传播性能简单易懂。在带符号网络下的独立级联模型,就是在每条边(v,u)上标记一个符号sign={+,-}。显然当sign=′+′时,v以p的概率将u激活为f状态,反之,则激活为一般,都是找到能够最大化正影响力的种子集合。影响力最大化使用的贪心算法几乎是非常完美的,虽然可以找出影响力最大化的种子,但是当需要换别的种子的时候,又需要重新计算,所以在时间复杂度上是一大弱点。
发明内容
本发明的目的在于提供一种基于抽样的线性阈值模型下的影响力最大化方法,提出了节点影响力指标,针对不同大小网络的不同路径一次计算,多次选取。
实现本发明目的的技术方案为:
一种基于抽样的线性阈值模型下的影响力最大化方法,包括以下步骤:
步骤1、给定有向图G=(V,E),根据有向图G中的所有路径,划分出许多顶点对(v,u),并计算出有向图G的所有顶点对(v,u)的正、负激活概率P+(v,u),P-(v,u);其中V代表有向图的所有节点,E代表有向图的所有边;
步骤2、初始化种子集合S能激活其余节点u的正、负影响力估计G+(S,u),G-(S,u);在求得G+(S,u)之后,要最大化传播后激活为正状态的顶点个数Np(S),只需要最大化种子集台S的正影响力估计I+(S)=∑u∈VG+(S,u);
步骤3、初始化正影响力效益值F(v);
步骤4、使用新加入的种子x计算种子集合S对所有u∈V\S的正、负影响力估计G+(S,u),G-(S,u);
步骤5、使用新加入种子x对所有u∈V\S计算正、负激活概率P+(v,u),P-(v,u);
步骤6、使用新加入种子x对u∈V\S计算x加入S之后可以产生的正影响效益I+(S+x)-I+(S),记为F(S,x),取使得F(S,x)最大的x节点,加入集合S中;
步骤7、依据种子集合个数k确定种子集合S。
与现有技术相比,本发明的优点为:
(1)本发明的影响力最大化方法,利用对社会网络中的所有节点对求出节点的最长可达路径,从而求出节点可能影响可达节点的概率值。
(2)本发明的影响力最大化方法,由于社会网络中的节点很多,路径也会很多,首先计算出路径的概率矩阵,这样不仅可以缩短之后寻找种子节点的时间,还可以得到高质量的选择结果。
(3)本发明的影响力最大化方法,由于带符号网络下基于路径分析的影响力最大化方法只需要进行一次的路径计算,所以模拟次数就会减少了很多,因此可以缩短时间以及减少了存储开销。
(4)本发明的影响力最大化方法,求解过程只需要利用已求出的路径概率矩阵对所有的节点计算影响力概率收益,方法简单易懂,实现起来也很朴实,并且没有额外的参数,因此方法的鲁棒性能很高。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明的流程示意图。
图2为本发明算法与其他一些主流算法的比较结果图。
图3为本发明算法与其中较好算法的比较结果图。
具体实施方式
结合图1,本发明的一种基于抽样的线性阈值模型下的影响力最大化方法,包括以下步骤:
步骤1、给定有向图G=(V,E),V代表有向图的所有节点,E代表有向图的所有边,根据有向图G计算所有顶点对(v,u)的正、负激活概率P+(v,u)、P-(v,u):
有向图中节点v对节点u的影响力存储在边(v,u)上的值介于0和1之间,数值越大则说明节点间的影响力越大,节点u越容易被节点v所影响;采用蒙特卡洛方法即可得到P+(u,u),P-(v,u)。
其中P+(v,u)为节点v到节点u的正影响概率,P-(v,u)为节点v到节点u的负影响概率。其中节点v到节点u的路径L=(e1,e2,...el),边ei(i∈[1,l])的概率为pi,那么该路径L上的概率
其中:w为输入边的邻居,Tin+(u)和Tin-(u)为输入边的正、负影响的邻居集合,sign(w,u)表示边(w,u)上的传播标记。若为‘+’,即点w是正通过边(w,u),反之,则为负通过。
即:Tin+(u)={w|(w,u)∈E,sign(w,u)=′+′}
Tin-(u)={w|(w,u)∈E,sign(w,u)=′-′}
P+(v,w)为边(v,w)的正激活概率,P-(v,w)为边(v,w)的负激活概率
Pr(w,u)为边(w,u)上传播概率。
步骤2、初始化种子集合S能激活其余节点u的正、负影响力估计G+(S,u),G-(S,u)
在求得G+(S,u)之后,要最大化传播后激活为正状态的顶点个数Np(S),只需要最大化I+(S)=∑u∈VG+(S,u);
在本问题中,需要最大化传播后正状态的顶点个数Np(S),即argmaxs∈V,|S|=kNp(S)。S为种子集合,k为种子集合的大小,Np(S)为传播后激活为正状态的顶点个数。
我们引入种子集合S的正影响力估计I+(S)=∑u∈VG+(S,u)。问题即转化为最大化I+(S)。该步骤为初始化,因此对每个节点的G+(S,u),G-(S,u)都设置为0。
步骤3、初始化正影响力效益值F(v)
由于刚开始种子集合S中是没有种子的,因此初始化该效益值,即对所有顶点v计算v所有存在顶点对(v,u)计算正影响力效益值F(v),即
其中,P+(v,u)为顶点v通过边(v,u)正激活顶点u的概率,P-(v,u)为顶点v通过边(v,u)负激活顶点u的概率。
步骤4、使用新加入的种子x计算种子集合S对所有u∈V\S的正、负影响力估计G+(S,u),G-(S,u)
定义G+(S,u),G-(S,u)分别为集合S能激活u为正负的概率;
则有:G+(S,u)=∑v∈SP+(v,u|V-S+v)
其中,V-S+v表示集合V\S∪{v};
因为上式是在V-S+v中计算P+(v,u|V-S+v)及P-(v,u|V-S+v)的,因此对集合S中不同顶点对u的激活路径之间也是相互独立的。G+(S,u),G-(S,u)的值会在步骤6中会使用到。
步骤5、使用新加入种子x对所有u∈V\S计算正、负激活概率P+(v,u),P-(v,u):
P+(v,u)=P+(v,u)-P+(v,x)*P+(x,u)-P-(v,x)*P-(x,u)
P-(v,u)=P-(v,u)-P-(v,x)*P+(x,u)-P-(v,x)*P+(x,u)
其中,P+(v,x)表示v能正影响x的概率,若边(v,x)不存在,则为0;
P+(x,u)表示x能正影响u的概率,若边(x,u)不存在,则为0;
P-(v,x)表示v能负影响x的概率,若边(v,x)不存在,则为0;
P-(x,u)表示x能负影响u的概率,若边(x,u)不存在,则为0;
这时的p+(v,u),P-(v,u)即为舍弃了该节点对(v,u)中包含种子集合S中节点x的路径的正负影响概率,为后续选取种子奠定了概率基础。P+(v,u),P-(v,u)的值将会在步骤6中使用到。
步骤6、使用新加入种子x对u∈V\S计算x加入S之后可以产生的正影响效益I+(S+x)-I+(S),记为F(S,x),取使得F(S,x)最大的x节点,加入集合S中
其中,I+(S+x)为种子集合S加入x后的正影响力,即∑u∈VG+(S+x,u),S+x即为新的种子S,所以我们取步骤4中的G+(S,u);∑u∈VP+(x,u|V-S)中种子节点x为所有节点v中的某一个点,即x∈u,因此我们直接取步骤5中的P+(v,u),I+(S)为种子集合S在加入x之前的正影响力,与前者同理,分别取步骤4以及步骤5中的值。那么相减求得最终加入的新节点x的正影响力效益。
步骤7、依据种子集合个数k确定种子集合S
对种子集合S的最终扩散的影响力的衡量就可以通过每一个节点的影响力效益F(S,x)的大小可以直观上的反应,要先选取最终影响力大的种子节点必然是那些影响力效益较大的节点,对影响力效益从大到小进行排序后,根据种子节点的个数k,依据节点影响力效益F(S,x)从大到小排序,选择数值大的k个节点作为种子集合S。
本发明采用影响力最终扩散的节点数量作为衡量的指标,在Epinions、Slashdot、Twitter、DBLP和Wiki-vote等数据集上经过测试;结合图2,本发明使用MATLAB模拟仿真并在Wiki-vote上和其他方法最终影响力扩散的大小进行比较,我们可以看到最终的激活节点的个数比启发式的模拟退火算法选取的种子所激活的节点数量更高,因此本发明所选择的种子的正影响力更高;结合图3,我们抽取出本方法与其中较好算法的比较,发现本方法的扩展范围是较多的;且本方法可以灵活的选取种子节点的数量,并获取影响力较大的种子集合S,相比于其他现有的方法,本方法一次计算,多次选取,避免了大量的计算模拟,具有较好的实用性和经济效益。
本发明只针对影响力最大化问题提出带符号网络下基于路径分析的影响力最大化方法,将影响力最大化找种子为题化解为寻找独立路径,并分析独立路径上的节点对的概率求解点上最大化效益的问题,即我们在社会网络的初始节点对中可以快速找到一个传播路径很长的节点。大大减少了计算机模拟步骤,缩短了分析每个节点效益的时间。很好地满足了快速寻找种子用户去扩散这样的需求。

Claims (7)

1.一种基于抽样的线性阈值模型下的影响力最大化方法,其特征在于,包括以下步骤:
步骤1、给定有向图G=(V,E),根据有向图G中的所有路径,划分出许多顶点对(v,u),并计算出有向图G的所有顶点对(v,u)的正、负激活概率P+(v,u),P-(v,u);其中V代表有向图的所有节点,E代表有向图的所有边;
步骤2、初始化种子集合S能激活其余节点u的正、负影响力估计G+(S,u),G-(S,u);在求得G+(S,u)之后,要最大化传播后激活为正状态的顶点个数Np(S),只需要最大化种子集合S的正影响力估计I+(S)=∑u∈VG+(S,u);
步骤3、初始化正影响力效益值F(v);
步骤4、使用新加入的种子x计算种子集合S对所有u∈V\S的正、负影响力估计G+(S,u),G-(S,u);
步骤5、使用新加入种子x对所有u∈V\S计算正、负激活概率P+(v,u),P-(v,u);
步骤6、使用新加入种子x对u∈V\S计算x加入S之后可以产生的正影响效益I+(S+x)-I+(S),记为F(S,x),取使得F(S,x)最大的x节点,加入集合S中;
步骤7、依据种子集合个数k确定种子集合S。
2.如权利要求1所述的基于抽样的线性阈值模型下的影响力最大化方法,其特征在于,步骤1中计算有向图G的所有顶点对(v,u)的正、负激活概率P+(v,u),P-(v,u),具体过程如下:
采用蒙特卡洛方法得到P+(v,u),P-(v,u):
节点v到节点u的路径L=(e1,e2,...,el),边ei(i∈[1,l])的概率为pi,那么该路径L上的概率则:
其中:w为输入边的邻居,Tin+(u)和Tin-(u)为输入边的正、负影响的邻居集合, sign(w,u)表示边(w,u)上的传播标记。若为‘+’,即点w是正通过边(w,u),反之,则为负通过。
3.如权利要求2所述的基于抽样的线性阈值模型下的影响力最大化方法,其特征在于,步骤3中初始化正影响力效益值F(v)为:
其中,P+(v,u)为顶点v通过边(v,u)正激活顶点u的概率,P-(v,u)为顶点v通过边(v,u)负激活顶点u的概率。
4.如权利要求3所述的基于抽样的线性阈值模型下的影响力最大化方法,其特征在于,步骤4中使用新加入的种子x计算种子集合S对所有u∈V\S的正、负影响力估计G+(S,u),G-(S,u);具体过程如下:
定义G+(S,u),G-(S,u)分别为集合S能激活u为正负的概率;
则有:G+(S,u)=∑v∈SP+(v,u|V-S+v)
其中,V-S+v表示集合V\S∪{v}。
5.如权利要求4所述的基于抽样的线性阈值模型下的影响力最大化方法,其特征在于,步骤5中使用新加入种子x对所有u∈V\S计算正负激活概率P+(v,u),P-(v,u),具体过程如下:
P+(v,u)=P+(v,u)-P+(v,x)*P+(x,u)-P-(v,x)*P-(x,u)
P-(v,u)=P-(v,u)-P-(v,x)*P+(x,u)-P-(v,x)*P+(x,u)
其中,P+(v,x)表示v能正影响x的概率,若边(v,x)不存在,则为0;
P+(x,u)表示x能正影响u的概率,若边(x,u)不存在,则为0;
P-(v,x)表示v能负影响x的概率,若边(v,x)不存在,则为0;
P-(x,u)表示x能负影响u的概率,若边(x,u)不存在,则为0。
6.如权利要求5所述的基于抽样的线性阈值模型下的影响力最大化方法,其特征在于,步骤6中使用新加入种子x对u∈V\S计算x加入S之后可以产生的正影响效益F(S,x)为:
其中,I+(S+x)为种子集合S加入x后的正影响力,即∑u∈VG+(S+x,u),S+x即为新的种子S,所以我们取步骤4中的G+(S,u);取步骤5中的P+(v,u),I+(S)为种子集合S在加入x之前的正影响力,相减求得最终加入的新节点x的正影响力效益。
7.如权利要求6所述的基于抽样的线性阈值模型下的影响力最大化方法,其特征在于,步骤7中依据种子集合个数k确定种子集合S,具体过程如下:
选取最终影响力大的种子节点必然是那些影响力效益较大的节点,对影响力效益从大到小进行排序后,根据种子节点的个数k,依据节点影响力效益F(S,x)从大到小排序,选择数值大的k个节点作为种子集合S。
CN201811199731.8A 2018-10-16 2018-10-16 基于抽样的线性阈值模型下的影响力最大化方法 Pending CN109409495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811199731.8A CN109409495A (zh) 2018-10-16 2018-10-16 基于抽样的线性阈值模型下的影响力最大化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811199731.8A CN109409495A (zh) 2018-10-16 2018-10-16 基于抽样的线性阈值模型下的影响力最大化方法

Publications (1)

Publication Number Publication Date
CN109409495A true CN109409495A (zh) 2019-03-01

Family

ID=65468084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811199731.8A Pending CN109409495A (zh) 2018-10-16 2018-10-16 基于抽样的线性阈值模型下的影响力最大化方法

Country Status (1)

Country Link
CN (1) CN109409495A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695043A (zh) * 2020-06-16 2020-09-22 桂林电子科技大学 一种基于地理区域的社交网络阻塞影响最大化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695043A (zh) * 2020-06-16 2020-09-22 桂林电子科技大学 一种基于地理区域的社交网络阻塞影响最大化方法

Similar Documents

Publication Publication Date Title
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
Nikolaev et al. On efficient use of entropy centrality for social network analysis and community detection
Zhang et al. Identifying influential nodes in social networks via community structure and influence distribution difference
Manceau et al. Phylogenies support out‐of‐equilibrium models of biodiversity
CN111723298B (zh) 基于改进标签传播的社交网络社团发现方法、装置及介质
Xie et al. A new multi-criteria decision model based on incomplete dual probabilistic linguistic preference relations
CN103207884B (zh) 一种加权网络间的权重迭代节点匹配方法
CN103559407A (zh) 一种用于度量有向加权图中节点亲密度的推荐系统及方法
Zanghi et al. Strategies for online inference of model-based clustering in large and growing networks
Zhu et al. Identifying the main paths of information diffusion in online social networks
CN104050245A (zh) 一种基于活跃度的社交网络影响力最大化方法
CN103593393A (zh) 基于微博互动关系挖掘社交圈的方法及装置
CN110704630A (zh) 一种标识化关联图谱自优化机制
CN106570188B (zh) 一种多主题消息传播中结构洞节点的挖掘方法
CN106022937A (zh) 一种社交网络拓扑结构的推断方法
CN104217013A (zh) 基于项加权和项集关联度的课程正负模式挖掘方法及系统
CN106503858A (zh) 一种训练用于预测社交网络用户转发消息的模型的方法
CN106802958B (zh) Cad数据到gis数据的转换方法及系统
CN109409495A (zh) 基于抽样的线性阈值模型下的影响力最大化方法
CN107016459A (zh) 一种基于网络社区信息的点到点最短路径计算方法
CN104657901A (zh) 一种基于随机游走的标签传播社区发现方法
Pham et al. Beating Social Pulse: Understanding Information Propagation via Online Social Tagging Systems.
CN108021985A (zh) 一种模型参数训练方法及装置
Maity et al. Emergence of fast agreement in an overhearing population: The case of the naming game
Breuer et al. Social network analysis of 45,000 schools: A case study of technology enhanced learning in Europe

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination