CN106484816A - 一种面向团体的影响最大化方法 - Google Patents

一种面向团体的影响最大化方法 Download PDF

Info

Publication number
CN106484816A
CN106484816A CN201610850582.1A CN201610850582A CN106484816A CN 106484816 A CN106484816 A CN 106484816A CN 201610850582 A CN201610850582 A CN 201610850582A CN 106484816 A CN106484816 A CN 106484816A
Authority
CN
China
Prior art keywords
group
point
probability
impact
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610850582.1A
Other languages
English (en)
Inventor
黄浩
张平
颜钱
李宗鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201610850582.1A priority Critical patent/CN106484816A/zh
Publication of CN106484816A publication Critical patent/CN106484816A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种面向团体的影响最大化确定方法,首先对团体的历史“感染”数据进行收集整理,将同一团体内的点看作“感染”概率相同的随机变量(即同质性假设),在同质性假设下计算出点集X的完备概率空间D,通过团体在历史数据上的条件概率独立描述团体的结构化关联并通过熵的计算来构造出关联图IG,接着使用贪心算法在关联图IG上通过影响范围的计算来选择出影响范围最大的大小为k的种子集S;本发明不依赖于点影响关系的获取即可快速定位最有影响力的团体种子集,并且当网络中团体数量远小于点数量时,本文的方法较于一般算法更高效、更准确。

Description

一种面向团体的影响最大化方法
技术领域
本发明属于信息传播领域,尤其涉及一种面向团体的影响最大化方法。
背景技术
互联网的快速发展促使形成了一种可观测的社会网络,为研究信息传播,疾病扩散等现象提供了极大的便利,同时在舆情控制、电视营销、疾病预防等应用的驱动下,如何从给定网络中寻找一组有限子集,并根据影响的级联传递,使得该子集的影响最大化的问题受到了广泛的关注。目前关于影响最大化的研究对象主要聚焦于实体点(如个人或博客),通过这些实体点的影响关系,设计相关的算法搜索具有最大影响力的k-点组合。但是,在现实生活中,人们的更加趋向于分析团体(如社区或各类人群)组合的影响力,来对即将实施的行为做出指导。
一个团体的影响力通常视为其内所有“感染”(如采纳谣言或购买产品)点的影响力之和。团体间的影响本质上是团体间点的影响,但在基于团体粒度上的影响最大化分析,导致了点影响关系的不可见,从而使得团体间影响存在不确定性,同时团体作为点的集合可能被多个邻居同时影响并且状态为连续取值,使得在动态模拟团体影响传递时需要建立更加复杂的规则来计算影响大小。所以,在基于团体粒度上的影响最大化分析时,如何表达团体的不确定性影响并描述团体影响传递过程是关键与难点。
发明内容
为了解决上述技术问题,本发明提供了一种面向团体影响最大化方法。通过使用概率关联的形式描述团体影响的不确定性,并通过对团体历史“感染”数据进行统计计算得到团体影响的量值。
本发明所采用的技术方案是:
一种面向团体的影响最大化确定方法,其特征在于,定义团体集M的每一个团体mi对应的点集为mi(x),从每个mi(x)中选择一个点组成点集X,记X={x1,...,x|M|}。在疾病cl下,X中任一点xi的是否被感染认为是cl对xi的不确定性影响造成的,记xi感染cl的概率为pl(xi),未感染cl的概率为1-pl(xi)。
步骤1:设定阈值ε,使用团体集M构造一个以团体为结点的完全图IG*(M,I,W)。然后在概率空间D上计算点集X中任意两个点xi、xj的互信息熵Inf(xi,xj),并根据Inf(xi,xj)和阈值ε阈比较结果选择:
若Inf(xi,xj)<ε,说明xi、xj对应的团体mi、mj不存在关联,则直接从图IG*(M,I,W)中删去边Ii,j
若Inf(xi,xj)≥ε,则计算xi、xj的条件概率独立程度ind(xi,xj)来判断关联类型:若ind(xi,xj)=0,则xi、xj对应的团体mi、mj不存在直接关联,直接从图IG*(M,I,W)中删除边Ii,j;如果ind(xi,xj)>0,说明xi、xj对应的团体mi、mj存在直接关联,则将图IG*(M,I,W)中的边Ii,j的权值设置为wij=ind(xi,xj)。将删除IG*(M,I,W)中所有无关联的边后得到图记为IG(M,I,W)。X中任意两个点xi、xj的条件概率独立程度的具体计算为:
其中ε为给定的阈值;Inf((xi,xj)|(X-(xi,xj)))为xi和xj关于{X-(xi,xj)}的条件互信息熵。
步骤2:初始化一个空集S作为种子集。对于团体集合M中的每一个团体mi,以S∪mi作为备选种子,计算S∪mi的影响范围σ(S∪mi),选取边际影响收益σ(S∪mi)-σ(S)最大的mi加入S并从团体集合M中删除该团体,重复此过程直到种子集S的大小达到预设的大小k。每个网络中不同k值得到的种子集S的影响范围函数σ(S)的计算为:
其中Rj表示团体mj中受感染的个体的比例;N(j)表示在图IG中和mj直接相连的结点集合;n表示N(j)其中的一个结点;child(j)表示集合N(j)中和S之间存在轨的结点的集合;c表示child(j)其中的一个结点;wcj表示结点c和结点j之间的边Ic,j的权值;λ为设定激活因子。
在上述的一种面向团体的影响最大化确定方法,xi被感染或未感染的定义如下:在将同一团体内的点看作同质时,认为pl(xi)=Hli。对于点集X中的每一个点xi,使用一个二元变量ei来表示其状态,ei=1表示xi的状态为感染,ei=0表示xi的状态为未感染。点集X的一个状态取值为Ex=(x1=e1,…,x|M|=e|M|),计算出X在整个疾病集C下以不同状态取值Ex出现的概率p(X=Ex),从而得到在同质性假设下H上点集状态的完备概率空间D。p(X=Ex)的具体计算为:
其中|C|表示在社会网络中总共发生“疾病”的次数;|M|表示团体集M的大小;pl(xi)表示xi“感染”cl的概率;ei是xi的状态取值。
在上述的一种面向团体的影响最大化确定方法,对于疾病cl的定义为:社会网络中,疾病的每次出现引起一次传播过程,第l次疾病使用cl来表示,并将网络中总共发生的|C|次疾病用集合C={c1…c|C|}表示。当cl∈C传播停止后,网络中由|M|个团体组成的团体集M={m1,...,m|M|}受感染程度记为其中表示团体mi在第l次疾病中被感染的比例,并使用一张|C|×|M|二维表H组织整个历史数据,表中l行第i个元素
在上述的一种面向团体的影响最大化确定方法,所述步骤1中,ε∈(0,1)。
在上述的一种面向团体的影响最大化确定方法,所述步骤2中,λ∈[0,1]。
因此,本发明具有如下优点:本发明通过团体在历史数据上的条件概率独立描述团体的结构化关联,进而根据关联强弱推测其间不确定性影响,并结合团体“感染”程度动态计算团体影响范围,最后使用贪心算法搜索最大影响力的k-团体组合。
附图说明
图1是本发明实施例的流程图。
图2a是本发明实施例的网络Net1中k值得到的种子集S的影响范围图。
图2b是本发明实施例的网络Net2中k值得到的种子集S的影响范围图。
图2c是本发明实施例的网络Net3中k值得到的种子集S的影响范围图。
图2d是本发明实施例的网络Dblp中k值得到的种子集S的影响范围图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
在本实施例中,我们使用了四个网络(如表1所示),其中网络Net1,Net2和Net3是采用LFR算法在人工数据集上生成的人工网络,Dblp是一个作者合作网络,其中结点表示作者,边表示两个作者之间存在合作关系。每个网络的历史数据生成过程如下:假定网络中点的传播概率相同,每次“疾病”传播过程中,从测试网络中随机选择1%的点作为“感染”点,并根据IC模型进行影响传播模拟,在传播模拟结束后,记录各个团体的“感染”状态作为一条记录,并生成多条记录作为实验的观测数据集。
表1实验网络
请见图1,本发明包括以下步骤:
步骤1:在社会网络中,“疾病”的每次出现引起一次传播过程,第l次“疾病”使用cl来表示,并将网络中总共发生的|C|次“疾病”用集合C={c1…c|C|}表示。当cl∈C传播停止后,网络中由|M|个团体组成的团体集M={m1,...,m|M|}受“感染”程度记为其中表示团体mi在第l次“疾病”中被“感染”的比例,并使用一张|C|×|M|二维表H组织整个历史数据,表中l行第i个元素
步骤2:设团体集M的每一个团体mi对应的点集为mi(x),从每个mi(x)中选择一个点组成点集X,记X={x1,...,x|M|}。在“疾病”cl下,X中任一点xi的是否被“感染”可认为是cl对xi的不确定性影响造成的,记xi“感染”cl的概率为pl(xi),“未感染”cl的概率为1-pl(xi)。在将同一团体内的点看作同质时(简称为同质性假设),认为pl(xi)=Hli。对于点集X中的每一个点xi,使用一个二元变量ei来表示其状态,ei=1表示xi的状态为“感染”,ei=0表示xi的状态为“未感染”。设点集X的一个状态取值为Ex=(x1=e1,…,x|M|=e|M|),计算出X在整个“疾病”集C下以不同状态取值Ex出现的概率p(X=Ex),从而得到在同质性假设下H上点集状态的完备概率空间D。p(X=Ex)的具体计算为:
其中|C|表示在社会网络中总共发生“疾病”的次数;|M|表示团体集M的大小;pl(xi)表示xi“感染”cl的概率;ei是xi的状态取值。
步骤3:首先使用团体集M构造一个以团体为结点的完全图IG*(M,I,W)。然后在概率空间D上计算点集X中任意两个点xi、xj的互信息熵Inf(xi,xj),如果Inf(xi,xj)小于给定的阈值ε,说明xi、xj对应的团体mi、mj不存在关联,则直接从图IG*(M,I,W)中删去边Ii,j。如果Inf(xi,xj)≥ε,则进一步计算xi、xj的条件概率独立程度ind(xi,xj)来判断关联类型:若ind(xi,xj)=0,说明xi、xj对应的团体mi、mj不存在直接关联,直接从图IG*(M,I,W)中删除边Ii,j;如果ind(xi,xj)>0,说明xi、xj对应的团体mi、mj存在直接关联,则将图IG*(M,I,W)中的边Ii,j的权值设置为wij=ind(xi,xj)。将删除IG*(M,I,W)中所有无关联的边后得到图记为IG(M,I,W)。X中任意两个点xi、xj的条件概率独立程度的具体计算为:
其中ε为给定的阈值;Inf((xi,xj)|(X-(xi,xj)))为xi和xj关于{X-(xi,xj)}的条件互信息熵,其中,ε∈(0,1)。
步骤4:初始化一个空集S作为种子集。对于团体集合M中的每一个团体mi,以S∪mi作为备选种子,计算S∪mi的影响范围σ(S∪mi),选取边际影响收益σ(S∪mi)-σ(S)最大的mi加入S并从团体集合M中删除该团体,重复此过程直到种子集S的大小达到预设的大小k。每个网络中不同k值得到的种子集S的影响范围如图2所示。影响范围函数σ(S)的计算为:
其中Rj表示团体mj中受感染的个体的比例;N(j)表示在图IG中和mj直接相连的结点集合;n表示N(j)其中的一个结点;child(j)表示集合N(j)中和S之间存在轨的结点的集合;c表示child(j)其中的一个结点;wcj表示结点c和结点j之间的边Ic,j的权值;λ为设定激活因子,其中,λ∈[0,1]。
本发明研究了团体影响最大化问题,通过研究使用历史“感染”数据中团体的概率关联给出了一种高效的团体最大化算法。该方法不依赖于点影响关系的获取即可快速定位最有影响力的团体种子集。并且当网络中团体数量远小于点数量时,本文的方法算法较一般算法更高效、更准确。
应当理解的是,本说明书未详细阐述的部分均属于现有技术,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (5)

1.一种面向团体的影响最大化确定方法,其特征在于,定义团体集M的每一个团体mi对应的点集为mi(x),从每个mi(x)中选择一个点组成点集X,记X={x1,...,x|M|};在疾病cl下,X中任一点xi的是否被感染认为是cl对xi的不确定性影响造成的,记xi感染cl的概率为pl(xi),未感染cl的概率为1-pl(xi);
步骤1:设定阈值ε,使用团体集M构造一个以团体为结点的完全图IG*(M,I,W);然后在概率空间D上计算点集X中任意两个点xi、xj的互信息熵Inf(xi,xj),并根据Inf(xi,xj)和阈值ε阈比较结果选择:
若Inf(xi,xj)<ε,说明xi、xj对应的团体mi、mj不存在关联,则直接从图IG*(M,I,W)中删去边Ii,j
若Inf(xi,xj)≥ε,则计算xi、xj的条件概率独立程度ind(xi,xj)来判断关联类型:若ind(xi,xj)=0,则xi、xj对应的团体mi、mj不存在直接关联,直接从图IG*(M,I,W)中删除边Ii,j;如果ind(xi,xj)>0,说明xi、xj对应的团体mi、mj存在直接关联,则将图IG*(M,I,W)中的边Ii,j的权值设置为wij=ind(xi,xj);将删除IG*(M,I,W)中所有无关联的边后得到图记为IG(M,I,W);X中任意两个点xi、xj的条件概率独立程度的具体计算为:
i n d ( x i , x j ) = w i j w i j > ϵ 0 w i j ≤ ϵ , w i j = I n f ( ( x i , x j ) | ( X - ( x i , x j ) ) )
其中ε为给定的阈值;Inf((xi,xj)|(X-(xi,xj)))为xi和xj关于{X-(xi,xj)}的条件互信息熵;
步骤2:初始化一个空集S作为种子集;对于团体集合M中的每一个团体mi,以S∪mi作为备选种子,计算S∪mi的影响范围σ(S∪mi),选取边际影响收益σ(S∪mi)-σ(S)最大的mi加入S并从团体集合M中删除该团体,重复此过程直到种子集S的大小达到预设的大小k;每个网络中不同k值得到的种子集S的影响范围函数σ(S)的计算为:
σ ( S ) = Σ m j ∈ M | m j | × η S → j , η S → j = R j m j ∈ S 1 - Π c ∈ c h l i d ( j ) ( 1 - η S → c × λw c j Σ n ∈ N ( j ) w n j ) m j ∉ S
其中Rj表示团体mj中受感染的个体的比例;N(j)表示在图IG中和mj直接相连的结点集合;n表示N(j)其中的一个结点;child(j)表示集合N(j)中和S之间存在轨的结点的集合;c表示child(j)其中的一个结点;wcj表示结点c和结点j之间的边Ic,j的权值;λ为设定激活因子。
2.根据权利要求1所述的一种面向团体的影响最大化确定方法,其特征在于,xi被感染或未感染的定义如下:在将同一团体内的点看作同质时,认为pl(xi)=Hli;对于点集X中的每一个点xi,使用一个二元变量ei来表示其状态,ei=1表示xi的状态为感染,ei=0表示xi的状态为未感染;点集X的一个状态取值为Ex=(x1=e1,…,x|M|=e|M|),计算出X在整个疾病集C下以不同状态取值Ex出现的概率p(X=Ex),从而得到在同质性假设下H上点集状态的完备概率空间D;p(X=Ex)的具体计算为:
p ( X = E x ) = 1 | C | Σ l = 1 | C | ( Π i = 1 | M | p l ( x i ) e i ( 1 - p l ( x i ) ) 1 - e i )
其中|C|表示在社会网络中总共发生“疾病”的次数;|M|表示团体集M的大小;pl(xi)表示xi“感染”cl的概率;ei是xi的状态取值。
3.根据权利要求1所述的一种面向团体的影响最大化确定方法,其特征在于,对于疾病cl的定义为:社会网络中,疾病的每次出现引起一次传播过程,第l次疾病使用cl来表示,并将网络中总共发生的|C|次疾病用集合C={c1...c|C|}表示;当cl∈C传播停止后,网络中由|M|个团体组成的团体集M={m1,...,m|M|}受感染程度记为其中表示团体mi在第l次疾病中被感染的比例,并使用一张|C|×|M|二维表H组织整个历史数据,表中l行第i个元素
4.根据权利要求1所述的一种面向团体的影响最大化确定方法,其特征在于,所述步骤1中,ε∈(0,1)。
5.根据权利要求1所述的一种面向团体的影响最大化确定方法,其特征在于,所述步骤2中,λ∈[0,1]。
CN201610850582.1A 2016-09-26 2016-09-26 一种面向团体的影响最大化方法 Pending CN106484816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610850582.1A CN106484816A (zh) 2016-09-26 2016-09-26 一种面向团体的影响最大化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610850582.1A CN106484816A (zh) 2016-09-26 2016-09-26 一种面向团体的影响最大化方法

Publications (1)

Publication Number Publication Date
CN106484816A true CN106484816A (zh) 2017-03-08

Family

ID=58268153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610850582.1A Pending CN106484816A (zh) 2016-09-26 2016-09-26 一种面向团体的影响最大化方法

Country Status (1)

Country Link
CN (1) CN106484816A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388976A (zh) * 2018-01-17 2018-08-10 鲜大立 基于文化基因质量的文化软实力值的检测方法、装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571954A (zh) * 2011-12-02 2012-07-11 北京航空航天大学 基于节点核心影响力的复杂网络聚类方法
CN105956184A (zh) * 2016-06-01 2016-09-21 西安交通大学 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571954A (zh) * 2011-12-02 2012-07-11 北京航空航天大学 基于节点核心影响力的复杂网络聚类方法
CN105956184A (zh) * 2016-06-01 2016-09-21 西安交通大学 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张平等: ""一种面向团体的影响最大化方法"", 《软件学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388976A (zh) * 2018-01-17 2018-08-10 鲜大立 基于文化基因质量的文化软实力值的检测方法、装置

Similar Documents

Publication Publication Date Title
Ibnoulouafi et al. M-centrality: identifying key nodes based on global position and local degree variation
Barrett et al. Generation and analysis of large synthetic social contact networks
Li et al. An evolutionary game for the diffusion of rumor in complex networks
Gubar et al. Optimal control of influenza epidemic model with virus mutations
Wang et al. Computational models and optimal control strategies for emotion contagion in the human population in emergencies
CN106127590A (zh) 一种基于节点影响力的信息态势感知及传播管控模型
Dash et al. Exact model averaging with naive Bayesian classifiers
Ahmad et al. HWSMCB: A community-based hybrid approach for identifying influential nodes in the social network
Wang et al. Social network rumors spread model based on cellular automata
CN114298009B (zh) 混合信息传播动力学模型及其信息传播分析方法
Zhao et al. Impact of individual interest shift on information dissemination in modular networks
Ning et al. Effects of social network structures and behavioral responses on the spread of infectious diseases
Wang et al. Effects of trust-driven updating rule based on reputation in spatial prisoner’s dilemma games
CN106484816A (zh) 一种面向团体的影响最大化方法
Cheriyan et al. Spreadmax: a scalable cascading model for influence maximization in social networks
Lahiri et al. The impact of structural changes on predictions of diffusion in networks
Silva et al. Information spreading in a population modeled by continuous asynchronous probabilistic cellular automata
Schumm et al. Epidemic spreading on weighted contact networks
Mihara et al. On the effectiveness of random jumps in an influence maximization algorithm for unknown graphs
Dickman et al. Computational model of a vector-mediated epidemic
Ravelo et al. NP-hardness and evolutionary algorithm over new formulation for a Target Set Selection problem
Fay et al. Centrality and mode detection in dynamic contact graphs; a joint diagonalisation approach
Aminolroaya et al. How Iranian Instagram users act for parliament election campaign? a study based on followee network
CN106651605A (zh) 一种基于计算机大数据的临时社交网络确定系统
Wang et al. A novel rumour propagation model on social networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170308