CN105868315A

CN105868315A - 一种基于遗忘规律的社会网络信息传播方法

Info

Publication number: CN105868315A
Application number: CN201610179681.1A
Authority: CN
Inventors: 王红滨; 印桂生; 刘红丽; 陈晓龙; 冯梦园; 张玉鹏; 刘广强; 杨楠; 徐琳; 李华峰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2016-08-17
Anticipated expiration: 2036-03-25
Also published as: CN105868315B

Abstract

一种基于遗忘规律的社会网络信息传播方法，本发明涉及基于遗忘规律的社会网络信息传播方法。本发明的目的是为了解决现有技术没有考虑到影响力会随时间而不断衰减、没有考虑到人们第一次接收信息与之后每次接收信息的不同反应的问题。具体过程为：一：设置初始的激活节点集合S；二：在时间t_x时，激活态节点对未激活态邻居节点v进行激活；三：如果未激活态邻居节点v被激活成功，那么在t_x+1时刻，未激活态邻居节点v转变为激活状态，并尝试激活其邻接的未激活节点x；否则未激活态邻居节点v不发生变化；四：重复执行二和三，直到不存在有未扩散的激活节点，传播过程结束。本发明应用于网络信息传播领域。

Description

一种基于遗忘规律的社会网络信息传播方法

技术领域

本发明涉及基于遗忘规律的社会网络信息传播方法。

背景技术

信息传播(Information Diffusion)是人们通过符号、信号，传递、接收与反馈信息的活动，是人们彼此交换意见、思想、情感，以达到相互了解和影响的过程。社会网络信息传播模型特指以社会网络为媒介进行的信息传播过程^[1](方滨兴等.在线社交网络分析.电子工业出版社,2014:302页)。

社会网络信息传播模型和社会网络影响力最大化问题是社会网络分析里两个关键的研究问题。社会网络影响力最大化的主要目的，是要通过已有的社会网络关系，挖掘出网络里影响力最大的TOP-K节点集合，在市场营销、疾病防治、谣言控制等各类重要的场景里有着广泛的应用。而对社会网络信息传播过程的研究，有助于加深对社交系统的认识，理解社交现象，以及对复杂社会网络的拓扑结构和属性、传播能力、动力学行为等有进一步的认识。此外，研究社会网络传播过程也有助于个性化推荐、影响力最大的节点识别、模式发现等方面的研究。

例如，在市场营销领域，“病毒式营销”^[2](Richardson M,Domingos P.Miningknowledge-sharing sites for viral marketing.Proceedings of the eighth ACMSIGKDD international conference on Knowledge discovery and data mining.ACM,New York,NY,USA,2002:61-70P)^，[3](Goldenberg J,Libai B,Muller E.Using complexsystems analysis to advance marketing theory development:Modelingheterogeneity effects on new product growth through stochastic cellularautomata.Academy of Marketing Science Review,2001,9(3):1-18P)^，[4](Mahajan V,Muller E,Bass F M.New product diffusion models in marketing:A review anddirections for research.The journal of marketing,1990:1-26P)和“口碑效应”^[5](Brown J J,Reingen P H.Social ties and word-of-mouth referralbehavior.Journal of Consumer research,1987:350-362P)^-[6](Goldenberg J,Libai B,Muller E.Talk of the network:A complex systems look at the underlying processof word-of-mouth.Marketing letters,2001,12(3):211-223P)是对社会网络信息传播模型和社会网络影响力最大化最好的应用。商业公司总是希望以最小的代价将新研制的产品推广到市场上并被大部分人群所接受。为此，商业公司会先针对少数有“影响力”的用户，向这一小部分用户赠送新产品样本供其免费试用。这部分人试用之后，再通过称为“口碑效应”的传统口耳相传方式推荐给周围的人，周围的人再推荐给他们周围的人，最终将新产品推广给了市场上的大部分人。在这类场景里，信息的传递与病毒的传染方式如出一辙，因而经济学上称此类信息传递方式为“病毒式营销”。在此过程中，选择少数最有“影响力”的用户，即是社会网络影响力最大化的应用，而要估计出信息如何在网络里进行传播扩散以及最终可以影响的范围或人数，即是社会网络信息传播模型的应用。

近些年社会网络的迅猛发展，为社会网络分析提供了海量真实的数据，而社会网络信息传播模型作为社会网络分析研究的关键问题之一，在认识信息传播规律和研究信息传播机制上取得了阶段性成果。其中，独立级联模型和线性阈值模型是最基础的模型，其他新型的传播模型几乎是基于独立级联模型和线性阈值模型之上提出的。

独立级联模型(Independent Cascade Model)^[3](Goldenberg J,Libai B,MullerE.Using complex systems analysis to advance marketing theory development:Modeling heterogeneity effects on new product growth through stochasticcellular automata.Academy of Marketing Science Review,2001,9(3):1-18P),^[6](Goldenberg J,Libai B,Muller E.Talk of the network:A complex systems look atthe underlying process of word-of-mouth.Marketing letters,2001,12(3):211-223P)，是基于相互粒子系统而设计的概率模型，由Jacob Goldenberg等人在研究市场营销模型时提出。

独立级联模型的设定是已激活节点u尝试激活其邻接未激活节点v的行为是否成功是一个概率为ρuv的事件，且一个处于未激活状态的节点被刚进入激活状态的邻居节点激活的概率独立于之前曾尝试过激活该节点的邻居的活动。此外该模型还做出了这样的设定：处于激活状态的节点有且仅有一次以激活概率ρ对相邻未激活状态的节点进行激活的机会，如果激活概率ρ大于被激活节点的阈值，则被影响节点由未激活状态转变为激活状态，即激活行为成功；反之激活行为失败，被影响的节点维持原状态并且发起激活行为的节点以后再无激活该被影响节点的机会。

独立级联模型的主要特点是：针对同一次激活过程，尽管未激活节点同时有数个已激活的邻居节点，但未激活节点每次仅受单一已激活节点的影响，多个已激活邻居节点的影响是相互独立的；该次激活失败，以后将不再对之前进行激活的节点进行再次激活；激活节点v对未激活节点u的影响力ρuv是随机获得的；由于独立级联模型是概率模型，因此对于给定的同一初始节点集合每次的激活过程不确定从而产生不同的激活结果，而且结果之间可能会有较大的差异，所以一般会进行多次实验并计算平均值来评定最终的结果。独立级联模型的缺点是，忽略了一个常见的传播规律，即节点在第一次被尝试激活与第一次被激活失败后的每一次被尝试激活时的行为是不同的。

线性阈值模型

线性阈值模型(Linear Threshold Model)^[7](Granovetter M.Threshold modelsof collective behavior.American journal of sociology,1978:1420-1443P)^-[8](Goyal A,Lu W,Lakshmanan L V S.Simpath:An efficient algorithm for influencemaximization under the linear threshold model.Data Mining(ICDM),2011 IEEE11th International Conference on.IEEE Computer Society,Washington,DC,USA,2011:211-220P)，是一类合作激活的传播模型。在传播开始之前，所有的未激活节点v都存在阈值θv，θv∈[0,1]，该阈值指明节点受到外界影响之后被激活的难易程度，阈值越大说明该节点越难被激活，阈值越小说明该节点越容易被激活。激活节点u对未激活的邻居节点v的影响力为buv，节点v的受到所有邻居节点的影响力总和不超过1，即

\underset{u &Element; N (v)}{Σ} b_{u v} \leq 1 - - - (1)

式中，u∈N(v)，N(v)是v所有的邻居节点集合。

在任意时刻，如果未激活节点v的所有激活节点u对v的综合影响力不小于阈值θ(v)，即

\underset{u &Element; N A (v)}{Σ} b_{u v} &GreaterEqual; θ (v) - - - (2)

式中，u∈NA(v)，NA(v)是u所有的激活邻居节点集合，θ(v)是节点v的阈值。则节点v被激活，节点v将加入初始节点集合并对相邻的未激活邻居节点产生影响。

线性阈值模型的主要特点是：针对同一次激活过程，未激活节点将受到所有已激活邻居节点的影响；若已激活节点这次没有成功激活处于未激活状态的邻居节点，在下次激活过程中仍可对其产生影响；已激活节点对未激活节点的影响力是在传播开始之前根据某类算法确定的，而不是随机获得的；相对于独立级联模型来说，线性阈值模型的传播结果是确定的，即通过给定的同一初始激活节点集合开始传播，最终激活的节点数量是相同的，最后的传播范围也相同的。线性阈值模型的缺点同独立级联模型类似，也忽略了一个常见的传播规律，即节点在第一次被尝试激活与第一次被激活失败后的每一次被尝试激活时的行为是不同的；此外，线性阈值模型里节点累积的影响力是固定不变的，不符合遗忘规律。

发明内容

本发明的目的是为了解决现有技术没有考虑到影响力会随时间而不断衰减、没有考虑到人们第一次接收信息与之后每次接收信息的不同反应的问题，而提出一种基于遗忘规律的社会网络信息传播方法。

具体是按照以下步骤制备的：

步骤一：设置初始的激活节点集合S；

步骤二：在时间t_x时，网络里激活态节点对网络里未激活态邻居节点v进行激活；

步骤三：如果未激活态邻居节点v被激活成功，那么在t_x+1时刻，未激活态邻居节点v转变为激活状态，并尝试激活其邻接的未激活节点x；

否则，未激活态邻居节点v在t_x+1时刻状态不发生变化；

步骤四：重复执行步骤二和步骤三，直到网络中不存在有未扩散的激活节点，传播过程结束。

发明效果

混合式传播模型，该模型通过吸收线性阈值模型和独立级联模型的优点，修改其缺点，引入遗忘规律和人们对待第一次接收信息和之后再次接收信息的不同态度这一现象，提出更加符合影响力在现实人际关系社会网络里的传播规律的传播模型。

混合式传播模型的基本思想来源于影响力在真实人际关系社会网络的传播的观察和思考：人们第一次听说某个想法或观念时，因为之前从未接触过，因而对其接受的可能性完全是随机的，主要取决于这一想法或观念自身的属性；如果人们第一次未接受该想法或观念，以后再次接触这个想法或者观念的时候，其接受的可能性就不是随机的了，而是依据之前周围推荐(尽管失败了)的人对其的影响力和现在推荐的人的影响力之和；此外，根据遗忘规律，人们的记忆会随着时间慢慢消失，因此，之前推荐失败累积在人们身上的影响力会随着时间的推进而不断减小，直至消失。

本发明依据对现实生活里信息传播的观察和思考，提出了一种新型的影响力传播模型，混合式传播模型。该模型的基本思想是，节点在第一次和尝试激活时激活概率是随机的，而之后每一次被尝试激活时的激活概率依据之前所有尝试激活该节点并失败的节点对其累积的影响力和现在尝试激活该节点的节点对其的影响力之和；此外，按照遗忘规律，尝试激活失败的节点留下的累积影响力会随着时间的推进而不断衰减。在确定b_uv、θ_v和b’_uv函数之后，基于Wikipedia数据集，分别使用TOP-K重合率和TOP-K影响节点重合率验证了混合式传播模型的有效性。TOP-K的K值取500时，本发明混合式传播模型下TOP-K节点的重合率比线性阈值模型下TOP-K影响范围重合率提高了16.2％，比独立级联模型下TOP-K节点的重合率提高了26.5％。

附图说明

图1是混合传播模型传播过程示意图；

图2是不同传播模型下TOP-K节点的重合率，H代表混合式传播模型，IC代表独立级联模型，LT代表线性阈值模型；

图3是不同模型下TOP-K影响范围重合率，H代表混合式传播模型，IC代表独立级联模型，LT代表线性阈值模型。

具体实施方式

具体实施方式一：本实施方式的一种基于遗忘规律的社会网络信息传播方法，具体是按照以下步骤制备的：

步骤一：设置初始的激活节点集合S；

否则，未激活态邻居节点v在t_x+1时刻状态不发生变化；

具体实施方式二：本实施方式与具体实施方式一不同的是：步骤二所述在时间t_x时，网络里激活态节点对它的未激活态邻居节点v进行激活；具体过程为：

网络里任意节点只能处于两种状态：激活状态或者未激活状态；处于激活状态的节点(或称已激活节点)对处于未激活状态的节点(或称未激活节点)有影响力，这种影响力会使处于未激活状态的节点转变为激活状态，并且节点的这种状态改变是单向的，即只能从未激活状态转变为激活状态；

所述影响力包括第一次的随机影响力和第一次之后的固定影响力；

随机影响力：未激活节点在第一次被相邻的已激活节点尝试激活时受到的影响力，是随机产生的。

固定影响力：根据某种特定的算法(比如我们文章里的buv＝1/d)，节点在第一次被激活失败之后累积的影响力就是固定影响力，在之后的每次尝试激活时节点收到的影响力就变成固定影响力了，之后累积的也是固定影响力。

根据未激活态邻居节点v是否是第一次被尝试激活分为两种情况：

第一种，未激活态邻居节点v是第一次被尝试激活，则激活态节点u对未激活态邻居节点v激活成功的概率为随机值ρ_uv，如果ρ_uv>＝θ_v，则未激活态邻居节点v被成功激活，被成功激活的节点v将加入激活节点集合S；

INF_v＝ρ_uv

如果ρ_uv<θ_v，则未激活态邻居节点v激活失败，未激活态邻居节点v记录激活态节点u对未激活态邻居节点v的固定影响力b_uv、时间t_x，然后将固定影响力b_uv累积到节点v的累积影响力总和INF_v；

所述，θ_v为混合式传播模型为网络里每个未激活态邻居节点v的阈值，θ_v∈[0,1]，该阈值表示该节点受到影响的难易程度，且在传播过程中不变化；

第二种，未激活态邻居节点v不是第一次被尝试激活，则激活态节点_w对未激活态邻居节点v激活成功的固定影响力为b_wv，利用公式(3)和公式(4)计算累积影响力INF_v，如果INF_v>＝θ_v，则未激活态邻居节点v被成功激活，否则激活失败，未激活态邻居节点v记录激活态节点W对未激活态邻居节点v的固定影响力b_wv、时间t_x，然后将固定影响力b_wv累积到节点v的累积影响力总和INF_v；b_wv会随着时间的推进而不断减小，直至影响力b_wv无限接近0；

所述，b_wv为任意未激活态节点v将受到邻居节点W的固定影响力，节点W对节点v的这种固定影响力仅在节点W处于激活状态时有效；b_wv根据某种特定的算法计算得到，且任意未激活态节点v受到其所有邻居节点w的固定影响力之和不大于1；

累积影响力INF_v的计算公式如下：

式中，Fail(v)是所有激活态节点u尝试激活未激活态邻居节点v但失败的节点集合，W是当前正在尝试激活未激活态邻居节点v的已激活节点，t_init是激活态节点u第一次尝试激活未激活态邻居节点v的时间，t_now是当前节点W尝试激活节点v的时间，b'_uv表示随着时间的推进固定影响力b_uv衰减后的影响力大小，由公式(3)和公式(4)可知，b'_uv是关于b_uv、t_init和t_now的函数。

激活态节点u是泛指，包括之前激活失败的激活态节点和现在的激活态节点w。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述公式(4)的具体过程为：

b_{u v}^{'} = \frac{b_{u v}}{l n (t_{n o w} - t_{i n i t} + e)} - - - (6)

式中，e为自然底数。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：其特征在于所述

b_uv＝1/d_v (5)

其中，d_v表示未激活态邻居节点v的度数。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：步骤四所述未扩散的激活节点为节点处于激活状态，但是还未尝试激活邻居节点；

在网络里的任意处于激活状态的节点u只有一次机会尝试激活其处于未激活状态的邻居节点v，无论是否激活成功，在以后的传播过程里，节点u仍将处于激活状态，但是失去对其他节点的影响力，即不能再尝试激活其他节点，称这类节点为已扩散节点，反之，如果节点处于激活状态，但是还未向尝试激活邻居节点，称之为未扩散节点；已扩散节点和未扩散节点，都是激活状态的节点。

其它步骤及参数与具体实施方式一至四之一相同。

实施例：

为了加深对混合式传播模型传播过程的了解，本小节将通过在简单的社会网络图里演示混合式传播模型的具体传播过程。

为了方便起见，假设任意节点v和节点u之间的固有影响力的计算公式为b_uv＝1/k_max，其中k_max是社会网络了的最大度数；b_uv随着时间的不断推进之后计算公式为，b’_uv＝b_uv/(t_now-t_init+1)。注意，这里b_uv和b’_uv的确定只是符合混合式传播模型里规则的要求，仅是为了演示混合式传播模型的传播过程，并不一定能够取得比较好的实验结果。

根据假设的b_uv的计算公式，图1所示的网络里，b_uv＝0.25。另外，假设各节点的阈值分别为，θ_a＝0.4，θ_b＝0.7，θ_c＝0.5，θ_d＝0.6，θ_e＝0.5，θ_f＝0.3，且选定节点b为初始激活节点。

基于图1的混合式传播模型的传播过程如下：

第0时间步：节点b被激活，未扩散节点集合S＝{b}。

第1时间步：未扩散节点集合S＝{b}里的节点b依次去尝试激活节点a、节点c、节点d和节点f(节点a、c、d、f第一次被尝试激活)，且ρ_ba>θ_a，ρ_bc>θ_c，ρ_bd>θ_d，ρ_bf>θ_f，节点a、节点c和节点f被成功激活，加入集合S，节点d被激活失败，INF_d＝b’_bd，节点b 的扩散完成，从集合S里移出b，第1时间步结束后，未扩散节点集合S＝{a,c，f}。

第2时间步：未扩散节点集合S＝{a,c,f}里的节点c去尝试激活节点e并成功激活，节点c尝试激活节点d，此时INF_d＝b’_bd+b’_cd＝b_bd*(2–1+1)+b’_cd*(2–2+1)＝0.375<θ_d，激活失败；紧接着，节点f尝试激活节点d，INF_d＝b’_bd+b’_cd+b’_fd＝0.625>θ_d，节点d被成功激活。第2时间步结束时，未扩散节点集合S＝{e,d}。

第3时间步：未扩散节点集合S＝{e,d}里的节点e和节点d没有未激活的邻居节点，无需再扩散，此时未扩散节点集合整个传播过程结束。

仿真实验：

确定混合式传播模型里函数b_uv、θ_v和函数b’_uv的过程为：并在Wikipedia数据集上通过两种方法来验证混合式传播模型的有效性。

混合式传播模型在应用到具体的实际应用中之前需要先确定b_uv、θ_v和b’_uv的计算公式，b_uv和b’_uv计算公式的选择，关乎到混合式传播模型是否可以有效地模拟影响力在现实的社会网络里的传播。

在现实生活里，一般有这样的一种认同：在一个人所有的朋友对其影响相同的情况下，如果一个人的朋友较少，仅有的这几位朋友中单独每一位的意见将对该人产生较大的影响；如果一个人的朋友较多，那么这些朋友中单独的每一位将对该人产生较小的影响。此外，根据混合式传播模型的规则，

根据节点v受到的所有邻居节点的固定影响力之和不大于1，此处，取固定影响力之和等于1；假设节点v受到所有邻居节点的固定影响力是相同，且所有固定影响力的总和为1，因此，可以得出任一邻居节点u对节点v的固定影响力b_uv的计算公式^[15](陈浩.基于阈值的社会网络影响力最大化算法.复旦大学硕士学位论文.2012:24-35页)为：

b_uv＝1/dv (5)

其中，d_v表示节点v的度数；有人可能会有疑问，按照上面的b_uv的计算公式，如果节点v只有一个已激活节点u，即b_uv＝1，那不就意味着节点v一定会被激活吗？实际上这种情况是不存在的，因为根据混合式传播模型，节点v第一次被节点u尝试激活时，被激活的概率是随机概率ρ_uv，而不是b_uv，又因为累积的影响力会发生衰减，当节点v再被尝试激活时，即使之前b_uv＝1，但衰减之后的b’_uv<1，因此节点v不一定会被激活，而且节点v第二次被尝试激活失败，则以后也不可能被激活。θ_v的取值一般有这样几种方法：第一种，随机取值^[16](田家堂.在线社会网络中影响最大化问题的研究.复旦大学硕士学位论文. 2012:22-25页)，随机取0～1之间的一个数；第二种，固定取值^[15](陈浩.基于阈值的社会网络影响力最大化算法.复旦大学硕士学位论文.2012:24-35页)，如0.5，0.6；第三种，(按某种算法)特异性取值。鉴于混合式传播模型的重点主要在于b_uv函数和b’_uv函数，为简单起见，给θ_v选择随机取值的方式。最后是b'_uv的取值，德国心理学家艾宾浩斯针对遗忘规律 ^[17](Ebbinghaus H,Wozniak R H.Memory:a contribution to experimental phychology[M].ThoemmesPress,Maruzen,1998.)的研究，提出了著名的艾宾浩斯遗忘曲线，以描述人类对记忆的遗忘随着时间如何变化。遗忘曲线最主要的特征就是，遗忘的速度是先快后慢^[18](McdanielM A,Einstein G O.Strategic and automatic processes in prospective memoryretrieval:a multiprocess framework[J].Applied Cognitive Psychology,2000,14(7):S127–S144.)。但是遗忘曲线函数是以小时为变量单位并在1小时后就遗忘56％，这种早期遗忘的速度太快以至于不太适用于信息的传播过程。因此，为了遵循混合式传播模型关于节点在被激活失败后累积的影响力不断减小的规则，以及满足遗忘规律关于遗忘的速度先快后慢的特征，本文加入自然对数来模拟影响力在社会网络里随着时间的推进而不断减小的过程，

b'_uv的计算公式为：

b_{u v}^{'} = \frac{b_{u v}}{l n (t_{n o w} - t_{i n i t} + e)} - - - (6)

式中，e为自然底数；

观察f(x)＝1/ln(x+e)这一函数可以发现，当x＝0时，f(x)＝1；当x逐渐匀速增大时，f(x)逐渐减小，且在x增大的早期阶段，f(x)减小的幅度较大；但是x每增加1，f(x)减小的数值却越来越小；最终，当x趋近于正无穷时，f(x)趋近于0。函数的这种变化恰好符合遗忘规律关于遗忘速度先快后慢的特征。

Wikipedia是由全世界的志愿者协作编写的免费的百科全书。Wikipedia的贡献者里会有一小部分充当管理员，这些管理员比一般的贡献者在Wikipedia的维护上有额外的权限。如果一般的贡献者想要成为管理员，需要提出申请。通常，Wikipedia社区将通过公共的讨论或者投票来决定提升谁来当管理员。

表4Wikipedia数据集的基本参数

通过从截止到2008年1月3日以来最新完整版本的Wikipedia页面编辑历史数据，可以提取出所有的管理员选举和投票历史数据。在这些数据里，总共有2794次选举和103689次投票，共7115名用户参与了选举(投票或被投票)，这些人里有1235人选举成功如愿成为了管理员。在这些投票里，以后大约一半的投票来自于已经存在的管理员，另外一半来自于普通的Wikipedia用户。Wikipedia数据集里包含了从Wikipedia开始以来到2008年1月的所有投票数据，节点代表Wikipedia用户，节点i到节点j的边代表用户i投给用户j的选票。Wikipedia数据集的一些基本参数如所示。

结果与分析

通过以单个节点作为初始激活节点集合，以混合式传播模型进行传播，可以获得基于混合式传播模型的单个节点的实际影响力大小；通过以规定的TOP-K节点为初始激活节点集合，通过混合式传播模型可以获得实际传播范围和被影响的节点集合。

因为所使用的是Wikipedia数据集是投票数据集，所以可以认为，在投票过程里获得最多投票的人即是Wikipedia社区里最有影响力的人；此外还可以认为，选举者的支持者，支持者的支持者，支持者的支持者等等都可以认为是该选举者在实际中可以直接或者间接影响到的人。

综合通过混合式传播模型进行传播的结果以及Wikipedia数据集本身所携带的信息，本文提出两种方法来验证混合式传播模型是否比独立级联模型和线性阈值模型更加符合实际的传播规律。

TOP-K重合率

Wikipedia数据集里的投票数据已经反映出了整个Wikipedia社会网络里最有影响力的TOP-K节点的信息，根据节点获得的投票结果可以知道，获得的投票越多，其在Wikipedia社区里影响力越大，因此可以获得Wikipedia数据集的TOP-K节点集合。在已知节点影响力的情况下，以已知的TOP-K节点结合为对比集，分别使用混合式传播模型、独立级联模型和线性阈值模型从Wikipedia数据里选择影响力最大的TOP-K节点集，并与已知节点集合进行比较。可想而知，如果某种传播模型获得的TOP-K集合与已知集合的TOP-K节点集合的重复率最高，则该传播模型理论上应该是最符合实际的传播规律的模型。

TOP-K的K值分别取50、100、150、200、250、300、350、400、450、500，可以在Wikipedia数据集里依次找出对应的最大影响力节点集合，以这些集合作为对比集，依次获得以混合式传播模型、独立级联模型以及线性阈值模型进行传播获得的对应集合，对比三种传播模型获得的传播结果与实际的标准集合的重合率。Wikipedia数据集在三种传播模型下TOP50～TOP500的重合率如图2所示，其中H代表混合式传播模型，IC代表独立级联模型，LT代表线性阈值模型。

由图2可知，不管在哪种传播模型下，随着K值的增加，TOP-K节点对应的重合率在逐渐升高，并且混合式传播模型TOP-K节点对应的重合率明显要比独立级联模型和线性阈值模型对应的重合率要高。由此，由观察Wikipedia数据集的TOP-K节点重合率可得出结论：混合式传播模型的准确性要高于独立级联模型和线性阈值模型，即混合式传播模型更加符合实际的传播规律。

由图2可知，不管在哪种传播模型下，随着K值的增加，TOP-K节点对应的重合率在逐渐升高，并且混合式传播模型TOP-K节点对应的重合率明显要比独立级联模型和线性阈值模型对应的重合率要高。由此，由观察Wikipedia数据集的TOP-K节点重合率可得出结论：混合式传播模型的准确性要高于独立级联模型和线性阈值模型，即混合式传播模型更加符合实际的传播规律；由图2可知，TOP-K的K值取50时，独立级联模型下TOP-K节点的重合率为17％；线性阈值模型重合率为8％；本发明混合式传播模型下TOP-K节点的重合率为16％；TOP-K的K值取100时，独立级联模型下TOP-K节点的重合率为17％；线性阈值模型下TOP-K节点的重合率为12％；本发明混合式传播模型下TOP-K节点的重合率为24％；TOP-K的K值取500时，独立级联模型下TOP-K节点的重合率为34％；线性阈值模型下TOP-K节点的重合率为37％；本发明混合式传播模型下TOP-K节点的重合率为43％。

TOP-K影响节点重合率

如前所述，通过Wikipedia数据集里所携带的信息，可以知道用户之间相互支持的情况，故而可以提取出由单个用户出发，该用户最终直接或间接可以影响到的用户群体。可以这样认为，所有投票给某用户u的用户群体都是该用户的支持者，因而也是该用户可以直接影响到的用户群体；并且，用户u的支持者也有自己对应的支持者，这些支持者可以看做是用户u的间接支持者，也就是用户u可以间接影响到的用户群体；以此类推，用户u的支持者也有自己对应的支持者，如此就可以获得用户u所有的直接和间接的支持者，即用户u在实际中可以影响到的用户群体。现在，Wikipedia数据集里影响力最大的TOP-K节点集合以及这些节点实际可以影响的节点集合都已经已知，以此作为对比集，选定TOP-K节点作为初始激活节点集合，分别用混合式传播模型、独立级联模型和线性阈值模型作为传播模型进行传播实验，记录这三个模型最终可以影响到的节点集合，对比这三个传播结果集合与对比集合的节点重复率。如果哪个传播模型对应的传播结果集合与已知对比集合重复的节点最多，哪个传播模型就更符合实际的传播规律。Wikipedia数据集在三种传播模型下TOP50～TOP500节点的影响范围的重合率如图3所示，其中，IC代表独立级联模型，LT代表线性阈值模型，H代表混合式传播模型。

由图3可知，这三类传播模型随着K值的增加，TOP-K节点的影响范围重合率也在逐渐增加，而针对同一K值，混合式传播模型对应的影响范围重合率始终要大于其他两类模型。因而，通过Wikipedia数据集TOP50～T500的节点在三类传播模型下与对比集的影响范围重合率可以知道：混合式传播模型具有更高的准确性。

由图3可知，这三类传播模型随着K值的增加，TOP-K节点的影响范围重合率也在逐渐增加，而针对同一K值，混合式传播模型对应的影响范围重合率始终要大于其他两类模型。因而，通过Wikipedia数据集TOP50～T500的节点在三类传播模型下与对比集的影响范围重合率可以知道：混合式传播模型具有更高的准确性。由图3可知，TOP-K的K值取50时，独立级联模型下TOP-K影响范围重合率为20％；线性阈值模型下TOP-K影响范围重合率为22％；本发明混合式传播模型下TOP-K影响范围重合率为25％；TOP-K的K值取100时，独立级联模型下TOP-K影响范围重合率为27％；线性阈值模型下TOP-K影响范围重合率为29％；本发明混合式传播模型下TOP-K影响范围重合率为32％；TOP-K的K值取500时，独立级联模型下TOP-K影响范围重合率为51％；线性阈值模型下TOP-K影响范围重合率为47％；本发明混合式传播模型下TOP-K影响范围重合率为53％。

Claims

1.一种基于遗忘规律的社会网络信息传播方法，其特征在于一种基于遗忘规律的社会网络信息传播方法具体是按照以下步骤进行的：

步骤一：网络中设置初始的激活节点集合S；

步骤二：在时间t_x时，网络中激活态节点对网络中未激活态邻居节点v进行激活；

否则，未激活态邻居节点v在t_x+1时刻状态不发生变化；

2.根据权利要求1所述的一种基于遗忘规律的社会网络信息传播方法，其特征在于步骤二所述在时间t_x时，网络中激活态节点对它的未激活态邻居节点v进行激活；具体过程为：

网络里任意节点只能处于两种状态：激活状态或者未激活状态；处于激活状态的节点对处于未激活状态的节点有影响力，这种影响力会使处于未激活状态的节点转变为激活状态，并且节点的这种状态改变是单向的，即只能从未激活状态转变为激活状态；

INF_v＝ρ_uv

如果ρ_uv<θ_v，则未激活态邻居节点v激活失败，未激活态邻居节点v记录激活态节点u对未激活态邻居节点v的固定影响力b_uv和时间t_x，然后将固定影响力b_uv累积到节点v的累积影响力总和INF_v；

第二种，未激活态邻居节点v不是第一次被尝试激活，则激活态节点W对未激活态邻居节点v激活成功的固定影响力为b_wv，利用公式(3)和公式(4)计算累积影响力INF_v，如果INF_v>＝θ_v，则未激活态邻居节点v被成功激活，否则激活失败，未激活态邻居节点v记录激活态节点w对未激活态邻居节点v的固定影响力b_wv和时间t_x，然后将固定影响力b_wv累积到节点v的累积影响力总和INF_v；

所述，b_wv为任意未激活态节点v将受到邻居节点W的固定影响力，节点W对节点v的这种固定影响力仅在节点W处于激活状态时有效；任意未激活态节点v受到其所有邻居节点w的固定影响力之和不大于1；

累积影响力INF_v的计算公式如下：

{INF}_{v} = \underset{u &Element; F a i l (v) \cup {w}}{Σ} b_{u v}^{'} - - - (3)

b′_uv＝F(b_uv,t_init,t_now) (4)

式中，Fail(v)是所有激活态节点u尝试激活未激活态邻居节点v但失败的节点集合，W是当前正在尝试激活未激活态邻居节点v的已激活节点，t_init是激活态节点u第一次尝试激活未激活态邻居节点v的时间，t_now是当前节点W尝试激活未激活态邻居节点v的时间，b′_uv表示随着时间的推进固定影响力b_uv衰减后的影响力大小，由公式(3)和公式(4)可知，b′_uv是关于b_uv、t_init和t_now的函数。

3.根据权利要求2所述的一种基于遗忘规律的社会网络信息传播方法，其特征在于所述公式(4)的具体过程为：

b_{u v}^{'} = \frac{b_{u v}}{l n (t_{n o w} - t_{i n i t} + e)} - - - (6)

式中，e为自然底数。

4.根据权利要求3所述的一种基于遗忘规律的社会网络信息传播方法，其特征在于所述

b_uv＝1/d_v (5)

其中，d_v表示未激活态邻居节点v的度数。

5.根据权利要求4所述的一种基于遗忘规律的社会网络信息传播方法，其特征在于步骤四所述未扩散的激活节点为节点处于激活状态，但是还未尝试激活邻居节点；