CN104134159B

CN104134159B - 一种基于随机模型预测信息最大化传播范围的方法

Info

Publication number: CN104134159B
Application number: CN201410379964.1A
Authority: CN
Inventors: 谢淼; 王青; 杨秋松
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2014-08-04
Filing date: 2014-08-04
Publication date: 2017-10-24
Anticipated expiration: 2034-08-04
Also published as: CN104134159A

Abstract

本发明属于社会网络建模与分析领域，具体涉及一种探索了社交网络动态特性的基于随机模型预测社交网络信息最大化传播范围的方法。该方法构造了一组可描述网络信息传播动态性的函数，通过社交网络信息传播的历史数据，建立动态信息传播模型，并利用随机模型检测器通过验证和仿真技术，预测通过不同节点与节点集合传播，信息可能传播的最大范围，并找出能使传播范围最大化的节点集合。与传统的传播范围最大化建模方法相比，本发明能够对网络动态性进行建模，使得预测出的初始节点集合质量更高，提高了网络营销策略的成功率。

Description

一种基于随机模型预测信息最大化传播范围的方法

技术领域

本发明属于社会网络建模与分析领域，具体涉及一种探索了社交网络动态特性的社交网络信息最大化传播范围的方法。该方法构造了一组可描述网络信息传播动态性的函数，通过社交网络信息传播的历史数据，建立动态信息传播模型，并利用随机模型检测器通过验证和仿真技术，预测通过不同节点与节点集合传播，信息可能传播的最大范围，并找出能使传播范围最大化的节点集合。

背景技术

20世纪30年代，英国人类学家Radcliffe Brown在对社会结构的关注中，首次使用了“社交网络(社会网络)”(Social Networks)的概念。在接来下的70多年里，通过多个学科领域的几代学者的共同努力，社会网络形成了比较成熟完善的概念体系。社会网络传播过程在社会学中也有着长期的研究历史。近些年，随着互联网技术的发展，越来越多的虚拟社会相继出现，比如以Facebook，Twitter，新浪微博等为代表的大型在线社交网络网站，通过手机通信、电子邮件等形成的人际关系网络等。透过这些虚拟网络所展现出的社会关系和人际互动是许多研究的关注重点。在社会个体信息传播领域，社交网络作为媒介，在社会个体之间相互影响、传播信息与观点方面，发挥着根本性的作用。一个信息体或是观点可能在人群中极大的蔓延开来，也有可能迅速地消失。虚拟社会的研究与现实社会的研究存在着极大的不同，现实社会可以对诸多鲜活个体进行调查研究，而对虚拟社会的探索，需要着眼于数据，通过业务系统来完成研究的工作。

如何在社交网络中进行市场营销已成为各商家和网络运营商所关注的热点。许多商家试图通过社会网络传播他们产品或者企业理念。社交网络中的“病毒式营销”是指最初针对少数有“影响力”的网络成员，向他们提供免费的产品样品，并期待引发一连串的影响：其中一些成员会推荐产品给他们的朋友，通过“口碑效应”，最终使尽可能多的人愿意尝试这种新产品。这种营销模式的突出优点是，人们认为来自朋友或其他信任源的信息是最可靠的，而这正是广告营销所缺乏的。这种使客户参与到营销活动中来的营销方式，可以给投资带来前所未有的回报。但是，应该选择社交网络中的哪些客户作为初始客户开始营销活动，从而使营销活动的效果覆盖最大的社群范围，是这种营销模式下的最重要的问题。

为解决上述问题，许多针对信息最大化传播范围的预测方法被提了出来。这些预测方法可以被分为两大类，一类是基于排序的选择方法，即通过历史数据，按照发信息量或者好友/粉丝数目等属性，对社交网络中所有用户进行排序，选择排名前K(K为自然数，且远小于总用户数)个用户，作为营销初始用户集合在网络中开展营销。第二类是通过建立能够预测给定节点(用户)或者节点集合的信息传播范围的信息传播模型对待选节点集合进行评估，而最终确定初始节点集合的方法。第一类方法把节点考虑成相互独立的个体，虽然计算开销较小，能够快速处理海量的数据，但是准确率最差，因为通常依靠排名的方法，选取的前几名节点在拓扑上距离较近，通过他们一起传播信息时，大多是重叠的，所以组合传播范围相对较小，效果最差。而第二种方法，虽然计算开销比较大，但是能够获得更高质量的营销方案，因为所建立的信息传播模型能够更好刻画信息传播的内在规律。因为获得高质量的营销方案会极大程度的提升企业营销行为的成功率，计算开销的代价在一定程度上，是可以被接受的。

现有的信息传播模型主要有马尔科夫随机场(Markov Random Field)、随机级联模型(Stochastic Cascade Model)和线性阈限模型(Linear Threshold Mode)。其中常用的级联模型有两种分类：独立级联模型(Independent Cascade Model)和权值级联模型(Weighted Cascade Model)。这些概率模型的目的在于对信息传播的规律进行建模，从而可以利用数学的方法预测通过给定节点或节点集合，信息可能传播的范围。在此基础上，为了确定能够达到最佳传播范围的待选节点集合，需要迭代的遍历所有备选方案，计算代价极其高昂，所以采用贪婪算法等近似算法取代遍历算法，进而确定一个准确率不小于1-1/e的近似解。目前针对这一问题的研究工作，可以分为如下三类。第一类试图提出新的贪婪算法能够降低迭代的次数，获取近似最优解，例如基于社区划分(Community-based)的贪婪算法，结合了子社区特性来处理，首先将整个社会网络拆分成多个子社区，然后在每个子社区中(而不是整个社区)评估传播范围，和提出降低贪婪算法迭代次数的Cost-EffectiveLazy Forward(CELF)算法。第二类研究试图提出新的基于启发函数的高效算法来得到近似解，例如度折扣的算法(DegreeDiscount)，该算法假定节点传播信息能力随着节点度的增加而增加,从而利用节点的度来简化计算。第三类研究是提出新的信息传播模型，增加更多丰富的信息，使得对这一问题的分析更加贴近现实。例如提出时间约束的信息传播模型，增加了时间属性，使得模型能够分析不同时间的传播范围，进而解决更加实际的问题，例如在一定时间(T)约束下，寻找使得信息传播范围最大化的解决方案，所找到的解决方案与没有时间约束的有很大不同。

尽管如此，上述方法还有着比较明显的缺陷，以至于不能满足实际分析需求：1、无论是级联模型、线性阈值模型、马尔科夫随机场模型，还是时间约束的信息传播模型，都是静态模型，他们假定信息在传播过程中，社交网络内部属性(比如节点间信息传播的概率或者速率)都是不会发生变化的。但是有大量文献表明社交网络是随时间不断动态变化的，通常随着历史数据的积累网络内部属性变化很快，而该变化会对社交网络中信息的传播产生重要影响。事实上在社交网络中，每天都会积累数以亿计的信息传播数据，所有的信息传播模型都是基于这些数据训练得到的，所以随着数据的积累，信息传播模型会很快演化，所以现存的方法的缺陷在于不能考虑社交网络的这种动态性。2、上述方法都是基于社交网络中朋友间关系进行建模的，但是这些好友关系不能反应实际信息的传递关系或者路径，例如大量的节点尽管建立了好友关系，但是从来没有互相转发信息，关系仅仅是一种较弱的关系，事实上网络大量的关系是弱关系。基于上述两个主要缺点，现有的方法获得的解决方案质量较差，不能找到很高质量的初始节点，预测与实际的差距很大，不能满足实际需要。

发明内容

本发明提出一种基于随机模型预测信息最大化传播范围的方法。该方法能够解决如何在社交网络中选取K(大于零的正整数)个节点作为初始节点来发放信息，使得在时间约束T下，信息的传播范围最大，即转发人数最大。该方法优点在于能够有效地考虑信息在传播过程中网络可能发生的演化，从而找到高质量的种子节点集合，提升在社交网络上营销的成功率。

本发明首先将输入的社交网络中信息传播的历史数据与网络动态性函数集建模成本发明中的动态信息传播模型，该模型是一个连续时间马尔科夫链模型(ContinuousTime Markov Chain,CTMC)实例，其由一系列连续时间马尔科夫链的集合所组成，它们之间通过转移标识相关联。本发明接下来将会通过一种针对连续时间马尔科夫链做了优化的贪婪算法迭代地在动态信息传播模型中选取初始节点集合，并利用随机模型检测(器)工具(Probabilistic/Stochastic Model Checking,请参见Stochastic model checking.InProc.Formal methods for performance evaluation,pages 220–270,Berlin,2007)对所得到的动态信息传播模型进行检测或者进行多次仿真分析，根据检测或者仿真分析所得出的在T时间约束下，信息可能的传播范围(累计转发人数)预测结果，最后选择出能够使得信息传播范围最大化的节点集合，输出信息最大化传播面。该结果能够反馈给社交网络市场营销人员，进行实际广告或者信息投放。该方法的总体框架如图1所示，主要包括输入层、模型层、算法层和预测结果层四部分。

本发明所处理的社交网络信息传播历史数据的格式与包含元素如图2所示，其中每行均表示一个信息的传播历史，信息均由唯一标识所区分。每一行由一系列二元组所组成，每个二元组中均包含一个节点唯一标识(node_id)与一个时长(time)，其表示了该信息被节点(node_id)于信息发布后time时长转发。当time＝0时，表示信息发布。本输入中时间单位都是一致的。

本发明中所构造的网络动态性函数集是一个已知的信息传播网络潜在变化规律的集合。每一个动态函数都刻画了在信息传播过程中传播网络上各个边可能发生的变化，具体表现为节点之间边上传播速率的变化。每个动态函数都包含若干个动态因素，每个因素都是一个变量，随着这些变量值的变化，网络中边将会按照这些因素为因变量的函数而发生变化。网络动态性函数可以是一种普遍的规律，也可以是特定网络的变化规律。具体的表示形式为一个节点类别标识集合P，一个分类函数Part(x1,x2,…,xn)，每类节点的入边上传播速率的变化函数∮，∮的触发条件，以及∮的更新函数。Part(x1,x2,…,xn),x1,...，xn表示节点的属性值，用于给节点分类。针对每一类节点，定义该节点入边上传播速率的变化函数∮(x1,x2,x3,…,xn)、∮的触发条件与∮的参数更新函数，参数x1,…,xn为一系列变量，这些变量将会按照某一参数的指数分布不断变化，∮的触发条件是由x1,…,xn的变量值所表达的，∮的参数更新方法即为触发该变化函数∮后x1,…,xn变量的更新等式。

本发明中给出一种构建动态信息传播模型，进而预测给定初始节点集合(I)在一定时间(T)约束下信息传播范围的方法。

构建动态信息传播模型方法的具体步骤如下：

1、对于每条信息传播历史，构建传播网络图。对于每一行信息传播数据，首先按照时长从小到大把节点排序，把数据中出现的节点在目标网络图中创建成独立的节点，节点之间的关系表示了传播的速率rate，假设节点间传播的概率为满足参数rate的指数分布，利用数学优化方法，例如凸优化，迭代的训练节点直接的传播速率值，直到所计算出来的传播数据的发生概率熟练，即可得到使得给出的信息传播数据发生的概率最大化的各边速率值。所得到的传播网络图即为G<N,E,RATE>,N为节点集合，E为有向边的集合，对于E中的每个元素e，都有一个速率值r与其对应，r属于RATE。

2、把1中得到的传播网络图，转换成连续时间马尔科夫链(CTMC)。连续时间马尔科夫链的具体定义如下：CTMC(S,s0,R,L)，S为状态集合，s0为初始状态，R：S×S为转移矩阵，每一个元素表示从状态s1(属于S)到s2(属于S)的转移速率，其满足指数分布。L：S->2^AP标识了每个转移操作的转移标识(labeling action)，AP为一个固定的原子谓词。

在本发明中，CTMC(S,s0,R,L)都利用如下半形式化结构进行表达成一个CTMC模块：

module与end module之间是这个CTMC的具体定义内容，由连个部分组成，第一个部分是状态变量定义，v1，v2都是状态变量，他们的值域为正整数0到n，init元语设置状态变量的初始状态值，可以表达s0。例如在上例中，S＝{(v1，v2)},s0＝(0,1)。第二个部分即转移矩阵的刻画模块，由一系列转移操作所组成，每个转移操作都包含四部分，其中labeling action为转移标识即L:S->2^AP,condition为触发该转移操作的条件，表示了转移矩阵中转移前状态的集合，rate表示了满足指数分布的转移速率即R中的元素，updateaction，即为转移矩阵转移后的状态集合，一般为一个更新状态变量的更新方法，例如v1’＝v1+1,即更新v1的值为其原值加1。

把1中所得到的传播网络图转换成上述定义的CTMC模块的步骤如下。首先遍历传播图中的所有节点，并给每个节点都创建一个状态变量，该变量两个状态，状态0表示该节点没有转发信息，状态1表示已经转发了信息。如果节点为给定初始节点集合中的初始节点，设置该节点的状态变量的值为1，否则为0。最后遍历传播图中的每条边(n1,n2,rate)，即从n1到n2的速率为rate，为每一条边创建一条转移操作，该操作的转移标识为空，触发条件为：n1＝1 and n2＝0,速率为rate，更新操作为n2’＝1，表示该节点已转发信息。对于没有出边的节点n，创建一条空转移操作，该操作的转移标识为空，触发条件为：n＝1,速率为一个相对无穷小值。

3、针对网络传播动态函数集中的每个动态函数都转换成一个CTMC模型。首先将定义每一类节点入边上传播速率的变化函数∮(x1,x2,x3…xn)中的随机变量x1,…,xn表达成CTMC模块中的状态变量，定义其阈值与其变化的转移操作，然后针对每种给定的节点类别，都定义一个转移操作，labeling action为该类别标识(P中的元素)，condition即为∮的触发条件，∮函数的当前值即为传播速率rate，update action即为∮的更新函数。

4、把步骤3中所得的网络传播动态函数CTMC模块与步骤2中所得的传播网络图CTMC模块集合通过转移标识(Labeling Action)进行关联。遍历步骤1所得的传播网络图中的每个节点，依次按照每个网络传播动态函数中Part函数，计算节点的类别，然后在传播网络图CTMC模块中增加类别标识到该节点入边对的转移操作的转移标识中。上述步骤所得到的一系列连续时间马尔科夫链模型，即为本发明中的动态信息传播模型。

本发明通过CTMC并行组合(Parallel Composition)的方法同步组合动态信息传播模型，得到组合后的连续时间马尔科夫链，即可分析初始节点集合在T时间约束下的传播范围的期望值。并行组合的方法如下：对于两个CTMC模型，M₁＝(S₁,s₀₁,R₁,L₁)和M₂＝(S₂,s₀₂,R₂,L₂)，并行组合后为一个新的CTMC模型C＝(S₁×S₂,(s₀₁,s₀₂),R_c,L₁∪L₂),R_c的具体定义方法，如下面公式所示：

本发明针对动态信息传播模型，利用随机模型检测方法，在T时间约束下，通过对传播网络中的状态转移的次数进行累计，就可以计算可能达到的传播范围。随机模型检测的分析方法可以分成两大类，一类是验证方法，另一类是仿真方法，前者需要遍历CTMC组合后的所有状态，并计算其属性值或者确定系统是否满足属性，后者对按照组合操作利用蒙托卡罗方法对模型进行仿真运行，多次重复执行后得到平均属性值或者判断系统是否满足该属性。预测传播范围的连续时间随机逻辑属性(Continuous-Time Stochastic Logic)可以表示为R＝？[C<T]，其计算结果是累计转发人数的期望值。

本发明中对随机模型检测的工具选择比较灵活，可以选用专用的随机模型检测工具，也可以使用能够分析连续时间马尔科夫链的检测或仿真工具。本发明选用PRISM(请参阅PRISM 4.0:Verification of probabilistic real-time systems.In Proc.23rdInternational Conference on Computer Aided Verification,volume 6806,pages585–591.Springer,2011)随机模型检测器进行分析。

本发明中给出一种能够快速最大化传播范围的初始节点选择的贪婪算法。它可以适用于所有依赖于指数分布的传播模型。通过计算初始节点传播信息可能的重叠范围，对迭代选取节点时估算出的传播范围增量进行打折，进而降低仿真或者验证的次数，快速计算出最大化传播范围的近似解，并保证误差小于1-1/e。该算法的具体步骤包括：

1)通过调用随机模型检测器对动态信息传播网络中每个单独节点的传播范围进行精确预测；

2)通过确定待加入初始节点集合中的节点对传播范围的增加量Δσ_T({v})进行评估，选择该值最大的节点加入到初始节点集合中，Δσ_T({v})的计算方法是在该节点在步骤1)中预测的传播范围基础上乘以打折函数进行估算；打折函数的公式为：

其中，当(v,u)∈E并且u∈N(I)时，则否则P_I,u＝0。公式中，E为传播网络图中的边集合，e为自然数底，r_v,u为传播网络图中边v到u的初始传播速率。T为时间约束，σ_T(I)表示预测初始节点集合I在T时刻的信息传播范围，N(I)表示集合I的直接后继集合。

3)对步骤2)进行K次迭代，确定初始节点集合中的节点。

该算法的具体伪代码如下：

定义：1、σ_T(I)表示预测初始节点集合I在T时刻的信息传播范围

2、N(I)表示集合I的直接后继集合

3、e为自然数底

输入：1、K，待确定的初始集合个数

2、T，时间约束

3、V，传播网络图中节点的集合

4、E,传播网络图中的节点之间边的集合

输出:1、预测的使得传播范围最大化的初始节点集合I

2、预测的最大化传播范围

遍历每一个v∈V：

通过随机模型检测的方法预测σ_T({v})

结束循环

遍历i从1到k：

对于每个v∈V\I：

如果(v,u)∈E并且u∈N(I)那么：

计算概率

否则设置P_I,u＝0

计算

计算Δσ_T({v})＝σ_T(I∪{v})-σ_T(I)≈σ_T({v})*d1/d2

结束循环

计算u＝argmax_v(Δσ_T({v}))

计算I＝I∪{u}

结束循环

返回I；

本发明的优点和积极效果如下：

1、与现有的建立传播模型的最大化信息传播范围的方法相比，本方法将网络动态性融合到了信息传播模型中，构建了动态信息传播模型，该模型能够更准确地刻画实际网络中信息传播的内在规律，对信息传播范围的预测效果更准确。并且可以分析网络动态性对信息传播范围的影响，可以据此分析营销策略的风险。

2、与现有的建立传播模型的最大化信息传播范围的方法相比，本方法利用随机模型检测(器)工具对信息传播范围进行预测，拥有计算上更加灵活的特性，如果追求准确预测，可以采用对模型进行全面验证的方法，计算复杂度相对较高；如果追求高效预测，也可以采用仿真的方法，可以牺牲一些精度，提升计算效率。

3、与现有的建立传播模型的最大化信息传播范围的方法相比，本方法包含的经过优化后的贪婪算法，能够更好的平衡计算效率与预测效果，适用于大规模数据的处理与预测分析。

4、与现有的建立传播模型的最大化信息传播范围的方法相比，本方法在信息传递的历史数据的基础上，引入了网络动态性函数集，该集合可以是公认的与信息传播相关的网络动态规律，也可以是通过经验获得的动态规律，沟通了对信息传播过程的理论分析和经验分析两个最主要的分析方法。对分析方法的综合运用，提高了对信息传播过程分析的准确性和实用性。

附图说明

图1本方法的总体结构图。

图2为信息传播历史数据的输入格式。

图3为从新浪微博上获取的社交网络信息传播历史数据片段。

图4为经过构建动态信息传播模型的方法步骤1得到的传播网络模型片段。

图5为经过构建动态信息传播模型的方法步骤2得到对应的CTMC模块。

图6为对社交网络中从众行为对信息传播的网络动态函数的建模结果。

图7为对社交网络中活跃度对信息传播的网络动态函数的建模结果。

图8为按照构建动态信息传播模型的方法步骤4所得到的标识后的传播网络模型。

图9为最大化信息传播范围的初始节点集合的预测结果(网络变化较慢)。

图10为最大化信息传播范围的初始节点集合的预测结果(网络变化较快)。

具体实施方式

为了使本技术领域的人员更好的理解本发明，下面给出具体实施例对本发明作进一步的详细说明。

本实例通过利用新浪微博中信息传播历史数据和两个公认的社交网络动态变化现象，利用本发明所述方法进行分析，找出一个元素个数为K＝10的初始节点集合，使得在T＝3(天)的约束下，传播范围最大化，即该信息被转发次数的期望最大化。

首先从社交网络中获取一定时间的信息传播历史数据，本例中选择从新浪微博中获取信息传播的历史数据，一部分数据截屏如图3所示。利用凸优化对训练传播网络模型，得到的传播网络模型如图4所示。然后利用构建动态信息传播模型的方法步骤2，遍历每个节点与节点间的边，将该传播网络模型转换成对应的CTMC模块，如图5所示。

该实例中，网络动态性函数集中包含两个网络动态性函数。他们都刻画了公认的变化网络演化现象。第一个是随着信息传播范围的扩大，即转发数量的上升，网络中的节点转发该消息的速率会有着不同程度的上升，即人们更愿意转发受欢迎程度高(流行)的信息，上升的程度受人们内在的从众属性所影响。把这种公认的人们的从众属性对信息传播的影响表达成网络动态性函数集中的一个动态性函数。该动态函数中，Part()函数度量该节点转发信息的总量/该节点发帖总量。按照Part函数将函数传播模型中的节点，分成三类，类别标识集合P＝{CH，CM，CL}，其中CL:Part(conformity)<30％,CM：30％<Part(conformity)<60％，CH：60％<Part(conformity))。对于CL：∮(n)＝1+ψ(n)*0.3,其中n为当前的转发人数，是一个随机变量，值域为从初始节点集合元素个数K到网络中节点总个数N的正整数，初始化为K。其中δ,bp均为正常量，刻画了网络变化的快慢。∮的触发条件为n>0,∮的参数更新函数为n’＝n+1。对于CM：∮(n)＝1+ψ(n)*0.6,∮的触发条件为n>0,∮的参数更新函数为n’＝n+1。对于CH：∮(n)＝1+ψ(n)*0.9,∮的触发条件为n>0,∮的参数更新函数为n’＝n+1。然后利用构建动态信息传播模型的方法步骤3，将该网络动态性函数转换成对应的CTMC模型，如图6所示。

第二个网络动态性函数所表达的现象是，信息传播的速率受节点活跃程度的影响，活跃度高的节点，对转发信息的速率一般不会下降，但是活跃度低的节点，随着时间推移，转发信息的速率会随机下降。把这种公认的节点活跃度对信息传播的影响表达成网络动态性函数集中的一个动态性函数。该动态函数中，Part()函数度量该节点每周平均发帖总量/每周平均发帖总量最大的节点的发帖总量。按照Part函数将函数传播模型中的节点，分成两类，类别标识集合P＝{AL}，其中AL：Part()<0.3。对于AL：∮(step)＝decreaseDelta^step,step为一个随机变量，值域为正整数，初始化为0，step按照速率decreaseRate的指数分布随机变化，每次变化其值加1，表示速率下降的程度，decreaseRate是一个常量，decreaseDelta是一个小于1大于0的常数，刻画了网络变化的速度。∮的触发条件为step>0,∮的参数更新函数为step’＝step。然后利用构建动态信息传播模型的方法步骤3，将该网络动态性函数转换成对应的CTMC模型，如图7所示。

接下来，按照构建动态信息传播模型的方法步骤4，确定每个节点的类别，并标识相应的类别到每个节点入边的转移操作的转移标识中，如图8所示。截止目前，已经得到了动态信息传播模型，即为上述一组带有转移标识的CTMC模型，其中包括一个传播网络模型，一个刻画从众的网络动态函数和一个刻画活跃度的网络动态模型。

最后利用本方法中最大化传播范围的初始节点选择的贪婪算法，在设定常数值(δ＝30,bp＝0.05，decreaseDelta＝0.9,decreaseRate＝0.2)后的动态信息传播模型中，迭代地选择最优的初始节点集合使得信息传播范围最大化，该传播范围是指在T时间内信息被转发次数的期望值。该贪婪算法首先调用随机模型检测器对每个节点单独能够在T时间所达到的信息传播范围进行预测，然后迭代选择最大边际效益的节点到初始节点集合中，该边际效益通过对节点间可能的范围重叠进行估算，并利用打折函数对待增加的节点传播范围进行打折的操作，确定最佳初始集合中的每个元素。最终输出该最佳初始集合中的每个元素与预测所能达到的传播范围，作为预测得到的最佳营销策略。该实例的计算结果如图9所示。此外还可以通过设置模型中各个常量参数值(δ＝100,bp＝0.01,decreaseDelta＝0.9,decreaseRate＝0.4)，更改网络动态变化的程度与速度，分析动态性对信息传播范围的影响程度，如图10所示。

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于随机模型预测信息最大化传播范围的方法，其步骤包括：

1)从社交网络中获取信息传播的历史数据，并通过网络动态性函数集描述所发现的网络动态性；所述网络动态性函数集是一个已知的信息传播网络潜在变化规律的集合，每一个动态性函数都刻画了在信息传播过程中传播网络上各个边可能发生的变化；

所述历史数据中，每行均表示一个信息的传播历史，信息均由唯一标识所区分；每一行由一系列二元组所组成，每个二元组中均包含一个节点唯一标识node_id与一个时长time，表示该信息被节点node_id于信息发布后经过time时长转发；

所述网络动态性函数集的具体表示形式为：一个节点类别标识集合P，一个分类函数Part(x1,x2,…,xn)，每类节点的入边上传播速率的变化函数∮，∮的触发条件和∮的更新函数；其中分类函数Part(x1,x2,…,xn)用于给节点分类，x1,...，xn表示节点的属性值；

2)把信息传播的历史数据与网络动态性函数集建模成动态信息传播模型；所述动态信息传播模型是一系列带有转移标识的连续时间马尔科夫链模型，其构建方法为：

2-1)利用数学工具将信息传播的历史数据转换成传播网络图，图上每个节点都是一个网络中的实体，节点间关系表示为有向权重边，边上的权重即为传播速率；

2-2)将传播网络图转换成连续时间马尔科夫链模型；

2-3)依次将网络动态性函数集中的每个动态性函数分别转换成连续时间马尔科夫链；

2-4)将步骤2-3)所得的网络传播动态函数连续时间马尔科夫链模型与步骤2-2)中所得的传播网络图连续时间马尔科夫链模型集合通过转移标识进行关联，得到的一系列连续时间马尔科夫链模型，即为所述动态信息传播模型；

3)通过贪婪算法迭代地设置初始节点集合，利用所述动态信息传播模型与连续时间随机逻辑属性，并调用随机模型检测器，通过验证或仿真的方法对初始节点集合所能达到的可能传播范围进行预测；所述连续时间随机逻辑属性的计算结果是累计转发人数的期望值；

所述通过贪婪算法迭代地设置初始节点集合的方法为：

3-1)通过调用随机模型检测器对动态信息传播网络中每个单独节点的传播范围进行精确预测；

3-2)通过确定待加入初始节点集合中的节点对传播范围的增加量Δσ_T({v})进行评估，选择该值最大的节点加入到初始节点集合中，Δσ_T({v})的计算方法是在该节点在步骤3-1)中预测的传播范围基础上乘以打折函数进行估算；

3-3)对步骤3-2)进行K次迭代，确定初始节点集合中的节点；

4)根据信息的可能传播范围的预测结果，确定使得传播范围最大化的初始节点集合，并输出该初始节点集合和预测的信息最大化传播范围。

2.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法，其特征在于：所述贪婪算法中打折函数的公式为：

<mrow> <mrow> <mo>(</mo> <msub> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> </msub> <mo>&Element;</mo> <msup> <mi>E</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msub> <mi>r</mi> <mrow> <mi>v</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>P</mi> <mrow> <mi>I</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>&sigma;</mi> <mi>T</mi> </msub> <mrow> <mo>(</mo> <mo>{</mo> <mi>u</mi> <mo>}</mo> <mo>)</mo> <mo>)</mo> </mrow> <mo>/</mo> <msub> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>,</mo> <mi>u</mi> <mo>)</mo> </mrow> </msub> <mo>&Element;</mo> <msup> <mi>E</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msub> <mi>r</mi> <mrow> <mi>v</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>)</mo> </mrow> </msup> <msub> <mi>&sigma;</mi> <mi>T</mi> </msub> <mrow> <mo>(</mo> <mo>{</mo> <mi>u</mi> <mo>}</mo> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，当(v,u)∈E并且u∈N(I)时，P_I,u＝1-Π_(w,u)∈E，否则P_I,u＝0；公式中，E为传播网络图中的边集合，e为自然数底，r_v,u为传播网络图中边v到u的初始传播速率，T为时间约束，σ_T(I)表示预测初始节点集合I在T时刻的信息传播范围，N(I)表示集合I的直接后继集合。

3.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法，其特征在于：所述贪婪算法中，所述的调用随机模型检测器对动态信息传播网络中每个单独节点的传播范围进行精确预测，预测方法选用遍历所有组合后状态的验证方法，或者通过多次仿真，累计传播网络连续时间马尔科夫链模型的状态转移次数计算。

4.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法，其特征在于：步骤3)所述的随机模型检测器为PRISM随机模型检测器。

5.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法，其特征在于：步骤3)所述的对初始节点集合所能达到的可能传播范围进行预测，是指在连续时间约束的条件下预测信息可能达到的传播范围。