CN107609717B

CN107609717B - 社交网络中一种基于Kalman滤波器的帖子转发量预测方法

Info

Publication number: CN107609717B
Application number: CN201710961028.5A
Authority: CN
Inventors: 郑吉平; 张丝曼; 张智明
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2020-10-20
Anticipated expiration: 2037-10-12
Also published as: CN107609717A

Abstract

本发明涉及互联网领域内社交网络中一种帖子转发量预测方法，具体的说，设计的是一种在社交网络中基于Kalman滤波器的通过对帖子转发量预测从而进行事件流行度估计方法。本发明致力于解决当帖子发布后的时间趋向无穷大时，预测该帖子转发总量的问题。本发明针对帖子级联转发过程中的不同状态建立帖子影响力预测模型，提出了当前时刻帖子状态只受到前一时刻帖子状态影响的理论，并引入分支因子，通过构建信息级联树，将对帖子未来转发总数的预测模型化为等比数列求和，从而实现对帖子最终转发量的预测。本发明广泛适用于舆情控制，新产品推广等应用场景。

Description

社交网络中一种基于Kalman滤波器的帖子转发量预测方法

技术领域

本发明涉及互联网领域内社交网络中一种帖子转发量预测方法。具体的说，设计的是一种在社交网络中基于Kalman滤波器的通过对帖子转发量预测从而进行事件流行度估计的方法。

背景技术

随着在线社交网络的发展，越来越多的人选择通过在线网络分享资源，传递信息。国外的网站，例如Facebook，Twitter，国内的网站，例如新浪微博等，都是人们传播信息的平台。发表在网站上的信息，经过用户粉丝的转发，又能被更多的用户看到。经过这样的多次转发，便构成了一个大的信息级联网络，使信息扩散到了更广的范围。可见，在线网络中传播的信息会在整个社交网络中产生深远的影响。例如，一些谣言会通过网络的传播在人群中产生很大的负面影响。如果能预知其影响的范围并及时采取措施使其传播范围尽可能减小尤为重要。另外，很多公司会在即将推出新产品前在网络中发布描述其相关信息的帖子，通过观察该帖子的传播范围预测新产品的热度。如果将帖子的转发数量当作帖子传播范围的评判标准。可以说，对帖子转发量的预测很有必要。

已有对事件流行度的预测研究通常涉及两种方法：(1)基于特征提取的方法[1，2]；(2)基于点过程建模的方法[2，3，4]。基于特征的方法需要提取所研究对象的特征，然后根据特征构建相应的学习算法预测事件流行度。而基于点过程的方法则需要通过对传播过程的全面分析，建立最符合其运动规律的信息传播模型。专利[5]提供了一种面向社交网络的恶意代码传播预测方法及系统，他们通过对获得的真实网络数据信息进行特征提取，再基于随机过程对恶意代码的传播行为进行建模，通过建立的传播模型分析预测恶意代码的传播趋势。显然，预测的准确度在很大程度上依赖于特征的种类和数目，且特征提取本身就耗费大量的时间，也无法准确的判断哪些特征能完全体现对象的特点及发展规律。专利[6]提供了一种在社交网络中基于泊松过程模型的事件流行度预测方法。他们通过将影响力最大的关键用户带来的转发微博过程建模为泊松过程，使用样本事件的信息来学习和估计关键用户泊松过程模型的参数以及非关键用户的参数，并给定一个已知一定时间长度的演化信息的新的时间，根据学习建立的泊松过程模型预测它在未来某时刻的流行度。文献[4]中基于霍克斯过程构建自激点过程模型，考虑转发过程的全部历史行为，但正是因为考虑了全部转发历史过程的影响，导致预测准确度不高。

由以上工作可见，根据事件转发规律建立的模型对预测事件未来发展的准确度有很大的影响。本发明将Kalman滤波器思想与帖子转发过程建模结合起来，仅考虑转发前一时刻行为对当前行为的影响，递归的进行预测和更新操作。

上文中提到的文献来源于如下的文章：

[1]J.Cheng，L.Adamic，P.A.Dow，J.M.Kleinberg，and J.Leskovec.Can CascadesBe Predicted？In Proceedings of the 23rd International World Wide WebConference(WWW)，pages： 925-936，2014.

[2]S.Mishra，M-A.Rizoiu，and L.Xie.Feature Driven and Point ProcessApproaches for Popularity Prediction.In Proceedings of the 25th ACMInternational on Conference on Information and Knowledge Management(CIKM)，pages：1069-1078，2016.

[3]H.-W.Shen，D.Wang，C.Song，and A.-L.Barabási.Modeling and predictingpopularity dynamics via reinforced poisson processes.In Proceedings of the28th AAAI Conference on Artificial Interlligence(AAAI)，pages：291-297，2014.

[4]Q.Zhao，M.A.Erdogdu，H.Y.He，A.Rajaraman，and J.Leskovec.SEISMIC：ASelf- Exciting Point Process Model for Predicting tweet Popularity.InProceedings of the 21st ACM SIGKDD Conference on Knowledge Discovery and DataMining(KDD)，pages：1513-1522，2015.

上文中提到的专利情况如下：

[5]一种面向社交网络的而已代码传播预测方法及系统(申请日期：2013-01-11，公开号： CN 103093049)

[6]在社交网络中基于泊松过程模型的事件流行度预测方法(申请日期：2014-07-14，公开号：CN 104182457)

发明内容

本发明为解决的技术问题：

本发明的目的是提出一种在社交网络中基于Kalman滤波器的帖子转发量预测方法。基于已有的预测方法准确度不高的现状，本发明提出了引入Kalman滤波器理论的基本思想，在帖子的转发过程中，首先根据经验由前一时刻帖子的最优估计值以及最小估计误差得到当前时刻帖子影响力的预测值，并假设预测的误差为高斯白噪声。然后，根据帖子的实际转发过程的数据信息，通过对帖子影响力的定义，计算出帖子影响力的观察值，并假设这一过程的估计误差也为高斯白噪声。根据一维高斯过程的性质，将预测过程帖子影响力的预测值和观察过程得到的计算结果结合得到当前时刻帖子影响力的最优估计值。然后结合引入的分支因子，将对帖子最终转发量的预测模型化为等比数列求和的过程，实现对未来转发总量预测的目标。

本发明为解决其技术问题采用如下方案：

一种在社交网络中基于Kalman滤波器的帖子转发量预测方法，包括如下步骤：

步骤一中，假设前一时刻帖子影响力的最优估计以及对应最小误差已知，根据经验，对当前时刻帖子影响力进行预测，得到当前时刻帖子影响力的预测值，由于在预测阶段值的偏差可以由噪声协方差和观测值进行修补校正，所以在这里先假设帖子影响力随时间变化保持不变。假设t-1时刻对帖子影响力的最优估计值为f′_t-1，对应最小方差为P′_t-1。因此，可以得到：

f_1t＝f′_t-1

同时，假设预测过程的噪声的方差为Q，因此预测值的总方差P_t＝P′_t-1+Q。可以认为预测阶段帖子影响力的值服从(μ₁，σ₁ ²)＝(f_1t，P_t)的高斯分布。

步骤二中，通过对截止到当前时刻帖子转发过程的观察，任意时刻可以观察到截止到t时刻为止的所有转发信息，包括每次转发的用户id，转发时间以及转发用户影响力。假设当前t时刻转发强度为λ_t，它由t时刻帖子影响力f_t，转发用户的影响力m_t和用户反应时间τ决定，即

其中τ为用户接收到该帖到转发的时间差，

为用户反应时间的概率密度函数。那么可以得到t时刻的帖子影响力

同时，由观察信息到系统状态估计值的映射过程中也会存在偏差，假设该偏差服从均值为0，方差为R的高斯分布。可以认为观察过程帖子影响力的值服从(μ₂，σ₂ ²)＝(f_2t，R)的高斯分布。

步骤三中，结合预测过程和观察过程这两个阶段对帖子影响力的估计值以及对应估计误差，并根据一维高斯过程的性质，即两个均值和方差分别为μ₁，μ₂，σ₁ ²和σ₂ ²的高斯分布的乘积也为高斯分布，新的高斯分布的均值和方差分别为：

可以得到一个误差最小的对帖子影响力的最优估计，得到t时刻影子影响力的最优估计值

对应最小方差P′_t＝P_t-K_tP_t。其中，K_t＝P_t(P_t+R)^-1。将得到的X′_t和P_t′又可以应用到t+1时刻的预测中。

步骤四中，引入分支因子，结合得到的对当前时刻帖子影响力的最优估计值，将对帖子最终转发量的预测模型化为等比数列求和的过程，预测帖子未来转发总量。

为了得到分支因子，首先需要分析影响帖子未来演化的因素，而影响转发未来演化的因素主要有两种：用户影响力m，被粉丝数越多的用户转发的帖子在未来更有可能获得更多的转发(我们将用户粉丝数当作用户影响力的评判标准)；记忆时间

帖子内容越新，被转发的次数将越多。因此，我们定义一个触发核

其中，α描述了用户影响力的翘曲效应，它与在社交网络中特定用户影响力的长尾分布 (long-tailed distributions)有关：转发帖子的用户粉丝数服从长尾分布，通过对转发用户粉丝数的数据学习，然后进行函数拟合可以得到确切的α值。

表示记忆核，它描述了用户反应时间的概率密度分布，通过在训练集中对样本的取样分析，可知它的分布满足幂律衰减。因此我们令

它的指数1+θ描述了一个事件被遗忘的速度，参数 c＞0，它是一个常量因子，为了保证当τ≌0时，

仍然有界。所以我们将分支因子d 定义为在时间和用户影响力上的积分

其中P(m)表示用户影响力的概率密度分布。

然后，通过上述计算得到的当前时刻帖子影响力的最优估计值(假设当前时刻为t时刻)，预测时间s≥t，且s→∞时，帖子的总转发次数N_∞。假设s≥t后，帖子影响力不变。我们定义一系列随机变量{A₁，A₂，A₃，...}构建未来信息级联树。在这棵树中，A_k表示第k代的后代(指节点的出度对应的节点)产生的转发次数(N_t为第一代)。注意第一代的后代A₁表示t时刻之前的转发用户的后代产生的转发总次数。因此，可以得到

根据后代中每一代的平均孩子事件数目d以及上一代的事件总数，得到了任意代的转发总数的最优估计值A_i，即A_i＝A_i-1×d，假设A₁的值已知，那么可以得到

A_i＝A_i-1×d＝A_i-2×d²＝…＝A₁×d^i-1，i＞1

因此可以得到

d＜1。另外，假设

表示截止到t时刻为止转发用户的出度之和的有效值，将它表示为

并且令S_t表示截止到t时刻为止转发用户的出度之和，即

那么可以得到

因此，得到了对帖子的最终转发量的预测值为

值得注意的是，由于我们是在假设时间s≥t后，帖子影响力不变的前提下用等比数列求和的方法进行预测的，而这显然不符合现实规律。因此，引入一个纠正因子ξ修正最终预测结果：

纠正因子符合如下原则：ξ_t的改变为随时间增长，值变小。此原则与帖子随时间增长影响力变小的特点相一致。对于社交网络中所有的帖子都采用相同的初始值ξ_t，但它们的大小随时间发生相应改变。最终，通过在训练集中选择使得绝对误差百分比的中位数最小的值为ξ_t的值。

本发明采用以上技术方案与现有技术相比，具有以下有益效果：

(1)本发明引入Kalman滤波器的基本思想，由于除了前一时刻的状态信息外不需要之前的状态信息，因此对存储性能要求很低并且处理起来的速度很快，这使得它非常适合于实时系统，因此大大提升了方法的效率。

(2)本发明在预测帖子影响力时，能结合对目标的经验预测以及目标的动态信息，设法去掉噪声的影响，得到一个关于当前时刻帖子影响力的最优估计。

(3)本发明引入分支因子，将帖子未来级联转发过程模型化一棵分支为d的信息级联树，将对帖子最终转发总量的求和转化为等比数列求和的过程，大大简化了方法的操作。

附图说明

图1是本发明的总体处理流程图。用户首先输入时间T，系统根据T的取值执行不同的操作，通过递归求得T时刻帖子的最优估计值。然后根据求得的最优预测值结合观察到的截止到T时刻转发总量以及根据观察信息求得的分支因子d计算时间趋向无穷大时的转发总量。

图2是本发明在训练集中训练得到用户影响力的分布函数的流程图。

图3是本发明在训练集中训练得到用户反应时间的分布函数的流程图。

图4是模型化的信息级联转发树。

具体实施方式

以下结合附图和实施案例对本发明的技术方案做进一步详细说明：

第一步，我们假设t-1时刻的帖子影响力为0.8，对应的估计误差P′_t-1＝3，那么t时刻的系统状态以及误差的预测值都不变，并且假设预测过程中不确定度q＝4，那么预测过程中总的偏差是5。

第二步，从级联转发的数据中能得到t时刻和t-1时刻的转发时间分别为84988s和84993s，转发用户粉丝数为77。因此，得到t时刻的转发强度

同时假设该值的偏差r＝4。

第三步，用于估算t时刻系统状态有两个值，分别为0.8和0.977，实际值的大小用它们的协方差来判断。由预测过程和观察过程的偏差，可以得到卡尔曼增益

所以K_t＝0.78，即因此估算出t时刻帖子影响力的最优值为f′_t＝0.8+0.78×(0.977- 0.8)＝0.938。同时，对应最优估计值的最小均方误差P′_t＝((1-K_t)×5²)^0.5＝2.35，这里的5就是上面的t时刻预测过程的偏差，得出的2.35就是进入t+1时刻以后t时刻估算出的最优影响力的偏差。可以将其应用到下一时刻对系统状态的估计中。

第四步，假设要通过观察前5分钟帖子的转发过程预测转发总量，并且已知前5分钟的转发量为300次，通过对前5分钟帖子转发过程的分析计算可以得到5分钟后一级转发用户数量的数学期望为160，求得的分支因子d＝0.6，假设t＝300s时，纠正因子的值为0.2，因此通过模型化的等比数列求和公式，得到当时间趋向无穷大时，帖子的转发总量

至此，得到了通过观察前5分钟帖子的级联转发过程后，帖子的最终转发量的预测值为375次。

Claims

1.社交网络中一种基于Kalman滤波器的帖子转发量预测方法，其特征包括如下步骤：

步骤一、t-1时刻对帖子影响力的最优估计值为f′_t-1，对应最小方差为P′_t-1，得到预测过程中t时刻帖子影响力的预测值：

f_1t＝f′_t-1

同时，预测过程的噪声的方差为Q，因此预测值的总方差P_t＝P′_t-1+Q，预测阶段帖子影响力的值服从(μ₁，σ₁ ²)＝(f_1t，P_t)的高斯分布；

步骤二、当前t时刻转发强度为λ_t，转发用户的影响力m_t，用户反应时间的概率密度函数

其中τ为用户接收到该帖到转发的时间差，得到观察过程中t时刻的帖子影响力

同时，由观察信息到系统状态估计值的映射过程中也会存在偏差，该偏差服从均值为0，方差为R的高斯分布，观察过程帖子影响力的值服从(μ₂，σ₂ ²)＝(f_2t，R)的高斯分布；

步骤三、两个均值和方差分别为μ₁，μ₂，σ₁ ²和σ₂ ²的高斯分布的乘积也为高斯分布，新的高斯分布的均值和方差分别为：

得到t时刻帖子影响力的最优估计值

对应最小方差P′_t＝P_t-K_tP_t，其中，K_t＝P_t(P_t+R)^-1；

步骤四、将帖子未来转发过程模型转化为一棵信息级联树，引入分支因子d作为信息级联树中下层节点数量与上层节点数量的比值，构造一个等比数列，并结合得到的对当前时刻帖子影响力的最优估计值，预测帖子未来转发总量，该等比数列的初值为当前时刻帖子的转发数量；分支因子d表示在一个信息级联树中，由一个时间预期产生的孩子事件数；在级联转发过程中，将每一次转发作为一个随机事件，影响帖子将来转发的因素主要有两种：(1)用户影响力，被粉丝数越多的用户转发的帖子在未来更有可能获得更多的转发，其中用户粉丝数作为用户影响力的评判标准；(2)记忆时间，帖子内容越新，被转发的次数将越多，分支因子d的大小由这两种影响决定。