CN107609717B - 社交网络中一种基于Kalman滤波器的帖子转发量预测方法 - Google Patents

社交网络中一种基于Kalman滤波器的帖子转发量预测方法 Download PDF

Info

Publication number
CN107609717B
CN107609717B CN201710961028.5A CN201710961028A CN107609717B CN 107609717 B CN107609717 B CN 107609717B CN 201710961028 A CN201710961028 A CN 201710961028A CN 107609717 B CN107609717 B CN 107609717B
Authority
CN
China
Prior art keywords
post
forwarding
influence
time
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710961028.5A
Other languages
English (en)
Other versions
CN107609717A (zh
Inventor
郑吉平
张丝曼
张智明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201710961028.5A priority Critical patent/CN107609717B/zh
Publication of CN107609717A publication Critical patent/CN107609717A/zh
Application granted granted Critical
Publication of CN107609717B publication Critical patent/CN107609717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及互联网领域内社交网络中一种帖子转发量预测方法,具体的说,设计的是一种在社交网络中基于Kalman滤波器的通过对帖子转发量预测从而进行事件流行度估计方法。本发明致力于解决当帖子发布后的时间趋向无穷大时,预测该帖子转发总量的问题。本发明针对帖子级联转发过程中的不同状态建立帖子影响力预测模型,提出了当前时刻帖子状态只受到前一时刻帖子状态影响的理论,并引入分支因子,通过构建信息级联树,将对帖子未来转发总数的预测模型化为等比数列求和,从而实现对帖子最终转发量的预测。本发明广泛适用于舆情控制,新产品推广等应用场景。

Description

社交网络中一种基于Kalman滤波器的帖子转发量预测方法
技术领域
本发明涉及互联网领域内社交网络中一种帖子转发量预测方法。具体的说,设计的是一种在社交网络中基于Kalman滤波器的通过对帖子转发量预测从而进行事件流行度估计的方法。
背景技术
随着在线社交网络的发展,越来越多的人选择通过在线网络分享资源,传递信息。国外的网站,例如Facebook,Twitter,国内的网站,例如新浪微博等,都是人们传播信息的平台。发表在网站上的信息,经过用户粉丝的转发,又能被更多的用户看到。经过这样的多次转发,便构成了一个大的信息级联网络,使信息扩散到了更广的范围。可见,在线网络中传播的信息会在整个社交网络中产生深远的影响。例如,一些谣言会通过网络的传播在人群中产生很大的负面影响。如果能预知其影响的范围并及时采取措施使其传播范围尽可能减小尤为重要。另外,很多公司会在即将推出新产品前在网络中发布描述其相关信息的帖子,通过观察该帖子的传播范围预测新产品的热度。如果将帖子的转发数量当作帖子传播范围的评判标准。可以说,对帖子转发量的预测很有必要。
已有对事件流行度的预测研究通常涉及两种方法:(1)基于特征提取的方法[1,2];(2)基于点过程建模的方法[2,3,4]。基于特征的方法需要提取所研究对象的特征,然后根据特征构建相应的学习算法预测事件流行度。而基于点过程的方法则需要通过对传播过程的全面分析,建立最符合其运动规律的信息传播模型。专利[5]提供了一种面向社交网络的恶意代码传播预测方法及系统,他们通过对获得的真实网络数据信息进行特征提取,再基于随机过程对恶意代码的传播行为进行建模,通过建立的传播模型分析预测恶意代码的传播趋势。显然,预测的准确度在很大程度上依赖于特征的种类和数目,且特征提取本身就耗费大量的时间,也无法准确的判断哪些特征能完全体现对象的特点及发展规律。专利[6]提供了一种在社交网络中基于泊松过程模型的事件流行度预测方法。他们通过将影响力最大的关键用户带来的转发微博过程建模为泊松过程,使用样本事件的信息来学习和估计关键用户泊松过程模型的参数以及非关键用户的参数,并给定一个已知一定时间长度的演化信息的新的时间,根据学习建立的泊松过程模型预测它在未来某时刻的流行度。文献[4]中基于霍克斯过程构建自激点过程模型,考虑转发过程的全部历史行为,但正是因为考虑了全部转发历史过程的影响,导致预测准确度不高。
由以上工作可见,根据事件转发规律建立的模型对预测事件未来发展的准确度有很大的影响。本发明将Kalman滤波器思想与帖子转发过程建模结合起来,仅考虑转发前一时刻行为对当前行为的影响,递归的进行预测和更新操作。
上文中提到的文献来源于如下的文章:
[1]J.Cheng,L.Adamic,P.A.Dow,J.M.Kleinberg,and J.Leskovec.Can CascadesBe Predicted?In Proceedings of the 23rd International World Wide WebConference(WWW),pages: 925-936,2014.
[2]S.Mishra,M-A.Rizoiu,and L.Xie.Feature Driven and Point ProcessApproaches for Popularity Prediction.In Proceedings of the 25th ACMInternational on Conference on Information and Knowledge Management(CIKM),pages:1069-1078,2016.
[3]H.-W.Shen,D.Wang,C.Song,and A.-L.Barabási.Modeling and predictingpopularity dynamics via reinforced poisson processes.In Proceedings of the28th AAAI Conference on Artificial Interlligence(AAAI),pages:291-297,2014.
[4]Q.Zhao,M.A.Erdogdu,H.Y.He,A.Rajaraman,and J.Leskovec.SEISMIC:ASelf- Exciting Point Process Model for Predicting tweet Popularity.InProceedings of the 21st ACM SIGKDD Conference on Knowledge Discovery and DataMining(KDD),pages:1513-1522,2015.
上文中提到的专利情况如下:
[5]一种面向社交网络的而已代码传播预测方法及系统(申请日期:2013-01-11,公开号: CN 103093049)
[6]在社交网络中基于泊松过程模型的事件流行度预测方法(申请日期:2014-07-14,公开号:CN 104182457)
发明内容
本发明为解决的技术问题:
本发明的目的是提出一种在社交网络中基于Kalman滤波器的帖子转发量预测方法。基于已有的预测方法准确度不高的现状,本发明提出了引入Kalman滤波器理论的基本思想,在帖子的转发过程中,首先根据经验由前一时刻帖子的最优估计值以及最小估计误差得到当前时刻帖子影响力的预测值,并假设预测的误差为高斯白噪声。然后,根据帖子的实际转发过程的数据信息,通过对帖子影响力的定义,计算出帖子影响力的观察值,并假设这一过程的估计误差也为高斯白噪声。根据一维高斯过程的性质,将预测过程帖子影响力的预测值和观察过程得到的计算结果结合得到当前时刻帖子影响力的最优估计值。然后结合引入的分支因子,将对帖子最终转发量的预测模型化为等比数列求和的过程,实现对未来转发总量预测的目标。
本发明为解决其技术问题采用如下方案:
一种在社交网络中基于Kalman滤波器的帖子转发量预测方法,包括如下步骤:
步骤一中,假设前一时刻帖子影响力的最优估计以及对应最小误差已知,根据经验,对当前时刻帖子影响力进行预测,得到当前时刻帖子影响力的预测值,由于在预测阶段值的偏差可以由噪声协方差和观测值进行修补校正,所以在这里先假设帖子影响力随时间变化保持不变。假设t-1时刻对帖子影响力的最优估计值为f′t-1,对应最小方差为P′t-1。因此,可以得到:
f1t=f′t-1
同时,假设预测过程的噪声的方差为Q,因此预测值的总方差Pt=P′t-1+Q。可以认为预测阶段帖子影响力的值服从(μ1,σ1 2)=(f1t,Pt)的高斯分布。
步骤二中,通过对截止到当前时刻帖子转发过程的观察,任意时刻可以观察到截止到t时刻为止的所有转发信息,包括每次转发的用户id,转发时间以及转发用户影响力。假设当前t时刻转发强度为λt,它由t时刻帖子影响力ft,转发用户的影响力mt和用户反应时间τ决定,即
Figure GSB0000189056640000031
其中τ为用户接收到该帖到转发的时间差,
Figure GSB0000189056640000032
为用户反应时间的概率密度函数。那么可以得到t时刻的帖子影响力
Figure GSB0000189056640000033
同时,由观察信息到系统状态估计值的映射过程中也会存在偏差,假设该偏差服从均值为0,方差为R的高斯分布。可以认为观察过程帖子影响力的值服从(μ2,σ2 2)=(f2t,R)的高斯分布。
步骤三中,结合预测过程和观察过程这两个阶段对帖子影响力的估计值以及对应估计误差,并根据一维高斯过程的性质,即两个均值和方差分别为μ1,μ2,σ1 2和σ2 2的高斯分布的乘积也为高斯分布,新的高斯分布的均值和方差分别为:
Figure GSB0000189056640000034
可以得到一个误差最小的对帖子影响力的最优估计,得到t时刻影子影响力的最优估计值
Figure GSB0000189056640000035
对应最小方差P′t=Pt-KtPt。其中,Kt=Pt(Pt+R)-1。将得到的X′t和Pt′又可以应用到t+1时刻的预测中。
步骤四中,引入分支因子,结合得到的对当前时刻帖子影响力的最优估计值,将对帖子最终转发量的预测模型化为等比数列求和的过程,预测帖子未来转发总量。
为了得到分支因子,首先需要分析影响帖子未来演化的因素,而影响转发未来演化的因素主要有两种:用户影响力m,被粉丝数越多的用户转发的帖子在未来更有可能获得更多的转发(我们将用户粉丝数当作用户影响力的评判标准);记忆时间
Figure GSB0000189056640000041
帖子内容越新,被转发的次数将越多。因此,我们定义一个触发核
Figure GSB0000189056640000042
Figure GSB0000189056640000043
其中,α描述了用户影响力的翘曲效应,它与在社交网络中特定用户影响力的长尾分布 (long-tailed distributions)有关:转发帖子的用户粉丝数服从长尾分布,通过对转发用户粉丝数的数据学习,然后进行函数拟合可以得到确切的α值。
Figure GSB0000189056640000044
表示记忆核,它描述了用户反应时间的概率密度分布,通过在训练集中对样本的取样分析,可知它的分布满足幂律衰减。因此我们令
Figure GSB0000189056640000045
它的指数1+θ描述了一个事件被遗忘的速度,参数 c>0,它是一个常量因子,为了保证当τ≌0时,
Figure GSB0000189056640000046
仍然有界。所以我们将分支因子d 定义为在时间和用户影响力上的积分
Figure GSB0000189056640000047
其中P(m)表示用户影响力的概率密度分布。
然后,通过上述计算得到的当前时刻帖子影响力的最优估计值(假设当前时刻为t时刻),预测时间s≥t,且s→∞时,帖子的总转发次数N。假设s≥t后,帖子影响力不变。我们定义一系列随机变量{A1,A2,A3,...}构建未来信息级联树。在这棵树中,Ak表示第k代的后代(指节点的出度对应的节点)产生的转发次数(Nt为第一代)。注意第一代的后代A1表示t时刻之前的转发用户的后代产生的转发总次数。因此,可以得到
Figure GSB0000189056640000048
根据后代中每一代的平均孩子事件数目d以及上一代的事件总数,得到了任意代的转发总数的最优估计值Ai,即Ai=Ai-1×d,假设A1的值已知,那么可以得到
Ai=Ai-1×d=Ai-2×d2=…=A1×di-1,i>1
因此可以得到
Figure GSB0000189056640000049
d<1。另外,假设
Figure GSB00001890566400000410
表示截止到t时刻为止转发用户的出度之和的有效值,将它表示为
Figure GSB00001890566400000411
并且令St表示截止到t时刻为止转发用户的出度之和,即
Figure GSB00001890566400000412
那么可以得到
Figure GSB00001890566400000413
Figure GSB00001890566400000414
因此,得到了对帖子的最终转发量的预测值为
Figure GSB0000189056640000051
值得注意的是,由于我们是在假设时间s≥t后,帖子影响力不变的前提下用等比数列求和的方法进行预测的,而这显然不符合现实规律。因此,引入一个纠正因子ξ修正最终预测结果:
Figure GSB0000189056640000052
纠正因子符合如下原则:ξt的改变为随时间增长,值变小。此原则与帖子随时间增长影响力变小的特点相一致。对于社交网络中所有的帖子都采用相同的初始值ξt,但它们的大小随时间发生相应改变。最终,通过在训练集中选择使得绝对误差百分比的中位数最小的值为ξt的值。
本发明采用以上技术方案与现有技术相比,具有以下有益效果:
(1)本发明引入Kalman滤波器的基本思想,由于除了前一时刻的状态信息外不需要之前的状态信息,因此对存储性能要求很低并且处理起来的速度很快,这使得它非常适合于实时系统,因此大大提升了方法的效率。
(2)本发明在预测帖子影响力时,能结合对目标的经验预测以及目标的动态信息,设法去掉噪声的影响,得到一个关于当前时刻帖子影响力的最优估计。
(3)本发明引入分支因子,将帖子未来级联转发过程模型化一棵分支为d的信息级联树,将对帖子最终转发总量的求和转化为等比数列求和的过程,大大简化了方法的操作。
附图说明
图1是本发明的总体处理流程图。用户首先输入时间T,系统根据T的取值执行不同的操作,通过递归求得T时刻帖子的最优估计值。然后根据求得的最优预测值结合观察到的截止到T时刻转发总量以及根据观察信息求得的分支因子d计算时间趋向无穷大时的转发总量。
图2是本发明在训练集中训练得到用户影响力的分布函数的流程图。
图3是本发明在训练集中训练得到用户反应时间的分布函数的流程图。
图4是模型化的信息级联转发树。
具体实施方式
以下结合附图和实施案例对本发明的技术方案做进一步详细说明:
第一步,我们假设t-1时刻的帖子影响力为0.8,对应的估计误差P′t-1=3,那么t时刻的系统状态以及误差的预测值都不变,并且假设预测过程中不确定度q=4,那么预测过程中总的偏差是5。
第二步,从级联转发的数据中能得到t时刻和t-1时刻的转发时间分别为84988s和84993s,转发用户粉丝数为77。因此,得到t时刻的转发强度
Figure GSB0000189056640000061
Figure GSB0000189056640000062
同时假设该值的偏差r=4。
第三步,用于估算t时刻系统状态有两个值,分别为0.8和0.977,实际值的大小用它们的协方差来判断。由预测过程和观察过程的偏差,可以得到卡尔曼增益
Figure GSB0000189056640000063
所以Kt=0.78,即因此估算出t时刻帖子影响力的最优值为f′t=0.8+0.78×(0.977- 0.8)=0.938。同时,对应最优估计值的最小均方误差P′t=((1-Kt)×52)0.5=2.35,这里的5就是上面的t时刻预测过程的偏差,得出的2.35就是进入t+1时刻以后t时刻估算出的最优影响力的偏差。可以将其应用到下一时刻对系统状态的估计中。
第四步,假设要通过观察前5分钟帖子的转发过程预测转发总量,并且已知前5分钟的转发量为300次,通过对前5分钟帖子转发过程的分析计算可以得到5分钟后一级转发用户数量的数学期望为160,求得的分支因子d=0.6,假设t=300s时,纠正因子的值为0.2,因此通过模型化的等比数列求和公式,得到当时间趋向无穷大时,帖子的转发总量
Figure GSB0000189056640000064
Figure GSB0000189056640000065
至此,得到了通过观察前5分钟帖子的级联转发过程后,帖子的最终转发量的预测值为375次。

Claims (1)

1.社交网络中一种基于Kalman滤波器的帖子转发量预测方法,其特征包括如下步骤:
步骤一、t-1时刻对帖子影响力的最优估计值为f′t-1,对应最小方差为P′t-1,得到预测过程中t时刻帖子影响力的预测值:
f1t=f′t-1
同时,预测过程的噪声的方差为Q,因此预测值的总方差Pt=P′t-1+Q,预测阶段帖子影响力的值服从(μ1,σ1 2)=(f1t,Pt)的高斯分布;
步骤二、当前t时刻转发强度为λt,转发用户的影响力mt,用户反应时间的概率密度函数
Figure FSB0000189056630000011
其中τ为用户接收到该帖到转发的时间差,得到观察过程中t时刻的帖子影响力
Figure FSB0000189056630000012
Figure FSB0000189056630000013
同时,由观察信息到系统状态估计值的映射过程中也会存在偏差,该偏差服从均值为0,方差为R的高斯分布,观察过程帖子影响力的值服从(μ2,σ2 2)=(f2t,R)的高斯分布;
步骤三、两个均值和方差分别为μ1,μ2,σ1 2和σ2 2的高斯分布的乘积也为高斯分布,新的高斯分布的均值和方差分别为:
Figure FSB0000189056630000014
得到t时刻帖子影响力的最优估计值
Figure FSB0000189056630000015
对应最小方差P′t=Pt-KtPt,其中,Kt=Pt(Pt+R)-1
步骤四、将帖子未来转发过程模型转化为一棵信息级联树,引入分支因子d作为信息级联树中下层节点数量与上层节点数量的比值,构造一个等比数列,并结合得到的对当前时刻帖子影响力的最优估计值,预测帖子未来转发总量,该等比数列的初值为当前时刻帖子的转发数量;分支因子d表示在一个信息级联树中,由一个时间预期产生的孩子事件数;在级联转发过程中,将每一次转发作为一个随机事件,影响帖子将来转发的因素主要有两种:(1)用户影响力,被粉丝数越多的用户转发的帖子在未来更有可能获得更多的转发,其中用户粉丝数作为用户影响力的评判标准;(2)记忆时间,帖子内容越新,被转发的次数将越多,分支因子d的大小由这两种影响决定。
CN201710961028.5A 2017-10-12 2017-10-12 社交网络中一种基于Kalman滤波器的帖子转发量预测方法 Active CN107609717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710961028.5A CN107609717B (zh) 2017-10-12 2017-10-12 社交网络中一种基于Kalman滤波器的帖子转发量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710961028.5A CN107609717B (zh) 2017-10-12 2017-10-12 社交网络中一种基于Kalman滤波器的帖子转发量预测方法

Publications (2)

Publication Number Publication Date
CN107609717A CN107609717A (zh) 2018-01-19
CN107609717B true CN107609717B (zh) 2020-10-20

Family

ID=61077454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710961028.5A Active CN107609717B (zh) 2017-10-12 2017-10-12 社交网络中一种基于Kalman滤波器的帖子转发量预测方法

Country Status (1)

Country Link
CN (1) CN107609717B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304867B (zh) * 2018-01-24 2021-09-10 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN109299429A (zh) * 2018-07-11 2019-02-01 重庆邮电大学 一种基于维纳过程的动态社会关系建模方法
CN109658147A (zh) * 2018-12-14 2019-04-19 西北工业大学 一种基于霍克斯过程的移动应用流行度预测方法
CN112669186B (zh) * 2020-12-31 2022-10-11 山东师范大学 人群疏散中积极情绪和消极情绪的最优化干预方法及系统
CN113837457A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于预测帖子互动行为状态的方法、计算设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182457B (zh) * 2014-07-14 2017-08-01 上海交通大学 在社交网络中基于泊松过程模型的事件流行度预测方法
CN104123377B (zh) * 2014-07-30 2017-06-06 福州大学 一种微博话题热度预测系统及方法
CN106257459B (zh) * 2016-08-03 2019-11-01 哈尔滨工程大学 一种基于关键用户的微博信息传播预测方法
CN106777162A (zh) * 2016-12-20 2017-05-31 西南石油大学 一种高精度微博转发预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《社交媒体中微博转发的预测模型研究》;刘刚;《中国优秀硕士学位论文全文数据库信息科技辑》;20150815(第8期);全文 *

Also Published As

Publication number Publication date
CN107609717A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN107609717B (zh) 社交网络中一种基于Kalman滤波器的帖子转发量预测方法
CN111784348B (zh) 账户风险识别方法及装置
CN110569427B (zh) 一种多目标排序模型训练、用户行为预测方法及装置
CN113792937B (zh) 一种基于图神经网络的社交网络影响力预测方法、装置
CN112073415B (zh) 一种网络安全知识图谱的构建方法及装置
Zhao et al. A neural-network based DDoS detection system using hadoop and HBase
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN113422761B (zh) 基于对抗学习的恶意社交用户检测方法
Khan et al. Novel approach for a van der pol oscillator in the continuous time domain
Soleimani et al. Artificial neural network application in predicting probabilistic seismic demands of bridge components
CN113434628B (zh) 一种基于特征级与传播关系网络的评论文本置信检测方法
CN113536144A (zh) 一种社交网络信息的传播规模预测方法、装置
Wang et al. Swarm Intelligence‐Based Hybrid Models for Short‐Term Power Load Prediction
Abbas et al. Curve fitting predication with artificial neural networks: A comparative analysis
CN114117029A (zh) 一种基于多层次信息增强的解决方案推荐方法及系统
CN112765606A (zh) 恶意代码同源性分析方法和装置及设备
Li et al. AINet-SL: artificial immune network with social learning and its application in FIR filter designing
CN115774875A (zh) 基于差分隐私联邦深度学习的安卓恶意应用检测方法
CN115660795A (zh) 数据处理方法、装置、设备、存储介质及程序产品
Wang et al. Semi-GSGCN: social robot detection research with graph neural network
CN114357160A (zh) 基于生成传播结构特征的早期谣言检测方法及装置
Silva Generalized autoregressive neural network models
CN110766338A (zh) 一种基于人工智能和区块链技术eos.io的dpos分叉预测模型方法
Liu et al. Prediction model for non-topological event propagation in social networks
Alisher The solution of problem of parameterization of the proximity function in ACE using genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant