CN112418269B - 社交媒体网络事件传播关键时间预测方法、系统、介质 - Google Patents
社交媒体网络事件传播关键时间预测方法、系统、介质 Download PDFInfo
- Publication number
- CN112418269B CN112418269B CN202011150003.5A CN202011150003A CN112418269B CN 112418269 B CN112418269 B CN 112418269B CN 202011150003 A CN202011150003 A CN 202011150003A CN 112418269 B CN112418269 B CN 112418269B
- Authority
- CN
- China
- Prior art keywords
- time
- popularity
- social media
- window
- media network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 230000008451 emotion Effects 0.000 claims abstract description 98
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 31
- 238000009499 grossing Methods 0.000 claims abstract description 24
- 230000005540 biological transmission Effects 0.000 claims abstract description 22
- 230000012010 growth Effects 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 13
- 238000003066 decision tree Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于在线信息传播预测技术领域,公开了一种社交媒体网络事件传播关键时间预测方法、系统、介质,根据社交媒体网络事件在线信息的不同时间序列特征,进行类别划分;采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;识别预处理后的社交媒体网络事件传播的关键节点发生的时间区间;针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征;构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;采用训练完成的模型预测社交媒体网络事件传播过程的关键节点发生的时间。本发明能有效预测社交媒体网络事件传播过程的关键节点发生时间。
Description
技术领域
本发明属于在线信息传播预测技术领域,尤其涉及一种社交媒体网络事件传播关键时间预测方法、系统、介质。
背景技术
目前:随着移动互联网的发展,社交媒体的影响力和传播速度大大超越了传统主流媒体,诸如Twitter、微博、微信等典型社交媒体已成为公众交流讨论的重要平台。社交媒体赋予了用户创作内容的自主性,日益庞大的用户群体和愈加丰富的传播形式使得用户发布的内容越来越多,这带来了信息量的爆炸式增长。最受欢迎的社交媒体的用户数量已达到亿级,每天产生的数据量达到TB(terabytes)甚至PB(petabytes)级别。
社交媒体网络事件是公共事件的一种延伸,它通常由某一主题或目的引发,是社交媒体用户群体表达自我意识、引导社会舆论导向、促进社会变革的表现形式。它可以由网民自我驱动形成,也可能由目的性较强的个体组织发起。它可能推动社会各方的思考与进步,推进社会体制的改革,也有可能被别有用心的恶意分子利用,演变为暴力违法事件。
有机生物体生命演化中的关键事件包括生长,成熟和衰老,而社交媒体网络事件传播演化过程中一样包含“爆发”,“顶峰”和“衰退”等代表性关键节点。如果可以预测这些节点发生的时间,就能够全面了解信息传播过程中流行度的演变,并确定信息的整体流行度变化趋势。
近些年来,如何发掘影响社交媒体内容流行程度的特征因素,如何根据内容流行度的早期变化趋势来预测其未来的流行度,这些问题引发了研究者的关注。当前针对社交媒体网络事件传播预测问题采用的方法主要分为三类。
第一类方法主要采用复杂模型来拟合在线内容的传播规律,进而对未来内容的流行度进行预测。例如文献Crane R.,Sornette D.Robust dynamic classes revealed bymeasuring the response function of a social system.Proceedings of theNational Academy of Sciences,2008,105(41):15649-15653使用自激Hawkes条件泊松过程来模拟YouTube视频的流行度演化,并表明YouTube视频的流行度遵循了指数级上升和指数级下降的演变模式。文献Matsubara Y,Sakurai Y,Prakash B A,et al.Rise and fallpatterns of information diffusion:model and implications.Proceedings of the18th ACM SIGKDD international conference on Knowledge discovery and datamining.2012:6-14.使用了一种轻量级的SpikeM分析模型来拟合实际数据,此模型能够简洁准确地描述实际社交网络数据中存在的脉冲模式。这类方法的不足在于模型复杂度较高且泛化性较差,方法偏向于研究在线信息的传播规律,预测精度较低。
第二类方法主要对在线信息传播过程的特征进行提取,并采用统计学习或深度学习模型预测在线信息的流行度。文献He X,Gao M,Kan MY,et al.Predicting thepopularity of web 2.0items based on user comments.Proceedings of the 37thinternational ACM SIGIR conference on Research&development in informationretrieval.2014:233-242.对在线信息的评论进行分析时考虑了多种类型关键因素:用于获取时间因素的时间戳,用于挖掘用户潜在社交网络影响的用户名,以及当前已知的流行度因素。基于这些关键因素,该文献针对YouTube,Flickr和Last.fm的数据建立了用于预测未来流行度的时间感知二分图模型,并利用此模型预测最终的流行度。文献Zohourian A,Sajedi H,Yavary A.Popularity prediction of images and videos onInstagram.20184th International Conference on Web Research(ICWR).IEEE,2018:111-117.针对Instagram网站的视频和图片定义了流行度分数,且提取了这些数据的时间特征、常见附加特征、文本特征、视频特征、视觉特征、图片特征等特征,基于这些特征使用了线性回归和支持向量机等方法对视频和图片的流行度进行预测,使用K近邻、随机森林、朴素贝叶斯、决策树等算法对流行度分数进行了分类。这类方法的不足之处在于仅针对在线信息未来的某一个时间点的流行度进行了预测,而没能把握社交媒体网络事件传播过程的整体发展趋势。
第三类方法主要基于在线信息传播规律对流行度爆发式增长的时间进行预测。文献Kong S,Mei Q,Feng L,et al.Predicting bursts and popularity of hashtags inreal-time.Proceedings of the 37th international ACM SIGIR conference onResearch&development in information retrieval.2014:927-930.研究了Twitter话题(hashtag标识的tweet)流行度是否会在近期爆发性增长,如果有可能增长应该在什么时间点进行预测且最终流行度最高能达到多少。文献Wang S,Yan Z,Hu X,et al.Burst timeprediction in cascades[C].Twenty-Ninth AAAI Conference on ArtificialIntelligence.2015.预测了社交媒体信息流的流行度何时爆发性增长,该文献利用富信息传播(rich information diffusion)理论将问题表述为一个分类问题,并使用与时间范围无关的方式进行建模。这类方法的不足之处在于仅针对在线信息传播过程的单个关键节点发生时间进行了预测,预测精度较低,且没有关注传播过程的其他关键节点。
通过上述分析,现有技术存在的问题为:现有社交媒体网络事件传播过程的爆发、顶峰、衰退等关键节点发生时间的预测问题。
解决以上问题的难度在于:提高泛化性和准确度。不同的时间序列的时间跨度可能会很大,比如有的事件可能会活跃10天,而有的事件可能仅活跃几个小时,如何克服数据的复杂度、处理不同时间跨度的时间序列、计算其相似程度以及为其分类是一个难点问题。此外,目前的研究大多数是利用单方面特征对流行度进行预测,如何多方位提取影响网络事件流行度演化的特征以以扩大输入信息的维度,并且基于这些特征提高关键节点预测的准确度是问题的难点。
解决以上问题能够使得预测模型可以对不同类型的时间序列进行处理和预测有效提高泛化性,此外,除了提取常规的时序特征和波动特征以外,还提取出信息本身包含的文本情感特征,基于多维度的输入,有效提高模型的预测准确度。准确地预测社交媒体网络事件传播关键时间能帮助管理者更好的控制舆情走向,对热点事件的早期发现、在线营销策略的调整和谣言传播的控制等都具有重要的意义。
发明内容
针对现有技术存在的问题,本发明提供了一种社交媒体网络事件传播关键时间预测方法、系统、介质。
本发明是这样实现的,一种社交媒体网络事件传播关键时间预测方法,所述社交媒体网络事件传播关键时间预测方法包括:
根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法进行类别划分;
采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;
识别预处理后的社交媒体网络事件传播的关键节点发生的时间区间;
针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征;
构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;
采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退关键节点发生的时间。
进一步,所述根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法进行类别划分包括以下步骤:
(1)从社交平台上获取社交媒体网络事件数据集,得到社交媒体网络事件在线信息的流行度时间序列listi={pi(1),pi(2),...,pi(Ni)},其中Ni表示网络事件i的流行度时间序列的长度,pi(j)表示网络事件i在第j个固定的时间区间内的受关注程度,即该时间区间内带有事件i标签的句子在社交平台上的被搜索次数;
(2)依据以下流程对流行度时间序列完成K-SC聚类过程:
1)设置聚类类别数K;
2)从所有流行度时间序列中随机选择K个,作为初始聚类中心;
3)计算每个流行度时间序列到K个聚类中心的距离,并把该流行度时间序列划分到距离最近的类别里;
4)更新聚类中心;
5)如果更新后的聚类中心与原聚类中心相同,则停止迭代,得到K个聚类中心作为流行度时间序列,否则返回3)继续执行;
其中3)中提到的距离计算方式如下:
其中为流行度时间序列x和流行度时间序列y之间的距离,α为数量缩放系数,实现纵向放缩,b为时间轴偏移系数,实现横向平移,y(b)是将时间序列左右平移b个时间区间的后的结果,||·||为二范数。
求解时首先固定b的值,此时||x-αy(b)||/||x||为α的凸函数,α的最优值为||xTy(b)||/||y(b)||2。对于b的最优值,首先找到使两个时间序列的最高波峰对齐的b',围绕b'寻找b的最优值,通过α和b的最优值,计算出x与y的距离;
4)中第k个新的聚类中心为矩阵Mk的最小特征值对应的特征向量,其中:
Ck为划分到第k类的流行度时间序列的集合,I是单位矩阵。
进一步,所述采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理中,通过以下公式对聚类得到的K个流行度时间序列中波动性过强的序列y完成霍尔特线性趋势法的平滑处理:
其中yt表示流行度时间序列y在时间t的值,2≤t≤n,lt表示流行度序列数量级别在时间t的估计值,bt表示流行度序列在时间t的趋势估计值,α为数量级别的平滑参数,0≤α≤1,β为趋势的平滑参数,0≤β≤1。
进一步,所述关键节点发生的时间区间根据{pi(1),pi(2),...,pi(Ni)}识别,{pi(1),pi(2),...,pi(Ni)}为网络事件i在Ni个时间区间内的流行度演化时间序列;
若存在Ti p,满足Ti p∈{1,2,3,...,Ni},并且pi(Ti p)为时间序列{pi(1),pi(2),...,pi(Ni)}中的最大元素,则称“顶峰”节点发生在时间第Ti p个区间;
若存在Ti b,满足Ti b∈{2,3,4,...,Ti p},并且[pi(Ti b)-pi(Ti b-1)]为{pi(2)-pi(1),pi(3)-pi(2),...,pi(Ti p)-pi(Ti p-1)}中的最大值,则称“爆发”节点发生在第Ti b个时间区间;
若存在Ti f,满足Ti f∈{Ti p,Ti p+1,...,Ni-1},此时流行度序列呈现下降趋势,并且[pi(Ti f)-pi(Ti f+1)]为{pi(Ti p+1)-pi(Ti p+2),pi(Ti p+2)-pi(Ti p+3),...,pi(Ni-1)-pi(Ni)}中的最大值,则称“衰退”节点发生在第Ti f个时间区间;
根据定义得到K个流行度时间序列爆发、顶峰和衰退节点发生的时间区间。
进一步,所述针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征包括:
(1)设定前置时间窗口数量N,N≥1;
(2)时间序列起始时间记为t0,预测时间点记为tP,预测开始前传播的时间区间为[t0,tP],将此区间划分为N个大小相同的时间窗口,每个时间窗口大小为则未来的第f个时间窗口定义为:
(3)时序特征按照如下定义进行提取;
1)单时间窗口平均增长率给定时间序列s的第i个和第i+1个时间窗口的流行度分别为/>和/>定义相邻时间窗口的单时间窗口平均增长率为:
2)双时间窗口平均增长率与单时间窗口平均增长率相似,计算时间序列s的第i个和第i+2个时间窗口流行度的平均增长率,定义双时间窗口平均增长率定义为:
3)近邻时间窗口传播速度距离预测时间最近的连续前a个时间窗口的信息传播速度,定义为:
其中ts为时间序列s所划分的时间窗口的长度;
4)近邻单时间窗口平均增长率距离预测时间最近的连续前a个时间窗口单窗口平均增长率,定义为:
5)近邻双时间窗口平均增长率距离预测时间最近的连续前a个时间窗口双窗口平均增长率,定义为:
(4)波动特征按照如下定义进行提取:
1)小时/日序数H:预测时间出现在一天内的第几个小时,取值范围为0到23的24个整数值;
2)日/周序数D:预测时间出现在一周当中的第几天,取值范围为0到6的7个整数值;
3)局部波峰数ls:将给定时间区间[t0,tP]等分为N个时间窗口,流行度时间序列s可表示为{ps(1),ps(2),...,ps(N)},如果对于ps(nls)>ps(nls+i),则称ps(nls)是一个局部波峰,其中h是一个预设的阈值。定义在预测时间tP之前出现的局部波峰总数为ls;
4)局部波峰间平均距离设两个连续的局部波峰分别发生在第/>和第/>个时间窗口,局部波峰间的距离/>局部波峰间平均距离定义为:
其中M为局部波峰的数量;
5)最近局部波峰距离设预测时间位于第nP个时间窗口,距离预测时间窗口最近的局部波峰位于第nlP个窗口,则最近局部波峰距离定义为:
(5)文本情感特征按照如下定义进行提取:
累积情感值EA:预测时间之前时间窗口所累积的情感值:
情感值其中,/>为句子c的情感极性,/>为句子c的主观性,/>的取值范围为[-1,1],-1为负面情感的极端,1为正面情感的极端,/>的取值范围为[0,1],0代表客观性的极端,1代表主观性的极端;
如果Ec>0,则该句子c所包含的为正面情感;
如果Ec=0,则该句子c所包含的情感为中性;
如果Ec<0,则该句子c所包含的为负面情感;
第i个时间窗口的句子总数为m,则该时间窗口内情感值为:
1)累积正面情感值EA+:预测时间之前积时间窗口所累的正面情感值:
其中输出正面情绪值的函数fpositive定义为:
2)累积负面情感值EA-:预测时间之前时间窗口所累积的负面情感值:
其中输出负面情绪值的函数fnegative定义为:
3)单窗口情感值平均增长率Er:给定第i个和第i+1个时间窗口的情感值分别为Ei和Ei+1,定义相邻时间窗口的单时间窗口情感值平均增长率为:
4)单窗口正面情感值平均增长率第i个时间窗口正面情感值定义为定义相邻时间窗口的单时间窗口正面情感值平均增长率为:
5)单窗口负面情感值平均增长率第i个时间窗口负面情感值定义为定义相邻时间窗口的单时间窗口负面情感值平均增长率为:
根据定义提取K个流行度时间序列提取的特征包括时序特征、波动特征及文本情感特征。
进一步,所述构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型包括:
(1)设定未来时间窗口数量M,M≥1;
(2)将预测关键节点发生在未来的哪个时间窗口这一问题转化为关键节点是否会发生在未来第1,2,3,...,M个时间窗口,每个时间窗口的预测模型需要构建的样本,包括正样本与负样本;
(3)记f为预测关键节点是否会发生的窗口数,1≤f≤M;
(4)对于时间序列s,起始时间表示为关键节点发生的时间点表示为/>将时间区间/>等分为N+f个时间窗口,划分结果表示为/>关键节点发生在第N+f个时间窗口,如果预测时间点/>在第N个时间窗口,那么关键节点就会发生在预测时间点/>未来的第f个时间窗口;
(5)重复步骤(4),利用K个流行度时间序列构建K个正样本;
(6)随机选择预测时间点为将时间区间/>等分为N+l+f个时间窗口,划分结果表示为/>l为随机选择的绝对值大于0的整数,l可以为正也可以为负,但要保证N+l+f大于0,当l为正整数时,关键节点发生的时间在第N+f个时间窗口之后;当l为负整数时,关键节点发生的时间在第N+f个时间窗口之前;
(7)重复步骤(6),利用K个流行度时间序列构建K个负样本;
(8)根据样本训练模型,模型训练过程的关键参数为:决策树数量、决策树最大深度、学习率、叶节点最小权重、决策树权重改变最大步长,根据关键参数、构建的样本及提取的时序特征、波动特征、文本情感特征,训练出用于预测关键节点时间的XGBoost模型,训练过程采用网格搜索的方式确定模型最佳参数。
(9)重复步骤(4)至(8),为M个未来窗口训练相应的XGBoost关键节点预测模型;
(10)重复步骤(1)至(9),训练出用于预测爆发、顶点、衰退出现时间的XGBoost模型。
进一步,所述采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退关键节点发生的时间包括:
(1)确定预测的关键节点类型,包括:爆发、顶峰、衰退;
(2)确定预测的前置时间窗口数量N和未来时间窗口数量M;
(3)使用选定的M个模型进行预测:
1)设i=1;
2)如果i>M,则预测停止,输出关键节点发生在未来第M个时间窗口;
3)使用第i个模型预测关键节点是否发生在未来第i个时间窗口;
4)如果预测结果为是,则结束,输出关键节点发生在未来第i个时间窗口;
5)如果结果为否,i=i+1,返回执行2)。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法进行类别划分;
采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;
识别预处理后的社交媒体网络事件传播的关键节点发生的时间区间;
针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征;
构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;
采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退关键节点发生的时间。
本发明的另一目的在于提供一种实施所述社交媒体网络事件传播关键时间预测方法的社交媒体网络事件传播关键时间预测系统,所述社交媒体网络事件传播关键时间预测系统包括:
类别划分模块,用于根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法对其进行类别划分;
平滑处理模块,用于采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;
发生时间区间识别模块,用于针对经过预处理后的时间序列数据进行时间窗口划分,识别社交媒体网络事件传播的关键节点的发生时间区间;
特征提取模块,用于基于在线信息数据提取时序、波动及文本情感特征;
预测模型训练模块,用于构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;
发生时间预测模块,用于采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退关键节点发生的时间。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述社交媒体网络事件传播关键时间预测方法;所述信息数据处理终端为舆情管控信息数据处理终端、企业营销信息数据处理终端或热点推送信息数据处理终端。
结合上述的所有技术方案,本发明具优于现有算法,与文献Hu Y,Hu C,Fu S,etal.Predicting key events in the popularity evolution of onlineinformation.PloS one,2017,12(1).使用了SVR(Support Vector Regression)算法、随机森林和AdaBoost算法进行了实验对比。实验的衡量标准使用F1值(F1 Score),F1值定义为公式:
precision=TP/(TP+FP)
recall=TP/(TP+FN)
其中TP为将实际为正样例预测为正样例的个数,FP为将实际为负样例预测为正样例的个数,FN为将实际为正样例预测为负样例的个数。图8为算法对比实验结果图。
本发明提供基于XGBoost的社交媒体网络事件传播关键时间预测方法,主要运用于热点事件的早期发现、在线营销策略的调整、舆情演化的干预控制等领域。本发明主要解决社交媒体网络事件传播过程的爆发、顶峰、衰退等关键节点发生时间的预测问题。针对社交媒体数据在数量和类型方面的复杂性,本发明对传播信息进行更加准确的类别划分。同时对分类后的信息进行预处理,以提升预测方法的泛化性,更全面地把握社交媒体网络事件信息的传播趋势,最终提升关键节点发生时间的预测精度。
本发明能有效预测社交媒体网络事件传播过程的爆发、顶峰、衰退等关键节点发生时间,可用于舆情管控、企业营销和热点推送等领域。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的社交媒体网络事件传播关键时间预测方法流程图。
图2是本发明实施例提供的社交媒体网络事件传播关键时间预测系统的结构示意图。
图3是本发明实施例提供的社交媒体网络事件传播关键时间预测方法的实现流程图。
图4是本发明实施例提供的K-SC聚类算法结果图。
图5是本发明实施例提供的霍尔特线性趋势法处理结果图。
图6是本发明实施例提供的预处理有效性对比实验结果图。
图7是本发明实施例提供的预测框架示意图。
图8为算法对比实验结果图
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种社交媒体网络事件传播关键时间预测方法、系统、介质,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的社交媒体网络事件传播关键时间预测方法包括以下步骤:
S101:根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法对其进行类别划分;
S102:采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;
S103:针对经过预处理后的时间序列数据进行时间窗口划分,识别社交媒体网络事件传播的关键节点的发生时间区间;
S104:基于在线信息数据提取时序、波动及文本情感特征;
S105:构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;
S106:采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退等关键节点发生的时间。
本发明提供的社交媒体网络事件传播关键时间预测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的社交媒体网络事件传播关键时间预测方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的社交媒体网络事件传播关键时间预测系统包括:
类别划分模块1,用于根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法对其进行类别划分;
平滑处理模块2,用于采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;
发生时间区间识别模块3,用于针对经过预处理后的时间序列数据进行时间窗口划分,识别社交媒体网络事件传播的关键节点的发生时间区间;
特征提取模块4,用于基于在线信息数据提取时序、波动及文本情感特征;
预测模型训练模块5,用于构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;
发生时间预测模块6,用于采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退等关键节点发生的时间。
下面结合附图对本发明的技术方案作进一步的描述。
如图3所示,本发明提供的基于XGBoost的社交媒体网络事件传播关键时间预测方法,包括以下步骤:
步骤一:根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC(K-Spectral Centroid)聚类算法对其进行类别划分。
步骤二:采用霍尔特线性趋势法(Holt Linear Trend Method)对波动性过强的流行度时间序列进行平滑处理。
步骤三:识别预处理后的社交媒体网络事件传播的关键节点发生的时间区间。
步骤四:针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征。
步骤五:构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型。
步骤六:采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退等关键节点发生的时间。
本发明的步骤一的具体实现如下:
准备过程:在64位windows10平台上安装配置Python环境,并编写爬虫程序。
步骤1.1:Twitter平台使用“#”后面加上一定长度的单词作为某个话题或者热点事件的标识,这种标识称为标签。定义流行度为固定时间区间带有某个标签的Twitter的数量。本实施例从中提取到流行度较高的带有标签的事件3000个,得到社交媒体网络事件在线信息的流行度时间序列listi={pi(1),pi(2),...,pi(Ni)},其中Ni表示网络事件i的流行度时间序列的长度,pi(j)表示发是网络事件i在第j个固定的时间区间的流行度。
步骤1.2:利用如下流程对流行度时间序列进行K-SC聚类:
step1设置聚类类别数K;
step2设置K个长度为Ni的随机序列,作为初始聚类中心;
step3计算每个流行度时间序列到K个聚类中心的距离,并把该流行度时间序列划分到距离最近的类别里;
step4更新聚类中心;
step5如果更新后的聚类中心与原聚类中心相同,则停止迭代,得到K个聚类中心作为流行度时间序列,否则返回step3继续执行。
其中step3中提到的距离计算方式如下:
其中为流行度时间序列x和流行度时间序列y之间的距离,α为数量缩放系数,实现纵向放缩,b为时间轴偏移系数,实现横向平移,y(b)是将时间序列左右平移b个时间区间的后的结果,||·||为二范数。
求解时首先固定b的值,此时||x-αy(b)||/||x||为α的凸函数,α的最优值为||xTy(b)||/||y(b)||2。对于b的最优值,首先找到使两个时间序列的最高波峰对齐的b',然后围绕b'寻找b的最优值,通过α和b的最优值,计算出x与y的距离。
step4中第k个新的聚类中心为矩阵Mk的最小特征值对应的特征向量,其中:
Ck为划分到第k类的流行度时间序列的集合,I是单位矩阵。
函数实现如下:
#K-SC聚类伪代码
输入:样本集D={x1,x2,...,xm};
定义:聚类簇数K;
初始簇分配C={C1,C2,...,CK};
过程:
实施时设置的聚类类别数C=3,图4是K-SC聚类算法得到的结果图,显示了3个聚类中心的流行度时间序列形态。
本发明的步骤二利用如下公式对通过以下公式对聚类得到的K个流行度时间序列中波动性过强的序列y完成霍尔特线性趋势法的平滑处理:
其中yt表示流行度时间序列y在时间t的值,2≤t≤n,lt表示流行度序列数量级别在时间t的估计值,bt表示流行度序列在时间t的趋势估计值,α为数量级别的平滑参数,0≤α≤1,β为趋势的平滑参数,0≤β≤1。
图4中的第1个类别不需要进行处理,而第2、3个流行度时间序列波动性较强,需要进行平滑处理以更好地识别关键节点,进一步提升预测模型的泛化能力,图5为霍尔特线性趋势法处理结果图,实施时设置的α=0.06,β=0.05,由图可见经过处理后的流行度时间序列较原数据,除去了许多干扰性波动,图6为霍尔特线性趋势法处理结果图,可见经过霍尔特线性趋势法处理后的预测结果要优于未处理的预测结果。
本发明的步骤三按如下定义确定流行度时间序列关键节点,具体实现如下:
步骤3.1:网络事件i在Ni个时间区间上进行传播,网络事件i的流行度演化时间序列表示为{pi(1),pi(2),...,pi(Ni)};
步骤3.2:若存在Ti p,满足Ti p∈{1,2,3,...,Ni},并且pi(Ti p)为时间序列{pi(1),pi(2),...,pi(Ni)}中的最大元素,则称“顶峰”节点发生在时间第Ti p个区间,函数实现如下:
#获得序列顶峰节点发生区间
输入:流行度时间序列P={p(1),p(2),...,p(N)}
步骤3.3:若存在Ti b,满足Ti b∈{2,3,4,...,Ti p},并且[pi(Ti b)-pi(Ti b-1)]为{pi(2)-pi(1),pi(3)-pi(2),...,pi(Ti p)-pi(Ti p-1)}中的最大值,则称“爆发”节点发生在第Ti b个时间区间,函数实现如下:
#获得序列爆发节点发生区间
输入:流行度时间序列P={p(1),p(2),...,p(N)}
步骤3.4:若存在Ti f,满足Ti f∈{Ti p,Ti p+1,...,Ni-1},此时流行度序列呈现下降趋势,并且[pi(Ti f)-pi(Ti f+1)]为{pi(Ti p+1)-pi(Ti p+2),pi(Ti p+2)-pi(Ti p+3),...,pi(Ni-1)-pi(Ni)}中的最大值,则称“衰退”节点发生在第Ti f个时间区间,函数实现如下:
#获得序列衰退节点发生区间
输入:
流行度时间序列P={p(1),p(2),...,p(N)}
流行度时间序列顶峰节点发生区间t
根据上述方式得到K个流行度时间序列爆发、顶峰和衰退节点发生的时间区间。
本发明的步骤四的具体实现如下:
步骤4.1:设定前置时间窗口数量N,N≥1。
步骤4.2:时间序列起始时间记为t0,预测时间点记为tP,预测开始前传播的时间区间为[t0,tP],将此区间划分为N个大小相同的时间窗口,每个时间窗口大小为则未来的第f个时间窗口定义为:
时序特征按照如下定义进行提取;
步骤4.3:单时间窗口平均增长率给定时间序列s的第i个和第i+1个时间窗口的流行度分别为/>和/>定义相邻时间窗口的单时间窗口平均增长率为:
步骤4.4:双时间窗口平均增长率与单时间窗口平均增长率相似,计算时间序列s的第i个和第i+2个时间窗口流行度的平均增长率,定义双时间窗口平均增长率定义为:
步骤4.5:近邻时间窗口传播速度距离预测时间最近的连续前a个时间窗口的信息传播速度,定义为:
其中ts为时间序列s所划分的时间窗口的长度。
步骤4.6:近邻单时间窗口平均增长率距离预测时间最近的连续前a个时间窗口单窗口平均增长率,定义为:
/>
步骤4.7:近邻双时间窗口平均增长率距离预测时间最近的连续前a个时间窗口双窗口平均增长率,定义为:
波动特征按照如下定义进行提取:
步骤4.8:小时/日序数H:预测时间出现在一天内的第几个小时,取值范围为0到23的24个整数值。
步骤4.9:日/周序数D:预测时间出现在一周当中的第几天,取值范围为0到6的7个整数值。
步骤4.10:局部波峰数ls:将给定时间区间[t0,tP]等分为N个时间窗口,流行度时间序列s可表示为{ps(1),ps(2),...,ps(N)},如果对于ps(nls)>ps(nls+i),则称ps(nls)是一个局部波峰,其中h是一个预设的阈值。定义在预测时间tP之前出现的局部波峰总数为ls。
步骤4.11:局部波峰间平均距离设两个连续的局部波峰分别发生在第/>和第个时间窗口,局部波峰间的距离/>局部波峰间平均距离定义为:
其中M为局部波峰的数量。
步骤4.12:最近局部波峰距离设预测时间位于第nP个时间窗口,距离预测时间窗口最近的局部波峰位于第nlP个窗口,则最近局部波峰距离定义为:
文本情感特征按照如下定义进行提取:
步骤4.13:累积情感值EA:预测时间之前时间窗口所累积的情感值:
情感值其中,/>为句子c的情感极性,/>为句子c的主观性,/>的取值范围为[-1,1],-1为负面情感的极端,1为正面情感的极端,/>的取值范围为[0,1],0代表客观性的极端,1代表主观性的极端。句子情感极性/>与句子主观性/>可以采用Pattern的英文Sentiment分析模块进行提取,具体使用方式为sentiment("the sentence to beanalyzed"),引号内为需要被分析的句子,在使用之前要导入该模块工具包,语句为:frompattern.en import sentiment。
如果Ec>0,则该句子c所包含的为正面情感;
如果Ec=0,则该句子c所包含的情感为中性;
如果Ec<0,则该句子c所包含的为负面情感。
第i个时间窗口的句子总数为m,则该时间窗口内情感值为:
步骤4.14:累积正面情感值EA+:预测时间之前积时间窗口所累的正面情感值:
其中输出正面情绪值的函数fpositive定义为:
步骤4.15:累积负面情感值EA-:预测时间之前时间窗口所累积的负面情感值:
其中输出负面情绪值的函数fnegative定义为:
步骤4.16:单窗口情感值平均增长率Er:给定第i个和第i+1个时间窗口的情感值分别为Ei和Ei+1,定义相邻时间窗口的单时间窗口情感值平均增长率为:
步骤4.17:单窗口正面情感值平均增长率第i个时间窗口正面情感值定义为定义相邻时间窗口的单时间窗口正面情感值平均增长率为:
步骤4.18:单窗口负面情感值平均增长率第i个时间窗口负面情感值定义为定义相邻时间窗口的单时间窗口负面情感值平均增长率为:
根据上述定义提取K个流行度时间序列提取的特征包括时序特征、波动特征及文本情感特征。
本发明的步骤五的具体实现如下:
步骤5.1:设定未来时间窗口数量M,M≥1。
步骤5.2:将预测关键节点发生在未来的哪个时间窗口这一问题转化为关键节点是否会发生在未来第1,2,3,...,M个时间窗口,每个时间窗口的预测模型需要构建的样本,包括正样本与负样本。
步骤5.3:记f为预测关键节点是否会发生的窗口数,1≤f≤M。
步骤5.4:对于时间序列s,起始时间表示为关键节点发生的时间点表示为/>将时间区间/>等分为N+f个时间窗口,划分结果表示为/>关键节点发生在第N+f个时间窗口。如果预测时间点/>在第N个时间窗口,那么关键节点就会发生在预测时间点/>未来的第f个时间窗口。
步骤5.5:重复步骤5.4,利用K个流行度时间序列构建K个正样本。
步骤5.6:随机选择预测时间点为将时间区间/>等分为N+l+f个时间窗口,划分结果表示为/>l为随机选择的绝对值大于0的整数,l可以为正也可以为负,但要保证N+l+f大于0。当l为正整数时,关键节点发生的时间在第N+f个时间窗口之后;当l为负整数时,关键节点发生的时间在第N+f个时间窗口之前。
步骤5.7:重复步骤5.6,利用K个流行度时间序列构建K个负样本。
步骤5.8:根据样本训练模型,模型训练过程的关键参数为:决策树数量、决策树最大深度、学习率、叶节点最小权重、决策树权重改变最大步长。根据关键参数、构建的样本及提取的时序特征、波动特征、文本情感特征,训练出用于预测关键节点时间的XGBoost模型。训练过程采用网格搜索的方式确定模型最佳参数,具体程序如下:
#训练XGBoost模型
#导入工具包
import xgboost as xgb
#训练XGBoost模型
param={'n_estimator':50,'max_depth':5,'learning_rate':0.15,'min_chile_weight':0,'max_delta_step':0.6}bst=xgb.train(param,dtrain,num_round);
return bst;
步骤5.9:重复步骤5.4至5.8,为M个未来窗口训练相应的XGBoost关键节点预测模型。
步骤5.10:重复步骤5.1至5.9,训练出用于预测爆发、顶点、衰退出现时间的XGBoost模型。
本发明的步骤流具体实现如下:
步骤6.1:确定预测的关键节点类型,包括:爆发、顶峰、衰退。
步骤6.2:确定预测的前置时间窗口数量N和未来时间窗口数量K。
步骤6.3:使用选定的K个模型进行预测:
step1设i=1;
step2如果i>K,则预测停止,输出关键节点发生在未来第K个时间窗口;
step3使用第i个模型预测关键节点是否发生在未来第i个时间窗口;
step4如果预测结果为是,则结束,输出关键节点发生在未来第i个时间窗口;
step5如果结果为否,i=i+1,返回执行step2。
综上所述,本发明针对社交媒体数据在数量和类型的复杂性,使用K-SC聚类对传播信息进行更加准确的类别划分,并采用霍尔特线性趋势法对分类后的信息进行预处理,提升了预测方法的泛化性;本发明在提取常规时序特征及波动特征之后,进一步提取了信息本身包含的文本情感特征,提升了预测方法输入特征的信息维度;本发明可以同时预测社交媒体网络事件传播过程的爆发、顶峰、衰退三个关键节点发生的时间,能够对在线信息的整体传播趋势进行把握,且预测效果优于现有算法。
设置两组实验,实验预测社交媒体网络事件传播关键节点发生的时间窗口,第一组实验采用K-SC聚类和霍尔特线性趋势法对实验样本进行预处理,另一组不进行预处理。实验结果如表1所示:
表1预处理有效性对比实验结果
分析实验结果,得出经过预处理的实验样本的实验结果F1分数明显较高。本发明所提出的方法采用K-SC聚类算法对流行度时间序列进行类别划分;然后采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理,提升了预测方法的泛化性。
此外,为了证明本发明优于已有算法,通过多次实验与SVR算法、随机森林和AdaBoost算法进行对比,对比实验结果如表2所示。
表2算法对比实验结果
根据实验结果可以得出:本发明提出的方法在社交媒体网络事件传播关键时间预测任务上具有明显优势,F1分数高于现有算法,对传播过程的三个关键节点都做出了较为准确的预测,预测效果较为稳定,且预测结果受窗口大小M影响较小。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵s列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种社交媒体网络事件传播关键时间预测方法,其特征在于,所述社交媒体网络事件传播关键时间预测方法包括:
根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC(K-SpectralCentroid)聚类算法进行类别划分;
采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;
识别预处理后的社交媒体网络事件传播的关键节点发生的时间区间;
针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征;
构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;
采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退关键节点发生的时间;
所述关键节点发生的时间区间根据{pi(1),pi(2),...,pi(Ni)}识别,{pi(1),pi(2),...,pi(Ni)}为网络事件i在Ni个时间区间内的流行度演化时间序列;
若存在Ti p,满足Ti p∈{1,2,3,...,Ni},并且pi(Ti p)为时间序列{pi(1),pi(2),...,pi(Ni)}中的最大元素,则称“顶峰”节点发生在时间第Ti p个区间;
若存在Ti b,满足Ti b∈{2,3,4,...,Ti p},并且[pi(Ti b)-pi(Ti b-1)]为{pi(2)-pi(1),pi(3)-pi(2),...,pi(Ti p)-pi(Ti p-1)}中的最大值,则称“爆发”节点发生在第Ti b个时间区间;
若存在Ti f,满足Ti f∈{Ti p,Ti p+1,...,Ni-1},此时流行度序列呈现下降趋势,并且[pi(Ti f)-pi(Ti f+1)]为{pi(Ti p+1)-pi(Ti p+2),pi(Ti p+2)-pi(Ti p+3),...,pi(Ni-1)-pi(Ni)}中的最大值,则称“衰退”节点发生在第Ti f个时间区间;
根据定义得到K个流行度时间序列爆发、顶峰和衰退节点发生的时间区间;
所述构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型包括:
(1)设定未来时间窗口数量M,M≥1;
(2)将预测关键节点发生在未来的哪个时间窗口这一问题转化为关键节点是否会发生在未来第1,2,3,...,M个时间窗口,每个时间窗口的预测模型需要构建的样本,包括正样本与负样本;
(3)记f为预测关键节点是否会发生的窗口数,1≤f≤M;
(4)对于时间序列s,起始时间表示为关键节点发生的时间点表示为/>将时间区间/>等分为N+f个时间窗口,划分结果表示为/>关键节点发生在第N+f个时间窗口,如果预测时间点/>在第N个时间窗口,那么关键节点就会发生在预测时间点/>未来的第f个时间窗口;
(5)重复步骤(4),利用聚类得到的K个流行度时间序列构建正样本;
(6)随机选择预测时间点为将时间区间/>等分为N+l+f个时间窗口,划分结果表示为/>l为随机选择的绝对值大于0的整数,l可以为正也可以为负,但要保证N+l+f大于0,当l为正整数时,关键节点发生的时间在第N+f个时间窗口之后;当l为负整数时,关键节点发生的时间在第N+f个时间窗口之前;
(7)重复步骤(6),利用聚类得到的K个流行度时间序列构建负样本;
(8)根据样本训练模型,模型训练过程的关键参数为:决策树数量、决策树最大深度、学习率、叶节点最小权重、决策树权重改变最大步长,根据关键参数、构建的样本及提取的时序特征、波动特征、文本情感特征,训练出用于预测关键节点时间的XGBoost模型,训练过程采用网格搜索的方式确定模型最佳参数;
(9)重复步骤(4)至(8),为M个未来窗口训练相应的XGBoost关键节点预测模型;
(10)重复步骤(1)至(9),训练出用于预测爆发、顶点、衰退出现时间的XGBoost模型。
2.如权利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法进行类别划分包括以下步骤:
(1)从社交平台上获取社交媒体网络事件数据集,得到社交媒体网络事件在线信息的流行度时间序列listi={pi(1),pi(2),...,pi(Ni)},其中Ni表示网络事件i的流行度时间序列的长度,pi(j)表示网络事件i在第j个固定的时间区间内的受关注程度,即该时间区间内带有事件i标签的句子在社交平台上的被搜索次数;
(2)依据以下流程对流行度时间序列完成K-SC聚类过程:
1)设置聚类类别数K;
2)从所有流行度时间序列中随机选择K个,作为初始聚类中心;
3)计算每个流行度时间序列到K个聚类中心的距离,并把该流行度时间序列划分到距离最近的类别里;
4)更新聚类中心;
5)如果更新后的聚类中心与原聚类中心相同,则停止迭代,得到K个聚类中心作为流行度时间序列,否则返回3)继续执行;
其中3)中提到的距离计算方式如下:
其中为流行度时间序列x和流行度时间序列y之间的距离,α为数量缩放系数,实现纵向放缩,b为时间轴偏移系数,实现横向平移,y(b)是将时间序列左右平移b个时间区间的后的结果,||·||为二范数;
求解时首先固定b的值,此时||x-αy(b)||/||x||为α的凸函数,α的最优值为||xTy(b)||/||y(b)||2,对于b的最优值,首先找到使两个时间序列的最高波峰对齐的b',围绕b'寻找b的最优值,通过α和b的最优值,计算出x与y的距离;
4)中第k个新的聚类中心为矩阵Mk的最小特征值对应的特征向量,其中:
Ck为划分到第k类的流行度时间序列的集合,I是单位矩阵。
3.如权利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理中,通过以下公式对聚类得到的K个流行度时间序列中波动性过强的序列y完成霍尔特线性趋势法的平滑处理:
其中yt表示流行度时间序列y在时间t的值,2≤t≤n,表示流行度序列数量级别在时间t的估计值,bt表示流行度序列在时间t的趋势估计值,α为数量级别的平滑参数,0≤α≤1,β为趋势的平滑参数,0≤β≤1。
4.如权利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征包括:
(1)设定前置时间窗口数量N,N≥1;
(2)时间序列起始时间记为t0,预测时间点记为tP,预测开始前传播的时间区间为[t0,tP],将此区间划分为N个大小相同的时间窗口,时间序列s的第i个时间窗口的流行度为每个时间窗口大小为/>则未来的第f个时间窗口定义为:
(3)时序特征按照如下定义进行提取;
1)单时间窗口平均增长率给定时间序列s的第i个和第i+1个时间窗口的流行度分别为/>和/>定义相邻时间窗口的单时间窗口平均增长率为:
2)双时间窗口平均增长率给定时间序列s的第i个和第i+2个时间窗口的流行度分别为/>和/>定义双时间窗口平均增长率定义为:
3)近邻时间窗口传播速度距离预测时间最近的连续前a个时间窗口的信息传播速度,定义为:
其中ts为时间序列s所划分的时间窗口的长度;
4)近邻单时间窗口平均增长率距离预测时间最近的连续前a个时间窗口单窗口平均增长率,定义为:
5)近邻双时间窗口平均增长率距离预测时间最近的连续前a个时间窗口双窗口平均增长率,定义为:
(4)波动特征按照如下定义进行提取:
1)小时/日序数H:预测时间出现在一天内的第几个小时,取值范围为0到23的24个整数值;
2)日/周序数D:预测时间出现在一周当中的第几天,取值范围为0到6的7个整数值;
3)局部波峰数ls:将给定时间区间[t0,tP]等分为N个时间窗口,流行度时间序列s可表示为{ps(1),ps(2),...,ps(N)},如果对于ps(nls)>ps(nls+i),则称ps(nls)是一个局部波峰,其中h是一个预设的阈值,定义在预测时间tP之前出现的局部波峰总数为ls;
4)局部波峰间平均距离设两个连续的局部波峰分别发生在第/>和第/>个时间窗口,局部波峰间的距离/>局部波峰间平均距离定义为:
其中M为局部波峰的数量;
5)最近局部波峰距离设预测时间位于第nP个时间窗口,距离预测时间窗口最近的局部波峰位于第nlP个窗口,则最近局部波峰距离定义为:
(5)文本情感特征按照如下定义进行提取:
累积情感值EA:预测时间之前时间窗口所累积的情感值:
情感值其中,/>为句子c的情感极性,/>为句子c的主观性,/>的取值范围为[-1,1],-1为负面情感的极端,1为正面情感的极端,/>的取值范围为[0,1],0代表客观性的极端,1代表主观性的极端;
如果Ec>0,则该句子c所包含的为正面情感;
如果Ec=0,则该句子c所包含的情感为中性;
如果Ec<0,则该句子c所包含的为负面情感;
第i个时间窗口的句子总数为m,则该时间窗口内情感值为:
1)累积正面情感值EA+:预测时间之前积时间窗口所累的正面情感值:
其中输出正面情绪值的函数fpositive定义为:
2)累积负面情感值EA-:预测时间之前时间窗口所累积的负面情感值:
其中输出负面情绪值的函数fnegative定义为:
3)单窗口情感值平均增长率Er:给定第i个和第i+1个时间窗口的情感值分别为Ei和Ei+1,定义相邻时间窗口的单时间窗口情感值平均增长率为:
4)单窗口正面情感值平均增长率第i个时间窗口正面情感值定义为/>定义相邻时间窗口的单时间窗口正面情感值平均增长率为:
5)单窗口负面情感值平均增长率第i个时间窗口负面情感值定义为/>定义相邻时间窗口的单时间窗口负面情感值平均增长率为:
根据定义提取K个流行度时间序列提取的特征包括时序特征、波动特征及文本情感特征。
5.如权利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退关键节点发生的时间包括:
(1)确定预测的关键节点类型,包括:爆发、顶峰、衰退;
(2)确定预测的前置时间窗口数量N和未来时间窗口数量M;
(3)使用M个窗口模型进行预测:
1)令i=1;
2)如果i>M,则预测停止,输出关键节点发生在未来第M个时间窗口;
3)使用第i个模型预测关键节点是否发生在未来第i个时间窗口;
4)如果预测结果为是,则结束,输出关键节点发生在未来第i个时间窗口;
5)如果结果为否,i=i+1,返回执行2)。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~5任意一项所述社交媒体网络事件传播关键时间预测方法。
7.一种实施权利要求1~5任意一项所述社交媒体网络事件传播关键时间预测方法的社交媒体网络事件传播关键时间预测系统,其特征在于,所述社交媒体网络事件传播关键时间预测系统包括:
类别划分模块,用于根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法对其进行类别划分;
平滑处理模块,用于采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;
发生时间区间识别模块,用于针对经过预处理后的时间序列数据进行时间窗口划分,识别社交媒体网络事件传播的关键节点的发生时间区间;
特征提取模块,用于基于在线信息数据提取时序、波动及文本情感特征;
预测模型训练模块,用于构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;
发生时间预测模块,用于采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退关键节点发生的时间。
8.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~5任意一项所述社交媒体网络事件传播关键时间预测方法;所述信息数据处理终端为舆情管控信息数据处理终端、企业营销信息数据处理终端或热点推送信息数据处理终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011150003.5A CN112418269B (zh) | 2020-10-23 | 2020-10-23 | 社交媒体网络事件传播关键时间预测方法、系统、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011150003.5A CN112418269B (zh) | 2020-10-23 | 2020-10-23 | 社交媒体网络事件传播关键时间预测方法、系统、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112418269A CN112418269A (zh) | 2021-02-26 |
CN112418269B true CN112418269B (zh) | 2024-04-16 |
Family
ID=74840790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011150003.5A Active CN112418269B (zh) | 2020-10-23 | 2020-10-23 | 社交媒体网络事件传播关键时间预测方法、系统、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418269B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948825B (zh) * | 2021-04-15 | 2022-09-13 | 中国人民解放军国防科技大学 | 社交网络中网络信息发生病毒性传播的预测方法、装置 |
TWI786902B (zh) * | 2021-10-26 | 2022-12-11 | 中華電信股份有限公司 | 用於潛在事件熱點探勘之設備、方法以及電腦程式產品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956197A (zh) * | 2016-06-15 | 2016-09-21 | 杭州量知数据科技有限公司 | 基于社交媒体图表示模型的社会风险事件抽取方法 |
CN106097111A (zh) * | 2016-06-20 | 2016-11-09 | 重庆房慧科技有限公司 | 一种基于智慧社区网络大数据的舆情预测方法 |
CN108304867A (zh) * | 2018-01-24 | 2018-07-20 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
WO2020000847A1 (zh) * | 2018-06-25 | 2020-01-02 | 中译语通科技股份有限公司 | 一种基于新闻大数据的恐慌指数监测分析方法及系统 |
CN111178586A (zh) * | 2019-12-06 | 2020-05-19 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536269B2 (en) * | 2011-01-19 | 2017-01-03 | 24/7 Customer, Inc. | Method and apparatus for analyzing and applying data related to customer interactions with social media |
-
2020
- 2020-10-23 CN CN202011150003.5A patent/CN112418269B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956197A (zh) * | 2016-06-15 | 2016-09-21 | 杭州量知数据科技有限公司 | 基于社交媒体图表示模型的社会风险事件抽取方法 |
CN106097111A (zh) * | 2016-06-20 | 2016-11-09 | 重庆房慧科技有限公司 | 一种基于智慧社区网络大数据的舆情预测方法 |
CN108304867A (zh) * | 2018-01-24 | 2018-07-20 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
WO2020000847A1 (zh) * | 2018-06-25 | 2020-01-02 | 中译语通科技股份有限公司 | 一种基于新闻大数据的恐慌指数监测分析方法及系统 |
CN111178586A (zh) * | 2019-12-06 | 2020-05-19 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
Non-Patent Citations (3)
Title |
---|
于海 ; 吕晴晴 ; 时鹏 ; 王铮 ; 胡长军 ; .基于在线社交网络事件库多因素耦合的流行度预测方法.天津大学学报(自然科学与工程技术版).2020,(第12期),全文. * |
刘韩松 ; .基于文本挖掘及情感分析的社区负面舆论传播预测模型.计算机安全.2013,(第12期),全文. * |
王乐 ; 王勇 ; 王东安 ; 徐小琳 ; .社交网络中信息传播预测的研究综述.信息网络安全.2015,(第05期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112418269A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zeng et al. | Dense regression network for video grounding | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
Qian et al. | Social event classification via boosted multimodal supervised latent dirichlet allocation | |
US10437837B2 (en) | Generating descriptive topic labels | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN112418269B (zh) | 社交媒体网络事件传播关键时间预测方法、系统、介质 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
Zervas et al. | Studying Research collaboration patterns via Co-authorship analysis in the field of TeL: the case of educational technology & society journal | |
CN107527289B (zh) | 一种投资组合行业配置方法、装置、服务器和存储介质 | |
CN110825868A (zh) | 一种基于话题热度的文本推送方法、终端设备及存储介质 | |
Guo | [Retracted] Intelligent Sports Video Classification Based on Deep Neural Network (DNN) Algorithm and Transfer Learning | |
Wang et al. | A Method of Hot Topic Detection in Blogs Using N-gram Model. | |
Liu et al. | HMM-based state prediction for Internet hot topic | |
Chahal | Measuring Similarity between Documents Using TF-IDF Cosine Similarity Function | |
CN113642701A (zh) | 一种基于截断重要性采样的模型与样本双重主动选择方法 | |
Zeng et al. | Fake news detection by using common latent semantics matching method | |
Felber et al. | Graz University of Technology at CL-SciSumm 2017: Query Generation Strategies. | |
Dritsas et al. | An apache spark implementation for text document clustering | |
Nguyen | A comprehensive low and high-level feature analysis for early rumor detection on twitter | |
Wu | Study on news recommendation of social media platform based on improved collaborative filtering | |
CN117633328B (zh) | 基于数据挖掘的新媒体内容监测方法及系统 | |
CN115604027B (zh) | 网络指纹识别模型训练方法、识别方法、设备及存储介质 | |
CN116883886B (zh) | 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |