CN107784387B

CN107784387B - 一种微博事件信息传播的连续动态预测方法

Info

Publication number: CN107784387B
Application number: CN201710843010.5A
Authority: CN
Inventors: 赵忠华; 吴俊杰; 赵志云; 鲁骁; 袁昆; 袁钟怡; 郭鲁华
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2021-10-08
Anticipated expiration: 2037-09-18
Also published as: CN107784387A

Abstract

本发明公开了一种微博事件信息传播的连续动态预测方法，属于数据挖掘领域。针对新浪微博，在目前给定传播信息的基础上，试图预测下一阶段的微博总数量；按小时划分事件传播，利用事件从发生到当前时间段内传播特征，如微博量、参与人数、微博情绪等，基于GBDT模型预测下一小时内事件微博传播的总数。本发明预测模型中最优时间段长度和微博特征组合，是在全面衡量各特征的贡献度和相关性的基础上筛选出来的，不仅能够有效提高模型预测精度，平均模型精度超过70％，还能减小计算复杂性，避免无用计算，有效支持针对事件的预警和干预措施。

Description

一种微博事件信息传播的连续动态预测方法

技术领域

本发明属于数据挖掘领域，涉及一种微博事件信息传播的连续动态预测方法。

背景技术

近年来，随着互联网技术的广泛渗透和创新发展，以微博为代表的社会化媒体广泛而深入地融入人们生活的每个层面。社会化媒体成为人们查找信息、表达观点和沟通交流的重要平台。

基于Twitter研究表明，社交媒体的属性更贴近于事件网络，而非社交属性。社交网络中信息来源的多样性、事件的突发性和传播的广泛性，使事件分析和传播预测应用广泛，如政治敏感事件监控、新闻热点发现、商业舆情分析、股市舆情波动等，一直都是业界关注的重点。特别的，针对社交网络中某些特殊事件的传播预测，能够对事件下一步的传播态势进行预估，为及早的事件预警和传播干预提供决策。因此，针对微博中事件传播预测具有重要的网络安全意义和经济价值。

然而目前学术界里对微博传播是否可预测仍然是一个争论性话题，并且针对社交网络中的传播预测大都是基于单条微博或者级联进行传播预测，现有技术在预测微博传播量值的研究中，主要有三种方法：ARIMA模型、多元线性回归和KNN模型。

ARIMA模型包括AR模型(自回归过程)、MA模型(移动平均过程)和整合部分，能够基于时间序列的过去和现在预测未来。多元线性回归模型认为未来传播量与最近几天量值有高度相关性，基于临近几天的传播量预测未来。KNN模型也是K最邻近结点算法，利用K个与模型微博传播形态最为接近的训练样本，使用其未来值的平均值作为当前的预测值。然而这些预测模型都是针对单条微博进行评估，并且在模型考虑因变量时并没有全面综合考虑特征的相关性和共线性。

虽然也有大量研究工作将社交网络传播预测问题转化成一个二分类或多分类问题，通过提取微博传播过程中的上下文信息、内容特征、传播网络等多特征，并按微博传播量将其进行流行度分类，如0为一类，1-100为一类，100-10000为一类，10000以上为一类，构建基于logistic regression模型或者分类树的分类器进行训练学习；然而这种分类或回归方法只能针对单条微博给出极为粗糙的传播规模预测，并不能在实际应用。

研究表明在给定一定传播信息的基础上预测最终规模和发展趋势仍然具有相当大的困难，或者需要大量人物背景信息和完善的传播信息，这在实际应用场合中是难以实现的。

发明内容

本发明针对微博社交网络中，事件信息传播难以预测的问题上，提出了一种微博事件信息传播的连续动态预测方法，即根据事件从开始到目前的所有传播信息，预测下一时间段的传播量值。

具体步骤如下：

步骤一、以关键词匹配的模式收集网络中每个事件对应的微博数据，并存入数据库中；

每个事件以关键词定义，用关键词在新浪全量的微博数据中进行匹配，获取事件对应的微博数据；每条微博数据包括：微博内容、发布时间、发布者id、发布者粉丝数和微博类型等，并存入数据库中。

步骤二、针对某事件，按照该事件的每条微博数据的发布时间，以一个小时为时间段进行划分，统计每个时间段内的事件微博特征；

将获取的某事件样本数据，按照发布时间的先后将该事件对应的所有微博进行排序，以最早一条微博时间作为时间起始时间，并按小时统计每个小时内的事件微博特征。

事件微博特征包括：微博总数；参与人数；总粉丝数(发布者粉丝数之和)；总关注数(发布者关注数)；原创微博数及占比情况；转发微博数及占比情况；评论微博数以及占比情况；积极微博数及占比情况；中性微博数及占比情况；消极微博数及占比情况；粉丝数在10w以上的原创微博数；粉丝数在10w以上的转发微博数；原创微博发布所在的小时数统计；转发微博发布所在的小时数统计。

步骤三、采用网格搜索策略，优化紧邻时间段长度，同时筛选紧邻时间段内每个时间段里的重要微博特征，作为预测模型的输入；

紧邻时间段长度是指当前时间段往前倒推的若干时间段，初始值为1个,最大为8个。

筛选每个时间段里的重要微博特征过程如下：

首先，针对某个时间段，利用紧邻时间段长度以及每个时间段里所有的事件微博特征作为预测模型的输入，当前时间段的微博总数作为对应输出；

然后，分别做出输出的微博总数与输入的每个事件微博特征之间的散点图，从散点图上观测每个事件微博特征与微博总数之间是否具有相同的变化趋势；如果有，保留该事件微博特征；否则删除该事件微博特征。

最后，从保留的各事件微博特征之间，任选两两相比，判断选中的两个事件微博特征之间是否具有线性相关关系，如果有，说明这两个事件特征之间存有共线性，任意剔除其中一个进行筛选。

步骤四、针对当前时间段，将预测模型的输入和当前时间段微博总数作为一组训练样本放入训练集中；

预测模型的输入为步骤三中的紧邻时间段长度值以及筛选后的紧邻时间段内每个时间段里的重要微博特征；当前时间段微博总数为预测目标；使用滑动窗口的形式提取各训练样本组成训练集。

步骤五、采用五折交叉检验方法，将训练集进行随机五折划分，从中选择4折训练基于GBDT的预测模型；

步骤六、训练集中剩余一折样本作为测试样本，依次输入到训练好的GBDT预测模型中进行传播预测，输出各测试样本对应预测的微博总数；

步骤七、判断各测试样本经过预测模型输出的微博总数与各自在训练集中对应的微博总数的差距是否满足±20绝对误差或者±20％相对误差，如果是，该测试样本的预测正确；否则，该测试样本的预测错误；

步骤八、在当前预测模型输入下，利用各测试样本的预测结果计算预测模型的精度；

步骤九、检查网格搜索是否完成，如果是，在所有训练完的预测模型中，选择最高预测精度对应的当前的紧邻时间段长度以及输入的重要微博特征为最优结果；否则返回步骤三，采用网格搜索策略对GBDT模型的输入进行更改；

具体改变包括以下三种：

1)、仅更改紧邻时间段长度，同时每个时间段对应的事件微博特征不变；

2)、仅筛选每个时间段对应的事件微博特征，同时紧邻时间段长度不变；

3)、同时更改紧邻时间段长度和筛选每个时间段对应的事件微博特征。

本发明的优势在于：

1)、一种微博事件信息传播的连续动态预测方法，是第一种针对事件级别的传播预测方法，能够有效支持针对事件的预警和干预措施。

2)、一种微博事件信息传播的连续动态预测方法，预测模型中最优时间段长度和微博特征组合，是在全面衡量各特征的贡献度和相关性的基础上筛选出来的，不仅能够有效提高模型预测精度，还能减小计算复杂性，避免无用计算。

3)、一种微博事件信息传播的连续动态预测方法，不同于文献中常用的使用传播量值的对数的均方根误差作为评价标准，而是采用更贴近实际应用的、使用传播量值进行评价，平均模型精度超过70％，能够达到实际应用水平，可以用力支撑网络舆情分析和预测。

附图说明

图1为本发明一种微博事件信息传播的连续动态预测方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方法进行详细说明。

本发明针对新浪微博，在目前给定传播信息的基础上，试图预测下一阶段的微博总数量；构建了一种基于GBDT(Gradient Boosting Decision Tree)模型的微博事件信息传播的连续动态预测方法，该方法按小时划分事件传播，利用事件从发生到当前时间段内传播特征，如微博量、参与人数、微博情绪等，预测下一小时内事件微博传播的总数。

如图1所示，具体步骤如下：

本发明预测的对象是微博中传播的事件，不是针对单条微博或者级联；事件以一组关键词定义，如“美国空袭叙利亚”事件，可以由关键词“美国(美军)”、“空袭”、“叙利亚”组成，使用这些关键词在新浪全量的微博数据中进行关键词匹配，获取对应微博内容、发布时间、发布者id、微博类型等数据信息，存入数据库中。

本发明共收集162个事件，以事件发生之时起，以事件传播的日累积量低于500为止，每个事件传播时间为3-7天不等。

步骤二、针对某事件，按照该事件的每条微博数据中的发布时间，以一个小时为时间段进行划分，统计每个时间段内的事件微博特征；

本发明预测目标是连续动态预测，因此将获取的每个事件数据进行预处理：按照发布时间的先后将每个事件对应的所有微博进行排序，以最早一条微博时间作为时间起始时间，按最小粒度1小时进行划分，统计1小时时间段内的事件微博特征。

此外还构建基于情感图标的微博短文本情感分类器，对每一条微博进行情感分类，包括积极、中性和消极。

针对每1小时内事件微博情况进行统计特征，组成事件传播的时间序列数据；事件微博特征包括：微博总数；参与人数；总粉丝数(发布者粉丝数之和)；总关注数(发布者关注数)；原创微博数及占比情况；转发微博数及占比情况；评论微博数以及占比情况；积极微博数及占比情况；中性微博数及占比情况；消极微博数及占比情况；粉丝数在10w以上的原创微博数；粉丝数在10w以上的转发微博数；原创微博发布所在的小时数统计；转发微博发布所在的小时数统计。

紧邻时间段长度是指当前时间段往前倒推的若干时间段，初始值为1个，最大为8个。

筛选每个时间段里的重要微博特征过程如下：

由于模型预测精度与紧邻时间段长度和筛选后的事件微博特征有关，因此本发明采用基于网格搜索策略寻找最优紧邻时间段长度和重要事件微博特征组合；

以当前时间段往前倒推几个小时的时间段内能够提取的微博特征为输入，以下一小时的事件微博量作为输出，构成一组训练样本。为保证所有训练样本的一致性，初步选择利用前1个时间段内的各个特征预测下一时间段的微博量，也就是初始选择GBDT预测模型的输入包括：紧邻时间段长度为当前时间段倒推的1个时间段，以及筛选后的紧邻时间段内每个时间段里的重要微博特征；当前时间段微博总数为预测目标；使用滑动窗口的形式提取各训练样本组成训练集。

步骤五、按照五折交叉检验的方法进行模型训练，即将训练集进行随机五折划分，从中选择4份训练基于GBDT的预测模型；

考虑到事件传播具有爆发期和消退期的特征，将训练集划分成两部分分别训练模型：如果最近当前和上一时间段内微博总数的偏差大于-0.2倍的上一时间段的微博量，则认为传播处于爆发期，否则认为处于消退期。

经过五折交叉检验处理后爆发期有10419个训练样本，2605个测试样本；消退期有7508个训练样本，1878个测试样本。模型使用GBDT的回归树模型，使用200棵树，每棵树有8层。

精度值为预测正确的测试样本数与总的测试样本数之间的比值；

步骤九、检查网格搜索是否完成，如果是，在所有训练完的预测模型中，选择最高预测精度对应的当前的紧邻时间段长度以及输入的事件微博特征为最优结果；否则返回步骤三，采用网格搜索策略对GBDT模型的输入进行更改；

具体改变包括以下三种：

将更改的紧邻时间段长度和事件微博特征作为模型的输入，返回步骤三。

经过实验结果发现，大部分事件微博特征对传播预测没有什么影响，并且也不需要利用至多8个时间段内的所有特征，而是可以缩减到7个特征和最多两个时间段，分别是：当前阶段转发微博数、评论微博数、积极微博数、消极微博数、微博总数、参与用户数和上一阶段的消极微博数。

本发明采用GBDT模型对搜集的新浪微博进行预测后，结果是：预测值在真值附近±20％浮动，或者±20。经测试，爆发期的预测精度为66.23％，消退期预测精度为78.65％。

Claims

1.一种微博事件信息传播的连续动态预测方法，其特征在于，具体步骤如下：

每个事件以关键词定义，用关键词在新浪全量的微博数据中进行匹配，获取事件对应的微博数据，并存入数据库中；

将获取的某事件样本数据，按照发布时间的先后将该事件对应的所有微博进行排序，以最早一条微博时间作为时间起始时间，并按小时统计每个小时内的事件微博特征；

紧邻时间段长度是指当前时间段往前倒推的若干时间段；

预测模型的输入为紧邻时间段长度值以及筛选后的紧邻时间段内每个时间段里的重要微博特征；当前时间段微博总数为预测目标；使用滑动窗口的形式提取各训练样本组成训练集；

具体改变包括以下三种：

2.如权利要求1所述的一种微博事件信息传播的连续动态预测方法，其特征在于，步骤一中所述的微博数据包括：微博内容、发布时间、发布者id、发布者粉丝数和微博类型。

3.如权利要求1所述的一种微博事件信息传播的连续动态预测方法，其特征在于，步骤二中所述的事件微博特征包括：微博总数，参与人数，总粉丝数，总关注数，原创微博数及占比情况，转发微博数及占比情况，评论微博数以及占比情况，积极微博数及占比情况，中性微博数及占比情况，消极微博数及占比情况，粉丝数在10w以上的原创微博数，粉丝数在10w以上的转发微博数，原创微博发布所在的小时数统计，转发微博发布所在的小时数统计。

4.如权利要求1所述的一种微博事件信息传播的连续动态预测方法，其特征在于，所述的步骤三中，紧邻时间段长度初始值为1个，最大为8个；

筛选每个时间段里的重要微博特征过程如下：

然后，分别做出输出的微博总数与输入的每个事件微博特征之间的散点图，从散点图上观测每个事件微博特征与微博总数之间是否具有相同的变化趋势；如果有，保留该事件微博特征；否则删除该事件微博特征；

5.如权利要求4所述的一种微博事件信息传播的连续动态预测方法，其特征在于，所述的事件微博特征，包括7个特征，分别为：当前阶段转发微博数、评论微博数、积极微博数、消极微博数、微博总数、参与用户数和上一阶段的消极微博数。