CN105608200A

CN105608200A - 一种网络舆论趋势预测分析方法

Info

Publication number: CN105608200A
Application number: CN201510993710.3A
Authority: CN
Inventors: 覃璐
Original assignee: Hunan Yi Fang Softcom Ltd
Current assignee: Hunan Yi Fang Softcom Ltd
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2016-05-25

Abstract

本发明涉及互联网信息分析技术领域，特别是一种网络舆论趋势预测分析方法，包括以下步骤，步骤S101：确定指标体系，爬取网络舆论信息，通过预处理获得所需指标的时间序列；步骤S102：建立模型，在获取得到的时间序列上建立候选模型；步骤S103：选取最优模型，从建立的候选模型中比较选取最优模型；步骤S104：网络舆论趋势预测分析，基于选择的最优模型对网络舆论趋势进行预测分析。采用上述方法后，本发明滞后参数的可调性能够灵活的适应实际需求，同时引入MVE来作为模型选择的判断标准，提高了对特定舆情发展趋势波动的预测能力。最终，可通过新的数据对模型进行修正，为长期追踪预测创造了可能。

Description

一种网络舆论趋势预测分析方法

技术领域

本发明涉及互联网信息分析技术领域，特别是一种网络舆论趋势预测分析方法。

背景技术

网络舆情是以网络为载体，以事件为核心，是广大网民情感、态度、意见、观点的表达，传播与互动，以及后续影响力的集合。随着信息时代的发展与普及，网络已渗入到社会的各个层次。截至2014年12月，我国网民规模达6.49亿。网民可以通过多种途径迅速地从网络上获取社会各类信息，并将自己的主观意见发布与互联网上，与他人进行交流。通过这种快速以及广泛的信息交流，事件得以扩张形成舆情。特别是微博的发展，增加了社会事件的透明度，加快了热点事件的传播速度。在这种舆论自由的环境下，不良的谣言或者攻击性的评论很容易激发社会矛盾，进一步导致重大社会事件，因此舆情监控显得尤为重要。

舆情监控能帮助有关部门及时了解热点舆情信息，提高对于舆情的应对能力，根据舆情发展趋势采取相应措施避免网络暴力带来的负面影响，从而构建和谐的网络言论环境。

目前国内市场主要的舆情产品具有的功能有：热点识别能力、倾向性分析与统计、主题跟踪、信息自动摘要功能、趋势分析、突发事件分析、统计报告等。

趋势分析是在历史舆情发展的基础上对未来发展进行预测。目前有效的预测方法包括大致3类：

1)通过舆情的历史数据预测热点的爆发。

2)对历史事件进行聚类，获取同类别热点的发展变化趋势。

3)对舆论数进行数据挖掘如时间序列分析、人工神经网络等，预测未来舆论数。

这些方法在一定程度上能够预测舆情的发展，但也存在各自的局限性。前两种方法对于热点的爆发能够有预见性，但是对于特定舆情的未来发展趋势并不能做出解释。类二的分析也只是考虑了单纯的时间序列，并没有结合考虑影响舆论发展的推动因素。同时均方误差最小的判断标准也不适用于预测舆情的发展波动趋势。因此需要一种快速可靠的网络舆情预测方法来预测舆情事件的发展波动趋势。

中国发明专利申请CN103198078A公开了一种互联网新闻事件报道趋势分析方法，包括以下步骤：

(1)根据配置的新闻事件的特征信息，实时采集互联网中的新闻信息；

(2)预处理所述新闻信息，筛选出发布时间在设置的新闻事件的统计周期内的新闻信息；

(3)分析筛选出的新闻信息的征文信息，得到新闻信息的主题及主题信息；所述主题包括存在主题信息的主题和不存在主题信息的源主题；

(4)分析当前统计周期与前一统计周期的主题，得出当前统计周期与前一统计周期之间的相同主题以及各相同主题的关联信息数；

(5)根据所述关联信息数，得出转化主题；所述转化主题是指当前统计周期该相同主题的关联信息数大于或等于前一统计周期该相同主题的关联信息数；

(6)获取设定时间段内的源主题和转化主题的关联信息数，并展现源主题和转化主题的关联信息数随时间的分布趋势。

发明内容

本发明需要解决的技术问题是提供一种微博舆论趋势分析方法。

为解决上述的技术问题，本发明的一种微博舆论趋势分析方法，包括以下步骤，

步骤S101：确定指标体系，爬取网络舆论信息，通过预处理获得所需指标的时间序列；

步骤S102：建立模型，在获取得到的时间序列上建立候选模型；

步骤S103：选取最优算法，从建立的候选模型中比较选取最优模型；

步骤S104：网络舆论趋势预测分析，基于选择的最优模型对网络舆论趋势进行预测分析。

进一步的，步骤S101还包括以下步骤，

步骤S1011：确定指标体系；

步骤S1012：爬取网络舆论信息，抽样爬取网络舆情数据；

步骤S1013：关键字匹配网络舆情；

步骤S1014：数据预处理；

步骤S1015：获取相关指标时间序列，整理出符合标准的以每小时信息为单位的各指标时间序列：日期、时点、原创帖评论数、原创帖转发数、转发贴评论数、转发贴转发数、平均活跃度、平均影响力、综合贴数，并将上述指标作为建模的自变量。

更进一步的，所述步骤S1015中同时纳入根据历史数据折算的作者活跃度和影响力指标作为建模的自变量。

更进一步的，步骤S102中根据步骤S101获得所需指标的时间序列作为自变量，另外将当前时刻为止，根据关键字索引出的舆论的评论文数作为因变量；根据滞后参数和选择的算法得到相应的映射，具体表示如下：

其中n：n个时间点m：m个自变量t：滞后参数。

更进一步的，所述步骤S102中的算法包括为简单线性回归、决策树回归、随机森林回归、支持向量机、bagging回归算法中的一种。

更进一步的，所述步骤S102中的简单线性回归、决策树回归、随机森林回归、支持向量机、bagging回归算法中引入MVE来作为算法选择的判断标准。

更进一步的，所述步骤S103中选择随机森林回归算法建立的模型为最优模型。

更进一步的，所述步骤S102中随机森林回归算法中采取基尼不纯度作为随机森林节点分割的标准。

进一步的，步骤S103之后还包括步骤S104模型修正，当有新的时点数据出现时，可将其纳入指标体系作为参数，进行模型修正。

采用上述方法后，本发明活跃度与影响力作为间接获取的指标，能从侧面上反映舆情事件的扩张潜能，对预测有较大帮助。滞后参数的可调性能够灵活的适应实际需求，同时引入MVE(平均误差方差)来作为模型选择的判断标准，提高了对特定舆情发展趋势波动的预测能力。最终，可通过新的数据对模型进行修正，为长期追踪预测创造了可能。

附图说明

下面将结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种网络舆论趋势预测分析方法的流程图。

图2为本发明建立最优模型的选择过程。

图3a为本发明通过简单线性回归算法模拟得到的走势图。

图3b为本发明通过随机森林算法模拟得到的走势图。

图3c为本发明通过bagging回归算法模拟得到的走势图。

图3d为本发明通过决策树回归算法模拟得到的走势图。

图3e为本发明通过支持向量机算法模拟得到的走势图。

图4a为本发明随机森林回归算法中采取基尼不纯度作为随机森林节点分割标准的示意图。

图4b为本发明将新时点数据纳入指标体系进行模型修正的示意图。

具体实施方式

如图1所示，本发明的一种网络舆论趋势预测分析方法，包括以下步骤，

步骤S101：确定指标体系，爬取网络舆论信息，通过预处理获得所需指标的时间序列；具体还包括以下步骤，

步骤S1011：确定指标体系；

步骤S1012：爬取网络舆论信息，抽样爬取网络舆情数据；

步骤S1013：关键字匹配网络舆情；

步骤S1014：数据预处理；

步骤S1015：获取相关指标时间序列，整理出符合标准的以每小时信息为单位的各指标时间序列：日期、时点、原创帖评论数、原创帖转发数、转发贴评论数、转发贴转发数、平均活跃度、平均影响力、综合贴数，并将上述指标作为建模的自变量。所述步骤S1015中同时纳入根据历史数据折算的作者活跃度和影响力指标作为建模的自变量。

步骤S102：建立模型，在获取得到的时间序列上建立候选模型。步骤S102中根据步骤S101获得所需指标的时间序列作为自变量，另外将当前时刻为止，根据关键字索引出的舆论的评论文数作为因变量；根据滞后参数和选择的算法得到相应的映射，具体表示如下：

其中n：n个时间点m：m个自变量t：滞后参数。

滞后参数t可根据需求进行调节，一般而言滞后参数越大，表示可预测的时间跨度越大，但预测的准度会下降。通过抽取5类舆情信息，本实施方式选择的最优滞后参数t为12小时。

如图2所示，本实施方式中，根据测试样本，简单线性回归确定滞后参数，然后根据滞后参数规整数据结构，进而进行交叉验证预处理，继而通过选择算法得到相应的映射。采取交叉验证的方法来减小抽样方法所伴随的过度拟合，从而提高模型的可适度。如图2所示，这里算法包括为简单线性回归、决策树回归、随机森林回归、支持向量机、bagging回归算法中的一种。

更进一步的，所述步骤S102中的简单线性回归、决策树回归、随机森林回归、支持向量机、bagging回归算法中引入MVE(平均误差方差)来作为算法选择的判断标准。MSE(均方误差)是来衡量平均误差的重要指标。在模型比较中一般选择MSE最小的定为最优模型。此发明旨在预测舆情事件的发展趋势，与数据值的接近程度相比更看重走势(波动)的接近程度，因此引入新的判断标准MVE。MVE主要衡量的是预测误差的波动情况，MVE越大说明真实值的走向与预测值的走向偏移较大，MVE越小则说明预测的走向与真实走向越接近，

M V E = \frac{var (Y - \hat{Y})}{n - 2} .

步骤S103：选取最优算法，从建立的候选模型中比较选取最优模型。如图3a-图3e所示，随机深林回归算法得到的建立模型所生成的预测走势与实际走势最贴近，所以通过引入MVE(平均误差方差)得到步骤S102中最佳选择随机森林回归算法建立模型。如图4a所示，所述步骤S102中随机森林回归算法中采取基尼不纯度作为随机森林节点分割的标准。

进一步的，步骤S104之后还包括步骤S105模型修正，如图4b所示，当有新的时点数据出现时，可将其纳入指标体系作为参数，进行模型修正。

虽然以上描述了本发明的具体实施方式，但是本领域熟练技术人员应当理解，这些仅是举例说明，可以对本实施方式作出多种变更或修改，而不背离发明的原理和实质，本发明的保护范围仅由所附权利要求书限定。

Claims

1.一种网络舆论趋势预测分析方法，其特征在于，包括以下步骤，

步骤S103：选取最优模型，从建立的候选模型中比较选取最优模型；

2.按照权利要求1所述的一种网络舆论趋势预测分析方法，其特征在于，步骤S101还包括以下步骤，

步骤S1011：确定指标体系；

步骤S1012：爬取网络舆论信息，抽样爬取网络舆情数据；

步骤S1013：关键字匹配网络舆情；

步骤S1014：数据预处理；

3.按照权利要求2所述的一种网络舆论趋势预测分析方法，其特征在于：所述步骤S1015中同时纳入根据历史数据折算的作者活跃度和影响力指标作为建模的自变量。

4.按照权利要求1至3中任一项所述的一种网络舆论趋势预测分析方法，其特征在于，步骤S102中根据步骤S101获得所需指标的时间序列作为自变量，另外将当前时刻为止，根据关键字索引出的舆论的评论文数作为因变量；根据滞后参数和选择的算法得到相应的映射，具体表示如下：

其中n：n个时间点m：m个自变量t：滞后参数。

5.按照权利要求4所述的一种网络舆论趋势预测分析方法，其特征在于：所述步骤S102中的算法包括为简单线性回归、决策树回归、随机森林回归、支持向量机、bagging回归算法中的一种。

6.按照权利要求5所述的一种网络舆论趋势预测分析方法，其特征在于：所述步骤S103中的简单线性回归、决策树回归、随机森林回归、支持向量机、bagging回归算法中引入MVE来作为选取最优模型的判断标准。

7.按照权利要求6所述的一种网络舆论趋势预测分析方法，其特征在于：步骤S103中选择随机森林回归算法建立的模型为最优模型。

8.按照权利要求7所述的一种网络舆论趋势预测分析方法，其特征在于，所述步骤S102中随机森林回归算法中采取基尼不纯度作为随机森林节点分割的标准。

9.按照权利要求8所述的一种网络舆论趋势预测分析方法，其特征在于：步骤S104之后还包括步骤S105模型修正，当有新的时点数据出现时，可将其纳入指标体系作为参数，进行模型修正。