CN107516279B

CN107516279B - 一种网络舆情自动预警的方法

Info

Publication number: CN107516279B
Application number: CN201710698802.8A
Authority: CN
Inventors: 白银鷃; 陆峰; 于添
Original assignee: Aim Shanghai Culture Medium Co ltd
Current assignee: Aim Shanghai Culture Medium Co ltd
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2021-04-20
Anticipated expiration: 2037-08-15
Also published as: CN107516279A

Abstract

本发明属于计算机网络预警技术领域，具体涉及一种网络舆情自动预警的方法，包括：S1，应用网络爬虫获取事件的相关网页文本信息；S2，对所述文本信息进行情感分析，并得到情感分析结果，所述情感分析结果包括负面情感；S3，对所述负面情感的事件重点跟踪，建立ARIMA模型对事件的网络舆情进行不断预测，获取动态阈值；S4，对超过所述动态阈值的网络舆情进行预警。根据ARIMA模型对网络舆情进行不断预测，获取动态阈值，根据动态阈值进行预警，相对于固定设置阈值的模型预测，本发明能更准确的反应舆情情况，并能进行自动预警。

Description

一种网络舆情自动预警的方法

技术领域

本发明属于计算机网络预警技术领域，具体涉及一种网络舆情自动预警的方法。

背景技术

随着互联网的发展，互联网络作为社会舆论的工具，具有反映和引导社会舆论的功能。因此一个良好的预警方法是必要的。在舆情危机预警方面，现有的做法是通过对某个突发事件相关主题在不同时间段的访问量、评论量等关注度进行跟踪，之后以舆情分析报告等方式提交给舆情工作者，然后由人工来作预警判断。如：基于Web挖掘的突发事件网络舆情预警研究(现代情报，2014年第2期)，基于AHP-模糊综合分析的移动社交网络舆情预警模型研究(现代情报，2017年第1期)等。

现有的网络预警方法仍需要人工干预，无法实现自动化预警，且现有的网络预警应用的模型采用固定阈值，其预警的准确度还有待提高。

发明内容

针对以上问题的不足，本发明提供了一种网络舆情自动预警的方法，根据ARIMA模型对网络舆情进行不断预测，获取动态阈值，根据动态阈值进行预警，相对于固定设置阈值的模型预测，本发明能更准确的反应舆情情况，并能进行自动预警。

为实现上述目的，本发明提供的一种网络舆情自动预警的方法，包括：

S1，应用网络爬虫获取事件的相关网页文本信息；

S2，对所述文本信息进行情感分析，并得到情感分析结果，所述情感分析结果包括负面情感；

S3，对所述负面情感的事件重点跟踪，建立ARIMA模型对事件的网络舆情进行不断预测，获取动态阈值；

S4，对超过所述动态阈值的网络舆情进行预警。

优选地，所述S3中建立ARIMA模型对事件的网络舆情进行不断的预测的具体方法为：

S31，获取事件的数据，根据所述数据建立ARIMA模型；

S32，所述ARIMA模型开始预测，并计算动态置信区间；

S32，将所述动态置信区间设置为动态阈值，返回步骤S31。

优选地，所述S31中建立ARIMA模型的具体方法为：

对数据进行预处理，得到平稳非白噪声序列；

根据所述平稳非白噪声序列，计算自相关系数和偏相关系数，并初步得到多个初模型；

根据BIC准则来检验每个所述初模型，从多个所述初模型中选出最优模型，此最优模型即为ARIMA模型。

优选地，所述对数据进行预处理的具体方法为：

对所述数据进行序列图检验和单位根检验，得到非平稳序列；

对所述非平稳序列进行差分处理，得到平稳序列；

对所述平稳序列进行白噪声检验，得到平稳非白噪声序列。

6、优选地，所述BIC准则的计算公式为：BIC＝kln(n)-2ln(L)，其中k为模型参数个数，n为样本数量，L为似然函数。

优选地，所述S32中计算置信区间的具体方法为：

将所述数据分为第一样本和第二样本，计算所述第一样本的均值

方差s₁和样本的大小n₁，计算所述第二样本的均值

方差s₂和样本的大小n₂；

计算统计量z，

计算置信度为95％的置信区间Pr，

其中，α＝1-0.95＝0.05，

可通过查t分布临界值表获得。

由上述方案可知，本发明的有益效果为：根据ARIMA模型对网络舆情进行不断预测，产生动态置信区间，将动态置信区间设置为动态阈值，对超过动态阈值的网络舆情进行预警，相对于固定设置阈值的模型预测，本发明能更准确的反应舆情情况，并能进行自动预警。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本实施例中网络舆情自动预警的方法流程图；

图2为本实施例中建立模型对网络舆情进行预测的方法流程图。

具体实施方式

下面将结合附图对本发明的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的产品，因此只是作为示例，而不能以此来限制本发明的保护范围。

实施例：

本发明的实施例提供了一种网络舆情自动预警的方法，如图1所示，包括：

S1，应用网络爬虫获取事件的相关网页文本信息；

S4，对超过所述动态阈值的网络舆情进行预警。

其中，如图2所示，所述S3中建立ARIMA模型对事件的网络舆情进行不断预测的具体方法为：

S31，获取事件的数据，根据所述数据建立ARIMA模型；

S32，所述ARIMA模型开始预测，并计算动态置信区间；

S32，将所述动态置信区间设置为动态阈值，返回步骤S31。

其中，所述S31中建立ARIMA模型的具体方法为：

对数据进行预处理，得到平稳非白噪声序列；

根据BIC准则来检验每个所述初模型，从多个所述初模型中选出最优模型，此最优模型即为ARIMA模型，所述BIC准则的计算公式为：BIC＝kln(n)-2ln(L)，其中k为模型参数个数，n为样本数量，L为似然函数。

其中，所述对数据进行预处理的具体方法为：

对所述非平稳序列进行差分处理，得到平稳序列；

对所述平稳序列进行白噪声检验，得到平稳非白噪声序列。

其中，所述S32中计算置信区间的具体方法为：

方差s₁和样本的大小n₁，计算所述第二样本的均值

方差s₂和样本的大小n₂；

计算统计量z，

计算置信度为95％的置信区间Pr，

其中，α＝1-0.95＝0.05，

可通过查t分布临界值表获得。

本实施例中的ARIMA模型又称自回归移动平均模型，将预测对象随时问推移而形成的数据序列视为—个随机序列，以时间序列的自相关分析为基础，用一定的数学模型来近似描述这个序列。置信区间是指由样本统计量所构造的总体参数的估计区间，展现的是这个参数的真实值有一定概率落在测量结果的周围的程度，给出的是被测量参数的测量值的可信程度。

本实施例中的序列是将某一指标在不同时间上的观测数值，按时间先后排列而成的数列。这种数列由于受到各种偶然因素的影响，往往表现出某种随机性，彼此之间存在统计上的依赖关系。对序列的分析就是在不需要考虑预测变量的相关因素及其关系的情况下，利用事物发展的延续性，建立模型来预测未来的变化。

网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对该事件的所有认知、态度、情感和行为倾向的集合，由于网络舆情反映了民情民意，影响着社会发展，存在引发社会问题的风险，因此对网络舆情进行未来舆情进行预警就格外重要，现有的网络舆情预警还需要人工干预，且现有网络舆情预警且应用的模型采用固定阈值，对舆情情况的分析结果不够准确。本实施例利用ARIMA模型，不仅可以进行自动预警，且根据ARIMA模型对网络舆情的不断预测，产生动态置信区间，将动态置信区间设置为动态阈值，对超过动态阈值的网络舆情进行预警，相对于固定设置阈值的模型预测，本发明能更准确的反应舆情情况。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种网络舆情自动预警的方法，其特征在于，包括：

S1，应用网络爬虫获取事件的相关网页文本信息；

S4，对超过所述动态阈值的网络舆情进行预警；

所述S3中建立ARIMA模型对事件的网络舆情进行不断的预测的具体方法为：

S31，获取事件的数据，根据所述数据建立ARIMA模型；

S32，所述ARIMA模型开始预测，并计算动态置信区间；

S32，将所述动态置信区间设置为动态阈值，返回步骤S31。

2.根据权利要求1所述的一种网络舆情自动预警的方法，其特征在于，所述S31中建立ARIMA模型的具体方法为：

对数据进行预处理，得到平稳非白噪声序列；

3.根据权利要求2所述的一种网络舆情自动预警的方法，其特征在于，所述对数据进行预处理的具体方法为：

对所述非平稳序列进行差分处理，得到平稳序列；

对所述平稳序列进行白噪声检验，得到平稳非白噪声序列。

4.根据权利要求2所述的一种网络舆情自动预警的方法，其特征在于，所述BIC准则的计算公式为：BIC＝kln(n)-2ln(L)，其中k为模型参数个数，n为样本数量，L为似然函数。