CN111753093A

CN111753093A - 一种网络舆情危机等级评价方法和装置

Info

Publication number: CN111753093A
Application number: CN202010627031.5A
Authority: CN
Inventors: 孟凡奇; 肖茜茜; 王敬东; 鲍松彬; 夏磊
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-10-09

Abstract

本发明公开了一种网络舆情危机等级评价方法和装置，涉及网络信息技术领域，该方法包括：根据网络资源库中的网络资源进行舆情数据采集；得到相关舆情数据；针对获取的舆情数据建立评价指标体系，并对所述舆情数据进行量化处理，得到舆情数据的指标值；对评价指标体系中的评价指标进行筛选，去除重复的评价指标；通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。与现有的指标体系相比，本发明的指标体系更加的全面，并且，所有的指标都经过了相关性分析和主成分分析方法的筛选，从而保证整个指标体系中没有信息重叠问题。

Description

一种网络舆情危机等级评价方法和装置

技术领域

本发明涉及网络信息技术领域，具体涉及一种网络舆情危机等级评价方法和装置。

背景技术

随着社交媒体的普及，网络信息比以往任何时候传播得都更加迅速且深远。某些突发事件经过网络传播往往会在很短的时间内造成很大社会影响。尤其是一些负面信息，如果不能及时发现并加以阻断就可能会造成不可挽回的信用、名誉或财产损失，甚至导致社会动荡。为了尽可能地减少这种不必要的伤害，需要对网络舆情进行监测、对危机等级进行评估，从而及时进行危机预警并在恰当的时机加以干预。因此，建立一套完善、客观的评价指标体系就成为时下必须解决的问题。

目前，对社交网络舆情的研究主要集中在网络传播模型、舆情监测与预警和舆情控制与引导等方面。尽管学者们已经从不同角度出发构建了各种网络舆情监测指标体系，但结合社交网络传播特点构建的指标体系还相对较少，并且多数只采用几个简单统计量，如阅读数、评论数、点赞数等，不仅评价不够全面，而且指标之间存在信息重叠，难以实现客观评价，个别研究虽然考虑了更加复杂的指标，但是这些指标往往定义模糊、难以量化。

发明内容

为了解决上述问题，本发明提供了一种一种网络舆情危机等级评价方法和装置。

本发明提供技术方案之一为：一种网络舆情危机等级评价方法，包括：

根据网络资源库中的网络资源进行舆情数据采集；得到相关舆情数据；

针对获取的舆情数据建立评价指标体系，并对所述舆情数据进行量化处理，得到舆情数据的指标值；

对评价指标体系中的评价指标进行筛选，去除重复的评价指标；

通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。

进一步地，所述方法还包括采用斯皮尔曼相关系数分析和主成分分析方法对评价指标体系进行筛选去重过程。

更进一步地，所述舆情数据包括所述舆情事件的原创blog数据、评论信息数据、用户数据、点赞数据、转发信息数据和评论信息数据。

更进一步地，所述数据采集通过数据采集器进行采集，其具体过程：

S11：访问获取舆情数据的页面；

S12：获取所有数据的接口并进行整体数据的获取、保存；

S13：对保存的数据进行去重操作并分类保存。

更进一步地，所述筛选方法为斯皮尔曼相关性分析和主成分分析法。

更进一步地，所述筛选后的评价指标包括：舆情信息人、舆情信息环境和舆情信息；

其中，所述舆情信息人包括：平均粉丝量、平均关注量、大V数量、平均历史blog量、舆情事件总点赞量、舆情事件总评论量、舆情事件总转发量、舆情事件总blog量和舆情事件政府发blog量；

所述舆情信息环境包括：舆情事件总阅读量、舆情事件总讨论量、舆情事件发blog变化率、舆情事件blog转发变化率、舆情事件blog评论变化率和舆情事件blog点赞变化率；

所述舆情信息包括：舆情事件正向blog量加评论量、舆情事件负向blog量加评论量和舆情事件中性blog量加评论量。

更进一步地，对所述舆情信息中的文本信息进行量化分析采用的方法为采用word2vec+LSTM的情感分类模型。

更进一步地，所述采用word2vec+LSTM的情感分类模型对所述舆情信息中的文本信息进量化分析的具体过程为：

S21：基于word2vec模型将舆情信息中的文本内容生成词向量，所述量化过程包括将所述情感词转化为词向量，并通过所述词向量组成句子矩阵；

S22：LSTM模型包括输入层、隐含层和输出层，将上述词向量组成的句子矩阵输入LSTM模型的输入层；

S23：LSTM模型的隐含层对所述句子矩阵的特征进行提取；

S24：LSTM模型的输出层对隐含层提取的特征进行输出；

S25：使用softmax进行有监督分类训练。

更进一步地，所述危机等级评价模型的构建过程：

S31：确定基准值矩阵：

S32：逐个计算每个评价对象指标数据向量（X₀(k)）与各个等级的各项指标的基准值向量（X_i(k)）中的对应指标的绝对值，计算方法见公式（4）：

，（k=1,2,3，i=1,2,…,n）（4），

其中，x₀(k)为评价对象第k个指标数据；X_i(k)为第i等级的基准值；i为危机等级（1，2，3，4），k为指标体系中的第k个指标，n为指标体系中指标个数；

S33：计算每个评价对象指标数据与各个等级对应指标的基准值的绝对值最小和最大值，具体计算方法见公式（5）：

S34：分别计算每个评价对象指标数据与对应的各个等级指标的基准值的关联系数

，具体计算方法见公式（6）：

其中， k=1,2,…,n；

为各个数据的权重；ρ为分辨系数，0<ρ<1；

S35：分别计算评价对象各个指标与各个等级指标基准值的关联系数的均值

，以反映各评价对象与参考序列的关联关系，具体计算方法见公式（14）：

(14)。

本发明提供的技术方案之二为：一种网络舆情危机等级评价装置，包括：

数据获取模块，用于根据网络资源库中的网络资源进行舆情数据采集；获取相关舆情数据；

数据分析模块，用于针对获取的舆情数据建立评价指标体系，并对所述舆情数据进行量化处理，得到舆情数据的指标值；

评价指标筛选模块，用于对评价指标体系中的评价指标进行筛选，去除重复的评价指标；

风险等级评价模块，用于通过危机等级评价模型对量化后的舆情数据指标值进行分析确定舆情事件的危机等级。

本发明的有益效果：

本发明在归纳网络舆情的演化态势以及从信息生态学角度分析舆情传播影响因素的基础上，构建了一个包括舆情信息、信息人与信息环境三要素的多层次网络舆情评价指标体系。与现有的指标体系相比，本发明的指标体系更加的全面，并且，所有的指标都经过了相关性分析和主成分分析方法的筛选，从而保证整个指标体系中没有信息重叠问题，为评定网络舆情的危机等级提供一个全面、客观的评价标准。

本发明基于LSTM搭建了舆情文本的情感分类模型，使得指标体系中的情感指标可以量化；另外，指标体系中不仅包含简单计数信息，也包含变化率信息，大大提高了指标体系的科学性和合理性。在此基础上，本发明通过德尔菲法确定了每个指标的基准值，这为预测舆情发展的下一个等级并据此实现危机预警奠定基础。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将对本发明作进一步详细的说明。

附图说明：

图1是本发明实施例的一种网络舆情危机等级评价方法的流程图；

图2是本发明实施例的一种网络舆情危机等级评价方法的详细流程图；

图3是本发明实施例的数据采集流程图；

图4是本发明实施例的word2vec+LSTM情感分类模型流程图；

图5是本发明实施例的“某某维权事件”的网民情感变化；

图6是本发明实施例的“某某维权事件”的网络舆情监测结果；

图7是本发明实施例的一种网络舆情危机等级评价装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参考图1-2，本发明提供的技术方案之一为：一种网络舆情危机等级评价方法，包括：

在本实施例中，采集的舆情数据包括但不限于舆情事件的原创blog数据、评论信息数据、用户数据、点赞数据、转发信息数据和评论信息数据。

参考图3，在本实施例中，数据采集采用数据采集器及相应的算法进行采集，通过数据采集器采集数据的具体过程为：

S11：访问获取数据的页面；

S12：获取所有数据的接口，其中blog内容及话题用户来自同一接口，整体进行数据的获取，点赞、转发、评论为三个功能设计；

S13：获取数据并保存到数据库；

S14，对获取的数据进行处理转换，对其进行去重等操作，然后把处理过的数据分别保存到各自对应的文件。

本实施例中为了获得指标体系中的各项数据，设计了如下数据采集算法：该算法分为3个阶段，第一阶段（1-16行），获取当前舆情话题下的所有blog信息和发表blog的用户信息并保存，用户信息可用于下一步获取用户的所有blog内容。第二阶段（18-39行），获取每个用户下的所有blog内容。第三阶段（40-50行），获取舆情事件阅读量和讨论量。

例如，在“某某维权事件”中，采用上述数据采集器采集截至到时间2019/4/14 20：00：00的数据1850条原创blog数据、23561条评论信息数据、294条用户数据、64344条点赞数据、25064条转发信息数据及17356条评论信息数据。

在本实施例中，针对获取的舆情数据建立的评价指标体系见表1：

表1 初步构建的多层次网络舆情评价指标体系

参考图4，在本实施例中，对所述舆情信息中的文本信息进行量化分析采用的方法为采用word2vec+LSTM的情感分类模型，其具体过程为：

该情感分类模型的底层采用word2vec使用高维向量表示词语，矩阵表示句子，并创建词语字典，返回每个词语的索引，以及每个句子所对应的词语索引；

中间层采用LSTM提取特征，LSTM能够很好的包含顺序信息，中间层从上到下分为三层，分别为输入层、隐含层和输出层。

输入层，底层使用预训练的词向量表示词语，词向量组成的矩阵表示句子，输出的句子矩阵作为本层的输入层；

隐含层，使用LSTM网络结构进行自动的提取特征，特征的语义层次更丰富；

输出层，St表示t时刻的输出。LSTM的计算过程如下：

(1)

其中，

: LSTM在t时间阶段去掉不要信息后保留的信息；

：LSTM在t时间阶段增加的信息；

：LSTM在t时间阶段更新的新增加的信息；

: LSTM的t-1时间阶段的隐藏状态，t-1时间阶段历史信息的出;

: LSTM的t时间阶段的隐藏状态，t时间阶段历史信息的输出;

: LSTM的t时间阶段时输入；

：LSTM的t时间阶段时输出;X为输入句子；W i 和 b i 分别表示循环权重矩阵和偏置矩阵；σ为 sigmoid(⋅) 激活函数；tanh(⋅)为激活函数；符号○表示数组对应位置的元素相乘，LSTM的各时间步输出

不仅与当前的输入

有关，而且与前一阶段的隐藏状态

也有关。

假设符号 θ 表示LSTM模型中的全部参数，则对于给定的x及θ，输出层将结果转换成集合y中各元素的条件概率分布P(y|x, θ)。给定训练集T={(x(i), t(i), y(i)) |1≤i≤|T|}及y={y1, y2,y3}，假设y_i为模型对输入x_i的预测结果标签值，t(i)为真实的结果，则f (x_i, θ)针对每一个y_j (1≤j≤3)分别估算其概率值P(yj|x_i, θ)，并输出一个归一化后的3维向量来表示模型在这3个标签值上的预测概率分布：

（2）

其中，f (xi, θ)为模型在这3个标签值上的预测概率分布；P(yj|xi, θ)：yj为模型对输入xi的预测结果标签值概率值。

顶层使用softmax进行有监督分类训练，如公式（3）所示。

（3）

其中，f (xi, θ)为模型在这3个标签值上的预测概率分布；yi为输出概率分布最大的标签值。

示例性的，实验样本为https://download.csdn.net/上下载的谭松波老师和贾建波老师的中文文本情感分析数据集。样本库中positive文本有8033条，negative文本有8703条，neutral文本有8355条。以8：2的比例划分训练集和测试集，训练上述情感分类模型。为保证模型的准确性，采取交叉验证法，自由排列组合选取其中八份作为训练集，其他两份作为验证集，所提方法的分类效果如表2所示，其中准确率、召回率和F1的计算见公式7-9。实验结果表明，本文方法的召回率、精准率和F1值都在85%以上，高于传统基于情感词典的方法，因此情感指标量化的结果是比较准确的。

（7）

（8）

（9）

表2 本文方法的情感分类效果

因为初步构建的评价指标体系（见表1）中可能存在信息叠加问题。为此，本申请采用斯皮尔曼主成分分析与相关性分析相结合的方法，通过相关性分析剔除同一准则层内相关系数超过阈值的指标，减少筛选结果的重复情况；通过主成分分析删除了贡献小的指标，达到筛选出的指标能对评价结果有更大影响的目的。

斯皮尔曼主成分分析是利用两变量的秩次大小作相关分析，对原始变量的分布不作要求，也没有线性要求。

假设两个长度为N的向量X和Y，即X和Y中包含N个元素，计算两个向量X和Y的相关性，可以根据以下步骤计算：

step1：将两个列向量X和Y对应的元素 X_i和Y_j转换为在各自列向量中的排名，记为R(X_i)和R(Y_j) ；

step2:根据公式（10）计算两个列向量X和Y中对应元素的R(X_i)和R(Y_j)之间的差异d，并相加；

（10）

step3：最后，根据公式（11）计算出两个列向量之间的相关性Rs；

（11）。

主成分分析（PCA），的计算步骤：

Step1：求样本标准化阵Z，具体见公式（12）；

（12）

其中，

，X_ij为第i行j列指标变量；

为第j列指标平均数；S_j为第j列指标标准差；Z_ij为标准化阵Z中第i行j列数。

step2：对标准化阵Z 求相关系数矩阵R，具体见公式（13）；

（13），

其中，Z为标准化阵；R为相关系数矩阵。

其中，

。

Step3：解样本相关矩阵R的特征方程

得p个特征根，确定主成分，根据

确定主成分个数，

为R的特征值。

本实施例中，借助SPSS软件，使用斯皮尔曼相关性分析方法对表1中的指标进行筛选，设置显著相关阈值为0.84。平均等级数与平均粉丝数、平均历史blog数之间的相关系数分别为0.874、0.887均大于0.84，说明两个指标有显著相关性，因此需要删除等级数指标，见表3；舆情事件总评论回复数和舆情事件总blog数、舆情事件总评论数之间的相关系数分别为0.873、0.935均大于0.84，因此删除指标舆情事件总评论回复数，见表4；舆情事件评论回复变化率和指标舆情事件评论变化率之间的相关系数为0.891大于0.84，因此删除两个指标中的任意指标，本申请删除舆情事件总评论回复变化率指标，见表5；剩余指标之间的相关系数均小于0.84，如表6、7所示，说明指标间不存在信息重叠问题，保留所有指标。

表3 网民重要度相关性分析结果

表4 网民参与度指标相关性分析结果

表5 话题活跃度相关性分析结果

表6 话题情感倾向性相关性分析结果

注：“-”为负相关。

表7 话题关注度相关性分析结果

通过主成分分析方法对评价指标体系中的评价指标进行筛选的结果为：

根据上述相关性分析完成的结果，再利用主成分分析方法对剩余指标选择，设定累积方差贡献率阈值为90%，当前K个主成分累计贡献率超过90%，保留前K个主成分。计算网民参与度指标主成分分析结果，前四个指标累计贡献率达到了89.521%，小于90%，而前五个指标累计贡献率达到了100.00%，故保留前五个指标，见表8。计算话题情感倾向性指标主成分分析结果贡献率，前三个主成分分析的累计贡献率达到94.533%，保留前三个指标，见表9。以同样的方法，计算网民重要度指标贡献率、话题关注度指标贡献率、话题活跃度指标贡献率，见表10、11、12。

表8 网民参与度指标主成分分析结果

表9话题情感倾向性指标主成分分析结果

表10 网民重要度指标主成分分析结果

表11 话题关注度指标主成分分析结果

表12 话题活跃度指标主成分分析结果

通过上述方法得到筛选后的评价指标包括：舆情信息人、舆情信息环境和舆情信息；

在本实施例中，将舆情危机划分为四个等级：

巨警情（Ⅰ级）：网民对该舆情关注度极高，传播速度非常快，已经成为舆论事件；

重警情（Ⅱ级）：网民对该舆情关注度高，影响扩散到了很大范围，舆情有极有可能转化为舆论事件；

中警情（Ⅲ级）：网民对该舆情关注度较高，传播速度中等，舆情影响局限在一定范围内，若没有出现重要节点，将不会转化为舆论事件；

轻警情（Ⅳ级）：网民对该舆情关注度低，舆情影响局限在较小范围内，没有转化为行为舆论的可能。

所述危机等级评价模型的构建过程：包括通过德尔菲法确定每个危机等级对应的各项指标的基准值；然后通过灰色关联分析法确定舆情事件的危机等级。

S31：确定基准值矩阵：

邀请10位舆情分析专家参与基准值矩阵的确定，每位专家针对每个危机等级分别给出不重复的2个舆情事件，因此每个等级都会有20个舆情事件。以2小时为间隔对每个事件进行指标数据采集，去掉最大值和最小值然后求平均值，该平均值即为该等级的基准值。

（4），

其中，x0(k)为评价对象第k个指标数据；Xi(k) 为第i等级的基准值；i为危机等级（1，2，3，4），k为指标体系中的第k个指标，n为指标体系中指标个数；

（5）

，具体计算方法见公式（3）：

（6）

其中， k=1,2,…,n；

为各个数据的权重；ρ为分辨系数，0<ρ<1；

S35，分别计算评价对象各个指标与各个等级指标基准值的关联系数的均值，以反映各评价对象与参考序列的关联关系，与哪一等级关联系数大，就属于哪一等级。具体计算方法见公式（14）：

(14)。

参考图7，一种网络舆情危机等级评价装置，包括：

风险等级评价模块，用于危机等级评价模型对量化后的舆情数据指标值进行分析确定舆情事件的危机等级。

实验例

以微博上“某某维权”事件为对象，验证本申请的评价方法的可靠性。

首先，采用本实施例上述的数据采集器，获取“某某维权事件”截至到时间2019/4/14 20：00：00的数据1850条原创blog数据、23561条评论信息数据、294条用户数据、64344条点赞数据、25064条转发信息数据及17356条评论信息数据。

以舆情事件总blog数、舆情事件总阅读量和舆情事件总讨论量三个指标为例评价危机等级，具体实验步骤：首先，指标数据X=（45000，1.9*108，2663），三个指标的基准值矩阵为：

然后，本实施例通过专家的问卷调查，求十个专家的平均值确定权重

，ρ取0.5。根据公式（6）分别计算每一个序列与参考序列对应元素的关联系数：

最后，根据公式（14）分别计算评价对象各个指标与各个等级指标基准值的关联系数的均值

，以反映评价对象与各个等级的基准值的关联关系，与哪一等级关联系数大，就属于哪一等级。

以上结果表示的危机等级为中警情（Ⅲ级）。

以微博上“某某维权”事件为对象，验证本申请的指标体系在舆情危机评价方面的效果。

首先，进行网民情感分析

通过LSTM情感分类模型确定舆情事件blog和评论文本的情感极性，统计各个时间段的舆情事件blog和评论文本的极性，绘制图5，分析网民情感倾向。由于晚间是休息时间，对于这种民事纠纷舆情事件几乎不发酵，所以数据较少。直观的看到网民正负情感变化趋势，事件发生前两天正负舆论相当，到了第三天，负面舆论明显上升，第四天舆论倒向了负向，表明“某某维权事件”在2019/4/14 12：00已经成为了巨大的负面舆论事件。

其次，进行危机等级评价

从事件发生后的第二个小时开始，根据每两个小时统计的数据，反复循环以上计算过程，计算危机等级，使得该预警模型可以很好的时刻监测危机预警等级。分别用不同指标计算危机等级，三个指标分别为C124、C211、C212划分危机等级，七个指标分别为C121、C122、C123、C124、C125、C211、C212划分危机等级，十一个指标分别为C121、C122、C123、C124、C125、C211、C212、C221、C222、C223、C224划分危机等级，十四个指标分别为C121、C122、C123、C124、C125、C211、C212、C221、C222、C223、C224、C311、C312、C313划分危机等级，十八个指标分别为C111、C112、C113、C114、C121、C122、C123、C124、C125、C211、C212、C221、C222、C223、C224、C311、C312、C313划分危机等级，监测结果如图6所示，四条曲线分别代表在四个指标体系下的危机等级结果，十一个指标比七个指标多了变化率的指标，可以看出等级划分的敏感度明显提高，十四个指标比十一个指标多了情感指标，使得等级划分更加灵敏，十八个指标比十四个指标多了网民重要度，早出八九个小时预测出危机等级，使得预警的效果更好，为危机预警提供更好的帮助。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、同替换、改进，均应包含在本发明的保护范围之内。