CN111753093A - 一种网络舆情危机等级评价方法和装置 - Google Patents
一种网络舆情危机等级评价方法和装置 Download PDFInfo
- Publication number
- CN111753093A CN111753093A CN202010627031.5A CN202010627031A CN111753093A CN 111753093 A CN111753093 A CN 111753093A CN 202010627031 A CN202010627031 A CN 202010627031A CN 111753093 A CN111753093 A CN 111753093A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- data
- evaluation
- index
- public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000011156 evaluation Methods 0.000 claims abstract description 77
- 238000013210 evaluation model Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000000513 principal component analysis Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 6
- 230000008451 emotion Effects 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012352 Spearman correlation analysis Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000004445 quantitative analysis Methods 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims 3
- 238000010219 correlation analysis Methods 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000012847 principal component analysis method Methods 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 7
- 230000001186 cumulative effect Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013278 delphi method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络舆情危机等级评价方法和装置,涉及网络信息技术领域,该方法包括:根据网络资源库中的网络资源进行舆情数据采集;得到相关舆情数据;针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;对评价指标体系中的评价指标进行筛选,去除重复的评价指标;通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。与现有的指标体系相比,本发明的指标体系更加的全面,并且,所有的指标都经过了相关性分析和主成分分析方法的筛选,从而保证整个指标体系中没有信息重叠问题。
Description
技术领域
本发明涉及网络信息技术领域,具体涉及一种网络舆情危机等级评价方法和装置。
背景技术
随着社交媒体的普及,网络信息比以往任何时候传播得都更加迅速且深远。某些突发事件经过网络传播往往会在很短的时间内造成很大社会影响。尤其是一些负面信息,如果不能及时发现并加以阻断就可能会造成不可挽回的信用、名誉或财产损失,甚至导致社会动荡。为了尽可能地减少这种不必要的伤害,需要对网络舆情进行监测、对危机等级进行评估,从而及时进行危机预警并在恰当的时机加以干预。因此,建立一套完善、客观的评价指标体系就成为时下必须解决的问题。
目前,对社交网络舆情的研究主要集中在网络传播模型、舆情监测与预警和舆情控制与引导等方面。尽管学者们已经从不同角度出发构建了各种网络舆情监测指标体系,但结合社交网络传播特点构建的指标体系还相对较少,并且多数只采用几个简单统计量,如阅读数、评论数、点赞数等,不仅评价不够全面,而且指标之间存在信息重叠,难以实现客观评价,个别研究虽然考虑了更加复杂的指标,但是这些指标往往定义模糊、难以量化。
发明内容
为了解决上述问题,本发明提供了一种一种网络舆情危机等级评价方法和装置。
本发明提供技术方案之一为:一种网络舆情危机等级评价方法,包括:
根据网络资源库中的网络资源进行舆情数据采集;得到相关舆情数据;
针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。
进一步地,所述方法还包括采用斯皮尔曼相关系数分析和主成分分析方法对评价指标体系进行筛选去重过程。
更进一步地,所述舆情数据包括所述舆情事件的原创blog数据、评论信息数据、用户数据、点赞数据、转发信息数据和评论信息数据。
更进一步地,所述数据采集通过数据采集器进行采集,其具体过程:
S11:访问获取舆情数据的页面;
S12:获取所有数据的接口并进行整体数据的获取、保存;
S13:对保存的数据进行去重操作并分类保存。
更进一步地,所述筛选方法为斯皮尔曼相关性分析和主成分分析法。
更进一步地,所述筛选后的评价指标包括:舆情信息人、舆情信息环境和舆情信息;
其中,所述舆情信息人包括:平均粉丝量、平均关注量、大V数量、平均历史blog量、舆情事件总点赞量、舆情事件总评论量、舆情事件总转发量、舆情事件总blog量和舆情事件政府发blog量;
所述舆情信息环境包括:舆情事件总阅读量、舆情事件总讨论量、舆情事件发blog变化率、舆情事件blog转发变化率、舆情事件blog评论变化率和舆情事件blog点赞变化率;
所述舆情信息包括:舆情事件正向blog量加评论量、舆情事件负向blog量加评论量和舆情事件中性blog量加评论量。
更进一步地,对所述舆情信息中的文本信息进行量化分析采用的方法为采用word2vec+LSTM的情感分类模型。
更进一步地,所述采用word2vec+LSTM的情感分类模型对所述舆情信息中的文本信息进量化分析的具体过程为:
S21:基于word2vec模型将舆情信息中的文本内容生成词向量,所述量化过程包括将所述情感词转化为词向量,并通过所述词向量组成句子矩阵;
S22:LSTM模型包括输入层、隐含层和输出层,将上述词向量组成的句子矩阵输入LSTM模型的输入层;
S23:LSTM模型的隐含层对所述句子矩阵的特征进行提取;
S24:LSTM模型的输出层对隐含层提取的特征进行输出;
S25:使用softmax进行有监督分类训练。
更进一步地,所述危机等级评价模型的构建过程:
S31:确定基准值矩阵:
S32:逐个计算每个评价对象指标数据向量(X0(k))与各个等级的各项指标的基准值向量(Xi(k))中的对应指标的绝对值,计算方法见公式(4):
其中,x0(k)为评价对象第k个指标数据;Xi(k)为第i等级的基准值;i为危机等级(1,2,3,4),k为指标体系中的第k个指标,n为指标体系中指标个数;
S33:计算每个评价对象指标数据与各个等级对应指标的基准值的绝对值最小和最大值,具体计算方法见公式(5):
本发明提供的技术方案之二为:一种网络舆情危机等级评价装置,包括:
数据获取模块,用于根据网络资源库中的网络资源进行舆情数据采集;获取相关舆情数据;
数据分析模块,用于针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
评价指标筛选模块,用于对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
风险等级评价模块,用于通过危机等级评价模型对量化后的舆情数据指标值进行分析确定舆情事件的危机等级。
本发明的有益效果:
本发明在归纳网络舆情的演化态势以及从信息生态学角度分析舆情传播影响因素的基础上,构建了一个包括舆情信息、信息人与信息环境三要素的多层次网络舆情评价指标体系。与现有的指标体系相比,本发明的指标体系更加的全面,并且,所有的指标都经过了相关性分析和主成分分析方法的筛选,从而保证整个指标体系中没有信息重叠问题,为评定网络舆情的危机等级提供一个全面、客观的评价标准。
本发明基于LSTM搭建了舆情文本的情感分类模型,使得指标体系中的情感指标可以量化;另外,指标体系中不仅包含简单计数信息,也包含变化率信息,大大提高了指标体系的科学性和合理性。在此基础上,本发明通过德尔菲法确定了每个指标的基准值,这为预测舆情发展的下一个等级并据此实现危机预警奠定基础。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将对本发明作进一步详细的说明。
附图说明:
图1是本发明实施例的一种网络舆情危机等级评价方法的流程图;
图2是本发明实施例的一种网络舆情危机等级评价方法的详细流程图;
图3是本发明实施例的数据采集流程图;
图4是本发明实施例的word2vec+LSTM情感分类模型流程图;
图5是本发明实施例的“某某维权事件”的网民情感变化;
图6是本发明实施例的“某某维权事件”的网络舆情监测结果;
图7是本发明实施例的一种网络舆情危机等级评价装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参考图1-2,本发明提供的技术方案之一为:一种网络舆情危机等级评价方法,包括:
根据网络资源库中的网络资源进行舆情数据采集;得到相关舆情数据;
在本实施例中,采集的舆情数据包括但不限于舆情事件的原创blog数据、评论信息数据、用户数据、点赞数据、转发信息数据和评论信息数据。
参考图3,在本实施例中,数据采集采用数据采集器及相应的算法进行采集,通过数据采集器采集数据的具体过程为:
S11:访问获取数据的页面;
S12:获取所有数据的接口,其中blog内容及话题用户来自同一接口,整体进行数据的获取,点赞、转发、评论为三个功能设计;
S13:获取数据并保存到数据库;
S14,对获取的数据进行处理转换,对其进行去重等操作,然后把处理过的数据分别保存到各自对应的文件。
本实施例中为了获得指标体系中的各项数据,设计了如下数据采集算法:该算法分为3个阶段,第一阶段(1-16行),获取当前舆情话题下的所有blog信息和发表blog的用户信息并保存,用户信息可用于下一步获取用户的所有blog内容。第二阶段(18-39行),获取每个用户下的所有blog内容。第三阶段(40-50行),获取舆情事件阅读量和讨论量。
例如,在“某某维权事件”中,采用上述数据采集器采集截至到时间2019/4/14 20:00:00的数据1850条原创blog数据、23561条评论信息数据、294条用户数据、64344条点赞数据、25064条转发信息数据及17356条评论信息数据。
针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
在本实施例中,针对获取的舆情数据建立的评价指标体系见表1:
表1 初步构建的多层次网络舆情评价指标体系
参考图4,在本实施例中,对所述舆情信息中的文本信息进行量化分析采用的方法为采用word2vec+LSTM的情感分类模型,其具体过程为:
该情感分类模型的底层采用word2vec使用高维向量表示词语,矩阵表示句子,并创建词语字典,返回每个词语的索引,以及每个句子所对应的词语索引;
中间层采用LSTM提取特征,LSTM能够很好的包含顺序信息,中间层从上到下分为三层,分别为输入层、隐含层和输出层。
输入层,底层使用预训练的词向量表示词语,词向量组成的矩阵表示句子,输出的句子矩阵作为本层的输入层;
隐含层,使用LSTM网络结构进行自动的提取特征,特征的语义层次更丰富;
输出层,St表示t时刻的输出。LSTM的计算过程如下:
: LSTM的t-1时间阶段的隐藏状态,t-1时间阶段历史信息的出; : LSTM的t时间阶段的隐藏状态,t时间阶段历史信息的输出; : LSTM的t时间阶段时输入;:LSTM的t时间阶段时输出;X为输入句子;W i 和 b i 分别表示循环权重矩阵和偏置矩阵;σ为 sigmoid(⋅) 激活函数;tanh(⋅)为激活函数;符号○表示数组对应位置的元素相乘,LSTM的各时间步输出不仅与当前的输入有关,而且与前一阶段的隐藏状态也有关。
假设符号 θ 表示LSTM模型中的全部参数,则对于给定的x及θ,输出层将结果转换成集合y中各元素的条件概率分布P(y|x, θ)。给定训练集T={(x(i), t(i), y(i)) |1≤i≤|T|}及y={y1, y2,y3},假设yi为模型对输入xi的预测结果标签值,t(i)为真实的结果,则f (xi, θ)针对每一个yj (1≤j≤3)分别估算其概率值P(yj|xi, θ),并输出一个归一化后的3维向量来表示模型在这3个标签值上的预测概率分布:
其中,f (xi, θ)为模型在这3个标签值上的预测概率分布;P(yj|xi, θ):yj为模型对输入xi的预测结果标签值概率值。
顶层使用softmax进行有监督分类训练,如公式(3)所示。
其中,f (xi, θ)为模型在这3个标签值上的预测概率分布;yi为输出概率分布最大的标签值。
示例性的,实验样本为https://download.csdn.net/上下载的谭松波老师和贾建波老师的中文文本情感分析数据集。样本库中positive文本有8033条,negative文本有8703条,neutral文本有8355条。以8:2的比例划分训练集和测试集,训练上述情感分类模型。为保证模型的准确性,采取交叉验证法,自由排列组合选取其中八份作为训练集,其他两份作为验证集,所提方法的分类效果如表2所示,其中准确率、召回率和F1的计算见公式7-9。实验结果表明,本文方法的召回率、精准率和F1值都在85%以上,高于传统基于情感词典的方法,因此情感指标量化的结果是比较准确的。
表2 本文方法的情感分类效果
对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
因为初步构建的评价指标体系(见表1)中可能存在信息叠加问题。为此,本申请采用斯皮尔曼主成分分析与相关性分析相结合的方法,通过相关性分析剔除同一准则层内相关系数超过阈值的指标,减少筛选结果的重复情况;通过主成分分析删除了贡献小的指标,达到筛选出的指标能对评价结果有更大影响的目的。
斯皮尔曼主成分分析是利用两变量的秩次大小作相关分析,对原始变量的分布不作要求,也没有线性要求。
假设两个长度为N的向量X和Y,即X和Y中包含N个元素,计算两个向量X和Y的相关性,可以根据以下步骤计算:
step1:将两个列向量X和Y对应的元素 Xi和Yj转换为在各自列向量中的排名,记为R(Xi)和R(Yj) ;
step2:根据公式(10)计算两个列向量X和Y中对应元素的R(Xi)和R(Yj)之间的差异d,并相加;
step3:最后,根据公式(11)计算出两个列向量之间的相关性Rs;
主成分分析(PCA),的计算步骤:
Step1:求样本标准化阵Z,具体见公式(12);
step2:对标准化阵Z 求相关系数矩阵R,具体见公式(13);
其中,Z为标准化阵;R为相关系数矩阵。
本实施例中,借助SPSS软件,使用斯皮尔曼相关性分析方法对表1中的指标进行筛选,设置显著相关阈值为0.84。平均等级数与平均粉丝数、平均历史blog数之间的相关系数分别为0.874、0.887均大于0.84,说明两个指标有显著相关性,因此需要删除等级数指标,见表3;舆情事件总评论回复数和舆情事件总blog数、舆情事件总评论数之间的相关系数分别为0.873、0.935均大于0.84,因此删除指标舆情事件总评论回复数,见表4;舆情事件评论回复变化率和指标舆情事件评论变化率之间的相关系数为0.891大于0.84,因此删除两个指标中的任意指标,本申请删除舆情事件总评论回复变化率指标,见表5;剩余指标之间的相关系数均小于0.84,如表6、7所示,说明指标间不存在信息重叠问题,保留所有指标。
表3 网民重要度相关性分析结果
表4 网民参与度指标相关性分析结果
表5 话题活跃度相关性分析结果
表6 话题情感倾向性相关性分析结果
注:“-”为负相关。
表7 话题关注度相关性分析结果
通过主成分分析方法对评价指标体系中的评价指标进行筛选的结果为:
根据上述相关性分析完成的结果,再利用主成分分析方法对剩余指标选择,设定累积方差贡献率阈值为90%,当前K个主成分累计贡献率超过90%,保留前K个主成分。计算网民参与度指标主成分分析结果,前四个指标累计贡献率达到了89.521%,小于90%,而前五个指标累计贡献率达到了100.00%,故保留前五个指标,见表8。计算话题情感倾向性指标主成分分析结果贡献率,前三个主成分分析的累计贡献率达到94.533%,保留前三个指标,见表9。以同样的方法,计算网民重要度指标贡献率、话题关注度指标贡献率、话题活跃度指标贡献率,见表10、11、12。
表8 网民参与度指标主成分分析结果
表9话题情感倾向性指标主成分分析结果
表10 网民重要度指标主成分分析结果
表11 话题关注度指标主成分分析结果
表12 话题活跃度指标主成分分析结果
通过上述方法得到筛选后的评价指标包括:舆情信息人、舆情信息环境和舆情信息;
其中,所述舆情信息人包括:平均粉丝量、平均关注量、大V数量、平均历史blog量、舆情事件总点赞量、舆情事件总评论量、舆情事件总转发量、舆情事件总blog量和舆情事件政府发blog量;
所述舆情信息环境包括:舆情事件总阅读量、舆情事件总讨论量、舆情事件发blog变化率、舆情事件blog转发变化率、舆情事件blog评论变化率和舆情事件blog点赞变化率;
所述舆情信息包括:舆情事件正向blog量加评论量、舆情事件负向blog量加评论量和舆情事件中性blog量加评论量。
通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。
在本实施例中,将舆情危机划分为四个等级:
巨警情(Ⅰ级):网民对该舆情关注度极高,传播速度非常快,已经成为舆论事件;
重警情(Ⅱ级):网民对该舆情关注度高,影响扩散到了很大范围,舆情有极有可能转化为舆论事件;
中警情(Ⅲ级):网民对该舆情关注度较高,传播速度中等,舆情影响局限在一定范围内,若没有出现重要节点,将不会转化为舆论事件;
轻警情(Ⅳ级):网民对该舆情关注度低,舆情影响局限在较小范围内,没有转化为行为舆论的可能。
所述危机等级评价模型的构建过程:包括通过德尔菲法确定每个危机等级对应的各项指标的基准值;然后通过灰色关联分析法确定舆情事件的危机等级。
S31:确定基准值矩阵:
邀请10位舆情分析专家参与基准值矩阵的确定,每位专家针对每个危机等级分别给出不重复的2个舆情事件,因此每个等级都会有20个舆情事件。以2小时为间隔对每个事件进行指标数据采集,去掉最大值和最小值然后求平均值,该平均值即为该等级的基准值。
S32:逐个计算每个评价对象指标数据向量(X0(k))与各个等级的各项指标的基准值向量(Xi(k))中的对应指标的绝对值,计算方法见公式(4):
其中,x0(k)为评价对象第k个指标数据;Xi(k) 为第i等级的基准值;i为危机等级(1,2,3,4),k为指标体系中的第k个指标,n为指标体系中指标个数;
S33:计算每个评价对象指标数据与各个等级对应指标的基准值的绝对值最小和最大值,具体计算方法见公式(5):
S35,分别计算评价对象各个指标与各个等级指标基准值的关联系数的均值,以反映各评价对象与参考序列的关联关系,与哪一等级关联系数大,就属于哪一等级。具体计算方法见公式(14):
参考图7,一种网络舆情危机等级评价装置,包括:
数据获取模块,用于根据网络资源库中的网络资源进行舆情数据采集;获取相关舆情数据;
数据分析模块,用于针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
评价指标筛选模块,用于对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
风险等级评价模块,用于危机等级评价模型对量化后的舆情数据指标值进行分析确定舆情事件的危机等级。
实验例
以微博上“某某维权”事件为对象,验证本申请的评价方法的可靠性。
首先,采用本实施例上述的数据采集器,获取“某某维权事件”截至到时间2019/4/14 20:00:00的数据1850条原创blog数据、23561条评论信息数据、294条用户数据、64344条点赞数据、25064条转发信息数据及17356条评论信息数据。
以舆情事件总blog数、舆情事件总阅读量和舆情事件总讨论量三个指标为例评价危机等级,具体实验步骤:首先,指标数据X=(45000,1.9*108,2663),三个指标的基准值矩阵为:
以上结果表示的危机等级为中警情(Ⅲ级)。
以微博上“某某维权”事件为对象,验证本申请的指标体系在舆情危机评价方面的效果。
首先,进行网民情感分析
通过LSTM情感分类模型确定舆情事件blog和评论文本的情感极性,统计各个时间段的舆情事件blog和评论文本的极性,绘制图5,分析网民情感倾向。由于晚间是休息时间,对于这种民事纠纷舆情事件几乎不发酵,所以数据较少。直观的看到网民正负情感变化趋势,事件发生前两天正负舆论相当,到了第三天,负面舆论明显上升,第四天舆论倒向了负向,表明“某某维权事件”在2019/4/14 12:00已经成为了巨大的负面舆论事件。
其次,进行危机等级评价
从事件发生后的第二个小时开始,根据每两个小时统计的数据,反复循环以上计算过程,计算危机等级,使得该预警模型可以很好的时刻监测危机预警等级。分别用不同指标计算危机等级,三个指标分别为C124、C211、C212划分危机等级,七个指标分别为C121、C122、C123、C124、C125、C211、C212划分危机等级,十一个指标分别为C121、C122、C123、C124、C125、C211、C212、C221、C222、C223、C224划分危机等级,十四个指标分别为C121、C122、C123、C124、C125、C211、C212、C221、C222、C223、C224、C311、C312、C313划分危机等级,十八个指标分别为C111、C112、C113、C114、C121、C122、C123、C124、C125、C211、C212、C221、C222、C223、C224、C311、C312、C313划分危机等级,监测结果如图6所示,四条曲线分别代表在四个指标体系下的危机等级结果,十一个指标比七个指标多了变化率的指标,可以看出等级划分的敏感度明显提高,十四个指标比十一个指标多了情感指标,使得等级划分更加灵敏,十八个指标比十四个指标多了网民重要度,早出八九个小时预测出危机等级,使得预警的效果更好,为危机预警提供更好的帮助。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、同替换、改进,均应包含在本发明的保护范围之内。
Claims (9)
1.一种网络舆情危机等级评价方法,其特征在于,包括:
根据网络资源库中的网络资源进行舆情数据采集;得到相关舆情数据;
针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。
2.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,
所述舆情数据包括舆情事件的原创blog数据、评论信息数据、用户数据、点赞数据、转发信息数据和评论信息数据。
3.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,
所述数据采集通过数据采集器进行采集,其具体过程:
S11:访问获取舆情数据的页面;
S12:获取所有数据的接口并进行整体数据的获取、保存;
S13:对保存的数据进行去重操作并分类保存。
4.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,所述筛选方法为斯皮尔曼相关性分析和主成分分析法。
5.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,所述筛选后的评价指标包括:舆情信息人、舆情信息环境和舆情信息;
其中,所述舆情信息人包括:平均粉丝量、平均关注量、大V数量、平均历史blog量、舆情事件总点赞量、舆情事件总评论量、舆情事件总转发量、舆情事件总blog量和舆情事件政府发blog量;
所述舆情信息环境包括:舆情事件总阅读量、舆情事件总讨论量、舆情事件发blog变化率、舆情事件blog转发变化率、舆情事件blog评论变化率和舆情事件blog点赞变化率;
所述舆情信息包括:舆情事件正向blog量加评论量、舆情事件负向blog量加评论量和舆情事件中性blog量加评论量。
6.根据权利要求5所述的网络舆情危机等级评价方法,其特征在于,
对所述舆情信息中的文本信息进行量化分析采用的方法为采用word2vec+LSTM的情感分类模型。
7.根据权利要求5所述的网络舆情危机等级评价方法,其特征在于,
所述采用word2vec+LSTM的情感分类模型对所述舆情信息中的文本信息进量化分析的具体过程为:
S21:基于word2vec模型将舆情信息中的文本内容生成词向量,所述量化过程包括将所述情感词转化为词向量,并通过所述词向量组成句子矩阵;
S22:LSTM模型包括输入层、隐含层和输出层,将上述词向量组成的句子矩阵输入LSTM模型的输入层;
S23:LSTM模型的隐含层对所述句子矩阵的特征进行提取;
S24:LSTM模型的输出层对隐含层提取的特征进行输出;
S25:使用softmax进行有监督分类训练。
8.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,
所述危机等级评价模型的构建过程:
S31:确定基准值矩阵:
S32:逐个计算每个评价对象指标数据向量(X0(k))与各个等级的各项指标的基准值向量(Xi(k))中的对应指标的绝对值,计算方法见公式(4):
其中,x0(k)为评价对象第k个指标数据;Xi(k) 为第i等级的基准值;i为危机等级(1,2,3,4),k为指标体系中的第k个指标,n为指标体系中指标个数;
S33:计算每个评价对象指标数据与各个等级对应指标的基准值的绝对值最小和最大值,具体计算方法见公式(5):
9.一种网络舆情危机等级评价装置,其特征在于,包括:
数据获取模块,用于根据网络资源库中的网络资源进行舆情数据采集;获取相关舆情数据;
数据分析模块,用于针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
评价指标筛选模块,用于对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
风险等级评价模块,用于通过危机等级评价模型对量化后的舆情数据指标值进行分析确定舆情事件的危机等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010627031.5A CN111753093A (zh) | 2020-07-02 | 2020-07-02 | 一种网络舆情危机等级评价方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010627031.5A CN111753093A (zh) | 2020-07-02 | 2020-07-02 | 一种网络舆情危机等级评价方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111753093A true CN111753093A (zh) | 2020-10-09 |
Family
ID=72678722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010627031.5A Pending CN111753093A (zh) | 2020-07-02 | 2020-07-02 | 一种网络舆情危机等级评价方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753093A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528197A (zh) * | 2020-11-20 | 2021-03-19 | 四川新网银行股份有限公司 | 一种基于人工智能的网络舆情实时监测的系统及方法 |
CN112785146A (zh) * | 2021-01-20 | 2021-05-11 | 中慧绿浪科技(天津)集团有限公司 | 一种网络舆情的评估方法及系统 |
CN113128217A (zh) * | 2021-03-26 | 2021-07-16 | 航天科工智能运筹与信息安全研究院(武汉)有限公司 | 一种基于网络孪生空间的舆情处置决策方法 |
CN113298366A (zh) * | 2021-05-12 | 2021-08-24 | 北京信息科技大学 | 一种旅游演艺服务价值评估方法 |
CN113298367A (zh) * | 2021-05-12 | 2021-08-24 | 北京信息科技大学 | 一种主题公园感知价值评估方法 |
CN113393102A (zh) * | 2021-06-02 | 2021-09-14 | 重庆大学 | 一种基于数据驱动的配电变压器运行状态趋势预测方法 |
CN113779195A (zh) * | 2021-08-31 | 2021-12-10 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 热点事件状态评估方法 |
CN114091443A (zh) * | 2021-10-28 | 2022-02-25 | 广州大学 | 基于深度学习的网络信息传播指标体系构建及量化评估方法及系统 |
CN114298877A (zh) * | 2021-12-21 | 2022-04-08 | 中国安全生产科学研究院 | 一种基于社会治理的指数评价系统 |
CN114661860A (zh) * | 2022-02-16 | 2022-06-24 | 深圳怀新企业投资顾问股份有限公司 | 声誉风险监测及量化评估方法、电子设备及计算机可读存储介质 |
CN114896522A (zh) * | 2022-04-14 | 2022-08-12 | 北京航空航天大学 | 多平台信息疫情风险评估方法及装置 |
CN116910381A (zh) * | 2023-06-08 | 2023-10-20 | 中国消防救援学院 | 一种涉消网络舆情预警方法及系统 |
CN117390184A (zh) * | 2023-10-08 | 2024-01-12 | 南京特尔顿信息科技有限公司 | 一种基于大数据技术的网络舆情预警方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885670A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种面向话题文本的交互注意力编码情感分析方法 |
CN110532549A (zh) * | 2019-08-13 | 2019-12-03 | 青岛理工大学 | 一种基于双通道深度学习模型的文本情感分析方法 |
CN111143576A (zh) * | 2019-12-18 | 2020-05-12 | 中科院计算技术研究所大数据研究院 | 一种面向事件的动态知识图谱构建方法和装置 |
-
2020
- 2020-07-02 CN CN202010627031.5A patent/CN111753093A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885670A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种面向话题文本的交互注意力编码情感分析方法 |
CN110532549A (zh) * | 2019-08-13 | 2019-12-03 | 青岛理工大学 | 一种基于双通道深度学习模型的文本情感分析方法 |
CN111143576A (zh) * | 2019-12-18 | 2020-05-12 | 中科院计算技术研究所大数据研究院 | 一种面向事件的动态知识图谱构建方法和装置 |
Non-Patent Citations (2)
Title |
---|
张维楚: ""基于层次分析及灰色关联法的网络视听新媒体热点事件分析"", 《数字传媒研究》, 31 December 2016 (2016-12-31), pages 1 - 5 * |
彭玲: ""基于BP和Elman神经网络的网络舆情预警模型构造"", 《知网》, 15 March 2020 (2020-03-15), pages 3 - 4 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528197B (zh) * | 2020-11-20 | 2023-07-07 | 四川新网银行股份有限公司 | 一种基于人工智能的网络舆情实时监测的系统及方法 |
CN112528197A (zh) * | 2020-11-20 | 2021-03-19 | 四川新网银行股份有限公司 | 一种基于人工智能的网络舆情实时监测的系统及方法 |
CN112785146A (zh) * | 2021-01-20 | 2021-05-11 | 中慧绿浪科技(天津)集团有限公司 | 一种网络舆情的评估方法及系统 |
CN113128217A (zh) * | 2021-03-26 | 2021-07-16 | 航天科工智能运筹与信息安全研究院(武汉)有限公司 | 一种基于网络孪生空间的舆情处置决策方法 |
CN113128217B (zh) * | 2021-03-26 | 2024-04-02 | 航天科工智能运筹与信息安全研究院(武汉)有限公司 | 一种基于网络孪生空间的舆情处置决策方法 |
CN113298366A (zh) * | 2021-05-12 | 2021-08-24 | 北京信息科技大学 | 一种旅游演艺服务价值评估方法 |
CN113298367A (zh) * | 2021-05-12 | 2021-08-24 | 北京信息科技大学 | 一种主题公园感知价值评估方法 |
CN113298366B (zh) * | 2021-05-12 | 2023-12-12 | 北京信息科技大学 | 一种旅游演艺服务价值评估方法 |
CN113298367B (zh) * | 2021-05-12 | 2023-12-12 | 北京信息科技大学 | 一种主题公园感知价值评估方法 |
CN113393102A (zh) * | 2021-06-02 | 2021-09-14 | 重庆大学 | 一种基于数据驱动的配电变压器运行状态趋势预测方法 |
CN113393102B (zh) * | 2021-06-02 | 2022-08-12 | 重庆大学 | 一种基于数据驱动的配电变压器运行状态趋势预测方法 |
CN113779195B (zh) * | 2021-08-31 | 2023-12-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 热点事件状态评估方法 |
CN113779195A (zh) * | 2021-08-31 | 2021-12-10 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 热点事件状态评估方法 |
CN114091443B (zh) * | 2021-10-28 | 2022-07-19 | 广州大学 | 基于深度学习的网络信息传播指标体系构建及评估方法 |
CN114091443A (zh) * | 2021-10-28 | 2022-02-25 | 广州大学 | 基于深度学习的网络信息传播指标体系构建及量化评估方法及系统 |
CN114298877A (zh) * | 2021-12-21 | 2022-04-08 | 中国安全生产科学研究院 | 一种基于社会治理的指数评价系统 |
CN114661860A (zh) * | 2022-02-16 | 2022-06-24 | 深圳怀新企业投资顾问股份有限公司 | 声誉风险监测及量化评估方法、电子设备及计算机可读存储介质 |
CN114896522A (zh) * | 2022-04-14 | 2022-08-12 | 北京航空航天大学 | 多平台信息疫情风险评估方法及装置 |
CN116910381A (zh) * | 2023-06-08 | 2023-10-20 | 中国消防救援学院 | 一种涉消网络舆情预警方法及系统 |
CN117390184A (zh) * | 2023-10-08 | 2024-01-12 | 南京特尔顿信息科技有限公司 | 一种基于大数据技术的网络舆情预警方法及系统 |
CN117390184B (zh) * | 2023-10-08 | 2024-07-23 | 南京特尔顿信息科技有限公司 | 一种基于大数据技术的网络舆情预警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753093A (zh) | 一种网络舆情危机等级评价方法和装置 | |
Meng et al. | Rating the crisis of online public opinion using a multi-level index system | |
CN110442790B (zh) | 推荐多媒体数据的方法、装置、服务器和存储介质 | |
CN104216954B (zh) | 突发事件话题状态的预测装置及预测方法 | |
US11238310B2 (en) | Training data acquisition method and device, server and storage medium | |
CN110222267A (zh) | 一种游戏平台信息推送方法、系统、存储介质及设备 | |
CN103699626B (zh) | 一种微博用户个性化情感倾向分析方法及系统 | |
CN109685153B (zh) | 一种基于特征聚合的社交网络谣言鉴别方法 | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN106126700A (zh) | 一种微博谣言传播的分析方法 | |
Apostol et al. | ContCommRTD: A distributed content-based misinformation-aware community detection system for real-time disaster reporting | |
CN107368519A (zh) | 一种契合用户兴趣变化的协同处理方法及系统 | |
CN115688024B (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN111241425B (zh) | 一种基于层次注意力机制的poi推荐方法 | |
CN111177559A (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN112214661B (zh) | 一种面向视频常规评论的情感不稳定用户检测方法 | |
CN112417267A (zh) | 一种用户行为分析方法、装置、计算机设备及存储介质 | |
CN111552882A (zh) | 一种新闻影响力计算方法、装置、计算机设备及存储介质 | |
CN110991742A (zh) | 一种社交网络信息转发概率预测方法及系统 | |
CN114357160A (zh) | 基于生成传播结构特征的早期谣言检测方法及装置 | |
CN104965930A (zh) | 一种基于大数据的突发事件演化分析方法 | |
CN111581370A (zh) | 综合多通道数据来源的网络舆情热度评估方法及装置 | |
CN106844765B (zh) | 基于卷积神经网络的显著信息检测方法及装置 | |
CN117494068A (zh) | 一种结合深度学习与因果推断的网络舆情分析方法及装置 | |
CN115545349A (zh) | 基于属性敏感交互的时序社交媒体流行度预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201009 |
|
RJ01 | Rejection of invention patent application after publication |