CN111753093A - 一种网络舆情危机等级评价方法和装置 - Google Patents

一种网络舆情危机等级评价方法和装置 Download PDF

Info

Publication number
CN111753093A
CN111753093A CN202010627031.5A CN202010627031A CN111753093A CN 111753093 A CN111753093 A CN 111753093A CN 202010627031 A CN202010627031 A CN 202010627031A CN 111753093 A CN111753093 A CN 111753093A
Authority
CN
China
Prior art keywords
data
public opinion
evaluation
index
public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010627031.5A
Other languages
English (en)
Inventor
孟凡奇
肖茜茜
王敬东
鲍松彬
夏磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN202010627031.5A priority Critical patent/CN111753093A/zh
Publication of CN111753093A publication Critical patent/CN111753093A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络舆情危机等级评价方法和装置,涉及网络信息技术领域,该方法包括:根据网络资源库中的网络资源进行舆情数据采集;得到相关舆情数据;针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;对评价指标体系中的评价指标进行筛选,去除重复的评价指标;通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。与现有的指标体系相比,本发明的指标体系更加的全面,并且,所有的指标都经过了相关性分析和主成分分析方法的筛选,从而保证整个指标体系中没有信息重叠问题。

Description

一种网络舆情危机等级评价方法和装置
技术领域
本发明涉及网络信息技术领域,具体涉及一种网络舆情危机等级评价方法和装置。
背景技术
随着社交媒体的普及,网络信息比以往任何时候传播得都更加迅速且深远。某些突发事件经过网络传播往往会在很短的时间内造成很大社会影响。尤其是一些负面信息,如果不能及时发现并加以阻断就可能会造成不可挽回的信用、名誉或财产损失,甚至导致社会动荡。为了尽可能地减少这种不必要的伤害,需要对网络舆情进行监测、对危机等级进行评估,从而及时进行危机预警并在恰当的时机加以干预。因此,建立一套完善、客观的评价指标体系就成为时下必须解决的问题。
目前,对社交网络舆情的研究主要集中在网络传播模型、舆情监测与预警和舆情控制与引导等方面。尽管学者们已经从不同角度出发构建了各种网络舆情监测指标体系,但结合社交网络传播特点构建的指标体系还相对较少,并且多数只采用几个简单统计量,如阅读数、评论数、点赞数等,不仅评价不够全面,而且指标之间存在信息重叠,难以实现客观评价,个别研究虽然考虑了更加复杂的指标,但是这些指标往往定义模糊、难以量化。
发明内容
为了解决上述问题,本发明提供了一种一种网络舆情危机等级评价方法和装置。
本发明提供技术方案之一为:一种网络舆情危机等级评价方法,包括:
根据网络资源库中的网络资源进行舆情数据采集;得到相关舆情数据;
针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。
进一步地,所述方法还包括采用斯皮尔曼相关系数分析和主成分分析方法对评价指标体系进行筛选去重过程。
更进一步地,所述舆情数据包括所述舆情事件的原创blog数据、评论信息数据、用户数据、点赞数据、转发信息数据和评论信息数据。
更进一步地,所述数据采集通过数据采集器进行采集,其具体过程:
S11:访问获取舆情数据的页面;
S12:获取所有数据的接口并进行整体数据的获取、保存;
S13:对保存的数据进行去重操作并分类保存。
更进一步地,所述筛选方法为斯皮尔曼相关性分析和主成分分析法。
更进一步地,所述筛选后的评价指标包括:舆情信息人、舆情信息环境和舆情信息;
其中,所述舆情信息人包括:平均粉丝量、平均关注量、大V数量、平均历史blog量、舆情事件总点赞量、舆情事件总评论量、舆情事件总转发量、舆情事件总blog量和舆情事件政府发blog量;
所述舆情信息环境包括:舆情事件总阅读量、舆情事件总讨论量、舆情事件发blog变化率、舆情事件blog转发变化率、舆情事件blog评论变化率和舆情事件blog点赞变化率;
所述舆情信息包括:舆情事件正向blog量加评论量、舆情事件负向blog量加评论量和舆情事件中性blog量加评论量。
更进一步地,对所述舆情信息中的文本信息进行量化分析采用的方法为采用word2vec+LSTM的情感分类模型。
更进一步地,所述采用word2vec+LSTM的情感分类模型对所述舆情信息中的文本信息进量化分析的具体过程为:
S21:基于word2vec模型将舆情信息中的文本内容生成词向量,所述量化过程包括将所述情感词转化为词向量,并通过所述词向量组成句子矩阵;
S22:LSTM模型包括输入层、隐含层和输出层,将上述词向量组成的句子矩阵输入LSTM模型的输入层;
S23:LSTM模型的隐含层对所述句子矩阵的特征进行提取;
S24:LSTM模型的输出层对隐含层提取的特征进行输出;
S25:使用softmax进行有监督分类训练。
更进一步地,所述危机等级评价模型的构建过程:
S31:确定基准值矩阵:
S32:逐个计算每个评价对象指标数据向量(X0(k))与各个等级的各项指标的基准值向量(Xi(k))中的对应指标的绝对值,计算方法见公式(4):
Figure 18491DEST_PATH_IMAGE001
,(k=1,2,3,i=1,2,…,n) (4),
其中,x0(k)为评价对象第k个指标数据;Xi(k)为第i等级的基准值;i为危机等级(1,2,3,4),k为指标体系中的第k个指标,n为指标体系中指标个数;
S33:计算每个评价对象指标数据与各个等级对应指标的基准值的绝对值最小和最大值,具体计算方法见公式(5):
Figure 934757DEST_PATH_IMAGE003
S34:分别计算每个评价对象指标数据与对应的各个等级指标的基准值的关联系数
Figure 674043DEST_PATH_IMAGE005
,具体计算方法见公式(6):
Figure 174294DEST_PATH_IMAGE007
其中, k=1,2,…,n;
Figure 188387DEST_PATH_IMAGE008
为各个数据的权重;ρ为分辨系数,0<ρ<1;
S35:分别计算评价对象各个指标与各个等级指标基准值的关联系数的均值
Figure 959159DEST_PATH_IMAGE009
,以反映各评价对象与参考序列的关联关系,具体计算方法见公式(14):
Figure 869346DEST_PATH_IMAGE011
(14)。
本发明提供的技术方案之二为:一种网络舆情危机等级评价装置,包括:
数据获取模块,用于根据网络资源库中的网络资源进行舆情数据采集;获取相关舆情数据;
数据分析模块,用于针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
评价指标筛选模块,用于对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
风险等级评价模块,用于通过危机等级评价模型对量化后的舆情数据指标值进行分析确定舆情事件的危机等级。
本发明的有益效果:
本发明在归纳网络舆情的演化态势以及从信息生态学角度分析舆情传播影响因素的基础上,构建了一个包括舆情信息、信息人与信息环境三要素的多层次网络舆情评价指标体系。与现有的指标体系相比,本发明的指标体系更加的全面,并且,所有的指标都经过了相关性分析和主成分分析方法的筛选,从而保证整个指标体系中没有信息重叠问题,为评定网络舆情的危机等级提供一个全面、客观的评价标准。
本发明基于LSTM搭建了舆情文本的情感分类模型,使得指标体系中的情感指标可以量化;另外,指标体系中不仅包含简单计数信息,也包含变化率信息,大大提高了指标体系的科学性和合理性。在此基础上,本发明通过德尔菲法确定了每个指标的基准值,这为预测舆情发展的下一个等级并据此实现危机预警奠定基础。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将对本发明作进一步详细的说明。
附图说明:
图1是本发明实施例的一种网络舆情危机等级评价方法的流程图;
图2是本发明实施例的一种网络舆情危机等级评价方法的详细流程图;
图3是本发明实施例的数据采集流程图;
图4是本发明实施例的word2vec+LSTM情感分类模型流程图;
图5是本发明实施例的“某某维权事件”的网民情感变化;
图6是本发明实施例的“某某维权事件”的网络舆情监测结果;
图7是本发明实施例的一种网络舆情危机等级评价装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参考图1-2,本发明提供的技术方案之一为:一种网络舆情危机等级评价方法,包括:
根据网络资源库中的网络资源进行舆情数据采集;得到相关舆情数据;
在本实施例中,采集的舆情数据包括但不限于舆情事件的原创blog数据、评论信息数据、用户数据、点赞数据、转发信息数据和评论信息数据。
参考图3,在本实施例中,数据采集采用数据采集器及相应的算法进行采集,通过数据采集器采集数据的具体过程为:
S11:访问获取数据的页面;
S12:获取所有数据的接口,其中blog内容及话题用户来自同一接口,整体进行数据的获取,点赞、转发、评论为三个功能设计;
S13:获取数据并保存到数据库;
S14,对获取的数据进行处理转换,对其进行去重等操作,然后把处理过的数据分别保存到各自对应的文件。
本实施例中为了获得指标体系中的各项数据,设计了如下数据采集算法:该算法分为3个阶段,第一阶段(1-16行),获取当前舆情话题下的所有blog信息和发表blog的用户信息并保存,用户信息可用于下一步获取用户的所有blog内容。第二阶段(18-39行),获取每个用户下的所有blog内容。第三阶段(40-50行),获取舆情事件阅读量和讨论量。
Figure 856894DEST_PATH_IMAGE012
Figure 143518DEST_PATH_IMAGE013
Figure 267332DEST_PATH_IMAGE015
例如,在“某某维权事件”中,采用上述数据采集器采集截至到时间2019/4/14 20:00:00的数据1850条原创blog数据、23561条评论信息数据、294条用户数据、64344条点赞数据、25064条转发信息数据及17356条评论信息数据。
针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
在本实施例中,针对获取的舆情数据建立的评价指标体系见表1:
表1 初步构建的多层次网络舆情评价指标体系
Figure 861604DEST_PATH_IMAGE017
Figure 805290DEST_PATH_IMAGE019
Figure 364447DEST_PATH_IMAGE021
参考图4,在本实施例中,对所述舆情信息中的文本信息进行量化分析采用的方法为采用word2vec+LSTM的情感分类模型,其具体过程为:
该情感分类模型的底层采用word2vec使用高维向量表示词语,矩阵表示句子,并创建词语字典,返回每个词语的索引,以及每个句子所对应的词语索引;
中间层采用LSTM提取特征,LSTM能够很好的包含顺序信息,中间层从上到下分为三层,分别为输入层、隐含层和输出层。
输入层,底层使用预训练的词向量表示词语,词向量组成的矩阵表示句子,输出的句子矩阵作为本层的输入层;
隐含层,使用LSTM网络结构进行自动的提取特征,特征的语义层次更丰富;
输出层,St表示t时刻的输出。LSTM的计算过程如下:
Figure 342767DEST_PATH_IMAGE023
(1)
其中,
Figure 594757DEST_PATH_IMAGE024
: LSTM在t时间阶段去掉不要信息后保留的信息;
Figure 25738DEST_PATH_IMAGE025
:LSTM在t时间阶段增加的信息;
Figure 624472DEST_PATH_IMAGE026
:LSTM在t时间阶段更新的新增加的信息;
Figure 457299DEST_PATH_IMAGE027
: LSTM的t-1时间阶段的隐藏状态,t-1时间阶段历史信息的出;
Figure 614611DEST_PATH_IMAGE028
: LSTM的t时间阶段的隐藏状态,t时间阶段历史信息的输出;
Figure 267309DEST_PATH_IMAGE029
: LSTM的t时间阶段时输入;
Figure 433848DEST_PATH_IMAGE030
:LSTM的t时间阶段时输出;X为输入句子;W i 和 b i 分别表示循环权重矩阵和偏置矩阵;σ为 sigmoid(⋅) 激活函数;tanh(⋅)为激活函数;符号○表示数组对应位置的元素相乘,LSTM的各时间步输出
Figure 121181DEST_PATH_IMAGE031
不仅与当前的输入
Figure 216439DEST_PATH_IMAGE029
有关,而且与前一阶段的隐藏状态
Figure 356433DEST_PATH_IMAGE032
也有关。
假设符号 θ 表示LSTM模型中的全部参数,则对于给定的x及θ,输出层将结果转换成集合y中各元素的条件概率分布P(y|x, θ)。给定训练集T={(x(i), t(i), y(i)) |1≤i≤|T|}及y={y1, y2,y3},假设yi为模型对输入xi的预测结果标签值,t(i)为真实的结果,则f (xi, θ)针对每一个yj (1≤j≤3)分别估算其概率值P(yj|xi, θ),并输出一个归一化后的3维向量来表示模型在这3个标签值上的预测概率分布:
Figure 795505DEST_PATH_IMAGE034
(2)
其中,f (xi, θ)为模型在这3个标签值上的预测概率分布;P(yj|xi, θ):yj为模型对输入xi的预测结果标签值概率值。
顶层使用softmax进行有监督分类训练,如公式(3)所示。
Figure 602924DEST_PATH_IMAGE036
(3)
其中,f (xi, θ)为模型在这3个标签值上的预测概率分布;yi为输出概率分布最大的标签值。
示例性的,实验样本为https://download.csdn.net/上下载的谭松波老师和贾建波老师的中文文本情感分析数据集。样本库中positive文本有8033条,negative文本有8703条,neutral文本有8355条。以8:2的比例划分训练集和测试集,训练上述情感分类模型。为保证模型的准确性,采取交叉验证法,自由排列组合选取其中八份作为训练集,其他两份作为验证集,所提方法的分类效果如表2所示,其中准确率、召回率和F1的计算见公式7-9。实验结果表明,本文方法的召回率、精准率和F1值都在85%以上,高于传统基于情感词典的方法,因此情感指标量化的结果是比较准确的。
Figure 102038DEST_PATH_IMAGE038
(7)
Figure 729328DEST_PATH_IMAGE040
(8)
Figure 972091DEST_PATH_IMAGE042
(9)
表2 本文方法的情感分类效果
Figure 634016DEST_PATH_IMAGE043
对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
因为初步构建的评价指标体系(见表1)中可能存在信息叠加问题。为此,本申请采用斯皮尔曼主成分分析与相关性分析相结合的方法,通过相关性分析剔除同一准则层内相关系数超过阈值的指标,减少筛选结果的重复情况;通过主成分分析删除了贡献小的指标,达到筛选出的指标能对评价结果有更大影响的目的。
斯皮尔曼主成分分析是利用两变量的秩次大小作相关分析,对原始变量的分布不作要求,也没有线性要求。
假设两个长度为N的向量X和Y,即X和Y中包含N个元素,计算两个向量X和Y的相关性,可以根据以下步骤计算:
step1:将两个列向量X和Y对应的元素 Xi和Yj转换为在各自列向量中的排名,记为R(Xi)和R(Yj) ;
step2:根据公式(10)计算两个列向量X和Y中对应元素的R(Xi)和R(Yj)之间的差异d,并相加;
Figure 805497DEST_PATH_IMAGE045
(10)
step3:最后,根据公式(11)计算出两个列向量之间的相关性Rs;
Figure 920084DEST_PATH_IMAGE047
(11)。
主成分分析(PCA),的计算步骤:
Step1:求样本标准化阵Z,具体见公式(12);
Figure 966537DEST_PATH_IMAGE049
(12)
其中,
Figure 482969DEST_PATH_IMAGE051
,Xij为第i行j列指标变量;
Figure 589465DEST_PATH_IMAGE052
为第j列指标平均数;Sj为第j列指标标准差;Zij为标准化阵Z中第i行j列数。
step2:对标准化阵Z 求相关系数矩阵R,具体见公式(13);
Figure 925769DEST_PATH_IMAGE053
(13),
其中,Z为标准化阵;R为相关系数矩阵。
其中,
Figure 510334DEST_PATH_IMAGE054
Step3:解样本相关矩阵R的特征方程
Figure 382737DEST_PATH_IMAGE055
得p个特征根,确定主成分,根据
Figure 394555DEST_PATH_IMAGE056
确定主成分个数,
Figure 749313DEST_PATH_IMAGE057
为R的特征值。
本实施例中,借助SPSS软件,使用斯皮尔曼相关性分析方法对表1中的指标进行筛选,设置显著相关阈值为0.84。平均等级数与平均粉丝数、平均历史blog数之间的相关系数分别为0.874、0.887均大于0.84,说明两个指标有显著相关性,因此需要删除等级数指标,见表3;舆情事件总评论回复数和舆情事件总blog数、舆情事件总评论数之间的相关系数分别为0.873、0.935均大于0.84,因此删除指标舆情事件总评论回复数,见表4;舆情事件评论回复变化率和指标舆情事件评论变化率之间的相关系数为0.891大于0.84,因此删除两个指标中的任意指标,本申请删除舆情事件总评论回复变化率指标,见表5;剩余指标之间的相关系数均小于0.84,如表6、7所示,说明指标间不存在信息重叠问题,保留所有指标。
表3 网民重要度相关性分析结果
Figure 871990DEST_PATH_IMAGE058
表4 网民参与度指标相关性分析结果
Figure 363014DEST_PATH_IMAGE059
表5 话题活跃度相关性分析结果
Figure 545734DEST_PATH_IMAGE060
表6 话题情感倾向性相关性分析结果
Figure 856630DEST_PATH_IMAGE061
注:“-”为负相关。
表7 话题关注度相关性分析结果
Figure 284462DEST_PATH_IMAGE062
通过主成分分析方法对评价指标体系中的评价指标进行筛选的结果为:
根据上述相关性分析完成的结果,再利用主成分分析方法对剩余指标选择,设定累积方差贡献率阈值为90%,当前K个主成分累计贡献率超过90%,保留前K个主成分。计算网民参与度指标主成分分析结果,前四个指标累计贡献率达到了89.521%,小于90%,而前五个指标累计贡献率达到了100.00%,故保留前五个指标,见表8。计算话题情感倾向性指标主成分分析结果贡献率,前三个主成分分析的累计贡献率达到94.533%,保留前三个指标,见表9。以同样的方法,计算网民重要度指标贡献率、话题关注度指标贡献率、话题活跃度指标贡献率,见表10、11、12。
表8 网民参与度指标主成分分析结果
Figure 895572DEST_PATH_IMAGE063
表9话题情感倾向性指标主成分分析结果
Figure 249193DEST_PATH_IMAGE064
表10 网民重要度指标主成分分析结果
Figure 47385DEST_PATH_IMAGE065
表11 话题关注度指标主成分分析结果
Figure 777443DEST_PATH_IMAGE066
表12 话题活跃度指标主成分分析结果
Figure 243060DEST_PATH_IMAGE067
通过上述方法得到筛选后的评价指标包括:舆情信息人、舆情信息环境和舆情信息;
其中,所述舆情信息人包括:平均粉丝量、平均关注量、大V数量、平均历史blog量、舆情事件总点赞量、舆情事件总评论量、舆情事件总转发量、舆情事件总blog量和舆情事件政府发blog量;
所述舆情信息环境包括:舆情事件总阅读量、舆情事件总讨论量、舆情事件发blog变化率、舆情事件blog转发变化率、舆情事件blog评论变化率和舆情事件blog点赞变化率;
所述舆情信息包括:舆情事件正向blog量加评论量、舆情事件负向blog量加评论量和舆情事件中性blog量加评论量。
通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。
在本实施例中,将舆情危机划分为四个等级:
巨警情(Ⅰ级):网民对该舆情关注度极高,传播速度非常快,已经成为舆论事件;
重警情(Ⅱ级):网民对该舆情关注度高,影响扩散到了很大范围,舆情有极有可能转化为舆论事件;
中警情(Ⅲ级):网民对该舆情关注度较高,传播速度中等,舆情影响局限在一定范围内,若没有出现重要节点,将不会转化为舆论事件;
轻警情(Ⅳ级):网民对该舆情关注度低,舆情影响局限在较小范围内,没有转化为行为舆论的可能。
所述危机等级评价模型的构建过程:包括通过德尔菲法确定每个危机等级对应的各项指标的基准值;然后通过灰色关联分析法确定舆情事件的危机等级。
S31:确定基准值矩阵:
Figure 33161DEST_PATH_IMAGE068
邀请10位舆情分析专家参与基准值矩阵的确定,每位专家针对每个危机等级分别给出不重复的2个舆情事件,因此每个等级都会有20个舆情事件。以2小时为间隔对每个事件进行指标数据采集,去掉最大值和最小值然后求平均值,该平均值即为该等级的基准值。
S32:逐个计算每个评价对象指标数据向量(X0(k))与各个等级的各项指标的基准值向量(Xi(k))中的对应指标的绝对值,计算方法见公式(4):
Figure 820114DEST_PATH_IMAGE070
(4),
其中,x0(k)为评价对象第k个指标数据;Xi(k) 为第i等级的基准值;i为危机等级(1,2,3,4),k为指标体系中的第k个指标,n为指标体系中指标个数;
S33:计算每个评价对象指标数据与各个等级对应指标的基准值的绝对值最小和最大值,具体计算方法见公式(5):
Figure 619443DEST_PATH_IMAGE072
(5)
S34:分别计算每个评价对象指标数据与对应的各个等级指标的基准值的关联系数
Figure DEST_PATH_IMAGE073
,具体计算方法见公式(3):
Figure 205145DEST_PATH_IMAGE074
(6)
其中, k=1,2,…,n;
Figure DEST_PATH_IMAGE075
为各个数据的权重;ρ为分辨系数,0<ρ<1;
S35,分别计算评价对象各个指标与各个等级指标基准值的关联系数的均值,以反映各评价对象与参考序列的关联关系,与哪一等级关联系数大,就属于哪一等级。具体计算方法见公式(14):
Figure DEST_PATH_IMAGE077
(14)。
参考图7,一种网络舆情危机等级评价装置,包括:
数据获取模块,用于根据网络资源库中的网络资源进行舆情数据采集;获取相关舆情数据;
数据分析模块,用于针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
评价指标筛选模块,用于对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
风险等级评价模块,用于危机等级评价模型对量化后的舆情数据指标值进行分析确定舆情事件的危机等级。
实验例
以微博上“某某维权”事件为对象,验证本申请的评价方法的可靠性。
首先,采用本实施例上述的数据采集器,获取“某某维权事件”截至到时间2019/4/14 20:00:00的数据1850条原创blog数据、23561条评论信息数据、294条用户数据、64344条点赞数据、25064条转发信息数据及17356条评论信息数据。
以舆情事件总blog数、舆情事件总阅读量和舆情事件总讨论量三个指标为例评价危机等级,具体实验步骤:首先,指标数据X=(45000,1.9*108,2663),三个指标的基准值矩阵为:
Figure 995509DEST_PATH_IMAGE078
然后,本实施例通过专家的问卷调查,求十个专家的平均值确定权重
Figure DEST_PATH_IMAGE079
,ρ取0.5。根据公式(6)分别计算每一个序列与参考序列对应元素的关联系数:
Figure 830609DEST_PATH_IMAGE080
最后,根据公式(14)分别计算评价对象各个指标与各个等级指标基准值的关联系数的均值
Figure DEST_PATH_IMAGE081
,以反映评价对象与各个等级的基准值的关联关系,与哪一等级关联系数大,就属于哪一等级。
Figure 964787DEST_PATH_IMAGE082
以上结果表示的危机等级为中警情(Ⅲ级)。
以微博上“某某维权”事件为对象,验证本申请的指标体系在舆情危机评价方面的效果。
首先,进行网民情感分析
通过LSTM情感分类模型确定舆情事件blog和评论文本的情感极性,统计各个时间段的舆情事件blog和评论文本的极性,绘制图5,分析网民情感倾向。由于晚间是休息时间,对于这种民事纠纷舆情事件几乎不发酵,所以数据较少。直观的看到网民正负情感变化趋势,事件发生前两天正负舆论相当,到了第三天,负面舆论明显上升,第四天舆论倒向了负向,表明“某某维权事件”在2019/4/14 12:00已经成为了巨大的负面舆论事件。
其次,进行危机等级评价
从事件发生后的第二个小时开始,根据每两个小时统计的数据,反复循环以上计算过程,计算危机等级,使得该预警模型可以很好的时刻监测危机预警等级。分别用不同指标计算危机等级,三个指标分别为C124、C211、C212划分危机等级,七个指标分别为C121、C122、C123、C124、C125、C211、C212划分危机等级,十一个指标分别为C121、C122、C123、C124、C125、C211、C212、C221、C222、C223、C224划分危机等级,十四个指标分别为C121、C122、C123、C124、C125、C211、C212、C221、C222、C223、C224、C311、C312、C313划分危机等级,十八个指标分别为C111、C112、C113、C114、C121、C122、C123、C124、C125、C211、C212、C221、C222、C223、C224、C311、C312、C313划分危机等级,监测结果如图6所示,四条曲线分别代表在四个指标体系下的危机等级结果,十一个指标比七个指标多了变化率的指标,可以看出等级划分的敏感度明显提高,十四个指标比十一个指标多了情感指标,使得等级划分更加灵敏,十八个指标比十四个指标多了网民重要度,早出八九个小时预测出危机等级,使得预警的效果更好,为危机预警提供更好的帮助。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、同替换、改进,均应包含在本发明的保护范围之内。

Claims (9)

1.一种网络舆情危机等级评价方法,其特征在于,包括:
根据网络资源库中的网络资源进行舆情数据采集;得到相关舆情数据;
针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
通过危机等级评价模型对筛选后的舆情数据指标值进行分析确定舆情事件的危机等级。
2.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,
所述舆情数据包括舆情事件的原创blog数据、评论信息数据、用户数据、点赞数据、转发信息数据和评论信息数据。
3.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,
所述数据采集通过数据采集器进行采集,其具体过程:
S11:访问获取舆情数据的页面;
S12:获取所有数据的接口并进行整体数据的获取、保存;
S13:对保存的数据进行去重操作并分类保存。
4.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,所述筛选方法为斯皮尔曼相关性分析和主成分分析法。
5.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,所述筛选后的评价指标包括:舆情信息人、舆情信息环境和舆情信息;
其中,所述舆情信息人包括:平均粉丝量、平均关注量、大V数量、平均历史blog量、舆情事件总点赞量、舆情事件总评论量、舆情事件总转发量、舆情事件总blog量和舆情事件政府发blog量;
所述舆情信息环境包括:舆情事件总阅读量、舆情事件总讨论量、舆情事件发blog变化率、舆情事件blog转发变化率、舆情事件blog评论变化率和舆情事件blog点赞变化率;
所述舆情信息包括:舆情事件正向blog量加评论量、舆情事件负向blog量加评论量和舆情事件中性blog量加评论量。
6.根据权利要求5所述的网络舆情危机等级评价方法,其特征在于,
对所述舆情信息中的文本信息进行量化分析采用的方法为采用word2vec+LSTM的情感分类模型。
7.根据权利要求5所述的网络舆情危机等级评价方法,其特征在于,
所述采用word2vec+LSTM的情感分类模型对所述舆情信息中的文本信息进量化分析的具体过程为:
S21:基于word2vec模型将舆情信息中的文本内容生成词向量,所述量化过程包括将所述情感词转化为词向量,并通过所述词向量组成句子矩阵;
S22:LSTM模型包括输入层、隐含层和输出层,将上述词向量组成的句子矩阵输入LSTM模型的输入层;
S23:LSTM模型的隐含层对所述句子矩阵的特征进行提取;
S24:LSTM模型的输出层对隐含层提取的特征进行输出;
S25:使用softmax进行有监督分类训练。
8.根据权利要求1所述的网络舆情危机等级评价方法,其特征在于,
所述危机等级评价模型的构建过程:
S31:确定基准值矩阵:
S32:逐个计算每个评价对象指标数据向量(X0(k))与各个等级的各项指标的基准值向量(Xi(k))中的对应指标的绝对值,计算方法见公式(4):
Figure 911663DEST_PATH_IMAGE002
,(k=1,2,3,i=1,2,…,n) (4),
其中,x0(k)为评价对象第k个指标数据;Xi(k) 为第i等级的基准值;i为危机等级(1,2,3,4),k为指标体系中的第k个指标,n为指标体系中指标个数;
S33:计算每个评价对象指标数据与各个等级对应指标的基准值的绝对值最小和最大值,具体计算方法见公式(5):
Figure 625541DEST_PATH_IMAGE004
(5)
S34:分别计算每个评价对象指标数据与对应的各个等级指标的基准值的关联系数
Figure 687169DEST_PATH_IMAGE006
,具体计算方法见公式(6):
Figure 816799DEST_PATH_IMAGE008
(6)
其中, k=1,2,…,n;
Figure 162330DEST_PATH_IMAGE010
为各个数据的权重;ρ为分辨系数,0<ρ<1;
S35:分别计算评价对象各个指标与各个等级指标基准值的关联系数的均值
Figure 781530DEST_PATH_IMAGE012
,以反映各评价对象与参考序列的关联关系,具体计算方法见公式(14):
Figure 579722DEST_PATH_IMAGE014
(14)。
9.一种网络舆情危机等级评价装置,其特征在于,包括:
数据获取模块,用于根据网络资源库中的网络资源进行舆情数据采集;获取相关舆情数据;
数据分析模块,用于针对获取的舆情数据建立评价指标体系,并对所述舆情数据进行量化处理,得到舆情数据的指标值;
评价指标筛选模块,用于对评价指标体系中的评价指标进行筛选,去除重复的评价指标;
风险等级评价模块,用于通过危机等级评价模型对量化后的舆情数据指标值进行分析确定舆情事件的危机等级。
CN202010627031.5A 2020-07-02 2020-07-02 一种网络舆情危机等级评价方法和装置 Pending CN111753093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010627031.5A CN111753093A (zh) 2020-07-02 2020-07-02 一种网络舆情危机等级评价方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010627031.5A CN111753093A (zh) 2020-07-02 2020-07-02 一种网络舆情危机等级评价方法和装置

Publications (1)

Publication Number Publication Date
CN111753093A true CN111753093A (zh) 2020-10-09

Family

ID=72678722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010627031.5A Pending CN111753093A (zh) 2020-07-02 2020-07-02 一种网络舆情危机等级评价方法和装置

Country Status (1)

Country Link
CN (1) CN111753093A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528197A (zh) * 2020-11-20 2021-03-19 四川新网银行股份有限公司 一种基于人工智能的网络舆情实时监测的系统及方法
CN112785146A (zh) * 2021-01-20 2021-05-11 中慧绿浪科技(天津)集团有限公司 一种网络舆情的评估方法及系统
CN113128217A (zh) * 2021-03-26 2021-07-16 航天科工智能运筹与信息安全研究院(武汉)有限公司 一种基于网络孪生空间的舆情处置决策方法
CN113298367A (zh) * 2021-05-12 2021-08-24 北京信息科技大学 一种主题公园感知价值评估方法
CN113298366A (zh) * 2021-05-12 2021-08-24 北京信息科技大学 一种旅游演艺服务价值评估方法
CN113393102A (zh) * 2021-06-02 2021-09-14 重庆大学 一种基于数据驱动的配电变压器运行状态趋势预测方法
CN113779195A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 热点事件状态评估方法
CN114091443A (zh) * 2021-10-28 2022-02-25 广州大学 基于深度学习的网络信息传播指标体系构建及量化评估方法及系统
CN114896522A (zh) * 2022-04-14 2022-08-12 北京航空航天大学 多平台信息疫情风险评估方法及装置
CN116910381A (zh) * 2023-06-08 2023-10-20 中国消防救援学院 一种涉消网络舆情预警方法及系统
CN117390184A (zh) * 2023-10-08 2024-01-12 南京特尔顿信息科技有限公司 一种基于大数据技术的网络舆情预警方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN110532549A (zh) * 2019-08-13 2019-12-03 青岛理工大学 一种基于双通道深度学习模型的文本情感分析方法
CN111143576A (zh) * 2019-12-18 2020-05-12 中科院计算技术研究所大数据研究院 一种面向事件的动态知识图谱构建方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN110532549A (zh) * 2019-08-13 2019-12-03 青岛理工大学 一种基于双通道深度学习模型的文本情感分析方法
CN111143576A (zh) * 2019-12-18 2020-05-12 中科院计算技术研究所大数据研究院 一种面向事件的动态知识图谱构建方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张维楚: ""基于层次分析及灰色关联法的网络视听新媒体热点事件分析"", 《数字传媒研究》, 31 December 2016 (2016-12-31), pages 1 - 5 *
彭玲: ""基于BP和Elman神经网络的网络舆情预警模型构造"", 《知网》, 15 March 2020 (2020-03-15), pages 3 - 4 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528197B (zh) * 2020-11-20 2023-07-07 四川新网银行股份有限公司 一种基于人工智能的网络舆情实时监测的系统及方法
CN112528197A (zh) * 2020-11-20 2021-03-19 四川新网银行股份有限公司 一种基于人工智能的网络舆情实时监测的系统及方法
CN112785146A (zh) * 2021-01-20 2021-05-11 中慧绿浪科技(天津)集团有限公司 一种网络舆情的评估方法及系统
CN113128217A (zh) * 2021-03-26 2021-07-16 航天科工智能运筹与信息安全研究院(武汉)有限公司 一种基于网络孪生空间的舆情处置决策方法
CN113128217B (zh) * 2021-03-26 2024-04-02 航天科工智能运筹与信息安全研究院(武汉)有限公司 一种基于网络孪生空间的舆情处置决策方法
CN113298367A (zh) * 2021-05-12 2021-08-24 北京信息科技大学 一种主题公园感知价值评估方法
CN113298366A (zh) * 2021-05-12 2021-08-24 北京信息科技大学 一种旅游演艺服务价值评估方法
CN113298366B (zh) * 2021-05-12 2023-12-12 北京信息科技大学 一种旅游演艺服务价值评估方法
CN113298367B (zh) * 2021-05-12 2023-12-12 北京信息科技大学 一种主题公园感知价值评估方法
CN113393102A (zh) * 2021-06-02 2021-09-14 重庆大学 一种基于数据驱动的配电变压器运行状态趋势预测方法
CN113393102B (zh) * 2021-06-02 2022-08-12 重庆大学 一种基于数据驱动的配电变压器运行状态趋势预测方法
CN113779195A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 热点事件状态评估方法
CN113779195B (zh) * 2021-08-31 2023-12-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 热点事件状态评估方法
CN114091443B (zh) * 2021-10-28 2022-07-19 广州大学 基于深度学习的网络信息传播指标体系构建及评估方法
CN114091443A (zh) * 2021-10-28 2022-02-25 广州大学 基于深度学习的网络信息传播指标体系构建及量化评估方法及系统
CN114896522A (zh) * 2022-04-14 2022-08-12 北京航空航天大学 多平台信息疫情风险评估方法及装置
CN116910381A (zh) * 2023-06-08 2023-10-20 中国消防救援学院 一种涉消网络舆情预警方法及系统
CN117390184A (zh) * 2023-10-08 2024-01-12 南京特尔顿信息科技有限公司 一种基于大数据技术的网络舆情预警方法及系统
CN117390184B (zh) * 2023-10-08 2024-07-23 南京特尔顿信息科技有限公司 一种基于大数据技术的网络舆情预警方法及系统

Similar Documents

Publication Publication Date Title
CN111753093A (zh) 一种网络舆情危机等级评价方法和装置
Meng et al. Rating the crisis of online public opinion using a multi-level index system
CN113535984A (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
Sharma et al. The truth is in there: Improving reasoning in language models with layer-selective rank reduction
Tang et al. Soden: A scalable continuous-time survival model through ordinary differential equation networks
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
Zhu et al. Identifying the technology convergence using patent text information: A graph convolutional networks (GCN)-based approach
CN112687374B (zh) 一种基于文本和图像信息联合计算的心理危机预警方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN112800229A (zh) 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN115510326A (zh) 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法
CN116010696A (zh) 融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质
CN112417267A (zh) 一种用户行为分析方法、装置、计算机设备及存储介质
CN113220994B (zh) 基于目标物品增强表示的用户个性化信息推荐方法
CN108596205B (zh) 基于地域相关因子与稀疏表示的微博转发行为预测方法
Achilles et al. Using Surface and Semantic Features for Detecting Early Signs of Self-Harm in Social Media Postings.
Bi et al. Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction
Tang et al. Soden: A scalable continuous-time survival model through ordinary differential equation networks
Wang et al. Towards fake news refuter identification: Mixture of Chi-Merge grounded CNN approach
Rezaeenour et al. Developing a new hybrid intelligent approach for prediction online news popularity
CN114861004A (zh) 一种社交事件检测方法、装置及系统
CN110580261B (zh) 针对高科技公司的深度技术追踪方法
CN112000706B (zh) 一种基于rvm-l模型的互联网舆情预警机制分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination