CN106250363A

CN106250363A - 一种舆情监控分析方法

Info

Publication number: CN106250363A
Application number: CN201610562040.4A
Authority: CN
Inventors: 党连坤; 石晔
Original assignee: HEFEI COMPASS ELECTRONIC TECHNOLOGY Co Ltd
Current assignee: HEFEI COMPASS ELECTRONIC TECHNOLOGY Co Ltd
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2016-12-21

Abstract

本发明公开了一种舆情监控分析方法，包括以下步骤：S1、根据主题收集网络信息；S2、提取网络信息关键词，并根据关键词对网络信息进行归类获得多个信息类；S3、根据关键词为各信息类赋予一个情感倾向值AD；S4、获取各信息类中各网络信息来源网站的信用值，并计算各信息类中信用值之和作为类信权值T；S5、预设情感评估模型；S6、将情感倾向值和类信权值代入情感评估模型计算各信息类的情感值E；S7、将各信息类的情感值相加获得主题情感值。本发明中，首先计算各信息类的情感值，然后以各信息类的情感值为基础计算根据预设的主题搜索到的所有网络信息整体的情感倾向即主题情感值，使得网络信息的整体情感倾向的分析明确化、具体化。

Description

一种舆情监控分析方法

技术领域

本发明涉及舆情监控技术领域，尤其涉及一种舆情监控分析方法

背景技术

国内的网络舆情研究始于2005年，目前已成为相关学科领域专家的关注热点，方兴未艾。目前的舆情研究多以群体事件、司法事件或政治事件为研究着力点，面向公共舆情为主。

以微博、博客、社交网络、即时通讯系统为代表的自媒体(We Media)打破信息的控制和垄断，在网络上人们自由表达自己的态度和意见，不再像过去那么容易地无条件接受，相反，不同阶层的利益诉求纷纷呈现，不同思想观点正面碰撞。在这种情况下，建设能够覆盖多数据源的舆情监测系统十分必要，此类系统可针对新的媒介传播环境，进一步溧入研究舆情的热点研判方法以及自媒体带来的影响，对舆情研究进行丰富和完善。

发明内容

基于背景技术存在的技术问题，本发明提出了一种舆情监控分析方法

本发明提出的一种舆情监控分析方法，包括以下步骤：

S1、根据主题收集网络信息；

S2、提取网络信息关键词，并根据关键词对网络信息进行归类获得多个信息类；

S3、根据关键词为各信息类赋予一个情感倾向值AD；

S4、获取各信息类中各网络信息来源网站的信用值，并计算各信息类中信用值之和作为类信权值T；

S5、预设情感评估模型；

S6、将情感倾向值和类信权值代入情感评估模型计算各信息类的情感值E；

S7、将各信息类的情感值相加获得主题情感值。

优选地，步骤S2具体为：提取网络信息关键词，并将关键词相同的网络信息进行归类，获得多个信息类。

优选地，步骤S3具体包括以下步骤：

S31、判断信息类对应的关键词词性；

S32、根据关键词中褒义词个数与贬义词个数的比值评估情感倾向值AD。

优选地，步骤S32具体为：

当褒义词个数大于贬义词个数，

当贬义词个数大于褒义词个数，

当贬义词个数等于褒义词个数，AD＝0。

优选地，步骤S4中获取各信息类中各网络信息来源网站的信用值的方法包括以下步骤：

S41、预设网站信用测评模型；

S42、从待测评网站随机选取多条真实度已知的信息，并根据真实度为各已知信息赋予真实程度值；

S43、将各已知信息的真实程度值代入网站信用测评模型计算网站信用值T。

优选地，网站信用测评模型为：T＝(t1+t2L+tn)/n，其中，t1、t2……tn分别为该网站中随机挑选的n条真实度已确认的信息对应的真实程度值。

优选地，n≥3。

优选地，n＝10。

优选地，步骤S5中，情感评估模型为E＝AD×T。

本发明一种舆情监控分析方法，对搜寻到的每一条网络信息提取不少于一个关键词，然后将关键词相同的网络信息进行归类，从而获得多个信息类。如此，通过对网络信息进行归类避免了对每一条网络信息进行分析的繁琐与冗余工作，通过对信息类的情感倾向分析，即保证了情感评估的可靠性，又提高了工作效率。

本发明中，引入各网络信息来源网站的信用值，从而为后续的舆情判断增加了一个诚信参量，有利于提高舆情判断结果的可信程度。

本发明中，首先计算各信息类的情感值，然后以各信息类的情感值为基础计算根据预设的主题搜索到的所有网络信息整体的情感倾向即主题情感值。即通过化繁为简的方式，使得网络信息的整体情感倾向的分析明确化、具体化，有利于提高舆情监控的可靠性。

附图说明

图1为本发明提出的一种舆情监控分析方法流程图；

图2为获取各信息类中各网络信息来源网站的信用值流程图；

图3为本发明提出的一种舆情监控分析系统框图。

具体实施方式

参照图1，本发明提出的一种舆情监控分析方法，包括以下步骤。

S1、根据主题收集网络信息。本步骤中，由工作人员输入主题，然后由预设网络爬虫根据主题在网络中搜寻信息。本实施方式中，以网络数据为库进行主题检索，有利于保证信息搜寻的全面性。

S2、提取网络信息关键词，并根据关键词对网络信息进行归类获得多个信息类。本步骤中，具体地，对搜寻到的每一条网络信息提取不少于一个关键词，然后将关键词相同的网络信息进行归类，从而获得多个信息类。本实施方式中，每一个信息类中包含至少一条网络信息，为了便于信息类之间的区别，各信息类以关键词进行标注。

S31、判断信息类对应的关键词词性，即判断关键词为褒义词还是贬义词。

具体地，当褒义词个数大于贬义词个数，

当贬义词个数大于褒义词个数，

当贬义词个数等于褒义词个数，AD＝0。

本实施方式中，根据关键词为各信息类赋予一个情感倾向值AD，情感倾向值AD可直接反应信息类中包含的网络信息的情感倾向。如此，通过对网络信息进行归类避免了对每一条网络信息进行分析的繁琐与冗余工作，通过对信息类的情感倾向分析，即保证了情感评估的可靠性，又提高了工作效率。

S4、获取各信息类中各网络信息来源网站的信用值，并计算各信息类中信用值之和作为类信权值T。

本实施方式中，引入各网络信息来源网站的信用值，从而为后续的舆情判断增加了一个诚信参量，有利于提高舆情判断结果的可信程度。

参照图2，本实施方式中，获取各信息类中各网络信息来源网站的信用值的方法包括以下步骤。

S41、预设网站信用测评模型。本实施方式中，网站信用测评模型为：T＝(t1+t2L+tn)/n，其中，t1、t2……tn分别为该网站中随机挑选的n条真实度已确认的信息对应的真实程度值。

S42、从待测评网站随机选取多条真实度已知的信息，并根据真实度为各已知信息赋予真实程度值。

本实施方式中，结合网站上已知真实度的信息对网站的信用值进行判断，提高了对各网站信用判断的掌控力度和灵活性，有利于适应网络的快速变化。

本实施方式中，n的取值越大，获得的信用值T可信度越高。具体实施时，可取n≥3，例如，n＝10。

S5、预设情感评估模型。本实施方式中，情感评估模型为E＝AD×T。

S6、将情感倾向值和类信权值代入情感评估模型计算各信息类的情感值E。

S7、将各信息类的情感值相加获得主题情感值。

本实施方式中，首先计算各信息类的情感值，然后以各信息类的情感值为基础计算根据预设的主题搜索到的所有网络信息整体的情感倾向即主题情感值。即通过化繁为简的方式，使得网络信息的整体情感倾向的分析明确化、具体化，有利于提高舆情监控的可靠性。

以下结合一种具体地舆情监控分析系统对以上方法做进一步说明。

参照图3，该系统包括：网络信息收集模块、网站信用评估模块、网络信息整理模块、信用计算排序模块、舆情倾向分析模块和评估结果输出模块。

网络信息收集模块用于根据预设的主题收集网络信息。具体地，主题由工作人员手动输入，或者，网络信息收集模块根据工作人员输入的信息进行简化提取主题。

网站信用评估模块，其内部预设有网站信用测评模型，且用于根据网站信用测评模型对各个网站进行评估并赋予信用值。本实施方式中，信用值可根据该网站上发布的已经进行真实程度确认的信息进行评估。例如，可从该网站随机选取10条已经确认了真实程度值的信息评估网站信用值，该网站信用值为该10条信息真实程度值得均值。

结合以上实施例，本实施方式中，网站信用测评模型可设置为：T＝(t1+t2L+tn)/n，其中，t1、t2……tn分别为该网站中随机挑选的n条真实度已确认的信息对应的真实程度值。本实施方式中，选取n＝10，具体实施时，n取值越大，网站的信用值越具有代表性。故而，为了避免信用值可信度过低，本实施方式中，限定n≥3。

网络信息整理模块与网络信息收集模块连接。网络信息整理模块获取网络信息收集模块收集的网络信息，并对网络信息进行关键词提取，然后将关键词相同的网络信息进行聚类，以获得不少于一个信息类。本实施方式中，信息类以关键词标注以便区分。

信用计算排序模块分别连接网络信息整理模块、网络信息收集模块和网站信用评估模块。信用计算排序模块对各信息类中包含的网络信息来源网站进行统计，计算各信息类包含的网络信息来源网站的信用值之和作为该信息类的类信权值，并根据类信权值对各信息类进行排序。

舆情倾向分析模块分别与网络信息整理模块和信用计算排序模块连接。舆情倾向分析模块判断各信息类中各关键词词性，并根据各关键词词性计算该信息类情感倾向值。具体地，舆情倾向分析模块根据信息类对应的关键词中褒义词与贬义词的比值计算该信息类情感倾向值。当信息类对应的关键词中褒义词个数与贬义词个数的比值大于1，则该信息类的情感倾向值为正数；当信息类对应的关键词中褒义词个数与贬义词个数的比值小于1，则该信息类的情感倾向值为负数。

具体实施时，可令情感倾向值AD根据以下原则计算：

当褒义词个数大于贬义词个数，

当贬义词个数大于褒义词个数，

当贬义词个数等于褒义词个数，AD＝0。

本实施方式中，舆情倾向分析模块根据关键词为各信息类赋予一个情感倾向值后，根据预设的情感评估模型结合情感倾向值和类信权值计算各信息类的情感值，并计算信息类情感值之和作为主题情感值。

情感评估模型为：E＝AD×T，其中，AD为情感倾向值，T为类信权值。

舆情倾向分析模块将主题情感值与预设的倾向阈值比较，根据比较结果评估舆情倾向。本实施方式中，倾向阈值为0。当主题情感值大于倾向阈值，则判定舆情倾向褒义；当主题情感值小于倾向阈值，则判定舆情倾向贬义。

评估结果输出模块分别连接信用计算排序模块和舆情分析模块，其将信用计算排序模块的排序结果制成评估表，评估表中各信息类根据关键词进行区别；评估结果输出模块输出评估表和舆情倾向。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种舆情监控分析方法，其特征在于，包括以下步骤：

S1、根据主题收集网络信息；

S3、根据关键词为各信息类赋予一个情感倾向值AD；

S5、预设情感评估模型；

S7、将各信息类的情感值相加获得主题情感值。

2.如权利要求1所述的舆情监控分析方法，其特征在于，步骤S2具体为：提取网络信息关键词，并将关键词相同的网络信息进行归类，获得多个信息类。

3.如权利要求1所述的舆情监控分析方法，其特征在于，步骤S3具体包括以下步骤：

S31、判断信息类对应的关键词词性；

4.如权利要求3所述的舆情监控分析方法，其特征在于，步骤S32具体为：

当褒义词个数大于贬义词个数，

当贬义词个数大于褒义词个数，

当贬义词个数等于褒义词个数，AD＝0。

5.如权利要求1所述的舆情监控分析方法，其特征在于，步骤S4中获取各信息类中各网络信息来源网站的信用值的方法包括以下步骤：

S41、预设网站信用测评模型；

6.如权利要求5所述的舆情监控分析方法，其特征在于，网站信用测评模型为：T＝(t1+t2L+tn)/n，其中，t1、t2……tn分别为该网站中随机挑选的n条真实度已确认的信息对应的真实程度值。

7.如权利要求1所述的舆情监控分析方法，其特征在于，n≥3。

8.如权利要求1所述的舆情监控分析方法，其特征在于，n＝10。

9.如权利要求1所述的舆情监控分析方法，其特征在于，步骤S5中，情感评估模型为E＝AD×T。