CN104731812A

CN104731812A - 一种基于文本情感倾向识别的舆情检测方法

Info

Publication number: CN104731812A
Application number: CN201310717168.XA
Authority: CN
Inventors: 苑志
Original assignee: BEIJING HUAYI INTERACTIVE TECHNOLOGY Co Ltd
Current assignee: BEIJING HUAYI INTERACTIVE TECHNOLOGY Co Ltd
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2015-06-24

Abstract

本发明公开了一种基于文本情感倾向识别的舆情检测方法。本方法为：1）建立一情感特征词库，用于存储情感特征词语及其属性信息，所述属性信息包括：情感强度、类别和极性；2）利用分词工具将待处理文本内容进行分词，并对分词结果进行过滤、排重处理；3）将处理后的分词与所述情感特征词库进行匹配，提取匹配的分词及其属性信息，得到一匹配分词集合；4）根据所述匹配分词集合中的分词属性确定该待处理文本内容的情感倾向；5）根据所有待处理文件内容的情感倾向，确定该指定时间范围内或该指定信息源的舆情信息。与现有技术相比，本发明降低了情感特征词匹配的时间复杂度，提高了运算效率。

Description

一种基于文本情感倾向识别的舆情检测方法

技术领域

本发明涉及一种基于文本的情感倾向识别的舆情检测方法，尤其涉及自然语言的情感分析，属于自然语言分析领域和网络信息安全领域。

背景技术

随着web2.0不断发展，尤其是博客、微博、论坛等自媒体产生了用户的参与、评价、体验、以及用户一些不满的情绪，这部分信息随着时间的积累将迅速的膨胀，依靠人工的方式难以收集判断并整理。此类研究逐渐成为一个研究热点，比如专利名称一种从互联网海量信息中发现热点的方法，专利号：200910028939.8；以及专利名称网络热点和舆情的检测方法，专利号：200910308542.4的技术文献；该发明通过搜集指定时间范围内的网络论坛和博客系统的文档、提取本征特征、进行褒贬倾向性分析等步骤，获知网名对热点事件的舆情观点。

2011年，佛蒙特大学计算实验室的项目Hedonometer在过去的五年中每天都会对Twitter上面的千万条Tweet进行情感分析，并将其结果记录了下来。通过分析它会在人们的Tweet中寻找一些反映正面情绪或者负面情绪的关键词。

2012年5月29日，联合国“全球脉动”（Global Pulse）计划发布《大数据开发：机遇与挑战》报告，阐述了大数据带来的机遇、主要挑战和大数据应用。Global Pulse计划是希望利用“大数据”来促进全球经济发展，使用自然语言解密软件来对社交网站和文本消息中的信息进行“情绪分析”，帮助预测某个给定地区的失业率、支出削减或是疾病爆发等现象。

目前在自然语言分析领域，由于国外的语言结构与国内的语言结构有着本质上的差异，中文与英文的语法结构存在很大的差异，汉语的博大精深，国外的一些分析技术很难应用到中文领域，特别在语义的识别上存在着一些误差。目前国内的常用的计算文本中抽取的关键词和种子词的相似度来对文本的情感倾向性进行判别（SO-PMI算法）、虽然在实现上更加简单，但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定。基于svm算法，前提是训练一套较好的分析模型需要较长的时间，从实际角度来讲对于新词的扩展需要重新进行测试训练，会增加扩展的复杂度。本方法基于词性的统计以及情感强度的计算，具有较好的识别性能及准确度,同时方便于对情感词典的扩展。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于文本情感倾向识别的舆情检测方法，实现了对文本情感倾向的快速分析、统计、判定，进行舆情监控、信息预测等多个领域。

本发明的方法主要是通过对一段文字信息进行分词处理过滤，抽取情感特征词，然后与情感词库进行匹配查找，得到的词条对应的情感强度、分类以及极性，得出一段文字或一句话的情感倾向及程度。

本发明的舆情检测方法流程图如附图所示，其步骤为：

1）建立一个情感特征词库，用于存储基本的情感特征词语及其情感强度、类别、极性等属性信息。其中（1，9）区间表示正面的情感强度，（-1，-9）区间表示负面情感强度，绝对值越大，表示情感强度越大；

2）对指定时间范围内或指定信息源中的每一待处理文本内容进行去杂处理，去除文本内容中的干扰的杂质，例如url、email、数字、特殊符号、以及HTML标签。其中特殊字符包括\r,\n,\t，HTML标签包括<body>、<style>、<title>、<br/>等带有尖括号闭合的标签。

3）分词处理，这里采用scws中文分词工具，将一段内容切分成若干个带有词性标注的单词，例如：词性n表示名词，a表示形容词，v表示动词。

4）根据分词到的结果进行过滤，排重处理。具体方法是：

a)过滤：为了提高词库的查询效率，通过scws分词得到的结果，按词性先过滤一部分与情感特征词无关的词性，例如：人名、地名、机构、时间词、代词等。

b)排重：由于信息源是人为产生的，很可能有带有强烈的个人情感色彩，对情感强度的判定会有一定干扰，以微博为例，例如汶川地震相关的评论，评论内容出现连续多个[泪]，这种情况将多个连续重复出现的单词计为1个单词。

5）与情感特征词库进行匹配查找，抽取情感特征词以及对应的属性，得出对应的分类、情感强度以及极性。

6）根据情感强度以及极性的求和计算，可以反应出一段文字的情感倾向为正面或是负面的

7）根据所有待处理文件内容的情感倾向，确定该指定时间范围内或该指定信息源的舆情信息。

进一步的，所述情感特征的词典为一个数组，每个词条属性包括：情感强度、分类、极性。

进一步的，所述情感词分类包括：乐、哀、惧、惊、恶、赞六类。

进一步的，所取得情感强度的计算方法为E=∑(t1,t2,…,tk)；tk为每个情感特征词的情感强度。

进一步的，根据当前一段文字返回情感分类，其方法为：

a）通过scws分词工具得到一个分词后的结果数组，结果的属性包括（关键词、词性、tf、idf、权重），通过去杂、排重、过滤以后，与情感词库做匹配查找，将匹配到的结果对应的情感分类进行统计，每个分类统计出不同的情感分类以及所占有的比重，例如乐>赞>哀>惧>恶>惊，那么作为比较高的分类乐最接近真实分类，由此可以分析出一段文字的情感分类属性。

b）如果未能提取出情感特征词，说明此段文字情感倾向为中性，不具有明显的情感倾向。与现有技术相比，本发明的积极效果为：本发明通过对一段文字的情感特征词抽取和高效的过滤机制，降低了情感特征词匹配的时间复杂度，提高了运算效率。

附图说明

附图为本发明的方法流程图。

具体实施方式

下面对本发明的实施方式进行进一步的描述：

1.情感词典的建立，操作方法：

建立情感特征词典数组。本专利采用scws1.2.2专用词库，按按词性进行提取，可提取的词性为名词（n），动词（v），形容词（a），副词（d），成语（i），以及常用的网络词语进行抽取和标注，其中正面的词汇用正整数数[1-9]表示，用负数[-1--9]表示负面词汇，数值的绝对值越大，情感强度越强。

2.情感词的分类

目前常用的分类可以按情感色彩分类，分为乐、怒、哀、惧、惊，赞。也可以按情感极性分类，分为正、负两级，正面表示积极的情绪，负面表示消极的情绪。

表1：情感特征词典结构

特征词	分类	强度	极性
				开心	乐	5	正
难过	哀	5	负
				害怕	惧	6	负
惊奇	惊	5	负

可恨	恶	5	负
				优秀	赞	5	正

3.根据情感特征词建立查找索引（本文采用php结构语言）

通过建立一个以特征词为索引的二位数组存放内存当中，结构简单，减少存储空间，查询高效，并且可维护易于修改。

$word_dict=array(

‘开心’=>array(‘class’=>‘乐’,‘strong’=>5,‘polarity’=>1),

‘难过’=>array(‘class’=>‘哀’,‘strong’=>5,‘polarity’=>0),

‘害怕’=>array(‘class’=>‘惧’,‘strong’=>6，‘polarity’=>0),

‘惊奇’=>array(‘class’=>‘惊’,‘strong’=>5,‘polarity’=>0),

‘可恨’=>array(‘class’=>‘恶’,‘strong’=>5,‘polarity’=>0),

‘优秀’=>array(‘class’=>‘赞’,‘strong’=>5,‘polarity’=>1),

);

function search_word($word){

global$word_dict;

if(is_set($word_dict[$word]){

return$dict_word[$word];

}else{

return array();

}

4.对进行文本分析的文本预处理，进行二层过滤。

对一段文本处理，在分词之前要对特殊的字符以及数字做过滤处理；

在分词之后产生的结果，首先先按词性做过滤处理，过滤不相关的分词，其次要对其做去重处理，这样做的目的是避免重复多余的词汇产生干扰，提高查询速度；

5.对情感强度以及极性统计。

对一段文字的分词之后，通过正向查的方式查询情感特征词库的强度、分类以及极性。

A强度的计算：E=∑(t1,t2,…,tk)；tk为每个情感特征词的强度。

B分类的计算：对每个情感特征词的分类，分别统计每个分类出现的比例，比例最高的分类最接近这个分类属性。

C极性的计算：对每个情感特征词的极性，分别统计每个极性出现的比例，比例最高的极性最接近这个极性。

6.根据所有待处理文件内容的情感倾向，确定该指定时间范围内或该指定信息源的舆情信息。

Claims

1.一种基于文本情感倾向识别的舆情检测方法，其步骤为：

1）建立一情感特征词库，用于存储情感特征词语及其属性信息，所述属性信息包括：情感强度、类别和极性；

2）利用分词工具对指定时间范围内或指定信息源中的每一待处理文本内容进行分词，并对分词结果进行过滤、排重处理；

3）将处理后的分词与所述情感特征词库进行匹配，提取匹配的分词及其属性信息，得到一匹配分词集合；

4）根据所述匹配分词集合中的分词属性确定该待处理文本内容的情感倾向；

5）根据所有待处理文件内容的情感倾向，确定该指定时间范围内或该指定信息源的舆情信息。

2.如权利要求1所述的方法，其特征在于所述情感倾向包括该待处理文本内容的情感类别、情感强调和极性。

3.如权利要求2所述的方法，其特征在于对所述匹配分词集合中的分词按照分词的类别进行统计，将分词数目最多的类别作为该待处理文本内容的情感类别；对所述匹配分词集合中分词的情感强度进行求和，得到该待处理文本内容的情感强调；对所述匹配分词集合中的分词按照分词的极性进行统计，将分词数目最多的极性作为该待处理文本内容的极性。

4.如权利要求3所述的方法，其特征在于所述情感类别包括乐、哀、惧、惊、恶、赞六类；所述极性包括正面、负面；所述情感强度的取值区间为（1，9）。

5.如权利要求1～4任一所述的方法，其特征在于步骤2）之前先对待处理文本内容进行去杂处理，包括去除待处理文本内容中的url、email、数字、特殊符号、以及html标签。

6.如权利要求5所述的方法，其特征在于所述分词为具有词性标注的分词，根据词性对分词结果进行过滤，从词性为名词的分词中识别出设定的与情感特征词无关的单词。

7.如权利要求6所述的方法，其特征在于所述与情感特征词无关的单词包括：人名、地名、机构、时间词和代词。