CN110826317A

CN110826317A - 基于词典与规则的文本情感分析方法

Info

Publication number: CN110826317A
Application number: CN201911084093.XA
Authority: CN
Inventors: 彭光辉; 陶磊; 屈立笳; 苟溟
Original assignee: CHENGDU GOLDTEL INDUSTRY GROUP Co Ltd
Current assignee: CHENGDU GOLDTEL INDUSTRY GROUP Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-02-21

Abstract

本发明公开了一种基于词典与规则的文本情感分析方法，包括以下步骤：文本分割：将文本按符号进行切割，分成多个意群；意群预处理：对意群进行分词，结合情感词典获取情感关键词，并标注该情感关键词的权重；计算意群情感值：按照预定规则和情感关键词权重计算意群的情感值；计算文本情感值：对意群的情感值进行综合计算，得出文本的情感倾向值。基于本方法能够对文本的情感倾向进行分析，判断文本对一目标对象的支持倾向或反对倾向，便于后续的数据分析。

Description

基于词典与规则的文本情感分析方法

技术领域

本发明涉及文本数据分析领域，尤其涉及基于词典与规则的文本情感分析方法。

背景技术

在现实生活中真实发生的事件过程中，叙述者在新闻事件中表现出来的立场、态度和情感，能够表示出该新闻的主观性。对于新闻数据分析领域，往往需要提取新闻性的情感倾向，以便于进行分类，一般而言同一篇文章，对同一目标对象的情感是唯一的。因此急需一种针对文本的情感分析方法，提取文本的情感倾向。

发明内容

为了解决上述问题，本发明提出了一种基于词典与规则的文本情感分析方法，包括以下步骤：

文本分割：将文本按符号进行切割，分成多个意群；

意群预处理：对意群进行分词，结合情感词典获取情感关键词，并标注该情感关键词的权重；

计算意群情感值：按照预定规则和情感关键词权重计算意群的情感值；

计算文本情感值：对意群的情感值进行综合计算，得出文本的情感倾向值。

优选的，所述标注采用四元组对情感词汇进行标注，定义为：

sentimentword(name，polarity，pos，weight)

其中，name表示该词汇的名称，polarity表示极性，pos表示词性，weight代表该词的权重。优选的，所述情感词典包括正负面情感词典、转折归总词词典、程度词典或否定词词典中的一种或多种。

优选的，意群情感值计算规则为：

其中w为意群的情感值，p为正负面情感词汇的权重，N为正负面情感词汇数量。

优选的，意群情感值计算规则为：

其中w为意群的情感值，p为正负面情感词汇的权重，N为正负面情感词汇数量，m为修饰该正负面情感词的否定词的个数。

优选的，意群情感值计算规则为：

其中w为意群的情感值，p为正负面情感词汇的权重，N为正负面情感词汇数量，d表示修饰该正负面情感词汇的程度词的权重。

优选的，意群情感值计算规则为：

其中w为意群的情感值，p为正负面情感词汇的权重，N为正负面情感词汇数量，d表示修饰该正负面情感词汇的程度词的权重，α为根据否定词和程度词的前后位置关系预设的权重。优选的，当意群包含转折、归总词汇时，意群情感值计算规则为：

w＝1.2×w_ori

其中w为意群的情感值，w_ori为意群不包含转折、归总词汇时的意群的情感值。

优选的，所述文本分割将文本依次分割为段落、句子和意群，所述文本情感值按照以下规则计算：

其中，w为意群的情感值，s为该句子的情感值，P为段落的情感值，n为文本情感值，K为该句意群总数，M为该段落句子总数，Q为该篇章段落总数。

优选的，根据句子与文本标题的相似度，对句子情感值进行调整：

s＝β×s_ori

其中，s为该句子的最终情感值，β为相似度权重，s_ori为调整前的句子情感值。

本发明的有益效果在于：基于本方法能够对文本的情感倾向进行分析，判断文本对一目标对象的支持倾向或反对倾向，便于后续的数据分析。

附图说明

图1是本方法示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

如图1所示，本发明提出了一种基于词典与规则的文本情感分析方法，包括以下步骤：

文本分割：将文本按符号进行切割，分成多个意群；

以下实施例以新闻文体作为分析对象进行说明。

过对新闻文体的分析研究发现，对新闻情感分析起到关键作用的文本位置为:

标题：标题是新闻作者主观意志的直接表达，是文章主旨的高度浓缩，能够直接陈述新闻的概要。当标题含有明显的情感倾向时，它应该被赋予较高的权重，同时可以将其他语句与标题进行相似度计算，进而得到句子与新闻主旨的的相似性。与主旨越相似则就越接近文章作者的情感。

段首与段尾：段首与段尾是新闻作者的开篇与总结。通过观察研究，段首与段尾是表达作者情感的主观句最常出现的位置，而且新闻文本的结构是一种“倒金字塔”式的结构。

其他位置：对于其他位置的句子，如果与标题不相关，则按照普通方式进行情感倾向计算，不再附加额外权重。

在对文本进行分割时，可将文本Doc按照换行符“/r”或者“/n”切割成段落Para，再按照[“。”，“？”，“！”]将段落Para分为句子Sen，最后按照[“，”]将Sen切割为多个意群SenGroup。

对意群预处理时，具体地采用每个意群使用FudanNLP进行分词，合情感词典获取情感关键词，并标注该情感关键词的权重。所述标注采用四元组对情感词汇进行标注，定义为：

sentimentword(name，polarity，pos，weight)

其中，name表示该词汇的名称，polarity表示极性，pos表示词性，weight代表该词的权重。name和pos通过文本分词工具FudanNLP获取，polarity和weight则通过定义好的情感词典获取。

在本实施例中，所述情感词典包括正负面情感词典、转折归总词词典、程度词典或否定词词典中的一种或多种。本方法以HowNet为主体，合并中文负面情感词语和中文负面评价词语去重后构建负面基础情感词典，合并中文正面情感词语和中文正面评价词语去重后构建正面基础情感词典，以中文程度级别词语作为描述情感词的程度词语词典，考虑否定词、转折词和新闻中的各类归总词语，分别构建否定词典、转折归总词典。HowNet所包含的情感词汇有限，采用哈工大同义词词林和TW大学NTUSD简体中文版本进行去重、剔除歧义词汇之后，分别加入正/负面基础情感词典。

在程度词典构建中，不同级别的词语会产生不同级别的情感倾向。例如：这个人极其讨厌和这个人很讨厌，同样是对“讨厌”进行修饰，但是“极其”所表达的情感倾向比“很”更加强烈。针对这些能够对情感倾向产生巨大作用的词汇，借助HowNet提供的中文程度级别词语，构建了程度词语词典。HowNet对程度词语进行了级别分类，具体分为6个等级：最(most)、很(very)、较(more)、稍(ish)、欠(insufficiently)和超(over)。按照修饰程度的不同为这6个级别的程度词分别赋予不同的权重值，具体如下表所示：

级别	词语	权重
			最	非常、极度…	0.25
超	过于、何止…	0.20
			很	尤其、格外…	0.18
较	较为、进一步…	0.15
			稍	略微、稍…	0.12
欠	不大、相对…	0.10

否定词在文本分析中起到置反情感倾向的作用，所以在分析文本情感倾向时也应该将否定词作为重要的分析对象，在本实施例中，使用28个否定副词，这些词包括：不、没、无、非、莫、弗、勿、毋、未、否、别、無、休、不要、没有、未必、难以、未曾、不能等。由于否定词在进行情感判断时具有置反作用，所以将其权值设置为-1。

文本中会存在很多转折句型，在转折句型中往往会发生情感反转，将前一部分表达的情感弱化，从而突出转折之后的情感。同样，文本中可能也会包含对作者观点进行总结的归总类词汇，包含这类词汇的分句更能够表达作者的情感倾向，所以需要赋予更高的权重比例。在本实施例中，选择但、但是、却、然而、不过、只是、就是、总之、总而言之、总体来看、认为、觉得、总结、综上所述等作为转折归总词汇。

情感词典的构建可以把情感词语从句子中孤立出来，但是如果孤立地看待这些词语，并不能正确地反映新闻的情感倾向。为了提高分析的准确度，必须将上下文的联系考虑进来。因此，在词语情感计算的基础上，应该考虑上下文中能够改变词语情感倾向或者情感强度的语义规则信息。在本实施例中，结合新闻文体的特点，综合情感词典、情感句位置、标题等元素定义了多种语义规则用于情感句的倾向性计算。与情感表达有关的规则有如下几种：

规则1：只包含情感词汇而不包含其他修饰词汇的意群，例如:今天心情不错。例子当中只包含“不错”一个情感词，该类别的意群情感值计算规则为：

规则2：包含否定修饰词意群，例如:今天我不高兴！例子中存在否定词“不”来修饰情感词“高兴”，那么句子的倾向性发生了反转，由正面变成了负面。该类别的意群情感值计算规则为：

规则3：包含程度修饰词的意群，例如:今天我很高兴！例子中存在“很”这样一个程度词来修饰“高兴”，那么本来的意群情感倾向在经过修饰后得到了明显的加强。该类别的意群情感值计算规则为：

规则4：包含否定词、程度词和情感词汇的意群情感值计算规则为：

其中w为意群的情感值，p为正负面情感词汇的权重，N为正负面情感词汇数量，d表示修饰该正负面情感词汇的程度词的权重，α为根据否定词和程度词的前后位置关系预设的权重。其中否定词位于程度词之前，例如:今天我不是很高兴。这种句型当中，否定词将程度词的情感程度有所弱化，α可取0.8；中否定词位于程度词之后，例如：今天我很不高兴。这种句型当中，否定词将程度词的情感倾向明显加强，α可取1.2。

规则5：当意群包含转折、归总词汇时，其情感值计算的权重要增强，意群情感值计算规则为：

w＝1.2×w_ori

根据上述规则可以计算出每个句子的意群情感倾向值，由此可以计算句子、段落以及篇章的最终情感值所述文本情感值按照以下规则计算：

其中，通过规则对意群加权得到句子的情感值之后需要再次计算该句子与标题的文本相似度，具体地，采用SimHash算法进行相似度计算，生成标题和要对比句子的Hash值，再通过计算两个Hash值的海明距离判断相似度，根据句子与文本标题的相似度，对句子情感值进行调整：

s＝β×s_ori

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。