CN111985223A

CN111985223A - 一种基于长短记忆网络和情感词典结合的情感计算方法

Info

Publication number: CN111985223A
Application number: CN202010863965.9A
Authority: CN
Inventors: 金勇�; 胡林利; 陈宏明
Original assignee: WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD
Current assignee: WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-11-24

Abstract

本发明涉及信息技术技术领域，具体为一种基于长短记忆网络和情感词典结合的情感计算方法，包括(一)情感文本识别。针对所有文本进行统一识别过滤，通过情感词方法进行过滤，不含任何情感词和主观色彩的词语默认为非情感文本，不进行情感分析。(二)基于情感词典的短文本情感计算方法。(三)基于长短记忆网络LSTM的长文本情感计算方法。本发明包括情感词计算方法，针对段文本根据情感词典对应的情感词、程度词、以及否定词，对文本的情感得分进行综合计算，然后根据最后的得分正负判别文本情感的正负；长短记忆网络学习方法，根据已标注好的正负情感样本进行基于字符级别的长短记忆网络训练，从而提高针对长文本的情感分类泛化性能。

Description

一种基于长短记忆网络和情感词典结合的情感计算方法

技术领域

本发明涉及信息技术技术领域，具体为一种基于长短记忆网络和情感词典结合的情感计算方法。

背景技术

随着互联网相关技术的发展，新闻、微博、论坛、微信、博客、电子报等不同数据源产生了大量的UGC数据，这使得社会情绪的认知计算展现了较大的商业价值和学术价值。情绪认知计算是人们对产品、服务、组织、问题、话题及其属性的观点、情感、评价和态度的计算研究。情绪认知分析早在2000年就成为自然语言处理(NLP)中最活跃的研究领域之一，在数据挖掘、Web挖掘、文本挖掘和信息检索方面得到了广泛的关注和应用。

目前产生了大量的情感分析相关技术，包括监督、无监督方法。在监督方法中，传统机器学习方法如贝叶斯方法、支持向量机、最大熵、统计语言模型等都产生了一定的效果。无监督方法包括使用情感词典、特征分析、句法分析和语法结构分等不同方法。相比较于英文情感计算，中文情感认知计算有一定的复杂性，因为英文的情感词典资源已经相对丰富完善，如SentiWordNet，里面包含积极消极、主观客观、情感强度值等完备数据，而中文情感词典资源相对缺乏，质量不高，而且缺乏主观客观数据。并且中文的分词存在一定的歧义。近年来，深度学习在自然语言处理和文本序列处理方面取得了不错的成绩，在情感认知计算领域中也发挥了很大的作用。为此，我们提出一种基于长短记忆网络和情感词典结合的情感计算方法。

发明内容

本发明的目的在于提供一种基于长短记忆网络和情感词典结合的情感计算方法，将情感词典与长短记忆网络相结合，针对长文本和短文本分别处理，以实现不同长度文本的情感分析目的，解决了现有技术中情感分类计算准确性差的问题。

为实现上述目的，本发明提供如下技术方案：一种基于长短记忆网络和情感词典结合的情感计算方法，包括如下步骤：

S1、识别文本中是否包含情感字典的任何一个词，包含则判定为情感文本，进入到后面的情感分析中去；反之则判定为非情感文本，不进行情感分析；

S2、设定一个长度界限值，识别文本是否低于长度界限值，当情感文本的长度低于长度界限值时判定为短文本，否则判定为长文本；读取情感短文本数据，查找情感词、程度词、否定词和感叹号，对其评分后，将情感短文本分为正面、中立和负面三种类型；

S3、当情感文本为长文本时，统计所有文本的长度，取最长文本值作为训练数据统一长度，对于其他文本用0补齐至最长文本值，使得所有文本句子的长度统一，将处理好的数据接入到LSTM模型的输入层，每个词语经过嵌入层后得到一个100维的文字嵌入向量，并将其输入到LSTM层，经过一层LSTM层得到输出结果，再经过softmax层得到基于正面、中立和负面的概率预测。

优选的，所述步骤S2采用基于情感字典的情感计算方法，具体步骤如下：

(1)读取情感短文本数据，对评论进行分句；

(2)查找对分句的情感词，记录积极还是消极，以及情感词在分句中的位置；

(3)从情感词向前查找程度词，找到就停止搜寻，为程度词设权值，并乘以情感值；

(4)从情感词向前查找否定词，找完全部否定词，若数量为奇数，乘以-1，以改变情感极性，偶数则乘以1，情感极性不变；

(5)判断分句结尾是否有感叹号，有感叹号则往前寻找是否有情感词，有则相应的情感值+2；

(6)计算完一条评论所有分句的情感值，用数组记录起来；

(7)计算并记录所有评论的情感值；

(8)通过分句计算每条评论的积极情感均值，消极情感均值，积极情感方差，消极情感方差；其中不同程度的情感词前面的程度词是不同权重的；

(9)综合情感得分大于1分的赋予情感正面类别，介于-1到1之间为中立，小于-1的赋予情感负面类别。

优选的，所述步骤S3中取最长文本值，将其作为训练数据统一长度后还需加载情感词典,形成情感词索引；对每条文本进行分词，去除非法字符或者停用词。

优选的，所述步骤S3中采用交叉熵作为模型的损失函数进行训练，最终保存模型。

与现有技术相比，本发明的有益效果是：包括两个模块：(1)情感词计算方法，针对段文本根据情感词典对应的情感词、程度词、以及否定词，对文本的情感得分进行综合计算，然后根据最后的得分正负判别文本情感的正负；(2)长短记忆网络学习方法，根据已标注好的正负情感样本进行基于字符级别的长短记忆网络训练，从而提高针对长文本的情感分类泛化性能。通过将情感词典与长短记忆网络相结合在一起，针对长文本和短文本分别处理，以实现不同长度文本的情感分析目的。提升了情感分类计算的准确性。

附图说明

图1为本发明情感分析流程图。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种基于长短记忆网络和情感词典结合的情感计算方法，包括以下内容：

(一)情感文本识别。针对所有文本进行统一识别过滤，通过情感词方法进行过滤，不含任何情感词和主观色彩的词语默认为非情感文本，不进行情感分析。

(二)基于情感词典的短文本情感计算方法。

(三)基于长短记忆网络LSTM的长文本情感计算方法。

1.情感文本识别

根据情感字典，只要文本包含情感字典的任何一个词，都判定为情感文本，会进入到后面的情感分析中去；反之则判定为非情感文本，不进行情感分析。

2.基于情感词典的短文本情感计算方法

针对情感文本长度小于10个字的文本(可以根据实际应用情况对文本长度的判定另行约定)，判定为短文本。采用如下基于情感字典的情感计算方法：

(1)读取情感短文本数据，对评论进行分句(以‘。’进行分句)。

(2)查找对分句的情感词，记录积极还是消极，以及位置。

(3)从情感词向前查找程度词，找到就停止搜寻。为程度词设权值，乘以情感值。

(4)从情感词向前查找否定词，找完全部否定词，若数量为奇数，乘以-1(改变情感极性)，反之偶数则乘以1(情感极性不变)。

(5)判断分句结尾是否有感叹号，有叹号则往前寻找情感词，有则相应的情感值+2。

(6)计算完一条评论所有分句的情感值，用数组(list)记录起来。

(7)计算并记录所有评论的情感值。

(8)通过分句计算每条评论的积极情感均值，消极情感均值，积极情感方差，消极情感方差。其中不同程度的情感词前面的程度词是不同权重的。

3.基于深度学习LSTM模型长文本情感分析方法

针对情感文本长度超过10个字的文本，判定为长文本。采用如下基于深度学习LSTM网络的情感分析方法：

(1)统计所有文本的长度，取最长文本值，将其作为我们训练数据统一长度(根据选取语料，取最长值65)。

(2)加载情感词典(其中包含4万多个情感词)，并形成情感词索引；对每条文本进行分词，去除非法字符或者停用词。

(3)将每条文本分词后的词语根据情感词典中的索引进行表示，如sentence：2，5，83，76，98，112，对于长度不够75的，用0进行补齐，使得所有文本句子的长度统一为65(之前统计的文本最长长度)。

(4)将上述处理好的数据接入到模型的输入层，每个词语经过embedding层后得到一个100维的word embedding向量。

(5)将得到的word embedding向量输入到LSTM layer，经过一层LSTM layer得到的output。

(6)将得到的output经过softmax layer得到基于正面、中立、和负面的概率预测。

(7)采用交叉熵作为模型的损失函数进行训练，最终保存模型。

本发明将该情感分类系统用于针对酒店评论以及外卖评论语料共约五万条数据进行计算分析。其中非情感文本占比约13％，短文本占比21％(主要来自于微博和贴吧)，长文本占比79％。

其中，完全采用情感词典的方法，识别的平均准确率为72％以上；完全利用LSTM机器学习的方法，识别的平均准确率为81％以上。而利用结合情感词典与机器学习相结合的方法得到的情感分类识别准确率达86％以上，比前述单一方法的效果更优。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于长短记忆网络和情感词典结合的情感计算方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于长短记忆网络和情感词典结合的情感计算方法，其特征在于：所述步骤S2采用基于情感字典的情感计算方法，具体步骤如下：

(1)读取情感短文本数据，对评论进行分句；

(6)计算完一条评论所有分句的情感值，用数组记录起来；

(7)计算并记录所有评论的情感值；

3.根据权利要求1所述的一种基于长短记忆网络和情感词典结合的情感计算方法，其特征在于：所述步骤S3中取最长文本值，将其作为训练数据统一长度后还需加载情感词典,形成情感词索引；对每条文本进行分词，去除非法字符或者停用词。

4.根据权利要求1所述的一种基于长短记忆网络和情感词典结合的情感计算方法，其特征在于：所述步骤S3中采用交叉熵作为模型的损失函数进行训练，最终保存模型。