CN111985223A - 一种基于长短记忆网络和情感词典结合的情感计算方法 - Google Patents

一种基于长短记忆网络和情感词典结合的情感计算方法 Download PDF

Info

Publication number
CN111985223A
CN111985223A CN202010863965.9A CN202010863965A CN111985223A CN 111985223 A CN111985223 A CN 111985223A CN 202010863965 A CN202010863965 A CN 202010863965A CN 111985223 A CN111985223 A CN 111985223A
Authority
CN
China
Prior art keywords
emotion
text
words
negative
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010863965.9A
Other languages
English (en)
Inventor
金勇�
胡林利
陈宏明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD
Original Assignee
WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD filed Critical WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD
Priority to CN202010863965.9A priority Critical patent/CN111985223A/zh
Publication of CN111985223A publication Critical patent/CN111985223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及信息技术技术领域,具体为一种基于长短记忆网络和情感词典结合的情感计算方法,包括(一)情感文本识别。针对所有文本进行统一识别过滤,通过情感词方法进行过滤,不含任何情感词和主观色彩的词语默认为非情感文本,不进行情感分析。(二)基于情感词典的短文本情感计算方法。(三)基于长短记忆网络LSTM的长文本情感计算方法。本发明包括情感词计算方法,针对段文本根据情感词典对应的情感词、程度词、以及否定词,对文本的情感得分进行综合计算,然后根据最后的得分正负判别文本情感的正负;长短记忆网络学习方法,根据已标注好的正负情感样本进行基于字符级别的长短记忆网络训练,从而提高针对长文本的情感分类泛化性能。

Description

一种基于长短记忆网络和情感词典结合的情感计算方法
技术领域
本发明涉及信息技术技术领域,具体为一种基于长短记忆网络和情感词典结合的情感计算方法。
背景技术
随着互联网相关技术的发展,新闻、微博、论坛、微信、博客、电子报等不同数据源产生了大量的UGC数据,这使得社会情绪的认知计算展现了较大的商业价值和学术价值。情绪认知计算是人们对产品、服务、组织、问题、话题及其属性的观点、情感、评价和态度的计算研究。情绪认知分析早在2000年就成为自然语言处理(NLP)中最活跃的研究领域之一,在数据挖掘、Web挖掘、文本挖掘和信息检索方面得到了广泛的关注和应用。
目前产生了大量的情感分析相关技术,包括监督、无监督方法。在监督方法中,传统机器学习方法如贝叶斯方法、支持向量机、最大熵、统计语言模型等都产生了一定的效果。无监督方法包括使用情感词典、特征分析、句法分析和语法结构分等不同方法。相比较于英文情感计算,中文情感认知计算有一定的复杂性,因为英文的情感词典资源已经相对丰富完善,如SentiWordNet,里面包含积极消极、主观客观、情感强度值等完备数据,而中文情感词典资源相对缺乏,质量不高,而且缺乏主观客观数据。并且中文的分词存在一定的歧义。近年来,深度学习在自然语言处理和文本序列处理方面取得了不错的成绩,在情感认知计算领域中也发挥了很大的作用。为此,我们提出一种基于长短记忆网络和情感词典结合的情感计算方法。
发明内容
本发明的目的在于提供一种基于长短记忆网络和情感词典结合的情感计算方法,将情感词典与长短记忆网络相结合,针对长文本和短文本分别处理,以实现不同长度文本的情感分析目的,解决了现有技术中情感分类计算准确性差的问题。
为实现上述目的,本发明提供如下技术方案:一种基于长短记忆网络和情感词典结合的情感计算方法,包括如下步骤:
S1、识别文本中是否包含情感字典的任何一个词,包含则判定为情感文本,进入到后面的情感分析中去;反之则判定为非情感文本,不进行情感分析;
S2、设定一个长度界限值,识别文本是否低于长度界限值,当情感文本的长度低于长度界限值时判定为短文本,否则判定为长文本;读取情感短文本数据,查找情感词、程度词、否定词和感叹号,对其评分后,将情感短文本分为正面、中立和负面三种类型;
S3、当情感文本为长文本时,统计所有文本的长度,取最长文本值作为训练数据统一长度,对于其他文本用0补齐至最长文本值,使得所有文本句子的长度统一,将处理好的数据接入到LSTM模型的输入层,每个词语经过嵌入层后得到一个100维的文字嵌入向量,并将其输入到LSTM层,经过一层LSTM层得到输出结果,再经过softmax层得到基于正面、中立和负面的概率预测。
优选的,所述步骤S2采用基于情感字典的情感计算方法,具体步骤如下:
(1)读取情感短文本数据,对评论进行分句;
(2)查找对分句的情感词,记录积极还是消极,以及情感词在分句中的位置;
(3)从情感词向前查找程度词,找到就停止搜寻,为程度词设权值,并乘以情感值;
(4)从情感词向前查找否定词,找完全部否定词,若数量为奇数,乘以-1,以改变情感极性,偶数则乘以1,情感极性不变;
(5)判断分句结尾是否有感叹号,有感叹号则往前寻找是否有情感词,有则相应的情感值+2;
(6)计算完一条评论所有分句的情感值,用数组记录起来;
(7)计算并记录所有评论的情感值;
(8)通过分句计算每条评论的积极情感均值,消极情感均值,积极情感方差,消极情感方差;其中不同程度的情感词前面的程度词是不同权重的;
(9)综合情感得分大于1分的赋予情感正面类别,介于-1到1之间为中立,小于-1的赋予情感负面类别。
优选的,所述步骤S3中取最长文本值,将其作为训练数据统一长度后还需加载情感词典,形成情感词索引;对每条文本进行分词,去除非法字符或者停用词。
优选的,所述步骤S3中采用交叉熵作为模型的损失函数进行训练,最终保存模型。
与现有技术相比,本发明的有益效果是:包括两个模块:(1)情感词计算方法,针对段文本根据情感词典对应的情感词、程度词、以及否定词,对文本的情感得分进行综合计算,然后根据最后的得分正负判别文本情感的正负;(2)长短记忆网络学习方法,根据已标注好的正负情感样本进行基于字符级别的长短记忆网络训练,从而提高针对长文本的情感分类泛化性能。通过将情感词典与长短记忆网络相结合在一起,针对长文本和短文本分别处理,以实现不同长度文本的情感分析目的。提升了情感分类计算的准确性。
附图说明
图1为本发明情感分析流程图。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种基于长短记忆网络和情感词典结合的情感计算方法,包括以下内容:
(一)情感文本识别。针对所有文本进行统一识别过滤,通过情感词方法进行过滤,不含任何情感词和主观色彩的词语默认为非情感文本,不进行情感分析。
(二)基于情感词典的短文本情感计算方法。
(三)基于长短记忆网络LSTM的长文本情感计算方法。
1.情感文本识别
根据情感字典,只要文本包含情感字典的任何一个词,都判定为情感文本,会进入到后面的情感分析中去;反之则判定为非情感文本,不进行情感分析。
2.基于情感词典的短文本情感计算方法
针对情感文本长度小于10个字的文本(可以根据实际应用情况对文本长度的判定另行约定),判定为短文本。采用如下基于情感字典的情感计算方法:
(1)读取情感短文本数据,对评论进行分句(以‘。’进行分句)。
(2)查找对分句的情感词,记录积极还是消极,以及位置。
(3)从情感词向前查找程度词,找到就停止搜寻。为程度词设权值,乘以情感值。
(4)从情感词向前查找否定词,找完全部否定词,若数量为奇数,乘以-1(改变情感极性),反之偶数则乘以1(情感极性不变)。
(5)判断分句结尾是否有感叹号,有叹号则往前寻找情感词,有则相应的情感值+2。
(6)计算完一条评论所有分句的情感值,用数组(list)记录起来。
(7)计算并记录所有评论的情感值。
(8)通过分句计算每条评论的积极情感均值,消极情感均值,积极情感方差,消极情感方差。其中不同程度的情感词前面的程度词是不同权重的。
(9)综合情感得分大于1分的赋予情感正面类别,介于-1到1之间为中立,小于-1的赋予情感负面类别。
3.基于深度学习LSTM模型长文本情感分析方法
针对情感文本长度超过10个字的文本,判定为长文本。采用如下基于深度学习LSTM网络的情感分析方法:
(1)统计所有文本的长度,取最长文本值,将其作为我们训练数据统一长度(根据选取语料,取最长值65)。
(2)加载情感词典(其中包含4万多个情感词),并形成情感词索引;对每条文本进行分词,去除非法字符或者停用词。
(3)将每条文本分词后的词语根据情感词典中的索引进行表示,如sentence:2,5,83,76,98,112,对于长度不够75的,用0进行补齐,使得所有文本句子的长度统一为65(之前统计的文本最长长度)。
(4)将上述处理好的数据接入到模型的输入层,每个词语经过embedding层后得到一个100维的word embedding向量。
(5)将得到的word embedding向量输入到LSTM layer,经过一层LSTM layer得到的output。
(6)将得到的output经过softmax layer得到基于正面、中立、和负面的概率预测。
(7)采用交叉熵作为模型的损失函数进行训练,最终保存模型。
本发明将该情感分类系统用于针对酒店评论以及外卖评论语料共约五万条数据进行计算分析。其中非情感文本占比约13%,短文本占比21%(主要来自于微博和贴吧),长文本占比79%。
其中,完全采用情感词典的方法,识别的平均准确率为72%以上;完全利用LSTM机器学习的方法,识别的平均准确率为81%以上。而利用结合情感词典与机器学习相结合的方法得到的情感分类识别准确率达86%以上,比前述单一方法的效果更优。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种基于长短记忆网络和情感词典结合的情感计算方法,其特征在于:包括如下步骤:
S1、识别文本中是否包含情感字典的任何一个词,包含则判定为情感文本,进入到后面的情感分析中去;反之则判定为非情感文本,不进行情感分析;
S2、设定一个长度界限值,识别文本是否低于长度界限值,当情感文本的长度低于长度界限值时判定为短文本,否则判定为长文本;读取情感短文本数据,查找情感词、程度词、否定词和感叹号,对其评分后,将情感短文本分为正面、中立和负面三种类型;
S3、当情感文本为长文本时,统计所有文本的长度,取最长文本值作为训练数据统一长度,对于其他文本用0补齐至最长文本值,使得所有文本句子的长度统一,将处理好的数据接入到LSTM模型的输入层,每个词语经过嵌入层后得到一个100维的文字嵌入向量,并将其输入到LSTM层,经过一层LSTM层得到输出结果,再经过softmax层得到基于正面、中立和负面的概率预测。
2.根据权利要求1所述的一种基于长短记忆网络和情感词典结合的情感计算方法,其特征在于:所述步骤S2采用基于情感字典的情感计算方法,具体步骤如下:
(1)读取情感短文本数据,对评论进行分句;
(2)查找对分句的情感词,记录积极还是消极,以及情感词在分句中的位置;
(3)从情感词向前查找程度词,找到就停止搜寻,为程度词设权值,并乘以情感值;
(4)从情感词向前查找否定词,找完全部否定词,若数量为奇数,乘以-1,以改变情感极性,偶数则乘以1,情感极性不变;
(5)判断分句结尾是否有感叹号,有感叹号则往前寻找是否有情感词,有则相应的情感值+2;
(6)计算完一条评论所有分句的情感值,用数组记录起来;
(7)计算并记录所有评论的情感值;
(8)通过分句计算每条评论的积极情感均值,消极情感均值,积极情感方差,消极情感方差;其中不同程度的情感词前面的程度词是不同权重的;
(9)综合情感得分大于1分的赋予情感正面类别,介于-1到1之间为中立,小于-1的赋予情感负面类别。
3.根据权利要求1所述的一种基于长短记忆网络和情感词典结合的情感计算方法,其特征在于:所述步骤S3中取最长文本值,将其作为训练数据统一长度后还需加载情感词典,形成情感词索引;对每条文本进行分词,去除非法字符或者停用词。
4.根据权利要求1所述的一种基于长短记忆网络和情感词典结合的情感计算方法,其特征在于:所述步骤S3中采用交叉熵作为模型的损失函数进行训练,最终保存模型。
CN202010863965.9A 2020-08-25 2020-08-25 一种基于长短记忆网络和情感词典结合的情感计算方法 Pending CN111985223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010863965.9A CN111985223A (zh) 2020-08-25 2020-08-25 一种基于长短记忆网络和情感词典结合的情感计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010863965.9A CN111985223A (zh) 2020-08-25 2020-08-25 一种基于长短记忆网络和情感词典结合的情感计算方法

Publications (1)

Publication Number Publication Date
CN111985223A true CN111985223A (zh) 2020-11-24

Family

ID=73443326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010863965.9A Pending CN111985223A (zh) 2020-08-25 2020-08-25 一种基于长短记忆网络和情感词典结合的情感计算方法

Country Status (1)

Country Link
CN (1) CN111985223A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711941A (zh) * 2021-01-08 2021-04-27 浪潮云信息技术股份公司 一种基于情感词典实体的情感得分的分析处理方法
CN113255368A (zh) * 2021-06-07 2021-08-13 中国平安人寿保险股份有限公司 针对文本数据进行情感分析的方法、装置及相关设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN108536681A (zh) * 2018-04-16 2018-09-14 腾讯科技(深圳)有限公司 基于情感分析的智能问答方法、装置、设备及存储介质
CN108932227A (zh) * 2018-06-05 2018-12-04 天津大学 一种基于句子结构及上下文的短文本情感值计算方法
CN109858026A (zh) * 2019-01-17 2019-06-07 深圳壹账通智能科技有限公司 文本情感分析方法、装置、计算机设备及存储介质
CN110399484A (zh) * 2019-06-25 2019-11-01 平安科技(深圳)有限公司 长文本的情感分析方法、装置、计算机设备和存储介质
CN110909529A (zh) * 2019-11-27 2020-03-24 国网能源研究院有限公司 一种公司形象提升系统的用户情感分析和预判系统
CN111522913A (zh) * 2020-04-16 2020-08-11 山东贝赛信息科技有限公司 一种适用于长文本和短文本的情感分类方法
CN111538828A (zh) * 2020-04-21 2020-08-14 招商局金融科技有限公司 文本情感分析方法、装置、计算机装置及可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN108536681A (zh) * 2018-04-16 2018-09-14 腾讯科技(深圳)有限公司 基于情感分析的智能问答方法、装置、设备及存储介质
CN108932227A (zh) * 2018-06-05 2018-12-04 天津大学 一种基于句子结构及上下文的短文本情感值计算方法
CN109858026A (zh) * 2019-01-17 2019-06-07 深圳壹账通智能科技有限公司 文本情感分析方法、装置、计算机设备及存储介质
CN110399484A (zh) * 2019-06-25 2019-11-01 平安科技(深圳)有限公司 长文本的情感分析方法、装置、计算机设备和存储介质
CN110909529A (zh) * 2019-11-27 2020-03-24 国网能源研究院有限公司 一种公司形象提升系统的用户情感分析和预判系统
CN111522913A (zh) * 2020-04-16 2020-08-11 山东贝赛信息科技有限公司 一种适用于长文本和短文本的情感分类方法
CN111538828A (zh) * 2020-04-21 2020-08-14 招商局金融科技有限公司 文本情感分析方法、装置、计算机装置及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
於雯等: "基于LSTM的商品评论情感分析", 《计算机系统应用》, vol. 27, no. 8, pages 159 - 163 *
王欢欢: "网络评论文本的情感倾向性研究", 《中国优秀硕士论文全文数据库 信息科技辑》, no. 6, pages 138 - 1237 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711941A (zh) * 2021-01-08 2021-04-27 浪潮云信息技术股份公司 一种基于情感词典实体的情感得分的分析处理方法
CN113255368A (zh) * 2021-06-07 2021-08-13 中国平安人寿保险股份有限公司 针对文本数据进行情感分析的方法、装置及相关设备

Similar Documents

Publication Publication Date Title
Xiong et al. Sarcasm detection with self-matching networks and low-rank bilinear pooling
CN111767741B (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
Sahu et al. Sentiment analysis of movie reviews: A study on feature selection & classification algorithms
CN107229610A (zh) 一种情感数据的分析方法及装置
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN110851593A (zh) 一种基于位置与语义的复值词向量构建方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN111985223A (zh) 一种基于长短记忆网络和情感词典结合的情感计算方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN110399603A (zh) 一种基于意群划分的文本处理技术方法和系统
CN111460146A (zh) 一种基于多特征融合的短文本分类方法及系统
CN114398900A (zh) 一种基于RoBERTa模型的长文本语义相似度计算方法
CN113806528A (zh) 一种基于bert模型的话题检测方法、设备及存储介质
CN113221531A (zh) 一种多模型动态协同的语义匹配方法
Saifullah et al. Cyberbullying Text Identification based on Deep Learning and Transformer-based Language Models
Zhu et al. YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text.
Egorova et al. Emotion analysis based on incremental online learning in social networks
Mulki et al. Empirical evaluation of leveraging named entities for Arabic sentiment analysis
Saqib et al. Grouping of aspects into relevant category based on wordnet definitions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination