CN111191438B - 一种情感分析方法、装置和电子设备 - Google Patents

一种情感分析方法、装置和电子设备 Download PDF

Info

Publication number
CN111191438B
CN111191438B CN201911397843.9A CN201911397843A CN111191438B CN 111191438 B CN111191438 B CN 111191438B CN 201911397843 A CN201911397843 A CN 201911397843A CN 111191438 B CN111191438 B CN 111191438B
Authority
CN
China
Prior art keywords
analyzed
emotion
main body
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911397843.9A
Other languages
English (en)
Other versions
CN111191438A (zh
Inventor
苏萌
左云鹏
高体伟
苏海波
刘译璟
王勋
孙伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Percent Technology Group Co ltd
Original Assignee
Beijing Percent Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Percent Technology Group Co ltd filed Critical Beijing Percent Technology Group Co ltd
Priority to CN201911397843.9A priority Critical patent/CN111191438B/zh
Publication of CN111191438A publication Critical patent/CN111191438A/zh
Application granted granted Critical
Publication of CN111191438B publication Critical patent/CN111191438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种情感分析方法、装置和电子设备,方法包括:确定待分析文本中的待分析句子;基于预设主体信息库,对每个待分析句子进行主体匹配,预设主体信息库中包含多个主体信息;当待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定待分析句子中的每个词对目标主体的加权系数,主体情感自注意力机制结合依存文法建模形成;确定待分析句子中的情感词以及情感词的极性;利用情感词、情感词的极性以及加权系数,确定待分析句子对于目标主体的情感值;合并待分析文本中所有匹配到目标主体的待分析句子的情感值,确定待分析文本对于目标主体的情感值。通过本发明,能够准确地确定文本中的目标主体的情感倾向。

Description

一种情感分析方法、装置和电子设备
技术领域
本发明涉及人工智能领域,尤其涉及一种情感分析方法、装置和电子设备。
背景技术
近年来,随着互联网的蓬勃发展,人们通过互联网产生的信息正在以指数级爆炸增长。用户每天都会通过互联网,特别是社交媒体网络(如微博、微信公众号、评论性新闻等),产生海量的对人物、事件、产品、公司等带有情感信息的数据。
现有的情感分析方法主要是针对篇章、段落和句子级别的文本进行整体的情感倾向挖掘。这种层级的情感分析任务往往会因为情感粒度过粗,缺乏与情感主体的相关性建模,导致分析结果不准且相关度不高。例如,针对“A手机比B手机好用”,整体句子级别的情感为正面情感,但具体到B手机的主体上,实际表达出的情感为负面情感,此时情感倾向的分析不够准确。
发明内容
本发明实施例提供一种情感分析方法、装置和电子设备,能够准确地确定文本中的主体的情感倾向。
为了解决上述技术问题,本发明是这样实现的:
第一方面,提供了一种情感分析方法,该方法包括:
确定待分析文本中的待分析句子;
基于预设主体信息库,对每个所述待分析句子进行主体匹配,所述预设主体信息库中包含多个主体信息;
当所述待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定所述待分析句子中的每个词对所述目标主体的加权系数,所述主体情感自注意力机制结合依存文法建模形成;
确定所述待分析句子中的情感词以及情感词的极性;
利用所述情感词、所述情感词的极性以及所述加权系数,确定所述待分析句子对于所述目标主体的情感值;
合并所述待分析文本中所有匹配到所述目标主体的待分析句子的情感值,确定所述待分析文本对于所述目标主体的情感值。
第二方面,提供了一种情感分析装置,该情感分析装置包括:
句子确定模块,用于确定待分析文本中的待分析句子;
主体匹配模块,用于基于预设主体信息库,对每个所述待分析句子进行主体匹配,所述预设主体信息库中包含多个主体信息;
加权系数确定模块,用于当所述待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定所述待分析句子中的每个词对所述目标主体的加权系数,所述主体情感自注意力机制结合依存文法建模形成;
情感词确定模块,用于确定所述待分析句子中的情感词以及情感词的极性;
句子主体情感确定模块,用于利用所述情感词、所述情感词的极性以及所述加权系数,确定所述待分析句子对于所述目标主体的情感值;
文本主体情感确定模块,用于合并所述待分析文本中所有匹配到所述目标主体的待分析句子的情感值,确定所述待分析文本对于所述目标主体的情感值。
第三方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
所述处理器被配置为:
确定待分析文本中的待分析句子;
基于预设主体信息库,对每个所述待分析句子进行主体匹配,所述预设主体信息库中包含多个主体信息;
当所述待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定所述待分析句子中的每个词对所述目标主体的加权系数,所述主体情感自注意力机制结合依存文法建模形成;
确定所述待分析句子中的情感词以及情感词的极性;
利用所述情感词、所述情感词的极性以及所述加权系数,确定所述待分析句子对于所述目标主体的情感值;
合并所述待分析文本中所有匹配到所述目标主体的待分析句子的情感值,确定所述待分析文本对于所述目标主体的情感值。
在本发明实施例中,当待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定待分析句子中的每个词对目标主体的加权系数,且所述主体情感自注意力机制进一步结合依存文法建模形成,另外,能够利用加权系数确定待分析句子中的情感词对于目标主体的情感值,之后,根据所有待分析句子的情感值确定待分析文本对于目标主体的情感值,进而能够精确地确定目标主体与描述词之间的关系,准确地确定待分析文本对于目标主体的情感倾向。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的一个实施例提供的情感分析方法的流程示意图;
图2是本发明提供的一种主体知识图谱的示意图;
图3是本发明的另一个实施例提供的情感分析方法的流程示意图;
图4a是本发明的一个主体情感自注意力机制的示意图;
图4b是本发明的一个确定加权系数的示意图;
图5是本发明的一个实施例提供的情感分析装置的结构示意图;
图6是本发明的另一个实施例提供的情感分析装置的结构示意图;
图7是根据一示例性实施例示出的一种情感分析的电子设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明的一个实施例提供的情感分析方法的流程示意图;如图1所示,情感分析方法可以包括以下步骤:
S102、确定待分析文本中的待分析句子。
S104、基于预设主体信息库,对每个待分析句子进行主体匹配,预设主体信息库中包含多个主体信息。
S106、当待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定待分析句子中的每个词对目标主体的加权系数,所述主体情感自注意力机制进一步结合依存文法建模形成。
S108、确定待分析句子中的情感词以及情感词的极性。
S110、利用情感词、情感词的极性以及加权系数,确定待分析句子对于目标主体的情感值。
S112、合并待分析文本中所有匹配到目标主体的待分析句子的情感值,确定待分析文本对于目标主体的情感值。
需要说明的是,在实际应用中,上述S108在S102之后且在S110之前执行即可,本发明不限定S108相对于S104、S106执行顺序。
本发明实施例提供的情感分析方法,当待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定待分析句子中的每个词对目标主体的加权系数,且所述主体情感自注意力机制进一步结合依存文法建模形成,另外,能够利用加权系数确定待分析句子中的情感词对于目标主体的情感值,之后,根据所有待分析句子的情感值确定待分析文本对于目标主体的情感值,进而能够精确地确定目标主体与描述词之间的关系,准确地确定待分析文本对于目标主体的情感倾向。
具体的,每个主体信息中包括主体名称、以及竞品、主体别名、主体下位词、主体标签与主体类别中的至少一项。这样,可以精准定义主体,增加了主体匹配的精度与召回,便于更未准确地确定主体的情感倾向。
具体的,预设主体信息库可以为主体知识图谱。图2是本发明提供的一种主体知识图谱的示意图,图2中以知识图谱的方式记录主体以及与主体相关的主体别名、主体下位词、主体竞品等。
具体的,预设主体信息库可以为主体信息表。表1为本发明提供的一种主体信息表的示例,表1具体如下所示:
Figure BDA0002346780050000051
在本发明的一实施方式中,上述S108(即确定待分析句子中的情感词以及情感词的极性),可以包括:基于情感词典,确定待分析句子中的情感词以及情感词的极性,情感词典中包括多个情感词以及多个情感词的极性。具体的,可以利用-2、-1、0、1、2表示情感词的极性,其中,0表示中立、正数表示正面情感且数值越大表示正面情感越强、负数表示负面情感且其绝对值越大表示负面情感越强。目前的进行情感倾向分析的许多方法是基于端对端监督学习的,无论是文本(可以为整篇文章、某一段落或某一句话)情感分析还是主体情感分析,监督学习的问题在于它需要一个语料,实际应用中最多只能获取某些领域的部分语料,且人工工作量大,所以监督学习的训练结果只能在这个领域达到效果,但是在其他领域会有严重的过拟合问题,不适用于涉及多个领域的通用舆情系统。针对上述问题,本发明使用基于词典的情感分析模型,适用于各个领域。
在本发明的一实施方式中,上述基于情感词典,确定待分析句子中的情感词以及情感词的极性的步骤,可以包括:
基于情感词典,利用多模匹配算法对待分析句子进行分词与匹配,以筛选待分析的句子中的情感词、触发词以及触发词组,情感词典还包括多个触发词以及多个触发词组;
利用预设的触发词与非线性算子的对应关系、及预设的触发词组与非线性算子的对应关系,确定触发词对应的第一非线性算子以及触发词组对应的第二非线性算子,利用第一非线性算子和第二非线性算子对情感词的极性进行修正,将修正后的情感词的极性作为确定待分析句子中的情感词的极性。
具体的,触发词可以包括:程度副词、否定词、递进词、转折词。第一非线性算子包括作用域以及乘子,示例性的,对于否定词(例如,不、没有等),作用域为改词后的短句,乘子为-1。
在本发明的一实施方式中,情感分析方法还可以包括:整理程度副词、否定词、递进词、转折词,以确定预设的触发词。
具体的,触发词组为包含两个直接相连且情感极性相反的词语的词组,例如,“缓解压力”,“解决问题”,“安全风险”,“解决了一个难题”。
在本发明的一实施方式中,情感分析方法还可以包括:利用依存文法确定触发词组的情感极性。具体的,利用依存文法确定触发词组的情感极性的步骤,可以包括:根据情感词典,对多个无标注语料进行依存文法解析,以搜集触发词组,统计<word1,pos1,senti1,rel,word2,pos2,senti2,NUM>;选择一个rel子集(具体的,rel子集包含:主谓、动宾、状补),对词组中的高频词组进行标注,训练一个输入为(word1,pos1,senti1,rel,word2,pos2,senti2)且输出为词组的情感倾向的随机树,对随机树结果进行剪枝,确定可信度超过预设可信度的词组及其情感极性。需要说明的是,上述word1表示词1,pos1表示词性1,senti1表示情感1,rel表示依存关系,word2表示词2,pos2表示词性2,senti2表示情感2,NUM表示数量。
在本发明的一实施方式中,上述S112(即合并待分析文本中所有匹配到目标主体的待分析句子的情感值,确定待分析文本对于目标主体的情感值),可以包括:根据待分析句子在待分析文本中的位置,确定待分析句子的权重,根据待分析句子的权重对待分析句子对于目标主体的情感值进行非线性累加,确定待分析文本对目标主体的情感值。
图3是本发明的另一个实施例提供的情感分析方法的流程示意图;图3所示情感分析方法相对于上述图1的情感分析方法,区别在于,还可以包括以下步骤:
S113、对情感词的极性进行非线性累加,以得到待分析句子的句子情感值。这样,可以得到句子的情感倾向。
进一步,还可以包括以下步骤:
S114、合并待分析文本中所有待分析句子的句子情感值,以确定待分析文本的情感值。这样,可以得到整个待分析文本的情感倾向。即本发明提供的情感分析方法,除了能够分析得到目标主体的情感倾向,还能够得到整个文本的情感倾向。
在本发明的一实施方式中,合并待分析文本中所有待分析句子的句子情感值,可以包括按照正面情感和负面情感分别对应的权值合并待分析文本中的所有待分析句子的句子情感值,其中负面情感的权值大于正面情感的权值,以保证在待分析文本中包含负面情感时,待分析文本的情感值一定表示负面情感,加强并便于对负面情感敏感的用户对待分析文本的关注。
在本发明的一实施方式中,情感分析方法还可以包括:通过搜集公开、监督学习和人工标注的方式,构建情感词典。具体的,可以基于通用情感词典,通过词向量和/或近义词词典作为相似的线索获得新情感词,进而构建情感词典。具体的,情感词典中可以包括常用英文情感词及其极性、表情符号形成的情感词及其极性。
在本发明的一实施方式中,情感分析方法还可以包括:利用公开的网络数据、维基百科以及从各种网络渠道爬取的文本语料库,构建预设主体信息库。由于预设主体信息库中的每个主体信息中包含主体别名、竞品等,利用预设主体信息库,可以精确地描述一个主体。
在本发明的一实施方式中,上述S104(即,基于预设主体信息库,对每个待分析句子进行主体匹配),可以包括:
基于预设主体信息库,利用多模匹配算法对每个待分析句子进行主体匹配。较佳的,在对每个待分析句子进行主体匹配之后,还可以包括:对主体匹配结果进行主体消歧,以剔除错误的主体匹配结果。
具体的,对主体匹配结果进行主体消歧,以剔除错误的主体匹配结果,可以包括:利用主体的消歧信息、主体标签与待分析文本标签对比消歧、上下文规则消歧、词性分词约束剔除中的至少一种方式,剔除错误的主体匹配结果,其中,消歧信息以及主体标签是根据预设主体信息库确定的。
进一步,利用主体标签与待分析文本标签对比消歧,剔除错误的主体匹配结果,可以包括:以tf-idf为权重,词向量为词的表示,过滤词性,累加做文本表示,与类目一些中心词的距离作为可信凭证,计算类目分布(即计算待分析文本可能属于哪些类目),剔除在类目中置信度超过预设值(置信度较高的类目),但与主体的标签完全不同的主体匹配,例如主体标签为科技,类目标签为植物,剔除此主体匹配。其中,tf-idf表示词频-逆文档频率,tf表示词频,idf表示逆文档频率。
进一步,利用上下文规则消歧,剔除错误的主体匹配结果,可以包括:通过选取主体的上下文词包语境C(W),与主体消歧信息进行匹配,剔除相关度较高的句子;利用此方式剔除错误的主体匹配结果,可以对无法提取足够文本词特征的文本,剔除不正确的主体匹配。
在本发明的一实施方式中,加权系数具体为:1,0,0.5,-0.5,-1这5个值。在本发明的一实施方式中,上述利用主体情感自注意力机制确定待分析句子中的每个词对目标主体的加权系数的步骤,可以包括:
对待分析句子进行分词,确定待分析句子的每个词的词特征,将每个词的词特征输入至嵌入层,经过嵌入层处理后依次输入第一BI-LSTM层(即BI-LSTM layer 1)、第二BI-LSTM层(即BI-LSTM layer 2),获得每个词对目标主体的加权系数,主体情感自注意力机制包括:embedding layer(嵌入层)、BI-LSTM layer 1、BI-LSTM layer 2、self-attention(自注意力)层以及加权系数。图4是本发明的一个主体情感自注意力机制的示意图,如图4所示,词特征经过嵌入层处理后依次输入BI-LSTM layer 1、BI-LSTM layer 2,获得每个词对目标主体的加权系数。embedding layer(嵌入层)是利用embedding技术,把输入的句子转换为空间向量。LSTM是循环神经网络(Recurrent neural networks,RNNs)的扩展,LSTM网络的基本单元(cell),能够实现对信息的记忆功能。
本实施例中,主体情感自注意力机制(self-attention机制),用于当所述待分析句子中匹配到目标主体时,利用主体情感self-attention机制确定待分析句子中的每个词对目标主体的加权系数。该加权系数即是注意力评分(attention score),主要基于句子中每个词语对应的q和k向量的点乘积,然后利用尺度缩放和逻辑回归(softmax)归一化得到。主体情感自注意力机制通过获取每个词对应的q和k向量,结合softmax归一化计算之后的attention score,从而确定待分析句子中的每个词对目标主体的加权系数。图4b是本发明的一个确定加权系数的示意图,如图4所示,确定加权系数的过程为:获取每个词对应的q和k向量,如下x1对应q1和k1;q1点乘k1、k2,开根号,并经过逻辑回归softmax之后得到x1相对于x1和x2的加权系数(即注意力得分,attention score)0.88和0.12。
在本发明的一实施方式中,确定每个词的词特征的步骤,可以包括:确定每个词的词性,确定作为tail(句尾)的词的依存文法类型,在词作为tail时,依存文法的头的相对位置,判断词是否匹配到了主体或主体竞品,确定标点符号的类型,确定情感词及情感词的极性。
在防拟合方面,加入
Figure BDA0002346780050000101
作为一部分损失函数。在数据方面,人工标注与搜集大约3W条数据。
以下举例说明本发明的情感分析方法。示例性的,待分析句子为“谈民营企业,A公司、B公司、C公司这些表面看上去巨头,却受外国资本所操控,被民众认可程度不及D公司、F公司。”,通过上述情感分析方法,首先利用情感词典对上述待分析句子进行多模匹配,筛选情感词及其极性为(巨头,1)、(操控,-1),(认可,1),(不及,-1),触发词及其第一非线性算子为:却(句子*2),触发词组及其第二非线性算子为(认可不及,-1),修正后的情感词及其极性为(巨头,1)、(操控,-2),(认可,-1),(不及,-1);对情感词的极性进行非线性累加,得到上述待分析句子表示负面情感;假设目标主体为D公司,利用主体情感自注意力机制确定的加权系数为-1、-1、-1、-1,即巨头的加权系数为-1、操控的加权系数为-1,认可的加权系数为-1,不及的加权系数为-1,确定待分析句子的目标主体D公司的情感值为=1*(-1)+(-2)*(-1)+(-1)*(-1)+(-1)*(-1)=3,可以看出,目标主体的情感为正面。
图5是本发明的一个实施例提供的情感分析装置的结构示意图。如图5所示,情感分析装置500,可以包括:句子确定模块51、主体匹配模块52、加权系数确定模块53、情感词确定模块54、句子主体情感确定模块55以及文本主体情感确定模块56。
句子确定模块51,用于确定待分析文本中的待分析句子。
主体匹配模块52,用于基于预设主体信息库,对每个所述待分析句子进行主体匹配,所述预设主体信息库中包含多个主体信息。
加权系数确定模块53,用于当所述待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定所述待分析句子中的每个词对所述目标主体的加权系数,所述主体情感自注意力机制结合依存文法建模形成。
情感词确定模块54,用于确定所述待分析句子中的情感词以及情感词的极性。
句子主体情感确定模块55,用于利用所述情感词、所述情感词的极性以及所述加权系数,确定所述待分析句子对于所述目标主体的情感值。
文本主体情感确定模块56,用于合并所述待分析文本中所有匹配到所述目标主体的待分析句子的情感值,确定所述待分析文本对于所述目标主体的情感值。
在本发明的一实施方式中,所述情感词确定模块54,具体用于:
基于情感词典,确定所述待分析句子中的情感词以及情感词的极性,所述情感词典中包括多个情感词以及所述多个情感词的极性。
在本发明的一实施方式中,所述情感词确定模块54,具体用于:
基于所述情感词典,利用多模匹配算法对所述待分析句子进行分词与匹配,以筛选所述待分析的句子中的情感词、触发词以及触发词组,所述情感词典还包括多个触发词以及多个触发词组;
利用预设的触发词与非线性算子的对应关系、及预设的触发词组与非线性算子的对应关系,确定所述触发词对应的第一非线性算子以及所述触发词组对应的第二非线性算子,利用所述第一非线性算子和所述第二非线性算子对所述情感词的极性进行修正,将修正后的情感词的极性作为确定所述待分析句子中的情感词的极性。
在本发明的一实施方式中,所述加权系数确定模块53,具体用于:
对所述待分析句子进行分词,确定所述待分析句子的每个词的词特征,将所述每个词的词特征输入至嵌入层,经过所述嵌入层处理后依次输入第一BI-LSTM层、第二BI-LSTM层,获得每个词对所述目标主体的加权系数,所述主体情感自注意力机制包括:所述嵌入层、所述第一BI-LSTM层、所述第二BI-LSTM层、自注意力层以及所述加权系数。
图6是本发明的另一个实施例提供的情感分析装置的结构示意图。如图6所示的情感分析装置600与上述图5所示的情感分析装置500的差别在于,情感分析装置600还可以包括:句子情感确定模块57以及文本情感确定模块58。
句子情感确定模块57,用于对所述情感词的极性进行非线性累加,以得到所述待分析句子的句子情感值。
文本情感确定模块58,用于合并待分析文本中所有待分析句子的句子情感值,以确定待分析文本的情感值。这样,可以得到整个待分析文本的情感倾向。即本发明提供的情感分析方法,除了能够分析得到主体的情感倾向,还能够得到整个文本的情感倾向。
本发明实施例提供的情感分析装置可以参照对应本发明实施例的以上方法的流程,并且,该装置中的各个单元/模块和上述其他操作和/或功能分别为了实现以上方法中的相应流程,为了简洁,在此不再赘述。本发明实施例提供的情感分析装置,当待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定待分析句子中的每个词对目标主体的加权系数,且所述主体情感自注意力机制进一步结合依存文法建模形成的,另外,能够利用加权系数确定待分析句子中的情感词对于目标主体的情感值,之后,根据所有待分析句子的情感值确定待分析文本对于目标主体的情感值,进而能够精确地确定目标主体与描述词之间的关系,准确地确定待分析文本对于目标主体的情感倾向。
图7是根据一示例性实施例示出的一种情感分析的电子设备的框图。例如,电子设备800可以是手机、电脑、PDA、PAD等。
参照图7所示,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,该处理组件802可被配置为:
确定待分析文本中的待分析句子;
基于预设主体信息库,对每个所述待分析句子进行主体匹配,所述预设主体信息库中包含多个主体信息;
当所述待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定所述待分析句子中的每个词对所述目标主体的加权系数,所述主体情感自注意力机制进一步结合依存文法建模形成;
确定所述待分析句子中的情感词以及情感词的极性;
利用所述情感词、所述情感词的极性以及所述加权系数,确定所述待分析句子对于所述目标主体的情感值;
合并所述待分析文本中所有匹配到所述目标主体的待分析句子的情感值,确定所述待分析文本对于所述目标主体的情感值。
在本发明实施例中,当待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定待分析句子中的每个词对目标主体的加权系数,且主体情感自注意力机制进一步结合依存文法建模形成的,另外,能够利用加权系数确定待分析句子中的情感词对于目标主体的情感值,之后,根据所有待分析句子的情感值确定待分析文本对于目标主体的情感值,进而能够精确地确定目标主体与描述词之间的关系,准确地确定待分析文本对于目标主体的情感倾向。
此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,消息,图片等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,距离感应器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WIFI,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (8)

1.一种情感分析方法,其特征在于,包括:
确定待分析文本中的待分析句子;
基于预设主体信息库,对每个所述待分析句子进行主体匹配,所述预设主体信息库中包含多个主体信息;
当所述待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定所述待分析句子中的每个词对所述目标主体的加权系数,所述主体情感自注意力机制结合依存文法建模形成;
确定所述待分析句子中的情感词以及情感词的极性;
利用所述情感词、所述情感词的极性以及所述加权系数,确定所述待分析句子对于所述目标主体的情感值;
合并所述待分析文本中所有匹配到所述目标主体的待分析句子的情感值,确定所述待分析文本对于所述目标主体的情感值;
其中,确定所述待分析句子中的情感词以及情感词的极性,包括:
基于情感词典,确定所述待分析句子中的情感词以及情感词的极性,所述情感词典中包括多个情感词以及所述多个情感词的极性;
基于情感词典,确定所述待分析句子中的情感词以及情感词的极性,包括:
基于所述情感词典,利用多模匹配算法对所述待分析句子进行分词与匹配,以筛选所述待分析的句子中的情感词、触发词以及触发词组,所述情感词典还包括多个触发词以及多个触发词组;
利用预设的触发词与非线性算子的对应关系、及预设的触发词组与非线性算子的对应关系,确定所述触发词对应的第一非线性算子以及所述触发词组对应的第二非线性算子,利用所述第一非线性算子和所述第二非线性算子对所述情感词的极性进行修正,将修正后的情感词的极性作为所述待分析句子中的情感词的极性;其中,触发词包括:程度副词、否定词、递进词、转折词;第一非线性算子包括作用域以及乘子;触发词组为包含两个直接相连且情感极性相反的词语的词组;
所述情感分析方法还包括:利用依存文法确定触发词组的情感极性;具体包括:根据情感词典,对多个无标注语料进行依存文法解析,以搜集触发词组,统计<word1,pos1,senti1,rel,word2,pos2,senti2,NUM>;选择一个rel子集,对词组中的高频词组进行标注,训练一个输入为(word1,pos1,senti1,rel,word2,pos2,senti2)且输出为词组的情感倾向的随机树,对随机树结果进行剪枝,确定可信度超过预设可信度的词组及其情感极性;其中,word1表示词1,pos1表示词性1,senti1表示情感1,rel表示依存关系,word2表示词2,pos2表示词性2,senti2表示情感2,NUM表示数量;
合并待分析文本中所有匹配到目标主体的待分析句子的情感值,确定待分析文本对于目标主体的情感值,包括:根据待分析句子在待分析文本中的位置,确定待分析句子的权重,根据待分析句子的权重对待分析句子对于目标主体的情感值进行非线性累加,确定待分析文本对目标主体的情感值;
基于预设主体信息库,对每个所述待分析句子进行主体匹配之后,还包括:对主体匹配结果进行主体消歧,以剔除错误的主体匹配结果;具体包括:利用主体的消歧信息、主体标签与待分析文本标签对比消歧、上下文规则消歧、词性分词约束剔除中的至少一种方式,剔除错误的主体匹配结果,其中,消歧信息以及主体标签是根据预设主体信息库确定的;
利用主体标签与待分析文本标签对比消歧,剔除错误的主体匹配结果,包括:以tf-idf为权重,词向量为词的表示,过滤词性,累加做文本表示,与类目一些中心词的距离作为可信凭证,计算类目分布,剔除在类目中置信度超过预设值,但与主体的标签完全不同的主体匹配,剔除此主体匹配,其中,tf-idf表示词频-逆文档频率,tf表示词频,idf表示逆文档频率。
2.如权利要求1所述的方法,其特征在于,还包括:
对所述情感词的极性进行非线性累加,以得到所述待分析句子的句子情感值。
3.如权利要求1所述的方法,其特征在于,还包括:
通过搜集公开、监督学习和人工标注的方式,构建所述情感词典。
4.如权利要求1所述的方法,其特征在于,每个主体信息中包括主体名称、以及竞品、主体别名、主体下位词、主体标签与主体类别中的至少一项。
5.如权利要求1所述的方法,其特征在于,利用主体情感自注意力机制确定所述待分析句子中的每个词对所述目标主体的加权系数,包括:
对所述待分析句子进行分词,确定所述待分析句子的每个词的词特征,将所述每个词的词特征输入至嵌入层,经过所述嵌入层处理后依次输入第一BI-LSTM层、第二BI-LSTM层,获得每个词对所述目标主体的加权系数,所述主体情感自注意力机制包括:所述嵌入层、所述第一BI-LSTM层、所述第二BI-LSTM层、自注意力层以及所述加权系数。
6.一种情感分析装置,其特征在于,包括:
句子确定模块,用于确定待分析文本中的待分析句子;
主体匹配模块,用于基于预设主体信息库,对每个所述待分析句子进行主体匹配,所述预设主体信息库中包含多个主体信息;
加权系数确定模块,用于当所述待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定所述待分析句子中的每个词对所述目标主体的加权系数,所述主体情感自注意力机制结合依存文法建模形成;
情感词确定模块,用于确定所述待分析句子中的情感词以及情感词的极性;
句子主体情感确定模块,用于利用所述情感词、所述情感词的极性以及所述加权系数,确定所述待分析句子对于所述目标主体的情感值;
文本主体情感确定模块,用于合并所述待分析文本中所有匹配到所述目标主体的待分析句子的情感值,确定所述待分析文本对于所述目标主体的情感值;
其中,所述情感词确定模块,具体用于:
基于情感词典,确定所述待分析句子中的情感词以及情感词的极性,所述情感词典中包括多个情感词以及所述多个情感词的极性;
所述情感词确定模块,具体用于:
基于所述情感词典,利用多模匹配算法对所述待分析句子进行分词与匹配,以筛选所述待分析的句子中的情感词、触发词以及触发词组,所述情感词典还包括多个触发词以及多个触发词组;
利用预设的触发词与非线性算子的对应关系、及预设的触发词组与非线性算子的对应关系,确定所述触发词对应的第一非线性算子以及所述触发词组对应的第二非线性算子,利用所述第一非线性算子和所述第二非线性算子对所述情感词的极性进行修正,将修正后的情感词的极性作为所述待分析句子中的情感词的极性;
其中,触发词包括:程度副词、否定词、递进词、转折词;第一非线性算子包括作用域以及乘子;触发词组为包含两个直接相连且情感极性相反的词语的词组;
所述情感词确定模块,具体用于:利用依存文法确定触发词组的情感极性;根据情感词典,对多个无标注语料进行依存文法解析,以搜集触发词组,统计<word1,pos1,senti1,rel,word2,pos2,senti2,NUM>;选择一个rel子集,对词组中的高频词组进行标注,训练一个输入为(word1,pos1,senti1,rel,word2,pos2,senti2)且输出为词组的情感倾向的随机树,对随机树结果进行剪枝,确定可信度超过预设可信度的词组及其情感极性;其中,word1表示词1,pos1表示词性1,senti1表示情感1,rel表示依存关系,word2表示词2,pos2表示词性2,senti2表示情感2,NUM表示数量;根据待分析句子在待分析文本中的位置,确定待分析句子的权重,根据待分析句子的权重对待分析句子对于目标主体的情感值进行非线性累加,确定待分析文本对目标主体的情感值;
所述主体匹配模块,具体用于:对主体匹配结果进行主体消歧,以剔除错误的主体匹配结果;利用主体的消歧信息、主体标签与待分析文本标签对比消歧、上下文规则消歧、词性分词约束剔除中的至少一种方式,剔除错误的主体匹配结果,其中,消歧信息以及主体标签是根据预设主体信息库确定的;
利用主体标签与待分析文本标签对比消歧,剔除错误的主体匹配结果,包括:以tf-idf为权重,词向量为词的表示,过滤词性,累加做文本表示,与类目一些中心词的距离作为可信凭证,计算类目分布,剔除在类目中置信度超过预设值,但与主体的标签完全不同的主体匹配,剔除此主体匹配,其中,tf-idf表示词频-逆文档频率,tf表示词频,idf表示逆文档频率。
7.如权利要求6所述的装置,其特征在于,所述加权系数确定模块,具体用于:
对所述待分析句子进行分词,确定所述待分析句子的每个词的词特征,将所述每个词的词特征输入至嵌入层,经过所述嵌入层处理后依次输入第一BI-LSTM层、第二BI-LSTM层,获得每个词对所述目标主体的加权系数,所述主体情感自注意力机制包括:所述嵌入层、所述第一BI-LSTM层、所述第二BI-LSTM层、自注意力层以及所述加权系数。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
所述处理器被配置为:
确定待分析文本中的待分析句子;
基于预设主体信息库,对每个所述待分析句子进行主体匹配,所述预设主体信息库中包含多个主体信息;
当所述待分析句子中匹配到目标主体时,利用主体情感自注意力机制确定所述待分析句子中的每个词对所述目标主体的加权系数,所述主体情感自注意力机制结合依存文法建模形成;
确定所述待分析句子中的情感词以及情感词的极性;
利用所述情感词、所述情感词的极性以及所述加权系数,确定所述待分析句子对于所述目标主体的情感值;
合并所述待分析文本中所有匹配到所述目标主体的待分析句子的情感值,确定所述待分析文本对于所述目标主体的情感值;
其中,确定所述待分析句子中的情感词以及情感词的极性,包括:
基于情感词典,确定所述待分析句子中的情感词以及情感词的极性,所述情感词典中包括多个情感词以及所述多个情感词的极性;
基于情感词典,确定所述待分析句子中的情感词以及情感词的极性,包括:
基于所述情感词典,利用多模匹配算法对所述待分析句子进行分词与匹配,以筛选所述待分析的句子中的情感词、触发词以及触发词组,所述情感词典还包括多个触发词以及多个触发词组;
利用预设的触发词与非线性算子的对应关系、及预设的触发词组与非线性算子的对应关系,确定所述触发词对应的第一非线性算子以及所述触发词组对应的第二非线性算子,利用所述第一非线性算子和所述第二非线性算子对所述情感词的极性进行修正,将修正后的情感词的极性作为所述待分析句子中的情感词的极性;其中,触发词包括:程度副词、否定词、递进词、转折词;第一非线性算子包括作用域以及乘子;触发词组为包含两个直接相连且情感极性相反的词语的词组;
所述处理器还被配置为:利用依存文法确定触发词组的情感极性;具体包括:根据情感词典,对多个无标注语料进行依存文法解析,以搜集触发词组,统计<word1,pos1,senti1,rel,word2,pos2,senti2,NUM>;选择一个rel子集,对词组中的高频词组进行标注,训练一个输入为(word1,pos1,senti1,rel,word2,pos2,senti2)且输出为词组的情感倾向的随机树,对随机树结果进行剪枝,确定可信度超过预设可信度的词组及其情感极性;其中,word1表示词1,pos1表示词性1,senti1表示情感1,rel表示依存关系,word2表示词2,pos2表示词性2,senti2表示情感2,NUM表示数量;
合并待分析文本中所有匹配到目标主体的待分析句子的情感值,确定待分析文本对于目标主体的情感值,包括:根据待分析句子在待分析文本中的位置,确定待分析句子的权重,根据待分析句子的权重对待分析句子对于目标主体的情感值进行非线性累加,确定待分析文本对目标主体的情感值;
基于预设主体信息库,对每个所述待分析句子进行主体匹配之后,还包括:对主体匹配结果进行主体消歧,以剔除错误的主体匹配结果;具体包括:利用主体的消歧信息、主体标签与待分析文本标签对比消歧、上下文规则消歧、词性分词约束剔除中的至少一种方式,剔除错误的主体匹配结果,其中,消歧信息以及主体标签是根据预设主体信息库确定的;
利用主体标签与待分析文本标签对比消歧,剔除错误的主体匹配结果,包括:以tf-idf为权重,词向量为词的表示,过滤词性,累加做文本表示,与类目一些中心词的距离作为可信凭证,计算类目分布,剔除在类目中置信度超过预设值,但与主体的标签完全不同的主体匹配,剔除此主体匹配,其中,tf-idf表示词频-逆文档频率,tf表示词频,idf表示逆文档频率。
CN201911397843.9A 2019-12-30 2019-12-30 一种情感分析方法、装置和电子设备 Active CN111191438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911397843.9A CN111191438B (zh) 2019-12-30 2019-12-30 一种情感分析方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911397843.9A CN111191438B (zh) 2019-12-30 2019-12-30 一种情感分析方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111191438A CN111191438A (zh) 2020-05-22
CN111191438B true CN111191438B (zh) 2023-03-21

Family

ID=70709720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911397843.9A Active CN111191438B (zh) 2019-12-30 2019-12-30 一种情感分析方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111191438B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737978A (zh) * 2020-07-02 2020-10-02 武汉卓尔数字传媒科技有限公司 一种购物评价情感分析的方法、装置及电子设备
CN112214576B (zh) * 2020-09-10 2024-02-06 深圳价值在线信息科技股份有限公司 舆情分析方法、装置、终端设备及计算机可读存储介质
CN113204624B (zh) * 2021-06-07 2022-06-14 吉林大学 一种多特征融合的文本情感分析模型及装置
CN114564967B (zh) * 2022-04-29 2022-09-13 天津大学 一种面向情感语义的语义标注及语义依存分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536681A (zh) * 2018-04-16 2018-09-14 腾讯科技(深圳)有限公司 基于情感分析的智能问答方法、装置、设备及存储介质
CN108733644A (zh) * 2018-04-09 2018-11-02 平安科技(深圳)有限公司 一种文本情感分析方法、计算机可读存储介质及终端设备
CN109543722A (zh) * 2018-11-05 2019-03-29 中山大学 一种基于情感分析模型的情感趋势预测方法
CN110232123A (zh) * 2019-05-28 2019-09-13 第四范式(北京)技术有限公司 文本的情感分析方法及其装置、计算设备与可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286627A1 (en) * 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextual sentiment text analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733644A (zh) * 2018-04-09 2018-11-02 平安科技(深圳)有限公司 一种文本情感分析方法、计算机可读存储介质及终端设备
CN108536681A (zh) * 2018-04-16 2018-09-14 腾讯科技(深圳)有限公司 基于情感分析的智能问答方法、装置、设备及存储介质
CN109543722A (zh) * 2018-11-05 2019-03-29 中山大学 一种基于情感分析模型的情感趋势预测方法
CN110232123A (zh) * 2019-05-28 2019-09-13 第四范式(北京)技术有限公司 文本的情感分析方法及其装置、计算设备与可读介质

Also Published As

Publication number Publication date
CN111191438A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111191438B (zh) 一种情感分析方法、装置和电子设备
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
CN107491541B (zh) 文本分类方法及装置
CN107766426B (zh) 一种文本分类方法、装置及电子设备
CN110008401B (zh) 关键词提取方法、关键词提取装置和计算机可读存储介质
CN107145571B (zh) 一种搜索方法及装置
US20170154104A1 (en) Real-time recommendation of reference documents
CN111368541B (zh) 命名实体识别方法及装置
CN112347779B (zh) 一种涉密文本密级自动判定的方法和装置
CN108228808B (zh) 确定热点事件的方法、装置和存储介质以及电子设备
CN109145213A (zh) 基于历史信息的查询推荐方法及装置
CN110019885B (zh) 一种表情数据推荐方法及装置
CN112508612B (zh) 训练广告创意生成模型、生成广告创意的方法及相关装置
CN112199588A (zh) 舆情文本筛选方法及装置
CN112328793A (zh) 评论文本数据的处理方法、装置及存储介质
CN114880480A (zh) 一种基于知识图谱的问答方法及装置
CN108509406A (zh) 一种语料抽取方法、装置和电子设备
CN111651586A (zh) 文本分类的规则模板生成方法、分类方法及装置、介质
CN111813932A (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN111222316A (zh) 文本检测方法、装置及存储介质
CN112884040B (zh) 训练样本数据的优化方法、系统、存储介质及电子设备
CN117312641A (zh) 智能获取信息的方法、装置、设备及存储介质
CN116029673A (zh) 业务审批数据抽样评价方法、装置、设备及存储介质
CN115730073A (zh) 文本处理方法、装置及存储介质
CN110609996A (zh) 文本情绪识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No.27, 1st floor, building 14, Haidian Road, zhongjiancai District, Beijing 100096

Applicant after: Beijing PERCENT Technology Group Co.,Ltd.

Address before: 100096 101 / F, building 14, 27 Jiancai Middle Road, Haidian District, Beijing

Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant