CN109885687A - 一种文本的情感分析方法、装置、电子设备及存储介质 - Google Patents

一种文本的情感分析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109885687A
CN109885687A CN201910132291.2A CN201910132291A CN109885687A CN 109885687 A CN109885687 A CN 109885687A CN 201910132291 A CN201910132291 A CN 201910132291A CN 109885687 A CN109885687 A CN 109885687A
Authority
CN
China
Prior art keywords
text
vocabulary
sentiment
analyzed
sentiment dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910132291.2A
Other languages
English (en)
Inventor
陈海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deep Blue Technology Shanghai Co Ltd
Original Assignee
Deep Blue Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deep Blue Technology Shanghai Co Ltd filed Critical Deep Blue Technology Shanghai Co Ltd
Publication of CN109885687A publication Critical patent/CN109885687A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例涉及数据处理领域,公开了一种文本的情感分析方法、装置、电子设备及存储介质。本申请的部分实施例中,文本的情感分析方法,包括:获取待分析文本中的词汇;根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数;针对待分析文本中的每个不属于情感词典的词汇,分别进行以下操作:确定情感词典中与不属于情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数;根据待分析文本中的每个词汇的极性分数,确定待分析文本的情感分析结果。该实现中,根据最接近的单词的极性分数,为文本中不属于情感词典的词汇赋予极性分数,提高了文本的情感分析的准确性。

Description

一种文本的情感分析方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及数据处理领域,特别涉及一种文本的情感分析方法、装置、电子设备及存储介质。
背景技术
目前,社交媒体上有大量关于产品和服务的用户评论或评价,它已经成为用户日常决策的信息来源。由于对某个产品的大量不同意见,用户可能很难根据这些评论或评价总结出总体的情感。情感词典(SentiWordNet)被认为是一种有效的情感分析词汇资源。SentiWordNet中的每个术语都与一组表示其积极性、消极性和中性的分数相关联。分数可以取决于术语的词性标记。它通常用于情感分析,它是确定文本情感取向(积极、消极或中性)的方法的集合。
然而,发明人发现现有技术中至少存在如下问题:目前,SentiWordNet是确定文本极性的最常用的情感词典。然而,若需要分析的文本中的词汇里有大量的词汇没有出现在SentiWordNet中,这将限制情感分析的结果的正确率。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施方式的目的在于提供一种文本的情感分析方法、装置、电子设备及存储介质,使得能够确定文本的情感。
为解决上述技术问题,本发明的实施方式提供了一种文本的情感分析方法,包括以下步骤:获取待分析文本中的词汇;根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数;其中,情感词典用于确定情感词典所包含的单词的极性分数;针对待分析文本中的每个不属于情感词典的词汇,分别进行以下操作:确定情感词典中与不属于情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数;根据待分析文本中的每个的极性分数,确定待分析文本的情感分析结果。
本发明的实施方式还提供了一种文本的情感分析装置,包括:获取模块、第一确定模块、第二确定模块和第三确定模块;获取模块用于获取待分析文本中的词汇;第一确定模块用于根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数;其中,情感词典用于确定情感词典所包含的单词的极性分数;第二确定模块用于针对待分析文本中的每个不属于情感词典的词汇,分别进行以下操作:确定情感词典中与不属于情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数;第三确定模块用于根据待分析文本中的词汇的极性分数,确定待分析文本的情感分析结果。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施方式提及的文本的情感分析方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的文本的情感分析方法。
本发明实施方式相对于现有技术而言,根据情感词典中与待分析文本的不属于情感词典的词汇最接近的单词的极性分数,为待分析文本中不属于情感词典的词汇赋予极性分数,使得待分析文本中的词汇都能够具有极性分数,进而提高了对待分析文本的情感分析结果的准确性。
另外,确定情感词典中与不属于情感词典的词汇最接近的单词,具体包括:确定不属于情感词典的词汇的第一词向量,以及情感词典的每个单词的第二词向量;确定每个第二词向量各自与第一词向量之间的距离;将与第一词向量距离最近的第二词向量所对应的单词,作为与不属于情感词典的词汇最接近的单词。该实现中,根据词向量之间的距离确定与不属于情感词典的词汇最接近的单词,使得能够从多维度考虑不属于情感词典的词汇与情感词典中的单词的相似性。
另外,确定每个第二词向量各自与第一词向量之间的距离,具体包括:针对每个第二词向量,分别进行以下操作:按照公式a计算第二词向量与第一词向量的距离;其中,公式a为:
其中,ai表示第二词向量,j表示第一词向量,‖A‖[F]表示第一词向量与第二词向量之间的距离,abs是绝对值函数。
另外,确定不属于情感词典的词汇的第一词向量,以及情感词典的每个单词的第二词向量,具体包括:使用词向量模型Word2VEC方法,确定第一词向量,以及第二词向量。该实现中,通过Word2VEC方法能够快速有效地将一个词语表达成向量形式,提高了电子设备的处理速度。
另外,根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数,具体包括:确定属于情感词典的词汇在待分析文本中的词性;查询情感词典,确定属于情感词典的词汇在待分析文本中的词性对应的极性分数的平均值;将属于情感词典的词汇在待分析文本中的词性对应的极性分数的平均值,作为词汇的极性分数。
另外,根据待分析文本中的词汇的极性分数,确定待分析文本的情感分析结果,具体包括:计算待分析文本中的所有词汇的极性分数的平均值;根据所有词汇的极性分数的平均值,确定待分析文本的情感分析结果。
另外,在根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数之后,文本的情感分析方法还包括:根据不属于情感词典的词汇,以及不属于情感词典的词汇的极性分数,更新情感词典。该实现中,能够在情感词典的使用过程中,不断丰富情感词典,提高情感词典的词汇量。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明的第一实施方式的文本的情感分析方法的流程图;
图2是本发明的第二实施方式的文本的情感分析方法的流程图;
图3是本发明的第三实施方式的文本的情感分析装置的结构示意图;
图4是本发明的第四实施方式的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种文本的情感分析方法,应用于电子设备,例如,电脑、手机等各种移动终端。如图1所示,该情感分析方法包括以下步骤:
步骤101:获取待分析文本中的词汇。
具体地说,电子设备可以通过分词工具,例如,结巴分词,提取待分析文本中的词汇。
需要说明的是,本领域技术人员可以理解,本实施方式仅为举例说明,实际应用中,可以根据需要选择用于提取待分析文本中的词汇的工具,本实施方式不限定提取待分析文本中的词汇的方法。
步骤102:根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数。
具体地说,情感词典用于确定情感词典所包含的单词的极性分数,情感词典中包括N个单词,N个正整数。其中,极性分数也可以称为情感分数。
在一个例子中,情感词典为sentiwordnet,包括其所记录的每个单词的词性、单词的身份标识、积极得分、消极得分、单词的含义和单词的同义词等。
在一个例子中,电子设备确定待分析文本中属于情感词典的词汇的极性分数的方法为:电子设备确定属于情感词典的词汇在待分析文本中的词性;查询情感词典,确定属于情感词典的词汇在待分析文本中的词性对应的极性分数的平均值;将属于情感词典的词汇在待分析文本中的词性对应的极性分数的平均值,作为词汇的极性分数。
例如,待分析文本中存在词汇“声明”,既可以作为动词,也可以作为名词。电子设备根据“声明”在待分析文本中的上下文,确定“声明”在该待分析文本中的词性,若确定是作为动词使用,则确定“声明”作为动词在该情感词典中的极性分数的平均值,将“声明”作为动词在该情感词典中的极性分数的平均值,作为“声明”在待分析文本中的极性分数。若确定“声明”在待分析文本中的词性为名词,则确定“声明”作为名词在该情感词典中的极性分数的平均值,将“声明”作为名词在该情感词典中的极性分数的平均值,作为“声明”在待分析文本中的极性分数。
其中,属于情感词典的词汇在待分析文本中的词性对应的极性分数的平均值的确定方法可以包括但不限于以下两种:
方法1:在分析待分析文本之前,对情感词典进行预处理,以确定每个情感词典中每个单词的各个词性对应的极性分数的平均值。在分析待分析文本时,通过查询预处理后的情感词典,确定待分析文本中的词汇的极性分数。
方法2:在分析待分析文本时,确定待分析文本中的词汇在待分析文本中的词性,计算该词汇在待分析文本中的词性对应的极性分数的平均值,将该平均值作为该词汇在待分析文本中的极性分数。
以下以情感词典为sentiwordnet为例,说明电子设备根据sentiwordnet计算单词的某一词性对应的极性分数的平均值的过程。电子设备计算该单词在该词性下的每个含义对应的极性分数,其中,单词在每个含义的极性分数等于该单词在该含义下的积极得分减去消极得分。电子设备将该单词在该词性下所有含义的极性分数的和除以该单词在该词性下的含义数得到的值,作为该单词在该词性下的极性分数的平均值。
在另一个例子中,电子设备根据待分析文本的词汇在待分析文本中的上下文,确定该词汇的含义,将该词汇在情感词典中记录的该含义对应的极性分数,作为该词汇的极性分数。
需要说明的是,本领域技术人员可以理解,实际应用中,可以使用其他方法确定待分析文本中属于情感词典的词汇的极性分数,此处不一一列举,本实施方式不限制确定属于情感词典的词汇的极性分数的方法。
步骤103:针对待分析文本中的每个不属于情感词典的词汇,分别进行以下操作:确定情感词典中与不属于情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数。
具体地说,电子设备可以将最接近的单词的极性分数,作为该不属于情感词典的词汇的极性分数。其中,最接近的单词的极性分数的确定方法可以参考步骤102中的相关描述,此处不再赘述。
需要说明的是,本领域技术人员可以理解,也可以采用其他方式确定该不属于情感词典的极性分数,本实施方式不限制电子设备根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数的方法。
以下对电子设备确定情感词典中与不属于情感词典的词汇最接近的单词的方法进行举例说明。
电子设备确定不属于情感词典的词汇的第一词向量,以及情感词典的每个单词的第二词向量;确定每个第二词向量各自与第一词向量之间的距离;将与第一词向量距离最近的第二词向量所对应的单词,作为与不属于情感词典的词汇最接近的单词。
在一个例子中,电子设备使用词向量模型Word2VEC方法,确定第一词向量,以及第二词向量。假设从待分析文本提取得到的词汇组成的词汇表为T,T={t1,t2,t3...tn}。Word2Vec模型中的Skip-Gram模型能够根据输入的单词来预测上下文。因此,使用Skip-gram模型即可计算给定ti上下文中其他术语的概率分布,从而得出词汇ti的向量表示,即将词汇ti的词向量。特别地,ti由词向量表示,向量中每一项数值分别为词汇表T中的其他词汇的概率值。
需要说明的是,本领域技术人员可以理解,实际应用中,若第一词向量和第二词向量的维度不一致,可以通过维度对齐的方法,使得第一词向量和第二词向量维度一致,再通过各种求向量间的距离的方法,求解第一词向量和第二词向量之间的距离。
值得一提的是,通过Word2VEC方法能够快速有效地将一个词语表达成向量形式,提高了电子设备的处理速度。
在一个例子中,电子设备确定每个第二词向量各自与第一词向量之间的距离的方法为:针对每个第二词向量,分别进行以下操作:按照公式a计算第二词向量与第一词向量的距离;其中,公式a为:
其中,ai表示第二词向量,j表示第一词向量,‖A‖[F]表示第一词向量与第二词向量之间的距离,abs是绝对值函数。
需要说明的是,本领域技术人员可以理解,实际应用中,也可以通过其他方式确定第一词向量和第二词向量的距离,或者说是相似度,此处不一一赘述,本实施方式不限制确定第一词向量和第二词向量的相似度或距离的方法。
值得一提的是,根据词向量之间的距离确定与不属于情感词典的词汇最接近的单词,使得能够从多维度考虑不属于情感词典的词汇与情感词典中的单词的相似性。
需要说明的是,本领域技术人员可以理解,实际应用中,电子设备也可以以其他方式确定与不属于情感词典的词汇最接近的单词,本实施方式不限制电子设备确定与不属于情感词典的词汇最接近的单词的方法。
步骤104:根据待分析文本中的词汇的极性分数,确定待分析文本的情感分析结果。
具体地说,电子设备根据待分析文本中的词汇的极性分数,分析待分析文本的情感,确定待分析文本的情感分析结果。
在一个例子中,电子设备计算待分析文本中的所有词汇的极性分数的平均值;根据所有词汇的极性分数的平均值,确定待分析文本的情感分析结果。例如,若所有词汇的极性分数的平均值为负值,则确定待分析文本的情感分析结果为:该待分析文本的情感为消极情感;若所有词汇的极性分数的平均值为正值,则确定待分析文本的情感分析结果为:该待分析文本的情感为积极情感。
需要说明的是,本领域技术人员可以理解,实际应用中,可以先对不同词汇赋予不同的权重,再计算所有词汇的极性分数的加权平均值,根据加权平均值确定待分析文本的情感分析结果,本实施方式不限制电子设备根据词汇的极性分数,分析文本情感的方法。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的文本的情感分析方法,根据情感词典中与待分析文本的不属于情感词典的词汇最接近的单词的极性分数,为待分析文本中不属于情感词典的词汇赋予极性分数,使得待分析文本中的词汇都能够具有极性分数,进而提高了对待分析文本的情感分析结果的准确性。除此之外,根据词向量之间的距离确定与不属于情感词典的词汇最接近的单词,使得能够从多维度考虑不属于情感词典的词汇与情感词典中的单词的相似性。
本发明的第二实施方式涉及一种文本的情感分析方法,本实施方式是对第一实施方式的进一步改进,具体改进之处为:在步骤104之后,增加了其他相关步骤。
具体的说,如图2所示,在本实施方式中,包含步骤201至步骤205,其中,步骤201至步骤204分别与第一实施方式中的步骤101至步骤104大致相同,此处不再赘述。下面主要介绍不同之处:
执行步骤201至步骤204。
步骤205:根据不属于情感词典的词汇,以及不属于情感词典的词汇的极性分数,更新情感词典。
具体地说,电子设备将不属于情感词典的词汇、不属于情感词典的词汇的极性分数,记录至情感词典中,以便电子设备下一次分析情感时查询。
需要说明的是,本领域技术人员可以理解,实际应用中,电子设备可以根据用户的指令,有选择的记录不属于情感词典的极性分数,本实施方式不限制电子设备更新情感词典的方法。
例如,电子设备在确定不属于情感词典的词汇的极性分数后,更新情感词典之前,可以将该不属于情感词典的词汇和该不属于情感词典的词汇的极性分数显示给用户,在用户的指令指示更新情感词典后,再更新情感词典。用户在看到显示的不属于情感词典的词汇和不属于情感词典的词汇的极性分数后,若发现该不属于情感词典的词汇的极性分数明显有误,例如,不属于情感词典的词汇为“完美”,“完美”的极性分数为-0.3,则可以下发指示电子设备不记录该不属于情感词典的词汇和该情感词典的词汇的极性分数的指令。与此同时,电子设备可以通过其他方式,确定并记录该不属于情感词典的词汇的正确的极性分数。
需要说明的是,为阐述清楚,本实施方式中,将步骤205设置为步骤204的后续步骤,但本领域技术人员可以理解,实际应用中,步骤205只需设置在步骤204之后即可,步骤204可以作为步骤204之后的任一步骤,本实施方式不起限定作用。
值得一提的是,及时更新情感词典,丰富了情感词典中的词汇,使得电子设备能够更准确地分析后续的待分析文本。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的文本的情感分析方法,根据情感词典中与待分析文本的不属于情感词典的词汇最接近的单词的极性分数,为待分析文本中不属于情感词典的词汇赋予极性分数,使得待分析文本中的词汇都能够具有极性分数,进而提高了对待分析文本的情感分析结果的准确性。除此之外,电子设备及时更新情感词典,丰富了情感词典中的词汇,使得电子设备能够更准确地分析后续的待分析文本。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明的第三实施方式涉及一种文本的情感分析装置,如图3所示,包括:获取模块301、第一确定模块302、第二确定模块303和第三确定模块304。获取模块301用于获取待分析文本中的词汇;第一确定模块302用于根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数;其中,情感词典用于确定情感词典所包含的单词的极性分数;第二确定模块303用于针对待分析文本中的每个不属于情感词典的词汇,分别进行以下操作:确定情感词典中与不属于情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数;第三确定模块304用于根据待分析文本中的词汇的极性分数,确定待分析文本的情感分析结果。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明的第四实施方式涉及一种电子设备,如图4所示,包括至少一个处理器401;以及,与至少一个处理器401通信连接的存储器402;其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行上述实施方式提及的文本的情感分析方法。
该电子设备包括:一个或多个处理器401以及存储器402,图4中以一个处理器401为例。处理器401、存储器402可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本的情感分析方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器402中,当被一个或者多个处理器401执行时,执行上述任意方法实施方式中的文本的情感分析方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本发明的第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种文本的情感分析方法,其特征在于,包括:
获取待分析文本中的词汇;
根据情感词典,确定所述待分析文本中属于所述情感词典的词汇的极性分数;其中,所述情感词典用于确定所述情感词典所包含的单词的极性分数;
针对所述待分析文本中的每个不属于所述情感词典的词汇,分别进行以下操作:确定所述情感词典中与所述不属于所述情感词典的词汇最接近的单词;根据所述最接近的单词的极性分数,确定所述不属于所述情感词典的词汇的极性分数;
根据所述待分析文本中的词汇的极性分数,确定所述待分析文本的情感分析结果。
2.根据权利要求1所述文本的情感分析方法,其特征在于,所述确定所述情感词典中与所述不属于所述情感词典的词汇最接近的单词,具体包括:
确定所述不属于所述情感词典的词汇的第一词向量,以及所述情感词典的每个单词的第二词向量;
确定每个所述第二词向量各自与所述第一词向量之间的距离;
将与所述第一词向量距离最近的第二词向量所对应的单词,作为与所述不属于所述情感词典的词汇最接近的单词。
3.根据权利要求2所述的文本的情感分析方法,其特征在于,所述确定每个所述第二词向量各自与所述第一词向量之间的距离,具体包括:
针对每个第二词向量,分别进行以下操作:按照公式a计算所述第二词向量与所述第一词向量的距离;其中,公式a为:
其中,ai表示所述第二词向量,j表示所述第一词向量,‖A‖[F]表示所述第一词向量与所述第二词向量之间的距离,abs是绝对值函数。
4.根据权利要求2所述的文本的情感分析方法,其特征在于,所述确定所述不属于所述情感词典的词汇的第一词向量,以及所述情感词典的每个单词的第二词向量,具体包括:
使用词向量模型Word2VEC方法,确定所述第一词向量,以及所述第二词向量。
5.根据权利要求1所述的文本的情感分析方法,其特征在于,所述根据情感词典,确定所述待分析文本中属于所述情感词典的词汇的极性分数,具体包括:
确定所述属于所述情感词典的词汇在所述待分析文本中的词性;
查询所述情感词典,确定所述属于所述情感词典的词汇在所述待分析文本中的词性对应的极性分数的平均值;
将所述属于所述情感词典的词汇在所述待分析文本中的词性对应的极性分数的平均值,作为所述词汇的极性分数。
6.根据权利要求1所述的文本的情感分析方法,其特征在于,所述根据所述待分析文本中的词汇的极性分数,确定所述待分析文本的情感分析结果,具体包括:
计算所述待分析文本中的所有词汇的极性分数的平均值;
根据所有词汇的极性分数的平均值,确定所述待分析文本的情感分析结果。
7.根据权利要求1至6中任一项所述的文本的情感分析方法,其特征在于,在所述根据所述最接近的单词的极性分数,确定所述不属于所述情感词典的词汇的极性分数之后,所述文本的情感分析方法还包括:
根据所述不属于所述情感词典的词汇,以及所述不属于所述情感词典的词汇的极性分数,更新所述情感词典。
8.一种文本的情感分析装置,其特征在于,包括:获取模块、第一确定模块、第二确定模块和第三确定模块;
所述获取模块用于获取待分析文本中的词汇;
所述第一确定模块用于根据情感词典,确定所述待分析文本中属于所述情感词典的词汇的极性分数;其中,所述情感词典用于确定所述情感词典所包含的单词的极性分数;
所述第二确定模块用于针对所述待分析文本中的每个不属于所述情感词典的词汇,分别进行以下操作:确定所述情感词典中与所述不属于所述情感词典的词汇最接近的单词;根据所述最接近的单词的极性分数,确定所述不属于所述情感词典的词汇的极性分数;
所述第三确定模块用于根据所述待分析文本中的词汇的极性分数,确定所述待分析文本的情感分析结果。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本的情感分析方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本的情感分析方法。
CN201910132291.2A 2018-12-29 2019-02-22 一种文本的情感分析方法、装置、电子设备及存储介质 Pending CN109885687A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811633385X 2018-12-29
CN201811633385 2018-12-29

Publications (1)

Publication Number Publication Date
CN109885687A true CN109885687A (zh) 2019-06-14

Family

ID=66928899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910132291.2A Pending CN109885687A (zh) 2018-12-29 2019-02-22 一种文本的情感分析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109885687A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738015A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880600A (zh) * 2012-08-30 2013-01-16 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
CN104142913A (zh) * 2013-05-07 2014-11-12 株式会社日立制作所 词语极性的判别方法和判别系统
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN107305539A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN107451116A (zh) * 2017-07-14 2017-12-08 中国地质大学(武汉) 一种移动应用内生大数据统计分析方法
CN108052505A (zh) * 2017-12-26 2018-05-18 上海智臻智能网络科技股份有限公司 文本情感分析方法及装置、存储介质、终端
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置
CN108647191A (zh) * 2018-05-17 2018-10-12 南京大学 一种基于有监督情感文本和词向量的情感词典构建方法
US20180307677A1 (en) * 2017-04-20 2018-10-25 Ford Global Technologies, Llc Sentiment Analysis of Product Reviews From Social Media
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN108932227A (zh) * 2018-06-05 2018-12-04 天津大学 一种基于句子结构及上下文的短文本情感值计算方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880600A (zh) * 2012-08-30 2013-01-16 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
CN104142913A (zh) * 2013-05-07 2014-11-12 株式会社日立制作所 词语极性的判别方法和判别系统
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置
CN107305539A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
US20180307677A1 (en) * 2017-04-20 2018-10-25 Ford Global Technologies, Llc Sentiment Analysis of Product Reviews From Social Media
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法
CN107451116A (zh) * 2017-07-14 2017-12-08 中国地质大学(武汉) 一种移动应用内生大数据统计分析方法
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
CN108052505A (zh) * 2017-12-26 2018-05-18 上海智臻智能网络科技股份有限公司 文本情感分析方法及装置、存储介质、终端
CN108647191A (zh) * 2018-05-17 2018-10-12 南京大学 一种基于有监督情感文本和词向量的情感词典构建方法
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN108932227A (zh) * 2018-06-05 2018-12-04 天津大学 一种基于句子结构及上下文的短文本情感值计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁卜建: "基于情感词典拓展和词向量的中文情感分析技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张俊东: "基于机器学习的微博情感分析及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738015A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质
CN111738015B (zh) * 2020-06-22 2024-04-12 北京百度网讯科技有限公司 文章情感极性分析方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Zadeh et al. Memory fusion network for multi-view sequential learning
CN107229610B (zh) 一种情感数据的分析方法及装置
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN107704482A (zh) 方法、装置以及程序
CN108874782A (zh) 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN109710744B (zh) 一种数据匹配方法、装置、设备及存储介质
CN103914548B (zh) 信息搜索方法和装置
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
CN110222184A (zh) 一种文本的情感信息识别方法及相关装置
Drovo et al. Named entity recognition in Bengali text using merged hidden Markov model and rule base approach
CN111241232B (zh) 业务服务的处理方法、装置、服务平台及存储介质
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN109635080A (zh) 应答策略生成方法及装置
CN112818227B (zh) 内容推荐方法、装置、电子设备及存储介质
CN106649250A (zh) 一种情感新词的识别方法及装置
CN111209363A (zh) 语料数据处理方法、装置、服务器和存储介质
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN114417823A (zh) 一种基于句法和图卷积网络的方面级情感分析方法及装置
CN107734123A (zh) 一种联系人排序方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190614

RJ01 Rejection of invention patent application after publication