CN103885933A - 用于评价文本的情感度的方法和设备 - Google Patents

用于评价文本的情感度的方法和设备 Download PDF

Info

Publication number
CN103885933A
CN103885933A CN201210564243.9A CN201210564243A CN103885933A CN 103885933 A CN103885933 A CN 103885933A CN 201210564243 A CN201210564243 A CN 201210564243A CN 103885933 A CN103885933 A CN 103885933A
Authority
CN
China
Prior art keywords
word
bunch
viewpoint
emotion
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210564243.9A
Other languages
English (en)
Other versions
CN103885933B (zh
Inventor
缪庆亮
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210564243.9A priority Critical patent/CN103885933B/zh
Publication of CN103885933A publication Critical patent/CN103885933A/zh
Application granted granted Critical
Publication of CN103885933B publication Critical patent/CN103885933B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于评价文本的情感度的方法和设备。所述用于评价文本的情感度的方法包括:从待评价的文本中抽取目标词和观点词;在包括有目标词簇与观点词之间的情感关系的情感语义图中,搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词;根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。

Description

用于评价文本的情感度的方法和设备
技术领域
本发明一般地涉及自然语言处理。具体而言,本发明涉及一种能够评价文本的情感度的方法和设备以及一种能够评价实体的方法和设备。
背景技术
随着互联网应用技术,尤其是Web2.0的蓬勃发展,用户逐渐成为互联网上的内容的重要创造者。用户生成的文本,如产品评论、论坛帖子、博客文章、微博博文等的数量呈几何级增长。在情感分析、情感计算、舆情分析、商业智能等应用中,从海量的非结构化的用户生成文本中抽取情感词,并预测情感词的情感倾向性。然而,情感倾向性,即情感极性,仅仅是对于情感的定性的度量。如果能够获知情感词的情感强度,定量地进行分析,则可以更有效地计算文本的情感度,更好地支持以上列出的各种应用。举例来说,“这款相机还可以”和“我非常喜欢这款相机”表达的情感极性都是正的,但是表达的情感强度是不同的。
因此,希望提出一种技术,其能够从定性和定量两个方面评价给定文本的情感度。
此外,在不提供具体文本的情况下,也希望能够获知对于给定实体的评价。例如,苹果公司新推出了产品iphone5,则用户可能希望获知对于iphone5的评价。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是针对现有技术的上述问题,提出一种能够评价文本的情感度的方法和设备以及一种能够评价实体的方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种用于评价文本的情感度的方法,包括:从待评价的文本中抽取目标词和观点词;在包括有目标词簇与观点词之间的情感关系的情感语义图中,搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词;根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。
根据本发明的另一个方面,提供了一种用于评价文本的情感度的设备,包括:抽取装置,用于从待评价的文本中抽取目标词和观点词;搜索装置,用于在包括有目标词簇与观点词之间的情感关系的情感语义图中,搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词;情感度计算装置,用于根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。
根据本发明的再一个方面,提供了一种用于评价实体的方法,包括:在包括有目标词簇与观点词之间的情感关系的情感语义图中,搜索与待评价的实体对应的或者在语义上最相近的第一目标词簇,搜索与所述第一目标词簇相关联的一个或多个第一观点词;根据所述情感语义图中的所述第一目标词簇与所述一个或多个第一观点词之间的情感强度和情感极性,计算所述待评价的实体的情感得分。
根据本发明的再一个方面,提供了一种用于评价实体的设备,包括:搜索装置,用于在包括有目标词簇与观点词之间的情感关系的情感语义图中,搜索与待评价的实体对应的或者在语义上最相近的第一目标词簇,搜索与所述第一目标词簇相关联的一个或多个第一观点词;情感得分计算装置,用于根据所述情感语义图中的所述第一目标词簇与所述一个或多个第一观点词之间的情感强度和情感极性,计算所述待评价的实体的情感得分。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了情感语义图的示例;
图2示出了用于获得情感语义图的训练方法的流程图;
图3示出了上述训练方法中步骤S24的具体流程的流程图;
图4示出了根据本发明第一实施例的文本情感度评价方法的流程图;
图5示出了根据本发明第二实施例的文本情感度评价方法的流程图;
图6示出了根据本发明第一实施例的实体评价方法的流程图;
图7示出了根据本发明第二实施例的实体评价方法的流程图;
图8示出了根据本发明实施例的训练装置的结构方框图;
图9示出了根据本发明实施例的文本情感度评价设备的结构方框图;
图10示出了根据本发明实施例的实体评价设备的结构方框图;以及
图11示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
本发明基于情感语义图来实现用于评价文本的情感度的方法和设备以及用于评价实体的方法和设备。因此,下文中首先介绍情感语义图及其构建方法。
首先,应明确,本发明评价的文本以及用于生成情感语义图的训练文本应是含有情感的文本,其可能包括目标词、观点词、修饰词。目标词是指含有情感的文本中包括的、整个文本针对其表达情感的词。目标词一般是名词,包括实体,尤其是命名实体。观点词是指对于目标词进行带有感情色彩的评价的词,包括形容词。修饰词是指对于观点词进行关于感情色彩的程度的限定的词,包括副词。
应注意,在下文中以汉语为例,对本发明进行说明。但本发明不限于此。本发明同样适用于其它语言文字,目标词、观点词、修饰词的种类和范围可相应地针对具体的语言而有所调整。这对于本领域技术人员而言是例行的工作。
可利用大量的训练样本,即含有情感的文本,来生成情感语义图。
图1示出了情感语义图的示例。如图1所示,情感语义图包括圆形表示的目标词簇C,如C1、C2、C3等。目标词簇C包括一个目标词或者语义上相同或相近的多个目标词,如照片、相片、图像等。情感语义图还包括三角形表示的观点词O,如O1、O2、O3、O4等;以及矩形表示的修饰词M,如M1、M2、M3等。
目标词簇C之间存在语义关联,目标词簇C之间的有向边表明该有向边连接的两个目标词簇C之间的语义关系。语义关系的示例包括:整体与组成部分的关系、行政区划关系、组织关系、人际关系等。目标词簇C之间的语义关系可以基于语义相关的先验知识确定。
在情感语义图中,目标词簇与观点词之间的路径表明该观点词对于该目标词簇的情感强度和情感极性。情感强度可由数值表示,情感极性可由正负1表示。当观点词的情感极性为正时,表征其情感极性的值取+1,当观点词的情感极性为负时,表征其情感极性的值取-1。当情感强度为m或n时,可将情感强度和情感极性统一表示为-m或+n,如图1所示。情感极性可通过基于与观点词相关的辞典识别,或者利用训练好的识别模型识别,或者人工进行识别。情感强度通过生成情感语义图的训练步骤获得,并且可以在情感语义图的更新步骤中以与训练步骤类似的方式更新。在情感语义图中,同一观点词与不同目标词簇之间的情感强度和情感极性可能彼此不同,也可能完全相同,也可能部分相同而部分不同。例如,观点词“低”与目标词“油耗”之间的情感极性应为正的,而观点词“低”与目标词“性能”之间的情感极性应为负的。相应地,情感强度也会有所不同。即使对于同一观点词和同一目标词簇,根据训练样本的不同,情感强度也会有所不同。
在情感语义图中,观点词和修饰词之间的路径表明该修饰词对于该观点词的作用强度和情感极性。类似地,作用强度可由数值表示,情感极性可由正负1表示。当修饰词的情感极性为正时,表征其情感极性的值取+1,当修饰词的情感极性为负时,表征其情感极性的值取-1。当作用强度为p或q时,可将作用强度和情感极性统一表示为-p或+q,如图1所示。情感极性可通过基于与修饰词相关的辞典识别,或者利用训练好的识别模型识别,或者人工进行识别。作用强度通过生成情感语义图的训练步骤获得,并且可以在情感语义图的更新步骤中以与训练步骤类似的方式更新。与观点词对于目标词的情感强度和情感极性的情况不同,在情感语义图中,同一修饰词与不同观点词之间的作用强度和情感极性完全相同。例如,修饰词“非常”与观点词“高”之间的情感极性应为正的,修饰词“非常”与观点词“低”之间的情感极性也应为正的。即同一修饰词与不同观点词之间的情感极性应没有区别。类似地,修饰词“非常”与观点词“高”之间的作用强度和修饰词“非常”与观点词“低”之间的作用强度应没有区别。但是不同修饰词与同一观点词的作用强度和情感极性可能有所不同。例如,修饰词“不够”与观点词“好”之间的情感极性应为负的。对于同一修饰词和同一观点词,根据训练样本的不同,作用强度也会有所不同。
情感语义图可以具有不同的表现形式和存储形式。例如,表、数据库、数组、TXT文本文件、资源描述框架(Resource Description Framework,RDF)文件、可扩展标记语言(Extensible Markup Language,XML)文件等。
下面参照图2描述用于获得情感语义图的训练方法的流程。图2示出了用于获得情感语义图的训练方法的流程图。如图2所示,训练方法200包括:从训练文本中抽取目标词、观点词和修饰词,并将语义相同或相近的目标词聚类为目标词簇(步骤S21);识别观点词和修饰词的情感极性(步骤S22);基于所述目标词簇、观点词、修饰词、所识别的情感极性,构建情感语义图(步骤S23);利用训练文本,计算观点词对于目标词簇的情感强度以及修饰词的作用强度(步骤S24);利用所计算的情感强度和作用强度,更新所构建的情感语义图(步骤S25)。
在步骤S21中,从训练文本中抽取目标词、观点词和修饰词。可以基于与目标词、观点词、修饰词相关的辞典,进行抽取;或者利用训练好的抽取模型,进行抽取。
在抽取之后,将语义相同或相近的目标词聚类为目标词簇。
在步骤S22中,识别观点词和修饰词的情感极性。如上所述,可以基于与观点词、修饰词相关的辞典,进行识别;或者利用训练好的识别模型,进行识别;或者人工进行识别。
在步骤S23中,基于所述目标词簇、观点词、修饰词、所识别的情感极性,构建情感语义图。
利用在步骤S21中获得的目标词簇、观点词、修饰词、以及在步骤S22中识别的情感极性,构建情感语义图。情感语义图可以具有任何适当的、例如上面列出的多种表现形式和存储形式,只要情感语义图中包含上述基本要素即可。基本要素包括:目标词簇、观点词、观点词对于目标词簇的情感强度和情感极性。可选的要素有修饰词、目标词簇之间的语义关系、修饰词对于观点词的作用强度和情感极性。由于带有情感的文本不一定具有修饰词,因此,根据训练样本的情况,情感语义图不一定具有修饰词及其相关的作用强度和情感极性。当然,也可以根据语义知识,给出默认值,或在更新过程中根据新的训练样本加入新的修饰词并计算其相关的作用强度和情感极性等等。情感语义图本身是可以不断发展演进的,通过利用更多的训练样本进行更新,可以不断丰富情感语义图中的内容。例如,当有新的目标词出现时,可以计算该目标词与情感语义图中每个目标词簇的语义相似度,将该目标词分配到与之语义相似度最大的目标词簇。如果没有合适的目标词簇,例如如果语义相似度均小于特定阈值,则建立新的目标词簇以包括新的目标词。
在步骤S24中,利用训练文本,计算观点词对于目标词簇的情感强度以及修饰词的作用强度。
图3示出了步骤S24的具体流程。
具体地,计算观点词对于目标词簇的情感强度包括:针对同一目标词簇,选取由包括该目标词簇中的目标词、一个或多个观点词且不包括修饰词的、标注有情感分数的训练样本构成的第一样本集(步骤S241);对于给定的用于根据文本中的观点词计算文本的情感得分的第一公式,通过整数线性规划,获得所述一个或多个观点词对于该目标词簇的情感强度,使得根据所获得的情感强度、所述观点词的情感极性、按照该第一公式,计算得到的第一样本集中的各个样本的情感得分与对应标注的情感分数之间的差的绝对值的总和最小(步骤S242)。
训练样本可以是带有情感的文本。在此情况下,需要进行上述的步骤S21和S22作为预处理。优选地,训练样本是经预处理后的三元组的形式,即{目标词,[观点词1…观点词n],Sem},其中Sem表示包含三元组中的目标词和观点词1至观点词n的训练样本的标注的情感分数。
第一公式用于根据文本中的观点词计算文本的情感得分。作为一个示例,第一公式可以是如下公式:将文本中的各个观点词的情感强度加权求和的结果作为文本的情感得分,其中加权求和的权重为表征各个观点词的情感极性的值。
作为示例的第一公式例如可表示为:
Figure BDA00002630440300071
其中,f(Seni)表示第i个训练样本的情感得分,假设第i个训练样本中抽取出n个观点词,oj为第j个观点词的情感强度和表征该观点词的情感极性的值的乘积。
本发明的第一公式不限于上面给出的示例,只要能够根据文本中的观点词计算文本的情感得分即可。
假设第一样本集中有D个训练样本。可通过整数线性规划的方法,获得观点词对于目标词簇的情感强度,使得根据所获得的情感强度、所识别的观点词的情感极性、按照第一公式,计算得到的第一样本集中的各个样本的情感得分与对应标注的情感分数之间的差的绝对值的总和最小。
即,
Figure BDA00002630440300072
其中Semi表示第i个训练样本的情感分数,f(Seni)表示根据第一公式计算的第i个训练样本的情感得分。
本发明不限于利用整数线性规划方法获得观点词对于目标词簇的情感强度。也可以采用其它适当的方法来求解对于当前样本集而言最优的情感强度。
在步骤S24中,计算修饰词的作用强度包括:选取由包括一个或多个观点词和一个或多个修饰词的、标注有情感分数的训练样本构成的第二样本集(步骤S243);对于给定的用于根据文本中的观点词和修饰词计算文本的情感得分的第二公式,通过整数线性规划,获得所述一个或多个修饰词对于所述一个或多个观点词的作用强度,使得根据所获得的修饰词的作用强度、步骤S242中获得的观点词的情感强度、所述观点词的情感极性、所述修饰词的情感极性、按照第二公式,计算得到的第二样本集中的各个样本的情感得分与对应标注的情感分数之间的差的绝对值的总和最小(步骤S244);将所获得的同一修饰词的多个对于特定观点词的作用强度求平均值,并将平均值作为该修饰词的作用强度(步骤S245)。
训练样本是带有情感的文本。在此情况下,需要进行上述的步骤S21和S22作为预处理。优选地,训练样本是经预处理后的如下形式:<目标词,[修饰词,观点词],Sem>,其中Sem表示训练样本的情感分数。
第二公式用于根据文本中的观点词和修饰词计算文本的情感得分。作为一个示例,第二公式可以是如下公式:将文本中的各个观点词的情感强度和情感极性的乘积的加权求和的结果作为文本的情感得分,其中加权求和的权重为与观点词相关联的修饰词的作用强度和表征该修饰词的情感极性的值的乘积。
作为示例的第二公式例如可表示为:f(Seni)=∑mg*oj。其中,f(Seni)表示第i个训练样本的情感得分,假设第i个训练样本中抽取出一个或多个观点词和一个或多个修饰词,oj为第j个观点词的情感强度和表征该观点词的情感极性的值的乘积,mg为与第j个观点词存在修饰关系的第g个修饰词的作用强度和表征该修饰词的情感极性的值的乘积。注意,这里,同一个修饰词对于不同的观点词的作用强度可能相同,也可能不同。将在后面的步骤中通过取平均值来进行统一。
本发明的第二公式不限于上面给出的示例,只要能够根据文本中的观点词和修饰词计算文本的情感得分即可。
假设第二样本集中有E个训练样本。可通过整数线性规划的方法,获得一个或多个修饰词对于一个或多个观点词的作用强度,使得根据所获得的修饰词的作用强度、步骤S242中获得的观点词的情感强度、所述观点词的情感极性、所述修饰词的情感极性、按照第二公式,计算得到的第二样本集中的各个样本的情感得分与对应标注的情感分数之间的差的绝对值的总和最小。
即,
Figure BDA00002630440300091
其中Semi表示第i个训练样本的情感分数,f(Seni)表示根据第二公式计算的第i个训练样本的情感得分。
本发明不限于利用整数线性规划方法获得修饰词对于观点词的作用强度。也可以采用其它适当的方法来求解对于当前样本集而言最优的作用强度。
在步骤S25中,利用所计算的情感强度和作用强度,更新所构建的情感语义图。
如上所述,情感语义图中还可包括有目标词簇之间的语义关系。因此,训练过程还可包括如下步骤:基于语义相关的先验知识,确定目标词簇之间的关系(步骤S26);基于上述目标词簇之间的关系更新情感语义图(步骤S27)。
这样,在情感语义图中,目标词簇与目标词簇之间的有向边表明该有向边连接的两个目标词簇之间的语义关系。
经过上述步骤S21-S27可以得到完整的情感语义图。基于所获得的情感语义图,可以计算未知文本的情感度。还可以基于所获得的情感语义图计算对给定实体的评价。
下面,将参照图4、图5描述根据本发明实施例的用于评价文本的情感度的方法。
图4示出了根据第一实施例的用于评价文本的情感度的方法的流程图。图5示出了根据第二实施例的用于评价文本的情感度的方法的流程图。
如上所述,带有情感的文本可能包含目标词、观点词和修饰词,也可能只包含目标词和观点词。相应地,所利用的情感语义图中的信息,也有所不同。第一实施例和第二实施例的区别在于,第一实施例针对的文本不包含修饰词,仅包含目标词和观点词。第二实施例针对的文本包含目标词、观点词和修饰词。
如图4所示,根据第一实施例的文本情感度评价方法400包括:从待评价的文本中抽取目标词和观点词(步骤S41);在情感语义图中,搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词(步骤S42);根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度(步骤S43)。
在步骤S41中,从待评价的文本中抽取目标词和观点词。如上所述,可以基于与目标词、观点词相关的辞典,进行抽取;或者利用训练好的抽取模型,进行抽取。
在步骤S42中,在情感语义图中,搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词。
这里,目标词簇可以包括一个目标词或语义上相同或相近的多个目标词。
这里的搜索方式取决于情感语义图的表现形式和存储形式。具体的搜索方式的设计对于本领域技术人员是例行的工作。
应注意,这里搜索的观点词,应为在步骤S41中所抽取的观点词,同时应当是与在步骤S42中搜索到的目标词簇相关联的观点词。这样,在情感语义图中,该目标词簇与该观点词之间的情感强度和情感极性才能用作在待评价的文本中的该目标词与该观点词之间的情感强度和情感极性。
在步骤S43中,根据情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算待评价的文本的情感度。例如,可使用训练阶段的第一公式来进行计算。
如果在情感语义图中没有搜索到上述观点词,则可以根据观点词的默认的情感强度和识别的情感极性计算待评价的文本的情感度。默认值可以根据经验给出。
如图5所示,根据本发明的第二实施例的文本情感度评价方法500包括:从待评价的文本中抽取目标词、观点词和修饰词(步骤S51);在情感语义图中,搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词,搜索与所述观点词相关联的所述修饰词(步骤S52);根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性以及所述观点词与所述修饰词之间的作用强度和情感极性,计算所述待评价的文本的情感度(步骤S53)。
在步骤S51中,从待评价的文本中抽取目标词、观点词和修饰词。如上所述,可以基于与目标词、观点词、修饰词相关的辞典,进行抽取;或者利用训练好的抽取模型,进行抽取。
在步骤S52中,在情感语义图中,搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词,搜索与所述观点词相关联的所述修饰词。
类似地,这里搜索的观点词,应为在步骤S51中所抽取的观点词,同时应当是与在步骤S52中搜索到的目标词簇相关联的观点词。这里搜索的修饰词,应为在步骤S51中所抽取的修饰词,同时应当是与在步骤S52中搜索到的观点词相关联的修饰词。
在步骤S53中,根据情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性以及所述观点词与所述修饰词之间的作用强度和情感极性,计算待评价的文本的情感度。例如,可使用训练阶段的第二公式来进行计算。
如果在情感语义图中没有搜索到上述观点词,则可以根据观点词的默认的情感强度和识别的情感极性计算待评价的文本的情感度。如果在情感语义图中搜索到上述观点词但没有搜索到上述修饰词,则可以根据情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性以及修饰词的默认的作用强度和识别的情感极性计算待评价的文本的情感度。
下面,将参照图6、图7描述根据本发明实施例的评价实体的方法。
图6示出了根据第一实施例的评价实体的方法的流程图。图7示出了根据第二实施例的评价实体的方法的流程图。
以上根据大量的训练文本,获得了情感语义图。情感语义图中的信息,不仅可以用于评价给定文本的情感度,而且可以用于评价给定的实体。这是因为用于生成情感语义图的大量训练文本的情感度,反映了对于训练文本中包含的目标词所代表的实体的情感度。
第一实施例和第二实施例的区别在于,第一实施例仅利用观点词的情感强度和情感极性,并不利用修饰词的作用强度和情感极性。第二实施例不仅利用观点词的情感强度和情感极性,而且利用修饰词的作用强度和情感极性。
如图6所示,根据本发明的第一实施例的实体评价方法600包括:在情感语义图中,搜索与待评价的实体对应的或者在语义上最相近的第一目标词簇,搜索与所述第一目标词簇相关联的一个或多个第一观点词(步骤S61);根据所述情感语义图中的所述第一目标词簇与所述一个或多个第一观点词之间的情感强度和情感极性,计算所述待评价的实体的情感得分(步骤S62)。
在步骤S61中,所找到的一个或多个第一观点词是在情感语义图中与第一目标词簇相关联的所有观点词。
在步骤S62中,根据所述情感语义图中的所述目标词簇与所述一个或多个观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。
例如,可以将所述第一目标词簇与所述一个或多个第一观点词之间的情感强度的加权求和的结果作为待评价的实体的情感得分,其中加权求和的权重为表征所述第一观点词对于所述第一目标词簇的情感极性的值。
这里,虽然表面上没有利用输入的文本,但实际上利用的是训练文本中的信息,因为情感语义图基于训练文本生成和更新。
本发明还能处理某些特殊情形。例如,希望评价的实体是“iphone5”,在情感语义图中只找到了包括“iphone5”的第一目标词簇,但未找到与之关联的第一观点词,只能找到与之关联的一个或多个第二目标词簇,如分别包含“iphone5的屏幕”、“iphone5的电池”的两个第二目标词簇。则可通过下面描述的步骤S63-S65给出对实体“iphone5”的评价。
如果在步骤S61中未找到第一观点词,则搜索与该第一目标词簇相关联的一个或多个第二目标词簇,并搜索与所述第二目标词簇相关联的一个或多个第二观点词(步骤S63);根据所述情感语义图中的所述一个或多个第二观点词与所述第二目标词簇之间的情感强度和情感极性,计算所述第二目标词簇的情感得分(步骤S64)。
步骤S63、S64与之前描述的步骤S61、S62类似。
例如,在步骤S64中,可将所述一个或多个第二观点词与所述第二目标词簇之间的情感强度的加权求和的结果作为所述第二目标词簇的情感得分,其中加权求和的权重为表征对应的情感极性的值。
这里,第一目标词簇中的目标词与第二目标词簇中的目标词之间具有整体与组成部分的关系、行政区划关系、组织关系、人际关系等语义关系。
因此,在步骤S65中,可以将所述一个或多个第二目标词簇的情感得分,作为对所述实体的评价,或者将所述一个或多个第二目标词簇的情感得分的加权求和结果,作为对所述实体的评价。
例如,实体是“北京市”,假定找到了包含“北京市”的第一目标词簇,但该第一目标词簇未与任何观点词关联,并且找到了与该第一目标词簇关联的、分别包含“海淀区”、“朝阳区”、“西城区”的多个第二目标词簇。这样,可以分别计算对“海淀区”、“朝阳区”、“西城区”的评价,即情感得分。然后将“海淀区”、“朝阳区”、“西城区”的情感得分,作为对“北京市”的评价。也可以以适当的方式根据“海淀区”、“朝阳区”、“西城区”的情感得分,计算“北京市”的情感得分。例如,可以以这些情感得分的加权求和结果,作为对“北京市”的评价。
如图7所示,根据本发明的第二实施例的实体评价方法700包括:在情感语义图中,搜索与待评价的实体对应的或者在语义上最相近的第一目标词簇,搜索与所述第一目标词簇相关联的一个或多个第一观点词,搜索与所述一个或多个第一观点词相关联的一个或多个第一修饰词(步骤S71);根据所述情感语义图中的所述第一目标词簇与所述一个或多个第一观点词之间的情感强度和情感极性以及所述一个或多个第一修饰词与所述一个或多个第一观点词之间的作用强度和情感极性,计算所述待评价的实体的情感得分(步骤S72)。
在步骤S71中,所找到的一个或多个第一观点词是在情感语义图中与第一目标词簇相关联的所有观点词,所找到的一个或多个第一修饰词是在情感语义图中与一个或多个第一观点词分别相关联的所有修饰词。
在步骤S72中,根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性以及所述一个或多个第一修饰词与所述一个或多个第一观点词之间的作用强度和情感极性,计算所述待评价的文本的情感度。
例如,可以将所述一个或多个第一观点词与所述第一目标词簇之间的情感强度与表征对应的情感极性的值的乘积的加权求和的结果作为所述待评价的实体的情感得分,其中加权求和的权重为所述第一修饰词与所述第一观点词之间的作用强度与表征对应的情感极性的值的乘积。
如果在步骤S71中未找到第一观点词,则搜索与该第一目标词簇相关联的一个或多个第二目标词簇,并搜索与所述第二目标词簇相关联的一个或多个第二观点词以及与所述一个或多个第二观点词相关联的一个或多个第二修饰词(步骤S73);根据所述情感语义图中的所述一个或多个第二观点词与所述第二目标词簇之间的情感强度和情感极性以及所述一个或多个第二修饰词与所述一个或多个第二观点词之间的作用强度和情感极性,计算所述第二目标词簇的情感得分(步骤S74)。
步骤S73、S74与之前描述的步骤S71、S72类似。
在步骤S73中,所搜索的第二目标词簇是与该第一目标词簇相关联的全部第二目标词簇。第一目标词簇中的目标词与第二目标词簇中的目标词之间具有整体与组成部分的关系、行政区划关系、组织关系、人际关系等。
在步骤S74中,可将所述一个或多个第二观点词与所述第二目标词簇之间的情感强度与表征对应的情感极性的值的乘积的加权求和的结果作为所述第二目标词簇的情感得分,其中该加权求和的权重为所述第二修饰词与所述第二观点词之间的作用强度与表征对应的情感极性的值的乘积。
在步骤S75中,可以将所述一个或多个第二目标词簇的情感得分,作为对所述实体的评价,或者将所述一个或多个第二目标词簇的情感得分的加权求和结果,作为对所述实体的评价。
下面,将参照图8描述根据本发明实施例的训练装置。
图8示出了根据本发明实施例的训练装置的结构方框图。如图8所示,根据本发明的训练装置800包括:抽取单元81,用于从训练文本中抽取目标词、观点词和修饰词,并将语义相同或相近的目标词聚类为目标词簇;识别单元82,用于识别观点词和修饰词的情感极性;构建单元83,用于基于所述目标词簇、所述观点词、所述修饰词、所识别的情感极性,构建所述情感语义图;计算单元84,用于利用训练文本,计算观点词对于目标词簇的情感强度以及修饰词的作用强度;更新单元85,用于利用所计算的情感强度和作用强度,更新所构建的情感语义图;其中所述情感语义图中目标词簇与观点词之间的路径表明该观点词对于该目标词簇的情感强度和情感极性,观点词和修饰词之间的路径表明该修饰词对于该观点词的作用强度和情感极性。
在一个实施例中,所述识别单元82被进一步配置为:基于与观点词、修饰词相关的辞典,进行所述识别;或者利用训练好的识别模型,进行所述识别。
在一个实施例中,所述计算单元84包括:第一计算单元841,其被配置为:针对同一目标词簇,选取由包括该目标词簇中的目标词、一个或多个观点词且不包括修饰词的、标注有情感分数的训练样本构成的第一样本集;对于给定的用于根据文本中的观点词计算文本的情感得分的第一公式,通过整数线性规划,获得所述一个或多个观点词对于该目标词簇的情感强度,使得根据所获得的情感强度、所述观点词的情感极性、按照该第一公式,计算得到的第一样本集中的各个样本的情感得分与对应标注的情感分数之间的差的绝对值的总和最小。
在一个实施例中,所述第一公式包括:将文本中的各个观点词的情感强度加权求和的结果作为文本的情感得分,其中加权求和的权重为表征各个观点词的情感极性的值。
在一个实施例中,当观点词的情感极性为正时,表征其情感极性的值取+1,当观点词的情感极性为负时,表征其情感极性的值取-1。
在一个实施例中,所述计算单元84包括:第二计算单元842,其被配置为:选取由包括一个或多个观点词和一个或多个修饰词的、标注有情感分数的训练样本构成的第二样本集;对于给定的用于根据文本中的观点词和修饰词计算文本的情感得分的第二公式,通过整数线性规划,获得所述一个或多个修饰词对于所述一个或多个观点词的作用强度,使得根据所获得的修饰词的作用强度、之前获得的观点词的情感强度、所述观点词的情感极性、所述修饰词的情感极性、按照该第二公式,计算得到的第二样本集中的各个样本的情感得分与对应标注的情感分数之间的差的绝对值的总和最小;将所获得的同一修饰词的多个对于特定观点词的作用强度求平均值,并将平均值作为该修饰词的作用强度。
在一个实施例中,第二公式包括:将文本中的各个观点词的情感强度和情感极性的乘积的加权求和的结果作为文本的情感得分,其中加权求和的权重为与所述观点词相关联的修饰词的作用强度和表征该修饰词的情感极性的值的乘积。
在一个实施例中,当修饰词的情感极性为正时,表征其情感极性的值取+1,当修饰词的情感极性为负时,表征其情感极性的值取-1。
在一个实施例中,所述训练装置800还包括:关系单元86,用于基于语义相关的先验知识,确定目标词簇之间的关系;其中所述构建单元83还基于所述目标词簇之间的关系构建所述情感语义图;并且所述情感语义图中目标词簇与目标词簇之间的有向边表明该有向边连接的两个目标词簇之间的语义关系。
由于在根据本发明的训练装置800所包括的各个单元中的处理分别与上面描述的训练方法200的各个步骤中的处理类似,因此为了简洁起见,在此省略这些单元的详细描述。
下面,将参照图9描述根据本发明实施例的文本情感度评价设备。
图9示出了根据本发明实施例的文本情感度评价设备的结构方框图。如图9所示,根据本发明的文本情感度评价设备900包括:抽取装置91,其被配置为从待评价的文本中抽取目标词和观点词;搜索装置92,其被配置为在情感语义图中,搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词;情感度计算装置93,其被配置为根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。
在一个实施例中,所述抽取装置91还被配置为从待评价的文本中抽取修饰词;所述搜索装置92还被配置为在情感语义图中搜索与所述观点词相关联的所述修饰词;所述情感度计算装置93被配置为还根据所述情感语义图中的所述观点词与所述修饰词之间的作用强度和情感极性,计算所述待评价的文本的情感度。
在一个实施例中,所述抽取装置91被进一步配置为:基于与目标词、观点词、修饰词相关的辞典,进行所述抽取;或者利用训练好的抽取模型,进行所述抽取。
在一个实施例中,所述情感度计算装置93被进一步配置为:在没有搜索到所述观点词的情况下,根据观点词的默认的情感强度和识别的情感极性计算所述待评价的文本的情感度;在没有搜索到所述修饰词的情况下,根据修饰词的默认的作用强度和识别的情感极性计算所述待评价的文本的情感度。
由于在根据本发明的文本情感度评价设备900所包括的各个装置中的处理分别与上面描述的文本情感度评价方法400、500的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置的详细描述。
下面,将参照图10描述根据本发明实施例的实体评价设备。
图10示出了根据本发明实施例的实体评价设备的结构方框图。如图10所示,根据本发明的实体评价设备1000包括:搜索装置101,被配置为在情感语义图中,搜索与待评价的实体对应的或者在语义上最相近的第一目标词簇,搜索与所述第一目标词簇相关联的一个或多个第一观点词;情感得分计算装置102,被配置为根据所述情感语义图中的所述第一目标词簇与所述一个或多个第一观点词之间的情感强度和情感极性,计算所述待评价的实体的情感得分。
在一个实施例中,所述情感得分计算装置102被进一步配置为将所述第一目标词簇与所述一个或多个第一观点词之间的情感强度的加权求和的结果作为所述待评价的实体的情感得分,其中加权求和的权重为表征所述第一观点词对于所述第一目标词簇的情感极性的值。
在一个实施例中,所述搜索装置101还被配置为搜索与所述一个或多个第一观点词相关联的一个或多个第一修饰词;并且其中所述情感得分计算装置102被配置为还根据所述情感语义图中的所述一个或多个第一修饰词与所述一个或多个第一观点词之间的作用强度和情感极性,计算所述待评价的实体的情感得分。
在一个实施例中,所述情感得分计算装置102被进一步配置为将所述一个或多个第一观点词与所述第一目标词簇之间的情感强度与表征对应的情感极性的值的乘积的加权求和的结果作为所述待评价的实体的情感得分,其中加权求和的权重为所述一个或多个第一修饰词与所述一个或多个第一观点词之间的作用强度与表征对应的情感极性的值的乘积。
在一个实施例中,所述搜索装置101被进一步配置为在未找到所述第一观点词的情况下,搜索与该第一目标词簇相关联的一个或多个第二目标词簇;搜索与所述第二目标词簇相关联的一个或多个第二观点词;所述情感得分计算装置102被进一步配置为:根据所述情感语义图中的所述一个或多个第二观点词与所述第二目标词簇之间的情感强度和情感极性,计算所述第二目标词簇的情感得分;将所述一个或多个第二目标词簇的情感得分,作为对所述实体的评价,或者将所述一个或多个第二目标词簇的情感得分的加权求和结果,作为对所述实体的评价。
在一个实施例中,所述情感得分计算装置102被进一步配置为:将所述一个或多个第二观点词与所述第二目标词簇之间的情感强度的加权求和的结果作为所述第二目标词簇的情感得分,其中加权求和的权重为表征对应的情感极性的值。
在一个实施例中,所述搜索装置101被进一步配置为搜索与所述一个或多个第二观点词相关联的一个或多个第二修饰词;并且其中所述情感得分计算装置102被进一步配置为还根据所述情感语义图中的所述一个或多个第二修饰词与所述一个或多个第二观点词之间的作用强度和情感极性,计算所述第二目标词簇的情感得分。
在一个实施例中,所述情感得分计算装置102被进一步配置为将所述一个或多个第二观点词与所述第二目标词簇之间的情感强度与表征对应的情感极性的值的乘积的加权求和的结果作为所述第二目标词簇的情感得分,其中该加权求和的权重为所述一个或多个第二修饰词与所述一个或多个第二观点词之间的作用强度与表征对应的情感极性的值的乘积。
在一个实施例中,所述第一目标词簇对应的目标词与所述第二目标词簇对应的目标词之间具有整体与组成部分的关系、行政区划关系、组织关系、人际关系之一。
由于在根据本发明的实体评价设备1000所包括的各个装置中的处理分别与上面描述的实体评价方法600、700的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图11所示的通用计算机1100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图11示出可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
在图11中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,还根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种用于评价文本的情感度的方法,包括:
从待评价的文本中抽取目标词和观点词;
在包括有目标词簇与观点词之间的情感关系的情感语义图中,
搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词;
根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。
2.如附记1所述的方法,其中
所述情感语义图中还包括有观点词与修饰词之间的关系;并且
还从所述待评价的文本中抽取修饰词;
还在所述情感语义图中搜索与所述观点词相关联的所述修饰词;
还根据所述情感语义图中的所述观点词与所述修饰词之间的作用强度和情感极性,计算所述待评价的文本的情感度。
3.如附记1或2所述的方法,其中所述情感语义图具有如下形式之一:表、数据库、数组、TXT文本文件、资源描述框架RDF文件、XML文件。
4.如附记2所述的方法,其中
基于与目标词、观点词、修饰词相关的辞典,进行所述抽取;或者
利用训练好的抽取模型,进行所述抽取。
5.如附记2所述的方法,其中
如果没有搜索到所述观点词,则根据观点词的默认的情感强度和识别的情感极性计算所述待评价的文本的情感度;
如果搜索到所述观点词但没有搜索到所述修饰词,则根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性以及所述修饰词的默认的作用强度和识别的情感极性计算所述待评价的文本的情感度。
6.如附记1所述的方法,其中所述情感语义图通过如下训练步骤获得:
从训练文本中抽取目标词、观点词和修饰词,并将语义相同或相近的目标词聚类为目标词簇;
识别观点词和修饰词的情感极性;
基于所述目标词簇、所述观点词、所述修饰词、所识别的情感极性,构建所述情感语义图;
利用训练文本,计算所述观点词对于所述目标词簇的情感强度以及所述修饰词的作用强度;
利用所计算的情感强度和作用强度,更新所构建的情感语义图;
其中所述情感语义图中目标词簇与观点词之间的路径表明该观点词对于该目标词簇的情感强度和情感极性,观点词和修饰词之间的路径表明该修饰词对于该观点词的作用强度和情感极性。
7.如附记6所述的方法,其中
基于与观点词、修饰词相关的辞典,进行所述识别;或者
利用训练好的识别模型,进行所述识别;或者
人工进行所述识别。
8.如附记6所述的方法,其中所述计算观点词对于目标词簇的情感强度包括:
针对同一目标词簇中包括的目标词,选取由包括该目标词、一个或多个观点词且不包括修饰词的、标注有情感分数的训练样本构成的第一样本集;
对于给定的用于根据文本中的观点词计算文本的情感得分的第一公式,通过整数线性规划,获得所述一个或多个观点词对于该目标词簇的情感强度,使得根据所获得的情感强度、所述观点词的情感极性、按照该第一公式,计算得到的第一样本集中的各个样本的情感得分与对应标注的情感分数之间的差的绝对值的总和最小。
9.如附记8所述的方法,其中所述第一公式包括:将文本中的各个观点词的情感强度加权求和的结果作为文本的情感得分,其中加权求和的权重为表征各个观点词的情感极性的值。
10.如附记6所述的方法,其中所述计算修饰词的作用强度包括:
选取由包括一个或多个观点词和一个或多个修饰词的、标注有情感分数的训练样本构成的第二样本集;
对于给定的用于根据文本中的观点词和修饰词计算文本的情感得分的第二公式,通过整数线性规划,获得所述一个或多个修饰词对于所述一个或多个观点词的作用强度,使得根据所获得的修饰词的作用强度、之前获得的观点词的情感强度、所述观点词的情感极性、所述修饰词的情感极性、按照该第二公式,计算得到的第二样本集中的各个样本的情感得分与对应标注的情感分数之间的差的绝对值的总和最小;
将所获得的同一修饰词的多个对于特定观点词的作用强度求平均值,并将平均值作为该修饰词的作用强度。
11.如附记10所述的方法,其中所述第二公式包括:将文本中的各个观点词的情感强度和情感极性的乘积的加权求和的结果作为文本的情感得分,其中加权求和的权重为与观点词相关联的修饰词的作用强度和表征该修饰词的情感极性的值的乘积。
12.如附记6所述的方法,其中所述训练步骤还包括:
基于语义相关的先验知识,确定目标词簇之间的关系;
其中还基于所述目标词簇之间的关系构建所述情感语义图;并且
所述情感语义图中目标词簇与目标词簇之间的有向边表明该有向边连接的两个目标词簇之间的语义关系。
13.如附记1所述的方法,其中在情感语义图中同一观点词与不同目标词簇之间的情感强度和情感极性彼此不同;同一修饰词与不同观点词之间的情感强度和情感极性完全相同。
14.一种用于评价实体的方法,包括:
在包括有目标词簇与观点词之间的情感关系的情感语义图中,
搜索与待评价的实体对应的或者在语义上最相近的第一目标词簇,
搜索与所述第一目标词簇相关联的一个或多个第一观点词;
根据所述情感语义图中的所述第一目标词簇与所述一个或多个第一观点词之间的情感强度和情感极性,计算所述待评价的实体的情感得分。
15.如附记14所述的方法,其中将所述第一目标词簇与所述一个或多个第一观点词之间的情感强度的加权求和的结果作为所述待评价的实体的情感得分,其中加权求和的权重为表征所述第一观点词对于所述第一目标词簇的情感极性的值。
16.如附记14所述的方法,其中
所述情感语义图中还包括有观点词与修饰词之间的关系;并且
所述方法还包括:搜索与所述一个或多个第一观点词相关联的一个或多个第一修饰词;并且其中还根据所述情感语义图中的所述一个或多个第一修饰词与所述一个或多个第一观点词之间的作用强度和情感极性,计算所述待评价的实体的情感得分。
17.如附记14所述的方法,其中
所述情感语义图中还包括有目标词簇之间的关系;并且
所述方法还包括:
如果未找到所述第一观点词,则搜索与该第一目标词簇相关联的一个或多个第二目标词簇;
搜索与所述第二目标词簇相关联的一个或多个第二观点词;
根据所述情感语义图中的所述一个或多个第二观点词与所述第二目标词簇之间的情感强度和情感极性,计算所述第二目标词簇的情感得分;
将所述一个或多个第二目标词簇的情感得分,作为对所述实体的评价,或者将所述一个或多个第二目标词簇的情感得分的加权求和结果,作为对所述实体的评价。
18.如附记14所述的方法,其中所述第一目标词簇中的目标词与所述第二目标词簇中的目标词之间具有整体与组成部分的关系、行政区划关系、组织关系、人际关系之一。
19.一种用于评价文本的情感度的设备,包括:
抽取装置,用于从待评价的文本中抽取目标词和观点词;
搜索装置,用于在包括有目标词簇与观点词之间的情感关系的情感语义图中,
搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,
搜索与所述目标词簇相关联的所述观点词;
情感度计算装置,用于根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。
20.一种用于评价实体的设备,包括:
搜索装置,用于在包括有目标词簇与观点词之间的情感关系的情感语义图中,
搜索与待评价的实体对应的或者在语义上最相近的第一目标词簇,
搜索与所述第一目标词簇相关联的一个或多个第一观点词;
情感得分计算装置,用于根据所述情感语义图中的所述第一目标词簇与所述一个或多个第一观点词之间的情感强度和情感极性,计算所述待评价的实体的情感得分。

Claims (10)

1.一种用于评价文本的情感度的方法,包括:
从待评价的文本中抽取目标词和观点词;
在包括有目标词簇与观点词之间的情感关系的情感语义图中,
搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,
搜索与所述目标词簇相关联的所述观点词;
根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。
2.如权利要求1所述的方法,其中
所述情感语义图中还包括有观点词与修饰词之间的关系;并且
还从所述待评价的文本中抽取修饰词;
还在所述情感语义图中搜索与所述观点词相关联的所述修饰词;
还根据所述情感语义图中的所述观点词与所述修饰词之间的作用强度和情感极性,计算所述待评价的文本的情感度。
3.如权利要求1或2所述的方法,其中所述情感语义图具有如下形式之一:表、数据库、数组、TXT文本文件、资源描述框架RDF文件、XML文件。
4.如权利要求1或2所述的方法,其中所述情感语义图通过如下训练步骤获得:
从训练文本中抽取目标词、观点词和修饰词;
将语义相同或相近的所述目标词聚类为目标词簇;
识别所述观点词和所述修饰词的情感极性;
基于所述目标词簇、所述观点词、所述修饰词、所识别的观点词和修饰词的情感极性,构建所述情感语义图;
利用所述训练文本,计算所述观点词对于所述目标词簇的情感强度以及所述修饰词的作用强度;
利用所计算的情感强度和作用强度,更新所构建的情感语义图;
其中所述情感语义图中目标词簇与观点词之间的路径表明该观点词对于该目标词簇的情感强度和情感极性,观点词和修饰词之间的路径表明该修饰词对于该观点词的作用强度和情感极性。
5.如权利要求4所述的方法,其中所述训练步骤还包括:
基于语义相关的先验知识,确定所述目标词簇之间的关系;
其中还基于所述目标词簇之间的关系构建所述情感语义图;并且
所述情感语义图中目标词簇与目标词簇之间的有向边表明该有向边连接的两个目标词簇之间的语义关系。
6.一种用于评价实体的方法,包括:
在包括有目标词簇与观点词之间的情感关系的情感语义图中,
搜索与待评价的实体对应的或者在语义上最相近的第一目标词簇,
搜索与所述第一目标词簇相关联的一个或多个第一观点词;
根据所述情感语义图中的所述第一目标词簇与所述一个或多个第一观点词之间的情感强度和情感极性,计算所述待评价的实体的情感得分。
7.如权利要求6所述的方法,其中
所述情感语义图中还包括有观点词与修饰词之间的关系;并且
所述方法还包括:搜索与所述一个或多个第一观点词相关联的一个或多个第一修饰词;并且其中还根据所述情感语义图中的所述一个或多个第一观点词与所述一个或多个第一修饰词之间的作用强度和情感极性,计算所述待评价的实体的情感得分。
8.如权利要求6所述的方法,其中
所述情感语义图中还包括有目标词簇之间的关系;并且
所述方法还包括:
如果未找到所述第一观点词,则搜索与该第一目标词簇相关联的一个或多个第二目标词簇;
搜索与所述第二目标词簇相关联的一个或多个第二观点词;
根据所述情感语义图中的所述第二目标词簇与所述一个或多个第二观点词之间的情感强度和情感极性,计算所述第二目标词簇的情感得分;
将所述一个或多个第二目标词簇的情感得分,作为对所述实体的评价,或者将所述一个或多个第二目标词簇的情感得分的加权求和结果,作为对所述实体的评价。
9.一种用于评价文本的情感度的设备,包括:
抽取装置,用于从待评价的文本中抽取目标词和观点词;
搜索装置,用于在包括有目标词簇与观点词之间的情感关系的情感语义图中,
搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,
搜索与所述目标词簇相关联的所述观点词;
情感度计算装置,用于根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。
10.一种用于评价实体的设备,包括:
搜索装置,用于在包括有目标词簇与观点词之间的情感关系的情感语义图中,
搜索与待评价的实体对应的或者在语义上最相近的第一目标词簇,
搜索与所述第一目标词簇相关联的一个或多个第一观点词;
情感得分计算装置,用于根据所述情感语义图中的所述第一目标词簇与所述一个或多个第一观点词之间的情感强度和情感极性,计算所述待评价的实体的情感得分。
CN201210564243.9A 2012-12-21 2012-12-21 用于评价文本的情感度及用于评价实体的方法和设备 Expired - Fee Related CN103885933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210564243.9A CN103885933B (zh) 2012-12-21 2012-12-21 用于评价文本的情感度及用于评价实体的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210564243.9A CN103885933B (zh) 2012-12-21 2012-12-21 用于评价文本的情感度及用于评价实体的方法和设备

Publications (2)

Publication Number Publication Date
CN103885933A true CN103885933A (zh) 2014-06-25
CN103885933B CN103885933B (zh) 2017-03-01

Family

ID=50954828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210564243.9A Expired - Fee Related CN103885933B (zh) 2012-12-21 2012-12-21 用于评价文本的情感度及用于评价实体的方法和设备

Country Status (1)

Country Link
CN (1) CN103885933B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718543A (zh) * 2016-01-18 2016-06-29 腾讯科技(深圳)有限公司 语句的展示方法和装置
CN106296288A (zh) * 2016-08-10 2017-01-04 常州大学 一种网络评价文本引导下的商品性能评价方法
CN106776568A (zh) * 2016-12-26 2017-05-31 成都康赛信息技术有限公司 基于用户评价的推荐理由生成方法
CN107153641A (zh) * 2017-05-08 2017-09-12 北京百度网讯科技有限公司 评论信息确定方法、装置、服务器及存储介质
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
CN107977352A (zh) * 2016-10-21 2018-05-01 富士通株式会社 信息处理装置和方法
CN108073498A (zh) * 2016-11-07 2018-05-25 富士通株式会社 软件测试中获取反馈的插件和检测重复反馈的方法及装置
CN108475388A (zh) * 2015-12-31 2018-08-31 电子湾有限公司 用于识别靠前属性的用户界面
CN110209767A (zh) * 2019-05-28 2019-09-06 重庆大学 一种用户画像构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法
CN102236636A (zh) * 2010-04-26 2011-11-09 富士通株式会社 情感倾向性分析方法和装置
US20120197903A1 (en) * 2011-01-31 2012-08-02 Yue Lu Objective-function based sentiment
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236636A (zh) * 2010-04-26 2011-11-09 富士通株式会社 情感倾向性分析方法和装置
US20120197903A1 (en) * 2011-01-31 2012-08-02 Yue Lu Objective-function based sentiment
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KU LW,LO YS,CHEN HH: "Using Polarity Scores of Words for Sentence-level", 《PROCEEDINGS OF NTCIR-6 WORKSHOP MEETING》, 31 December 2007 (2007-12-31), pages 3 - 1 *
张彬,杨志晓: "基于基准词的文本情感倾向性研究", 《电脑知识与技术》, vol. 7, no. 8, 31 March 2011 (2011-03-31) *
张成功等: "一种基于极性词典的情感分析方法", 《山东大学学报(理学版)》, vol. 47, no. 3, 20 March 2012 (2012-03-20) *
来火尧: "基于主题相关性的中文文本情感分类研究", 《中国优秀硕士学位论文全文数据库》, 15 December 2009 (2009-12-15) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475388A (zh) * 2015-12-31 2018-08-31 电子湾有限公司 用于识别靠前属性的用户界面
US11544776B2 (en) 2015-12-31 2023-01-03 Ebay Inc. System, method, and media for identifying top attributes
CN105718543A (zh) * 2016-01-18 2016-06-29 腾讯科技(深圳)有限公司 语句的展示方法和装置
CN105718543B (zh) * 2016-01-18 2019-05-24 腾讯科技(深圳)有限公司 语句的展示方法和装置
CN106296288A (zh) * 2016-08-10 2017-01-04 常州大学 一种网络评价文本引导下的商品性能评价方法
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
CN107977352A (zh) * 2016-10-21 2018-05-01 富士通株式会社 信息处理装置和方法
CN108073498A (zh) * 2016-11-07 2018-05-25 富士通株式会社 软件测试中获取反馈的插件和检测重复反馈的方法及装置
CN106776568A (zh) * 2016-12-26 2017-05-31 成都康赛信息技术有限公司 基于用户评价的推荐理由生成方法
CN107153641A (zh) * 2017-05-08 2017-09-12 北京百度网讯科技有限公司 评论信息确定方法、装置、服务器及存储介质
CN110209767A (zh) * 2019-05-28 2019-09-06 重庆大学 一种用户画像构建方法

Also Published As

Publication number Publication date
CN103885933B (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
CN103885933A (zh) 用于评价文本的情感度的方法和设备
Gaeta et al. Ontology extraction for knowledge reuse: The e-learning perspective
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
US20120158400A1 (en) Methods and systems for knowledge discovery
WO2024131111A1 (zh) 一种智能写作方法、装置、设备及非易失性可读存储介质
Yang et al. Leveraging procedural knowledge for task-oriented search
CN111966792B (zh) 一种文本处理方法、装置、电子设备及可读存储介质
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN113095080A (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
Nam et al. Structuralizing biomedical abstracts with discriminative linguistic features
Quan et al. An improved accurate classification method for online education resources based on support vector machine (SVM): Algorithm and experiment
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
CN114997288A (zh) 一种设计资源关联方法
Bondielli et al. On the use of summarization and transformer architectures for profiling résumés
Li et al. Wikipedia based short text classification method
CN109783650B (zh) 中文网络百科知识去噪方法、系统及知识库
CN108694165B (zh) 面向产品评论的跨领域对偶情感分析方法
CN117235138A (zh) 一种代码迁移过程中的跨库api推荐方法
Chen et al. A hybrid approach for question retrieval in community question answerin
Mahalakshmi et al. Context based retrieval of scientific publications via reader lens
Talita et al. Challenges in building domain ontology for minority languages
Sirajzade et al. The LuNa Open Toolbox for the Luxembourgish Language
Su et al. Using idiomatic expression for Chinese sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170301

Termination date: 20181221