CN108255803A - 文档情感的判断方法和装置 - Google Patents
文档情感的判断方法和装置 Download PDFInfo
- Publication number
- CN108255803A CN108255803A CN201611256003.7A CN201611256003A CN108255803A CN 108255803 A CN108255803 A CN 108255803A CN 201611256003 A CN201611256003 A CN 201611256003A CN 108255803 A CN108255803 A CN 108255803A
- Authority
- CN
- China
- Prior art keywords
- sentence
- evaluation object
- emotion
- score value
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文档情感的判断方法和装置。其中,该方法包括:对文档进行语句识别,得到多条语句;提取出多条语句中包括的所有评价对象;基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值;基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个评价对象的情感类型,其中,情感类型包括如下之一:正面情感、中立情感,负面情感。本发明解决了现有技术中的情感判断方法对于包含多个评价对象的文档,情感判断准确度低的技术问题。
Description
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种文档情感的判断方法和装置。
背景技术
情感判断是自然语言处理的关键任务之一,目前,无论是基于词汇还是基于语料,处理文档的情感分析方法很多,但受限于实际问题的复杂程序和文档较复杂的特征情感判断的限制,没有一个万能的算法可以在各种具体问题中都能够具有较好的情感判断准确率。而技术选型尤其是评价对象与情感的匹配过程需要大量人为主观性的参与。因此,如何能够更好的进行情感判断仍然是领域内一大难题。
现有的情感判断方法中并不存在一个万能的算法,能够帮助解决各式各样的情感分析问题,因此,有人提出Frequent phrase+rules(常用词汇+语法)等一系列方法,旨在词汇和语料的基础上对不同评价对象且不同倾向的文档进行分析,然后再对分析结果聚合得出结论。这种方法在很大程度上弥补了同一篇文档存在不同评价对象的不足,但是这种方法对于评价对象缺失的文档不能有效解决,从而会造成情感与语料或词汇不匹配而导致情感判断缺失的情况。
针对现有技术中的情感判断方法对于包含多个评价对象的文档,情感判断准确度低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文档情感的判断方法和装置,以至少解决现有技术中的情感判断方法对于包含多个评价对象的文档,情感判断准确度低的技术问题。
根据本发明实施例的一个方面,提供了一种文档情感的判断方法,包括:对文档进行语句识别,得到多条语句;提取出多条语句中包括的所有评价对象;基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值;基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个评价对象的情感类型,其中,情感类型至少包括如下之一:正面情感、中立情感,负面情感。
进一步地,基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值包括:判断每条语句是否包含至少一个评价对象;若包含,则提取该条语句中每个评价对象对应的所有情感词;根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句对应于每个评价对象的分值。
进一步地,根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句对应于每个评价对象的分值包括:根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句中每个评价对象对应于每个情感词的分值;对该条语句中每个评价对象对应的所有情感词的分值进行累加,得到该语句对应于每个评价对象的分值。
进一步地,根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句中每个评价对象对应于每个情感词的分值包括:如果该条语句中每个评价对象对应的每个情感词的情感类型为正面情感,则确定该条语句中每个评价对象对应于该情感词的分值为第一预设值;如果该条语句中每个评价对象对应的每个情感词的情感类型为中立情感,则确定该条语句中每个评价对象对应于该情感词的分值为第二预设值;如果该条语句中每个评价对象对应的每个情感词的情感类型为负面情感,则确定该语句中每个评价对象对应于该情感词的分值为第三预设值。
进一步地,如果任意一条语句不包含任意一个评价对象,则确定该语句对应于其包括的每个评价对象的分值为第四预设值。
进一步地,基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个评价对象的情感类型包括:对每条语句对应于其包括的每个评价对象的分值进行加权,并对加权后的每条语句对应于其包括的每个评价对象的分值进行累加,得到文档对应于每个评价对象的总分值;基于文档中每个评价对象的总分值以及预先设置的分值范围与情感类型间的对应关系,确定出文档对应于每个评价对象的情感类型。
进一步地,基于文档中每个评价对象的总分值以及预先设置的分值范围与情感类型间的对应关系,确定出文档对应于每个评价对象的情感类型包括:基于每个评价对象的总分值以及该评价对象对应的所有情感词的个数,确定该评价对象的平均分值;确定每个评价对象的平均分值所处的分值范围;根据预先设置的分值范围与情感类型间的对应关系以及每个评价对象的平均分值所处的分值范围,确定出每个评价对象对应的情感类型;将每个评价对象对应的情感类型作为文档对应于每个评价对象的情感类型。
根据本发明实施例的另一方面,还提供了一种文档情感的判断装置,包括:识别单元,用于对文档进行语句识别,得到多条语句;提取单元,用于提取出多条语句中包括的所有评价对象;第一处理单元,用于基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值;第二处理单元,用于基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个评价对象的情感类型,其中,情感类型包括如下之一:正面情感、中立情感,负面情感。
进一步地,第一处理单元包括:判断模块,用于判断每条语句是否包含至少一个评价对象;提取模块,用于若包含,则提取该条语句中每个评价对象对应的所有情感词;处理模块,用于根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句对应于每个评价对象的分值。
进一步地,处理模块包括:第一处理子模块,用于根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句中每个评价对象对应于每个情感词的分值;累加子模块,用于对该条语句中每个评价对象对应的所有情感词的分值进行累加,得到该语句对应于每个评价对象的分值。
进一步地,第一处理子模块还用于如果该条语句中每个评价对象对应的每个情感词的情感类型为正面情感,则确定该条语句中每个评价对象对应于该情感词的分值为第一预设值;如果该条语句中每个评价对象对应的每个情感词的情感类型为中立情感,则确定该条语句中每个评价对象对应于该情感词的分值为第二预设值;如果该条语句中每个评价对象对应的每个情感词的情感类型为负面情感,则确定该语句中每个评价对象对应于该情感词的分值为第三预设值。
进一步地,判断单元还包括:第一确定模块,用于如果任意一条语句不包含任意一个评价对象,则确定该语句对应于其包括的每个评价对象的分值为第四预设值。
进一步地,第二处理单元包括:加权模块,用于对每条语句对应于其包括的每个评价对象的分值进行加权,并对加权后的每条语句对应于其包括的每个评价对象的分值进行累加,得到文档对应于每个评价对象的总分值;第二确定模块,用于基于文档中每个评价对象的总分值以及预先设置的分值范围与情感类型间的对应关系,确定出文档对应于每个评价对象的情感类型。
进一步地,第二确定模块包括:第一确定子模块,用于基于每个评价对象的总分值以及该评价对象对应的所有情感词的个数,确定该评价对象的平均分值;第二确定子模块,用于确定每个评价对象的平均分值所处的分值范围;第三确定子模块,用于根据预先设置的分值范围与情感类型间的对应关系以及每个评价对象的平均分值所处的分值范围,确定出每个评价对象对应的情感类型;第二处理子模块,用于将每个评价对象对应的情感类型作为文档对应于每个评价对象的情感类型。
在本发明实施例中,对文档进行语句识别,得到多条语句,提取出多条语句中包括的所有评价对象,基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值,并基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个评价对象的情感类型,从而可以根据抽取的不同评价对象对文档情感进行分类判断,得到一篇文档的不同情感的判断结果。容易注意到的是,本发明所提供的文档情感的判断方法结合了独立情感判断和累计计算分值,从而解决了现有技术中的情感判断方法对于包含多个评价对象的文档,情感判断准确度低的技术问题。因此,通过本发明上述实施例提供的方案可以达到提高情感判断准确度的技术效果,不仅可以运用到自然语言处理领域下不同视角、方面和评价对象的情感判断场景中,还可以运用到产品运营领域下同一类型不同对象的情感判断场景中。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文档情感的判断方法的流程图;
图2是根据本发明实施例的一种文档情感的判断装置的示意图;
图3是根据本发明实施例的一种可选的文档情感的判断装置的示意图;
图4是根据本发明实施例的一种可选的文档情感的判断装置的示意图;
图5是根据本发明实施例的一种可选的文档情感的判断装置的示意图;
图6是根据本发明实施例的一种可选的文档情感的判断装置的示意图;以及
图7是根据本发明实施例的一种可选的文档情感的判断装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文档情感的判断方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种文档情感的判断方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,对文档进行语句识别,得到多条语句。
具体的,上述的文档可以是用户对商品、服务、新闻等领域发表心得、体会和意见的评论信息,用户往往会通过评论信息表达用户对商品、服务、新闻等领域的情感倾向,例如,用户对商品、服务、新闻等领域满意时,会表达褒义情感;用户对商品、服务、新闻等领域不满意时,会表达贬义情感;用户对商品、服务、新闻等领域中立态度时,会表达中立情感。
在一种可选的方案中,当需要分析用户发表的评论信息所要表达的情感倾向性,即判断用户要表达褒义情感还是贬义情感时,可以依据标点符号对文档中的语句进行识别和拆分,得到文档中包含的所有语句。
此处需要说明的是,本发明对语句识别拆分的方法不做限定,任何能够实现语句识别拆分的方法都可以实现本发明上述实施例的目的。
步骤S104,提取出多条语句中包括的所有评价对象。
具体的,上述的评价对象可以是文档中表达内容所针对的主体,例如,在一篇对不同型号手机进行性能评价的文档中,不同型号手机即为评价对象。
此处需要说明的是,自然语言处理中,对于评价对象的抽取方法有很多种方法,例如,利用名词挖掘、评价词的映射、监督学习方法和主题模型方法等各种抽取方法。本发明并不要求局限于一种或确定的几种抽取方法,评价对象的抽取方法满足如下条件即可实现本发明上述实施例的目的:对每个句子的评价对象的抽取是完全的,没有缺失。事实上,绝大多数抽取方法和工具都可以满足上述条件。
步骤S106,基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值。
在一种可选的方案中,可以针对不同的评价对象,根据不同评价对象对应的情感词,判断每条语句所要表达的情感倾向性,从而得到每条语句的分值,不同的情感倾向可以对应不同的分值,例如,褒义情感可以对应高分值,贬义情感可以对应低分值,甚至负数分值。
步骤S108,基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个所述评价对象的情感类型,其中,情感类型包括如下之一:正面情感、中立情感,负面情感。
具体的,上述的正面情感可以是赞美、夸奖、表扬等褒义情感,负面情感可以是批评、指责、斥责等贬义情感,中立情感可以是客观评价,不褒不贬的情感。
在一种可选的方案中,在针对不同的评价对象,得到每条语句的分值之后,可以针对不同的评价对象,将文档所有语句的分值进行汇总,得到不同评价对象的文档情感,从而得到一篇文档的不同情感的判断结果,可以根据实际情况从多个判断结果中选择需要的情感结果。
通过本发明上述实施例,对文档进行语句识别,得到多条语句,提取出多条语句中包括的所有评价对象,基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值,并基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个评价对象的情感类型,从而可以根据抽取的不同评价对象对文档情感进行分类判断,得到一篇文档的不同情感的判断结果。容易注意到的是,本发明所提供的文档情感的判断方法结合了独立情感判断和累计计算分值,从而解决了现有技术中的情感判断方法对于包含多个评价对象的文档,情感判断准确度低的技术问题。因此,通过本发明上述实施例提供的方案可以达到提高情感判断准确度的技术效果,不仅可以运用到自然语言处理领域下不同视角、方面和评价对象的情感判断场景中,还可以运用到产品运营领域下同一类型不同对象的情感判断场景中。
可选的,在本发明上述实施例中,步骤S106,基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值包括:
步骤S1062,判断每条语句是否包含至少一个评价对象。
步骤S1064,若包含,则提取该条语句中每个评价对象对应的所有情感词。
具体的,上述的情感词可以是用于表征用户所要表达情感倾向的词汇,通常可以是形容词,例如,当用户要表达褒义情感时,可以使用好、非常好、十分流畅等褒义词汇;当用户要表达贬义情感时,可以使用不好、不流畅、性价比低等贬义词汇;当用户要表达中立情感时,可以使用一致、效果相同、流畅度相似等中立词汇。
步骤S1066,根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句对应于每个评价对象的分值。
在一种可选的方案中,在判断每条语句所要表达的情感倾向性之前,首先需要判断语句中是否包含有评价对象,如果语句中包含有评价对象,则可以参考汉语褒贬词典、同义词词典等情感词典,并且不考虑情感词所在位置和权重,从每条语句中提取所有情感词作为每个评价对象对应的情感词,如果一条语句中包含正面情感词,则确定该语句的情感为正面情感,对应的分值为正面情感的分值;如果一条语句中包含中立情感词,则确定该语句的情感为中立情感,对应的分值为中立情感的分值;如果一条语句中包含负面情感词,则确定该语句的情感为负面情感,对应的分值为负面情感的分值。
可选的,在本发明上述实施例中,步骤S1066,根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句对应于每个评价对象的分值包括:
步骤S112,根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句中每个评价对象对应于每个情感词的分值。
步骤S114,对该条语句中每个评价对象对应的所有情感词的分值进行累加,得到该语句对应于每个评价对象的分值。
在一种可选的方案中,在一条语句中包含的每个评价对象对应多个情感词的情况下,则可以独立计算每个评价对象对应的每个情感词对应的分值,然后将每个评价对象对应的所有情感词的分值进行累加,从而得到该语句对应于每个评价对象的分值。
可选的,在本发明上述实施例中,步骤S112,根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句中每个评价对象对应于每个情感词的分值包括:
步骤S1122,如果该条语句中每个评价对象对应的每个情感词的情感类型为正面情感,则确定该条语句中每个评价对象对应于该情感词的分值为第一预设值。
具体的,上述的第一预设值可以是+1。
步骤S1124,如果该条语句中每个评价对象对应的每个情感词的情感类型为中立情感,则确定该条语句中每个评价对象对应于该情感词的分值为第二预设值。
具体的,上述的第二预设值可以是0。
步骤S1126,如果该条语句中每个评价对象对应的每个情感词的情感类型为负面情感,则确定该语句中每个评价对象对应于该情感词的分值为第三预设值。
具体的,上述的第三预设值可以是-1。
在一种可选的方案中,分值计算依据如下:正面情感的分值为+1,负面情感的分值为-1,中立情感的分值为0,根据上述分值计算依据,可以得到每个评价对象对应的每个情感词的分值。
可选的,在本发明上述实施例中,如果任意一条语句不包含任意一个评价对象,则确定该语句对应于其包括的每个评价对象的分值为第四预设值。
具体的,上述的第四预设值可以是0。
在一种可选的方案中,在判断每条语句所要表达的情感倾向性之前,首先需要判断语句中是否包含有评价对象,如果语句中不包含评价对象,则直接确定该语句的分值为0,不需要提取语句中的情感词,并计算情感词的分值。
可选的,在本发明上述实施例中,步骤S108,基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个所述评价对象的情感类型包括:
步骤S1082,对每条语句对应于其包括的每个评价对象的分值进行加权,并对加权后的每条语句对应于其包括的每个评价对象的分值进行累加,得到文档对应于每个评价对象的总分值。
步骤S1084,基于文档中每个评价对象的总分值以及预先设置的分值范围与情感类型间的对应关系,确定出文档对应于每个评价对象的情感类型。
具体的,上述的预先设置的分值范围可以是-1至+1的数值范围。
在一种可选的方案中,可以在得到每个语句的分值之后,将包含同一评价对象的语句的分值进行加权累加,得到同一评价对象的总分值,并将计算得到的总分值与预先设置的分值范围进行比较,得到不同评价对象的文档情感的情感类型。
在另一种可选的方案中,可以在得到每个语句的分值之后,将包含同一评价对象的语句的分值进行累加,得到同一评价对象的总分值,然后求平均数,将计算得到的平均值与预先设置的分值范围进行比较,得到不同评价对象的文档情感的情感类型。
可选的,在本发明上述实施例中,步骤S1084,基于文档中每个评价对象的总分值以及预先设置的分值范围与情感类型间的对应关系,确定出文档对应于每个评价对象的情感类型包括:
步骤S122,基于每个评价对象的总分值以及该评价对象对应的所有情感词的个数,确定该评价对象的平均分值。
步骤S124,确定每个评价对象的平均分值所处的分值范围。
步骤S126,根据预先设置的分值范围与情感类型间的对应关系以及每个评价对象的平均分值所处的分值范围,确定出每个评价对象对应的情感类型。
步骤S128,将每个评价对象对应的情感类型作为文档对应于每个评价对象的情感类型。
在一种可选的方案中,在得到同一评价对象的总分值之后,可以根据该语句中包含的情感词的数量,计算得到同一评价对象的平均值,在计算得到平均值之后,如果平均值大于1,则确定该评价对象对应的文档情感的类型为正面情感;如果平均值等于0,则确定该评价对象对应的文档情感的类型为中立情感;如果平均值小于-1,则确定该评价对象对应的文档情感的类型为负面情感。
实施例2
根据本发明实施例,提供了一种文档情感的判断装置的实施例,图2是根据本发明实施例的一种文档情感的判断装置的示意图,如图2所示,该装置包括:
识别单元21,用于对文档进行语句识别,得到多条语句。
具体的,上述的文档可以是用户对商品、服务、新闻等领域发表心得、体会和意见的评论信息,用户往往会通过评论信息表达用户对商品、服务、新闻等领域的情感倾向,例如,用户对商品、服务、新闻等领域满意时,会表达褒义情感;用户对商品、服务、新闻等领域不满意时,会表达贬义情感;用户对商品、服务、新闻等领域中立态度时,会表达中立情感。
在一种可选的方案中,当需要分析用户发表的评论信息所要表达的情感倾向性,即判断用户要表达褒义情感还是贬义情感时,可以依据标点符号对文档中的语句进行识别和拆分,得到文档中包含的所有语句。
此处需要说明的是,本发明对语句识别拆分的方法不做限定,任何能够实现语句识别拆分的方法都可以实现本发明上述实施例的目的。
提取单元23,用于提取出多条语句中包括的所有评价对象。
具体的,上述的评价对象可以是文档中表达内容所针对的主体,例如,在一篇对不同型号手机进行性能评价的文档中,不同型号手机即为评价对象。
此处需要说明的是,自然语言处理中,对于评价对象的抽取方法有很多种方法,例如,利用名词挖掘、评价词的映射、监督学习方法和主题模型方法等各种抽取方法。本发明并不要求局限于一种或确定的几种抽取方法,评价对象的抽取方法满足如下条件即可实现本发明上述实施例的目的:对每个句子的评价对象抽取是完全的,没有缺失。事实上,绝大多数抽取方法和工具都可以满足上述条件。
第一处理单元25,用于基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值。
在一种可选的方案中,可以针对不同的评价对象,根据不同评价对象对应的情感词,判断每条语句所要表达的情感倾向性,从而得到每条语句的分值,不同的情感倾向可以对应不同的分值,例如,褒义情感可以对应高分值,贬义情感可以对应低分值。
第二处理单元27,用于基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个所述评价对象的情感类型,其中,情感类型包括如下之一:正面情感、中立情感,负面情感。
具体的,上述的正面情感可以是赞美、夸奖、表扬等褒义情感,负面情感可以是批评、指责、斥责等贬义情感,中立情感可以是客观评价,不褒不贬的情感。
在一种可选的方案中,在针对不同的评价对象,得到每条语句的分值之后,可以针对不同的评价对象,将文档所有语句的分值进行汇总,得到不同评价对象的文档情感,从而得到一篇文档的不同情感的判断结果,可以根据实际情况从多个判断结果中选择需要的情感结果。
通过本发明上述实施例,通过识别单元对文档进行语句识别,得到多条语句,通过提取单元提取出多条语句中包括的所有评价对象,通过第一处理单元基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值,通过第二处理单元基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个评价对象的情感类型,从而可以根据抽取的不同评价对象对文档情感进行分类判断,得到一篇文档的不同情感的判断结果。容易注意到的是,本发明所提供的文档情感的判断方法结合了独立情感判断和累计计算分值,从而解决了现有技术中的情感判断方法对于包含多个评价对象的文档,情感判断准确度低的技术问题。因此,通过本发明上述实施例提供的方案可以达到提高情感判断准确度的技术效果,不仅可以运用到自然语言处理领域下不同视角、方面和评价对象的情感判断场景中,还可以运用到产品运营领域下同一类型不同对象的情感判断场景中。
可选的,在本发明上述实施例中,如图3所示,第一处理单元25包括:
判断模块31,用于判断每条语句是否包含至少一个评价对象。
提取模块33,用于若包含,则提取该条语句中每个评价对象对应的所有情感词。
具体的,上述的情感词可以是用于表征用户所要表达情感倾向的词汇,通常可以是形容词,例如,当用户要表达褒义情感时,可以使用好、非常好、十分流畅等褒义词汇;当用户要表达贬义情感时,可以使用不好、不流畅、性价比低等贬义词汇;当用户要表达中立情感时,可以使用一致、效果相同、流畅度相似等中立词汇。
处理模块35,用于根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句对应于每个评价对象的分值。
在一种可选的方案中,在判断每条语句所要表达的情感倾向性之前,首先需要判断语句中是否包含有评价对象,如果语句中包含有评价对象,则可以参考汉语褒贬词典、同义词词典等情感词典,并且不考虑情感词所在位置和权重,从每条语句中提取所有情感词作为每个评价对象对应的情感词,如果一条语句中包含正面情感词,则确定该语句的情感为正面情感,对应的分值为正面情感的分值;如果一条语句中包含中立情感词,则确定该语句的情感为中立情感,对应的分值为中立情感的分值;如果一条语句中包含负面情感词,则确定该语句的情感为负面情感,对应的分值为负面情感的分值。
可选的,在本发明上述实施例中,如图4所示,处理模块35包括:
第一处理子模块41,用于根据该条语句中每个评价对象对应的每个情感词的情感类型,得到该条语句中每个评价对象对应于每个情感词的分值。
累加子模块43,用于对该条语句中每个评价对象对应的所有情感词的分值进行累加,得到该语句对应于每个评价对象的分值。
在一种可选的方案中,在一条语句中包含的每个评价对象对应多个情感词的情况下,则可以独立计算每个评价对象对应的每个情感词对应的分值,然后将每个评价对象对应的所有情感词的分值进行累加,从而得到该语句对应于每个评价对象的分值。
可选的,在本发明上述实施例中,第一处理子模块41还用于如果该条语句中每个评价对象对应的每个情感词的情感类型为正面情感,则确定该条语句中每个评价对象对应于该情感词的分值为第一预设值;如果该条语句中每个评价对象对应的每个情感词的情感类型为中立情感,则确定该条语句中每个评价对象对应于该情感词的分值为第二预设值;如果该条语句中每个评价对象对应的每个情感词的情感类型为负面情感,则确定该语句中每个评价对象对应于该情感词的分值为第三预设值。
具体的,上述的第一预设值可以是+1,上述的第二预设值可以是0,上述的第三预设值可以是-1。
在一种可选的方案中,分值计算依据如下:正面情感的分值为+1,负面情感的分值为-1,中立情感的分值为0,根据上述分值计算依据,可以得到每个评价对象对应的每个情感词的分值。
可选的,在本发明上述实施例中,如图5所示,第一处理单元25还包括:第一确定模块51,用于如果任意一条语句不包含任意一个评价对象,则确定该语句对应于其包括的每个评价对象的分值为第四预设值。
具体的,上述的第四预设值可以是0。
在一种可选的方案中,在判断每条语句所要表达的情感倾向性之前,首先需要判断语句中是否包含有评价对象,如果语句中不包含评价对象,则直接确定该语句的分值为0,不需要提取语句中的情感词,并计算情感词的分值。
可选的,在本发明上述实施例中,如图6所示,第二处理单元27包括:
加权模块61,用于对每条语句对应于其包括的每个评价对象的分值进行加权,并对加权后的每条语句对应于其包括的每个评价对象的分值进行累加,得到文档对应于每个评价对象的总分值。
第二确定模块63,用于基于文档中每个评价对象的总分值以及预先设置的分值范围与情感类型间的对应关系,确定出文档对应于每个评价对象的情感类型。
具体的,上述的预先设置的分值范围可以是-1至+1的数值范围。
在一种可选的方案中,可以在得到每个语句的分值之后,将包含同一评价对象的语句的分值进行加权累加,得到同一评价对象的总分值,并将计算得到的总分值与预先设置的分值范围进行比较,得到不同评价对象的文档情感的情感类型。
在另一种可选的方案中,可以在得到每个语句的分值之后,将包含同一评价对象的语句的分值进行累加,得到同一评价对象的总分值,然后求平均数,将计算得到的平均值与预先设置的分值范围进行比较,得到不同评价对象的文档情感的情感类型。
可选的,在本发明上述实施例中,如图7所示,第二确定模块63包括:
第一确定子模块71,用于基于每个评价对象的总分值以及该评价对象对应的所有情感词的个数,确定该评价对象的平均分值。
第二确定子模块73,用于确定每个评价对象的平均分值所处的分值范围。
第三确定子模块75,用于根据预先设置的分值范围与情感类型间的对应关系以及每个评价对象的平均分值所处的分值范围,确定出每个评价对象对应的情感类型。
第二处理子模块77,用于将每个评价对象对应的情感类型作为文档对应于每个评价对象的情感类型。
在一种可选的方案中,在得到同一评价对象的总分值之后,可以根据该语句中包含的情感词的数量,计算得到同一评价对象的平均值,在计算得到平均值之后,如果平均值大于1,则确定该评价对象对应的文档情感的类型为正面情感;如果平均值等于0,则确定该评价对象对应的文档情感的类型为中立情感;如果平均值小于-1,则确定该评价对象对应的文档情感的类型为负面情感。
所述文档情感的判断装置包括处理器和存储器,上述识别单元、提取单元、第一处理单元和第二处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。上述第一预设值、第二预设值、第三预设值和第四预设值都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:对文档进行语句识别,得到多条语句;提取出多条语句中包括的所有评价对象;基于每条语句包括的所有评价对象以及该条语句中每个评价对象对应的情感词,得到该条语句对应于其包括的每个评价对象的分值;基于每条语句对应于其包括的每个评价对象的分值得到文档对应于每个评价对象的情感类型,其中,情感类型包括如下之一:正面情感、中立情感,负面情感。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文档情感的判断方法,其特征在于,包括:
对文档进行语句识别,得到多条语句;
提取出多条所述语句中包括的所有评价对象;
基于每条所述语句包括的所有所述评价对象以及该条语句中每个所述评价对象对应的情感词,得到该条语句对应于其包括的每个所述评价对象的分值;
基于每条所述语句对应于其包括的每个所述评价对象的分值得到所述文档对应于每个所述评价对象的情感类型,其中,所述情感类型至少包括如下之一:正面情感、中立情感,负面情感。
2.根据权利要求1所述的方法,其特征在于,所述基于每条所述语句包括的所有所述评价对象以及该条语句中每个所述评价对象对应的情感词,得到该条语句对应于其包括的每个所述评价对象的分值包括:
判断每条所述语句是否包含至少一个所述评价对象;
若包含,则提取该条语句中每个所述评价对象对应的所有情感词;
根据该条语句中每个所述评价对象对应的每个所述情感词的情感类型,得到该条语句对应于每个所述评价对象的分值。
3.根据权利要求2所述的方法,其特征在于,所述根据该条语句中每个所述评价对象对应的每个所述情感词的情感类型,得到该条语句对应于每个所述评价对象的分值包括:
根据该条语句中每个所述评价对象对应的每个所述情感词的情感类型,得到该条语句中每个所述评价对象对应于每个所述情感词的分值;
对该条语句中每个所述评价对象对应的所有所述情感词的分值进行累加,得到该语句对应于每个所述评价对象的分值。
4.根据权利要求3所述的方法,其特征在于,所述根据该条语句中每个所述评价对象对应的每个所述情感词的情感类型,得到该条语句中每个所述评价对象对应于每个所述情感词的分值包括:
如果该条语句中每个所述评价对象对应的每个所述情感词的情感类型为所述正面情感,则确定该条语句中每个所述评价对象对应于该情感词的分值为第一预设值;
如果该条语句中每个所述评价对象对应的每个所述情感词的情感类型为所述中立情感,则确定该条语句中每个所述评价对象对应于该情感词的分值为第二预设值;
如果该条语句中每个所述评价对象对应的每个所述情感词的情感类型为所述负面情感,则确定该语句中每个所述评价对象对应于该情感词的分值为第三预设值。
5.根据权利要求2所述的方法,其特征在于,如果任意一条所述语句不包含任意一个所述评价对象,则确定该语句对应于其包括的每个所述评价对象的分值为第四预设值。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述基于每条所述语句对应于其包括的每个所述评价对象的分值得到所述文档对应于每个所述评价对象的情感类型包括:
对每条所述语句对应于其包括的每个所述评价对象的分值进行加权,并对加权后的每条所述语句对应于其包括的每个所述评价对象的分值进行累加,得到所述文档对应于每个所述评价对象的总分值;
基于所述文档中每个所述评价对象的总分值以及预先设置的分值范围与情感类型间的对应关系,确定出所述文档对应于每个所述评价对象的情感类型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述文档中每个所述评价对象的总分值以及预先设置的分值范围与情感类型间的对应关系,确定出所述文档对应于每个所述评价对象的情感类型包括:
基于每个所述评价对象的总分值以及该评价对象对应的所有情感词的个数,确定该评价对象的平均分值;
确定每个所述评价对象的平均分值所处的分值范围;
根据所述预先设置的分值范围与情感类型间的对应关系以及每个所述评价对象的平均分值所处的分值范围,确定出每个所述评价对象对应的情感类型;
将每个所述评价对象对应的情感类型作为所述文档对应于每个所述评价对象的情感类型。
8.一种文档情感的判断装置,其特征在于,包括:
识别单元,用于对文档进行语句识别,得到多条语句;
提取单元,用于提取出多条所述语句中包括的所有评价对象;
第一处理单元,用于基于每条所述语句包括的所有所述评价对象以及该条语句中每个所述评价对象对应的情感词,得到该条语句对应于其包括的每个所述评价对象的分值;
第二处理单元,用于基于每条所述语句对应于其包括的每个所述评价对象的分值得到所述文档对应于每个所述评价对象的情感类型,其中,所述情感类型包括如下之一:正面情感、中立情感,负面情感。
9.根据权利要求8所述的装置,其特征在于,所述第一处理单元包括:
判断模块,用于判断每条所述语句是否包含至少一个评价对象;
提取模块,用于若包含,则提取该条语句中每个所述评价对象对应的所有情感词;
处理模块,用于根据该条语句中每个所述评价对象对应的每个所述情感词的情感类型,得到该条语句对应于每个所述评价对象的分值。
10.根据权利要求9所述的装置,其特征在于,所述处理模块包括:
第一处理子模块,用于根据该条语句中每个所述评价对象对应的每个所述情感词的情感类型,得到该条语句中每个所述评价对象对应于每个所述情感词的分值;
累加子模块,用于对该条语句中每个所述评价对象对应的所有所述情感词的分值进行累加,得到该语句对应于每个所述评价对象的分值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611256003.7A CN108255803B (zh) | 2016-12-29 | 2016-12-29 | 文档情感的判断方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611256003.7A CN108255803B (zh) | 2016-12-29 | 2016-12-29 | 文档情感的判断方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108255803A true CN108255803A (zh) | 2018-07-06 |
CN108255803B CN108255803B (zh) | 2022-03-01 |
Family
ID=62720804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611256003.7A Active CN108255803B (zh) | 2016-12-29 | 2016-12-29 | 文档情感的判断方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108255803B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061876A (zh) * | 2019-12-10 | 2020-04-24 | 中国建设银行股份有限公司 | 事件舆情数据分析方法及装置 |
CN111984769A (zh) * | 2020-06-30 | 2020-11-24 | 联想(北京)有限公司 | 一种应答系统的信息处理方法及装置 |
CN113378542A (zh) * | 2021-02-05 | 2021-09-10 | 中国司法大数据研究院有限公司 | 一种裁判文书质量评测的方法和装置 |
CN113627195A (zh) * | 2021-10-14 | 2021-11-09 | 华东交通大学 | 基于层次Transformer和图神经网络的评论情感分析方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937462A (zh) * | 2010-09-03 | 2011-01-05 | 中国科学院声学研究所 | 文献自动评价方法及系统 |
CN102682124A (zh) * | 2012-05-16 | 2012-09-19 | 苏州大学 | 一种文本的情感分类方法及装置 |
US8554701B1 (en) * | 2011-03-18 | 2013-10-08 | Amazon Technologies, Inc. | Determining sentiment of sentences from customer reviews |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN104572616A (zh) * | 2014-12-23 | 2015-04-29 | 北京锐安科技有限公司 | 文本倾向性的确定方法和装置 |
US20150178360A1 (en) * | 2013-12-25 | 2015-06-25 | Emc Corporation | Managing opinion data |
TW201543393A (zh) * | 2014-05-15 | 2015-11-16 | Ind Tech Res Inst | 面向口碑分析與檢視系統、裝置及方法 |
CN105718543A (zh) * | 2016-01-18 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 语句的展示方法和装置 |
CN105718446A (zh) * | 2016-03-08 | 2016-06-29 | 徐勇 | 一种基于情感分析的ugc模糊综合评价方法 |
WO2016147330A1 (ja) * | 2015-03-18 | 2016-09-22 | 株式会社日立製作所 | テキスト処理方法、及びテキスト処理システム |
-
2016
- 2016-12-29 CN CN201611256003.7A patent/CN108255803B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937462A (zh) * | 2010-09-03 | 2011-01-05 | 中国科学院声学研究所 | 文献自动评价方法及系统 |
US8554701B1 (en) * | 2011-03-18 | 2013-10-08 | Amazon Technologies, Inc. | Determining sentiment of sentences from customer reviews |
CN102682124A (zh) * | 2012-05-16 | 2012-09-19 | 苏州大学 | 一种文本的情感分类方法及装置 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
US20150178360A1 (en) * | 2013-12-25 | 2015-06-25 | Emc Corporation | Managing opinion data |
TW201543393A (zh) * | 2014-05-15 | 2015-11-16 | Ind Tech Res Inst | 面向口碑分析與檢視系統、裝置及方法 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN104572616A (zh) * | 2014-12-23 | 2015-04-29 | 北京锐安科技有限公司 | 文本倾向性的确定方法和装置 |
WO2016147330A1 (ja) * | 2015-03-18 | 2016-09-22 | 株式会社日立製作所 | テキスト処理方法、及びテキスト処理システム |
CN105718543A (zh) * | 2016-01-18 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 语句的展示方法和装置 |
CN105718446A (zh) * | 2016-03-08 | 2016-06-29 | 徐勇 | 一种基于情感分析的ugc模糊综合评价方法 |
Non-Patent Citations (2)
Title |
---|
SASHA BLAIR-GOLDENSOHN 等: "Building a Sentiment Summarizer for Local Service Reviews", 《PROCEEDINGS OF THE WWW2008 WORKSHOP:NLP IN THE INFORMATION EXPLOSION ERA》 * |
刘涛: "中文评论文本情感分析研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061876A (zh) * | 2019-12-10 | 2020-04-24 | 中国建设银行股份有限公司 | 事件舆情数据分析方法及装置 |
CN111061876B (zh) * | 2019-12-10 | 2023-06-13 | 中国建设银行股份有限公司 | 事件舆情数据分析方法及装置 |
CN111984769A (zh) * | 2020-06-30 | 2020-11-24 | 联想(北京)有限公司 | 一种应答系统的信息处理方法及装置 |
CN111984769B (zh) * | 2020-06-30 | 2024-04-26 | 联想(北京)有限公司 | 一种应答系统的信息处理方法及装置 |
CN113378542A (zh) * | 2021-02-05 | 2021-09-10 | 中国司法大数据研究院有限公司 | 一种裁判文书质量评测的方法和装置 |
CN113627195A (zh) * | 2021-10-14 | 2021-11-09 | 华东交通大学 | 基于层次Transformer和图神经网络的评论情感分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108255803B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
CN108255803A (zh) | 文档情感的判断方法和装置 | |
US5781879A (en) | Semantic analysis and modification methodology | |
US20050125216A1 (en) | Extracting and grouping opinions from text documents | |
CN104572616B (zh) | 文本倾向性的确定方法和装置 | |
CN106815194A (zh) | 模型训练方法及装置和关键词识别方法及装置 | |
CN110427563A (zh) | 一种基于知识图谱的专业领域系统冷启动推荐方法 | |
CN105404698A (zh) | 一种教育视频推荐方法及装置 | |
KR20120109943A (ko) | 문장에 내재한 감정 분석을 위한 감정 분류 방법 | |
CN109325124B (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
CN111125354A (zh) | 文本分类方法及装置 | |
CN102929860B (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
CN110083829A (zh) | 情感极性分析方法及相关装置 | |
CN110287319A (zh) | 基于情感分析技术的学生评教文本分析方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN106569996B (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN105183808A (zh) | 一种问题分类方法及装置 | |
Mrowca et al. | Stance detection for fake news identification | |
CN108733652A (zh) | 基于机器学习的影评情感倾向性分析的测试方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN113094478A (zh) | 表情回复方法、装置、设备及存储介质 | |
CN109284389A (zh) | 一种文本数据的信息处理方法、装置 | |
CN108228587A (zh) | 群体识别方法及群体识别装置 | |
CN110866087B (zh) | 一种基于主题模型的面向实体的文本情感分析方法 | |
CN104462065B (zh) | 事件情感类型的分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |