CN110362833A

CN110362833A - 一种基于文本的情感分析方法及相关装置

Info

Publication number: CN110362833A
Application number: CN201910663669.1A
Authority: CN
Inventors: 徐灿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-10-22

Abstract

本申请公开了一种基于文本的情感分析方法及相关装置，用于快速有效地获得对于长文本数据的情感分析结果。本申请方法包括：获取待分析文本数据；对待分析文本数据进行依存句法分析，获得独立句集合，集合中包括有多个独立句，两两独立句在句法结构上相互独立；获取独立句集合中的情感词以及第一待评价对象，第一待评价对象与已配置词库中的词语匹配；根据情感词获取独立句的情感极性；根据独立句对应的情感极性，获取第一待评价对象的第一情感极性结果，第一情感极性结果包括正面情感，中性情感和负面情感。

Description

一种基于文本的情感分析方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于文本的情感分析方法及相关装置

背景技术

随着互联网技术的快速发展，网络评论已经成为用户表达观点和情感的主要方式，对用户的网络评论进行情感分析能够获知用户的情感极性。情感分析具有多方面的应用，比如，利用情感分析可以快速地了解用户对某款产品的评价，并发现产品的缺点和问题；利用情感分析可以快速地了解市场对某个企业或者某个行业的看法和评价。情感分析在社会公共安全、商务智能或者社会舆情等领域具有十分重要的应用价值。

目前的情感分析方法大都是面向短文本，通过深度学习的方式来进行情感分析，例如通过训练好的神经网络模型对短文本的情感进行分析，从而获得短文本对应的情感分析结果。

然而，通过神经网络模型进行情感分析通常需要大量的标注语料来训练神经网络模型，对于篇幅较长且表述多样性的文本(例如新闻文本)来说，往往很难获得大量的标注语料，因此，如何能够对长文本进行快速有效的情感分析成为了亟待解决的问题。

发明内容

本申请实施例提供了一种基于文本的情感分析方法及相关装置，通过对文本数据进行依存句法分析，将篇幅较长的文本数据划分成为多个相互独立的独立句，然后对每个独立句进行分析，通过获取独立句中的情感词来分析每个独立句中的情感极性，最后基于各个独立句的情感极性获得待评价对象在整个文本数据中的情感极性结果，能够快速有效地获得对于长文本数据的情感分析结果。

本申请实施例第一方面提供一种基于文本的情感分析方法，包括：

获取待分析文本数据；

对所述待分析文本数据进行依存句法分析，获得独立句集合，所述集合中包括有多个独立句，两两独立句在句法结构上相互独立；

获取所述独立句集合中的情感词以及第一待评价对象，所述第一待评价对象与已配置词库中的词语匹配；

根据所述情感词获取独立句的情感极性；

根据所述独立句对应的情感极性，获取所述第一待评价对象的第一情感极性结果，所述第一情感极性结果包括正面情感，中性情感和负面情感。

本申请实施例第二方面提供一种基于文本的情感分析装置，包括：

获取单元，用于获取待分析文本数据；

分析单元，用于对所述待分析文本数据进行依存句法分析，获得独立句集合，所述集合中包括有多个独立句，两两独立句在句法结构上相互独立；

所述获取单元，还用于获取所述独立句集合中的情感词以及第一待评价对象，所述第一待评价对象与已配置词库中的词语匹配；

所述获取单元，还用于根据所述情感词获取独立句的情感极性；

所述获取单元，还用于根据所述独立句对应的情感极性，获取所述第一待评价对象的第一情感极性结果，所述第一情感极性结果包括正面情感，中性情感和负面情感。

在一种可能的设计中，在本申请实施例的第二方面的一种实现方式中，

所述获取单元，还用于若所述独立句中存在有多个情感词，则获取所述独立句中每个情感词的权重，其中，情感词的权重与情感距离之间具有反相关的关系，所述情感距离为所述情感词与所述独立句中的核心节点之间的距离；

所述获取单元，还用于根据所述独立句中每个情感词的权重，获取所述独立句的情感极性。

所述获取单元，还用于获取所述独立句对应的权重；

所述获取单元，还用于根据独立句对应的权重以及情感极性，获取所述第一待评价对象的第一情感分析结果。

所述分析单元，还用于对所述独立句进行语义关联分析，获取所述独立句中所包括的转折词；

所述获取单元，还用于根据独立句的第一状态和第二状态获取所述独立句对应的权重，所述第一状态表示独立句包括有所述转折词或未包括有所述转折词，所述第二状态表示独立句包括有所述第一待评价对象或未包括有所述第一待评价对象。

在一种可能的设计中，在本申请实施例的第二方面的一种实现方式中，还包括修正单元；

所述修正单元，用于若所述独立句中存在有用于修饰情感词的否定词，则对所述独立句的情感极性进行修正。

在一种可能的设计中，在本申请实施例的第二方面的一种实现方式中，还包括处理单元；

所述获取单元，还用于获取所述待分析文本数据的标题；

所述获取单元，还用于获取所述标题中的第二待评价对象，所述第二待评价对象与所述已配置词库中的词语匹配；

所述处理单元，用于通过神经网络模型对所述标题进行处理，获得所述第二待评价对象的第二情感极性结果；

所述获取单元，还用于若所述第一待评价对象与所述第二待评价对象为同一个对象，则根据所述第一情感分析结果以及所述第二情感极性结果，获得第三情感极性结果。

所述获取单元，还用于获取所述第一情感极性结果的权重以及所述第二情感极性结果的权重；

所述获取单元，还用于根据所述第一情感极性结果的权重以及所述第二情感极性结果的权重，获得第三情感极性结果。

本申请实施例第三方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待分析文本数据；

根据所述情感词获取独立句的情感极性；

根据所述独立句对应的情感极性，获取所述第一待评价对象的第一情感极性结果，所述第一情感极性结果包括正面情感，中性情感和负面情感；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一方面所述的方法。

本申请实施例第五方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述任一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

附图说明

图1为本申请实施例提供的基于游戏的媒体口碑榜示例图；

图2为本申请实施例提供的基于公司的媒体口碑榜示例图；

图3为本申请实施例中情感分析系统的一个架构示意图；

图4为本申请实施例提供的一种基于文本的情感分析方法的示例图；

图5为本申请实施例提供的依存句法分析的示例图；

图6为本申请实施例提供的依存句法关系结构图；

图7为本申请实施例提供的依存句法分析结果的示例图；

图8为本申请实施例中提供的情感极性的计算过程示例图；

图9为本申请实施例提供的一种神经网络模型示例图；

图10为本申请实施例提供的一种基于文章的情感分析示例图；

图11为本申请实施例中基于文本的情感分析装置一个实施例示意图；

图12为本申请实施例提供的一种服务器结构示意图。

具体实施方式

本申请实施例提供了一种基于文本的情感分析方法及相关装置，用于快速有效地获得对于长文本数据的情感分析结果。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

对于自然语言处理中的文本处理来说，通常会用到机器学习(Machine Learning,ML)技术来实现文本的处理。其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

以机器学习应用于文本情感分析为例，通过预先对大量的文本数据进行标注(即打上对应的情感标签)，然后将标注好的文本数据输入到神经网络模型中，训练得到一个可用于情感分类的模型，最后将新的文本数据输入到该模型中，便可以预测得到新输入的文本数据对应的情感了。具体地，文本情感分析是指基于现有的文本数据，分析出面向文本数据中对象的情感，即主要目的是识别出文本数据中所出现的对象，以及该对象所对应的情感。比如，对于句子“公司A控告公司B的游戏A抄袭！”，需要分析出其中的对象分别为“公司A”、“公司B”、“游戏A”，同时需要分别识别出这三个对象对应的情感：<公司A，中性>、<公司B，负面>、<游戏A，负面>。

由于对神经网络模型进行训练的过程中，通常需要用到大量已标注的文本数据，这些文本数据的工作通常是由人工来完成的，因此目前通过神经网络模型进行情感分析的大部分是短文本数据，例如商品的评论文本等等。对于一些篇幅较长且表述多样性的文本(例如新闻文本)，对一个文本进行情感标注便需要花费标注人员大量的时间和精力，因此往往很难获得大量的标注语料。

有鉴于此，本申请实施例提供了一种基于文本的情感分析方法，通过对文本数据进行依存句法分析，将篇幅较长的文本数据划分成为多个相互独立的独立句，然后对每个独立句进行分析，通过获取独立句中的情感词来分析每个独立句中的情感极性，最后基于各个独立句的情感极性获得待评价对象在整个文本数据中的情感极性结果，整个情感分析过程并不需要用到大量的标注语料，能够快速有效地获得对于长文本数据的情感分析结果。

应理解，本申请实施例应用于情感分析场景，具体地，可以应用于新闻文本、影视评论等长文本的情感分析。以应用于新闻文本的情感分析为例，本申请实施例中可以针对新闻文本中的一些特定对象(例如新闻文本中所提及的某个游戏，或者是某个公司)，分析该特定对象在新闻文本中的情感，例如分析游戏A在新闻文本中的情感是正面的，还是负面的，亦或是中性的；又例如分析公司A在新闻文本中的情感是正面的，还是负面的，亦或是中性的。值得注意的是，对于上述的特定对象，除了可以是上述所举例的游戏和公司之外，还可以是人物、地点、物品等等，本申请实施例并不做具体限定。

在本申请实施例中，在识别得到某个游戏或者是某个公司在一些新闻文本中的情感之后，可以基于该游戏或该公司在一定范围内的新闻文本中对应的情感，统计该游戏或者是该公司在新闻文本中的口碑，换句话说，如果某一个游戏或者是某一个公司在一定数量的新闻文本中对应的正面情感越多，则代表该游戏或者该公司的口碑越好；相反，如果某一个游戏或者是某一个公司在一定数量的新闻文本中对应的反面情感越多，则代表该游戏或者该公司的口碑越差。基于此，可以收集一定数量的新闻文本，通过对这些新闻文本进行情感分析，分析特定的游戏或者公司在这些新闻文本中的情感，便可以统计出该游戏或者该公司在媒体中的口碑，从而能够给用户展示游戏或者公司的口碑。

具体地，可以参阅图1和图2，图1为本申请实施例提供的基于游戏的媒体口碑榜示例图；图2为本申请实施例提供的基于公司的媒体口碑榜示例图。由图1可以看出，S1表示的是具体的一些游戏在媒体口碑榜上的位置，在媒体口碑上，根据每个游戏在一定数量的新闻文本中的综合情感得分，对游戏进行了排序，得分越高的游戏排在越靠前的位置，得分越低的游戏则排在越靠后的位置；其中，游戏的综合情感得分指的是根据游戏在每个新闻文本中对应的情感，给游戏赋予一个对应的情感得分(例如游戏在某个新闻文本中的情感为正面情感，则赋予一个为正数的分值，游戏在某个新闻文本中的情感为负面情感，则赋予一个为负数的分值)，这样，综合该游戏在所有参与游戏评分的新闻文本中的情感得分，便可以得到其综合情感得分；S2表示的是对于某一个游戏，该游戏在所有参与游戏评分的新闻文本中对应于负面情感、中性情感以及正面情感的分布情况；S3表示的是参与游戏评分的一些具体的新闻文本。另外，图2中的几个部分与图1中的几个部分相似，图1中面向的对象是游戏，而图2中所面向的对象则是公司。

为了便于理解，以下将对本申请实施例提供的基于文本的情感分析方法所应用的系统进行介绍，具体地，该方法应用于图3所示的情感分析系统，请参阅图3，图3为本申请实施例中情感分析系统的一个架构示意图，如图所示，终端通过网络和服务器建立通信连接，服务器通过对文本数据进行情感分析，获得各个特定对象在文本数据中的情感，然后服务器将各个特定对象在文本数据中的情感进行综合统计，并且以排序的方式进行展示，以使得终端能够通过网路获取到相应的展示结果。

其中，图3中所示的终端仅为简单的示意，在实际应用中，终端包含但不仅限于手机、平板电脑、台式电脑、笔记本电脑以及掌上电脑等终端设备。

以上为对本申请实施例提供的情感分析系统进行的描述，请参阅图4，图4为本申请实施例提供的一种基于文本的情感分析方法的示例图。

本申请实施例中提供的一种基于文本的情感分析方法一个实施例包括：

401、获取待分析文本数据；

在本实施例中，要获得文本数据中的情感分析结果，先要确定待分析文本数据，其中，待分析文本数据具体可以是篇幅较长的长文本，也可以是篇幅较短的短文本，本实施例中并不做具体的限定。可以理解的是，在获取待分析文本数据时，可以根据待评价的对象(即想要获得的情感分析结果对应的对象)来获取相应的待分析文本数据，例如，想要获得某一个游戏在文本数据中的情感，那么就可以在获取待分析文本数据的时候，获取与游戏相关的一些文本数据，例如是游戏评测、游戏攻略或者是游戏分析等相关的新闻或文章，这样一来，便可以提高情感分析的效率，避免在海量的文本数据中盲目地进行情感分析。

402、对待分析文本数据进行依存句法分析，获得独立句集合，集合中包括有多个独立句，两两独立句在句法结构上相互独立；

在本实施例中，对于长文本来说，文本的篇幅通常较长，文本的字符数可能达到数百甚至是上千起，在这种长文本中，通常还会分布有较多的句子，这些句子间可能是具有关联关系的，也可能是不具有关联关系的。一般来说，对于一个独立的句子(即不与其他句子具有关联关系的句子)，该句子是一个完整的句子并且能够表达完整的意思，那么对于这个句子来说，并可以将其作为情感分析的一个最基本的单位。也就是说，对于一个长文本，可以将长文本中的所有文本信息划分为多个独立的句子，然后分别对这些独立的句子进行情感分析，在获得每个独立的句子对应的情感之后，再将这些独立的句子所对应的情感进行综合，从而获得整个待分析文本的情感。

具体地，可以通过语言技术平台(language technology platform，LTP)对待分析文本数据进行依存句法分析，其中，依存句法分析是指将句子分析成一棵依存句法树，描述出各个词语之间的依存关系，也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。依存句法分析主要是通过分析语言单位内成分之间的依存关系揭示其句法结构，直观来讲，依存句法分析可以识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。

可以参阅图5，图5为本申请实施例提供的依存句法分析的示例图。如图5所示，图5中对“A公司控告B公司的b游戏抄袭，B公司暂不做回应。”这句话进行了依存句法分析，得到了句子中各个成分以及各个成分之间的关系。具体地，在图5中，501表示的是HED，即核心关系；502表示的是SBV，即主谓关系；503表示的是VOB，即动宾关系；504表示的是ATT，即定中关系；505表示的是RAD，即右附加关系；506表示的是SBV，即主谓关系；507表示的是WP，即标点符号关系；508表示的是SBV，即主谓关系；509表示的是ADV，即状中结构；510表示的是VOB，即动宾关系。其中，句子中成分之间的关系通常包括有“主谓关系”、“动宾关系”、“间宾关系”、“并列关系”等等，具体可以参阅图6，图6为本申请实施例提供的依存句法关系结构图。

一般来说，对于长文本来说，可以先通过文本中的句子分隔符(例如句号“。”)将长文本划分为多个长句，由于一些长句中可能还包括有一个或多个子句(例如通过逗号“，”连接起来的短句)，这些子句可能是具有关联关系的，也可能是不具有关联关系的，因此，可以通过依存句法分析得到的结果进一步判断长句中的多个子句之间的关系。例如，若两个子句之间存在有并列关系连接，那么这两个子句可以认为是独立的两个子句，即这两个子句可以分别作为一个独立的句子；若两个子句之间存在有动宾关系连接或者是主谓关系连接等，则可以认为这两个子句是具有关联关系的，即这两个子句是属于同一个独立句子中的一部分。通常来说，若两个子句之间不存在有并列关系连接，则可以认为这两个子句是属于同一个独立句子的；若两个子句之间存在有并列关系连接，则可以认为这两个子句分别是独立的句子。以图5为例，图5中的“抄袭”与“不做”之间具有COO关系连接(即并列连接)，因此，可以判断子句“A公司控告B公司的b游戏抄袭”与子句“B公司暂不做回应”之间是并列的，即这两个子句都是独立的句子，这两个子句都可以作为情感分析的基本单位。

403、获取独立句集合中的情感词以及第一待评价对象，第一待评价对象与已配置词库中的词语匹配；

在本实施例中，在通过依存句法分析将待分析文本数据划分为多个独立句之后，可以通过关键词匹配的方式获取每个独立句中的情感词以及对应的待评价对象。具体地，对于情感词的获取，可以预先配置好相应的情感词库，然后基于情感词库对独立句进行情感词匹配，若独立句中存在有词语与情感词库中的词语相匹配，则可以匹配得到独立句中的情感词。同理，对于待评价对象，同样可以预先配置好相应的对象词库，然后基于对象词库对独立句进行待评价对象匹配，若独立句中存在有词语与对象词库中的词语相匹配，则可以匹配得到独立句中的待评价对象。其中，对象词库可以是已配置好的游戏词库或公司词库等等，游戏词库中通常可以包括具体的一些游戏名称，例如“英雄联盟”、“穿越火线”等等；公司词库中通常可以包括具体的一些公司名称，例如“腾讯”、“网易”等等。

值得注意的是，在获取情感词库的时候，可以基于待评价对象有针对性地获取合适的情感词库，可以理解的是，对于处于不同领域或行业的对象来说，用于评价对象的正面情感词或者是反面情感词都有可能是具有较大差异的。例如，对于游戏行业来说，常用的情感词包括有“(性能)强劲”、“(画面)优美”、“(剧情)丰富”、“(制作)精良”等等，而对于食品行业来说，常用的情感词包括有“好喝”、“难喝”、“好吃”、“难吃”“味道奇怪”等等。因此，基于待评价对象的特性有针对性地获取相应的情感词库有利于提高情感词匹配的准确率。

404、根据情感词获取独立句的情感极性；

在本实施例中，在匹配得到独立句中的情感词之后，可以根据情感词对应的情感极性去获取独立句对应的情感极性，例如，如果独立句中包括有一个表示正面情感的情感词，则可以获取该独立句对应的情感极性为正面情感；如果独立句中包括有一个表示负面情感的情感词，则可以获取该独立句对应的情感极性为负面情感。具体地，以独立句“A公司控告B公司的b游戏抄袭”为例，其中包括有“抄袭”这样的负面情感词，即可以认为该独立句对应的情感极性为负面情感。可以理解的是，对于一些独立句来说，句子中可能并不出现有情感词，那么对于这种独立句来说，可以直接获取其情感极性为中性情感。

具体地，为了便于对情感极性进行表示，通常用数字来表示相应的情感极性，例如1,0，-1分别表示了正面情感，中性情感，负面情感。

405、根据独立句对应的情感极性，获取第一待评价对象的第一情感极性结果，第一情感极性结果包括正面情感，中性情感和负面情感。

在本实施例中，在获得了待分析文本数据中每个独立句所对应的情感极性之后，可以对待分析文本数据中所有独立句对应的情感极性进行融合，得到第一待评价对象在待分析文本数据中的整体情感极性结果。具体地，由于每个独立句对应的情感极性都可以用具体的数值(例如1,0，-1)来表示，那么对所有独立句对应的情感极性进行融合的方式可以是将用于表示独立句情感极性的所有数值进行叠加，最后通过通过判断最终得到的叠加值来获得情感极性结果。具体地，若最终得到的叠加值为正数，则情感极性结果为正面情感；若叠加值为0，则情感极性结果为中性情感；若叠加值为负数，则情感极性结果为反面情感。应理解的是，对情感极性数值进行叠加仅仅是本实施例中所提供的一种对独立句的情感极性进行融合的方式，在实际应用中还可以通过其他的方式进行融合，在此不做具体限定。

可以理解的是，对于一篇文章来说，在文章中可能会同时出现对某一对象的正面评价以及负面评价，但是文章中对对象进行正面评价的情感可能要比负面评价的情感要更为强烈，即褒大于贬，那么在这种情况下，通过综合整篇文章中独立句的情感极性仍可以得出该文章总体想要表达的情感极性。例如，以“虽然游戏A在剧情的设置上略为简陋，但是精美的画质、逼真的打斗场景以及细腻的细节刻画仍然让大众对游戏A爱不释手”这两个句子为例，尽管前一句子中对于游戏A有负面的评价，但是后面一个句子中对于游戏A的正面评价的情感强度要远大于其负面评价的情感强度，在这种情况下，通过情感极性的融合，仍可得出游戏A的情感极性为正面情感。

本申请实施例中，通过对文本数据进行依存句法分析，将篇幅较长的文本数据划分成为多个相互独立的独立句，然后对每个独立句进行分析，通过获取独立句中的情感词来分析每个独立句中的情感极性，最后基于各个独立句的情感极性获得待评价对象在整个文本数据中的情感极性结果，能够快速有效地获得对于长文本数据的情感分析结果。

可选地，在上述图4对应的第一个实施例的基础上，本申请实施例提供的基于文本的情感分析方法一个可选实施例中，根据情感词获取独立句的情感极性，包括：

若独立句中存在有多个情感词，则获取独立句中每个情感词的权重，其中，情感词的权重与情感距离之间具有反相关的关系，情感距离为情感词与独立句中的核心节点之间的距离；

根据独立句中每个情感词的权重，获取独立句的情感极性。

可以理解的是，如前，在一个独立句中经常可能会出现有多个情感词，通常来说，不同的情感词对于整个句子所表达的情感的贡献可能是不一样的，因此，简单地将多个情感词对应的情感极性进行叠加的话，往往可能无法得到这个独立句所表达的真正的情感。

具体地，以独立句“A公司+X国手游”的强强联合继《怪物弹珠》之后再次宣告失败”为例，情感词“强强联合”的情感极性为1，情感词“失败”的情感极性为-1，将两个情感极性简单地相加得到的结果为0，即情感极性为中性，这显然是不对的。因此，考虑到情感词在独立句中的作用和重要性都可能是不同的，因此可以给不同的情感词赋予不同的权重才能够进行极性相加。

在本实施例中，可以基于依存句法分析的结果，使用情感词到头节点(head节点)的距离的倒数作为权重，即情感词的权重与情感词到独立句中的核心节点的距离之间具有反相关的关系。其中，情感词到头节点的距离并非是指情感词在字面上相隔的距离，而是基于依存句法分析得到的结果中，情感词与头节点之间的依存距离。如图7所示，图7为本申请实施例提供的依存句法分析结果的示例图。其中，701表示的是HED，即核心关系；702表示的是ATT，即定中关系；703表示的是WP，即符号关系；704表示的是ATT，即定中关系；705表示的是ATT，即定中关系；706表示的是RAD，即右附加关系；707表示的是SBV，即主谓关系；708表示的是ADV，即状中结构；709表示的是ATT，即定中关系；710表示的是WP，即符号关系；711表示的是WP，即符号关系；712表示的是ADV，即状中结构；713表示的是ADV，即状中结构；714表示的是VOB，即动宾关系。图7中，依存句法分析得到的结果中，头节点为“宣告”，“宣告”与“失败”之间的关系是动宾关系，即“宣告”上的箭头是直接指向“失败”的，因此情感词“失败”与“宣告”之间的距离为1；而“宣告”上的箭头是指向“继”之后，由“继”再指向“强强联合”的，即情感词“强强联合”与“宣告”之间的距离是2。因此，可以得到情感词“失败”的权重为1，情感词“强强联合”的权重为1/2，那么对于这个独立句来说，其情感记性为1*-1+(1/2)*1＝-0.5，显然，得到的情感记性为负值，即为负面评价，是符合句意的。

可选地，在上述图4对应的第一个实施例的基础上，本申请实施例提供的基于文本的情感分析方法一个可选实施例中，根据独立句对应的情感极性，获取第一待评价对象的第一情感极性结果，包括：

获取独立句对应的权重；

根据独立句对应的权重以及情感极性，获取第一待评价对象的第一情感分析结果。

可以理解的是，不同的情感词在同一个独立句中所起到的作用以及重要性是不一样的，不同的独立句在同一篇文章中所起到的作用以及重要性也可能是不一样的。因此，在本实施例中，在计算得到每一个独立句对应的情感极性之后，可以相应地计算每一个独立句对应的权重，以衡量其重要性。

具体地，获取独立句对应的权重可以包括：对独立句进行语义关联分析，获取独立句中所包括的转折词；根据独立句的第一状态和第二状态获取独立句对应的权重，第一状态表示独立句包括有转折词或未包括有转折词，第二状态表示独立句包括有第一待评价对象或未包括有第一待评价对象。

可以理解的是，独立句与独立句之间通常可能存在有顺承、转折、递进、并列等关系，当独立句中存在有转折关系时，可以认为该独立句更为表达整个长句的情感，换句话说，包含有转折词的独立句的重要程度更高。例如，对于“虽然游戏A在剧情的设置上略为简陋，但是精美的画质、逼真的打斗场景以及细腻的细节刻画仍然让大众对游戏A爱不释手”这句话来说，后续“但是精美的画质、逼真的打斗场景以及细腻的细节刻画仍然让大众对游戏A爱不释手”这一个独立句更能够表达整个句子的情感，因此，可以赋予这个独立句更高的权重。

另外，对于一些独立句，这些独立句中可能包含有情感词，但是并没有包含有待评价的对象，即这些独立句中的情感词并不是用来修饰待评价的对象的，那么在这种情况下，也可以通过降低这些独立句的权重来避免这些情感词对整篇文章产生过大的影响。

具体地，独立句权重的计算规则如下：

初始权重：每个独立句的权重初始化为1；

转折权重：如果独立句中包含有转折词，权重加1；

对象权重：如果独立句中包含有待评价对象，权重加1；即每个独立句在计算不同的待评价对象的情感极性时，其对象权重可能是不同的。

为了便于理解，以下将结合具体的例子对情感极性的计算过程进行详细的描述。可以参阅图8，图8为本申请实施例中提供的情感极性的计算过程示例图。

其中，801表示的是待分析的一个句子(即“游戏A剧情不错，游戏B画质不行，但是游戏A画质更差”)，该句子中包括有三个独立句，分别为“游戏A剧情不错”、“游戏B画质不行”、“但是游戏A画质更差”；

802表示的是对801中的句子进行了情感词和对象识别，并且计算得到了每个独立句对应的情感极性，其中独立句“游戏A剧情不错”对应的情感极性为p1＝1、独立句“游戏B画质不行”对应的情感极性为p2＝-1、独立句“但是游戏A画质更差”对应的情感极性为p3＝-1；

803表示的是，以游戏A为待评价对象，获取三个独立句对应的权重，其中独立句“游戏A剧情不错”对应的权重w1＝2，独立句“游戏B画质不行”对应的权重w2＝1、独立句“但是游戏A画质更差”对应的权重w3＝3；因此，对于游戏A，其总体的情感极性为：w1*p1+w2*p2+w3*p3＝-2；

804表示的是，以游戏B为待评价对象，获取三个独立句对应的权重，其中独立句“游戏A剧情不错”对应的权重z1＝1，独立句“游戏B画质不行”对应的权重z2＝2、独立句“但是游戏A画质更差”对应的权重z3＝2；因此，对于游戏A，其总体的情感极性为：z1*p1+z2*p2+z3*p3＝-3。

可选地，在上述图4对应的第一个实施例的基础上，本申请实施例提供的基于文本的情感分析方法一个可选实施例中，根据情感词获取独立句的情感极性之后，还包括：

若独立句中存在有用于修饰情感词的否定词，则对独立句的情感极性进行修正。

可以理解的是，对于一些独立句中，可能还存在有用于修饰情感词的否定词，在否定词的修饰之下，该独立句对应的情感极性可能与情感词的情感极性时相反的。基于此，往往还可以对独立句进行否定词的检测，在检测到存在有修饰情感词的否定词之后，对独立句的情感极性进行修正。

具体地，否定词和情感词之间的依存关系主要包括以下几种情况：

1、否定词是情感词父节点(否定词->情感词)；

比如：“不是很好看”，否定词：“不是”，情感词：“好看”。

2、情感词是否定词父节点(情感词->否定词)，其中，父节点指的是依存句法分析中箭头的发起节点，子节点指的是箭头的指向节点；

比如：“不好看”，否定词：“不”，情感词：“好看”。

3、兄弟节点(否定词<-word->情感词)；

比如：“没有获得褒奖”，否定词：“没有”，情感词：“褒奖”。

4、否定词是情感词父节点的父节点(否定词->word->情感词)；

比如：“不是好玩的游戏”，否定词：“不是”，情感词：“好玩”。

5、否定词的父节点跟情感词父节点之间是VOB连接(否定词<-V->N->情感词)；

比如：“没有取得好成绩”，否定词：“没有”，情感词：“好”。

可选地，在上述图4对应的第一个实施例的基础上，本申请实施例提供的基于文本的情感分析方法一个可选实施例中，还包括：

获取待分析文本数据的标题；

获取标题中的第二待评价对象，第二待评价对象与已配置词库中的词语匹配；

通过神经网络模型对标题进行处理，获得第二待评价对象的第二情感极性结果；

若第一待评价对象与第二待评价对象为同一个对象，则根据第一情感分析结果以及第二情感极性结果，获得第三情感极性结果。

可以理解的是，对于一篇文章来说，通常会包括有正文部分和标题部分，标题部分往往用于概括文章的整体内容，因此，在对文本数据进行情感分析时，除了可以对正文部分的长文本进行分析，还可以对其标题部分进行情感分析，最终综合正文部分和标题部分的情感极性，得到整篇文章最终的情感极性。其中，由于标题通常为短文本，因此可以采用神经网络模型对标题进行处理，以获得标题对应的情感极性。

具体地，对标题进行情感分析的过程具体如下：

首先，对标题进行分词，并且去除其中的停用词。其中，分词是指将连续的字序列(即文本)按照一定的规范重新组合成单独的词序列的过程。中文单词间没有显式分隔，只能通过具体语境划分。停用词是指为语句构建所必需，但又对语义表达没有太多帮助的词，如中文的“呢”、“了”和英文的“a”、“an”等。在采用神经网络模型对标题文本进行情感分析之前将停用词剔除，能够有效地提升情感分析的效率。分词、去除停用词均非本申请实施例中的重点，可以采用常用的停用词表配合开源的结巴分词工具来实现，本申请实施例中不再赘述。

然后，将分词后的标题输入到训练好的神经网络模型中，由神经网络模型预测得到标题对应情感极性。具体地，在本申请实施例中可以采用目标依赖长短期记忆(targetdependent-Long short-term memory，TD-LSTM)模型来对标题进行情感分析。具体地，可以参阅图9，图9为本申请实施例提供的一种神经网络模型示例图。其中，模型是由输入层、隐层、输出层构成的二分类的LSTM神经网络。在建模过程中，将文本以对象为中心分成左右两部分，每部分末尾加上对象词，然后分别用LSTM进行建模。这样模型就同时建模了对象和上下文。模型的输入层是当前时刻词向量。模型的隐层则是将前一时刻隐向量和当前时刻词向量经过三种门函数(输入门、遗忘门和输出门)作用后产生当前时刻的隐向量。模型的输出层是将左右两个LSTM最后时刻的隐向量进行拼接，然后经过全连接和softmax得到负面和非负的概率。

具体地，TD-LSTM模型的基本思路是根据目标词之前和之后的上下文分别建模，所以实际上，使用的是两个LSTM模型。第一个LSTM模型的输入为目标词之前的上下文加上目标词，即从句子的第一个单词开始，依次输入句子中的词语，直到输入至目标词；第二个LSTM模型的输入则是目标词之后的上下文加上目标词，即从句子的最后一个单词开始，从后往前依次输入词语，直到输入至目标词。并且，TD-LSTM模型用softmax函数作为最后一层的激活函数来实现分类，用交叉熵作为损失函数来计算损失。

可选地，在上述图4对应的第一个实施例的基础上，本申请实施例提供的基于文本的情感分析方法一个可选实施例中，根据第一情感分析结果以及第二情感极性结果，获得第三情感极性结果，包括：

获取第一情感极性结果的权重以及第二情感极性结果的权重；

根据第一情感极性结果的权重以及第二情感极性结果的权重，获得第三情感极性结果。

可以理解的是，由于标题是对一篇文章的总体概括，标题所表达的情感往往是就是整篇文章所想要表达的情感，因此，在将标题部分对应的情感极性和正文部分对应的情感极性进行融合时，可以设置标题部分拥有更高的权重，以便于提高获得的情感极性结果的准确率。例如，将标题对应的权重设置为5，将正文部分对应的权重设置为1.

具体地，假设对一篇文章进行情感分析之后，获得如下的对象极性对：

标题:(A公司，1),(B公司，-1),(游戏A，1)；

内容：(A公司，1),(B公司，1),(游戏A，1),(A公司，-1),(B公司，0)。

那么，对这些对象极性对进行情感极性计算，可以得到以下的结果：

5*(A公司，1)+(A公司，1)+(A公司，-1)＝(A公司，5)；

5*(B公司，-1)+(B公司，1)+(B公司，0)＝(B公司，-4)；

5*(游戏A，1)+(游戏A，1)＝(游戏A，6)。

此外，可以参阅图10，图10为本申请实施例提供的一种基于文章的情感分析示例图。其中，针对于文章的标题以及文章的正文分别进行情感分析，并且在获得标题对应的情感极性以及正文对应的情感极性之后，将两部分的情感极性进行叠加，从而得到整篇文章的情感极性。具体地，对标题进行情感分析的过程为先对情感词以及对象进行识别，然后基于TD-LSTM模型进行情感分析，从而得到对象在标题中对应的情感极性。对正文进行情感分析的过程则依次为独立句的划分，情感词和对象的识别，对情感词是否有否定词修饰的判断(即修正独立句的情感极性)，独立句权重的计算以及文章情感极性的计算，从而得到对象在正文中对应的情感极性。

具体地，可以参阅表1，表1为基于本申请实施例提供的情感分析方法对文章进行情感分析与基于现有的方法1和方法2对文章进行情感分析的结果对比。

表1

其中，方法1指的是仅仅使用情感词进行情感分析，即统计对象和情感词在固定窗口中的共现次数，将所有共现情感词极性相加得到该对象的最终情感极性。

方法2指的是使用LSTM模型仅对文章标题进行情感分析，内容中的对象情感极性默认与文章标题的情感极性相同。

从实验结果可以看出，相对于方法1和方法2，本申请实施例提供的情感分析方法能大大提高文本情感分析的准确率，在正面和负面文章上尤为明显，分别提高了29.93％和10.26％。

下面对本申请实施例中的基于文本的情感分析装置进行详细描述，请参阅图11，图11为本申请实施例中基于文本的情感分析装置一个实施例示意图，本申请实施例中基于文本的情感分析装置1100包括：

获取单元1101，用于获取待分析文本数据；

分析单元1102，用于对待分析文本数据进行依存句法分析，获得独立句集合，集合中包括有多个独立句，两两独立句在句法结构上相互独立；

获取单元1101，还用于获取独立句集合中的情感词以及第一待评价对象，第一待评价对象与已配置词库中的词语匹配；

获取单元1101，还用于根据情感词获取独立句的情感极性；

获取单元1101，还用于根据独立句对应的情感极性，获取第一待评价对象的第一情感极性结果，第一情感极性结果包括正面情感，中性情感和负面情感。

可选地，在上述图11所对应的实施例的基础上，本申请实施例提供的基于文本的情感分析装置1100的另一实施例中，

获取单元1101，还用于若独立句中存在有多个情感词，则获取独立句中每个情感词的权重，其中，情感词的权重与情感距离之间具有反相关的关系，情感距离为情感词与独立句中的核心节点之间的距离；

获取单元1101，还用于根据独立句中每个情感词的权重，获取独立句的情感极性。

获取单元1101，还用于获取独立句对应的权重；

获取单元1101，还用于根据独立句对应的权重以及情感极性，获取第一待评价对象的第一情感分析结果。

分析单元1102，还用于对独立句进行语义关联分析，获取独立句中所包括的转折词；

获取单元1101，还用于根据独立句的第一状态和第二状态获取独立句对应的权重，第一状态表示独立句包括有转折词或未包括有转折词，第二状态表示独立句包括有第一待评价对象或未包括有第一待评价对象。

可选地，在上述图11所对应的实施例的基础上，本申请实施例提供的基于文本的情感分析装置1100的另一实施例中，还包括修正单元1103；

修正单元1103，用于若独立句中存在有用于修饰情感词的否定词，则对独立句的情感极性进行修正。

可选地，在上述图11所对应的实施例的基础上，本申请实施例提供的基于文本的情感分析装置1100的另一实施例中，还包括处理单元1104；

获取单元1101，还用于获取待分析文本数据的标题；

获取单元1101，还用于获取标题中的第二待评价对象，第二待评价对象与已配置词库中的词语匹配；

处理单元1104，用于通过神经网络模型对标题进行处理，获得第二待评价对象的第二情感极性结果；

获取单元1101，还用于若第一待评价对象与第二待评价对象为同一个对象，则根据第一情感分析结果以及第二情感极性结果，获得第三情感极性结果。

获取单元1101，还用于获取第一情感极性结果的权重以及第二情感极性结果的权重；

获取单元1101，还用于根据第一情感极性结果的权重以及第二情感极性结果的权重，获得第三情感极性结果。

图12为本申请实施例提供的一种服务器结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在本申请实施例中，该服务器1300所包括的CPU 1322还具有以下功能：

获取待分析文本数据；

对待分析文本数据进行依存句法分析，获得独立句集合，集合中包括有多个独立句，两两独立句在句法结构上相互独立；

获取独立句集合中的情感词以及第一待评价对象，第一待评价对象与已配置词库中的词语匹配；

根据情感词获取独立句的情感极性；

根据独立句对应的情感极性，获取第一待评价对象的第一情感极性结果，第一情感极性结果包括正面情感，中性情感和负面情感。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于文本的情感分析方法，其特征在于，包括：

获取待分析文本数据；

根据所述情感词获取独立句的情感极性；

2.根据权利要求1所述的基于文本的情感分析方法，其特征在于，所述根据所述情感词获取独立句的情感极性，包括：

若所述独立句中存在有多个情感词，则获取所述独立句中每个情感词的权重，其中，情感词的权重与情感距离之间具有反相关的关系，所述情感距离为所述情感词与所述独立句中的核心节点之间的距离；

根据所述独立句中每个情感词的权重，获取所述独立句的情感极性。

3.根据权利要求1或2所述的基于文本的情感分析方法，其特征在于，所述根据所述独立句对应的情感极性，获取所述第一待评价对象的第一情感极性结果，包括：

获取所述独立句对应的权重；

根据独立句对应的权重以及情感极性，获取所述第一待评价对象的第一情感分析结果。

4.根据权利要求3所述的基于文本的情感分析方法，其特征在于，所述获取所述独立句对应的权重，包括：

对所述独立句进行语义关联分析，获取所述独立句中所包括的转折词；

根据独立句的第一状态和第二状态获取所述独立句对应的权重，所述第一状态表示独立句包括有所述转折词或未包括有所述转折词，所述第二状态表示独立句包括有所述第一待评价对象或未包括有所述第一待评价对象。

5.根据权利要求1所述的基于文本的情感分析方法，其特征在于，所述根据情感词获取独立句的情感极性之后，所述方法还包括：

若所述独立句中存在有用于修饰情感词的否定词，则对所述独立句的情感极性进行修正。

6.根据权利要求1所述的基于文本的情感分析方法，其特征在于，所述方法还包括：

获取所述待分析文本数据的标题；

获取所述标题中的第二待评价对象，所述第二待评价对象与所述已配置词库中的词语匹配；

通过神经网络模型对所述标题进行处理，获得所述第二待评价对象的第二情感极性结果；

若所述第一待评价对象与所述第二待评价对象为同一个对象，则根据所述第一情感分析结果以及所述第二情感极性结果，获得第三情感极性结果。

7.根据权利要求6所述的基于文本的情感分析方法，其特征在于，所述根据所述第一情感分析结果以及所述第二情感极性结果，获得第三情感极性结果，包括：

获取所述第一情感极性结果的权重以及所述第二情感极性结果的权重；

根据所述第一情感极性结果的权重以及所述第二情感极性结果的权重，获得第三情感极性结果。

8.一种基于文本的情感分析装置，其特征在于，包括：

获取单元，用于获取待分析文本数据；

9.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待分析文本数据；

根据所述情感词获取独立句的情感极性；

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7中任一项所述的方法。