CN110799981B

CN110799981B - 用于与领域无关的方面级别情绪检测的系统和方法

Info

Publication number: CN110799981B
Application number: CN201880043379.0A
Authority: CN
Inventors: 冯哲; 赵林; 徐魁; 贺一帆
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-06-29
Filing date: 2018-06-26
Publication date: 2024-01-05
Anticipated expiration: 2038-06-26
Also published as: US10628528B2; US20190005027A1; CN110799981A; WO2019002276A1; DE112018000334T5

Abstract

一种用于自动化的基于方面的情绪分析的方法包括：解析来自第一领域的评论以生成修辞结构树并且从所述修辞结构树提取修辞规则，每个修辞规则包括从修辞结构树中的至少一个修辞结构树中的至少一个跨距提取的与概率相关联的路径，所述概率是基于注释数据所述路径与正面或负面情绪对应的概率。所述方法还包括：解析来自第二领域的评论，以生成第二多个修辞结构树；生成训练数据，所述训练数据把来自第二领域的评论中的至少一个方面与和所述多个修辞规则中的修辞规则相关联的情绪相关联；以及使用第二多个评论和所述训练数据训练分类器，以识别来自第二领域的评论中的情绪。

Description

用于与领域无关的方面级别情绪检测的系统和方法

优先权声明

本申请要求美国临时申请编号62/526,398的权益，该美国临时申请的标题为“System And Method For Domain-Independent Aspect Level Sentiment Detection”并于2017年6月29日提交，其全部内容通过引用明确地并入本文。

技术领域

本公开一般地涉及自然语言处理（NLP）、情绪分析和人机交互（HMI）的领域，并且更具体地涉及用于针对领域自动生成经训练的情绪分析模型而无需手动注释该领域中的训练集的方法和系统。

背景技术

自动化情绪分析系统使计算机化系统能够处理大量人为生成的信息，诸如在线产品评论和社交媒体帖子，以便理解消费者需求，草拟营销策略并识别潜在的改进领域。对于方面级别情绪分析尤其如此，方面级别情绪分析检测用户对产品或服务的每个方面的意见。与评论级别情绪分析相比，方面级别系统可以为市场分析提供更详细的信息。例如：评论级别情绪分析系统可以从在线用户评论中总结出用户喜欢特定的钻孔机，但是方面级别系统将报告用户因为钻孔机功能强大而对钻孔机表达正面的情绪，但进一步建议如果钻孔机具有更长的电池寿命，则可以改善用户的情绪。

在实践中，方面级别情绪分析系统通常首先利用包含产品的一般方面（例如，功率、价格、电池等）的预定义本体来检测用户评论中的各个方面，然后尝试预测评论者对这些方面的情绪极性。术语“情绪极性”指示评论者对产品的特定方面具有“正面”情绪，“正面”情绪指示赞成该产品的偏爱，而负面极性指示抵触该产品的方面的偏爱。在方面情绪分析中，单个评论者可以对产品的一些方面表达具有正面极性的情绪，同时对产品的其他方面表达具有负面极性的情绪。

尽管本领域已知一些形式的方面情绪分析，但是现有系统需要大量的人力来对特定领域中的产品的大量评论进行分类或“注释”以使得机器学习过程能够产生情绪分析模型，情绪分析模型然后被用于自动化方面级别情绪分析系统。在现有技术中，必须对适用于特定领域的特定训练数据集重复手动注释过程。例如，针对一个领域的训练数据集包括手动注释的数据，该手动注释的数据包含用户对餐厅的情绪，该数据使机器学习过程能够生成情绪分析模型，以评估对其他餐厅评论的特定方面的正面或负面情绪。但是，为了生成不同领域（诸如消费电子产品）中的另一个情绪分析模型，与餐厅领域相关的经注释的训练数据不提供产生用于识别对消费电子产品的情绪的有用方面级别模型的相关信息。相反，必须将相同的手动注释过程应用于与消费电子产品领域相关的大的评论集，以提供训练数据来生成针对消费电子产品领域的有用情绪分析模型。鉴于现有技术的这些缺点，对情绪分析系统和方法进行改进以减少用于生成经训练的情绪分析模型的人类注释需求将是有益的。

发明内容

本公开描述了一种用于跨领域以高精度检测方面级别用户意见的计算系统和方法。该系统从收集来自web的用户评论的收集部件以及关于已知领域的情绪分类器开始。然后，该系统从所述已知领域提取与领域无关的修辞结构规则，并且这些规则可以被应用于新领域以自动训练方面级别情绪检测系统。经训练的系统的输出再次由修辞结构规则进行过滤以实现高精度。最终系统可用于为任何领域生成细粒度的方面级别情绪报告，而无需像现有技术中所需的那样需要人类用户进行广泛的领域专用的注释。

评论的总体评级与其修辞关系的序列的组合用作评论中每个文本跨距的情绪极性的指示符：高度正面（例如“5星”）评论中的一系列联合-详细阐述关系指示对该文本跨距的正面情绪，无论该评论是否谈论两个不同的领域，诸如一个领域中的消费电子产品（例如膝上型计算机评论）或另一个领域中的餐厅评论。另一方面，即使表达强烈正面或负面情绪的评论经常包含涉及“使能关系”的文本跨距，该评论也仅表达评论者的目的，而很少具有正面或负面极性。例如，在 “不想要吃晚饭时感到沉重”的陈述中，作者没有表达对餐厅的任何特定的正面或负面情绪。尽管该句子是从高度正面评论中选出的，但这种特定的文本跨距几乎没有提供评论者对餐厅的任何特定方面的情绪的指示。本文所描述的系统和方法使用修辞规则来将表达情绪极性的文本跨距与没有情绪的那些跨距区分开。该系统和方法使用先前的跨距来自动构建用于方面情绪检测系统的训练集，而无需针对每个领域手动注释不同的训练数据集。

本文描述的系统的一个实施例使用用户评论的修辞结构来实现具有高精度的方面级别情绪分析。该系统包括用户评论收集部件、方面检测部件、领域专用方面级别情绪检测部件、修辞结构解析部件、修辞规则提取部件以及与领域无关的方面情绪预测部件。

在一个实施例中，已经开发了一种用于自动化情绪分析的方法。所述方法包括：利用服务器中的网络接口设备从第一领域接收第一多个评论，第一多个评论中的每个评论与注释数据相关联，所述注释数据识别被包括在所述第一多个评论中的多个情绪和多个方面；利用服务器中的处理器解析来自第一领域的所述第一多个评论，以生成第一多个修辞结构树，第一多个修辞结构树中的每个修辞结构树对应于第一多个评论中的一个评论，并且第一多个修辞结构树中的每个修辞结构树包括与预定关系相关联的至少一个跨距；利用服务器中的处理器从第一多个修辞结构树提取多个修辞规则，每个修辞规则包括从第一多个修辞结构树中的至少一个修辞结构树中的至少一个跨距提取的与概率相关联的路径，所述概率是所述路径基于注释数据与正面或负面情绪对应的概率；利用服务器中的网络接口设备从与第一领域不同的第二领域接收第二多个评论，第二多个评论不包括注释数据；利用服务器中的处理器解析来自第二领域的第二多个评论，以生成第二多个修辞结构树，第二多个修辞结构树中的每个修辞结构树对应于第二多个评论中的一个评论，第二多个修辞结构树中的每个修辞结构树包括与预定关系相关联的至少一个跨距；响应于从包括第二多个评论中的评论中的至少一个方面的修辞结构树提取的路径与修辞规则的所述路径匹配，利用服务器中的处理器生成训练数据，所述训练数据把第二多个评论中的评论中的所述至少一个方面与和所述多个修辞规则中的修辞规则相关联的情绪相关联；以及利用服务器中的处理器使用第二多个评论和所述训练数据训练分类器，以识别来自第二领域的评论中的情绪。

在另一个实施例中，所述方法包括：利用服务器中的处理器从第一多个修辞结构树提取多个路径，所述多个路径中的每个路径包括包含方面的至少一个跨距。

在另一个实施例中，所述方法包括：利用服务器中的网络接口设备从第二领域接收第三多个评论；利用服务器中的处理器基于分类器的输出识别针对被包括在第三多个评论内的至少一个方面的多个情绪；以及利用服务器中的处理器生成包括方面级别情绪报告的输出，所述方面级别情绪报告识别针对第三多个评论中的所述至少一个方面的聚合情绪级别。

在另一个实施例中，所述方法包括：利用服务器中的处理器解析来自第二领域的第三多个评论以生成第三多个修辞结构树，第三多个修辞结构树中的每个修辞结构树与第三多个评论中的一个评论对应，第三多个修辞结构树中的每个修辞结构树包括与预定关系相关联的至少一个跨距；以及，利用服务器中的处理器过滤分类器的输出以去除与第三多个评论中的一个评论中的一方面相对应的情绪，所述第三多个评论中的一个评论中的所述一方面具有与具有小于预定阈值的针对所述一个评论的所识别的所述情绪的概率的修辞规则相对应的修辞树中的路径。

在另一个实施例中，所述方法包括：利用服务器中的处理器把针对所述多个修辞结构树中的修辞结构树中的至少一个跨距的预定关系识别为联合关系、让步关系、详细阐述关系或使能关系。

在另一个实施例中，所述方法包括：识别所述修辞结构树中的所述至少一个跨距中的联合关系，所述至少一个跨距还包括至少两个跨距。

在另一个实施例中，所述方法包括：训练针对第二领域的分类器，其中针对第二领域的分类器是最大熵分类器。

在另一个实施例中，已经开发了用于自动化情绪分析的系统。所述系统包括网络接口设备、存储器以及操作地连接到网络接口设备和存储器的处理器。所述处理器被配置为：使用所述网络接口设备从第一领域接收第一多个评论，所述第一多个评论中的每个评论与注释数据相关联，所述注释数据识别被包括在所述第一多个评论中的多个情绪和多个方面；解析来自第一领域的所述第一多个评论，以生成第一多个修辞结构树，第一多个修辞结构树中的每个修辞结构树对应于第一多个评论中的一个评论，并且第一多个修辞结构树中的每个修辞结构树包括与预定关系相关联的至少一个跨距；从第一多个修辞结构树提取多个修辞规则，每个修辞规则包括从第一多个修辞结构树中的至少一个修辞结构树中的至少一个跨距提取的与概率相关联的路径，所述概率是所述路径基于所述注释数据与正面或负面情绪对应的概率；使用网络接口设备从与第一领域不同的第二领域接收第二多个评论，第二多个评论不包括注释数据；解析来自第二领域的第二多个评论，以生成第二多个修辞结构树，第二多个修辞结构树中的每个修辞结构树对应于第二多个评论中的一个评论，第二多个修辞结构树中的每个修辞结构树包括与所述预定关系相关联的至少一个跨距；响应于从与第二多个评论中的至少一个评论对应的修辞结构树提取的路径与所述修辞规则的路径匹配，生成训练数据，所述训练数据把第二多个评论中的所述至少一个评论与和所述多个修辞规则中的修辞规则相关联的情绪相关联；以及使用第二多个评论和所述训练数据来训练分类器，以识别来自第二领域的评论中的情绪和方面，所述分类器被存储在存储器中以用于对针对第二领域中的附加评论的情绪和方面进行分类。

在系统的另一个实施例中，处理器被配置为从第一多个修辞结构树提取多个路径，所述多个路径中的每个路径包括至少一个跨距。

在系统的另一个实施例中，处理器被配置为：使用网络接口设备从第二领域接收第三多个评论；基于分类器的输出识别针对被包括在第三多个评论中的至少一个方面的多个情绪；以及使用网络接口设备生成输出，所述输出包括方面级别情绪报告，所述方面级别情绪报告识别针对第三多个评论中的所述至少一个方面的聚合情绪级别。

在系统的另一个实施例中，处理器被配置为：解析来自第二领域的第三多个评论，以生成第三多个修辞结构树，第三多个修辞结构树中的每个修辞结构树与第三多个评论中的一个评论对应，第三多个修辞结构树中的每个修辞结构树包括与所述预定关系相关联的至少一个跨距；以及，过滤所述分类器的输出以去除与第三多个评论中的具有修辞树中的以下路径的一个评论相对应的情绪：所述修辞树中的路径对应于具有小于预定阈值的针对所述一个评论所识别的所述情绪的概率的修辞规则。

在系统的另一个实施例中，处理器被配置为：把针对所述多个修辞结构树中的修辞结构树中的至少一个跨距的预定关系识别为联合关系、让步关系、详细阐述关系或使能关系。

在系统的另一个实施例中，处理器被配置为：在所述修辞结构树中识别所述至少一个跨距中的联合关系，所述至少一个跨距还包括至少两个跨距。

在系统的另一个实施例中，针对第二领域的分类器是最大熵分类器。

附图说明

图1是情绪分析系统实施例的示意图。

图2是用于使用图1的系统训练情绪分析模型的过程的图。

图3A是描绘针对评论中所包含的样本文本跨距的修辞结构树的结构的图。

图3B是描绘针对来自与图3A的领域不同的领域的评论中所包含的另一样本文本跨距的另一修辞结构树的结构的图。

具体实施方式

为了促进对本文公开的实施例的原理的理解，现在参考附图和以下书面说明书中的描述。这些参考不意图限制主题的范围。本公开还包括对所示实施例的任何变更和修改，并且包括如本公开所属领域的技术人员通常将会想到的所公开实施例的原理的进一步应用。

如本文中所描述的，术语“修辞结构”指代文本主体的结构的组织，该组织是使用分配给文本的一个或多个跨距的一组预定关系而被自动生成的，其中每个“跨距””指代诸如文本内的子句、短语、句子或段落之类的组成部分。在本公开的上下文中，文本通常是产品或服务的评论，该评论可以表达有关产品或服务的各方面的情绪。例如，一个文本跨距可以对另一跨距进行详细阐述（“详细阐述”关系：例如“钻机功能强大；它可以处理所有家庭任务”），为另一跨距提供让步（“让步关系”：例如“尽管钻机功能强大，但我希望电池将持续更长时间”），与另一跨距一起讨论同一主题（联合关系：“钻机功能强大。价格合理”），或解释行动的目的（使能关系：“我们为我们的新钻机购买了钻头”）。修辞结构定义了关系的层次结构，其中每个关系链接两个文本跨距，并且一些更复杂的修辞结构还包括多个关系之间的链接以形成更大的树结构。有时，这些关系在层次结构中具有相同的优先级，有时，一个关系（核心）比另一个关系（附属）更重要。“详细阐述”关系指代附属跨距向核心跨距提供附加信息的关系。“联合”关系指代涵盖关于相同主题的两个平等文本跨距的关系。“让步”关系是附属似乎与核心不一致但核心和附属都得到作者确认的关系。本文提出的实施例使用树结构来产生修辞结构，以使得能够在跨领域情绪分析中使用该修辞结构。

本文描述的实施例描述了自动化系统，所述自动化系统分析针对不同领域中的产品或服务的不同方面表达的情绪。如本文所使用的，术语“情绪”指代机器可量化属性，其表示作者的观点或态度。一般来说，情绪表达了代表作者的一种正面或负面态度，但是情绪具有正面或负面情绪极性的程度可能会有所不同，并且在一些情况下，情绪可能会表达矛盾情绪。如下面进一步详细描述的，修辞规则将不同修辞结构的概率得分值与正面或负面情绪相关联。如本文所使用的，术语“方面”指代识别文本陈述的主题的特定部分或特征的单词或短语，其中文本陈述的一个示例是对产品或服务的评论。如上所述，评论中涉及的各方面的非限制性示例包括诸如“价格”和“运送时间”之类的方面。在一些情况下，单个评论会识别产品或服务的多个方面，并包括针对同一产品或服务的不同方面表达不同情绪的信息。如本文所使用的，术语“领域”指代自动化系统接收的多个评论所针对的产品或服务的类别。例如，一个领域可以是餐厅的评论，而另一个领域可以是诸如钻机之类的一种类型的电动工具的评论。

图1描绘了情绪分析系统100。情绪分析系统100包括服务器120。服务器120包括至少一个处理器，该至少一个处理器操作地连接到存储器和网络接口设备。该处理器包括一个或多个中央处理单元（CPU）或其他合适的数字逻辑设备，他们通过执行存储在存储器中的所存储的程序指令来实现本文所述的情绪分析的功能。存储器既存储编程指令以供处理器执行也存储评论数据、训练数据、经训练的分类器、修辞规则、存储针对一个或多个领域的各方面的数据库以及实现情绪分析系统100所需的任何其他数据。网络接口设备用作使情绪分析系统100能够从一个或多个领域接收评论的输入设备以及使情绪分析系统100能够产生细粒度的方面级别情绪报告的输出设备。

在操作期间，服务器120从至少一个在线信息源（诸如，万维网（WWW）102上的一个或多个站点）或另一在线信息源（诸如社交网络服务、短消息服务（SMS）消息、电子邮件服务）以及任何其他合适的在线信息源接收评论数据。每个评论都包括文本，并且至少一些（但不一定是全部）评论包括表达有关给定领域中的产品或服务的一个方面的情绪的文本。服务器120经由诸如局域网或广域网之类的数据网络接收这些信息。服务器120包括至少一个数字处理设备，诸如中央处理单元（CPU）或其他合适的数字处理硬件，该至少一个数字处理设备执行存储的程序指令以执行本文所述的自动化方面级别情绪分析操作。在一些实施例中，服务器120由具有多个计算设备的集群形成。在图1的实施例中，服务器120执行存储的程序指令以实现方面级别情绪分析系统128。方面级别情绪分析系统128使用修辞规则124的数据库来识别从web102接收的每个评论中不同文本跨距的修辞结构。如下面进一步详细描述的，情绪分析系统128使用修辞规则124以与领域无关的方式来识别每个评论中具有正面和负面情绪极性的陈述。

服务器120还包括统计方面检测数据库132，方面级别情绪分析系统128使用统计方面检测数据库132来在用户评论中识别产品的不同方面。统计方面检测数据库132例如是基于用户定义的方面字典进行操作的字符串匹配器，或者是基于机器学习的统计标记器，该基于机器学习的统计标记器使用人类注释数据被训练为检测文本中的各方面。如下面进一步详细描述的，方面级别情绪分析系统128使用与领域无关的修辞规则124来检测评论数据中的正面、负面或中性用户情绪，并且情绪分析系统128使用统计方面检测数据库132来识别所述情绪所针对的产品的特定方面。在图1的实施例中，方面检测数据库132存储与第一“种子”领域相对应的方面以及针对不包括人类注释数据的第二领域的方面的集合，针对第一“种子”领域的人类注释可用于识别情绪。本文所述的实施例使系统100能够生成对多个领域通用的一组修辞规则124，并且能够在方面级别情绪分析系统128中训练分类器以识别特定领域中在产品的多个用户评论中表达的情绪，从而产生方面级别情绪报告136，而无需针对该特定领域的人类注释数据可用。方面级别情绪报告136提供有关评论者对产品各个方面的正面、负面或中性情绪的信息（通常是来自大量评论的聚合情绪级别）。在一个实施例中，方面级别情绪报告136包括两类信息。第一，方面级别情绪报告包括对产品的聚合意见：例如，75％的用户对此动力感到满意。第二，方面级别情绪报告包括用户评语的分类示例：对于每个方面，系统100从在线评论提取正面和负面评语（所提取的评语是句子，以便分析人员不必阅读整个评论）以供分析人员浏览。

图2更加详细地描绘了用于操作图1的系统100的过程200。在过程200期间，系统100中的服务器120执行评论收集（框204）以从web102或其他合适的在线信息源接收产品评论数据。系统100接收至少一个评论，但是在一些实际的实施例中，系统100接收大量评论以产生方面级别情绪分析，该方面级别情绪分析反映从大量评论中获得的聚合情绪。评论收集204收集并存储用户评论、与评论相关联的评级以及来自web102的产品信息。评论收集204用于两个目的。第一目的是收集领域内评论205，领域内评论205是与在领域内系统中使用的领域同一领域中的评论。这些评论随后由修辞规则提取部件进行处理，以提取用于方面情绪预测的修辞结构规则。第二目的是收集来自其他领域的评论（所有评论206），这些来自其他领域的评论是最终系统的输入。

过程200继续进行通用方面检测模型的生成（框208）。方面是方面情绪检测任务中的目标。系统100中的服务器120包括方面检测数据库132部件，方面检测数据库132部件识别用户评论中的方面。方面检测数据库132可以是基于用户定义的方面字典的字符串匹配器，或者可以是在人类注释数据上训练的基于机器学习的统计标记器。例如，给定句子“它价格低廉且运送快速”，该部件检测到两个方面，“价格”和“运送”。如上所述，系统100生成方面检测数据库132，该方面检测数据库132具有针对种子领域和没有可用的注释数据的新领域的方面的集合。在许多情况下，种子领域和新领域包括一些公共方面以及每个领域特有的一些方面。

除了从评论数据检测不同方面之外，系统100还执行修辞结构处理（方框212）以生成与领域无关的修辞结构，该与领域无关的修辞结构指示评论中针对每种产品的不同方面的正面和负面情绪。修辞结构解析部件将输入文档解析为修辞结构树：文档内的文本跨距以及这些文本跨距之间的预定关系的树。例如，该部件将取得以下评论数据：“这是一款出色的产品。它价格低，运送快速且易于安装。我将绝对会推荐该产品。”并生成包括图3A的第一树300的修辞结构树。在图3A中，修辞结构树300包括在树300中的第一文本跨距（句子“这是一款出色的产品。”308）和另一个“详细阐述”元素312之间的“联合”关系元素304，“详细阐述”元素312将句子“它价格低，运送快速且易于安装。”316和“我将绝对会推荐该产品。”320接合在一起。。

过程200继续训练领域内方面检测模型（框216），该领域内方面检测模型是使用领域内评论以及针对预定“领域内”数据214的检测到的方面和修辞结构树进行训练的。系统100基于针对预定领域的“领域内”数据205，使用针对种子领域的人类注释数据来训练领域专用方面情绪检测系统。例如，在一个实施例中，预定领域内指代针对消费电子产品的评论。这里的目标是为后续步骤构建种子系统，而不是构建能够在多个领域中操作的通用系统。通用系统不限于为所述领域内选择的领域，诸如涉及餐厅评论的领域的方面级别情绪系统。

可以在已经具有方面级别情绪注释数据的领域上使用最大熵分类器来训练领域内系统。极少数的领域（诸如餐厅评论）已经具有可公开获得的经注释的数据，从而能够构建领域内系统。在“它价格低廉且运送快速”的示例中，该部件将检测到用户对“运送”和“价格”持有正面意见。另外，基于一组被标记和注释的领域内评论数据205的针对“领域内”的训练过程对本领域技术人员是已知的，并且在本文中不再进一步详细讨论。

在过程200期间，系统100还执行修辞规则提取过程（框220），以生成一组修辞结构树，该修辞结构树可用于在除了预定领域内数据之外的宽范围的领域中识别正面和负面情绪极性。修辞规则提取过程提取在至少一个领域内修辞结构树中出现的修辞路径，其中从每个修辞结构树提取的路径中的至少一个跨距包括领域内方面。规则提取过程通过这些规则在正面/负面情绪表达中出现的概率对这些规则进行评分，其中使用领域内注释数据来识别所述情绪。输入是由用户评论收集部件收集并且然后由方面检测部件和领域内系统进行处理的领域内用户评论。换句话说，该部件的输入是具有方面以及所检测到的其相关的情绪的用户评论。

对于每个方面，该部件提取从根节点到包含当前方面的跨距的路径：对于图3A的树300，针对方面“运送”提取的路径是5.0联合-详细阐述（注意5.0是用户分配的评论的评级，在从0.0至5.0的尺度内，但是在其他实施例中可以使用其他评级尺度）。对于每个提取的路径，系统100基于该提取的路径对应于正面或负面意见的概率来生成得分。具有关联的正面和负面概率的路径称为修辞规则。这些规则是从已知领域提取的，但可用于识别或过滤新领域中的方面情绪。这些规则使系统100与领域无关：它是从特定领域构建的，但是一旦构建就不再是领域专用的，并且因此无需附加人类注释即可应用于任何领域。

为了说明系统100的领域无关性，图3B描绘了针对涵盖餐厅评论的新领域的另一修辞结构树的示例。在图3B中，评论包括文本“惊人的周日早午餐！食物和服务出色！”修辞结构树350包括在针对“惊人的周日早午餐！”的文本跨距358和详细阐述关系362之间的联合关系354，详细阐述关系362针对文本跨距“食物和服务出色！”366与另一联合关系370。如在修辞结构树300中一样，树350识别文本跨距358中的正面情绪，并使用详细阐述元素将餐厅的更广泛的方面（“周日早午餐”）与更具体的“食物”和“服务”方面链接在一起。

在过程200期间，系统100中的服务器120使用领域内方面情绪数据和从领域内模型提取的修辞规则来生成一组与领域无关的修辞规则222，服务器120将该组与领域无关的修辞规则222存储作为图1中的实施例中的修辞规则124。情绪预测部件使用修辞规则来收集针对新领域的训练数据并过滤系统预测（框224）。为了在新领域上训练方面情绪分析系统，系统100首先在新领域中收集用户评论。在一个实施例中，服务器120中的网络接口设备从与第一种子领域不同的新的第二领域接收第二多个评论，诸如从网络102或另一个在线信息源接收的附加评论。第二多个评论来自第二领域，该第二领域不包括可以识别评论的情绪的注释。然后，服务器120使用方面检测数据库132来识别包括至少一个方面的任何评论，以识别第二领域的评论的文本中的方面单词和短语。

服务器120处理包括至少一个方面的评论以解析来自新领域的第二多个评论，从而按照与生成针对种子领域的修辞结构树的解析相同的方式生成针对第二领域中的评论的另外的多个修辞结构树。服务器120使用方面检测数据库132来识别针对包括所检测到的方面的任何跨距的路径，并将该路径与包括相同路径的任何修辞规则124相匹配，以使服务器120能够在第二领域的评论中识别既包括方面又与修辞规则匹配的文本跨距，以便分配针对所述方面所表达的情绪是正面极性还是负面极性情绪的概率得分。

服务器120对针对第二领域接收的每个评论执行此过程，以生成一组训练数据，该组训练数据将第二多个评论的修辞结构树中的一些文本跨距与包含在所述跨距中的至少一个方面相关联，以及生成针对第二区领域中每个评论的修辞结构树的路径中表达的情绪的概率得分。服务器120还忽略第二多个评论的修辞树结构中的如下文本跨距：该文本跨距不包括针对第二领域的方面或者具有不与针对任何修辞规则的路径匹配的路径，这使得系统100能够忽略第二多个评论中的对于识别针对第二领域中特定方面的情绪将无用的文本。

在过程200的一个示例中，系统100接收一条评论文本：“产品良好。它易于使用且运送快速”。服务器120使用方面检测数据库132来识别方面“运送”。服务器120将该文本解析成修辞结构树，并将修辞规则路径（“5.0联合-详细阐述”）及其概率得分（高正面概率）与包括“运送”方面的修辞结构树的路径匹配。服务器120生成具有注释的训练数据，所述注释是：与“运送”方面相关联的来自评论的修辞结构树的路径具有带有与修辞规则的概率得分值的正面情绪。这样，服务器120自动为方面“运送”生成正面情绪标签。如上所述，系统100自动生成注释数据，该注释数据将各方面映射到针对来自第二领域的评论中的所选择的文本跨距的情绪，而无需人类注释来识别应分配给第二多个评论中的每个方面的情绪。

过程200继续进行，服务器120在方面情绪分析系统128中使用评论和注释数据作为针对新领域的训练数据来训练机器学习分类器，并且使用所述分类器来针对新领域识别被接收的附加评论的特定方面的情绪（方框224）。在一个实施例中，服务器120使用来自新领域的先前收集的评论和识别包括在训练数据中的方面情绪概率关系的注释数据来训练最大熵分类器。服务器120使用来自训练数据中的修辞结构树的包括每个识别的方面的文本跨距，使用所识别的情绪概率来训练分类器，以确保分类器针对被包括在训练数据中的情绪生成正确的情绪分析输出。一旦被训练，方面情绪分析系统128中的最大熵分类器就可以接收来自新评论中的跨距的文本并发出得分，所述文本包括存储在方面检测数据库132中的方面之一，所述得分指示针对所述评论对所述方面表达的正面或负面情绪极性的最高估计可能性。在一些实施例中，分类器输出二进制正面/负面分类，而在其他实施例中，分类器在连续范围上输出分数，所述连续范围从最强负面情绪到最强正面情绪具有在两个极值之间的负面或正面情绪的一个或多个中间级别。该信息使系统100能够为新领域中的一个或多个评论生成方面级别情绪分析报告。

在本文描述的实施例中，系统100训练分类器以针对每个方面提高情绪检测的准确性，因为分类器还从训练数据中的文本跨距提取附加的潜在语言特征，这些潜在语言特征可能不会被修辞规则完全描述。因此，系统100使用修辞规则作为一种机制来识别文本跨距来用作针对不同识别出的方面的训练数据，并且训练过程使分类器能够提取训练数据的文本中的附加的潜在特征以便提高情绪检测的准确性，即使该特征没有直接在修辞规则自身中被编码。尽管本文所述的实施例出于说明目的使用最大熵分类器，但是服务器120和过程200的不同配置可以使用基于例如神经网络、隐马尔可夫模型的其他形式的分类器或可以支持使用在过程200期间生成的针对新领域的相同训练数据的向量机分类器。

一旦训练了方面级别情绪分析系统128中的分类器，服务器120就从web102或其他在线信息源接收新领域中的附加的第三多个评论。服务器120：使用方面检测数据库132识别来自新领域的附加评论数据213中的方面；解析这些评论以生成修辞树结构，该修辞树结构具有包括所识别的方面和可以表达对所述方面的情绪的附加文本的文本跨距；以及使用包括所述方面的文本跨距作为对方面级别情绪分析系统128中经训练的分类器的输入。经训练的分类器生成一输出，该输出识别针对评论中特定方面的正面或负面情绪。服务器120使用方面情绪分析系统128中的经训练的分类器来生成方面级别情绪分析报告136。

在完成分类器训练过程之后，服务器120可以使用该分类器来识别针对来自新领域的附加评论中的各方面表达的情绪，而无需直接采用修辞规则124。但是，在一些实施例中，系统100还使用高置信度修辞规则124对分类器的输出进行过滤，以便在包含所述方面的评论的修辞树结构中的路径与修辞规则的对应路径匹配的情况下进一步提高来自分类器的预测的情绪输出的精度，所述修辞规则的对应路径具有分类器的情绪输出为正确的低概率。例如，如果分类器识别出针对评论中的方面的正面情绪，则服务器120可选地将包括所述方面的评论的修辞结构树中的路径与修辞规则124的对应路径进行匹配。如果与匹配的修辞规则相关联的概率得分指示情绪为正面的概率低于预定阈值（例如，情绪实际为正面的概率小于40％），则服务器120从方面级别情绪报告136中的最终输出过滤掉（去除）针对所述评论中的所述方面的所识别的情绪，以提高方面级别情绪报告136的准确性。服务器120保留来自分类器的与具有高于阈值的较高概率值的修辞规则匹配的输出，所述较高概率值指示分类器的输出为正确的高置信度。

在过程200中服务器120的最终输出被组织成方面级别情绪报告136，方面级别情绪报告136总结了客户对产品或服务的意见，包括喜欢或不喜欢的方面，以及来自原始评论的意见。服务器120实现web服务器、图形用户界面或其他输出实现，以显示最终方面级别情绪报告136。

过程200可应用于可获得用户评论和相关联的用户评级的任何领域，这对于大多数产品和服务评论是有效的。因此，系统100实现了通用领域系统，该通用领域系统可以被应用于经由web102或任何其他合适的在线信息源可获得用户评论和相关联的用户评级的任何领域。系统的规则收集和训练功能被离线执行。数据收集和预测部件可以作为实时系统在线运行，或者可以作为具有周期性更新的离线分析系统运行。

本文描述的系统和方法包括相对于现有技术的各种技术改进。这些改进包括：利用从用户评论的修辞结构得出的规则来高精度地检测方面级别用户意见；利用大量用户评论以自动化方式得出方面情绪检测规则，而无需大量的人类干预；以及提供一种方面情绪分析系统，该方面情绪分析系统可以应用于多个领域而无需针对每个领域的人工训练过程。更具体地，本文描述的用于方面级别情绪分析的从修辞结构得出的规则提供了跨领域不变的修辞结构。因此，本文描述的系统和方法可直接应用于新领域，而无需引起人类注释精力。

如本文所述，情绪分析系统100和过程200提供了对自动化系统的操作的改进，该改进可以在人类没有提供用于训练分类器的详细注释数据的领域中识别用户评论的情绪和特定方面。特定实施例描述了实施规则，该实施规则提高了针对新领域中的评论的基于方面的情绪检测的准确性，而无需人类干预，即使新领域中的情绪检测不能在现有技术的情绪分析系统中自动化进行。此外，作为生成用于新领域的训练数据的自动化过程的一部分，从种子领域自动提取修辞规则和自动生成方面检测数据库是针对如下问题的特定解决方案的非限制性示例：改进缺乏人类注释数据的大量集合的领域中情绪分析系统的操作。

将会意识到，上述公开的以及其他特征和功能的变体或者其替代可以按期望组合成许多其他不同的系统、应用或方法。本领域技术人员可以随后进行各种目前无法预见或无法预测的替换、修改、变化或改进，这些替换、修改、变化或改进也意图被所附权利要求涵盖。

Claims

1.一种用于自动化情绪分析的方法，包括：

利用服务器中的网络接口设备从第一领域接收第一多个评论，第一多个评论中的每个评论与注释数据相关联，所述注释数据识别被包括在所述第一多个评论中的多个情绪和多个方面；利用服务器中的处理器解析来自第一领域的第一多个评论，以生成第一多个修辞结构树，第一多个修辞结构树中的每个修辞结构树对应于第一多个评论中的一个评论，并且第一多个修辞结构树中的每个修辞结构树包括与预定关系相关联的至少一个跨距；

利用服务器中的处理器从第一多个修辞结构树提取多个修辞规则，每个修辞规则包括从第一多个修辞结构树中的至少一个修辞结构树中的至少一个跨距提取的与概率相关联的路径，所述概率是所述路径基于所述注释数据与正面或负面情绪对应的概率；

利用服务器中的网络接口设备从与第一领域不同的第二领域接收第二多个评论，第二多个评论不包括注释数据；

利用服务器中的处理器解析来自第二领域的第二多个评论，以生成第二多个修辞结构树，第二多个修辞结构树中的每个修辞结构树对应于第二多个评论中的一个评论，第二多个修辞结构树中的每个修辞结构树包括与所述预定关系相关联的至少一个跨距；

响应于从包括第二多个评论中的评论中的至少一个方面的修辞结构树提取的路径与所述修辞规则的所述路径匹配，利用服务器中的处理器生成训练数据，所述训练数据把第二多个评论中的评论中的所述至少一个方面与和所述多个修辞规则中的修辞规则相关联的情绪相关联；以及

利用服务器中的处理器使用第二多个评论和所述训练数据训练分类器，以识别来自第二领域的评论中的情绪。

2.根据权利要求1所述的方法，提取多个修辞规则还包括：

利用服务器中的处理器从第一多个修辞结构树提取多个路径，所述多个路径中的每个路径包括包含方面的至少一个跨距。

3.根据权利要求1所述的方法，还包括：

利用服务器中的网络接口设备从第二领域接收第三多个评论；

利用服务器中的处理器基于分类器的输出识别针对被包括在第三多个评论内的至少一个方面的多个情绪；以及

利用服务器中的处理器生成包括方面级别情绪报告的输出，所述方面级别情绪报告识别针对第三多个评论中的所述至少一个方面的聚合情绪级别。

4.根据权利要求3所述的方法，还包括：

利用服务器中的处理器解析来自第二领域的第三多个评论以生成第三多个修辞结构树，第三多个修辞结构树中的每个修辞结构树与第三多个评论中的一个评论对应，第三多个修辞结构树中的每个修辞结构树包括与所述预定关系相关联的至少一个跨距；以及

利用服务器中的处理器过滤分类器的输出以去除与第三多个评论中的一个评论中的一方面相对应的情绪，所述第三多个评论中的一个评论中的一方面具有与具有小于预定阈值的针对所述一个评论所识别的所述情绪的概率的修辞规则相对应的修辞树中的路径。

5.根据权利要求1所述的方法，所述解析还包括：

利用服务器中的处理器把针对所述多个修辞结构树中的修辞结构树中的至少一个跨距的预定关系识别为联合关系、让步关系、详细阐述关系或使能关系。

6.根据权利要求4所述的方法，所述解析还包括：

识别所述修辞结构树中的所述至少一个跨距中的联合关系，所述至少一个跨距还包括至少两个跨距。

7.根据权利要求1所述的方法，其中，针对第二领域的分类器是最大熵分类器。

8.一种用于自动化情绪分析的系统，包括：

网络接口设备；

存储器；和

处理器，操作地连接到网络接口设备和存储器，所述处理器被配置为：

使用所述网络接口设备从第一领域接收第一多个评论，所述第一多个评论中的每个评论与注释数据相关联，所述注释数据识别被包括在所述第一多个评论中的多个情绪和多个方面；

解析来自第一领域的所述第一多个评论，以生成第一多个修辞结构树，第一多个修辞结构树中的每个修辞结构树对应于第一多个评论中的一个评论，并且第一多个修辞结构树中的每个修辞结构树包括与预定关系相关联的至少一个跨距；

从第一多个修辞结构树提取多个修辞规则，每个修辞规则包括从第一多个修辞结构树中的至少一个修辞结构树中的至少一个跨距提取的与概率相关联的路径，所述概率是所述路径基于所述注释数据与正面或负面情绪对应的概率；

使用网络接口设备从与第一领域不同的第二领域接收第二多个评论，第二多个评论不包括注释数据；

解析来自第二领域的第二多个评论，以生成第二多个修辞结构树，第二多个修辞结构树中的每个修辞结构树对应于第二多个评论中的一个评论，第二多个修辞结构树中的每个修辞结构树包括与所述预定关系相关联的至少一个跨距；

响应于从与第二多个评论中的至少一个评论对应的修辞结构树提取的路径与所述修辞规则的路径匹配，生成训练数据，所述训练数据把第二多个评论中的所述至少一个评论与和所述多个修辞规则中的修辞规则相关联的情绪相关联；以及

使用第二多个评论和所述训练数据来训练分类器，以识别来自第二领域的评论中的情绪和方面，所述分类器被存储在存储器中以用于对针对第二领域中的附加评论的情绪和方面进行分类。

9.根据权利要求8所述的系统，所述处理器还被配置为：

从第一多个修辞结构树提取多个路径，所述多个路径中的每个路径包括至少一个跨距。

10.根据权利要求8所述的系统，所述处理器还被配置为：

使用所述网络接口设备从第二领域接收第三多个评论；

基于所述分类器的输出识别针对被包括在第三多个评论中的至少一个方面的多个情绪；以及

使用网络接口设备生成输出，所述输出包括方面级别情绪报告，所述方面级别情绪报告识别针对第三多个评论中的所述至少一个方面的聚合情绪级别。

11.根据权利要求8所述的系统，所述处理器还被配置为：

解析来自第二领域的第三多个评论，以生成第三多个修辞结构树，第三多个修辞结构树中的每个修辞结构树与第三多个评论中的一个评论对应，第三多个修辞结构树中的每个修辞结构树包括与所述预定关系相关联的至少一个跨距；以及

过滤所述分类器的输出以去除与第三多个评论中的具有修辞树中的以下路径的一个评论相对应的情绪：所述修辞树中的路径对应于具有小于预定阈值的针对所述一个评论所识别的所述情绪的概率的修辞规则。

12.根据权利要求8所述的系统，所述处理器还被配置为：

把针对所述多个修辞结构树中的修辞结构树中的至少一个跨距的预定关系识别为联合关系、让步关系、详细阐述关系或使能关系。

13.根据权利要求12所述的系统，所述处理器还被配置为：

14.根据权利要求8所述的系统，其中，针对第二领域的分类器是最大熵分类器。