CN112686056B

CN112686056B - 一种情感分类方法

Info

Publication number: CN112686056B
Application number: CN202110301286.7A
Authority: CN
Inventors: 陈锦鹏; 薛云; 黄伟豪; 代安安
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-06
Anticipated expiration: 2041-03-22
Also published as: CN112686056A

Abstract

本发明提供一种情感分类方法，包括：获取上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵；根据上下文对应的词嵌入矩阵、目标词对应的词嵌入矩阵和第一语义激活模型，获取目标词语义增强的上下文表示和上下文语义增强的目标词表示；根据目标词语义增强的上下文表示、上下文语义增强的目标词表示和语义选择模型，得到语义选择后的上下文表示；根据语义整合模型，提取目标句子对应的句法依存树中的句法表示；根据语义选择后的上下文表示、句法表示和第二语义激活模型，得到目标词对应的情感分类结果。相对于现有技术，本发明充分捕捉了上下文中与目标词相关的语义信息，又综合考虑上下文、目标词与句法之间的联系，提高了情感分类的准确性。

Description

一种情感分类方法

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种情感分类方法。

背景技术

由于用户留在论坛或电商平台上的评论对商家分析用户观点等方面具有重要意义，因此，情感分析受到越来越多的关注。情感分析是自然语言处理(Natural LanguageProcessing，NLP)中的重要任务，其目的在于对带有情感色彩的主观性文本进行分析。

目前，有很多方法用于对句子或文档的整体进行情感极性分类，然而，在一个句子或者文档中通常会具有不同的目标词，目标词的情感极性可能是不同的。如果直接进行整体的情感极性分类，就会导致对目标词的情感极性判断出现错误。因此，针对目标词的属性级情感分类方法越来越为重要。

现有技术中存在一些将神经网络与注意力机制相结合的方法用以进行属性级的情感分类，这些方法虽然能够克服浅层学习模型的缺陷，但是依旧存在如下问题：一方面，其不能充分捕捉上下文中与目标词相关的语义信息，在语义关系较远或者词序发生变化时易造成错误判断；另一方面，其没有考虑上下文和目标词与句法之间的联系，且由于缺乏句法的约束技术，可能会将句法上不相关的上下文单词识别为判断目标词情感分类的线索，降低了情感分类的准确性。

发明内容

为克服相关技术中存在的问题，本发明实施例提供了一种情感分类方法，包括如下步骤：

获取目标句子对应的词嵌入矩阵；其中，所述目标句子对应的词嵌入矩阵包括上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵；

根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的隐藏状态提取模型，得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵；

获取所述上下文与所述目标词之间的公共信息矩阵，根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的语义信息交互模型，得到目标词语义增强的上下文表示和上下文语义增强的目标词表示；

根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型，得到语义选择后的上下文表示；

获取所述目标句子对应的句法依存树，根据预设的语义整合模型，提取所述目标句子对应的句法依存树中的句法表示；

根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型，得到所述目标词对应的情感分类结果。

可选的，所述根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的隐藏状态提取模型，得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵，包括步骤：

对所述目标词对应的词嵌入矩阵进行平均池化，得到平均目标词向量；

根据所述平均目标词向量和所述上下文对应的词嵌入矩阵，得到融入目标词信息的上下文对应的词嵌入矩阵；

将所述目标词对应的词嵌入矩阵和所述融入目标词信息的上下文对应的词嵌入矩阵分别输入预设的GRU神经网络模型中，得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵。

可选的，所述获取所述上下文与所述目标词之间的公共信息矩阵，根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的语义信息交互模型，得到目标词语义增强的上下文表示和上下文语义增强的目标词表示，包括步骤：

根据所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的公共信息矩阵计算公式，得到所述公共信息矩阵；

根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的目标词语义增强计算公式，得到所述目标词语义增强的上下文表示；

根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的上下文语义增强计算公式，得到所述上下文语义增强的目标词表示。

可选的，所述根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型，得到语义选择后的上下文表示，包括步骤：

对所述上下文增强的目标词表示进行平均池化，得到目标词查询向量；

将所述目标词查询向量分别输入若干个单层注意力模型，得到若干个注意力系数矩阵；

获取若干个所述注意力系数矩阵相加后的平均值，得到语义选择抑制参数；

根据所述语义选择抑制参数和所述上下文对应的隐藏状态矩阵，得到所述语义选择后的上下文表示。

可选的，所述根据预设的语义整合模型，提取所述目标句子对应的句法依存树中的句法表示，包括步骤：

根据所述句法依存树，得到所述目标句子中的单词对应的邻接矩阵，其中，所述邻接矩阵表示所述目标句子中的单词的邻接关系；

将所述邻接矩阵输入预设的图卷积神经网络模型，得到所述目标句子的句法表示。

可选的，所述将所述邻接矩阵输入预设的图卷积神经网络模型，得到所述目标句子的句法表示，包括步骤：

将所述邻接矩阵和上一层的输出结果输入至预设图卷积运算公式中，得到当前层的输出结果，重复执行输入操作，直至得到所述预设的图卷积神经网络模型的输出层的输出结果,获取所述目标句子的句法表示。

可选的，所述根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型，得到所述目标词对应的情感分类结果，包括步骤：

提取所述语义选择后的上下文表示的局部特征和所述句法表示中的局部特征，得到目标语义表示和目标句法表示；

根据所述目标语义表示、所述目标句法表示和预设的情感极性分类函数，得到所述目标词对应的情感分类结果。

可选的，所述提取所述语义选择后的上下文表示的局部特征和所述句法表示中的局部特征，得到目标语义表示和目标句法表示，包括步骤：

将所述语义选择后的上下文表示输入预设的第一局部特征提取网络，得到所述语义选择后的上下文表示的局部特征；

将所述句法表示输入预设的第二局部特征提取网络，得到所述句法表示的局部特征；

对所述语义选择后的上下文表示的局部特征和所述句法表示的局部特征进行最大池化操作，得到所述目标语义表示和目标句法表示。

可选的，在根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型，获取目标词语义增强的上下文表示和上下文语义增强的目标词表示之前，包括步骤：

获取用于训练语义认知模型的训练集；其中，所述语义认知模型包括第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型；

基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述语义认知模型，更新所述语义认知模型内的训练参数，直至满足训练终止条件，得到训练好的语义认知模型。

本发明实施例通过获取目标句子对应的词嵌入矩阵；其中，所述目标句子对应的词嵌入矩阵包括上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵；根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型，获取目标词语义增强的上下文表示和上下文语义增强的目标词表示；根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型，得到语义选择后的上下文表示；获取所述目标句子对应的句法依存树，根据预设的语义整合模型，提取所述目标句子对应的句法依存树中的句法表示；根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型，得到所述目标词对应的情感分类结果。通过上述第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型模拟了双侧大脑的语义认知过程，使本方法既能够更充分捕捉上下文中与目标词相关的语义信息，减少无关信息的影响，又能综合考虑上下文和目标词与句法之间的联系，将句法信息融入在句法表示中，从而提升情感分类的准确性，并且，由于是分别进行语义信息和句法信息的提取，还能够有效避免信息的混杂，进一步改善情感分类的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明一个示例性实施例提供的情感分类方法的流程示意图；

图2为本发明一个示例性实施例提供的情感分类方法中S102的流程示意图；

图3为本发明一个示例性实施例提供的情感分类方法中S1021的流程示意图；

图4为本发明一个示例性实施例提供的情感分类方法中S1022的流程示意图；

图5为本发明一个示例性实施例提供的语义信息交互模型的内部结构示意图；

图6为本发明一个示例性实施例提供的情感分类方法中S103的流程示意图；

图7为本发明一个示例性实施例提供的多层平均注意力模型的内部结构示意图；

图8为本发明一个示例性实施例提供的情感分类方法中S104的流程示意图；

图9为本发明一个示例性实施例提供的句法依存树的示意图；

图10为本发明一个示例性实施例提供的邻接矩阵的示意图；

图11为本发明一个示例性实施例提供的情感分类方法中S105的流程示意图；

图12为本发明另一个示例性实施例提供的情感分类方法的流程示意图；

图13为本发明一个示例性实施例提供的语义认知模型的内部结构示意图；

图14为本发明一个示例性实施例提供的多层平均注意力中的层数对语义认知模型的准确率的影响结果示意图；

图15为本发明另一个示例性实施例提供的多层平均注意力中的层数对语义认知模型的准确率的影响结果示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本发明一个示例性实施例提供的情感分类方法的流程示意图，所述方法由情感分类设备执行，包括如下步骤：

S101：获取目标句子对应的词嵌入矩阵；其中，所述目标句子对应的词嵌入矩阵包括上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵。

在本申请实施例中，所述目标句子中包括上下文和目标词。所述上下文中包括多个单词，所述目标词中包括至少一个单词。

所述上下文可以表示为

所述目标词可以表示为

其中，

分别表示上下文中的单词，且上下文中一共包括n个单词，

分别表示目标词中的单词，且目标词中一共包括m个单词。

情感分类设备对上下文和目标词进行词嵌入处理，获取上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵。

其中，词嵌入处理是一种将文本进行数字化表示的处理方式，其能够将单词映射到高维的向量中以实现对单词的表示。若将多个单词分别映射到高维向量，那么得到的就是一个由多个高维向量组成的词嵌入矩阵。

在本申请实施例中，上下文对应的词嵌入矩阵表示为

目标词对应的词嵌入矩阵表示为

其中，

分别表示上下文中每个单词对应的高维向量，

分别表示目标词中每个单词对应的高维向量，

表示上下文对应的词嵌入矩阵为n行d_vec列的矩阵，

表示上下文对应的词嵌入矩阵为m行d_vec列，d_vec表示每个单词对应的高维向量的维度。

在一个可选的实施例中，进行词嵌入处理的方式可以是通过现有的词嵌入工具，例如GloVe或word2vec等，在本申请实施例中，基于GloVe的并行化处理以及利于处理大数据集的优势，采用GloVe对上下文和目标词进行词嵌入转换，获取上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵。

S102：根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型，获取目标词语义增强的上下文表示和上下文语义增强的目标词表示。

情感分类设备将所述上下文对应的词嵌入矩阵和所述目标词对应的词嵌入矩阵输入值预设的第一语义激活模型，得到目标词语义增强的上下文表示和上下文语义增强的目标词表示。

在本申请实施例中，所述第一语义激活模型用于将目标词的信息融入至上下文中，初步建立起目标词与上下文之间的关联。

所述第一语义激活模型也可以称之为左半球语义激活模型(Left HemisphereSemantic Activation，LH-SA)，其是预先训练好并设置在情感分类设备中的模型，具体地，第一语义激活模型的训练过程可以在情感分类设备中进行，也可以在其他外部设备中进行，并在训练完成后移植至情感分类设备中。

在一个可选的实施例中，为更好地建立目标词与上下文之间的关联，使其交互过程中既不会损失自身的重要信息，由能够融入有用的相关信息，请参阅图2，步骤S102包括步骤S1021～S1022，具体如下：

S1021：根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的隐藏状态提取模型，得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵。

情感分类设备将所述上下文对应的词嵌入矩阵和所述目标词对应的词嵌入矩阵输入至预设的隐藏状态提取模型，得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵。

在本申请实施例中，所述预设的隐藏状态提取模型用于提取上下文和目标词中隐藏的状态信息，从而获取到含有更多语义信息的上下文对应的隐藏状态矩阵和目标词对应的隐藏状态矩阵。

在一个可选的实施例中，隐藏状态提取模型可以为任意一种循环神经网络模型，例如：LSTM长短期记忆网络模型、Bi-LSTM双向长短期记忆网络模型(Bidirectional LongShort-Term Memory networks，)、GRU神经网络模型或者Bi-GRU神经网络模型等。

具体地，为了提取到更为丰富的隐藏状态信息，请参阅图3，步骤S1021包括步骤S10211～S10213，如下：

S10211：对所述目标词对应的词嵌入矩阵进行平均池化，得到平均目标词向量。

情感分类设备根据目标词对应的词嵌入矩阵和预设的第一平均池化公式，得到平均目标词向量。

其中，预设的第一平均池化公式如下：

表示目标词中第i个单词对应的高维向量，m表示目标词中共有m个单词，v_mean表示平均目标词向量，

表示平均目标词向量为1行d_vec列的向量。

S10212：根据所述平均目标词向量和所述上下文对应的词嵌入矩阵，得到融入目标词信息的上下文对应的词嵌入矩阵。

情感分类设备根据所述平均目标词向量和所述上下文对应的词嵌入矩阵，得到融入目标词信息的上下文对应的词嵌入矩阵

其中，

表示融入目标词信息的上下文对应的词嵌入矩阵中的n个高维向量，

由上下文对应的词嵌入矩阵中的

分别与v_mean拼接而成，

表示融入目标词信息的上下文对应的词嵌入矩阵为n行2d_vec列的矩阵。

S10213：将所述目标词对应的词嵌入矩阵和所述融入目标词信息的上下文对应的词嵌入矩阵分别输入预设的GRU神经网络模型中，得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵。

预设的GRU神经网络模型一种门控循环神经网络模型，其相较于LSTM长短期记忆网络模型缺少一个门控，参数也更好，因此，采用预设的GRU神经网络模型能够高效地不做到上下文和目标词的隐藏信息。

本申请实施例中，所述GRU神经网络模型训练过程可以在情感分类设备中进行，也可以在其他外部设备中进行，并在训练完成后移植至情感分类设备中。

具体地，情感分类设备将所述目标词对应的词嵌入矩阵V_a和所述融入目标词信息的上下文对应的词嵌入矩阵V_ca分别输入预设的GRU神经网络模型中，得到所述上下文对应的隐藏状态矩阵H_c和所述目标词对应的隐藏状态矩阵H_a。

其中，

GRU()表示预设的GRU神经网络模型，

表示预设的GRU神经网络模型输出的上下文对应的隐藏状态矩阵H_c是n行d_h列的隐藏状态矩阵，所述目标词对应的隐藏状态矩阵H_a均是m行d_h列的隐藏状态矩阵。

需要说明的是，关于GRU神经网络内部的运算公式均为现有技术，在此不进行展开说明。

S1022：获取所述上下文与所述目标词之间的公共信息矩阵，根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的语义信息交互模型，得到目标词语义增强的上下文表示和上下文语义增强的目标词表示。

情感分类设备首先获取所述上下文与所述目标词之间的公共信息矩阵。其中，所述公共信息矩阵是与上下文和目标词均相关的矩阵，其能够实现上下文信息与目标词信息交互的过程中，不会丧失与自身相关的重要信息，又能够加入与彼此相关的有用信息。

之后，情感分类设备将所述公共信息矩阵、所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵输入预设的语义信息交互模型，得到目标词语义增强的上下文表示和上下文语义增强的目标词表示。

其中，预设的第一语义激活模型中包括语义信息交互模型，语义信息交互模型(Information Interaction Module，IIM)其是预先训练好并设置在情感分类设备中的模型，具体地，语义信息交互模型的训练过程可以在情感分类设备中进行，也可以在其他外部设备中进行，并在训练完成后移植至情感分类设备中。

在一个可选的实施例中，请参阅图4，步骤S1022包括步骤S10221～S10223，具体如下：

S10221：根据所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的公共信息矩阵计算公式，得到所述公共信息矩阵。

情感分类设备根据所述上下文对应的隐藏状态矩阵H_c、所述目标词对应的隐藏状态矩阵H_a和预设的公共信息矩阵计算公式，得到所述公共信息矩阵H_ca。

其中，预设的公共信息矩阵计算公式如下：

relu()是一种现有的线性整流函数(Rectified Linear Unit，relu)，

表示W_ca是一个d_h行d_h列的可训练参数矩阵，

表示目标词对应的隐藏状态矩阵H_a的转置，

表示公共信息矩阵是一个n行m列的矩阵，

其中，

表示公共信息矩阵中包括的各行向量。

S10222：根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的目标词语义增强计算公式，得到所述目标词语义增强的上下文表示。

情感分类设备根据所述公共信息矩阵H_ca、所述上下文对应的隐藏状态矩阵H_c、所述目标词对应的隐藏状态矩阵H_a和预设的目标词语义增强计算公式，得到所述目标词语义增强的上下文表示E_c。

其中，预设的目标词语义增强计算公式如下：

E_c＝relu(H_cW_c+H_caH_aW_a)

表示目标词语义增强的上下文表示E_c是一个n行d_h列的矩阵；

表示W_c是一个d_h行d_h列的可训练参数矩阵，

表示W_a是一个d_h行d_h列的可训练参数矩阵，relu()含义均相同，不再赘述。

S10223：根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的上下文语义增强计算公式，得到所述上下文语义增强的目标词表示。

情感分类设备根据所述公共信息矩阵H_ca、所述上下文对应的隐藏状态矩阵H_c、所述目标词对应的隐藏状态矩阵H_a和预设的上下文语义增强计算公式，得到所述上下文语义增强的目标词表示E_a。

其中，预设的目标词语义增强计算公式如下：

表示目标词语义增强的目标词表示E_a是一个m行d_h列的矩阵；

表示W_c是一个d_h行d_h列的可训练参数矩阵；

表示W_a是一个d_h行d_h列的可训练参数矩阵；relu()含义均相同，不再赘述；

表示公共信息矩阵H_ca的转置。

请参阅图5，其为本发明一个示例性实施例提供的语义信息交互模型的内部结构示意图。图5中更加形象化地展现了语义信息交互模型的内部处理过程。

S103：根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型，得到语义选择后的上下文表示。

预设的语义选择模型(Semantic Selection，SS)是一种语义交互过程，在情感分类设备基于预设的第一语义激活模型，获取到目标词语义增强的上下文表示和上下文语义增强的目标词表示之后，情感分类设备进一步将目标词语义增强的上下文表示和上下文语义增强的目标词表示输入至预设的语义选择模型，模拟了大脑的语义选择决策过程，从而实现从多个竞争信息中选择目标信息，并抑制无关信息。

在本申请实施例中，预设的语义选择模型是预先训练好并设置在情感分类设备中的模型，具体地，语义选择模型的训练过程可以在情感分类设备中进行，也可以在其他外部设备中进行，并在训练完成后移植至情感分类设备中。

在一个可选的实施例中，为实现更准确地语义选择，请参阅图6，步骤S103包括步骤S1031～S1034，具体如下：

S1031：对所述上下文增强的目标词表示进行平均池化，得到目标词查询向量。

情感分类设备根据上下文增强的目标词表示E_a和预设的第二平均池化公式，得到目标词查询向量q。

其中，预设的第二平均池化公式如下：

上下文增强的目标词表示

表示m个单词分别对应的上下文增强的词向量表示，

表示第i个单词对应的上下文增强的词向量表示，m为上下文增强的目标词表示中单词的数量，

表示目标词查询向量q是一个1行d_h列的向量。

S1032：将所述目标词查询向量分别输入若干个单层注意力模型，得到若干个注意力系数矩阵。

在本申请实施例中，多层平均注意力模型(Multi-layered Average Attention，MLA-ATT)中包括若干个单层注意力模型，基于注意力机制的原理，利用其实现语义选择的认知过程。

其中，每个单层注意力模型也均是预先训练好并设置在情感分类设备中的模型，具体地，单层注意力模型的训练过程可以在情感分类设备中进行，也可以在其他外部设备中进行，并在训练完成后移植至情感分类设备中。

情感分类设备根据所述目标词查询向量q和预设的单层注意力计算公式，得到若干个注意力系数矩阵a_k。

其中，预设的单层注意力计算公式如下：

其中，1＜k＜K，K表示是本申请实施例中的超参数，可以理解为多层平均注意力模型共含有K个单层注意力模型，也可以理解为对目标词查询向量共执行了K次注意力选择操作。

tanh()表示现有的双曲正切函数；E_c表示目标词语义增强的上下文表示；

表示

是第k个单层注意力模型中d_h行d_h列的可训练参数矩阵；q^T表示目标词查询向量q的转置；

表示e_q是一个1行d_h列的全一向量，

表示e_b是一个1行n列的全一向量；

表示e_b的转置；

表示

是第k个单层注意力模型中1行d_h列的可训练向量；

表示γ_k是一个南岸行d_h列的矩阵；Softmax()表示现有的softmax激活函数；

表示a_k是第k个n行d_h列的注意力系数矩阵。

S1033：获取若干个所述注意力系数矩阵相加后的平均值，得到语义选择抑制参数。

情感分类设备根据若干个注意力系数矩阵a_k和预设的求和平均公式，得到语义选择抑制参数。

其中，预设的求和平均公式如下：

K和k的含义与步骤S1032中的相同不再赘述，a表示语义选择抑制参数，

表示a是一个n行d_h列的矩阵。

S1034：根据所述语义选择抑制参数和所述上下文对应的隐藏状态矩阵，得到所述语义选择后的上下文表示。

情感分类设备根据所述语义选择抑制参数a和所述上下文对应的隐藏状态矩阵H_c，得到语义选择后的上下文表示Z。

具体地，情感分类设备将语义选择抑制参数a和上下文对应的隐藏状态矩阵H_c进行点积操作，得到语义选择后的上下文表示Z。

Z＝H_c·a

其中，·表示矩阵之间的点积操作；

表示Z是一个n行d_h列的矩阵。

请参阅图7，其为本发明一个示例性实施例提供的多层平均注意力模型的内部结构示意图。图7中更加形象化地展现了多层平均注意力模型的内部处理过程。

S104：获取所述目标句子对应的句法依存树，根据预设的语义整合模型，提取所述目标句子对应的句法依存树中的句法表示。

情感分类设备先获取所述目标句子对应的句法依存树，再根据句法依存树和预设的语义整合模型，提取目标句子对应的句法依存树中的句法表示。

在本申请实施例中，预设的语义整合模型(Semantic Integration，SI)用于提取目标句子对应的句法依存树中的句法表示，综合考虑上下文、目标词与句法之间的联系，把句法信息更好地融入至句法表示里。

所述语义整合模型是预先训练好并设置在情感分类设备中的模型，具体地，语义整合模型的训练过程可以在情感分类设备中进行，也可以在其他外部设备中进行，并在训练完成后移植至情感分类设备中。

所述句法依存树能够形象的体现出目标句子中单词的依存关系，在本申请实施例中，可以通过spaCy进行句法依存树的获取。

在一个可选的实施例中，请参阅图8，为更准确地获取句法表示，步骤S104包括步骤S1041～S1042，具体如下：

S1041：根据所述句法依存树，得到所述目标句子中的单词对应的邻接矩阵，其中，所述邻接矩阵表示所述目标句子中的单词的邻接关系。

情感分类设备根据句法依存树，得到所述目标句子中的单词对应的邻接矩阵。

其中，邻接矩阵表示所述目标句子中的单词的邻接关系。

请参阅图9和图10，图9为本发明一个示例性实施例提供的句法依存树的示意图，图10为本发明一个示例性实施例提供的邻接矩阵的示意图。

图9中所示的句法依存树中展现了目标句于“The price is reasonablealthough the service is poor”中单词的依存关系。图10为图9中所示的句法依存树对应的邻接矩阵。对于存在依存关系的两个单词，邻接矩阵中对应的值为1，不存在依存关系的两个单词，邻接矩阵中对应的值为0，单词与自身默认存在依存关系。

S1042：将所述邻接矩阵输入预设的图卷积神经网络模型，得到所述目标句子的句法表示。

预设的语义整合模型中包括图卷积神经网络模型。

所述图卷积神经网络(GCN)用于对图结构类型的数据进行处理，其中图结构即拓扑结构，也可以称之为非欧几里得结构，常见的图结构包括例如社交网络、信息网络等，能够很更好地整合句子中的句法，得到目标句子中的句法表示。

具体地，情感分类设备将所述邻接矩阵和上一层的输出结果输入至预设图卷积运算公式中，得到当前层的输出结果，重复执行输入操作，直至得到所述预设的图卷积神经网络模型的输出层的输出结果，获取所述目标句子的句法表示S。

其中，预设图卷积运算公式如下：

A_ij表示邻接矩阵的第i行第j列的值；W_l表示第l层的权重，是一个可训练参数，

表示W_l是一个d_h行d_h列的矩阵；

表示预设的图卷积神经网络模型中第j个单词的第l一1层的输出结果；

表示预设的图卷积神经网络模型中第i个单词的第l层的中间结果；

表示第i个单词在句法依存树中的深度，b_l表示第l层的偏置，是一个可训练参数；relu()表示预设的图卷积神经网络模型中的激活函数；

表示预设的图卷积神经网络模型中第i个单词的第l层的输出结果。

S105：根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型，得到所述目标词对应的情感分类结果。

预设的第二语义激活模型也可以称之为右半球语义激活模型(Right HemisphereSemantic Activation，RH-SA)，其是一种粗略式的语义激活模型，其能够处理无语义关系或语义关系较远的单词。

所述预设的第二语义激活模型是一种预先训练好并设置在情感分类设备中的模型，具体地，第二语义激活模型的训练过程可以在情感分类设备中进行，也可以在其他外部设备中进行，并在训练完成后移植至情感分类设备中。

情感分类设备将语义选择后的上下文表示和句法表示输入预设的第二语义激活模型，得到所述目标词对应的情感分类结果。

在一个可选的实施例中，请参阅图11，为提高情感分类结果的准确性，步骤S105包括步骤S1051～S1052，具体如下：

S1051：提取所述语义选择后的上下文表示和所述句法表示中的局部特征，得到目标语义表示和目标句法表示。

情感分类设备提取所述语义选择后的上下文表示Z和所述句法表示中的局部特征S，得到目标语义表示r_z和目标句法表示r_s。

具体地，情感分类设备将所述语义选择后的上下文Z表示输入预设的第一局部特征提取网络，得到所述语义选择后的上下文表示的局部特征

在一个可选的实施例中，预设的第一局部特征提取网络为现有的CNN卷积神经网络。

其中，语义选择后的上下文表示的局部特征

relu()含义均相同，不再赘述；*表示卷积操作；

表示第一局部特征提取网络中的第g个可训练的卷积核；

表示第一局部特征提取网络中的第g个可训练的偏置。

之后，情感分类设备将所述句法表示S输入预设的第二局部特征提取网络，得到所述句法表示的局部特征

在一个可选的实施例中，预设的第二局部特征提取网络为现有的CNN卷积神经网络。

其中，句法表示的局部特征

relu()含义均相同，不再赘述；*表示卷积操作；

表示第二局部特征提取网络中的第g个可训练的卷积核；

表示第二局部特征提取网络中的第g个可训练的偏置。

对于第一局部特征提取网络和第二局部特征提取网络中的卷积步长可以进行合理化设置，在此不进行限定。

最后，情感分类设备对所述语义选择后的上下文表示的局部特征

和所述句法表示的局部特征

进行最大池化操作，得到所述目标语义表示r_z和目标句法表示r_s。

其中，

max()表示最大池化操作(Max pooling)；G表示第一局部特征提取网络内卷积核的数量，第二局部特征提取网络内卷积核数量也为G；||表示拼接操作。

S1052：根据所述目标语义表示、所述目标句法表示和预设的情感极性分类函数，得到所述目标词对应的情感分类结果。

情感分类设备根据目标语义表示r_z、目标句法表示r_s和预设的情感极性分类函数，得到所述目标词对应的情感分类结果y。

预设的情感极性分类函数如下：

其中，

表示将两个向量前后拼接；r表示将目标语义表示和目标句法表示拼接后的结果；Softmax()表示现有的softmax激活函数；C表示情感分类的种类数量；W和b均为可训练参数；i表示一个累加变量。

在另一个实施例中，请参阅图12，所述情感分类方法还包括步骤S106～S107，具体如下：

S106：获取用于训练所述语义认知模型的训练集；其中，所述语义认知模型包括第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型。

情感分类设备获取训练语义认知模型的训练集。其中，语义认知模型(BSSCN)包括第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型。

关于第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型已上述说明，不再赘述。

S107：基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述语义认知模型，更新所述语义认知模型内的训练参数，直至满足训练终止条件，得到训练好的语义认知模型。

情感分类设备基于训练集、预设的反向传播算法和预设的损失函数迭代训练语义认知模型，更新语义认知模型内的训练参数，直至满足训练终止条件，得到训练好的语义认知模型。

其中，训练参数包括第一语义激活模型、语义选择模型、语义整合模型和第二语义激活模型中所有可训练参数。

在本申请实施例中，预设的损失函数为L₂正则化的交叉熵函数，具体如下：

预设的反向传播算法中计算梯度和更新参数的公式如下：

表示训练集中目标词的真实情感分类结果，y为预设的情感分类结果，λ为L₂正则项的权重，λ_l为学习率，i表示情感分类的类别的下标表示，θ表示可训练参数，L(θ)表示关于θ的损失函数，

表示计算出的梯度。

在本实施例中，通过训练集对语义认知模型进行训练，能够尽可能地优化语义认知模型中的每个模型的可训练参数，提高情感分类的准确性。

请参阅图13，其为本发明一个示例性实施例提供的语义认知模型的内部结构示意图。图13中更加形象化地展现了语义认知模型(BSSCN)的内部处理过程。

下面将对本申请实施例提出的情感分类方法进行实验论证，论证过程如下：

一、数据集及实验设置：

选取SemEval 2014 Task4数据集里的Laptop14评论数据集(数据集1)和Restaurant14(数据集2)和、Dong等人收集并公开的ACL 14上的Twitter数据集(数据集3)，这些数据集里的每个评论都由句子、句子里的上下文和目标词以及目标词对应的情感标签(情感分为消极、中性、积极三类)组成。

三个数据集的分布统计结果如表1所示：

表1

在实验中，我们使用300维的Glove词向量来初始化上下文及目标词，获取上下文对应的词嵌入矩阵和目标词对应的词嵌入矩阵，所有的参数矩阵通过均匀分布U(-0.1，0.1)来初始化产生，偏置的初始值均为0。模型采用Adam优化器。为了防止过拟合，我们还设置了Dropout rate为0.5。除此之外，我们设置学习率为0.0005，L₂正则项的权重设置为0.0001。

二、基线模型：

为验证模型的有效性，我们将BSSCN与以下描述的几种最新方法做对比：

1、基于句法的模型Syntax-aware models：

(1)模型1：LSTM+SynATT，提出将注意力机制与句法信息相结合以提高注意力机制的效果。

(2)模型2：ASGCN，同时利用依存树距离和句法信息构图，在此基础上使用GCN，提高了模型效果。

(3)模型3：CDT，结合GCN与Bi-LSTM模型，以获取句子的结构信息和上下文信息，之后将这两个信息用于情感分析。

(4)模型4：TD-GAT，利用了词之间的依赖关系并结合GAT，更加有针对性的进行属性级情感分析。

(5)模型5：BiGCN，提出使用词汇图来获取全局单词共现信息，并在每个词汇图与句法图建立概念层次结构以单独处理多种功能关系，并使两者协同工作。

2、基于注意力的模型Attention-based models:

(1)模型6：ATAE-LSTM，通过拼接目标词与上下文，然后通过LSTM编码，学习不同的目标词在上下文的句子表示，最后通过注意力机制获取最终的句子表示。

(2)模型7：IAN，提出一种交互注意力捕获上下文与目标词的联系，使得最终的表示里更好地考虑了目标词信息。

(3)模型8：RAM，提出一种多跳注意力以更好地获取远距离的上下文与目标词之间的联系。

(4)模型9：MGAN，提出一种同时使用细粒度和粗粒度注意力的多粒度注意力机制来捕获目标词和上下文之间的单词级别的交互信息。

(5)模型10：IACapsNet，使用胶囊网络来处理重叠的情感特征，并将交互注意力引入胶囊网络中。

3、类人认知模型Human-likecognition models：

(1)模型11：HSCN，提出模拟人类阅读认知的三个过程(pre-reading,activereading,andpost-reading)的情感分析模型，并设计对应的功能模块。

(2)模型12：HHAS，首次利用先验情感知识和强化学习来模拟人类阅读认知过程并用于属性级情感分析。

三、对比结果与分析

在实验中，使用准确率(Accuracy)和宏观综合值(MacroF1)作为评价指标来验证模型。我们将对比模型分为三大类，基于句法的模型、基于注意力的模型和类人认知模型，并分别与它们对比，为评估结果的稳定性，我们还运行了10次本申请实施例提出的语义认知模型(BSSCN模型)，并计算了均值和标准差，语义认知模型在Laptop14、Restaurant14、Twitter等3个数据集结果如表2所示。结果显示语义认知模型在准确率和MacroF1分数大多优于其他对比模型，这证明了语义认知模型的有效性。

对比于其它基于句法的模型，语义认知模型的准确率和MacroF1分数均有明显提升。CDT模型相比于LSTM+SynATT、ASGCN等几个模型，其对于句法信息的融合更为深入，并且最终只取目标词位置的输出作为情感表示可以去除其它无关信息的影响，所以效果优于其它模型，而语义认知模型选择将语义信息与句法信息分开计算以避免信息相互干扰，最后拼接作为最终表示用于情感分类。相比于这部分里面表现最好的CDT模型，语义认知模型在这3个数据集分别提高了0.55％，0.29％和0.48％。这说明了对于句法信息的利用方式和信息的处理上，语义认知模型表现的更优秀。

在基于注意力模型部分，语义认知模型表现出最好的性能。IACapsNet模型对比于ATAE-LSTM、IAN、MGAN等基线模型，加入胶囊网络来保持句子的整体结构信息，因此效果优于其它基线模型。而我们的语义认知模型则即改进注意力机制以获取与目标词更相关的上下文信息，又加入了句法信息，并分开计算，这样既可以获取目标词的相关语义信息，也可以保持句子结构信息。语义认知模型相比于表现最好的IACapsNet模型，在3个数据集上分别提高了0.94％，0.80％和0.13％，MacroF1分数均有明显提升。

对比于其它类人感知模型，语义认知模型整体表现更为优秀。HSCN模型模拟人类阅读认知的3个过程，并在回读阶段调整语义偏差。HHSN模型在HSCN的基础之上，重新设计了类人阅读认知3个过程，并以情感信息为先验知识，以强化学习来优化回读阶段，以增强目标词相关的语义表示。但这两个模型都只考虑了句子的语义信息，而语义认知模型既考虑了语义信息，还考虑句子的句法信息，实验结果证明我们想法的有效性。语义认知模型比使用了Elmo词嵌入的HHSN模型在Laptop和Twitter数据集分别提升了0.24％，2.74％。

语义认知模型在Rest14上表现最好，Laptop14次之，Twitter效果最差。可能是因为Laptop14和Rest14对于句法信息较敏感，而Twitter的口语化表达较多，且含有大量未登录词，所以导致效果最低。我们将在消融实验部分验证这些猜想。

表2

表2的验证结果单位为(％)，最优结果用粗体标出，”-”表示对应的方法没有给出该结果，”*”表示使用了Elmo词嵌入，未特殊说明的方法均使用Glove词嵌入，每个方法后面的括号内的数字表示方法提出的年份。本模型结果后的括号内表示均值及标准差。

四、消融学习及分析

为了分析语义认知模型(BSSCN模型)各个子模型(也可以称之为模块)的影响和验证上一个小节的猜想，我们分别去除了语义信息交互模型(IIM模型)、多层平均注意力模型(MLA-ATT模型)、含GCN的语义整合模型(SI模型)、第二语义激活模型(RH-SA模型)。我们在表3展示了实验结果。结果显示，总体上来看，MLA-ATT模型对于模型性能的影响最大，这是因为这个模型主要负责选择目标词相关语义信息，并抑制无关语义信息，而提取目标词的语义信息的效率会直接影响情感分类的效率。除此之外，我们还可以看到RH-SA对3个数据集均有明显影响，验证了模拟粗略式的语义激活的RH-SA模型确实可以补充和完善语义表示。IIM的消融结果表明在进行信息选择前先进行信息交互有利于提取更多目标词相关的语义表示。而对于Twitter我们可以观察到对它影响最小的是消除了能补充句法信息的含GCN的SI模型，这也证明了Twitter确实相比于其它两个数据集对句法信息不敏感的猜想。但我们的模型同时考虑了语义信息与句法信息，并分开处理，最后拼接融合，才能3个数据集上获得最佳性能。

表3

上方表3的消融实验结果单位为(％)，最优结果用粗体标出。

MLA-ATT层数分析及案例分析：

在这一个小节里面，我们探索了多层平均注意力模型(MLA-ATT模型)的层数K对于实验结果的影响。除此之外，我们还将举例并可视化MLA-ATT模型过程，以说明其有效性。为此我们在Laptop14，Restaurant14和Twitter数据集上分别测试了本文BSSCN模型在的性能，以准确率为评价指标，实验结果图14所示：

从图中我们可以明显观察到，图14中的图表的横坐标为多层平均注意力模型的层数，用k表示，当k＝7时，三个数据集下的模型都可以取得最高的准确率(77.74％，82.59％，75.14％)，这表明了MLA-ATT的对多个注意力层求平均的思想确实能够提升模型的性能，尤其是在k＝7时。我们猜测这可能和注意力机制的计算缺陷有关，注意力机制是基于两个词的词嵌入计算的，这就导致了有可能会使得两个句法关系较远或者语义关系较远的词被分配错误的权重，故我们选择了一个案例“The price is reasonable although theservice is poor”，以“price”为目标词，以并可视化其注意力计算过程以验证这个猜测，结果如图15所示。

从图15中我们可以看到在MLA-ATT计算过程中的第5层，对于目标“price”，它把主要的注意力权重分配给了目标“service”的情感词“poor”，而给了自己的情感词“reasonable”分配了一个极小的权重，这无疑会导致最终的情感分类结果出现误差。我们推断出现分配错误的原因一个可能是词嵌入的影响，导致根据语义计算上出现错误，另一个可能是因为训练时参数矩阵的初始化及更新的影响。但我们可以看到这种错误出现的次数只要能够小于正确分配的次数，就能减小偏差，从而改善模型性能。所以我们使用一种多层相加然后求平均的思想来消除偏差。图15中的最后输出也验证了这种想法的可行性。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种情感分类方法，其特征在于，包括步骤：

2.根据权利要求1所述的情感分类方法，其特征在于，所述根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的隐藏状态提取模型，得到所述上下文对应的隐藏状态矩阵和所述目标词对应的隐藏状态矩阵，包括步骤：

3.根据权利要求1所述的情感分类方法，其特征在于，所述获取所述上下文与所述目标词之间的公共信息矩阵，根据所述公共信息矩阵、所述上下文对应的隐藏状态矩阵、所述目标词对应的隐藏状态矩阵和预设的语义信息交互模型，得到目标词语义增强的上下文表示和上下文语义增强的目标词表示，包括步骤：

4.根据权利要求1所述的情感分类方法，其特征在于，所述根据所述目标词语义增强的上下文表示、所述上下文语义增强的目标词表示和预设的语义选择模型，得到语义选择后的上下文表示，包括步骤：

5.根据权利要求1所述的情感分类方法，其特征在于，所述根据预设的语义整合模型，提取所述目标句子对应的句法依存树中的句法表示，包括步骤：

6.根据权利要求5所述的情感分类方法，其特征在于，所述将所述邻接矩阵输入预设的图卷积神经网络模型，得到所述目标句子的句法表示，包括步骤：

7.根据权利要求1所述的情感分类方法，其特征在于，所述根据所述语义选择后的上下文表示、所述句法表示和预设的第二语义激活模型，得到所述目标词对应的情感分类结果，包括步骤：

8.根据权利要求7所述的情感分类方法，其特征在于，所述提取所述语义选择后的上下文表示的局部特征和所述句法表示中的局部特征，得到目标语义表示和目标句法表示，包括步骤：

9.根据权利要求1所述的情感分类方法，其特征在于，在根据所述上下文对应的词嵌入矩阵、所述目标词对应的词嵌入矩阵和预设的第一语义激活模型，获取目标词语义增强的上下文表示和上下文语义增强的目标词表示之前，包括步骤：