CN114386389B

CN114386389B - 基于联合学习的方面情感分析方法

Info

Publication number: CN114386389B
Application number: CN202011140766.1A
Authority: CN
Inventors: 何小海; 杨强; 滕奇志; 卿粼波; 吴小强; 吴晓红
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2023-06-06
Anticipated expiration: 2040-10-22
Also published as: CN114386389A

Abstract

本发明公开了一种基于联合学习的方面情感分析方法。包括以下步骤：对输入的原始文本进行预处理，使用300维的Glove词向量作为词嵌矩阵；将编码后的上下文词和方面词的词嵌矩阵送入双向LSTM网络，得到文本的向量表示形式；随后将此向量分别送入含有注意力机制的辅网络和邻近权重信息的主网络中，将两个网络的输出加权融合；最后将加权融合的向量送入全连接网络中得出对特定方面的情感。本发明提出的加权系数是经过大量实验所得的最优加权系数。本发明提出的方法对方面情感分类的准确率和召回率都有较大的提升，优于现有的大部分模型，具有网络训练时间短、稳定性强等优点。

Description

基于联合学习的方面情感分析方法

技术领域

本发明设计了一种基于联合学习的方面情感分析方法，涉及深度学习领域。

背景技术

基于方面词的情感分类作为情感分析的一个重要子任务，是一种细粒度的情感分类任务，旨在识别句中对不同方面的情感极性。在自然语言处理领域，基于方面词的情感分类正受到越来越多的关注，在实际生活中的应用也越来越广泛，如：网络言论检测、个人推荐系统等。早期的工作主要是通过人工提取一些特征，然后送入分类器进行情感分类，最典型的就是SVM,但是手动提取特征通常会耗费大量的人力和时间，并且效果也不是很理想。最近几年，深度学习在自然语言处理领域表现出色，在许多任务上都取得了突破性进展。神经网络语言模型可以将词语映射成低维度的数值向量形式，并自动提取文本特征，因此越来越多的研究都在将深度学习网络用于NLP任务上，包括基于方面词的情感分类。为了解决传统方法面临的问题，许多深度学习网络，例如:TD-LSTM和TC-LSTM对传统的LSTM模型进行了改善，将方面词向量和上下文词向量联合编码，使模型可以捕获方面词周围上下文词的特征，但是该模型在捕获了远离方面词的情感特征后，需要将特征逐词传递到方面词，但在传递过程中可能丢失某些特征。注意力机制可以使模型对句子中重要的部分给予更多的关注，随着注意力机制在机器翻译中的成功应用，更多的工作也致力于将注意力机制应用于基于方面词的情感分类的任务中，例如:AEAT-LSTM、Attention-based LSTM2等，注意力机制的应用使得模型对句子中重要成分的关注度进一步增强，有效避免了长距离情感特征在传递过程中出现的特征丢失问题，对方面词的上下文情感特征有了更高的关注度。

深度学习网络和注意力机制的结合在方面情感分类中取得了突破性进展，但是注意力机制虽然可以有效的捕捉长距离情感特征，但它更加关注的是句子上下文词和方面词之间的语义关系，却忽略了方面词和其上下文词之间的句法关系，这可能会妨碍基于方面词的上下文词表示的有效性。以前的一些工作已经使用了句法分析，基于方面词和上下文词之间的句法关系构建情感分类模型，但是仅仅考虑单词级别的句法修饰关系依然存在一定缺陷，因为一个方面的情感极性通常是由关键短语而不是单个单词确定的。

发明内容

本发明为解决上述问题而提供一种基于联合学习的方面情感分析方法，该方法在进行方面情感分类时，即考虑了方面词和上下文词之间的语义关系，同时也考虑了方面词和上下文词之间的句法关系，通过多模型联合学习的方法极大提高了基于方面词的情感分类的准确率。

本发明通过以下技术方案来实现上述目的：

基于联合学习的方面情感分析方法，包括以下步骤：

步骤一：对输入的原始文本进行预处理，用300维的Glove词向量作为词嵌矩阵，对预处理后的文本上下文词和方面词进行词嵌编码，将句子中的每个词语编码成300维的离散数值向量。

步骤二：将编码后的上下文词和方面词的词嵌矩阵送入双向LSTM网络，得到文本的向量表示形式。

步骤三：随后将此向量分别送入含有注意力机制的辅网络和邻近权重信息的主网络中，将两个网络的输出，按从大量实验中获得的权重进行加权融合。

步骤四：将加权融合的向量送入全连接网络中得出对特定方面的情感。

作为步骤一中原始文本的预处理说明如下：

采用预训练的词嵌入矩阵GloVe去获得每个单词的固定词嵌。每个单词由一个固定的嵌入量表示e_t∈R^demb*1，d_emb是单词向量的维度，上下文单词的嵌入表示为矩阵E^c∈R^demb*N，第i个方面的嵌入表示为矩阵E^ai∈R^demb*Mi。在模型中如果方面词是一个短语，会对方面词短语进行去停用词处理，只保留方面短语中更为重要的部分，充分提高模型对重要方面词的关注。

作为步骤二中特定文本的向量表示，其说明如下：

(1)在得到了上下文词和方面词的词嵌矩阵后，将词嵌矩阵送入双向LSTM网络来捕获每个方面的上下文信息。词嵌矩阵通过双向LSTM网络后，得到一个前向隐藏状态的输出

和一个反向的隐藏层状态的输出/>

然后将前向状态和隐藏状态连接起来形成最终表示形式，向量的最终表示如公式(1)所示。

(2)在获得了方面词和上下文词的表示h_t后，使用注意力机制来计算上下文词对不同方面词的重要程度，注意力机制以隐藏层向量h_t和方面词向量作为输入，然后注意力模型将会输出连续的一维向vec∈R^d*1。最后的输出向量将是被注意力系数α_i加权之后的向量，如公式(2),公式(3)所示。

(3)同样将双向LSTM网络的输出送入包含邻近权重信息的主网络中。一般来说一个方面词周围的词都是描述这个方面的，因此可以将这种位置信息视为近似句法接近度的测量；除了在上文中的绝对位置之外，还可以考虑构建一棵句法依赖树，句法依赖树以方面词为根节点，测量树中不同单词结点对跟结点的距离，当方面词是一个方面短语w^ai＝{w₁ ^ai,w₂ ^ai,...,w_Mi ^ai}时，分别计算上下文单词结点对方面短语中不同单词的距离，最后选择最小的距离作为结果。基于上面两种思想，我们可以对方面词周围的上下文词给予不同的权重信息，基于这两种思想，得到文本的向量表示形式如公式(4),公式(5)所示。

/>

作为步骤三中主网络和辅网络的加权融合，其说明如下：

将含有注意力机制的辅网络输出vec的加权系数设置经验值0.5，将含有邻近权重信息的主网络的输出q_s的加权系数设置为经验值0.5，将得到的文本向量进行加权融合，如公式(6)所示。

q_s＝0.5*q_s+0.5*vec (6)

附图说明

图1是本发明的基于联合学习的方面情感分析方法的模型架构图。

图2是本发明的基于注意力机制的辅网络模型架构图。

具体实施方式

下面结合附图对本发明作进一步说明：

图1是基于联合学习的方面情感分析方法的模型架构图，每个词语编码的向量维数设置为经验值300，经过测试将词语编码成300维的词向量能达到一个较好的分类效果，且训练时间也较短。采用预训练的嵌入矩阵GloVe去获得每个单词的固定词嵌。每个单词由一个固定的嵌入量表示e_t∈R^demb*1，d_emb是单词E^ai∈R^demb*Mi向量的维度，上下文单词的嵌入表示为矩阵E^c∈R^demb*N，第i个方面的嵌入表示为矩阵。在模型中如果方面词是一个短语，会对方面词短语进行去停用词处理，只保留方面短语中更为重要的部分，充分提高模型对重要方面词的关注。

图2是基于注意力机制的辅网络模型架构图，对注意力机制进行了一定的精简，将双向LSTM的输出通过Softmax直接计算注意力分数，提高对句中方面词的关注度，加强了方面词和上下文词之间的语义关系。

本发明在公开数据集上进行测试，以充分验证本发明的有效性和可靠性。实验所用数据集的详细信息如表1所示。

表1实验数据集的详细信息

为了验证基于联合学习的方面情感分析方法的有效性，将本发明所述方法与LSTM、TD-LSTM、AEAT-LSTM、RAM、IAN、PWCN等模型进行了对比，得到如表2所示的实验结果，通过实验可以得出，使用本专利所描述的方法对方面情感分类的效果有显著效果，详细实验结果见表2。

表2实验结果展示

/>

Claims

1.基于联合学习的方面情感分析方法，其特征在于包括以下步骤：

步骤一：对输入的原始文本进行预处理，用300维的Glove词向量作为词嵌矩阵，对预处理后的文本上下文词和方面词进行词嵌编码，将句子中的每个词语编码成300维的离散数值向量；

步骤二：将编码后的上下文词和方面词的词嵌矩阵送入双向LSTM网络，得到文本的向量表示形式；

步骤三：随后将此向量分别送入含有注意力机制的辅网络和邻近权重信息的主网络中，将两个网络的输出分别乘以0.5的加权系数进行加权融合；

2.根据权利要求1所述的基于联合学习的方面情感分析方法，步骤三中含有注意力机制的辅网络和邻近权重信息的主网络训练步骤如下：

(1)在含有注意力机制的主网络中，在双向LSTM的输出后连接一个softmax分类器直接计算注意力分数，随后注意力分数作为加权系数与双向LSTM的输出相乘，得到新的文本表示形式，此网络加强了方面词和上下文词之间的句法关系；

(2)对于含有邻近权重信息的主网络，采用融合上下文词位置信息和构建句法依赖树这两种方法分别获得上下文词相对于方面词的位置权重，然后与双向LSTM的输出相乘，获得新的文本表示形式，此网络加强了方面词和上下文词之间的句法关系。

3.根据权利要求1所述的基于联合学习的方面情感分析方法，将含有注意力机制的辅网络输出vec的加权系数设置经验值0.5，将含有邻近权重信息的主网络的输出q_s的加权系数设置为经验值0.5，采用下式进行加权融合：

q_s＝0.5*q_s+0.5*vec (1)

经测试采用上述加权系数能取得方面情感分类的最好分类结果。