CN111737581A

CN111737581A - 一种针对特定方面的情感分析的半监督多任务学习模型

Info

Publication number: CN111737581A
Application number: CN202010720783.6A
Authority: CN
Inventors: 李宁; 周志贤; 张家栋
Original assignee: Network Analysis Research And Technology Co ltd
Current assignee: Network Analysis Research And Technology Co ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-02

Abstract

本发明公开了一种针对特定方面的情感分析的半监督多任务学习模型，该模型是一个端到端的统一多任务模型，可以在一个统一的框架内完成所有子任务，每个子任务共享同样的表示空间和中间计算，大大节省了计算资源，并且多个子任务间可以交流中间信息，相互提升最终预测精度。本发明利用交叉视角训练方法实现了半监督学习，大大减少了对人工标注的依赖，只需要很少人工标注评论，再加上大量的同一领域未标注评论，就可以达到比已有传统全监督深度学习模型更好的效果。另外，本发明利用深度循环神经网络和基于移动窗口注意力机制的门控循环单元，构建了更好的表示学习方法，并设计了多个具有针对性的主要和辅助预测模块，从而达到了更好的分析准确度。

Description

一种针对特定方面的情感分析的半监督多任务学习模型

技术领域

本发明涉及半监督多任务学习技术领域，具体涉及一种针对特定方面的情感分析的半监督多任务学习模型。

背景技术

现今越来越多的用户在各种互联网平台(例如社交网络、在线购物网站等)发表自己对商品或服务的评论，与之相对应的是，互联网上的评论也在影响着消费者的判断，人们越来越倾向于参考他人的反馈信息来做出消费决定。因此，真实的用户反馈对于相关企业有着相当高的利用价值，通过分析这些评论并挖掘出用户不满意的方面，能及时对产品或服务做出改善。

但是，以往对用户评论的分析处理模式，通常更关心文档级别或者是句子级别的总体评价，比如判断一个评论总体而言是偏向正面情感还是负面情感。然而，用户的反馈时常体现出复杂性，甚至是矛盾性，里面除了对商品的总体评价以外，也可能包含多个对具体细节的不同感受。比如某位用户发表了对某笔记本电脑的评论：“我喜欢这个系统，除了它的一些预装软件”。用户在这个评论中针对笔记本电脑的系统方面给出了正面评价，但是针对预装软件却给出了负面评价。

基于特定方面的情感分析(Aspect-Based Sentiment Analysis，以下简称ABSA)可以针对不同的方面挖掘出用户更细腻更具体的情感表述。但是由于评论越积越多，信息过载，用户和企业都很难在海量的评论中快速定位针对特定方面的评价，所以如何更高效地针对大量评论做出ABSA已经成为亟待解决的难题，而通过解决这个难题，可以为用户和企业带来巨大的增益。对于用户来说，ABSA可以将评论归类于商品或服务不同的方面，使得用户不再需要一篇一篇的阅读评论，而是直接定位自己感兴趣的方面的相关评论。对于企业来说，ABSA可以自动分析评论，让企业可以快速获取产品或服务更细腻更具体的反馈。

通常来说，ABSA包含两个子任务，分别为方面挖掘(Aspect Mining，以下简称AM)和方面情感判别(Aspect Sentiment Classification，以下简称ASC)。其中AM子任务负责挖掘评论中提到的具体方面，而ASC子任务负责判断该具体方面的情感极性(如负面、正面、或者中性评价)。传统技术通常只关注其中一个子任务，通过将该子任务抽象为序列标注问题，应用传统机器学习方法训练全监督模型来完成该子任务。针对AM子任务，通常使用{B，I，O}标签，其中B表示方面词的开始，I表示方面词的继续，O则表示非方面词；针对ASC子任务，通常使用{POS，NEG，NEU，O}标签，其中POS表示正面评价，NEG表示负面评价，NEU表示中性评价，O则表示其他词。如表1所示，通过使用人工标注好的评论数据训练全监督模型，示例评论中的特定方面及其对应评价被标注出来。

表1：ABSA中的AM和ASC子任务标注示例

我

喜

欢

这

个

系

统

除

了

它

的

一

些

预

装

软

件

O

B

I

O

B

I

O

POS

O

NEG

不过由于现有方案通常只能处理单个子任务(AM或ASC)，如果想要进行完整的ABSA，则需要先后流水线式应用两种针对不同子任务的方案，并组合两组标注以得到最后结果。近年来，深度学习已在该领域取得了令人瞩目的成功，但是大部分现有深度学习方案仍然只能处理其中一个子任务，并且训练这些深度学习模型需要更庞大的人工标注数据，这需要付出巨大的经济和时间成本。

如上所述，目前完成完整的ABSA需要用到两个不同的模型，并且需要大量的人工标注数据用以训练深度学习模型。具体来说，现有方法包含以下两个严重缺陷:

(1)模型缺乏统一性：由于当前方法把两个子任务(AM和ASC)分开处理，每个模型的表示空间和中间计算无法共用，造成运算浪费。已有研究表明，对于高度相关的任务，统一模型比流水线模型效果更好。所以针对两个任务进行统一建模不但节省计算资源，最终的分析结果也会更好。

(2)巨大的标注投入：虽然当前方法(尤其是深度学习方法)在各子任务上取得了相对以前更好的成绩，但是这些方法依赖更多的针对该任务的标注数据。而通常不同的商品或是服务有着不同的方面空间，因此，一个实体的标注数据无法直接应用于另一个实体。这意味着每个不同的实体都需要人工标注大量评论来训练模型，以保证模型的效果，这显然实现起来并不容易。

发明内容

针对现有技术的不足，本发明旨在提供一种针对特定方面的情感分析的半监督多任务学习模型。

为了实现上述目的，本发明采用如下技术方案：

一种针对特定方面的情感分析的半监督多任务学习模型，包括：三层堆叠的BiMAGRU层、主预测模块、辅助预测模块和训练模块；

BiMAGRU层：BiMAGRU表示双向的基于移动窗口注意力机制的门控循环单元MAGRU，每一层BiMAGRU层均由前向传播的MAGRU和后向传播的MAGRU合并而成；上层BiMAGRU层使用来自下层BiMAGRU层的隐含状态输出作为输入；

所述MAGRU包含三个门控，分别为重置门r、更新门z和注意门a；重置门r由以下公式计算得到:

r_t＝σ(U_rx_t+W_rh_t-1)；

其中，r_t为当前位置t的重置门，h_t-1为前一个位置t-1的表示，x_t为当前位置t的输入单词，U_r和W_r为模型参数，σ为sigmoid激活函数；更新门z由以下公式计算得到：

z_t＝σ(U_zx_t+W_zh_t-1)；

z_t为当前位置t的重置门，U_z和W_z为模型参数；当前候选表示

利用tanh激活函数计算得到：

U_h和W_h为模型参数；由于注意门a只关注当前输入在移动窗口中的最近N个表示状态，因此首先为每一个位置在窗口中的表示h_i(i＝t-N,…,t-1)计算一个重要性分值：

U_a、

均为模型参数；再使用ReLU激活函数和计算得到的重要性分值计算注意门a:

a_t表示当前位置的注意门；根据前一个位置表示h_t-1和当前候选表

并通过三个门控重置门r、更新门z和注意门a，计算得到当前位置的表示h_t：

每一层BiMAGRU层输出的隐含状态可以如下计算：

其中，所述

表示前向传播的MAGRU，

表示后向传播的MAGRU，

表示第一层BiMAGRU层中位置t上学习到的隐含状态，

表示第二层BiMAGRU层中位置t上学习到的隐含状态，

表示第三层BiMAGRU层的输出中位置t上学习到的隐含状态；

代表连接操作；

主预测模块：

记

是输入单词x_t的方面标签，针对AM子任务的主预测模块会通过结合第一层BiMAGRU层和第二层BiMAGRU层输出的隐含状态，并使用神经网络来计算

的概率分布

其中

b^A都是模型参数；

记

是输入单词x_t的情感极性标签；针对ASC子任务的主预测模块则结合所有的三层BiMAGRU层输出的隐含状态，并通过神经网络计算概率分布：

b^S都是模型参数；

辅预测模块：

主预测模块和辅预测模块共享第一层BiMAGRU层；

在每个子任务AM或ASC的框架中，均有四个不同的辅预测模块p_past、p_fwd、p_bwd和p_future，每个不同的辅预测模块都通过不同的视角来选取输入数据；对于当前单词的预测，辅预测模块p_past只能查看位于当前单词左侧的单词；辅预测模块p_fwd可以查看当前单词及其左侧的单词；p_bwd关注当前单词及其右侧的单词；p_future只能查看位于当前单词右侧的单词；将这四个辅预测模块定义如下：

其中k∈{A,S}，表示AM或ASC；nn_past、nn_fwd、nn_bwd、nn_future则代表着与主预测模块相同的神经网络结构；

表示第一层BiMAGRU层前向传播中位置t-1(即当前位置的左侧)上学习到的隐含状态，

表示第一层BiMAGRU层前向传播中当前位置t上学习到的隐含状态，

表示第一层BiMAGRU层后向传播中当前位置t上学习到的隐含状态，

表示第一层BiMAGRU层后向传播中位置t+1(即当前位置的右侧)上学习到的隐含状态；

训练模块：用于对主预测模块和辅预测模块采用半监督多任务学习方法进行训练。

进一步地，所述训练模块使用多任务交叉视角训练方法进行主预测模块和辅预测模块的训练，具体过程如下：

首先随机选择一个子任务AM或ASC，利用对应的已标注评论

并使用交叉熵CE损失函数来训练相应的主预测模块：

而针对未标注评论D_u，首先基于AM和ASC的主预测模块推导出

和

(x_i∈D_u)，然后利用Kullback-Leibler KL散度函数作为损失函数，来训练辅预测模块以匹配和接近两个主预测模块:

最后，将三个损失函数合并

并通过随机梯度下降算法训练模型。

进一步地，针对特定方面的情感分析的半监督多任务学习模型还包括有单词转换模块，所述单词转换模块用于将评论中的各个单词在输入之前，转换为词嵌入向量。

进一步地，单词转换模块通过比照各个单词在情感词典中的极性分值来判断该单词是正面词还是负面词，并通过该极性分值将相似极性的单词重新排序，再将单词转换为词嵌入向量。

更进一步地，对于现有的词嵌入向量没有包含的词汇，单词转换模块使用字符特征向量(Char-Features)来辅助表示。

本发明的有益效果在于：

(1)统一的多任务模型：本发明提出的针对特定方面的情感分析的半监督多任务学习模型是一个端到端的统一多任务模型。相较于传统流水线式模型将ABSA的两个子任务(AM和ASC)分割开来独自处理，SEML可以在一个统一的框架内完成所有子任务。每个子任务共享同样的表示空间和中间计算，大大节省了计算资源。并且多个子任务间可以交流中间信息，相互提升最终预测精度。

(2)更少的人工标注依赖：本发明虽然基于深度学习，但是却利用交叉视角训练方法实现了半监督学习，大大减少了对人工标注的依赖，只需要很少的人工标注评论，再加上大量的同一领域未标注评论，就可以达到比已有传统全监督深度学习模型更好的效果。

(3)更高的分析准确度：本发明利用深度循环神经网络和基于移动窗口注意力机制的门控循环单元，构建了更好的表示学习方法，并设计了多个具有针对性的主要和辅助预测模块，从而达到了更好的分析准确度。

附图说明

图1为本发明实施例中针对特定方面的情感分析的半监督多任务学习模型的总体结构示意图；

图2为本发明实施例中基于移动窗口注意力机制的门控循环单元的结构示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

本实施例提供一种针对特定方面的情感分析的半监督多任务学习模型(SEML)。该模型有三个关键特性。

(1)SEML采用交叉视角训练(Cross-View Training，以下简称CVT)，在统一的端到端体系结构中，对来自同一领域的已标注评论和未标注评论进行半监督序列学习；

(2)SEML同时解决了两个子任务(AM和ASC)，它使用三层堆叠的双向循环神经网络来学习评论表示，其中来自不同层的表示分别被输入到CVT、AM和ASC中；

(3)SEML为该循环神经网络开发了一个基于移动窗口注意力机制的门控循环单元(Moving-window Attentive Gated Recurrent Unit，以下简称MAGRU)，以提高表示学习和预测精度，因为在评论中某个词的邻近上下文可以为ABSA中的预测任务提供重要的语义信息。

下文将详细介绍SEML模型的各个组成部分，如图1所示。

1、基于移动窗口注意力机制的门控循环单元(MAGRU)：

本实施例中，使用深度双向循环神经网络来构建表示学习空间。但是，在ABSA中，邻近单词为预测新的单词标签提供了有用的线索，例如方面标签“I”不能跟随“O”、已提取的方面可以帮助找到并列出现的方面等等。因此，本实施例设计了MAGRU(如图2所示)，利用注意力机制建模重要的上下文语义关系，强化表示学习。

具体而言，如图2所示，所述MAGRU包含三个门控，分别为重置门(Reset Gater)、更新门(Update Gatez)和注意门(Attention Gate a)。重置门r由以下公式计算得到:

r_t＝σ(U_rx_t+W_rh_t-1)；

其中，r_t为当前位置t的重置门，h_t-1为前一个位置的表示，x_t为当前位置t的输入单词，U_r和W_r为模型参数，σ为sigmoid激活函数；

更新门z由以下公式计算得到：

z_t＝σ(U_zx_t+W_zh_t-1)；

z_t为当前位置t的重置门，U_z和W_z为模型参数。

当前候选表示

可以利用tanh激活函数计算得到：

U_h和W_h为模型参数。

由于注意门a只关注当前输入在移动窗口中的最近N个表示状态，因此首先为每一个位置在窗口中的表示h_i(i＝t-N,…,t-1)计算一个重要性分值：

U_a、

均为模型参数。

再使用ReLU激活函数和计算得到的重要性分值计算注意门a:

a_t表示当前位置的注意门。

最后，根据前一个位置的表示h_t-1和当前候选表示

并通过三个门控重置门r、更新门z和注意门a，计算当前位置的表示h_t：

由此，基于移动窗口注意力机制的门控循环单元中，使用重置门控制组合前一个位置的表示和当前输入，使用更新门控制多大程度保留前一个位置的表示，使用注意力门给出移动窗口中各个表示的重要性分数。

2.表示学习(Representation Learning)

如图1所示，本实施例提出的SEML模型使用词嵌入向量(Word Embedding)作为输入数据，词嵌入向量可以将文字转化为多维数字向量以利于计算。现有的通用词嵌入向量通常会将完全相反极性的情感词映射到相近的向量空间上，而空间更相近的向量意味着更大的相似性，这对情感分析的准确性带来很大影响。

因此，本实施例中，通过比照各个单词在情感词典(如SentiWordNet、E-ANEW等)中的极性分值来判断该单词是正面词还是负面词，并通过该极性分值将相似极性的单词重新排序，再将单词转换为词嵌入向量，使得相似极性的单词能重新聚合在相近的向量空间中。

另外，由于用户经常会在评论中使用错误的拼写或其他稀有词汇，而现有的词嵌入向量可能没有包含这些词汇。对于这些词汇，本实施例使用字符特征向量(Char-Features)来辅助表示。

通过词嵌入向量转换和字符特征向量转换，最终将评论中的每个单词都转换为词嵌入和字符特征的组合向量，表示为V＝{v₁,...,v_T}，并将其输入到深度双向循环神经网络中进行表示学习。

SEML模型使用三个堆叠的双向MAGRU(BiMAGRU)层来为AM和ASC子任务构建共享的表示学习空间，每个上层网络使用来自下层的隐含状态(Hidden States)作为输入。具体来说，将两个前向和后向传播的MAGRU合并为一个BiMAGRU层，因为前向和后向的信息对于预测当前位置都很重要。每一层输出的隐含状态可以如下计算：

其中，所述

表示前向传播的MAGRU，

表示后向传播的MAGRU，

表示第一层BiMAGRU层中位置t上学习到的隐含状态，

表示第二层BiMAGRU层中位置t上学习到的隐含状态，

表示第三层BiMAGRU层的输出中位置t上学习到的隐含状态；

代表连接操作。

3.预测模块(Prediction Modules)

SEML能利用已标注评论和未标注评论来同时完成两个子任务(AM和ASC)。针对已标注的评论，本实施例设计了两个主预测模块(Primary Prediction Modules)分别对应AM和ASC子任务。同时，分别设计了四个辅预测模块(Auxiliary Prediction Modules)来处理未标注的评论。

(1)主预测模块：

记

是输入单词x_t的方面标签，针对AM子任务的主预测模块会通过结合第一层BiMAGRU和第二层BiMAGRU输出的隐含状态，并使用神经网络(nn)来计算

的概率分布

其中

b^A都是模型参数。

记

是输入单词x_t的情感极性标签，针对ASC子任务的主预测模块则结合所有的三层BiMAGRU输出的隐含状态，并通过神经网络(nn)计算概率分布：

b^S都是模型参数。

(2)辅预测模块：

主预测模块和辅预测模块共享第一层BiMAGRU层。

在每个子任务(AM或ASC)的框架中，均有四个不同的辅预测模块p_past、p_fwd、p_bwd和p_future，每个不同的辅预测模块都通过不同的视角来选取输入数据。对于当前单词的预测，辅预测模块p_past只能查看位于当前单词左侧的单词；辅预测模块p_fwd可以查看当前单词及其左侧的单词；p_bwd关注当前单词及其右侧的单词；p_future只能查看位于当前单词右侧的单词，如图1所示。BiMAGRU可以很容易地提供这些受限的视角，而不需要进行额外的计算，因此，可以将这四个辅预测模块定义如下：

表示第一层BiMAGRU层后向传播中位置t+1(即当前位置的右侧)上学习到的隐含状态。

由于第二层和第三层BiMAGRU层已经包含了所有单词的信息，所以只能将第一层BiMAGRU层输入到辅预测模块，以便限制它们的视角。

4.多任务交叉视角训练(Multi-Task Cross-View Training，MCVT)

由于同时使用了已标注评论和未标注评论来训练模型，因此本实施例在SEML模块中采用多任务交叉视角训练方法(CVT)来达到半监督学习的目标。CVT的核心思想是使用来自相同领域的未标记的评论来增强表示学习，并在小批量的已标注评论或未标注评论上交替学习主预测模块和辅预测模块。

为了进行多任务学习，本实施例中，首先随机选择一个子任务(AM或ASC)，利用对应的已标注评论

并使用交叉熵(Cross-Entropy，CE)损失函数来训练相应的主预测模块：

而针对未标注评论D_u，SEML模型首先基于AM和ASC的主预测模块推导出

和

(x_i∈Du)，然后利用Kullback-Leibler(KL)散度函数作为损失函数，来训练辅预测模块以匹配和接近两个主预测模块:

最后，将三个损失函数合并

并通过随机梯度下降算法训练模型。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。