CN109543180B

CN109543180B - 一种基于注意力机制的文本情感分析方法

Info

Publication number: CN109543180B
Application number: CN201811329085.2A
Authority: CN
Inventors: 王甲海; 宋有伟
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2020-12-04
Anticipated expiration: 2038-11-08
Also published as: CN109543180A

Abstract

本发明公开一种基于注意力机制的文本情感分析方法，包括如下步骤：一、对文本数据进行预处理；二、构建词表并利用GloVe模型构建词向量；三、利用内在注意力对句向量进行编码，利用交互注意力对目标词向量进行编码，并通过GRU融合编码后的两个向量，平均池化后得到融合表示；四、根据得到的融合表示，通过逐点的前馈网络（FFN）得到上下文向量的抽象特征，再通过全连接与Softmax函数计算情感分类标签的概率分布，得到分类结果；五、将预处理后的语料划分为训练集和测试集，对模型参数进行多次训练，选取分类准确率最高的模型用于情感倾向性分类。本发明的方法仅使用注意力机制对文本建模，并加强了对目标词的理解，使用户可以了解文本中对特定目标词所持有的情感倾向。

Description

一种基于注意力机制的文本情感分析方法

技术领域

本发明涉及文本情感分析领域，更具体地，涉及一种基于注意力机制的文本情感分析方法。

背景技术

在信息爆炸的互联网时代里，社交网络、即时通讯平台等社交平台迅速发展，成为网络用户交流和交往的重要方式之一，也成为了网络最大的信息产生平台之一。利用社交网络的海量文本数据进行情感分析任务，将有助于精确的商品推荐、罪犯追踪以及舆情监控引导方面提供更多的帮助。

目标级情感分类旨在确定句子对特定目标词的情感倾向，是一种细粒度的情感分析任务，旨在确定一个句子对一个特定目标词的情绪极性(否定、中立或肯定)。例如，给定一个上下文句“这家餐厅口味很棒，但是服务很一般。”在这个句子里，对目标词“口味”和“服务”的情感极性分别为正性和中性。

大多数基于深度学习的方法采用递归神经网络(RNN)，如LSTM等，结合注意机制，对上下文和目标词进行建模。然而，RNN计算效率不高，也不擅长建模长期依赖关系,在解决长程依赖问题方面并不是很有效，其建模完整上下文信息的能力有限。

发明内容

本发明提供一种基于注意力机制的文本情感分析方法，对于给定的目标词建模上下文表示。本发明不使用递归式，而是采用两种不同的关注编码器进行语境建模，挖掘词嵌入中丰富的内省的和交互的语义信息。由于模型参数明显较少，我们可以享受更快的训练过程。

为了达到上述技术效果，本发明的技术方案如下：

一种基于注意力机制的文本情感分析方法，包括以下步骤：

S1：对文本数据进行预处理，包括分词、去停用词和标点符号；

S2：构建词表并利用GloVe模型构建词向量，将本文映射为词向量后作为网络的输入；

S3：利用内在注意力对句向量进行编码，利用交互注意力对目标词向量进行编码，并通过GRU融合编码后的两个向量，平均池化后得到融合表示；

S4：根据得到的融合表示，通过逐点的前馈计算得到上下文向量的抽象特征，再通过全连接与Softmax函数计算情感分类标签的概率分布，得到分类结果；

S5：将预处理后的语料划分为训练集和测试集，对模型参数进行多次训练，选取分类准确率最高的模型用于情感倾向性分类。

进一步地，所述步骤S3的具体过程是：

S31：采用内在注意力机制对句向量进行编码，则编码的计算公式如下：

Intra-Attention(K)＝ScoreFunction(K，K)·K

其中，K为输入的句向量矩阵，ScoreFunction用于计算两个词向量之间的语义相似度：

ScoreFunction(Q，K)＝tanh(W·[Q；K]+b)

其中W为要训练的权重矩阵，b为要训练的偏置值；

S32：采用交互注意力机制对目标词向量进行编码，则编码的计算公式如下：

Inter-Attention(Q，K)＝ScoreFunction(Q，K)·K

其中，K为输入的句向量矩阵，Q为目标词向量矩阵，ScoreFunction用于计算两个词向量之间的语义相似度；

S33：通过GRU融合编码后的两个向量，得到融合表示G：

z＝sigmoid(C·W₁+T·W₂+b)

G＝z·C+(1-z)·T

其中，z是更新门，C是句向量通过内在注意力机制编码后的内容，T是目标词向量通过交互注意力机制编码后的内容，W₁和W₂为要训练的权重矩阵。

进一步地，所述步骤S4的具体过程是：

采用逐点的前馈网络(FFN)对句向量进行编码，其计算公式如下：

FFN(x)＝ReLU(x·W₁+b₁)·W₂+b₂

其中x是步骤S3得到融合表示，W₁和W₂为要训练的权重矩阵，b₁和b₂为要训练的偏置值。

与现有技术相比，本发明技术方案的有益效果是：

本发明对于句子的建模，不再使用LSTM等循环计算，而是使用内外两种注意力机制，得到上下文的内省表示和新的目标词表示。基于GRU和FFN，对句子的内省表示和新的目标词表示做信息融合和变换，用于后续分类。本发明在分类准确率达到最好水平的同时，大大降低了参数数量和训练时间

附图说明

图1为本发明流程示意图；

图2为本发明的模型结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，本发明是一种基于注意力机制的文本情感分析方法，是一种深度学习方法。我们使用的是SemEval-2014Task 4的数据集，包括了两个针对笔记本电脑(Laptops)和餐厅(Restaurants)的领域特定数据集，其中包含超过6K的句子和细粒度的方面级标注，是方面级情感分析的标准数据集。两个领域特定数据集都有两个子数据集：训练集，测试集。

在之前的方法中，通常都是使用LSTM等循环计算来对句子和目标词编码。由于RNN计算无法并行，对长程依赖的建模能力有限。本发明不使用递归式，而是采用两种不同的关注编码器进行语境建模，挖掘词嵌入中丰富的内省的和交互的语义信息。所以我们就提出了一种基于注意力机制的文本情感分析方法。

具体方法步骤如下：首先对原始文本语料做分词、去停用词和标点符号等预处理操作，然后通过GloVe对处理后的文本做向量化。接下来，将向量化的文本输入本方法构建的注意力汇流编码器网络来对句子和目标词编码、融合、变换等建模操作。模型最后用Softmax函数输出分类标签的概率分布。细节如下：

1、首先读入数据集，做分词、去停用词和标点符号等预处理操作；

2、根据文本语料中的词，制作词表，将语料的词序列转为索引序列，并通过GloVe预训练的词向量构建词嵌入矩阵，将本文映射为词向量后作为网络的输入；

3、利用内在注意力对句向量进行编码，利用交互注意力对目标词向量进行编码，并通过GRU融合编码后的两个向量，平均池化后得到融合表示；

4、根据步骤3得到的融合表示，通过逐点的前馈计算得到上下文向量的抽象特征，再通过全连接与Softmax函数计算情感分类标签的概率分布，根据标注的正确标签计算交叉熵损失，使用Adam优化方法调整网络参数；

5、重复步骤3和步骤4大约50个epoch，然后对相应的测试数据集进行测试并记录准确率结果，选取分类准确率最高的模型保存下来，用于后续情感倾向性分类。

为了和以前方法做对比，具体结果由准确率Accuracy来评价。具体结果如以下表格所示：

表1、与其他模型的实验对比结果

结果显示本发明较其他方法有明显的提升。本发明的具体结构如附图2所示。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于注意力机制的文本情感分析方法，其特征在于，包括以下步骤：

S2：构建词表并利用GloVe模型构建词向量，将文本映射为词向量后作为网络的输入，通过GloVe对处理后的文本做向量化，将向量化的文本输入构建的注意力汇流编码器网络来对句子和目标词编码、融合、变换建模操作，用Softmax函数输出分类标签的概率分布；

2.根据权利要求1所述的基于注意力机制的文本情感分析方法，其特征在于，所述步骤S3的具体过程是：