CN110390017A

CN110390017A - 基于注意力门控卷积网络的目标情感分析方法及系统

Info

Publication number: CN110390017A
Application number: CN201910675636.9A
Authority: CN
Inventors: 曹卫东; 李嘉琪; 王怀超
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-10-29
Anticipated expiration: 2039-07-25
Also published as: CN110390017B

Abstract

本发明公开了一种基于注意力门控卷积网络的目标情感分析方法及系统，包括：步骤1，输入为给定的上下文词向量和对应的目标词向量，将两者分别作为输入进行训练；步骤2，利用上下文词和上下文感知目标词进行多头注意力机制交互；步骤3，将两个通道生成的情感特征向量c^intra和t^inter分别经过门控卷积机制，生成带有上下文感知目标词表示的上下文词表示a_i和上下文词表示u_i；步骤4，将情感特征o_i进行池化，选出最具有代表的特征；步骤5，将池化后的特征词向量进行全连接，然后通过Softmax分类器进行分类；步骤6，通过最小化交叉熵损失函数来训练和更新注意力门控卷积网络模型。本发明既能有效提高准确率又能缩短收敛时间，具有更强的实用性。

Description

基于注意力门控卷积网络的目标情感分析方法及系统

技术领域

本发明应用于目标情感分析领域，特别是涉及一种基于注意力门控卷积网络的目标情感分析方法及系统。

背景技术

目标情感分析是情感分类任务中的一种，它是对给定文本中的每个目标实体提及的情感极性进行分类，是目前的研究热点。该目标实体存在于给定的这段文本当中，一个文本可以有多个目标实体。基于目标的情感分析是一种细粒度的情感分类任务，当文本中的多个实体有不同的情感极性时，目标情感分析能够针对文本中的某一实体进行情感极性的分类。在文本中，不同的实体对应文本的情感极性可能是相反的。例如“我买了一个手机，外观很漂亮，但是电池寿命有些短”。这里有两个目标实体，外观和电池。对于目标实体“外观”来说，该文本对应的情感极性是积极的。反之，对于“电池”来说，是消极的。如果不考虑特定实体，难以得出文本对应的正确语义。因此，研究目标情感分析是有意义的。

目前深度学习在目标情感分析领域是国内外学者研究的重点，对现有的目标情感分析的模型总结分析如下：

(1)基于规则、统计和机器学习的方法。这些模型通常侧重于提取特征，如情感词典特征和词袋，依赖于人工规则和特征工程，不仅费时费力，而且人工选取的特征对分类结果有明显的影响。

(2)基于RNN模型的方法。即长短期记忆网络(LSTM)和注意力机制相结合的模型。这类RNN模型都是将复杂的RNN作为序列编码来计算文本的隐藏语义，具有很强的表示性。但是RNN模型难以并行化，导致模型收敛时间长。

(3)基于非RNN模型的方法。这类模型大多可并行计算，大大缩短了收敛时间。然而，这些模型通常未考虑上下文词和目标词之间的交互，无法充分利用目标词和上下文之间的关系。因此，该类模型未能很好地提取目标词关于上下文词的情感特征。

基于以上目标情感分析通常采用RNN模型导致训练时间长且其他替代模型未能使得上下文和目标词之间实现良好交互等问题。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于注意力门控卷积网络的目标情感分析方法及系统，既能有效提高准确率又能缩短收敛时间，具有更强的实用性。

本发明的第一发明目的是提供一种基于注意力门控卷积网络的目标情感分析方法，包括如下步骤：

步骤101，输入为给定的上下文词向量和对应的目标词向量，将两者分别作为输入进行训练；

步骤102，利用上下文词和上下文感知目标词进行多头注意力机制交互；

步骤103，将两个通道生成的情感特征向量c^intra和t^inter分别经过门控卷积机制，生成带有上下文感知目标词表示的上下文词表示a_i和上下文词表示u_i；

步骤104，将情感特征o_i进行池化，选出最具有代表的特征；

步骤105，将池化后的特征词向量进行全连接，然后通过Softmax分类器进行分类；

步骤106，通过最小化交叉熵损失函数来训练和更新注意力门控卷积网络模型。

进一步，所述步骤101为：利用预训练好的GloVe对文本进行处理，生成词向量矩阵其中，d_emb是词向量维度，|V|是词典大小，所述上下文词向量X^c＝{x₁ ^c,x₂ ^c,…,x_n ^c}，所述对应的目标词向量X^t＝{x₁ ^t,x₂ ^t,…,x_m ^t}。

进一步，所述步骤102为：将键序列k＝{k₁,k₂,…k_n}映射到查询序列q＝{q₁,q₂,…,q_m}，得到一次输出，通过多次计算，将多次结果拼接得到最终输出MHA(k,q)，其中，上下文间词嵌入建模是将相同的上下文词序列作为输入，即k＝q，由上下文词的词向量x^c得出上下文词嵌入建模表示c^intra，上下文感知目标词建模是将上下文词序列和目标词序列分别作为输入，即k≠q，由上下文词向量x^c和对应的目标词向量x^t得出上下文感知目标词的表示t^inter，利用上下文词和上下文感知目标词的多头注意力机制，提取情感特征和基于目标的情感特征。

进一步，所述步骤103为：在卷积层中，n_k个不同大小的卷积核k依次滑过词向量X＝{x₁,x₂,…,x_n}，生成带有上下文感知目标词表示的上下文词表示a_i和上下文词表示u_i，得到不同粒度在不同位置的特征图o，实现对文本的局部感知，从而提取局部特征，将卷积神经网络和门控机制用于情感分类，使得模型并行计算且选择性地输出情感特征。

进一步，所述步骤104为：将情感特征o_i通过最大池化层，选择与目标词相关的最具有代表的情感特征。

进一步，所述步骤105为：由最大池化层选出的最具有代表的情感特征经过全连接层，在全连接层中加入了随机失活，随机失活在训练模型时会随机去掉一些网络节点，最后特征通过Softmax分类器进行分类，输出情感类别；所述步骤106为：利用反向传播算法，通过最小化交叉熵损失函数来训练和更新模型，以此选择最优的模型参数，得出关于目标的情感分类。

本发明的第二发明目的是提供一种基于注意力门控卷积网络的目标情感分析系统，包括：

输入训练模块，输入为给定的上下文词向量和对应的目标词向量，将两者分别作为输入进行训练；

交互模块，利用上下文词和上下文感知目标词进行多头注意力机制交互；

门控卷积模块，将两个通道生成的情感特征向量c^intra和t^inter分别经过门控卷积机制，生成带有上下文感知目标词表示的上下文词表示a_i和上下文词表示u_i；

池化模块，将情感特征o_i进行池化，选出最具有代表的特征；

分类模块，将池化后的特征词向量进行全连接，然后通过Softmax分类器进行分类；

更新模块，通过最小化交叉熵损失函数来训练和更新注意力门控卷积网络模型。

本发明的第三发明目的是提供一种实现上述基于注意力门控卷积网络的目标情感分析方法的计算机程序。

本发明的第四发明目的是提供一种实现上述基于注意力门控卷积网络的目标情感分析方法的信息数据处理终端。

本发明的第五发明目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于注意力门控卷积网络的目标情感分析方法

本发明的优点及积极效果为：

本发明提供的基于注意力门控卷积网络的目标情感分析方法及系统具有如下有益效果：本发明通过对现有目前情感分析模型的研究，提出了一种基于注意力门控卷积网络的目标情感分析方法，将上下文和目标感知上下文词嵌入作为输入进行多头注意力交互，以充分提取特征，采用门控卷积机制来选择性地生成与目标词有关的情感特征。该模型在目标情感分析领域不仅能够提高对目标情感分类的准确率，而且还能缩短收敛时间，在目标情感分析领域方面有重要的应用价值。

附图说明

图1为本发明提供的注意力门控卷积网络模型框架图：

图2为不同优化器对比实验结果图：

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下：

如图1所示，本发明提供的基于注意力门控卷积网络的目标情感分析方法包括下列步骤：

步骤101中，输入为给定的上下文词向量和对应的目标词向量，将两者分别作为输入进行训练；

具体步骤如下：

(1)利用GloVe将给定的上下文和目标词进行预处理，生成给定的上下文词向量X^c＝{x₁ ^c,x₂ ^c,…,x_n ^c}和对应的目标词向量X^t＝{x₁ ^t,x₂ ^t,…,x_m ^t}。

(2)将给定的上下文词向量和对应的目标词向量分别作为输入，更好地提取目标词关于上下文词的情感特征。

步骤102中，该模型利用上下文词和上下文感知目标词进行多头注意力机制交互；

具体步骤如下：

将键序列k＝{k₁,k₂,…k_n}映射到查询序列q＝{q₁,q₂,…,q_m}，得到一次输出，通过多次计算，将多次结果拼接得到最终输出。

各个单词加权平均后得到的一次输出公式如下：

Attention(k,q)＝softmax(s(k,q))k (1)

其中，s(k,q)是打分函数，表示k_i和q_j的语义相似度，公式如下：

s(k_i,q_j)＝tanh([k_i；q_j]·W_s) (2)

其中，W_s是模型的训练参数。

第h次的注意力表示如下：

head^h＝Attention^h(k,q) (3)

拼接后的总输出为：

其中，h∈[1,n_head]。

上下文间词嵌入建模(Intra-MHA)是将相同的上下文词序列作为输入，即k＝q。由上下文词的词向量x^c可得出上下文词嵌入建模表示c^intra＝[c₁ ^intra,c₂ ^intra,…,c_n ^intra]：

c^intra＝MHA(x^c,x^c) (5)

上下文感知目标词建模(Intra-MHA)是将上下文词序列和目标词序列分别作为输入，即k≠q。由上下文词向量x^c和对应的目标词向量x^t可得出上下文感知目标词的表示t^inter＝[t₁ ^inter,t₂ ^inter,…,t_m ^inter]：

t^inter＝MHA(x^c,x^t) (6)

步骤103中，将两个通道生成的情感特征向量c^intra和t^inter分别经过门控卷积机制，生成带有上下文感知目标词表示的上下文词表示a_i和上下文词表示u_i；

具体步骤如下：

在卷积层中，n_k个不同大小的卷积核k依次滑过词向量X＝{x₁,x₂,…,x_n}，得到不同粒度在不同位置的特征图o，以实现对文本的局部感知，从而更好地提取局部特征。其中，n为词向量个数。分别选择3，4，5倍的词向量维度作为三种不同的卷积核，能够更全面地挖掘特征，获得更好的分类效果。

该层的输入为c^intra和t^inter，输入的最大长度为n。n_k个尺寸不同的卷积核k与词向量进行卷积，经过门控机制得出情感特征o_i。

卷积过程包含两部分，带有上下文感知目标词表示的上下文词表示a_i和上下文词表示u_i。公式如下：

a_i＝relu(c_i:i+k ^intra*W_a+v_aV_a+b_a) (7)

其中，relu是激活函数，b_a是偏置。a_i用于生成带有目标词的情感特征，控制情感特征的传播。

v_j＝relu(t_j:j+k ^inter*W_v+b_v) (8)

其中，b_v是偏置。v_j通过最大池化得到v_a。

u_i＝tanh(c_i:i+k ^intra*W_u+b_u) (9)

其中，tanh是激活函数，b_u是偏置。u_i用于生成情感特征。

在t位置处，计算的情感特征o_i：

o_i＝u_i*a_i (10)

步骤104中，将情感特征o_i进行池化，选出最具有代表的特征；

具体步骤如下：

将情感特征通过max pooling，准确地选择与目标词相关的最具有代表的情感特征。

步骤105中，将池化后的特征词向量进行全连接，然后通过Softmax分类器进行分类；

具体步骤如下：

由最大池化后选出的最具有代表的情感特征经过全连接层，在全连接层中加入了Dropout。Dropout在训练模型时会随机去掉一些网络节点，可以有效地提高泛化能力。最后特征通过Softmax分类器进行分类，输出情感类别。

步骤106中，通过最小化交叉熵损失函数来训练和更新注意力门控卷积网络模型。

具体步骤如下：

利用反向传播算法，通过最小化交叉熵损失函数来训练和更新模型，以此选择最优的模型参数，得出关于目标的情感分类。采用的交叉熵损失函数为：

其中，i表示文本索引，j表示情感分类的类别，y表示真实的情感极性，表示预测的情感极性。

实施例：

为了验证本方法的效果，本发明人设计了相应的实施例，与RNN模型中的目标依赖的长短期记忆网络(TD-LSTM)模型、基于注意力的长短期记忆网络(ATAE-LSTM)模型、交互注意力网络(IAN)模型、循环注意力网络(RAM)模型进行比较；与非RNN模型中的深度记忆网络(MemNet)模型、带有方面词嵌入的门控卷积网络(GCAE)模型和注意力编码网络(AEN)模型进行比较；实验设计了不同优化函数对本模型AGCN的影响。

目标情感分析的数据来源于SemEval 2014Task4的Restaurant和Laptop评论。每条数据包括评论、目标词和目标词对应的情感极性。其中，情感极性有积极、中性和消极三种标签。

对比一：为验证本文所提方法在目标情感分析领域准确率方面的性能，借此来评价注意力门控卷积网络是否有利于提高准确率。实验结果如表1所示。

表1准确率结果对比

从实验结果可以看出，相比于其他基线模型，本文提出的AGCN模型在两个数据集上均得到了最高的准确率。其中，在Restaurant评论数据集上，AGCN模型的准确率有明显的提高，准确率高达81.52％。在Laptop评论数据集上的准确率也有一定的提升，准确达到了74.61％。

在RNN模型中，TD-LSTM模型表现最差，因为该神经网络模型只对目标词进行粗略处理，未能实现良好的情感分类，因此准确率较低。ATAE-LSTM、IAN和RAM模型分别都在LSTM后增加了注意力机制，在Restaurant评论数据集上的准确率分别比TD-LSTM模型高了1.57％、2.97％和4.60％。加入了注意力机制的模型可以更好地提取重要的特征，从而验证了注意力机制的有效性。IAN模型表现一般，因为它只是将文本和目标词交互学习注意力，而本文的AGCN模型在交互注意力后，通过了门控卷积机制，进一步提取有效的情感特征，比IAN模型在Restaurant数据上的准确率提高了2.92％，从而验证了门控卷积机制的有效性。RAM模型比其他三个RNN模型表现优异，它利用LSTM和多跳注意力机制捕捉情感特征，增强了模型的表示能力，本文AGCN模型的准确率在Restaurant数据上比RAM模型高了1.29％，验证了本文模型的有效性。

在非RNN模型中，MemNet模型表现一般，因为它没有模拟嵌入的隐藏语义，最后一次关注的结果本质上是单词嵌入的线性组合，弱化了模型的表示能力。而本文AGCN模型中的门控卷积机制将多头注意力的结果非线性地结合起来，能够进一步加强模型的表示能力，同时还可以生成和选择性地输出情感特征，从而获得更好的分类效果，进一步验证了门控卷积机制的有效性。AEN-GloVe模型在Restaurant数据上表现优异，准确率达到了80.98％，但是在Laptop数据上表现一般，准确率为73.51％。相较于本文模型，GCAE模型没有交互式的上下文词和目标词，未能获得较好的情感特征。本文AGCN模型比GCAE模型在Restaurant评论数据集上的准确率提高了2.06％，由此验证了本文将上下文和目标感知的上下文词嵌入作为输入进行多头注意力交互的有效性。

对比二：

为了验证AGCN模型在缩短收敛时间方面的有效性，本组实验在Restaurant评论数据集上进行，通过实验，记录各自模型的收敛时间，以秒为单位。其中，收敛时间是各模型的测试集在准确率得到最高时的迭代次数所消耗的时间。各模型收敛时间的实验结果如表2所示。

表2收敛时间结果对比

从表2中容易看出，本文的AGCN模型与RNN模型相比，很大程度上缩短了收敛时间；与非RNN模型相比，比AEN-GloVe模型的收敛时间短，但是比MemNet和GCAE模型的收敛时间长。

在RNN模型中，TD-LSTM模型的收敛时间最短，该模型虽然收敛时间短，但准确率相对来说比较低。其他三个基于LSTM和注意力机制模型的收敛时间较长，因为LSTM不能并行化，且注意力机制中计算权重时消耗较多时间。与其他三个RNN模型收敛时间相比，本文的AGCN模型收敛速度最快，分别比ATAE-LSTM、IAN和RAM模型的收敛时间降低了29.17s、105.26s和54.32s。在AGCN模型中，卷积门控机制可以并行计算，大大缩短了收敛时间，从而验证了门控卷积机制的有效性。

在非RNN模型中，AEN-GloVe模型的收敛时间最长，该模型利用了两层注意力机制，而注意力机制在计算权重时需要消耗大量时间，因此收敛时间长。AGCN模型比MemNet和GCAE模型的收敛时间长，GCAE模型的收敛时间最短。MemNet和AGCN模型的收敛时间相差不大。与GCAE模型相比，AGCN模型比GCAE模型多增加了交互式的注意力机制层，该层延长了模型的收敛时间，虽然收敛时间增加了，但是交互注意力机制使得AGCN模型的准确率得到了提升，总体效果表现良好。

对比三：网络参数对模型的分类效果有很大的影响，因此对不同的数据集采用合适的网络参数是非常重要的。为了验证网络参数对实验的影响，以及如何选择合适的参数，本组进行了一组实验，针对Restaurant和Laptop数据，在优化函数上进行对比实验，观察优化函数对AGCN模型的影响。本组实验各重复了二十次，每次实验迭代二十次。不同的数据集适用的优化函数不同，本组实验采用的优化函数分别为AdaGrad，Adam和SGD。实验结果如图2所示。

由图可知，当AdaGrad为优化器时，本文的AGCN模型在Restaurant数据上可以实现最高的准确率，当Adam为优化器时，在Laptop数据上有最好的分类效果，优化器SGD在两个数据上没有表现出良好的效果。AdaGrad和Adam优化器可以自适应学习率，都较适用于稀疏数据。两者相比，Adam优化器更适合较为稀疏的数据。Laptop数据集比Restaurant数据集稀疏，因此在Laptop数据集上，Adam优化器有优异的表现，而在Restaurant数据集上，AdaGrad优化器表现良好。SGD优化器不能自适应学习率，在稀疏数据中的表现不如AdaGrad和Adam优化器。

本发明提供的注意力门控卷积网络(AGCN)模型的基本原理如下：该模型首先将上下文和目标感知上下文词嵌入作为输入进行多头注意力交互，以充分提取特征；然后采用门控卷积机制来选择性地生成与目标词有关的情感特征；最后通过Softmax分类器进行分类，得到目标词对应文本的情感极性。采用SemEval 2014Task4数据的实验结果验证了该模型在目标情感分析领域不仅能够提高对目标情感分类的准确率，而且还能缩短收敛时间，在目标情感分析领域方面有重要的应用价值。

一种基于注意力门控卷积网络的目标情感分析系统，包括：

一种实现上述优选实施例中基于注意力门控卷积网络的目标情感分析方法的计算机程序。

一种实现上述优选实施例中基于注意力门控卷积网络的目标情感分析方法的信息数据处理终端。

一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述优选实施例中基于注意力门控卷积网络的目标情感分析方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上对本发明的实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于注意力门控卷积网络的目标情感分析方法，其特征在于：包括如下步骤：

步骤104，将情感特征o_i进行池化，选出最具有代表的特征；

2.根据权利要求1所述的基于注意力门控卷积网络的目标情感分析方法，其特征在于，所述步骤101为：利用预训练好的GloVe对文本进行处理，生成词向量矩阵其中，d_emb是词向量维度，|V|是词典大小，所述上下文词向量X^c＝{x₁ ^c,x₂ ^c,…,x_n ^c}，所述对应的目标词向量X^t＝{x₁ ^t,x₂ ^t,…,x_m ^t}。

3.根据权利要求1所述的基于注意力门控卷积网络的目标情感分析方法，其特征在于，所述步骤102为：将键序列k＝{k₁,k₂,…k_n}映射到查询序列q＝{q₁,q₂,…,q_m}，得到一次输出，通过多次计算，将多次结果拼接得到最终输出MHA(k,q)，其中，上下文间词嵌入建模是将相同的上下文词序列作为输入，即k＝q，由上下文词的词向量x^c得出上下文词嵌入建模表示c^intra，上下文感知目标词建模是将上下文词序列和目标词序列分别作为输入，即k≠q，由上下文词向量x^c和对应的目标词向量x^t得出上下文感知目标词的表示t^inter，利用上下文词和上下文感知目标词的多头注意力机制，提取情感特征和基于目标的情感特征。

4.根据权利要求1所述的基于注意力门控卷积网络的目标情感分析方法，其特征在于，所述步骤103为：在卷积层中，n_k个不同大小的卷积核k依次滑过词向量X＝{x₁,x₂,…,x_n}，生成带有上下文感知目标词表示的上下文词表示a_i和上下文词表示u_i，得到不同粒度在不同位置的特征图o，实现对文本的局部感知，从而提取局部特征，将卷积神经网络和门控机制用于情感分类，使得模型并行计算且选择性地输出情感特征。

5.根据权利要求1所述的基于注意力门控卷积网络的目标情感分析方法，其特征在于，所述步骤104为：将情感特征o_i通过最大池化层，选择与目标词相关的最具有代表的情感特征。

6.根据权利要求1所述的基于注意力门控卷积网络的目标情感分析方法，其特征在于，所述步骤105为：由最大池化层选出的最具有代表的情感特征经过全连接层，在全连接层中加入了随机失活，随机失活在训练模型时会随机去掉一些网络节点，最后特征通过Softmax分类器进行分类，输出情感类别；所述步骤106为：利用反向传播算法，通过最小化交叉熵损失函数来训练和更新模型，以此选择最优的模型参数，得出关于目标的情感分类。

7.一种基于注意力门控卷积网络的目标情感分析系统，其特征在于：包括：

8.一种实现权利要求1所述基于注意力门控卷积网络的目标情感分析方法的计算机程序。

9.一种实现权利要求1所述基于注意力门控卷积网络的目标情感分析方法的信息数据处理终端。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1所述的基于注意力门控卷积网络的目标情感分析方法。