CN112232087B

CN112232087B - 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法

Info

Publication number: CN112232087B
Application number: CN202011125520.7A
Authority: CN
Inventors: 孙佳慧; 韩萍; 程争
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2022-09-02
Anticipated expiration: 2040-10-20
Also published as: CN112232087A

Abstract

一种基于Transformer的多粒度注意力模型的特定方面情感分析方法。该方法利用Transformer编码器模块和Tree Transformer编码器模块对特定方面和上下文进行语义建模，并结合注意力机制进行两部分交互特征的学习，进而获取有利于训练情感分析模型的特征。本发明在特征提取上除了获取词语级特征，还有效获取了体现语言层次结构及句法信息的短语级特征，此外，为避免单一池化造成部分有用信息的损失，本发明采用双池化操作。通过实验证明了该发明所述方法提高了特定方面情感极性判别的准确率。

Description

一种基于Transformer的多粒度注意力模型的特定方面情感分析方法

技术领域

本发明属于自然语言处理中的文本情感分析技术领域，特别是涉及一种基于Transformer的多粒度注意力模型的特定方面情感分析方法。

背景技术

情感分析是自然语言处理中的重要任务之一，其通过计算机辅助算法分析相关文本，进而获取人们对于产品、服务、事件等对象所持有的意见、评价等主观感受。除了给出总体评价外，人们通常也会从实体的多个角度进行评价，导致一段语句中包含多个情感极性，若采用传统情感分析方法对整个句子进行情感极性分类，可能会使结果出现偏差。鉴于此，研究人员提出特定方面情感分析方法，其针对评论语句中各特定方面分别判定情感极性，逐渐成为情感分析的关键任务之一。例如，在关于餐厅的评论中“The food wasdefinitely good，but the price is too high.”，两个特定方面词“food”和“price”的情感极性分别为积极和消极。

近年来，深度学习方法特别是神经网络模型在自然语言处理任务中不断取得新的进展，在特定方面情感分析任务中也具有很好的表现。卷积神经网络(convolutionalneural network，CNN)在卷积层利用窗口一定的滤波器获取特征，但该模型只能获取窗口内的单词间依赖关系，无法获取整个文本的结构信息。循环神经网络(recurrent neuralnetwork，RNN)及其衍生模型，如长短时记忆网络(long short-term memory，LSTM)和GRU(gated recurrent units)将句子视为单词序列，获取隐含状态层的句法层面有效特征，在特定方面情感分析任务中获得了较好的结果，但是这类模型所采用的长短时记忆机制会导致情感语义的叠加，当句子中存在多个情感极性不一致的特定方面时，模型的分辨率会受到影响，并且句子中单词间的依赖程度会随着距离的增加而减弱。由于注意力机制可以有效地关注重点信息，因此将CNN或RNN等神经网络与注意力机制相结合，可使模型重点关注上下文中对判定相应特定方面情感极性的重要特征。这类模型虽然能够在训练时高度关注某些重要特征，但其通常使用的单一注意力模式，导致模型无法对特定方面与上下文间的交互关系进行深层次抽取。此外，该类模型还存两个问题：其一，在特定方面不是单一词语而是短语时，该类模型通常将几个词语的平均向量作为特定方面的表示，该方法虽然较为简单，但无法充分体现短语中每个词的特征，造成有用信息的损失；其二，在进一步获取特定方面与上下文间的交互特征时，该类模型通常将特定方面/上下文特征矩阵进行平均池化后分别学习与上下文/特定方面中每个词的注意力权重，但使用单一池化会造成部分有用信息的损失。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于Transformer的多粒度注意力模型的特定方面情感分析方法。

为了达到上述目的，本发明提供的基于Transformer的多粒度注意力模型的特定方面极性判别方法包括按顺序进行的下列步骤：

(1)利用向量空间模型，将待判定的上下文及其对应的特定方面用特征矩阵表示；

(2)将步骤(1)中获得的上下文和特定方面的特征矩阵作为输入，采用Transformer编码器模块分别获取上下文和特定方面的词语级特征；

(3)将步骤(1)中获得的上下文的特征矩阵作为输入，利用Tree Transformer编码器模块获取上下文的短语级特征；

(4)根据步骤(2)中获得的上下文和特定方面的词语级特征以及步骤(3)中获得的上下文的短语级特征，通过注意力机制进一步获取特定方面与上下文间的相关联注意力权重；

(5)将步骤(4)中获得的相关联注意力权重组合后作为训练特定方面情感极性分类器的最终特征；

(6)利用步骤(5)中得到的最终特征训练特定方面情感极性分类器，得到正向、负向或中性情感极性概率；

(7)利用步骤(6)中训练特定方面情感极性分类器的准确率，选取最优的Transformer和Tree Transformer编码器模块层数。

在步骤(1)中，所述的利用向量空间模型，将待判定的上下文及其对应的特定方面用特征矩阵表示的方法是：利用斯坦福大学公开的300维Glove词向量模型，将待判定的上下文及其对应的特定方面中的每个词分别与Glove词向量模型进行匹配，进而使得上下文及其对应的特定方面中的每个词都能以300维向量表示，对于无法匹配的词，在[-0.1,0.1]中随机选择数值后得到300维向量；然后分别将上下文和特定方面包含的词向量分别进行拼接，获得上下文的特征矩阵

和特定方面的特征矩阵

在步骤(2)中，所述将步骤(1)中获得的上下文和特定方面的特征矩阵作为输入，采用Transformer编码器模块分别获取上下文和特定方面的词语级特征的方法是：分别将上下文的特征矩阵

和特定方面的特征矩阵

输入到Transformer编码器模块，分别计算得到上下文的词语级特征

其中

和特定方面的词语级特征

在步骤(3)中，所述将步骤(1)中获得的上下文的特征矩阵作为输入，利用TreeTransformer编码器模块获取上下文的短语级特征的方法是：将上下文的特征矩阵

输入到Tree Transformer编码器模块，计算得到上下文的短语级特征

其中

在步骤(4)中，所述根据步骤(2)中获得的上下文和特定方面的词语级特征以及步骤(3)中获得的上下文的短语级特征，通过注意力机制进一步获取特定方面与上下文间的相关联注意力权重的方法是：首先计算特定方面对于上下文的注意力权重，具体包括特定方面的平均池化特征相对于上下文的词语级和短语级特征的注意力权重和特定方面的最大池化特征相对于上下文的词语级和短语级特征的注意力权重两部分；然后计算上下文相对于特定方面的注意力权重，具体包括上下文的词语级和短语级平均池化特征相对于特定方面特征的注意力权重和上下文的词语级和短语级最大池化特征相对于特定方面特征的注意力权重两部分。

在步骤(5)中，所述将步骤(4)中获得的相关联注意力权重组合后作为训练特定方面情感极性分类器的最终特征的方法是：

将步骤(4)中获得的相关联注意力权重进行拼接，得到最终特征M∈R^8dh：

在步骤(6)中，所述利用步骤(5)中得到的最终特征训练特定方面情感极性分类器，得到正向、负向或中性情感极性概率的方法是：

将上述最终特征M经过全连接层后输入到softmax分类器中，从而得到正向、负向或中性情感极性概率。

在步骤(7)中，所述的利用步骤(6)中训练特定方面情感极性分类器的准确率，选取最优的Transformer和Tree Transformer编码器模块层数的方法是：首先选取最优的Transformer编码器模块层数，即先将基于Transformer的多粒度注意力模型中对上下文进行短语级特征提取的Tree Transformer编码器模块部分省略，只保留对特定方面和上下文特征提取的Transformer编码器模块，依次在层数为1-6上进行实验验证，将此时的特定方面情感极性分类器的准确率最高的层数确定为最优的Transformer编码器模块层数；然后选取最优的Tree Transformer编码器模块层数，即将基于Transformer的多粒度注意力模型中Transformer编码器模块层数设为最优层数后，将Tree Transformer编码器模块层数设定为1-6依次进行实验，将此时特定方面情感极性分类器的最高准确率的层数确定为最优的Tree Transformer编码器模块层数。

本发明提供的基于Transformer的多粒度注意力模型(Transformer basedmulti-grained attention network,T-MGAN)的特定方面情感分析方法具有以下优点：(1)本发明利用Transformer编码器模块分别学习特定方面和上下文的词语级特征，并进一步利用Tree Transformer编码器模块获取上下文的短语级特征，可避免CNN或RNN结合单一的注意力机制导致提取的文本特征不够全面的问题；(2)将特定方面中所有词均与上下文特征进行注意力计算，以获取包含情感特征权重的表示，避免仅使用特定方面的平均向量作为特征表示而造成的信息损失；(3)采用双池化操作，可避免单一池化造成部分有用信息的损失。

附图说明

图1是本发明提供基于Transformer的多粒度注意力模型的特定方面情感分析方法流程图。

图2为本发明中基于Transformer的多粒度注意力模型结构图。

图3为本发明中Transformer编码器模块结构图。

图4为本发明中Transformer编码器模块不同层数的实验准确率曲线图。

图5为本发明中Tree Transformer编码器模块结构图。

图6为本发明中Tree Transformer编码器模块不同层数的实验准确率曲线图。

具体实施方式

下面结合附图和具体实施案例对本发明提供的基于Transformer的多粒度注意力模型的情感分析方法进行详细说明。

如图1所示，本发明提供的基于Transformer的多粒度注意力模型的特定方面情感分析方法包括按顺序进行的下列步骤：

具体方法是利用斯坦福大学公开的300维Glove词向量模型，将待判定的上下文及其对应的特定方面中的每个词分别与Glove词向量模型进行匹配，进而使得上下文及其对应的特定方面中的每个词都能以300维向量表示，对于无法匹配的词，在[-0.1,0.1]中随机选择数值后得到300维向量；然后分别将上下文和特定方面包含的词向量分别进行拼接，获得上下文的特征矩阵

和特定方面的特征矩阵

(2-1)利用Transformer编码器模块获取上下文的词语级特征：

随机初始化三个线性变换矩阵

并分别与输入的上下文的特征矩阵

相乘，得到查询矩阵Q^c＝(q^c ₁,...,q^c _N)、键矩阵K^c＝(k^c ₁,...,k^c _N)和值矩阵V^c＝(v^c ₁,...,v^c _N)，其中

分别为查询向量、键向量和值向量，d_h为隐含维度(hidden dimension)。

根据特定方面情感分析任务的实际需求，仅使用如图2所示的基于Transformer的多粒度注意力(T-MGAN)模型中的Transformer编码器模块，Transformer编码器模块如图3(a)所示，该部块由n个相同的层组成，每个层由两个子层组成，分别是多头注意力层(multi-head attention layer)和前馈网络层(feed-forward)，并且两个子层后面都加有残差连接(residual connection)和正则化(normalization)操作。其中多头注意力由多个放缩点积注意力堆叠(scaled dot-product attention)得到，如图3(b)和(c)所示。

Transformer编码器模块中的关键步骤是放缩点积注意力(scaled dot-productattention)，首先将每个查询向量q^c _i与每个键向量进行相似度计算而得到相似度值，然后对相似度值进行归一化处理得到权重，最后将权重与上下文中所有词的值(value)相乘，得到放缩点积注意力(scaled dot-product attention)的输出：

其中，比例因子d(scaling factor)通常设置为键矩阵中向量维度的平方根

将查询、键和值矩阵采用不同的参数进行h次线性变换后，通过多次不同组的学习获取更丰富的特征，多头自注意力机制的输出为：

其中，

为拼接操作，

为权重矩阵。最终计算得到上下文的词语级特征

(2-2)利用Transformer编码器模块获取特定方面的词语级特征：

随机初始化三个线性变换矩阵

并分别与输入的特定方面的特征矩阵

相乘，得到查询矩阵Q^a＝(q^a ₁,...,q^a _M)、键矩阵K^a＝(k^a ₁,...,k^a _M)和值矩阵V^a＝(v^a ₁,...,v^a _M)，其中

下面进行放缩点积注意力(scaled dot-product attention)计算，首先将每个查询向量q^a _i与每个键向量进行相似度计算而得到相似度值，然后对相似度值进行归一化处理得到权重，最后将权重与特定方面中所有词的值(value)相乘，得到放缩点积注意力(scaled dot-product attention)的输出：

其中，

为拼接操作，

为权重矩阵。最终计算得到特定方面的词语级特征

由于上下文中通常包含较多的词语以及较为复杂的语法成分和句法结构，因此本发明使用Tree Transformer编码器模块进一步获取上下文的短语级特征，该模块只需进行递归遍历，就可以捕获上下文中短语语法信息以及词间的依赖关系。Tree Transformer编码器模型的结构如图5所示，该模型在多头注意力结构的基础上新增加了成分注意力(Constituent Attention)模块，用来计算一定跨度内的词语能否构成一个短语。若两个词间计算得到的相关联概率值较大，则可认为该两个词构成了一个短语。Tree Transformer编码器模块具有多层结构，每升高一层会有部分子短语进行结合，逐渐将几个较小的短语成分从较低层附加到较高层。Tree Transformer编码器模块的关键部分是计算出成分先验矩阵(Constituent Priors)C，进而得到成分注意力概率矩阵E：

其中，

为对应元素相乘(element-wise multiplication)，C∈R^N×N，N为输入上下文中包含的词个数，E_ij为位置i关注(attend to)位置j的概率，Q^c＝(q^c ₁,...,q^c _N)为上下文的查询矩阵，K^c＝(k^c ₁,...,k^c _N)为上下文的键矩阵。

每一层的成分先验矩阵C不同，但同一层中多头注意力的所有头分享同一个成分先验矩阵C，其通过预测两个相邻部分属于同一短语的概率得到，对于Tree Transformer编码器模型的第l层，定义一个序列a＝{a^l ₁,...,a^l _i,...,a^l _N}，其中a^l _i是上下文中两个词w_i与w_j属于同一成分的概率，矩阵C^l由词w_i与w_j间的所有概率a^l _i≤k＜j根据下式计算得到：

上下文中两部分在低层属于同一短语，则在高层会有更大的概率属于一个更长的短语，所以第l层的概率

不仅与当前层的概率有关，还与上一层概率有关。具体计算方法如下：

其中，

其中，p_k,k+1,p_k,k-1＝softmax(s_k,k+1,s_k,k-1)

其中，

将Tree Transformer编码器模块计算得到的成分注意力概率矩阵E与放缩点积注意力(scaled dot-product attention)的输出进行如下计算：

最终得到上下文的短语级特征

由于单一池化会造成一部分特征的损失，因此本发明采用双池化方法，同时获得平均池化特征和最大池化特征，并将双池化后的特定方面特征分别与步骤(2)中获得的上下文的词语级特征和步骤(3)中获得的短语级特征进行注意力计算，以及将双池化后的上下文的短语级和词语级特征分别与特定方面特征进行注意力计算，从而更全面地获取能够判定特定方面情感极性的相关联注意力权重；

(4-1)特定方面相对于上下文的注意力权重计算：

本步骤分别计算上下文的词语级特征

和短语级特征

对特定方面的平均池化特征和最大池化特征的注意力权重，若计算得到的注意力权重大，说明该特征与特定方面的语义关系更紧密。特定方面的平均池化特征为

最大池化特征为

下面进行分步计算：

(4-1-1)特定方面的平均池化特征相对于上下文的词语级和短语级特征的注意力权重：

根据公式

计算得到特定方面的平均池化特征

相对于上下文的词语级特征的注意力权重

其中

为随机初始化的注意力权重参数，

为随机初始化的偏置向量；

根据公式

计算得到特定方面的平均池化特征

相对于上下文的短语级特征的注意力权重

其中

为随机初始化的注意力权重参数，

为随机初始化的偏置向量；

将上述两个注意力权重分别与上下文的词语级和短语级特征加权输出，得到平均池化的特定方面特征相对于上下文的词语级和短语级特征的注意力权重：

(4-1-2)特定方面的最大池化特征相对于上下文的词语级和短语级特征的注意力权重：

根据公式

计算得到特定方面的最大池化特征

与上下文的词语级特征的注意力权重

其中，

为随机初始化的注意力权重参数，

为随机初始化的偏置向量；

根据公式

计算得到特定方面的最大池化特征

与上下文的短语级特征的注意力权重

其中

为随机初始化的注意力权重参数，

为随机初始化的偏置向量；

将上述两个注意力权重分别与上下文的词语级和短语级特征加权输出，得到最大池化的特定方面特征相对于上下文的词语级和短语级特征的注意力权重：

(4-2)上下文相对于特定方面的注意力权重计算：

本步骤计算特定方面中每个特征相对于上下文的词语级和短语级特征的注意力权重。上下文的词语级特征和短语级特征的平均池化特征分别为

和

最大池化特征分别为

和

(4-2-1)上下文的词语级和短语级平均池化特征相对于特定方面特征的注意力权重：

根据公式

计算得到特定方面的平均池化特征

与上下文的词语级特征的注意力权重

其中，

为随机初始化的注意力权重参数，

为随机初始化的偏置向量；

根据公式

计算得到特定方面的平均池化特征

与上下文的短语级特征的注意力权重，其中，

为随机初始化的注意力权重参数，

为随机初始化的偏置向量；

将上述两个注意力权重分别与特定方面特征加权输出，得到上下文的词语级和短语级平均池化特征相对于特定方面特征的注意力权重：

(4-2-2)上下文的词语级和短语级最大池化特征相对于特定方面特征的注意力权重：

根据公式

计算得到特定方面的最大池化特征

与上下文的词语级特征的注意力权重

其中，

为随机初始化的注意力权重参数，

为随机初始化的偏置向量；

根据公式

计算得到特定方面的最大池化特征

与上下文的短语级特征的注意力权重，其中，

为随机初始化的注意力权重参数，

为随机初始化的偏置向量；

将上述两个注意力权重分别与特定方面特征加权输出，得到上下文的词语级和短语级最大池化特征相对于特定方面特征的注意力权重：

将步骤(4)中获得的相关联注意力权重进行拼接，得到最终特征

将上述最终特征M经过全连接层后输入到softmax分类器中，从而得到正向、负向或中性情感极性概率：

p＝softmax(W_p×M+b_p)

其中，

为全连接层权重矩阵，b_p∈R^C为全连接层偏置向量，设定C＝3为方面情感极性的类别数量。实验中，模型通过反向传播最小化交叉熵来调整模型参数，优化网络模型的分类性能，交叉熵为：

其中，D为训练集的数量，C为数据的类别数，y为待判别的特定方面的真实类别，p为待判别的特定方面的预测值。λ||θ||²为交叉熵正则项。

(7)根据步骤(6)训练特定方面情感分类器的准确率，选取最优的Transformer和Tree Transformer编码器模块层数：

为选取最优的Transformer编码器模块层数，先将T-MGAN模型中对上下文进行短语级特征提取的Tree Transformer编码器模块部分省略，只保留特定方面和上下文特征提取的Transformer编码器模块，依次在层数为1-6上进行实验验证，结果如图4所示。实验结果呈现的规律与我们的经验基本一致，当层数过少时模型的特征提取还不够完善，所以随着层数的增多，模型学习到的有效特征增多，实验准确率逐步提高，当层数超过一定数量时，模型参数过多使得模型有过拟合的风险，实验准确率有所降低。当层数为3时，笔记本电脑(Laptop)和餐厅(Restaurant)数据集准确率达到最高，分别为73.15％和80.10％。而在层数为2时，推特(Twitter)数据集准确率为70.03％，比层数为3的结果高0.07％，考虑其他两个数据集在层数为3时准确率较层数为2的结果提升较多，所以选择Transformer编码器模块层数为3。

为选取最优的Tree Transformer编码器模块层数，本部分实验将T-MGAN模型中的Transformer编码器模块层数设为3，并将Tree Transformer编码器模块层数设定为1-6依次进行实验，结果如图6所示。从实验结果中可以看出，当层数为1时，实验结果略高于没有加入Tree Transformer编码器模块的结果，说明该模块确实能够学习到一些其他的重要特征。当层数为3时，该模块学习到了更充分的短语级特征，使得该模块的准确率进一步提升，达到该模块的最高准确率。

为验证本发明的有效性，本发明人采用特定方面情感分析任务广泛使用的公开数据集进行测试，分别为SemEval2014数据集和推特(Twitter)数据集。其中，SemEval2014数据集是语义测评比赛任务是数据集，包括笔记本电脑(Laptop)和餐厅(Restaurant)2个领域的用户评论。以上数据样本的情感极性分为积极、消极和中性。表1为本发明实验数据集使用的数据情况：

表1实验数据集统计信息

实验设置：

采用的词向量初始化方法是查找斯坦福大学公开发布的预训练的维度为300，大小为1.9M的Glove词向量词典，未登录词使用均匀分布U(-0.01,0.01)来随机初始化。隐含维度均设置为300，Transformer编码器模块和Tree Transformer编码器模块的线性变换次数为3。为防止过拟合，将L2正则项系数设置为0.001，随机失活率(dropout rate)设置为0.5。采用学习率为0.01的Adam优化器来训练模型，模型迭代次数(epoch)为10，batch size为64。

对比实验：

1)CNN.该模型是基础的卷积神经网络模型，利用卷积神经网络获取文本高层特征后训练情感极性分类模型。

2)ATT-CNN.该模型将注意力机制融合到卷积神经网络中，并将提取的高层特征训练情感极性分类模型。

3)LSTM.该模型是基础的长短时记忆网络，将该网络最后一层的隐含状态作为句子的高层表示特征，输入到分类器中进行训练。

TD-LSTM.该模型以目标词为中心，将文本拆分为两个部分，分别以正序和倒序输入2个4)

LSTM中，将网络最后的隐含状态进行拼接后预测特定方面的情感极性。

5)AT-LSTM.该模型在LSTM的基础上融合注意力机制，将LSTM对文本上下文建模后为每个目标设置一个注意力向量，并由注意力向量产生特定方面的情感极性。

6)ATAE-LSTM.该模型在AT-LSTM的基础上，在输入层面将特定方面词嵌入与上下文中每个词嵌入进行融合。

7)IAN.该模型利用2个LSTM网络分别对特定方面和上下文进行特征提取，然后再交互生成注意力向量作为最终的特征训练模型。

8)IAD.该模型利用层叠的LSTM实现各特定方面信息共享的神经网络，对上下文的长时期依赖性进行建模，在利用注意力机制获取特定方面与上下文的相互关联特征，并利用该特征预测情感极性。

9)MFIF.该模型输入包含词嵌入和字符嵌入2种，将特定方面特征和上下文特征交互提取后，利用GRU和注意力机制进一步获取重要特征。

将以上模型在SemEval2014和推特(Twitter)数据集上进行实验，实验结果如表2所示。

表2不同模型的实验准确率

本发明中的T-MGAN模型在笔记本电脑(Laptop)和餐厅(Restaurant)数据集上的准确率均高于对比模型，因为该模型采用了Transformer模型结构，能够在多次不同的线性变换下获取不同角度的特定方面特征和上下文特征，除此之外，在获取上下文特征部分还采用了Tree Transformer模型结构，以不同的视角获取包含结构信息的短语级别全局特征，使本模型在特征表示上具有优势。并且，在利用注意力机制获取特定方面词与上下文的交互特征时，采用了双池化的方法，将双池化后的全局特征与特定方面词的局部特征进行组合，更深层次地学习和表示特定方面与上下文间的重要信息，进而得到更好的实验结果。但是在推特(Twitter)数据集上，本发明模型实验结果与MIFI模型相比低0.63％，分析原因可能是该数据集中的表达形式比较口语化，没有规范的表达，导致模型在获取短语级特征上没有明显的优势。总体来说，本发明方法中模型中的词法、句法分析特征质量较高，且特定方面与上下文间的交互特征获取方法在特定方面情感分析任务中具有一定的有效性。

Claims

1.一种基于Transformer的多粒度注意力模型的特定方面情感分析方法，其特征在于：所述方法包括按顺序进行的下列步骤：

方法是：分别将上下文的特征矩阵和特定方面的特征矩阵输入到Transformer编码器模块，分别计算得到上下文的词语级特征和特定方面的词语级特征；

Transformer编码器模块由n个相同的层组成，每个层由两个子层组成，分别是多头注意力层和前馈网络层，并且两个子层后面都加有残差连接和正则化操作；

上述词语级特征由多头自注意力机制的输出获得；

方法是：将上下文的特征矩阵输入到Tree Transformer编码器模块，计算得到上下文的短语级特征；

Tree Transformer编码器模块是在多头注意力结构的基础上新增加了成分注意力模块；

(7)利用步骤(6)中训练特定方面情感极性分类器的准确率，选取最优的Transformer和Tree Transformer编码器模块层数；

在步骤(4)中，所述根据步骤(2)中获得的上下文和特定方面的词语级特征以及步骤(3)中获得的上下文的短语级特征，通过注意力机制进一步获取特定方面与上下文间的相关联注意力权重的方法是：首先计算特定方面对于上下文的注意力权重，具体包括特定方面的平均池化特征相对于上下文的词语级和短语级特征的注意力权重和特定方面的最大池化特征相对于上下文的词语级和短语级特征的注意力权重两部分；然后计算上下文相对于特定方面的注意力权重，具体包括上下文的词语级和短语级平均池化特征相对于特定方面特征的注意力权重和上下文的词语级和短语级最大池化特征相对于特定方面特征的注意力权重两部分；

2.根据权利要求1所述的方法，其特征在于：在步骤(1)中，所述的利用向量空间模型，将待判定的上下文及其对应的特定方面用特征矩阵表示的方法是：利用斯坦福大学公开的300维Glove词向量模型，将待判定的上下文及其对应的特定方面中的每个词分别与Glove词向量模型进行匹配，进而使得上下文及其对应的特定方面中的每个词都能以300维向量表示，对于无法匹配的词，在[-0.1,0.1]中随机选择数值后得到300维向量；然后分别将上下文和特定方面包含的词向量分别进行拼接，获得上下文的特征矩阵和特定方面的特征矩阵。

3.根据权利要求1所述的方法，其特征在于：在步骤(5)中，所述将步骤(4)中获得的相关联注意力权重组合后作为训练特定方面情感极性分类器的最终特征的方法是：

将步骤(4)中获得的相关联注意力权重进行拼接，得到最终特征M。

4.根据权利要求1所述的方法，其特征在于：在步骤(6)中，所述利用步骤(5)中得到的最终特征训练特定方面情感极性分类器，得到正向、负向或中性情感极性概率的方法是：