一种基于多通道模型的特定目标情感分析方法
技术领域
本发明属于自然语言处理技术与情感计算领域,具体地说是一种基于多通道深度学习模型的英文特定目标情感分析方法。
背景技术
随着电子商务行业的发展,网络购物越来越受到人们的认可,由此也产生了大量的网络评论文本数据。面对这些海量的网络评论,一方面消费者需要快速了解评论的情感倾向,从其他消费者的经验中得到对该物品的评价信息,优化自己的购买决策;另一方面商家也需要从消费者的网络评论情感倾向中总结得到商品的市场反馈信息,对商品进行改善。因此,如何对评论文本进行情感分类已经成为自然语言处理领域的一个重要研究课题。
传统的情感分类主要是为了得到句子的整体的情感倾向,当句子中含有多个目标词的时候,传统的情感分类的方法就忽略了具体每一个目标词的情感。因此对特定目标词的情感分析任务正逐渐被学术界所重视。对特定目标词的情感分类指的是当一个句子中含有多个目标词的时候,需要对不同的目标词进行情感倾向的判断。例如:The appetizersis ok,but the service is slow and the environment is bad.在这段评价中,通过分析知道,这段评论主要对三个方面进行了评价,分别是开胃菜,服务和环境。这三个目标词的情感倾向分别是积极,消极和消极。因此传统的情感分类面对这种多目标词的情况就显得不太适用。
情感分类方法主要经历了三个阶段,第一阶段是基于词典和语言学规则的情感分类方法,这种分类方法本质上依赖于情感词典和判断规则的质量,需要人工设计,因此这类方法的优劣很大程度上都取决于人工设计和先验知识。在网络迅速发展的今天,出现了很多新词语,如:给力、坑爹,这使得词典需要实时的更新,即便如此也很难跟上时代的发展,因此基于词典的方法变得不再实用。第二阶段是基于机器学习的情感分类方法,其核心是特征提取和分类器设计,常用的特征工程包括:句法特征,(term frequency–inversedocument frequency,TF-IDF)特征等;常见的分类器有决策树、贝叶斯分类器、支持向量机等。然而这些传统的情感分析方法都高度依赖于所获得的特征质量,并且特征工程的工作量也十分巨大,所以显得不太适用。因此基于深度学习的方法应运而生,深度学习的方法首先通过海量的样本学习到词的表示即词向量,之后将词向量作为神经网络的输入,经过多层网络提取出特征,最后通过全连接得到分类结果。
近年来,基于深度学习实现特定目标词情感分析的方法正逐步受到认可。Tang以目标词为中心点,将句子划分为左右两部分,并用两个独立的LSTM网络分别对这两部分的句子进行建模,从而能够充分地利用目标词的语义信息,捕获到了目标词和上下文之间的关系,体现了LSTM在文本任务中能力,但是这种无差别的操作不能体现不同词对情感分类的差异性;Huang则将目标词和上下文中每一个词语分别进行拼接后输入LSTM网络,获得隐藏层输出后,再使用注意力机制确定给定目标对句子的影响,这种方式通过注意力机制将主要的信息加大权重,有助于后面的情感分析;Liu将句子分成了三部分,分别是目标词,目标词的上文和目标词下文,将三部分分别输入到LSTM之后得到隐藏层的输出,然后再通过注意力机制得到输出向量,最后通过全连接得到情感分析结果;Ma则通过LSTM网络对目标词和上下文分别进行建模,再利用各自隐藏层的输出进行交互注意力机制的操作,Ma提出的交互注意力机制,即将目标词和上下文进行交互,然后通过注意力机制进行权重的选择。实际上,上述工作中都利用了目标词和上下文,而Ma则是将目标词和上下文尽可能的交互,从而取得了更好的分类效果。但是Ma在交互过程中,求目标词和上下文整体向量时采用了平均池化操作,忽略了不同词对于情感分类的影响。Shen将词向量先经过平均池化,再进行最大池化(简称分层池化)操作得到向量,并且通过大量的实验证明该方法在一定程度上比向量直接输入到LSTM中效果更好。Yin提出基于欧式距离的注意力机制,通过实验证明了该模型的有效性。虽然上述方法都取得了一定效果,但是这些方法获得的信息都不够全面,从而导致分析的结果不够可靠。
发明内容
在针对评论文本的特定目标情感分类任务上,为了克服现有技术存在的上述不足,本发明提出一种基于多通道模型的特定目标情感分析方法;本申请提供的技术方案为了尽可能利用目标词与上下文,设置了三个通道,分别利用了分层池化,交互注意力机制以及基于欧式距离的注意力机制。
为此,本发明通过的技术方案如下:
一种基于多通道模型的特定目标情感分析方法,包括以下步骤:
(1)获取SemEval 2014评测数据集,对评测数据集进行预处理,并将其划分成训练集、测试集;
(2)分别通过三个通道进行特征提取,获得向量r1、r2、r3、r4和r5;
(3)利用向量r1、r2、r3、r4和r5,通过注意力机制的学习,得到分类结果;
(4)用训练好的模型对测试集中每个评论文本的特定目标进行情感分类,得到分类结果,并与测试集本身的标签对比,计算分类准确率。
上述的一种基于多通道模型的特定目标情感分析方法,步骤(1)具体是:对特定目标情感分析的测评数据进行预处理,包括获得评论文本、特定目标及其情感极性,然后按3:1的比例将测评数据随机划分成训练集和测试集,并保证两者中积极和消极的评论数基本平衡;
上述的一种基于多通道模型的特定目标情感分析方法,步骤(2)具体是:使用斯坦福大学公开的300维glove词向量与输入文本中的词进行匹配,使得文本中的每个词都能对应得到的300维向量,对于没有匹配到的词,则在[-0.1,0.1]中随机取值后得到词向量,作为模型的输入并分别进入到三个通道;
其中三个通道分别为:
(2-1)第一个通道是将上下文表示Wc与目标表示Wt进行直接拼接,得到矩阵W1,tc,其中m,n分别是目标词和上下文中词的个数,dc是词向量维度,将W1,tc通过LSTM得到隐含状态H1,tc,其中d为LSTM隐藏层的维度,然后对H1,tc进行分层池化操作,得到向量r1,
更进一步的,第一个通道进行特征提取获得向量r1的方法,包括以下步骤:
1)将Wt与Wc进行直接拼接,得到矩阵W1,tc;
2)LSTM网络中分别设计了输入门、遗忘门、输出门来控制信息的输入,保留和输出。其前向传播公式如下所示:(下面公式有乱码)
it=σWi·[ht-1;wt]+bi
ft=σWf·[ht-1;wt]+bf
ot=σWo·[ht-1;wt]+bo
gt=tanh Wr·[ht-1;wt]+br
ct=it⊙gt+ft⊙ct-1
ht=ot⊙tanh ct
其中it,ft,ot分别表示的是输入门,遗忘门,输出门。ht-1为上个细胞单元的输出,gt为当前细胞输入的状态,ct和ht分别为当前细胞状态和隐藏层输出,wt为t时刻的输入向量,Wi,Wf,Wo,Wr为参数矩阵,bi,bf,bo,br为偏置,⊙为点乘,σ为softmax激活函数;
将拼接后的矩阵作为LSTM的输入,得到隐含状态
3)进行分层池化,即先进行平均池化,然后再进行最大池化,在实验数据集SemEval2014Task4中,使用的平均池化窗口是8×d,然后得到平均池化后的矩阵,对整个矩阵采用最大池化得到向量r1;
(2-2)第二个通道是将Wt与Wc分别输入到LSTM,得到目标词和上下文的隐含状态H2,t和H2,c,其中将H2,t和H2,c分别进行平均池化操作,得到目标词和上下文的平均池化向量t2,avg和c2,avg,然后引入交互注意力机制,使目标信息与上下文信息充分交互,得到向量r3,
更进一步的,第二个通道进行特征提取获得向量r2和向量r3的方法,包括以下步骤:
1)将Wt与Wc分别输入到LSTM,得到目标词和上下文的隐含状态H2,t和H2,c;
2)将H2,c进行平均池化,如下公式所示,得到上下文的平均池化向量c2,avg;
其中是H2,c中的行向量,i∈[1,n],因此c2,avg包含了H2,c的信息;
3)将H2,t进行平均池化,如下公式所示,得到目标词的平均池化向量t2,avg;
其中是H2,t中的行向量,j∈[1,m],因此t2,avg包含了H2,t的信息;
4)利用c2,avg与H2,t的第j个行向量通过交互学习,得到公式如下所示:
其中W2,b是交互学习的参数矩阵,维度为 是H2,t的一个行向量,为c2,avg的转置,b2,b为偏置;
5)对每个进行归一化,求得对应H2,t第j个行向量的系数βj,公式如下所示:
其中k、j∈[1:m];
6)将βj与H2,t的第j个特征向量相乘,加权求和的结果即为采用注意力机制之后得到的向量r2,公式如下所示:
7)同理,利用t2,avg与H2,c的第i个行向量通过交互学习,得到向量r3,原理与4)—6)类似,这里不再重复,公式如下所示:
其中l、i∈[1:n];
(2-3)第三个通道将Wt与Wc分别输入到LSTM,得到目标词和上下文的隐含状态与其中引入基于欧式距离的注意力机制,充分利用语义信息,得到注意力机制权重矩阵H3,tc,其中通过H3,tc的转置与相乘得到H3,tc与相乘得到其中为上下文对目标词的基于欧式距离注意力机制后的表示,为目标词对上下文的基于欧式距离注意力机制后的表示,将和输入到LSTM,得到隐含状态和其中将进行平均池化得到t3,avg和c3,avg,其中引入交互注意力机制后,得到向量r4与r5,其中
更进一步的,第三个通道进行特征提取获得r4和r5的方法,包括以下步骤:
1)将Wt和Wc分别输入到LSTM中,得到
2)引入基于欧式距离的注意力机制,充分利用语义信息,得到注意力机制权重矩阵H3,tc,计算公式如下所示:
其中为H3,tc中的第i行第j列元素,为上下文特征矩阵中的第i个行向量,为目标特征矩阵中的第j个行向量,维度为d,为两个向量的欧式距离,加1操作是为了防止两个完全一样的向量导致分母为0;其意义为距离较近的两个向量之间相互影响较大,则注意力机制权重较大,反之,距离较远的两个向量之间相互影响较小,则注意力机制权重较小;
3)H3,tc与相乘得到基于欧式距离的注意力机制后的表示公式如下所示:
其中
4)H3,tc与相乘得到基于欧式距离的注意力机制后的表示公式如下所示:
其中
5)将输入到LSTM进一步提取特征,且得到输出为的维度分别与的维度一致;
6)将进行平均池化,得到目标信息的平均池化向量t3,avg,公式如下所示:
其中为矩阵的行向量,i∈[1:n],
7)利用t3,avg与通过交互学习,得到公式如下所示:
其中W3,a为交互学习的参数矩阵,维度为Rd×d,b3,a为偏置项;
8)对每一个进行归一化,得到第j个行向量的注意力机制权重系数αj,公式如下所示:
其中j,k∈[1:m];
9)将αj与第j个行向量相乘,加权求和得到向量r4,公式如下所示:
10)将进行平均池化,得到上下文信息的平均池化向量c3,avg,具体如下公式所示;
其中为矩阵的第j个行向量,j∈[1:m]。
11)同理,利用c3,avg与第i个行向量通过交互学习,得到向量r5,原理与8)—10)类似,这里不再重复,公式如下所示:
其中W3,b为交互学习的参数矩阵,维度是b3,b为偏置项,i,l∈[1:n];
上述的一种基于多通道模型的特定目标情感分析方法,步骤(3)利用向量r1、r2、r3、r4和r5,通过注意力机制的学习,得到r,公式如下所示:
其中rp∈[r1,r2,r3,r4,r5],和为参数向量,cp为注意力机制系数;
最后将r经过全连接层,并使用softmax作为激活函数,得到最终的分类结果。
上述的一种基于多通道模型的特定目标情感分析方法,步骤(4)具体为:用训练好的模型对测试集中每个评论文本的特定目标进行情感分类,得到分类结果,并与测试集本身的标签对比,计算分类准确率。
与现有技术相比,本发明采用三个通道分别进行提取特征,可以获取到更全面的信息,第一个通道是利用分层池化,获取目标词和上下文的表示,即先进行平均池化,再进行最大池化,其中平均池化利用了所有词的特征信息,而最大池化则利用了最突出的特征信息;第二个是交互注意力机制,使得目标信息与上下文信息进可以交互学习,从而获得交互信息;第三个通道是基于欧式距离的注意力机制,充分利用语义信息,即语义较近的词语彼此相互影响较大,分配的权重较大,反之,语义较远的词语彼此相互影响较小,分配的权重较小。本发明能够准确地挖掘评论中特定目标的情感极性,适用于各种领域评论的特定目标情感分类,一方面可以使潜在消费者在购买商品前了解商品的评价信息,另一方面可以使商家更加充分地了解消费者的意见,从而提高服务质量,具有极大的实用价值。
附图说明
图1是实例中的流程示意图。
图2是第一个通道模型图。
图3是第二个通道模型图。
图4是第三个通道模型图
图5是整体模型图。
图6是分层池化图。
具体实施方式
以下结合附图和实例对本发明的实施方式作进一步说明,但本发明的实施和保护不限于此。
本实例的一种基于多通道的特定目标情感分析方法,以SemEval 2014评测数据集为例,主要包括以下部分:(1)获取SemEval 2014评测数据,对评测数据集进行预处理,并将其划分成训练集、测试集;(2)预处理后的数据分别输入到三个通道进行特征提取后获得向量r1、r2、r3、r4和r5;(3)利用向量r1、r2、r3、r4和r5,通过注意力机制的学习,得到分类结果;(4)用训练好的模型对测试集中每个评论文本的特定目标进行情感分类,并与测试集本身的标签对比,计算分类准确率。流程示意图如图1所示,整体模型图如图5所示。下面将进行详细的介绍。
其包括以下步骤:
(1)对特定目标情感分析的测评数据进行预处理,包括获得评论文本、特定目标及其情感极性,处理后的数据集格式为第一行原始文本,特定目标由“aspect_term”代替,例如“aspect_term is super fast,around anywhere from 35seconds to 1minute.”特定目标Boot time被替代;第二行为特定目标;第三行为特定目标的情感极性;然后按3:1的比例将测评数据随机划分成训练集和测试集,并保证两者中积极和消极的评论数基本平衡;
(2)使用斯坦福大学公开的300维glove词向量与输入文本中的词进行匹配,使得文本中的每个词都能对应得到300维向量,对于没有匹配到的词,则在[-0.1,0.1]中随机取值后得到词向量,作为模型的输入并分别进入到三个通道;
其中三个通道分别为:
(2-1)第一个通道是将上下文表示Wc与目标表示Wt进行直接拼接,得到矩阵W1,tc,其中m,n分别是目标词和上下文中词的个数,dc是词向量维度,将W1,tc通过LSTM得到隐含状态H1,tc,其中d为LSTM隐藏层的维度,然后对H1,tc进行分层池化操作,得到向量r1,
更进一步的,第一个通道进行特征提取获得向量r1的方法,包括以下步骤:
1)将Wt与Wc进行直接拼接,得到矩阵W1,tc;
2)LSTM网络中分别设计了输入门、遗忘门、输出门来控制信息的输入,保留和输出。其前向传播公式如下所示:
it=σWi·[ht-1;wt]+bi
ft=σWf·[ht-1;wt]+bf
ot=σWo·[ht-1;wt]+bo
gt=tanh Wr·[ht-1;wt]+br
ct=it⊙gt+ft⊙ct-1
ht=ot⊙tan⊙h ct
其中it,ft,ot分别表示的是输入门,遗忘门,输出门。ht-1为上个细胞单元的输出,gt为当前细胞输入的状态,ct和ht分别为当前细胞状态和隐藏层输出,wt为t时刻的输入向量,Wi,Wf,Wo,Wr为参数矩阵,bi,bf,bo,br为偏置,⊙为点乘,σ为softmax激活函数;
将拼接后的矩阵作为LSTM的输入,得到隐含状态
3)进行分层池化,即先进行平均池化,然后再进行最大池化,在实验数据集SemEval2014Task4中,使用的平均池化窗口为8×d,然后得到平均池化后的矩阵,对整个矩阵采用最大池化得到向量r1;
(2-2)第二个通道是将Wt与Wc分别输入到LSTM,得到目标词和上下文的隐含状态H2,t和H2,c,其中将H2,t和H2,c分别进行平均池化操作,得到目标词和上下文的平均池化向量t2,avg和c2,avg,然后引入交互注意力机制,使目标信息与上下文信息充分交互,得到向量r3,
更进一步的,第二个通道进行特征提取获得向量r2和向量r3的方法,包括以下步骤:
1)将Wt与Wc分别输入到LSTM,得到目标词和上下文的隐含状态H2,t和H2,c;
2)将H2,c进行平均池化,如下公式所示,得到上下文的平均池化向量c2,avg;
其中是H2,c中的行向量,i∈[1,n],因此c2,avg包含了H2,c的信息;
3)将H2,t进行平均池化,如下公式所示,得到目标词的平均池化向量t2,avg;
其中是H2,t中的行向量,j∈[1,m],因此t2,avg包含了H2,t的信息;
4)利用c2,avg与H2,t的第j个行向量通过交互学习,得到公式如下所示:
其中W2,b是交互学习的参数矩阵,维度为 是H2,t的一个行向量,为c2,avg的转置,b2,b为偏置;
5)对每个进行归一化,求得对应H2,t第j个行向量的系数βj,公式如下所示:
其中k、j∈[1:m];
6)将βj与H2,t的第j个特征向量相乘,加权求和的结果即为采用注意力机制之后得到的向量r2,公式如下所示:
7)同理,利用t2,avg与H2,c的第i个行向量通过交互学习,得到向量r3,原理与4)—6)类似,这里不再重复,公式如下所示:
其中l、i∈[1:n];
(2-3)第三个通道将Wt与Wc分别输入到LSTM,得到目标词和上下文的隐含状态与其中引入基于欧式距离的注意力机制,充分利用语义信息,得到注意力机制权重矩阵H3,tc,其中通过H3,tc的转置与相乘得到H3 2 ,t,H3,tc与相乘得到其中为上下文对目标词的基于欧式距离注意力机制后的表示,为目标词对上下文的基于欧式距离注意力机制后的表示,将和输入到LSTM,得到隐含状态和其中将进行平均池化得到t3,avg和c3,avg,其中引入交互注意力机制后,得到向量r4与r5,其中
更进一步的,第三个通道进行特征提取获得r4和r5的方法,包括以下步骤:
1)将Wt和Wc分别输入到LSTM中,得到
2)引入基于欧式距离的注意力机制,充分利用语义信息,得到注意力机制权重矩阵H3,tc,计算公式如下所示:
其中为H3,tc中的第i行第j列元素,为上下文特征矩阵中的第i个行向量,为目标特征矩阵中的第j个行向量,维度为d,为两个向量的欧式距离,加1操作是为了防止两个完全一样的向量导致分母为0;其意义为距离较近的两个向量之间相互影响较大,则注意力机制权重较大,反之,距离较远的两个向量之间相互影响较小,则注意力机制权重较小;
3)H3,tc与相乘得到基于欧式距离的注意力机制后的表示公式如下所示:
其中
4)H3,tc与相乘得到基于欧式距离的注意力机制后的表示公式如下所示:
其中
5)将输入到LSTM进一步提取特征,且得到输出为的维度分别与的维度一致;
6)将进行平均池化,得到目标信息的平均池化向量t3,avg,公式如下所示:
其中为矩阵的行向量,i∈[1:n],
7)利用t3,avg与通过交互学习,得到公式如下所示:
其中W3,a为交互学习的参数矩阵,维度为Rd×d,b3,a为偏置项;
8)对每一个进行归一化,得到第j个行向量的注意力机制权重系数αj,公式如下所示:
其中j,k∈[1:m];
9)将αj与第j个行向量相乘,加权求和得到向量r4,公式如下所示:
10)将进行平均池化,得到上下文信息的平均池化向量c3,avg,具体如下公式所示;
其中为矩阵的第j个行向量,j∈[1:m]。
11)同理,利用c3,avg与第i个行向量通过交互学习,得到向量r5,原理与8)—10)类似,这里不再重复,公式如下所示:
其中W3,b为交互学习的参数矩阵,维度是b3,b为偏置项,i,l∈[1:n];
(3)利用向量r1、r2、r3、r4和r5,通过注意力机制的学习,得到r,公式如下所示:
其中rp∈[r1,r2,r3,r4,r5],和为参数向量,cp为注意力机制系数;
最后将r经过全连接层,并使用softmax作为激活函数,得到最终的分类结果。
(4)用训练好的模型对测试集中每个评论文本的特定目标进行情感分类,得到分类结果,并与测试集本身的标签对比,计算分类准确率。
针对本发明方法进行实验论证,具体包括:
1.标准数据集:
本发明使用SemEval2014Task4中的laptop和restaurant数据集作为标准数据集,验证基于多通道模型的特定目标情感分析方法的有效性,laptop数据集包括3012个句子,其中划分为2358个训练语句和654个测试语句;restaurant包括4722个句子,其中划分为3602个训练语句和1120个测试语句。其中两个数据集都含有积极、消极、中立和矛盾的情感标签。由于本模型进行主要是三分类,没有考虑少量的矛盾句子,因此预处理时删除了标签为矛盾的句子。其中laptop训练集中含有45个标签为conflict的句子,处理后laptop训练集中包括2313个句子,laptop测试集中含有16个标签为conflict的句子,处理后laptop训练集中包括638个句子。restaurant训练集中含有0个标签为conflict的句子,不做处理,仍有3602个训练语句,测试集中含有0个标签为conflict的句子,不做处理,仍有1120个测试语句。表一是两个数据集的说明。
Dataset |
Neg |
Pos |
Neu |
total |
Laptop-train |
866 |
987 |
460 |
2313 |
Laptop-test |
128 |
341 |
169 |
638 |
Restaurant-train |
805 |
2164 |
633 |
3602 |
Restaurant-test |
728 |
196 |
196 |
1120 |
表1数据集说明
词向量的表示,采用的是斯坦福发布的6B glove词向量,维度为300,文本大小为989M。
2.评价指标:
本发明使用目前文本情感分类领域常用的评价指标:平均分类准确率(AverageAccuracy)作为本实施例的评价指标,其计算公式如下所示:
其中,TP(True Positive)表示分类模型正确预测的积极样本数,TN(TrueNegative)表示分类模型正确预测的消极样本数,FP(False Positive)表示分类模型错误预测的积极样本数,FN(False Negative)表示分类模型错误预测的消极样本数。
3.实验结果
为了验证本发明所提方法的有效性,本发明在实验方案中利用了经典的情感分类算法作为对比,最终验证了基于多通道模型的特定目标情感分析方法的有效性。在数据集SemEval2014Task4上本专利模型与几种经典模型三分类的对比情况如表2所示,其中本发明MCM取得了最好的实验结果。
表2实验结果
4.超参数设置
在实验中,所有的词向量都是来自斯坦福大学公布的300维6B的GloVe向量,对于未登录词或者GloVe词典中没有出现的过的词,则是在[-0.1,0.1]中随机取值。所有的参数矩阵数值也是在[-0.1,0.1]中随机取值,所有的偏置的初始值赋为0,LSTM的隐藏层的维度设置为150,学习率设置为0.01,L2正则化设置为0.00001,丢弃率设置为0.5,另外在分层池化的过程中,先进行平均池化,池化的窗口大小是8*1,然后对得到的矩阵取最大池化,池化窗口是所得矩阵的行数*1。
5.模型对比
为了更全面的评估本专利的模型,我们与一些经典模型进行对比,下面先介绍一下各模型。
(1)Majority:把句子中最大概率的极性当成特定目标的情感极性。
(2)LSTM:利用单层的LSTM,对特定目标进行情感分类。
(3)TD-LSTM:用两个LSTM网络分别对目标词、目标词上文、目标词下文进行建模,从而得到目标词的上下文信息。
(4)AT-LSTM:首先用LSTM对句子进行建模,将LSTM的隐藏层输出与目标词向量进行拼接,再通过注意力机制得到最终的特征表示。
(5)ATAE-LSTM:ATAE-LSTM是AT-LSTM的进一步扩展,区别是在LSTM句子进行建模之前,上下文词向量与目标词向量进行拼接。
实验结果如表2所示,Majority的结果最差,在res和lap数据集上的准确率分别为53.5%和65.0%;所有其他的模型都采用了LSTM的模型,结果都好于Majority,其中仅仅采用LSTM网络的模型是剩余模型中表现最差的,其在res和lap数据集上的准确分别为74.3%和66.5%,原因是忽略了目标属性信息;TD-LSTM模型,使用了目标属性信息,其在res和lap数据集上的准确率分别高于LSTM1.3%、2.4%,可见效果有了明显的提升,表明了目标信息对分类结果的重要贡献,TD-LSTM虽然考虑了目标信息,但是却同等对待每一个词在最终结果中起到的作用,不能识别出贡献程度大的词语,所以相比引入了注意力机制的AE-LST和ATAE-LSTM模型,其准确率结果分别在res数据集低了0.6%、1.6%,在lap数据集上低了0.8%、0.6%。MCM模型在ATAE-LSTM的基础上,添加了分层池化、交互注意力机制、基于欧式距离的注意力机制,从而获得在res数据集79.1%、lap数据集71.3%的最好结果。