CN112232087B - 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 - Google Patents

一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 Download PDF

Info

Publication number
CN112232087B
CN112232087B CN202011125520.7A CN202011125520A CN112232087B CN 112232087 B CN112232087 B CN 112232087B CN 202011125520 A CN202011125520 A CN 202011125520A CN 112232087 B CN112232087 B CN 112232087B
Authority
CN
China
Prior art keywords
context
specific aspect
attention
word
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011125520.7A
Other languages
English (en)
Other versions
CN112232087A (zh
Inventor
孙佳慧
韩萍
程争
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN202011125520.7A priority Critical patent/CN112232087B/zh
Publication of CN112232087A publication Critical patent/CN112232087A/zh
Application granted granted Critical
Publication of CN112232087B publication Critical patent/CN112232087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于Transformer的多粒度注意力模型的特定方面情感分析方法。该方法利用Transformer编码器模块和Tree Transformer编码器模块对特定方面和上下文进行语义建模,并结合注意力机制进行两部分交互特征的学习,进而获取有利于训练情感分析模型的特征。本发明在特征提取上除了获取词语级特征,还有效获取了体现语言层次结构及句法信息的短语级特征,此外,为避免单一池化造成部分有用信息的损失,本发明采用双池化操作。通过实验证明了该发明所述方法提高了特定方面情感极性判别的准确率。

Description

一种基于Transformer的多粒度注意力模型的特定方面情感 分析方法
技术领域
本发明属于自然语言处理中的文本情感分析技术领域,特别是涉及一种基于Transformer的多粒度注意力模型的特定方面情感分析方法。
背景技术
情感分析是自然语言处理中的重要任务之一,其通过计算机辅助算法分析相关文本,进而获取人们对于产品、服务、事件等对象所持有的意见、评价等主观感受。除了给出总体评价外,人们通常也会从实体的多个角度进行评价,导致一段语句中包含多个情感极性,若采用传统情感分析方法对整个句子进行情感极性分类,可能会使结果出现偏差。鉴于此,研究人员提出特定方面情感分析方法,其针对评论语句中各特定方面分别判定情感极性,逐渐成为情感分析的关键任务之一。例如,在关于餐厅的评论中“The food wasdefinitely good,but the price is too high.”,两个特定方面词“food”和“price”的情感极性分别为积极和消极。
近年来,深度学习方法特别是神经网络模型在自然语言处理任务中不断取得新的进展,在特定方面情感分析任务中也具有很好的表现。卷积神经网络(convolutionalneural network,CNN)在卷积层利用窗口一定的滤波器获取特征,但该模型只能获取窗口内的单词间依赖关系,无法获取整个文本的结构信息。循环神经网络(recurrent neuralnetwork,RNN)及其衍生模型,如长短时记忆网络(long short-term memory,LSTM)和GRU(gated recurrent units)将句子视为单词序列,获取隐含状态层的句法层面有效特征,在特定方面情感分析任务中获得了较好的结果,但是这类模型所采用的长短时记忆机制会导致情感语义的叠加,当句子中存在多个情感极性不一致的特定方面时,模型的分辨率会受到影响,并且句子中单词间的依赖程度会随着距离的增加而减弱。由于注意力机制可以有效地关注重点信息,因此将CNN或RNN等神经网络与注意力机制相结合,可使模型重点关注上下文中对判定相应特定方面情感极性的重要特征。这类模型虽然能够在训练时高度关注某些重要特征,但其通常使用的单一注意力模式,导致模型无法对特定方面与上下文间的交互关系进行深层次抽取。此外,该类模型还存两个问题:其一,在特定方面不是单一词语而是短语时,该类模型通常将几个词语的平均向量作为特定方面的表示,该方法虽然较为简单,但无法充分体现短语中每个词的特征,造成有用信息的损失;其二,在进一步获取特定方面与上下文间的交互特征时,该类模型通常将特定方面/上下文特征矩阵进行平均池化后分别学习与上下文/特定方面中每个词的注意力权重,但使用单一池化会造成部分有用信息的损失。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于Transformer的多粒度注意力模型的特定方面情感分析方法。
为了达到上述目的,本发明提供的基于Transformer的多粒度注意力模型的特定方面极性判别方法包括按顺序进行的下列步骤:
(1)利用向量空间模型,将待判定的上下文及其对应的特定方面用特征矩阵表示;
(2)将步骤(1)中获得的上下文和特定方面的特征矩阵作为输入,采用Transformer编码器模块分别获取上下文和特定方面的词语级特征;
(3)将步骤(1)中获得的上下文的特征矩阵作为输入,利用Tree Transformer编码器模块获取上下文的短语级特征;
(4)根据步骤(2)中获得的上下文和特定方面的词语级特征以及步骤(3)中获得的上下文的短语级特征,通过注意力机制进一步获取特定方面与上下文间的相关联注意力权重;
(5)将步骤(4)中获得的相关联注意力权重组合后作为训练特定方面情感极性分类器的最终特征;
(6)利用步骤(5)中得到的最终特征训练特定方面情感极性分类器,得到正向、负向或中性情感极性概率;
(7)利用步骤(6)中训练特定方面情感极性分类器的准确率,选取最优的Transformer和Tree Transformer编码器模块层数。
在步骤(1)中,所述的利用向量空间模型,将待判定的上下文及其对应的特定方面用特征矩阵表示的方法是:利用斯坦福大学公开的300维Glove词向量模型,将待判定的上下文及其对应的特定方面中的每个词分别与Glove词向量模型进行匹配,进而使得上下文及其对应的特定方面中的每个词都能以300维向量表示,对于无法匹配的词,在[-0.1,0.1]中随机选择数值后得到300维向量;然后分别将上下文和特定方面包含的词向量分别进行拼接,获得上下文的特征矩阵
Figure BDA0002733497210000024
和特定方面的特征矩阵
Figure BDA0002733497210000025
在步骤(2)中,所述将步骤(1)中获得的上下文和特定方面的特征矩阵作为输入,采用Transformer编码器模块分别获取上下文和特定方面的词语级特征的方法是:分别将上下文的特征矩阵
Figure BDA0002733497210000026
和特定方面的特征矩阵
Figure BDA0002733497210000027
输入到Transformer编码器模块,分别计算得到上下文的词语级特征
Figure BDA0002733497210000021
其中
Figure BDA0002733497210000022
和特定方面的词语级特征
Figure BDA0002733497210000023
在步骤(3)中,所述将步骤(1)中获得的上下文的特征矩阵作为输入,利用TreeTransformer编码器模块获取上下文的短语级特征的方法是:将上下文的特征矩阵
Figure BDA0002733497210000034
输入到Tree Transformer编码器模块,计算得到上下文的短语级特征
Figure BDA0002733497210000031
其中
Figure BDA0002733497210000032
在步骤(4)中,所述根据步骤(2)中获得的上下文和特定方面的词语级特征以及步骤(3)中获得的上下文的短语级特征,通过注意力机制进一步获取特定方面与上下文间的相关联注意力权重的方法是:首先计算特定方面对于上下文的注意力权重,具体包括特定方面的平均池化特征相对于上下文的词语级和短语级特征的注意力权重和特定方面的最大池化特征相对于上下文的词语级和短语级特征的注意力权重两部分;然后计算上下文相对于特定方面的注意力权重,具体包括上下文的词语级和短语级平均池化特征相对于特定方面特征的注意力权重和上下文的词语级和短语级最大池化特征相对于特定方面特征的注意力权重两部分。
在步骤(5)中,所述将步骤(4)中获得的相关联注意力权重组合后作为训练特定方面情感极性分类器的最终特征的方法是:
将步骤(4)中获得的相关联注意力权重进行拼接,得到最终特征M∈R8dh
Figure BDA0002733497210000033
在步骤(6)中,所述利用步骤(5)中得到的最终特征训练特定方面情感极性分类器,得到正向、负向或中性情感极性概率的方法是:
将上述最终特征M经过全连接层后输入到softmax分类器中,从而得到正向、负向或中性情感极性概率。
在步骤(7)中,所述的利用步骤(6)中训练特定方面情感极性分类器的准确率,选取最优的Transformer和Tree Transformer编码器模块层数的方法是:首先选取最优的Transformer编码器模块层数,即先将基于Transformer的多粒度注意力模型中对上下文进行短语级特征提取的Tree Transformer编码器模块部分省略,只保留对特定方面和上下文特征提取的Transformer编码器模块,依次在层数为1-6上进行实验验证,将此时的特定方面情感极性分类器的准确率最高的层数确定为最优的Transformer编码器模块层数;然后选取最优的Tree Transformer编码器模块层数,即将基于Transformer的多粒度注意力模型中Transformer编码器模块层数设为最优层数后,将Tree Transformer编码器模块层数设定为1-6依次进行实验,将此时特定方面情感极性分类器的最高准确率的层数确定为最优的Tree Transformer编码器模块层数。
本发明提供的基于Transformer的多粒度注意力模型(Transformer basedmulti-grained attention network,T-MGAN)的特定方面情感分析方法具有以下优点:(1)本发明利用Transformer编码器模块分别学习特定方面和上下文的词语级特征,并进一步利用Tree Transformer编码器模块获取上下文的短语级特征,可避免CNN或RNN结合单一的注意力机制导致提取的文本特征不够全面的问题;(2)将特定方面中所有词均与上下文特征进行注意力计算,以获取包含情感特征权重的表示,避免仅使用特定方面的平均向量作为特征表示而造成的信息损失;(3)采用双池化操作,可避免单一池化造成部分有用信息的损失。
附图说明
图1是本发明提供基于Transformer的多粒度注意力模型的特定方面情感分析方法流程图。
图2为本发明中基于Transformer的多粒度注意力模型结构图。
图3为本发明中Transformer编码器模块结构图。
图4为本发明中Transformer编码器模块不同层数的实验准确率曲线图。
图5为本发明中Tree Transformer编码器模块结构图。
图6为本发明中Tree Transformer编码器模块不同层数的实验准确率曲线图。
具体实施方式
下面结合附图和具体实施案例对本发明提供的基于Transformer的多粒度注意力模型的情感分析方法进行详细说明。
如图1所示,本发明提供的基于Transformer的多粒度注意力模型的特定方面情感分析方法包括按顺序进行的下列步骤:
(1)利用向量空间模型,将待判定的上下文及其对应的特定方面用特征矩阵表示;
具体方法是利用斯坦福大学公开的300维Glove词向量模型,将待判定的上下文及其对应的特定方面中的每个词分别与Glove词向量模型进行匹配,进而使得上下文及其对应的特定方面中的每个词都能以300维向量表示,对于无法匹配的词,在[-0.1,0.1]中随机选择数值后得到300维向量;然后分别将上下文和特定方面包含的词向量分别进行拼接,获得上下文的特征矩阵
Figure BDA0002733497210000041
和特定方面的特征矩阵
Figure BDA0002733497210000042
(2)将步骤(1)中获得的上下文和特定方面的特征矩阵作为输入,采用Transformer编码器模块分别获取上下文和特定方面的词语级特征;
(2-1)利用Transformer编码器模块获取上下文的词语级特征:
随机初始化三个线性变换矩阵
Figure BDA0002733497210000051
并分别与输入的上下文的特征矩阵
Figure BDA00027334972100000511
相乘,得到查询矩阵Qc=(qc 1,...,qc N)、键矩阵Kc=(kc 1,...,kc N)和值矩阵Vc=(vc 1,...,vc N),其中
Figure BDA0002733497210000052
分别为查询向量、键向量和值向量,dh为隐含维度(hidden dimension)。
根据特定方面情感分析任务的实际需求,仅使用如图2所示的基于Transformer的多粒度注意力(T-MGAN)模型中的Transformer编码器模块,Transformer编码器模块如图3(a)所示,该部块由n个相同的层组成,每个层由两个子层组成,分别是多头注意力层(multi-head attention layer)和前馈网络层(feed-forward),并且两个子层后面都加有残差连接(residual connection)和正则化(normalization)操作。其中多头注意力由多个放缩点积注意力堆叠(scaled dot-product attention)得到,如图3(b)和(c)所示。
Transformer编码器模块中的关键步骤是放缩点积注意力(scaled dot-productattention),首先将每个查询向量qc i与每个键向量进行相似度计算而得到相似度值,然后对相似度值进行归一化处理得到权重,最后将权重与上下文中所有词的值(value)相乘,得到放缩点积注意力(scaled dot-product attention)的输出:
Figure BDA0002733497210000053
其中,比例因子d(scaling factor)通常设置为键矩阵中向量维度的平方根
Figure BDA0002733497210000054
将查询、键和值矩阵采用不同的参数进行h次线性变换后,通过多次不同组的学习获取更丰富的特征,多头自注意力机制的输出为:
Figure BDA0002733497210000055
其中,
Figure BDA0002733497210000056
为拼接操作,
Figure BDA0002733497210000057
为权重矩阵。最终计算得到上下文的词语级特征
Figure BDA0002733497210000058
(2-2)利用Transformer编码器模块获取特定方面的词语级特征:
随机初始化三个线性变换矩阵
Figure BDA0002733497210000059
并分别与输入的特定方面的特征矩阵
Figure BDA00027334972100000512
相乘,得到查询矩阵Qa=(qa 1,...,qa M)、键矩阵Ka=(ka 1,...,ka M)和值矩阵Va=(va 1,...,va M),其中
Figure BDA00027334972100000510
分别为查询向量、键向量和值向量,dh为隐含维度(hidden dimension)。
下面进行放缩点积注意力(scaled dot-product attention)计算,首先将每个查询向量qa i与每个键向量进行相似度计算而得到相似度值,然后对相似度值进行归一化处理得到权重,最后将权重与特定方面中所有词的值(value)相乘,得到放缩点积注意力(scaled dot-product attention)的输出:
Figure BDA0002733497210000061
其中,比例因子d(scaling factor)通常设置为键矩阵中向量维度的平方根
Figure BDA0002733497210000062
将查询、键和值矩阵采用不同的参数进行h次线性变换后,通过多次不同组的学习获取更丰富的特征,多头自注意力机制的输出为:
Figure BDA0002733497210000063
其中,
Figure BDA0002733497210000064
为拼接操作,
Figure BDA0002733497210000065
为权重矩阵。最终计算得到特定方面的词语级特征
Figure BDA0002733497210000066
(3)将步骤(1)中获得的上下文的特征矩阵作为输入,利用Tree Transformer编码器模块获取上下文的短语级特征;
由于上下文中通常包含较多的词语以及较为复杂的语法成分和句法结构,因此本发明使用Tree Transformer编码器模块进一步获取上下文的短语级特征,该模块只需进行递归遍历,就可以捕获上下文中短语语法信息以及词间的依赖关系。Tree Transformer编码器模型的结构如图5所示,该模型在多头注意力结构的基础上新增加了成分注意力(Constituent Attention)模块,用来计算一定跨度内的词语能否构成一个短语。若两个词间计算得到的相关联概率值较大,则可认为该两个词构成了一个短语。Tree Transformer编码器模块具有多层结构,每升高一层会有部分子短语进行结合,逐渐将几个较小的短语成分从较低层附加到较高层。Tree Transformer编码器模块的关键部分是计算出成分先验矩阵(Constituent Priors)C,进而得到成分注意力概率矩阵E:
Figure BDA0002733497210000067
其中,
Figure BDA0002733497210000068
为对应元素相乘(element-wise multiplication),C∈RN×N,N为输入上下文中包含的词个数,Eij为位置i关注(attend to)位置j的概率,Qc=(qc 1,...,qc N)为上下文的查询矩阵,Kc=(kc 1,...,kc N)为上下文的键矩阵。
每一层的成分先验矩阵C不同,但同一层中多头注意力的所有头分享同一个成分先验矩阵C,其通过预测两个相邻部分属于同一短语的概率得到,对于Tree Transformer编码器模型的第l层,定义一个序列a={al 1,...,al i,...,al N},其中al i是上下文中两个词wi与wj属于同一成分的概率,矩阵Cl由词wi与wj间的所有概率al i≤k<j根据下式计算得到:
Figure BDA0002733497210000071
上下文中两部分在低层属于同一短语,则在高层会有更大的概率属于一个更长的短语,所以第l层的概率
Figure BDA00027334972100000710
不仅与当前层的概率有关,还与上一层概率有关。具体计算方法如下:
Figure BDA0002733497210000072
其中,
Figure BDA0002733497210000073
其中,pk,k+1,pk,k-1=softmax(sk,k+1,sk,k-1)
其中,
Figure BDA0002733497210000074
将Tree Transformer编码器模块计算得到的成分注意力概率矩阵E与放缩点积注意力(scaled dot-product attention)的输出进行如下计算:
Figure BDA0002733497210000075
Figure BDA0002733497210000076
最终得到上下文的短语级特征
Figure BDA0002733497210000077
(4)根据步骤(2)中获得的上下文和特定方面的词语级特征以及步骤(3)中获得的上下文的短语级特征,通过注意力机制进一步获取特定方面与上下文间的相关联注意力权重;
由于单一池化会造成一部分特征的损失,因此本发明采用双池化方法,同时获得平均池化特征和最大池化特征,并将双池化后的特定方面特征分别与步骤(2)中获得的上下文的词语级特征和步骤(3)中获得的短语级特征进行注意力计算,以及将双池化后的上下文的短语级和词语级特征分别与特定方面特征进行注意力计算,从而更全面地获取能够判定特定方面情感极性的相关联注意力权重;
(4-1)特定方面相对于上下文的注意力权重计算:
本步骤分别计算上下文的词语级特征
Figure BDA0002733497210000078
和短语级特征
Figure BDA0002733497210000079
对特定方面的平均池化特征和最大池化特征的注意力权重,若计算得到的注意力权重大,说明该特征与特定方面的语义关系更紧密。特定方面的平均池化特征为
Figure BDA0002733497210000081
最大池化特征为
Figure BDA0002733497210000082
下面进行分步计算:
(4-1-1)特定方面的平均池化特征相对于上下文的词语级和短语级特征的注意力权重:
根据公式
Figure BDA0002733497210000083
计算得到特定方面的平均池化特征
Figure BDA0002733497210000084
相对于上下文的词语级特征的注意力权重
Figure BDA0002733497210000085
其中
Figure BDA0002733497210000086
为随机初始化的注意力权重参数,
Figure BDA0002733497210000087
为随机初始化的偏置向量;
根据公式
Figure BDA0002733497210000088
计算得到特定方面的平均池化特征
Figure BDA0002733497210000089
相对于上下文的短语级特征的注意力权重
Figure BDA00027334972100000810
其中
Figure BDA00027334972100000811
Figure BDA00027334972100000812
为随机初始化的注意力权重参数,
Figure BDA00027334972100000813
为随机初始化的偏置向量;
将上述两个注意力权重分别与上下文的词语级和短语级特征加权输出,得到平均池化的特定方面特征相对于上下文的词语级和短语级特征的注意力权重:
Figure BDA00027334972100000814
Figure BDA00027334972100000815
(4-1-2)特定方面的最大池化特征相对于上下文的词语级和短语级特征的注意力权重:
根据公式
Figure BDA00027334972100000816
计算得到特定方面的最大池化特征
Figure BDA00027334972100000817
与上下文的词语级特征的注意力权重
Figure BDA00027334972100000818
其中,
Figure BDA00027334972100000819
为随机初始化的注意力权重参数,
Figure BDA00027334972100000820
为随机初始化的偏置向量;
根据公式
Figure BDA00027334972100000821
计算得到特定方面的最大池化特征
Figure BDA00027334972100000822
与上下文的短语级特征的注意力权重
Figure BDA00027334972100000823
其中
Figure BDA00027334972100000824
Figure BDA00027334972100000825
为随机初始化的注意力权重参数,
Figure BDA00027334972100000826
为随机初始化的偏置向量;
将上述两个注意力权重分别与上下文的词语级和短语级特征加权输出,得到最大池化的特定方面特征相对于上下文的词语级和短语级特征的注意力权重:
Figure BDA0002733497210000091
Figure BDA0002733497210000092
(4-2)上下文相对于特定方面的注意力权重计算:
本步骤计算特定方面中每个特征相对于上下文的词语级和短语级特征的注意力权重。上下文的词语级特征和短语级特征的平均池化特征分别为
Figure BDA0002733497210000093
Figure BDA0002733497210000094
最大池化特征分别为
Figure BDA0002733497210000095
Figure BDA0002733497210000096
(4-2-1)上下文的词语级和短语级平均池化特征相对于特定方面特征的注意力权重:
根据公式
Figure BDA0002733497210000097
计算得到特定方面的平均池化特征
Figure BDA0002733497210000098
与上下文的词语级特征的注意力权重
Figure BDA0002733497210000099
其中,
Figure BDA00027334972100000910
为随机初始化的注意力权重参数,
Figure BDA00027334972100000911
为随机初始化的偏置向量;
根据公式
Figure BDA00027334972100000912
计算得到特定方面的平均池化特征
Figure BDA00027334972100000913
与上下文的短语级特征的注意力权重,其中,
Figure BDA00027334972100000914
为随机初始化的注意力权重参数,
Figure BDA00027334972100000915
为随机初始化的偏置向量;
将上述两个注意力权重分别与特定方面特征加权输出,得到上下文的词语级和短语级平均池化特征相对于特定方面特征的注意力权重:
Figure BDA00027334972100000916
Figure BDA00027334972100000917
(4-2-2)上下文的词语级和短语级最大池化特征相对于特定方面特征的注意力权重:
根据公式
Figure BDA00027334972100000918
计算得到特定方面的最大池化特征
Figure BDA00027334972100000919
与上下文的词语级特征的注意力权重
Figure BDA00027334972100000920
其中,
Figure BDA00027334972100000921
为随机初始化的注意力权重参数,
Figure BDA00027334972100000922
为随机初始化的偏置向量;
根据公式
Figure BDA00027334972100000923
计算得到特定方面的最大池化特征
Figure BDA00027334972100000924
与上下文的短语级特征的注意力权重,其中,
Figure BDA0002733497210000101
为随机初始化的注意力权重参数,
Figure BDA0002733497210000102
为随机初始化的偏置向量;
将上述两个注意力权重分别与特定方面特征加权输出,得到上下文的词语级和短语级最大池化特征相对于特定方面特征的注意力权重:
Figure BDA0002733497210000103
Figure BDA0002733497210000104
(5)将步骤(4)中获得的相关联注意力权重组合后作为训练特定方面情感极性分类器的最终特征;
将步骤(4)中获得的相关联注意力权重进行拼接,得到最终特征
Figure BDA0002733497210000105
Figure BDA0002733497210000106
(6)利用步骤(5)中得到的最终特征训练特定方面情感极性分类器,得到正向、负向或中性情感极性概率;
将上述最终特征M经过全连接层后输入到softmax分类器中,从而得到正向、负向或中性情感极性概率:
p=softmax(Wp×M+bp)
其中,
Figure BDA0002733497210000107
为全连接层权重矩阵,bp∈RC为全连接层偏置向量,设定C=3为方面情感极性的类别数量。实验中,模型通过反向传播最小化交叉熵来调整模型参数,优化网络模型的分类性能,交叉熵为:
Figure BDA0002733497210000108
其中,D为训练集的数量,C为数据的类别数,y为待判别的特定方面的真实类别,p为待判别的特定方面的预测值。λ||θ||2为交叉熵正则项。
(7)根据步骤(6)训练特定方面情感分类器的准确率,选取最优的Transformer和Tree Transformer编码器模块层数:
为选取最优的Transformer编码器模块层数,先将T-MGAN模型中对上下文进行短语级特征提取的Tree Transformer编码器模块部分省略,只保留特定方面和上下文特征提取的Transformer编码器模块,依次在层数为1-6上进行实验验证,结果如图4所示。实验结果呈现的规律与我们的经验基本一致,当层数过少时模型的特征提取还不够完善,所以随着层数的增多,模型学习到的有效特征增多,实验准确率逐步提高,当层数超过一定数量时,模型参数过多使得模型有过拟合的风险,实验准确率有所降低。当层数为3时,笔记本电脑(Laptop)和餐厅(Restaurant)数据集准确率达到最高,分别为73.15%和80.10%。而在层数为2时,推特(Twitter)数据集准确率为70.03%,比层数为3的结果高0.07%,考虑其他两个数据集在层数为3时准确率较层数为2的结果提升较多,所以选择Transformer编码器模块层数为3。
为选取最优的Tree Transformer编码器模块层数,本部分实验将T-MGAN模型中的Transformer编码器模块层数设为3,并将Tree Transformer编码器模块层数设定为1-6依次进行实验,结果如图6所示。从实验结果中可以看出,当层数为1时,实验结果略高于没有加入Tree Transformer编码器模块的结果,说明该模块确实能够学习到一些其他的重要特征。当层数为3时,该模块学习到了更充分的短语级特征,使得该模块的准确率进一步提升,达到该模块的最高准确率。
为验证本发明的有效性,本发明人采用特定方面情感分析任务广泛使用的公开数据集进行测试,分别为SemEval2014数据集和推特(Twitter)数据集。其中,SemEval2014数据集是语义测评比赛任务是数据集,包括笔记本电脑(Laptop)和餐厅(Restaurant)2个领域的用户评论。以上数据样本的情感极性分为积极、消极和中性。表1为本发明实验数据集使用的数据情况:
表1实验数据集统计信息
Figure BDA0002733497210000111
实验设置:
采用的词向量初始化方法是查找斯坦福大学公开发布的预训练的维度为300,大小为1.9M的Glove词向量词典,未登录词使用均匀分布U(-0.01,0.01)来随机初始化。隐含维度均设置为300,Transformer编码器模块和Tree Transformer编码器模块的线性变换次数为3。为防止过拟合,将L2正则项系数设置为0.001,随机失活率(dropout rate)设置为0.5。采用学习率为0.01的Adam优化器来训练模型,模型迭代次数(epoch)为10,batch size为64。
对比实验:
1)CNN.该模型是基础的卷积神经网络模型,利用卷积神经网络获取文本高层特征后训练情感极性分类模型。
2)ATT-CNN.该模型将注意力机制融合到卷积神经网络中,并将提取的高层特征训练情感极性分类模型。
3)LSTM.该模型是基础的长短时记忆网络,将该网络最后一层的隐含状态作为句子的高层表示特征,输入到分类器中进行训练。
TD-LSTM.该模型以目标词为中心,将文本拆分为两个部分,分别以正序和倒序输入2个4)
LSTM中,将网络最后的隐含状态进行拼接后预测特定方面的情感极性。
5)AT-LSTM.该模型在LSTM的基础上融合注意力机制,将LSTM对文本上下文建模后为每个目标设置一个注意力向量,并由注意力向量产生特定方面的情感极性。
6)ATAE-LSTM.该模型在AT-LSTM的基础上,在输入层面将特定方面词嵌入与上下文中每个词嵌入进行融合。
7)IAN.该模型利用2个LSTM网络分别对特定方面和上下文进行特征提取,然后再交互生成注意力向量作为最终的特征训练模型。
8)IAD.该模型利用层叠的LSTM实现各特定方面信息共享的神经网络,对上下文的长时期依赖性进行建模,在利用注意力机制获取特定方面与上下文的相互关联特征,并利用该特征预测情感极性。
9)MFIF.该模型输入包含词嵌入和字符嵌入2种,将特定方面特征和上下文特征交互提取后,利用GRU和注意力机制进一步获取重要特征。
将以上模型在SemEval2014和推特(Twitter)数据集上进行实验,实验结果如表2所示。
表2不同模型的实验准确率
Figure BDA0002733497210000121
Figure BDA0002733497210000131
本发明中的T-MGAN模型在笔记本电脑(Laptop)和餐厅(Restaurant)数据集上的准确率均高于对比模型,因为该模型采用了Transformer模型结构,能够在多次不同的线性变换下获取不同角度的特定方面特征和上下文特征,除此之外,在获取上下文特征部分还采用了Tree Transformer模型结构,以不同的视角获取包含结构信息的短语级别全局特征,使本模型在特征表示上具有优势。并且,在利用注意力机制获取特定方面词与上下文的交互特征时,采用了双池化的方法,将双池化后的全局特征与特定方面词的局部特征进行组合,更深层次地学习和表示特定方面与上下文间的重要信息,进而得到更好的实验结果。但是在推特(Twitter)数据集上,本发明模型实验结果与MIFI模型相比低0.63%,分析原因可能是该数据集中的表达形式比较口语化,没有规范的表达,导致模型在获取短语级特征上没有明显的优势。总体来说,本发明方法中模型中的词法、句法分析特征质量较高,且特定方面与上下文间的交互特征获取方法在特定方面情感分析任务中具有一定的有效性。

Claims (4)

1.一种基于Transformer的多粒度注意力模型的特定方面情感分析方法,其特征在于:所述方法包括按顺序进行的下列步骤:
(1)利用向量空间模型,将待判定的上下文及其对应的特定方面用特征矩阵表示;
(2)将步骤(1)中获得的上下文和特定方面的特征矩阵作为输入,采用Transformer编码器模块分别获取上下文和特定方面的词语级特征;
方法是:分别将上下文的特征矩阵和特定方面的特征矩阵输入到Transformer编码器模块,分别计算得到上下文的词语级特征和特定方面的词语级特征;
Transformer编码器模块由n个相同的层组成,每个层由两个子层组成,分别是多头注意力层和前馈网络层,并且两个子层后面都加有残差连接和正则化操作;
上述词语级特征由多头自注意力机制的输出获得;
(3)将步骤(1)中获得的上下文的特征矩阵作为输入,利用Tree Transformer编码器模块获取上下文的短语级特征;
方法是:将上下文的特征矩阵输入到Tree Transformer编码器模块,计算得到上下文的短语级特征;
Tree Transformer编码器模块是在多头注意力结构的基础上新增加了成分注意力模块;
(4)根据步骤(2)中获得的上下文和特定方面的词语级特征以及步骤(3)中获得的上下文的短语级特征,通过注意力机制进一步获取特定方面与上下文间的相关联注意力权重;
(5)将步骤(4)中获得的相关联注意力权重组合后作为训练特定方面情感极性分类器的最终特征;
(6)利用步骤(5)中得到的最终特征训练特定方面情感极性分类器,得到正向、负向或中性情感极性概率;
(7)利用步骤(6)中训练特定方面情感极性分类器的准确率,选取最优的Transformer和Tree Transformer编码器模块层数;
在步骤(4)中,所述根据步骤(2)中获得的上下文和特定方面的词语级特征以及步骤(3)中获得的上下文的短语级特征,通过注意力机制进一步获取特定方面与上下文间的相关联注意力权重的方法是:首先计算特定方面对于上下文的注意力权重,具体包括特定方面的平均池化特征相对于上下文的词语级和短语级特征的注意力权重和特定方面的最大池化特征相对于上下文的词语级和短语级特征的注意力权重两部分;然后计算上下文相对于特定方面的注意力权重,具体包括上下文的词语级和短语级平均池化特征相对于特定方面特征的注意力权重和上下文的词语级和短语级最大池化特征相对于特定方面特征的注意力权重两部分;
在步骤(7)中,所述的利用步骤(6)中训练特定方面情感极性分类器的准确率,选取最优的Transformer和Tree Transformer编码器模块层数的方法是:首先选取最优的Transformer编码器模块层数,即先将基于Transformer的多粒度注意力模型中对上下文进行短语级特征提取的Tree Transformer编码器模块部分省略,只保留对特定方面和上下文特征提取的Transformer编码器模块,依次在层数为1-6上进行实验验证,将此时的特定方面情感极性分类器的准确率最高的层数确定为最优的Transformer编码器模块层数;然后选取最优的Tree Transformer编码器模块层数,即将基于Transformer的多粒度注意力模型中Transformer编码器模块层数设为最优层数后,将Tree Transformer编码器模块层数设定为1-6依次进行实验,将此时特定方面情感极性分类器的最高准确率的层数确定为最优的Tree Transformer编码器模块层数。
2.根据权利要求1所述的方法,其特征在于:在步骤(1)中,所述的利用向量空间模型,将待判定的上下文及其对应的特定方面用特征矩阵表示的方法是:利用斯坦福大学公开的300维Glove词向量模型,将待判定的上下文及其对应的特定方面中的每个词分别与Glove词向量模型进行匹配,进而使得上下文及其对应的特定方面中的每个词都能以300维向量表示,对于无法匹配的词,在[-0.1,0.1]中随机选择数值后得到300维向量;然后分别将上下文和特定方面包含的词向量分别进行拼接,获得上下文的特征矩阵和特定方面的特征矩阵。
3.根据权利要求1所述的方法,其特征在于:在步骤(5)中,所述将步骤(4)中获得的相关联注意力权重组合后作为训练特定方面情感极性分类器的最终特征的方法是:
将步骤(4)中获得的相关联注意力权重进行拼接,得到最终特征M。
4.根据权利要求1所述的方法,其特征在于:在步骤(6)中,所述利用步骤(5)中得到的最终特征训练特定方面情感极性分类器,得到正向、负向或中性情感极性概率的方法是:
将上述最终特征M经过全连接层后输入到softmax分类器中,从而得到正向、负向或中性情感极性概率。
CN202011125520.7A 2020-10-20 2020-10-20 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 Active CN112232087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011125520.7A CN112232087B (zh) 2020-10-20 2020-10-20 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011125520.7A CN112232087B (zh) 2020-10-20 2020-10-20 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法

Publications (2)

Publication Number Publication Date
CN112232087A CN112232087A (zh) 2021-01-15
CN112232087B true CN112232087B (zh) 2022-09-02

Family

ID=74118682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011125520.7A Active CN112232087B (zh) 2020-10-20 2020-10-20 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法

Country Status (1)

Country Link
CN (1) CN112232087B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801355B (zh) * 2021-01-20 2022-05-24 南京航空航天大学 基于长短期时空数据多图融合时空注意力的数据预测方法
CN112784047B (zh) * 2021-01-25 2023-02-28 重庆邮电大学 一种基于自注意力机制的可控可解释司法文本分类方法
CN112862837B (zh) * 2021-01-27 2023-06-23 南京信息工程大学 一种基于卷积神经网络的图像处理方法和系统
CN113535904B (zh) * 2021-07-23 2022-08-09 重庆邮电大学 一种基于图神经网络的方面级情感分析方法
CN113641900A (zh) * 2021-08-05 2021-11-12 维沃移动通信有限公司 信息推荐方法及装置
CN113836923B (zh) * 2021-08-27 2023-06-27 山西清众科技股份有限公司 一种基于多级上下文特征提取的命名实体识别方法
CN114881042B (zh) * 2022-06-02 2023-05-02 电子科技大学 基于图卷积网络融合句法依存与词性的中文情感分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110569508A (zh) * 2019-09-10 2019-12-13 重庆邮电大学 融合词性和自注意力机制的情感倾向性分类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110569508A (zh) * 2019-09-10 2019-12-13 重庆邮电大学 融合词性和自注意力机制的情感倾向性分类方法及系统

Also Published As

Publication number Publication date
CN112232087A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN110188358B (zh) 自然语言处理模型的训练方法及装置
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
US9858263B2 (en) Semantic parsing using deep neural networks for predicting canonical forms
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN108628935B (zh) 一种基于端到端记忆网络的问答方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN112163426A (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆系统
CN110348227B (zh) 一种软件漏洞的分类方法及系统
CN110210032A (zh) 文本处理方法及装置
Shuang et al. A sentiment information Collector–Extractor architecture based neural network for sentiment analysis
CN117094291B (zh) 基于智能写作的自动新闻生成系统
CN112488301A (zh) 一种基于多任务学习和注意力机制的食品反演方法
CN113157919A (zh) 语句文本方面级情感分类方法及系统
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN116403231A (zh) 基于双视图对比学习与图剪枝的多跳阅读理解方法及系统
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant