CN114492458A

CN114492458A - 一种基于多头注意力和词共现的方面级情感分析方法

Info

Publication number: CN114492458A
Application number: CN202210179715.2A
Authority: CN
Inventors: 蔡国永; 兰天
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-05-13

Abstract

本发明公开了一种基于多头注意力和词共现的方面级情感分析方法，包括如下步骤：1）获得文本嵌入表示和目标词嵌入表示；2）生成目标词表示；3）构建词共现矩阵；4）获得最终的文本表示；5）得到目标词的情感极性预测结果。这种方法提升了模型在方面级情感分析任务中的性能，捕捉能力强。

Description

一种基于多头注意力和词共现的方面级情感分析方法

技术领域

本发明涉及自然语言处理技术领域，具体是一种基于多头注意力和词共现的方面级情感分析方法。

背景技术

基于方面的情感分析(Aspect-based Sentiment Analysis，简称ABSA)的基本任务是提取细粒度的评论方面，识别所提取方面表达的情感。例如：“The goods isexcellent,but the customer service is so terrible.”，该条评论中涉及到两个方面，“goods”和“customer service”，而对这两个方面表达的情感极性分别为“积极的”和“消极的”。长短时记忆网络(LSTM)是RNN的一种变体，避免了RNN梯度消失和梯度爆炸的问题；注意力机制被广泛应用于深度学习的各个领域，大幅提升了深度学习的性能。在ABSA中，许多最近提出的模型都将LSTM与注意力机制结合在一起，即先利用LSTM对词向量进行序列信息的建模，并从中挖掘情感信息，然后通过注意力机制让模型聚焦于句子中给定方面的具体范围，取得了不错的效果。为了整合句子中的句法结构信息，一些研究提出了基于图的方法，即利用文本的依赖树来构建图，然后通过图卷积网络(GCN)或图注意力网络(GAT)将依赖信息从邻接词传播到目标词。研究结果表明，考虑了句法关系的模型在性能上要优于没有考虑句法关系的模型。

虽然LSTM与注意力机制相结合的方法能减轻RNN由于自身结构带来的限制，并通过给上下文词分配重要性权重的方式改善文本表示。但是不同上下文词对于文本情感表达的贡献度是不一样的，而且同一个上下文词对于文本中不同的目标词，其重要程度也应该不同，距离目标词较近的上下文词重要程度应该大于距离目标词较远的上下文词。此外，在利用句子之外的辅助知识方面，已有的方法大多只利用了词与词之间的依赖关系，而忽略了语料库级别的词共现信息。我们认为频繁共现的两个词或多个词意味着它们在语法上是一种搭配。比如在“This dress is okay,nothing special.”这句评论中，“nothingspecial”这两个词在语料库的训练集中共现了6次，且代表着消极的情绪。如果没有词共现这种辅助信息的帮助，模型可能会将“okay”或者“special”当作对“dress”的情感表达词，从而做出错误的预测。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于多头注意力和词共现的方面级情感分析方法。这种方法提升了模型在方面级情感分析任务中的性能，捕捉能力强。

实现本发明目的的技术方案是：

一种基于多头注意力和词共现的方面级情感分析方法，包括如下步骤：

1)采用预训练的BERT模型对文本和目标词进行编码，分别得到文本嵌入表示和目标词嵌入表示；

2)利用两种注意力编码器来分别建模文本的隐藏状态和句法结构，生成文本表示，以及建模目标词和文本之间的语义交互和依赖信息，生成目标词表示；

3)构建词共现矩阵，并通过多层图卷积神经网络将词共现矩阵分别与步骤2)得到的文本特征表示和目标词特征表示融合，生成文本特征表示和目标词特征表示；

4)通过自注意力机制对步骤3)得到的文本特征表示和目标词特征表示进行全局特征捕捉，获得最终的文本表示；

5)对步骤3)得到的文本特征表示和目标词特征以及步骤4)得到的最终文本表示进行平均池化和归一化操作，得到目标词的情感极性预测结果。

步骤1)中所述的预训练的BERT模型把文本序列和目标词序列作为输入，并将序列中的每个单词都映射为一个词向量，最终得到融合左右上下文信息的文本嵌入表示和目标词嵌入表示。

步骤2)中所述的两种注意力编码器为内联多头注意力编码器和互联多头注意力编码器，通过内联多头注意力编码器计算文本中单词之间的相互影响，捕捉文本的内部相关信息，得到构建了内部依赖信息的本文特征表示；通过互联多头注意力编码器对目标词进行上下文感知建模，重点捕捉目标词与上下文词之间的依赖信息，得到包含上下文信息的目标词特征表示。

步骤3)中所述的构建词共现矩阵的具体步骤如下：

3.1)根据现有的公开数据集，构建一个全局词共现图；

3.2)根据数据集中的每一条评论句子，构建一个局部词共现图；

3.3)根据文本中的单词为每条评论得到一个词共现矩阵。

步骤3)中所述的多层图卷积神经网络将步骤2)得到的文本特征表示和目标词特征表示作为输入，在每层的卷积之前都对特征表示进行位置关系处理，而后将处理过的特征表示与词共现矩阵进行卷积，得到融合词共现信息的文本特征表示和目标词特征表示。

步骤4)中所述的通过多头自注意力机制将目标词特征表示作为查询矩阵，将文本特征表示作为键矩阵和值矩阵，获得最终的文本表示。

步骤5)中所述的对文本特征表示和目标词特征以及最终文本表示进行平均池化和归一化操作，得到目标词的情感极性预测结果的具体步骤如下：

5.1)将步骤4)得到的最终文本表示与步骤3)得到的文本特征表示和目标词特征表示一同施加平均池化操作，并将平均池化的结果拼接起来得到最后的综合文本表示；

5.2)将综合文本表示映射到分类空间中；

5.3)通过softmax函数归一化后得到情感极性分布，将概率最高的标签作为最终的预测结果。

与现有技术相比，本技术方案的有益效果是：

1.本技术方案设计了两种注意力编码器，来构建目标词与上下文词的隐藏状态和两者之间语义交互，使得模型能从不同角度捕捉方面词与上下文词之间的语义和语法信息；

2.本技术方案根据文本中的词在语料库中的共现信息构建了一个词共现矩阵，并通过图卷积网络将共现信息整合进文本的特征表示里。词共现信息的引入，增强了特征向量的表示能力，有助于提升模型在方面级情感分析任务中的性能；

3.本技术方案设计了一个针对特定目标的目标依赖自注意力机制，对文本和目标词进行进一步的全局特征捕捉，提高模型对文本中重要特征的捕捉能力。

这种方法提升了模型在方面级情感分析任务中的性能，捕捉能力强。

附图说明

图1为实施例的流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述，但不是对本发明的限定。

实施例：

参照图1，一种基于多头注意力和词共现的方面级情感分析方法，包括如下步骤：

1)采用预训练的BERT模型对文本和目标词进行编码，分别得到文本嵌入表示和目标词嵌入表示，即步骤1)中所述的预训练的BERT模型把文本序列

和目标词序列

作为输入，并将序列中的每个单词都映射为一个词向量，得到融合左右上下文信息的文本嵌入表示

和目标词嵌入表示

其中n为句子长度，m为目标词长度，

表示文本中的单词，

表示文本中包含的目标词，且w^a是w^t的子集，

emb_dim表示词嵌入的维度；

本例为使BERT模型能够更好地训练和微调，在文本序列和目标词序列的头部加上分类标识符“[CLS]”，在尾部加上分隔标识符“[SEP]”，如：“[CLS]+text+[SEP]”，“[CLS]+aspect+[SEP]”；

2)利用两种注意力编码器来分别建模文本的隐藏状态和句法结构，生成文本表示，以及建模目标词和文本之间的语义交互和依赖信息，生成目标词表示，两中注意力编码器均采用多头注意力机制，在学习文本结构特征和序列信息的同时刻画文本的隐藏状态和全局依赖信息，多头注意力机制的输入有三个，分别为查询矩阵

键矩阵

值矩阵

其中d_q，d_k，d_v分别为Q，K，V中向量的维度，n_q，n_k，n_v分别为Q，K，V中向量的个数，为了简便，设置d_k＝d_v且记为d_model，多头注意力机制的具体计算过程如下：

第一步是使用点积函数计算Q和K之间的相似性分值Sim，具体公式如下：

其中，K_i表示键矩阵K中的第i个向量，Q_j表示查询矩阵Q中的第j个向量，n_q表示Q中向量个数，Sim_i表示查询矩阵Q中每个向量与K_i之间的相似性分值；

第二步是对相似性分值进行归一化处理来得到对应的权重系数，一般使用的是softmax函数，具体公式如下：

其中，a_i即为值矩阵V中第i个向量V_i对应的权重系数，

表示Sim_i中第i个向量；第三步是将权重系数矩阵a与V进行加权求和，得出最后的注意力分数，具体公式如下：

其中，V_i表示值矩阵V中第i个向量；

第四步是将多个注意力头拼接在一起，得到最终的注意力分数，具体公式如下：

MHA(Q,K,V)＝concat(head₁,head₂,...,head_n)W⁰，

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^K)，

其中，

是一个可学习的参数矩阵，h是多头注意力的头数，

concat(·)表示将所有头拼接起来的拼接操作，head_i表示第i个头所得到的注意力分数，

是第i个头的映射矩阵；

其中两种注意力编码器为内联多头注意力编码器和互联多头注意力编码器，内联多头注意力编码器将文本嵌入表示e^t作为输入，得到本文特征表示

其中，

表示上下文中第i个单词的特征表示，具体计算公式如下：

t^intra＝MHA(e^t,e^t,e^t)，

其中MHA()表示多头注意力；

互联多头注意力编码器将文本嵌入表示e^t和目标词嵌入表示e^a作为输入，得到目标词特征表示

表示目标词中第i个单词的特征表示，具体计算公式如下：

a^inter＝MHA(e^t,e^a,e^a)，

3)构建词共现矩阵，并通过多层图卷积神经网络将词共现矩阵分别与步骤2)得到的文本特征表示和目标词特征表示融合，生成文本特征表示和目标词特征表示，构建词共现矩阵的具体步骤如下：

3.1)根据现有的公开数据集，构建一个全局词共现图，

全局词共现图CG^g是一个无向带权图，由一个结点集V^g和一个边集E^g构成，其中V^g中的每个结点都代表语料库中的一个单词，E^g中的每条边都代表这两个词具有共现关系，边的权重表示这两个词总共在多少条样本评论中共现过；

3.2)根据数据集中的每一条评论句子，构建一个局部词共现图，

局部词共现图CG^l是一个无向带权图，由结点集V^l和边集E^l构成，其中V^l中的每个结点都代表该条评论文本中的一个单词，E^l中的每条边都代表两个词在该条评论中的共现关系，边的权重和全局词共现图中这两个词的边权重一致，表示这两个词在语料库中共现的次数；

3.3)根据文本中的单词为每条评论得到一个词共现矩阵A∈R^n×n，n为句子的长度；

本例中，将文本特征表示t^intra和目标词特征表示a^inter分别输入两个多层图卷积神经网络，并把它们作为各自多层网络中第0层的输入h⁰，之后每层的输入都为上一层的输出，在每层的卷积之前都先对特征表进行位置关系处理，具体公式如下：

其中，

是当前GCN层的输入中的第i个单词，q_i是单词i的位置权重，然后将处理过的特征表示g^l和词共现矩阵A进行卷积，得到文本特征表示

和目标词特征表示

具体公式如下：

其中

是上一层GCN输出的文本表示的第i个单词，hid_dim表示的是特征维度，

是当前GCN层输出的第i个单词，

表示的是词共现矩阵中第i个单词的度，权重矩阵W^l和偏置b^l都是可学习的参数；

4)通过自注意力机制对步骤3)得到的目标词特征表示作为查询矩阵，文本特征表示作为键矩阵和值矩阵，获得最终的文本表示，

本例中，多头自注意力机制将目标词特征表示h^a作为查询矩阵，将文本特征表示h^t作为键矩阵和值矩阵，获得最终的文本表示

具体公式如下：

h^ta＝MHSA(h^a,h^t,h^t)，

其中，MHSA表示多头自注意力；

5)对步骤3)得到的文本特征表示和目标词特征以及步骤4)得到的最终文本表示进行平均池化和归一化操作，得到目标词的情感极性预测结果，具体步骤如下：

5.1)将步骤4)得到的最终文本表示h^ta与步骤3)得到的两个特征表示h^t和h^a一同施加平均池化操作，并将平均池化的结果拼接起来得到最后的综合文本表示

具体公式如下：

其中avg(·)表示平均池化操作；

5.2)将综合文本表示映射到分类空间中，具体公式如下，

其中，project(·)表示映射函数，x表示映射后的结果，

和

都是可学习的参数；

5.3)通过softmax函数归一化后得到情感极性分布，将概率最高的标签作为最终的预测结果，具体公式如下，

其中，y∈R^c是预测的情感极性分布，

是最后的预测标签，y₁、y₂、y₃分别表示积极情感、中性情感、消极情感的概率。

为了更好地对本例加以理解，本实施例选用五组情感分类公开数据集，情感极性分为积极，消极，中性。5个数据集的情感极性分布如表1所示：

表1.数据集的统计信息

为了验证本实施例方法的有效性，以下选择与任务相关且具有代表性的模型作为baseline对比，并采用F1分数和准确度ACC来评价模型性能，对比结果如表2所示：

表2.对比实验结果

从表2所示的结果中可以看出，本例提出的TD-MHSA模型在四个数据集上的F1值均达到了最佳。特别是在Lap14、Rest15和Twitter数据集上，相对于第二好的实验结果，本例模型的F1值分别有2.2％、1.26％和1.55％的提升。在准确率方面本例模型也基本上达到了最佳。只在Rest14数据集上低于MNHMA模型0.9％，可能的原因是MNHMA模型在任务中给定了句中的方面词，因此在情感分类准确率上会略高于本例模型。在Rest16数据集上本例模型在准确率和F1值上均低于KumaGCN模型，认为KumaGCN通过潜在语法图和词依赖图来构建句子中的语法和语义信息，并通过门控机制将二者融合，使得模型能够捕捉到更加完整的语义和语法信息，加强模型的表征能力，从而提高模型的性能。捕捉更完整的语义个语法信息也是本文模型未来改善的方向。

在基于RNN的所有模型中，TD-LSTM模型的性能处于中下游水平，而RAM、AEN和本例模型TD-MHSA在多数数据集上都稳超TD-LSTM。分析其中的原因应该是TD-LSTM是基于LSTM的模型，它只对目标词进行比较粗略的处理，没有利用好目标词与上下文词之间的依赖关系和语义交互信息。而RAM、AEN和TD-MHSA都是基于注意力机制的模型，都对目标词进行不同的处理，以达到充分利用目标词信息的目的。TD-MHSA所达到的最佳结果证明了本文对于目标词与文本间依赖信息的利用是最有效的。

在Twitter数据集上，TD-LSTM、ATAE-LSTM、RAM模型的性能都不是非常好，原因可能是Twitter数据集中的数据来自于用户日常分享，文本长度通常较短，且不具备语法结构。因此基于LSTM和基于注意力机制的模型学习到的语法特征非常有限，无法做出很准确的预测。而ASGCN、KumaGCN和TD-MHSA的良好性能则说明引入外部信息，如文本的依赖解析树，词共现信息，是能提升模型性能的。

为了检验提出方法中的各个模块对于模型性能的影响，在所有数据集上都进行了消融实验，实验结果如表3所示：

表3.消融实验结果

表3中的model_in模型是针对两种注意力编码器的消融实验，用一个前馈神经网络来代替注意力编码器。从表3中可以看出，模型的性能有所下降，这表明注意力编码器确实能够提升模型的性能。Model_gcn模型是针对多层GCN的消融实验，删除了多层GCN，不使用额外的词共现信息。模型在所有数据集上的F1值都不如原模型，特别是在Twitter数据集上，模型性能下降了。这表明词共现信息对于模型准确判断目标词情感极性还是有很大帮助的。Model_td模型则是针对目标依赖的多头自注意力机制的消融实验，这里只使用普通的自注意力机制，将文本的特征表示作为自注意力的查询值和键值。实验结果表明，去除了目标词和文本之间的全局依赖信息，模型的性能有所下降。

综上所述，本例在方面级情感分析任务上有较好的性能。本例设计的两种注意力编码器，使得模型能从不同角度捕捉方面词与上下文词之间的语义和语法信息；其次，本例将共现信息整合进文本的特征表示里增强了特征向量的表示能力，有助于提升模型在方面级情感分析任务中的性能；最后本例设计的针对特定目标的目标依赖自注意力机制，对文本和目标词进行进一步的全局特征捕捉，提高模型对文本中重要特征的捕捉能力。

Claims

1.一种基于多头注意力和词共现的方面级情感分析方法，其特征在于，包括如下步骤：

1)获得文本嵌入表示和目标词嵌入表示：采用预训练的BERT模型对文本和目标词进行编码，分别得到文本嵌入表示和目标词嵌入表示；

2)生成目标词表示：利用两种注意力编码器来分别建模文本的隐藏状态和句法结构，生成文本表示，以及建模目标词和文本之间的语义交互和依赖信息，生成目标词表示；

4)获得最终的文本表示：通过自注意力机制对步骤3)得到的文本特征表示和目标词特征表示进行全局特征捕捉，获得最终的文本表示；

5)得到目标词的情感极性预测结果：对步骤3)得到的文本特征表示和目标词特征以及步骤4)得到的最终文本表示进行平均池化和归一化操作，得到目标词的情感极性预测结果。

2.根据权利要求1所述的基于多头注意力和词共现的方面级情感分析方法，其特征在于，步骤1)中所述的预训练的BERT模型把文本序列和目标词序列作为输入，并将序列中的每个单词都映射为一个词向量，最终得到融合左右上下文信息的文本嵌入表示和目标词嵌入表示。

3.根据权利要求1所述的基于多头注意力和词共现的方面级情感分析方法，其特征在于，步骤2)中所述的两种注意力编码器为内联多头注意力编码器和互联多头注意力编码器，通过内联多头注意力编码器计算文本中单词之间的相互影响，捕捉文本的内部相关信息，得到构建了内部依赖信息的本文特征表示；通过互联多头注意力编码器对目标词进行上下文感知建模，重点捕捉目标词与上下文词之间的依赖信息，得到包含上下文信息的目标词特征表示。

4.根据权利要求1所述的基于多头注意力和词共现的方面级情感分析方法，其特征在于，步骤3)中所述的构建词共现矩阵的具体步骤如下：

3.1)根据现有的公开数据集，构建一个全局词共现图；

3.3)根据文本中的单词为每条评论得到一个词共现矩阵。

5.根据权利要求1所述的基于多头注意力和词共现的方面级情感分析方法，其特征在于，步骤3)中所述的多层图卷积神经网络将步骤2)得到的文本特征表示和目标词特征表示作为输入，在每层的卷积之前都对特征表示进行位置关系处理，而后将处理过的特征表示与词共现矩阵进行卷积，得到融合词共现信息的文本特征表示和目标词特征表示。

6.根据权利要求1所述的基于多头注意力和词共现的方面级情感分析方法，其特征在于，步骤4)中所述的通过多头自注意力机制将目标词特征表示作为查询矩阵，将文本特征表示作为键矩阵和值矩阵，获得最终的文本表示。

7.根据权利要求1所述的基于多头注意力和词共现的方面级情感分析方法，其特征在于，步骤5)中所述的对文本特征表示和目标词特征以及最终文本表示进行平均池化和归一化操作，得到目标词的情感极性预测结果的具体步骤如下：

5.1)将步骤4)得到的最终文本表示与步骤3)得到的两个特征表示一同施加平均池化操作，并将平均池化的结果拼接起来得到最后的综合文本表示；

5.2)将综合文本表示映射到分类空间中；