CN115186677A

CN115186677A - 基于多头注意力语义聚焦和语义增强的分析方法及装置

Info

Publication number: CN115186677A
Application number: CN202210935818.7A
Authority: CN
Inventors: 廖列法; 张文豪
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-10-14

Abstract

本申请公开了一种基于多头注意力语义聚焦和语义增强的分析方法及装置，方法包括：获取文本序列，以及文本序列中的方面词序列；在词嵌入层，将文本序列与方面词序列输入BERT模型，以获取BERT模型的输出；在语义聚焦层，根据BERT模型的输出获取注意力矩阵，以及注意力权重矩阵；在语义增强层，对注意力矩阵以及注意力权重矩阵进行增强处理，以得到第一增强结果与第二增强结果；在特征提取层，通过GRU对第一增强结果进行提取，以获取第一提取结果；在特征融合层，对于第二增强结果与第一提取结果进行拼接，并将拼接结果输入到pool层，以获取池化结果；在输出层，将池化结果输入softmax函数中，以输出情感极性结果。

Description

基于多头注意力语义聚焦和语义增强的分析方法及装置

技术领域

本发明涉及语义分析技术领域，具体涉及一种基于多头注意力语义聚焦和语义增强的分析方法及装置。

背景技术

近些年，很多企业搭载着互联网这趟快车开发了各式各样的平台，有社交、购物、美食、旅游等平台。在这众多的平台下，越来越多的用户都会在平台下发表各自的评论意见，这些评论包含着很多的语义信息，这些信息对企业或者是政府都具有意义。企业可以通过分析这些评论来改善产品，进而提升用户体验。政府也可以通过这些评论来进一步了解事件的发展状况。由此可见，情感分析不论是对企业还是政府都具有重要的作用，因此也吸引了越来越多的研究者对情感分析进行研究。

情感分析(Sentiment Analysis)又称意见或观点挖掘，它是自然语言处理中重要的一个领域。情感分析可以分为粗粒度情感分析和细粒度情感分析，句子级别的情感极性分析属于粗粒度情感分析任务，它是对一个文本或者一个句子进行情感极性的分类。方面级情感分析(Aspect-based sentiment analysis,ABSA)属于细粒度情感分析，它是对一个文本序列中的方面词进行情感极性的分类。对于一些富含丰富情感的句子，句子级别情感分析不能准确的分析句子的情感极性。例如“The price is reasonable although theservice is poor.”句子级别情感分析只能将其分类为积极或者是消极。但是从句子中的“price”和“service”两个方面词来看，它们分别属于积极和消极。由此可见，句子级别情感分析会将某一个词的情感极性给掩盖掉，不能很好的分析出句子中方面词的情感极性。而方面级情感分析却能够更好的将句子中的方面词进行情感极性的分类。因此，方面级情感分析逐渐的受到很多研究者的青睐。

随着互感器的双向编码器表示(Bidirectional Encoder Representation fromTransformers，BERT)预训练模型的提出，BERT预训练模型在自然语言处理领域取得了非常好的效果，在自然语言处理领域应用的也越来越广泛。

方面级的情感分析的常用方法可以分为三种：1.基于情感词典的方法；2.基于机器学习的方法；3.基于深度学习的方法。现如今最热门的方法当属基于深度学习的方法，相比于基于深度学习的方法，其他两种方法都有些不足之处。基于情感词典的方法需要根据情感词典来对文本进行匹配，进而获得情感极性。但是它过分依赖于情感词典的构建，一个词典的好坏也就决定着这个模型的好坏。而且情感词典的复用性极差，在不同的领域需要构建不同的情感词典，导致情感词典的构建需要花费大量时间。基于机器学习的方法至今也取得了不错的成果。例如：SVM(Support Vector Machines)、KNN(K-Nearest Neighbor)、朴素贝叶斯 (Naive Bayes)等方法。由于在情感分析领域，句子中词与词之间存在着非常复杂的关系，机器学习方法并不能够很好去理解这些关系。而且这些方法在人工标记和处理数据样本上需要花费很多时间。

随着神经网络以及硬件的发展，神经网络模型运用在方面级情感分析上越来越频繁，神经网络模型应用的也越来越复杂，模型也越来越大。卷积神经网络 (ConvolutionalNeural Networks,CNN)、注意力机制、循环神经网络(Recurrent Neural Networks,RNN)以及循环神经网络的变种长短时记忆网络(LSTM)和门控循环单元(GRU)等模型被嵌入到各种模型之中。在各种模型中，注意力机制应用的也更为广泛。但是目前的模型通过注意力机制来进行信息的融合，没有完全发挥注意力机制的作用。

发明内容

本申请实施例提供了一种基于多头注意力语义聚焦和语义增强的分析方法及装置。能够结合BERT预训练模型来进行方面词情感极性的分析。通过使用多头注意力机制来进行语义的聚焦和增强。

有鉴于此，本申请第一方面提供了一种基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，所述方法应用的模型包含：词嵌入层、语义聚焦层、语义增强层、特征提取层、特征融合层、输出层，所述方法包括：获取文本序列，以及所述文本序列中的方面词序列；在所述词嵌入层，将所述文本序列与所述方面词序列输入互感器的双向编码器表示BERT模型，以获取所述BERT模型的输出；在所述语义聚焦层，根据所述BERT模型的输出获取注意力矩阵，以及注意力权重矩阵，并将文本序列区分为方面词区域、重点区域与非重点区域；在所述语义增强层，对所述注意力矩阵以及所述注意力权重矩阵进行增强处理，以得到第一增强结果与第二增强结果；在所述特征提取层，通过预先设定的门控循环单元GRU对所述第一增强结果进行提取，以获取第一提取结果；在所述特征融合层，对于第二增强结果与第一提取结果进行拼接，并将拼接结果输入到池化pool 层，以获取池化结果；在所述输出层，将所述池化结果输入softmax函数中，以输出情感极性结果，所述情感极性结果包含-1、0、1，其中-1表示消极情绪，0表示中性情绪，1表示积极情绪。

可选的，结合第一方面，在一种可能的实现方式中，所述获取文本序列，以及所述文本序列中的方面词序列具体包括：获取所述文本序列S＝ {w₁,w₂,…,w_n}，其中w_i表示所述文本序列中的第i个词，n表示所述文本序列中有n个词；获取所述文本序列中的方面词序列A＝{a_t,a_t+1,…,a_t+m}，其中，a_t表示所述方面词序列开始的位置，a_t+m表示所述方面词序列结束的位置，1≤t≤ t+m≤n。

可选的，结合第一方面，在一种可能的实现方式中，所述BERT模型由十二个双向Transformer模型的编码器组成，每个BERT模型的输入由词向量、句向量和位置向量三个向量相加得到，所述BERT模型的输出包括：O_g＝BERT([CLS]+ S+[SEP]+A+[SEP])；O_s＝BERT([CLS]+S+[SEP])；其中，S和A分别表示所述文本序列和所述方面词序列，[CLS]表示开始符号，[SEP]表示分割符号，

d_n表示所述文本序列的最大长度，d_e表示词嵌入的维度。

可选的，结合第一方面，在一种可能的实现方式中，所述根据所述BERT模型的输出获取注意力矩阵，以及注意力权重矩阵具体包括：

其中，w_q、w_k、w_v为权重参数矩阵，

z_i和Z分别表示每个头的注意力权重和平均注意力权重，i表示多头注意力的第几个头，h为多头注意力头的总个数，i的范围为[1,h]，d_h表示隐藏层的大小，d_q、 d_k、d_v等于d_h除以h的值。

可选的，结合第一方面，在一种可能的实现方式中，所述将文本序列区分为方面词区域、重点区域与非重点区域具体包括：获取所述文本序列中的词汇距离方面词的中心位置的距离：

其中，j表示词汇在文本序列中的位置，P_a表示方面词的中心位置，L表示方面词的长度；确定所述文本序列中方面词所在的区域为方面词区域，确定距离方面词的中心位置的距离小于或等于设定距离阈值的区域为重点区域，确定距离方面词的中心位置的距离大于设定距离阈值的区域为非重点区域。

可选的，结合第一方面，在一种可能的实现方式中，在所述语义聚焦层，所述方法还包括：

将所述方面词区域与重点区域的权重系数设置为1，非重点区域的权重系数设置为0，按照如下公式计算所述文本序列中每个词汇的权重向量：

其中，

表示每个词汇的权重向量，

表示维度为d_h的单位向量，

表示维度为d_h的0向量，α表示设定距离阈值；

根据每个词汇的权重向量对BERT模型的输出进行加权，以获得经过词义掩盖后的输出：

W＝[w₁,w₂,…,w_n]；

其中，W为经过词义掩盖之后的权重，

表示经过词义掩盖后的输出。

可选的，结合第一方面，在一种可能的实现方式中，所述对所述注意力矩阵以及所述注意力权重矩阵进行增强处理，以得到第一增强结果与第二增强结果具体采用如下公式计算：O_add＝H_a+O_g；

其中，O_add为所述第一增强结果，O_mul为所述第二增强结果。

可选的，结合第一方面，在一种可能的实现方式中，所述通过预先设定的门控循环单元GRU对所述第一增强结果进行提取，以获取第一提取结果具体采用如下公式计算：O_gru＝GRU(O_add)；其中，O_gru为第一提取结果。

可选的，结合第一方面，在一种可能的实现方式中，所述对于第二增强结果与第一提取结果进行拼接，并将拼接结果输入到池化pool层，以获取池化结果，具体包括：O_c＝concat[O_gru,O_mul]；O_p＝pool(O_c)；其中，O_c为拼接结果，O_p为池化结果；所述将所述池化结果输入softmax函数中，以输出情感极性结果具体包括：

其中，

为情感极性结果。

本申请第二方面提供了一种基于多头注意力语义聚焦和语义增强的分析装置，该装置用于实现本申请第一方面至第一方面任意一种可能的实现方式中所述的基于多头注意力语义聚焦和语义增强的分析方法。

本申请提供的这种基于多头注意力语义聚焦和语义增强的分析方法和装置一方面充分利用多头注意力能够将输入的信息进行融合聚焦的机制，将全局信息和句子信息进行聚焦，将聚焦后的信息再与文本序列进行语义的增强。经过增强后的语义信息相对来说减少了不重要信息的影响。第二是考虑了方面词周围的词义信息，增加局部特征的关注，减少了距离方面词太远的词义信息对方面词的影响。第三是将全局信息和局部信息进行了融合，融合后的特征即包含了全局特征，又突出了方面词的特征，增加了方面词情感分类的效果。

附图说明

为了更清楚地说明申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的一种基于多头注意力语义聚焦和语义增强的分析模型示意图；

图2是本申请实施例提供的一种基于多头注意力语义聚焦和语义增强的分析方法的流程示意图；

图3是本申请实施例提供的一种BERT模型的示意图；

图4是本申请实施例提供的一种序列区域区分图；

图5是本申请实施例提供的一种门控循环单元示意图；

图6是本申请实施例提供的一种不同词义距离的准确率对照图；

图7是本申请实施例提供的一种不同词义距离的F1值对照图；

图8是本申请实施例提供的一种多头注意力不同头数的准确率对照图；

图9是本申请实施例提供的一种多头注意力不同头数的F1值对照图；

图10是本申请实施例提供的一种基于多头注意力语义聚焦和语义增强的分析装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中出现的术语“和/或”，可以是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

情感分析又称意见或观点挖掘，它是自然语言处理中重要的一个领域。情感分析可以分为粗粒度情感分析和细粒度情感分析，句子级别的情感极性分析属于粗粒度情感分析任务，它是对一个文本或者一个句子进行情感极性的分类。方面级情感分析属于细粒度情感分析，它是对一个文本序列中的方面词进行情感极性的分类。对于一些富含丰富情感的句子，句子级别情感分析不能准确的分析句子的情感极性。句子级别情感分析会将某一个词的情感极性给掩盖掉，不能很好的分析出句子中方面词的情感极性。而方面级情感分析却能够更好的将句子中的方面词进行情感极性的分类。因此，方面级情感分析逐渐的受到很多研究者的青睐。

随着BERT预训练模型的提出，BERT预训练模型在自然语言处理领域取得了非常好的效果，在自然语言处理领域应用的也越来越广泛。现有的端到端的方面级情感分析模型，即使在BERT上加入一个线性模型，实验结果也比以往模型要好。也有一些基于方面的情感分析从单句转换为类似于问答形式句子对的分类任务，在对BERT进行微调之后，最终实验取得了很好的效果。有一些基于多头自注意力的局部上下文聚焦机制，离方面词越近的词义信息就越重要。以上模型虽然考虑了方面词和上下文之间的关系以及方面词周围的信息，但是没有突出重要信息。针对这点，本申请提出一种多头注意力语义聚焦和语义增强模型。

本申请的主要贡献如下：

一是充分利用多头注意力能够将输入的信息进行融合聚焦的机制，将全局信息和句子信息进行聚焦，将聚焦后的信息再与文本序列进行语义的增强。经过增强后的语义信息相对来说减少了不重要信息的影响。二是考虑了方面词周围的词义信息，增加局部特征的关注，减少了距离方面词太远的词义信息对方面词的影响。三是将全局信息和局部信息进行了融合，融合后的特征即包含了全局特征，又突出了方面词的特征，增加了方面词情感分类的效果。

随着神经网络以及硬件的发展，神经网络模型运用在方面级情感分析上越来越频繁，神经网络模型应用的也越来越复杂，模型也越来越大。卷积神经网络 (ConvolutionalNeural Networks,CNN)、注意力机制、循环神经网络(Recurrent Neural Networks,RNN)以及循环神经网络的变种长短时记忆网络(LSTM)和门控循环单元(GRU)等模型被嵌入到各种模型之中。有一些方法采用TD-LSTM 模型，该模型通过围绕目标词前后上下文进行建模，建立两个长短期记忆网络，达到两边可以同时进行特征的表示。有一些方法借助门控循环单元来构造两个外部记忆来捕获句子中相关短语的信息。

在各种模型中，注意力机制应用的也更为广泛。有一些方法将目标词和上下文分别进行建模，并利用交互式注意力提取目标词和上下文特征。也有一些将 LSTM模型与注意力机制结合，让方面词参与注意力权重的计算，增加的语义的学习性能。也有一些利用图卷积神经网络获取文本的句法信息，通过注意力机制将句法信息以及其他信息进行融合。也有一些采用协同注意力机制，该机制实现了对上下文注意力和目标级别注意力的交替建模，让模型更聚焦于目标词在上下文中的表示。也有一些采用注意力编码器网络，通过注意力编码器对上下文和目标之间进行建模，解决了RNN难以并行的问题。

以上模型通过注意力机制来进行信息的融合，没有完全发挥注意力机制的作用。因此，本申请提出了一种基于多头注意力语义聚焦和语义增强模型。该模型结合BERT预训练模型来进行方面词情感极性的分析。通过使用多头注意力机制来进行语义的聚焦和增强。

请参见图1，本申请提供的模型可以分为六个层，分别是词嵌入层、语义聚焦层、语义增强层、特征提取层、特征融合层、输出层。

基于图1提供的模型，请参见图2，本申请从提供的基于多头注意力语义聚焦和语义增强的分析方法包括：

S110、获取文本序列，以及文本序列中的方面词序列。

对于一个文本序列S＝{w₁,w₂,…,w_n}，w_i表示文本序列中第i个词，n表示文本序列有n个词，方面词A＝{a_t,a_t+1,…,a_t+m}，a_t表示方面词开始的位置，a_t+m表示方面词结束的位置，其中，1≤t≤t+m≤n，方面词可以由一个或多个词组成，方面词是文本序列中的一部分。

S120、在词嵌入层，将文本序列与方面词序列输入BERT模型，以获取BERT 模型的输出

在方面词情感分析领域，Word2vec等传统的词向量表示方法，虽然能够将词进行向量化，但是对全局的信息特征关注不够，更不能够解决一词多义的问题。对于这个问题，BERT预训练模型能够很好的解决这个问题。本文使用的BERT预训练模型是由十二个双向的Tranasformer模型的编码器组成，模型如图2所示。在 BERT的结构中，每个BERT的输入都是由词向量(Token Embedding)、句向量 (Segment Embedding)、位置向量(PositionEmbedding)三个向量相加而得到。

计算如式(1)、式(2)所示。

其中，

分别表示第i个令牌的词向量、句向量、位置向量、第0层的向量表示和第l层的向量表示。Trm表示Transformer中的编码器。需要说明的是，这里的加号不是求和，而是将它们组合再进行输入；[CLS]表示开始的符号，[SEP]表示分割的符号。

请参见图3，图3提供了一种BERT模型的示意图，本申请使用两个BERT模型来对文本序列进行编码，一个是全局信息，由上下文加方面词作为输入，另一个句子信息，由上下文作为输入。模型的输出分别是O_g和O_s，分别如式(3)、式(4) 所示。

O_g＝BERT([CLS]+S+[SEP]+A+[SEP]) (3)

O_s＝BERT([CLS]+S+[SEP]) (4)

其中，S，A分别表示上下文序列和方面词序列。

d_n表示本文序列最大长度，d_e表示词嵌入的维度。

S130、在语义聚焦层，根据BERT模型的输出获取注意力矩阵，以及权重矩阵，并将文本序列区分为方面词区域、重点区域和非重点区域。

1、多头注意力

注意力机制能够对重点的部分分配更多的注意力资源，能够抑制其他不太重要的信息，从而获得更多重要的特征信息。

文本序列经过BERT层之后，输出的结果还带有着其他不重要的信息，重要的信息反而没有突出。针对这个问题，利用多头注意力将文本中的重要信息进行提取，得到注意力矩阵和注意力权重矩阵。计算如式(5)～式(9)所示。

其中，w_q，w_k，w_v表示权重参数矩阵，

z_i，Z分别表示每个头的注意力权重和平均注意力权重，i表示多头注意力的第几个头。h为多头注意力头的总个数，i的范围为[1,h]，a无实际含义，

和v相同。 d_h表示隐藏层大小。d_q，d_k，d_v等于d_h除以h的值。权重参数矩阵时随机初始化的；式5中的去

分别表示query，key和value；式6是计算注意力权重的公式；式7是计算每个词的注意力矩阵；式8是将式7中所有的注意力矩阵进行合并的结果；式9是根据式6计算的所有的注意力权重平均的结果。

2、词义掩盖

对于方面词的情感极性的判断，往往在方面词周围的情感词才是影响方面词情感极性的重要因素。如果将文本中所有词义信息都以相同的权重去学习语义信息，会增加噪声对主要信息的影响，从而干扰模型的学习，进而影响模型最终的效果。因此，文本引入词义掩盖是为了重点聚焦方面词周围的信息，降低其他不重要词义的信息的影响。本文以方面词为中心，根据方面词与其他词义的距离，将单个文本序列分为方面词区域，重点区域和非重点区域。区分距离如式10 所示。

其中，j表示该词在句中的位置，P_a表示方面词的中心位置，L表示方面词的长度。如图4所示示例“I definitely enjoyed the food as well.”。“food”为方面词中心位置，“enjoyed the”和“as well”距离方面词“food”小于等于设置的阈值2，将其设为重点区域，“I definitelly”和“.”距离方面词“food”大于2设为非重点区域。该阈值可以根据需求设定。

以方面词为中心，根据距离方面词的远近来设置不同词的权重。将方面词和方面词附近的重点区域的权重系数都设置为1。距离方面词距离较远的非重点区域，将其权重系数设置为0。计算如式(11)所示。

其中，

表示每个词的权重向量。

表示维度为d_h的单位向量。

表示维度为d_h的0向量。α表示词义距离的阈值。

将得到的每个词的权重向量组合后与句子信息相乘，得到新的句子信息。新的句子信息计算如式(12)和式(13)所示。

W＝[w₁,w₂,…,w_n] (12)

其中，W表示词义(词义)掩盖后的权重，

表示经过词义掩盖后的输出。

S140、在语义增强层，对注意力矩阵以及注意力权重矩阵进行增强处理，以得到第一增强结果与第二增强结果。

语义增强层分为两部分，一部分对于全局信息来说，经过多头注意力聚焦信息后，加强了重要语义信息，弱化了其他不重要的语义信息，将多头注意力机制输出的注意力矩阵与BERT的输出信息相加后，重要语义信息的加强程度比不重要信息的加强程度更高，进而加强了重要的语义信息。计算如式(14)所示。

O_add＝H_a+O_g (14)

另一部分，对于句子信息来说，通过词义掩盖保留下来的重要信息，这些信息的重要性仍然存在着差异。因此，将多头注意力机制输出的注意力权重矩阵与保留下来的重要信息进行相乘。越重要的信息权重也越高，相乘之后语义信息也就越突出。计算如式(15)所示。

S150、在特征提取层，通过预先设定的GRU对第一增强结果进行提取，以获取第一提取结果。

本文利用门控循环单元(Gate Recurrent Unit，GRU)对全局信息进行提取，结构如图5所示。门控机制解决了循环神经网络(Recurrent Neural Network，RNN) 梯度消失的问题，而且比长短时记忆网络少一个门控单元，计算时的参数也更少，计算速度更快。

图5中，x_t表示当前的输入状态，h_t-1表示上一时刻的隐藏状态，h_t表示当前时刻的隐藏状态，r_t表示当前时刻重置门的状态，z_t表示当前时刻更新门的状态，

表示候选信息状态。门控循环单元通过x_t和h_t-1来获取两个门控的状态。 r_t和z_t的获取如式(16)和式(17)所示。

r_t＝σ(W_r[h_t-1,x_t]+b_z) (16)

z_t＝σ(W_z[h_t-1,x_t]+b_r) (17)

其中，σ表示sigmoid函数，W_r和b_r表示重置门的权重和偏置，W_z和b_z表示更新门的权重和偏置。得到门控状态之后，重置门r_t将上一时刻的隐藏状态中有用的信息写入到候选信息状态

中。计算如式(18)所示。

其中，W_h和b_h表示候选信息状态的权重和偏置。最后，通过更新门有候选集以及上一时刻的状态进行遗忘更新。计算如式(19)所示。

语义提取层的最终输出结果为：

O_gru＝GRU(O_add) (20)

S160、在特征融合层，对第二增强结果与第一提取结果进行拼接，并将拼接结果输入到pool层，以获取池化结果。

全局信息和句子信息经过语义聚焦、语义增强和语义提取之后，分别得到两部分信息。这两部分信息对于方面词的情感极性的分析都很重要。因此，将这两部分信息进行拼接，拼接后得到一个新的矩阵。新的矩阵再输入到pool层，增强信息表征，方便最后结果的分析。

O_c＝concat[O_gru,O_mul] (21)

O_p＝pool(Oc) (22)

S170、在输出层，将池化结果输入softmax函数中，以输出情感极性结果。

本文的情感分类的标签分为三种，积极、中性和消极。最后将语义融合后的信息输入到Softmax函数中来确定最终的情感极性。如式(23)所示。

本申请是通过分析文本序列中方面词的情感极性，将情感极性分为消极情绪、中性情绪和积极情绪，分别由-1,0,1表示。

以下通过实验数据对本申请提供的基于多头注意力语义聚焦和语义增强的分析方法进行验证：

1、实验数据集

本文实验所使用的数据集是三个公开的英文方面词情感分析数据集，分别是SemEval-2014 Task 4数据集和Twitter数据集。SemEval-2014 Task 4含有对笔记本评价的数据集和对餐厅评论的数据集。数据集标签分布如表1所示。

表1数据集标签的分布情况

2、损失函数

本文使用交叉熵损失函数。为了缓解模型训练时出现过拟合现象，引入了系数为λ的L2正则化项。

其中，C表示情感标签的个数，

表示模型的输出情感值，y_i表示标签中的真实值，λ表示L₂正则化参数，Θ表示模型中所用到的参数。

3、评价指标

为了验证本实验的有效性，本文采用两个评价指标，一个是准确率Acc，另一个是Macro-F1(F1)。准确率Acc表示分类正确的样本数占比。计算如式(25) 所示。F1是准确率和召回率的调和平均。计算如式(26)～式(28)所示。

其中，TP表示分类正确的积极标签的样本数，TN表示分类正确的消极标签的样本数，FP表示分类错误的积极标签的样本数，FN表示分类错误的消极标签的样本数，C表示情感类别的标签个数。

4、参数设置

MAFE模型的学习率设置为10-5。本模型词向量模型使用的是BERT预训练模型，该模型输出的维度为768。为了方便模型的计算，将隐藏层大小设置为 768。训练的最大句子长度为85。每次处理句子的批量为16。为了防止模型过拟合，将Dropout设置为0.2。L2正则化权值设置为10-5。为了提高训练的准确性，将数据集设置训练20次，当连续5次训练效果都不能提升时，则提前结束训练。

5、对比实验

为了验证该模型的有效性，本文对比模型如下：

TD-LSTM模型：通过围绕目标词前后上下文建立两个长短时记忆网络，达到两边可以同时进行特征的表示。

RAM模型：采用多个注意力机制来和长短时记忆网络的层进行非线性结合，进而增强目标词的记忆。

MGAN模型：利用注意力机制捕捉方面词和上下文的关系，再将细粒度和粗粒度进行拼接，用于方面级情感分析任务上。

BERT-PT模型：将BERT作为基础模型，使用一种联合训练方法来增强领域和任务知识，并将其运用到方面级情感分析上。

AEN-BERT模型：使用一种用于目标情感分类任务的注意力编码器网络，用来避免循环神经网络中的递归问题。

BERT-SPC模型：通过构造辅助句子，将方面级情感分析转换为问答形式的句子对分析方法。

LCF-BERT-CDM模型：通过关注上下文局部特征，并利用多头自注意力机制分别获取局部特征和全局特征来进行情感分类。

BERT-MLP模型：利用方面注意力网络与方面信息进行级联，用来增强句子与方面词之间的依赖关系。

MemGCN-BERT模型：利用图卷积神经网络获取文本句法信息，并通过注意力将句法信息与其他信息进行融合。

各个实验结果如表2所示，其中，“*”表示根据原论文复现的实验结果，粗体字表示效果最好的实验结果，“NA”表示原论文中没有该项数据。

表2不同模型的实验结果

从表2数据中可以看出：在没有使用BERT模型的情况下，RAM和MGAN 模型实验效果要比TD-LSTM效果好。可能是因为RAM和MGAN模型使用了注意力机制，捕捉了方面词和上下文之间的语义关系。虽然TD-LSTM围绕目标词建立了前后两个LSTM模型，但是没有充分结合方面词和上下文语义之间的关系。MGAN模型在三个数据集上都要高于RAM模型，但是相较于使用了BERT 的模型来说，这两个模型的实验效果还是不太高。这也证明了BERT模型相对于其他的词向量模型的效果要好。

在使用了BERT模型的情况下，AEN-BERT、LCF-BERT-CDM和MemGCN- BERT使用了注意力机制或者自注意力机制来改进模型。从表中的数据可以看出，这三个模型的实验效果相对较好。在这三个模型中，MemGCN-BERT模型相对于其他两个模型来说增加了一个句法信息，LCF-BERT-CDM模型考虑了方面词周围的信息，AEN-BERT模型在进行词嵌入时，并没有关注过多或者是增加语义信息，这可能是导致该模型较差的原因。BERT-PT模型采用的是联合训练方法来训练模型。BERT-SPC模型关注了方面词和上下文的信息，可能是主要特征并没有突出，导致模型分类效果不太理想。BERT-MLP模型也是存在方面词周围信息关注够的问题。

本文模型在三个数据集上都优于其他的模型，主要是原因是，该模型不仅利用注意力机制对局部特征进行了聚焦，还充分运用了全局信息和方面词及其周围的信息，并且还通过语义增强，减小了语义提取的难度，进而提高了模型的分类效果。

6消融实验

为验证本模型中各个部件的重要性，本实验设置了三个消融实验。为了确保消融实验的可靠性，每个消融实验的参数设置都是一样的。实验结果如表3所示。

表3消融实验

从表3中可以看出，在删除各个部件的情况下，实验结果都有下降，说明各个部件都是模型不可或缺的。在删除多头注意力后，实验效果确实有下降，三个数据上都下降了1％左右。实验结果显示多头注意力对这三个数据集的影响比较均衡，充分说明对文本序列进行语义的聚焦和增强是有必要的。在删除词义掩盖后，实验结果都有下降，但在Restaurant数据集的实验结果下降的很明显，说明词义掩盖对数据集有点敏感，但是不能否认它能够聚焦方面词周围的信息。在删除GRU后，实验结果表明了对特征进行提取的重要性。

7、可变参数分析

7.1词义距离阈值分析

对于方面词周围的词义信息，不同距离的词义对于方面词的影响也是不一样的。因此，本文设置了不同的阈值来分析不同词距的词义信息对方面词的影响。为了保证实验的可靠性，将其他参数保持不变。词义距离在三个数据集上对准确率和F1值的影响分别如图6和图7所示。

从图6中可以看出，词义距离为2的时候，Restaurant数据集准确率最高，之后准确率随着词义距离的增加而慢慢下降。词义距离为3的时候，Twitter数据集的准确率最高，之后的准确率也是在逐渐下降。这说明了在Restaurant数据集和Twitter数据集上，方面词对周围的局部信息的敏感程度很高。Laptop数据集再6以内的词义距离振幅不大，并且在距离为7时准确率最高，说明Laptop 数据集中的方面词对局部信息敏感程度不高，更关注全局信息。

从图7中可以看出，当词义距离在4以内时，三个数据集上的F1值都是跌宕起伏。之后随着距离的增加，Restaurant数据集上的F1值在缓慢的减少，Laptop 数据集上的F1值在大幅增加，Twitter数据集上的F1值仍然保持震荡。整体来看，Laptop数据集的F1值振幅最大，说明局部信息对Laptop数据集的F1值影响最大。

7.2多头注意力分析

为了探究多头注意力对准确率和F1值的影响，本文分别从三个数据集上设计了两组实验，用来检验注意力头数从1到10的准确率和F1值，如图8和图 9所示。

从图8中可以看出，三个数据集随着头数的增加，准确率在不断的起伏。并没有出现一直上升或下降的趋势。头数小于3时，三个数据集的准确率都在上升，最后分别在4,5和9时，准确率达到最大，并且多头的准确基本都大于单头的准确率。说明多头注意力是模型中不可或缺的一部分。

从图9中可以看出，多头注意力头数对F1值的影响基本没什么规律。在Restaurant数据集中，F1值最大为80.19，最小为74.38。在Laptop数据集中， F1值最大为77.30，最小为73.92。在Twitter数据集中，F1值最大为74.72，最小为72.01。这种情况是因为多头注意力在关注本文信息时，头与头之间所关注的信息产生冲突。在三个数据集中，只有一个头的F1值往往要比多头的F1值要小，说明多头注意力在模型中发挥着重要作用。

8、实例测试分析

本文从数据集的测试集中抽取三个文本序列，用来测试AEN-BERT模型、 BERT-SPC模型、LCF-BERT-CDM模型和本文模型。结果如表4所示。从表中可以得出，测试结果最好的是LCF-BERT-CDM模型和本文的MAFE-BERT模型。对于第二个文本序列中的第二个方面词，这几个模型预测都出现了错误。主要是因为文本序列中第二个方面词前含有否定词，模型对否定词的识别不够充分，导致判断出现错误。其次，该文本序列相对于比较长，模型对长文本序列识别仍有不足之处。

表4实例测试结果

本申请提出了一种基于多头注意力语义聚焦和语义增强模型，通过语义聚焦层来捕捉更多的有效信息，然后再通过语义增强层来增强全局信息和局部信息，进而突出方面词的特征。最后使用了门控循环单元来对全局信息进行特征的提取。实验结果表明，通过对语义的聚焦和增强，增加了方面词的特征信息，从而增加了对方面词情感极性的判断。在未来的工作中，将考虑增加一些其他的辅助信息来增强方面词的表达，进一步提升模型的性能。并计划将本文的模型应用到其他情感分析任务中。

下面从硬件处理的角度对本申请实施例中基于多头注意力语义聚焦和语义增强的分析装置进行详细描述。

图10为本申请提供的一种基于多头注意力语义聚焦和语义增强的分析装置的结构示意图。如图10所示，该基于多头注意力语义聚焦和语义增强的分析装置 20包括处理器21、存储器22和通信接口23，处理器21、存储器22和通信接口23可以通过总线24相连。该通信接口可以连接诸如摄像头之类的外设。

该基于多头注意力语义聚焦和语义增强的分析装置20是一种硬件结构的装置，可以用于如图2所示的基于多头注意力语义聚焦和语义增强的分析方法。

可选的，上述处理器21可以是一个或多个中央处理器(central processingunit， CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

该处理器21，用于执行存储器22中的指令，执行上述应用于图2所述的基于多头注意力语义聚焦和语义增强的分析方法。该通信接口23，可以包含输入/输出(I/O)接口。

存储器22、处理器21和通信接口23可以通过总线24相互连接，但不限于只能通过总线24连接；总线24可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD)) 等。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序指令指示相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

本申请还提供了一种计算机可读存储介质，包括指令，当该指令在计算机设备上运行时，使得该计算机设备执行如本申请提供的基于多头注意力语义聚焦和语义增强的分析方法。

以上对本申请实施例所提供的一种基于多头注意力语义聚焦和语义增强的分析方法、装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，所述方法应用的模型包含：词嵌入层、语义聚焦层、语义增强层、特征提取层、特征融合层、输出层，所述方法包括：

获取文本序列，以及所述文本序列中的方面词序列；

在所述词嵌入层，将所述文本序列与所述方面词序列输入互感器的双向编码器表示BERT模型，以获取所述BERT模型的输出；

在所述语义聚焦层，根据所述BERT模型的输出获取注意力矩阵，以及注意力权重矩阵，并将文本序列区分为方面词区域、重点区域与非重点区域；

在所述语义增强层，对所述注意力矩阵以及所述注意力权重矩阵进行增强处理，以得到第一增强结果与第二增强结果；

在所述特征提取层，通过预先设定的门控循环单元GRU对所述第一增强结果进行提取，以获取第一提取结果；

在所述特征融合层，对于第二增强结果与第一提取结果进行拼接，并将拼接结果输入到池化pool层，以获取池化结果；

在所述输出层，将所述池化结果输入softmax函数中，以输出情感极性结果，所述情感极性结果包含-1、0、1，其中-1表示消极情绪，0表示中性情绪，1表示积极情绪。

2.根据权利要求1所述的基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，所述获取文本序列，以及所述文本序列中的方面词序列具体包括：

获取所述文本序列S＝{w₁，w₂，...，w_n}，其中w_i表示所述文本序列中的第i个词，n表示所述文本序列中有n个词；

获取所述文本序列中的方面词序列A＝{a_t，a_t+1，...，a_t+m}，其中，a_t表示所述方面词序列开始的位置，a_t+m表示所述方面词序列结束的位置，1≤t≤t+m≤n。

3.根据权利要求2所述的基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，所述BERT模型由十二个双向Transformer模型的编码器组成，每个BERT模型的输入由词向量、句向量和位置向量三个向量相加得到，所述BERT模型的输出包括：

O_g＝BERT([CLS]+S+[SEP]+A+[SEP])；

O_s＝BERT([CLS]+S+[SEP])；

其中，S和A分别表示所述文本序列和所述方面词序列，[CLS]表示开始符号，[SEP]表示分割符号，

d_n表示所述文本序列的最大长度，d_e表示词嵌入的维度。

4.根据权利要求3所述的基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，所述根据所述BERT模型的输出获取注意力矩阵，以及注意力权重矩阵具体包括：

其中，w_q、w_k、w_v为权重参数矩阵，

z_i和Z分别表示每个头的注意力权重和平均注意力权重，i表示多头注意力的第几个头，h为多头注意力头的总个数，i的范围为[1，h]，d_h表示隐藏层的大小，d_q、d_k、d_v等于d_h除以h的值。

5.根据权利要求4所述的基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，所述将文本序列区分为方面词区域、重点区域与非重点区域具体包括：

获取所述文本序列中的词汇距离方面词的中心位置的距离：

其中，j表示词汇在文本序列中的位置，P_a表示方面词的中心位置，L表示方面词的长度；

确定所述文本序列中方面词所在的区域为方面词区域，确定距离方面词的中心位置的距离小于或等于设定距离阈值的区域为重点区域，确定距离方面词的中心位置的距离大于设定距离阈值的区域为非重点区域。

6.根据权利要求5所述的基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，在所述语义聚焦层，所述方法还包括：

其中，

表示每个词汇的权重向量，

表示维度为d_h的单位向量，

表示维度为d_h的0向量，α表示设定距离阈值；

W＝[w₁，w₂，...，w_n]；

其中，W为经过词义掩盖之后的权重，

表示经过词义掩盖后的输出。

7.根据权利要求6所述的基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，所述对所述注意力矩阵以及所述注意力权重矩阵进行增强处理，以得到第一增强结果与第二增强结果具体采用如下公式计算：

O_add＝H_a+O_g；

其中，O_add为所述第一增强结果，O_mul为所述第二增强结果。

8.根据权利要求7所述的基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，所述通过预先设定的门控循环单元GRU对所述第一增强结果进行提取，以获取第一提取结果具体采用如下公式计算：

O_gru＝GRU(O_add)；

其中，O_gru为第一提取结果。

9.根据权利要求8所述的基于多头注意力语义聚焦和语义增强的分析方法，其特征在于，所述对于第二增强结果与第一提取结果进行拼接，并将拼接结果输入到池化pool层，以获取池化结果，具体包括：

O_c＝concat[O_gru，O_mul]；

O_p＝pool(O_c)；

其中，O_c为拼接结果，O_p为池化结果；

所述将所述池化结果输入softmax函数中，以输出情感极性结果具体包括：

其中，

为情感极性结果。

10.一种基于多头注意力语义聚焦和语义增强的分析装置，其特征在于，所述装置用于实现权利要求1至权利要求9中任意一项所述的基于多头注意力语义聚焦和语义增强的分析方法。