CN116384372A

CN116384372A - 基于自注意力的多层次融合方面类别情感分析方法

Info

Publication number: CN116384372A
Application number: CN202211345353.6A
Authority: CN
Inventors: 田东; 时嘉; 冯建英; 张慧; 苗子溦
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-07-04

Abstract

本发明公开了属于应用自注意力机制对情感词语分析领域的一种基于自注意力的多层次融合方面类别情感分析方法；该方法主要包括：获取样本语句以及与所述样本语句的相关联的若干组二元组标签信息；结合Bi‑LSTM和卷积注意机制获取输入文本的序列信息与局部重要信息；获取方面类别指示词的位置信息；包含情景的自注意力机制重新学习方面信息，然后引入多层次融合模块融合学习多层次上下文特征之间的相互作用，实现方面类别情感分析，对不同环境下的方面表示进行区别关注，在多个领域都能达到较好的分类精度。本发明为在线评论方面类别情感分析提供了有效新方案，并对电商平台服务、产品提升以及消费群体购买决策具有有效指导意义。

Description

基于自注意力的多层次融合方面类别情感分析方法

技术领域

本发明属于应用自注意力机制对情感词语分析领域，特别涉及一种基于自注意力的多层次融合方面类别情感分析方法。

背景技术

观点或意见几乎是所有人类进行活动的核心，是我们行为的关键影响因素。随着电子商务平台的兴起，在线评论成为宝贵的资源，尤其是对于受欢迎的产品和服务方面。从这些在线评论中识别和提取具有丰富观点的信息，有助于生产者和消费者做出决策。也就是说，评价不仅是电商销售产品的重要因素，而且在一定程度上也是影响消费者意愿的指标。但由于这些产品的评论数量巨大，要通过每一次评判对任何产品做出简单的决定是不可行的。因此，近年来，考虑到效率和大量评论数据的在线处理需求，情感分析从各个领域展开了探索。基于方面的情感分析(ABSA)作为情感分析领域的细粒度任务在近几年来受到广泛地关注，它主要包含两个子任务:方面项情感分析(ATSA)和方面类别情感分析(ACSA)。虽然近年来对ATSA和ACSA的研究都很有前景，但在本发明中，我们主要关注的是ACSA的任务。

ACSA的目的是在对情感极性(通常是积极的、消极的或中性的)进行分类的同时，根据方面类别对每个观点进行分类。可以看出他需要进行两个任务，方面类别识别(ACD)和方面情感分类(ASC)。与ATSA任务不同，ACSA任务中方面类别可能不会直接在句子中出现，且需要预定义。为了识别方面类别的情感，多年来人们致力于为给定方面目标建立合适的上下文特征。

在过去几十年里，早期传统的机器学习方法吸引较多人的研究，但这些方法严重依赖复杂的人工规则和特征工程，这样很容易忽视有效特征。随着深度学习技术的广泛应用，人们开始使用数据驱动的方式解决传统方法特征丢失问题。其中基于卷积神经网络(CNN)和递归神经网络(RNN)比如长短期记忆网络(LSTM)的大量有关研究被成功地应用于方面级情感分析中。CNN能够从时间或空间分布中学习局部特征，但在获取远程依赖以及建模序列信息方面存在不足。与CNN相比，RNN能够对序列信息进行有效建模，但缺乏位置不变性以及对局部信息的敏感性。上述方法使用不同的神经网络结构对语境和目标之间的关系进行建模，但考虑输入序列全部信息过于冗余，没有明确地建模每个词对识别特定目标情感的贡献程度。

注意力机制的出现在自然语言处理和计算机视觉掀起了热潮，因为它可以通过映射词的语义关联来捕捉每个词对特定目标的影响，也为模型添加了一定的可解释性。其变体自注意力机制在自然语言、图像识别领域也被证实有效。因此很多学者开始将自注意力的优势应用于该任务中。它的目的是获得一种考虑全局上下文的潜在表示，可以解决长期依赖不足的问题。此外，也有些研究构建基于依存树的图结构实现ACSA，但局限性在于需要寻找与方面类别相关的方面术语。而有些文本存在不规范的问题且方面类别通常不在文中明确描述出来，很难通过语言规则(例如依赖解析器)明确地利用上下文词和方面类别之间的关系。而自注意力机制能够学习句子内部结构特征，可以识别句子结构的差异，获得较好的学习效果。但自我注意通过加权平均操作将所有元素考虑在内，分散了注意力分布，这在ACSA中具有一定的局限性。因为可能会导致方面类别和情感匹配有误，造成结果的不准确。因此一个考虑上下文语义的自注意力网络提出，并被应用于ABSA中。

虽然以往的研究带来了显著的改进，但由于以下原因在大多数实际应用中仍然存在一些挑战：首先，ACSA任务的挑战之一是方面类别可能不在文本中出现，而这些模型利用给定的方面来指导句子编码，但却忽视了不同环境下方面表示的含义可能会存在不同，使得易受到其他方面类别有关较强情感词的干扰，使得上下文和方面信息的交互不足，效果不好。其次，大多数方法忽视了句子中重要词的位置信息对情感极性的影响，或只是将目标与句子特征拼接获得注意权重。但这样得到的位置向量可能会因为不同环境下词语对不同方面表示表达的情感存在不同而收到干扰，从而影响模型的性能。最后，ACSA的任务更多关注餐饮、电子产品等领域，但还未探索生鲜农产品在线评论的价值。新鲜葡萄是世界上最受欢迎的水果品种之一,因其丰富的营养价值和感官特性而受到消费者的高度赞赏。因此需要更进一步的研究来更好地了解消费者对鲜食葡萄在电商平台中的期望，以提升商家及产品质量。

发明内容

本发明的目的是提供的一种基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述基于自注意力的多层次融合方面类别情感分析方法包括：

S1：获取样本语句以及与样本语句相关联的若干组二元组标签信息；

S2：采用基于Bi-LSTM和卷积注意机制相结合来获取输入文本的序列信息与局部重要信息；

S3：获取方面类别指示词的位置信息；

S4：包含情景的自注意力机制重新学习方面信息，并引入融合多层次信息来融合学习多层次上下文特征之间的相互作用，实现方面类别情感分析；其中利用词级别和句子级别共同提取文本特征；为解决考虑情境时不可避免带入的噪声问题，而引入门控机制过滤噪声信息，以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息。

所述步骤S1中二元组标签信息包括样本语句相关联的方面类别种类和情感极性；获取样本语句的初始句子序列，根据样本语句的初始句子序列以及二元组标签信息构建样本语句的二元组标签序列。

所述步骤S1中获取样本语句包括若干个单词。

所述步骤S2获取输入文本的序列信息与局部重要信息中的局部重要信息为短语和词组。

所述步骤S3获取方面类别指示词的位置信息是用于设计方面类别检测方法，以获得与方面类别有关的重要词语作为方面类别指示词，从而得到该词的位置信息；

所述步骤S4中引入的融合多层次信息对评论文本方面类别情感进行分析，用于实现对在线评论情感分布的精确分类。

所述步骤S1中获取样本语句的初始句子序列，具体包括：

将句子序列S通过嵌入矩阵映射，获得嵌入向量序列E＝{x₁，x₂，…，x_n}，其中

d_e表示单词嵌入的维度，给定预定义的方面类别a_i∈A，方面嵌入可以通过映射得到/>

其中d_a是方面嵌入向量维度；

将单词嵌入E＝{x₁，x₂，…，x_n}输入到多层Bi-LSTM中，第(l-1)层的输出送入下一层，则得到隐藏的上下文表示

在每一时间步t，当前隐藏状态/>

为:

其中

l∈L表示当前Bi-LSTM层的数量，d_s/2表示Bi-LSTM一个隐藏状态的维数，该层的输出是一个隐藏表示的序列/>

式中

和/>

表示LSTM的正向传播和反向传播。

所述Bi-LSTM不能专注于局部特征，因而进一步利用卷积注意机制来提取高维语义，表示其中词与词之间的关系，它含有多头结构，在不同的子空间共同执行注意操作，但是只能考虑一个头部信息；一方面，卷积注意机制与传统卷积神经网络不同的是，它对高维语义卷积操作后，通过滤波器进行特征映射，这样不会因为卷积核的大小限制长距离依赖性能；另一方面，与自注意机制不同的是，它没有利用输入向量不同部分之间的信息，而是基于滤波器的内部信息，既保持了序列信息又对输入具有不变性；在这样的卷积滤波空间中，越重要的局部特征越接近相应的滤波器，而越不相关的部分越远离它，因此，它可以在基于上下文信息的基础上，捕捉到更重要的局部特征；

首先卷积注意机制接受Bi-LSTM的输出H表示作为输入，然后CNN卷积滤波器F＝[f₁，f₂，…f_m]在H上应用n元卷积运算，其中

c是卷积核的大小；可以通过如下公式得到特征映射矩阵M∈R^m×n：

M＝H*F (4)

式(4)中*表示卷积操作；在对输出表示应用所有过滤器之后，特征映射矩阵中具体值的含义如下：

m_ij＝ψ(f_i ^T·cat(h_j，h_j+1，…，h_j+c-1)+b) (5)

其中cat表示拼接操作，ψ表示非线性激活函数，b为偏置值；卷积注意机制可以被视为一个信息过滤器，它过滤掉不相关的语义信息，同时保留与上下文相关的关键信息；则卷积注意向量的输出过程如下：

O_M＝F·M＝F·(H*F) (6)

其式(6)中

表示查询(H)与键(F)的卷积操作的注意权值，该模块可以有效地从卷积滤波器中获取有价值的信息，这些信息直接作用于隐藏表示，捕捉重要局部特征；接下来所提出的融合机制在卷积层之后没有使用任何的池化操作来维持输入结构，可以避免池化操作导致输入序列顺序的丢失。

所述步骤S4情景的自注意力机制重新学习方面信息是通过包含情景的自注意力机制构建的方面类别预测方法获得与方面类别有关的重要词语作为方面类别指示词，将该词所在的位置作为重要位置信息，具体步骤包括：

输入层H首先转化为候选查询状态Q^k,候选键状态K^k和值V^k,每个包含k个头；将d_s维空间映射到d_k维空间,其中d_k＝d_s/k表示每个头的维度；类似于多头自我注意模型，允许模型从不同的表示子空间学习语义信息，情境导向的注意输出

在每个头可以被定义为：

所述步骤4中引入门控机制过滤噪声信息，以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息，引入的上下文向量C将H转换为信息化的查询层和关键层，改进后的{Q^k，K^k}如下表示:

其中

是上下文矩阵，/>

为可训练的参数，

是权重向量，可以避免由于/>

和/>

的值过大而导致的梯度较小的问题，具体地说是分配一个门控单元来学习上下文权重向量：

其中

是可训练参数，σ(·)表示sigmoid函数；可以看到，门控单元可以量化并保留在每个头部的情境表示；然后，将多个注意模型的输出进行串联，得到最终的输出表示O′；

在引入情境信息的同时不可避免会带来噪声信息，因此引入一个门控机制，该门控机制接受自注意机制的输出和上下文矩阵作为输入，包含一个非线性激活函数和一个门，其定义如下：

O＝F_i⊙O′ (10)

F＝σ_f(W_f·O′+U_f·C+b_f) (11)

其式(10)、(11)中C表示上下文矩阵，通过将C^k与每个位置的隐藏向量连接起来后传递到具有残差连接的前馈线性层后获得；

⊙表示Hadamard乘积，σ_f为sigmoid函数；

为简单起见，上述全部过程可以表述为：

O＝CGAtt(H，C) (12)

式(12)中CGAtt表示上述包含情景的自注意力机制的统称；在方面类别情感分析中，位置信息可以关注出现在句子中的方面信息，但即使方面类别中不存在于文本中，位置信息仍然起着重要的作用；句子中存在表示方面信息的词，可以将其视为方面指示词，把它们的位置看作是相应方面类别的位置；通过方面类别识别来获得对方面类别具有重要影响的单词权重，获得该单词的位置信息。

所述通过方面类别识别来获得对方面类别具有重要影响的单词权重，具体方法为：

将单词嵌入输入到LSTM层，并将每个时间步t的隐藏状态输出到H_t中：

H_t＝LSTM(h_t-1，x_t) (13)

基于融合机制，通过隐藏上下文引导注意，为方面r生成一个特定于方面的隐藏交互状态:如下公式所示，

对于方面r通过注意机制计算每个单词识别给定方面的概率，

其中

是可训练的参数，方面注意权重α^r∈Rⁿ可以表示为M^r与μ^r的归一化相似度；

最后，将融合后的句子表示作为上下文隐藏状态的加权和进行方面检测:

所述获得该单词的位置信息的具体方法为：

通常基于阅读直觉，离特定目标越接近的情感词越能表达该情感；但由于特定目标可能不在句子中出现，因此利用方面注意权值αⁱ来计算单词的局部表示，设计一个矩阵P表示文本中单词之间的相对距离：

其中n表示文本长度，i，j∈{1，2，…，n}，|i-j|表示第i个字和第j个字之间的相对距离；

应用方面注意权值得到位置向量：

p^l＝Pα^r (20)

对于每个方面r，靠近方面引导词的单词在p^l中比其他的单词具有更高的权重值，对位置向量执行softmax函数，得到权重向量：

最后,获得针对方面类别r的位置注意的隐藏输出如下：

所述步骤4中引入融合多层次信息来融合学习多层次上下文特征之间的相互作用，实现方面类别情感分析，具体方法为：

方面类别与句子的语义密切相关，需要提取它们之间的深层语义关系，因此利用自注意力机制分别处理三个不同的输入，首先将方面嵌入输入到第一个CGATT模块，利用位置注意层的输出作为环境向量，构建新的基于上下文特征表示的方面嵌入；第二个和第三个CGATT模块都以第一个CGATT模块的输出作为环境向量，不同的是第二个利用并检索位置注意层的隐藏状态中有用的相关信息，而第三个直接使用原句的单词向量矩阵作为输入，然后将这两个CGATT模块的输出拼接起来作为最终生成的句子表示；

首先将隐藏状态作为全局上下文向量，重构

的方面表示：

其中

包含丰富的上下文信息，用于进行上下文表示向量的操作；在获得上下文语义方面嵌入后，分别从隐藏空间和词向量空间融合全局信息和方面信息；对于方面r，计算如下：

新的交互式表示向量C由c′_r和c″_r通过连接它们组成：

C_r＝[c′_r，c″_r]，r＝1，2，·…，C (26)

通过上述方法，将给定的方面与上下文特征联系起来，将方面与上下文词之间的关系集成到表示向量中，将交互向量C_r输入到包含带有RELU激活函数的两个全连接层中，根据方面识别提供的权重结合全连接层的输出输入到softmax层中，预测情感极性作为最终输出；具体过程如下：

y_r＝softmax(p_rα^r) (28)

其中

为训练参数；

对于方面识别任务，由于每个预测都是一个二值分类问题，因此损失函数定义为:

对于方面类别情感分类任务，采用带有L2正则化项的交叉熵作为损失函数：

最后，将方面识别任务和方面类别情感分类任务联合为两项任务模型，对组合损失函数训练模型中的参数进行训练：

其中γ为方面类别情感分类损失的权重，λ表示L2正则化参数，θ表示模型所有参数；此外，还加入了dropout策略以避免过拟合；最终得到基于自注意力的多层次融合方面类别情感分析预测模型。

本发明的有益效果如下：

1.本发明在Bi-LSTM的基础上进一步利用对其进行卷积操作，然后对卷积滤波器进行特征映射，这样既保持了序列信息又对输入具有不变性。解决了LSTM网络不能专注于局部特征，而CNN因卷积核大小的限制无法保留序列信息的问题，

2.本发明提出的方面类别识别方法对重要词语赋予较高的权重，进而获得相应的位置信息。解决了大多数方法忽视了句子中重要词的位置信息对情感极性的影响，或只是将目标与句子特征拼接获得注意权重进而影响分类效果的问题，

3.由于方面类别可能不在文本中出现，而这些模型利用给定的方面来指导句子编码，但却忽视了不同语境下方面表示的含义可能会存在不同，使得易受到其他方面类别有关较强情感词的干扰，使得上下文和方面信息的交互不足，效果不好。本发明提出的基于多层次融合模块从多个子空间中获取不同的上下文特征表示能够同时考虑到多级语义特征。并在模块中考虑到噪声信息的影响，加入了门控机制进行过滤信息的工作，提高上下文与方面类别的交互。

附图说明

图1为基于自注意力的多层次融合方面类别情感分析方法的总体流程示意图；

图2为基于自注意力的多层次融合方面类别情感分析模型结构图；

具体实施方式

本发明提供一种基于自注意力的多层次融合方面类别情感分析方法，下面结合附图和实施例，对本发明作进一步详细描述。

如图1所示的基于自注意力的多层次融合方面类别情感分析方法的总体流程示意图，该方法包括步骤：

S3：获取方面类别指示词的位置信息；

所述步骤S1中获取样本语句包括若干个单词。

所述步骤S1中获取样本语句的初始句子序列，具体包括：

其中d_a是方面嵌入向量维度；

在每一时间步t，当前隐藏状态/>

为:

其中

式中

和/>

表示LSTM的正向传播和反向传播。

M＝H*F (4)

m_ijψ(f_i ^T·cat(h_j，h_j+1，…，h_j+c-1)+b) (5)

O_M＝F·M＝F·(H*F) (6)

其式(6)中

在每个头可以被定义为：

其中

是上下文矩阵，/>

为可训练的参数，

是权重向量，可以避免由于/>

和/>

其中

O＝F_i⊙O′ (10)

F＝σ_f(W_f·O′+U_f·C+b_f) (II)

⊙表示Hadamard乘积，σ_f为sigmoid函数；

为简单起见，上述全部过程可以表述为:

O＝CGAtt(H，C) (12)

H_t＝LSTM(h_t-1，x_t) (13)

对于方面r通过注意机制计算每个单词识别给定方面的概率，

其中

是可训练的参数，方面注意权重a^r∈Rⁿ可以表示为M^r与μ_r的归一化相似度；

所述获得该单词的位置信息的具体方法为：

应用方面注意权值得到位置向量：

p^l＝Pα^r (20)

最后,获得针对方面类别r的位置注意的隐藏输出如下：

首先将隐藏状态作为全局上下文向量，重构

的方面表示:

其中

新的交互式表示向量C由c′_r和c″_r通过连接它们组成：

C_r＝[c′_r，c″_r]，r＝1，2，…，C (26)

y_r＝softmax(p_rα^r) (28)

其中

为训练参数；

对于方面识别任务，由于每个预测都是一个二值分类问题，因此损失函数定义为：

其中γ为方面类别情感分类损失的权重，λ表示L2正则化参数，θ表示模型所有参数；此外，还加入了dropout策略以避免过拟合；最终得到如图2所示的基于自注意力的多层次融合方面类别情感分析预测模型。

Claims

1.一种基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述基于自注意力的多层次融合方面类别情感分析方法包括：

S3：获取方面类别指示词的位置信息；

2.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述步骤S1中二元组标签信息包括样本语句相关联的方面类别种类和情感极性；获取样本语句的初始句子序列，根据样本语句的初始句子序列以及二元组标签信息构建样本语句的二元组标签序列。

3.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述步骤S1中获取样本语句包括若干个单词。

4.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述步骤S2获取输入文本的序列信息与局部重要信息中的局部重要信息为短语和词组。

5.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述步骤S3获取方面类别指示词的位置信息是用于设计方面类别检测方法，以获得与方面类别有关的重要词语作为方面类别指示词，从而得到该词的位置信息。

6.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述步骤S4中引入的融合多层次信息对评论文本方面类别情感进行分析，用于实现对在线评论情感分布的精确分类。

7.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述步骤S1中获取样本语句的初始句子序列，具体包括：

其中d_a是方面嵌入向量维度；

在每一时间步t，当前隐藏状态/>

为:

其中

式中

和/>

表示LSTM的正向传播和反向传播。

8.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，利用卷积注意机制来提取高维语义，弥补Bi-LSTM无法捕捉局部特征的不足；一方面，卷积注意机制通过滤波器进行特征映射，不受卷积核大小的限制；另一方面，区别于自注意机制，它没有利用输入向量不同部分之间的信息，而是基于滤波器的内部信息，既保持了序列信息又对输入具有不变性；因此，它既能保持上下文信息也能捕捉到更重要的局部特征；首先卷积注意机制接受Bi-LSTM的输出H表示作为输入，然后CNN卷积滤波器F＝[f₁，f₂，…f_m]在H上应用n元卷积运算，其中

M＝H*F (4)

m_ij＝ψ(f_i ^T·cat(h_j，h_j+1，…，h_j+c-1)+b) (5)

其中cat表示拼接操作，ψ表示非线性激活函数，b为偏置值；卷积注意机制可以被视为一个信息过滤器，它过滤掉不相关的语义信息，同时保留与上下文相关的关键信息；则卷积注意向量的输出过程如下:

O_M＝F·M＝F·(H*F) (6)

其式(6)中

9.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述步骤S4情景的自注意力机制重新学习方面信息是通过包含情景的自注意力机制构建的方面类别预测方法获得与方面类别有关的重要词语作为方面类别指示词，将该词所在的位置作为重要位置信息，具体步骤包括：

在每个头可以被定义为：

10.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述步骤4中引入门控机制过滤噪声信息，以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息，引入的上下文向量C将H转换为信息化的查询层和关键层，改进后的{Q^k，K^k}如下表示:

其中

是上下文矩阵，/>

为可训练的参数，

是权重向量，可以避免由于/>

和/>

其中

O＝F_i⊙O′ (10)

F＝σ_f(W_f·O′+U_f·C+b_f) (11)

⊙表示Hadamard乘积，σ_f为sigmoid函数；

为简单起见，上述全部过程可以表述为:

O＝CGAtt(H，C) (12)

式(12)中CGAtt表示上述包含情景的自注意力机制的统称，在方面类别情感分析中，位置信息可以关注出现在句子中的方面信息，但即使方面类别中不存在于文本中，位置信息仍然起着重要的作用；句子中存在表示方面信息的词，可以将其视为方面指示词，把它们的位置看作是相应方面类别的位置；通过方面类别识别来获得对方面类别具有重要影响的单词权重，获得该单词的位置信息。

11.根据权利要求10所述的基于自注意力的多层次融合方面类别情感分析方法，其特征在于，所述通过方面类别识别来获得对方面类别具有重要影响的单词权重，具体方法为：

H_t＝LSTM(h_t-1，x_t) (13)