CN113553831A

CN113553831A - 基于bagcnn模型的方面级别情感分析方法和系统

Info

Publication number: CN113553831A
Application number: CN202110651397.0A
Authority: CN
Inventors: 余本功; 张书文; 罗贺; 杨颖�; 张强; 杨善林
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-10-26

Abstract

本发明提供一种基于BAGCNN模型的方面级别情感分析方法、系统、存储介质和电子设备，涉及情感分析技术领域。本发明将评论文本序列输入词嵌入层中，基于预先训练的词嵌入模型获取上下文词嵌入矩阵和方面词特征矩阵；将上下文词嵌入矩阵输入注意力自编码层中，基于多头注意力机制，获取关联上下文特征矩阵；将关联上下文特征矩阵输入门控卷积层，采用多种尺寸的卷积核并行计算卷积结果，结合方面词特征矩阵，获取最终的特征矩阵；将最终的特征矩阵输入输出层，基于预先训练的分类器获取对应方面词情感类别的概率值，确定情感类别。在词嵌入过程中将上下文与方面词信息融合，不需要复杂的下游结构提取特征，实现更加准确地挖掘评论文本的各方面真实情感。

Description

基于BAGCNN模型的方面级别情感分析方法和系统

技术领域

本发明涉及情感分析技术领域，具体涉及一种基于BAGCNN模型的方面级别情感分析方法、系统、存储介质和电子设备。

背景技术

情感分析作为自然语言处理领域的分支，能够从评论信息中分析用户所表达的观点或态。研究该任务具有实际应用价值，例如，分析股民的评价可以预测股票价格、分析顾客对产品的评价可进行产品推荐。评论文本中不同方面可能有不同的情感，例如语句“theprice is reasonable although the service is poor”中，对“price”和“service”两方面分别表达的是积极情感和消极情感。此时分析整体评论文本不能精确提取用户对于产品各方面的情感信息，故需要采用方面级别情感分析方法。该方法可用于完成细粒度情感分析任务，即挖掘评论文本的不同方面情感信息。

目前，基于机器学习的传统方面级别情感分析模型可取得不错的分类效果，比如基于SVM模型训练的情感分类模型。然而，此类模型依赖于大量复杂的特征工程，构建特征工程的过程需要相关领域专家的知识支撑，并且该过程费时费力和易错。此外，由于深度学习模型可自动提取文本的特征信息，大量的深度学习知识不断被应用于方面级别情感分析任务。

例如，Dehong Ma等人发表的《Interactive Attention Networks for Aspect-Level Sentiment Classification》中提出的IAN模型，该模型提供一种交互注意力网络，使用该网络根据上下文信息为方面词赋权，同时通过方面词信息为上下文赋权，分别提取上下文和方面词的重要信息。模型首先使用预训练语料库glove分别得到上下文和方面词的特征表示为E_c和E_a，然后对于两者分别使用LSTM网络提取相应的特征可得H_c和H_a，随后使用平均池化操作分别得到上下文和方面词的特征表示

和

之后通过

使用注意力来更改方面词的特征表示得到t_r，同样的方式通过

使用注意力来更改上下文的特征表示得到c_r，之后将t_r和c_r拼接后作为最后提取到的特征。

再如，Yequan Wang等发表的论文《Attention-based LSTM for aspect-levelsentiment classification》中提出的ATAE-LSTM模型，该模型考虑到方面级别情感分析任务依赖于方面词的特点，两次使用方面词特征表示，并使用LSTM和注意力机制进行特征提取。模型首先通过预训练语料库glove得到上下文和方面词的特征表示为W_c和W_a，在词嵌入层将W_c和W_a拼接作为LSTM模型的输入得到特征向量H。此时再次使用方面词特征表示W_a，并与H拼接后使用注意力机制来抓取特征向量中的重要信息。

但是，上述方面级别情感分析方案均存在着诸多弊端。譬如，未能充分有效融合评论文本的上下文信息，进而无法精确挖掘评论文本的各方面真实情感。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于BAGCNN模型的方面级别情感分析方法、系统、存储介质和电子设备，解决了未能充分有效融合评论文本的上下文信息，进而无法精确挖掘评论文本的各方面真实情感的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于BAGCNN模型的方面级别情感分析方法，所述BAGCNN模型包括词嵌入层、注意力自编码层、门控卷积层和输出层；该方法包括：

S1、预处理待分析的评论文本，获取评论文本序列和对应的方面词序列；

S2、将所述评论文本序列输入所述词嵌入层中，基于预先训练的词嵌入模型获取上下文词嵌入矩阵；并从所述上下文词嵌入矩阵中提取方面词特征矩阵；

S3、将所述上下文词嵌入矩阵输入所述注意力自编码层中，基于多头注意力机制，获取关联上下文特征矩阵；

S4、将所述关联上下文特征矩阵输入所述门控卷积层，采用多种尺寸的卷积核并行计算卷积结果，结合所述方面词特征矩阵，获取最终的特征矩阵；

S5、将最终的特征矩阵输入所述输出层，基于预先训练的分类器获取对应方面词情感类别的概率值，确定情感类别。

优选的，所述S2中预先训练的词嵌入模型包括BERT模型。

优选的，所述S3具体包括：

S31、将所述上下文词嵌入矩阵E^c输入所述注意力自编码层中，在单头自注意力计算中，将所述E^c根据参数矩阵W_i ^Q、W_i ^K、W_i ^V进行线性变换，将变换的结果作为放缩点积注意力的Q、K、V输入，

headⁱ＝Attention(E^cW_i ^Q,E^cW_i ^K,E^cW_i ^V) (1)

其中，headⁱ表示第i个单头提取的上下文特征矩阵；Attention表示放缩点积函数，

其中，d_in表示K向量的输入维度；softmax表示激活函数；

S32、拼接多个所述单头自注意力计算结果，获取关联上下文特征矩阵A^c，

A^c＝[head¹；head²；…；head^h]W_h (3)

其中，

为多头结果拼接后作线性变换所需的参数矩阵，d_out表示关联上下文特征矩阵A^c的输出维度；“；”表示拼接操作。

优选的，所述S4具体包括：

S41、将所述关联上下文特征矩阵A^c输入所述门控卷积层，采用多种尺寸的卷积核并行计算卷积结果；根据是否使用激活函数，所述卷积结果包括作为正常卷积结果的第一上下文特征矩阵

以及特征强化后的第二上下文特征矩阵

其中，

W_c和W_c′表示预先训练的参数矩阵，b_c和b′_c表示偏置项；k表示卷积核窗口尺寸；d_conv表示输出通道数；tanh表示激活函数；“*”表示卷积操作；m′表示向量长度；

S42、根据所述

和方面词特征矩阵E^a，获取过滤矩阵F^k；

其中，W_f表示预先训练的参数矩阵，b_f表示偏置项；方面词特征矩阵E^a经过最大池化得到

relu表示激活函数；

S43、根据所述

和F^k，经过最大池化获取第三上下文特征矩阵c^k；

S44、合并多种尺寸的卷积核对应的c^k，获取最终的特征矩阵G；

G＝[c³；c⁴；c⁵] (8)

其中，卷积核窗口尺寸k包括3、4和5三种。

优选的，所述S2中获取所述方面词特征矩阵的方法包括：根据方面词在评论文本上下文中预定义的位置索引，从所述上下文词嵌入矩阵中提取方面词特征表示。

优选的，所述S5中预先训练的分类器包括softmax分类器。

优选的，所述S5对应方面词情感类别的概率值表示为

其中，G表示最终的特征矩阵；W_o表示预先训练的参数矩阵；b_o表示偏置。

一种基于BAGCNN模型的方面级别情感分析系统，所述BAGCNN模型包括词嵌入层、注意力自编码层、门控卷积层和输出层；该系统包括：

预处理模块，用于预处理待分析的评论文本，获取评论文本序列和对应的方面词序列；

词嵌入模块，用于将所述评论文本序列输入所述词嵌入层中，基于预先训练的词嵌入模型获取上下文词嵌入矩阵；并从所述上下文词嵌入矩阵中提取方面词特征矩阵；

注意力自编码模块，用于将所述上下文词嵌入矩阵输入所述注意力自编码层中，基于多头注意力机制，获取关联上下文特征矩阵；

门控卷积模块，用于将所述关联上下文特征矩阵输入所述门控卷积层，采用多种尺寸的卷积核并行计算卷积结果，结合所述方面词特征矩阵，获取最终的特征矩阵；

输出模块，用于将最终的特征矩阵输入所述输出层，基于预先训练的分类器获取对应方面词情感类别的概率值，确定情感类别。

一种存储介质，其存储有用于基于BAGCNN模型的方面级别情感分析的计算机程序，其中，所述计算机程序使得计算机执行如上所述的方面级别情感分析方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的方面级别情感分析方法。

(三)有益效果

本发明提供了一种基于BAGCNN模型的方面级别情感分析方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明包括获取评论文本序列和对应的方面词序列；将所述评论文本序列输入词嵌入层中，基于预先训练的词嵌入模型获取上下文词嵌入矩阵和方面词特征矩阵；将所述上下文词嵌入矩阵输入注意力自编码层中，基于多头注意力机制，获取关联上下文特征矩阵；将所述关联上下文特征矩阵输入门控卷积层，采用多种尺寸的卷积核并行计算卷积结果，结合所述方面词特征矩阵，获取最终的特征矩阵；将最终的特征矩阵输入输出层，基于预先训练的分类器获取对应方面词情感类别的概率值，确定情感类别。在词嵌入过程中将上下文与方面词信息融合，不需要复杂的下游结构提取特征，实现更加准确地挖掘评论文本的各方面真实情感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于BAGCNN模型的方面级别情感分析方法的流程示意图；

图2为本发明实施例提供的一种BAGCNN模型的结构示意图；

图3为本发明实施例提供的一种基于BAGCNN模型的方面级别情感分析系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于BAGCNN模型的方面级别情感分析方法、系统、存储介质和电子设备，解决了未能充分有效融合评论文本的上下文信息，进而无法精确挖掘评论文本的各方面真实情感的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例包括获取评论文本序列和对应的方面词序列；将所述评论文本序列输入词嵌入层中，基于预先训练的词嵌入模型获取上下文词嵌入矩阵和方面词特征矩阵；将所述上下文词嵌入矩阵输入注意力自编码层中，基于多头注意力机制，获取关联上下文特征矩阵；将所述关联上下文特征矩阵输入门控卷积层，采用多种尺寸的卷积核并行计算卷积结果，结合所述方面词特征矩阵，获取最终的特征矩阵；将最终的特征矩阵输入输出层，基于预先训练的分类器获取对应方面词情感类别的概率值，确定情感类别。在词嵌入过程中将上下文与方面词信息融合，不需要复杂的下游结构提取特征，实现更加准确地挖掘评论文本的各方面真实情感。

实施例：

第一方面，如图1所示，本发明实施例提供了一种基于BAGCNN模型的方面级别情感分析方法，如图2所示，所述BAGCNN模型包括词嵌入层、注意力自编码层、门控卷积层和输出层；该方法包括：

本发明实施例在词嵌入过程中将上下文与方面词信息融合，不需要复杂的下游结构提取特征，实现更加准确地挖掘评论文本的各方面真实情感。

下面将结合具体的内容介绍上述方案的各个步骤：

S1、预处理待分析的评论文本，获取评论文本序列和对应的方面词序列。

预处理待分析的评论文本，获取一条长度为m的评论文本序列

和对应的方面词序列

其中，方面词a是评论文本c中长度为n的子序列；本发明实施例提供的方面级别情感分析方法的主要任务是评论文本c中方面词a对应的情感极性；

和

分别表示上下文和方面词中地i个单词。

S2、将所述评论文本序列输入所述词嵌入层中，基于预先训练的词嵌入模型获取上下文词嵌入矩阵；并从所述上下文词嵌入矩阵中提取方面词特征矩阵。

本步骤将所述评论文本序列c以

的形式输入预训练的的词嵌入模型，例如BERT模型，其中占位符[CLS]和[SEP]分别表示输入开始符号和分句符号；经过编码生成上下文词嵌入矩阵

如公式(1)所示。

E^c＝BERT(c) (1)

根据方面词在评论文本上下文中预定义的位置索引，从所述上下文词嵌入矩阵E^c中提取方面词特征表示

如公式(2)所示。

其中，其中i′表示方面词在编码后的评论文本上下文中起始位置，m′和n′分别表示编码后的评论文本上下文和对应方面词序列长度,d_emb表示词向量维度。

本步骤中采用BERT模型，在词嵌入过程中将上下文与方面词信息融合，有利于实现更加准确地挖掘评论文本的各方面真实情感。

S3、将所述上下文词嵌入矩阵输入所述注意力自编码层中，基于多头注意力机制，获取关联上下文特征矩阵。

与循环神经网络加注意力结构不同的是，本发明实施例将多头自注意力机制应用在词嵌入层之后，通过多头并行赋权的方式，计算每个词之间的相关程度。例如，“theprice is reasonable although the service is poor”这一上下文中，修饰词“reasonable”对于方面词“price”可获得较大的权重，同理于修饰词“poor”和方面词“service”。因此，引入多头自注意力机制可有效解决方面词长距离依赖的问题。

所述S3具体包括：

headⁱ＝Attention(E^cW_i ^Q,E^cW_i ^K,E^cW_i ^V) (3)

其中，d_in表示K向量的输入维度；softmax表示激活函数。

A^c＝[head¹；head²；…；head^h]W_h (5)

其中，

为多头结果拼接后作线性变换所需的参数矩阵，d_out表示关联上下文特征矩阵A^c的输出维度；“；”表示拼接操作。公式(5)表示的放缩点积注意力的本质是使用点积注意力进行相似度计算，通过除以输入维度起调节作用。

S4、将所述关联上下文特征矩阵输入所述门控卷积层，采用多种尺寸的卷积核并行计算卷积结果，结合所述方面词特征矩阵，获取最终的特征矩阵。

现有技术中为了捕捉上下文局部特征，常以卷积神经网络滑动卷积窗口的方式提取上下文相邻单词的特征信息。由于卷积过程不受序列的影响，设置多种滑动窗口可并行地提取不同层次的局部特征。然而，在卷积过程中，与方面词无关的上下文信息可能成为噪声信息，影响卷积结果。因此，本发明实施例使用多层次卷积神经网络并行提取局部特征信息时，与门控机制结合，可实现选择性提取与方面词相关的局部上下文特征。

所述S4具体包括：

以及特征强化后的第二上下文特征矩阵

其中，

W_c和W_c′表示预先训练的参数矩阵，b_c和b′_c表示偏置项；k表示卷积核窗口尺寸；d_conv表示输出通道数；tanh表示激活函数；“*”表示卷积操作；m′表示向量长度。

S42、根据所述

和方面词特征矩阵E^a，获取过滤矩阵F^k；

具体的，为了在门控机制中将评论文本上下文信息和方面词关联，需要提取最具代表的方面词特征，因此将方面词特征矩阵E^a经过最大池化得到

将特征强化后的第二上下文特征矩阵

和最具代表的方面词特征信息V_a相加，可计算评论文本上下文与方面词相关程度；然后使用relu激活函数将与方面词信息无关的上下文特征信息置为零，进而形成过滤矩阵F^k。

其中，W_f表示预先训练的参数矩阵，b_f表示偏置项；relu表示激活函数；

S43、根据所述

和F^k，经过最大池化获取第三上下文特征矩阵c^k；

采用过滤矩阵从卷积结果中进一步提取上下文特征信息，即实现门控效果。如公式(9)所示，将

与F^k对应元素相乘，表示未使用门控机制的卷积结果，即上述正常卷积结果的第一上下文特征矩阵

通过过滤矩阵F^k，将与方面词无关的评论文本上下文信息剔除；最后经过最大池化选择最重要的卷积特征作为第三上下文特征矩阵c^k；

由于多层次卷积操作是并行计算的过程，并不会增加模型复杂度。因此，为了提取到不同层次上下文局部信息，本步骤将卷积核窗口尺寸设为3、4和5三种；最后将各层次卷积结果拼接，作为由门控卷积网络提取到的特征矩阵G，

G＝[c³；c⁴；c⁵] (10)。

所述S5中预先训练的分类器包括softmax分类器。具体的，将卷积得到的最终的特征矩阵，经过softmax分类器进行归一化，得到对应方面词情感类别的概率值，本发明实施例中的情感类别包括positive、neutral和negative三种；其中最大概率值所对应的情感即为模型所预测的结果，如公式(11)所示；

特别的，为了验证本发明实施例提供的模型BAGCNN在解决方面级别情感分析任务的有效性，采用三种公开数据集进行实验：

首先是SemEval-2014task 4中包含的两个数据集，分别是客户对于Restaurant和Laptop的评价；其次是背景技术中提及的Yequan Wang等发表的论文《Attention-basedLSTM for aspect-level sentiment classification》，该论文收集的Twitter数据集。

上述三个数据集的每条数据包括评论上下文、方面词及对应情感类别三个字段，其中情感类别由positive,neutral和negative三种组成。

实验参数设置：由预训练BERT模型得到的词嵌入维度d_emb为768，门控卷积窗口尺寸设有3、4和5三种，卷积输出通道数d_conv设置为100，其它超参数如表1所示。为了评估模型分类效果，选用Accuracy和Macro-F1两种评判指标。为了减小误差的影响，模型分别在三个数据集进行五次实验后，取各实验结果平均值作为最终结果。

表1超参数设置

parameter	value
		dropout rate	0.1
batch size	32
		epoch	6
optimizer	Adam
		learning rate	2e-5

实验采用Accuracy和Macro-F1两种评价指标来表示模型分类效果，分别表示为：

如公式(12)所示，Accuracy表示模型预测正确的样本数与总样本数之比，其中T表示预测正确的样本数，N表示总样本数。

如公式(13)所示，Macro-F1由各个类别的F1值表示精确率和召回率的调和平均，其中每个类别中，TP表示预测正样本数，FP表示预测错误正样本数，TN表示预测正确负样本数，FN表示预测错误的负样本数。

第一，为了验证本发明实施例中预训练BERT模型作为词嵌入工具的合理性，多头自注意力机制的有效性和门控卷积网络的适用性，选取以下方面级别情感分析模型(本发明实施例以及背景技术中两份现有方面级别情感分析模型)进行分析和对比。

实验结果如表2所示，本发明在三种数据集上的各种指标都处于最优，可验证本发明在该任务下的有效性。

表2模型分类效果

注：加粗的数据表示效果最佳

第二，为了验证本发明实施例下游结构复杂度低的优点，所以对比模型均选取Glove作为词嵌入工具。除去词嵌入工具BERT模型的影响，将BAGCNN模型中的预训练BERT换成Glove语料库作为词嵌入工具，构成模型Glove-AGCNN。

同时，为了与序列结构复杂度比较，将LSTM网络加注意力结构代替Glove-AGCNN模型中门控卷积网络，构建另一个对比模型Glove-LSTM-ATT。在实验过程中，所有模型实验控制在相同条件下进行。

实验结果如表3所示，表中记录了各模型所需训练的参数量和所占显存大小。

表3模型尺寸

Models	Params×10<sup>6</sup>	Memory(Mb)
			ATAE-LSTM	2.53	13.76
Glove-LSTM-ATT	2.07	16.90
			IAN	2.17	12.40
Glove-AGCNN	1.02	11.13

本组实验按对比模型是否使用循环神经网络分为Ⅰ和Ⅱ部分。整体对比Ⅰ和Ⅱ部分实验结果发现，基于循环神经网络的模型复杂度高于非循环神经网络模型，归因于循环神经网络作为序列结构，无法实现并行操作而增加模型整体复杂度。其中，Glove-AGCNN模型复杂度在对比模型中仅次于最低，因为该模型的注意力层引入了较多需训练的参数。而相对于Glove-LSTM-ATT模型，Glove-AGCNN模型的两种指标都明显优于该序列结构，表明本发明实施例下游结构复杂度低于序列结构构成的模型。

第二方面，如图3所示，本发明实施例提供了一种基于BAGCNN模型的方面级别情感分析系统，所述BAGCNN模型包括词嵌入层、注意力自编码层、门控卷积层和输出层；该系统包括：

可理解的是，本发明实施例提供的基于BAGCNN模型的方面级别情感分析系统与本发明实施例提供的基于BAGCNN模型的方面级别情感分析方法相对应，其有关内容的解释、举例和有益效果等部分可以参考基于区块链的方面级别情感分析方法中的相应部分，此处不再赘述。

第三方面，本发明实施例提供了一种存储介质，其存储有用于基于BAGCNN模型的方面级别情感分析的计算机程序，其中，所述计算机程序使得计算机执行如上所述的方面级别情感分析方法。

第四方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器；以及

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例包括获取评论文本序列和对应的方面词序列；将所述评论文本序列输入词嵌入层中，基于预先训练的词嵌入模型获取上下文词嵌入矩阵和方面词特征矩阵；将所述上下文词嵌入矩阵输入注意力自编码层中，基于多头注意力机制，获取关联上下文特征矩阵；将所述关联上下文特征矩阵输入门控卷积层，采用多种尺寸的卷积核并行计算卷积结果，结合所述方面词特征矩阵，获取最终的特征矩阵；将最终的特征矩阵输入输出层，基于预先训练的分类器获取对应方面词情感类别的概率值，确定情感类别。在词嵌入过程中将上下文与方面词信息融合，不需要复杂的下游结构提取特征，实现更加准确地挖掘评论文本的各方面真实情感。

2、本发明实施例中采用BERT模型，在词嵌入过程中将上下文与方面词信息融合，有利于实现更加准确地挖掘评论文本的各方面真实情感。

3、本发明实施例针对在卷积过程中与方面词无关的上下文信息可能成为噪声信息，影响卷积结果的缺陷，合理使用了多层次卷积神经网络并行提取局部特征信息，并与门控机制结合，可实现选择性提取与方面词相关的局部上下文特征。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。