CN116205222A

CN116205222A - 一种基于多通道注意力融合的方面级情感分析系统及方法

Info

Publication number: CN116205222A
Application number: CN202310500326.XA
Authority: CN
Inventors: 孙雁飞; 武长超; 亓晋; 孙莹; 胡筱旋; 董振江
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-06-02

Abstract

本发明属于自然语言处理技术领域，公开了一种基于多通道注意力融合的方面级情感分析系统及方法，使用BERT预训练模型，将初始文本数据转换成为带有上下文语境信息的文本词向量。通过方面词增强机制，增强方面词在文本中的语义权重；通过BiGRU神经网络捕捉文本序列的位置信息，学习文本内的顺序关系，提取文本特征。构建多通道注意力融合层，引入文本卷积神经网络，多维度地提取不同大小的高维文本特征，同时每个通道中引入自注意力机制，有效地利用了上下文对于方面词的注意力信息，提高模型准确率。

Description

一种基于多通道注意力融合的方面级情感分析系统及方法

技术领域

本发明属于自然语言处理技术领域，具体是涉及一种基于多通道注意力融合的方面级情感分析系统及方法。

背景技术

近些年来全球互联网行业得到快速发展，互联网在人们的日常生活中所占的比重越来越大，我们可以看到网络上用户生成内容的大量增加，大量的文本数据得以生成。随着先进的数字化技术得到应用，人们群众越来越倾向于通过互联网在网络上进行购物、观看网络直播进行娱乐、接受在线教育，以及通过QQ、微信、微博等社交软件进行社交以及评论。人们在使用互联网来进行各种社会活动的过程当中，大概率会产生并传递个人的观点、意见、情绪、立场等相关情感信息，例如消费者在进行网络购物之后，会在购物平台上面对商家服务态度以及购买的商品质量等进行评价；在微博、贴吧以及知乎等社交平台上面，人们热衷于关注社会上发生的实时热点事件，并参与话题的讨论，表达出对该事件的情感态度。对这些带有情感倾向的数据进行收集、分析、归纳，从中识别出情感倾向或观点的过程，就是情感分析，又称观点挖掘、倾向性分析，是人们对产品、服务、问题、事件以及主题等实体的观点、情感、态度及其属性的计算研究。情感分析目前已经成为自然语言处理(NaturalLanguage Processing, NLP)中最活跃的研究领域之一，也在数据挖掘，Web挖掘，文本挖掘和信息检索方面有广泛的应用，具有极高的现实研究价值。

文本数据的情感分析任务可以根据所研究内容的细粒度大小分为篇章级、句子级以及方面级。以往对于文本的情感分析研究大都聚焦于篇章级以及句子级这两级文本上面，对于方面级文本的情感分析研究比较少。由于人类语言内容相当丰富，一段话甚至一句话中通常包含多个方面多个实体，若只是在篇章级和语句级上面对文本进行整体的情感分析，不可避免地会丢失大量信息，得出的结论甚至会与真实情况大相径庭。例如“洗衣机很好用，但是快递很慢，商家服务态度也不好”；其中，“洗衣机”作为目标，其情绪倾向是正向的；而“快递”以及“服务态度”作为目标，其情绪倾向是负向的。这个事例中关联到对商品性质和服务方面的评价，且每个方面对应的情绪偏向是不一样的，因此，直接对整个句子判定情绪倾向，不但不严谨，而且不精确。总体来说，基于方面级别的文本情感分类，更具有针对性且更有价值，所以受到广泛研究者的关注，对方面级情感分析的要求也日益增加，逐渐成为了情感分析问题的研究热点和重点。

但现有技术中对于方面级情感分析的方法，多采用静态词嵌入，导致向量不具备上下文语境信息且无法应对一词多义，同时特征提取网络无法多维度地挖掘文本中的局部特征和语境信息。如专利申请CN112434161A公开了一种采用双向长短期记忆网络的方面级情感分析方法，改善传统的情感分析算法中对不同方面情感分析的单一性及笼统型问题，更加准确的对用户评论中不同方面的情感极性进行判断；但其没有能够充分考虑文本的上下文语境，所采用的长短期记忆网络（LSTM）模型效率不高；仅仅使用一个双向LSTM网络里挖掘文本的隐藏信息，易遗漏大量关键信息，使得上下文语境信息利用不充分；所引入的Encoder-Decoder模型，无法兼顾局部与总体特征，没有误差修正，无法有效地对不同词汇分配合适的注意力，使得模型拟合效率低下，算力消耗大。

发明内容

为解决上述技术问题，本发明提出了一种基于多通道注意力融合的方面级情感分析系统及方法，利用BERT预训练模型处理初始文本，通过方面词增强、BiGRU神经网络提取文本特征；构建多通道注意力融合层，使用文本卷积神经网络多维度地提取局部信息，结合自注意力机制有效利用上下文信息，从而提高模型准确率。

一种基于多通道注意力融合的方面级情感分析系统，包括基于transformer的BERT训练模型、BiGRU神经网络、多通道注意力融合层、全连接网络；

所述基于transformer的BERT训练模型用于将初始文本数据转换为上下文语境信息的文本词向量；通过方面词增强机制，对文本词向量进行方面词增强；

BiGRU神经网络捕捉文本词向量的位置信息，学习文本内的顺序关系，提取文本特征，得到文本特征矩阵；

多通道注意力融合层，多维度地提取不同大小的文本特征矩阵局部信息，得到高维特征矩阵，并通过自注意力机制，计算高维特征矩阵中每个向量的注意力权重，提取高维特征矩阵中隐藏的上下文信息；进一步对所提取出来的上下文信息进行拉伸拼接；

全连接网络对多通道注意力融合层输出的文本上下文信息进行处理，经过softmax得到情感极性预测结果。

进一步的，所述多通道注意力融合层，包括文本卷积神经网络TEXTCNN和自注意力机制，在文本卷积神经网络TEXTCNN的每个卷积通道中融入自注意力机制；

文本卷积神经网络TEXTCNN对BiGRU神经网络的输出特征矩阵做卷积操作，通过定义多个不同感受野大小的卷积核，多维度全方面地提取不同大小的文本高维特征；

注意力层用于深层次捕获文本卷积神经网络TEXTCNN输出高维特征中的隐藏信息，分配给文本情感极性关键词更多的注意力，同时降低非关键词的注意力权重，调整所述系统侧重点。

一种基于多通道注意力融合的方面级情感分析方法，包括以下步骤：

步骤1、使用基于transformer的BERT训练模型完成词嵌入操作，将初始文本数据转化为包含上下文语境信息的文本词向量；

步骤2、利用方面词增强机制，将文本词向量进行方面词的增强；

步骤3、将方面词增强后的文本词向量输入至BiGRU神经网络，进行双向语义挖掘，产生序列化的输出特征矩阵；

步骤4、将步骤3得到的输出特征矩阵输入至文本卷积网络TEXTCNN中，得到对应不同维度卷积核的高维特征矩阵；

步骤5、将高维特征矩阵分别输入自注意力机制中，获得特征矩阵中各向量对应的自注意力系数；

步骤6、将自注意力系数与步骤5中特征矩阵中对应的向量做乘法，获得相应的带注意力的特征词向量；

步骤7、将步骤6得到的多个通道的带注意力的特征词向量进行拼接拉平，输入至全连接网络中，在经过softmax得到情感极性预测结果。

进一步的，步骤1中，基于transformer的BERT训练模型完成词嵌入操作，将初始文本数据转化为包含上下文语境信息的文本词向量，具体为：

步骤1-1、将输入的初始文本数据设置固定的序列长度，不足的部分用[PAD]补充；

步骤1-2、输入的初始文本数据每句话的开头第一个位置用[CLS]表示，每句话之间用[SEP]间隔开，然后输入至基于transformer的BERT训练模型进行训练；

步骤1-3、基于transformer的BERT训练模型将接收到的初始文本数据进行词切割，将完整的句子切割成单个的词汇；

步骤1-4、对所获得的词汇进行三重编码，根据字典语料库对每个词汇进行向量表示，同时将每个词汇的位置信息进行编码，并对词汇的段落信息进行编码；最终转换成语义编码、位置编码、段落编码的组合编码格式；

步骤1-5、通过基于transformer的BERT训练模型将每个词汇转换为一个包含上下文语境信息的768维文本词向量。

进一步的，步骤2中，将文本词向量进行方面词的增强，具体为：

步骤2-1、初始文本数据中包含m个词汇组成的初始方面词汇，将初始方面词汇输入至基于transformer的BERT训练模型进行词嵌入操作得到方面词向量；

步骤2-2、将每个句子的方面词向量进行池化，并进行扩维至文本词向量的长度；

步骤2-3、将方面词向量与文本词向量进行拼接，得到方面词增强的文本词向量。

进一步的，步骤3中，对于输入文本中的每个句子词向量，都将其传入一个前向的GRU单元和一个后向的GRU单元中，然后将前向、后向GRU单元计算的输出进行结合,得到双向GRU的输出。

本发明所述的有益效果为：本发明提出了基于多通道注意力融合的方面级情感分析系统及方法；聚焦于方面级细粒度文本情感分析，使用BERT模型进行词嵌入，在数层多头注意力机制的作用下，将初始文本数据转换成为带有上下文语境信息的文本词向量；通过方面词增强机制，增强方面词在文本中的语义权重；在特征提取阶段使用BiGRU神经网络在前后两个方向上面对文本进行建模，捕捉文本序列的位置信息，学习文本内的顺序关系，挖掘文本特征；进一步构建多通道注意力融合层，引入TEXTCNN神经网络，定义多个不同大小的卷积核，多维度全方面地提取不同大小的文本特征矩阵局部信息，得到高维特征矩阵，使得抽取出来的特征信息具有多样性；同时每个通道中引入自注意力机制模型，有效地利用上了经常被忽略的上下文至于方面词的注意力信息，简化模型复杂度，提高模型准确率。

附图说明

图1是本发明所述系统的结构示意图；

图2是BERT预训练模型示意图；

图3是基于transformer的BERT训练模型三层编码示意图；

图4是方面词增强机制示意图；

图5 是GRU网络构造示意图；

图6 是BiGRU网络模型结构示意图；

图7是多通道注意力融合层结构示意图；

图8是本发明所述方法的流程图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

如图1所示，本发明所述的一种基于多通道注意力融合的方面级情感分析系统，包括基于transformer的BERT训练模型、BiGRU神经网络、多通道注意力融合层、全连接网络；

初始的文本数据无法直接被神经网络模型即本发明所述的系统利用，故需要通过文本词嵌入网络将初始文本数据转换为系统能够利用的词向量形式。本发明所述的系统，其原始输入的是一个由N个连续的词汇组成的文本

；其中/>

为文本中的第i个词汇；初始文本中包含由m个词汇组成的方面词，从文本中的下标t+1开始。在得到初始文本/>

之后，在文本起始处以及结尾处分别插入标志符，转换为序列

。采用如图2所示的基于transformers编码器的BERT训练模型进行文本语义学习，将由文本中各个词语的字向量、分段向量以及位置向量共同组成的混合向量输入至该训练模型，这样使得每个词语的位置编码信息得到捕捉，并学习到文本的前后顺序关系。以一条评论文本“Good service attitude, but bad taste”为例，每个嵌入层( word embedding. segment embedding、position embedding）的表现形式如图3所示。文本词汇的字向量、分段向量和位置向量均采用相同维度大小，它们在神经网络中被用来有效地编码每个词在原始文本序列中的信息。具体而言，字向量表示每个词在语料库中的唯一向量表示；分段向量则用于判断每个词所属的句子或文本段落，同一句子或文本段落中的词汇共享相同的分段向量；而位置向量则编码每个词在原始文本序列中的位置信息，以帮助模型学习词语之间的顺序关系。在对词汇进行文本词嵌入操作后，得到整体的文本向量表示为/>

，其中/>

是基于transformers编码器的BERT训练模型隐藏层维数的大小，N为文本长度。

为了更好地利用方面信息，本发明所述的系统对方面词进行词义增强。如图4所示，同一批次数据内的每一个样本只对应一个方面词，将方面词汇输入至基于transformers的BERT训练模型中，进行词嵌入得到方面词向量。将方面词向量扩维至与序列长度一致，再将方面词向量矩阵与文本向量矩连接得到词义增强矩阵。如此，增强了方面词在句子文本中的语义权重，当不同方面作为输入时，自注意力机制可以选择性地集中在句子的不同部分。

本发明构建BiGRU网络对词义增强模块的输出文本向量进行双向语义挖掘，即使用前向GRU和后向GRU分别从两个方向学习文本数据的上下文语义信息。GRU网络构造如图5所示。

GRU在LSTM基础上进行了改进，将遗忘门和输入门组合进单独的更新门中，并且合并了单元状态和隐藏状态，使得其模型比标准LSTM模型更简单，GRU网络的计算过程如下：

，

，

，

，

其中，

表示更新门输出，/>

表示重置门输出，/>

表示本单元暂存信息量，/>

表示本单元输出信息量，/>

表示上一时刻状态信息，/>

表示本单元输入信息，/>

、/>

和

表示偏置项。前向GRU从/>

到/>

读取文本数据，后向GRU从/>

到/>

读取文本数据。前向GRU获得文本向量的前向隐藏状态/>

，后向GRU获得文本向量的后向隐藏状态/>

，将二者进行拼接得到最终的文本向量表示

。BiGRU网络模型结构如图6所示。BiGRU层的计算公式如下所示：

，

，

，

其中，

表示前向GRU输出的文本隐藏层特征向量，/>

表示前向GRU输出的文本隐藏层特征向量，/>

表示BiGRU网络最终输出的文本特征向量表示，/>

表示GRU模型的参数。

本发明为了进一步挖掘向量中的上下文信息，构建了多通道注意力融合层；使用文本卷积神经网络TEXTCNN做多通道特征提取，并在每个卷积通道中融入自注意力机制，调整模型侧重点，进一步提高模型的拟合效率。多通道注意力融合层结构如图7所示。

获得BiGRU网络的输出向量

，其中N为文本的长度，/>

是词向量的维度，使用文本卷积神经网络对输出向量做卷积操作，通过定义多个不同感受野大小的卷积核，多维度全方面地提取不同大小的文本局部特征，使得抽取出来的文本特征向量具有多样性和代表性。

注意力层用于深层次捕获TEXTCNN文本特征提取网络输出向量中的隐藏信息，分配给文本情感极性关键词更多的注意力，同时降低非关键词的注意力权重，调整模型侧重点，提高模型的拟合效率。引入自注意力机制，对文本中单词与单词之间的长依赖进行关系提取，得出文本中每一个区域与其他区域之间的相关联程度，缩小具有远距离依赖性的文本特征差异，以获得文本的全局语义特征。自注意力计算过程如下：

，

，

其中，向量

代表着文本当前的目标词向量，向量/>

代表着除本词向量以外的文本中的其余单个词向量；/>

代表着文本中第j个词向量应该得到的注意力权重，/>

代表着整个文本的长度，/>

代表着第j个词向量与目标词向量的相关联程度。

为获取文本中各词汇之间的相关联性，从文本的第一个词汇开始，依次进行向量

与向量/>

之间的点积运算。进一步将目标词汇与其余各词汇之间的相似程度输入至softmax函数之中，便可得出文本中个词汇的注意力权重，进一步将得到的注意力权重与

所对应的词向量/>

相乘，作为该词汇的注意力语义特征表示：

，

多通道注意力融合层借鉴transformers中的注意力机制，将文本向量数据同时作为Query、Key以及Value，计算了文本中所有单词与其余词汇的注意力权重，来提取文本的上下文信息特征，进一步简化了相关权重运算。

基于上述系统进行方面级文本情感分析方法，如图8所示，包括以下步骤：

步骤1、使用基于transformer的BERT训练模型完成词嵌入操作，将初始文本数据转化为包含上下文语境信息的文本词向量，具体为：

步骤1-1、获得初始文本序列，设置固定的序列长度，不足的部分用[PAD]补充；

步骤1-2、输入的初始文本数据每句话的开头第一个位置用[CLS]表示，每句话之间用[SEP]间隔开，然后经过多层注意力机制网络进行训练；

步骤1-5、通过基于transformer的BERT训练模型将每个文本词汇转换为一个包含上下文语境信息的768维文本词向量；

步骤2、利用方面词增强机制，将文本词向量进行方面词的增强，具体为：

步骤2-3、将方面词向量与文本词向量进行拼接，得到方面词增强的文本词向量；

步骤3、将方面词增强后的文本词向量输入至BiGRU神经网络，进行双向语义挖掘，产生序列化的输出向量；具体的，对于输入文本中的每个句子词向量，都将其传入一个前向的GRU单元和一个后向的GRU单元中，然后将前向、后向GRU单元计算的输出进行结合,得到双向GRU的输出，得到文本特征矩阵；

步骤4、将步骤3得到的输出文本特征矩阵输入至文本卷积网络TEXTCNN中，得到对应不同维度卷积核的高维特征矩阵；

步骤5、将高维特征矩阵分别输入自注意力机制中，获得高维特征矩阵中各个特征向量对应的自注意力系数；

步骤6、将自注意力系数与步骤5中对应的特征向量分别做乘法，获得相应的带注意力的高维特征向量；

步骤7、将步骤6得到的多个通道的带注意力的高维特征向量进行拼接拉平，输入至全连接网络中，在经过softmax得到情感极性预测结果。

本发明所述的系统采用交叉熵损失函数计算实验误差，为了快速对模型进行拟合，使用反向传播与随机梯度下降adam算法进行优化，并且设置学习率为0.00001。为避免模型过拟合，模型选取0.01的L2正则化参数。另一方面为在较短时间内找到合适的参数，选用xavier_uniform函数对模型参数进行初始化；词嵌入层维度选用768，BiGRU层数为2；batch_size选用32，dropout取0.2；并同时使用权威数据semeval2014中的公开子数据集Restaurant子数据集，作为试验数据。进一步采用业内公认标准：准确率与F1分数作为模型优劣评判标准。

为了得出本发明所提出系统的先进性，复现数个经典且先进的基准模型作为对比实验，具体的基准模型包括：

(1)TEXTCNN: 在传统卷积神经网络CNN的基础上面，TEXTCNN模型通过定义多个不同大小的卷积核，使得抽取出来的特征向量具有多样性和代表性；

(2)LSTM：基于递归神经网络的标准LSTM神经网络模型，利用LSTM神经网络得到文本数据中所有单词的隐藏状态，然后将LSTM中末端单元的隐藏状态输出进行情感分类；

(3)TD-LSTM：基于两个独立的LSTM神经网络模型，将文本数据分为两部分，第一部分为方面词以及方面词前面的文本，第二部分为方面词以及方面词之后的内容，将这两部分数据分别输入至LSTM网络中，将两部分LSTM网络输出的隐藏层状态拼接，分类得到最终结果；

(4)MEMNet模型: 该模型在上下文嵌入上使用深度记忆网络进行句子表示，以获得每个上下词和方面词之间的相关性。最终，根据最后一层注意力层的计算结果预测方面词情感极性；

(5)AOA：模型对上下文和方面词进行处理获取对应的词向量表示，输入到BI-LSTM网络后得到前向和后向隐藏层状态，之后引用阅读理解任务中的AOA机制，得到结果后和上下文BI-LSTM网络的隐藏层状态做点积操作，输入到分类层进行分类；

(6)BERT_SPC：使用BERT预训练模型对初始文本进行词嵌入操作，得到带上下文语义信息的词向量。直接将得到的词向量输入至全连接网络中进行情感极性分类。

本发明所述的系统与基准模型在同一数据集上实验结果如下：

，

由上表数据可知，本发明所提模型，在各方面上都较基准模型有较大提升。表现均优于其他模型，可见本模型是先进的。

下面以实例来对本发明所述的方法进行说明。

某电脑品牌为了了解自家产品不足的地方，故从相关购物点评网站获得用户对该款电脑的评论文本数据，利用本发明来提取出用户对该产品各方面的好评与否，例如，CPU处理速度，屏幕分析率，耗电量等方面，以求改进；

（1）从相关购物平台获得评论初始文本数据，将该产品结构化文本数据输入至词嵌入模块，使用基于transformer的BERT预训练模型，将文本以语义编码、位置编码、段落编码，三重编码的形式进行编码，将文本数据转化为包含上下文语境信息的词向量数据，将给定的长度为Lx的文本序列转换成为向量形式：

，其中方面词序列为/>

，dm代表着词向量的嵌入维度，此处我们选择768维；

(2) 在获得包含上下文语境信息的文本词向量之后，进行方面词的增强，由于每个方面词的长度不同，若直接拼接，则会插入大量无关信息，故将每个句子的方面词，将方面词进行池化，并进行扩维至文本词向量的长度；

（3）将（2）中方面词增强了的词向量，双向GRU神经网络，得到双向GRU的输出。以多层次地挖掘词向量中隐藏的语境信息；

（4）将（3）中得到的文本词向量输入至文本卷积网络TEXTCNN当中，使用3个核大小分别为：[2、3、4]的卷积核，对其进行卷积操作，实现多维度，全方面的特征提取，得到对应不同卷积核的特征向量；

（5）将（4）中得到的特征向量，分别输入至注意力机制当中，获得各个向量相对应的注意力系数；

（6）将（5）中获得的注意力系数，与4中得到的不同卷积核的三个特征向量，分别做矩阵乘法，获得相应的带注意力的文本词向量；

（7）将（6）中得到的文本词向量进行拼接拉平，输入至全连接网络之中；

（8）最后通过全连接网络以及softmax层，得到用户关于该产品各个方面的情感倾向；

（9）对所有有效评论进行分析，得出所有用户对该电脑各个方面的好评差评占比；

（10）公司相关技术人员根据用户对该电脑产品各个方面的情感倾向占比进行评估，对不足的方面做出改进，例如进行提升电池容量，改进外观等。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于多通道注意力融合的方面级情感分析系统，其特征在于，包括基于transformer的BERT训练模型、BiGRU神经网络、多通道注意力融合层、全连接网络；

所述基于transformer的BERT训练模型用于将初始文本数据转换为上下文语境信息的文本词向量；

通过方面词增强机制，对文本词向量进行方面词增强；

2.根据权利要求1所述的一种基于多通道注意力融合的方面级情感分析系统，其特征在于，所述多通道注意力融合层，包括文本卷积神经网络TEXTCNN和自注意力机制，在文本卷积神经网络TEXTCNN的每个卷积通道中融入自注意力机制；

3.一种基于多通道注意力融合的方面级情感分析方法，其特征在于，所述方法包括以下步骤：

4.根据权利要求3所述的一种基于多通道注意力融合的方面级情感分析方法，其特征在于，步骤1中，基于transformer的BERT训练模型完成词嵌入操作，将初始文本数据转化为包含上下文语境信息的文本词向量，具体为：

5.根据权利要求3所述的一种基于多通道注意力融合的方面级情感分析方法，其特征在于，步骤2中，将文本词向量进行方面词的增强，具体为：

6.根据权利要求3所述的一种基于多通道注意力融合的方面级情感分析方法，其特征在于，步骤3中，对于输入文本中的每个句子词向量，都将其传入一个前向的GRU单元和一个后向的GRU单元中，然后将前向、后向GRU单元计算的输出进行结合,得到双向GRU的输出。