CN114579707A

CN114579707A - 一种基于bert神经网络与多语义学习的方面级情感分析方法

Info

Publication number: CN114579707A
Application number: CN202210222416.2A
Authority: CN
Inventors: 罗建华; 朱宇翔; 朱新华; 陈意山
Original assignee: Guilin Tourism University
Current assignee: Guilin Tourism University
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-03
Anticipated expiration: 2042-03-07
Also published as: CN114579707B

Abstract

本发明公开了一种基于BERT神经网络与多语义学习的方面级情感分析方法，涉及人工智能中的自然语言识别处理领域。首先，充分利用BERT神经网络模型广泛的预训练和后训练，有效解决方面级情感分析中语料数量小的问题。其次，提出了一个基于BERT神经网络的多语义学习模型，该模型由左语义、右语义、方面目标语义和全局语义学习模块组成。进而，为捕获每个上下文词和方面目标之间的语义依赖性，提出了一种基于BERT神经网络和多头注意力机制的方面感知增强方法。最后，提出了一种基于线性变换和多头注意力的二级语义融合与互补方法，以更有效的方法解决自然语言识别处理中的方面级情感分析问题。

Description

一种基于BERT神经网络与多语义学习的方面级情感分析方法

技术领域

本发明涉及自然语言识别处理领域中的情感分析，具体是一种基于BERT(Bidirectional Encoder Representations from Transformers)神经网络与多语义学习的方面级情感分析方法。该方法以BERT语言模型为基础，提出了一种由多个语义学习模块组成、具有方面感知增强的方面级情感分析模型，产生强大的情感语义表征，以实现缓解方面级情感分析方法中普遍存在的细腻情感分析与其语料数量小之间的矛盾问题，可广泛应用于各个领域的方面级情感分析任务中。

背景技术

方面级情感分类的目的是预测方面词在句子或者文档中的极性，它是一项细粒度情感分析的任务，与传统的情感分析任务不同，它是在方面词上做情感极性分析(一般为积极、消极、中性三个分类)。方面级情感分类常用在评论人的评论句子中，如：商场购物评论、餐饮评论、电影评论等。方面级情感分类，通常在一个句子中有多个方面词及其相关的情感极性，例如句子“The environment is romantic,but the food is horrible，对于方面词“environment”它是积极的，但对于方面词“food”它是消极的。总的来说：传统的句子情感分类任务是判断一句话的情感，而方面级情感分类任务是基于方面词去判断方面词极性的情感分类任务。

随着人工神经网络技术的不断发展，各种神经网络如Long Short-Term Memory(LSTM)、 Deep Memory Network和Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型被应用于方面极性分类，从而为其提供端到端的分类方法，而无需任何特征工程工作。然而，当句子中有多个目标时，方面极性分类任务需要区分不同方面的情绪。因此，与文档级情感分析中只有一个整体情感取向相比，方面极性分类任务更加复杂，面临更多挑战，主要体现在以下两个方面：首先，与文档级情感分析相比，方面极性分类任务需要更多的语义特征才能进行更精细的情感分析。为了实现这一目标，目前针对方面极性分类的深度学习方法提出了多种以方面为中心的情感语义学习方法，例如：基于注意力的语义学习、位置衰减、左右语义学习、方面连接与全局语义学习等，但每种方法都存在一些不足，需要进行多种语义的综合才能达到较好的效果。另一方面，方面极性分类的深度学习方法是完全监督的机器学习，需要足够数量的标记数据来训练准确的分类器。然而，基于实体目标的精细情感极性标记是一项复杂且耗时的任务，因而方面极性分类的语料库通常较小。因此，如何在小语料库上训练出稳定有效的模型是方面极性分类的深度学习方法面临的一大挑战。为了解决上述问题，本发明充分利用BERT语言模型广泛的预训练和后训练，有效解决方面级情感分析中语料数量小的问题；同时，梳理和改进当前方面极性分类的各种语义学习模型，并将它们与BERT语言模型相结合，提出了一种新的基于BERT与多语义学习的方面级情感分析方法。

发明内容

本发明公开了一种基于BERT神经网络与多语义学习的方面级情感分析方法，以BERT神经网络为基础，提出了一种由多个语义学习模块组成、具有方面感知增强的方面级情感分析模型，产生强大的情感语义表征，以更有效的方法解决方面级情感分析问题。

为实现上述目的，本发明的技术方案为：

一种基于BERT神经网络与多语义学习的方面级情感分析方法，其特征在于包括以下步骤：

S1.将待评测的评语句子分为左序列、右序列、全局序列和方面目标序列，并将左序列、右序列和全局序列分别输入到一个参数共享的BERT神经网络模型中进行处理，得到相应的左语义、右语义和全局语义的隐藏表示，以及将方面目标序列输入到一个参数独立的 BERT模型中进行处理，得到方面目标语义的隐藏表示；

S2.对方面目标语义的隐藏表示进行平均池化处理，得到平均方面语义向量，并将平均方面语义向量与左语义、右语义和全局语义中的每一个隐藏状态相连接，并分别在左语义、右语义和全局语义上通过线性变换和多头注意力合并处理，得到方面感知增强的左语义、右语义和全局语义表示；

S3.使用基于线性变换和多头注意力的二级语义融合，将方面感知增强的左语义、右语义和全局语义进行合并，得到最终的综合语义表示；

S4.对综合语义表示进行平均池化，得到评语句子的最终情感表示，并将评语的最终情感表示通过线性变换计算评语在所有情感极性上的预测得分和概率，根据概率的高低确定评语句子关于指定方面目标的情感极性；

所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。

进一步的，所述步骤S1具体包括：

S1.1以方面目标词为中心将待评测的评语句子分为左序列、右序列、全局序列和方面目标序列，并以BERT的分类符[CLS]作为开始符号、以BERT的分离符[SEP]作为分隔符和结束符形成输入表示；

其中，全局序列s^g的结构为：“[CLS]+评语句子+[SEP]+方面目标词+[SEP]”，且

d_w为BERT神经网络模型中字词编码的维度，n为全局序列的字词长度，所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段；左序列s^l为位于方面目标词左侧且包含方面目标词在内的评语字词子序列，并且根据全局序列的长度，在右侧补充多个结束符[SEP]，使得左序列的字词长度与全局序列的字词长度相等，即

右序列s^r为位于方面目标词右侧且包含方面目标词在内的评语字词子序列，并且根据评语句子的字词长度，在左侧补充多个分类符[CLS]，使得右序列的字词长度与评语句子的字词长度相等，然后再根据全局序列的长度，在右侧补充多个结束符[SEP]，使得右序列的字词长度与全局序列的字词长度相等，即

方面目标序列s^t的结构为：“[CLS]+方面目标词+[SEP]”，且

m为方面目标序列的字词长度；

S1.2将左序列s^l、右序列s^r、全局序列s^g分别输入到一个参数共享的BERT模型进行学习和编码，得到左语义、右语义和全局语义的隐藏表示H^l、H^r和H^g，计算过程如下：

其中，sharedBERT(·)表示一个参数共享的BERT模型，d是BERT模型中隐藏单元的数量；

S1.3将方面目标序列s^t输入到一个参数独立的BERT模型进行学习和编码，得到方面目标的隐藏表示H^t，计算过程如下；

其中，indieBERT(·)表示一个参数独立的BERT模型。

进一步的，所述步骤S2具体包括：

S2.1对方面目标语义的隐藏表示H^t使用平均池化操作，生成平均方面语义向量

计算过程如下：

其中，avePooling(·)表示平均池化操作，

表示

中的第i个元素，计算过程如下：

其中，Average(·)表示求平均值的函数，

表示

中第i行、第j列的元素；

S2.2计算方面感知增强的全局语义表示

过程如下：

(1)将平均方面语义向量

与全局语义的隐藏表示H^g中的每一个隐藏状态相连接，得到与方面目标相连的全局语义表示H^gt，计算过程如下：

其中，[X₁：X₂]表示矩阵

按行拼接，

是一个有着n个1的向量，

是一个将

重复n次的线性变换，[；]表示连接操作；

(2)通过一个线性变换层，将与方面目标相连的全局语义表示H^gt进行浓缩，得到与方面目标相融的全局语义表示

计算过程如下：

其中，

是线性变换层中的权重矩阵，

是线性变换层中的偏置向量；

(3)使用一个多头注意力共同关注

中不同位置的信息，得到方面感知增强的全局语义表示

计算过程如下：

其中，

表示输入

的多头注意力MHA(Q,K,V)，多头注意力MHA(Q,K,V)的计算过程如下：

MHA(Q,K,V)＝tanh([head₁；head₂；...；head_h]w^R) (10)

head_i＝Attention(Q_i,K_i,V_i)＝Attention(Qw^Q,Kw^K,Vw^V) (11)

其中，

是多头注意力的三个输入，head_i表示多头注意力中的第i个头， tanh(·)表示双曲正切函数，

是可学习的参数矩阵d_K＝d_V＝d÷h，h是多头注意力中头的数量，上标T表示矩阵的转置操作；

S2.3分别使用H^l和H^r代替H^g,重复步骤S2.2中的(1)、(2)、(3)步，得到方面感知增强的左语义表示

和方面感知增强的左语义表示

更进一步的，所述步骤S3具体包括：

S3.1组合左语义

和右语义

得到合并的局部语义

计算过程如下：

其中，公式(13)表示将

和

按行列拼接，公式(14)表示一个线性变换层的计算过程，公式(15)表示输入

的多头注意力MHA(Q,K,V)的调用，

是线性变换层中的权重矩阵，

是线性变换层中的偏置向量，H^lrt是左语义

和右语义

的连接表示，

是将H^lrt通过线性就换后的浓缩表示；

S3.2组合合并的局部语义

和全局语义

得到最终的综合语义表示

计算过程如下:

其中，公式(16)表示将

和

按行拼接，公式(17)表示一个线性变换层的计算过程，公式(18)表示输入

的多头注意力MHA(Q,K,V)的调用，

是线性变换层中的权重矩阵，

是线性变换层中的偏置向量，H^lrgt是合并的局部语义

和全局语义

的连接表示，

是将H^lrgt通过线性就换后的浓缩表示。

更进一步的，所述步骤S4具体包括：

S4.1对综合语义表示

执行一个平均池化操作，得到评语句子的最终情感表示Z，计算过程如下：

其中，z_i表示Z中的第i个元素，计算过程如下:

其中，

表示

中第i行、第j列的元素；

S4.2评语句子的最终情感表示Z被输入到一个执行softmax(·)的线性变换层，进行情感极性的概率计算，并得出最终的情感极性，计算过程如下:

o＝MZ^T+b (21)

其中，

是情感极性的表示矩阵，Z^T表示对Z进行转置，

是一个偏置向量，d_k是情感极性类别的个数，Y是情感极性类别的集合，y是一个情感极性，

是表示所有情感极性置信分数的向量，p(y|Z,θ)表示给定评语句子的最终情感表示Z在情感极性y上的预测概率，y^*为最终评定的情感极性，

表示返回使得 P(y|Z,θ)为最大值的情感极性，θ是所有可学习的参数集合，exp(·)表示以e为底的指数函数。

进一步的，所述BERT神经网络的损失函数采用如下的交叉熵损失误差：

其中，Ω是方面级情感分类任务的训练句子的集合，|Ω|表示集合Ω的大小，y_i是Ω中第i个训练句子的情感极性标签，Z_i是Ω中第i个训练句子的情感表示。

训练目标是按公式(24)最小化Ω中所有训练句子的交叉熵损失误差。

本发明具有以下优点：

(1)充分利用BERT模型广泛的预训练和后训练，为模型获取知识丰富的初始化参数，使模型只需在一个小的语料库上微调即可快速适应ABSA任务；

(2)提出了一个基于BERT的多语义学习框架，包括左语义学习、右语义学习、全局语义学习和方面目标语义学习，为生成强大的情感语义表征创造了条件；

(3)提出了一种基于BERT和多头注意力机制的方面感知增强方法，解决了捕获每个上下文词和方面目标之间语义依赖性的问题；

(4)模型遵循BERT中的Transformer结构，使用轻量级的多头自注意力和线性变换层进行编码，使模型更容易训练和成型。

附图说明

图1是本发明的方法流程示意图。

图2是本发明的语义融合模块结构示意图。

图3是具体实施例给出的一个全局序列示意图。

图4是具体实施例给出的一个左序列和一个右序列示意图。

图5是具体实施例给出的一个方面目标序列示意图。

具体实施方式

以下结合具体实施例对本发明作进一步说明，但本发明的保护范围不限于以下实施例。

对于评语句子S和S中的方面目标A，按照图1所示的本发明方法流程图，通过以下步骤分析S关于方面目标A的情感：

S1.将待评测的评语句子分为左序列、右序列、全局序列和方面目标序列，并将左序列、右序列和全局序列分别输入到一个参数共享的BERT神经网络模型中进行处理，得到相应的左语义、右语义和全局语义的隐藏表示，以及将方面目标序列输入到一个参数独立的BERT 模型中进行处理，得到方面目标语义的隐藏表示；

S3.使用基于线性变换和多头注意力的二级语义融合，每个语义融合模块结构如图2所示，将方面感知增强的左语义、右语义和全局语义进行合并，得到最终的综合语义表示；

进一步的，所述步骤S1具体包括：

方面目标序列s^t的结构为：“[CLS]+方面目标词+[SEP]”，且

m为方面目标序列的字词长度；

其中，indieBERT(·)表示一个参数独立的BERT模型。

进一步的，所述步骤S2具体包括：

计算过程如下：

其中，avePooling(·)表示平均池化操作，

表示

中的第i个元素，计算过程如下：

其中，Average(·)表示求平均值的函数，

表示

中第i行、第j列的元素；

S2.2计算方面感知增强的全局语义表示

过程如下：

(1)将平均方面语义向量

其中，[X₁：X₂]表示矩阵

按行拼接，

是一个有着n个1的向量，

是一个将

重复n次的线性变换，[；]表示连接操作；

计算过程如下：

其中，

是线性变换层中的权重矩阵，

是线性变换层中的偏置向量；

(3)使用一个多头注意力共同关注

中不同位置的信息，得到方面感知增强的全局语义表示

计算过程如下：

其中，

表示输入

MHA(Q,K,V)＝tanh([head₁；head₂；...；head_h]w^R) (10)

head_i＝Attention(Q_i,K_i,V_i)＝Attention(Qw^Q,Kw^K,Vw^V) (11)

其中，

和方面感知增强的左语义表示

更进一步的，所述步骤S3具体包括：

S3.1组合左语义

和右语义

得到合并的局部语义

计算过程如下：

其中，公式(13)表示将

和

的多头注意力MHA(Q,K,V)的调用，

是线性变换层中的权重矩阵，

是线性变换层中的偏置向量，H^lrt是左语义

和右语义

的连接表示，

是将H^lrt通过线性就换后的浓缩表示；

S3.2组合合并的局部语义

和全局语义

得到最终的综合语义表示

计算过程如下:

其中，公式(16)表示将

和

的多头注意力MHA(Q,K,V)的调用，

是线性变换层中的权重矩阵，

是线性变换层中的偏置向量，H^lrgt是合并的局部语义

和全局语义

的连接表示，

是将H^lrgt通过线性就换后的浓缩表示。

更进一步的，所述步骤S4具体包括：

S4.1对综合语义表示

其中，z_i表示Z中的第i个元素，计算过程如下:

其中，

表示

中第i行、第j列的元素；

o＝MZ^T+b (21)

其中，

是情感极性的表示矩阵，Z^T表示对Z进行转置，

应用实例

1.实例环境

本实例采用结合广泛预训练和后训练的BERT-PT模型。BERT-PT模型由文献“Xu H,Liu B,Shu L,Philip SY,(2019)BERT Post-Training for Review ReadingComprehension and Aspect-based Sentiment Analysis.In Proceedings NAACL HLT2019,pp 2324-2335”所提出，实例的超参数如表1所示。

表1实例的超参数

2.数据集

本实例在四个基准数据集上评估本发明的模型，这四个数据集取自国际语义评估研讨会的三个连续任务，包括SemEval-2014任务4中的14Lap和14Rest、SemEval 2015任务12 中的15Rest和SemEval 2016任务5中的16Rest，如表2所示。

表2评测数据集

3.对比方法

本实例将本发明的模型与8种方面级别情感分类方法进行比较，包括4种非BERT的方法和4种基于BERT的方法，如下所示：

(1)非BERT的方法

·MenNet[1]使用多层记忆网络结合注意力来捕获每个上下文词对方面极性分类的重要性

·IAN[2]使用两个LSTM网络分别提取特定方面和上下文的特征，然后交互生成它们的注意力向量，最后将这两个注意力向量连接起来进行方面极性分类

·TNet-LF[3]采用CNN层从基于双向LSTM层的转换的单词表示中提取显着特征，并提出基于相关性的组件来生成句子中单词的特定目标表示，该模型还采用了位置衰减技术

·MCRF-SA[4]提出了一种基于多个CRF的简洁有效的结构化注意力模型，该模型可以提取特定于方面的意见跨度，该模型还采用了位置衰减和方面连接技术

(2)基于BERT的方法

·BERT-BASE[5]是Google AI语言实验室开发的BERT-BASE版本，它使用单句输入方式：“[CLS]+评语句子+[SEP]”进行方面极性分类

·AEN-BERT[6]采用基于BERT的多头注意力来建模上下文和方面目标

·BERT-SPC[6]采用句子对分类(SPC)的输入结构：“[CLS]+评语句子+[SEP]+方面目标t+[SEP]”。

·LCF-APC[7]提出了一种基于BERT的位置衰减和动态掩码的局部上下文聚焦(LCF) 机制，并将局部上下文特征与基于BERT-SPC的全局上下文特征相结合，用于方面极性分类

参考文献：

[1]Tang D,Qin B,Liu T(2016)Aspect Level Sentiment Classification withDeep Memory Network.In:Empirical methods in natural language processing,pp214–224

[2]Ma D,Li S,Zhang X,Wang H(2017)Interactive attentions networks foraspect-level sentiment classification.In:Proceedings of the 26thInternational Joint Conference on Artificial Intelligence,Melbourne,Australia,19-25August 2017,pp 4068-4074

[3]Li X,Bing L,Lam W,Shi B(2018)Transformation Networks for Target-Oriented Sentiment Classification.In Proceedings of ACL,pp 946-956

[4]Xu L,Bing L,Lu W,Huang F(2020)Aspect Sentiment Classification withAspect-Specific Opinion Spans.In Proceedings of EMNLP 2020,pp 3561-3567

[5]Devlin J,Chang MW,Lee K,Toutanova K(2019)BERT:Pre-training of DeepBidirectional Transformers for Language Understanding.In:Proceedings of the2019 Conference of NAACL,pp 4171–4186

[6]Song Y,Wang J,Jiang T,Liu Z,Rao Y(2019)Attentional encoder networkfor targeted sentiment classification.In:arXiv preprint arXiv:1902.09314

[7]Yang H,Zeng B,Yang J,Song Y,Xu R(2021)A Multi-task Learning Modelfor Chinese- oriented Aspect Polarity Classification and AspectTermExtraction.Neurocomputing, 419:344-356

4.实例对比结果

表3实例对比结果

表3的结果表明，本实例所实现的本发明提出的模型在准确率与M-F1值两方面显著优于各种非BERT的方面级情感分类方法和基于BERT的方面级情感分类方法，这充分证明了本发明所提出的基于BERT与多语义学习的方面级情感分析方法是可行与优秀的。

5.示例

对于评语句子："Prices are higher to dine in and their chicken tikka marsala is quite good"，该评语关于方面目标"chicken tikka marsala"的全局序列如图3所示，左序列、右序列如图4 所示，方面目标序列如图5所示，经本实例模型分析后得到方面目标"chicken tikka marsala" 的情感极性为“正面”。