CN114579707B - 一种基于bert神经网络与多语义学习的方面级情感分析方法 - Google Patents
一种基于bert神经网络与多语义学习的方面级情感分析方法 Download PDFInfo
- Publication number
- CN114579707B CN114579707B CN202210222416.2A CN202210222416A CN114579707B CN 114579707 B CN114579707 B CN 114579707B CN 202210222416 A CN202210222416 A CN 202210222416A CN 114579707 B CN114579707 B CN 114579707B
- Authority
- CN
- China
- Prior art keywords
- representation
- semantic
- semantics
- sequence
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 103
- 238000004458 analytical method Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000009466 transformation Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000008447 perception Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 230000002996 emotional effect Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 238000003169 complementation method Methods 0.000 abstract 1
- 238000007500 overflow downdraw method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 235000020045 marsala Nutrition 0.000 description 3
- 241000287828 Gallus gallus Species 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于BERT神经网络与多语义学习的方面级情感分析方法,涉及人工智能中的自然语言识别处理领域。首先,充分利用BERT神经网络模型广泛的预训练和后训练,有效解决方面级情感分析中语料数量小的问题。其次,提出了一个基于BERT神经网络的多语义学习模型,该模型由左语义、右语义、方面目标语义和全局语义学习模块组成。进而,为捕获每个上下文词和方面目标之间的语义依赖性,提出了一种基于BERT神经网络和多头注意力机制的方面感知增强方法。最后,提出了一种基于线性变换和多头注意力的二级语义融合与互补方法,以更有效的方法解决自然语言识别处理中的方面级情感分析问题。
Description
技术领域
本发明涉及自然语言识别处理领域中的情感分析,具体是一种基于BERT(Bidirectional Encoder Representations from Transformers)神经网络与多语义学习的方面级情感分析方法。该方法以BERT语言模型为基础,提出了一种由多个语义学习模块组成、具有方面感知增强的方面级情感分析模型,产生强大的情感语义表征,以实现缓解方面级情感分析方法中普遍存在的细腻情感分析与其语料数量小之间的矛盾问题,可广泛应用于各个领域的方面级情感分析任务中。
背景技术
方面级情感分类的目的是预测方面词在句子或者文档中的极性,它是一项细粒度情感分析的任务,与传统的情感分析任务不同,它是在方面词上做情感极性分析(一般为积极、消极、中性三个分类)。方面级情感分类常用在评论人的评论句子中,如:商场购物评论、餐饮评论、电影评论等。方面级情感分类,通常在一个句子中有多个方面词及其相关的情感极性,例如句子“The environment is romantic,but the food is horrible,对于方面词“environment”它是积极的,但对于方面词“food”它是消极的。总的来说:传统的句子情感分类任务是判断一句话的情感,而方面级情感分类任务是基于方面词去判断方面词极性的情感分类任务。
随着人工神经网络技术的不断发展,各种神经网络如Long Short-Term Memory(LSTM)、 Deep Memory Network和Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型被应用于方面极性分类,从而为其提供端到端的分类方法,而无需任何特征工程工作。然而,当句子中有多个目标时,方面极性分类任务需要区分不同方面的情绪。因此,与文档级情感分析中只有一个整体情感取向相比,方面极性分类任务更加复杂,面临更多挑战,主要体现在以下两个方面:首先,与文档级情感分析相比,方面极性分类任务需要更多的语义特征才能进行更精细的情感分析。为了实现这一目标,目前针对方面极性分类的深度学习方法提出了多种以方面为中心的情感语义学习方法,例如:基于注意力的语义学习、位置衰减、左右语义学习、方面连接与全局语义学习等,但每种方法都存在一些不足,需要进行多种语义的综合才能达到较好的效果。另一方面,方面极性分类的深度学习方法是完全监督的机器学习,需要足够数量的标记数据来训练准确的分类器。然而,基于实体目标的精细情感极性标记是一项复杂且耗时的任务,因而方面极性分类的语料库通常较小。因此,如何在小语料库上训练出稳定有效的模型是方面极性分类的深度学习方法面临的一大挑战。为了解决上述问题,本发明充分利用BERT语言模型广泛的预训练和后训练,有效解决方面级情感分析中语料数量小的问题;同时,梳理和改进当前方面极性分类的各种语义学习模型,并将它们与BERT语言模型相结合,提出了一种新的基于BERT与多语义学习的方面级情感分析方法。
发明内容
本发明公开了一种基于BERT神经网络与多语义学习的方面级情感分析方法,以BERT神经网络为基础,提出了一种由多个语义学习模块组成、具有方面感知增强的方面级情感分析模型,产生强大的情感语义表征,以更有效的方法解决方面级情感分析问题。
为实现上述目的,本发明的技术方案为:
一种基于BERT神经网络与多语义学习的方面级情感分析方法,其特征在于包括以下步骤:
S1.将待评测的评语句子分为左序列、右序列、全局序列和方面目标序列,并将左序列、右序列和全局序列分别输入到一个参数共享的BERT神经网络模型中进行处理,得到相应的左语义、右语义和全局语义的隐藏表示,以及将方面目标序列输入到一个参数独立的 BERT模型中进行处理,得到方面目标语义的隐藏表示;
S2.对方面目标语义的隐藏表示进行平均池化处理,得到平均方面语义向量,并将平均方面语义向量与左语义、右语义和全局语义中的每一个隐藏状态相连接,并分别在左语义、右语义和全局语义上通过线性变换和多头注意力合并处理,得到方面感知增强的左语义、右语义和全局语义表示;
S3.使用基于线性变换和多头注意力的二级语义融合,将方面感知增强的左语义、右语义和全局语义进行合并,得到最终的综合语义表示;
S4.对综合语义表示进行平均池化,得到评语句子的最终情感表示,并将评语的最终情感表示通过线性变换计算评语在所有情感极性上的预测得分和概率,根据概率的高低确定评语句子关于指定方面目标的情感极性;
所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。
进一步的,所述步骤S1具体包括:
S1.1以方面目标词为中心将待评测的评语句子分为左序列、右序列、全局序列和方面目标序列,并以BERT的分类符[CLS]作为开始符号、以BERT的分离符[SEP]作为分隔符和结束符形成输入表示;
其中,全局序列sg的结构为:“[CLS]+评语句子+[SEP]+方面目标词+[SEP]”,且dw为BERT神经网络模型中字词编码的维度,n为全局序列的字词长度,所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段;左序列sl为位于方面目标词左侧且包含方面目标词在内的评语字词子序列,并且根据全局序列的长度,在右侧补充多个结束符[SEP],使得左序列的字词长度与全局序列的字词长度相等,即右序列sr为位于方面目标词右侧且包含方面目标词在内的评语字词子序列,并且根据评语句子的字词长度,在左侧补充多个分类符[CLS],使得右序列的字词长度与评语句子的字词长度相等,然后再根据全局序列的长度,在右侧补充多个结束符[SEP],使得右序列的字词长度与全局序列的字词长度相等,即方面目标序列st的结构为:“[CLS]+方面目标词+[SEP]”,且m为方面目标序列的字词长度;
S1.2将左序列sl、右序列sr、全局序列sg分别输入到一个参数共享的BERT模型进行学习和编码,得到左语义、右语义和全局语义的隐藏表示Hl、Hr和Hg,计算过程如下:
其中,sharedBERT(·)表示一个参数共享的BERT模型,d是BERT模型中隐藏单元的数量;
S1.3将方面目标序列st输入到一个参数独立的BERT模型进行学习和编码,得到方面目标的隐藏表示Ht,计算过程如下;
其中,indieBERT(·)表示一个参数独立的BERT模型。
进一步的,所述步骤S2具体包括:
S2.1对方面目标语义的隐藏表示Ht使用平均池化操作,生成平均方面语义向量计算过程如下:
其中,avePooling(·)表示平均池化操作,表示中的第i个元素,计算过程如下:
其中,Average(·)表示求平均值的函数,表示中第i行、第j列的元素;
S2.2计算方面感知增强的全局语义表示过程如下:
(1)将平均方面语义向量与全局语义的隐藏表示Hg中的每一个隐藏状态相连接,得到与方面目标相连的全局语义表示Hgt,计算过程如下:
其中,[X1:X2]表示矩阵按行拼接,是一个有着n个1的向量,是一个将重复n次的线性变换,[;]表示连接操作;
(2)通过一个线性变换层,将与方面目标相连的全局语义表示Hgt进行浓缩,得到与方面目标相融的全局语义表示计算过程如下:
其中,是线性变换层中的权重矩阵,是线性变换层中的偏置向量;
(3)使用一个多头注意力共同关注中不同位置的信息,得到方面感知增强的全局语义表示计算过程如下:
其中,表示输入的多头注意力MHA(Q,K,V),多头注意力MHA(Q,K,V)的计算过程如下:
MHA(Q,K,V)=tanh([head1;head2;...;headh]wR) (10)
headi=Attention(Qi,Ki,Vi)=Attention(QwQ,KwK,VwV) (11)
其中,是多头注意力的三个输入,headi表示多头注意力中的第i个头, tanh(·)表示双曲正切函数,是可学习的参数矩阵dK=dV=d÷h,h是多头注意力中头的数量,上标T表示矩阵的转置操作;
S2.3分别使用Hl和Hr代替Hg,重复步骤S2.2中的(1)、(2)、(3)步,得到方面感知增强的左语义表示和方面感知增强的左语义表示
更进一步的,所述步骤S3具体包括:
S3.1组合左语义和右语义得到合并的局部语义计算过程如下:
其中,公式(13)表示将和按行列拼接,公式(14)表示一个线性变换层的计算过程,公式(15)表示输入的多头注意力MHA(Q,K,V)的调用,是线性变换层中的权重矩阵,是线性变换层中的偏置向量,Hlrt是左语义和右语义的连接表示,是将Hlrt通过线性就换后的浓缩表示;
S3.2组合合并的局部语义和全局语义得到最终的综合语义表示计算过程如下:
其中,公式(16)表示将和按行拼接,公式(17)表示一个线性变换层的计算过程,公式(18)表示输入的多头注意力MHA(Q,K,V)的调用,是线性变换层中的权重矩阵,是线性变换层中的偏置向量,Hlrgt是合并的局部语义和全局语义的连接表示,是将Hlrgt通过线性就换后的浓缩表示。
更进一步的,所述步骤S4具体包括:
S4.1对综合语义表示执行一个平均池化操作,得到评语句子的最终情感表示Z,计算过程如下:
其中,zi表示Z中的第i个元素,计算过程如下:
其中,表示中第i行、第j列的元素;
S4.2评语句子的最终情感表示Z被输入到一个执行softmax(·)的线性变换层,进行情感极性的概率计算,并得出最终的情感极性,计算过程如下:
o=MZT+b (21)
其中,是情感极性的表示矩阵,ZT表示对Z进行转置,是一个偏置向量,dk是情感极性类别的个数,Y是情感极性类别的集合,y是一个情感极性,是表示所有情感极性置信分数的向量,p(y|Z,θ)表示给定评语句子的最终情感表示Z在情感极性y上的预测概率,y*为最终评定的情感极性,表示返回使得 P(y|Z,θ)为最大值的情感极性,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数。
进一步的,所述BERT神经网络的损失函数采用如下的交叉熵损失误差:
其中,Ω是方面级情感分类任务的训练句子的集合,|Ω|表示集合Ω的大小,yi是Ω中第i个训练句子的情感极性标签,Zi是Ω中第i个训练句子的情感表示。
训练目标是按公式(24)最小化Ω中所有训练句子的交叉熵损失误差。
本发明具有以下优点:
(1)充分利用BERT模型广泛的预训练和后训练,为模型获取知识丰富的初始化参数,使模型只需在一个小的语料库上微调即可快速适应ABSA任务;
(2)提出了一个基于BERT的多语义学习框架,包括左语义学习、右语义学习、全局语义学习和方面目标语义学习,为生成强大的情感语义表征创造了条件;
(3)提出了一种基于BERT和多头注意力机制的方面感知增强方法,解决了捕获每个上下文词和方面目标之间语义依赖性的问题;
(4)模型遵循BERT中的Transformer结构,使用轻量级的多头自注意力和线性变换层进行编码,使模型更容易训练和成型。
附图说明
图1是本发明的方法流程示意图。
图2是本发明的语义融合模块结构示意图。
图3是具体实施例给出的一个全局序列示意图。
图4是具体实施例给出的一个左序列和一个右序列示意图。
图5是具体实施例给出的一个方面目标序列示意图。
具体实施方式
以下结合具体实施例对本发明作进一步说明,但本发明的保护范围不限于以下实施例。
对于评语句子S和S中的方面目标A,按照图1所示的本发明方法流程图,通过以下步骤分析S关于方面目标A的情感:
S1.将待评测的评语句子分为左序列、右序列、全局序列和方面目标序列,并将左序列、右序列和全局序列分别输入到一个参数共享的BERT神经网络模型中进行处理,得到相应的左语义、右语义和全局语义的隐藏表示,以及将方面目标序列输入到一个参数独立的BERT 模型中进行处理,得到方面目标语义的隐藏表示;
S2.对方面目标语义的隐藏表示进行平均池化处理,得到平均方面语义向量,并将平均方面语义向量与左语义、右语义和全局语义中的每一个隐藏状态相连接,并分别在左语义、右语义和全局语义上通过线性变换和多头注意力合并处理,得到方面感知增强的左语义、右语义和全局语义表示;
S3.使用基于线性变换和多头注意力的二级语义融合,每个语义融合模块结构如图2所示,将方面感知增强的左语义、右语义和全局语义进行合并,得到最终的综合语义表示;
S4.对综合语义表示进行平均池化,得到评语句子的最终情感表示,并将评语的最终情感表示通过线性变换计算评语在所有情感极性上的预测得分和概率,根据概率的高低确定评语句子关于指定方面目标的情感极性;
所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。
进一步的,所述步骤S1具体包括:
S1.1以方面目标词为中心将待评测的评语句子分为左序列、右序列、全局序列和方面目标序列,并以BERT的分类符[CLS]作为开始符号、以BERT的分离符[SEP]作为分隔符和结束符形成输入表示;
其中,全局序列sg的结构为:“[CLS]+评语句子+[SEP]+方面目标词+[SEP]”,且dw为BERT神经网络模型中字词编码的维度,n为全局序列的字词长度,所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段;左序列sl为位于方面目标词左侧且包含方面目标词在内的评语字词子序列,并且根据全局序列的长度,在右侧补充多个结束符[SEP],使得左序列的字词长度与全局序列的字词长度相等,即右序列sr为位于方面目标词右侧且包含方面目标词在内的评语字词子序列,并且根据评语句子的字词长度,在左侧补充多个分类符[CLS],使得右序列的字词长度与评语句子的字词长度相等,然后再根据全局序列的长度,在右侧补充多个结束符[SEP],使得右序列的字词长度与全局序列的字词长度相等,即方面目标序列st的结构为:“[CLS]+方面目标词+[SEP]”,且m为方面目标序列的字词长度;
S1.2将左序列sl、右序列sr、全局序列sg分别输入到一个参数共享的BERT模型进行学习和编码,得到左语义、右语义和全局语义的隐藏表示Hl、Hr和Hg,计算过程如下:
其中,sharedBERT(·)表示一个参数共享的BERT模型,d是BERT模型中隐藏单元的数量;
S1.3将方面目标序列st输入到一个参数独立的BERT模型进行学习和编码,得到方面目标的隐藏表示Ht,计算过程如下;
其中,indieBERT(·)表示一个参数独立的BERT模型。
进一步的,所述步骤S2具体包括:
S2.1对方面目标语义的隐藏表示Ht使用平均池化操作,生成平均方面语义向量计算过程如下:
其中,avePooling(·)表示平均池化操作,表示中的第i个元素,计算过程如下:
其中,Average(·)表示求平均值的函数,表示中第i行、第j列的元素;
S2.2计算方面感知增强的全局语义表示过程如下:
(1)将平均方面语义向量与全局语义的隐藏表示Hg中的每一个隐藏状态相连接,得到与方面目标相连的全局语义表示Hgt,计算过程如下:
其中,[X1:X2]表示矩阵按行拼接,是一个有着n个1的向量,是一个将重复n次的线性变换,[;]表示连接操作;
(2)通过一个线性变换层,将与方面目标相连的全局语义表示Hgt进行浓缩,得到与方面目标相融的全局语义表示计算过程如下:
其中,是线性变换层中的权重矩阵,是线性变换层中的偏置向量;
(3)使用一个多头注意力共同关注中不同位置的信息,得到方面感知增强的全局语义表示计算过程如下:
其中,表示输入的多头注意力MHA(Q,K,V),多头注意力MHA(Q,K,V)的计算过程如下:
MHA(Q,K,V)=tanh([head1;head2;...;headh]wR) (10)
headi=Attention(Qi,Ki,Vi)=Attention(QwQ,KwK,VwV) (11)
其中,是多头注意力的三个输入,headi表示多头注意力中的第i个头, tanh(·)表示双曲正切函数,是可学习的参数矩阵dK=dV=d÷h,h是多头注意力中头的数量,上标T表示矩阵的转置操作;
S2.3分别使用Hl和Hr代替Hg,重复步骤S2.2中的(1)、(2)、(3)步,得到方面感知增强的左语义表示和方面感知增强的左语义表示
更进一步的,所述步骤S3具体包括:
S3.1组合左语义和右语义得到合并的局部语义计算过程如下:
其中,公式(13)表示将和按行列拼接,公式(14)表示一个线性变换层的计算过程,公式(15)表示输入的多头注意力MHA(Q,K,V)的调用,是线性变换层中的权重矩阵,是线性变换层中的偏置向量,Hlrt是左语义和右语义的连接表示,是将Hlrt通过线性就换后的浓缩表示;
S3.2组合合并的局部语义和全局语义得到最终的综合语义表示计算过程如下:
其中,公式(16)表示将和按行拼接,公式(17)表示一个线性变换层的计算过程,公式(18)表示输入的多头注意力MHA(Q,K,V)的调用,是线性变换层中的权重矩阵,是线性变换层中的偏置向量,Hlrgt是合并的局部语义和全局语义的连接表示,是将Hlrgt通过线性就换后的浓缩表示。
更进一步的,所述步骤S4具体包括:
S4.1对综合语义表示执行一个平均池化操作,得到评语句子的最终情感表示Z,计算过程如下:
其中,zi表示Z中的第i个元素,计算过程如下:
其中,表示中第i行、第j列的元素;
S4.2评语句子的最终情感表示Z被输入到一个执行softmax(·)的线性变换层,进行情感极性的概率计算,并得出最终的情感极性,计算过程如下:
o=MZT+b (21)
其中,是情感极性的表示矩阵,ZT表示对Z进行转置,是一个偏置向量,dk是情感极性类别的个数,Y是情感极性类别的集合,y是一个情感极性,是表示所有情感极性置信分数的向量,p(y|Z,θ)表示给定评语句子的最终情感表示Z在情感极性y上的预测概率,y*为最终评定的情感极性,表示返回使得 P(y|Z,θ)为最大值的情感极性,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数。
进一步的,所述BERT神经网络的损失函数采用如下的交叉熵损失误差:
其中,Ω是方面级情感分类任务的训练句子的集合,|Ω|表示集合Ω的大小,yi是Ω中第i个训练句子的情感极性标签,Zi是Ω中第i个训练句子的情感表示。
训练目标是按公式(24)最小化Ω中所有训练句子的交叉熵损失误差。
应用实例
1.实例环境
本实例采用结合广泛预训练和后训练的BERT-PT模型。BERT-PT模型由文献“Xu H,Liu B,Shu L,Philip SY,(2019)BERT Post-Training for Review ReadingComprehension and Aspect-based Sentiment Analysis.In Proceedings NAACL HLT2019,pp 2324-2335”所提出,实例的超参数如表1所示。
表1实例的超参数
2.数据集
本实例在四个基准数据集上评估本发明的模型,这四个数据集取自国际语义评估研讨会的三个连续任务,包括SemEval-2014任务4中的14Lap和14Rest、SemEval 2015任务12 中的15Rest和SemEval 2016任务5中的16Rest,如表2所示。
表2评测数据集
3.对比方法
本实例将本发明的模型与8种方面级别情感分类方法进行比较,包括4种非BERT的方法和4种基于BERT的方法,如下所示:
(1)非BERT的方法
·MenNet[1]使用多层记忆网络结合注意力来捕获每个上下文词对方面极性分类的重要性
·IAN[2]使用两个LSTM网络分别提取特定方面和上下文的特征,然后交互生成它们的注意力向量,最后将这两个注意力向量连接起来进行方面极性分类
·TNet-LF[3]采用CNN层从基于双向LSTM层的转换的单词表示中提取显着特征,并提出基于相关性的组件来生成句子中单词的特定目标表示,该模型还采用了位置衰减技术
·MCRF-SA[4]提出了一种基于多个CRF的简洁有效的结构化注意力模型,该模型可以提取特定于方面的意见跨度,该模型还采用了位置衰减和方面连接技术
(2)基于BERT的方法
·BERT-BASE[5]是Google AI语言实验室开发的BERT-BASE版本,它使用单句输入方式:“[CLS]+评语句子+[SEP]”进行方面极性分类
·AEN-BERT[6]采用基于BERT的多头注意力来建模上下文和方面目标
·BERT-SPC[6]采用句子对分类(SPC)的输入结构:“[CLS]+评语句子+[SEP]+方面目标t+[SEP]”。
·LCF-APC[7]提出了一种基于BERT的位置衰减和动态掩码的局部上下文聚焦(LCF) 机制,并将局部上下文特征与基于BERT-SPC的全局上下文特征相结合,用于方面极性分类
参考文献:
[1]Tang D,Qin B,Liu T(2016)Aspect Level Sentiment Classification withDeep Memory Network.In:Empirical methods in natural language processing,pp214–224
[2]Ma D,Li S,Zhang X,Wang H(2017)Interactive attentions networks foraspect-level sentiment classification.In:Proceedings of the 26thInternational Joint Conference on Artificial Intelligence,Melbourne,Australia,19-25August 2017,pp 4068-4074
[3]Li X,Bing L,Lam W,Shi B(2018)Transformation Networks for Target-Oriented Sentiment Classification.In Proceedings of ACL,pp 946-956
[4]Xu L,Bing L,Lu W,Huang F(2020)Aspect Sentiment Classification withAspect-Specific Opinion Spans.In Proceedings of EMNLP 2020,pp 3561-3567
[5]Devlin J,Chang MW,Lee K,Toutanova K(2019)BERT:Pre-training of DeepBidirectional Transformers for Language Understanding.In:Proceedings of the2019 Conference of NAACL,pp 4171–4186
[6]Song Y,Wang J,Jiang T,Liu Z,Rao Y(2019)Attentional encoder networkfor targeted sentiment classification.In:arXiv preprint arXiv:1902.09314
[7]Yang H,Zeng B,Yang J,Song Y,Xu R(2021)A Multi-task Learning Modelfor Chinese- oriented Aspect Polarity Classification and AspectTermExtraction.Neurocomputing, 419:344-356
4.实例对比结果
表3实例对比结果
表3的结果表明,本实例所实现的本发明提出的模型在准确率与M-F1值两方面显著优于各种非BERT的方面级情感分类方法和基于BERT的方面级情感分类方法,这充分证明了本发明所提出的基于BERT与多语义学习的方面级情感分析方法是可行与优秀的。
5.示例
对于评语句子:"Prices are higher to dine in and their chicken tikka marsala is quite good",该评语关于方面目标"chicken tikka marsala"的全局序列如图3所示,左序列、右序列如图4 所示,方面目标序列如图5所示,经本实例模型分析后得到方面目标"chicken tikka marsala" 的情感极性为“正面”。
Claims (6)
1.一种基于BERT神经网络与多语义学习的方面级情感分析方法,其特征在于包括以下步骤:
S1.将待评测的评语句子分为左序列、右序列、全局序列和方面目标序列,并将左序列、右序列和全局序列分别输入到一个参数共享的BERT神经网络模型中进行处理,得到相应的左语义、右语义和全局语义的隐藏表示,以及将方面目标序列输入到一个参数独立的BERT模型中进行处理,得到方面目标语义的隐藏表示;
S2.对方面目标语义的隐藏表示进行平均池化处理,得到平均方面语义向量,并将平均方面语义向量与左语义、右语义和全局语义中的每一个隐藏状态相连接,并分别在左语义、右语义和全局语义上通过线性变换和多头注意力合并处理,得到方面感知增强的左语义、右语义和全局语义表示;
S3.使用基于线性变换和多头注意力的二级语义融合,将方面感知增强的左语义、右语义和全局语义进行合并,得到最终的综合语义表示;
S4.对综合语义表示进行平均池化,得到评语句子的最终情感表示,并将评语的最终情感表示通过线性变换计算评语在所有情感极性上的预测得分和概率,根据概率的高低确定评语句子关于指定方面目标的情感极性;
所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。
2.根据权利要求1所述的一种基于BERT神经网络与多语义学习的方面级情感分析方法,其特征在于:
所述步骤S1具体包括:
S1.1以方面目标词为中心将待评测的评语句子分为左序列、右序列、全局序列和方面目标序列,并以BERT的分类符[CLS]作为开始符号、以BERT的分离符[SEP]作为分隔符和结束符形成输入表示;
其中,全局序列sg的结构为:“[CLS]+评语句子+[SEP]+方面目标词+[SEP]”,且dw为BERT神经网络模型中字词编码的维度,n为全局序列的字词长度,所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段;左序列sl为位于方面目标词左侧且包含方面目标词在内的评语字词子序列,并且根据全局序列的长度,在右侧补充多个结束符[SEP],使得左序列的字词长度与全局序列的字词长度相等,即右序列sr为位于方面目标词右侧且包含方面目标词在内的评语字词子序列,并且根据评语句子的字词长度,在左侧补充多个分类符[CLS],使得右序列的字词长度与评语句子的字词长度相等,然后再根据全局序列的长度,在右侧补充多个结束符[SEP],使得右序列的字词长度与全局序列的字词长度相等,即方面目标序列st的结构为:“[CLS]+方面目标词+[SEP]”,且m为方面目标序列的字词长度;
S1.2将左序列sl、右序列sr、全局序列sg分别输入到一个参数共享的BERT模型进行学习和编码,得到左语义、右语义和全局语义的隐藏表示Hl、Hr和Hg,计算过程如下:
其中,sharedBERT(·)表示一个参数共享的BERT模型,d是BERT模型中隐藏单元的数量;
S1.3将方面目标序列st输入到一个参数独立的BERT模型进行学习和编码,得到方面目标的隐藏表示Ht,计算过程如下;
其中,indieBERT(·)表示一个参数独立的BERT模型。
3.根据权利要求1所述的一种基于BERT神经网络与多语义学习的方面级情感分析方法,其特征在于:
所述步骤S2具体包括:
S2.1对方面目标语义的隐藏表示Ht使用平均池化操作,生成平均方面语义向量计算过程如下:
其中,avePooling(·)表示平均池化操作,表示中的第i个元素,计算过程如下:
其中,Average(·)表示求平均值的函数,表示中第i行、第j列的元素;
S2.2计算方面感知增强的全局语义表示过程如下:
(1)将平均方面语义向量与全局语义的隐藏表示Hg中的每一个隐藏状态相连接,得到与方面目标相连的全局语义表示Hgt,计算过程如下:
其中,[X1:X2]表示矩阵X1,按行拼接,是一个有着n个1的向量,是一个将重复n次的线性变换,[;]表示连接操作;
(2)通过一个线性变换层,将与方面目标相连的全局语义表示Hgt进行浓缩,得到与方面目标相融的全局语义表示计算过程如下:
其中,是线性变换层中的权重矩阵,是线性变换层中的偏置向量;
(3)使用一个多头注意力共同关注中不同位置的信息,得到方面感知增强的全局语义表示计算过程如下:
其中,表示输入的多头注意力MHA(Q,K,V),多头注意力MHA(Q,K,V)的计算过程如下:
MHA(Q,K,V)=tanh([head1;head2;...;headh]wR) (10)
headi=Attention(Qi,Ki,Vi)=Attention(QwQ,KwK,VwV) (11)
其中,是多头注意力的三个输入,headi表示多头注意力中的第i个头,tanh(·)表示双曲正切函数,是可学习的参数矩阵,dK=dV=d÷h,h是多头注意力中头的数量,上标T表示矩阵的转置操作;
S2.3分别使用Hl和Hr代替Hg,重复步骤S2.2中的(1)、(2)、(3)步,得到方面感知增强的左语义表示和方面感知增强的左语义表示
4.根据权利要求1所述的一种基于BERT神经网络与多语义学习的方面级情感分析方法,其特征在于:
所述步骤S3具体包括:
S3.1组合左语义和右语义得到合并的局部语义计算过程如下:
其中,公式(13)表示将和按行列拼接,公式(14)表示一个线性变换层的计算过程,公式(15)表示输入的多头注意力MHA(Q,K,V)的调用,是线性变换层中的权重矩阵,是线性变换层中的偏置向量,Hlrt是左语义和右语义的连接表示,是将Hlrt通过线性就换后的浓缩表示;
S3.2组合合并的局部语义和全局语义得到最终的综合语义表示计算过程如下:
其中,公式(16)表示将和按行拼接,公式(17)表示一个线性变换层的计算过程,公式(18)表示输入的多头注意力MHA(Q,K,V)的调用,是线性变换层中的权重矩阵,是线性变换层中的偏置向量,Hlrgt是合并的局部语义和全局语义的连接表示,是将Hlrgt通过线性就换后的浓缩表示。
5.根据权利要求1所述的一种基于BERT神经网络与多语义学习的方面级情感分析方法,其特征在于:
所述步骤S4具体包括:
S4.1对综合语义表示执行一个平均池化操作,得到评语句子的最终情感表示Z,计算过程如下:
其中,zi表示Z中的第i个元素,计算过程如下:
其中,表示中第i行、第j列的元素;
S4.2评语句子的最终情感表示Z被输入到一个执行softmax(·)的线性变换层,进行情感极性的概率计算,并得出最终的情感极性,计算过程如下:
o=MZT+b (21)
其中,是情感极性的表示矩阵,ZT表示对Z进行转置,是一个偏置向量,dk是情感极性类别的个数,Y是情感极性类别的集合,y是一个情感极性,是表示所有情感极性置信分数的向量,p(y|Z,θ)表示给定评语句子的最终情感表示Z在情感极性y上的预测概率,y*为最终评定的情感极性,表示返回使得P(y|Z,θ)为最大值的情感极性,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数。
6.根据权利要求1所述的一种基于BERT神经网络与多语义学习的方面级情感分析方法,其特征在于:
所述BERT神经网络的损失函数采用如下的交叉熵损失误差:
其中,Ω是方面级情感分类任务的训练句子的集合,|Ω|表示集合Ω的大小,yi是Ω中第i个训练句子的情感极性标签,Zi是Ω中第i个训练句子的情感表示。
训练目标是按公式(24)最小化Ω中所有训练句子的交叉熵损失误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210222416.2A CN114579707B (zh) | 2022-03-07 | 2022-03-07 | 一种基于bert神经网络与多语义学习的方面级情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210222416.2A CN114579707B (zh) | 2022-03-07 | 2022-03-07 | 一种基于bert神经网络与多语义学习的方面级情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114579707A CN114579707A (zh) | 2022-06-03 |
CN114579707B true CN114579707B (zh) | 2023-07-28 |
Family
ID=81774349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210222416.2A Active CN114579707B (zh) | 2022-03-07 | 2022-03-07 | 一种基于bert神经网络与多语义学习的方面级情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579707B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116561592B (zh) * | 2023-07-11 | 2023-09-29 | 航天宏康智能科技(北京)有限公司 | 文本情感识别模型的训练方法和文本情感识别方法及装置 |
CN117473083B (zh) * | 2023-09-30 | 2024-05-28 | 齐齐哈尔大学 | 一种基于提示知识和混合神经网络的方面级情感分类模型 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN111881291A (zh) * | 2020-06-19 | 2020-11-03 | 山东师范大学 | 一种文本情感分类方法及系统 |
CN113935459A (zh) * | 2021-09-23 | 2022-01-14 | 广西师范大学 | 一种基于bert的深度神经网络模型的自动评卷方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680159B (zh) * | 2020-06-11 | 2023-08-29 | 华东交通大学 | 数据处理方法、装置及电子设备 |
-
2022
- 2022-03-07 CN CN202210222416.2A patent/CN114579707B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN111881291A (zh) * | 2020-06-19 | 2020-11-03 | 山东师范大学 | 一种文本情感分类方法及系统 |
CN113935459A (zh) * | 2021-09-23 | 2022-01-14 | 广西师范大学 | 一种基于bert的深度神经网络模型的自动评卷方法 |
Non-Patent Citations (2)
Title |
---|
The efficacy and feasibility of an immersive virtual reality game to train spatial attention orientation after stroke:a stage 1 pre-registered report;Hanne Huygelier等;《ReseachGate》;第1-36页 * |
融合多层注意力的方面级情感分析模型;袁勋等;《计算机工程与应用》;第第57卷卷(第第22期期);第147-1522段 * |
Also Published As
Publication number | Publication date |
---|---|
CN114579707A (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Siriwardhana et al. | Multimodal emotion recognition with transformer-based self supervised feature fusion | |
Li et al. | Exploiting temporal contexts with strided transformer for 3d human pose estimation | |
CN114579707B (zh) | 一种基于bert神经网络与多语义学习的方面级情感分析方法 | |
Akhtar et al. | A deep multi-task contextual attention framework for multi-modal affect analysis | |
Zhai et al. | Mgl: Mutual graph learning for camouflaged object detection | |
Yang et al. | Event camera data pre-training | |
Shahzad et al. | Role of zoning in facial expression using deep learning | |
Liu et al. | Deeply coupled convolution–transformer with spatial–temporal complementary learning for video-based person re-identification | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
Guo et al. | 3d hand pose estimation from monocular rgb with feature interaction module | |
Chen et al. | Y-Net: Dual-branch joint network for semantic segmentation | |
Li et al. | Rethinking lightweight salient object detection via network depth-width tradeoff | |
Sun et al. | Appearance and geometry transformer for facial expression recognition in the wild | |
Huang et al. | Condition-adaptive graph convolution learning for skeleton-based gait recognition | |
Jia et al. | Semantic association enhancement transformer with relative position for image captioning | |
Yu et al. | Multimodal fusion method with spatiotemporal sequences and relationship learning for valence-arousal estimation | |
Zhong et al. | BiTransformer: augmenting semantic context in video captioning via bidirectional decoder | |
CN114911906A (zh) | 一种基于杂合神经网络的方面级情感分析方法 | |
Xu et al. | Panel-page-aware comic genre understanding | |
Postalcioglu et al. | Comparison of Neural Network Models for Nostalgic Sentiment Analysis of YouTube Comments | |
Ouenniche et al. | Vision-text cross-modal fusion for accurate video captioning | |
Mao et al. | Au-supervised convolutional vision transformers for synthetic facial expression recognition | |
Nguyen et al. | Combining Multi-vision Embedding in Contextual Attention for Vietnamese Visual Question Answering | |
Ranjbar et al. | Continuous Sign Language Recognition Using Intra-inter Gloss Attention | |
Wei et al. | Runge-Kutta Guided Feature Augmentation for Few-Sample Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |