CN117473083B - 一种基于提示知识和混合神经网络的方面级情感分类模型 - Google Patents
一种基于提示知识和混合神经网络的方面级情感分类模型 Download PDFInfo
- Publication number
- CN117473083B CN117473083B CN202311280894.XA CN202311280894A CN117473083B CN 117473083 B CN117473083 B CN 117473083B CN 202311280894 A CN202311280894 A CN 202311280894A CN 117473083 B CN117473083 B CN 117473083B
- Authority
- CN
- China
- Prior art keywords
- sentence
- model
- roberta
- prompt
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 98
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000013145 classification model Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 56
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 10
- 230000000873 masking effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 230000007935 neutral effect Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 229910052799 carbon Inorganic materials 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- 229910052739 hydrogen Inorganic materials 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims description 2
- 230000007774 longterm Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims 2
- 238000004590 computer program Methods 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 9
- 230000007787 long-term memory Effects 0.000 abstract description 3
- 230000006403 short-term memory Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- VLFJWLVMFJQJEU-HWOCEHATSA-N (17a(1)R)-12alpha-acetoxy-17a(1)-hydroxy-4,4,8,17,17abeta-pentamethyl-17a-homo-5alpha-androst-16-ene-17,17a(1)-carbolactone Chemical compound C([C@H]12)C=C3C(=O)O[C@@H](O)[C@@H]3[C@@]1(C)[C@@H](OC(=O)C)C[C@H]1[C@@]2(C)CC[C@H]2C(C)(C)CCC[C@@]21C VLFJWLVMFJQJEU-HWOCEHATSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- VLFJWLVMFJQJEU-UHFFFAOYSA-N Scalarin Natural products C12CC=C3C(=O)OC(O)C3C2(C)C(OC(=O)C)CC2C1(C)CCC1C(C)(C)CCCC12C VLFJWLVMFJQJEU-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一种基于提示知识和混合神经网络的方面级情感分类模型,涉及人工智能技术领域。本发明为了解决基于预训练模型与下游ABSC任务不一致的问题,使预训练模型更好地适应下游任务,更充分利用句子的语义和句法信息。技术要点:提出一种PHNN模型,该模型利用提示知识(Prompt)和混合神经网络结构来解决ABSC任务。更准确地说,它首先使用Prompt将输入的句子转换为完形填空类型的文本,并利用RoBERTa预训练模型来处理输入。然后,混合神经网络结构由GCN、CNN、BiLSTM和MHA组成,其中,利用图卷积神经网络(GCN)与卷积神经网络(CNN)相结合来提取句子的句法特征,利用双向长短期记忆网络(BiLSTM)来提取句子的语义特征。此外,它利用多头注意力(MHA)机制来学习句子和方面词的注意力,进一步提取情感信息,捕获可能遗漏的情感特征表示。最后通过Softmax函数得到方面词的情感极性。在三个基准数据集上的实验表明,与其他基线相比,PHNN具有最佳的性能,验证了本发明所提出模型的有效性。
Description
技术领域
本发明涉及一种方面级情感分类模型,涉及人工智能技术领域。
背景技术
情感分析(SA)是自然语言处理(NLP)的一个重要研究方面,它研究自然语言文本中对实体的情感和态度。方面级情感分类(ABSC)是一种实体级细粒度SA任务,旨在确定句子中不同方面的情感极性(例如,消极、中性或积极)。例如,给定一个关于餐厅的评论句,“糟糕的餐厅环境但食物不错”,这句话包含两个方面的情感极性:方面词“食物”表示积极情感,方面词“环境”表示消极情感。ABSC可以准确地识别对特定方面的情感,而不是简单地为整个句子分配情感极性。
传统研究利用各种具有注意机制的神经网络来提取句子表示[1-3]。然而,基于注意力的模型只关注句子的语义信息,忽略了其句法依赖信息。当句子包含多个极性相反的情感词时,注意力机制很容易关注与方面词无关的情感词。以图1中的句子为例,就方面词“environment”而言,情感词“good”可能比情感词“poor”更受关注,但实际上情感词“good”与句子的另一个方面“food”更相关。
图神经网络(GNN)模型适合处理非结构化信息。在句法依赖树上使用GNN来解决ABSC任务通常比传统神经网络有更好的结果,因为依赖树可以建立相关词的连接。以图1为例,方面词“environment”和情感词“poor”之间存在依赖关系。Zhang等人[4]将图卷积神经网络(GCN)应用到ABSC任务中,利用依赖树和注意力机制进行情感分类。Huang等人[5]利用图注意力网络和多头注意力(MHA)来更新节点的特征表示。Zhao等人[6]提出了一种基于GCN的ABSC模型,有效捕获句子中多个方面之间的情感依赖关系。
自从大规模预训练模型的出现,例如BERT[7]和RoBERTa[8],NLP任务开始倾向于从预训练模型进行微调。例如,Ranaldi等人[9]比较了BERT和基于可解释树的方法来提取下游任务的句法知识,证明了BERT模型的有效性。然而,研究人员发现下游任务和预训练模型之间存在差距。即在基于预训练模型解决下游任务时,预训练模型往往去适配下游任务。提示知识(Prompt)解决了这个问题。最近的一些论文使用附加到原始输入文本的提示来指导语言模型执行不同的任务。最早的例子之一是[10],它通过使用提示来评估GPT-2模型在下游任务上的效率,而无需任何微调。Brown等人[11]在分类任务中添加提示,将任务转换为预训练任务。Schick等人[12]使用提示在文本分类中取得了先进的结果。
ABSC是方面级情感分析(ABSA)的细粒度子任务,旨在识别句子中给定方面的情感极性。经典方法主要利用卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制来解决ABSC任务。Fan等人[13]提出CNN结合注意力来捕获句子中的单词表达。Joshi等人[14]应用CNN从基于文本注意力的神经网络中提取特征,并对句子和方面词之间的语义关系进行建模。Xu等人[15]提出了一种MHA网络来解决方面包含多个单词时的ABSC问题。Zhang等人[16]提出了一种注意力网络,将句子的两个注意力部分结合起来,以获得更好的上下文表示。
近年来,GNN因其处理非结构化内容的能力而备受关注,在ABSC任务中,GNN也可以处理句法依赖树。Sun等人[17]使用双向长短期记忆网络(BiLSTM)构建依赖树模型来学习句子特征表示并通过GCN增强句子表示。Wang等人[18]修剪和重塑了普通的依赖树,并提出了一个关系图注意网络来编码新的依赖树。
随着语言模型的发展,预训练模型在许多NLP任务上取得了显着的效果,例如BERT和RoBERTa。在ABSA任务中,预训练模型将传统的静态词向量转换为具有更好的动态语义表示的动态词向量,有效解决了长句子的情感分析问题,并逐渐成为标准模型。Sun等人[19]设计了一种基于方面的方法,通过构造辅助句子并将ABSA转换为句子到句子的分类问题来解决ABSA任务。Yin等人[20]提出了SentiBERT,它是BERT的一种变体,可以更有效地捕获文本的情感特征。Alexandridis等人[21]使用BERT对用希腊语编写的社交媒体文本进行情感分类。Sirisha等人[22]结合RoBERTa和LSTM,通过Twitter数据分析人们对两国冲突的情绪。尽管预训练模型在NLP任务中很有帮助,但它经常遇到对下游任务了解较少的问题,无法充分发挥其潜力。
Prompt是受GPT-3[11]启发的一种新的微调范式,它对NLP任务具有更好的语义建模。Prompt技术的常见做法是将带有[mask]的提示插入到原始输入文本中,并预训练模型以预测可能出现在[mask]位置的单词。Li等人[23]首先将提示应用于ABSA任务,给定已知的方面和观点,构建连续的提示来预测相应的情绪类别。Gao等人[24]动态选择与每个上下文相关的句子来生成自动微调模型的提示。Hu等人[25]引入了知识型提示微调,利用句子的外部知识,从而提高了提示微调的稳定性。
现有专利文献中,也提出很多方面级情感分类模型或方法,比如:文献号为CN111985205A现有技术公开了一种方面级情感分类模型,其包括嵌入层、神经网络层、注意力层和输出层;嵌入层用于将句子转化为对应的词向量表示;神经网络层用于将句子的词向量表示转化为相应的隐藏状态序列;注意力层用于从句子的隐藏状态中捕获对于识别给定方面的情感极性来说重要的信息;输出层用于对注意力层的输出进行变化,输出句子对于给定方面表达的情感分类。其利用多头注意力机制与卷积运算获取隐藏状态,利用多头注意机制对上下文和方面词进行建模,增强了方面信息与句子的关联度,提高了模型对给定方面的情感极性分类。文献号CN113987167A的现有技术提出了基于依赖感知图卷积网络的方面级情感分类方法及系统,其包括:获取文本信息:依据获取的文本信息和预设的方面级情感分类模型,得到情感分类结果;其中,方面级情感分类模型中,将依据文本信息获得的上下文表示输入多头注意力层,实现上下文序列和方面词之间的相互作用,以及在图神经网络中增加对依赖类型信息的整合,对词与词之间边的处理根据不同的依赖信息给予不同的关注,使用多层依赖感知的图卷积网络层进行综合学习;本公开对词与词之间边的处理根据不同的依赖信息给予不同的关注,将重要的上下文信息与这些关系区分开来,提高了在不同数据集上对情感极性判断的准确性和稳定性。
关于如何使基于预训练的模型与下游ABSC任务保持一致,如何充分利用句子的语义和句法信息,更好地提取结合上下文语义和句法信息的方面词这些方面,现有技术中鲜有人提出解决方案。
发明内容
本发明要解决的技术问题是:
本发明为了解决基于预训练模型与下游ABSC任务不一致的问题,使预训练模型更好地适应下游任务,更充分利用句子的语义和句法信息,提出基于提示知识和混合神经网络(PHNN)的方面级情感分类模型。
本发明为解决上述技术问题所采用的技术方案为:
一种基于提示知识和混合神经网络的方面级情感分类模型,所述方面级情感分类模型利用提示知识和混合神经网络结构来预测给定句子中特定方面词的情感极性,得到基于方面的情感分类;所述方面级情感分类模型包括提示文本构建层、句法和语义编码层以及情感分类层;
提示文本构建层:
对于给定的一个句子和该句中某个方面词A使用提示知识(Prompt)构造提示文本P,将原句子(给定的一个句子)和提示文本P组合得到构造后的提示文本Oinputs,构造后的提示文本Oinputs经RoBERTaMLM处理后得到的上下文隐藏状态向量作为句法和语义编码层的图卷积神经网络(GCN)和双向长短期记忆网络(BiLSTM)的输入;同时将方面词A构造成方面文本Oaspects,经RoBERTa处理后得到的方面词向量作为两个多头注意力(MHA)的输入;
句法和语义编码层:
应用图卷积神经网络(GCN)与卷积神经网络(CNN)相结合来提取句子的句法特征,同时使用双向长短期记忆(BiLSTM)来获取句子的语义特征;利用多头注意力(MHA)来学习句子和方面词的注意力;
GCN用于对非结构化数据的局部信息进行编码,RoBERTaMLM输出的隐藏状态向量和原句子经依赖树处理生成的句法结构图共同作为GCN的输入,GCN利用图卷积运算来获取方面词的句法特征,CNN层再对GCN的输出进行处理,进一步提取句法特征,经由最大池化层处理后输出给所述两个多头注意力(MHA)中的一个多头注意力(MHA);
BiLSTM允许模型在前向和后向方向上对RoBERTaMLM输出的隐藏状态向量进行编码,提取更丰富的语义特征,输出给所述两个多头注意力(MHA)中的另一个多头注意力(MHA);
得到最大池化和BILSTM的输出后,MHA对它们的输出与方面词向量进行交互式学习,捕获可能遗漏的情感特征表示;
情感分类层:
根据句法和语义编码层生成的情感特征,通过Softmax函数得到方面词的情感极性,输出句子对于给定方面表达的情感分类。
本发明具有以下有益技术效果:
本发明提出通过提示知识和混合神经网络表达方面词的情感,通过这种方法可以更好地提取结合上下文语义和句法信息的方面词。ABSC是NLP中的一项重要任务,其目的是预测句子中不同方面的情感极性。注意力机制和预训练模型常用于ABSC任务。然而,单独的预训练模型通常不能很好地感知下游任务,并且注意力机制通常会忽略句子的句法特征。在本发明中,我们提出了PHNN模型,该模型利用提示知识(Prompt)和混合神经网络结构来解决ABSC任务。更准确地说,它首先使用Prompt将输入的句子转换为完形填空类型的文本,并利用RoBERTa预训练模型来处理输入。然后,混合神经网络结构由GCN、CNN、BiLSTM和MHA组成,其中,利用GCN与CNN相结合来提取句子的句法特征,利用BiLSTM来提取句子的语义特征,利用MHA学习句子和方面词的注意力,进一步提取情感信息,捕获可能遗漏的情感特征表示。最后通过Softmax函数得到方面词的情感极性。在三个基准数据集上的实验表明,与其他基线相比,PHNN具有最佳的性能,验证本发明所提出模型的有效性。
PHNN模型的有效性已在三个基准数据集上得到验证,本发明的技术贡献总结如下:
本发明利用Prompt将输入句子转换为完形填空型文本,使得预训练模型更适合下游ABSC任务。
本发明提出了一种有效的PHNN模型,利用RoBERTa处理基于Prompt的输入文本,然后采用GCN、CNN、BiLSTM和MHA组成的混合神经网络来解决ABSC任务。
针对本发明的技术效果验证,进行了大量的实验,结果表明,与其他基线模型相比,PHNN在SemEval2014和Twitter数据集上表现最佳。
本发明的关键词:ABSC、预训练模型、Prompt、混合神经网络。
附图说明
图1为一个句子及其句法依赖树的原理示意图;
图2为PHNN模型的整体架构图(本发明所述模型的整体结构框图);
图3为提示文本构建图。
具体实施方式
针对本发明所述的一种基于提示知识和混合神经网络的方面级情感分类模型的实现进行如下阐述:
1.本发明为了解决基于预训练模型与下游ABSC任务不一致的问题,设计了基于Prompt的输入文本,将原句、提示文本和方面词拼接作为预训练模型的输入,利用GCN结合CNN提取句子的句法特征,利用BiLSTM获取句子的语义特征,利用MHA学习句子和方面词交互,进一步提取情感信息,捕获可能遗漏的情感特征表示。
2.本发明技术构思:本发明提出通过提示知识和混合神经网络表达方面词的情感,通过这种方法可以更好地提取结合上下文语义和句法信息的方面词。该模型利用提示知识(Prompt)和混合神经网络结构来解决ABSC任务。它首先使用Prompt将输入的句子转换为完形填空类型的文本,并利用RoBERTa预训练模型来处理输入。然后,混合神经网络结构由GCN、CNN、BiLSTM和MHA组成,其中,利用图卷积神经网络(GCN)与卷积神经网络(CNN)相结合来提取句子的句法特征,利用双向长短期记忆网络(BiLSTM)来提取句子的语义特征。此外,它利用多头注意力(MHA)机制来学习句子和方面词的注意力,进一步提取情感信息,捕获可能遗漏的情感特征表示。最后通过Softmax函数得到方面词的情感极性。在三个基准数据集上的实验表明,与其他基线相比,PHNN具有最佳的性能,验证了本发明所提出模型的有效性。
3.本发明具本实现方法(介绍PHNN的细节)
假设一个句子X={x1,x2,…xt+1,…xt+c,…xn},包含一个或多个方面词A={xt+1,xt+2,…,xt+c},由c个单词组成,c≥1,ABSC的目的是预测给定句子中特定方面词的情感极性。为了解决ABSC问题,我们提出了PHNN模型。该模型的架构如图2所示。它由三层组成:提示文本构建层、句法和语义编码层以及情感分类层。PHNN模型的详细信息将在本节的其余部分中介绍。
3.1提示文本构建层
提示文本构建层的主要目标是使用Prompt来创建提示文本。添加提示文本有助于模型更好地理解上下文和方面词之间的语义关系,从而对齐上游和下游任务。这种方法最大限度地发挥了掩码语言模型(MLM)的能力。Prompt的核心是在训练前使用标有[mask]的提示文字来模拟预训练模型的目标。通过这种方式,我们可以将情感分析任务转化为完形填空任务。本发明采用RoBERTa来实现完形填空任务。与BERT不同的是,<CLS>标记为<s>,<SEP>标记为</s>。在输入文本中添加提示可以利用预训练模型的能力,提高其对下游任务的感知性能。图3所示为本发明提示文本构建的流程。
如图3所示,给定一个句子X和一个方面词A,我们将原句子X改为X+P,提示文本P定义为P=Pleft+A+Pright。更准确地说,Pleft被定义为“What is the sentiment about”,而Pright被定义为“?It was<mask>”。例如,给定原始输入句子X=“poor restaurantenvironment but good food”,对于方面词“food”,提示文本P构造的最终句子为“<s>poorrestaurant environment but good food</s>What is the sentiment about food?Itwas<mask></s>”。本发明使用RoBERTa和句子对方法来生成输入文本的嵌入向量表示,其中构造的输入文本Oinputs与方面文本Oaspects组合形成句子对。详情如下所示:
Oinputs=<s>+X+</s>+P+</s> (1)
Oaspects=<s>+A+</s> (2)
其中X为原始输入句子,<s>为每个输入句子的唯一标识符,</s>为上下文句子的标识符,P为融入方面词的提示文本,A为方面词。
输入文本通过词嵌入操作转换为词向量,并通过预训练模型中的MLM任务预测<mask>标记。在ABSC任务中,通常使用基于预训练的模型,例如BERT和RoBERTa。RoBERTa是BERT模型的改进,具有三个主要优化。首先,RoBERTa采用动态掩码,对每个新的序列输入使用新的掩码方法,使其比BERT中的固定掩码方法更加灵活。其次,RoBERTa从BERT中删除了下一句预测任务,这对性能影响很小。最后,RoBERTa扩展了批量大小和单词列表,允许模型在预训练期间使用更大的数据集,从而在预训练结束时获得更丰富的语义信息。
使用句子对Oinputs和Oaspects作为输入,上下文隐藏状态向量和方面词向量/>分别由RoBERTa的MLM任务(RoBERTaMLM)和RoBERTa生成,其中/>di和da分别是RoBERTaMLM和RoBERTa的词嵌入维度,n和c分别是输入句子和方面词的长度。公式如下:
3.2句法和语义编码层
GCN可以被认为是传统CNN的扩展,用于对非结构化数据的局部信息进行编码。GCN将隐藏状态向量与依赖树相结合来构建文本图,并利用图上的卷积运算来获取方面词的句法特征。此外,GCN使用节点的邻居节点相关的信息来对多个层进行处理,使得每个节点的最终隐藏状态可以接收来自其更远的邻居节点的信息。
将原句子X,经依赖树处理可以得到一个邻接矩阵Aij∈Rn×n。对于L层GCN,l∈[1,2,…,L],设节点i的l层输出为可按式(5)计算:
其中Aij表示依赖树解析器产生的句法结构邻接矩阵,Wl是l层的权重矩阵,bl是l层的偏差,σ是非线性激活函数,例如ReLU。
RoBERTaMLM生成的上下文隐藏状态向量和句法结构邻接矩阵Aij被输入到GCN中,GCN在L层的最终输出为/>PHNN模型中的CNN层继续对GCN的输出进行处理,进一步提取句法特征。CNN中提取特征的过程如式(6)所示:
ci=f(W·GL+b) (6)
其中,表示卷积核,h×m为卷积核窗口的大小,b代表偏置量,f为ReLU激活函数。
GCN的输出进行卷积得到向量ci,依次拼接成矩阵C。CNN连接到最大池化层后,每个卷积核得到标量在本发明中,我们使用多个卷积核进行特征提取。经过最大池化层后,将特征连接起来得到特征向量Z。
其中m是卷积核的数量。
BiLSTM是一种特殊的RNN,可以捕获句子中的长期依赖关系。在PHNN模型中,RoBERTaMLM生成的隐藏状态向量被输入到BiLSTM,从而允许模型在前向和后向方向上对输入进行编码。BiLSTM由三个门组成:输入门、输出门和遗忘门。这些门机制允许模型在处理输入序列时选择性地记住或忽略信息,从而更好地捕获句子的语义和上下文关系。通过BiLSTM编码过程,模型可以获得融合前向和后向信息的句子表示,提取更丰富的语义特征。具体BiLSTM单元计算过程如式(8)-(13)所示:
it=σ(Wi·[ht-1;xt]+bi) (8)
ft=σ(Wf·[ht-1;xt]+bf) (9)
ot=σ(Wo·[ht-1;xt]+bo) (10)
gt=tanh(Wr·[ht-1;xt]+br) (11)
ct=it*gt+ft*ct-1 (12)
ht=ot*tanh(ct) (13)
其中t表示时间步,xt是t处的输入,ht是时间步t处的隐藏向量表示,*表示元素乘法,σ表sigmoid激活函数,Wi,bi是输入门的参数,Wf,bf是遗忘门的参数,Wo,bo是输出门的参数,ct-1和ct分别表示前一个单元的状态和当前单元的状态。RoBERTaMLM生成的隐藏状态向量/>经过BiLSTM得到向量H,其中H是ht的最终输出。
H=ht (14)
在获得最大池化和BiLSTM的输出后,我们使用MHA对它们的输出与方面词进行交互式学习,捕获可能遗漏的情感特征表示。MHA是指并行执行多个注意力函数来计算注意力。注意力函数将关键序列k={k1,k2…,kn}和查询序列q={q1,q2…,qm}映射到输出序列。如式(15)所示:
其中dk为缩放参数。
MHA整合了单一注意力并将其投影到指定的隐藏维度dhid。MHA值MHA(k,q)的计算公式如式(16)和式(17)所示:
MHA(k,q)=Concat(A1:A2:…:Ar)`Wmh (16)
Ah=Attentionh(k,q) (17)
其中,Ah是第h个头部注意力的输出,h∈[1,2,…,r],:表示向量连接。
我们通过前面的过程得到最大池化的输出向量Z和BiLSTM的输出向量H,并学习MHA与方面词向量交互后的向量Cca和Cla,如等式(18)-(19):
3.3情感分类层
将MHA得到的向量Cca和Cla组合成Hfin,然后平均得到Havg,将平均后的向量Havg送入紧接Softmax函数的线性层,生成情感极性概率分布y,计算过程如式(20)-(22)所示:
Hfin=[Cca:Cla] (20)
x=WaHavg+ba (21)
y=Softmax(x) (22)
其中:Wa、ba分别为可学习的参数矩阵和偏移向量。
3.4训练
使用梯度下降算法,使用交叉熵损失和L2正则化来训练模型,如公式(23)所示:
其中D是训练集的大小,C取值3,因为数据集包括消极、中性和积极标签,是文本的预测情感类别,/>是文本的真实情感类别。在本发明中,λ||θ||2为正则化项,θ表示所有可训练的参数集,λ表示L2正则化系数。
4.实验分析
4.1数据集
实验中使用了三个数据集,包括来自SemEval 2014Task 4的Laptop和Restaurant[26]和Twitter数据集[27]。Laptop数据集包含来自笔记本电脑购买者的三千多个评论。Restaurant数据集包含来自餐厅用餐者的三千多个评论。Twitter数据集包含超过七千条有关名人、产品和公司的推文。上述数据集的每个实例由三行组成:句子、方面词和方面词的极性(1:积极,0:中性,-1:消极)。每个数据集原始分为两部分:训练集和测试集。详细信息如表1所示。
表1数据集信息
4.2实验设置
实验中,对于RoBERTa,我们使用RoBERTa-base版本,RoBERTa嵌入维数为768,RoBERTaMLM嵌入维数为50265,学习率为2×10-5,正则化系数为1×10-4。GCN的层数为2。CNN中,卷积核数量、卷积核大小、步长分别为6、(6,100)、(4,55)。最大池化窗口大小为(2,1)。BiLSTM和MHA输出的隐藏状态向量维度为300。MHA中注意力头的数量为8,dropout为0.1。使用Adam优化器更新参数。该模型在GeForce RTX 2080Ti GPU上运行。
4.3基线模型
为了验证PHNN模型的有效性,我们将其与以下模型进行了比较:
●AOA[28]该模型借用注意力集中注意力(AOA)的思想来处理方面和句子,学习方面词和
上下文的表示。
·ATAE-LSTM[29]该模型结合了方面和上下文词嵌入作为输入,使用LSTM和注意力机制来
处理隐藏层以获得结果。
·TD-LSTM[30]该模型使用两个LSTM网络对文本进行建模,将LSTM扩展到ABSA任务。·ASGCN[4]该模型利用GCN对上下文进行建模,使用句法信息和单词之间的相互依赖关
系来完成ABSA任务。
·IAN[3]该模型使用交互式注意力对上下文和方面词之间的关系进行建模,学习两者在
ABSA任务中的表示。
·BERT-SPC[31]该模型将BERT模型的输入更改为“[CLS]+上下文+[SEP]+方面词+[SEP]”
进行句子对分类。
●AEN-BERT[31]该模型利用预训练的BERT模型(一种基于注意力的编码器)来获取结果。·R-GAT[32]该模型重建依赖树以去除冗余信息,扩展原始GNN添加关系注意机制。
·DualGCN[33]该模型是一个双GCN模型,利用正交和差分正则化方法来提高语义相关的
能力。
·DualGCN+BERT[33]该模型是一个基于预训练BERT的DualGCN模型。
●SSEGCN[34]该模型是用于ABSA任务的句法和语义增强的GCN模型,它使用具有自注意
力的方面感知注意机制来获取句子的注意分数矩阵,并通过在注意分数矩阵上执行GCN来增强节点表示。
4.4实验结果
我们使用准确度和Micro-F1值作为模型性能的衡量标准。实验结果如表2所示,加粗的数字表示最优结果。关于表2的更详细的结果可以在附录A中找到。
表2三个数据集上的准确性和Marco-F1的比较
我们观察到PHNN取得了最好的性能。它在Restaurant、Laptop和Twitter数据集上的准确率分别比最佳基线模型高2.15、1.59和0.76。此外,其F1分数也比这些数据集上的最佳基线模型分别高2.3、1.49和0.76。
我们还发现,基于预训练的模型通常比其他基于非预训练的模型表现更好。这是因为预训练模型是在大量未标记数据上进行训练的,使它们能够学习可以更好地适应各种下游任务的语言的通用表示。此外,与R-GAT、DualGCN等使用GNN的基于语法的模型相比,PHNN表现更好,因为它通过BiLSTM提取语义信息,同时使用Prompt来调整输入序列,可以更好地激发预训练模型的能力。然后,与ATAE-LSTM和IAN等基于注意力的方法相比,PHNN运行得更好,因为它利用句法结构知识来建立单词之间的依赖关系,避免了注意力机制带来的噪声。最后,基于句法知识的方法(例如ASGCN和R-GAT)比基于注意力的方法(例如AOA)取得了更好的分类结果,但这些模型忽略了语义信息,导致性能比PHNN差。
4.5消融实验
为了评估每个组件对PHNN模型整体性能的影响,进行了消融研究,结果如表3所示,加粗的数字表示最优结果。
表3PHNN模型的消融实验,其中w/o表示删除组件
从表中可以看出,任何一个组件的移除都会导致模型性能的下降,例如,移除Prompt时,在三个数据集上模型的准确率和F1分数分别下降了(0.98,0.38),(1.98,2.69)和(1.19,2.04),证明使用提示知识调整输入序列可以提高分类性能。我们还看到,与删除其他模块相比,在Restaurant数据集上删除GCN对模型的性能影响更大,类似于在Laptop数据集上删除Prompt和在Twitter数据集上删除BiLSTM的结果。例如,在餐厅数据集中,删除GCN的准确率和F1分数比删除Prompt的准确度和F1分数分别差2.28和4.16。这是因为GCN可以更好地利用句子的句法结构信息。
4.6案例分析
为了进一步探讨不同模型的分类效果,从测试集中收集了四个句子和8个方面词。表4展示了PHNN与其他五种经典方法对比结果。符号P、O和N分别代表积极、中性和消极情绪。
符号“√”和“×”表示模型是否正确预测了aspect的情感极性。
表4案例分析表
第一个句子有一个方面,第二个和第三个句子有两个情感极性相反的方面,这更有可能干扰注意力模型。从前三个例句来看,使用BERT预训练模型的方法比其他方法具有更好的分类结果。PHNN对所有三个样本都有正确的预测,结果表明PHNN有效地结合了句法和语义信息;添加提示知识和混合神经网络改善了分类结果。我们还在最后一句中看到了关于方面词“price tag”的失败案例。这是因为长句子本身就包含了大量的信息,添加较长句子的提示模板可能会增加捕获长距离依赖关系的负担,影响分类效果。
5.讨论与结论
ABSC是一项经过充分研究的NLP任务,预训练模型和神经网络在ABSC任务中经常使用。本发明提出PHNN模型,利用提示知识和混合神经网络解决ABSC任务。PHNN包含三个主要层:提示文本构建层、句法和语义编码层以及情感分类层。在提示文本构建层,我们使用Prompt对句子进行改造,然后将改造后的文本输入到RoBERTa预训练模型中。提示知识指导预训练模型缩小下游任务与预训练模型之间的差距,使得预训练模型更适合下游任务。在句法和语义编码层中,我们通过混合神经网络提取更丰富的句法和语义特征。更准确地说,我们使用GCN结合CNN来获取句法特征,使用BiLSTM来获取语义特征。然后,我们利用MHA捕获可能遗漏的情感特征表示。在情感分类层,我们通过Softmax函数得到句子的情感极性。实验证明了PHNN对于ABSC任务的有效性。
附录A
准确率和F1是表征模型质量的常用评价指标。我们根据真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)来计算准确率。F1是根据精确率和召回率指标计算的,其中精确率是正确预测为正的样本数占全部预测为正的比例,召回率衡量模型在正确预测为正的样本数占全部实际为正的比例的能力,这些指标的公式如(24)-(27)所示。
在此基础上,表A1显示了有关表2的更多详细信息,加粗的部分表示该类别的最优值。我们分别报告了三个基准数据集中每个类别的精度、召回率和F1分数的指标。从表中可以看出,PHNN模型在识别积极情感和消极情感方面通常优于其他模型。对于中性类别,其性能接近最佳模型。这些进一步证明了PHNN模型的有效性。
表A1
/>
本发明中援引的现有参考文献:
[1]Yang Z,Yang D,Dyer C,et al.Hierarchical Attention Networks forDocument Classification[C]//Proceedings of the 2016Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies.2016.
[2]Yadav R K,Lei J,Goodwin M,et al.Positionless aspect basedsentiment analysis using attention mechanism[J].Knowledge-Based Systems,2021,226(3):107136.
[3]Ma D,Li S,Zhang X,et al.Interactive Attention Networks for Aspect-Level Sentiment Classification[J].2017.
[4]Zhang C,Li Q,Song D.Aspect-based Sentiment Classification withAspect-specific Graph Convolutional Networks[C]//2019.
[5]Huang B,Carley K M.Syntax-Aware Aspect Level SentimentClassification with Graph Attention Networks[C]//Conference on EmpiricalMethods in Natural Language Processing&International Joint Conference onNatural Language Processing.arXiv,2019.
[6]ZHAO Pinlong,HOU Linlin,and WU Ou.Modeling sentiment dependencieswith graph convolutional networks for aspect-level sentiment classification[J].Knowledge-Based Systems,2020,193:105443.doi:10.1016/j.knosys.2019.105443.
[7]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of DeepBidirectional Transformers for Language Understanding[J].2018.
[8]Liu Y,Ott M,Goyal N,et al.RoBERTa:A Robustly Optimized BERTPretraining Approach[J].2019.
[9]Ranaldi,L.;Pucci,G.Knowing Knowledge:Epistemological Study ofKnowledge in Transformers.Applied Sciences 2023,13,677,doi:10.3390/app13020677.
[10]A.Radford,Jeffrey Wu,R.Child,David Luan,DarioAmodei,and IlyaSutskever.2019.Language models are unsupervised multitask learners.
[11]Brown T B,Mann B,Ryder N,et al.Language Models are Few-ShotLearners[J].2020.
[12]Schick T,H Schütze.Exploiting Cloze-Questions for Few-Shot TextClassification and Natural Language Inference[C]//Conference of the EuropeanChapter of the Association for Computational Linguistics.Association forComputational Linguistics,2021.
[13]Fan C,Gao Q,Du J,et al.Convolution based memory network foraspect-based sentiment analysis[C]//Proceeding of the 41st International ACMSIGIR Conference on Research&Development in Information Retrieval.New York,United States:Association for Computing Machinery,2018.
[14]Prabhu A,Joshi A,Shrivastava M,et al.Towards Sub-Word LevelCompositions for Sentiment Analysis of Hindi-English Code Mixed Text[C]//2016.
[15]Xu Q,Zhu L,Dai T,et al.Aspect-based sentiment classification withmulti-attention network-ScienceDirect[J].Neurocomputing,2020,388:135-143.
[16]Zhang B,Xiong D,Su J,et al.Learning better discourserepresentation for implicit discourse relation recognition via attentionnetworks[J].Elsevier,2018.[14]Prabhu A,Joshi A,Shrivastava M,et al.TowardsSub-Word Level Compositions for Sentiment Analysis of Hindi-English CodeMixed Text[C]//2016.
[17]Kai Sun,Richong Zhang,Samuel Mensah,Yongyi Mao,and XudongLiu.2019.Aspect-Level Sentiment Analysis Via Convolution over DependencyTree.In Proceedings of the 2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th International Joint Conference on NaturalLanguage Processing(EMNLP-IJCNLP),pages 5679–5688,Hong Kong,China.Associationfor Computational Linguistics.
[18]Vaswani A,Shazeer N,Parmar N,et al.Attention Is All You Need[C]//arXiv.arXiv,2017.
[19]Sun C,Huang L,Qiu X.Utilizing BERT for Aspect-Based SentimentAnalysis via Constructing Auxiliary Sentence[J].2019.
[20]Yin D,Meng T,Chang K W.SentiBERT:ATransferable Transformer-BasedArchitecture for Compositional Sentiment Semantics[C]//2020.
[21]Alexandridis,G.;Korovesis,K.;Varlamis,I.;Tsantilas,P.;Caridakis,G.Emotion detection on Greek social media using Bidirectional EncoderRepresentations from Transformers.In Proceedings of the 25th Pan-HellenicConference on Informatics,Volos,Greece,26–28,November,2021;pp.28-32.
[22]Sirisha,U.;Chandana,B.S.Aspect based Sentiment&Emotion Analysiswith ROBERTa,LSTM.International Journal of Advanced Computer Science andApplications 2022,11,7,doi:10.14569/IJACSA.2022.0131189.
[23]Li C,Gao F,Bu J,et al.SentiPrompt:Sentiment Knowledge EnhancedPrompt-Tuning for Aspect-Based Sentiment Analysis[J].2021.
[24]Gao T,Fisch A,Chen D.Making Pre-trained Language Models BetterFew-shot Learners[J].2020.
[25]Hu S,Ding N,Wang H,et al.Knowledgeable Prompt-tuning:Incorporating Knowledge into Prompt Verbalizer for Text Classification[J].2021.
[26]Pontiki M,Galanis D,Pavlopoulos J,et al.SemEval-2014 Task 4:Aspect Based Sentiment Analysis[J].Proceedings of International Workshop onSemantic Evaluation at,2014.
[27]Li D,Wei F,Tan C,et al.Adaptive Recursive Neural Network forTarget-dependent Twitter Sentiment Classification[J].2014.
[28]Huang B,Ou Y,Carley K M.Aspect Level Sentiment Classificationwith Attention-over-Attention Neural Networks[J].Springer,Cham,2018.
[29]Wang Y,Huang M,Zhu X,et al.Attention-based LSTM for Aspect-levelSentiment Classification[C]//Proceedings of the 2016 Conference on EmpiricalMethods in Natural Language Processing.2016.
[30]Tang D,Qin B,Feng X,et al.Effective LSTMs for Target-DependentSentiment Classification[J].Computer Science,2015.
[31]Ma D,Li S,Zhang X,et al.Interactive Attention Networks forAspect-Level Sentiment Classification[J].2017.
[32]Song Y,Wang J,Tao J,et al.Attentional Encoder Network forTargeted Sentiment Classification[J].2019.
[33]Wang K,Shen W,Yang Y,et al.Relational Graph Attention Network forAspect-based Sentiment Analysis[J].2020.
[34]Li R,Chen H,Feng F,et al.Dual Graph Convolutional Networks forAspect-based Sentiment Analysis[C]//Proceedings of the 59th Annual Meeting ofthe Association for Computational Linguistics and the 11th InternationalJoint Conference on Natural Language Processing(Volume 1:Long Papers).2021.
[35]Zheng Zhang,Zili Zhou,and Yanna Wang.2022.SSEGCN:Syntactic andSemantic Enhanced Graph Convolutional Network for Aspect-based SentimentAnalysis.In Proceedings of the 2022Conference of the North American Chapterof the Association for Computational Linguistics:Human Language Technologies,pages 4916–4925,Seattle,United States.Association for ComputationalLinguistics.
Claims (6)
1.一种基于提示知识和混合神经网络的方面级情感分类模型,其特征在于,所述方面级情感分类模型利用提示知识和混合神经网络结构来预测给定句子中特定方面词的情感极性,得到基于方面的情感分类;所述方面级情感分类模型包括提示文本构建层、句法和语义编码层以及情感分类层;
提示文本构建层:
对于给定的一个句子和该句中某个方面词A使用提示知识(Prompt)构造提示文本P,将原句子和提示文本P组合得到构造后的提示文本Oinputs,构造后的提示文本Oinputs经RoBERTaMLM处理后得到的上下文隐藏状态向量作为句法和语义编码层的图卷积神经网络(GCN)和双向长短期记忆网络(BiLSTM)的输入;同时将方面词A构造成方面文本Oaspects,经RoBERTa处理后得到的方面词向量作为两个多头注意力(MHA)的输入;
句法和语义编码层:
应用图卷积神经网络(GCN)与卷积神经网络(CNN)相结合来提取句子的句法特征,同时使用双向长短期记忆网络(BiLSTM)来获取句子的语义特征;利用多头注意力(MHA)来学习句子和方面词的注意力;
GCN用于对非结构化数据的局部信息进行编码,RoBERTaMLM输出的隐藏状态向量和原句子经依赖树处理生成的句法结构图共同作为GCN的输入,GCN利用图卷积运算来获取方面词的句法特征,CNN层再对GCN的输出进行处理,进一步提取句法特征,经由最大池化层处理后输出给所述两个多头注意力(MHA)中的一个多头注意力(MHA);
BiLSTM允许模型在前向和后向方向上对RoBERTaMLM输出的隐藏状态向量进行编码,提取更丰富的语义特征,输出给所述两个多头注意力(MHA)中的另一个多头注意力(MHA);
MHA对得到最大池化和BILSTM的输出分别与方面词向量进行交互式学习,捕获可能遗漏的情感特征表示;
情感分类层:
根据句法和语义编码层生成的情感特征,通过Softmax函数得到方面词的情感极性,输出句子对于给定方面表达的情感分类;
所述方面级情感分类模型的构建为:
提示文本构建层:
假设一个句子X={x1,x2,…xt+1,…xt+c,…xn},包含一个或多个方面词A={xt+1,xt+2,…,xt+c},由c个单词组成,c≥1,
给定一个句子X和一个方面词A,将原句子X改为X+P,提示文本P定义为P=Pleft+A+Pright,Pleft被定义为“What is the sentiment about”,而Pright被定义为“?It was<mask>”,使用RoBERTa和句子对方法来生成输入文本的嵌入向量表示,其中构造后的提示文本Oinputs与方面文本Oaspects组合形成句子对,如下所示:
Oinputs=<s>+X+</s>+P+</s> (1)
Oaspects=<s>+A+</s> (2)
其中X为原始输入句子,<s>为每个输入句子的唯一标识符,</s>为上下文句子的标识符,P为融入方面词的提示文本,A为方面词;
使用句子对Oinputs和Oaspects作为输入,上下文隐藏状态向量和方面词向量/>分别由RoBERTa的MLM任务(RoBERTaMLM)和RoBERTa生成,其中/>di和da分别是RoBERTaMLM和RoBERTa的词嵌入维度,n和c分别是输入句子和方面词的长度,公式如下:
语法和语义编码层:
将原句子X,经依赖树处理可以得到一个邻接矩阵Aij∈Rn×n;对于L层GCN,l∈[1,2,…,L],设节点i的l层输出为可按式(5)计算:
其中Aij表示依赖树解析器产生的句法结构图的邻接矩阵,Wl是l层的权重矩阵,bl是l层的偏差,σ是非线性激活函数ReLU;
RoBERTaMLM生成的上下文隐藏状态向量和句法结构邻接矩阵Aij被输入到GCN中,GCN在L层的最终输出为/>CNN层继续对GCN的输出进行处理,进一步提取句法特征;CNN中提取特征的过程如式(6)所示:
ci=f(W·GL+b) (6)
其中,表示卷积核,h×m为卷积核窗口的大小,b代表偏置量,f为ReLU激活函数;
GCN的输出进行卷积得到向量ci,依次拼接成矩阵C;CNN连接到最大池化层后,每个卷积核得到标量使用多个卷积核进行特征提取,经过最大池化层后,将特征连接起来得到特征向量Z;
其中m是卷积核的数量;
使用双向长短期记忆网络(BiLSTM)来获取句子的语义特征,通过BiLSTM编码过程,模型可以获得融合前向和后向信息的句子表示,提取更丰富的语义特征,具体BiLSTM单元计算过程如式(8)-(13)所示:
it=σ(Wi·[ht-1;xt]+bi) (8)
ft=σ(Wf·[ht-1;xt]+bf) (9)
ot=σ(Wo·[ht-1;xt]+bo) (10)
gt=tanh(Wr·[ht-1;xt]+br) (11)
ct=it*gt+ft*ct-1 (12)
ht=ot*tanh(ct) (13)
其中t表示时间步,xt是t处的输入,ht是时间步t处的隐藏向量表示,*表示元素乘法,σ表sigmoid激活函数,Wi,bi是输入门的参数,Wf,bf是遗忘门的参数,Wo,bo是输出门的参数,ct-1和ct分别表示前一个单元的状态和当前单元的状态;RoBERTaMLM生成的隐藏状态向量/>经过BiLSTM得到向量H,其中H是ht的最终输出;
H=ht (14)
在获得最大池化和BiLSTM的输出后,使用MHA对它们的输出与方面词进行交互式学习,捕获可能遗漏的情感特征表示,MHA是指并行执行多个注意力函数来计算注意力;注意力函数将关键序列k={k1,k2…,kn}和查询序列q={q1,q2…,qm}映射到输出序列,如式(15)所示:
其中dk为缩放参数;
MHA整合单一注意力并将其投影到指定的隐藏维度dhid;MHA值MHA(k,q)的计算公式如式(16)和式(17)所示:
MHA(k,q)=Concat(A1:A2:…:Ar)·Wmh (16)Ah=Attentionh(k,q) (17)其中,Ah是第h个头部注意力的输出,h∈[1,2,…,r],:表示向量连接;
通过前面的过程得到最大池化的输出向量Z和BiLSTM的输出向量H,并学习MHA与方面词向量交互后的向量Cca和Cla,如等式(18)-(19):
情感分类层:
将MHA得到的向量Cca和Cla组合成Hfin,然后平均得到Havg,将平均后的向量送入紧接Softmax函数的线性层,生成情感极性概率分布y,计算过程如式(20)-(22)所示:
Hfin=[Cca:Cla] (20)
x=WaHavg+ba (21)
y=Softmax(x) (22)
其中:Wa、ba分别为可学习的参数矩阵和偏移向量。
2.根据权利要求1所述的一种基于提示知识和混合神经网络的方面级情感分类模型,其特征在于,使用梯度下降算法,交叉熵损失和L2正则化来训练模型,如公式(23)所示:
其中D是训练集的大小,Ω取值3,因为数据集包括消极、中性和积极标签,是文本的预测情感类别,/>是文本的真实情感类别,λ||θ||2为正则化项,θ表示所有可训练的参数集,λ表示L2正则化系数。
3.根据权利要求1或2所述的一种基于提示知识和混合神经网络的方面级情感分类模型,其特征在于,所述RoBERTa是BERT模型的改进,其具有三个优化:首先,RoBERTa采用动态掩码,对每个新的序列输入使用新的掩码方法,使其比BERT中的固定掩码方法更加灵活;其次,RoBERTa从BERT中删除了下一句预测任务;最后,RoBERTa扩展批量大小和单词列表,允许模型在预训练期间使用更大的数据集,从而在预训练结束时获得更丰富的语义信息。
4.根据权利要求3所述的一种基于提示知识和混合神经网络的方面级情感分类模型,其特征在于,所述BiLSTM是一种特殊的RNN,可以捕获句子中的长期依赖关系;在PHNN模型中,RoBERTaMLM生成的隐藏状态向量被输入到BiLSTM,从而允许模型在前向和后向方向上对输入进行编码;BiLSTM由三个门组成:输入门、输出门和遗忘门;这些门机制允许模型在处理输入序列时选择性地记住或忽略信息,从而更好地捕获句子的语义和上下文关系。
5.一种基于提示知识和混合神经网络的方面级情感分类方法,其特征在于:该方法具有与上述权利要求1-4任一项权利要求的程序模块相对应。
6.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求5所述的一种基于提示知识和混合神经网络的方面级情感分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311280894.XA CN117473083B (zh) | 2023-09-30 | 2023-09-30 | 一种基于提示知识和混合神经网络的方面级情感分类模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311280894.XA CN117473083B (zh) | 2023-09-30 | 2023-09-30 | 一种基于提示知识和混合神经网络的方面级情感分类模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117473083A CN117473083A (zh) | 2024-01-30 |
CN117473083B true CN117473083B (zh) | 2024-05-28 |
Family
ID=89635522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311280894.XA Active CN117473083B (zh) | 2023-09-30 | 2023-09-30 | 一种基于提示知识和混合神经网络的方面级情感分类模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117473083B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164200A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 一种基于深度分层编码的智能语义匹配方法和装置 |
CN113641820A (zh) * | 2021-08-10 | 2021-11-12 | 福州大学 | 基于图卷积神经网络的视角级文本情感分类方法及系统 |
AU2021105938A4 (en) * | 2021-08-19 | 2021-12-09 | Choudhary, Deepak MR | Automatic and dynamic contextual analysis of sentiment of social content and feedback reviews based on machine learning model |
CN114579707A (zh) * | 2022-03-07 | 2022-06-03 | 桂林旅游学院 | 一种基于bert神经网络与多语义学习的方面级情感分析方法 |
CN114911906A (zh) * | 2022-05-13 | 2022-08-16 | 广西师范大学 | 一种基于杂合神经网络的方面级情感分析方法 |
CN115099219A (zh) * | 2022-07-06 | 2022-09-23 | 曲阜师范大学 | 一种基于增强图卷积神经网络的方面级情感分析方法 |
CN116049393A (zh) * | 2022-12-21 | 2023-05-02 | 重庆邮电大学 | 一种基于gcn的方面级文本情感分类方法 |
CN116361420A (zh) * | 2023-03-31 | 2023-06-30 | 广西师范大学 | 基于多提示学习的评语数据增强与方面级情感分析方法 |
CN116384089A (zh) * | 2023-03-24 | 2023-07-04 | 齐齐哈尔大学 | 一种基于极性反向可达集的带符号社交网络正向影响力最大化方法 |
CN116402066A (zh) * | 2023-04-13 | 2023-07-07 | 重庆邮电大学 | 多网络特征融合的属性级文本情感联合抽取方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11868730B2 (en) * | 2020-09-23 | 2024-01-09 | Jingdong Digits Technology Holding Co., Ltd. | Method and system for aspect-level sentiment classification by graph diffusion transformer |
US20230267322A1 (en) * | 2022-02-21 | 2023-08-24 | Chinabank Payment (beijing) Technology Co., Ltd. | Method and system for aspect-level sentiment classification by merging graphs |
-
2023
- 2023-09-30 CN CN202311280894.XA patent/CN117473083B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164200A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 一种基于深度分层编码的智能语义匹配方法和装置 |
CN113641820A (zh) * | 2021-08-10 | 2021-11-12 | 福州大学 | 基于图卷积神经网络的视角级文本情感分类方法及系统 |
AU2021105938A4 (en) * | 2021-08-19 | 2021-12-09 | Choudhary, Deepak MR | Automatic and dynamic contextual analysis of sentiment of social content and feedback reviews based on machine learning model |
CN114579707A (zh) * | 2022-03-07 | 2022-06-03 | 桂林旅游学院 | 一种基于bert神经网络与多语义学习的方面级情感分析方法 |
CN114911906A (zh) * | 2022-05-13 | 2022-08-16 | 广西师范大学 | 一种基于杂合神经网络的方面级情感分析方法 |
CN115099219A (zh) * | 2022-07-06 | 2022-09-23 | 曲阜师范大学 | 一种基于增强图卷积神经网络的方面级情感分析方法 |
CN116049393A (zh) * | 2022-12-21 | 2023-05-02 | 重庆邮电大学 | 一种基于gcn的方面级文本情感分类方法 |
CN116384089A (zh) * | 2023-03-24 | 2023-07-04 | 齐齐哈尔大学 | 一种基于极性反向可达集的带符号社交网络正向影响力最大化方法 |
CN116361420A (zh) * | 2023-03-31 | 2023-06-30 | 广西师范大学 | 基于多提示学习的评语数据增强与方面级情感分析方法 |
CN116402066A (zh) * | 2023-04-13 | 2023-07-07 | 重庆邮电大学 | 多网络特征融合的属性级文本情感联合抽取方法及系统 |
Non-Patent Citations (8)
Title |
---|
Dong Zhang.Few-Shot Multi-Modal Sentiment Analysis with Prompt-Based Vision-Aware Language Modeling.2022 IEEE International Conference on Multimedia and Expo (ICME).2022,第[1-6]页. * |
Korawit Orkphol ; Wu Yang ; Wei Wang ; Wenlong Zhu.Hybrid approach framework for sentiment classification on microblogging.2017 Computing Conference.2018,第[893-898]页. * |
Li, G. ; Lin, F. ; Chen, W. ; Dong, D. ; Liu, B..Prompt-Based Learning for Aspect-Level Sentiment Classification.Neural Information Processing: 29th International Conference, ICONIP 2022, Virtual Event, Proceedings. Lecture Notes in Computer Science (13625).2023,第[509-520]页. * |
Yang Yu School of Computer Science and Technology, Soochow University, China * |
基于文本筛选和改进BERT的长文本方面级情感分析;王昆;郑毅;方书雅;刘守印;;计算机应用;20201010;第40卷(第10期);第[2838-1844] * |
基于混合多头注意力和胶囊网络的特定目标情感分析;王家乾;龚子寒;薛云;庞士冠;古东宏;;中文信息学报;20200515(第05期);第[100-110]页 * |
结合注意力机制和句子排序的情感分析研究;刘发升;徐民霖;邓小鸿;;计算机工程与应用;20200221;第56卷(第13期);第[12-19]页 * |
融合提示知识的方面级情感分析方法;张心月;刘蓉;魏驰宇;方可;计算机应用;20230910;第43卷(第9期);第[2753-2759]页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117473083A (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
Liu et al. | Cross-attentional spatio-temporal semantic graph networks for video question answering | |
CN114490954B (zh) | 一种基于任务调节的文档级生成式事件抽取方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN115563314A (zh) | 多源信息融合增强的知识图谱表示学习方法 | |
Wang et al. | Weighted graph convolution over dependency trees for nontaxonomic relation extraction on public opinion information | |
Xiao et al. | Cross-modal fine-grained alignment and fusion network for multimodal aspect-based sentiment analysis | |
CN113239143B (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
Tasnim et al. | Political ideology prediction from bengali text using word embedding models | |
CN117112786A (zh) | 一种基于图注意力网络的谣言检测方法 | |
CN117132923A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
CN117473083B (zh) | 一种基于提示知识和混合神经网络的方面级情感分类模型 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
CN115169285A (zh) | 一种基于图解析的事件抽取方法及系统 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
Shen et al. | Knowledge-based reasoning network for relation detection | |
Zeng et al. | Correcting the Bias: Mitigating Multimodal Inconsistency Contrastive Learning for Multimodal Fake News Detection | |
Wang et al. | A multimodal dialogue system for improving user satisfaction via knowledge-enriched response and image recommendation | |
Zhou et al. | What happens next? Combining enhanced multilevel script learning and dual fusion strategies for script event prediction | |
Yang et al. | Aspect-Level Sentiment Analysis Incorporating Semantic and Syntactic Information | |
Li et al. | Ptr4BERT: Automatic Semisupervised Chinese Government Message Text Classification Method Based on Transformer‐Based Pointer Generator Network | |
Ma et al. | Answer Graph-based Interactive Attention Network for Question Answering over Knowledge Base |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |