CN117473083B

CN117473083B - 一种基于提示知识和混合神经网络的方面级情感分类模型

Info

Publication number: CN117473083B
Application number: CN202311280894.XA
Authority: CN
Inventors: 朱文龙; 罗家豪; 杨双双; 刘沛伦; 白雨帆; 刁迎春
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2023-09-30
Filing date: 2023-09-30
Publication date: 2024-05-28
Anticipated expiration: 2043-09-30
Also published as: CN117473083A

Abstract

一种基于提示知识和混合神经网络的方面级情感分类模型，涉及人工智能技术领域。本发明为了解决基于预训练模型与下游ABSC任务不一致的问题,使预训练模型更好地适应下游任务，更充分利用句子的语义和句法信息。技术要点：提出一种PHNN模型，该模型利用提示知识(Prompt)和混合神经网络结构来解决ABSC任务。更准确地说，它首先使用Prompt将输入的句子转换为完形填空类型的文本，并利用RoBERTa预训练模型来处理输入。然后，混合神经网络结构由GCN、CNN、BiLSTM和MHA组成，其中，利用图卷积神经网络(GCN)与卷积神经网络(CNN)相结合来提取句子的句法特征，利用双向长短期记忆网络(BiLSTM)来提取句子的语义特征。此外，它利用多头注意力(MHA)机制来学习句子和方面词的注意力,进一步提取情感信息，捕获可能遗漏的情感特征表示。最后通过Softmax函数得到方面词的情感极性。在三个基准数据集上的实验表明，与其他基线相比，PHNN具有最佳的性能，验证了本发明所提出模型的有效性。

Description

一种基于提示知识和混合神经网络的方面级情感分类模型

技术领域

本发明涉及一种方面级情感分类模型，涉及人工智能技术领域。

背景技术

情感分析(SA)是自然语言处理(NLP)的一个重要研究方面，它研究自然语言文本中对实体的情感和态度。方面级情感分类(ABSC)是一种实体级细粒度SA任务，旨在确定句子中不同方面的情感极性(例如，消极、中性或积极)。例如，给定一个关于餐厅的评论句，“糟糕的餐厅环境但食物不错”，这句话包含两个方面的情感极性：方面词“食物”表示积极情感，方面词“环境”表示消极情感。ABSC可以准确地识别对特定方面的情感，而不是简单地为整个句子分配情感极性。

传统研究利用各种具有注意机制的神经网络来提取句子表示[1-3]。然而，基于注意力的模型只关注句子的语义信息，忽略了其句法依赖信息。当句子包含多个极性相反的情感词时，注意力机制很容易关注与方面词无关的情感词。以图1中的句子为例，就方面词“environment”而言，情感词“good”可能比情感词“poor”更受关注，但实际上情感词“good”与句子的另一个方面“food”更相关。

图神经网络(GNN)模型适合处理非结构化信息。在句法依赖树上使用GNN来解决ABSC任务通常比传统神经网络有更好的结果，因为依赖树可以建立相关词的连接。以图1为例，方面词“environment”和情感词“poor”之间存在依赖关系。Zhang等人[4]将图卷积神经网络(GCN)应用到ABSC任务中，利用依赖树和注意力机制进行情感分类。Huang等人[5]利用图注意力网络和多头注意力(MHA)来更新节点的特征表示。Zhao等人[6]提出了一种基于GCN的ABSC模型，有效捕获句子中多个方面之间的情感依赖关系。

自从大规模预训练模型的出现，例如BERT[7]和RoBERTa[8]，NLP任务开始倾向于从预训练模型进行微调。例如，Ranaldi等人[9]比较了BERT和基于可解释树的方法来提取下游任务的句法知识，证明了BERT模型的有效性。然而，研究人员发现下游任务和预训练模型之间存在差距。即在基于预训练模型解决下游任务时，预训练模型往往去适配下游任务。提示知识(Prompt)解决了这个问题。最近的一些论文使用附加到原始输入文本的提示来指导语言模型执行不同的任务。最早的例子之一是[10]，它通过使用提示来评估GPT-2模型在下游任务上的效率，而无需任何微调。Brown等人[11]在分类任务中添加提示，将任务转换为预训练任务。Schick等人[12]使用提示在文本分类中取得了先进的结果。

ABSC是方面级情感分析(ABSA)的细粒度子任务，旨在识别句子中给定方面的情感极性。经典方法主要利用卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制来解决ABSC任务。Fan等人[13]提出CNN结合注意力来捕获句子中的单词表达。Joshi等人[14]应用CNN从基于文本注意力的神经网络中提取特征，并对句子和方面词之间的语义关系进行建模。Xu等人[15]提出了一种MHA网络来解决方面包含多个单词时的ABSC问题。Zhang等人[16]提出了一种注意力网络，将句子的两个注意力部分结合起来，以获得更好的上下文表示。

近年来，GNN因其处理非结构化内容的能力而备受关注，在ABSC任务中，GNN也可以处理句法依赖树。Sun等人[17]使用双向长短期记忆网络(BiLSTM)构建依赖树模型来学习句子特征表示并通过GCN增强句子表示。Wang等人[18]修剪和重塑了普通的依赖树，并提出了一个关系图注意网络来编码新的依赖树。

随着语言模型的发展，预训练模型在许多NLP任务上取得了显着的效果，例如BERT和RoBERTa。在ABSA任务中，预训练模型将传统的静态词向量转换为具有更好的动态语义表示的动态词向量，有效解决了长句子的情感分析问题，并逐渐成为标准模型。Sun等人[19]设计了一种基于方面的方法，通过构造辅助句子并将ABSA转换为句子到句子的分类问题来解决ABSA任务。Yin等人[20]提出了SentiBERT，它是BERT的一种变体，可以更有效地捕获文本的情感特征。Alexandridis等人[21]使用BERT对用希腊语编写的社交媒体文本进行情感分类。Sirisha等人[22]结合RoBERTa和LSTM，通过Twitter数据分析人们对两国冲突的情绪。尽管预训练模型在NLP任务中很有帮助，但它经常遇到对下游任务了解较少的问题，无法充分发挥其潜力。

Prompt是受GPT-3[11]启发的一种新的微调范式，它对NLP任务具有更好的语义建模。Prompt技术的常见做法是将带有[mask]的提示插入到原始输入文本中，并预训练模型以预测可能出现在[mask]位置的单词。Li等人[23]首先将提示应用于ABSA任务，给定已知的方面和观点，构建连续的提示来预测相应的情绪类别。Gao等人[24]动态选择与每个上下文相关的句子来生成自动微调模型的提示。Hu等人[25]引入了知识型提示微调，利用句子的外部知识，从而提高了提示微调的稳定性。

现有专利文献中，也提出很多方面级情感分类模型或方法，比如：文献号为CN111985205A现有技术公开了一种方面级情感分类模型，其包括嵌入层、神经网络层、注意力层和输出层；嵌入层用于将句子转化为对应的词向量表示；神经网络层用于将句子的词向量表示转化为相应的隐藏状态序列；注意力层用于从句子的隐藏状态中捕获对于识别给定方面的情感极性来说重要的信息；输出层用于对注意力层的输出进行变化，输出句子对于给定方面表达的情感分类。其利用多头注意力机制与卷积运算获取隐藏状态，利用多头注意机制对上下文和方面词进行建模，增强了方面信息与句子的关联度，提高了模型对给定方面的情感极性分类。文献号CN113987167A的现有技术提出了基于依赖感知图卷积网络的方面级情感分类方法及系统，其包括：获取文本信息：依据获取的文本信息和预设的方面级情感分类模型，得到情感分类结果；其中，方面级情感分类模型中，将依据文本信息获得的上下文表示输入多头注意力层，实现上下文序列和方面词之间的相互作用，以及在图神经网络中增加对依赖类型信息的整合，对词与词之间边的处理根据不同的依赖信息给予不同的关注，使用多层依赖感知的图卷积网络层进行综合学习；本公开对词与词之间边的处理根据不同的依赖信息给予不同的关注，将重要的上下文信息与这些关系区分开来，提高了在不同数据集上对情感极性判断的准确性和稳定性。

关于如何使基于预训练的模型与下游ABSC任务保持一致，如何充分利用句子的语义和句法信息，更好地提取结合上下文语义和句法信息的方面词这些方面，现有技术中鲜有人提出解决方案。

发明内容

本发明要解决的技术问题是：

本发明为了解决基于预训练模型与下游ABSC任务不一致的问题，使预训练模型更好地适应下游任务，更充分利用句子的语义和句法信息，提出基于提示知识和混合神经网络(PHNN)的方面级情感分类模型。

本发明为解决上述技术问题所采用的技术方案为：

一种基于提示知识和混合神经网络的方面级情感分类模型，所述方面级情感分类模型利用提示知识和混合神经网络结构来预测给定句子中特定方面词的情感极性，得到基于方面的情感分类；所述方面级情感分类模型包括提示文本构建层、句法和语义编码层以及情感分类层；

提示文本构建层：

对于给定的一个句子和该句中某个方面词A使用提示知识(Prompt)构造提示文本P，将原句子(给定的一个句子)和提示文本P组合得到构造后的提示文本O_inputs，构造后的提示文本O_inputs经RoBERTa_MLM处理后得到的上下文隐藏状态向量作为句法和语义编码层的图卷积神经网络(GCN)和双向长短期记忆网络(BiLSTM)的输入；同时将方面词A构造成方面文本O_aspects，经RoBERTa处理后得到的方面词向量作为两个多头注意力(MHA)的输入；

句法和语义编码层：

应用图卷积神经网络(GCN)与卷积神经网络(CNN)相结合来提取句子的句法特征，同时使用双向长短期记忆(BiLSTM)来获取句子的语义特征；利用多头注意力(MHA)来学习句子和方面词的注意力；

GCN用于对非结构化数据的局部信息进行编码，RoBERTa_MLM输出的隐藏状态向量和原句子经依赖树处理生成的句法结构图共同作为GCN的输入，GCN利用图卷积运算来获取方面词的句法特征，CNN层再对GCN的输出进行处理，进一步提取句法特征,经由最大池化层处理后输出给所述两个多头注意力(MHA)中的一个多头注意力(MHA)；

BiLSTM允许模型在前向和后向方向上对RoBERTa_MLM输出的隐藏状态向量进行编码，提取更丰富的语义特征，输出给所述两个多头注意力(MHA)中的另一个多头注意力(MHA)；

得到最大池化和BILSTM的输出后，MHA对它们的输出与方面词向量进行交互式学习，捕获可能遗漏的情感特征表示；

情感分类层：

根据句法和语义编码层生成的情感特征，通过Softmax函数得到方面词的情感极性，输出句子对于给定方面表达的情感分类。

本发明具有以下有益技术效果：

本发明提出通过提示知识和混合神经网络表达方面词的情感，通过这种方法可以更好地提取结合上下文语义和句法信息的方面词。ABSC是NLP中的一项重要任务，其目的是预测句子中不同方面的情感极性。注意力机制和预训练模型常用于ABSC任务。然而，单独的预训练模型通常不能很好地感知下游任务，并且注意力机制通常会忽略句子的句法特征。在本发明中，我们提出了PHNN模型，该模型利用提示知识(Prompt)和混合神经网络结构来解决ABSC任务。更准确地说，它首先使用Prompt将输入的句子转换为完形填空类型的文本，并利用RoBERTa预训练模型来处理输入。然后，混合神经网络结构由GCN、CNN、BiLSTM和MHA组成，其中，利用GCN与CNN相结合来提取句子的句法特征，利用BiLSTM来提取句子的语义特征，利用MHA学习句子和方面词的注意力，进一步提取情感信息，捕获可能遗漏的情感特征表示。最后通过Softmax函数得到方面词的情感极性。在三个基准数据集上的实验表明，与其他基线相比，PHNN具有最佳的性能，验证本发明所提出模型的有效性。

PHNN模型的有效性已在三个基准数据集上得到验证，本发明的技术贡献总结如下：

本发明利用Prompt将输入句子转换为完形填空型文本，使得预训练模型更适合下游ABSC任务。

本发明提出了一种有效的PHNN模型，利用RoBERTa处理基于Prompt的输入文本，然后采用GCN、CNN、BiLSTM和MHA组成的混合神经网络来解决ABSC任务。

针对本发明的技术效果验证，进行了大量的实验，结果表明，与其他基线模型相比，PHNN在SemEval2014和Twitter数据集上表现最佳。

本发明的关键词：ABSC、预训练模型、Prompt、混合神经网络。

附图说明

图1为一个句子及其句法依赖树的原理示意图；

图2为PHNN模型的整体架构图(本发明所述模型的整体结构框图)；

图3为提示文本构建图。

具体实施方式

针对本发明所述的一种基于提示知识和混合神经网络的方面级情感分类模型的实现进行如下阐述：

1.本发明为了解决基于预训练模型与下游ABSC任务不一致的问题，设计了基于Prompt的输入文本，将原句、提示文本和方面词拼接作为预训练模型的输入，利用GCN结合CNN提取句子的句法特征，利用BiLSTM获取句子的语义特征，利用MHA学习句子和方面词交互，进一步提取情感信息，捕获可能遗漏的情感特征表示。

2.本发明技术构思：本发明提出通过提示知识和混合神经网络表达方面词的情感，通过这种方法可以更好地提取结合上下文语义和句法信息的方面词。该模型利用提示知识(Prompt)和混合神经网络结构来解决ABSC任务。它首先使用Prompt将输入的句子转换为完形填空类型的文本，并利用RoBERTa预训练模型来处理输入。然后，混合神经网络结构由GCN、CNN、BiLSTM和MHA组成，其中，利用图卷积神经网络(GCN)与卷积神经网络(CNN)相结合来提取句子的句法特征，利用双向长短期记忆网络(BiLSTM)来提取句子的语义特征。此外，它利用多头注意力(MHA)机制来学习句子和方面词的注意力,进一步提取情感信息,捕获可能遗漏的情感特征表示。最后通过Softmax函数得到方面词的情感极性。在三个基准数据集上的实验表明，与其他基线相比，PHNN具有最佳的性能，验证了本发明所提出模型的有效性。

3.本发明具本实现方法(介绍PHNN的细节)

假设一个句子X＝{x₁,x₂,…x_t+1,…x_t+c,…x_n}，包含一个或多个方面词A＝{x_t+1,x_t+2,…,x_t+c}，由c个单词组成，c≥1,ABSC的目的是预测给定句子中特定方面词的情感极性。为了解决ABSC问题，我们提出了PHNN模型。该模型的架构如图2所示。它由三层组成：提示文本构建层、句法和语义编码层以及情感分类层。PHNN模型的详细信息将在本节的其余部分中介绍。

3.1提示文本构建层

提示文本构建层的主要目标是使用Prompt来创建提示文本。添加提示文本有助于模型更好地理解上下文和方面词之间的语义关系，从而对齐上游和下游任务。这种方法最大限度地发挥了掩码语言模型(MLM)的能力。Prompt的核心是在训练前使用标有[mask]的提示文字来模拟预训练模型的目标。通过这种方式，我们可以将情感分析任务转化为完形填空任务。本发明采用RoBERTa来实现完形填空任务。与BERT不同的是，<CLS>标记为<s>,<SEP>标记为</s>。在输入文本中添加提示可以利用预训练模型的能力，提高其对下游任务的感知性能。图3所示为本发明提示文本构建的流程。

如图3所示，给定一个句子X和一个方面词A，我们将原句子X改为X+P，提示文本P定义为P＝P_left+A+P_right。更准确地说，P_left被定义为“What is the sentiment about”，而P_right被定义为“？It was<mask>”。例如，给定原始输入句子X＝“poor restaurantenvironment but good food”，对于方面词“food”，提示文本P构造的最终句子为“<s>poorrestaurant environment but good food</s>What is the sentiment about food？Itwas<mask></s>”。本发明使用RoBERTa和句子对方法来生成输入文本的嵌入向量表示，其中构造的输入文本O_inputs与方面文本O_aspects组合形成句子对。详情如下所示：

O_inputs＝<s>+X+</s>+P+</s> (1)

O_aspects＝<s>+A+</s> (2)

其中X为原始输入句子，<s>为每个输入句子的唯一标识符，</s>为上下文句子的标识符，P为融入方面词的提示文本,A为方面词。

输入文本通过词嵌入操作转换为词向量，并通过预训练模型中的MLM任务预测<mask>标记。在ABSC任务中，通常使用基于预训练的模型，例如BERT和RoBERTa。RoBERTa是BERT模型的改进，具有三个主要优化。首先，RoBERTa采用动态掩码，对每个新的序列输入使用新的掩码方法，使其比BERT中的固定掩码方法更加灵活。其次，RoBERTa从BERT中删除了下一句预测任务，这对性能影响很小。最后，RoBERTa扩展了批量大小和单词列表，允许模型在预训练期间使用更大的数据集，从而在预训练结束时获得更丰富的语义信息。

使用句子对O_inputs和O_aspects作为输入，上下文隐藏状态向量和方面词向量/>分别由RoBERTa的MLM任务(RoBERTa_MLM)和RoBERTa生成，其中/>d_i和d_a分别是RoBERTa_MLM和RoBERTa的词嵌入维度，n和c分别是输入句子和方面词的长度。公式如下：

3.2句法和语义编码层

GCN可以被认为是传统CNN的扩展，用于对非结构化数据的局部信息进行编码。GCN将隐藏状态向量与依赖树相结合来构建文本图，并利用图上的卷积运算来获取方面词的句法特征。此外，GCN使用节点的邻居节点相关的信息来对多个层进行处理，使得每个节点的最终隐藏状态可以接收来自其更远的邻居节点的信息。

将原句子X，经依赖树处理可以得到一个邻接矩阵A_ij∈R^n×n。对于L层GCN，l∈[1,2,…,L]，设节点i的l层输出为可按式(5)计算：

其中A_ij表示依赖树解析器产生的句法结构邻接矩阵，W^l是l层的权重矩阵，b^l是l层的偏差，σ是非线性激活函数，例如ReLU。

RoBERTa_MLM生成的上下文隐藏状态向量和句法结构邻接矩阵A_ij被输入到GCN中，GCN在L层的最终输出为/>PHNN模型中的CNN层继续对GCN的输出进行处理，进一步提取句法特征。CNN中提取特征的过程如式(6)所示：

c_i＝f(W·G^L+b) (6)

其中，表示卷积核，h×m为卷积核窗口的大小，b代表偏置量，f为ReLU激活函数。

GCN的输出进行卷积得到向量c_i，依次拼接成矩阵C。CNN连接到最大池化层后，每个卷积核得到标量在本发明中，我们使用多个卷积核进行特征提取。经过最大池化层后，将特征连接起来得到特征向量Z。

其中m是卷积核的数量。

BiLSTM是一种特殊的RNN，可以捕获句子中的长期依赖关系。在PHNN模型中，RoBERTa_MLM生成的隐藏状态向量被输入到BiLSTM，从而允许模型在前向和后向方向上对输入进行编码。BiLSTM由三个门组成：输入门、输出门和遗忘门。这些门机制允许模型在处理输入序列时选择性地记住或忽略信息，从而更好地捕获句子的语义和上下文关系。通过BiLSTM编码过程，模型可以获得融合前向和后向信息的句子表示，提取更丰富的语义特征。具体BiLSTM单元计算过程如式(8)-(13)所示：

i_t＝σ(W_i·[h_t-1；x_t]+b_i) (8)

f_t＝σ(W_f·[h_t-1；x_t]+b_f) (9)

o_t＝σ(W_o·[h_t-1；x_t]+b_o) (10)

g_t＝tanh(W_r·[h_t-1；x_t]+b_r) (11)

c_t＝i_t*g_t+f_t*c_t-1 (12)

h_t＝o_t*tanh(c_t) (13)

其中t表示时间步，x_t是t处的输入，h_t是时间步t处的隐藏向量表示，*表示元素乘法，σ表sigmoid激活函数，W_i，b_i是输入门的参数，W_f，b_f是遗忘门的参数，W_o，b_o是输出门的参数，c_t-1和c_t分别表示前一个单元的状态和当前单元的状态。RoBERTa_MLM生成的隐藏状态向量/>经过BiLSTM得到向量H，其中H是h_t的最终输出。

H＝h_t (14)

在获得最大池化和BiLSTM的输出后，我们使用MHA对它们的输出与方面词进行交互式学习，捕获可能遗漏的情感特征表示。MHA是指并行执行多个注意力函数来计算注意力。注意力函数将关键序列k＝{k₁,k₂…,k_n}和查询序列q＝{q₁,q₂…,q_m}映射到输出序列。如式(15)所示：

其中d_k为缩放参数。

MHA整合了单一注意力并将其投影到指定的隐藏维度d_hid。MHA值MHA(k,q)的计算公式如式(16)和式(17)所示：

MHA(k,q)＝Concat(A¹:A²:…:A^r)`W_mh (16)

A^h＝Attention^h(k,q) (17)

其中，A^h是第h个头部注意力的输出,h∈[1,2,…,r],:表示向量连接。

我们通过前面的过程得到最大池化的输出向量Z和BiLSTM的输出向量H，并学习MHA与方面词向量交互后的向量C^ca和C^la，如等式(18)-(19)：

3.3情感分类层

将MHA得到的向量C^ca和C^la组合成H_fin，然后平均得到H_avg，将平均后的向量H_avg送入紧接Softmax函数的线性层，生成情感极性概率分布y，计算过程如式(20)-(22)所示：

H_fin＝[C^ca:C^la] (20)

x＝W_aH_avg+b_a (21)

y＝Softmax(x) (22)

其中：W_a、b_a分别为可学习的参数矩阵和偏移向量。

3.4训练

使用梯度下降算法，使用交叉熵损失和L2正则化来训练模型，如公式(23)所示：

其中D是训练集的大小，C取值3，因为数据集包括消极、中性和积极标签，是文本的预测情感类别，/>是文本的真实情感类别。在本发明中，λ||θ||²为正则化项，θ表示所有可训练的参数集，λ表示L2正则化系数。

4.实验分析

4.1数据集

实验中使用了三个数据集，包括来自SemEval 2014Task 4的Laptop和Restaurant[26]和Twitter数据集[27]。Laptop数据集包含来自笔记本电脑购买者的三千多个评论。Restaurant数据集包含来自餐厅用餐者的三千多个评论。Twitter数据集包含超过七千条有关名人、产品和公司的推文。上述数据集的每个实例由三行组成：句子、方面词和方面词的极性(1：积极，0：中性，-1：消极)。每个数据集原始分为两部分：训练集和测试集。详细信息如表1所示。

表1数据集信息

4.2实验设置

实验中，对于RoBERTa，我们使用RoBERTa-base版本，RoBERTa嵌入维数为768，RoBERTa_MLM嵌入维数为50265，学习率为2×10^-5，正则化系数为1×10^-4。GCN的层数为2。CNN中，卷积核数量、卷积核大小、步长分别为6、(6,100)、(4,55)。最大池化窗口大小为(2,1)。BiLSTM和MHA输出的隐藏状态向量维度为300。MHA中注意力头的数量为8，dropout为0.1。使用Adam优化器更新参数。该模型在GeForce RTX 2080Ti GPU上运行。

4.3基线模型

为了验证PHNN模型的有效性，我们将其与以下模型进行了比较：

●AOA[28]该模型借用注意力集中注意力(AOA)的思想来处理方面和句子，学习方面词和

上下文的表示。

·ATAE-LSTM[29]该模型结合了方面和上下文词嵌入作为输入，使用LSTM和注意力机制来

处理隐藏层以获得结果。

·TD-LSTM[30]该模型使用两个LSTM网络对文本进行建模，将LSTM扩展到ABSA任务。·ASGCN[4]该模型利用GCN对上下文进行建模，使用句法信息和单词之间的相互依赖关

系来完成ABSA任务。

·IAN[3]该模型使用交互式注意力对上下文和方面词之间的关系进行建模，学习两者在

ABSA任务中的表示。

·BERT-SPC[31]该模型将BERT模型的输入更改为“[CLS]+上下文+[SEP]+方面词+[SEP]”

进行句子对分类。

●AEN-BERT[31]该模型利用预训练的BERT模型(一种基于注意力的编码器)来获取结果。·R-GAT[32]该模型重建依赖树以去除冗余信息，扩展原始GNN添加关系注意机制。

·DualGCN[33]该模型是一个双GCN模型，利用正交和差分正则化方法来提高语义相关的

能力。

·DualGCN+BERT[33]该模型是一个基于预训练BERT的DualGCN模型。

●SSEGCN[34]该模型是用于ABSA任务的句法和语义增强的GCN模型，它使用具有自注意

力的方面感知注意机制来获取句子的注意分数矩阵，并通过在注意分数矩阵上执行GCN来增强节点表示。

4.4实验结果

我们使用准确度和Micro-F1值作为模型性能的衡量标准。实验结果如表2所示,加粗的数字表示最优结果。关于表2的更详细的结果可以在附录A中找到。

表2三个数据集上的准确性和Marco-F1的比较

我们观察到PHNN取得了最好的性能。它在Restaurant、Laptop和Twitter数据集上的准确率分别比最佳基线模型高2.15、1.59和0.76。此外，其F1分数也比这些数据集上的最佳基线模型分别高2.3、1.49和0.76。

我们还发现，基于预训练的模型通常比其他基于非预训练的模型表现更好。这是因为预训练模型是在大量未标记数据上进行训练的，使它们能够学习可以更好地适应各种下游任务的语言的通用表示。此外，与R-GAT、DualGCN等使用GNN的基于语法的模型相比，PHNN表现更好，因为它通过BiLSTM提取语义信息，同时使用Prompt来调整输入序列，可以更好地激发预训练模型的能力。然后，与ATAE-LSTM和IAN等基于注意力的方法相比，PHNN运行得更好，因为它利用句法结构知识来建立单词之间的依赖关系，避免了注意力机制带来的噪声。最后，基于句法知识的方法(例如ASGCN和R-GAT)比基于注意力的方法(例如AOA)取得了更好的分类结果，但这些模型忽略了语义信息，导致性能比PHNN差。

4.5消融实验

为了评估每个组件对PHNN模型整体性能的影响，进行了消融研究，结果如表3所示，加粗的数字表示最优结果。

表3PHNN模型的消融实验，其中w/o表示删除组件

从表中可以看出，任何一个组件的移除都会导致模型性能的下降，例如，移除Prompt时，在三个数据集上模型的准确率和F1分数分别下降了(0.98，0.38)，(1.98，2.69)和(1.19，2.04)，证明使用提示知识调整输入序列可以提高分类性能。我们还看到，与删除其他模块相比，在Restaurant数据集上删除GCN对模型的性能影响更大，类似于在Laptop数据集上删除Prompt和在Twitter数据集上删除BiLSTM的结果。例如，在餐厅数据集中，删除GCN的准确率和F1分数比删除Prompt的准确度和F1分数分别差2.28和4.16。这是因为GCN可以更好地利用句子的句法结构信息。

4.6案例分析

为了进一步探讨不同模型的分类效果，从测试集中收集了四个句子和8个方面词。表4展示了PHNN与其他五种经典方法对比结果。符号P、O和N分别代表积极、中性和消极情绪。

符号“√”和“×”表示模型是否正确预测了aspect的情感极性。

表4案例分析表

第一个句子有一个方面，第二个和第三个句子有两个情感极性相反的方面，这更有可能干扰注意力模型。从前三个例句来看，使用BERT预训练模型的方法比其他方法具有更好的分类结果。PHNN对所有三个样本都有正确的预测，结果表明PHNN有效地结合了句法和语义信息；添加提示知识和混合神经网络改善了分类结果。我们还在最后一句中看到了关于方面词“price tag”的失败案例。这是因为长句子本身就包含了大量的信息，添加较长句子的提示模板可能会增加捕获长距离依赖关系的负担，影响分类效果。

5.讨论与结论

ABSC是一项经过充分研究的NLP任务，预训练模型和神经网络在ABSC任务中经常使用。本发明提出PHNN模型，利用提示知识和混合神经网络解决ABSC任务。PHNN包含三个主要层：提示文本构建层、句法和语义编码层以及情感分类层。在提示文本构建层，我们使用Prompt对句子进行改造，然后将改造后的文本输入到RoBERTa预训练模型中。提示知识指导预训练模型缩小下游任务与预训练模型之间的差距，使得预训练模型更适合下游任务。在句法和语义编码层中，我们通过混合神经网络提取更丰富的句法和语义特征。更准确地说，我们使用GCN结合CNN来获取句法特征，使用BiLSTM来获取语义特征。然后，我们利用MHA捕获可能遗漏的情感特征表示。在情感分类层，我们通过Softmax函数得到句子的情感极性。实验证明了PHNN对于ABSC任务的有效性。

附录A

准确率和F1是表征模型质量的常用评价指标。我们根据真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)来计算准确率。F1是根据精确率和召回率指标计算的，其中精确率是正确预测为正的样本数占全部预测为正的比例，召回率衡量模型在正确预测为正的样本数占全部实际为正的比例的能力，这些指标的公式如(24)-(27)所示。

在此基础上，表A1显示了有关表2的更多详细信息,加粗的部分表示该类别的最优值。我们分别报告了三个基准数据集中每个类别的精度、召回率和F1分数的指标。从表中可以看出，PHNN模型在识别积极情感和消极情感方面通常优于其他模型。对于中性类别，其性能接近最佳模型。这些进一步证明了PHNN模型的有效性。

表A1

/>

本发明中援引的现有参考文献：

[1]Yang Z,Yang D,Dyer C,et al.Hierarchical Attention Networks forDocument Classification[C]//Proceedings of the 2016Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies.2016.

[2]Yadav R K,Lei J,Goodwin M,et al.Positionless aspect basedsentiment analysis using attention mechanism[J].Knowledge-Based Systems,2021,226(3):107136.

[3]Ma D,Li S,Zhang X,et al.Interactive Attention Networks for Aspect-Level Sentiment Classification[J].2017.

[4]Zhang C,Li Q,Song D.Aspect-based Sentiment Classification withAspect-specific Graph Convolutional Networks[C]//2019.

[5]Huang B,Carley K M.Syntax-Aware Aspect Level SentimentClassification with Graph Attention Networks[C]//Conference on EmpiricalMethods in Natural Language Processing&International Joint Conference onNatural Language Processing.arXiv,2019.

[6]ZHAO Pinlong,HOU Linlin,and WU Ou.Modeling sentiment dependencieswith graph convolutional networks for aspect-level sentiment classification[J].Knowledge-Based Systems,2020,193:105443.doi:10.1016/j.knosys.2019.105443.

[7]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of DeepBidirectional Transformers for Language Understanding[J].2018.

[8]Liu Y,Ott M,Goyal N,et al.RoBERTa:A Robustly Optimized BERTPretraining Approach[J].2019.

[9]Ranaldi,L.；Pucci,G.Knowing Knowledge:Epistemological Study ofKnowledge in Transformers.Applied Sciences 2023,13,677,doi:10.3390/app13020677.

[10]A.Radford,Jeffrey Wu,R.Child,David Luan,DarioAmodei,and IlyaSutskever.2019.Language models are unsupervised multitask learners.

[11]Brown T B,Mann B,Ryder N,et al.Language Models are Few-ShotLearners[J].2020.

[12]Schick T,H Schütze.Exploiting Cloze-Questions for Few-Shot TextClassification and Natural Language Inference[C]//Conference of the EuropeanChapter of the Association for Computational Linguistics.Association forComputational Linguistics,2021.

[13]Fan C,Gao Q,Du J,et al.Convolution based memory network foraspect-based sentiment analysis[C]//Proceeding of the 41st International ACMSIGIR Conference on Research&Development in Information Retrieval.New York,United States:Association for Computing Machinery,2018.

[14]Prabhu A,Joshi A,Shrivastava M,et al.Towards Sub-Word LevelCompositions for Sentiment Analysis of Hindi-English Code Mixed Text[C]//2016.

[15]Xu Q,Zhu L,Dai T,et al.Aspect-based sentiment classification withmulti-attention network-ScienceDirect[J].Neurocomputing,2020,388:135-143.

[16]Zhang B,Xiong D,Su J,et al.Learning better discourserepresentation for implicit discourse relation recognition via attentionnetworks[J].Elsevier,2018.[14]Prabhu A,Joshi A,Shrivastava M,et al.TowardsSub-Word Level Compositions for Sentiment Analysis of Hindi-English CodeMixed Text[C]//2016.

[17]Kai Sun,Richong Zhang,Samuel Mensah,Yongyi Mao,and XudongLiu.2019.Aspect-Level Sentiment Analysis Via Convolution over DependencyTree.In Proceedings of the 2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th International Joint Conference on NaturalLanguage Processing(EMNLP-IJCNLP),pages 5679–5688,Hong Kong,China.Associationfor Computational Linguistics.

[18]Vaswani A,Shazeer N,Parmar N,et al.Attention Is All You Need[C]//arXiv.arXiv,2017.

[19]Sun C,Huang L,Qiu X.Utilizing BERT for Aspect-Based SentimentAnalysis via Constructing Auxiliary Sentence[J].2019.

[20]Yin D,Meng T,Chang K W.SentiBERT:ATransferable Transformer-BasedArchitecture for Compositional Sentiment Semantics[C]//2020.

[21]Alexandridis,G.；Korovesis,K.；Varlamis,I.；Tsantilas,P.；Caridakis,G.Emotion detection on Greek social media using Bidirectional EncoderRepresentations from Transformers.In Proceedings of the 25th Pan-HellenicConference on Informatics,Volos,Greece,26–28,November,2021；pp.28-32.

[22]Sirisha,U.；Chandana,B.S.Aspect based Sentiment&Emotion Analysiswith ROBERTa,LSTM.International Journal of Advanced Computer Science andApplications 2022,11,7,doi:10.14569/IJACSA.2022.0131189.

[23]Li C,Gao F,Bu J,et al.SentiPrompt:Sentiment Knowledge EnhancedPrompt-Tuning for Aspect-Based Sentiment Analysis[J].2021.

[24]Gao T,Fisch A,Chen D.Making Pre-trained Language Models BetterFew-shot Learners[J].2020.

[25]Hu S,Ding N,Wang H,et al.Knowledgeable Prompt-tuning:Incorporating Knowledge into Prompt Verbalizer for Text Classification[J].2021.

[26]Pontiki M,Galanis D,Pavlopoulos J,et al.SemEval-2014 Task 4:Aspect Based Sentiment Analysis[J].Proceedings of International Workshop onSemantic Evaluation at,2014.

[27]Li D,Wei F,Tan C,et al.Adaptive Recursive Neural Network forTarget-dependent Twitter Sentiment Classification[J].2014.

[28]Huang B,Ou Y,Carley K M.Aspect Level Sentiment Classificationwith Attention-over-Attention Neural Networks[J].Springer,Cham,2018.

[29]Wang Y,Huang M,Zhu X,et al.Attention-based LSTM for Aspect-levelSentiment Classification[C]//Proceedings of the 2016 Conference on EmpiricalMethods in Natural Language Processing.2016.

[30]Tang D,Qin B,Feng X,et al.Effective LSTMs for Target-DependentSentiment Classification[J].Computer Science,2015.

[31]Ma D,Li S,Zhang X,et al.Interactive Attention Networks forAspect-Level Sentiment Classification[J].2017.

[32]Song Y,Wang J,Tao J,et al.Attentional Encoder Network forTargeted Sentiment Classification[J].2019.

[33]Wang K,Shen W,Yang Y,et al.Relational Graph Attention Network forAspect-based Sentiment Analysis[J].2020.

[34]Li R,Chen H,Feng F,et al.Dual Graph Convolutional Networks forAspect-based Sentiment Analysis[C]//Proceedings of the 59th Annual Meeting ofthe Association for Computational Linguistics and the 11th InternationalJoint Conference on Natural Language Processing(Volume 1:Long Papers).2021.

[35]Zheng Zhang,Zili Zhou,and Yanna Wang.2022.SSEGCN:Syntactic andSemantic Enhanced Graph Convolutional Network for Aspect-based SentimentAnalysis.In Proceedings of the 2022Conference of the North American Chapterof the Association for Computational Linguistics:Human Language Technologies,pages 4916–4925,Seattle,United States.Association for ComputationalLinguistics.

Claims

1.一种基于提示知识和混合神经网络的方面级情感分类模型，其特征在于，所述方面级情感分类模型利用提示知识和混合神经网络结构来预测给定句子中特定方面词的情感极性，得到基于方面的情感分类；所述方面级情感分类模型包括提示文本构建层、句法和语义编码层以及情感分类层；

提示文本构建层：

对于给定的一个句子和该句中某个方面词A使用提示知识(Prompt)构造提示文本P，将原句子和提示文本P组合得到构造后的提示文本O_inputs，构造后的提示文本O_inputs经RoBERTa_MLM处理后得到的上下文隐藏状态向量作为句法和语义编码层的图卷积神经网络(GCN)和双向长短期记忆网络(BiLSTM)的输入；同时将方面词A构造成方面文本O_aspects，经RoBERTa处理后得到的方面词向量作为两个多头注意力(MHA)的输入；

句法和语义编码层：

应用图卷积神经网络(GCN)与卷积神经网络(CNN)相结合来提取句子的句法特征，同时使用双向长短期记忆网络(BiLSTM)来获取句子的语义特征；利用多头注意力(MHA)来学习句子和方面词的注意力；

MHA对得到最大池化和BILSTM的输出分别与方面词向量进行交互式学习，捕获可能遗漏的情感特征表示；

情感分类层：

根据句法和语义编码层生成的情感特征，通过Softmax函数得到方面词的情感极性，输出句子对于给定方面表达的情感分类；

所述方面级情感分类模型的构建为：

提示文本构建层：

假设一个句子X＝{x₁,x₂,…x_t+1,…x_t+c,…x_n}，包含一个或多个方面词A＝{x_t+1,x_t+2,…,x_t+c}，由c个单词组成，c≥1,

给定一个句子X和一个方面词A，将原句子X改为X+P，提示文本P定义为P＝P_left+A+P_right，P_left被定义为“What is the sentiment about”，而P_right被定义为“？It was<mask>”，使用RoBERTa和句子对方法来生成输入文本的嵌入向量表示，其中构造后的提示文本O_inputs与方面文本O_aspects组合形成句子对，如下所示：

O_inputs＝<s>+X+</s>+P+</s> (1)

O_aspects＝<s>+A+</s> (2)

其中X为原始输入句子，<s>为每个输入句子的唯一标识符，</s>为上下文句子的标识符，P为融入方面词的提示文本,A为方面词；

使用句子对O_inputs和O_aspects作为输入，上下文隐藏状态向量和方面词向量/>分别由RoBERTa的MLM任务(RoBERTa_MLM)和RoBERTa生成，其中/>d_i和d_a分别是RoBERTa_MLM和RoBERTa的词嵌入维度，n和c分别是输入句子和方面词的长度，公式如下：

语法和语义编码层：

将原句子X，经依赖树处理可以得到一个邻接矩阵A_ij∈R^n×n；对于L层GCN，l∈[1,2,…,L]，设节点i的l层输出为可按式(5)计算：

其中A_ij表示依赖树解析器产生的句法结构图的邻接矩阵，W^l是l层的权重矩阵，b^l是l层的偏差，σ是非线性激活函数ReLU；

RoBERTa_MLM生成的上下文隐藏状态向量和句法结构邻接矩阵A_ij被输入到GCN中，GCN在L层的最终输出为/>CNN层继续对GCN的输出进行处理，进一步提取句法特征；CNN中提取特征的过程如式(6)所示：

c_i＝f(W·G^L+b) (6)

其中，表示卷积核，h×m为卷积核窗口的大小，b代表偏置量，f为ReLU激活函数；

GCN的输出进行卷积得到向量c_i，依次拼接成矩阵C；CNN连接到最大池化层后，每个卷积核得到标量使用多个卷积核进行特征提取，经过最大池化层后，将特征连接起来得到特征向量Z；

其中m是卷积核的数量；

使用双向长短期记忆网络(BiLSTM)来获取句子的语义特征，通过BiLSTM编码过程，模型可以获得融合前向和后向信息的句子表示，提取更丰富的语义特征，具体BiLSTM单元计算过程如式(8)-(13)所示：

i_t＝σ(W_i·[h_t-1；x_t]+b_i) (8)

f_t＝σ(W_f·[h_t-1；x_t]+b_f) (9)

o_t＝σ(W_o·[h_t-1；x_t]+b_o) (10)

g_t＝tanh(W_r·[h_t-1；x_t]+b_r) (11)

c_t＝i_t*g_t+f_t*c_t-1 (12)

h_t＝o_t*tanh(c_t) (13)

其中t表示时间步，x_t是t处的输入，h_t是时间步t处的隐藏向量表示，*表示元素乘法，σ表sigmoid激活函数，W_i，b_i是输入门的参数，W_f，b_f是遗忘门的参数，W_o，b_o是输出门的参数，c_t-1和c_t分别表示前一个单元的状态和当前单元的状态；RoBERTa_MLM生成的隐藏状态向量/>经过BiLSTM得到向量H，其中H是h_t的最终输出；

H＝h_t (14)

在获得最大池化和BiLSTM的输出后，使用MHA对它们的输出与方面词进行交互式学习，捕获可能遗漏的情感特征表示，MHA是指并行执行多个注意力函数来计算注意力；注意力函数将关键序列k＝{k₁,k₂…,k_n}和查询序列q＝{q₁,q₂…,q_m}映射到输出序列，如式(15)所示：

其中d_k为缩放参数；

MHA整合单一注意力并将其投影到指定的隐藏维度d_hid；MHA值MHA(k,q)的计算公式如式(16)和式(17)所示：

MHA(k,q)＝Concat(A¹:A²:…:A^r)·W_mh (16)A^h＝Attention^h(k,q) (17)其中，A^h是第h个头部注意力的输出,h∈[1,2,…,r],:表示向量连接；

通过前面的过程得到最大池化的输出向量Z和BiLSTM的输出向量H，并学习MHA与方面词向量交互后的向量C^ca和C^la，如等式(18)-(19)：

情感分类层：

将MHA得到的向量C^ca和C^la组合成H_fin，然后平均得到H_avg，将平均后的向量送入紧接Softmax函数的线性层，生成情感极性概率分布y，计算过程如式(20)-(22)所示：

H_fin＝[C^ca:C^la] (20)

x＝W_aH_avg+b_a (21)

y＝Softmax(x) (22)

其中：W_a、b_a分别为可学习的参数矩阵和偏移向量。

2.根据权利要求1所述的一种基于提示知识和混合神经网络的方面级情感分类模型，其特征在于，使用梯度下降算法，交叉熵损失和L2正则化来训练模型，如公式(23)所示：

其中D是训练集的大小，Ω取值3，因为数据集包括消极、中性和积极标签，是文本的预测情感类别，/>是文本的真实情感类别，λ||θ||²为正则化项，θ表示所有可训练的参数集，λ表示L2正则化系数。

3.根据权利要求1或2所述的一种基于提示知识和混合神经网络的方面级情感分类模型，其特征在于，所述RoBERTa是BERT模型的改进，其具有三个优化：首先，RoBERTa采用动态掩码，对每个新的序列输入使用新的掩码方法，使其比BERT中的固定掩码方法更加灵活；其次，RoBERTa从BERT中删除了下一句预测任务；最后，RoBERTa扩展批量大小和单词列表，允许模型在预训练期间使用更大的数据集，从而在预训练结束时获得更丰富的语义信息。

4.根据权利要求3所述的一种基于提示知识和混合神经网络的方面级情感分类模型，其特征在于，所述BiLSTM是一种特殊的RNN，可以捕获句子中的长期依赖关系；在PHNN模型中，RoBERTa_MLM生成的隐藏状态向量被输入到BiLSTM，从而允许模型在前向和后向方向上对输入进行编码；BiLSTM由三个门组成：输入门、输出门和遗忘门；这些门机制允许模型在处理输入序列时选择性地记住或忽略信息，从而更好地捕获句子的语义和上下文关系。

5.一种基于提示知识和混合神经网络的方面级情感分类方法，其特征在于：该方法具有与上述权利要求1-4任一项权利要求的程序模块相对应。

6.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求5所述的一种基于提示知识和混合神经网络的方面级情感分类方法的步骤。