CN116738999A

CN116738999A - 一种低资源场景下情感分析的方法和存储介质

Info

Publication number: CN116738999A
Application number: CN202310527414.9A
Authority: CN
Inventors: 张涵; 王晶晶; 罗佳敏
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-09-12

Abstract

本发明涉及自然语言处理技术领域。本发明构建了一种低资源场景下情感分析的方法和存储介质并且提出了针对低资源场景下连续情感分析任务的持续注意力建模方法称为CAM。在多个情感分析任务的学习过程中,CAM既可以保留不同任务的情感信息,缓解灾难性遗忘问题,也可以高效地捕捉不同任务的情感信息并进行融合。CAM主要由两个部分组成:用于保留单个任务情感信息的情感掩码Adapter称为SMA，和用于融合不同任务情感信息的动态情感注意力称为DSA。可以有效融合不同任务类型之间的情感信息，有效解决了单个任务类型训练资源不足的问题，同时SMA模块可以有效的缓解灾难性遗忘问题。

Description

一种低资源场景下情感分析的方法和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其是指一种低资源场景下情感分析的方法和存储介质。

背景技术

近年来,随着大数据驱动型深度神经网络快速发展,其在计算机视觉(CV)、自然语言处理(NLP)等领域取得了显著的成果,其中深度神经网络在各种高资源场景任务下的性能提升尤为显著。但是大数据驱动型深度神经网络的训练过程需要大量数据,这意味着高昂的标注成本和算力成本。因此越来越多的研究人员开始关注低资源场景下的任务,即要求模型能够利用受限的训练数据量解决问题。相关研究普遍借助数据增强或迁移学习等方法得到更多数据资源,以克服标记数据的缺乏,从而提高低资源场景下的任务性能。在情感分析领域同样存在大量低资源场景下的任务,这是因为情感分析领域中的标注数据往往集中于商品评论或社交媒体,缺乏专业领域的标注数据。此外,真实用户的情感分析数据具有一定的隐私性,有时难以获取。上述问题限制了现有的情感分析技术在低资源场景下的应用和推广。目前针对低资源场景下情感分析研究主要集中于单个情感分析任务,这导致模型无法利用其他情感任务的情感信息。Pfeiffer等人提出了基于Adapter的两阶段学习算法AdapterFusion。第一阶段训练每个任务独有的Adapter,第二阶段使用单独的Fusion层进行知识组合.通过分离知识抽取和知识组合,AdapterFusion可以有效缓解避免灾难性遗忘，但AdapterFusion两阶段学习之间存在一定矛盾，使模型的效率无法有效提升。而现有的持续学习方法缺少针对不同任务间知识融合的研究,普遍不具有情感信息融合能力,且当前的方法例如CTR、B-CL等需要使用胶囊网络和动态路由,对超参选取十分敏感。此外,CTR等方法训练的模型参数大小会随着任务数量增加动态增加,导致模型推理速度变慢,这进一步增加了完成任务需要的代价。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中低资源场景下情感分析研究主要集中于单个情感分析任务,这导致模型无法利用其他情感任务的情感信息，导致单任务训练数据匮乏的问题，并且现有的融合模型会导致产生灾难性遗忘问题，同时存在模型推理速度慢，效率低的问题。

为解决上述技术问题，本发明提供了一种低资源场景下情感分析的方法，其特征在于：包括：

将获得的不同任务类型的数据集按照输入模型的时间顺序排列，得到多个低资源场景下的连续情感分析数据集；

基于预训练语言处理模型BERT构建情感分析模型，情感分析模型包括低资源场景下连续情感分析任务的持续注意力模块CAM，CAM模块包括：情感掩码Adapter模块，以及动态情感注意力模块，CAM模块对N个任务构建对应的N个Adapter模型；

将排列好的任务t＝1···N按照时间步输入情感分析模型，首先对任务t进行初步特征提取得到特征信息h^t，利用提取到的特征信息h^t训练第t个Adapter模型，并且利用情感掩码Adapter模块中的掩码嵌入单元对训练后的第t个Adapter模型生成情感掩码，掩盖第t个Adapter模型的部分参数，将特征信息h^t输入1～t-1的Adapter模型对其进行进一步训练，利用经过训练的t个Adapter模型对输入的特征信息h^t进行进一步的特征提取得到特征信息a₁···a_t；

动态情感注意力模块利用动态情感注意力将提取到的特征信息h^t作为Query，将特征信息a₁···a_t作为Key和Value进行情感信息融合，将融合的信息记为O^t作为CAM模块的输出结果，当第N个任务经过CAM模块处理之后，情感分析模型训练完成。

进一步地，所述情感分析模型具有两层结构，包括：

第一层网络结构，包括：Multi-Headed Attention层、Feed-Forward Layer层、CAM层和Layer Norm层；

第二层网络结构，包括：两个并行的Feed-Forward Layer层、CAM层以及LayerNorm层。

进一步地，所述第一层网络结构与第二层网络结构设有残差网络，第一层残差网络将输入情感分析模型的数据以及经过第一层网络结构中的CAM模块处理的数据进行融合，第二层残差网络将第一层网络结构中的Layer Norm层输出的数据与经过第二层网络结构中CAM模块处理的数据进行融合。

进一步地，所述Multi-Headed Attention层的机制为多头注意力机制，由多个自注意力的探头组成，通过自注意力的探头来提取输入的任务中与情感分析的类型相关的特征。

进一步地，所述Feed-Forward Layer层利用线性变换的方法将得到的数据映射到高维空间，然后在映射到低维空间，在这个过程中使数据中深层的特征进行进一步的增强，将不重要的特征进行抑制。

进一步地，所述Layer Norm层对其输入的数据进行归一化处理并输出。

进一步地，所述情感分析模型在训练时Multi-Headed Attention层、Feed-Forward Layer层、以及两个并行的Feed-Forward Layer层的参数保持固定。

进一步地，所述情感分析模型还具有分类头，对第二层网络结构中的Layer Norm层输出的情感分析信息数据分析为对应的情感属性结果。

进一步地，待检测的情感分析任务输入经过训练的情感分析模型后Multi-HeadedAttention层先对输入的任务通过其注意力机制进行初步的情感特征提取，然后Feed-Forward Layer层对输入的任务进行深度的情感特征提取并输出至CAM模块，CAM模块对数据进行进一步的提取，并对提取的数据进行融合，将CAM模块处理的数据与待检测的情感分析任务数据融合输入第二层网络结构对数据进行进一步的特征提取，经过第二层网络结构中的Layer Norm层归一化处理后通过对应的分类头处理为对应的情感属性结果。

一种存储介质，所述计算机程序被处理器执行时实现上述任一项所述一种低资源场景下情感分析的方法的步骤。本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的一种低资源场景下情感分析的方法和存储介质首次构建了低资源场景下的连续情感分析任务,旨在利用持续学习方法,让模型随时间步学习多个情感分析任务。本发明构建了情感掩码Adapter模块使模型对不同任务类型的特征信息进行了保留，确保不会发生灾难性遗忘的问题，同时构建了动态情感注意力模块来对不同任务的情感信息进行融合,缓解低资源场景下单个任务的训练数据匮乏问题,另一方面可以保证模型随时间步持续更新，兼顾了模型的推理效率与模型的学习效率，使模型具有最优的情感信息能力和情感信息融合能力,并且能同时保持较高的运行效率。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明实施例一情感分析模型的建模过程；

图2是本发明CAM模型的训练随时间步进行的示意图；

图3是本发明使用的Transformer Layer(左)和CAM模型总体结构(右)；

图4是本发明的SMA模块(左)和DSA模块(右)。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一：参照图1所示，实施例一情感分析模型的建模过程如图所示，包括：

S101:将获得的不同任务类型的数据集按照输入模型的时间顺序排列，得到多个低资源场景下的连续情感分析数据集；

S102:基于预训练语言处理模型BERT构建情感分析模型，情感分析模型包括低资源场景下连续情感分析任务的持续注意力模块CAM，CAM模块包括：情感掩码Adapter模块，以及动态情感注意力模块，持续注意力模块CAM对N个任务构建对应的N个Adapter模型；

S103:将排列好的任务t＝1···N按照如图2所示的时间步输入情感分析模型，首先对任务t进行初步特征提取得到特征信息h^t，利用提取到的特征信息h^t训练第t个Adapter模型，并且利用情感掩码Adapter模块中的掩码嵌入单元对训练后的第t个Adapter模型生成情感掩码，掩盖第t个Adapter模型的部分参数，将特征信息h^t输入1～t-1的Adapter模型对其进行进一步训练，利用经过训练的t个Adapter模型对输入的特征信息h^t进行进一步的特征提取得到特征信息a₁···a_t，构建情感掩码Adapter,用于为不同任务生成硬注意力情感掩码,这可以保留不同任务的情感信息,从而缓解灾难性遗忘问题；

S104:DSA模块利用动态情感注意力将提取到的特征信息h^t作为Query，将特征信息a₁···a_t作为Key和Value进行情感信息融合，将融合的信息记为O^t作为CAM模块的输出结果，当第N个任务经过CAM模块处理之后，情感分析模型训练完成，构建动态情感注意力,根据当前时间步和任务相似度动态融合不同Adapter抽取的特征,这可以融合不同任务间的情感信息，缓解单个任务训练数据匮乏的问题。

实施例二：如图3所示的情感分析网络结构具有两层网络结构，具体包括：

第一层网络结构，包括：Multi-Headed Attention层、Feed-Forward Layer层、CAM层、Layer Norm层以及残差网络；

第二层网络结构，包括：两个并行的Feed-Forward Layer层、CAM层、Layer Norm层以及残差网络。

Multi-Headed Attention层和Feed-Forward Layer层，Multi-Headed Attention层首先对输入的训练集通过其注意力机制进行初步的情感特征提取，其次Feed-ForwardLayer层对输入的训练集进行深度的情感特征提取；

Multi-Headed Attention层：是一种多头注意力模型，由多个自注意力的探头组成，通过自注意力的探头来提取输入的任务中与情感分析的类型相关的特征。从而增强模型对于不同特征的关注度。

Multi-Headed Attention的输入包括三个向量：查询向量(query)、键向量(key)和值向量(value)。对于一个给定的查询向量，Multi-Headed Attention会对键向量进行加权求和，权重由查询向量和键向量之间的相似度计算得到，然后将得到的加权和乘以值向量进行输出。在计算相似度时，使用点积(dot product)或者是双线性(bilinear)计算，通过Multi-Headed Attention层我们对输入的情感任务进行初步的特征提取。

Feed-Forward Layer层：Feed-Forward做了两次线性线性变换，Feed-ForwardLayer层利用线性变换的方法将得到的数据映射到高维空间，然后在映射到低维空间，在这个过程中使数据中深层的特征进行进一步的增强，将不重要的特征进行抑制。

如图4所示，CAM模块层：低资源场景下连续情感分析任务的持续注意力建模方法(Continual Attention Modeling for Successive Sentiment Analysis in Low-Resource Scenarios,CAM)。在多个情感分析任务的学习过程中,CAM既可以保留不同任务的情感信息,缓解灾难性遗忘问题,也可以高效地捕捉不同任务的情感信息并进行融合。CAM主要由两个部分组成:用于保留单个任务情感信息的情感掩码Adapter模块(SentimentMasked Adapter,SMA)和用于融合不同任务情感信息的动态情感注意力模块(DynamicSentiment Attention,DSA)。在本模型中搭建了两个CAM层，分别对初始的数据和经过残差网络处理并且经过Layer Norm层处理的数据进行处理。

首先,SMA为每个任务构建一个Adapter,旨在保留单个任务的情感信息。具体而言，当任务t的数据输入SMA时,模型根据前置层提到的情感信息h^t着重训练处于初始化状态的第t个Adapter,同时，掩码嵌入单元(Task-Specific Mask Embedding,TSME),用来生成任务对应的情感掩码。TSME会生成可训练的情感掩码,这可以掩盖Adapter的部分神经元,保护Adapter已学的重要情感信息,从而缓解灾难性遗忘问题。并且任务t的数据也会输入到前面t-1个已经训练的Adapter。这样做一方面可以进一步训练前t-1个Adapter,另一方面是利用不同Adapter所学的情感信息,提取当前任务数据的特征,用于后续的情感信息融合。

构建的情感分析模型在训练时Multi-Headed Attention层、Feed-Forward Layer层、以及两个并行的Feed-Forward Layer层的参数保持固定。

其次,本文利用DSA进行不同任务间的情感信息融合。DSA会根据当前时间步和任务相似度动态融合SMA中不同Adapter提取的数据特征,以融合不同Adapter所学的情感信息,任务间的情感信息融合程度与任务间的相似度息息相关。例如,当任务t输入模型时时,DSA会将第t个任务的输入数据特征作为Query,然后将前t个Adapter提取得到的数据特征作为Key和Value,通过动态情感注意力进行情感信息融合，通过对不同任务类型的情感信息进行融合，可以有效的习不同任务的情感信息,从而缓解单个任务训练数据匮乏问题。

搭建残差网络：在本模型中构建了两个残差网络，包括：

第一层残差网络：第一层残差网络将输入的训练集的数据和第一CAM层输出的数据进行融合。

第二层残差网络，将第一Layer Norm层融合的数据和原始数据进行融合。

随着网络层数的增加，网络发生了退化(degradation)的现象：随着网络层数的增多，训练集loss逐渐下降，然后趋于饱和，而残差网络的直接映射的加入，保证了L+1层的网络一定比L层包含更多的图像信息。

搭建Layer Norm层:在本模型中构建的两层Layer Norm层，包括：

第一Layer Norm层，将第一层残差网络输出的数据收敛并且归一化处理为同一格式的数据，方便后续的数据处理。

第二Layer Norm层，将第二层残差网络输出的数据收敛并且归一化处理为同一格式的数据，方便后续的数据处理。

将第二Layer Norm层输出的情感特征数据通过建立的对应分类头处理得到情感分析的结果。

搭建两层网络有两个优势，其一是在第一层网络利用残差网络将初始数据和经过第一层处理的数据进行融合，可以使数据包含更多的信息，使第二层的网络能提取到更有效的信息。其二是通过两层网络可是使模型获得更好的收敛能力，使情感分析的结果更加准确。

构建的情感分析模型还包括分类头，对第二层网络结构中的Layer Norm层输出的情感分析信息数据分析为文字结果。

待检测的情感分析任务输入经过训练的情感分析模型后Multi-HeadedAttention层先对输入的任务通过其注意力机制进行初步的情感特征提取，然后Feed-Forward Layer层对输入的任务进行深度的情感特征提取并输出至CAM模块，CAM模块对数据进行进一步的提取，并对提取的数据进行融合，将CAM模块处理的数据与待检测的情感分析任务数据融合输入第二层网络结构对数据进行进一步的特征提取，经过第二层网络结构中的Layer Norm层归一化处理后通过对应的分类头处理为文字结果。

利用构建的模型与现有的模型进行训练，并对训练后的模型进行性能分析：

表1预处理后三个数据集的详细数据,训练集被设置为低资源场景

表2 CAM与其他基准方法的实验结果(％),其中MF1和Acc用来评估模型的情感知识融合能力(越高越好),FR用来评估模型的情感知识保留能力(越低越好)

CAM在三个数据集上的MF1和Acc显著超越其他基准方法,十分逼近持续学习方法的理论性能上界MTL,这表明CAM可以有效捕捉不同任务的情感知识。与CTR相比,CAM在AR10mini和AR13mini上的性能显著提升(p-value<005),这进一步说明CAM具有最优的情感信息融合能力。

CAM在三个数据集上的FR显著低于其他基准方法,这说明CAM具有最优的情感信息保留能力。此外,CAM在三个数据集上的FR均为负数,这说明CAM可以进一步实现情感信息的前向转移。

本文基于持续学习方法构建的连续情感分析任务形式可以有效缓解低资源场景下单个情感分析任务中训练数据匮乏的问题。

表3不同方法在三个数据集上的运行时间，随着数据集中任务数量的增加,不同方法的训练时间和预测时间普遍都逐渐增加

在模型性能和运行时间之间取得平衡十分重要。

随着任务数量增加,不同方法的训练时间和预测时间普遍都增加。与其他方法的比较说明:CAM能够有效平衡模型的性能和运行时间。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法和计算机程序产品的流程图和来描述的。应理解可由计算机程序指令实现流程图中的每一流程。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。

Claims

1.一种低资源场景下情感分析的方法，其特征在于：包括：

将排列好的任务t＝1···N按照时间步输入情感分析模型，首先对任务t进行初步特征提取得到特征信息ht，利用提取到的特征信息ht训练第t个Adapter模型，并且利用情感掩码Adapter模块中的掩码嵌入单元对训练后的第t个Adapter模型生成情感掩码，掩盖第t个Adapter模型的部分参数，将特征信息ht输入1～t-1的Adapter模型对其进行进一步训练，利用经过训练的t个Adapter模型对输入的特征信息ht进行进一步的特征提取得到特征信息a₁···a_t；

动态情感注意力模块利用动态情感注意力将提取到的特征信息ht作为Query，将特征信息a₁···a_t作为Key和Value进行情感信息融合，将融合的信息记为Ot作为CAM模块的输出结果，当第N个任务经过CAM模块处理之后，情感分析模型训练完成。

2.根据权利要求1所述的一种低资源场景下情感分析的方法，其特征在于：所述情感分析模型具有两层结构，包括：

第一层网络结构，包括：Multi-Headed Attention层、Feed-ForwardLayer层、CAM层和Layer Norm层；

第二层网络结构，包括：两个并行的Feed-Forward Layer层、CAM层以及Layer Norm层。

3.根据权利要求2所述的一种低资源场景下情感分析的方法，其特征在于：所述第一层网络结构与第二层网络结构设有残差网络，第一层残差网络将输入情感分析模型的数据以及经过第一层网络结构中的CAM模块处理的数据进行融合，第二层残差网络将第一层网络结构中的Layer Norm层输出的数据与经过第二层网络结构中CAM模块处理的数据进行融合。

4.根据权利要求2所述的一种低资源场景下情感分析的方法，其特征在于：所述Multi-Headed Attention层的机制为多头注意力机制，由多个自注意力的探头组成，通过自注意力的探头来提取输入的任务中与情感分析的类型相关的特征。

5.根据权利要求2所述的一种低资源场景下情感分析的方法，其特征在于：所述Feed-Forward Layer层利用线性变换的方法将得到的数据映射到高维空间，然后在映射到低维空间，在这个过程中使数据中深层的特征进行进一步的增强，将不重要的特征进行抑制。

6.根据权利要求2所述的一种低资源场景下情感分析的方法，其特征在于：所述LayerNorm层对其输入的数据进行归一化处理并输出。

7.根据权利要求2所述的一种低资源场景下情感分析的方法，其特征在于：所述情感分析模型在训练时Multi-Headed Attention层、Feed-Forward Layer层、以及两个并行的Feed-Forward Layer层的参数保持固定。

8.根据权利要求2所述的一种低资源场景下情感分析的方法，其特征在于：所述情感分析模型还具有分类头，对第二层网络结构中的Layer Norm层输出的情感分析信息数据分析为对应的情感属性结果。

9.根据权利要求2所述的一种低资源场景下情感分析的方法，其特征在于：待检测的情感分析任务输入经过训练的情感分析模型后Multi-Headed Attention层先对输入的任务通过其注意力机制进行初步的情感特征提取，然后Feed-Forward Layer层对输入的任务进行深度的情感特征提取并输出至CAM模块，CAM模块对数据进行进一步的提取，并对提取的数据进行融合，将CAM模块处理的数据与待检测的情感分析任务数据融合输入第二层网络结构对数据进行进一步的特征提取，经过第二层网络结构中的Layer Norm层归一化处理后通过对应的分类头处理为对应的情感属性结果。

10.一种存储介质，其特征在于：所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述一种低资源场景下情感分析的方法的步骤。