CN117435737A

CN117435737A - 一种基于自适应参数更新的终身情感分类方法

Info

Publication number: CN117435737A
Application number: CN202311494405.0A
Authority: CN
Inventors: 刘杰; 张晴; 许明英; 马礼; 段建勇
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-01-23
Anticipated expiration: 2043-11-10

Abstract

本发明公开了一种基于自适应参数更新的终身情感分类方法，所属技术领域为参数更新，包括：获取通用情感分类数据集，对所述通用情感分类数据集进行随机抽取，获得情感分类数据集；基于BERT模型构建情感分类器，通过所述情感分类数据集对所述情感分类器依次进行训练，并对训练后的分类器进行迭代网络剪枝和自适应参数更新，获得终身情感分类器；通过所述终身情感分类器对情感进行分类。为了保证模型的稳定性和可塑性，本发明使用两阶段的模型参数更新策略，在终身学习的背景下充分利用了已学习过的知识帮助新任务的学习，并防止知识遗忘。

Description

一种基于自适应参数更新的终身情感分类方法

技术领域

本发明属于参数更新领域，特别是涉及一种基于自适应参数更新的终身情感分类方法。

背景技术

随着互联网上越来越多的意见性信息的增多，对文本所包含的情感进行判别已成为热门的研究方向，自动预测给定文本的情感极性越来越受到人们的关注。近年来，随着深度学习在各个人工智能领域的广泛应用，在情感分类领域也几乎占据了主导地位。然而，高效的深度神经网络模型需要进行标注大量的训练资源。标记大型数据集通常需要花费大量的时间和人力资源，导致将训练好的情感分类器应用到新的文本领域时会形成重大障碍。此外，无论用于训练情感分类器的数据集多么庞大，都很难覆盖网络上所有可能的意见性数据。因此，在真实的应用场景中，经过良好训练的情感分类器通常表现不佳。

在实际应用场景中，情感分类器经常会遇到连续的信息流，因此需要不断将分类器的知识扩展到新的领域。随着时间的推移，通过不断地掌握新知识并记住之前学习的知识进行持续学习的能力被称为终身或持续学习。最近，存在一些研究利用终身学习来提升不断变化环境中的情感分类性能。Chen等人提出了一种基于朴素贝叶斯框架和随机梯度下降的终身学习方法。Lv等人通过神经网络方法对上述工作进行了扩展。但是，这些终身情感分类技术的性能并不能达到人们的预期。

发明内容

本发明的目的是提供一种基于自适应参数更新的终身情感分类方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于自适应参数更新的终身情感分类方法，包括：

获取通用情感分类数据集，对所述通用情感分类数据集进行随机抽取，获得情感分类数据集；

基于BERT模型构建情感分类器，通过所述情感分类数据集对所述情感分类器依次进行训练，并对训练后的分类器进行迭代网络剪枝和自适应参数更新，获得终身情感分类器；

通过所述终身情感分类器对情感进行分类。

优选的，所述自适应参数更新的过程包括：

获取训练所述情感分离器的过程中得到的重要度矩阵，并将储存的上一个任务的参数填充至剪枝后的空白节点中，对新任务参数进行更新；

基于贝叶斯在线学习框架下的不确定正则作为惩罚项，对所有的旧任务参数进行更新。

优选的，所述重要度矩阵的表达式为：

其中，F_i为训练M_i时得到的关于第i个任务的重要度矩阵，L(θ_i)表示BERT对任务i的情感分类数据集进行微调得到的原损失函数，t_ij表示任务i中的文本信息,y_ij表示对应的情感类别标签。

优选的，所述对新任务参数进行更新的损失函数的表达式为：

其中，∑_jF_i-1(θ_i,j-θ_i-1,j)²是BERT为实现终身学习，基于上一个任务学习到的特征给当前任务的各参数特征学习加入的二次损失；θ_i,j表示当前任务模型学习的参数，θ_i-1,j表示被填充的旧任务参数。

优选的，所述贝叶斯在线学习框架中的不确定正则化项的表达式为：

其中，表示元素逐个相乘，/>代表BERT的第l层所有权重的初始标准差参数，并用于为控制学习过程的稳定性；/>和/>代表BERT第l层和任务k的均值权重和方差权重；UREG₂中的/>用于对权重大小进行判断；UREG₃用于使σ_k+1趋近σ_k。

优选的，对所有的旧任务参数进行更新的损失函数为：

其中，为对所有的旧任务参数进行更新的损失函数，B代表BERT的层数，α，β和γ代表用于控制相应正则化项的超参数,Φ表示保留参数的均值权重，σ表示标准差。

优选的，所述网络剪枝的过程包括：

基于保留参数的均值权重和标准差比值的幅度对每层的权重进行排序；在每一轮剪枝中，释放一定比例的具有最低保留参数的均值权重和标准差比值比率的权重。

本发明的技术效果为：

(1)本发明提出了一种自适应参数更新的终身情感分类方法，该方法可以缓解灾难性遗忘问题，同时有利于提高对新知识的学习能力。

(2)为了保证模型的稳定性和可塑性，本发明使用两阶段的模型参数更新策略，在终身学习的背景下充分利用了已学习过的知识帮助新任务的学习，并防止知识遗忘。

(3)本发明在多个情感分类数据集上进行实验，实验结果表明，与非终身学习方法，本方法有着极大的提升，并且本方法优于现有的基于固定模型容量的终身学习方法。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的模型框架图；

图2为本发明实施例中的新任务参数更新示意图；

图3为本发明实施例中的消融实验结果图；

图4为本发明实施例中的不同学习顺序下的实验结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1所示，本实施例中提供一种基于自适应参数更新的终身情感分类方法，包括：

通过所述终身情感分类器对情感进行分类。

具体实施方式为：本实施例所提出的终身情感分类器的目标是，在模型容量不变的背景下，利用过去任务中获得的知识来帮助学习新任务的知识，并且新知识可以帮助旧任务巩固知识，同时避免忘记从过去的知识。本实施例使用BERT作为基础模型来构建情感分类器，对每个情感分类任务进行顺序训练并采用迭代网络剪枝和两种参数更新的方法相结合的方式来实现终身学习。

首先，本实施例使用基于权重的剪枝技术来释放BERT模型所有层中的一定比例的权重，同时对性能的影响最小。然后，对所训练保留的权重进行重训练，使剪枝后恢复了模型的原始分类能力。为了实现模型可以更进一步从旧任务中学到知识，本实施例方法使用新任务自适应参数更新策略。将旧任务知识对剪枝后的网络节点进行填充，然后使用基于弹性权重的更新方式使用新填充的节点学习新任务知识。最后，为了防止旧知识的遗忘，本实施例方法使用不确定正则化对旧任务参数进行平缓的更新。

终身学习模型按顺序在情感分类数据集上依次进行任务微调，得到的模型表示为M＝{M₁,M₂,…,M_k},其中M_i表示在第i个任务上微调后的模型。

不同于在网络剪枝后使用随机初始化的参数进行新任务的学习。为进一步实现正向的分布迁移，本实施例使用上一个任务中的重要参数来填充被剪枝后的神经元。不过，由于在不同数据分布相互独立的背景下，旧任务的知识不是总能在新数据下实现正向迁移。因此，为了保证新任务能够从旧任务中学习到有帮助的信息，本实施例使用EWC损失项对新任务的参数更新进行约束，保证知识的正向传递。EWC参数更新方向如图2所示。

具体的计算过程为，首先获取在训练M_i时得到的关于第i个任务的重要度矩阵，记为F_i。并将存储的上一个任务的参数填充到剪枝后的空白节点中，如图1中的新任务自适应参数更新过程。F_i可使用Fisher信息矩阵的方法计算得到，在BERT微调过程中计算损失函数并使用反向传播计算梯度。对于每个参数，累加所有的梯度后除以样本数量，即可得到模型参数θ的Fisher信息矩阵，计算过程如公式(1)所示：

其中，L(θ_i)表示BERT对任务i的情感分类数据集进行微调得到的原损失函数，t_ij表示任务i中的文本信息,y_ij表示对应的情感类别标签。则基于终身学习训练的损失函数L_EWC(θ_i)表示为：

其中，∑_jF_i-1(θ_i,j-θ_i-1,j)²是BERT为实现终身学习，基于上一个任务学习到的特征给当前任务的各参数特征学习加入的二次损失项。θ_i,j表示当前任务模型学习的参数，θ_i-1,j表示被填充的旧任务参数。

本实施例方法的另一目标是，在新任务学习后更新所有旧任务参数时，防止旧知识的遗忘，并实现旧任务可以从新任务中所学习的知识中获益，提高模型的反向分布迁移能力。

为实现上述目标，本实施例采用基于贝叶斯在线学习框架下的不确定正则作为惩罚项，对所有的旧任务参数进行更新。在贝叶斯框架下，模型权重由(Φ,σ)进行控制，Φ表示保留参数的均值权重，σ表示标准差。额外的(Φ,σ)可以通过反向传播进行学习。具体的不确定正则化项由以下三项组成：

表示元素逐个相乘，/>代表BERT的第l层所有权重的初始标准差参数，并用于为控制学习过程的稳定性。/>和/>代表BERT第l层和任务k的均值权重和方差权重。UREG₂中的/>用于对权重大小进行判断。UREG₃用于使σ_k+1趋近σ_k，来进一步防止灾难遗忘。最后结合三个不确定正则化项，得到如公式(6)。

B代表BERT的层数，α，β和γ代表用于控制相应正则化项的超参数，最后将与用于模型微调的交叉熵损失相结合，以保留旧任务的权重。

本实施例使用基于权重的剪枝方法来释放模型所有层中一定比例的权重。在剪枝过程中，为了保留不确定性低的模型权重，本实施例按比率的幅度对每层的权重进行排序。在每一轮剪枝中，释放一定比例的具有最低/>比率的权重。

在剪枝后，由于网络连接的突然变化，模型的性能会下降。为了恢复剪枝后模型性能，本实施例对保留的权重进行了几轮迭代的重新训练。在执行网络重训练时，为了方便后续任务的学习，同时获得了由模型梯度计算得到的重要度矩阵，即F_i。在获得的重要度矩阵时，对当前任务的权重进行排序，对排序后的权重进行存储，以用于填充剪枝后的网络节点。在获得的重要度矩阵中，为了方便进行矩阵计算，将不属于当前任务的重要度矩阵值设置为零。

本实验在16个通用情感分类数据集上进行实验，具体信息如表1所示，前14个数据集是从亚马逊网站上收集的产品评论，IMDB和MR数据集是电影评论。每个评论被分类为正面或负面。每个数据集被随机分成训练集(70％)，验证集(10％)和测试集(20％)。

表1

为了验证本实施例所提出方法的有效性，由于本实施例的所提出的方法是基于固定模型容量的，因此将分别与经典文本方法和基于固定模型容量的终身学习的方法进行对比。

(1)经典文本分类方法：

1、BiLSTM：通过计算从正向和反向方向输入文本序列的分类方法。

2、TextCNN：使用具有卷积核大小的卷积层进行词向量学习。

3、BERT：利用预训练技术，将文本转化为词向量后再经过线性层进行分类。

(2)基于终身学习的方法：

4、EWC：使用EWC损失项对新任务的参数更新进行约束以实现终身学习。

5、Piggyback：通过学习选择性地掩蔽模型的固定权重进行终身学习的方法。

6、PackNet：通过网络剪枝保留前一个任务的重要权重的终身学习方法。

本实施例使用预训练的“bert-base-uncased”模型作为基础模型，该模型具有12个Transformer层，12个自我注意力头和768个隐藏维度。本实施例在实验中使用默认的BERT词汇表。在训练过程中，词汇表中的单词嵌入层被冻结。输入评论的最大序列长度设置为256。无论是网络参数更新还是网络重训练，都训练了3个迭代轮次。使用AdamW优化算法来优化整个模型。训练集的批大小设置为32。初始网络参数更新中的学习率为1e-4和网络重训练的学习率为1e-5。在(6)式中定义的超参数设置为α＝0.1，γ＝0.1，β＝0.03。在网络剪枝时,第一个任务释放40％的参数，而后续任务释放掉基于当前任务75％的参数。

为了保证实验的公平性，本实施例对每个模型的最优超参数都通过验证集进行了挑选。

本实施例按照常见的终身学习的方式进行实验。来自16个不同领域的实验数据按顺序依次进行训练，并且每个数据集被视为一个单独的任务。本实施例使用相同的任务学习顺序对所有方法进行训练。直到访问所有16个任务学习完为止，然后使用最终的模型对每个任务的测试集进行评估。

表2

注:表中同一列加粗表示的数值为模型对比结果的最高值。表2显示了本实施例的方法和基线的方法的实验结果。从结果中可以观察到典型的深度神经模型，即Bi-LSTM，TextCNN和BERT的性能远远不如终身学习方法，即EWC，Piggyback，PackNet和本实施例提出的方法。这一表现对于前几个任务尤其明显。例如，BERT在最近的任务上与EWC，Piggyback，PackNet和本实施例方法的性能相同，但在前几个任务(任务1到任务4)上明显较差。这是因为传统的深度神经模型没有特意保留旧知识，并且不可避免地遭受灾难性遗忘。由此可以看出，在真实应用场景下研究终身学习是很有必要的。

对于基于固定模型容量的终身学习的方法，EWC虽然能够实现终身学习，但是对于学习的最早的任务有着明显的灾难遗忘。因此，可以看出，在面对实际场景下，单一的终身学习策略并不能解决所有问题。尽管Piggyback方法可以在一定程度上缓解灾难性遗忘问题，但旧知识不能有效地用于提高新任务的性能。PackNet在前几个任务上取得了不错的结果，但在最后的任务上却表现一般。例如，PackNet在最后的MR任务上的准确率仅为80.25％，远不如其他的终身学习的方法。其原因可能是由于保留的参数数量随着旧任务数量的增长而增加，留给新任务学习的参数数量较少，导致模型的对新任务的学习能力降低。

本实施例进行了消融实验，以探究所提出方法中的每个子模块的有效性。首先，用于新任务学习的参数更新策略,仅采用不确定性正则化和迭代剪枝策略进行终身学习，标记为w/o EWC。其次，删除的参数更新策略只保留网络剪枝，标记为IP。最后，删除剪枝和EWC，仅采用不确定适应正则。标记为UCL。最终对比结果如图3所示，显示每次在学习第k个任务(1≤k≤16)之后的第1个到第k个任务的平均测试准确率。

从图3中的结果，可以得出以下观察结果。首先，当丢弃网络剪枝策略和EWC时只使用不确定正则时(UCL)，模型的性能下降最多。其次，旧任务的自适应参数更新策略有利于提高模型的效果。最后，仅仅使用不确定正则虽然也能起到较好的表现，但是依旧不如本实施例所提出的两种参数更新策略相结合的方法。

在真实的应用场景下，任务学习的顺序并不总是按照预先设计的顺序下进行学习，因此本实施例探究了任务顺序对所提出方法的影响。在该实验中，随机选择了3种不同的任务顺序，并报道了每次学习完新任务后的平均结果，具体表现如图4所示。从结果中本实施例可以观察到，虽然本实施例在不同任务顺序下表现出不同的准确率，但总体上对学习顺序的影响并不大，结果非常接近并几乎呈现出相同的趋势，尤其是最后几个个任务。

本实施例提出了一种具有自适应参数更新能力的终身学习方法，以提高终身情感分类的性能。通过设计奖两种网络参数的更新策略进行结合，缓解预训练模型的灾难遗忘，并提高模型的泛化性。本实施例对16个情感分类任务上进行了实验。实验结果表明，本实施例所提出的方法明显优于其他方法。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于自适应参数更新的终身情感分类方法，其特征在于，包括以下步骤：

通过所述终身情感分类器对情感进行分类。

2.根据权利要求1所述的基于自适应参数更新的终身情感分类方法，其特征在于，所述自适应参数更新的过程包括：

3.根据权利要求2所述的基于自适应参数更新的终身情感分类方法，其特征在于，所述重要度矩阵的表达式为：

4.根据权利要求2所述的基于自适应参数更新的终身情感分类方法，其特征在于，所述对新任务参数进行更新的损失函数的表达式为：

其中，Σ_jF_i-1(θ_i,j-θ_i-1,j)²是BERT为实现终身学习，基于上一个任务学习到的特征给当前任务的各参数特征学习加入的二次损失；θ_i,j表示当前任务模型学习的参数，θ_i-1,j表示被填充的旧任务参数。

5.根据权利要求2所述的基于自适应参数更新的终身情感分类方法，其特征在于，所述贝叶斯在线学习框架中的不确定正则化项的表达式为：

其中，⊙表示元素逐个相乘，代表BERT的第l层所有权重的初始标准差参数，并用于为控制学习过程的稳定性；/>和/>代表BERT第l层和任务k的均值权重和方差权重；UREG₂中的/>用于对权重大小进行判断；UREG₃用于使σ_k+1趋近σ_k。

6.根据权利要求2所述的基于自适应参数更新的终身情感分类方法，其特征在于，对所有的旧任务参数进行更新的损失函数为：

7.根据权利要求1所述的基于自适应参数更新的终身情感分类方法，其特征在于，所述网络剪枝的过程包括：