CN113590748A

CN113590748A - 基于迭代网络组合的情感分类持续学习方法及存储介质

Info

Publication number: CN113590748A
Application number: CN202110853228.5A
Authority: CN
Inventors: 汪书鹏; 刘俊浩; 杨敏; 姜青山
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-02
Anticipated expiration: 2041-07-27
Also published as: CN113590748B

Abstract

本申请公开了基于迭代网络组合的情感分类持续学习方法及存储介质，本申请提出的方法线性组合原始网络和微调网络，对中间网络进行权重组合参数的初始化；并基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络，得到优化权重组合参数；将中间网络等价转换为最终组合网络，该最终组合网络在学习下一个新任务时作为新的原始网络；该优化权重组合参数作为下一个新任务原始网络的原始组合参数。本申请公开的基于情感分类持续学习方法在不增加网络规模下，避免了BERT模型在情感分类持续学习过程中对先前的知识发生灾难性遗忘的问题。

Description

基于迭代网络组合的情感分类持续学习方法及存储介质

技术领域

本申请涉及基于文本情感分类技术领域，具体是基于迭代网络组合的情感分类持续学习方法及存储介质。

背景技术

预训练语言模型，如GPT，BERT，XLNet等，已被提议并应用于许多自然语言处理任务，包括情感分类任务。而BERT最初是为了从未标记的文本中预训练深度双向表示，通过联合使用所有层的左、右上下文进行预测。

然而，当BERT模型被运用于情感分类任务的持续学习时，主要存在以下几个方面的技术缺陷：其一、舍弃了已经花费大量时间训练的旧情感分类模型；其二、旧情感分类模型和旧任务的数据需要循环不断地进行存储，占用大量的存储资源；三、如果再次使用之前训练好的旧情感分类模型来适更新后的数据时，会使模型对旧领域的任务出现灾难性遗忘。

有鉴于此，提供一种在不增加网络规模的情况下，能够保留原始网络性能，加快后续任务的学习进度的迭代网络组合的情感分类模型的学习方法成为必要。

发明内容

为了能够保留原始网络性能，在不增加网络规模的情况下，加快后续任务的持续学习效率，本申请提供一种基于迭代网络组合的情感分类持续学习方法及存储介质。

本申请提供的一种基于迭代网络组合的情感分类持续学习方法及存储介质采用如下的技术方案：包括以下步骤：

将来自于多个数据源的训练数据以BERT为网络模型，建立原始网络；当获取到需要进行文本信息情感分类的新任务时；

以BERT为网络模型，将原始网络适应新任务，得到微调网络；

获取原始网络中的原始组合参数，并训练微调网络获取微调组合参数；

冻结原始组合参数和微调组合参数；

线性组合原始网络和微调网络，得到中间网络；

对中间网络进行权重组合参数的初始化，获得组合初始化参数；

获取中间网络中的原始组合参数和微调组合参数；

基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络，得到优化权重组合参数；

将中间网络等价转换为最终组合网络，该最终组合网络在学习下一个新任务时作为新的原始网络；该优化权重组合参数作为下一个新任务原始网络的原始组合参数。

本申请提出的一种基于迭代网络组合的情感分类的持续学习方法，将中间网络的结构组合等价转换成权重组合参数的形式，得到最终组合网络，使得最终组合网络和原始网络保持相同结构和规模，从而可以将最终组合网络作为下一个新任务学习时的原始网络，基于原始网络的下一个最终组合网络也能再作为原始网络，依此循环，形成网络的持续学习。在网络组合等过程中，始终保存着原始网络、微调网络以及最终组合网络的权重组合参数，基于它的迭代网络组合的情感分类模型的持续学习过程中。每一次的新任务，基于在先原始网络，避免了对原始网络进行重复的训练，提高了网络训练效率，节约网络资源，本申请对网络模型进行了转换，保持相同的网络规模和网络模型，在网络的持续学习过程中，保证了持续学习能力，使得本申请具有明显的优越性。

本申请对原始网络和微调网络都采用BERT模型作为主干模型。给定不断学习的任务t₁至t_n-1的原始网络M_o和新接受的任务t_n训练的得到的微调网络M_f。旧任务[t₁,...,t_n-1]以及新任务t_n之间获得一个统一的网络，将原始网络和微调网络的每一个线性变换和层归一化线性地组合起来，得到中间网络M_sc。

进一步地，步骤线性组合原始网络和微调网络中，通过线性组合中的残差运算来连接原始网络和微调网络，残差运算的结构组合线性变换LT_sc的变换式为：

LT_sc(x)＝LT_o(x)+α_o⊙LT_o(x)+α_f⊙LT_f(x)

＝W_ox+α_o⊙(W_ox)+α_f⊙(W_fx)；

通过线性组合原始网络和微调网络得到中间网络，得到的中间网络包括原始网络线性变换权重参数α_o和微调网络线性变换权重参数α_f，原始网络线性变换权重参数α_o和微调网络线性变换权重参数α_f组合线性变换的中间网络参数(α_o,α_f)；

其中，输入特性为

LT_o和LT_f分别为原始网络和微调网络的线性变换的输出式；⊙表示元素级别的乘积；d_j表示线性变换的输出维数，d_i表示线性变换的输入维数；W_o表示线性变换LT_o权重参数，W_f表示线性变换LT_f权重参数，W_o,

α_o，α_f为权重组合参数，

进一步地，在步骤线性组合原始网络和微调网络中，通过结构组合层归一化中的均值和方差运算来连接原始网络和微调网络，其结构组合层归一化LN_sc表示为：

通过层归一化组合原始网络和微调网络得到中间网络；层归一化组合得到的中间网络包括原始网络层归一化权重参数β_o和微调网络线层归一化重参数β_f，层归一化权重参数β_o和微调网络线层归一化重参数β_f组合为层归一化后的中间网络参数(β_o,β_f)；

其中，LN_o为在原始网络的层归一化运算；LN_f表示在微调网络的层归一化运算；g_o是原始网络中层归一化仿射变换的可学习参数,g_f是微调网络中层归一化仿射变换的可学习参数，g_o,

μ是输入隐藏表示x的平均值,σ是输入隐藏表示x的标准偏差,μ,

β_o，β_f为权重组合参数，

线性组合的网络与中间网络是等价的，并且与原始网络具有相同的网络结构；将原始网络和微调网络的每一个线性变换和层归一化线性地组合起来，得到它们之间的中间网络。主要目的在于对中间网络进行额外的再训练，确保它能正常工作，而未对原始网络的参数产生任何影响，防止原始网络灾难性遗忘在先运算结果等。线性组合得到的中间网络主要用途包括以下二个方面，其一，对中间网络的再训练过程中的数据提供，其二，转换成最终的组合网络。

进一步地，在步骤线性组合原始网络和微调网络中，包括分别通过如下算法获取数据：

无遗忘学习运算

从中间网络中获取原始网络的输出性能；

知识蒸馏运算

从微调网络的软标签中获取微调网络中的信息；

交叉熵运算

从微调网络的硬标签中学习新任务的性能；

通过获取原始网络和中间网络中的数据，节约了原已经进行运算的网络再运算，节约了网络资源，提高了网络组合效率，并将获取到的数据，组合得到中间网络。

为了在不出现灾难性遗忘的情况下，使中间网络M_sc(结构组合网络)同时掌握旧任务(t₁,…,t_n-1)和新任务t_n，将权重参数α_o,α_f,β_o和β_f组合起来。具体地，从两方面来优化中间网络：其一、为了克服旧任务的灾难性遗忘，引入了LwF损失

促使中间网络M_sc模拟原始网络在所有旧任务上的输出。其二、确保新任务的表现，使用有监督方式IMM运算，对硬标签采用交叉熵损失

并且对软标签采用知识蒸馏损失

以获得微调网络中的信息。

在步骤重训练中间网络中，对原始网络和中间网络进行无遗忘学习运算，交叉熵损失运算和知识蒸馏损失运算,并对优化后权重组合参数进行衰减运算，该训练的完整目标函数为：

通过重训练中间网络，得到优化后权重组合参数(α_o,α_f,β_o,β_f)：

其中，(α_o,α_f,β_o,β_f)表示优化权重组合参数；n-1表示旧任务的数量；λ₁和λ₂是控制损失贡献的两个超参数；

为LwF损失运算；

为交叉熵损失运算；

为知识蒸馏损失运算，M_sc为中间网络；M_o为原始网络，M_f为微调网络。

本申请最相关的持续学习方法有两个，分别为

和IMM方法，其中遗忘学习运算

借用了知识蒸馏的技术来从原始网络中获取旧任务的信息来维持原有任务的信息，IMM的方法将原始网络和微调网络进行组合，从而获取到旧任务和新任务的信息，从而组成中间网络。

为了在训练结束后使组合网络的规模与原始网络的规模保持一致，本申请提出了一种将中间网络(结构组合网络)转化为最终组合网络的网络转换机制M_pc(参数组合网络)。转换后的最终组合网络和原始网络拥有同样的网络规模。节约了网络资源，提高了运算质量。

本发明将IMM中组合网络的思路加以优化并应用到BERT模型为基础的网络当中，结合遗忘学习运算

中所运用的知识蒸馏技术来对组合网络进行再训练，解决IMM中无法达到最优性能的问题，最终实现基于BERT模型的持续学习，来解决情感分类任务中的持续学习难点。不仅利用网络组合的思路解决了持续学习遗忘学习运算

方法中无法产生最优性能的问题，而且融合了再训练的机制解决持续学习IMM方法中无法让组合的比例达到最优情况的问题。

步骤中间网络等价转换为最终组合网络中，包括对原始网络的转换和中间网络的转换，其中原始网络的转换通过将中间网络中的原始网络部分结构组合线性变换为标准线性，将中间网络中的微信网络部分结构组合层归一化转换为标准层归一化。

进一步地，在步骤中间网络等价转换为最终组合网络中，将中间网络的结构组合线性变换LT_sc转换为标准线性公式为：

LT_sc(x)＝W_ox+α_o⊙(W_ox)+α_f⊙(W_fx)

＝LT_pc(x)＝W_pcx

通过线性变换得到最终组合网络；

其中，原始网络包括原始组合参数α_o，微调网络包括微调组合参数α_fLT_pc是最终组合网络M_pc的线性变换，

表示M_pc的线性变换参数。

为了在训练结束后使组合网络的规模与原始网络的规模保持一致，本申请提出了一种将中间网络(结构组合网络)转化为最终组合网络M_pc(参数组合网络)的网络转换机制。转换后的最终组合网络和原始网络拥有同样的网络规模，该网络机制的转换节约了网络资源，提高了运算质量。

进一步地，在步骤中间网络转换为最终组合网络中，将结构组合层归一化转换为标准层归一化公式为：

LN_sc(x)＝g_o⊙h+β_o⊙(g_o⊙h)+β_f⊙(g_f⊙h)

＝LN_pc(x)＝g_pc⊙h

通过标准层归一化转换得到最终组合网络；

其中，LN_pc是最终组合网络M_pc的层归一化；

是输入特征x层归一化的结果，

表示M_pc的层归一化的转换参数。

为了在训练结束后使组合网络的规模与原始网络的规模保持一致，本申请提出了一种将中间网络(结构组合网络)转化为最终组合网络M_pc(参数组合网络)的网络转换机制。转换后的最终组合网络和原始网络拥有同样的网络规模。节约了网络资源，提高了运算质量。

将中间网络M_pc视为新一轮任务t_n+1学习中的原始网络，如此一来，整个方案就可以不断的迭代进行组合，再训练，转换三个过程来实现持续学习。

进一步地，步骤基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络中，包括对优化权重组合参数施加L1衰减。

在网络重训练过程中，对优化权重组合参数进行衰减运算，目的是让组合参数中的值更多的接近于0，使组合网络结构在残差的影响下保留更多的原始网络M_o的信息。

本申请还提供了一种计算机可读存储介质，存储有能够被处理器加载并执行的一种基于迭代网络组合的情感分类持续学习方法的计算机程序。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行一种基于迭代网络组合的情感分类持续学习方法的计算机程序。

综上所述，申请提供的一种一种基于迭代网络组合的情感分类持续学习方法及其存储介质，以预训练模型BERT为骨干模型，对网络进行训练得到原始网络，将原始网络适应到新任务中得到微调网络网络，线性组合原始网络和中间网络，并将中间网络的结构组合等价转换成权重组合参数的形式，得到最终组合网络，使得最终组合网络和原始网络保持相同结构和规模，从而可以将最终组合网络作为下一个新任务学习时的原始网络，基于本原始网络的下一个最终组合网络也能再作为原始网络，依此不断循环，使得网络可以持续不断地学习新任务。在网络组合等过程中，始终保存着原始网络、微调网络以及最终组合网络的权重组合参数。基于前述的迭代网络组合的情感分类模型的持续学习过程中，每一次的新任务，均可基于在先原始网络，避免了对原始网络进行重复的训练，提高了网络训练效率，节约网络资源。对中间网络进行了转换，保持原始网络与最终组合网络相同的网络规模和网络模型，在网络的持续学习过程中，保证了持续学习性能和资源成本优势，使得本申请具有明显的优越性。

附图说明

图1为本申请的一种实施例的方法示意框图；

图2本申请的实验数据图；

附图标记说明：1、最终组合网络；2、原始网络；3、中间网络；4、微调网络。

具体实施方式

本申请提出的基于迭代网络组合的情感分类持续学习方法，包括如下步骤：将来自于多个数据源的训练数据以BERT为网络模型，建立原始网络2；当获取到需要进行文本信息情感分类的新任务时；以BERT为网络模型，将原始网络2适应新任务，得到微调网络4；获取原始网络2中的原始组合参数，并训练微调网络4获取微调组合参数；冻结原始组合参数和微调组合参数；线性组合原始网络2和微调网络4，得到中间网络3；对中间网络3进行权重组合参数的初始化，获得组合初始化参数；获取中间网络3中的原始组合参数和微调组合参数；基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络3，得到优化权重组合参数；将中间网络3等价转换为最终组合网络1，该最终组合网络1在学习下一个新任务时作为新的原始网络2；该优化权重组合参数作为下一个新任务原始网络2的原始组合参数。

本申请提出的基于迭代网络组合学习新任务的实现方法，将原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来，得到它们之间的中间网络3(结构网络)。再对中间网络3进行额外的再训练，以确保中间网络3能正常工作，冻结原始网络2的参数，防止原始网络2参数发生灾难性遗忘。并且，将中间网络3转换成最终组合网络1，该最终组合网络1与中间网络3是等价的，并且与原始网络2具有相同的网络结构。

如图1所示，线性组合原始网络2和微调网络4。原始网络2和微调网络4都采用BERT模型作为主干模型。给定原始网络M_o中，已经完成学习的任务包括t₁至t_n-1，和接受过新任务t_n训练的微调网络4M_f，在旧任务[t₁,...,t_n-1]以及新任务t_n之间获得一个统一的中间网络

该中间网络3由原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来。

中间网络

的结构组合线性变换LT_sc,是利用残差连接来线性组合原始网络2的线性变换输出(即LT_o)以及微调网络4的线性变换输出(即LT_f)。考虑到输入特性

线性变换的组合结构LT_sc构造如下：

LT_sc(x)＝LT_o(x)+α_o⊙LT_o(x)+α_f⊙LT_f(x)

＝W_ox+α_o⊙(W_ox)+α_f⊙(w_fx)

其中⊙表示按元素级别的乘积。w_o,

分别表示线性变换LT_o和LT_f的权重参数。d_j和d_i表示线性变换的输出维数和输入维数。为了更好的组合这两个网络，引入了两个加权参数α_o,

平衡两个网络的贡献。

BERT模型中的层归一化是为了应对线性变换的输出分布。为了缓解线性组合后的不一致性，本申请提出了中间网络3的层归一化LN_sc时，对原始网络2的层归一化(即LN_o)和微调网络4的层归一化(即LN_f)进行组合。与批量归一化相比，本申请提出的中间网络3的层归一化只计算局部的均值和方差。其中，中间网络3层归一化公式化如下：

其中g_o,

分别是原始网络2和微调网络4中层归一化仿射变换的可学习参数，μ,

是输入隐藏表示x的平均值和标准偏差。本申请还引入了两个加权参数β_o,

平衡两个层归一化的贡献。

为了在不出现灾难性遗忘的情况下，使中间网络

(结构组合网络)同时掌握旧任务(t₁,…,t_n-1)和新任务t_n，通过网络再训练来优化组合权重α_o,α_f,β_o和β_f。从两方面来优化中间网络3：(1)为了克服旧任务的灾难性遗忘，本申请引入了LwF损失

它可以促使中间网络

模拟原始网络2在所有旧任务上的输出。(2)为了确保新任务的表现，本申请使用有监督的方式对硬标签采用交叉熵损失

并且对软标签采用知识蒸馏损失

以获得微调网络4中的信息。重训练过程的完整目标函数如下：

其中n-1表示旧任务的数量。λ₁和λ₂是控制损失贡献的两个超参数。本申请对组合参数(α_o,α_f,β_o,β_f)应用L1衰减，目的是让组合参数中的值更多的接近于0，使组合网络结构在残差的影响下保留更多的原始网络

的信息。为了保证结构组合网络的初始状态能平等地考虑原始网络2M_o以及微调网络

初始化α_o和β_o的值为-0.5，α_f和β_f为0.5。另外，M_o和M_f的模型参数在本申请的再训练过程中被冻结了，避免原始网络2和微调网络4出现旧任务灾难性遗忘的情况。

经过再训练阶段，得到一个结构组合网络M_sc处理任务[t₁,…,t_n]。为了在训练结束后使组合网络的规模与原始网络2的规模保持一致，提出了一种将中间网络3转化为最终组合网络1的网络转换机制M_pc。转换后的最终组合网络1和原始网络2拥有同样的网络规模。最终的组合网络M_pc可视为下一次迭代中新的原始网络2来学习下一个新任务。压缩了结构组合线性结构LT_sc转化为标准线性变换形式，其定义如下：

其中，LT_pc是最终组合网络1M_pc的标准线性变换。

表示M_pc的线性变换参数。

进一步进，将结构组合层规一化转换为：

其中，LN_pc是M_pc的层归一化。

是输入特征x归一化的结果，

表示M_pc中层归一化的转换参数。

当网络转换完成之后，本申请将M_pc视为新一轮任务t_n+1学习中的原始网络2，如此一来，整个方案就可以不断的迭代进行组合，再训练，转换三个过程来实现持续学习。

基于残差连接的思路，提出了一种有效的结构组合方式，可以在保存更多原始网络2信息的情况下，对原始网络2和微调网络4进行结构组合，得到中间网络3。

对中间网络3进行重训练以获得更优的性能。其中使用LwF损失获取原始网络2中的信息以保护旧任务的性能；使用交叉熵损失学习新任务和使用知识蒸馏损失获取微调网络4中的信息，以更好的学习新任务；对(α_o,α_f,β_o,β_f)施加L1衰减，使得中间网络3可以更好的保留原始网络2的信息。

等价的将中间网络3转换成最终组合网络1，最终组合网络1和原始网络2保持相同的网络结构，从而可以在学习下一个新任务时视为新的原始网络2。

迭代网络组合在学习新任务时，线性组合原始网络2和微调网络4。将原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来，得到它们之间的中间网络3。原始网络2和微调网络4进行权重组合参数初始化；训练原始网络2和微调网络4，得到新的原始网络2和微调网络4权重组合参数。对中间网络3进行额外的再训练，以确保它能正常工作，对原始网络2的参数进行冻结，能避免灾难性遗忘。学习新的情感分类模型，将中间网络3转换成最终的组合网络，该组合网络与中间网络3是等价的，并且与原始网络2具有相同的网络结构。

线性组合原始网络2和微调网络4，得到中间网络3，对中间网络3引入LwF损失促使中间网络3模拟原始网络2在所有旧任务上的输出。在新旧模型的不断学习过程中，旧任务t₁至t_n-1，为原始网络2M_o；接受到的新任务t_n被训练为的新的微调网络4M_f，在旧任务[t₁,...,t_n-1]以及新任务t_n之间获得一个统一的网络，本申请将原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来，得到一个新的中间网络

(结构组合网络)。对中间网络3引入LwF损失促使中间网络3模拟原始网络2在所有旧任务上的输出。使中间网络

同时掌握旧任务(t₁,…,t_n-1)和新任务t_n，通过训练该中间网络3，得到权重组合参数α_o,α_f,β_o和β_f参数。

为了确保新旧网络权重的合理化，通过应用LwF技术对新旧网络均进行交叉熵损失

和知识蒸馏损失

运算。对情感分类新任务中的软标签采用知识蒸馏运算，获取微调网络4中的信息；对原始网络2中的软标签采用知识蒸馏运算，获取微调网络4中的信息。对情感分类新任务中的硬标签采用交叉熵运算，获取微调网络4中的信息；对原始网络2中的硬标签采用交叉熵运算，获取微调网络4中的信息。上述运算是可选择性地同时或部分进行运算，可完全根据数据需求而定。

对原始网络2M_o、微调网络4、中间网络3以及最终组合网络之一个及以上的网络以BERT为骨干模型的。

本申请提出的一种基于迭代网络组合的情感分类的持续学习方法，将旧任务的原始网络2和新任务的微调网络4相结合，保留在先任务的任务性能，同时在不增加网络规模的情况下加快后续任务的学习进度。巧妙地将结构角度线性组合得到的中间网络3转换回了参数组合的形式，与原始网络2的结构和规模保持一致，这意味着网络的容量在持续学习过程中不会随着任务的增加而增加。

为了验证本申请的效果，发明人还进行了以下试验研究：

数据集：为了验证本申请技术方案(以下简称为CSIC)的有效性，对16个任务的情绪分类数据集进行了对比测试，包括从电影评论(IMDB，MR)和从Amazon收集的14个产品评论数据集。每个产品分为正面和负面两个方向的情感。对于每个数据集，原始训练集和测试集中的样本数分别约为1600和400。本申请将原始训练集随机分为训练集(87.5％)和验证集(12.5％)。

基准方法：首先，将CSIC与三种广泛使用的文本分类模型：BiLSTM、TextCNN和BERT进行了比较。其次，还将CSIC与流行的持续学习方法进行了比较，包括LwF、Mean IMM。此外，还报告了基本模型在访问任务后有选择地重新初始化其参数时获得的结果(表示为Re-init),它为每个任务保存了一个单独的模型，而不考虑连续学习场景。为了公平比较，用BERT模型代替了CNNs的原始模型。

具体细节：本申请选择BERT-base模型作为骨干网络，使用AdamW优化算法来训练本申请的模型，权重衰减设为1e-8，批处理大小设置为16，训练微调网络4过程中的BERT模型学习速率设为5e-5，重新训练中间网络3的学习速率设置为1e-3。此外，本申请将超参数λ₁和λ₂分别设置为0.3和1e-2。需要说明的是，此处的超参数λ₁和λ₂还可以是：0.1和5e-3；0.5和5e-2，等等。此时LwF和KD的softmax层中的温度因子设为2。为了保证实验结果的可靠性和稳定性，本申请用三种不同的种子对每种方法运行了三次，并报告了平均值。

CSIC和基准方法在16个情绪分类任务的表现(％)，具体实验数据如下表所示：

结合图2，在访问所有16个任务的最终评估结果中，观察到普通分类方法(即BilSTM、TextCNN、BERT)的性能相较于持续学习方法(即LwF、Mean-IMM和CSIC)的性能已经处于落后地位。相较于本申请，传统的情绪分类方法会导致灾难性遗忘等技术问题，有不可逾越的鸿沟。

如图1和图2所示，在几项持续学习方法中，CSIC表现的比LwF和Mean-IMM也更有优势；靠后的几个任务中，总体的平均准确率高出LwF和Mean-IMM 2.5个百分点以上，且在不断的持续学习任务中，性能差异越明显。

如图2所示，本申请对所有模型在持续学习下的中间状态做了更详细的展示。结果显示传统的BERT在初期性能还算不错，但是在第5个任务开始出现明显下滑，进一步表明了BERT会在持续学习中发生灾难性遗忘。而本申请在持续学习过程中，表现出了很好的抗遗忘性，特别是在第6个任务之后，逐渐与其他两个持续学习方法拉开距离，展现出本技术方案在持续学习过程中，随着学习任务的不断增多，优势明显。

结论，为了公平起见，本申请对比BERT，IMM以及LwF方法时，使用BERT模型替换了IMM和LwF中所使用的CNN结构。实验结果显示，本申请在持续学习任务中，不会产生灾难性遗忘现象，十分有效的解决BERT在学习几个领域的情感分类任务之后就会出现的灾难性遗忘问题；在本实验中，发现IMM方法所提出的组合方式在任务较少时有着超出本申请的表现，但随着任务的增多，IMM方法在新任务的学习上逐渐变得困难，性能大幅度下降。而本申请在持续学习过程中，随着任务量越越多时，相较于当下其它较优秀的几类情感分类模型，表现得更为优异，本申请的性能大幅度超过IMM方法；相较于LwF方法，本申请得益于所提出的网络组合的思路，将原始网络和微调网络进行组合，并冻组合权重参数，并对组合权重参数进行再优化和存储于最终组合网络中，避免了大师的重复运算，从而保证了本申请的性能优势，在第12次任务后，本申请的准确率始终保持优于LwF大约2％左右的性能。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的方法所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种基于迭代网络组合的情感分类持续学习方法，其特征在于，包括以下步骤：

以BERT为网络模型，将原始网络适应新任务，得到微调网络；

冻结原始组合参数和微调组合参数；

线性组合原始网络和微调网络，得到中间网络；

获取中间网络中的原始组合参数和微调组合参数；

2.根据权利要求1所述的基于迭代网络组合的情感分类持续学习方法，其特征在于，步骤线性组合原始网络和微调网络中，通过结构线性组合中的残差运算来连接原始网络和微调网络，结构组合线性变换LT_sc的变换式为：

LT_sc(x)＝LT_o(x)+α_o⊙LT_o(x)+α_f⊙LT_f(x)

＝W_ox+α_o⊙(W_ox)+α_f⊙(W_fx)；

通过线性组合原始网络和微调网络得到中间网络，得到的中间网络包括原始网络线性变换权重参数α_o和微调网络线性变换权重参数α_f，原始网络线性变换权重参数α_o和微调网络线性变换权重参数α_f组合得到线性变换的中间网络参数(α_o，α_f)；

其中，输入特性为

LT_o和LT_f分别为原始网络和微调网络的线性变换的输出式；⊙表示元素级别的乘积；d_j表示线性变换的输出维数，d_i表示线性变换的输入维数；W_o表示线性变换LT_o权重参数，W_f表示线性变换LT_f权重参数，

α_o，α_f为权重组合参数，

3.根据权利要求2所述的基于迭代网络组合的情感分类持续学习方法，其特征在于，在步骤线性组合原始网络和微调网络中，通过结构组合层归一化中的均值和方差运算来连接原始网络和微调网络，其结构组合层归一化LN_sc转换式为：

通过层归一化组合原始网络和微调网络得到中间网络；层归一化组合得到的中间网络包括原始网络层归一化权重参数β_o和微调网络线层归一化重参数β_f，层归一化权重参数β_o和微调网络线层归一化重参数β_f组合为层归一化后的中间网络参数(β_o，β_f)；

其中，LN_o为在原始网络的层归一化运算；LN_f表示在微调网络的层归一化运算；g_o是原始网络中层归一化仿射变换的可学习参数，g_f是微调网络中层归一化仿射变换的可学习参数，

μ是输入隐藏表示x的平均值，σ是输入隐藏表示x的标准偏差，

β_o，β_f为权重组合参数，

4.根据权利要求3所述的基于迭代网络组合的情感分类持续学习方法，其特征在于，在步骤重训练中间网络中，包括分别通过如下算法获取原始网络和微调网络中的数据：

无遗忘学习运算

获取原始网络的输出性能；

知识蒸馏运算

从微调网络的软标签中获取微调网络中的信息；

交叉熵运算

从微调网络的硬标签中学习新任务的性能；

并将运算线性地组合起来，得到中间网络。

5.根据权利要求4所述的基于迭代网络组合的情感分类持续学习方法，其特征在于，在步骤重训练中间网络中，对中间网络中的原始网络数据进行无遗忘学习运算，对中间网络中的微调网络数据进行交叉熵运算和知识蒸馏损失运算，训练中间网络的完整目标函数为：

通过重训练优化了中间网络，得到优化权重组合参数：

其中，(α_o，α_f，β_o，β_f)表示优化后权重组合参数；n-1表示旧任务的数量；λ₁和λ₂是控制损失贡献的两个超参数；

为LwF损失运算；

为交叉熵损失运算；

6.根据权利要求5所述的基于迭代网络组合的情感分类持续学习方法，其特征在于，在步骤中间网络等价转换为最终组合网络中，将中间网络的结构组合线性变换LT_sc转换为标准线性的转换式为：

通过线性转换最终组合网络；

其中，LT_pc是最终组合网络M_pc的线性变换，

表示M_pc的线性变换参数。

7.根据权利要求6所述的基于迭代网络组合的情感分类持续学习方法，其特征在于，在步骤中间网络转换为最终组合网络中，将结构组合层归一化转换为标准层归一化的转换为：

通过层归一化转换最终组合网络；

其中，LN_pc是最终组合网络M_pc的层归一化；

是输入特征x层归一化的结果，

表示M_pc的层归一化的转换参数。

8.根据权利要求7所述的基于迭代网络组合的情感分类持续学习方法，其特征在于，步骤基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络中，包括对优化权重组合参数施加L1衰减。

9.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至8中任一种基于迭代网络组合的情感分类持续学习方法的计算机程序。

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至8中任一种基于迭代网络组合的情感分类持续学习方法的计算机程序。