CN112257864B

CN112257864B - 一种用于解决灾难性遗忘问题的终生学习方法

Info

Publication number: CN112257864B
Application number: CN202011141948.0A
Authority: CN
Inventors: 于元隆; 刘子夜
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-08-16
Anticipated expiration: 2040-10-22
Also published as: CN112257864A

Abstract

本发明涉及一种用于解决灾难性遗忘问题的的终生学习方法。该方法包括：（1）借助旧求解器的编码网络，获得生成模型更新前后的特征信息；（2）对更新前的特征进行白化，并通过新旧特征的线性组合来获得鲁棒特征，用于构造变换矩阵对新特征白化，从而获得更新前后的正交特征信息；（3）依据风格迁移算法，利用Gram矩阵得到生成模型更新前后的正交风格信息，并通过融合正交风格一致性的损失项来更新生成模型；（4）基于知识蒸馏算法训练求解器与生成的伪数据配对来代表旧任务，与新数据混洗用于求解器的更新。本发明能够减轻生成模型中随着任务增加造成的生成模型的遗忘以及由于求解器独立训练造成的分类信息丢失的问题，从而达到解决神经网络以及人工智能（AI）系统开发存在的终生学习中的灾难性遗忘问题。

Description

一种用于解决灾难性遗忘问题的终生学习方法

技术领域

本发明涉及人工智能技术领域，具体为一种用于解决灾难性遗忘问题的的终生学习方法。

背景技术

现实世界中运行的计算系统往往会遇到连续的信息流，或者由于存储限制或隐私问题而只能临时使用数据的情景，此时需要从动态数据分布中学习和记住多个任务，不断更新模型来适应新任务。但是，机器学习所建立的是无法随时间适应或扩展其行为的静态模型，当处理新任务时，需要对整个模型进行重新训练，此时更新后的模型不再适用于旧任务的处理。终生学习(lifelong learning)试图去模拟人类的行为，使得针对序列任务，模型不仅可以很好的处理当前任务，也要保留处理旧任务的能力，有记忆的保留之前学到的知识，并逐渐扩展用于未来任务的学习。但是通过随机梯度下降训练的深度神经网络模型从非平稳数据分布中获取增量可用信息通常会导致灾难性的遗忘或干扰，即：随着新任务或领域的增加，先前学习的任务或领域的性能不应(显著)随时间降低。终生学习中的灾难性遗忘问题对神经网络以及人工智能(AI) 系统的开发提出了长期的挑战。

现今试图去解决灾难性遗忘的方法中，具有最理想效果的主流方法是基于数据重现的方法。主要是通过储存少部分样本或压缩样本到生成模型中，与新任务数据混洗用于新模型的训练。最值得注意的是Rebuffi等人的工作，该方法依据类别存储旧任务中每个类的样例子集，计算新旧任务各自特征向量，通过最近均值分类算法取其类别标签。但是这个方法受到联合训练的限制。D.Lopez-Paz等人提出用约束优化来解决这个问题，为后向/向前传输留出了更多空间，该方法提出限制新任务的更新，使其不干扰先前的任务。R.Aljundi等人将此方法扩展到了没有任务界限的在线的连续学习环境。然而，这些方法需要存储样本，随着任务的增加而造成存储容量的爆炸。

近年来，生成模型已经显示出生成高质量图像的能力，为建模数据生成分布和对生成的示例进行再训练提供了可能性。因此，Hanul Shin等人为了解决以上问题，提出generative replay(GR)的方法，在生成对抗网络(GAN)框架中训练了一个深度生成模型，以模仿过去的数据。然后将生成的数据与过去任务求解器的配对来表示旧任务。生成器-求解器对可以根据需要生成大量伪数据对，与新数据混洗来更新模型。该框架可用于涉及隐私问题的各种实际情况。但是基于生成模型的重现算法，需要生成模型的不断更新，性能极大的依赖于生成模型的质量。其存在的主要难点有：

(1)生成模型的遗忘

通过使用随机梯度下降技术训练的生成模型，随着任务序列的增加，在生成模型中压缩旧任务的数据,将慢慢忘记以前记住的分布。即遗忘发生在生成模型中，导致生成的数据不能表示先前任务的数据分布，这使得试图模拟联合训练的重现的方法不能很好的解决终生学习中的灾难性遗忘问题。

(2)求解器的误差传递

不同任务的求解器是独立训练的，因此新求解器无法保留先前学习的分类知识。另外，由生成器－求解器对产生的伪标签是one-hot形式，丢失了类别之间的分布信息。

发明内容

本发明的目的在于提供一种用于解决灾难性遗忘问题的的终生学习方法，该方法能够减轻生成模型中随着任务增加造成的生成模型的遗忘以及由于求解器独立训练造成的分类信息丢失的问题，从而达到解决神经网络以及人工智能(AI)系统开发存在的终生学习中的灾难性遗忘问题。

为实现上述目的，本发明的技术方案是：一种基于风格迁移和知识蒸馏的终生学习方法，包括如下步骤：

步骤S1：将生成器更新前后的生成数据输入求解器编码部分，得到模型更新前后的新旧特征，并计算对应特征均值向量；

步骤S2；对特征均值向量进行重组，并依据重组特征均值向量构造白化的变换矩阵，得到模型更新前后的正交特征；

步骤S3：基于正交特征获得生成器模型更新前后的正交风格信息；

步骤S4：融合正交风格一致性的损失项来更新生成模型，生成可以代表旧任务的伪数据；

步骤S5：基于知识蒸馏算法训练求解器与生成的伪数据配对来代表旧任务，与新数据混洗用于求解器的更新。

在本发明一实施例中，所述步骤S2具体包括：

步骤S21：利用生成模型更新前的特征均值向量μ_t-1，构造对应变换矩阵进行白化，获得模型更新前的正交特征；

步骤S22：将新旧特征均值向量μ_t、μ_t-1进行线性组合，可得t时刻稳定的特征均值向量：μ_t＝k₁μ_t-1+k₂μ_t；

步骤S23：基于步骤S22获得的特征均值向量，构造对应转换矩阵进行白化，获得模型更新后的正交特征。

相较于现有技术，本发明具有以下有益效果：本发明能够减轻生成模型中随着任务增加造成的生成模型的遗忘以及由于求解器独立训练造成的分类信息丢失的问题，从而达到解决神经网络以及人工智能(AI)系统开发存在的终生学习中的灾难性遗忘问题；

本发明具体优点如下：

1、本发明通过融合代表正交样式一致性的损失项的生成方法。在生成对抗网络中训练基于正交风格的生成模型(GAN)框架来模仿过去的数据。通过生成前后特征的线性组合而获得的鲁棒特征，构造了白化变换矩阵。在训练新任务时使正交样式的差异最小，以使更新的生成器具有先前任务的风格信息，从而减轻生成器的遗忘；

2、本发明在新旧求解器之间采用了知识蒸馏，通过鼓励先前和新的求解器具有相似的输出值来传递先前学习的分类知识。将代表先前任务的伪数据与具有高熵的软目标配对，在每个训练时期，软目标提供比硬目标更多的信息。

附图说明

图1为本发明一种用于解决灾难性遗忘问题的的终生学习方法的总体框图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种用于解决灾难性遗忘问题的的终生学习方法，包括如下步骤：

以下为本发明一具体实施实例。

如图1所示，本发明的一种用于解决灾难性遗忘问题的的终生学习方法，包括如下步骤：

在训练第一个任务的时候，因为不存在旧任务，直接基于输入数据单独训练生成器和求解器。如图1(a)所示，在训练第t(t>1)个任务时生成模型(generator)的训练步骤如下：

步骤S1：令x′_t-1和x′_t是生成模型更新前后生成的伪数据，本发明利用t-1时刻的用于图像分类的求解器作为编码器，得到该训练好的卷积神经网络中第l个卷积层下，生成模型更新前后的特征F_t ^l,

以及对应特征均值向量μ_t，μ_t-1；

步骤S2：为了获取图像的正交风格，本发明基于ZCA白化来降低特征的冗余性。利用生成模型更新前的特征均值向量μ_t-1，构造对应转换矩阵，获得模型t-1时刻的正交特征；

步骤S3：将新旧特征均值向量进行线性组合，可以提高在模型更新过程特征信息的鲁棒性，得到t时刻稳定特征均值向量：μ_t＝k₁μ_t-1+k₂μ_t；

步骤S4：基于该特征均值，构造对应转换矩阵，获得模型更新后(t时刻)的正交特征；

步骤S5：在得到更新前后图像的正交特征后，依据风格迁移算法，利用Gram矩阵得到在卷积层l下，其各自的正交风格表示形式G^l(x′_t-1)和G^l(x′_t),同时可得卷积层l对总正交风格损失的贡献为:

并且总的正交风格损失为：

其中

是每个层对第t个任务中总损失的贡献的加权因子，L为求解器中卷积层的总数。

进一步地，所述步骤S2中正交风格表示形式的计算为：

为了获得任务的正交风格的表示，本发明使用旨在捕获风格信息的特征空间，在网络的任何层中的过滤器响应之上构建特征空间。具有N^l个不同过滤器的网络层l具有N^l个特征图，每个特征图的大小为M^l，其中M^l是特征图的高度乘以宽度。因此，网络层l中的风格信息可以存储在矩阵

中，其中

是第l层中的第i个过滤器的位置j的激活值。

在特征图中，每个数字都来自在特定位置处卷积的特定过滤器。这些特征相关性由

中的Gram矩阵G^l给出，其中

是矢量化特征图i和j之间的内积。因此，Gram矩阵的非对角元素表示两个滤波输出特征之间的相关性，对角元素反映每个出现在图像中的滤波输出特征的值。通过利用构建在网络不同层上的这些风格特征空间捕获正交样式信息，可以获得图像的多尺度风格表示。

步骤S6：因此，第t个任务下生成器的损失

为生成模型的损失与正交风格损失的和，使得模型在更新的过程中保留图像稳定的正交风格信息。

其中，

为生成对抗模型(本发明中使用WGAN-GP)的损失，γ是正交风格损失的权重。

其次训练其配对的求解器(solver)，如图1(b)所示：

步骤S7：在任务t时刻中，让在任务增量步骤t-1中的求解器S_t-1作为教师模型。以教师模型S_t-1来指导S_t学生模型的学习，使得其在学习新任务同时维持已知任务的性能。任务t时刻的知识蒸馏损失：

其中y和

是任务增量步骤t时刻，S_t-1和S_t的预测矢量(由概率分数组成)，N为S_t-1中类别数。y′_i，

是记录的概率和当前概率的修改版本：

其中T是温度，本文使用T＝1来确保S_t-1网络中正确的预测贡献。

本质上，一方面，L^t _DL使得S_t-1和S_t之间的知识转移在给定相同输入的情况下输出近似，这有助于新模型学习先前任务的结构分布特征，从而保留先前任务的知识。另一方面，通过知识提炼，本发明可以获得与伪数据相对应的软标签，该伪标签比硬标签具有更多不同类别之间关系的信息。因此，本发明通过在训练新任务时增加蒸馏损失来减轻先前任务的遗忘，在t时刻处求解器更新的损失为：

其中

是当前任务的分类损失。β是蒸馏损失的权重，在大多数实验中都设为1。随着β的增大使得以前的任务性能得重要性胜于新任务的，因此可以通过β更改新旧任务性能的重要性。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。