CN109754079A

CN109754079A - 一种基于参数重要性克服灾难性遗忘的方法

Info

Publication number: CN109754079A
Application number: CN201811527874.7A
Authority: CN
Inventors: 李海峰; 彭剑; 蒋浩; 李卓
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-05-14

Abstract

本发明公开了一种基于参数重要性克服灾难性遗忘的方法，首先训练完第一个任务后，使用第一个任务的测试数据对模型的性能进行测试，然后使用第一个任务的训练数据，利用本发明提出的计算参数重要性的方法计算网络模型中每个参数对于该任务的重要性；然后将本发明提出的方法作为一个正则项添加到模型中的损失函数，训练完成后分别使用当前任务及之前所有任务的测试数据对该模型的性能进行测试；之后再使用新任务的训练数据按照本发明提出的方法计算参数重要性，并与之前计算的参数重要性矩阵进行累加；最后每当进来一个新任务对其进行训练时，重复以上步骤即可。实验证明，本发明提出的方法能够有效减轻深度学习模型中灾难性遗忘的问题。

Description

一种基于参数重要性克服灾难性遗忘的方法

技术领域

本发明涉及一种基于参数重要性克服灾难性遗忘的方法，属于人工智能领域。

背景技术

对于长序列任务，人类能够以一种连续的方式进行学习，旧的、很少使用的知识可以被新传入的知识覆盖，而重要的、经常使用的知识则不会被遗忘,从而可以逐步学习到更多的知识。而在深度学习模型中，如果在一个已经训练好的模型上再训练一个新的任务，模型就很容易发生“灾难性遗忘”的现象，即模型在连续学习多个任务后无法保持原来任务的性能，其主要原因在于新任务的参数配置会覆盖掉原参数配置，导致原参数空间被破坏。灾难性遗忘问题严重制约着智能体处理长序列任务时的性能，使得模型的通用性严重下降。

为了减轻深度模型中这种“灾难性遗忘”的现象，过去的一些研究已经取得了一定的进展，尽管这些方法在形式和结构上各异，但是其本质都是为了尽可能地在学习新任务的同时保留原任务的知识，参数被认为是这种知识表达的直接载体。在参数空间中进行优化，比较代表性的两种方法为：Elastic Weight Consolidation(EWC)和Memory AwareSynapses(MAS)。

EWC的核心思想是保护原任务重要的参数，在新任务数据上训练时通过对参数差异性更新的方式实现学习新任务的同时保护原来的参数。该方法对损失函数添加了一个额外的约束，使用Fisher信息矩阵来度量A任务中重要的参数，从而保证在训练B任务的过程中，对A任务比较重要参数的更新会受到惩罚，以此来保证A任务的性能。

MAS与EWC比较类似，该方法的核心思路是对每个任务，在训练完该任务之后，计算网络模型中每个参数对于该任务的重要性，并沿用到训练后续的任务中去。MAS的方法中将网络训练的前向过程视为对一个真实函数的逼近，每个参数对于一个任务的重要性相当于该函数对于该参数的敏感程度。对于重要的参数，在梯度下降中尽量减少它的改变幅度，以此来避免对过去的某个任务的灾难性遗忘。而对于重要性比较小的参数，就可以以较大的幅度对其进行梯度更新，以得到在新任务上较好的性能。

以上两种方法虽然可以在短序列任务上取得一定的效果，但是在实际应用的过程中，对于长序列任务，模型对于保留之前任务性能的能力会迅速下降。换句话说，以上两种方法对于参数重要性的度量并不精确，模型不能很好的保护对旧任务比较重要的参数，因此，就需要一种更加精确、实用、可靠、有效的方法来度量模型中各参数的重要性，以此来保护对旧任务重要的参数，真正达到减轻深度学习模型中灾难性遗忘的目的。

发明内容

本发明的目的是提供一种基于参数重要性克服灾难性遗忘的方法，能够有效减轻深度学习模型中灾难性遗忘的问题，以使得模型能够在学习新任务的同时保留对以前任务的学习能力。

为了实现上述目的，本发明提供一种基于参数重要性克服灾难性遗忘的方法，包括如下步骤：

(1)深度学习模型在第一个任务上训练完成后，使用第一个任务的测试数据对模型的性能进行测试，然后使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性Ω_ij；

(2)当模型训练第二个任务时，对模型中原有的loss function进行修改，增加一个正则项，然后以修改后的loss function进行训练，分别使用当前任务及之前所有任务的测试数据对该模型的性能进行测试；

(3)模型训练完第二个任务后，使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性Ω_ij，并将当前任务的重要性矩阵与之前任务的重要性矩阵进行累加，得到累加之后的参数重要性矩阵Ω，作为下一个任务训练的loss function中的参数重要性矩阵；

(4)每当进来一个新任务对其进行训练时，重复步骤(2)和步骤(3)。

进一步地，步骤(1)中所述的深度学习模型训练完成后，使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性Ω_ij，包括以下步骤：

获取当前任务的训练数据；

模型训练完成后，使用第一个任务的测试数据对模型的性能进行测试；

将网络模型训练完成后学习到的X→Y的函数记为F(X,θ)，其中θ是学习的参数，F(X,θ)对网络参数θ变化的敏感度为：

其中，H为Hessian矩阵，代表模型学习到的函数F(X,θ)对网络参数θ的二阶偏导数，0(||δθ||³)代表无穷小项，这里忽略不计；

按照下列公式计算模型学习到的函数F(X,θ)对网络参数θ的偏导数：

其中，代表模型学习到的函数F(X,θ)对网络参数θ的偏导数；

将Hessian矩阵展开为：

其中，P为训练样本总数，in^k为输入的第k个训练样本；

从全局来看，即为模型学习到的函数F(X,θ)对参数θ的梯度，因此，按照下列公式对Hessian矩阵做一个近似处理：

其中，H代表Hessian矩阵；

按照下列公式计算网络模型中每个参数θ_ij对于该任务的重要性矩阵Ω_ij：

其中，Ω_ij代表网络模型中每个参数θ_ij对于该任务的重要性矩阵。

进一步地，步骤(2)中所述的对模型中原有的loss function进行修改，增加一个正则项，然后以修改后的loss function进行训练，包括以下步骤：

每当新进来一个任务时，按照下列公式对在其任务的原有loss function上添加一个正则项来限制各个参数的更新幅度：

其中，L(θ)代表修改之后模型总的loss function，L_new(θ)代表模型在当前任务上的loss function，λ代表正则项的超参数，θ_ij代表当前任务的网络参数，代表之前任务的网络参数；

分别使用当前所有任务的测试数据对该模型的性能进行测试。

进一步地，步骤(3)中所述的使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性Ω_ij，并将当前任务的重要性矩阵与之前任务的重要性矩阵进行累加，包括以下步骤：

获取之前任务的参数重要性矩阵Ω₁；

使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性矩阵Ω₂；

按照下列公式计算累加之后的参数重要性矩阵：

Ω＝Ω₁+Ω₂

其中，Ω为之前任务与当前任务累加之后的参数重要性矩阵。

通过上述技术方案，可以实现以下有益的技术效果：

(1)提出了一种新的度量参数重要性的方法，该方法可以用来有效减轻深度学习模型中灾难性遗忘的问题；

(2)对Hessian矩阵做了一个有效的逼近，大大减少了计算的复杂度，使得实现起来更为简单，增加了实用性；

(3)不限制模型必须使用在某种具体的场景中(比如只能做图像分类)，该方法是与场景无关的，可以在任意场景中使用本发明的方法；

(4)提出的方法能够从无标签数据中学习，使得该方法能够更适用于真实场景中。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1示出了本发明实施例的流程示意图；

图2示出了本发明实施例选用的Mnist手写字符和Fashion Mnist服饰数据集；

图3(a)示出了对比方法实施例在四个任务上的结果示意图；

图3(b)示出了本发明实施例在四个任务上的结果示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

在本发明的一个实施例中，如图1所示，基于参数重要性克服灾难性遗忘的方法包括如下四个步骤：

1、深度学习模型在第一个任务上训练完成后，使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性Ω_ij。

首先，获取第一个任务的训练数据；

接着对模型进行训练，模型训练完成后，使用第一个任务的测试数据对模型的性能进行测试；

然后，将网络模型训练完成后学习到的X→Y的函数记为F(X,θ)，其θ中是学习的参数，F(X,θ)对网络参数θ变化的敏感度为：

其中，H为Hessian矩阵，代表模型学习到的函数F(X,θ)对网络参数θ的二阶偏导数，O(||δθ||³)代表无穷小项，这里忽略不计；

其中，代表模型学习到的函数F(X,θ)对网络参数θ的偏导数；

将Hessian矩阵展开为：

其中，P为训练样本总数，in^k为输入的第k个训练样本；

其中，H代表Hessian矩阵；

2、当模型训练第二个任务时，对模型中原有的loss function进行修改，增加一个正则项，然后以修改后的loss function进行训练，分别使用当前所有任务的测试数据对该模型的性能进行测试。

每当新进来一个任务对其进行训练时，对于Ω_ij大的参数θ_ij，表明该参数对之前任务比较重要，那么在梯度下降中应尽量减少它的改变幅度来避免对之前任务性能的影响，而对于Ω_ij比较小的参数θ_ij，可以以较大的幅度对其进行梯度更新，以得到在当前任务上较好的性能。在具体的训练过程中，按照下列公式对在其任务的原有loss function上添加一个正则项来限制各个参数的更新幅度：

训练完成后，分别使用当前所有任务的测试数据对该模型的性能进行测试，以检验模型对多个任务的性能。

3、模型训练完第二个任务后，使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性Ω_ij，并将当前任务的重要性矩阵与之前任务的重要性矩阵进行累加，得到累加之后的参数重要性矩阵Ω，作为下一个任务训练的loss function中的参数重要性矩阵。

首先，获取之前任务的参数重要性矩阵，记为Ω₁；

然后，使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性矩阵Ω₂；

最后，按照下列公式计算累加之后的参数重要性矩阵：

Ω＝Ω₁+Ω₂

4、每当进来一个新任务对其进行训练时，重复步骤2、步骤3的过程即可。

为了验证本发明的有效性，结合实施例对本发明进行描述。

实施例1:参见图2

实验说明

主要是从深度学习模型在学习长序列任务过程中对之前任务的遗忘程度来对本发明提出的方法的有效性进行评价。本发明的实验主要是用来证明本发明提出的方法能够有效的减轻深度学习模型中灾难性遗忘的问题。

基于Mnist手写字符和Fashion Mnist服饰数据集(图2)，使用三层MLP网络做分类任务，每层神经元个数为784-64-32-10，为防止过拟合，在第二层全连接层后面加入dropout，实验中dropout设置为0.5，学习率设置为1e-3，λ设置为5，迭代训练10000次，分别对Mnist手写字符和Fashion Mnist服饰数据集打乱像素，以此来得到两个新的数据集，让模型按顺序依次学习四个任务，这四个任务的顺序为：A任务(Fashion Mnist)、B任务(Mnist)、C任务(shuffle Fashion Mnist)、D任务(shuffle Mnist)。使用下式中定义的BWT指标来评估模型的性能,该指标度量模型在学习完当前任务t后，对之前任务的影响有多大，BWT值为负数，表明模型在学习完当前任务后会遗忘之前任务的性能，数值越大，表明遗忘程度越高。

其中，T为任务数量，R_i,j为模型在学习完任务t_i后，在之前任务t_j上的测试精度。

实验结果如下，图3分别示出了对比方法和本发明实施例在四个任务上的结果示意图，表1示出了本发明提出的方法与其他方法性能对比，可以看到，四种方法对于之前的任务都产生了遗忘。SGD对于保留之前任务的能力是最差的，这是因为SGD没有引入任何克服遗忘的机制，EWC虽然对权重加入了弹性巩固机制，但总的来说，对于保留之前任务的能力并不是太好，遗忘程度达到了12.81％。MAS对重要的参数进行了保护，使得模型对之前任务重要的参数更新速度减慢，从结果来看，MAS的方法效果要比EWC和SGD的好，遗忘程度也只有8.73％。而本发明提出的方法相比于SGD、EWC和MAS对于之前任务的遗忘程度是最低的，仅为6.97％。从数值上来看，本发明提出的方法比SGD提高了11.11％，比EWC提高了5.84％，比MAS提高了1.76％。这也验证了本发明提出的方法能够有效的减轻深度学习模型中灾难性遗忘的问题。

表1本发明提出的方法与其他方法性能对比

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种基于参数重要性克服灾难性遗忘的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于参数重要性克服灾难性遗忘的方法，其特征在于，步骤(1)中所述的深度学习模型训练完成后，使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性Ω_ij，包括以下步骤：

获取当前任务的训练数据；

其中，代表模型学习到的函数F(X,θ)对网络参数θ的偏导数；

将Hessian矩阵展开为：

其中，P为训练样本总数，in^k为输入的第k个训练样本；

其中，H代表Hessian矩阵；

3.根据权利要求1所述的基于参数重要性克服灾难性遗忘的方法，其特征在于，步骤(2)中所述的对模型中原有的loss function进行修改，增加一个正则项，然后以修改后的loss function进行训练，包括以下步骤：

4.根据权利要求1所述的基于参数重要性克服灾难性遗忘的方法，其特征在于，步骤(3)中所述的使用当前任务的训练数据计算网络模型中每个参数θ_ij对于该任务的重要性Ω_ij，并将当前任务的重要性矩阵与之前任务的重要性矩阵进行累加，包括以下步骤：

获取之前任务的参数重要性矩阵Ω₁；

按照下列公式计算累加之后的参数重要性矩阵：

Ω＝Ω₁+Ω₂