CN115392451A

CN115392451A - 一种可持续学习的人工神经网络避免遗忘方法

Info

Publication number: CN115392451A
Application number: CN202210920743.5A
Authority: CN
Inventors: 姚红革; 邬子逸
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-11-25
Anticipated expiration: 2042-08-02
Also published as: CN115392451B

Abstract

本发明涉及人工智能机器学习领域中的人工神经网络学习训练技术，具体涉及一种可持续学习的人工神经网络避免遗忘方法。该方法包括三个步骤：1、网络空间的可持续区域隔离学习：将整体网络进行等量区域隔离，然后在新隔离出的空间中学习新知识，以避免与旧知识混淆；2、网络空间的区域集成：配合“自学习掩码”和“边缘损失约束”，使用“双分支信息门融合”对上“1”隔离学习中的新旧知识进行融合；3、网络的多阶段增量训练，包括以初始化为主的基础训练，以及以同步区域分离与集成为主的增量训练，通过训练，形成系统稳定的学习和记忆能力。本发明方法实现了神经网络在学习新知识同时不忘旧知识，避免了网络在连续学习过程中的遗忘。

Description

一种可持续学习的人工神经网络避免遗忘方法

技术领域

本发明涉及人工智能机器学习领域中的人工神经网络学习训练技术领域，具体涉及一种可持续学习的人工神经网络避免遗忘方法。

背景技术

目前针对神经网络遗忘旧知识这一问题，主要方法有正则化与知识蒸馏、知识重放、动态结构等。其中目前普遍使用的是知识重放和动态结构方法。

知识重放：指在连续不断增加的信息中学习新知识时储存旧知识，并适时的回放旧知识来提醒模型不要忘记的方法，是减轻遗忘的最直接有效的方法。许多先进的增量学习方法都采用了知识回放，不过由于样本回放方法中新、旧数据不平衡，以及增量学习场景下的Softmax分类器能力较弱等原因，导致记忆回放的过程中还存在着严重的“近期偏好”问题。如Zheda Mai等人在《"Supervised contrastive replay:Revisiting the nearestclass mean classifier in online class-incremental continual learning》认为虽然记忆重放已显示出良好的效果，但常用的Softmax分类器在“增量学习”中引起的“近期偏好”仍是一个未解决的挑战。

动态结构方法：允许在一定程度上扩展网络容量来逐步构建深度增量模型，同时保持网络结构的紧凑性。但是，随着学习任务的增加，网络的内存占用和复杂性也线性增加。考虑到渐进式框架的结构复杂度困扰，近年来的部分增量学习作品开始尝试挖掘固定容量网络的潜力，为未来任务设置一个预设的、持续的扩展。

Mehta等人在《Bayesian nonparametric weight factorization for continuallearning》认为在固定容量网络内部按任务量公平分配张量空间，单个任务可训练空间与任务数量呈负相关，容易欠拟合。Wang等在文《Learn-prune-share for lifelonglearning》中综合应用掩码和剪枝方法隔离任务空间、提倡知识共享，但该方法对于新任务的可训练空间是持续递减的，不能长久进行。此外，按任务量分区的方法使得它的分区集成难度增加，使系统效率难以提高。Kim等在文《Split-and-Bridge:Adaptable ClassIncremental Learning within a Single Neural Network》中同样使用固定容量的动态结构抵抗“灾难性遗忘”，辅以蒸馏损失迁移旧知识，同时和Wang一样鼓励跨任务的知识共享。但是，Kim的方法未关注“近期偏好”现象，且任务隔离机制较为复杂，不利于训练。

发明内容

本发明要提供一种可持续学习的人工神经网络避免遗忘方法，以克服现有技术存在的“近期偏好”和训练学习难以持久的问题。

为了达到本发明的目的，本发明提供的技术方案是：一种可持续学习的人工神经网络避免遗忘方法，包括三个步骤：

步骤一、网络空间的可持续区域隔离：将整体网络进行等量地区域隔离，然后在新隔离出的一半空间中学习新知识，以避免与旧知识混淆。并随着学习过程，循环进行这种可持续的新旧知识区域等量隔离学习。

步骤二、网络空间的区域集成：包括构建网络结构和设计损失函数，所述网络结构构建中使用“双分支信息门融合”，并配合着可将神经元与特定的任务绑定的“自学习掩码”来进行新旧知识融合；所述设计损失函数时使用Margin Loss作为约束来缓解融合时的“近期偏好”，避免“灾难性遗忘”。

步骤三、网络的多阶段增量训练：包括基础训练和增量训练，所述基础训练包括“初始化训练”和“区域分离训练”两个阶段；所述增量训练包括“隔离学习训练”、“同步区域分离与集成训练”和“精调训练”。通过多阶段增量训练，形成系统稳定的学习能力和记忆能力。

进一步的，上述步骤一中，将整体网络进行等量区域隔离的方式是：

通过BN层权重因子诱导的通道稀疏性实施通道剪枝。

进一步的，上述步骤二中，自学习掩码生成方法是：

对原训练样本进行特征提取得到特征图M^In，M^In∈R^N*C*H*W，其中“N”代表批量大小，“C”代表特征图通道数，“H，W”为特征图的高和宽。M^In经2个串联管道加工后得到掩码M^Mask。首先经注意力网络GC-Net管道加工M^In，得到尺寸不变的处理结果M^CG∈R^N*C*H*W；然后用卷积滤波器F1∈R^O*C*H*W处理M^GC输出M′∈R^N*C*H*W，其中“O”代表特征图经过F1处理后的通道数，“N,H,W”意义同上。对M′进一步执行可微分阈值二值化输出掩码M^Mask∈R^N*C*H*W，M^Mask包含着所处理任务感兴趣的局部神经元位置信息。

进一步的，上述步骤二中，自学习掩码应用方法是：

自学习掩码生成结束后，将得到的局部神经元位置信息M^Mask与原任务特征M^In点乘，实现神经元与特定任务的适配，掩码值为“1”是要保留的特征位置，为“0”是要舍弃的非必要的特征位置。

进一步的，上述步骤三中，设计损失函数时，损失包括“基础训练”损失和“增量训练”损失。

进一步的，上述基础训练损失为：

其中c_i表示在第i类上的ground truth值，c_i∈{0,1}。

代表新学习的样本的Softmax输出在第i类上的值。N为新学习任务总类别数。

进一步的，上述增量训练损失L^Incremental由蒸馏损失L_DS和间隔损失L_M组成：

其中，蒸馏损失L_DS表述如下：

L_DS＝αL_soft+βL_hard (2)

L_soft是蒸馏损失的正则项，它利用旧类的分类信息来约束当前增量过程的输出，参见式12。L_hard代表输入样本和标签的交叉熵损失，参见式12。α和β都是平衡系数，取值在0-1之间；

其中，间隔损失L_M表述如下：

新类与旧类之间的分类间隔与margin(参见式15)负相关，通过梯度下降优化算法缩小margin值以扩大分类间隔，提升分类器在新类和旧类决策边界间的鉴别能力。topK取margin值降序排列的前k个，k设为batchsize大小的1/5。

综上，增量训练损失L^Incremental见下式(4)，其中λ为L_DS、L_M的平衡系数。

L^Incremental＝L_DS+λL_M (4)

进一步的，上述操作序列如下：

A.首先进行基础训练，初始化神经网络，然后利用初始化后的网络学习知识。

B.利用通道剪枝将已学习的知识压缩存储，预留下占网络容量50％的可用于新学习的通道。该操作实现了等量的区域隔离，基础训练到此结束。

C.进入当前增量训练过程。保护已学习的旧知识，并利用预留的通道隔离学习新知识(add New1)。

D.经过一个同步的“网络融合”(Merge)融合新旧知识，并再利用通道剪枝技术将融合后的知识压缩存储，也称“网络稀疏化”(Sparsity)，再次得到50％的预留空间。

E.再次重复C，D的操作。

本发明受人脑学习方式的启发，模仿人脑的分区学习和记忆重放，构建了一个基于分区学习和记忆重放的神经网络模型：“可持续区域隔离与集成”的避免遗忘学习网络，能够保护长期记忆，缓解连续学习过程中的遗忘。相比于现有方法，本发明具有以下三个优点：

第一是模仿人脑的分区学习功能，提出一个“可持续地、公平地对待每个新的类增量任务”的分区方法。该方法通过对固定容量的网络进行迭代式的参数空间分离和整合操作，在不带来额外的存储消耗的情况下，实现了所有类增量任务的可训练空间的公平持续分配。

第二是模仿海马体，实现记忆重放功能，解决了近期偏好问题：本发明提出“自学习掩码”方法，并基于该方法创建了一个记忆回放功能，对新知识进行编码，在编码的同时回放旧知识、施加蒸馏约束，巩固旧知识，解决了近期偏好问题。

第三，设计了两种优化方法：为了抑制区域隔离后的再集成损失，促进分区效率，设计了具有差异化任务映射能力的自学习掩码来强化数据特征提取；针对“近期偏好”，设计了一个间隔损失函数作为正则项来施加约束，提升分类器在新类和旧类决策边界间的鉴别能力，辅助记忆重放功能解决近期偏好问题。

第四，提供的方法隔离机制简单且易于训练，训练学习持久。

附图说明

图1是本发明方法的流程图；

图2是本发明步骤一中空间变化示意图；

图3是本发明步骤二中自学习掩码(SLM)的设计流程图；

图4本发明步骤二中“双分支信息门融合”结构图；

图5是本发明步骤三的训练过程图。

具体实施方式

本发明提出的一种可持续学习的人工神经网络避免遗忘方法，参见图1，本方法的实现包含三个步骤：“可持续区域隔离”和“区域集成”、以及对区域进行隔离与集成优化训练的“多阶段增量训练”。区域隔离独立新学习过程以减少对旧知识的干扰；区域集成阶段最终形成统一的、高精度的新、旧知识识别能力；多阶段增量训练可以提高网络的隔离与集成能力，进而形成网络的高记忆能力。

实施例，一种可持续学习的人工神经网络避免遗忘方法，具体包括以下步骤：

步骤一、网络空间的可持续区域隔离：

为了在学习新知识的同时保护旧知识，将整体网络进行等量地区域隔离，然后在一半空间中隔离学习新知识，并随着学习过程进行可持续区域隔离，详见图2(图2中，W、H分别代表卷积块通道的宽和高，灰色区域代表可用于权重参数学习的空闲区域)。完整的知识学习过程的操作序列如下：

A.基础训练，初始化神经网络，然后利用初始化后的网络学习知识。

C.进入当前增量训练过程。保护已学习的旧知识(store old)，并利用预留的通道隔离学习新知识(add New1)。

D.经过一个同步的“网络融合”(Merge)和“网络稀疏化”(Sparsity)，再次得到50％的预留空间。此处稀疏化同操作B。

E.再次重复C，D的操作。

C、D操作重复执行，在保护旧知识的基础上持续地纳入新知识。即由C、D过程不断迭代来进行持续的类增量学习。

关键操作序列：

1、操作序列C：在不修改旧知识空间参数的基础上，接收新到来的类样本，并使用BP算法来塑造容纳新知识的自由参数空间。通过不更新旧知识相对应的卷积核通道的权重，来阻止对旧知识空间的修改，进而达到隔离学习的目的。

具体实现中，建立了一种权重因子诱导的通道剪枝技术，它通过BN层权重因子诱导的通道稀疏性实施，将旧知识压缩到局部通道区域的同时，剪枝剩下的部分也为模型提供了容纳新知识的自由通道。

2、操作序列D：“网络融合”指的是“区域集成训练”，具体介绍见步骤二，目的是为了整合存储在网络中的新知识和旧知识以形成一个统一的表达。“网络稀疏化”同操作序列B，目的是压缩现有的知识，创建可用于新学习的预留空间。

步骤二、网络空间的区域集成：

区域隔离完成后，新、旧知识有各自独立的分区空间。旧知识空间保存着旧知识，而新知识空间中存放着近期纳入的新知识。新、旧知识空间需要集成起来形成一个统一的认知，并同步执行参数分离操作把这些统一的认知作为旧知识存放起来，形成一种长期记忆保存，这称为区域集成，与区域隔离交替进行。

区域集成从构建网络结构和设计损失函数两方面实现。在网络结构构建时使用“双分支信息门融合”配合着可将神经元与特定的任务绑定的“自学习掩码”，来强化新、旧知识区域的集成表达效果；在设计损失函数时使用Margin Loss作为约束来缓解“近期偏好”，以形成稳健的知识融合。

以下分三方面，依次阐述自学习掩码、双分支融合和损失函数的设计：

1.自学习掩码(SLM)：

为提升分区集成实施后的新、旧知识识别能力，提出了自学习掩码，以下简称SLM。在新、旧知识区域集成过程中，SLM用于将局部神经元与特定任务进行适配。在训练时SLM将不同任务信息绑定不同组合神经元，在预测时又用掩码定位任务特征，将任务信息的提取范围限制在一个能尽可能准确地表达任务的局部空间中，详见图3。

SLM包含两个串联的处理过程：自学习掩码生成和自学习掩码应用。其中自学习掩码生成处理，获得任务特征的位置信息。自学习掩码应用处理，依据任务特征的位置信息来将特征适配到具体任务。

(1)自学习掩码生成：

对原训练样本进行特征提取得到特征图M^In，M^In∈R^N*C*H*W，其中N代表批量大小，C代表特征图通道数，H，W为特征图的高和宽。M^In经2个串联管道加工后得到掩码M^Mask。首先经注意力网络GC-Net管道加工M^In，得到尺寸不变的处理结果M^CG∈R^N*C*H*W；然后用卷积滤波器F1∈R^O*C*H*W处理M^GC输出M′∈R^N*C*H*W，对M′进一步执行可微分阈值二值化输出掩码M^Mask∈R^N ^*C*H*W，M^Mask包含着所处理任务感兴趣的局部神经元位置信息，其中o代表特征图经过F1处理后的通道数(滤波器F1的数目)。以上各步可表示为如下计算：

M^GC＝GCNet(M^In) (5)

M′＝Conv1(M^GC,F1) (6)

阈值二值化对于掩码的生成至关重要，它可以只关注与任务相关的局部神经元。但是标准的阈值二值化不利于训练的收敛，本发明基于可微分二值化模块，实现端到端的训练。

其中

为近似二进制图，i,j,k分别代表特征图的宽、高和通道坐标。该式可以使输出的掩码值逼近0或者1，等价于0-1稀疏化的松弛约束。T_i,j,k为从网络学习到的自适应阈值图，s表示放大因子，根据经验设置为50。

(2)自学习掩码应用：

上述自学习掩码生成结束后，将得到的局部神经元位置信息M^Mask与原任务特征M^In相适配，实现神经元与特定任务的适配。掩码值为“1”则是要保留的特征位置，为“0”的是要舍弃的非必要的特征位置，也就是说掩码可以实现必要的特征提取和空间压缩，限制信息的提取范围，更准确的获取任务特征。

掩码应用时，首先用与F1同尺寸的卷积核F2∈R^O*C*H*W处理原任务特征M^In，生成一个与掩码M^Mask同尺寸的变换特征图M^Trans∈R^B*O*H*W。然后将M^Mask与M^Trans进行元素维度的点乘，得到任务适配特征图M^Adapt∈R^B*O*H*W。具体计算如下式：

M^Trans＝Conv2(M^In,F2) (9)

M^Adapt＝M^Transe M^Mask (10)

2.双分支信息门融合实现

在使用自学习掩码SLM来实现分区集成后，由于在同一个空间中表达新、旧知识，会产生新、旧知识间的参数争用，从而限制了新知识的表达能力。在这里，构建了一个双分支信息融合模块GBF，用于在新、旧知识分区集成过程中提升网络对新知识的识别能力。

GBF的核心在于，首先创建一个只训练新知识的分支，然后使用GBF模块收集该分支的信息，并提交给同时训练新、旧知识的主分支进行融合决策。也就是说，我们利用一个只关注新知识而不受旧知识干扰的分支作为辅助信息来源，来提升SRII模型对新知识的识别能力。

其中，GBF的设计详见图4。首先，GBF模块将神经网络的中间层信息x₁,x₂,...,x_m分别经过门控Gate和tanh函数激活后，执行元素尺度的加法。目的是为了提取辅助分支中新知识的多级上下文信息，进行信息融合的准备工作。然后，主分支一方面使用门控Gate和sigmoid激活函数，筛选出高价值信息G_l；另一方面用y_n筛选后的低价值信息1-G_l区域(可作为冗余区域)接收来自红色虚线框的双分支汇聚信息，实现再次信息融合，确保不同层次信息融合充分。此外，为减少信息融合的损失，还将原始信息y_n直接保留下来，与上述两方面的信息执行元素级的加法融合。

该过程可以简述为：新知识经辅助分支进行学习，新、旧信息经主分支流动进行学习，得到的x₁,x₂,...,x_m,y_n(1,k,m,n＜1)，作为GBF的输入，执行GBF后的特征图经过卷积层和全连接层得到最终的识别结果。

3.设计损失函数辅助融合

设计了Margin Loss作为约束来缓解“近期偏好”，并增添蒸馏损失以鼓励稳健的知识融合，损失包括“基础训练”损失和“增量训练”损失：

(1)基础训练损失：

“基础训练”使用交叉熵损失直接提取样本信息，表示为L^Base，见式(11)：

其中

表示在第i类上的ground truth值，c_i∈{0,1}。

(2)增量训练损失：

增量损失L^Incremental由蒸馏损失L_DS和Margin Loss正则项损失L_M两项合成，其计算如下：

L_DS计算对于每一个样本x，它的高温蒸馏损失有两个，即软目标(soft target)损失和硬目标(hard target)损失分别用L_soft和L_hard表示如下：

则主分支蒸馏损失L_DS为：

L_DS＝αL_soft+βL_hard (13)

式(12)中θ_t-1是保存的上个增量过程(即t-1时)的历史模型参数，θ_t是第t个增量过程的模型参数。v_i代表输入样本在θ_t-1上的logit输出，z_i代表输入样本在θ_t上的logit输出。

代表在模型θ_t-1上训练的输入样本x，在温度T下的Softmax输出在第i类上的概率。

代表在模型θ_t上训练的输入样本x，在温度T下的Softmax输出在第i类上的概率，经验的蒸馏温度T＝2。c_j表示在第j类上的ground truth值，c_j∈{0,1}，正标签取1，负标签取0。α和β都是平衡系数，取值在0-1之间。

L_M计算主分支需要分离当前类和过去类的决策边界,以减缓增量学习中普遍存在的“近期偏好”现象。为了扩大新、旧类的可区分度，添加了一个正则化项Margin Loss,简称为L_M，表达式如下：

L_M＝log(1.6+mean(topK(margin,k))/b),k,b∈N₊ (14)

其中：

margin＝max(clafi_{old_num:new_num}(θ；(x,y∈C_old)))-max(clafi_{old_num}(θ；(x,y∈C_old)))

x为样本，y为类标签，C_old是旧知识类，clafi是分类器。向量clafi_{old_num:new_num}是分类器将样本归类为新知识类别的概率，向量clafi_{old_num}是分类器将样本归类为旧知识类别的概率。因此，标量margin代表将旧类样本混淆地预测为新类样本和正确归类之间的差值。topK取margin值降序排列的前k个，k一般设为batchsize大小的1/5，b是缩放因子。另外，本文预先使用L2范数归一化清洗分类层的输入数据。

增量损失L^Incremental基于以上Margin Loss正则化项L_M和主分支蒸馏损失L_DS，增量损失L^Incremental可计算如下：

L^Incremental＝L_DS+λL_M (15)

其中λ为L_DS、L_M的平衡系数

步骤三、网络的多阶段的增量训练：

网络训练分为单次的“基础训练”过程和接续的多次“增量训练”过程，详见图5。基础训练不涉及对旧知识的保护，因为基础训练过程是首次纳入新知识，然后压缩新知识到局部空间中，为后续的增量训练预留空间。因此，基础训练过程使用上述损失函数给出的公式(11)作为网络的训练函数。增量训练过程是在上一次增量训练过程所预留空间的基础上，进行的增量学习，见式(12-15)。以下是基础训练和增量训练的分别阐述。

1、基础训练：

基础训练过程包括“初始化训练”和“区域分离训练”两个阶段。

初始化训练：在整个空间中，接受样本输入，利用交叉熵损失函数进行训练。

区域分离训练：目的是压缩首批知识存储空间，并为后续的学习预留学习空间。训练时输入样本，以公式(11)作为损失函数，同时对通道权重值施加L1正则化约束，然后以反向传输的方式计算梯度，再用最速下降法进行参数更新。

2、增量训练

增量训练包括“隔离学习训练”、“同步区域分离与集成训练”和“精调训练”。

(1)隔离学习训练：其目的是利用预留空间学习新知识。首先是“登记预留空间”处理，然后是“新知识的学习训练”。“登记预留空间”具体是在第一次执行隔离学习处理时，需要记录区域隔离后的剪枝结果，此记录操作仅需执行一次。通道权重值较小的通道即为新学习的通道，通道权重值较大的即为旧知识的存储通道，见步骤一结尾处关键步骤1所述。记录预留空间的操作如下：以每一个卷积层所后接的BN层的权重因子作为通道权重值，所有卷积层所有通道的通道权重值参与全局rank函数排序，前50％的通道即为要保留的通道，也是旧知识的存储通道。后50％的通道将为新知识的学习训练所用。

“新知识的学习训练”时，由于只学习新知识，使用交叉熵函数和新知识样本的标签计算损失，然后反向传播以计算梯度，最后利用梯度执行参数更新。在计算梯度和参数更新过程之间插入了一个权重冻结处理。权重冻结是以上述“登记预留空间”处理结果为依据，将分配给旧知识通道的乘法权重因子的梯度置零。这意味着梯度置零的通道特征不会参与参数更新，旧知识空间不受影响，也就使得模型避免了丢失执行旧任务的能力。上述计算损失—计算梯度—权重冻结的过程会重复迭代，直到损失不再下降为止。学习完成后，空闲的预留空间最终转化为新知识空间。

(2)同步区域分离与集成训练：同步区域分离与集成目的是将新、旧知识空间融合以统一表达，并为后续学习继续预留空间。同步区域分离与集成训练过程为：输入新、旧知识样本，激活自学习掩码处理和双分支融合处理(具体参见，具体实施方式步骤二中的“1、自学习掩码”和“2、双分支信息门融合实现”)，依据样本标签和公式(15)计算损失。然后，反向传播以计算梯度，接着执行区域分离处理，最后利用梯度执行参数更新。

(3)精调训练：冻结除全连接层(分类头)之外的所有参数并训练，稳固学习效果以提升识别精度。具体为冻结其它部分，只对全连接层进行训练，输入新、旧知识标签，依据样本标签和公式(15)计算损失，用反向传输算法进行参数更新。

Claims

1.一种可持续学习的人工神经网络避免遗忘方法，该方法以神经网络的形式实现，其特征在于：包括三个步骤：

步骤一、网络空间的可持续区域隔离：将整体网络进行等量地区域隔离，然后在隔离出来的一半空间中学习新知识，并随着学习过程进行可持续区域隔离；

步骤二、网络空间的区域集成：包括构建网络结构和设计损失函数，所述网络结构构建中使用“双分支信息门融合”配合着可将神经元与特定的任务绑定的“自学习掩码”；所述设计损失函数时使用Margin Loss作为约束来缓解“近期偏好”，并增添蒸馏损失以记忆并转移旧知识，避免“灾难性遗忘”；

步骤三、网络的多阶段增量训练：包括基础训练和增量训练，所述基础训练包括“初始化训练”和“区域分离训练”两个阶段；所述增量训练包括“隔离学习训练”、“同步区域分离与集成训练”和“精调训练”。

2.根据权利要求1所述的一种可持续学习的人工神经网络避免遗忘方法，其特征在于：所述步骤一中，将整体网络进行等量区域隔离的方式是，通过BN层权重因子诱导的通道稀疏性实施通道剪枝。

3.根据权利要求2所述的一种可持续学习的人工神经网络避免遗忘方法，其特征在于：所述步骤二中，自学习掩码生成方法是：

对原训练样本进行特征提取得到特征图M^In，M^In∈R^N*C*H*W，其中N代表批量大小，C代表特征图通道数，H，W为特征图的高和宽；

M^In经2个串联管道加工后得到掩码M^Mask，首先经注意力网络GC-Net管道加工M^In，得到尺寸不变的处理结果M^CG∈R^N*C*H*W；然后用卷积滤波器F1∈R^O*C*H*W处理M^GC输出M′∈R^N*C*H*W，对M′进一步执行可微分阈值二值化输出掩码M^Mask∈R^N*C*H*W，M^Mask包含着所处理任务感兴趣的局部神经元位置信息，其中O代表特征图经过F1处理后的通道数。

4.根据权利要求3所述的一种可持续学习的人工神经网络避免遗忘方法，其特征在于：所述步骤二中，自学习掩码应用方法是：

自学习掩码生成结束后，将得到的局部神经元位置信息M^Mask与原任务特征M^In点乘，掩码值为“1”是要保留的特征位置，为“0”是要舍弃的非必要的特征位置。

5.根据权利要求1-4任意一个权利要求所述的一种可持续学习的人工神经网络避免遗忘方法，其特征在于：所述步骤三中，设计损失函数时，损失包括“基础训练”损失和“增量训练”损失。

6.根据权利要求5所述的一种可持续学习的人工神经网络避免遗忘方法，其特征在于：所述基础训练损失为

其中c_i表示在第i类上的ground truth值，c_i∈{0,1}，

代表新学习的样本的Softmax输出在第i类上的值，N为新学习任务总类别数。

7.根据权利要求6所述的一种可持续学习的人工神经网络避免遗忘方法，其特征在于：所述增量训练损失L^Incremental由蒸馏损失L_DS和间隔损失L_M组成

其中，蒸馏损失L_DS表述如下：

L_DS＝αL_soft+βL_hard (2)

L_soft是蒸馏损失的正则项，L_hard代表输入样本和标签的交叉熵损失，α和β都是平衡系数，取值在0-1之间；

其中，间隔损失L_M表述如下：

topK取margin值降序排列的前k个，k设为batchsize大小的1/5；

综上，增量训练损失L^Incremental见下式(4)，其中λ为L_DS、L_M的平衡系数，

L^Incremental＝L_DS+λL_M (4)。

8.根据权利要求7所述的一种可持续学习的人工神经网络避免遗忘方法，其特征在于：所述学习过程的操作序列如下：

A.首先进行基础训练，初始化神经网络，利用初始化后的网络学习知识；

B.利用通道剪枝将已学习的知识压缩存储，预留下占网络容量50％的可用于新学习的通道；

C.进入当前增量训练过程，利用预留的通道隔离学习新知识(add New1)；

D.经过一个同步的“网络融合”和“网络稀疏化”训练，再次得到50％的预留空间，此处稀疏化同操作B；

E.再次重复C，D的操作；

以上C、D操作重复执行，在保护旧知识的基础上持续地纳入新知识，即由C、D过程不断迭代来进行持续的类增量学习，因为其中新旧知识不断融合，而非覆盖，所以避免了对旧知识的遗忘。