CN114676839B

CN114676839B - 基于随机敏感度的知识迁移方法

Info

Publication number: CN114676839B
Application number: CN202210202516.9A
Authority: CN
Inventors: 吴永贤; 莫振尧; 张建军
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2024-05-10
Anticipated expiration: 2042-03-02
Also published as: CN114676839A

Abstract

本发明公开了一种基于随机敏感度的知识迁移方法，包括：1)获取数据集和预处理；2)划分数据集得到Z份子数据集；3)用Z份子数据集逐份对选定的神经网络进行训练；利用神经网络和损失函数构建学习模型，在训练过程中加入随机敏感度损失提升学习模型的稳定性和性能，并进行知识迁移，即在训练第l个子数据集时利用知识蒸馏和训练第l‑1个子数据集得到的神经网络的权重对当前神经网络进行知识迁移，使其更好的保留前l‑1个子数据集的知识；当Z个子数据集训练完成后，神经网络学习不仅到了第Z个子数据集的知识，同时也通过知识迁移保留了前Z‑1个子数据集的知识。本发明可以解决在终生学习中大规模新数据持续性被送入神经网络，而旧数据无法保留导致的知识遗忘问题。

Description

基于随机敏感度的知识迁移方法

技术领域

本发明涉及增量学习的技术领域，尤其是指一种基于随机敏感度的知识迁移方法。

背景技术

增量学习通常也被称为连续学习或终身学习，旨在开发人工智能系统，该系统可以不断学习从新数据中处理新任务，同时保存从先前学习的任务中学到的知识。在大多数增量学习场景中，任务是以一系列确定的顺序向学习者呈现的，在此期间，只有来自单个任务的数据可用于学习。在每次训练后，学习者应该能够在看不见的数据上执行所有以前看到的任务。这种学习模式的生物学灵感是明确的，因为它反映了人类是如何获得和整合新知识的。

在主流的监督学习范式中，所有任务的标记数据都是在深度网络的单一训练中共同获得的。而增量学习者只能一次访问单个任务的数据，同时对迄今为止所有学习的任务进行评估。增量学习的主要挑战是从当前任务的数据中进行学习同时防止忘记以前学习过的任务。广泛用于领域迁移问题的简单方法微调(finetuning)，由于缺乏以前的任务数据，分类器无法对所有数据进行准确分类。这种在先前学习的任务上的表现急剧下降的现象被称为灾难性遗忘。增量学习的目的是防止灾难性的遗忘，同时避免阻碍模型适应新的任务的问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于随机敏感度的知识迁移方法，通过将随机敏感度加入学习模型中，提高模型的稳定性与泛化能力，同时利用随机敏感度改善知识蒸馏损失，进一步缓解增量学习中的灾难性遗忘问题。

为实现上述目的，本发明所提供的技术方案为：基于随机敏感度的知识迁移方法，包括以下步骤：

1)获取具有大量数据的数据集，每个数据由特征和类别组成，对数据集进行预处理，包括数据清洗和数据增强，还有对数据进行归一化；

2)将预处理后的数据集根据类别进行划分，得到Z份子数据集；

3)利用Z份子数据集逐份对选定的神经网络进行训练，并利用神经网络和损失函数构建学习模型，在训练过程中加入随机敏感度损失提升学习模型的稳定性和性能，并进行知识迁移，即在训练第l个子数据集时利用知识蒸馏损失和训练第l-1个子数据集得到的神经网络的权重对当前神经网络进行知识迁移，使其更好地保留前l-1个子数据集的知识；当Z个子数据集训练完成后，神经网络不仅学习到了第Z个子数据集的知识，同时也通过知识迁移保留了前Z-1个子数据集的知识。

进一步，在步骤1)中，数据集的每个数据表示为：

X_i＝(x_i,y_i),i＝1,2,...,N

式中，N是数据集中数据的数量，X_i是指第i个数据，x_i和y_i分别是第i个数据的特征和类别；

经过数据清洗和数据增强后，对数据进行归一化操作，具体是对数据的特征x_i进行归一化，表示为：

式中，为归一化后的第i个数据的特征，μ和σ分别为所有数据的均值和标准差。

进一步，在步骤2)中，将数据集划分为Z份，令M_l表示第l个子数据集的数据数量，则：

式中，N为数据集中数据的数量；

令C_l表示第l个子数据集中的最大类别，A_l表示第l个子数据集中的类别数，则：

A_l＝C_l-C_l-1,l＝1,2,...,Z。

进一步，所述步骤3)包括以下步骤：

3.1)假定当前训练第l个子数据集，G(·)是当前的神经网络，G′(·)是训练第l-1个子数据集得到并固定权重的神经网络，在此用旧神经网络代指G′(·)；

3.2)构建学习模型，学习模型由神经网络和损失函数组成，神经网络已经选定，这里构建损失函数；首先构建交叉熵损失L_c，该损失是分类损失，主要帮助神经网络对数据进行分类，表示为：

式中，M_l为第l个数据集的数据数量，C_l和C_l-1分别是第l和第l-1个子数据集的最大类别，是归一化后的第i个数据的特征，y_ij是第i个数据的真实类别向量，若第i个数据属于第j个类别，则y_ij为1否则为0，/>指/>经当前神经网络计算后得到的在第j个类别上的输出，/>指/>经当前神经网络计算后得到的在第k个类别上的输出，q_ij为神经网络对第i个数据在第j个类别上的预测结果；

然后构建知识蒸馏损失L_d，该损失由交叉熵损失变种得到，能够帮助神经网络进行新旧权重的知识迁移，表示为：

式中，指/>经旧神经网络计算后得到的在第j个类别上的输出，/>指/>经旧神经网络计算后得到的在第k个类别上的输出，ρ_ij和θ_ij分别是旧神经网络对/>在第j个类别上的预测结果和当前的神经网络对/>在第j个类别上的预测结果；T是蒸馏系数用于控制神经网络输出的分布情况，当T>1时，输出小的类的重要性得到提高，神经网络能够通过该损失更好地学习到类之间的相似性；

接着构建随机敏感度损失L_s，该损失通过减少真实数据和隐藏数据在神经网络输出的差异达到提升神经网络稳定性和泛化能力的效果，表示为：

式中，x_i′代表附近的隐藏数据特征，表示为/>其中Δx是x_i′与/>之间的差值向量，s_d代表Δx中第d维度的标量，D和Q分别为数据的维度和自定义的隐藏距离，E代表数学期望；

接着利用隐藏数据特征x_i′构建知识蒸馏损失L_sd，进一步提高模型的知识迁移能力，表示为：

式中，和δ_ij分别是旧神经网络对x_i′在第j个类别上的预测结果和当前的神经网络对x_i′在第j个类别上的预测结果；

最后构建整体损失L：

L＝(1-λ)L_c+λ(L_d+L_sd)+αL_s+R

式中，标量λ用于平衡交叉熵损失和知识蒸馏损失；λ被设置为C_l-1/C_l；在第一批数据中，λ＝0，因为所有类别都是新的；随着新类别一批又一批地出现，λ变得越来越大，模型更加关注旧类别；α是控制随机敏感度损失的尺度因子；R表示L2正则化项，用于控制模型的复杂性；至此整个学习模型构建完毕；

3.3)利用第l个子数据集以及学习模型训练G(·)，更新其权重同时进行知识迁移；

3.4)判断l是否等于Z，是则训练结束，否则令l＝l+1并重复步骤3.1)；训练结束时，G(·)不仅学习了第Z个子数据集的知识，而且通过知识迁移保留了前Z-1个子数据集的知识。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明方法通过将随机敏感度加入学习模型，增加学习模型的稳定性和泛化能力，提高了学习模型的性能。

2、本发明方法在随机敏感度的基础上改善了知识蒸馏损失，进一步增强了学习模型解决增量学习中灾难性遗忘问题的能力。

3、本发明方法在人工智能领域中具有广泛的使用空间，适应性强，具有广阔的应用前景。

附图说明

图1为本发明方法的逻辑流程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的基于随机敏感度的知识迁移方法，其包括以下步骤：

1)获取具有大量数据的数据集，每个数据由特征和类别组成，对数据集进行预处理，包括数据清洗和数据增强，还有对数据进行归一化。数据集的每个数据表示为：

X_i＝(x_i,y_i),i＝1,2,...,N

式中，N是数据集中数据的数量，X_i是指第i个数据，x_i和y_i分别是第i个数据的特征和类别。

2)将预处理后的数据集根据类别进行划分，得到Z份子数据集，令M_l表示第l个子数据集的数据数量，则：

A_l＝C_l-C_l-1,l＝1,2,...,Z

3)利用Z份子数据集逐份对选定的神经网络进行训练，并利用神经网络和损失函数构建学习模型，在训练过程中加入随机敏感度损失提升学习模型的稳定性和性能，并进行知识迁移，即在训练第l个子数据集时利用知识蒸馏损失和训练第l-1个子数据集得到的神经网络的权重对当前神经网络进行知识迁移，使其更好地保留前l-1个子数据集的知识；当Z个子数据集训练完成后，神经网络不仅学习到了第Z个子数据集的知识，同时也通过知识迁移保留了前Z-1个子数据集的知识；其包括以下步骤：

3.1)假定当前训练第l个子数据集，G(·)是当前的神经网络，G′(·)是训练第l-1个子数据集得到并固定权重的神经网络，为方便称呼用旧神经网络代指G′(·)。

3.2)构建学习模型，学习模型由神经网络和损失函数组成，神经网络已经选定，这里构建损失函数。首先构建交叉熵损失，该损失是分类损失，主要帮助神经网络对数据进行分类，表示为：

式中，M_l为第l个数据集的数据数量，C_l和C_l-1分别是是第l和第l-1个子数据集的最大类别。y_ij是第i个数据的真实类别向量，若第i个数据属于第j个类别，则y_ij为1否则为0。指/>经当前神经网络计算后得到的在第j个类别上的输出，同理/>指/>经当前神经网络计算后得到的在第k个类别上的输出。q_ij为神经网络对第i个数据在第j个类别上的预测结果。

然后构建知识蒸馏损失L_d，该损失由交叉熵损失变种得到，可帮助神经网络进行新旧权重的知识迁移，可表示为：

式中，指/>经旧神经网络计算后得到的在第j个类别上的输出，同理/>指/>经旧神经网络计算后得到的在第k个类别上的输出。ρ_ij和θ_ij分别是旧神经网络对/>在第j个类别上的预测结果和当前的神经网络对/>在第j个类别上的预测结果。T是蒸馏系数用于控制神经网络输出的分布情况，当T>1时，输出较小的类的重要性得到提高，神经网络可以通过该损失更好地学习到类之间的相似性。

接着构建随机敏感度损失L_s，该损失通过减少真实数据和隐藏数据在神经网络输出的差异达到提升神经网络稳定性和泛化能力的效果，可表示为：

式中，x_i′代表附近的隐藏数据特征，可表示为/>其中Δx是x_i′与/>之间的差值向量，s_d代表Δx中第d维度的标量，D和Q分别为数据的维度和自定义的隐藏距离，E代表数学期望。

接着利用隐藏数据特征x_i′构建知识蒸馏损失L_sd，进一步提高模型的知识迁移能力，可表示为：

式中，和δ_ij分别是旧神经网络对x_i′在第j个类别上的预测结果和当前的神经网络对x_i′在第j个类别上的预测结果。

最后构建整体损失L：

L＝(1-λ)L_c+λ(L_d+L_sd)+αL_s+R

式中，标量λ用于平衡交叉熵损失和知识蒸馏损失。λ被设置为C_l-1/C_l。在第一批数据中，λ＝0，因为所有类别都是新的。随着新类别一批又一批地出现，λ变得越来越大，模型更加关注旧类别。α是控制随机敏感度损失的尺度因子。R表示L2正则化项，用于控制模型的复杂性。

3.3)利用第l个子数据集以及学习模型训练G(•)，更新其权重同时进行知识迁移。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于随机敏感度的知识迁移方法，其特征在于，包括以下步骤：

3)利用Z份子数据集逐份对选定的神经网络进行训练，并利用神经网络和损失函数构建学习模型，在训练过程中加入随机敏感度损失提升学习模型的稳定性和性能，并进行知识迁移，即在训练第l个子数据集时利用知识蒸馏损失和训练第l-1个子数据集得到的神经网络的权重对当前神经网络进行知识迁移，使其更好地保留前l-1个子数据集的知识；当Z个子数据集训练完成后，神经网络不仅学习到了第Z个子数据集的知识，同时也通过知识迁移保留了前Z-1个子数据集的知识；包括以下步骤：

3.1)假定当前训练第l个子数据集，G(·)是当前的神经网络，G'(·)是训练第l-1个子数据集得到并固定权重的神经网络，在此用旧神经网络代指G'(·)；

式中，x′_i代表附近的隐藏数据特征，表示为/>其中Δx是x′_i与/>之间的差值向量，s_d代表Δx中第d维度的标量，D和Q分别为数据的维度和自定义的隐藏距离，E代表数学期望；

接着利用隐藏数据特征x′_i构建知识蒸馏损失L_sd，进一步提高模型的知识迁移能力，表示为：

式中，和δ_ij分别是旧神经网络对x′_i在第j个类别上的预测结果和当前的神经网络对x′_i在第j个类别上的预测结果；

最后构建整体损失L：

L＝(1-λ)L_c+λ(L_d+L_sd)+αL_s+R

2.根据权利要求1所述的基于随机敏感度的知识迁移方法，其特征在于，在步骤1)中，数据集的每个数据表示为：

X_i＝(x_i,y_i),i＝1,2,...,N

3.根据权利要求1所述的基于随机敏感度的知识迁移方法，其特征在于，在步骤2)中，将数据集划分为Z份，令M_l表示第l个子数据集的数据数量，则：

式中，N为数据集中数据的数量；

A_l＝C_l-C_l-1,l＝1,2,...,Z。