CN116089883A

CN116089883A - 用于提高已有类别增量学习新旧类别区分度的训练方法

Info

Publication number: CN116089883A
Application number: CN202310044665.1A
Authority: CN
Inventors: 孙卓; 涂婷; 方棉佳; 王晓波
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-05-09
Anticipated expiration: 2043-01-30
Also published as: CN116089883B

Abstract

本发明提出一种用于提高已有类别增量学习新旧类别区分度的训练方法，包括：获取数据集并对数据集进行预处理，构成任务序列；构建和优化双分支网络，基于初始数据集构建回放数据集以实现增量阶段的旧知识保留；复制并扩展双分支网络，在双分支中基于表征相似性进行双边采样，通过提升易混淆的旧类别的采样概率实现区分度提升，采取混合损失函数和累积学习策略优化双分支网络，并扩展回放数据集以实现下一增量阶段的旧知识保留；所述训练方法在增量学习的过程中直接保存旧样本，采取目标蒸馏方法，以简单有效的手段保存旧知识；基于双分支结构进行双边采样和累积学习，能够有效解决混淆问题，实现类别增量学习分类性能提升。

Description

用于提高已有类别增量学习新旧类别区分度的训练方法

技术领域

本发明属于人工智能应用技术领域，具体涉及一种用于提高已有类别增量学习新旧类别区分度的训练方法。

背景技术

现实中的数据常以流的形式不断更新，系统面临识别类型扩展的需求，解决此问题的方法包含重训练和增量学习两种，与重训练相比，增量学习不需要全部旧数据的可用性，允许模型基于新数据持续更新，适用于存储和计算资源受限的应用。

通常情况下，增量学习可分为任务增量学习、类别增量学习两种设置，后者在训练和测试阶段都不能利用任务标识，更加贴合实际应用场景，现存的增量学习方法主要分为三大类，基于正则化的方法减小重要参数的变化以保存旧知识，由于难以在一系列任务中准确评估参数的重要性，此类方法不能有效解决类别增量学习问题；基于蒸馏的方法直接保存旧样本，或者使用生成模型生成旧任务的伪样本，以构造回放数据集，并结合回放数据集和知识蒸馏保存旧知识，在类别增量学习问题上取得了较好的效果；基于结构的方法固定模型中与旧类别相关的参数，并以多种方式为新类别分配新的参数或子网络，但大部分基于结构的方法是针对任务增量学习设计的，不适用于类别增量学习问题。上述方法主要解决遗忘旧知识造成的性能下降问题，即灾难性遗忘，然而新类别与相似旧类别的混淆同样会导致性能下降。

现有的增量学习方法中：

文献“Liu Y,Schiele B,Sun Q.Adaptive aggregation networks for class-incremental learning[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2021:2544-2553.”和文献“何丽,韩克平,朱泓西,等.双分支迭代的深度增量图像分类方法[J].模式识别与人工智能,2020,33(2):150-159.”也提出了双分支结构，但仅用于解决旧知识的灾难性遗忘，而无法处理新旧类别的混淆问题；

文献“Pham Q,Liu C,Hoi S.DualNet:Continual learning,fast and slow[J].Advances in Neural Information Processing Systems,2021,34:16131-16144.”使用双分支结构和自监督技术提升模型的鲁棒性，只聚焦于学习通用的特征，无法解决新旧类别区分度提升问题；

文献“Guo L,Xie G,Qu Y,et al.Learning a dual-branch classifier forclass incremental learning[J].Applied Intelligence,2022:1-11.”同样在双分支结构中采取知识蒸馏和双边采样方法，但其采取特征蒸馏方法，并在重平衡分支中进行类别均衡采样以解决类不平衡问题。

基于现有技术存在的上述技术问题，本发明提出一种用于提高已有类别增量学习新旧类别区分度的训练方法。

发明内容

本发明的目的是针对现有技术的不足，提供一种用于提高已有类别增量学习新旧类别区分度的训练方法，包括：

步骤1，获取数据集并对数据集进行预处理，构成任务序列；

步骤2，构建和优化双分支网络，基于初始数据集构建回放数据集以实现增量阶段的旧知识保留；

步骤3，数据类型扩展时，结合回放数据集计算当前增量阶段新旧类别的表征相似性，复制并扩展双分支网络，在双分支中基于表征相似性进行双边采样，通过提升易混淆的旧类别的采样概率实现区分度提升，采取混合损失函数和累积学习策略优化双分支网络，并扩展回放数据集以实现下一增量阶段的旧知识保留。

进一步地，步骤1包括：

将数据集划分为B个任务，任务间的标签空间互不相交，采取iCaRL方法，数据集D＝{D¹，...，D^B}，其中，

表示第t阶段的扩展类别数据，

和

代表输入数据和标签对，n_t表示D^t中的样本数；

Y^t为任务t的标签空间，对于任意i≠j，

即各个任务间的类别互不相交；

在第t阶段的测试过程中，模型将在所有已学习类别

上进行评估。

进一步地，步骤2包括：

步骤2a，双分支网络构建，将网络F₁解耦为特征提取器

和分类器W，

包含通用的底层特征提取器

在

上并联2个独立的传统学习分支

重平衡分支

步骤2b，双分支网络优化，基于初始数据集D¹，采取交叉熵损失L_CE和梯度下降算法对F₁进行优化：

其中，C¹＝|Y¹|，代表初始数据集D¹中包含的类别数，δ为指示函数；

步骤2c，回放数据集构建，基于双分支网络的特征提取器

分别计算数据集D¹中C¹类样本的特征向量，基于特征向量均值提取原型向量

应用到回放数据集构建：

其中，P_i ¹代表第1阶段中第i类样本的原型向量，

代表第i类样本集

中包含的样本数(i∈1，2，...，C¹)，

代表其中第j条样本；

采取iCaRL方法，根据样本与对应原型向量的欧几里得距离，为每个新类别选择距离最近的前k条样本p₁，p₂，...，p_k，构成第一阶段的回放数据集

其中，P_i ¹代表第1阶段中第i类样本的原型向量，

代表第i类样本集(i∈{1，2，...，C¹})，

代表其中第k条样本。

进一步地，步骤3中，计算新旧类别的表征相似性包括：

基于第t-1阶段的双分支网络特征提取器

分别计算数据集D^t中C^t类样本的特征向量，基于特征向量均值提取原型向量

计算第t-1阶段的原型向量

与第t阶段的原型向量

之间的相似性，获得新旧类别的表征相似性矩阵

下式(5)中s_i，j表示第t阶段中，第i个新类别与第j个旧类别的表征相似性：

在第t阶段中，数据集

包含

个旧类别、C^t个新类别，其中

基于类别相似性矩阵S，计算第i个旧类别与新类别的相似性w_i：

进一步地，步骤3中，扩展双分支网络包括：

复制第t-1阶段的双分支模型F_t-1，在分类器W中添加C^t个输出节点，组成第t阶段增量扩展的双分支网络F_t。

进一步地，步骤3中，优化双分支网络包括：在第t阶段，分别对数据集

进行均匀采样和类别相似性加权采样，获得样本(x_c，y_c)、(x_r，y_r)，其中，重平衡分支的类别相似性加权采样包括：根据表征相似性计算每个类别的采样概率P_i，根据采样概率P_i随机选择类别i，在类别i样本中进行不放回的均匀采样；将样本分别传入传统学习分支

和重平衡分支

中，得到特征向量f_c和f_r，其中：

基于累积学习策略，使用自适应均衡参数α控制两个分支的输出，采取交叉熵损失L_CE、蒸馏损失L_KD，以及梯度下降算法对双分支网络F_t进行优化。

进一步地，步骤3中，扩展回放数据集包括：

基于双分支网络的特征提取器

分别计算数据集D^t中C^t类样本的特征向量，求出每一类别数据

的特征向量均值，提取原型向量

采取iCaRL方法，根据样本与对应原型向量的欧几里得距离，为每个新类别选择距离最近的前k条样本p₁，p₂，...，p_k，加入上一阶段的回放数据集

中，构成

实现当前阶段回放数据集扩展：

本发明的优越技术效果在于：

本发明所述用于提高已有类别增量学习新旧类别区分度的训练方法，在增量学习的过程中直接保存旧样本，采取目标蒸馏方法，以简单有效的手段保存旧知识；基于双分支结构进行双边采样和累积学习，能够有效解决混淆问题，实现类别增量学习分类性能提升；本发明所述方法具备通用性，可与现有方法结合，通过增强新旧类别区分度提升分类性能。

附图说明

图1为本发明实施例中用于提高已有类别增量学习新旧类别区分度的训练方法的流程示意图；

图2为本发明实施例中基于卷积神经网络的架构示意图；

图3为本发明实施例中所述方法与LwF算法结合的CIFAR10分类示意图；

图4为本发明实施例中所述方法与WA算法结合的CIFAR10分类示意图；

图5为本发明实施例中所述方法与iCaRL算法结合的CIFAR10分类示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

实施例

本实施例旨在提供一种简单有效的方法处理混淆问题，具体而言，本实施例用于提高已有类别增量学习新旧类别区分度的训练方法，采取旧样本保存策略构建回放数据集，在使用目标蒸馏保存旧知识的基础上，进一步采取双分支结构，在传统分支进行均匀采样，在重平衡分支进行类别相似性加权采样，提升与新类别高度相似的旧类别采样概率，通过双边累积学习和混合损失函数学习判别性特征，降低新类别与相似旧类别的混淆，进而提升类别增量学习分类性能，在存储空间受限时，本实施例所述方法通过提高新旧类别区分度，有效提升已有类别增量学习方法的分类性能，对原有和扩展的类别均有良好的分类性能。

如图1所示，在整个流程中，首先获取数据并进行预处理，即执行步骤101；接着判断是否为第一次进行训练，如果是第一次进行训练，则执行步骤102，否则进行增量更新操作，即执行步骤103；

具体的所述方法包括：

101，数据集获取和预处理；

以CIFAR10图像数据集为例，共包含10类图片，每个类别有6000张图片，共含有50000张训练图像和10000张测试图像，将上述数据集划分为5个任务，每个任务包含2类，各个任务之间的类互不相交，在测试时不能访问任务标识符，此外，对数据集进行预处理，先对图像数据进行随机的水平翻转，随后转化成张量，并进行标准化，标准化计算过程为先计算本次训练图像数据的均值和方差，将每一张图片减去均值后再除以方差；

102，构建和优化双分支网络，构造回放数据集，包括：

步骤102a，双分支网络构建，以ResNet20为例，所述ResNet20网络包含4个阶段，第1个阶段包含卷积核为n₁×n₁的卷积层、批量归一化层、ReLU激活函数层，第2至3个阶段均由1个残差块组成，每个残差块包含2个Basicblock模块，每个模块由卷积核为n₂×n₂的卷积层、ReLU激活函数层、卷积核为n₂×n₂的卷积层组成，第4个阶段包含2个并联的残差块，每个残差块由2个Basicblock模块组成，将所述的ResNet20网络作为双分支网络F₁的特征提取器

使用全连接层作为分类器W，ResNet20的前3个阶段作为通用的底层特征提取器

第4个阶段的2个并联的分支记为

步骤102b，双分支网络优化，对于第一个任务D¹，采取常见的图像分类模型训练方法，选用SGD优化器，计算交叉熵损失L_CE对F₁进行优化：

步骤102c，回放数据集构建，基于双分支网络的特征提取器

分别计算数据集D¹中2类样本的特征向量，求出每一类别的特征向量均值，提取原型向量

应用到回放数据集构建中：

其中，

代表第1阶段中第i类样本的原型向量，

代表第i类样本集

中包含的样本数(i∈1，2，...，C¹)，

代表其中第j条样本；

采取iCaRL方法构建回放数据集，根据样本与对应原型向量的欧几里得距离，选择距离最近的前20条样本p₁，p₂，...，p₂₀，作为每个类别的代表性样本共同构成回放数据集

其中，

代表第1阶段中第i类样本的原型向量，

代表第i类样本集(i∈{1，2，...，C¹})，

代表其中第j条样本；

103，计算新旧类别的表征相似性，复制并扩展上一阶段双分支网络，基于表征相似性进行双边采样，采取混合损失函数和累积学习策略优化双分支网络，并扩展回放数据集，包括：

步骤103a，新旧类别表征相似性计算，基于第t-1阶段的双分支网络特征提取器

分别计算图像集D^t中C^t类图像样本的特征向量，求出每一类别的特征向量均值，提取原型向量

计算第t-1阶段的原型向量

与第t阶段的原型向量

之间的相似性，获得新旧类别的表征相似性矩阵

下式中s_i，j表示第t阶段中，第i个新类别与第j个旧类别的表征相似性：

在第t阶段中，图像集

包含

个旧类别、C^t个新类别，其中，

步骤103b，双分支网络扩展，复制第t-1阶段的双分支模型F_t-1，在分类器W中添加C^t个输出节点，组成第t阶段增量扩展的双分支网络F_t；

步骤103c，基于双边采样、混合损失函数和累积学习策略的双分支网络优化；

在第t阶段，如图2所示，分别对数据集

进行均匀采样和类别相似性加权采样，获得样本(x_c，y_c)、(x_r，y_r)，其中，重平衡分支的类别相似性加权采样包含三个步骤，根据表征相似性计算每个类别的采样概率P_i：

根据采样概率P_i随机选择类别i；在类别i样本中进行不放回的均匀采样；重复重平衡分支的类别相似性加权采样的步骤，即可获得重采样的小批量训练数据；

在共享底层特征取器

的基础上，将样本分别传入传统学习分支

和重平衡分支

中，得到特征向量f_c和f_r，其中：

基于累积学习策略，采取自适应均衡参数α控制两个分支的输出，其中，T表示模型当前迭轮次，T_max代表总训练轮次，并将加权输出分别传入分类器W_c和W_r中，分类器最终预测输出记为o：

采取交叉熵损失L_CE、蒸馏损失L_KD，以及梯度下降算法对双分支网络F_t进行优化，知识蒸馏用于将上一阶段旧模型包含的旧知识迁移到当前模型中，蒸馏损失和模型的加权损失如下式，其中：

L(x，y)＝L_KD(x)+L_CE(x，y)，

L_total＝αL(x_c，y_c)+(1-α)L(x_r，y_r)，

q(x)分别为

o(x)经过softmax函数后的预测概率，其中：

代表上一阶段获得的旧模型输出的逻辑值向量，

代表新模型输出的逻辑值向量；

步骤103d：回放数据集扩展，基于双分支网络的特征提取器

分别计算数据集D^t中C^t类样本的特征向量，求出每一类别的特征向量均值，提取原型向量

采取iCaRL方法，根据样本与对应原型向量的欧几里得距离，选择距离最近的前k条样本p₁，p₂，...，p_k，加入上一阶段的回放数据集

中，构成

实现当前阶段回放数据集扩展：

在本实施例中，选取3种代表性的基于知识蒸馏的类别增量学习方法，分别为WA、LwF、iCaRL算法，并将本实施例所述方法与这3种算法进行结合，在实验过程中，设置初始学习率为0.1，每个任务的总迭代轮次T_max＝70，权重衰减系数为0.0002，采取平均增量准确率和单个增量阶段的分类准确率作为评价指标，设置三个随机种子获取不同任务划分的实验结果，本实施例所述方法与WA、LwF、iCaRL算法结合后在CIFAR10数据集上的实验结果如图3、4、5所示，在与原有增量学习方法结合后，通过提升新旧类别区分度，本实施例所述方法提升了原有方法的分类准确率和平均增量准确率，证明其有效性。

其中：

所述LwF方法具体如文献“Li Z,Hoiem D.Learning without forgetting[J].IEEE transactions on pattern analysis and machine intelligence,2017,40(12):2935-2947.”中所述。

所述WA方法具体如文献“Zhao B,Xiao X,Gan G,et al.Maintainingdiscrimination and fairness in class incremental learning[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:13208-13217.”中所述。

所述iCaRL方法具体如文献“Rebuffi S A,KolesnikovA,Sperl G,et al.icarl:Incremental classifier and representation learning[C]//Proceedings of theIEEE conference on Computer Vision and Pattern Recognition.2017:2001-2010.”中所述。

本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。