CN114677547A

CN114677547A - 一种基于自保持表征扩展的类增量学习的图像分类方法

Info

Publication number: CN114677547A
Application number: CN202210363652.6A
Authority: CN
Inventors: 查正军; 曹洋; 翟伟; 朱凯
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-06-28
Anticipated expiration: 2042-04-07
Also published as: CN114677547B

Abstract

本发明公开了一种基于自保持表征扩展的类增量学习的图像分类方法，包括：1、利用初始图片集优化得到基本的图像分类网络；2、基于残差适应器，对初始特征提取部分进行结构扩展；3、输入重采样的初始类原型和增量类样本，计算扩展后网络的分类损失函数；4、将增量类样本输入扩展前的特征提取部分，利用欧式距离计算蒸馏损失函数。5、根据损失函数更新网络，并引入结构重参数化技术恢复网络结构，获得增量后的分类网络。本发明能解决图像分类网络基于用户数据进行结构扩增过程中参数量增长过快，以及依赖额外记忆内存的问题，从而在提升图像增量分类能力的同时，降低了对网络存储的需求，避免了训练图像增量分类网络时泄露用户隐私的可能。

Description

一种基于自保持表征扩展的类增量学习的图像分类方法

技术领域

本发明属于类增量学习领域，具体来说是一种基于自保持表征扩展的类增量学习的图像分类方法。

背景技术

近年来，由于深度神经网络在完全监督的条件下取得了巨大的进步，研究的注意力越来越多地转向学习的其他方面。一个重要的研究方面是随着输入流的更新而不断学习新任务的能力，其在实际应用中经常发生。类增量学习是持续学习中十分具有挑战性的任务，已吸引了诸多学者的关注。该任务旨在不遗忘已学习过的旧类知识条件下，准确识别新的类别。

针对该场景，在每个阶段重新联合训练新、旧两类样本特别费时、费力。此外，旧类样本存在不可完全获取的状况，进一步阻碍了该方法的使用。一个简单的替代方法是使用新类对网络进行微调，然而，这将导致灾难性的遗忘问题。即在优化过程中，整个表征和分类器会偏向于新的类别，导致旧有类别性能的急剧下降。为了处理上述问题，一些工作开始尝试通过保留一些有代表性的样本和引入各种蒸馏损失以维持过去的知识，并通过校准分类器纠正由数量不平衡引起的偏差问题。

最近的类增量方法大致可以划分为两类：基于记忆保存和结构动态扩增的方法。前者假定内存中能够存储一定数量(比如2,000个)的旧类样本，通过对齐所有样本在新旧网络中的特征或输出分布，以及修正新旧类数据的数目的不平衡来共同维持旧类的分类性能。然而在图像分类网络的实际场景中，由于用户隐私或设备限制，通常很难存在保存旧类图片样本的机会。该事实给基于记忆保存的方法带来了巨大的挑战，新类别图像样本是可以参与特征对齐和新旧类不平衡修正过程的唯一数据源。因此，如果在无记忆存储环境下合理的保证增量图像分类性能是类增量方法泛化到实际场景的一个核心问题。

后者基于动态结构扩增的方法旨在保留旧的图像分类模型用于推理，而在每个增量阶段根据扩增类别的需求，扩展一个新的特征提取部分训练。虽然该策略能完全保持旧类的性能，表现出不错的性能，但在训练过程中，网络整体参数随阶段性训练而急剧线性增加。而在图像分类网络的实际应用场景中，用户的新增图片数据随时间爆发式增长，这将导致现有基于动态结构扩增的模型容量完全崩溃。因此，如何保证增量模型的参数扩增满足日益增长的用户需求是类增量方法泛化到实际场景的另一个核心问题。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于自保持表征扩展的类增量学习的图像分类方法，以期能将图像分类网络的结构扩增建模为无记忆存储过程，保持网络参数不扩增，从而能在提升增量模型在无记忆存储情况下的图像分类性能的同时，降低对网络存储的需求，避免训练图像增量分类网络时泄露用户隐私的可能。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于自保持表征扩展的类增量学习的图像分类方法的特点在于，包括如下步骤：

步骤一、初始分类网络的构建和优化：

步骤1.1、获取初始阶段已知类别的图像样本并进行归一化处理，获得第一阶段的图像集

其中，

表示初始阶段第k个类别中的第i个图像样本，

表示初始阶段第k个类别中的第i个图像样本

的类别标签，K代表图像集包含的类别数目，N_k代表第k个类别的样本数目；

步骤1.2、构建以ResNet-18深度学习网络为基础的初始分类网络F：

所述ResNet-18深度学习网络包括5个阶段，其中，第1个阶段Stage 0由一个卷积核为n1×n1的卷积层，一个批量归一化处理层，一个ReLU激活函数层组成，其余4个阶段均由2个Basicblock模块组成，每个Basicblock模块依次由一个卷积核为n2×n2的卷积层，一个ReLU激活函数层，一个卷积核为n2×n2的卷积层组成；

将所述ResNet-18深度学习网络直接作为初始分类网络F的特征提取部分f；并用一个全连接层作为初始分类网络F的分类器部分g；

步骤1.3、训练优化所述初始分类网络F：

将第一阶段的图像集D₁按批次送入初始分类网络F，并依次经过特征提取部分f和分类器部分g的处理后，输出预测类别标签，从而按照式(1)计算交叉熵损失L_cross，并使用梯度下降算法优化所述初始分类网络F中所有的参数，从而得到训练好的初始分类网络F′：

式(1)中，x_j表示第一阶段的图像集D₁中的第j个图像样本，

表示第j个图像样本x_j的指示函数，若x_j的类别标签y_j与k相等，则令

否则，令

N代表K个类别所有样本的数目；

步骤1.4、原型保存：

对于训练好的初始分类网络F′，将第一阶段的图像集D¹逐类别送入训练后的特征提取部分f′，并对各个类别的输出取平均后，将平均结果作为各类原型{p₁，…，p_k，…，p_K}保存到增量阶段；p_k表示第k类原型；

步骤二、增量阶段的特征提取器结构扩展：

步骤2.1、获取增量阶段中第h阶段的图像样本并进行归一化处理，得到第h阶段的图像集

其中，

表示第h阶段第k个类别中的第i个图像样本，

表示第h阶段第k个类别中的第i个图像样本

的类别标签，K^h为第h阶段新增的图像类别数目，且D^h和其余h-1阶段的图像集中所有类别均不相同；

步骤2.2、网络的增量结构扩展：

在所述训练后的特征提取部分f′中的每个卷积层上均并联一个残差适应器，所述残差适应器包括一个n3×n3卷积层，构成第h阶段的增量扩增的特征提取部分f^h；

在训练后的分类器部分g′的全连接层中添加K^h个输出结点，构成第h阶段的增量扩增的分类器部分g^h，从而与f^h一起构成第h阶段的增量扩增网络F^h；

步骤三、基于原型选择策略的表征优化：

步骤3.1、原型度量：

将第h阶段的图像集D^h中的图像依次送入到第h阶段的增量扩增的特征提取部分f^h中，并利用式(2)得到每个图像样本的特征表达；再利用式(3)计算每个图像样本的特征表达分别与保存的各个原型之间的相似性得分，并取一个图像样本中所有相似性得分的最大值作为相应图像样本的相似性度量：

式(2)和式(3)中，

代表第h阶段图像集D^h中的第j个图像样本在增量扩增的特征提取部分f^h中的特征表示，p_k代表保存的第k个类别的原型，S_j，k，h代表第h阶段图像集D^h中的第j个图像样本与第k个类别的原型p_k之间相似性得分，Cosine代表夹角余弦操作子，Nor代表归一化操作子；

步骤3.2、选择性分类优化；

设定阈值δ，并将各个图像样本的相似性度量与阈值δ比较，若低于阈值δ，则将相应图像样本的分类权值参数置为1，反之，则置为0；

利用式(4)计算第h阶段的图像类别的分类损失

式(4)中，

代表第h阶段图像集D^h中的第j个图像样本的分类权值参数；

步骤3.3、选择性蒸馏优化；

将各个图像样本的相似性度量与所述阈值δ比较，若高于阈值δ，则将相应图像样本的蒸馏权值参数置为1，反之，则置为0；

利用式(5)计算第h阶段的蒸馏损失

式(5)中，

代表第h阶段中第j个图像样本的蒸馏权值参数，E代表欧式距离操作算子，f′^h-1代表第h-1阶段的训练后的特征提取网络；

步骤四、基于原型重采样的分类器平衡：

步骤4.1、原型上采样：

在第h阶段的每个训练批次中将原型复制

次后，得到上采样后的原型，其中，B代表每个批次的样本数目；

步骤4.2、分类器损失增强：

将上采样后的原型送入第h阶段的增量扩增的分类器部分g^h，并利用式(6)计算增强损失

式(6)中，p_k代表保存的第k个类别的原型；

步骤五、基于重参数化的特征提取器结构融合：

步骤5.1、联合优化：

基于第h阶段的图像集D^h，利用Adam优化策略对所述增量扩增网络F^h进行训练优化，并计算损失函数

和

从而更新网络参数，直到迭代次数达到设定的次数或损失误差达小于所设定的阈值时，停止训练；

步骤5.2、结构重参数化：

将所述最优的增量分类网络中的残差适应器的n3×n3卷积核按照特征提取部分的卷积核n1×n1或者n2×n2尺度进行补“0”后加到特征提取部分的相应卷积核上，作为新的特征提取部分的卷积参数；最后，将残差适应器删除后，得到第h阶段最终融合后的增量分类网络F′^h；

步骤六、增量阶段分类过程：

将任意的测试图像x_test输入到最终融合后的增量分类网络中，并利用式(7)得到第一到第h阶段所有类别的响应得分Score，再利用argmax函数计算各个类别的相应得分数值最大的分量的索引值并作为最终的分类结果：

Score＝g′^h(f′^h(x_test)) (7)

式(7)中，f′^h和g′^h为最终融合后的第h阶段的增量分类网络F′^h中的特征提取网络和分类器网络。

与现有技术相比，本发明的有益效果在于：

1、本发明将动态扩增和重参数化策略相结合，设计成图像分类网络的特征提取部分增量扩展的解决方案，形成了结构参数不变的增量模型，同时在增量阶段采用基于原型选择的表征优化策略，更充分的提取增量图像样本的分类辨别特征和蒸馏不变特征，从而提升了模型的整体增量分类水平。

2、本发明在网络动态扩增过程中采用残差适应器结构，在保证初始特征不变的前提下完成增量阶段图像集的分类优化，同时在优化后采用结构重参数化技术将残差适应器融入初始网络，解决了优化前后的网络结构不一致问题，从而降低对增量模型参数量的需求。

3、本发明在增量阶段的训练过程中采用基于原型选择的表征优化策略，结合原型度量和原型上采样判断增量阶段图像的相似性得分，这样可以解决无记忆存储的情况下增量训练过程不稳定的问题，从降低了对于增量模型储存容量的需求。

附图说明

图1为本发明总体流程图。

具体实施方式

本实施例中，一种基于自保持表征扩展的类增量学习的图像分类方法的流程如图1所示，具体来说，是按如下步骤进行：

步骤一、初始分类网络的构建和优化：

其中，

表示初始阶段第k个类别中的第i个图像样本，

表示初始阶段第k个类别中的第i个图像样本

的类别标签，K代表图像集包含的类别数目，N_k代表第k个类别的样本数目；在本实施中，K＝50，N_k＝500。

ResNet-18深度学习网络包括5个阶段，其中，第1个阶段Stage 0由一个卷积核为n1×n1的卷积层，一个批量归一化处理层，一个ReLU激活函数层组成，其余4个阶段均由2个Basicblock模块组成，每个Basicblock模块依次由一个卷积核为n2×n2的卷积层，一个ReLU激活函数层，一个卷积核为n2×n2的卷积层组成；

将ResNet-18深度学习网络直接作为初始分类网络F的特征提取部分f；并用一个全连接层作为初始分类网络F的分类器部分g；

步骤1.3、训练优化初始分类网络F：

将第一阶段的图像集D₁按批次送入初始分类网络F，并依次经过特征提取部分f和分类器部分g的处理后，输出预测类别标签，从而按照式(1)计算交叉熵损失L_cross，并使用梯度下降算法优化初始分类网络F中所有的参数，从而得到训练好的初始分类网络F′：

式(1)中，x_j表示第一阶段的图像集中的第j个样本，

表示第j个图像样本的指示函数，若x_j的类别标签y_j与k相等，则令

值为1，否则令

为0，N代表K个类别所有样本的数目；在本实施中，采用基于Adam优化器，学习率为0.001的梯度下降优化策略，训练周期为100，网络初始化方式采用恺明初始化。

步骤1.4、原型保存：

对于训练好的初始分类网络F′，将第一阶段的图像集D¹逐类别送入训练后的特征提取部分f′，并对各个类别的输出取平均后，将平均结果作为各类原型{p₁，…，p_k，…，p_K}保存到增量阶段；p_k表示第k类原型；原型作为样本在深度表征空间的平均，并不会泄露有关样本的隐私，且每个类别仅保存一个原型，存储量增加忽略不计。

步骤二、增量阶段的特征提取器结构扩展：

其中，

表示第h阶段第k个类别中的第i个图像样本，

表示第h阶段第k个类别中的第i个图像样本

的类别标签，K^h为第h阶段新增的图像类别数目，且D^h和其余h-1阶段的图像集{D¹，…D^h-1}中所有类别均不相同；；在本实施中，K^h＝5，N_k＝500。

步骤2.2、网络的增量结构扩展：

在训练后的特征提取部分f′中的每个卷积层上均并联一个残差适应器，残差适应器包括一个n3×n3卷积层，构成第h阶段的增量扩增的特征提取部分f^h；

在训练后的分类器部分g′的全连接层中添加K^h个输出结点，构成第h阶段的增量扩增的分类器部分g^h，从而与f^h一起构成第h阶段的增量扩增网络F^h；在本实施中，n3＝1。残差适应器以Residual网络形式连接，即其输出将加到并联的卷积层输出中，不会增加网络各个节点的特征维度。

步骤三、基于原型选择策略的表征优化：

由于增量阶段的训练集均为新类别的样本，交叉熵损失将只关注有利于识别新类别的特征，蒸馏方法仅关注与新类相关特征的保持，两者都会加速遗忘旧类别的代表性特征。而基于原型的选择策略则细化训练样本对于各个优化目标的作用，显著提升有限条件训练过程中的样本利用率。

步骤3.1、原型度量：

式(2)和式(3)中，

弋表第h阶段图像集D^h中的第j个图像样本在增量扩增的特征提取部分f^h中的特征表示，p_k代表保存的第k个类别的原型，S_j，k，h代表第h阶段图像集D^h中的第j个图像样本与第k个类别的原型之间相似性得分，Cosine代表夹角余弦操作子，Nor代表归一化操作子；

步骤3.2、选择性分类优化：

设定阈值δ，并将各个图像样本的相似性度量与阈值δ比较，若低于阈值δ，则证明该样本与旧类特征差异较大，有利于新类特征的辨别性优化训练。将相应图像样本的分类权值参数置为1，反之，则置为0；

利用式(4)计算第h阶段的图像类别的分类损失

式(4)中，

代表第h阶段图像集D^h中的第j个图像样本的分类权值参数；在本实施中，δ＝0.8。

步骤3.3、选择性蒸馏优化：

蒸馏过程由模型压缩领域引入，试图通过最小化新旧模型在特征提取层的输出，以实现模型在不同训练阶段保持其重要可学习参数不变。

将各个图像样本的相似性度量与阈值δ比较，若高于阈值δ，则证明该样本与旧类特征的差异较小，有利于旧类特征的保持。将相应图像样本的蒸馏权值参数置为1，反之，则置为0；

利用式(5)计算第h阶段的蒸馏损失

式(5)中，

步骤四、基于原型重采样的分类器平衡：

步骤4.1、原型上采样：

在第h阶段的每个训练批次中将原型复制

次后，得到上采样后的原型，其中，B代表每个批次的样本数目；在本实施中，B＝128，K＝50，

步骤4.2、分类器损失增强：

将上采样后的原型送入增量扩增的分类器部分g^h，利用式(6)计算增强损失

式(6)中，p_k代表保存的第k个类别的原型；

步骤五、基于重参数化的特征提取器结构融合：

步骤5.1、联合优化：

基于第h阶段的图像集D^h，利用Adam优化策略对增量扩增网络F^h进行训练优化，并计算损失函数

和

从而更新网络参数，直到迭代次数达到设定的次数或损失误差达小于所设定的阈值时，停止训练；优化过程中该方法会固定特征提取网络中主支网络的参数，优化梯度只通过残差适应器传播，以更新最具辨识度的位置，同时保持旧的特征。新的分类器会全程参与优化更新过程，但其参数值使用上一阶段旧的分类器的参数值作为初始值，以提升优化效率和泛化性。

步骤5.2、结构重参数化：

结构重参数化前、后网络任意模块的输入、输出都不会改变，即在测试阶段不会影响模型的性能。在训练过程中通过拆分卷积为小卷积核，使用批量归一化处理层等多种操作算子进行串并联，能够改变优化流的走向和梯度更新的难易程度，从而极大地提升优化效率和性能。

将最优的增量分类网络中的残差适应器的n3×n3卷积核按照特征提取部分的卷积核n1×n1或者n2×n2尺度进行补“0”后加到特征提取部分的相应卷积核上，作为新的特征提取部分的卷积参数；最后，将残差适应器删除后，得到第h阶段最终融合后的增量分类网络F′^h；在本实施中，n1＝7，n2＝3，n3＝1。

步骤六、增量阶段分类过程：

Score＝g′^h(f′^h(x_test)) (7)

式(7)中，f′^h和g′^h为最终融合后的增量分类网络F′^h中的特征提取网络和分类器网络。