CN111931807B

CN111931807B - 一种基于特征空间组合的小样本类增量学习方法

Info

Publication number: CN111931807B
Application number: CN202010590902.0A
Authority: CN
Inventors: 李玺; 赵涵斌; 傅永健; 励雪巍
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2024-02-23
Anticipated expiration: 2040-06-24
Also published as: CN111931807A

Abstract

本发明公开了一种基于特征空间组合的小样本类增量学习方法，方法具体包括以下步骤：连续获取多个任务的数据流，在每个类增量学习会话中只能获得一个任务的数据，定义方法目标；在第一个类增量学习会话中，获取第一个任务的数据，学习得到基任务网络模型；在下一个类增量学习会话中，获取新任务数据，更新当前网络模型；每次类增量学习会话后，通过基任务网络模型得到基任务特征空间，通过当前网络模型得到终身学习特征空间，对两个空间进行组合，得到一个组合特征空间，利用组合空间进行分类。本发明能够构建一个有效的组合特征空间，很好地平衡旧知识保留和新知识适应，同时实现简单，是一个既有效并且实用简单的小样本类增量学习方法。

Description

一种基于特征空间组合的小样本类增量学习方法

技术领域

本发明涉及深度网络模型的增量学习领域，尤其涉及一种基于特征空间组合的小样本类增量学习方法。

背景技术

最近几年来，持续学习(也称为增量学习或终身学习)受到了广泛的关注，由于具有持续学习能力的深度网络模型有很多实际应用场景。在原理上来说，持续学习目的在于使得一个学习器从新数据中获得新知识的同时能够保留从之前数据中已经学习得到的旧知识。持续学习通常在任务增量学习或者类增量学习场景下进行的。类增量学习情景是更具有挑战性的场景，因为任务的标签信息在测试的过程中是不允许的。实际上，在新任务中的知识经常通过非常少数量的样本表示。为了满足这一实际需求，小样本类增量学习受到了很多关注，主要涉及了基任务(拥有大规模训练数据的第一个任务)和一系列新任务(包含有限的样本)的学习部件。在这个学习场景中，它追求动态地获得一个统一的具有判别力的特征空间，能够同时保留从基任务获得的知识和表征新任务中的知识。作为结果来说，它通常陷入到旧知识遗忘(在一系列新任务后)和新样本过拟合(有限样本)的困境中。因此，本文关注构建一个有效的表征空间用于小样本类增量学习，能够很好地平衡旧知识的保留和新知识的适应。

现有的用于解决类增量学习问题的方法主要分成以下三类：(1)添加或去除部件的结构化方法；(2)保存过去样本或其他旧任务信息的预演方法；(3)在已学习的知识限制下正则化网络参数更新的正则化方法。从原理上来说，上述提到的方法都采用了一个常见的策略，只保持一个统一的特征空间，来追求旧知识的保留和新知识的适应能够相互兼容。在这个统一的特征空间(具有有限编码能力的特征表达)，对旧知识的保留和新知识的适应的学习方向通常是不一致的(甚至是矛盾的)。在旧数据和新数据的异步更新策略下，用于类增量学习的统一特征空间随着任务数量的不断增加，趋向于编码更多新数据的信息。因此，它对旧数据的编码能力大大压缩。在小样本类增量学习的情况下，只有有限数量的新任务数据样本被提供，学习得到的特征空间易于遭受语义偏移(也就是灾难性遗忘)或者过拟合。

发明内容

为了解决现有技术中存在的问题，本发明旨在研究设计出一种基于特征空间组合的小样本类增量学习方法，该方法能够构建一个有效的组合特征空间，能很好地平衡旧知识保留和新知识适应。本发明提出的组合特征空间，由基任务知识空间和终身学习知识空间构成，能自适应地编码新任务知识的同时有效地保持基任务的特征表达。

本发明具体采用的技术方案如下：

一种基于特征空间组合的小样本类增量学习方法，其包括以下步骤：

S1、连续获取多个任务的数据流，在每个类增量学习会话中只能获得一个任务的训练数据集；

S2、在第一个类增量学习会话中，以基任务作为第一个任务的训练数据集，学习得到基任务网络模型；

S3、在下一个类增量学习会话中，以新任务的训练数据集，更新前一个类增量学习会话中训练得到的网络模型；

S4：完成一个类增量学习会话后，通过基任务网络模型得到基任务特征空间，通过当前网络模型得到终身学习特征空间，对两个空间进行组合，得到一个组合特征空间，利用组合空间进行分类；

S5：当存在新任务的训练数据集时，重复S3和S4，利用新数据对网络模型进行学习。

在上述技术方案基础上，本发明的各步骤还可以进一步采用如下优选方式实现。

作为优选，所述S1中，所述的类增量学习会话定义如下：

从当前任务的数据到达后至下一个任务的数据到达的时间间隔是一个类增量学习会话；

所述多个任务的数据流定义如下：

数据流D由N个训练数据集构成，D＝{D⁽¹⁾,D⁽²⁾,…,D^(N)}，其中第t个任务的训练数据集为D^(t)，D^(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习，在小样本类增量学习中D⁽¹⁾为基任务数据；C^(t)是第t个任务数据的类别集合，不同任务间包含的数据类别没有重叠；

作为优选，所述小样本类增量学习方法的目标定义为：在每个类增量学习会话中，更新模型，以平衡旧知识保留和新知识适应，在所有已经出现过的类别数据中实现样本分类。

作为优选，所述S2中，所述的基任务网络模型是由嵌入网络和最近类均值分类器组成的图像分类模型；所述嵌入网络作为特征提取器，用于将一个给定的样本映射到一个表征空间，在该表征空间中样本间的距离表示样本间的语义差异；训练得到嵌入网络后，用所述最近类均值分类器对样本进行分类；

所述的基任务网络模型中，仅有嵌入网络是可学习的，所述嵌入网络在学习过程中，以最小化度量学习损失为目的。

作为优选，所述的度量学习损失采用三元组损失

其中d₊表示代表样本x_a和正样本x_p的特征之间的欧式距离，d_-表示代表样本x_a和负样本x_n的特征之间的欧式距离，r表示阈值。

作为优选，所述S3中，在更新前一个类增量学习会话中训练得到的网络模型时，以最小化损失函数为目的对嵌入网络进行参数优化，其中：

式中是用于保持旧知识的正则项；

训练得到嵌入网络后，用最近类均值分类器进行分类：

式中：为第j个样本x_j的预测分类标签；∪_ic⁽ⁱ⁾表示所有任务数据的类别集合；dist(.,.)表示距离度量；z_j为样本x_j的特征；u_c是类别c的样本特征均值，定义如下：

式中：n_c是类别c的样本数量，[y_j＝c]表示判断y_j＝c是否成立，若成立则[y_j＝c]的值为1，否则[y_j＝c]的值为0。

作为优选，所述距离度量采用欧式距离。

作为优选，所述S4具体包含以下子步骤：

S41、每完成一个类增量学习会话后，从基任务网络模型中得到基任务特征空间，从当前网络模型中得到终身学习特征空间，对两个空间进行组合，得到一个组合特征空间；所述的组合特征空间表示如下：

对样本x_j，其经过组合特征空间后得到的组合特征为

式中：Ψ(.,.)表示特征的空间组合函数，表示样本x_j在基任务特征空间的特征，/>表示样本x_j在第t个会话中更新后得到的终身学习特征空间的特征；

S42、利用组合特征空间，通过一个最近类均值分类器进行分类，分类方法如下：

其中：A表示度量矩阵，表示基于基任务特征空间得到的类别c中所有样本的特征均值，/>表示基于终身学习特征空间得到的类别c中所有样本的特征均值。

作为优选，所述空间组合函数Ψ(.,.)采用特征连接操作。

作为优选，所述度量矩阵A定义如下：

式中：I是一个单位矩阵，维度为A维度的一半；a为一个取值0或1的标量，a＝0表示只使用基任务特征空间，a＝1表示着只使用终身学习特征空间。

与面向深度神经网络模型的传统小样本类增量学习方法相比，本发明提供的一种基于特征空间组合的小样本类增量学习方法，能自适应地编码新任务知识的同时有效地保持基任务的特征表达，并且实现简单。

附图说明

图1为基于特征空间组合的小样本类增量学习算法原理图；

图2为本发明方法流程图；

图3为本发明方法在CIFAR100数据集上的实施效果；

图4为本发明方法在MiniImageNet数据集上的实施效果图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述。

本发明的基于特征空间组合的小样本类增量学习算法原理如图1所示：首先在第一个类增量学习会话中，在基任务上学习得到一个模型；当进入第二个类增量学习会话后，只能获取到新到达的数据和基任务上得到的模型，在新任务数据上更新基任务模型，通过更新后的模型得到终身学习特征空间，通过基任务模型得到基特征空间，组合两个空间后得到组合特征空间进行分类；同理，每次有新任务数据到达时即进入下一个类增量学习会话时，更新模型后，可以得到新的组合特征空间。通过该方式，能减少对过去旧任务知识的遗忘并防止对新任务知识的过拟合。下面对本发明的具体实现过程进行展开描述。

如图2所示，一种基于特征空间组合的小样本类增量学习方法，包括以下步骤：

S1、连续获取多个任务的数据流，用于对模型进行训练，在每个类增量学习会话中只能获得一个任务的训练数据集。

其中，类增量学习会话定义如下：

从当前任务的数据到达后至下一个任务的数据到达的时间间隔是一个类增量学习会话。

其中，多个任务的数据流定义如下：

数据流D由N个训练数据集构成，D＝{D⁽¹⁾,D⁽²⁾,…,D^(N)}，其中数据集的具体个数N根据实际情况确定。在数据流D中，记第t个任务的训练数据集为D^(t)，D^(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习；C^(t)是第t个任务数据的类别集合，不同任务间包含的数据类别没有重叠，即对于任意在小样本类增量学习下，除了D⁽¹⁾是包含较多样本和类别的基任务，对于D^(t),>1，D^(t)包含极少数量的样本。在第t个类增量学习会话中，只能获取到D^(t)数据。

本发明的小样本类增量学习方法的目标定义为：在每个类增量学习会话中，更新模型，以平衡旧知识保留和新知识适应，在所有已经出现过的类别数据中实现准确的样本分类。

S2、在第一个类增量学习会话中，以基任务作为第一个任务的训练数据集，学习得到基任务网络模型。

此处的基任务网络模型是由嵌入网络(Embedding network)和最近类均值分类器(Nereast Class Mean classifier,NCM)组成的图像分类模型。其中，嵌入网络作为特征提取器，用于将一个给定的样本映射到一个信息充足的表征空间，在该表征空间中样本间的距离表示样本间的语义差异。为了这个目的，度量学习损失被用于保证相似样本间的距离比较近，不相似的样本间的距离大于一个阈值。训练得到嵌入网络后，用一个最近类均值分类器对样本进行分类。

在基任务网络模型中，仅有嵌入网络是可学习的，最近类均值分类器保持固定。网络学习训练与最小化如下目标函数的问题相关：

其中是度量学习损失。嵌入网络在学习过程中，以最小化度量学习损失为目的。度量学习损失的形式可以根据实际情况调整，本实施例中度量学习损失/>可采用三元组损失，其计算公式为：

其中：d₊表示代表样本x_a和正样本x_p的特征之间的欧式距离，d_-表示代表样本x_a和负样本x_n的特征之间的欧式距离，r表示阈值，max(,)表示取最大值操作。

S3、在下一个类增量学习会话中，以新任务的训练数据集，更新前一个类增量学习会话中训练得到的网络模型。

此处前一个类增量学习会话中训练得到的网络模型，在不同的类增量学习会话中是不同的。参见图1所示，在第2个类增量学习会话中，其前一个类增量学习会话中训练得到的网络模型就是第一个类增量学习会话中训练得到的基任务网络模型，而在第3个类增量学习会话中，其前一个类增量学习会话中训练得到的网络模型就是第2个类增量学习会话中训练得到的网络模型，依此类推。

在更新前一个类增量学习会话中训练得到的网络模型时，以最小化损失函数为目的对嵌入网络进行参数优化，其中：

式中是用于保持旧知识的正则项；

训练得到嵌入网络后，用最近类均值分类器进行分类：

式中：为第j个样本x_j的预测分类标签；∪_iC⁽ⁱ⁾表示所有任务数据的类别集合；dist(.,.)表示距离度量(可采用欧式距离)；_j为样本x_j的特征；u_c是类别c的原型，也就是类别c的样本特征均值，定义如下：

S4：完成一个类增量学习会话后，通过基任务网络模型得到基任务特征空间，通过当前网络模型得到终身学习特征空间，对两个空间进行组合，得到一个组合特征空间，利用组合空间进行分类。

类增量学习的目标是为了让模型具有终身学习的能力，具体是指在学习新任务的知识时，不遗忘已学习到的旧任务知识。而所谓终身学习特征空间，是指在每个类增量学习会话中，通过旧任务知识正则化和新任务三元组损失优化更新后得到的模型，即更新后的嵌入网络对应的特征空间。

在本实施例中，本步骤具体包含以下子步骤：

S41、每完成一个类增量学习会话后，从基任务网络模型中得到基任务特征空间，从当前网络模型中得到终身学习特征空间，对两个空间进行组合，得到一个组合特征空间，该组合特征空间表示如下：

对样本x_j，其经过组合特征空间后得到的组合特征为

式中：Ψ(.,.)表示特征的空间组合函数，表示样本x_j在基任务特征空间的特征，/>表示样本x_j在第t个会话中更新后得到的终身学习特征空间的特征；。

空间组合函数Ψ(.,.)可采用不同的组合形式，对于特征空间组合，Ψ(.,.)最简单的实现方法是通过特征连接操作。

对于通过简单特征连接操作实现特征空间组合的情况，度量矩阵A定义如下：

因此，在本发明的方法中，在每个类增量学习会话后对之前所出现数据的分类是基于组合特征空间的。利用由基任务知识空间和终身学习知识空间构成的组合特征空间，能很好地平衡旧知识保留和新知识适应，在自适应地编码新任务知识的同时有效地保持基任务的特征表达。

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

下面基于上述方法进行仿真实验，本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对实验结果展示其效果。

本实施例使用用于图像分类任务在CUB200-2011、CIFAR100、MiniImageNet数据集上的原始复杂ResNet-18网络，开展基于小样本类增量学习任务。在CUB200-2011数据集上，共11个类增量学习会话，第一个类增量学习会话到达的基任务包含100类数据，每类样本的数量充足，后面每次类增量学习会话中到达的数据集包含10类数据，每类样本的数量量为5。在CIFAR100和MiniImageNet数据集上，共9个类增量学习会话，第一个类增量学习会话到达的基任务包含60类数据，每类样本的数量充足，后面每次类增量学习会话中到达的数据集包含5类数据，每类样本的数量量为5。本实施例的实施效果如表1、图3和图4所示。

表1本发明方法在CUB200-2011数据集上的实施效果

如表1所示，在CUB200-2011数据集上，本发明在11个类增量学习会话后，模型的Top-1平均准确率达到了53.16％，与最近最先进的方法(iCaRL、EEIL、NCM、TOPIC、SDC)的结果相比。在CIFAR100和MiniImageNet数据集上，本发明在每个类增量学习会话后的效果都超越了最近最先进的方法，从原理上来说，本发明基于组合特征空间进行分类，不但能够很好的减少对过去旧任务知识的遗忘，同时较好地学习新任务的知识。与其他先进方法的结果对比，可以观察到本文提出的方法在9个类增量学习会话后模型平均准确率是最高的。

综上，本发明实施例区别于现有技术，在每次类增量学习会话中基于组合特征空间进行分类。相比现有技术，能减少对过去旧任务知识的遗忘并防止对新任务知识的过拟合，模型在所有任务上的平均准确率更高。

应理解，本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于特征空间组合小样本类增量学习的图像分类方法，其特征在于，包括以下步骤：

S1、连续获取多个图像分类任务的数据流，在每个类增量学习会话中只能获得一个图像分类任务的训练数据集；

S2、在第一个类增量学习会话中，以基图像分类任务作为第一个图像分类任务的训练数据集，学习得到基图像分类任务网络模型；

S3、在下一个类增量学习会话中，以新图像分类任务的训练数据集，更新前一个类增量学习会话中训练得到的网络模型；

S4：完成一个类增量学习会话后，通过基图像分类任务网络模型得到基图像分类任务特征空间，通过当前网络模型得到终身学习特征空间，对两个空间进行组合，得到一个组合特征空间，利用组合空间进行图像分类；

S5：当存在新图像分类任务的训练数据集时，重复S3和S4，利用新数据对网络模型进行学习；

所述S1中，所述的类增量学习会话定义如下：

从当前图像分类任务的数据到达后至下一个图像分类任务的数据到达的时间间隔是一个类增量学习会话；

所述多个图像分类任务的数据流定义如下：

数据流D由N个训练数据集构成，D＝{D⁽¹⁾,D⁽²⁾,…,D^(N)}，其中第t个图像分类任务的训练数据集为D^(t)，D^(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习，在小样本类增量学习中D⁽¹⁾为基图像分类任务数据；C^(t)是第t个图像分类任务数据的类别集合，不同图像分类任务间包含的数据类别没有重叠；

所述S2中，所述的基图像分类任务网络模型是由嵌入网络和最近类均值分类器组成的图像分类模型；所述嵌入网络作为特征提取器，用于将一个给定的图像样本映射到一个表征空间，在该表征空间中图像样本间的距离表示图像样本间的语义差异；训练得到嵌入网络后，用所述最近类均值分类器对图像样本进行分类；

所述的基图像分类任务网络模型中，仅有嵌入网络是可学习的，所述嵌入网络在学习过程中，以最小化度量学习损失为目的；

所述的度量学习损失采用三元组损失

其中d₊表示代表图像样本x_a和正样本x_p的特征之间的欧式距离，d_-表示代表图像样本x_a和负样本x_n的特征之间的欧式距离，r表示阈值；

所述S3中，在更新前一个类增量学习会话中训练得到的网络模型时，以最小化损失函数为目的对嵌入网络进行参数优化，其中：

式中是用于保持旧知识的正则项；

训练得到嵌入网络后，用最近类均值分类器进行图像分类：

式中：为第j个图像样本x_j的预测分类标签；∪_ic⁽ⁱ⁾表示所有图像分类任务数据的类别集合；dist(.,.)表示距离度量；z_j为图像样本x_j的特征；u_c是类别c的图像样本特征均值，定义如下：

式中：n_c是类别c的图像样本数量，[y_j＝c]表示判断y_j＝c是否成立，若成立则[y_j＝c]的值为1，否则[y_j＝c]的值为0；

所述S4具体包含以下子步骤：

S41、每完成一个类增量学习会话后，从基图像分类任务网络模型中得到基图像分类任务特征空间，从当前网络模型中得到终身学习特征空间，对两个空间进行组合，得到一个组合特征空间；所述的组合特征空间表示如下：

对图像样本x_j，其经过组合特征空间后得到的组合特征为

式中：Ψ(.,.)表示特征的空间组合函数，表示图像样本x_j在基图像分类任务特征空间的特征，/>表示图像样本x_j在第t个会话中更新后得到的终身学习特征空间的特征；

其中：A表示度量矩阵，表示基于基图像分类任务特征空间得到的类别c中所有图像样本的特征均值，/>表示基于终身学习特征空间得到的类别c中所有图像样本的特征均值。

2.根据权利要求1所述的基于特征空间组合小样本类增量学习的图像分类方法，其特征在于，所述小样本类增量学习方法的目标定义为：在每个类增量学习会话中，更新模型，以平衡旧知识保留和新知识适应，在所有已经出现过的类别数据中实现图像样本分类。

3.根据权利要求2所述的基于特征空间组合小样本类增量学习的图像分类方法，其特征在于，所述距离度量采用欧式距离。

4.根据权利要求3所述的基于特征空间组合小样本类增量学习的图像分类方法，其特征在于，所述空间组合函数Ψ(.,.)采用特征连接操作。

5.根据权利要求4所述的基于特征空间组合小样本类增量学习的图像分类方法，其特征在于，所述度量矩阵A定义如下：

式中：I是一个单位矩阵，维度为A维度的一半；a为一个取值0或1的标量，a＝0表示只使用基图像分类任务特征空间，a＝1表示着只使用终身学习特征空间。