CN113361635A

CN113361635A - 基于表示预测的小样本类增量学习方法

Info

Publication number: CN113361635A
Application number: CN202110738115.0A
Authority: CN
Inventors: 姚光乐; 祝钧桃; 王洪辉; 周文龙; 彭鹏; 李军; 刘瑛
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-07

Abstract

本发明公开了基于表示预测的小样本类增量学习方法，涉及图像识别分类技术领域，包括以下步骤：S1，通过特征提取器f加softmax分类器结构完成对基类数据D_base的基本任务训练，通过基本任务训练得到基类数据的特征；S2，当基础任务训练完成后，去除softmax分类器，将特征提取器f输出的特征输入NCM分类器，并计算每类的类中心；S3，通过特征提取器f来获取新类D_N中样本的输出，通过得到的样本输出与步骤S2中得到的所有基类的类中心比较相似性，根据相似程度来预测该样本的特征，将输出的相似值归一化后作为对应的类中心u_b的权重；通过此种设计达到类别不断增加的情况下，对所有已学习的类别进行分类的目的。

Description

基于表示预测的小样本类增量学习方法

技术领域

本发明涉及机器学习技术领域，具体为基于表示预测的小样本类增量学习方法。

背景技术

随着信息技术的发展，数据急剧增长，对数据处理的需求也大大增减。在机器学习中，数据的识别分类主要是针对数据中特定特征进行提取，通过特定特征表征数据的信息，然后根据提取到的特定特征进行数据的识别分类。机器学习可以用于诸多领域，并且机器学习可以在各种复杂的条件下快速准确的提取物体的特征，具有广泛的应用前景，现有的机器学习分类方法中，可以对固定的数据进行识别分类，但是当出现新的少量样本时，系统是无法识别的。

对于类增量学习，以往的方法主要采用两种数据分类框架来构建。第一种是由一个特征提取器和一个softmax分类器组成，使用交叉熵损失训练。另一种由一个特征提取的嵌入网络和一个最近类均值(NCM)分类器组成，其中只有嵌入网络可学习。使用可训练的softmax分类器能更好的保证识别效果，同时使用的交叉熵损失相比嵌入网络的度量损失训练速度更快，而类均值(NCM)分类器在较长的任务序列中进行类增量学习具有优势。

所以本方案采用上述两种方案相结合的方式，同时兼顾识别效果与训练速度以及类增量学习中的优势。

发明内容

本发明的目的在于克服现有技术的不足，提供基于表示预测的小样本类增量学习方法。

本发明的目的是通过以下技术方案来实现的：

基于表示预测的小样本类增量学习方法，包括以下步骤：

S1，通过特征提取器f加softmax分类器结构完成对基类数据D_base的训练，通过训练得到基类数据D_base的特征，执行步骤S2；

S2，当训练完成后，去除softmax分类器，将特征提取器f输出的特征输入NCM分类器，并计算基类数据D_base中每类的类中心，执行步骤S3；

S3，通过特征提取器f来获取新类D_N中样本的输出，通过得到的样本输出与步骤S2中得到的类中心比较相似性，根据相似程度来预测该样本的特征，将输出的相似度归一化后作为对应的类中心u_b的权重，执行步骤S4；

S4，计算新类D_N中类C的所有样本的预测特征，并取平均值作为类C的基于相似的预测中心，再计算类C中所有样本直接通过特征提取器f提取的特征的平均值，最后得到类C的类中心，并将类C的类中心加入到步骤S2中得到的类中心中，完成对已学习的类C的分类。

进一步的，所述步骤S2中，类中心计算公式为：

其中，u_b表示基类数据D_base中类b的类中心，n_b表示类b的样本数，f(x_i)表示提取的样本的特征。

进一步的，所述步骤S3中，保持特征提取器f的参数在计算过程中始终固定。

进一步的，所述步骤S3中，样本的特征计算公式为：

其中

表示新类D_N中的样本，

表示样本

在特征提取器f中的输出，c表示D_N中的某一类别，i表示类别c的第i个样本，

的输出结果为

与类中心u_b的相似度，N_b表示基类的类别数。

进一步的，所述步骤S4中，基于类c所有样本的预测特征，并取平均值作为类c的基于相似的预测中心的计算公式为：

其中，

表示类c的基于相似的预测中心，n表示每一类的样本数。

进一步的，所述步骤S4中，类c所有样本直接通过特征提取器f提取的特征的平均值计算的计算C类的类中心的计算公式为：

其中，

表示类c所有样本直接通过特征提取器f提取的特征的平均值得到的C类的类中心。

进一步的，所述步骤S4中，类C的类中心计算公式为：

其中，u_c表示类C的类中心。

进一步的，还包括类增量学习系统，所述类增量学习系统包括特征提取器f、softmax分类器以及NCM分类器，所述类增量学习系统用于实现权利要求1-7中任意一项所述的基于表示预测的小样本类增量学习方法。

本发明的有益效果是：

1、本发明的一个创新点在于，通过将特征提取器、softmax分类器以及最近类均值(NCM)分类器进行组合使用，既保留了单独使用特征提取器搭配softmax分类器对图像识别在准确率和训练速度上的优点，同时保留了单独使用特征提取器搭配最近类均值(NCM)分类器时在在较长的任务序列中进行类增量学习时的优势。

2、在上述基础上，通过基础任务训练得到性能较好的特征提取器，同时在小样本类增量学习时，计算小样本的预测特征，并取平均值作为类c的基于相似的预测中心，再通过计算f提取的特征的平均值类中心，得到小样本类中心，完成对新出现的小样本的学习识别分类。

附图说明

图1为本发明的小样本类增量学习方法的流程图；

图2为本发明的小样本类增量学习方法的框架图。

具体实施方式

下面结合本发明的附图1～2，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施。

在本发明的描述中，需要理解的是，术语“逆时针”、“顺时针”“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

基于表示预测的小样本类增量学习方法，包括以下步骤：

本方案的工作原理简述：

在本发明中，基础任务训练：使用基类数据D_base训练特征提取器f，训练后计算每一个基类的类中心，u_b表示第b个基类的中心。同时保持f的参数固定(使得下一阶段提取的特征在同一特征空间)，在新任务训练时，由于新任务样本数量过少，直接训练容易发生过拟合，因此，我们先利用f来获取D_N中样本的输出，这时获取的输出不直接作为该样本的特征，而是用来与上一阶段的所有基类的类中心比较相似性，根据相似程度来预测该样本的特征：

其中

表示D_N中的样本，

表示样本

在f中的输出，c表示D_N中的某一类别，i表示类别c的第i个样本，S(·,·)表示采用一个相似度量比较

与类中心u_b的相似度，将输出的相似值归一化后作为对应的类中心u_b的权重。计算类c所有样本的预测特征，并取平均作为类c的基于相似的预测中心:

n表示每一类的样本数。再计算类c所有样本直接通过f提取的特征的平均：

最后得到类c的中心

并加入到原本的类中心中。

MiniImageNet：MiniImageNet数据集是Image Net-1k数据集的子集。共100个类，每类包含500张训练图像和100张测试图像，图像为大小为84×84的RGB格式。

CIFAR-100：CIFAR100数据集包含60,000张RGB图像，100个类，每个类有500个训练图像和100个测试图像，每幅图像的大小为32×32。

对于CIFAR100和Mini Image Net数据集，分别选择60个类和40个类作为基础类D_base和新类D_N，并采用5way，5shot设置，总共有9个学习过程(即1个基础学习，8个类增量学习)

对于所有数据集，每个类增量学习的训练集都是通过从原始数据集中随机抽取5个类，每个类随机抽取5个训练样本来构造的，测试集不变。

使用Resnet-18模型作为特征提取器f。基类训练时的Batch Size大小为128，初始学习率为0.1。在第30个epoch后(包括30)，每10个epoch后将学习率手动降低10倍，并在第50个epoch完成后停止训练。

进一步的，所述步骤S2中，类中心计算公式为：

进一步的，所述步骤S3中，样本的特征计算公式为：

其中

表示新类D_N中的样本，

表示样本

的输出结果为

与类中心u_b的相似度，N_b表示基类的类别数。

其中，

表示类c的基于相似的预测中心，n表示每一类的样本数。

其中，

进一步的，所述步骤S4中，类C的类中心计算公式为：

其中，u_c表示类C的类中心。

以上所述仅是本发明的优选实施方式，应当理解所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。