CN117975203A

CN117975203A - 基于数据增强的小样本图像类增量学习方法及系统

Info

Publication number: CN117975203A
Application number: CN202410389502.1A
Authority: CN
Inventors: 罗昕; 梁芳旖; 陈振铎; 许信顺
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-04-02
Filing date: 2024-04-02
Publication date: 2024-05-03
Anticipated expiration: 2044-04-02
Also published as: CN117975203B

Abstract

本发明涉及小样本类增量学习技术领域，特别是涉及基于数据增强的小样本图像类增量学习方法及系统，使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型；如果是首次执行，则对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型；非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型；重复执行直至得到最终训练后的类增量学习网络；得到待分类图像的分类标签。本发明提出的基于数据增强的流式小样本类增量学习方法对避免旧任务的灾难性遗忘以及对新任务的过拟合进行了较好的解决。

Description

基于数据增强的小样本图像类增量学习方法及系统

技术领域

本发明涉及小样本类增量学习技术领域，特别是涉及基于数据增强的小样本图像类增量学习方法及系统。

背景技术

随着科技的日新月异与迅猛发展，人类正阔步迈向一个由海量数据构成的大数据时代。在这个时代，数据的产生呈现出爆炸性增长的趋势，数据的获取、存储、处理和应用成为推动社会进步和创新发展的关键力量，为人类带来了前所未有的机遇和挑战。与此同时，本发明也面临着一个复杂的现实：在开放环境下，数据流以连续、动态的方式不断增长，且数据流中的部分数据类别可能仅包含极少量的样本。根据以上数据的特性，传统的方法需要使用不断收集到的数据进行一轮又一轮的训练，这种针对少量动态到达的数据从头进行训练的操作是费时且局限的。这种情况下，传统的机器学习方法往往面临着灵活性不足和泛化能力差的困境。

小样本学习旨在学习一种模型，该模型可以在从稀缺的标记训练样本中训练，进而推广到对未见过的图像进行分类。现有的小样本学习方法多是使用基于度量的方法，考虑学习支持和查询实例之间的合适的距离度量对样本进行分类。Siamese Network方法利用孪生网络结构分别提取两幅图片特征，并采用 L1 距离度量特征之间的差异。PrototypeNetwork将每个类别中的样例数据映射到一个空间当中，计算类均值来表示为该类的原型，并使用欧几里得距离作为距离度量，来判断数据的类别标签。然而，在小样本类增量学习的环境中用户的本地数据非常少，如何通过数据增强的方式产生更多数据，避免模型过拟合小样本数据，仍是一个亟待解决的问题。

类增量学习涉及在一系列学习阶段中于多个不相交类集合上训练模型，并且在所有迄今为止遇到的类上进行测试。因此，类增量学习亟需解决的问题是在每个学习阶段数据动态到达时，对新知识的学习以及对旧知识的灾难性遗忘问题。典型的类增量学习方法iCaRL采用旧数据保存的样本和新数据样本混合训练的方式，解决对旧数据的灾难性遗忘问题。另一典型方法可塑权重巩固（EWC，Elastic Weight Consolidation）添加了一个正则化项来保留权重，以迫使当前网络参数保持接近上一个任务训练的参数。但以上的方法中，涉及到旧类样本数据与旧模型参数两种数据的存储，需要大量的内存成本，且极有可能导致数据隐私的泄露。

发明内容

为了解决现有技术的不足，本发明提供了基于数据增强的小样本图像类增量学习方法及系统；本发明将数据划分为基类数据与新类数据，以构成小样本类增量的学习任务。其中，基类数据为大规模数据，先使用该数据对模型进行整体训练；新类数据为少样本数据，使用该数据微调模型。本发明提出的基于数据增强的小样本图像类增量学习方法对避免旧任务的灾难性遗忘以及对新任务的过拟合进行了较好的解决。一方面，本发明采用保存基础阶段数据的特征、辅助自监督任务、对模型进行知识蒸馏的方式，缓解灾难性遗忘的问题，并减少了因保存旧任务数据带来的内存消耗；另一方面，本发明使用保存的旧类的部分特征生成新类样本，以扩充和增强新类数据，减小了模型对少量样本的过拟合问题。

一方面，提供了基于数据增强的小样本图像类增量学习方法，包括：（1）构建待训练图像分类模型；构建第一类数据集和第二类数据集，第一类数据集的数据也称为基类数据；第二类数据集的数据也称为新类数据；其中，所述第二类数据集，包括：T个子数据集，每个子数据集中包含N个类别、每个类别K个图像；T个子数据集彼此之间不存在相同类别的图像；T、N和K均为正整数；（2）使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型；（3）如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型；如果是非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型；（4）重复执行（3），直至第二类数据集全部均参与训练后，得到最终训练后的类增量学习网络；（5）获取待分类的图像，将待分类的图像输入到最终训练后的类增量学习网络中，得到待分类图像的分类标签。

另一方面，提供了基于数据增强的小样本图像类增量学习系统，包括：模型构建模块，其被配置为：构建待训练图像分类模型；构建第一类数据集和第二类数据集，第一类数据集的数据也称为基类数据；第二类数据集的数据也称为新类数据；其中，所述第二类数据集，包括：T个子数据集，每个子数据集中包含N个类别、每个类别K个图像；T个子数据集彼此之间不存在相同类别的图像；T、N和K均为正整数；第一训练模块，其被配置为：使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型；第二训练模块，其被配置为：如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型；如果是非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型；循环模块，其被配置为：重复执行第二训练模块，直至第二类数据集全部均参与训练后，得到最终训练后的类增量学习网络；分类输出模块，其被配置为：获取待分类的图像，将待分类的图像输入到最终训练后的类增量学习网络中，得到待分类图像的分类标签。

上述技术方案具有如下优点或有益效果：本发明中的方法能有效解决小样本类增量学习设置中随着数据的动态到达产生的对旧类的灾难性遗忘以及对新类的过拟合问题；本发明中的方法使用基类的数据特征作为分布先验，保存基类数据的平均特征以及协方差矩阵，无需为每个类保存单独的样本，减少了对内存的消耗，保证数据隐私性；本发明结合旧类数据特征以及新类数据特征得到数据分布，从中采样生成新类数据，丰富了新类的样本，避免只使用少量样本带来的过拟合问题；本发明采用辅助自监督任务丰富基类数据，并针对模型进行知识蒸馏，缓解增量学习中灾难性遗忘的问题；本发明不需要保存旧类样本，并丰富新类样本，在保证隐私性的基础之上，实现了小样本类增量学习任务的性能要求。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的方法流程图。

图2为实施例一的待训练图像分类模型内部结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

为处理小样本类增量学习任务，该发明提出了一种基于数据增强的流式小样本类增量学习方法。在本发明设计的方法中，针对拥有一个基类任务和多个增量任务的小样本类增量学习，一方面，本发明采用保存基础阶段数据的特征表示、辅助自监督任务、对模型进行知识蒸馏的方式，缓解灾难性遗忘的问题，并减少了因保存数据带来的内存消耗；另一方面，本发明使用旧类部分特征生成新类样本，以扩充和增强新类数据，减小了模型对少量样本的过拟合问题。

实施例一：如图1所示，本实施例提供了基于数据增强的小样本图像类增量学习方法，包括：S101：构建待训练图像分类模型；构建第一类数据集和第二类数据集，第一类数据集的数据也称为基类数据；第二类数据集的数据也称为新类数据；其中，所述第二类数据集，包括：T个子数据集，每个子数据集中包含N个类别、每个类别包含K个图像；T个子数据集彼此之间不存在相同类别的图像；T、N和K均为正整数；S102：使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型；S103：如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型；如果是非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型；S104：重复执行S103，直至第二类数据集全部均参与训练后，得到最终训练后的类增量学习网络；S105：获取待分类的图像，将待分类的图像输入到最终训练后的类增量学习网络中，得到待分类图像的分类标签。

进一步地，所述S101：如图2所示，构建待训练图像分类模型，其中，待训练的图像分类模型，包括：特征提取网络，特征提取网络的输出端与分类器的输入端连接，特征提取网络的输出端还与旋转预测网络的输入端连接；特征提取网络的输入端用于输入图像，分类器的输出端用于输出图像的分类标签，旋转预测网络的输出端用于输出图像的旋转角度。

示例性地，特征提取网络使用ResNet-18实现；分类器使用全连接层实现；旋转预测网络使用CNN实现，所述旋转预测网络，包括：依次连接的第一卷积层、第一批归一化层、第一非线性激活层、第二卷积层、第二批归一化层、第二非线性激活层、第三卷积层、第三批归一化层、第三非线性激活层、第四卷积层、第四批归一化层、第四非线性激活层、平均池化层和全连接层；连接全连接层预测旋转角度。

进一步地，所述第一类数据集和第二类数据集，均包括：已知分类标签的图像；其中，第一类数据集的图像数量大于第二类数据集的图像数量；第二类数据集与第一类数据集之间没有重叠的类别。

应理解地，小样本类增量学习有n个按顺序进行的学习阶段，每个阶段有对应的数据集，包括训练集/>与测试集/>，且数据集/>对应的类别标签空间表示为/>。不同的学习阶段的数据集没有重叠的类别，即对于任意的/>且/>，/>。在第i个学习阶段，只有训练集/>能够被用来训练网络，但在模型的评估阶段，第i个学习阶段的测试集/>包含所有之前和现阶段遇见的类的测试样本，因此/>的类别标签空间为/>。

小样本类增量学习的第一个阶段称为基础阶段，基础阶段的训练集是一个相对较大的数据集，其中有足够的数据量可用于训练基本模型，其也成为基类数据。后续阶段成为小样本类增量阶段，每个阶段中的数据集只有有限的数据量，并且在特定阶段上训练的数据集/>通常为N-way K-shot的训练集，其中数据集中有N个类，每个类有K个训练图像数据，称为新类数据。

进一步地，所述S102：使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型，具体训练过程包括：将第一类数据集，输入到待训练图像分类模型中，当模型的第一总损失函数值不再下降时，停止训练，得到训练后的图像分类模型，训练后的图像分类模型被称之为基图像分类网络模型。模型包括特征提取网络与分类层，分别用作样本特征提取与分类。

特征提取网络的参数设为/>；分类层/>参数为/>。模型的所有参数。输入样本/>，使用特征提取网络/>提取特征向量/>，表述为：，向量的维度为d=512。

进一步地，所述第一总损失函数是分类损失函数和旋转预测损失函数的求和结果，其中，分类损失函数为：；其中，/>表示分类损失函数，基类数据集/>的样本/>经过特征提取网络/>得到特征向量/>，/>再经过分类层/>得到预测的分类类别的概率/>，使用交叉熵损失函数/>，与样本/>的标签/>计算分类损失，以此训练特征提取网络/>的参数/>与分类层/>的参数/>。

在此基础上，本发明在基础阶段上集成自监督模块，将其作为小样本类增量学习的辅助任务，即要求网络预测图像经过一组固定角度旋转后的结果。具体而言，在基础阶段时，于分类层并行处添加旋转预测网络/>，旋转预测网络的参数为/>。此时，网络的所有参数/>。将/>所有训练样本旋转0°、90°、180°、270°，并设置旋转后得到每个样本的旋转标签/>为其旋转的角度。使用得到的训练样本，训练旋转预测网络/>，以预测样本的旋转角度。

其中，旋转预测损失函数为：；其中，/>表示旋转预测损失函数，样本/>经过特征提取网络/>得到特征向量/>，/>再经过旋转预测网络/>得到预测的旋转角度的概率/>，使用交叉熵损失函数/>，与样本旋转标签/>计算旋转预测损失/>，以此训练特征提取网络参数/>与旋转预测网络参数/>。

通过训练网络来执行这一预测旋转角度的任务，本发明成功地实现了自监督学习，从而进一步提升了网络的学习能力和性能。这一策略显著提升了基类样本的利用效率，同时有助于模型学习到图像更为丰富和多样的特征。值得注意的是，只使用在基础阶段。

在基础阶段，模型拥有大量训练样本，并以此训练基本模型，使得模型保持丰富的样本知识，而小样本类增量学习的一个核心挑战在于如何在引入新类别样本的同时，保持对先前学习样本的记忆。

传统保存旧知识的做法通常是存储一部分旧类别的实际样本，以便在训练新模型时能够回顾和参考。然而，这种做法可能导致巨大的存储开销。本发明提出了一种新的样本保存策略：不是直接存储实际的样本，而是保存每个类别的样本的均值和协方差矩阵。

进一步地，所述使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型之后，如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练之前，还包括：将第一类数据集，输入到基图像分类网络模型中，输出每个图像的特征向量；计算每个类别的特征向量均值；基于每个类别的特征向量均值，计算出当前类别的协方差矩阵。

进一步地，计算每个类别的特征向量均值，具体包括：在处理第个类别的数据时，使用第/>个类别的所有样本特征向量，计算每个类别的特征向量均值/>，公式如下：；其中，/>表示数据/>类别的第/>个样本，/>表示第/>个类别的样本总数。样本经过特征提取网络/>得到特征向量/>，将第/>个类别的所有样本的特征向量求和并除以样本总数，得到第/>个类别的特征向量均值/>。第一类数据集中共有S个类别的数据，为类别名称，因此，计算基础阶段所有类别的样本特征向量的均值后，得到基础阶段类均值/>。

进一步地，所述基于每个类别的特征向量均值，计算出当前类别的协方差矩阵，具体包括：得到第个类别的类均值后，使用类均值/>与类内样本特征向量/>计算类的协方差矩阵/>：/>；其中，/>表示数据/>类别的第/>个样本，/>表述第/>个类别的类均值，/>表示第/>个类别的样本总数，计算基础阶段所有类别的样本特征向量的协方差矩阵后，得到基础阶段类协方差矩阵。

计算结束后，将类均值与类协方差矩阵/>添加到存储中。使用这些统计量进行后续训练可以有效地保留对先前学习样本的记忆，因为均值和协方差矩阵包含了类别的关键信息，如中心位置和形状。同时，均值和协方差矩阵能够紧凑地表示一个类别的统计特性，大大减少了存储需求。

进一步地，所述S102之后，所述S103之前还包括：冻结特征提取网络参数的前三层参数，使得特征提取网络保留旧的知识，从而最小化灾难性遗忘，避免对新类的过拟合，又可以向新类进行微调，提高新类的分类准确率。

进一步地，所述S103：如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型；如果是非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型；其中，第二类数据集中的每一个子数据集，在使用之前进行均执行数据增强处理。

进一步地，第二类数据集中的每一个子数据集，在使用之前进行均执行数据增强处理，具体包括：基于基类数据的特征向量均值和协方差矩阵，生成伪基类样本；基于基类数据的特征向量均值和协方差矩阵，对当前子数据集进行处理，生成伪新类样本；将伪基类样本、伪新类样本和当前子数据集合并，作为数据增强后的子数据集。

进一步地，所述基于基类数据的特征向量均值和协方差矩阵，生成伪基类样本，包括：设当前将生成第个基类的数据，取得特征向量均值/>、协方差矩阵/>。对协方差矩阵进行Cholesky分解，得到下三角矩阵/>，其中，/>与/>满足公式：/>；使用torch.randn(1,d)函数生成符合标准正态分布的样本/>，/>。设第/>个基类需生成/>个数据，则按照生成/>的方式，生成m个符合标准正态分布的样本，构成样本集/>。

使用下三角矩阵与标准正态分布样本/>，生成属于/>类的、符合特征向量均值和协方差矩阵/>的多元高斯分布的/>个样本/>：/>；对所有基类计算后，得到所有伪基类样本/>。

应理解地，在第r个小样本类增量阶段，首先使用存储的基类均值和协方差矩阵，生成伪基类数据，并加入当前的小样本训练数据中，对模型进行训练。

进一步地，基于基类数据的特征向量均值和协方差矩阵，对当前子数据集进行处理，生成伪新类样本，包括：针对每个新类的所有样本，计算类均值/>与协方差矩阵/>：；/>；其中，/>为属于类/>的样本，样本/>经过特征提取网络后得到特征向量/>，/>为类/>的样本个数，计算得到类均值/>。使用类均值/>与类/>样本特征向量计算得到协方差矩阵/>。

其次，使用L2范数，计算出与当前新类的类均值最相近的旧类，表述如下：；其中，/>为基类类别总数，通过计算新类t与各基类的类均值的L2范数/>，得到新类/>与各基类的类均值距离。将类均值距离取负，得到距离集合/>。两个类的类均值距离越小，说明两个类的相似度越高；在距离取负后，相似度越高的类，在距离集合/>中保存的数值越大。

在集合中选择与类/>最相近的/>个类别，表述为：/>；其中，/>函数为取距离集合/>中，数值最大的/>个数的索引/>，/>=5。现得到与新类/>最相近的/>个类别集合/>。

根据中类别标签，构造伪新类样本均值/>与协方差矩阵/>，表述如下：；/>；使用/>中的类别标签，取得与类t最相近的k个类别的类均值与协方差矩阵，通过求平均的方式，得到伪新类样本均值/>与协方差矩阵/>。

设当前将生成伪新类的数据，取得特征向量均值/>、协方差矩阵/>。对协方差矩阵进行Cholesky分解，得到下三角矩阵/>，其中，/>与/>满足公式：/>；使用torch.randn(1,d)函数生成符合标准正态分布的样本/>，/>。设第j个基类需生成/>个数据，则按照生成/>的方式，生成c个符合标准正态分布的样本，构成样本集/>。

使用下三角矩阵与标准正态分布样本/>，生成属于/>类的、符合特征向量均值和协方差矩阵/>的多元高斯分布的/>个样本/>，公式如下：/>；每个小样本类增量阶段有n个新类，则生成n个伪新类。

进一步地，因此在第r个小样本类增量阶段，生成使用类均值与协方差矩阵/>生成包含基类共同特征和新类特有特征的、该训练阶段的伪新类样本为：。

应理解地，由于新类数据较少，每个新类只有K个数据，用其训练模型易导致对新类的过拟合。而由于类均值可以表示类别的整体外观，协方差矩阵可以表示类别的某些属性（颜色、形状等），且相似的类别具有相似的整体外观和相似的属性变化范围，因此，本发明使用基类数据的均值与协方差矩阵，结合新类知识生成伪新类样本。

进一步地，所述将伪基类样本、伪新类样本和当前子数据集合并，作为数据增强后的子数据集，包括：将伪基类样本与伪新类样本/>加入当前子训练集/>中，得到数据增强后的子数据集/>；/>。

进一步地，所述S103：如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型，训练过程包括：将第二类数据集中的第一个子数据集，输入到基图像分类网络模型中，当模型的第二总损失函数值不再下降时，停止训练，得到训练后的类增量学习网络模型。

进一步地，所述S103：如果是非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型，训练过程包括：将第二类数据集中的下一个子数据集，输入到前一轮训练后的类增量学习网络模型中，当模型的第二总损失函数值不再下降时，停止训练，得到当前轮训练后的类增量学习网络模型。

第二总损失函数为分类损失函数与蒸馏损失函数的求和结果，所述分类损失函数为：在第r个小样本类增量阶段，使用以及交叉熵损失函数/>计算分类损失，对模型进行训练，表述为：/>；其中，样本/>，其经过特征提取网络/>得到特征向量，再经过分类层/>得到预测的分类类别的概率，使用交叉熵损失函数/>，与样本标签/>计算分类损失/>，以此训练特征提取网络参数/>与分类层参数/>。

所述蒸馏损失函数为：输入样本，/>，知识蒸馏计算如下：；其中，/>为样本/>经过特征提取网络与分类层得到的预测的分类类别的概率，/>为概率中第/>个类别的对应值，/>为蒸馏温度（一般取大于 1 的整数值），得到蒸馏后的概率/>，/>为概率中第/>个类别的对应值。

在第阶段保存模型为teacher模型，当前阶段/>模型为student模型，计算蒸馏损失函数/>，表述如下：/>；/>为teacher模型的分类层输，/>为student模型的输出，/>为二元交叉熵函数。使用蒸馏损失函数/>训练特征提取网络参数/>与分类层参数/>。

上述技术的有益效果是：对模型进行蒸馏，避免对旧知识的灾难性遗忘和对新知识的过拟合。

示例性地，所述方法包括：第一步：小样本类增量的基础阶段，计算每个基类的特征向量均值与类的协方差矩阵，并将其保存在内存中。

第二步：使用基础阶段训练样本，旋转0°、90°、180°、270°构造自监督训练样本以及旋转角度标签，并添加旋转预测网络。使用自监督训练样本，计算旋转预测损失，以此训练特征提取网络参数与旋转预测网络参数。

第三步：使用基类数据集，经过特征提取网络得到特征向量，再经过分类层得到预测的分类类别的概率，使用交叉熵损失函数与样本标签计算分类损失，以此训练特征提取网络参数与分类层参数。第四步：在基础阶段训练结束后，冻结特征提取网络参数的前三层浅层参数。

第五步：在第r个小样本类增量阶段，首先生成基类数据。对于每个基类，取得特征向量均值、协方差矩阵。对协方差矩阵进行Cholesky分解，得到下三角矩阵。生成符合标准正态分布的样本集数组，生成第j个基类的伪基类样本。进而得到所有伪基类样本。

第六步：针对r阶段的每个新类t的所有样本，计算类均值与协方差矩阵。使用L2范数，计算出与本个新类的类均值最相近的top-k个旧类，并使用类均值和协方差矩阵构造伪新类样本均值与协方差矩阵，生成第t个新类的伪新类样本。进而得到所有伪新类样本。

第七步：使用伪基类样本、伪新类样本与本阶段训练集，计算分类损失。使用本阶段训练集，计算蒸馏损失。使用分类损失和蒸馏损失训练特征提取网络参数与分类层参数。

第八步：重复第五步至第七步的学习、训练过程，直到小样本类增量的所有阶段结束。在最终模型上输入需要进行预测的任务数据，返回最终预测结果。

本发明中的方法能有效解决小样本类增量学习设置中随着数据的动态到达产生的对旧类的灾难性遗忘以及对新类的过拟合问题。本发明中的方法使用基类的数据特征作为分布先验，保存基类数据的平均特征以及协方差矩阵，无需为每个类保存单独的样本，减少了对内存的消耗，保证数据隐私性。本发明结合旧类数据特征以及新类数据特征得到数据分布，从中采样生成新类数据，丰富了新类的样本，避免只使用少量样本带来的过拟合问题。本发明采用辅助自监督任务丰富基类数据，并针对模型进行知识蒸馏的方式，缓解增量学习中灾难性遗忘的问题。本发明不需要保存旧类样本，并丰富新类样本，在保证隐私性的基础之上，实现了小样本类增量学习任务的性能要求。

实施例二，本实施例提供了基于数据增强的小样本图像类增量学习系统，包括：模型构建模块，其被配置为：构建待训练图像分类模型；构建第一类数据集和第二类数据集，第一类数据集的数据也称为基类数据；第二类数据集的数据也称为新类数据；其中，所述第二类数据集，包括：T个子数据集，每个子数据集中包含N个类别、每个类别包含K个图像；T个子数据集彼此之间不存在相同类别的图像；T、N和K均为正整数；第一训练模块，其被配置为：使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型；第二训练模块，其被配置为：如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型；如果是非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型；循环模块，其被配置为：重复执行第二训练模块，直至第二类数据集全部均参与训练后，得到最终训练后的类增量学习网络；分类输出模块，其被配置为：获取待分类的图像，将待分类的图像与任一子数据集合并，将合并后的数据集输入到最终训练后的类增量学习网络中，得到待分类图像的分类标签。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于数据增强的小样本图像类增量学习方法，其特征是，包括：

（1）构建待训练图像分类模型；构建第一类数据集和第二类数据集，第一类数据集的数据也称为基类数据；第二类数据集的数据也称为新类数据；其中，所述第二类数据集，包括：T个子数据集，每个子数据集中包含N个类别、每个类别K个图像；T个子数据集彼此之间不存在相同类别的图像；T、N和K均为正整数；

（2）使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型；

（3）如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型；

如果是非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型；

（4）重复执行（3），直至第二类数据集全部均参与训练后，得到最终训练后的类增量学习网络；

（5）获取待分类的图像，将待分类的图像输入到最终训练后的类增量学习网络中，得到待分类图像的分类标签。

2.如权利要求1所述的基于数据增强的小样本图像类增量学习方法，其特征是，构建待训练图像分类模型，其中，待训练的图像分类模型，包括：特征提取网络，特征提取网络的输出端与分类器的输入端连接，特征提取网络的输出端还与旋转预测网络的输入端连接；特征提取网络的输入端用于输入图像，分类器的输出端用于输出图像的分类标签，旋转预测网络的输出端用于输出图像的旋转角度。

3.如权利要求1所述的基于数据增强的小样本图像类增量学习方法，其特征是，使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型，具体训练过程包括：

将第一类数据集，输入到待训练图像分类模型中，当模型的第一总损失函数值不再下降时，停止训练，得到训练后的图像分类模型，训练后的图像分类模型被称之为基图像分类网络模型；

所述第一总损失函数是分类损失函数和旋转预测损失函数的求和结果，其中，分类损失函数为：

；

其中，表示分类损失函数，基类数据集/>的样本/>经过特征提取网络/>得到特征向量/>，/>再经过分类层/>得到预测的分类类别的概率/>，使用交叉熵损失函数/>，与样本/>的标签/>计算分类损失/>，以此训练特征提取网络/>的参数/>与分类层的参数/>；

旋转预测损失函数为：

；

其中，表示旋转预测损失函数，样本/>经过特征提取网络/>得到特征向量/>，再经过旋转预测网络/>得到预测的旋转角度的概率/>，使用交叉熵损失函数，与样本旋转标签/>计算旋转预测损失/>，以此训练特征提取网络参数/>与旋转预测网络参数/>。

4.如权利要求1所述的基于数据增强的小样本图像类增量学习方法，其特征是，所述使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型之后，如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练之前，还包括：

将第一类数据集，输入到基图像分类网络模型中，输出每个图像的特征向量；计算每个类别的特征向量均值；

基于每个类别的特征向量均值，计算出当前类别的协方差矩阵；

计算每个类别的特征向量均值，具体包括：

在处理第个类别的数据时，使用第/>个类别的所有样本特征向量，计算每个类别的特征向量均值/>，公式如下：

；

其中，表示数据/>类别的第/>个样本，/>表示第/>个类别的样本总数；样本/>经过特征提取网络/>得到特征向量/>，将第/>个类别的所有样本的特征向量求和并除以样本总数，得到第/>个类别的特征向量均值/>；第一类数据集中共有S个类别的数据，为类别名称，因此，计算所有类别的样本特征向量的均值后，得到均值/>。

5.如权利要求4所述的基于数据增强的小样本图像类增量学习方法，其特征是，所述基于每个类别的特征向量均值，计算出当前类别的协方差矩阵，具体包括：

得到第个类别的类均值后，使用类均值/>与类内样本特征向量/>计算类的协方差矩阵/>，公式如下：

；

其中，表示数据/>类别的第/>个样本，/>表述第/>个类别的类均值，/>表示第/>个类别的样本总数，计算基础阶段所有类别的样本特征向量的协方差矩阵后，得到基础阶段类协方差矩阵/>。

6.如权利要求1所述的基于数据增强的小样本图像类增量学习方法，其特征是，如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型；如果是非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型；其中，第二类数据集中的每一个子数据集，在使用之前进行均执行数据增强处理；

第二类数据集中的每一个子数据集，在使用之前进行均执行数据增强处理，具体包括：基于基类数据的特征向量均值和协方差矩阵，生成伪基类样本；

基于基类数据的特征向量均值和协方差矩阵，对当前子数据集进行处理，生成伪新类样本；将伪基类样本、伪新类样本和当前子数据集合并，作为数据增强后的子数据集。

7.如权利要求6所述的基于数据增强的小样本图像类增量学习方法，其特征是，所述基于基类数据的特征向量均值和协方差矩阵，生成伪基类样本，包括：

设当前将生成第个基类的数据，取得特征向量均值/>、协方差矩阵/>；对协方差矩阵进行分解，得到下三角矩阵/>，其中，/>与/>满足公式：

；

生成符合标准正态分布的样本，/>；设第/>个基类需生成/>个数据，则按照生成的方式，生成m个符合标准正态分布的样本，构成样本集/>；

使用下三角矩阵与标准正态分布样本/>，生成属于/>类的、符合特征向量均值/>和协方差矩阵/>的多元高斯分布的/>个样本/>，公式如下：

；

对所有基类计算后，得到所有伪基类样本。

8.如权利要求6所述的基于数据增强的小样本图像类增量学习方法，其特征是，所述基于基类数据的特征向量均值和协方差矩阵，对当前子数据集进行处理，生成伪新类样本，包括：

首先，针对每个新类的所有样本，计算类均值/>与协方差矩阵/>：

；

其中，为属于类/>的样本，样本/>经过特征提取网络后得到特征向量/>，/>为类/>的样本个数，计算得到类均值/>；使用类均值/>与类/>样本特征向量计算得到协方差矩阵；

其次，使用L2范数，计算出与当前新类的类均值最相近的旧类，表述如下：

；

其中，为基类类别总数，通过计算新类t与各基类的类均值的L2范数/>，得到新类/>与各基类的类均值距离；将类均值距离取负，得到距离集合/>；在集合/>中选择与类最相近的/>个类别，表述如下：/>；其中，/>函数为取距离集合/>中，数值最大的/>个数的索引/>；现得到与新类/>最相近的/>个类别集合/>；

根据中类别标签，构造伪新类样本均值/>与协方差矩阵/>，表述如下：；/>；使用/>中的类别标签，取得与类t最相近的k个类别的类均值与协方差矩阵，通过求平均的方式，得到伪新类样本均值/>与协方差矩阵/>；

设当前将生成伪新类的数据，取得特征向量均值/>、协方差矩阵/>；对协方差矩阵进行分解，得到下三角矩阵/>，其中，/>与/>满足公式：/>；

生成符合标准正态分布的样本，/>；设第j个基类需生成/>个数据，则按照生成的方式，生成c个符合标准正态分布的样本，构成样本集/>；

使用下三角矩阵与标准正态分布样本/>，生成属于/>类的、符合特征向量均值/>和协方差矩阵/>的多元高斯分布的/>个样本/>，公式如下：/>；每个小样本类增量阶段有n个新类，则生成n个伪新类；在第r个小样本类增量阶段，生成使用类均值/>与协方差矩阵/>生成伪新类样本为：

。

9.如权利要求1所述的基于数据增强的小样本图像类增量学习方法，其特征是，如果是非首次执行，则使用第二类数据集中的下一个子数据集，对前一轮训练后的类增量学习网络模型进行训练，得到当前轮训练后的类增量学习网络模型，训练过程包括：

将第二类数据集中的下一个子数据集，输入到前一轮训练后的类增量学习网络模型中，当模型的第二总损失函数值不再下降时，停止训练，得到当前轮训练后的类增量学习网络模型；

所述第二总损失函数为分类损失函数与蒸馏损失函数的求和结果，所述分类损失函数为：在第r个小样本类增量阶段，使用以及交叉熵损失函数/>计算分类损失，对模型进行训练，表述如下：

；

其中，样本，其经过特征提取网络/>得到特征向量，再经过分类层/>得到预测的分类类别的概率，使用交叉熵损失函数/>，与样本标签/>计算分类损失/>，以此训练特征提取网络参数/>与分类层参数/>；

所述蒸馏损失函数为：输入样本，/>，知识蒸馏计算如下：

；

其中，为样本/>经过特征提取网络与分类层得到的预测的分类类别的概率，/>为概率中第/>个类别的对应值，/>为蒸馏温度，得到蒸馏后的概率/>，/>为概率中第/>个类别的对应值；在第/>阶段保存模型为teacher模型，当前阶段/>模型为student模型，计算蒸馏损失函数/>，表述如下：

；

其中，为teacher模型的分类层输，/>为student模型的输出，/>为二元交叉熵函数；使用蒸馏损失函数/>训练特征提取网络参数/>与分类层参数/>。

10.基于数据增强的小样本图像类增量学习系统，其特征是，包括：

模型构建模块，其被配置为：构建待训练图像分类模型；构建第一类数据集和第二类数据集，第一类数据集的数据也称为基类数据；第二类数据集的数据也称为新类数据；其中，所述第二类数据集，包括：T个子数据集，每个子数据集中包含N个类别、每个类别K个图像；T个子数据集彼此之间不存在相同类别的图像；T、N和K均为正整数；

第一训练模块，其被配置为：使用第一类数据集，对待训练图像分类模型进行训练，得到基图像分类网络模型；

第二训练模块，其被配置为：如果是首次执行，则使用第二类数据集中的第一个子数据集，对基图像分类网络模型进行训练，得到训练后的类增量学习网络模型；

循环模块，其被配置为：重复执行第二训练模块，直至第二类数据集全部均参与训练后，得到最终训练后的类增量学习网络；

分类输出模块，其被配置为：获取待分类的图像，将待分类的图像输入到最终训练后的类增量学习网络中，得到待分类图像的分类标签。