CN114357221A

CN114357221A - 一种基于图像分类的自监督主动学习方法

Info

Publication number: CN114357221A
Application number: CN202210250277.4A
Authority: CN
Inventors: 黄圣君; 罗世发
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-04-15
Anticipated expiration: 2042-03-15
Also published as: CN114357221B

Abstract

本发明公开了一种基于图像分类的自监督主动学习方法，其包括步骤：获取图像数据集；设置迭代次数以及阈值；自监督网络对数据进行预训练处理，得到特征映射；每轮迭代都根据特征映射中样本到已知类别簇中心的距离对候选未标注样本进行评估；向人工专家查询合适的样本；人工专家对请求查询的样本标注后加入已标注池，更新评估函数与簇中心；样本输入分类器训练优化模型，记录准确率，直到模型达到预期的性能或者查询样本超过设定的上限停止迭代。本发明充分利用自监督网络学习到样本的特征映射来构建主动学习指标，指导主动学习策略进行样本挑选，从而节约标注代价。

Description

一种基于图像分类的自监督主动学习方法

技术领域

本发明属于数字图像自动标注技术领域，尤其涉及一种基于图像分类的自监督主动学习方法。

背景技术

传统的主动学习框架中，以图像分类任务为例，模型通过查询函数选择未标注样本让专家标注，然后扩充标记数据集，用更新后的标记数据迭代优化自身的分类器，从而选择最有价值的样本来降低标注代价。显然，这一过程中用于挑选样本的模型与用于下游分类任务的模型是同一个。这样的框架存在一定的局限性：首先，由于样本筛选与下游任务由同一个模型承担，那么样本查询策略也会受到分类器模型本身的制约，查询策略作为主动学习算法的核心部分，可以考虑引入一个新的模块来实现样本挑选功能，从而达到比原来挑选到模型更需要的样本；其次主动学习算法只查询了部分无标注样本去标记，而其余的无标注样本的无监督信息容易被忽视。

发明内容

发明目的：本发明的目的在于针对现有技术的不足，减少真实任务中目标数据中所含有的冗余性，本发明提出一种基于图像分类的自监督主动学习方法，以进一步减少实验中的样本标注代价。

技术方案：本发明的基于图像分类的自监督主动学习方法，包括以下步骤：

步骤1、获取少量有标注图像以及大量未标注图像；

步骤2、设置迭代次数t和阈值Q；

步骤3、自监督网络对数据进行预训练处理，得到所有样本的特征映射；

步骤4、每一轮迭代过程，都使用查询策略

对候选未标注样本进行评估，根据评估结果，向人工专家查询样本；

步骤5、人工专家对请求查询的未标注样本进行标注，标注后的样本合并到已标注池，更新评估函数与已标注样本的类别簇中心；

步骤6、每次挑选样本后送入分类器

训练优化模型，记录准确率；

步骤7、返回步骤4，直到模型达到预期的性能或者查询样本超过设定的上限停止迭代；

步骤8、使用分类器

进行对图像类别预测任务。

进一步地，步骤3中得到样本特征映射的方法为：

步骤2.1：对于原始图像集中的每一张图像，分别进行两种随机数据增强，生成两张图像，数据增强后的图像向量

分别都输入到自监督对比学习网络中，使用的神经网络编码器

是

网络，具体过程表示为：

其中，

是经过数据增强后的特征向量，

是编码器的输出；

步骤2.2：使用余弦相似度来衡量两张图片的相似度：

A，B分别表示经过数据增强生成的两张图片对应的向量；

步骤2.3：一对相似的样本之间的损失函数被设置为：

其中

在

时为1，若

则为0，

是可调节的温度参数，

是余弦相似度函数，z_i,z_j是原始图像在两种数据增强后经过编码器后输出的新的向量表示；N是一个batch的图像数目，经过数据增强后产生2N张图像，

是在2N张图像中除

外的其它所有图像；

步骤2.4：假设一共有N个样本，分别经过增强后得到2N个样本，那么最终的损失函数为

；

其中，

是使用步骤2.3中的损失函数来计算第

张图像与第 2k张图像之间的样本相似度损失，

是调换两张图像顺序后重新计算的损失，最后在所有图像损失计算完毕后求取平均值；

步骤2.5：自监督网络训练收敛后，对每个样本输出一个n维特征向量

，以供主动学习算法评估未标注样本的价值。

进一步地，步骤4中查询策略L的方法为：

对两个样本

以及

计算距离：

根据少量已知类别的样本，计算每一个类别的簇中心，若总共k类，则k个类别簇中心表示为

，对于某个无标记样本，计算它到各个类别簇的距离，比较并得到距离最短的距离

，其中i表示某个具体的类别，

表示第 j个样本到第i类簇中心的距离；该样本 j被分到距离最近的这一类中，记录该样本到簇中心的距离，距离越远则模型对该样本的置信度越小；当所有未标注样本都计算出距离后，计算其中距离最远的前k项，距离越远，则表示模型对这一样本分配正确的可能性越低，这一批样本应被选择标注。

进一步地，步骤5中更新评估函数的方法为：专家标注了已挑选样本后，初始划分的类别中将增添新的样本，重新计算当前的类别簇中心，并再次比较新的未标注样本到新的簇中心距离，选取低置信度的样本来标注；在该过程中，每轮专家新标注样本后，标记池以及无标记样本池都会随之更新，即：

，

其中，

是有标注样本池，

是无标注样本池，

为经过专家查询并标注的那一批样本。

有益效果：与现有技术相比，本发明具有如下显著优点：本发明提出了一种基于图像分类的自监督主动学习方法，传统的主动学习在处理图像分类任务时，往往训练一个分类器，该分类器模型根据一定的查询函数，对无标注样进行评判是否需要标注，以这种方式选出合适的样本标注后再加入训练，迭代自身的分类模型，过程中分类任务与挑选样本的功能均由同一个模型完成。本发明提出了一种使用辅助模型的方法，通过引入自监督模型作为辅助模型，先用对比学习学习特征表示，在此基础上进行样本筛选，而分类任务仍由原来分类器完成，从而达到比原有模型更好的挑选效果。本发明为自监督模型训练的特征空间下设计了专门的样本评价指标，将无标注样本距离已知类别样本簇中心最近的簇，视为该样本应被分到类别，该距离作为分类可能性的评估量，选取拥有最长距离的样本进行标注，提出了迭代更新簇的方法，通过多次选取样本，选择出对模型训练最有帮助的那一批样本进行标注，希望模型能够减少对样本标注的代价。因此，本发明提出一种基于图像分类的自监督主动学习方法具有重要的现实意义，可以充分利用原有样本信息，利用少量的标注样本达到接近全部标注样本的效果。

附图说明

图1是本发明实施例中一种基于图像分类的自监督主动学习方法的流程示意图；

图2是本发明实施例中自监督网络模型的结构示意图；

图3是本发明实施例中主动学习模型结构示意图；

图4是本发明实施例中查询函数评估样本的流程示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示为本发明的流程示意图。在该方法中：一开始我们收集了少量有标注样本以及大量无标注样本，利用自监督网络来学习到所有样本的特征映射。用少量已标注样本的特征向量计算各个类别的簇中心，然后计算其它未标注样本到簇中心的距离作为模型对未标注样本的置信度的衡量。距离簇中心越远的样本，则置信度越小，越能为模型提供更大的帮助。注意到，专家每轮挑选完样本后，由于新增了已知类别的样本，那么类别簇中心也应该重新计算。在整个过程中，自监督网络收敛后模型参数不再训练，每个样本对应的特征表示也固定，每轮变化的仅是每一个种类的簇中心以及分类网络的参数，即自监督网络为主动学习挑选合适的样本，样本被标注后加入到分类网络的下游任务。自监督网络本身不需要参与下游任务，这与传统的主动学习算法利用同一个网络挑选样本并用于下游任务有着重大区别。分类网络的训练数据为一开始的少量有标注数据，加上在自监督指导下挑选给专家进行标注后得到的数据。

如图2所示为自监督网络模型的结构示意图。对比学习是自监督算法中十分有效的一类方法。本发明在自监督网络部分使用的是对比学习中的SimCLR算法。同一个图像经过数据增强后应该仍然属于同一类别，SimCLR算法在特征空间中将增强后得到的两个样本距离拉近，非同一类的样本之间的距离拉远，直到算法收敛便可以学习到各个样本的特征。该算法包括四个主要的组件：随机数据增强模块，神经网络编码器，预测头函数以及对比损失函数。自监督网络收敛后，可以输出有标注以及无标注样本的特征向量。其中有标注类别的特征向量用于计算当前各个类别的簇中心，无标注样本的特征向量计算到簇中心的距离来估计模型对该无标注样本的置信度情况。

如图3所示为本发明的主动学习模型结构示意图。在训练好的特征表示上分别计算出有标记样本的簇中心以及无标记样本的特征位置。对于每个无标记样本，以其离各个已知类别簇中最短的欧式距离作为它到该类别的距离。利用这些最短距离，将每个无标记样本类别从大到小进行排序，距离越大则表示我们最需要标注的样本。取前k个作为一个batch交给标注者进行标记，将标记后的样本从无标记池中取出并入标记池，并更新类别簇中心，反复迭代，直到挑选出足够的样本让分类模型达到收敛。

如图4所示为本发明的查询函数评估样本的流程示意图。对于两个样本

以及

，计算欧式距离：

在目前已有标注样本的基础上，计算同一类样本的簇中心

。对于某个无标记样本，计算他到各个每个类别簇的最短距离

，其中 i表示某个具体的类别，

每一次筛选的k值不能过大，否则容易挑选到冗余样本，一开始模型性能未稳定，k值应该较小，待模型逐渐收敛，可以适当增大每轮挑选的样本数目，并进行多次查询标注。标注以后，新的簇中心被重新计算，并再次选取新的样本来标注，有标记以及无标记样本池也会随之更新，即

，

其中，

是有标注样本池，

是无标注样本池，

为经过专家查询并标注的那一批样本。

实施例在CIFAR10与CIFAR100上对提出的自监督主动采样算法进行了验证。分别使用50000张图片作为训练集以及10000张图片作为测试集。对比方法采用（1）监督学习方法，使用全部标记数据；（2）随机采样50%的标记数据；（3）基于熵的不确定采样方法采样50%数据；（4）本发明提出的自监督主动学习方法采样50%的数据。使用全部样本标注在CIFAR10与CIFAR100的准确率为0.931和0.684，而本发明方法的准确率为0.927和0.681，且高于对比方法二和方法三。充分表明本发明能够在CIFAR数据集上节约50%的标注数据。

Claims

1.一种基于图像分类的自监督主动学习方法，其特征在于，包括以下步骤：

步骤1、获取少量有标注图像以及大量未标注图像；

步骤2、设置迭代次数t和阈值Q；

步骤4、每一轮迭代过程，都使用查询策略

步骤6、每次挑选样本后送入分类器

训练优化模型，记录准确率；

步骤8、使用分类器

进行对图像类别预测任务。

2.根据权利要求1所述的基于图像分类的自监督主动学习方法，其特征在于，步骤3中得到样本特征映射的方法为：

是

网络，具体过程表示为：

其中，

是经过数据增强后的特征向量，

是编码器的输出；

步骤2.2：使用余弦相似度来衡量两张图片的相似度：

A，B分别表示经过数据增强生成的两张图片对应的向量；

步骤2.3：一对相似的样本之间的损失函数被设置为：

其中

在

时为1，若

则为0，

是可调节的温度参数，

是在2N张图像中除

外的其它所有图像；

；

其中，

是使用步骤2.3中的损失函数来计算第

张图像与第 2k张图像之间的样本相似度损失，

，以供主动学习算法评估未标注样本的价值。

3.根据权利要求1所述的基于图像分类的自监督主动学习方法，其特征在于，步骤4中查询策略L的方法为：

对两个样本

以及

计算距离：

，其中i表示某个具体的类别，

4.根据权利要求1所述的基于图像分类的自监督主动学习方法，其特征在于，步骤5中更新评估函数的方法为：专家标注了已挑选样本后，初始划分的类别中将增添新的样本，重新计算当前的类别簇中心，并再次比较新的未标注样本到新的簇中心距离，选取低置信度的样本来标注；在该过程中，每轮专家新标注样本后，标记池以及无标记样本池都会随之更新，即：

，

其中，

是有标注样本池，

是无标注样本池，

为经过专家查询并标注的那一批样本。