CN113191385B

CN113191385B - 一种基于预训练标注数据不可知的图像分类自动标注方法

Info

Publication number: CN113191385B
Application number: CN202110318366.3A
Authority: CN
Inventors: 钟昊文; 陈岱渊; 单海军; 杨非; 傅家庆; 俞再亮
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-06-03
Anticipated expiration: 2041-03-25
Also published as: CN113191385A

Abstract

本发明公开了一种基于预训练标注数据不可知的图像分类自动标注方法，包括如下步骤：S1，获取待标注图像，收集预训练图像分类模型；S2，将预训练图像分类模型拆分成特征提取模型与标签预测模型，并初始化，固定标签预测模型参数，不参与后续迁移训练；S3，约束特征提取模型，使自动标注模型的输出具体类别确定，整体分布离散；S4，对特征提取模型输出特征进行聚类；S5，筛选出大小超过阈值的聚类簇，所对应的类别组成为待标注图像标签空间；S6，给所有待标注图像打上伪标签；S7，重新聚类并分配伪标签，对特征提取模型进行有监督训练；S8，迭代S3至S7；S9，使用迁移后的自动标注模型对待标注图像进行推理，得到标注结果。

Description

一种基于预训练标注数据不可知的图像分类自动标注方法

技术领域

本发明涉及深度学习和计算机视觉领域，尤其是涉及一种基于预训练标注数据不可知的图像分类自动标注方法。

背景技术

随着深度学习和计算机视觉研究的飞速发展，其有关应用已经影响了我们生活的方方面面。作为计算机视觉领域的一个典型任务---图像分类，其方法已被广泛应用在人脸识别、自动驾驶和场景识别等任务中。但训练一个好的图像分类模型依赖于大量的标注数据，利用人工标注图像往往会耗费大量的人力和时间成本。因此，如何进行高效的图像标注受到了越来越多的关注，自动标注可以有效地缓解上述问题。

现有的自动标注方法往往需要将待标注数据与预训练数据混合进行半监督训练。但是这样的方法存在两个问题：1、预训练数据与待标注数据可能存在较大分布差异，模型泛化性能难以保证；2、预训练数据集占用空间很大，如图像分类中的ImageNet数据集大小有140G。存储和传输均不方便，训练时间过长也降低了自动标注的效率。与之相对的，在ImageNet数据集上训练好的ResNet50模型大小仅有90M。因此，在预训练标注数据不可知的情况下，充分利用已训练好的模型参数可以极大提高自动标注效率。

发明内容

为解决现有技术的不足，通过自动化标注的手段，实现降低人工标注成本，提高图像分类任务标注的效率，提升自动标注现实应用价值的目的，本发明采用如下的技术方案：

一种基于预训练标注数据不可知的图像分类自动标注方法，包括如下步骤：

S1，获取待标注图像，离线收集预先训练的图像分类任务相对应的图像分类模型；

S2，将预训练图像分类模型拆分成特征提取模型与标签预测模型，并用预训练图像分类模型初始化拆分迁移后的自动标注模型，进一步固定标签预测模型参数，不参与后续迁移训练；

S3，使用信息最大化损失约束自动标注模型的特征提取模型，使自动标注模型的输出具体类别确定，整体分布离散；

S4，通过加权聚类方法，对自动标注模型的特征提取模型输出特征进行聚类；

S5，根据所获得聚类簇大小，使用大津法自适应的获取聚类簇大小的阈值，筛选出大小超过阈值的聚类簇，所对应的类别组成为待标注图像标签空间

排除预训练模型中无关类别的影响；

S6，计算所有待标注图像与每个共有类别的距离，并据此给所有待标注图像打上伪标签；

S7，使用自监督方法对待标注图像重新聚类，根据重新聚类后的聚类中心分配伪标签，并对特征提取模型进行有监督训练；

S8，迭代进行S3至S7对图像自动标注模型进行训练；

S9，使用迁移后的自动标注模型对待标注图像进行推理，得到标注结果。

进一步地，所述步骤S1中获取待标注图像X_i(i＝1，2...N)，数量为N；获得预先训练的图像分类模型M，M对应的标签空间C包含K个类别，有k＝1，2...K。

进一步地，所述步骤S2包括如下步骤：

S2.1，根据网络层类别，拆分预训练图像分类模型M，其中卷积层为特征提取模型G，全连接层为标签预测模型CLS，拆分迁移后的图像自动标注模型M′，分为特征提取模型G′与标签预测模型CLS′；

S2.2，使用G的参数，对G′的参数进行初始化，并在之后的迁移过程继续训练，使用CLS的参数对CLS′的参数进行初始化，并在之后的迁移过程中固定，不再更新CLS′的参数。

进一步地，所述步骤S3包括如下步骤：

S3.1，将待标注图像X_i输入特征提取模型G′，得到对应高维特征

D为高维特征的维度，对于高维特征f′_i，d，经过标签预测模型CLS′得到分类特征h′_i，k∈R^N×K，经过Softmax运算后得到分类概率

f′_i，d＝G′(X_i)

h′_i，k＝CLS′(f′_i，d)

S3.2，计算信息最大化损失，公式如下：

其中，L_ent表示熵最小化损失，L_div表示标签多样性损失，熵最小化损失保证待标注图片分类置信度提高，标签多样性损失避免模型将所有待标注图像分为同一类别。

进一步地，所述步骤S4，使用当前的标签预测模型CLS′得到分类概率p′_i，k对高维特征f′_i，d进行加权聚类，获得K个聚类中心，对于每一个类别k策略如下：

进一步地，所述步骤S5，遍历聚类簇大小数组W＝[w₁，w₂，...，w_K]，依次取当前w大小作为阈值t，通过阈值t，将预训练标签空间分为共有类别标签空间S和独有类别标签空间O，其中S表示大小大于阈值t的聚类簇，O表示大小小于阈值t的聚类簇；

σ²＝p_S·p_O·(mean_S-mean_O)²

其中，p_S表示共有类别占总类别比例，p_O表示独有类别占总类别比例，mean_S表示共有类别中所有聚类簇大小的均值，mean_o表示独有类别中所有聚类簇大小的均值，σ²表示共有类别集合和独有类别集合间方差，t^*表示聚类簇大小的最优阈值。

进一步地，所述步骤S6，根据样例f′_i，d与聚类中心

的余弦距离分配伪标签：

进一步地，所述步骤S7包括如下步骤：

S7.1，根据伪标签y_i反馈更新聚类中心得

其中

表示对应样例的独热编码(one-hot)，获取自监督的伪标签：

S7.2，通过交叉熵损失，对特征提取模型G′进行有监督训练，损失如下：

进一步地，所述步骤S8中，训练结束条件包括如下一项或多项的结合：

设置最大训练时间T，到达最大训练时间则结束训练；

设置最大训练轮次eps，到达最大训练轮次则结束训练；

设置loss变化阈值，若训练loss变化小于阈值则结束训练。

进一步地，所述步骤S1中的图像分类模型为性能SOTA的图像分类模型，模型选择包括：VGG、ResNet、DenseNet、Inception。

本发明的优势和有益效果在于：

本发明极大地减少了图像分类任务标注中人工的介入，显著节约了标注成本，提升了标注效率；在不获得任何标注信息的情况下，通过对预训练模型的迁移实现自动标注精度的大幅提升，同时降低了大规模数据的存储和传输成本；模型迁移方法在面对较大分布差异时也可以保证模型的泛化性能。

附图说明

图1是本发明的方法流程图。

图2是本发明中图像自动标注模块的结构图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1、2所示，本发明公开了一种基于预训练标注数据不可知的图像分类自动标注方法，包括以下步骤：

步骤一，获取待标注图像X_i(i＝1，2...N)，数量为N。离线收集预先训练的图像分类任务相对应的性能SOTA的图像分类模型。具体地，可参考以下但不仅限于以下的模型选择：VGG、ResNet、DenseNet、Inception。

作为一种可选的实施方式，获得预先训练的图像分类模型M，M对应的标签空间C包含K个类别，有k＝1，2...K。例如，在ImageNet上预训练的ResNet50网络，此时，图像分类模型M为ResNet50，标签空间C中的类别总数K＝1000。

步骤二，将预训练模型拆分成特征提取器与分类器，并用预训练模型初始化自动标注模型，进一步固定分类器参数，不参与后续迁移训练，具体的：

S2.1，根据网络层类别拆分预训练图像分类模型M，其中卷积层为特征提取模型G，全连接层为标签预测模型CLS，与之类似的，拆分迁移后的图像自动标注模型M′为特征提取模型G′与标签预测模型CLS′；

S2.2，使用G的参数对G′的参数进行初始化，并在之后的迁移过程继续训练，使用CLS的参数对CLS′的参数进行初始化，并在之后的迁移过程中固定，即不再更新CLS′的参数。

步骤三，使用信息最大化损失约束自动标注模型的特征提取器，使自动标注模型的输出具体类别确定，整体分布离散，具体的：

(N为待标注图像X_i的总个数，D为高维特征的维度)，对于特征f′_i，d，经过标签预测模型CLS′得到分类特征h′_i，k∈R^N×K，经过Softmax运算后可以得到分类概率

f′_i，d＝G′(X_i)

h′_i，k＝CLS′(f′_i，d)

S3.2，计算信息最大化损失，公式如下：

具体的，信息最大化损失包含熵最小化损失和标签多样性损失，熵最小化损失保证待标注图片分类置信度提高，标签多样性损失避免模型将所有待标注图像分为同一类别。

步骤四，通过加权聚类方法对自动标注模型的特征提取器输出特征进行聚类，具体的：

S4.1，使用当前的标签预测模型CLS′得到分类概率p′_i，k对高维特征f′_i，d进行加权聚类，获得K个聚类中心，对于每一个类别k策略如下：

步骤五，根据所获得聚类簇大小，使用大津法自适应的获取聚类簇大小的阈值t^*，筛选大小超过阈值的聚类簇所对应的类别组成为待标注图像标签空间

排除预训练模型中无关类别的影响，具体的：

遍历聚类簇大小数组W＝[w₁，w₂，...，w_K]依次取当前w大小作为阈值t，通过阈值t可以将预训练标签空间分为共有类别标签空间S和独有类别标签空间O，其中S表示大小大于阈值t的聚类簇，O表示大小小于阈值t的聚类簇。

σ²＝p_S·p_O·(mean_S-mean_O)²

步骤六，计算所有样例与每个共有类别的距离，并据此给所有待标注样例打上伪标签，具体的：

S6.1，根据样例f′_i，d与聚类中心

的余弦距离分配伪标签：

步骤七，使用自监督方法对待标注样例重新聚类，并根据重新聚类后的聚类中心分配伪标签；

S7.1，根据伪标签y_i反馈更新聚类中心得

其中

表示对应样例的独热编码(one-hot)：

S7.2获取自监督的伪标签后，通过交叉熵损失进行有监督训练，损失如下：

步骤八，迭代进行第三步骤至第八步骤对图像自动标注模型M′进行训练，训练结束条件可参考以下但不仅限于以下的选择：

设置最大训练时间T，到达最大训练时间则结束训练；

设置最大训练轮次eps，到达最大训练轮次则结束训练；

设置loss变化阈值，若训练loss变化小于阈值则结束训练。

步骤九，使用迁移后的自动标注模型M′对待标注样例X_i进行推理得到标注结果。

下表1是基于本发明上述实例所提供的方法得到的自动标注准确率结果，可以看出，本发明在标注数据不可知的情况下，仅通过对模型参数进行迁移，分类性能有很好的提升。

方法	ResNet50	本实例所述方法
			准确率	69.7％	86.4％

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于预训练标注数据不可知的图像分类自动标注方法，其特征在于包括如下步骤：

S1，获取待标注图像，收集预先训练的图像分类任务相对应的图像分类模型；

S3，使用信息最大化损失约束特征提取模型，使自动标注模型的输出具体类别确定，整体分布离散；

S5，根据所获得聚类簇大小，使用大津法自适应的获取聚类簇大小的阈值，筛选出大小超过阈值的聚类簇，所对应的类别组成为待标注图像标签空间，所述待标注图像标签空间即共有类别标签空间；

S6，计算待标注图像与每个共有类别的距离，并据此给待标注图像打上伪标签；

S8，迭代进行S3至S7对图像自动标注模型进行训练；

2.如权利要求1所述的一种基于预训练标注数据不可知的图像分类自动标注方法，其特征在于所述步骤S1中获取待标注图像X_i，i＝1,2…N，数量为N；获得预先训练的图像分类模型M，M对应的标签空间C包含K个类别，有k＝1,2…K。

3.如权利要求2所述的一种基于预训练标注数据不可知的图像分类自动标注方法，其特征在于所述步骤S2包括如下步骤：

4.如权利要求3所述的一种基于预训练标注数据不可知的图像分类自动标注方法，其特征在于所述步骤S3包括如下步骤：

D为高维特征的维度，对于高维特征f′_i，d，经过标签预测模型CLS′得到分类特征h′_i,k∈R^N×K，经过Softmax运算后得到分类概率

f′_i，d＝G′(X_i)

h′_i，k＝CLS′(f′_i，d)

S3.2，计算信息最大化损失，公式如下：

其中，L_ent表示熵最小化损失，L_div表示标签多样性损失。

5.如权利要求4所述的一种基于预训练标注数据不可知的图像分类自动标注方法，其特征在于所述步骤S4，使用当前的标签预测模型CLS′得到分类概率p′_i，k对高维特征f′_i，d进行加权聚类，获得K个聚类中心，对于每一个类别k策略如下：

6.如权利要求1所述的一种基于预训练标注数据不可知的图像分类自动标注方法，其特征在于所述步骤S5，遍历聚类簇大小数组W＝[w₁，w₂，…,w_K]，依次取当前w大小作为阈值t，通过阈值t，将预训练标签空间分为共有类别标签空间S和独有类别标签空间O，其中S表示大小大于阈值t的聚类簇，O表示大小小于等于阈值t的聚类簇；