CN114120063A

CN114120063A - 基于聚类的无监督细粒度图像分类模型训练方法及分类方法

Info

Publication number: CN114120063A
Application number: CN202111433255.3A
Authority: CN
Inventors: 王家宝; 李阳; 苗壮; 张睿
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-01

Abstract

本发明公开了一种基于聚类的无监督细粒度图像分类模型训练方法及分类方法，训练方法包括：获取细粒度图像数据；提取细粒度图像的特征并进行归一化处理；利用预定的聚类方法对归一化特征进行聚类，根据聚类结果对相应图像数据赋值伪标签；利用所述带伪标签的图像数据对细粒度图像分类模型进行训练，采用批量随机梯度下降算法更新模型中参数，并动量更新各聚类的特征中心；重复聚类和训练过程，得到训练完成的无监督细粒度图像分类模型。本发明能够解决现有无监督学习方法应用至细粒度图像分类任务时存在的学习退化不收敛问题，填补无监督细粒度图像分类没有可用方法的空白。

Description

基于聚类的无监督细粒度图像分类模型训练方法及分类方法

技术领域

本发明涉及基于聚类的无监督细粒度图像分类模型训练方法及分类方法，属于计算机视觉技术领域。

背景技术

与通用图像分类相比，细粒度图像分类是一种需要区分更细粒度类别的图像分类任务。由于目标类别间差异更小，而类内又存在各种变化，因此细粒度图像分类任务极具挑战性。现有解决细粒度图像分类任务的方法大多基于有监督的标签信息来指导学习一个有效的模型，以实现在未知数据上好的推广能力。但是，细粒度图像分类任务中类别间差异小，使得数据标注困难、代价高，难以判断一个样本属于两种相近类别中的哪一个。

考虑到无监督学习不需要数据标签的优势，近年来在通用图像分类任务和个体级行人再识别任务上，不少研究者提出了基于聚类的无监督学习方法，利用聚类技术为无标签数据赋上伪标签，再利用伪标签指导学习，典型代表有基于kmeans聚类的方法、基于DBSCAN聚类的方法，这些方法可以克服标注难题。这两类方法在进行图像分类任务时，通用图像分类任务一般类别数少、单类样本多，聚类效果比较好；个体级行人再识别虽然类别数多、单类样本少，但其每类中的样本都是来自于相近时空的同一行人个体，存在着非常相近的外观和背景，聚类结果也比较好。但是，细粒度图像分类任务不仅类别数多、单类样本少、且每类都是不同时空拍摄的不同个体，类内差异很大，经评测现有这些基于聚类的方法直接应用至细粒度图像分类任务，会出现学习退化不收敛等问题。

发明内容

本发明的目的在于克服现有技术中的不足，提供基于聚类的无监督细粒度图像分类模型训练方法及分类方法，能够解决现有无监督学习方法应用至细粒度图像分类任务时存在的学习退化不收敛问题，填补无监督细粒度图像分类没有可用方法的空白。为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于聚类的无监督细粒度图像分类模型训练方法，包括：

获取细粒度图像数据；

利用预先训练或训练过程中的细粒度图像分类模型，提取细粒度图像的特征并进行归一化处理，得到归一化特征；

利用预定的聚类方法对所述归一化特征进行聚类，根据聚类结果对相应图像数据赋值伪标签，构建带伪标签的图像数据；

利用所述带伪标签的图像数据对细粒度图像分类模型进行训练，采用批量随机梯度下降算法更新模型中参数，并动量更新各聚类的特征中心；其中，各聚类的特征中心由同一带伪标签的图像数据所对应的归一化特征计算加权均值得到；

重复聚类和训练过程，当聚类结果多次不变或达到预设最大执行次数时退出，得到训练完成的无监督细粒度图像分类模型，以及细粒度图像的伪标签。

结合第一方面，进一步地，所述细粒度图像分类模型包括网络层、全连接层、带参数的全局均值池化层和处理层，无监督细粒度图像依次输入网络层、全连接层和带参数的全局均值池化层进行特征提取，提取的特征输入处理层进行L2归一化。

结合第一方面，进一步地，所述预定的聚类方法包括：DBSCAN聚类算法或HDBSCAN聚类算法。

结合第一方面，优选地，所述DBSCAN聚类算法中最佳的近邻距离eps＝0.4，最小临近样本数N＝5。

结合第一方面，优选地，所述HDBSCAN聚类算法中最佳的最小聚类样本数N＝5。

结合第一方面，优选地，所述DBSCAN聚类算法或HDBSCAN聚类算法只为部分图像数据赋值伪标签。

结合第一方面，优选地，未赋值伪标签的图像数据，不参与对细粒度图像分类模型的训练。

结合第一方面，进一步地，所述各聚类的特征中心，通过下式得到：

式(1)中，

为第k类的特征中心，N_k为第k类中样本的数量，

为第k类的第i个样本的归一化特征，

为对应的加权权重，通过下式得到：

式(2)中，

为第k类所有样本特征的集合，exp()表示指数函数，距离度量

可采用以下三种计算方式中任一种进行计算得到：

(1)不考虑距离约束，取

(2)通过最小距离计算：

表示计算特征

到该类其他所有样本特征的最小距离；

(3)通过平均距离计算：

表示计算特征

到该类其他所有样本特征的平均距离。

结合第一方面，进一步地，所述细粒度图像分类模型采用InfoNCE损失函数指导学习，其目标损失为：

式(3)中，f_q为第q个样本的归一化特征，c⁺表示第q个样本特征所属类的特征中心，c_k表示第k个类的特征中心，t表示温度超参数，d(,)表示归一化特征到类特征中心的距离，采用欧式距离度量；当f_q与其类特征中心c⁺越近，与其他类特征中心越远时，损失越小。

结合第一方面，优选地，在单次外循环之内，通过InfoNCE损失函数对细粒度图像分类模型的所有参数进行更新，同时动量更新每类特征中心；在两次外循环之间，每类特征中心重新构建，并执行单次外循环的更新策略。

结合第一方面，进一步地，采用批量随机梯度下降算法更新模型中参数，选用Adam优化器进行参数更新，并动量更新各聚类的特征中心，类特征中心采用该类所有采样样本的均值进行动量更新，表示如下：

式(4)中，Q_k为第k类的样本索引集合，f_q表示属于集合Q_k的样本特征，m表示更新动量，c_k为第k类的类特征中心。

结合第一方面，进一步地，所述批量随机梯度下降算法每次迭代会采样输入一个批量数据，采样方法包括：

随机采样P个聚类；

随机在每个聚类内采样Q个样本，对于样本数大于或等于Q的聚类，采用不放回采样随机选择Q个样本；对于样本数小于Q的聚类，使用放回采样随机选择Q个样本；

最终得到一个由PQ个样本组成的批量数据。

第二方面，本发明提供了一种图像分类方法，包括：

获取细粒度图像数据；

使用训练完成的无监督细粒度图像分类模型对获取到的图像数据进行特征提取并得到获取到的图像数据的标签集合，构建特征索引树；

使用训练完成的无监督细粒度图像分类模型对待预测数据集中图像进行特征提取，并在特征索引树中搜索最近邻或k近邻数据，采用最近邻数据的标签或对k个近邻数据的标签进行投票决策，得到待预测图像的标签；

其中，所述无监督细粒度图像分类模型采用第一方面所述方法训练获取。

第三方面，本发明提供了一种基于聚类的无监督细粒度图像分类模型训练系统，包括：

第一获取模块：用于获取细粒度图像数据；

第一特征提取模块：用于利用预先训练或训练过程中的细粒度图像分类模型，提取细粒度图像的特征并进行归一化处理，得到归一化特征；

聚类生成伪标签模块：用于利用预定的聚类方法对所述归一化特征进行聚类，根据聚类结果对相应图像数据赋值伪标签，构建带伪标签的图像数据；

训练模块：用于利用所述带伪标签的图像数据对细粒度图像分类模型进行训练，采用批量随机梯度下降算法更新模型中参数，并动量更新各聚类的特征中心；其中，各聚类的特征中心由同一带伪标签的图像数据所对应的归一化特征计算加权均值得到；

模型输出模块：用于重复聚类和训练过程，当聚类结果多次不变或达到预设最大执行次数时退出，得到训练完成的无监督细粒度图像分类模型，以及细粒度图像的伪标签。

第四方面，本发明提供了一种图像分类系统，包括：

第二获取模块：用于获取细粒度图像数据；

第二特征提取模块：用于使用训练完成的无监督细粒度图像分类模型对获取到的图像数据进行特征提取并得到获取到的图像数据的标签集合，构建特征索引树；

标签输出模块：使用训练完成的无监督细粒度图像分类模型对待预测数据集中图像进行特征提取，并在特征索引树中搜索最近邻或k近邻数据，采用最近邻数据的标签或对k个近邻数据的标签进行投票决策，得到待预测图像的标签；其中，所述无监督细粒度图像分类模型采用第一方面所述方法训练获取。

与现有技术相比，本发明实施例所提供的基于聚类的无监督细粒度图像分类模型训练方法及分类方法所达到的有益效果包括：

本发明提供的训练方法获取细粒度图像数据；利用预先训练或训练过程中的细粒度图像分类模型，提取细粒度图像的特征并进行归一化处理，得到归一化特征；利用预定的聚类方法对所述归一化特征进行聚类，根据聚类结果对相应图像数据赋值伪标签，构建带伪标签的图像数据；本发明采用了基于密度聚类的方法进行伪标签赋值，基于密度的方法更符合高维特征数据的流形分布，具有更好的聚类结果；

本发明提供的训练方法利用所述带伪标签的图像数据对细粒度图像分类模型进行训练，采用批量随机梯度下降算法更新模型中参数，并动量更新各聚类的特征中心；本发明以类特征中心作为类的代表并动量更新，能够避免噪声扰动，让算法更好地收敛，能够解决现有无监督学习方法应用至细粒度图像分类任务时存在的学习退化不收敛问题，能够提升细粒度图像分类结果的准确性和鲁棒性；

本发明提供的分类方法获取细粒度图像数据；使用训练完成的无监督细粒度图像分类模型对获取到的图像数据进行特征提取并得到获取到的图像数据的标签集合，构建特征索引树；使用训练完成的无监督细粒度图像分类模型对待预测数据集中图像进行特征提取，并在特征索引树中搜索最近邻或k近邻数据，采用最近邻数据的标签或对k个近邻数据的标签进行投票决策，得到待预测图像的标签；能够解决细粒度图像标注困难、代价高的问题，填补无监督细粒度图像分类没有可用方法的空白。

附图说明

图1是本发明实施例一提供的一种基于聚类的无监督细粒度图像分类模型训练方法的流程图；

图2是本发明实施例二提供的一种图像分类方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，本发明提供了一种基于聚类的无监督细粒度图像分类模型训练方法，包括：

获取细粒度图像数据；

具体步骤如下：

步骤1：获取细粒度图像数据。

在对应的应用场景中，本步骤收集的细粒度识别数据集无需标签标注，因此可以采用以下两种可行方法进行收集：

方法1：采用摄像机拍摄收集。例如：在交通环境中直接采用抓拍摄像机收集车辆细粒度图像；在动物养殖场采用监控摄像机直接拍摄动物图像；在火车站、机场等可以采用门禁系统拍摄行人图像；在军事侦察中使用无人机、遥感卫星等对军事目标进行拍摄；在生物领域，直接对显微细胞体等目标进行拍摄，类似的诸多领域都可以采用摄像机进行收集。

方法2：从互联网搜索收集。对车辆、动物等常见目标可以直接从互联网搜索下载不同细粒度类别的数据，还可以利用搜索引擎的查询接口进行批量下载，也能够利用搜索引擎的爬虫接口，从专门的网站下载数据。由于数据集不需要标签，因此只要是车辆或某大类动物都可以收集，无需人工进行大量耗时的筛选。

收集完成后，利用通用目标检测模型对图像中的大类目标进行检测，生成细粒度图像数据集。

步骤2：利用预先训练或训练过程中的细粒度图像分类模型，提取细粒度图像的特征并进行归一化处理，得到归一化特征。

预先训练的细粒度图像分类模型可以直接使用ImageNet等大规模数据集上预先训练的模型，比如：ResNet模型，VGGNet模型，DenseNet模型等。

细粒度图像分类模型包括网络层、全连接层、带参数的全局均值池化层和处理层，无监督细粒度图像依次输入网络层、全连接层和带参数的全局均值池化层进行特征提取，提取的特征输入处理层进行L2归一化。采用预训练模型去除全连接层所输出的特征张量，再使用一个带参数的全局均值池化层提取特征向量，最后对特征进行L2归一化，以更方便地计算特征距离或相似度。

具体的，所述带参数的全局均值池化层，其形式如下：

式(1)中，当p_k＝1时，对应为全局均值池化；当p_k→∞时，对应为全局最大值池化。该层对特征提取和网络参数学习影响较大，是介于全局均值池化和全局最大值池化两种操作之间的折中操作，参数p_k可以根据目标函数进行学习，以产生最佳的特征。

步骤3：利用预定的聚类方法对所述归一化特征进行聚类，根据聚类结果对相应图像数据赋值伪标签，构建带伪标签的图像数据。

预定的聚类方法包括：采用DBSCAN聚类算法或HDBSCAN聚类算法，根据归一化特征，对图像数据进行归类，根据归类结果为相应图像数据赋值伪标签。

预定的聚类方法主要采用基于密度的方法，典型代表有DBSCAN或HDBSCAN。HDBSCAN一般可以获得较DBSCAN相对好的性能，原因是HDBSCAN可以有效分割相邻类分布，而DBSCAN会将相邻类聚在一起。从分类目标来看，将一个类分割为多个类产生的代价要比将多个类合为同一个类产生的代价小。同时，HDBSCAN具有更少的超参数。DBSCAN中存在两个参数，近邻距离eps和最小临近样本数N，一个优选的设置为eps＝0.4，N＝5；HDBSCAN中仅有一个参数，最小聚类样本数N，一个优选的设置为N＝5。

DBSCAN聚类算法或HDBSCAN聚类算法只为部分图像数据赋值伪标签。这种只聚类部分数据并赋值伪标签的方式可以有效地避免噪声数据对后续模型训练的影响，因为未赋值伪标签的数据将不参与后续对模型的训练。

具体地，DBSCAN技术的相关方法见Martin Ester,Hans-Peter Kriegel,

Sander,et al.A Density-Based Algorithm for Discovering Clusters in LargeSpatial Databases with Noise[C]//The Second International Conference onKnowledge Discoveryand Data Mining(KDD-96),Portland,Oregon,USA.1996:226-231.

具体地，HDBSCAN技术的相关方法见Ricardo J.G.B.Campello,DavoudMoulavi,

Sander.Density-Based Clustering Based on Hierarchical Density Estimates[C]//17th Pacific-AsiaConference on Knowledge Discovery and Data Mining,(PAKDD-13),Gold Coast,Australia.2013:160-172。该技术的加速算法见LelandMcInnes,John Healy.Accelerated Hierarchical Density Based Clustering[C]//IEEEInternational Conference on Data Mining Workshops,(ICDM),New Orleans,LA,USA.2017:33-42。

步骤4：利用所述带伪标签的图像数据对细粒度图像分类模型进行训练，采用批量随机梯度下降算法更新模型中参数，并动量更新各聚类的特征中心；其中，各聚类的特征中心由同一伪标签的图像数据所对应的归一化特征计算加权均值得到。

采用无监督学习方法训练细粒度图像分类模型的核心是循环执行：

(1)基于一个初始模型或更新模型提取的特征，采用无监督聚类算法聚类数据，生成伪标签；

(2)用生成的伪标签指导模型学习更新参数。

整个过程无需依赖人工预先为数据标注标签。上述循环迭代过程中，初始模型或更新模型提取的特征和聚类算法，是影响聚类结果(即生成的伪标签)核心因素；反过来，生成的伪标签将用于指导更新模型参数，会进一步影响更新模型提取新的特征。因此，上述过程中要保证聚类算法和更新模型能够产生正向促进作用，使得聚类生成伪标签不断变好，模型提取特征不断类聚。

赋值伪标签的数据根据类簇的划分可以计算每个类的特征中心。所述每个类的特征中心由如下加权平均得到：

式(2)中，

为第k类的特征中心，N_k为第k类中样本的数量，

为第k类的第i个样本的归一化特征，

为对应的加权权重，通过下式得到：

式(3)中，

为第k类所有样本特征的集合，exp()表示指数函数，距离度量

可采用以下三种计算方式中任一种进行计算得到：

(1)不考虑距离约束，取

(2)通过最小距离计算：

表示计算特征

到该类其他所有样本特征的最小距离；

(3)通过平均距离计算：

表示计算特征

到该类其他所有样本特征的平均距离。

三种可选方案中，第一方案计算简单，第三方案效果最佳，根据需要可选择不同的方案。

具体的，批量随机梯度下降算法每次迭代会采样输入一个批量数据，采样方法如下：先随机采样P个聚类，然后再在每个聚类内采样Q个样本。对于样本数大于或等于Q的聚类，采用不放回采样随机选择Q个样本；对于样本数小于Q的聚类，使用放回采样随机选择Q个样本，最终构造总数为PQ个样本的一个批量数据。上述采样仅对赋值伪标签的数据进行采样，未赋值伪标签的数据不进行采样。

具体的，细粒度图像分类模型采用InfoNCE损失函数指导学习，其目标损失为：

式(4)中，f_q为第q个样本的归一化特征，c⁺表示第q个样本特征所属类的特征中心，c_k表示第k个类的特征中心，t表示温度超参数，d(,)表示归一化特征到类特征中心的距离，采用欧式距离度量；当f_q与其类特征中心c⁺越近，与其他类特征中心越远时，损失越小。

在单次外循环之内，通过InfoNCE损失函数对细粒度图像分类模型的所有参数进行更新，同时动量更新每类特征中心；在两次外循环之间，每类特征中心重新构建，并执行单次外循环的更新策略。

采用批量随机梯度下降算法更新模型中参数，选用Adam优化器进行参数更新，并动量更新各聚类的特征中心，类特征中心采用该类所有采样样本的均值进行动量更新，表示如下：

式(5)中，Q_k为第k类的样本索引集合，f_q表示属于集合Q_k的样本特征，m表示更新动量，c_k为第k类的类特征中心。

步骤5：重复聚类和训练过程，当聚类结果多次不变或达到预设最大执行次数时退出，得到训练完成的无监督细粒度图像分类模型，以及细粒度图像的伪标签。

预定的聚类方法、细粒度图像分类模型通过所述训练方法，通过不断优化训练，能够学习到最佳的网络模型，能够得到获取到的图像的标签。

实施例二：

如图2所示，本发明实施例提供了一种图像分类方法，包括：

获取细粒度图像数据；

其中，所述无监督细粒度图像分类模型实施例二所述方法训练获取。

具体的，获取的细粒度识别数据集无需标签标注，可以采用以下两种可行方法进行收集：

方法2：从互联网搜索收集。对车辆、动物等常见目标可以直接从互联网搜索下载不同细粒度类别的数据，还可以利用搜索引擎的查询接口进行批量下载，也能够利用搜索引擎的爬虫接口，从专门得网站下载数据。由于数据集不需要标签，因此只要是车辆或某大类动物都可以收集，无需人工进行大量耗时的筛选。

根据具体情况，获取的细粒度图像数据能够用于通过实施例1所述的基于聚类的无监督细粒度图像分类模型训练方法得到的无监督细粒度图像分类模型。能够根据实施例一获取到的图像的标签，构建特征索引树。

实施例三：

本发明实施例提供一种基于聚类的无监督细粒度图像分类模型训练系统，包括：

第一获取模块：用于获取细粒度图像数据；

实施例四：

本发明实施例提供了一种图像分类系统，其特征在于，包括：

第二获取模块：用于获取细粒度图像数据；

标签输出模块：使用训练完成的无监督细粒度图像分类模型对待预测数据集中图像进行特征提取，并在特征索引树中搜索最近邻或k近邻数据，采用最近邻数据的标签或对k个近邻数据的标签进行投票决策，得到待预测图像的标签；其中，所述无监督细粒度图像分类模型采用权利要求1至7任一项所述方法训练获取。

实施例五：

本发明实施例提供一种基于聚类的无监督细粒度图像分类系统，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

实施例六：

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。