CN112668627A

CN112668627A - 一种基于对比学习的大规模图像在线聚类系统及方法

Info

Publication number: CN112668627A
Application number: CN202011544811.XA
Authority: CN
Inventors: 彭玺; 李云帆; 杨谋星
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-16

Abstract

本发明公开了一种基于对比学习的大规模图像在线聚类系统及方法，其系统包括：增广子系统、特征提取子系统、实例级别对比头子系统和类别级别对比头子系统；其方法包括：S1、对原始图像样本集进行增广操作，得到两组增广图像集；S2、构建总损失函数，将两组增广图像集作为训练集，采用梯度下降优化方法对大规模在线聚类系统进行训练；S3、采用训练完成的大规模在线聚类系统对待处理的图像样本集进行聚类处理，将类别级别对比头子系统输出的最大概率对应的类别，作为每一张图像样本的聚类结果；本发明解决了现有方法无法实现大规模在线聚类，以及特征提取和数据聚类这两个阶段联系不紧密，容易出现误差累计的问题。

Description

一种基于对比学习的大规模图像在线聚类系统及方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于对比学习的大规模图像在线聚类系统及方法。

背景技术

聚类是一类基础的无监督机器学习方法，其基本思想是根据数据自身特点及数据间相似性，在不依赖外部标签的前提下，自动的将数据划分为若干个类别，使得每一类的数据具有相同特性，而不同类的数据间具有明显差别。聚类在现实生活中具有广泛的应用：例如，通过对用户消费行为的分析，将用户划分为若干具有不同偏好的群体(如美食、科技爱好者等)，帮助商家针对性推荐和营销；通过对大量照片的分析，将无标签图像划分为若干类别(如自然风光、人物特写等)，帮助用户进行图像整理和进一步检索。

现有的聚类方法通常分为两个阶段实现，首先通过深度神经网络提取出原始数据的特征，之后通过K-means等经典聚类方法对数据进行聚类。例如，一种现有迭代的方法，每次迭代首先选取两个最相似的数据点进行合并，之后根据当前的合并结果来优化特征提取网络，通过不断交替进行该过程实现数据聚类。另一种聚类方法是利用K-means方法对数据进行聚类，将聚类结果作为伪标签，通过分类任务优化特征提取网络，交替进行该过程，不断提升所提取特征的表征能力，进而提升聚类效果。

现有聚类方法主要存在两个缺陷：一是现有方法无法实现大规模在线聚类，其中大规模指的是数据量大，在线指的是数据以流的形式呈现，即无法在一时间获取全部的数据信息，现有聚类方法依赖于数据的全局相似性信息，而当数据量足够大时，受限于设备内存，无法读取完整的数据集，方法将不再适用；另外，现有方法对原有数据进行聚类后，对于之后新增的数据无法直接聚类，而是需要合并新增数据和原有数据，并重新对整个数据集进行聚类，效率较低。二是现有的两阶段迭代学习范式中，特征提取和数据聚类这两个阶段联系不紧密，容易出现误差累计的问题，具体来说，如果特征提取网络的能力较弱，提取的特征质量较低，那么根据该特征计算得到的聚类结果也较差，也就无法反过来指导特征提取网络进行有效的优化更新，最终大大降低聚类的效果。鉴于实际生活中的数据通常规模较大，而且维度较高，难以从中有效提取特征，因此上述的两个缺陷会严重阻碍现有算法在现实中的应用。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于对比学习的大规模图像在线聚类系统及方法解决了现有方法无法实现大规模在线聚类，以及特征提取和数据聚类这两个阶段联系不紧密，容易出现误差累计的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于对比学习的大规模图像在线聚类系统，包括：增广子系统、特征提取子系统、实例级别对比头子系统和类别级别对比头子系统；

所述增广子系统用于对图像样本集进行增广操作，得到两组增广图像集；所述特征提取子系统包括：第一特征提取深度神经网络和第二特征提取深度神经网络；所述第一特征提取深度神经网络和第二特征提取深度神经网络的权值共享，其中第一特征提取深度神经网络用于对其中一组增广图像集进行特征提取；所述第二特征提取深度神经网络用于对另一组增广图像集进行特征提取；所述实例级别对比头子系统用于对提取的特征进行实例级别的对比学习，并对特征提取子系统进行优化；所述类别级别对比头子系统用于对提取的特征进行类别级别的对比学习，并对特征提取子系统的进行优化，实现在线聚类。

一种基于对比学习的大规模图像在线聚类方法，包括以下步骤：

S1、对原始图像样本集进行增广操作，得到第一组增广图像集和第二组增广图像集；

S2、构建总损失函数，将第一组增广图像集和第二组增广图像集作为训练集，采用梯度下降优化方法对大规模在线聚类系统进行训练，得到训练完成的大规模在线聚类系统；

S3、采用训练完成的大规模在线聚类系统对待处理的图像样本集进行聚类处理，将类别级别对比头子系统输出的最大概率对应的类别，作为每一张图像样本的聚类结果。

进一步地，步骤S1包括以下分步骤：

S11、对原始图像样本集X＝[x₁,…,x_i,…,x_N]中每一张图像x_i连续两次从裁剪缩放、水平翻转、颜色变换、转灰度图和高斯噪声中随机选择几种方式进行处理，得到每一张图像x_i的两组增广策略T^a、T^b，其中，N为原始图像样本集中图像数量；

S12、将每一张图像x_i的两组增广策略T^a、T^b分别作用于对应的图像x_i，得到两组增广图像集：

和

为图像x_i的增广图像，T^a(·)和T^b(·)为表示增广操作。

进一步地，步骤S2中总损失函数为：

其中，

为总损失函数，

为实例损失函数，

为类别损失函数。

进一步地，实例损失函数为：

其中，

为实例损失函数，N为原始图像样本集中图像数量，

为第一特征向量，

为第二特征向量，τ_I为第一调整系数，g_I(·)为实例级别对比头子系统采用的一个共享的两层全连接神经网络，i,j∈[1,N]。

上述进一步方案的有益效果为：实例级别的对比学习能帮助减小特征空间内同类别样本之间的距离，同时增大不同类别样本间的相似性，在实例级别形成样本的自然聚类。

进一步地，所述类别损失函数为：

其中，

为类别损失函数，M为类别数，

为软标签矩阵Y^a的第i行，

为软标签矩阵Y^b的第i行，

为软标签矩阵Y^a的第i列，

为软标签矩阵Y^b的第i列，

为软标签矩阵Y^a的第j列，

为软标签矩阵Y^b的第j列，τ_C为第二调整系数，g_C(·)为类别级别对比头子系统的采用的两层全连接神经网络，

为第一特征向量，

为第二特征向量，

为某种增广下全部样本属于第i个类别的概率和，

为某种增广下样本t属于第i个类别的概率，||Y^k||₁为软标签矩阵Y^k的1范数，k表示某种增广，a表示第一种增广，b表示第二种增广，t为矩阵行下标。

上述进一步方案的有益效果为：类别级别的对比学习能帮助进一步拉开特征空间内类别和类别之间的距离，加大不同类别的区分度，在类别级别强化聚类效果。此外，得益于在类别级别对比头中样本的表示对应其软标签，可以直接通过Argmax操作获取其最大概率的预测作为类别信息，不依赖于其他样本，从而实现大规模在线聚类。

进一步地，所述构建软标签矩阵Y^a和Y^b包括以下分步骤：

A1、采用类别级别对比头子系统的两层全连接神经网络g_C(·)，将第一特征向量和第二特征向量投影为两个维度为K的特征

和

A2、在K维特征

和

上使用Softmax激活函数，得到各个增广图像的概率；

A3、通过各个增广图像的概率，构建软标签矩阵Y^a和Y^b。

进一步地，所述步骤S2包括以下分步骤：

S21、将第一组增广图像集和第二组增广图像集输入特征提取子系统进行特征提取，得到第一特征向量和第二特征向量，其中，

f(·)为特征提取子系统；

S22、将第一特征向量和第二特征向量输入实例级别对比头子系统，进行实例级别的对比学习，计算实例损失函数

S23、将第一特征向量和第二特征向量输入类别级别对比头子系统，进行类别级别的对比学习，计算类别损失函数

S24、将类别损失函数

和实例损失函数

相加，构建总损失函数

S25、采用梯度下降优化方法训练特征提取子系统f(·)，以及总损失函数

中的g_I(·)和g_C(·)，直到大规模在线聚类系统收敛，得到训练完成的大规模在线聚类系统。

进一步地，所述步骤S3包括以下分步骤：

S31、将待处理的图像样本集输入特征提取子系统进行特征提取，得到第三特征向量；

S32、将第三特征向量输入类别级别对比头子系统，将类别级别对比头子系统输出的最大概率对应的类别，作为每一张图像样本的聚类结果。

综上，本发明的有益效果为：

1、本发明把聚类任务分解为实例级别和类别级别的对比学习，不再像传统方法需要将全部数据读入内存，而是借助批优化的方法，可以处理大规模数据集，具有更广泛的实际应用场景。

2、本发明通过引入“标签即表示”的思想，在类别级别对比头上直接输出样本的软标签，不依赖于其他样本的信息，适用于以流形式出现的数据，可以为新增的样本直接给出类别预测，从而实现在线聚类。

3、本发明根据特征矩阵的行空间和列空间分别对应实例和类别的特征表示这一发现，同时从实例和类别两个粒度来帮助实现聚类。

4、本发明通过“标签即表示”的思想，将聚类任务和表示学习任务二者融合在一起，提出的系统框架可以直接通过“端到端”的方式进行训练，即不需要像传统方法一样迭代进行聚类和特征提取这两个阶段，因此可以有效避免传统方法容易出现的误差累计问题。

附图说明

图1为一种基于对比学习的大规模图像在线聚类系统的系统框图；

图2为一种基于对比学习的大规模图像在线聚类方法的流程图；

图3为一种基于对比学习的大规模图像在线聚类方法的具体方法构建过程。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于对比学习的大规模图像在线聚类系统，包括：增广子系统、特征提取子系统、实例级别对比头子系统和类别级别对比头子系统；

如图2～3所示，一种基于对比学习的大规模图像在线聚类方法，包括以下步骤：

步骤S1包括以下分步骤：

S11、对原始图像样本集X＝[x₁,…,x_i,…,x_N]中每一张图像x_i连续两次从裁剪缩放、水平翻转、颜色变换、转灰度图和高斯噪声中随机选择几种方式进行处理，得到每一张图像x_i的两组增广策略T^a、T^b，其中，N为原始图像样本集X中图像数量，其中，颜色变换包括：亮度、对比度、饱和度和色彩；

和

为图像x_i的增广图像，T^a(·)和T^b(·)为表示增广操作。

本发明构建第一组增广图像集和第二组增广图像集的目的还包括，增广图像集的样本之间构成正负样本。

对比学习首先利用先验信息及任务需求定义并构建正负样本对，正样本对通常由具有相似特征的两个样本构成，而负样本对则通常由属于不同类别的样本构成，对比学习的目标是最大化正样本对的相似性，同时最小化负样本对的相似性。在聚类任务中，最理想的正负样本对构造方式是用同类样本组成正样本对，用不同类样本组成负样本对。但作为无监督方法，在没有外部标签的情况下，本发明使用数据增广来构造样本对。数据增广主要用于增加训练数据集，让数据集尽可能的多样化，使得训练的模型具有更强的泛化能力，对于不同类型的数据集可以采用不同的增广方式，例如，对于图像数据，可以采用水平翻转、裁剪缩放、颜色变换、高斯噪声等方式，对于文本数据，可以采用同义词替换、随机插入、随机交换、随机删除等方式，对于音频数据，可以采用噪声增强、音高变换、混合背景音、增加白噪声等方式。

增广子系统：对于每一张图像x_i，连续两次从裁剪缩放、水平翻转、颜色变换(包括亮度、对比度、饱和度和色彩)、转灰度图、高斯噪声这些增广方式T中随机选择若干种，得到两组增广策略T^a、T^b分别作用于x_i，得到两张增广后的图像

和

特征提取子系统：对于增广后的两张图像

和

使用两个权值共享的深度神经网络进行特征提取，得到两个特征向量

和

用于后续实例级别和类别级别的对比学习。

步骤S2包括以下分步骤：

f(·)为特征提取子系统；

S24、将类别损失函数

和实例损失函数

相加，构建总损失函数

步骤S2中总损失函数为：

其中，

为总损失函数，

为实例损失函数，

为类别损失函数。

实例级别对比头子系统：在增广后得到的2N张图像

中，每张图像x_i都可与其他2N-1张图像构成样本对，其中定义

为正样本对，其余的所有2N-2对

均为负样本对，即正样本对由来自同一张原始图像增广得到的两张增广图像构成。对于特征提取子系统提取的特征

和

实例级对比头进一步采用一个共享的两层全连接神经网络g_I(·)，将

和

投影为两个更低维度的特征

并在这些特征上进行实例级别的对比学习。

基于实例级别对比头子系统构建实例损失函数为：

其中，

为实例损失函数，N为原始图像样本集中图像数量，

为第一特征向量，

类别级别对比头子系统：与实例级别对比头子系统类似，本发明提出类别级别的对比头，用于进行类别级别的对比学习。与实例级别的对比学习不同，由于缺乏标签信息，无法事先确定各个实例的所属类别，类别的特征表示无法直接获得。为此，本发明引入了“标签即表示”的思想，假设目标是将样本聚类为M个类别，类别级别对比头利用一个共享的两层全连接神经网络g_C(·)，将

和

投影为两个维度为K的特征

这里通过在K维的特征上使用Softmax激活函数，可以将得到的特征视为该样本被分配到各个类别的概率，即样本的软标签。为所有样本计算软标签，可以的到整个批数据对应的软标签矩阵Y^a，Y^b，其中

分别对应Y^a，Y^b的第i行。当神经网络对样本所属类别的预测足够自信时，样本的软标签趋向于独热编码，即该向量只有其所属类别的位置为1，其余位置均为0。在这个前提下，可以将Y^a，Y^b矩阵的列

视作一种特殊的类别的表示，因为其中趋近于1的元素对应该类别中包含的样本。考虑到每个样本应该只被分配到一个类别，类别级别的对比学习的目标便是降低类别间的相似性，同时增加两种增广下同一类别的相似性，具体地，在两种增广得到的2M个类别的表示中，对于类别

定义

为正样本对，与其余的2M-2个类别表示组成负样本对。

基于类别级别对比头子系统构建类别损失函数为：

其中，

为类别损失函数，M为类别数，

为软标签矩阵Y^a的第i行，

为软标签矩阵Y^b的第i行，

为软标签矩阵Y^a的第i列，

为软标签矩阵Y^b的第i列，

为软标签矩阵Y^a的第j列，

为第一特征向量，

为第二特征向量，

为某种增广下全部样本属于第i个类别的概率和，

构建软标签矩阵Y^a和Y^b包括以下分步骤：

和

A2、在K维特征

和

上使用Softmax激活函数，得到各个增广图像的概率；

A3、通过各个增广图像的概率，构建软标签矩阵Y^a、Y^b。

S3、采用大规模在线聚类系统对待处理的图像样本集进行聚类处理，将类别级别对比头子系统输出的最大概率对应的类别，作为每一张图像样本的聚类结果。

步骤S3包括以下分步骤：

图1为整个发明的系统，利用特征提取子系统提取特征，实例级别对比头子系统和类别级别对比头子系统分别在实例级别(对应特征矩阵的行空间)和类别级别(对应特征矩阵的列空间)上进行对比学习，共同优化特征提取子系统和两个对比头子系统，整体的损失函数为

系统通过梯度下降优化方法进行训练，在系统训练完成后，由于类别级别对比头子系统的输出为各个样本的软标签，只需要将各个样本归到其预测概率最大的类别便可实现聚类(例如某样本的软标签为[0.1,0.7,0.3]，那么将其分到最大概率0.7对应的第2个类别)。

实例级别对比头子系统采用两层全连接网络，假设所提取特征的维度为m，第一层输入维度为m，输入维度为m，激活函数采用ReLU；第二层输入维度为m，输出维度为128，无激活函数。

类别级别对比头子系统采用两层全连接网络，假设所提取特征的维度为m，第一层输入维度为m，输入维度为m，激活函数采用ReLU；第二层输入维度为m，输出维度为聚类个数，激活函数为SoftMax，用于计算软标签。

实验：

本发明对比了目前国际上比较先进的方法，包含K-means聚类方法、谱聚类方法(SC、NMF)、层次聚类方法(AC、JULE)、自编码器方法(AE、DAE、DeCNN、VAE)、生成对抗网络方法(DCGAN)、深度聚类方法(DEC、DAC、DDC、DCCM、PICA)等先进方法，在物体图片数据集CIFAR-10和ImageNet-10上进行实验对比。本发明使用衡量聚类效果常用的指标，即标准化互信息(NMI)，作为实验的量化指标，验证算法效果。NMI取值范围0～1，数字越大效果越好，为1时表示算法能完全正确的将数据聚类正确。NMI计算方式如下：

其中Y是算法预测类别信息，C是数据实际类别信息。H(·)代表信息熵，I(Y；C)代表互信息。

实验一：使用数据集CIFAR-10，其包含60000张来自10个物体类别的图片，实验数据类别信息和样本数量分布如下：

表1

飞机	轿车	鸟	猫	鹿	狗	青蛙	马	船	卡车
										6000	6000	6000	6000	6000	6000	6000	6000	6000	6000

实验结果如下：

表2

从表2中可以看到，本发明相比其他聚类方法在标准化互信息这一指标上有比较大的提升，意味着能在实际应用中能很好的将物体图片数据聚类正确，避免了耗费大量人力资源用于图片分类。

实验二：使用数据集ImageNet-10，该数据集是大型图片数据集ImageNet的子集，其包含13000张来自10个物体类别的图片，实验数据类别信息和样本数量分布如下：

表3

企鹅	狗	豹	飞机	飞艇	船	足球	轿车	卡车	橘子
										1300	1300	1300	1300	1300	1300	1300	1300	1300	1300

实验结果如下：

表4

从表4中可以看到，本发明相比其他聚类方法在标准化互信息这一指标上有比较大的提升，意味着能在实际应用中能很好的将物体图片数据聚类正确，避免了耗费大量人力资源用于图片分类。