CN113449810B

CN113449810B - 一种基于自监督和语义风格解耦的图像聚类方法

Info

Publication number: CN113449810B
Application number: CN202110803345.0A
Authority: CN
Inventors: 张宇; 米思娅; 陈嘉顺
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2022-11-18
Anticipated expiration: 2041-07-15
Also published as: CN113449810A

Abstract

本发明公开了一种基于自监督和语义风格解耦的图像聚类方法。该方法采用自监督编码器学习了一种语义风格的潜在表示，其中语义信息从图像风格中分离出来，可以直接用于聚类分配。为了实现这一目标，首先采用互信息最大化方法将相关信息嵌入到潜在表示中。然后还采用数据增强不变损失的方法，将潜在表示分解为类间语义部分和类内风格部分。此外，对潜在表示施加先验分布，以确保语义向量元素可以直接表示聚类概率。最后，引入了一个自监督损失来学习更全面的实例级特征。本发明可以在各种不同分布的数据集上提取具有判别性的特征表示，有效的提高了图像聚类问题的准确率。

Description

一种基于自监督和语义风格解耦的图像聚类方法

技术领域

本申请涉及计算机视觉领域，尤其涉及一种自监督形式的图像聚类方法。

背景技术

聚类是一种广泛应用于机器学习、数据挖掘和统计分析等领域的技术。它的目的是将彼此相似的对象归为相同的集合，不同的对象归为不同的集合。与监督学习方法不同，聚类方法需要忽略真实标签。传统的方法，如K-means和谱聚类，需要手工提取特征，将数据转换成更有区别性的形式。在某些情况下，领域知识有助于确定更合适的特征提取策略。但对于许多高维问题如图像等，手工设计的特征提取方法很容易导致性能低下。

由于深度神经网络对非线性映射的强大学习能力，近年来提出了许多基于深度学习的聚类方法。许多研究试图将深度神经网络与各种聚类损失结合，以学习更有分辨力但低维的潜在表征。为了避免琐碎地学习一些任意表示，大多数方法还将重建或生成损失最小化，作为额外的正则化。然而，潜在表征的辨别能力与生成能力之间并没有实质的联系，这会减少与聚类的相关性，迫使潜在表示包含不必要的生成信息，使网络难以训练，进而影响聚类性能。最近自监督特征学习在图像识别任务中表现优异。其采用没有标签的形式，基于代理任务来指导网络学习好的表征。因此，可以自然地将自监督学习方法作为编码器并应用于图像聚类，获得更具有辨识性的特征。

发明内容

发明目的：在本文中，我们没有使用生成器来最小化重构损失，而是使用一个自监督编码器来最大化输入图像和它们的潜在表示之间的互信息，以保留鉴别信息，利用语义风格信息实现聚类。本发明提供了一种基于自监督和语义风格解耦的图像聚类方法。

技术方案：一种基于自监督和语义风格解耦的图像聚类方法，其特征在于，包括以下步骤：

步骤一：使用自监督编码器Q将输入图像X编码成语义风格特征Z＝[Z_c；Z_s；Z_r]，记为图像X的潜在表示。

步骤二：引入分类器D来最大化输入图像X与其编码的潜在表示Z之间的互信息I(X；Z)，分类器D的损失记为互信息损失。

步骤三：对输入图像进行数据增强，引入一个增强不变正则化项，利用Z_c计算增强不变损失。

步骤四：对潜在表示Z施加一个先验分布P_Z，利用鉴别器C计算先验分布P_Z和潜在表示Z分布之间的一致性，作为分布鉴别损失。

步骤五：对输入图像X进行两次不同的数据增强，利用自监督编码器Q计算自监督损失。

步骤六：最小化分布鉴别损失，更新鉴别器C。

步骤七：在给定鉴别器C下，计算编码器损失，并最小化该损失更新分类器D和自监督编码器Q。

步骤八：获取Z_c中最大值所在的下标,作为该图片所属的类别。

进一步的，步骤一中，所述Z_c为类间语义信息，表示输入图像X属于每个类的概率；Z_s和Z_r分别表示类内数据增强有关和无关的风格信息。Z_c和Z_r组合为Z_I＝(Z_c；Z_r)，表示图像的实例级特征。

进一步的，所述Z_c是一个softmax激活向量，所述Z_s和Z_r均为一个线性激活向量。

进一步的，步骤二中，所述互信息损失由JS散度计算，可近似为分类器D的二分类损失。具体表现为拼接输入图像X和潜在表示Z作为鉴别器D的输入，输入图像X及其自身的潜在表示Z是一个正样本，而输入图像X和其他图像的潜在表示

是一个负样本。

进一步的，步骤三中，所述增强不变损失表现为给定一个数据增强函数T，原输入图像X和其数据增强版本T(X)经自监督编码器Q编码后，两者的类间语义信息Z_c和Z_c ^’应相同，采用KL散度来衡量这两个近似分布带来的信息损失。

进一步的，所述数据增强函数T包括几何变换和光度变换。

进一步的，步骤四中，所述分布鉴别损失由生成分布(Z_c；Z_s)和先验分布P_Z之间的Wasserstein distance计算，先验分布P_Z具体表现在Z_c上施加One-Hot分布且在Z_s上施加Gaussian分布。

进一步的，步骤五中，所述自监督损失由归一化温度尺度下的交叉熵损失(NT-xent)计算,NT-xent中的特征向量项由Z_I＝(Z_c；Z_r)表示。

进一步的，步骤六和七中鉴别器C、分类器D和自监督编码器Q的更新采用随机梯度下降方法。

进一步的，步骤七中编码器损失为四个损失的加权和，包括互信息、增强不变、鉴别器和自监督损失。

有益效果：本发明提供了一种用于图像聚类的深度学习方法，相比较现有技术，针对某一张图片，采用自监督编码器学习到实例级别的特征表示。同时，将该特征解耦为语义和风格两部分，增强了与特征与聚类的相关性，提高聚类性能。下面的实施例表明：该发明可以在聚类中有效学习具有变换不变性的高级特征。此外，该发明所提出的方法几乎超过了几个公共数据集上的最新方法。

附图说明

图1为本发明的方法流程图；

图2为本发明的算法框架；

图3为本发明与其他方法的比较；

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细说明：

本实施例提供一种用于基于自监督和语义风格解耦，且用于Pendigits和HAR数据集图像聚类的方法，通过将图片通过自监督编码器得到语义风格并解耦，分析语义特征即可得到良好的聚类效果。

该方法的流程如图1所示，算法框架如图2所示

步骤二：利用分类器D来最大化输入图像X与其编码的潜在表示Z之间的互信息I(X；Z)，分类器D的损失记为互信息损失。

步骤三：对输入图像X进行数据增强，引入一个增强不变正则化项，利用Z_c计算增强不变损失。

步骤五：对输入图像进行两次不同的数据增强，利用自监督编码器Q计算自监督损失。

步骤六：最小化分布鉴别损失，更新鉴别器C。

步骤八：提取Z_c中最大值所在的下标,得到该图片所属的类别。

在本实施例中，Pendigit数据集由10类手写数字组成，手写数字由压敏片采样得到，共计1797张图片。HAR数据集包含10299张图片，涵盖了6类常见的的人类行为，包括走、上楼、下楼、坐、站和躺。Pendigits和HAR数据集的主要区别是输入图像尺寸和通道不同，Pendigits是32×32的灰度图像，HAR是96×96的彩色图像。

在训练时，设置Adam优化器的学习率为10^-4，Z_c的维度设为10(和该数据集类别数保持一致)，Z_s和Z_r的维度均设为50。高斯分布方差设为0.1，平均值为0。编码器损失为四个损失的加权和，其损失互信息、增强不变、鉴别器和自监督损失的权重分别为0.5、1、4和0.01。

采用的数据增强方法包括四种常用的方法：

(1)随机裁剪:在原图片中随机取样一个矩形区域，长宽比为[3/4,4/3]，面积比例范围为[40％,100％]，然后将裁剪区域调整为原始图像大小。

(2)随机水平翻转:以50％的概率水平翻转图像。

(3)颜色抖动:缩放亮度、对比度和饱和度系数从[0.6,1.4]均匀选取，而色调系数均匀地从[0.875,1.125]选取。

(4)通道打乱:对图像的RGB通道进行随机打乱(对彩色图像在灰度化前使用)。

此外，编码器的架构与SimCLR相同。针对不同类型的数据集，我们使用了ResNet的多个框架，例如，Pendigits使用了Resnet18，而HAR由于其较大的尺寸而使用Resnet50进行编码。编码器最后一层的维度被更改为特征向量Z的维度。我们使用在ImageNet上预先训练的自监督编码器SimCLR的参数权重，并在训练期间冻结这些参数。模型训练2000次，批大小设为64。

在Pendigits和HAR数据集上比较了基于深度学习(N2D)的最新聚类方法和我们的方法。结果如图3所示。我们方法的表现远远好于N2D。对于ACC指标，分别比N2D高4.4％和5.2％，在其余两项指标NMI和ARI上也有最优异的表现。主要原因是这两个数据集都包含人类行为，如手写数字和上楼，这些行为具有明显的高级特征，可以通过自监督表示学习有效聚类，这也意味着本发明提出的算法在实际应用中具有很大的优势。

Claims

1.一种基于自监督和语义风格解耦的图像聚类方法，其特征在于包括以下八个步骤：

步骤六：最小化分布鉴别损失，更新鉴别器C。

2.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法，其特征在于：步骤一中，所述Z_c为类间语义信息，表示输入图像X属于每个类的概率；Z_s和Z_r分别表示类内数据增强有关和无关的风格信息。Z_c和Z_r组合为Z_I＝(Z_c；Z_r)，表示图像的实例级特征。

3.根据权利要求2所述的基于自监督和语义风格解耦的图像聚类方法，其特征在于：所述Z_c是一个softmax激活向量，所述Z_s和Z_r均为一个线性激活向量。

4.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法，其特征在于：步骤二中，所述互信息损失由JS散度计算，可近似为分类器D的二分类损失。具体表现为拼接输入图像X和潜在表示Z作为鉴别器D的输入，输入图像X及自身的潜在表示Z是一个正样本，而输入图像X和其他图像的潜在表示

是一个负样本。

5.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法，其特征在于：步骤三中，所述增强不变损失表现为给定一个数据增强函数T，原输入图像X和其数据增强版本T(X)经自监督编码器Q编码后，两者的类间语义信息Z_c和Z_c ^’应相同，采用KL散度来衡量这两个近似分布带来的信息损失。

6.根据权利要求5所述的基于自监督和语义风格解耦的图像聚类方法，其特征在于：所述数据增强函数T包括几何变换和光度变换。

7.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法，其特征在于：步骤四中，所述分布鉴别损失由生成分布(Z_c；Z_s)和先验分布P_Z之间的Wasserstein distance计算，先验分布P_Z具体表现在Z_c上施加One-Hot分布且在Z_s上施加Gaussian分布。

8.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法，其特征在于：步骤五中，所述自监督损失由归一化温度尺度下的交叉熵损失(NT-xent)计算，NT-xent中的特征向量项由Z_I＝(Z_c；Z_r)表示。

9.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法，其特征在于：步骤六和七中，所述鉴别器C、分类器D和自监督编码器Q的更新采用随机梯度下降方法。

10.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法，其特征在于：步骤七中，所述编码器损失为四个损失的加权和，包括互信息、增强不变、鉴别器和自监督损失。