CN113449810B - 一种基于自监督和语义风格解耦的图像聚类方法 - Google Patents
一种基于自监督和语义风格解耦的图像聚类方法 Download PDFInfo
- Publication number
- CN113449810B CN113449810B CN202110803345.0A CN202110803345A CN113449810B CN 113449810 B CN113449810 B CN 113449810B CN 202110803345 A CN202110803345 A CN 202110803345A CN 113449810 B CN113449810 B CN 113449810B
- Authority
- CN
- China
- Prior art keywords
- self
- supervision
- loss
- image
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自监督和语义风格解耦的图像聚类方法。该方法采用自监督编码器学习了一种语义风格的潜在表示,其中语义信息从图像风格中分离出来,可以直接用于聚类分配。为了实现这一目标,首先采用互信息最大化方法将相关信息嵌入到潜在表示中。然后还采用数据增强不变损失的方法,将潜在表示分解为类间语义部分和类内风格部分。此外,对潜在表示施加先验分布,以确保语义向量元素可以直接表示聚类概率。最后,引入了一个自监督损失来学习更全面的实例级特征。本发明可以在各种不同分布的数据集上提取具有判别性的特征表示,有效的提高了图像聚类问题的准确率。
Description
技术领域
本申请涉及计算机视觉领域,尤其涉及一种自监督形式的图像聚类方法。
背景技术
聚类是一种广泛应用于机器学习、数据挖掘和统计分析等领域的技术。它的目的是将彼此相似的对象归为相同的集合,不同的对象归为不同的集合。与监督学习方法不同,聚类方法需要忽略真实标签。传统的方法,如K-means和谱聚类,需要手工提取特征,将数据转换成更有区别性的形式。在某些情况下,领域知识有助于确定更合适的特征提取策略。但对于许多高维问题如图像等,手工设计的特征提取方法很容易导致性能低下。
由于深度神经网络对非线性映射的强大学习能力,近年来提出了许多基于深度学习的聚类方法。许多研究试图将深度神经网络与各种聚类损失结合,以学习更有分辨力但低维的潜在表征。为了避免琐碎地学习一些任意表示,大多数方法还将重建或生成损失最小化,作为额外的正则化。然而,潜在表征的辨别能力与生成能力之间并没有实质的联系,这会减少与聚类的相关性,迫使潜在表示包含不必要的生成信息,使网络难以训练,进而影响聚类性能。最近自监督特征学习在图像识别任务中表现优异。其采用没有标签的形式,基于代理任务来指导网络学习好的表征。因此,可以自然地将自监督学习方法作为编码器并应用于图像聚类,获得更具有辨识性的特征。
发明内容
发明目的:在本文中,我们没有使用生成器来最小化重构损失,而是使用一个自监督编码器来最大化输入图像和它们的潜在表示之间的互信息,以保留鉴别信息,利用语义风格信息实现聚类。本发明提供了一种基于自监督和语义风格解耦的图像聚类方法。
技术方案:一种基于自监督和语义风格解耦的图像聚类方法,其特征在于,包括以下步骤:
步骤一:使用自监督编码器Q将输入图像X编码成语义风格特征Z=[Zc;Zs;Zr],记为图像X的潜在表示。
步骤二:引入分类器D来最大化输入图像X与其编码的潜在表示Z之间的互信息I(X;Z),分类器D的损失记为互信息损失。
步骤三:对输入图像进行数据增强,引入一个增强不变正则化项,利用Zc计算增强不变损失。
步骤四:对潜在表示Z施加一个先验分布PZ,利用鉴别器C计算先验分布PZ和潜在表示Z分布之间的一致性,作为分布鉴别损失。
步骤五:对输入图像X进行两次不同的数据增强,利用自监督编码器Q计算自监督损失。
步骤六:最小化分布鉴别损失,更新鉴别器C。
步骤七:在给定鉴别器C下,计算编码器损失,并最小化该损失更新分类器D和自监督编码器Q。
步骤八:获取Zc中最大值所在的下标,作为该图片所属的类别。
进一步的,步骤一中,所述Zc为类间语义信息,表示输入图像X属于每个类的概率;Zs和Zr分别表示类内数据增强有关和无关的风格信息。Zc和Zr组合为ZI=(Zc;Zr),表示图像的实例级特征。
进一步的,所述Zc是一个softmax激活向量,所述Zs和Zr均为一个线性激活向量。
进一步的,步骤二中,所述互信息损失由JS散度计算,可近似为分类器D的二分类损失。具体表现为拼接输入图像X和潜在表示Z作为鉴别器D的输入,输入图像X及其自身的潜在表示Z是一个正样本,而输入图像X和其他图像的潜在表示是一个负样本。
进一步的,步骤三中,所述增强不变损失表现为给定一个数据增强函数T,原输入图像X和其数据增强版本T(X)经自监督编码器Q编码后,两者的类间语义信息Zc和Zc ’应相同,采用KL散度来衡量这两个近似分布带来的信息损失。
进一步的,所述数据增强函数T包括几何变换和光度变换。
进一步的,步骤四中,所述分布鉴别损失由生成分布(Zc;Zs)和先验分布PZ之间的Wasserstein distance计算,先验分布PZ具体表现在Zc上施加One-Hot分布且在Zs上施加Gaussian分布。
进一步的,步骤五中,所述自监督损失由归一化温度尺度下的交叉熵损失(NT-xent)计算,NT-xent中的特征向量项由ZI=(Zc;Zr)表示。
进一步的,步骤六和七中鉴别器C、分类器D和自监督编码器Q的更新采用随机梯度下降方法。
进一步的,步骤七中编码器损失为四个损失的加权和,包括互信息、增强不变、鉴别器和自监督损失。
有益效果:本发明提供了一种用于图像聚类的深度学习方法,相比较现有技术,针对某一张图片,采用自监督编码器学习到实例级别的特征表示。同时,将该特征解耦为语义和风格两部分,增强了与特征与聚类的相关性,提高聚类性能。下面的实施例表明:该发明可以在聚类中有效学习具有变换不变性的高级特征。此外,该发明所提出的方法几乎超过了几个公共数据集上的最新方法。
附图说明
图1为本发明的方法流程图;
图2为本发明的算法框架;
图3为本发明与其他方法的比较;
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细说明:
本实施例提供一种用于基于自监督和语义风格解耦,且用于Pendigits和HAR数据集图像聚类的方法,通过将图片通过自监督编码器得到语义风格并解耦,分析语义特征即可得到良好的聚类效果。
该方法的流程如图1所示,算法框架如图2所示
步骤一:使用自监督编码器Q将输入图像X编码成语义风格特征Z=[Zc;Zs;Zr],记为图像X的潜在表示。
步骤二:利用分类器D来最大化输入图像X与其编码的潜在表示Z之间的互信息I(X;Z),分类器D的损失记为互信息损失。
步骤三:对输入图像X进行数据增强,引入一个增强不变正则化项,利用Zc计算增强不变损失。
步骤四:对潜在表示Z施加一个先验分布PZ,利用鉴别器C计算先验分布PZ和潜在表示Z分布之间的一致性,作为分布鉴别损失。
步骤五:对输入图像进行两次不同的数据增强,利用自监督编码器Q计算自监督损失。
步骤六:最小化分布鉴别损失,更新鉴别器C。
步骤七:在给定鉴别器C下,计算编码器损失,并最小化该损失更新分类器D和自监督编码器Q。
步骤八:提取Zc中最大值所在的下标,得到该图片所属的类别。
在本实施例中,Pendigit数据集由10类手写数字组成,手写数字由压敏片采样得到,共计1797张图片。HAR数据集包含10299张图片,涵盖了6类常见的的人类行为,包括走、上楼、下楼、坐、站和躺。Pendigits和HAR数据集的主要区别是输入图像尺寸和通道不同,Pendigits是32×32的灰度图像,HAR是96×96的彩色图像。
在训练时,设置Adam优化器的学习率为10-4,Zc的维度设为10(和该数据集类别数保持一致),Zs和Zr的维度均设为50。高斯分布方差设为0.1,平均值为0。编码器损失为四个损失的加权和,其损失互信息、增强不变、鉴别器和自监督损失的权重分别为0.5、1、4和0.01。
采用的数据增强方法包括四种常用的方法:
(1)随机裁剪:在原图片中随机取样一个矩形区域,长宽比为[3/4,4/3],面积比例范围为[40%,100%],然后将裁剪区域调整为原始图像大小。
(2)随机水平翻转:以50%的概率水平翻转图像。
(3)颜色抖动:缩放亮度、对比度和饱和度系数从[0.6,1.4]均匀选取,而色调系数均匀地从[0.875,1.125]选取。
(4)通道打乱:对图像的RGB通道进行随机打乱(对彩色图像在灰度化前使用)。
此外,编码器的架构与SimCLR相同。针对不同类型的数据集,我们使用了ResNet的多个框架,例如,Pendigits使用了Resnet18,而HAR由于其较大的尺寸而使用Resnet50进行编码。编码器最后一层的维度被更改为特征向量Z的维度。我们使用在ImageNet上预先训练的自监督编码器SimCLR的参数权重,并在训练期间冻结这些参数。模型训练2000次,批大小设为64。
在Pendigits和HAR数据集上比较了基于深度学习(N2D)的最新聚类方法和我们的方法。结果如图3所示。我们方法的表现远远好于N2D。对于ACC指标,分别比N2D高4.4%和5.2%,在其余两项指标NMI和ARI上也有最优异的表现。主要原因是这两个数据集都包含人类行为,如手写数字和上楼,这些行为具有明显的高级特征,可以通过自监督表示学习有效聚类,这也意味着本发明提出的算法在实际应用中具有很大的优势。
Claims (10)
1.一种基于自监督和语义风格解耦的图像聚类方法,其特征在于包括以下八个步骤:
步骤一:使用自监督编码器Q将输入图像X编码成语义风格特征Z=[Zc;Zs;Zr],记为图像X的潜在表示。
步骤二:利用分类器D来最大化输入图像X与其编码的潜在表示Z之间的互信息I(X;Z),分类器D的损失记为互信息损失。
步骤三:对输入图像进行数据增强,引入一个增强不变正则化项,利用Zc计算增强不变损失。
步骤四:对潜在表示Z施加一个先验分布PZ,利用鉴别器C计算先验分布PZ和潜在表示Z分布之间的一致性,作为分布鉴别损失。
步骤五:对输入图像X进行两次不同的数据增强,利用自监督编码器Q计算自监督损失。
步骤六:最小化分布鉴别损失,更新鉴别器C。
步骤七:在给定鉴别器C下,计算编码器损失,并最小化该损失更新分类器D和自监督编码器Q。
步骤八:获取Zc中最大值所在的下标,作为该图片所属的类别。
2.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:步骤一中,所述Zc为类间语义信息,表示输入图像X属于每个类的概率;Zs和Zr分别表示类内数据增强有关和无关的风格信息。Zc和Zr组合为ZI=(Zc;Zr),表示图像的实例级特征。
3.根据权利要求2所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:所述Zc是一个softmax激活向量,所述Zs和Zr均为一个线性激活向量。
5.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:步骤三中,所述增强不变损失表现为给定一个数据增强函数T,原输入图像X和其数据增强版本T(X)经自监督编码器Q编码后,两者的类间语义信息Zc和Zc ’应相同,采用KL散度来衡量这两个近似分布带来的信息损失。
6.根据权利要求5所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:所述数据增强函数T包括几何变换和光度变换。
7.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:步骤四中,所述分布鉴别损失由生成分布(Zc;Zs)和先验分布PZ之间的Wasserstein distance计算,先验分布PZ具体表现在Zc上施加One-Hot分布且在Zs上施加Gaussian分布。
8.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:步骤五中,所述自监督损失由归一化温度尺度下的交叉熵损失(NT-xent)计算,NT-xent中的特征向量项由ZI=(Zc;Zr)表示。
9.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:步骤六和七中,所述鉴别器C、分类器D和自监督编码器Q的更新采用随机梯度下降方法。
10.根据权利要求1所述的基于自监督和语义风格解耦的图像聚类方法,其特征在于:步骤七中,所述编码器损失为四个损失的加权和,包括互信息、增强不变、鉴别器和自监督损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110803345.0A CN113449810B (zh) | 2021-07-15 | 2021-07-15 | 一种基于自监督和语义风格解耦的图像聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110803345.0A CN113449810B (zh) | 2021-07-15 | 2021-07-15 | 一种基于自监督和语义风格解耦的图像聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449810A CN113449810A (zh) | 2021-09-28 |
CN113449810B true CN113449810B (zh) | 2022-11-18 |
Family
ID=77816469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110803345.0A Active CN113449810B (zh) | 2021-07-15 | 2021-07-15 | 一种基于自监督和语义风格解耦的图像聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449810B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
CN111209971A (zh) * | 2020-01-08 | 2020-05-29 | 华南理工大学 | 一种实现有效特征抽取的深度子空间聚类方法及系统 |
CN111598830A (zh) * | 2020-02-18 | 2020-08-28 | 天津大学 | 一种基于无监督学习的皮肤癌疾病检测方法 |
-
2021
- 2021-07-15 CN CN202110803345.0A patent/CN113449810B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
CN111209971A (zh) * | 2020-01-08 | 2020-05-29 | 华南理工大学 | 一种实现有效特征抽取的深度子空间聚类方法及系统 |
CN111598830A (zh) * | 2020-02-18 | 2020-08-28 | 天津大学 | 一种基于无监督学习的皮肤癌疾病检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113449810A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109523463B (zh) | 一种基于条件生成对抗网络的人脸老化方法 | |
CN107122809B (zh) | 基于图像自编码的神经网络特征学习方法 | |
CN111444960A (zh) | 基于多模态数据输入的皮肤病图像分类系统 | |
CN112580590A (zh) | 一种基于多语义特征融合网络的指静脉识别方法 | |
CN111538761A (zh) | 基于注意力机制的点击率预测方法 | |
CN112765352A (zh) | 基于具有自注意力机制的图卷积神经网络文本分类方法 | |
CN114930352A (zh) | 训练图像分类模型的方法 | |
CN105631416A (zh) | 采用新型密度聚类进行人脸识别的方法 | |
Suo et al. | Group structured dirty dictionary learning for classification | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
Suo et al. | Structured dictionary learning for classification | |
Dixit et al. | Object based scene representations using fisher scores of local subspace projections | |
CN115761757A (zh) | 基于解耦特征引导的多模态文本页面分类方法 | |
CN111832650A (zh) | 基于生成对抗网络局部聚合编码半监督的图像分类方法 | |
CN112464730A (zh) | 一种基于域无关前景特征学习的行人再识别方法 | |
CN111611909A (zh) | 多子空间域自适应人脸识别方法 | |
CN113688894A (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 | |
CN113033345B (zh) | 基于公共特征子空间的v2v视频人脸识别方法 | |
CN113449810B (zh) | 一种基于自监督和语义风格解耦的图像聚类方法 | |
CN112560949A (zh) | 基于多级统计学特征提取的高光谱分类方法 | |
CN115995040A (zh) | 一种基于多尺度网络的sar图像小样本目标识别方法 | |
CN115392474B (zh) | 一种基于迭代优化的局部感知图表示学习方法 | |
CN115830401A (zh) | 一种小样本图像分类方法 | |
CN112069978B (zh) | 基于互信息和字典学习的人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |