CN116342915B - 一种深度图像聚类方法、系统及存储介质 - Google Patents
一种深度图像聚类方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116342915B CN116342915B CN202310621703.5A CN202310621703A CN116342915B CN 116342915 B CN116342915 B CN 116342915B CN 202310621703 A CN202310621703 A CN 202310621703A CN 116342915 B CN116342915 B CN 116342915B
- Authority
- CN
- China
- Prior art keywords
- image
- clustering
- dimensional
- cluster
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000009467 reduction Effects 0.000 claims abstract description 25
- 238000009826 distribution Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 238000011161 development Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 241000854291 Dianthus carthusianorum Species 0.000 description 1
- 241000282324 Felis Species 0.000 description 1
- 101100315526 Homo sapiens TUSC2 gene Proteins 0.000 description 1
- 102100036129 Tumor suppressor candidate 2 Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种深度图像聚类方法、系统及存储介质,该方法包括以下步骤:步骤一:将含有n个样本的图像数据集输入编码器;步骤二:编码器将输入的原始图像转化为低维嵌入特征,再分别输出给解码器和维度约减模块,解码器将低维嵌入特征恢复为原始图像,维度约减模块将所接收的低维嵌入特征转化为聚类友好的二维表示,形成聚类空间,并输出给聚类划分模块;步骤三:聚类划分模块根据每个样本的低维嵌入特征将图像数据集中的n个样本划分为K个子簇,得到聚类结果。本发明的有益效果是:本发明的深度图像聚类方法TDEC是鲁棒的,可以对多簇、大规模、复杂背景等场景下的图像数据聚类,并且聚类精度明显高于现有的先进方法。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种深度图像聚类方法、系统及存储介质。
背景技术
随着信息技术的快速发展,信息产生渠道日益多元化,数据的爆炸式增长为各行业领域高质量发展带来了丰富的数据支撑,如何从繁杂的数据中分析出高价值模式信息是各行业高质量发展的前提。如今,图像数据是各行业产生最多,最常见的一类数据。如何从图像数据中挖掘出有用的模式信息已经变得非常重要。事实上,各行业产生的原始图像数据往往缺少标签信息,此外由于人工标注带来的成本限制和主观操作因素,以无监督为特点的图像聚类成为数据分析的首要选择。作为人工智能,机器学习,数据挖掘,模式识别领域中的关键技术之一,图像聚类旨在将目标图像划分为不同的群组,使同一群组的图像之间具有高度的同质性,而不同群组的图像具有最大的差异性,可快速约减原始数据间的冗余和无用信息,揭示出数据潜在的模式或结构,有助于数据的深度处理和再加工,也是众多以数据为中心的高阶任务处理原始数据的基础方法。由于具有无监督特性,图像聚类被广泛应用于图像检索,图像标注,视觉语义理解中。
面对高维、大规模的图像数据,传统的聚类方法往往产生很低的聚类精度,如基于密度的聚类(DBSCAN),基于划分的聚类(K-means),层次聚类,谱聚类等,这主要因为算法在聚类图像数据时面临着高维数据的维度诅咒、浅层的手工特征、失效的相似性等固有局限。同时传统算法依赖的计算平台是基于CPU,无法高效处理矩阵类型数据如图像。
最近,结合深度学习的聚类范式(称为深度聚类:DC)获得了很多关注,因为它弥补了传统聚类方法和高维数据之间的差距。 从技术上讲,DC方法旨在利用无监督的神经网络来学习原始数据的嵌入表示,以帮助聚类任务,同时反过来使用当前的分配结果来进一步优化数据嵌入。DEC是第一个实现数据表示和聚类联合学习的深度聚类方法。DEC使用自编码器作为网络架构,训练自编码器后,只保留编码器部分用于特征提取,然后将提取的特征作为聚类模块的输入。通过计算特征空间中各点属于当前各聚类中心的概率,将得到的概率分布与目标分布进行对比,计算KL(Kullback-Leibler)散度,对聚类模块进行优化,最终得到聚类结果。DEC作为深度聚类领域中的开创性工作,明确定义了面向聚类的损失用于同时进行特征表示学习和聚类任务。由于过程简单和清晰的数学背景,DEC得到了广泛的研究,包括堆叠复杂的网络模块{IDEC,LGCC,SCDCC,VaDE},增加辅助学习目标{LNSCC, ASPC-DA,DCC},自适应参数确定(DipDECK,DeepDPM,DTC),以及嵌入多种划分操作(ICDM,IDECF,DEMC)。尽管在各种应用中都表现出了良好的性能,但我们观察到现有的方法在对图像数据进行聚类时仍然忽略了一些重要的考虑因素,特别是复杂的图像数据。
1)首先,现有的聚类方法通常缺少在特征学习过程中对图像中局部区域进行信息融合。具体来说,大多数DC方法通常采用Autoencoder(AE)或其高级变体来实现无监督的特征学习,在这种情况下,由于忽略了图像上下文,学习到的特征对图像聚类任务来说是低判别性的。事实上,人类通过融合图像中尽可能多的局部区域特征来感知一个物体,从而理解其整体语义。例如,在猫科动物分类中,来自图像不同区域的信息,如头部、身体、四肢、尾巴和背景,被结合起来进行判断。对此,我们有一个关键的见解,在提取无监督特征之前,在图片的不同区域之间引入具有全局视野的信息融合,有利于特征提取过程中保留更多的聚类有益的整体语义信息。
2)其次,由于无监督网络必要的正则化,如重构损失,嵌入式空间(又称潜空间)的输出往往固定在10个维度,这明显低于原始数据的维度,但对后续的聚类行为仍有挑战。
3)此外,这些工作大多只采用简单的距离信息来对每一轮迭代下的嵌入特征进行分类。因此,对于一些典型的场景,如小规模、多集群,上述解决方案可能会产生摇摆不定或不理想的性能。
发明内容
为了解决现有图像聚类方法无法准确聚类复杂图像、鲁棒性差、耗时问题的问题,本发明提供了一种深度图像聚类方法。
本发明提供了一种深度图像聚类方法,包括以下步骤:
步骤一,将含有n个样本的图像数据集输入编码器;
步骤二,编码器将步骤一输入的原始图像转化为低维嵌入特征,再分别输出给解码器和维度约减模块,解码器将低维嵌入特征恢复为原始图像,维度约减模块将低维嵌入特征转化为聚类友好的二维表示,形成聚类空间,并输出给聚类划分模块;
步骤三,聚类划分模块根据每个样本的低维嵌入特征将图像数据集中的n个样本划分为K个子簇,得到聚类结果;
步骤四,网络开始优化,并不断更新网络,直到满足迭代停止条件,否则返回步骤一。
作为本发明的进一步改进,所述步骤二中,所述编码器运行如下步骤:
步骤1,由Patch-Embedding层将输入的原始图像分割为多个补丁块,并利用卷积运算将每个补丁块转换为一维向量;
步骤2,将步骤1转换的一维向量顺序送入线性组合、Encoding-layer层,得到原始图像的低维嵌入特征;
步骤3,将步骤2获得的低维嵌入特征分别输出给解码器和维度约减模块。
作为本发明的进一步改进,所述编码器由一个Patch-Embedding层、5个Transformer构成的线性组合,一个Encoding-layer层组成。
作为本发明的进一步改进,所述步骤二中,所述解码器将得到的重构损失用于训练网络,重构损失定义如下:
(1)
x i 表示图像数据集中的任意图像,g u 表示解码器,表示图像样本x i 的图像增强版本,f w 表示编码器,n表示样本个数。
作为本发明的进一步改进,所述步骤二中,所述维度约减模块中的维度约减损失定义如下:
(2)
和/>分别代表输入的嵌入特征/>和输出的聚类特征/>的整体分布,通过最小化两个分布的KL散度得到友好的二维特征;其中/>表示嵌入特征z i 和嵌入特征z j 之间联合概率分布,/>表示二维嵌入特征/>和二维嵌入特征/>联合概率分布。
作为本发明的进一步改进,所述步骤三还包括:
步骤S1,依据网络产生的图像数据集X的二维特征,聚类划分模块计算每个图像样本的密度,然后选取K个簇中心;
步骤S2,度量每个图像样本到每个簇的概率,最终得到聚类结果。
作为本发明的进一步改进,所述步骤S1中,密度定义如下:
(5)
其中,dc表示密度计算时的采样半径;
距高密度样本的最小距离计算如下:
(6)
其中,表示图像x j 的密度;
簇中心的决策值定义如下:
(7)
图像数据集X中具有K个最大决策值的图像即为簇中心。
作为本发明的进一步改进,所述步骤S2包括:
使用t分布来预测簇分配概率,图像样本属于簇t的辅助概率定义如下:
(8)
其中,表示图像x i 属于簇t的概率,p it 表示图像x i 属于簇t的辅助概率;
聚类损失定义如下:
(9)
整体损失定义如下:
L=L rec +L dim +L clu (11)
L rec 表示网络重构损失,表示维度约减损失,/>表示聚类损失。
作为本发明的进一步改进,在所述步骤四中,如果连续两次网络更新时得到的聚类结果差异小于阈值,则停止迭代。
本发明还公开了一种深度图像聚类系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述深度图像聚类方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的深度图像聚类方法的步骤。
本发明的有益效果是:本发明的深度图像聚类方法TDEC是鲁棒的,可以对多簇、大规模、复杂背景等场景下的图像数据聚类,并且聚类精度明显高于现有的先进方法。
附图说明
图1是本发明深度图像聚类方法流程图;
图2是本发明深度图像聚类方法算法流程图;
图3是本发明深度图像聚类方法Transformer模块结构图;
图4是本发明深度图像聚类方法维度约减模块示意图;
图5是图像数据集MNIST的原始特征图(模糊,边界不清);
图6是本发明算法得到的数据集的特征图(清晰,易辨认)。
具体实施方式
在人工智能,机器学习,数据挖掘,模式识别领域中,图像聚类是一项关键但具有挑战性的任务。最近,聚类与深度学习的结合在高维图像数据上取得了与传统方法相比很有希望的性能。但是现有的深度聚类方法(DC)往往忽略了不同图像区域之间的信息融合对图像聚类的重要性,尤其是复杂的图像。此外,学习到的特征在维度上通常对聚类不友好,而且只基于简单的距离信息进行聚类。在这方面,本发明提出了一个深度嵌入图像聚类的TDEC,这是第一次联合考虑特征表示、维度偏好和图像聚类的稳健分配。具体来说,本发明引入了Transformer来形成一个新的模块T-Encoder来学习具有全局依赖性的辨别性特征,同时使用Dim-Reduction块来建立一个有利于聚类的友好低维空间。此外,在聚类过程中考虑了嵌入特征的分布信息,为联合训练提供可靠的监督信号。本发明的深度图像聚类方法是稳健的,并允许在数据大小、聚类数量和背景的复杂性方面有更大的灵活性。更重要的是,TDEC的聚类性能远远高于最近的竞争对手。在复杂的数据集上与最先进的方法进行的广泛实验表明了TDEC的优越性。Transformer是一个利用注意力机制来提高模型训练速度的模块。
本发明深度图像聚类方法的目标是将含有n个样本的图像数据集,分成K不相交的集群。本发明提出的TDEC架构,如图2所示,由编码器T-Encoder,解码器T-Decoder,维度约减模块Dim-Reduction block和聚类头Clustering Head四个模块构成。例如,给定一张图像/>,编码器T-Encoder(表示为/>)将该图像转化为m维的嵌入特征/>。解码器T-Decoder结构与编码器T-Encoder相似,作用是在网络训练时将m维的嵌入特征恢复为原始图像。维度约减块DR(表示为/>)将m维嵌入特征转化为聚类友好的二维表示/>,形成聚类空间/>。最后,聚类划分模块CH根据每个样本的嵌入特征/>将数据集X中n个样本划分为K个子簇,得到聚类结果。随后,网络开始优化(反向传播),直到满足迭代停止条件(连续两次网络更新时得到的聚类结果差异小于阈值)。
算法流程如下:
算法1:TDEC
输入:含有n张图像的数据集X,簇个数K,迭代次数Max-Iter,停止训练阈值;
输出:聚类结果;
输入图像数据集X;
预训练网络模型
For iter = 0 to Max-Iter do
输出图像数据集X中所有样本的低维嵌入特征;
打分X中的每个样本;
选取K个簇中心;
计算每个样本归属每个簇的概率,形成软标签分布Q;
保存上一轮的聚类结果;
计算当前聚类结果;
If 连续两次聚类结果,/>的变化小于阈值/>;
停止迭代;
End
Do
从X中选择一批样本,送入神经网络;
计算损失;
更新网络权重;
While(所有样本均送入网络)
End for
输出:聚类结果
详细介绍如下:
如图1-2所示,本发明公开了一种深度图像聚类方法,包括以下步骤:
步骤一,输入步骤;将含有n个样本的图像数据集输入编码器;
步骤二,编码器将步骤一输入的原始图像转化为低维嵌入特征,再分别输出给解码器和维度约减模块,解码器将所接收的低维嵌入特征恢复为原始图像,维度约减模块将所接收的低维嵌入特征转化为聚类友好的二维表示,形成聚类空间,并输出给聚类划分模块;
编码器T-Encoder:从结构上看,T-Encode由一个Patch-Embedding层、5个Transformer的线性组合,一个Encoding-layer层组成。
所述步骤二中,所述编码器运行如下步骤:
步骤1,由Patch-Embedding(块嵌入)层将原始图像分割为9个补丁块,并利用卷积运算将每个补丁块转换为一维向量。
步骤2,随后,将步骤1转换的一维向量顺序送入5个Transformer和Encoding-layer层(编码层),得到原始图像的低维嵌入特征。Transformer模块为深度学习中常见的标准模块,如图3所示。Encoding-layer层通过常见的全连接网络实现,大小为[d-512-512-3072-m]。
编码器T- Encoder与解码器T-Decoder的结构是镜像对称的,解码器功能在于将图像的低维嵌入特征恢复为原始图像,得到的重构损失用于训练网络,重构损失如下:
(1)
其中,x i 表示图像i数据集中的任意图像 ,g u 表示解码器 ,表示图像样本x i 的图像增强版本,f w 表示编码器,n表示样本个数。
维度约减模块Dim-Reduction:对于图像数据集X,TDEC利用Dim-Reduction块来形成一个有利于聚类行为的二维聚类空间。例如,/>表示图像样本/>的二维特征。详细来说,该模块利用全连接网络将编码器T- Encoder生成的特征空间/>降维到一个更友好的聚类空间/>,并根据降维损失不断优化整个模型,如图4所示。所用到的全连接网络维度为10-50-50-100-2。
维度约减损失定义如下:
(2)
和/>分别代表输入的嵌入特征/>和输出的聚类特征/>的整体分布,通过最小化两个分布的KL散度得到友好的二维特征;其中/>表示嵌入特征z i 和嵌入特征z j 之间联合概率分布,/>表示二维嵌入特征/>和二维嵌入特征/>联合概率分布。
(3)
(4)
步骤三,聚类划分步骤;聚类划分模块根据每个样本的低维嵌入特征将图像数据集中的n个样本划分为K个子簇,得到聚类结果。
聚类划分模块CH:与现有的划分方法不同,本发明提出的方法融合了密度信息,可以选取出高代表性簇中心而非以往的均值中心,进一步了提高聚类精度。
在所述步骤三中,还包括:
步骤S1,依据网络产生的图像数据集X的二维特征,聚类划分模块计算每个图像样本的密度,然后选取K个簇中心。
密度定义如下:
(5)
距高密度样本的最小距离计算如下:
(6)
簇中心的决策值定义如下:
(7)
基于此,若图像的决策值/>越大,表明图像/>越有可能是簇中心。因此,图像数据集X中具有K个最大决策值的图像即为簇中心。
步骤S2,度量每个图像样本到每个簇的概率,最终得到聚类结果。
使用t分布来预测簇分配概率,图像样本属于簇t的辅助概率定义如下:
(8)
计算完全部样本的分配概率,本发明方法的聚类损失定义如下:
(9)
(10)
综上所述,本发明提出的图像聚类方法TDEC的整体损失包含网络重构损失 L rec ,维度约减损失L dim 以及聚类损失L clu ,表示如下:
L=L rec +L dim +L clu (11)
步骤四,停止迭代步骤;执行完所述步骤三后,网络开始优化,直到满足迭代停止条件,否则返回步骤一,继续将n个样本输入更新后的编码器,得到新的低维嵌入特征,再继续执行步骤三。
实验结果
本发明的深度图像聚类方法选择了MNIST、USPS、Fashion MNIST(F-MNIST)、Emnist-Letters、Digits、GTSRB数据集来进行验证,并且对比了国内外最新的图像聚类算法。数据集详细信息如下表1,实验结果如图5、图6所示。
结论:
本发明的深度图像聚类方法提供了一种图像聚类方法TDEC,该深度图像聚类方法可以高效处理带有多簇、大规模、小样本、复杂背景的图像聚类任务,聚类精度高于现有的图像聚类方法。该深度图像聚类方法解决了现有方法无法有效聚类大规模图像数据、耗时长、精度差的问题。该深度图像聚类方法主要包括编码器模块,解码器模块,维度约减模块,聚类划分模块。该深度图像聚类方法首先利用编码器得出图像数据集的嵌入特征,并基于嵌入特征将图像数据集X划分为K个簇,并计算相关损失,进而进行网络优化直到达到收敛状态。
本发明还公开了一种深度图像聚类系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述深度图像聚类方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的深度图像聚类方法的步骤。
本发明的有益效果是:本发明的深度图像聚类方法TDEC是鲁棒的,可以对多簇、大规模、复杂背景等场景下的图像数据聚类,并且聚类精度明显高于现有的先进方法。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (7)
1.一种深度图像聚类方法,其特征在于,包括以下步骤:
步骤一,将含有n个样本的图像数据集输入编码器;
步骤二,编码器将步骤一输入的原始图像转化为低维嵌入特征,再分别输出给解码器和维度约减模块,解码器将低维嵌入特征恢复为原始图像,维度约减模块将低维嵌入特征转化为聚类友好的二维表示,形成聚类空间,并输出给聚类划分模块;
步骤三,将所述步骤二低维嵌入特征转化后的聚类友好的二维表示输入聚类划分模块,聚类划分模块根据每个样本聚类友好的二维表示,融合密度信息,将图像数据集中的n个样本划分为K个子簇,得到聚类结果;
步骤四,网络开始优化,并不断更新网络,直到满足迭代停止条件,否则返回步骤一;
所述步骤二中,所述编码器运行如下步骤:
步骤1,由Patch-Embedding层将输入的原始图像分割为多个补丁块,并利用卷积运算将每个补丁块转换为一维向量;
步骤2,将步骤1转换的一维向量顺序送入Transformer线性组合、Encoding-layer层,得到原始图像的低维嵌入特征;
步骤3,将步骤2获得的低维嵌入特征分别输出给解码器和维度约减模块;
所述步骤三还包括:
步骤S1,依据网络产生的图像数据集X的二维特征,聚类划分模块计算每个图像样本的密度,然后选取K个簇中心;
步骤S2,度量每个图像样本到每个簇的概率,最终得到聚类结果;
所述步骤S1中,密度定义如下:
,
其中,dc表示密度计算时的采样半径;
距高密度样本的最小距离计算如下:
,
其中,表示图像x j 的密度,X表示图像数据集;
簇中心的决策值定义如下:
(7)
图像数据集X中具有K个最大决策值的图像即为簇中心;
所述步骤二中,所述维度约减模块中的维度约减损失定义如下:
(2)
和/>分别代表输入的嵌入特征/>和输出的聚类特征/>的整体分布,通过最小化两个分布的KL散度得到友好的二维特征;其中/>表示嵌入特征z i 和嵌入特征z j 之间联合概率分布,/>表示二维嵌入特征/>和二维嵌入特征/>联合概率分布。
2.根据权利要求1所述的深度图像聚类方法,其特征在于,所述编码器由一个Patch-Embedding层、5个Transformer构成的线性组合、一个Encoding-layer层组成。
3.根据权利要求1所述的深度图像聚类方法,其特征在于,所述步骤二中,所述解码器将得到的重构损失用于训练网络,重构损失定义如下:
,
其中,x i 表示图像数据集中的任意图像 ,g u 表示解码器 ,表示图像样本x i 的图像增强版本,f w 表示编码器,n表示样本个数。
4.根据权利要求3所述的深度图像聚类方法,其特征在于,所述步骤S2包括:
使用t分布来预测簇分配概率,图像样本属于簇t的辅助概率定义如下:
(8),
其中,表示图像x i 属于簇t的概率,p it 表示图像x i 属于簇t的辅助概率;
聚类损失定义如下:
(9)
整体损失定义如下:
L=L rec +L dim +L clu (11)
L rec 表示网络重构损失,表示维度约减损失,/>表示聚类损失。
5.根据权利要求1所述的深度图像聚类方法,其特征在于,在所述步骤四中,如果连续两次网络更新时得到的聚类结果差异小于阈值,则停止迭代。
6.一种深度图像聚类系统,其特征在于:包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-5中任一项所述深度图像聚类方法的步骤。
7.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-5中任一项所述的深度图像聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310621703.5A CN116342915B (zh) | 2023-05-30 | 2023-05-30 | 一种深度图像聚类方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310621703.5A CN116342915B (zh) | 2023-05-30 | 2023-05-30 | 一种深度图像聚类方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116342915A CN116342915A (zh) | 2023-06-27 |
CN116342915B true CN116342915B (zh) | 2024-06-25 |
Family
ID=86879120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310621703.5A Active CN116342915B (zh) | 2023-05-30 | 2023-05-30 | 一种深度图像聚类方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342915B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919204A (zh) * | 2019-02-23 | 2019-06-21 | 华南理工大学 | 一种面向噪声图像的深度学习聚类方法 |
CN113469236A (zh) * | 2021-06-25 | 2021-10-01 | 江苏大学 | 一种自我标签学习的深度聚类图像识别系统及方法 |
CN114139618A (zh) * | 2021-11-24 | 2022-03-04 | 杭州电子科技大学 | 基于改进密度峰值聚类的信号依赖噪声参数估计方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780395B (zh) * | 2021-08-31 | 2023-02-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 海量高维ais轨迹数据聚类方法 |
CN115310554A (zh) * | 2022-08-24 | 2022-11-08 | 江苏至信信用评估咨询有限公司 | 基于深度聚类的品项分配策略、系统、存储介质和设备 |
CN116150638A (zh) * | 2023-01-12 | 2023-05-23 | 中国人民解放军国防科技大学 | 基于簇置信度的深度聚类集成方法、装置、设备和介质 |
-
2023
- 2023-05-30 CN CN202310621703.5A patent/CN116342915B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919204A (zh) * | 2019-02-23 | 2019-06-21 | 华南理工大学 | 一种面向噪声图像的深度学习聚类方法 |
CN113469236A (zh) * | 2021-06-25 | 2021-10-01 | 江苏大学 | 一种自我标签学习的深度聚类图像识别系统及方法 |
CN114139618A (zh) * | 2021-11-24 | 2022-03-04 | 杭州电子科技大学 | 基于改进密度峰值聚类的信号依赖噪声参数估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116342915A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069896B (zh) | 一种基于孪生网络融合多模板特征的视频目标跟踪方法 | |
CN113177132B (zh) | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 | |
Chen et al. | Two-stage label embedding via neural factorization machine for multi-label classification | |
Huang et al. | Cost-effective vehicle type recognition in surveillance images with deep active learning and web data | |
CN110019652B (zh) | 一种基于深度学习的跨模态哈希检索方法 | |
CN114022793B (zh) | 一种基于孪生网络的光学遥感图像变化检测方法 | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN106780639B (zh) | 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法 | |
CN113886571A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN109960732B (zh) | 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
Wei et al. | Compact MQDF classifiers using sparse coding for handwritten Chinese character recognition | |
CN111008224A (zh) | 一种基于深度多任务表示学习的时间序列分类和检索方法 | |
Shu et al. | A SVM multi-class image classification method based on DE and KNN in smart city management | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
CN114781779A (zh) | 一种无监督能耗异常检测方法、装置及存储介质 | |
Qin et al. | Application of video scene semantic recognition technology in smart video | |
CN116342915B (zh) | 一种深度图像聚类方法、系统及存储介质 | |
Jin et al. | Deep saliency hashing | |
CN117035000A (zh) | 基于混合初始化粒子群优化的进化双任务特征选择方法 | |
Zhou et al. | Morphological Feature Aware Multi-CNN Model for Multilingual Text Recognition. | |
CN115661504A (zh) | 基于迁移学习和视觉词包的遥感样本分类方法 | |
Zhou et al. | Deep adversarial quantization network for cross-modal retrieval | |
CN115544306A (zh) | 一种基于特征融合哈希算法的多模态检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |