CN116342915B

CN116342915B - 一种深度图像聚类方法、系统及存储介质

Info

Publication number: CN116342915B
Application number: CN202310621703.5A
Authority: CN
Inventors: 张瑞霖; 王鸿鹏; 郑海阳; 谢甜
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2024-06-25
Anticipated expiration: 2043-05-30
Also published as: CN116342915A

Abstract

本发明提供了一种深度图像聚类方法、系统及存储介质，该方法包括以下步骤：步骤一：将含有n个样本的图像数据集输入编码器；步骤二：编码器将输入的原始图像转化为低维嵌入特征，再分别输出给解码器和维度约减模块，解码器将低维嵌入特征恢复为原始图像，维度约减模块将所接收的低维嵌入特征转化为聚类友好的二维表示，形成聚类空间，并输出给聚类划分模块；步骤三：聚类划分模块根据每个样本的低维嵌入特征将图像数据集中的n个样本划分为K个子簇，得到聚类结果。本发明的有益效果是：本发明的深度图像聚类方法TDEC是鲁棒的，可以对多簇、大规模、复杂背景等场景下的图像数据聚类，并且聚类精度明显高于现有的先进方法。

Description

一种深度图像聚类方法、系统及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种深度图像聚类方法、系统及存储介质。

背景技术

随着信息技术的快速发展，信息产生渠道日益多元化，数据的爆炸式增长为各行业领域高质量发展带来了丰富的数据支撑，如何从繁杂的数据中分析出高价值模式信息是各行业高质量发展的前提。如今，图像数据是各行业产生最多，最常见的一类数据。如何从图像数据中挖掘出有用的模式信息已经变得非常重要。事实上，各行业产生的原始图像数据往往缺少标签信息，此外由于人工标注带来的成本限制和主观操作因素，以无监督为特点的图像聚类成为数据分析的首要选择。作为人工智能，机器学习，数据挖掘，模式识别领域中的关键技术之一，图像聚类旨在将目标图像划分为不同的群组，使同一群组的图像之间具有高度的同质性，而不同群组的图像具有最大的差异性，可快速约减原始数据间的冗余和无用信息，揭示出数据潜在的模式或结构，有助于数据的深度处理和再加工，也是众多以数据为中心的高阶任务处理原始数据的基础方法。由于具有无监督特性，图像聚类被广泛应用于图像检索，图像标注，视觉语义理解中。

面对高维、大规模的图像数据，传统的聚类方法往往产生很低的聚类精度，如基于密度的聚类（DBSCAN），基于划分的聚类（K-means），层次聚类，谱聚类等，这主要因为算法在聚类图像数据时面临着高维数据的维度诅咒、浅层的手工特征、失效的相似性等固有局限。同时传统算法依赖的计算平台是基于CPU，无法高效处理矩阵类型数据如图像。

最近，结合深度学习的聚类范式（称为深度聚类：DC）获得了很多关注，因为它弥补了传统聚类方法和高维数据之间的差距。从技术上讲，DC方法旨在利用无监督的神经网络来学习原始数据的嵌入表示，以帮助聚类任务，同时反过来使用当前的分配结果来进一步优化数据嵌入。DEC是第一个实现数据表示和聚类联合学习的深度聚类方法。DEC使用自编码器作为网络架构，训练自编码器后，只保留编码器部分用于特征提取，然后将提取的特征作为聚类模块的输入。通过计算特征空间中各点属于当前各聚类中心的概率，将得到的概率分布与目标分布进行对比，计算KL（Kullback-Leibler）散度，对聚类模块进行优化，最终得到聚类结果。DEC作为深度聚类领域中的开创性工作，明确定义了面向聚类的损失用于同时进行特征表示学习和聚类任务。由于过程简单和清晰的数学背景，DEC得到了广泛的研究，包括堆叠复杂的网络模块{IDEC,LGCC,SCDCC,VaDE}，增加辅助学习目标{LNSCC, ASPC-DA,DCC}，自适应参数确定（DipDECK,DeepDPM,DTC），以及嵌入多种划分操作（ICDM,IDECF,DEMC）。尽管在各种应用中都表现出了良好的性能，但我们观察到现有的方法在对图像数据进行聚类时仍然忽略了一些重要的考虑因素，特别是复杂的图像数据。

1）首先，现有的聚类方法通常缺少在特征学习过程中对图像中局部区域进行信息融合。具体来说，大多数DC方法通常采用Autoencoder(AE)或其高级变体来实现无监督的特征学习，在这种情况下，由于忽略了图像上下文，学习到的特征对图像聚类任务来说是低判别性的。事实上，人类通过融合图像中尽可能多的局部区域特征来感知一个物体，从而理解其整体语义。例如，在猫科动物分类中，来自图像不同区域的信息，如头部、身体、四肢、尾巴和背景，被结合起来进行判断。对此，我们有一个关键的见解，在提取无监督特征之前，在图片的不同区域之间引入具有全局视野的信息融合，有利于特征提取过程中保留更多的聚类有益的整体语义信息。

2）其次，由于无监督网络必要的正则化，如重构损失，嵌入式空间（又称潜空间）的输出往往固定在10个维度，这明显低于原始数据的维度，但对后续的聚类行为仍有挑战。

3）此外，这些工作大多只采用简单的距离信息来对每一轮迭代下的嵌入特征进行分类。因此，对于一些典型的场景，如小规模、多集群，上述解决方案可能会产生摇摆不定或不理想的性能。

发明内容

为了解决现有图像聚类方法无法准确聚类复杂图像、鲁棒性差、耗时问题的问题，本发明提供了一种深度图像聚类方法。

本发明提供了一种深度图像聚类方法，包括以下步骤：

步骤一，将含有n个样本的图像数据集输入编码器；

步骤二，编码器将步骤一输入的原始图像转化为低维嵌入特征，再分别输出给解码器和维度约减模块，解码器将低维嵌入特征恢复为原始图像，维度约减模块将低维嵌入特征转化为聚类友好的二维表示，形成聚类空间，并输出给聚类划分模块；

步骤三，聚类划分模块根据每个样本的低维嵌入特征将图像数据集中的n个样本划分为K个子簇，得到聚类结果；

步骤四，网络开始优化，并不断更新网络，直到满足迭代停止条件，否则返回步骤一。

作为本发明的进一步改进，所述步骤二中，所述编码器运行如下步骤：

步骤1，由Patch-Embedding层将输入的原始图像分割为多个补丁块，并利用卷积运算将每个补丁块转换为一维向量；

步骤2，将步骤1转换的一维向量顺序送入线性组合、Encoding-layer层，得到原始图像的低维嵌入特征；

步骤3，将步骤2获得的低维嵌入特征分别输出给解码器和维度约减模块。

作为本发明的进一步改进，所述编码器由一个Patch-Embedding层、5个Transformer构成的线性组合，一个Encoding-layer层组成。

作为本发明的进一步改进，所述步骤二中，所述解码器将得到的重构损失用于训练网络，重构损失定义如下：

（1）

x _i表示图像数据集中的任意图像，g _u表示解码器，表示图像样本x _i的图像增强版本，f _w表示编码器，n表示样本个数。

作为本发明的进一步改进，所述步骤二中，所述维度约减模块中的维度约减损失定义如下：

（2）

和/>分别代表输入的嵌入特征/>和输出的聚类特征/>的整体分布，通过最小化两个分布的KL散度得到友好的二维特征；其中/>表示嵌入特征z _i和嵌入特征z _j之间联合概率分布，/>表示二维嵌入特征/>和二维嵌入特征/>联合概率分布。

作为本发明的进一步改进，所述步骤三还包括：

步骤S1，依据网络产生的图像数据集X的二维特征，聚类划分模块计算每个图像样本的密度，然后选取K个簇中心；

步骤S2，度量每个图像样本到每个簇的概率，最终得到聚类结果。

作为本发明的进一步改进，所述步骤S1中，密度定义如下：

（5）

其中，dc表示密度计算时的采样半径；

距高密度样本的最小距离计算如下：

（6）

其中，表示图像x _j的密度_；

簇中心的决策值定义如下：

（7）

图像数据集X中具有K个最大决策值的图像即为簇中心。

作为本发明的进一步改进，所述步骤S2包括：

使用t分布来预测簇分配概率，图像样本属于簇t的辅助概率定义如下：

（8）

其中，表示图像x _i属于簇t的概率，p _it表示图像x _i属于簇t的辅助概率；

聚类损失定义如下：

（9）

整体损失定义如下：

L=L _rec +L _dim +L _clu （11）

L _rec表示网络重构损失，表示维度约减损失，/>表示聚类损失。

作为本发明的进一步改进，在所述步骤四中，如果连续两次网络更新时得到的聚类结果差异小于阈值，则停止迭代。

本发明还公开了一种深度图像聚类系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述深度图像聚类方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的深度图像聚类方法的步骤。

本发明的有益效果是：本发明的深度图像聚类方法TDEC是鲁棒的，可以对多簇、大规模、复杂背景等场景下的图像数据聚类，并且聚类精度明显高于现有的先进方法。

附图说明

图1是本发明深度图像聚类方法流程图；

图2是本发明深度图像聚类方法算法流程图；

图3是本发明深度图像聚类方法Transformer模块结构图；

图4是本发明深度图像聚类方法维度约减模块示意图；

图5是图像数据集MNIST的原始特征图（模糊，边界不清）；

图6是本发明算法得到的数据集的特征图（清晰，易辨认）。

具体实施方式

在人工智能，机器学习，数据挖掘，模式识别领域中，图像聚类是一项关键但具有挑战性的任务。最近，聚类与深度学习的结合在高维图像数据上取得了与传统方法相比很有希望的性能。但是现有的深度聚类方法（DC）往往忽略了不同图像区域之间的信息融合对图像聚类的重要性，尤其是复杂的图像。此外，学习到的特征在维度上通常对聚类不友好，而且只基于简单的距离信息进行聚类。在这方面，本发明提出了一个深度嵌入图像聚类的TDEC，这是第一次联合考虑特征表示、维度偏好和图像聚类的稳健分配。具体来说，本发明引入了Transformer来形成一个新的模块T-Encoder来学习具有全局依赖性的辨别性特征，同时使用Dim-Reduction块来建立一个有利于聚类的友好低维空间。此外，在聚类过程中考虑了嵌入特征的分布信息，为联合训练提供可靠的监督信号。本发明的深度图像聚类方法是稳健的，并允许在数据大小、聚类数量和背景的复杂性方面有更大的灵活性。更重要的是，TDEC的聚类性能远远高于最近的竞争对手。在复杂的数据集上与最先进的方法进行的广泛实验表明了TDEC的优越性。Transformer是一个利用注意力机制来提高模型训练速度的模块。

本发明深度图像聚类方法的目标是将含有n个样本的图像数据集，分成K不相交的集群。本发明提出的TDEC架构，如图2所示，由编码器T-Encoder，解码器T-Decoder，维度约减模块Dim-Reduction block和聚类头Clustering Head四个模块构成。例如，给定一张图像/>，编码器T-Encoder（表示为/>）将该图像转化为m维的嵌入特征/>。解码器T-Decoder结构与编码器T-Encoder相似，作用是在网络训练时将m维的嵌入特征恢复为原始图像。维度约减块DR（表示为/>）将m维嵌入特征转化为聚类友好的二维表示/>，形成聚类空间/>。最后，聚类划分模块CH根据每个样本的嵌入特征/>将数据集X中n个样本划分为K个子簇，得到聚类结果。随后，网络开始优化（反向传播），直到满足迭代停止条件（连续两次网络更新时得到的聚类结果差异小于阈值）。

算法流程如下：

算法1：TDEC

输入：含有n张图像的数据集X，簇个数K，迭代次数Max-Iter，停止训练阈值；

输出：聚类结果；

输入图像数据集X；

预训练网络模型

For iter = 0 to Max-Iter do

输出图像数据集X中所有样本的低维嵌入特征；

打分X中的每个样本；

选取K个簇中心；

计算每个样本归属每个簇的概率，形成软标签分布Q；

保存上一轮的聚类结果；

计算当前聚类结果；

If 连续两次聚类结果，/>的变化小于阈值/>；

停止迭代；

End

Do

从X中选择一批样本，送入神经网络；

计算损失；

更新网络权重；

While（所有样本均送入网络）

End for

输出：聚类结果

详细介绍如下：

如图1-2所示，本发明公开了一种深度图像聚类方法，包括以下步骤：

步骤一，输入步骤；将含有n个样本的图像数据集输入编码器；

步骤二，编码器将步骤一输入的原始图像转化为低维嵌入特征，再分别输出给解码器和维度约减模块，解码器将所接收的低维嵌入特征恢复为原始图像，维度约减模块将所接收的低维嵌入特征转化为聚类友好的二维表示，形成聚类空间，并输出给聚类划分模块；

编码器T-Encoder：从结构上看，T-Encode由一个Patch-Embedding层、5个Transformer的线性组合，一个Encoding-layer层组成。

所述步骤二中，所述编码器运行如下步骤：

步骤1，由Patch-Embedding（块嵌入）层将原始图像分割为9个补丁块，并利用卷积运算将每个补丁块转换为一维向量。

步骤2，随后，将步骤1转换的一维向量顺序送入5个Transformer和Encoding-layer层（编码层），得到原始图像的低维嵌入特征。Transformer模块为深度学习中常见的标准模块，如图3所示。Encoding-layer层通过常见的全连接网络实现，大小为[d-512-512-3072-m]。

编码器T- Encoder与解码器T-Decoder的结构是镜像对称的，解码器功能在于将图像的低维嵌入特征恢复为原始图像，得到的重构损失用于训练网络，重构损失如下：

（1）

其中，x _i表示图像i数据集中的任意图像，g _u表示解码器，表示图像样本x _i的图像增强版本，f _w表示编码器，n表示样本个数。

维度约减模块Dim-Reduction：对于图像数据集X，TDEC利用Dim-Reduction块来形成一个有利于聚类行为的二维聚类空间。例如，/>表示图像样本/>的二维特征。详细来说，该模块利用全连接网络将编码器T- Encoder生成的特征空间/>降维到一个更友好的聚类空间/>，并根据降维损失不断优化整个模型，如图4所示。所用到的全连接网络维度为10-50-50-100-2。

维度约减损失定义如下：

（2）

（3）

（4）

步骤三，聚类划分步骤；聚类划分模块根据每个样本的低维嵌入特征将图像数据集中的n个样本划分为K个子簇，得到聚类结果。

聚类划分模块CH：与现有的划分方法不同，本发明提出的方法融合了密度信息，可以选取出高代表性簇中心而非以往的均值中心，进一步了提高聚类精度。

在所述步骤三中，还包括：

步骤S1，依据网络产生的图像数据集X的二维特征，聚类划分模块计算每个图像样本的密度，然后选取K个簇中心。

密度定义如下：

（5）

距高密度样本的最小距离计算如下：

（6）

簇中心的决策值定义如下：

（7）

基于此，若图像的决策值/>越大，表明图像/>越有可能是簇中心。因此，图像数据集X中具有K个最大决策值的图像即为簇中心。

（8）

计算完全部样本的分配概率，本发明方法的聚类损失定义如下：

（9）

（10）

综上所述，本发明提出的图像聚类方法TDEC的整体损失包含网络重构损失 L _rec，维度约减损失L _dim以及聚类损失L _clu，表示如下：

L=L _rec +L _dim +L _clu（11）

步骤四，停止迭代步骤；执行完所述步骤三后，网络开始优化，直到满足迭代停止条件，否则返回步骤一，继续将n个样本输入更新后的编码器，得到新的低维嵌入特征，再继续执行步骤三。

实验结果

本发明的深度图像聚类方法选择了MNIST、USPS、Fashion MNIST（F-MNIST）、Emnist-Letters、Digits、GTSRB数据集来进行验证，并且对比了国内外最新的图像聚类算法。数据集详细信息如下表1，实验结果如图5、图6所示。

结论：

本发明的深度图像聚类方法提供了一种图像聚类方法TDEC，该深度图像聚类方法可以高效处理带有多簇、大规模、小样本、复杂背景的图像聚类任务，聚类精度高于现有的图像聚类方法。该深度图像聚类方法解决了现有方法无法有效聚类大规模图像数据、耗时长、精度差的问题。该深度图像聚类方法主要包括编码器模块，解码器模块，维度约减模块，聚类划分模块。该深度图像聚类方法首先利用编码器得出图像数据集的嵌入特征，并基于嵌入特征将图像数据集X划分为K个簇，并计算相关损失，进而进行网络优化直到达到收敛状态。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种深度图像聚类方法，其特征在于，包括以下步骤：

步骤一，将含有n个样本的图像数据集输入编码器；

步骤三，将所述步骤二低维嵌入特征转化后的聚类友好的二维表示输入聚类划分模块，聚类划分模块根据每个样本聚类友好的二维表示，融合密度信息，将图像数据集中的n个样本划分为K个子簇，得到聚类结果；

步骤四，网络开始优化，并不断更新网络，直到满足迭代停止条件，否则返回步骤一；

所述步骤二中，所述编码器运行如下步骤：

步骤2，将步骤1转换的一维向量顺序送入Transformer线性组合、Encoding-layer层，得到原始图像的低维嵌入特征；

步骤3，将步骤2获得的低维嵌入特征分别输出给解码器和维度约减模块；

所述步骤三还包括：

步骤S2，度量每个图像样本到每个簇的概率，最终得到聚类结果；

所述步骤S1中，密度定义如下：

,

其中，dc表示密度计算时的采样半径；

距高密度样本的最小距离计算如下：

,

其中，表示图像x _j的密度，X表示图像数据集_；

簇中心的决策值定义如下：

（7）

图像数据集X中具有K个最大决策值的图像即为簇中心；

所述步骤二中，所述维度约减模块中的维度约减损失定义如下：

（2）

2.根据权利要求1所述的深度图像聚类方法，其特征在于，所述编码器由一个Patch-Embedding层、5个Transformer构成的线性组合、一个Encoding-layer层组成。

3.根据权利要求1所述的深度图像聚类方法，其特征在于，所述步骤二中，所述解码器将得到的重构损失用于训练网络，重构损失定义如下：

,

其中，x _i表示图像数据集中的任意图像，g _u表示解码器，表示图像样本x _i的图像增强版本，f _w表示编码器，n表示样本个数。

4.根据权利要求3所述的深度图像聚类方法，其特征在于，所述步骤S2包括：

（8）,

聚类损失定义如下：

（9）

整体损失定义如下：

L=L _rec +L _dim +L _clu（11）

5.根据权利要求1所述的深度图像聚类方法，其特征在于，在所述步骤四中，如果连续两次网络更新时得到的聚类结果差异小于阈值，则停止迭代。

6.一种深度图像聚类系统，其特征在于：包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－5中任一项所述深度图像聚类方法的步骤。

7.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－5中任一项所述的深度图像聚类方法的步骤。