CN115359281A

CN115359281A - 基于深度子空间聚类顺序集成的图像聚类方法及系统

Info

Publication number: CN115359281A
Application number: CN202210549705.3A
Authority: CN
Inventors: 杨帆; 林志强; 余忠平; 赖永炫
Original assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Current assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-11-18

Abstract

本发明公开一种基于深度子空间聚类顺序集成的图像聚类方法及系统，方法包括：基于输入图像数据与重建图像数据获得初始的图像编码器网络和图像解码器网络；基于随机遮掩视觉特征向量和自我表达的视觉特征向量获得初始的自我表达系数矩阵；固定自我表达系数矩阵，迭代更新图像编码器网络和图像解码器网络；固定图像编码器网络和图像解码器网络，迭代更新自我表达系数矩阵；基于自我表达系数矩阵，迭代更新图像相似度矩阵以及图像集成相似度矩阵；将最终得到的图像集成相似度矩阵作为谱聚类算法的输入，获得图像聚类结果。本发明采用顺序方式依次生成自我表达系数矩阵并直接集成，进而提升深度子空间聚类网络对于图像聚类的性能。

Description

基于深度子空间聚类顺序集成的图像聚类方法及系统

技术领域

本发明涉及图像聚类技术领域，特别是指一种基于深度子空间聚类顺序集成的图像聚类方法及系统。

背景技术

深度学习对图像数据表示进行多层次学习，能够从朴素的原始特征中学习到更加抽象、更加高级的特征表示。深度网络具有的非线性特征学习的能力能够解决传统聚类模型在非线性数据集上表现不足的问题。因此，深度网络与聚类模型融合框架已经成为图像聚类研究的焦点。结合深度学习的图像聚类模型大致可以分为两种类别：(1)分步学习策略。采用交替迭代的更新方式来更新深度自编码网络学习的特征表示与聚类模块(例如谱聚类、K-均值等)对其进行聚类得到的划分结果；(2)联合学习策略。该策略主要思想是将特征表示学习与数据聚类融合到同一个目标函数，通过对目标函数的优化可以同时学习特征表示与聚类划分。在性能上，这两种学习策略对比于传统的聚类模型都有一个极大的提升。Zhan等人发现基于联合学习的训练策略会优于基于分步学习的训练策略，由于采用交替更新参数的训练方式会导致学习到的潜在特征表示不稳定，从而使得聚类性能较差。

然而，在处理真实图像数据时，融合深度网络与聚类模型框架可能会受到各种不同的因素影响而导致鲁棒性与性能下降。例如，网络权值初始化是神经网络训练中存在的主要问题之一，使用随机初始化方式会给学习到的表征结果增加随机性；不同的网络架构(如网络的层数与宽度)会使得网络学习到原始表征的不同信息，得到不同的特征表示。因此，深度聚类方法的性能通常严重依赖于特定的网络结构和超参数选择。对于依赖自编码网络的深度子空间聚类而言，同样易受自编码网络的网络结构和超参数设置影响。

因此，结合深度学习和集成学习是值得探索的问题。而深度聚类的集成方法框架通常是利用超参数的设置(比如随机参数初始化、网络框架设计等)来并行训练多个深度网络(即获得多个基学习器)，然后再利用某种特定的合并方式将其融合。例如，Affeldt等人提出了基于集成深度自编码器学习的谱聚类(SC-EDAE)，其核心思想是先利用随机参数设置(例如不同网络框架、不同参数初始化)来获取多个具有差异的潜在特征表示，之后再将其合并成相似度矩阵，最后利用谱聚类方法得到最终划分。韩提出了深度集成聚类模型(DCE)，其核心思想是先通过不同的初始化方式预先训练多个自编码网络，并且通过某种评价指标选择出恰当的自编码网络，最后将选出的高质量的自编码网络组合，对集成后的模型进行训练，得到的最终的聚类结果。

顺序集成表示每一次迭代生成一个基学习器，并且融合当前的基学习器，直到迭代结束得到最终集成结果。但是，基于分步学习的深度聚类通过网络参数更新与表征聚类之间交替更新导致学习到的潜在特征表示不稳定。

发明内容

本发明的主要目的在于克服现有技术的问题，提出一种基于深度子空间聚类顺序集成的图像聚类方法及系统，充分利用交替训练中特征表示的不稳定性学习到多样化的自我表达系数矩阵，即通过交替迭代更新自编码网络参数与自我表达层参数；这种分步训练策略配合随机遮掩策略能够顺序生成多样化的自我表达系数矩阵和相似度矩阵，进而逐次集成，直到迭代结束得到最终的集成结果。

本发明采用如下技术方案：

一方面，一种基于深度子空间聚类顺序集成的图像聚类方法，包括如下步骤：

步骤1，基于输入图像数据与重建图像数据构建图像重建损失函数，通过最小化图像所述重建损失函数获得初始的图像编码器网络和图像解码器网络；

步骤2，基于随机遮掩视觉特征向量和自我表达的视觉特征向量之间的误差构建第一自我表达损失函数，通过最小化所述第一自我表达损失函数获得初始的自我表达系数矩阵；其中，所述随机遮掩视觉特征向量基于输入图像、图像编码器网络和随机遮掩矩阵获得；

步骤3，固定自我表达系数矩阵，基于图像重建及自我表达联合损失函数更新图像编码器网络和图像解码器网络；重复该步骤，直至达到第一迭代次数；

步骤4，固定图像编码器网络和图像解码器网络，基于第二自我表达损失函数更新自我表达系数矩阵；重复该步骤，直至达到第二迭代次数；

步骤5，基于自我表达系数矩阵，更新图像相似度矩阵以及图像集成相似度矩阵；

步骤6，重复步骤3至步骤5，直至达到第三迭代次数；

步骤7，将最终得到的图像集成相似度矩阵作为谱聚类算法的输入，获得图像聚类结果。

优选的，所述重建损失函数表示如下：

其中，L₀表示重建损失函数；X表示输入图像数据；

表示重建图像数据；

表示矩阵的F范数的平方。

优选的，重建图像

为对自我表达的视觉特征向量Z′C进行反卷积操作重建出，表示如下：

Z′表示如下：

Z′＝Z⊙M

其中，

表示图像解码器网络；C表示自我表达系数矩阵；Z表示提取的输入图像数据的视觉特征压缩向量；Z′表示随机遮掩后的视觉特征向量；M表示随机遮掩矩阵；⊙表示哈达玛积；

Z表示如下：

其中，

表示图像编码器网络。

优选的，所述第一自我表达损失函数表示如下：

其中，L_exp1表示第一自我表达损失函数；‖C‖_p表示正则化损失；λ表示视觉特征向量Z′和自我表达的视觉特征向量Z′C之间的误差的权重系数。

优选的，步骤3中，所述图像重建及自我表达联合损失函数表示如下：

其中，λ₁表示自我表达损失部分的权重。

优选的，步骤4中，所述第二自我表达损失函数，表示如下：

其中，L_exp2表示第二自我表达损失函数；λ₂表示自我表达损失部分的权重。

优选的，步骤5中，基于自我表达系数矩阵，更新图像相似度矩阵以及图像集成相似度矩阵，具体如下：

图像相似度矩阵W表示如下：

图像集成相似度矩阵F^t表示如下：

其中，F^t表示当前时刻生成的图像集成相似度矩阵；F^t-1表示上一时刻的图像集成相似度矩阵；W^t表示当前时刻生成的图像相似度矩阵。

另一方面，一种基于深度子空间聚类顺序集成的图像聚类系统，包括：基学习器生成模块和集成模块；

所述基学习器生成模块包括特征压缩模块、特征重构模块、随机遮掩模块和自我表达模块；所述特征压缩模块与特征重构模块用于学习视觉特征表示，两个模块都是由多层卷积网络层组成；通过基学习器生成模块逐次生成自我表达系数矩阵C，进而生成图像相似度矩阵

所述集成模块用于逐次合并生成的图像相似度矩阵，每次迭代生成的图像集成相似度矩阵F^t由上一时刻的图像集成相似度矩阵F^t-1与当前时刻生成的图像相似度矩阵W相加得到，如下：

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

(1)本发明充分利用交替训练中特征表示的不稳定性学习到多样化的自我表达系数矩阵，即通过交替迭代更新自编码网络参数与自我表达层参数；这种分步训练策略配合随机遮掩策略能够顺序生成多样化和更加鲁棒性的自我表达系数矩阵和相似度矩阵，进而逐次集成，直到迭代结束得到最终的集成结果，提升最终的聚类性能；

(2)由于每一次只需要保存当前迭代的自我表达系数矩阵和相似度矩阵，因此该方法还可以节省内存开销。

附图说明

图1为本发明的基于深度子空间聚类顺序集成的图像聚类方法的流程图；

图2为本发明的基于深度子空间聚类顺序集成的图像聚类系统的结构框图；

图3为本发明实施例的数据集(输入图像数据)部分样例；其中，(a)表示ORL；(b)表示COIL20；(c)表示EYaleB；(d)表示COIL100。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

参见图1所示，本发明的基于深度子空间聚类顺序集成的图像聚类方法，包括以下步骤：

步骤6，重复步骤3至步骤5，直至达到第三迭代次数；

具体的，所述重建损失函数表示如下：

其中，L₀表示重建损失函数；X表示输入图像数据；

表示重建图像数据；

表示矩阵的F范数的平方。

重建图像

Z′表示如下：

Z′＝Z⊙M

其中，

Z表示如下：

其中，

表示图像编码器网络。

所述第一自我表达损失函数表示如下：

其中，L_exp1表示第一自我表达损失函数；‖C‖_p表示正则化损失；λ表示视觉特征向量Z′和自我表达的视觉特征向量Z′C之间的误差的权重系数；

表示矩阵的F范数的平方。

步骤3中，所述图像重建及自我表达联合损失函数表示如下：

其中，λ₁表示自我表达损失部分的权重。

步骤4中，所述第二自我表达损失函数，表示如下：

步骤5中，基于自我表达系数矩阵，更新图像相似度矩阵以及图像集成相似度矩阵，具体如下：

图像相似度矩阵W表示如下：

图像集成相似度矩阵F^t表示如下：

顺序集成方法是一种按照顺序方式来生成基学习器的方式。例如，有监督学习中的自适应提升方法，它的核心思想在于通过提升当前基学习器的错误分类的样本权值来训练下一个基学习器，然后不断重复生成多个基学习器，最后再将基学习器加权融合。本发明研究的对象是聚类方法，因此无法直接使用自适应提升方式来生成基学习器。在无监督的顺序集成方法中，如何确保基学习器的准确性与多样性是一个关键问题。本发明利用深度子空间聚类网络中的自我表达约束来保证自我表达系数矩阵的质量，并通过交替迭代更新自编码网络与自我表达层的方式得到不稳定的自我表达层，从而生成兼具多样性与准确性的基学习器集合，并通过顺序集成方法来提升整体性能。

参见图2所示，一种基于深度子空间聚类顺序集成的图像聚类系统，包括：基学习器生成模块和集成模块。核心思想是通过交替迭代的更新方法来训练深度自编码网络参数与自我表达层网络参数，从而逐次生成不同的自我表达系数矩阵，并且利用集成模块逐个融合自我表达系数矩阵来生成更加鲁棒的自我表达系数矩阵，进而提升最终的聚类性能。其中，基于自我表达特性的子空间聚类网络的优化目标保证了自我表达系数矩阵的准确性，而随机遮掩模块与交替迭代的更新方式给自我表达系数矩阵提供了多样性。

所述基学习器生成模块包括特征压缩模块、特征重构模块、随机遮掩模块和自我表达模块。特征压缩模块与特征重构模块用于学习具有丰富信息的视觉特征表示，其中两个模块都是由多层卷积层组成。

具体的，根据输入的图像集X，通过二维的卷积操作f(·)提取各图像的视觉特征压缩向量Z；

在得到图像的视觉特征压缩向量后Z，先使用一个随机遮掩模块将视觉特征向量Z中的部分特征擦除：

Z′＝Z⊙M (2)

其中，M表示随机遮掩矩阵；⊙表示哈达玛积。

然后将随机遮掩后的视觉特征向量Z′输入到一个自我表达层中，即通过特征之间的相互表达获取自我表达的视觉特征向量Z′C(将随机遮掩后的视觉特征向量Z′与自我表达系数矩阵C相乘)。

最后，将获得的自我表达的视觉特征向量Z′C通过二维的反卷积操作

重建出输入的图像

进一步的，通过基学习器生成模块可以逐次生成自我表达系数矩阵C，进而生成图像相似度矩阵

集成模块的功能就是逐次合并生成的图像相似度矩阵，每次迭代生成的图像集成相似度矩阵F^t由上一时刻的图像集成相似度矩阵F^t-1与当前时刻生成的图像相似度矩阵W相加得到：

构建网络优化的损失函数步骤如下：

(1)第一自我表达损失函数

第一自我表达损失函数L_exp1目的在于使编码器网络学习用于子空间聚类的视觉特征向量。通过最小化随机遮掩视觉特征向量Z′和自我表达的视觉特征向量Z′C之间的误差，从而鼓励编码器模型学习到更适合子空间聚类的视觉特征向量，并在此基础上，增加了正则化损失‖C‖_p，鼓励模型学到更稀疏的自我表达矩阵。第一自我表达损失函数的公式如下：

其中，λ为视觉特征向量Z′和自我表达的视觉特征向量Z′C之间的误差的权重系数。

(2)图像重建损失函数

图像重建损失函数L₀的目标在于鼓励编码器网络学习到更有辩识力的视觉特征向量，这个视觉特征向量应该能包含原图像的大部分信息，因此通过重建视觉特征向量得到的图像应该与原图像尽可能的相似。基于此，使用原图像与重建图像之间的误差构建图像重建损失函数，公式如下：

基于深度子空间聚类顺序集成的图像聚类系统的模型训练过程如下。

为了得到更加有效的基学习器，本文使用了交替迭代的训练方式，具体可以分为三个部分：

1)预训练(Pre-Train)。

首先使用给定的图像集对无自我表达层的特征压缩模块和特征重建模块进行预训练，通过最小化公式(6)获取初始的图像编码器网络

和图像解码器网络

其次预训练深度子空间聚类网络，通过联合优化公式(5)和公式(6)的损失函数给集成模块提供一个良好的初始化自我表达矩阵。在预训阶段，随机遮掩模块不起作用，即不会执行擦除操作。

2)更新深度卷积自编码权值。

为了学习有效的自我表达系数矩阵，使得图像之间的相似度矩阵更为准确，需要先提供一个良好的随机遮掩后的视觉特征向量Z′，通过联合优化图像重建损失以及自我表达损失来鼓励网络学习如何生成更好的视觉特征向量Z′：

其中，λ₁为自我表达损失部分的权重；L_cae表示图像重建及自我表达联合损失函数。

3)更新自我表达层权值。

为了保证学习到的自我表达系数矩阵具有准确性与多样性，最小化随机遮掩视觉特征向量Z′和自我表达的视觉特征向量Z′C之间的误差和自我表达系数矩阵正则化损失‖C‖_p：

其中，λ₂为自我表达损失部分的权重；L_exp2表示第二自我表达损失函数。

通过最小化公式(8)来保证自我表达系数矩阵的准确性，进而通过公式(4)获得更准确图像集成相似度矩阵F。

通过交替的执行2)、3)得到最终的图像集成相似度矩阵F^t。

将最终得到的图像集成相似度矩阵F^t作为谱聚类算法的输入，以获得最终的图像聚类结果。

具体的，模型算法实现如下表1所示。

表1

如下将从实验数据、对比方法、评价指标、实验设计以及实验结果这五个方面进行对比说明。

(1)数据集(输入图像数据)描述

参见图3所示，分别列举实验所用4个图像数据集的部分样例，包含ORL、COIL20、Extended Yale B以及COIL100。

参见图(a)所示，ORL数据集是由40个志愿者在常规的光线强度下，但是不同的面部角度以及面部表情等条件下各自对每一位志愿者拍摄10张照片。在实验过程中，统一将原始长度112、宽度92的图片下采样到长度32、宽度32。

参见图(c)所示，Extended Yale B数据集是由38个志愿者在同样的面部表情与角度，但是在64种不同的光线强度下各自对每一位志愿者拍摄64张照片(即每一种光照强度下取一张)。在实验时，统一将原始长度192、宽度168的图片降采样到长度为48，宽度为42。

参见图(b)和(d)所示，COIL20与COIL100两个数据集都是玩具类图像数据集，分别表示含有20种与100种玩具，例如招财猫、杯子等各类玩具。数据集是由玩具在不同的旋转角度下拍摄，对每一个玩具取72张照片。在实验当中，统一将原始长度64，宽度64降采样至长度32，宽度32。数据集具体的信息总结于表2。

表2数据集基本信息

数据集	特征数	样本数	类别数
				ORL	32×32	400	40
EYaleB	48×42	2432	38
				COIL20	32×32	1440	20
COIL100	32×32	7200	100

(2)对比方法

对比方法主要分为两类：(1)没有融合深度网络框架的传统子空间聚类方法：包括低秩表示(LRR)、低秩子空间聚类(LRSC)、稀疏子空间聚类(SSC)、核稀疏子空间聚类(KSSC)、稀疏子空间聚类+正交匹配(SSC-OMP)以及高效稠密子空间聚类(EDSC)；(2)融合深度网络的子空间聚类方法：预训练卷积自编码网络+稀疏子空间聚类(AE+SSC)、预训练卷积自编码网络+高效稠密子空间聚类(AE+EDSC)以及深度子空间聚类网络(DSC-Nets)。

(3)评价指标

对于最终的集成聚类结果，使用了准确率(accuracy,acc)这个评价指标来评估算法的性能。准确率一般用于表示被算法正确分类样本的概率，具体可以表示为：

错误率(Error,err)可以表示为：

err＝1-acc (10)

其中δ表示为指示函数(即相同为1，不同为0)，x_i的预测标签为l_i，其真实标签为y_i，map表示为变换函数(即可以将预测标签l_i映射到一个类别，使得预测结果与真实标签相似度最高)。

(4)实验设计

表3环境配置

项目	配置
		CPU	INTEL i7-7800X
RAM	96.0GB
		GPU	2NVIDIA GTX 1080Ti(211GB GRAM)
OS	Win10

实验中涉及到的模型搭建、训练以及算法性能评估都是在Win10系统环境下实现，详细配置表3所示。网络模型的搭建与优化使用Tensorflow框架，实现代码使用的语言为python。

在实验设计过程中，对于四个图像数据集设计的网络框架都是卷积自编码网络，这是因为卷积层对图像数据具有良好的特征提取功能。并且对网络框架设计与深度子空间聚类网络框架(DSC-Nets)保持相同的深度卷积自编码结构，以此来保证实验设计的合理性。各个数据集上用到的网络框架参数设置如表4所示，具体包含自我表达系数矩阵C以及自编码网络中卷积层表达“卷积核尺寸#通道数”。本发明中λ的取值与DSC-Nets一致，其他参数在各个数据集上所设置的超参数如表5所示。

表4网络框架参数设置

表5在各个数据集上的超参数设置

(5)实验结果

本发明在4个公开的图像数据集上进行了实验，并和其他的聚类方法比较以验证SeqEn-DSC对图像聚类的有效性和鲁棒性。实验分为两部分，实验一用于验证本发明所提出的SeqEn-DSC相比于其他子空间聚类模型的优越性，比较的方法包括包括低秩表示(LRR)、低秩子空间聚类(LRSC)、稀疏子空间聚类(SSC)、核稀疏子空间聚类(KSSC)、稀疏子空间聚类+正交匹配(SSC-OMP)以及高效稠密子空间聚类(EDSC)；(2)融合深度网络的子空间聚类方法：预训练卷积自编码网络+稀疏子空间聚类(AE+SSC)、预训练卷积自编码网络+高效稠密子空间聚类(AE+EDSC)以及深度子空间聚类网络(DSC-Nets)。实验二用于验证在不同的网络结构下SeqEn-DSC模型相比DSC-Nets拥有更高的性能和更低的波动。

(a)实验一：SeqEn-DSC相比于其他子空间聚类模型的图像聚类效果

该实验在四个图像数据集上均进行了实验，用于验证在不同的图像数据集上的SeqEn-DSC都能取得比其他子空间聚类模型更优的图像聚类效果。

(b)实验二：在不同的网络结构下SeqEn-DSC模型相比DSC-Nets模型的聚类效果

SeqEn-DSC是一种集成模型，因此具有更高的鲁棒性。实验二目的在于验证SeqEn-DSC模型对网络结构变化的鲁棒性。本实验使用了人脸图像数据集ORL，并使用不同的“编码器结构～解码器结构”的SeqEn-DSC模型和DSC-Nets模型进行聚类。如表6和7所示，随着网络结构的变化，DSC-Nets模型聚类效果出现了剧烈的波动，但是本发明的方法依然保持较高的性能。

表6在ORL、EYaleB、COIL20和COIL100上聚类错误率(％)

表7在ORL上不同网络结构的聚类准确率(％)

	DSC-Nets	SeqEn-DSC
			3-3-3～3-3-3	80.00	86.50
5-3-3～3-3-5	78.75	87.00
			3-5-3～3-5-3	81.75	86.00
3-3-5～5-3-3	86.00	88.75
			5-5-3～3-5-5	80.25	83.50
5-3-5～5-3-5	84.25	88.50
			3-5-5～5-5-3	81.25	84.75
5-5-5～5-5-5	50.25	83.50
			均值±标准差	77.81±11.38	86.06±2.04

本发明利用顺序集成的思想来解决深度子空间聚类网络性能的问题，提出了面向图像的深度子空间聚类的顺序集成(SeqEn-DSC)。具体来说SeqEn-DSC利用交替迭代的训练方式与随机遮掩模块来生成高差异性的自我表达系数矩阵，并且利用自我表达特性来保证自我表达系数矩阵的准确性，进而提升最终的集成结果。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。