CN112464004A

CN112464004A - 一种多视角深度生成图像聚类方法

Info

Publication number: CN112464004A
Application number: CN202011343290.1A
Authority: CN
Inventors: 陈志奎; 高静; 张佳宁; 李朋; 金珊; 宋鑫
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-09

Abstract

本发明公开了一种多视角深度生成图像聚类方法，属于图像聚类与数据挖掘技术领域，1)预训练各视角独立的编解码网络，发现各视角潜在特征空间；2)预训练多视角特征融合编解码网络，发现多视角融合特征空间；3)随机初始化高斯混合模型参数；4)计算数据样本由某一子高斯模型生成的概率作为图像聚类结果，生成聚类损失，计算高斯混合模型参数更新值，更新参数直到收敛。本发明针对图像数据设计了一种多视角深度生成图像聚类方法，主要考虑利用多视角图像数据中的互补信息优化特征的学习，提高图像聚类和特征学习效果，并为此设计一种多视角特征融合策略，端到端地融合多个视角中的数据信息，该策略可以有效提高多视角数据信息的利用率，提高图像聚类算法性能。

Description

一种多视角深度生成图像聚类方法

技术领域

本发明属于图像聚类与数据挖掘技术领域，涉及一种多视角深度生成图像聚类方法。

背景技术

全球信息化发展迅速，人类正在跨入大数据时代。互联网上信息的数据量每天都在以几何倍数迅猛增长，比如：互联网上的多媒体数据(图像、语音、视频等)、机器人终端接收的实时数据、物联网设备传感器的数据等，这些数据的数据量较大，产生速度较快，数据分布不均匀，且数据内部的信息质量也不是很高。面对大数据带来的挑战，从多样分布的低质数据中快速分析并找到数据潜在的关系结构与语义特征成为当下的迫切需求。因此，需要对数据处理的算法和模型进行深入的研究，改进传统的数据处理方法。

聚类是数据挖掘研究中的一种重要技术，能够将空间中的数据对象分成若干类，使得相同类数据之间的相似度较高，不同类数据之间的相似度较低，以发现数据内含的模式，利于海量数据的学习和利用。随着人工智能的兴起，深度学习、机器学习、数据挖掘的发展推动着聚类分析研究的进步，使得它成为数据分析中的重要工具。然而，随着现代互联网技术的迅速发展，数据规模不断增大、维度逐渐升高、关系愈发复杂。低维数据空间中的传统聚类方法面对海量的高维数据，往往很难达到预期效果。为了解决以上难点，研究者提出了两种有效方案。一是对高维数据进行降维，如主成分分析(PCA)等，使降维后的数据适合一般的聚类算法；二是对聚类算法进行改进，使其适合高维数据。然而，传统的聚类算法的浅层结构难以获得足够的特征信息。因此，通过深度神经网络(DNN)提取输入数据的深度特征，提高聚类准确率的深度聚类方法受到广泛关注。

然而，以上方法只使用了图像数据本身的信息，没有考虑图像数据间的先验知识，即数据的多视角特性。由于它们没有考虑数据中不同图像所反映的对象在不同视角中的信息，只是将聚类方法作用于数据的单视角特征，无法利用多个视角间的互补信息优化特征的学习，使得性能局限于单个视角的信息所能支撑的范围之内，导致无法充分利用多视角数据中蕴含的信息。

综上，本发明提出一种多视角深度生成图像聚类方法，主要考虑利用多视角图像数据中的互补信息优化特征的学习，提高图像聚类和特征学习效果。

发明内容

本发明提出一种多视角深度生成图像聚类方法。该方法利用堆叠自动编码机将原始图像数据映射到特定的低维特征空间，避免原始数据空间中的维度灾难，提取数据的深度特征。同时，本发明设计一种多视角特征融合策略，融合多个视角中的数据信息，该策略可以有效提高多视角数据信息的利用率，提高图像聚类算法性能。此外，本发明提出一种端到端的学习框架，该框架集成多视角特征融合与单视角特征提取来共同发现数据的潜在特征空间，获取更为丰富的多视角融合特征，最终提高图像聚类方法的性能，并通过两个聚类评估指标：调整兰德指数(ARI)和标准化互信息(NMI)验证模型效果。

为了达到上述目的，本发明一种多视角深度生成图像聚类方法，包括以下步骤：

步骤1、预训练各视角独立的编解码网络，发现各视角潜在特征空间；

步骤2、预训练多视角特征融合编解码网络，发现多视角融合特征空间；

步骤3、随机初始化高斯混合模型参数；

步骤4、计算数据样本由某一子高斯模型生成的概率作为图像聚类结果，生成聚类损失，计算高斯混合模型参数更新值，更新参数直到收敛；

本发明的有益效果为：本发明针对图像数据设计了一种多视角深度生成图像聚类方法，主要考虑利用多视角图像数据中的互补信息优化特征的学习，提高图像聚类和特征学习效果，并为此设计一种多视角特征融合策略，端到端地融合多个视角中的数据信息，该策略可以有效提高多视角数据信息的利用率，提高图像聚类算法性能。本发明通过两个聚类评估指标：调整兰德指数(ARI)和标准化互信息(NMI)验证了模型效果，结果表明提出的方法有效提高了图像聚类方法的性能。

附图说明

图1多视角深度生成图像聚类方法框架图；

图2多视角深度生成图像聚类方法整体流程图；

图3多视角深度生成图像聚类方法实验结果t-SNE可视化图。

具体实施方式

下面结合附图对本发明的实施方式做进一步说明。

图1为多视角深度生成图像聚类方法框架图。首先通过堆叠自动编码机将各视角原始高维图像数据映射到特定低维特征空间，抽取各视角图像数据的特征表示，缓解维度灾难。其次，通过多视角特征融合策略端到端地融合多个视角中的数据信息，生成融合特征。然后，使用高斯混合模型对融合特征进行生成聚类，获得特征从属于某一子高斯模型的后验概率，作为当前迭代聚类结果，生成聚类损失。最后，利用期望最大化(EM)算法对高斯混合模型参数计算更新值，更新参数，迭代优化直到收敛。

各步骤具体实施如下：

步骤1、预训练各视角独立的编解码网络；

1.1训练单一视角单个自动编码机

假设x_v ⁱ为第v个视角的第一个自动编码机的第i个输入图像数据，y_v ⁱ为第v个视角的第一个自动编码机的第i个输出图像数据，该自动编码机具体计算过程如下所示：

h_v ⁱ⁽¹⁾＝g_e,v ⁽¹⁾(W_e,v ⁽¹⁾x_v ⁱ+b_e,v ⁽¹⁾) (1)

y_v ⁱ＝g_d,v ⁽¹⁾(W_d,v ⁽¹⁾h_v ⁱ⁽¹⁾+b_d,v ⁽¹⁾) (2)

其中，h_v ⁱ⁽¹⁾是该自动编码机的中间结果即隐藏层特征，维度小于输入图像数据，g_e,v ⁽¹⁾和g_d,v ⁽¹⁾分别是其编码层和解码层的激活函数，θ_v ⁽¹⁾＝{W_e,v ⁽¹⁾,b_e,v ⁽¹⁾,W_d,v ⁽¹⁾,b_d,v ⁽¹⁾}是该自动编码机网络的所有参数。该自动编码机通过最小化重构损失

训练。第一个自动编码机训练完成后，第二个自动编码机采用第一个自动编码机隐藏层特征h_v ⁱ⁽¹⁾作为输入图像数据，仿照公式(1)、(2)训练，第三个自动编码机直到第n个自动编码机(n为堆叠自动编码机中编码器的层数)同理。

1.2训练单一视角多个自动编码机

第v个视角的第一个自动编码机训练完成后，该视角的第二个自动编码机采用第一个自动编码机隐藏层特征h_v ⁱ⁽¹⁾作为输入图像数据训练。

此时，h_v ⁱ⁽¹⁾为第v个视角的第二个自动编码机的第i个输入图像数据，设ho_v ⁱ⁽¹⁾为其第i个输出图像数据，该自动编码机具体计算过程如下所示：

h_v ⁱ⁽²⁾＝g_e,v ⁽²⁾(W_e,v ⁽²⁾h_v ⁱ⁽¹⁾+b_e,v ⁽²⁾) (3)

ho_v ⁱ⁽¹⁾＝g_d,v ⁽²⁾(W_d,v ⁽²⁾h_v ⁱ⁽²⁾+b_d,v ⁽²⁾) (4)

其中，同样地，h_v ⁱ⁽²⁾是该自动编码机的中间结果即隐藏层特征，维度小于输入图像数据，g_e,v ⁽²⁾和g_d,v ⁽²⁾分别是其编码层和解码层的激活函数，θ_v ⁽²⁾＝{W_e,v ⁽²⁾,b_e,v ⁽²⁾,W_d,v ⁽²⁾,b_d,v ⁽²⁾}是该自动编码机网络的所有参数。该自动编码机通过最小化重构损失

训练。第三个自动编码机直到第n个自动编码机(n为堆叠自动编码机中编码器的层数)同理。

1.3训练多个视角堆叠自动编码机

在各个自动编码机训练完成后，每个自动编码机被拆分为编码层和解码层两部分，以第n个自动编码机的隐藏层为对称轴对称排布和衔接。整体对称排布的网络接收最外侧自动编码机输入图像数据，逐层传递，得到最外侧自动编码机输出图像数据，以两个自动编码机组成的网络为例，即为依次计算公式(1)、公式(3)、公式(4)、公式(2)(公式(2)中的h_v ⁱ⁽¹⁾以公式(4)的输出ho_v ⁱ⁽¹⁾代替)，然后使用随机梯度下降算法微调整个网络以最小化重构损失，完成训练。此时，全部编码层即原始数据空间和潜在特征空间之间的映射

全部解码层即潜在特征空间和原始数据空间之间的映射

其中，θ_v＝{θ_v ⁽¹⁾,θ_v ⁽²⁾,...,θ_v ⁽ⁿ}是学习到的所有网络参数，X是初始数据空间，Z是潜在特征空间。

各个视角均依照上述方法独立构建自己的堆叠自动编码机网络，得到各个视角独立的潜在特征空间。

步骤2、预训练多视角特征融合编解码网络；

获得多个视角堆叠自动编码机网络后，本发明设计一种多视角特征融合策略，以端到端的方式学习到多视角融合特征的空间，生成同一对象的多个视角图像的融合特征。具体地，将对应同一对象的各个视角提取的深度特征进行拼接，计算过程如下所示：

H＝con(H1,H2,...,Hn) (3)

其中，H1、H2……Hn表示各个视角的深度特征，con()表示拼接运算，H表示拼接后的特征。

本发明再次采用堆叠自动编码机网络，通过最小化重构损失，学习拼接特征的低维融合信息。具体的融合堆叠自动编码机网络最外侧自动编码机计算过程为：

Hⁱ⁽¹⁾＝g_e ⁽¹⁾(W_e ⁽¹⁾Hⁱ+b_e ⁽¹⁾) (4)

Hoⁱ＝g_d ⁽¹⁾(W_d ⁽¹⁾Hoⁱ⁽¹⁾+b_d ⁽¹⁾) (5)

其中，Hⁱ⁽¹⁾是该融合堆叠自动编码机最外侧得到的隐藏层特征，维度小于拼接特征，Hoⁱ⁽¹⁾是该融合堆叠自动编码机内侧恢复的隐藏层特征，维度与Hⁱ⁽¹⁾相同，当融合堆叠自动编码机仅由外侧自动编码机构成时，Hoⁱ⁽¹⁾即为Hⁱ⁽¹⁾。g_e ⁽¹⁾和g_d ⁽¹⁾分别是其编码层和解码层的激活函数，θ⁽¹⁾＝{W_e ⁽¹⁾,b_e ⁽¹⁾,W_d ⁽¹⁾,b_d ⁽¹⁾}是该融合堆叠自动编码机最外侧网络的所有参数。

本发明将各个视角解码器输入层维度即H1、H2……Hn的维度统一改为H的维度，将重建的拼接特征Ho直接作为各个视角的解码器的输入，依靠解码器内部的神经网络提取对应视角需要重建的信息。整体融合编解码网络构建完成后，不再进行逐层预训练，而是直接端到端地通过最小化重构损失

训练。

具体地，以两个视角的数据集为例，本发明设计的堆叠自动编码机网络结构如表1所示。

表1本发明设计的堆叠自动编码机网络结构

其中，每个Linear()为作为编码层或解码层的一层全连接层，in_features和out_features为该层输入输出数据维度，bias＝True使得各层在加权项参数W外还具有偏置项参数b，Relu()与Sigmoid()为不同层所用的不同激活函数。此两个视角的数据集上的网络输入数据维度均为784，融合得到的特征维度为10。

步骤3、随机初始化高斯混合模型参数；

高斯混合模型作为一种概率生成模型，利用若干高斯分布拟合采样数据，具有生成特性与强拟合能力的优势，有利于拟合复杂的融合特征分布。因此，本发明首创在融合特征上采用高斯混合模型提升图像聚类。具体地，高斯混合模型设定K个子高斯分布，并给予对应的总和为1的非负权重w_k，N个样本点中，x_i的概率由K个子高斯分布的概率加权得到，如下所示：

其中，g()表示高斯分布的概率密度函数，被对应的均值向量μ_k和协方差矩阵Σ_k两个参数所定义，具体计算过程如下：

其中，d表示样本点x_i和均值向量μ_k的维度。

本发明采用随机的方法初始化K个子高斯分布对应的非负权重w_k、均值向量μ_k和协方差矩阵Σ_k。

步骤4、计算图像聚类结果；

本发明将同一对象多个视角图像的融合特征作为图像聚类的样本点x_i，输入到高斯混合模型，以计算图像聚类结果。假设z_i是与x_i相对应的K维0-1隐变量，只有一个元素为1，其余元素为0，表明x_i是由哪个子高斯分布唯一生成，则有样本点x_i与隐变量z_i的联合分布如下所示：

其中z_ik为z_i的第k个元素。经过计算，z_i的后验条件概率如下所示：

即为本次迭代图像聚类结果。

然而，由于高斯混合模型的参数是经过随机初始化确定的，本次迭代得到的图像聚类结果极可能不是最佳结果，因此，需要对高斯混合模型参数进行迭代更新。

基于所有图像数据的联合分布，得到高斯混合模型对应的对数最大似然函数，如下所示：

进一步地，应用EM算法获得高斯混合模型的参数更新公式。第k个子高斯分布的参数更新如下所示：

然后，更新高斯混合模型参数直到收敛，此时的图像聚类结果为最终结果。

方法流程描述：

本发明的整体流程分为三部分：各视角独立特征提取，多视角融合特征提取，高斯混合模型聚类。具体地，本发明首先构建各视角独立的堆叠自动编码机网络，利用编解码结构逐层预训练和微调训练网络的参数，通过已训练的网络将图像数据从原始数据空间映射到特定特征空间，抽取隐藏特征。然后利用多视角特征融合策略，构建端到端多视角深度特征融合网络，融合各视角独立的特征为多视角融合特征。最后在多视角融合特征上进行高斯混合模型聚类，计算图像聚类结果，更新模型参数，直至收敛。具体过程见图2。

验证结果：

在本发明的实验中，利用典型图像数据集MNIST和EMNIST验证本发明的有效性，其中数据集的详细信息如表1所示。

MNIST数据集：包含70000个28*28像素的手写数字图像的数据集。本发明将每个数字图像转化为784维向量作为网络输入。

EMNIST数据集：MNIST数据集的变种，包含数字与字母等字符的手写图像数据集。本发明采用其中的数字图像部分，与MNIST数据集中的数字图像形成多视角图像数据。

表1数据集的基本信息

DataSet	样本数量	样本维度	类别数量
				MNIST	70000	784	10
EMNIST	70000	784	10

本发明的评价标准为调整兰德指数(Adjusted Rand Index，ARI)和标准化互信息(Normalized Mutual Information，NMI)。

为了验证本发明的性能，选择2个常用的典型传统聚类方法作为对比方法：K-means算法和GMM(高斯混合模型聚类)。

本发明提出的方法与对比方法在MNIST和EMNIST数据集上的实验的ARI和NMI结果如表2所示。

表2各实验ARI和NMI结果

Experiments	ARI	NMI
			K-means-M	0.36	0.49
GMM-M	0.24	0.37
			K-means-DM	0.65	0.71
GMM-DM	0.76	0.81
			K-means-DE	0.57	0.62
GMM-DE	0.74	0.80
			Our	0.80	0.85

从表2中可以观察到三点：(1)在MNIST数据集原始数据上，传统K-means优于传统GMM，这是因为GMM将数据集中的一些非重要因素也作为分布的一部分进行了学习，造成学习到的分布质量下降，影响了聚类效果；(2)在MNIST数据集被对应视角编码器提取的特征上，传统K-means和传统GMM达到了比在原始数据上更好的聚类结果，这是因为对应视角编码器能够有效地提取数据中的特征模式，使得聚类效果提升；(3)在MNIST和EMNIST两个数据集分别被对应视角编码器提取的特征上，传统K-means效果差于传统GMM，这是因为通过对应视角编码器的特征提取，排除了非重要因素干扰，学习到了重要的特征，使得GMM的多个高斯分布对数据模式的拟合能力优于K-means的硬划分这一优势能够充分发挥；(4)我们提出的方法在MNIST和EMNIST两个数据集上的效果优于传统K-means和传统GMM在深度特征上的效果，这是因为我们提出的方法是基于融合特征的，不同视角的特征所包含的信息被充分利用，使得聚类效果更加良好。本发明提出的方法在两个评价指标上都优于对比方法，证明了本发明的有效性。

图3是本发明提出方法的实验结果t-SNE可视化图。从图中可见两点：(1)本发明提出方法融合多视角特征，因而生成的特征较单视角更优，同一类数据点更接近，不同类数据点更远离，即图中第三列所示；(2)本发明提出方法学习特征更快，因为一开始时本发明提出方法的数据点更散乱，而在同样次数迭代后能够获得更好的聚集效果。这同样证明了本发明的有效性。

Claims

1.一种多视角深度生成图像聚类方法，其特征在于，包括以下步骤：

步骤1、预训练各视角独立的编解码网络；

1.1训练单一视角单个自动编码机

假设x_v ⁱ为第v个视角的第一个自动编码机的第i个输入图像数据，y_v ⁱ为第v个视角的第一个自动编码机的第i个输出图像数据，该自动编码机具体计算过程如下：

h_v ⁱ⁽¹⁾＝g_e,v ⁽¹⁾(W_e,v ⁽¹⁾x_v ⁱ+b_e,v ⁽¹⁾) (1)

y_v ⁱ＝g_d,v ⁽¹⁾(W_d,v ⁽¹⁾h_v ⁱ⁽¹⁾+b_d,v ⁽¹⁾) (2)

其中，h_v ⁱ⁽¹⁾是该自动编码机的中间结果即隐藏层特征，维度小于输入图像数据，g_e,v ⁽¹⁾和g_d,v ⁽¹⁾分别是其编码层和解码层的激活函数，θ_v ⁽¹⁾＝{W_e,v ⁽¹⁾,b_e,v ⁽¹⁾,W_d,v ⁽¹⁾,b_d,v ⁽¹⁾}是该自动编码机网络的所有参数；

该自动编码机通过最小化重构损失

训练；第一个自动编码机训练完成后，第二个自动编码机采用第一个自动编码机隐藏层特征h_v ⁱ⁽¹⁾作为输入图像数据，仿照公式(1)、(2)训练，第三个自动编码机直到第n个自动编码机同理，n为堆叠自动编码机中编码器的层数；

1.2训练单一视角多个自动编码机

第v个视角的第一个自动编码机训练完成后，该视角的第二个自动编码机采用第一个自动编码机隐藏层特征h_v ⁱ⁽¹⁾作为输入图像数据训练；

此时，h_v ⁱ⁽¹⁾为第v个视角的第二个自动编码机的第i个输入图像数据，设ho_v ⁱ⁽¹⁾为其第i个输出图像数据，该自动编码机具体计算过程如下：

其中，同样地，h_v ⁱ⁽²⁾是该自动编码机的中间结果即隐藏层特征，维度小于输入图像数据，g_e,v ⁽²⁾和g_d,v ⁽²⁾分别是其编码层和解码层的激活函数，θ_v ⁽²⁾＝{W_e,v ⁽²⁾,b_e,v ⁽²⁾,W_d,v ⁽²⁾,b_d,v ⁽²⁾}是该自动编码机网络的所有参数；该自动编码机通过最小化重构损失

训练；第三个自动编码机直到第n个自动编码机同理，n为堆叠自动编码机中编码器的层数；

1.3训练多个视角堆叠自动编码机

在各个自动编码机训练完成后，每个自动编码机被拆分为编码层和解码层两部分，以第n个自动编码机的隐藏层为对称轴对称排布和衔接；整体对称排布的网络接收最外侧自动编码机输入图像数据，逐层传递，得到最外侧自动编码机输出图像数据；各个视角均依照上述方法独立构建自己的堆叠自动编码机网络，得到各个视角独立的潜在特征空间；

步骤2、预训练多视角特征融合编解码网络；

将对应同一对象的各个视角提取的深度特征进行拼接，计算过程如下：

H＝con(H1,H2,...,Hn) (5)

其中，H1、H2……Hn表示各个视角的深度特征，con()表示拼接运算，H表示拼接后的特征；

再次采用堆叠自动编码机网络，通过最小化重构损失，学习拼接特征的低维融合信息；

步骤3、随机初始化高斯混合模型参数；

高斯混合模型设定K个子高斯分布，并给予对应的总和为1的非负权重w_k，N个样本点中，x_i的概率由K个子高斯分布的概率加权得到，如下所示：

其中，d表示样本点x_i和均值向量μ_k的维度；

采用随机的方法初始化K个子高斯分布对应的非负权重w_k、均值向量μ_k和协方差矩阵Σ_k；

步骤4、计算图像聚类结果；

将同一对象多个视角图像的融合特征作为图像聚类的样本点x_i，输入到高斯混合模型，以计算图像聚类结果。

2.根据权利要求1所述的多视角深度生成图像聚类方法，其特征在于，步骤1.3训练多个视角堆叠自动编码机，当为两个自动编码机组成的网络，即为依次计算公式(1)、公式(3)、公式(4)、公式(2)，公式(2)中的h_v ⁱ⁽¹⁾以公式(4)的输出ho_v ⁱ⁽¹⁾代替，然后使用随机梯度下降算法微调整个网络以最小化重构损失，完成训练；此时，全部编码层即原始数据空间和潜在特征空间之间的映射

全部解码层即潜在特征空间和原始数据空间之间的映射

3.根据权利要求1所述的多视角深度生成图像聚类方法，其特征在于，步骤2预训练多视角特征融合编解码网络；

具体的融合堆叠自动编码机网络最外侧自动编码机计算过程为：

Hⁱ⁽¹⁾＝g_e ⁽¹⁾(W_e ⁽¹⁾Hⁱ+b_e ⁽¹⁾) (6)

Hoⁱ＝g_d ⁽¹⁾(W_d ⁽¹⁾Hoⁱ⁽¹⁾+b_d ⁽¹⁾) (7)

其中，Hⁱ⁽¹⁾是该融合堆叠自动编码机最外侧得到的隐藏层特征，维度小于拼接特征，Hoⁱ ⁽¹⁾是该融合堆叠自动编码机内侧恢复的隐藏层特征，维度与Hⁱ⁽¹⁾相同，当融合堆叠自动编码机仅由外侧自动编码机构成时，Hoⁱ⁽¹⁾即为Hⁱ⁽¹⁾；g_e ⁽¹⁾和g_d ⁽¹⁾分别是其编码层和解码层的激活函数，θ⁽¹⁾＝{W_e ⁽¹⁾,b_e ⁽¹⁾,W_d ⁽¹⁾,b_d ⁽¹⁾}是该融合堆叠自动编码机最外侧网络的所有参数；

将各个视角解码器输入层维度即H1、H2……Hn的维度统一改为H的维度，将重建的拼接特征Ho直接作为各个视角的解码器的输入，依靠解码器内部的神经网络提取对应视角需要重建的信息；整体融合编解码网络构建完成后，不再进行逐层预训练，而是直接端到端地通过最小化重构损失

训练。

4.根据权利要求1所述的多视角深度生成图像聚类方法，其特征在于，步骤4、计算图像聚类结果：基于所有图像数据的联合分布，得到高斯混合模型对应的对数最大似然函数，如下所示：

应用EM算法获得高斯混合模型的参数更新公式；第k个子高斯分布的参数更新如下所示：