CN112464005B

CN112464005B - 一种深度强化图像聚类方法

Info

Publication number: CN112464005B
Application number: CN202011343296.9A
Authority: CN
Inventors: 陈志奎; 金珊; 高静; 李朋; 张佳宁; 宋鑫
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-12-03
Anticipated expiration: 2040-11-26
Also published as: CN112464005A

Abstract

本发明提出了一种深度强化图像聚类方法，属于图像聚类与数据挖掘技术领域，1)预训练编解码网络，初始化潜在特征空间；2)采用传统K‑means方法在潜在特征空间对聚类质心初始化，并为各质心分配伯努利‑逻辑斯蒂单元；3)计算该点与单元间的逻辑回归参数和伯努利分布；4)利用奖励回归策略动态分配临时奖赏，联合辅助目标分布计算各质心运动轨迹；5)计算权重，迭代优化聚类单元直至满足收敛条件，完成深度强化图像聚类过程。本发明同时基于强化学习思想以奖励回归策略联合利用潜在特征表示和调整聚类质心，充分将全部聚类信息尤其是临近区域聚类信息作用于聚类分析的过程中，在环境与行为的交互中有效的改善聚类模糊的问题，有效提升聚类性能。

Description

一种深度强化图像聚类方法

技术领域

本发明属于图像聚类与强化学习技术领域，涉及一种基于强化学习的深度图像聚类方法。

背景技术

随着物联网技术及网络信息技术的快速发展，智能手机、平板电脑等电子产品的普及范围愈加广泛，可收集的数据越来越多，且数据结构愈发复杂，尤其非结构化的图像数据量更是爆发性增长。图像数据包含着丰富的语义信息可供各领域研究使用，但受数据结构复杂且维度较高的影响，难以精确地获取数据中丰富的语义信息。因此，急需研究一种新方法来深入挖掘海量图像数据中丰富的信息。

聚类常以无监督学习或自监督学习的方式进行数据分析，是数据挖掘、图像处理等领域中的重要研究内容之一，其以“同类相同，异类相异”的思想有效地解决数据挖掘的众多问题。传统的聚类算法通常将给定的数据特征表示作为输入，然后使用不同模型对该特征表示进行聚类，但对于一些高维、复杂图像数据，则可能因缺乏在高维空间中有效的样本相似性度量而难以发现其内在模式结构，即“维度灾难”。对于高维数据聚类，常规应对方法包括子空间聚类、特征降维、特征抽取等。近年来，深度学习因其在特征表示上的独特优势，为高维、复杂数据聚类带来了新的解决思路，并已衍生出许多行之有效的深度聚类算法。其中较有代表性的深度聚类方法——深度嵌入式聚类(DEC)算法对深度神经网络的参数和聚类分配同时进行优化，为聚类研究提供了强有力的工具。

目前，在对大规模数据进行聚类分析的过程中，深度聚类算法充分地考虑了潜在特征表示对聚类效果的影响，从而有效地解决了维度灾难的问题。然而，现有的深度聚类算法缺乏对整个聚类环境，尤其是临近区域环境对聚类效果影响的考虑，随着迭代次数增加，同类相似性愈发增强，异类差异性却没有凸显，导致部分图像输入点所处聚类较为模糊。强化学习在与环境交互的过程中通过获取奖赏、指导行为使回报最大化来学习策略，因此，以深度聚类为基础，在不忽视潜在特征表示的前提下，采用强化学习思想指导原型的游走方向，提高聚类结果的准确性，是一项值得研究的内容。

综上，本发明提出了一种深度强化图像聚类方法，主要考虑聚类分析迭代过程中对全部聚类信息的使用问题，利用每一次迭代后的聚类信息调整聚类原型，指导聚类过程。

发明内容

本发明提出一种深度强化图像聚类方法。首先，为解决维度灾难，该方法选用深层自编码器对原始图像数据进行降维，获取数据中蕴含的深层语义特征。其次，本发明设计一种伯努利-逻辑斯蒂单元表示聚类原型，有效利用各类的可用信息调整临近区域对聚类原型的影响。最后，本发明采用强化学习的奖赏策略，在获得各聚类的可用信息后，为各聚类分配奖赏，指导聚类原型在聚类环境中的行为动作，获取更准确的聚类结果。综上，本发明提出一种深度强化图像聚类方法，该方法采用奖励回归的学习方式从大规模无标签数据中学习图像的潜在特征并进行聚类划分，以提高聚类方法的准确率(ACC)、调整兰德指数(ARI)和标准化互信息(NMI)。

为了达到上述目的，一种深度强化图像聚类方法采用的技术方案包括以下步骤：

步骤1、预训练编解码网络，学习图像潜在特征；

步骤2、采用K-means方法在潜在特征空间挖掘聚类原型，并为其分配伯努利-逻辑斯蒂单元；

步骤3、随机选取样本x_i，计算该点与聚类原型间的逻辑回归概率和伯努利分布参数；

步骤4、利用奖励回归策略动态分配临时奖赏，联合伯努利分布计算各原型运动轨迹；

步骤5、计算权重，迭代优化聚类原型直至满足收敛条件，完成深度强化聚类过程；

本发明的有益效果为：本发明针对图像数据设计了一种深度强化聚类方法，考虑聚类过程中的聚类环境与原型游走方向的交互问题，并设计了伯努利-逻辑斯蒂单元，动态更新聚类信息。同时，本发明基于图像潜在特征，利用强化学习的思想，以奖励回归策略调整聚类原型，充分将全部聚类信息，尤其是临近区域聚类信息，作用于图像聚类分析，有效解决聚类模糊的问题。本发明在聚类方法常用的评价指标ACC、ARI和NMI上进行实验，并证明该方法可有效提升聚类的准确性。

附图说明

图1深度强化图像聚类方法框架图；

图2本发明提出方法的流程图。

具体实施方式

下面结合附图对本发明的实施方式做进一步说明。

图1为深度强化聚类方法的框架图。首先采用深层自编码器提取数据的潜在特征表示，将高维的原始图像数据映射至低维特征空间，解决高维数据的维度灾难问题。其次，利用K-means方法挖掘数据的聚类质心，进行聚类原型的初始化，并为各聚类原型分配伯努利-逻辑斯蒂单元，存储迭代过程中的聚类环境信息。然后，使用欧氏距离度量特征空间中数据点和聚类原型间的相似度，更新聚类的逻辑回归参数和具有高置信度的伯努利分布。其次，利用奖励回归策略动态对各原型进行奖励和惩罚，并联合伯努利分布更新聚类原型的运动轨迹，保证对全部聚类环境尤其是临近区域环境信息的使用，完成当前聚类环境与输入点行为的交互。最终，通过联合使用伯努利分布和奖罚的方式，使用强化学习算法重复该过程直到满足收敛条件。

具体步骤如下：

步骤1、预训练编解码网络，学习图像潜在特征；

原始的图像数据因其维度较高的特性，通常可以提供更为丰富、细致的信息，但同时，数据维度的提高大大降低了数据的可理解性和可用性。为解决图像数据的这一维度灾难问题，本发明采用深层自编码器模型，以无监督的方式最小化重构误差进行训练，在此过程中逐层提取输入数据的高阶特征并降低输入数据的维度，将复杂的输入图像数据转化到简单的低维特征空间。

深层自编码器网络由降噪自编码器网络堆叠而成，而降噪自编码器网络由编码层和解码层两部分组成，在训练过程中，网络随机破坏每一个降噪自编码器的输入，然后重建原始输入作为输出，以获得输入数据的潜在表示。该网络可定义为如下过程：

其中，设定图像数据x作为降噪自编码器的输入；Dropout(·)作为随机映射函数将部分输入设置为0；f_e、f_d作为编码层和解码层的映射函数，θ＝{W_e,b_e,W_d,b_d}是网络模型的参数；编码层输出的潜在特征h将作为解码层的输入。同时，为保证重构图像数据x’与原始图像数据x尽可能一致，采用最小化平方损失函数

的方法对模型进行优化。

具体地，本发明为使重构特征向量可包含原始特征向量的全部信息，将第一个降噪自编码器的编码层和解码层的激活函数设为恒等函数，而其他降噪自编码器的编码层和解码层的激活函数设为ReLu函数。各个降噪自编码器网络构建完成后，利用随机分布初始化编码层和解码层的参数，之后采用随机梯度下降(SGD)反向传播的方式进行训练，然后将各个降噪自编码器的编码层和解码层拆开，依照输入输出的维度组合成一个整体的深层自编码器的模型框架。接下来，再次采用SGD对网络模型进行训练，使得最大程度的降低重构损失，生成良好的深层自编码器网络模型，并选用其中的编码部分作为原始特征空间到潜在特征空间(f_θ＝X→H)的映射工具，其中，θ为输入点的参数，X为输入点的原始特征表示，H为输入点的潜在特征表示。

在对深层自编码器预训练的过程中，设置迭代次数为300，每次训练样本数为256，实验证明，设置如上超参数，可获得更有效的原始图像数据的潜在特征表示H。

步骤2、初始化聚类原型，分配伯努利-逻辑斯蒂单元；

采用训练好的深层自编码器模型，生成输入点x_i的潜在特征表示h_i，构成集合H＝{h_i|h_i＝f_θ(x_i),x_i∈X,i＝1,2,...,N}，随机选取K个点构成初始原型集合

然后通过K-means聚类算法在潜在特征表示H上对原型集合

进行更新，以得到K个初始化后的聚类原型。

具体地，K-means聚类算法的目的是通过优化以下目标函数，找寻K个聚类原型：

其中，d(c_k,h_i)是输入点h_i和聚类原型c_k间的距离，本发明采用欧氏距离，其计算过程如下：

其中，n为输入点h_i和聚类原型c_k的维度。

为有效求解上述过程，首先根据先验知识选择合适的K值，然后采用启发式的迭代方法选择合适的聚类原型。具体地，首先随机从样本集中选取K个样本作为初始原型，并根据以上公式(6)计算样本与各原型的距离，将各个样本分配给其最近的聚类原型，得到初始聚类划分结果；然后更新原型，获得新的聚类划分结果；重复上述流程，直至原型不再发生改变，这时得到最终的聚类结果作为潜在特征表示的聚类原型集合

利用K-means得到的聚类原型

作为聚类原型，构建伯努利-逻辑斯蒂单元BLlist＝{w,p,dw,fx}，该单元包含聚类原型在当前环境下的聚类信息，其中，w为该聚类原型在当前环境下的权重，p为该聚类原型的伯努利分布系数，dw为该原型的欧氏距离，fx为该原型的逻辑回归系数。经过K-means聚类算法可获得聚类原型的初始权重，其余参数初始值设置为0值。

步骤3、强化聚类；

在完成潜在特征提取和聚类原型初始化后，将进行本发明的主要部分，也就是对于原始图像数据的初始非线性映射f_θ和伯努利-逻辑斯蒂单元中的聚类原型

的强化过程。强化过程主要包括以下两个步骤。步骤3-1，计算输入点的潜在特征表示、聚类原型的逻辑回归参数以及伯努利分布参数，动态更新至伯努利-逻辑斯蒂单元中。步骤3-2，采用奖励回归策略对当前聚类环境下各聚类原型进行奖赏或惩罚，并联合伯努利-逻辑斯蒂单元内参数学习聚类损失。使用步骤3-1和步骤3-2，获得距离输入图像潜在特征最近的聚类原型对应的概率p_k、指示变量y_i、奖赏值r_i，确定原型运动轨迹。

1)伯努利-逻辑斯蒂分布

本发明选择伯努利-逻辑斯蒂分布作为辅助目标分布用于激活单元，即通过伯努利-逻辑斯蒂分布衡量输入图像潜在特征与聚类原型间的相似性，提升聚类的准确性，提高聚类分配的置信度。

首先，随机选取输入图像潜在特征h与每个伯努利-逻辑斯蒂单元进行交互，计算输入图像潜在特征h与每个伯努利-逻辑斯蒂单元的欧氏距离s_k＝d(h,w_k)，然后利用逻辑斯蒂函数来衡量输入图像潜在特征h和各个单元所属原型间的相似性，该函数如下：

在获得当前点的概率分布后，利用辅助代价函数进行估计，计算公式如下：

p_k＝h(s_k)＝2×(1-F(s_k)) (8)

其中，p_k为该输入图像潜在特征属于某个聚类原型c_k所属聚类的概率，当该输入图像潜在特征与某单元距离越近，对应单元的概率p_k越大，反之则越小。

由于伯努利-逻辑斯蒂分布下概率分布的不确定性，导致各聚类单元对输入图像潜在特征的影响不均一，本发明设计公式(9)生成随机种子p，与逻辑回归中得到的概率进行比较，获得指示变量y，平衡各聚类原型对整个聚类结果的影响效果。其计算公式如下：

以上获得的伯努利-逻辑斯蒂分布随迭代过程动态更新至聚类的伯努利-逻辑斯蒂单元中，并用于迭代更新该单元所属聚类原型的权重信息。

2)奖励回归策略

为充分利用聚类环境对聚类结果的影响性，突出考虑各前项聚类对后项聚类的积极作用或消极作用，本发明采用强化学习的思想，对于已设置好的聚类原型，选用合适的奖赏策略来进一步明确学习方向，以寻求最优结果。对此，在计算每个聚类原型c_k的度量值y_k后，利用奖励回归策略为每个原型分配评估决策，以动态更新输入点与各聚类原型间交互后产生的行为，在对有效聚类原型进行奖励的同时，对邻近无效区域进行惩罚操作，解决聚类算法中对全部聚类尤其是邻近区域考虑不充分的问题。具体策略方案如下：

其中，当该原型为较接近原型，也就是

时，说明当前聚类原型需配以较为活跃的行动方案，也就是对其发送奖励信号，则

反之，当该原型为较远原型，也就是

时，说明该原型为错误原型，需对其发送惩罚信号，也就是

在进行该策略的过程中，聚类原型的权重是不受影响的。

步骤4、更新权重，优化聚类原型；

在完成对聚类原型的强化任务后，本发明采用策略梯度算法对输入点x对应的原型k的权重参数进行更新，初始更新公式如下：

其中，a＞0是学习率，r为强化过程中得到的强化信号，b_ik为强化基线；而

的值为单元权重w_ik对应的特征变换度，该值受连续分布条件下概率密度函数g_ik(y_k；w_ik,h_i)的变化影响，也就是受输入图像潜在特征h_i以及权重w_ik所确定的当前原型在当前环境下指示变量y_k的影响；

根据强化聚类任务的结果，联合指示变量y_k与奖赏策略的分配结果，并对强化基线分配b_ik＝0，可得最终权重更新公式如下所示：

Δw_ik＝ar_k(y_k-p_k)(-fx/(1-p_k))(w_ik-h_i) (12)

聚类原型

通过公式(12)进行更新。当迭代次数达到预设最大训练次数60000次时，完成整个聚类任务。

方法流程描述：

本发明的整体流程分为三部分：特征预处理过程，聚类原型初始化过程，强化聚类过程。首先，构建深层自编码器模型，采用降噪自编码器的解码器和编码器对网络进行预训练后，利用构建好的编码层将原始的高维图像数据映射至低维潜在特征空间中，获取图像的潜在特征表示。其次，基于特征预处理过程中从数据中提取出的潜在特征表示，采用传统的K-means算法初始化聚类原型，并将所得的聚类原型以伯努利-逻辑斯蒂单元的方式进行存储。最后，采用强化学习中的奖励回归策略获得各个单元的奖赏信号，并联合伯努利-逻辑斯蒂分布动态优化聚类结果，直至满足聚类完成条件，具体流程如图2所示。

验证结果：

在本方法的实验中，选择两个通用的图像数据集：MNIST手写数字数据集和Fashion-MNIST数据集以验证本方法的有效性，数据集的详细信息如表1所示。

MNIST手写数字数据集：由28*28像素大小的70000个手写数字组成。本发明将每个图像重构为784维向量。

Fashion-MNIST数据集：由28*28像素大小的70000个服饰图像组成。本发明将每个图像重构为784维向量。

表1数据集的详细信息

数据集	样本数量	样本维度	类别数量
				MNIST	70000	784	10
Fashion-MNIST	70000	784	10

本方法使用传统的聚类的评价标准：聚类精确度(Accuracy，ACC)、调整兰德指数(Adjusted Rand Index，ARI)和归一化互信息(Normalized Mutual Information，NMI)。

为了验证本发明的性能，选择3种通用的典型聚类方法：传统的无监督聚类方法K均值(K-means)，深度聚类方法(AE+K-means)，深度嵌入式聚类方法(DEC)进行对比。

本发明提出的方法在MNIST和Fashion-MNIST数据集上的ACC、ARI和NMI性能比较结果如表3、表4所示。

表2各实验在MNIST数据集上结果比较

Experiments	ACC	ARI	NMI
				K-means	0.5319	0.3633	0.4971
AE+K-means	0.8184	0.7421	0.7790
				DEC	0.8430	0.8181	0.8437
本发明	0.9292	0.8493	0.8438

表3各实验在Fashion-MNIST数据集上结果比较

Experiments	ACC	ARI	NMI
				K-means	0.4758	0.3485	0.5122
AE+K-means	0.5713	0.4259	0.5764
				DEC	0.5829	0.4823	0.6404
本发明	0.6166	0.4871	0.6002

从表2和表3中，可以观察到本发明提出的方法在MNIST和Fashion-MNIST数据集的两个评价指标ACC和ARI上都优于对比基线方法，这证明了本发明的有效性，在Fashion-MNIST数据集上，NMI评价指标略低于DEC，考虑到DEC使用信息散度作为辅助目标分布，可较有利的改善信息熵的差值，提升NMI评价指标性能。具体地，与K-means方法相比，本发明的优势在于可以通过深层自编码器网络提取到图像数据的潜在特征，提高聚类效果。与AE+K-means方法相比，本发明的优势在于采用伯努利-逻辑斯蒂单元，利用聚类单元中的聚类信息调整簇心，提高聚类性能。与DEC方法相比，本发明的优势在于采用奖励回归策略，对有效聚类单元进行奖赏的同时，对无效邻近聚类单元进行惩罚，充分考虑全部聚类尤其是邻近区域对聚类效果的影响，提高聚类性能。

Claims

1.一种深度强化图像聚类方法，其特征在于，包括以下步骤：

步骤1、预训练编解码网络，学习图像潜在特征；

深层自编码器网络由降噪自编码器网络堆叠而成，而降噪自编码器网络由编码层和解码层两部分组成，在训练过程中，网络随机破坏每一个降噪自编码器的输入，然后重建原始输入作为输出，以获得输入数据的潜在表示；所述降噪自编码器网络定义为如下过程：

其中，设定图像数据x作为降噪自编码器的输入；Dropout(·)作为随机映射函数将部分输入设置为0；f_e、f_d作为编码层和解码层的映射函数，θ＝{W_e,b_e,W_d,b_d}是网络模型的参数；编码层输出的潜在特征h将作为解码层的输入；同时，为保证重构图像数据x’与原始图像数据x尽可能一致，采用最小化平方损失函数

的方法对模型进行优化；

将第一个降噪自编码器的编码层和解码层的激活函数设为恒等函数，而其他降噪自编码器的编码层和解码层的激活函数设为ReLu函数；各个降噪自编码器网络构建完成后，利用随机分布初始化编码层和解码层的参数，之后采用随机梯度下降反向传播的方式进行训练，然后将各个降噪自编码器的编码层和解码层拆开，依照输入输出的维度组合成一个整体的深层自编码器的模型框架；

再次采用SGD对网络模型进行训练，使得最大程度的降低重构损失，生成良好的深层自编码器网络模型，并选用其中的编码部分作为原始特征空间到潜在特征空间的映射工具f_θ＝X→H，其中，θ为输入点的参数，X为输入点的原始特征表示，H为输入点的潜在特征表示，最终获得原始图像数据的潜在特征表示H；

步骤2、初始化聚类原型，分配伯努利-逻辑斯蒂单元；

采用步骤1训练好的深层自编码器模型，生成输入点x_i的潜在特征表示h_i，构成集合H＝{h_i|h_i＝f_θ(x_i),x_i∈X,i＝1,2,...,N}，随机选取K个点构成初始原型集合

然后通过K-means聚类算法在潜在特征表示H上对原型集合

进行更新，以得到K个初始化后的聚类原型；

利用K-means得到的聚类原型

作为聚类原型，构建伯努利-逻辑斯蒂单元BLlist＝{w,p,dw,fx}，该单元包含聚类原型在当前环境下的聚类信息，其中，w为该聚类原型在当前环境下的权重，p为该聚类原型的伯努利分布系数，dw为该原型的欧氏距离，fx为该原型的逻辑回归系数；经过K-means聚类算法获得聚类原型的初始权重，其余参数初始值设置为0值；

步骤3、强化聚类；

步骤3-1，计算输入点的潜在特征表示、聚类原型的逻辑回归参数以及伯努利分布参数，动态更新至伯努利-逻辑斯蒂单元中；