CN109919204B

CN109919204B - 一种面向噪声图像的深度学习聚类方法

Info

Publication number: CN109919204B
Application number: CN201910134723.3A
Authority: CN
Inventors: 张凯文; 韦佳
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-02-23
Filing date: 2019-02-23
Publication date: 2023-06-23
Anticipated expiration: 2039-02-23
Also published as: CN109919204A

Abstract

本发明公开了一种面向噪声图像的深度学习聚类方法，包括以下步骤：S1、构建深度学习聚类模型；S2、采用AMsoftmax层作为聚类器，根据S1编码器输出的特征向量产生聚类结果；S3、采用L2范数衡量编码器的输出与孪生网络的输出的相似度；S4、采用KL散度衡量聚类结果与辅助目标分布间的分布差异；S5、训练深度学习聚类模型；S6、通过AMsoftmax层得到该数据的聚类结果。所述方法可以对含有噪声的图像数据进行无监督聚类，解决了大多数图像聚类算法没有对噪声数据进行建模的问题以及现有深度聚类算法对非线性特征较强的图像的聚类效果较差的问题。

Description

一种面向噪声图像的深度学习聚类方法

技术领域

本发明属于机器学习领域的聚类方法，适用于对无监督信息的噪声图像数据进行聚类处理，涉及一种面向噪声图像的深度学习聚类方法。

背景技术

近年来，深度学习在有监督学习任务领域取得了巨大的成功，随之而来的，便是越来越多的研究人员探究深度学习在无监督学习领域和半监督学习领域的应用，特别是在数据降维和深度聚类这两个方向。目前深度学习聚类算法主要分为两种，一种是先用深度学习去学习数据的低维表示，然后通过传统的聚类算法进行聚类；另一种是用深度学习将特征学习跟聚类过程同时进行。深度学习进行降维的常见手段就是将传统的降维算法的思想应用到深度学习领域中，从而构造出新的算法，比如，栈式自编码(Stacked Autoencoder)、深度典型相关分析(deep Canonical Correlation Analysis)、稀疏自编码和深度嵌入聚类(Deep Embedding Clustering)，这三种算法分别是从PCA(principal ComponentAnalysis，主成分分析)、CCA(Canonical Correlation Analysis，典型相关分析)、稀疏编码和t-SNE算法(t-distributed stochastic neighbor embedding，t分布随机近邻嵌入)中改进过来的。这些方法主要是通过神经网络去学习一种从高维数据变换到低维数据的非线性映射，从而能够发现高维数据在低维潜在空间的表示形式，方便后续使用传统聚类方法聚类。用深度学习将特征学习跟聚类过程同时进行的方法一般是使用自编码网络来进行降维操作，在保证重构误差的同时，也令聚类误差最小化，如深度聚类网络(DeepClustering Network)、深度卷积嵌入聚类(Deep Convolutional EmbeddingClustering)。而这些深度学习聚类算法的聚类效果，基本都超越了传统的聚类算法，甚至不少的深度学习聚类算法在MNIST数据集的聚类ACC指标(Accuracy，准确率)达到了96％以上的准确率，这是传统聚类算法所难以做到的。但是目前深度学习聚类算法大多都只是在较为简单的数据集上面达到了逼近监督学习算法的准确率，而在人脸数据集等非线性特征较强的数据集上的效果则还有较大的提升空间。

真实世界中的数据往往包含各种各样的噪声和异常，比如人脸图像中的模糊、光照、姿态、遮挡等问题，如果不对这些问题加以考虑，很难保证所提出的方法在实际应用中也能够有很好的表现。因此，需要在做数据聚类的同时把噪声和异常的影响考虑进去，这里需要研究不同噪声或异常的建模问题，通过学习的方式从受污染的数据中学到真实数据的潜在表示。处理噪声数据是信号重构中较为基础的一块，即从被污染的数据中重构出干净的数据。在近年来较火的深度学习领域中，人们常见的做法是构造一个神经网络，学习从被污染数据到干净数据的一种映射,从而实现对被污染数据的重构。常见的神经网络结构是卷积自编码器，但是卷积自编码器学习信号重构需要同时获得被污染数据和干净数据才能进行学习。然而现实世界中我们常常遇到无法获得干净数据的情况，比如昏暗光照下的照片、核磁共振图片等。这个时候我们就无法使用常规的去噪自编码器去处理噪声数据了。

发明内容

本发明的目的在于克服上述已有技术的不足之处，从深度学习和半监督模型着手，提出了一种面向噪声数据的深度学习方法，所述方法可以对含有噪声的图像数据进行无监督聚类，解决了大多数图像聚类算法没有对噪声数据进行建模的问题以及现有深度聚类算法对人脸等非线性特征较强的图像的聚类效果较差的问题。

本发明提出的一种面向噪声图像的深度学习聚类方法，包括以下步骤：

步骤S1：构建深度学习聚类模型，所述深度学习聚类模型包括卷积自编码网络和第二编码器，所述卷积自编码网络中包含第一编码器和解码器；使用含有噪声的图像数据作为卷积自编码网络的输入；

步骤S2：采用一个AMsoftmax层(Additive Margin Softmax，增大边界的归一化指数函数)作为深度学习聚类模型的聚类器，根据步骤S1中第一编码器中间编码层产生的特征向量来产生聚类结果。其聚类结果是一种概率形式，即每个样本属于每个类别的概率分别是多少；

步骤S3：采用L2范数作为损失函数，衡量步骤S1中第一编码器中间编码层的特征向量与步骤S2中第二编码器中间编码层输出的特征向量间的距离，从而最小化两个特征向量之间的距离；

步骤S4：采用KL散度(Kullback-Leibler散度，也叫作相对熵)作为损失函数，衡量步骤S3中的聚类结果的分布与辅助目标分布间的分布差异，从而最小化聚类结果的分布与辅助目标分布间的差异；

步骤S5：使用后向传播算法和ADAM(adaptive moment estimation，自适应矩估计)优化算法训练本深度学习聚类模型。

步骤S6：将需要聚类的数据输入到第一编码器中，通过AMsoftmax层得到该数据的聚类结果。

进一步地，所述卷积自编码网络采用L2范数作为损失函数，衡量输入图像与重构图像之间的重构误差，卷积自编码网络的损失函数如下所示：

其中x_i为第一编码器输入的第i个样本，

为解码器输出的第i个重构图像，N表示输入的样本数量，/>

表示L2范数的平方。

进一步地，第二编码器的构建过程是在步骤S1的卷积自编码网络的基础上，构建孪生网络即第二编码器，第二编码器与第一编码器结构一致，并且两个编码器参数共享。

进一步地，卷积自编码网络的输入端和第二编码器的输入端在同一时间分别接收两张噪声图片作为输入，第二编码器的输入图像与步骤S1中输入的原始图像相同但含有不同的噪声。

进一步地，步骤S3中采用的损失函数如下所示：

其中z_i为第i个样本进入第一编码器之后得到的特征向量，

为第i个样本进入第二编码器之后得到的特征向量，N表示输入的样本数量，/>

表示L2范数的平方。

进一步地，步骤S4中采用的损失函数如下所示：

所述辅助目标分布的定义如下：

其中N表示输入的样本数量，C表示聚类的类别数量，q_ik表示第i个样本属于第k类的辅助目标概率，p_ik表示第i个样本预测为第k类的概率，p_i′k表示第i′个样本预测为第k类的概率，p_ik′表示第i个样本预测为第k′类的概率，p_i′k′为第i′个样本预测为第k′类的概率，以上四个预测概率均为步骤S2中得到的聚类结果。

进一步地，将步骤S1、步骤S3和步骤S4中的损失函数相加得到整体损失函数，并使用后向传播算法和ADAM优化算法去最小化整体损失函数从而训练本深度学习聚类模型。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明针对目前聚类模型并未对噪声进行建模的问题，通过结合卷积自编码网络和孪生网络，构建了一种面向噪声图像的深度学习聚类模型，该模型无需获取干净数据即可对数据进行聚类，并提高了对含有噪声的图像数据的聚类效果。

2、本发明针对类间区分不明显的问题，采用了AMsoftmax作为聚类器，加大了训练样本间的类间距，从而提高了深度学习聚类模型识别的准确率以及保证了对未接触过的数据有足够的鲁棒性。

附图说明

图1为本实例采用的面向噪声图像的深度学习聚类方法的网络结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例:

本实施例提供了一种面向噪声图像的深度学习聚类方法，所述方法包括以下步骤：

步骤S3：采用L2范数作为损失函数，衡量步骤S1中第一编码器中间编码层的特征向量与步骤S2中第二编码器中间编码层输出的特征向量间的距离；

步骤S4：采用KL散度(Kullback-Leibler散度，相对熵)作为损失函数，衡量步骤S3中聚类结果的分布与辅助目标分布间的分布差异；

步骤S5：使用后向传播算法和ADAM(adaptive moment estimation，自适应矩估计)优化算法训练深度学习聚类模型。

步骤S1中，具体地，如图1所示，第一编码器与解码器共同组成了卷积自编码器即卷积自编码网络。其中第一编码器由三层下采样层组成，解码器由三层上采样层组成，具体结构参数见表格1。图1中的H和W分别表示输入的图片尺寸，虚线的方框、箭头、圆柱共同表示了卷积的过程，其中箭头方向代表卷积的方向，图中的L2代表的是用L2范数作为损失函数，KL代表的是用KL散度作为损失函数。

表格1编码器与解码器的结构参数

将含有噪声的图像数据作为第一编码器的输入，并将解码器的输出与第一编码器的输入利用卷积自编码网络的损失函数做L2重构误差，卷积自编码网络的损失函数如下所示：

其中x_i为第一编码器输入的第i个样本，

为解码器输出的第i个重构图像，N表示输入的样本数量，/>

表示L2范数的平方。

步骤S2中，具体地，搭建第二编码器，其结构与第一编码器相同且参数共享。并使用与步骤S1中输入的原始图像相同但含有不同噪声的图像作为第二编码器的输入。

步骤S4中，具体地，采用L2范数作为损失函数，衡量第一编码器中中间编码层输出的特征向量与第二编码器输出的特征向量间的距离，该损失函数如下所示：

其中z_i为第i个样本进入第一编码器之后得到的特征向量，

表示L2范数的平方。

步骤S5中，具体地，辅助目标分布的定义如下：

其中N表示输入的样本数量，C表示聚类的类别数量，p_ik表示第i个样本预测为第k类的概率，q_ik表示第i个样本属于第k类的辅助目标概率，p_i′k表示第i′个样本预测为第k类的概率，p_ik′表示第i个样本预测为第k′类的概率，p_i′k′为第i′个样本预测为第k′类的概率。

获得辅助目标分布以后，采用KL散度作为损失函数，衡量预测结果P与辅助目标分布Q之间的分布差异。损失函数如下所示：

最后将步骤S1、步骤S3和步骤S4中的损失函数的结果相加作为深度学习聚类模型的整体损失函数，并使用后向传播算法和ADAM优化算法去最小化整体损失函数从而训练本深度学习聚类模型，训练后得到的模型即为最终应用于生产环境的模型。在使用训练好的模型时，只需将需要聚类的数据输入到第一编码器中，即可通过AMsoftmax层得到该数据的聚类结果。

以上所述，仅为本发明较佳的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其发明专利构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种面向噪声图像的深度学习聚类方法，其特征在于，所述方法包括以下步骤：

步骤S2：采用一个AMsoftmax层作为深度学习聚类模型的聚类器，根据步骤S1中第一编码器中间编码层产生的特征向量来产生聚类结果；卷积自编码网络的损失函数如下所示：

其中_i为第一编码器输入的第i个样本，

为解码器输出的第i个重构图像，N表示输入的样本数量，/>

表示L2范数的平方；

步骤S3：采用L2范数作为损失函数，衡量步骤S1中第一编码器中间编码层的特征向量与步骤S2中第二编码器中间编码层输出的特征向量间的距离；第二编码器的构建过程是在步骤S1的卷积自编码网络的基础上，构建孪生网络即第二编码器，第二编码器与第一编码器结构一致，并且两个编码器参数共享；

步骤S3中采用的损失函数如下所示：

其中z_i为第i个样本进入第一编码器之后得到的特征向量，

表示L2范数的平方；

步骤S4：采用KL散度作为损失函数，衡量步骤S3中聚类结果的分布与辅助目标分布间的分布差异；步骤S4中采用的损失函数如下所示：

所述辅助目标分布的定义如下：

其中N表示输入的样本数量，C表示聚类的类别数量，p_ik表示第i个样本预测为第k类的概率，q_ik表示第i个样本属于第k类的辅助目标概率，p_i′k表示第i′个样本预测为第k类的概率，p_ik′表示第i个样本预测为第k′类的概率，p_i′k′为第i′个样本预测为第k′类的概率；

步骤S5：使用后向传播算法和自适应矩估计优化算法训练深度学习聚类模型；

2.根据权利要求1所述的一种面向噪声图像的深度学习聚类方法，其特征在于：卷积自编码网络的输入端和第二编码器的输入端在同一时间分别接收两张噪声图片作为输入，第二编码器的输入图像与步骤S1中输入的原始图像相同但含有不同的噪声。

3.根据权利要求1所述的一种面向噪声图像的深度学习聚类方法，其特征在于：将步骤S1、步骤S3和步骤S4中的损失函数相加得到整体损失函数，并使用后向传播算法和ADAM优化算法去最小化整体损失函数从而训练本深度学习聚类模型。