CN113269282A

CN113269282A - 一种基于自动编码器的无监督图像分类方法

Info

Publication number: CN113269282A
Application number: CN202110822362.9A
Authority: CN
Inventors: 孙浩然; 姚朝霞; 霍晓娜; 宋康; 林苏奔; 邵正鹏
Original assignee: Liaiwei Innovative Intelligent System Zhejiang Co ltd
Current assignee: Liaiwei Innovative Intelligent System Zhejiang Co ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-08-17

Abstract

本发明公开了一种基于自动编码器的无监督图像分类方法，按下述步骤进行：S1：设计一个基于卷积神经网络架构的自编码器模型；S2：通过多任务损失让自编码器模型提取出图像中的特征信息；S3：需要准备待分类的图像数据，进行自编码器模型训练；S4：自编码器模型模型训练后，自编码器模型完成对图像中的特征信息完成编码；S5：通过自编码器模型的编码，原图像中的噪声及背景信息被过滤，即可完成图像分类。本发明无需任何标签，模型即可进行学习，从而完成图像的分类任务，降低人力成本。

Description

一种基于自动编码器的无监督图像分类方法

技术领域

本发明涉及图像分类方法，特别涉及一种基于自动编码器的无监督图像分类方法。

背景技术

随着信息技术的发展，图像数据急剧增长，对图像处理的需求也大大增加，在现实生活中，由于图像模糊、字体不清晰以及拍摄视角等因素，所采集的图像质量往往不高，这就影响了图像分类的准确性。传统的图像分类方法，需要人工设计特征，过程繁琐且精度低。现在的深度学习相关方法，虽然无需人工选取特征且精度高，但往往需要大量的标签数据，而人工标签的成本高昂。

发明内容

本发明的目的在于，提供一种基于自动编码器的无监督图像分类方法。本发明无需任何标签，模型即可进行学习，从而完成图像的分类任务，降低人力成本。

本发明的技术方案：

一种基于自动编码器的无监督图像分类方法，其特征在于，按下述步骤进行：

S1：设计一个基于卷积神经网络架构的自编码器模型；

S2：通过多任务损失让自编码器模型提取出图像中的特征信息；

S3：需要准备待分类的图像数据，进行自编码器模型训练；

S4：自编码器模型模型训练后，自编码器模型完成对图像中的特征信息完成编码；

S5：通过自编码器模型的编码，原图像中的噪声及背景信息被过滤，即可完成图像分类。

前述的基于自动编码器的无监督图像分类方法中，

所述的步骤S1中的自编码器模型包括编码器和解码器，所述编码器由3层步长为2且卷积核尺寸为3*3的卷积层组成，用于提取图像中的特征，最终将图像中的特征转换为一个N维的特征向量；所述解码器由3层反卷积层组成，用于对特征向量的解码，从而恢复出原图像的内容。

前述的基于自动编码器的无监督图像分类方法中，

所述步骤S2中多任务损失的公式为：

其中，

和

表示分别表示不同图像编码的N维特征向量；

和

分别表示原图像和重构的图像；由公式(3)可以看出损失由两部分组成：

表示重构损失，是为了保证自编码器模型能够提取出图像中的特征；

表示对比损失，使得相同样本之间的特征向量距离更近，不同样本之间的特征向量距离更大；通过重构损失和对比损失的监督，自编码器模型即可对图像中噪声和背景信息进行过滤，学习到图像中的特征。

前述的基于自动编码器的无监督图像分类方法中，

所述步骤S3中的自编码器模型训练方法是：将训练集中图像每次随机的选取一张，将这一张图像复制为两份，分别做不同的随机变换，使其图像中的颜色、位置和形状发生变换，该对图像作为一个样本输入模型，根据步骤S2中的公式(3)计算损失，最后通过反向传播算法更新自编码器模型。

前述的基于自动编码器的无监督图像分类方法中，

所述的步骤S4中的自编码器模型将所有的图像分别编码为一个N维特征向量。

前述的基于自动编码器的无监督图像分类方法中，

所述的步骤S5中，将所有图像的 N维特征向量通过k-means聚类，即可完成图像的分类。

与现有技术相比，本发明具有以下有益效果：

本发明无需任何标签，自动编码器模型即可进行学习，从而可以避免大量的人工标签，减少人力成本和劳动强度。此外，本发明设计的自编码器模型架构简单，除图像外，还可以适应用各种不同的任务，如音频分类等。本发明在无需任何人工标签的情况下，分类精度与全监督接近，以mnist数据集为例，分类精度达93.5%。

附图说明

图1是本发明的自动编码器模型示意图；

图2是本发明实施例1的图像；

图3是本发明实施例1的随机变幻示意图；

图4是本发明实施例1的聚类的可视化结果示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例：一种基于自动编码器的无监督图像分类方法，其特征在于，按下述步骤进行：

S1：设计一个基于卷积神经网络架构的自编码器模型；所述自编码器模型包括编码器和解码器，所述编码器由3层步长为2且卷积核尺寸为3*3的卷积层组成，用于提取图像中的特征，最终将图像中的特征转换为一个N维的特征向量；所述解码器由3层反卷积层（步长为2且卷积核尺寸为3*3的卷积层）组成，用于对特征向量的解码，从而恢复出原图像的内容。

：通过多任务损失让自编码器模型提取出图像中的特征信息；

所述步骤S2中多任务损失的公式为：

其中，

和

表示分别表示不同图像编码的N维特征向量；

和

表示对比损失，使得相同样本之间的特征向量距离更近，不同样本之间的特征向量距离更大；通过重构损失和对比损失的监督，自编码器模型即可对图像中噪声和背景信息进行过滤，学习到图像中的特征（一般为主要特征），为后面的图像分类打下基础。

：通过步骤S1和S2构建好模型后，需要准备待分类的图像数据，进行自编码器模型训练；

本实施例以mnsit数据集为例，本发明中只使用mnsit数据集中图像，并不使用对应的数字标签。将训练集中图像每次随机的选取一张，将这一张图像复制为两份，分别做不同的随机变换（如随机噪声，旋转放缩平移，颜色抖动等），使其图像中的颜色、位置和形状发生变换，该对图像作为一个样本输入模型，根据步骤S2中的公式(3)计算损失，最后通过反向传播算法更新自编码器模型。

：自编码器模型模型训练后，自编码器模型完成对图像中的特征信息完成编码；自编码器模型将所有的图像分别编码为一个N维特征向量。

：通过自编码器模型的编码，原图像中的噪声及背景信息被过滤，即可完成图像分类。N维特征向量即表示的图像中的主要信息特征。将所有图像的 N维特征向量通过k-means聚类，即可完成图像的分类。以mnist数据集为例，分类精度达93.5%。

实施例1：

本发明以mnsit数据集为例，mnsit中包含60000张训练图像和10000测试图像；每张图像大小为28*28，共10个类别，如图2所示。

首先，根据步骤S1中所述，构建一个自编码器模型，该自编码器模型中压缩的特征向量被设置为N=3，接着，取出训练集中的图像，将图像复制两份，做不同的随机变换，如图3所示。

其中图3中a表示随机平移，b表示随机旋转。通过步骤二中的设计的loss，将变换后的图像输入自编码器，计算损失，并通过反向传播计算梯度，更新自编码器的权重。如此循环，直至自编码器收敛。然后，利用自编码器模型中的编码器将测试集中的图像全部编码为3维的特征向量。编码后的向量如表1所示：

表1

最后，利用k-means聚类算法对编码后的向量进行聚类。由于这里被压缩的特征向量是3维。因为，可以将特征向量映射到三维空间，进行可视化，其聚类的可视化结果如图4所示。

图4中每个点表示一个特征向量，每个点的颜色表示该特征向量对应图像的类别。可以看出大多是相同类别的图像都聚成一簇，不同类别则分离较远。这里将每一簇点分为一类，共计十类。经过统计，该分类结果达93.5%。由此可见，本发明设计的无监督图像分类方法，在节省大量人工标签的情况下，仍能取得很好的分类结果。

本发明无需任何标签，自动编码器模型即可进行学习，从而可以避免大量的人工标签，减少人力成本。此外，本发明设计的自编码器模型架构简单，除图像外，还可以适应用各种不同的任务，如音频分类等。

Claims

1.一种基于自动编码器的无监督图像分类方法，其特征在于，按下述步骤进行：

S1：设计一个基于卷积神经网络架构的自编码器模型；

S3：准备待分类的图像数据，进行自编码器模型训练；

2.根据权利要求1所述的基于自动编码器的无监督图像分类方法，其特征在于：

3.根据权利要求1所述的基于自动编码器的无监督图像分类方法，其特征在于，

所述步骤S2中多任务损失的公式为：

其中，

和

表示分别表示不同图像编码的N维特征向量；

和

4.根据权利要求3所述的基于自动编码器的无监督图像分类方法，其特征在于，

5.根据权利要求1所述的基于自动编码器的无监督图像分类方法，其特征在于，

所述的步骤S4中的自编码器模型将所有的图像编码为一个N维特征向量。

6.根据权利要求1所述的基于自动编码器的无监督图像分类方法，其特征在于，