CN113269282A - 一种基于自动编码器的无监督图像分类方法 - Google Patents
一种基于自动编码器的无监督图像分类方法 Download PDFInfo
- Publication number
- CN113269282A CN113269282A CN202110822362.9A CN202110822362A CN113269282A CN 113269282 A CN113269282 A CN 113269282A CN 202110822362 A CN202110822362 A CN 202110822362A CN 113269282 A CN113269282 A CN 113269282A
- Authority
- CN
- China
- Prior art keywords
- image
- self
- encoder
- model
- encoder model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于自动编码器的无监督图像分类方法,按下述步骤进行:S1:设计一个基于卷积神经网络架构的自编码器模型;S2:通过多任务损失让自编码器模型提取出图像中的特征信息;S3:需要准备待分类的图像数据,进行自编码器模型训练;S4:自编码器模型模型训练后,自编码器模型完成对图像中的特征信息完成编码;S5:通过自编码器模型的编码,原图像中的噪声及背景信息被过滤,即可完成图像分类。本发明无需任何标签,模型即可进行学习,从而完成图像的分类任务,降低人力成本。
Description
技术领域
本发明涉及图像分类方法,特别涉及一种基于自动编码器的无监督图像分类方法。
背景技术
随着信息技术的发展,图像数据急剧增长,对图像处理的需求也大大增加,在现实生活中,由于图像模糊、字体不清晰以及拍摄视角等因素,所采集的图像质量往往不高,这就影响了图像分类的准确性。传统的图像分类方法,需要人工设计特征,过程繁琐且精度低。现在的深度学习相关方法,虽然无需人工选取特征且精度高,但往往需要大量的标签数据,而人工标签的成本高昂。
发明内容
本发明的目的在于,提供一种基于自动编码器的无监督图像分类方法。本发明无需任何标签,模型即可进行学习,从而完成图像的分类任务,降低人力成本。
本发明的技术方案:
一种基于自动编码器的无监督图像分类方法,其特征在于,按下述步骤进行:
S1:设计一个基于卷积神经网络架构的自编码器模型;
S2:通过多任务损失让自编码器模型提取出图像中的特征信息;
S3:需要准备待分类的图像数据,进行自编码器模型训练;
S4:自编码器模型模型训练后,自编码器模型完成对图像中的特征信息完成编码;
S5:通过自编码器模型的编码,原图像中的噪声及背景信息被过滤,即可完成图像分类。
前述的基于自动编码器的无监督图像分类方法中,
所述的步骤S1中的自编码器模型包括编码器和解码器,所述编码器由3层步长为2且卷积核尺寸为3*3的卷积层组成,用于提取图像中的特征,最终将图像中的特征转换为一个N维的特征向量;所述解码器由3层反卷积层组成,用于对特征向量的解码,从而恢复出原图像的内容。
前述的基于自动编码器的无监督图像分类方法中,
所述步骤S2中多任务损失的公式为:
其中,和表示分别表示不同图像编码的N维特征向量;和分别表示原图像和重构的图像;由公式(3)可以看出损失由两部分组成:表示重构损失,是为了保证自编码器模型能够提取出图像中的特征;表示对比损失,使得相同样本之间的特征向量距离更近,不同样本之间的特征向量距离更大;通过重构损失和对比损失的监督,自编码器模型即可对图像中噪声和背景信息进行过滤,学习到图像中的特征。
前述的基于自动编码器的无监督图像分类方法中,
所述步骤S3中的自编码器模型训练方法是:将训练集中图像每次随机的选取一张,将这一张图像复制为两份,分别做不同的随机变换,使其图像中的颜色、位置和形状发生变换,该对图像作为一个样本输入模型,根据步骤S2中的公式(3)计算损失,最后通过反向传播算法更新自编码器模型。
前述的基于自动编码器的无监督图像分类方法中,
所述的步骤S4中的自编码器模型将所有的图像分别编码为一个N维特征向量。
前述的基于自动编码器的无监督图像分类方法中,
所述的步骤S5中,将所有图像的 N维特征向量通过k-means聚类,即可完成图像的分类。
与现有技术相比,本发明具有以下有益效果:
本发明无需任何标签,自动编码器模型即可进行学习,从而可以避免大量的人工标签,减少人力成本和劳动强度。此外,本发明设计的自编码器模型架构简单,除图像外,还可以适应用各种不同的任务,如音频分类等。本发明在无需任何人工标签的情况下,分类精度与全监督接近,以mnist数据集为例,分类精度达93.5%。
附图说明
图1是本发明的自动编码器模型示意图;
图2是本发明实施例1的图像;
图3是本发明实施例1的随机变幻示意图;
图4是本发明实施例1的聚类的可视化结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例:一种基于自动编码器的无监督图像分类方法,其特征在于,按下述步骤进行:
S1:设计一个基于卷积神经网络架构的自编码器模型;所述自编码器模型包括编码器和解码器,所述编码器由3层步长为2且卷积核尺寸为3*3的卷积层组成,用于提取图像中的特征,最终将图像中的特征转换为一个N维的特征向量;所述解码器由3层反卷积层(步长为2且卷积核尺寸为3*3的卷积层)组成,用于对特征向量的解码,从而恢复出原图像的内容。
:通过多任务损失让自编码器模型提取出图像中的特征信息;
所述步骤S2中多任务损失的公式为:
其中,和表示分别表示不同图像编码的N维特征向量;和分别表示原图像和重构的图像;由公式(3)可以看出损失由两部分组成:表示重构损失,是为了保证自编码器模型能够提取出图像中的特征;表示对比损失,使得相同样本之间的特征向量距离更近,不同样本之间的特征向量距离更大;通过重构损失和对比损失的监督,自编码器模型即可对图像中噪声和背景信息进行过滤,学习到图像中的特征(一般为主要特征),为后面的图像分类打下基础。
:通过步骤S1和S2构建好模型后,需要准备待分类的图像数据,进行自编码器模型训练;
本实施例以mnsit数据集为例,本发明中只使用mnsit数据集中图像,并不使用对应的数字标签。将训练集中图像每次随机的选取一张,将这一张图像复制为两份,分别做不同的随机变换(如随机噪声,旋转放缩平移,颜色抖动等),使其图像中的颜色、位置和形状发生变换,该对图像作为一个样本输入模型,根据步骤S2中的公式(3)计算损失,最后通过反向传播算法更新自编码器模型。
:自编码器模型模型训练后,自编码器模型完成对图像中的特征信息完成编码;自编码器模型将所有的图像分别编码为一个N维特征向量。
:通过自编码器模型的编码,原图像中的噪声及背景信息被过滤,即可完成图像分类。N维特征向量即表示的图像中的主要信息特征。将所有图像的 N维特征向量通过k-means聚类,即可完成图像的分类。以mnist数据集为例,分类精度达93.5%。
实施例1:
本发明以mnsit数据集为例,mnsit中包含60000张训练图像和10000测试图像;每张图像大小为28*28,共10个类别,如图2所示。
首先,根据步骤S1中所述,构建一个自编码器模型,该自编码器模型中压缩的特征向量被设置为N=3,接着,取出训练集中的图像,将图像复制两份,做不同的随机变换,如图3所示。
其中图3中a表示随机平移,b表示随机旋转。通过步骤二中的设计的loss,将变换后的图像输入自编码器,计算损失,并通过反向传播计算梯度,更新自编码器的权重。如此循环,直至自编码器收敛。然后,利用自编码器模型中的编码器将测试集中的图像全部编码为3维的特征向量。编码后的向量如表1所示:
表1
最后,利用k-means聚类算法对编码后的向量进行聚类。由于这里被压缩的特征向量是3维。因为,可以将特征向量映射到三维空间,进行可视化,其聚类的可视化结果如图4所示。
图4中每个点表示一个特征向量,每个点的颜色表示该特征向量对应图像的类别。可以看出大多是相同类别的图像都聚成一簇,不同类别则分离较远。这里将每一簇点分为一类,共计十类。经过统计,该分类结果达93.5%。由此可见,本发明设计的无监督图像分类方法,在节省大量人工标签的情况下,仍能取得很好的分类结果。
本发明无需任何标签,自动编码器模型即可进行学习,从而可以避免大量的人工标签,减少人力成本。此外,本发明设计的自编码器模型架构简单,除图像外,还可以适应用各种不同的任务,如音频分类等。
Claims (6)
1.一种基于自动编码器的无监督图像分类方法,其特征在于,按下述步骤进行:
S1:设计一个基于卷积神经网络架构的自编码器模型;
S2:通过多任务损失让自编码器模型提取出图像中的特征信息;
S3:准备待分类的图像数据,进行自编码器模型训练;
S4:自编码器模型模型训练后,自编码器模型完成对图像中的特征信息完成编码;
S5:通过自编码器模型的编码,原图像中的噪声及背景信息被过滤,即可完成图像分类。
2.根据权利要求1所述的基于自动编码器的无监督图像分类方法,其特征在于:
所述的步骤S1中的自编码器模型包括编码器和解码器,所述编码器由3层步长为2且卷积核尺寸为3*3的卷积层组成,用于提取图像中的特征,最终将图像中的特征转换为一个N维的特征向量;所述解码器由3层反卷积层组成,用于对特征向量的解码,从而恢复出原图像的内容。
4.根据权利要求3所述的基于自动编码器的无监督图像分类方法,其特征在于,
所述步骤S3中的自编码器模型训练方法是:将训练集中图像每次随机的选取一张,将这一张图像复制为两份,分别做不同的随机变换,使其图像中的颜色、位置和形状发生变换,该对图像作为一个样本输入模型,根据步骤S2中的公式(3)计算损失,最后通过反向传播算法更新自编码器模型。
5.根据权利要求1所述的基于自动编码器的无监督图像分类方法,其特征在于,
所述的步骤S4中的自编码器模型将所有的图像编码为一个N维特征向量。
6.根据权利要求1所述的基于自动编码器的无监督图像分类方法,其特征在于,
所述的步骤S5中,将所有图像的 N维特征向量通过k-means聚类,即可完成图像的分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822362.9A CN113269282A (zh) | 2021-07-21 | 2021-07-21 | 一种基于自动编码器的无监督图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822362.9A CN113269282A (zh) | 2021-07-21 | 2021-07-21 | 一种基于自动编码器的无监督图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113269282A true CN113269282A (zh) | 2021-08-17 |
Family
ID=77236988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110822362.9A Pending CN113269282A (zh) | 2021-07-21 | 2021-07-21 | 一种基于自动编码器的无监督图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269282A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496761A (zh) * | 2022-11-17 | 2022-12-20 | 湖南自兴智慧医疗科技有限公司 | 基于ae的低倍镜分裂相筛图方法、系统及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130250181A1 (en) * | 2010-12-29 | 2013-09-26 | Thomson Licensing | Method for face registration |
CN109919204A (zh) * | 2019-02-23 | 2019-06-21 | 华南理工大学 | 一种面向噪声图像的深度学习聚类方法 |
CN111368662A (zh) * | 2020-02-25 | 2020-07-03 | 华南理工大学 | 一种人脸图像属性编辑方法、装置、存储介质及设备 |
CN111783884A (zh) * | 2020-06-30 | 2020-10-16 | 山东女子学院 | 基于深度学习的无监督高光谱图像分类方法 |
CN112464004A (zh) * | 2020-11-26 | 2021-03-09 | 大连理工大学 | 一种多视角深度生成图像聚类方法 |
-
2021
- 2021-07-21 CN CN202110822362.9A patent/CN113269282A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130250181A1 (en) * | 2010-12-29 | 2013-09-26 | Thomson Licensing | Method for face registration |
CN109919204A (zh) * | 2019-02-23 | 2019-06-21 | 华南理工大学 | 一种面向噪声图像的深度学习聚类方法 |
CN111368662A (zh) * | 2020-02-25 | 2020-07-03 | 华南理工大学 | 一种人脸图像属性编辑方法、装置、存储介质及设备 |
CN111783884A (zh) * | 2020-06-30 | 2020-10-16 | 山东女子学院 | 基于深度学习的无监督高光谱图像分类方法 |
CN112464004A (zh) * | 2020-11-26 | 2021-03-09 | 大连理工大学 | 一种多视角深度生成图像聚类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496761A (zh) * | 2022-11-17 | 2022-12-20 | 湖南自兴智慧医疗科技有限公司 | 基于ae的低倍镜分裂相筛图方法、系统及存储介质 |
CN115496761B (zh) * | 2022-11-17 | 2023-03-03 | 湖南自兴智慧医疗科技有限公司 | 基于ae的低倍镜分裂相筛图方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Adaptive residual networks for high-quality image restoration | |
CN108304357B (zh) | 一种基于字体流形的中文字库自动生成方法 | |
Robert et al. | Hybridnet: Classification and reconstruction cooperation for semi-supervised learning | |
CN105930382A (zh) | 一种用2d图片搜索3d模型的方法 | |
CN112733965B (zh) | 一种基于小样本学习的无标签图像分类方法 | |
CN111507100B (zh) | 一种卷积自编码器及基于该编码器的词嵌入向量压缩方法 | |
CN107633272B (zh) | 一种基于小样本下压缩感知的dcnn纹理疵点识别方法 | |
CN111179187A (zh) | 基于循环生成对抗网络的单幅图像去雨方法 | |
CN113066025B (zh) | 一种基于增量学习与特征、注意力传递的图像去雾方法 | |
CN109344898A (zh) | 基于稀疏编码预训练的卷积神经网络图像分类方法 | |
CN114170088A (zh) | 一种基于图结构数据的关系型强化学习系统及方法 | |
CN108376257B (zh) | 一种燃气表不完整码字识别方法 | |
CN114494297A (zh) | 处理多种先验知识的自适应视频目标分割方法 | |
CN114742985A (zh) | 一种高光谱特征提取方法、装置及存储介质 | |
Zhao et al. | Detecting deepfake video by learning two-level features with two-stream convolutional neural network | |
CN115861614A (zh) | 一种基于羽绒服图像的自动生成语义分割图的方法和装置 | |
CN113269282A (zh) | 一种基于自动编码器的无监督图像分类方法 | |
Liu et al. | Exploring simple and transferable recognition-aware image processing | |
CN113870286A (zh) | 一种基于多级特征和掩码融合的前景分割方法 | |
Picard et al. | Non-negative dictionary learning for paper watermark similarity | |
Yang et al. | RSAMSR: A deep neural network based on residual self-encoding and attention mechanism for image super-resolution | |
CN116934613A (zh) | 一种用于文字修复的分支卷积通道注意力模块 | |
CN113538484B (zh) | 一种深度细化的多重信息嵌套边缘检测方法 | |
CN116109510A (zh) | 一种基于结构和纹理对偶生成的人脸图像修复方法 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210817 |