CN113269282A - 一种基于自动编码器的无监督图像分类方法 - Google Patents

一种基于自动编码器的无监督图像分类方法 Download PDF

Info

Publication number
CN113269282A
CN113269282A CN202110822362.9A CN202110822362A CN113269282A CN 113269282 A CN113269282 A CN 113269282A CN 202110822362 A CN202110822362 A CN 202110822362A CN 113269282 A CN113269282 A CN 113269282A
Authority
CN
China
Prior art keywords
image
self
encoder
model
encoder model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110822362.9A
Other languages
English (en)
Inventor
孙浩然
姚朝霞
霍晓娜
宋康
林苏奔
邵正鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaiwei Innovative Intelligent System Zhejiang Co ltd
Original Assignee
Liaiwei Innovative Intelligent System Zhejiang Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaiwei Innovative Intelligent System Zhejiang Co ltd filed Critical Liaiwei Innovative Intelligent System Zhejiang Co ltd
Priority to CN202110822362.9A priority Critical patent/CN113269282A/zh
Publication of CN113269282A publication Critical patent/CN113269282A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自动编码器的无监督图像分类方法,按下述步骤进行:S1:设计一个基于卷积神经网络架构的自编码器模型;S2:通过多任务损失让自编码器模型提取出图像中的特征信息;S3:需要准备待分类的图像数据,进行自编码器模型训练;S4:自编码器模型模型训练后,自编码器模型完成对图像中的特征信息完成编码;S5:通过自编码器模型的编码,原图像中的噪声及背景信息被过滤,即可完成图像分类。本发明无需任何标签,模型即可进行学习,从而完成图像的分类任务,降低人力成本。

Description

一种基于自动编码器的无监督图像分类方法
技术领域
本发明涉及图像分类方法,特别涉及一种基于自动编码器的无监督图像分类方法。
背景技术
随着信息技术的发展,图像数据急剧增长,对图像处理的需求也大大增加,在现实生活中,由于图像模糊、字体不清晰以及拍摄视角等因素,所采集的图像质量往往不高,这就影响了图像分类的准确性。传统的图像分类方法,需要人工设计特征,过程繁琐且精度低。现在的深度学习相关方法,虽然无需人工选取特征且精度高,但往往需要大量的标签数据,而人工标签的成本高昂。
发明内容
本发明的目的在于,提供一种基于自动编码器的无监督图像分类方法。本发明无需任何标签,模型即可进行学习,从而完成图像的分类任务,降低人力成本。
本发明的技术方案:
一种基于自动编码器的无监督图像分类方法,其特征在于,按下述步骤进行:
S1:设计一个基于卷积神经网络架构的自编码器模型;
S2:通过多任务损失让自编码器模型提取出图像中的特征信息;
S3:需要准备待分类的图像数据,进行自编码器模型训练;
S4:自编码器模型模型训练后,自编码器模型完成对图像中的特征信息完成编码;
S5:通过自编码器模型的编码,原图像中的噪声及背景信息被过滤,即可完成图像分类。
前述的基于自动编码器的无监督图像分类方法中,
所述的步骤S1中的自编码器模型包括编码器和解码器,所述编码器由3层步长为2且卷积核尺寸为3*3的卷积层组成,用于提取图像中的特征,最终将图像中的特征转换为一个N维的特征向量;所述解码器由3层反卷积层组成,用于对特征向量的解码,从而恢复出原图像的内容。
前述的基于自动编码器的无监督图像分类方法中,
所述步骤S2中多任务损失的公式为:
Figure 293301DEST_PATH_IMAGE001
其中,
Figure 100002_DEST_PATH_IMAGE002
Figure 385016DEST_PATH_IMAGE003
表示分别表示不同图像编码的N维特征向量;
Figure 100002_DEST_PATH_IMAGE004
Figure 847221DEST_PATH_IMAGE005
分别表示原图像和重构的图像;由公式(3)可以看出损失由两部分组成:
Figure 867130DEST_PATH_IMAGE006
表示重构损失,是为了保证自编码器模型能够提取出图像中的特征;
Figure 807404DEST_PATH_IMAGE007
表示对比损失,使得相同样本之间的特征向量距离更近,不同样本之间的特征向量距离更大;通过重构损失和对比损失的监督,自编码器模型即可对图像中噪声和背景信息进行过滤,学习到图像中的特征。
前述的基于自动编码器的无监督图像分类方法中,
所述步骤S3中的自编码器模型训练方法是:将训练集中图像每次随机的选取一张,将这一张图像复制为两份,分别做不同的随机变换,使其图像中的颜色、位置和形状发生变换,该对图像作为一个样本输入模型,根据步骤S2中的公式(3)计算损失,最后通过反向传播算法更新自编码器模型。
前述的基于自动编码器的无监督图像分类方法中,
所述的步骤S4中的自编码器模型将所有的图像分别编码为一个N维特征向量。
前述的基于自动编码器的无监督图像分类方法中,
所述的步骤S5中,将所有图像的 N维特征向量通过k-means聚类,即可完成图像的分类。
与现有技术相比,本发明具有以下有益效果:
本发明无需任何标签,自动编码器模型即可进行学习,从而可以避免大量的人工标签,减少人力成本和劳动强度。此外,本发明设计的自编码器模型架构简单,除图像外,还可以适应用各种不同的任务,如音频分类等。本发明在无需任何人工标签的情况下,分类精度与全监督接近,以mnist数据集为例,分类精度达93.5%。
附图说明
图1是本发明的自动编码器模型示意图;
图2是本发明实施例1的图像;
图3是本发明实施例1的随机变幻示意图;
图4是本发明实施例1的聚类的可视化结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例:一种基于自动编码器的无监督图像分类方法,其特征在于,按下述步骤进行:
S1:设计一个基于卷积神经网络架构的自编码器模型;所述自编码器模型包括编码器和解码器,所述编码器由3层步长为2且卷积核尺寸为3*3的卷积层组成,用于提取图像中的特征,最终将图像中的特征转换为一个N维的特征向量;所述解码器由3层反卷积层(步长为2且卷积核尺寸为3*3的卷积层)组成,用于对特征向量的解码,从而恢复出原图像的内容。
:通过多任务损失让自编码器模型提取出图像中的特征信息;
所述步骤S2中多任务损失的公式为:
Figure 48899DEST_PATH_IMAGE001
其中,
Figure 744322DEST_PATH_IMAGE002
Figure 189210DEST_PATH_IMAGE003
表示分别表示不同图像编码的N维特征向量;
Figure 729913DEST_PATH_IMAGE004
Figure 576646DEST_PATH_IMAGE005
分别表示原图像和重构的图像;由公式(3)可以看出损失由两部分组成:
Figure 177392DEST_PATH_IMAGE006
表示重构损失,是为了保证自编码器模型能够提取出图像中的特征;
Figure 109576DEST_PATH_IMAGE007
表示对比损失,使得相同样本之间的特征向量距离更近,不同样本之间的特征向量距离更大;通过重构损失和对比损失的监督,自编码器模型即可对图像中噪声和背景信息进行过滤,学习到图像中的特征(一般为主要特征),为后面的图像分类打下基础。
:通过步骤S1和S2构建好模型后,需要准备待分类的图像数据,进行自编码器模型训练;
本实施例以mnsit数据集为例,本发明中只使用mnsit数据集中图像,并不使用对应的数字标签。将训练集中图像每次随机的选取一张,将这一张图像复制为两份,分别做不同的随机变换(如随机噪声,旋转放缩平移,颜色抖动等),使其图像中的颜色、位置和形状发生变换,该对图像作为一个样本输入模型,根据步骤S2中的公式(3)计算损失,最后通过反向传播算法更新自编码器模型。
:自编码器模型模型训练后,自编码器模型完成对图像中的特征信息完成编码;自编码器模型将所有的图像分别编码为一个N维特征向量。
:通过自编码器模型的编码,原图像中的噪声及背景信息被过滤,即可完成图像分类。N维特征向量即表示的图像中的主要信息特征。将所有图像的 N维特征向量通过k-means聚类,即可完成图像的分类。以mnist数据集为例,分类精度达93.5%。
实施例1:
本发明以mnsit数据集为例,mnsit中包含60000张训练图像和10000测试图像;每张图像大小为28*28,共10个类别,如图2所示。
首先,根据步骤S1中所述,构建一个自编码器模型,该自编码器模型中压缩的特征向量被设置为N=3,接着,取出训练集中的图像,将图像复制两份,做不同的随机变换,如图3所示。
其中图3中a表示随机平移,b表示随机旋转。通过步骤二中的设计的loss,将变换后的图像输入自编码器,计算损失,并通过反向传播计算梯度,更新自编码器的权重。如此循环,直至自编码器收敛。然后,利用自编码器模型中的编码器将测试集中的图像全部编码为3维的特征向量。编码后的向量如表1所示:
Figure 405034DEST_PATH_IMAGE008
表1
最后,利用k-means聚类算法对编码后的向量进行聚类。由于这里被压缩的特征向量是3维。因为,可以将特征向量映射到三维空间,进行可视化,其聚类的可视化结果如图4所示。
图4中每个点表示一个特征向量,每个点的颜色表示该特征向量对应图像的类别。可以看出大多是相同类别的图像都聚成一簇,不同类别则分离较远。这里将每一簇点分为一类,共计十类。经过统计,该分类结果达93.5%。由此可见,本发明设计的无监督图像分类方法,在节省大量人工标签的情况下,仍能取得很好的分类结果。
本发明无需任何标签,自动编码器模型即可进行学习,从而可以避免大量的人工标签,减少人力成本。此外,本发明设计的自编码器模型架构简单,除图像外,还可以适应用各种不同的任务,如音频分类等。

Claims (6)

1.一种基于自动编码器的无监督图像分类方法,其特征在于,按下述步骤进行:
S1:设计一个基于卷积神经网络架构的自编码器模型;
S2:通过多任务损失让自编码器模型提取出图像中的特征信息;
S3:准备待分类的图像数据,进行自编码器模型训练;
S4:自编码器模型模型训练后,自编码器模型完成对图像中的特征信息完成编码;
S5:通过自编码器模型的编码,原图像中的噪声及背景信息被过滤,即可完成图像分类。
2.根据权利要求1所述的基于自动编码器的无监督图像分类方法,其特征在于:
所述的步骤S1中的自编码器模型包括编码器和解码器,所述编码器由3层步长为2且卷积核尺寸为3*3的卷积层组成,用于提取图像中的特征,最终将图像中的特征转换为一个N维的特征向量;所述解码器由3层反卷积层组成,用于对特征向量的解码,从而恢复出原图像的内容。
3.根据权利要求1所述的基于自动编码器的无监督图像分类方法,其特征在于,
所述步骤S2中多任务损失的公式为:
Figure 467922DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
Figure 853904DEST_PATH_IMAGE003
表示分别表示不同图像编码的N维特征向量;
Figure DEST_PATH_IMAGE004
Figure 305745DEST_PATH_IMAGE005
分别表示原图像和重构的图像;由公式(3)可以看出损失由两部分组成:
Figure 966534DEST_PATH_IMAGE006
表示重构损失,是为了保证自编码器模型能够提取出图像中的特征;
Figure 499015DEST_PATH_IMAGE007
表示对比损失,使得相同样本之间的特征向量距离更近,不同样本之间的特征向量距离更大;通过重构损失和对比损失的监督,自编码器模型即可对图像中噪声和背景信息进行过滤,学习到图像中的特征。
4.根据权利要求3所述的基于自动编码器的无监督图像分类方法,其特征在于,
所述步骤S3中的自编码器模型训练方法是:将训练集中图像每次随机的选取一张,将这一张图像复制为两份,分别做不同的随机变换,使其图像中的颜色、位置和形状发生变换,该对图像作为一个样本输入模型,根据步骤S2中的公式(3)计算损失,最后通过反向传播算法更新自编码器模型。
5.根据权利要求1所述的基于自动编码器的无监督图像分类方法,其特征在于,
所述的步骤S4中的自编码器模型将所有的图像编码为一个N维特征向量。
6.根据权利要求1所述的基于自动编码器的无监督图像分类方法,其特征在于,
所述的步骤S5中,将所有图像的 N维特征向量通过k-means聚类,即可完成图像的分类。
CN202110822362.9A 2021-07-21 2021-07-21 一种基于自动编码器的无监督图像分类方法 Pending CN113269282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110822362.9A CN113269282A (zh) 2021-07-21 2021-07-21 一种基于自动编码器的无监督图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110822362.9A CN113269282A (zh) 2021-07-21 2021-07-21 一种基于自动编码器的无监督图像分类方法

Publications (1)

Publication Number Publication Date
CN113269282A true CN113269282A (zh) 2021-08-17

Family

ID=77236988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110822362.9A Pending CN113269282A (zh) 2021-07-21 2021-07-21 一种基于自动编码器的无监督图像分类方法

Country Status (1)

Country Link
CN (1) CN113269282A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496761A (zh) * 2022-11-17 2022-12-20 湖南自兴智慧医疗科技有限公司 基于ae的低倍镜分裂相筛图方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130250181A1 (en) * 2010-12-29 2013-09-26 Thomson Licensing Method for face registration
CN109919204A (zh) * 2019-02-23 2019-06-21 华南理工大学 一种面向噪声图像的深度学习聚类方法
CN111368662A (zh) * 2020-02-25 2020-07-03 华南理工大学 一种人脸图像属性编辑方法、装置、存储介质及设备
CN111783884A (zh) * 2020-06-30 2020-10-16 山东女子学院 基于深度学习的无监督高光谱图像分类方法
CN112464004A (zh) * 2020-11-26 2021-03-09 大连理工大学 一种多视角深度生成图像聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130250181A1 (en) * 2010-12-29 2013-09-26 Thomson Licensing Method for face registration
CN109919204A (zh) * 2019-02-23 2019-06-21 华南理工大学 一种面向噪声图像的深度学习聚类方法
CN111368662A (zh) * 2020-02-25 2020-07-03 华南理工大学 一种人脸图像属性编辑方法、装置、存储介质及设备
CN111783884A (zh) * 2020-06-30 2020-10-16 山东女子学院 基于深度学习的无监督高光谱图像分类方法
CN112464004A (zh) * 2020-11-26 2021-03-09 大连理工大学 一种多视角深度生成图像聚类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496761A (zh) * 2022-11-17 2022-12-20 湖南自兴智慧医疗科技有限公司 基于ae的低倍镜分裂相筛图方法、系统及存储介质
CN115496761B (zh) * 2022-11-17 2023-03-03 湖南自兴智慧医疗科技有限公司 基于ae的低倍镜分裂相筛图方法、系统及存储介质

Similar Documents

Publication Publication Date Title
Zhang et al. Adaptive residual networks for high-quality image restoration
CN108304357B (zh) 一种基于字体流形的中文字库自动生成方法
Robert et al. Hybridnet: Classification and reconstruction cooperation for semi-supervised learning
CN105930382A (zh) 一种用2d图片搜索3d模型的方法
CN112733965B (zh) 一种基于小样本学习的无标签图像分类方法
CN111507100B (zh) 一种卷积自编码器及基于该编码器的词嵌入向量压缩方法
CN107633272B (zh) 一种基于小样本下压缩感知的dcnn纹理疵点识别方法
CN111179187A (zh) 基于循环生成对抗网络的单幅图像去雨方法
CN113066025B (zh) 一种基于增量学习与特征、注意力传递的图像去雾方法
CN109344898A (zh) 基于稀疏编码预训练的卷积神经网络图像分类方法
CN114170088A (zh) 一种基于图结构数据的关系型强化学习系统及方法
CN108376257B (zh) 一种燃气表不完整码字识别方法
CN114494297A (zh) 处理多种先验知识的自适应视频目标分割方法
CN114742985A (zh) 一种高光谱特征提取方法、装置及存储介质
Zhao et al. Detecting deepfake video by learning two-level features with two-stream convolutional neural network
CN115861614A (zh) 一种基于羽绒服图像的自动生成语义分割图的方法和装置
CN113269282A (zh) 一种基于自动编码器的无监督图像分类方法
Liu et al. Exploring simple and transferable recognition-aware image processing
CN113870286A (zh) 一种基于多级特征和掩码融合的前景分割方法
Picard et al. Non-negative dictionary learning for paper watermark similarity
Yang et al. RSAMSR: A deep neural network based on residual self-encoding and attention mechanism for image super-resolution
CN116934613A (zh) 一种用于文字修复的分支卷积通道注意力模块
CN113538484B (zh) 一种深度细化的多重信息嵌套边缘检测方法
CN116109510A (zh) 一种基于结构和纹理对偶生成的人脸图像修复方法
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817