CN109919204B - 一种面向噪声图像的深度学习聚类方法 - Google Patents

一种面向噪声图像的深度学习聚类方法 Download PDF

Info

Publication number
CN109919204B
CN109919204B CN201910134723.3A CN201910134723A CN109919204B CN 109919204 B CN109919204 B CN 109919204B CN 201910134723 A CN201910134723 A CN 201910134723A CN 109919204 B CN109919204 B CN 109919204B
Authority
CN
China
Prior art keywords
encoder
clustering
deep learning
input
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910134723.3A
Other languages
English (en)
Other versions
CN109919204A (zh
Inventor
张凯文
韦佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910134723.3A priority Critical patent/CN109919204B/zh
Publication of CN109919204A publication Critical patent/CN109919204A/zh
Application granted granted Critical
Publication of CN109919204B publication Critical patent/CN109919204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种面向噪声图像的深度学习聚类方法,包括以下步骤:S1、构建深度学习聚类模型;S2、采用AMsoftmax层作为聚类器,根据S1编码器输出的特征向量产生聚类结果;S3、采用L2范数衡量编码器的输出与孪生网络的输出的相似度;S4、采用KL散度衡量聚类结果与辅助目标分布间的分布差异;S5、训练深度学习聚类模型;S6、通过AMsoftmax层得到该数据的聚类结果。所述方法可以对含有噪声的图像数据进行无监督聚类,解决了大多数图像聚类算法没有对噪声数据进行建模的问题以及现有深度聚类算法对非线性特征较强的图像的聚类效果较差的问题。

Description

一种面向噪声图像的深度学习聚类方法
技术领域
本发明属于机器学习领域的聚类方法,适用于对无监督信息的噪声图像数据进行聚类处理,涉及一种面向噪声图像的深度学习聚类方法。
背景技术
近年来,深度学习在有监督学习任务领域取得了巨大的成功,随之而来的,便是越来越多的研究人员探究深度学习在无监督学习领域和半监督学习领域的应用,特别是在数据降维和深度聚类这两个方向。目前深度学习聚类算法主要分为两种,一种是先用深度学习去学习数据的低维表示,然后通过传统的聚类算法进行聚类;另一种是用深度学习将特征学习跟聚类过程同时进行。深度学习进行降维的常见手段就是将传统的降维算法的思想应用到深度学习领域中,从而构造出新的算法,比如,栈式自编码(Stacked Autoencoder)、深度典型相关分析(deep Canonical Correlation Analysis)、稀疏自编码和深度嵌入聚类(Deep Embedding Clustering),这三种算法分别是从PCA(principal ComponentAnalysis,主成分分析)、CCA(Canonical Correlation Analysis,典型相关分析)、稀疏编码和t-SNE算法(t-distributed stochastic neighbor embedding,t分布随机近邻嵌入)中改进过来的。这些方法主要是通过神经网络去学习一种从高维数据变换到低维数据的非线性映射,从而能够发现高维数据在低维潜在空间的表示形式,方便后续使用传统聚类方法聚类。用深度学习将特征学习跟聚类过程同时进行的方法一般是使用自编码网络来进行降维操作,在保证重构误差的同时,也令聚类误差最小化,如深度聚类网络(DeepClustering Network)、深度卷积嵌入聚类(Deep Convolutional EmbeddingClustering)。而这些深度学习聚类算法的聚类效果,基本都超越了传统的聚类算法,甚至不少的深度学习聚类算法在MNIST数据集的聚类ACC指标(Accuracy,准确率)达到了96%以上的准确率,这是传统聚类算法所难以做到的。但是目前深度学习聚类算法大多都只是在较为简单的数据集上面达到了逼近监督学习算法的准确率,而在人脸数据集等非线性特征较强的数据集上的效果则还有较大的提升空间。
真实世界中的数据往往包含各种各样的噪声和异常,比如人脸图像中的模糊、光照、姿态、遮挡等问题,如果不对这些问题加以考虑,很难保证所提出的方法在实际应用中也能够有很好的表现。因此,需要在做数据聚类的同时把噪声和异常的影响考虑进去,这里需要研究不同噪声或异常的建模问题,通过学习的方式从受污染的数据中学到真实数据的潜在表示。处理噪声数据是信号重构中较为基础的一块,即从被污染的数据中重构出干净的数据。在近年来较火的深度学习领域中,人们常见的做法是构造一个神经网络,学习从被污染数据到干净数据的一种映射,从而实现对被污染数据的重构。常见的神经网络结构是卷积自编码器,但是卷积自编码器学习信号重构需要同时获得被污染数据和干净数据才能进行学习。然而现实世界中我们常常遇到无法获得干净数据的情况,比如昏暗光照下的照片、核磁共振图片等。这个时候我们就无法使用常规的去噪自编码器去处理噪声数据了。
发明内容
本发明的目的在于克服上述已有技术的不足之处,从深度学习和半监督模型着手,提出了一种面向噪声数据的深度学习方法,所述方法可以对含有噪声的图像数据进行无监督聚类,解决了大多数图像聚类算法没有对噪声数据进行建模的问题以及现有深度聚类算法对人脸等非线性特征较强的图像的聚类效果较差的问题。
本发明提出的一种面向噪声图像的深度学习聚类方法,包括以下步骤:
步骤S1:构建深度学习聚类模型,所述深度学习聚类模型包括卷积自编码网络和第二编码器,所述卷积自编码网络中包含第一编码器和解码器;使用含有噪声的图像数据作为卷积自编码网络的输入;
步骤S2:采用一个AMsoftmax层(Additive Margin Softmax,增大边界的归一化指数函数)作为深度学习聚类模型的聚类器,根据步骤S1中第一编码器中间编码层产生的特征向量来产生聚类结果。其聚类结果是一种概率形式,即每个样本属于每个类别的概率分别是多少;
步骤S3:采用L2范数作为损失函数,衡量步骤S1中第一编码器中间编码层的特征向量与步骤S2中第二编码器中间编码层输出的特征向量间的距离,从而最小化两个特征向量之间的距离;
步骤S4:采用KL散度(Kullback-Leibler散度,也叫作相对熵)作为损失函数,衡量步骤S3中的聚类结果的分布与辅助目标分布间的分布差异,从而最小化聚类结果的分布与辅助目标分布间的差异;
步骤S5:使用后向传播算法和ADAM(adaptive moment estimation,自适应矩估计)优化算法训练本深度学习聚类模型。
步骤S6:将需要聚类的数据输入到第一编码器中,通过AMsoftmax层得到该数据的聚类结果。
进一步地,所述卷积自编码网络采用L2范数作为损失函数,衡量输入图像与重构图像之间的重构误差,卷积自编码网络的损失函数如下所示:
Figure BDA0001976651370000031
其中xi为第一编码器输入的第i个样本,
Figure BDA0001976651370000032
为解码器输出的第i个重构图像,N表示输入的样本数量,/>
Figure BDA0001976651370000033
表示L2范数的平方。
进一步地,第二编码器的构建过程是在步骤S1的卷积自编码网络的基础上,构建孪生网络即第二编码器,第二编码器与第一编码器结构一致,并且两个编码器参数共享。
进一步地,卷积自编码网络的输入端和第二编码器的输入端在同一时间分别接收两张噪声图片作为输入,第二编码器的输入图像与步骤S1中输入的原始图像相同但含有不同的噪声。
进一步地,步骤S3中采用的损失函数如下所示:
Figure BDA0001976651370000034
其中zi为第i个样本进入第一编码器之后得到的特征向量,
Figure BDA0001976651370000035
为第i个样本进入第二编码器之后得到的特征向量,N表示输入的样本数量,/>
Figure BDA0001976651370000036
表示L2范数的平方。
进一步地,步骤S4中采用的损失函数如下所示:
Figure BDA0001976651370000037
所述辅助目标分布的定义如下:
Figure BDA0001976651370000038
其中N表示输入的样本数量,C表示聚类的类别数量,qik表示第i个样本属于第k类的辅助目标概率,pik表示第i个样本预测为第k类的概率,pi′k表示第i′个样本预测为第k类的概率,pik′表示第i个样本预测为第k′类的概率,pi′k′为第i′个样本预测为第k′类的概率,以上四个预测概率均为步骤S2中得到的聚类结果。
进一步地,将步骤S1、步骤S3和步骤S4中的损失函数相加得到整体损失函数,并使用后向传播算法和ADAM优化算法去最小化整体损失函数从而训练本深度学习聚类模型。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明针对目前聚类模型并未对噪声进行建模的问题,通过结合卷积自编码网络和孪生网络,构建了一种面向噪声图像的深度学习聚类模型,该模型无需获取干净数据即可对数据进行聚类,并提高了对含有噪声的图像数据的聚类效果。
2、本发明针对类间区分不明显的问题,采用了AMsoftmax作为聚类器,加大了训练样本间的类间距,从而提高了深度学习聚类模型识别的准确率以及保证了对未接触过的数据有足够的鲁棒性。
附图说明
图1为本实例采用的面向噪声图像的深度学习聚类方法的网络结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种面向噪声图像的深度学习聚类方法,所述方法包括以下步骤:
步骤S1:构建深度学习聚类模型,所述深度学习聚类模型包括卷积自编码网络和第二编码器,所述卷积自编码网络中包含第一编码器和解码器;使用含有噪声的图像数据作为卷积自编码网络的输入;
步骤S2:采用一个AMsoftmax层(Additive Margin Softmax,增大边界的归一化指数函数)作为深度学习聚类模型的聚类器,根据步骤S1中第一编码器中间编码层产生的特征向量来产生聚类结果。其聚类结果是一种概率形式,即每个样本属于每个类别的概率分别是多少;
步骤S3:采用L2范数作为损失函数,衡量步骤S1中第一编码器中间编码层的特征向量与步骤S2中第二编码器中间编码层输出的特征向量间的距离;
步骤S4:采用KL散度(Kullback-Leibler散度,相对熵)作为损失函数,衡量步骤S3中聚类结果的分布与辅助目标分布间的分布差异;
步骤S5:使用后向传播算法和ADAM(adaptive moment estimation,自适应矩估计)优化算法训练深度学习聚类模型。
步骤S6:将需要聚类的数据输入到第一编码器中,通过AMsoftmax层得到该数据的聚类结果。
步骤S1中,具体地,如图1所示,第一编码器与解码器共同组成了卷积自编码器即卷积自编码网络。其中第一编码器由三层下采样层组成,解码器由三层上采样层组成,具体结构参数见表格1。图1中的H和W分别表示输入的图片尺寸,虚线的方框、箭头、圆柱共同表示了卷积的过程,其中箭头方向代表卷积的方向,图中的L2代表的是用L2范数作为损失函数,KL代表的是用KL散度作为损失函数。
表格1编码器与解码器的结构参数
Figure BDA0001976651370000051
Figure BDA0001976651370000061
将含有噪声的图像数据作为第一编码器的输入,并将解码器的输出与第一编码器的输入利用卷积自编码网络的损失函数做L2重构误差,卷积自编码网络的损失函数如下所示:
Figure BDA0001976651370000062
其中xi为第一编码器输入的第i个样本,
Figure BDA0001976651370000063
为解码器输出的第i个重构图像,N表示输入的样本数量,/>
Figure BDA0001976651370000064
表示L2范数的平方。
步骤S2中,具体地,搭建第二编码器,其结构与第一编码器相同且参数共享。并使用与步骤S1中输入的原始图像相同但含有不同噪声的图像作为第二编码器的输入。
步骤S4中,具体地,采用L2范数作为损失函数,衡量第一编码器中中间编码层输出的特征向量与第二编码器输出的特征向量间的距离,该损失函数如下所示:
Figure BDA0001976651370000065
其中zi为第i个样本进入第一编码器之后得到的特征向量,
Figure BDA0001976651370000066
为第i个样本进入第二编码器之后得到的特征向量,N表示输入的样本数量,/>
Figure BDA0001976651370000067
表示L2范数的平方。
步骤S5中,具体地,辅助目标分布的定义如下:
Figure BDA0001976651370000068
其中N表示输入的样本数量,C表示聚类的类别数量,pik表示第i个样本预测为第k类的概率,qik表示第i个样本属于第k类的辅助目标概率,pi′k表示第i′个样本预测为第k类的概率,pik′表示第i个样本预测为第k′类的概率,pi′k′为第i′个样本预测为第k′类的概率。
获得辅助目标分布以后,采用KL散度作为损失函数,衡量预测结果P与辅助目标分布Q之间的分布差异。损失函数如下所示:
Figure BDA0001976651370000071
最后将步骤S1、步骤S3和步骤S4中的损失函数的结果相加作为深度学习聚类模型的整体损失函数,并使用后向传播算法和ADAM优化算法去最小化整体损失函数从而训练本深度学习聚类模型,训练后得到的模型即为最终应用于生产环境的模型。在使用训练好的模型时,只需将需要聚类的数据输入到第一编码器中,即可通过AMsoftmax层得到该数据的聚类结果。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明专利构思加以等同替换或改变,都属于本发明的保护范围。

Claims (3)

1.一种面向噪声图像的深度学习聚类方法,其特征在于,所述方法包括以下步骤:
步骤S1:构建深度学习聚类模型,所述深度学习聚类模型包括卷积自编码网络和第二编码器,所述卷积自编码网络中包含第一编码器和解码器;使用含有噪声的图像数据作为卷积自编码网络的输入;
步骤S2:采用一个AMsoftmax层作为深度学习聚类模型的聚类器,根据步骤S1中第一编码器中间编码层产生的特征向量来产生聚类结果;卷积自编码网络的损失函数如下所示:
Figure QLYQS_1
其中i为第一编码器输入的第i个样本,
Figure QLYQS_2
为解码器输出的第i个重构图像,N表示输入的样本数量,/>
Figure QLYQS_3
表示L2范数的平方;
步骤S3:采用L2范数作为损失函数,衡量步骤S1中第一编码器中间编码层的特征向量与步骤S2中第二编码器中间编码层输出的特征向量间的距离;第二编码器的构建过程是在步骤S1的卷积自编码网络的基础上,构建孪生网络即第二编码器,第二编码器与第一编码器结构一致,并且两个编码器参数共享;
步骤S3中采用的损失函数如下所示:
Figure QLYQS_4
其中zi为第i个样本进入第一编码器之后得到的特征向量,
Figure QLYQS_5
为第i个样本进入第二编码器之后得到的特征向量,N表示输入的样本数量,/>
Figure QLYQS_6
表示L2范数的平方;
步骤S4:采用KL散度作为损失函数,衡量步骤S3中聚类结果的分布与辅助目标分布间的分布差异;步骤S4中采用的损失函数如下所示:
Figure QLYQS_7
所述辅助目标分布的定义如下:
Figure QLYQS_8
其中N表示输入的样本数量,C表示聚类的类别数量,pik表示第i个样本预测为第k类的概率,qik表示第i个样本属于第k类的辅助目标概率,pi′k表示第i′个样本预测为第k类的概率,pik′表示第i个样本预测为第k′类的概率,pi′k′为第i′个样本预测为第k′类的概率;
步骤S5:使用后向传播算法和自适应矩估计优化算法训练深度学习聚类模型;
步骤S6:将需要聚类的数据输入到第一编码器中,通过AMsoftmax层得到该数据的聚类结果。
2.根据权利要求1所述的一种面向噪声图像的深度学习聚类方法,其特征在于:卷积自编码网络的输入端和第二编码器的输入端在同一时间分别接收两张噪声图片作为输入,第二编码器的输入图像与步骤S1中输入的原始图像相同但含有不同的噪声。
3.根据权利要求1所述的一种面向噪声图像的深度学习聚类方法,其特征在于:将步骤S1、步骤S3和步骤S4中的损失函数相加得到整体损失函数,并使用后向传播算法和ADAM优化算法去最小化整体损失函数从而训练本深度学习聚类模型。
CN201910134723.3A 2019-02-23 2019-02-23 一种面向噪声图像的深度学习聚类方法 Active CN109919204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910134723.3A CN109919204B (zh) 2019-02-23 2019-02-23 一种面向噪声图像的深度学习聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910134723.3A CN109919204B (zh) 2019-02-23 2019-02-23 一种面向噪声图像的深度学习聚类方法

Publications (2)

Publication Number Publication Date
CN109919204A CN109919204A (zh) 2019-06-21
CN109919204B true CN109919204B (zh) 2023-06-23

Family

ID=66962078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910134723.3A Active CN109919204B (zh) 2019-02-23 2019-02-23 一种面向噪声图像的深度学习聚类方法

Country Status (1)

Country Link
CN (1) CN109919204B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598711B (zh) * 2019-08-31 2022-12-16 华南理工大学 一种结合分类任务的目标分割方法
CN110543911B (zh) * 2019-08-31 2022-12-16 华南理工大学 一种结合分类任务的弱监督目标分割方法
CN110705516B (zh) * 2019-10-18 2022-10-25 大连海事大学 一种基于协同网络结构的鞋底花纹图像聚类方法
CN111126563B (zh) * 2019-11-25 2023-09-29 中国科学院计算技术研究所 基于孪生网络的时空数据的目标识别方法及系统
CN111598830A (zh) * 2020-02-18 2020-08-28 天津大学 一种基于无监督学习的皮肤癌疾病检测方法
CN112348068B (zh) * 2020-10-28 2024-07-02 东南大学 一种基于降噪编码器和注意力机制的时序数据聚类方法
CN112465067B (zh) * 2020-12-15 2022-07-15 上海交通大学 基于图卷积自编码器的冷冻电镜单颗粒图像聚类实现方法
CN112507937B (zh) * 2020-12-17 2023-02-10 华南理工大学 融合多源数据的卫星影像无监督分类方法和装置
CN113269282A (zh) * 2021-07-21 2021-08-17 领伟创新智能系统(浙江)有限公司 一种基于自动编码器的无监督图像分类方法
CN113723456B (zh) * 2021-07-28 2023-10-17 南京邮电大学 一种基于无监督机器学习的天文图像自动化分类方法及系统
CN113988203A (zh) * 2021-11-01 2022-01-28 之江实验室 一种基于深度学习的轨迹序列聚类方法
CN114566052B (zh) * 2022-04-27 2022-08-12 华南理工大学 一种基于车流方向判别高速公路车流监控设备转动的方法
CN114818839B (zh) * 2022-07-01 2022-09-16 之江实验室 一种基于深度学习的光纤传感水声信号识别方法及装置
CN116342915B (zh) * 2023-05-30 2024-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种深度图像聚类方法、系统及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810086B1 (en) * 2001-06-05 2004-10-26 At&T Corp. System and method of filtering noise
US10127659B2 (en) * 2016-11-23 2018-11-13 General Electric Company Deep learning medical systems and methods for image acquisition
CN107590778A (zh) * 2017-07-31 2018-01-16 南京理工大学 一种基于无损约束降噪的自编码方法
CN108875818B (zh) * 2018-06-06 2020-08-18 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN108898180B (zh) * 2018-06-28 2020-09-01 中国人民解放军国防科技大学 一种面向单颗粒冷冻电镜图像的深度聚类方法
CN109165743A (zh) * 2018-07-17 2019-01-08 东南大学 一种基于深度压缩自编码器的半监督网络表示学习算法

Also Published As

Publication number Publication date
CN109919204A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109919204B (zh) 一种面向噪声图像的深度学习聚类方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN114445420B (zh) 编解码结构结合注意力机制的图像分割模型及其训练方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN112365551A (zh) 一种图像质量处理系统、方法、设备和介质
CN117196963A (zh) 一种基于降噪自编码器的点云去噪方法
DE102022131824A1 (de) Visuelle Spracherkennung für Digitalvideos unter Einsatz generativ-adversativen Lernens
Zhang et al. Occlusion-robust face recognition using iterative stacked denoising autoencoder
CN117765258A (zh) 基于密度自适应和注意力机制的大规模点云语义分割方法
CN117475228A (zh) 一种基于双域特征学习的三维点云分类和分割方法
WO2024081778A1 (en) A generalist framework for panoptic segmentation of images and videos
CN115861384B (zh) 基于生成对抗和注意力机制的光流估计方法及系统
CN117095168A (zh) 一种基于改进SwinTransformer的遥感图像分割方法及系统
CN114882288B (zh) 基于分层图增强堆叠自编码器的多视图图像分类方法
CN117115180A (zh) 基于域自适应的半监督医学图像分割方法
CN114004295B (zh) 一种基于对抗增强的小样本图像数据拓展方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法
CN115374854A (zh) 多模态情感识别方法、装置及计算机可读存储介质
CN111797732B (zh) 一种对采样不敏感的视频动作识别对抗攻击方法
CN115170682A (zh) 一种处理点云数据的方法和目标处理点云数据模型
CN114169433A (zh) 一种基于联邦学习+图学习+cnn的工业故障预测方法
Lu et al. Cdvae: Co-embedding deep variational auto encoder for conditional variational generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant