CN103530689B - 一种基于深度学习的聚类方法 - Google Patents

一种基于深度学习的聚类方法 Download PDF

Info

Publication number
CN103530689B
CN103530689B CN201310530626.9A CN201310530626A CN103530689B CN 103530689 B CN103530689 B CN 103530689B CN 201310530626 A CN201310530626 A CN 201310530626A CN 103530689 B CN103530689 B CN 103530689B
Authority
CN
China
Prior art keywords
neural network
clustering
sample
deep neural
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310530626.9A
Other languages
English (en)
Other versions
CN103530689A (zh
Inventor
谭铁牛
王亮
黄永祯
宋纯锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310530626.9A priority Critical patent/CN103530689B/zh
Publication of CN103530689A publication Critical patent/CN103530689A/zh
Application granted granted Critical
Publication of CN103530689B publication Critical patent/CN103530689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于深度学习的聚类方法,该方法包括以下步骤:得到深度神经网络的初始网络权重;对样本进行随机分组并映射到特征空间;将原始深度神经网络的目标函数加入特征层的类内约束函数;更新深度神经网络的网络权重,计算得到新的特征层;将每个样本分配至最近聚类中心所在的类组,计算新的聚类中心;以新的聚类中心代替类内约束函数的聚类中心,返回网络权重更新步骤进行迭代,得到并输出最终聚类分组结果。本发明将样本从不易聚类的原始数据空间,通过深度神经网络的非线性映射,得到高度可分的特征用于聚类,并且可以不断优化网络结构得到更好的聚类效果,本发明以较小的内存消耗以及较高的聚类精度优于常规聚类算法。

Description

一种基于深度学习的聚类方法
技术领域
本发明涉及模式识别、机器学习技术领域,特别涉及一种基于深度学习的聚类方法。
背景技术
目前,传统聚类算法只是适用于在数据空间线性可分的情形,比如K均值算法。但是,随着数据量的增加以及数据复杂度的增大,传统的聚类算法已经无法胜任复杂大规模数据背景下的聚类任务。虽然最近有一些聚类算法被提出用于解决这种问题,如谱聚类等算法,但是由于此类算法需要极大的内存消耗,以至于无法胜任大数据的背景环境。
因此,鉴于以往的方法很难满足目前对于大规模复杂数据聚类的需要,本发明提出一种基于深度学习的聚类方法来实现对于大规模复杂数据的聚类,该方法可以将在原始数据空间相互交叠的数据通过非线性映射得到高度可分的特征空间,并可以利用类内约束通过迭代更新非线性映射网络以得到最佳聚类效果。本发明方法既解决了传统聚类方法无法解决的原始数据空间交叠状况下的聚类问题,也解决了最近提出的其他聚类方法大量消耗内存的问题,使得当前复杂的大数据背景下的聚类问题得到很好的解决。
发明内容
为了解决现有技术存在的问题,本发明的目的在于提供一种基于深度学习的聚类方法,本发明将样本从不易聚类的原始数据空间,通过深度神经网络的非线性映射,得到高度可分的特征用于聚类,并且可以不断优化网络结构得到更好的聚类效果,本发明以较小的内存消耗以及较高的聚类精度优于常规聚类算法。
本发明提出的一种基于深度学习的大规模聚类方法包括以下步骤:
步骤S1,对于一样本集合,得到深度神经网络的初始网络权重;
步骤S2,对所述样本集合中所有的样本进行随机分组,得到所述样本集合的初始聚类分组,并为每个样本分配初始聚类标签;
步骤S3,将所述样本集合中所有的样本通过所述深度神经网络映射到特征空间,并计算所有初始聚类分组的平均值,作为相应聚类分组的新的聚类中心;
步骤S4,将原始深度神经网络的目标函数加入特征层的类内约束函数,得到新的深度神经网络,使得每个聚类分组中的所有样本在特征层与所述新的聚类中心的距离最小;
步骤S5,利用所述步骤S4得到的新的深度神经网络更新其网络权重;
步骤S6,利用所述步骤S5得到的更新网络权重后的深度神经网络,计算得到新的特征层,并基于此与之前的所有聚类中心进行比较,将每个样本分配至与其距离最近的聚类中心所在的类组,并为每个样本分配新的聚类标签;
步骤S7,对于所述步骤S6中得到的新的聚类分组计算每个分组的均值作为新的聚类中心;
步骤S8,以所述步骤S7中得到的新的聚类中心代替所述步骤S4中类内约束函数的聚类中心;
步骤S9,返回所述步骤S5进行迭代,直到聚类效果达到最优或者满足迭代次数要求,得到并输出最终聚类分组结果。
根据本发明的方法,可以将样本从不易分类的原始数据空间通过深度神经网络的非线性映射将其投影至高度可分的特征空间,并通过在特征空间加入类内约束,使得特征空间的样本类内分布更加紧致,非常适合聚类。本发明既解决了传统聚类方法(如K均值)无法解决的非线性分布的数据聚类问题,也解决了谱聚类等方法的大内存消耗问题。
附图说明
图1是本发明基于深度学习的聚类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明采用深度神经网络的非线性映射的方法进行聚类。传统的聚类主要包括空间映射,选取聚类中心并分组,更新聚类中心等三部分。在此基础上,本发明首先采用深度神经网络的非线性映射将原始数据映射至特征空间,然后在特征空间分组并计算每组均值作为聚类中心,在此基础上对深度神经网络的目标函数加入类内约束继续训练网络,最后利用训练好的网络将数据映射至特征空间并再次聚类,直到聚类效果达到最优。
图1是本发明基于深度学习的聚类方法的流程图,如图1所示,所述方法包括以下步骤:
步骤S1,对于一样本集合,利用深度神经网络进行训练得到所述深度神经网络的初始网络权重;
在本发明一实施例中,利用由四层约束玻兹曼机(RBM,RestrictedBoltzmannMachine)组成的深度神经网络进行训练得到初始网络权重,所述四层深度神经网络的网络结构可表示为N-1000-500-250-10,其中N表示样本维数,其实,所述深度神经网络的初始网络权重也可以随机给定。
其中,对于神经网络进行训练得到初始网络权重属于本领域的现有技术,在此不作赘述。
步骤S2,对所述样本集合中所有的样本进行随机分组,得到所述样本集合的初始聚类分组,并为每个样本分配初始聚类标签;
在本发明一实施例中,将所有的样本随机分为k组,得到每个样本的初始聚类标签L=[l1,l2,…,lN],其中N表示样本的数量,l表示样本的聚类标签,即所属的类组,计算每类样本的均值,并通过所述初始网络权重得到对应的特征层表达作为初始的聚类中心C;
步骤S3,将所述样本集合中所有的样本通过所述深度神经网络映射到特征空间,并计算所有初始聚类分组的平均值,作为相应聚类分组的新的聚类中心;
该步骤意为对样本进行非线性映射,得到特征空间,形成适合聚类的分布。在本发明一实施例中,所述四层深度神经网络为自编码auto-encoder网络,所述自编码网络分为编码(encode)和解码(decode)两部分,其中编码部分的映射函数为f(x),解码部分的映射函数为g(x),其都是由高度非线性sigmoid函数组成的。
步骤S4,将原始深度神经网络的目标函数加入特征层的类内约束函数,得到新的深度神经网络,使得每个聚类分组中的所有样本在特征层与所述新的聚类中心的距离最小;
其中,加入特征层的类内约束函数的新的深度神经网络目标函数表示为:
min | | X - X ′ | | 2 - λ · Σ i = 1 N ( f t ( x i ) - c * ) ,
其中,c*是对应样本xi的在特征空间的聚类中心,X是输入样本的集合,X′=g(f(x)),是输出样本的集合,λ为权重系数,ft(xi)为第t次迭代时第i个样本xi在特征层的表达式,表示类内约束函数。
步骤S5,利用所述步骤S4得到的新的深度神经网络更新其网络权重,使得每个聚类分组内的样本分布更加紧致;
步骤S6,利用所述步骤S5得到的更新网络权重后的深度神经网络,计算得到新的特征层,并基于此与之前的所有聚类中心进行比较,将每个样本分配至与其距离最近的聚类中心所在的类组,并为每个样本分配新的聚类标签;
该步骤中,利用所述更新网络权重后的深度神经网络编码部分的映射函数f(x)来计算得到新的特征层。
步骤S7,对于所述步骤S6中得到的新的聚类分组计算每个分组的均值作为新的聚类中心;
步骤S8,以所述步骤S7中得到的新的聚类中心代替所述步骤S4中类内约束函数的聚类中心;
步骤S9,返回所述步骤S5进行迭代,直到聚类效果达到最优或者满足迭代次数要求,得到并输出最终聚类分组结果。
在本发明一实施例中,使用聚类的纯度(purity)和标准互信熵(NMI)
作为聚类分组的评价指标。
在应用本发明时,对于大型数据库,需要把所有的样本分为多个包(batch)分别按照上述方法进行聚类操作。
为了详细说明本发明的具体实施方式,接下来以某手写数字数据集为例进行说明。该数据集包含60000余张图像,分别包括0-9共10类不同的数字图像,每张图像大小为28*28。本发明能够对该数据库进行聚类,在无监督的情况下,可将样本准确地分为10类。具体步骤如下:
步骤S0,将数据集中的样本分为多个包batch,每个batch包含1000个样本;
步骤S1,将所述步骤S0中的每个batch输入到四层深度神经网络(由四层RBM组成,网络结构为28*28-1000-500-250-10)进行训练得到一网络结构,并利用此网络结构作为初始权重;
步骤S2,对所有的样本进行随机分组,得到初始的聚类分组,并为每个样本分配聚类标签;
步骤S3,将所有样本通过所述深度神经网络的编码部分(f(x))映射到特征空间,并计算每一聚类分组的平均值,作为相应聚类分组的新的聚类中心;
步骤S4,在原始深度神经网络的目标函数中加入特征层的类内约束函数。
步骤S5,利用目标函数加入类内约束的深度神经网络更新所述网络结构,使得每个聚类分组内的样本分布更加紧致。
步骤S6,利用所述步骤S5得到的更新后的网络结构,利用编码部分的映射函数f(x)计算得到新的特征层,并依此与之前的10个聚类中心进行比较,将样本分配至距离最近的聚类中心所在的类组,并为每个样本分配新的聚类标签。
步骤S7,对所述步骤S6中得到的样本按新的聚类分组计算每个类组的均值作为新的聚类中心。
步骤S8,以所述步骤S7中得到的新的聚类中心代替所述步骤S4中类内约束函数的聚类中心。
步骤S9,返回所述步骤S5,直到网络结构和聚类效果达到最优(或者迭代次数epoch>50)。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的大规模聚类方法,其特征在于,该方法包括以下步骤:
步骤S1,对于一图像样本集合,得到深度神经网络的初始网络权重;
步骤S2,对所述图像样本集合中所有的样本进行随机分组,得到所述图像样本集合的初始聚类分组,并为每个样本分配初始聚类标签;
步骤S3,将所述图像样本集合中所有的样本通过所述深度神经网络映射到特征空间,并计算所有初始聚类分组的平均值,作为相应聚类分组的新的聚类中心;
步骤S4,将特征层的类内约束函数加入到原始深度神经网络的目标函数,得到新的深度神经网络,使得每个聚类分组中的所有样本在特征层与所述新的聚类中心的距离最小;
步骤S5,利用所述步骤S4得到的新的深度神经网络更新其网络权重;
步骤S6,利用所述步骤S5得到的更新网络权重后的深度神经网络,计算得到新的特征层,并基于此与之前的所有聚类中心进行比较,将每个样本分配至与其距离最近的聚类中心所在的类组,并为每个样本分配新的聚类标签;
步骤S7,对于所述步骤S6中得到的新的聚类分组计算每个分组的均值作为新的聚类中心;
步骤S8,以所述步骤S7中得到的新的聚类中心代替所述步骤S4中类内约束函数的聚类中心;
步骤S9,返回所述步骤S5进行迭代,直到聚类效果达到最优或者满足迭代次数要求,得到并输出最终聚类分组结果。
2.根据权利要求1所述的方法,其特征在于,所述深度神经网络为由四层约束玻兹曼机(RBM)组成的深度神经网络。
3.根据权利要求2所述的方法,其特征在于,所述深度神经网络的网络结构表示为N-1000-500-250-10,其中,N表示样本维数。
4.根据权利要求1所述的方法,其特征在于,所述步骤S1中,利用深度神经网络进行训练得到所述深度神经网络的初始网络权重,或者随机给定所述深度神经网络的初始网络权重。
5.根据权利要求1所述的方法,其特征在于,所述深度神经网络为自编码网络。
6.根据权利要求5所述的方法,其特征在于,所述自编码网络分为编码和解码两部分,其中编码部分的映射函数为f(x),解码部分的映射函数为g(x),其都是由高度非线性sigmoid函数组成的。
7.根据权利要求1所述的方法,其特征在于,所述步骤S2中,将所有的样本随机分为k组,得到每个样本的初始聚类标签L=[l1,l2,…,N],其中N表示样本的数量,l表示样本的聚类标签。
8.根据权利要求1所述的方法,其特征在于,所述步骤S2中得到所述图像样本集合的初始聚类分组时,计算每类样本的均值,并通过所述初始网络权重得到对应的特征层表达作为初始的聚类中心C。
9.根据权利要求1所述的方法,其特征在于,加入特征层的类内约束函数的新的深度神经网络目标函数表示为:
m i n | | X - X ′ | | 2 - λ · Σ i = 1 N ( f t ( x i ) - c * ) ,
其中,c*是对应样本xi的在特征空间的聚类中心,X是输入样本的集合,X′=g(f(x)),是输出样本的集合,为权重系数,ft(xi)为第t次迭代时第i个样本xi在特征层的表达式,表示类内约束函数。
10.根据权利要求1所述的方法,其特征在于,所述步骤S9中,使用聚类的纯度和标准互信熵作为聚类分组的评价指标。
CN201310530626.9A 2013-10-31 2013-10-31 一种基于深度学习的聚类方法 Active CN103530689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310530626.9A CN103530689B (zh) 2013-10-31 2013-10-31 一种基于深度学习的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310530626.9A CN103530689B (zh) 2013-10-31 2013-10-31 一种基于深度学习的聚类方法

Publications (2)

Publication Number Publication Date
CN103530689A CN103530689A (zh) 2014-01-22
CN103530689B true CN103530689B (zh) 2016-01-20

Family

ID=49932682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310530626.9A Active CN103530689B (zh) 2013-10-31 2013-10-31 一种基于深度学习的聚类方法

Country Status (1)

Country Link
CN (1) CN103530689B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10043112B2 (en) * 2014-03-07 2018-08-07 Qualcomm Incorporated Photo management
CN104197897B (zh) * 2014-04-25 2017-01-04 厦门大学 一种基于车载激光扫描点云的城区道路标线自动分类方法
CN104392456B (zh) * 2014-12-09 2017-05-17 西安电子科技大学 基于深度自编码器和区域图的sar图像分割方法
CN106033555A (zh) 2015-03-13 2016-10-19 中国科学院声学研究所 基于满足k度稀疏约束的深度学习模型的大数据处理方法
CN104933438A (zh) * 2015-06-01 2015-09-23 武艳娇 一种基于自编码神经网络的图像聚类方法
CN104850864A (zh) * 2015-06-01 2015-08-19 深圳英智源智能系统有限公司 一种基于卷积神经网络的非监督图像识别方法
CN104881689B (zh) * 2015-06-17 2018-06-19 苏州大学张家港工业技术研究院 一种多标签主动学习分类方法及系统
CN104899605A (zh) * 2015-06-17 2015-09-09 大连理工大学 一种基于自动编码机实现数据增量聚类的方法
US9594984B2 (en) * 2015-08-07 2017-03-14 Google Inc. Business discovery from imagery
US11106973B2 (en) * 2016-03-16 2021-08-31 Hong Kong Applied Science and Technology Research Institute Company Limited Method and system for bit-depth reduction in artificial neural networks
CN106796668B (zh) * 2016-03-16 2019-06-14 香港应用科技研究院有限公司 用于人工神经网络中比特深度减少的方法和系统
US11854694B2 (en) * 2016-03-16 2023-12-26 Koninklijke Philips N.V. Relevance feedback to improve the performance of clustering model that clusters patients with similar profiles together
CN105844334B (zh) * 2016-03-22 2018-03-27 南京信息工程大学 一种基于径向基神经网络的温度插值方法
EP3542319B1 (en) * 2016-11-15 2023-07-26 Google LLC Training neural networks using a clustering loss
CN106650826A (zh) * 2016-12-31 2017-05-10 中国科学技术大学 一种多车道水平式尾气遥测设备数据处理方法
CN108520202B (zh) * 2018-03-15 2020-06-19 华南理工大学 基于变分球面投影的对抗鲁棒性图像特征提取方法
CN109086805B (zh) * 2018-07-12 2020-07-28 华南理工大学 一种基于深度神经网络和成对约束的聚类方法
CN109859771B (zh) * 2019-01-15 2021-03-30 华南理工大学 一种联合优化深层变换特征与聚类过程的声场景聚类方法
CN112465020B (zh) * 2020-11-25 2023-04-07 创新奇智(合肥)科技有限公司 训练数据集的生成方法及装置、电子设备、存储介质
CN113240024A (zh) * 2021-05-20 2021-08-10 贾晓丰 一种基于深度学习聚类算法的数据分级分类方法及装置
CN113985733B (zh) * 2021-10-26 2023-11-17 云南电网有限责任公司电力科学研究院 一种基于自适应概率学习的配电网故障辨识方法
CN116522143B (zh) * 2023-05-08 2024-04-05 深圳市大数据研究院 模型训练方法、聚类方法、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04364565A (ja) * 1991-06-12 1992-12-16 Matsushita Graphic Commun Syst Inc ニューラルネットワーク装置
CN102523202B (zh) * 2011-12-01 2014-10-08 华北电力大学 钓鱼网页的深度学习智能检测方法
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN103345656B (zh) * 2013-07-17 2016-01-20 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置

Also Published As

Publication number Publication date
CN103530689A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
CN103530689B (zh) 一种基于深度学习的聚类方法
CN111159426B (zh) 一种基于图卷积神经网络的产业图谱融合方法
CN103345656B (zh) 一种基于多任务深度神经网络的数据识别方法及装置
CN109887282A (zh) 一种基于层级时序图卷积网络的路网交通流预测方法
CN105631479A (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
CN103473307B (zh) 跨媒体稀疏哈希索引方法
CN109308485A (zh) 一种基于字典域适应的迁移稀疏编码图像分类方法
CN103325061A (zh) 一种社区发现方法和系统
CN102622609B (zh) 一种基于支持向量机的三维模型自动分类方法
CN109711883A (zh) 基于U-Net网络的互联网广告点击率预估方法
CN113688253B (zh) 一种层次感知的时态知识图谱表示学习方法
CN104933438A (zh) 一种基于自编码神经网络的图像聚类方法
CN107885787A (zh) 基于谱嵌入的多视角特征融合的图像检索方法
CN105335800A (zh) 一种基于联合学习的电力用户用电量预测方法
CN109740039A (zh) 基于栈式自编码器的动态网络社团结构识别方法
CN104850864A (zh) 一种基于卷积神经网络的非监督图像识别方法
Liu et al. Illustration design model with clustering optimization genetic algorithm
CN106096615A (zh) 一种基于随机游走的图像显著区域提取方法
CN105447767A (zh) 一种基于联合矩阵分解模型的电力用户细分方法
CN110378356A (zh) 基于多目标拉格朗日正则的细粒度图像识别方法
CN116166975A (zh) 一种基于图神经网络的多图分级路网表征方法
CN105808715B (zh) 一种位置一张图的构建方法
CN104657743A (zh) 一种半监督的最小最大模块化模式分类方法
CN114372627A (zh) 基于混合深度学习框架的城市车辆旅行时间估计方法
CN103246793A (zh) 一种基于abaqsu分析结果绘制轮胎接地云图的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant