CN102855301A - 稀疏模糊c均值聚类方法 - Google Patents
稀疏模糊c均值聚类方法 Download PDFInfo
- Publication number
- CN102855301A CN102855301A CN2012102964360A CN201210296436A CN102855301A CN 102855301 A CN102855301 A CN 102855301A CN 2012102964360 A CN2012102964360 A CN 2012102964360A CN 201210296436 A CN201210296436 A CN 201210296436A CN 102855301 A CN102855301 A CN 102855301A
- Authority
- CN
- China
- Prior art keywords
- sigma
- weight
- class
- attribute
- fcm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 abstract description 27
- 238000007418 data mining Methods 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于Witten的稀疏聚类框架的稀疏模糊C聚类方法;将FCM目标函数改写成各个函数项的和的形式,每一函数项都只跟一个属性有关;再给每一个属性赋予一个权重,并进一步改写为加权的各项函数和形式;对权重进行L1和L2正则化约束,通过轮流固定权重和隶属度的迭代求解得到稀疏解。与传统的FCM算法相比,本发明提高了聚类能力,比FCM更适合高维数据的聚类,可方便应用于数据挖掘、机器学习、生物信息学等领域。
Description
技术领域
本发明涉及数据挖掘领域,特别涉及一种稀疏模糊C均值聚类方法。
背景技术
模糊C均值聚类算法(FCM)是一种重要的聚类算法。该方法在1973年由Dunn首先提出,并在1981年由Bezdek改进。此后,FCM在模式识别、机器学习、数据挖掘、生物信息学等领域得到了非常广泛的应用,成为一种经典的聚类算法。
然而,近十几年来,随着信息技术的发展,高维数据变得越来越普遍。高维数据因其固有的特点,如信息冗余、无用信息多等,使得很多传统的聚类方法(如K均值聚类、层次聚类、模糊C均值聚类等)在高维数据上的聚类效果较差,常常不能得到好的聚类结果。
图1展示了一个FCM不能得到较好的聚类结果的例子。在该例子中,数据是一个简单的二维数据。该数据只在x1方向上有区分能力,在x2方向上无区分能力。图1(a)是该数据的真实分类情况。图1(b)是FCM在该数据上的聚类结果。可以看到,FCM在这个数据集上聚类结果较差,因为x2方向上无用的信息干扰了真正起作用的x1方向上的信息。如果只将FCM作用于x1方向而忽略x2方向,FCM的聚类效果较好,如图1(c)所示。
从这个例子中可以看到,如果高维数据中有许多无用的信息(对聚簇没有区分能力的维度),那些无用的信息会干扰有用信息,从而使传统的FCM算法聚类效果变差。另外,高维数据属性很多,其中不乏无用信息或冗余信息,这些不利于聚类结果的解释。
发明内容
本发明的目的在于改进FCM在高维数据上的聚类能力,克服高维数据中无用信息对聚类信息的干扰,提出了一种稀疏模糊C均值聚类方法(SFCM),通过特征选择来更好地对高维数据进行聚类,提高了聚类结果的可解释性。
本发明的目的通过下述技术方案实现:稀疏模糊C均值聚类方法,包括以下步骤:
(1)、设{x1,x2,...,xn},xi∈Rp为n个待聚类的点,V={v1,v2,...,vK}为当前的K个类中心,U=(uik)为隶属度矩阵,uik表示xi属于第k类的隶属度;
(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一函数项只跟一个属性有关;
(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差;
(4)、给每一个属性赋予一个权重wj,p个权重值构成权重w;将步骤(3)中对应的函数项乘以该权重wj,最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以L1和L2范数约束,得到加权后的函数;
(5)通过轮流固定隶属度uik和权重wj的迭代求解步骤(4)加权后的目标函数,迭代终止时得到聚类结果和选择出的属性集。
优选地,步骤(2)所述若干函数项的和为:
di,k;j=(xij-vkj)2是第i个待聚类的点和第k个类中心在第j个特征上的平方差;
步骤(3)所述最大化类间方差为:
步骤(4)加权后的目标函数为:
p个属性的权重值构成权重w。
优选地,步骤(5)所述迭代求解的过程如下:
(51)、迭代直至收敛:
(511)、固定权重w,用FCM算法对下式求解隶属度矩阵U和类中心V:
(52)、输出隶属度矩阵U和类中心V,或将第i个待聚类的点xi指派到其隶属度最大的类。
本发明是在Witten的稀疏聚类框架下改进传统的FCM算法。基本思想是先将FCM的目标函数写成若干函数项和的形式,其中每一项只跟一个属性有关,再给数据的每一个属性赋予一个权重,通过对这些权重的L1和L2正则化约束来得到稀疏的权重解。不断迭代优化目标函数就可以得到聚类结果和稀疏的权重解。得到稀疏权重的过程其实也是一个特征选择的过程。非零权重对应的属性就是选择出来的对聚类有用的属性,权重为0的属性就是丢弃掉的无用的属性。本发明也正是在Witten的稀疏聚类框架下改进传统模糊C均值聚类算法,使之更加适合高维数据的聚类问题。SFCM算法使用R语言实现,可以方便用于解决高维数据的聚类问题。
本发明SFCM与传统FCM相比,有以下优点及有益效果:
(1)SFCM提高了FCM的聚类能力。SFCM有一个特征选择的过程,能有效地选择出对聚类最有用的属性,更加适合高维数据的聚类问题,特别是那些有很多无用信息的高维数据。
(2)SFCM选择出少量最有用的属性,这更有利于模型和聚类结果的解析。
(3)与传统的FCM平等地对待每一个属性不同,SFCM给每一个属性都赋予一个权重,权重大的表示重要性高。SFCM能发现不同属性的重要性程度。
附图说明
图1是传统FCM算法在一个数据集上的聚类示例;
图2SFCM与传统FCM在一个1000维模拟数据上的比较实例;
图3是SFCM和FCM在不同维数时的分类错误率情况。
具体的实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本发明SFCM算法由以下步骤实现:
(1)、设{x1,x2,...,xn},xi∈Rp为n个待聚类的点,V={v1,v2,...,vK}为当前的K个类中心,U=(uik)为隶属度矩阵,uik表示xi属于第k类的隶属度;
(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一项只跟一个属性有关,将若干函数项的和表达为:
其中uik是第i个点属于第k类的隶属度,di,k;j=(xij-vkj)2是第i个待聚类的点和第k个类中心在第j个特征上的平方差。
(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差,即最大化类间方差的目标函数为:
(4)、给每一个属性赋予一个权重wj,将步骤(3)中对应的函数项前面乘以该权重wj,最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以L1和L2范数约束,得到加权后的目标函数为:
(5)通过迭代求解步骤(4)加权后的目标函数。迭代是轮流固定隶属度uik和权重wj的迭代。迭代终止时得到聚类结果和选择出的属性集。迭代求解的步骤具体如下:
(51)、迭代直至收敛:
(511)、固定权重w,求解隶属度矩阵U和类中心V。
上式用标准的FCM算法求解,只不过第i个待聚类的点xi和第k个类中心vk的距离不再是 而是
(52)、输出隶属度矩阵U和类中心V,或将第i个待聚类的点xi指派到其隶属度最大的类。
按照如上步骤(51)-(52)过程不断迭代,就可以得到聚类结果和选择的特征。迭代终止准则可以设为:
即权重几乎不再变化时可终止迭代。
图2是一个SFCM和FCM在一个1000维模拟数据上的对比实验的例子。该数据集只有前50维有区分能力,图中画出的是前2维。图2(a)是真实的分类;图2(b)是FCM在这个数据集上的聚类结果;图2(c)是SFCM的聚类结果。可以看到SFCM的聚类结果明显好于FCM,因为SFCM有效的选择出了有用的特征,而FCM平等的对待每一个属性,少数有用的属性被大多数无用的属性信息给屏蔽了,因而得到的结果比较差。
图3展示了在不同维数情形的分类错误率。可以看到,SFCM的分类错误率明显要低于FCM。另外,当维数增加时,FCM的错误率越来越大,而SFCM因为能有效地选择出有用的特征,所以其错误率维持在一个稳定的低水平。
上述实施例为本发明较佳的实施例子,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神与技术下所作的改变、修饰或替代,均应为等效的置换,都包含在本发明的保护范围之内。
Claims (3)
1.稀疏模糊C均值聚类方法,其特征在于,包括以下步骤:
(1)、设{x1,x2,...,xn},xi∈Rp为n个待聚类的点,V={v1,v2,...,vK}为当前的K个类中心,U=(uik)为隶属度矩阵,uik表示xi属于第k类的隶属度;
(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一函数项只跟一个属性有关;
(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差;
(4)、给每一个属性赋予一个权重wj,p个权重值构成权重w;将步骤(3)中对应的函数项乘以该权重wj,最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以L1和L2范数约束,得到加权后的函数;
(5)通过轮流固定隶属度uik和权重wj的迭代求解步骤(4)加权后的目标函数,迭代终止时得到聚类结果和选择出的属性集。
2.根据权利要求1所述的稀疏模糊C均值聚类方法,其特征在于,步骤(2)所述若干函数项的和为:
di,k;j=(xij-vkj)2是第i个待聚类的点和第k个类中心在第j个特征上的平方差;
步骤(3)所述最大化类间方差为:
步骤(4)加权后的目标函数为:
p个属性的权重值构成权重w。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102964360A CN102855301A (zh) | 2012-08-20 | 2012-08-20 | 稀疏模糊c均值聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102964360A CN102855301A (zh) | 2012-08-20 | 2012-08-20 | 稀疏模糊c均值聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102855301A true CN102855301A (zh) | 2013-01-02 |
Family
ID=47401889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102964360A Pending CN102855301A (zh) | 2012-08-20 | 2012-08-20 | 稀疏模糊c均值聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102855301A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881688A (zh) * | 2015-06-11 | 2015-09-02 | 电子科技大学 | 一种两阶段的基于差分进化和模糊c-均值的聚类算法 |
CN105378764A (zh) * | 2013-07-12 | 2016-03-02 | 微软技术许可有限责任公司 | 计算机-人交互式学习中的交互式概念编辑 |
CN106295688A (zh) * | 2016-08-02 | 2017-01-04 | 浙江工业大学 | 一种基于稀疏均值的模糊聚类方法 |
CN109392640A (zh) * | 2018-11-28 | 2019-03-01 | 镇巴县宏源林农开发有限责任公司 | 一种油茶林套种魔芋的种植方法、种植装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551905A (zh) * | 2009-05-08 | 2009-10-07 | 西安电子科技大学 | 基于模糊c均值聚类和空间信息的多尺度纹理图像分割方法 |
CN102254020A (zh) * | 2011-07-22 | 2011-11-23 | 西安电子科技大学 | 基于特征权重的全局k-均值聚类方法 |
-
2012
- 2012-08-20 CN CN2012102964360A patent/CN102855301A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551905A (zh) * | 2009-05-08 | 2009-10-07 | 西安电子科技大学 | 基于模糊c均值聚类和空间信息的多尺度纹理图像分割方法 |
CN102254020A (zh) * | 2011-07-22 | 2011-11-23 | 西安电子科技大学 | 基于特征权重的全局k-均值聚类方法 |
Non-Patent Citations (1)
Title |
---|
孟丽敏等: "基于空间邻域加权的模糊C-均值聚类及其应用研究", 《计算机应用研究》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105378764A (zh) * | 2013-07-12 | 2016-03-02 | 微软技术许可有限责任公司 | 计算机-人交互式学习中的交互式概念编辑 |
CN105378764B (zh) * | 2013-07-12 | 2018-08-17 | 微软技术许可有限责任公司 | 计算机-人交互式学习中的交互式概念编辑 |
US10372815B2 (en) | 2013-07-12 | 2019-08-06 | Microsoft Technology Licensing, Llc | Interactive concept editing in computer-human interactive learning |
US11023677B2 (en) | 2013-07-12 | 2021-06-01 | Microsoft Technology Licensing, Llc | Interactive feature selection for training a machine learning system and displaying discrepancies within the context of the document |
CN104881688A (zh) * | 2015-06-11 | 2015-09-02 | 电子科技大学 | 一种两阶段的基于差分进化和模糊c-均值的聚类算法 |
CN106295688A (zh) * | 2016-08-02 | 2017-01-04 | 浙江工业大学 | 一种基于稀疏均值的模糊聚类方法 |
CN106295688B (zh) * | 2016-08-02 | 2019-10-18 | 浙江工业大学 | 一种基于稀疏均值的模糊聚类方法 |
CN109392640A (zh) * | 2018-11-28 | 2019-03-01 | 镇巴县宏源林农开发有限责任公司 | 一种油茶林套种魔芋的种植方法、种植装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Margin & diversity based ordering ensemble pruning | |
Kang et al. | A weight-incorporated similarity-based clustering ensemble method based on swarm intelligence | |
CN102855633B (zh) | 一种具有抗噪性的快速模糊聚类数字图像分割方法 | |
Parvin et al. | A clustering ensemble framework based on elite selection of weighted clusters | |
CN105184307B (zh) | 一种医学领域图像语义相似度矩阵的生成方法 | |
CN102930246B (zh) | 一种基于点云片段分割的室内场景识别方法 | |
CN106650809A (zh) | 一种车载激光点云目标分类方法和系统 | |
CN101980298B (zh) | 基于多智能体遗传聚类算法的图像分割方法 | |
CN102855301A (zh) | 稀疏模糊c均值聚类方法 | |
CN104036051A (zh) | 一种基于标签传播的数据库模式摘要生成方法 | |
Li et al. | RTCRelief-F: an effective clustering and ordering-based ensemble pruning algorithm for facial expression recognition | |
CN106845536A (zh) | 一种基于图像缩放的并行聚类方法 | |
CN103123685B (zh) | 文本模式识别方法 | |
CN105653670A (zh) | 一种基于流形学习聚类算法的智能用电数据挖掘方法 | |
Liu et al. | Near-optimal controls of random-switching LQ problems with indefinite control weight costs | |
Liu et al. | Illustration design model with clustering optimization genetic algorithm | |
CN107704872A (zh) | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 | |
CN106339354B (zh) | 基于改进pca的云计算网络中高维数据可视化方法 | |
CN104881688A (zh) | 一种两阶段的基于差分进化和模糊c-均值的聚类算法 | |
Li et al. | Subspace learning via locally constrained a-optimal nonnegative projection | |
CN104809210A (zh) | 一种基于分布式计算框架下海量数据加权top-k查询方法 | |
Bai et al. | Adaptive query relaxation and top‐k result sorting of fuzzy spatiotemporal data based on XML | |
CN104036024B (zh) | 一种基于GACUC和Delaunay三角网的空间聚类方法 | |
CN102880881A (zh) | 一种基于二类支持向量机和遗传算法的轿车车型识别方法 | |
CN109783586A (zh) | 基于聚类重采样的水军评论检测系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130102 |
|
RJ01 | Rejection of invention patent application after publication |