CN102855301A - 稀疏模糊c均值聚类方法 - Google Patents

稀疏模糊c均值聚类方法 Download PDF

Info

Publication number
CN102855301A
CN102855301A CN2012102964360A CN201210296436A CN102855301A CN 102855301 A CN102855301 A CN 102855301A CN 2012102964360 A CN2012102964360 A CN 2012102964360A CN 201210296436 A CN201210296436 A CN 201210296436A CN 102855301 A CN102855301 A CN 102855301A
Authority
CN
China
Prior art keywords
sigma
weight
class
attribute
fcm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102964360A
Other languages
English (en)
Inventor
冯国灿
黎培兴
丘宪恩
邱燕艺
汤鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN2012102964360A priority Critical patent/CN102855301A/zh
Publication of CN102855301A publication Critical patent/CN102855301A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于Witten的稀疏聚类框架的稀疏模糊C聚类方法;将FCM目标函数改写成各个函数项的和的形式,每一函数项都只跟一个属性有关;再给每一个属性赋予一个权重,并进一步改写为加权的各项函数和形式;对权重进行L1和L2正则化约束,通过轮流固定权重和隶属度的迭代求解得到稀疏解。与传统的FCM算法相比,本发明提高了聚类能力,比FCM更适合高维数据的聚类,可方便应用于数据挖掘、机器学习、生物信息学等领域。

Description

稀疏模糊C均值聚类方法
技术领域
本发明涉及数据挖掘领域,特别涉及一种稀疏模糊C均值聚类方法。
背景技术
模糊C均值聚类算法(FCM)是一种重要的聚类算法。该方法在1973年由Dunn首先提出,并在1981年由Bezdek改进。此后,FCM在模式识别、机器学习、数据挖掘、生物信息学等领域得到了非常广泛的应用,成为一种经典的聚类算法。
然而,近十几年来,随着信息技术的发展,高维数据变得越来越普遍。高维数据因其固有的特点,如信息冗余、无用信息多等,使得很多传统的聚类方法(如K均值聚类、层次聚类、模糊C均值聚类等)在高维数据上的聚类效果较差,常常不能得到好的聚类结果。
图1展示了一个FCM不能得到较好的聚类结果的例子。在该例子中,数据是一个简单的二维数据。该数据只在x1方向上有区分能力,在x2方向上无区分能力。图1(a)是该数据的真实分类情况。图1(b)是FCM在该数据上的聚类结果。可以看到,FCM在这个数据集上聚类结果较差,因为x2方向上无用的信息干扰了真正起作用的x1方向上的信息。如果只将FCM作用于x1方向而忽略x2方向,FCM的聚类效果较好,如图1(c)所示。
从这个例子中可以看到,如果高维数据中有许多无用的信息(对聚簇没有区分能力的维度),那些无用的信息会干扰有用信息,从而使传统的FCM算法聚类效果变差。另外,高维数据属性很多,其中不乏无用信息或冗余信息,这些不利于聚类结果的解释。
发明内容
本发明的目的在于改进FCM在高维数据上的聚类能力,克服高维数据中无用信息对聚类信息的干扰,提出了一种稀疏模糊C均值聚类方法(SFCM),通过特征选择来更好地对高维数据进行聚类,提高了聚类结果的可解释性。
本发明的目的通过下述技术方案实现:稀疏模糊C均值聚类方法,包括以下步骤:
(1)、设{x1,x2,...,xn},xi∈Rp为n个待聚类的点,V={v1,v2,...,vK}为当前的K个类中心,U=(uik)为隶属度矩阵,uik表示xi属于第k类的隶属度;
(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一函数项只跟一个属性有关;
(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差;
(4)、给每一个属性赋予一个权重wj,p个权重值构成权重w;将步骤(3)中对应的函数项乘以该权重wj,最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以L1和L2范数约束,得到加权后的函数;
(5)通过轮流固定隶属度uik和权重wj的迭代求解步骤(4)加权后的目标函数,迭代终止时得到聚类结果和选择出的属性集。
优选地,步骤(2)所述若干函数项的和为:
min Σ j = 1 p ( Σ k = 1 K Σ i = 1 n u ik m d i , k ; j )
di,k;j=(xij-vkj)2是第i个待聚类的点和第k个类中心在第j个特征上的平方差;
步骤(3)所述最大化类间方差为:
max Σ j = 1 p ( D j - Σ k = 1 K Σ i = 1 n u ik m d i , k ; j ) , 其中 D j = Σ i = 1 n ( x ij - x ‾ j ) 2 ;
步骤(4)加权后的目标函数为:
max Σ j = 1 p w j ( D j - Σ k = 1 K Σ i = 1 n u ik m d i , k ; j )
s . t . | | w | | 2 ≤ 1 , | | w | | 1 ≤ s , w j ≥ 0 , ∀ j .
p个属性的权重值构成权重w。
优选地,步骤(5)所述迭代求解的过程如下:
(51)、迭代直至收敛:
(511)、固定权重w,用FCM算法对下式求解隶属度矩阵U和类中心V:
min U , V Σ j = 1 p ( Σ k = 1 K Σ i = 1 n u ik m w j d i , k ; j )
第i个待聚类的点xi和第k个类中心vk的距离是
Figure BDA00002030635000036
(512)、固定隶属度矩阵U和类中心V,求解权重w,令
Figure BDA00002030635000037
其中S是软阈值算子,a是各个属性对应的类间方差;如果||w||1<s,令D=0;否则,选取D>0的数值使得||w||1=s;
(52)、输出隶属度矩阵U和类中心V,或将第i个待聚类的点xi指派到其隶属度最大的类。
本发明是在Witten的稀疏聚类框架下改进传统的FCM算法。基本思想是先将FCM的目标函数写成若干函数项和的形式,其中每一项只跟一个属性有关,再给数据的每一个属性赋予一个权重,通过对这些权重的L1和L2正则化约束来得到稀疏的权重解。不断迭代优化目标函数就可以得到聚类结果和稀疏的权重解。得到稀疏权重的过程其实也是一个特征选择的过程。非零权重对应的属性就是选择出来的对聚类有用的属性,权重为0的属性就是丢弃掉的无用的属性。本发明也正是在Witten的稀疏聚类框架下改进传统模糊C均值聚类算法,使之更加适合高维数据的聚类问题。SFCM算法使用R语言实现,可以方便用于解决高维数据的聚类问题。
本发明SFCM与传统FCM相比,有以下优点及有益效果:
(1)SFCM提高了FCM的聚类能力。SFCM有一个特征选择的过程,能有效地选择出对聚类最有用的属性,更加适合高维数据的聚类问题,特别是那些有很多无用信息的高维数据。
(2)SFCM选择出少量最有用的属性,这更有利于模型和聚类结果的解析。
(3)与传统的FCM平等地对待每一个属性不同,SFCM给每一个属性都赋予一个权重,权重大的表示重要性高。SFCM能发现不同属性的重要性程度。
附图说明
图1是传统FCM算法在一个数据集上的聚类示例;
图2SFCM与传统FCM在一个1000维模拟数据上的比较实例;
图3是SFCM和FCM在不同维数时的分类错误率情况。
具体的实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本发明SFCM算法由以下步骤实现:
(1)、设{x1,x2,...,xn},xi∈Rp为n个待聚类的点,V={v1,v2,...,vK}为当前的K个类中心,U=(uik)为隶属度矩阵,uik表示xi属于第k类的隶属度;
(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一项只跟一个属性有关,将若干函数项的和表达为:
min &Sigma; j = 1 p ( &Sigma; k = 1 K &Sigma; i = 1 n u ik m d i , k ; j )
其中uik是第i个点属于第k类的隶属度,di,k;j=(xij-vkj)2是第i个待聚类的点和第k个类中心在第j个特征上的平方差。
(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差,即最大化类间方差的目标函数为:
max &Sigma; j = 1 p ( D j - &Sigma; k = 1 K &Sigma; i = 1 n u ik m d i , k ; j ) , 其中 D j = &Sigma; i = 1 n ( x ij - x &OverBar; j ) 2 .
(4)、给每一个属性赋予一个权重wj,将步骤(3)中对应的函数项前面乘以该权重wj,最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以L1和L2范数约束,得到加权后的目标函数为:
max &Sigma; j = 1 p w j ( D j - &Sigma; k = 1 K &Sigma; i = 1 n u ik m d i , k ; j )
s . t . | | w | | 2 &le; 1 , | | w | | 1 &le; s , w j &GreaterEqual; 0 , &ForAll; j .
设定每个属性的权重初值为
Figure BDA00002030635000063
p个属性的权重值构成权重w。
(5)通过迭代求解步骤(4)加权后的目标函数。迭代是轮流固定隶属度uik和权重wj的迭代。迭代终止时得到聚类结果和选择出的属性集。迭代求解的步骤具体如下:
(51)、迭代直至收敛:
(511)、固定权重w,求解隶属度矩阵U和类中心V。
min U , V &Sigma; j = 1 p ( &Sigma; k = 1 K &Sigma; i = 1 n u ik m w j d i , k ; j )
上式用标准的FCM算法求解,只不过第i个待聚类的点xi和第k个类中心vk的距离不再是 &Sigma; j = 1 p d i , k ; j , 而是 &Sigma; j = 1 p w j d i , k ; j .
(512)、固定隶属度矩阵U和类中心V,求解权重w,令
Figure BDA00002030635000067
其中S是软阈值算子,a是各个属性对应的类间方差。如果||w||1<s,令D=0;否则,选取合适的D>0使得||w||1=s。
(52)、输出隶属度矩阵U和类中心V,或将第i个待聚类的点xi指派到其隶属度最大的类。
按照如上步骤(51)-(52)过程不断迭代,就可以得到聚类结果和选择的特征。迭代终止准则可以设为:
&Sigma; j = 1 p | w j r - w j r - 1 | &Sigma; j = 1 p | w j r - 1 | < &epsiv;
即权重几乎不再变化时可终止迭代。
图2是一个SFCM和FCM在一个1000维模拟数据上的对比实验的例子。该数据集只有前50维有区分能力,图中画出的是前2维。图2(a)是真实的分类;图2(b)是FCM在这个数据集上的聚类结果;图2(c)是SFCM的聚类结果。可以看到SFCM的聚类结果明显好于FCM,因为SFCM有效的选择出了有用的特征,而FCM平等的对待每一个属性,少数有用的属性被大多数无用的属性信息给屏蔽了,因而得到的结果比较差。
图3展示了在不同维数情形的分类错误率。可以看到,SFCM的分类错误率明显要低于FCM。另外,当维数增加时,FCM的错误率越来越大,而SFCM因为能有效地选择出有用的特征,所以其错误率维持在一个稳定的低水平。
上述实施例为本发明较佳的实施例子,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神与技术下所作的改变、修饰或替代,均应为等效的置换,都包含在本发明的保护范围之内。

Claims (3)

1.稀疏模糊C均值聚类方法,其特征在于,包括以下步骤:
(1)、设{x1,x2,...,xn},xi∈Rp为n个待聚类的点,V={v1,v2,...,vK}为当前的K个类中心,U=(uik)为隶属度矩阵,uik表示xi属于第k类的隶属度;
(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一函数项只跟一个属性有关;
(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差;
(4)、给每一个属性赋予一个权重wj,p个权重值构成权重w;将步骤(3)中对应的函数项乘以该权重wj,最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以L1和L2范数约束,得到加权后的函数;
(5)通过轮流固定隶属度uik和权重wj的迭代求解步骤(4)加权后的目标函数,迭代终止时得到聚类结果和选择出的属性集。
2.根据权利要求1所述的稀疏模糊C均值聚类方法,其特征在于,步骤(2)所述若干函数项的和为:
min &Sigma; j = 1 p ( &Sigma; k = 1 K &Sigma; i = 1 n u ik m d i , k ; j )
di,k;j=(xij-vkj)2是第i个待聚类的点和第k个类中心在第j个特征上的平方差;
步骤(3)所述最大化类间方差为:
max &Sigma; j = 1 p ( D j - &Sigma; k = 1 K &Sigma; i = 1 n u ik m d i , k ; j ) , 其中 D j = &Sigma; i = 1 n ( x ij - x &OverBar; j ) 2 ;
步骤(4)加权后的目标函数为:
max &Sigma; j = 1 p w j ( D j - &Sigma; k = 1 K &Sigma; i = 1 n u ik m d i , k ; j )
s . t . | | w | | 2 &le; 1 , | | w | | 1 &le; s , w j &GreaterEqual; 0 , &ForAll; j .
p个属性的权重值构成权重w。
3.根据权利要求2所述的稀疏模糊C均值聚类方法,其特征在于,步骤(5)所述迭代求解的过程如下:
(51)、迭代直至收敛:
(511)、固定权重w,用FCM算法对下式求解隶属度矩阵U和类中心V:
min U , V &Sigma; j = 1 p ( &Sigma; k = 1 K &Sigma; i = 1 n u ik m w j d i , k ; j )
第i个待聚类的点xi和第k个类中心vk的距离是
Figure FDA00002030634900024
(512)、固定隶属度矩阵U和类中心V,求解权重w,令
Figure FDA00002030634900025
其中S是软阈值算子,a是各个属性对应的类间方差;如果||w||1<s,令D=0;否则,选取D>0的数值使得||w||1=s;
(52)、输出隶属度矩阵U和类中心V,或将第i个待聚类的点xi指派到其隶属度最大的类。
CN2012102964360A 2012-08-20 2012-08-20 稀疏模糊c均值聚类方法 Pending CN102855301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102964360A CN102855301A (zh) 2012-08-20 2012-08-20 稀疏模糊c均值聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102964360A CN102855301A (zh) 2012-08-20 2012-08-20 稀疏模糊c均值聚类方法

Publications (1)

Publication Number Publication Date
CN102855301A true CN102855301A (zh) 2013-01-02

Family

ID=47401889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102964360A Pending CN102855301A (zh) 2012-08-20 2012-08-20 稀疏模糊c均值聚类方法

Country Status (1)

Country Link
CN (1) CN102855301A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881688A (zh) * 2015-06-11 2015-09-02 电子科技大学 一种两阶段的基于差分进化和模糊c-均值的聚类算法
CN105378764A (zh) * 2013-07-12 2016-03-02 微软技术许可有限责任公司 计算机-人交互式学习中的交互式概念编辑
CN106295688A (zh) * 2016-08-02 2017-01-04 浙江工业大学 一种基于稀疏均值的模糊聚类方法
CN109392640A (zh) * 2018-11-28 2019-03-01 镇巴县宏源林农开发有限责任公司 一种油茶林套种魔芋的种植方法、种植装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551905A (zh) * 2009-05-08 2009-10-07 西安电子科技大学 基于模糊c均值聚类和空间信息的多尺度纹理图像分割方法
CN102254020A (zh) * 2011-07-22 2011-11-23 西安电子科技大学 基于特征权重的全局k-均值聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551905A (zh) * 2009-05-08 2009-10-07 西安电子科技大学 基于模糊c均值聚类和空间信息的多尺度纹理图像分割方法
CN102254020A (zh) * 2011-07-22 2011-11-23 西安电子科技大学 基于特征权重的全局k-均值聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟丽敏等: "基于空间邻域加权的模糊C-均值聚类及其应用研究", 《计算机应用研究》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105378764A (zh) * 2013-07-12 2016-03-02 微软技术许可有限责任公司 计算机-人交互式学习中的交互式概念编辑
CN105378764B (zh) * 2013-07-12 2018-08-17 微软技术许可有限责任公司 计算机-人交互式学习中的交互式概念编辑
US10372815B2 (en) 2013-07-12 2019-08-06 Microsoft Technology Licensing, Llc Interactive concept editing in computer-human interactive learning
US11023677B2 (en) 2013-07-12 2021-06-01 Microsoft Technology Licensing, Llc Interactive feature selection for training a machine learning system and displaying discrepancies within the context of the document
CN104881688A (zh) * 2015-06-11 2015-09-02 电子科技大学 一种两阶段的基于差分进化和模糊c-均值的聚类算法
CN106295688A (zh) * 2016-08-02 2017-01-04 浙江工业大学 一种基于稀疏均值的模糊聚类方法
CN106295688B (zh) * 2016-08-02 2019-10-18 浙江工业大学 一种基于稀疏均值的模糊聚类方法
CN109392640A (zh) * 2018-11-28 2019-03-01 镇巴县宏源林农开发有限责任公司 一种油茶林套种魔芋的种植方法、种植装置

Similar Documents

Publication Publication Date Title
Guo et al. Margin & diversity based ordering ensemble pruning
Kang et al. A weight-incorporated similarity-based clustering ensemble method based on swarm intelligence
CN102855633B (zh) 一种具有抗噪性的快速模糊聚类数字图像分割方法
Parvin et al. A clustering ensemble framework based on elite selection of weighted clusters
CN105184307B (zh) 一种医学领域图像语义相似度矩阵的生成方法
CN102930246B (zh) 一种基于点云片段分割的室内场景识别方法
CN106650809A (zh) 一种车载激光点云目标分类方法和系统
CN101980298B (zh) 基于多智能体遗传聚类算法的图像分割方法
CN102855301A (zh) 稀疏模糊c均值聚类方法
CN104036051A (zh) 一种基于标签传播的数据库模式摘要生成方法
Li et al. RTCRelief-F: an effective clustering and ordering-based ensemble pruning algorithm for facial expression recognition
CN106845536A (zh) 一种基于图像缩放的并行聚类方法
CN103123685B (zh) 文本模式识别方法
CN105653670A (zh) 一种基于流形学习聚类算法的智能用电数据挖掘方法
Liu et al. Near-optimal controls of random-switching LQ problems with indefinite control weight costs
Liu et al. Illustration design model with clustering optimization genetic algorithm
CN107704872A (zh) 一种基于相对最离散维分割的K‑means聚类初始中心选取方法
CN106339354B (zh) 基于改进pca的云计算网络中高维数据可视化方法
CN104881688A (zh) 一种两阶段的基于差分进化和模糊c-均值的聚类算法
Li et al. Subspace learning via locally constrained a-optimal nonnegative projection
CN104809210A (zh) 一种基于分布式计算框架下海量数据加权top-k查询方法
Bai et al. Adaptive query relaxation and top‐k result sorting of fuzzy spatiotemporal data based on XML
CN104036024B (zh) 一种基于GACUC和Delaunay三角网的空间聚类方法
CN102880881A (zh) 一种基于二类支持向量机和遗传算法的轿车车型识别方法
CN109783586A (zh) 基于聚类重采样的水军评论检测系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130102

RJ01 Rejection of invention patent application after publication