CN102855301A

CN102855301A - 稀疏模糊c均值聚类方法

Info

Publication number: CN102855301A
Application number: CN2012102964360A
Authority: CN
Inventors: 冯国灿; 黎培兴; 丘宪恩; 邱燕艺; 汤鑫
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2012-08-20
Filing date: 2012-08-20
Publication date: 2013-01-02

Abstract

本发明提供了一种基于Witten的稀疏聚类框架的稀疏模糊C聚类方法；将FCM目标函数改写成各个函数项的和的形式，每一函数项都只跟一个属性有关；再给每一个属性赋予一个权重，并进一步改写为加权的各项函数和形式；对权重进行L1和L2正则化约束，通过轮流固定权重和隶属度的迭代求解得到稀疏解。与传统的FCM算法相比，本发明提高了聚类能力，比FCM更适合高维数据的聚类，可方便应用于数据挖掘、机器学习、生物信息学等领域。

Description

稀疏模糊C均值聚类方法

技术领域

本发明涉及数据挖掘领域，特别涉及一种稀疏模糊C均值聚类方法。

背景技术

模糊C均值聚类算法（FCM）是一种重要的聚类算法。该方法在1973年由Dunn首先提出，并在1981年由Bezdek改进。此后，FCM在模式识别、机器学习、数据挖掘、生物信息学等领域得到了非常广泛的应用，成为一种经典的聚类算法。

然而，近十几年来，随着信息技术的发展，高维数据变得越来越普遍。高维数据因其固有的特点，如信息冗余、无用信息多等，使得很多传统的聚类方法（如K均值聚类、层次聚类、模糊C均值聚类等）在高维数据上的聚类效果较差，常常不能得到好的聚类结果。

图1展示了一个FCM不能得到较好的聚类结果的例子。在该例子中，数据是一个简单的二维数据。该数据只在x1方向上有区分能力，在x2方向上无区分能力。图1（a）是该数据的真实分类情况。图1（b）是FCM在该数据上的聚类结果。可以看到，FCM在这个数据集上聚类结果较差，因为x2方向上无用的信息干扰了真正起作用的x1方向上的信息。如果只将FCM作用于x1方向而忽略x2方向，FCM的聚类效果较好，如图1(c)所示。

从这个例子中可以看到，如果高维数据中有许多无用的信息（对聚簇没有区分能力的维度），那些无用的信息会干扰有用信息，从而使传统的FCM算法聚类效果变差。另外，高维数据属性很多，其中不乏无用信息或冗余信息，这些不利于聚类结果的解释。

发明内容

本发明的目的在于改进FCM在高维数据上的聚类能力，克服高维数据中无用信息对聚类信息的干扰，提出了一种稀疏模糊C均值聚类方法(SFCM)，通过特征选择来更好地对高维数据进行聚类，提高了聚类结果的可解释性。

本发明的目的通过下述技术方案实现：稀疏模糊C均值聚类方法，包括以下步骤：

（1）、设{x₁，x₂，...，x_n}，x_i∈R^p为n个待聚类的点，V={v₁，v₂,...,v_K}为当前的K个类中心，U=(u_ik)为隶属度矩阵，u_ik表示x_i属于第k类的隶属度；

（2）、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式，其中每一函数项只跟一个属性有关；

（3）、将步骤（2）得到的若干函数项的和改写为对应的最大化类间方差；

（4）、给每一个属性赋予一个权重w_j，p个权重值构成权重w；将步骤（3）中对应的函数项乘以该权重w_j，最大化类间方差的目标函数变成一个对属性加权后的类间方差，并给权重以L1和L2范数约束，得到加权后的函数；

（5）通过轮流固定隶属度u_ik和权重w_j的迭代求解步骤（4）加权后的目标函数，迭代终止时得到聚类结果和选择出的属性集。

优选地，步骤（2）所述若干函数项的和为：

\min Σ_{j = 1}^{p} (Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} d_{i, k; j})

d_i，k；j=(x_ij-v_kj)²是第i个待聚类的点和第k个类中心在第j个特征上的平方差；

步骤（3）所述最大化类间方差为：

\max Σ_{j = 1}^{p} (D_{j} - Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} d_{i, k; j}),

其中

D_{j} = Σ_{i = 1}^{n} {(x_{ij} - {\overset{&OverBar;}{x}}_{j})}^{2};

步骤（4）加权后的目标函数为：

\max Σ_{j = 1}^{p} w_{j} (D_{j} - Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} d_{i, k; j})

s . t . {| | w | |}^{2} \leq 1, {| | w | |}_{1} \leq s, w_{j} &GreaterEqual; 0, &ForAll; j .

p个属性的权重值构成权重w。

优选地，步骤（5）所述迭代求解的过程如下：

（51）、迭代直至收敛：

（511）、固定权重w,用FCM算法对下式求解隶属度矩阵U和类中心V：

\min_{U, V} Σ_{j = 1}^{p} (Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} w_{j} d_{i, k; j})

第i个待聚类的点x_i和第k个类中心v_k的距离是

（512)、固定隶属度矩阵U和类中心V，求解权重w，令

其中S是软阈值算子，a是各个属性对应的类间方差；如果||w||₁<s，令D=0；否则，选取D>0的数值使得||w||₁=s；

（52）、输出隶属度矩阵U和类中心V，或将第i个待聚类的点x_i指派到其隶属度最大的类。

本发明是在Witten的稀疏聚类框架下改进传统的FCM算法。基本思想是先将FCM的目标函数写成若干函数项和的形式，其中每一项只跟一个属性有关，再给数据的每一个属性赋予一个权重，通过对这些权重的L1和L2正则化约束来得到稀疏的权重解。不断迭代优化目标函数就可以得到聚类结果和稀疏的权重解。得到稀疏权重的过程其实也是一个特征选择的过程。非零权重对应的属性就是选择出来的对聚类有用的属性，权重为0的属性就是丢弃掉的无用的属性。本发明也正是在Witten的稀疏聚类框架下改进传统模糊C均值聚类算法，使之更加适合高维数据的聚类问题。SFCM算法使用R语言实现，可以方便用于解决高维数据的聚类问题。

本发明SFCM与传统FCM相比，有以下优点及有益效果：

（1）SFCM提高了FCM的聚类能力。SFCM有一个特征选择的过程，能有效地选择出对聚类最有用的属性，更加适合高维数据的聚类问题，特别是那些有很多无用信息的高维数据。

（2）SFCM选择出少量最有用的属性，这更有利于模型和聚类结果的解析。

（3）与传统的FCM平等地对待每一个属性不同，SFCM给每一个属性都赋予一个权重，权重大的表示重要性高。SFCM能发现不同属性的重要性程度。

附图说明

图1是传统FCM算法在一个数据集上的聚类示例；

图2SFCM与传统FCM在一个1000维模拟数据上的比较实例；

图3是SFCM和FCM在不同维数时的分类错误率情况。

具体的实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明SFCM算法由以下步骤实现：

（1）、设{x₁，x₂，...，x_n}，x_i∈R^p为n个待聚类的点，V={v₁,v₂,...,v_K}为当前的K个类中心，U=(u_ik)为隶属度矩阵，u_ik表示x_i属于第k类的隶属度；

（2）、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式，其中每一项只跟一个属性有关，将若干函数项的和表达为：

\min Σ_{j = 1}^{p} (Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} d_{i, k; j})

其中u_ik是第i个点属于第k类的隶属度，d_i，k；j=(x_ij-v_kj)²是第i个待聚类的点和第k个类中心在第j个特征上的平方差。

（3）、将步骤（2）得到的若干函数项的和改写为对应的最大化类间方差，即最大化类间方差的目标函数为：

\max Σ_{j = 1}^{p} (D_{j} - Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} d_{i, k; j}),

其中

D_{j} = Σ_{i = 1}^{n} {(x_{ij} - {\overset{&OverBar;}{x}}_{j})}^{2} .

（4）、给每一个属性赋予一个权重w_j，将步骤（3）中对应的函数项前面乘以该权重w_j，最大化类间方差的目标函数变成一个对属性加权后的类间方差，并给权重以L1和L2范数约束，得到加权后的目标函数为：

\max Σ_{j = 1}^{p} w_{j} (D_{j} - Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} d_{i, k; j})

s . t . {| | w | |}^{2} \leq 1, {| | w | |}_{1} \leq s, w_{j} &GreaterEqual; 0, &ForAll; j .

设定每个属性的权重初值为

p个属性的权重值构成权重w。

（5）通过迭代求解步骤（4）加权后的目标函数。迭代是轮流固定隶属度u_ik和权重w_j的迭代。迭代终止时得到聚类结果和选择出的属性集。迭代求解的步骤具体如下：

（51）、迭代直至收敛：

（511）、固定权重w,求解隶属度矩阵U和类中心V。

\min_{U, V} Σ_{j = 1}^{p} (Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} w_{j} d_{i, k; j})

上式用标准的FCM算法求解，只不过第i个待聚类的点x_i和第k个类中心v_k的距离不再是

Σ_{j = 1}^{p} d_{i, k; j},

而是

Σ_{j = 1}^{p} w_{j} d_{i, k; j} .

（512)、固定隶属度矩阵U和类中心V，求解权重w，令

其中S是软阈值算子，a是各个属性对应的类间方差。如果||w||₁<s，令D=0；否则，选取合适的D>0使得||w||₁=s。

按照如上步骤（51）-（52）过程不断迭代，就可以得到聚类结果和选择的特征。迭代终止准则可以设为：

\frac{Σ_{j = 1}^{p} | w_{j}^{r} - w_{j}^{r - 1} |}{Σ_{j = 1}^{p} | w_{j}^{r - 1} |} < ϵ

即权重几乎不再变化时可终止迭代。

图2是一个SFCM和FCM在一个1000维模拟数据上的对比实验的例子。该数据集只有前50维有区分能力，图中画出的是前2维。图2（a）是真实的分类；图2（b）是FCM在这个数据集上的聚类结果；图2（c）是SFCM的聚类结果。可以看到SFCM的聚类结果明显好于FCM，因为SFCM有效的选择出了有用的特征，而FCM平等的对待每一个属性，少数有用的属性被大多数无用的属性信息给屏蔽了，因而得到的结果比较差。

图3展示了在不同维数情形的分类错误率。可以看到，SFCM的分类错误率明显要低于FCM。另外，当维数增加时，FCM的错误率越来越大，而SFCM因为能有效地选择出有用的特征，所以其错误率维持在一个稳定的低水平。

上述实施例为本发明较佳的实施例子，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神与技术下所作的改变、修饰或替代，均应为等效的置换，都包含在本发明的保护范围之内。

Claims

1.稀疏模糊C均值聚类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的稀疏模糊C均值聚类方法，其特征在于，步骤（2）所述若干函数项的和为：

\min Σ_{j = 1}^{p} (Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} d_{i, k; j})

步骤（3）所述最大化类间方差为：

\max Σ_{j = 1}^{p} (D_{j} - Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} d_{i, k; j}),

其中

D_{j} = Σ_{i = 1}^{n} {(x_{ij} - {\overset{&OverBar;}{x}}_{j})}^{2};

步骤（4）加权后的目标函数为：

\max Σ_{j = 1}^{p} w_{j} (D_{j} - Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} d_{i, k; j})

s . t . {| | w | |}^{2} \leq 1, {| | w | |}_{1} \leq s, w_{j} &GreaterEqual; 0, &ForAll; j .

p个属性的权重值构成权重w。

3.根据权利要求2所述的稀疏模糊C均值聚类方法，其特征在于，步骤（5）所述迭代求解的过程如下：

（51）、迭代直至收敛：

\min_{U, V} Σ_{j = 1}^{p} (Σ_{k = 1}^{K} Σ_{i = 1}^{n} u_{ik}^{m} w_{j} d_{i, k; j})

第i个待聚类的点x_i和第k个类中心v_k的距离是

（512)、固定隶属度矩阵U和类中心V，求解权重w，令