CN104794482A

CN104794482A - 基于改进型核模糊c均值类间极大化聚类算法

Info

Publication number: CN104794482A
Application number: CN201510134150.6A
Authority: CN
Inventors: 狄岚; 杨文静
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2015-07-22

Abstract

本发明针对普通的核聚类只考虑类内关系而忽略了类与类之间的关系的问题，提出了在核模糊C均值聚类(KDFCM)算法的基础上，引入了在特征空间中的类间极大惩罚项的方法，给出了一种基于改进型核模糊C均值类间极大化聚类(MKDFCM)算法。该算法通过在特征空间中增大类与类之间的距离，构造了一种新的目标函数，通过调控类间距极大惩罚项使之最大化，从而使算法具有较好的聚类效果。该算法与传统的聚类算法相比，对带有噪声点数据集鲁棒性较高，对不平衡数据和边界模糊数据集聚类效果较佳。

Description

基于改进型核模糊C均值类间极大化聚类算法

【技术领域】

本发明涉及数据挖掘及无监督模式识别技术领域，特别涉及一种改进型的核模糊C均值类间极大化聚类算法。

【背景技术】

聚类分析是数据挖掘和无监督模式识别学习的主要任务之一，已广泛应用于数据挖掘、图像处理、计算机视觉、生物信息和文本分析领域中。针对数据的分析方法一般分为三大类，即有监督的学习、半监督的学习以及无监督的学习。有监督学习包括：有监督的学习方法中，典型代表就是邻近结点算法(KNN)，半监督的学习方法中，具有代表性的是支持向量机(SVM)，以及一些相关的改进算法。而无监督方法主要是以聚类分析方法为主，聚类的方法可以分为基于划分的方法、基于分层的方法、基于密度的方法和基于网格的方法，其中，基于划分的聚类算法在模式识别里是最常用的聚类分析方法，本文主要是针对此类算法进行讨论的。

聚类是指将一组给定的未知类标号的数据分类到不同的类，且保证同一个类内的对象有较大的相似性，而类间的对象有较大的差异性。聚类算法有很多，典型的算法有基于硬划分的k-means算法以及基于软划分的FCM算法，此处的软硬即表示隶属度的模糊程度区别，隶属度越模糊则“软”的程度越大，隶属度越精确则越偏向“硬”的程度。因为FCM算法存在对噪声点与野值点敏感和只善于发现致密的球形结构等缺点。为了克服FCM的缺点，在模式识别的各个领域内出现了很多以FCM为基础的一些算法，比较突出的有PCM，FPCM，PFCM等。

Aizerman等人在1964年把核函数的思想引入到机器学习领域。1995年，基于VC理论，Xortes与Vapnik提出支持向量机(SVMs)分类算法，SVM在一些问题上得到比传统分类器更好的性能。SVM的成功使得核函数的应用得到重视并应用到机器学习的其他领域，如核主成分分析、核Fisher鉴别分析以及基于核的聚类分析等。基于核方法的聚类通过核函数把原始空间中的点映射到特征空间中，在特征空间直接或间接地进行算法设计、分析与计算，从而得到原始空间的聚类划分。在一定程度上，基于核的聚类方法提高了聚类的效果。但是，不管是传统聚类或者核聚类，大部分聚类算法都只是考虑类内关系，而忽略了类与类之间的关系。

由于类与类之间的协方阵是表示类中心与类中心之间的距离，而它们的距离取得最大值会有更好的聚类效果。本文提到的基于核化距离的模糊C均值聚类算法(简称KDFCM)，在一定程度上，该算法增强了对噪声点或野值点的鲁棒性，提高了聚类效果。但是始终是以模糊聚类为基础且忽略了类与类之间的距离信息。

【发明内容】

本发明提出了一种基于改进型的核模糊C均值类间极大化聚类算法(简称MKDFCM)。该算法由类内最小和类间最松散的聚类准则推导而出，并做进一步改进，使得类中心与类中心之间距离极大化，构造出全新的目标函数。

为了达到本发明的目的，根据本发明的一个方面，本发明提供一种基于改进型的核模糊C均值类间极大化聚类算法，所述方法具有如下优点：对噪声点或野值点有较好的鲁棒性，对样本不平衡数据集和边界模糊数据集具有更佳的聚类效果。

尽管KDFCM算法在一定程度上，相对FCM算法在噪声点或野值点的鲁棒性上有所提高，但是KDFCM仍存在以下两个主要缺点：1)由于仍然采用基于核空间的欧氏距离，没有考虑类与类之间的信息，而实际情况中，类与类之间的信息在聚类过程中发挥巨大的作用。2)由于采用梯度下降法迭代求解，易收敛于局部最优值，造成了KDFCM对野值或噪声的鲁棒性不高。本文针对上述问题，提出了改进的基于核化距离的模糊C均值聚类(MKDFCM)算法。该算法在KDFCM算法的目标函数上引入了特征空间内的类间极大惩罚项，并通过引入调控因子λ实现对特征空间内类间划分的控制，使得聚类中心之间的距离最大化，使特征空间内类与类之间的间隔尽可能大。特征空间内的类间极大惩罚项的表达式如下：

P = λ Σ_{j = 1}^{n} Σ_{i = 1}^{c} Σ_{t = 1}^{c} u_{ij}^{m} {| | Φ (v_{i}) - Φ (v_{t}) | |}_{H}^{2} (i &NotEqual; t)

式中，v_t是指除了第i个中心点之外的中心点；λ为调控因子，λ＞0。

则MKDFCM的目标函数为：

J_{ikdfcm} (U, V) = Σ_{i = 1}^{c} Σ_{j = 1}^{n} u_{ij}^{m} {| | Φ (x_{j}) - Φ (v_{i}) | |}_{H}^{2} - λ Σ_{j = 1}^{n} Σ_{i = 1}^{c} Σ_{t = 1}^{c} u_{ij}^{m} {| | Φ (v_{i}) - Φ (v_{t}) | |}_{H}^{2}

s . t . Σ_{i = 1}^{n} u_{ij} = 1,1 \leq j \leq n; Σ_{j = 1}^{n} u_{ij} > 0,1 \leq i \leq c; i &NotEqual; t

同样地，该算法采用的是高斯核函数，所以K(x，x)＝1，上式被简化为下式：

J_{ikdfcm} (U, V) = 2 Σ_{i = 1}^{c} Σ_{j = 1}^{n} u_{ij}^{m} [1 - K (v_{i}, x_{j})] - 2 λ Σ_{j = 1}^{n} Σ_{i = 1}^{c} Σ_{t = 1}^{c} u_{ij}^{m} [1 - K (v_{i}, v_{t})]

式中，m＞1是模糊系数；c(c＞1)是对X进行划分的聚类个数；表示给定的样本集合，s是样本空间的维数，n是样本个数；V表示聚类中心且V＝[v₁，v₂，...，v_c]；U＝u_ij是一个c×n的模糊划分矩阵；u_ij是第j个样本x_j属于第i类的隶属度值。

【附图说明】

结合参考附图及接下来的详细描述，本发明将更容易理解，图1为本发明中的基于改进型核模糊C均值类间极大化聚类算法的流程图。

【具体实施方式】

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种基于改进型的核模糊C均值类间极大化聚类算法，该算法由类内最小和类间最松散的聚类准则推导而出，使得类中心与类中心之间距离极大化，构造出全新的目标函数。对噪声点或野值点有较好的鲁棒性，对样本不平衡数据集和边界模糊数据集具有更佳的聚类效果。

请参考附图，其示出了本发明中的基于改进型的核模糊C均值类间极大化聚类算法100的具体实施例子的方法流程图。所述图像分割方法100包括：

步骤102，对算法参数进行初始化，设定核函数参数σ、聚类个数c和模糊指数m及收敛精度ε；初始化调控因子最大迭代次数t_max；令迭代次数k＝0；

步骤104，利用FCM算法初始化中心矩阵。

设表示给定的样本集合，s是样本空间的维数，n是样本个数。定义一个非线性映射Φ：x→Φ(x)∈H是从X到特征空间H的映射，K是映射Φ对应的核函数，基于核化距离的模糊C均值聚类(KDFCM)算法的聚类模型可以描述为如下的一个优化问题。

最小化：

\begin{matrix} J_{kdfcm} (U, V) = Σ_{i = 1}^{c} Σ_{j = 1}^{n} u_{ij}^{m} {| | Φ (x_{j}) - Φ (v_{i}) | |}_{H}^{2} \\ = Σ_{i = 1}^{c} Σ_{j = 1}^{n} u_{ij}^{m} (K (x_{j}, x_{j}) + K (v_{i}, v_{i}) - 2 \cdot K (v_{i}, x_{j})) \end{matrix}

使得：

U &Element; R^{c \times n}; Σ_{i = 1}^{n} u_{ij} = 1,1 \leq j \leq n; Σ_{j - 1}^{n} u_{ij} > 0,

1≤i≤c；u_ij≥0，1≤i≤c，1≤j≤n

式中，m＞1是模糊系数；c(c＞1)是对X进行划分的聚类个数；V表示聚类中心且V＝[v₁，v₂，...，v_c]；U＝u_ij是一个c×n的模糊划分矩阵；u_ij是第j个样本x_j属于第i类的隶属度值。

\begin{matrix} u_{ij} = \frac{{(1 - K (v_{i}, x_{j}))}^{\frac{1}{1 - m}}}{Σ_{r = 1}^{c} {(1 - K (v_{r}, x_{j}))}^{\frac{1}{1 - m}}}, & v_{i} = \frac{Σ_{j = 1}^{n} u_{ij}^{m} K (x_{j}, v_{i}) x_{j}}{Σ_{j = 1}^{n} u_{ij}^{m} K (x_{j}, v_{i})} \end{matrix}

步骤106、108和110，利用U_i和V_i的公式循环迭代寻找使得目标函数得到最小值的最优解。

下面介绍一下寻找最优解的过程，为了解决目标函数的极值问题，给出如下定理。

定理1式目标函数达到最优取得极小值时，其对应的必要条件为

u_{ij} = \frac{{([1 - K (v_{i}, x_{j})] - λ Σ_{t = 1}^{c} [1 - K (v_{i}, v_{t})])}^{\frac{1}{1 - m}}}{Σ_{r = 1}^{c} {([1 - K (v_{r}, x_{j})] - λ Σ_{t = 1}^{c} [1 - K (v_{r}, v_{t})])}^{\frac{1}{1 - m}}}

v_{i} = \frac{- λ Σ_{j = 1}^{n} Σ_{t = 1}^{c} u_{ij}^{m} K (v_{i}, v_{t}) v_{t} + Σ_{j = 1}^{n} u_{ij}^{m} K (x_{j}, v_{i}) x_{j}}{- λ Σ_{j = 1}^{n} Σ_{t = 1}^{c} u_{ij}^{m} K (v_{i}, v_{t}) + Σ_{j = 1}^{n} u_{ij}^{m} K (x_{j}, v_{i})}

其中：i＝1，2，...，c；j＝1，2，...，n；

证明在约束条件下的拉格朗日函数为

L (U, V, α) = 2 Σ_{i = 1}^{c} Σ_{j = 1}^{n} u_{ij}^{m} [1 - K (v_{i}, x_{j})] - 2 λ Σ_{j = 1}^{n} Σ_{i = 1}^{c} Σ_{t = 1}^{c} u_{ij}^{m} [1 - K (v_{i}, v_{t})] + α (Σ_{i = 1}^{c} Σ_{j = 1}^{n} u_{ij} - n)

其中，α为拉格朗日乘数。因此通过转换，目标函数的极值问题变成了式上式的极值问题。对于目标函数而言，其取得极值的必要条件则是L分别对参数U、α、V的偏导数为0时的最优解所对应的函数解。

首先，通过可得：

另根据可知：

u_{ij} = {(\frac{1}{2 [1 - K (v_{i}, x_{j})] - 2 λ Σ_{t = 1}^{c} [1 - K (v_{i}, v_{t})]})}^{\frac{1}{m - 1}} {(\frac{α}{m})}^{\frac{1}{m - 1}}

可得

{(\frac{α}{m})}^{\frac{1}{m - 1}} = \frac{n}{Σ_{i = 1}^{c} Σ_{j = 1}^{n} {(2 [1 - K (v_{i}, x_{j})] - 2 λ Σ_{t = 1}^{c} [1 - K (v_{i}, v_{t})])}^{\frac{1}{1 - m}}}

最终可求得u_ij的优化表达式。参照上述求解的思想，通过可以求得

v_{i} = \frac{- λ Σ_{j = 1}^{n} Σ_{t = 1}^{c} u_{ij}^{m} K (v_{i}, v_{t}) v_{t} + Σ_{j = 1}^{n} u_{ij}^{m} K (x_{j}, v_{i}) x_{j}}{- λ Σ_{j = 1}^{n} Σ_{t = 1}^{c} u_{ij}^{m} K (v_{i}, v_{t}) + Σ_{j = 1}^{n} u_{ij}^{m} K (x_{j}, v_{i})}

根据条件极值的理论，当U、V取得最优解时，则函数L取得极小值，从而目标函数也相应地求得最小值。综上所述，定理1得证。

KDFCM是FCM在高维特征空间中的推广，本文从特征空间中类与类之间的距离关系进行改进，引入了类间极大惩罚项，并引入惩罚因子实现对类间划分的控制，提出了一个全新的算法(MKDFCM)。该算法优于现有的FCM、PCM、FPCM、KDPCM、KDFCM等算法，聚类的准确性和稳定性有明显提高，对噪声点的鲁棒性较佳和对样本不平衡数据集和边界模糊数据集的聚类效果较好，但是该算法引入了新的参数且对参数的确定没有较好的办法，所以开展这方面的研究将具有一定的理论和实际意义。

需要说明的是：上述聚类分析的方法，仅以上述几类数据集进行举例说明，实际应用中，可以根据需要而将上述方法运用于不同的数据中进行聚类。

上述说明已经充分揭露了本发明的具体实施方式。需要指出的是，熟悉该领域的技术人员对本发明的具体实施方式所做的任何改动均不脱离本发明的权利要求书的范围。相应地，本发明的权利要求的范围也并不仅仅局限于所述具体实施方式。

Claims

1.基于改进型核模糊C均值类间极大化聚类(MKDFCM)算法，其特征在于，所述方法包括：

通过核方法将原始空间中的数据点映射到特征空间中，在特征空间中对数据进行聚类划分。

引入极大惩罚项增加类与类之间的距离，使得类中心与类中心之间距离极大化。

利用聚类指标对聚类算法性能进行评价。

2.根据权利要求1所述的基于改进型核模糊C均值类间极大化聚类(MKDFCM)算法所述，通过核化过后，将输入数据代入核使之在原输入空间中诱导出一类核依赖的新的距离度量。由于高斯核函数对应的特征空间是无穷维的，有限的样本在特征空间中肯定是线性可分的，故采用高斯核函数为映射函数，将原始数据映射到高维空间后进行聚类划分。

3.根据权利要求2所述基于MKDFCM算法所述，该算法在KDFCM算法的目标函数上引入了特征空间内的类间极大惩罚项，并通过引入调控因子λ实现对特征空间内类间划分的控制，使得聚类中心之间的距离最大化，使特征空间内类与类之间的间隔尽可能大。

特征空间内的类间极大惩罚项的表达式如下：

P = λ Σ_{j = 1}^{n} Σ_{i = 1}^{c} Σ_{t = 1}^{c} u_{ij}^{m} {| | Φ (v_{i}) - Φ (v_{t}) | |}_{H}^{2} (i &NotEqual; t)

则MKDFCM的目标函数为：

J_{ikdfcm} (U, V) = Σ_{i = 1}^{c} Σ_{j = 1}^{n} u_{ij}^{m} {| | Φ (x_{j}) - Φ (v_{i}) | |}_{H}^{2} - λ Σ_{j = 1}^{n} Σ_{i = 1}^{c} Σ_{t = 1}^{c} u_{ij}^{m} {| | Φ (v_{i}) - Φ (v_{t}) | |}_{H}^{2}

s . t . Σ_{i = 1}^{n} u_{ij} = 1,1 \leq j \leq n; Σ_{j = 1}^{n} u_{ij} > 0,1 \leq i \leq c; i &NotEqual; t

J_{ikdfcm} (U, V) = 2 Σ_{i = 1}^{c} Σ_{j = 1}^{n} u_{ij}^{m} [1 - K (v_{i}, x_{j})] - 2 λ Σ_{j = 1}^{n} Σ_{i = 1}^{c} Σ_{t = 1}^{c} u_{ij}^{m} [1 - K (v_{i}, v_{t})]

4.根据权利要求3所述基于MKDFCM算法所述，对参数进行优化得到其隶属度和聚类中心迭代公式为：

u_{ij} = \frac{{([1 - K (v_{i}, x_{j})] - λ Σ_{t = 1}^{c} [1 - K (v_{i}, v_{t})])}^{\frac{1}{1 - m}}}{Σ_{r = 1}^{c} {([1 - K (v_{r}, x_{j})] - λ Σ_{t = 1}^{c} [1 - K (v_{r}, v_{t})])}^{\frac{1}{1 - m}}}

v_{i} = \frac{- λ Σ_{j = 1}^{n} Σ_{t = 1}^{c} u_{ij}^{m} K (v_{i}, v_{t}) v_{t} + Σ_{j = 1}^{n} u_{ij}^{m} K (x_{j}, v_{i}) x_{j}}{- λ Σ_{j = 1}^{n} Σ_{t = 1}^{c} u_{ij}^{m} K (v_{i}, v_{t}) + Σ_{j = 1}^{n} u_{ij}^{m} K (x_{j}, v_{i})}

5.根据权利要求1基于MKDFCM算法所述，利用聚类指标对聚类性能进行评价，评价指标包括：

ACC评价指标：

ACC = \frac{Σ_{i = 1}^{N} δ (y_{i}, map (c_{i}))}{N}

其中：N表示数据点个数；y_i表示真实的类标签，c_i表示聚类过后的类标签；如果y＝c，那么δ(y，c)＝1，否则δ(y，c)＝0；map(.)表示每个聚类过后的类标签到真实的类标签的一个置换函数，并且可以通过匈牙利算法获得最佳匹配。

RandIndex评价指标：

其中：f₀₀表示数据点具有不同的类标签，且属于不同类的数据点数目；f₁₁表示具有相同的类标签，且属于同一类别的数据点数目；N表示样本的容量大小；

NMI评价指标：

NMI = \frac{Σ_{i = 1}^{c} Σ_{j = 1}^{c} N_{i, j} \log \frac{N \times N_{i, j}}{N_{i} \times N_{j}}}{\sqrt{(Σ_{i = 1}^{c} N_{i} \log N_{i} / N) \times (Σ_{j = 1}^{c} N_{j} \log N_{j} / N)}}

其中：N_i，j表示第i个聚类与类j之间的契合度；N表示样容量的大小；N_i表示第i个聚类的样本数目；N_j表示第j个聚类的样本数目。

F1-Measure评价指标：

F_{1} = \frac{1}{n} Σ_{i = 1}^{m} a_{i} \max \frac{c_{i, j}}{a_{i} + b_{j}}

其中：a₁，a₂，...，a_m表示真实的属于每个类标签的个数；b₁，b₂，...，b_m表示聚类过后属于每个类标签的个数；c_ij表示每个类中分错的个数。

PUR评价指标：

PUR = \frac{Σ_{i = 1}^{K} \frac{| C_{i}^{d} |}{C_{i}}}{K} \times 100 %

其中：K表示聚类个数，数据点具有不同的类标签，且属于不同类的数据点数目；C_i表示第i个聚类的数目；表示在第i个聚类中标记为d的样本数目。