CN103678500A

CN103678500A - 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法

Info

Publication number: CN103678500A
Application number: CN201310582288.3A
Authority: CN
Inventors: 王堃; 张玉华; 孙雁飞; 吴蒙; 郭篁; 陈思光
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2013-11-18
Filing date: 2013-11-18
Publication date: 2014-03-26

Abstract

一种数据挖掘中基于线性判别分析的改进型k均值聚类方法，即LKM算法，首先运用线性判别分析（LDA）对原始的n维数据集A进行线性降维，得到l维的数据集Y，然后运用k均值聚类算法对于降维后的数据集Y进行聚类分析，并输出最终结果。本发明采用数据降维与K均值聚类方法结合的方法，利用数据降维技术弥补k均值聚类算法面对高维数据时的缺陷。通过数据降维来达到减轻维数灾难和消除高维空间中其他不相关属性的目的。同时，这也提高了k均值聚类算法处理高维数据的性能，弥补了k均值聚类算法的相关缺陷。

Description

一种数据挖掘中基于线性判别分析的改进型K均值聚类方法

技术领域

本发明是一种基于线性判别分析（Linear discriminant analysis,LDA）对K均值聚类方法进行性能改进的优化方法，即LKM（LDA-based K-Means algorithm）算法，属于数据挖掘中的聚类分析研究领域。

背景技术

聚类分析是数据挖掘中的一个重要研究领域，是一种数据划分或分组处理的重要手段和方法。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。K均值聚类方法是一种很典型的基于距离划分的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似性就越大。由于其算法思想简便,又容易实现对大规模数据的聚类,因此K均值聚类方法己成为最常用的聚类算法之一。

目前，K均值聚类方法仍然存在着不少缺点，主要的问题有以下几个方面：（1）严重依赖于初始中心点的选取；（2）聚类个数K需要预先给定；（3）聚类结果易受噪声点数据的影响；（4）不适用于大数据量的聚类问题；（5）不能对高维数据进行有效处理。

K均值聚类方法在处理二维或三维数据的情况下仍能够很好地保证聚类的质量，然而随着技术的发展和人类获取信息能力的增强，需要进行K均值聚类分析处理的数据维数也在不断地增加。在N维（N＞3）数据对象处理之中，K均值聚类方法经常碰到“维数灾难”的问题。“维数灾难”(Curse of Dimensionality)指的是处理多变量函数时所需的采样点数，随着空间维数的增加将会呈现指数增长的困难；现在一般指高维数据空间的本征稀疏性。此时，K均值聚类方法的处理时间过长，效率低下。

目前，有关于数据降维的理论研究，国内外专家学者已经展开了很多的相关工作和探讨。所谓数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。然而，国内鲜有将数据降维和K均值聚类方法结合起来，利用数据降维技术弥补K均值聚类方法面对高维数据时的缺陷。通过数据降维可以减轻维数灾难和消除高维空间中其他不相关属性，我们认为对降维后的数据进行聚类分析，这提高了K均值聚类方法处理高维数据的性能。

发明内容

技术问题：本发明针对K均值聚类方法无法对高维数据进行聚类分析，无法达到K均值聚类方法对高维数据进行快速处理等问题，提供一种数据挖掘中基于线性判别分析的改进型K均值聚类方法，利用线性判别分析的线性映射，将原始的高维数据一一映射到低维空间中，完成线性降维操作，得到适合K均值聚类分析的低维数据，并完成聚类分析。

技术方案：本发明的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法具体如下：

在K均值聚类方法进行聚类分析之前，依据线性判别分析建立降维模型，将高维数据一一映射到低维空间，使其变为常见的低维数据即二维或一维数据，等待聚类分析；利用K均值聚类方法对低维数据进行分类，计算新的聚类中心，不断迭代直至误差平方和准则函数收敛，完成聚类分析；具体步骤描述如下：

1）利用线性判别分析生成一个转换矩阵G；

2）生成线性判别分析中主要包括的三个散射矩阵:类内散射矩阵S_w,类间散射矩阵S_b和总散射矩阵S_t；

3）根据转换矩阵G、类间散射矩阵S_b和总散射矩阵S_t计算最佳转化矩阵

G^{*} = \arg \max_{G} {trace ({(G^{T} S_{t} G)}^{- 1} G^{T} S_{b} G)},

G^T是G的转置矩阵；

4）利用最佳转化矩阵G^*，把n维空间中矩阵A的每一个列向量a_i一一映射到l维空间中的向量y_i，得到降维后的数据集Y；

5）从降维后的数据集Y中任意选择K个数据作为初始聚类中心Z_j(I)，j＝1,2,3，…k，k=K，K为K均值聚类方法中指定的一个自然数，I＝1；

6）计算向量y_i与步骤5）中的初始聚类中心Z_j(I)的欧式距离D(y_i,Z_j(I))，若满足D(y_i,Z_m(I))＝min D(y_i,Z_j(I))，m∈{1,2,3…k}，则将y_i赋给第m个簇C_m；

7）计算误差平方和准则函数J_c；

8）判断：若误差平方和准则函数J_c收敛，即|J_c(I)-J_c(I-1)|＜ε，ε为任意小的正数，则该算法结束，进行输出；否则I=I+1，重新计算K个新的聚类中心Z_j(I)，并返回步骤6）重新进行计算距离。

所述的在K均值聚类方法进行聚类分析之前，依据线性判别分析建立降维模型，将高维数据一一映射到低维空间，使其变为常见的低维数据即二维或一维数据，等待聚类分析；具体描述如下：

在线性判别分析LDA中，尽可能使类内距离最小化的同时使类间距离达到最大化，得到最优的投影方向以产生最好的分类结果，即选择使得样本类间离散度和样本类内离散度的比值最大化的特征描述样本；对于给定的矩阵A∈R^d×n，R^d×n表示全体d×n实矩阵构成的n维实线性空间，利用线性判别分析LDA能够生成一个转换矩阵G∈R^d×l，R^d×l表示全体d×l实矩阵构成的l维实线性空间，把n维空间中矩阵A的每一个列向量a_i一一映射到l维空间中的向量y_i，即：

y_i＝G^Ta_i∈R^l(l＜d)，1≤i≤n （1）

为了满足K均值聚类方法中划分成K个聚类的需要，将矩阵A划分成K个相应的聚类，A＝[A₁,…,A_k]，其中，

n_i为第i类A_i中的数据个数，R^l为l维线性空间，

LDA中的类内S_w、类间S_b和总散射矩阵S_t的定义如下：

S_{w} = \frac{1}{n} Σ_{i = 1}^{k} \underset{x &Element; A_{I}}{Σ} (x - c^{(i)}) {(x - c^{(i)})}^{T} - - - (2)

其中，c⁽ⁱ⁾表示第i类初始质心，x表示属于第i类A_i的样本点，类内散射矩阵S_w反映了各类中的样本到各类中心的均方距离，即属于同一类的各样本之间的分散程度；

S_{b} = \frac{1}{n} Σ_{i = 1}^{k} n_{i} (c^{(i)} - c) {(c^{(i)} - c)}^{T} - - - (3)

其中，c⁽ⁱ⁾表示第i类初始质心，c表示整体的质心，n_i为第i类A_i中的数据个数，类间散射矩阵S_b反映了各类中心到总体中心的均方距离，即各类中心之间的分散程度；由于S_t等于S_w与S_b之和，那么总散射矩阵S_t为：

S_{t} = \frac{1}{n} Σ_{j = 1}^{n} (a_{j} - c) {(a_{j} - c)}^{T} - - - (4)

其中，a_j表示A的第j个列向量，总散射矩阵S_t反映了整个样本的总体分散程度，c表示矩阵A的质心。

在利用线性转换矩阵G降维后的得到的低维空间中，S_w变成G^TS_wG，S_b转变成G^TS_bG，S_t变成G^TS_tG；当样本维数大于或接近于样本个数，则类内散布矩阵不可逆，就很难直接计算或不稳定，即碰到所谓的“小样本SSS”难题，利用最佳转化矩阵G^*可以克服SSS难题，其定义如下：

G^{*} = \arg \max_{G} {trace {((G^{T} S_{w} G)}^{- 1} G^{T} S_{b} G)} - - - (5)

通过最佳转换矩阵G^*，把n维空间中矩阵A的每一个列向量a_i一一映射到l维空间中的向量y_i，即：y_i＝（G^*）^Ta_i∈R^l(l＜d)，1≤i≤n，归结起来，LDA的线性降维方法对原始的n维数据集A进行线性降维，然后得到l维的数据集Y。

所述的利用K均值聚类方法对低维数据进行分类，计算新的聚类中心，不断迭代直至误差平方和准则函数收敛，完成聚类分析。具体描述如下：从降维后得到的数据集Y所包含的n个数据中任意选择K个作为初始聚类中心，计算所有数据与初始聚类中心的欧式距离，即：

D (y_{i}, Z_{j} (I)) = \sqrt{{(y_{i} - Z_{j} (I))}^{2}}, - - - (6)

通过反复迭代寻找K个最佳的聚类中心，将全体的n个样本点分配到离它最近的聚类中心，使得聚类误差平方和最小，聚类中心Z_j的计算公式如下：

Z_{j} (I) = \frac{1}{n} Σ_{i = 1}^{n_{j}} x_{i}^{(j)}, j = 1,2,3 . . . k - - - (7)

为了获得最小的最佳聚类结果，采用误差平方和准则函数来获取最优J_c值，其定义为:

J_{c} (I) = Σ_{j = 1}^{k} Σ_{k = 1}^{n_{j}} {| | y_{k}^{(j)} - Z_{j} (I) | |}^{2} - - - (8)

J_c描述的是把含有n个数据对象的数据集划分成K个聚类时，所有的数据样本与其所在类的中心的误差平方和，J_c值的大小与聚类中心有关，显然，J_c越大，说明各类内数据对象与其所在的类中心的误差越大，各类内数据对象间相异程度越大，聚类的质量就越差；反之，J_c越小，说明各类内数据对象与其所在的类中心的误差越小，各类内数据对象间相异程度越小，聚类的质量就越好。

所述的依据线性判别分析建立降维模型，将高维数据一一映射到低维空间，具体描述如下：在LDA线性降维阶段，运用rand()函数随机产生初始的n维实线性空间A∈R^d×n，利用LDA能够生成一个转换矩阵G∈R^d×l，把n维空间中矩阵A的每一个列向量a_i一一映射到l维空间中的向量y_i，得到降维后的数据集Y。

所述的利用K均值聚类方法对低维数据进行分类，计算新的聚类中心，不断迭代直至误差平方和准则函数收敛，完成聚类分析。具体描述如下：在K均值聚类分析阶段，从降维后得到的数据集Y所包含的n个数据中任意选择K个数据作为初始聚类中心；根据每个聚类中心，计算所有数据与这K个聚类中心的欧式距离；并根据最小距离重新对相应数据进行划分；重新计算每个聚类中心；计算误差平方和准则函数，当满足收敛条件，即函数收敛时，则算法终止；如果条件不满足则不断重复迭代过程直到标准测度函数开始收敛为止。

有益效果：本发明在聚类分析中，将线性降维LDA模型引入K均值聚类方法中，降低了高维数据空间的本征稀疏性，消除了高维空间中其他不相关属性，达到改善K均值聚类方法性能的目的。此模型通过线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。这样就能有效地减轻维数灾难，消除高维空间中其他不相关属性，缩短了样本的特征提取时间。对于降维后的数据，运用K均值聚类方法进行聚类分析，提高了的聚类精度，从而很好地提升了K均值聚类方法高维数据的处理能力，弥补了相关缺陷。

附图说明

图1是线性判别分析的线性降维过程，

图2是LKM算法的整体工作流程，

图3是对30行40列的40维数据集进行LDA降维后得到的30行2列的2维数据集，

图4是对30行2列的2维数据集完成K均值聚类分析后的输出结果，

图5是对50行70列的70维数据集进行LDA降维后得到的50行2列的2维数据集，

图6是对50行2列的2维数据集完成K均值聚类分析后的输出结果，

图7是LDA和PCA这两种常见的线性降维技术的特征提取时间，

图8是PCA-Km、LKM和K-means三种算法的聚类精度。

具体实施方式

算法定义

在本发明的关键技术（线性判别分析LDA）中，我们尽可能使类内距离最小化的同时使类间距离达到最大化，得到最优的投影方向以产生最好的分类结果，即选择使得样本类间离散度和样本类内离散度的比值最大化的特征描述样本。对于给定的矩阵A∈R^d×n（R^d×n表示全体d×n实矩阵构成的n维实线性空间），利用线性判别分析能够生成一个转换矩阵G∈R^d×l（R^d×l表示全体d×l实矩阵构成的l维实线性空间），把n维空间中矩阵A的每一个列向量a_i一一映射到l维空间中的向量y_i，即：

y_i＝G^Ta_i∈R^l(l＜d)，1≤i≤n。（1）

将矩阵A划分成k类，如A＝[A₁,…,A_k]，其中，

n_i为第i类A_i中的数据个数，R^l为l维线性空间。归结起来，线性判别分析的线性降维方法对原始的n维数据集A进行线性降维，然后得到l维的数据集Y。

这里首先给出线性判别分析中的类内、类间和总散射矩阵的定义。

定义1.类内散射矩阵S_w：

S_{w} = \frac{1}{n} Σ_{i = 1}^{k} \underset{x &Element; A_{I}}{Σ} (x - c^{(i)}) {(x - c^{(i)})}^{T} - - - (2)

其中，c⁽ⁱ⁾表示第i类初始质心，x表示属于第i类A_i的样本点。类内散射矩阵S_w反映了各类中的样本到各类中心的均方距离，即属于同一类的各样本之间的分散程度；

定义2.类间散射矩阵S_b：

S_{b} = \frac{1}{n} Σ_{i = 1}^{k} n_{i} (c^{(i)} - c) {(c^{(i)} - c)}^{T} - - - (3)

其中，c⁽ⁱ⁾表示第i类初始质心，c表示整体的质心，n_i为第i类A_i中的数据个数。类间散射矩阵S_b反映了各类中心到总体中心的均方距离，即各类中心之间的分散程度；

定义3.总散射矩阵S_t：由于S_t等于S_w与S_b之和，即：

S_t=S_b+S_w （4）

根据公式（3）可以推导出总散射矩阵S_t为：

S_{t} = \frac{1}{n} Σ_{j = 1}^{n} (a_{j} - c) {(a_{j} - c)}^{T} - - - (5)

其中，a_j表示A的第j个列向量。总散射矩阵S_t反映了整个样本的总体分散程度。c⁽ⁱ⁾表示第i类初始质心，对于第i类A_i中包含的所有数据对象求其均值，可以得到c⁽ⁱ⁾的表达式为:

c^{(i)} = \frac{1}{n_{i}} A_{i} e^{(i)} - - - (6)

其中，e⁽ⁱ⁾为全1的n阶列矩阵，即e⁽ⁱ⁾＝(1,1,…1)^T∈Rⁿ，n_i为第i类A_i中的数据个数。

由公式（4）、公式（5）可以推导出整体的质心c的表达式为：

c = \frac{1}{n} Ae, - - - (7)

其中，e为全1的n阶列矩阵，即e＝(1,1,…1)^T∈Rⁿ，

在利用线性转换矩阵G降维后的得到的低维空间中，S_w变成G^TS_wG，S_b转变成G^TS_bG，S_t变成G^TS_tG。当样本维数大于或接近于样本个数，则类内散布矩阵不可逆，就很难直接计算或不稳定，即碰到所谓的“小样本”(Small Sample Size,SSS)难题。利用最佳转化矩阵G^*来克服SSS难题，最佳转化矩阵的定义如下：

定义4.计算求解优化问题得到最佳转化矩阵G^*：

G^{*} = \arg \max_{G} {trace {({(G}^{T} S_{w} G)}^{- 1} G^{T} S_{b} G)} - - - (8)

当然，我们也可以利用公式（4）转化为求解公式（8）的等价形式：

G^{*} = \arg \max_{G} {trace {({(G}^{T} S_{t} G)}^{- 1} G^{T} S_{b} G)} - - - (9)

得到最佳转化矩阵G^*。上述优化问题，等价于当λ≠0时，依据等式：

S_bx＝λS_tx，（10）

求解出满足上述条件的x。当矩阵S_t是非奇异时，也通过对矩阵

进行特征值分解，可以得到满足条件的x。

对于给定的矩阵A∈R^d×n（R^d×n表示全体d×n实矩阵构成的n维实线性空间），利用线性判别分析能够生成一个转换矩阵G^*∈R^d×l（R^d×l表示全体d×l实矩阵构成的l维实线性空间），这样，我们就能把n维空间中矩阵A的每一个列向量a_i一一映射到l维空间中的向量y_i，即：

y_i＝（G^*）^Ta_i∈R^l(l＜d)，1≤i≤n。（11）

将矩阵A划分成k类，如A＝[A₁,…,A_k]，其中，

n_i为第i类A_i中的数据个数，R^l为l维线性空间。这就达到了线性降维的目的。

基于欧氏距离划分的K均值聚类方法

为了度量数据对象间相异性，我们采用欧式距离的测距方法。

定义5.在二维和三维空间中的欧式距离就是两点之间的距离，即：

D (y_{i}, Z_{j} (I)) = \sqrt{{(y_{i} - Z_{j} (I))}^{2}}, - - - (12)

定义6.为了获得最小的最佳聚类结果，采用误差平方和准则函数来获取最优J_c值，其定义为:

J_{c} (I) = Σ_{j = 1}^{k} Σ_{k = 1}^{n_{j}} {| | y_{k}^{(j)} - z_{j} (I) | |}^{2}, - - - (13)

J_c描述的是把含有n个数据对象的数据集划分成k个类时，所有的数据样本与其所在类的中心的误差平方和。J_c值的大小与聚类中心有关，显然，J_c越大，说明各类内数据对象与其所在的类中心的误差越大，各类内数据对象间相异程度越大，聚类的质量就越差；反之，J_c越小，说明各类内数据对象与其所在的类中心的误差越小，各类内数据对象间相异程度越小，聚类的质量就越好。

定义7.通过反复迭代寻找k个最佳的聚类中心，将全体的n个样本点分配到离它最近的聚类中心，使得聚类误差平方和最小。聚类中心Z_j的计算公式如下：

Z_{j} (I) = \frac{1}{n} Σ_{i = 1}^{n_{j}} x_{i}^{(i)}, j = 1,2,3 . . . k . - - - (14)

根据定义5、定义6和定义7，基于欧氏距离划分的K均值聚类方法如下：

1）从n个数据对象任意选择k个对象作为初始聚类中心；

2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

3)重新计算每个（有变化）聚类的均值（中心对象）；

4)计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤（2），不断重复直到标准测度函数开始收敛为止。（一般都采用均方差作为标准测度函数。）

基于LDA的改进型K均值聚类方法（LKM算法）

在这部分，我们提出基于线性判别分析（LDA）的改进型K均值聚类方法，即LKM算法，首先对原始的n维数据集A进行线性降维，得到l维的数据集Y，然后运用k均值聚类算法对于降维后的数据集Y进行聚类分析，并输出最终结果，从而提升了k均值聚类算法处理高维数据的性能。所述的LKM算法，

具体步骤如下：

1）利用线性判别分析生成一个转换矩阵G；

G^{*} = \arg \max_{G} {trace ({(G^{T} S_{t} G)}^{- 1} G^{T} S_{b} G)},

G^T是G的转置矩阵；

7）计算误差平方和准则函数J_c；

基于线性判别分析的线性降维过程

运用rand()函数随机产生初始的n维实线性空间A∈R^d×n（R^d×n表示全体d×n实矩阵构成的n维实线性空间），根据公式（7）、（8）求解优化问题，得到LDA中的转换矩阵G^*∈R^d×l（R^d×l表示全体d×l实矩阵构成的l维实线性空间），把n维空间中矩阵A的每一个列向量a_i一一映射到l维空间中的向量y_i，形如公式（10）所示。将矩阵A划分成k类，如A＝[A₁,…,A_k]，其中，

n_i为第i类A_i中的数据个数，R^l为l维线性空间。LDA的线性降维过程如图1所示。

基于降维后的数据样本的k均值聚类分析

从降维后的n个数据对象中任意选择K个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。

算法工作原理

LKM算法首先运用线性判别分析（LDA）对原始的n维数据集A进行线性降维，得到l维的数据集Y，然后运用K均值聚类方法对于降维后的数据集Y进行聚类分析，并输出最终结果。本发明的算法整体的工作流程如图2所示。

1）初始化阶段

运用rand()函数随机产生初始的n维实线性空间A∈R^d×n（R^d×n表示全体d×n实矩阵构成的n维实线性空间），留作下一阶段的降维处理操作的输入数据。

2）LDA线性降维过程

LDA方法是尽可能使类内距离最小化的同时使类间距离达到最大化，得到最优的投影方向以产生最好的分类结果，即选择使得样本类间离散度和样本类内离散度的比值最大化的特征描述样本。对于给定的矩阵A∈R^d×n，根据公式（7）、（8）求解优化问题，利用LDA能够生成一个转换矩阵G∈R^d×l（R^d×l表示全体d×l实矩阵构成的l维实线性空间），把n维空间中矩阵A的每一个列向量a_i一一映射到l维空间中的向量y_i，得到降维后的数据集Y。

（a）运用rand()函数随机产生30行40列的40维数据集A，执行LKM算法，首先进行LDA线性降维，得到30行2列的2维数据集Y,结果如图3所示。

（b）类似地，运用rand()函数随机产生50行70列的70维数据集A进行实验仿真，执行LKM算法，首先对A进行LDA线性降维，得到的50行2列的2维数据集Y如图5所示。

3）K均值聚类分析过程

从降维后得到的数据集Y所包含的n个数据对象中任意选择K个对象作为初始聚类中心；根据每个聚类对象的均值（中心对象），计算所有数据对象与这K个中心对象的欧式距离；并根据最小距离重新对相应对象进行划分；重新计算每个（有变化）聚类的均值（中心对象）；计算误差平方和准则函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则不断重复迭代过程直到标准测度函数开始收敛为止。对于线性降维后的数据集进行K-means聚类分析的结果如图4、图6所示。

（a）继续执行LKM算法，对降维后的30行2列的2维数据集Y进行聚类分析，最终输出两个簇类，LKM算法对于40维数据的聚类的输出结果如图4所示。

（b）对进行LDA线性降维后得到的50行2列的2维数据集Y，继续执行LKM算法，进行聚类分析，最终输出两个簇类。LKM算法对于70维数据的聚类分析的结果如图6所示。

当我们利用rand()函数，随机产生2维、3维、4维…70维的初始数据集A，分别进行上述实验，对于不同维数的初始数据集A进行线性降维，得到LDA和PCA这两种线性降维技术的特征提取时间变化如图7所示。

当面对相同维数的数据集时，LDA线性降维技术的特征提取时间低于PCA线性降维技术的特征提取时间。不同于PCA,LDA是一种有监督的特征提取方法，不仅保持了原始数据的最佳投影鉴别信息，而且又提高了分类性能和效率。

随着维数不断增加，我们得到PCA-Km、LKM和K-means这三种算法的聚类精度变化，如图8所示。可以发现K均值聚类方法在处理1维、2维或3维数据的情况下仍能够很好地保证聚类的质量，然而在N维（N>3）数据对象处理之中，K均值聚类方法的聚类精度较低，而运用PCA和LDA进行线性降维的改进型K均值聚类方法:PCA-Km和LKM算法的聚类精度明显高于K均值聚类方法。当初始数据集的特征维数相同时，通过图8，能够直观地看出LKM算法的聚类效果明显优于PCA-Km算法。

Claims

1.一种数据挖掘中基于线性判别分析的改进型K均值聚类方法，其特征在于在K均值聚类方法进行聚类分析之前，依据线性判别分析建立降维模型，将高维数据一一映射到低维空间，使其变为常见的低维数据即二维或一维数据，等待聚类分析；利用K均值聚类方法对低维数据进行分类，计算新的聚类中心，不断迭代直至误差平方和准则函数收敛，完成聚类分析；具体步骤描述如下：

1）利用线性判别分析生成一个转换矩阵G；

G^{*} = \arg \max_{G} {trace ({(G^{T} S_{t} G)}^{- 1} G^{T} S_{b} G)},

G^T是G的转置矩阵；

7）计算误差平方和准则函数J_c；

2.根据权利要求1所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法，其特征在于所述的在K均值聚类方法进行聚类分析之前，依据线性判别分析建立降维模型，将高维数据一一映射到低维空间，使其变为常见的低维数据即二维或一维数据，等待聚类分析；具体描述如下：

y_i＝G^Ta_i∈R^l(l＜d)，1≤i≤n （1）

为了满足K均值聚类方法中划分成K个聚类的需要，将矩阵A划分成K个相应的聚类，A＝[A₁,…,A_k]，其中， n_i为第i类A_i中的数据个数，R^l为l维线性空间，

LDA中的类内S_w、类间S_b和总散射矩阵S_t的定义如下：

S_{w} = \frac{1}{n} Σ_{i = 1}^{k} \underset{x &Element; A_{I}}{Σ} (x - c^{(i)}) {(x - c^{(i)})}^{T} - - - (2)

S_{b} = \frac{1}{n} Σ_{i = 1}^{k} n_{i} (c^{(i)} - c) {(c^{(i)} - c)}^{T} - - - (3)

S_{t} = \frac{1}{n} Σ_{j = 1}^{n} (a_{j} - c) {(a_{j} - c)}^{T} - - - (4)

G^{*} = \arg \max_{G} {trace {((G^{T} S_{w} G)}^{- 1} G^{T} S_{b} G)} - - - (5)

3.根据权利要求1所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法，其特征在于所述的利用K均值聚类方法对低维数据进行分类，计算新的聚类中心，不断迭代直至误差平方和准则函数收敛，完成聚类分析。具体描述如下：从降维后得到的数据集Y所包含的n个数据中任意选择K个作为初始聚类中心，计算所有数据与初始聚类中心的欧式距离，即：

D (y_{i}, Z_{j} (I)) = \sqrt{{(y_{i} - Z_{j} (I))}^{2}} - - - (6)

Z_{j} (I) = \frac{1}{n} Σ_{i = 1}^{n_{j}} x_{i}^{(j)}, j = 1,2,3 . . . k - - - (7)

J_{c} (I) = Σ_{j = 1}^{k} Σ_{k = 1}^{n_{j}} {| | y_{k}^{(j)} - Z_{j} (I) | |}^{2} - - - (8)

4.根据权利要求2所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法，其特征在于所述的依据线性判别分析建立降维模型，将高维数据一一映射到低维空间，具体描述如下：在LDA线性降维阶段，运用rand()函数随机产生初始的n维实线性空间A∈R^d×n，利用LDA能够生成一个转换矩阵G∈R^d×l，把n维空间中矩阵A的每一个列向量a_i一一映射到l维空间中的向量y_i，得到降维后的数据集Y。

5.根据权利要求3所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法，其特征在于所述的利用K均值聚类方法对低维数据进行分类，计算新的聚类中心，不断迭代直至误差平方和准则函数收敛，完成聚类分析。具体描述如下：在K均值聚类分析阶段，从降维后得到的数据集Y所包含的n个数据中任意选择K个数据作为初始聚类中心；根据每个聚类中心，计算所有数据与这K个聚类中心的欧式距离；并根据最小距离重新对相应数据进行划分；重新计算每个聚类中心；计算误差平方和准则函数，当满足收敛条件，即函数收敛时，则算法终止；如果条件不满足则不断重复迭代过程直到标准测度函数开始收敛为止。