CN103678500A - 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法 - Google Patents

一种数据挖掘中基于线性判别分析的改进型k均值聚类方法 Download PDF

Info

Publication number
CN103678500A
CN103678500A CN201310582288.3A CN201310582288A CN103678500A CN 103678500 A CN103678500 A CN 103678500A CN 201310582288 A CN201310582288 A CN 201310582288A CN 103678500 A CN103678500 A CN 103678500A
Authority
CN
China
Prior art keywords
data
matrix
cluster
dimension
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310582288.3A
Other languages
English (en)
Inventor
王堃
张玉华
孙雁飞
吴蒙
郭篁
陈思光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201310582288.3A priority Critical patent/CN103678500A/zh
Publication of CN103678500A publication Critical patent/CN103678500A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Abstract

一种数据挖掘中基于线性判别分析的改进型k均值聚类方法,即LKM算法,首先运用线性判别分析(LDA)对原始的n维数据集A进行线性降维,得到l维的数据集Y,然后运用k均值聚类算法对于降维后的数据集Y进行聚类分析,并输出最终结果。本发明采用数据降维与K均值聚类方法结合的方法,利用数据降维技术弥补k均值聚类算法面对高维数据时的缺陷。通过数据降维来达到减轻维数灾难和消除高维空间中其他不相关属性的目的。同时,这也提高了k均值聚类算法处理高维数据的性能,弥补了k均值聚类算法的相关缺陷。

Description

一种数据挖掘中基于线性判别分析的改进型K均值聚类方法
技术领域
本发明是一种基于线性判别分析(Linear discriminant analysis,LDA)对K均值聚类方法进行性能改进的优化方法,即LKM(LDA-based K-Means algorithm)算法,属于数据挖掘中的聚类分析研究领域。
背景技术
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。K均值聚类方法是一种很典型的基于距离划分的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似性就越大。由于其算法思想简便,又容易实现对大规模数据的聚类,因此K均值聚类方法己成为最常用的聚类算法之一。
目前,K均值聚类方法仍然存在着不少缺点,主要的问题有以下几个方面:(1)严重依赖于初始中心点的选取;(2)聚类个数K需要预先给定;(3)聚类结果易受噪声点数据的影响;(4)不适用于大数据量的聚类问题;(5)不能对高维数据进行有效处理。
K均值聚类方法在处理二维或三维数据的情况下仍能够很好地保证聚类的质量,然而随着技术的发展和人类获取信息能力的增强,需要进行K均值聚类分析处理的数据维数也在不断地增加。在N维(N>3)数据对象处理之中,K均值聚类方法经常碰到“维数灾难”的问题。“维数灾难”(Curse of Dimensionality)指的是处理多变量函数时所需的采样点数,随着空间维数的增加将会呈现指数增长的困难;现在一般指高维数据空间的本征稀疏性。此时,K均值聚类方法的处理时间过长,效率低下。
目前,有关于数据降维的理论研究,国内外专家学者已经展开了很多的相关工作和探讨。所谓数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。然而,国内鲜有将数据降维和K均值聚类方法结合起来,利用数据降维技术弥补K均值聚类方法面对高维数据时的缺陷。通过数据降维可以减轻维数灾难和消除高维空间中其他不相关属性,我们认为对降维后的数据进行聚类分析,这提高了K均值聚类方法处理高维数据的性能。
发明内容
技术问题:本发明针对K均值聚类方法无法对高维数据进行聚类分析,无法达到K均值聚类方法对高维数据进行快速处理等问题,提供一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,利用线性判别分析的线性映射,将原始的高维数据一一映射到低维空间中,完成线性降维操作,得到适合K均值聚类分析的低维数据,并完成聚类分析。
技术方案:本发明的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法具体如下:
在K均值聚类方法进行聚类分析之前,依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,使其变为常见的低维数据即二维或一维数据,等待聚类分析;利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析;具体步骤描述如下:
1)利用线性判别分析生成一个转换矩阵G;
2)生成线性判别分析中主要包括的三个散射矩阵:类内散射矩阵Sw,类间散射矩阵Sb和总散射矩阵St
3)根据转换矩阵G、类间散射矩阵Sb和总散射矩阵St计算最佳转化矩阵 G * = arg max G { trace ( ( G T S t G ) - 1 G T S b G ) } , GT是G的转置矩阵;
4)利用最佳转化矩阵G*,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,得到降维后的数据集Y;
5)从降维后的数据集Y中任意选择K个数据作为初始聚类中心Zj(I),j=1,2,3,…k,k=K,K为K均值聚类方法中指定的一个自然数,I=1;
6)计算向量yi与步骤5)中的初始聚类中心Zj(I)的欧式距离D(yi,Zj(I)),若满足D(yi,Zm(I))=min D(yi,Zj(I)),m∈{1,2,3…k},则将yi赋给第m个簇Cm
7)计算误差平方和准则函数Jc
8)判断:若误差平方和准则函数Jc收敛,即|Jc(I)-Jc(I-1)|<ε,ε为任意小的正数,则该算法结束,进行输出;否则I=I+1,重新计算K个新的聚类中心Zj(I),并返回步骤6)重新进行计算距离。
所述的在K均值聚类方法进行聚类分析之前,依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,使其变为常见的低维数据即二维或一维数据,等待聚类分析;具体描述如下:
在线性判别分析LDA中,尽可能使类内距离最小化的同时使类间距离达到最大化,得到最优的投影方向以产生最好的分类结果,即选择使得样本类间离散度和样本类内离散度的比值最大化的特征描述样本;对于给定的矩阵A∈Rd×n,Rd×n表示全体d×n实矩阵构成的n维实线性空间,利用线性判别分析LDA能够生成一个转换矩阵G∈Rd×l,Rd×l表示全体d×l实矩阵构成的l维实线性空间,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,即:
yi=GTai∈Rl(l<d),1≤i≤n       (1)
为了满足K均值聚类方法中划分成K个聚类的需要,将矩阵A划分成K个相应的聚类,A=[A1,…,Ak],其中,
Figure BDA0000416734650000036
Figure BDA0000416734650000031
ni为第i类Ai中的数据个数,Rl为l维线性空间,
LDA中的类内Sw、类间Sb和总散射矩阵St的定义如下:
S w = 1 n Σ i = 1 k Σ x ∈ A I ( x - c ( i ) ) ( x - c ( i ) ) T - - - ( 2 )
其中,c(i)表示第i类初始质心,x表示属于第i类Ai的样本点,类内散射矩阵Sw反映了各类中的样本到各类中心的均方距离,即属于同一类的各样本之间的分散程度;
S b = 1 n Σ i = 1 k n i ( c ( i ) - c ) ( c ( i ) - c ) T - - - ( 3 )
其中,c(i)表示第i类初始质心,c表示整体的质心,ni为第i类Ai中的数据个数,类间散射矩阵Sb反映了各类中心到总体中心的均方距离,即各类中心之间的分散程度;由于St等于Sw与Sb之和,那么总散射矩阵St为:
S t = 1 n Σ j = 1 n ( a j - c ) ( a j - c ) T - - - ( 4 )
其中,aj表示A的第j个列向量,总散射矩阵St反映了整个样本的总体分散程度,c表示矩阵A的质心。
在利用线性转换矩阵G降维后的得到的低维空间中,Sw变成GTSwG,Sb转变成GTSbG,St变成GTStG;当样本维数大于或接近于样本个数,则类内散布矩阵不可逆,就很难直接计算或不稳定,即碰到所谓的“小样本SSS”难题,利用最佳转化矩阵G*可以克服SSS难题,其定义如下:
G * = arg max G { trace ( ( G T S w G ) - 1 G T S b G ) } - - - ( 5 )
通过最佳转换矩阵G*,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,即:yi=(G*Tai∈Rl(l<d),1≤i≤n,归结起来,LDA的线性降维方法对原始的n维数据集A进行线性降维,然后得到l维的数据集Y。
所述的利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析。具体描述如下:从降维后得到的数据集Y所包含的n个数据中任意选择K个作为初始聚类中心,计算所有数据与初始聚类中心的欧式距离,即:
D ( y i , Z j ( I ) ) = ( y i - Z j ( I ) ) 2 , - - - ( 6 )
通过反复迭代寻找K个最佳的聚类中心,将全体的n个样本点分配到离它最近的聚类中心,使得聚类误差平方和最小,聚类中心Zj的计算公式如下:
Z j ( I ) = 1 n Σ i = 1 n j x i ( j ) , j = 1,2,3 . . . k - - - ( 7 )
为了获得最小的最佳聚类结果,采用误差平方和准则函数来获取最优Jc值,其定义为:
J c ( I ) = Σ j = 1 k Σ k = 1 n j | | y k ( j ) - Z j ( I ) | | 2 - - - ( 8 )
Jc描述的是把含有n个数据对象的数据集划分成K个聚类时,所有的数据样本与其所在类的中心的误差平方和,Jc值的大小与聚类中心有关,显然,Jc越大,说明各类内数据对象与其所在的类中心的误差越大,各类内数据对象间相异程度越大,聚类的质量就越差;反之,Jc越小,说明各类内数据对象与其所在的类中心的误差越小,各类内数据对象间相异程度越小,聚类的质量就越好。
所述的依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,具体描述如下:在LDA线性降维阶段,运用rand()函数随机产生初始的n维实线性空间A∈Rd×n,利用LDA能够生成一个转换矩阵G∈Rd×l,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,得到降维后的数据集Y。
所述的利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析。具体描述如下:在K均值聚类分析阶段,从降维后得到的数据集Y所包含的n个数据中任意选择K个数据作为初始聚类中心;根据每个聚类中心,计算所有数据与这K个聚类中心的欧式距离;并根据最小距离重新对相应数据进行划分;重新计算每个聚类中心;计算误差平方和准则函数,当满足收敛条件,即函数收敛时,则算法终止;如果条件不满足则不断重复迭代过程直到标准测度函数开始收敛为止。
有益效果:本发明在聚类分析中,将线性降维LDA模型引入K均值聚类方法中,降低了高维数据空间的本征稀疏性,消除了高维空间中其他不相关属性,达到改善K均值聚类方法性能的目的。此模型通过线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。这样就能有效地减轻维数灾难,消除高维空间中其他不相关属性,缩短了样本的特征提取时间。对于降维后的数据,运用K均值聚类方法进行聚类分析,提高了的聚类精度,从而很好地提升了K均值聚类方法高维数据的处理能力,弥补了相关缺陷。
附图说明
图1是线性判别分析的线性降维过程,
图2是LKM算法的整体工作流程,
图3是对30行40列的40维数据集进行LDA降维后得到的30行2列的2维数据集,
图4是对30行2列的2维数据集完成K均值聚类分析后的输出结果,
图5是对50行70列的70维数据集进行LDA降维后得到的50行2列的2维数据集,
图6是对50行2列的2维数据集完成K均值聚类分析后的输出结果,
图7是LDA和PCA这两种常见的线性降维技术的特征提取时间,
图8是PCA-Km、LKM和K-means三种算法的聚类精度。
具体实施方式
算法定义
在本发明的关键技术(线性判别分析LDA)中,我们尽可能使类内距离最小化的同时使类间距离达到最大化,得到最优的投影方向以产生最好的分类结果,即选择使得样本类间离散度和样本类内离散度的比值最大化的特征描述样本。对于给定的矩阵A∈Rd×n(Rd×n表示全体d×n实矩阵构成的n维实线性空间),利用线性判别分析能够生成一个转换矩阵G∈Rd×l(Rd×l表示全体d×l实矩阵构成的l维实线性空间),把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,即:
yi=GTai∈Rl(l<d),1≤i≤n。           (1)
将矩阵A划分成k类,如A=[A1,…,Ak],其中,
Figure BDA0000416734650000052
Figure BDA0000416734650000051
ni为第i类Ai中的数据个数,Rl为l维线性空间。归结起来,线性判别分析的线性降维方法对原始的n维数据集A进行线性降维,然后得到l维的数据集Y。
这里首先给出线性判别分析中的类内、类间和总散射矩阵的定义。
定义1.类内散射矩阵Sw
S w = 1 n Σ i = 1 k Σ x ∈ A I ( x - c ( i ) ) ( x - c ( i ) ) T - - - ( 2 )
其中,c(i)表示第i类初始质心,x表示属于第i类Ai的样本点。类内散射矩阵Sw反映了各类中的样本到各类中心的均方距离,即属于同一类的各样本之间的分散程度;
定义2.类间散射矩阵Sb
S b = 1 n Σ i = 1 k n i ( c ( i ) - c ) ( c ( i ) - c ) T - - - ( 3 )
其中,c(i)表示第i类初始质心,c表示整体的质心,ni为第i类Ai中的数据个数。类间散射矩阵Sb反映了各类中心到总体中心的均方距离,即各类中心之间的分散程度;
定义3.总散射矩阵St:由于St等于Sw与Sb之和,即:
St=Sb+Sw                (4)
根据公式(3)可以推导出总散射矩阵St为:
S t = 1 n Σ j = 1 n ( a j - c ) ( a j - c ) T - - - ( 5 )
其中,aj表示A的第j个列向量。总散射矩阵St反映了整个样本的总体分散程度。c(i)表示第i类初始质心,对于第i类Ai中包含的所有数据对象求其均值,可以得到c(i)的表达式为:
c ( i ) = 1 n i A i e ( i ) - - - ( 6 )
其中,e(i)为全1的n阶列矩阵,即e(i)=(1,1,…1)T∈Rn,ni为第i类Ai中的数据个数。
由公式(4)、公式(5)可以推导出整体的质心c的表达式为:
c = 1 n Ae , - - - ( 7 )
其中,e为全1的n阶列矩阵,即e=(1,1,…1)T∈Rn
Figure BDA0000416734650000066
在利用线性转换矩阵G降维后的得到的低维空间中,Sw变成GTSwG,Sb转变成GTSbG,St变成GTStG。当样本维数大于或接近于样本个数,则类内散布矩阵不可逆,就很难直接计算或不稳定,即碰到所谓的“小样本”(Small Sample Size,SSS)难题。利用最佳转化矩阵G*来克服SSS难题,最佳转化矩阵的定义如下:
定义4.计算求解优化问题得到最佳转化矩阵G*
G * = arg max G { trace ( ( G T S w G ) - 1 G T S b G ) } - - - ( 8 )
当然,我们也可以利用公式(4)转化为求解公式(8)的等价形式:
G * = arg max G { trace ( ( G T S t G ) - 1 G T S b G ) } - - - ( 9 )
得到最佳转化矩阵G*。上述优化问题,等价于当λ≠0时,依据等式:
Sbx=λStx,             (10)
求解出满足上述条件的x。当矩阵St是非奇异时,也通过对矩阵
Figure BDA0000416734650000073
进行特征值分解,可以得到满足条件的x。
对于给定的矩阵A∈Rd×n(Rd×n表示全体d×n实矩阵构成的n维实线性空间),利用线性判别分析能够生成一个转换矩阵G*∈Rd×l(Rd×l表示全体d×l实矩阵构成的l维实线性空间),这样,我们就能把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,即:
yi=(G*Tai∈Rl(l<d),1≤i≤n。             (11)
将矩阵A划分成k类,如A=[A1,…,Ak],其中,
Figure BDA0000416734650000074
ni为第i类Ai中的数据个数,Rl为l维线性空间。这就达到了线性降维的目的。
基于欧氏距离划分的K均值聚类方法
为了度量数据对象间相异性,我们采用欧式距离的测距方法。
定义5.在二维和三维空间中的欧式距离就是两点之间的距离,即:
D ( y i , Z j ( I ) ) = ( y i - Z j ( I ) ) 2 , - - - ( 12 )
定义6.为了获得最小的最佳聚类结果,采用误差平方和准则函数来获取最优Jc值,其定义为:
J c ( I ) = Σ j = 1 k Σ k = 1 n j | | y k ( j ) - z j ( I ) | | 2 , - - - ( 13 )
Jc描述的是把含有n个数据对象的数据集划分成k个类时,所有的数据样本与其所在类的中心的误差平方和。Jc值的大小与聚类中心有关,显然,Jc越大,说明各类内数据对象与其所在的类中心的误差越大,各类内数据对象间相异程度越大,聚类的质量就越差;反之,Jc越小,说明各类内数据对象与其所在的类中心的误差越小,各类内数据对象间相异程度越小,聚类的质量就越好。
定义7.通过反复迭代寻找k个最佳的聚类中心,将全体的n个样本点分配到离它最近的聚类中心,使得聚类误差平方和最小。聚类中心Zj的计算公式如下:
Z j ( I ) = 1 n Σ i = 1 n j x i ( i ) , j = 1,2,3 . . . k . - - - ( 14 )
根据定义5、定义6和定义7,基于欧氏距离划分的K均值聚类方法如下:
1)从n个数据对象任意选择k个对象作为初始聚类中心;
2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
3)重新计算每个(有变化)聚类的均值(中心对象);
4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤(2),不断重复直到标准测度函数开始收敛为止。(一般都采用均方差作为标准测度函数。)
基于LDA的改进型K均值聚类方法(LKM算法)
在这部分,我们提出基于线性判别分析(LDA)的改进型K均值聚类方法,即LKM算法,首先对原始的n维数据集A进行线性降维,得到l维的数据集Y,然后运用k均值聚类算法对于降维后的数据集Y进行聚类分析,并输出最终结果,从而提升了k均值聚类算法处理高维数据的性能。所述的LKM算法,
具体步骤如下:
1)利用线性判别分析生成一个转换矩阵G;
2)生成线性判别分析中主要包括的三个散射矩阵:类内散射矩阵Sw,类间散射矩阵Sb和总散射矩阵St
3)根据转换矩阵G、类间散射矩阵Sb和总散射矩阵St计算最佳转化矩阵 G * = arg max G { trace ( ( G T S t G ) - 1 G T S b G ) } , GT是G的转置矩阵;
4)利用最佳转化矩阵G*,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,得到降维后的数据集Y;
5)从降维后的数据集Y中任意选择K个数据作为初始聚类中心Zj(I),j=1,2,3,…k,k=K,K为K均值聚类方法中指定的一个自然数,I=1;
6)计算向量yi与步骤5)中的初始聚类中心Zj(I)的欧式距离D(yi,Zj(I)),若满足D(yi,Zm(I))=min D(yi,Zj(I)),m∈{1,2,3…k},则将yi赋给第m个簇Cm
7)计算误差平方和准则函数Jc
8)判断:若误差平方和准则函数Jc收敛,即|Jc(I)-Jc(I-1)|<ε,ε为任意小的正数,则该算法结束,进行输出;否则I=I+1,重新计算K个新的聚类中心Zj(I),并返回步骤6)重新进行计算距离。
基于线性判别分析的线性降维过程
运用rand()函数随机产生初始的n维实线性空间A∈Rd×n(Rd×n表示全体d×n实矩阵构成的n维实线性空间),根据公式(7)、(8)求解优化问题,得到LDA中的转换矩阵G*∈Rd×l(Rd×l表示全体d×l实矩阵构成的l维实线性空间),把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,形如公式(10)所示。将矩阵A划分成k类,如A=[A1,…,Ak],其中,
Figure BDA0000416734650000091
ni为第i类Ai中的数据个数,Rl为l维线性空间。LDA的线性降维过程如图1所示。
基于降维后的数据样本的k均值聚类分析
从降维后的n个数据对象中任意选择K个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
算法工作原理
LKM算法首先运用线性判别分析(LDA)对原始的n维数据集A进行线性降维,得到l维的数据集Y,然后运用K均值聚类方法对于降维后的数据集Y进行聚类分析,并输出最终结果。本发明的算法整体的工作流程如图2所示。
1)初始化阶段
运用rand()函数随机产生初始的n维实线性空间A∈Rd×n(Rd×n表示全体d×n实矩阵构成的n维实线性空间),留作下一阶段的降维处理操作的输入数据。
2)LDA线性降维过程
LDA方法是尽可能使类内距离最小化的同时使类间距离达到最大化,得到最优的投影方向以产生最好的分类结果,即选择使得样本类间离散度和样本类内离散度的比值最大化的特征描述样本。对于给定的矩阵A∈Rd×n,根据公式(7)、(8)求解优化问题,利用LDA能够生成一个转换矩阵G∈Rd×l(Rd×l表示全体d×l实矩阵构成的l维实线性空间),把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,得到降维后的数据集Y。
(a)运用rand()函数随机产生30行40列的40维数据集A,执行LKM算法,首先进行LDA线性降维,得到30行2列的2维数据集Y,结果如图3所示。
(b)类似地,运用rand()函数随机产生50行70列的70维数据集A进行实验仿真,执行LKM算法,首先对A进行LDA线性降维,得到的50行2列的2维数据集Y如图5所示。
3)K均值聚类分析过程
从降维后得到的数据集Y所包含的n个数据对象中任意选择K个对象作为初始聚类中心;根据每个聚类对象的均值(中心对象),计算所有数据对象与这K个中心对象的欧式距离;并根据最小距离重新对相应对象进行划分;重新计算每个(有变化)聚类的均值(中心对象);计算误差平方和准则函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则不断重复迭代过程直到标准测度函数开始收敛为止。对于线性降维后的数据集进行K-means聚类分析的结果如图4、图6所示。
(a)继续执行LKM算法,对降维后的30行2列的2维数据集Y进行聚类分析,最终输出两个簇类,LKM算法对于40维数据的聚类的输出结果如图4所示。
(b)对进行LDA线性降维后得到的50行2列的2维数据集Y,继续执行LKM算法,进行聚类分析,最终输出两个簇类。LKM算法对于70维数据的聚类分析的结果如图6所示。
当我们利用rand()函数,随机产生2维、3维、4维…70维的初始数据集A,分别进行上述实验,对于不同维数的初始数据集A进行线性降维,得到LDA和PCA这两种线性降维技术的特征提取时间变化如图7所示。
当面对相同维数的数据集时,LDA线性降维技术的特征提取时间低于PCA线性降维技术的特征提取时间。不同于PCA,LDA是一种有监督的特征提取方法,不仅保持了原始数据的最佳投影鉴别信息,而且又提高了分类性能和效率。
随着维数不断增加,我们得到PCA-Km、LKM和K-means这三种算法的聚类精度变化,如图8所示。可以发现K均值聚类方法在处理1维、2维或3维数据的情况下仍能够很好地保证聚类的质量,然而在N维(N>3)数据对象处理之中,K均值聚类方法的聚类精度较低,而运用PCA和LDA进行线性降维的改进型K均值聚类方法:PCA-Km和LKM算法的聚类精度明显高于K均值聚类方法。当初始数据集的特征维数相同时,通过图8,能够直观地看出LKM算法的聚类效果明显优于PCA-Km算法。

Claims (5)

1.一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于在K均值聚类方法进行聚类分析之前,依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,使其变为常见的低维数据即二维或一维数据,等待聚类分析;利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析;具体步骤描述如下:
1)利用线性判别分析生成一个转换矩阵G;
2)生成线性判别分析中主要包括的三个散射矩阵:类内散射矩阵Sw,类间散射矩阵Sb和总散射矩阵St
3)根据转换矩阵G、类间散射矩阵Sb和总散射矩阵St计算最佳转化矩阵 G * = arg max G { trace ( ( G T S t G ) - 1 G T S b G ) } , GT是G的转置矩阵;
4)利用最佳转化矩阵G*,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,得到降维后的数据集Y;
5)从降维后的数据集Y中任意选择K个数据作为初始聚类中心Zj(I),j=1,2,3,…k,k=K,K为K均值聚类方法中指定的一个自然数,I=1;
6)计算向量yi与步骤5)中的初始聚类中心Zj(I)的欧式距离D(yi,Zj(I)),若满足D(yi,Zm(I))=min D(yi,Zj(I)),m∈{1,2,3…k},则将yi赋给第m个簇Cm
7)计算误差平方和准则函数Jc
8)判断:若误差平方和准则函数Jc收敛,即|Jc(I)-Jc(I-1)|<ε,ε为任意小的正数,则该算法结束,进行输出;否则I=I+1,重新计算K个新的聚类中心Zj(I),并返回步骤6)重新进行计算距离。
2.根据权利要求1所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于所述的在K均值聚类方法进行聚类分析之前,依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,使其变为常见的低维数据即二维或一维数据,等待聚类分析;具体描述如下:
在线性判别分析LDA中,尽可能使类内距离最小化的同时使类间距离达到最大化,得到最优的投影方向以产生最好的分类结果,即选择使得样本类间离散度和样本类内离散度的比值最大化的特征描述样本;对于给定的矩阵A∈Rd×n,Rd×n表示全体d×n实矩阵构成的n维实线性空间,利用线性判别分析LDA能够生成一个转换矩阵G∈Rd×l,Rd×l表示全体d×l实矩阵构成的l维实线性空间,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,即:
yi=GTai∈Rl(l<d),1≤i≤n             (1)
为了满足K均值聚类方法中划分成K个聚类的需要,将矩阵A划分成K个相应的聚类,A=[A1,…,Ak],其中, ni为第i类Ai中的数据个数,Rl为l维线性空间,
LDA中的类内Sw、类间Sb和总散射矩阵St的定义如下:
S w = 1 n Σ i = 1 k Σ x ∈ A I ( x - c ( i ) ) ( x - c ( i ) ) T - - - ( 2 )
其中,c(i)表示第i类初始质心,x表示属于第i类Ai的样本点,类内散射矩阵Sw反映了各类中的样本到各类中心的均方距离,即属于同一类的各样本之间的分散程度;
S b = 1 n Σ i = 1 k n i ( c ( i ) - c ) ( c ( i ) - c ) T - - - ( 3 )
其中,c(i)表示第i类初始质心,c表示整体的质心,ni为第i类Ai中的数据个数,类间散射矩阵Sb反映了各类中心到总体中心的均方距离,即各类中心之间的分散程度;由于St等于Sw与Sb之和,那么总散射矩阵St为:
S t = 1 n Σ j = 1 n ( a j - c ) ( a j - c ) T - - - ( 4 )
其中,aj表示A的第j个列向量,总散射矩阵St反映了整个样本的总体分散程度,c表示矩阵A的质心。
在利用线性转换矩阵G降维后的得到的低维空间中,Sw变成GTSwG,Sb转变成GTSbG,St变成GTStG;当样本维数大于或接近于样本个数,则类内散布矩阵不可逆,就很难直接计算或不稳定,即碰到所谓的“小样本SSS”难题,利用最佳转化矩阵G*可以克服SSS难题,其定义如下:
G * = arg max G { trace ( ( G T S w G ) - 1 G T S b G ) } - - - ( 5 )
通过最佳转换矩阵G*,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,即:yi=(G*Tai∈Rl(l<d),1≤i≤n,归结起来,LDA的线性降维方法对原始的n维数据集A进行线性降维,然后得到l维的数据集Y。
3.根据权利要求1所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于所述的利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析。具体描述如下:从降维后得到的数据集Y所包含的n个数据中任意选择K个作为初始聚类中心,计算所有数据与初始聚类中心的欧式距离,即:
D ( y i , Z j ( I ) ) = ( y i - Z j ( I ) ) 2 - - - ( 6 )
通过反复迭代寻找K个最佳的聚类中心,将全体的n个样本点分配到离它最近的聚类中心,使得聚类误差平方和最小,聚类中心Zj的计算公式如下:
Z j ( I ) = 1 n Σ i = 1 n j x i ( j ) , j = 1,2,3 . . . k - - - ( 7 )
为了获得最小的最佳聚类结果,采用误差平方和准则函数来获取最优Jc值,其定义为:
J c ( I ) = Σ j = 1 k Σ k = 1 n j | | y k ( j ) - Z j ( I ) | | 2 - - - ( 8 )
Jc描述的是把含有n个数据对象的数据集划分成K个聚类时,所有的数据样本与其所在类的中心的误差平方和,Jc值的大小与聚类中心有关,显然,Jc越大,说明各类内数据对象与其所在的类中心的误差越大,各类内数据对象间相异程度越大,聚类的质量就越差;反之,Jc越小,说明各类内数据对象与其所在的类中心的误差越小,各类内数据对象间相异程度越小,聚类的质量就越好。
4.根据权利要求2所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于所述的依据线性判别分析建立降维模型,将高维数据一一映射到低维空间,具体描述如下:在LDA线性降维阶段,运用rand()函数随机产生初始的n维实线性空间A∈Rd×n,利用LDA能够生成一个转换矩阵G∈Rd×l,把n维空间中矩阵A的每一个列向量ai一一映射到l维空间中的向量yi,得到降维后的数据集Y。
5.根据权利要求3所述的一种数据挖掘中基于线性判别分析的改进型K均值聚类方法,其特征在于所述的利用K均值聚类方法对低维数据进行分类,计算新的聚类中心,不断迭代直至误差平方和准则函数收敛,完成聚类分析。具体描述如下:在K均值聚类分析阶段,从降维后得到的数据集Y所包含的n个数据中任意选择K个数据作为初始聚类中心;根据每个聚类中心,计算所有数据与这K个聚类中心的欧式距离;并根据最小距离重新对相应数据进行划分;重新计算每个聚类中心;计算误差平方和准则函数,当满足收敛条件,即函数收敛时,则算法终止;如果条件不满足则不断重复迭代过程直到标准测度函数开始收敛为止。
CN201310582288.3A 2013-11-18 2013-11-18 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法 Pending CN103678500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310582288.3A CN103678500A (zh) 2013-11-18 2013-11-18 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310582288.3A CN103678500A (zh) 2013-11-18 2013-11-18 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法

Publications (1)

Publication Number Publication Date
CN103678500A true CN103678500A (zh) 2014-03-26

Family

ID=50316045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310582288.3A Pending CN103678500A (zh) 2013-11-18 2013-11-18 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法

Country Status (1)

Country Link
CN (1) CN103678500A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573333A (zh) * 2014-12-22 2015-04-29 长江大学 利用聚类分析进行模型优选的方法
CN104731875A (zh) * 2015-03-06 2015-06-24 浙江大学 一种获取多维数据稳定性的方法和系统
CN106202480A (zh) * 2016-07-19 2016-12-07 淮阴工学院 一种基于K‑means和LDA双向验证的网络行为习惯聚类方法
CN106452452A (zh) * 2016-09-08 2017-02-22 电子科技大学 一种基于K‑means聚类的全脉冲数据无损压缩方法
CN106568724A (zh) * 2016-11-01 2017-04-19 清华大学 光谱曲线预处理及特征挖掘方法及装置
CN107066569A (zh) * 2017-04-07 2017-08-18 武汉大学 一种分布式网络爬虫系统及信息爬取的方法
CN107154029A (zh) * 2017-05-08 2017-09-12 聚龙智瞳科技有限公司 用于低照度图像处理的方法及装置
CN107220475A (zh) * 2016-11-01 2017-09-29 重庆交通大学 一种基于线性判别分析的轴承特征数据分析方法
CN107271965A (zh) * 2017-06-13 2017-10-20 电子科技大学 类聚集子空间的真假目标一维距离像特征提取方法
CN107992902A (zh) * 2017-12-22 2018-05-04 北京工业大学 一种基于监督学习的地面公交扒窃个体自动检测方法
CN108109004A (zh) * 2017-12-18 2018-06-01 北京三快在线科技有限公司 相似人群扩展方法、装置及电子设备
CN109348416A (zh) * 2018-09-06 2019-02-15 西安电子科技大学 基于二分k均值的指纹室内定位方法
CN109446319A (zh) * 2018-09-29 2019-03-08 昆明理工大学 一种基于K-means的生物医药专利聚类分析方法
CN109495920A (zh) * 2017-09-13 2019-03-19 中国移动通信集团设计院有限公司 一种无线通信网络特征画像方法、设备和计算机程序产品
CN110097117A (zh) * 2019-04-30 2019-08-06 哈尔滨工程大学 基于线性判别分析与多元自适应样条的数据分类方法
CN111583217A (zh) * 2020-04-30 2020-08-25 深圳开立生物医疗科技股份有限公司 一种肿瘤消融疗效预测方法、装置、设备及计算机介质
CN112188284A (zh) * 2020-10-23 2021-01-05 武汉长江通信智联技术有限公司 一种基于无线视频监控系统的客户端低延时平滑播放方法
CN115358354A (zh) * 2022-10-24 2022-11-18 中国水利水电科学研究院 一种降雨空间数据复原和重构的方法
CN116955444A (zh) * 2023-06-15 2023-10-27 共享易付(广州)网络科技有限公司 基于大数据分析的采集噪声点挖掘方法及系统
CN117556289A (zh) * 2024-01-12 2024-02-13 山东杰出人才发展集团有限公司 一种基于数据挖掘的企业数字化智能运营方法及系统

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573333B (zh) * 2014-12-22 2017-05-10 长江大学 利用聚类分析进行模型优选的方法
CN104573333A (zh) * 2014-12-22 2015-04-29 长江大学 利用聚类分析进行模型优选的方法
CN104731875A (zh) * 2015-03-06 2015-06-24 浙江大学 一种获取多维数据稳定性的方法和系统
CN104731875B (zh) * 2015-03-06 2018-04-17 浙江大学 一种获取多维数据稳定性的方法和系统
CN106202480A (zh) * 2016-07-19 2016-12-07 淮阴工学院 一种基于K‑means和LDA双向验证的网络行为习惯聚类方法
CN106202480B (zh) * 2016-07-19 2019-06-11 淮阴工学院 一种基于K-means和LDA双向验证的网络行为习惯聚类方法
CN106452452A (zh) * 2016-09-08 2017-02-22 电子科技大学 一种基于K‑means聚类的全脉冲数据无损压缩方法
CN106568724B (zh) * 2016-11-01 2019-03-01 清华大学 光谱曲线预处理及特征挖掘方法及装置
CN106568724A (zh) * 2016-11-01 2017-04-19 清华大学 光谱曲线预处理及特征挖掘方法及装置
CN107220475A (zh) * 2016-11-01 2017-09-29 重庆交通大学 一种基于线性判别分析的轴承特征数据分析方法
CN107066569A (zh) * 2017-04-07 2017-08-18 武汉大学 一种分布式网络爬虫系统及信息爬取的方法
CN107154029A (zh) * 2017-05-08 2017-09-12 聚龙智瞳科技有限公司 用于低照度图像处理的方法及装置
CN107271965A (zh) * 2017-06-13 2017-10-20 电子科技大学 类聚集子空间的真假目标一维距离像特征提取方法
CN109495920B (zh) * 2017-09-13 2022-03-29 中国移动通信集团设计院有限公司 一种无线通信网络特征画像方法、设备和计算机程序产品
CN109495920A (zh) * 2017-09-13 2019-03-19 中国移动通信集团设计院有限公司 一种无线通信网络特征画像方法、设备和计算机程序产品
CN108109004A (zh) * 2017-12-18 2018-06-01 北京三快在线科技有限公司 相似人群扩展方法、装置及电子设备
CN107992902A (zh) * 2017-12-22 2018-05-04 北京工业大学 一种基于监督学习的地面公交扒窃个体自动检测方法
CN109348416A (zh) * 2018-09-06 2019-02-15 西安电子科技大学 基于二分k均值的指纹室内定位方法
CN109348416B (zh) * 2018-09-06 2020-08-25 西安电子科技大学 基于二分k均值的指纹室内定位方法
CN109446319A (zh) * 2018-09-29 2019-03-08 昆明理工大学 一种基于K-means的生物医药专利聚类分析方法
CN110097117A (zh) * 2019-04-30 2019-08-06 哈尔滨工程大学 基于线性判别分析与多元自适应样条的数据分类方法
CN110097117B (zh) * 2019-04-30 2023-12-12 哈尔滨工程大学 基于线性判别分析与多元自适应样条的数据分类方法
CN111583217A (zh) * 2020-04-30 2020-08-25 深圳开立生物医疗科技股份有限公司 一种肿瘤消融疗效预测方法、装置、设备及计算机介质
CN112188284A (zh) * 2020-10-23 2021-01-05 武汉长江通信智联技术有限公司 一种基于无线视频监控系统的客户端低延时平滑播放方法
CN115358354A (zh) * 2022-10-24 2022-11-18 中国水利水电科学研究院 一种降雨空间数据复原和重构的方法
CN116955444A (zh) * 2023-06-15 2023-10-27 共享易付(广州)网络科技有限公司 基于大数据分析的采集噪声点挖掘方法及系统
CN117556289A (zh) * 2024-01-12 2024-02-13 山东杰出人才发展集团有限公司 一种基于数据挖掘的企业数字化智能运营方法及系统
CN117556289B (zh) * 2024-01-12 2024-04-16 山东杰出人才发展集团有限公司 一种基于数据挖掘的企业数字化智能运营方法及系统

Similar Documents

Publication Publication Date Title
CN103678500A (zh) 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法
CN102324047A (zh) 基于稀疏核编码skr的高光谱图像地物识别方法
CN109871860A (zh) 一种基于核主成分分析的日负荷曲线降维聚类方法
CN105574642A (zh) 一种基于智能电网大数据的电价执行稽查方法
CN103235812B (zh) 查询多意图识别方法和系统
CN103745205A (zh) 一种基于多线性均值成分分析的步态识别方法
CN102945517B (zh) 一种基于聚类分析的服装标准工时的数据挖掘方法
CN102663499B (zh) 基于模拟退火遗传算法的网络社区划分方法
Qin et al. Hydrological time series anomaly pattern detection based on isolation forest
Li et al. Ensemble learning for spectral clustering
CN111539482B (zh) 基于rbf核函数的空间多维风电功率数据降维及重构方法
Tan et al. High-order fuzzy clustering algorithm based on multikernel mean shift
CN102982342B (zh) 基于拉格朗日对偶的半正定谱聚类方法
CN103440275A (zh) 一种基于普利姆的k均值聚类方法
CN105447521A (zh) 一种K-means聚类的初值选择方法
CN104951805A (zh) 基于类间可分性的完全二叉树svm多分类方法
CN111612319A (zh) 基于一维卷积自编码器的负荷曲线深度嵌入聚类方法
CN105787113A (zh) 一种基于plm数据库面向dpipp工艺信息的挖掘算法
Wang et al. Two-level-oriented selective clustering ensemble based on hybrid multi-modal metrics
Wang et al. Spectral clustering of high-dimensional data via nonnegative matrix factorization
CN103258134A (zh) 一种高维的振动信号的降维处理方法
CN102609733A (zh) 海量人脸库应用环境下的人脸快速识别方法
CN101051306A (zh) 一种冲压件实例检索方法
CN112215490A (zh) 一种基于相关性系数改进K-means的电力负荷聚类分析方法
CN113988161A (zh) 一种用户用电行为模式识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140326

WD01 Invention patent application deemed withdrawn after publication