CN102254033A

CN102254033A - 基于熵权重的全局k-均值聚类方法

Info

Publication number: CN102254033A
Application number: CN201110224684XA
Authority: CN
Inventors: 于昕; 焦李成; 惠转妮; 刘芳; 曹宇; 吴建设; 王达; 王爽; 李阳阳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2011-08-05
Filing date: 2011-08-05
Publication date: 2011-11-23

Abstract

一种基于熵权重的全局K-均值聚类方法。其实现过程为：首先将数据聚为一类，其最佳聚类中心为所有数据的质心，接着通过计算求出目标函数最小的数据点并将该数据点作为下一类的初始聚类中心，再利用带有熵权重的K-均值方法迭代更新得到聚为两类时的最佳聚类中心，采用同样的方法依次增加聚类中心数进行更新迭代直到聚完设定的K类为止，这样就完成了将所有数据点聚到K类的整个过程。本发明.将全局K-均值方法与带有熵属性的K-均值相结合，构造了一种新的基于熵权值的全局K-均值聚类方法，聚类结果十分的稳定，通过与几种K-均值类聚类方法的实验结果进行比较，证明了本发明得到的聚类方法的有效性和鲁棒性。

Description

基于熵权重的全局K-均值聚类方法

技术领域

本发明涉及一种新的聚类方法。具体地说是提出了一种基于熵权重的全局K-均值聚类方法，用于解决聚类中常见的K-均值类方法的聚类准确度不高和聚类结果不稳定的问题，在提高了方法的聚类准确度的同时得到了很稳定的聚类结果。

背景技术

聚类就是将一组样本划分到各个类中的一个过程，从而使得类内距离最小化，类间距离最大化，即同一类中的样本尽可能的相似，而不同类中的样本尽可能的不同。聚类在数据挖掘，统计学，机器学习，空间数据库技术，生物学以及市场营销中起着很重要的作用。

近些年，在聚类的很多应用领域中数据变得越来越复杂。一个目标经常会用很多个属性特征来描述，而对于聚类而言，有些属性起着比较重要的作用，而另外一些属性则只有很小的作用，甚至不影响对目标的聚类。目前很多(基于距离的)聚类方法对于这些复杂的多维数据聚类不是很有效的。这是因为K-均值类方法采用的是单纯的欧式距离度量方法，即计算每个对象到各个聚类中心的欧式距离，离哪个聚类中心最近则属于哪一类，很明显这种计算方法将目标的每个属性对聚类的重要性简单的视为相等，而实际上是各不相同的，所以特别当处理的是多维复杂数据的时候，这种传统的K-均值方法就不是很有效了。

目前主要有两种技术可以解决这个问题：1.特征转移技术；2.特征权重技术也可以称为特征选择技术。一般来说，特征转移技术对于存在大量属性对于聚类无关的这种情况不适应。特征权重技术即不同属性对于聚类的重要性和不同样本对于每一类所起的作用都是不同的。它主要分为两个方向：有监督的方法和无监督的方法。在早期，提出了很多有监督特征权重的方法。近些年来，提出了很多无监督的特征权重方法。因为这些方法很多都是基于K-均值的处理过程，所以基本都是K-均值类方法。不同的是，在K-均值的每次迭代中，都引入了计算属性权重值的步骤来优化权值和建立类别。

我们主要研究了无监督的特征权重技术，首先对其中一种经典的LAW-K-均值(局部属性权值K-均值)方法进行深入研究。LAW-K-均值方法是在K-均值基础上的一种局部属性权重方法。为了确定目标属于哪一类，该方法采用权重差异测试方法来对每一类的重要属性进行分组。之后又有一些学者对该方法进行了一些改进。H.Friguiand和O.Nasraoui引入了每一个目标属于每一类的程度以及每一类的每一个属性对于聚类的作用。Liping Jing，，Michael K.Ng等人提出了一种熵权重K-均值方法，该方法采用属性权重的熵来表示属性对于识别每一类所起的作用。Tao ying Li和Yan Chen通过对目标函数的修改而拓展了熵属性权重方法。我们主要对基于熵权重的k均值方法进行研究。分析该方法的优势与劣势，然后对其进行改进。

下面深入地介绍两种主要的相关方法。

1.基于熵权重的K-均值方法

通过以上的介绍和分析，我们可以看出，基于熵权重的K-均值方法是一种基于K-均值的方法，通过在该方法中引入属性权重的熵，从而使得方法的性能有了一定的提高，但是这种方法也是随机的选择初始聚类中心，所以聚类结果的好坏依赖于初始聚类中心的选择，依然存在对初始聚类中心敏感而导致其聚类结果不是很稳定。而且，基于熵的K-均值方法中熵权重的确定也取决于初始点的选择，这就使得该方法的聚类结果更易受到初始聚类中心的影响而变得更加的不稳定。所以我们要想使聚类的效果既保持很高的准确度，同时又很稳定，就要试图使聚类中心的选择不再是随机确定的，而是根据一定的数学原理推导出来的合理的初始中心的选择方法。

2.全局K-均值

2002年A.Likas等人提出了全局K-均值方法。该方法与K-均值方法的不同之处在于初始聚类中心点的选择，但都采用K-均值进行聚类中心的更新。全局K-均值采用一种确定性地方法而不是随机选取来产生初始聚类中心，所以全局K-均值方法不依赖于任何的初始参数值。Global开始只确定一个聚类中心，通过选取所有点的中心作为第一个初始的聚类中心，再通过K-均值更新，直到不再变好而停止更新，然后再选出第二个聚类中心，选取所有点中对应的聚类错误最小的那个点作为第二个聚类中心，再采用K-均值进行更新，直到找到K个聚类中心方法就会结束。这种方法因为其初始中心选取的改变使得方法非常稳定，因为所有初始点的选择都是根据同样的原理，所以都是确定性的操作，得到的聚类结果有所改善的同时也非常的稳定。

通过上面的分析可以看出，基于熵权重的K-均值方法可以得到较好的聚类结果，但是其稳定性比较差，而全局K-均值得到的结果非常的稳定并且聚类准确度有所提高。如果将基于熵权重的K-均值聚类方法与全局K-均值方法进行结合构造出新的聚类方法，可以通过确定性的选取初始聚类中心的方法来解决对初始点敏感这一瓶颈问题，又通过引入熵权重来提高对多维数据的聚类效果。

发明内容

本发明所要解决的技术问题是，针对熵权重的K-均值方法单独使用稳定性比较差的不足，为了提高对多维数据聚类的准确度，并增强聚类结果的稳定性，基于多维数据聚类的特点，提出了一种基于熵权重的全局K-均值聚类方法，与其他方法相比，该方法能够获得更高的聚类正确率和稳定性。

本发明的技术方案是：首先将数据聚为一类，其最佳聚类中心就是所有样本的质心，接着将所有数据点都看成下一类的聚类中心，将使得目标函数最小的数据点作为下一类的初始聚类中心，再利用基于熵权重的K-均值方法进行迭代更新得到聚为两类时的最佳聚类中心，采用同样的方法依次增加聚类中心数进行更新迭代直到聚完K类(K为已知的聚类个数)为止，这样就完成了将所有样本点聚为K类的整个过程，其具体实现步骤如下：

1、输入多维样本点x_ij，1≤i≤N，1≤j≤M和聚类个数K，其中N表示样本的个数，D表示样本的特征属性个数，x_ij表示第i个样本点的第j个属性；

2、初始化聚类个数k＝1

初始化第1类的特征权重值为

D表示样本的特征属性个数，当k＝1时，即聚为一类时，其最优的聚类中心就是所有样本的质心，所以把所有样本点的质心即均值作为第一类的初始聚类中心，即

3、进行k+1类聚类

1)首先找到第k+1类的初始最优聚类中心：

(1)前k类的聚类中心(Z₁，…，Z_k)和特征权值[λ₁，λ₂，…，λ_k]已求出，将(Z₁，…，Z_k)作为前k类的最优初始中心；

(2)将所有样本点依次作为第k+1个初始中心，且初始化第k+1类的特征权重值为

进入第(3)步；

(3)以(Z₁，…，Z_k，X_i)X_i∈X作为聚类中心，对所有样本点进行N次聚类操作：

①每次计算出每个样本点和每个聚类中心之间的熵权重欧式距离，通过下式将样本点的熵权重欧式距离进行比较，然后把样本点划分到距离最小的那一类：

w_{hi} = \{\begin{matrix} 1 & if Σ_{j = 1}^{D} λ_{k, j} {(z_{k, j} - x_{i, j})}^{2} \leq Σ_{j = 1}^{D} λ_{h, j} {(z_{h, j} - x_{i, j})}^{2}, 1 \leq h \leq k + 1 \\ 0 & otherwise \end{matrix}

同时，w_k，i满足以下约束：

0≤w_hi≤1，1≤h≤k+1，1≤i≤N，

Σ_{h = 1}^{k + 1} w_{hi} = 1,1 \leq i \leq N,

其中，该方法中的参数β＝1.8；w_hi表示第i个数据是否属于h类，z_h，j表示第h类聚类中心的第j个属性的值，λ_k，j第k个类别第j个属性的权重值，k表示类别，h表示小于类别k的变量；

②将聚类中心(Z₁，…，Z_k，X_i)，w_hi和[λ₁，λ₂，…，λ_k+1]代入以下目标函数：

F (W, Z, Λ) = Σ_{h = 1}^{k + 1} [Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{hi} λ_{hj} {| | z_{hj} - x_{ij} | |}^{2} + γ Σ_{j = 1}^{M} λ_{hj} \log λ_{hj}]

其中，W＝[w_i，j]是一个K×N的整数矩阵，Z＝[Z₁，Z₂，…，Z_k]是代表聚类中心的矩阵，Λ＝[λ_l，i]是一个K×D的熵权值的实数矩阵，将得到的值代入之后得出J(Z₁，…，Z_k，X_i)，γ是一个正参数，取为0.5；

(4)选出第k+1类的初始最优中心，把每个F(Z₁，…，Z_k，X_i)进行比较，找出最小的F(Z₁，…，Z_k，X_i)，则相应的X_i则是k+1类的初始最优聚类中心，即Z_k+1；

2)对得到的聚类中心(Z₁，…，Z_k，Z_k+1)进行优化更新：

(1)将所有样本点进行聚类，计算出每个样本点和每个聚类中心之间的特征权重欧式距离；通过下式将样本点的熵权重欧式距离进行比较，然后把样本点划分到距离最小的那一类：

w_{hi} = \{\begin{matrix} 1 & if Σ_{j = 1}^{D} λ_{k, j} {(z_{k, j} - x_{i, j})}^{2} \leq Σ_{j = 1}^{D} λ_{h, j} {(z_{h, j} - x_{i, j})}^{2}, 1 \leq h \leq k + 1 \\ 0 & otherwise \end{matrix};

(2)将更新的将得到的w_hi带入下面的式子更新聚类中心z_hj：

z_{hj} = \frac{Σ_{i = 1}^{N} ω_{hi} x_{ij}}{Σ_{i = 1}^{N} ω_{hi}}, 1 \leq h \leq k + 1;

(3)再将更新得到的w_hi和z_hj代入下式来更新每一个样本的特征权重值λ_hj：

λ_{hj} = \frac{\exp (\frac{{- D}_{hj}}{γ})}{Σ_{t = 1}^{M} \exp (\frac{{- D}_{ht}}{γ})}

其中

D_{hj} = Σ_{i = 1}^{N} w_{hi} (z_{hj} - x_{ij}), 1 \leq h \leq k + 1;

(4)将更新得到的w_hi，z_hj和λ_hj代入到以下目标函数进行计算：

F^{T} (W, Z, Λ) = Σ_{h = 1}^{k + 1} [Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{hi} λ_{hj} {| | z_{hj} - x_{ij} | |}^{2} + γ Σ_{j = 1}^{M} λ_{hj} \log λ_{hj}]

其中，W＝[w_i，j]是一个K×N的整数矩阵，Z＝[Z₁，Z₂，…，Z_k]是代表聚类中心的矩阵，Λ＝[λ_l，i]是一个K×D的特征权值的实数矩阵，将得到的值代入之后得出F^T，其中T代表运行更新次数，F^T则代表第T次运行得到的目标函数值；

(5)目标函数值如果满足|J^T-J^T-1|≤10e-4，则执行第3步进行k+1聚类，否则，返回继续执行第2)步，对聚类中心进行优化直到满足上述条件；

4、判断是否满足终止条件

即判断k+1＞K是否成立，成立则方法结束，否则返回第3步进行k+1类聚类。

步骤1)所述的找出下一个类的最优初始中心，目的在于选择出所有数据点中能使得目标函数F达到最小值的那个数据点，即使得聚集程度最好的那个数据点作为下一个类的初始聚类中心。

本发明与现有的技术相比具有如下有益效果：

1.本发明在全局K-均值方法的基础上引入了对属性的熵权重的计算，根据数据不同的属性对于聚类所起的作用不同，通过计算给出每个属性的熵权重值，从而提高了聚类的准确度，避免了由于把所有属性对聚类的重要性看成一样所造成的聚类效果不够理想，从而使得对于一般数据特别是比较复杂的多维数据都可以得到更好的聚类结果。

2.本发明在引入属性熵权重的同时，以全局K-均值作为整体的方法框架，通过不断增加新的聚类中心完成对所有数据的聚类过程，其中，每个聚类中心的初始位置都是通过确定性的计算找到的，所以该方法的聚类结果十分的稳定，克服了以往很多K-均值类方法因为初始点的随机选取而导致的结果不稳定这一缺点，本发明方法得到的结果具有很好的稳定性。

3.本发明与其它经典的K-均值类方法相比，获得了更好的聚类效果，并且聚类结果十分稳定，说明了本发明的有效性和鲁棒性。

本发明.将全局K-均值方法与带有熵权重的K-均值相结合，构造了一种新的基于熵权重的全局K-均值聚类方法，从而将两种方法的优势互补，即新的方法不仅通过引入熵权重提高了聚类的正确性，而且聚类结果十分的稳定，解决了K-均值类聚类方法对初始聚类中心敏感这一瓶劲问题，使得对于多维复杂数据都可以得到更好的聚类结果。通过与几种K-均值类聚类方法的实验结果进行比较，证明了本发明得到的聚类方法的有效性和鲁棒性。

附图说明

图1是本发明方法的流程图

图2是本发明与其他四种方法在学习聚类过程中目标函数的变化情况比较

图3本发明与其它四种对比方法得到的Iris数据的各个属性的权重值实验结果对比

具体实施方式

参照图1，首先将数据聚为一类，其最佳聚类中心就是所有样本的质心，接着通过计算求出使得目标函数最小的样本点并将其作为下一类的初始最优聚类中心，再利用基于熵权重的K-均值方法进行迭代更新得到聚为两类时的最佳聚类中心，采用同样的方法依次增加聚类中心数进行更新迭代直到聚完K类(K为已知的聚类个数)为止，这样就完成了将所有样本点聚为K类的整个过程。

首先，我们深入的介绍一个概念熵权重λ_k，j：其表示第j个属性对于聚为第k类所起的作用，其值越大则说明这个属性所起的作用越大，值越小甚至为0则意味着这个属性所起的作用越小甚至不影响聚为第k类，且λ_k，j满足以下两个约束：

0≤λ_k，j≤1，1≤k≤K，1≤j≤D，

Σ_{j = 1}^{D} λ_{k, j} = 1,1 \leq k \leq K .

即λ_k，j属于0到1，且所有属性的权重之和为1。

通过引入熵权重到欧式距离度量的计算中，克服了以往将每个属性对于聚类的作用视为一致而造成的聚类准确度不高的问题，从而提高了聚类正确率。我们通过下面的公式求取每一个属性的权重值，

λ_{hj} = \frac{\exp (\frac{{- D}_{hj}}{γ})}{Σ_{t = 1}^{M} \exp (\frac{{- D}_{ht}}{γ})}

其中

D_{hj} = Σ_{i = 1}^{N} w_{hi} (z_{hj} - x_{ij}), 1 \leq h \leq k + 1

其中，Z_kj表示第k个聚类中心的第j维的值，x_ij表示第i个数据点的第j个属性，ω_ki表示第i个数据是否属于第k类，属于则为1，否则取值为0。

下面对该发明的实现过程进行的详细说明：

1、输入多维数据X_ij，1≤i ≤N，1≤j≤D和聚类个数K

其中N表示数据的个数，D表示数据的特征属性个数，X_ij表示第i个数据点的第j个属性；

2、初始化聚类个数k＝1，

初始化第k类的特征权重值为

当k＝1时，即只聚为一类时，其最优的聚类中心就是所有数据的质心，所以把所有数据点的质心即均值作为第一类的初始聚类中心，即

3、进行k+1类聚类

1)首先找到第k+1类的初始最优的聚类中心：

(1)前k类的聚类中心(Z₁，…，Z_k)和特征权值[λ₁，λ₂，…，λ_k]已求出，将它们作为前k类的最优初始中心；

(2)将所有数据点依次作为第k+1个初始中心，且初始化第k+1类的特征权重值为

进入第(3)步；

(3)以(Z₁，…，Z_k，X_i)X_i∈X作为聚类中心，对所有数据进行N次聚类操作：

①每次计算出每个数据点和每个聚类中心之间的特征权重欧式距离，通过下式将数据点到每个聚类中心之间的特征权重欧式距离进行比较，然后把数据点划分到距离最小的那一类：

w_{hi} = \{\begin{matrix} 1 & if Σ_{j = 1}^{D} λ_{k, j} {(z_{k, j} - x_{i, j})}^{2} \leq Σ_{j = 1}^{D} λ_{h, j} {(z_{h, j} - x_{i, j})}^{2}, 1 \leq h \leq k + 1 \\ 0 & otherwise \end{matrix},

同时，w_k，i满足以下约束：

0≤w_hi≤1，1≤h≤k+1，1≤i≤N，

Σ_{h = 1}^{k + 1} w_{hi} = 1,1 \leq i \leq N,

其中，该方法中的参数β＝1.8，w_hi表示第i个数据是否属于h类，z_h，j表示第h类聚类中心的第j个属性的值，λ_k，j第k个类别第j个属性的熵权重值，k表示类别，h表示小于类别k的变量；

F (W, Z, Λ) = Σ_{h = 1}^{k + 1} [Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{hi} λ_{hj} {| | z_{hj} - x_{ij} | |}^{2} + γ Σ_{j = 1}^{M} λ_{hj} \log λ_{hj}]

(4)选出第k+1初始最优中心，把每个F(Z₁，…，Z_k，X_i)进行比较，找出最小的F(Z₁，…，Z_k，X_i)，则相应的X_i则是k+1类的初始最优聚类中心，即Z_k+1；

2)对得到的聚类中心(Z₁，…，Z_k，Z_k+1)进行优化更新：

(1)将所有数据点进行聚类，计算出每个数据点和每个聚类中心之间的特征权重欧式距离；通过下式将数据点到每个聚类中心之间的特征权重欧式距离进行比较，然后把数据点划分到距离最小的那一类：

w_{hi} = \{\begin{matrix} 1 & if Σ_{j = 1}^{D} λ_{k, j} {(z_{k, j} - x_{i, j})}^{2} \leq Σ_{j = 1}^{D} λ_{h, j} {(z_{h, j} - x_{i, j})}^{2}, 1 \leq h \leq k + 1 \\ 0 & otherwise \end{matrix};

(2)将更新的将得到的w_hi带入下面的式子更新聚类中心z_hj：

z_{hj} = \frac{Σ_{i = 1}^{N} ω_{hi} x_{ij}}{Σ_{i = 1}^{N} ω_{hi}}, 1 \leq h \leq k + 1;

(3)再将更新得到的w_hi和z_hj代入下式来更新每一个数据的特征权重值λ_hj：

λ_{hj} = \frac{\exp (\frac{{- D}_{hj}}{γ})}{Σ_{t = 1}^{M} \exp (\frac{{- D}_{ht}}{γ})}

其中

D_{hj} = Σ_{i = 1}^{N} w_{hi} (z_{hj} - x_{ij}), 1 \leq h \leq k + 1;

F^{T} (W, Z, Λ) = Σ_{h = 1}^{k + 1} [Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{hi} λ_{hj} {| | z_{hj} - x_{ij} | |}^{2} + γ Σ_{j = 1}^{M} λ_{hj} \log λ_{hj}]

4、判断是否满足终止条件

将本发明应用在UCI多维数据聚类上，其性能可通过下面两个计算机仿真实验给出。

为了验证基于熵权重的全局K-均值方法的优越性，我们将本发明方法与经典的K-均值方法以及近年来提出的全局K-均值方法、基于局部属性权重的K-均值方法和在此基础上提出的基于熵权重的K-均值方法的性能做出比较。分别对七组UCI多维数据进行了实验。这里把全局K-均值方法简称为“GKM”，把基于局部属性权重的K-均值方法简称为“LKM”，把基于熵权重的K-均值方法简称为“EWKM”，把基于熵属性的全局K-均值方法简称为“GEWKM”。其中，这七组UCI多维数据的具体信息如表1所示，包括了每组数据的样本数，维数，类别数以及每个类别的样本分布。

表1 七组数据的具体信息

数据	样本数	维数	类别数	各个类别分布
					Iris	150	4	3	50，50，50
Breast	277	9	2	81，196
					German	1000	24	2	300，700
balance	625	4	3	49，288，288
					hayes_roth	160	5	3	132，28
haberman	306	3	2	225，81
					transfusion	748	4	2	570，178

实验1.内部统计标准实验结果对比

这里分别应用各种方法在UCI多维数据上。实验相关图像如参考图2所示。其中，(a)表示Iris数据的目标函数随着运行次数的变化情况，(b)表示breast数据的目标函数随着运行次数的变化情况，(c)表示German数据的目标函数随着运行次数地变化情况，(d)表示Balance数据的目标函数随着运行次数的变化情况，(e)表示haberman数据的目标函数随着运行次数地变化情况，(f)表示hayes_roth数据的目标函数随着运行次数的变化情况，(g)表示tranfusion数据的目标函数随着运行次数的变化情况。其中，K-Means代表K均值方法，GKM代表全局K-均值f方法，LKM代表局部权值K-均值方法，EWKM代表基于熵权重的K-均值方法，GEWKM代表本发明方法即基于熵权值的全局K-均值方法

从图2可以看出，通过不断地迭代优化，我们的方法都可以得到相对于其他四种方法更小的目标函数值，从而证明我们的方法是有效的。可以从表2中可以看出，在内部统计的标准下，本文方法的平均值在六组数据中，有三组是最佳的，另外四组中本文方法的平均值是次优的，只有EWKM的方法得到的结果比我们的方法好，但是其结果非常不稳定性，而我们方法的结果非常稳定，得到的结果也是介于EWKM方法结果的最大值和最小值之间。所以，从表2中也可以看出本文方法具有最佳的稳定性，且结果都是最优的或是次优的。而以K-均值方法为原型演化而来的LKM方法和EWKM方法则稳定性较差，这点从其标准差及最大值和最小值的差可以观察出来。所以在该准则下，本发明具有一定的优势。

表2 无监督统计准则关于平均值，方差，最大值和最小值的实验结果

实验2.有监督统计准则实验结果比较

这里分别应用各种方法在UCI多维数据上。实验相关图像如表3所示。表3是本发明和四种对比方法的有监督统计准则关于平均值，方差的实验结果比较，其中，K-Means代表K均值方法，GKM代表全局K-均值，LKM代表局部权值K-均值，EWKM代表基于熵权重的K-均值，GEWKM代表本发明方法即基于熵权值的全局K-均值。

表3 有监督统计准则关于平均值，方差的实验结果比较

UCI数据中所有的数据都是有标号的，这就方便我们对各种方法的性能进行更精确的判断，我们只需通过各方法的聚类结果和理想的聚类结果进行比较就可评判各种方法的性能。在各种指标中，各方法的最终值在表3中显示，表3中各方法都是独立运行50次后统计的结果，其中每栏中第一列是得到的平均值，第二列为标准差。从表3中可以看出，无论是在平均值上还是在方差上，本文方法均呈现出较大的优越性。对于各个指标，本文方法不仅可以取得更好的值，而且具有很高的稳定性。从参考图3可以看出，Iris数据的属性特征起作用的主要是三四维属性，各个方法的权重值在后两维上体现出很大的不同，也就是说带有属性的K-均值类方法更好的求取每个属性所起的作用大小。其中，K-Means代表K均值方法，GKM代表全局K-均值，LKM代表局部权值K-均值，EWKM代表基于熵权重的K-均值，GWKM代表本发明方法即基于特征权值的全局K-均值。

通过表3可以看出，我们有六组数据都取得了优于其他四种方法的结果，只有一组数据hayes_roth的结果略次于LKM方法的结果，但是LKM的结果很不稳定，而本文方法的结果很稳定，这也说明了我们方法的有效性。通过大量的实验和对多个性能指标的测试，和对实验结果的分析比较，充分的证明了新发明的有效性和鲁棒性。

Claims

1.一种基于熵权重的全局K-均值聚类方法，其特征在于：首先将数据聚为一类，其最佳聚类中心为所有样本的质心，接着通过计算求出目标函数最小的样本点并将该数据点作为下一类的初始最优聚类中心，再利用基于熵权重的“K-均值方法”进行迭代更新得到聚为两类时的最佳聚类中心，采用同样的方法依次增加聚类中心数进行聚类，直到聚为设定的K类为止，从而完成将所有数据点聚为K类的整个过程，其具体实现步骤如下：

(1)输入多维样本点x_ij，1≤i≤N，1≤j≤M和聚类个数K，其中N表示样本的个数，x_ij表示第i个样本点的第j个属性；

(2)初始化聚类个数k＝1

初始化第1类的特征权重值为

D和d表示样本的特征属性个数，当k＝1时，即聚为一类时，最优的聚类中心是所有样本的质心，所以把所有样本点的质心即均值作为第一类的初始聚类中心，即

(3)进行k+1类聚类

1)找到第k+1类的初始最优聚类中心：

①前k类的聚类中心(Z₁，…，Z_k)和特征权值[λ₁，λ₂，…，λ_k]已求出，将(Z₁，…，Z_k)作为前k类的最优初始中心；

②将所有样本点依次作为第k+1个初始中心，且初始化第k+1类的特征权重值为

③以(Z₁，…，Z_k，X_i)X_i∈X作为聚类中心，对所有样本点进行N次聚类操作：

第一步：每次计算出每个样本点和每个聚类中心之间的熵权重欧式距离，通过下式将样本点的熵权重欧式距离进行比较，然后把样本点划分到距离最小的那一类：

w_{hi} = \{\begin{matrix} 1 & if Σ_{j = 1}^{D} λ_{k, j} {(z_{k, j} - x_{i, j})}^{2} \leq Σ_{j = 1}^{D} λ_{h, j} {(z_{h, j} - x_{i, j})}^{2}, 1 \leq h \leq k + 1 \\ 0 & otherwise \end{matrix} - - - (1)

式(1)中参数β＝1.8w_hi表示第i个数据是否属于h类，z_h，j表示第h类聚类中心的第j个属性的值，λ_k，j表示第k个类别第j个属性的权重值，k表示类别，h表示小于类别k的变量；

第二步：将聚类中心(Z₁，…，Z_k，X_i)，w_hi和[λ₁，λ₂，…，λ_k+1]代入以下目标函数：

F (W, Z, Λ) = Σ_{h = 1}^{k + 1} [Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{hi} λ_{hj} {| | z_{hj} - x_{ij} | |}^{2} + γ Σ_{j = 1}^{M} λ_{hj} \log λ_{hj}] - - - (2)

其中，W＝[w_i，j]是一个K×N的整数矩阵，Z＝[Z₁，Z₂，…，Z_k]是代表聚类中心的矩阵，Λ＝[λ_l，i]是一个K×D的熵权值的实数矩阵，将得到的值代入之后得出J(Z₁，…，Z_k，X_i)，γ是一个正参数，取为γ＝0.5；

④选出第k+1类的初始最优中心，把每个F(Z₁，…，Z_k，X_i)进行比较，找出最小的F(Z₁，…，Z_k，X_i)，则相应的X_i则是k+1类的初始最优聚类中心，即Z_k+1；

2)对得到的聚类中心(Z₁，…，Z_k，Z_k+1)进行优化更新：

①将所有样本点进行聚类，计算出每个样本点和每个聚类中心之间的特征权重欧式距离；通过式(1)将样本点的熵权重欧式距离进行比较，然后把样本点划分到距离最小的那一类：

②将更新的将得到的w_hi带入下面的式子更新聚类中心z_hj：

z_{hj} = \frac{Σ_{i = 1}^{N} ω_{hi} x_{ij}}{Σ_{i = 1}^{N} ω_{hi}}, 1 \leq h \leq k + 1 - - - (3)

③再将更新得到的w_hi和z_hj代入下式来更新每一个样本的特征权重值λ_hj：

λ_{hj} = \frac{\exp (\frac{{- D}_{hj}}{γ})}{Σ_{t = 1}^{M} \exp (\frac{{- D}_{ht}}{γ})}

其中

D_{hj} = Σ_{i = 1}^{N} w_{hi} (z_{hj} - x_{ij}), 1 \leq h \leq k + 1 - - - (4)

④将更新得到的w_hi，z_hj和λ_hj代入到以下目标函数进行计算：

F^{T} (W, Z, Λ) = Σ_{h = 1}^{k + 1} [Σ_{i = 1}^{N} Σ_{j = 1}^{M} w_{hi} λ_{hj} {| | z_{hj} - x_{ij} | |}^{2} + γ Σ_{j = 1}^{M} λ_{hj} \log λ_{hj}]

其中，W＝[w_i，j]是一个K×N的整数矩阵，Z＝[Z₁，Z₂，…，Z_k]是代表聚类中心的矩阵，Λ＝[λ_l，i]是一个K×D的熵权值的实数矩阵，将得到的值代入之后得出F^T，其中T代表运行更新次数，F^T则代表第T次运行得到的目标函数值；

⑤目标函数值如果满足|J^T-J^T-1|≤10e-4，则执行步骤(3)进行k+1聚类，否则，返回步骤2)对聚类中心进行更新优化直到满足上述条件；

(4)判断是否满足终止条件

判断k+1＞K是否成立，若成立则方法结束，否则返回第(3)步进行k+1类聚类。

2.根据权利要求1所述的基于熵权重的全局K-均值聚类方法，其特征在于，所述步骤1)找出下一个类的最优初始中心，是所有数据点中使目标函数J达到最小值的数据点，将该数据点作为下一个类的初始聚类中心，使得聚集程度最优。