CN101149759A

CN101149759A - 一种基于邻域模型的K-means初始聚类中心选择方法

Info

Publication number: CN101149759A
Application number: CNA200710185216XA
Authority: CN
Inventors: 曹付元; 梁吉业; 宁姝
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2007-11-09
Filing date: 2007-11-09
Publication date: 2008-03-26

Abstract

一种基于邻域模型的K－means初始聚类中心选择方法，该方法根据属性集和范式计算出对象的距离矩阵和所有对象距离的平均值，并对距离矩阵归一化处理，在0到对象距离的平均值间选择一个邻域生成邻域矩阵，计算出对象邻域的上下近似，得到对象的耦合度，并按耦合度降序排列，耦合度最高的对象为第一个初始中心，依次取第二个对象，判断其与第一个初始中心的分离度，如果小于规定的值，则第二个对象为初始中心，否则取第三个对象，判断其与前面的初始中心的分离度，如果都小于规定的值，则第三个对象为初始中心，否则取下一个，直至得到要求的初始中心个数，该方法克服了传统K－means方法随机选择初始聚类中心的缺点，提高了聚类的精度。

Description

一种基于邻域模型的K-means初始聚类中心选择方法

技术领域

本发明涉及一种K-means聚类方法，具体属于一种基于邻域模型的K-means初始聚类中心选择方法。

背景技术

聚类分析是数据挖掘研究和应用中的一个重要部分，由于聚类方法不对数据作任何统计假设，在模式识别和人工智能等领域，聚类方法常被称为一种无监督的学习。聚类分析是将数据对象分组成多个类或多个簇，在同一个簇中的对象具有较高的相似度，而不同簇中的对象差别较大。目前聚类分析已被广泛应用于金融欺诈、医疗诊断、图像处理、信息检索和生物信息学等研究领域。

自20世纪60年代以来，聚类方法被广泛研究并得到了很好的应用，其中1967年Q.J.Mac提出的K-means聚类方法，由于其方法简单，已成为当前最流行的聚类方法之一，特别数据分布呈现类内团聚状，该方法能得到很好的聚类结果。但由于K-means方法随机选择初始聚类中心，不仅不能保证得到一个唯一的聚类结果，而且初始聚类中心的选择对最终的聚类结果有着直接的影响。

发明内容

本发明的目的在于提供一种基于邻域模型的K-means初始聚类中心选择方法，克服传统K-means方法随机选择初始聚类中心的缺点，提高聚类的精度。

本发明提供的一种基于邻域模型的K-means初始聚类中心选择方法，是根据属性集和范式计算出对象的距离矩阵和所有对象距离的平均值，并对距离矩阵归一化处理，在0到对象距离的平均值间选择一个邻域生成邻域矩阵，计算出对象邻域的上下近似，得到对象的耦合度，并按耦合度降序排列，耦合度最高的对象为第一个初始中心，依次取第二个对象，判断其与第一个初始中心的分离度，如果小于规定的值，则第二个对象为初始中心，否则取第三个对象，判断其与前面的初始中心的分离度，如果都小于规定的值，则第三个对象为初始中心，否则取下一个，直至得到要求的初始中心个数。该方法具体包括如下步骤：

(1)输入S＝(U，A，V，f)，PA，聚类个数k(k是正整数)，范数λ＝1，2，∞；

(2)生成U关于属性集P的距离矩阵

M_{d_{P}} = (d_{P} (x_{i}, x_{j}))

和归一化矩阵

M_{d_{P}}^{'} = (d_{P} (x_{i}, x_{j})) / D_{\max} = (d_{P}^{'} (x_{i}, x_{j}))

，其中D_max＝max{d_P(x_i，x_j)}为距离矩阵M_dP中的最大值，并计算所有对象之间距离的平均值

(3)在

之间输入邻域ε，生成邻域矩阵

M_{d_{P}^{ϵ}} = (d_{P}^{ϵ} (x_{i}, x_{j}));

(4)生成δ(x_i)的下近似矩阵

\underset{&OverBar;}{M_{d_{P}^{ϵ}}} = (\underset{&OverBar;}{d_{P}^{ϵ}} (x_{i}, x_{j}))

和上近似矩阵

\overset{&OverBar;}{M_{d_{P}^{ϵ}}} = (\overset{&OverBar;}{d_{P}^{ϵ}} (x_{i}, x_{j})),

并求出β_P ^ε(x_i)；

(5)并对β_P ^ε(x_i)按照由高到低排序，设x₁′≥x₂′≥…≥x_|U|′；

(6)x₁′即为第一个初始中心，依次取第二个点，如果Div(x₁′，x₂′)＜β(β在[0，0.5])，则x₂′为第二个初始中心，否则取x₃′，计算x₃′和初始中心中每一个点的分离度，如果分离度都小于β，则产生新的聚类中心，否则取x₄′，依此类推直至初始中心点的个数达到k，则算法终止。如果不能选出k个初始点，则缩小ε(其中ε在

)的取值；

(7)输出k个聚类中心初始点。

基于邻域模型的K-means初始聚类中心选择方法的设计思想：

设S＝(U，A，V，f)是一个数值型信息系统，其中U：对象的非空有限集合，称为论域；A：属性的非空有限集合，A＝C∪D，C∩D＝，C为条件属性，D为决策属性；

V = \underset{a &Element; A}{\cup} V_{a},

VR，V_a是属性a的值域；f：U×A→V是一个信息函数，它为每个对象的每个属性赋予一个信息值，即a∈A，x∈U，f(x，a)∈V_a。

设S＝(U，A，V，f)是一个数值型信息系统，PA，则U关于属性集P的距离矩阵

M_{d_{P}} = (d_{P} (x_{i}, x_{j}));

是一个|U|×|U|的矩阵，其中任一元素为

d_{P} (x_{i}, x_{j}) = {(Σ_{i = 1}^{| P |} | f (x_{i}, a_{i}) - f {(x_{i}, a_{i}) |}^{λ})}^{1 / λ}

其中x_i，x_j∈U，λ＝1，2，∞，在二维实数空间内，基于1范数，2范数和无穷范数的邻域分别对应菱形、圆和正方形区域。

设D_max＝max{d_P(x_i，x_j)}为距离矩阵M_dP中的最大值，将距离矩阵M_dP进行归一化处理，记为

M_{d_{P}}^{'} = (d_{P} (x_{i}, x_{j})) / D_{\max} = (d_{P}^{'} (x_{i}, x_{j})),

其中d_P′(x_i，x_j)为矩阵M_dP′中的任一元素。

设S＝(U，A，V，f)是一个数值型信息系统，PA，ε≥0，则x_i∈U定义其ε邻域为

δ_{P}^{ϵ} (x_{i}) = {x | x &Element; U, d_{P} (x, x_{i}) \leq &Element;},

则U关于属性集P的ε邻域矩阵

M_{d_{P}^{ϵ}} = (d_{P}^{ϵ} (x_{i}, x_{j}))

中任一元素为

d_{P}^{ϵ} (x_{i}, x_{j}) = \{\begin{matrix} 1 & if & d_{P}^{'} (x_{i}, x_{j}) < ϵ \\ 0 & if & d_{P}^{'} (x_{i}, x_{j}) &GreaterEqual; ϵ \end{matrix} .

设S＝(U，A，V，f)是一个数值型信息系统，XU，PA，ε≥0，则X关于属性集P的下近似、上近似和近似精度分别定义为

\underset{&OverBar;}{P_{ϵ}} X = {x_{i} | δ_{P}^{ϵ} (x_{i}) &SubsetEqual; X, x_{i} &Element; U},

α_{P_{ϵ}} (X) = \frac{| \underset{&OverBar;}{P_{ϵ}} X |}{| \overset{&OverBar;}{P_{ϵ}} X |},

其中

0 \leq α_{P_{ϵ}} (X) \leq 1 .

设S＝(U，A，V，f)是一个数值型信息系统，PA，ε≥0，则U关于属性集P的ε下近似矩阵

\underset{&OverBar;}{M_{d_{P}^{ϵ}}} = (\underset{&OverBar;}{d_{P}^{ϵ}} (x_{i}, x_{j}))

中任一元素为

\underset{&OverBar;}{d_{P}^{ϵ}} (x_{i}, x_{j}) = \{\begin{matrix} 1 & if & δ_{P}^{ϵ} (x_{i}) &SubsetEqual; δ_{P}^{ϵ} (x_{j}^{.}) \\ 0 & otherwise \end{matrix},

则U关于属性集P的ε上近似矩阵

\overset{&OverBar;}{M_{d_{P}^{ϵ}}} = (\overset{&OverBar;}{d_{P}^{ϵ}} (x_{i}, x_{j}))

中任一元素为

设S＝(U，A，V，f)是一个数值型信息系统，x_i∈U，PA，ε≥0，则δ_P ^ε(x_i)关于属性集P的耦合度定义为

β_{P}^{ϵ} (x_{i}) = \frac{| \underset{&OverBar;}{P_{ϵ}} (δ_{P}^{ϵ} (x_{i})) |}{| \overset{&OverBar;}{P_{ϵ}} (δ_{P}^{ϵ} (x_{i})) |},

其中

0 < β_{P}^{ϵ} (x_{i}) \leq 1,

如果β_P ^ε(x_i)越大，则x_i在ε下的耦合度越大。如果ε＝0，则x_i∈U，我们都有

β_{P}^{ϵ} (x_{i}) = 1,

β_P ^ε(x_i)的计算表达式也可为

β_{P}^{ϵ} (x_{i}) = \frac{Σ_{j = 1}^{| U |} \underset{&OverBar;}{d_{P}^{ϵ}} (x_{i}, x_{j})}{Σ_{j = 1}^{| U |} \overset{&OverBar;}{d_{P}^{ϵ}} (x_{i}, x_{j})} .

设S＝(U，A，V，f)是一个数值型信息系统，x_i，x_j∈U，PA，ε≥0，定义δ_P ^ε(x_i)和δ_P ^ε(x_j)的分离度为

Div (δ_{P}^{ϵ} (x_{i}), δ_{P}^{ϵ} (x_{j})) = \frac{| δ_{P}^{ϵ} (x_{i}) \cap δ_{P}^{ϵ} (x_{j})}{| δ_{P}^{ϵ} (x_{i}) \cup δ_{P}^{ϵ} (x_{j})},

且有0≤Div(δ_P ^ε(x_i)，

δ_{P}^{ϵ} (x_{j})) \leq 1,

如果Div(δ_P ^ε(x_i)，δ^P _ε(x_j))越小，则x_i，x_j中邻域中对象的分离程度越大。如果ε＝0，则x_i∈U，有Div(δ_P ^ε(x_i)，

δ_{P}^{ϵ} (x_{j})) = 0 .

另如果Div(δ_P ^ε(x_i)，

δ_{p}^{ϵ} (x_{j})) &GreaterEqual; 0.5,

则认为x_i，x_j属于同一个类内，否则属于两个类。

与现有K-means方法相比，基于邻域模型的K-means初始聚类中心方法，提高了K-means聚类的精度。

附图说明

图1为本发明方法的流程图。

具体实施方式

为了更好地理解本发明的技术方案，下面结合附图和实施例对本发明作进一步描述。

实施例1：

例1 设S＝(U，A，V，f)是一个数值型数据的信息系统，U＝{x₁，x₂，x₃，x₄，x₅}，a∈A，f(x，a)表示对象x在属性a上的取值，其中f(x₁，a)＝1.1，f(x₂，a)＝1.2，f(x₃，a)＝1.6，f(x₄，a)＝1.8，f(x₅，a)＝1.9，当指定邻域大小ε＝0.2时，则x₁，x₂，x₃，x₄，x₅对应的邻域分别为

δ_{{a}}^{0.2} {x_{1}} = {x_{1}, x_{2}},

δ_{{a}}^{0.2} {x_{2}} = {x_{1}, x_{2}},

δ_{{a}}^{0.2} {x_{3}} = {x_{3}, x_{4}},

δ_{{a}}^{0.2} = {x_{4}} = {x_{3}, x_{4}, x_{5}},

δ_{{a}}^{0.2} {x_{5}} = {x_{4}, x_{5}},

则x₁，x₂，x₃，x₄，x₅邻域对应的下近似和上近似分别为

\underset{&OverBar;}{{a}_{0.2}} (x_{1}) = {x_{1}, x_{2}},

\underset{&OverBar;}{{a}_{0.2}} (x_{2}) = {x_{1}, x_{2}},

\underset{&OverBar;}{{a}_{0.2}} (x_{3}) = {x_{3}},

\underset{&OverBar;}{{a}_{0.2}} (x_{4}) = {x_{3}, x_{4}, x_{5}},

\underset{&OverBar;}{{a}_{0.2}} (x_{5}) = {x_{5}},

\overset{&OverBar;}{{a}_{0.2}} (x_{1}) = {x_{1}, x_{2}},

\overset{&OverBar;}{{a}_{0.2}} (x_{2}) = {x_{1}, x_{2}},

\overset{&OverBar;}{{a}_{0.2}} (x_{3}) = {x_{3}, x_{4}, x_{5}},

\overset{&OverBar;}{{a}_{0.2}} (x_{4}) = {x_{3}, x_{4}, x_{5}},

\overset{&OverBar;}{{a}_{0.2}} (x_{5}) = {x_{3}, x_{4}, x_{5}},

x₁，x₂，x₃，x₄，x₅邻域对应的耦合度分别为

β_{{a}}^{0.2} (x_{1}) = 1,

β_{{a}}^{0.2} (x_{2}) = 1,

β_{{a}}^{0.2} (x_{3}) = \frac{1}{3},

β_{{a}}^{0.2} (x_{4}) = 1,

β_{{a}}^{0.2} (x_{5}) = \frac{1}{3},

则有

β_{{a}}^{0.2} (x_{1}) = β_{{a}}^{0.2} (x_{2}) = β_{{a}}^{0.2} (x_{3}) {> β}_{{a}}^{0.2} (x_{4}) = β_{{a}}^{0.2} (x_{5}),

则x₁作为第一个初始聚类中心，由于Div(δ_{a} ^0.2(x₁)，

δ_{{a}}^{0.2} (x_{2})) = 1,

所以x₂不能作为第二个中心，又因为Div(δ_{a} ^0.2(x₁)，

δ_{{a}}^{0.2} (x_{3})) = 0,

所以x₃为第二个中心，假设分为2类，则聚类结果为x₁，x₂和x₃，x₄，x₅。

为了验证该方法的有效性，我们从UCI数据集中挑选了3组数据Wine Recognition Data、Fisher’s Iris Data，其中Letter Image Recognition数据集是从20000条记录中的前16000条中选出字母为A类和字母为D类的对象，其中字母为A类的对象数有789，字母为D类的对象数有805，在三种不同的数据集上且ε＝0.1，λ＝2，我们分别比较了基于邻域模型的初始聚类中心选择方法和随机选择初始聚类中心方法K-means方法的聚类精度，其中K-means方法的精度是10次随机聚类结果的平均值，分别如表1、表2和表3：

表1 Wine Recognition Data在两种不同初始中心方法下的精度(ε＝0.1且λ＝2)

实际类别数目	基于邻域方法聚类结果			基于邻域模型初始聚类中心选择方法精度	随机选择初始聚类中心方法精度
	基于邻域方法聚类结果					I	II	III
	59(I)71(II)48(III)	5940	0640			I	II	III	0348	96.07	94.49％
	59(I)71(II)48(III)	5940	0640	63	64	51			0348

表2 Fisher’s Iris Data在两种不同初始中心方法下的精度(ε＝0.1且λ＝2)

实际类别数目	基于邻域方法聚类结果			基于邻域模型初始聚类中心选择方法精度	随机选择初始聚类中心方法精度
	基于邻域方法聚类结果					I	II	III
	50(I)50(II)50(III)	5000	04814			I	II	III	0236	89.33％	81.87％
	50(I)50(II)50(III)	5000	04814	50	62	38			0236

表3 Letter Image Recognition Data在两种不同初始中心方法下的精度(ε＝0.1且λ＝2)

实际类别数目	基于邻域方法聚类结果		基于邻域模型初始聚类中心选择方法精度	随机选择初始聚类中心方法精度
	基于邻域方法聚类结果				A	D
	789(A)805(D)	69027717			A	D	99778877	92.1％	90.74％

从实验结果数据可以看到，基于邻域模型的初始聚类中心确定方法，可以有效地提高聚类的精度。

Claims

1.一种基于邻域模型的K-means初始聚类中心选择方法，具体包括如下步骤：

(2)生成U关于属性集P的距离矩阵和归一化矩阵，并计算所有对象之间距离的平均值

(3)在

之间输入邻域ε，生成邻域矩阵；

(4)生成每一个对象邻域的下近似矩阵和上近似矩阵，并求出每一个对象邻域的精度；

(5)对对象邻域的精度按照由高到低排序，设x₁′≥x₂′≥…≥x_|U|′；

(6)x₁′即为第一个初始中心，依次取第二个点，如果分离度小于β(β在[0，0.5])，则x₂′为第二个初始中心，否则取x₃′，计算x₃′和初始中心中每一个点的分离度，如果分离度都小于β，则产生新的聚类中心，否则取x₄′，依此类推直至初始中心点的个数达到k，则算法终止；如果不能选出k个初始点，则缩小ε(其中ε在

)的取值；

(7)输出k个聚类中心初始点。