CN101149759A - 一种基于邻域模型的K-means初始聚类中心选择方法 - Google Patents

一种基于邻域模型的K-means初始聚类中心选择方法 Download PDF

Info

Publication number
CN101149759A
CN101149759A CNA200710185216XA CN200710185216A CN101149759A CN 101149759 A CN101149759 A CN 101149759A CN A200710185216X A CNA200710185216X A CN A200710185216XA CN 200710185216 A CN200710185216 A CN 200710185216A CN 101149759 A CN101149759 A CN 101149759A
Authority
CN
China
Prior art keywords
initial
neighborhood
degree
matrix
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200710185216XA
Other languages
English (en)
Inventor
曹付元
梁吉业
宁姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CNA200710185216XA priority Critical patent/CN101149759A/zh
Publication of CN101149759A publication Critical patent/CN101149759A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于邻域模型的K-means初始聚类中心选择方法,该方法根据属性集和范式计算出对象的距离矩阵和所有对象距离的平均值,并对距离矩阵归一化处理,在0到对象距离的平均值间选择一个邻域生成邻域矩阵,计算出对象邻域的上下近似,得到对象的耦合度,并按耦合度降序排列,耦合度最高的对象为第一个初始中心,依次取第二个对象,判断其与第一个初始中心的分离度,如果小于规定的值,则第二个对象为初始中心,否则取第三个对象,判断其与前面的初始中心的分离度,如果都小于规定的值,则第三个对象为初始中心,否则取下一个,直至得到要求的初始中心个数,该方法克服了传统K-means方法随机选择初始聚类中心的缺点,提高了聚类的精度。

Description

一种基于邻域模型的K-means初始聚类中心选择方法
技术领域
本发明涉及一种K-means聚类方法,具体属于一种基于邻域模型的K-means初始聚类中心选择方法。
背景技术
聚类分析是数据挖掘研究和应用中的一个重要部分,由于聚类方法不对数据作任何统计假设,在模式识别和人工智能等领域,聚类方法常被称为一种无监督的学习。聚类分析是将数据对象分组成多个类或多个簇,在同一个簇中的对象具有较高的相似度,而不同簇中的对象差别较大。目前聚类分析已被广泛应用于金融欺诈、医疗诊断、图像处理、信息检索和生物信息学等研究领域。
自20世纪60年代以来,聚类方法被广泛研究并得到了很好的应用,其中1967年Q.J.Mac提出的K-means聚类方法,由于其方法简单,已成为当前最流行的聚类方法之一,特别数据分布呈现类内团聚状,该方法能得到很好的聚类结果。但由于K-means方法随机选择初始聚类中心,不仅不能保证得到一个唯一的聚类结果,而且初始聚类中心的选择对最终的聚类结果有着直接的影响。
发明内容
本发明的目的在于提供一种基于邻域模型的K-means初始聚类中心选择方法,克服传统K-means方法随机选择初始聚类中心的缺点,提高聚类的精度。
本发明提供的一种基于邻域模型的K-means初始聚类中心选择方法,是根据属性集和范式计算出对象的距离矩阵和所有对象距离的平均值,并对距离矩阵归一化处理,在0到对象距离的平均值间选择一个邻域生成邻域矩阵,计算出对象邻域的上下近似,得到对象的耦合度,并按耦合度降序排列,耦合度最高的对象为第一个初始中心,依次取第二个对象,判断其与第一个初始中心的分离度,如果小于规定的值,则第二个对象为初始中心,否则取第三个对象,判断其与前面的初始中心的分离度,如果都小于规定的值,则第三个对象为初始中心,否则取下一个,直至得到要求的初始中心个数。该方法具体包括如下步骤:
(1)输入S=(U,A,V,f),PA,聚类个数k(k是正整数),范数λ=1,2,∞;
(2)生成U关于属性集P的距离矩阵 M d P = ( d P ( x i , x j ) ) 和归一化矩阵 M d P ′ = ( d P ( x i , x j ) ) / D max = ( d P ′ ( x i , x j ) ) ,其中Dmax=max{dP(xi,xj)}为距离矩阵MdP中的最大值,并计算所有对象之间距离的平均值
Figure A20071018521600033
(3)在
Figure A20071018521600034
之间输入邻域ε,生成邻域矩阵 M d P ϵ = ( d P ϵ ( x i , x j ) ) ;
(4)生成δ(xi)的下近似矩阵 M d P ϵ ‾ = ( d P ϵ ‾ ( x i , x j ) ) 和上近似矩阵 M d P ϵ ‾ = ( d P ϵ ‾ ( x i , x j ) ) , 并求出βP ε(xi);
(5)并对βP ε(xi)按照由高到低排序,设x1′≥x2′≥…≥x|U|′;
(6)x1′即为第一个初始中心,依次取第二个点,如果Div(x1′,x2′)<β(β在[0,0.5]),则x2′为第二个初始中心,否则取x3′,计算x3′和初始中心中每一个点的分离度,如果分离度都小于β,则产生新的聚类中心,否则取x4′,依此类推直至初始中心点的个数达到k,则算法终止。如果不能选出k个初始点,则缩小ε(其中ε在
Figure A20071018521600041
)的取值;
(7)输出k个聚类中心初始点。
基于邻域模型的K-means初始聚类中心选择方法的设计思想:
设S=(U,A,V,f)是一个数值型信息系统,其中U:对象的非空有限集合,称为论域;A:属性的非空有限集合,A=C∪D,C∩D=,C为条件属性,D为决策属性; V = ∪ a ∈ A V a , VR,Va是属性a的值域;f:U×A→V是一个信息函数,它为每个对象的每个属性赋予一个信息值,即a∈A,x∈U,f(x,a)∈Va
设S=(U,A,V,f)是一个数值型信息系统,PA,则U关于属性集P的距离矩阵 M d P = ( d P ( x i , x j ) ) ; 是一个|U|×|U|的矩阵,其中任一元素为
d P ( x i , x j ) = ( Σ i = 1 | P | | f ( x i , a i ) - f ( x i , a i ) | λ ) 1 / λ
其中xi,xj∈U,λ=1,2,∞,在二维实数空间内,基于1范数,2范数和无穷范数的邻域分别对应菱形、圆和正方形区域。
设Dmax=max{dP(xi,xj)}为距离矩阵MdP中的最大值,将距离矩阵MdP进行归一化处理,记为
M d P ′ = ( d P ( x i , x j ) ) / D max = ( d P ′ ( x i , x j ) ) ,
其中dP′(xi,xj)为矩阵MdP′中的任一元素。
设S=(U,A,V,f)是一个数值型信息系统,PA,ε≥0,则xi∈U定义其ε邻域为
δ P ϵ ( x i ) = { x | x ∈ U , d P ( x , x i ) ≤ ∈ } ,
则U关于属性集P的ε邻域矩阵 M d P ϵ = ( d P ϵ ( x i , x j ) ) 中任一元素为
d P &epsiv; ( x i , x j ) = 1 if d P &prime; ( x i , x j ) < &epsiv; 0 if d P &prime; ( x i , x j ) &GreaterEqual; &epsiv; .
设S=(U,A,V,f)是一个数值型信息系统,XU,PA,ε≥0,则X关于属性集P的下近似、上近似和近似精度分别定义为
P &epsiv; &OverBar; X = { x i | &delta; P &epsiv; ( x i ) &SubsetEqual; X , x i &Element; U } ,
Figure A20071018521600053
&alpha; P &epsiv; ( X ) = | P &epsiv; &OverBar; X | | P &epsiv; &OverBar; X | ,
其中 0 &le; &alpha; P &epsiv; ( X ) &le; 1 .
设S=(U,A,V,f)是一个数值型信息系统,PA,ε≥0,则U关于属性集P的ε下近似矩阵 M d P &epsiv; &OverBar; = ( d P &epsiv; &OverBar; ( x i , x j ) ) 中任一元素为
d P &epsiv; &OverBar; ( x i , x j ) = 1 if &delta; P &epsiv; ( x i ) &SubsetEqual; &delta; P &epsiv; ( x j . ) 0 otherwise ,
则U关于属性集P的ε上近似矩阵 M d P &epsiv; &OverBar; = ( d P &epsiv; &OverBar; ( x i , x j ) ) 中任一元素为
Figure A20071018521600059
设S=(U,A,V,f)是一个数值型信息系统,xi∈U,PA,ε≥0,则δP ε(xi)关于属性集P的耦合度定义为
&beta; P &epsiv; ( x i ) = | P &epsiv; &OverBar; ( &delta; P &epsiv; ( x i ) ) | | P &epsiv; &OverBar; ( &delta; P &epsiv; ( x i ) ) | ,
其中 0 < &beta; P &epsiv; ( x i ) &le; 1 , 如果βP ε(xi)越大,则xi在ε下的耦合度越大。如果ε=0,则xi∈U,我们都有 &beta; P &epsiv; ( x i ) = 1 , βP ε(xi)的计算表达式也可为
&beta; P &epsiv; ( x i ) = &Sigma; j = 1 | U | d P &epsiv; &OverBar; ( x i , x j ) &Sigma; j = 1 | U | d P &epsiv; &OverBar; ( x i , x j ) .
设S=(U,A,V,f)是一个数值型信息系统,xi,xj∈U,PA,ε≥0,定义δP ε(xi)和δP ε(xj)的分离度为
Div ( &delta; P &epsiv; ( x i ) , &delta; P &epsiv; ( x j ) ) = | &delta; P &epsiv; ( x i ) &cap; &delta; P &epsiv; ( x j ) | &delta; P &epsiv; ( x i ) &cup; &delta; P &epsiv; ( x j ) ,
且有0≤Div(δP ε(xi), &delta; P &epsiv; ( x j ) ) &le; 1 , 如果Div(δP ε(xi),δP ε(xj))越小,则xi,xj中邻域中对象的分离程度越大。如果ε=0,则xi∈U,有Div(δP ε(xi), &delta; P &epsiv; ( x j ) ) = 0 . 另如果Div(δP ε(xi), &delta; p &epsiv; ( x j ) ) &GreaterEqual; 0.5 , 则认为xi,xj属于同一个类内,否则属于两个类。
与现有K-means方法相比,基于邻域模型的K-means初始聚类中心方法,提高了K-means聚类的精度。
附图说明
图1为本发明方法的流程图。
具体实施方式
为了更好地理解本发明的技术方案,下面结合附图和实施例对本发明作进一步描述。
实施例1:
例1 设S=(U,A,V,f)是一个数值型数据的信息系统,U={x1,x2,x3,x4,x5},a∈A,f(x,a)表示对象x在属性a上的取值,其中f(x1,a)=1.1,f(x2,a)=1.2,f(x3,a)=1.6,f(x4,a)=1.8,f(x5,a)=1.9,当指定邻域大小ε=0.2时,则x1,x2,x3,x4,x5对应的邻域分别为
&delta; { a } 0.2 { x 1 } = { x 1 , x 2 } , &delta; { a } 0.2 { x 2 } = { x 1 , x 2 } , &delta; { a } 0.2 { x 3 } = { x 3 , x 4 } , &delta; { a } 0.2 = { x 4 } = { x 3 , x 4 , x 5 } , &delta; { a } 0.2 { x 5 } = { x 4 , x 5 } ,
则x1,x2,x3,x4,x5邻域对应的下近似和上近似分别为 { a } 0.2 &OverBar; ( x 1 ) = { x 1 , x 2 } , { a } 0.2 &OverBar; ( x 2 ) = { x 1 , x 2 } , { a } 0.2 &OverBar; ( x 3 ) = { x 3 } , { a } 0.2 &OverBar; ( x 4 ) = { x 3 , x 4 , x 5 } , { a } 0.2 &OverBar; ( x 5 ) = { x 5 } , { a } 0.2 &OverBar; ( x 1 ) = { x 1 , x 2 } , { a } 0.2 &OverBar; ( x 2 ) = { x 1 , x 2 } , { a } 0.2 &OverBar; ( x 3 ) = { x 3 , x 4 , x 5 } , { a } 0.2 &OverBar; ( x 4 ) = { x 3 , x 4 , x 5 } , { a } 0.2 &OverBar; ( x 5 ) = { x 3 , x 4 , x 5 } ,
x1,x2,x3,x4,x5邻域对应的耦合度分别为
&beta; { a } 0.2 ( x 1 ) = 1 , &beta; { a } 0.2 ( x 2 ) = 1 , &beta; { a } 0.2 ( x 3 ) = 1 3 , &beta; { a } 0.2 ( x 4 ) = 1 , &beta; { a } 0.2 ( x 5 ) = 1 3 ,
则有 &beta; { a } 0.2 ( x 1 ) = &beta; { a } 0.2 ( x 2 ) = &beta; { a } 0.2 ( x 3 ) > &beta; { a } 0.2 ( x 4 ) = &beta; { a } 0.2 ( x 5 ) ,
则x1作为第一个初始聚类中心,由于Div(δ{a} 0.2(x1), &delta; { a } 0.2 ( x 2 ) ) = 1 , 所以x2不能作为第二个中心,又因为Div(δ{a} 0.2(x1), &delta; { a } 0.2 ( x 3 ) ) = 0 , 所以x3为第二个中心,假设分为2类,则聚类结果为x1,x2和x3,x4,x5
为了验证该方法的有效性,我们从UCI数据集中挑选了3组数据Wine Recognition Data、Fisher’s Iris Data,其中Letter Image Recognition数据集是从20000条记录中的前16000条中选出字母为A类和字母为D类的对象,其中字母为A类的对象数有789,字母为D类的对象数有805,在三种不同的数据集上且ε=0.1,λ=2,我们分别比较了基于邻域模型的初始聚类中心选择方法和随机选择初始聚类中心方法K-means方法的聚类精度,其中K-means方法的精度是10次随机聚类结果的平均值,分别如表1、表2和表3:
表1  Wine Recognition Data在两种不同初始中心方法下的精度(ε=0.1且λ=2)
实际类别数目   基于邻域方法聚类结果 基于邻域模型初始聚类中心选择方法精度 随机选择初始聚类中心方法精度
  I   II   III
  59(I)71(II)48(III)   5940   0640   0348 96.07 94.49%
  63   64   51
表2  Fisher’s Iris Data在两种不同初始中心方法下的精度(ε=0.1且λ=2)
实际类别数目   基于邻域方法聚类结果 基于邻域模型初始聚类中心选择方法精度 随机选择初始聚类中心方法精度
  I   II   III
  50(I)50(II)50(III)   5000   04814   0236 89.33% 81.87%
  50   62   38
表3  Letter Image Recognition Data在两种不同初始中心方法下的精度(ε=0.1且λ=2)
实际类别数目   基于邻域方法聚类结果 基于邻域模型初始聚类中心选择方法精度 随机选择初始聚类中心方法精度
  A   D
  789(A)805(D)   69027717   99778877 92.1% 90.74%
从实验结果数据可以看到,基于邻域模型的初始聚类中心确定方法,可以有效地提高聚类的精度。

Claims (1)

1.一种基于邻域模型的K-means初始聚类中心选择方法,具体包括如下步骤:
(1)输入S=(U,A,V,f),PA,聚类个数k(k是正整数),范数λ=1,2,∞;
(2)生成U关于属性集P的距离矩阵和归一化矩阵,并计算所有对象之间距离的平均值
(3)在
Figure A2007101852160002C2
之间输入邻域ε,生成邻域矩阵;
(4)生成每一个对象邻域的下近似矩阵和上近似矩阵,并求出每一个对象邻域的精度;
(5)对对象邻域的精度按照由高到低排序,设x1′≥x2′≥…≥x|U|′;
(6)x1′即为第一个初始中心,依次取第二个点,如果分离度小于β(β在[0,0.5]),则x2′为第二个初始中心,否则取x3′,计算x3′和初始中心中每一个点的分离度,如果分离度都小于β,则产生新的聚类中心,否则取x4′,依此类推直至初始中心点的个数达到k,则算法终止;如果不能选出k个初始点,则缩小ε(其中ε在
Figure A2007101852160002C4
)的取值;
(7)输出k个聚类中心初始点。
CNA200710185216XA 2007-11-09 2007-11-09 一种基于邻域模型的K-means初始聚类中心选择方法 Pending CN101149759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA200710185216XA CN101149759A (zh) 2007-11-09 2007-11-09 一种基于邻域模型的K-means初始聚类中心选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200710185216XA CN101149759A (zh) 2007-11-09 2007-11-09 一种基于邻域模型的K-means初始聚类中心选择方法

Publications (1)

Publication Number Publication Date
CN101149759A true CN101149759A (zh) 2008-03-26

Family

ID=39250285

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200710185216XA Pending CN101149759A (zh) 2007-11-09 2007-11-09 一种基于邻域模型的K-means初始聚类中心选择方法

Country Status (1)

Country Link
CN (1) CN101149759A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887645A (zh) * 2010-07-09 2010-11-17 天津职业技术师范大学 室内停车场有线式车辆检测器布线优化方法
CN101894130A (zh) * 2010-06-08 2010-11-24 浙江大学 基于稀疏降维的谱哈希索引方法
CN101986295A (zh) * 2010-10-28 2011-03-16 浙江大学 基于流形稀疏编码的图像聚类的方法
CN102607641A (zh) * 2011-12-27 2012-07-25 哈尔滨工业大学 一种燃气轮机的聚类异常检测方法
CN103793504A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于用户偏好与项目属性的聚类初始点选择方法
CN104765776A (zh) * 2015-03-18 2015-07-08 华为技术有限公司 一种数据样本的聚类方法和装置
CN105426387A (zh) * 2015-10-23 2016-03-23 北京锐安科技有限公司 一种基于K-means算法的地图聚合方法
CN108830317A (zh) * 2018-06-08 2018-11-16 绍兴文理学院 基于数字摄影测量的露天矿山边坡岩体节理产状快速精细取值方法
CN110261706A (zh) * 2019-07-22 2019-09-20 西南交通大学 一种基于邻域距离的输电线路故障检测方法
CN111464529A (zh) * 2020-03-31 2020-07-28 山西大学 一种基于聚类集成的网络入侵检测方法及系统
CN112215490A (zh) * 2020-10-12 2021-01-12 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894130A (zh) * 2010-06-08 2010-11-24 浙江大学 基于稀疏降维的谱哈希索引方法
CN101894130B (zh) * 2010-06-08 2011-12-21 浙江大学 基于稀疏降维的谱哈希索引方法
CN101887645B (zh) * 2010-07-09 2013-03-13 天津职业技术师范大学 室内停车场有线式车辆检测器布线优化方法
CN101887645A (zh) * 2010-07-09 2010-11-17 天津职业技术师范大学 室内停车场有线式车辆检测器布线优化方法
CN101986295A (zh) * 2010-10-28 2011-03-16 浙江大学 基于流形稀疏编码的图像聚类的方法
CN101986295B (zh) * 2010-10-28 2013-01-02 浙江大学 基于流形稀疏编码的图像聚类的方法
CN102607641A (zh) * 2011-12-27 2012-07-25 哈尔滨工业大学 一种燃气轮机的聚类异常检测方法
CN103793504B (zh) * 2014-01-24 2018-02-27 北京理工大学 一种基于用户偏好与项目属性的聚类初始点选择方法
CN103793504A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于用户偏好与项目属性的聚类初始点选择方法
CN104765776A (zh) * 2015-03-18 2015-07-08 华为技术有限公司 一种数据样本的聚类方法和装置
CN104765776B (zh) * 2015-03-18 2018-06-05 华为技术有限公司 一种数据样本的聚类方法和装置
CN105426387A (zh) * 2015-10-23 2016-03-23 北京锐安科技有限公司 一种基于K-means算法的地图聚合方法
CN105426387B (zh) * 2015-10-23 2020-02-07 北京锐安科技有限公司 一种基于K-means算法的地图聚合方法
CN108830317A (zh) * 2018-06-08 2018-11-16 绍兴文理学院 基于数字摄影测量的露天矿山边坡岩体节理产状快速精细取值方法
CN108830317B (zh) * 2018-06-08 2022-04-15 宁波大学 基于数字摄影测量的露天矿山边坡岩体节理产状快速精细取值方法
CN110261706A (zh) * 2019-07-22 2019-09-20 西南交通大学 一种基于邻域距离的输电线路故障检测方法
CN110261706B (zh) * 2019-07-22 2020-09-29 西南交通大学 一种基于邻域距离的输电线路故障检测方法
CN111464529A (zh) * 2020-03-31 2020-07-28 山西大学 一种基于聚类集成的网络入侵检测方法及系统
CN112215490A (zh) * 2020-10-12 2021-01-12 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法

Similar Documents

Publication Publication Date Title
CN101149759A (zh) 一种基于邻域模型的K-means初始聚类中心选择方法
Li et al. Discriminatively boosted image clustering with fully convolutional auto-encoders
Yang et al. Sample subset optimization techniques for imbalanced and ensemble learning problems in bioinformatics applications
JP2022538866A (ja) 画像前処理のためのシステム及び方法
CN101447020B (zh) 基于直觉模糊的色情图像识别方法
Mandal et al. An improved minimum redundancy maximum relevance approach for feature selection in gene expression data
CN105631416A (zh) 采用新型密度聚类进行人脸识别的方法
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN108446599B (zh) 一种p值统计量建模独立性的高光谱图像波段快速选择方法
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
Chaabouni et al. Fractal and multi-fractal for arabic offline writer identification
Albatineh et al. MCS: A method for finding the number of clusters
CN114444600A (zh) 基于记忆增强原型网络的小样本图像分类方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
Shen et al. Another robust NMF: rethinking the hyperbolic tangent function and locality constraint
CN108520201A (zh) 一种基于加权混合范数回归的鲁棒人脸识别方法
Jamail et al. Current state-of-the-art of clustering methods for gene expression data with RNA-Seq
CN116403252A (zh) 基于双向动态分组的多目标特征选择的人脸识别分类方法
CN113537308B (zh) 基于本地化差分隐私的两阶段k-means聚类处理系统及方法
CN113704787B (zh) 一种基于差分隐私的隐私保护聚类方法
Šulc et al. Modifications of the Gower similarity coefficient
CN111462123B (zh) 一种基于谱聚类的点云数据分割方法
Dai et al. Grey incidence clustering method based on multidimensional dynamic time warping distance
CN111598119A (zh) 一种基于残差网络的图像聚类方法
Altintakan et al. An improved BOW approach using fuzzy feature encoding and visual-word weighting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication