CN110766087A - 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 - Google Patents

一种基于离差最大化法改进k-means的提高数据聚类质量的方法 Download PDF

Info

Publication number
CN110766087A
CN110766087A CN201911035889.6A CN201911035889A CN110766087A CN 110766087 A CN110766087 A CN 110766087A CN 201911035889 A CN201911035889 A CN 201911035889A CN 110766087 A CN110766087 A CN 110766087A
Authority
CN
China
Prior art keywords
data
algorithm
clustering
attributes
dispersion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911035889.6A
Other languages
English (en)
Inventor
张凯
李雪梅
王祥凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Zhengyun Information Technology Co Ltd
Original Assignee
Shandong Zhengyun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Zhengyun Information Technology Co Ltd filed Critical Shandong Zhengyun Information Technology Co Ltd
Priority to CN201911035889.6A priority Critical patent/CN110766087A/zh
Publication of CN110766087A publication Critical patent/CN110766087A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

一种基于离差最大化法改进k‑means的提高数据聚类质量的方法,其特征在于,包括:1)对读入数据进行离差最大化的权重计算:2)使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵;3)对数据集的属性进行加权:4)调用k‑means算法或k‑means++算法,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。针对现有技术的算法是对所有数据样本属性进行无差别处理的缺陷,本发明公开一种基于离差最大化法改进k‑means的提高数据聚类质量的方法,具体为:选择对属性进行加权,根据数据集内部的具体信息,得到各属性的客观权重值,从而将各个数据的差别增大,从而达到更好的数据聚类效果。

Description

一种基于离差最大化法改进k-means的提高数据聚类质量的 方法
技术领域
本发明公开一种基于离差最大化法改进k-means的提高数据聚类质量的方法,属于数据处理的技术领域。
背景技术
随着社会的快速发展,人工智能、数据挖掘等各种信息技术在许多方面得到了应用,许多行业都会产生了数量极其庞大的数据集。聚类分析是常用的数据挖掘方法之一,其本身不是一个特定的算法,而是要解决的一般任务,算法是用来实现这些任务的。聚类是没有先验数据的,完全依赖于数据之间的相似性将其划分到不同的簇,而相似度一般根据数据元素之间的属性计算,最后计算的预期结果是在不同的簇中数据对象的属性值差异较大,同一簇中数据属性值之间相似度很高。
聚类可以是数据挖掘中的数据预处理的步骤,也可以独立出来作为一种数据分析技术。聚类划分大致的基本思想可以概括如下:某个数据集有N个元素,首先聚类把数据分为k个类,一个分类为一个簇,且k≤n;如果k值是已知的,聚类方法先对数据作大概分类,再反复迭代,并将已有的划分进行优化,而且使优化后的分类方式要比上一个的分类方法更优才行。聚类分析方法主要是以统计已经机器学习等模型为基础,常用的聚类是基于几何距离的聚类方法,例如欧氏距离等。聚类在机器学习、大数据分析、金融学、工商管理、基因组学等研究领域中都是重点学科,在生物制药、IT、工商业、银行、电信、交通、保险等很多行业更是有着广泛的应用。
针对数据聚类的聚类算法有很多种,常用的有k-means,COBWEB,DBSCAN和Graph等等,其中k-means因为方法简单效率较高,而且实现起来较为容易,成为最受青睐的聚类算法,应用领域也非常的广泛。但是k-means也有很多不足,比如在数据处理上,对于被分析的样本属性一视同仁,当然这也是聚类算法都会有的问题,但是不同的属性特征可能会对聚类结果产生很大影响。这会导致最终的数据聚类效果不太理想,尤其是现在的数据量越来越大,传统的k-means算法已经无法满足现在庞大的数据处理的需求。
而且,由于聚类分析的无监督特性,一般在做数据处理的时候,只能根据数据集本身的属性进行分类,但是并不会对这些属性有所侧重。如果能根据数据本身的特点,赋予属性不同的权重值,就可以更好的完成数据分析,得到更完美的聚类效果。
更进一步,传统的k-means算法还无法解决K值的选择问题,因为数据集没有类标号,所以不知道应该分成几类,只能根据数据属性确定应该将元素归为哪一类。
发明内容
针对现有技术的不足,本发明一种基于离差最大化法改进k-means的提高数据聚类质量的方法。
发明概述:
本发明利用将各个属性影响因素引入数据聚类过程中,从而实现对数据分类结果进行有效的影响。
为了对数据能有更好的划分,进一步提高聚类的效果,本发明将会对数据做一些预处理。首先随机取出一些数据样本,然后根据这部分数据集的内部特征构造出加权矩阵,使用管理学中的离差最大化客观权重选择法(离差最大化客观权重选择法记载于徐泽水.《不确定多属性决策方法及应用[M]》.北京:清华大学出版社,2004.)对各个属性进行赋权,根据属性的权重,可以看出各属性对聚类效果的影响程度。
本发明的详细技术方案如下:
一种基于离差最大化法改进k-means的提高数据聚类质量的方法,其特征在于,包括:
1)对读入数据进行离差最大化的权重计算:
在通常情况下,离差最大化的权重计算为:如果各个决策方案在指标属性cj值下的差值越小,则属性权重对方案排序或选择就会有越小的影响;如果在这几种方案的决策中,指标属性rij(j=1,2,…,n)能有较大的离差数值,则表明这个指标属性在方案的决策中起着较为重要的作用。因此,离差值越大,其权重值越大,反之,权重值越小。
客观权重ωj确定方法的公式如下:
Figure BDA0002251476540000031
在公式(1)中,i,j表示行和列,客观权重可以充分利用决策对象的信息,拉大数据之间的差距以便于做出更好的决策;
2)使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵,按样本数据排列构造成矩阵;
3)对数据集的属性进行加权:
设数据属性X={xi1,xi2,...,xim},其中m表示属性个数,将这些数据划分到k个类中,属性权重的值是w1,w2,...,wm,且wj>=0,j=1,2,...,m,数据之间的加权欧式距离为:
Figure BDA0002251476540000032
其中,公式(2)中xik-xjk表示每个元素到第K个中心点的距离,wk表示权重,共有M个属性;
4)调用k-means算法或k-means++算法,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
根据本发明优选的,所述k-means++算法具体包括:
通过改进聚类算法的方式,得到目标k-means++算法;
假设将数据样本集分为k个类别,所述k-means++算法步骤如下:
1)随机选择第一个中心点并预设一个k值,所述k为所述类别个数;
2)计算每个元素与各中心点的最短距离,用D(X)表示;其中,D(X)越大的点作为中心点的概率越大,找出k个中心点为止;
3)在第c次迭代后,对任意一个样本数据,求它到k个中心的距离,然后将该样本归到距离最短的中心所在的簇中;
4)利用均值计算方法对这些簇的中心值进行更新操作;
5)对所述k个中心点,利用步骤3)—4)进行迭代更新,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
本发明的技术优势在于:
针对现有技术的算法是对所有数据样本属性进行无差别处理的缺陷,本发明公开一种基于离差最大化法改进k-means的提高数据聚类质量的方法,具体为:选择对属性进行加权,根据数据集内部的具体信息,得到各属性的客观权重值,从而将各个数据的差别增大,从而达到更好的数据聚类效果。
本发明具体技术优势在于:首先,使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵;其次,对数据集的属性进行加权,产生新的距离计算公式(2),本发明跟原来的欧式距离计算方法相比,增加了权重w,本发明在对属性进行加权之后,可以更清楚的区分出数据之间的距离,从而对数据集的分类能有一个更好的效果。
本发明具体技术优势还在于:先随机选择中心点并预设一个k值,尽量选择离其他中心点较远的点,把未处理的样本数据按照最近邻的原则分配到各个簇中;然后再重新计算各个簇的中心,以重新确定新的簇;一直循环迭代计算,最后簇的质心的移动距离小于某个确定值。其可以进行初始k值的粗略选择,这种方法比原来的算法速度更快而且效果更好。
附图说明
图1、本发明所述方法的流程图。
具体实施方式
下面结合实施例和说明书附图做详细的说明,但不限于此。
实施例1、
一种基于离差最大化法改进k-means的提高数据聚类质量的方法,包括:
1)对读入数据进行离差最大化的权重计算:
客观权重ωj确定方法的公式如下:
Figure BDA0002251476540000051
在公式(1)中,i,j表示行和列,客观权重可以充分利用决策对象的信息,拉大数据之间的差距以便于做出更好的决策;
2)使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵,按样本数据排列构造成矩阵;
3)对数据集的属性进行加权:
设数据属性X={xi1,xi2,...,xim},其中m表示属性个数,将这些数据划分到k个类中,属性权重的值是w1,w2,...,wm,且wj>=0,j=1,2,...,m,数据之间的加权欧式距离为:
Figure BDA0002251476540000052
其中,公式(2)中xik-xjk表示每个元素到第K个中心点的距离,wk表示权重,共有M个属性;
4)调用k-means算法或k-means++算法,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
实施例2、
如实施例1所述的一种基于离差最大化法改进k-means的提高数据聚类质量的方法,其区别在于,所述k-means++算法具体包括:
假设将数据样本集分为k个类别,所述k-means++算法步骤如下:
1)随机选择第一个中心点并预设一个k值,所述k为所述类别个数;
3)计算每个元素与各中心点的最短距离,用D(X)表示;其中,D(X)越大的点作为中心点的概率越大,找出k个中心点为止;
3)在第c次迭代后,对任意一个样本数据,求它到k个中心的距离,然后将该样本归到距离最短的中心所在的簇中;
4)利用均值计算方法对这些簇的中心值进行更新操作;
5)对所述k个中心点,利用步骤3)—4)进行迭代更新,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
实验例、
结合附图1,对本发明所述的效果进行验证性说明。
本实验例是利用本发明所述的基于离差最大化法改进k-means的提高数据聚类质量的方法分别对UCI机器学习数据库中两个具有代表性的数据集Iris和Wine,分别进行数据聚类处理,然后直观查看所述的数据聚类质量。
其中,所述UCI数据库是一个专门用于测试机器学习、数据挖掘算法的数据库,库中的数据都有确定的分类,因此可以很直观地看出聚类的质量。所述数据集Iris和Wine,作为实验数据其性质如表3.1实验用数据集所示。所述Iris数据集包含了150个带标签的4维样本点,聚类类别数为k=3;Wine数据集有178条,用13个参数来区分3种酒的品种。
聚类算法的评价指标有很多种,本实验例将选择使用Purity纯度指标和RI兰德指数评估指标两种评价方法。
其中,所述Purity纯度指标是代表同一个簇内属性不相同的样本的数量,即异质元素数量,并且纯度指标越大,数据集的异质性越小,聚类效果越好。纯度的定义如下:
Figure BDA0002251476540000061
Figure BDA0002251476540000071
其中,对于整个数据集上的所有集群类分区的纯度度量为purity,可以表示为集群纯度的算术平均值。nr表示第r个节点类的数目,nr i表示第i个被标记的样本的数目,n表示数据集中对象的总数目。无论是单簇的纯度还是总纯度,其取值范围都是[0,1]。纯度越高,集群的划分(或总划分)的质量越好,并且它越接近正确的类标识。
其中,所述RI兰德指数是基于统计的评估指标,其可以应用于数据挖掘,用于评估两个数据簇之间的相似度。假设给定数据集S={C1,C2,...,Cn},包含n个元素和S的两个分区集合C1和C2。集合S中与C1和C2相交的元素的数量为a;集合S中与C1和C2不相交的元素的数量为b;集合S中与C1相交且与C2没有相交的元素的数量为c;集合S中的元素数量与C2相交且与C1不相交的元素数量d;所以,兰德指数(RI)指标的定义如下:
Figure BDA0002251476540000072
所述兰德指数的取值范围是[0,1]。0表示两个数据簇之间没有匹配点,1表示数据簇集群是相同的。
在本实验例中,所述实验的硬件环境CPU为Core(TM)1.80GHz,内存为8GB,软件环境为win10 64位,本发明涉及到的算法均采用python语言实现。
表3.1实验用数据集
(1)Iris数据集实验结果及分析
Iris数据集是以鸢尾花的特征作为数据来源的,共有1000个数据集,分为3类,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集。Iris数据集中的三类分别为:setosa,versicolor和virginica,数据包含4个独立的属性,这些属性变量测量植物的花朵,包括:花萼长度,花萼宽度,花瓣长度,花瓣宽度。实验结果记录见表3.2。
表3.2 Iris数据集实验结果
Figure BDA0002251476540000081
表3.2中所述原始k-means的具体步骤如下:随机地选择k个对象作为中心点;使用距离函数计算他们与每个中心点的距离,并把它分到最近的类中;接着再一次计算这些类的均值,并将其更新为新的中心点;重复以上两步直到结果收敛为止。所述k-means++的具体步骤和本发明中所调用的k-means++的步骤是一致的。
改进后kmeans算法的评价值的变换如表3.2所示:
根据Iris数据集的实验结果可以看出,改进后的k-means算法的purity评价值比最原始的k-means算法提高了17.9%,比k-means++算法提高了8.2%;在RI的评价值中,本发明所述改进后的k-means算法比原始算法提高了16.4%,比k-means++算法提高了7.6%;总的来说,改进后的k-means算法比原始算法的准确度平均提高了17.2%,比k-means++算法提高了7.9%。由此可知,本发明改进的算法在Iris数据集上有着更好的聚类效果。
(2)Wine数据集实验结果及分析
Wine数据集同样也是数据挖掘中常用的一个测试集,它包含来自3种不同起源的葡萄酒,共178条记录,13个属性,值得一提的是所有的属性变量都是连续变量,本实验例中,所述13个属性包括是十三种化学成分:酒精、苹果酸、灰分、灰分碱性、镁、总酚,黄酮类,非黄酮类酚类,原花青素,颜色强度,色调,稀释葡萄酒的OD280/OD315,脯氨酸。Wine数据集是一个具有13维数据的高维数据,通过Wine数据集能够更好地测试各维属性重要性对聚类结果的影响。实验结果记录见表3.3。
表3.3 Wine数据集实验结果
Figure BDA0002251476540000082
Figure BDA0002251476540000091
表3.3中所述原始k-means的具体步骤如下:随机地选择k个对象作为中心点;使用距离函数计算他们与每个中心点的距离,并把它分到最近的类中;接着再一次计算这些类的均值,并将其更新为新的中心点;重复以上两步直到结果收敛为止。所述k-means++的具体步骤和本发明中所调用的k-means++的步骤是一致的。
根据Wine数据集的实验结果可以看出,改进后的k-means算法的purity评价值比最原始的k-means算法提高了30.9%,比k-means++算法提高了19.2%;在RI的评价值中,改进后的k-means算法比原始算法提高了29.8%,比k-means++算法提高了17.6%;总的来说,改进后的k-means算法比原始算法的准确度平均提高了30.4%,比k-means++算法提高了18.4%。由此可知,本发明改进的算法在Wine数据集上有着更好的聚类效果。
由上述两种聚类评价结果可知,在属性数量较低的Iris数据集中,本发明所述改进后的k-means算法的聚类效果也有一些提高,但是并没有很明显的升;而在属性个数较多的Wine数据集中,聚类效果有了很明显的提高。所以,本发明所述方法更适用于属性维数较高的数据集中。

Claims (2)

1.一种基于离差最大化法改进k-means的提高数据聚类质量的方法,其特征在于,包括:
1)对读入数据进行离差最大化的权重计算:
客观权重ωj确定方法的公式如下:
在公式(1)中,i,j表示行和列;
2)使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵;
3)对数据集的属性进行加权:
设数据属性X={xi1,xi2,...,xim},其中m表示属性个数,将这些数据划分到k个类中,属性权重的值是w1,w2,...,wm,且wj>=0,j=1,2,...,m,数据之间的加权欧式距离为:
Figure FDA0002251476530000012
其中,公式(2)中xik-xjk表示每个元素到第K个中心点的距离,wk表示权重,共有M个属性;
4)调用k-means算法或k-means++算法,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
2.根据权利要求1所述的一种基于离差最大化法改进k-means的提高数据聚类质量的方法,其特征在于,所述k-means++算法具体包括:
假设将数据样本集分为k个类别,所述k-means++算法步骤如下:
1)随机选择第一个中心点并预设一个k值,所述k为所述类别个数;
2)计算每个元素与各中心点的最短距离,用D(X)表示;其中,D(X)越大的点作为中心点的概率越大,找出k个中心点为止;
3)在第c次迭代后,对任意一个样本数据,求它到k个中心的距离,然后将该样本归到距离最短的中心所在的簇中;
4)利用均值计算方法对这些簇的中心值进行更新操作;
5)对所述k个中心点,利用步骤2)—4)进行迭代更新,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
CN201911035889.6A 2019-10-29 2019-10-29 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 Pending CN110766087A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911035889.6A CN110766087A (zh) 2019-10-29 2019-10-29 一种基于离差最大化法改进k-means的提高数据聚类质量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911035889.6A CN110766087A (zh) 2019-10-29 2019-10-29 一种基于离差最大化法改进k-means的提高数据聚类质量的方法

Publications (1)

Publication Number Publication Date
CN110766087A true CN110766087A (zh) 2020-02-07

Family

ID=69334190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911035889.6A Pending CN110766087A (zh) 2019-10-29 2019-10-29 一种基于离差最大化法改进k-means的提高数据聚类质量的方法

Country Status (1)

Country Link
CN (1) CN110766087A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611954A (zh) * 2020-05-28 2020-09-01 云南电网有限责任公司电力科学研究院 基于改进K-means算法的高光谱图像分类方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611954A (zh) * 2020-05-28 2020-09-01 云南电网有限责任公司电力科学研究院 基于改进K-means算法的高光谱图像分类方法及装置
CN111611954B (zh) * 2020-05-28 2023-11-24 云南电网有限责任公司电力科学研究院 基于改进K-means算法的高光谱图像分类方法及装置

Similar Documents

Publication Publication Date Title
Nguyen et al. Unbiased feature selection in learning random forests for high-dimensional data
CN110659207B (zh) 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
CN111444247A (zh) 一种基于kpi指标的根因定位方法、装置及存储介质
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN112613536A (zh) 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及系统
CN113408616B (zh) 基于pca-uve-elm的光谱分类方法
Chandra et al. Elegant Decision Tree Algorithm for Classification in Data Mining.
CN110766087A (zh) 一种基于离差最大化法改进k-means的提高数据聚类质量的方法
CN106874927A (zh) 一种随机强分类器的构建方法和系统
CN116129189A (zh) 一种植物病害识别方法、设备、存储介质及装置
CN113724195B (zh) 基于免疫荧光图像的蛋白质的定量分析模型和建立方法
CN114118299A (zh) 一种结合相似性度量和社区发现的聚类方法
Deng et al. Research on C4. 5 Algorithm Optimization for User Churn
CN113688229B (zh) 一种文本推荐方法、系统、存储介质和设备
Giurcărneanu et al. Fast iterative gene clustering based on information theoretic criteria for selecting the cluster structure
Siddique et al. An Effective Dimensionality Reduction Workflow for the Enhancement of Automated Date Fruit Recognition Utilizing Several Machine Learning Classifiers
KR102405732B1 (ko) 세포 클러스터링 방법 및 장치
CN116662859B (zh) 非遗文化数据特征选择方法
CN116028500B (zh) 一种基于高维数据的范围查询索引方法
CN114281994B (zh) 一种基于三层加权模型的文本聚类集成方法及系统
CN113177604B (zh) 一种基于改进l1正则化和聚类的高维数据特征选择方法
CN108776707B (zh) 针对探索性查询的抽样方法
CN108090514B (zh) 基于两阶段密度聚类的红外图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200207