CN110766087A - 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 - Google Patents
一种基于离差最大化法改进k-means的提高数据聚类质量的方法 Download PDFInfo
- Publication number
- CN110766087A CN110766087A CN201911035889.6A CN201911035889A CN110766087A CN 110766087 A CN110766087 A CN 110766087A CN 201911035889 A CN201911035889 A CN 201911035889A CN 110766087 A CN110766087 A CN 110766087A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- clustering
- attributes
- dispersion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
一种基于离差最大化法改进k‑means的提高数据聚类质量的方法,其特征在于,包括:1)对读入数据进行离差最大化的权重计算:2)使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵;3)对数据集的属性进行加权:4)调用k‑means算法或k‑means++算法,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。针对现有技术的算法是对所有数据样本属性进行无差别处理的缺陷,本发明公开一种基于离差最大化法改进k‑means的提高数据聚类质量的方法,具体为:选择对属性进行加权,根据数据集内部的具体信息,得到各属性的客观权重值,从而将各个数据的差别增大,从而达到更好的数据聚类效果。
Description
技术领域
本发明公开一种基于离差最大化法改进k-means的提高数据聚类质量的方法,属于数据处理的技术领域。
背景技术
随着社会的快速发展,人工智能、数据挖掘等各种信息技术在许多方面得到了应用,许多行业都会产生了数量极其庞大的数据集。聚类分析是常用的数据挖掘方法之一,其本身不是一个特定的算法,而是要解决的一般任务,算法是用来实现这些任务的。聚类是没有先验数据的,完全依赖于数据之间的相似性将其划分到不同的簇,而相似度一般根据数据元素之间的属性计算,最后计算的预期结果是在不同的簇中数据对象的属性值差异较大,同一簇中数据属性值之间相似度很高。
聚类可以是数据挖掘中的数据预处理的步骤,也可以独立出来作为一种数据分析技术。聚类划分大致的基本思想可以概括如下:某个数据集有N个元素,首先聚类把数据分为k个类,一个分类为一个簇,且k≤n;如果k值是已知的,聚类方法先对数据作大概分类,再反复迭代,并将已有的划分进行优化,而且使优化后的分类方式要比上一个的分类方法更优才行。聚类分析方法主要是以统计已经机器学习等模型为基础,常用的聚类是基于几何距离的聚类方法,例如欧氏距离等。聚类在机器学习、大数据分析、金融学、工商管理、基因组学等研究领域中都是重点学科,在生物制药、IT、工商业、银行、电信、交通、保险等很多行业更是有着广泛的应用。
针对数据聚类的聚类算法有很多种,常用的有k-means,COBWEB,DBSCAN和Graph等等,其中k-means因为方法简单效率较高,而且实现起来较为容易,成为最受青睐的聚类算法,应用领域也非常的广泛。但是k-means也有很多不足,比如在数据处理上,对于被分析的样本属性一视同仁,当然这也是聚类算法都会有的问题,但是不同的属性特征可能会对聚类结果产生很大影响。这会导致最终的数据聚类效果不太理想,尤其是现在的数据量越来越大,传统的k-means算法已经无法满足现在庞大的数据处理的需求。
而且,由于聚类分析的无监督特性,一般在做数据处理的时候,只能根据数据集本身的属性进行分类,但是并不会对这些属性有所侧重。如果能根据数据本身的特点,赋予属性不同的权重值,就可以更好的完成数据分析,得到更完美的聚类效果。
更进一步,传统的k-means算法还无法解决K值的选择问题,因为数据集没有类标号,所以不知道应该分成几类,只能根据数据属性确定应该将元素归为哪一类。
发明内容
针对现有技术的不足,本发明一种基于离差最大化法改进k-means的提高数据聚类质量的方法。
发明概述:
本发明利用将各个属性影响因素引入数据聚类过程中,从而实现对数据分类结果进行有效的影响。
为了对数据能有更好的划分,进一步提高聚类的效果,本发明将会对数据做一些预处理。首先随机取出一些数据样本,然后根据这部分数据集的内部特征构造出加权矩阵,使用管理学中的离差最大化客观权重选择法(离差最大化客观权重选择法记载于徐泽水.《不确定多属性决策方法及应用[M]》.北京:清华大学出版社,2004.)对各个属性进行赋权,根据属性的权重,可以看出各属性对聚类效果的影响程度。
本发明的详细技术方案如下:
一种基于离差最大化法改进k-means的提高数据聚类质量的方法,其特征在于,包括:
1)对读入数据进行离差最大化的权重计算:
在通常情况下,离差最大化的权重计算为:如果各个决策方案在指标属性cj值下的差值越小,则属性权重对方案排序或选择就会有越小的影响;如果在这几种方案的决策中,指标属性rij(j=1,2,…,n)能有较大的离差数值,则表明这个指标属性在方案的决策中起着较为重要的作用。因此,离差值越大,其权重值越大,反之,权重值越小。
客观权重ωj确定方法的公式如下:
在公式(1)中,i,j表示行和列,客观权重可以充分利用决策对象的信息,拉大数据之间的差距以便于做出更好的决策;
2)使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵,按样本数据排列构造成矩阵;
3)对数据集的属性进行加权:
设数据属性X={xi1,xi2,...,xim},其中m表示属性个数,将这些数据划分到k个类中,属性权重的值是w1,w2,...,wm,且wj>=0,j=1,2,...,m,数据之间的加权欧式距离为:
其中,公式(2)中xik-xjk表示每个元素到第K个中心点的距离,wk表示权重,共有M个属性;
4)调用k-means算法或k-means++算法,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
根据本发明优选的,所述k-means++算法具体包括:
通过改进聚类算法的方式,得到目标k-means++算法;
假设将数据样本集分为k个类别,所述k-means++算法步骤如下:
1)随机选择第一个中心点并预设一个k值,所述k为所述类别个数;
2)计算每个元素与各中心点的最短距离,用D(X)表示;其中,D(X)越大的点作为中心点的概率越大,找出k个中心点为止;
3)在第c次迭代后,对任意一个样本数据,求它到k个中心的距离,然后将该样本归到距离最短的中心所在的簇中;
4)利用均值计算方法对这些簇的中心值进行更新操作;
5)对所述k个中心点,利用步骤3)—4)进行迭代更新,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
本发明的技术优势在于:
针对现有技术的算法是对所有数据样本属性进行无差别处理的缺陷,本发明公开一种基于离差最大化法改进k-means的提高数据聚类质量的方法,具体为:选择对属性进行加权,根据数据集内部的具体信息,得到各属性的客观权重值,从而将各个数据的差别增大,从而达到更好的数据聚类效果。
本发明具体技术优势在于:首先,使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵;其次,对数据集的属性进行加权,产生新的距离计算公式(2),本发明跟原来的欧式距离计算方法相比,增加了权重w,本发明在对属性进行加权之后,可以更清楚的区分出数据之间的距离,从而对数据集的分类能有一个更好的效果。
本发明具体技术优势还在于:先随机选择中心点并预设一个k值,尽量选择离其他中心点较远的点,把未处理的样本数据按照最近邻的原则分配到各个簇中;然后再重新计算各个簇的中心,以重新确定新的簇;一直循环迭代计算,最后簇的质心的移动距离小于某个确定值。其可以进行初始k值的粗略选择,这种方法比原来的算法速度更快而且效果更好。
附图说明
图1、本发明所述方法的流程图。
具体实施方式
下面结合实施例和说明书附图做详细的说明,但不限于此。
实施例1、
一种基于离差最大化法改进k-means的提高数据聚类质量的方法,包括:
1)对读入数据进行离差最大化的权重计算:
客观权重ωj确定方法的公式如下:
在公式(1)中,i,j表示行和列,客观权重可以充分利用决策对象的信息,拉大数据之间的差距以便于做出更好的决策;
2)使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵,按样本数据排列构造成矩阵;
3)对数据集的属性进行加权:
设数据属性X={xi1,xi2,...,xim},其中m表示属性个数,将这些数据划分到k个类中,属性权重的值是w1,w2,...,wm,且wj>=0,j=1,2,...,m,数据之间的加权欧式距离为:
其中,公式(2)中xik-xjk表示每个元素到第K个中心点的距离,wk表示权重,共有M个属性;
4)调用k-means算法或k-means++算法,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
实施例2、
如实施例1所述的一种基于离差最大化法改进k-means的提高数据聚类质量的方法,其区别在于,所述k-means++算法具体包括:
假设将数据样本集分为k个类别,所述k-means++算法步骤如下:
1)随机选择第一个中心点并预设一个k值,所述k为所述类别个数;
3)计算每个元素与各中心点的最短距离,用D(X)表示;其中,D(X)越大的点作为中心点的概率越大,找出k个中心点为止;
3)在第c次迭代后,对任意一个样本数据,求它到k个中心的距离,然后将该样本归到距离最短的中心所在的簇中;
4)利用均值计算方法对这些簇的中心值进行更新操作;
5)对所述k个中心点,利用步骤3)—4)进行迭代更新,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
实验例、
结合附图1,对本发明所述的效果进行验证性说明。
本实验例是利用本发明所述的基于离差最大化法改进k-means的提高数据聚类质量的方法分别对UCI机器学习数据库中两个具有代表性的数据集Iris和Wine,分别进行数据聚类处理,然后直观查看所述的数据聚类质量。
其中,所述UCI数据库是一个专门用于测试机器学习、数据挖掘算法的数据库,库中的数据都有确定的分类,因此可以很直观地看出聚类的质量。所述数据集Iris和Wine,作为实验数据其性质如表3.1实验用数据集所示。所述Iris数据集包含了150个带标签的4维样本点,聚类类别数为k=3;Wine数据集有178条,用13个参数来区分3种酒的品种。
聚类算法的评价指标有很多种,本实验例将选择使用Purity纯度指标和RI兰德指数评估指标两种评价方法。
其中,所述Purity纯度指标是代表同一个簇内属性不相同的样本的数量,即异质元素数量,并且纯度指标越大,数据集的异质性越小,聚类效果越好。纯度的定义如下:
其中,对于整个数据集上的所有集群类分区的纯度度量为purity,可以表示为集群纯度的算术平均值。nr表示第r个节点类的数目,nr i表示第i个被标记的样本的数目,n表示数据集中对象的总数目。无论是单簇的纯度还是总纯度,其取值范围都是[0,1]。纯度越高,集群的划分(或总划分)的质量越好,并且它越接近正确的类标识。
其中,所述RI兰德指数是基于统计的评估指标,其可以应用于数据挖掘,用于评估两个数据簇之间的相似度。假设给定数据集S={C1,C2,...,Cn},包含n个元素和S的两个分区集合C1和C2。集合S中与C1和C2相交的元素的数量为a;集合S中与C1和C2不相交的元素的数量为b;集合S中与C1相交且与C2没有相交的元素的数量为c;集合S中的元素数量与C2相交且与C1不相交的元素数量d;所以,兰德指数(RI)指标的定义如下:
所述兰德指数的取值范围是[0,1]。0表示两个数据簇之间没有匹配点,1表示数据簇集群是相同的。
在本实验例中,所述实验的硬件环境CPU为Core(TM)1.80GHz,内存为8GB,软件环境为win10 64位,本发明涉及到的算法均采用python语言实现。
表3.1实验用数据集
(1)Iris数据集实验结果及分析
Iris数据集是以鸢尾花的特征作为数据来源的,共有1000个数据集,分为3类,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集。Iris数据集中的三类分别为:setosa,versicolor和virginica,数据包含4个独立的属性,这些属性变量测量植物的花朵,包括:花萼长度,花萼宽度,花瓣长度,花瓣宽度。实验结果记录见表3.2。
表3.2 Iris数据集实验结果
表3.2中所述原始k-means的具体步骤如下:随机地选择k个对象作为中心点;使用距离函数计算他们与每个中心点的距离,并把它分到最近的类中;接着再一次计算这些类的均值,并将其更新为新的中心点;重复以上两步直到结果收敛为止。所述k-means++的具体步骤和本发明中所调用的k-means++的步骤是一致的。
改进后kmeans算法的评价值的变换如表3.2所示:
根据Iris数据集的实验结果可以看出,改进后的k-means算法的purity评价值比最原始的k-means算法提高了17.9%,比k-means++算法提高了8.2%;在RI的评价值中,本发明所述改进后的k-means算法比原始算法提高了16.4%,比k-means++算法提高了7.6%;总的来说,改进后的k-means算法比原始算法的准确度平均提高了17.2%,比k-means++算法提高了7.9%。由此可知,本发明改进的算法在Iris数据集上有着更好的聚类效果。
(2)Wine数据集实验结果及分析
Wine数据集同样也是数据挖掘中常用的一个测试集,它包含来自3种不同起源的葡萄酒,共178条记录,13个属性,值得一提的是所有的属性变量都是连续变量,本实验例中,所述13个属性包括是十三种化学成分:酒精、苹果酸、灰分、灰分碱性、镁、总酚,黄酮类,非黄酮类酚类,原花青素,颜色强度,色调,稀释葡萄酒的OD280/OD315,脯氨酸。Wine数据集是一个具有13维数据的高维数据,通过Wine数据集能够更好地测试各维属性重要性对聚类结果的影响。实验结果记录见表3.3。
表3.3 Wine数据集实验结果
表3.3中所述原始k-means的具体步骤如下:随机地选择k个对象作为中心点;使用距离函数计算他们与每个中心点的距离,并把它分到最近的类中;接着再一次计算这些类的均值,并将其更新为新的中心点;重复以上两步直到结果收敛为止。所述k-means++的具体步骤和本发明中所调用的k-means++的步骤是一致的。
根据Wine数据集的实验结果可以看出,改进后的k-means算法的purity评价值比最原始的k-means算法提高了30.9%,比k-means++算法提高了19.2%;在RI的评价值中,改进后的k-means算法比原始算法提高了29.8%,比k-means++算法提高了17.6%;总的来说,改进后的k-means算法比原始算法的准确度平均提高了30.4%,比k-means++算法提高了18.4%。由此可知,本发明改进的算法在Wine数据集上有着更好的聚类效果。
由上述两种聚类评价结果可知,在属性数量较低的Iris数据集中,本发明所述改进后的k-means算法的聚类效果也有一些提高,但是并没有很明显的升;而在属性个数较多的Wine数据集中,聚类效果有了很明显的提高。所以,本发明所述方法更适用于属性维数较高的数据集中。
Claims (2)
1.一种基于离差最大化法改进k-means的提高数据聚类质量的方法,其特征在于,包括:
1)对读入数据进行离差最大化的权重计算:
客观权重ωj确定方法的公式如下:
在公式(1)中,i,j表示行和列;
2)使用离差最大化法计算样本各属性的权值wk,然后构造加权矩阵;
3)对数据集的属性进行加权:
设数据属性X={xi1,xi2,...,xim},其中m表示属性个数,将这些数据划分到k个类中,属性权重的值是w1,w2,...,wm,且wj>=0,j=1,2,...,m,数据之间的加权欧式距离为:
其中,公式(2)中xik-xjk表示每个元素到第K个中心点的距离,wk表示权重,共有M个属性;
4)调用k-means算法或k-means++算法,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
2.根据权利要求1所述的一种基于离差最大化法改进k-means的提高数据聚类质量的方法,其特征在于,所述k-means++算法具体包括:
假设将数据样本集分为k个类别,所述k-means++算法步骤如下:
1)随机选择第一个中心点并预设一个k值,所述k为所述类别个数;
2)计算每个元素与各中心点的最短距离,用D(X)表示;其中,D(X)越大的点作为中心点的概率越大,找出k个中心点为止;
3)在第c次迭代后,对任意一个样本数据,求它到k个中心的距离,然后将该样本归到距离最短的中心所在的簇中;
4)利用均值计算方法对这些簇的中心值进行更新操作;
5)对所述k个中心点,利用步骤2)—4)进行迭代更新,通过判断结果是否收敛到指定阈值,判断是否终止迭代,最终得到聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035889.6A CN110766087A (zh) | 2019-10-29 | 2019-10-29 | 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035889.6A CN110766087A (zh) | 2019-10-29 | 2019-10-29 | 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110766087A true CN110766087A (zh) | 2020-02-07 |
Family
ID=69334190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911035889.6A Pending CN110766087A (zh) | 2019-10-29 | 2019-10-29 | 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766087A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611954A (zh) * | 2020-05-28 | 2020-09-01 | 云南电网有限责任公司电力科学研究院 | 基于改进K-means算法的高光谱图像分类方法及装置 |
-
2019
- 2019-10-29 CN CN201911035889.6A patent/CN110766087A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611954A (zh) * | 2020-05-28 | 2020-09-01 | 云南电网有限责任公司电力科学研究院 | 基于改进K-means算法的高光谱图像分类方法及装置 |
CN111611954B (zh) * | 2020-05-28 | 2023-11-24 | 云南电网有限责任公司电力科学研究院 | 基于改进K-means算法的高光谱图像分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Unbiased feature selection in learning random forests for high-dimensional data | |
CN110659207B (zh) | 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法 | |
CN111444247A (zh) | 一种基于kpi指标的根因定位方法、装置及存储介质 | |
CN112232413A (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN112613536A (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN111027636B (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
CN113408616B (zh) | 基于pca-uve-elm的光谱分类方法 | |
Chandra et al. | Elegant Decision Tree Algorithm for Classification in Data Mining. | |
CN110766087A (zh) | 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 | |
CN106874927A (zh) | 一种随机强分类器的构建方法和系统 | |
CN116129189A (zh) | 一种植物病害识别方法、设备、存储介质及装置 | |
CN113724195B (zh) | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 | |
CN114118299A (zh) | 一种结合相似性度量和社区发现的聚类方法 | |
Deng et al. | Research on C4. 5 Algorithm Optimization for User Churn | |
CN113688229B (zh) | 一种文本推荐方法、系统、存储介质和设备 | |
Giurcărneanu et al. | Fast iterative gene clustering based on information theoretic criteria for selecting the cluster structure | |
Siddique et al. | An Effective Dimensionality Reduction Workflow for the Enhancement of Automated Date Fruit Recognition Utilizing Several Machine Learning Classifiers | |
KR102405732B1 (ko) | 세포 클러스터링 방법 및 장치 | |
CN116662859B (zh) | 非遗文化数据特征选择方法 | |
CN116028500B (zh) | 一种基于高维数据的范围查询索引方法 | |
CN114281994B (zh) | 一种基于三层加权模型的文本聚类集成方法及系统 | |
CN113177604B (zh) | 一种基于改进l1正则化和聚类的高维数据特征选择方法 | |
CN108776707B (zh) | 针对探索性查询的抽样方法 | |
CN108090514B (zh) | 基于两阶段密度聚类的红外图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200207 |