CN110766087A

CN110766087A - 一种基于离差最大化法改进k-means的提高数据聚类质量的方法

Info

Publication number: CN110766087A
Application number: CN201911035889.6A
Authority: CN
Inventors: 张凯; 李雪梅; 王祥凯
Original assignee: Shandong Zhengyun Information Technology Co Ltd
Current assignee: Shandong Zhengyun Information Technology Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-07

Abstract

一种基于离差最大化法改进k‑means的提高数据聚类质量的方法，其特征在于，包括：1)对读入数据进行离差最大化的权重计算：2)使用离差最大化法计算样本各属性的权值w_k,然后构造加权矩阵；3)对数据集的属性进行加权：4)调用k‑means算法或k‑means++算法，通过判断结果是否收敛到指定阈值，判断是否终止迭代，最终得到聚类结果。针对现有技术的算法是对所有数据样本属性进行无差别处理的缺陷，本发明公开一种基于离差最大化法改进k‑means的提高数据聚类质量的方法，具体为：选择对属性进行加权，根据数据集内部的具体信息，得到各属性的客观权重值，从而将各个数据的差别增大，从而达到更好的数据聚类效果。

Description

一种基于离差最大化法改进k-means的提高数据聚类质量的方法

技术领域

本发明公开一种基于离差最大化法改进k-means的提高数据聚类质量的方法，属于数据处理的技术领域。

背景技术

随着社会的快速发展，人工智能、数据挖掘等各种信息技术在许多方面得到了应用，许多行业都会产生了数量极其庞大的数据集。聚类分析是常用的数据挖掘方法之一，其本身不是一个特定的算法，而是要解决的一般任务，算法是用来实现这些任务的。聚类是没有先验数据的，完全依赖于数据之间的相似性将其划分到不同的簇，而相似度一般根据数据元素之间的属性计算，最后计算的预期结果是在不同的簇中数据对象的属性值差异较大，同一簇中数据属性值之间相似度很高。

聚类可以是数据挖掘中的数据预处理的步骤，也可以独立出来作为一种数据分析技术。聚类划分大致的基本思想可以概括如下：某个数据集有N个元素，首先聚类把数据分为k个类，一个分类为一个簇，且k≤n；如果k值是已知的，聚类方法先对数据作大概分类，再反复迭代，并将已有的划分进行优化，而且使优化后的分类方式要比上一个的分类方法更优才行。聚类分析方法主要是以统计已经机器学习等模型为基础，常用的聚类是基于几何距离的聚类方法，例如欧氏距离等。聚类在机器学习、大数据分析、金融学、工商管理、基因组学等研究领域中都是重点学科，在生物制药、IT、工商业、银行、电信、交通、保险等很多行业更是有着广泛的应用。

针对数据聚类的聚类算法有很多种，常用的有k-means，COBWEB，DBSCAN和Graph等等，其中k-means因为方法简单效率较高，而且实现起来较为容易，成为最受青睐的聚类算法，应用领域也非常的广泛。但是k-means也有很多不足，比如在数据处理上，对于被分析的样本属性一视同仁，当然这也是聚类算法都会有的问题，但是不同的属性特征可能会对聚类结果产生很大影响。这会导致最终的数据聚类效果不太理想，尤其是现在的数据量越来越大，传统的k-means算法已经无法满足现在庞大的数据处理的需求。

而且，由于聚类分析的无监督特性，一般在做数据处理的时候，只能根据数据集本身的属性进行分类，但是并不会对这些属性有所侧重。如果能根据数据本身的特点，赋予属性不同的权重值，就可以更好的完成数据分析，得到更完美的聚类效果。

更进一步，传统的k-means算法还无法解决K值的选择问题，因为数据集没有类标号，所以不知道应该分成几类，只能根据数据属性确定应该将元素归为哪一类。

发明内容

针对现有技术的不足，本发明一种基于离差最大化法改进k-means的提高数据聚类质量的方法。

发明概述：

本发明利用将各个属性影响因素引入数据聚类过程中，从而实现对数据分类结果进行有效的影响。

为了对数据能有更好的划分，进一步提高聚类的效果，本发明将会对数据做一些预处理。首先随机取出一些数据样本，然后根据这部分数据集的内部特征构造出加权矩阵，使用管理学中的离差最大化客观权重选择法(离差最大化客观权重选择法记载于徐泽水.《不确定多属性决策方法及应用[M]》.北京:清华大学出版社，2004.)对各个属性进行赋权，根据属性的权重，可以看出各属性对聚类效果的影响程度。

本发明的详细技术方案如下：

一种基于离差最大化法改进k-means的提高数据聚类质量的方法，其特征在于，包括：

1)对读入数据进行离差最大化的权重计算：

在通常情况下，离差最大化的权重计算为：如果各个决策方案在指标属性c_j值下的差值越小，则属性权重对方案排序或选择就会有越小的影响；如果在这几种方案的决策中，指标属性r_ij(j＝1,2,…,n)能有较大的离差数值，则表明这个指标属性在方案的决策中起着较为重要的作用。因此，离差值越大，其权重值越大，反之，权重值越小。

客观权重ω_j确定方法的公式如下：

在公式(1)中，i，j表示行和列，客观权重可以充分利用决策对象的信息，拉大数据之间的差距以便于做出更好的决策；

2)使用离差最大化法计算样本各属性的权值w_k,然后构造加权矩阵，按样本数据排列构造成矩阵；

3)对数据集的属性进行加权：

设数据属性X＝{x_i1,x_i2,...,x_im},其中m表示属性个数，将这些数据划分到k个类中，属性权重的值是w₁,w₂,...,w_m,且w_j>＝0,j＝1,2,...,m，数据之间的加权欧式距离为：

其中，公式(2)中x_ik-x_jk表示每个元素到第K个中心点的距离，w_k表示权重，共有M个属性；

4)调用k-means算法或k-means++算法，通过判断结果是否收敛到指定阈值，判断是否终止迭代，最终得到聚类结果。

根据本发明优选的，所述k-means++算法具体包括：

通过改进聚类算法的方式，得到目标k-means++算法；

假设将数据样本集分为k个类别，所述k-means++算法步骤如下：

1)随机选择第一个中心点并预设一个k值，所述k为所述类别个数；

2)计算每个元素与各中心点的最短距离，用D(X)表示；其中，D(X)越大的点作为中心点的概率越大，找出k个中心点为止；

3)在第c次迭代后，对任意一个样本数据，求它到k个中心的距离，然后将该样本归到距离最短的中心所在的簇中；

4)利用均值计算方法对这些簇的中心值进行更新操作；

5)对所述k个中心点，利用步骤3)—4)进行迭代更新，通过判断结果是否收敛到指定阈值，判断是否终止迭代，最终得到聚类结果。

本发明的技术优势在于：

针对现有技术的算法是对所有数据样本属性进行无差别处理的缺陷，本发明公开一种基于离差最大化法改进k-means的提高数据聚类质量的方法，具体为：选择对属性进行加权，根据数据集内部的具体信息，得到各属性的客观权重值，从而将各个数据的差别增大，从而达到更好的数据聚类效果。

本发明具体技术优势在于：首先，使用离差最大化法计算样本各属性的权值w_k,然后构造加权矩阵；其次，对数据集的属性进行加权，产生新的距离计算公式(2)，本发明跟原来的欧式距离计算方法相比，增加了权重w，本发明在对属性进行加权之后，可以更清楚的区分出数据之间的距离，从而对数据集的分类能有一个更好的效果。

本发明具体技术优势还在于：先随机选择中心点并预设一个k值，尽量选择离其他中心点较远的点，把未处理的样本数据按照最近邻的原则分配到各个簇中；然后再重新计算各个簇的中心，以重新确定新的簇；一直循环迭代计算，最后簇的质心的移动距离小于某个确定值。其可以进行初始k值的粗略选择，这种方法比原来的算法速度更快而且效果更好。

附图说明

图1、本发明所述方法的流程图。

具体实施方式

下面结合实施例和说明书附图做详细的说明，但不限于此。

实施例1、

一种基于离差最大化法改进k-means的提高数据聚类质量的方法，包括：

1)对读入数据进行离差最大化的权重计算：

客观权重ω_j确定方法的公式如下：

3)对数据集的属性进行加权：

实施例2、

如实施例1所述的一种基于离差最大化法改进k-means的提高数据聚类质量的方法，其区别在于，所述k-means++算法具体包括：

假设将数据样本集分为k个类别，所述k-means++算法步骤如下：

3)计算每个元素与各中心点的最短距离，用D(X)表示；其中，D(X)越大的点作为中心点的概率越大，找出k个中心点为止；

4)利用均值计算方法对这些簇的中心值进行更新操作；

实验例、

结合附图1，对本发明所述的效果进行验证性说明。

本实验例是利用本发明所述的基于离差最大化法改进k-means的提高数据聚类质量的方法分别对UCI机器学习数据库中两个具有代表性的数据集Iris和Wine，分别进行数据聚类处理，然后直观查看所述的数据聚类质量。

其中，所述UCI数据库是一个专门用于测试机器学习、数据挖掘算法的数据库，库中的数据都有确定的分类，因此可以很直观地看出聚类的质量。所述数据集Iris和Wine，作为实验数据其性质如表3.1实验用数据集所示。所述Iris数据集包含了150个带标签的4维样本点，聚类类别数为k＝3；Wine数据集有178条，用13个参数来区分3种酒的品种。

聚类算法的评价指标有很多种，本实验例将选择使用Purity纯度指标和RI兰德指数评估指标两种评价方法。

其中，所述Purity纯度指标是代表同一个簇内属性不相同的样本的数量，即异质元素数量，并且纯度指标越大，数据集的异质性越小，聚类效果越好。纯度的定义如下：

其中，对于整个数据集上的所有集群类分区的纯度度量为purity，可以表示为集群纯度的算术平均值。n_r表示第r个节点类的数目，n_r ⁱ表示第i个被标记的样本的数目，n表示数据集中对象的总数目。无论是单簇的纯度还是总纯度，其取值范围都是[0,1]。纯度越高，集群的划分(或总划分)的质量越好，并且它越接近正确的类标识。

其中，所述RI兰德指数是基于统计的评估指标，其可以应用于数据挖掘，用于评估两个数据簇之间的相似度。假设给定数据集S＝{C₁,C₂,...,C_n}，包含n个元素和S的两个分区集合C₁和C₂。集合S中与C₁和C₂相交的元素的数量为a；集合S中与C₁和C₂不相交的元素的数量为b；集合S中与C₁相交且与C₂没有相交的元素的数量为c；集合S中的元素数量与C₂相交且与C₁不相交的元素数量d；所以，兰德指数(RI)指标的定义如下：

所述兰德指数的取值范围是[0,1]。0表示两个数据簇之间没有匹配点，1表示数据簇集群是相同的。

在本实验例中，所述实验的硬件环境CPU为Core(TM)1.80GHz，内存为8GB，软件环境为win10 64位，本发明涉及到的算法均采用python语言实现。

表3.1实验用数据集

(1)Iris数据集实验结果及分析

Iris数据集是以鸢尾花的特征作为数据来源的，共有1000个数据集，分为3类，每个数据包含4个属性，是在数据挖掘、数据分类中非常常用的测试集。Iris数据集中的三类分别为：setosa，versicolor和virginica，数据包含4个独立的属性，这些属性变量测量植物的花朵，包括：花萼长度，花萼宽度，花瓣长度，花瓣宽度。实验结果记录见表3.2。

表3.2 Iris数据集实验结果

表3.2中所述原始k-means的具体步骤如下：随机地选择k个对象作为中心点；使用距离函数计算他们与每个中心点的距离，并把它分到最近的类中；接着再一次计算这些类的均值，并将其更新为新的中心点；重复以上两步直到结果收敛为止。所述k-means++的具体步骤和本发明中所调用的k-means++的步骤是一致的。

改进后kmeans算法的评价值的变换如表3.2所示：

根据Iris数据集的实验结果可以看出，改进后的k-means算法的purity评价值比最原始的k-means算法提高了17.9％，比k-means++算法提高了8.2％；在RI的评价值中，本发明所述改进后的k-means算法比原始算法提高了16.4％，比k-means++算法提高了7.6％；总的来说，改进后的k-means算法比原始算法的准确度平均提高了17.2％，比k-means++算法提高了7.9％。由此可知，本发明改进的算法在Iris数据集上有着更好的聚类效果。

(2)Wine数据集实验结果及分析

Wine数据集同样也是数据挖掘中常用的一个测试集，它包含来自3种不同起源的葡萄酒，共178条记录，13个属性，值得一提的是所有的属性变量都是连续变量，本实验例中，所述13个属性包括是十三种化学成分：酒精、苹果酸、灰分、灰分碱性、镁、总酚，黄酮类，非黄酮类酚类，原花青素，颜色强度，色调，稀释葡萄酒的OD280/OD315，脯氨酸。Wine数据集是一个具有13维数据的高维数据，通过Wine数据集能够更好地测试各维属性重要性对聚类结果的影响。实验结果记录见表3.3。

表3.3 Wine数据集实验结果

表3.3中所述原始k-means的具体步骤如下：随机地选择k个对象作为中心点；使用距离函数计算他们与每个中心点的距离，并把它分到最近的类中；接着再一次计算这些类的均值，并将其更新为新的中心点；重复以上两步直到结果收敛为止。所述k-means++的具体步骤和本发明中所调用的k-means++的步骤是一致的。

根据Wine数据集的实验结果可以看出，改进后的k-means算法的purity评价值比最原始的k-means算法提高了30.9％，比k-means++算法提高了19.2％；在RI的评价值中，改进后的k-means算法比原始算法提高了29.8％，比k-means++算法提高了17.6％；总的来说，改进后的k-means算法比原始算法的准确度平均提高了30.4％，比k-means++算法提高了18.4％。由此可知，本发明改进的算法在Wine数据集上有着更好的聚类效果。

由上述两种聚类评价结果可知，在属性数量较低的Iris数据集中，本发明所述改进后的k-means算法的聚类效果也有一些提高，但是并没有很明显的升；而在属性个数较多的Wine数据集中，聚类效果有了很明显的提高。所以，本发明所述方法更适用于属性维数较高的数据集中。

Claims

1.一种基于离差最大化法改进k-means的提高数据聚类质量的方法，其特征在于，包括：

1)对读入数据进行离差最大化的权重计算：

客观权重ω_j确定方法的公式如下：

在公式(1)中，i，j表示行和列；

2)使用离差最大化法计算样本各属性的权值w_k,然后构造加权矩阵；

3)对数据集的属性进行加权：

2.根据权利要求1所述的一种基于离差最大化法改进k-means的提高数据聚类质量的方法，其特征在于，所述k-means++算法具体包括：

假设将数据样本集分为k个类别，所述k-means++算法步骤如下：

4)利用均值计算方法对这些簇的中心值进行更新操作；

5)对所述k个中心点，利用步骤2)—4)进行迭代更新，通过判断结果是否收敛到指定阈值，判断是否终止迭代，最终得到聚类结果。