CN105913077A

CN105913077A - 一种基于降维和抽样的数据聚类方法

Info

Publication number: CN105913077A
Application number: CN201610213963.9A
Authority: CN
Inventors: 张铁峰; 李中; 顾明迪
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2016-04-07
Filing date: 2016-04-07
Publication date: 2016-08-31

Abstract

一种基于降维和抽样的数据聚类方法，所述方法首先通过分段均值法对数据集进行降维处理，然后构造随机函数从大规模的聚类数据集中进行随机抽样，得到规模较小的工作集，并在工作集上进行k‑means聚类，得到随机抽样聚类结果，最后通过衡量剩下的聚类样本与已经得到的抽样聚类结果的关系，对剩余样本进行分类。本发明采用降维和抽样的方法减少参与迭代的数据集样本的数目和维度，在保持良好聚类效果的情况下，大大降低了k‑means算法的复杂度，从而实现了大规模数据的高效聚类。

Description

一种基于降维和抽样的数据聚类方法

技术领域

本发明涉及一种能够对大规模数据进行高效聚类的方法，属于数据处理技术领域。

背景技术

目前，常用的数据聚类方法有经典k-means，FCM，层次聚类和自组织神经映射等，其中，k-means是一种最为经典，使用最为广泛的划分聚类方法。K-means聚类方法通过动态地迭代调整聚类中心，根据样本到每个子类中心的相似度进行不断迭代来得到聚类结果。但是，由于k-means需要反复地计算每个样本到中心的相似度，算法的复杂度会随着数据集维数的增加而成指数级增长(时间复杂度：O(tkmn)，空间复杂度：O((m+k)n)。其中，t为迭代次数，k为簇的数目，m为记录数，n为维数)，当样本规模较大时无法进行有效的处理。因此，如何采用k-means聚类方法解决大规模数据的聚类问题一直是聚类分析领域的研究人员所面临的难题。

发明内容

本发明的目的在于针对现有技术之弊端，提供一种基于降维和抽样的数据聚类方法，以降低k-means算法复杂度，实现大规模数据的高效聚类。

本发明所述问题是以下述技术方案实现的：

一种基于降维和抽样的数据聚类方法，所述方法首先通过分段均值法对数据集进行降维处理，然后构造随机函数从大规模的聚类数据集中进行随机抽样，得到规模较小的工作集，并在工作集上进行k-means聚类，得到随机抽样聚类结果，最后通过衡量剩下的聚类样本与已经得到的抽样聚类结果的关系，对剩余样本进行分类。

上述基于降维和抽样的数据聚类方法，所述方法包括以下步骤：

a.对待聚类的数据集X进行平均分段得到数据集Y：

设数据集为X＝{x₁,x₂,…,x_m}，X的第i个样本对象为x_i＝(x_i1,x_i2,...,x_in)，数据集Y＝{y₁,y₂,…,y_m}，Y的第i个样本对象为y_i＝(y_i1,y_i2,…,y_in′)，n′＝n/v，v表示分段间隔，则：

y_{i k} = \frac{1}{v} Σ_{j = 1 + (k - 1) v}^{k v} x_{i j};

b.从数据集Y随机抽取m/s个样本构成样本集Y'；

c.从样本集Y'中任意选择k个样本{w₁,w₂,…,w_k}作为初始聚类中心，其中w_j＝y_i，j∈{1,2,…,k}，i＝{1,2,…,m/s}；

d.计算Y'中每个样本与簇C_j(k个簇中的第j个簇C_j的初始聚类中心为w_j)的聚类中心的距离i＝{1,2,…,m/s}，j∈{1,2,…,k}，若则x_i∈C_j；

e.更新簇的平均值即聚类中心；

f.计算平方误差准则函数其中，k是聚类数即簇的个数，p是空间中的点(p∈C_j，意思是C_j中的每一样本与聚类中心的距离的平方的和)，是簇C_j的平均值(p和都是多维的)；

g.判断是否满足迭代终止条件：若E值收敛，则进行步骤h；否则返回步骤c；

h.停止迭代计算，得到随机抽样聚类结果C＝{C₁,C₂,…C_k}和各个簇的聚类中心；

i.计算剩余样本集中任意一个样本与随机抽样聚类的聚类中心的相似性，并根据最小邻近准则进行分类，得到聚类结果

本发明采用降维和抽样的方法减少参与迭代的数据集样本的数目和维度，在保持良好聚类效果的情况下，大大降低了k-means算法的复杂度，从而实现了大规模数据的高效聚类。

附图说明

图1是基于降维和抽样的数据聚类方法的流程图。

文中各符号为：X为待聚类的数据集，Y为对X进行平均分段得到数据集，Y'为从数据集Y随机抽取m/s个样本得到的样本集，v表示分段间隔，是簇C_j的平均值，为样本y_i与簇C_j的聚类中心的距离，E为平方误差准则函数，p是空间中的点，C＝{C₁,C₂,…C_k}为随机抽样聚类结果。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明提供了一种具有数据聚类分析能力的快速大规模数据聚类分析方法，该方法首先通过分段均值法对数据集进行降维处理，其次构造随机函数从大规模的聚类数据集中进行随机抽样，得到规模较小的工作集，并在工作集上进行传统k-means聚类，得到聚类中心，完成抽样过程，得到抽样结果。然后通过衡量剩下的聚类样本与已经得到的抽样结果的关系，对剩余样本进行分类。由于该方法通过随机抽样大大地减小了参与k-means聚类的问题规模，因此有效提高了聚类效率。

设数据集X＝{x₁,x₂,…,x_m}，第i个样本对象x_i＝(x_i1,x_i2,...,x_in)，设分段间隔为v即每v个点取平均，抽样因子为s，则维数降为n/v，记录数减少为m/s。可将m×n大小的特征参数矩阵降维为(m÷s)×(n÷v)大小的参数矩阵。时间复杂度变为O(tkmn/(sv))，空间复杂度变为O((m/s+k)(n/v))。

为达到上述目的，本发明采用的技术方案包括以下步骤：

输入：数据集X＝{x₁,x₂,…,x_m}，分段间隔为v，抽样因子为s，聚类个数为k

输出：k个簇C_k

步骤1：对数据集进行平均分段得到数据集Y。其中第i个样本对象y_i＝(y_i1,y_i2,…,y_in′)，n′＝n/v，v表示分段间隔即每v个点取平均，

步骤2：从数据集Y随机抽取m/s个样本构成样本集Y'；

步骤3：从样本集Y'中任意选择k个样本{w₁,w₂,…,w_k}作为初始聚类中心，其中w_j＝y_i，j∈{1,2,…,k}，i＝{1,2,…,m/s}；

步骤4：计算Y'中每个样本与簇C_j的聚类中心的距离i＝{1,2,…,m/s}，j∈{1,2,…,k}，若则x_i∈C_j；

步骤5：更新簇的平均值即聚类中心；

步骤6：计算平方误差准则函数其中，k是聚类数即簇的个数，p是空间中的点，是簇C_j的平均值(p和都是多维的)；

步骤7：若E值收敛，则进行步骤8；否则返回步骤3；

步骤8：得到随机抽样聚类结果C＝{C₁,C₂,…C_k}和各个簇的聚类中心；

步骤9：计算剩余样本集中任意一个样本与随机抽样聚类的聚类中心的相似性，并根据最小邻近准则进行分类，得到聚类结果

本发明计算简便、速度快，实用性强，具有良好的数据聚类分析能力，适于大规模数据的快速聚类分析。本发明方法不但可以在保持聚类准确度基本不降低的情况下，通过更小数据集和更少的维度，达到降低算法复杂度和高效聚类的目的，同时还可以获取详细的聚类结果，包括各个子类的聚类中心、所含数据对象数目、具体数据对象构成等信息。

Claims

1.一种基于降维和抽样的数据聚类方法，其特征是，所述方法首先通过分段均值法对数据集进行降维处理，然后构造随机函数从大规模的聚类数据集中进行随机抽样，得到规模较小的工作集，并在工作集上进行k-means聚类，得到随机抽样聚类结果，最后通过衡量剩下的聚类样本与已经得到的抽样聚类结果的关系，对剩余样本进行分类。

2.根据权利要求1所述的一种基于降维和抽样的数据聚类方法，其特征是，所述方法包括以下步骤：

a.对待聚类的数据集X进行平均分段得到数据集Y：

y_{i k} = \frac{1}{v} Σ_{j = 1 + (k - 1) v}^{k v} x_{i j};

b.从数据集Y随机抽取m/s个样本构成样本集Y'；

d.计算Y'中每个样本与簇C_j的聚类中心的距离i＝{1,2,…,m/s}，j∈{1,2,…,k}，若则x_i∈C_j；

e.更新簇的平均值即聚类中心；

f.计算平方误差准则函数其中，k是聚类数即簇的个数，p是空间中的点，是簇C_j的平均值，p和都是多维的；