CN109472300A

CN109472300A - 一种面向k均值聚类算法的质心以及质心个数初始化方法

Info

Publication number: CN109472300A
Application number: CN201811245231.3A
Authority: CN
Inventors: 徐小龙; 徐浩严
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-03-15

Abstract

本发明提供了一种面向K均值聚类算法的质心以及质心个数初始化方法，包括：将数据离散后，计算每一维度数据的信息熵；根据信息熵排序选出两个混乱程度最低的数据，通过降维找出特征最小的方向作为X轴重新建立坐标系，生成新的两维数据；通过Y轴数据绘制密度曲线，将已有数据分为若干簇；Y轴数据代替原来两个信息熵较低的数据继续进行计算，直到所有维度数据都参与运算；最终得到若干簇，通过原数据计算质心。本发明无需提供K值，对于未知簇个数的数据可以得到准确的K值，并且初始化质心后可以减少迭代次数，快速收敛，同时提高K均值算法的稳定性，满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。

Description

一种面向K均值聚类算法的质心以及质心个数初始化方法

技术领域

本发明涉及一种数据聚类方法，属于机器学习领域，主要用于实现初始化K均值聚类的K值以及质心，具体为一种面向K均值聚类算法的质心以及质心个数初始化方法。

背景技术

K均值算法(Lloyod,1982)是简单而又有效的统计聚类算法，使机器能够将具有相同属性的样本归置到一块儿。与分类不同，对于一个分类器，通常需要告诉它“这个样本被分成哪些类”这样一些标签，在最理想情况下，一个分类器会从所得到的训练集中进行“学习”，我们将这种提供训练的过程称为“监督学习”。但是在聚类下，我们并不关心某一类是什么，我们的目的是想将相似的样本归置在一起，这样，一个聚类算法通常只要知道该如何计算样本间的相似度并将相似样本归并到一起就可以操作了，因此聚类通常并不需要使用训练数据进行学习，这在机器学习中被称作“无监督学习”。K均值算法就是这种用于统计的无监督聚类技术。

K均值算法操作简单、运算速度较快，能够有效处理中小型数据集。但同时K均值算法也有不足之处，包含以下几点：

(1)聚类结果不确定

K均值算法初始聚类中心是随机选择的，初始中心点选取的好坏会导致最终聚类效果。选取不同初始聚类中心，会使得最终聚类得到的类簇发生变化。除此之外，K均值算法一般采用准则函数为目标函数，准则函数中只存在一个全局最小值和N个极小值，这使得算法运算过程中，会陷入局部极小值，导致最终得到的不是全局最优解。

(2)聚类个数不确定

K均值算法中K表示聚簇个数，K的取值决定聚类结果。K值的选取需要根据实际的需求来确定，但通常情况下我们并不知道需将数据集聚为多少个类簇最合适，所以针对K值的选取依然有待解决。

(3)数据量大、算法时间复杂度较高

K均值算法的计算过程是一个不断迭代的过程，为寻找合适的聚类中心，需要不断的计算和调整才能对数据对象进行有效的聚类。这个过程中反复进行大量的对象间距离的计算，所以K均值聚类过程会消耗大量时间，降低聚类运算效率。

为了解决K值初始化问题，目前采用的方式是手肘法与轮廓系数法。这两种方法都需要对数据进行多次聚类得到每次的聚类结果，再通过不同的评估标准来选取最优的K值。这两种方法需要进行多次不同K值的K均值聚类，这使得算法开销较大。

为了解决K值初始化问题，目前采用的方式是进行基于密度的聚类，根据密度的到簇，在求得质心作为K均值的初始质心。从层次聚类中提取K个簇，并用这些簇的质心作为初始质心。该方法通常很有效，但仅对下列情况有效，样本相对较小，例如数百到数千(层次聚类开销较大)，K相对于样本大小较小。

本发明针对目前初始化K值与质心存在的问题，给出了一种开销较小的初始化方法。

发明内容

针对现有技术的不足，本发明提供一种面向K均值聚类算法的质心以及质心个数初始化方法。相比传统K均值聚类算法，本发明的算法无需提供K值，对于未知簇个数的数据可以得到准确的K值，满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。

本发明采用的技术方案如下：

一种面向K均值聚类算法的质心以及质心个数初始化方法，包括以下步骤：

步骤1：对数据集中的数据进行聚类特征提取，将数据提取出新的特征，其中，聚类特征提取是指将一个二维数据映射到数据最密集的方向上；

步骤2：利用提取出的新的特征绘制密度曲线，将密度曲线极大值处的数据密度初始化为这一维数据的质心，根据获得的质心将当前这一维数据划分为若干簇，再根据所得的簇将数据集划分为若干簇，其中，密度曲线描述数据在所处位置处的密集程度；

步骤3：利用叠加式簇的划分将高维数据划分为若干簇，其中，叠加式簇的划分是指通过每一维数据的叠加将数据划分为若干簇；最终得到的簇的个数初始化为K均值聚类的初值，再求取每个簇元素的平均值初始化为K均值聚类的质心。

优选地，步骤一中，对数据进行聚类特征提取的步骤进一步包括以下步骤：

步骤1.1：将数据离散化，这里采用等距离散化，通过预先设置好的阈值N，将数据最大值与最小值之间的距离等分为N个区间，其中，N为区间个数；

步骤1.2：先计算数据出现在第i(i＝1,2,...,N)个区间的概率p_i，然后计算出N个区间的信息熵H(U)，H(U)表示描述数据的混乱程度的量，其中U为N个区间的集合，表示出现在这些区间中的数据的信息熵，将每一维数据按照信息熵由小到大进行排序，信息熵越小，数据的混乱程度越小，聚类的特征越明显，其中，信息熵H(U)的计算式为：

步骤1.3：对于有n条数据m个属性的数据集，用x₁,x₂,x₃,...x_m来表示每一维的属性，选取x₁和x₂分别作为X轴与Y轴坐标，这里用x和y来表示，首先从数据集中提取两维信息熵较小的数据进行处理，有利于在开始时能够进行准确的簇的划分；

步骤1.4：求出平面的中心点其中为一个点对应着步骤1.3中两维数据的均值，其中，x_i表示步骤1.3中两维数据的组成的点，n表示共有n个数据，求出平面的中心点的计算式为：

步骤1.5：其中S表示原始数据的协方差矩阵，假设投影向量为u，u为变量，通过u表示出转置后的方差有利于之后问题的求解，则投影后的方差为：

步骤1.6：对(3)式等号右边使用拉格朗日乘子法进行计算，将该投影后方差最小化，这是一个典型的有约束优化问题，利用拉格朗日乘子法，设定乘子为λ₁，S表示原始数据的协方差矩阵，u为投影向量，则优化问题转换为：

u^TSu＝u^TSu+λ₁(1-u^Tu) (4)；

步骤1.7：对(4)式求导并且使之为0，计算出方差的极大值点与极小值点，得到等式：

Su＝λ₁u (5)

在极小值点求出此时的u向量，再求出u的正交向量r，将数据分别映射到u向量和r向量上，得到数据分别为k₁和k₂，此时映射在u向量上的数据方差最小，从而得到新的坐标系，同时将两个维度的数据更新得到数据k₁和k₂，分别对应X轴与Y轴坐标，其中，k₁＝[uX₁,uX₂,uX₃,…,uX_i,…,uX_n]，k₂＝[rX₁,rX₂,rX₃,…,rX_i,…,rX_n]，X_i为步骤1.4中数据，n为步骤1.3中数据，λ₁为乘子，S表示原始数据的协方差矩阵，u为投影向量。

优选地，步骤二中，利用提取出的新的特征绘制密度曲线的步骤包括以下步骤：

步骤2.1：将k₁中元素进行升序排序，其中k₁为步骤1.7中所得数据，得到k_1,1,k_1,2,k_1,3,...k_1,m，求出两两数据之间的距离得到新的一维数据d₁,d₂,d₃,...,d_m-1,其中d_i＝k_1,i+1-k_1,i，d_i表示为每两个相邻数据之间的距离，其中k₁为步骤1.7中所得的数据；

步骤2.2：通过数据之间的距离来表示密度，将求得的每两个相邻数据之间的距离d_i放入如下函数中，得到：

将y_i作为对应Y轴的数据，k₁的位置作为X轴数据，绘制出密度曲线图，密度曲线表示一维数据所处位置的数据密度，值越大表示密度越大；

步骤2.3：步骤2得到的密度曲线图波动较大，对曲线进行滤波处理，使曲线变得平滑，如(7)所示，再通过调整滤波的次数得到合适的密度曲线，通过所述密度曲线能够得到若干极大值点，

Y₁＝y₁

Y₂＝(y₁+y₂+y₃)/3

Y₃＝(y₁+y₂+y₃+y₄+y₅)/5

Y₄＝(y₂+y₃+y₄+y₅+y₆)/5

......

Y_i＝(y_i-2+y_i-1+y_i+y_i+1+y_i+2)/5 (7)

其中，y_i为步骤2.2所得的数据，Y_i为y_i滤波之后所得的数据。

优选地，步骤三中，利用叠加式簇的划分将高维数据划分为若干簇的步骤进一步包括以下步骤：

步骤3.1：在密度曲线中找出极大值点，将极大值点作为一维数据k₁的质心，将距离同一质心较近的数据划分为一个簇，将数据分为若干个簇，每个簇形成新的数据集，将簇中删去x₁，x₂这两个属性，将之前提取新的特征所得的数据k₂存入数据集中；其中k₁，k₂为步骤1.7所得的数据；

步骤3.2：形成新的若干簇之后，将每一个簇中的数据都作为新的数据集都执行上述步骤1至步骤3.1，直到数据集中只剩下一维数据，最后根据这一维数据继续绘制密度曲线，完成最终簇的划分；

步骤3.3：将最终所得的簇对应到原始数据中，求出每个簇中元素的平均值，最终所得数据作为K均值聚类的初始化质心，同时簇的个数确定为K均值聚类的K值，完成K均值聚类的初始化。

与现有技术相比，本发明的有益效果在于：

(1)确定K值：K均值算法中K表示聚簇个数，K的取值决定聚类结果，K值的选取需要根据实际的需求来确定，但通常情况下我们并不知道需将数据集聚为多少个类簇最合适，因此相比现有的手肘法与轮廓系数法需要进行多次聚类而言，本发明针对K值的选取提供了一种开销较小的方法；

(2)算法稳定性更高：K均值算法初始聚类中心是随机选择的，初始中心点选取的好坏会导致最终聚类效果，选取不同初始聚类中心，会使得最终聚类得到的类簇发生变化，本发明算法在初始化质心之后，可以使得算法所得结果更加稳定，使得最终聚类的簇不会发生变化；

(3)减少开销：K均值算法的计算过程是一个不断迭代的过程，为寻找合适的聚类中心，需要不断的计算和调整才能对数据对象进行有效的聚类，这个过程中反复进行大量的对象间距离的计算，所以K均值聚类过程每一次迭代都会消耗大量时间，影响聚类的效率，本发明算法初始化质心后可以大致确定质心的位置，可以减少迭代次数，减少算法开销。

附图说明

图1为本发明的算法的流程示意图；

图2为本发明的聚类特征提取示意图；

图3为本发明的密度曲线效果图；

图4为本发明的叠加式簇的划分示意图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例，都属于本发明保护的范围。

本发明的思路是从集数据的特征与数据的密度等方面来考虑，通过初始化K均值聚类的K值和质心来提高算法的稳定性和减少初始化后K均值聚类迭代的次数。

如图1所示，图1为本发明的算法的流程示意图。本发明提供的一种面向K均值聚类算法的质心以及质心个数初始化方法主要包括三个步骤，首先对数据聚类特征的提取，将新提取的特征绘制出密度曲线，根据密度曲线来划分簇，再通过叠加式簇的划分来处理高维数据簇的划分。

具体地，一种面向K均值聚类算法的质心以及质心个数初始化方法，包括以下步骤：

具体地，步骤1中，对数据进行聚类特征提取，将数据提取出新的特征，如图2所示。提取的新的数据特征可以使得数据的聚类数据尽可能的密集，而使聚类数据尽可能的密集是叠加式簇的划分的前提。

步骤1进一步包括以下步骤：

步骤1.1：将数据离散化，这里采用等距离散化，通过预先设置好的阈值N(N为划分的区间个数)，将数据最大值与最小值之间的距离等分为N个区间。这里通过数据离散化将相近的数据模糊处理，可以有效地对精度不同的数据计算信息熵。

步骤1.2：计算数据出现在这些区间的概率p_i(p_i表示数据出现在第i个区间的概率，i＝1,2,...,N)，然后计算出这些区间的信息熵H(U)(H(U)表示描述数据的混乱程度的量，其中U为N个区间的集合，表示出现在这些区间中的数据的信息熵)，将每一维数据按照信息熵由小到大排序。这使得数据的混乱程度也是由小到大进行排序，数据的混乱程度越小那么聚类的特征就越明显。

步骤1.3：有n条数据m个属性的数据集，将每一维的属性用x₁,x₂,x₃,...x_m来表示。首先选取x₁和x₂分别作为X轴与Y轴坐标，这里用x和y来表示。首先从数据集中提取两维信息熵较小的数据进行处理，这样有利于在开始时能够进行准确的簇的划分。

步骤1.4：求出平面的中心点(两维数据的平均值)，x_i表示第i个数据，n表示共有n个数据，求出两维数据的均值：

步骤1.5：其中S表示原始数据的协方差矩阵，假设投影向量为u(u为数据投影的方向向量)，这里的u为变量，通过u表示出转置后的方差有利于之后问题的求解，则投影后的方差为：

步骤1.6：将(3)式等号右边使用拉格朗日乘子法计算，下面我们需要最小化这个方差。这是一个典型的有约束优化问题，利用拉格朗日乘子法，假设乘子为λ₁，那么优化问题可以成为：

u^TSu＝u^TSu+λ₁(1-u^Tu) (4)

步骤1.7：将(4)式求导并且使之为0，可以求出方差的极大值点与极小值点，得到等式：

Su＝λ₁u (5)

在极小值点求出此时的u向量，再求出u的正交向量r，将数据分别映射到u向量和r向量上。得到数据分别为k₁和k₂，此时映射在u向量上的数据方差最小。这样可以得到新的坐标系，同时将两个维度的数据更新得到数据k₁和k₂，分别对应X轴与Y轴坐标，其中，k₁＝[uX₁,uX₂,uX₃,…,uX_i,…,uX_n]，k₂＝[rX₁,rX₂,rX₃,…,rX_i,…,rX_n]，X_i为步骤1.4中数据，n为步骤1.3中数据，λ₁为乘子，S表示原始数据的协方差矩阵，u为投影向量。

步骤2中，将这这些特征绘制密度曲线，效果图如图3所示，将密度曲线极大值处的数据密度初始化为这一维数据的质心，根据获得的质心将当前这一维数据划分为若干簇，再根据所得的簇将数据集划分为若干簇。

步骤2进一步包括以下步骤：

步骤2.1：绘制密度曲线，将k₁中元素进行升序排序，其中k₁为步骤1.7中所得数据，得到k_1,1,k_1,2,k_1,3,...k_1,m，再求出两两数据之间的距离得到新的一维数据d₁,d₂,d₃,...,d_m-1,其中d_i＝k_1,i+1-k_1,i。d_i表示为每两个相邻数据之间的距离。

步骤2.2：通过数据之间的距离来表示密度。将求得的距离之间的数据放入函数中

则将y_i作为对应Y轴的数据，k₁的位置作为X轴数据，绘制出曲线图。

步骤2.3：此时的曲线图波动会比较大。将曲线进行滤波处理，使得曲线变得平滑，如(7)式所示，

Y₁＝y₁

Y₂＝(y₁+y₂+y₃)/3

Y₃＝(y₁+y₂+y₃+y₄+y₅)/5

Y₄＝(y₂+y₃+y₄+y₅+y₆)/5

......

Y_i＝(y_i-2+y_i-1+y_i+y_i+1+y_i+2)/5 (7)

其中，y_i为步骤2.2所得的数据，Y_i为y_i滤波之后所得的数据。再通过调整滤波的次数得到合适的曲线，该曲线表示的含义为在这个一维数据的位置的数据密度，值越大表示密度越大，反之表示密度越小。此时可以得到若干极大值点。

步骤3中，将高维数据通过叠加式簇的划分，将数据划分为若干簇。最终得到的簇的个数初始化为K均值聚类的初值，再求取每个簇元素的平均值初始化为K均值聚类的质心。

如图4所示，步骤3进一步包括以下步骤：

步骤3.1：进行叠加式簇的划分，在密度曲线中找出极大值点，将极大值点作为一维数据k₁的质心，将距离同一质心较近的数据划分为一个簇，将数据分为若干个簇。每个簇成新的数据集，将簇中删去x₁，x₂这两个属性。将之前提取特征所得的数据k₂存入数据集中；其中k₁，k₂为步骤1.7所得的数据。

步骤3.2：形成新的若干簇之后，将每一个簇都作为新的数据集都执行上述步骤1至步骤3.1，直到数据集中只剩下一维数据。最后根据这一维数据继续绘制密度曲线，完成簇的划分。

步骤3.3：将最终所得的簇对应到原始数据中，求出每个簇中元素的平均值，最终所得数据作为K均值聚类的初始化质心，同时簇的个数确定为K均值聚类的K值。最终完成K均值聚类的初始化。

本发明充分考虑了数据的维度、分布以及数据的特征。将数据离散后，计算每一维度数据的信息熵。根据信息熵排序选出两个混乱数据程度最低的数据，通过降维找出特征最小的方向作为X轴重新建立坐标系，生成新的两维数据。通过X轴数据绘制密度曲线，将已有数据分为若干簇。Y轴数据代替原来两个信息熵较低的数据继续进行计算，直到所有维度数据都参与运算。最终得到若干簇，通过原数据计算质心。最后通过传统K均值聚类使得质心更加精准。相比传统K均值聚类算法，该算法无需提供K值，其中K值为K均值聚类中质心的个数，对于未知簇个数的数据可以得到准确的K值。并且初始化质心后可以减少迭代次数，快速收敛。同时提高K均值算法的稳定性，使得聚类之后的结果不会因为随机质心而产生影响。本发明满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种面向K均值聚类算法的质心以及质心个数初始化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向K均值聚类算法的质心以及质心个数初始化方法，其特征在于，步骤一中，对数据进行聚类特征提取的步骤进一步包括以下步骤：

步骤1.4：求出平面的中心点其中为一个点对应着步骤1.3中两维数据的均值，其中，x_i表示步骤1.3中两维数据的组成的点，n表示共有n条数据，求出平面的中心点的计算式为：

u^TSu＝u^TSu+λ₁(1-u^Tu) (4)；

Su＝λ₁u (5)

3.根据权利要求2所述的一种面向K均值聚类算法的质心以及质心个数初始化方法，其特征在于，步骤二中，利用提取出的新的特征绘制密度曲线的步骤包括以下步骤：

Y₁＝y₁

Y₂＝(y₁+y₂+y₃)/3

Y₃＝(y₁+y₂+y₃+y₄+y₅)/5

Y₄＝(y₂+y₃+y₄+y₅+y₆)/5

......

Y_i＝(y_i-2+y_i-1+y_i+y_i+1+y_i+2)/5 (7)

4.根据权利要求3所述的一种面向K均值聚类算法的质心以及质心个数初始化方法，其特征在于，步骤三中，利用叠加式簇的划分将高维数据划分为若干簇的步骤进一步包括以下步骤：