CN106384119A

CN106384119A - 一种利用方差分析确定k值的k‑均值聚类改进算法

Info

Publication number: CN106384119A
Application number: CN201610708116.XA
Authority: CN
Inventors: 赵敏; 孙棣华; 魏敏燕; 谯志; 付建胜
Original assignee: Chongqing Yun Tu Transport Science And Techonologies Co Ltd; Chongqing University
Current assignee: Chongqing Yun Tu Transport Science And Techonologies Co Ltd; Chongqing University
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2017-02-08

Abstract

本发明公开了一种利用方差分析确定K值的K‑均值聚类改进算法，首先确定聚类层次划分以及数据汇总；选择聚类中心并初始化K值；然后找出内部成员数目大于1的类，分别进行方差分析，检验各类聚类成员之间是否具有显著性；并进行聚类分析以及方差检验；最后确定聚类数目及各类聚类成员；若所有类的内部成员之间都通过方差分析的显著性水平检验，则确定聚类数目及各类聚类成员。本发明提供的K‑均值聚类改进算法，该算法便于对具有层次特征的大样本数据进行聚类分析，使得聚类结果各类的内部成员之间的距离在满足方差分析显著性水平检验的基础上，确定聚类数目K值，同时用最优化的思想最小化K值。保证聚类分析的有效性和合理性。

Description

一种利用方差分析确定K值的K-均值聚类改进算法

技术领域

本发明涉及数据统计领域，特别是一种利用方差分析确定K值的K-均值聚类改进算法。

背景技术

数据挖掘是一种广泛应用于分析处理数据技术，它通过关联分析、聚类分析、分类等方法从海量数据中挖掘有用的知识，为实现管理决策提供支持，而聚类分析是数据挖掘技术的一种典型的方法。所谓聚类(Clustering)就是根据观测指标将相似程度高的样本分到同一簇(Cluster)中，而相似程度低的样本分到另一簇中，使簇内部的相似性最大化而簇之间的相似性最小化。目前用于聚类的方法主要有二阶聚类、K-均值聚类和系统聚类。其中K-均值聚类是一种经典的聚类算法，它由Mac Queen在1967提出，至今被广泛应用于各领域中。K-均值聚类算法对数据聚类来说是一种简单而又实用的算法，容易实现，在计算速度上具有无可比拟的优势。

虽然K-均值聚类算法具有快速、简单等方面的优点，但是不少学者研究表明，该方法也具有一定的局限性，如：(1)若初始聚类中心选取不当，则K-均值聚类可能会陷入局部最优解，达不到总体最优的聚类效果；(2)当数据样本较大时，K-均值算法的计算量将非常可观，其时间复杂度为O(nkl)，其中n为样本空间数量，而k为需要划分的类数目，l为迭代次数。所以，K-均值算法的计算量取决于数据样本的数量、迭代的次数以及划分的类数目；(3)K-均值聚类算法中K的最佳取值(即最终聚类的数目)为多少，目前还没有统一的标准。

一般而言，对数据集进行聚类分析，一方面总希望聚类的数目(即K值)尽可能小。K值越小，则归到同一类的样本数越多，聚类分析的效率越高，但会降低同类样本之间的内聚度(即同一类中的成员关系越紧密)；另一方面，K值越大，则归到同一类中的样本数越少，同一类样本的内聚程度高，但会降低聚类分析的效率。因此，如何确定最佳聚类数目，需要有合理的标准，而方差分析正好能满足以上要求。

因此，本发明提出了一种利用方差分析确定K值的K-均值聚类改进算法。

发明内容

本发明的目的是提出一种利用方差分析确定K值的K-均值聚类改进算法，该算法确保同一类中的样本之间的差异在满足一定的标准的情况下，使得聚类的数目最小，并且每一类的内部成员之间的距离最小。

本发明的目的是通过以下技术方案来实现的：

本发明提供的利用方差分析确定K值的K-均值聚类改进算法，包括以下步骤：

(1)确定聚类层次划分以及数据汇总；

(2)选择聚类中心并初始化K值；

(3)找出内部成员数目大于1的类，分别进行方差分析，检验各类聚类成员内部之间是否具有显著性；若对于每一类都通过显著性检验，则判定每一类聚类成员内部之间没有显著性差异，此时所得到的K值即为所求最佳聚类数目；

(4)若其中的某一类没有通过显著性检验，则增大K值，继续进行聚类分析以及方差检验；

(5)确定聚类数目及各类聚类成员；若所有类的内部成员之间都通过方差分析的显著性水平检验，则确定聚类数目及各类聚类成员。

进一步，所述步骤3中利用方差分析显著性检验作为各类聚类成员之间相似性的检验标准，具体过程如下：

选择出聚类成员数目大于1的类Ci；

按照以下公式计算出各类聚类成员之间显著性水平P_i：

(1)计算各类聚类成员的检验统计量F值：

其中f_i为第i类的F统计量，为第i类的聚类成员的组间差均方差，为第i类的聚类成员的组内差均方差。

(2)在F分布表中有从而计算得第i类的聚类成员之间显著性水平P_i；

其中m_i为第i类的的聚类成员数目，n_i为原始数据集合D中属于第i类的数据个数；

判断是否满足以下关系P_i＞＝α，如果满足，则该类的聚类成员之间没有显著性的差异；

如果否，则说明该类的聚类成员之间有显著性差异；其中，α为置信水平；

判断是否满足以下关系P_i＜α，如果满足，则令K＝K+1，重新聚类，直到都有P_i＞＝α或者K大于最大阈值为止；

输出聚类数目K及各类对应的聚类成员。

进一步，所述步骤4中的某一类没有通过显著性检验，还包括以下步骤：

步骤一，将没有通过显著性检验的k₀类进行二次聚类，直至最终所有的类都通过显著性检验或者聚类数目为2k₀为止；

若在二次聚类中能找到满足显著性检验的聚类数目K’，若K’＜K₁，则令K₁＝K’，K₁在K+1到K+k₀之间；

其中，K+k₀＝K-k₀+2k₀；k₀为不小于1正整数；K1为可接受的最大值；K为聚类数目时；

步骤二，依次增大K的值，直到所有的类的聚类成员都通过显著性检验或者K值达到可接受的最大值，得到的聚类数目为K₂；

比较K₁和K₂的值，取其最小者，即为所求最佳值，根据最佳值对应的聚类成员即为所求的各聚类成员。

进一步，还包括以下步骤：

按照以下公式获取最佳聚类数目值：

K*＝min(K₁，K₂)；

其中，K₁为所述步骤一中得到的聚类数目；K₂为所述步骤二得到的聚类数目；K*为所求最佳聚类数目值；

获取K*对应的聚类成员，并分别作为所求的各聚类成员。

由于采用了上述技术方案，本发明具有如下的优点：

本发明提供的利用方差分析确定K值的K-均值聚类改进算法，该算法便于对具有层次特征的大样本数据进行聚类分析，使得聚类结果各类的内部成员之间的距离在满足方差分析显著性水平检验的基础上，确定聚类数目K值，同时用最优化的思想最小化K值。该算法在确保同一类中的样本之间的差异在满足一定的标准的情况下，确定聚类的数目，同时使得聚类的数目最小，并且每一类的内部成员之间的距离最小。克服了K均值聚类算法中存在的若干问题，如K值的不确定性，不适用于大量数据聚类等。结合数据的层次性特点，通过研究数据在不同层次的分布规律，通过方差分析检验聚类成员之间的差异性来检验各类成员之间的聚集程度，保证聚类分析的有效性和合理性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

本发明的附图说明如下。

图1为本发明的基于方差分析的K-均值聚类改进算法流程。

图2为本发明的K-均值聚类具体流程。

图3为本发明的K-均值二次聚类改进算法具体流程。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例1

本实施例提供的利用方差分析确定K值的K-均值聚类改进算法包括聚类层次划分及汇总、初步聚类，显著性水平检验、聚类过程优化以及确定最佳聚类数目等5个主要步骤。具体包括：

(1)聚类层次划分及汇总。该部分主要包括确定聚类层次划分以及数据汇总两部分的内容，其中确定聚类层次划分的工作将决定聚类的范围以及跨度。一般而言，只要确定聚类的层次，初始聚类的样本数目也随之确定了。如对每天的数据在小时层次进行聚类，则一天24个小时，可以确定初始聚类样本数目为24个。在此基础上，将数据自下而上汇总到同一聚类层次，利用某一指标对表征每一初始样本的值。

(2)初步聚类。该部分包括选择聚类中心，初始化K的值(取K值的最小值为2)，通过聚类分析得到各类的聚类成员。

(3)显著水平检验。该部分的工作主要包括：找出内部成员数目大于1的类，分别对这些类进行方差分析，检验各类聚类成员之间是否具有显著性。若对于每一类都通过显著性检验，则判定每一类聚类成员之间没有显著性差异，此时所得到的K值即为所求最佳聚类数目；若其中的某一类没有通过显著性检验，则说明该类内部聚类成员之间的差异性较大，还需要继续细分。

(4)聚类过程优化。当其中有某一类没有通过方差分析显著水平检验室，应依次增大K的值，继续进行聚类分析以及方差检验。此时存在一个问题：增大K值只对没有通过显著性检验的剩余类进行划分还是对所有数据重新聚类。

(5)确定聚类数目及各类聚类成员。若所有类的内部成员之间都通过方差分析的显著性水平检验，此时则可以确定聚类数目及各类聚类成员。

实施例2

如图1所示，本实施例提供的算法克服了K均值聚类算法中存在的若干问题，如K值的不确定性，不适用于大量数据聚类等，结合数据的层次性特点，通过研究数据在不同层次的分布规律，通过方差分析检验聚类成员之间的差异性来检验各类成员之间的聚集程度，保证聚类分析的有效性和合理性。

图1为本发明中所提出的利用方差分析确定K值的K-均值聚类改进算法的整体流程图。

本实施例提供的算法主要包括聚类层次划分及汇总、初步聚类，显著性水平检验、聚类过程优化以及确定最佳聚类数目等5个主要步骤，每一步骤又进一步包括若干个小步骤，具体如下所述。

1、聚类层次划分及汇总

由上述可知，K-均值聚类的计算时间复杂度受到数据样本的数量、迭代的次数以及划分的类数目的影响。实验证明，K-均值聚类算法不适用于大量数据的聚类问题，一方面聚类效率随着样本数据量的增大而下降，另一方面会出现分类的不确定性，即可能会出现将同一初始时间段划分到两个或两个以上不同的类中，无法确定该时间段所属的类。因此，为了提高计算效率，在聚类之前先对数据样本进行预处理。其好处是：一方面可以降低聚类的时间复杂度，提高聚类效率；另一方面则可以消除异常数据的影响。该部分又可以细分为聚类层次划分和汇总2个步骤。

步骤1：聚类层次划分，该部分主要是确定聚类样本的大小及每个样本所包含的范围。

步骤2：层次汇总。即采用某一特征来表征聚类层次的每个成员特征，如简单的可以均值、众数、中位数等作为每个聚类层次成员的特征。

具体操作如下：

设海量数据为原始数据集合D，在时间和(或)空间的角度将D平均分为p个初始类，并选择q个特征变量表示每一类的特征。设表示第i个向量第j个特征的特征值，则用矩阵V表示原始数据集合D，则由于s个变量的测量尺度差异可能比较大，需要将每个特征变量的取值范围的映射到相同度量的区间，则V转换后的结果为：

2、初步聚类

(1)初始化K值，取K的最小值为2。

(2)选择初始聚类中心；由于本实施例提出的K-均值改进算法可以用方差分析来检验最终聚类的精度，而且最佳聚类数目K值还不确定，不同的K值之间的初始中心没有可比性，因此本实施例根据样本数据的具体情况选择k个具有代表性的样本点作为初始聚类中心，将n个样本组成n维空间，每个观测值作为n维空间的一个点。按照距离聚类中心最小的原则将这n个样本分派到每个聚类中心所在的类，构成k个类。

(3)利用K-均值聚类算法对样本集进行聚类，得到各类的聚类成员：

根据组成的k个类计算每个类的均值。各类的均值在n为空间中又形成k个点作为第二次迭代的类中心。同理依次循环迭代，直至达到指定的迭代次数或者满足迭代的判据要求时停止迭代，聚类结束，此时可得到最佳聚类数及各类的聚类成员。其中计算各样本到各中心点的距离为欧几里得距离，而迭代满足条件的采用平方误差准则，其公式为：

E = Σ_{i = 1}^{k} \underset{p &Element; C i}{Σ} d^{2} (p, m_{i});

其中p为样本值，m_i为第i类C_i的均值。

用向量M表示每一类的聚类成员数目，则M＝{m₁，m₂，...，m_k}，其中m_i为第i类的聚类成员数目。

3、利用方差分析对聚类成员进行检验

对于聚类成员数目大于1的类C_i，利用方差分析检验其内部各聚类成员之间显著性水平Pi；

其先由公式计算各类聚类成员的检验统计量F值；再通过公式计算得各类聚类成员之间显著性水平P_i；

其中f_i为第i类的F统计量，为第i类的聚类成员的组间差均方差，为第i类的聚类成员的组内差均方差，m_i为第i类的的聚类成员数目，n_i为原始数据集合D中属于第i类的数据个数。利用方差分析对各类聚类成员进行显著性检验的具体流程如图2所示。

若P_i＞＝α(α为置信水平，一般取α＝0.05)，说明该类内部聚类成员之间没有显著性的差异，该类为有效类，否则说明该类内部聚类成员之间有显著性差异，该类无效。若有P_i＜α，则令K＝K+1，重新聚类，直到都有P_i＞＝α或者K大于最大阈值为止。此时即可得到聚类数目K及各类对应的聚类成员。

需要注意的是，使用方差分析需要满足以下三个条件：①样本具有随机性且服从独立同分布；②样本总体服从正态分布；③具有方差齐性。实际数据分析结果表明总体上各路段行程时间均能满足这三个条件要求。

4、聚类过程优化

在聚类过程中发现，当K值增大到一定程度且还存在没有通过方差分析检验的类的时候，若仅仅增大K的值，直到所有类的内部聚类成员都通过方差分析为止，最终得到的K值不一定是最佳的聚类数目(即不能保证在所有类的内部聚类成员都通过方法分析的检验前提下，K的值是最小的)。

因此，本实施例提出的对基于方差分析的K-均值聚类改进算法进一步改进的方案，即基于方差分析的K-均值二次聚类改进算法；在本实施例中简称为“算法二”。其中“算法二”与“算法一”的主要区别在于：在聚类之前，令K1为可接受的最大值。当聚类数目为K时，若有k₀类未通过显著性检验，此时需要分两步进一步挖掘：步骤一，将剩下的k₀类进行二次聚类，直至最终所有的类都通过显著性检验或者聚类数目为2k₀为止。添加一个聚类标志ClusterFlag(ClusterFlag初始值为0)。若在二次聚类中能找到满足显著性检验的聚类数目K’，若K’＜K₁，则令K₁＝K’，此时K₁在K+1到K+k₀(其中K+k₀＝K-k₀+2k₀)之间(k₀为不小于1正整数)，此时置ClusterFlag＝1。“二次聚类”的具体流程如图3所示。

步骤二，依次增大K的值，直到所有的类的聚类成员都通过显著性检验或者K达到可接受的最大值，此时得到的聚类数目为K₂。当ClusterFlag＝1时，比较K₁和K₂的值，取其最小者，即为所求最佳值K*而根据此最佳值对应的聚类成员即为所求的各聚类成员。

本实施例在经典K-均值聚类方法的基础上引入了方差分析，通过检验在不同时间段公交行程时间分布是否存在显著差以及检验聚类分析结果，确定K-均值聚类的最佳聚类数目及各类聚类成员，提高了聚类的准确度。

5、确定聚类数目和聚类成员

在步骤四“聚类过程优化”中，设第一步和第二步得到的聚类数目分别为K₁和K₂，令K*＝min(K₁，K₂)，此时K即所求最佳聚类数目值，而根据K*对应的聚类成员即为所求的各聚类成员。

本实施例利用方差分析确定K值，使得K-均值聚类得以改进算法，因此具有如下的特点：

(1)利用方差分析判断同一类数据之间的差异，保证聚类结果中每一类的聚类成员之间的相似度满足方差分析的显著性水平要求。使同一类的数据之间的相似度最大化而不同类之间的相似度最小化，保证了聚类的精度；

(2)在使同类聚类成员之间差异满足方差分析显著性水平检验的基础上，确定聚类数目；

(3)适用于具有层次特征的海量数据的聚类。通过在将底层数据自下而上地聚合到同一层次，在对海量数据进行时可以有效减少聚类样本，从而提高聚类效率；

(4)通过对聚类过程的优化，逐步增大K值进行聚类和检验，当各类内的聚类成员之间均通过方差分析的显著性检验，则停止聚类，此时可以确定聚类数据以及各类成员，使聚类数目最小化。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的保护范围当中。

Claims

1.一种利用方差分析确定K值的K-均值聚类改进算法，其特征在于：包括以下步骤：

(1)确定聚类层次划分以及数据汇总；

(2)选择聚类中心并初始化K值；

2.如权利要求1所述的利用方差分析确定K值的K-均值聚类改进算法，其特征在于：所述步骤3中利用方差分析显著性检验作为各类聚类成员之间相似性的检验标准，具体过程如下：

选择出聚类成员数目大于1的类Ci；

按照以下公式计算出各类聚类成员之间显著性水平P_i：

(1)计算各类聚类成员的检验统计量F值：

输出聚类数目K及各类对应的聚类成员。

3.如权利要求1所述的利用方差分析确定K值的K-均值聚类改进算法，其特征在于：所述步骤4中的某一类没有通过显著性检验，还包括以下步骤：

若在二次聚类中能找到满足显著性检验的聚类数目K'，若K'<K₁，则令K₁＝K'，K₁在K+1到K+k₀之间；

4.如权利要求3所述的利用方差分析确定K值的K-均值聚类改进算法，其特征在于：还包括以下步骤：

按照以下公式获取最佳聚类数目值：

K*＝min(K₁,K₂)；

获取K*对应的聚类成员，并分别作为所求的各聚类成员。