CN108563662A

CN108563662A - 一种改进初始聚类中心选择的方法及系统

Info

Publication number: CN108563662A
Application number: CN201810008228.3A
Authority: CN
Inventors: 姜合; 谢青青; 李会娟; 韩冰; 王东远
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2018-09-21

Abstract

本发明公开了一种改进初始聚类中心选择的方法及系统，其实现过程为，首先获取数据集，该数据集中含有若干数据对象；选择最小的数据对象；计算所有数据对象与最小数据对象之间的皮尔森相关系数；根据获取的皮尔森相关系数，按照从大到小的顺序降序排列所有数据对象；将数据对象进行分组，获取初始中心点；根据选好的初始中心点进行聚类，重新计算每一个聚类的均值，并用新的均值替换原来的中心点，完成聚类。该改进初始聚类中心选择的方法及系统与现有技术相比，能够通过皮尔森相关性来确定聚类初始中心点的方法，来避免初始中心点选择的随机性问题，提高聚类准确性，实用性强，适用范围广泛，易于推广。

Description

一种改进初始聚类中心选择的方法及系统

技术领域

本发明涉及计算机数据挖掘技术领域，具体地说是一种实用性强、改进初始聚类中心选择的方法及系统。

背景技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。在商务上，聚类能帮助市场分析人员从客户基本库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。在生物学上，聚类能用于推导植物和动物的分类，对基因进行分类，获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确定，汽车保险单持有者的分组，及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。聚类也能用于对Web上的文档进行分类，以发现信息。

现有技术中，最常用的聚类算法就是均值算法k-means算法，该算法是数据挖掘技术中基于划分方法的一个经典的聚类算法，因为该算法的理论可靠、算法简单、收敛迅速而被广泛应用。但是，k均值算法对初始聚类中心点的选取非常敏感，不好的初始中心点的选取会导致聚类结果不稳定，导致聚类准确性较差。

此外，目前的聚类过程需要重新输入数据，采用外部聚类器实现，这样就会导致聚类时间过长，工作效率较低。

基于此，本发明提出一种解决上述问题、改进初始聚类中心选择的方法及系统。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、改进初始聚类中心选择的方法及系统。

一种改进初始聚类中心选择的方法，其实现过程为，

步骤一、首先获取数据集，该数据集中含有若干数据对象；

步骤二、选择最小的数据对象；

步骤三、计算所有数据对象与最小数据对象之间的皮尔森相关系数；

步骤四、根据获取的皮尔森相关系数，按照从大到小的顺序降序排列所有数据对象；

步骤五、将数据对象进行分组，获取初始中心点；

步骤六、根据选好的初始中心点进行聚类，重新计算每一个聚类的均值，并用新的均值替换原来的中心点，完成聚类。

所述步骤一中的数据集获取包括采集数据对象、数据对象清洗、数据对象处理，其中采集数据对象是指采集各种被测对象的数据参数；数据对象清洗是指对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤，提高数据集的质量；数据对象处理是指对数据进行包括存储、检索、加工、变换和传输的过程。

所述步骤三中的皮尔森相关系数计算公式如下：

其中分子是协方差cov(X,Y)，分母是两个变量标准差的乘积；r表示皮尔森相关性；X表示在数据集中选出的最小数据对象min(D)；Y_i表示数据集中除最小数据对象外的其它数据对象；E表示X和Y_i的期望值，即“X数据对象与其均值之差”乘以“Y_i数据对象与其均值之差”得到一个乘积，再对这个乘积求和并求出均值；σ表示的是标准差，是计算两数据对象之间的离均差平方的算术平均数的平方根；μ表示数据对象的均值；i表示第i个数据对象，i的取值是1≤i≤m,m为样本数据对象总数。

所述步骤五中，数据对象进行分组过程如下：根据步骤四中的排序以的长度来进行分组，其中m为数据对象总数；k为聚类总数，即步骤六中进行聚类时，根据选取好的初始中心点，将每一个样本聚类到离自己最近的k个样本之一；

获取初始中心点的过程如下：

根据分组情况利用公式计算初始中心点，即计算簇C_i的初始中心点c_i，具体公式为，

i表示数据对象，1≤i≤m；c_i表示初始中心点数据对象；C表示聚类的簇，C_i表示第i簇；b_j表示属于簇C_i数据对象，其中1≤j≤n；n表示簇内数据的项数。

所述步骤六中的聚类过程如下：

第一步、根据选取好的初始中心点，将每一个样本聚类到离自己最近的k个样本之一；

第二步、计算每一个聚类的均值，并用新的均值替换原来的聚类中心；

第三步、判断聚类中心是否改变，如改变就返回第二步，否就结束本算法，得到聚类结果。

一种改进初始聚类中心选择的系统，包括，

数据获取模块，用于获取含有若干数据对象的数据集；

数据计算模块，通过选择最小的数据对象，计算其它的所有数据对象与最小数据对象之间的皮尔森相关系数；

自动排序模块，用于根据获取的皮尔森相关系数，按照从大到小的顺序降序排列所有数据对象；

数据分组模块，根据自动排序模块中的分组，通过均值计算获取初始中心点；

聚类模块，用于根据选好的初始中心点进行聚类，重新计算每一个聚类的均值，并用新的均值替换原来的中心点，完成聚类。

所述数据获取模块中配置有采集单元、清洗单元、处理单元，其中采集单元用于采集各种被测对象的数据参数；清洗单元用于对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤，提高数据集的质量；处理单元用于对数据进行包括存储、检索、加工、变换和传输的过程。

所述数据计算模块通过以下公式计算皮尔森相关系数：

所述数据分组模块中，数据对象进行分组过程如下：自动排序模块给出的排序以的长度来进行分组，其中m为数据对象总数；k为聚类总数，即聚类模块进行聚类时，根据选取好的初始中心点，将每一个样本聚类到离自己最近的k个样本之一；

获取初始中心点的过程为：

所述聚类模块进行聚类的过程为：

根据选取好的初始中心点，将每一个样本聚类到离自己最近的k个样本之一；

计算每一个聚类的均值，并用新的均值替换原来的聚类中心；

判断聚类中心是否改变，如改变就返回上一步，否就结束，得到聚类结果。

本发明的一种改进初始聚类中心选择的方法及系统，具有以下优点：

本发明提出的一种改进初始聚类中心选择的方法及系统，能够通过皮尔森相关性来确定聚类初始中心点的方法，来避免初始中心点选择的随机性问题，提高聚类准确性，该方法能够通过内置的聚类模块对采集到的数据对象进行聚类以获得数据的聚类结果，从而无需重新输入数据，避免了外部聚类器带来的时间问题，提高了工作效率，实用性强，适用范围广泛，易于推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

附图1是本发明一实施例的数据采集程序的主框图。

附图2是本发明一实施例的数据清洗主框图。

附图3是本发明一实施例的初始中心点选取流程图。

附图4是本发明一实施例的聚类分析算法流程图

附图5是本发明一实施例的系统示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如附图1-图4所示，一种改进初始聚类中心选择的方法，主要原理是结合皮尔森相关性来确定初始中心点的方法，避免初始中心点选择的随机性。比如对红酒数据集进行聚类分析,实验数据为某品牌红酒，有多种物理化学参数，主要参数有挥发性酸、残留糖、卤化物、PH值、酒精度、密度、硫酸盐、总硫量这八种参数作为红酒分类的主要参考指标，并根据这些参数将红酒分为三大类。

数据聚类包括以下步骤：采集数据对象，对数据对象进行数据清洗、数据处理，将缺失的数据进行填补，去除错误数据；并对所述处理后的数据对象进行初始中心点的选取，以及根据预设的公式对数据对象进行聚类，以获取准确的聚类结果。

根据本发明实施例的装置的初始中心点选取方法，首先采集数据对象，然后通过数据处理装置对数据对象进行数据清洗、数据处理已获得规范化的数据，并对处理后的数据对象进行初始中心点的选取，以及根据预设的公式进行聚类以获取准确的聚类结果。由此，该方法能够通过装置内的数据聚类器对采集到的数据对象进行聚类以获得数据的聚类结果，从而无需重新输入数据，避免了外部聚类器带来的时间问题，提高了工作效率。

其具体实现过程为，

步骤一、首先获取数据集，该数据集中含有若干数据对象；

步骤二、选择最小的数据对象；

步骤五、将数据对象进行分组，获取初始中心点；

在该步骤一中，采集数据对象。可以通过将被测对象的各种参量通过各种传感器做适当转换后，再经过信号调理、采样、量化、编码、传输等步骤传递到控制器。

数据对象清洗。如填充缺失数据、消除噪声数据等，主要是通过分析“脏数据”的产生原因和存在形式，利用现有的数据挖掘手段和方法去清洗“脏数据”，将“脏数据”转化为满足数据质量要求或应用要求的数据，从而提高数据集的质量，满足现阶段数据分析的需求。

数据对象处理。对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。

上述步骤一中的数据采集属于本领域惯用技术手段，在此不再赘述。

所述步骤三中的皮尔森相关系数计算公式如下：

获取初始中心点的过程如下：

所述步骤六中的聚类过程如下：

如附图5所示，一种改进初始聚类中心选择的系统，包括，

数据获取模块，用于获取含有若干数据对象的数据集；

所述数据计算模块通过以下公式计算皮尔森相关系数：

获取初始中心点的过程为：

所述聚类模块进行聚类的过程为：

本发明提供的系统能够避免传统中心点的选取处理装置随机性问题，有效地提高了聚类分析的准确性，减少了迭代次数，实用性更强。

以上所述仅为本发明的较佳实施例，本发明的专利保护范围包括但不限于上述具体实施方式，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的专利保护范围之内。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种改进初始聚类中心选择的方法，其特征在于，其实现过程为，

一、首先获取数据集，该数据集中含有若干数据对象；

二、选择最小的数据对象；

三、计算所有数据对象与最小数据对象之间的皮尔森相关系数；

四、根据获取的皮尔森相关系数，按照从大到小的顺序降序排列所有数据对象；

五、将数据对象进行分组，获取初始中心点；

六、根据选好的初始中心点进行聚类，重新计算每一个聚类的均值，并用新的均值替换原来的中心点，完成聚类。

2.根据权利要求1所述的一种改进初始聚类中心选择的方法，其特征在于，所述步骤一中的数据集获取包括采集数据对象、数据对象清洗、数据对象处理，其中采集数据对象是指采集各种被测对象的数据参数；数据对象清洗是指对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤，提高数据集的质量；数据对象处理是指对数据进行包括存储、检索、加工、变换和传输的过程。

3.根据权利要求1所述的一种改进初始聚类中心选择的方法，其特征在于，所述步骤三中的皮尔森相关系数计算公式如下：

4.根据权利要求1所述的一种改进初始聚类中心选择的方法，其特征在于，所述步骤五中，数据对象进行分组过程如下：根据步骤四中的排序以的长度来进行分组，其中m为数据对象总数；k为聚类总数，即步骤六中进行聚类时，根据选取好的初始中心点，将每一个样本聚类到离自己最近的k个样本之一；

获取初始中心点的过程如下：

5.根据权利要求1所述的一种改进初始聚类中心选择的方法，其特征在于，所述步骤六中的聚类过程如下：

6.一种改进初始聚类中心选择的系统，其特征在于，包括，

数据获取模块，用于获取含有若干数据对象的数据集；

7.根据权利要求6所述的一种改进初始聚类中心选择的系统，其特征在于，所述数据获取模块中配置有采集单元、清洗单元、处理单元，其中采集单元用于采集各种被测对象的数据参数；清洗单元用于对采集的数据对象进行包括填充缺失数据、消除噪声数据的步骤，提高数据集的质量；处理单元用于对数据进行包括存储、检索、加工、变换和传输的过程。

8.根据权利要求6所述的一种改进初始聚类中心选择的系统，其特征在于，所述数据计算模块通过以下公式计算皮尔森相关系数：

9.根据权利要求6所述的一种改进初始聚类中心选择的系统，其特征在于，所述数据分组模块中，数据对象进行分组过程如下：自动排序模块给出的排序以的长度来进行分组，其中m为数据对象总数；k为聚类总数，即聚类模块进行聚类时，根据选取好的初始中心点，将每一个样本聚类到离自己最近的k个样本之一；

获取初始中心点的过程为：

10.根据权利要求6所述的一种改进初始聚类中心选择的系统，其特征在于，所述聚类模块进行聚类的过程为：