CN103744935A

CN103744935A - 一种计算机快速海量数据聚类处理方法

Info

Publication number: CN103744935A
Application number: CN201310748302.2A
Authority: CN
Inventors: 李中; 杨宏; 张珂
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2014-04-23
Anticipated expiration: 2033-12-31
Also published as: CN103744935B

Abstract

一种计算机快速海量数据聚类处理方法，所述方法首先对待分析数据对象进行预处理，完成数据对象的分组，然后计算组内数据对象的相似度矩阵，并依据相似度大小合并生成新数据对象，记录合并生成过程同时删除旧数据对象，如此反复操作直至数据对象的数目等于用户期待的聚类分类数，最后通过查询合并记录获取聚类处理结果。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心，并可查询得到各个子类内部数据对象分布概况与及其特征，极大地方便了海量数据的快速有效处理。

Description

一种计算机快速海量数据聚类处理方法

技术领域

本发明涉及一种具有数据概况分析能力的快速海量数据分析方法，属数据处理技术领域。

背景技术

计算机在对数据进行处理时，为提高处理速度，需要对海量数据进行聚类。所述聚类是按照数据本身的相似性（一般为距离准则，距离越小、相似度越大）把一个数据集分割成不同的类或簇，使类内数据对象的相似性尽可能大，同时类间数据对象的差异性也尽可能的大。聚类处理能够帮助人们发现隐藏在海量数据背后的潜在规律，对于信息处理和知识发现具有重要的意义，在数据挖掘、机器学习、模式识别、统计学和生物学等许多领域得到了广泛的应用。

聚类处理种类繁多，但效果较好的聚类方法大都计算复杂，速度较慢，无法满足计算机大规模数据的快速聚类处理需求，此外，缺乏对数据概况的分析能力，也是现有聚类方法在计算机进行处理时普遍存在的一个缺陷。

发明内容

本发明的目的在于针对现有技术之弊端，提供一种具有数据概况分析能力的快速海量数据聚类方法，以解决计算机对大量数据进行聚类处理时的效率和聚类数据概况分析问题。

本发明所述问题是以下述技术方案实现的：

一种计算机快速海量数据聚类处理方法，所述方法以计算机作为数据处理、存储的工具，处理时，计算机首先对待分析数据对象进行预处理，完成数据对象的分组，然后计算组内数据对象的相似度矩阵，并依据相似度大小合并生成新数据对象，记录合并生成过程同时删除旧数据对象，如此反复操作直至数据对象的数目等于用户期待的聚类分类数，最后通过查询合并记录获取聚类处理结果，所述方法包括以下步骤：

a.数据对象预处理

对所有待分析数据对象（数目为

）进行预处理，预处理的具体方法是：对于任一给定数据维度是

的待聚类数据对象

添加2个数值型属性值

Figure 2013107483022100002DEST_PATH_IMAGE004

和

，其中

是该数据对象的唯一标识，其取值为自然数，数值大小依据预处理顺序自1开始，依次递增1到

；

是该待聚类数据对象的权重，其值均设定为1；

b.建立一个

Figure 2013107483022100002DEST_PATH_IMAGE006

行

列的数组

Figure 2013107483022100002DEST_PATH_IMAGE008

，其初始值全取值为0，用于保存聚类处理过程；

c.数据对象分组

将所有数据对象随机均分为组，每组包含

Figure 2013107483022100002DEST_PATH_IMAGE010

=

个数据对象，若不能均分，则最后一组数据对象数目等于

Figure 2013107483022100002DEST_PATH_IMAGE012

，为取整运算；

d.计算每组内

个数据对象之间的相似度矩阵

Figure 2013107483022100002DEST_PATH_IMAGE014

，

，

，

；

e.依据相似度矩阵

，选择组内当前相似度最大的两个数据对象

和数据对象（若非唯一，则任选其一）合并生成新数据对象

，从本组中删除数据对象

和数据对象

；在数组

中保存合并生成记录；

f.重复上述步骤d、步骤e，直至每组内数据对象数目减少一半，也即数据对象总数目减少一半；

g.令

=，

为取整运算，若满足

，则重复执行上述步骤c、步骤d、步骤e、步骤f，否则执行步骤h；

h、将剩余所有数据对象作为一组，重复执行上述步骤d、步骤e，直至组内只剩1个数据对象；

i.查询

中的查询合并记录，获取聚类处理结果

中最后一条记录表明了将所有聚类数据划分为2类的结果，包含2个子类数据对象的属性值的算数平均值和类内对象数目。

上述计算机快速海量数据聚类处理方法，步骤e中所述数据对象和数据对象

合并生成新数据对象的具体方法是：

，

，

式中，

是所有数据对象的标识值中的最大值。

上述计算机快速海量数据聚类处理方法，步骤e中所述在

中保存合并生成记录的具体方法是：在的第1个取值全0的行（记为第

行）的第一列赋值为

，即令

，其后各列依次记录数据对象

和数据对象

。

本发明通过对数据进行分组，有效降低了计算复杂度；新数据对象的合并生成方法选择2个相似度最大的数据对象进行合并，并有效记忆了这2个原有数据对象的信息；记录合并生成过程为聚类和数据概况分析提供了简洁、良好的结构。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心，并可查询得到各个子类内部数据对象分布概况与及其特征，极大地方便了海量数据的快速有效处理。本发明方法计算简便、数据概况分析能力强，适于海量数据的快速聚类处理，可广泛应用于各种聚类处理工作中。

附图说明

下面结合附图对本发明作进一步说明。

图1是本发明的流程图。

文中各符号为：

、所有待分析数据对象的数目，

、数据维度，

、

、数据对象，

、该数据对象的唯一标识，

、该待聚类数据对象的权重，

、数组，

、

个数据对象之间的相似度矩阵，

、合并生成的新数据对象。

具体实施方式

本发明目的在于提供一种具有数据概况分析能力的计算机快速海量数据聚类处理方法，所述方法对于数目为的待聚类数据对象，经过

次合并计算，即可获取任意聚类数的聚类结果，并可得出各个子类的所含数据对象的具体构成及子类的质心（即所含数据对象属性值的算数平均值），具有计算速度快、数据分析能力强的特点。

为达到上述目的，本发明采用的技术方案包括以下步骤：

步骤1、数据对象预处理。对所有待分析数据对象（数目为

的待聚类数据对象

添加2个数值型属性值

、和。其中

；

是该待聚类数据对象的权重，其值均设定为1；

步骤2、建立一个

行列的数组

，其初始值全取值为0，用于保存聚类处理过程；

步骤3、数据对象分组。将所有数据对象随机均分为

组，每组包含

=个数据对象（若不能均分，则最后一组数据对象数目等于

，为取整运算）；

步骤4、计算每组内

个数据对象之间的相似度矩阵

，

，

，

。不同的数据

和之间相似度

的度量取决于待聚类的数据对象的类别。如对于二维空间中的点，大多采用欧几里德欧氏距离度量任意两个对象之间的相似度；

步骤5、依据相似度矩阵

，选择组内当前相似度最大的两个数据对象

和数据对象

（若非唯一，则任选其一）合并生成新数据对象

，从本组中删除数据对象

和数据对象

；在数组

中保存合并生成记录，如此操作使组内数据对象数目减少1；

步骤6、重复上述步骤4、步骤5，直至每组内数据对象数目减少一半，也即数据对象总数目减少一半；

步骤7、令

=

，

为取整运算，若满足

，则重复执行上述步骤3、步骤4、步骤5、步骤6，否则执行步骤8；

步骤8、将剩余所有数据对象作为一组，重复执行上述步骤4、步骤5，直至组内只剩1个数据对象，该数据对象的属性值即为所有待分析数据对象属性值的算数平均值，其权重即为待分析数据对象的数目；

步骤9、查询

中的查询合并记录，获取聚类处理结果。

中最后一条记录表明了将所有聚类数据划分为2类的结果，包含2个子类数据对象的属性值的算数平均值和类内对象数目。同理推出，查询

中的合并记录以获得任意聚类数的聚类结果，并可得出各个子类的所含具体数据对象及各个子类的质心（所含数据对象属性值的算数平均值）。

上述步骤5中，所述根据数据对象

和数据对象

合并生成新数据对象

的具体方法是：

（1）

（2）

（3）

上式（3）中的

，是所有数据对象的标识值中的最大值。

上述步骤5中，所述在

中保存合并生成记录的具体方法是：在

的第1个取值全0的行（记为第

行）的第一列赋值为

，即令

，其后各列依次记录数据对象

和数据对象。显然，对于

中的任一行记录，表明了唯一标识为

的数据对象由唯一标识分别为和

的两个数据对象合并生成，且这两个数据对象相似度高，可作为一个子类，其质心即为数据对象唯一标识为

的属性值。

本发明计算简便、速度快，实用性强，具有良好的数据概况分析能力，适于海量数据的快速聚类处理。对于用户任意给定的聚类数

，可在上述步骤8时，执行到组内数据对象个数为

时终止。本发明方法不但可以方便地得出查询子类的具体数据对象构成、获取各个子类内所含具体数据对象数目和子类的质心，还可以获取各个子类内数据构成的分布特征（也即对子类进一步分类后，类内所含具体数据对象构成，类内的数据对象数目和类的质心）。

Claims

1.一种计算机快速海量数据聚类处理方法，其特征是，所述方法以计算机作为数据处理、存储的工具，处理时，计算机首先对待分析数据对象进行预处理，完成数据对象的分组，然后计算组内数据对象的相似度矩阵，并依据相似度大小合并生成新数据对象，记录合并生成过程同时删除旧数据对象，如此反复操作直至数据对象的数目等于用户期待的聚类分类数，最后通过查询合并记录获取聚类处理结果，所述方法包括以下步骤：

a.数据对象预处理

对所有数目为