CN108717444A

CN108717444A - 一种基于分布式结构的大数据聚类方法和装置

Info

Publication number: CN108717444A
Application number: CN201810471647.0A
Authority: CN
Inventors: 王庆喜; 赵浩婕; 齐万华
Original assignee: Anyang Institute of Technology
Current assignee: Anyang Institute of Technology
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-10-30

Abstract

本发明公开了数据挖掘技术领域的一种基于分布式结构的大数据聚类方法和装置，该方法的具体步骤如下：S1：从n个数据对象中任意选择k个对象作为初始聚类中心；S2：根据每个聚类对象的均值(中心对象)，计算每个对象和这些中心对象的距离，并根据最小距离重新对相应的对象归属进行划分；S3：计算每个有变化聚类的均值；S4：重复步骤S2和S3，直到每个聚类不再发生变化为止，本发明将大数据分为几个子集，每个子集包含较少的数据，并针对这些子集进行同时聚类，能够极大提高对大数据聚类的速度。

Description

一种基于分布式结构的大数据聚类方法和装置

技术领域

本发明公开了一种基于分布式结构的大数据聚类方法和装置，具体为数据挖掘技术领域。

背景技术

半个世纪以来，随着计算机全面融入社会生活，信息爆炸已经累积到一个开始变革的程度。大数据既是数据量的一个激增，同时也是数据复杂性的提升。大数据可以说是量累积到一定程度后形成的规模化质变。大数据的类型丰富多彩，既有像原有的数据库数据等结构信息，又有文本、视频等非结构化信息，而且数据的采集和处理速度要求也越来越快。

面对大数据的汹涌来袭，传统的数据处理方式显得越来越困难，由于技术手段的限制，不能充分利用所有数据，受限于分析能力而无法获取复杂问题的答案，因为时限要求不得不采用某项简单的建模技术，因为没有足够的时间运算，从而对模型的精度问题加以妥协。为此，我们提出了一种基于分布式结构的大数据聚类方法和装置投入使用，以解决上述问题。

发明内容

本发明的目的在于提供一种基于分布式结构的大数据聚类方法和装置，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于分布式结构的大数据聚类方法，该方法的具体步骤如下：

S1：从n个数据对象中任意选择k个对象作为初始聚类中心；

S2：根据每个聚类对象的均值(中心对象)，计算每个对象和这些中心对象的距离，并根据最小距离重新对相应的对象归属进行划分；

S3：计算每个有变化聚类的均值；

S4：重复步骤S2和S3，直到每个聚类不再发生变化为止。

优选的，所述步骤S2中，计算每个对象和这些中心对象的距离的流程为：首先对步骤S1中剩余的其他对象，根据其与这个k个聚类中心的相似度，分别将它们分配给与其最相似聚类，然后再计算每个所获新聚类的聚类中心，即该聚类中所有对象的均值，不断重复这一过程直到标准测度函数收敛，一般采用均方差作为标准测度函数，具体为：其中E为数据集中所有对象与相应聚类中心的均方差之和，p为代表对象的空间中的一个点，m_i为聚类C_i的均值。

优选的，所述步骤S2中，在重新对相应的对象归属进行划分时，具体的算法过程如下：

S21：给定数据集A＝{a₁,a₂,…,a_n}；

S22：将数据集A分为若干个子集，A₁,A₂,…A_p；

S23：对子集A₁,A₂,…A_p同时进行聚类，分别得到聚类中心数为m₁,m₂,…m_p；

S24：if|m₁+m₂+…+m_p|≥n₀，其中n₀为问题规模的阈值，将m₁+m₂+…+m_p个聚类中心看成集合A，并将m₁+m₂+…+m_p个数据进行一次性聚类；

S25：聚类结束后，if聚类中心X₁和X₂聚为一类，而在步骤S23结束后C₁和C₂分别是以X₁和X₂为聚类中心的类，将其合并为一类。

优选的，所述步骤S3中，将每个有变化的聚类均值定义为一组密度连接的数据点集，其具体为：

S31：一个给定数据对象的ε半径内的区域成为该数据对象的ε-近邻；

S32：若一个数据对象的ε-近邻至少包含指定数目的(MinPts)对象，该数据对象就称为核心对象；

S33：给定数据对象集D_i，若对象数据p为另一组对象q的ε-近邻且q为核心对象，就称p是从q直接密度可达的；

S34：对于给定的ε，若在数据集D中，有一系列数据对象p₁,p₂……,p_n，其中p₁＝q，p_n＝p，从而使得p_i+1是从p_i直接密度可达的，则称p是从q密度可达的；

S35：对给定的ε和MinPts，若存在一个数据对象o(o∈D)，使得对象p和q都是从o密度可达的，则对象p和q为密度连接。

优选的，一种基于分布式结构的大数据聚类装置，包括对象选择模块、距离计算模块、归属划分模块、均值聚类模块以及结果输出模块；

所述对象选择模块用于从大数据中选择对象作为初始聚类中心，由所述距离计算模块根据所述对象选择模块选择的聚类中心计算给个聚类对象的均值，利用所述归属划分模块针对每个对象和均值对象之间的距离，对相应的对象进行归属划分，通过所述均值聚类模块计算每个有变化的聚类均值，其计算结果由所述结果输出模块进行输出。

与现有技术相比，本发明的有益效果是：本发明将大数据分为几个子集，每个子集包含较少的数据，并针对这些子集进行同时聚类，能够极大提高对大数据聚类的速度，同时能够对数据集进行预处理，并在每次迭代中对每个数据点的归属进行预判，以提高算法的执行效率，本发明能够对数据集进行垂直划分，并分布到每个子集中，对数据子集作局部聚类分析，并对各局部聚类信息进行合并处理，得到全局聚类结果。

附图说明

图1为本发明工作流程图；

图2为本发明系统原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：一种基于分布式结构的大数据聚类方法，该方法的具体步骤如下：

S1：从n个数据对象中任意选择k个对象作为初始聚类中心；

S2：根据每个聚类对象的均值(中心对象)，计算每个对象和这些中心对象的距离，并根据最小距离重新对相应的对象归属进行划分，计算每个对象和这些中心对象的距离的流程为：首先对步骤S1中剩余的其他对象，根据其与这个k个聚类中心的相似度，分别将它们分配给与其最相似聚类，然后再计算每个所获新聚类的聚类中心，即该聚类中所有对象的均值，不断重复这一过程直到标准测度函数收敛，一般采用均方差作为标准测度函数，具体为：其中E为数据集中所有对象与相应聚类中心的均方差之和，p为代表对象的空间中的一个点，m_i为聚类C_i的均值，在重新对相应的对象归属进行划分时，具体的算法过程如下：

S21：给定数据集A＝{a₁,a₂,…,a_n}；

S22：将数据集A分为若干个子集，A₁,A₂,…A_p；

S25：聚类结束后，if聚类中心X₁和X₂聚为一类，而在步骤S23结束后C₁和C₂分别是以X₁和X₂为聚类中心的类，将其合并为一类；

S3：计算每个有变化聚类的均值，将每个有变化的聚类均值定义为一组密度连接的数据点集，其具体为：

S35：对给定的ε和MinPts，若存在一个数据对象o(o∈D)，使得对象p和q都是从o密度可达的，则对象p和q为密度连接；

S4：重复步骤S2和S3，直到每个聚类不再发生变化为止。

本发明还提供了一种基于分布式结构的大数据聚类装置，包括对象选择模块、距离计算模块、归属划分模块、均值聚类模块以及结果输出模块；所述对象选择模块用于从大数据中选择对象作为初始聚类中心，由所述距离计算模块根据所述对象选择模块选择的聚类中心计算给个聚类对象的均值，利用所述归属划分模块针对每个对象和均值对象之间的距离，对相应的对象进行归属划分，通过所述均值聚类模块计算每个有变化的聚类均值，其计算结果由所述结果输出模块进行输出。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于分布式结构的大数据聚类方法，其特征在于：该方法的具体步骤如下：

S1：从n个数据对象中任意选择k个对象作为初始聚类中心；

S3：计算每个有变化聚类的均值；

S4：重复步骤S2和S3，直到每个聚类不再发生变化为止。

2.根据权利要求1所述的一种基于分布式结构的大数据聚类方法，其特征在于：所述步骤S2中，计算每个对象和这些中心对象的距离的流程为：首先对步骤S1中剩余的其他对象，根据其与这个k个聚类中心的相似度，分别将它们分配给与其最相似聚类，然后再计算每个所获新聚类的聚类中心，即该聚类中所有对象的均值，不断重复这一过程直到标准测度函数收敛，一般采用均方差作为标准测度函数，具体为：其中E为数据集中所有对象与相应聚类中心的均方差之和，p为代表对象的空间中的一个点，m_i为聚类C_i的均值。

3.根据权利要求1所述的一种基于分布式结构的大数据聚类方法，其特征在于：所述步骤S2中，在重新对相应的对象归属进行划分时，具体的算法过程如下：

S21：给定数据集A＝{a₁,a₂,…,a_n}；

S22：将数据集A分为若干个子集，A₁,A₂,…A_p；

4.根据权利要求1所述的一种基于分布式结构的大数据聚类方法，其特征在于：所述步骤S3中，将每个有变化的聚类均值定义为一组密度连接的数据点集，其具体为：

5.一种基于分布式结构的大数据聚类装置，其特征在于：包括对象选择模块、距离计算模块、归属划分模块、均值聚类模块以及结果输出模块；