CN105760478A

CN105760478A - 一种基于机器学习的大规模分布式的数据聚类方法

Info

Publication number: CN105760478A
Application number: CN201610086276.5A
Authority: CN
Inventors: 王昌栋; 赖剑煌; 杨宇博; 彭祥游
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2016-02-15
Filing date: 2016-02-15
Publication date: 2016-07-13

Abstract

本发明公开一种基于机器学习的大规模分布式的数据聚类方法，输入需要分类的数据点以及聚类个数k，其中包含数据点索引以及数据点的坐标，数据形式如下，<n,coordinate>；对数据点进行预处理，即给数据加上索引；根据索引数据计算距离矩阵；根据距离矩阵计算每个数据点的密度信息；根据距离矩阵及密度信息得到每个数据点的最小距离信息以及其对应索引；根据密度信息及最小距离信息确定k个聚类中心；根据最小距离信息及聚类中心对所有未被分配类标的数据点进行聚类，直到所有数据点都被分到一个类标。本发明能在可扩展的大规模分布式平台上执行聚类，在面对大规模数据量的时候可适量扩展机器以提升计算能力，在可接受的时间内得出准确度较高的聚类结果。

Description

一种基于机器学习的大规模分布式的数据聚类方法

技术领域

本发明涉及计算机及数据挖掘领域，具体来说涉及一种基于机器学习的大规模分布式的数据聚类方法。

背景技术

目前，随着大数据、云计算为核心的互联网技术的迅速发展，作为大数据核心技术的数据分析技术正在吸引越来越多的研究和关注。其中数据聚类是数据处理中最关键的步骤。在面对如今庞大的数据时，为了得到准确的数据分析结果，必须尽可能的提高数据聚类算法的准确率与效率。

在现有的数据聚类算法中，分别有基于划分，基于密度，基于网格等不同的算法，这些算法采用不同的方法来分割与度量数据点，从而得到不同的聚类。

这些算法往往是基于单机设备进行设计的，在面对小规模数据时，上述算法尚可以得到理想的结果，而在处理大规模数据时，由于算法无法在多机上进行有效的扩展，因此存在准确度下降，迭代次数过多等问题。这样一来，可能会导致算法无法在有效时间内得出结果，或者是得出的聚类不准确。

发明内容

为了解决现有聚类算法在面对大规模数据时性能不足的问题，本发明将聚类算法根据MapReduce框架进行了并行化创新，提出了一种基于机器学习的大规模分布式的数据聚类方法，该方法是能够提供有效扩展的高性能的基于大规模分布式平台Spark的并行化数据聚类算法。

为了实现以上目的，本发明的技术方案为：

一种基于机器学习的大规模分布式的数据聚类方法，包括以下步骤：

1)输入需要分类的数据点以及聚类个数k，其中包含数据点索引以及数据点的坐标，数据形式如下，<n,coordinate>，其中n表示第n个数据点，coordinate表示数据点的坐标；

2)对数据点进行预处理，即给数据加上索引；

3)根据索引数据计算距离矩阵；

4)根据步骤3)得到的距离矩阵计算每个数据点的密度信息；

5)根据步骤3)得到的距离矩阵以及步骤4)得到的密度信息得到每个数据点的最小距离信息以及其对应索引；

6)根据步骤4)的密度信息以及步骤5)得到的最小距离信息确定k个聚类中心；

7)根据步骤4)的最小距离信息以及步骤6)确定的聚类中心对所有未被分配类标的数据点进行聚类，直到所有数据点都被分到一个类标。上述步骤2)输入包含的索引指的是点索引，是一个一维坐标，表明是第n个点；预处理中的索引是所求距离在距离矩阵的索引，是一个二维坐标，表明是求第i个点和第j个点的之间的距离。

进一步地，所述步骤4)的实现方式为：

步骤41)，对每一个数据点i，由距离矩阵得到与数据点i距离大于给定值d_c的所有数据点，对每一个数据点输出(i，1)；

步骤42)，对数据点i相同的所有数据进行求和，即可得到数据点i的密度。

进一步地，所述步骤6)的实现方式为：

步骤61)，将每个数据点的最小距离与密度求出乘积。

步骤62)，对该结果进行降序排序，取前k个点作为聚类中心。是根据聚类中心在其聚类中拥有最大密度，与此同时，聚类中心应当与其他类的中心的距离极大，因此上述结果较大的点最有可能是聚类中心，故取前k个点作为聚类中心。

与现有技术相比，本发明具有以下效果：本发明是能够在可扩展的大规模分布式平台上执行聚类算法，在面对大规模数据量的时候可以适量扩展机器以提升计算能力，在可接受的时间内得出准确度较高的聚类结果。

附图说明

图1为本发明的算法流程图。

图2为MapReduce运行原理图。

图3为本发明并行化运行原理图。

图4为本发明的聚类结果图。

具体实施方式

下面结合附图对本发明做进一步的描述，但本发明的实施方式并不限于此。

1)输入需要分类的数据点以及聚类个数k，其中包含数据点索引以及数据点的坐标，数据形式如下，<n,coordinate>。

2)对数据点进行预处理，即使用MapReduce框架中的Map函数为数据点添加索引，步骤如下：

21)对每一个数据点，根据距离矩阵生成若干个键值对，其中每一个点生成的键值对的数量根据它在距离矩阵中需要的次数而定，生成的键值对形如<<index_x,index_y>，coordinate>；

22)通过Reduce函数合并键相同的键值对，并计算出两个坐标之间的距离，得到距离矩阵<<index_x,index_y>，distance>；

3)定义点的密度公式如下：ρ_i＝ΣX(d_ij-d_c)，其中Χ(m)是一个判别函数，当m大于0时输出1，否则输出0。d_c是自定义的一个最小距离，d_ij表示点i与点j之间的距离；

4)基于步骤3)得到的距离信息，依据上面定义的密度公式使用Map函数处理每一对数据点，<<index_x,index_y>，distance>，对这些数据点生成新的键值对。即若distance大于给定的值，则输出<x,1>，<y,1>，否则不产生任何输出。

5)通过Reduce操作合并键相同的键值对，计算出每个数据点对应的密度，因此可以得到每个数据点的密度信息，<x,ρ_x>；

6)定义点j的最小距离如下：基于步骤5)得到的密度信息，对每一个数据点进行排序。对排序过的数据，使用一个Map函数为它们加上一个新的索引，形如<sortedIndex,<x,ρ_x>>，由此得到了加过排序索引的数据。此时需要使用另外一个Map函数对这个拥有排序索引的数据进行处理。对每一个数据，Map函数输出两类键值对，<sortedIndex,<i,TRUE>>，以及<x,<i,FALSE>>。其中x从sortedIndex取到n，也就是待分类的样本点的个数。

7)接下来使用一个Combine函数将上面产生的数据进行合并。这样可以得到一个形如<sortedIndex,List<i,bool>>键值对。再次使用Map函数对数据进行处理，对每一个点i，输出<<i,j>,pointIndex>，j从i取到n。其中pointIndex指得是i与j亮点中密度较小点的索引。

8)得到Map函数的输出后，将该数据与距离信息<<i,j>,distance>连接，得到形如<<i,j>,<pointIndex,d_ij>>的数据。

9)使用Reduce函数对步骤8)得到的数据进行处理，对其中的每一个i，可以找到一个点near，使点near是密度大于数据点i的点中与数据点i距离最近的点。该函数的输出为<pointIndex，<near,distance>>；

10)根据以上步骤，对于每一个数据点均能得到两个重要数据，一个是该点的密度信息，一个是该点与密度比该点大的点的最近距离。根据这两个数据可以确定出数据点的聚类中心，计算每个数据点的θ_i，定义为θ_i＝δ_i*ρ_i。

11)将θ_i从大到小进行排序，取前k个数据点作为聚类的中心。这样就得到了k个聚类中心。

12)根据这k个中心点，配合之前计算得到的每个点的最小距离及其索引，通过宽度优先搜索，可以将每个点的类标都分配为这k个中心点中的一个。具体步骤如下：

对未分配的数据点i进行查找，根据δ_i数据可以查找到数据点near，数据点near的密度大于数据点i，且距离数据点i最近，根据本发明的思想，数据点i的类标应该与数据点near相同。因此将数据点i的类标置为与数据点near相同。循环迭代此操作，所有的点都会被分到一个类中。

以上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种基于机器学习的大规模分布式的数据聚类方法，其特征在于，包括以下步骤：

2)对数据点进行预处理，即给数据加上索引；

3)根据索引数据计算距离矩阵；

4)根据步骤3)得到的距离矩阵计算每个数据点的密度信息；

7)根据步骤4)的最小距离信息以及步骤6)确定的聚类中心对所有未被分配类标的数据点进行聚类，直到所有数据点都被分到一个类标。

2.根据权利要求1所述的数据聚类方法，其特征在于，所述步骤4)的实现方式为：

3.根据权利要求1所述的数据聚类方法，其特征在于，所述步骤6)的实现方式为：

步骤61)，将每个数据点的最小距离与密度求出乘积。

步骤62)，对该结果进行降序排序，取前k个数据点作为聚类中心。