CN108268611B

CN108268611B - 一种基于MapReduce的k-means文本聚类的方法及装置

Info

Publication number: CN108268611B
Application number: CN201711473670.5A
Authority: CN
Inventors: 赵伟; 武新; 崔维力; 张浩文
Original assignee: Tianjin Nankai University General Data Technologies Co ltd
Current assignee: Tianjin Nankai University General Data Technologies Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-03-26
Anticipated expiration: 2037-12-29
Also published as: CN108268611A

Abstract

本发明提供一种基于MapReduce的k‑means文本聚类的方法及装置。包括，删除离群点，最大距离法选取初始簇中心，构造迭代中的簇中心计算公式和测度函数，设计基于MapReduce框架的大规模文本并行聚类模型。采用本发明的方法，可以有效解决传统K‑means聚类算法中的局部最优、迭代次数过多、聚类结果不稳定的问题，提高算法的并行能力和可扩展性。

Description

一种基于MapReduce的k-means文本聚类的方法及装置

技术领域

本发明属于文本聚类方法，特别涉及MapReduce编程模型，同时还涉及k-means聚类方法。

背景技术

随着互联网的发展，数据的规模越来越庞大，现有的文本聚类方法并不能适应规模庞大的数据集，无论从文本聚类效果还是时间性能上都不能达到所要达到的要求。

例如传统K-means聚类算法中中存在迭代次数过多、聚类结果不稳定的情况，因此算法的并行能力和可扩展性都不能令人满意。

发明内容

本发明要解决的问题是提出基于MapReduce的最大距离法选取初始簇中心的k-means 文本聚类方法，从而提高文本聚类效果和时间性能。

为了达到上述目的，本发明采取的技术方案为：一种基于MapReduce的k-means文本聚类方法，包括：

(1)、对整个文本数据集的离群点进行删除；

(2)、对剩余的文本使用最大距离法选取初始簇中心；

(3)、运用MapReduce函数进行多次迭代，完成文本的聚类过程。

进一步的，步骤(1)所述删除离群点的方法包括：

(101)、定义四个集合，S1，S2，S3，D1；S1为核心点集，S2为边界点集，S3为离群点集，D1是文本数据集D的备份；

(102)、对于文本数据集D中的任一文本数据点d_x，运用Map函数计算该文本与其他文本之间的距离，得到与d_x的距离不大于距离参数Eps的点集合；

(103)、使用Reduce函数对步骤102得到的点集合进行求和，若值不小于个数参数Minpts，则采用Map函数将其归类到核心点集S1，再采用Reduce函数将不包含S1的文本数据集传入D1文本数据集。

进一步的，步骤(2)所述最大距离法选取初始簇中心的过程包括：

(201)、计算删除离群点后剩余文本数据集所包括N个样本点的两两之间的距离，并将距离最远的2个样本点作为初始簇中心；

(202)、计算剩余的样本点中，到前面已选取的初始簇中心各自距离乘积；将乘积最大值的那个样本点作为下一个初始簇中心；

(203)、反复执行步骤(202)，直到找到k个初始簇中心，其中k为根据实际需要聚类的数量定义。

进一步的，步骤(3)的具体方法为：

(301)、运用Map函数计算每个文本数据点到各个初始簇中心的距离，并根据距离把文本数据点归属到最近的初始簇中心；

(302)、运用Reduce函数根据Map函数的结果计算出新的初始簇中心；

(303)、对于步骤(302)得到的Reduce结果，判断得到的聚类初始簇中心和上一轮的初始簇中心之间的变化是否小于阈值，若小于，则聚类结束，否则开始新一轮的MapReduce。

本发明的另一方面，提出了一种基于MapReduce的k-means文本聚类装置，包括：

离群点删除模块，用于对整个文本数据集的离群点进行删除；

初始簇中心选取模块，用于对剩余的文本使用最大距离法选取初始簇中心；

迭代聚类模块，用于运用MapReduce函数进行多次迭代，完成文本的聚类过程。

进一步的，所述离群点删除模块包括：

集合定义单元，用于定义四个集合，S1，S2，S3，D1；S1为核心点集，S2为边界点集，S3为离群点集，D1是文本数据集D的备份；

距离计算单元，用于对于文本数据集D中的任一文本数据点d_x，运用Map函数计算该文本与其他文本之间的距离，得到与d_x的距离不大于距离参数Eps的点集合；

归类单元，用于使用Reduce函数对步骤102得到的点集合进行求和，若值不小于个数参数Minpts，则采用Map函数将其归类到核心点集S1，再采用Reduce函数将不包含S1的文本数据集传入D1文本数据集。

进一步的，所述初始簇中心选取模块包括：

第一计算单元，用于计算删除离群点后剩余文本数据集所包括N个样本点的两两之间的距离；

第一选取单元，用于将距离最远的2个样本点作为初始簇中心；

第二计算单元，用于计算剩余的样本点中，到前面已选取的初始簇中心各自距离乘积；

第二选取单元，用于将乘积最大值的那个样本点作为下一个初始簇中心；

循环单元，用于将第二计算单元和第二选取单元反复执行，直到找到k个初始簇中心。

进一步的，所述迭代聚类模块包括：

距离计算单元，用于运用Map函数计算每个文本数据点到各个初始簇中心的距离，并根据距离把文本数据点归属到最近的初始簇中心；

质心计算单元，用于运用Reduce函数根据Map函数的中间结果计算出新的初始簇中心；

判断单元，用于对质心计算单元得到的Reduce结果，判断得到的聚类初始簇中心和上一轮的初始簇中心之间的变化是否小于阈值，若小于，则聚类结束，否则开始新一轮的 MapReduce。

本发明提出的一种基于MapReduce的k-means文本聚类方法与装置，与现有技术相比，有益效果为：

本发明提供了基于MapReduce框架的大规模文本并行聚类模型，可以有效解决传统 K-means聚类算法中的局部最优、迭代次数过多、聚类结果不稳定的问题，提高算法的并行能力和可扩展性。

具体实施方式

下面结合具体实施例对本发明做进一步说明。

为了提高聚类效果和时间性能，本发明提出了一种基于MapReduce的k-means聚类方法，采用分而治之的策略，该模型包括三个阶段：(1)离群点删除；(2)最大距离法选取初始簇中心；(3)基于MapReduce进行文本聚类。

(1)为了减少离群点对于初始簇中心的影响，需要先将离群点进行删除。首先定义四个集合，S1，S2，S3，D1。S1表示核心点集，S2表示边界点集，S3为离群点集，D1是D 的备份。对于文本集D中的任一文本dx运用Map函数计算该文本与其他文本之间的距离，输入距离参数Eps和个数参数Minpts，将＜＜d_x，list＜t_j，wx_j＞＞，list＜d_y＞＞进行处理，得＜d_x，list＜dis＜x，y＞＞＞，其中list＜sim＜x，y＞是与d_x的距离不大于Eps的点集合。对于Map的结果，使用Reduce函数对其值进行求和处理。若值不小于个数参数Minpts，则采用Map函数将其归类到核心点集S1。再采用Reduce函数将不包含 S1的文本集D传入D1文本集。

具体的MapReduce过程表示如下：

Map:＜＜d_x，list＜t_j，w_xj＞＞，list＜d_y＞＞→＜d_x，list＜dis＜x，y＞＞＞

Reduce:＜d_x，count＜list＜dis＜x，y＞＞＞＞→＜d_x，num＜x＞＞

Map:＜d_x，num(x)＞→＜S₁，d_x＞

Reduce:D₁←D－S₁

(2)基于最大距离法选取初始簇中心的k-means改进算法基于以下事实：距离大(相似度小)的样本点分到同一个簇的可能性小；相反，距离小(相似度大)的样本点分到同一个簇的可能性大。在这一认识的基础上，改进后的算法计算样本集的N个样本点两两之间的距离，并将距离最远的两个样本点作为初始簇中心。在剩余的(N－2)个样本点中，选取到前面两个初始簇中心各自距离乘积最大值的那个样本点作为第三个初始簇中心。同样地，在剩余的(N－3)个样本点中，选取到前面三个初始簇中心各自距离乘积最大值的那个样本点作为第四个初始簇中心。依此类推，可以找到k个初始簇中心，也称为质心，其中k根据实际进行定义，需要聚集多少个类，k为多少。

(3)使用MapReduce算法完成文本聚类过程。首先运用Map函数计算每个文本数据点到各个质心的距离，并根据距离把文本数据点归属到最近的质心。其输入信息为质心信息和待聚类的所有文本点的信息，输入格式为＜d_x，list＜t_j，w_xj＞＞，Map执行结束后，输出内容为类标识和文本数据属性＜K₁，＜d_x，list＜t_j，w_xj＞＞。接着运用Reduce函数根据Map函数的中间结果计算出新的质心，用来进行下一轮的MapReduce操作。输入数据格式为＜K_x，list＜d_x＞＞，即是＜类标识，该类的文本数据集＞；所有属于一个类的数据交由同一个Reduce任务处理，得到＜K_x，list＜t_j，w_xj＞＞，即是新的质心和向量标识。对于得到的Reduce结果，判断本轮得到的聚类质心和上一轮的质心之间的变化是否小于阈值，若小于，则聚类结束，否则开始新一轮的MapReduce。算法描述如下:

1.输入初始质心和文本集；

2.repeat:；

3.Map:＜d_x，list＜t_j，w_xj＞＞→＜K_x，＜d_x，list＜t_j，w_xj＞＞∥K1，K2，…，Kx，…，Kn是类标识；

4.Reduce:＜K_x，list＜d_x＞＞→＜K_x，list＜t_j，w_xj＞＞；

5.until:达到结束的条件；

6.输出簇和迭代次数。

以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于MapReduce的k-means文本聚类方法，其特征在于，包括：

(1)、对整个文本数据集的离群点进行删除；

(2)、对剩余的文本使用最大距离法选取初始簇中心；

(3)、运用MapReduce函数进行多次迭代，完成文本的聚类过程；

步骤(1)所述删除离群点的方法包括：

2.根据权利要求1所述的一种基于MapReduce的k-means文本聚类方法，其特征在于，步骤(2)所述最大距离法选取初始簇中心的过程包括：

3.根据权利要求1所述的一种基于MapReduce的k-means文本聚类方法，其特征在于，步骤(3)的具体方法为：

4.一种基于MapReduce的k-means文本聚类装置，其特征在于，包括：

迭代聚类模块，用于运用MapReduce函数进行多次迭代，完成文本的聚类过程；

所述离群点删除模块包括：

5.根据权利要求4所述的一种基于MapReduce的k-means文本聚类装置，其特征在于，所述初始簇中心选取模块包括：

6.根据权利要求4所述的一种基于MapReduce的k-means文本聚类装置，其特征在于，所述迭代聚类模块包括：

判断单元，用于对质心计算单元得到的Reduce结果，判断得到的聚类初始簇中心和上一轮的初始簇中心之间的变化是否小于阈值，若小于，则聚类结束，否则开始新一轮的MapReduce。