CN103793438A

CN103793438A - 一种基于MapReduce的并行聚类方法

Info

Publication number: CN103793438A
Application number: CN201210434240.3A
Authority: CN
Inventors: 孙占全
Original assignee: Shandong Computer Science Center
Current assignee: Shandong Computer Science Center
Priority date: 2012-11-05
Filing date: 2012-11-05
Publication date: 2014-05-14
Anticipated expiration: 2032-11-05
Also published as: CN103793438B

Abstract

本发明基于MapReduce的并行聚类方法，主要是针对大规模数据集的聚类问题，该方法以信息损失量度量样本之间的相关性，可以体现样本之间复杂的相关性，并且提供了一个客观的聚类数确定准则，通过数据并行，大大提高了聚类速度。该聚类方法可以广泛应用于医学、药学、智能交通、模式识别等领域的聚类问题。

Description

一种基于MapReduce的并行聚类方法

技术领域

本发明涉及数据挖掘领域，特别涉及大规模数据聚类分析。

背景技术

随着电子信息技术的飞速发展，电子数据量以指数级增长，数据洪流在很多领域开始出现，如生物信息、生物医学、化学信息、网页等等。如何充分利用海量数据挖掘有用信息，从而辅助企业决策是信息领域专家所面临的巨大挑战。如果能够充分挖掘电子信息，将为企业带来巨大效益，如果不能从海量数据中挖掘有用信息，将成为电子垃圾，成为企业负担。数据挖掘是从大量数据集中发现新模式的过程，结合了人工智能、机器学习、统计和数据库，是目前分析数据的最有效手段。国内外很多学者从事这方面的研究，很多数据挖掘方法已被应用到实际当中。随着数据规模的扩大，很多传统的数据挖掘方法已不实用，针对大规模数据密集型的并行数据挖掘方法研究是近年来信息领域的研究重点。有效的并行算法和实现技术是实现大规模数据挖掘的关键。很多并行挖掘算法以不同技术实现，如多线程、MPI技术、MapReduce技术、工作流技术等，不同的实现技术有不同的性能和使用特性，MPI模式适用于计算密集型问题，特别适用于仿真，但编程复杂度较高，对运行环境的时延要求高，容错性较差。MapReduce是信息检索领域提出的一种适于数据分析的云技术，适合于数据密集型的并行数据挖掘。目前有几种MapReduce的结构，传统的MapReduce架构只是单向的Map和Reduce过程，不支持迭代，不适合复杂的数据挖掘算法。最新由美国印第安那大学教授提出的Twister软件，是一种迭代MapReduce模型，支持算法的迭代，大大提供了MapReduce算法的实用性。

数据聚类是是对于静态数据分析的一门技术，在许多领域受到广泛应用，包括机器学习、数据挖掘、模式识别、图像分析以及生物信息等。聚类的目的是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个子集中的成员对象都有相似的一些属性，是一种无监督方法。很多聚类方法已被研究，如k均值聚类、Fisher聚类、Kohonen聚类、基于信息瓶颈理论聚类方法等，不同聚类方法具有不同的聚类性质，适用于不同的聚类问题。K均值聚类应用最广，但聚类的距离测度只能度量变量之间的线性相关性。Kohonen聚类是一种自适应神经网络，但聚类测度通常也是欧几里德距离，无法度量变量之间的任意相关性。基于信息瓶颈理论的聚类是基于信息熵理论的聚类方法，以信息损失量为测度度量变量之间的相关性，可以统计变量之间任意统计相关性，已被用于多个领域的聚类问题，取得理想的效果。但随着数据规模的扩大，基于信息瓶颈理论聚类方法的计算量越来越大，已不适于大规模的数据分析问题。基于信息瓶颈理论聚类方法的优点，本专利提出了基于MapReduce编程模式的并行聚类方法，有效解决了大规模聚类分析问题。

基于MapReduce的并行聚类方法可用于生物信息的DNA数据聚类，生物信息数据量非常庞大，每天都会产生大量的DNA数据，DNA序列聚类是生物信息的重要内容之一，如何对大规模的DNA序列进有效聚类是研究热点。DNA数据通常用A、C、G、T字符串组成，为实现DNA数据进行序列对比，通常需要对DNA字符对进行统计，将DNA序列转化成概率向量，通过计算两个概率向量的距离来度量DNA序列直接的相关性，从而利用本发明专利实现DNA序列的有效聚类。

基于MapReduce聚类方法与其它聚类方法相比主要有以下优点：

1)用信息损失量作为度量两个变量之间的距离测度，可以度量变量之间任意统计相关性；

2)本发明可用客观的方法确定聚类数，有效避免现有聚类方法人为主观指定聚类数的缺点；

3)本发明专利提出的基于MapReduce并行聚类方法适于大规模数据聚类，有效提高聚类效率和性能。

发明内容

本发明的目的之一在于提出一种基于MapReduce的并行聚类方法，该方法以信息损失作为样本之间距离的测度，以MapReduce编程模式实现聚类中心的并行计算，为聚类数确定提供了客观标准，避免主观指定聚类数的弊端。

为达到上述目的，本发明采用的技术方案为：

该基于MapReduce的并行聚类方法，包括步骤：

将原数据集进行转换，以概率的形式进行描述；

对原数据进行划分，设定聚类参数；

以基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心；

以基于MapReduce的并行中心聚类方法实现最终聚类结果。

附图说明

图1基于迭代MapReduce编程模式的Twister软件架构

图2基于MapReduce的并行信息瓶颈理论聚类方法流程图

图3基于MapRedcue的并行中心聚类方法流程图

图4基于信息损失量变化确定聚类数

图5由本发明实施DNA序列聚类结果

具体实施方式

为更好地理解本发明，下面结合附图和具体实施方式对本发明作详细说明。

聚类是通过分析变量之间的相关性将数据集合划分若干类的过程，使得类内差异小，类间差异大。对于大规模数据的聚类分析，需要通过并行的方式实现。在数据划分的并行聚类中，如何实现全局的聚类中心是关键。另外，如何确定聚类数需要一个客观的标准。本发明提出一种基于MapReduce编程模式的并行聚类方法，该方法的具体操作如下。

数据转换、划分及参数设定

对原始文件进行分析，将原始数据转换成用概率向量表示的形式。然后随机的将原始数据均匀划分成n份，将n份数据分布到m个map节点，设定聚类截尾精度阈值α₀、β₀和δ₀，其中α₀是聚类步骤与该组数据中所有数据数比值的阈值；β₀是信息损失量实际损失值与预测值差值的阈值；δ₀是在并行中心聚类过程中，当前的聚类中心与上次聚类中心差值的阈值。

基于MapReduce的并行信息瓶颈理论聚类

1)基于迭代MapReduce的Twister软件架构

本发明是基于迭代MapReuce编程模式，以Twister软件为例，介绍基于迭代MapReduce编程模式软件的架构。

迭代MapReduce软件包括以下几部分，主作业、Map作业、Reduce作业和Combine作业，架构附图1如下所示。

其中，MapReduce作业通过客户节点控制，在配置阶段，客户端分布各MapReduce方法给各个任务，准备KeyPair对和静态数据给MapReduce任务，在每次迭代过程中，客户端接收到Combine方法返回的结果，直到任务结束。

Map作业主要实现计算模型，在初始化阶段，Map作业根据划分文件从本地磁盘加载静态数据，利用用户定义的计算模型对划分数据进行分析，结果传递给Reduce作业。Reduce作业主要接受从Map作业传递过来的结果，具体工作根据实际任务进行分析。

Combine作业是将分析的结果收集起来，传递给客户端。在客户端程序，判断是否达到截尾准则，如果达到程序结束退出，否则重复MapReduce过程。

2)基于信息瓶颈理论聚类方法

在给定一个目标集合，基于瓶颈原理的聚类方法是寻找在所有的聚类中使目标类与特征之间的信息损失达到最小。设在目标空间X和特征空间Y上的联合概率分布为p(x，y)，信息瓶颈理论是找一个聚类

在给定聚类质量的约束条件下使信息损失

达到最小。

是X和

之间的互信息

I (X; \hat{X}) = \underset{x, \hat{x}}{Σ} p (x) p (\hat{x} | x) \log \frac{p (\hat{x} | x)}{p (\hat{x})} - - - (1)

信息瓶颈理论源于Shannon的率失真理论，它提供了在给定失真约束的条件下分类数的下限，给定一个随机变量X和失真测度d(x₁，x₂)，Shannon的率失真理论是指在使平均失真最小的情况下可以仅用R个字节表示变量X，失真率函数表示为

D (R) = \min_{p (\hat{x} | x) | I (X, \hat{X}) \leq R} Ed (x, \hat{x}) - - - (2)

其中

Ed (x, \hat{x}) = \underset{x, \hat{x}}{Σ} p (x) p (\hat{x} | x) d (x, \hat{x}) .

由聚类

而导致的变量X与Y之间互信息损失可看作平均的失真测度

d (x, \hat{x}) = I (X; Y) - I (\hat{X}; Y)

= \underset{x, \hat{x}, y}{Σ} p (x, \hat{x}, y) \log \frac{p (y | x)}{p (x)} - \underset{x, \hat{x}, y}{Σ} p (x, \hat{x}, y) \log \frac{p (y | \hat{x})}{p (y)} - - - (3)

= ED (p (x, \hat{x}) | | p (y | \hat{x}))

其中D(f||g)＝E_flog(f/g)是K-L散度。可得到失真函数为

D (R) = \min_{p (\hat{x} | x) | I (X; \hat{X}) \leq R} (I (X; Y) - I (\hat{X}; Y)) - - - (4)

它正是信息瓶颈理论提出的最小化标准，即找到一个聚类使目标空间与特征空间的互信息损失最小。

设c₁和c₂是聚成的两个类，由于两个类聚到一起而导致的信息损失可表示为

d(c₁，c₂)＝I(c₁；Y)+I(c₂；Y)-I(c₁，c₂；Y) (5)

通过标准的信息论运算可得

d (c_{1}, c_{2}) = \underset{y, i = 1,2}{Σ} p (c_{i}, y) \log \frac{p (c_{i}, y)}{p (y) p (c_{i})} - \underset{y}{Σ} p (c_{1} \cup c_{2}, y) \log \frac{p (c_{1} \cup c_{2}, y)}{p (y | c_{1} \cup c_{2})} - - - (6)

其中p(c_i)＝|c_i/|X|，|c_i|表示类c_i的势，|X|表示目标空间的势，p(c₁∪c₂)＝|c₁∪c₂|/|X|。在基于信息熵的概率合并中，假定两类是相互独立的，因此，合并后的概率形式为两类概率分布的和

p (y | c_{1} \cup c_{2}) = \underset{i = 1,2}{Σ} \frac{| c_{i} |}{| c_{1} \cup c_{2} |} p (y | c_{i}) - - - (7)

该方法通过合并每步信息损失量最小的两个样本实现样本聚类，算法始于最小聚类即把每个样本看做一个聚类。聚类过程根据下面的结尾准则判断聚类是否结束。

3)聚类截尾判断准则

首先设定聚类准则判别参数α，β，其中，α代表聚类数与原始数据数比值的阈值，即聚类数与原始数据数比值不能大于α；β表示当前步合并产生的信息损失量与预测值的差值阈值，其计算过程如下。

对于第i数据划分子集，在确定α后，当聚类步数达到第k步k＞n_iα时，开始利用当前聚类步前k-1步产生的信息损失量进行最小二乘回归。将聚类步数作为x，每步信息损失量作为y，形成坐标对(x，y)。根据k-1个数据样本进行回归，计算公式为

\min Σ_{i = 1}^{k - 1} {(y_{i} - ({ax}_{i} + b))}^{2} - - - (8)

通过求解最优化问题，可得最优解

\hat{a} = \frac{Σ_{i = 1}^{k - 1} x_{i} y_{i} - (Σ_{i = 1}^{k - 1} x_{i} Σ_{i = 1}^{k - 1} y_{i}) / m}{Σ_{i = 1}^{k - 1} x_{i}^{2} - {(Σ_{i = 1}^{k - 1} x_{i})}^{2} / m} - - - (9)

\hat{b} = \frac{Σ_{i = 1}^{k - 1} y_{i}}{m} - \hat{a} \frac{Σ_{i = 1}^{k - 1} x_{i}}{m} - - - (10)

当前聚类步的预测值为

{\hat{y}}_{i} = \hat{a} x_{k} + \hat{b} - - - (11)

预测值与实际信息损失量为

e = \frac{y_{i} - {\hat{y}}_{i}}{y_{i}} - - - (12)

当e＞β时，聚类结束，聚类数即为当前数据集的聚类数。

各个数据子集的聚类中心确定后，将聚类中心聚集到一起，重新生成聚类样本，然后，根据基于信息瓶颈理论的聚类方法对其进行聚类，得到原始样本的初始聚类中心。

给定n个样本的数据集D，首先将其划分m份D¹，D²，…，D^m，每份包含数据为n₁，n₂，…，n_m个。在每份数据上

i＝1，…，m运行基于信息瓶颈理论的聚类从而获得各数据子集的聚类中心

i＝1，…，m。

收集所有数据子集的分聚类中心，根据基于信息瓶颈理论的聚类方法生成全局聚类初始中心，

在每个聚类中心的向量里，需要包含该向量合并的向量数，以备在计算信息损失时利用，

基于Twister计算过程如附图2所示。

样本聚类过程可总结如下。

(1)将每个数据向量看做一个聚类。

(2)计算任意两个数据向量合并所产生的信息损失量，选择信息损失量最小的两组进行合并，生成新的聚类组。

(3)重复以上步骤直到达到预先设定以下截尾准则。

4)基于迭代方法计算聚类中心

在获取初始聚类中心C⁰后，将其分布到各个Map节点，设k个空数据集p¹，P²，…，P^k，计算样本x与初始聚类中心

之间的距离，用信息损失作为测度，当x与

之间的信息损失最小时，将样本x放入到数据集Pⁱ中。对数据子集的所有数据计算过后，根据新生成的数据集p¹，P²，…，P^k计算新的聚类子中心C¹，C²，…，C^m。将所有的数据子集中心收集到一起，根据(7)计算新的全局聚类中心。

通过计算新生成的聚类中心与原聚类中心的区别来判断聚类过程是否结束，如果达到预期目标，聚类结束，否则，重复上述过程，迭代过程如下图所示。迭代过程描述如下，被划分的样本已经部署在了各个计算节点，初始的聚类中心输入到各个计算节点，在每个Map节点，重新计算该节点的聚类中心。所有的子聚类中心聚集到Reduce节点，根据公式(7)计算新的聚类中心，新的聚类中心返回到主计算节点，计算新聚类中心x^new与上次聚类中心x^old的差值，如果差值小于预先指定的阈值，迭代过程结束，如果大于指定的阈值，继续迭代过程。差值计算如下

δ = Σ_{i = 1}^{l} x_{i}^{new} \log \frac{x_{i}^{new}}{x_{i}^{old}} + Σ_{i = 1}^{l} x_{i}^{old} \log \frac{x_{i}^{old}}{x_{i}^{new}}

计算最终聚类中心的迭代过程如附图3所示。

结合生物信息聚类问题，本发明基于MapReduce并行聚类方法，用于DNA序列聚类分析问题，包括如下具体步骤：

步骤一：数据转换、划分及参数确定

初始数据集来自于印第安纳大学Mina Rho博士，是一些16S rRNA数据。选择其中100043条DNA数据进行聚类分析。在这个数据文件中，每条DNA数据G、A、C、T字符串组成。计算每条DNA数据中{A，C，T，G}和[AA，AC，AG，AT，CA，CC，CG，CT，GA，GC，GG，GT，TA，TC，TG，TT]的概率，概率向量可通过下式计算。

f_{s_{i}, s_{j}} = \frac{S_{i} S_{j}}{| S | - 1} - - - (14)

其中s_is_j∈∑，S_iS_j表示在DNA字符串中核酸序列对出现的频率。|S|表示DNA序列的长度。在该式中，除串头和串尾核酸被统计1次外，其它的核酸都统计2次，为去除单核酸的影响，核酸对的概率计算调整为

p_{s_{i}, s_{j}} = \frac{f_{s_{i}, s_{j}}}{f_{s_{i}} f_{s_{j}}} - - - (15)

为计算信息损失，调整后的概率应进行标准化，即

p_{s_{i}, s_{j}}^{*} = \frac{p_{s_{i}, s_{j}}}{Σ p_{s_{i}, s_{j}}} - - - (16)

这样，DNA数据样本转换成16维向量，用概率的形式描述样本作为聚类输入。经转换后的数据被均匀分成100份，然后把划分的数据分布到8个计算节点。设定聚类步骤与该组数据中所有数据数比值的阈值α₀＝0.8；信息损失量实际损失值与预测值差值的阈值β₀＝0.97；当前的聚类中心与上次聚类中心差值的阈值δ₀＝0.01。

步骤二：确定初始聚类中和聚类数

对于每个节点首先利用信息瓶颈理论分析聚类中心，当达到设定的截尾准则阈值时，聚类过程结束，从而可以得到该数据组的聚类中心和聚类数，将得到的100个聚类分中心输入到Reduce节点进行整合，形成新的聚类样本，利用信息瓶颈理论聚类方法进行聚类，从而得到全局的聚类中心和聚类数，聚类数位6。通过Combine将计算的初始聚类中心返回到客户端程序。

步骤三：确定最终聚类中心

将上步得到的全局聚类中心分布到各个计算节点，根据并行中心聚类方法进行聚类，重新计算聚类中心，重复该过程，直到两步得到的聚类中心差值小于指定的阈值δ₀。

步骤四：聚类结果显示

在该实例中，样本通过多维尺度法进行降维，把16维向量降至3维，然后在三维坐标上进行显示，聚类结果显示如附图5所示。

本发明基于MapReduce的并行聚类方法，主要是针对大规模数据集的聚类问题，该方法既可以体现数组之间复杂的相关性，又可以提供一个客观的聚类数确定准则。该聚类方法可以广泛应用于医学、药学、智能交通、模式识别等领域的聚类问题。

Claims

1.一种基于MapReduce编程模型的并行聚类方法，其特征在于，包括步骤：

原始数据划分及参数设定；

以基于MapReduce的并行中心聚类方法实现最终聚类结果。

2.根据权利1所述的原始数据划分及参数设定，其特征在于，

对原始文件进行分析，将原始数据转换成用概率向量表示的形式。然后随机的将原始数据均匀划分成1份，将1份数据分布到m个map节点，设定聚类截尾精度阈值α₀、β₀和δ₀，其中α₀是聚类步骤与该组数据中所有数据数比值的阈值；β₀是信息损失量实际损失值与预测值差值的阈值；δ₀是在并行中心聚类过程中，当前的聚类中心与上次聚类中心差值的阈值。

3.根据权利1所基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心，其特征在于，

针对每个数据划分，利用基于信息瓶颈理论聚类方法进行聚类；

合并各数据划分的聚类中心，利用基于信息瓶颈理论聚类方法重新聚类，生成全局初始聚类中心。

4.根据权利3所述基于信息瓶颈理论聚类方法，其特征在于，

a.将每个向量数组看作最初的类；

b.计算任意两组向量合并产生的信息损失量，选择合并后产生的信息损失量最小的一组进行合并，生产新的数组；

c.重复步骤b直至满足聚类截尾精度α₀和β₀，确定聚类数。

5.根据权利4中b所述，其特征在于

根据信息瓶颈理论，两组数组合并所产生的信息损失量为：