CN109858518B

CN109858518B - 一种基于MapReduce的大型数据集聚类方法

Info

Publication number: CN109858518B
Application number: CN201811602303.5A
Authority: CN
Inventors: 程国艮; 李欣杰
Original assignee: Global Tone Communication Technology Co ltd
Current assignee: Global Tone Communication Technology Co ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2021-07-06
Anticipated expiration: 2038-12-26
Also published as: CN109858518A

Abstract

本发明属于计算机应用技术领域，尤其涉及一种基于MapReduce的大型数据集聚类方法，从HDFS中读取原始样本；行随机子空间分类器对原始样本进行训练，得到多个具有不同特征的训练子集的分类器；从设计出的分类器中的各训练子集关系中获得内联相似度矩阵，并通过并行Lanczos‑QR算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入。本发明行随机子空间分类器对数据进行预处理，大大减少计算量和复杂度，同时避免了聚类结果陷入局部最优效果的问题，有效提升了算法的整体聚类精度；解决了结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集的问题。

Description

一种基于MapReduce的大型数据集聚类方法

技术领域

本发明属于计算机应用技术领域，尤其涉及一种基于MapReduce的大型数据集聚类方法。

背景技术

大数据聚类分析是目前大数据挖掘的一项重要研究课题，对大型数据集的聚类集成更以其结构复杂、数据量大、数据分布不均匀且噪声多而成为一个难点。针对大型数据集的聚类集成遇到的这些问题，提出了一种基于MapReduce的大型数据集聚类方法。

MapReduce编程模型可以批量处理大数据集，提供了一种新的对海量数据的处理方式，通过抽象出分层次的编程模型，从而大大简化将大数据分片成子任务，并同时在集群计算机上运行的过程。MapReduce框架一般将大数据并行计算划分为Map、Combine、Reduce三个步骤，通过利用MapReduce框架和接口，能够简化并行化开发过程，便于有效地组织和应用分布式资源，高效便捷地进行大数据分析和计算。

集成学习作为机器学习的研究方向之一，已经在模式识别中得到广泛应用，如：字符识别、目标识别和文本分类等。集成学习中的随机子空间法可增强集成分类器之间的独立性，在大型数据集分类中有很广的应用场景。

当前技术存在的问题是，机器学习的相关算法应用到大型数据集聚类的算法较少，主要是系统聚类算法和K-means聚类算法，这种单一的聚类算法难以完成大数量和高维度样本的聚类分析任务，但是通过设计和应用聚类组合算法，可以发挥不同聚类算法的优势，同时解决初始聚类中心设置问题，从而得到更加可靠的聚类分析结果。此外，由于数据样本的复杂性,经过特征项的提取后,特征维数仍然可以达到上千维,直接在原始空间上进行降维,会丢失某些重要信息。

综上所述，现有技术存在的问题是：

(1)对于结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集，现有技术聚类结果准确性差。

(2)现有技术难以完成大数量和高维度样本的聚类分析任务，直接在原始空间上进行降维，会丢失某些重要信息。

(3)现有技术中，大数据集将数据传递到HDFS中读取原始样本过程中，没有设置数据预测模块，降低了后续的数据分类效率。

(4)基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点，其聚类算法采用传统的算法，不能简化聚类结构的复杂度，降低了数据集的聚类效果和聚类的速度。

(5)行随机子空间分类器对原始样本进行训练，得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类中，大多数传统分类算法假定数据集类分布是平衡的，分类结果偏向多数类，效果不理想的问题。

发明内容

本发明的目的在于提供一种基于MapReduce的大型数据集聚类方法，旨在解决现有技术聚类结果准确性差、难以完成大数量和高纬度的聚类分析任务。

本发明是这样实现的，一种基于MapReduce的大型数据集聚类方法，其特征在于，所述基于MapReduce的大型数据集聚类方法包括：

步骤一，从HDFS中读取原始样本；

步骤二，行随机子空间分类器对原始样本进行训练，得到多个具有不同特征的训练子集的分类器；

步骤三，从设计出的分类器中的各训练子集关系中获得内联相似度矩阵，并通过并行Lanczos-QR算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入；

步骤四，采用并行Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心，在相似度矩阵的基础上通过消息传递进行聚类，确定聚类中心；

步骤五，计算外围数据点与聚类中心距离；

步骤六，基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点。

步骤七，输出聚类结果，建立数据模版。

步骤八，与前次数据模版建立反馈，数据模板自修正，利用规则模板解析信息模块，根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。

进一步，所述步骤二中，子空间的选择是根据均匀分布U随机抽取m个不同的子集A＝{d1,d2,…,dm},每个子集的大小(即子空间的维数)为r,每个子空间都定义一个映射PA:Fn※Fm,在此基础上得到每个训练子集Di＝{(PA(xj),yj)1≤j≤N}.再由分类算法L得到待检样本的决策hi,重复m次,最后利用择多投票法得到最终决策.其中,子空间维数r和基分类器的个数m可自动确定。

进一步，所述步骤三中，所述内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系来构建。

进一步，所述步骤五和步骤六中，所述迭代跳出循环的条件是：外围数据点与聚类中心距离收敛条件满足或达到最大迭代次数；

其中，收敛条件为

趋向稳定。

进一步，所述步骤七中，所述数据模版内容有：聚类时长、内联相似度矩阵大小、最终维度、聚类中心数量。

进一步，大数据集采用基于云模型的数据预测算法对分类器预测结果进行分析，具体包括：

步骤一，从Q种历史条件数据中，依据人工经验及简单数据分析，选取前后因果特征明显的典型的P组条件数据分布与结论数据分布，依次将第p个(p1～P)条件规则中的Q种条件数据分布及1种结论数据分布转化为第p个条件规则的Q个条件云Ca_pq(Ex_pq，En_pq，He_pq)及1个结论云Cb_p(Ex_p，En_p，He_p)形成P个条件规则；

步骤二，对于步骤一中的P个条件规则(每条Q个条件云)，依次取第p条规则的第q个条件云的熵En_pq和超熵He_pq，产生一个符合正态分布NORM(En_pq，He_pq ²)的随机值，共产生P组(每组Q个)；

步骤三，设待预测的Q种(每种1个)新条件数据为x_q(q1～Q)，依次将Q种x_q与第P个条件规则的Q种Ex_pq及Q种代入公式可得x_q对第P个条件规则中Q种条件云的Q个隶属度μ_pq，共得到P组(每组Q种)μ_pq；

步骤四，依次求出P组μ_pq的样本均值，返回步骤二，重复M次，得P组每组M个的；

步骤五，分别求出上述P组中每组M个的样本均值，找出最大的一个值记为，并记该对应的条件规则的结论云为Cb_max(Ex_max，En_max，He_max)；

步骤六，将Cb_max(Ex_max，En_max，He_max)输入正向云发生器生成1个结论云滴drop(μ_i，x_i)，当μ_i＞时选取该x_i，重复本步骤至选取N个x_i；

步骤七，使用逆向云发生器将上述N个x_i转化为最终需要的结论云Cb_final(Ex_final，En_final，He_final)，其中Ex_final为预期结论的期望，En_final为预期结论的量化范围，He_final为预期结论的聚散程度。

进一步，具体包括：

给定样本集合D＝{x₁，y₁)，(x₂，_y2)，…，(x_n，y_n)}，其中n为训练集样本总数；x_i是输入空间X的实例，y_i∈{-1 +1}是输出分类Y对应的分类标签，迭代次数为T；

步骤1，重复使用K均值算法产生h个聚类结果，共识函数使用Fred提出的Co-association矩阵方法，最终将训练样本聚成c个簇，分别记为C₁，C₂，…，C_c；

步骤2，按照式

i＝1，2，…，N初始化样本权重，其中w′(i))表示第t轮迭代中样本x_i的权值；

步骤3，For t＝1，2，3，…，T；

根据各个簇中负类数

与正类

的比率，从每个簇中抽取部分负类

与所有正类合并成1∶1平衡数据集用于下面的分类器训练，每个簇中负类样本被抽中的概率与样本权重相关，MajSize为负类样本总数，则每个簇中抽取的负类样本数：

使用弱学习算法训练得到分类器h_t，根据式

其中ε_t为加权错误率；

计算h_t在当前样本分布上的训练误差；

样本被正确分类：

负类样本被错误分类：

正类样本被错误分类：

步骤4，通过遗传算法选择出差异度比较大的分类器，选择性集成得到最后的强分类器：

其中NUM为最后集成的分类器数目。

进一步，所基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点，具体包括：

步骤A，初始数据处理：对初始数据集进行处理，当数据集为大样本时，用CVM算法对其进行压缩，得到新的数据集；

步骤B，数据聚类：对第一步得到的数据集利用AP算法进行聚类，得到m类数据；

步骤C，合并聚类：对聚类好的数据，调用基于距离的merge过程进行处理，得出分类结果。

本发明另一目的在于提供一种实施所述基于MapReduce的大型数据集聚类方法的大数据聚类分析平台。

本发明的优点及积极效果为：

本发明行随机子空间分类器对数据进行预处理，大大减少计算量和复杂度，同时避免了聚类结果陷入局部最优效果的问题，有效提升了算法的整体聚类精度；从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后，采用精化双对角化策略把矩阵投影于低维空间，并通过并行AP算法来避免因数据规模大，数据的计算量成倍增加而增加算法的时间复杂度。解决了结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集，现有技术聚类结果准确性差、难以完成大数量和高维度样本的聚类分析任务、直接在原始空间上进行降维，会丢失某些重要信息的问题。

本发明中大数据集将数据传递到HDFS中读取原始样本过程中，为了提高步骤二的分类效率，大数据集采用基于云模型的数据预测算法，构造条件云、结论云、条件规则，然后据此对待预测的新条件数据进行条件规则匹配和结果数据分析，最终输出该条件型数据的预测结果。

本发明中基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点，其聚类算法为了简化聚类结构的复杂度，提高数据集的聚类效果，同时提高聚类的速度，采用一种改进的M-AP算法。

本发明中行随机子空间分类器对原始样本进行训练，得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类，为了解决大多数传统分类算法假定数据集类分布是平衡的，分类结果偏向多数类，效果不理想的问题，采用基于聚类融合欠抽样改进AdaBoost算法。

附图说明

图1是本发明实施例提供的基于MapReduce的大型数据集聚类方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术中，对于结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集，现有技术聚类结果准确性差。

现有技术难以完成大数量和高维度样本的聚类分析任务，直接在原始空间上进行降维，会丢失某些重要信息。

现有技术中，大数据集将数据传递到HDFS中读取原始样本过程中，没有设置数据预测模块，降低了后续的数据分类效率。

基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点，其聚类算法采用传统的算法，不能简化聚类结构的复杂度，降低了数据集的聚类效果和聚类的速度。

行随机子空间分类器对原始样本进行训练，得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类中，大多数传统分类算法假定数据集类分布是平衡的，分类结果偏向多数类，效果不理想的问题。

为解决上述技术问题，下面结合附图及具体方案对本发明的应用原理作详细步描述。

本发明实施例的基于MapReduce的大型数据集聚类方法包括以下步骤：

S101，从HDFS中读取原始样本；

S102，行随机子空间分类器对原始样本进行训练，得到多个具有不同特征的训练子集的分类器；

S103，从设计出的分类器中的各训练子集关系中获得内联相似度矩阵，并通过并行算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入。

S104，采用并行AP聚类算法将所有数据点作为潜在的聚类中心，在相似度矩阵的基础上通过消息传递进行聚类，确定聚类中心。

S105，计算外围数据点与聚类中心距离；

S106，基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点；

S107，输出聚类结果，建立数据模版。

S108，与前次数据模版建立反馈，数据模板自修正，利用规则模板解析信息模块，根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。

在本发明实施例中，步骤S103中，内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系来构建；

在本发明实施例中，步骤S105与S106中，迭代跳出循环的条件是：外围数据点与聚类中心距离收敛条件满足或达到最大迭代次数；

其中，收敛条件为

趋向稳定。

所述步骤S101中，大数据集将数据传递到HDFS中读取原始样本过程中，为了提高步骤S102的分类效率，大数据集采用基于云模型的数据预测算法，构造条件云、结论云、条件规则，然后据此对待预测的新条件数据进行条件规则匹配和结果数据分析，最终输出该条件型数据的预测结果，具体包括以下操作步骤：

步骤四，依次求出P组μ_pq的样本均值，返回步骤二，重复M次，可得P组每组M个的；

所述步骤S102中行随机子空间分类器对原始样本进行训练，得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类，为了解决大多数传统分类算法假定数据集类分布是平衡的，分类结果偏向多数类，效果不理想的问题，采用基于聚类融合欠抽样改进AdaBoost算法，具体过程如下；

给定样本集合D＝{x₁，y₁)，(x₂，y₂)，…，(x_n，y_n)}，其中n为训练集样本总数；x_i是输入空间X的实例，y_i∈{-1 +1}是输出分类Y对应的分类标签，迭代次数为T；

步骤2，按照式

步骤3，For t＝1，2，3，…，T；

根据各个簇中负类数

与正类

的比率，从每个簇中抽取部分负类

使用弱学习算法训练得到分类器h_t，根据式

其中ε_t为加权错误率；

计算h_t在当前样本分布上的训练误差；

样本被正确分类：

负类样本被错误分类：

正类样本被错误分类：

其中NUM为最后集成的分类器数目。

所述步骤S106中基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点，其聚类算法为了简化聚类结构的复杂度，提高数据集的聚类效果，同时提高聚类的速度，采用一种改进的M-AP算法，包括以下步骤：

步骤C，合并聚类：对聚类好的数据，调用基于距离的merge过程对其进行处理，得出分类结果。

步骤S105中，首先，按逆时针方向分别建立源数据P和目标数据Q的特征矩阵P_E和Q_E：

P_E＝[P₁ ^T P₂ ^T ... P_2N-1 ^T P_2N ^T]；

Q_E＝[Q₁ ^T Q₂ ^T ... Q_2N-1 ^T Q_2N ^T]；

欧式距离公式d(x,y)和夹角余弦公式sim(x,y)如下：

以d(x,y)和为sim(x,y)基础，重新定义两个矩阵D和S,使:

求出D和S中的最小值；

分别令Eu_e＝min{D_ij},1≤i≤j＝2N；Sim_e＝max{S_ij},1≤i≤j＝2N；

然后再按顺序针方向构造数据P和Q的特征矩阵，重复上述计算方法，求出两特征矩阵中最完备向量间的最小值Eu_c和Sim_c；

最后令Eu＝min{Eu_e，Eu_c}；

Sim＝min{Sim_e，Sim_c}；

Eu和Sim即为P、Q两数据对应最相似向量的欧式距离和最大相和系数。

最终获得计算外围数据点与聚类中心的准确距离。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于MapReduce的大型数据集聚类方法，其特征在于，所述基于MapReduce的大型数据集聚类方法包括：

从分类器中的各训练子集关系中获得内联相似度矩阵，并通过并行Lanczos-QR算法求解矩阵特征值所对应的特征向量实现数据的高维约简和低维嵌入；

采用并行 AP聚类算法将所有数据点作为潜在的聚类中心，在相似度矩阵的基础上通过消息传递进行聚类，确定聚类中心；

计算外围数据点与聚类中心距离；首先，按逆时针方向分别建立源数据P和目标数据Q的特征矩阵P_E和Q_E：

P _E＝[P ₁ ^T P ₂ ^T _… P _2N－1 ^T P _2N ^T];

Q _E＝[Q ₁ ^T Q ₂ ^T _… Q _2N－1 ^T Q _2N ^T];

欧式距离公式d(x,y)和夹角余弦公式sim(x,y)如下：

以d(x,y)和为sim(x,y)基础，重新定义两个矩阵D和S,使:

；

求出D和S中的最小值；

分别令Eu_e=min{D_ij}, 1≤i≤j=2N;Sim_e=max{S_ij}, 1≤i≤j=2N;

最后令Eu=min{Eu_e，Eu_c};

Sim=min{ Sim_e，Sim_c };

Eu和Sim即为P、Q两数据对应最相似向量的欧式距离和最大相和系数；最终获得计算外围数据点与聚类中心的准确距离；

基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点;具体包括：

步骤A，初始数据处理：对初始数据集进行处理，当数据集为大样本时，用

算法对其进行压缩，得到新的数据集；

步骤B，数据聚类：对第一步得到的数据集利用

算法进行聚类，得到

类数据；

步骤C，合并聚类：对聚类好的数据，调用基于距离的

过程进行处理，得出分类结果；

输出聚类结果，建立数据模版；

从分类器中的各训练子集关系中获得内联相似度矩阵前需进行：

从HDFS中读取原始样本；

随机子空间分类器对原始样本进行训练，得到多个具有不同特征的训练子集的分类器；

子空间的选择是根据均匀分布U随机抽取m个不同的子集 A={d1 , d2 , …, dm },每个子集的大小为 r, 每个子空间都定义一个映射 P A :Fn ※ F m ,在此基础上得到每个训练子集 Di ={(P A (x j ), y j )1 ≤j≤N}；再由分类算法得到待检样本的决策 hi ,重复 w次,最后利用择多投票法得到最终决策.其中 ,子空间维数 r和基分类器的个数 k自动确定；

建立数据模版后，还需进行：

与前次数据模版建立反馈，数据模板自修正，利用规则模板解析信息模块，根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。

2.如权利要求1所述的基于MapReduce的大型数据集聚类方法，其特征在于，所述内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系构建。

3.如权利要求1所述的基于MapReduce的大型数据集聚类方法，其特征在于，所述数据模版包括：聚类时长、内联相似度矩阵大小、最终维度、聚类中心数量。

4.如权利要求1所述的基于MapReduce的大型数据集聚类方法，其特征在于，大数据集采用基于云模型的数据预测算法对分类器预测结果进行分析，具体包括：

步骤一，从