CN109858518A - 一种基于MapReduce的大型数据集聚类方法 - Google Patents

一种基于MapReduce的大型数据集聚类方法 Download PDF

Info

Publication number
CN109858518A
CN109858518A CN201811602303.5A CN201811602303A CN109858518A CN 109858518 A CN109858518 A CN 109858518A CN 201811602303 A CN201811602303 A CN 201811602303A CN 109858518 A CN109858518 A CN 109858518A
Authority
CN
China
Prior art keywords
data
sample
cluster
mapreduce
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811602303.5A
Other languages
English (en)
Other versions
CN109858518B (zh
Inventor
程国艮
李欣然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201811602303.5A priority Critical patent/CN109858518B/zh
Publication of CN109858518A publication Critical patent/CN109858518A/zh
Application granted granted Critical
Publication of CN109858518B publication Critical patent/CN109858518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机应用技术领域,尤其涉及一种基于MapReduce的大型数据集聚类方法,从HDFS中读取原始样本;行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;从设计出的分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行Lanczos‑QR算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入。本发明行随机子空间分类器对数据进行预处理,大大减少计算量和复杂度,同时避免了聚类结果陷入局部最优效果的问题,有效提升了算法的整体聚类精度;解决了结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集的问题。

Description

一种基于MapReduce的大型数据集聚类方法
技术领域
本发明属于计算机应用技术领域,尤其涉及一种基于MapReduce的大型数 据集聚类方法。
背景技术
大数据聚类分析是目前大数据挖掘的一项重要研究课题,对大型数据集的 聚类集成更以其结构复杂、数据量大、数据分布不均匀且噪声多而成为一个难 点。针对大型数据集的聚类集成遇到的这些问题,提出了一种基于MapReduce 的大型数据集聚类方法。
MapReduce编程模型可以批量处理大数据集,提供了一种新的对海量数据 的处理方式,通过抽象出分层次的编程模型,从而大大简化将大数据分片成子 任务,并同时在集群计算机上运行的过程。MapReduce框架一般将大数据并行 计算划分为Map、Combine、Reduce三个步骤,通过利用MapReduce框架和接 口,能够简化并行化开发过程,便于有效地组织和应用分布式资源,高效便捷 地进行大数据分析和计算。
集成学习作为机器学习的研究方向之一,已经在模式识别中得到广泛应用, 如:字符识别、目标识别和文本分类等。集成学习中的随机子空间法可增强集 成分类器之间的独立性,在大型数据集分类中有很广的应用场景。
当前技术存在的问题是,机器学习的相关算法应用到大型数据集聚类的算 法较少,主要是系统聚类算法和K-means聚类算法,这种单一的聚类算法难以 完成大数量和高维度样本的聚类分析任务,但是通过设计和应用聚类组合算法, 可以发挥不同聚类算法的优势,同时解决初始聚类中心设置问题,从而得到更 加可靠的聚类分析结果。此外,由于数据样本的复杂性,经过特征项的提取后, 特征维数仍然可以达到上千维,直接在原始空间上进行降维,会丢失某些重要 信息。
综上所述,现有技术存在的问题是:
(1)对于结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集, 现有技术聚类结果准确性差。
(2)现有技术难以完成大数量和高维度样本的聚类分析任务,直接在原始 空间上进行降维,会丢失某些重要信息。
(3)现有技术中,大数据集将数据传递到HDFS中读取原始样本过程中, 没有设置数据预测模块,降低了后续的数据分类效率。
(4)基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其 聚类算法采用传统的算法,不能简化聚类结构的复杂度,降低了数据集的聚类 效果和聚类的速度。
(5)行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的 训练子集的分类器中需要对大数据进行分类中,大多数传统分类算法假定数据 集类分布是平衡的,分类结果偏向多数类,效果不理想的问题。
发明内容
本发明的目的在于提供一种基于MapReduce的大型数据集聚类方法,旨在 解决现有技术聚类结果准确性差、难以完成大数量和高纬度的聚类分析任务。
本发明是这样实现的,一种基于MapReduce的大型数据集聚类方法,其特 征在于,所述基于MapReduce的大型数据集聚类方法包括:
步骤一,从HDFS中读取原始样本;
步骤二,行随机子空间分类器对原始样本进行训练,得到多个具有不同特 征的训练子集的分类器;
步骤三,从设计出的分类器中的各训练子集关系中获得内联相似度矩阵, 并通过并行Lanczos-QR算法求解其矩阵特征值所对应的特征向量来实现数据的 高维约简和低维嵌入;
步骤四,采用并行Affinity Propagation(AP)聚类算法将所有数据点作为 潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类,确定聚类中 心;
步骤五,计算外围数据点与聚类中心距离;
步骤六,基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点。
步骤七,输出聚类结果,建立数据模版。
步骤八,与前次数据模版建立反馈,数据模板自修正,利用规则模板解析 信息模块,根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。
进一步,所述步骤二中,子空间的选择是根据均匀分布U随机抽取m个不 同的子集A={d1,d2,…,dm},每个子集的大小(即子空间的维数)为r,每 个子空间都定义一个映射PA:Fn※Fm,在此基础上得到每个训练子集Di ={(PA(xj),yj)1≤j≤N}.再由分类算法L得到待检样本的决策hi,重 复m次,最后利用择多投票法得到最终决策.其中,子空间维数r和基分类器的 个数m可自动确定。
进一步,所述步骤三中,所述内联相似度矩阵由各训练子集中簇集、簇和 数据点三者之间的相互关系来构建。
进一步,所述步骤五和步骤六中,所述迭代跳出循环的条件是:外围数据 点与聚类中心距离收敛条件满足或达到最大迭代次数;
其中,收敛条件为趋向稳定。
进一步,所述步骤七中,所述数据模版内容有:聚类时长、内联相似度矩 阵大小、最终维度、聚类中心数量。
进一步,大数据集采用基于云模型的数据预测算法对分类器预测结果进行 分析,具体包括:
步骤一,从Q种历史条件数据中,依据人工经验及简单数据分析,选取前 后因果特征明显的典型的P组条件数据分布与结论数据分布,依次将第p个 (p1~P)条件规则中的Q种条件数据分布及1种结论数据分布转化为第p个 条件规则的Q个条件云Capq(Expq,Enpq,Hepq)及1个结论云 Cbp(Exp,Enp,Hep)形成P个条件规则;
步骤二,对于步骤一中的P个条件规则(每条Q个条件云),依次取第p条 规则的第q个条件云的熵Enpq和超熵Hepq,产生一个符合正态分布 NORM(Enpq,Hepq 2)的随机值,共产生P组(每组Q个);
步骤三,设待预测的Q种(每种1个)新条件数据为xq(q1~Q),依次 将Q种xq与第P个条件规则的Q种Expq及Q种代入公式可得xq对第P个 条件规则中Q种条件云的Q个隶属度μpq,共得到P组(每组Q种)μpq
步骤四,依次求出P组μpq的样本均值,返回步骤二,重复M次,得P组 每组M个的;
步骤五,分别求出上述P组中每组M个的样本均值,找出最大的一个值记 为,并记该对应的条件规则的结论云为Cbmax(Exmax,Enmax,Hemax);
步骤六,将Cbmax(Exmax,Enmax,Hemax)输入正向云发生器生成1个 结论云滴drop(μi,xi),当μi>时选取该xi,重复本步骤至选取N个xi
步骤七,使用逆向云发生器将上述N个xi转化为最终需要的结论云 Cbfinal(Exfinal,Enfinal,Hefinal),其中Exfinal为预期结论的期望,Enfinal为预 期结论的量化范围,Hefinal为预期结论的聚散程度。
进一步,具体包括:
给定样本集合D={(x1,y1),(x2,y2),…,(xn,yn)},其中n为训练集样 本总数;xi是输入空间X的实例,yi∈{-1 +1}是输出分类Y对应的分类 标签,迭代次数为T;
步骤1,重复使用K均值算法产生h个聚类结果,共识函数使用Fred提出的 Co-association矩阵方法,最终将训练样本聚成c个簇,分别记为C1,C2,…,Cc
步骤2,按照式初始化样本权重,其中ωt(i)) 表示第t轮迭代中样本xi的权值;
步骤3,For t=1,2,3,…,T;
根据各个簇中负类数与正类的比率,从每个簇中抽 取部分负类与所有正类合并成1∶1平衡数据集用于下面的分 类器训练,每个簇中负类样本被抽中的概率与样本权重相关,MajSize为负类 样本总数,则每个簇中抽取的负类样本数:
使用弱学习算法训练得到分类器ht,根据式其中εt为加 权错误率;计算ht在当前样本分布上的训练误差;
样本被正确分类:
负类样本被错误分类:
正类样本被错误分类:
步骤4,通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后 的强分类器:
其中NUM为最后集成的分类器数目。
进一步,所基于MapReduce并行计算的聚类算法重新划分聚类中心和中心 点,具体包括:
步骤A,初始数据处理:对初始数据集进行处理,当数据集为大样本时,用 CVM算法对其进行压缩,得到新的数据集;
步骤B,数据聚类:对第一步得到的数据集利用AP算法进行聚类,得到m 类数据;
步骤C,合并聚类:对聚类好的数据,调用基于距离的merge过程进行处 理,得出分类结果。
本发明另一目的在于提供一种实施所述基于MapReduce的大型数据集聚类 方法的大数据聚类分析平台。
本发明的优点及积极效果为:
本发明行随机子空间分类器对数据进行预处理,大大减少计算量和复杂度, 同时避免了聚类结果陷入局部最优效果的问题,有效提升了算法的整体聚类精 度;从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内 联相似度矩阵后,采用精化双对角化策略把矩阵投影于低维空间,并通过并行 AP算法来避免因数据规模大,数据的计算量成倍增加而增加算法的时间复杂度。 解决了结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集,现有技 术聚类结果准确性差、难以完成大数量和高维度样本的聚类分析任务、直接在 原始空间上进行降维,会丢失某些重要信息的问题。
本发明中大数据集将数据传递到HDFS中读取原始样本过程中,为了提高步 骤二的分类效率,大数据集采用基于云模型的数据预测算法,构造条件云、结 论云、条件规则,然后据此对待预测的新条件数据进行条件规则匹配和结果数 据分析,最终输出该条件型数据的预测结果。
本发明中基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点, 其聚类算法为了简化聚类结构的复杂度,提高数据集的聚类效果,同时提高聚 类的速度,采用一种改进的M-AP算法。
本发明中行随机子空间分类器对原始样本进行训练,得到多个具有不同特 征的训练子集的分类器中需要对大数据进行分类,为了解决大多数传统分类算 法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问题,采 用基于聚类融合欠抽样改进AdaBoost算法。
附图说明
图1是本发明实施例提供的基于MapReduce的大型数据集聚类方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例, 对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以 解释本发明,并不用于限定本发明。
现有技术中,对于结构复杂、数据量大、数据分布不均匀且噪声多的大型 数据集,现有技术聚类结果准确性差。
现有技术难以完成大数量和高维度样本的聚类分析任务,直接在原始空间 上进行降维,会丢失某些重要信息。
现有技术中,大数据集将数据传递到HDFS中读取原始样本过程中,没有设 置数据预测模块,降低了后续的数据分类效率。
基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其聚类 算法采用传统的算法,不能简化聚类结构的复杂度,降低了数据集的聚类效果 和聚类的速度。
行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练 子集的分类器中需要对大数据进行分类中,大多数传统分类算法假定数据集类 分布是平衡的,分类结果偏向多数类,效果不理想的问题。
为解决上述技术问题,下面结合附图及具体方案对本发明的应用原理作详 细步描述。
本发明实施例的基于MapReduce的大型数据集聚类方法包括以下步骤:
S101,从HDFS中读取原始样本;
S102,行随机子空间分类器对原始样本进行训练,得到多个具有不同特征 的训练子集的分类器;
S103,从设计出的分类器中的各训练子集关系中获得内联相似度矩阵,并 通过并行算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低 维嵌入。
S104,采用并行AP聚类算法将所有数据点作为潜在的聚类中心,在相似度 矩阵的基础上通过消息传递进行聚类,确定聚类中心。
S105,计算外围数据点与聚类中心距离;
S106,基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点;
S107,输出聚类结果,建立数据模版。
S108,与前次数据模版建立反馈,数据模板自修正,利用规则模板解析信 息模块,根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。
在本发明实施例中,步骤S103中,内联相似度矩阵由各训练子集中簇集、 簇和数据点三者之间的相互关系来构建;
在本发明实施例中,步骤S105与S106中,迭代跳出循环的条件是:外围 数据点与聚类中心距离收敛条件满足或达到最大迭代次数;
其中,收敛条件为趋向稳定。
所述步骤S101中,大数据集将数据传递到HDFS中读取原始样本过程中, 为了提高步骤S102的分类效率,大数据集采用基于云模型的数据预测算法,构 造条件云、结论云、条件规则,然后据此对待预测的新条件数据进行条件规则 匹配和结果数据分析,最终输出该条件型数据的预测结果,具体包括以下操作 步骤:
步骤一,从Q种历史条件数据中,依据人工经验及简单数据分析,选取前 后因果特征明显的典型的P组条件数据分布与结论数据分布,依次将第p个 (p1~P)条件规则中的Q种条件数据分布及1种结论数据分布转化为第p个 条件规则的Q个条件云Capq(Expq,Enpq,Hepq)及1个结论云 Cbp(Exp,Enp,Hep)形成P个条件规则;
步骤二,对于步骤一中的P个条件规则(每条Q个条件云),依次取第p条 规则的第q个条件云的熵Enpq和超熵Hepq,产生一个符合正态分布 NORM(Enpq,Hepq 2)的随机值,共产生P组(每组Q个);
步骤三,设待预测的Q种(每种1个)新条件数据为xq(q1~Q),依次 将Q种xq与第P个条件规则的Q种Expq及Q种代入公式可得xq对第P个 条件规则中Q种条件云的Q个隶属度μpq,共得到P组(每组Q种)μpq
步骤四,依次求出P组μpq的样本均值,返回步骤二,重复M次,可得P 组每组M个的;
步骤五,分别求出上述P组中每组M个的样本均值,找出最大的一个值记 为,并记该对应的条件规则的结论云为Cbmax(Exmax,Enmax,Hemax);
步骤六,将Cbmax(Exmax,Enmax,Hemax)输入正向云发生器生成1个 结论云滴drop(μi,xi),当μi>时选取该xi,重复本步骤至选取N个xi
步骤七,使用逆向云发生器将上述N个xi转化为最终需要的结论云 Cbfinal(Exfinal,Enfinal,Hefinal),其中Exfinal为预期结论的期望,Enfinal为预 期结论的量化范围,Hefinal为预期结论的聚散程度。
所述步骤S102中行随机子空间分类器对原始样本进行训练,得到多个具有 不同特征的训练子集的分类器中需要对大数据进行分类,为了解决大多数传统 分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问 题,采用基于聚类融合欠抽样改进AdaBoost算法,具体过程如下;
给定样本集合D={(x1,y1),(x2,y2),…,(xn,yn)},其中n为训练集样 本总数;xi是输入空间X的实例,yi∈{-1 +1}是输出分类Y对应的分类 标签,迭代次数为T;
步骤1,重复使用K均值算法产生h个聚类结果,共识函数使用Fred提出的 Co-association矩阵方法,最终将训练样本聚成c个簇,分别记为C1,C2,…,Cc
步骤2,按照式初始化样本权重,其中ωt(i)) 表示第t轮迭代中样本xi的权值;
步骤3,For t=1,2,3,…,T;
根据各个簇中负类数与正类的比率,从每个簇中抽 取部分负类与所有正类合并成1∶1平衡数据集用于下面的分 类器训练,每个簇中负类样本被抽中的概率与样本权重相关,MajSize为负类 样本总数,则每个簇中抽取的负类样本数:
使用弱学习算法训练得到分类器ht,根据式其中εt为加 权错误率;计算ht在当前样本分布上的训练误差;
样本被正确分类:
负类样本被错误分类:
正类样本被错误分类:
步骤4,通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后 的强分类器:
其中NUM为最后集成的分类器数目。
所述步骤S106中基于MapReduce并行计算的聚类算法重新划分聚类中心和 中心点,其聚类算法为了简化聚类结构的复杂度,提高数据集的聚类效果,同 时提高聚类的速度,采用一种改进的M-AP算法,包括以下步骤:
步骤A,初始数据处理:对初始数据集进行处理,当数据集为大样本时,用 CVM算法对其进行压缩,得到新的数据集;
步骤B,数据聚类:对第一步得到的数据集利用AP算法进行聚类,得到m 类数据;
步骤C,合并聚类:对聚类好的数据,调用基于距离的merge过程对其进 行处理,得出分类结果。
步骤S105中,首先,按逆时针方向分别建立源数据P和目标数据Q的特征 矩阵PE和QE
PE=[P1 T P2 T…P2N-1 T P2N T];
QE=[Q1 T Q2 T…Q2N-1 T Q2N T];
欧式距离公式d(x,y)和夹角余弦公式sim(x,y)如下:
以d(x,y)和为sim(x,y)基础,重新定义两个矩阵D和S,使:
求出D和S中的最小值;
分别令Eue=min{Dij},1≤i≤j=2N;Sime=max{Sij},1≤i≤j=2N;
然后再按顺序针方向构造数据P和Q的特征矩阵,重复上述计算方法,求 出两特征矩阵中最完备向量间的最小值Euc和Simc
最后令Eu=min{Eue,Euc};
Sim=min{Sime,Simc};
Eu和Sim即为P、Q两数据对应最相似向量的欧式距离和最大相和系数。
最终获得计算外围数据点与聚类中心的准确距离。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

Claims (10)

1.一种基于MapReduce的大型数据集聚类方法,其特征在于,所述基于MapReduce的大型数据集聚类方法包括:
从分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行Lanczos-QR算法求解矩阵特征值所对应的特征向量实现数据的高维约简和低维嵌入;
采用并行AP聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类,确定聚类中心;
计算外围数据点与聚类中心距离;
基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点;
输出聚类结果,建立数据模版。
2.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,从分类器中的各训练子集关系中获得内联相似度矩阵前需进行:
从HDFS中读取原始样本;
随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;
子空间的选择是根据均匀分布U随机抽取m个不同的子集A={d1,d2,…,dm},每个子集的大小为r,每个子空间都定义一个映射P A:Fn※F m,在此基础上得到每个训练子集Di={(P A(x j),y j)1≤j≤N};再由分类算法L得到待检样本的决策hi,重复m次,最后利用择多投票法得到最终决策.其中,子空间维数r和基分类器的个数m自动确定。
3.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,建立数据模版后,还需进行:
与前次数据模版建立反馈,数据模板自修正,利用规则模板解析信息模块,根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。
4.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,所述内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系构建。
5.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,所述迭代跳出循环的条件包括:外围数据点与聚类中心距离收敛条件满足或达到最大迭代次数;
其中,收敛条件为趋向稳定。
6.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,所述数据模版包括:聚类时长、内联相似度矩阵大小、最终维度、聚类中心数量。
7.如权利要求2所述的基于MapReduce的大型数据集聚类方法,其特征在于,大数据集采用基于云模型的数据预测算法对分类器预测结果进行分析,具体包括:
步骤一,从Q种历史条件数据中,依据人工经验及简单数据分析,选取前后因果特征明显的典型的P组条件数据分布与结论数据分布,依次将第p个(p1~P)条件规则中的Q种条件数据分布及1种结论数据分布转化为第p个条件规则的Q个条件云Capq(Expq,Enpq,Hepq)及1个结论云Cbp(Exp,Enp,Hep)形成P个条件规则;
步骤二,对于步骤一中的P个条件规则(每条Q个条件云),依次取第p条规则的第q个条件云的熵Enpq和超熵Hepq,产生一个符合正态分布NORM(Enpq,Hepq 2)的随机值,共产生P组(每组Q个);
步骤三,设待预测的Q种(每种1个)新条件数据为xq(q1~Q),依次将Q种xq与第P个条件规则的Q种Expq及Q种代入公式可得xq对第P个条件规则中Q种条件云的Q个隶属度μpq,共得到P组(每组Q种)μpq
步骤四,依次求出P组μpq的样本均值,返回步骤二,重复M次,得P组每组M个的;
步骤五,分别求出上述P组中每组M个的样本均值,找出最大的一个值记为,并记该对应的条件规则的结论云为Cbmax(Exmax,Enmax,Hemax);
步骤六,将Cbmax(Exmax,Enmax,Hemax)输入正向云发生器生成1个结论云滴drop(μi,xi),当μi>时选取该xi,重复本步骤至选取N个xi
步骤七,使用逆向云发生器将上述N个xi转化为最终需要的结论云Cbfinal(Exfinal,Enfinal,Hefinal),其中Exfinal为预期结论的期望,Enfinal为预期结论的量化范围,Hefinal为预期结论的聚散程度。
8.如权利要求2所述的基于MapReduce的大型数据集聚类方法,其特征在于,具体包括:
给定样本集合D={(x1,y1),(x2,y2),…,(xn,yn)},其中n为训练集样本总数;xi是输入空间X的实例,yi∈{-1+1}是输出分类Y对应的分类标签,迭代次数为T;
步骤1,重复使用K均值算法产生h个聚类结果,共识函数使用Fred提出的Co-association矩阵方法,最终将训练样本聚成c个簇,分别记为C1,C2,…,C3
步骤2,按照式初始化样本权重,其中w1(i))表示第t轮迭代中样本xi的权值;
步骤3,For t=1,2,3,…,T;
根据各个簇中负类数与正类的比率,从每个簇中抽取部分负类与所有正类合并成1∶1平衡数据集用于下面的分类器训练,每个簇中负类样本被抽中的概率与样本权重相关,MajSize为负类样本总数,则每个簇中抽取的负类样本数:
使用弱学习算法训练得到分类器ht,根据式其中εt为加权错误率;计算ht在当前样本分布上的训练误差;
样本被正确分类:
负类样本被错误分类:
正类样本被错误分类:
步骤4,通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后的强分类器:
其中NUM为最后集成的分类器数目。
9.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,所基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,具体包括:
步骤A,初始数据处理:对初始数据集进行处理,当数据集为大样本时,用CVM算法对其进行压缩,得到新的数据集;
步骤B,数据聚类:对第一步得到的数据集利用AP算法进行聚类,得到m类数据;
步骤C,合并聚类:对聚类好的数据,调用基于距离的merge过程进行处理,得出分类结果。
10.一种实施权利要求1-9任意一项所述基于MapReduce的大型数据集聚类方法的大数据聚类分析平台。
CN201811602303.5A 2018-12-26 2018-12-26 一种基于MapReduce的大型数据集聚类方法 Active CN109858518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811602303.5A CN109858518B (zh) 2018-12-26 2018-12-26 一种基于MapReduce的大型数据集聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811602303.5A CN109858518B (zh) 2018-12-26 2018-12-26 一种基于MapReduce的大型数据集聚类方法

Publications (2)

Publication Number Publication Date
CN109858518A true CN109858518A (zh) 2019-06-07
CN109858518B CN109858518B (zh) 2021-07-06

Family

ID=66892526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811602303.5A Active CN109858518B (zh) 2018-12-26 2018-12-26 一种基于MapReduce的大型数据集聚类方法

Country Status (1)

Country Link
CN (1) CN109858518B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110244806A (zh) * 2019-07-17 2019-09-17 潍坊科技学院 一种智能温室自动化控温控制装置及方法
CN110474336A (zh) * 2019-09-20 2019-11-19 云南电网有限责任公司电力科学研究院 一种智能电网负荷数据分析方法
CN110610200A (zh) * 2019-08-27 2019-12-24 浙江大搜车软件技术有限公司 车商分类方法、装置、计算机设备及存储介质
CN112101542A (zh) * 2020-07-24 2020-12-18 北京沃东天骏信息技术有限公司 机器学习模型的训练方法、装置、人脸的识别方法和装置
CN115545108A (zh) * 2022-10-09 2022-12-30 贵州电网有限责任公司 一种基于云计算的大数据信息分析系统及方法
CN116595102A (zh) * 2023-07-17 2023-08-15 法诺信息产业有限公司 一种改进聚类算法的大数据管理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116655A (zh) * 2013-03-06 2013-05-22 亿赞普(北京)科技有限公司 集群数据查询方法、客户端及系统
CN103942318A (zh) * 2014-04-25 2014-07-23 湖南化工职业技术学院 一种并行ap传播的xml大数据聚类集成方法
US8954967B2 (en) * 2011-05-31 2015-02-10 International Business Machines Corporation Adaptive parallel data processing
CN104378371A (zh) * 2014-11-14 2015-02-25 浙江工业大学 基于MapReduce并行AP聚类的网络入侵检测方法
US20150234818A1 (en) * 2013-02-05 2015-08-20 Facebook, Inc. Displaying clusters of media items on a map using representative media items
US20160067229A1 (en) * 2013-03-15 2016-03-10 Memorial Sloan-Kettering Cancer Center Biomarkers for response to rapamycin analogs

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8954967B2 (en) * 2011-05-31 2015-02-10 International Business Machines Corporation Adaptive parallel data processing
US20150234818A1 (en) * 2013-02-05 2015-08-20 Facebook, Inc. Displaying clusters of media items on a map using representative media items
CN103116655A (zh) * 2013-03-06 2013-05-22 亿赞普(北京)科技有限公司 集群数据查询方法、客户端及系统
US20160067229A1 (en) * 2013-03-15 2016-03-10 Memorial Sloan-Kettering Cancer Center Biomarkers for response to rapamycin analogs
CN103942318A (zh) * 2014-04-25 2014-07-23 湖南化工职业技术学院 一种并行ap传播的xml大数据聚类集成方法
CN104378371A (zh) * 2014-11-14 2015-02-25 浙江工业大学 基于MapReduce并行AP聚类的网络入侵检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI-CHIH HUNG 等: "Map/Reduce Affinity Propagation Clustering", 《INTERNATIONAL JOURNAL OF ELECTRONICS AND ELECTRICAL ENGINEERING 》 *
甘月松 等: "一种AP算法的改进:M-AP聚类算法", 《计算机科学》 *
谷雨: "《基于支持向量机的入侵检测算法研究》", 31 August 2011, 西安交通大学出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110244806A (zh) * 2019-07-17 2019-09-17 潍坊科技学院 一种智能温室自动化控温控制装置及方法
CN110610200A (zh) * 2019-08-27 2019-12-24 浙江大搜车软件技术有限公司 车商分类方法、装置、计算机设备及存储介质
CN110474336A (zh) * 2019-09-20 2019-11-19 云南电网有限责任公司电力科学研究院 一种智能电网负荷数据分析方法
CN112101542A (zh) * 2020-07-24 2020-12-18 北京沃东天骏信息技术有限公司 机器学习模型的训练方法、装置、人脸的识别方法和装置
CN115545108A (zh) * 2022-10-09 2022-12-30 贵州电网有限责任公司 一种基于云计算的大数据信息分析系统及方法
CN115545108B (zh) * 2022-10-09 2023-08-04 贵州电网有限责任公司 一种基于云计算的大数据信息分析系统及方法
CN116595102A (zh) * 2023-07-17 2023-08-15 法诺信息产业有限公司 一种改进聚类算法的大数据管理方法及系统
CN116595102B (zh) * 2023-07-17 2023-10-17 法诺信息产业有限公司 一种改进聚类算法的大数据管理方法及系统

Also Published As

Publication number Publication date
CN109858518B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN109858518A (zh) 一种基于MapReduce的大型数据集聚类方法
Zeebaree et al. Combination of K-means clustering with Genetic Algorithm: A review
CN106779087B (zh) 一种通用机器学习数据分析平台
Vens et al. Random forest based feature induction
Zhou et al. Extracting symbolic rules from trained neural network ensembles
CN101968853B (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN110263673A (zh) 面部表情识别方法、装置、计算机设备及存储介质
CN102324038A (zh) 一种基于数字图像的植物种类识别方法
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN102982343B (zh) 手写数字识别的增量式模糊支持向量机方法
CN104809469A (zh) 一种面向服务机器人的室内场景图像分类方法
CN109492093A (zh) 基于高斯混合模型和em算法的文本分类方法及电子装置
CN106021578A (zh) 一种基于聚类和隶属度融合的改进型文本分类算法
Folino et al. GP ensembles for large-scale data classification
CN110288028A (zh) 心电检测方法、系统、设备及计算机可读存储介质
CN100416599C (zh) 一种遥感影像的人工免疫非监督分类方法
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
CN103593674A (zh) 一种颈部淋巴结超声图像特征选择方法
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
CN110020435A (zh) 一种采用并行二进制蝙蝠算法优化文本特征选择的方法
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
Yousefnezhad et al. Weighted spectral cluster ensemble
CN109635104A (zh) 数据分类标识方法、装置、计算机设备及可读存储介质
CN108595909A (zh) 基于集成分类器的ta蛋白靶向预测方法
Ahlawat et al. A genetic algorithm based feature selection for handwritten digit recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cheng Guogen

Inventor after: Li Xinjie

Inventor before: Cheng Guogen

Inventor before: Li Xinran

GR01 Patent grant
GR01 Patent grant