CN109858518B - 一种基于MapReduce的大型数据集聚类方法 - Google Patents

一种基于MapReduce的大型数据集聚类方法 Download PDF

Info

Publication number
CN109858518B
CN109858518B CN201811602303.5A CN201811602303A CN109858518B CN 109858518 B CN109858518 B CN 109858518B CN 201811602303 A CN201811602303 A CN 201811602303A CN 109858518 B CN109858518 B CN 109858518B
Authority
CN
China
Prior art keywords
data
clustering
training
data set
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811602303.5A
Other languages
English (en)
Other versions
CN109858518A (zh
Inventor
程国艮
李欣杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Co ltd
Original Assignee
Global Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Co ltd filed Critical Global Tone Communication Technology Co ltd
Priority to CN201811602303.5A priority Critical patent/CN109858518B/zh
Publication of CN109858518A publication Critical patent/CN109858518A/zh
Application granted granted Critical
Publication of CN109858518B publication Critical patent/CN109858518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机应用技术领域,尤其涉及一种基于MapReduce的大型数据集聚类方法,从HDFS中读取原始样本;行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;从设计出的分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行Lanczos‑QR算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入。本发明行随机子空间分类器对数据进行预处理,大大减少计算量和复杂度,同时避免了聚类结果陷入局部最优效果的问题,有效提升了算法的整体聚类精度;解决了结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集的问题。

Description

一种基于MapReduce的大型数据集聚类方法
技术领域
本发明属于计算机应用技术领域,尤其涉及一种基于MapReduce的大型数据集聚类方法。
背景技术
大数据聚类分析是目前大数据挖掘的一项重要研究课题,对大型数据集的聚类集成更以其结构复杂、数据量大、数据分布不均匀且噪声多而成为一个难点。针对大型数据集的聚类集成遇到的这些问题,提出了一种基于MapReduce的大型数据集聚类方法。
MapReduce编程模型可以批量处理大数据集,提供了一种新的对海量数据的处理方式,通过抽象出分层次的编程模型,从而大大简化将大数据分片成子任务,并同时在集群计算机上运行的过程。MapReduce框架一般将大数据并行计算划分为Map、Combine、Reduce三个步骤,通过利用MapReduce框架和接口,能够简化并行化开发过程,便于有效地组织和应用分布式资源,高效便捷地进行大数据分析和计算。
集成学习作为机器学习的研究方向之一,已经在模式识别中得到广泛应用,如:字符识别、目标识别和文本分类等。集成学习中的随机子空间法可增强集成分类器之间的独立性,在大型数据集分类中有很广的应用场景。
当前技术存在的问题是,机器学习的相关算法应用到大型数据集聚类的算法较少,主要是系统聚类算法和K-means聚类算法,这种单一的聚类算法难以完成大数量和高维度样本的聚类分析任务,但是通过设计和应用聚类组合算法,可以发挥不同聚类算法的优势,同时解决初始聚类中心设置问题,从而得到更加可靠的聚类分析结果。此外,由于数据样本的复杂性,经过特征项的提取后,特征维数仍然可以达到上千维,直接在原始空间上进行降维,会丢失某些重要信息。
综上所述,现有技术存在的问题是:
(1)对于结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集,现有技术聚类结果准确性差。
(2)现有技术难以完成大数量和高维度样本的聚类分析任务,直接在原始空间上进行降维,会丢失某些重要信息。
(3)现有技术中,大数据集将数据传递到HDFS中读取原始样本过程中,没有设置数据预测模块,降低了后续的数据分类效率。
(4)基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其聚类算法采用传统的算法,不能简化聚类结构的复杂度,降低了数据集的聚类效果和聚类的速度。
(5)行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类中,大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问题。
发明内容
本发明的目的在于提供一种基于MapReduce的大型数据集聚类方法,旨在解决现有技术聚类结果准确性差、难以完成大数量和高纬度的聚类分析任务。
本发明是这样实现的,一种基于MapReduce的大型数据集聚类方法,其特征在于,所述基于MapReduce的大型数据集聚类方法包括:
步骤一,从HDFS中读取原始样本;
步骤二,行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;
步骤三,从设计出的分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行Lanczos-QR算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入;
步骤四,采用并行Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类,确定聚类中心;
步骤五,计算外围数据点与聚类中心距离;
步骤六,基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点。
步骤七,输出聚类结果,建立数据模版。
步骤八,与前次数据模版建立反馈,数据模板自修正,利用规则模板解析信息模块,根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。
进一步,所述步骤二中,子空间的选择是根据均匀分布U随机抽取m个不同的子集A={d1,d2,…,dm},每个子集的大小(即子空间的维数)为r,每个子空间都定义一个映射PA:Fn※Fm,在此基础上得到每个训练子集Di={(PA(xj),yj)1≤j≤N}.再由分类算法L得到待检样本的决策hi,重复m次,最后利用择多投票法得到最终决策.其中,子空间维数r和基分类器的个数m可自动确定。
进一步,所述步骤三中,所述内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系来构建。
进一步,所述步骤五和步骤六中,所述迭代跳出循环的条件是:外围数据点与聚类中心距离收敛条件满足或达到最大迭代次数;
其中,收敛条件为
Figure GDA0002020618240000031
趋向稳定。
进一步,所述步骤七中,所述数据模版内容有:聚类时长、内联相似度矩阵大小、最终维度、聚类中心数量。
进一步,大数据集采用基于云模型的数据预测算法对分类器预测结果进行分析,具体包括:
步骤一,从Q种历史条件数据中,依据人工经验及简单数据分析,选取前后因果特征明显的典型的P组条件数据分布与结论数据分布,依次将第p个(p1~P)条件规则中的Q种条件数据分布及1种结论数据分布转化为第p个条件规则的Q个条件云Capq(Expq,Enpq,Hepq)及1个结论云Cbp(Exp,Enp,Hep)形成P个条件规则;
步骤二,对于步骤一中的P个条件规则(每条Q个条件云),依次取第p条规则的第q个条件云的熵Enpq和超熵Hepq,产生一个符合正态分布NORM(Enpq,Hepq 2)的随机值,共产生P组(每组Q个);
步骤三,设待预测的Q种(每种1个)新条件数据为xq(q1~Q),依次将Q种xq与第P个条件规则的Q种Expq及Q种代入公式可得xq对第P个条件规则中Q种条件云的Q个隶属度μpq,共得到P组(每组Q种)μpq
步骤四,依次求出P组μpq的样本均值,返回步骤二,重复M次,得P组每组M个的;
步骤五,分别求出上述P组中每组M个的样本均值,找出最大的一个值记为,并记该对应的条件规则的结论云为Cbmax(Exmax,Enmax,Hemax);
步骤六,将Cbmax(Exmax,Enmax,Hemax)输入正向云发生器生成1个结论云滴drop(μi,xi),当μi>时选取该xi,重复本步骤至选取N个xi
步骤七,使用逆向云发生器将上述N个xi转化为最终需要的结论云Cbfinal(Exfinal,Enfinal,Hefinal),其中Exfinal为预期结论的期望,Enfinal为预期结论的量化范围,Hefinal为预期结论的聚散程度。
进一步,具体包括:
给定样本集合D={x1,y1),(x2y2),…,(xn,yn)},其中n为训练集样本总数;xi是输入空间X的实例,yi∈{-1 +1}是输出分类Y对应的分类标签,迭代次数为T;
步骤1,重复使用K均值算法产生h个聚类结果,共识函数使用Fred提出的Co-association矩阵方法,最终将训练样本聚成c个簇,分别记为C1,C2,…,Cc
步骤2,按照式
Figure GDA0002020618240000051
i=1,2,…,N初始化样本权重,其中w′(i))表示第t轮迭代中样本xi的权值;
步骤3,For t=1,2,3,…,T;
根据各个簇中负类数
Figure GDA0002020618240000058
与正类
Figure GDA0002020618240000059
的比率,从每个簇中抽取部分负类
Figure GDA00020206182400000510
与所有正类合并成1∶1平衡数据集用于下面的分类器训练,每个簇中负类样本被抽中的概率与样本权重相关,MajSize为负类样本总数,则每个簇中抽取的负类样本数:
Figure GDA0002020618240000052
使用弱学习算法训练得到分类器ht,根据式
Figure GDA0002020618240000053
其中εt为加权错误率;
Figure GDA0002020618240000054
计算ht在当前样本分布上的训练误差;
样本被正确分类:
Figure GDA0002020618240000055
负类样本被错误分类:
Figure GDA0002020618240000056
正类样本被错误分类:
Figure GDA0002020618240000057
步骤4,通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后的强分类器:
Figure GDA0002020618240000061
其中NUM为最后集成的分类器数目。
进一步,所基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,具体包括:
步骤A,初始数据处理:对初始数据集进行处理,当数据集为大样本时,用CVM算法对其进行压缩,得到新的数据集;
步骤B,数据聚类:对第一步得到的数据集利用AP算法进行聚类,得到m类数据;
步骤C,合并聚类:对聚类好的数据,调用基于距离的merge过程进行处理,得出分类结果。
本发明另一目的在于提供一种实施所述基于MapReduce的大型数据集聚类方法的大数据聚类分析平台。
本发明的优点及积极效果为:
本发明行随机子空间分类器对数据进行预处理,大大减少计算量和复杂度,同时避免了聚类结果陷入局部最优效果的问题,有效提升了算法的整体聚类精度;从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后,采用精化双对角化策略把矩阵投影于低维空间,并通过并行AP算法来避免因数据规模大,数据的计算量成倍增加而增加算法的时间复杂度。解决了结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集,现有技术聚类结果准确性差、难以完成大数量和高维度样本的聚类分析任务、直接在原始空间上进行降维,会丢失某些重要信息的问题。
本发明中大数据集将数据传递到HDFS中读取原始样本过程中,为了提高步骤二的分类效率,大数据集采用基于云模型的数据预测算法,构造条件云、结论云、条件规则,然后据此对待预测的新条件数据进行条件规则匹配和结果数据分析,最终输出该条件型数据的预测结果。
本发明中基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其聚类算法为了简化聚类结构的复杂度,提高数据集的聚类效果,同时提高聚类的速度,采用一种改进的M-AP算法。
本发明中行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类,为了解决大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问题,采用基于聚类融合欠抽样改进AdaBoost算法。
附图说明
图1是本发明实施例提供的基于MapReduce的大型数据集聚类方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中,对于结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集,现有技术聚类结果准确性差。
现有技术难以完成大数量和高维度样本的聚类分析任务,直接在原始空间上进行降维,会丢失某些重要信息。
现有技术中,大数据集将数据传递到HDFS中读取原始样本过程中,没有设置数据预测模块,降低了后续的数据分类效率。
基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其聚类算法采用传统的算法,不能简化聚类结构的复杂度,降低了数据集的聚类效果和聚类的速度。
行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类中,大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问题。
为解决上述技术问题,下面结合附图及具体方案对本发明的应用原理作详细步描述。
本发明实施例的基于MapReduce的大型数据集聚类方法包括以下步骤:
S101,从HDFS中读取原始样本;
S102,行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;
S103,从设计出的分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入。
S104,采用并行AP聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类,确定聚类中心。
S105,计算外围数据点与聚类中心距离;
S106,基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点;
S107,输出聚类结果,建立数据模版。
S108,与前次数据模版建立反馈,数据模板自修正,利用规则模板解析信息模块,根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。
在本发明实施例中,步骤S103中,内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系来构建;
在本发明实施例中,步骤S105与S106中,迭代跳出循环的条件是:外围数据点与聚类中心距离收敛条件满足或达到最大迭代次数;
其中,收敛条件为
Figure GDA0002020618240000081
趋向稳定。
所述步骤S101中,大数据集将数据传递到HDFS中读取原始样本过程中,为了提高步骤S102的分类效率,大数据集采用基于云模型的数据预测算法,构造条件云、结论云、条件规则,然后据此对待预测的新条件数据进行条件规则匹配和结果数据分析,最终输出该条件型数据的预测结果,具体包括以下操作步骤:
步骤一,从Q种历史条件数据中,依据人工经验及简单数据分析,选取前后因果特征明显的典型的P组条件数据分布与结论数据分布,依次将第p个(p1~P)条件规则中的Q种条件数据分布及1种结论数据分布转化为第p个条件规则的Q个条件云Capq(Expq,Enpq,Hepq)及1个结论云Cbp(Exp,Enp,Hep)形成P个条件规则;
步骤二,对于步骤一中的P个条件规则(每条Q个条件云),依次取第p条规则的第q个条件云的熵Enpq和超熵Hepq,产生一个符合正态分布NORM(Enpq,Hepq 2)的随机值,共产生P组(每组Q个);
步骤三,设待预测的Q种(每种1个)新条件数据为xq(q1~Q),依次将Q种xq与第P个条件规则的Q种Expq及Q种代入公式可得xq对第P个条件规则中Q种条件云的Q个隶属度μpq,共得到P组(每组Q种)μpq
步骤四,依次求出P组μpq的样本均值,返回步骤二,重复M次,可得P组每组M个的;
步骤五,分别求出上述P组中每组M个的样本均值,找出最大的一个值记为,并记该对应的条件规则的结论云为Cbmax(Exmax,Enmax,Hemax);
步骤六,将Cbmax(Exmax,Enmax,Hemax)输入正向云发生器生成1个结论云滴drop(μi,xi),当μi>时选取该xi,重复本步骤至选取N个xi
步骤七,使用逆向云发生器将上述N个xi转化为最终需要的结论云Cbfinal(Exfinal,Enfinal,Hefinal),其中Exfinal为预期结论的期望,Enfinal为预期结论的量化范围,Hefinal为预期结论的聚散程度。
所述步骤S102中行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类,为了解决大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问题,采用基于聚类融合欠抽样改进AdaBoost算法,具体过程如下;
给定样本集合D={x1,y1),(x2,y2),…,(xn,yn)},其中n为训练集样本总数;xi是输入空间X的实例,yi∈{-1 +1}是输出分类Y对应的分类标签,迭代次数为T;
步骤1,重复使用K均值算法产生h个聚类结果,共识函数使用Fred提出的Co-association矩阵方法,最终将训练样本聚成c个簇,分别记为C1,C2,…,Cc
步骤2,按照式
Figure GDA0002020618240000104
i=1,2,…,N初始化样本权重,其中w′(i))表示第t轮迭代中样本xi的权值;
步骤3,For t=1,2,3,…,T;
根据各个簇中负类数
Figure GDA0002020618240000105
与正类
Figure GDA0002020618240000106
的比率,从每个簇中抽取部分负类
Figure GDA0002020618240000107
与所有正类合并成1∶1平衡数据集用于下面的分类器训练,每个簇中负类样本被抽中的概率与样本权重相关,MajSize为负类样本总数,则每个簇中抽取的负类样本数:
Figure GDA0002020618240000101
使用弱学习算法训练得到分类器ht,根据式
Figure GDA0002020618240000102
其中εt为加权错误率;
Figure GDA0002020618240000103
计算ht在当前样本分布上的训练误差;
样本被正确分类:
Figure GDA0002020618240000111
负类样本被错误分类:
Figure GDA0002020618240000112
正类样本被错误分类:
Figure GDA0002020618240000113
步骤4,通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后的强分类器:
Figure GDA0002020618240000114
其中NUM为最后集成的分类器数目。
所述步骤S106中基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其聚类算法为了简化聚类结构的复杂度,提高数据集的聚类效果,同时提高聚类的速度,采用一种改进的M-AP算法,包括以下步骤:
步骤A,初始数据处理:对初始数据集进行处理,当数据集为大样本时,用CVM算法对其进行压缩,得到新的数据集;
步骤B,数据聚类:对第一步得到的数据集利用AP算法进行聚类,得到m类数据;
步骤C,合并聚类:对聚类好的数据,调用基于距离的merge过程对其进行处理,得出分类结果。
步骤S105中,首先,按逆时针方向分别建立源数据P和目标数据Q的特征矩阵PE和QE
PE=[P1 T P2 T ... P2N-1 T P2N T];
QE=[Q1 T Q2 T ... Q2N-1 T Q2N T];
欧式距离公式d(x,y)和夹角余弦公式sim(x,y)如下:
Figure GDA0002020618240000121
Figure GDA0002020618240000122
以d(x,y)和为sim(x,y)基础,重新定义两个矩阵D和S,使:
Figure GDA0002020618240000123
求出D和S中的最小值;
分别令Eue=min{Dij},1≤i≤j=2N;Sime=max{Sij},1≤i≤j=2N;
然后再按顺序针方向构造数据P和Q的特征矩阵,重复上述计算方法,求出两特征矩阵中最完备向量间的最小值Euc和Simc
最后令Eu=min{Eue,Euc};
Sim=min{Sime,Simc};
Eu和Sim即为P、Q两数据对应最相似向量的欧式距离和最大相和系数。
最终获得计算外围数据点与聚类中心的准确距离。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于MapReduce的大型数据集聚类方法,其特征在于,所述基于MapReduce的大型数据集聚类方法包括:
从分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行Lanczos-QR算法求解矩阵特征值所对应的特征向量实现数据的高维约简和低维嵌入;
采用并行 AP聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类,确定聚类中心;
计算外围数据点与聚类中心距离;首先,按逆时针方向分别建立源数据P和目标数据Q的特征矩阵PE和QE
P E =[P 1 T P 2 T P 2N-1 T P 2N T ];
Q E =[Q 1 T Q 2 T Q 2N-1 T Q 2N T ];
欧式距离公式d(x,y)和夹角余弦公式sim(x,y)如下:
Figure 256713DEST_PATH_IMAGE001
Figure 38725DEST_PATH_IMAGE002
以d(x,y)和为sim(x,y)基础,重新定义两个矩阵D和S,使:
Figure 348483DEST_PATH_IMAGE003
求出D和S中的最小值;
分别令Eue=min{Dij}, 1≤i≤j=2N;Sime=max{Sij}, 1≤i≤j=2N;
然后再按顺序针方向构造数据P和Q的特征矩阵,重复上述计算方法,求出两特征矩阵中最完备向量间的最小值Euc和Simc
最后令Eu=min{Eue,Euc};
Sim=min{ Sime,Simc };
Eu和Sim即为P、Q两数据对应最相似向量的欧式距离和最大相和系数;最终获得计算外围数据点与聚类中心的准确距离;
基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点;具体包括:
步骤A,初始数据处理:对初始数据集进行处理,当数据集为大样本时,用
Figure 229327DEST_PATH_IMAGE004
算法对其进行压缩,得到新的数据集;
步骤B,数据聚类:对第一步得到的数据集利用
Figure 282734DEST_PATH_IMAGE005
算法进行聚类,得到
Figure 122514DEST_PATH_IMAGE006
类数据;
步骤C,合并聚类:对聚类好的数据,调用基于距离的
Figure 399911DEST_PATH_IMAGE007
过程进行处理,得出分类结果;
输出聚类结果,建立数据模版;
从分类器中的各训练子集关系中获得内联相似度矩阵前需进行:
从HDFS中读取原始样本;
随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;
子空间的选择是根据均匀分布U随机抽取m个不同的子集 A={d1 , d2 , …, dm },每个子集的大小为 r, 每个子空间都定义一个映射 P A :Fn ※ F m ,在此基础上得到每个训练子集 Di ={(P A (x j ), y j )1 ≤j≤N};再由分类算法得到待检样本的决策 hi ,重复 w次,最后利用择多投票法得到最终决策.其中 ,子空间维数 r和基分类器的个数 k自动确定;
建立数据模版后,还需进行:
与前次数据模版建立反馈,数据模板自修正,利用规则模板解析信息模块,根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。
2.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,所述内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系构建。
3.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,所述数据模版包括:聚类时长、内联相似度矩阵大小、最终维度、聚类中心数量。
4.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,大数据集采用基于云模型的数据预测算法对分类器预测结果进行分析,具体包括:
步骤一,从
Figure 957932DEST_PATH_IMAGE008
种历史条件数据中,依据人工经验及简单数据分析,选取前后因果特征明显的典型的
Figure 362499DEST_PATH_IMAGE009
组条件数据分布与结论数据分布,依次将第
Figure 322365DEST_PATH_IMAGE010
Figure 973926DEST_PATH_IMAGE011
条件规则中的
Figure 753663DEST_PATH_IMAGE012
种条件数据分布及1 种结论数据分布转化为第
Figure 476769DEST_PATH_IMAGE013
个条件规则的
Figure 291141DEST_PATH_IMAGE014
个条件云
Figure 113603DEST_PATH_IMAGE015
Figure 928107DEST_PATH_IMAGE016
及 1 个结论云
Figure 127007DEST_PATH_IMAGE017
Figure 795886DEST_PATH_IMAGE018
形成
Figure 117146DEST_PATH_IMAGE019
个条件规则;
步骤二,对于步骤一中的
Figure 871475DEST_PATH_IMAGE020
个条件规则,每条
Figure 874066DEST_PATH_IMAGE021
个条件云,依次取第
Figure 944921DEST_PATH_IMAGE022
条规则的第
Figure 109187DEST_PATH_IMAGE023
个条件云的熵
Figure 350812DEST_PATH_IMAGE024
和超熵
Figure 953832DEST_PATH_IMAGE025
,产生一个符合正态分布
Figure 331723DEST_PATH_IMAGE026
Figure 932469DEST_PATH_IMAGE027
的随机值,共产生
Figure 395811DEST_PATH_IMAGE020
组,每组
Figure 815904DEST_PATH_IMAGE021
个;
步骤三,设待预测的
Figure 48302DEST_PATH_IMAGE028
种,每种 1 个新条件数据为
Figure 819949DEST_PATH_IMAGE029
,依次将
Figure 567325DEST_PATH_IMAGE021
Figure 449831DEST_PATH_IMAGE030
与第
Figure 615364DEST_PATH_IMAGE020
个条件规则的
Figure 557912DEST_PATH_IMAGE021
Figure 995847DEST_PATH_IMAGE031
Figure 682043DEST_PATH_IMAGE021
种代入公式可得
Figure 951350DEST_PATH_IMAGE032
对第
Figure 64800DEST_PATH_IMAGE020
个条件规则中
Figure 990030DEST_PATH_IMAGE021
种条件云的
Figure 27388DEST_PATH_IMAGE021
个隶属度
Figure 354464DEST_PATH_IMAGE033
,共得到
Figure 373235DEST_PATH_IMAGE020
组,每组
Figure 113658DEST_PATH_IMAGE021
Figure 141657DEST_PATH_IMAGE033
步骤四,依次求出
Figure 323240DEST_PATH_IMAGE020
Figure 325962DEST_PATH_IMAGE033
的样本均值,返回步骤二,重复
Figure 960206DEST_PATH_IMAGE034
次,得
Figure 526316DEST_PATH_IMAGE020
组每组
Figure 890301DEST_PATH_IMAGE035
个的;
步骤五,分别求出上述
Figure 516455DEST_PATH_IMAGE020
组中每组
Figure 637995DEST_PATH_IMAGE034
个的样本均值,找出最大的一个值记为,并记该对应的条件规则的结论云为
Figure 817916DEST_PATH_IMAGE036
步骤六,将
Figure 974091DEST_PATH_IMAGE036
输入正向云发生器生成 1 个结论云滴
Figure 771145DEST_PATH_IMAGE037
,当
Figure 442298DEST_PATH_IMAGE038
时选取该
Figure 350211DEST_PATH_IMAGE039
,重复本步骤至选取
Figure 360892DEST_PATH_IMAGE040
Figure 141898DEST_PATH_IMAGE041
步骤七,使用逆向云发生器将上述
Figure 238030DEST_PATH_IMAGE042
Figure 949634DEST_PATH_IMAGE041
转化为最终需要的结论云
Figure 814822DEST_PATH_IMAGE043
,其中
Figure 15996DEST_PATH_IMAGE044
为预期结论的期望,
Figure 599424DEST_PATH_IMAGE045
为预期结论的量化范围,
Figure 114719DEST_PATH_IMAGE046
为预期结论的聚散程度。
5.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,具体包括:
给定样本集合
Figure 647463DEST_PATH_IMAGE047
,其中
Figure 957221DEST_PATH_IMAGE048
为训练集样本总数;
Figure 27945DEST_PATH_IMAGE049
是输入空间X的实例,
Figure 143669DEST_PATH_IMAGE050
Figure 983449DEST_PATH_IMAGE051
是输出分类
Figure 464109DEST_PATH_IMAGE052
对应的分类标签,迭代次数为
Figure 835178DEST_PATH_IMAGE053
步骤1,重复使用
Figure 426697DEST_PATH_IMAGE054
均值算法产生
Figure 120983DEST_PATH_IMAGE055
个聚类结果,共识函数使用
Figure 100441DEST_PATH_IMAGE056
提出的
Figure 880178DEST_PATH_IMAGE057
矩阵方法,最终将训练样本聚成
Figure 275387DEST_PATH_IMAGE058
个簇,分别记为
Figure 89759DEST_PATH_IMAGE059
步骤2,按照式
Figure 745779DEST_PATH_IMAGE060
初始化样本权重,其中
Figure 12812DEST_PATH_IMAGE061
)表示第
Figure 274029DEST_PATH_IMAGE062
轮迭代中样本
Figure 942908DEST_PATH_IMAGE063
的权值;
步骤3,
Figure 936272DEST_PATH_IMAGE064
根据各个簇中负类数
Figure 503650DEST_PATH_IMAGE065
与正类MinSizeci的比率,从每个簇中抽取部分负类
Figure RE-764048DEST_PATH_IMAGE067
与所有正类合并成
Figure RE-256209DEST_PATH_IMAGE068
平衡数据集用于下面的分类器训练,每个簇中负类样本被抽中的概率与样本权重相关,
Figure RE-497834DEST_PATH_IMAGE069
为负类样本总数,则每个簇中抽取的负类样本数:
Figure RE-772958DEST_PATH_IMAGE070
使用弱学习算法训练得到分类器
Figure RE-229478DEST_PATH_IMAGE071
,根据式
Figure RE-564644DEST_PATH_IMAGE072
,其中
Figure RE-293566DEST_PATH_IMAGE073
为加权错误率;
Figure RE-372380DEST_PATH_IMAGE074
;计算
Figure RE-932675DEST_PATH_IMAGE075
在当前样本分布上的训练误差;
样本被正确分类:
Figure RE-704322DEST_PATH_IMAGE076
负类样本被错误分类:
Figure RE-654960DEST_PATH_IMAGE077
正类样本被错误分类:
Figure RE-350515DEST_PATH_IMAGE078
步骤4,通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后的强分类器:
Figure RE-702999DEST_PATH_IMAGE079
其中
Figure RE-645547DEST_PATH_IMAGE080
为最后集成的分类器数目。
6.一种实施权利要求1-5任意一项所述基于MapReduce的大型数据集聚类方法的大数据聚类分析平台。
CN201811602303.5A 2018-12-26 2018-12-26 一种基于MapReduce的大型数据集聚类方法 Active CN109858518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811602303.5A CN109858518B (zh) 2018-12-26 2018-12-26 一种基于MapReduce的大型数据集聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811602303.5A CN109858518B (zh) 2018-12-26 2018-12-26 一种基于MapReduce的大型数据集聚类方法

Publications (2)

Publication Number Publication Date
CN109858518A CN109858518A (zh) 2019-06-07
CN109858518B true CN109858518B (zh) 2021-07-06

Family

ID=66892526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811602303.5A Active CN109858518B (zh) 2018-12-26 2018-12-26 一种基于MapReduce的大型数据集聚类方法

Country Status (1)

Country Link
CN (1) CN109858518B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110244806A (zh) * 2019-07-17 2019-09-17 潍坊科技学院 一种智能温室自动化控温控制装置及方法
CN110610200B (zh) * 2019-08-27 2022-05-20 浙江大搜车软件技术有限公司 车商分类方法、装置、计算机设备及存储介质
CN110474336A (zh) * 2019-09-20 2019-11-19 云南电网有限责任公司电力科学研究院 一种智能电网负荷数据分析方法
CN112101542A (zh) * 2020-07-24 2020-12-18 北京沃东天骏信息技术有限公司 机器学习模型的训练方法、装置、人脸的识别方法和装置
CN115545108B (zh) * 2022-10-09 2023-08-04 贵州电网有限责任公司 一种基于云计算的大数据信息分析系统及方法
CN116595102B (zh) * 2023-07-17 2023-10-17 法诺信息产业有限公司 一种改进聚类算法的大数据管理方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8954967B2 (en) * 2011-05-31 2015-02-10 International Business Machines Corporation Adaptive parallel data processing
US9047847B2 (en) * 2013-02-05 2015-06-02 Facebook, Inc. Displaying clusters of media items on a map using representative media items
CN103116655B (zh) * 2013-03-06 2017-10-24 亿赞普(北京)科技有限公司 集群数据查询方法、客户端及系统
AU2014229108B2 (en) * 2013-03-15 2020-07-02 Memorial Sloan-Kettering Cancer Center Biomarkers for response to rapamycin analogs
CN103942318B (zh) * 2014-04-25 2017-05-17 湖南化工职业技术学院 一种并行ap传播的xml大数据聚类集成方法
CN104378371A (zh) * 2014-11-14 2015-02-25 浙江工业大学 基于MapReduce并行AP聚类的网络入侵检测方法

Also Published As

Publication number Publication date
CN109858518A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109858518B (zh) 一种基于MapReduce的大型数据集聚类方法
Li et al. Enhanced transport distance for unsupervised domain adaptation
Xu et al. Multi-VAE: Learning disentangled view-common and view-peculiar visual representations for multi-view clustering
Tsai et al. Mice: Mixture of contrastive experts for unsupervised image clustering
Cheong et al. Support vector machines with binary tree architecture for multi-class classification
US10885379B2 (en) Multi-view image clustering techniques using binary compression
Ge et al. Dual adversarial autoencoders for clustering
Wilkinson et al. CHIRP: a new classifier based on composite hypercubes on iterated random projections
Shao et al. Community Detection and Link Prediction via Cluster-driven Low-rank Matrix Completion.
CN109711442B (zh) 无监督逐层生成对抗特征表示学习方法
Chen et al. LABIN: Balanced min cut for large-scale data
Gabourie et al. Learning a domain-invariant embedding for unsupervised domain adaptation using class-conditioned distribution alignment
Nie et al. Implicit weight learning for multi-view clustering
CN112926645B (zh) 一种基于边缘计算的窃电检测方法
An et al. A K-means-based multi-prototype high-speed learning system with FPGA-implemented coprocessor for 1-NN searching
Shen et al. Equiangular basis vectors
Zhong et al. Gap-based estimation: Choosing the smoothing parameters for probabilistic and general regression neural networks
CN111126501A (zh) 一种图像识别方法、终端设备及存储介质
Su et al. Learning compact visual attributes for large-scale image classification
He et al. Doubly stochastic distance clustering
Lorena et al. Minimum spanning trees in hierarchical multiclass support vector machines generation
Sabzekar et al. Improved DAG SVM: A New Method for Multi-Class SVM Classification.
Has Consensual Aggregation on Random Projected High-dimensional Features for Regression
He et al. Large-scale Graph Sinkhorn Distance Approximation for Resource-constrained Devices
CN110942087A (zh) 一种基于分离求解的矩阵型图像数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cheng Guogen

Inventor after: Li Xinjie

Inventor before: Cheng Guogen

Inventor before: Li Xinran

GR01 Patent grant
GR01 Patent grant