CN109858518B - 一种基于MapReduce的大型数据集聚类方法 - Google Patents
一种基于MapReduce的大型数据集聚类方法 Download PDFInfo
- Publication number
- CN109858518B CN109858518B CN201811602303.5A CN201811602303A CN109858518B CN 109858518 B CN109858518 B CN 109858518B CN 201811602303 A CN201811602303 A CN 201811602303A CN 109858518 B CN109858518 B CN 109858518B
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- training
- data set
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机应用技术领域,尤其涉及一种基于MapReduce的大型数据集聚类方法,从HDFS中读取原始样本;行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;从设计出的分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行Lanczos‑QR算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入。本发明行随机子空间分类器对数据进行预处理,大大减少计算量和复杂度,同时避免了聚类结果陷入局部最优效果的问题,有效提升了算法的整体聚类精度;解决了结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集的问题。
Description
技术领域
本发明属于计算机应用技术领域,尤其涉及一种基于MapReduce的大型数据集聚类方法。
背景技术
大数据聚类分析是目前大数据挖掘的一项重要研究课题,对大型数据集的聚类集成更以其结构复杂、数据量大、数据分布不均匀且噪声多而成为一个难点。针对大型数据集的聚类集成遇到的这些问题,提出了一种基于MapReduce的大型数据集聚类方法。
MapReduce编程模型可以批量处理大数据集,提供了一种新的对海量数据的处理方式,通过抽象出分层次的编程模型,从而大大简化将大数据分片成子任务,并同时在集群计算机上运行的过程。MapReduce框架一般将大数据并行计算划分为Map、Combine、Reduce三个步骤,通过利用MapReduce框架和接口,能够简化并行化开发过程,便于有效地组织和应用分布式资源,高效便捷地进行大数据分析和计算。
集成学习作为机器学习的研究方向之一,已经在模式识别中得到广泛应用,如:字符识别、目标识别和文本分类等。集成学习中的随机子空间法可增强集成分类器之间的独立性,在大型数据集分类中有很广的应用场景。
当前技术存在的问题是,机器学习的相关算法应用到大型数据集聚类的算法较少,主要是系统聚类算法和K-means聚类算法,这种单一的聚类算法难以完成大数量和高维度样本的聚类分析任务,但是通过设计和应用聚类组合算法,可以发挥不同聚类算法的优势,同时解决初始聚类中心设置问题,从而得到更加可靠的聚类分析结果。此外,由于数据样本的复杂性,经过特征项的提取后,特征维数仍然可以达到上千维,直接在原始空间上进行降维,会丢失某些重要信息。
综上所述,现有技术存在的问题是:
(1)对于结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集,现有技术聚类结果准确性差。
(2)现有技术难以完成大数量和高维度样本的聚类分析任务,直接在原始空间上进行降维,会丢失某些重要信息。
(3)现有技术中,大数据集将数据传递到HDFS中读取原始样本过程中,没有设置数据预测模块,降低了后续的数据分类效率。
(4)基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其聚类算法采用传统的算法,不能简化聚类结构的复杂度,降低了数据集的聚类效果和聚类的速度。
(5)行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类中,大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问题。
发明内容
本发明的目的在于提供一种基于MapReduce的大型数据集聚类方法,旨在解决现有技术聚类结果准确性差、难以完成大数量和高纬度的聚类分析任务。
本发明是这样实现的,一种基于MapReduce的大型数据集聚类方法,其特征在于,所述基于MapReduce的大型数据集聚类方法包括:
步骤一,从HDFS中读取原始样本;
步骤二,行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;
步骤三,从设计出的分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行Lanczos-QR算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入;
步骤四,采用并行Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类,确定聚类中心;
步骤五,计算外围数据点与聚类中心距离;
步骤六,基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点。
步骤七,输出聚类结果,建立数据模版。
步骤八,与前次数据模版建立反馈,数据模板自修正,利用规则模板解析信息模块,根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。
进一步,所述步骤二中,子空间的选择是根据均匀分布U随机抽取m个不同的子集A={d1,d2,…,dm},每个子集的大小(即子空间的维数)为r,每个子空间都定义一个映射PA:Fn※Fm,在此基础上得到每个训练子集Di={(PA(xj),yj)1≤j≤N}.再由分类算法L得到待检样本的决策hi,重复m次,最后利用择多投票法得到最终决策.其中,子空间维数r和基分类器的个数m可自动确定。
进一步,所述步骤三中,所述内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系来构建。
进一步,所述步骤五和步骤六中,所述迭代跳出循环的条件是:外围数据点与聚类中心距离收敛条件满足或达到最大迭代次数;
进一步,所述步骤七中,所述数据模版内容有:聚类时长、内联相似度矩阵大小、最终维度、聚类中心数量。
进一步,大数据集采用基于云模型的数据预测算法对分类器预测结果进行分析,具体包括:
步骤一,从Q种历史条件数据中,依据人工经验及简单数据分析,选取前后因果特征明显的典型的P组条件数据分布与结论数据分布,依次将第p个(p1~P)条件规则中的Q种条件数据分布及1种结论数据分布转化为第p个条件规则的Q个条件云Capq(Expq,Enpq,Hepq)及1个结论云Cbp(Exp,Enp,Hep)形成P个条件规则;
步骤二,对于步骤一中的P个条件规则(每条Q个条件云),依次取第p条规则的第q个条件云的熵Enpq和超熵Hepq,产生一个符合正态分布NORM(Enpq,Hepq 2)的随机值,共产生P组(每组Q个);
步骤三,设待预测的Q种(每种1个)新条件数据为xq(q1~Q),依次将Q种xq与第P个条件规则的Q种Expq及Q种代入公式可得xq对第P个条件规则中Q种条件云的Q个隶属度μpq,共得到P组(每组Q种)μpq;
步骤四,依次求出P组μpq的样本均值,返回步骤二,重复M次,得P组每组M个的;
步骤五,分别求出上述P组中每组M个的样本均值,找出最大的一个值记为,并记该对应的条件规则的结论云为Cbmax(Exmax,Enmax,Hemax);
步骤六,将Cbmax(Exmax,Enmax,Hemax)输入正向云发生器生成1个结论云滴drop(μi,xi),当μi>时选取该xi,重复本步骤至选取N个xi;
步骤七,使用逆向云发生器将上述N个xi转化为最终需要的结论云Cbfinal(Exfinal,Enfinal,Hefinal),其中Exfinal为预期结论的期望,Enfinal为预期结论的量化范围,Hefinal为预期结论的聚散程度。
进一步,具体包括:
给定样本集合D={x1,y1),(x2,y2),…,(xn,yn)},其中n为训练集样本总数;xi是输入空间X的实例,yi∈{-1 +1}是输出分类Y对应的分类标签,迭代次数为T;
步骤1,重复使用K均值算法产生h个聚类结果,共识函数使用Fred提出的Co-association矩阵方法,最终将训练样本聚成c个簇,分别记为C1,C2,…,Cc;
步骤3,For t=1,2,3,…,T;
根据各个簇中负类数与正类的比率,从每个簇中抽取部分负类与所有正类合并成1∶1平衡数据集用于下面的分类器训练,每个簇中负类样本被抽中的概率与样本权重相关,MajSize为负类样本总数,则每个簇中抽取的负类样本数:
样本被正确分类:
负类样本被错误分类:
正类样本被错误分类:
步骤4,通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后的强分类器:
其中NUM为最后集成的分类器数目。
进一步,所基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,具体包括:
步骤A,初始数据处理:对初始数据集进行处理,当数据集为大样本时,用CVM算法对其进行压缩,得到新的数据集;
步骤B,数据聚类:对第一步得到的数据集利用AP算法进行聚类,得到m类数据;
步骤C,合并聚类:对聚类好的数据,调用基于距离的merge过程进行处理,得出分类结果。
本发明另一目的在于提供一种实施所述基于MapReduce的大型数据集聚类方法的大数据聚类分析平台。
本发明的优点及积极效果为:
本发明行随机子空间分类器对数据进行预处理,大大减少计算量和复杂度,同时避免了聚类结果陷入局部最优效果的问题,有效提升了算法的整体聚类精度;从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后,采用精化双对角化策略把矩阵投影于低维空间,并通过并行AP算法来避免因数据规模大,数据的计算量成倍增加而增加算法的时间复杂度。解决了结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集,现有技术聚类结果准确性差、难以完成大数量和高维度样本的聚类分析任务、直接在原始空间上进行降维,会丢失某些重要信息的问题。
本发明中大数据集将数据传递到HDFS中读取原始样本过程中,为了提高步骤二的分类效率,大数据集采用基于云模型的数据预测算法,构造条件云、结论云、条件规则,然后据此对待预测的新条件数据进行条件规则匹配和结果数据分析,最终输出该条件型数据的预测结果。
本发明中基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其聚类算法为了简化聚类结构的复杂度,提高数据集的聚类效果,同时提高聚类的速度,采用一种改进的M-AP算法。
本发明中行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类,为了解决大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问题,采用基于聚类融合欠抽样改进AdaBoost算法。
附图说明
图1是本发明实施例提供的基于MapReduce的大型数据集聚类方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中,对于结构复杂、数据量大、数据分布不均匀且噪声多的大型数据集,现有技术聚类结果准确性差。
现有技术难以完成大数量和高维度样本的聚类分析任务,直接在原始空间上进行降维,会丢失某些重要信息。
现有技术中,大数据集将数据传递到HDFS中读取原始样本过程中,没有设置数据预测模块,降低了后续的数据分类效率。
基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其聚类算法采用传统的算法,不能简化聚类结构的复杂度,降低了数据集的聚类效果和聚类的速度。
行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类中,大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问题。
为解决上述技术问题,下面结合附图及具体方案对本发明的应用原理作详细步描述。
本发明实施例的基于MapReduce的大型数据集聚类方法包括以下步骤:
S101,从HDFS中读取原始样本;
S102,行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;
S103,从设计出的分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入。
S104,采用并行AP聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类,确定聚类中心。
S105,计算外围数据点与聚类中心距离;
S106,基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点;
S107,输出聚类结果,建立数据模版。
S108,与前次数据模版建立反馈,数据模板自修正,利用规则模板解析信息模块,根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。
在本发明实施例中,步骤S103中,内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系来构建;
在本发明实施例中,步骤S105与S106中,迭代跳出循环的条件是:外围数据点与聚类中心距离收敛条件满足或达到最大迭代次数;
所述步骤S101中,大数据集将数据传递到HDFS中读取原始样本过程中,为了提高步骤S102的分类效率,大数据集采用基于云模型的数据预测算法,构造条件云、结论云、条件规则,然后据此对待预测的新条件数据进行条件规则匹配和结果数据分析,最终输出该条件型数据的预测结果,具体包括以下操作步骤:
步骤一,从Q种历史条件数据中,依据人工经验及简单数据分析,选取前后因果特征明显的典型的P组条件数据分布与结论数据分布,依次将第p个(p1~P)条件规则中的Q种条件数据分布及1种结论数据分布转化为第p个条件规则的Q个条件云Capq(Expq,Enpq,Hepq)及1个结论云Cbp(Exp,Enp,Hep)形成P个条件规则;
步骤二,对于步骤一中的P个条件规则(每条Q个条件云),依次取第p条规则的第q个条件云的熵Enpq和超熵Hepq,产生一个符合正态分布NORM(Enpq,Hepq 2)的随机值,共产生P组(每组Q个);
步骤三,设待预测的Q种(每种1个)新条件数据为xq(q1~Q),依次将Q种xq与第P个条件规则的Q种Expq及Q种代入公式可得xq对第P个条件规则中Q种条件云的Q个隶属度μpq,共得到P组(每组Q种)μpq;
步骤四,依次求出P组μpq的样本均值,返回步骤二,重复M次,可得P组每组M个的;
步骤五,分别求出上述P组中每组M个的样本均值,找出最大的一个值记为,并记该对应的条件规则的结论云为Cbmax(Exmax,Enmax,Hemax);
步骤六,将Cbmax(Exmax,Enmax,Hemax)输入正向云发生器生成1个结论云滴drop(μi,xi),当μi>时选取该xi,重复本步骤至选取N个xi;
步骤七,使用逆向云发生器将上述N个xi转化为最终需要的结论云Cbfinal(Exfinal,Enfinal,Hefinal),其中Exfinal为预期结论的期望,Enfinal为预期结论的量化范围,Hefinal为预期结论的聚散程度。
所述步骤S102中行随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器中需要对大数据进行分类,为了解决大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想的问题,采用基于聚类融合欠抽样改进AdaBoost算法,具体过程如下;
给定样本集合D={x1,y1),(x2,y2),…,(xn,yn)},其中n为训练集样本总数;xi是输入空间X的实例,yi∈{-1 +1}是输出分类Y对应的分类标签,迭代次数为T;
步骤1,重复使用K均值算法产生h个聚类结果,共识函数使用Fred提出的Co-association矩阵方法,最终将训练样本聚成c个簇,分别记为C1,C2,…,Cc;
步骤3,For t=1,2,3,…,T;
根据各个簇中负类数与正类的比率,从每个簇中抽取部分负类与所有正类合并成1∶1平衡数据集用于下面的分类器训练,每个簇中负类样本被抽中的概率与样本权重相关,MajSize为负类样本总数,则每个簇中抽取的负类样本数:
样本被正确分类:
负类样本被错误分类:
正类样本被错误分类:
步骤4,通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后的强分类器:
其中NUM为最后集成的分类器数目。
所述步骤S106中基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点,其聚类算法为了简化聚类结构的复杂度,提高数据集的聚类效果,同时提高聚类的速度,采用一种改进的M-AP算法,包括以下步骤:
步骤A,初始数据处理:对初始数据集进行处理,当数据集为大样本时,用CVM算法对其进行压缩,得到新的数据集;
步骤B,数据聚类:对第一步得到的数据集利用AP算法进行聚类,得到m类数据;
步骤C,合并聚类:对聚类好的数据,调用基于距离的merge过程对其进行处理,得出分类结果。
步骤S105中,首先,按逆时针方向分别建立源数据P和目标数据Q的特征矩阵PE和QE:
PE=[P1 T P2 T ... P2N-1 T P2N T];
QE=[Q1 T Q2 T ... Q2N-1 T Q2N T];
欧式距离公式d(x,y)和夹角余弦公式sim(x,y)如下:
以d(x,y)和为sim(x,y)基础,重新定义两个矩阵D和S,使:
求出D和S中的最小值;
分别令Eue=min{Dij},1≤i≤j=2N;Sime=max{Sij},1≤i≤j=2N;
然后再按顺序针方向构造数据P和Q的特征矩阵,重复上述计算方法,求出两特征矩阵中最完备向量间的最小值Euc和Simc;
最后令Eu=min{Eue,Euc};
Sim=min{Sime,Simc};
Eu和Sim即为P、Q两数据对应最相似向量的欧式距离和最大相和系数。
最终获得计算外围数据点与聚类中心的准确距离。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于MapReduce的大型数据集聚类方法,其特征在于,所述基于MapReduce的大型数据集聚类方法包括:
从分类器中的各训练子集关系中获得内联相似度矩阵,并通过并行Lanczos-QR算法求解矩阵特征值所对应的特征向量实现数据的高维约简和低维嵌入;
采用并行 AP聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类,确定聚类中心;
计算外围数据点与聚类中心距离;首先,按逆时针方向分别建立源数据P和目标数据Q的特征矩阵PE和QE:
P E =[P 1 T P 2 T … P 2N-1 T P 2N T ];
Q E =[Q 1 T Q 2 T … Q 2N-1 T Q 2N T ];
欧式距离公式d(x,y)和夹角余弦公式sim(x,y)如下:
以d(x,y)和为sim(x,y)基础,重新定义两个矩阵D和S,使:
求出D和S中的最小值;
分别令Eue=min{Dij}, 1≤i≤j=2N;Sime=max{Sij}, 1≤i≤j=2N;
然后再按顺序针方向构造数据P和Q的特征矩阵,重复上述计算方法,求出两特征矩阵中最完备向量间的最小值Euc和Simc;
最后令Eu=min{Eue,Euc};
Sim=min{ Sime,Simc };
Eu和Sim即为P、Q两数据对应最相似向量的欧式距离和最大相和系数;最终获得计算外围数据点与聚类中心的准确距离;
基于MapReduce并行计算的聚类算法重新划分聚类中心和中心点;具体包括:
输出聚类结果,建立数据模版;
从分类器中的各训练子集关系中获得内联相似度矩阵前需进行:
从HDFS中读取原始样本;
随机子空间分类器对原始样本进行训练,得到多个具有不同特征的训练子集的分类器;
子空间的选择是根据均匀分布U随机抽取m个不同的子集 A={d1 , d2 , …, dm },每个子集的大小为 r, 每个子空间都定义一个映射 P A :Fn ※ F m ,在此基础上得到每个训练子集 Di ={(P A (x j ), y j )1 ≤j≤N};再由分类算法得到待检样本的决策 hi ,重复 w次,最后利用择多投票法得到最终决策.其中 ,子空间维数 r和基分类器的个数 k自动确定;
建立数据模版后,还需进行:
与前次数据模版建立反馈,数据模板自修正,利用规则模板解析信息模块,根据数据集聚类准确度对脏数据进行清洗并优化信息模板库。
2.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,所述内联相似度矩阵由各训练子集中簇集、簇和数据点三者之间的相互关系构建。
3.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,所述数据模版包括:聚类时长、内联相似度矩阵大小、最终维度、聚类中心数量。
4.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,大数据集采用基于云模型的数据预测算法对分类器预测结果进行分析,具体包括:
步骤一,从种历史条件数据中,依据人工经验及简单数据分析,选取前后因果特征明显的典型的组条件数据分布与结论数据分布,依次将第个条件规则中的种条件数据分布及1 种结论数据分布转化为第个条件规则的个条件云 及 1 个结论云 形成个条件规则;
5.如权利要求1所述的基于MapReduce的大型数据集聚类方法,其特征在于,具体包括:
根据各个簇中负类数与正类MinSizeci的比率,从每个簇中抽取部分负类与所有正类合并成平衡数据集用于下面的分类器训练,每个簇中负类样本被抽中的概率与样本权重相关,为负类样本总数,则每个簇中抽取的负类样本数:
样本被正确分类:
负类样本被错误分类:
正类样本被错误分类:
步骤4,通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后的强分类器:
6.一种实施权利要求1-5任意一项所述基于MapReduce的大型数据集聚类方法的大数据聚类分析平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811602303.5A CN109858518B (zh) | 2018-12-26 | 2018-12-26 | 一种基于MapReduce的大型数据集聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811602303.5A CN109858518B (zh) | 2018-12-26 | 2018-12-26 | 一种基于MapReduce的大型数据集聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109858518A CN109858518A (zh) | 2019-06-07 |
CN109858518B true CN109858518B (zh) | 2021-07-06 |
Family
ID=66892526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811602303.5A Active CN109858518B (zh) | 2018-12-26 | 2018-12-26 | 一种基于MapReduce的大型数据集聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109858518B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110244806A (zh) * | 2019-07-17 | 2019-09-17 | 潍坊科技学院 | 一种智能温室自动化控温控制装置及方法 |
CN110610200B (zh) * | 2019-08-27 | 2022-05-20 | 浙江大搜车软件技术有限公司 | 车商分类方法、装置、计算机设备及存储介质 |
CN110474336A (zh) * | 2019-09-20 | 2019-11-19 | 云南电网有限责任公司电力科学研究院 | 一种智能电网负荷数据分析方法 |
CN112101542A (zh) * | 2020-07-24 | 2020-12-18 | 北京沃东天骏信息技术有限公司 | 机器学习模型的训练方法、装置、人脸的识别方法和装置 |
CN115545108B (zh) * | 2022-10-09 | 2023-08-04 | 贵州电网有限责任公司 | 一种基于云计算的大数据信息分析系统及方法 |
CN116595102B (zh) * | 2023-07-17 | 2023-10-17 | 法诺信息产业有限公司 | 一种改进聚类算法的大数据管理方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8954967B2 (en) * | 2011-05-31 | 2015-02-10 | International Business Machines Corporation | Adaptive parallel data processing |
US9047847B2 (en) * | 2013-02-05 | 2015-06-02 | Facebook, Inc. | Displaying clusters of media items on a map using representative media items |
CN103116655B (zh) * | 2013-03-06 | 2017-10-24 | 亿赞普(北京)科技有限公司 | 集群数据查询方法、客户端及系统 |
AU2014229108B2 (en) * | 2013-03-15 | 2020-07-02 | Memorial Sloan-Kettering Cancer Center | Biomarkers for response to rapamycin analogs |
CN103942318B (zh) * | 2014-04-25 | 2017-05-17 | 湖南化工职业技术学院 | 一种并行ap传播的xml大数据聚类集成方法 |
CN104378371A (zh) * | 2014-11-14 | 2015-02-25 | 浙江工业大学 | 基于MapReduce并行AP聚类的网络入侵检测方法 |
-
2018
- 2018-12-26 CN CN201811602303.5A patent/CN109858518B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109858518A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858518B (zh) | 一种基于MapReduce的大型数据集聚类方法 | |
Li et al. | Enhanced transport distance for unsupervised domain adaptation | |
Xu et al. | Multi-VAE: Learning disentangled view-common and view-peculiar visual representations for multi-view clustering | |
Tsai et al. | Mice: Mixture of contrastive experts for unsupervised image clustering | |
Cheong et al. | Support vector machines with binary tree architecture for multi-class classification | |
US10885379B2 (en) | Multi-view image clustering techniques using binary compression | |
Ge et al. | Dual adversarial autoencoders for clustering | |
Wilkinson et al. | CHIRP: a new classifier based on composite hypercubes on iterated random projections | |
Shao et al. | Community Detection and Link Prediction via Cluster-driven Low-rank Matrix Completion. | |
CN109711442B (zh) | 无监督逐层生成对抗特征表示学习方法 | |
Chen et al. | LABIN: Balanced min cut for large-scale data | |
Gabourie et al. | Learning a domain-invariant embedding for unsupervised domain adaptation using class-conditioned distribution alignment | |
Nie et al. | Implicit weight learning for multi-view clustering | |
CN112926645B (zh) | 一种基于边缘计算的窃电检测方法 | |
An et al. | A K-means-based multi-prototype high-speed learning system with FPGA-implemented coprocessor for 1-NN searching | |
Shen et al. | Equiangular basis vectors | |
Zhong et al. | Gap-based estimation: Choosing the smoothing parameters for probabilistic and general regression neural networks | |
CN111126501A (zh) | 一种图像识别方法、终端设备及存储介质 | |
Su et al. | Learning compact visual attributes for large-scale image classification | |
He et al. | Doubly stochastic distance clustering | |
Lorena et al. | Minimum spanning trees in hierarchical multiclass support vector machines generation | |
Sabzekar et al. | Improved DAG SVM: A New Method for Multi-Class SVM Classification. | |
Has | Consensual Aggregation on Random Projected High-dimensional Features for Regression | |
He et al. | Large-scale Graph Sinkhorn Distance Approximation for Resource-constrained Devices | |
CN110942087A (zh) | 一种基于分离求解的矩阵型图像数据分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Cheng Guogen Inventor after: Li Xinjie Inventor before: Cheng Guogen Inventor before: Li Xinran |
|
GR01 | Patent grant | ||
GR01 | Patent grant |