CN107291847B - 一种基于MapReduce的大规模数据分布式聚类处理方法 - Google Patents

一种基于MapReduce的大规模数据分布式聚类处理方法 Download PDF

Info

Publication number
CN107291847B
CN107291847B CN201710412014.8A CN201710412014A CN107291847B CN 107291847 B CN107291847 B CN 107291847B CN 201710412014 A CN201710412014 A CN 201710412014A CN 107291847 B CN107291847 B CN 107291847B
Authority
CN
China
Prior art keywords
data
cluster
sample survey
density
child node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710412014.8A
Other languages
English (en)
Other versions
CN107291847A (zh
Inventor
高天寒
孔雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dianwei Information Technology Co ltd
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201710412014.8A priority Critical patent/CN107291847B/zh
Publication of CN107291847A publication Critical patent/CN107291847A/zh
Priority to PCT/CN2018/087567 priority patent/WO2018219163A1/zh
Application granted granted Critical
Publication of CN107291847B publication Critical patent/CN107291847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于MapReduce的大规模数据分布式聚类处理方法,包括对大规模数据以等规模不重复的原则进行抽样;向MapReduce分布式并行框架输入抽样数据并计算抽样数据的局部密度和平均密度;找出局部密度大于平均密度的所有抽样数据作为每个簇的初始聚类中心点的候选点集合并反馈给主节点,选取每两个相邻候选点之间距离大于2倍设定范围的所有候选点作为初始聚类中心点;利用MapReduce分布式并行框架进行并行聚类任务,针对每个簇计算数据间距离的平均值来更新聚类中心点;子节点应用误差平方和准则函数判断是否继续迭代;各子节点根据聚类中心点对大规模数据进行聚类。本发明实现并行聚类,减少聚类迭代次数,提高聚类准确率和并行聚类效率。

Description

一种基于MapReduce的大规模数据分布式聚类处理方法
技术领域
本发明属于并行聚类技术领域,特别是一种基于MapReduce的大规模数据分布式聚类处理方法。
背景技术
伴随信息技术的快速发展,数据规模不断增大,利用并行机制对大规模数据集进行有效地挖掘分析,可以推动互联网技术的发展和进步。聚类分析是一种重要的数据处理技术,是机器学习和人工智能领域的重要课题之一,被广泛用于数据挖掘、信息检索等研究中。主要工作是将数据集划分成多个子集,使得子集内的数据对象间的相似度较高,不同子集间的数据对象间的差异度较大。由于数据规模的增大,传统的单机聚类方法已经无法在有效地时间内处理大规模数据且效率低下,聚类效果不理想,而随之而来的大数据技术愈加成熟,越来越多的人开始关注学习Hadoop MapReduce相关技术。因此,建立一个并行集群模式利用MapReduce并行框架是解决这些问题的一个重要研究方向。
MapReduce是一个应用于大规模数据集的并行编程模型,特点是简单,容易实现和易于扩展。核心思想就是“分而治之”,把大规模数据集分成一个个小的数据集,交由主节点管理下的各分节点共同处理,然后把各分节点的中间结果进行整合,得到最终结果。近年来,学者们针对大规模数据聚类展开了一系列的研究,其中K-Means方法是基于划分的经典聚类分析方法之一,优点是具有操作简单,收敛速度较快,缺点是对于初始聚类中心的选取采用随机方式,易导致聚类局部最优,影响最后的聚类效果。因此保证初始聚类中心的准确性是面向大规模数据并行聚类的重要环节。
目前的研究热点是并行聚类方法的初始聚类中心点选择方法,主要分为K-Means结合Canopy方法确定聚类中心和基于数据密度计算确定初始聚类中心两种方法。K-Means方法结合Canopy方法Canopy-Kmeans,利用Canopy的特点计算对象的相似性,将数据做预处理,优势在于可以给定初始聚类中心点,避免陷入局部最优,但是缺点是计算对象间的相似性的时间耗费较大。基于数据密度计算的方法是计算出所有数据的密度,然后选择密度最大的数据作为聚类中心点从而避免了随机选取的问题,且较为准确,但是传统的计算开销也较大,且易导致节点负载较大,降低并行聚类总体效率。
发明内容
针对现有技术中存在的问题,本发明提供一种基于MapReduce的大规模数据分布式聚类处理方法。
本发明的技术方案如下:
一种基于MapReduce的大规模数据分布式聚类处理方法,包括:
步骤1、对大规模数据以等规模不重复的原则进行抽样,记录抽样数据;
步骤2、启动Hadoop分布式集群环境,向MapReduce分布式并行框架输入抽样数据并计算抽样数据的局部密度和平均密度;
步骤3、主节点以抽样数据的平均密度Avg为基准下发任务到子节点,各个子节点根据局部密度进行排序,找出局部密度大于平均密度Avg的所有抽样数据作为每个簇的初始聚类中心点的候选点集合并反馈给主节点,主节点选取候选点集合中每两个相邻候选点之间距离大于2倍设定范围的所有候选点作为初始聚类中心点;
步骤4、主节点接收初始聚类中心点分布任务给子节点,子节点根据初始聚类中心点利用MapReduce分布式并行框架进行并行聚类任务,针对每个簇计算数据间距离的平均值来更新聚类中心点;
步骤5:子节点应用误差平方和准则函数作为聚类准则函数,判断是否继续迭代:若根据更新后的聚类中心点计算的误差平方和准则函数是收敛的,则当前的各聚类中心点为最终的聚类中心点并反馈给主节点,执行步骤6;否则返回步骤4继续迭代更新聚类中心点;
步骤6:主节点重新输入聚类中心点并分布任务,各子节点根据聚类中心点对大规模数据进行聚类。
所述以等规模不重复的原则进行抽样,采用的公式如下:
fi≈fj且Nfi<<D
e=f*n*δ
其中,D表示大规模数据集,Di和Dj表示两个没有交集的数据集,i和j的范围在1到N之间。数据集Di和Dj的数据规模分别记为fi和fj,N表示抽样次数e表示抽样的数据大小,f为抽样的数据在大规模数据集中所占的比例,取值为0≤f≤0.1,δ为抽样概率,取值为0.5≤δ≤1。
所述步骤2,包括:
步骤2.1、将抽样数据上传到Hadoop分布式集群环境;
步骤2.2、Hadoop分布式集群环境中的主节点对传入的抽样数据进行分割成多个数据块,并下发到各个子节点进行分布式处理计算抽样数据的局部密度;
步骤2.3、各个子节点接收任务,利用MapReduce分布式并行框架对各个任务对应的抽样数据进行局部密度计算,即计算抽样数据周围设定范围内的邻居数据的个数;
步骤2.4、各个子节点将计算出的局部密度反馈给主节点,主节点进行整合并根据各局部密度来计算出抽样数据的平均密度,输出抽样数据的平均密度和局部密度。
所述局部密度的计算公式如下:
其中,i和j分别表示第i个数据和第j个数据,n表示抽样数据有n个属性,例如iris鸢尾花卉数据集,每个数据的属性包括花萼长度,花萼宽度等,in表示数据i的第n个属性数据,jn表示数据j的第n个属性数据,Dij表示第i个数据和第j个数据的距离。ρi表示第i个数据的局部密度,m表示数据的个数,De表示为第i个数据周围截取半径即设定范围,λ为系数,若邻居数据属于截取半径范围即设定范围内,则λ取值为1,否则值为0。
所述平均密度计算公式:
其中,Avg表示m个抽样数据的平均密度,ρi表示第i个抽样数据的局部密度。
有益效果:
本发明提供了一种基于MapReduce的大规模数据分布式聚类处理方法,通过对大规模数据以等规模不重复的原则进行抽样,利用MapReduce分布式并行框架分布式地对抽样数据计算局部密度,在整合后计算数据的平均密度,从而选取合适准确的初始聚类中心点实现并行聚类,减少聚类迭代次数,提高聚类准确率和并行聚类效率,非常适用于大规模数据并行聚类分析,解决对于一些没有分类,不知道类别标签的样本集进行分类问题,聚类可以应用到图像聚类分析处理等研究领域。K-Means是基于划分的经典聚类分析算法之一,因为其具有操作简单,收敛速度较快等特点,并行化该算法使其适应于并行集群模式从而应用于大规模数据。
附图说明
图1是本发明具体实施方式中采用的Hadoop分布式集群环境框图;
图2是本发明具体实施方式中基于MapReduce并行框架的数据处理流程图;
图3是本发明具体实施方式中基于MapReduce的大规模数据分布式聚类处理方法流程图;
图4是本发明具体实施方式中步骤2流程图;
图5是本发明具体实施方式中实验结果对比图,(a)三种方法的准确率实验对比结果,(b)三种方法的时间消耗实验对比结果。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明。
如图1所示,本实施方式中的Hadoop分布式集群环境有3个服务器,构成3个节点,其中包括一个主节点Master用来发号施令分布任务,2个子节点slave用来接收主节点分发的任务并根据主节点Master的要求处理运行任务,所有节点通过高速以太网进行相连。主节点Master根据用户的应用请求启动整个集群环境,子节点slave和主节点Master作为Hadoop分布式集群环境并行系统的主体,负责整个Hadoop分布式集群的处理运行。如图2所示,本实施方式中:1)根据用户的要求接收待处理数据,将输入的文件进行分割成数据块,以键值对<keyl,value1>形式分发给各个子节点;2)子节点接收数据块进行map函数处理,将处理后的新键值对<key2,value2>发送给本节点的合并端进行中间数据合并处理,形成<key2,list<value2>>;3)子节点将合并的数据发送到reduce端进行reduce函数处理,整合各个节点的数据结果,输出最后的结果<key3,value3>。
本实施方式中的绘制对象采用UCI Machine Learning Repository中的iris数据集也称鸢尾花卉数据集,是一类多重变量分析的数据集。其中有150个样本数据,分为3类,每类中有50个数据包,每个数据包含4个属性。分别使用数据集数量为:30、60、90、120、150,根据数据集数量的大小,分别对传统K-means并行方法、基于密度计算K-means并行方法和本发明方法聚类效果进行测试,主要从准确率、时间消耗等方面进行比较。实验结果对比图如图5(a)、(b)所示。
所述基于MapReduce的大规模数据分布式聚类处理方法,如图3所示,包括:
步骤1、对大规模数据以等规模不重复的原则进行抽样,记录抽样数据;
所述等规模不重复抽样规则公式如下:
fi≈fj且Nfi<<D
e=f*n*δ
其中,D表示大规模数据集,Di和Dj表示两个没有交集的数据集,i和j的范围在1到N之间。数据集Di和Dj的数据规模分别记为fi和fj,N表示抽样次数e表示抽样的数据大小,f为抽样的数据在大规模数据集中所占的比例,取值为0≤f≤0.1,δ为抽样概率,取值为0.5≤δ≤1。
步骤2、启动Hadoop分布式集群环境,向MapReduce分布式并行框架输入抽样数据并计算抽样数据的局部密度和平均密度;
所述步骤2,如图4所示,包括:
步骤2.1、在Centos系统中,通过start-all.sh命令启动Hadoop分布式集群环境,将抽样数据上传到Hadoop分布式集群环境;
步骤2.2、Hadoop分布式集群环境中的主节点对传入的抽样数据进行分割成多个数据块,并下发到各个子节点进行分布式处理计算抽样数据的局部密度;
步骤2.3、各个子节点接收任务,利用MapReduce分布式并行框架对各个任务对应的抽样数据进行局部密度计算,即计算抽样数据周围设定范围内的邻居数据的个数;
所述局部密度计算公式:
其中,i和j分别表示第i个数据和第j个数据,n表示抽样数据有n个属性,例如iris鸢尾花卉数据集,每个数据的属性包括花萼长度,花萼宽度等,in表示数据i的第n个属性数据,jn表示数据j的第n个属性数据,Dij表示第i个数据和第j个数据的距离。ρi表示第i个数据的局部密度,m表示数据的个数,De表示为第i个数据周围截取半径即设定范围,λ为系数,若邻居数据属于截取半径范围即设定范围内,则λ取值为1,否则值为0。
步骤2.4、各个子节点将计算出的局部密度反馈给主节点,主节点进行整合并根据各局部密度来计算出抽样数据的平均密度,输出抽样数据的平均密度和局部密度;
所述平均密度计算公式:
其中,Avg表示m个抽样数据的平均密度,ρi表示第i个抽样数据的局部密度。
步骤3、主节点以抽样数据的平均密度Avg为基准下发任务到子节点,各个子节点根据局部密度进行排序,找出局部密度大于平均密度Avg的所有抽样数据作为每个簇(簇表示的是一类数据)的初始聚类中心点的候选点集合并反馈给主节点,主节点选取候选点集合中每两个相邻候选点之间距离大于2倍设定范围的所有候选点作为初始聚类中心点;
初始聚类中心点的选取:首先在候选点集合中选取局部密度最大的候选点作为第一个初始聚类中心点,接着选取与第一个初始聚类中心点的距离大于2De(De为截取半径)的候选点作为第二个初始聚类中心点,以此方式,第三个初始聚类中心点是与第一、第二个初始聚类中心点的距离都大于2De的候选点,直到选取到候选点集合中的最后一个候选点,结束初始聚类中心点的选取。
步骤4、主节点接收初始聚类中心点分布任务给子节点,子节点根据初始聚类中心点利用MapReduce分布式并行框架进行并行聚类任务,针对每个簇计算数据间距离的平均值来更新聚类中心点;
新的聚类中心点计算公式:
其中,ei为簇Ci的数据间距离平均值即新的聚类中心点,x为簇Ci中的数据。
步骤5:子节点应用误差平方和准则函数作为聚类准则函数,判断是否继续迭代:若根据更新后的聚类中心点计算的误差平方和准则函数是收敛的,则当前的各聚类中心点为最终的聚类中心点并反馈给主节点,执行步骤6;否则返回步骤4继续迭代更新聚类中心点。
误差平方和准则函数计算公式为:
其中,M为簇中所有数据的方差之和,n为簇Ci中的一个数据对象,ei为簇Ci中数据间距离的平均值,k表示聚类中心点的个数。
步骤6:主节点重新输入聚类中心点并分布任务,各子节点根据聚类中心点对大规模数据进行聚类。

Claims (5)

1.一种基于MapReduce的大规模数据分布式聚类处理方法,其特征在于,包括:
步骤1、对大规模数据以等规模不重复的原则进行抽样,记录抽样数据;
步骤2、启动Hadoop分布式集群环境,向MapReduce分布式并行框架输入抽样数据并计算抽样数据的局部密度和平均密度;
步骤3、主节点以抽样数据的平均密度Avg为基准下发任务到子节点,各个子节点根据局部密度进行排序,找出局部密度大于平均密度Avg的所有抽样数据作为每个簇的初始聚类中心点的候选点集合并反馈给主节点,主节点选取候选点集合中每两个相邻候选点之间距离大于2倍设定范围的所有候选点作为初始聚类中心点;
步骤4、主节点接收初始聚类中心点分布任务给子节点,子节点根据初始聚类中心点利用MapReduce分布式并行框架进行并行聚类任务,针对每个簇计算数据间距离的平均值来更新聚类中心点;
步骤5:子节点应用误差平方和准则函数作为聚类准则函数,判断是否继续迭代:若根据更新后的聚类中心点计算的误差平方和准则函数是收敛的,则当前的各聚类中心点为最终的聚类中心点并反馈给主节点,执行步骤6;否则返回步骤4继续迭代更新聚类中心点;
步骤6:主节点重新输入聚类中心点并分布任务,各子节点根据聚类中心点对大规模数据进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述以等规模不重复的原则进行抽样,采用的公式如下:
fi≈fj且Nfi<<D
e=f*n*δ
其中,D表示大规模数据集,Di和Dj表示两个没有交集的数据集,n表示抽样数据有n个属性,i和j的范围在1到N之间,数据集Di和Dj的数据规模分别记为fi和fj,N表示抽样次数,e表示抽样的数据大小,f为抽样的数据在大规模数据集中所占的比例,取值为0≤f≤0.1,δ为抽样概率,取值为0.5≤δ≤1。
3.根据权利要求1所述的方法,其特征在于,所述步骤2,包括:
步骤2.1、将抽样数据上传到Hadoop分布式集群环境;
步骤2.2、Hadoop分布式集群环境中的主节点对传入的抽样数据进行分割成多个数据块,并下发到各个子节点进行分布式处理计算抽样数据的局部密度;
步骤2.3、各个子节点接收任务,利用MapReduce分布式并行框架对各个任务对应的抽样数据进行局部密度计算,即计算抽样数据周围设定范围内的邻居数据的个数;
步骤2.4、各个子节点将计算出的局部密度反馈给主节点,主节点进行整合并根据各局部密度来计算出抽样数据的平均密度,输出抽样数据的平均密度和局部密度。
4.根据权利要求1或3所述的方法,其特征在于,所述局部密度的计算公式如下:
其中,i和j分别表示第i个数据和第j个数据,n表示抽样数据有n个属性,in表示数据i的第n个属性数据,jn表示数据j的第n个属性数据,Dij表示第i个数据和第j个数据的距离,ρi表示第i个数据的局部密度,m表示数据的个数,De表示为第i个数据周围截取半径即设定范围,λ为系数,若邻居数据属于截取半径范围即设定范围内,则λ取值为1,否则值为0。
5.根据权利要求1或3所述的方法,其特征在于,所述平均密度计算公式:
其中,Avg表示m个抽样数据的平均密度,ρi表示第i个抽样数据的局部密度。
CN201710412014.8A 2017-06-02 2017-06-02 一种基于MapReduce的大规模数据分布式聚类处理方法 Active CN107291847B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710412014.8A CN107291847B (zh) 2017-06-02 2017-06-02 一种基于MapReduce的大规模数据分布式聚类处理方法
PCT/CN2018/087567 WO2018219163A1 (zh) 2017-06-02 2018-05-18 一种基于MapReduce的大规模数据分布式聚类处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710412014.8A CN107291847B (zh) 2017-06-02 2017-06-02 一种基于MapReduce的大规模数据分布式聚类处理方法

Publications (2)

Publication Number Publication Date
CN107291847A CN107291847A (zh) 2017-10-24
CN107291847B true CN107291847B (zh) 2019-06-25

Family

ID=60094757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710412014.8A Active CN107291847B (zh) 2017-06-02 2017-06-02 一种基于MapReduce的大规模数据分布式聚类处理方法

Country Status (2)

Country Link
CN (1) CN107291847B (zh)
WO (1) WO2018219163A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291847B (zh) * 2017-06-02 2019-06-25 东北大学 一种基于MapReduce的大规模数据分布式聚类处理方法
CN108122012B (zh) * 2017-12-28 2020-11-24 百度在线网络技术(北京)有限公司 常驻点中心点的确定方法、装置、设备及存储介质
CN110233798B (zh) 2018-03-05 2021-02-26 华为技术有限公司 数据处理方法、装置及系统
CN109033084B (zh) * 2018-07-26 2022-10-28 国信优易数据股份有限公司 一种语义层次树构建方法以及装置
CN109302406B (zh) * 2018-10-31 2021-06-25 法信公证云(厦门)科技有限公司 一种分布式网页取证的方法及系统
CN109242048B (zh) * 2018-11-07 2022-04-08 电子科技大学 基于时间序列的视觉目标分布式聚类方法
CN109410588B (zh) * 2018-12-20 2022-03-15 湖南晖龙集团股份有限公司 一种基于交通大数据的交通事故演化分析方法
CN109885685A (zh) * 2019-02-01 2019-06-14 珠海世纪鼎利科技股份有限公司 情报数据处理的方法、装置、设备及存储介质
CN110069467A (zh) * 2019-04-16 2019-07-30 沈阳工业大学 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法
CN110222248A (zh) * 2019-05-28 2019-09-10 长江大学 一种大数据聚类方法及装置
CN110276449B (zh) * 2019-06-24 2021-06-04 深圳前海微众银行股份有限公司 一种基于无监督学习的数据处理方法及装置
CN111079653B (zh) * 2019-12-18 2024-03-22 中国工商银行股份有限公司 数据库自动分库方法及装置
CN111401412B (zh) * 2020-02-29 2022-06-14 同济大学 一种基于平均共识算法的物联网环境下分布式软聚类方法
CN111597230A (zh) * 2020-05-15 2020-08-28 江西理工大学 基于MapReduce的并行密度聚类挖掘方法
CN113515512A (zh) * 2021-06-22 2021-10-19 国网辽宁省电力有限公司鞍山供电公司 一种工业互联网平台数据的质量治理及提升方法
CN115952426B (zh) * 2023-03-10 2023-06-06 中南大学 基于随机采样的分布式噪音数据聚类方法及用户分类方法
CN116595102B (zh) * 2023-07-17 2023-10-17 法诺信息产业有限公司 一种改进聚类算法的大数据管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN104615638A (zh) * 2014-11-25 2015-05-13 浙江银江研究院有限公司 一种面向大数据的分布式密度聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120182891A1 (en) * 2011-01-19 2012-07-19 Youngseok Lee Packet analysis system and method using hadoop based parallel computation
CN107291847B (zh) * 2017-06-02 2019-06-25 东北大学 一种基于MapReduce的大规模数据分布式聚类处理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN104615638A (zh) * 2014-11-25 2015-05-13 浙江银江研究院有限公司 一种面向大数据的分布式密度聚类方法

Also Published As

Publication number Publication date
WO2018219163A1 (zh) 2018-12-06
CN107291847A (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN107291847B (zh) 一种基于MapReduce的大规模数据分布式聚类处理方法
CN102364498B (zh) 一种基于多标签的图像识别方法
WO2019067931A1 (en) SELF-ADJUSTMENT BASED ON A GRADIENT FOR LEARNING MACHINE AND DEPTH LEARNING MODELS
WO2021109464A1 (zh) 一种面向大规模用户的个性化教学资源推荐方法
CN108197144B (zh) 一种基于BTM和Single-pass的热点话题发现方法
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN109784405A (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
KR20210124109A (ko) 정보 처리, 정보 추천의 방법과 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
CN111026865B (zh) 知识图谱的关系对齐方法、装置、设备及存储介质
CN109598296A (zh) 一种基于改进飞蛾扑火k均值聚类方法
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
CN107341210A (zh) Hadoop平台下的C‑DBSCAN‑K聚类算法
CN109739984A (zh) 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
CN110210506A (zh) 基于大数据的特征处理方法、装置和计算机设备
Yang et al. Parallel implementation of ant-based clustering algorithm based on hadoop
Danesh et al. A novel hybrid knowledge of firefly and pso swarm intelligence algorithms for efficient data clustering
Li et al. GAP: Genetic algorithm based large-scale graph partition in heterogeneous cluster
Yu et al. DBWGIE-MR: A density-based clustering algorithm by using the weighted grid and information entropy based on MapReduce
Wang et al. Research and improvement on K-means clustering algorithm
CN104794215A (zh) 一种适合大规模数据的快速递归聚类方法
CN105354243B (zh) 基于归并聚类的并行化频繁概率子图搜索方法
Wang et al. A spark-based artificial bee colony algorithm for large-scale data clustering
Wang et al. An adaptively disperse centroids k-means algorithm based on mapreduce model
Shen et al. Optimisation of K-means algorithm based on sample density canopy
Sun et al. Optimization study and application on the K value of K-means algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220126

Address after: 100000 room 902, floor 9, building 3, courtyard 1, Zhongguancun East Road, Haidian District, Beijing

Patentee after: Beijing Dianwei Information Technology Co.,Ltd.

Address before: 110819 No. 3 lane, Heping Road, Heping District, Shenyang, Liaoning 11

Patentee before: Northeastern University

TR01 Transfer of patent right