CN102799486A - 一种MapReduce系统中的数据采样和划分方法 - Google Patents

一种MapReduce系统中的数据采样和划分方法 Download PDF

Info

Publication number
CN102799486A
CN102799486A CN2012102058417A CN201210205841A CN102799486A CN 102799486 A CN102799486 A CN 102799486A CN 2012102058417 A CN2012102058417 A CN 2012102058417A CN 201210205841 A CN201210205841 A CN 201210205841A CN 102799486 A CN102799486 A CN 102799486A
Authority
CN
China
Prior art keywords
task
key assignments
sampling
mapreduce
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102058417A
Other languages
English (en)
Other versions
CN102799486B (zh
Inventor
姚金宇
陈琪
肖臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201210205841.7A priority Critical patent/CN102799486B/zh
Publication of CN102799486A publication Critical patent/CN102799486A/zh
Application granted granted Critical
Publication of CN102799486B publication Critical patent/CN102799486B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种MapReduce系统中的数据采样和划分方法,其步骤包括:1)客户端向MapReduce系统中提交任务请求,所述MapReduce系统中的主控节点将Map任务划分成采样和普通任务,所述主控节点Master将采样任务优先下发到各个分节点Worker进行执行;2)根据各个分节点Worker上的Map采样任务筛选出样本集合,并将样本上传至主控节点Master进行合并;3)所述主控节点Master根据Map采样任务结果得到Reduce任务工作量,对Reduce任务划分键值区间,实现负载均衡,完成采样和划分。在存在数据倾斜的应用场景下,本发明可以较大幅度地提高整个MapReduce任务的执行效率,本发明的数据采样和划分算法对于原有MapReduce系统带来的额外开销较小,在数据分布比较均匀的应用场景下基本上不影响原系统的执行效率。

Description

一种MapReduce系统中的数据采样和划分方法
技术领域
本发明涉及分布式计算框架MapReduce系统中的数据采样和划分方法,属于计算机应用技术领域。
背景技术
云计算是当前工业界和学术界关注的热点,它改变了传统上由用户提供和维护计算资源的模式,改由云计算厂商集中化管理计算资源,用户可以根据不同的应用场景,按需获取相应的资源。如何利用资源集中化带来的并行性、容错性等特性,高效的提供云计算服务,成为了云计算模式最重要的研究问题之一。
MapReduce分布式计算框架是Google公司提出的软件架构,借鉴了函数式编程的思想,高效地进行大规模数据集的分布式计算。MapReduce框架以其优异的容错性、计算的高效性和使用的便捷性,迅速成为云计算环境下应用最广泛的分布式计算架构。尤其是2005年Apache Software Foundation引入基于MapReduce框架开发的Hadoop开源系统以来,MapReduce架构得到了更大的发展,利用MapReduce思想构建的分布式计算系统已经被Google、微软、Facebook、Yahoo!以及国内的腾讯、百度、阿里云等软件公司和互联网公司在各自的私有云集群中深度采用,并且也成为了当前部署云计算集群进行分布式计算的首选软件架构,在科学计算、人工智能、数据挖掘、信息处理等各个领域都得到了广泛的应用。
MapReduce框架将一个计算任务划分成若干个Map任务和Reduce任务。首先,输入数据集通过Map任务,映射成为若干(Key,Value)二元组。然后,键值Key相同的二元组被集中起来传输给Reduce任务,并处理成最终的输出数据。MapReduce任务通过将数据分块并行化实现了高效并行;并且计算节点周期性报告计算进度,保证了可靠性和容错性。大量的实际应用都可以很方便地转化成MapReduce模式并行执行。
在上述处理过程中,处理Map任务大多数情况下可以实现高度并行化;但Reduce任务受到相同键值Key的二元组数目的制约(MapReduce原始架构要求同一个键值的二元组必须在同一个Reduce计算节点上完成),在输入数据中即包含某一些键值的二元组数量特别大的时候,并行度会受到影响。当前最常用的Reduce负载均衡的算法是采用Hash划分(HadoopMapReduce中的默认方法就是Hash划分),即键值的Hash值(取模后)相同的所有二元组分配给同一个Reduce任务执行。在真实应用环境下,由于本身存在严重的数据倾斜(Data Skew),例如英文单词的分布、互联网网页的访问量分布、经济学中帕累托法则的数据分布等,这种盲目的负载均衡方法都会造成Reduce负载分布不均,使得整个任务执行效率很低。如果能够在MapReduce任务执行的过程中估测数据的分布,进而实现更加精准的Reduce负载均衡策略,无疑会很大程度上提高MapReduce任务的执行效率,从而对云计算服务的提供者和使用者都带来很大的好处。
发明内容
鉴于现有技术存在的不足,本发明提供了一种MapReduce系统中的实时数据采样、分布估测和区间划分方法,能够在MapReduce任务执行过程中对输入数据的分布进行预测,进而实现Reduce任务负载均衡,使得整个系统效率得到较大提升。
为了实现上述目的,本发明采用的技术方案概述如下:
一种在MapReduce系统中的数据采样和划分方法,其步骤包括:
1)客户端向MapReduce系统中提交任务请求,所述MapReduce系统中的主控节点将Map任务划分成采样和普通任务,所述主控节点Master将采样任务优先下发到各个分节点Worker进行执行;
2)根据各个分节点Worker上的Map采样任务筛选出样本集合,并将样本上传至主控节点Master进行合并;
3)所述主控节点Master根据Map采样任务结果得到Reduce任务工作量,对Reduce任务划分键值区间,实现负载均衡,完成采样和划分。
键值区间的划分方法是:
2-1)在合并的样本集合中,筛选出包含二元组最多的样本键值,以此划分初步键值域;
2-2)根据每一个键值区间中其它样本键值的个数,按样本的键值落在每个区间的比例将收集总键值数Ktot和收集总二元组数Rtot分配到每一个区间,得到待计算的二元组在键值域上分布;
2-3)根据所述键域分布,结合节点效率值计算出每一个Reduce任务的工作量,并且按照该工作量对键值域进行区间划分,得到每一个Reduce任务的最终键值区间。
节点效率值根据同一个节点所执行的Map任务的平均时间决定,与样本一同上传给主控节点的还包括,Map任务上传的键值总数KmapID和二元组总数RmapID
Map采样任务根据对当前Map任务的所有输出<key-value>二元组数量,生成S={<K1,N1>,<K2,N2>,…,<Kn,Nn>}样本集合,其中Ki表示键值,Ni表示包含Ki的二元组数目。
样本集合由二元组总数最大的样本集合p和抽取概率相同的其他样本q组成,p+q值是用户定制的样本集大小,p∶q值采用系统默认值或由用户根据应用定制。
p∶q值根据查询数据倾斜的强度设定,
1)数据倾斜接近设定阀值1时,p:q比值增大,使用出现次数最多的键值对于整个数据分布进行估测;
2)数据倾斜接近设定阀值2时,p:q比值减小,按照均匀分布的原则选取样本键值。
更进一步,所述每一个Map上传的样本集是对于键值有序,将两个有序序列进行合并,对于键值相同的样本,将他们的二元组数相加作为新的样本。
更进一步,所述划分键值区间包括粗粒度和细粒度两种划分,所述粗粒度划分包含同一个键值所有二元组在同一个Reduce任务上进行计算;细粒度包含同一个键值的二元组在不同的Reduce任务上进行计算。
更进一步,用户配置采样Map任务占总的Map任务的S%,每一个采样Map任务样本集合T,所述参S、T数定制原则是:
1)设主控节点上分配用于计算采样和划分的内存空间为M字节,每一个样本记录大小为P字节,总的Map任务数为m,则M≥P*T*(m*S%);
2)若输入数据的分布比较离散,每一个Map任务的所处理的数据分布相似,S调节减小;若输入数据的分布比较集中,不同的Map之间处理的数据分布不同,S调节增大。
更进一步,键值区间划分后,对在区间划分产生之前的Map任务写入本地文件,建立该文件的稀疏索引,对该文件的划分通过在稀疏索引中进行查找,定位到对应的切分点。
与现有技术相比,本发明的方法具有的技术效果有:
1)采用在MapReduce任务执行过程中对数据进行采样、区间划分等算法,使得可以较为准确地预测数据的分布。实验表明,在存在数据倾斜的应用场景下,本发明可以较大幅度地提高整个MapReduce任务的执行效率。
2)同时,本发明的数据采样和划分算法对于原有MapReduce系统带来的额外开销较小,在数据分布比较均匀的应用场景下基本上不影响原系统的执行效率。
3)本方法提供了包含同一个键值的二元组可以分配给不同的Reduce任务进行计算的用户接口(“细粒度”划分),在一些数据密集型的应用中可以得到并行度更高的执行,时间效率大大提高。
4)本方法不需要执行额外的辅助任务。用户原有的MapReduce应用程序可以直接在具有本方法的新系统中运行。对于不同的MapReduce应用程序,用户只需要定制相关的参数,不需要针对不同应用编写额外的预处理程序来得到Reduce负载均衡的划分。
5)本方法提供十分灵活和方便的用户可配置参数,用户可以根据不同的MapReduce应用进行具有针对性的配置,进一步提高任务的执行效率。
6)本方法适用于异构的云计算集群环境,更适合当前工业界和学术界真实云计算系统的应用场景。
附图说明
图1是本发明一种MapReduce系统中的数据采样和划分的流程图;
图2是本发明一种MapReduce系统中的数据采样采样方法流程图;
图3是本发明一种MapReduce系统中的数据划分方法流程图;
图4是本发明一种MapReduce系统中的数据采样和划分的方法在开源Hadoop系统上实现的实验结果示意图。
具体实施方式
以下结合附图对本发明的方法做详细的描述。
1)采样Map任务的分配和下发
在MapReduce分布式系统中,执行计算工作的Map任务和Reduce任务由一个主控节点进行统一调度和下发。在本方法中,用户配置采样Map任务占总的Map任务的百分比S%(一般为5%至20%的Map任务作为采样Map任务,默认值为20%),以及每一个采样Map任务所需要得到的样本集合大小T(默认值为1100)。主控节点根据该百分比指定相应数量的Map任务作为采样任务,并且优先下发这些任务进行计算。采样任务通过读取配置文件得到样本集合的大小。
在这里,参数S和T用户可以根据不同的应用进行配置,也可以使用默认值。参数定制的原则是:
(a)设主控节点上分配用于计算采样和划分的内存空间为M字节,每一个样本记录的大小为P字节,总的Map任务数为m。则有M≥P*T*(m*S%)。
(b)若输入数据的分布比较离散,即每一个Map任务的所处理的数据分布相似,此时S可以适当减小;若输入数据的分布比较集中,即不同的Map之间处理的数据分布迥异,则S可以适当增大。
2)采样算法详述
(a)对于每一个采样Map任务,需要生成一个p+q大小的样本集合,样本集合中每一个样本形如<K,N>的形式,其中K为键值,N为包含该键值的二元组总数。其中p个样本为所有该Map任务形成的<K,N>对中N值最大的样本集合,即出现次数最多的p个键值。其他q个样本为在剩余的<K,N>对中采用随机抽样的方法抽取q个记录,并且保证每一个记录被抽取的概率均等。
采样算法的流程图如图2所示。该算法在Map输出的基础上进行,整个算法对Map的输出只进行一遍扫描,时间复杂度为O(nlogn)。
该算法中p+q的值等于用户在1)中定制的样本集大小。而p∶q的比值可以采用系统默认值(默认为0.1),也可以由用户根据应用的需求进行定制。该参数根据数据倾斜(Data Skew)的强度(这里倾斜强度是指包含二元组较多的键值占整个数据集的比重。例如在符合Zipf分布P(r)=C/rα的数据集中,参数α的大小决定了数据倾斜的强度)定制,其原则如下:
(b)在数据倾斜较大(例如在Zipf分布中,α接近1.0)的应用中,p∶q的比值应尽可能增大,此时出现次数最多的键值对于整个数据分布的估测占有更大的比重。
(c)在数据倾斜较小(例如在Zipf分布中,α接近0)的应用中,p∶q的比值应尽可能减小,此时数据分布比较平均,应该尽可能按照均匀分布的原则选取样本键值。
每一个采样Map任务将收集到的样本集合里的<K,N>对按照键值K从小到大排序,并且连同该Map节点总共输出的键值个数KmapID和二元组个数RmapID一起,通过心跳传输回主控节点。
3)区间划分算法详述
区间划分(Range Partition)是数据库中分表策略的一种,在这里我们主要用于将键值域分成若干个区间,将落在每一个区间中的Map任务输出传输给对应的Reduce任务,以实现Reduce任务的负载均衡。区间划分的目标在于在键值域上找到每一个区间的划分点。
主控节点收集到采样Map任务传输回的样本集合之后,合并成一个大的样本集合。合并过程中对于键值相同样本的<K,N1>和<K,N2>,将它们合并成一个样本<K,N1+N2>。
主控节点收集到的所有采样任务分别上传的二元组数目RmapID,将它们进行累加得到这些Map任务一共输出的二元组数目Rtot
主控节点1)收集到的所有采样任务分别上传的键值数目KmapID,由于不同的Map任务会处理相同的键值,因此按如下方法估测总的键值数目Ktot:设当前已经合并的样本集合为Sprev,新上传的样本集合为Snew,当前估测的总键值数目为Kprev,新上传的Map任务中处理的总键值数目为Knew,则合并当前Map任务之后,总键值数目为Know=(Kprev+Knew)*|Sprev∪Snew|/(|Sprev|+|Snew|)。最终所有Map任务收集完之后的总键值数目设为Ktot。将所有样本中N值最大的p个样本取出,设为<KL 1,NL 1>,<KL 2,NL 2>,...,<KL p,NL p>。这p个样本中的键值KL1,KL2,...,KL3,将合并后的序列中,N值最大的p个样本取出作为标杆键值。
“标杆键值”,它们将键值域划分成p+1个区间,计算出落在每一个区间里的其他样本个数,设第i个区间包含了Key(i)个样本。假设所有Map任务所处理的键值中,不属于不包含在“标杆键值”的其它键值按样本中出现的比例均匀地分布在每一个区间里(因为在采样的过程中,键值是被按照均匀分布采集的),则我们可以根据用估测的键值总数来计算每一个区间里实际键值数目,即:
Key_real(i)=(Ktot-p)*Key(i)/(Key(1)+Key(2)+…+Key(p+1))
进一步地,设在第i个区间中所有样本的N值的平均值为AvgR(i),则我们按照如下公式计算每一个区间里的实际二元组数目:
Record _ real ( i ) = ( R tot - ( N 1 L + . . . + N P L ) ) * ( Avg ( i ) * Key _ real ( i ) ) ( Avg ( 1 ) * Key _ real ( 1 ) + Avg ( 2 ) * Key _ real ( 2 ) + . . . + Avg ( p + 1 ) * Key _ real ( p + 1 ) )
同时,我们假设“标杆键值”的所有二元组被完整采样出来,即包含kL I的实际二元组数目为NL i。并且假设每一个区间里面的二元组是平均分布到每一个键值上。至此我们就可以得到整个数据集上的一个大致分布。
通过上述分布可以计算每一个Reduce任务的划分。设Reduce数目为#Reduce个,在同构集群的环境下,设第i个Reduce的计算量为C(i),则C(i)=Rtot/#Reduce。在异构集群环境下,设第i个Reduce所在计算节点的效率值是q(i),通常的方法下,每一个Reduce任务的计算量一般就是设成一样。这个效率值就是让那些性能好的Reduce节点承担多一些的计算任务,使得整个应用执行效率加快。此时C(i)=Rtot*q(i)/(q(1)+…+q(#Reduce))。
根据每一个Reduce的计算量C(i),通过对样本的一遍扫描可以计算出划分点。假设根据计算量,某一个划分点应在第i个区间的1/k处,而落在该区间的样本数为V,则我们取落在该区间的第[V/k]取下整个样本作为划分点。
完整的划分算法流程见图3.
4)“细粒度”划分策略的补充
传统的MapReduce系统必须保证包含同一个键值的所有二元组在同一个Reduce节点上进行计算。事实上,在一些数据密集型的MapReduce应用中,在区间划分下,同一个键值的二元组可以分别在不同的Reduce上进行,进一步提高系统的并行度。而在最终只需要将最终的因此在本发明中,我们提供了“粗粒度”和“细粒度”的两种划分方式:
“粗粒度”是指传统的MapReduce系统的划分方式,表明必须要求同一个键值的所有二元组必须划分到同一个Reduce任务上进行计算。
“细粒度”是指包含同一个键值的二元组可以分配给多个Reduce执行。在这种策略下,上述划分过程中允许划分点在“标杆键值”中间,即划分点可以表示为(K,p%)的形式,表示包含键值K的p%个二元组分配给该划分点的前一个Reduce任务,其它部分划分给之后的Reduce任务。
举例说明,例如数据集包含如下二元组:<1,a>,<1,b>,<1,c>,<1,d>,<2,a>,<3,d>,其中{1,2,3}是键值集合,假设只有2个Reduce任务。在“粗粒度”的划分下,我们将得到键值的区间划分为[1,1]和[2,3],则第一个Reduce处理4个二元组(键值为1的),第二个Reduce处理2个二元组(键值为2和3的)。而在“细粒度”下,我们将得到的区间划分为[(1,0%),(1,75%)],[(1,25%),3],表明第一个Reduce处理75%的键值为1的二元组(3个),而第二个Reduce处理25%的键值为1的二元组以及所有键值为2和3的二元组(3个)。
5)划分的执行和系统优化
在得到区间划分之后,主控节点将划分下发给每一个Map任务和Reduce任务;Reduce任务根据自己所分配的键值区间,连接对应的Map任务获取结果;在区间划分产生之前的Map任务将输出写入一个本地大文件,并且同时得到该文件的一个稀疏索引。在得到下发的划分方式之后,根据索引将大文件划分成Reduce方便读取的文件块;在区间划分产生之后的Map任务根据已有的划分,直接将输出写成Reduce方便读取的文件块。
本方法在开源Apache Hadoop 1.0.0版本中实现为一个软件模块,编程语言为Java。我们通过排序应用对本方法进行了测试,实验对10G的整数数据进行排序,输入数据服从Zipf分布。我们根据Zipf中α系数从小到大进行多组实验,与Hadoop原有的两种策略进行对比。其实验结果如图4所示。图4中,横轴表示输入数据Zipf的α系数,该系数越大表示数据倾斜越厉害,纵轴表示排序执行时间。hadoop_hash_partition为采用Hadoop原始的Hash划分策略,hadoop_pre_partition为Hadoop中已经为排序应用实现的在应用之前进行数据预处理而得到划分的策略,range_partition为本方法的策略。该图表明,本方法在数据倾斜较大的情况下执行效率明显高出其他策略,而在数据倾斜较小的情况下也不会对原有的Hadoop系统的效率产生太大影响。
虽然本发明以前述的实施例公开如上,然其并非用以限定本发明。本发明所属技术领域中的技术人员,在不脱离本发明的精神和范围内,当可做些许的更改与润饰。因此本发明的保护范围以权利要求书为准。

Claims (10)

1.一种MapReduce系统中的数据采样和划分方法,其步骤包括:
1)客户端向MapReduce系统中提交任务请求,所述MapReduce系统中的主控节点将Map任务划分成采样和普通任务,所述主控节点Master将采样任务优先下发到各个分节点Worker进行执行;
2)根据各个分节点Worker上的Map采样任务筛选出样本集合,并将样本上传至主控节点Master进行合并;
3)所述主控节点Master根据Map采样任务结果得到Reduce任务工作量,对Reduce任务划分键值区间,实现负载均衡,完成采样和划分。
2.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,键值区间的划分方法是:
2-1)在合并的样本集合中,筛选出包含二元组最多的样本键值,以此划分初步键值域;
2-2)根据每一个键值区间中其它样本键值的个数,按样本的键值落在每个区间的比例将收集总键值数Ktot和收集总二元组数Rtot分配到每一个区间,得到待计算的二元组在键值域上分布;
2-3)根据所述键域分布,结合节点效率值计算出每一个Reduce任务的工作量,并且按照该工作量对键值域进行区间划分,得到每一个Reduce任务的最终键值区间。
3.如权利要求2所述的MapReduce系统中的数据采样和划分方法,其特征在于,节点效率值根据同一个节点所执行的Map任务的平均时间决定,与样本一同上传给主控节点的还包括,Map任务上传的键值总数KmapID和二元组总数RmapID
4.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,Map采样任务根据对当前Map任务的所有输出<key-value>二元组数量,生成S={<K1,N1>,<K2,N2>,…,<Kn,Nn>}样本集合,其中Ki表示键值,Ni表示包含Ki的二元组数目。
5.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,样本集合由二元组总数最大的样本集合p和抽取概率相同的其他样本q组成,p+q值是用户定制的样本集大小,p∶q值采用系统默认值或由用户根据应用定制。
6.如权利要求5所述的MapReduce系统中的数据采样和划分方法,其特征在于,p∶q值根据查询数据倾斜的强度设定,
6-1)数据倾斜接近设定阀值1时,p:q比值增大,使用出现次数最多的键值对于整个数据分布进行估测;
6-2)数据倾斜接近设定阀值2时,p:q比值减小,按照均匀分布的原则选取样本键值。
7.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,所述每一个Map上传的样本集是对于键值有序,将两个有序序列进行合并,对于键值相同的样本,将他们的二元组数相加作为新的样本。
8.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,所述划分键值区间包括粗粒度和细粒度两种划分,所述粗粒度划分包含同一个键值所有二元组在同一个Reduce任务上进行计算;细粒度包含同一个键值的二元组在不同的Reduce任务上进行计算。
9.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,用户配置采样Map任务占总的Map任务的S%,每一个采样Map任务样本集合T,所述参S、T数定制原则是:
9-1)设主控节点上分配用于计算采样和划分的内存空间为M字节,每一个样本记录大小为P字节,总的Map任务数为m,则M≥P*T*(m*S%);
9-2)若输入数据的分布比较离散,每一个Map任务的所处理的数据分布相似,S调节减小;若输入数据的分布比较集中,不同的Map之间处理的数据分布不同,S调节增大。
10.如权利要求1所述的MapReduce系统中的数据采样和划分方法,其特征在于,键值区间划分后,对在区间划分产生之前的Map任务写入本地文件,建立该文件的稀疏索引,对该文件的划分通过在稀疏索引中进行查找,定位到对应的切分点。
CN201210205841.7A 2012-06-18 2012-06-18 一种MapReduce系统中的数据采样和划分方法 Expired - Fee Related CN102799486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210205841.7A CN102799486B (zh) 2012-06-18 2012-06-18 一种MapReduce系统中的数据采样和划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210205841.7A CN102799486B (zh) 2012-06-18 2012-06-18 一种MapReduce系统中的数据采样和划分方法

Publications (2)

Publication Number Publication Date
CN102799486A true CN102799486A (zh) 2012-11-28
CN102799486B CN102799486B (zh) 2014-11-26

Family

ID=47198601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210205841.7A Expired - Fee Related CN102799486B (zh) 2012-06-18 2012-06-18 一种MapReduce系统中的数据采样和划分方法

Country Status (1)

Country Link
CN (1) CN102799486B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455375A (zh) * 2013-01-31 2013-12-18 南京理工大学连云港研究院 Hadoop云平台下基于负载监控的混合调度方法
CN103559263A (zh) * 2013-11-04 2014-02-05 北京奇虎科技有限公司 对多个图片集合进行合并的方法及系统
WO2014101545A1 (zh) * 2012-12-24 2014-07-03 深圳先进技术研究院 一种多媒体数据并行处理系统及方法
CN104156457A (zh) * 2014-08-19 2014-11-19 浪潮(北京)电子信息产业有限公司 一种基于MapReduce框架的网页排序方法和系统
CN105528431A (zh) * 2015-12-11 2016-04-27 博康智能网络科技股份有限公司 一种基于分布式系统的海量交通数据快速处理方法
CN105786938A (zh) * 2014-12-26 2016-07-20 华为技术有限公司 一种对大数据进行处理的方法和装置
US9411645B1 (en) 2015-08-26 2016-08-09 International Business Machines Corporation Scheduling MapReduce tasks based on estimated workload distribution
CN106033332A (zh) * 2015-03-10 2016-10-19 阿里巴巴集团控股有限公司 一种数据处理方法及设备
CN106681823A (zh) * 2015-11-05 2017-05-17 田文洪 一种处理MapReduce数据倾斜的负载均衡方法
CN107122242A (zh) * 2017-03-28 2017-09-01 成都优易数据有限公司 一种有效提升分布式运算性能的大数据均衡切片方法
CN107145394A (zh) * 2017-04-28 2017-09-08 中国人民解放军国防科学技术大学 一种针对数据倾斜的均衡负载处理方法及装置
CN108011744A (zh) * 2017-08-17 2018-05-08 北京车和家信息技术有限责任公司 获取key的方法及装置
CN108334596A (zh) * 2018-01-31 2018-07-27 华南师范大学 一种面向大数据平台的海量关系数据高效并行迁移方法
CN109901931A (zh) * 2019-03-07 2019-06-18 北京奇艺世纪科技有限公司 一种归约函数数量确定方法、装置及系统
CN110069502A (zh) * 2019-04-24 2019-07-30 东南大学 基于Spark架构的数据均衡分区方法及计算机存储介质
CN110266598A (zh) * 2019-06-20 2019-09-20 深圳市网心科技有限公司 一种路由信息处理方法、装置、设备及可读存储介质
CN110399413A (zh) * 2019-07-04 2019-11-01 博彦科技股份有限公司 数据抽样方法、装置、存储介质和处理器
CN110543354A (zh) * 2019-09-05 2019-12-06 腾讯科技(深圳)有限公司 任务调度方法、装置、设备及存储介质
CN110704515A (zh) * 2019-12-11 2020-01-17 四川新网银行股份有限公司 基于MapReduce模型的两阶段在线化采样方法
CN110750529A (zh) * 2018-07-04 2020-02-04 百度在线网络技术(北京)有限公司 数据处理方法、装置、设备及存储介质
CN111083189A (zh) * 2018-10-18 2020-04-28 北京京东尚科信息技术有限公司 用于在运行时处理数据倾斜的系统和方法
CN111104225A (zh) * 2019-12-23 2020-05-05 杭州安恒信息技术股份有限公司 一种基于MapReduce的数据处理方法、装置、设备及介质
CN111209270A (zh) * 2019-12-24 2020-05-29 曙光信息产业(北京)有限公司 一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法
CN113411237A (zh) * 2021-08-18 2021-09-17 成都丰硕智能数字科技有限公司 一种低延迟检测终端状态的方法、存储介质及系统
CN113420093A (zh) * 2021-06-30 2021-09-21 北京小米移动软件有限公司 热点检测方法、装置、存储服务器及存储介质
CN113761289A (zh) * 2021-02-02 2021-12-07 北京沃东天骏信息技术有限公司 图学习方法、框架、计算机系统及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183368A (zh) * 2007-12-06 2008-05-21 华南理工大学 联机分析处理中分布式计算及查询海量数据的方法和系统
CN101226557A (zh) * 2008-02-22 2008-07-23 中国科学院软件研究所 一种高效的关联主题模型数据处理方法及其系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183368A (zh) * 2007-12-06 2008-05-21 华南理工大学 联机分析处理中分布式计算及查询海量数据的方法和系统
CN101226557A (zh) * 2008-02-22 2008-07-23 中国科学院软件研究所 一种高效的关联主题模型数据处理方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李震等: "云计算环境下的改进型Map-Reduce 模型", 《计算机工程》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101545A1 (zh) * 2012-12-24 2014-07-03 深圳先进技术研究院 一种多媒体数据并行处理系统及方法
CN103455375A (zh) * 2013-01-31 2013-12-18 南京理工大学连云港研究院 Hadoop云平台下基于负载监控的混合调度方法
CN103455375B (zh) * 2013-01-31 2017-02-08 南京理工大学连云港研究院 Hadoop云平台下基于负载监控的混合调度方法
CN103559263A (zh) * 2013-11-04 2014-02-05 北京奇虎科技有限公司 对多个图片集合进行合并的方法及系统
CN104156457B (zh) * 2014-08-19 2017-12-29 浪潮(北京)电子信息产业有限公司 一种基于MapReduce框架的网页排序方法和系统
CN104156457A (zh) * 2014-08-19 2014-11-19 浪潮(北京)电子信息产业有限公司 一种基于MapReduce框架的网页排序方法和系统
US10691669B2 (en) 2014-12-26 2020-06-23 Huawei Technologies Co., Ltd. Big-data processing method and apparatus
CN105786938A (zh) * 2014-12-26 2016-07-20 华为技术有限公司 一种对大数据进行处理的方法和装置
CN106033332A (zh) * 2015-03-10 2016-10-19 阿里巴巴集团控股有限公司 一种数据处理方法及设备
CN106033332B (zh) * 2015-03-10 2019-07-26 阿里巴巴集团控股有限公司 一种数据处理方法及设备
US9891950B2 (en) 2015-08-26 2018-02-13 International Business Machines Corporation Scheduling MapReduce tasks based on estimated workload distribution
US9852012B2 (en) 2015-08-26 2017-12-26 International Business Machines Corporation Scheduling mapReduce tasks based on estimated workload distribution
US9411645B1 (en) 2015-08-26 2016-08-09 International Business Machines Corporation Scheduling MapReduce tasks based on estimated workload distribution
CN106681823A (zh) * 2015-11-05 2017-05-17 田文洪 一种处理MapReduce数据倾斜的负载均衡方法
CN105528431B (zh) * 2015-12-11 2019-05-14 新智认知数据服务有限公司 一种基于分布式系统的海量交通数据快速处理方法
CN105528431A (zh) * 2015-12-11 2016-04-27 博康智能网络科技股份有限公司 一种基于分布式系统的海量交通数据快速处理方法
CN107122242B (zh) * 2017-03-28 2020-09-11 成都优易数据有限公司 一种有效提升分布式运算性能的大数据均衡切片方法
CN107122242A (zh) * 2017-03-28 2017-09-01 成都优易数据有限公司 一种有效提升分布式运算性能的大数据均衡切片方法
CN107145394B (zh) * 2017-04-28 2020-05-08 中国人民解放军国防科学技术大学 一种针对数据倾斜的均衡负载处理方法及装置
CN107145394A (zh) * 2017-04-28 2017-09-08 中国人民解放军国防科学技术大学 一种针对数据倾斜的均衡负载处理方法及装置
CN108011744A (zh) * 2017-08-17 2018-05-08 北京车和家信息技术有限责任公司 获取key的方法及装置
CN108334596A (zh) * 2018-01-31 2018-07-27 华南师范大学 一种面向大数据平台的海量关系数据高效并行迁移方法
CN108334596B (zh) * 2018-01-31 2020-08-18 华南师范大学 一种面向大数据平台的海量关系数据高效并行迁移方法
CN110750529B (zh) * 2018-07-04 2022-09-23 百度在线网络技术(北京)有限公司 数据处理方法、装置、设备及存储介质
CN110750529A (zh) * 2018-07-04 2020-02-04 百度在线网络技术(北京)有限公司 数据处理方法、装置、设备及存储介质
CN111083189B (zh) * 2018-10-18 2023-04-18 北京京东尚科信息技术有限公司 用于在运行时处理数据倾斜的系统和方法
CN111083189A (zh) * 2018-10-18 2020-04-28 北京京东尚科信息技术有限公司 用于在运行时处理数据倾斜的系统和方法
CN109901931A (zh) * 2019-03-07 2019-06-18 北京奇艺世纪科技有限公司 一种归约函数数量确定方法、装置及系统
CN110069502A (zh) * 2019-04-24 2019-07-30 东南大学 基于Spark架构的数据均衡分区方法及计算机存储介质
CN110266598A (zh) * 2019-06-20 2019-09-20 深圳市网心科技有限公司 一种路由信息处理方法、装置、设备及可读存储介质
CN110399413A (zh) * 2019-07-04 2019-11-01 博彦科技股份有限公司 数据抽样方法、装置、存储介质和处理器
CN110543354A (zh) * 2019-09-05 2019-12-06 腾讯科技(深圳)有限公司 任务调度方法、装置、设备及存储介质
CN110543354B (zh) * 2019-09-05 2023-06-13 腾讯科技(上海)有限公司 任务调度方法、装置、设备及存储介质
CN110704515B (zh) * 2019-12-11 2020-06-02 四川新网银行股份有限公司 基于MapReduce模型的两阶段在线化采样方法
CN110704515A (zh) * 2019-12-11 2020-01-17 四川新网银行股份有限公司 基于MapReduce模型的两阶段在线化采样方法
CN111104225A (zh) * 2019-12-23 2020-05-05 杭州安恒信息技术股份有限公司 一种基于MapReduce的数据处理方法、装置、设备及介质
CN111209270A (zh) * 2019-12-24 2020-05-29 曙光信息产业(北京)有限公司 一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法
CN113761289A (zh) * 2021-02-02 2021-12-07 北京沃东天骏信息技术有限公司 图学习方法、框架、计算机系统及可读存储介质
CN113420093A (zh) * 2021-06-30 2021-09-21 北京小米移动软件有限公司 热点检测方法、装置、存储服务器及存储介质
CN113420093B (zh) * 2021-06-30 2024-07-30 北京小米移动软件有限公司 热点检测方法、装置、存储服务器及存储介质
CN113411237A (zh) * 2021-08-18 2021-09-17 成都丰硕智能数字科技有限公司 一种低延迟检测终端状态的方法、存储介质及系统

Also Published As

Publication number Publication date
CN102799486B (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
CN102799486B (zh) 一种MapReduce系统中的数据采样和划分方法
KR101885688B1 (ko) 낮은 지연속도 데이터 액세스를 위한 데이터 스트림의 분할
Ibrahim et al. Leen: Locality/fairness-aware key partitioning for mapreduce in the cloud
Ibrahim et al. Handling partitioning skew in mapreduce using leen
US20130297788A1 (en) Computer system and data management method
Bender et al. Cache-adaptive algorithms
Zygouras et al. Insights on a scalable and dynamic traffic management system.
US20110238677A1 (en) Dynamic Sort-Based Parallelism
CN104391748A (zh) 一种mapreduce计算过程优化方法
Dagade et al. Big data weather analytics using hadoop
Senthilkumar et al. A survey on job scheduling in big data
Jiang et al. Parallel K-Medoids clustering algorithm based on Hadoop
CN102306205A (zh) 一种事务分配方法和装置
Jiang et al. Resource-utilization-aware task scheduling in cloud platform using three-way clustering
Gavagsaz et al. Load balancing in reducers for skewed data in MapReduce systems by using scalable simple random sampling
US20200159594A1 (en) Systems and methods for dynamic partitioning in distributed environments
CN107391508B (zh) 数据加载方法和系统
CN108776698B (zh) 一种基于Spark的抗偏斜的数据分片方法
Xu et al. Balancing reducer workload for skewed data using sampling-based partitioning
Zhang et al. A parallel task scheduling algorithm based on fuzzy clustering in cloud computing environment
CN104778088A (zh) 一种基于减少进程间通信开销的并行i/o优化方法与系统
Roy et al. A proposal for optimization of data node by horizontal scaling of name node using big data tools
CN112445776A (zh) 基于Presto的动态分桶方法、系统、设备及可读存储介质
Kargar et al. Load balancing in MapReduce on homogeneous and heterogeneous clusters: an in-depth review
Chai et al. Profit-oriented task scheduling algorithm in Hadoop cluster

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141126

Termination date: 20170618