CN104933110A - 一种基于MapReduce的数据预取方法 - Google Patents

一种基于MapReduce的数据预取方法 Download PDF

Info

Publication number
CN104933110A
CN104933110A CN201510299063.6A CN201510299063A CN104933110A CN 104933110 A CN104933110 A CN 104933110A CN 201510299063 A CN201510299063 A CN 201510299063A CN 104933110 A CN104933110 A CN 104933110A
Authority
CN
China
Prior art keywords
node
data block
computing
nodes
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510299063.6A
Other languages
English (en)
Other versions
CN104933110B (zh
Inventor
高胜立
薛瑞尼
敖立翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510299063.6A priority Critical patent/CN104933110B/zh
Publication of CN104933110A publication Critical patent/CN104933110A/zh
Application granted granted Critical
Publication of CN104933110B publication Critical patent/CN104933110B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Abstract

本发明提供一种基于MapReduce的数据预取方法,属于计算机技术领域。本发明方法通过性能评估来预测各计算节点的数据块处理量,并根据一系列的计算来评估哪些计算节点会出现非本地化任务,对于通过计算评估的非本地化任务,在计算节点还未申请处理该任务时就提前预取到计算节点本地,从而使得计算节点不会产生计算等待。本发明的目的是提升MapReduce作业的执行效率和系统的整体吞吐率,从而使得计算节点不需要等待数据块的远程传输,提升计算节点的利用率。本发明提出的预取方法可以同时工作在同构和异构MapReduce集群环境,这种预取的思想也不单单针对MapReduce,所有分布式的计算框架都可以借鉴改进。

Description

一种基于MapReduce的数据预取方法
技术领域
本发明属于计算机技术领域,具体涉及一种关于MapReduce的数据预取方法。
背景技术
作为Hadoop的核心组件之一,MapReduce主要用于分布式计算。在Hadoop平台上,MapReduce的分布式计算框架是搭建在分布式文件系统HDFS(Hadoop Distributed File System)上的,也就是说,MapReduce框架所需的数据输入和数据输出都是基于HDFS的。MapReduce在进行数据处理时,将一个大的作业分成一个个小的计算任务,这些小的任务分为Map任务和Reduce任务,Map任务从HDFS上获取数据作为输入,并且不同Map任务间是相互独立的;Reduce任务的数据输入来源于Map的输出,并最终将处理完的数据存储到HDFS上。
HDFS分布式文件系统在存储数据时,将数据分成默认大小为128MB的数据块,然后以冗余的形式(默认数据本体加备份数总计为3)存储在HDFS上,而HDFS上的数据块最终也是存储到各物理节点上,这些物理节点既承担着数据存储的任务,也承担着数据计算的任务。
Map的数据输入来源于HDFS上的数据块,在处理数据块时,一般是优先选择本地的数据块,然后其次是本机架的数据块,最后才是选择本数据中心的数据块。然而,由于一个作业的数据块在HDFS上并不能完全匹配MapReduce的执行场景来实现高程度的本地化,因为在计算的时候,由于计算节点性能各异,当一个计算节点找不到本地化的任务时,需要等待远程数据块传输到本地,在这个过程中,需要浪费大量的等待时间,从而给集群整体吞吐率和单个作业的执行效率造成影响。所以,如果能有一种预取方法,能将各计算节点未来需要处理的数据块在任务还没有开始前就提前预取到计算节点本地,那将大大提升作业的执行效率和整个集群的吞吐率。
Seo等人(HPMR:Prefetching and pre-shuffling in shared MapReduce computationenvironment[C]//Cluster Computing and Workshops,2009.CLUSTER'09.IEEE InternationalConference on.IEEE,2009:1-8.)系统分析了MapReduce作业的执行场景和网络带宽在MapReduce计算中的重要性,并提出一种预取和提前Shuffle的方案用于减少网络带宽的消耗和提升集群吞吐量和作业执行效率,然而,这种预取并不能保证好的预取效果,因为没有考虑到计算节点的性能因素。
发明内容
本发明的目的是提升MapReduce作业的执行效率和系统任务的整体吞吐率,具体实施手段是通过在MapReduce调度中实现非本地化任务的预测并实现提前预取数据块到本地的目的,从而使得计算节点不需要等待数据块的远程传输,提升计算节点的利用率。本发明提出的预取方法可以同时工作在同构和异构MapReduce集群环境,这种预取的思想也不单单针对MapReduce,所有分布式的计算框架都可以借鉴改进。
本发明方法通过性能评估来预测各计算节点的数据块处理量,并根据一系列的计算来评估哪些计算节点会出现非本地化任务,对于通过计算评估的非本地化任务,在计算节点还未申请处理该任务时就提前预取到计算节点本地,从而使得计算节点不会产生计算等待。
本发明具体采用如下技术方案:
一种基于MapReduce的数据预取策略方法,其流程如图1所示,在拥有n个物理计算节点的集群上,针对得到调度的某个具体作业A,在其实施过程中按以下方法进行数据预取:
步骤1:由于集群有同构和异构之分,在计算尚未开始时假设集群是同构的,即假设所有计算节点的计算性能Pi均为1,其中i∈[1,n];对于作业A,假设该作业对应的数据块个数为b个,且每个数据块在HDFS上的默认备份数为3,设各计算节点上的数据块个数为FTi,则总数据块数量∑FTi=3b;
为每个计算节点分配第一轮任务,即为每个物理计算节点分配一个数据块,每个计算节点处理其分配到的第一个计算任务,并计算每个物理计算节点实际计算性能RPTi,其中i=1,…,n;
步骤2:统计各计算节点针对作业A还需要处理的任务个数PBTi
步骤3:计算各计算节点完全本地化的概率LP,第i个计算节点完全本地化的概率LPTi=LTi/PBTi,其中LTi为第i个计算节点当前未处理的本地化数据块数量;
步骤4:在作业A的任务执行过程中,时刻监测所有计算节点的本地化概率LP值,将所有计算节点按照LP值由低至高进行排序得计算节点序列;
步骤5:若所述计算节点序列中第一个计算节点的LP值不小于1,则不作任何操作;
若作业A的执行过程中,所述计算节点序列中的前f个节点的LP值小于1,f≥1,将节点记为T1、…、Tf,执行步骤6至步骤12所述的数据预取过程;根据设计要求,节点T1至少还需要分配a=PBT1-LT1个数据块到其本地其LP值才不小于1;
步骤6:锁定节点T1上的所有本地数据块,且节点T1的所有本地数据块在其他节点上对应的数据块备份都不能被调度,已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中;
步骤7:针对剩余的n-1个计算节点,按步骤6所述条件重新计算各自的本地化概率LP,并按照LP值由低至高进行排序得新的计算节点序列T2、…、Tn
步骤8:在新的节点序列T2、…、Tn中,从其最后一个计算节点Tn开始由后向前选取一个最先同时满足以下三个条件的节点Tt并从该节点选取一个满足以下条件的数据块bt
1)所述节点Tt的本地化概率LPt大于1;
2)从节点Tt提取一个数据块bt,该数据块bt及其备份数据块只能存储在满足条件1)的节点上,即所述备份数据块所在节点的本地化概率均大于1;
3)将数据块bt从节点Tt中剔除,重新计算节点Tt的本地化概率LPt_2,此时新的本地化概率LPt_2不小于1;数据块bt的备份数据块所在的节点也要满足上述要求,即把所述备份数据块从其所在节点中剔除,并重新计算这些节点的本地化概率,计算所得的本地化概率均不小于1;
步骤9:将满足步骤8所述三个条件的数据块bt从其原先所在的节点预取至节点T1中;
步骤10:重复执行至少a次步骤6至步骤9的操作过程,使节点T1的本地化数据块数量至少增加a个,由此使得节点T1的本地化概率LP不小于1,即节点T1已完全本地化;
步骤11.在完成节点T1的完全本地化之后,锁定节点T1上的所有本地数据块,且节点T1的所有本地数据块在其他节点上对应的备份数据块都不能被调度,已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中;
步骤12.针对剩余的n-1个计算节点,按步骤11的条件重新计算各个节点的本地化概率LP值并按照LP值由低至高进行排序构建新的计算节点序列,按步骤5至步骤11所述方法对本步骤所得的新的计算节点序列进行操作;
按上述方法即可实现所有计算节点的本地化概率LP值不小于1,由此完成数据预取过程。
本发明的有益效果是:
本发明提出一种可以同时工作在同构和异构集群环境下的MapReduce任务预取方法,该方法可以动态适应集群规模进行动态高效率预取,实施灵活方便,在各计算节点还没提出任务申请之前就将其需要处理的任务提前预取到本地,提升了机器计算节点的利用率,也缩短了在集群上的计算作业的执行时间,从而最终提升MapReduce集群的整体吞吐率。
附图说明
图1为本发明提供的基于MapReduce的数据预取方法流程图。
具体实施方式
本具体实施方式采用如下技术方案:
一种基于MapReduce的数据预取策略方法,其流程如图1所示,在拥有n个物理计算节点的集群上,针对得到调度的某个具体作业A,在其实施过程中按以下方法进行数据预取:
步骤1:由于集群有同构和异构之分,在计算尚未开始时假设集群是同构的,即假设所有物理计算节点的计算性能Pi均为1,其中i∈[1,n];对于作业A,假设该作业对应的数据块个数为b个,且每个数据块在HDFS上的默认备份数为3,设各计算节点上的数据块个数为FTi,则总数据块数量∑FTi=3b;
以各计算节点的关于作业A的本地化数据块数量为参量建立小顶堆并进行作业A的第一轮任务分配,即为每个物理计算节点分配一个数据块;第一轮任务分配过程中,首先对位于小顶堆堆顶对应的计算节点分配任务,分配完成后,对剩余的尚未分配的各计算节点按上述方法重新构建小顶堆,并对新的小顶堆堆顶对应的计算节点分配任务,按上述方法进行重复操作直至所有物理计算节点均分配到第一个计算任务;每个计算节点处理其分配到的第一个计算任务,并计算每个物理计算节点处理各自申请的第一个计算任务所需要的时间,由此得到每个物理计算节点的实际计算性能RPTi,其中i=1,…,n;
步骤2:计算各物理计算节点针对作业A还需要处理的任务个数PBTi,计算方法如下:
作业A的第一轮任务分配及计算完成后,对于作业A剩余的m=b-n个数据块,每个物理计算节点应处理的数据块数量CBTi=m·RPTi/(RPT1+…+RPTn);通常情况下CBTi为非整数,对CBTi向下取整得整数DCBTi,即CBTi=DCBTi+Si,0≤Si<1,则有m=(DCBT1+…+DCBTn)+S,其中S=S1+…+Sn为各计算节点取整后剩余小数累加的和得到的整数未分配数据块数量;
设Qr为集群中计算性能最高与最低的物理计算节点之间的实际计算性能值之比,对Qr向上取整得整数Q,即Qr≤Q<Qr+1,计算每个物理计算节点分别再处理Di+1,…,Di+Q个数据块所需要的时间加上该计算节点处理完正在处理的任务的剩余时间的和ti,1,…,ti,Q,由此得到n×Q个时间数据t1,1,…,t1,Q,…,ti,1,…,ti,Q,…,tn,1,…,tn,Q,按由小到大顺序对所述n×Q个时间数据进行排列并构成一个映射列表,列表中的每一个时间均映射一个其相应的物理计算节点;
选取映射列表中前S个时间所映射的S个物理计算节点,统计整个计算集群中第i个物理计算节点在这S个物理计算节点中出现的次数Li
针对第i个物理计算节点,经过计算最终需要处理的数据块个数为PBTi=(DCBTi+Li)个,且m=(PBT1+…+PBTn);
步骤3:计算各计算节点完全本地化的概率LP,第i个物理计算节点完全本地化的概率LPTi=LTi/PBTi,其中LTi为第i个物理计算节点当前未处理的本地化数据块数量,所述本地化数据块包括作业A的数据块及其备份数据块;LP代表各节点任务完全本地化的概率,对于一个计算节点,LP值越大表明该节点申请本地化任务的概率越大,LP值越小表明该节点申请本地化任务的概率越小;特别是当LP值小于1时,该节点未来将一定存在非本地化的计算任务;由于数据块在HDFS上存在冗余,所以LP大于1的节点随着计算节点上数据块的分配其LP的值可能趋于小于或等于1;
步骤4:在作业A的任务执行过程中,时刻监测所有物理计算节点的本地化概率LP值,将所有物理计算节点按照LP值由低至高进行排序得计算节点序列,越靠前的计算节点出现非本地化任务的概率越大;排序完成的物理计算节点序列可以分成三个部分:LP值小于1、LP值等于1、LP值大于1;
步骤5:若所述计算节点序列中第一个计算节点的LP值不小于1,则不作任何操作;
若执行过程中,所述节点序列中的前f个节点的LP值小于1,f≥1,将节点记为T1、…、Tf,执行步骤6至步骤12所述的数据预取过程;根据设计要求,节点T1至少还需要分配a=PBT1-LT1个数据块到其本地其LP值才不小于1;
步骤6:锁定节点T1上的所有本地数据块,且节点T1的所有本地数据块在其他节点上对应的数据块备份都不能被调度,已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中;
步骤7:针对剩余的n-1个物理计算节点,按上述条件重新计算各自的本地化概率LP并按照LP值由低至高进行排序得新的计算节点序列T2、…、Tn
步骤8:在新的节点序列T2、…、Tn中,从其最后一个节点Tn开始由后向前选取一个最先同时满足以下三个条件的节点Tt并从该节点选取一个满足以下条件的数据块bt
1)所述节点Tt的本地化概率LPt大于1;
2)从节点Tt提取一个数据块bt,该数据块bt及其备份数据块只能存储在满足条件1)的节点上;
3)将数据块bt从节点Tt中剔除,重新计算节点Tt的本地化概率LPt_2,此时新的本地化概率LPt_2不小于1,对数据块bt的备份数据块所在的节点也要满足这个要求;
步骤9:将满足步骤8所述三个条件的数据块bt从其原先所在的节点预取至节点T1中;
步骤10:重复执行至少a次步骤6至步骤9的操作过程,使节点T1的本地化数据块数量至少增加a个,由此使得节点T1的本地化概率LP不小于1,即节点T1已完全本地化;
步骤11.在完成节点T1的完全本地化之后,锁定节点T1上的所有本地数据块,且节点T1的所有本地数据块在其他节点上对应的数据块备份都不能被调度,已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中;
步骤12.针对剩余的n-1个计算节点,按步骤11的条件重新计算各个节点的本地化概率LP值并按照LP值由低至高进行排序构建新的计算节点序列,按步骤5至步骤11所述方法对本步骤所得的新的计算节点序列进行操作;
按上述方法操作,即可实现所有计算节点的本地化概率LP值不小于1,由此完成数据预取过程。

Claims (3)

1.一种基于MapReduce的数据预取方法,在拥有n个物理计算节点的集群上,针对得到调度的某个具体作业A,在其实施过程中按以下方法进行数据预取:
步骤1:由于集群有同构和异构之分,在计算尚未开始时假设集群是同构的,即假设所有计算节点的计算性能Pi均为1,其中i∈[1,n];对于作业A,假设该作业对应的数据块个数为b个,且每个数据块在HDFS上的默认备份数为3,设各计算节点上的数据块个数为FTi,则总数据块数量∑FTi=3b;
为每个计算节点分配第一轮任务,即为每个物理计算节点分配一个数据块,每个计算节点处理其分配到的第一个计算任务,并计算每个物理计算节点处理各自申请的第一个计算任务所需要的时间,由此得到每个物理计算节点的实际计算性能RPTi,其中i=1,…,n;
步骤2:统计各计算节点针对作业A还需要处理的任务个数PBTi
步骤3:计算各计算节点完全本地化的概率LP,第i个计算节点完全本地化的概率LPTi=LTi/PBTi,其中LTi为第i个计算节点当前未处理的本地化数据块数量;
步骤4:在作业A的任务执行过程中,时刻监测所有计算节点的本地化概率LP值,将所有计算节点按照LP值由低至高进行排序得计算节点序列;
步骤5:若所述计算节点序列中第一个计算节点的LP值不小于1,则不作任何操作;
若作业A的执行过程中,所述计算节点序列中的前f个节点的LP值小于1,f≥1,将节点记为T1、…、Tf,执行步骤6至步骤12所述的数据预取过程;根据设计要求,节点T1至少还需要分配a=PBT1-LT1个数据块到其本地其LP值才不小于1;
步骤6:锁定节点T1上的所有本地数据块,且节点T1的所有本地数据块在其他节点上对应的数据块备份都不能被调度,已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中;
步骤7:针对剩余的n-1个计算节点,按步骤6所述条件重新计算各自的本地化概率LP,并按照LP值由低至高进行排序得新的计算节点序列T2、…、Tn
步骤8:在新的节点序列T2、…、Tn中,从其最后一个计算节点Tn开始由后向前选取一个最先同时满足以下三个条件的节点Tt并从该节点选取一个满足以下条件的数据块bt
1)所述节点Tt的本地化概率LPt大于1;
2)从节点Tt提取一个数据块bt,且该数据块bt的备份数据块所在节点的本地化概率均大于1;
3)将数据块bt从节点Tt中剔除,重新计算节点Tt的本地化概率LPt_2,此时新的本地化概率LPt_2不小于1;数据块bt的备份数据块所在的节点也要满足上述要求,即把所述备份数据块从其所在节点中剔除,并重新计算这些节点的本地化概率,计算所得的本地化概率均不小于1;
步骤9:将满足步骤8所述三个条件的数据块bt从其原先所在的节点预取至节点T1中;
步骤10:重复执行至少a次步骤6至步骤9的操作过程,使节点T1的本地化数据块数量至少增加a个,由此使得节点T1的本地化概率LP不小于1,即节点T1已完全本地化;
步骤11.在完成节点T1的完全本地化之后,锁定节点T1上的所有本地数据块,且节点T1的所有本地数据块在其他节点上对应的备份数据块都不能被调度,已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中;
步骤12.针对剩余的n-1个计算节点,按步骤11的条件重新计算各个节点的本地化概率LP值并按照LP值由低至高进行排序构建新的计算节点序列,按步骤5至步骤11所述方法对本步骤所得的新的计算节点序列进行操作;
按上述方法,可使所有计算节点的本地化概率LP值不小于1,由此完成数据预取过程。
2.根据权利要求1所述的基于MapReduce的数据预取方法,其特征在于,具体按照以下方法实现步骤1所述的为每个计算节点分配第一轮任务:以各计算节点的关于作业A的本地化数据块数量为参量建立小顶堆并进行作业A的第一轮任务分配,即为每个物理计算节点分配一个数据块;第一轮任务分配过程中,首先对位于小顶堆堆顶对应的计算节点分配任务,然后对剩余的尚未分配的各计算节点重新构建小顶堆,并对新的小顶堆堆顶对应的计算节点分配任务,按上述方法进行重复操作直至所有物理计算节点均分配到第一个计算任务。
3.根据权利要求1所述的基于MapReduce的数据预取方法,其特征在于,步骤2所述的需要处理的任务个数PBTi具体按照以下方法获得:
对于作业A剩余的m=b-n个数据块,每个物理计算节点应处理的数据块数量CBTi=m·RPTi/(RPT1+…+RPTn);通常情况下CBTi为非整数,对CBTi向下取整得整数DCBTi,即CBTi=DCBTi+Si,0≤Si<1,则有m=(DCBT1+…+DCBTn)+S,其中S=S1+…+Sn为各计算节点取整后剩余小数累加的和得到的整数未分配数据块数量;
设Qr为集群中计算性能最高与最低的物理计算节点之间的实际计算性能值之比,对Qr向上取整得整数Q,即Qr≤Q<Qr+1,计算每个物理计算节点分别再处理Di+1,…,Di+Q个数据块所需要的时间加上该计算节点处理完正在处理的任务的剩余时间的和ti,1,…,ti,Q,由此得到n×Q个时间数据t1,1,…,t1,Q,…,ti,1,…,ti,Q,…,tn,1,…,tn,Q,按由小到大顺序对所述n×Q个时间数据进行排列并构成一个映射列表,列表中的每一个时间均映射一个其相应的物理计算节点;
选取映射列表中前S个时间所映射的S个物理计算节点,统计整个计算集群中第i个物理计算节点在这S个物理计算节点中出现的次数Li;针对第i个物理计算节点,经过计算最终需要处理的数据块个数为PBTi=(DCBTi+Li)个,且m=(PBT1+…+PBTn)。
CN201510299063.6A 2015-06-03 2015-06-03 一种基于MapReduce的数据预取方法 Expired - Fee Related CN104933110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510299063.6A CN104933110B (zh) 2015-06-03 2015-06-03 一种基于MapReduce的数据预取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510299063.6A CN104933110B (zh) 2015-06-03 2015-06-03 一种基于MapReduce的数据预取方法

Publications (2)

Publication Number Publication Date
CN104933110A true CN104933110A (zh) 2015-09-23
CN104933110B CN104933110B (zh) 2018-02-09

Family

ID=54120278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510299063.6A Expired - Fee Related CN104933110B (zh) 2015-06-03 2015-06-03 一种基于MapReduce的数据预取方法

Country Status (1)

Country Link
CN (1) CN104933110B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808334A (zh) * 2016-03-04 2016-07-27 山东大学 一种基于资源重用的MapReduce短作业优化系统及方法
WO2017157145A1 (zh) * 2016-03-17 2017-09-21 华为技术有限公司 一种数据预取方法以及装置
CN110502337A (zh) * 2019-07-12 2019-11-26 上海交通大学 针对Hadoop MapReduce中混洗阶段的优化系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073546A (zh) * 2010-12-13 2011-05-25 北京航空航天大学 一种云计算环境中分布式计算模式下的任务动态调度方法
US7984043B1 (en) * 2007-07-24 2011-07-19 Amazon Technologies, Inc. System and method for distributed query processing using configuration-independent query plans
CN102332027A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量非独立小文件关联存储方法
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法
CN104331464A (zh) * 2014-10-31 2015-02-04 许继电气股份有限公司 一种基于MapReduce的监控数据优先预取处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7984043B1 (en) * 2007-07-24 2011-07-19 Amazon Technologies, Inc. System and method for distributed query processing using configuration-independent query plans
CN102073546A (zh) * 2010-12-13 2011-05-25 北京航空航天大学 一种云计算环境中分布式计算模式下的任务动态调度方法
CN102332027A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量非独立小文件关联存储方法
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法
CN104331464A (zh) * 2014-10-31 2015-02-04 许继电气股份有限公司 一种基于MapReduce的监控数据优先预取处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张霄宏 等: ""一种适用于Hadoop MapReduce环境的数据预取方法"", 《西安电子科技大学学报(自然科学版)》 *
陈若飞 等: ""Hadoop 作业调度本地性的研究与优化"", 《软件》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808334A (zh) * 2016-03-04 2016-07-27 山东大学 一种基于资源重用的MapReduce短作业优化系统及方法
CN105808334B (zh) * 2016-03-04 2016-12-28 山东大学 一种基于资源重用的MapReduce短作业优化系统及方法
WO2017157145A1 (zh) * 2016-03-17 2017-09-21 华为技术有限公司 一种数据预取方法以及装置
CN110502337A (zh) * 2019-07-12 2019-11-26 上海交通大学 针对Hadoop MapReduce中混洗阶段的优化系统及方法
CN110502337B (zh) * 2019-07-12 2023-02-07 上海交通大学 针对Hadoop MapReduce中混洗阶段的优化系统

Also Published As

Publication number Publication date
CN104933110B (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
Li et al. Near-optimal straggler mitigation for distributed gradient methods
CN105068874A (zh) 一种结合Docker技术的资源按需动态分配方法
CN103188521B (zh) 转码分配方法及装置,转码方法及设备
CN104657220A (zh) 混合云中基于截止时间和费用约束的调度模型及方法
Dias et al. Parallel computing applied to the stochastic dynamic programming for long term operation planning of hydrothermal power systems
CN105373517A (zh) 基于Spark的分布式稠密矩阵求逆并行化运算方法
CN105718364A (zh) 一种云计算平台中计算资源能力动态评估方法
Zhang et al. Edge-to-edge cooperative artificial intelligence in smart cities with on-demand learning offloading
CN102541858A (zh) 基于映射和规约的数据均衡性处理方法、装置及系统
Ozfatura et al. Gradient coding with clustering and multi-message communication
CN103812949A (zh) 一种面向实时云平台的任务调度与资源分配方法及系统
CN108304256B (zh) 一种边缘计算中低开销的任务调度方法及装置
CN113867295A (zh) 一种基于数字孪生的制造车间agv动态调度方法、系统、设备及存储介质
CN110535700B (zh) 一种多用户多边缘服务器场景下的计算卸载方法
CN104461748A (zh) 一种基于MapReduce的最优本地化任务调度方法
CN104881322A (zh) 一种基于装箱模型的集群资源调度方法及装置
CN111611062A (zh) 云边协同分层计算方法及云边协同分层计算系统
CN104933110A (zh) 一种基于MapReduce的数据预取方法
CN107704322A (zh) 请求分配方法及装置
CN105005503A (zh) 基于元胞自动机的云计算负载均衡任务调度方法
Fuketa et al. Image-classifier deep convolutional neural network training by 9-bit dedicated hardware to realize validation accuracy and energy efficiency superior to the half precision floating point format
CN113163004B (zh) 一种工业互联网边缘任务卸载决策方法、装置及存储介质
CN104915250B (zh) 一种实现作业内的MapReduce数据本地化的方法
KR20160081231A (ko) 이미지 기반 검색을 위한 맵리듀스 기반의 이미지 특징 추출 방법 및 시스템
WO2023071374A1 (zh) 货物的数据处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180209

Termination date: 20200603

CF01 Termination of patent right due to non-payment of annual fee