CN109144709A - 一种处理大数据平台yarn数据分配不均衡的方法 - Google Patents

一种处理大数据平台yarn数据分配不均衡的方法 Download PDF

Info

Publication number
CN109144709A
CN109144709A CN201710457255.4A CN201710457255A CN109144709A CN 109144709 A CN109144709 A CN 109144709A CN 201710457255 A CN201710457255 A CN 201710457255A CN 109144709 A CN109144709 A CN 109144709A
Authority
CN
China
Prior art keywords
task
data
interval
brachyskelic
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710457255.4A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongke Cluster Information Technology Co ltd
Original Assignee
Huang Chaojie
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huang Chaojie filed Critical Huang Chaojie
Priority to CN201710457255.4A priority Critical patent/CN109144709A/zh
Publication of CN109144709A publication Critical patent/CN109144709A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Knitting Of Fabric (AREA)

Abstract

本发明实施例公开了一种处理大数据平台YARN数据分配不均衡的方法与装置,涉及集群资源调度、负载均衡领域。随着大规模的MapReduce集群广泛地用于大数据处理,当前主要问题之一是如何最大限度地减少其工作时间,提高MapReduce作业的服务效率;在MapReduce过去的研究当中,较少的涉及到数据均衡相关问题,本发明针对MapReduce运行流程中常常会出现的数据倾斜问题,提出了YarnTune的解决方法,所述方法包括步骤:倾斜检测(Skew detection)以用来确定哪个任务在执行过程中发生倾斜现象;接着主节点要求短腿型任务停止运行;然后采用本地扫描或者并行扫描的方法来划分间隔大小;最后对划分出的以间隔为单位的未完成任务进行重新分配,直到所有任务处理完毕。

Description

一种处理大数据平台YARN数据分配不均衡的方法
技术领域
本发明涉及在线集群资源调度技术领域,尤其涉及一种处理大数据平台YARN数据分配不均衡的方法与装置。
背景技术
Hadoop2.0 Yarn是一个以可靠、高效、可伸缩的方式对大量数据进行分布式处理的软件框架。Hadoop2.0 Yarn集群主要的任务部署分为YARN Client、ResourceManager(RM)、NodeManager(NM)、Container和ApplicationMaster(AM)5个部分,如图1所示。YARNClient提交Application到RM,它会首先创建一个Application上下文对象,并设置AM必需的资源请求信息,然后提交到RM。
YARN Client也可以与RM通信,获取到一个已经提交并运行的Application的状态信息等,RM是YARN集群的Master,负责管理整个集群的资源调度与分配;
RM作为集群资源的管理和调度的角色,如果存在单点故障,则整个集群的资源都无法使用,在2.4.0版本新增了RM的HA特性,增加了RM的可用性;
NM是YARN集群的Slave,是集群中实际拥有资源的工作节点。我们提交Job以后,会将组成Job的多个Task调度到对应的NM上进行执行。Hadoop集群中,为了获得分布式计算中的Locality特性,会将DN和NM在同一个节点上运行,这样对应的HDFS上的Block可能就在本地,而无需在网络间进行数据的传输;
Container是YARN集群中资源的抽象,将NM上的资源进行量化,根据需要组装成一个个Container,然后服务于已授权资源的计算任务。计算任务在完成计算后,系统会回收资源,以供后续计算任务申请使用。Container包含两种资源:内存和CPU,后续Hadoop版本可能会增加硬盘、网络等资源;
AM主要管理和监控部署在YARN集群上的Application,以MapReduce为例,MapReduce Application是一个用来处理MapReduce计算的服务框架程序,为用户编写的MapReduce程序提供运行时支持。通常我们在编写的一个MapReduce程序可能包含多个MapTask或Reduce Task,而各个Task的运行管理与监控都是由这个MapReduce Application来负责,比如运行Task的资源申请,由AM向RM申请;启动/停止NM上某Task的对应的Container,由AM向NM请求来完成。
发明内容
本发明要解决的技术问题是:提供一种处理大数据平台YARN数据分配不均衡的方法与装置,能够减轻数据倾斜程度,加快任务处理速度。
为解决上述技术问题,第一方面,本发明实施例提供了一种处理大数据平台YARN数据分配不均衡的方法,所述方法包括以下四大步骤:
(1)倾斜检测以用来确定哪个任务在执行过程中发生倾斜现象;
(2)主节点要求短腿型任务停止运行;
(3)采用本地扫描或者并行扫描的方法来划分间隔大小;
(4)对划分出的以间隔为单位的未完成任务进行重新分配,直到所有任务处理完毕。
根据第一方面,在第一种可能的实现方式中,对输入数据进行倾斜检测,确定哪个任务在执行过程中发生倾斜现象;
判定短腿型任务:下面一个关键问题就是如何判定哪个任务为短腿型任务,通过观察发现下面一个事实,同时重新分配两个任务的效果没有只重新分配一个任务的效果好,因为重新分配一个任务,该任务可以充分使用剩余的资源;鉴于同一时刻只有一个任务会被选为短腿型任务,YarnTune在检测期间选择有最大tremain值(为一个任务剩余执行任务的时间)的任务进行评估;在检测过程中,YarnTune标记剩余执行任务时间的一半大于重新分配的时间开销P_time的任务为短腿型任务,公式如下:
根据第一方面,在第二种可能的实现方式中,用户提交作业后,刚开始只要存在未被调度的任务,YarnTune调用传统Resource Manager模块调度分配任务;如果Master节点把所有的任务都调度分配完了,YarnTune就激活MR_Node Manager中的检测模块,对正在执行的任务基于tremain值进行倾斜检测,然后比较公式如果该不等式成立(即分割剩余任务是有价值的),报告该信息给MR_Resource Manager,并将该任务ID以及预估tremain值存入Master节点中的短腿型任务列表,等待后续处理。
根据第一方面,在第三种可能的实现方式中,当Master节点要求短腿型任务停止运行时,即MR_Resource Manager通知MR_Node Manager停止该任务的执行,并捕获其最后处理的输入数据的位置以及允许跳过先前已处理的输入数据,如图2;如果短腿型任务处于一种不可能或者很难停止的状态(例如,在处理最后的输入记录或者正在执行map阶段最后的本地排序),那么该请求失败,Master节点要么重新选择一个短腿型任务并对该任务进行以上处理,或者如果这个短腿型任务是作业中的最后一个任务的情形下,重新分区并且重新执行该短腿型任务全部输入,重新执行一个短腿型任务的全部输入就如同MapReduce的推测执行策略。
根据第一方面的第四种可能的实现方式,YarnTune收集压缩的输入数据,压缩数据形式采用一系列key间隔的方式,每个间隔都有差不多大小的字节,设置间隔大小:|Slot|为集群资源总数,Remaining为未处理的数据字节大小,YarnTune需要至少生成|Slot|个间隔,因为每个slot资源都有可能对预分割任务是可用的,由于YarnTune希望能够分配不相同的预分割任务给不同的可用的slot资源,YarnTune生成k|Slot|个间隔,k的值越大,能够对预分割任务进行越精细的任务划分,但是增加间隔数量会增加额外时间开销以及需要压缩的数据量;在原型系统中,设置k为5,令间隔大小为s,所以
根据第一方面,在第五种可能的实现方式中,本地扫描:如果短腿任务剩余的数据较小,执行该短腿任务的workers节点扫描该剩余数据并且生成相应的间隔;间隔生成算法,从第一条未处理的数据开始,计算出该数据的大小,如果该数据大小大于等于目标间隔大小,将其直接作为间隔;否则以该数据的大小作为平均值,计算出要达到80%的间隔大小需要多少数据,接着计算这段数据的真实大小,与目标间隔大小进行比对,并回退或者前进直到获取最接近且小于目标间隔大小的数据范围,合并范围中的所有数据,即生成间隔;循环执行以上步骤直到所有未处理的数据处理完毕,算法执行结束;
并行扫描:在并行扫描期间,间隔生成算法在分布式的输入数据上的并行模式下运行,每一个map输出文件都产生间隔;
本地扫描的s值对于并行扫描可能会非常大,因为在集群中总是有比slots更多的map结果输出,因此为并行模式设定一个更小的s值,为每一个map输出生成更合适的间隔|Output|为所有节点map输出文件数量。
根据第一方面,在第六种可能的实现方式中,间隔分配算法采用数据扫描中生成的间隔I、存储短腿型任务ID的列表L、重新分配时间开销P_time、任务调度开销S_time作为输入;算法主要有两大阶段,第一阶段以最优的方法分割剩余未处理数据,计算最优总完工时间opt:当给一个slot资源分配的任务小于2*P_time时,该分配为不划算的,分配后所产生的优化效果不足以抵消重新分配所需的时间开销,则跳过该任务,循环执行后续未处理任务,直到所有任务模拟执行完毕,得到最优总完工时间opt;在第二个阶段,根据上一阶段得到的最优总完工时间opt,分配每一个间隔给可用的slot资源:算法将间隔分配给最早可用的并且以接近opt值的slot资源,当slot剩余资源小于当前预处理间隔大小一半时,该slot资源无法处理该间隔,跳过此间隔,处理下一个间隔;如果某个间隔较大,直接分配一个间隔,直到所有间隔处理完毕,输出间隔分配结果;算法的时间复杂度为O(|I|+|Slot|log|Slot|),|I|为间隔的数量,|Slot|为集群中slots的数量。
第二方面,本发明实施例提供了一种处理大数据平台YARN数据分配不均衡的装置,所述装置四大模块包括:
(1)倾斜检测模块,确定哪个任务在执行过程中发生倾斜现象;
(2)扫描模块,本地扫描或者并行扫描的方法来划分间隔大小;
(3)分配模块,对划分出的以间隔为单位的未完成任务进行重新分配,直到所有任务处理完毕;
(4)执行模块,用于按照所述顺序执行任务。
根据第二方面,在第一种可能的实现方式中,所述倾斜检测模块:
YarnTune标记剩余执行任务时间的一半大于重新分配的时间开销P_time的任务为短腿型任务,公式如下:
根据第二方面,在第二种可能的实现方式中,所述扫描模块:
短腿型任务剩余的数据较小,执行该短腿任务的workers节点扫描该剩余数据并且生成相应的间隔,可采用本地扫描或者并行扫描方式,根据预估时间选择扫描方式。
根据第二方面,在第三种可能的实现方式中,所述分配模块:
首先以最优的方法分割剩余未处理数据,计算最优总完工时间opt;然后根据上一阶段得到的最优总完工时间opt,分配每一个间隔给可用的slot资源。
根据第二方面,在第四种可能的实现方式中,所述执行模块:
根据任务执行顺序,依次执行任务,直到任务全部完成。
第三方面,本发明实施例提供了一种处理大数据平台YARN数据分配不均衡的装置,包括第二方面或第二方面任一种可能的实现方式所述的调度装置。
第四方面,本发明实施例提供了一种处理大数据平台YARN数据分配不均衡的功耗降低方法,其特征在于,所述Hadoop集群系统使用第一方面或第一方面任一种可能的实现方式所述的方法进行调度。
附图说明
图1是本发明一种实施例的Hadoop2.0Yarn集群的系统架构图;
图2是本发明一种实施例的YarnTune系统停止倾斜任务的执行流程图;
图3是本发明一种实施例的YarnTune系统数据均衡分配方法的流程图;
图4是本发明一种实施例的Hadoop2.0Yarn集群任务数据倾斜的负载均衡装置的示意图;
图5是本发明一种实施例的样例说明图;
具体实施方式
下面根据附图和实施例,对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图3所示,本发明实施例提供了一种处理大数据平台YARN数据分配不均衡的方法,该方法包括步骤:
S101.倾斜检测以用来确定哪个任务在执行过程中发生倾斜现象。
S102.主节点要求短腿型任务停止运行。
S103.采用本地扫描或者并行扫描的方法来划分间隔大小。
S104.对划分出的以间隔为单位的未完成任务进行重新分配,直到所有任务处理完毕。
本领域技术人员可以理解,在本发明各实施例的方法中,各步骤的序号大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本发明具体实施例的实施过程构成任何限定。
如图4所示,本发明实施例还提供了一种处理大数据平台YARN数据分配不均衡的调度装置300,该装置300包括:
(1)倾斜检测模块310,用于确定哪个任务在执行过程中发生倾斜现象;
(2)扫描模块320,本地扫描或者并行扫描的方法来划分间隔大小;
(3)分配模块330,对划分出的以间隔为单位的未完成任务进行重新分配,直到所有任务处理完毕;
(4)执行模块340,用于按照所述顺序执行任务。
本发明实施例还提供了一种包括本发明实施例的图3所示的调度装置的Hadoop集群系统,该集群系统可按照图1所示的架构部署,该调度装置可为图1中所示的任务调度器。
以下通过具体实例来进一步说明本发明各实施例:
样例说明图详见图5,采用默认Hadoop2.0Yarn系统,其中子任务2的Map阶段最先被检测出数据倾斜现象,在子任务1的Map阶段完成时刻,检测到子任务2发生倾斜,YarnTune估算子任务2的剩余执行时间,满足系统设定的条件,将子任务2标记为短腿型任务,通过重新分区子任务2未处理输入数据来减缓倾斜造成的影响;即YarnTune将未处理的子任务2的Map阶段数据重新分区给slot 1和slot 2,这样就可以更大程度的利用资源,加快任务的执行,减小总完工时间;重新分配的子任务被称为原未处理完任务的预分割任务(简称预分割任务),并且按最长处理时间优先的调度方式调度;在Map阶段,YarnTune循环执行检测倾斜—减缓倾斜这一策略,直到所有Map子任务执行完毕;同样的,在Reduce阶段,YarnTune采用上述策略,通过重新分区子任务剩余未处理数据来降低数据倾斜的影响。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一台计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种处理大数据平台YARN数据分配不均衡的方法,其特征在于,所述方法包括步骤:
(1)倾斜检测以用来确定哪个任务在执行过程中发生倾斜现象;
(2)主节点要求短腿型任务停止运行;
(3)采用本地扫描或者并行扫描的方法来划分间隔大小;
(4)对划分出的以间隔为单位的未完成任务进行重新分配,直到所有任务处理完毕。
2.根据权利要求1所述的方法,其特征在于,所述的倾斜检测方法为:
判定短腿型任务:下面一个关键问题就是如何判定哪个任务为短腿型任务,通过观察发现下面一个事实,同时重新分配两个任务的效果没有只重新分配一个任务的效果好,因为重新分配一个任务,该任务可以充分使用剩余的资源;鉴于同一时刻只有一个任务会被选为短腿型任务,YarnTune在检测期间选择有最大剩余执行时间值tremain的任务进行评估;
在检测过程中,YarnTune标记剩余执行任务时间的一半大于重新分配的时间开销P_time的任务为短腿型任务,公式如下:
3.根据权利要求1所述的方法,其特征在于,用户提交作业后,刚开始只要存在未被调度的任务,YarnTune调用传统Resource Manager模块调度分配任务;如果Master节点把所有的任务都调度分配完了,YarnTune就激活MR_Node Manager中的检测模块,对正在执行的任务基于tremain值进行倾斜检测,然后比较公式如果该不等式成立(即分割剩余任务是有价值的),报告该信息给MR_Resource Manager,并将该任务ID以及预估tremain值存入Master节点中的短腿型任务列表,等待后续处理。
4.根据权利要求1所述的方法,其特征在于,当Master节点要求短腿型任务停止运行时,即MR_Resource Manager通知MR_Node Manager停止该任务的执行,并捕获其最后处理的输入数据的位置以允许跳过先前已处理的输入数据;如果短腿型任务处于一种不可能或者很难停止的状态(例如,在处理最后的输入记录或者正在执行map阶段最后的本地排序),那么该请求失败,Master节点要么重新选择一个短腿型任务并对该任务进行以上处理,或者如果这个短腿型任务是作业中的最后一个任务的情形下,重新分区并且重新执行该短腿型任务的全部输入,重新执行一个短腿型任务的全部输入就如同MapReduce的推测执行策略。
5.根据权利要求1所述的方法,其特征在于,YarnTune收集压缩的输入数据,压缩数据形式采用一系列key间隔的方式,每个间隔都有差不多大小的字节,设置间隔大小:|Slot|为集群资源总数,Remaining为未处理的数据字节大小,YarnTune需要至少生成|Slot|个间隔,因为每个slot资源都有可能对预分割任务是可用的,由于YarnTune希望能够分配不相同的预分割任务给不同的可用的slot资源,YarnTune生成k|Slot|个间隔,k的值越大,能够对预分割任务进行越精细的任务划分,但是增加间隔数量会增加额外时间开销以及需要压缩的数据量;在原型系统中,设置k为5,令间隔大小为s,所以
6.一种处理大数据平台YARN数据分配不均衡的装置,其特征在于,所述装置包括:
(1)倾斜检测模块,确定哪个任务在执行过程中发生倾斜现象;
(2)扫描模块,本地扫描或者并行扫描的方法来划分间隔大小;
(3)分配模块,对划分出的以间隔为单位的未完成任务进行重新分配,直到所有任务处理完毕;
(4)执行模块,用于按照所述顺序执行任务。
7.根据权利要求6所述的装置,其特征在于,所述倾斜检测模块:
判定短腿型任务:如何判定哪个任务为短腿型任务,通过观察发现一个事实,同时重新分配两个任务的效果没有只重新分配一个任务的效果好,因为重新分配一个任务,该任务可以充分使用剩余的资源;鉴于同一时刻只有一个任务会被选为短腿型任务,YarnTune在检测期间选择有最大剩余执行时间值tremain的任务进行评估;在检测过程中,YarnTune标记剩余执行任务时间的一半大于重新分配的时间开销P_time的任务为短腿型任务,公式如下:
8.根据权利要求6所述的装置,其特征在于,所述扫描模块:
本地扫描:如果短腿任务剩余的数据较小,执行该短腿任务的workers节点扫描该剩余数据并且生成相应的间隔;间隔生成算法,从第一条未处理的数据开始,计算出该数据的大小,如果该数据大小大于等于目标间隔大小,将其直接作为间隔;否则以该数据的大小作为平均值,计算出要达到80%的间隔大小需要多少数据,接着计算这段数据的真实大小,与目标间隔大小进行比对,并回退或者前进直到获取最接近且小于目标间隔大小的数据范围,合并范围中的所有数据,即生成间隔;循环执行以上步骤直到所有未处理的数据处理完毕,算法执行结束;
并行扫描:在并行扫描期间,间隔生成算法在分布式的输入数据上的并行模式下运行,每一个map输出文件都产生间隔;
本地扫描的s值对于并行扫描可能会非常大,因为在集群中总是有比slots更多的map结果输出,因此为并行模式设定一个更小的s值,为每一个map输出生成更合适的间隔|Output|为所有节点map输出文件数量。
9.根据权利要求6所述的装置,其特征在于,所述分配模块:
间隔分配算法采用数据扫描中生成的间隔I、存储短腿型任务ID的列表L、重新分配时间开销P_time、任务调度开销S_time作为输入;算法主要有两大阶段,第一阶段以最优的方法分割剩余未处理数据,计算最优总完工时间opt:当给一个slot资源分配的任务小于2*P_time时,该分配为不划算的,分配后所产生的优化效果不足以抵消重新分配所需的时间开销,则跳过该任务,循环执行后续未处理任务,直到所有任务模拟执行完毕,得到最优总完工时间opt;在第二个阶段,根据上一阶段得到的最优总完工时间opt,分配每一个间隔给可用的slot资源:算法将间隔分配给最早可用的并且以接近opt值的slot资源,当slot剩余资源小于当前预处理间隔大小一半时,该slot资源无法处理该间隔,跳过此间隔,处理下一个间隔;如果某个间隔较大,直接分配一个间隔,直到所有间隔处理完毕,输出间隔分配结果;算法的时间复杂度为O(|I|+|Slot|log|Slot|),|I|为间隔的数量,|Slot|为集群中slots的数量。
CN201710457255.4A 2017-06-16 2017-06-16 一种处理大数据平台yarn数据分配不均衡的方法 Pending CN109144709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710457255.4A CN109144709A (zh) 2017-06-16 2017-06-16 一种处理大数据平台yarn数据分配不均衡的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710457255.4A CN109144709A (zh) 2017-06-16 2017-06-16 一种处理大数据平台yarn数据分配不均衡的方法

Publications (1)

Publication Number Publication Date
CN109144709A true CN109144709A (zh) 2019-01-04

Family

ID=64830445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710457255.4A Pending CN109144709A (zh) 2017-06-16 2017-06-16 一种处理大数据平台yarn数据分配不均衡的方法

Country Status (1)

Country Link
CN (1) CN109144709A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885397A (zh) * 2019-01-15 2019-06-14 长安大学 一种边缘计算环境中时延优化的负载任务迁移算法
CN113778727A (zh) * 2020-06-19 2021-12-10 北京沃东天骏信息技术有限公司 数据处理方法及装置、电子设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991830A (zh) * 2015-07-10 2015-10-21 山东大学 基于服务等级协议的yarn资源分配和节能调度方法及系统
US20150378696A1 (en) * 2014-06-27 2015-12-31 International Business Machines Corporation Hybrid parallelization strategies for machine learning programs on top of mapreduce
CN106201754A (zh) * 2016-07-06 2016-12-07 乐视控股(北京)有限公司 任务信息分析方法及装置
CN106681823A (zh) * 2015-11-05 2017-05-17 田文洪 一种处理MapReduce数据倾斜的负载均衡方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150378696A1 (en) * 2014-06-27 2015-12-31 International Business Machines Corporation Hybrid parallelization strategies for machine learning programs on top of mapreduce
CN104991830A (zh) * 2015-07-10 2015-10-21 山东大学 基于服务等级协议的yarn资源分配和节能调度方法及系统
CN106681823A (zh) * 2015-11-05 2017-05-17 田文洪 一种处理MapReduce数据倾斜的负载均衡方法
CN106201754A (zh) * 2016-07-06 2016-12-07 乐视控股(北京)有限公司 任务信息分析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YONGCHUL KWON等: "SkewTune: Mitigating Skew in MapReduce Applications", 《SKEWTUNE: MITIGATING SKEW IN MAPREDUCE APPLICATIONS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885397A (zh) * 2019-01-15 2019-06-14 长安大学 一种边缘计算环境中时延优化的负载任务迁移算法
CN113778727A (zh) * 2020-06-19 2021-12-10 北京沃东天骏信息技术有限公司 数据处理方法及装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
US9165032B2 (en) Allocation of resources for concurrent query execution via adaptive segmentation
CN104050042B (zh) Etl作业的资源分配方法及装置
CN105005570B (zh) 基于云计算的海量智能用电数据挖掘方法及装置
CN102043675B (zh) 一种基于任务处理请求任务量大小的线程池管理方法
CN105912406B (zh) 一种低能耗的独立任务调度与资源配置方法
US20160048415A1 (en) Systems and Methods for Auto-Scaling a Big Data System
CN108762921B (zh) 一种Spark集群系统的在线优化分区的任务调度方法及装置
US20070022426A1 (en) Dynamic application placement with allocation restrictions, vertical stacking and even load distribution
CN103916438B (zh) 基于负载预测的云测试环境调度方法及其系统
CN105700948A (zh) 一种用于在集群中调度计算任务的方法与设备
CN107710200A (zh) 用于并行化smp数据库中的基于散列的运算符的系统和方法
WO2014068950A1 (ja) データ処理システム、データ処理方法およびプログラム
CN107861796A (zh) 一种支持云数据中心能耗优化的虚拟机调度方法
CN110990121B (zh) 一种基于应用画像的Kubernetes调度策略
CN108509280A (zh) 一种基于推送模型的分布式计算集群本地性调度方法
CN111767145A (zh) 容器调度系统、方法、装置和设备
CN109144709A (zh) 一种处理大数据平台yarn数据分配不均衡的方法
CN110084507A (zh) 云计算环境下分级感知的科学工作流调度优化方法
Zhiyong et al. An improved container cloud resource scheduling strategy
CN102214094A (zh) 经由异步编程模型执行操作
CN108876157B (zh) 调配生产资源的方法及其管理系统
Feng et al. Retracted: Research and Design of Task Scheduling Method Based on Grid Computing
CN103970854B (zh) Sap ecc端与sap bw端之间增量凭证信息同步方法
Lin et al. A multi-centric model of resource and capability management in cloud simulation
CN113010290A (zh) 一种任务管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191106

Address after: 610000 Room No. 7, Floor 12, Electronic and Information Industry Building No. 159, East First Ring Road, Chenghua District, Chengdu City, Sichuan Province

Applicant after: Chengdu Zhongke Cluster Information Technology Co.,Ltd.

Address before: 610000 Chenghua District, Chengdu City, Sichuan Province, No. 4 University of Electronic Science and Technology

Applicant before: Tian Wenhong

Applicant before: Huang Chaojie

Applicant before: Liu Hongyi

Applicant before: He Bo

Applicant before: Zeng Keming

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104