CN113867944A - 一种基于强化学习的异构MapReduce集群推测执行调度方法 - Google Patents

一种基于强化学习的异构MapReduce集群推测执行调度方法 Download PDF

Info

Publication number
CN113867944A
CN113867944A CN202111106821.XA CN202111106821A CN113867944A CN 113867944 A CN113867944 A CN 113867944A CN 202111106821 A CN202111106821 A CN 202111106821A CN 113867944 A CN113867944 A CN 113867944A
Authority
CN
China
Prior art keywords
task
node
running
nodes
straggler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111106821.XA
Other languages
English (en)
Inventor
刘宗宝
张力
丁瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202111106821.XA priority Critical patent/CN113867944A/zh
Publication of CN113867944A publication Critical patent/CN113867944A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于强化学习的异构MapReduce集群推测执行调度方法,属于大数据处理领域。本发明采用基于Q‑learning强化学习的节点权重动态更新方法,基于历史信息实现节点权重的自适应调整,有效提升了task剩余运行时间的估算准确性;对straggler进行是否迁移的判别,需同时满足备份task比例约束,以及迁移后的运行时间约束两项条件,straggler才能启动备份任务;同时结合map task快节点和reduce task快节点,这种方式提升了异构MapReduce集群的资源利用率。基于典型数据集的仿真试验结果表明,相比于现有算法,本文提出的算法对于大规模数据的处理效率明显提升。

Description

一种基于强化学习的异构MapReduce集群推测执行调度方法
技术领域
本发明属于大数据处理领域,具体涉及一种基于强化学习的异构MapReduce集群推测执行调度方法。
背景技术
Hadoop MapReduce是一个用于大规模数据的分布式、并行化处理的框架,在分布式集群环境下,由于负载不均衡或资源分布不均等原因,会造成一个Job的多个task之间运行速度不一致,拖慢Job的执行进度。Hadoop采用推测执行机制(Speculative Execution),根据特定的规则推测出“拖后腿”task(straggler),并为其启动一个备份task,与原任务同时运行,并选择最先完成的task输出结果作为最终结果。
为了解决Hadoop 1.0.0版本中存在的问题,Hadoop 0.21.0采用了Zaharia等人提出的基于LATE(Longest Approximate Time to End)算法的推测执行机制,LATE算法基于task当前运行速度估算其剩余完成时间,剩余完成时间最大的task为straggler,并在快节点上启动备份task。但LATE算法存在如下问题:1)Map Task和Reduce Task各阶段的权重M1、M2、R1、R2、R3为固定值,分别为1、0、1/3、1/3、1/3,然而同一task在不同节点上运行时各阶段的权重不完全相同,特别是在异构环境中,固定权重导致task的剩余完成时间估算不准确,straggler容易发生误判,系统启动不必要的备份任务,资源调度效率不高;2)LATE算法仅将节点分为快节点和慢节点,不区分执行Map Task快的节点和执行Reduce Task快的节点,而实际情况中有些节点执行Map Task快,但是执行Reduce Task慢。
针对LATE算法存在的上述问题,Quan Chen等人提出了SAMR(Self-adaptiveMapReduce Scheduling Algorithm)算法,通过历史信息自适应调整Map Task和ReduceTask各阶段的权重以提高任务剩余完成时间估算的准确性,并将节点分为Map Task快节点和Reduce Task快节点,根据straggler的类型分配到不同的快节点上启动备份任务;SAMR在异构环境中的执行优于LATE算法。ESAMR算法则采用K-means算法自适应调整Map Task和Reduce Task各阶段的权重。
K-means算法是一种无监督学习方法,无法准确地进行权重计算。MandanaFarhang等人提出了基于ANN的推测执行机制(SEWANN,Speculative Execution withANN),将节点上已执行的task的历史信息(权重、处理的数据量)作为ANN的输入,相比于K-means算法在权重计算精度方面有较大提升。但是SEWANN算法存在如下问题:1)未进行MapTask和Reduce Task快/慢节点的区分,快节点在执行Map Task或Reduce Task;2)straggler的迁移判别未考虑迁移到快节点后的运行时间,会产生无效迁移,浪费系统资源。
针对上述算法存在的问题,本文提出了基于强化学习的异构MapReduce集群推测执行调度算法SERL(Speculative Execution with Reinforcement Learning)。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种基于强化学习的异构MapReduce集群推测执行调度方法,以解决SEWANN算法存在如下问题:1)未进行Map Task和Reduce Task快/慢节点的区分,快节点在执行Map Task或Reduce Task;2)straggler的迁移判别未考虑迁移到快节点后的运行时间,会产生无效迁移,浪费系统资源的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种基于强化学习的异构MapReduce集群推测执行调度方法,该方法包括如下步骤:
S1、根据历史信息,进行异构MapReduce集群中各节点的权重更新;
S2、判断正在运行的task i是否straggler,如果是,则标记为straggler task i;
S3、判断异构MapReduce集群中的各节点是否慢节点;
S4、对于straggler task i,判断是否将其迁移到快节点上执行,如果满足条件,则在快节点上启动备份任务,否则在原节点上继续运行task i。
进一步地,所述步骤S1具体包括:
S11、异构MapReduce集群启动后,TaskTracker读取节点上的历史信息,历史信息包括权重和输入数据量;
S12、TaskTracker利用Q-learning强化学习算法更新节点权重信息,并启动task运行;
S13、已完成task的运行信息上报TaskTracker;
S14、TaskTracker将运行完成的task历史信息保存到节点上。
进一步地,所述步骤S2具体包括:
S21、计算task i的进度值PSi
S22、计算task i的进度率PRi
S23、计算task i的剩余完成时间TTEi
S24、计算正在运行的所有task的平均剩余完成时间;
S25、判断task i是否straggler。
进一步地,对于task i,其进度值PSi为:
Map过程:
Figure BDA0003272757270000031
Reduce过程:
Figure BDA0003272757270000032
其中,M1、M2分别是map过程map、sort阶段的权重,R1、R2、R3分别是reduce过程shuffle、sort、reduce阶段的权重;SubPSi为task i在当前运行阶段的进度值,
Figure BDA0003272757270000033
其中Nfi是task i当前运行阶段已经处理的key/value对的数量,Nai是taski该阶段需要处理的key/value对的总数量。
进一步地,对于task i,进度率PRi为:
Figure BDA0003272757270000034
其中,Ti为task i已经运行的时间;
对于task i,其剩余完成时间TTEi为:
Figure BDA0003272757270000041
正在运行的所有task的平均剩余完成时间为:
Figure BDA0003272757270000042
其中,L为正在运行的task的数量;
对于task i,如果满足如下条件,则判定为straggler,
TTEi-ATTE>ATTE*STT
其中,STT为常数,STT∈[0,1]。
进一步地,所述步骤S3具体包括如下步骤:
S31、计算TTi上map task和reduce task的平均进度率TrRmi、TrRri;TTi为第i个TaskTracker/节点;
S32、系统中所有节点上map task的平均进度率ATrRm,以及所有节点上reducetask的平均进度率ATrRr
S33、判断TTi为运行map task的慢节点,或运行reduce task的慢节点。
进一步地,TTi上map task的平均进度率为:
Figure BDA0003272757270000043
其中,M为TTi上运行的map task个数,PRj为TTi上第j个map task的进度率;
TTi上reduce task的平均进度率为:
Figure BDA0003272757270000044
其中,R为TTi上运行的reduce task个数,PRj为TTi上第j个reduce task的进度率。
进一步地,系统中所有节点上map task的平均进度率为:
Figure BDA0003272757270000051
其中,N为系统中所有节点的个数;
系统中所有节点上reduce task的平均进度率为:
Figure BDA0003272757270000052
其中,N为系统中所有节点的个数;
对于TTi,如果满足以下条件,则TTi为运行map task的慢节点:
TrRmj<(1-STrC)*ATrRm
其中,STrC为常数,STrC∈[0,1];
对于TTi,如果满足以下条件,则TTi为运行reduce task的慢节点:
TrRrj<(1-STrC)*ATrRr
进一步地,所述步骤S4具体包括如下步骤:
S41、判断备份task数量是否超过规定的比例,若不超过,执行第S42步骤;否则,straggler task i在原节点执行;
S42、判断straggler task i迁移到相应的快节点后,运行时间是否超过TTEi,若不超过,则straggler task i可迁移到相应的快节点运行;否则,straggler task i在原节点执行;快节点包括运行map task的快节点或运行reduce task的快节点,慢节点识别后,除慢节点外的节点为快节点。
进一步地,对于straggler task i,是否要迁移到快节点,需要满足如下两个条件:
一是备份task数量不超过规定的比例,即满足
BackupNum<BP*TaskNum
其中,BackupNum是正在运行的备份task数量,TaskNum是正在运行的所有task数量;BP是备份task数量占所有task数量的比例常数,BP∈[0,1];
二是根据straggler task i的类型,迁移到相应的快节点后,运行时间不超过TTEi,即满足
fTTE<TTEi
其中,fTTE为快节点上已完成的task的运行时间平均值,
Figure BDA0003272757270000061
其中fTTEj为快节点上已完成的task j的运行时间,U为快节点上已完成的task的数量;
同时满足上述两个条件的straggler可迁移到快节点上运行;否则,不进行straggler task i的运行节点迁移。
(三)有益效果
本发明提出一种基于强化学习的异构MapReduce集群推测执行调度方法,本发明针对现有Hadoop MapReduce推测执行算法对于任务的剩余时间估算精度不高、无法支持异构集群环境等问题,本文提出了一种基于强化学习的异构MapReduce集群推测执行调度算法SERL。主要由4个步骤组成:首先采用Q-learning强化学习方法,基于历史信息实现集群内各节点权重的动态自适应调整;然后比较task的剩余完成时间与集群内所有正在运行的task的平均剩余完成时间,以识别出straggler;同时将集群内的节点分为map task快/慢节点、reduce task快/慢节点,对于map task类型的straggler可迁移到map task快节点上,提高了迁移后的运行效率;最后对straggler进行是否迁移的判别,只有同时符合两项条件的straggler才能启动备份任务,提升了集群资源利用率。基于典型数据集的仿真试验结果表明,相比于现有算法,本文提出的算法对于大规模数据的处理效率明显提升。
本发明采用基于Q-learning强化学习的节点权重动态更新方法,基于历史信息实现节点权重的自适应调整,有效提升了task剩余运行时间的估算准确性;
对straggler进行是否迁移的判别,需同时满足备份task比例约束,以及迁移后的运行时间约束两项条件,straggler才能启动备份任务;同时结合map task快节点和reducetask快节点,这种方式提升了异构MapReduce集群的资源利用率。
附图说明
图1为本发明基于强化学习的推测执行调度总体流程;
图2为节点权重更新过程;
图3为强化学习算法基本结构;
图4为straggler识别流程图;
图5为慢节点识别流程图;
图6为是否迁移判别流程图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
基于强化学习的异构MapReduce集群推测执行调度算法SERL总体流程如下图1所示,主要包括节点权重更新、straggler识别、慢节点识别以及是否迁移判别4个步骤;其中节点的历史信息包括权重、输入数据量,以xml格式保存在集群每个节点上。
S1、根据历史信息,进行异构MapReduce集群中各节点的权重更新;
S2、判断正在运行的task i是否straggler,如果是,则标记为straggler task i;
S3、判断异构MapReduce集群中的各节点是否慢节点;
S4、对于straggler task i,判断是否将其迁移到快节点上执行,如果满足条件,则在快节点上启动备份任务,否则在原节点上继续运行task i。
下面对各个步骤进行详细介绍。
S1、节点权重更新
异构MapReduce集群启动后,节点权重更新过程如下图2所示,主要包括以下4个步骤:
S11、TaskTracker读取节点上的历史信息(权重,输入数据量);
S12、TaskTracker利用Q-learning强化学习算法更新节点权重信息,并启动task运行;
S13、已完成task的运行信息(权重、运行时间)上报TaskTracker;
S14、TaskTracker将运行完成的task历史信息保存到节点上。
Q-learning是一种与模型无关的强化学习算法,以马尔科夫决策过程为理论基础,如下图3所示,智能体处在一个环境中,每个状态为智能体对当前环境的感知;智能体只能通过动作来影响环境,当智能体执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖励函数反馈给智能体一个奖励。强化学习的目标是找到一个最优策略,使智能体获得尽可能多的来自环境的奖励。
Q-learning的更新过程为:
Q(s,a)←Q(s,a)+α(r+γ·maxa'Q(s',a')-Q(s,a))
其中Q(s,a)为某一时刻s状态下采取动作a的收益,α为学习率,r为奖励;γ为奖励性衰变系数,γ∈[0,1],γ越接近于1则后续状态的影响越大;maxa'Q(s',a')为下一状态s'中最大的Q(s',a')值。
S2、straggler识别
straggler识别流程如下图4所示,包括如下步骤:
S21、计算task i的进度值PSi
S22、计算task i的进度率PRi
S23、计算task i的剩余完成时间TTEi
S24、计算正在运行的所有task的平均剩余完成时间;
S25、判断task i是否straggler。
对于task i,其进度值PSi为:
Map过程:
Figure BDA0003272757270000081
Reduce过程:
Figure BDA0003272757270000091
其中,M1、M2分别是map过程map、sort阶段的权重,R1、R2、R3分别是reduce过程shuffle、sort、reduce阶段的权重。SubPSi为task i在当前运行阶段的进度值,
Figure BDA0003272757270000092
其中Nfi是task i当前运行阶段已经处理的key/value对的数量,Nai是taski该阶段需要处理的key/value对的总数量。
对于task i,进度率PRi为:
Figure BDA0003272757270000093
其中,Ti为task i已经运行的时间。
对于task i,其剩余完成时间TTEi为:
Figure BDA0003272757270000094
正在运行的所有task的平均剩余完成时间为:
Figure BDA0003272757270000095
其中,L为正在运行的task的数量。
对于task i,如果满足如下条件,则判定为straggler,
TTEi-ATTE>ATTE*STT
其中,STT为常数,STT∈[0,1]。
S3、慢节点识别
慢节点识别流程如下图5所示,包括如下步骤:
S31、计算TTi(第i个TaskTracker/节点)上map task和reduce task的平均进度率TrRmi、TrRri
S32、系统中所有节点上map task的平均进度率ATrRm,以及所有节点上reducetask的平均进度率ATrRr
S33、判断TTi为运行map task的慢节点,或运行reduce task的慢节点。
TTi(第i个TaskTracker/节点)上map task的平均进度率为:
Figure BDA0003272757270000101
其中,M为TTi上运行的map task个数,PRj为TTi上第j个map task的进度率。
TTi(第i个TaskTracker/节点)上reduce task的平均进度率为:
Figure BDA0003272757270000102
其中,R为TTi上运行的reduce task个数,PRj为TTi上第j个reduce task的进度率。
系统中所有节点上map task的平均进度率为:
Figure BDA0003272757270000103
其中,N为系统中所有节点的个数。
系统中所有节点上reduce task的平均进度率为:
Figure BDA0003272757270000104
其中,N为系统中所有节点的个数。
对于TTi,如果满足以下条件,则TTi为运行map task的慢节点:
TrRmj<(1-STrC)*ATrRm
其中,STrC为常数,STrC∈[0,1]。
对于TTi,如果满足以下条件,则TTi为运行reduce task的慢节点:
TrRrj<(1-STrC)*ATrRr
S4、是否迁移判别
是否迁移判别流程如下图6所示,包括如下步骤:
S41、判断备份task数量是否超过规定的比例,若不超过,执行第S42步骤;否则,straggler task i在原节点执行;
S42、判断straggler task i迁移到相应的快节点(运行map task的快节点或运行reduce task的快节点)后,运行时间是否超过TTEi,若不超过,则straggler task i可迁移到相应的快节点运行;否则,straggler task i在原节点执行。
对于straggler task i,是否要迁移到快节点,需要满足如下两个条件:
一是备份task数量不超过规定的比例,即满足
BackupNum<BP*TaskNum
其中,BackupNum是正在运行的备份task数量,TaskNum是正在运行的所有task数量;BP是备份task数量占所有task数量的比例常数,BP∈[0,1],默认值为0.1。
二是根据straggler task i的类型(map task或reduce task),迁移到相应的快节点(慢节点识别后,除慢节点外的节点为快节点;运行map task的快节点或运行reducetask的快节点)后,运行时间不超过TTEi,即满足
fTTE<TTEi
其中,fTTE为快节点上已完成的task的运行时间平均值,
Figure BDA0003272757270000111
(其中fTTEj为快节点上已完成的task j的运行时间),U为快节点上已完成的task的数量。
同时满足上述两个条件的straggler可迁移到快节点上运行;否则,不进行straggler task i的运行节点迁移。
本发明针对现有Hadoop MapReduce推测执行算法对于任务的剩余时间估算精度不高、无法支持异构集群环境等问题,本文提出了一种基于强化学习的异构MapReduce集群推测执行调度算法SERL。主要由4个步骤组成:首先采用Q-learning强化学习方法,基于历史信息实现集群内各节点权重的动态自适应调整;然后比较task的剩余完成时间与集群内所有正在运行的task的平均剩余完成时间,以识别出straggler;同时将集群内的节点分为map task快/慢节点、reduce task快/慢节点,对于map task类型的straggler可迁移到maptask快节点上,提高了迁移后的运行效率;最后对straggler进行是否迁移的判别,只有同时符合两项条件的straggler才能启动备份任务,提升了集群资源利用率。基于典型数据集的仿真试验结果表明,相比于现有算法,本文提出的算法对于大规模数据的处理效率明显提升。基于小样本学习的权重更新是下一步的研究方向。
本发明的优点在于:
采用基于Q-learning强化学习的节点权重动态更新方法,基于历史信息实现节点权重的自适应调整,有效提升了task剩余运行时间的估算准确性;
对straggler进行是否迁移的判别,需同时满足备份task比例约束,以及迁移后的运行时间约束两项条件,straggler才能启动备份任务;同时结合map task快节点和reducetask快节点,这种方式提升了异构MapReduce集群的资源利用率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,该方法包括如下步骤:
S1、根据历史信息,进行异构MapReduce集群中各节点的权重更新;
S2、判断正在运行的task i是否straggler,如果是,则标记为straggler task i;
S3、判断异构MapReduce集群中的各节点是否慢节点;
S4、对于straggler task i,判断是否将其迁移到快节点上执行,如果满足条件,则在快节点上启动备份任务,否则在原节点上继续运行task i。
2.如权利要求1所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,所述步骤S1具体包括:
S11、异构MapReduce集群启动后,TaskTracker读取节点上的历史信息,历史信息包括权重和输入数据量;
S12、TaskTracker利用Q-learning强化学习算法更新节点权重信息,并启动task运行;
S13、已完成task的运行信息上报TaskTracker;
S14、TaskTracker将运行完成的task历史信息保存到节点上。
3.如权利要求2所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,所述步骤S2具体包括:
S21、计算task i的进度值PSi
S22、计算task i的进度率PRi
S23、计算task i的剩余完成时间TTEi
S24、计算正在运行的所有task的平均剩余完成时间;
S25、判断task i是否straggler。
4.如权利要求3所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,对于task i,其进度值PSi为:
Map过程:
Figure FDA0003272757260000011
Reduce过程:
Figure FDA0003272757260000021
其中,M1、M2分别是map过程map、sort阶段的权重,R1、R2、R3分别是reduce过程shuffle、sort、reduce阶段的权重;SubPSi为task i在当前运行阶段的进度值,
Figure FDA0003272757260000022
其中Nfi是task i当前运行阶段已经处理的key/value对的数量,Nai是task i该阶段需要处理的key/value对的总数量。
5.如权利要求4所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,对于task i,进度率PRi为:
Figure FDA0003272757260000023
其中,Ti为task i已经运行的时间;
对于task i,其剩余完成时间TTEi为:
Figure FDA0003272757260000024
正在运行的所有task的平均剩余完成时间为:
Figure FDA0003272757260000025
其中,L为正在运行的task的数量;
对于task i,如果满足如下条件,则判定为straggler,
TTEi-ATTE>ATTE*STT
其中,STT为常数,STT∈[0,1]。
6.如权利要求3-5任一项所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,所述步骤S3具体包括如下步骤:
S31、计算TTi上map task和reduce task的平均进度率TrRmi、TrRri;TTi为第i个TaskTracker/节点;
S32、系统中所有节点上map task的平均进度率ATrRm,以及所有节点上reduce task的平均进度率ATrRr
S33、判断TTi为运行map task的慢节点,或运行reduce task的慢节点。
7.如权利要求6所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,TTi上map task的平均进度率为:
Figure FDA0003272757260000031
其中,M为TTi上运行的map task个数,PRj为TTi上第j个map task的进度率;
TTi上reduce task的平均进度率为:
Figure FDA0003272757260000032
其中,R为TTi上运行的reduce task个数,PRj为TTi上第j个reduce task的进度率。
8.如权利要求7所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,系统中所有节点上map task的平均进度率为:
Figure FDA0003272757260000033
其中,N为系统中所有节点的个数;
系统中所有节点上reduce task的平均进度率为:
Figure FDA0003272757260000034
其中,N为系统中所有节点的个数;
对于TTi,如果满足以下条件,则TTi为运行map task的慢节点:
TrRmj<(1-STrC)*ATrRm
其中,STrC为常数,STrC∈[0,1];
对于TTi,如果满足以下条件,则TTi为运行reduce task的慢节点:
TrRrj<(1-STrC)*ATrRr
9.如权利要求7或8所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,所述步骤S4具体包括如下步骤:
S41、判断备份task数量是否超过规定的比例,若不超过,执行第S42步骤;否则,straggler task i在原节点执行;
S42、判断straggler task i迁移到相应的快节点后,运行时间是否超过TTEi,若不超过,则straggler task i可迁移到相应的快节点运行;否则,straggler task i在原节点执行;快节点包括运行map task的快节点或运行reduce task的快节点,慢节点识别后,除慢节点外的节点为快节点。
10.如权利要求9所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,对于straggler task i,是否要迁移到快节点,需要满足如下两个条件:
一是备份task数量不超过规定的比例,即满足
BackupNum<BP*TaskNum
其中,BackupNum是正在运行的备份task数量,TaskNum是正在运行的所有task数量;BP是备份task数量占所有task数量的比例常数,BP∈[0,1];
二是根据straggler task i的类型,迁移到相应的快节点后,运行时间不超过TTEi,即满足
fTTE<TTEi
其中,fTTE为快节点上已完成的task的运行时间平均值,
Figure FDA0003272757260000041
其中fTTEj为快节点上已完成的task j的运行时间,U为快节点上已完成的task的数量;
同时满足上述两个条件的straggler可迁移到快节点上运行;否则,不进行stragglertask i的运行节点迁移。
CN202111106821.XA 2021-09-22 2021-09-22 一种基于强化学习的异构MapReduce集群推测执行调度方法 Pending CN113867944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111106821.XA CN113867944A (zh) 2021-09-22 2021-09-22 一种基于强化学习的异构MapReduce集群推测执行调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111106821.XA CN113867944A (zh) 2021-09-22 2021-09-22 一种基于强化学习的异构MapReduce集群推测执行调度方法

Publications (1)

Publication Number Publication Date
CN113867944A true CN113867944A (zh) 2021-12-31

Family

ID=78993196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111106821.XA Pending CN113867944A (zh) 2021-09-22 2021-09-22 一种基于强化学习的异构MapReduce集群推测执行调度方法

Country Status (1)

Country Link
CN (1) CN113867944A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115237581A (zh) * 2022-09-21 2022-10-25 之江实验室 一种面向异构算力的多策略智能调度方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115237581A (zh) * 2022-09-21 2022-10-25 之江实验室 一种面向异构算力的多策略智能调度方法和装置
CN115237581B (zh) * 2022-09-21 2022-12-27 之江实验室 一种面向异构算力的多策略智能调度方法和装置

Similar Documents

Publication Publication Date Title
US11620286B2 (en) Continuous cloud-scale query optimization and processing
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
WO2020206705A1 (zh) 一种基于集群节点负载状态预测的作业调度方法
CN105868019B (zh) 一种Spark平台性能自动优化方法
CN109271015B (zh) 一种降低大规模分布式机器学习系统能耗的方法
WO2024060571A1 (zh) 面向异构算力的多策略智能调度方法和装置
CN106874112B (zh) 一种结合负载均衡的工作流回填方法
CN113867944A (zh) 一种基于强化学习的异构MapReduce集群推测执行调度方法
KR101770736B1 (ko) 응용프로그램의 질의 스케쥴링을 이용한 시스템의 소모전력 절감 방법 및 그 방법을 이용하여 소모전력을 절감하는 휴대단말기
WO2020248227A1 (zh) 一种基于负载预测的Hadoop计算任务推测执行方法
CN115689069B (zh) 基于人工智能的电网调度控制方法及系统
CN111325310A (zh) 一种数据预测方法、装置及存储介质
CN112052081A (zh) 一种任务调度方法、装置及电子设备
CN109976873B (zh) 容器化分布式计算框架的调度方案获取方法及调度方法
CN116185588A (zh) 一种任务调度方法、装置、电子设备及可读存储介质
CN117349026B (zh) 一种用于aigc模型训练的分布式算力调度系统
CN111176831A (zh) 基于多线程共享内存通信的动态线程映射优化方法及装置
Yu et al. Accelerating distributed training in heterogeneous clusters via a straggler-aware parameter server
US20230275848A1 (en) Network-aware resource allocation
CN116974994A (zh) 一种基于集群的高效能文件协作系统
CN116360921A (zh) 一种面向电力物联网的云平台资源优化调度方法及系统
CN112187894B (zh) 一种基于负载相关性预测的容器动态调度方法
Tang et al. A network load perception based task scheduler for parallel distributed data processing systems
CN115185683A (zh) 一种基于动态优化模型的云平台流处理资源分配方法
CN112052087B (zh) 动态资源调整与迁移的深度学习训练系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination