CN113867944A - 一种基于强化学习的异构MapReduce集群推测执行调度方法 - Google Patents
一种基于强化学习的异构MapReduce集群推测执行调度方法 Download PDFInfo
- Publication number
- CN113867944A CN113867944A CN202111106821.XA CN202111106821A CN113867944A CN 113867944 A CN113867944 A CN 113867944A CN 202111106821 A CN202111106821 A CN 202111106821A CN 113867944 A CN113867944 A CN 113867944A
- Authority
- CN
- China
- Prior art keywords
- task
- node
- running
- nodes
- straggler
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
- G06F9/5088—Techniques for rebalancing the load in a distributed system involving task migration
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于强化学习的异构MapReduce集群推测执行调度方法,属于大数据处理领域。本发明采用基于Q‑learning强化学习的节点权重动态更新方法,基于历史信息实现节点权重的自适应调整,有效提升了task剩余运行时间的估算准确性;对straggler进行是否迁移的判别,需同时满足备份task比例约束,以及迁移后的运行时间约束两项条件,straggler才能启动备份任务;同时结合map task快节点和reduce task快节点,这种方式提升了异构MapReduce集群的资源利用率。基于典型数据集的仿真试验结果表明,相比于现有算法,本文提出的算法对于大规模数据的处理效率明显提升。
Description
技术领域
本发明属于大数据处理领域,具体涉及一种基于强化学习的异构MapReduce集群推测执行调度方法。
背景技术
Hadoop MapReduce是一个用于大规模数据的分布式、并行化处理的框架,在分布式集群环境下,由于负载不均衡或资源分布不均等原因,会造成一个Job的多个task之间运行速度不一致,拖慢Job的执行进度。Hadoop采用推测执行机制(Speculative Execution),根据特定的规则推测出“拖后腿”task(straggler),并为其启动一个备份task,与原任务同时运行,并选择最先完成的task输出结果作为最终结果。
为了解决Hadoop 1.0.0版本中存在的问题,Hadoop 0.21.0采用了Zaharia等人提出的基于LATE(Longest Approximate Time to End)算法的推测执行机制,LATE算法基于task当前运行速度估算其剩余完成时间,剩余完成时间最大的task为straggler,并在快节点上启动备份task。但LATE算法存在如下问题:1)Map Task和Reduce Task各阶段的权重M1、M2、R1、R2、R3为固定值,分别为1、0、1/3、1/3、1/3,然而同一task在不同节点上运行时各阶段的权重不完全相同,特别是在异构环境中,固定权重导致task的剩余完成时间估算不准确,straggler容易发生误判,系统启动不必要的备份任务,资源调度效率不高;2)LATE算法仅将节点分为快节点和慢节点,不区分执行Map Task快的节点和执行Reduce Task快的节点,而实际情况中有些节点执行Map Task快,但是执行Reduce Task慢。
针对LATE算法存在的上述问题,Quan Chen等人提出了SAMR(Self-adaptiveMapReduce Scheduling Algorithm)算法,通过历史信息自适应调整Map Task和ReduceTask各阶段的权重以提高任务剩余完成时间估算的准确性,并将节点分为Map Task快节点和Reduce Task快节点,根据straggler的类型分配到不同的快节点上启动备份任务;SAMR在异构环境中的执行优于LATE算法。ESAMR算法则采用K-means算法自适应调整Map Task和Reduce Task各阶段的权重。
K-means算法是一种无监督学习方法,无法准确地进行权重计算。MandanaFarhang等人提出了基于ANN的推测执行机制(SEWANN,Speculative Execution withANN),将节点上已执行的task的历史信息(权重、处理的数据量)作为ANN的输入,相比于K-means算法在权重计算精度方面有较大提升。但是SEWANN算法存在如下问题:1)未进行MapTask和Reduce Task快/慢节点的区分,快节点在执行Map Task或Reduce Task;2)straggler的迁移判别未考虑迁移到快节点后的运行时间,会产生无效迁移,浪费系统资源。
针对上述算法存在的问题,本文提出了基于强化学习的异构MapReduce集群推测执行调度算法SERL(Speculative Execution with Reinforcement Learning)。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种基于强化学习的异构MapReduce集群推测执行调度方法,以解决SEWANN算法存在如下问题:1)未进行Map Task和Reduce Task快/慢节点的区分,快节点在执行Map Task或Reduce Task;2)straggler的迁移判别未考虑迁移到快节点后的运行时间,会产生无效迁移,浪费系统资源的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种基于强化学习的异构MapReduce集群推测执行调度方法,该方法包括如下步骤:
S1、根据历史信息,进行异构MapReduce集群中各节点的权重更新;
S2、判断正在运行的task i是否straggler,如果是,则标记为straggler task i;
S3、判断异构MapReduce集群中的各节点是否慢节点;
S4、对于straggler task i,判断是否将其迁移到快节点上执行,如果满足条件,则在快节点上启动备份任务,否则在原节点上继续运行task i。
进一步地,所述步骤S1具体包括:
S11、异构MapReduce集群启动后,TaskTracker读取节点上的历史信息,历史信息包括权重和输入数据量;
S12、TaskTracker利用Q-learning强化学习算法更新节点权重信息,并启动task运行;
S13、已完成task的运行信息上报TaskTracker;
S14、TaskTracker将运行完成的task历史信息保存到节点上。
进一步地,所述步骤S2具体包括:
S21、计算task i的进度值PSi;
S22、计算task i的进度率PRi;
S23、计算task i的剩余完成时间TTEi;
S24、计算正在运行的所有task的平均剩余完成时间;
S25、判断task i是否straggler。
进一步地,对于task i,其进度值PSi为:
Map过程:
Reduce过程:
其中,M1、M2分别是map过程map、sort阶段的权重,R1、R2、R3分别是reduce过程shuffle、sort、reduce阶段的权重;SubPSi为task i在当前运行阶段的进度值,其中Nfi是task i当前运行阶段已经处理的key/value对的数量,Nai是taski该阶段需要处理的key/value对的总数量。
进一步地,对于task i,进度率PRi为:
其中,Ti为task i已经运行的时间;
对于task i,其剩余完成时间TTEi为:
正在运行的所有task的平均剩余完成时间为:
其中,L为正在运行的task的数量;
对于task i,如果满足如下条件,则判定为straggler,
TTEi-ATTE>ATTE*STT
其中,STT为常数,STT∈[0,1]。
进一步地,所述步骤S3具体包括如下步骤:
S31、计算TTi上map task和reduce task的平均进度率TrRmi、TrRri;TTi为第i个TaskTracker/节点;
S32、系统中所有节点上map task的平均进度率ATrRm,以及所有节点上reducetask的平均进度率ATrRr;
S33、判断TTi为运行map task的慢节点,或运行reduce task的慢节点。
进一步地,TTi上map task的平均进度率为:
其中,M为TTi上运行的map task个数,PRj为TTi上第j个map task的进度率;
TTi上reduce task的平均进度率为:
其中,R为TTi上运行的reduce task个数,PRj为TTi上第j个reduce task的进度率。
进一步地,系统中所有节点上map task的平均进度率为:
其中,N为系统中所有节点的个数;
系统中所有节点上reduce task的平均进度率为:
其中,N为系统中所有节点的个数;
对于TTi,如果满足以下条件,则TTi为运行map task的慢节点:
TrRmj<(1-STrC)*ATrRm
其中,STrC为常数,STrC∈[0,1];
对于TTi,如果满足以下条件,则TTi为运行reduce task的慢节点:
TrRrj<(1-STrC)*ATrRr。
进一步地,所述步骤S4具体包括如下步骤:
S41、判断备份task数量是否超过规定的比例,若不超过,执行第S42步骤;否则,straggler task i在原节点执行;
S42、判断straggler task i迁移到相应的快节点后,运行时间是否超过TTEi,若不超过,则straggler task i可迁移到相应的快节点运行;否则,straggler task i在原节点执行;快节点包括运行map task的快节点或运行reduce task的快节点,慢节点识别后,除慢节点外的节点为快节点。
进一步地,对于straggler task i,是否要迁移到快节点,需要满足如下两个条件:
一是备份task数量不超过规定的比例,即满足
BackupNum<BP*TaskNum
其中,BackupNum是正在运行的备份task数量,TaskNum是正在运行的所有task数量;BP是备份task数量占所有task数量的比例常数,BP∈[0,1];
二是根据straggler task i的类型,迁移到相应的快节点后,运行时间不超过TTEi,即满足
fTTE<TTEi
同时满足上述两个条件的straggler可迁移到快节点上运行;否则,不进行straggler task i的运行节点迁移。
(三)有益效果
本发明提出一种基于强化学习的异构MapReduce集群推测执行调度方法,本发明针对现有Hadoop MapReduce推测执行算法对于任务的剩余时间估算精度不高、无法支持异构集群环境等问题,本文提出了一种基于强化学习的异构MapReduce集群推测执行调度算法SERL。主要由4个步骤组成:首先采用Q-learning强化学习方法,基于历史信息实现集群内各节点权重的动态自适应调整;然后比较task的剩余完成时间与集群内所有正在运行的task的平均剩余完成时间,以识别出straggler;同时将集群内的节点分为map task快/慢节点、reduce task快/慢节点,对于map task类型的straggler可迁移到map task快节点上,提高了迁移后的运行效率;最后对straggler进行是否迁移的判别,只有同时符合两项条件的straggler才能启动备份任务,提升了集群资源利用率。基于典型数据集的仿真试验结果表明,相比于现有算法,本文提出的算法对于大规模数据的处理效率明显提升。
本发明采用基于Q-learning强化学习的节点权重动态更新方法,基于历史信息实现节点权重的自适应调整,有效提升了task剩余运行时间的估算准确性;
对straggler进行是否迁移的判别,需同时满足备份task比例约束,以及迁移后的运行时间约束两项条件,straggler才能启动备份任务;同时结合map task快节点和reducetask快节点,这种方式提升了异构MapReduce集群的资源利用率。
附图说明
图1为本发明基于强化学习的推测执行调度总体流程;
图2为节点权重更新过程;
图3为强化学习算法基本结构;
图4为straggler识别流程图;
图5为慢节点识别流程图;
图6为是否迁移判别流程图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
基于强化学习的异构MapReduce集群推测执行调度算法SERL总体流程如下图1所示,主要包括节点权重更新、straggler识别、慢节点识别以及是否迁移判别4个步骤;其中节点的历史信息包括权重、输入数据量,以xml格式保存在集群每个节点上。
S1、根据历史信息,进行异构MapReduce集群中各节点的权重更新;
S2、判断正在运行的task i是否straggler,如果是,则标记为straggler task i;
S3、判断异构MapReduce集群中的各节点是否慢节点;
S4、对于straggler task i,判断是否将其迁移到快节点上执行,如果满足条件,则在快节点上启动备份任务,否则在原节点上继续运行task i。
下面对各个步骤进行详细介绍。
S1、节点权重更新
异构MapReduce集群启动后,节点权重更新过程如下图2所示,主要包括以下4个步骤:
S11、TaskTracker读取节点上的历史信息(权重,输入数据量);
S12、TaskTracker利用Q-learning强化学习算法更新节点权重信息,并启动task运行;
S13、已完成task的运行信息(权重、运行时间)上报TaskTracker;
S14、TaskTracker将运行完成的task历史信息保存到节点上。
Q-learning是一种与模型无关的强化学习算法,以马尔科夫决策过程为理论基础,如下图3所示,智能体处在一个环境中,每个状态为智能体对当前环境的感知;智能体只能通过动作来影响环境,当智能体执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖励函数反馈给智能体一个奖励。强化学习的目标是找到一个最优策略,使智能体获得尽可能多的来自环境的奖励。
Q-learning的更新过程为:
Q(s,a)←Q(s,a)+α(r+γ·maxa'Q(s',a')-Q(s,a))
其中Q(s,a)为某一时刻s状态下采取动作a的收益,α为学习率,r为奖励;γ为奖励性衰变系数,γ∈[0,1],γ越接近于1则后续状态的影响越大;maxa'Q(s',a')为下一状态s'中最大的Q(s',a')值。
S2、straggler识别
straggler识别流程如下图4所示,包括如下步骤:
S21、计算task i的进度值PSi;
S22、计算task i的进度率PRi;
S23、计算task i的剩余完成时间TTEi;
S24、计算正在运行的所有task的平均剩余完成时间;
S25、判断task i是否straggler。
对于task i,其进度值PSi为:
Map过程:
Reduce过程:
其中,M1、M2分别是map过程map、sort阶段的权重,R1、R2、R3分别是reduce过程shuffle、sort、reduce阶段的权重。SubPSi为task i在当前运行阶段的进度值,其中Nfi是task i当前运行阶段已经处理的key/value对的数量,Nai是taski该阶段需要处理的key/value对的总数量。
对于task i,进度率PRi为:
其中,Ti为task i已经运行的时间。
对于task i,其剩余完成时间TTEi为:
正在运行的所有task的平均剩余完成时间为:
其中,L为正在运行的task的数量。
对于task i,如果满足如下条件,则判定为straggler,
TTEi-ATTE>ATTE*STT
其中,STT为常数,STT∈[0,1]。
S3、慢节点识别
慢节点识别流程如下图5所示,包括如下步骤:
S31、计算TTi(第i个TaskTracker/节点)上map task和reduce task的平均进度率TrRmi、TrRri;
S32、系统中所有节点上map task的平均进度率ATrRm,以及所有节点上reducetask的平均进度率ATrRr;
S33、判断TTi为运行map task的慢节点,或运行reduce task的慢节点。
TTi(第i个TaskTracker/节点)上map task的平均进度率为:
其中,M为TTi上运行的map task个数,PRj为TTi上第j个map task的进度率。
TTi(第i个TaskTracker/节点)上reduce task的平均进度率为:
其中,R为TTi上运行的reduce task个数,PRj为TTi上第j个reduce task的进度率。
系统中所有节点上map task的平均进度率为:
其中,N为系统中所有节点的个数。
系统中所有节点上reduce task的平均进度率为:
其中,N为系统中所有节点的个数。
对于TTi,如果满足以下条件,则TTi为运行map task的慢节点:
TrRmj<(1-STrC)*ATrRm
其中,STrC为常数,STrC∈[0,1]。
对于TTi,如果满足以下条件,则TTi为运行reduce task的慢节点:
TrRrj<(1-STrC)*ATrRr
S4、是否迁移判别
是否迁移判别流程如下图6所示,包括如下步骤:
S41、判断备份task数量是否超过规定的比例,若不超过,执行第S42步骤;否则,straggler task i在原节点执行;
S42、判断straggler task i迁移到相应的快节点(运行map task的快节点或运行reduce task的快节点)后,运行时间是否超过TTEi,若不超过,则straggler task i可迁移到相应的快节点运行;否则,straggler task i在原节点执行。
对于straggler task i,是否要迁移到快节点,需要满足如下两个条件:
一是备份task数量不超过规定的比例,即满足
BackupNum<BP*TaskNum
其中,BackupNum是正在运行的备份task数量,TaskNum是正在运行的所有task数量;BP是备份task数量占所有task数量的比例常数,BP∈[0,1],默认值为0.1。
二是根据straggler task i的类型(map task或reduce task),迁移到相应的快节点(慢节点识别后,除慢节点外的节点为快节点;运行map task的快节点或运行reducetask的快节点)后,运行时间不超过TTEi,即满足
fTTE<TTEi
同时满足上述两个条件的straggler可迁移到快节点上运行;否则,不进行straggler task i的运行节点迁移。
本发明针对现有Hadoop MapReduce推测执行算法对于任务的剩余时间估算精度不高、无法支持异构集群环境等问题,本文提出了一种基于强化学习的异构MapReduce集群推测执行调度算法SERL。主要由4个步骤组成:首先采用Q-learning强化学习方法,基于历史信息实现集群内各节点权重的动态自适应调整;然后比较task的剩余完成时间与集群内所有正在运行的task的平均剩余完成时间,以识别出straggler;同时将集群内的节点分为map task快/慢节点、reduce task快/慢节点,对于map task类型的straggler可迁移到maptask快节点上,提高了迁移后的运行效率;最后对straggler进行是否迁移的判别,只有同时符合两项条件的straggler才能启动备份任务,提升了集群资源利用率。基于典型数据集的仿真试验结果表明,相比于现有算法,本文提出的算法对于大规模数据的处理效率明显提升。基于小样本学习的权重更新是下一步的研究方向。
本发明的优点在于:
采用基于Q-learning强化学习的节点权重动态更新方法,基于历史信息实现节点权重的自适应调整,有效提升了task剩余运行时间的估算准确性;
对straggler进行是否迁移的判别,需同时满足备份task比例约束,以及迁移后的运行时间约束两项条件,straggler才能启动备份任务;同时结合map task快节点和reducetask快节点,这种方式提升了异构MapReduce集群的资源利用率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,该方法包括如下步骤:
S1、根据历史信息,进行异构MapReduce集群中各节点的权重更新;
S2、判断正在运行的task i是否straggler,如果是,则标记为straggler task i;
S3、判断异构MapReduce集群中的各节点是否慢节点;
S4、对于straggler task i,判断是否将其迁移到快节点上执行,如果满足条件,则在快节点上启动备份任务,否则在原节点上继续运行task i。
2.如权利要求1所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,所述步骤S1具体包括:
S11、异构MapReduce集群启动后,TaskTracker读取节点上的历史信息,历史信息包括权重和输入数据量;
S12、TaskTracker利用Q-learning强化学习算法更新节点权重信息,并启动task运行;
S13、已完成task的运行信息上报TaskTracker;
S14、TaskTracker将运行完成的task历史信息保存到节点上。
3.如权利要求2所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,所述步骤S2具体包括:
S21、计算task i的进度值PSi;
S22、计算task i的进度率PRi;
S23、计算task i的剩余完成时间TTEi;
S24、计算正在运行的所有task的平均剩余完成时间;
S25、判断task i是否straggler。
6.如权利要求3-5任一项所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,所述步骤S3具体包括如下步骤:
S31、计算TTi上map task和reduce task的平均进度率TrRmi、TrRri;TTi为第i个TaskTracker/节点;
S32、系统中所有节点上map task的平均进度率ATrRm,以及所有节点上reduce task的平均进度率ATrRr;
S33、判断TTi为运行map task的慢节点,或运行reduce task的慢节点。
9.如权利要求7或8所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,所述步骤S4具体包括如下步骤:
S41、判断备份task数量是否超过规定的比例,若不超过,执行第S42步骤;否则,straggler task i在原节点执行;
S42、判断straggler task i迁移到相应的快节点后,运行时间是否超过TTEi,若不超过,则straggler task i可迁移到相应的快节点运行;否则,straggler task i在原节点执行;快节点包括运行map task的快节点或运行reduce task的快节点,慢节点识别后,除慢节点外的节点为快节点。
10.如权利要求9所述的基于强化学习的异构MapReduce集群推测执行调度方法,其特征在于,对于straggler task i,是否要迁移到快节点,需要满足如下两个条件:
一是备份task数量不超过规定的比例,即满足
BackupNum<BP*TaskNum
其中,BackupNum是正在运行的备份task数量,TaskNum是正在运行的所有task数量;BP是备份task数量占所有task数量的比例常数,BP∈[0,1];
二是根据straggler task i的类型,迁移到相应的快节点后,运行时间不超过TTEi,即满足
fTTE<TTEi
同时满足上述两个条件的straggler可迁移到快节点上运行;否则,不进行stragglertask i的运行节点迁移。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111106821.XA CN113867944A (zh) | 2021-09-22 | 2021-09-22 | 一种基于强化学习的异构MapReduce集群推测执行调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111106821.XA CN113867944A (zh) | 2021-09-22 | 2021-09-22 | 一种基于强化学习的异构MapReduce集群推测执行调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113867944A true CN113867944A (zh) | 2021-12-31 |
Family
ID=78993196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111106821.XA Pending CN113867944A (zh) | 2021-09-22 | 2021-09-22 | 一种基于强化学习的异构MapReduce集群推测执行调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113867944A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115237581A (zh) * | 2022-09-21 | 2022-10-25 | 之江实验室 | 一种面向异构算力的多策略智能调度方法和装置 |
-
2021
- 2021-09-22 CN CN202111106821.XA patent/CN113867944A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115237581A (zh) * | 2022-09-21 | 2022-10-25 | 之江实验室 | 一种面向异构算力的多策略智能调度方法和装置 |
CN115237581B (zh) * | 2022-09-21 | 2022-12-27 | 之江实验室 | 一种面向异构算力的多策略智能调度方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11620286B2 (en) | Continuous cloud-scale query optimization and processing | |
CN109324875B (zh) | 一种基于强化学习的数据中心服务器功耗管理与优化方法 | |
WO2020206705A1 (zh) | 一种基于集群节点负载状态预测的作业调度方法 | |
CN105868019B (zh) | 一种Spark平台性能自动优化方法 | |
CN109271015B (zh) | 一种降低大规模分布式机器学习系统能耗的方法 | |
WO2024060571A1 (zh) | 面向异构算力的多策略智能调度方法和装置 | |
CN106874112B (zh) | 一种结合负载均衡的工作流回填方法 | |
CN113867944A (zh) | 一种基于强化学习的异构MapReduce集群推测执行调度方法 | |
KR101770736B1 (ko) | 응용프로그램의 질의 스케쥴링을 이용한 시스템의 소모전력 절감 방법 및 그 방법을 이용하여 소모전력을 절감하는 휴대단말기 | |
WO2020248227A1 (zh) | 一种基于负载预测的Hadoop计算任务推测执行方法 | |
CN115689069B (zh) | 基于人工智能的电网调度控制方法及系统 | |
CN111325310A (zh) | 一种数据预测方法、装置及存储介质 | |
CN112052081A (zh) | 一种任务调度方法、装置及电子设备 | |
CN109976873B (zh) | 容器化分布式计算框架的调度方案获取方法及调度方法 | |
CN116185588A (zh) | 一种任务调度方法、装置、电子设备及可读存储介质 | |
CN117349026B (zh) | 一种用于aigc模型训练的分布式算力调度系统 | |
CN111176831A (zh) | 基于多线程共享内存通信的动态线程映射优化方法及装置 | |
Yu et al. | Accelerating distributed training in heterogeneous clusters via a straggler-aware parameter server | |
US20230275848A1 (en) | Network-aware resource allocation | |
CN116974994A (zh) | 一种基于集群的高效能文件协作系统 | |
CN116360921A (zh) | 一种面向电力物联网的云平台资源优化调度方法及系统 | |
CN112187894B (zh) | 一种基于负载相关性预测的容器动态调度方法 | |
Tang et al. | A network load perception based task scheduler for parallel distributed data processing systems | |
CN115185683A (zh) | 一种基于动态优化模型的云平台流处理资源分配方法 | |
CN112052087B (zh) | 动态资源调整与迁移的深度学习训练系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |