CN112035251A - 基于强化学习作业布局的深度学习训练系统及方法 - Google Patents

基于强化学习作业布局的深度学习训练系统及方法 Download PDF

Info

Publication number
CN112035251A
CN112035251A CN202010866752.1A CN202010866752A CN112035251A CN 112035251 A CN112035251 A CN 112035251A CN 202010866752 A CN202010866752 A CN 202010866752A CN 112035251 A CN112035251 A CN 112035251A
Authority
CN
China
Prior art keywords
job
priority
model
layout
scheduler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010866752.1A
Other languages
English (en)
Other versions
CN112035251B (zh
Inventor
谭光明
马立贤
邵恩
张春明
段勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Original Assignee
Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences filed Critical Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Publication of CN112035251A publication Critical patent/CN112035251A/zh
Application granted granted Critical
Publication of CN112035251B publication Critical patent/CN112035251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于强化学习作业布局的深度学习训练方法,其包括:S1:对用户提交的作业进行代码完整性测试;S2:判断测试是否成功,若是,则进步下一步,若否,则将作业打回给用户;S3:计算作业的优先级,并将优先级计算完成的作业放入优先级队列中;S4:调度器判断集群资源是否充足,若是,进入下一步,若否,调度器根据优先级对当前运行的作业进行抢占,并进入下一步;S5:调度器从优先级队列中取作业进行调度;S6:被调度的作业通过布局算法对作业的任务进行优化布局;S7:判断调度间隔时间片是否耗尽,若是,进入步骤S3;若否,继续执行作业。可有效解决由于作业调度器的不合理导致作业阻塞迟迟不能执行的问题,提高GPU资源利用率。

Description

基于强化学习作业布局的深度学习训练系统及方法
技术领域
本发明涉及云计算资源调度技术领域,尤其涉及一种基于强化学习作业布局的深度学习训练系统及方法。
背景技术
深度学习训练是一种计算密集型任务,通常需要占用大量的GPU资源进行运算。一种高效地利用GPU资源的方法既可以缩减深度学习训练作业的完成时间又可以提高GPU资源的利用率。造成资源利用低作业完成时间长的主要因素可以分成以下几类:(1)在分布式训练中,由于作业调度器的不合理导致作业阻塞迟迟不能执行,影响作业完成。(2)不同模型特征的作业由于任务分布的不合理会加剧woker之间的通信开销,导致GPU资源利用率下降。(3)不同的任务数量也会导致作业完成的效率不同,但是过量的任务不一定会带来成比例性能的提升,因此会影响GPU利用率。(4)在AI训练系统中,由于节点故障导致资源污染的问题也会大大降低资源的利用率并且影响作业的完成时间。
因此,亟需一种提高资源利用率的深度学习训练系统及方法。
发明内容
有鉴于此,本发明提供一种基于强化学习作业布局的深度学习训练系统及方法。
本发明提供一种基于强化学习作业布局的深度学习训练方法,其特征在于:所述方法包括以下步骤:
S1:对用户提交的作业进行代码完整性测试;
S2:判断测试是否成功,若是,则进步下一步,若否,则将作业打回给用户;
S3:计算作业的优先级,并将优先级计算完成的作业放入优先级队列中;
S4:调度器判断集群资源是否充足,若是,进入下一步,若否,调度器根据优先级对当前运行的作业进行抢占,并进入下一步;
S5:调度器从优先级队列中取作业进行调度;
S6:被调度的作业通过布局算法对作业的任务进行优化布局;
S7:判断调度间隔时间片是否耗尽,若是,进入步骤S3;若否,继续执行作业。
进一步,所述步骤S6具体包括:
S61:经过优先级调度器后的作业通过模型分析器,获取模型的模型大小、大Tensor占比、卷积层占比、全连接层占比等特征并结合作业的任务数量;
S62:通过训练好的深度Q学习网络(Deep Q-Learning Network,DQN)获取一系列的放置策略组及打分组。
进一步,所述步骤S6具体包括:
S63:在生成的策略组中去除包含此频繁出错节点的多任务多节点分布作业,对于只存在于此频繁出错节点的作业我们仍保存此放置策略不变;
S64:判断过滤后的放置策略组是否为空,若是,返回步骤S5,若否,进入下一步;
S65:通过深度Q学习网络生成的打分对过滤后的动作进行优选,挑选出打分最高的动作,所述动作为作业的放置策略。
进一步,所述训练好的深度Q学习网络采用如下方法获得:
S621:获取模型特征与定义作业的状态集为:S=(M,N,R),M为用户输入模型特征的向量,N代表了一个作业的任务数量,R代表任务所需要的资源,R通过一个N*U的矩阵表达,U是资源的种类数量可以包括GPU、CPU、Memory;
S622:定义作业的动作集:A=X,其中,A表示作业的动作集,X表示任务在节点的分布,X是一个N*K的二维矩阵,K是当前集群中节点的数量。
S623:定义奖励函数:奖励函数r为作业的工作效率,即作业在一段时间内单位资源下模型迭代的轮数,所述奖励函数如下:
Figure BDA0002649966270000031
其中,r表示奖励函数,numi表示作业执行效率即单位时间内作业执行的迭代数、epoch表示作业需要的总迭代数、ui表示作业所需要的总资源量、k是一个常数可以增强作业执行效率的比重,避免单卡的奖励值总是大于多卡的奖励值;
S624:神经网络结构设计与训练:
神经网络结构包括输入层、两个卷积层、两个全连接层与输出层,假设网络的参数为θ,在状态s下动作a的价值函数为Q,通过价值迭代方法不断的对下式的网络参数进行优化求解,
Figure BDA0002649966270000032
式中Li代表网络的损失函数、γ表示衰减因子、a’,s’表示下一时刻选择的动作与对应的状态、E(.)表示求均值函数,
Figure BDA0002649966270000033
表示梯度下降函数。
进一步,:所述模型特征的向量包括:模型大小、大Tensor占比、卷积层占比、全连接层占比。
进一步,步骤S3中计算作业的优先级,采用如下方法确定:
P=αTleft+βTwait+γUresource (3)
其中,P是作业优先级,Tleft是作业剩余完成时间、Twait是作业在队列的等待时间、Uresource是作业的资源使用量,ɑ、β、γ、分别为对应Tleft、Twait、Uresource的系数;
优先级队列中的作业根据优先级从大到小排列。
相应地,本发明还提供一种基于强化学习作业布局的深度学习训练系统,其特征在于:包括:用于检测用户提交的代码准确性的作业预执行模块、用于从优先级队列中获取作业调度的优先级抢占式调度器和基于增强学习的作业布局器;
所述预执行包括用于提取用户定义模型代码的模型抽取器和根据用户定义模型代码生成训练代码的测试代码生成器;
所述优先级抢占式调度器包括用于定义作业优先级的作业优先级定义模块和用于调整作业的优先级的作业优先级动态调整模块;
所述基于增强学习的作业布局器包括经深度Q学习网络的方式离线训练的神经网络。
进一步,所述测试代码生成器生成的训练代码包括优化器优化代码、模型迭代轮数与循环次数、模型的检查点标记与重新恢复功能。
进一步,所述作业布局器还包括对所述神经网络生产的高分放置策略进行过滤的过滤优选模块。
本发明的有益技术效果:本发明提供的基于强化学习作业布局的深度学习训练系统及方法可有效解决由于作业调度器的不合理导致作业阻塞迟迟不能执行的问题,有效解决节点故障导致资源污染的问题,提高GPU资源利用率。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的训练系统结构图。
图2为本发明的训练方法流程图。
图3为本发明的深度学习工作单元放置策略选取统流程图。
图4为本发明的系统原理图。
具体实施方式
以下结合说明书附图对本发明做出进一步的说明:
本发明提供一种基于强化学习作业布局的深度学习训练方法,其特征在于:所述方法包括以下步骤:
S1:对用户提交的作业进行代码完整性测试;对用户提交的作用进行完整性测试是为了防止会出错的作业运行在正式集群中从而导致资源浪费的问题;为了避免作业在预执行模块中阻塞,可以通过随机抽取作业的方式来随机选取作业进入预执行模块中。
S2:判断测试是否成功,若是,则进步下一步,若否,则将作业打回给用户;
S3:计算作业的优先级,并将优先级计算完成的作业放入优先级队列中;
S4:调度器判断集群资源是否充足,若是,进入下一步,若否,调度器根据优先级对当前运行的作业进行抢占,并进入下一步;
S5:调度器从优先级队列中取作业进行调度;
S6:被调度的作业通过布局算法对作业的任务进行优化布局;
S7:判断调度间隔时间片是否耗尽,若是,进入步骤S3;若否,继续执行作业。在一个调度时间片内,优先级队列中的作业与正在运行的作业优先级保持不变。在一个调度时间片过后,由于作业剩余完成时间、作业在队列等待时间都在变化因此需要动态地调整作业的优先级。
通过上述技术方案可有效解决由于作业调度器的不合理导致作业阻塞迟迟不能执行的问题,有效解决节点故障导致资源污染的问题,提高GPU资源利用率。
在本实施例中,所述步骤S6具体包括:
S61:经过优先级调度器后的作业通过模型分析器,获取模型的模型大小、大Tensor占比、卷积层占比、全连接层占比等特征并结合作业的任务数量;
S62:通过训练好的DQN获取一系列的放置策略组及打分组。
在本实施例中,所述步骤S6具体包括:
S63:在生成的策略组中去除包含此频繁出错节点的多任务多节点分布作业,对于只存在于此频繁出错节点的作业我们仍保存此放置策略不变;
S64:判断过滤后的放置策略组是否为空,若是,返回步骤S5,若否,进入下一步;
S65:通过DQN生成的打分对过滤后的动作进行优选,挑选出打分最高的动作,所述动作为作业的放置策略。
通过上述技术方案,形成作业放置策略,以减少worker之间的通信开销,提高资源的利用率。
在本实施例中,所述训练好的DQN采用如下方法获得:
S621:获取模型特征与定义作业的状态集为:S=(M,N,R),M为用户输入模型特征的向量,N代表了一个作业的任务数量,R代表任务所需要的资源,R通过一个N*U的矩阵表达,U是资源的种类数量可以包括GPU、CPU、Memory;用户所使用的深度学习框架包括但不限于:Tensorflow、PyTorch、MxNet等。
S622:定义作业的动作集:A=X,其中,A表示作业的动作集,X表示任务在节点的分布,X是一个N*K的二维矩阵,K是当前集群中节点的数量。
S623:定义奖励函数:奖励函数r为作业的工作效率,即作业在一段时间内单位资源下模型迭代的轮数,所述奖励函数如下:
Figure BDA0002649966270000061
其中,r表示奖励函数,numi表示作业执行效率即单位时间内作业执行的迭代数、epoch表示作业需要的总迭代数、ui表示作业所需要的总资源量、k是一个常数可以增强作业执行效率的比重,避免单卡的奖励值总是大于多卡的奖励值;
S624:神经网络结构设计与训练:
神经网络结构包括输入层、两个卷积层、两个全连接层与输出层,假设网络的参数为θ,在状态s下动作a的价值函数为Q,通过价值迭代方法不断的对下式的网络参数进行优化求解,
Figure BDA0002649966270000071
式中,Li代表网络的损失函数、γ表示衰减因子、a’,s’表示下一时刻选择的动作与对应的状态、E(.)表示求均值函数,
Figure BDA0002649966270000072
表示梯度下降函数。
在本实施例中,所述模型特征的向量包括:模型大小、大Tensor占比、卷积层占比、全连接层占比。所述模型大小、大Tensor占比、卷积层占比、全连接层占比通过模型分析器获得。
在本实施例中,步骤S3中计算作业的优先级,采用如下方法确定:
P=αTleft+βTwait+γUresource (3)
其中,P是作业优先级,Tleft是作业剩余完成时间、Twait是作业在队列的等待时间、Uresource是作业的资源使用量,ɑ、β、γ、分别为对应Tleft、Twait
Uresource的系数;
优先级队列中的作业根据优先级从大到小排列。
相应地,本发明还提供一种基于强化学习作业布局的深度学习训练系统,其特征在于:包括:用于检测用户提交的代码准确性的作业预执行模块、用于从优先级队列中获取作业调度的优先级抢占式调度器和基于增强学习的作业布局器;
所述预执行包括用于提取用户定义模型代码的模型抽取器和根据用户定义模型代码生成训练代码的测试代码生成器;作业预执行模块包含预执行(Prerun)队列,Prerun队列对用户提交的作业在测试集群中进行少许轮数的迭代,测试成功后将任务提交到正式集群的队列中,否则将作业打回。
所述优先级抢占式调度器包括用于定义作业优先级的作业优先级定义模块和用于调整作业的优先级的作业优先级动态调整模块;
所述基于增强学习的作业布局器包括经深度学习DQN的方式离线训练的神经网络。考虑到一个作业中多个工作单元布局的所有可能组合数量很大,并且所有状态集与对于的动作集数据量随着工作单元的数量呈指数增加,因此我们的布局算法通过深度增强学习DQN的方式离线的训练出一个作业布局网络模型。
在本实施例中,所述测试代码生成器生成的训练代码包括优化器优化代码、模型迭代轮数与循环次数、模型的断点标记与重新恢复功能。
在本实施例中,所述作业布局器还包括对所述神经网络生产的高分放置策略进行过滤的过滤优选模块。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于强化学习作业布局的深度学习训练方法,其特征在于:所述方法包括以下步骤:
S1:对用户提交的作业进行代码完整性测试;
S2:判断测试是否成功,若是,则进步下一步,若否,则将作业打回给用户;
S3:计算作业的优先级,并将优先级计算完成的作业放入优先级队列中;
S4:调度器判断集群资源是否充足,若是,进入下一步,若否,调度器根据优先级对当前运行的作业进行抢占,并进入下一步;
S5:调度器从优先级队列中取作业进行调度;
S6:被调度的作业通过布局算法对作业的任务进行优化布局;
S7:判断调度间隔时间片是否耗尽,若是,进入步骤S3;若否,继续执行作业。
2.根据权利要求1所述基于强化学习作业布局的深度学习训练方法,其特征在于:所述步骤S6具体包括:
S61:经过优先级调度器后的作业通过模型分析器,获取模型的模型大小、大Tensor占比、卷积层占比、全连接层占比等特征并结合作业的任务数量;
S62:通过训练好的深度Q学习网络(Deep Q-Learning Network,DQN)获取一系列的放置策略组及打分组。
3.根据权利要求2所述基于强化学习作业布局的深度学习训练方法,其特征在于:所述步骤S6具体包括:
S63:在生成的策略组中去除包含此频繁出错节点的多任务多节点分布作业,对于只存在于此频繁出错节点的作业我们仍保存此放置策略不变;
S64:判断过滤后的放置策略组是否为空,若是,返回步骤S5,若否,进入下一步;
S65:通过深度Q学习网络生成的打分对过滤后的动作进行优选,挑选出打分最高的动作,所述动作为作业的放置策略。
4.根据权利要求2所述基于强化学习作业布局的深度学习训练方法,其特征在于:所述训练好的深度Q学习网络采用如下方法获得:
S621:获取模型特征与定义作业的状态集为:S=(M,N,R),M为用户输入模型特征的向量,N代表了一个作业的任务数量,R代表任务所需要的资源,R通过一个N*U的矩阵表达,U是资源的种类数量可以包括GPU、CPU、Memory;
S622:定义作业的动作集:A=X,其中,A表示作业的动作集,X表示任务在节点的分布,X是一个N*K的二维矩阵,K是当前集群中节点的数量。
S623:定义奖励函数:奖励函数r为作业的工作效率,即作业在一段时间内单位资源下模型迭代的轮数,所述奖励函数如下:
Figure FDA0002649966260000021
其中,r表示奖励函数,numi表示作业执行效率即单位时间内作业执行的迭代数、epoch表示作业需要的总迭代数、ui表示作业所需要的总资源量、k是一个常数可以增强作业执行效率的比重,避免单卡的奖励值总是大于多卡的奖励值;
S624:神经网络结构设计与训练:
神经网络结构包括输入层、两个卷积层、两个全连接层与输出层,假设网络的参数为θ,在状态s下动作a的价值函数为Q,通过价值迭代方法不断的对下式的网络参数进行优化求解,
Figure FDA0002649966260000022
式中Li代表网络的损失函数、γ表示衰减因子、a’,s’表示下一时刻选择的动作与对应的状态、E(.)表示求均值函数,
Figure FDA0002649966260000023
表示梯度下降函数。
5.根据权利要求4所述基于强化学习作业布局的深度学习训练方法,其特征在于:所述模型特征的向量包括:模型大小、大Tensor占比、卷积层占比、全连接层占比。
6.根据权利要求3所述基于强化学习作业布局的深度学习训练方法,其特征在于:步骤S3中计算作业的优先级,采用如下方法确定:
P=αTleft+βTwait+γUresource (3)
其中,P是作业优先级,Tleft是作业剩余完成时间、Twait是作业在队列的等待时间、Uresource是作业的资源使用量,α、β、γ、分别为对应Tleft、Twait、Uresource的系数;
优先级队列中的作业根据优先级从大到小排列。
7.一种基于强化学习作业布局的深度学习训练系统,其特征在于:包括:用于检测用户提交的代码准确性的作业预执行模块、用于从优先级队列中获取作业调度的优先级抢占式调度器和基于增强学习的作业布局器;
所述预执行包括用于提取用户定义模型代码的模型抽取器和根据用户定义模型代码生成训练代码的测试代码生成器;
所述优先级抢占式调度器包括用于定义作业优先级的作业优先级定义模块和用于调整作业的优先级的作业优先级动态调整模块;
所述基于增强学习的作业布局器包括经深度Q学习网络的方式离线训练的神经网络。
8.根据权利要求7所述基于强化学习作业布局的深度学习训练系统,其特征在于:所述测试代码生成器生成的训练代码包括优化器优化代码、模型迭代轮数与循环次数、模型的检查点标记与重新恢复功能。
9.根据权利要求7所述基于强化学习作业布局的深度学习训练系统,其特征在于:所述作业布局器还包括对所述神经网络生产的高分放置策略进行过滤的过滤优选模块。
CN202010866752.1A 2020-07-14 2020-08-25 基于强化学习作业布局的深度学习训练系统及方法 Active CN112035251B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010676804 2020-07-14
CN2020106768049 2020-07-14

Publications (2)

Publication Number Publication Date
CN112035251A true CN112035251A (zh) 2020-12-04
CN112035251B CN112035251B (zh) 2023-09-26

Family

ID=73580821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010866752.1A Active CN112035251B (zh) 2020-07-14 2020-08-25 基于强化学习作业布局的深度学习训练系统及方法

Country Status (1)

Country Link
CN (1) CN112035251B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361924A (zh) * 2021-06-07 2021-09-07 广州宏途教育网络科技有限公司 一种用于优化教学质量的作业布置方法
CN113419830A (zh) * 2021-06-23 2021-09-21 鹤壁国立光电科技股份有限公司 一种基于神经网络的多维度调度方法及系统
CN113535365A (zh) * 2021-07-30 2021-10-22 中科计算技术西部研究院 基于强化学习的深度学习训练作业资源放置系统及方法
CN113568725A (zh) * 2021-07-14 2021-10-29 中国科学院计算技术研究所 深度学习作业优先级调度方法及深度学习作业系统
CN113791882A (zh) * 2021-08-25 2021-12-14 北京百度网讯科技有限公司 多任务的部署方法、装置、电子设备及存储介质
CN114281528A (zh) * 2021-12-10 2022-04-05 重庆邮电大学 一种基于深度强化学习和异构Spark集群的节能调度方法及系统
CN114675975A (zh) * 2022-05-24 2022-06-28 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备
CN116155750A (zh) * 2023-04-19 2023-05-23 之江实验室 深度学习作业资源放置方法、系统、设备和存储介质
WO2024065826A1 (en) * 2022-09-30 2024-04-04 Intel Corporation Accelerate deep learning with inter-iteration scheduling
CN117950832A (zh) * 2024-01-05 2024-04-30 国网冀北电力有限公司信息通信分公司 作业调度方法、装置、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190138674A1 (en) * 2017-11-03 2019-05-09 Drishti Technologies, Inc. Automatic analysis of real time conditions in an activity space
CN109960578A (zh) * 2017-12-22 2019-07-02 田文洪 一种基于深度强化学习的数据中心资源离线调度方法
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
CN110097234A (zh) * 2019-05-13 2019-08-06 江苏中烟工业有限责任公司 工业卷烟运输智能调度方法及系统
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和系统
US20200004266A1 (en) * 2019-08-01 2020-01-02 Lg Electronics Inc. Method of performing cloud slam in real time, and robot and cloud server for implementing the same
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN111376954A (zh) * 2020-06-01 2020-07-07 北京全路通信信号研究设计院集团有限公司 一种列车自主调度方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
US20190138674A1 (en) * 2017-11-03 2019-05-09 Drishti Technologies, Inc. Automatic analysis of real time conditions in an activity space
CN109960578A (zh) * 2017-12-22 2019-07-02 田文洪 一种基于深度强化学习的数据中心资源离线调度方法
CN110097234A (zh) * 2019-05-13 2019-08-06 江苏中烟工业有限责任公司 工业卷烟运输智能调度方法及系统
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和系统
US20200004266A1 (en) * 2019-08-01 2020-01-02 Lg Electronics Inc. Method of performing cloud slam in real time, and robot and cloud server for implementing the same
CN111369181A (zh) * 2020-06-01 2020-07-03 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和模块
CN111376954A (zh) * 2020-06-01 2020-07-07 北京全路通信信号研究设计院集团有限公司 一种列车自主调度方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUHUI QU等: "Dynamic scheduling in modern processing systems using expert-guided distributed reinforcement learning", 《2019 24TH IEEE INTERNATIONAL CONFERENCE ON EMERGING TECHNOLOGIES AND FACTORY AUTOMATION (ETFA)》, pages 459 - 466 *
李静: "基于在线学习的自动化码头AGV调度方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, pages 034 - 594 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361924B (zh) * 2021-06-07 2024-05-17 广州宏途数字科技有限公司 一种用于优化教学质量的作业布置方法
CN113361924A (zh) * 2021-06-07 2021-09-07 广州宏途教育网络科技有限公司 一种用于优化教学质量的作业布置方法
CN113419830B (zh) * 2021-06-23 2023-02-03 鹤壁国立光电科技股份有限公司 一种基于神经网络的多维度调度方法及系统
CN113419830A (zh) * 2021-06-23 2021-09-21 鹤壁国立光电科技股份有限公司 一种基于神经网络的多维度调度方法及系统
CN113568725A (zh) * 2021-07-14 2021-10-29 中国科学院计算技术研究所 深度学习作业优先级调度方法及深度学习作业系统
CN113535365A (zh) * 2021-07-30 2021-10-22 中科计算技术西部研究院 基于强化学习的深度学习训练作业资源放置系统及方法
CN113791882B (zh) * 2021-08-25 2023-10-20 北京百度网讯科技有限公司 多任务的部署方法、装置、电子设备及存储介质
CN113791882A (zh) * 2021-08-25 2021-12-14 北京百度网讯科技有限公司 多任务的部署方法、装置、电子设备及存储介质
CN114281528A (zh) * 2021-12-10 2022-04-05 重庆邮电大学 一种基于深度强化学习和异构Spark集群的节能调度方法及系统
CN114675975A (zh) * 2022-05-24 2022-06-28 新华三人工智能科技有限公司 一种基于强化学习的作业调度方法、装置及设备
WO2024065826A1 (en) * 2022-09-30 2024-04-04 Intel Corporation Accelerate deep learning with inter-iteration scheduling
CN116155750A (zh) * 2023-04-19 2023-05-23 之江实验室 深度学习作业资源放置方法、系统、设备和存储介质
CN117950832A (zh) * 2024-01-05 2024-04-30 国网冀北电力有限公司信息通信分公司 作业调度方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112035251B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN112035251B (zh) 基于强化学习作业布局的深度学习训练系统及方法
CN111274036B (zh) 一种基于速度预测的深度学习任务的调度方法
Iverson et al. Dynamic, competitive scheduling of multiple DAGs in a distributed heterogeneous environment
CN110362388B (zh) 一种资源调度方法及装置
CN115237581A (zh) 一种面向异构算力的多策略智能调度方法和装置
CN101271405A (zh) 基于QoS约束的双向分级网格资源调度方法
CN115543577B (zh) 基于协变量的Kubernetes资源调度优化方法、存储介质及设备
CN110941451A (zh) 一种数据流处理器指令映射方法及系统、装置
CN106383746A (zh) 大数据处理系统的配置参数确定方法和装置
CN113886034A (zh) 任务调度方法、系统、电子设备及存储介质
CN114327829A (zh) 一种多核实时任务调度分析与仿真系统及方法
CN114647515A (zh) 一种面向gpu集群的动态资源调度方法
CN116932201A (zh) 一种面向深度学习训练任务的多资源共享调度方法
CN114217966A (zh) 基于资源调整的深度学习模型动态批处理调度方法和系统
CN106934537A (zh) 基于反向工作流调度的子期限获取优化方法
CN111176831B (zh) 基于多线程共享内存通信的动态线程映射优化方法及装置
CN116932198A (zh) 资源调度方法、装置、电子设备及可读存储介质
CN117707759A (zh) 一种多租户gpu集群弹性配额调度方法和系统
CN114662932A (zh) 一种节点分级的工作流类定时任务调度方法
CN105574705A (zh) 基于优先规则的工作流流转机制
CN103116809B (zh) 面向产品族排序的批处理机的调度装置及方法
CN106897199A (zh) 一种基于大数据处理框架共有特征的批作业执行时间预测方法
CN116841717B (zh) 一种根据任务紧急程度实时生成排序的方法及系统
CN117555683A (zh) 基于深度强化学习的云集群资源调度方法
Vella et al. A simulation framework for scheduling performance evaluation on CPU-GPU heterogeneous system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant