CN113515385A - 资源调度的方法、装置、电子设备及存储介质 - Google Patents

资源调度的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113515385A
CN113515385A CN202110875335.8A CN202110875335A CN113515385A CN 113515385 A CN113515385 A CN 113515385A CN 202110875335 A CN202110875335 A CN 202110875335A CN 113515385 A CN113515385 A CN 113515385A
Authority
CN
China
Prior art keywords
description information
resource
task
action description
environment state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110875335.8A
Other languages
English (en)
Inventor
陈杰
唐振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengjing Intelligent Technology Jiaxing Co ltd
Original Assignee
Shengjing Intelligent Technology Jiaxing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengjing Intelligent Technology Jiaxing Co ltd filed Critical Shengjing Intelligent Technology Jiaxing Co ltd
Priority to CN202110875335.8A priority Critical patent/CN113515385A/zh
Publication of CN113515385A publication Critical patent/CN113515385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了资源调度的方法、装置、电子设备及存储介质,包括:获取任务以及当前环境状态;将任务、当前环境状态输入至已训练的资源调度模型,得到部署任务的动作描述信息;根据动作描述信息将任务部署到对应的物理节点上;其中,已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。本发明通过设置基于资源均匀度以及资源饱和度的动作奖励,兼顾资源分配的均匀度及单节点的资源饱和度,使得在相同硬件资源下能够承担更多的任务,从而实现对提交的任务的合理分配,以达到集群资源的有效利用。

Description

资源调度的方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,具体涉及资源调度的方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的发展及应用,对算力的要求也变得越来越大,目前常见的做法是搭建一个分布式系统集群,然后基于集群做模型的训练。对于一个集群而言,其中资源调度策略是其核心功能之一。
目前,在分布式系统中,其资源调度策略仍然是基于定义的规则来对提交的任务进行物理节点的分配,在实际应用中,随着提交的模型训练任务量的增加,越来越多的训练任务被堆积,而实际集群资源却得不到充分利用。
综上,目前亟需一种资源调度的技术,用于解决上述现有技术存在的问题。
发明内容
由于现有方法存在上述问题,本发明提出资源调度的方法、装置、电子设备及存储介质。
第一方面,本发明提供了一种资源调度的方法,包括:
获取任务以及当前环境状态;所述任务包含资源需求量;所述当前环境状态包括多个物理节点当前的负载状态;
将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息;
根据所述动作描述信息将所述任务部署到所述动作描述信息对应的物理节点上;
其中,所述已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。
进一步地,所述资源调度模型包含价值网络以及目标网络,在将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息之前,还包括:
获取预设数量的训练样本集;每组训练样本包含第一环境状态、动作描述信息、第二环境状态、动作奖励;所述第一环境状态为执行所述动作描述信息前各个物理节点负载状态;所述第二环境状态为执行所述动作描述信息后各个物理节点负载状态;所述动作奖励为执行所述动作描述信息对应的奖励值;
将所述第一环境状态、所述动作描述信息输入到所述价值网络中得到第一函数值;
将所述第二环境状态输入到所述目标网络中得到第二函数值;
根据所述第一函数值、所述第二函数值确定损失函数;
根据所述损失函数更新所述资源调度模型的参数,得到已训练的资源调度模型。
进一步地,所述根据所述损失函数更新所述资源调度模型的参数,包括:
根据所述损失函数更新所述价值网络的参数;
判断所述价值网络更新次数是否达到预设阈值,若达到,则将所述价值网络的参数赋值给所述目标网络的参数。
进一步地,所述价值网络包含第一网络以及第二网络;所述将所述第一环境状态、所述动作描述信息输入到所述价值网络中得到第一函数值,包括:
将所述第一环境状态、所述任务输入至所述第一网络中,得到所述动作描述信息;
将所述第一环境状态、所述动作描述信息输入到所述第二网络中得到所述第一函数值。
进一步地,所述获取预设数量的训练样本集,包括:
获取所述动作描述信息对应的资源均匀度、资源饱和度;
根据所述资源均匀度、所述资源饱和度确定所述动作描述信息对应的动作奖励。
进一步地,所述根据所述资源均匀度、所述资源饱和度确定所述动作描述信息对应的动作奖励,包括:
通过对所述资源均匀度、所述资源饱和度进行加权求和得到所述动作描述信息对应的动作奖励。
进一步地,所述任务包括内存需求量、磁盘需求量以及显存需求量。
第二方面,本发明提供了一种资源调度的装置,包括:
获取模块,用于获取任务以及当前环境状态;所述任务包含资源需求量;所述当前环境状态包括多个物理节点当前的负载状态;
处理模块,用于将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息;根据所述动作描述信息将所述任务部署到所述动作描述信息对应的物理节点上;其中,所述已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。
进一步地,所述资源调度模型包含价值网络以及目标网络,所述处理模块还用于:
在将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息之前,获取预设数量的训练样本集;每组训练样本包含第一环境状态、动作描述信息、第二环境状态、动作奖励;所述第一环境状态为执行所述动作描述信息前各个物理节点负载状态;所述第二环境状态为执行所述动作描述信息后各个物理节点负载状态;所述动作奖励为执行所述动作描述信息对应的奖励值;
将所述第一环境状态、所述动作描述信息输入到所述价值网络中得到第一函数值;
将所述第二环境状态输入到所述目标网络中得到第二函数值;
根据所述第一函数值、所述第二函数值确定损失函数;
根据所述损失函数更新所述资源调度模型的参数,得到已训练的资源调度模型。
进一步地,所述处理模块具体用于:
根据所述损失函数更新所述价值网络的参数;
判断所述价值网络更新次数是否达到预设阈值,若达到,则将所述价值网络的参数赋值给所述目标网络的参数。
进一步地,所述价值网络包含第一网络以及第二网络;所述处理模块具体用于:
将所述第一环境状态、所述任务输入至所述第一网络中,得到所述动作描述信息;
将所述第一环境状态、所述动作描述信息输入到所述第二网络中得到所述第一函数值。
进一步地,所述处理模块具体用于:
获取所述动作描述信息对应的资源均匀度、资源饱和度;
根据所述资源均匀度、所述资源饱和度确定所述动作描述信息对应的动作奖励。
进一步地,所述处理模块具体用于:
通过对所述资源均匀度、所述资源饱和度进行加权求和得到所述动作描述信息对应的动作奖励。
进一步地,所述处理模块具体用于:所述任务包括内存需求量、磁盘需求量以及显存需求量。
第三方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的资源调度的方法。
第四方面,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的资源调度的方法。
由上述技术方案可知,本发明提供的资源调度的方法、装置、电子设备及存储介质,通过设置基于资源均匀度以及资源饱和度的动作奖励,兼顾资源分配的均匀度及单节点的资源饱和度,使得在相同硬件资源下能够承担更多的任务,从而实现对提交的任务的合理分配,以达到集群资源的有效利用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明提供的资源调度的方法的系统框架;
图2为本发明提供的资源调度的方法的流程示意图;
图3为本发明提供的训练资源调度模型的流程示意图;
图4为本发明提供的资源调度的方法中价值网络的示意图;
图5为本发明提供的资源调度的装置的结构示意图;
图6为本发明提供的电子设备的结构示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明实施例提供的资源调度的方法,可以适用于如图1所示的系统架构中,该系统架构包括资源调度模型100、服务器200。
具体的,资源调度模型100用于在输入任务以及当前环境状态后得到部署任务的动作描述信息;
进一步地,根据动作描述信息将任务部署到动作描述信息对应的服务器200上;
需要说明的是,其中,已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。
举例来说,当前环境存在3个服务器,资源调度模型100在输入任务以及当前环境状态后得到部署任务的动作描述信息为(1,0,0),表示将任务部署到第一个服务器上。
需要说明的是,图1仅是本发明实施例系统架构的一种示例,本发明对此不做具体限定。
基于上述所示意的系统架构,图2为本发明实施例提供的一种资源调度的方法所对应的流程示意图,如图2所示,该方法包括:
步骤201,获取任务以及当前环境状态。
需要说明的是,任务包含资源需求量;当前环境状态包括多个物理节点当前的负载状态。
在一种可能的实施方式中,任务包括内存需求量、磁盘需求量以及显存需求量。
本发明实施例中,任务还可以包括网络带宽需求量、磁盘I/O吞吐量等,本发明实施例对此不做具体限定。
以内存需求量、磁盘需求量以及显存需求量为例,对于一个任务χ,χ∈Γ,其中,Γ为所有任务组合。
本发明实施例中,针对内存空间b(0<b≤B,b∈N+)、磁盘空间c(0<c≤C,c∈N+)以及显存大小d(0≤d≤D,d∈N+),Γ共有B*C*(D+1)种组合数。
需要说明的是,其中,N+为正整数,上述内存空间、磁盘空间、显存大小的单位均为兆字节。
在一种可能的实施方式中,当前环境状态
Figure BDA0003190338540000071
表示第i个物理节点t时刻的状态,即其剩余的内存资源、磁盘资源及显存资源,具体如下:
Figure BDA0003190338540000072
需要说明的是,其中,
Figure BDA0003190338540000073
分别表示t时刻第i个物理节点的内存剩余量,磁盘剩余量以及显存剩余量。
本发明实施例中,考虑三种主要资源即内存空间、磁盘空间以及显存大小,简化了问题,提升了资源调度的效率。
步骤202,将任务、当前环境状态输入至已训练的资源调度模型,得到部署任务的动作描述信息。
步骤203,根据动作描述信息将任务部署到对应的物理节点上。
举例来说,当前环境存在4个物理节点,资源调度模型输出的动作描述信息为(0,0,0,1),表示将任务部署到第四个物理节点上。
需要说明的是,其中,已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。
上述方案,通过将任务、当前环境状态输入至已训练的资源调度模型,得到部署任务的动作描述信息,从而实现对提交的任务的合理分配,以达到集群资源的有效利用。
本发明实施例在步骤202之前,步骤流程如图3所示,具体如下:
步骤301,获取预设数量的训练样本集。
需要说明的是,每组训练样本包含第一环境状态、动作描述信息、第二环境状态、动作奖励。
具体的,第一环境状态为执行动作描述信息前各个物理节点负载状态;第二环境状态为执行动作描述信息后各个物理节点负载状态;动作奖励为执行动作描述信息对应的奖励值。
本发明实施例中,训练样本集的产生过程如下:
S0→A0→R1→S1→…→St-1→At-1→Rt→St→…
需要说明的是,其中,St-1表示t-1时刻的环境状态,At-1表示t-1时刻采取的动作描述信息,Rt表示t时刻获取的动作奖励。
具体的,获取动作描述信息对应的资源均匀度、资源饱和度;
根据资源均匀度、资源饱和度确定动作描述信息对应的动作奖励。
在一种可能的实施方式中,通过对资源均匀度、资源饱和度进行加权求和得到动作描述信息对应的动作奖励。
本发明实施例中,动作奖励主要是为了保证两个指标,一是更高的资源均匀度,二是更低的资源饱和度。
进一步地,更高的资源均匀度能够保证任务均匀分布到各个物理节点上,更低的资源饱和度能够避免对物理节点太高的负载。
本发明实施例中,对资源均匀度φ(z)、资源饱和度ψ(z)进行加权求和得到动作描述信息对应的动作奖励的具体公式如下:
Υ(Γ,S,A)=αφ(Γ,S,A)+βψ(Γ,S,A),0<α,β≤1
其中,α、β分别为资源均匀度φ(z)以及资源饱和度ψ(z)的加权系数。
进一步地,资源均匀度的具体计算公式如下:
Figure BDA0003190338540000081
其中,avg表示对向量求平均值,⊙为哈达玛积,μ,σ为各个物理节点的内存、磁盘及显存使用率的平均值及方差,ξ为一个极小值。
具体的,μ,σ具体计算公式如下:
Figure BDA0003190338540000091
需要说明的是,其中
Figure BDA0003190338540000092
为第i个物理节点关于资源M的总量,k为物理节点的总数。
进一步地,本发明实施例中资源饱和度的具体计算公式如下:
Figure BDA0003190338540000093
其中,
Figure BDA0003190338540000094
的具体计算如下:
Figure BDA0003190338540000095
其中,τM表示对M资源容忍的物理节点剩余量,clip(value,min)表示若value值小于min值,则该函数的值为min值。
步骤302,将第一环境状态、动作描述信息输入到价值网络中得到第一函数值。
本发明实施例中,建立如公式1的映射,具体如下:
Figure BDA0003190338540000096
其中,a为动作描述信息,a∈{V1…Vk},Vk表示第k个物理节点,a*为选择的最优动作描述信息。
举例来说,当前环境存在3个服务器,a*为(0,0,1),表示将任务部署到第三个物理节点上。
需要说明的是,第一函数值为价值网络在第一环境状态输入后选择最优动作描述信息对应的输出,最优动作描述信息是使得第一函数值最大的动作描述信息。
进一步地,本发明实施例中,价值网络包含第一网络以及第二网络。
具体的,在步骤302中,将第一环境状态、任务输入至第一网络中,得到动作描述信息;
将第一环境状态、动作描述信息输入到第二网络中得到第一函数值。
进一步地,如图4所示,state vector为当前环境状态向量,H为隐藏层,O为输出层,在本发明实施例中,t时刻的环境状态表示为如下形式:
Figure BDA0003190338540000101
需要说明的是,其中,
Figure BDA0003190338540000102
表示第k个物理节点t时刻的状态。
在一种可能的实施方式中,
Figure BDA0003190338540000103
表示第i个物理节点t时刻的状态即其剩余的内存资源、磁盘资源及显存资源,具体如下:
Figure BDA0003190338540000104
需要说明的是,其中,
Figure BDA0003190338540000105
分别表示t时刻第i个物理节点的内存剩余量,磁盘剩余量以及显存剩余量。
进一步地,图4中的task vector从任务Γ中采样所得,具体如下:
Figure BDA0003190338540000106
需要说明的是,其中,
Figure BDA0003190338540000107
分别表示t时刻任务对应的内存需求量、磁盘需求量及显存需求量。
进一步地,actor vector为第一网络输出的动作描述信息概率向量,具体如下:
Figure BDA0003190338540000108
需要说明的是,其中,pi表示选择第i个物理节点的概率。
上述方案,由于动作描述信息为选择服务器,通过将第一环境状态、任务输入至第一网络中得到动作描述信息,将动作描述信息与任务关联,从而实现对提交的任务的合理分配,以达到集群资源的有效利用。
步骤303,将第二环境状态输入到目标网络中得到第二函数值。
需要说明的是,第二函数值为目标网络在第二环境状态输入后选择最优动作描述信息对应的输出,最优动作描述信息是使得第二函数值最大的动作描述信息。
步骤304,根据第一函数值、第二函数值确定损失函数。
步骤305,根据损失函数更新资源调度模型的参数,得到已训练的资源调度模型。
具体的,根据损失函数更新价值网络的参数;
判断价值网络更新次数是否达到预设阈值,若达到,则将价值网络的参数赋值给目标网络的参数。
本申请实施例中,每当价值网络更新次数达到预设阈值后,将价值网络的参数赋值给目标网络的参数。
本发明实施例中,价值网络与目标网络拥有相同的网络结构,采用延迟更新方法,经过多个批次的训练后,将价值网络的网络结构的权重更新到目标网络中。
上述方案,通过设置基于资源均匀度以及资源饱和度的动作奖励,兼顾资源分配的均匀度及单节点的资源饱和度,使得在相同硬件资源下能够承担更多的任务,从而实现对提交的任务的合理分配,以达到集群资源的有效利用。
基于同一发明构思,图5示例性的示出了本发明实施例提供的一种资源调度的装置,该装置可以为一种资源调度的方法的流程。
所述装置,包括:
获取模块501,用于获取任务以及当前环境状态;所述任务包含资源需求量;所述当前环境状态包括多个物理节点当前的负载状态;
处理模块502,用于将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息;根据所述动作描述信息将所述任务部署到所述动作描述信息对应的物理节点上;其中,所述已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。
进一步地,所述资源调度模型包含价值网络以及目标网络,所述处理模块502还用于:
在将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息之前,获取预设数量的训练样本集;每组训练样本包含第一环境状态、动作描述信息、第二环境状态、动作奖励;所述第一环境状态为执行所述动作描述信息前各个物理节点负载状态;所述第二环境状态为执行所述动作描述信息后各个物理节点负载状态;所述动作奖励为执行所述动作描述信息对应的奖励值;
将所述第一环境状态、所述动作描述信息输入到所述价值网络中得到第一函数值;
将所述第二环境状态输入到所述目标网络中得到第二函数值;
根据所述第一函数值、所述第二函数值确定损失函数;
根据所述损失函数更新所述资源调度模型的参数,得到已训练的资源调度模型。
进一步地,所述处理模块502具体用于:
根据所述损失函数更新所述价值网络的参数;
判断所述价值网络更新次数是否达到预设阈值,若达到,则将所述价值网络的参数赋值给所述目标网络的参数。
进一步地,所述价值网络包含第一网络以及第二网络;所述处理模块具体用于:
将所述第一环境状态、所述任务输入至所述第一网络中,得到所述动作描述信息;
将所述第一环境状态、所述动作描述信息输入到所述第二网络中得到所述第一函数值。
进一步地,所述处理模块502具体用于:
获取所述动作描述信息对应的资源均匀度、资源饱和度;
根据所述资源均匀度、所述资源饱和度确定所述动作描述信息对应的动作奖励。
进一步地,所述处理模块502具体用于:
通过对所述资源均匀度、所述资源饱和度进行加权求和得到所述动作描述信息对应的动作奖励。
进一步地,所述处理模块502具体用于:所述任务包括内存需求量、磁盘需求量以及显存需求量。
基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图6,所述电子设备具体包括如下内容:处理器601、存储器602、通信接口603和通信总线604;
其中,所述处理器601、存储器602、通信接口603通过所述通信总线604完成相互间的通信;所述通信接口603用于实现各设备之间的信息传输;
所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述资源调度的方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:获获取任务以及当前环境状态;所述任务包含资源需求量;所述当前环境状态包括多个物理节点当前的负载状态;将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息;根据所述动作描述信息将所述任务部署到所述动作描述信息对应的物理节点上;其中,所述已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述资源调度的方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:获取任务以及当前环境状态;所述任务包含资源需求量;所述当前环境状态包括多个物理节点当前的负载状态;将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息;根据所述动作描述信息将所述任务部署到所述动作描述信息对应的物理节点上;其中,所述已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,用户生活模式预测装置,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,用户生活模式预测装置,或者网络设备等)执行各个实施例或者实施例的某些部分所述的用户生活模式预测方法。
此外,在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种资源调度的方法,其特征在于,包括:
获取任务以及当前环境状态;所述任务包含资源需求量;所述当前环境状态包括多个物理节点当前的负载状态;
将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息;
根据所述动作描述信息将所述任务部署到对应的物理节点上;
其中,所述已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。
2.根据权利要求1所述的资源调度的方法,其特征在于,所述资源调度模型包含价值网络以及目标网络,在将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息之前,还包括:
获取预设数量的训练样本集;每组训练样本包含第一环境状态、动作描述信息、第二环境状态、动作奖励;所述第一环境状态为执行所述动作描述信息前各个物理节点负载状态;所述第二环境状态为执行所述动作描述信息后各个物理节点负载状态;所述动作奖励为执行所述动作描述信息对应的奖励值;
将所述第一环境状态、所述动作描述信息输入到所述价值网络中得到第一函数值;
将所述第二环境状态输入到所述目标网络中得到第二函数值;
根据所述第一函数值、所述第二函数值确定损失函数;
根据所述损失函数更新所述资源调度模型的参数,得到已训练的资源调度模型。
3.根据权利要求2所述的资源调度的方法,其特征在于,所述根据所述损失函数更新所述资源调度模型的参数,包括:
根据所述损失函数更新所述价值网络的参数;
判断所述价值网络更新次数是否达到预设阈值,若达到,则将所述价值网络的参数赋值给所述目标网络的参数。
4.根据权利要求2所述的资源调度的方法,其特征在于,所述价值网络包含第一网络以及第二网络;所述将所述第一环境状态、所述动作描述信息输入到所述价值网络中得到第一函数值,包括:
将所述第一环境状态、所述任务输入至所述第一网络中,得到所述动作描述信息;
将所述第一环境状态、所述动作描述信息输入到所述第二网络中得到所述第一函数值。
5.根据权利要求2所述的资源调度的方法,其特征在于,所述获取预设数量的训练样本集,包括:
获取所述动作描述信息对应的资源均匀度、资源饱和度;
根据所述资源均匀度、所述资源饱和度确定所述动作描述信息对应的动作奖励。
6.根据权利要求5所述的资源调度的方法,其特征在于,所述根据所述资源均匀度、所述资源饱和度确定所述动作描述信息对应的动作奖励,包括:
通过对所述资源均匀度、所述资源饱和度进行加权求和得到所述动作描述信息对应的动作奖励。
7.根据权利要求1至6任一项所述的资源调度的方法,其特征在于,所述任务包括内存需求量、磁盘需求量以及显存需求量。
8.一种资源调度的装置,其特征在于,包括:
获取模块,用于获取任务以及当前环境状态;所述任务包含资源需求量;所述当前环境状态包括多个物理节点当前的负载状态;
处理模块,用于将所述任务、所述当前环境状态输入至已训练的资源调度模型,得到部署所述任务的动作描述信息;根据所述动作描述信息将所述任务部署到所述动作描述信息对应的物理节点上;其中,所述已训练的资源调度模型为利用不同任务以及不同环境状态进行训练后得到。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202110875335.8A 2021-07-30 2021-07-30 资源调度的方法、装置、电子设备及存储介质 Pending CN113515385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110875335.8A CN113515385A (zh) 2021-07-30 2021-07-30 资源调度的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110875335.8A CN113515385A (zh) 2021-07-30 2021-07-30 资源调度的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113515385A true CN113515385A (zh) 2021-10-19

Family

ID=78067756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110875335.8A Pending CN113515385A (zh) 2021-07-30 2021-07-30 资源调度的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113515385A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909199A (zh) * 2024-03-19 2024-04-19 山东云海国创云计算装备产业创新中心有限公司 性能测定方法、装置、设备,负载均衡方法,系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413396A (zh) * 2019-07-30 2019-11-05 广东工业大学 一种资源调度方法、装置、设备及可读存储介质
CN112291793A (zh) * 2020-12-29 2021-01-29 北京邮电大学 网络接入设备的资源分配方法和装置
US20210081787A1 (en) * 2019-09-12 2021-03-18 Beijing University Of Posts And Telecommunications Method and apparatus for task scheduling based on deep reinforcement learning, and device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413396A (zh) * 2019-07-30 2019-11-05 广东工业大学 一种资源调度方法、装置、设备及可读存储介质
US20210081787A1 (en) * 2019-09-12 2021-03-18 Beijing University Of Posts And Telecommunications Method and apparatus for task scheduling based on deep reinforcement learning, and device
CN112291793A (zh) * 2020-12-29 2021-01-29 北京邮电大学 网络接入设备的资源分配方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909199A (zh) * 2024-03-19 2024-04-19 山东云海国创云计算装备产业创新中心有限公司 性能测定方法、装置、设备,负载均衡方法,系统及介质
CN117909199B (zh) * 2024-03-19 2024-06-11 山东云海国创云计算装备产业创新中心有限公司 性能测定方法、装置、设备,负载均衡方法,系统及介质

Similar Documents

Publication Publication Date Title
CN112764936B (zh) 基于深度强化学习的边缘计算服务器信息处理方法及装置
CN112069903B (zh) 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN113641457B (zh) 容器创建方法、装置、设备、介质及程序产品
CN111865622B (zh) 基于规则引擎集群的云服务计量计费方法及系统
CN113254192B (zh) 资源分配方法、资源分配装置、电子设备及存储介质
CN114021737B (zh) 一种基于博弈的强化学习方法、系统、终端及存储介质
CN116257363B (zh) 资源调度方法、装置、设备及存储介质
CN112667400A (zh) 边缘自治中心管控的边云资源调度方法、装置及系统
CN114610474A (zh) 一种异构超算环境下多策略的作业调度方法及系统
CN113515385A (zh) 资源调度的方法、装置、电子设备及存储介质
CN113900779A (zh) 任务执行方法、装置、电子设备及存储介质
CN113988225B (zh) 建立表征提取模型、表征提取、类型识别的方法和装置
CN114297934A (zh) 一种基于代理模型的模型参数并行仿真优化方法及装置
CN116938323B (zh) 一种基于强化学习的卫星转发器资源分配方法
CN111324644A (zh) 大型微服务架构下的数据库连接风暴的监控方法及装置
CN109977998B (zh) 信息处理方法及装置、存储介质和电子装置
CN111225045A (zh) 一种hive高可用预警方法,设备及计算机可读存储介质
CN113992520B (zh) 一种虚拟网络资源的部署方法和系统
CN113050955A (zh) 一种自适应ai模型部署方法
CN115239068A (zh) 一种目标任务决策方法、装置、电子设备及存储介质
CN113709817A (zh) 多基站多服务器场景下的任务卸载和资源调度方法及装置
CN113949633A (zh) 基于机器学习的5g网络切片容灾池资源管理方法及装置
CN114374608B (zh) 切片实例备份任务调度方法、装置和电子设备
CN111324444A (zh) 一种云计算任务调度方法及装置
CN116032928B (zh) 数据协同计算方法、装置、系统、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination