CN111722910A - 一种云作业调度及资源配置的方法 - Google Patents

一种云作业调度及资源配置的方法 Download PDF

Info

Publication number
CN111722910A
CN111722910A CN202010567753.6A CN202010567753A CN111722910A CN 111722910 A CN111722910 A CN 111722910A CN 202010567753 A CN202010567753 A CN 202010567753A CN 111722910 A CN111722910 A CN 111722910A
Authority
CN
China
Prior art keywords
job
server
energy consumption
scheduling
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010567753.6A
Other languages
English (en)
Other versions
CN111722910B (zh
Inventor
崔得龙
林建鹏
彭志平
李启锐
何杰光
邱金波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Petrochemical Technology
Original Assignee
Guangdong University of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Petrochemical Technology filed Critical Guangdong University of Petrochemical Technology
Priority to CN202010567753.6A priority Critical patent/CN111722910B/zh
Publication of CN111722910A publication Critical patent/CN111722910A/zh
Application granted granted Critical
Publication of CN111722910B publication Critical patent/CN111722910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及云计算领域,更具体地,涉及一种云作业调度及资源配置的方法,包括:步骤S1:获取用户上传的作业,建立作业集;步骤S2:将作业集中的作业分配到不同的作业队列;步骤S3:通过作业调度器将作业队列中的作业调度到不同的数据中心;步骤S4:对调度到数据中心的作业进行任务解耦,将作业转化为不同的子任务;步骤S5:通过资源调度器为不同的子任务分配虚拟机,并且以虚拟机为部署单位,部署到相应的服务器。本发明对云作业调度进行多目标优化和全局优化。

Description

一种云作业调度及资源配置的方法
技术领域
本发明涉及云计算领域,更具体地,涉及一种云作业调度及资源配置的方法。
背景技术
随着人工智能和5G通信技术的发展,云计算应用前景将更加广阔,用户数和服务供应商数也将出现爆发式增长。云计算行动方案的持续实施,产业界和学术界两者在云计算领域的投入持续增加,云市场仍保持快速增长的态势。另外,随着理论研究和技术水平的不断完善和进步,云计算已经成为推动人工智能发展的强大动力引擎,进一步提升,大数据、物联网等新兴的应用落地和发展。然而,由于应用规模爆发式壮大,用户数和服务供应商数迅速增加,如何高效实现多用户多云供应商的作业调度与资源配置成为云计算发展的一项重大挑战。良好的调度策略需要在复杂的云环境下,不仅能够实现云任务的高效调度,而且还需要综合考虑用户的服务质量和供应商的收益。在复杂多变的云环境下实现多用户多数据中心高效的作业调度与资源供配置将会成为一项重大挑战。
针对云作业调度的问题学者们研究出了许多方案,其中启发式算法一直是解决云计算调度问题的最常用的解决方法。Alkayal等人提出了一种利用多目标优化(MOO)和粒子群优化(PSO)算法优化作业调度的资源配置新模型,该模型目标是将作业调度到虚拟机过程中,最小化等待时间并最大化系统吞吐量。而Hu等人针对工作流调度的可靠性问题,提出一种多云环境下的科学工作流多目标调度算法,目标是在可靠性约束下,最小化工作流的完工时间和成本。还有近年来,在尝试采用强化学习的决策能力和“试错机制”来探索调度问题最优策略的算法。Peng等人结合强化学习和队列理论来解决复杂云环境下的任务调度和资源配置问题。提出的方法巧妙的将调度问题转变成序列决策问题,通过RL智能体不断与云环境交互探索,寻找最优的调度策略。Yi等人针对在动态变化的用户需求和云环境中,实现应用程序的自动伸缩问题,提出一个Q-learning算法的自适应租赁计划生成方法来帮助SaaS供应商做出高效的IaaS设施调整决策,并自动生成最优的租赁策略。上述的方案虽然能解决调度问题,但却仍然存在不少缺陷。首先,大多现存研究只针对调度过程的任务调度阶段或资源配置阶段进行优化,而不是全局优化。然后,大多研究只针对用户服务质量或是云供应商收益作为单一优化目标,而不是多目标优化。因此,目前亟需一种对云作业调度进行多目标优化和全局优化的云作业调度及资源配置的方法。
发明内容
为了解决上述问题,本发明提供一种云作业调度及资源配置的方法,该方法对云作业调度进行多目标优化和全局优化。
本发明采取的技术方案是:
一种云作业调度及资源配置的方法,包括:
步骤S1:获取作业,建立作业集;
步骤S2:将作业集中的作业分配到不同的作业队列;
步骤S3:将作业队列中的作业调度到不同的数据中心;
步骤S4:对调度到数据中心的作业进行任务解耦,将作业转化为不同的子任务;
步骤S5:为不同的子任务分配虚拟机,并且以虚拟机为部署单位,部署到相应的服务器。
具体地,本方案分为两个阶段包括作业调度阶段和资源配置阶段,两个阶段分别具有不同的智能调度器负责调度任务。在作业调度阶段,采用HDDL(HeterogeneousDistributed Deep Learning model)模型作为作业调度器将用户通过互联网上传的作业进行调度,由于海量的用户和众多的数据中心存在错综复杂的地理位置关系。因此,作业调度器将来自地理位置接近的作业聚集到同一作业队列中,形成多个作业队列。作业调度器充分考虑数据中心和用户的地理位置分布,用户作业负载的属性,数据中心的资源配置等因素,为用户作业负载选择最优的数据中心,权衡作业的运行延迟和数据中心的能耗,在保证用户服务质量的同时,尽量减少能耗以提高供应商的收益。在资源配置阶段,采用DQN(Deep Q-network)模型作为资源调度器,资源调度器负责为任务配置虚拟机资源,并将虚拟机部署到数据中心的服务器上执行。资源调度器将调度到数据中心的作业转化为任务,再将任务拆分为一个个子任务,然后根据服务器的负载状态以及动态能耗调整资源配置策略,为任务配置满足其资源需求的虚拟机资源,并部署到特定的服务器上,减少任务延迟和数据中心的能耗,提高用户的服务质量和降低服务供应商的成本。作业调度器和资源调度器综合考虑用户作业延迟和数据中心的能耗对云作业调度进行多目标优化和全局优化。
进一步地,所述步骤S3包括:
步骤S3.1:通过作业队列中的作业训练作业调度器;
所述作业调度器包括作业样本池和多个深度神经网络,用于根据作业属性和数据中心参数将作业队列中的作业调度到不同的数据中心;
步骤S3.2:通过训练好的作业调度器获取调度结果;所述调度结果为作业以最小的作业延迟和能耗消耗满足作业需求的调度方式;
步骤S3.3:根据调度结果进行作业调度。
具体地,作业调度阶段的目标是将多个作业队列中的作业按照调度策略调度到特定的数据中心中。作业调度器,也即HDDL模型由多个异构的深度神经网络(DNN)和作业样本池(Memory)组成,各个DNN的网络层数相同,网络隐藏层节点数不同。HDDL模型扮演的角色是将多个作业调度到不同的数据中心。因为用户作业需求种类各异,并且不同的数据中心在计算能力、带宽、能耗等也存在明显的差异,所以当多个用户通过网络提交需求各异的作业到云数据中心,通过按需付费的方式获取相应的云计算服务时,作业调度器需要根据用户作业需求和各数据中心的属性,来为不同的作业选择合适的数据中心,以最小的延迟和成本代价来执行作业。作业调度器负责在综合考虑用户服务质量和供应商成本的情况下,按照最优的调度策略,将作业队列中的作业调度到多个数据中心。
进一步地,所述步骤S3.1包括:
步骤S3.11:将作业队列中作业的属性表示为作业状态st
步骤S3.12:通过函数
Figure BDA0002548158240000031
将作业状态st转化为多个动作决策;
步骤S3.13:通过回报函数计算多个动作决策中每个动作决策的回报值;
步骤S3.14:选取最小回报值对应的动作决策为最优决策,并且将作业状态st和最优决策存储进作业样本池中;
步骤S3.15:根据作业样本池中的作业状态st和最优决策对深度神经网络进行训练。
具体地,HDDL模型的训练过程:首先将所有队列中的作业属性表示为作业状态st,将作业状态st作为所有DNN的输入,经过函数
Figure BDA0002548158240000032
转化后,输出多个动作决策
Figure BDA0002548158240000033
通过设定好的回报函数计算每个动作决策能够获得的回报值,取最大或最小回报值的对应的动作决策作为最优决策(在本方案中,回报函数为优化作业延迟和能源消耗,因此取最小的回报值对应的动作决策为最优决策)。然后,将各DNN训练过程中产生的st和最优决策作为样本存储到样本池中,随机从样本池中抽取Min-batch批量样本作为各个DNN的公用训练样本集,用于目标为最小化回报值的训练。
进一步地,所述步骤S3.1中深度神经网络的交叉熵损失函数为:
Figure BDA0002548158240000041
其中,θx为第x个深度神经网络的参数,所述深度神经网络的参数由随机梯度下降法进行更新;
Figure BDA0002548158240000042
为第T个动作决策。
进一步地,所述步骤S3.13中的回报函数为:
Figure BDA0002548158240000043
其中,s为作业状态,d为动作决策,λd为延迟的回报值权重,λe为能耗的回报值权重,N为作业队列总数,M为每个作业队列的作业总数,
Figure BDA0002548158240000044
为作业的通信延迟,
Figure BDA0002548158240000045
为作业的计算延迟,
Figure BDA0002548158240000046
为作业的通信能耗,
Figure BDA0002548158240000047
为作业的计算能耗。
具体地,作业调度器的优化目标是作业延迟和能源消耗,因此作业调度器包括通信模型和计算模型。通信模型包括通信延迟和通信能耗;计算模型包括计算延迟和计算能耗。
进一步地,所述作业的通信能耗为:
Figure BDA0002548158240000048
所述作业的通信延迟为:
Figure BDA0002548158240000049
其中,
Figure BDA00025481582400000410
为数据中心通信功率,βnm为传输数据量,
Figure BDA00025481582400000411
为给作业分配的带宽;
所述作业的计算能耗为:
Figure BDA00025481582400000412
所述作业的计算延迟为:
Figure BDA00025481582400000413
其中,
Figure BDA00025481582400000414
为数据中心运行功率,αnm为计算作业所需的CPU周期,
Figure BDA00025481582400000415
为给作业分配的计算周期;
所述给作业分配的带宽为:
Figure BDA00025481582400000416
其中,Ak为数据中心的作业总数,BWk为数据中心的带宽;
所述给作业分配的计算周期为:
Figure BDA0002548158240000051
其中,Ak为数据中心的作业总数,Ck为数据中心的计算能力。
进一步地,所述步骤S5包括:
步骤S5.1:通过子任务训练资源调度器;
所述资源调度器包括智能体和任务样本池,用于根据任务属性为子任务分配虚拟机,根据服务器参数将虚拟机部署到相应的服务器;
步骤S5.2:通过训练好的资源调度器获取部署结果;所述部署结果为子任务以最小的任务延迟和能源消耗满足任务需求的部署方式;
步骤S5.3:根据部署结果进行虚拟机部署。
具体地,资源配置阶段的目标是根据任务的资源需求和服务器的负载状态调整资源配置策略。资源调度器,也即DQN模型由智能体(Agent)和任务样本池(Memory)组成,智能体通过不断与云环境进行交互探索,透过奖罚机制和经验回放机制,累积学习经验,以寻找最优的调度策略。当用户作业传输到数据中心后,需要对具有任务依赖关系的作业流进行任务解耦,按照其拓扑顺序将子任务排列到任务队列中,以确保满足任务之间的依赖性。在本方案中不考虑数据放置因素,忽略数据在同一数据中心的传输成本和时间。数据中心由众多异构的物理服务器链接而成,由于数据中心的服务器硬件配置不同,异构服务器之间的最大负载能力和能耗存在差异。因此,在资源配置的过程中,DQN模型需要为任务分配满足其资源需求的虚拟机资源,部署到特定的服务器上,在保证用户服务质量的同时,实现服务器的负载均衡和减低数据中心能耗的目标。
进一步地,所述步骤S5.1包括:
步骤S5.11:将当前时间步的数据中心的服务器状态输入到智能体;
步骤S5.12:根据服务器状态获取到任务数据集,并且将任务数据集存储进任务样本池中;
步骤S5.13:根据任务样本池中的任务数据集对智能体进行训练;
所述任务数据集为(St,α,r,St+1),其中St为当前时间步t的数据中心的服务器状态,α为智能体根据服务器状态St按照策略π选择的动作,r为进行动作α的回报值,St+1为下一时间步t+1数据中心的服务器状态。
具体地,DQN模型的训练过程:首先,云环境将当前时间步t的系统状态St作为Agent的网络输入,获得Agent按照策略π选择的动作α和回报值r和下一时间步的状态St+1,并将任务数据集(St,α,r,St+1)作为训练样本存储到任务样本池中,待任务样本池中的样本数达到阈值,从中随机抽取Mini-batch数的样本,对智能体进行训练,目标是最大化期望累积折扣回报。
进一步地,所述步骤S5.1中的智能体的均分差损失函数为:
Figure BDA0002548158240000061
其中,(s,a,r,s’)为任务样本池中任意任务数据集,θi为用于计算第i次迭代时的参数,
Figure BDA0002548158240000062
为用于计算第i次迭代时的目标参数,γ∈[0,1]为折扣因子,Q为期望回报值,a’为服务器状态s’下获取最大Q值所采取的动作;
所述参数θi关于损失函数的梯度为:
Figure BDA0002548158240000063
具体地,DQN模型采用Mini-batch训练方法,每个训练回合均从任务样本池中随机选取M个样本(St,α,r,St+1),将服务器状态St作为在线网络的输入,获得动作α的当前r值,将下一状态St+1作为目标网络的输入,获得目标网络中所有动作中的最大回报值Q。计算参数θ关于损失函数的梯度并随机梯度下降法(Stochastic Gradient Descent,SDG)来更新参数θ。网络参数采用延迟更新方法,每若干个训练回合才将当前在线网络的参数值复制给目标网络,更新一次目标网络参数θ~。所述计算参数θ关于损失函数的梯度的公式为:
Figure BDA0002548158240000064
进一步地,所述资源调度器的总回报函数为:
Rtotal=wd*Rdelay+wec*Rec
其中,wd和wec为参数,用于调整Rdelay和Rec的数值,避免两者相差过大;Rdelay为任务延迟回报函数,Rec为能源消耗回报函数;
所述能源消耗回报函数为:
Rec=Etotal(t)-Etotal(t-1)
其中,Etotal(t)为数据中心所有服务器在t时刻的总能耗,所述数据中心所有服务器的总能耗为:
Figure BDA0002548158240000065
其中,
Figure BDA0002548158240000071
为第x个服务器在t时刻的静态能耗,为一个固定常量;
Figure BDA0002548158240000072
为第x个服务器在t时刻的动态能耗;
所述服务器的动态能耗为:
Figure BDA0002548158240000073
其中,Ux(t)为第x个服务器在t时刻的负载率;αx为参数,表示线性增长率;
Figure BDA0002548158240000074
为第x个服务器在t时刻的最优负载率;βx为参数,表示非线性增长率;
所述服务器负载率为:
Figure BDA0002548158240000075
其中,
Figure BDA0002548158240000076
为在t时刻服务器上正运行的虚拟机数量,
Figure BDA0002548158240000077
为在t时刻服务器上可运行虚拟机的最大数量。
具体地,资源调度器的优化目标是任务延迟和服务器能源消耗,因此资源调度器的总目标即是最小化回报函数Min(Rtotal)。服务器能源消耗包括服务器的静态能耗
Figure BDA0002548158240000078
和服务器的动态能耗
Figure BDA0002548158240000079
其中服务器的静态能耗
Figure BDA00025481582400000710
是常量,服务器的动态能耗
Figure BDA00025481582400000711
与服务器的负载率Ux(t)存在复杂关系。每个服务器都存在最优负载率
Figure BDA00025481582400000712
Figure BDA00025481582400000713
时,服务器的动态能耗
Figure BDA00025481582400000714
随负载率Ux(t)线性增长,当
Figure BDA00025481582400000715
服务器的动态能耗
Figure BDA00025481582400000716
随服务器负载Ux(t)非线性指数增长。若虚拟机成功部署到目标服务器,则回报值为Rdelay=1,否则,Rdelay=-1。
与现有技术相比,本发明的有益效果为:
(1)采用基于深度学习模型的作业调度器完成作业调度,减少任务延迟和数据中心的能耗,提高用户的服务质量和降低服务供应商的成本。
(2)采用深度强化学习的资源调度器在保证用户服务质量的同时,实现服务器的负载均衡和减低数据中心能耗的目标。
(3)作业调度器和资源调度器根据不同阶段的优化目标来完成调度任务,对云作业调度进行多目标优化和全局优化。
附图说明
图1为本发明的框架模型图;
图2为本发明的作业调度器模型图;
图3为本发明的资源调度器模型图;
图4为本发明的仿真实验图1;
图5为本发明的仿真实验图2;
图6为本发明的仿真实验图3;
图7为本发明的仿真实验图4;
图8为本发明的仿真实验图5;
图9为本发明的仿真实验图6;
图10为本发明的仿真实验图7。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例
本实施例提供一种云作业调度及资源配置的方法,图1为本发明的框架模型图,如图所示,包括:
步骤S1:获取作业,建立作业集;
步骤S2:将作业集中的作业分配到不同的作业队列;
步骤S3:将作业队列中的作业调度到不同的数据中心;
步骤S4:对调度到数据中心的作业进行任务解耦,将作业转化为不同的子任务;
步骤S5:为不同的子任务分配虚拟机,并且以虚拟机为部署单位,部署到相应的服务器。
具体地,本方案分为两个阶段包括作业调度阶段和资源配置阶段,两个阶段分别具有不同的智能调度器负责调度任务。在作业调度阶段,采用HDDL(HeterogeneousDistributed Deep Learning model)模型作为作业调度器将用户通过互联网上传的作业进行调度,由于海量的用户和众多的数据中心存在错综复杂的地理位置关系。因此,作业调度器将来自地理位置接近的作业聚集到同一作业队列中,形成多个作业队列。作业调度器充分考虑数据中心和用户的地理位置分布,用户作业负载的属性,数据中心的资源配置等因素,为用户作业负载选择最优的数据中心,权衡作业的运行延迟和数据中心的能耗,在保证用户服务质量的同时,尽量减少能耗以提高供应商的收益。在资源配置阶段,采用DQN(Deep Q-network)模型作为资源调度器,资源调度器负责为任务配置虚拟机资源,并将虚拟机部署到数据中心的服务器上执行。资源调度器将调度到数据中心的作业转化为任务,再将任务拆分为一个个子任务,然后根据服务器的负载状态以及动态能耗调整资源配置策略,为任务配置满足其资源需求的虚拟机资源,并部署到特定的服务器上,减少任务延迟和数据中心的能耗,提高用户的服务质量和降低服务供应商的成本。作业调度器和资源调度器综合考虑用户作业延迟和数据中心的能耗对云作业调度进行多目标优化和全局优化。
进一步地,图2为本发明的作业调度器模型图,如图所示,所述步骤S3包括:
步骤S3.1:通过作业队列中的作业训练作业调度器;
所述作业调度器包括作业样本池和多个深度神经网络,用于根据作业属性和数据中心参数将作业队列中的作业调度到不同的数据中心;
步骤S3.2:通过训练好的作业调度器获取调度结果;所述调度结果为作业以最小的作业延迟和能耗消耗满足作业需求的调度方式;
步骤S3.3:根据调度结果进行作业调度。
具体地,作业调度阶段的目标是将多个作业队列中的作业按照调度策略调度到特定的数据中心中。作业调度器,也即HDDL模型由多个异构的深度神经网络(DNN)和作业样本池(Memory)组成,各个DNN的网络层数相同,网络隐藏层节点数不同。HDDL模型扮演的角色是将多个作业调度到不同的数据中心。因为用户作业需求种类各异,并且不同的数据中心在计算能力、带宽、能耗等也存在明显的差异,所以当多个用户通过网络提交需求各异的作业到云数据中心,通过按需付费的方式获取相应的云计算服务时,作业调度器需要根据用户作业需求和各数据中心的属性,来为不同的作业选择合适的数据中心,以最小的延迟和成本代价来执行作业。作业调度器负责在综合考虑用户服务质量和供应商成本的情况下,按照最优的调度策略,将作业队列中的作业调度到多个数据中心。
进一步地,所述步骤S3.1包括:
步骤S3.11:将作业队列中作业的属性表示为作业状态st
步骤S3.12:通过函数
Figure BDA0002548158240000101
将作业状态st转化为多个动作决策;
步骤S3.13:通过回报函数计算多个动作决策中每个动作决策的回报值;
步骤S3.14:选取最小回报值对应的动作决策为最优决策,并且将作业状态st和最优决策存储进作业样本池中;
步骤S3.15:根据作业样本池中的作业状态st和最优决策对深度神经网络进行训练。
具体地,HDDL模型的训练过程:首先将所有队列中的作业属性表示为作业状态st,将作业状态st作为所有DNN的输入,经过函数
Figure BDA0002548158240000102
转化后,输出多个动作决策
Figure BDA0002548158240000103
通过设定好的回报函数计算每个动作决策能够获得的回报值,取最大或最小回报值的对应的动作决策作为最优决策(在本方案中,回报函数为优化作业延迟和能源消耗,因此取最小的回报值对应的动作决策为最优决策)。然后,将各DNN训练过程中产生的st和最优决策作为样本存储到样本池中,随机从样本池中抽取Min-batch批量样本作为各个DNN的公用训练样本集,用于目标为最小化回报值的训练。
进一步地,所述步骤S3.1中深度神经网络的交叉熵损失函数为:
Figure BDA0002548158240000104
其中,θx为第x个深度神经网络的参数,所述深度神经网络的参数由随机梯度下降法进行更新;
Figure BDA0002548158240000105
为第T个动作决策。
进一步地,所述步骤S3.13中的回报函数为:
Figure BDA0002548158240000106
其中,s为作业状态,d为动作决策,λd为延迟的回报值权重,λe为能耗的回报值权重,N为作业队列总数,M为每个作业队列的作业总数,
Figure BDA0002548158240000107
为作业的通信延迟,
Figure BDA0002548158240000108
为作业的计算延迟,
Figure BDA0002548158240000109
为作业的通信能耗,
Figure BDA00025481582400001010
为作业的计算能耗。
具体地,作业调度器的优化目标是作业延迟和能源消耗,因此作业调度器包括通信模型和计算模型。通信模型包括通信延迟和通信能耗;计算模型包括计算延迟和计算能耗。
进一步地,所述作业的通信能耗为:
Figure BDA00025481582400001011
所述作业的通信延迟为:
Figure BDA00025481582400001012
其中,
Figure BDA0002548158240000111
为数据中心通信功率,βnm为传输数据量,
Figure BDA0002548158240000112
为给作业分配的带宽;
所述作业的计算能耗为:
Figure BDA0002548158240000113
所述作业的计算延迟为:
Figure BDA0002548158240000114
其中,
Figure BDA0002548158240000115
为数据中心运行功率,αnm为计算作业所需的CPU周期,
Figure BDA0002548158240000116
为给作业分配的计算周期;
所述给作业分配的带宽为:
Figure BDA0002548158240000117
其中,Ak为数据中心的作业总数,BWk为数据中心的带宽;
所述给作业分配的计算周期为:
Figure BDA0002548158240000118
其中,Ak为数据中心的作业总数,Ck为数据中心的计算能力。
进一步地,图3为本发明的资源调度器模型图,如图所示,所述步骤S5包括:
步骤S5.1:通过子任务训练资源调度器;
所述资源调度器包括智能体和任务样本池,用于根据任务属性为子任务分配虚拟机,根据服务器参数将虚拟机部署到相应的服务器;
步骤S5.2:通过训练好的资源调度器获取部署结果;所述部署结果为子任务以最小的任务延迟和能源消耗满足任务需求的部署方式;
步骤S5.3:根据部署结果进行虚拟机部署。
具体地,资源配置阶段的目标是根据任务的资源需求和服务器的负载状态调整资源配置策略。资源调度器,也即DQN模型由智能体(Agent)和任务样本池(Memory)组成,智能体通过不断与云环境进行交互探索,透过奖罚机制和经验回放机制,累积学习经验,以寻找最优的调度策略。当用户作业传输到数据中心后,需要对具有任务依赖关系的作业流进行任务解耦,按照其拓扑顺序将子任务排列到任务队列中,以确保满足任务之间的依赖性。在本方案中不考虑数据放置因素,忽略数据在同一数据中心的传输成本和时间。数据中心由众多异构的物理服务器链接而成,由于数据中心的服务器硬件配置不同,异构服务器之间的最大负载能力和能耗存在差异。因此,在资源配置的过程中,DQN模型需要为任务分配满足其资源需求的虚拟机资源,部署到特定的服务器上,在保证用户服务质量的同时,实现服务器的负载均衡和减低数据中心能耗的目标。
进一步地,所述步骤S5.1包括:
步骤S5.11:将当前时间步的数据中心的服务器状态输入到智能体;
步骤S5.12:根据服务器状态获取到任务数据集,并且将任务数据集存储进任务样本池中;
步骤S5.13:根据任务样本池中的任务数据集对智能体进行训练;
所述任务数据集为(St,α,r,St+1),其中St为当前时间步t的数据中心的服务器状态,α为智能体根据服务器状态St按照策略π选择的动作,r为进行动作α的回报值,St+1为下一时间步t+1数据中心的服务器状态。
具体地,DQN模型的训练过程:首先,云环境将当前时间步t的系统状态St作为Agent的网络输入,获得Agent按照策略π选择的动作α和回报值r和下一时间步的状态St+1,并将任务数据集(St,α,r,St+1)作为训练样本存储到任务样本池中,待任务样本池中的样本数达到阈值,从中随机抽取Mini-batch数的样本,对智能体进行训练,目标是最大化期望累积折扣回报。
进一步地,所述步骤S5.1中的智能体的均分差损失函数为:
Figure BDA0002548158240000121
其中,(s,a,r,s’)为任务样本池中任意任务数据集,θi为用于计算第i次迭代时的参数,
Figure BDA0002548158240000122
为用于计算第i次迭代时的目标参数,γ∈[0,1]为折扣因子,Q为期望回报值,a’为服务器状态s’下获取最大Q值所采取的动作;
所述参数θi关于损失函数的梯度为:
Figure BDA0002548158240000123
具体地,DQN模型采用Mini-batch训练方法,每个训练回合均从任务样本池中随机选取M个样本(St,α,r,St+1),将服务器状态St作为在线网络的输入,获得动作α的当前r值,将下一状态St+1作为目标网络的输入,获得目标网络中所有动作中的最大回报值Q。计算参数θ关于损失函数的梯度并随机梯度下降法(Stochastic Gradient Descent,SDG)来更新参数θ。网络参数采用延迟更新方法,每若干个训练回合才将当前在线网络的参数值复制给目标网络,更新一次目标网络参数θ~。所述计算参数θ关于损失函数的梯度的公式为:
Figure BDA0002548158240000131
进一步地,所述资源调度器的总回报函数为:
Rtotal=wd*Rdelay+wec*Rec
其中,wd和wec为参数,用于调整Rdelay和Rec的数值,避免两者相差过大;Rdelay为任务延迟回报函数,Rec为能源消耗回报函数;
所述能源消耗回报函数为:
Rec=Etotal(t)-Etotal(t-1)
其中,Etotal(t)为数据中心所有服务器在t时刻的总能耗,所述数据中心所有服务器的总能耗为:
Figure BDA0002548158240000132
其中,
Figure BDA0002548158240000133
为第x个服务器在t时刻的静态能耗,为一个固定常量;
Figure BDA0002548158240000134
为第x个服务器在t时刻的动态能耗;
所述服务器的动态能耗为:
Figure BDA0002548158240000135
其中,Ux(t)为第x个服务器在t时刻的负载率;αx为参数,表示线性增长率;
Figure BDA0002548158240000136
为第x个服务器在t时刻的最优负载率;βx为参数,表示非线性增长率;
所述服务器负载率为:
Figure BDA0002548158240000137
其中,
Figure BDA0002548158240000138
为在t时刻服务器上正运行的虚拟机数量,
Figure BDA0002548158240000139
为在t时刻服务器上可运行虚拟机的最大数量。
具体地,资源调度器的优化目标是任务延迟和服务器能源消耗,因此资源调度器的总目标即是最小化回报函数Min(Rtotal)。服务器能源消耗包括服务器的静态能耗
Figure BDA00025481582400001310
和服务器的动态能耗
Figure BDA00025481582400001311
其中服务器的静态能耗
Figure BDA00025481582400001312
是常量,服务器的动态能耗
Figure BDA00025481582400001313
与服务器的负载率Ux(t)存在复杂关系。每个服务器都存在最优负载率
Figure BDA00025481582400001314
Figure BDA0002548158240000141
时,服务器的动态能耗
Figure BDA0002548158240000142
随负载率Ux(t)线性增长,当
Figure BDA0002548158240000143
服务器的动态能耗
Figure BDA0002548158240000144
随服务器负载Ux(t)非线性指数增长。若虚拟机成功部署到目标服务器,则回报值为Rdelay=1,否则,Rdelay=-1。
本实施例针对作业调度阶段和资源配置阶段分别设计仿真实验。
作业调度阶段:
采用的基准算法有随机算法、循环算法RR、贪心算法和经典启发式算法-多目标粒子群算法(MoPSO)。贪心算法即是通过枚举KM*N种调度方案,计算所有调度方案的回报值Q,选取最小的Q值的方案作为贪心方案,该算法需要耗费大量的计算时间和计算成本,随着数据中心数,队列数,作业数的增加,调度组合数呈指数级增加。
在仿真实验中,设作业队列数N=3,每个队列包含作业数M=3,数据中心数K=3,因此总的调度方案数为33*4种。作业的数据量βnm为取值范围[100,500]MB,并且作业计算周期数与数据量存在关系αnm=q*βnm,q=330cycles/byte。另外,三个数据中心的计算周期数设置为:1.5*1015cycle/s,2.5*1015cycle/s,3.5*1015cycle/s,运行功率为1.0*105,2.5*105,4.0*105,带宽大小分别为250Mbps,550Mbps,450Mbps,通信功率分别为:0.2,0.6,0.5。实验按照上述参数设置,生成500组作业集作为数据集,每组作业集包含12个作业以及对应的最小Q值,按照8:2比例划分成训练集和测试集。
首先,先对采用HDDL的模型和采用贪心算法的模型进行训练,观察两者所获的Q值比率变化来验证两个模型的收敛性与有效性。
图4为本发明的仿真实验图1,从图中可以看出各个算法在训练过程中Q值比率的变化,如图所示,采用了HDDL的模型随着训练次数的增加,Q值比例逐渐递增。在训练次数达到250回合后,曲线开始收敛,收敛效果稍优于采用了MoPSO算法的模型,并且其收敛值接近1,获得近乎最优的调度效果。
然后,再用采用HDDL的模型与采用了基准算法的模型进行比较,根据模型的任务延迟与能耗的分布来观察不同模型优化效果。
图5为本发明的仿真实验图2,如图所示,采用了不同算法的模型,在w1=0.5,w2=0.5时运行100个作业所获得的总延迟和能耗,可以看出,HDDL算法的延迟和能耗均比其他基准算法要更接近贪心Greedy算法。
最后,通过调整两个优化目标:作业延迟和能源消耗,在回报函数所占比重,来验证采用HDDL的模型能否动态调整系统优化目标。
图6为本发明的仿真实验图3,如图所示,采用了HDDL的模型在不同的回报值权重下,执行100个任务所获的延迟回报和能耗回报值变化情况。从图中可以明显看出,延迟回报会随着w1的增大而变小,说明当优化目标更偏向于延迟时,作业调度器将会采用使任务延迟更小的调度策略。相反,随着能耗权重的w2减少,能耗将逐渐增加。由此可以看出,HDLL可以依据不用的权重值动态调整优化目标,来满足实际的调度需求,具有较好的灵活性。
在资源配置阶段:
资源配置阶段采用的基准算法是随机算法Random,循环算法RR,最小负载优先算法MLF,最大负载能力优先算法MLCF。其中,最小负载优先算法MLF,即是优先选择当前负载率最小服务器作为目标服务器,该策略能很好实现服务器之间的负载均衡。MLCF最大负载能力优先算法,即是每次优先选择数据中心中负载能力最强的服务器进行任务部署,该策略最大化服务器资源的利用率。
数据中心包含多种异构服务器,且服务器之间硬件配置和负载能力不用。在仿真实验中,设数据中心的服务器数为8个,由4种不同配置的服务器组成,每种服务器各2个。4种服务器的最大负载虚拟机数分别为[40,50,55,60],最优负载率分别为[0.6,0.65,0.7,0.75],线性增长率αx分别为[0.5,0.7,0.9,1.1],非线性增长率βx分别为[14,13,11,9]。
图7为本发明的仿真实验图4,4种服务器的动态能耗曲线如图所示,在本仿真实验中,设服务器负载能力越强的,其动态能耗线性增长越快,但受负载率影响越小,非线性增长越慢。回报值权重参数设定为wd=1.0,wec=20.0。
首先,选择上述的一个数据中心作为实验对象,观察在特定负载下,采用了不同的基准算法的模型完成任务的所获的总回报值情况,来验证采用了DQN的模型的收敛性和有效性。
图8为本发明的仿真实验图5,如图所示,在集群90%负载下,各算法的完成任务的所获的总回报值情况。由图可知,DQN算法随着训练次数的增加,曲线逐渐收敛。在训练前300回合,DQN回报值曲线逐渐上升,超过Random,RR,MLCF算法,逐渐逼近MLF算法回报值,直到训练300回合后,DQN曲线回报值开始超过MLF曲线,并逐渐收敛。
然后,通过对比不同的集群负载,各种算法完成调度任务所获得总回报值的变化情况,来检验算法在动态变化的集群负载下的优化效果。
图9为本发明的仿真实验图6,如图所示,在不同的集群负载下,各种算法完成调度任务所获得总回报值的变化情况。从图中可以观察到在负载低于65%时,各算法回报值曲线均呈现上升趋势,DQN和MLF回报值曲线相近且优于其他基准算法。在集群负载75%时,DQN和MLF的回报值达到峰值。当负载超过75%时,DQN和MLF回报值都开始下降,但可以明显观察到DQN的下降速度较MLF慢,且回报值优于MLF以及其他基准算法。分析可知,由于MLF算法的策略是优先选择当前负载最小的服务器进行部署,虽然保证了各个服务器的负载均衡,在低负载的情况是较好的调度策略,但在高负载情况下,异构服务器之间的能耗增长速度不同,导致该策略的效果变差。而DQN算法在集群负载较大的情况下,通过从历史经验中学习到异构服务器能耗与负载之间的动态变化关系,按照系统的优化目标,生成更合理的调度策略,以获得更好的调度结果。
最后,根据各类服务器的负载分布情况来探索模型从经验中学习到的调度策略。
图10为本发明的仿真实验图7,如图所示,在集群低负载时,弱负载服务器,负载率相对较大,而强负载服务器则负载率相对较小。随着集群负载的增大,强负载服务器的负载率明显增加,接近满负载的状态。由此分析可得,当集群负载低于65%时,弱负载服务器的线性动态能耗增幅小于强负载服务器,调度器选择将更多任务部署到弱负载服务器,会获得更大的收益。但随着负载的增加,强负载服务器的非线性动态能耗增长速度受负载的影响较小,增速比低负载能力的服务器更小。因此,在集群处于高负载时,调度器偏向于将更多的任务部署到强负载能力调度到服务器,以减少集群的总能耗。
上述实验证明,HDDL模型生成近乎最优的调度方案。在资源配置阶段采用深度强化学习模型可解决资源配置问题。DQN调度器能够感知服务器负载变化情况,动态调整资源配置策略,实现减少能耗和任务延迟的优化目标。本方案在复杂的云调度过程中,可基于不同的学习模型来完成不同的调度任务,通过实现各阶段的局部最优,来达到全局近乎最优。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种云作业调度及资源配置的方法,其特征在于,包括:
步骤S1:获取作业,建立作业集;
步骤S2:将作业集中的作业分配到不同的作业队列;
步骤S3:将作业队列中的作业调度到不同的数据中心;
步骤S4:对调度到数据中心的作业进行任务解耦,将作业转化为不同的子任务;
步骤S5:为不同的子任务分配虚拟机,并且以虚拟机为部署单位,部署到相应的服务器。
2.根据权利要求1所述的一种云作业调度及资源配置的方法,其特征在于,所述步骤S3包括:
步骤S3.1:通过作业队列中的作业训练作业调度器;
所述作业调度器包括作业样本池和多个深度神经网络,用于根据作业属性和数据中心参数将作业队列中的作业调度到不同的数据中心;
步骤S3.2:通过训练好的作业调度器获取调度结果;所述调度结果为作业以最小的作业延迟和能耗消耗满足作业需求的调度方式;
步骤S3.3:根据调度结果进行作业调度。
3.根据权利要求2所述的一种云作业调度及资源配置的方法,其特征在于,所述步骤S3.1包括:
步骤S3.11:将作业队列中作业的属性表示为作业状态st
步骤S3.12:通过函数
Figure FDA0002548158230000011
将作业状态st转化为多个动作决策;
步骤S3.13:通过回报函数计算多个动作决策中每个动作决策的回报值;
步骤S3.14:选取最小回报值对应的动作决策为最优决策,并且将作业状态st和最优决策存储进作业样本池中;
步骤S3.15:根据作业样本池中的作业状态st和最优决策对深度神经网络进行训练。
4.根据权利要求3所述的一种云作业调度及资源配置的方法,其特征在于,所述步骤S3.1中深度神经网络的交叉熵损失函数为:
Figure FDA0002548158230000012
其中,θx为第x个深度神经网络的参数,所述深度神经网络的参数由随机梯度下降法进行更新;
Figure FDA0002548158230000013
为第T个动作决策。
5.根据权利要求3所述的一种云作业调度及资源配置的方法,其特征在于,所述步骤S3.13中的回报函数为:
Figure FDA0002548158230000021
其中,s为作业状态,d为动作决策,λd为延迟的回报值权重,λe为能耗的回报值权重,N为作业队列总数,M为每个作业队列的作业总数,
Figure FDA0002548158230000022
为作业的通信延迟,
Figure FDA0002548158230000023
为作业的计算延迟,
Figure FDA0002548158230000024
为作业的通信能耗,
Figure FDA0002548158230000025
为作业的计算能耗。
6.根据权利要求5所述的一种云作业调度及资源配置的方法,其特征在于,所述作业的通信能耗为:
Figure FDA0002548158230000026
所述作业的通信延迟为:
Figure FDA0002548158230000027
其中,
Figure FDA0002548158230000028
为数据中心通信功率,βnm为传输数据量,
Figure FDA0002548158230000029
为给作业分配的带宽;
所述作业的计算能耗为:
Figure FDA00025481582300000210
所述作业的计算延迟为:
Figure FDA00025481582300000211
其中,
Figure FDA00025481582300000212
为数据中心运行功率,αnm为计算作业所需的CPU周期,
Figure FDA00025481582300000213
为给作业分配的计算周期;
所述给作业分配的带宽为:
Figure FDA00025481582300000214
其中,Ak为数据中心的作业总数,BWk为数据中心的带宽;
所述给作业分配的计算周期为:
Figure FDA00025481582300000215
其中,Ak为数据中心的作业总数,Ck为数据中心的计算能力。
7.根据权利要求1所述的一种云作业调度及资源配置的方法,其特征在于,所述步骤S5包括:
步骤S5.1:通过子任务训练资源调度器;
所述资源调度器包括智能体和任务样本池,用于根据任务属性为子任务分配虚拟机,根据服务器参数将虚拟机部署到相应的服务器;
步骤S5.2:通过训练好的资源调度器获取部署结果;所述部署结果为子任务以最小的任务延迟和能源消耗满足任务需求的部署方式;
步骤S5.3:根据部署结果进行虚拟机部署。
8.根据权利要求7所述的一种云作业调度及资源配置的方法,其特征在于,所述步骤S5.1包括:
步骤S5.11:将当前时间步的数据中心的服务器状态输入到智能体;
步骤S5.12:根据服务器状态获取到任务数据集,并且将任务数据集存储进任务样本池中;
步骤S5.13:根据任务样本池中的任务数据集对智能体进行训练;
所述任务数据集为(St,α,r,St+1),其中St为当前时间步t的数据中心的服务器状态,α为智能体根据服务器状态St按照策略π选择的动作,r为进行动作α的回报值,St+1为下一时间步t+1数据中心的服务器状态。
9.根据权利要求8所述的一种云作业调度及资源配置的方法,其特征在于,所述步骤S5.1中的智能体的均分差损失函数为:
Figure FDA0002548158230000031
其中,(s,a,r,s’)为任务样本池中任意任务数据集,θi为用于计算第i次迭代时的参数,
Figure FDA0002548158230000032
为用于计算第i次迭代时的目标参数,γ∈[0,1]为折扣因子,Q为期望回报值,a’为服务器状态s’下获取最大Q值所采取的动作;
所述参数θi关于损失函数的梯度为:
Figure FDA0002548158230000033
10.根据权利要求7所述的一种云作业调度及资源配置的方法,其特征在于,所述资源调度器的总回报函数为:
Rtotal=wd*Rdelay+wec*Rec
其中,wd和wec为参数,用于调整Rdelay和Rec的数值,避免两者相差过大;Rdelay为任务延迟回报函数,Rec为能源消耗回报函数;
所述能源消耗回报函数为:
Rec=Etotal(t)-Etotal(t-1)
其中,Etotal(t)为数据中心所有服务器在t时刻的总能耗,所述数据中心所有服务器的总能耗为:
Figure FDA0002548158230000041
其中,
Figure FDA0002548158230000042
为第x个服务器在t时刻的静态能耗,为一个固定常量;
Figure FDA0002548158230000043
为第x个服务器在t时刻的动态能耗;
所述服务器的动态能耗为:
Figure FDA0002548158230000044
其中,Ux(t)为第x个服务器在t时刻的负载率;αx为参数,表示线性增长率;
Figure FDA0002548158230000045
为第x个服务器在t时刻的最优负载率;βx为参数,表示非线性增长率;
所述服务器负载率为:
Figure FDA0002548158230000046
其中,
Figure FDA0002548158230000047
为在t时刻服务器上正运行的虚拟机数量,
Figure FDA0002548158230000048
为在t时刻服务器上可运行虚拟机的最大数量。
CN202010567753.6A 2020-06-19 2020-06-19 一种云作业调度及资源配置的方法 Active CN111722910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010567753.6A CN111722910B (zh) 2020-06-19 2020-06-19 一种云作业调度及资源配置的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010567753.6A CN111722910B (zh) 2020-06-19 2020-06-19 一种云作业调度及资源配置的方法

Publications (2)

Publication Number Publication Date
CN111722910A true CN111722910A (zh) 2020-09-29
CN111722910B CN111722910B (zh) 2023-07-21

Family

ID=72568217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010567753.6A Active CN111722910B (zh) 2020-06-19 2020-06-19 一种云作业调度及资源配置的方法

Country Status (1)

Country Link
CN (1) CN111722910B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831415A (zh) * 2020-07-10 2020-10-27 广东石油化工学院 一种多队列多集群的任务调度方法及系统
CN112698911A (zh) * 2020-12-28 2021-04-23 广东石油化工学院 一种基于深度强化学习的云作业调度方法
CN112862312A (zh) * 2021-02-07 2021-05-28 山东大学 基于随机在线算法的制造服务资源动态调度方法及系统
CN113361912A (zh) * 2021-06-04 2021-09-07 浙江工业大学 一种基于强化学习的服务任务调度方法
CN113568731A (zh) * 2021-09-24 2021-10-29 苏州浪潮智能科技有限公司 一种任务调度方法、芯片以及电子设备
WO2022006830A1 (zh) * 2020-07-10 2022-01-13 广东石油化工学院 一种多队列多集群的任务调度方法及系统
CN114995957A (zh) * 2022-06-24 2022-09-02 中国电信股份有限公司 容器组部署方法、装置、电子设备及计算机可读存储介质
CN116155750A (zh) * 2023-04-19 2023-05-23 之江实验室 深度学习作业资源放置方法、系统、设备和存储介质
CN116578403A (zh) * 2023-07-10 2023-08-11 安徽思高智能科技有限公司 一种基于深度强化学习的rpa流程调度方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930214A (zh) * 2016-04-22 2016-09-07 广东石油化工学院 一种基于q学习的混合云作业调度方法
US20180300171A1 (en) * 2017-04-12 2018-10-18 Petuum Inc. Elastic Management of Machine Learning Computing
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109753751A (zh) * 2019-01-20 2019-05-14 北京工业大学 一种基于机器学习的mec随机任务迁移方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110351348A (zh) * 2019-06-27 2019-10-18 广东石油化工学院 一种基于dqn的云计算资源调度优化方法
CN110347478A (zh) * 2019-07-08 2019-10-18 白紫星 一种基于强化学习的无模型数据中心资源调度算法
CN111290831A (zh) * 2020-01-18 2020-06-16 重庆邮电大学 一种云计算基于强化学习的虚拟机迁移方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930214A (zh) * 2016-04-22 2016-09-07 广东石油化工学院 一种基于q学习的混合云作业调度方法
US20180300171A1 (en) * 2017-04-12 2018-10-18 Petuum Inc. Elastic Management of Machine Learning Computing
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109753751A (zh) * 2019-01-20 2019-05-14 北京工业大学 一种基于机器学习的mec随机任务迁移方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110351348A (zh) * 2019-06-27 2019-10-18 广东石油化工学院 一种基于dqn的云计算资源调度优化方法
CN110347478A (zh) * 2019-07-08 2019-10-18 白紫星 一种基于强化学习的无模型数据中心资源调度算法
CN111290831A (zh) * 2020-01-18 2020-06-16 重庆邮电大学 一种云计算基于强化学习的虚拟机迁移方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11954526B2 (en) 2020-07-10 2024-04-09 Guangdong University Of Petrochemical Technology Multi-queue multi-cluster task scheduling method and system
CN111831415B (zh) * 2020-07-10 2024-01-26 广东石油化工学院 一种多队列多集群的任务调度方法及系统
WO2022006830A1 (zh) * 2020-07-10 2022-01-13 广东石油化工学院 一种多队列多集群的任务调度方法及系统
CN111831415A (zh) * 2020-07-10 2020-10-27 广东石油化工学院 一种多队列多集群的任务调度方法及系统
CN112698911A (zh) * 2020-12-28 2021-04-23 广东石油化工学院 一种基于深度强化学习的云作业调度方法
CN112862312B (zh) * 2021-02-07 2022-09-06 山东大学 基于随机在线算法的制造服务资源动态调度方法及系统
CN112862312A (zh) * 2021-02-07 2021-05-28 山东大学 基于随机在线算法的制造服务资源动态调度方法及系统
CN113361912B (zh) * 2021-06-04 2022-05-27 浙江工业大学 一种基于强化学习的服务任务调度方法
CN113361912A (zh) * 2021-06-04 2021-09-07 浙江工业大学 一种基于强化学习的服务任务调度方法
CN113568731A (zh) * 2021-09-24 2021-10-29 苏州浪潮智能科技有限公司 一种任务调度方法、芯片以及电子设备
CN114995957A (zh) * 2022-06-24 2022-09-02 中国电信股份有限公司 容器组部署方法、装置、电子设备及计算机可读存储介质
CN116155750A (zh) * 2023-04-19 2023-05-23 之江实验室 深度学习作业资源放置方法、系统、设备和存储介质
CN116155750B (zh) * 2023-04-19 2023-08-01 之江实验室 深度学习作业资源放置方法、系统、设备和存储介质
CN116578403A (zh) * 2023-07-10 2023-08-11 安徽思高智能科技有限公司 一种基于深度强化学习的rpa流程调度方法及系统

Also Published As

Publication number Publication date
CN111722910B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111722910B (zh) 一种云作业调度及资源配置的方法
Rekha et al. Efficient task allocation approach using genetic algorithm for cloud environment
Masdari et al. Towards workflow scheduling in cloud computing: a comprehensive analysis
CN110737529A (zh) 一种面向短时多变大数据作业集群调度自适应性配置方法
CN110489229B (zh) 一种多目标任务调度方法及系统
CN112286677B (zh) 一种面向资源受限边缘云的物联网应用优化部署方法
Sun et al. PACO: A period ACO based scheduling algorithm in cloud computing
CN110351348B (zh) 一种基于dqn的云计算资源调度优化方法
CN104065745A (zh) 云计算动态资源调度系统和方法
CN110795208B (zh) 基于改进粒子群的移动云计算自适应虚拟机调度方法
CN104657221A (zh) 一种云计算中基于任务分类的多队列错峰调度模型及方法
CN102932422A (zh) 基于改进蚁群算法的云环境任务调度方法
CN110457131A (zh) 基于Docker容器的电力系统超算平台任务调度方法
Thaman et al. Green cloud environment by using robust planning algorithm
CN109815009B (zh) 一种csp下的资源调度与优化方法
CN108737462A (zh) 一种基于图论的云计算数据中心任务调度方法
CN116107692A (zh) 动态融合遗传算法的边缘容器多目标蚁群优化调度方法
Chalack et al. Resource allocation in cloud environment using approaches based particle swarm optimization
Zhou et al. Task scheduling and resource balancing of fog computing in smart factory
Han et al. A DEA based hybrid algorithm for bi-objective task scheduling in cloud computing
CN112306642A (zh) 一种基于稳定匹配博弈理论的工作流调度方法
Kumar et al. EAEFA: An Efficient Energy-Aware Task Scheduling in Cloud Environment
Rawat et al. Performance evaluation of an adopted model based on big-bang big-crunch and artificial neural network for cloud applications
Sandhu et al. Hybrid Meta-heuristics based scheduling technique for Cloud Computing Environment.
Liu et al. Optimized min-min dynamic task scheduling algorithm in grid computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant