CN113157422A - 基于深度强化学习的云数据中心集群资源调度方法及装置 - Google Patents

基于深度强化学习的云数据中心集群资源调度方法及装置 Download PDF

Info

Publication number
CN113157422A
CN113157422A CN202110472472.7A CN202110472472A CN113157422A CN 113157422 A CN113157422 A CN 113157422A CN 202110472472 A CN202110472472 A CN 202110472472A CN 113157422 A CN113157422 A CN 113157422A
Authority
CN
China
Prior art keywords
reinforcement learning
deep reinforcement
data center
cloud data
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110472472.7A
Other languages
English (en)
Inventor
孙立峰
赵飞鸿
黄天驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110472472.7A priority Critical patent/CN113157422A/zh
Publication of CN113157422A publication Critical patent/CN113157422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于深度强化学习的云数据中心集群资源调度方法及装置,其中,方法包括:确定云数据中心集群中的当前优化目标;根据调度场景下的调服过程建模,以构建资源调服过程仿真环境;以及根据仿真环境得到的集群状态,并基于预设的深度强化学习的决策模型进行资源调度决策,使得根据当前优化目标对应的奖励函数生成最佳调度决策。本申请实施例可以基于深度强化学习解决资源调度问题,使得调度决策更优,有效提高数据中心的资源利用率,降低运营成本,提高使用体验。

Description

基于深度强化学习的云数据中心集群资源调度方法及装置
技术领域
本申请涉及资源调度技术领域,特别涉及一种基于深度强化学习的云数据中心集群资源调度方法及装置。
背景技术
随着互联网技术的快速发展,当今世界已经进入了云计算信息时代。支撑云计算技术发展的基础设施是遍布世界各地的数据中心,每个数据中心都包含由大量物理服务器构成的集群,目前集群已经达到数十万服务器的规模。提交给数据中心的任务通常是运行在虚拟机或者是容器中的,这些虚拟机或容器则运行在物理机上,如何高效管理数据中心的服务器资源是一个存在已久的问题。
相关技术中,现有的资源调度问题求解方式是在特定的集群环境下找到一种适用的启发式算法,实际上在使用启发式算法的时候是将模型进行简单化,然而相关技术存在以下缺陷:
(1)数据中心的资源调度系统十分复杂,导致很难对其进行精准建模;
(2)启发式算法虽然可以给出资源调度中的一个可行解,但是这样的决策往往不能有效对数据中心各种资源进行充分利用,导致大量资源处于空闲状态被浪费;
(3)启发式算法往往针对特定场景进行优化,在使用场景发生变化之后不能奏效,而为特定集群环境设计高效的启发式调度策略需要非常专业的知识和对集群环境有深入的了解,同时复杂建模的启发式方法中所含参数颇多,对大量参数进行调整的过程是十分复杂的,需要耗费大量精力进行设计、实施和验证。
(4)对于不同的优化目标,需要设计不同的调度决策。
申请内容
本申请提供一种基于深度强化学习的云数据中心集群资源调度方法、装置、电子设备及存储介质,以解决如何对数据中心的集群管理系统进行更好的建模、如何使用深度强化学习方法学习资源调度决策过程、如何根据不同优化目标进行强化学习模型设计等问题。
本申请第一方面实施例提供一种基于深度强化学习的云数据中心集群资源调度方法,包括以下步骤:确定云数据中心集群中的当前优化目标;根据调度场景下的调服过程建模,以构建资源调服过程仿真环境;根据所述仿真环境得到的集群状态,并基于预设的深度强化学习的决策模型进行资源调度决策,使得根据所述当前优化目标对应的奖励函数生成最佳调度决策。
可选地,在本申请的一个实施例中,在基于所述预设的深度强化学习的决策模型进行资源调度决策之前,还包括:根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征,得到所述预设的深度强化学习的决策模型。
可选地,在本申请的一个实施例中,还包括:获取多个优化目标,并生成每个优化目标的奖励函数;利用所述多个优化目标及对应奖励函数更新所述预设的深度强化学习的决策模型的参数。
可选地,在本申请的一个实施例中,还包括:检测当前时刻是否满足更新条件;若所述当前时刻满足所述更新条件,则利用所述当前优化目标对应的奖励函数与所述资源调服过程仿真环境进行交互,并更新所述预设的深度强化学习的决策模型的参数。
本申请第二方面实施例提供一种基于深度强化学习的云数据中心集群资源调度装置,包括:确定模块,用于确定云数据中心集群中的当前优化目标;构建模块,用于根据调度场景下的调服过程建模,以构建资源调服过程仿真环境;决策模块,用于根据所述仿真环境得到的集群状态,并基于预设的深度强化学习的决策模型进行资源调度决策,使得根据所述当前优化目标对应的奖励函数生成最佳调度决策。
可选地,在本申请的一个实施例中,还包括:训练模块,用于根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征,得到所述预设的深度强化学习的决策模型。
可选地,在本申请的一个实施例中,还包括:获取模块,用于获取多个优化目标,并生成每个优化目标的奖励函数;更新模块,用于利用所述多个优化目标及对应奖励函数更新所述预设的深度强化学习的决策模型的参数。
可选地,在本申请的一个实施例中,还包括:检测模块,用于检测当前时刻是否满足更新条件,使得在所述当前时刻满足所述更新条件时,所述更新模块利用所述当前优化目标对应的奖励函数与所述资源调服过程仿真环境进行交互,并更新所述预设的深度强化学习的决策模型的参数。
本申请第三方面实施例提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行如上述实施例所述的基于深度强化学习的云数据中心集群资源调度方法。
本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的基于深度强化学习的云数据中心集群资源调度方法。
不但采用新的建模方法对集群环境进行建模,对任务运行时间不做限制,有效解决服务类型的任务调度问题,并且基于深度强化学习的方法,学习历史任务经验,综合考虑当前环境状态和未来任务的预测,得出更高效的调度决策,优化集群的资源利用率,及在调度过程中考虑到不同类型的应用对调度策略的需求不同,有助于应对不同类型应用的调度决策,使得调度决策更优,有效提高数据中心的资源利用率,降低运营成本,提高使用体验。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种基于深度强化学习的云数据中心集群资源调度方法的流程图;
图2为根据本申请一个具体实施例的基于深度强化学习的云数据中心集群资源调度方法的流程图;
图3为根据本申请实施例的基于深度强化学习的云数据中心集群资源调度装置的示例图;
图4为根据本申请实施例的电子设备的示例图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于深度强化学习的云数据中心集群资源调度方法、装置、电子设备及存储介质。针对上述背景技术中心提到的如何对数据中心的集群管理系统进行更好的建模、如何使用深度强化学习方法学习资源调度决策过程、如何根据不同优化目标进行强化学习模型设计的问题,本申请提供了一种基于深度强化学习的云数据中心集群资源调度方法,在该方法中,不但采用新的建模方法对集群环境进行建模,对任务运行时间不做限制,有效解决服务类型的任务调度问题,并且基于深度强化学习的方法,学习历史任务经验,综合考虑当前环境状态和未来任务的预测,得出更高效的调度决策,优化集群的资源利用率,及在调度过程中考虑到不同类型的应用对调度策略的需求不同,有助于应对不同类型应用的调度决策,使得调度决策更优,有效提高数据中心的资源利用率,降低运营成本,提高使用体验。由此,解决了如何对数据中心的集群管理系统进行更好的建模、如何使用深度强化学习方法学习资源调度决策过程、如何根据不同优化目标进行强化学习模型设计等问题。
具体而言,图1为本申请实施例所提供的一种基于深度强化学习的云数据中心集群资源调度方法的流程示意图。
如图1所示,该基于深度强化学习的云数据中心集群资源调度方法包括以下步骤:
在步骤S101中,确定云数据中心集群中的当前优化目标。
可以理解的是,针对用户使用场景:大型数据中心通常使用分布式集群提供服务,比如云服务提供商阿里云或者拥有自建机房的流媒体提供商快手等,使用本申请实施例可以优化其数据中心的调度决策,提高数据中心的资源利用率,降低运营成本。
在步骤S102中,根据调度场景下的调服过程建模,以构建资源调服过程仿真环境。
举例而言,首先,本申请实施例进行资源调度过程仿真环境构建,即根据真实场景下的调度过程,对调度过程进行建模,构建资源调度过程仿真环境,达到仿真环境可以真实反映真实场景下的调度过程的目的。
本领域技术人员应该理解到的是,本申请实施例可以对真实场景进行更准确的建模,使用事件驱动的方式进行资源调度,同时对任务的最长执行时间不做限制。
在步骤S103中,根据仿真环境得到的集群状态,并基于预设的深度强化学习的决策模型进行资源调度决策,使得根据当前优化目标对应的奖励函数生成最佳调度决策。
在实际执行过程中,基于深度强化学习的资源调度:根据仿真环境给出的集群状态,使用基于深度强化学习的模型进行资源调度决策,对于不同的优化目标,本申请实施例可以设计出不同的奖励函数用于深度强化学习的训练。
可选地,在本申请的一个实施例中,还包括:检测当前时刻是否满足更新条件;若当前时刻满足更新条件,则利用当前优化目标对应的奖励函数与资源调服过程仿真环境进行交互,并更新预设的深度强化学习的决策模型的参数。
可以理解的是,在本申请的实施例中,通过和仿真环境进行交互,深度强化学习模型不断更新参数,得到比启发式算法更优的调度决策。需要说明的是,更新条件如符合更新时间,则进行更新,在此不做具体限制,可以由本领域技术人员根据实际情况进行设置。
可选地,在本申请的一个实施例中,在基于预设的深度强化学习的决策模型进行资源调度决策之前,还包括:根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征,得到预设的深度强化学习的决策模型。
即言,如图2所示,本申请实施例可以根据数据中心的历史日志信息,使用深度强化学习模型学习集群环境和任务的规律性特征
可选地,在本申请的一个实施例中,还包括:获取多个优化目标,并生成每个优化目标的奖励函数;利用多个优化目标及对应奖励函数更新预设的深度强化学习的决策模型的参数。
进一步地,如图2所示,根据不同的用户需求使用不同的奖励函数训练得到的模型进行调度决策,优化相应的用户需求,以及使用最新得到的任务信息,对模型进行定期微调,使模型能够更好地适应集群环境和任务类型的变化。
本领域技术人员应该理解到的是,本申请实施例使用了深度强化学习的方法,可以对不同场景进行自主学习,从而优化了对环境状态的表示方式,能够对运行时间更长的任务进行调度决策,其中,设计多个优化目标,可以通过学习得到满足不同目标的调度决策,提高资源调度效率。
根据本申请实施例提出的基于深度强化学习的云数据中心集群资源调度方法,不但采用新的建模方法对集群环境进行建模,对任务运行时间不做限制,有效解决服务类型的任务调度问题,并且基于深度强化学习的方法,学习历史任务经验,综合考虑当前环境状态和未来任务的预测,得出更高效的调度决策,优化集群的资源利用率,及在调度过程中考虑到不同类型的应用对调度策略的需求不同,有助于应对不同类型应用的调度决策,使得调度决策更优,有效提高数据中心的资源利用率,降低运营成本,提高使用体验。
其次参照附图描述根据本申请实施例提出的基于深度强化学习的云数据中心集群资源调度装置。
图3是本申请实施例的基于深度强化学习的云数据中心集群资源调度装置的方框示意图。
如图3所示,该基于深度强化学习的云数据中心集群资源调度装置10包括:确定模块 100、构建模块200和决策模块300。
具体地,确定模块100,用于确定云数据中心集群中的当前优化目标。
构建模块200,用于根据调度场景下的调服过程建模,以构建资源调服过程仿真环境。
决策模块300,用于根据仿真环境得到的集群状态,并基于预设的深度强化学习的决策模型进行资源调度决策,使得根据当前优化目标对应的奖励函数生成最佳调度决策。
可选地,在本申请的一个实施例中,本申请实施例的装置10还包括:采集模块和训练模块。
其中,训练模块,用于根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征,得到所述预设的深度强化学习的决策模型。
可选地,在本申请的一个实施例中,本申请实施例的装置10还包括:获取模块和更新模块。
其中,获取模块,用于获取多个优化目标,并生成每个优化目标的奖励函数。
更新模块,用于利用多个优化目标及对应奖励函数更新预设的深度强化学习的决策模型的参数。
可选地,在本申请的一个实施例中,本申请实施例的装置10还包括:检测模块。
其中,检测模块,用于检测当前时刻是否满足更新条件,使得在当前时刻满足更新条件时,更新模块利用当前优化目标对应的奖励函数与资源调服过程仿真环境进行交互,并更新预设的深度强化学习的决策模型的参数。
需要说明的是,前述对基于深度强化学习的云数据中心集群资源调度方法实施例的解释说明也适用于该实施例的基于深度强化学习的云数据中心集群资源调度装置,此处不再赘述。
根据本申请实施例提出的基于深度强化学习的云数据中心集群资源调度装置,不但采用新的建模方法对集群环境进行建模,对任务运行时间不做限制,有效解决服务类型的任务调度问题,并且基于深度强化学习的方法,学习历史任务经验,综合考虑当前环境状态和未来任务的预测,得出更高效的调度决策,优化集群的资源利用率,及在调度过程中考虑到不同类型的应用对调度策略的需求不同,有助于应对不同类型应用的调度决策,使得调度决策更优,有效提高数据中心的资源利用率,降低运营成本,提高使用体验。
图4为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器1201、处理器1202及存储在存储器1201上并可在处理器1202上运行的计算机程序。
处理器1202执行程序时实现上述实施例中提供的基于深度强化学习的云数据中心集群资源调度方法。
进一步地,电子设备还包括:
通信接口1203,用于存储器1201和处理器1202之间的通信。
存储器1201,用于存放可在处理器1202上运行的计算机程序。
存储器1201可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器1201、处理器1202和通信接口1203独立实现,则通信接口1203、存储器1201和处理器1202可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1201、处理器1202及通信接口1203,集成在一块芯片上实现,则存储器1201、处理器1202及通信接口1203可以通过内部接口完成相互间的通信。
处理器1202可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上的基于深度强化学习的云数据中心集群资源调度方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

Claims (10)

1.一种基于深度强化学习的云数据中心集群资源调度方法,其特征在于,包括以下步骤:
确定云数据中心集群中的当前优化目标;
根据调度场景下的调服过程建模,以构建资源调服过程仿真环境;以及
根据所述仿真环境得到的集群状态,并基于预设的深度强化学习的决策模型进行资源调度决策,使得根据所述当前优化目标对应的奖励函数生成最佳调度决策。
2.根据权利要求1所述的方法,其特征在于,在基于所述预设的深度强化学习的决策模型进行资源调度决策之前,还包括:
根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征,得到所述预设的深度强化学习的决策模型。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
获取多个优化目标,并生成每个优化目标的奖励函数;
利用所述多个优化目标及对应奖励函数更新所述预设的深度强化学习的决策模型的参数。
4.根据权利要求3所述的方法,其特征在于,还包括:
检测当前时刻是否满足更新条件;
若所述当前时刻满足所述更新条件,则利用所述当前优化目标对应的奖励函数与所述资源调服过程仿真环境进行交互,并更新所述预设的深度强化学习的决策模型的参数。
5.一种基于深度强化学习的云数据中心集群资源调度装置,其特征在于,包括:
确定模块,用于确定云数据中心集群中的当前优化目标;
构建模块,用于根据调度场景下的调服过程建模,以构建资源调服过程仿真环境;以及
决策模块,用于根据所述仿真环境得到的集群状态,并基于预设的深度强化学习的决策模型进行资源调度决策,使得根据所述当前优化目标对应的奖励函数生成最佳调度决策。
6.根据权利要求5所述的装置,其特征在于,还包括:
训练模块,用于根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征,得到所述预设的深度强化学习的决策模型。
7.根据权利要求5或6所述的装置,其特征在于,还包括:
获取模块,用于获取多个优化目标,并生成每个优化目标的奖励函数;
更新模块,用于利用所述多个优化目标及对应奖励函数更新所述预设的深度强化学习的决策模型的参数。
8.根据权利要求7所述的装置,其特征在于,还包括:
检测模块,用于检测当前时刻是否满足更新条件,使得在所述当前时刻满足所述更新条件时,所述更新模块利用所述当前优化目标对应的奖励函数与所述资源调服过程仿真环境进行交互,并更新所述预设的深度强化学习的决策模型的参数。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-4任一项所述的基于深度强化学习的云数据中心集群资源调度方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-4任一项所述的基于深度强化学习的云数据中心集群资源调度方法。
CN202110472472.7A 2021-04-29 2021-04-29 基于深度强化学习的云数据中心集群资源调度方法及装置 Pending CN113157422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110472472.7A CN113157422A (zh) 2021-04-29 2021-04-29 基于深度强化学习的云数据中心集群资源调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110472472.7A CN113157422A (zh) 2021-04-29 2021-04-29 基于深度强化学习的云数据中心集群资源调度方法及装置

Publications (1)

Publication Number Publication Date
CN113157422A true CN113157422A (zh) 2021-07-23

Family

ID=76872211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110472472.7A Pending CN113157422A (zh) 2021-04-29 2021-04-29 基于深度强化学习的云数据中心集群资源调度方法及装置

Country Status (1)

Country Link
CN (1) CN113157422A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114116183A (zh) * 2022-01-28 2022-03-01 华北电力大学 基于深度强化学习的数据中心业务负载调度方法及系统
CN114139354A (zh) * 2021-11-12 2022-03-04 山东浪潮科学研究院有限公司 基于强化学习的电力系统仿真调度方法及系统
CN114237869A (zh) * 2021-11-17 2022-03-25 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的Ray双层调度方法、装置和电子设备
CN114629906A (zh) * 2022-03-14 2022-06-14 浙江大学 一种可靠的基于深度强化学习的云容器集群资源调度方法及装置
CN115729714A (zh) * 2023-01-06 2023-03-03 之江实验室 一种资源分配方法、装置、存储介质及电子设备
CN115907022A (zh) * 2023-01-04 2023-04-04 苏州浪潮智能科技有限公司 一种多量子业务转化及仿真调度方法、装置、设备及介质
CN115964182A (zh) * 2023-03-16 2023-04-14 阿里巴巴(中国)有限公司 资源的调度方法和系统
WO2023206771A1 (zh) * 2022-04-24 2023-11-02 南栖仙策(南京)科技有限公司 基于决策流图的环境建模方法、装置和电子设备
US11916807B2 (en) 2022-01-31 2024-02-27 Microsoft Technology Licensing, Llc Evaluation framework for cloud resource optimization

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960578A (zh) * 2017-12-22 2019-07-02 田文洪 一种基于深度强化学习的数据中心资源离线调度方法
CN111966484A (zh) * 2020-06-23 2020-11-20 北京大学 一种基于深度强化学习的集群资源管理和任务调度方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960578A (zh) * 2017-12-22 2019-07-02 田文洪 一种基于深度强化学习的数据中心资源离线调度方法
CN111966484A (zh) * 2020-06-23 2020-11-20 北京大学 一种基于深度强化学习的集群资源管理和任务调度方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139354A (zh) * 2021-11-12 2022-03-04 山东浪潮科学研究院有限公司 基于强化学习的电力系统仿真调度方法及系统
CN114139354B (zh) * 2021-11-12 2024-05-21 山东浪潮科学研究院有限公司 基于强化学习的电力系统仿真调度方法及系统
CN114237869A (zh) * 2021-11-17 2022-03-25 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的Ray双层调度方法、装置和电子设备
CN114237869B (zh) * 2021-11-17 2022-09-16 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的Ray双层调度方法、装置和电子设备
CN114116183A (zh) * 2022-01-28 2022-03-01 华北电力大学 基于深度强化学习的数据中心业务负载调度方法及系统
US11916807B2 (en) 2022-01-31 2024-02-27 Microsoft Technology Licensing, Llc Evaluation framework for cloud resource optimization
CN114629906A (zh) * 2022-03-14 2022-06-14 浙江大学 一种可靠的基于深度强化学习的云容器集群资源调度方法及装置
CN114629906B (zh) * 2022-03-14 2023-09-29 浙江大学 一种可靠的基于深度强化学习的云容器集群资源调度方法及装置
WO2023206771A1 (zh) * 2022-04-24 2023-11-02 南栖仙策(南京)科技有限公司 基于决策流图的环境建模方法、装置和电子设备
CN115907022A (zh) * 2023-01-04 2023-04-04 苏州浪潮智能科技有限公司 一种多量子业务转化及仿真调度方法、装置、设备及介质
CN115729714A (zh) * 2023-01-06 2023-03-03 之江实验室 一种资源分配方法、装置、存储介质及电子设备
CN115964182A (zh) * 2023-03-16 2023-04-14 阿里巴巴(中国)有限公司 资源的调度方法和系统

Similar Documents

Publication Publication Date Title
CN113157422A (zh) 基于深度强化学习的云数据中心集群资源调度方法及装置
CN109947567B (zh) 一种多智能体强化学习调度方法、系统及电子设备
CN111064633B (zh) 一种云边协同电力信息通信设备自动化测试资源分配方法
CN108958916B (zh) 一种移动边缘环境下工作流卸载优化方法
CN111026549B (zh) 一种电力信息通信设备自动化测试资源调度方法
CN111274036B (zh) 一种基于速度预测的深度学习任务的调度方法
CN113239639B (zh) 策略信息生成方法、装置、电子装置和存储介质
CN111026548A (zh) 一种逆向深度强化学习的电力通信设备测试资源调度方法
CN114895773B (zh) 异构多核处理器的能耗优化方法、系统、装置及存储介质
CN106293947B (zh) 虚拟化云环境下gpu-cpu混合资源分配系统和方法
CN115168027A (zh) 一种基于深度强化学习的算力资源度量方法
WO2023207035A1 (zh) 一种数据同步方法、装置、设备及存储介质
CN115543626A (zh) 采用异构计算资源负载均衡调度的电力缺陷图像仿真方法
Ying et al. Raven: Scheduling virtual machine migration during datacenter upgrades with reinforcement learning
WO2023089350A1 (en) An architecture for a self-adaptive computation management in edge cloud
CN109379747A (zh) 无线网络多控制器部署和资源分配方法和装置
CN103677996B (zh) 用于平衡工作负荷分布的协作方法和系统
CN108270833A (zh) 渲染云资源的自动调度方法、装置及系统
CN114880079A (zh) 基于强化学习的Kubernetes集群规模调整方法、系统及设备
KR20220150126A (ko) 사물인터넷 환경에서 분산 머신 러닝 학습을 위한 코딩 및 인센티브 기반 메커니즘
Xu et al. Uncertainty-aware workflow migration among edge nodes based on blockchain
CN113949633A (zh) 基于机器学习的5g网络切片容灾池资源管理方法及装置
Lu et al. A parallel tasks scheduling algorithm with markov decision process in edge computing
CN112306641B (zh) 一种用于虚拟机迁移模型的训练方法
CN113448687B (zh) 云环境下基于强化学习的超启发式任务调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723