CN113157422A

CN113157422A - 基于深度强化学习的云数据中心集群资源调度方法及装置

Info

Publication number: CN113157422A
Application number: CN202110472472.7A
Authority: CN
Inventors: 孙立峰; 赵飞鸿; 黄天驰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-23

Abstract

本申请公开了一种基于深度强化学习的云数据中心集群资源调度方法及装置，其中，方法包括：确定云数据中心集群中的当前优化目标；根据调度场景下的调服过程建模，以构建资源调服过程仿真环境；以及根据仿真环境得到的集群状态，并基于预设的深度强化学习的决策模型进行资源调度决策，使得根据当前优化目标对应的奖励函数生成最佳调度决策。本申请实施例可以基于深度强化学习解决资源调度问题，使得调度决策更优，有效提高数据中心的资源利用率，降低运营成本，提高使用体验。

Description

基于深度强化学习的云数据中心集群资源调度方法及装置

技术领域

本申请涉及资源调度技术领域，特别涉及一种基于深度强化学习的云数据中心集群资源调度方法及装置。

背景技术

随着互联网技术的快速发展，当今世界已经进入了云计算信息时代。支撑云计算技术发展的基础设施是遍布世界各地的数据中心，每个数据中心都包含由大量物理服务器构成的集群，目前集群已经达到数十万服务器的规模。提交给数据中心的任务通常是运行在虚拟机或者是容器中的，这些虚拟机或容器则运行在物理机上，如何高效管理数据中心的服务器资源是一个存在已久的问题。

相关技术中，现有的资源调度问题求解方式是在特定的集群环境下找到一种适用的启发式算法，实际上在使用启发式算法的时候是将模型进行简单化，然而相关技术存在以下缺陷：

(1)数据中心的资源调度系统十分复杂，导致很难对其进行精准建模；

(2)启发式算法虽然可以给出资源调度中的一个可行解，但是这样的决策往往不能有效对数据中心各种资源进行充分利用，导致大量资源处于空闲状态被浪费；

(3)启发式算法往往针对特定场景进行优化，在使用场景发生变化之后不能奏效，而为特定集群环境设计高效的启发式调度策略需要非常专业的知识和对集群环境有深入的了解，同时复杂建模的启发式方法中所含参数颇多，对大量参数进行调整的过程是十分复杂的，需要耗费大量精力进行设计、实施和验证。

(4)对于不同的优化目标，需要设计不同的调度决策。

申请内容

本申请提供一种基于深度强化学习的云数据中心集群资源调度方法、装置、电子设备及存储介质，以解决如何对数据中心的集群管理系统进行更好的建模、如何使用深度强化学习方法学习资源调度决策过程、如何根据不同优化目标进行强化学习模型设计等问题。

本申请第一方面实施例提供一种基于深度强化学习的云数据中心集群资源调度方法，包括以下步骤：确定云数据中心集群中的当前优化目标；根据调度场景下的调服过程建模，以构建资源调服过程仿真环境；根据所述仿真环境得到的集群状态，并基于预设的深度强化学习的决策模型进行资源调度决策，使得根据所述当前优化目标对应的奖励函数生成最佳调度决策。

可选地，在本申请的一个实施例中，在基于所述预设的深度强化学习的决策模型进行资源调度决策之前，还包括：根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征，得到所述预设的深度强化学习的决策模型。

可选地，在本申请的一个实施例中，还包括：获取多个优化目标，并生成每个优化目标的奖励函数；利用所述多个优化目标及对应奖励函数更新所述预设的深度强化学习的决策模型的参数。

可选地，在本申请的一个实施例中，还包括：检测当前时刻是否满足更新条件；若所述当前时刻满足所述更新条件，则利用所述当前优化目标对应的奖励函数与所述资源调服过程仿真环境进行交互，并更新所述预设的深度强化学习的决策模型的参数。

本申请第二方面实施例提供一种基于深度强化学习的云数据中心集群资源调度装置，包括：确定模块，用于确定云数据中心集群中的当前优化目标；构建模块，用于根据调度场景下的调服过程建模，以构建资源调服过程仿真环境；决策模块，用于根据所述仿真环境得到的集群状态，并基于预设的深度强化学习的决策模型进行资源调度决策，使得根据所述当前优化目标对应的奖励函数生成最佳调度决策。

可选地，在本申请的一个实施例中，还包括：训练模块，用于根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征，得到所述预设的深度强化学习的决策模型。

可选地，在本申请的一个实施例中，还包括：获取模块，用于获取多个优化目标，并生成每个优化目标的奖励函数；更新模块，用于利用所述多个优化目标及对应奖励函数更新所述预设的深度强化学习的决策模型的参数。

可选地，在本申请的一个实施例中，还包括：检测模块，用于检测当前时刻是否满足更新条件，使得在所述当前时刻满足所述更新条件时，所述更新模块利用所述当前优化目标对应的奖励函数与所述资源调服过程仿真环境进行交互，并更新所述预设的深度强化学习的决策模型的参数。

本申请第三方面实施例提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行如上述实施例所述的基于深度强化学习的云数据中心集群资源调度方法。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上述实施例所述的基于深度强化学习的云数据中心集群资源调度方法。

不但采用新的建模方法对集群环境进行建模，对任务运行时间不做限制，有效解决服务类型的任务调度问题，并且基于深度强化学习的方法，学习历史任务经验，综合考虑当前环境状态和未来任务的预测，得出更高效的调度决策，优化集群的资源利用率，及在调度过程中考虑到不同类型的应用对调度策略的需求不同，有助于应对不同类型应用的调度决策，使得调度决策更优，有效提高数据中心的资源利用率，降低运营成本，提高使用体验。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种基于深度强化学习的云数据中心集群资源调度方法的流程图；

图2为根据本申请一个具体实施例的基于深度强化学习的云数据中心集群资源调度方法的流程图；

图3为根据本申请实施例的基于深度强化学习的云数据中心集群资源调度装置的示例图；

图4为根据本申请实施例的电子设备的示例图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于深度强化学习的云数据中心集群资源调度方法、装置、电子设备及存储介质。针对上述背景技术中心提到的如何对数据中心的集群管理系统进行更好的建模、如何使用深度强化学习方法学习资源调度决策过程、如何根据不同优化目标进行强化学习模型设计的问题，本申请提供了一种基于深度强化学习的云数据中心集群资源调度方法，在该方法中，不但采用新的建模方法对集群环境进行建模，对任务运行时间不做限制，有效解决服务类型的任务调度问题，并且基于深度强化学习的方法，学习历史任务经验，综合考虑当前环境状态和未来任务的预测，得出更高效的调度决策，优化集群的资源利用率，及在调度过程中考虑到不同类型的应用对调度策略的需求不同，有助于应对不同类型应用的调度决策，使得调度决策更优，有效提高数据中心的资源利用率，降低运营成本，提高使用体验。由此，解决了如何对数据中心的集群管理系统进行更好的建模、如何使用深度强化学习方法学习资源调度决策过程、如何根据不同优化目标进行强化学习模型设计等问题。

具体而言，图1为本申请实施例所提供的一种基于深度强化学习的云数据中心集群资源调度方法的流程示意图。

如图1所示，该基于深度强化学习的云数据中心集群资源调度方法包括以下步骤：

在步骤S101中，确定云数据中心集群中的当前优化目标。

可以理解的是，针对用户使用场景：大型数据中心通常使用分布式集群提供服务，比如云服务提供商阿里云或者拥有自建机房的流媒体提供商快手等，使用本申请实施例可以优化其数据中心的调度决策，提高数据中心的资源利用率，降低运营成本。

在步骤S102中，根据调度场景下的调服过程建模，以构建资源调服过程仿真环境。

举例而言，首先，本申请实施例进行资源调度过程仿真环境构建，即根据真实场景下的调度过程，对调度过程进行建模，构建资源调度过程仿真环境，达到仿真环境可以真实反映真实场景下的调度过程的目的。

本领域技术人员应该理解到的是，本申请实施例可以对真实场景进行更准确的建模，使用事件驱动的方式进行资源调度，同时对任务的最长执行时间不做限制。

在步骤S103中，根据仿真环境得到的集群状态，并基于预设的深度强化学习的决策模型进行资源调度决策，使得根据当前优化目标对应的奖励函数生成最佳调度决策。

在实际执行过程中，基于深度强化学习的资源调度：根据仿真环境给出的集群状态，使用基于深度强化学习的模型进行资源调度决策，对于不同的优化目标，本申请实施例可以设计出不同的奖励函数用于深度强化学习的训练。

可选地，在本申请的一个实施例中，还包括：检测当前时刻是否满足更新条件；若当前时刻满足更新条件，则利用当前优化目标对应的奖励函数与资源调服过程仿真环境进行交互，并更新预设的深度强化学习的决策模型的参数。

可以理解的是，在本申请的实施例中，通过和仿真环境进行交互，深度强化学习模型不断更新参数，得到比启发式算法更优的调度决策。需要说明的是，更新条件如符合更新时间，则进行更新，在此不做具体限制，可以由本领域技术人员根据实际情况进行设置。

可选地，在本申请的一个实施例中，在基于预设的深度强化学习的决策模型进行资源调度决策之前，还包括：根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征，得到预设的深度强化学习的决策模型。

即言，如图2所示，本申请实施例可以根据数据中心的历史日志信息，使用深度强化学习模型学习集群环境和任务的规律性特征

可选地，在本申请的一个实施例中，还包括：获取多个优化目标，并生成每个优化目标的奖励函数；利用多个优化目标及对应奖励函数更新预设的深度强化学习的决策模型的参数。

进一步地，如图2所示，根据不同的用户需求使用不同的奖励函数训练得到的模型进行调度决策，优化相应的用户需求，以及使用最新得到的任务信息，对模型进行定期微调，使模型能够更好地适应集群环境和任务类型的变化。

本领域技术人员应该理解到的是，本申请实施例使用了深度强化学习的方法，可以对不同场景进行自主学习，从而优化了对环境状态的表示方式，能够对运行时间更长的任务进行调度决策，其中，设计多个优化目标，可以通过学习得到满足不同目标的调度决策，提高资源调度效率。

根据本申请实施例提出的基于深度强化学习的云数据中心集群资源调度方法，不但采用新的建模方法对集群环境进行建模，对任务运行时间不做限制，有效解决服务类型的任务调度问题，并且基于深度强化学习的方法，学习历史任务经验，综合考虑当前环境状态和未来任务的预测，得出更高效的调度决策，优化集群的资源利用率，及在调度过程中考虑到不同类型的应用对调度策略的需求不同，有助于应对不同类型应用的调度决策，使得调度决策更优，有效提高数据中心的资源利用率，降低运营成本，提高使用体验。

其次参照附图描述根据本申请实施例提出的基于深度强化学习的云数据中心集群资源调度装置。

图3是本申请实施例的基于深度强化学习的云数据中心集群资源调度装置的方框示意图。

如图3所示，该基于深度强化学习的云数据中心集群资源调度装置10包括：确定模块 100、构建模块200和决策模块300。

具体地，确定模块100，用于确定云数据中心集群中的当前优化目标。

构建模块200，用于根据调度场景下的调服过程建模，以构建资源调服过程仿真环境。

决策模块300，用于根据仿真环境得到的集群状态，并基于预设的深度强化学习的决策模型进行资源调度决策，使得根据当前优化目标对应的奖励函数生成最佳调度决策。

可选地，在本申请的一个实施例中，本申请实施例的装置10还包括：采集模块和训练模块。

其中，训练模块，用于根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征，得到所述预设的深度强化学习的决策模型。

可选地，在本申请的一个实施例中，本申请实施例的装置10还包括：获取模块和更新模块。

其中，获取模块，用于获取多个优化目标，并生成每个优化目标的奖励函数。

更新模块，用于利用多个优化目标及对应奖励函数更新预设的深度强化学习的决策模型的参数。

可选地，在本申请的一个实施例中，本申请实施例的装置10还包括：检测模块。

其中，检测模块，用于检测当前时刻是否满足更新条件，使得在当前时刻满足更新条件时，更新模块利用当前优化目标对应的奖励函数与资源调服过程仿真环境进行交互，并更新预设的深度强化学习的决策模型的参数。

需要说明的是，前述对基于深度强化学习的云数据中心集群资源调度方法实施例的解释说明也适用于该实施例的基于深度强化学习的云数据中心集群资源调度装置，此处不再赘述。

根据本申请实施例提出的基于深度强化学习的云数据中心集群资源调度装置，不但采用新的建模方法对集群环境进行建模，对任务运行时间不做限制，有效解决服务类型的任务调度问题，并且基于深度强化学习的方法，学习历史任务经验，综合考虑当前环境状态和未来任务的预测，得出更高效的调度决策，优化集群的资源利用率，及在调度过程中考虑到不同类型的应用对调度策略的需求不同，有助于应对不同类型应用的调度决策，使得调度决策更优，有效提高数据中心的资源利用率，降低运营成本，提高使用体验。

图4为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器1201、处理器1202及存储在存储器1201上并可在处理器1202上运行的计算机程序。

处理器1202执行程序时实现上述实施例中提供的基于深度强化学习的云数据中心集群资源调度方法。

进一步地，电子设备还包括：

通信接口1203，用于存储器1201和处理器1202之间的通信。

存储器1201，用于存放可在处理器1202上运行的计算机程序。

存储器1201可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器1201、处理器1202和通信接口1203独立实现，则通信接口1203、存储器1201和处理器1202可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1201、处理器1202及通信接口1203，集成在一块芯片上实现，则存储器1201、处理器1202及通信接口1203可以通过内部接口完成相互间的通信。

处理器1202可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上的基于深度强化学习的云数据中心集群资源调度方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

Claims

1.一种基于深度强化学习的云数据中心集群资源调度方法，其特征在于，包括以下步骤：

确定云数据中心集群中的当前优化目标；

根据调度场景下的调服过程建模，以构建资源调服过程仿真环境；以及

根据所述仿真环境得到的集群状态，并基于预设的深度强化学习的决策模型进行资源调度决策，使得根据所述当前优化目标对应的奖励函数生成最佳调度决策。

2.根据权利要求1所述的方法，其特征在于，在基于所述预设的深度强化学习的决策模型进行资源调度决策之前，还包括：

根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征，得到所述预设的深度强化学习的决策模型。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

获取多个优化目标，并生成每个优化目标的奖励函数；

利用所述多个优化目标及对应奖励函数更新所述预设的深度强化学习的决策模型的参数。

4.根据权利要求3所述的方法，其特征在于，还包括：

检测当前时刻是否满足更新条件；

若所述当前时刻满足所述更新条件，则利用所述当前优化目标对应的奖励函数与所述资源调服过程仿真环境进行交互，并更新所述预设的深度强化学习的决策模型的参数。

5.一种基于深度强化学习的云数据中心集群资源调度装置，其特征在于，包括：

确定模块，用于确定云数据中心集群中的当前优化目标；

构建模块，用于根据调度场景下的调服过程建模，以构建资源调服过程仿真环境；以及

决策模块，用于根据所述仿真环境得到的集群状态，并基于预设的深度强化学习的决策模型进行资源调度决策，使得根据所述当前优化目标对应的奖励函数生成最佳调度决策。

6.根据权利要求5所述的装置，其特征在于，还包括：

训练模块，用于根据云数据中心的历史日志信息利用深度强化学习模型学习集群环境和任务的规律性特征，得到所述预设的深度强化学习的决策模型。

7.根据权利要求5或6所述的装置，其特征在于，还包括：

获取模块，用于获取多个优化目标，并生成每个优化目标的奖励函数；

更新模块，用于利用所述多个优化目标及对应奖励函数更新所述预设的深度强化学习的决策模型的参数。

8.根据权利要求7所述的装置，其特征在于，还包括：

检测模块，用于检测当前时刻是否满足更新条件，使得在所述当前时刻满足所述更新条件时，所述更新模块利用所述当前优化目标对应的奖励函数与所述资源调服过程仿真环境进行交互，并更新所述预设的深度强化学习的决策模型的参数。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的基于深度强化学习的云数据中心集群资源调度方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的基于深度强化学习的云数据中心集群资源调度方法。