CN111966484A

CN111966484A - 一种基于深度强化学习的集群资源管理和任务调度方法及系统

Info

Publication number: CN111966484A
Application number: CN202010581407.3A
Authority: CN
Inventors: 张正超; 肖臻; 毛航宇; 潘丽晨
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-11-20

Abstract

本发明涉及一种基于深度强化学习的集群资源管理和任务调度方法及系统。该方法将需要运行的任务放置于待调度任务队列；通过资源调度管理智能体依次处理待调度任务队列中的任务，根据集群资源状况和任务的资源需求产生调度决策；所述资源调度管理智能体是根据在集群上运行的历史任务记录，使用深度强化学习的方法训练得到的神经网络；根据调度决策，将任务调度至集群中对应的机器上执行。本发明能够提高集群资源的利用率和系统吞吐率，并使得计算机集群资源分配可以在任务负载情况变化时自适应；本发明能够使得任务的响应时间更短，能够在相同负载的情况下减少集群机器数目，对于节省能源保护环境有重要的意义。

Description

一种基于深度强化学习的集群资源管理和任务调度方法及系统

技术领域

本发明属于计算机软件技术领域，涉及一种面向大规模计算机集群的资源管理和任务调度方法及系统。

背景技术

在如今的信息时代，人们的衣食住行都离不开互联网提供的各种服务，相应地也催生了一大批巨型互联网公司，例如阿里巴巴、百度、腾讯、美团等；于此同时，云计算和工业物联网的概念也正蓬勃发展，原本分散的小型计算机集群逐渐迁移到云计算厂商的大型集群中，例如阿里云，AWS等。这使得大型互联网公司及云计算厂商需要维护大量计算机组成的巨型集群和运行其上的难以计数的应用和任务。维持大量集群的正常运行需要消耗非常多的电力能源，是互联网公司和云计算厂商的重要成本来源。如何通过优化大规模批处理任务的资源管理来提高数据中心的效率，提高集群的利用率是非常重要的问题。通过更合理地对任务进行调度和对资源进行管理，使相同的任务负载可以运行在更小规模的集群上，能够为企业节省大量硬件设备成本和能源开支，同时有利于减少温室气体排放，保护环境。

现有的集群资源管理系统一般使用启发式算法，或由经验丰富的领域专家根据集群特征及负载情况手动编制一些启发式规则。例如谷歌公司使用的Borg系统，就是通过对当前集群中的所有机器进行打分，按照打分高低决定当前任务应该在哪一台机器上运行，其评分以减少资源空置为目标，试图尽量减少某些类型资源分配完之后，一台机器上还有大量无法分配的其它类型资源的情况。而另一种常用的资源管理框架YARN负责对整个集群(CPU，内存)的资源进行分配和调度，默认提供了三种任务调度器：FIFO Scheduler，Capacity Scheduler，Fair Scheduler，使用DRF(Dominant Resource Fair)准则分配资源。

由于任务调度和资源管理本质上是一个装箱问题，该问题已被证明为NPC问题，无法在多项式时间内得到最优解。现有以启发式和人工规则为主的方法的主要问题是：一方面启发式规则很容易陷入局部最优解中，无法达到很好的装箱效果，也就是碎片资源较多，系统资源利用率不高；而另一方面以专家编制规则为主的方法在任务构成或集群结构发生变化时，就要重新摸索，浪费大量人力物力。更困难的是，区别于单纯的装箱问题，计算机集群的任务调度和资源管理通常还有多种多样的目标，例如需要同时缩短任务等待时间，提高资源利用率，提供数据局部性支持等，有些目标是相互影响相互制约的，现有方法无法同时兼顾多个目标。

发明内容

针对现有计算机集群管理系统中使用的启发式方法中存在的问题，例如资源碎片过多，系统利用率不高；当集群结构或任务负载发生变化时，需要重新调整算法浪费大量人力物力；难以同时兼顾多种目标。本发明提出一种基于深度强化学习的计算机集群资源管理和任务调度方法及系统。

本发明将计算机集群资源管理和任务调度建模成一个序列决策问题，在每一个时刻按照一定的顺序，从候选任务中选择一些任务部署到合适的机器上运行。本发明使用任务提交时间作为基础优先级，并根据任务总的等待时间调整优先级，确定任务的调度顺序。同时使用深度强化学习的方法，使用深度神经网络来评估待调度任务在不同机器运行的优劣，训练得到一个学会集群资源管理策略的智能体。该智能体在运行过程中，通过实时收集系统运行数据，使用反向传播算法在线更新神经网络参数，可以不断自动适应新的工作负载，达到更好的任务调度和资源管理效果。

本方法的关键技术包括：1.使用深度图像表示计算机集群资源状态和任务资源需求的状态定义和描述方法；2.以任务提交时间为基础优先级，并根据任务总等待时间调整优先级的任务等待队列；3.使用主要由卷积核大小为K*1*M的卷积神经网络和分支结构构成的Q网络；4.使用深度强化学习的方法学习任务调度和资源管理的策略，并通过在线学习自适应的进行改进。

本发明采用的技术方案如下：

一种基于深度强化学习的集群资源管理和任务调度方法，包括以下步骤：

将需要运行的任务放置于待调度任务队列；

通过资源调度管理智能体依次处理待调度任务队列中的任务，根据集群资源状况和任务的资源需求产生调度决策；所述资源调度管理智能体是根据在集群上运行的历史任务记录，使用深度强化学习的方法训练得到的神经网络；

根据调度决策，将任务调度至集群中对应的机器上执行。

进一步地，所述调度决策包括确定任务调度的目标机器；如果目标机器资源充足，则将任务调度至目标机器上执行；如果目标机器资源不足，则跳过当前任务，继续调度后面的任务，并将跳过的该当前任务加入下一次的待调度任务队列中。

进一步地，所述资源调度管理智能体使用任务提交时间作为基础优先级，并根据任务总的等待时间调整优先级，确定任务的调度顺序；若本轮次某任务没有调度成功，则在下一次调度时该任务的优先级提高。

进一步地，所述资源调度管理智能体采用的神经网络为Q神经网络；使用深度图像表示集群资源状况和任务的资源需求情况，将集群资源描述矩阵T*N*M和任务的资源需求描述矩阵1*T*M连接在一起，形成一个(N+1)*T*M维的矩阵，将之作为深度强化学习的状态s，输入所述Q神经网络对将任务放置在每个机器的Q值进行评估，进而通过Q值比较选出任务要放置的机器，产生调度动作；其中N表示计算机集群中机器的个数，T表示未来T个时间粒度，M表示资源种类数。

进一步地，所述Q神经网络包括卷积层和全连接层，状态s经过卷积层中的多个块(Block)，最后通过两层全连接网络后产生Q值；其中，卷积核大小设置为K*1*M，即卷积核的宽为1，K表示不同的卷积核高度。

进一步地，采用模拟器训练所述资源调度管理智能体，训练过程所需的历史数据包括任务申请资源数量和任务申请运行时长，训练时通过深度强化学习的方法评估待调度任务在不同机器运行的优劣。

进一步地，所述资源调度管理智能体在运行过程中，实时收集运行数据，使用反向传播算法在线更新神经网络参数，不断自动适应新的工作负载。

一种基于深度强化学习的集群资源管理和任务调度系统，其包括：

待调度任务队列，用于放置待调度任务；

资源调度管理智能体，用于依次处理待调度任务队列中的任务，根据集群资源状况和任务的资源需求产生调度决策；

任务调度模块，用于根据调度决策，将任务调度至集群中对应的机器上执行

模拟器，根据在集群上运行的历史任务记录，使用深度强化学习的方法训练神经网络，训练结束后则神经网络的参数迁移到所述资源调度管理智能体中。

与现有技术相比，本发明的积极效果为能够根据在计算机集群上运行的历史任务记录，使用深度强化学习自动地学习到一个智能体对集群资源和任务进行管理和调度。一方面，该智能体可以综合考虑各种目标，达到现有的启发式方法无法达到的性能，减少资源碎片数目，进一步提高集群资源的利用率和系统吞吐率，提升系统效率；另一方面，本方法使得计算机集群资源分配可以在任务负载情况变化时自适应，而不需要领域专家根据任务负载变化进行针对性的调整，这可以节省大量人力，对于减轻公司人力成本非常有利。本发明通过提供以任务提交时间为基础优先级，根据总等待时间调整优先级的等待队列，大大减少了任务的平均等待时间和被个别大任务阻塞的可能，使得任务的响应时间更短，用户体验更好。通过本发明，可以在相同负载的情况下，减少集群机器数目，对于节省能源保护环境有重要的意义，具有良好的市场和社会价值。

附图说明

图1表示系统主要组件及运行流程。

图2表示集群资源状态表示及Q网络结构。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

如图1所示，本发明主要包含待调度任务队列，资源调度管理智能体，任务调度模块及模拟器组成，主要分为训练和运行两大过程。

训练过程即在计算机集群上收集一段时间的任务运行情况，包括任务资源需求向量，任务请求时间等属性。根据收集到的数据，在模拟器中对图2所示的Q神经网络进行训练，直至达到预期的目标则训练结束。

训练结束后则将图2所示的Q神经网络参数复制到图1中的资源调度管理智能体，开始进入运行过程。运行过程包含如下的步骤。

1.用户向系统提交想要运行的任务，使用任务资源需求向量、预期运行时间进行描述。系统收到用户提交的任务后将其放置于待调度任务队列末尾，等待被调度。

2.每隔一定时间(默认为1秒)，智能体从前往后扫描待调度任务队列中的所有任务，并计算出应该把该任务调度到哪一台机器上的调度动作，如果该调度动作合法，即目标机器资源充足可以运行当前任务，则将该任务和调度决策提交给任务调度模块。如果该调度动作不合法，即资源不足，则跳过该任务继续调度后面提交的任务，并将该任务加入下一次的调度队列中。其中，“调度决策”是指将该任务调度到具体哪一台机器上。

3.任务调度模块收到智能体发送的任务和调度决策，按照该决策将任务所需的程序包，数据等传送到对应的机器上，然后启动该任务，并记录开始执行时间。

需要说明的是，为了适应集群任务负载的变化，通常并不只有一轮训练过程，可以有多轮训练过程使得智能体能够自动适应变化的任务负载，获得更好的性能。

下面将对一些关键技术进行详细阐述。

1)集群及任务状态表示

本发明使用深度图像表示集群资源状况和任务的资源需求情况。具体的，整个计算机集群由一个T*N*M的矩阵描述，该矩阵可以看作成一个宽为N个像素，高为T个像素，有M个通道的深度图像。其中N表示计算机集群中机器个数，T表示向前看未来T个时间粒度，M表示资源种类数，例如CPU核数，内存容量等。图像上的每个像素表示一台机器，使用不同的图像通道区分不同的资源种类，像素深度表示剩余资源数目，由大整数表示，例如对于512G的内存，以MB为单位进行资源分配，则将图像深度设置为524288。因此资源可以被以很小的粒度进行切分。待调度任务使用1*T*M的矩阵表示，表示该任务在未来的T个时间粒度内对M中资源的需求情况。

将上述的集群资源描述矩阵T*N*M和某个任务的资源需求描述矩阵1*T*M连接在一起，形成一个(N+1)*T*M维的矩阵，将之作为深度强化学习的状态表示，输入所述Q神经网络对将该任务放置在每个机器的价值(Q值)进行评估，进而比较产生调度动作。

本发明中的集群及任务状态描述明显区别于所有现有工作，例如deepRM中使用资源bitmap表示集群和任务状态，每个像素仅表示该粒度的资源是否已被占用，使得该方法无法对细粒度的资源进行描述，也无法适应CPU、内存等资源数据较大和集群机器数目较多的情况。而本发明的状态表示方法中，由于只用一个像素就可以完全表示一台机器在某个时刻的资源利用情况，所以可以很容易地将集群数目扩展到几千台，仅仅需要将图像宽度设置为几千个像素即可，这使得后续作为深度强化学习神经网络输入具备了条件，也是本发明提出的使用深度强化学习自动地学习任务调度和资源管理策略的基础。

2)调度逻辑

本发明中，资源管理和任务调度模块每隔一段时间按照一定顺序对所有待调度任务进行扫描，产生调度动作，该时间间隔可由用户指定，默认为1秒。其扫描顺序为按任务的提交顺序，每扫描一个任务，将按照所述方法产生动作，包括跳过该任务或调度到某一台机器上的动作。如果产生动作为跳过该任务或分配机器的剩余资源无法运行此任务，则跳过该任务继续处理下一任务，直到扫描到待调度任务队列里的最后一个任务。无论产生什么样的调度动作，都需要将其记录在日志上。通过以上描述可见，与严格的先来先服务不同，此处提交顺序只表示部署该任务的优先级，先来的任务可能会调度失败而后来的任务先被部署。若本轮次该任务没有调度成功，则在下一次调度时优先级提高。即本发明使用任务提交时间作为基础优先级，并根据任务总的等待时间调整优先级，确定任务的调度顺序。任务总的等待时间即任务提交到执行的等待时间。本次调度失败即意味着任务总的等待时间加长，通过上面所述的调度逻辑将其优先级提高，同时大的任务也不会阻碍后续任务。通过这样的设计，调整了任务执行顺序，防止了先来先服务中常见的问题：一个大任务可能会阻碍后面的小任务，降低系统响应时间和吞吐率。

同时，若某任务本次调度不成功，则给予一定的惩罚，默认为

如果调度成功则没有惩罚，其中T_j表示该任务预期所需时间。可以发现，当折扣系数为1时，系统总的奖励即为所有任务等待时间占任务执行时间的比值的和，设为G。调度系统中常使用任务提交到任务执行完毕所需时间与任务实际运行时间的比值(slowdown)作为衡量该系统优劣的标准。由于该值G与所有任务slowdown的和差一个常数M(所有任务数)，所以最小化G即为最小化集群任务调度中最重要的目标平均slowdown。除此之外，用户可以通过自定义的添加奖励项和惩罚项进行多目标优化。此处的惩罚、奖励及折扣系数均为强化学习中的常用概念，其中惩罚和奖励表示环境对智能体的反馈，折扣系数表示在计算累计回报时对智能体下一步所处状态价值的折扣。

3)Q神经网络结构

本发明使用Q Learning的方法，并且使用神经网络来拟合状态-动作的Q值函数，系统中有两个网络：Q网络和目标Q网络，两个网络的结构完全相同，Q网络为主要网络，用于在运行过程中评估状态-动作的Q值，产生调度动作。目标Q网络主要用于辅助训练，防止训练不稳定。Q网络的输入为上述集群资源状态和单个任务的资源需求连接表示的状态s，s∈R^T*(N+1)*M，其中M表示资源种类数目，N表示集群机器数量，T表示智能体向前看的步数，R表示实数域。输出为Q(s,a)∈R^N，表示将该任务部署在每一台机器上时所能获得的Q值，通过Q值比较，选择出该任务要放置的机器，产生调度动作(a)。

本发明中Q网络为经过特别设计的特别适用于本场景的结构，主要由卷积层和全连接层组成，如附图2所示。状态s首先经过卷积层conv的多个不同大小卷积核，形成多个分支，然后将卷积层的输出连接在一起，这样的一个结构称之为一个块(Block)，该Block的输出将作为下个Block的输入，以类似的方式堆叠多个Block，最后通过两层全连接网络(即图2中的MLP，其全称为Multilayer Perceptron，多层感知机)后产生Q值。区别于常用的K*M*M的卷积层，此处的卷积核大小特别设置为K*1*M，即卷积核的宽为1，K表示不同的卷积核高度。之所以这样设计，是因为与计算机视觉中常见的图像不同，此处横向的像素之间没有任何联系，只有纵向的时间轴方向的像素是有关系的。通过这样的网络设计高效提取到不同机器的特征，并通过卷积神经网络节省大量参数，减小模型大小，提高了决策速度，该特性对有较高实时性要求的任务调度模块极其重要。

4)训练方法

区别于传统的基于启发式的任务调度和集群资源管理方法，本发明中使用深度强化学习的方式进行任务调度及资源管理需要先进行训练，根据在真实系统上收集的历史数据在模拟器上训练得到一个符合要求的智能体(神经网络)后，才将该智能体的参数迁移到实际运行的线上系统执行调度和管理任务。具体训练方法与Q学习方法一致，并使用经验回放和目标网络加速训练过程，使用随机梯度下降进行参数更新。

该训练过程所需历史数据主要包括任务申请资源数量，申请运行时长属性，可见在收集数据阶段并不涉及对任务的调度动作，因此前期可使用其他资源管理和任务调度模块产生训练数据。同时也可以使用模仿学习的方法加速训练过程。模拟器与真实系统完全相同，区别仅在于其并不会真正将任务调度到机器上运行。通过在模拟器上训练而不是在真实系统上训练，所需的机器资源大大减少，提高了样本产生速度和训练效率。

训练成功之后，如果任务负载情况不变，则不需要重新训练该智能体。但由于对未来任务负载的未知性和统计的滞后性，所以一般可以在运行期间也进行低强度的在线训练，从当前系统运行产生的实时数据随机抽取一部分作为训练样本，持续不断的对智能体的参数进行更新，使得智能体可以实时适应最新的负载情况，找到应对当前负载的最好方法。这也是本发明优于现有方法的主要特征之一。

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于深度强化学习的集群资源管理和任务调度方法，其特征在于，包括以下步骤：

将需要运行的任务放置于待调度任务队列；

根据调度决策，将任务调度至集群中对应的机器上执行。

2.根据权利要求1所述的方法，其特征在于，所述调度决策包括确定任务调度的目标机器；如果目标机器资源充足，则将任务调度至目标机器上执行；如果目标机器资源不足，则跳过当前任务，继续调度后面的任务，并将跳过的该当前任务加入下一次的待调度任务队列中。

3.根据权利要求1所述的方法，其特征在于，所述资源调度管理智能体使用任务提交时间作为基础优先级，并根据任务总的等待时间调整优先级，确定任务的调度顺序；若本轮次某任务没有调度成功，则在下一次调度时该任务的优先级提高。

4.根据权利要求1所述的方法，其特征在于，所述资源调度管理智能体采用的神经网络为Q神经网络；使用深度图像表示集群资源状况和任务的资源需求情况，将集群资源描述矩阵T*N*M和任务的资源需求描述矩阵1*T*M连接在一起，形成一个(N+1)*T*M维的矩阵，将之作为深度强化学习的状态s，输入所述Q神经网络对将任务放置在每个机器的Q值进行评估，进而通过Q值比较选出任务要放置的机器，产生调度动作；其中N表示计算机集群中机器的个数，T表示未来T个时间粒度，M表示资源种类数。

5.根据权利要求4所述的方法，其特征在于，所述Q神经网络包括卷积层和全连接层，状态s经过卷积层中的多个块即Block，最后通过两层全连接网络后产生Q值；其中，卷积核大小设置为K*1*M，即卷积核的宽为1，K表示不同的卷积核高度。

6.根据权利要求1所述的方法，其特征在于，采用模拟器训练所述资源调度管理智能体，训练过程所需的历史数据包括任务申请资源数量和任务申请运行时长，训练时通过深度强化学习的方法评估待调度任务在不同机器运行的优劣。

7.根据权利要求1所述的方法，其特征在于，所述资源调度管理智能体在运行过程中，实时收集运行数据，使用反向传播算法在线更新神经网络参数，不断自动适应新的工作负载。

8.一种基于深度强化学习的集群资源管理和任务调度系统，其特征在于，包括：

待调度任务队列，用于放置待调度任务；

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。