CN112114951A

CN112114951A - 一种自下而上的分布式调度系统及方法

Info

Publication number: CN112114951A
Application number: CN202011001391.0A
Authority: CN
Inventors: 陈敏杰; 李业磊; 孙方义; 王媛媛; 吴斌星
Original assignee: BEIJING HUARU TECHNOLOGY CO LTD
Current assignee: BEIJING HUARU TECHNOLOGY CO LTD
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-22

Abstract

一种自下而上的分布式调度系统及方法，系统包括全局调度器，存储和标识有分布式集群中具有任务请求类型的足够资源的子节点，接受来自各个子节点的本地调度器转发的调度任务请求，根据每个子节点的负载和任务的约束来做出调度决策；多个本地调度器，将任务安排在本地进行处理，如果本地调度器不满足调度要求时，本地调度器会将任务转发给全局调度器；全局控制存储单元，存储有本地调度器所转发的任务的信息。本发明设立了本地调度优先、全局调度为辅助的调度模式，满足强化学习中任务异构性的特点，对异构性任务也有很快的调度速度；在扩展上十分方便，将任务分派与任务调度完全分离，实现延迟最小化。

Description

一种自下而上的分布式调度系统及方法

技术领域

本发明涉及仿真计算领域，具体的，涉及一种自下而上的分布式调度系统及方法，与传统的调度方法相比，处理任务的效率更高，任务的数量更大，可扩展性更好。

背景技术

随着人工智能技术的快速发展，新一代人工智能应用程序，例如强化学习，将不断与环境交互，并从这些交互之中学习。这些应用程序在性能和灵活性方面都对系统提出了新的和苛刻的要求。这就要求我们的调度方法能够以毫秒级的延迟每秒处理数百万个异构任务。

现在的调度模式大概有以下几种：轮转式调度、加权式调度、散列式调度、最少任务式调度、最低缺失式调度、最快响应式调度等。

轮转式调度方法就是简单地在一串节点中线性轮转，调度系统将新请求发给节点表中的下一个节点，如此连续下去。缺点是：对于分布式系统来说，这种调度方法的效率太低。

加权式调度方法就是根据节点的优先级或权值来分配负载，权值是基于各节点能力的假设或估计值。缺点是：这种方法只能与其他方法合用，是其他方法的一个辅助补充。

散列式调度方法就是通过单射不可逆的Hash函数，按照某种规则将请求发往集群节点。缺点是：对于分布式系统来说，这种方法效率低且不易扩展。

最少任务式调度方法就是管理节点纪录目前所有任务处理记录，把下一个新的任务请求发给当前处理任务最少的节点。缺点是：某些任务会消耗更多的节点资源，尽管集群中任务处理个数平衡了，但是处理量可能差别很大，处理个数无法真实的反应集群的负载。

最低缺失式调度方法与最少任务式调度方法类似，管理节点纪录历史所有任务处理记录，把下一个任务发送给历史上处理请求最少的节点。与最少任务式调度方法不同之处就是记录的历史处理记录而不是当前处理记录。

最快响应式调度方法就是调度节点记录自身到每一个集群节点的网络响应时间，并将下一个到达的连接请求分配给响应时间最短的节点。缺点与最少任务式调度方法类似，通过连接时间的长短来判断，并不能有效的进行负载平衡。

当前的调度方式很难满足以毫秒级的延迟每秒处理数百万个异构任务的需求。

因此，如何改进调度模式，强化学习对于百万级任务调度的低延时的需求，提升了强化学习在进行训练时的效率成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提出一种自下而上的分布式调度系统及方法，能够满足强化学习中任务异构性的特点，对异构性任务也有很快的调度速度，并且扩展上十分方便，无需修改内容，横向增加节点即可，在水平可伸缩，具备较强的容错能力。

为达此目的，本发明采用以下技术方案：

一种自下而上的分布式调度系统，所述分布式调度系统用于分布式集群，其特征在于，包括

全局调度器，所述全局调度器位于分布式集群的主节点，并存储和标识有分布式集群中具有任务请求类型的足够资源的子节点，接受来自各个子节点的本地调度器转发的调度任务请求，根据每个子节点的负载和任务的约束来做出调度决策；

多个本地调度器，每个所述本地调度器位于分布式集群的每个子节点，本地调度器在本地调度任务，将任务安排在本地进行处理，避免了将所有的任务提交到全局调度器，再由全局调度器调度所产生的时间开销；如果本地调度器不满足调度要求时，本地调度器会将任务转发给全局调度器。

可选的，所述全局调度器根据所请求调度的任务，计算该请求调度的任务在各个子节点中的估计等待时间，并选取具有最低估计等待时间的子节点，所述估计等待时间为(i)该任务将在相应子节点排队的估计时间和(ii)该任务的远程输入的估计传输时间之和。

可选的，还具有全局控制存储单元，当本地调度器对于无法满足需求的任务进行转发时，会将所转发的任务的详细信息都存储在全局控制存储单元之中。

可选的，所述全局调度器根据所请求调度的任务，计算该请求调度的任务在各个子节点中的估计等待时间具体为：全局调度器会通过心跳程序获取各子节点的队列大小和节点资源可用性，并通过全局控制存储单元获取所请求调度的任务在全局控制存储单元中的输入的位置及其大小，从而计算该请求调度的任务在各个子节点中的估计等待时间。

可选的，具有多个全局调度器，多个全局调度器共享全局控制存储单元相同信息，或者多个全局调度器分片负责全局控制存储单元的信息。

可选的，所述本地调度器不满足调度要求具体包括：如果子节点负荷过载，或者是无法满足任务的要求。

可选的，所述全局控制存储单元使用分片来实现规模化，并使用每个分片链复制来提供容错能力。

可选的，所述分布式调度系统采用基于内存的分布式存储系统来存储每个任务的输入和输出，或无状态计算。

可选的，对于分布式存储系统，如果任务的输入不是本地的，则在执行之前将输入复制到本地对象存储；以及任务将其输出写入本地对象存储。

本发明还公开了一种自下而上的分布式调度方法，其特征在于，

设立如上述的分布式调度系统。

本发明具有如下的优点：

1、设立了本地调度优先、全局调度为辅助的调度模式，满足强化学习中任务异构性的特点，对异构性任务也有很快的调度速度。

2、能够设置了多个全局调度器，在扩展上十分方便，无需修改内容，横向增加节点即可。

3、设置了全局控制存储单元，将任务分派与任务调度完全分离，实现延迟最小化。

附图说明

图1是根据本发明的具体实施例的自下而上的分布式调度系统的调度流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明具有如下的术语：

1、异构任务

主要是指不同类型的资源需求和不同计算复杂度的任务集合。例如有些任务需要GPU，有些任务只需要CPU，有些任务处理时间只用1秒，有些任务处理时间可能需要几小时甚至几天。

2、调度器

本发明主要指的是分布式系统下的调度器，包括分布式系统当中的任务关系管理和调度执行系统，或者分布式系统当中的资源管理和调度系统。

3、带宽

指单位时间能通过链路的数据量。

4、强化学习

强化学习是机器学习的范式和方法论之一，本质是解决自主决策的问题，并且可以连续决策，主要包含四个元素，智能体(某个或者多个实体)、环境状态、动作、奖励，用于描述和解决智能体在与环境的交互过程中，通过学习策略以达成回报最大化或实现特定目标的问题。

5、可伸缩性

可伸缩性是一种对软件系统计算处理能力的设计指标，高可伸缩性代表一种弹性，在系统扩展成长过程中，软件能够保证旺盛的生命力，通过很少的改动甚至只是硬件设备的添置，就能实现整个系统处理能力的线性增长，实现高吞吐量和低延迟高性能。

6、AllReduce

指AllReduce算法，是用于分布式深度学习的通信运算。

7、原语

原语属于操作系统或计算机网络用语范畴，操作系统的核心。内核或微核提供核外调用的过程或函数称为原语(primitive)。

8、对象

某种计算机语言中对于某特定程序的函数。数据封装形成的实体就是对象。对象是类的实例化。

9、热数据

经常访问的数据。

10、LRU策略

即缓存淘汰策略。LRU的全称是Least Recently Used，该策略中，给数据分为两种类型。一种是有用的，一种是无用的。所谓有用的是指最近使用的过得数据。无用的是指很久都没有使用过的数据。内存空间不足时优先删除那些无用的数据。

本发明在于：设计由全局调度器和每节点一个的本地调度器组成的两级层次调度器，本地调度器在本地调度任务，除非节点过载(即其本地任务队列超过预定义的阈值)，或无法满足任务的要求(例如，缺少GPU)。如果本地调度器决定不在本地调度任务，则会将其转发给全局调度器，全局调度器标识具有任务请求的类型的足够资源的节点集，并且在这些节点中选择提供最低估计等待时间的节点，全局调度器可以具有多个共享相同信息的全局调度器副本，使得本发明中的调度架构具有高度的可伸缩性。

具体的，本发明公开了一种自下而上的分布式调度系统，所述分布式调度系统用于分布式集群，包括

全局调度器，所述全局调度器位于分布式集群的主节点，并存储和标识有分布式集群中具有任务请求类型的足够资源的子节点，接受来自各个子节点的本地调度器转发的调度任务请求，根据每个子节点的负载和任务的约束来做出调度决策。

所述本地调度器不满足调度要求具体包括：如果子节点负荷过载，即本地任务队列超过预定义的阈值，或者是无法满足任务的要求，例如，任务需GPU，本地资源中只有CPU。

因此，本发明中，将任务首先在本地调度器中进行调度，只有在本地无法满足需求的再将任务转发给全局调度器，由全局调度器进行调度，由于本地调度器会首先尝试在本地进行任务调度，所以称这种调度方法为自下而上的调度方法。

在一个具体的实施例中，所述全局调度器根据所请求调度的任务，计算该请求调度的任务在各个子节点中的估计等待时间，并选取具有最低估计等待时间的子节点，所述估计等待时间为(i)该任务将在相应子节点排队的估计时间，即任务队列大小乘以平均任务执行时间，和(ii)该任务的远程输入的估计传输时间，即远程输入的总大小除以平均带宽，之和。

更进一步的，所述自下而上的分布式调度系统中还具有全局控制存储单元，当本地调度器对于无法满足需求的任务进行转发时，会将所转发的任务的详细信息都存储在全局控制存储单元之中。

所述全局调度器根据所请求调度的任务，计算该请求调度的任务在各个子节点中的估计等待时间具体为：全局调度器会通过心跳程序获取各子节点的队列大小和节点资源可用性，并通过全局控制存储单元获取所请求调度的任务在全局控制存储单元中的输入的位置及其大小，从而计算该请求调度的任务在各个子节点中的估计等待时间。

因此，全局控制存储单元负责维护系统的整个控制状态，便于在全局调度器能够查找计算该请求调度的任务在各个子节点中的估计等待时间。

此外，保持低延迟需要最小化任务调度中的开销，这涉及到选择执行位置，然后是任务调度，这涉及到从其他节点检索远程输入。对于强化学习，对于像AllReduce这样对分布式训练很重要的原语来说，在每个对象传输中调用调度程序是非常昂贵的，因为AllReduce对通信内容和延迟都敏感。所以，在本发明的设计中，将象元数据存储在全局控制存储单元中，而不是调度程序中，将任务分派与任务调度完全分离，来实现延迟最小化的目的。

更进一步的，所述全局控制存储单元使用分片来实现规模化，并使用每个分片链复制(的方式)来提供容错能力，来保证调度方法的容错性和低延迟。

通过分片存储方式，既能够在执行任务时迅速的找到相应要执行的位置，又能够在恢复数据时，减少工作量，只需要恢复相应所要恢复的分片存储即可。

更进一步的，可以具有多个全局调度器，多个全局调度器共享全局控制存储单元相同信息，或者多个全局调度器分片负责全局控制存储单元的信息。

由于全局调度器是从全局控制存储单元中获取任务的位置及其大小，所以如果全局调度器成为了集群的性能瓶颈，则设置多个全局调度器副本可以提高调度效率，这种设计模式使得本发明的调度架构具有高度的可伸缩性。

更进一步的，为了最小化任务的延迟，本发明设置了基于内存的分布式存储系统来存储每个任务的输入和输出，或无状态计算。在每个节点上，通过共享内存实现对象存储。这种设计可以在同一节点上运行的任务之间实现零拷贝数据共享。

更进一步的，为了最小化任务执行事件，如果任务的输入不是本地的，则在执行之前将输入复制到本地对象存储；任务将其输出写入本地对象存储。复制消除了由于热数据(注：经常访问的数据)对象造成的潜在瓶颈。通过上述方法，任务只从本地内存读取/写入数据使得任务执行时间最小化。

为了达到低延迟，本发明还将对象完全保留在内存中，并根据需要使用LRU策略将其逐出磁盘。

进一步的，本发明还公开了一种自下而上的分布式调度方法，其特征在于，设立如上所述的分布式调度系统。

在一个具体的实施例中，参见图1，示出了自下而上的分布式调度系统的调度流程图。

如上图所示，任务1提交至本地调度器1，本地调度器1根据其任务需求，判断本地环境满足任务1的执行需求，于是将任务1放在本地子节点进行计算。

任务2提交至本地调度器1，本地调度器1根据其任务需求，判断本地环境无法满足任务2的执行需求，于是将任务2转发至全局调度器进行调度，同时将任务信息同步至全局控制存储单元。全局调度器在接受到本地调度器的任务请求之后，会将该任务分配至能执行该任务的最优节点之上，在图1中，全局调度器1在接受到本地调度器1的任务2的请求之后，将任务2分配至本地调度器2，本地调度器2根据任务2的需求，在全局控制存储单元获取到执行任务2的所有参数，在本地产生一个任务3来执行这个任务请求。

进一步的，本地调度器与全局调度器之间的关系并不是绑定不变的，例如，本地调度器2可以将任务4提交至全局调度器2，也可以将任务4提交至全局调度器1。

如上图所示，本地调度器所接受的任何任务请求，不论该任务是否是在本地执行，都会将任务信息(参数、任务方法等)同步至全局控制存储单元。以供其它节点的本地调度器访问。

其作用在于：参数全部存储在全局控制存储单元中，也就是全局控制存储单元负责参数存储，全局调度器负责任务调度，这种设计模式进一步实现任务调度与任务分配的分离。全局控制存储单元内部利用分片这种设计来实现规模化，想扩大全局控制存储单元只需要增加分片即可；数据的每个分片都是一个链，通过链复制来来提升全局控制存储单元的容错能力。同时，参数全部存储在全局控制存储单元中，如果有工作节点发生故障，工作节点只需要重新启动并从全局控制存储单元中读取相应的数据即可恢复之前的工作状态。

综上，本发明具有如下的优点：

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种自下而上的分布式调度系统，所述分布式调度系统用于分布式集群，其特征在于，包括

2.根据权利要求1所述的分布式调度系统，其特征在于，

所述全局调度器根据所请求调度的任务，计算该请求调度的任务在各个子节点中的估计等待时间，并选取具有最低估计等待时间的子节点，所述估计等待时间为(i)该任务将在相应子节点排队的估计时间和(ii)该任务的远程输入的估计传输时间之和。

3.根据权利要求1或2所述的分布式调度系统，其特征在于，

还具有全局控制存储单元，当本地调度器对于无法满足需求的任务进行转发时，会将所转发的任务的详细信息都存储在全局控制存储单元之中。

4.根据权利要求3所述的分布式调度系统，其特征在于，

5.根据权利要求3所述的分布式调度系统，其特征在于，

具有多个全局调度器，多个全局调度器共享全局控制存储单元相同信息，或者多个全局调度器分片负责全局控制存储单元的信息。

6.根据权利要求3所述的分布式调度系统，其特征在于，

所述本地调度器不满足调度要求具体包括：如果子节点负荷过载，或者是无法满足任务的要求。

7.根据权利要求3所述的分布式调度系统，其特征在于，

所述全局控制存储单元使用分片来实现规模化，并使用每个分片链复制来提供容错能力。

8.根据权利要求3所述的分布式调度系统，其特征在于，

所述分布式调度系统采用基于内存的分布式存储系统来存储每个任务的输入和输出，或无状态计算。

9.根据权利要求8所述的分布式调度系统，其特征在于，

对于分布式存储系统，如果任务的输入不是本地的，则在执行之前将输入复制到本地对象存储；以及任务将其输出写入本地对象存储。

10.一种自下而上的分布式调度方法，其特征在于，

设立如权利要求1-9中任意一项所述的分布式调度系统。