CN107203424A

CN107203424A - 一种在分布式集群中调度深度学习作业的方法和装置

Info

Publication number: CN107203424A
Application number: CN201710250353.0A
Authority: CN
Inventors: 李远策; 贾宇晗; 欧阳文; 贾润莹
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2017-09-26

Abstract

本发明公开了一种在分布式集群中调度深度学习作业的方法和装置。其中方法包括：提供各类型作业的提交规范；通过资源管理器RM接收客户端依据所述规范提交的深度学习类型的作业，为该深度学习作业分配与该深度学习作业对应的应用程序管理者AM所需的资源；启动所述AM，通过资源管理器RM为该深度学习作业的各执行角色分配资源；通过所述AM启动各执行角色；获取执行该深度学习作业所需的资源文件，将获取的资源文件推送到相应的执行角色上进行执行；将各执行角色返回的执行结果数据保存到分布式文件系统中的指定位置。该技术方案使得有进行深度学习训练需求的用户可以利用已有的分布式集群快速配置并执行深度学习作业，效率高，兼容性好。

Description

一种在分布式集群中调度深度学习作业的方法和装置

技术领域

本发明涉及深度学习领域，具体涉及一种在分布式集群中调度深度学习作业的方法和装置。

背景技术

21世纪以来，人类在人工智能上取得的成果可谓愈加丰硕。深度学习作为人工智能的基石之一，也得到了研究者的持续关注。例如，谷歌公司提供的开源深度学习库TensorFlow受到了广泛好评，其中Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，TensorFlow为张量从图像的一端流动到另一端计算过程。目前虽然已有技术将该深度学习库应用在分布式集群中，但都需要对TensorFlow的代码做较大的改动，并且不能很好地实现资源调度，也就是说，现有的深度学习技术与分布式集群并没有得到较好的融合。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的在分布式集群中调度深度学习作业的方法和装置。

依据本发明的一个方面，提供了一种在分布式集群中调度深度学习作业的方法，包括：

提供各类型作业的提交规范；

通过资源管理器RM接收客户端依据所述规范提交的深度学习类型的作业，为该深度学习作业分配与该深度学习作业对应的应用程序管理者AM所需的资源；

启动所述AM，通过资源管理器RM为该深度学习作业的各执行角色分配资源；

获取执行该深度学习作业所需的资源文件，将获取的资源文件推送到相应的执行角色上进行执行；

将各执行角色返回的执行结果数据保存到分布式文件系统中的指定位置。

可选地，所述各类型作业的提交规范包括如下的一种或多种：

Map Reduce类型作业的提交规范；

Spark类型作业的提交规范；

深度学习类型作业的提交规范。

可选地，所述深度学习类型作业的提交规范包括如下中的一种或多种：

作业名称；

作业执行模式；

对深度学习作业计算框架的执行命令；

为该深度学习作业申请的资源；

执行该深度学习作业所需的资源文件的路径；

执行结果数据的保存路径；

作业优先级。

可选地，所述为该深度学习作业申请的资源包括如下的一种或多种：

为该深度学习作业申请的AM所需的资源；

为该深度学习作业申请的各类型执行角色数量；

为各执行角色申请的资源。

可选地，所述资源为所述分布式集群中的资源，包括如下的一种或多种；

CPU资源；

显卡资源；

内存资源；

磁盘资源。

可选地，所述执行该深度学习作业所需的资源文件包括：本地资源文件和/或分布式文件系统中的资源文件；

所述获取执行该深度学习作业所需的资源文件，将获取的资源文件推送到相应的执行角色上进行执行包括：

从本地路径下读取本地资源文件，并推送到所有执行角色上；

和/或，

从分布式文件系统中的路径下读取分布式文件系统中的资源文件，并分块推送到各执行角色上。

可选地，所述将获取的资源文件推送到相应的执行角色上进行执行前还包括：

通过所述AM构建包含各执行角色间的网络连接关系的集群配置文件，以使各执行角色依据该构建的集群配置文件中的各执行角色间的网络连接关系执行该深度学习作业。

可选地，所述通过所述AM构建包含各执行角色间的网络连接关系的集群配置文件包括：

在为该深度学习作业的各执行角色分配资源后，通过所述AM接收各执行角色返回的主机名和端口号，根据各执行角色返回的主机名和端口号生成集群配置文件，将所述集群配置文件发送给各执行角色，以使各执行角色根据所述集群配置文件建立各执行角色间的连接。

可选地，各执行角色返回的端口号是各执行角色从其所在的计算设备上未被占用的端口号中随机选取的。

可选地，该方法还包括：

通过所述AM获取各执行角色的执行状态信息，并提供用于查看各执行角色的执行状态信息的前端页面。

可选地，该方法还包括：

通过所述AM获取该深度学习作业的日志，响应于所述前端页面接收到的日志查看指令，将获取到的深度学习作业的日志进行展示。

依据本发明的另一方面，提供了一种在分布式集群中调度深度学习作业的装置，包括：

资源管理单元，适于接收客户端依据规范提交的深度学习类型的作业，为该深度学习作业分配与该深度学习作业对应的应用程序管理者AM所需的资源；以及为该深度学习作业的各执行角色分配资源；以及启动所述AM，并通过所述AM启动各执行角色；其中，预先为用户提供各类型作业的提交规范；

执行单元，适于获取执行该深度学习作业所需的资源文件，将获取的资源文件推送到相应的执行角色上进行执行；以及将各执行角色返回的执行结果数据保存到分布式文件系统中的指定位置。

Map Reduce类型作业的提交规范；

Spark类型作业的提交规范；

深度学习类型作业的提交规范。

作业名称；

作业执行模式；

对深度学习作业计算框架的执行命令；

为该深度学习作业申请的资源；

执行该深度学习作业所需的资源文件的路径；

执行结果数据的保存路径；

作业优先级。

为该深度学习作业申请的AM所需的资源；

为该深度学习作业申请的各类型执行角色数量；

为各执行角色申请的资源。

CPU资源；

显卡资源；

内存资源；

磁盘资源。

所述执行单元，适于从本地路径下读取本地资源文件，并推送到所有执行角色上；和/或，从分布式文件系统中的路径下读取分布式文件系统中的资源文件，并分块推送到各执行角色上。

可选地，所述资源管理单元，还适于通过所述AM构建包含各执行角色间的网络连接关系的集群配置文件，以使各执行角色依据该构建的集群配置文件中的各执行角色间的网络连接关系执行该深度学习作业。

可选地，所述资源管理单元，适于在为该深度学习作业的各执行角色分配资源后，通过所述AM接收各执行角色返回的主机名和端口号，根据各执行角色返回的主机名和端口号生成集群配置文件，将所述集群配置文件发送给各执行角色，以使各执行角色根据所述集群配置文件建立各执行角色间的连接。

可选地，所述资源管理单元，还适于通过所述AM获取各执行角色的执行状态信息，并提供用于查看各执行角色的执行状态信息的前端页面。

可选地，所述资源管理单元，还适于通过所述AM获取该深度学习作业的日志，响应于所述前端页面接收到的日志查看指令，将获取到的深度学习作业的日志进行展示。

由上述可知，本发明的技术方案，提供了包含深度学习类型在内的多种类型作业的提交规范，对以该规范提交的深度类型的作业，利用RM为作业分配分布式集群中的资源，使通过AM启动的各执行角色利用分配的资源和资源文件执行深度学习作业，并将执行结果数据保存到分布式文件系统中的指定位置。该技术方案将深度学习作业作为一种新的作业类型在分布式集群中进行调度，使得深度学习作业与Map Reduce、Spark等类型的作业可以利用同一资源调度器进行调度，且不需要对深度学习作业的执行代码做较大的调整，使得有进行深度学习训练需求的用户可以利用已有的分布式集群快速配置并执行深度学习作业，效率高，兼容性好。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种在分布式集群中调度深度学习作业的方法的流程示意图；

图2示出了根据本发明一个实施例的深度学习作业执行示意图；

图3示出了Yarn平台中查看各作业状态的前端页面示意图；

图4示出了Yarn平台中查看各执行角色状态的前端页面示意图；

图5示出了Yarn平台中在前端页面展示Tensorboard的示意图；

图6示出了根据本发明一个实施例的一种在分布式集群中调度深度学习作业的装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种在分布式集群中调度深度学习作业的方法的流程示意图，如图1所示，该方法包括：

步骤S110，提供各类型作业的提交规范。

以目前分布式集群中较为流行的资源管理器Yarn为例，其支持多种计算框架，例如Spark、Map Reduce等。在本实施例中，将深度学习作为一种新的作业类型，使得其可以通过Yarn实现分布式集群中的资源调度，例如，使用谷歌公司提供的开源深度学习库TensorFlow作为计算框架。也就是说，在其他实施例中，各类型作业的提交规范包括如下的一种或多种：Map Reduce类型作业的提交规范；Spark类型作业的提交规范；深度学习类型作业的提交规范。

这也说明了，不能以现有的深度学习作业提交方式直接生成作业提交到Yarn，需要做按照上述规范做一些改进。

步骤S120，通过资源管理器RM接收客户端依据规范提交的深度学习类型的作业，为该深度学习作业分配与该深度学习作业对应的应用程序管理者AM所需的资源。

RM(Resource Manager，资源管理器)负责与客户端进行通信，接收到深度学习类型的作业后，根据对作业中参数的解析，确定该作业申请的AM(Application Master)所需的资源，并与NM(Node Master，节点管理者)通信进行资源的分配，首先启动AM。AM再根据作业中参数的解析确定该作业需要多少个执行角色，例如包括多少个PS(Parameter Server，参数服务器)和多少个Worker(工人)，以及每个执行角色需要多少资源。即：

步骤S130，启动AM，通过资源管理器RM为该深度学习作业的各执行角色分配资源。

步骤S140，通过AM启动各执行角色。

步骤S150，获取执行该深度学习作业所需的资源文件，将获取的资源文件推送到相应的执行角色上进行执行。

步骤S160，将各执行角色返回的执行结果数据保存到分布式文件系统中的指定位置。

可见，图1所示的方法，提供了包含深度学习类型在内的多种类型作业的提交规范，对以该规范提交的深度类型的作业，利用RM为作业分配分布式集群中的资源，使通过AM启动的各执行角色利用分配的资源和资源文件执行深度学习作业，并将执行结果数据保存到分布式文件系统中的指定位置。该技术方案将深度学习作业作为一种新的作业类型在分布式集群中进行调度，使得深度学习作业与Map Reduce、Spark等类型的作业可以利用同一资源调度器进行调度，且不需要对深度学习作业的执行代码做较大的调整，使得有进行深度学习训练需求的用户可以利用已有的分布式集群快速配置并执行深度学习作业，效率高，兼容性好。

在本发明的一个实施例中，上述方法中，深度学习类型作业的提交规范包括如下中的一种或多种：作业名称；作业执行模式；对深度学习作业计算框架的执行命令；为该深度学习作业申请的资源；执行该深度学习作业所需的资源文件的路径；执行结果数据的保存路径；作业优先级。

作业执行模式包括单机多卡模式(利用分布式系统中的一台计算设备，当然，也可以用于单机)和分布式模式。对深度学习作业计算框架的执行命令是指调用深度学习库(例如TensorFlow)具体执行哪些计算。为该深度学习作业申请的资源包括如下的一种或多种：为该深度学习作业申请的AM所需的资源；为该深度学习作业申请的各类型执行角色数量；为各执行角色申请的资源。AM是该作业的核心，当AM挂掉时RM可以对其进行重启。PS和Worker通常是一一对应的，是深度学习作业的执行角色，可以在分布式集群中的节点上运行在一个container中。AM实际上也是运行在一个container中，每个container通过NM进行管理，与RM进行通信。可以看出，资源为分布式集群中的资源，具体地，可以包括如下的一种或多种；CPU资源；显卡资源；内存资源；磁盘资源。

而对于深度学习作业来说，由于涉及图的计算，利用显卡进行计算的效率很高，而目前分布式集群中并没有一种较好的调度显卡资源的方法。因此在本发明的一个实施例中，在分布式集群中调度显卡资源的方法包括：获取分布式集群中的显卡资源，在显卡资源调度表中记录各PCI-E总线上的可用显卡数量；接收提交的作业，作业中包含该作业申请的显卡数量；查找显卡资源调度表，当一个PCI-E总线上的可用显卡数量满足该作业申请的显卡数量时，从该PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。

那么对于深度学习作业而言，为该深度学习作业申请的资源可以包括各个执行角色需要的显卡数。当需要多个显卡时，如果这些显卡通过同一PCI-E总线通信，那么这些显卡的通信效率很高，亲和度较高。如果这些显卡需要跨PCI-E总线通信，那么效率就较低，亲和度较低，那么较优的显卡资源调度显然是实现为作业分配亲和度高的显卡。

上述方法中，获取分布式集群中的显卡资源包括：从分布式集群中部署的各计算设备的PCI-E总线中读取该计算设备上的显卡资源。之后，在显卡资源调度表中记录各PCI-E总线上的可用显卡数量，具体地可以包括：在开链表中记录各PCI-E总线上的可用显卡ID，并按各PCI-E总线上的可用显卡数量进行排序。

例如：PCI-E 0[GPU0，GPU1]，PCI-E 1[GPU2，GPU3]……这样就得到了一张显卡资源调度表。接下来的工作就是如何实现为作业分配亲和度高的显卡。上面的方法中，如果作业需要1张显卡，那么显然PCI-E 0，PCI-E 1上的显卡都可以满足条件，以上面的顺序为例子，先查找到的PCI-E 0上线的GPU 0就可以被分配给该作业。

而如果是下例：PCI-E 0[GPU0]，PCI-E 1[GPU1，GPU2，GPU3]，作业需要2张显卡，那么PCI-E 0上的显卡并不会分配给该作业，PCI-E 1上的GPU1，GPU2会被分配给该作业。

这样的分配方式也可能产生碎片。因此在一个实施例中，上述方法中，排序为升序，查找显卡资源调度表包括：通过深度优先算法遍历开链表，判断各PCI-E总线上的可用显卡数量是否满足该作业申请的显卡数量。

深度优先算法可以节约时间，快速调度到满足作业需求的显卡。那么问题在于，上述方法可以满足显卡需求数量较少的作业，当所有PCI-E总线上的可用显卡数量均不满足该作业申请的显卡数量时就无法处理了。因此在一个实施例中，对于这种情况，通过深度优先算法重新遍历开链表，从多个PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。这样就解决了该问题。

然而，第二次遍历也会带来新的问题。举例来说，当一个作业需要4块显卡，而目前的PCI-E 0上可用的显卡为GPU0，PCI-E 1上可用的显卡为GPU1，PCI-E 2上可用的显卡为GPU2、GPU3，PCI-E 3上可用的显卡为GPU4、GPU5。那么这时候，是选择PCI-E 2、PCI-E 3的组合方式更好，还是选择PCI-E 0、PCI-E 1、PCI-E 2的组合方式更好是值得探究的。

由于上述两种方式都需要显卡的跨总线通信，那么为了使得残留的碎片更少，我们选择PCI-E 0、PCI-E 1、PCI-E 2的组合方式。那么为了实现这一的选择，在上述方法中，通过深度优先算法重新遍历开链表，从多个PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源包括：将查找到的首个PCI-E总线上的所有可用显卡分配给该作业，判断下一个PCI-E总线上的可用显卡数量是否满足该作业申请的剩余显卡数量，若满足则从该PCI-E总线中选取与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源，若不满足则将该PCI-E总线上的所有可用显卡分配给该作业，并判断下一个PCI-E总线上的可用显卡数量是否满足该作业申请的剩余显卡数量直至该作业申请的剩余显卡数量被满足。

为了保证调度的准确性，在一个实施例中，上述方法中，将为该作业分配的所有可用显卡从开链表中删除，并重新对开链表进行排序；和/或，根据释放的显卡资源修改开链表，并重新对开链表进行排序。这样就确保了上述调度算法的正确实施。

上面介绍了在分布式集群中调度显卡资源的方法，这对于提高深度学习作业的执行效率起到了很大作用。继续回到深度学习类型作业的提交规范的问题，其还可以包括执行该深度学习作业所需的资源文件的路径、执行结果数据的保存路径、作业优先级等。从可设置作业优先级这一点上可以看出，本发明的实施例实现了将深度学习作业作为Yarn支持的作业类型，与Spark作业、Map Reduce作业等作业类型并列，在有多个类型的作业时也可以通过优先级进行调度，融合性非常好。

上面执行结果数据的保存路径通常是分布式文件系统中的文件，而对于执行深度学习作业所需的资源文件来说却并不一定。在本发明的一个实施例中，上述方法中，执行该深度学习作业所需的资源文件包括：本地资源文件和/或分布式文件系统中的资源文件；获取执行该深度学习作业所需的资源文件，将获取的资源文件推送到相应的执行角色上进行执行包括：从本地路径下读取本地资源文件，并推送到所有执行角色上；和/或，从分布式文件系统中的路径下读取分布式文件系统中的资源文件，并分块推送到各执行角色上。

本地资源文件通常是提交深度学习作业的用户以Python进行编写的代码，保存在本地机器上，在执行深度学习作业时需要每个执行角色执行代码中的内容，因此需要将本地资源文件推送到所有执行角色上。而分布式文件系统中的资源文件大多是用于深度学习训练的训练数据，一种方式是，根据分布式系统中的路径下的文件数量，采用轮询的方式，将数据推送到各执行角色(主要是Worker)上。需要注意的是，文件数量与申请的Worker的数量的关系，尽量避免文件数量小于Worker数量的情况出现。

由于各个执行角色间可能需要通信，例如Parameter Server作为参数服务器，需要接受Worker计算得到的参数。在单机版中，需要声明各执行角色的主机名并手动指定端口，但这并不能很好地应用到分布式集群中。因此在本发明的一个实施例中，上述方法中，将获取的资源文件推送到相应的执行角色上进行执行前还包括：通过AM构建包含各执行角色间的网络连接关系的集群配置文件，以使各执行角色依据该构建的集群配置文件中的各执行角色间的网络连接关系执行该深度学习作业。

集群配置文件也就是clusterSpec。具体地，通过AM构建包含各执行角色间的网络连接关系的集群配置文件包括：在为该深度学习作业的各执行角色分配资源后，通过AM接收各执行角色返回的主机名和端口号，根据各执行角色返回的主机名和端口号生成集群配置文件，将集群配置文件发送给各执行角色，以使各执行角色根据集群配置文件建立各执行角色间的连接。其中，各执行角色返回的端口号是各执行角色从其所在的计算设备上未被占用的端口号中随机选取的。

也就是说，各执行角色随机从其所在的计算设备上未被占用的端口号中选取一个可用的，从而避免了端口不可用的问题；但由于其他执行角色并不知道该执行角色的端口号和主机名，无法与其进行通信，因此各执行角色还要将主机名和端口号返回AM。这样AM根据各执行角色返回的主机名和端口号可以生成clusterSpec，包含了各执行角色间的网络连接关系。例如：

{PS:[node1:8080,node2:8080]Worker:[node3:9090,node4:9090]}

这意味着在节点1的8080端口上启动了Parameter Server，在节点2的8080端口上启动了Parameter Server；在节点3的9090端口上启动了Worker，在节点4的9090端口上启动了Worker。接下来可以由各执行角色拉取clusterSpec，然后建立相应的连接。

图2示出了根据本发明一个实施例的深度学习作业执行示意图。如图2所示，为该深度学习作业启动了AM主计算节点和四个计算节点(也就是执行角色)，各执行角色运行在container中，上报自己的主机名host和端口号port(例如，通过环境变量TF_CLUSTER_DEF进行传递)，由AM生成clusterSpec再由各执行角色进行拉取。各执行角色还可以一同通过环境变量TF_ROLE上报job_name、TF_INDEX上报task_index信息，而这些信息在现有技术中都需要用户手动进行指定。基于这些信息生成的clusterSpec被各执行角色获取到后就可以完成执行角色间的连接了。

在本发明的一个实施例中，上述方法还包括：通过AM获取各执行角色的执行状态信息，并提供用于查看各执行角色的执行状态信息的前端页面。

例如，图3示出了Yarn平台中查看各作业状态的前端页面，图中示出了一个运行中的深度学习作业和一个已完成的深度学习作业。点击图中第三个方框圈出的内容，可以看到第一个作业对应的AM获取到的执行角色的执行状态信息，如图4所示。在图4中最下方的URL对应于该作业的Tensorboard，Tensorboard是TensorFlow所提供的可视化的作业状态展示界面，如图5所示。通常情况下用户需要手动获取该URL来查看，在本实施例中主动拉取到该URL并添加到该前端页面中，方便用户的查看。

在本发明的一个实施例中，上述方法还包括：通过AM获取该深度学习作业的日志，响应于前端页面接收到的日志查看指令，将获取到的深度学习作业的日志进行展示。

例如eventlog和historylog都可以被获取到，如图3所示，点击图中第一个方框圈出的内容，可以查看该作业的日志；对于已完成的作业，同样支持日志的查看，方便回溯。

图6示出了根据本发明一个实施例的一种在分布式集群中调度深度学习作业的装置的结构示意图，如图6所示，在分布式集群中调度深度学习作业的装置600包括：

资源管理单元610，适于接收客户端依据规范提交的深度学习类型的作业，为该深度学习作业分配与该深度学习作业对应的应用程序管理者AM所需的资源；以及为该深度学习作业的各执行角色分配资源；以及启动AM，并通过AM启动各执行角色。其中，为用户提供各类型作业的提交规范。

RM(Resource Manager，资源管理器)负责与客户端进行通信，接收到深度学习类型的作业后，根据对作业中参数的解析，确定该作业申请的AM(Application Master)所需的资源，并与NM(Node Master，节点管理者)通信进行资源的分配，首先启动AM。AM再根据作业中参数的解析确定该作业需要多少个执行角色，例如包括多少个PS(Parameter Server，参数服务器)和多少个Worker(工人)，以及每个执行角色需要多少资源。

执行单元620，适于获取执行该深度学习作业所需的资源文件，将获取的资源文件推送到相应的执行角色上进行执行；以及将各执行角色返回的执行结果数据保存到分布式文件系统中的指定位置。

可见，图6所示的装置，通过各单元的相互配合，提供了包含深度学习类型在内的多种类型作业的提交规范，对以该规范提交的深度类型的作业，利用RM为作业分配分布式集群中的资源，使通过AM启动的各执行角色利用分配的资源和资源文件执行深度学习作业，并将执行结果数据保存到分布式文件系统中的指定位置。该技术方案将深度学习作业作为一种新的作业类型在分布式集群中进行调度，使得深度学习作业与Map Reduce、Spark等类型的作业可以利用同一资源调度器进行调度，且不需要对深度学习作业的执行代码做较大的调整，使得有进行深度学习训练需求的用户可以利用已有的分布式集群快速配置并执行深度学习作业，效率高，兼容性好。

在本发明的一个实施例中，上述装置中，各类型作业的提交规范包括如下的一种或多种：Map Reduce类型作业的提交规范；Spark类型作业的提交规范；深度学习类型作业的提交规范。

在本发明的一个实施例中，上述装置中，深度学习类型作业的提交规范包括如下中的一种或多种：作业名称；作业执行模式；对深度学习作业计算框架的执行命令；为该深度学习作业申请的资源；执行该深度学习作业所需的资源文件的路径；执行结果数据的保存路径；作业优先级。

在本发明的一个实施例中，上述装置中，为该深度学习作业申请的资源包括如下的一种或多种：为该深度学习作业申请的AM所需的资源；为该深度学习作业申请的各类型执行角色数量；为各执行角色申请的资源。

在本发明的一个实施例中，上述装置中，资源为分布式集群中的资源，包括如下的一种或多种；CPU资源；显卡资源；内存资源；磁盘资源。

在本发明的一个实施例中，上述装置中，执行该深度学习作业所需的资源文件包括：本地资源文件和/或分布式文件系统中的资源文件；执行单元620，适于从本地路径下读取本地资源文件，并推送到所有执行角色上；和/或，从分布式文件系统中的路径下读取分布式文件系统中的资源文件，并分块推送到各执行角色上。

在本发明的一个实施例中，上述装置中，资源管理单元610，还适于通过AM构建包含各执行角色间的网络连接关系的集群配置文件，以使各执行角色依据该构建的集群配置文件中的各执行角色间的网络连接关系执行该深度学习作业。

在本发明的一个实施例中，上述装置中，资源管理单元610，适于在为该深度学习作业的各执行角色分配资源后，通过AM接收各执行角色返回的主机名和端口号，根据各执行角色返回的主机名和端口号生成集群配置文件，将集群配置文件发送给各执行角色，以使各执行角色根据集群配置文件建立各执行角色间的连接。

在本发明的一个实施例中，上述装置中，各执行角色返回的端口号是各执行角色从其所在的计算设备上未被占用的端口号中随机选取的。

在本发明的一个实施例中，上述装置中，资源管理单元610，还适于通过AM获取各执行角色的执行状态信息，并提供用于查看各执行角色的执行状态信息的前端页面。

在本发明的一个实施例中，上述装置中，资源管理单元610，还适于通过AM获取该深度学习作业的日志，响应于前端页面接收到的日志查看指令，将获取到的深度学习作业的日志进行展示。

需要说明的是，上述各装置实施例的具体实施方式与前述对应方法实施例的具体实施方式相同，在此不再赘述，并且资源管理单元610也可以参照前述关于显卡资源调度的方法实施例示出的方式来实现显卡资源调度。

综上所述，本发明的技术方案，提供了包含深度学习类型在内的多种类型作业的提交规范，对以该规范提交的深度类型的作业，利用RM为作业分配分布式集群中的资源，使通过AM启动的各执行角色利用分配的资源和资源文件执行深度学习作业，并将执行结果数据保存到分布式文件系统中的指定位置。该技术方案将深度学习作业作为一种新的作业类型在分布式集群中进行调度，使得深度学习作业与Map Reduce、Spark等类型的作业可以利用同一资源调度器进行调度，且不需要对深度学习作业的执行代码做较大的调整，使得有进行深度学习训练需求的用户可以利用已有的分布式集群快速配置并执行深度学习作业，效率高，兼容性好。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的在分布式集群中调度深度学习作业的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的实施例公开了A1、一种在分布式集群中调度深度学习作业的方法，其中，该方法包括：

提供各类型作业的提交规范；

通过所述AM启动各执行角色；

A2、如A1所述的方法，其中，所述各类型作业的提交规范包括如下的一种或多种：

Map Reduce类型作业的提交规范；

Spark类型作业的提交规范；

深度学习类型作业的提交规范。

A3、如A2所述的方法，其中，所述深度学习类型作业的提交规范包括如下中的一种或多种：

作业名称；

作业执行模式；

对深度学习作业计算框架的执行命令；

为该深度学习作业申请的资源；

执行该深度学习作业所需的资源文件的路径；

执行结果数据的保存路径；

作业优先级。

A4、如A3所述的方法，其中，所述为该深度学习作业申请的资源包括如下的一种或多种：

为该深度学习作业申请的AM所需的资源；

为该深度学习作业申请的各类型执行角色数量；

为各执行角色申请的资源。

A5、如A4所述的方法，其中，所述资源为所述分布式集群中的资源，包括如下的一种或多种；

CPU资源；

显卡资源；

内存资源；

磁盘资源。

A6、如A3所述的方法，其中，所述执行该深度学习作业所需的资源文件包括：本地资源文件和/或分布式文件系统中的资源文件；

和/或，

A7、如A1所述的方法，其中，所述将获取的资源文件推送到相应的执行角色上进行执行前还包括：

A8、如A7所述的方法，其中，所述通过所述AM构建包含各执行角色间的网络连接关系的集群配置文件包括：

A9、如A5所述的方法，其中，各执行角色返回的端口号是各执行角色从其所在的计算设备上未被占用的端口号中随机选取的。

A10、如A1所述的方法，其中，该方法还包括：

A11、如A10所述的方法，其中，该方法还包括：

本发明的实施例还公开了B12、一种在分布式集群中调度深度学习作业的装置，其中，该装置包括：

B13、如B12所述的装置，其中，所述各类型作业的提交规范包括如下的一种或多种：

Map Reduce类型作业的提交规范；

Spark类型作业的提交规范；

深度学习类型作业的提交规范。

B14、如B13所述的装置，其中，所述深度学习类型作业的提交规范包括如下中的一种或多种：

作业名称；

作业执行模式；

对深度学习作业计算框架的执行命令；

为该深度学习作业申请的资源；

执行该深度学习作业所需的资源文件的路径；

执行结果数据的保存路径；

作业优先级。

B15、如B14所述的装置，其中，所述为该深度学习作业申请的资源包括如下的一种或多种：

为该深度学习作业申请的AM所需的资源；

为该深度学习作业申请的各类型执行角色数量；

为各执行角色申请的资源。

B16、如B15所述的装置，其中，所述资源为所述分布式集群中的资源，包括如下的一种或多种；

CPU资源；

显卡资源；

内存资源；

磁盘资源。

B17、如B14所述的装置，其中，所述执行该深度学习作业所需的资源文件包括：本地资源文件和/或分布式文件系统中的资源文件；

B18、如B12所述的装置，其中，所述资源管理单元，还适于通过所述AM构建包含各执行角色间的网络连接关系的集群配置文件，以使各执行角色依据该构建的集群配置文件中的各执行角色间的网络连接关系执行该深度学习作业。

B19、如B18所述的装置，其中，

所述资源管理单元，适于在为该深度学习作业的各执行角色分配资源后，通过所述AM接收各执行角色返回的主机名和端口号，根据各执行角色返回的主机名和端口号生成集群配置文件，将所述集群配置文件发送给各执行角色，以使各执行角色根据所述集群配置文件建立各执行角色间的连接。

B20、如B16所述的装置，其中，各执行角色返回的端口号是各执行角色从其所在的计算设备上未被占用的端口号中随机选取的。

B21、如B12所述的装置，其中，

所述资源管理单元，还适于通过所述AM获取各执行角色的执行状态信息，并提供用于查看各执行角色的执行状态信息的前端页面。

B22、如B21所述的装置，其中，

所述资源管理单元，还适于通过所述AM获取该深度学习作业的日志，响应于所述前端页面接收到的日志查看指令，将获取到的深度学习作业的日志进行展示。

Claims

1.一种在分布式集群中调度深度学习作业的方法，其中，该方法包括：

提供各类型作业的提交规范；

通过所述AM启动各执行角色；

2.如权利要求1所述的方法，其中，所述各类型作业的提交规范包括如下的一种或多种：

Map Reduce类型作业的提交规范；

Spark类型作业的提交规范；

深度学习类型作业的提交规范。

3.如权利要求2所述的方法，其中，所述深度学习类型作业的提交规范包括如下中的一种或多种：

作业名称；

作业执行模式；

对深度学习作业计算框架的执行命令；

为该深度学习作业申请的资源；

执行该深度学习作业所需的资源文件的路径；

执行结果数据的保存路径；

作业优先级。

4.如权利要求3所述的方法，其中，所述为该深度学习作业申请的资源包括如下的一种或多种：

为该深度学习作业申请的AM所需的资源；

为该深度学习作业申请的各类型执行角色数量；

为各执行角色申请的资源。

5.如权利要求4所述的方法，其中，所述资源为所述分布式集群中的资源，包括如下的一种或多种；

CPU资源；

显卡资源；

内存资源；

磁盘资源。

6.一种在分布式集群中调度深度学习作业的装置，其中，该装置包括：

7.如权利要求6所述的装置，其中，所述各类型作业的提交规范包括如下的一种或多种：

Map Reduce类型作业的提交规范；

Spark类型作业的提交规范；

深度学习类型作业的提交规范。

8.如权利要求7所述的装置，其中，所述深度学习类型作业的提交规范包括如下中的一种或多种：

作业名称；

作业执行模式；

对深度学习作业计算框架的执行命令；

为该深度学习作业申请的资源；

执行该深度学习作业所需的资源文件的路径；

执行结果数据的保存路径；

作业优先级。

9.如权利要求8所述的装置，其中，所述为该深度学习作业申请的资源包括如下的一种或多种：

为该深度学习作业申请的AM所需的资源；

为该深度学习作业申请的各类型执行角色数量；

为各执行角色申请的资源。

10.如权利要求9所述的装置，其中，所述资源为所述分布式集群中的资源，包括如下的一种或多种；

CPU资源；

显卡资源；

内存资源；

磁盘资源。