CN109034396B

CN109034396B - 用于处理分布式集群中的深度学习作业的方法和装置

Info

Publication number: CN109034396B
Application number: CN201810759278.5A
Authority: CN
Inventors: 杨金锋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2022-12-23
Anticipated expiration: 2038-07-11
Also published as: CN109034396A

Abstract

本申请实施例公开了用于处理分布式集群中的深度学习作业的方法和装置。该方法的一具体实施方式包括：基于租户提交的深度学习任务创建深度学习训练作业，深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业；判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求；若满足，将深度学习训练作业添加至租户所在租户组对应的作业队列中；按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果。该实施方式提升了作业处理效率。

Description

用于处理分布式集群中的深度学习作业的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及深度学习技术领域，尤其涉及用于处理分布式集群中的深度学习作业的方法和装置。

背景技术

机器学习，是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。深度学习是机器学习中的一个重要研究领域。深度学习是指多层神经网络上运用各种机器学习算法解决基于图像、文本等形式数据的问题的算法集合。

在深度学习技术中，通过海量的样本数据来训练规模较大的模型可以提升模型的性能。其中，需要通过大量的神经网络的运算来训练得出神经网络的参数。对于大规模的模型，需要训练的参数的数量较多，为了提升训练速度，可以采用分布式集群来执行训练任务。

发明内容

本申请实施例提出了用于处理分布式集群中的深度学习作业的方法和装置。

第一方面，本申请实施例提供了一种用于处理分布式集群中的深度学习作业的方法，包括：基于租户提交的深度学习任务创建深度学习训练作业，深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业；判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求；响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，将深度学习训练作业添加至租户所在租户组对应的作业队列中；按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果。

在一些实施例中，上述方法还包括：将待提交深度学习任务的租户划分为多个租户组，并为各租户组关联对应的集群。

在一些实施例中，上述判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求，包括：通过集群管理器适配器获取租户所在租户组关联的集群的可用资源信息；基于租户所在租户组关联的集群的可用资源信息判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。

在一些实施例中，在基于租户提交的深度学习任务创建深度学习训练作业之后、判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求之前，上述方法还包括：将深度学习训练作业同步至数据库中；以及上述响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，将深度学习训练作业添加至租户所在租户组对应的作业队列中，包括：响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，判断租户所在租户组对应的作业队列长度是否达到预设的最大队列长度；若租户所在租户组对应的作业队列长度未达到预设的最大队列长度，将深度学习训练作业添加至租户所在租户组对应的作业队列中。

在一些实施例中，上述方法还包括：响应于确定为租户所在租户组分配的资源中的当前资源余量不满足深度学习训练作业的资源需求，以预设的时间周期监测为租户所在租户组分配的资源中的资源余量，并在监测到为租户所在租户组分配的资源中的资源余量满足深度学习训练作业的资源需求，且租户所在租户组对应的作业队列长度未达到预设的最大队列长度时，将数据库中的深度学习训练作业添加至租户所在租户组对应的作业队列中。

第二方面，本申请实施例提供了一种用于处理分布式集群中的深度学习作业的装置，包括：创建单元，被配置成基于租户提交的深度学习任务创建深度学习训练作业，深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业；判断单元，被配置成判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求；添加单元，被配置成响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，将深度学习训练作业添加至租户所在租户组对应的作业队列中；提交单元，被配置成按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果。

在一些实施例中，上述装置还包括：划分单元，被配置成将待提交深度学习任务的租户划分为多个租户组，并为各租户组关联对应的集群。

在一些实施例中，上述判断单元进一步被配置成按照如下方式判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求：通过集群管理器适配器获取租户所在租户组关联的集群的可用资源信息；基于租户所在租户组关联的集群的可用资源信息判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。

在一些实施例中，上述装置还包括同步单元，被配置成：在基于租户提交的深度学习任务创建深度学习训练作业之后、判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求之前，将深度学习训练作业同步至数据库中；以及上述添加单元进一步被配置成：响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，判断租户所在租户组对应的作业队列长度是否达到预设的最大队列长度；若租户所在租户组对应的作业队列长度未达到预设的最大队列长度，将深度学习训练作业添加至租户所在租户组对应的作业队列中。

在一些实施例中，上述装置还包括监测单元，被配置成：响应于确定为租户所在租户组分配的资源中的当前资源余量不满足深度学习训练作业的资源需求，以预设的时间周期监测为租户所在租户组分配的资源中的资源余量，并在监测到为租户所在租户组分配的资源中的资源余量满足深度学习训练作业的资源需求，且租户所在租户组对应的作业队列长度未达到预设的最大队列长度时，将数据库中的深度学习训练作业添加至租户所在租户组对应的作业队列中。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面提供的用于处理分布式集群中的深度学习作业的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现第一方面提供的用于处理分布式集群中的深度学习作业的方法。

本申请上述实施例的用于处理分布式集群中的深度学习作业的方法和装置，通过基于租户提交的深度学习任务创建深度学习训练作业，深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业，随后判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求，之后响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，将深度学习训练作业添加至租户所在租户组对应的作业队列中，最后按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果，实现了灵活的训练作业粒度划分，能够以逻辑上的训练作业整体为粒度继续进行资源调度，能够提升作业处理效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于处理分布式集群中的深度学习作业的方法的一个实施例的流程图；

图3是图2所示用于处理分布式集群中的深度学习作业的方法的一个架构示意图；

图4是根据本申请的用于处理分布式集群中的深度学习作业的方法的另一个实施例的流程图；

图5是根据本申请的用于处理分布式集群中的深度学习作业的方法中深度学习作业的一个生命周期的示意图；

图6是本申请的用于处理分布式集群中的深度学习作业的装置的一个结构示意图；

图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于处理分布式集群中的深度学习作业的方法或用于处理分布式集群中的深度学习作业的装置的示例性系统架构100。

如图1所示，系统架构100可以包括多个租户、作业管理与调度系统、集群管理器、以及多个计算节点。其中，作业管理与调度系统与集群管理器通过网络连接，集群管理器与多个计算节点通过网络连接。

租户可以是使用分布式集群的资源进行深度学习计算的用户。租户可以通过终端设备向作业管理与调度系统提交作业。在实践中，用户在获得使用深度学习的分布式集群的计算资源的权限之后，可以通过深度学习计算平台提交深度学习作业任务。

作业管理与调度系统可以部署于深度学习的服务器集群中的服务器上，用于管理和调度租户提交的作业的执行。作业管理与调度系统可以接收租户通过终端设备提交的作业，根据作业管理调度策略确定作业的执行顺序，为作业分配计算资源，等等。

集群管理器也可以部署于深度学习的服务器集群中的服务器上，用于管理分布式集群中的多个计算节点。集群管理器可以与作业管理与调度系统连接，从作业管理域调度系统获取深度学习作业，并按照作业管理与调度系统分配的资源将深度学习作业发送至对应的节点执行计算操作。

集群中的计算节点可以是深度学习的服务器集群中的物理服务器，也可以是部署于物理服务器上的虚拟机或容器。计算节点可以执行分配至其上的深度学习作业，例如可以执行深度神经网络的参数计算操作。

需要说明的是，本申请实施例所提供的用于处理分布式集群中的深度学习作业的方法可以由作业管理与调度系统执行，相应地，用于处理分布式集群中的深度学习作业的装置可以设置于作业管理与调度系统中。

需要说明的是，作业管理与调度系统可以由服务器实现，这里的服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的租户、作业管理与调度系统、集群管理器、计算节点的数目仅仅是示意性的。根据实现需要，可以具有任意数目的租户、作业管理与调度系统、集群管理器、计算节点。

继续参考图2，其示出了根据本申请的用于处理分布式集群中的深度学习作业的方法的一个实施例的流程200。该用于处理分布式集群中的深度学习作业的方法，包括以下步骤：

步骤201，基于租户提交的深度学习任务创建深度学习训练作业。

在本实施例中，用于处理分布式集群中的深度学习作业的方法的执行主体可以获取租户提交的深度学习任务，并创建对应的深度学习训练作业。其中，深度学习训练作业可以包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业。在这里，深度学习运算进程的分布式训练作业可以是深度学习运算的进程所执行的训练作业，参数服务器的分布式训练作业可以是从参数服务器同步与深度学习运算进程的分布式训练作业相关的参数、以及将深度学习运算进程的分布式训练作业相关的参数同步至参数服务器的作业。

深度学习训练作业一般是基于深度神经网络的。由于深度神经网络中包含多个层，每层包含多个神经元，且神经网络的训练过程需要对大量的样本数据进行处理，因此，深度神经网络涉及大量的计算。在本实施例中，可以采用分布式集群来并行处理深度学习的训练作业，具体可以采用模型并行或数据并行的方式来处理深度学习的训练作业。在模型并行的方式中，可以将深度神经网络拆分为多个模块，将集群中的计算节点划分为对应数量的节点组，每个节点组可以负责其中一个模块的深度学习作业处理。在数据并行的方式中，可以将样本数据拆分为多个数据组，每个节点上运行完整的深度神经网络，每个节点负责一个数据组的训练任务。

在本实施例中，租户可以通过深度学习平台提交深度学习任务，例如提交训练基于深度神经网络的目标识别模型的任务，该任务中可以包含训练的样本数据集，还可以包括初始的模型参数。上述用于处理分布式集群中的深度学习作业的方法的执行主体可以接收租户创建的任务，并将该任务按照上述模型并行方式或数据并行方式进行划分，得到多个子任务，每个子任务可以包含一部分样本数据的训练或者一部分神经网络结构的运算。每个子任务可以包括执行相应的深度学习运算进程的分布式训练作业以及用于传递该子任务相关的参数的参数服务器的分布式训练作业。这样，可以基于子任务来创建深度学习训练作业，所创建的深度学习训练作业可以包含多个深度学习运算进程的分布式训练作业和相关的多个参数服务器的训练作业。

步骤202，判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。

在本实施例中，上述执行主体可以预先为每个租户组分配计算资源。每个租户组可以包括至少一个租户。可以获取为该租户组分配的资源中的当前资源余量，以及步骤201创建的深度学习训练作业所需要的资源量。接着判断为提交深度学习任务的租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。具体地，如果为该租户组分配的资源中的当前资源余量不小于步骤201创建的深度学习训练作业所需要的资源量，则可以确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，否则可以确定为租户所在租户组分配的资源中的当前资源余量不满足深度学习训练作业的资源需求。

步骤203，响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，将深度学习训练作业添加至租户所在租户组对应的作业队列中。

如果步骤202的判断结果为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，则可以将深度学习训练作业添加至该租户所在租户组对应的作业队列中，等待处理。

在本实施例中，可以为每个租户组创建一个作业队列，并按照队列中的作业的优先级进行处理。优先级较高的作业可以优先被提交至集群中的计算节点进行处理。同等优先级下，可以按照作业被添加至作业队列中的时间，以先入先出的原则顺序提交至集群中的计算节点。作业的优先级可以在被添加至作业队列时配置，可以根据对应租户的优先级配置，或者可以按照作业的复杂度来配置。

步骤204，按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果。

在本实施例中，上述执行主体与集群管理器之间可以通过集群管理器适配器来实现消息传输。集群管理器可以是用于管理集群中的计算节点的系统，具体可以用于分发作业，监测计算节点的作业进程和资源状况。资源管理器可以采用支持kubernetes、mesos、yarn等资源管理平台的架构。资源管理器适配器可以提供对这些不同资源管理系统架构的统一入口，提供调用不同资源管理器的中的功能函数的统一应用程序接口。这样，可以屏蔽不同资源管理器的差异，使得本实施例的用于处理分布式集群中的深度学习作业的方法可以适用于各种资源管理器架构。

集群管理器适配器可以根据租户组关联的集群管理器来调用对应的集群管理器接口，将作业队列中的作业发送至集群管理器所管理的集群中。集群管理器可以对接收到的作业进行资源分配，将作业分发至其所管理的分布式计算节点来执行。在执行完毕后可以将包含深度学习模型参数的执行结果存储至存储系统中，例如可以存储至对应的分布式文件系统。

本申请上述实施例的用于处理分布式集群中的深度学习作业的方法，通过基于租户提交的深度学习任务创建深度学习训练作业，深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业；判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求；响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，将深度学习训练作业添加至租户所在租户组对应的作业队列中；按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果，实现了以逻辑上的训练作业整体为粒度继续进行资源调度，能够灵活支持多种作业调度策略，提升作业处理效率。

请参考图3，其示出了图2所示用于处理分布式集群中的深度学习作业的方法的一个架构示意图。

如图3所示，网关可以将租户提交的作业转发至作业管理与调度系统中，作业管理与调度系统可以对将根据租户提交的任务创建的作业利用资源分配器进行资源分配，判断租户所在租户组的剩余资源是否满足当前提交的作业的资源需求，若满足，可以将作业添加至作业队列，然后按照作业队列中作业的优先级将作业通过作业提交器提交至集群管理器适配器。集群管理器适配器可以与集群管理器连接，将作业发送至集群管理器处理。集群管理器适配器还可以从集群管理器获取集群的资源状况，利用资源同步器同步资源信息，并依据资源信息进行资源管理，进而判断是否满足当前创建的作业的资源需求。

在本实施例的一些可选的实现方式中，上述用于处理分布式集群中的深度学习作业的方法还可以包括：将待提交深度学习任务的租户划分为多个租户组，并为各租户组关联对应的集群的步骤。可以在基于租户提交的深度学习任务创建深度学习训练作业之前执行该步骤，或者可以在基于租户提交的深度学习任务创建深度学习训练作业之后、判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求之前执行该步骤。

具体来说，可以基于集群的命名空间(namespace)将所有租户划分为多个租户组，每个租户组对应一个集群的namespace，每个租户组对应的集群具有一定的资源。不同的集群对应不同的namespace，不同namespace对应的集群资源是相互隔离的。在这里，资源可以例如包括CPU、GPU、内存等。通过namespace划分租户组，则每个namespace对应的集群即为对应租户组关联的集群。在后续该租户组的租户提交深度学习任务时，创建的作业可以被分配至该租户组关联的集群来处理。

进一步地，上述判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求的步骤202，可以包括：通过集群管理器适配器获取租户所在租户组关联的集群的可用资源信息；基于租户所在租户组关联的集群的可用资源信息判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。即在对租户进行分组并为租户组关联对应的集群以为租户组分配计算资源之后，可以基于当前提交深度学习任务的租户所在租户组获取其关联的集群的可用资源信息，例如图3中，通过资源管理器适配器获取对应集群中的可用资源量，并判断所获取的可用资源量是否满足当前依据提交的深度学习任务创建的深度学习训练作业的资源需求。通过对租户进行分组并依据租户组来分配关联的集群，可以实现不同租户组之间资源的隔离，不同租户组之间的深度学习训练作业可以并行处理，互不影响，有利于进一步提升作业处理效率。

如图3所示，网关还可以将资源分配请求转发至作业管理与调度系统中，这样，作业管理与调度系统可以根据资源分配请求中具体的资源变更请求来重新分配资源池中的资源，例如可以为预设时间段内资源需求量大的租户组增加资源，减少预设时间段内资源需求量较小租户组的资源。这样，实现了资源的灵活分配，有利于提升资源利用率。

继续参考图4，其示出了根据本申请的用于处理分布式集群中的深度学习作业的方法的另一个实施例的流程图。如图4所示，本实施例的用于处理分布式集群中的深度学习作业的方法的流程400，可以包括如下步骤：

步骤401，基于租户提交的深度学习任务创建深度学习训练作业。

在本实施例中，用于处理分布式集群中的深度学习作业的方法的执行主体可以获取租户提交的深度学习任务，并创建对应的深度学习训练作业。其中，深度学习训练作业可以包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业。

步骤402，将深度学习训练作业同步至数据库中。

随后，可以将创建的深度学习训练作业同步至数据库中来做数据持久化，即将深度学习训练作业持久保存至数据库中。以便在租户组的资源余量不满足需求量时保证所创建的深度学习作业相关的数据不会丢失，可以从数据库中直接提取，不需要租户重复提交深度学习任务。

步骤403，判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。

在将深度学习训练作业成功同步至数据库中之后，可以获取为该租户组分配的资源中的当前资源余量，以及步骤401创建的深度学习训练作业所需要的资源量。判断为提交深度学习任务的租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。

步骤404，响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，判断租户所在租户组对应的作业队列长度是否达到预设的最大队列长度。

接着，如果为提交深度学习任务的租户所在租户组分配的资源的当前资源余量满足上述步骤401创建的深度学习训练作业的资源需求，可以进入内存中的作业队列等待调度。在此之前，可以租户所在租户组对应的作业队列的长度是否达到预设的最大队列长度。

在本实施例中，每个租户组对应一个作业队列，每个租户组的作业队列基于为该租户组分配的集群资源来处理。在该租户组中的租户提交深度学习任务并由上述执行主体创建相应的深度学习训练作业之后，可以首先判断该租户组对应的作业队列的长度是否已经达到预设的最大队列长度。在这里，预设的最大队列长度即队列中的作业的最大数量，可以是根据经验设定的，也可以是根据为租户组分配的资源总量预先设定的。

步骤405，若租户所在租户组对应的作业队列长度未达到预设的最大队列长度，将深度学习训练作业添加至租户所在租户组对应的作业队列中。

如果提交了深度学习任务的租户所在租户组对应的作业队列未达到预设的最大队列长度，可以将步骤401创建的深度学习训练作业按照优先级添加至作业队列中。例如，如果创建的深度学习训练作业的优先级为最低级，则可以将该深度学习训练作业添加至队列末端；如果创建的深度学习训练作业的优先级为最高级，则可以将深度学习训练作业添加至队列中已有最高优先级的作业之后。这样，对于不同优先级的作业，可以按照优先级来确定作业的执行顺序，对于相同优先级的作业，可以按照作业的创建时间先后依次执行。保证优先级较高、创建时间较早的作业被优先处理。

可选地，如果租户所在租户组对应的作业队列长度达到预设的最大队列长度，则创建的深度学习训练作业可以停留在数据库中等待调度。

在本实施例的一些可选的实现方式中，用于处理分布式集群中的深度学习作业的方法流程400还可以包括：步骤406，响应于确定为租户所在租户组分配的资源中的当前资源余量不满足深度学习训练作业的资源需求，以预设的时间周期监测为租户所在租户组分配的资源中的资源余量，并在监测到为租户所在租户组分配的资源中的资源余量满足深度学习训练作业的资源需求，且租户所在租户组对应的作业队列长度未达到预设的最大队列长度时，将数据库中的深度学习训练作业添加至租户所在租户组对应的作业队列中。

具体来说，如果步骤403的判断结果为租户所在租户组分配的资源中的当前资源余量不满足深度学习训练作业的资源需求，则可以周期性地通过集群管理器适配器获取集群的资源信息，每次获取到集群的资源信息后可以判断为租户所在租户组分配的资源中的当前资源余量不满足深度学习训练作业的资源需求，如果不满足则继续周期性地监测，如果满足，可以进一步判断租户所在租户组对应的作业队列长度是否达到预设的最大队列长度，如果达到预设的最大队列长度，则在数据库中等待队列中的作业被提交至集群中处理后作业队列的长度减小，这时可以将作业添加至队列中。如果为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求且租户所在租户组对应的作业队列长度未达到预设的最大队列长度，则可以直接将深度学习训练作业添加至该租户组对应的作业队列中。

步骤407，按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果。

可以通过集群管理器适配器提供的统一接口将作业队列中的作业提交至对应的集群管理器。集群管理器接收到提交的作业后将作业分发至对应的集群中的计算节点进行计算。

上述步骤401、步骤403、步骤407分别与前述实施例的步骤201、步骤202、步骤204一致，前述对步骤201、步骤202、步骤204的描述也分别适用于步骤401、步骤403、步骤407，此处不再赘述。

在本实施例的一些可选的实现方式中，在步骤403之前，还可以将待提交深度学习任务的租户划分为多个租户组，并为各租户组关联对应的集群，具体可以基于集群的namespace划分租户组，每个租户组包含至少一个租户，并可以将租户组与集群关联。这样，租户组所关联的集群的计算资源即是为租户组分配的资源。进一步地，在执行上述步骤403时，可以通过集群管理器适配器获取租户所在租户组关联的集群的可用资源信息；基于租户所在租户组关联的集群的可用资源信息判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。由此实现了不同租户组之间资源的隔离，不同租户组之间的深度学习训练作业互不影响，有利于进一步提升作业处理效率。

请参考图5，其示出了根据本申请的用于处理分布式集群中的深度学习作业的方法中深度学习作业的一个生命周期的示意图，也即示出了图4所示用于处理分布式集群中的深度学习作业的方法中深度学习作业的处理流程的示意图。

如图5所示，用户提交深度学习作业任务、创建对应的深度学习训练作业之后，深度学习作业会请求进入Queue状态(队列状态)，在此之前需要先将作业同步至数据库中进入Pending状态(等待状态)，如果作业请求进入Queue状态时，队列已满或者集群的容量不足(或者说集群的资源不足)，则可以在数据库中保持Pending状态。当队列未满，且集群资源充足时，深度学习训练作业可以被添加至对应的队列中，由Pending状态进入Queue状态。接着，可以从队列中找到位于队列头的作业提交到集群中，这时，队列头的作业状态变更为Submit状态(提交状态)。之后进入Creating状态(创建状态)，成功启动深度学习作业中的参数服务器的分布式训练作业和深度学习运算进程的分布式训练作业之后，进入Running状态(运行状态)，进行具体的计算。如果无法成功启动深度学习训练作业中的深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业，则可以进入Failed状态(失败状态)，表示创建失败。在计算完成之后，根据深度学习训练的运行结果可以得到三种状态，Failed状态表示作业执行失败，Succeed状态(成功状态)表示作业执行成功，Timeout状态(超时状态)表示作业执行超时。

在深度学习作业处于Queue、Submit、Creating、Running、Failed、Succeed、Timeout状态下，租户都可以删除该深度学习作业，这时深度学习作业进入ToDelete状态(待删除状态)可以异步删除作业，删除成功后转入Deleted状态(已删除状态)。在Pending状态下，如果租户删除了数据库中的作业，则深度学习作业直接进入Deleted状态。

从图4和图5可以看出，本实施例的用于处理分布式集群中的深度学习作业的方法通过将深度学习训练作业持久化至数据库中，基于租户组的最大队列长度结合租户组的集群资源来调度作业，能够保证队列操作的高效性。并且通过在一些可选的实现方式中周期性地监测租户组的资源余量以及租户组对应的队列长度，还能避免深度学习作业的数据丢失，保证作业队列具有良好的故障容忍度。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种用于处理分布式集群中的深度学习作业的装置的一个实施例，该装置实施例与图2和图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于处理分布式集群中的深度学习作业的装置600包括：创建单元601、判断单元602、添加单元603以及提交单元604。其中，创建单元601可以被配置成基于租户提交的深度学习任务创建深度学习训练作业，深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业；判断单元602可以被配置成判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求；添加单元603可以被配置成响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，将深度学习训练作业添加至租户所在租户组对应的作业队列中；提交单元604可以被配置成按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果。

在一些实施例中，上述装置600还可以包括：划分单元，被配置成将待提交深度学习任务的租户划分为多个租户组，并为各租户组关联对应的集群。

在一些实施例中，上述判断单元602可以进一步被配置成按照如下方式判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求：通过集群管理器适配器获取租户所在租户组关联的集群的可用资源信息；基于租户所在租户组关联的集群的可用资源信息判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。

在一些实施例中，上述装置600还可以包括同步单元，被配置成：在基于租户提交的深度学习任务创建深度学习训练作业之后、判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求之前，将深度学习训练作业同步至数据库中；以及上述添加单元603可以进一步被配置成：响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，判断租户所在租户组对应的作业队列长度是否达到预设的最大队列长度；若租户所在租户组对应的作业队列长度未达到预设的最大队列长度，将深度学习训练作业添加至租户所在租户组对应的作业队列中。

在一些实施例中，上述装置600还可以包括监测单元，被配置成：响应于确定为租户所在租户组分配的资源中的当前资源余量不满足深度学习训练作业的资源需求，以预设的时间周期监测为租户所在租户组分配的资源中的资源余量，并在监测到为租户所在租户组分配的资源中的资源余量满足深度学习训练作业的资源需求，且租户所在租户组对应的作业队列长度未达到预设的最大队列长度时，将数据库中的深度学习训练作业添加至租户所在租户组对应的作业队列中。

应当理解，装置600中记载的诸单元与参考图2和图4描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置600及其中包含的单元，在此不再赘述。

本申请上述实施例的用于处理分布式集群中的深度学习作业的装置600，通过创建单元基于租户提交的深度学习任务创建深度学习训练作业，深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业，判断单元判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求，添加单元响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，将深度学习训练作业添加至租户所在租户组对应的作业队列中，提交单元按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果，实现了以逻辑上的训练作业整体为粒度继续进行资源调度，能够灵活支持多种作业调度策略，提升作业处理效率。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括创建单元、判断单元、添加单元和提交单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，创建单元还可以被描述为“基于租户提交的深度学习任务创建深度学习训练作业的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：基于租户提交的深度学习任务创建深度学习训练作业，深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业；判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求；响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求，将深度学习训练作业添加至租户所在租户组对应的作业队列中；按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业，并存储运行结果。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于处理分布式集群中的深度学习作业的方法，包括：

基于租户提交的深度学习任务创建深度学习训练作业，所述深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业；

判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求，其中，每个租户组具有对应的计算资源，且不同租户组对应的计算资源相互隔离；

响应于确定为所述租户所在租户组分配的资源中的当前资源余量满足所述深度学习训练作业的资源需求，将所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中；

按照所述作业队列中的作业的优先级将所述深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供所述集群管理器基于所管理的分布式计算节点执行所述深度学习训练作业，并存储运行结果，其中，所述集群管理器用于分发作业，计算节点用于执行深度学习作业，所述集群管理器适配器用于提供针对不同集群管理器的统一入口以屏蔽不同集群管理器之间的差异；

其中，所述基于租户提交的深度学习任务创建深度学习训练作业，包括：将所述深度学习任务按照深度神经网络所包括的模块或样本数据划分成多个子任务；创建每个子任务对应的深度学习训练作业，且创建的深度学习训练作业包括逻辑上的训练作业整体对应的子任务。

2.根据权利要求1所述的方法，其中，所述方法还包括：

将待提交深度学习任务的租户划分为多个租户组，并为各租户组关联对应的集群。

3.根据权利要求2所述的方法，其中，所述判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求，包括：

通过所述集群管理器适配器获取所述租户所在租户组关联的集群的可用资源信息；

基于所述租户所在租户组关联的集群的可用资源信息判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求。

4.根据权利要求1-3任一项所述的方法，其中，在基于租户提交的深度学习任务创建深度学习训练作业之后、判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求之前，所述方法还包括：

将所述深度学习训练作业同步至数据库中；以及

所述响应于确定为所述租户所在租户组分配的资源中的当前资源余量满足所述深度学习训练作业的资源需求，将所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中，包括：

响应于确定为所述租户所在租户组分配的资源中的当前资源余量满足所述深度学习训练作业的资源需求，判断所述租户所在租户组对应的作业队列长度是否达到预设的最大队列长度；

若所述租户所在租户组对应的作业队列长度未达到预设的最大队列长度，将所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中。

5.根据权利要求4所述的方法，其中，所述方法还包括：

响应于确定为所述租户所在租户组分配的资源中的当前资源余量不满足所述深度学习训练作业的资源需求，以预设的时间周期监测为所述租户所在租户组分配的资源中的资源余量，并在监测到为所述租户所在租户组分配的资源中的资源余量满足所述深度学习训练作业的资源需求，且所述租户所在租户组对应的作业队列长度未达到预设的最大队列长度时，将数据库中的所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中。

6.一种用于处理分布式集群中的深度学习作业的装置，包括：

创建单元，被配置成基于租户提交的深度学习任务创建深度学习训练作业，所述深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业；

判断单元，被配置成判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求，其中，每个租户组具有对应的计算资源，且不同租户组对应的计算资源相互隔离；

添加单元，被配置成响应于确定为所述租户所在租户组分配的资源中的当前资源余量满足所述深度学习训练作业的资源需求，将所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中；

提交单元，被配置成按照所述作业队列中的作业的优先级将所述深度学习训练作业通过集群管理器适配器提交至对应的集群管理器，以供所述集群管理器基于所管理的分布式计算节点执行所述深度学习训练作业，并存储运行结果，其中，所述集群管理器用于分发作业，计算节点用于执行深度学习作业，所述集群管理器适配器用于提供针对不同集群管理器的统一入口以屏蔽不同集群管理器之间的差异；

其中，所述创建单元进一步被配置成：将所述深度学习任务按照深度神经网络所包括的模块或样本数据划分成多个子任务；创建每个子任务对应的深度学习训练作业，且创建的深度学习训练作业包括逻辑上的训练作业整体对应的子任务。

7.根据权利要求6所述的装置，其中，所述装置还包括：

划分单元，被配置成将待提交深度学习任务的租户划分为多个租户组，并为各租户组关联对应的集群。

8.根据权利要求7所述的装置，其中，所述判断单元进一步被配置成按照如下方式判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求：

9.根据权利要求6-8任一项所述的装置，其中，所述装置还包括同步单元，被配置成：

在基于租户提交的深度学习任务创建深度学习训练作业之后、判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求之前，将所述深度学习训练作业同步至数据库中；以及

所述添加单元进一步被配置成：

10.根据权利要求9所述的装置，其中，所述装置还包括监测单元，被配置成：

11.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。