CN109992422A

CN109992422A - 一种面向gpu资源的任务调度方法、装置和系统

Info

Publication number: CN109992422A
Application number: CN201910289968.3A
Authority: CN
Inventors: 许欢庆; 牟永奇; 李洁; 汤劲武
Original assignee: Beijing Longjing Science And Technology Co Ltd
Current assignee: Beijing Longjing Science And Technology Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-07-09

Abstract

本申请实施例公开了一种面向GPU资源的任务调度方法，当需要利用服务器集群中的显存资源执行任务(例如第一目标任务)时，根据第一任务请求中包括的第一目标任务的属性信息和任务资源使用配置表计算第一目标任务所需的显存资源大小，然后，根据服务器集群的可用资源状态表，确定满足第一目标任务所需的显存资源大小的GPU，以便任务执行模块利用目标GPU执行第一目标任务。本方案接收到任务请求时，会进行任务的显存资源估算，以显存资源为最小单位选取可用的GPU来完成任务，细化资源管理和任务调度的粒度。若一个GPU中显存资源符合任务要求，便可能实现一个GPU并行执行多个任务的目的，提高了GPU中显存资源的利用率。

Description

一种面向GPU资源的任务调度方法、装置和系统

技术领域

本申请涉及计算机领域，特别是涉及一种面向GPU资源的任务调度方法、装置和系统。

背景技术

近年来，人工智能技术得以快速发展和成熟，许多行业领域纷纷引入相关技术提升生产效率，提高竞争力。例如，智能零售行业引入图像智能识别技术实现无人销售、销售数据智能统计预测等。图像处理、语音识别、机器翻译等相关深度学习任务通常以服务器集群上的图形处理器(Graphic Processing Unit，简称GPU)作为主要的计算资源。服务器集群的GPU资源管理和任务调度是业务系统的重要环节。

传统面向GPU资源的任务调度方式是当需要执行用户输入的任务时，为每个任务分配一个GPU，即传统面向GPU资源的任务调度方式中都是以单个GPU为最小单元进行管理、调度的。

然而，服务器集群中单台工作服务器配置多个GPU，每个GPU具有一定数量的显存资源，深度学习任务需要占用GPU中的显存资源。由于单个任务往往不需要使用整个GPU的显存资源，因此，传统方法容易造成GPU中显存资源的浪费，GPU中显存资源的利用率低。

发明内容

为了解决上述技术问题，本申请提供了一种面向GPU资源的任务调度方法、装置和系统，可以实现一个GPU并行执行多个任务的目的，提高了GPU中显存资源的利用率。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种面向GPU资源的任务调度方法，应用于面向GPU资源的任务调度系统，所述方法包括：

接收第一任务请求，所述第一任务请求中包括第一目标任务的属性信息；

根据所述第一目标任务的属性信息和任务资源使用配置表计算所述第一目标任务所需的显存资源大小；

根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标图形处理器GPU，以便任务执行模块利用所述目标GPU执行所述第一目标任务。

可选的，在所述任务执行模块利用所述目标GPU执行所述第一目标任务时，所述方法还包括：

接收第二任务请求，所述第二任务请求中包括第二目标任务的属性信息；

根据所述第二目标任务的属性信息和任务资源使用配置表计算所述第二目标任务所需的显存资源大小；

若根据所述可用资源状态表，确定所述目标GPU的剩余显存资源满足所述第二目标任务所需的显存资源大小，将所述目标GPU作为用于执行所述第二目标任务的GPU，以便所述任务执行模块利用所述目标GPU执行所述第二目标任务。

可选的，所述根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标图形处理器GPU，包括：

根据服务器集群的可用资源状态表，按照预设原则选择满足所述第一目标任务所需的显存资源大小的目标GPU，所述目标GPU位于目标工作服务器上。

可选的，所述预设原则包括：服务器集群中各个工作服务器的任务负载平衡、工作服务器中各个GPU的显存占用率平衡和服务器集群剩余显存资源对任务的满足程度。

可选的，所述方法还包括：

对所述服务器集群中各个工作服务器的第一心跳包进行心跳监听，根据所述第一心跳包维护所述可用资源状态表。

可选的，所述根据所述第一心跳包维护所述可用资源状态表，包括：

所述可用资源状态表中标识第一工作服务器为可用状态，若在预设心跳周期内未监听到来自所述第一工作服务器的第一心跳包，更改所述可用资源状态表，更改后的可用资源状态表标识所述第一工作服务器为不可用状态；

所述根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标图形处理器GPU，包括：

根据所述更改后的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标GPU。

可选的，所述任务执行模块利用所述目标GPU执行所述第一目标任务时，所述方法还包括：

对所述任务执行模块的第二心跳包进行监听，根据所述第二心跳包更新所述第一目标任务的执行状态。

可选的，所述方法还包括：

若在预设时间段内未接收到所述第二心跳包，回收所述任务执行模块执行所述第一目标任务所使用的显存资源。

第二方面，本申请实施例还提供一种面向GPU资源的任务调度装置，所述装置包括：

第一接收单元，用于接收第一任务请求，所述第一任务请求中包括第一目标任务的属性信息；

第一计算单元，用于根据所述第一目标任务的属性信息和任务资源使用配置表计算所述第一目标任务所需的显存资源大小；

第一确定单元，用于根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标图形处理器GPU，以便任务执行模块利用所述目标GPU执行所述第一目标任务。

可选的，所述装置还包括：

第二接收单元，用于接收第二任务请求，所述第二任务请求中包括第二目标任务的属性信息；

第二计算单元，用于根据所述第二目标任务的属性信息和任务资源使用配置表计算所述第二目标任务所需的显存资源大小；

第二确定单元，用于若根据所述可用资源状态表，确定所述目标GPU的剩余显存资源满足所述第二目标任务所需的显存资源大小，将所述目标GPU作为用于执行所述第二目标任务的GPU，以便所述任务执行模块利用所述目标GPU执行所述第二目标任务。

可选的，所述第一确定单元，用于：

可选的，所述装置还包括：

第一监听单元，用于对所述服务器集群中各个工作服务器的第一心跳包进行心跳监听，根据所述第一心跳包维护所述可用资源状态表。

可选的，所述第一监听单元，用于：

所述第一确定单元，用于：

可选的，所述装置还包括：

第二监听单元，用于对所述任务执行模块的第二心跳包进行监听，根据所述第二心跳包更新所述第一目标任务的执行状态。

可选的，所述装置还包括：

回收单元，用于若在预设时间段内未接收到所述第二心跳包，回收所述任务执行模块执行所述第一目标任务所使用的显存资源。

第三方面，本申请实施例还提供一种面向GPU资源的任务调度系统，所述系统包括：

任务管理子系统，用于接收第一任务请求，所述第一任务请求中包括第一目标任务的属性信息；根据所述第一目标任务的属性信息和任务资源使用配置表计算所述第一目标任务所需的显存资源大小；

资源管理子系统，用于接收所述任务管理子系统发送的资源请求，所述资源请求包括所述第一目标任务所需的显存资源大小；根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标图形处理器GPU，以便任务执行模块利用所述目标GPU执行所述第一目标任务。

由上述技术方案可以看出，当需要利用服务器集群中的显存资源执行任务(例如第一目标任务)时，任务调度系统接收第一任务请求，第一任务请求中包括第一目标任务的属性信息。任务调度系统根据第一目标任务的属性信息和任务资源使用配置表计算第一目标任务所需的显存资源大小，然后，根据服务器集群的可用资源状态表，确定满足第一目标任务所需的显存资源大小的目标图形处理器GPU，以便任务执行模块利用目标GPU执行第一目标任务。与传统方式相比，本方案每次接收到任务请求时，可以进行任务的显存资源估算，以显存资源为最小单位选取可用的GPU来完成任务，细化了资源管理和任务调度的粒度。这样，若一个GPU在执行一个任务时，该GPU中还有足够的显存资源执行其他任务，便可能实现一个GPU并行执行多个任务的目的，提高了GPU中显存资源的利用率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种面向GPU资源的任务调度方法的流程图；

图2为本申请实施例提供的一种面向GPU资源的任务调度系统的结构图；

图3为本申请实施例提供的一种面向GPU资源的任务调度装置的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

传统的以单个GPU为最小单元进行管理、调度的方法中，由于服务器中包括的显存资源比较大，一般情况下，单个GPU具有16G大小的显存资源。然而，各个任务对显存资源的需求会远小于16G。如果将每个任务分配一个对应的GPU，只是利用GPU中一小部分显存资源执行任务，其余显存资源被闲置，从而造成GPU中显存资源的浪费，GPU中显存资源的利用率低。

为了解决上述技术问题，本申请实施例提供一种面向GPU资源的任务调度方法，该方法以显存资源为最小单位选取可用的GPU来完成任务。具体的，当需要利用服务器集群中的显存资源执行任务(例如第一目标任务)时，任务调度系统接收第一任务请求，第一任务请求中包括第一目标任务的属性信息。任务调度系统根据第一目标任务的属性信息和任务资源使用配置表计算第一目标任务所需的显存资源大小，然后，根据服务器集群的可用资源状态表，确定满足第一目标任务所需的显存资源大小的目标图形处理器GPU，以便任务执行模块利用目标GPU执行第一目标任务。与传统方式相比，本方案每次接收到任务请求时，可以进行任务的显存资源估算，以显存资源为最小单位选取可用的GPU来完成任务。这样，若一个GPU在执行一个任务时，该GPU中还有足够的显存资源执行其他任务，便可能实现一个GPU并行执行多个任务的目的，提高了GPU中显存资源的利用率。

接下来，将结合附图对本申请实施例提供的面向GPU资源的任务调度方法进行详细介绍。

参见图1，图1示出了一种面向GPU资源的任务调度方法的流程图，该方法可以应用于面向GPU资源的任务调度系统，所述系统包括任务管理子系统和资源管理子系统，所述方法包括：

S101、接收第一任务请求。

其中，所述第一任务请求中包括第一目标任务的属性信息。

S102、根据所述第一目标任务的属性信息和任务资源使用配置表计算所述第一目标任务所需的显存资源大小。

根据第一目标任务的属性信息，查询任务资源使用配置表，从而计算出第一目标任务所需的显存资源大小。

任务资源使用配置表中通常记录了各个任务的属性信息、完成任务所需要的GPU显存资源上限、计算任务所需显存资源大小的计算逻辑公式。

其中，S101-S102是由任务管理子系统执行的。在执行S101之前，启动任务管理子系统，并等待接收任务请求，当存在用户请求执行第一目标任务时，任务管理子系统接收第一任务请求。

S103、根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标图形处理器GPU，以便任务执行模块利用所述目标GPU执行所述第一目标任务。

S103是由资源管理子系统执行的，任务管理子系统计算得到第一目标任务所需的显存资源大小后，可以向资源管理子系统发送资源请求，资源请求中包括第一目标任务所需的显存资源大小，显存资源大小通常以G为单位。这样，任务管理子系统可以提供资源分配接口，接收资源请求，从而根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标GPU。

在确定出目标GPU后，资源管理子系统可以将目标GPU的信息向任务管理子系统发送，在一些情况下，为了明确目标GPU所在的工作服务器，资源管理子系统还可以确定目标GPU所在的目标工作服务器，这样，资源管理子系统可以将目标工作服务器的网络之间互连的协议(Internet Protocol，简称IP)向任务管理子系统发送。

任务管理子系统与IP对应的目标工作服务器上的任务执行模块建立通讯连接，将第一任务请求和分配的GPU信息提交给任务执行模块。目标工作服务器的任务执行模块接收到任务管理子系统发来的第一任务请求和GPU信息后，动态加载任务的业务逻辑模块，从而执行第一目标任务。

在一种可能的实现方式中，S103的实现方式可以是根据服务器集群的可用资源状态表，按照预设原则选择满足所述第一目标任务所需的显存资源大小的目标GPU，所述目标GPU位于目标工作服务器上。

其中，所述预设原则包括服务器集群中各个工作服务器的任务负载平衡、工作服务器中各个GPU的显存占用率平衡和服务器集群剩余显存资源对任务的满足程度。可以理解的是，预设原则还可以其他原则，本实施例对此不做限定。

需要说明的是，可用资源状态表中包括的是各个工作服务器的状态信息和其上的资源信息，资源信息至少包括：工作服务器的网络之间互连的协议(Internet Protocol，简称IP)、GPU数量，每个GPU的显存数量(通常，单位为G)。服务器集群内的工作服务器采用心跳包的方式周期性向资源管理子系统注册本地的资源信息和状态信息。

而在服务器集群中，可能并不是所有工作服务器都正常工作，可能存在一些工作服务器没有正常工作，这些没有正常工作的工作服务器无法用于执行任务，因此，即使这些工作服务器中的显存资源满足第一目标任务所需的显存资源大小，也无法用于执行第一目标任务。因此，在一种可能的实现方式中，可以对所述服务器集群中各个工作服务器的第一心跳包进行心跳监听，根据所述第一心跳包维护所述可用资源状态表。

假设可用资源状态表中标识第一工作服务器为可用状态，若在预设心跳周期内未监听到来自所述第一工作服务器的第一心跳包，说明第一工作服务器处于不可用状态，例如，第一工作服务器宕机。则可以更改所述可用资源状态表，更改后的可用资源状态表标识所述第一工作服务器为不可用状态。此步骤可以是由资源管理子系统执行的。

相应的，S103的一种可能的实现方式为：根据所述更改后的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标GPU。

通过对服务器集群中各个工作服务器的第一心跳包的监听，可以实时更改可用资源状态表，从而保证服务器集群的资源分配准确性和有效性。

需要说明的是，若在所述任务执行模块利用所述目标GPU执行所述第一目标任务时，所述方法还包括：

由于本实施例所提供的方法以显存资源为最小单位选取可用的GPU来完成第一目标任务，细化了资源管理和任务调度的粒度。这样，若目标GPU在执行一个第一目标任务时，该目标GPU中还有足够的显存资源执行其他任务，例如第二目标任务，便可以利用一个GPU并行执行多个任务(第一目标任务和第二目标任务)，提高了GPU中显存资源的利用率，提高服务器集群的任务吞吐率和服务并发性。

在所述任务执行模块利用所述目标GPU执行所述第一目标任务时，任务执行模块还可以启动心跳机制，按照预定义好的周期向任务管理子系统发送第二心跳包，任务管理子系统还可以对所述任务执行模块的第二心跳包进行监听，根据所述第二心跳包更新所述第一目标任务的执行状态。

若在预设时间段内未接收到所述第二心跳包，可以说明第一目标任务已经执行完毕或者第一目标任务执行异常。在这种情况下，为了再次利用执行第一目标任务所使用的显存资源，可以远程清理任务现场，回收所述任务执行模块执行所述第一目标任务所使用的显存资源。该步骤可以是由任务管理子系统执行的。

另外，根据任务的显存资源的需求实现任务在服务器集群中灵活分配和调度，增强了服务器集群的弹性扩展能力。

需要说明的是，本申请实施例提供的方法可以应用于任务调度系统中，参见图2所示，所述系统包括：

任务管理子系统201，用于接收第一任务请求，所述第一任务请求中包括第一目标任务的属性信息；根据所述第一目标任务的属性信息和任务资源使用配置表计算所述第一目标任务所需的显存资源大小；

资源管理子系统202，用于接收所述任务管理子系统发送的资源请求，所述资源请求包括所述第一目标任务所需的显存资源大小；根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标图形处理器GPU，以便任务执行模块利用所述目标GPU执行所述第一目标任务。

在一种可能的实现方式中，资源管理子系统202可以对所述服务器集群中各个工作服务器的第一心跳包进行心跳监听，根据所述第一心跳包维护所述可用资源状态表。假设可用资源状态表中标识第一工作服务器为可用状态，若资源管理子系统202在预设心跳周期内未监听到来自所述第一工作服务器的第一心跳包，说明第一工作服务器处于不可用状态，例如，第一工作服务器宕机。则资源管理子系统202可以更改所述可用资源状态表，更改后的可用资源状态表标识所述第一工作服务器为不可用状态。

在一种可能的实现方式中，任务管理子系统201可以对所述任务执行模块的第二心跳包进行监听，根据所述第二心跳包更新所述第一目标任务的执行状态。若任务管理子系统201在预设时间段内未接收到所述第二心跳包，可以说明第一目标任务已经执行完毕或者第一目标任务执行异常。在这种情况下，为了再次利用执行第一目标任务所使用的显存资源，任务管理子系统201可以远程清理任务现场，回收所述任务执行模块执行所述第一目标任务所使用的显存资源。

本申请实施例还提供一种面向GPU资源的任务调度装置，参见图3，所述装置包括：

第一接收单元301，用于接收第一任务请求，所述第一任务请求中包括第一目标任务的属性信息；

第一计算单元302，用于根据所述第一目标任务的属性信息和任务资源使用配置表计算所述第一目标任务所需的显存资源大小；

第一确定单元303，用于根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标图形处理器GPU，以便任务执行模块利用所述目标GPU执行所述第一目标任务。

可选的，所述装置还包括：

可选的，所述第一确定单元，用于：

可选的，所述装置还包括：

可选的，所述第一监听单元，用于：

所述第一确定单元，用于：

可选的，所述装置还包括：

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-onlymemory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种面向GPU资源的任务调度方法，其特征在于，应用于面向GPU资源的任务调度系统，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述任务执行模块利用所述目标GPU执行所述第一目标任务时，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据服务器集群的可用资源状态表，确定满足所述第一目标任务所需的显存资源大小的目标图形处理器GPU，包括：

4.根据权利要求3所述的方法，其特征在于，所述预设原则包括：服务器集群中各个工作服务器的任务负载平衡、工作服务器中各个GPU的显存占用率平衡和服务器集群剩余显存资源对任务的满足程度。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一心跳包维护所述可用资源状态表，包括：

7.根据权利要求1所述的方法，其特征在于，所述任务执行模块利用所述目标GPU执行所述第一目标任务时，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种面向GPU资源的任务调度装置，其特征在于，所述装置包括：

10.一种面向GPU资源的任务调度系统，其特征在于，所述系统包括：