CN112131007B

CN112131007B - 基于ai平台的gpu资源调度方法、装置及介质

Info

Publication number: CN112131007B
Application number: CN202011042445.8A
Authority: CN
Inventors: 薛长青; 刘强; 于洪真
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2023-02-21
Anticipated expiration: 2040-09-28
Also published as: CN112131007A

Abstract

本发明公开了基于AI平台的GPU资源调度方法、装置及介质，属于GPU资源调度技术领域，要解决的技术问题GPU资源调度技术领域。该方法包括如下步骤：对实际的GPU资源进行资源均分，在每个均分的GPU资源上均安装Docker；设置Docker服务资源表和Docker服务队列表；监控到有深度学习任务提交时，获取空闲的Docker服务资源执行深度学习任务，或者，插入Docker服务队列表排队以等待空闲的Docker服务资源；同时，通过定时任务监听Docker服务资源的释放。装置包括处理器，处理器用于调用机器可读程序，执行上述方法。介质，上存储有计算机指令，在被处理器执行时，使处理器执行上述方法。

Description

基于AI平台的GPU资源调度方法、装置及介质

技术领域

本发明涉及GPU资源调度技术领域，具体地说是基于AI平台的GPU资源调度方法、装置及介质。

背景技术

在AI(英文全称为Artificial Intelligence，中文翻译为人工智能)时代，算法工程师需要进行大量深度学习任务，通常使用Docker容器来作为训练环境，使用昂贵的图形处理器GPU卡能显著提高训练速度，当算法工程师需要使用GPU资源时，就需要GPU资源的分配，如何最大限度的将闲置的GPU资源全部利用起来就是一个需要面临解决的问题。

发明内容

本发明的技术任务是针对以上不足，提供基于AI平台的GPU资源调度方法、装置及介质，来解决如何最大限度的将闲置的GPU资源全部利用起来的问题。

第一方面，本发明提供一种基于AI平台的GPU资源调度方法，包括如下步骤：

对实际的GPU资源进行资源均分，在每个均分的GPU资源上均安装Docker，每个Docker内均安装TensorFlow，TensorFlow对外提供服务地址；

设置Docker服务资源表、Docker服务队列表和训练结果表，并初始化Docker服务资源表，所述Docker服务资源表中定义有资源服务，资源状态默认为空闲；

监控到有深度学习任务提交时，获取空闲的Docker服务资源执行深度学习任务，或者，插入Docker服务队列表排队以等待空闲的Docker服务资源；同时，通过定时任务监听Docker服务资源的释放，实时更新Docker服务资源表和训练结果表，并查询Docker服务队列表，为最先的用户分配Docker服务资源并更新Docker服务队列表。

作为优选，资源服务的地址至少两个，其中一个地址提供推理服务，其它的地址提供机器学习训练服务。

作为优选，Docker服务队列表中定义有用户、参数、模型和数据地址。

作为优选，为最先等待的用户分配Docker服务资源执行深度学习任务后，从Docker服务队列表中删除所述最先等待的用户，以更新Docker服务队列表。

作为优选，通过轮训的方式实时监听Docker服务资源的释放。

作为优选，通过如下步骤判断Docker服务资源表中是否存在空闲资源：

查询Docker服务队列表，判断Docker服务队列表是否为空；

如果为空，查询Docker服务资源表是否存在空闲资源；

如果不为空，Docker服务资源表中不存在空闲资源。

作为优选，如果存在空闲资源，获取当前空闲资源服务的地址，从当前所有空闲的机器学习训练任务中选择一个执行深度学习任务，并将Docker服务资源表的资源状态标识为在用，所述深度学习任务结束后，将Docker服务资源表的资源状态标识为空闲。

作为优选，通过定时任务监听Docker服务资源的释放，实时更新Docker服务资源表和训练结果表，包括如下步骤：

监听Docker服务资源的使用情况；

对于在用状态的Docker服务资源，实时监控对应深度学习训练任务的执行过程并获取训练过程信息，将训练过程信息存储至训练结果表；

深度学习训练任务执行完毕，对应的Docker服务资源释放后，实时将上述训练结果信息存储至训练结果表，并实时更新Docker服务资源表的资源状态。

第二方面，本发明提供一种装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行第一方面任一所述的方法。

第三方面，本发明提供一种介质，为计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行第一方面任一所述的方法。

本发明的基于AI平台的GPU资源调度方法、装置及介质具有以下优点：

1、通过资源划分、服务资源初始化以及用户排队的方式完成服务的合理分配调用，同时实时获取服务资源的训练信息、训练结果和资源释放等情况，调度任务及时合理的分配资源，且用户能够看到训练情况；

2、有效地提升了GPU资源利用率，同时提高了算法工程师的训练速度，使得GPU得到充分利用。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1基于AI平台的GPU资源调度方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供基于AI平台的GPU资源调度方法、装置及介质，用于解决如何最大限度的将闲置的GPU资源全部利用起来的技术问题。

实施例1：

本发明的一种基于AI平台的GPU资源调度方法，包括如下步骤：

S100、对实际的GPU资源进行资源均分，在每个均分的GPU资源上均安装Docker，每个Docker内均安装TensorFlow，TensorFlow对外提供服务地址；

S200、设置Docker服务资源表、Docker服务队列表和训练结果表，并初始化Docker服务资源表，上述Docker服务资源表中定义有资源服务，资源状态默认为空闲；

S300、监控到有深度学习任务提交时，获取空闲的Docker服务资源执行深度学习任务，或者，插入Docker服务队列表排队以等待空闲的Docker服务资源；同时，通过定时任务监听Docker服务资源的释放，实时更新Docker服务资源表和训练结果表，并查询Docker服务队列表，为最先的用户分配Docker服务资源并更新Docker服务队列表。

其中，每个TensorFlow启动并通过Docker暴露资源服务的地址，上述地址至少两个，其中一个作为推理服务，剩下的为机器学习训练服务。

Docker服务队列表里定义了用户、参数、模型、数据地址。

监控到有深度学习任务提交时，判断Docker服务资源表中是否存在空闲资源，如果存在，执行深度学习，如果不存在，进行Docker服务队列表排队，具体流程为：

(1)用户上传数据集并点击训练进行深度学习训练任务；

(2)调用服务接口，查询Docker服务队列表，如果Docker服务队列表中有用户排队，说明无空闲训练资源，插入Docker服务队列表排队；

(3)如果Docker服务队列表为空，无人排队，查询Docker服务资源表是否有空闲资源，如果有资源空闲，找出最前面的服务资源分配给用户进行深度学习训练，如果无空闲资源，插入队列进行排队。

在执行上述步骤的同时，启动定时任务，进行如下操作：实时监听所有服务资源的使用情况，对于在用状态的Docker服务资源，实时监控对应深度学习训练任务的执行过程并获取训练过程信息，将训练过程信息存储至训练结果表；当深度学习训练任务结束，服务资源释放后，定时任务监听到相关服务资源信息，实时将上述训练结果信息存储至训练结果表，并实时更新Docker服务资源表，找出最先等待的用户，分配资源执行AI服务调用，当用户提交的训练任务结束后，更新Docker服务队列表删除已分配资源的用户。

在执行上述步骤的同时，实时监控训练服务信息，并入库，供AI平台调用。

本发明的基于AI平台的GPU资源调度方法，有效地提高了GPU资源利用率，同时提高了算法工程师的训练速度，使得GPU得到充分利用，节约了基础设施建造成本。

实施例2：

本发明提供了一种装置，包括：至少一个存储器和至少一个处理器；至少一个存储器，用于存储机器可读程序；至少一个处理器，用于调用所述机器可读程序，执行本发明实施例1公开的方法。

实施例3：

本发明实施例还提供了一种计算机可读介质，上述计算机可读介质上存储有计算机指令，上述计算机指令在被处理器执行时，使上述处理器执行实施例公开的方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元可以通过机械方式或电气方式实现。例如，一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.基于AI平台的GPU资源调度方法，其特征在于包括如下步骤：

对实际的GPU资源进行资源均分，在每个均分的GPU资源上均安装Docker，每个Docker内均安装TensorFlow，TensorFlow对外提供服务地址，资源服务的地址至少两个，其中一个地址提供推理服务，其它的地址提供机器学习训练服务；

监控到有深度学习任务提交时，判断是否存在空闲的Docker服务资源，如果是，获取空闲的Docker服务资源执行深度学习任务，如果否，插入Docker服务队列表进行排队；同时，通过定时任务监听Docker服务资源的释放，实时更新Docker服务资源表和训练结果表，并查询Docker服务队列表，为最先等待的用户分配Docker服务资源执行深度学习任务后，从Docker服务队列表中删除所述最先等待的用户，以更新Docker服务队列表；

其中，通过如下步骤判断是否存在空闲的Docker服务资源：

查询Docker服务队列表，判断Docker服务队列表是否为空；

如果为空，查询Docker服务资源表是否存在空闲资源；

如果不为空，Docker服务资源表中不存在空闲资源；

其中，获取空闲的Docker服务资源执行深度学习任务，包括如下步骤：

获取当前空闲资源服务的地址，从当前所有空闲的机器学习训练任务中选择一个执行深度学习任务，并将Docker服务资源表的资源状态标识为在用；

所述深度学习任务结束后，将Docker服务资源表的资源状态标识为空闲；

其中，通过定时任务监听Docker服务资源的释放，实时更新Docker服务资源表和训练结果表，包括如下步骤：

监听Docker服务资源的使用情况；

2.根据权利要求1所述的基于AI平台的GPU资源调度方法，其特征在于Docker服务队列表中定义有用户、参数、模型和数据地址。

3.根据权利要求1所述的基于AI平台的GPU资源调度方法，其特征在于通过轮训的方式实时监听Docker服务资源。

4.装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至3任一所述的方法。

5.介质，为计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至3任一所述的方法。