CN109213600A

CN109213600A - 一种基于ai云的gpu资源调度方法和装置

Info

Publication number: CN109213600A
Application number: CN201811056452.6A
Authority: CN
Inventors: 房体盈; 刘正伟
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2019-01-15
Anticipated expiration: 2038-09-11
Also published as: CN109213600B

Abstract

本发明实施例公开了一种基于AI云的GPU资源调度方法和装置，该方法包括：实时监控是否有深度学习任务提交；当监控到有深度学习任务提交时，获取当前空闲的所有GPU资源；从当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器；在可用的AI服务器上创建容器docker，并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中，使该挂载的GPU资源独享新创建的docker，并在创建的docker中执行深度学习任务。通过该实施例方案，有效的提高了GPU资源利用率，同时提高了算法工程师的训练速度，使得GPU得到充分利用，节约了基础设施建造成本。

Description

一种基于AI云的GPU资源调度方法和装置

技术领域

本发明实施例涉及AI云应用技术，尤指一种基于AI云的GPU资源调度方法和装置。

背景技术

在AI(Artificial Intelligence人工智能)时代，算法工程师需要进行大量深度学习任务，通常使用docker容器来作为训练环境，使用昂贵的图形处理器GPU卡能显著提高训练速度，大量配有GPU卡的AI服务器通过AI云平台统一管理，当算法工程师需要使用GPU资源时，就需要GPU资源的分配，如何最大限度的将闲置的GPU资源全部利用起来就是一个需要面临解决的问题。

发明内容

本发明实施例提供了一种基于AI云的GPU资源调度方法和装置，能够使得AI云有效的提高GPU资源利用率，同时也提高算法工程师的训练速度，使得GPU得到充分利用，节约基础设施建造成本。

为了达到本发明实施例目的，本发明实施例提供了一种基于人工智能AI云的图形处理器GPU资源调度方法，所述方法包括：

实时监控是否有深度学习任务提交；

当监控到有深度学习任务提交时，获取当前空闲的所有GPU资源；

从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器；

在所述可用的AI服务器上创建容器docker，并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中，使该挂载的GPU资源独享所述新创建的docker，并在创建的所述docker中执行所述深度学习任务。

可选地，所述从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器包括：

检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件；

当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器满足所述创建条件时，将该AI服务器作为所述可用的AI服务器；

当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器不满足所述创建条件时，将该AI服务器作为不可用的AI服务器。

可选地，所述创建条件包括以下任意一种或多种：所述AI服务器的CPU频率、内存大小和存储容量大小。

可选地，在从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器之前，所述方法还包括：根据所需创建的docker的总数和/或每个AI服务器上需要创建的docker的数量，计算所述创建条件中各项所需满足的数值，以根据所述各项所需满足的数值检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件。

可选地，所述获取当前空闲的所有GPU资源包括：发起空闲GPU查询请求，并根据所述空闲GPU查询请求的返回结果统计出当前空闲的所有GPU资源。

可选地，所述方法还包括：当根据所述查询请求的返回结果未获取当前空闲的GPU资源时，则进行排队等待，并定时发起所述空闲GPU查询请求，直至获取空闲的GPU资源。

可选地，所述方法还包括：在所述深度学习任务执行完毕后，自动销毁创建的所述docker。

可选地，创建的每一个docker的配置是相同的。

可选地，所述每一个docker的配置包括以下任意一种或多种：CPU频率、内存大小、存储容量大小和GPU卡个数。

本发明实施例还提供了一种基于人工智能AI云的图形处理器GPU资源调度装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令被所述处理器执行时，实现上述任意一项所述的基于AI云的GPU资源调度方法。

本发明实施例包括：实时监控是否有深度学习任务提交；当监控到有深度学习任务提交时，获取当前空闲的所有GPU资源；从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器；在所述可用的AI服务器上创建容器docker，并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中，使该挂载的GPU资源独享所述新创建的docker，并在创建的所述docker中执行所述深度学习任务。通过该实施例方案，使得AI云有效的提高了GPU资源利用率，同时也提高了算法工程师的训练速度，使得GPU得到充分利用，节约了基础设施建造成本。

本发明实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明实施例的技术方案，并不构成对本发明实施例技术方案的限制。

图1为本发明实施例的基于人工智能AI云的图形处理器GPU资源调度方法流程图；

图2为本发明实施例的基于人工智能AI云的图形处理器GPU资源调度方法示意图；

图3为本发明实施例的从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器的方法流程图；

图4为本发明实施例的基于人工智能AI云的图形处理器GPU资源调度装置组成框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为了达到本发明实施例目的，本发明实施例提供了一种基于人工智能AI云的图形处理器GPU资源调度方法，如图1、图2所示，所述方法可以包括S101-S104：

S101、实时监控是否有深度学习任务提交。

在本发明实施例中，可以预先设置资源监控装置，实时监控是否有深度学习任务提交，当算法工程师提交一个深度学习任务，即训练任务时，资源监控装置可以获取到该监控信息。

S102、当监控到有深度学习任务提交时，获取当前空闲的所有GPU资源。

在本发明实施例中，当资源监控装置监控到有深度学习任务提交时，资源监控装置可以向预设的任务调度装置提供该监控信息。任务调度模块可以根据资源监控模块提供的监控信息，获取当前空闲的所有GPU资源。

在本发明实施例中，所述获取当前空闲的所有GPU资源可以包括：发起空闲GPU查询请求，并根据所述空闲GPU查询请求的返回结果统计出当前空闲的所有GPU资源。

在本发明实施例中，任务调度装置可以向资源监控装置发起空闲GPU查询请求；资源监控装置可以根据该空闲GPU查询请求返回所有空闲的GPU资源。

在本发明实施例中，只要是空闲的GPU都可以拿来给此深度学习任务使用。

在本发明实施例中，设计合理的任务调度策略，只要是空闲的GPU都可以拿给当前提交的任务去使用，使用完就立即释放，进而提高训练速度。

在本发明实施例中，所述方法还可以包括：当根据所述查询请求的返回结果未获取当前空闲的GPU资源时，则进行排队等待，并定时发起所述空闲GPU查询请求，直至获取空闲的GPU资源。

在本发明实施例中，任务调度装置如果没有获取到空闲的GPU，则可以进行任务排队等待，直到获取到空闲的GPU资源。

S103、从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器。

在本发明实施例中，如图3所示，所述从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器可以包括S201-S203：

S201、检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件；

S202、当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器满足所述创建条件时，将该AI服务器作为所述可用的AI服务器；

S203、当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器不满足所述创建条件时，将该AI服务器作为不可用的AI服务器。

在本发明实施例中，获取到空闲的GPU后，可以分析GPU所在的AI服务器是否满足创建docker的条件，即上述的创建条件，如果满足该创建条件，就可以将该AI服务器作为可用的AI服务器，用于创建docker；反之，如果不满足该创建条件，就不能将该AI服务器作为可用的AI服务器，不能用于创建docker。

在本发明实施例中，所述创建条件包括但不限于以下任意一种或多种：所述AI服务器的CPU频率、内存大小和存储容量大小。

在本发明实施例中，在从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器之前，所述方法还可以包括：根据所需创建的docker的总数和/或每个AI服务器上需要创建的docker的数量，计算所述创建条件中各项所需满足的数值，以根据所述各项所需满足的数值检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件。

在本发明实施例中，任务调度装置可以根据具体的深度学习任务来计算能创建多少个docker容器，以及在哪个AI服务器上创建几个docker；并根据这些信息计算出当前空闲的GPU资源所在的每一个AI服务器的CPU频率、内存大小和/或存储容量大小等是否满足上述信息中的docker数量创建要求，如果满足，则说明该AI服务器满足该创建条件，为可用的AI服务器；反之，如果不满足，则说明该AI服务器不满足该创建条件，为不可用的AI服务器。

在本发明实施例中，任务调度装置如果没有获取到可用的AI服务器，也可以进行任务排队等待，直到获取到可用的AI服务器。

在本发明实施例中，需要说明的是，上述的步骤S202和步骤S203仅是不同情况下的不同处理方式，没有先后顺序之分。

S104、在所述可用的AI服务器上创建容器docker，并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中，使该挂载的GPU资源独享所述新创建的docker，并在创建的所述docker中执行所述深度学习任务。

在本发明实施例中，任务调度装置获取到可用的AI服务器后，任务调度装置可以向预设的容器集群管理装置发起创建docker命令；容器集群管理装置可以根据该创建docker命令，执行docker创建过程。

在本发明实施例中，创建的每一个docker的配置是相同的。

在本发明实施例中，所述每一个docker的配置包括但不限于以下任意一种或多种：CPU频率、内存大小、存储容量大小和GPU卡个数。

在本发明实施例中，将GPU挂载到新创建的多个docker容器(GPU独享)中，将docker提供给算法工程师进行并行训练。

在本发明实施例中，所述方法还可以包括：在所述深度学习任务执行完毕后，自动销毁创建的所述docker。

在本发明实施例中，将创建的docker提供给算法工程师并行训练，训练完成后docker可以被自动销毁。

在本发明实施例中，本发明实施例方案能够最大限度的利用闲置的GPU资源，通过该实施例方案，当算法工程师提交一个训练任务时，任务调度装置可以根据资源监控装置提供的监控信息，获取当前空闲的所有GPU资源，将GPU挂载到新创建的多个docker容器(GPU独享)中，将docker提供给算法工程师并行训练，有效的提高了GPU资源利用率，同时也提高了算法工程师的训练速度，使得GPU得到充分利用，节约了基础设施建造成本。

本发明实施例还提供了一种基于人工智能AI云的图形处理器GPU资源调度装置1，如图4所示，可以包括处理器11和计算机可读存储介质12，所述计算机可读存储介质12中存储有指令，当所述指令被所述处理器11执行时，实现上述任意一项所述的基于AI云的GPU资源调度方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种基于人工智能AI云的图形处理器GPU资源调度方法，其特征在于，所述方法包括：

实时监控是否有深度学习任务提交；

2.根据权利要求1所述的基于AI云的GPU资源调度方法，其特征在于，所述从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器包括：

3.根据权利要求2所述的基于AI云的GPU资源调度方法，其特征在于，所述创建条件包括以下任意一种或多种：所述AI服务器的CPU频率、内存大小和存储容量大小。

4.根据权利要求3所述的基于AI云的GPU资源调度方法，其特征在于，在从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器之前，所述方法还包括：根据所需创建的docker的总数和/或每个AI服务器上需要创建的docker的数量，计算所述创建条件中各项所需满足的数值，以根据所述各项所需满足的数值检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件。

5.根据权利要求1所述的基于AI云的GPU资源调度方法，其特征在于，所述获取当前空闲的所有GPU资源包括：发起空闲GPU查询请求，并根据所述空闲GPU查询请求的返回结果统计出当前空闲的所有GPU资源。

6.根据权利要求5所述的基于AI云的GPU资源调度方法，其特征在于，所述方法还包括：当根据所述查询请求的返回结果未获取当前空闲的GPU资源时，则进行排队等待，并定时发起所述空闲GPU查询请求，直至获取空闲的GPU资源。

7.根据权利要求5所述的基于AI云的GPU资源调度方法，其特征在于，所述方法还包括：在所述深度学习任务执行完毕后，自动销毁创建的所述docker。

8.根据权利要求1-7任意一项所述的基于AI云的GPU资源调度方法，其特征在于，创建的每一个docker的配置是相同的。

9.根据权利要求8所述的基于AI云的GPU资源调度方法，其特征在于，所述每一个docker的配置包括以下任意一种或多种：CPU频率、内存大小、存储容量大小和GPU卡个数。

10.一种基于人工智能AI云的图形处理器GPU资源调度装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1-9任意一项所述的基于AI云的GPU资源调度方法。