CN110795249A

CN110795249A - 基于mesos容器化平台的gpu资源调度方法及装置

Info

Publication number: CN110795249A
Application number: CN201911044273.5A
Authority: CN
Inventors: 王烨; 陈润聪; 朱蓉凤
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-14

Abstract

本发明提供了一种基于MESOS容器化平台的GPU资源调度方法及装置，在图像化界面上创建目标服务时，通过设置GPU显存使用率，便于容器化平台基于目标服务的GPU显存使用率为服务分配对应的目标主机，并通过运行应用容器引擎，调用目标主机的CUDA驱动程序和GPU驱动程序，利用目标主机的GPU资源实现目标服务在容器中运行，由于目标服务不占用目标主机全部GPU显存，一个GPU可以分配给多个服务，实现了GPU资源细粒度调度，提高了GPU资源利用率。

Description

基于MESOS容器化平台的GPU资源调度方法及装置

技术领域

本发明涉及GPU调度技术领域，更具体的，涉及一种基于MESOS容器化平台的GPU资源调度方法及装置。

背景技术

Mesos是Apache下的开源分布式资源管理框架，被广泛应用于大规模集群中，MESOS通过MESOS容器来使用GPU资源。

目前，对GPU资源的分配策略是在同一时间内一块GPU只能分配给一个任务，不能将一块GPU分配给多个任务，无法实现GPU资源细粒度调度。

发明内容

有鉴于此，本发明提供了一种基于MESOS容器化平台的GPU资源调度方法及装置，实现GPU资源细粒度调度。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种基于MESOS容器化平台的GPU资源调度方法，应用于容器化平台，包括：

在图形化界面上创建目标服务，并为所述目标服务设置GPU显存使用率；

根据所述目标服务的GPU显存使用率以及集群内GPU资源使用情况，确定所述目标服务运行的目标主机；

运行应用容器引擎，调用所述目标主机的CUDA驱动程序和GPU驱动程序。

可选的，所述根据所述目标服务的GPU显存使用率以及集群内GPU资源使用情况，确定所述目标服务运行的目标主机，包括：

根据所述目标服务的GPU显存使用率以及集群内GPU资源使用情况，设置所述目标服务运行的主机范围；

依据每个MESOS节点上报的每个主机的可用资源，在所述目标服务运行的主机范围内确定所述目标服务运行的目标主机。

可选的，CUDA驱动程序和GPU驱动程序安装在所述目标主机上，所述目标服务运行在Docker容器中。

可选的，所述方法还包括：

在主机部署成功后，从MESOS接口获取相应主机的GPU资源，并将相应主机的GPU资源保存在数据库中的资源表中。

可选的，所述方法还包括：

每启动一个容器，在所述资源表中减去相应主机已使用的GPU资源；

每关闭一个容器，在所述资源表中加上相应主机已使用的GPU资源。

一种基于MESOS容器化平台的GPU资源调度装置，应用于容器化平台，包括：

服务创建单元，用于在图形化界面上创建目标服务，并为所述目标服务设置GPU显存使用率；

主机确定单元，用于根据所述目标服务的GPU显存使用率以及集群内GPU资源使用情况，确定所述目标服务运行的目标主机；

主机调用单元，用于运行应用容器引擎，调用所述目标主机的CUDA驱动程序和GPU驱动程序。

可选的，所述主机确定单元，具体用于：

可选的，所述装置还包括：

GPU资源管理单元，用于在主机部署成功后，从MESOS接口获取相应主机的GPU资源，并将相应主机的GPU资源保存在数据库中的资源表中。

可选的，所述GPU资源管理单元，还用于每启动一个容器，在所述资源表中减去相应主机已使用的GPU资源；每关闭一个容器，在所述资源表中加上相应主机已使用的GPU资源。

相对于现有技术，本发明的有益效果如下：

本发明公开的一种基于MESOS容器化平台的GPU资源调度方法，在图像化界面上创建目标服务时，通过设置GPU显存使用率，便于容器化平台基于目标服务的GPU显存使用率为服务分配对应的目标主机，并通过运行应用容器引擎，调用目标主机的CUDA驱动程序和GPU驱动程序，利用目标主机的GPU资源实现目标服务在容器中运行，由于目标服务不占用目标主机全部GPU显存，一个GPU可以分配给多个服务，实现了GPU资源细粒度调度，提高了GPU资源利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种基于MESOS容器化平台的GPU资源调度方法的流程示意图；

图2为本发明实施例公开的一种基于MESOS容器化平台的GPU资源调度装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例公开了一种基于MESOS容器化平台的GPU资源调度方法，应用于容器化平台，请参阅图1，该GPU资源调度方法具体包括以下步骤：

S101：在图形化界面上创建目标服务，并为所述目标服务设置GPU显存使用率；

其中，目标服务为使用GPU进行图像处理的微服务等需要使用GPU资源完成的服务。

用户在GUI(Graphical User Interface，图形化界面)上创建目标服务，与现有创建服务不同的部分在于：本实施例在目标服务的代码中设置GPU显存使用率。

GPU显存使用率表示目标服务可以使用的最大GPU显存百分比，以TensorFlow使用GPU为例，可以在创建tensorflow session的时候设置GPU显存使用率。

#限制一个进程使用60％的显存

gpu_options＝tf.GPUOptions(per_process_gpu_memory_fraction＝0.6)

config＝tf.ConfigProto(gpu_options＝gpu_options)

session＝tf.Session(config＝config,...)

如果GPU的显存是8000M的话，这个服务最多只能使用4800M。

其中，在为目标服务设置GPU显存使用率时依据目标服务的实际业务需求进行设置，在目标服务启动时，GPU显存使用率以环境变量的形式传给容器内应用。

S102：根据所述目标服务的GPU显存使用率以及集群内GPU资源使用情况，确定所述目标服务运行的目标主机；

容器化平台启动目标服务之前，则先根据集群内GPU资源条件增加约束条件，即设置目标服务运行的主机范围，再向marathon提交目标服务。比如目标服务需要0.3个GPU，当前集群内所有GPU主机剩余的GPU资源都大于0.3，则增加约束让目标服务启动在所有GPU主机上，即目标服务运行的主机范围为所有GPU主机；比如目标服务需要0.3个GPU，当前有两个主机剩余的GPU资源大于0.3，则增加约束条件让目标服务启动在GPU资源大于0.3的两个主机上，即目标服务运行的主机范围这两个主机(10.19.12.14和10.19.12.15)，其对应的约束条件为hostname like 10.19.12.(14|15)。

在此基础上，依据每个MESOS节点(slave)上报的每个主机的可用资源，在所述目标服务运行的主机范围内确定所述目标服务运行的目标主机。

S103：运行应用容器引擎，调用所述目标主机的CUDA驱动程序和GPU驱动程序。

由于MESOS容器不支持细粒度使用GPU资源，本实施例通过应用容器引擎nvidia-docker来细粒度使用GPU资源。

nvidia-docker是一个可以使用GPU的docker的引擎，nvidia-docker是在docker上做了一层封装，通过调用nvidia-docker-plugin，然后再调用docker，最终实现的还是在docker的启动命令上携带一些必要的参数。如下是一个容器启动命令示例：

docker run

--volume-driver＝nvidia-docker

--volume＝nvidia_driver_352.39:/usr/local/nvidia:ro

--device＝/dev/nvidiactl

--device＝/dev/nvidia-uvm

--device＝/dev/nvidia0

--rmnvidia/cuda:7.5nvidia-smi

nvidia-docker可以帮助容器内部的程序调用外面目标主机上的CUDA驱动程序CUDA driver。CUDA Driver及GPU Driver安装在外部主机上；CUDA Toolkit、其它深度学习组件及用户应用程序、目标服务运行在Docker容器中。这样既能快速配置环境，又保证了主机不受用户应用程序污染。

需要说明的是，本实施例公开的一种基于MESOS容器化平台的GPU资源调度方法，还可以实现对GPU资源的细粒度管理，即容器化平台同一管理集群中的GPU资源，利用MESOS将GPU资源汇聚成资源池来实现资源共享，当创建服务后，从GPU资源池中选取合适的主机GPU资源。

每启动一个容器，在所述资源表中减去相应主机已使用的GPU资源。

可见，本实施例公开的基于MESOS容器化平台的GPU资源调度方法，不仅可以实现GPU资源的细粒度调度，还可以实现GPU资源的细粒度管理，进一步提高了GPU资源利用率。

基于上述实施例公开的一种基于MESOS容器化平台的GPU资源调度方法，本实施例对应公开了一种基于MESOS容器化平台的GPU资源调度装置，应用于容器化平台，请参阅图2，该装置包括：

服务创建单元201，用于在图形化界面上创建目标服务，并为所述目标服务设置GPU显存使用率；

主机确定单元202，用于根据所述目标服务的GPU显存使用率以及集群内GPU资源使用情况，确定所述目标服务运行的目标主机；

主机调用单元203，用于运行应用容器引擎，调用所述目标主机的CUDA驱动程序和GPU驱动程序。

可选的，所述主机确定单元202，具体用于：

可选的，所述装置还包括：

本实施例公开的一种基于MESOS容器化平台的GPU资源调度装置，在图像化界面上创建目标服务时，通过设置GPU显存使用率，便于容器化平台基于目标服务的GPU显存使用率为服务分配对应的目标主机，并通过运行应用容器引擎，调用目标主机的CUDA驱动程序和GPU驱动程序，利用目标主机的GPU资源实现目标服务在容器中运行，由于目标服务不占用目标主机全部GPU显存，一个GPU可以分配给多个服务，实现了GPU资源细粒度调度，提高了GPU资源利用率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于MESOS容器化平台的GPU资源调度方法，其特征在于，应用于容器化平台，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标服务的GPU显存使用率以及集群内GPU资源使用情况，确定所述目标服务运行的目标主机，包括：

3.根据权利要求1所述的方法，其特征在于，CUDA驱动程序和GPU驱动程序安装在所述目标主机上，所述目标服务运行在Docker容器中。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种基于MESOS容器化平台的GPU资源调度装置，其特征在于，应用于容器化平台，包括：

7.根据权利要求6所述的装置，其特征在于，所述主机确定单元，具体用于：

8.根据权利要求6所述的装置，其特征在于，CUDA驱动程序和GPU驱动程序安装在所述目标主机上，所述目标服务运行在Docker容器中。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述GPU资源管理单元，还用于每启动一个容器，在所述资源表中减去相应主机已使用的GPU资源；每关闭一个容器，在所述资源表中加上相应主机已使用的GPU资源。