CN111090456A

CN111090456A - 一种深度学习开发环境的构建方法、装置、设备及介质

Info

Publication number: CN111090456A
Application number: CN201911244714.6A
Authority: CN
Inventors: 袁绍
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-01

Abstract

本申请公开了一种深度学习开发环境的构建方法、装置、电子设备及计算机可读存储介质，该深度学习开发环境的构建方法包括：接收输入的硬件资源设置参数和深度学习训练框架类型；基于预设的开发环境调度系统，根据硬件资源设置参数为深度学习开发环境分配硬件资源，获取并加载对应类型的深度学习训练框架容器镜像；基于开发环境调度系统，加载与硬件资源适配的驱动，启动深度学习开发环境。本申请基于预设的开发环境调度系统，以容器部署方式可在大规模GPU集群中快速有效地搭建深度学习开发环境，减轻开发人员工作量，并有效改善开发环境搭建过程中的局限性，提高了用户的灵活分配性，极大便利了用户操作、提高了开发环境的搭建效率与质量。

Description

一种深度学习开发环境的构建方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种深度学习开发环境的构建方法、装置、电子设备及计算机可读存储介质。

背景技术

随着人工智能(AI)行业的蓬勃发展，AI应用所需的计算资源和数据资源越来越庞大。通常，AI应用多基于GPU集群构建，但随着集群规模的扩大，如何快速分配GPU计算资源以搭建AI训练环境成为了一个亟需解决的问题。

当前业界中普遍由集群管理员手动分配资源、手动创建深度学习开发环境。由于GPU集群规模越来越过大，手动分配的复杂度和难度越来越大；并且现有技术中依赖虚拟机搭建AI环境受限较多，使得手工操作工作量大、过程繁琐、灵活性差。鉴于此，提供一种解决上述技术问题的方案，已经是本领域技术人员所亟需关注的。

发明内容

本申请的目的在于提供一种深度学习开发环境的构建方法、装置、电子设备及计算机可读存储介质，以便在大规模GPU集群中快速有效地搭建深度学习开发环境，减轻开发人员工作量并提高工作效率。

为解决上述技术问题，第一方面，本申请公开了一种深度学习开发环境的构建方法，包括：

接收输入的硬件资源设置参数和深度学习训练框架类型；

基于预设的开发环境调度系统，根据所述硬件资源设置参数为所述深度学习开发环境分配硬件资源，获取并加载对应类型的深度学习训练框架容器镜像；

基于所述开发环境调度系统，加载与硬件资源适配的驱动，启动所述深度学习开发环境。

可选地，所述硬件资源设置参数包括CPU数和GPU数。

可选地，所述获取并加载对应类型的深度学习训练框架容器镜像，包括：

判断本地是否存在对应类型的深度学习训练框架容器镜像；

若有，则加载本地的所述深度学习训练框架容器镜像；

若无，则从预设docker容器镜像管理仓库中获取并加载所述深度学习训练框架容器镜像。

可选地，所述加载与硬件资源适配的驱动，包括：

通过预设docker驱动映射程序加载与硬件资源适配的驱动。

可选地，在所述启动所述深度学习开发环境之后，还包括：

启动深度学习训练框架中的工具服务。

可选地，所述启动所述深度学习开发环境，包括：

运行所述深度学习开发环境并配置登录密码。

第二方面，本申请还公开了一种深度学习开发环境的构建装置，包括：

接收模块，用于接收输入的硬件资源设置参数和深度学习训练框架类型；

构建模块，用于基于预设的开发环境调度系统，根据所述硬件资源设置参数为所述深度学习开发环境分配硬件资源，获取并加载对应类型的深度学习训练框架容器镜像；加载与硬件资源适配的驱动，启动所述深度学习开发环境。

可选地，所述硬件资源设置参数包括CPU数和GPU数。

可选地，所述构建模块具体用于：判断本地是否存在对应类型的深度学习训练框架容器镜像；若有，则加载本地的所述深度学习训练框架容器镜像；若无，则从预设docker容器镜像管理仓库中获取并加载所述深度学习训练框架容器镜像。

可选地，所述构建模块具体用于：通过预设docker驱动映射程序加载与硬件资源适配的驱动。

可选地，所述构建模块还用于：在启动所述深度学习开发环境之后，启动深度学习训练框架中的工具服务。

第三方面，本申请还公开了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上所述的任一种深度学习开发环境的构建方法的步骤。

第四方面，本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如上所述的任一种深度学习开发环境的构建方法的步骤。

本申请所提供的深度学习开发环境的构建方法包括：接收输入的硬件资源设置参数和深度学习训练框架类型；基于预设的开发环境调度系统，根据所述硬件资源设置参数为所述深度学习开发环境分配硬件资源，获取并加载对应类型的深度学习训练框架容器镜像；基于所述开发环境调度系统，加载与硬件资源适配的驱动，启动所述深度学习开发环境。

可见，本申请基于预设的开发环境调度系统，以容器的部署方式可在大规模GPU集群中快速有效地搭建深度学习开发环境，减轻开发人员工作量，并有效改善开发环境搭建过程中的局限性，提高了用户的灵活分配性，极大地便利了用户操作，提高了开发环境的搭建效率与质量。本申请所提供的深度学习开发环境的构建装置、电子设备及计算机可读存储介质同样具有上述有益效果。

附图说明

为了更清楚地说明现有技术和本申请实施例中的技术方案，下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然，下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图，所获得的其他附图也属于本申请的保护范围。

图1为本申请实施例公开的一种深度学习开发环境的构建方法的流程图；

图2为本申请实施例公开的一种深度学习开发环境的构建装置的结构框图；

图3为本申请实施例公开的一种电子设备的结构框图。

具体实施方式

本申请的核心在于提供一种深度学习开发环境的构建方法、装置、电子设备及计算机可读存储介质，以便在大规模GPU集群中快速有效地搭建深度学习开发环境，减轻开发人员工作量并提高工作效率。

为了对本申请实施例中的技术方案进行更加清楚、完整地描述，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行介绍。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

GPU(Graphics Processing Unit，图形处理器)是深度学习等人工智能算法应用中所经常使用的器件。GPU集群则是指由若干个配备有GPU的节点所构成的计算机集群。基于现代GPU的通用计算能力，可以令GPU集群执行非常快速的计算。

当前，业界中普遍由集群管理员手动分配资源、手动创建深度学习开发环境。由于GPU集群规模越来越过大，手动分配的复杂度和难度越来越大；并且搭建AI环境需要安装各种依赖工具等，使得手工操作工作量大、过程繁琐。在此过程中，用户多采用虚拟机的方式来搭建环境。但是虚拟机的镜像庞大，可移植性差，因此GPU对于虚拟机的支持并不好，若虚拟机的形式，虚拟机只能将所有的GPU以直通的方式映射进来，无法对GPU灵活分配。并且，虚拟机没有统一管理训练环境的方案，无法提供完整的AI开发训练场景，需要大量的安装部署工作，耗时耗力。而且虚拟机在启动过程中需要占用大量的资源，造成资源浪费。鉴于此，本申请提供了一种深度学习开发环境的构建方法，可有效解决上述问题。

参见图1所示，本申请实施例公开了一种深度学习开发环境的构建方法，主要包括：

S101：接收输入的硬件资源设置参数和深度学习训练框架类型。

其中，作为一个具体实施例，硬件资源设置参数可包括CPU数和GPU数。GPU集群中的计算机节点中可配置若干个GPU实体硬件，深度学习开发环境的搭建便具体需要依赖于CPU、GPU这些实体硬件。用户可自行输入设置参数以设置所搭建的深度学习开发环境中使用的CPU数和GPU数。这些参数可具体称为硬件资源设置参数，即用以配置深度学习开发环境的配置的参数。

深度学习开饭环境有一些常用的训练框架，如tensorflow、caffe、ytorch等。因此，除了硬件资源设置参数以外，用户还可进一步指定深度学习开发环境的训练框架类型。

S102：基于预设的开发环境调度系统，根据硬件资源设置参数为深度学习开发环境分配硬件资源，获取并加载对应类型的深度学习训练框架容器镜像。

首先需要说明的是，本申请实施例所提供的深度学习开发环境的搭建方法无需用户手动搭建，而是通过调用预先设置的开发环境调度系统来自动实现搭建过程。当该开发环境调度系统启动后，可根据接收到的硬件资源设置参数和深度学习训练框架类型而自动进行环境搭建，从而帮助减少开发人员的工作量，并极大地提高了开发效率和正确率。

开发环境调度系统可具体基于slurm系统开发实现。slurm系统是一个开源、容错、高可伸缩的集群管理和Linux集群作业调度的系统。slurm系统无需对操作系统内核进行修改，是相对独立的。本申请所提供的开发环境调度系统作为统一的深度学习环境管理平台，支持用户优先级，资源抢占回填，可对开发环境进行统一管理，并可以实现开发环境公开、组共享等策略。

其次，还需要重点说明的是，本申请实施例所提供的深度学习开发环境的搭建方法并没有采用基于虚拟机的搭建方式，而是以容器的方式来部署搭建深度学习开发环境。具体地，开发环境调度系统在根据硬件资源设置参数分配完对应数量的CPU和GPU后，便加载与用户所选类型的深度学习训练框架的容器镜像以部署开发环境。

其中，获取并加载对应类型的深度学习训练框架容器镜像可具体包括如下步骤：判断本地是否存在对应类型的深度学习训练框架容器镜像；若有，则加载本地的深度学习训练框架容器镜像；若无，则从预设docker容器镜像管理仓库中获取并加载深度学习训练框架容器镜像。

与虚拟机不同，容器具有统一管理训练环境的方案，并可利用容器镜像管理仓库实现对容器镜像的高效管理，极大地便利了开发环境的搭建。其中，Docker是一个开源的应用容器引擎，可以允许开发者将应用和依赖包打包到可移植的镜像中，并允许发布到任何流行的Linux或Windows机器上，也可以实现虚拟化。容器镜像管理仓库在集群中可相互共享。

S103：基于开发环境调度系统，加载与硬件资源适配的驱动，启动深度学习开发环境。

其中，作为一个具体实施例，加载与硬件资源适配的驱动可具体包括：通过预设docker驱动映射程序加载与硬件资源适配的驱动。这里所说的驱动包括与GPU实体硬件适配的驱动。即，本实施例中具体采用原生docker映射驱动的方案，通过调用自行开发的预设docker驱动映射程序而非相关GPU厂家所提供的驱动映射程序来加载驱动，可有效避免局限性。

当加载完硬件驱动后，便可启动容器镜像，以便将所需资源和开发代码映射到所搭建的开发环境中完成搭建。其中，作为一种具体实施例，启动深度学习开发环境时可具体包括：运行深度学习开发环境并配置登录密码。为了对该深度学习开发环境的使用进行管理，可为其配置登录密码，以便供具有使用权的用户登录到开发环境进行开发使用。具体可采用jupyter登录方式，当然，也可采用ssh无密码登录。

此外，还需说明的是，在上述内容的基础上，本申请实施例所提供的深度学习开发环境的构建方法在启动深度学习开发环境之后，还可以进一步启动深度学习训练框架中的工具服务。具体地，为方便用户使用，深度学习训练框架中一般提供了一些常用的服务工具。以tensorflow的深度学习训练框架为例，可具体启动其中的tensorboard、jupyter等服务工具以供调用。

本申请实施例所提供的深度学习开发环境的构建方法包括：接收输入的硬件资源设置参数和深度学习训练框架类型；基于预设的开发环境调度系统，根据硬件资源设置参数为深度学习开发环境分配硬件资源，获取并加载对应类型的深度学习训练框架容器镜像；基于开发环境调度系统，加载与硬件资源适配的驱动，启动深度学习开发环境。

可见，本申请基于预设的开发环境调度系统，以容器的部署方式可在大规模GPU集群中快速有效地搭建深度学习开发环境，减轻开发人员工作量，并有效改善开发环境搭建过程中的局限性，提高了用户的灵活分配性，极大地便利了用户操作，提高了开发环境的搭建效率与质量。

参见图2所示，本申请实施例公开了一种深度学习开发环境的构建装置，主要包括：

接收模块201，用于接收输入的硬件资源设置参数和深度学习训练框架类型；

构建模块202，用于基于预设的开发环境调度系统，根据硬件资源设置参数为深度学习开发环境分配硬件资源，获取并加载对应类型的深度学习训练框架容器镜像；加载与硬件资源适配的驱动，启动深度学习开发环境。

可见，本申请实施例所公开的深度学习开发环境的构建装置，基于预设的开发环境调度系统，以容器的部署方式可在大规模GPU集群中快速有效地搭建深度学习开发环境，减轻开发人员工作量，并有效改善开发环境搭建过程中的局限性，提高了用户的灵活分配性，极大地便利了用户操作，提高了开发环境的搭建效率与质量。

关于上述深度学习开发环境的构建装置的具体内容，可参考前述关于深度学习开发环境的构建方法的详细介绍，这里就不再赘述。

作为一个具体实施例，在上述内容的基础上，本申请实施例所公开的深度学习开发环境的构建装置中，硬件资源设置参数包括CPU数和GPU数。

作为一个具体实施例，在上述内容的基础上，本申请实施例所公开的深度学习开发环境的构建装置中，构建模块202具体用于：判断本地是否存在对应类型的深度学习训练框架容器镜像；若有，则加载本地的深度学习训练框架容器镜像；若无，则从预设docker容器镜像管理仓库中获取并加载深度学习训练框架容器镜像。

作为一个具体实施例，在上述内容的基础上，本申请实施例所公开的深度学习开发环境的构建装置中，构建模块202具体用于通过预设docker驱动映射程序加载与硬件资源适配的驱动。

作为一个具体实施例，在上述内容的基础上，本申请实施例所公开的深度学习开发环境的构建装置中，构建模块202还用于：在启动深度学习开发环境之后，启动深度学习训练框架中的工具服务。

作为一个具体实施例，在上述内容的基础上，本申请实施例所公开的深度学习开发环境的构建装置中，构建模块202具体用于：运行深度学习开发环境并配置登录密码。

参见图3所示，本申请实施例公开了一种电子设备，包括：

存储器301，用于存储计算机程序；

处理器302，用于执行所述计算机程序以实现如上所述的任一种深度学习开发环境的构建方法的步骤。

进一步地，本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如上所述的任一种深度学习开发环境的构建方法的步骤。

关于上述电子设备和计算机可读存储介质的具体内容，可参考前述关于深度学习开发环境的构建方法的详细介绍，这里就不再赘述。

本申请中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需说明的是，在本申请文件中，诸如“第一”和“第二”之类的关系术语，仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请的保护范围内。

Claims

1.一种深度学习开发环境的构建方法，其特征在于，包括：

接收输入的硬件资源设置参数和深度学习训练框架类型；

2.根据权利要求1所述的深度学习开发环境的构建方法，其特征在于，所述硬件资源设置参数包括CPU数和GPU数。

3.根据权利要求1所述的深度学习开发环境的构建方法，其特征在于，所述获取并加载对应类型的深度学习训练框架容器镜像，包括：

判断本地是否存在对应类型的深度学习训练框架容器镜像；

若有，则加载本地的所述深度学习训练框架容器镜像；

4.根据权利要求1所述的深度学习开发环境的构建方法，其特征在于，所述加载与硬件资源适配的驱动，包括：

通过预设docker驱动映射程序加载与硬件资源适配的驱动。

5.根据权利要求1所述的深度学习开发环境的构建方法，其特征在于，在所述启动所述深度学习开发环境之后，还包括：

启动深度学习训练框架中的工具服务。

6.根据权利要求1至5任一项所述的深度学习开发环境的构建方法，其特征在于，所述启动所述深度学习开发环境，包括：

运行所述深度学习开发环境并配置登录密码。

7.一种深度学习开发环境的构建装置，其特征在于，包括：

8.根据权利要求7所述的深度学习开发环境的构建装置，其特征在于，所述构建模块还用于：

在启动所述深度学习开发环境之后，启动深度学习训练框架中的工具服务。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至6任一项所述的深度学习开发环境的构建方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如权利要求1至6任一项所述的深度学习开发环境的构建方法的步骤。