CN111090456A - 一种深度学习开发环境的构建方法、装置、设备及介质 - Google Patents

一种深度学习开发环境的构建方法、装置、设备及介质 Download PDF

Info

Publication number
CN111090456A
CN111090456A CN201911244714.6A CN201911244714A CN111090456A CN 111090456 A CN111090456 A CN 111090456A CN 201911244714 A CN201911244714 A CN 201911244714A CN 111090456 A CN111090456 A CN 111090456A
Authority
CN
China
Prior art keywords
deep learning
development environment
loading
hardware resource
learning development
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911244714.6A
Other languages
English (en)
Inventor
袁绍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201911244714.6A priority Critical patent/CN111090456A/zh
Publication of CN111090456A publication Critical patent/CN111090456A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5055Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering software capabilities, i.e. software resources associated or available to the machine

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种深度学习开发环境的构建方法、装置、电子设备及计算机可读存储介质,该深度学习开发环境的构建方法包括:接收输入的硬件资源设置参数和深度学习训练框架类型;基于预设的开发环境调度系统,根据硬件资源设置参数为深度学习开发环境分配硬件资源,获取并加载对应类型的深度学习训练框架容器镜像;基于开发环境调度系统,加载与硬件资源适配的驱动,启动深度学习开发环境。本申请基于预设的开发环境调度系统,以容器部署方式可在大规模GPU集群中快速有效地搭建深度学习开发环境,减轻开发人员工作量,并有效改善开发环境搭建过程中的局限性,提高了用户的灵活分配性,极大便利了用户操作、提高了开发环境的搭建效率与质量。

Description

一种深度学习开发环境的构建方法、装置、设备及介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种深度学习开发环境的构建方法、装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能(AI)行业的蓬勃发展,AI应用所需的计算资源和数据资源越来越庞大。通常,AI应用多基于GPU集群构建,但随着集群规模的扩大,如何快速分配GPU计算资源以搭建AI训练环境成为了一个亟需解决的问题。
当前业界中普遍由集群管理员手动分配资源、手动创建深度学习开发环境。由于GPU集群规模越来越过大,手动分配的复杂度和难度越来越大;并且现有技术中依赖虚拟机搭建AI环境受限较多,使得手工操作工作量大、过程繁琐、灵活性差。鉴于此,提供一种解决上述技术问题的方案,已经是本领域技术人员所亟需关注的。
发明内容
本申请的目的在于提供一种深度学习开发环境的构建方法、装置、电子设备及计算机可读存储介质,以便在大规模GPU集群中快速有效地搭建深度学习开发环境,减轻开发人员工作量并提高工作效率。
为解决上述技术问题,第一方面,本申请公开了一种深度学习开发环境的构建方法,包括:
接收输入的硬件资源设置参数和深度学习训练框架类型;
基于预设的开发环境调度系统,根据所述硬件资源设置参数为所述深度学习开发环境分配硬件资源,获取并加载对应类型的深度学习训练框架容器镜像;
基于所述开发环境调度系统,加载与硬件资源适配的驱动,启动所述深度学习开发环境。
可选地,所述硬件资源设置参数包括CPU数和GPU数。
可选地,所述获取并加载对应类型的深度学习训练框架容器镜像,包括:
判断本地是否存在对应类型的深度学习训练框架容器镜像;
若有,则加载本地的所述深度学习训练框架容器镜像;
若无,则从预设docker容器镜像管理仓库中获取并加载所述深度学习训练框架容器镜像。
可选地,所述加载与硬件资源适配的驱动,包括:
通过预设docker驱动映射程序加载与硬件资源适配的驱动。
可选地,在所述启动所述深度学习开发环境之后,还包括:
启动深度学习训练框架中的工具服务。
可选地,所述启动所述深度学习开发环境,包括:
运行所述深度学习开发环境并配置登录密码。
第二方面,本申请还公开了一种深度学习开发环境的构建装置,包括:
接收模块,用于接收输入的硬件资源设置参数和深度学习训练框架类型;
构建模块,用于基于预设的开发环境调度系统,根据所述硬件资源设置参数为所述深度学习开发环境分配硬件资源,获取并加载对应类型的深度学习训练框架容器镜像;加载与硬件资源适配的驱动,启动所述深度学习开发环境。
可选地,所述硬件资源设置参数包括CPU数和GPU数。
可选地,所述构建模块具体用于:判断本地是否存在对应类型的深度学习训练框架容器镜像;若有,则加载本地的所述深度学习训练框架容器镜像;若无,则从预设docker容器镜像管理仓库中获取并加载所述深度学习训练框架容器镜像。
可选地,所述构建模块具体用于:通过预设docker驱动映射程序加载与硬件资源适配的驱动。
可选地,所述构建模块还用于:在启动所述深度学习开发环境之后,启动深度学习训练框架中的工具服务。
第三方面,本申请还公开了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上所述的任一种深度学习开发环境的构建方法的步骤。
第四方面,本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上所述的任一种深度学习开发环境的构建方法的步骤。
本申请所提供的深度学习开发环境的构建方法包括:接收输入的硬件资源设置参数和深度学习训练框架类型;基于预设的开发环境调度系统,根据所述硬件资源设置参数为所述深度学习开发环境分配硬件资源,获取并加载对应类型的深度学习训练框架容器镜像;基于所述开发环境调度系统,加载与硬件资源适配的驱动,启动所述深度学习开发环境。
可见,本申请基于预设的开发环境调度系统,以容器的部署方式可在大规模GPU集群中快速有效地搭建深度学习开发环境,减轻开发人员工作量,并有效改善开发环境搭建过程中的局限性,提高了用户的灵活分配性,极大地便利了用户操作,提高了开发环境的搭建效率与质量。本申请所提供的深度学习开发环境的构建装置、电子设备及计算机可读存储介质同样具有上述有益效果。
附图说明
为了更清楚地说明现有技术和本申请实施例中的技术方案,下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然,下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本申请的保护范围。
图1为本申请实施例公开的一种深度学习开发环境的构建方法的流程图;
图2为本申请实施例公开的一种深度学习开发环境的构建装置的结构框图;
图3为本申请实施例公开的一种电子设备的结构框图。
具体实施方式
本申请的核心在于提供一种深度学习开发环境的构建方法、装置、电子设备及计算机可读存储介质,以便在大规模GPU集群中快速有效地搭建深度学习开发环境,减轻开发人员工作量并提高工作效率。
为了对本申请实施例中的技术方案进行更加清楚、完整地描述,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行介绍。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
GPU(Graphics Processing Unit,图形处理器)是深度学习等人工智能算法应用中所经常使用的器件。GPU集群则是指由若干个配备有GPU的节点所构成的计算机集群。基于现代GPU的通用计算能力,可以令GPU集群执行非常快速的计算。
当前,业界中普遍由集群管理员手动分配资源、手动创建深度学习开发环境。由于GPU集群规模越来越过大,手动分配的复杂度和难度越来越大;并且搭建AI环境需要安装各种依赖工具等,使得手工操作工作量大、过程繁琐。在此过程中,用户多采用虚拟机的方式来搭建环境。但是虚拟机的镜像庞大,可移植性差,因此GPU对于虚拟机的支持并不好,若虚拟机的形式,虚拟机只能将所有的GPU以直通的方式映射进来,无法对GPU灵活分配。并且,虚拟机没有统一管理训练环境的方案,无法提供完整的AI开发训练场景,需要大量的安装部署工作,耗时耗力。而且虚拟机在启动过程中需要占用大量的资源,造成资源浪费。鉴于此,本申请提供了一种深度学习开发环境的构建方法,可有效解决上述问题。
参见图1所示,本申请实施例公开了一种深度学习开发环境的构建方法,主要包括:
S101:接收输入的硬件资源设置参数和深度学习训练框架类型。
其中,作为一个具体实施例,硬件资源设置参数可包括CPU数和GPU数。GPU集群中的计算机节点中可配置若干个GPU实体硬件,深度学习开发环境的搭建便具体需要依赖于CPU、GPU这些实体硬件。用户可自行输入设置参数以设置所搭建的深度学习开发环境中使用的CPU数和GPU数。这些参数可具体称为硬件资源设置参数,即用以配置深度学习开发环境的配置的参数。
深度学习开饭环境有一些常用的训练框架,如tensorflow、caffe、ytorch等。因此,除了硬件资源设置参数以外,用户还可进一步指定深度学习开发环境的训练框架类型。
S102:基于预设的开发环境调度系统,根据硬件资源设置参数为深度学习开发环境分配硬件资源,获取并加载对应类型的深度学习训练框架容器镜像。
首先需要说明的是,本申请实施例所提供的深度学习开发环境的搭建方法无需用户手动搭建,而是通过调用预先设置的开发环境调度系统来自动实现搭建过程。当该开发环境调度系统启动后,可根据接收到的硬件资源设置参数和深度学习训练框架类型而自动进行环境搭建,从而帮助减少开发人员的工作量,并极大地提高了开发效率和正确率。
开发环境调度系统可具体基于slurm系统开发实现。slurm系统是一个开源、容错、高可伸缩的集群管理和Linux集群作业调度的系统。slurm系统无需对操作系统内核进行修改,是相对独立的。本申请所提供的开发环境调度系统作为统一的深度学习环境管理平台,支持用户优先级,资源抢占回填,可对开发环境进行统一管理,并可以实现开发环境公开、组共享等策略。
其次,还需要重点说明的是,本申请实施例所提供的深度学习开发环境的搭建方法并没有采用基于虚拟机的搭建方式,而是以容器的方式来部署搭建深度学习开发环境。具体地,开发环境调度系统在根据硬件资源设置参数分配完对应数量的CPU和GPU后,便加载与用户所选类型的深度学习训练框架的容器镜像以部署开发环境。
其中,获取并加载对应类型的深度学习训练框架容器镜像可具体包括如下步骤:判断本地是否存在对应类型的深度学习训练框架容器镜像;若有,则加载本地的深度学习训练框架容器镜像;若无,则从预设docker容器镜像管理仓库中获取并加载深度学习训练框架容器镜像。
与虚拟机不同,容器具有统一管理训练环境的方案,并可利用容器镜像管理仓库实现对容器镜像的高效管理,极大地便利了开发环境的搭建。其中,Docker是一个开源的应用容器引擎,可以允许开发者将应用和依赖包打包到可移植的镜像中,并允许发布到任何流行的Linux或Windows机器上,也可以实现虚拟化。容器镜像管理仓库在集群中可相互共享。
S103:基于开发环境调度系统,加载与硬件资源适配的驱动,启动深度学习开发环境。
其中,作为一个具体实施例,加载与硬件资源适配的驱动可具体包括:通过预设docker驱动映射程序加载与硬件资源适配的驱动。这里所说的驱动包括与GPU实体硬件适配的驱动。即,本实施例中具体采用原生docker映射驱动的方案,通过调用自行开发的预设docker驱动映射程序而非相关GPU厂家所提供的驱动映射程序来加载驱动,可有效避免局限性。
当加载完硬件驱动后,便可启动容器镜像,以便将所需资源和开发代码映射到所搭建的开发环境中完成搭建。其中,作为一种具体实施例,启动深度学习开发环境时可具体包括:运行深度学习开发环境并配置登录密码。为了对该深度学习开发环境的使用进行管理,可为其配置登录密码,以便供具有使用权的用户登录到开发环境进行开发使用。具体可采用jupyter登录方式,当然,也可采用ssh无密码登录。
此外,还需说明的是,在上述内容的基础上,本申请实施例所提供的深度学习开发环境的构建方法在启动深度学习开发环境之后,还可以进一步启动深度学习训练框架中的工具服务。具体地,为方便用户使用,深度学习训练框架中一般提供了一些常用的服务工具。以tensorflow的深度学习训练框架为例,可具体启动其中的tensorboard、jupyter等服务工具以供调用。
本申请实施例所提供的深度学习开发环境的构建方法包括:接收输入的硬件资源设置参数和深度学习训练框架类型;基于预设的开发环境调度系统,根据硬件资源设置参数为深度学习开发环境分配硬件资源,获取并加载对应类型的深度学习训练框架容器镜像;基于开发环境调度系统,加载与硬件资源适配的驱动,启动深度学习开发环境。
可见,本申请基于预设的开发环境调度系统,以容器的部署方式可在大规模GPU集群中快速有效地搭建深度学习开发环境,减轻开发人员工作量,并有效改善开发环境搭建过程中的局限性,提高了用户的灵活分配性,极大地便利了用户操作,提高了开发环境的搭建效率与质量。
参见图2所示,本申请实施例公开了一种深度学习开发环境的构建装置,主要包括:
接收模块201,用于接收输入的硬件资源设置参数和深度学习训练框架类型;
构建模块202,用于基于预设的开发环境调度系统,根据硬件资源设置参数为深度学习开发环境分配硬件资源,获取并加载对应类型的深度学习训练框架容器镜像;加载与硬件资源适配的驱动,启动深度学习开发环境。
可见,本申请实施例所公开的深度学习开发环境的构建装置,基于预设的开发环境调度系统,以容器的部署方式可在大规模GPU集群中快速有效地搭建深度学习开发环境,减轻开发人员工作量,并有效改善开发环境搭建过程中的局限性,提高了用户的灵活分配性,极大地便利了用户操作,提高了开发环境的搭建效率与质量。
关于上述深度学习开发环境的构建装置的具体内容,可参考前述关于深度学习开发环境的构建方法的详细介绍,这里就不再赘述。
作为一个具体实施例,在上述内容的基础上,本申请实施例所公开的深度学习开发环境的构建装置中,硬件资源设置参数包括CPU数和GPU数。
作为一个具体实施例,在上述内容的基础上,本申请实施例所公开的深度学习开发环境的构建装置中,构建模块202具体用于:判断本地是否存在对应类型的深度学习训练框架容器镜像;若有,则加载本地的深度学习训练框架容器镜像;若无,则从预设docker容器镜像管理仓库中获取并加载深度学习训练框架容器镜像。
作为一个具体实施例,在上述内容的基础上,本申请实施例所公开的深度学习开发环境的构建装置中,构建模块202具体用于通过预设docker驱动映射程序加载与硬件资源适配的驱动。
作为一个具体实施例,在上述内容的基础上,本申请实施例所公开的深度学习开发环境的构建装置中,构建模块202还用于:在启动深度学习开发环境之后,启动深度学习训练框架中的工具服务。
作为一个具体实施例,在上述内容的基础上,本申请实施例所公开的深度学习开发环境的构建装置中,构建模块202具体用于:运行深度学习开发环境并配置登录密码。
参见图3所示,本申请实施例公开了一种电子设备,包括:
存储器301,用于存储计算机程序;
处理器302,用于执行所述计算机程序以实现如上所述的任一种深度学习开发环境的构建方法的步骤。
进一步地,本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上所述的任一种深度学习开发环境的构建方法的步骤。
关于上述电子设备和计算机可读存储介质的具体内容,可参考前述关于深度学习开发环境的构建方法的详细介绍,这里就不再赘述。
本申请中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需说明的是,在本申请文件中,诸如“第一”和“第二”之类的关系术语,仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。此外,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请的保护范围内。

Claims (10)

1.一种深度学习开发环境的构建方法,其特征在于,包括:
接收输入的硬件资源设置参数和深度学习训练框架类型;
基于预设的开发环境调度系统,根据所述硬件资源设置参数为所述深度学习开发环境分配硬件资源,获取并加载对应类型的深度学习训练框架容器镜像;
基于所述开发环境调度系统,加载与硬件资源适配的驱动,启动所述深度学习开发环境。
2.根据权利要求1所述的深度学习开发环境的构建方法,其特征在于,所述硬件资源设置参数包括CPU数和GPU数。
3.根据权利要求1所述的深度学习开发环境的构建方法,其特征在于,所述获取并加载对应类型的深度学习训练框架容器镜像,包括:
判断本地是否存在对应类型的深度学习训练框架容器镜像;
若有,则加载本地的所述深度学习训练框架容器镜像;
若无,则从预设docker容器镜像管理仓库中获取并加载所述深度学习训练框架容器镜像。
4.根据权利要求1所述的深度学习开发环境的构建方法,其特征在于,所述加载与硬件资源适配的驱动,包括:
通过预设docker驱动映射程序加载与硬件资源适配的驱动。
5.根据权利要求1所述的深度学习开发环境的构建方法,其特征在于,在所述启动所述深度学习开发环境之后,还包括:
启动深度学习训练框架中的工具服务。
6.根据权利要求1至5任一项所述的深度学习开发环境的构建方法,其特征在于,所述启动所述深度学习开发环境,包括:
运行所述深度学习开发环境并配置登录密码。
7.一种深度学习开发环境的构建装置,其特征在于,包括:
接收模块,用于接收输入的硬件资源设置参数和深度学习训练框架类型;
构建模块,用于基于预设的开发环境调度系统,根据所述硬件资源设置参数为所述深度学习开发环境分配硬件资源,获取并加载对应类型的深度学习训练框架容器镜像;加载与硬件资源适配的驱动,启动所述深度学习开发环境。
8.根据权利要求7所述的深度学习开发环境的构建装置,其特征在于,所述构建模块还用于:
在启动所述深度学习开发环境之后,启动深度学习训练框架中的工具服务。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至6任一项所述的深度学习开发环境的构建方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如权利要求1至6任一项所述的深度学习开发环境的构建方法的步骤。
CN201911244714.6A 2019-12-06 2019-12-06 一种深度学习开发环境的构建方法、装置、设备及介质 Withdrawn CN111090456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911244714.6A CN111090456A (zh) 2019-12-06 2019-12-06 一种深度学习开发环境的构建方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911244714.6A CN111090456A (zh) 2019-12-06 2019-12-06 一种深度学习开发环境的构建方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN111090456A true CN111090456A (zh) 2020-05-01

Family

ID=70395482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911244714.6A Withdrawn CN111090456A (zh) 2019-12-06 2019-12-06 一种深度学习开发环境的构建方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111090456A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035220A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 开发机操作任务的处理方法、装置、设备以及存储介质
CN112181644A (zh) * 2020-09-21 2021-01-05 上海微亿智造科技有限公司 用于机器学习组件Jupyter跨域的方法、系统及装置
CN112416585A (zh) * 2020-11-20 2021-02-26 南京大学 面向深度学习的gpu资源管理与智能化调度方法
TWI783355B (zh) * 2020-08-12 2022-11-11 大陸商中國銀聯股份有限公司 深度學習模型的分布式訓練方法以及裝置
CN112650478B (zh) * 2021-01-04 2024-03-26 中车青岛四方车辆研究所有限公司 一种嵌入式软件开发平台动态构建方法、系统及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516090A (zh) * 2017-09-11 2017-12-26 北京百度网讯科技有限公司 一体化人脸识别方法和系统
CN108958892A (zh) * 2018-08-14 2018-12-07 郑州云海信息技术有限公司 一种创建用于深度学习作业的容器的方法和装置
CN109086134A (zh) * 2018-07-19 2018-12-25 郑州云海信息技术有限公司 一种深度学习作业的运行方法和装置
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516090A (zh) * 2017-09-11 2017-12-26 北京百度网讯科技有限公司 一体化人脸识别方法和系统
CN109086134A (zh) * 2018-07-19 2018-12-25 郑州云海信息技术有限公司 一种深度学习作业的运行方法和装置
CN108958892A (zh) * 2018-08-14 2018-12-07 郑州云海信息技术有限公司 一种创建用于深度学习作业的容器的方法和装置
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI783355B (zh) * 2020-08-12 2022-11-11 大陸商中國銀聯股份有限公司 深度學習模型的分布式訓練方法以及裝置
CN112181644A (zh) * 2020-09-21 2021-01-05 上海微亿智造科技有限公司 用于机器学习组件Jupyter跨域的方法、系统及装置
CN112181644B (zh) * 2020-09-21 2021-08-06 上海微亿智造科技有限公司 用于机器学习组件Jupyter跨域的方法、系统及装置
CN112035220A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 开发机操作任务的处理方法、装置、设备以及存储介质
CN112416585A (zh) * 2020-11-20 2021-02-26 南京大学 面向深度学习的gpu资源管理与智能化调度方法
CN112416585B (zh) * 2020-11-20 2024-03-15 南京大学 面向深度学习的gpu资源管理与智能化调度方法
CN112650478B (zh) * 2021-01-04 2024-03-26 中车青岛四方车辆研究所有限公司 一种嵌入式软件开发平台动态构建方法、系统及设备

Similar Documents

Publication Publication Date Title
CN111090456A (zh) 一种深度学习开发环境的构建方法、装置、设备及介质
Srirama et al. Application deployment using containers with auto-scaling for microservices in cloud environment
US20190318240A1 (en) Training machine learning models in distributed computing systems
CN108337109B (zh) 一种资源分配方法及装置和资源分配系统
CN106371889B (zh) 一种调度镜像的高性能集群系统实现方法及装置
CN108062254B (zh) 作业处理方法、装置、存储介质及设备
CN103810015A (zh) 虚拟机创建方法和设备
CN111045786B (zh) 一种云环境下的基于镜像分层技术的容器创建系统及方法
CN113157379A (zh) 集群节点资源调度方法及装置
US20120144389A1 (en) Optimizing virtual image deployment for hardware architecture and resources
CN110806928A (zh) 一种作业提交方法及系统
CN115686805A (zh) Gpu资源共享的方法和装置、调度gpu资源共享的方法和装置
CN113204353A (zh) 一种大数据平台组件部署方法及装置
CN113886069A (zh) 一种资源分配方法、装置、电子设备及存储介质
US20220237090A1 (en) Autonomous organization and role selection of homogenous workers
CN111796933A (zh) 资源调度方法、装置、存储介质和电子设备
US20120240111A1 (en) Storage medium storing program for controlling virtual machine, computing machine, and method for controlling virtual machine
CN115048216A (zh) 一种人工智能集群的资源管理调度方法、装置和设备
CN110532060A (zh) 一种混合网络环境数据采集方法及系统
CN113760543A (zh) 资源管理方法、装置、电子设备及计算机可读存储介质
Wu et al. Abp scheduler: Speeding up service spread in docker swarm
CN115102851B (zh) 一种面向hpc与ai融合计算的融合平台及其资源管理方法
CN113806027A (zh) 任务编排方法、装置、电子设备和计算机可读存储介质
CN110782040A (zh) 一种pytorch任务训练方法、装置、设备及介质
CN110569104A (zh) 深度学习系统中任务训练的管理方法和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200501

WW01 Invention patent application withdrawn after publication