CN108958892A - 一种创建用于深度学习作业的容器的方法和装置 - Google Patents

一种创建用于深度学习作业的容器的方法和装置 Download PDF

Info

Publication number
CN108958892A
CN108958892A CN201810918890.2A CN201810918890A CN108958892A CN 108958892 A CN108958892 A CN 108958892A CN 201810918890 A CN201810918890 A CN 201810918890A CN 108958892 A CN108958892 A CN 108958892A
Authority
CN
China
Prior art keywords
mirror image
deep learning
docker
container
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810918890.2A
Other languages
English (en)
Inventor
袁绍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810918890.2A priority Critical patent/CN108958892A/zh
Publication of CN108958892A publication Critical patent/CN108958892A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances

Abstract

本发明公开了一种创建用于深度学习作业的容器的方法和装置。该方法包括:采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像,其中,在需要训练的Docker镜像中安装了训练所需的深度学习框架驱动程序、训练所需要的框架依赖,并且配置安全外壳协议SSHD服务;当接收到用户对于运行深度学习作业所需要的资源的选择以及用于训练深度学习作业的Docker镜像的选择的时候,根据集群中的计算节点的空闲资源情况,调度深度学习作业;当将深度学习作业调度到计算节点的时候,从镜像仓库推送由用户选择的Docker镜像,并且采用所推送的Docker镜像在集群中的各个计算节点上创建Docker容器。通过上述方式,可以方便地创建所需要的Docker容器,减少创建Docker容器所花费的时间和精力。

Description

一种创建用于深度学习作业的容器的方法和装置
技术领域
本发明涉及人工智能深度学习技术领域,尤指一种创建用于深度学习作业的容器的方法和装置。
背景技术
人工智能是计算机科学的一个分支,企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。现阶段人工智能主要是以深度学习框架来实现的。现在主流的深度学习框架包括:caffe、tensorflow、mxnet、darknet,不同框架依赖需要使用的容器是不同的,为此,用户需要大量繁琐的配置才能创建一个深度学习作业可用的容器。
发明内容
为了解决上述技术问题,本发明提供了一种创建用于深度学习作业的容器的方法和装置,其可以方便地创建所需要的Docker容器。
为了实现上述目的,一方面,本发明的实施例提供了一种创建用于深度学习作业的容器的方法,该方法包括:
采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像,其中,在需要训练的Docker镜像中安装了训练所需的深度学习框架驱动程序、训练所需要的框架依赖,并且配置安全外壳协议SSHD服务;
当接收到用户对于运行深度学习作业所需要的资源的选择以及用于训练深度学习作业的Docker镜像的选择的时候,根据集群中的计算节点的空闲资源情况,调度深度学习作业;
当将深度学习作业调度到计算节点的时候,从镜像仓库推送由用户选择的Docker镜像,并且采用所推送的Docker镜像在集群中的各个计算节点上创建Docker容器。
进一步地,在一个可选的实施例中,在采用所推送的Docker镜像在集群中的各个计算节点上创建Docker容器的步骤之后,该方法还包括:
将根据深度学习作业而分配的计算节点的硬件资源映射到Docker镜像,并且采用映射到Docker镜像的硬件资源和Docker容器来运行深度学习作业。
进一步地,在一个可选的实施例中,在采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像的步骤之后,该方法还包括:
如果获知深度学习框架驱动程序受到调整,则将采用经调整的深度学习框架驱动程序创建的Docker镜像存储在镜像仓库中。
进一步地,在一个可选的实施例中,所需要的资源包括:
用于深度学习作业训练的CPU资源、GPU资源、框架类型、队列信息。
进一步地,在一个可选的实施例中,集群中的计算节点和管理节点采用网络文件系统NFS的方式来共享所存储的文件;
在采用映射到Docker镜像的硬件资源和Docker容器来运行深度学习作业的步骤之后,该方法还包括:
将采用深度学习作业训练的模型文件存储到计算节点,以使计算节点将模型文件共享到管理节点。
另一方面,本发明实施例提供了一种创建用于深度学习作业的容器的装置,该装置包括:镜像存储模块、作业调度模块以及容器创建模块;其中,
镜像存储模块用于:采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像,其中,在需要训练的Docker镜像中安装了训练所需的深度学习框架驱动程序、训练所需要的框架依赖,并且配置安全外壳协议SSHD服务;
作业调度模块用于:当接收到用户对于运行深度学习作业所需要的资源的选择以及用于训练深度学习作业的Docker镜像的选择的时候,根据集群中的计算节点的空闲资源情况,调度深度学习作业;
容器创建模块用于:当将深度学习作业调度到计算节点的时候,从镜像仓库推送由用户选择的Docker镜像,并且采用所推送的Docker镜像在集群中的各个计算节点上创建Docker容器。
进一步地,在一个可选的实施例中,该装置还包括作业运行模块;
作业运行模块用于:在容器创建模块创建Docker容器之后,将根据深度学习作业而分配的计算节点的硬件资源映射到Docker镜像,并且采用映射到Docker镜像的硬件资源和Docker容器来运行深度学习作业。
进一步地,在一个可选的实施例中,该装置还包括调整镜像存储模块;
调整镜像存储模块用于:在镜像存储模块采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像之后,如果获知深度学习框架驱动程序受到调整,则将采用经调整的深度学习框架驱动程序创建的Docker镜像存储在镜像仓库中。
进一步地,在一个可选的实施例中,所需要的资源包括:
用于深度学习作业训练的CPU资源、GPU资源、框架类型、队列信息。
进一步地,在一个可选的实施例中,集群中的计算节点和管理节点采用网络文件系统NFS的方式来共享所存储的文件;
该装置还包括模型文件存储模块,模型文件存储模块用于:在作业运行模块采用映射到Docker镜像的硬件资源和Docker容器来运行深度学习作业之后,将采用深度学习作业训练的模型文件存储到计算节点,以使计算节点将模型文件共享到管理节点。
本发明实施例的有益效果在于,由于在Docker镜像中安装了深度学习框架驱动程序、框架依赖以及SSHD服务,因此可以方便地创建所需要的Docker容器,减少创建Docker容器所花费的时间和精力。由于Docker容器相互隔离,并且所使用的资源相互隔离,可以方便的保存Docker容器,以便未来根据深度学习训练的需要而使用不同的Docker容器。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的一种创建用于深度学习作业的容器的方法的流程图;
图2为本发明实施例提供的一种创建用于深度学习作业的容器的装置的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
一方面,本发明的实施例提供了一种创建用于深度学习作业的容器的方法,如图1所示,该方法包括步骤S101-S105。
步骤S101,采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像,其中,在需要训练的Docker镜像中安装了训练所需的深度学习框架驱动程序、训练所需要的框架依赖,并且配置安全外壳协议SSHD服务。
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用(在本文中指的是深度学习作业)以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。由于Docker不依赖于任何语言、框架包括系统,因此在底层使用Docker运行深度学习作业,避免了不同的深度学习框架的框架依赖(框架依赖包)之间的冲突。
步骤S103,当接收到用户对于运行深度学习作业所需要的资源的选择以及用于训练深度学习作业的Docker镜像的选择的时候,根据集群中的计算节点的空闲资源情况,调度深度学习作业。
其中,本方法的执行主体接收用户对于运行深度学习作业所需要的资源的选择以及对于提交深度学习作业的Docker镜像的选择。其中,用户通过客户端的web页面选择深度学习作业运行所需要的资源以及深度学习作业的Docker镜像,并且用户还会选择或者输入训练脚本。客户端采用B/S(Browser/Server,浏览器/服务器模式)架构管理系统,是web兴起后的一种网络结构模式,web浏览器是客户端最主要的应用软件。这种模式统一了客户端,将系统功能实现的核心部分集中到服务器上,简化了系统的开发、维护和使用。客户端上只要安装一个浏览器,如Netscape Navigator或Internet Explorer,服务器安装SQLServer、Oracle、MYSQL等数据库。浏览器通过Web Server同数据库进行数据交互。
在此之后,客户端会向集群中的管理节点发送请求,该请求可以是HTTP(HyperText Transfer Protocol,超文本传输协议)请求。管理节点在接收到请求后,将所接收的请求发送给slurm调度软件,通过slurm调度软件分配空闲资源。如没有可用的资源,则集群会进入排队状态。根据集群中的各个计算节点各自的使用和负载情况来调度深度学习作业,将深度学习作业分配到各个计算节点,各个计算节点提供运行深度学习作业所需的硬件资源。
步骤S105,当将深度学习作业调度到计算节点的时候,从镜像仓库向集群中的各个计算节点推送由用户选择的Docker镜像,并且在集群中的各个计算节点上创建Docker容器。
在此,将用户所选择的Docker镜像推送到各个计算节点,以使执行深度计算作业的各个计算节点上均创建了Docker容器。启动Docker容器将GPU,CPU资源映射到Docker容器中,将nvidia驱动和CUDA(Compute Unified Device Architecture,统一计算设备架构)驱动映射到相应的容器中。启动容器的SSHD服务,通过flannel配置集群网络。成功生成镜像后将容器的名称、IP地址返回给管理节点。管理节点获取IP地址后,利用shellbox服务可以在计算节点访问训练环境,训练任务。
本发明实施例的有益效果在于,由于在Docker镜像中安装了深度学习框架驱动程序、框架依赖以及SSHD服务,因此可以方便地创建所需要的Docker容器。由于Docker容器相互隔离,并且所使用的资源相互隔离,可以方便的保存Docker容器,以便未来根据深度学习训练的需要而使用不同的Docker容器。
进一步地,在一个可选的实施例中,在步骤S105之后,该方法还包括:将根据深度学习作业而分配的计算节点的硬件资源映射到Docker镜像,并且采用映射到Docker镜像的硬件资源和Docker容器来运行深度学习作业。
本发明实施例的有益效果在于,用户可以通过客户端来选择运行深度学习作业所需要的硬件资源,并且采用调度软件动态分配硬件资源中的CPU和GPU资源,因此保证了集群的硬件资源的高利用率,并且减少了用户调度集群的硬件资源所花费的时间和精力。不同的深度学习框架可以方便快捷的运行在整个集群上,避免了用户为不同框架配置不同的框架环境,底层使用Docker容器运行深度学习作业,避免了不同框架依赖冲突,减少了用户配置环境所花费的时间和精力。
进一步地,在步骤S101之后,该方法还包括:
如果获知深度学习框架驱动程序受到调整,则将采用经调整的深度学习框架驱动程序创建的Docker镜像存储在镜像仓库中。
如果获知深度学习框架驱动程序受到调整,则采用经调整的深度学习框架驱动程序所创建的Docker镜像也有可能产生变化,因此需要将采用经调整的深度学习框架驱动程序创建的Docker镜像重新存储在镜像仓库中。
进一步地,在一个可选的实施例中,所需要的资源包括:用于深度学习作业训练的CPU资源、GPU资源、框架类型、队列信息。
进一步地,在一个可选的实施例中,集群中的计算节点和管理节点采用网络文件系统NFS(Network File System,网络文件系统)的方式来共享所存储的文件。NFS是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间通过TCP/IP网络共享资源。
在采用映射到Docker镜像的硬件资源和Docker容器来运行深度学习作业的步骤之后,该方法还包括:将采用深度学习作业训练的模型文件存储到计算节点,以使计算节点将模型文件共享到管理节点。用户可以从管理节点获得该模型文件。
进一步地,在一个实施例中,在步骤S105之后,该方法还包括:采用覆盖网络工具flannel来配置集群。
在计算节点上创建Docker容器时,由于Docker容器的性质,两个计算节点的Docker容器之间是不互通的,因此通过部署覆盖网络工具flannel配置集群,对Docker容器的IP地址进行规划,就能实现跨计算节点的Docker容器之间的通信。将工作目录映射到作为Docker主机的计算节点,设置GPU资源映射,并且设置GPU使用环境。
另一方面,本发明的实施例提供了一种创建用于深度学习作业的容器的装置,如图2所示,该装置包括:镜像存储模块201、作业调度模块203、容器创建模块205。
镜像存储模块201用于:采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像,其中,在需要训练的Docker镜像中安装了训练所需的深度学习框架驱动程序、训练所需要的框架依赖,并且配置安全外壳协议SSHD服务。
作业调度模块203用于:当接收到用户对于运行深度学习作业所需要的资源的选择以及用于训练深度学习作业的Docker镜像的选择的时候,根据集群中的计算节点的空闲资源情况,调度深度学习作业。
容器创建模块205用于:当将深度学习作业调度到计算节点的时候,从镜像仓库推送由用户选择的Docker镜像,并且采用所推送的Docker镜像在集群中的各个计算节点上创建Docker容器。
本发明实施例的有益效果在于,由于在Docker镜像中安装了深度学习框架驱动程序、框架依赖以及SSHD服务,因此可以方便地创建所需要的Docker容器。由于Docker容器相互隔离,并且所使用的资源相互隔离,因此可以在未来根据深度学习训练的需要而方便地使用不同的Docker容器。
进一步地,在一个可选的实施例中,该装置还包括作业运行模块。
作业运行模块用于:在容器创建模块创建Docker容器之后,将根据深度学习作业而分配的计算节点的硬件资源映射到Docker镜像,并且采用映射到Docker镜像的硬件资源和Docker容器来运行深度学习作业。
进一步地,在一个可选的实施例中,该装置还包括调整镜像存储模块。
调整镜像存储模块用于:在镜像存储模块201采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像之后,如果获知深度学习框架驱动程序受到调整,则将采用经调整的深度学习框架驱动程序创建的Docker镜像存储在镜像仓库中。
进一步地,在一个可选的实施例中,所需要的资源包括:
用于深度学习作业训练的CPU资源、GPU资源、框架类型、队列信息。
进一步地,在一个可选的实施例中,集群中的计算节点和管理节点采用网络文件系统NFS的方式来共享所存储的文件;
该装置还包括模型文件存储模块,并且该模型文件存储模块用于:在作业运行模块207采用映射到Docker镜像的硬件资源和Docker容器来运行深度学习作业之后,将采用深度学习作业训练的模型文件存储到计算节点,以使计算节点将模型文件共享到管理节点。
进一步地,在一个可选的实施例中,该装置还包括集群配置模块,并且集群配置模块用于:在容器创建模块在集群中的各个计算节点上创建Docker容器之后,采用覆盖网络工具flannel来配置集群。
虽然本发明所揭露的实施方式如上,但上述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种创建用于深度学习作业的容器的方法,其特征在于,包括:
采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像,其中,在所述需要训练的Docker镜像中安装了训练所需的深度学习框架驱动程序、训练所需要的框架依赖,并且配置安全外壳协议SSHD服务;
当接收到用户对于运行深度学习作业所需要的资源的选择以及用于训练深度学习作业的Docker镜像的选择的时候,根据集群中的计算节点的空闲资源情况,调度所述深度学习作业;
当将所述深度学习作业调度到计算节点的时候,从镜像仓库推送由用户选择的Docker镜像,并且采用所推送的Docker镜像在集群中的各个计算节点上创建Docker容器。
2.根据权利要求1所述的方法,在所述采用所推送的Docker镜像在集群中的各个计算节点上创建Docker容器的步骤之后,所述方法还包括:
将根据所述深度学习作业而分配的所述计算节点的硬件资源映射到所述Docker镜像,并且采用映射到所述Docker镜像的硬件资源和所述Docker容器来运行深度学习作业。
3.根据权利要求1所述的方法,其特征在于,在所述采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像的步骤之后,所述方法还包括:
如果获知所述深度学习框架驱动程序受到调整,则将采用经调整的深度学习框架驱动程序创建的Docker镜像存储在所述镜像仓库中。
4.根据权利要求1所述的方法,其中,所述所需要的资源包括:
用于所述深度学习作业训练的CPU资源、GPU资源、框架类型、队列信息。
5.根据权利要求2所述的方法,其中,所述集群中的计算节点和管理节点采用网络文件系统NFS的方式来共享所存储的文件;
在所述采用映射到Docker镜像的硬件资源和所述Docker容器来运行深度学习作业的步骤之后,所述方法还包括:
将采用所述深度学习作业训练的模型文件存储到所述计算节点,以使所述计算节点将所述模型文件共享到管理节点。
6.一种创建用于深度学习作业的容器的装置,其特征在于,包括:镜像存储模块、作业调度模块以及容器创建模块;其中,
所述镜像存储模块用于:采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像,其中,在所述需要训练的Docker镜像中安装了训练所需的深度学习框架驱动程序、训练所需要的框架依赖,并且配置安全外壳协议SSHD服务;
所述作业调度模块用于:当接收到用户对于运行深度学习作业所需要的资源的选择以及用于训练深度学习作业的Docker镜像的选择的时候,根据集群中的计算节点的空闲资源情况,调度所述深度学习作业;
所述容器创建模块用于:当将所述深度学习作业调度到计算节点的时候,从镜像仓库推送由用户选择的Docker镜像,并且采用所推送的Docker镜像在集群中的各个计算节点上创建Docker容器。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括作业运行模块;
所述作业运行模块用于:在所述容器创建模块创建Docker容器之后,将根据所述深度学习作业而分配的所述计算节点的硬件资源映射到所述Docker镜像,并且采用映射到所述Docker镜像的硬件资源和所述Docker容器来运行深度学习作业。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括调整镜像存储模块;
所述调整镜像存储模块用于:在所述镜像存储模块采用镜像仓库接收并且存储由用户制作的需要训练的Docker镜像之后,如果获知所述深度学习框架驱动程序受到调整,则将采用经调整的深度学习框架驱动程序创建的Docker镜像存储在所述镜像仓库中。
9.根据权利要求6所述的装置,其中,所述所需要的资源包括:
用于所述深度学习作业训练的CPU资源、GPU资源、框架类型、队列信息。
10.根据权利要求7所述的装置,其中,所述集群中的计算节点和管理节点采用网络文件系统NFS的方式来共享所存储的文件;
所述装置还包括模型文件存储模块,所述模型文件存储模块用于:在所述作业运行模块采用映射到所述Docker镜像的硬件资源和所述Docker容器来运行深度学习作业之后,将采用所述深度学习作业训练的模型文件存储到所述计算节点,以使所述计算节点将所述模型文件共享到管理节点。
CN201810918890.2A 2018-08-14 2018-08-14 一种创建用于深度学习作业的容器的方法和装置 Pending CN108958892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810918890.2A CN108958892A (zh) 2018-08-14 2018-08-14 一种创建用于深度学习作业的容器的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810918890.2A CN108958892A (zh) 2018-08-14 2018-08-14 一种创建用于深度学习作业的容器的方法和装置

Publications (1)

Publication Number Publication Date
CN108958892A true CN108958892A (zh) 2018-12-07

Family

ID=64469373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810918890.2A Pending CN108958892A (zh) 2018-08-14 2018-08-14 一种创建用于深度学习作业的容器的方法和装置

Country Status (1)

Country Link
CN (1) CN108958892A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857475A (zh) * 2018-12-27 2019-06-07 深圳云天励飞技术有限公司 一种框架管理的方法及装置
CN110245003A (zh) * 2019-06-06 2019-09-17 中信银行股份有限公司 一种机器学习单机算法编排系统及方法
CN111090456A (zh) * 2019-12-06 2020-05-01 浪潮(北京)电子信息产业有限公司 一种深度学习开发环境的构建方法、装置、设备及介质
CN112114931A (zh) * 2019-06-21 2020-12-22 鸿富锦精密电子(天津)有限公司 深度学习程序配置方法、装置、电子设备及存储介质
CN112181721A (zh) * 2020-09-14 2021-01-05 东云睿连(武汉)计算技术有限公司 一种人工智能作业镜像管理方法和系统
CN112230911A (zh) * 2020-09-27 2021-01-15 北京通付盾人工智能技术有限公司 模型部署方法、装置、计算机设备和存储介质
CN112306629A (zh) * 2020-10-13 2021-02-02 苏州浪潮智能科技有限公司 一种基于深度学习平台的镜像回收的方法与系统
CN112364897A (zh) * 2020-10-27 2021-02-12 曙光信息产业(北京)有限公司 分布式训练方法及装置、存储介质及电子设备
CN112394944A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 分布式开发方法、装置、存储介质及计算机设备
TWI721464B (zh) * 2019-06-21 2021-03-11 鴻齡科技股份有限公司 深度學習程式配置方法、裝置、電子設備及存儲介質
CN112579303A (zh) * 2020-12-30 2021-03-30 苏州浪潮智能科技有限公司 一种深度学习开发平台资源的分配方法及设备
CN112700004A (zh) * 2020-12-25 2021-04-23 南方电网深圳数字电网研究院有限公司 基于容器技术的深度学习模型训练方法、设备及存储介质
CN112862098A (zh) * 2021-02-10 2021-05-28 杭州幻方人工智能基础研究有限公司 一种集群训练任务处理的方法及系统
CN113241056A (zh) * 2021-04-26 2021-08-10 标贝(北京)科技有限公司 语音合成模型的训练与语音合成方法、装置、系统及介质
CN115185667A (zh) * 2022-09-13 2022-10-14 天津市天河计算机技术有限公司 可视化应用的加速方法、装置、电子设备和存储介质
WO2023174163A1 (zh) * 2022-03-15 2023-09-21 之江实验室 类脑计算机操作系统的神经模型存储系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880832A (zh) * 2012-08-28 2013-01-16 曙光信息产业(北京)有限公司 一种集群下的数据海量管理的系统的实现方法
CN106790483A (zh) * 2016-12-13 2017-05-31 武汉邮电科学研究院 基于容器技术的Hadoop集群系统及快速构建方法
CN107135257A (zh) * 2017-04-28 2017-09-05 东方网力科技股份有限公司 一种节点集群中任务分配的方法、节点和系统
CN107450961A (zh) * 2017-09-22 2017-12-08 济南浚达信息技术有限公司 一种基于Docker容器的分布式深度学习系统及其搭建方法、工作方法
CN107480509A (zh) * 2017-09-22 2017-12-15 携程旅游网络技术(上海)有限公司 运维安全审计系统登录容器方法、系统、设备及存储介质
CN107634951A (zh) * 2017-09-22 2018-01-26 携程旅游网络技术(上海)有限公司 Docker容器安全管理方法、系统、设备及存储介质
CN107678756A (zh) * 2017-09-29 2018-02-09 千寻位置网络有限公司 一种基于Docker的Web应用一键发布方法
CN107733977A (zh) * 2017-08-31 2018-02-23 北京百度网讯科技有限公司 一种基于Docker的集群管理方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880832A (zh) * 2012-08-28 2013-01-16 曙光信息产业(北京)有限公司 一种集群下的数据海量管理的系统的实现方法
CN106790483A (zh) * 2016-12-13 2017-05-31 武汉邮电科学研究院 基于容器技术的Hadoop集群系统及快速构建方法
CN107135257A (zh) * 2017-04-28 2017-09-05 东方网力科技股份有限公司 一种节点集群中任务分配的方法、节点和系统
CN107733977A (zh) * 2017-08-31 2018-02-23 北京百度网讯科技有限公司 一种基于Docker的集群管理方法及装置
CN107450961A (zh) * 2017-09-22 2017-12-08 济南浚达信息技术有限公司 一种基于Docker容器的分布式深度学习系统及其搭建方法、工作方法
CN107480509A (zh) * 2017-09-22 2017-12-15 携程旅游网络技术(上海)有限公司 运维安全审计系统登录容器方法、系统、设备及存储介质
CN107634951A (zh) * 2017-09-22 2018-01-26 携程旅游网络技术(上海)有限公司 Docker容器安全管理方法、系统、设备及存储介质
CN107678756A (zh) * 2017-09-29 2018-02-09 千寻位置网络有限公司 一种基于Docker的Web应用一键发布方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857475A (zh) * 2018-12-27 2019-06-07 深圳云天励飞技术有限公司 一种框架管理的方法及装置
US11227221B2 (en) 2018-12-27 2022-01-18 Shenzhen Intellifusion Technologies Co., Ltd. Framework management method and apparatus
WO2020134549A1 (zh) * 2018-12-27 2020-07-02 深圳云天励飞技术有限公司 一种框架管理的方法及装置
CN109857475B (zh) * 2018-12-27 2020-06-16 深圳云天励飞技术有限公司 一种框架管理的方法及装置
CN110245003A (zh) * 2019-06-06 2019-09-17 中信银行股份有限公司 一种机器学习单机算法编排系统及方法
CN112114931A (zh) * 2019-06-21 2020-12-22 鸿富锦精密电子(天津)有限公司 深度学习程序配置方法、装置、电子设备及存储介质
CN112114931B (zh) * 2019-06-21 2023-12-26 富联精密电子(天津)有限公司 深度学习程序配置方法、装置、电子设备及存储介质
TWI721464B (zh) * 2019-06-21 2021-03-11 鴻齡科技股份有限公司 深度學習程式配置方法、裝置、電子設備及存儲介質
CN112394944A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 分布式开发方法、装置、存储介质及计算机设备
CN111090456A (zh) * 2019-12-06 2020-05-01 浪潮(北京)电子信息产业有限公司 一种深度学习开发环境的构建方法、装置、设备及介质
CN112181721A (zh) * 2020-09-14 2021-01-05 东云睿连(武汉)计算技术有限公司 一种人工智能作业镜像管理方法和系统
CN112181721B (zh) * 2020-09-14 2024-03-19 东云睿连(武汉)计算技术有限公司 一种人工智能作业镜像管理方法和系统
CN112230911A (zh) * 2020-09-27 2021-01-15 北京通付盾人工智能技术有限公司 模型部署方法、装置、计算机设备和存储介质
CN112230911B (zh) * 2020-09-27 2023-12-29 北京通付盾人工智能技术有限公司 模型部署方法、装置、计算机设备和存储介质
CN112306629B (zh) * 2020-10-13 2022-09-20 苏州浪潮智能科技有限公司 一种基于深度学习平台的镜像回收的方法与系统
CN112306629A (zh) * 2020-10-13 2021-02-02 苏州浪潮智能科技有限公司 一种基于深度学习平台的镜像回收的方法与系统
CN112364897A (zh) * 2020-10-27 2021-02-12 曙光信息产业(北京)有限公司 分布式训练方法及装置、存储介质及电子设备
CN112700004A (zh) * 2020-12-25 2021-04-23 南方电网深圳数字电网研究院有限公司 基于容器技术的深度学习模型训练方法、设备及存储介质
CN112579303A (zh) * 2020-12-30 2021-03-30 苏州浪潮智能科技有限公司 一种深度学习开发平台资源的分配方法及设备
CN112862098A (zh) * 2021-02-10 2021-05-28 杭州幻方人工智能基础研究有限公司 一种集群训练任务处理的方法及系统
CN113241056A (zh) * 2021-04-26 2021-08-10 标贝(北京)科技有限公司 语音合成模型的训练与语音合成方法、装置、系统及介质
CN113241056B (zh) * 2021-04-26 2024-03-15 标贝(青岛)科技有限公司 语音合成模型的训练与语音合成方法、装置、系统及介质
WO2023174163A1 (zh) * 2022-03-15 2023-09-21 之江实验室 类脑计算机操作系统的神经模型存储系统及方法
CN115185667B (zh) * 2022-09-13 2022-12-20 天津市天河计算机技术有限公司 可视化应用的加速方法、装置、电子设备和存储介质
CN115185667A (zh) * 2022-09-13 2022-10-14 天津市天河计算机技术有限公司 可视化应用的加速方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108958892A (zh) 一种创建用于深度学习作业的容器的方法和装置
CN109086134A (zh) 一种深度学习作业的运行方法和装置
Mungoli Scalable, Distributed AI Frameworks: Leveraging Cloud Computing for Enhanced Deep Learning Performance and Efficiency
Nastic et al. A serverless real-time data analytics platform for edge computing
CN109636691B (zh) 一种基于docker的在线实验教学平台及实现方法
CN103516777B (zh) 用于在云计算机环境中进行供应的方法和系统
CN109272116A (zh) 一种深度学习的方法及装置
CN107733977A (zh) 一种基于Docker的集群管理方法及装置
CN108062246A (zh) 用于深度学习框架的资源调度方法和装置
CN110888721A (zh) 一种任务调度的方法及相关装置
WO2016150328A1 (zh) 一种数据标注的管理方法及装置
CN105453035B (zh) 用于接收对存储在计算机系统处的软件组件的更新的方法
Xia et al. Microservice-based cloud robotics system for intelligent space
CN107343045A (zh) 云计算系统及用于控制服务器的云计算方法和装置
CN105144102B (zh) 自适应数据同步
CN107450961A (zh) 一种基于Docker容器的分布式深度学习系统及其搭建方法、工作方法
CN109961151A (zh) 用于机器学习的计算服务的系统及用于机器学习的方法
CN107943577A (zh) 用于调度任务的方法和装置
CN109034396A (zh) 用于处理分布式集群中的深度学习作业的方法和装置
CN108462746A (zh) 一种基于openstack的容器部署方法及架构
US10977076B2 (en) Method and apparatus for processing a heterogeneous cluster-oriented task
CN102012840A (zh) 一种数据的批量调度方法和系统
CN109144661A (zh) 一种基于docker的深度学习管理方法
CN112667594A (zh) 一种基于混合云资源的异构计算平台及模型训练方法
CN109213496A (zh) 一种部署OpenStack的实现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207