CN109213600A - 一种基于ai云的gpu资源调度方法和装置 - Google Patents

一种基于ai云的gpu资源调度方法和装置 Download PDF

Info

Publication number
CN109213600A
CN109213600A CN201811056452.6A CN201811056452A CN109213600A CN 109213600 A CN109213600 A CN 109213600A CN 201811056452 A CN201811056452 A CN 201811056452A CN 109213600 A CN109213600 A CN 109213600A
Authority
CN
China
Prior art keywords
gpu
server
docker
cloud
creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811056452.6A
Other languages
English (en)
Other versions
CN109213600B (zh
Inventor
房体盈
刘正伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811056452.6A priority Critical patent/CN109213600B/zh
Publication of CN109213600A publication Critical patent/CN109213600A/zh
Application granted granted Critical
Publication of CN109213600B publication Critical patent/CN109213600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种基于AI云的GPU资源调度方法和装置,该方法包括:实时监控是否有深度学习任务提交;当监控到有深度学习任务提交时,获取当前空闲的所有GPU资源;从当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器;在可用的AI服务器上创建容器docker,并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中,使该挂载的GPU资源独享新创建的docker,并在创建的docker中执行深度学习任务。通过该实施例方案,有效的提高了GPU资源利用率,同时提高了算法工程师的训练速度,使得GPU得到充分利用,节约了基础设施建造成本。

Description

一种基于AI云的GPU资源调度方法和装置
技术领域
本发明实施例涉及AI云应用技术,尤指一种基于AI云的GPU资源调度方法和装置。
背景技术
在AI(Artificial Intelligence人工智能)时代,算法工程师需要进行大量深度学习任务,通常使用docker容器来作为训练环境,使用昂贵的图形处理器GPU卡能显著提高训练速度,大量配有GPU卡的AI服务器通过AI云平台统一管理,当算法工程师需要使用GPU资源时,就需要GPU资源的分配,如何最大限度的将闲置的GPU资源全部利用起来就是一个需要面临解决的问题。
发明内容
本发明实施例提供了一种基于AI云的GPU资源调度方法和装置,能够使得AI云有效的提高GPU资源利用率,同时也提高算法工程师的训练速度,使得GPU得到充分利用,节约基础设施建造成本。
为了达到本发明实施例目的,本发明实施例提供了一种基于人工智能AI云的图形处理器GPU资源调度方法,所述方法包括:
实时监控是否有深度学习任务提交;
当监控到有深度学习任务提交时,获取当前空闲的所有GPU资源;
从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器;
在所述可用的AI服务器上创建容器docker,并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中,使该挂载的GPU资源独享所述新创建的docker,并在创建的所述docker中执行所述深度学习任务。
可选地,所述从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器包括:
检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件;
当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器满足所述创建条件时,将该AI服务器作为所述可用的AI服务器;
当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器不满足所述创建条件时,将该AI服务器作为不可用的AI服务器。
可选地,所述创建条件包括以下任意一种或多种:所述AI服务器的CPU频率、内存大小和存储容量大小。
可选地,在从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器之前,所述方法还包括:根据所需创建的docker的总数和/或每个AI服务器上需要创建的docker的数量,计算所述创建条件中各项所需满足的数值,以根据所述各项所需满足的数值检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件。
可选地,所述获取当前空闲的所有GPU资源包括:发起空闲GPU查询请求,并根据所述空闲GPU查询请求的返回结果统计出当前空闲的所有GPU资源。
可选地,所述方法还包括:当根据所述查询请求的返回结果未获取当前空闲的GPU资源时,则进行排队等待,并定时发起所述空闲GPU查询请求,直至获取空闲的GPU资源。
可选地,所述方法还包括:在所述深度学习任务执行完毕后,自动销毁创建的所述docker。
可选地,创建的每一个docker的配置是相同的。
可选地,所述每一个docker的配置包括以下任意一种或多种:CPU频率、内存大小、存储容量大小和GPU卡个数。
本发明实施例还提供了一种基于人工智能AI云的图形处理器GPU资源调度装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任意一项所述的基于AI云的GPU资源调度方法。
本发明实施例包括:实时监控是否有深度学习任务提交;当监控到有深度学习任务提交时,获取当前空闲的所有GPU资源;从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器;在所述可用的AI服务器上创建容器docker,并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中,使该挂载的GPU资源独享所述新创建的docker,并在创建的所述docker中执行所述深度学习任务。通过该实施例方案,使得AI云有效的提高了GPU资源利用率,同时也提高了算法工程师的训练速度,使得GPU得到充分利用,节约了基础设施建造成本。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。
图1为本发明实施例的基于人工智能AI云的图形处理器GPU资源调度方法流程图;
图2为本发明实施例的基于人工智能AI云的图形处理器GPU资源调度方法示意图;
图3为本发明实施例的从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器的方法流程图;
图4为本发明实施例的基于人工智能AI云的图形处理器GPU资源调度装置组成框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为了达到本发明实施例目的,本发明实施例提供了一种基于人工智能AI云的图形处理器GPU资源调度方法,如图1、图2所示,所述方法可以包括S101-S104:
S101、实时监控是否有深度学习任务提交。
在本发明实施例中,可以预先设置资源监控装置,实时监控是否有深度学习任务提交,当算法工程师提交一个深度学习任务,即训练任务时,资源监控装置可以获取到该监控信息。
S102、当监控到有深度学习任务提交时,获取当前空闲的所有GPU资源。
在本发明实施例中,当资源监控装置监控到有深度学习任务提交时,资源监控装置可以向预设的任务调度装置提供该监控信息。任务调度模块可以根据资源监控模块提供的监控信息,获取当前空闲的所有GPU资源。
在本发明实施例中,所述获取当前空闲的所有GPU资源可以包括:发起空闲GPU查询请求,并根据所述空闲GPU查询请求的返回结果统计出当前空闲的所有GPU资源。
在本发明实施例中,任务调度装置可以向资源监控装置发起空闲GPU查询请求;资源监控装置可以根据该空闲GPU查询请求返回所有空闲的GPU资源。
在本发明实施例中,只要是空闲的GPU都可以拿来给此深度学习任务使用。
在本发明实施例中,设计合理的任务调度策略,只要是空闲的GPU都可以拿给当前提交的任务去使用,使用完就立即释放,进而提高训练速度。
在本发明实施例中,所述方法还可以包括:当根据所述查询请求的返回结果未获取当前空闲的GPU资源时,则进行排队等待,并定时发起所述空闲GPU查询请求,直至获取空闲的GPU资源。
在本发明实施例中,任务调度装置如果没有获取到空闲的GPU,则可以进行任务排队等待,直到获取到空闲的GPU资源。
S103、从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器。
在本发明实施例中,如图3所示,所述从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器可以包括S201-S203:
S201、检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件;
S202、当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器满足所述创建条件时,将该AI服务器作为所述可用的AI服务器;
S203、当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器不满足所述创建条件时,将该AI服务器作为不可用的AI服务器。
在本发明实施例中,获取到空闲的GPU后,可以分析GPU所在的AI服务器是否满足创建docker的条件,即上述的创建条件,如果满足该创建条件,就可以将该AI服务器作为可用的AI服务器,用于创建docker;反之,如果不满足该创建条件,就不能将该AI服务器作为可用的AI服务器,不能用于创建docker。
在本发明实施例中,所述创建条件包括但不限于以下任意一种或多种:所述AI服务器的CPU频率、内存大小和存储容量大小。
在本发明实施例中,在从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器之前,所述方法还可以包括:根据所需创建的docker的总数和/或每个AI服务器上需要创建的docker的数量,计算所述创建条件中各项所需满足的数值,以根据所述各项所需满足的数值检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件。
在本发明实施例中,任务调度装置可以根据具体的深度学习任务来计算能创建多少个docker容器,以及在哪个AI服务器上创建几个docker;并根据这些信息计算出当前空闲的GPU资源所在的每一个AI服务器的CPU频率、内存大小和/或存储容量大小等是否满足上述信息中的docker数量创建要求,如果满足,则说明该AI服务器满足该创建条件,为可用的AI服务器;反之,如果不满足,则说明该AI服务器不满足该创建条件,为不可用的AI服务器。
在本发明实施例中,任务调度装置如果没有获取到可用的AI服务器,也可以进行任务排队等待,直到获取到可用的AI服务器。
在本发明实施例中,需要说明的是,上述的步骤S202和步骤S203仅是不同情况下的不同处理方式,没有先后顺序之分。
S104、在所述可用的AI服务器上创建容器docker,并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中,使该挂载的GPU资源独享所述新创建的docker,并在创建的所述docker中执行所述深度学习任务。
在本发明实施例中,任务调度装置获取到可用的AI服务器后,任务调度装置可以向预设的容器集群管理装置发起创建docker命令;容器集群管理装置可以根据该创建docker命令,执行docker创建过程。
在本发明实施例中,创建的每一个docker的配置是相同的。
在本发明实施例中,所述每一个docker的配置包括但不限于以下任意一种或多种:CPU频率、内存大小、存储容量大小和GPU卡个数。
在本发明实施例中,将GPU挂载到新创建的多个docker容器(GPU独享)中,将docker提供给算法工程师进行并行训练。
在本发明实施例中,所述方法还可以包括:在所述深度学习任务执行完毕后,自动销毁创建的所述docker。
在本发明实施例中,将创建的docker提供给算法工程师并行训练,训练完成后docker可以被自动销毁。
在本发明实施例中,本发明实施例方案能够最大限度的利用闲置的GPU资源,通过该实施例方案,当算法工程师提交一个训练任务时,任务调度装置可以根据资源监控装置提供的监控信息,获取当前空闲的所有GPU资源,将GPU挂载到新创建的多个docker容器(GPU独享)中,将docker提供给算法工程师并行训练,有效的提高了GPU资源利用率,同时也提高了算法工程师的训练速度,使得GPU得到充分利用,节约了基础设施建造成本。
本发明实施例还提供了一种基于人工智能AI云的图形处理器GPU资源调度装置1,如图4所示,可以包括处理器11和计算机可读存储介质12,所述计算机可读存储介质12中存储有指令,当所述指令被所述处理器11执行时,实现上述任意一项所述的基于AI云的GPU资源调度方法。
本发明实施例包括:实时监控是否有深度学习任务提交;当监控到有深度学习任务提交时,获取当前空闲的所有GPU资源;从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器;在所述可用的AI服务器上创建容器docker,并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中,使该挂载的GPU资源独享所述新创建的docker,并在创建的所述docker中执行所述深度学习任务。通过该实施例方案,使得AI云有效的提高了GPU资源利用率,同时也提高了算法工程师的训练速度,使得GPU得到充分利用,节约了基础设施建造成本。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种基于人工智能AI云的图形处理器GPU资源调度方法,其特征在于,所述方法包括:
实时监控是否有深度学习任务提交;
当监控到有深度学习任务提交时,获取当前空闲的所有GPU资源;
从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器;
在所述可用的AI服务器上创建容器docker,并将每个可用的AI服务器上的空闲的GPU资源挂载到新创建的docker中,使该挂载的GPU资源独享所述新创建的docker,并在创建的所述docker中执行所述深度学习任务。
2.根据权利要求1所述的基于AI云的GPU资源调度方法,其特征在于,所述从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器包括:
检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件;
当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器满足所述创建条件时,将该AI服务器作为所述可用的AI服务器;
当所述当前空闲的所有GPU资源所在的AI服务器中任意一个AI服务器不满足所述创建条件时,将该AI服务器作为不可用的AI服务器。
3.根据权利要求2所述的基于AI云的GPU资源调度方法,其特征在于,所述创建条件包括以下任意一种或多种:所述AI服务器的CPU频率、内存大小和存储容量大小。
4.根据权利要求3所述的基于AI云的GPU资源调度方法,其特征在于,在从所述当前空闲的所有GPU资源所在的AI服务器中获取可用的AI服务器之前,所述方法还包括:根据所需创建的docker的总数和/或每个AI服务器上需要创建的docker的数量,计算所述创建条件中各项所需满足的数值,以根据所述各项所需满足的数值检测所述当前空闲的所有GPU资源所在的AI服务器是否满足建立所述docker的创建条件。
5.根据权利要求1所述的基于AI云的GPU资源调度方法,其特征在于,所述获取当前空闲的所有GPU资源包括:发起空闲GPU查询请求,并根据所述空闲GPU查询请求的返回结果统计出当前空闲的所有GPU资源。
6.根据权利要求5所述的基于AI云的GPU资源调度方法,其特征在于,所述方法还包括:当根据所述查询请求的返回结果未获取当前空闲的GPU资源时,则进行排队等待,并定时发起所述空闲GPU查询请求,直至获取空闲的GPU资源。
7.根据权利要求5所述的基于AI云的GPU资源调度方法,其特征在于,所述方法还包括:在所述深度学习任务执行完毕后,自动销毁创建的所述docker。
8.根据权利要求1-7任意一项所述的基于AI云的GPU资源调度方法,其特征在于,创建的每一个docker的配置是相同的。
9.根据权利要求8所述的基于AI云的GPU资源调度方法,其特征在于,所述每一个docker的配置包括以下任意一种或多种:CPU频率、内存大小、存储容量大小和GPU卡个数。
10.一种基于人工智能AI云的图形处理器GPU资源调度装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1-9任意一项所述的基于AI云的GPU资源调度方法。
CN201811056452.6A 2018-09-11 2018-09-11 一种基于ai云的gpu资源调度方法和装置 Active CN109213600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811056452.6A CN109213600B (zh) 2018-09-11 2018-09-11 一种基于ai云的gpu资源调度方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811056452.6A CN109213600B (zh) 2018-09-11 2018-09-11 一种基于ai云的gpu资源调度方法和装置

Publications (2)

Publication Number Publication Date
CN109213600A true CN109213600A (zh) 2019-01-15
CN109213600B CN109213600B (zh) 2021-04-30

Family

ID=64986902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811056452.6A Active CN109213600B (zh) 2018-09-11 2018-09-11 一种基于ai云的gpu资源调度方法和装置

Country Status (1)

Country Link
CN (1) CN109213600B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976911A (zh) * 2019-03-25 2019-07-05 哈尔滨工程大学 一种自适应资源调度方法
CN110597635A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 图形处理资源分配方法、装置、计算机设备及存储介质
CN110688218A (zh) * 2019-09-05 2020-01-14 广东浪潮大数据研究有限公司 资源调度方法及装置
CN110704182A (zh) * 2019-09-18 2020-01-17 平安科技(深圳)有限公司 深度学习的资源调度方法、装置及终端设备
CN110888743A (zh) * 2019-11-27 2020-03-17 中科曙光国际信息产业有限公司 一种gpu资源使用方法、装置及存储介质
CN111143060A (zh) * 2019-12-18 2020-05-12 重庆紫光华山智安科技有限公司 Gpu资源调度方法、装置及gpu
CN111274018A (zh) * 2020-01-21 2020-06-12 行星算力(深圳)科技有限公司 一种基于dl框架下的分布式训练方法
CN111736992A (zh) * 2020-06-12 2020-10-02 中国银行股份有限公司 机器学习平台的gpu资源的管理方法及装置
CN111930525A (zh) * 2020-10-10 2020-11-13 北京世纪好未来教育科技有限公司 Gpu资源使用方法、电子设备及计算机可读介质
CN112035220A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 开发机操作任务的处理方法、装置、设备以及存储介质
CN112131007A (zh) * 2020-09-28 2020-12-25 济南浪潮高新科技投资发展有限公司 基于ai平台的gpu资源调度方法、装置及介质
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN113127163A (zh) * 2019-12-31 2021-07-16 杭州海康威视数字技术股份有限公司 模型验证方法、装置及电子设备
CN113467922A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 资源管理方法、装置、设备及存储介质
CN114675965A (zh) * 2022-03-10 2022-06-28 北京百度网讯科技有限公司 联邦学习方法、装置、设备和介质
CN115220921A (zh) * 2022-09-19 2022-10-21 浙江大华技术股份有限公司 资源调度方法及相关装置、图形处理器、摄像器件和介质
CN116991561A (zh) * 2023-09-27 2023-11-03 国网北京市电力公司 一种模型转换调度方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104158905A (zh) * 2014-08-28 2014-11-19 北京京东尚科信息技术有限公司 web容器的创建方法
CN105262960A (zh) * 2015-10-21 2016-01-20 北京中科大洋科技发展股份有限公司 一种基于集群渲染的立体电视信号编辑方法
CN105262961A (zh) * 2015-10-21 2016-01-20 北京中科大洋科技发展股份有限公司 一种基于集群渲染的多镜头编辑方法
CN105704458A (zh) * 2016-03-22 2016-06-22 北京邮电大学 基于容器技术的视频监控云服务的平台实现方法及系统
CN107544845A (zh) * 2017-06-26 2018-01-05 新华三大数据技术有限公司 Gpu资源调度方法及装置
CN107783818A (zh) * 2017-10-13 2018-03-09 北京百度网讯科技有限公司 深度学习任务处理方法、装置、设备及存储介质
CN108052385A (zh) * 2017-12-29 2018-05-18 亿企赢网络科技有限公司 一种容器管理方法、系统、设备及计算机存储介质
CN108363623A (zh) * 2018-02-27 2018-08-03 郑州云海信息技术有限公司 Gpu资源调度方法、装置、设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104158905A (zh) * 2014-08-28 2014-11-19 北京京东尚科信息技术有限公司 web容器的创建方法
CN105262960A (zh) * 2015-10-21 2016-01-20 北京中科大洋科技发展股份有限公司 一种基于集群渲染的立体电视信号编辑方法
CN105262961A (zh) * 2015-10-21 2016-01-20 北京中科大洋科技发展股份有限公司 一种基于集群渲染的多镜头编辑方法
CN105704458A (zh) * 2016-03-22 2016-06-22 北京邮电大学 基于容器技术的视频监控云服务的平台实现方法及系统
CN107544845A (zh) * 2017-06-26 2018-01-05 新华三大数据技术有限公司 Gpu资源调度方法及装置
CN107783818A (zh) * 2017-10-13 2018-03-09 北京百度网讯科技有限公司 深度学习任务处理方法、装置、设备及存储介质
CN108052385A (zh) * 2017-12-29 2018-05-18 亿企赢网络科技有限公司 一种容器管理方法、系统、设备及计算机存储介质
CN108363623A (zh) * 2018-02-27 2018-08-03 郑州云海信息技术有限公司 Gpu资源调度方法、装置、设备及计算机可读存储介质

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976911A (zh) * 2019-03-25 2019-07-05 哈尔滨工程大学 一种自适应资源调度方法
CN109976911B (zh) * 2019-03-25 2021-04-20 哈尔滨工程大学 一种自适应资源调度方法
CN110688218A (zh) * 2019-09-05 2020-01-14 广东浪潮大数据研究有限公司 资源调度方法及装置
CN110688218B (zh) * 2019-09-05 2022-11-04 广东浪潮大数据研究有限公司 资源调度方法及装置
CN110597635A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 图形处理资源分配方法、装置、计算机设备及存储介质
CN110597635B (zh) * 2019-09-12 2023-10-27 腾讯科技(深圳)有限公司 图形处理资源分配方法、装置、计算机设备及存储介质
CN110704182A (zh) * 2019-09-18 2020-01-17 平安科技(深圳)有限公司 深度学习的资源调度方法、装置及终端设备
CN110888743A (zh) * 2019-11-27 2020-03-17 中科曙光国际信息产业有限公司 一种gpu资源使用方法、装置及存储介质
CN110888743B (zh) * 2019-11-27 2022-12-20 中科曙光国际信息产业有限公司 一种gpu资源使用方法、装置及存储介质
CN111143060B (zh) * 2019-12-18 2021-01-26 重庆紫光华山智安科技有限公司 Gpu资源调度方法、装置及gpu
CN111143060A (zh) * 2019-12-18 2020-05-12 重庆紫光华山智安科技有限公司 Gpu资源调度方法、装置及gpu
CN113127163A (zh) * 2019-12-31 2021-07-16 杭州海康威视数字技术股份有限公司 模型验证方法、装置及电子设备
CN111274018A (zh) * 2020-01-21 2020-06-12 行星算力(深圳)科技有限公司 一种基于dl框架下的分布式训练方法
CN113467922A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 资源管理方法、装置、设备及存储介质
CN111736992A (zh) * 2020-06-12 2020-10-02 中国银行股份有限公司 机器学习平台的gpu资源的管理方法及装置
CN111736992B (zh) * 2020-06-12 2024-02-23 中国银行股份有限公司 机器学习平台的gpu资源的管理方法及装置
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN112131007B (zh) * 2020-09-28 2023-02-21 山东浪潮科学研究院有限公司 基于ai平台的gpu资源调度方法、装置及介质
CN112131007A (zh) * 2020-09-28 2020-12-25 济南浪潮高新科技投资发展有限公司 基于ai平台的gpu资源调度方法、装置及介质
CN112035220A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 开发机操作任务的处理方法、装置、设备以及存储介质
CN111930525A (zh) * 2020-10-10 2020-11-13 北京世纪好未来教育科技有限公司 Gpu资源使用方法、电子设备及计算机可读介质
CN111930525B (zh) * 2020-10-10 2021-02-02 北京世纪好未来教育科技有限公司 Gpu资源使用方法、电子设备及计算机可读介质
CN114675965A (zh) * 2022-03-10 2022-06-28 北京百度网讯科技有限公司 联邦学习方法、装置、设备和介质
CN115220921A (zh) * 2022-09-19 2022-10-21 浙江大华技术股份有限公司 资源调度方法及相关装置、图形处理器、摄像器件和介质
CN115220921B (zh) * 2022-09-19 2023-01-03 浙江大华技术股份有限公司 资源调度方法及相关装置、图形处理器、摄像器件和介质
CN116991561A (zh) * 2023-09-27 2023-11-03 国网北京市电力公司 一种模型转换调度方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109213600B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN109213600A (zh) 一种基于ai云的gpu资源调度方法和装置
CN109034396B (zh) 用于处理分布式集群中的深度学习作业的方法和装置
CN106056529B (zh) 一种对用于图片识别的卷积神经网络训练的方法与设备
US10579435B2 (en) Executing a foreign program on a parallel computing system
US10621002B2 (en) Iterative task centric resource scheduling for a user program between different computing frameworks
CN104158826B (zh) 一种面向虚拟机迁移的调度方法及其系统
US11429434B2 (en) Elastic execution of machine learning workloads using application based profiling
CN111143039B (zh) 一种虚拟机的调度方法、装置及计算机存储介质
CN112667594A (zh) 一种基于混合云资源的异构计算平台及模型训练方法
CN108241534A (zh) 一种任务处理、分配、管理、计算的方法以及装置
CN107704310A (zh) 一种实现容器集群管理的方法、装置和设备
CN109960579B (zh) 一种调整业务容器的方法及装置
CN113672343A (zh) 一种基于轻量安全容器的函数计算冷启动加速的方法
CN110162397A (zh) 资源分配方法、装置及系统
CN111435315A (zh) 分配资源的方法、装置、设备和计算机可读介质
CN113608751A (zh) 推理服务平台的运行方法、装置、设备及存储介质
CN105653347A (zh) 一种服务器、资源管理方法及虚拟机管理器
CN106294445B (zh) 基于跨机房Hadoop集群的数据存储的方法及装置
CN115361382B (zh) 基于数据群组的数据处理方法、装置、设备和存储介质
CN112149139A (zh) 权限管理方法及装置
CN106933646A (zh) 一种创建虚拟机的方法及装置
CN111736986B (zh) 一种深度学习模型的fpga加速执行方法及相关装置
CN114839879A (zh) 一种基于分布式强化学习的自主设备决策控制方法
CN111488052B (zh) 应用于物理机集群的容器启用方法和装置、计算机系统
CN104793924A (zh) 计算任务的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant