CN113835897A - 一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法 - Google Patents

一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法 Download PDF

Info

Publication number
CN113835897A
CN113835897A CN202111151595.7A CN202111151595A CN113835897A CN 113835897 A CN113835897 A CN 113835897A CN 202111151595 A CN202111151595 A CN 202111151595A CN 113835897 A CN113835897 A CN 113835897A
Authority
CN
China
Prior art keywords
gpu
resources
node
pod
kubernets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111151595.7A
Other languages
English (en)
Inventor
王明亮
曹志鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunge Technology Co ltd
Original Assignee
Beijing Yunge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunge Technology Co ltd filed Critical Beijing Yunge Technology Co ltd
Priority to CN202111151595.7A priority Critical patent/CN113835897A/zh
Publication of CN113835897A publication Critical patent/CN113835897A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/544Buffers; Shared memory; Pipes

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,所述方法为:通过T9K Device Plugin组件将GPU硬件注册为分布式计算集群Kubernetes的扩展资源,用户在Kubernetes上部署的工作负载可以直接申请使用该GPU扩展资源,通过T9K Scheduler组件进行调度,将申请GPU资源的Pod分配到具有足够GPU资源的节点上,根据具体的分配模式,将Kubernetes工作负载Pod分配到合适的节点上。本发明解决了现有GPU分配方式单一存在局限性的问题。

Description

一种在分布式计算集群Kubernetes上对GPU资源进行分配使 用的方法
技术领域
本发明涉及GPU资源分配技术领域,具体涉及一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法。
背景技术
Kubernetes是目前最常用的分布式计算平台,但是在Kubernetes上对GPU的使用并不完善。Kubernetes原生不支持GPU资源的分配,其他技术方式各有问题,例如:NVIDIA只支持一种GPU使用方式,不支持单个GPU的共享使用;VOLCANO只支持GPU的共享使用,且存在各种局限:如单个节点上不同GPU的显存必须一样、不能使用多个GPU,导致GPU使用灵活度较低。
发明内容
为此,本发明提供一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,以解决现有GPU分配方式单一存在局限性的问题。
为了实现上述目的,本发明提供如下技术方案:
本发明公开了一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,所述方法为:
通过T9K Device Plugin组件将GPU硬件注册为分布式计算集群Kubernetes的扩展资源,用户在Kubernetes上部署的工作负载可以直接申请使用该GPU扩展资源,通过T9KScheduler组件进行调度,将申请GPU资源的Pod分配到具有足够GPU资源的节点上,根据具体的分配模式,将Kubernetes工作负载Pod分配到合适的节点上。
进一步地,所述分配方式包括:GPU共享模式、GPU独占模式、节点独占模式;
所述GPU共享模式:多个工作负载可以共享同一个物理GPU设备;
所述GPU独占模式:工作负载可以使用一个或多个物理GPU设备,不和其它负载共享;
所述节点独占模式:工作负载单独占据一个节点的所有资源。
进一步地,所述T9K Device Plugin组件将GPU硬件注册为扩展资源,注册完成后,用户可以使用GPU资源;
T9K Device Plugin组件向Kubernetes注册三种与GPU相关的扩展资源;
tensorstack.io/gpu-percent:共享GPU的资源数量,单位是GPU一定比例的显存;
tensorstack.io/gpu:独占GPU的资源数量,单位是1个GPU;
tensorstack.io/exclusive-node:独占节点的资源数量,值为1或0,1表示一个节点的所有资源。
进一步地,所述Kubernetes上具有GPU的节点通过标签进行分类,包括XGN和SGN两种类型:
XGN类型的节点上的GPU不可以被共享;
SGN类型的节点上的GPU只能共享使用。
进一步地,所述T9K Device Plugin组件工作原理为:
Kubernetes中有三种类型节点XGN,SGN,others;
T9K Device Plugin会被部署在XGN和SGN上,通过XGN和SGN上的GPU驱动获取GPU信息,根据获取的GPU信息向kubelet注册扩展资源,用户就可以创建工作负载Pod使用扩展资源。
进一步地,所述T9K Scheduler组件为调度器,负责将Kubernetes工作负载Pod分配到合适的节点上,所述T9K Device Plugin组件向Kubernetes申请进行扩展资源,扩展后的资源需要结合T9K Scheduler进行合理分配。
进一步地,所述T9K Scheduler组件针对扩展资源的调度分配方法为:
tensorstack.io/gpu-percent:节点是SGN类型,Pod被分配的GPU资源完全取决于T9K Scheduler,T9K Scheduler需要知道节点上每个GPU的剩余资源情况,而非剩余总资源情况,有某个GPU剩余资源满足Pod containers需求,T9K Scheduler将Pod分配到该节点且将该GPU的资源按量分配给Pod containers;
tensorstack.io/gpu:节点是XGN类型,且剩余资源总和大于Pod下所有containers的申请资源,T9K Scheduler会将Pod分配到该节点上,GPU的具体分配由kubelet完全独立决定;
tensorstack.io/exclusive-node:节点是XGN类型,且节点上没有其它非系统任务性质的Pod,T9K Scheduler会将Pod分配到该节点,Pod的container可以自由使用所有资源,包括GPU资源。
本发明具有如下优点:
本发明公开了一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,针对Kubernetes分布式平台上对GPU资源需求不同的各种场景,设计三种GPU使用模式,通过将资源注册和调度器结合予以实现,方便用户在Kubernetes平台上灵活使用GPU资源,拓宽了使用场景,能够更加灵活的应用。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法流程图;
图2为本发明实施例提供的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法的T9K Device Plugin工作原理示意图;
图3为本发明实施例提供的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法的GPU独占模式实例示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,所述方法为:通过T9K Device Plugin组件将GPU硬件注册为分布式计算集群Kubernetes的扩展资源,用户在Kubernetes上部署的工作负载可以直接申请使用该GPU扩展资源,通过T9K Scheduler组件进行调度,将申请GPU资源的Pod分配到具有足够GPU资源的节点上,根据具体的分配模式,将Kubernetes工作负载Pod分配到合适的节点上。
在同一个集群中同时提供多种GPU使用模式,以适应不同场景需求,包括:GPU共享模式、GPU独占模式、节点独占模式;
所述GPU共享模式:多个工作负载可以共享同一个物理GPU设备;适用于短时间片突发模式使用GPU资源的工作负载,例如:较低QPS的机器学习模型伺服服务;交互式使用,例如在Jupyter Notebook中使用GPU。这些场景中,独占GPU资源导致浪费,适合使用GPU共享模式;
所述GPU独占模式:工作负载可以使用一个或多个物理GPU设备,不和其它负载共享;GPU独占模式适用于长期密集计算使用GPU资源的工作负载,例如:小规模的机器学习模型训练;
所述节点独占模式:工作负载单独占据一个节点的所有资源;节点独占模式适用于需要更加大量资源的工作负载,节点所有资源均给工作负载使用,同时计算任务有针对性的优化,可以充分利用一个物理节点内部的多个GPU设备和其拓扑结构。例如:大规模数据处理,大规模并行分布式的机器学习模型训练等。
Kubernetes,简称K8s,是用8代替8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。传统的应用部署方式是通过插件或脚本来安装应用。这样做的缺点是应用的运行、配置、管理、所有生存周期将与当前操作系统绑定,这样做并不利于应用的升级更新/回滚等操作,当然也可以通过创建虚拟机的方式来实现某些功能,但是虚拟机非常重,并不利于可移植性。新的方式是通过部署容器方式实现,每个容器之间互相隔离,每个容器有自己的文件系统,容器之间进程不会相互影响,能区分计算资源。相对于虚拟机,容器能快速部署,由于容器与底层设施、机器文件系统解耦的,所以它能在不同云、不同版本操作系统间进行迁移。容器占用资源少、部署快,每个应用可以被打包成一个容器镜像,每个应用与容器间成一对一关系也使容器有更大优势,使用容器可以在build或release的阶段,为应用创建容器镜像,因为每个应用不需要与其余的应用堆栈组合,也不依赖于生产环境基础结构,这使得从研发到测试、生产能提供一致环境。类似地,容器比虚拟机轻量、更“透明”,这更便于监控和管理。
T9K Device Plugin组件将GPU硬件注册为扩展资源,注册完成后,用户可以使用GPU资源。T9K Device Plugin组件向Kubernetes注册三种与GPU相关的扩展资源;
tensorstack.io/gpu-percent:共享GPU的资源数量,在本实施例中,单位是GPU1%的显存;例如:tensorstack.io/gpu-percent=50表明GPU 50%的显存;
tensorstack.io/gpu:独占GPU的资源数量,单位是1个GPU;例如:tensorstack.io/gpu=2表明2个GPU;
tensorstack.io/exclusive-node:独占节点的资源数量,值为1或0,1表示一个节点的所有资源。
所述Kubernetes上具有GPU的节点通过标签进行分类,包括XGN和SGN两种类型:
XGN:节点有标签tensorstack.io/node-alloc-mode=xgn,节点上的GPU不可以被共享;节点会被添加如下GPU扩展资源:tensorstack.io/gpu、tensorstack.io/exclusive-node。
SGN:节点有标签tensorstack.io/node-alloc-mode=sgn,节点上的GPU只能共享使用;节点被添加如下GPU扩展资源:tensorstack.io/gpu-percent。
参考图2,所述T9K Device Plugin组件工作原理为:
Kubernetes中有多个节点NODE,XGN,SGN;
Device Plugin被部署在XGN和SGN上;
通过XGN和SGN上的GPU(例如:NVIDIA)驱动获取GPU信息;
根据获取的GPU信息向kubelet注册扩展资源;
XGN上有3个GPU,注册扩展资源:tensorstack.io/gpu:3,tensorstack.io/exclusive-node:1;
SGN上有4个GPU,注册扩展资源:tensorstack.io/gpu-percent:400;
用户就可以创建工作负载Pod使用扩展资源。
在完成资源的扩展后,需要通过T9K Scheduler对资源进行合理的分配。
T9K Scheduler组件为调度器,负责将Kubernetes工作负载Pod分配到合适的节点上,T9K Device Plugin只是向Kubernetes注册了扩展资源,对此类扩展资源的使用需要结合T9K Scheduler;
T9K Scheduler组件针对扩展资源的调度分配方法为:
tensorstack.io/gpu-percent:节点是SGN类型,Pod被分配的GPU资源完全取决于T9K Scheduler,T9K Scheduler需要知道节点上每个GPU的剩余资源情况,而非剩余总资源情况,有某个GPU剩余资源满足Pod containers需求,T9K Scheduler将Pod分配到该节点且将该GPU的资源按量分配给Pod containers;
例如:节点上有GPU 0{剩余tensorstack.io/gpu-percent:40},GPU 1{剩余tensorstack.io/gpu-percent:50}。
情况1:Pod A请求资源tensorstack.io/gpu-percent:60,GPU 0和1的剩余显存均不足,T9K Scheduler不会将Pod分配到该节点。
情况2:Pod A请求资源tensorstack.io/gpu-percent:50,GPU 1剩余显存足够,T9K Scheduler将Pod分配到该节点,且将GPU 1的50%显存分配给Pod container,container会被设置环境变量NVIDIA_VISIBLE_DEVICES=1、T9K_GPU_PERCENT=50、T9K_GPU_MEMORY=m表明container可以使用GPU 1的50%显存,显存大小为m MB。
tensorstack.io/gpu:节点是XGN类型,且剩余资源总和大于Pod下所有containers的申请资源,T9K Scheduler会将Pod分配到该节点上,GPU的具体分配由Kubelet完全独立决定;
例如Pod下只有一个container申请资源tensorstack.io/gpu:2,节点上有三个空闲GPU 1、2、3,T9K Scheduler将Pod分配到该节点上,然后kubelet再将节点上的GPU 1、2分配给container。T9K Device Plugin为container设置环境变量NVIDIA_VISIBLE_DEVICES:1,2以便NVIDIA container runtime限制container只能获取GPU 1,2的资源。
tensorstack.io/exclusive-node:节点是XGN类型,且节点上没有其它非系统任务性质的Pod运行,T9K Scheduler会将Pod分配到该节点,Pod的container会占据所有资源,包括GPU资源。
参考图1,具体的资源分配过程为:
用户创建Pod,T9K Scheduler接收Pod,判断Pod需求,是否为独占GPU模式,是独占GPU模式则尝试将Pod分配到资源充足的XGN;不是独占GPU模式则判断Pod是否为共享GPU模式,是共享GPU模式则尝试将Pod分配到资源充足的SGN,不是共享GPU模式则判断Pod是否为独占节点模式,是独占节点模式则尝试将Pod分配到未被分配资源的XGN,不是独占节点模式,则尝试将将Pod分配到资源充足的节点,成功分配,Pod成功运行,未成功分配则再次尝试为Pod分配资源,T9K Scheduler再次接收Pod,进行循环。
参考图3,在一个具体实施例中,用户创建只有一个container的Pod,申请资源tensorstack.io/gpu:1:
用户向Kubernetes API Server发送创建Pod的请求;
成功创建Pod;
T9K Scheduler监测到Pod;
T9K Scheduler将Pod分配到具有足够tensorstack.io/gpu资源的XGN上;
kubelet将GPU 1分配给Pod;
T9K Device Plugin为Pod设置环境变量NVIDIA_VISIBLE_DEVICES=1。
本实施例公开的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,针对Kubernetes分布式平台上对GPU资源需求不同的各种场景,设计三种GPU使用模式,通过将资源注册和调度器结合予以实现,方便用户在Kubernetes平台上灵活使用GPU资源,拓宽了使用场景,能够更加灵活的应用。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (7)

1.一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,其特征在于,所述方法为:
通过T9K Device Plugin组件将GPU硬件注册为分布式计算集群Kubernetes的扩展资源,用户在Kubernetes上部署的工作负载可以直接申请使用该GPU扩展资源,通过T9KScheduler组件进行调度,将申请GPU资源的Pod分配到具有足够GPU资源的节点上,根据具体的分配模式,将Kubernetes工作负载Pod分配到合适的节点上。
2.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,其特征在于,所述分配方式包括:GPU共享模式、GPU独占模式、节点独占模式;
所述GPU共享模式:多个工作负载可以共享同一个物理GPU设备;
所述GPU独占模式:工作负载可以使用一个或多个物理GPU设备,不和其它负载共享;
所述节点独占模式:工作负载单独占据一个节点的所有资源。
3.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,其特征在于,所述T9K Device Plugin组件将GPU硬件注册为扩展资源,注册完成后,用户可以使用GPU资源;
T9K Device Plugin组件向Kubernetes注册三种与GPU相关的扩展资源;
tensorstack.io/gpu-percent:共享GPU的资源数量,单位是GPU一定比例的显存;
tensorstack.io/gpu:独占GPU的资源数量,单位是1个GPU;
tensorstack.io/exclusive-node:独占节点的资源数量,值为1或0,1表示一个节点的所有资源。
4.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,其特征在于,所述Kubernetes上具有GPU的节点通过标签进行分类,包括XGN和SGN两种类型:
XGN类型的节点上的GPU不可以被共享;
SGN类型的节点上的GPU只能共享使用。
5.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,其特征在于,所述T9K Device Plugin组件工作原理为:
Kubernetes中有三种类型节点XGN,SGN,others;
T9K Device Plugin会被部署在XGN和SGN上,通过XGN和SGN上的GPU驱动获取GPU信息,根据获取的GPU信息向kubelet注册扩展资源,用户就可以创建工作负载Pod使用扩展资源。
6.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,其特征在于,所述T9K Scheduler组件为调度器,负责将Kubernetes工作负载Pod分配到合适的节点上,所述T9K Device Plugin组件向Kubernetes申请进行扩展资源,扩展后的资源需要结合T9KScheduler进行合理分配。
7.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法,其特征在于,所述T9K Scheduler组件针对扩展资源的调度分配方法为:
tensorstack.io/gpu-percent:节点是SGN类型,Pod被分配的GPU资源完全取决于T9KScheduler,T9K Scheduler需要知道节点上每个GPU的剩余资源情况,而非剩余总资源情况,有某个GPU剩余资源满足Pod containers需求,T9K Scheduler将Pod分配到该节点且将该GPU的资源按量分配给Pod containers;
tensorstack.io/gpu:节点是XGN类型,且剩余资源总和大于Pod下所有containers的申请资源,T9K Scheduler会将Pod分配到该节点上,GPU的具体分配由kubelet完全独立决定;
tensorstack.io/exclusive-node:节点是XGN类型,且节点上没有其它非系统任务性质的Pod,T9K Scheduler会将Pod分配到该节点,Pod的container可以自由使用所有资源,包括GPU资源。
CN202111151595.7A 2021-09-29 2021-09-29 一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法 Pending CN113835897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111151595.7A CN113835897A (zh) 2021-09-29 2021-09-29 一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111151595.7A CN113835897A (zh) 2021-09-29 2021-09-29 一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法

Publications (1)

Publication Number Publication Date
CN113835897A true CN113835897A (zh) 2021-12-24

Family

ID=78967388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111151595.7A Pending CN113835897A (zh) 2021-09-29 2021-09-29 一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法

Country Status (1)

Country Link
CN (1) CN113835897A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028230A (zh) * 2023-02-17 2023-04-28 浪潮电子信息产业股份有限公司 一种资源配置方法、装置、设备、介质及云平台
CN116089009A (zh) * 2023-02-01 2023-05-09 华院计算技术(上海)股份有限公司 一种gpu资源管理方法、系统、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112631780A (zh) * 2020-12-28 2021-04-09 浙江大华技术股份有限公司 资源调度方法和装置、存储介质及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112631780A (zh) * 2020-12-28 2021-04-09 浙江大华技术股份有限公司 资源调度方法和装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIMMYZHANG: "《https://cloud.tencent.com/developer/article/1766184》", 29 December 2020 *
郭效杨: "《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》", 15 May 2021 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089009A (zh) * 2023-02-01 2023-05-09 华院计算技术(上海)股份有限公司 一种gpu资源管理方法、系统、设备和存储介质
CN116028230A (zh) * 2023-02-17 2023-04-28 浪潮电子信息产业股份有限公司 一种资源配置方法、装置、设备、介质及云平台

Similar Documents

Publication Publication Date Title
CN108293041B (zh) 分布式系统、资源容器的分配方法、资源管理器及应用控制器
US8762999B2 (en) Guest-initiated resource allocation request based on comparison of host hardware information and projected workload requirement
Azab Enabling docker containers for high-performance and many-task computing
JP6658882B2 (ja) 制御装置、vnf配置先選択方法及びプログラム
CN101512488B (zh) 在虚拟机环境中提供硬件虚拟化的系统和方法
US11113782B2 (en) Dynamic kernel slicing for VGPU sharing in serverless computing systems
CN108089913B (zh) 一种超融合系统的虚拟机部署方法
CN105512083A (zh) 基于yarn的资源管理方法、装置及系统
CN103761139A (zh) 一种基于动态库拦截的通用计算虚拟化实现方法
CN113835897A (zh) 一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法
JP2022516486A (ja) リソース管理方法と装置、電子デバイス、及び記録媒体
US11461120B2 (en) Methods and apparatus for rack nesting in virtualized server systems
CN112463375A (zh) 一种数据处理的方法和装置
CN104050043A (zh) 基于共享缓存感知的虚拟机调度方法和装置
CN103034526B (zh) 一种虚拟化服务的实现方法和装置
US20210373928A1 (en) Method, system and apparatus for sharing of fpga board by multiple virtual machines
CN108073423A (zh) 一种加速器加载方法、系统和加速器加载装置
CN112905297A (zh) 容器集群资源调度方法和装置
CN113296926B (zh) 一种资源分配方法、计算设备及存储介质
CN107479984A (zh) 基于消息的分布式空间数据处理系统
CN105653347B (zh) 一种服务器、资源管理方法及虚拟机管理器
CN113377493A (zh) 一种容器云仿真系统及其设计方法
CN104991826A (zh) 一种虚拟机部署方法及装置
US20230138867A1 (en) Methods for application deployment across multiple computing domains and devices thereof
CN112114958A (zh) 资源隔离方法、分布式平台、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination