CN112866321A - 一种资源调度方法、装置和系统 - Google Patents
一种资源调度方法、装置和系统 Download PDFInfo
- Publication number
- CN112866321A CN112866321A CN201911192927.9A CN201911192927A CN112866321A CN 112866321 A CN112866321 A CN 112866321A CN 201911192927 A CN201911192927 A CN 201911192927A CN 112866321 A CN112866321 A CN 112866321A
- Authority
- CN
- China
- Prior art keywords
- sharable
- resource
- information
- shareable
- pod
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004590 computer program Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 abstract description 6
- 238000007726 management method Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 244000063498 Spondias mombin Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5055—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering software capabilities, i.e. software resources associated or available to the machine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45595—Network integration; Enabling network access in virtual machine instances
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5011—Pool
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例公开了一种资源调度方法、装置和系统,包括:管理节点接收用户的创建Pod请求;其中,创建Pod请求包括:每一个容器对每一种可共享资源的要求;管理节点为待创建的Pod对象选择节点;根据选择的节点中的可共享设备的可共享资源信息为所述Pod对象分配每一个容器的每一种可共享资源,将所述Pod对象、选择的节点和分配的资源进行绑定,存储绑定选择的节点和分配的资源的Pod对象。本发明实施例引入了对共享资源的管理调度机制,节约了资源,提高了资源利用率。
Description
技术领域
本发明实施例涉及但不限于计算机应用技术领域,尤指一种资源调度方法、装置和系统。
背景技术
以Docker为代表的容器技术越来越被大家所重视,成为云原生(Cloud-Native)应用的重要选择。同时,主流的云平台Kubernetes提供了应用的编排调度、弹缩、高可用(HA,High Available)保证等强大的平台即服务(PaaS,Platform as a Service)化能力,已经是容器调度平台的事实标准。
Kubernetes在支持CPU、内存(Memory)、存储(Storage)等通用资源管理调度的同时提供了良好的扩展机制,用于扩展外部设备或外部资源(如图形处理单元(GPU,GraphicsProcessing Unit)、现场可编程门阵列(FPGA,Field Programmable Gate Array)、张量处理单元(TPU,Tensor Processing Unit)等)的管理和调度。用户或者设备厂商通过开发特定的设备插件(Device Plugin)就能很好的支持这些设备在Kubernetes上的调度。但是,Kubernetes现有机制在进行资源调度时只能以设备为单位进行调度。然而,随着集成度的提升,单一设备往往能够提供强大的处理能力。比如GPU的使用,在某些场景下(如人工智能(AI,Artificial Intelligence)模型推理)并不需要一个设备的全部处理能力,所以在此种场景下为单一应用分配一个独占设备时,如果该应用不能使用该设备的全部处理能力,将造成资源的巨大浪费。
发明内容
本发明实施例提供了一种资源调度方法、装置和系统,能够节约资源,提高资源利用率。
本发明实施例提供了一种资源调度方法,包括:
从节点分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;
从节点将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述设备的可共享资源信息包括:设备ID号、资源属性信息、设备的最大可共享数目。
本发明实施例提供了一种资源调度方法,包括:
管理节点接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种可共享资源的要求;
管理节点为待创建的Pod对象选择节点,根据选择的节点中的可共享设备的可共享资源信息为所述Pod对象分配每一个容器的每一种可共享资源。
本发明实施例提供了一种资源调度装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种资源调度方法。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种资源调度方法的步骤。
本发明实施例提供了一种资源调度装置,包括:
可共享信息获取模块,用于分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;
可共享资源信息上报模块,用于将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述可共享资源信息包括:设备ID号、资源属性信息、设备的最大可共享数目。
本发明实施例提供了一种资源调度装置,包括:
Pod请求接收模块,用于接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种可共享资源的要求;
Pod对象绑定模块,用于为待创建的Pod对象选择节点,根据选择的节点中的可共享设备的可共享资源信息为所述Pod对象分配每一个容器的每一种可共享资源。
本发明实施例提供了一种资源调度系统,包括:
从节点,用于分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述可共享资源信息包括:设备ID号、资源属性信息、设备的最大可共享数目;
管理节点,用于接收到从节点上报的可共享设备的可共享资源信息,存储或更新可共享设备的可共享资源信息;其中,所述可共享资源信息包括:设备身份标识ID号、资源属性信息、设备的最大可共享数目;接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种资源的要求;为待创建的Pod对象选择节点,根据选择的节点中的可共享设备的可共享资源信息为所述Pod对象分配每一个容器的每一种可共享资源。
本发明实施例包括:管理节点接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种可共享资源的要求;管理节点为待创建的Pod对象选择节点;根据选择的节点中的可共享设备的可共享资源信息为所述Pod对象分配每一个容器的每一种可共享资源。本发明实施例引入了对共享资源的管理调度机制,节约了资源,提高了资源利用率。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本发明实施例的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。
图1为相关技术基于Kubernetes对资源的管理和调度的系统架构图;
图2为本发明一个实施例提出的资源调度方法的流程图;
图3为本发明另一个实施例提出的资源调度方法的流程图;
图4为本发明实施例的示例中设备资源共享和独占模式共存的示意图;
图5为本发明另一个实施例提出的资源调度装置的结构组成示意图;
图6为本发明另一个实施例提出的资源调度装置的结构组成示意图;
图7为本发明另一个实施例提出的资源调度系统的结构组成示意图。
具体实施方式
下文中将结合附图对本发明实施例进行详细说明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为目前基于Kubernetes对资源的管理和调度的系统架构图。如图1所示,包括:管理节点(Kube-Master)和至少一个从节点(Kube-Node)。
其中,管理节点包括应用服务器(应用程序编程接口(API,ApplicationProgramming Interface)Server)和调度程序(Scheduler),每一个从节点包括节点代理(kubelet)和Device plugin。需要说明的是,API Sever和Scheduler可以设置为单独的节点(即管理节点),也可以与kubelet和Device plugin设置在同一个节点上。当设置kubelet和Device plugin的从节点同时设置有API Server和Scheduler时,从节点变为管理节点。
下述实施例中以管理节点和从节点进行描述,但是管理节点和从节点可以是同一个节点,也可以是不同的节点。
其中,Device plugin,用于获取设备信息,将设备信息上报给kubelet;其中,设备信息包括:设备身份标识(ID,Identifier)号和设备状态;其中,设备状态包括:设备是否健康、是否可用等。
kubelet,用于将设备信息转换为每一种设备对应的可用的资源数量,将每一种设备对应的可用的资源数量上报给API Server;定时从API Server获取绑定到本节点但未启动的Pod对象,根据Pod对象中的分配的资源信息调用Device Plugin的Allocate接口触发设备的加载并获取配置信息,根据配置信息和分配的资源信息创建Pod。
API Server,用于存储每一种设备对应的可用的资源数量,接收用户的创建Pod请求;创建Pod请求包括:容器的镜像信息、请求的每一种资源(包括CPU、内存、GPU等)的数量以及Pod的基本信息等;存储绑定节点和可用的资源的Pod对象;
Scheduler,用于定时从API Server获取待创建的Pod对象,为Pod对象选择每一种可用的资源数量大于或等于请求的资源的数量的节点,从可用的资源中为Pod对象分配资源;将Pod对象、选择的节点和分配的资源进行绑定,即将选择的节点信息和分配的资源信息存储在Pod对象中,将绑定节点和分配的资源的Pod对象返回给API Server。
在下述实施例中,以第一模块为Device Plugin,第二模块为kubelet,第三模块为API Server,第四模块为Scheduler来描述。
参见图2,本发明一个实施例提出了一种资源调度方法,应用于从节点,包括:
步骤200、从节点分别获取每一个可共享设备的可共享信息。
具体的,第一模块分别获取每一个可共享设备的可共享信息,将可共享设备的可共享信息上报给第二模块。
在本发明实施例中,可共享信息包括:设备ID号、设备的最大可共享数目、资源属性信息和设备状态。
在一个示例性实例中,最大可共享数目是指可共享设备作为一种可共享资源被分割得到的所有子资源的数目,具体被分割成多少个子资源可以预先设定。
在一个示例性实例中,设备状态包括:设备是否健康、设备是否可用等。
在本发明实施例中,可共享设备是指自身能够支持多个容器在设备中同时并发使用的设备,比如GPU、FPGA等。
在本发明实施例中,第一模块在将可共享信息上报给第二模块时,如果存在多个可共享设备,则可以将所有可共享设备对应的可共享信息以列表的形式一次性上报给第二模块,也可以一次上报一个可共享设备对应的可共享信息,也可以一次上报多个可共享设备对应的可共享信息。
具体在上报每一个可共享设备对应的可共享信息时,可以采用多种方式上报。例如,采用对象、数据结构等方式上报。
例如,采用json对象方式上报时,上报的json对象为:
其中,SharedDevice为设备的对象名,ID为设备ID号,max_share_num为最大可共享数目,properties为资源属性(如GPU显存、设备处理单元数等),health为设备状态。
其中,max_share_num和properties为新增字段。
在本发明实施例中,第一模块通过ListAndWatch接口将设备的可共享信息上报给第二模块。
步骤201、从节点将可共享信息转换为可共享资源信息,将可共享资源信息上报给管理节点。
具体的,第二模块将可共享信息转换为可共享资源信息,将可共享资源信息上报给管理节点的第三模块,第三模块存储或更新可共享资源信息。
在本发明实施例中,可共享资源信息包括:设备ID号、资源属性信息、设备的最大可共享数目。
在本发明实施例中,第二模块在将可共享设备的可共享资源信息上报给第三模块时,如果存在多个可共享设备的可共享资源信息,则可以将可共享设备的可共享资源信息以列表的形式一次性上报给第三模块,也可以一次上报一个可共享设备的可共享资源信息,也可以一次上报多个可共享设备的可共享资源信息。
具体在上报每一个可共享设备的可共享资源信息时,可以采用多种方式上报。例如,采用对象、数据结构等方式上报。
例如,采用对象方式上报时,上报的对象为:
其中,MilliCPU为CPU毫核数,Memory为内存大小,EphemeralStorage为临时存储大小,ScalarResources为可用的资源数量,SharableResouces为可共享设备的可共享资源信息的列表。
其中,可共享设备的可共享资源信息包括:设备ID号、设备的最大可共享数目和资源属性信息。
type SharableResouce struct{
Id string
Value int64//可分配的共享资源数目
Properties map[string][]int
}
其中,Id为设备ID号,Value为可共享设备的最大可共享数目,Properties为资源属性信息。
在本发明另一个实施例中,该方法还包括:
步骤202、从节点从管理节点中获取绑定到从节点但未启动的Pod对象,根据Pod对象绑定的分配的资源创建Pod。具体的,根据Pod对象绑定的分配的资源触发设备的加载并获取配置信息,根据配置信息和分配的资源信息创建Pod。其中,创建Pod也就是创建Pod中的所有容器。其中,分配的资源包括可共享资源;或者,可共享资源和非可共享资源。
具体的,第二模块从第三模块中获取绑定到从节点但未启动的Pod对象,根据Pod对象绑定的分配的资源调用第一模块触发设备的加载并获取配置信息,根据配置信息和分配的资源信息创建容器。
具体的,第二模块根据Pod对象绑定的分配的资源调用第一模块触发设备的加载并获取配置信息包括:
第二模块向第一模块发送Allocate接口的请求消息,请求消息包括:分配的可共享资源,分配的可共享资源包括:设备ID号和分配的可共享资源的数量;第一模块向第二模块返回设备ID号对应的可共享设备的配置信息。
其中,Allocate接口的请求消息如下:
其中,deviceID为设备ID号,value为分配的可共享资源的数量,单位为slice。当分配的可共享资源的数量与设备的可共享设备的最大可共享数目max_share_num相同时,设备为独占模式;当分配的可共享资源的数量小于可共享设备的最大可共享数目max_share_num时,设备为共享模式。
参见图3,本发明另一个实施例提出了一种资源调度方法,应用于管理节点,包括:
步骤300、管理节点接收用户的创建Pod请求。
具体的,第三模块接收用户的创建Pod请求,根据创建Pod请求创建Pod对象。
在本发明实施例中,创建Pod请求包括:每一个容器对每一种可共享资源的要求;其中,对每一种可共享资源的要求包括:可共享资源的数量;或者,可共享资源的数量和可共享资源对应的资源属性要求。
其中,资源属性要求包括:请求的资源属性值,或资源属性值满足的表达式。例如,某一资源属性值为10,请求的资源属性值为6;又如,要求资源属性值大于10。
在一个示例性实例中,创建Pod请求还包括:容器的镜像信息、以及Pod的基本信息等。
在本发明实施例中,创建Pod请求中请求的每一种可共享资源的数量必须为整数,请求的每一种可共享资源的数量未携带slice单位时,其单位默认为设备,按照独占模式处理,这种情况下,需要将请求的每一种可共享资源的数量转换为以slice为单位;请求的每一种可共享资源的数量携带slice单位时,按照共享模式处理,这种情况下,请求的每一种可共享资源的数量只能小于或等于一个可共享设备的最大可共享数目,也就是说不支持同时以独占模式和共享模式使用设备,例如,用户请求4slice,不能在两个设备上各分配2slice。
独占模式是指一个设备为一个容器所独占,并且不因系统引入共享模式而使性能受损;共享模式是指一个设备同时为多个容器并发使用。
例如,申请2slice共享资源,并要求某个属性值大于10时,创建Pod请求包括以下信息:
又如,只申请2slice共享资源时,创建Pod请求包括以下信息:
步骤301、管理节点为待创建的Pod对象选择节点(可以是管理节点,也可以是从节点),根据选择的节点中的可共享设备的可共享资源信息为Pod对象分配每一个容器的每一种可共享资源。
具体的,第四模块定时从第三模块获取待创建的Pod对象,为待创建的Pod对象选择对于请求的每一种可共享资源均存在满足请求的可共享资源的要求的设备的节点,根据选择的节点中的可共享设备的可共享资源信息为Pod对象分配请求的每一种可共享资源。
在本发明实施例中,选择的节点需要能够为需要创建的所有容器分配所请求的可共享资源,例如,选择的节点至少要满足:对于创建Pod请求中的每一个容器对每一种可共享资源的要求,在选择的节点中均存在满足可共享资源的要求的可共享设备。当然,满足上述条件后,还要保证对于不同容器对不同可共享资源的要求,满足可共享资源的要求的可共享设备在分配可共享资源时不会发生冲突。
在一个示例性实例中,满足可共享资源的要求的可共享设备包括:
包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差的可共享设备;
或者,包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差,且请求的资源属性量小于或等于请求的可共享资源的数量和设备的最大可共享数目的比值,与资源属性值的乘积的可共享设备;
或者,包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的资源的数量之差,且资源属性量满足所述资源属性要求中的表达式的可共享设备;
或者,未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目的可共享设备;
或者,未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目,且请求的可共享资源属性量小于或等于请求的可共享资源的数量和可共享设备的最大可共享数目的比值,与资源属性值的乘积的可共享设备;
或者,未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目,且资源属性量满足所述资源属性要求中的表达式的可共享设备。
在本发明实施例中,根据选择的节点中的可共享设备的可共享资源信息为Pod对象分配每一个容器的每一种可共享资源包括以下任意一个或多个:
对于每一个容器的每一种可共享资源,当选择的节点存在包括已分配的可共享资源的可共享设备时,为Pod对象分配第一设备中的资源;
对于每一个容器的每一种可共享资源,当选择的节点中的所有可共享设备均未包括已分配的可共享资源时,为Pod对象分配第二设备中的资源;
其中,第一设备包括:
包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差的可共享设备;
或者,包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差,且请求的资源属性量小于或等于请求的可共享资源的数量和可共享设备的最大可共享数目的比值,与资源属性值的乘积的可共享设备;
或者,包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差,且资源属性量满足所述资源属性要求中的表达式的可共享设备。
第二设备包括:
未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目的可共享设备;
或者,未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目,且请求的资源属性量小于或等于请求的可共享资源的数量和设备的最大可共享数目的比值,与资源属性值的乘积的可共享设备;
或者,未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目,且资源属性量满足所述资源属性要求中的表达式的可共享设备。
上述为Pod对象分配每一个容器的每一种可共享资源时,分配给同一个容器的同一种可共享资源要么属于同一个可共享设备,要么分配多个可共享设备给同一个容器的同一种可共享资源,并且,优先分配已经分配过可共享资源的可共享设备。
在本发明另一个实施例中,该方法还包括:
将Pod对象、选择的节点和分配的资源进行绑定,存储绑定选择的节点和分配的资源的Pod对象。其中,分配的资源包括:可共享资源;或者,可共享资源和非共享资源。
具体的,第四模块将Pod对象、选择的节点和分配的资源进行绑定,将绑定选择的节点和分配的资源的Pod对象返回给第三模块,第三模块存储绑定选择的节点和分配的资源的Pod对象
在本发明实施例中,将Pod对象、选择的节点和分配的资源进行绑定是指将选择的节点信息和资源信息存储在Pod对象中。
在本发明另一个实施例中,该方法还包括:
管理节点接收到从节点上报的可共享设备的可共享资源信息,存储或更新可共享设备的可共享资源信息。
具体的,第三模块接收到第二模块上报的可共享设备的可共享资源信息,存储或更新可共享设备的可共享资源信息。
在本发明实施例中,可共享资源信息包括:设备ID号、资源属性信息、设备的最大可共享数目。
本发明实施例的资源调度方法的有益效果如下:
1.为Kubernetes引入了对共享设备/资源的管理调度机制,并提供良好的扩展机制,方便其它共享设备的引入(比如FPGA、TPU等),可以将设备的利用率提升数倍。
2.支持可共享设备的独占模式和共享模式在Kubernetes的混合调度,提升用户易用性,降低运维成本。
实施例
本实施例描述Kubernetes平台在混合模式下的混合调度GPU设备的方法。
以GPU作为外部资源为例,通过本专利扩展后的kubernetes集群节解决GPU设备的共享与独占分配、调度问题。Kubernetes集群上同时接收训练job和推理job(即上述Pod对象),并根据job请求自适应的分配GPU资源,为独占和共享模式下的GPU分别调度不同的job。
实例环境:搭载Ubuntu16.04系统的Kubernetes集群,包含1个管理节点,1个从节点;节点包含4个GTX 1080Ti GPU,CUDA驱动版本9.0,并安装nvidia-docker。
具体操作步骤如下:
步骤1:部署包含本专利开发和修改过的Kubernetes scheduler,Kubelet,Device-plugin(配置共享GPU设备的设备的最大可共享数目为8)。
步骤2:集群部署完毕后,如图4所示,申请创建训练job,yaml描述如下:
步骤3:Pod创建成功后,在节点上通过nvidia-smi命令查看GPU使用情况,发现进程在两个GPU上执行,表明独占模式GPU分配成功。
步骤4:申请创建推理job,yaml描述如下:
步骤5:Pod创建成功后,首先通过kubectl get pods命令查看pod运行情况,确认MPS Server pod已被创建。然后查看推理job pod创建成功,通过nvidia-smi命令来查看GPU进程使用情况如下:1)两个GPU以独占模式运行,执行进程号为训练job pod内进程;2)一个GPU以共享模式运行,执行进程号为nvidia-cuda-mps-server,同时观察此GPU的显存占用率为1/4左右。
本架构方案可以在满足多种job类型的基础上,最大程度的提升GPU设备的利用率。而且独占与共享模式的比例可以根据系统的业务情况自适应进行调整,比如需要共享资源的业务量较多时,通过动态增加GPU共享模式的比例,从而进一步提升GPU设备的利用率。
本发明另一个实施例提出了一种资源调度装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种资源调度方法。
本发明另一个实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种资源调度方法的步骤。
参见图5,本发明另一个实施例提出了一种资源调度装置,包括:
可共享信息获取模块501(如上述Device plugin),用于分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;
可共享资源信息上报模块502(如上述kubelet),用于将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述设备的可共享资源信息包括:设备ID号、资源属性信息、设备的最大可共享数目。
在本发明另一个实施例中,可共享资源信息上报模块502还用于:
定时从管理节点中获取绑定到从节点但未启动的Pod对象,根据Pod对象绑定的分配的资源创建Pod。
本发明实施例的从节点的具体实现过程与前述实施例应用于从节点的资源调度方法的具体实现过程相同,这里不再赘述。
参见图6,本发明另一个实施例提出了一种资源调度装置,包括:
Pod对象创建模块602(如上述API Server),用于接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种可共享资源的要求;
Pod对象绑定模块603(如上述Scheduler),用于为待创建的Pod对象选择节点,根据选择的节点中的可共享设备的可共享资源信息为Pod对象分配每一个容器的每一种可共享资源
在本发明另一个实施例中,Pod对象绑定模块603还用于:将Pod对象、选择的节点和分配的资源进行绑定,存储绑定选择的节点和分配的资源的Pod对象。
在本发明另一个实施例中,还包括:
可共享资源信息存储更新模块601(如上述API Server),用于接收到从节点上报的可共享设备的可共享资源信息,存储或更新可共享设备的可共享资源信息;其中,所述可共享资源信息包括:设备身份标识ID号、资源属性信息、设备的最大可共享数目;
其中,所述对每一种可共享资源的要求包括:可共享资源的数量;或者,可共享资源的数量和可共享资源对应的资源属性要求;所述资源属性要求包括:请求的资源属性值,或资源属性值满足的表达式。
在本发明实施例中,Pod对象绑定模块603具体用于采用以下任意一个或多个方式实现所述根据选择的节点中的可共享设备的可共享资源信息为Pod对象分配每一个容器的每一种可共享资源:
对于每一个容器的每一种可共享资源,当选择的节点存在包括已分配的可共享资源的可共享设备时,为Pod对象分配第一设备中的可共享资源;
对于每一个容器的每一种可共享资源,当选择的节点中的所有可共享设备均未包括已分配的可共享资源时,为Pod对象分配第二设备中的可共享资源;
其中,第一设备包括:
包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差的可共享设备;
或者,包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差,且请求的资源属性量小于或等于请求的资源的数量和可共享设备的最大可共享数目的比值,与资源属性值的乘积的可共享设备;
或者,包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差,且资源属性量满足所述资源属性要求中的表达式的可共享设备。
第二设备包括:
未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目的可共享设备;
或者,未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目,且请求的资源属性量小于或等于请求的可共享资源的数量和设备的最大可共享数目的比值,与资源属性值的乘积的可共享设备;
或者,未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目,且资源属性量满足所述资源属性要求中的表达式的可共享设备。
本发明实施例的管理节点的具体实现过程与前述实施例应用于管理节点的资源调度方法的具体实现过程相同,这里不再赘述。
参见图7,本发明另一个实施例提出了一种资源调度系统,包括:
从节点701,用于分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述可共享资源信息包括:设备ID号、资源属性信息、设备的最大可共享数目;
管理节点702,用于接收到从节点上报的可共享设备的可共享资源信息,存储或更新可共享设备的可共享资源信息;其中,所述可共享资源信息包括:设备身份标识ID号、资源属性信息、设备的最大可共享数目;接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种可共享资源的要求;为待创建的Pod对象选择节点,根据选择的节点中的可共享设备的可共享资源信息为Pod对象分配每一个容器的每一种可共享资源。
上述从节点701和管理节点702的具体实现方式与前述实施例的具体实现过程相同,这里不再赘述。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (12)
1.一种资源调度方法,包括:
管理节点接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种可共享资源的要求;
管理节点为待创建的Pod对象选择节点;根据选择的节点中的可共享设备的可共享资源信息为所述Pod对象分配每一个容器的每一种可共享资源;其中,所述可共享资源信息包括:设备身份标识ID号、设备的资源属性信息、设备的最大可共享数目。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
所述管理节点接收到从节点上报的可共享设备的可共享资源信息,存储或更新所述可共享设备的可共享资源信息。
3.根据权利要求1所述的方法,其特征在于,其中,所述对每一种可共享资源的要求包括:请求的可共享资源的数量;或者,请求的可共享资源的数量和可共享资源对应的资源属性要求;其中,所述资源属性要求包括:请求的资源属性值,或资源属性值满足的表达式。
4.根据权利要求3所述的方法,其特征在于,其中,所述根据选择的节点中的可共享设备的可共享资源信息为Pod对象分配每一个容器的每一种可共享资源包括以下任意一个或多个:
对于每一个容器的每一种可共享资源,当选择的节点存在包括已分配的可共享资源的可共享设备时,为Pod对象分配第一设备中的可共享资源;
对于每一个容器的每一种可共享资源,当选择的节点中的所有可共享设备均未包括已分配的可共享资源时,为Pod对象分配第二设备中的可共享资源;
其中,第一设备包括:
包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差的可共享设备;
或者,包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差,且请求的资源属性量小于或等于请求的可共享资源的数量和设备的最大可共享数目的比值,与资源属性值的乘积的可共享设备;
或者,包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目和已分配的可共享资源的数量之差,且资源属性量满足所述资源属性要求中的表达式的可共享设备;
第二设备包括:
未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目的可共享设备;
或者,未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目,且请求的资源属性量小于或等于请求的可共享资源的数量和设备的最大可共享数目的比值,与资源属性值的乘积的可共享设备;
或者,未包括已分配的可共享资源,且请求的可共享资源的数量小于或等于可共享设备的最大可共享数目,且资源属性量满足所述资源属性要求中的表达式的可共享设备。
5.一种资源调度方法,包括:
从节点分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、设备的资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;
从节点将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述可共享资源信息包括:设备ID号、设备的资源属性信息、设备的最大可共享数目。
6.一种资源调度装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现以下步骤:
接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种可共享资源的要求;
为待创建的Pod对象选择节点;根据选择的节点中的可共享设备的可共享资源信息为所述Pod对象分配每一个容器的每一种可共享资源。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种可共享资源的要求;
为待创建的Pod对象选择节点;根据选择的节点中的可共享设备的可共享资源信息为所述Pod对象分配每一个容器的每一种可共享资源。
8.一种资源调度装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现以下步骤:
分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、设备的资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;
将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述可共享资源信息包括:设备ID号、设备的资源属性信息、设备的最大可共享数目。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、设备的资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;
将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述可共享资源信息包括:设备ID号、设备的资源属性信息、设备的最大可共享数目。
10.一种资源调度装置,包括:
可共享信息获取模块,用于分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;
可共享资源信息上报模块,用于将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述可共享资源信息包括:设备ID号、资源属性信息、设备的最大可共享数目。
11.一种资源调度装置,包括:
Pod请求接收模块,用于接收用户的创建Pod请求;其中,所述创建Pod请求包括:每一个容器对每一种可共享资源的要求;
Pod对象绑定模块,用于为待创建的Pod对象选择节点,根据选择的节点中的可共享设备的可共享资源信息为所述Pod对象分配每一个容器的每一种可共享资源。
12.一种资源调度系统,包括:
从节点,用于分别获取每一个可共享设备的可共享信息;其中,所述可共享信息包括:设备身份标识ID号、设备的最大可共享数目、资源属性信息和设备状态;所述设备状态包括:设备是否健康、设备是否可用;将所述可共享信息转换为可共享资源信息,将所述可共享资源信息上报给管理节点;其中,所述可共享资源信息包括:设备ID号、资源属性信息、设备的最大可共享数目;
管理节点,用于接收到从节点上报的可共享设备的可共享资源信息,存储或更新可共享设备的可共享资源信息;其中,所述可共享资源信息包括:设备身份标识ID号、资源属性信息、设备的最大可共享数目;接收用户的创建Pod请求;其中,所述创建Pod请求包括以下描述信息:每一个容器对每一种可共享资源的要求;为待创建的Pod对象选择节点,根据选择的节点中的可共享设备的可共享资源为所述Pod对象分配每一个容器的每一种可共享资源。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911192927.9A CN112866321A (zh) | 2019-11-28 | 2019-11-28 | 一种资源调度方法、装置和系统 |
US17/637,840 US20220283869A1 (en) | 2019-11-28 | 2020-11-12 | Resource Scheduling Method, Apparatus and System |
PCT/CN2020/128420 WO2021104033A1 (zh) | 2019-11-28 | 2020-11-12 | 一种资源调度方法、装置和系统 |
EP20891970.4A EP4007232A4 (en) | 2019-11-28 | 2020-11-12 | RESOURCE PLANNING METHOD, APPARATUS AND SYSTEM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911192927.9A CN112866321A (zh) | 2019-11-28 | 2019-11-28 | 一种资源调度方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112866321A true CN112866321A (zh) | 2021-05-28 |
Family
ID=75995690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911192927.9A Pending CN112866321A (zh) | 2019-11-28 | 2019-11-28 | 一种资源调度方法、装置和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220283869A1 (zh) |
EP (1) | EP4007232A4 (zh) |
CN (1) | CN112866321A (zh) |
WO (1) | WO2021104033A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658332A (zh) * | 2022-12-28 | 2023-01-31 | 摩尔线程智能科技(北京)有限责任公司 | 一种gpu共享方法及装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10191778B1 (en) * | 2015-11-16 | 2019-01-29 | Turbonomic, Inc. | Systems, apparatus and methods for management of software containers |
CN109376009A (zh) * | 2018-09-26 | 2019-02-22 | 郑州云海信息技术有限公司 | 一种共享资源的方法及装置 |
CN109936604A (zh) * | 2017-12-18 | 2019-06-25 | 北京图森未来科技有限公司 | 一种资源调度方法、装置和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677479B (zh) * | 2015-12-30 | 2019-05-10 | 北京奇艺世纪科技有限公司 | 并行运行gpu运算程序的实现方法及装置 |
US10303899B2 (en) * | 2016-08-11 | 2019-05-28 | Intel Corporation | Secure public cloud with protected guest-verified host control |
US10841336B2 (en) * | 2018-05-21 | 2020-11-17 | International Business Machines Corporation | Selectively providing mutual transport layer security using alternative server names |
CN110471766B (zh) * | 2019-08-06 | 2022-12-30 | 北京华恒盛世科技有限公司 | 一种基于cuda的gpu资源调度系统和方法 |
-
2019
- 2019-11-28 CN CN201911192927.9A patent/CN112866321A/zh active Pending
-
2020
- 2020-11-12 EP EP20891970.4A patent/EP4007232A4/en active Pending
- 2020-11-12 WO PCT/CN2020/128420 patent/WO2021104033A1/zh unknown
- 2020-11-12 US US17/637,840 patent/US20220283869A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10191778B1 (en) * | 2015-11-16 | 2019-01-29 | Turbonomic, Inc. | Systems, apparatus and methods for management of software containers |
CN109936604A (zh) * | 2017-12-18 | 2019-06-25 | 北京图森未来科技有限公司 | 一种资源调度方法、装置和系统 |
CN109376009A (zh) * | 2018-09-26 | 2019-02-22 | 郑州云海信息技术有限公司 | 一种共享资源的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP4007232A1 (en) | 2022-06-01 |
US20220283869A1 (en) | 2022-09-08 |
EP4007232A4 (en) | 2022-11-30 |
WO2021104033A1 (zh) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11467864B2 (en) | Unified resource scheduling coordinator, method for creating a virtual machine and/or container, and unified resource scheduling system | |
CN102835068B (zh) | 用于管理系统资源的重新分配的方法和装置 | |
CN111880936B (zh) | 资源调度方法、装置、容器集群、计算机设备和存储介质 | |
CN109150987B (zh) | 基于主机层和容器层的两层式容器集群弹性扩容方法 | |
CN112231049A (zh) | 基于kubernetes的计算设备共享方法、装置、设备及存储介质 | |
CN112463375A (zh) | 一种数据处理的方法和装置 | |
WO2020074687A1 (en) | Dynamic slice priority handling | |
CN111858045A (zh) | 一种多任务gpu资源调度方法、装置、设备及可读介质 | |
WO2023045467A1 (zh) | 容器cpu资源调度与隔离方法和装置、存储介质及电子设备 | |
EP4177751A1 (en) | Resource scheduling method, resource scheduling system, and device | |
CN106648900B (zh) | 基于智能电视的超算方法及系统 | |
US11663050B2 (en) | Method, device and computer program product for managing dedicated processing resources | |
CN116089009A (zh) | 一种gpu资源管理方法、系统、设备和存储介质 | |
CN113760549B (zh) | 一种pod部署方法及装置 | |
CN113886058A (zh) | 一种跨集群资源调度方法和装置 | |
CN112866321A (zh) | 一种资源调度方法、装置和系统 | |
CN112261125B (zh) | 集中单元的云化部署方法、装置及系统 | |
CN113419839A (zh) | 多类型作业的资源调度方法、装置、电子设备及存储介质 | |
CN106790354B (zh) | 一种防数据拥堵的通信方法及其装置 | |
CN112698930A (zh) | 一种获取服务器标识的方法、装置、设备及介质 | |
CN114629958B (zh) | 资源分配方法、装置、电子设备及存储介质 | |
WO2021057405A1 (zh) | 资源共享方法及装置 | |
CN116166421A (zh) | 分布式训练任务的资源调度方法及其设备 | |
CN111400021A (zh) | 一种深度学习方法、装置及系统 | |
US20220376995A1 (en) | Method and apparatus for abstracting network resources in a mobile communications network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |