CN106155804A - 对gpu云计算资源统一管理服务的方法和系统 - Google Patents

对gpu云计算资源统一管理服务的方法和系统 Download PDF

Info

Publication number
CN106155804A
CN106155804A CN201510168854.5A CN201510168854A CN106155804A CN 106155804 A CN106155804 A CN 106155804A CN 201510168854 A CN201510168854 A CN 201510168854A CN 106155804 A CN106155804 A CN 106155804A
Authority
CN
China
Prior art keywords
gpu
cluster
calculating
management service
cloud computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510168854.5A
Other languages
English (en)
Inventor
张京梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dian Zan Science And Technology Ltd
Original Assignee
Beijing Dian Zan Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dian Zan Science And Technology Ltd filed Critical Beijing Dian Zan Science And Technology Ltd
Priority to CN201510168854.5A priority Critical patent/CN106155804A/zh
Publication of CN106155804A publication Critical patent/CN106155804A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种对GPU云计算资源统一管理服务的方法,包括以下步骤:计算中心内所有服务器的GPU组成一个软件定义的GPU计算集群;对计算节点的申请将在申请完CPU资源后被发送到GPU集群管理器以申请可用的GPU计算节点列表;申请成功后,通过GPU负载管理器和GPU代理的二级架构,对GPU内存数据和对GPU计算任务的调用进行水平切分以进行分布式GPU计算。提高硬件的利用率并降低能耗。

Description

对 GPU 云计算资源统一管理服务的方法和系统
技术领域
本发明属于云计算资源管理领域,具体涉及一种对GPU云计算资源统一管理服务的方法和系统。
背景技术
现有的云计算基础架构服务平台只能提供对CPU计算资源的统一管理服务,用户以CPU内核为单位为单个计算节点申请计算资源。随着GPU计算能力的提高以及GPU在并行计算和大数据处理领域中体现出高能效比的优势, GPU使用越来越广泛和普及,因此急需对GPU计算资源进行统一管理服务来提高硬件的利用率并降低能耗。
发明内容
为了克服现有技术存在的缺陷,本发明提供一种对GPU云计算资源统一管理服务的方法,可以有效提高硬件的利用率并降低能耗。
为达到上述目的,本发明的技术方案是:一种对GPU云计算资源统一管理服务的方法,包括以下步骤:
(1)计算中心内所有服务器的GPU组成一个软件定义的GPU计算集群;
(2)对计算节点的申请将在申请完CPU资源后被发送到GPU集群管理器以申请可用的GPU计算节点列表;
(3)申请成功后,通过GPU负载管理器和GPU代理的二级架构,对GPU内存数据和对GPU计算任务的调用进行水平切分以进行分布式GPU计算。
优选的,当用户申请单个计算节点时,可以指定CPU内核数量和GPU计算能力。
优选的,所述GPU代理运行在服务器宿主操作系统之上,负责维护GPU计算任务队列,接收来自负载管理器的GPU计算任务,并把结果返回给集群管理器。
优选的,所述GPU计算集群通过编排新建一个虚拟GPU子集群,对集群进行自动扩展或者收缩,回收虚拟GPU子集群。
本发明还公开了一种对GPU云计算资源统一管理服务的系统,包括计算中心内所有服务器的GPU组成一个软件定义的GPU计算集群,申请可用的GPU计算节点列表的GPU集群管理器,对GPU内存数据和对GPU计算任务的调用进行水平切分以进行分布式GPU计算的GPU负载管理器和GPU代理的二级架构;所述GPU代理运行在服务器宿主操作系统之上,负责维护GPU计算任务队列,接收来自负载管理器的GPU计算任务,并把结果返回给集群管理器。
优选的,所述GPU计算集群通过编排新建一个虚拟GPU子集群,对集群进行自动扩展或者收缩,回收虚拟GPU子集群。
本发明的有益效果是:
对GPU计算资源进行统一管理服务能够使一个云计算基础架构服务平台同时针对CPU和GPU提供更灵活的计算资源的组合,从而提高硬件的利用率并降低能耗。针对不同的用户需求,发挥CPU和GPU的计算能力,从而达到云计算平台绿色节能的目的。
附图说明
图1为本发明对GPU云计算资源统一管理服务的系统的架构图;
图2为本发明对GPU云计算资源统一管理服务的系统的软件定义GPU集群架构图;
图3为本发明对GPU云计算资源统一管理服务的方法的分布式GPU计算时序图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1-3所示,计算中心内所有服务器的GPU组成一个软件定义的GPU计算集群(Software Defined GPU Cluster, SDGC),当用户申请单个计算节点时,除了可以指定CPU内核数量,还可以指定GPU计算能力(GPU计算能力=计算节点数*GPU内核数/节点),增加了一个新的GPU集群管理器,对计算节点的申请将在申请完CPU资源后被发送到GPU集群管理器(Cluster Manager)以申请可用的GPU计算节点列表,申请成功后,通过GPU负载管理器(WorkLoad Manager)和GPU代理(Agent)的二级架构,对GPU内存数据和对GPU计算任务的调用进行水平切分以进行分布式GPU计算,GPU代理运行在服务器宿主操作系统之上,负责维护GPU计算任务队列,接收来自负载管理器的GPU计算任务,并把结果返回给集群管理器。
GPU集群的自动化编排,对GPU集群中的GPU资源的统一自动化管理。有了编排,可以将新建一个虚拟GPU子集群,对集群进行自动扩展或者收缩,回收虚拟GPU子集群等一系列任务串联起来。
GPU基础架构服务API接口设计(以申请主机为例)
RunInstance:申请指定配置和数量的计算主机。
请求参数列表如下表:
响应元素列表如下表所示:
请求示例如下:
https://api.armgpucloud.com/iaas/?action=RunInstances
&instance_type=custom
&image_id=ubuntu14.04x64
&cpu=2
&gpu=10
&memory=2048
响应示例如下:
{
"action":"RunInstancesResponse",
"instances":[ "inst-gyy513" ],
"gpuClusterId":"gc-kt722",
"retCode":0
}
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (6)

1.一种对GPU云计算资源统一管理服务的方法,其特征在于,包括以下步骤:
(1)计算中心内所有服务器的GPU组成一个软件定义的GPU计算集群;
(2)对计算节点的申请将在申请完CPU资源后被发送到GPU集群管理器以申请可用的GPU计算节点列表;
(3)申请成功后,通过GPU负载管理器和GPU代理的二级架构,对GPU内存数据和对GPU计算任务的调用进行水平切分以进行分布式GPU计算。
2.根据权利要求1所述的对GPU云计算资源统一管理服务的方法,其特征在于,当用户申请单个计算节点时,可以指定CPU内核数量和GPU计算能力。
3.根据权利要求1所述的对GPU云计算资源统一管理服务的方法,其特征在于,所述GPU代理运行在服务器宿主操作系统之上,负责维护GPU计算任务队列,接收来自负载管理器的GPU计算任务,并把结果返回给集群管理器。
4.根据权利要求1所述的对GPU云计算资源统一管理服务的方法,其特征在于,所述GPU计算集群通过编排新建一个虚拟GPU子集群,对集群进行自动扩展或者收缩,回收虚拟GPU子集群。
5.一种对GPU云计算资源统一管理服务的系统,其特征在于,包括计算中心内所有服务器的GPU组成一个软件定义的GPU计算集群,申请可用的GPU计算节点列表的GPU集群管理器,对GPU内存数据和对GPU计算任务的调用进行水平切分以进行分布式GPU计算的GPU负载管理器和GPU代理的二级架构;所述GPU代理运行在服务器宿主操作系统之上,负责维护GPU计算任务队列,接收来自负载管理器的GPU计算任务,并把结果返回给集群管理器。
6.根据权利要求1所述的对GPU云计算资源统一管理服务的系统,其特征在于,所述GPU计算集群通过编排新建一个虚拟GPU子集群,对集群进行自动扩展或者收缩,回收虚拟GPU子集群。
CN201510168854.5A 2015-04-12 2015-04-12 对gpu云计算资源统一管理服务的方法和系统 Pending CN106155804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510168854.5A CN106155804A (zh) 2015-04-12 2015-04-12 对gpu云计算资源统一管理服务的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510168854.5A CN106155804A (zh) 2015-04-12 2015-04-12 对gpu云计算资源统一管理服务的方法和系统

Publications (1)

Publication Number Publication Date
CN106155804A true CN106155804A (zh) 2016-11-23

Family

ID=57336755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510168854.5A Pending CN106155804A (zh) 2015-04-12 2015-04-12 对gpu云计算资源统一管理服务的方法和系统

Country Status (1)

Country Link
CN (1) CN106155804A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107135257A (zh) * 2017-04-28 2017-09-05 东方网力科技股份有限公司 一种节点集群中任务分配的方法、节点和系统
CN108829516A (zh) * 2018-05-31 2018-11-16 安徽四创电子股份有限公司 一种图形处理器资源虚拟化调度方法
CN109933433A (zh) * 2019-03-19 2019-06-25 合肥中科类脑智能技术有限公司 一种gpu资源调度系统及其调度方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587583A (zh) * 2009-06-23 2009-11-25 长春理工大学 基于gpu集群的渲染农场
US20110074791A1 (en) * 2009-09-30 2011-03-31 Greg Scantlen Gpgpu systems and services
US20120124591A1 (en) * 2010-11-17 2012-05-17 Nec Laboratories America, Inc. scheduler and resource manager for coprocessor-based heterogeneous clusters
CN102650950A (zh) * 2012-04-10 2012-08-29 南京航空航天大学 一种支持多gpu虚拟化的平台架构及其工作方法
CN102929718A (zh) * 2012-09-17 2013-02-13 江苏九章计算机科技有限公司 一种基于任务调度的分布式gpu计算机系统
CN103365726A (zh) * 2013-07-08 2013-10-23 华中科技大学 一种面向gpu集群的资源管理方法和系统
CN103761139A (zh) * 2014-01-25 2014-04-30 湖南大学 一种基于动态库拦截的通用计算虚拟化实现方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587583A (zh) * 2009-06-23 2009-11-25 长春理工大学 基于gpu集群的渲染农场
US20110074791A1 (en) * 2009-09-30 2011-03-31 Greg Scantlen Gpgpu systems and services
US20120124591A1 (en) * 2010-11-17 2012-05-17 Nec Laboratories America, Inc. scheduler and resource manager for coprocessor-based heterogeneous clusters
CN102650950A (zh) * 2012-04-10 2012-08-29 南京航空航天大学 一种支持多gpu虚拟化的平台架构及其工作方法
CN102929718A (zh) * 2012-09-17 2013-02-13 江苏九章计算机科技有限公司 一种基于任务调度的分布式gpu计算机系统
CN103365726A (zh) * 2013-07-08 2013-10-23 华中科技大学 一种面向gpu集群的资源管理方法和系统
CN103761139A (zh) * 2014-01-25 2014-04-30 湖南大学 一种基于动态库拦截的通用计算虚拟化实现方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107135257A (zh) * 2017-04-28 2017-09-05 东方网力科技股份有限公司 一种节点集群中任务分配的方法、节点和系统
CN108829516A (zh) * 2018-05-31 2018-11-16 安徽四创电子股份有限公司 一种图形处理器资源虚拟化调度方法
CN108829516B (zh) * 2018-05-31 2021-08-10 安徽四创电子股份有限公司 一种图形处理器资源虚拟化调度方法
CN109933433A (zh) * 2019-03-19 2019-06-25 合肥中科类脑智能技术有限公司 一种gpu资源调度系统及其调度方法
CN109933433B (zh) * 2019-03-19 2021-06-25 合肥中科类脑智能技术有限公司 一种gpu资源调度系统及其调度方法

Similar Documents

Publication Publication Date Title
US9891942B2 (en) Maintaining virtual machines for cloud-based operators in a streaming application in a ready state
US20160344650A1 (en) Performance-driven resource management in a distributed computer system
US20160162311A1 (en) Offloading and parallelizing translation table operations
US9104456B2 (en) Zone management of compute-centric object stores
WO2018176998A1 (zh) 数据存储方法及装置
US9904337B2 (en) Affinity-aware parallel zeroing of pages in non-uniform memory access (NUMA) servers
JP2014142928A5 (zh)
US20130061221A1 (en) Determining virtual machine image pattern distributions in a networked computing environment
US9379950B2 (en) Using cloud resources to improve performance of a streaming application
US20130055239A1 (en) Provisioning of virtual machine pools based on historical data in a networked computing environment
US9660834B2 (en) Bursting cloud resources to affect state change performance
CN105404542A (zh) 云计算系统及在其上运行高性能计算的方法
CN102843418A (zh) 一种资源调度系统
WO2016183799A1 (zh) 一种硬件加速方法以及相关设备
US20150040125A1 (en) Allowing management of a virtual machine by multiple cloud providers
CN104331332A (zh) 一种基于sla的虚拟资源预分配算法
CN103309745A (zh) 云架构的虚拟资源配置的方法及装置
CN106155804A (zh) 对gpu云计算资源统一管理服务的方法和系统
CN104468759A (zh) PaaS平台中实现应用迁移的方法和装置
US9575795B2 (en) Reverting a virtual resource to its base configuration using the snapshot image based on frequency the virtual resource is requested
CN106412075A (zh) 一种基于云计算的资源配置方法及装置
Shrivastava et al. An energy efficient VM allocation using best fit decreasing minimum migration in cloud environment
CN110109758A (zh) 一种云计算资源分配方法
CN104793924A (zh) 计算任务的处理方法及装置
US11128701B1 (en) Cooperative preemption in a distributed multi-tenant resource pool

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123

RJ01 Rejection of invention patent application after publication