CN111679911A

CN111679911A - 云环境中gpu卡的管理方法、装置、设备及介质

Info

Publication number: CN111679911A
Application number: CN202010501321.5A
Authority: CN
Inventors: 涂耀旭; 刘洋; 马涛; 王家学; 杨朴; 韩兆晖; 付荣; 李珊珊
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-18
Anticipated expiration: 2040-06-04
Also published as: CN111679911B

Abstract

本发明实施例公开了一种云环境中GPU卡的管理方法、装置、设备及介质。该方法包括：接收目标GPU卡管理请求；基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求。在上述技术方案中，针对多台物理机中GPU卡的管理，无需用户手动执行相关管理操作，实现了GPU卡管理的自动化，以此提高了GPU卡的使用效率，也便于实现GPU卡资源的动态调配和精细化管理。

Description

云环境中GPU卡的管理方法、装置、设备及介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种云环境中GPU卡的管理方法、装置、设备及介质。

背景技术

随着人工智能、图像识别、神经网络等新型技术的应用越来越广泛，对GPU(Graphics Processing Unit，图形处理器)卡资源的需求越来越大。将GPU卡进行虚拟化，实现GPU卡资源的动态调配和精细化管理，能够有效地提高GPU卡的使用效率。因此，如何便捷地实现GPU卡资源的动态调配和精细化管理是亟待解决的问题。

发明内容

本发明实施例提供一种云环境中GPU卡的管理方法、装置、设备及介质，以实现便捷地GPU卡资源的动态调配和精细化管理，提高GPU卡的使用效率。

第一方面，本发明实施例提供了一种云环境中GPU卡的管理方法，包括：

接收目标GPU卡管理请求；

基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求。

第二方面，本发明实施例还提供了一种云环境中GPU卡的管理装置，包括：

请求接收模块，设置为接收目标GPU卡管理请求；

请求响应模块，设置为基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任意实施例所述的云环境中GPU卡的管理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的云环境中GPU卡的管理方法。

本发明实施例提供的技术方案，在接收到目标GPU卡管理请求时，基于针对多物理机的虚拟化管理平台去响应所述目标GPU卡管理请求，以实现对云环境中GPU卡的管理。在上述技术方案中，针对多台物理机中GPU卡的管理，无需用户手动执行相关管理操作，实现了GPU卡管理的自动化，以此提高了GPU卡的使用效率，也便于实现GPU卡资源的动态调配和精细化管理。

附图说明

图1是本发明实施例一中的一种云环境中GPU卡的管理方法的流程图；

图2是本发明实施例二中的一种云环境中GPU卡的管理方法的流程图；

图3是本发明实施例三中的一种云环境中GPU卡的管理方法的流程图；

图4是本发明实施例三中的一种GPU卡负载详情的展示示意图；

图5是本发明实施例四中的一种云环境中GPU卡的管理方法的流程图；

图6是本发明实施例四中的一种GPU状态详情列表的展示示意图；

图7是本发明实施例五中的一种适用于执行云环境中GPU卡的管理方法的系统平台架构示意图；

图8是本发明实施例五中的一种发起GPU卡添加请求的流程图；

图9是本发明实施例五中的一种响应GPU卡添加请求的流程图；

图10是本发明实施例五中的一种发起GPU卡删除请求的流程图；

图11是本发明实施例五中的一种响应GPU卡删除请求的流程图；

图12是本发明实施例五中的一种响应GPU卡状态查询请求的流程图；

图13是本发明实施例六中的一种云环境中GPU卡的管理装置的结构示意图；

图14是本发明实施例七中的一种计算机设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

随着人工智能、图像识别、神经网络等新型技术的应用越来越广泛，企业中对于GPU卡资源的需求越来越大。GPU卡的价格昂贵，同时考虑到代码验证、模型训练、开放预测等阶段对于GPU算力资源的需求有明显差异，将GPU卡进行虚拟化，能够有效地提高GPU使用效率，降低企业成本。

虚拟化一种资源管理技术，在一台物理机上可以创建多个相互独立的虚拟机，并将包括服务器、CPU、内存、网络、存储、GPU等在内的物理资源池化，进而可以动态、弹性地分配给虚拟机。虚拟机里允许安装不同的操作系统，配置不同的网络IP地址。目前，企业通常基于Vmware、Citrix、KVM等技术部署虚拟化私有云。例如，在基于Vmware实现的虚拟化云环境中，可以将GPU卡配置为直通模式(直通模式是一种虚拟机使用物理机设备的方式，通过此方式，允许虚拟机排他地使用物理机上的某个PCI(Peripheral ComponentInterconnect，外设部件互连标准)设备，就像将该设备物理连接到虚拟机上一样，且虚拟机只能使用其所在物理机上的PCI设备)，进而添加到虚拟机上，通过此方式，可以将一台物理机上的多个GPU卡分配给多个虚拟机使用，每个虚拟机可以独占一个或多个GPU卡。

实施例一

图1是本发明实施例一提供的一种云环境中GPU卡的管理方法的流程图，可适用于对云环境中多台物理机配置的GPU卡资源进行自动化管理的情况，该方法可以由本发明实施例提供的云环境中GPU卡的管理装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。

如图1所示，本实施例提供的云环境中GPU卡的管理方法，具体包括：

S110、接收目标GPU卡管理请求。

目标GPU卡管理请求，指的是与GPU卡资源管理相关的请求，可以是针对某个虚拟机占用的某个GPU卡的管理请求，也可以是针对所有物理机上的GPU卡的管理请求。

例如，目标GPU卡管理请求可以是目标GPU卡添加请求，可以是目标GPU卡删除请求，可以是目标GPU卡状态查询请求，也可以是目标GPU卡负载详情查询请求，等等。

其中，目标GPU卡添加请求，用于请求为设定的一个或多个虚拟机添加GPU卡；目标GPU卡删除请求，用于请求在设定的一个或多个虚拟机上删除GPU卡；目标卡占用状态查询请求，用于请求查询GPU集群中各个GPU的状态，包括设备信息和占用状态等；目标GPU卡负载详情查询请求，用于请求查询各个被占用的GPU的负载情况。

在一种示例中，目标GPU卡添加请求和目标GPU卡删除请求可以包含在同一个GPU卡申请中。GPU卡申请，指的是为设定一个或多个虚拟机申请分配GPU卡资源，以在GPU申请中包括与一个GPU卡对应的GPU卡分配时间以及GPU卡回收时间为例，此时发起一个GPU卡申请即可相当于同时发起一个与GPU卡分配时间对应的目标GPU卡添加请求以及一个与GPU卡回收时间对应的目标GPU卡删除请求。

S120、基于针对多物理机的虚拟化管理平台，响应目标GPU卡管理请求。

针对多物理机的虚拟化管理平台，指的是适用于云环境中对多台物理机进行虚拟化管理的平台，以基于Vmware实现的虚拟化云环境为例，针对多物理机的虚拟化管理平台可以基于Vcenter来实现，下述以基于Vcenter响应目标GPU卡管理请求为例进行相关解释说明。

响应目标GPU卡管理请求，即为完成与目标GPU卡管理请求相关的操作。以目标GPU卡管理请求为目标GPU卡添加请求为例，响应目标GPU卡管理请求即为完成向匹配的虚拟机添加GPU卡的操作；以目标GPU卡管理请求为目标GPU卡删除请求为例，响应目标GPU卡管理请求即为完成在匹配的虚拟机上删除GPU卡。

在一种可选的实施方式中，接收到目标GPU卡添加请求之后，从数据库表中查询与目标GPU卡添加请求对应的虚拟机所处Vcenter的信息，建立到该Vcenter的会话连接，通过Vspere SDK(Software Development Kit，软件开发工具包)规范，获取虚拟机和GPU卡对象(通过SDK可以访问和操作Vcenter或Vsphere的各种虚拟化资源)，并配置包含GPU卡信息的虚拟机变更配置对象，其中，设备ID配置为可以新增的GPU卡设备号、变更操作类型设置为新增。然后，通过调用虚拟机对象的reconfig_taks()函数，向Vcenter发送变更请求，以通过Vcenter实现向对应的虚拟机添加GPU卡。

在一种可选的实施方式中，接收到目标GPU卡删除请求之后，从数据库表中查询与目标GPU卡删除请求对应的虚拟机所处Vcenter信息，建立到该Vcenter的会话连接，根据Vspere SDK规范，获取虚拟机和GPU卡对象，并配置包含GPU卡信息的虚拟机变更配置对象，其中设备ID设置为待删除的GPU卡设备号、变更操作类型设置为删除。然后，通过调用虚拟机对象的reconfig_taks()函数，向Vcenter发送变更请求，以通过Vcenter实现在对应的虚拟机上将GPU卡删除。

在上述技术方案中，针对基于Vcenter的多物理机私有云环境，基于Vsphere SDK规范和Python代码，实现了多物理机大规模私有云环境中虚拟机添加GPU卡、虚拟机删除GPU卡的自动化操作。

实施例二

图2是本发明实施例二提供的一种云环境中GPU卡的管理方法的流程图。本实施例在上述实施例的基础上进行具体化，其中，在接收目标GPU卡管理请求之后，还包括：将目标GPU卡管理请求发送至目标消息队列中；

响应的，基于针对多物理机的虚拟化管理平台，响应目标GPU卡管理请求，可以具体为：在目标消息队列获取到目标GPU卡管理请求后，基于针对多物理机的虚拟化管理平台，响应目标GPU卡管理请求。

如图2所示，本实施例提供的云环境中GPU卡的管理方法，具体包括：

S210、接收目标GPU卡管理请求。

S220、将目标GPU卡管理请求发送至目标消息队列中。

目标消息队列，指的是用于对多个目标GPU卡管理请求进行排序管理的消息队列。在一示例中，在接收到多个目标GPU卡管理请求的情况下，可以将这些目标GPU卡管理请求按照接收顺序依次发送至目标消息队列中。可选的，目标消息队列中的目标GPU卡管理请求先进先出。

在本实施例一种可选的实施方式中，可以将S220具体为：

将目标GPU卡管理请求存储到目标数据库中；根据目标GPU卡管理请求的申请执行时间，将目标GPU卡管理请求在目标数据库中取出，发送至目标消息队列中。

在接收到目标GPU卡管理请求之后，可以首先判断目标GPU卡管理请求是否为请求立刻执行，若是，则将目标GPU卡管理请求发送至目标消息队列中，若否，则将目标GPU卡管理请求存储到目标数据库中。

可选的，基于Python多进程和时间模块设计的一个轮询进程，用于定时扫描目标数据库中存储的各个目标GPU卡管理请求，分析与各个目标GPU卡管理请求对应的申请执行时间，并与当前时间进行对比，如果当前时间已经达到与目标GPU卡管理请求对应的申请执行时间，则将目标GPU卡管理请求发送至目标消息队列中，触发执行该目标GPU卡管理请求。

可选的，轮询进程也可以通过Control-M等调度软件来实现定时动作，但基于python多进程和时间模块的方式来实现的兼容性更好、成本更低。

S230、在目标消息队列获取到目标GPU卡管理请求后，基于针对多物理机的虚拟化管理平台，响应目标GPU卡管理请求。

可选的，目标消息队列设置一个监听进程，通过该监听进程获取发送至目标消息队列中的目标GPU卡管理请求，并基于多物理机的虚拟化管理平台，响应目标GPU卡管理请求。

在上述技术方案中，引入目标消息队列实现了接收目标GPU卡管理请求与响应目标GPU卡管理请求之间的解耦，也即前端页面请求与底层实施管理之间的解耦，支持多个目标GPU卡管理请求并行处理，提高了人机交互的效率。另外，引入轮询进程，实现GPU卡的定时添加和定时回收，极大得提高了GPU卡的资源使用效率。

实施例三

图3是本发明实施例三提供的一种云环境中GPU卡的管理方法的流程图。本实施例在上述实施例的基础上进行具体化，其中，当目标GPU卡管理请求为目标GPU卡负载详情查询请求时，可以将基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求，具体为：

获取占用GPU卡的各个虚拟机对象的信息；根据所述各个虚拟机对象的信息，分别登陆所述各个虚拟机对象并执行预设脚本，得到被占用的各个GPU卡的负载详情信息并反馈。

如图3所示，本实施例提供的云环境中GPU卡的管理方法，具体包括：

S310、接收目标GPU卡负载详情查询请求。

GPU卡设备安装有类似于内存的显存装置，当执行任务时会消耗显存用于存储和计算数据。一般将已使用的显存占总显存的比值作为GPU卡负载，比值越高，GPU卡负载就越高。可选的，目标GPU卡负载详情查询请求，用于请求各个GPU卡的实时负载情况。

私有云环境中一般是无成本使用，无法通过使用时间核算成本的方式来分配资源，因此，可以将GPU卡负载详情作为GPU卡管理和分配的依据。

S320、获取占用GPU卡的各个虚拟机对象的信息，根据各个虚拟机对象的信息，分别登陆各个虚拟机对象并执行预设脚本，得到被占用的各个GPU卡的负载详情信息并反馈。

在一示例中，首先，分别基于Python代码建立到各个Vcenter的会话连接，获取到占用GPU卡的各个虚拟机对象的信息；其次，根据各个虚拟机对象的信息，分别登陆各个虚拟机对象并执行预设脚本，例如可以根据虚拟机对象的信息通过SSH(Secure Shell，安全外壳协议)连接模块登陆虚拟机对象，并执行预设的shell脚本，预设的shell脚本用于实现GPU卡负载数据的采集；最后，将采集的各个GPU卡的负载数据进行反馈。

在一示例中，可以将GPU卡的负载数据详情以GPU卡负载曲线的形式进行反馈。如图4所示，GPU卡负载详情以折线图的形式展示，图4详细地展示了某个虚拟机上所有GPU卡在规定时间范围内的显存使用率。

在另一种可选的实施方式中，可以定时触发各个GPU卡负载数据的采集(采集方式同上)，例如每5分钟发触发一次，并将采集到的GPU卡的负载数据详情以及采集任务执行时间对应存储到目标数据库中。当接收到目标GPU卡负载详情查询请求时，直接在目标数据库中进行查询。

在上述技术方案中，针对基于Vcenter的多物理机私有云环境，基于Python代码和Shell脚本，实现了GPU卡负载数据的采集和展示，使GPU管理用户可以直观评估用户实际使用需求，提高了GPU卡管理的精细化程度。

实施例四

图5是本发明实施例四提供的一种云环境中GPU卡的管理方法的流程图。本实施例在上述实施例的基础上进行具体化，其中，当目标GPU卡管理请求为目标GPU卡状态查询请求时，基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求，可以具体为：

基于针对多物理机的虚拟化管理平台，查询每台物理机上所有GPU卡的信息，以及每个虚拟机对象所占用的GPU卡的信息；结合每台物理机上所有GPU卡的信息，以及每个虚拟机对象所占用的GPU卡的信息，得到所有GPU卡的占用状态信息。

如图5所示，本实施例提供的云环境中GPU卡的管理方法，具体包括：

S510、接收目标GPU卡状态查询请求。

可选的，目标GPU卡状态查询请求，用于请求查询各个GPU卡的状态，可以包括设备信息和占用状态等。

S520、基于针对多物理机的虚拟化管理平台，查询每台物理机上所有GPU卡的信息，以及每个虚拟机对象所占用的GPU卡的信息。

在一示例中，首先，分别建立到各个Vcenter的会话连接，根据Vspere SDK规范，获取所有物理机的信息，依次查询每台物理机上所有的GPU卡设备，将获取的例如GPU卡设备号、型号、厂商、所在的物理机等信息初始化保存到目标数据库中，此时GPU卡的占用状态可以被默认配置为“空闲”；其次，根据Vspere SDK规范，获取所有虚拟机的信息，依次查询每个虚拟机上添加的GPU卡设备的GPU卡设备号。

S530、结合每台物理机上所有GPU卡的信息，以及每个虚拟机对象所占用的GPU卡的信息，得到所有GPU卡的占用状态信息。

在查询到每个虚拟机上添加的GPU卡设备的GPU卡设备号之后，根据GPU卡设备号查询目标数据库中的GPU卡信息记录，将对应的GPU卡设备的占用状态修改为“使用中”或“占用”，还可以同时保存使用该GPU卡的虚拟机的名称。以此，可以得到所有的GPU卡的占用状态信息，也可以对GPU卡的占用状态信息进行全量更新。

在一示例中，所有GPU卡的占用状态信息可以通过GPU状态详情列表的形式展示。如图6所示的GPU状态详情列表中，可以包括各个GPU的所属物理机、GPU序列号、GPU卡厂商/型号以及是否处于空闲状态等信息。

在一示例中，GPU状态详情列表中还可以包括更新按钮，用于触发GPU卡的占用状态信息的全量更新。

在一示例中，GPU状态详情列表中还可以包括针对“空闲”GPU卡的预占按钮和针对“使用中”GPU卡的释放按钮，点击预占按钮用于触发将该GPU卡添加至对应的虚拟机(虚拟机信息是可以用户输入的或选择的)上，点击释放按钮用于触发发起将GPU卡在对应的虚拟机上删除的目标GPU卡删除请求。

在一示例中，GPU状态详情列表中还可以包括与每个GPU卡对应的负载按钮，点击负载按钮用于触发发起针对该GPU卡进行负载详情查询的目标GPU卡负载详情查询请求，可选的，响应该负载详情目标GPU卡负载详情查询请求时，直接在目标数据库中查询与GPU卡的负载详情。

在上述技术方案中，针对基于Vcenter的多物理机私有云环境，基于Vsphere SDK规范和Python代码，实现了多物理机大规模私有云环境中大量GPU卡的设备状态(可以包括占用状态及设备信息等)采集的自动化。而且，可以提供列表视图，实现了GPU卡资源的统一视图展示。

实施例五

本实施例在上述实施例的基础上进行具体化，其中，可以将云环境中GPU卡的管理方法包装成一个系统平台，如图7所示，系统平台的架构可以分为前端展示层、业务逻辑层、底层实现层。

在一示例中，系统平台执行云环境中GPU卡的管理方法时，可以通过前端展示层接收目标GPU卡管理请求；通过业务处理层将目标GPU卡管理请求发送至目标消息队列中；通过底层实现层在目标消息队列获取到目标GPU卡管理请求后，基于针对多物理机的虚拟化管理平台，响应目标GPU卡管理请求。

在一示例中，前端展示层可以基于VUE技术实现，为管理用户提供GPU状态详情列表页面和GPU卡负载详情页面。其中，VUE是一套用于构建用户界面的渐进式web前端框架，通过尽可能简单的API(Application Programming Interface，应用程序接口)实现响应的数据绑定和组合的视图组件，提供了事件监听、动态渲染、数据双向绑定等特性。关于GPU状态详情列表页面以及GPU卡负载详情页面请参加前述实施例，在此不再赘述。

在一示例中，业务逻辑层可以基于Python/Django技术实现，接收前端展示层发送的目标GPU卡管理请求。可选的，业务逻辑层按照业务逻辑完成对目标GPU卡管理请求的数据处理，并将与目标GPU卡管理请求对应的关键数据持久化到数据库中，通过底层实现层调用以完成相关GPU卡管理操作。其中，Django是一个遵循MTV(Model Template View，模型模板视图)框架的开源Web应用框架，由Python写成，强调代码复用，多个组件可以很方便地以“插件”形式服务于整个框架。

在一示例中，底层实现层可以基于Vpshere SDK规范，实现连接Vcenter、获取虚拟机对象、查询物理机GPU状态、向虚拟机添加GPU卡、从虚拟机上删除GPU卡等功能，并通过这些功能的组合来完成与GPU卡相关的管理功能。另外，还可以通过Python+Shell脚本的方式，登陆虚拟机操作系统，采集GPU卡的负载数据，并将结果保存到数据库中。

在上述技术方案中，由于实际应用中GPU管理请求的数量级较小，Vue+Django的技术方案便于部署和开发，能够很好地满足需求。

考虑到底层实现层中模板的操作较慢，为了避免前端展示层页面的持续等待，为了提高用户体验，引入目标消息队列用于前后端组件解耦。业务逻辑层将要执行的操作发送到目标消息队列中，底层实现层通过消息队列监听器获取消息后，按照约定解析消息含义，调用底层实现层相关的功能模块完成操作。

首先，以对虚拟机添加GPU卡的功能进行解释说明。在一种可选的实施方式中，管理用户在GPU状态详情列表页面中点击占用按钮并输入虚拟机信息后，就触发了添加GPU卡的实施流程。由于引入了目标消息队列实现前后解耦，发起GPU卡添加请求和响应GPU卡添加请求的操作流程可以分解为两个相对独立的阶段。其中，第一个阶段流程如图8所示，管理用户点击占用按钮后，需要经过权限校验，如果校验不通过则结束流程，反之则将任务信息存入到数据库，并将任务状态设置为“审批通过”。如果该GPU卡添加请求选择的是立即执行，则会通过目标消息队列通知底层实现层立即实施该任务，发送成功后将数据库中的任务状态设置为“队列中”。如果该GPU卡添加请求选择的不是立即执行，而是未来某个时间，则不会被发送到目标消息队列中。当轮询进程判断当前时间已经达到了期望执行时间后，会将该GPU卡添加请求的信息发送到目标消息队列中，触发底层实现层的GPU卡添加操作。另外，对虚拟机添加GPU卡的操作也可以由通过轮询进程判断当前时间已到达GPU卡分配时间触发。第二个阶段流程如图9所示，目标消息队列的监听进程收到目标消息队列中的任务ID，从数据库中获取任务信息，将任务状态设置为“执行中”。从数据库表中查询该虚拟机所处的Vcenter信息，建立到该VCenter的会话连接，根据Vspere SDK规范，获取虚拟机和GPU卡对象，并配置包含GPU卡信息的虚拟机变更配置对象，其中设备ID设置为待添加的GPU卡设备号、变更操作类型设置为新增，通过调用虚拟机对象的reconfig_taks()函数，向Vcenter发送变更请求，并根据Vcenter变更的结果将数据库中该GPU卡添加请求的状态设置为成功或失败。

其次，以在虚拟机上删除GPU卡的功能进行解释说明。在一种可选的实施方式中，类似的，发起GPU卡删除请求和响应GPU卡删除请求的操作流程可以分解为两个相对独立的阶段。其中，第一个阶段流程如图10所示，其中，在虚拟机上删除GPU卡的操作可以由管理员用户在列表展示页面中点击释放按钮触发，也可以由通过轮询进程判断当前时间已到达GPU卡回收时间触发。这两种触发方式都会将任务状态设置为“待回收”，然后将任务ID发送到目标消息队列，发送成功后将任务状态设置为“队列中”。第二个阶段流程如图11所示，目标消息队列的监听进程收到队列中的任务ID，从数据库中获取任务信息，将任务状态设置为“执行中”。从数据库表中查询该虚拟机所处的Vcenter信息，建立到该Vcenter的会话连接，根据Vspere SDK规范，获取虚拟机和GPU卡对象，并配置包含GPU卡信息的虚拟机变更配置对象，其中设备ID设置为待删除的GPU卡设备号、变更操作类型设置为删除，然后通过调用虚拟机对象的reconfig_taks()函数，向Vcenter发送变更请求，并根据Vcenter变更的结果将数据库中该GPU卡删除请求的状态设置为成功或失败。

再次，以GPU卡状态查询功能进行解释说明。在一种可选的实施方式中，当管理用户在GPU状态详情列表页面中点击更新按钮后，通过鉴权校验，GPU卡状态查询会通过目标消息队列发送给底层实现层，触发GPU卡状态更新功能。其中，GPU卡状态更新功能的实现流程如图12所示，分别建立到各个Vcenter的会话连接，根据Vspere SDK规范，首先获取GPU集群下所有的物理机，依次查询每台物理机上的所有GPU卡设备，将获取的GPU卡设备号、型号、厂商、所在的物理机等信息初始化保存到数据库中，此时GPU卡的状态可以被默认配置为“空闲”，然后获取GPU集群下所有虚拟机对象，依次查询每台虚拟机上添加的GPU卡设备，如果存在GPU卡设备，则根据设备ID获取数据库中GPU卡记录，将其状态修改为“使用中”，同时保存使用该GPU卡的虚拟机名，以此实现了GPU卡状态信息的全量更新。

最后，以GPU卡负载详情查询功能进行解释说明。在一种可选的实施方式中，GPU卡负载详情查询功能可以是定时触发，每隔一段时间(例如5分钟)触发一次。底层实现层从数据库中获取所有占用GPU卡的虚拟机信息，通过SSH连接模块登陆虚拟机并执行预设shell脚本，将脚本返回的GPU卡负载数据和数据采集任务执行时间处理后保存到数据库中。

本实施例未尽详细解释之处请参加前述实施例，在此不再赘述。

在上述技术方案中，能够解决基于Vmware的云场景中GPU卡的管理问题，实现了虚拟机增加GPU卡、虚拟机删除GPU卡、GPU卡整体使用情况、GPU负载曲线采集等操作的可视化、自动化，为GPU卡的管理提供了统一视图和自动化实施功能，以此实现了GPU资源管理的可视化、自动化、可追溯，提高了运维效率。

实施例六

图13是本发明实施例六提供的一种云环境中GPU卡的管理装置的结构示意图，可适用于对云环境中多台物理机配置的GPU卡资源进行自动化管理的情况，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。

如图13所示，该云环境中GPU卡的管理装置具体包括：请求接收模块1310和请求响应模块1320。其中，

请求接收模块1310，设置为接收目标GPU卡管理请求；

请求响应模块1320，设置为基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求。

在一示例中，所述目标GPU卡管理请求包括下述至少之一：

目标GPU卡添加请求、目标GPU卡删除请求、目标GPU卡状态查询请求、目标GPU卡负载详情查询请求。

在一示例中，上述装置还包括：请求发送模块，设置为在接收目标GPU卡管理请求之后，将所述目标GPU卡管理请求发送至目标消息队列中；

对应的，请求响应模块1320，具体设置为在所述目标消息队列获取到所述目标GPU卡管理请求后，基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求。

在一示例中，请求发送模块，具体设置为将所述目标GPU卡管理请求存储到目标数据库中；根据所述目标GPU卡管理请求的申请执行时间，将所述目标GPU卡管理请求在所述目标数据库中取出，发送至所述目标消息队列中。

在一示例中，请求响应模块1320，具体设置为当所述目标GPU卡管理请求为目标GPU卡负载详情查询请求时，获取占用GPU卡的各个虚拟机对象的信息；根据所述各个虚拟机对象的信息，分别登陆所述各个虚拟机对象并执行预设脚本，得到被占用的各个GPU卡的负载详情信息并反馈。

在一示例中，请求响应模块1320，具体设置为当所述目标GPU卡管理请求为目标GPU卡状态查询请求时，基于针对多物理机的虚拟化管理平台，查询每台物理机上所有GPU卡的信息，以及每个虚拟机对象所占用的GPU卡的信息；结合每台物理机上所有GPU卡的信息，以及每个虚拟机对象所占用的GPU卡的信息，得到所有GPU卡的占用状态信息。

上述云环境中GPU卡的管理装置可执行本发明任意实施例所提供的云环境中GPU卡的管理方法，具备执行云环境中GPU卡的管理方法相应的功能模块和有益效果。

实施例七

图14为本发明实施例七提供的一种计算机设备的硬件结构示意图。图14示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图14显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图14未显示，通常称为“硬盘驱动器”)。尽管图14中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图14中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种云环境中GPU卡的管理方法。也即，所述处理单元执行所述程序时实现：接收目标GPU卡管理请求；基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求。

实施例八

本发明实施例八提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的一种云环境中GPU卡的管理方法：也即，该程序被处理器执行时实现：接收目标GPU卡管理请求；基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种云环境中GPU卡的管理方法，其特征在于，包括：

接收目标GPU卡管理请求；

2.根据权利要求1所述的方法，其特征在于，所述目标GPU卡管理请求包括下述至少之一：

3.根据权利要求1所述的方法，其特征在于，在接收目标GPU卡管理请求之后，还包括：

将所述目标GPU卡管理请求发送至目标消息队列中；

基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求，包括：

在所述目标消息队列获取到所述目标GPU卡管理请求后，基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求。

4.根据权利要求3所述的方法，其特征在于，将所述目标GPU卡管理请求发送至目标消息队列中，包括：

将所述目标GPU卡管理请求存储到目标数据库中；

根据所述目标GPU卡管理请求的申请执行时间，将所述目标GPU卡管理请求在所述目标数据库中取出，发送至所述目标消息队列中。

5.根据权利要求2所述的方法，其特征在于，当所述目标GPU卡管理请求为目标GPU卡负载详情查询请求时，基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求，包括：

获取占用GPU卡的各个虚拟机对象的信息；

根据所述各个虚拟机对象的信息，分别登陆所述各个虚拟机对象并执行预设脚本，得到被占用的各个GPU卡的负载详情信息并反馈。

6.根据权利要求2所述的方法，其特征在于，当所述目标GPU卡管理请求为目标GPU卡状态查询请求时，基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求，包括：

基于针对多物理机的虚拟化管理平台，查询每台物理机上所有GPU卡的信息，以及每个虚拟机对象所占用的GPU卡的信息；

结合每台物理机上所有GPU卡的信息，以及每个虚拟机对象所占用的GPU卡的信息，得到所有GPU卡的占用状态信息。

7.根据权利要求3所述的方法，其特征在于，

接收目标GPU卡管理请求，包括：

通过前端展示层接收目标GPU卡管理请求；

将所述目标GPU卡管理请求发送至目标消息队列中，包括：

通过业务处理层将所述目标GPU卡管理请求发送至目标消息队列中；

在所述目标消息队列获取到所述目标GPU卡管理请求后，基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求，包括：

通过底层实现层在所述目标消息队列获取到所述目标GPU卡管理请求后，基于针对多物理机的虚拟化管理平台，响应所述目标GPU卡管理请求。

8.一种云环境中GPU卡的管理装置，其特征在于，包括：

请求接收模块，设置为接收目标GPU卡管理请求；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。