CN114116393A

CN114116393A - 一种采集虚拟机的gpu性能数据的方法、装置和设备

Info

Publication number: CN114116393A
Application number: CN202111422752.3A
Authority: CN
Inventors: 张程
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-01

Abstract

本发明公开了一种采集虚拟机的GPU性能数据的方法、装置和设备，其中方法应用于宿主机，宿主机与云平台建立通信连接，宿主机上部署有libvirt接口和虚拟机，虚拟机通过GPU透传技术使用宿主机上的GPU，该方法包括：当libvirt接口被云平台调用时，通过libvirt接口获取虚拟机内部的GPU性能监控器上的性能数据；将性能数据通过libvirt接口反馈给云平台，以使云平台对性能数据进行数据分析和图形化处理。本发明提供的技术方案，实现了对虚拟机中透传GPU的性能情况进行统一监测和管理的功能。

Description

一种采集虚拟机的GPU性能数据的方法、装置和设备

技术领域

本发明涉及数据分析领域，具体涉及一种采集虚拟机的GPU性能数据的方法、装置和设备。

背景技术

GPU显示芯片是一种专门做图像和图形相关运算工作的微处理器，被广泛应用于云桌面、AI、公有云等领域。针对使用虚拟机的场景，当前高性能图形计算大量使用GPU透传技术来提高虚拟机渲染图形的能力。GPU作为一种昂贵的物理资源，其利用率和性能情况被用户所关注。当GPU被透传到虚拟机时主机上无法管理和查询使用情况，只能登录到使用的虚拟机内部控制，这是用户很难接受的。并且在大型企业内部，使用虚拟机的场景数量庞大，如何对各个虚拟机中透传GPU的性能情况进行统一监测和管理是亟待解决的问题。

发明内容

有鉴于此，本发明实施方式提供了一种采集虚拟机的GPU性能数据的方法、装置和设备，从而实现了对虚拟机中透传GPU的性能情况进行统一监测和管理的功能。

根据第一方面，本发明提供了一种采集虚拟机的GPU性能数据的方法，应用于宿主机，所述宿主机与云平台建立通信连接，所述宿主机上部署有libvirt接口和虚拟机，所述虚拟机通过GPU透传技术使用所述宿主机上的GPU，所述方法包括：当所述libvirt接口被云平台调用时，通过所述libvirt接口获取虚拟机内部的GPU性能监控器上的性能数据；将所述性能数据通过所述libvirt接口反馈给所述云平台，以使所述云平台对所述性能数据进行数据分析和图形化处理。

可选地，所述通过所述libvirt接口获取虚拟机内部的GPU性能监控器上的性能数据，包括：通过所述libvirt接口启用虚拟机内部的代理工具，并通过所述代理工具发送获取性能数据的指令到所述GPU性能监控器，以使所述GPU性能监控器采集GPU的性能数据；通过所述代理工具接收所述GPU性能监控器反馈的所述性能数据。

可选地，所述GPU是NVIDIA架构，所述使所述GPU性能监控器采集GPU的性能数据，包括：使所述性能监控器通过nvidia-smi接口接入GPU驱动程序，并在所述GPU驱动程序中获取所述性能数据。

可选地，获取的所述性能数据包括：GPU使用率、显存使用率和编码解码使用率中的至少一种。

可选地，所述虚拟机通过QEMU软件实现，所述代理工具为QGA工具。

可选地，所述虚拟机通过VMware软件实现，所述代理工具为VMware tools。

可选地，所述GPU性能监控器包括多种操作系统环境的安装包。

根据第二方面，本发明提供了一种采集虚拟机的GPU性能数据的装置，应用于宿主机，所述宿主机与云平台建立通信连接，所述宿主机上部署有libvirt接口和虚拟机，所述虚拟机通过GPU透传技术使用所述宿主机上的GPU，所述装置包括：数据采集模块，用于当所述libvirt接口被云平台调用时，通过所述libvirt接口获取虚拟机内部的GPU性能监控器上的性能数据；数据上传模块，用于将所述性能数据通过所述libvirt接口反馈给所述云平台，以使所述云平台对所述性能数据进行数据分析和图形化处理。

根据第三方面，本发明实施例提供了一种采集虚拟机的GPU性能数据的设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面，或者第一方面任意一种可选实施方式中所述的方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机从而执行第一方面，或者第一方面任意一种可选实施方式中所述的方法。

本申请提供的技术方案，具有如下优点：

本申请提供的技术方案，使云平台通过互联网、以太网等通信方式远程调用宿主机上的libvirt接口，从而使得宿主机通过libvirt接口接入到宿主机上部署的虚拟机内部，再从虚拟机内部预先安装的GPU性能监控器程序中提取需要的GPU性能数据，最终再将提取到的数据反馈给云平台。从而针对任意数量的宿主机及其部署虚拟机，其性能数据均可以通过上述步骤统一上报给云平台，使得云平台对虚拟机中透传GPU的性能情况进行统一监测和管理，提高了GPU资源的管理效率。

此外，在虚拟机内部部署代理工具，在提取性能数据时，通过libvirt接口启用虚拟机内部的代理工具，并通过代理工具实现宿主机与虚拟机内部GPU性能监控器的消息和数据互传，从而节省了配置网络ip的步骤，使得宿主机与虚拟机的数据交互不依赖于网络，避免了在没有配置ip或网络异常情况下无法获取数据的问题。并且，GPU性能监控器包括多种操作系统环境的安装包，针对不同的操作系统，均可以在虚拟机内部实现安装，降低了本技术方案实施的条件限制。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明一个实施方式中一种采集虚拟机的GPU性能数据的方法的步骤示意图；

图2示出了本发明一个实施方式中一种采集虚拟机的GPU性能数据的方法的架构图；

图3示出了本发明一个实施方式中一种采集虚拟机的GPU性能数据的装置的结构示意图；

图4示出了本发明一个实施方式中一种采集虚拟机的GPU性能数据的设备的结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1和图2，在一个实施方式中，一种采集虚拟机的GPU性能数据的方法，应用于宿主机，宿主机与云平台建立通信连接，宿主机上部署有libvirt接口和虚拟机，虚拟机通过GPU透传技术使用宿主机上的GPU，具体包括如下步骤：

步骤S101：当libvirt接口被云平台调用时，通过libvirt接口获取虚拟机内部的GPU性能监控器上的性能数据。

步骤S102：将性能数据通过libvirt接口反馈给云平台，以使云平台对性能数据进行数据分析和图形化处理。

具体地，虚拟机是通过软件模拟的具有完整硬件系统功能的计算机系统，是运行在宿主机上，但是和宿主机的系统又完全隔离的另一个完整计算机系统。通常虚拟机通过将CPU的一部分模拟为图形处理器来实现使用图形处理技术的功能，但是这种方法无法支撑一些3D设计或渲染软件的运行。从而GPU透传和GPU模拟技术应运而生，GPU模拟技术即将一个真实的GPU硬件模拟为多个虚拟的vGPU，以供多个虚拟机使用。GPU透传技术即将一个完整的GPU硬件透传到一个虚拟机内部，以供单独的虚拟机使用。libvirt是一套免费、开源的主流虚拟化工具的C语言函数库，libvirt接口功能可划分为5个API部分：虚拟机监控程序连接API、域API、网络API、存储卷API以及存储池API。是对虚拟机使用最为广泛的管理工具(应用程序接口)，可以实现宿主机对虚拟机的基本管理操作。在本实施例中，云平台通过互联网、以太网等通信方式远程调用宿主机上的libvirt接口，当该接口被远程调用时宿主机响应云平台的操作，通过libvirt接口与虚拟机内部预先安装的GPU性能监控器建立连接，获取GPU性能监控器中采集到的性能数据。之后，再将提取到的性能数据反馈给云平台中的GPU管理器，以使云平台对性能数据进行数据分析、图形化处理等操作，使用户能够清晰的看到虚拟机内部透传的GPU的自身性能状况，以及各个程序对GPU的使用状况，且针对任意数量的宿主机以及宿主机上部署的任意数量的虚拟机，均可以利用云平台实现透传GPU的统一监控和管理。

具体地，在一实施例中，上述步骤S101，具体包括如下步骤：

步骤一：通过libvirt接口启用虚拟机内部的代理工具，并通过代理工具发送获取性能数据的指令到GPU性能监控器，以使GPU性能监控器采集GPU的性能数据。

步骤二：通过代理工具接收GPU性能监控器反馈的性能数据。

具体地，通常宿主机与虚拟机进行通信的方式是通过网络进行通信的，例如：在宿主机上ping虚拟机的ip，或者在虚拟机上ping宿主机的ip，双方可以ping通。但是由于网络存在网络波动，会造成数据传输不稳定等问题。因此为了提高数据传输的稳定性，采用在虚拟机内部部署代理工具的方式实现宿主机与虚拟机不依赖网络进行通信的功能，即使用代理工具虚拟化出IO串行接口，实现宿主机和虚拟机的通信。

在一个实施例中，使用的虚拟机软件是QEMU，其内部部署有代理工具QGA，QGA是一个运行在虚拟机内部的普通应用程序(可执行文件名称默认为qemu-ga，服务名称默认为Qemu-Guest-Agent)，其目的是实现一种宿主机和虚拟机进行交互的方式，这种方式不依赖于网络，而是依赖于virtio-serial，即宿主机通过libvirt在虚拟机创建时启动virtio通道，在宿主机中具有vm.ctl(对应控制信号传输通道)与vm.data(对应数据文件传输通道)两个virtio通道在宿主机的映射节点文件，宿主机可以基于这两个映射文件通过unixsock实现与虚拟机的通信，虚拟机启动后，在虚拟机操作系统中可以发现两个新的字符设备，分别对应两个通道，虚拟机中对这两个字符设备的读写操作即相当于对virtio通道的读写，以此可以实现与主机的通信。从而通过代理工具QGA发送获取性能数据的指令到GPU性能监控器，GPU性能监控器在获取到透传GPU的性能数据之后再通过QGA将性能数据返回到宿主机中，宿主机再通过网络将提取到的性能数据反馈给云平台。

在另一实施例中，虚拟机通过VMware软件实现，代理工具为VMware tools。实质原理和实现方式与QEMU软件中的QGA基本相同，可参考上述实施例的相关描述，在此不再赘述。

具体地，在一实施例中，GPU采用NVIDIA架构，上述步骤一中GPU性能监控器采集GPU的性能数据的具体步骤包括：

步骤三：使性能监控器通过nvidia-smi接口接入GPU驱动程序，并在GPU驱动程序中获取性能数据。具体地，nvidia-smi是NVIDIA架构GPU自带的一个跨平台工具，其中smi是System management interface的缩写，nvidia-smi可以收集各种级别的信息，提供监控GPU使用情况和更改GPU状态的功能。支持所有标准的NVIDIA驱动程序支持的Linux发行版以及从WindowsServer 2008R2开始的64位的系统。可以直接使GPU性能监控器通过nvidia-smi接入GPU的驱动程序，进而采集GPU中的性能数据，节省了开发接入GPU驱动程序接口的大量工作，提高工作效率的同时能够准确提取多类型GPU性能数据。在一个实施例中，GPU性能监控器采集的GPU数据包括：GPU使用率、显存使用率和编码解码使用率中的至少一种。从而从多个维度评价GPU当前的性能状态，提高GPU性能分析和管理的可靠性。

具体地，在一实施例中，GPU性能监控器包括多种操作系统环境的安装包。具体地，针对虚拟机内安装的多种不同的系统，例如linux、unix、windows。开发有不同版本的GPU性能监控器安装包，从而可以使本发明实施例提供的性能数据采集方法应用于更多场景，提高了本发明技术方案的实用性。

通过上述步骤，本申请提供的技术方案，使云平台通过互联网、以太网等通信方式远程调用宿主机上的libvirt接口，从而使得宿主机通过libvirt接口接入到宿主机上部署的虚拟机内部，再从虚拟机内部预先安装的GPU性能监控器程序中提取需要的GPU性能数据，最终再将提取到的数据反馈给云平台。从而针对任意数量的宿主机及其部署虚拟机，其性能数据均可以通过上述步骤统一上报给云平台，使得云平台对虚拟机中透传GPU的性能情况进行统一监测和管理，提高了GPU资源的管理效率。

如图3所示，本实施例还提供了一种采集虚拟机的GPU性能数据的装置，应用于宿主机，宿主机与云平台建立通信连接，宿主机上部署有libvirt接口和虚拟机，虚拟机通过GPU透传技术使用宿主机上的GPU，装置包括：

数据采集模块101，用于当libvirt接口被云平台调用时，通过libvirt接口获取虚拟机内部的GPU性能监控器上的性能数据。详细内容参见上述方法实施例中步骤S101的相关描述，在此不再进行赘述。

数据上传模块102，用于将性能数据通过libvirt接口反馈给云平台，以使云平台对性能数据进行数据分析和图形化处理。详细内容参见上述方法实施例中步骤S102的相关描述，在此不再进行赘述。

本发明实施例提供的采集虚拟机的GPU性能数据的装置，用于执行上述实施例提供的采集虚拟机的GPU性能数据的方法，其实现方式与原理相同，详细内容参见上述方法实施例的相关描述，不再赘述。

通过上述各个组成部分的协同合作，本申请提供的技术方案，使云平台通过互联网、以太网等通信方式远程调用宿主机上的libvirt接口，从而使得宿主机通过libvirt接口接入到宿主机上部署的虚拟机内部，再从虚拟机内部预先安装的GPU性能监控器程序中提取需要的GPU性能数据，最终再将提取到的数据反馈给云平台。从而针对任意数量的宿主机及其部署虚拟机，其性能数据均可以通过上述步骤统一上报给云平台，使得云平台对虚拟机中透传GPU的性能情况进行统一监测和管理，提高了GPU资源的管理效率。

图4示出了本发明实施例的一种采集虚拟机的GPU性能数据的设备，该设备包括处理器901和存储器902，可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法实施例中的方法。

上述采集虚拟机的GPU性能数据的设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，实现的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种采集虚拟机的GPU性能数据的方法，其特征在于，应用于宿主机，所述宿主机与云平台建立通信连接，所述宿主机上部署有libvirt接口和虚拟机，所述虚拟机通过GPU透传技术使用所述宿主机上的GPU，所述方法包括：

当所述libvirt接口被云平台调用时，通过所述libvirt接口获取虚拟机内部的GPU性能监控器上的性能数据；

将所述性能数据通过所述libvirt接口反馈给所述云平台，以使所述云平台对所述性能数据进行数据分析和图形化处理。

2.根据权利要求1所述的方法，其特征在于，所述通过所述libvirt接口获取虚拟机内部的GPU性能监控器上的性能数据，包括：

通过所述libvirt接口启用虚拟机内部的代理工具，并通过所述代理工具发送获取性能数据的指令到所述GPU性能监控器，以使所述GPU性能监控器采集GPU的性能数据；

通过所述代理工具接收所述GPU性能监控器反馈的所述性能数据。

3.根据权利要求2所述的方法，其特征在于，所述GPU是NVIDIA架构，所述使所述GPU性能监控器采集GPU的性能数据，包括：

使所述性能监控器通过nvidia-smi接口接入GPU驱动程序，并在所述GPU驱动程序中获取所述性能数据。

4.根据权利要求3所述的方法，其特征在于，获取的所述性能数据包括：GPU使用率、显存使用率和编码解码使用率中的至少一种。

5.根据权利要求3所述的方法，其特征在于，所述虚拟机通过QEMU软件实现，所述代理工具为QGA工具。

6.根据权利要求3所述的方法，其特征在于，所述虚拟机通过VMware软件实现，所述代理工具为VMware tools。

7.根据权利要求1所述的方法，其特征在于，所述GPU性能监控器包括多种操作系统环境的安装包。

8.一种采集虚拟机的GPU性能数据的装置，其特征在于，应用于宿主机，所述宿主机与云平台建立通信连接，所述宿主机上部署有libvirt接口和虚拟机，所述虚拟机通过GPU透传技术使用所述宿主机上的GPU，所述装置包括：

数据采集模块，用于当所述libvirt接口被云平台调用时，通过所述libvirt接口获取虚拟机内部的GPU性能监控器上的性能数据；

数据上传模块，用于将所述性能数据通过所述libvirt接口反馈给所述云平台，以使所述云平台对所述性能数据进行数据分析和图形化处理。

9.一种采集虚拟机的GPU性能数据的设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机从而执行如权利要求1-7任一项所述的方法。