CN117234541A

CN117234541A - Gpu监控程序的部署方法、监控方法、装置及网络节点

Info

Publication number: CN117234541A
Application number: CN202311233433.7A
Authority: CN
Inventors: 曹旭皓
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-15

Abstract

本发明提供一种GPU监控程序的部署方法、监控方法、装置及网络节点。该部署方法包括：获取GPU监控程序的docker镜像文件和在第一节点上运行所述GPU监控程序的文件信息；根据所述docker镜像文件和所述文件信息，生成所述GPU监控程序的配置执行文件；执行所述配置执行文件的应用命令，通过所述配置执行文件在所述第一节点的目标容器上部署所述GPU监控程序。采用该方法，GPU监控不需要在每一个节点上均启动并运行docker镜像，因此占用系统资源较小，从而解决现有技术的GPU监控方式，存在大量占用系统资源的问题。

Description

GPU监控程序的部署方法、监控方法、装置及网络节点

技术领域

本发明涉及软件开发技术领域，尤其是指一种GPU监控程序的部署方法、监控方法、装置及网络节点。

背景技术

随着人工智能技术的发展，机器学习越来越普及，各个领域都在训练和推理自己的模型。

在进行训练或部署推理模型时，往往会关注系统资源的运行情况，其中对于CPU、内存的运行情况，训练模型中的kubernets已经提供成熟的监控方案和接口，但对于图形处理器(graphics processing unit，GPU)的监控就成了问题，目前各个机器学习的集群中，用的最多的就是英伟达(nvidia)系列的GPU，英伟达公司提供了原生的DCGM软件来进行GPU管理，但DCGM软件需要在各个节点下载并运行一个500多MB的docker镜像，存在大量占用系统资源的问题。

发明内容

本发明技术方案的目的是提供一种GPU监控程序的部署方法、监控方法、装置及网络节点，用于解决现有技术的GPU监控方式，存在占用大量系统资源的问题。

本发明其中一实施例提供一种图形处理器GPU监控程序的部署方法，其中，所述方法包括：

获取GPU监控程序的docker镜像文件和在第一节点上运行所述GPU监控程序的文件信息；

根据所述docker镜像文件和所述文件信息，生成所述GPU监控程序的配置执行文件；

执行所述配置执行文件的应用命令，通过所述配置执行文件在所述第一节点的目标容器上部署所述GPU监控程序。

可选地，所述的部署方法，其中，所述文件信息包括第一节点的nvidia库文件的文件位置，和/或，用于在所述第一节点获取GPU状态信息的命令可执行文件的文件路径。

可选地，所述的部署方法，其中，所述方法还包括：

获取所述GPU监控程序的程序执行文件和docker配置文件；

根据所述程序执行文件和所述docker配置文件，生成所述docker镜像文件；

将所述docker镜像文件上传并存储至镜像仓库管理服务器。

可选地，所述的部署方法，其中，根据所述docker镜像文件和所述文件信息，生成所述GPU监控程序的配置执行文件，包括：

将所述文件信息映射至所述目标容器，获得第一配置部分；

将所述GPU监控程序的镜像设置为上传至所述镜像仓库管理服务器的所述docker镜像文件，获得第二配置部分；

根据所述第一配置部分和所述第二配置部分，生成所述配置执行文件。

可选地，所述的部署方法，其中，通过所述配置执行文件在所述第一节点的目标容器上部署所述GPU监控程序，包括：

通过所述配置执行文件，将所述docker镜像文件下载至所述目标容器，以及通过映射获取所述目标容器的所述文件信息。

可选地，所述的部署方法，其中，所述GPU监控程序用于根据所述文件信息在所述目标容器的映射，获取GPU状态信息，以及，将所述GPU状态信息发送至所述第一节点传输的消息队列集群中。

可选地，所述的部署方法，其中，获取在第一节点上运行所述GPU监控程序的文件信息，包括：

通过向所述第一节点发送第一命令，获取所述文件位置；和/或

通过向所述第一节点发送第二命令，获取所述文件路径。

可选地，所述的部署方法，其中，所述命令可执行文件用于执行nvidia-smi命令。

可选地，所述的部署方法，其中，所述方法还包括：

在监测到第二节点加入所述第一节点所在集群时，在所述第二节点上执行所述配置执行文件，通过所述配置执行文件在所述第二节点的目标容器上部署所述GPU监控程序。

本发明其中一实施例还提供一种图形处理器GPU的监控方法，其中，所述方法包括：

根据第一节点上运行GPU监控程序的文件信息在目标容器的映射，获取GPU状态信息；

将所述GPU状态信息发送至所述第一节点传输的消息队列集群中。

可选地，所述的监控方法，其中，所述文件信息包括第一节点的nvidia库文件的文件位置，和/或，用于在所述第一节点获取GPU状态信息的命令可执行文件的文件路径。

可选地，所述的监控方法，其中，所述命令可执行文件用于执行nvidia-smi命令。

本发明其中一实施例还提供一种图形处理器GPU监控程序的部署装置，其中，所述装置包括：

第一获取模块，用于获取GPU监控程序的docker镜像文件和在第一节点上运行所述GPU监控程序的文件信息；

文件生成模块，用于根据所述docker镜像文件和所述文件信息，生成所述GPU监控程序的配置执行文件；

执行模块，用于执行所述配置执行文件的应用命令，通过所述配置执行文件在所述第一节点的目标容器上部署所述GPU监控程序。

本发明其中一实施例还提供一种图形处理器GPU的监控装置，其中，所述装置包括：

第二获取模块，用于根据第一节点上运行GPU监控程序的文件信息在目标容器的映射，获取GPU状态信息；

发送模块，用于将所述GPU状态信息发送至所述第一节点传输的消息队列集群中。

本发明其中一实施例还提供一种网络节点，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器用于读取所述存储器中的程序实现如上中任一项所述的部署方法，或者实现如上中任一项所述的监控方法。

本发明具体实施例上述技术方案中的至少一个具有以下有益效果：

本发明实施例所述GPU监控程序的部署方法，根据GPU监控程序的docker镜像文件和在第一节点上运行所述GPU监控程序的文件信息，生成GPU监控程序的配置执行文件，这样通过在第一节点上执行配置文件，完成对GPU监控程序在目标容器上的部署，所部署的GPU监控程序根据该文本信息在目标容器的映射，可以获取GPU状态信息，因此GPU监控不需要在每一个节点上均启动并运行docker镜像，采用该方法占用系统资源较小，从而解决现有技术的GPU监控方式，存在占用大量系统资源的问题。

附图说明

图1为本发明实施例所述GPU监控程序的部署方法和监控方法的系统架构示意图；

图2为本发明实施例所述部署方法的流程示意图；

图3为本发明实施例所述监控方法的流程示意图；

图4为本发明实施例所述部署装置的结构示意图；

图5为本发明实施例所述监控装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

图1为采用本发明实施例所述GPU监控程序的部署方法和监控方法的系统架构示意图。该系统为基于kubernets和kubeedge的架构，其中kubernets适用于中心机房，应用于网络环境稳定，计算能力高的集群，而kubeedge是基于kubernets的轻量化的边缘端容器管理平台，更适合边缘盒子这种计算能力有限的设备。

具体地，该系统包括多个kubernets节点node和多个kubeedge边缘节点edgeCore，其中kubeedge edgeCore与kubeedge云端组件CloudCore通信，并处理边缘节点的数据。多个kubernets node和kubeedge CloudCore连接至kubernets主控制器master。

为解决现有技术的GPU监控方式，存在占用系统资源的问题，本发明实施例提供一种GPU监控程序的部署方法，根据GPU监控程序的docker镜像文件和在第一节点上运行所述GPU监控程序的文件信息，生成GPU监控程序的配置执行文件，这样通过在第一节点上执行配置文件，则完成对GPU监控程序在目标容器上的部署，所部署的GPU监控程序根据该文本信息在目标容器的映射，可以获取GPU状态信息，不需要在每一个节点上均启动并运行一个500多MB的docker镜像，占用系统资源较小，从而解决现有技术的GPU监控方式，存在占用系统资源的问题。

如图2所示为本发明实施例所述GPU监控程序的部署方法的流程示意图，结合图2所示，其中一实施例中，所述部署方法包括：

S210，获取GPU监控程序的docker镜像文件和在第一节点上运行所述GPU监控程序的文件信息；

S220，根据所述docker镜像文件和所述文件信息，生成所述GPU监控程序的配置执行文件；

S230，在执行所述配置执行文件的应用命令，通过所述配置执行文件在所述第一节点的目标容器上部署所述GPU监控程序。

可选地，结合图1所示，所述部署方法可以应用于kubernets master，但该部署方法并不限于仅能够应用于kubernets master，如也可以应用于独立于kubernets master且特定被配置为用于GPU监控程序的处理设备或处理节点。

可选地，第一节点为任一kubernets node，其中一个kubernets node为集群中的单个机器，每一kubernets node中包括一个或多个相连接的容器pod。可选地，目标容器为第一节点中的任一容器。

采用该实施例所述部署方法，可以通过在第一节点下发并执行GPU监控程序的配置执行文件的方式，在第一节点的目标容器pod上部署GPU监控程序，通过该目标容器启动GPU监控功能的服务。

可选地，所述文件信息包括第一节点的nvidia库文件的文件位置，和/或，用于在所述第一节点获取GPU状态信息的命令可执行文件的文件路径。

可选地，所述命令可执行文件用于执行nvidia-smi命令。

可选地，在步骤S230，通过所述配置执行文件在所述第一节点的目标容器上部署所述GPU监控程序，包括：

通过所述配置执行文件，将所述docker镜像文件下载至所述目标容器，以及获取映射至所述目标容器的所述文件信息。

采用该实施方式，通过根据nvidia库文件的文件位置和/或nvidia-smi程序的文件路径，生成GPU监控程序的配置执行文件，使得在第一节点上执行该配置执行文件时，可以将nvidia库文件的文件位置和/或nvidia-smi程序的文件路径，映射至目标容器中，以能够在目标容器中的指定位置能够查询和操作第一节点上的nvidia库文件和nvidia-smi程序，启动GPU监控程序。

本发明实施例中，可选地，所述方法还包括：

编写所述GPU监控程序；其中，所述GPU监控程序用于根据所述文件信息在所述目标容器的映射，获取GPU状态信息，以及，将所述GPU状态信息发送至所述第一节点传输的消息队列集群中。

可选地，该GPU状态信息包括系统集群中的显卡数量、显卡使用率和显卡内存等信息中的一项或多项。

其中一实施例中，可选地，GPU监控程序通过nvidia-smi-L命令获取显卡数量；另一实施例，可选地，GPU监控程序通过nvidia-smi命令获取显卡使用率和显卡内存等信息。可选地，可以根据nvidia-smi-L命令所获得的显卡数量，解析通过nvidia-smi-L命令所获得的文本可以获得显卡使用率和显卡内存等信息。例如，所解析获得的GPU状态信息包括：显卡0的型号为NVIDIA A10，总显存23028MiB，已使用16021MiB，显卡使用率为75％。

本发明实施例中，可选地，结合图1所示，GPU监控程序监测所获得的GPU状态信息上传至第一节点传输的消息队列集群中，该消息队列集群中的GPU状态信息可以上传至第三节点的性能指示监控服务容器中，该性能指示监控服务容器能够读取该GPU状态信息，将该GPU状态信息展示至前端网页中。

可选地，第三节点为不同于第一节点的任一节点，可以为一kubernets node，用于提供性能指标展示服务。

本发明实施例中，可选地，所述方法还包括：

获取所述GPU监控程序的程序执行文件和docker配置文件；

将所述docker镜像文件上传并存储至镜像仓库管理服务器。

具体地，获取所述GPU监控程序的程序执行文件，包括：

将该GPU监控程序编译为程序可执行文件。

举例说明，以编码程序为java程序，运行环境为java1.8为例，编码出的程序可执行文件名可以为gpu-monitor.jar。

可选地，获取docker配置文件Dockerfile，包括：

编写docker配置文件Dockerfile；其中，该docker配置文件为用于基于GPU监控程序的运行环境，镜像启动后执行GPU监控程序的程序执行文件。

本发明实施例中，可选地，根据所述程序执行文件和所述docker配置文件，生成所述docker镜像文件，包括：

将所述程序执行文件和所述docker配置文件置于同一目录，并执行docker镜像生成命令，该镜像生成命令用于将生成docker镜像文件。

举例说明，在编码程序为java程序，运行环境为java1.8的情况下，Dockerfile用于基于java1.8运行环境，镜像启动后执行gpu-monitor.jar这个可执行文件。可选地，192.168.8.199/jdk/openjdk:1.8为已经上传到ip为192.168.8.199的harbor上的版本为openjdk1.8的镜像，执行的docker镜像生成命令可以为“docker build-t 192.168.8.199/monitor/gpu-monitor:v1”。

本发明实施例中，镜像仓库管理服务器也可以称为harbor，提供存放docker镜像的仓库管理服务。

可选地，可以通过运行docker上传命令，将docker镜像文件上传并存储至harbor。举例说明，该docker上传命令为“docker push192.168.8.199/monitor/gpu-monitor:v1”。

本发明实施例所述部署方法，通过将GPU监控程序的docker镜像文件上传至harbor，使得在生成GPU监控程序的配置执行文件时，将GPU监控程序执行的镜像设置为上传至harbor的镜像，在执行该配置执行文件可以由harbor下载该docker镜像文件，进行GPU监控程序的部署，采用该部署方法，可以将GPU监控程序部署在linux系统的任意docker镜像中，达到节省系统资源的效果。

本发明实施例中，在目标容器中使用nvidia-smi命令来监控gpu，因此在目标容器中需要有nvidia-smi的命令可执行文件和nvidia的库文件，因为在镜像中安装整个英伟达环境会消耗很多资源，所以本发明实施例所述部署方法，通过将宿主机(第一节点)上的nvidia库文件和nvidia-smi可执行文件直接映射到容器中，以实现获取gpu信息的目的。

本发明实施例中，在步骤S220，根据所述docker镜像文件和所述文件信息，生成所述GPU监控程序的配置执行文件，包括：

将所述文件信息映射至所述目标容器，获得第一配置部分；

可选地，获取在第一节点上运行所述GPU监控程序的文件信息，包括：

通过向所述第一节点发送第二命令，获取所述文件路径。

可选地，第一命令为“find/usr-name"libnvidia*.so*"”命令，通过该第一命令可以获取第一节点上nvidia库文件的文件位置。需要说明的是，该命令的搜索结果可能因每台机器安装位置不同，目录略有差异。举例说明，对于32位主机的第一节点，库文件的文件位置位于/usr/lib目录；对于64位主机的第一节点，库文件的文件位置位于/usr/lib64目录下。

可选地，第二命令为“which nvidia-smi”命令，通过该第二命令可以获取nvidia-smi程序的文件路径，用于将该程序由第一节点映射至目标容器中。举例说明，该nvidia-smi程序位于/usr/bin/nvidia-smi目录下。

进一步地，在获取nvidia库文件的文件位置和nvidia-smi程序的文件路径之后，生成GPU监控程序的配置执行文件。

具体地，生成GPU监控程序的配置执行文件，包括：

将nvidia库文件的文件位置和nvidia-smi程序的文件路径，分别映射至目标容器中，获得第一配置部分；

将GPU监控程序的镜像设置为上传至所述镜像仓库管理服务器的所述docker镜像文件，获得第二配置部分；

可选地，本发明实施例中，所生成的配置执行文件为daemonset-gpu-monitor.yaml文件。

本发明实施例所述部署方法，通过上述过程生成配置执行文件后，通过在kubernets集群的master节点上执行配置执行文件的应用命令，如该应用命令为“kubectlapply-f daemonset-gpu-monitor.yaml”，则kubernets会在每一node节点(第一节点)部署一个GPU监控程序。

本发明实施例中，可选地，所述方法还包括：

采用该实施方式，在后续有新加入集群的节点(第二节点)时，kubernets会在新加入的节点上通过配置执行文件自动部署GPU监控程序。

本发明实施例所述部署方法，在通过上述方式部署的GPU监控程序，获得GPU状态信息后，将GPU状态信息发送至所述第一节点传输的消息队列集群中，结合图1所示，第三节点的性能指示监控服务容器可以监听消息队列集群中的GPU状态信息，将该GPU状态信息或性能数据保存至数据库中，这样web端可以通过接口访问该第三节点对应的后端服务，查询该数据库中的GPU状态信息，并在网页端显示该GPU状态信息。

采用本发明实施例所述部署方法，通过将应用程序(命令可执行文件)和nvidia库文件映射到目标容器内部，使linux下任意的docker容器内都能使用nvidia-smi命令，以用于通过GPU监控程序进行GPU状态信息的监控；另外，本发明所述方法利用英伟达原生的命令，达到可以在任意镜像中部署GPU监控程序的目的，以避免在每一个节点上均启动并运行一个500多MB的docker镜像，造成大量占用系统资源的问题。

本发明其中一实施例还提供一种图形处理器GPU的监控方法，如图3所示，所述方法包括：

S310，根据第一节点上运行GPU监控程序的文件信息在目标容器的映射，获取GPU状态信息；

S320，将所述GPU状态信息发送至所述第一节点传输的消息队列集群中。

采用该监控方法，在通过GPU监控程序获得GPU状态信息后，可以将GPU状态信息发送至所述第一节点传输的消息队列集群中，第三节点的性能指示监控服务容器可以监听消息队列集群中的GPU状态信息，将该GPU状态信息或性能数据保存至数据库中，web端可以通过接口访问该第三节点对应的后端服务，查询该数据库中的GPU状态信息，以在网页端显示该GPU状态信息。可选地，所述的监控方法，其中，所述文件信息包括第一节点的nvidia库文件的文件位置，和/或，用于在所述第一节点获取GPU状态信息的命令可执行文件的文件路径。

可选地，所述命令可执行文件用于执行nvidia-smi命令。

本发明其中一实施例还提供一种图形处理器GPU监控程序的部署装置，如图4所示，所述装置包括：

第一获取模块410，用于获取GPU监控程序的docker镜像文件和在第一节点上运行所述GPU监控程序的文件信息；

文件生成模块420，用于根据所述docker镜像文件和所述文件信息，生成所述GPU监控程序的配置执行文件；

执行模块430，用于执行所述配置执行文件的应用命令，通过所述配置执行文件在所述第一节点的目标容器上部署所述GPU监控程序。

可选地，所述的部署装置，其中，所述文件信息包括第一节点的nvidia库文件的文件位置，和/或，用于在所述第一节点获取GPU状态信息的命令可执行文件的文件路径。

可选地，所述的部署装置，其中，所述第一获取模块410还用于：

获取所述GPU监控程序的程序执行文件和docker配置文件；

将所述docker镜像文件上传并存储至镜像仓库管理服务器。

可选地，所述的部署装置，其中，文件生成模块420根据所述docker镜像文件和所述文件信息，生成所述GPU监控程序的配置执行文件，包括：

将所述文件信息映射至所述目标容器，获得第一配置部分；

可选地，所述的部署装置，其中，执行模块430通过所述配置执行文件在所述第一节点的目标容器上部署所述GPU监控程序，包括：

可选地，所述的部署装置，其中，所述GPU监控程序用于根据所述文件信息在所述目标容器的映射，获取GPU状态信息，以及，将所述GPU状态信息发送至所述第一节点传输的消息队列集群中。

可选地，所述的部署装置，其中，第一获取模块410获取在第一节点上运行所述GPU监控程序的文件信息，包括：

通过向所述第一节点发送第二命令，获取所述文件路径。

可选地，所述的部署装置，其中，所述命令可执行文件用于执行nvidia-smi命令。

可选地，所述的部署装置，其中，所述执行模块430还用于：

本发明另一实施例还提供一种图形处理器GPU的监控装置，如图5所示，所述装置包括：

第二获取模块510，用于根据第一节点上运行GPU监控程序的文件信息在目标容器的映射，获取GPU状态信息；

发送模块520，用于将所述GPU状态信息发送至所述第一节点传输的消息队列集群中。

可选地，所述的监控装置，其中，所述文件信息包括第一节点的nvidia库文件的文件位置，和/或，用于在所述第一节点获取GPU状态信息的命令可执行文件的文件路径。

可选地，所述的监控装置，其中，所述命令可执行文件用于执行nvidia-smi命令。

本发明其中一实施例还提供一种网络节点，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其中，所述处理器用于读取所述存储器中的程序实现如上中任一项所述的部署方法，或者实现如权利要求上中任一项所述的监控方法。

其中，所述处理器读取存储器中的程序实现所述部署方法的具体实施方式，可以参阅以上关于所述部署方法中的详细说明，以及所述处理器读取存储器中的程序实现所述监控方法的具体实施方式，可以参阅以上关于所述监控方法的具体实施方式，在此不再详细说明。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述原理前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图形处理器GPU监控程序的部署方法，其特征在于，所述方法包括：

2.根据权利要求1所述的部署方法，其特征在于，所述文件信息包括第一节点的nvidia库文件的文件位置，和/或，用于在所述第一节点获取GPU状态信息的命令可执行文件的文件路径。

3.根据权利要求1所述的部署方法，其特征在于，所述方法还包括：

获取所述GPU监控程序的程序执行文件和docker配置文件；

将所述docker镜像文件上传并存储至镜像仓库管理服务器。

4.根据权利要求3所述的部署方法，其特征在于，根据所述docker镜像文件和所述文件信息，生成所述GPU监控程序的配置执行文件，包括：

将所述文件信息映射至所述目标容器，获得第一配置部分；

5.根据权利要求1或2所述的部署方法，其特征在于，通过所述配置执行文件在所述第一节点的目标容器上部署所述GPU监控程序，包括：

6.根据权利要求1所述的部署方法，其特征在于，所述GPU监控程序用于根据所述文件信息在所述目标容器的映射，获取GPU状态信息，以及，将所述GPU状态信息发送至所述第一节点传输的消息队列集群中。

7.根据权利要求2所述的部署方法，其特征在于，获取在第一节点上运行所述GPU监控程序的文件信息，包括：

通过向所述第一节点发送第二命令，获取所述文件路径。

8.根据权利要求2所述的部署方法，其特征在于，所述命令可执行文件用于执行nvidia-smi命令。

9.根据权利要求1所述的部署方法，其特征在于，所述方法还包括：

10.一种图形处理器GPU的监控方法，其特征在于，所述方法包括：

11.根据权利要求10所述的监控方法，其特征在于，所述文件信息包括第一节点的nvidia库文件的文件位置，和/或，用于在所述第一节点获取GPU状态信息的命令可执行文件的文件路径。

12.根据权利要求11所述的监控方法，其特征在于，所述命令可执行文件用于执行nvidia-smi命令。

13.一种图形处理器GPU监控程序的部署装置，其特征在于，所述装置包括：

14.一种图形处理器GPU的监控装置，其特征在于，所述装置包括：

15.一种网络节点，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器用于读取所述存储器中的程序实现如权利要求1至9中任一项所述的部署方法，或者实现如权利要求10至12中任一项所述的监控方法。