CN114138499B

CN114138499B - Gpu资源利用率的监控方法、装置、计算机设备及介质

Info

Publication number: CN114138499B
Application number: CN202210109629.4A
Authority: CN
Inventors: 张荣国
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-06
Anticipated expiration: 2042-01-29
Also published as: CN114138499A; WO2023142824A1

Abstract

本发明提供一种GPU资源利用率的监控方法、装置、计算机设备及介质。GPU资源利用率的监控方法，包括：接收GPU资源利用率请求。根据资源利用率请求确定运行于GPU上的多个容器组，多个容器组包括目标容器组。分别获取每一个容器组占用GPU的运行时间。根据每一个容器组占用GPU的运行时间，确定多个容器组占用GPU资源的时间总和。基于目标容器组的运行时间与时间总和之间的时间比，确定目标容器组的GPU资源利用率，以响应资源利用率请求。通过本发明，有助于在监控GPU资源利用率的过程中，明确在GPU上进行运行的各容器组具体的资源利用率情况，从而使GPU资源利用率的监控更具体，更具有针对性。

Description

GPU资源利用率的监控方法、装置、计算机设备及介质

技术领域

本发明涉及计算机技术领域，具体涉及一种GPU资源利用率的监控方法、装置、计算机设备及介质。

背景技术

由于单个图形处理器（graphics processing unit，GPU）内具有充足的显存、寄存器、线程等资源，并且，单独的一个Kubernetes Pod也无法完全占用整个GPU资源。其中，Kubernetes是一种开源的容器编排引擎，用来对容器化应用进行自动化部署、扩缩和管理；Pod是Kubernetes中可被调度的最小调度单元，可以理解为是包括至少一个容器的容器组。因此，为充分利用率GPU资源，则在利用率GPU资源进行高性能计算时，采用GPU共享的方式，将多个容器组调度到同一GPU上进行运行，进而达到提高GPU资源利用率的目的。

相关技术中，在对GPU资源的使用情况进行监测时，是针对GPU整体进行监控，因此，无法确定每一个容器组占用GPU资源的使用情况。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中无法确定单独容器组占用GPU资源使用情况的缺陷，从而提供一种GPU资源利用率的监控方法、装置、计算机设备及介质。

结合第一方面，本发明提供一种GPU资源利用率的监控方法，所述方法包括：

接收GPU资源利用率请求；

根据所述资源利用率请求确定运行于所述GPU上的多个容器组，所述多个容器组包括目标容器组；

分别获取每一个容器组占用所述GPU的运行时间；

根据所述每一个容器组占用所述GPU的运行时间，确定所述多个容器组占用所述GPU资源的时间总和；

基于所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率，以响应所述资源利用率请求。

在该方式中，能够根据GPU上运行的每一个容器组占用GPU的运行时间，确定目标容器组的运行时间与所有容器组占用GPU资源的时间总和之间的时间比。通过该时间比确定目标容器组占用GPU资源进行运行的使用情况，确定目标容器组占用GPU资源的GPU资源利用率，进而有助于在监控GPU资源利用率的过程中，明确在GPU上进行运行的各容器组具体的资源利用率情况，从而使GPU资源利用率的监控更具体，更具有针对性。

结合第一方面，在第一方面的第一实施例中，所述基于所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率，包括：

获取所述GPU在指定时间窗口的第一总利用率；

基于所述第一总利用率以及所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率。

结合第一方面的第一实施例，在第一方面的第二实施例中，所述分别获取每一个容器组占用所述GPU的运行时间，包括：

在所述指定时间窗口内，分别获取每一个容器组在多个采样间隔内占用所述GPU的运行时间。

结合第一方面的第二实施例，在第一方面的第三实施例中，所述获取所述GPU在指定时间窗口的第一总利用率，包括：

获取所述GPU资源在每一个采样间隔内的第二总利用率，所有采样间隔内的第二总利用率之和为所述第一总利用率；

所述基于所述第一总利用率以及所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率，包括：

分别根据所述每一个采样间隔内的第二总利用率和对应的时间比，确定所述目标容器组在每一个采样间隔内的第一资源利用率；

根据各所述第一资源利用率之和，得到所述目标容器组在所述指定时间窗口的第二资源利用率；

根据所述指定时间窗口和所述采样间隔之间的时间比，确定所述采样间隔的数量；

根据所述第二资源利用率和所述数量，确定所述目标容器组在所述指定时间窗口内的平均利用率，所述平均利用率为所述GPU资源利用率。

结合第一方面，在第一方面的第四实施例中，所述根据所述资源利用率请求确定运行于所述GPU上的多个容器组，包括：

根据所述资源利用率请求读取预设配置文件，确定运行于所述GPU上的多个容器组。

结合第一方面的第四实施例，在第一方面的第五实施例中，所述根据所述资源利用率请求读取预设配置文件，确定运行于所述GPU上的多个容器组，包括：

根据所述资源利用率请求读取预设配置文件，获取运行于所述GPU上的容器组信息；

根据所述容器组信息，确定运行于所述GPU上的多个容器组。

结合第一方面的第五实施例，在第一方面的第六实施例中，所述方法还包括：

若所述目标容器组在所述GPU上完成运行，则删除所述容器组信息中所述目标容器组对应的信息。

在本发明的第二方面，本发明还提供一种GPU资源利用率的监控装置，其特征在于，所述装置包括：

接收单元，用于接收GPU资源利用率请求；

第一确定单元，用于根据所述资源利用率请求确定运行于所述GPU上的多个容器组，所述多个容器组包括目标容器组；

获取单元，用于分别获取每一个容器组占用所述GPU的运行时间；

第二确定单元，用于根据所述每一个容器组占用所述GPU的运行时间，确定所述多个容器组占用所述GPU资源的时间总和；

第三确定单元，用于基于所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率，以响应所述资源利用率请求。

结合第二方面，在第二方面的第一实施例中，所述第三确定单元，包括：

总利用率获取单元，用于获取所述GPU在指定时间窗口的第一总利用率；

资源利用率确定单元，用于基于所述第一总利用率以及所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率。

结合第二方面的第一实施例，在第二方面的第二实施例中，所述获取单元，包括：

获取子单元，用于在所述指定时间窗口内，分别获取每一个容器组在多个采样间隔内占用所述GPU的运行时间。

结合第二方面的第二实施例，在第二方面的第三实施例中，所述总利用率获取单元，包括：

总利用率获取子单元，用于获取所述GPU资源在每一个采样间隔内的第二总利用率，所有采样间隔内的第二总利用率之和为所述第一总利用率；

所述资源利用率确定单元，包括：

第一资源利用率确定单元，用于分别根据所述每一个采样间隔内的第二总利用率和对应的时间比，确定所述目标容器组在每一个采样间隔内的第一资源利用率；

合并单元，用于根据各所述第一资源利用率之和，得到所述目标容器组在所述指定时间窗口的第二资源利用率；

数量确定单元，用于根据所述指定时间窗口和所述采样间隔之间的时间比，确定所述采样间隔的数量；

资源利用率确定子单元，用于根据所述第二资源利用率和所述数量，确定所述目标容器组在所述指定时间窗口内的平均利用率，所述平均利用率为所述GPU资源利用率。

结合第二方面，在第二方面的第四实施例中，所述第一确定单元，包括：

第一确定子单元，用于根据所述资源利用率请求读取预设配置文件，确定运行于所述GPU上的多个容器组。

结合第二方面的第四实施例，在第二方面的第五实施例中，所述第一确定子单元，包括：

读取单元，用于根据所述资源利用率请求读取预设配置文件，获取运行于所述GPU上的容器组信息；

容器组确定单元，用于根据所述容器组信息，确定运行于所述GPU上的多个容器组。

结合第二方面的第五实施例，在第二方面的第六实施例中，所述装置还包括：

删除单元，用于若所述目标容器组在所述GPU上完成运行，则删除所述容器组信息中所述目标容器组对应的信息。

根据第三方面，本发明实施方式还提供一种计算机设备，包括存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面及其可选实施方式中任一项的GPU资源利用率的监控方法。

根据第四方面，本发明实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面及其可选实施方式中任一项的GPU资源利用率的监控方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例提出的一种GPU资源利用率的监控方法的流程图。

图2是根据一示例性实施例提出的一种GPU资源利用率的确定方法的流程图。

图3是根据一示例性实施例提出的一种确定GPU资源利用率的模块交互图。

图4是根据一示例性实施例提出的另一种GPU资源利用率的监控方法的流程图。

图5是根据一示例性实施例提出的一种信息删除的模块交互图。

图6是根据一示例性实施例提出的一种服务器的架构示意图。

图7是根据一示例性实施例提出的一种GPU资源利用率的监控装置的结构框图。

图8是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，在对GPU资源的使用情况进行监测时，是针对GPU整体进行监控，因此，无法确定运行在GPU上的每一个容器组占用GPU资源的使用情况，即，无法确定每一个容器组的GPU资源利用率（Pod GPU Utilization，PGU）。

为解决上述问题，本发明实施例中提供一种GPU资源利用率的监控方法，用于计算机设备中，需要说明的是，其执行主体可以是GPU资源利用率的监控装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部，其中，该计算机设备可以是终端或客户端或服务器，服务器可以是一台服务器，也可以为由多台服务器组成的服务器集群，本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中，均以执行主体是计算机设备为例来进行说明。

本实施例中的计算机设备，适用于在GPU共享下监控Kubernetes中的各容器组的PGU的使用场景。通过本发明提供的GPU资源利用率的监控方法，能够根据GPU上运行的每一个容器组占用GPU的运行时间，确定目标容器组的运行时间与所有容器组占用GPU资源的时间总和之间的时间比。通过该时间比确定目标容器组占用GPU资源进行运行的使用情况，确定目标容器组占用GPU资源的GPU资源利用率，进而有助于在监控GPU资源利用率的过程中，明确在GPU上进行运行的各容器组具体的资源利用率情况，从而使GPU资源利用率的监控更具体，更具有针对性。

图1是根据一示例性实施例提出的一种GPU资源利用率的监控方法的流程图。如图1所示，GPU资源利用率的监控方法包括如下步骤S101至步骤S105。

在步骤S101中，接收GPU资源利用率请求。

在本发明实施例中，GPU资源利用率请求，是用于在GPU运行的过程中，监控该GPU的资源利用率的请求。

在步骤S102中，根据资源利用率请求确定运行于GPU上的多个容器组。

在本发明实施例中，在接收到资源利用率请求后，为便于对GPU资源的进行准确监控，则确定运行于GPU上的多个容器组，以便明确GPU资源的占用情况。其中，多个容器组中包括目标容器组。在一例中，目标容器组可以是多个容器组中的任意一个容器组或者指定容器组，也可以是部分或者全部容器组，在本发明中不进行限制。

在一示例中，可以在接收到资源利用率请求后，通过读取预设配置文件，确定运行于GPU上的多个容器组。其中，预设配置文件可以是用于部署GPU共享系统的文件。例如：在接收到资源利用率请求后，通过读取预设配置文件，获取当前Kubernetes集群中运行于GPU上的容器组信息，进而通过该容器组信息，确定运行于GPU上的多个容器组。

在步骤S103中，分别获取每一个容器组占用GPU的运行时间。

在本发明实施例中，为便于明确各容器组占用GPU进行运行的具体情况，则分别获取每一个容器组占用GPU的运行时间，以便确定各容器组占用GPU进行运行的时长。

在步骤S104中，根据每一个容器组占用GPU的运行时间，确定多个容器组占用GPU资源的时间总和。

在本发明实施例中，将各容器组占用GPU的运行时间进行相加求和，得到多个容器组占用GPU资源的时间总和，以便通过该时间总和确定各容器组在GPU上共同进行运行时，各容器组占用该GPU进行运行时的GPU资源的分布情况。

在步骤S105中，基于目标容器组的运行时间与时间总和之间的时间比，确定目标容器组的GPU资源利用率，以响应资源利用率请求。

在本发明实施例中，基于目标容器组的运行时间与时间总和之间的时间比，能够确定当目标容器组在与多个容器组中的其他容器组共同运行在GPU时，该目标容器组占用GPU资源进行运行时的资源占用比例，进而便可以确定该目标容器组的GPU资源利用率，从而完成对资源利用率请求的响应。

通过上述实施例，能够根据GPU上运行的每一个容器组占用GPU的运行时间，确定目标容器组的运行时间与所有容器组占用GPU资源的时间总和之间的时间比。通过该时间比确定目标容器组占用GPU资源进行运行的使用情况，确定目标容器组占用GPU资源的GPU资源利用率，进而有助于在监控GPU资源利用率的过程中，明确在GPU上进行运行的各容器组具体的资源利用率情况，从而使GPU资源利用率的监控更具体，更具有针对性。

在一实施例中，为使目标容器组的GPU资源利用率更准确，则获取GPU在指定时间窗口的第一总利用率。其中，第一总利用率可以理解为，是通过GPU中预存可调用的计算函数，采集在指定时间窗口内得到GPU资源总利用率。目标容器组在GPU上进行运行的时间长度大于或者等于指定时间窗口对应的时间长度。进而确定该第一总利用率的情况下，基于第一总利用率以及目标容器组的运行时间与时间总和之间的时间比，确定目标容器组的GPU资源利用率。例如：若GPU在指定时间窗口的第一总利用率为70%，目标容器组的运行时间与时间总和之间的时间比为2/7，则目标容器组的GPU资源利用率=70%*2/7=20%，进而可以确定目标容器组的GPU资源利用率为20%。

在另一实施例中，由于容器组在GPU上进行运行的过程中，可能会存在中途暂停运行的情况。因此，为提高确定各容器组占用GPU的运行时间的准确度，则在分别获取每一个容器组占用GPU的运行时间的过程中，根据指定时间窗口，分别获取每一个容器组在多个采样间隔内占用GPU的运行时间，进而在确定各容器组在指定时间窗口内的GPU资源利用率时，能够有效减少误差，从而有助于提高确定GPU资源利用率的准确度。在一例中，每一个采样间隔对应的时间长度相同。

以下实施例将具体说明在指定时间窗口内，确定目标容器组的GPU资源利用率的过程。

图2是根据一示例性实施例提出的一种GPU资源利用率的确定方法的流程图。如图2所示，GPU资源利用率的确定方法包括如下步骤。

在步骤S201中，获取GPU资源在每一个采样间隔内的第二总利用率。

在本发明实施例中，获取GPU资源在每一个采样间隔内的第二总利用率，以便确定在每一个采样间隔内GPU的实际总利用率。其中，将各第二总利用率累计相加得到第二总利用率之和，即为第一总利用率。

在步骤S202中，分别根据每一个采样间隔内的第二总利用率和对应的时间比，确定目标容器组在每一个采样间隔内的第一资源利用率。

在本发明实施例中，针对当前采样间隔，确定目标容器组在每一个采样间隔内的第一资源利用率时，则根据该目标容器组在当前采样间隔内的运行时间与多个容器组的占用GPU资源的时间总和，确定该目标容器组针对当前采样间隔的时间比，进而根据该采样间隔内的第二总利用率和时间比，得到第一资源利用率。确定其他采样间隔内的第一资源利用率的过程与确定当前采样间隔内的第一资源利用率过程相同，在此不再进行赘述。

在步骤S203中，根据各第一资源利用率之和，得到目标容器组在指定时间窗口的第二资源利用率。

在本发明实施例中，由于采样间隔相对时间较短，且避免在确定第一资源利用率的过程中存在误差，则将多个采样间隔对应的第一资源利用率相加，得到目标容器组在指定时间窗口内占用GPU运行的资源利用率之和，即第二资源利用率，以便后续根据该第二资源利用率确定该目标容器组在指定时间窗口内的平均利用率，降低误差的干扰，进而提高确定GPU资源利用率的准确度。

在步骤S204中，根据指定时间窗口和采样间隔之间的时间比，确定采样间隔的数量。

在本发明实施例中，根据指定时间窗口和采样间隔之间的时间比，确定采样间隔的数量，以便确定指定时间窗口内包括的采样间隔的具体数量。

在步骤S205中，根据第二资源利用率和数量，确定目标容器组在指定时间窗口内的平均利用率，平均利用率为GPU资源利用率。

在本发明实施例中，由于第二资源利用率为目标容器组在指定时间窗口内各采样间隔对应的第一资源利用率之和，且数量为具体包括的采样间隔数量，进而将二者进行相除，便可以确定目标容器组在指定时间窗口内的平均利用率，即，可以确定目标容器组在该指定时间窗口内的GPU资源利用率，从而根据该GPU资源利用率便可以明确，在该指定时间窗口内，目标容器组占用GPU资源进行运行的整体利用情况。

通过上述实施例，根据目标容器组在每一个采样间隔内的第一资源利用率以及采样间隔数量，确定目标容器组在指定时间窗口内的平均资源利用率，即，得到GPU资源利用率，有助于明确目标容器组在指定时间窗口内占用GPU资源进行运行的整体利用情况，进而有助于避免误监控的情况发生，从而使GPU资源利用率的监控更准确。

在一实施场景中，在指定时间窗口内，确定目标容器组的GPU资源利用率的过程可以如下：

确定目标容器组的GPU资源利用率可以采用如下公式进行确定：

；

其中，n为指定时间窗口（默认值为1秒）除以采样间隔（默认值为0.1秒），进而n的默认值为10。

代表在第i个采样区间内GPU的第一资源利用率；

代表在第i个采样区间内第j个容器组占用GPU运行的运行时间；

代表第i个采样区间内所有容器组占用GPU资源的时间总和。

进而根据实际运行过程中所获取的相关数据以及上述公式，确定在指定时间窗口内每一个容器组的GPU资源利用率。

例如：获取的相关数据可以如表1所示。其中，为便于示例，则以在GPU上进行运行的目标容器组数量为两个进行说明，包括第一目标容器组和第二容器组。相关数据可以包括：获取GPU资源利用率的时刻（秒）、每一个采样间隔以及在每一个采样间隔内统计的GPU的第一总利用率、第一目标容器组（pod1）的运行时间，第二目标容器组（pod2）的运行时间，能够分别确定每一个容器组在每一个采样间隔内的第一资源利用率，进而根据采样间隔的数量，确定在指定时间窗口内每一个容器组的GPU资源利用率。

表1

其中，Pod1的GPU资源利用率=

=12.54

在一实施场景中，GPU中包括PGU推送模块和PGU服务模块。如图3所示，PGU服务模块根据接收到PGU推送模块发送的GPU资源利用率请求，确定PGU服务模块目标容器组的GPU资源利用率。PGU服务模块接收到该请求后，采用上述公式计算目标容器组的GPU资源利用率，以响完成对该请求的响应，进而将响应回传至PGU服务模块。图3是根据一示例性实施例提出的一种确定GPU资源利用率的模块交互图。

图4是根据一示例性实施例提出的另一种GPU资源利用率的监控方法的流程图。如图4所示，GPU资源利用率的监控方法包括如下步骤。

在步骤S401中，接收GPU资源利用率请求；

在步骤S402中，根据资源利用率请求确定运行于GPU上的多个容器组，多个容器组包括目标容器组；

在步骤S403中，分别获取每一个容器组占用GPU的运行时间；

在步骤S404中，根据每一个容器组占用GPU的运行时间，确定多个容器组占用GPU资源的时间总和；

在步骤S405中，基于目标容器组的运行时间与时间总和之间的时间比，确定目标容器组的GPU资源利用率，以响应资源利用率请求。

在步骤S406中，若目标容器组在GPU上完成运行，则删除容器组信息中目标容器组对应的信息。

在本发明实施例中，若目标容器组在GPU上完成运行，则表征该目标容器组不会再出现在GPU上进行运行，因此，则将容器组信息中目标容器组对应的信息进行删除，进而避免已完成运行的目标容器组对应的信息针对确定目标容器组的GPU资源利用率的结果产生干扰，从而提高确定目标容器组的GPU资源利用率的准确度。

在一实施场景中，删除容器组信息中目标容器组对应的信息的过程可以如图5所示。图5是根据一示例性实施例提出的一种信息删除的模块交互图。由PGU服务模块检测目标容器组的运行状态，当目标容器组完成运行后，则向PGU推送模块发送的删除请求。PGU推送模块根据接收到的删除请求，将容器组信息中目标容器组对应的信息进行删除，包括删除目标容器组的GPU资源利用率，进而完成对删除请求的响应，并将删除响应回传至PGU服务模块。

在另一实施场景中，由于在服务器中，GPU节点的数量至少为一个，因此，为便于监控各GPU节点的PGU，本发明还提供一种GPU共享场景下监控PGU的服务器架构。如图6所示，为便于说明服务器的架构组成，以下将以服务器中包括一个主节点和两个GPU节点为例进行解释。其中，两个GPU节点包括GPU节点1和GPU节点2，每一个GPU节点中包括两个GPU，即GPU1和GPU2。在实际应用中，GPU节点的数量和GPU节点中GPU的数量不限，可以根据实际需求进行设定。图6是根据一示例性实施例提出的一种服务器的架构示意图。

主节点是Kubernetes集群中的管理节点，包含控制器模块和调度器模块。控制器模块：为用户创建的服务创建对应的容器组以及其它资源，并通过其内部的Metrics环境变量注入模块向容器组的容器注入以下环境变量：POD_GPU_USAGE_METRICS：是否发送Metrics至GPU节点内的劫持调度器，其中，Metrics是Prometheus（一种服务监控系统）收集到的监控数据。SAMPLE_INTEVRL_METRICS：用于确定发送Metrics到劫持调度器的时间间隔（默认值为0.1秒）。调度器模块：用于服务对应的Pod调度到具体的某个GPU上，并且创建其对应的虚拟GPU（vGPU）。在该调度器模块中包含以下环境变量：POD_GPU_USAGE_METRICS：用于判断PGU删除模块是否在删除容器组时的同时，将其对相应GPU资源利用率一并进行删除。

GPU节点是Kubernetes集群中安装有GPU的计算节点，在该类节点上运行着一个节点代理，节点代理又包含以下子模块：配置客户端：负责向调度器注册本节点的GPU资源，同时将GPU上面运行的Pod列表信息写入文件，以及劫持调度器：负责分配时间片给Pod，并且统计每个Pod使用GPU进行计算的时间，然后计算PGU并且推送给Pushgateway。本模块中包含以下环境变量：POD_GPU_USAGE_METRICS：用于判断是否开启PGU推送模块和PGU服务。PROMETHEUS_PUSHGATEWAY_INTERVAL：用于确定PGU推送模块推送Pushgateway的时间间隔（默认值为15秒）。

在GPU节点中，包含以下子模块：PGU推送模块：定时（PROMETHEUS_PUSHGATEWAY_INTERVAL）向PGU服务请求PGU数据，并将PGU推送到Pushgateway。PGU服务：定时采集PGU相关Metrics（SAMPLE_INTEVRL_METRICS），并且在收到PGU推送模块发送来的请求时，计算PGU并发送响应给PGU推送模块。

具体部署细节如下：

针对主节点的控制器模块，在部署GPU共享系统时，根据控制器模块中的yaml（一种配置文件格式）文件创建控制器模块，进而根据该yaml文件中配置环境变量。由于该控制器模块负责创建容器组，因此可以在创建容器组的同时，根据yaml文件中配置的Metrics环境变量向容器组的容器注入是否发送Metrics至GPU节点内的劫持调度器和确定发送Metrics到劫持调度器的时间间隔的环境变量。

针对主节点的调度器模块，在部署GPU共享系统时，会根据调度器模块的yaml文件创建调度器模块，而调度器模块的yaml文件中可以配置环境变量，由于调度器可以监测容器组的创建与删除，因此，当调度器模块在监测到目标容器组被删除时，则可以根据调度器的yaml文件中配置的环境变量决定是否删除目标容器组的GPU资源利用率。其中，删除目标容器组的GPU资源利用率包括如下2个步骤：首先，从Pushgateway中删除目标容器组的GPU资源利用率，进而从Prometheus中删除该目标容器组的GPU资源利用率，从而达到将已完成运行的目标容器组的GPU资源利用率删除的目的。其中，在调度器模块中，均通过HTTP向Pushgateway和Prometheus发送删除请求。

针对任一GPU节点中的劫持调度器，在部署GPU共享系统时，会根据劫持调度器的yaml文件创建劫持调度器，而劫持调度器的yaml文件中可以配置环境变量，由于劫持调度器可以根据配置客户端写入的文件来获取当前Kubernetes集群中的容器组，所以在删除已完成运行的目标容器组时，可以根据劫持调度器的yaml文件中配置的环境变量决定是否删除该目标容器组对应的GPU资源利用率。其中，删除目标容器组的GPU资源利用率包括如下2个步骤：从Pushgateway中删除目标容器组的GPU资源利用率，进而从Prometheus中删除该目标容器组的GPU资源利用率，从而达到将已完成运行的目标容器组的GPU资源利用率删除的目的。在劫持调度器中，均通过HTTP向Pushgateway和Prometheus发送删除请求。

其中，劫持调度器包括PGU推送模块和PGU服务模块。其中，PGU推送模块，用于定时（PROMETHEUS_PUSHGATEWAY_INTERVAL）向PGU服务模块发送GPU资源利用率请求，并将获取到的目标容器组的GPU资源利用率推送到Pushgateway。在PGU推送模块中，可以采用Python作为基础编程语言，并采用UNIX Domain Socket（一种进程间通信方式）实现PGU推送模块与PGU服务模块支之间的相互通信。PGU服务模块，用于定时采集PGU相关Metrics（SAMPLE_INTEVRL_METRICS），并在收到PGU推送模块发送的GPU资源利用率请求，计算目标容器组的GPU资源利用率，并将响应回传至PGU推送模块。

通过上述实施例，能够实时监控每个Kubernetes Pod的PGU。

基于相同发明构思，本发明还提供一种GPU资源利用率的监控装置。

图7是根据一示例性实施例提出的一种GPU资源利用率的监控装置的结构框图。如图7所示，GPU资源利用率的监控装置包括接收单元701、第一确定单元702、获取单元703、第二确定单元704和第三确定单元705。

接收单元701，用于接收GPU资源利用率请求。

第一确定单元702，用于根据资源利用率请求确定运行于GPU上的多个容器组，多个容器组包括目标容器组。

获取单元703，用于分别获取每一个容器组占用GPU的运行时间。

第二确定单元704，用于根据每一个容器组占用GPU的运行时间，确定多个容器组占用GPU资源的时间总和。

第三确定单元705，用于基于目标容器组的运行时间与时间总和之间的时间比，确定目标容器组的GPU资源利用率，以响应资源利用率请求。

在一实施例中，第三确定单元705，包括：总利用率获取单元，用于获取GPU在指定时间窗口的第一总利用率。资源利用率确定单元，用于基于第一总利用率以及目标容器组的运行时间与时间总和之间的时间比，确定目标容器组的GPU资源利用率。

在另一实施例中，获取单元703，包括：获取子单元，用于在指定时间窗口内，分别获取每一个容器组在多个采样间隔内占用GPU的运行时间。

在又一实施例中，总利用率获取单元，包括：总利用率获取子单元，用于获取GPU资源在每一个采样间隔内的第二总利用率，所有采样间隔内的第二总利用率之和为第一总利用率。资源利用率确定单元，包括：第一资源利用率确定单元，用于分别根据每一个采样间隔内的第二总利用率和对应的时间比，确定目标容器组在每一个采样间隔内的第一资源利用率。合并单元，用于根据各第一资源利用率之和，得到目标容器组在指定时间窗口的第二资源利用率。数量确定单元，用于根据指定时间窗口和采样间隔之间的时间比，确定采样间隔的数量。资源利用率确定子单元，用于根据第二资源利用率和数量，确定目标容器组在指定时间窗口内的平均利用率，平均利用率为GPU资源利用率。

在又一实施例中，第一确定单元702，包括：第一确定子单元，用于根据资源利用率请求读取预设配置文件，确定运行于GPU上的多个容器组。

在又一实施例中，第一确定子单元，包括：读取单元，用于根据资源利用率请求读取预设配置文件，获取运行于GPU上的容器组信息。容器组确定单元，用于根据容器组信息，确定运行于GPU上的多个容器组。

在又一实施例中，装置还包括：删除单元，用于若目标容器组在GPU上完成运行，则删除容器组信息中目标容器组对应的信息。

上述GPU资源利用率的监控装置的具体限定以及有益效果可以参见上文中对于GPU资源利用率的监控方法的限定，在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图8是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图8所示，该设备包括一个或多个处理器810以及存储器820，存储器820包括持久内存、易失内存和硬盘，图8中以一个处理器810为例。该设备还可以包括：输入装置830和输出装置840。

处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。

处理器810可以为中央处理器（Central Processing Unit，CPU）。处理器810还可以为其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器820作为一种非暂态计算机可读存储介质，包括持久内存、易失内存和硬盘，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的业务管理方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述任意一种GPU资源利用率的监控方法。

存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据、需要使用的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

一个或者多个模块存储在存储器820中，当被一个或者多个处理器810执行时，执行如图1-图6所示的方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，具体可参见如图1-图6所示的实施例中的相关描述。

本发明实施例还提供了一种非暂态计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的认证方法。其中，存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（RandomAccess Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种GPU资源利用率的监控方法，其特征在于，所述方法包括：

接收GPU资源利用率请求；

分别获取每一个容器组占用所述GPU的运行时间；

基于所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率，以响应所述资源利用率请求；

所述基于所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率，包括：获取所述GPU在指定时间窗口的第一总利用率；基于所述第一总利用率以及所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率；

所述分别获取每一个容器组占用所述GPU的运行时间，包括：在所述指定时间窗口内，分别获取每一个容器组在多个采样间隔内占用所述GPU的运行时间；

所述获取所述GPU在指定时间窗口的第一总利用率，包括：获取所述GPU资源在每一个采样间隔内的第二总利用率，所有采样间隔内的第二总利用率之和为所述第一总利用率；所述基于所述第一总利用率以及所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率，包括：分别根据所述每一个采样间隔内的第二总利用率和对应的时间比，确定所述目标容器组在每一个采样间隔内的第一资源利用率；根据各所述第一资源利用率之和，得到所述目标容器组在所述指定时间窗口的第二资源利用率；根据所述指定时间窗口和所述采样间隔之间的时间比，确定所述采样间隔的数量；根据所述第二资源利用率和所述数量，确定所述目标容器组在所述指定时间窗口内的平均利用率，所述平均利用率为所述GPU资源利用率。

2.根据权利要求1所述的方法，其特征在于，所述根据所述资源利用率请求确定运行于所述GPU上的多个容器组，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述资源利用率请求读取预设配置文件，确定运行于所述GPU上的多个容器组，包括：

根据所述容器组信息，确定运行于所述GPU上的多个容器组。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种GPU资源利用率的监控装置，其特征在于，所述装置包括：

接收单元，用于接收GPU资源利用率请求；

第三确定单元，用于基于所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率，以响应所述资源利用率请求；

其中，所述第三确定单元，包括：总利用率获取单元，用于获取所述GPU在指定时间窗口的第一总利用率；资源利用率确定单元，用于基于所述第一总利用率以及所述目标容器组的运行时间与所述时间总和之间的时间比，确定所述目标容器组的GPU资源利用率；

所述获取单元，包括：获取子单元，用于在所述指定时间窗口内，分别获取每一个容器组在多个采样间隔内占用所述GPU的运行时间；

所述总利用率获取单元，包括：总利用率获取子单元，用于获取所述GPU资源在每一个采样间隔内的第二总利用率，所有采样间隔内的第二总利用率之和为所述第一总利用率；所述资源利用率确定单元，包括：第一资源利用率确定单元，用于分别根据所述每一个采样间隔内的第二总利用率和对应的时间比，确定所述目标容器组在每一个采样间隔内的第一资源利用率；合并单元，用于根据各所述第一资源利用率之和，得到所述目标容器组在所述指定时间窗口的第二资源利用率；数量确定单元，用于根据所述指定时间窗口和所述采样间隔之间的时间比，确定所述采样间隔的数量；资源利用率确定子单元，用于根据所述第二资源利用率和所述数量，确定所述目标容器组在所述指定时间窗口内的平均利用率，所述平均利用率为所述GPU资源利用率。

6.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-4中任一项所述的GPU资源利用率的监控方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的GPU资源利用率的监控方法。