CN108733531B

CN108733531B - 基于云计算的gpu性能监控系统

Info

Publication number: CN108733531B
Application number: CN201710240638.6A
Authority: CN
Inventors: 杨松贵; 谌瑞敏; 李晔飞
Original assignee: Nanjing Witsoft Technology Co Ltd
Current assignee: Nanjing Witsoft Technology Co Ltd
Priority date: 2017-04-13
Filing date: 2017-04-13
Publication date: 2021-08-24
Anticipated expiration: 2037-04-13
Also published as: CN108733531A

Abstract

本发明涉及一种基于云计算的GPU性能监控系统，GPU性能数据采集单元将采集的GPU性能数据上传至基于云平台的服务中心，服务中心负责存储性能数据，并且按照规则计算性能指标，管理人员可以通过移动终端或者PC查看即时的性能指标。当性能指标超过预设的范围，服务中心也会通过智能终端主动通知管理员。本发明能够实时的观察到GPU性能，方便管理人员掌握GPU资源的使用情况，在GPU使用过载的情况下，能够及时收到通知信息，调配资源，做出合理对应，大大降低了整个工作站管理维持成本，提高了管理员维护的工作效率。

Description

基于云计算的GPU性能监控系统

技术领域

本发明涉及一种监控系统，具体涉及一种基于云计算的GPU性能监控系统，属于GPU性能采集监控领域。

背景技术

随着虚拟化技术的发展，越来越多的公司和个人使用虚拟化场景来办公。图形处理技术的发展，使得对GPU性能有更高要求的渲染设计工作也得以利用虚拟化带来的好处。在工业三维设计领域，专用的图形工作站和设计软件都十分昂贵，虚拟化技术可以使多人共享使用GPU的计算能力，使得资源复用，降低设计成本。在这种情况下，GPU的利用率提高的同时，GPU的负载也在加大。所以需要一种监控GPU性能的方法和系统，使得管理员能够及时获取GPU使用情况。

现有的GPU性能采集大多只是GPU厂商提供的单机数据的采集方法，并没有提供统一的存储。在虚拟化的场景中，会根据业务部署多个带GPU的图形工作站节点。这种场景下，管理员去每个节点查阅性能数据会非常繁琐，没有统一方便的工具提供整个系统的性能状况，维护整个系统的成本较高，并且工作效率较低。鉴于现状，迫切的需要一种新的方案解决该技术问题。

发明内容

本发明正是针对现有技术中存在的技术问题，提供一种基于云计算的GPU性能监控系统，整个技术方案结构紧凑、成本较低，节能环保，该技术方案基于云计算平台，检测单元采集到数据后会发到云端统一存储，大大降低了整个工作站管理维持成本，提高了管理员维护的工作效率。

为了实现上述目的，本发明的技术方案如下，一种基于云计算的GPU性能监控系统，其特征在于，所述监控系统包括GPU性能数据采集模块，云平台以及用户终端(Web端和APP移动终端)，所述GPU性能数据采集模块采集所在图形工作站的GPU性能数据，上传至云平台，云平台存储性能数据，用户使用终端可以查看云平台中的性能数据。

作为本发明的一种改进，所述云平台包括通信模块，存储模块以及数据分析模块，所述通信模块用于各个子模块之间的通信，包括性能数据上传、用户终端和云平台的通信、分析模块和用户终端的通信；存储模块用于存储GPU性能数据，所有存储数据都是基于时间点的测量值，而且只保留一定时间范围内的数据。过期的数据会清空。数据分析模块用于对上传的数据进行分析。本模块会按照数据来源的图形工作站和时间跨度两个维度进行分组。然后计算GPU性能的各项指标。用户通过终端可以查看这些指标，在某些指标超过预设范围时直接推送通知消息给用户。所述通信模块用于各个子模块之间的通信，包括性能数据上传，用户终端和云平台的通信，分析模块和用户终端的通信。现有的通讯模块中，往往采用编码后二进制协议来传输，具有占用带宽小的特点，但是也增加了复杂性。考虑到基于云计算的GPU性能监控系统的应用场景，本通信模块都采用基于Restful协议的方式，这种无状态的协议增加了消息协议透明性，具备一致的接口，降低了系统复杂性。存储模块用于存储GPU性能数据，不同于现有存储模块，都是基于结构化的数据库存储，即先定义好表结构，再基于表记录的存储方式。在基于云计算的GPU性能监控系统中，所有存储数据使用云端的非结构化存储结构，具备分布式扩容的能力，在GPU性能监控系统中，存储基于时间点的测量值，组成基于时间序列的数据列，而且只保留一定时间范围内的数据。过期的数据会清空。

作为本发明的一种改进，所述GPU性能数据采集模块部署在每一个图形工作站节点上，作为整个系统数据采集端，主要采集图形工作站节点上的GPU性能数据，包括GPU使用率，GPU显存使用率，GPU已使用显存大小。

作为本发明的一种改进，所述数据分析模块用于对上传的数据进行分析，数据分析模块的运行有两种模式，一是用户通过移动端查看一定时间范围内性能指标，会触发数据分析模块进行指标的分析运算；二是定时的触发，进行性能指标计算，以达到监控目的，数据分析模块会按照数据来源的图形工作站和时间跨度两个维度进行分组。

作为本发明的一种改进，所述数据分析模块定时的触发，进行性能指标计算，数据分析模块的计算步骤如下：

c1.设定时间周期为t，t取值为1分钟或者3分钟,对GPU利用率，GPU显存使用率，GPU显存使用数量3个数据进行采样后计算相关移动均值曲线；

i.计算GPU的利用率的移动均值曲线

i1在每个时间周期触发点获取GPU的利用率的数据；

i2假设时间序列为t0,t1,t2…tn，每个时间点间隔为1分钟，对每个时间点，计算此一分钟内采集数据的均值。

i3以当前时间节点为起始，向前20个节点为周期，使用移动平均法对均值曲线平滑化；计算方法如下：

i3.1.假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn＝mean(vn,vn-1,

vn-2...vn-19)；由此得到序列GUV，每个元素为计算得到的数值；

ii.计算GPU的显存使用率的移动均值曲线,采用下面方式计算平滑化的均值；

ii1在每个时间周期触发点获取GPU的显存使用率的数据；

ii2.假设时间序列为t0,t1,t2…tn，每个时间点间隔为1分钟(前指定条件)，对每个时间点，计算此一分钟内采集数据的均值。

ii3.以20个节点为周期，使用移动平均法对均值曲线平滑化。计算方法如下

ii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn＝mean(vn,vn-1,vn-2...vn-19)由此得到序列GMUV，每个元素为计算得到的数值。

iii计算GPU的显存已使用数量的移动均值曲线

iii1在每个时间周期触发点获取GPU的显存已使用数量的数据

iii2假设时间序列为t0,t1,t2…tn，每个时间点间隔为1分钟(前指定条件)，对每个时间点，计算此一分钟内采集数据的均值。

iii3以20个节点为周期，使用移动平均法对均值曲线平滑化。计算方法如下

iii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn＝mean(vn,vn-1,vn-2...vn-19)

由此得到序列GMV，每个元素为计算得到的数值；

对于上述得到的序列GUV，GMUV，GMV分别按照下面公式继续计算：

c2.假设取20个时间节点tn…tn-19对应的值为vn…vn-19，根据标准差公式

依次计算Sn，Sn-1...Sn-19；

假设平滑化的均值为Vn,Vn-1....Vn-19,

c3.定义Un＝min(M,Vn+2*Sn)M为GPU显存容量，即可使用的最大值。这一步骤即定义Un为平滑化均值加2倍标准差，以及最大显存容量两者之间的较小的那一个，依次以此方法计算Un-1,Un-2,…Un-19；

c4.定义Dn＝max(0,Vn-2*Sn)这一步骤定义Dn为平滑化均值减2倍标准差，以及0值之间的较大的那一个，依次以此方法计算Dn-1,Dn-2,…Dn-19；

经上述计算，根据统计原理，求得GPU性能使用数据的标准差和信赖区间，得到一个GPU性能数据的合理波动范围即为[Dn,Un]，如果在某个时间节点tn计算的均值大于Un，则说明当前性能已经超过合理波动范围，在这种情况下触发系统推送通知消息的动作。

作为本发明的一种改进，所述用户终端为管理员使用系统的接口，包括智能手机，平板和电脑，用户终端和系统进行通信的方式有两种，一种是主动获取，用户打开网页，选择某个图形工作站节点，查看此GPU性能数据或者查询某个计算指标；或者根据某项指标排序，同时查看不同工作站多个GPU的性能数据，这些数据都是图形化展示。用户也可以通过在智能手机安装APP获取相同的信息。另一种是被动通知，即由上述数据分析模块在经过智能分析计算后，对超范围的情况生成通知消息，由系统主动推送到用户终端，用户使用APP的情况下，会在APP内收到提醒。用户使用电脑，在打开浏览器的情况下也可以收到提醒通知。

作为本发明的一种改进，所述通信模块同样负责云平台和用户终端之间的通信，通信模块使用TCP/IP协议进行通信，对于用户终端发起的数据请求，以Rest接口的形式暴露各个接口供用户终端调用，或者对于推送通知时，通信模块使用WebSocket协议和用户终端进行连通。

作为本发明的一种改进，所述用户移动终端使用3G，4G移动网络或者Wifi方式与云平台中的通信模块进行通信。

相对于现有技术，本发明具有如下优点，1)本发明能够自动采集分散的图形工作站GPU性能数据，集中化存储及分析数据，通过智能的算法，有效监控GPU使用情况；2)本发明提供给管理员统一一致的界面，方便随时查看整个系统内各节点GPU性能状况，而不再需要登录每一个节点分别查看；3)本发明的GPU性能监控系统使用方便，用户可以通过移动终端智能手机使用APP接入，也可以在电脑上通过浏览器接入；4)本发明对于GPU使用过载的情况主动推送信息，使得管理员可以提早知晓，加快了系统管理员的反应速度，可以针对业务情景尽早进行相应处理；5)该技术方案降低了整个系统中图形工作站的管理维护成本，提高管理员维护工作的效率。

附图说明

图1本发明整体框架示意图.

具体实施方式：

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1，一种基于云计算的GPU性能监控系统，所述监控系统包括GPU性能数据采集模块，云平台以及用户终端(Web端和APP移动终端)，所述GPU性能数据采集模块采集所在图形工作站的GPU性能数据，上传至云平台，云平台存储性能数据，用户使用终端可以查看云平台中的性能数据；所述云平台包括通信模块，存储模块以及数据分析模块，所述通信模块用于各个子模块之间的通信，包括性能数据上传、用户终端和云平台的通信、分析模块和用户终端的通信；存储模块用于存储GPU性能数据，所有存储数据都是基于时间点的测量值，而且只保留一定时间范围内的数据。过期的数据会清空。数据分析模块用于对上传的数据进行分析。本模块会按照数据来源的图形工作站和时间跨度两个维度进行分组。然后计算GPU性能的各项指标。用户通过终端可以查看这些指标，在某些指标超过预设范围时直接推送通知消息给用户。

所述GPU性能数据采集模块按照一定的时间周期定时采集，可设定为每5秒，或者每10秒采集一次。采集到数据后，立即上传至云平台中。

云平台是部署在企业内部的私有平台，也是整个系统的控制及处理中心，包括了存储模块，通信模块，数据分析模块三大部分。通信模块负责处理云平台和外部模块之间的互相通信，包括和采集端上传模块的通信，和用户终端之间的通信。上述数据采集模块上传的数据就是由通信模块接收，标记当前的时间戳，然后存储到存储模块中。

存储模块用于存储GPU性能数据，所有存储数据都是基于上述时间点的测量值，存储的数据通过属性标识来源的元数据，存储数据的基本形式如下：{ip＝192.168.1.1,gpu_id＝1gpu_useage_percent＝0.4,gpu_mem_useage_percent＝0.4,gpu_mem_used＝16}

Ip标识图形工作站的IP，gpu_id标识gpu的id，在确定的图形工作站具有唯一性。存储模块只保留一定时间范围内的数据。过期的数据会清空，以防止占用空间无限增大的情况。

所述GPU性能数据采集模块部署在每一个图形工作站节点上，作为整个系统数据采集端，主要采集图形工作站节点上的GPU性能数据，包括GPU使用率，GPU显存使用率，GPU已使用显存大小。所述数据分析模块用于对上传的数据进行分析，数据分析模块的运行有两种模式，一是用户通过移动端查看一定时间范围内性能指标，会触发数据分析模块进行指标的分析运算；二是定时的触发，进行性能指标计算，以达到监控目的，数据分析模块会按照数据来源的图形工作站和时间跨度两个维度进行分组。所述数据分析模块定时的触发，进行性能指标计算，

数据分析模块的计算步骤如下：

i.计算GPU的利用率的移动均值曲线

i1在每个时间周期触发点获取GPU的利用率的数据；

i3.1.假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn＝mean(vn,vn-1,vn-2...vn-19)；由此得到序列GUV，每个元素为计算得到的数值；

ii1在每个时间周期触发点获取GPU的显存使用率的数据；

iii计算GPU的显存已使用数量的移动均值曲线

iii1在每个时间周期触发点获取GPU的显存已使用数量的数据

由此得到序列GMV，每个元素为计算得到的数值；

依次计算Sn，Sn-1......Sn-19；

假设平滑化的均值为Vn,Vn-1......Vn-19,

所述用户终端为管理员使用系统的接口，包括智能手机，平板和电脑，用户终端和系统进行通信的方式有两种，一种是主动获取，用户打开网页，选择某个图形工作站节点，查看此GPU性能数据或者查询某个计算指标；或者根据某项指标排序，同时查看不同工作站多个GPU的性能数据，这些数据都是图形化展示。用户也可以通过在智能手机安装APP获取相同的信息。另一种是被动通知，即由上述数据分析模块在经过智能分析计算后，对超范围的情况生成通知消息，由系统主动推送到用户终端，用户使用APP的情况下，会在APP内收到提醒。用户使用电脑，在打开浏览器的情况下也可以收到提醒通知。

所述通信模块同样负责云平台和用户终端之间的通信，通信模块使用TCP/IP协议进行通信，对于用户终端发起的数据请求，以Rest接口的形式暴露各个接口供用户终端调用，或者对于推送通知时，通信模块使用WebSocket协议和用户终端进行连通。

所述用户移动终端使用3G，4G移动网络或者Wifi方式与云平台中的通信模块进行通信。上述基于云计算的GPU性能监控系统，构建了一个分散采集，集中处理的基于云平台的整套体系。将整个环境中的GPU性能情况统一地展现在管理员的终端设备上，极大方便了管理员的日常监控管理和维护工作。基于统计的智能分析，能够及时预警可能的GPU资源紧张状况，主动推送通知，使得管理员能够及早应对。

本发明是基于云计算平台，在每个带GPU的工作站节点，检测单元采集到数据采集后，会发送到云端统一存储。管理员可以通过终端设备(智能手机和电脑)看到实时的GPU性能数据，包括GPU使用率，GPU显存使用率，已使用GPU显存大小。这些数据可以图形化展示，使得管理员更加直观，准确，系统的掌握整体情况。同时系统中的分析模块也部署在云计算平台中，其能从存储中获取每个节点的性能数据，对这些数据进行智能分析，根据分析的结果主动发送信息给管理人员，提醒管理人员注意或者采取行动。从而降低整个系统中图形工作站的管理维护成本，提高管理员维护工作的效率。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于云计算的GPU性能监控系统，其特征在于，所述监控系统包括GPU性能数据采集模块，云平台以及用户终端，所述GPU性能数据采集模块采集所在图形工作站的GPU性能数据，上传至云平台，云平台存储性能数据，用户使用终端查看云平台中的性能数据；

所述云平台包括通信模块，存储模块以及数据分析模块，所述通信模块用于各个子模块之间的通信，包括性能数据上传、用户终端和云平台的通信、分析模块和用户终端的通信；存储模块用于存储GPU性能数据，数据分析模块用于对上传的数据进行分析；

所述GPU性能数据采集模块部署在每一个图形工作站节点上,采集所在图形工作站的GPU性能数据,GPU性能数据采集模块采取侵入式的探针方式，针对GPU性能数据进行采集,包括GPU利用率、GPU显存利用率、GPU显存使用量；GPU性能数据采集模块将采集到的GPU性能数据上传至云平台；

所述数据分析模块用于对上传的数据进行分析，数据分析模块通过可配置方式即CRON表达式指定在触发时机进行性能指标计算，以达到监控目的，数据分析模块会按照数据来源的图形工作站和时间跨度两个维度进行分组；

所述数据分析模块定时触发，进行性能指标计算，数据分析模块的计算步骤如下：

i.计算GPU的利用率的移动均值曲线

i1在每个时间周期触发点获取GPU的利用率的数据；

i2假设时间序列为t0,t1,t2…tn，每个时间点间隔为1分钟，对每个时间点，计算此1分钟内采集数据的均值；

i3.1.假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn＝mean(vn,vn-1,vn-2…vn-19)；由此得到序列GUV，每个元素为计算得到的数值；

ii1在每个时间周期触发点获取GPU的显存使用率的数据；

ii2.假设时间序列为t0,t1,t2…tn，每个时间点间隔为1分钟，对每个时间点，计算此1分钟内采集数据的均值；

ii3.以20个节点为周期，使用移动平均法对均值曲线平滑化；计算方法如下

ii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn＝mean(vn,vn-1,vn-2…vn-19)由此得到序列GMUV，每个元素为计算得到的数值；

iii计算GPU的显存已使用数量的移动均值曲线；

iii1在每个时间周期触发点获取GPU的显存已使用数量的数据

iii2假设时间序列为t0,t1,t2…tn，每个时间点间隔为1分钟，对每个时间点，计算此1分钟内采集数据的均值；

iii3以20个节点为周期，使用移动平均法对均值曲线平滑化；计算方法如下

iii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn＝mean(vn,vn-1,vn-2…vn-19)

由此得到序列GMV，每个元素为计算得到的数值；

依次计算Sn，Sn-1…Sn-19；

假设平滑化的均值为Vn,Vn-1…Vn-19,

c3.定义Un＝min(M,Vn+2*Sn)M为GPU显存容量，即可使用的最大值；这一步骤即定义Un为平滑化均值加2倍标准差，以及最大显存容量两者之间的较小的那一个，依次以此方法计算Un-1,Un-2,…Un-19；

2.根据权利要求1所述的基于云计算的GPU性能监控系统，其特征在于，所述用户终端为管理员使用系统的接口，包括智能手机，平板和电脑，用户终端和系统进行通信的方式有两种，一种是主动获取，用户打开网页，选择某个图形工作站节点，查看此GPU性能数据或者查询某个计算指标；或者根据某项指标排序，同时查看不同工作站多个GPU的性能数据，另一种是被动通知，即由上述数据分析模块在经过智能分析计算后，对超范围的情况生成通知消息，由系统主动推送到用户终端，用户使用APP的情况下，会在APP内收到提醒。

3.根据权利要求1或2任意一项所述的基于云计算的GPU性能监控系统，其特征在于，所述通信模块负责云平台和用户终端之间的通信，通信模块使用TCP/IP协议进行通信，对于用户终端发起的数据请求，以Rest接口的形式暴露各个接口供用户终端调用，或者对于推送通知时，通信模块使用WebSocket协议和用户终端进行连通。

4.根据权利要求3所述的基于云计算的GPU性能监控系统，其特征在于，所述用户终端使用3G，4G移动网络或者Wifi方式与云平台中的通信模块进行通信。