CN108733531B - 基于云计算的gpu性能监控系统 - Google Patents

基于云计算的gpu性能监控系统 Download PDF

Info

Publication number
CN108733531B
CN108733531B CN201710240638.6A CN201710240638A CN108733531B CN 108733531 B CN108733531 B CN 108733531B CN 201710240638 A CN201710240638 A CN 201710240638A CN 108733531 B CN108733531 B CN 108733531B
Authority
CN
China
Prior art keywords
gpu
data
performance data
time
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710240638.6A
Other languages
English (en)
Other versions
CN108733531A (zh
Inventor
杨松贵
谌瑞敏
李晔飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Witsoft Technology Co Ltd
Original Assignee
Nanjing Witsoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Witsoft Technology Co Ltd filed Critical Nanjing Witsoft Technology Co Ltd
Priority to CN201710240638.6A priority Critical patent/CN108733531B/zh
Publication of CN108733531A publication Critical patent/CN108733531A/zh
Application granted granted Critical
Publication of CN108733531B publication Critical patent/CN108733531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Abstract

本发明涉及一种基于云计算的GPU性能监控系统,GPU性能数据采集单元将采集的GPU性能数据上传至基于云平台的服务中心,服务中心负责存储性能数据,并且按照规则计算性能指标,管理人员可以通过移动终端或者PC查看即时的性能指标。当性能指标超过预设的范围,服务中心也会通过智能终端主动通知管理员。本发明能够实时的观察到GPU性能,方便管理人员掌握GPU资源的使用情况,在GPU使用过载的情况下,能够及时收到通知信息,调配资源,做出合理对应,大大降低了整个工作站管理维持成本,提高了管理员维护的工作效率。

Description

基于云计算的GPU性能监控系统
技术领域
本发明涉及一种监控系统,具体涉及一种基于云计算的GPU性能监控系统,属于GPU性能采集监控领域。
背景技术
随着虚拟化技术的发展,越来越多的公司和个人使用虚拟化场景来办公。图形处理技术的发展,使得对GPU性能有更高要求的渲染设计工作也得以利用虚拟化带来的好处。在工业三维设计领域,专用的图形工作站和设计软件都十分昂贵,虚拟化技术可以使多人共享使用GPU的计算能力,使得资源复用,降低设计成本。在这种情况下,GPU的利用率提高的同时,GPU的负载也在加大。所以需要一种监控GPU性能的方法和系统,使得管理员能够及时获取GPU使用情况。
现有的GPU性能采集大多只是GPU厂商提供的单机数据的采集方法,并没有提供统一的存储。在虚拟化的场景中,会根据业务部署多个带GPU的图形工作站节点。这种场景下,管理员去每个节点查阅性能数据会非常繁琐,没有统一方便的工具提供整个系统的性能状况,维护整个系统的成本较高,并且工作效率较低。鉴于现状,迫切的需要一种新的方案解决该技术问题。
发明内容
本发明正是针对现有技术中存在的技术问题,提供一种基于云计算的GPU性能监控系统,整个技术方案结构紧凑、成本较低,节能环保,该技术方案基于云计算平台,检测单元采集到数据后会发到云端统一存储,大大降低了整个工作站管理维持成本,提高了管理员维护的工作效率。
为了实现上述目的,本发明的技术方案如下,一种基于云计算的GPU性能监控系统,其特征在于,所述监控系统包括GPU性能数据采集模块,云平台以及用户终端(Web端和APP移动终端),所述GPU性能数据采集模块采集所在图形工作站的GPU性能数据,上传至云平台,云平台存储性能数据,用户使用终端可以查看云平台中的性能数据。
作为本发明的一种改进,所述云平台包括通信模块,存储模块以及数据分析模块,所述通信模块用于各个子模块之间的通信,包括性能数据上传、用户终端和云平台的通信、分析模块和用户终端的通信;存储模块用于存储GPU性能数据,所有存储数据都是基于时间点的测量值,而且只保留一定时间范围内的数据。过期的数据会清空。数据分析模块用于对上传的数据进行分析。本模块会按照数据来源的图形工作站和时间跨度两个维度进行分组。然后计算GPU性能的各项指标。用户通过终端可以查看这些指标,在某些指标超过预设范围时直接推送通知消息给用户。所述通信模块用于各个子模块之间的通信,包括性能数据上传,用户终端和云平台的通信,分析模块和用户终端的通信。现有的通讯模块中,往往采用编码后二进制协议来传输,具有占用带宽小的特点,但是也增加了复杂性。考虑到基于云计算的GPU性能监控系统的应用场景,本通信模块都采用基于Restful协议的方式,这种无状态的协议增加了消息协议透明性,具备一致的接口,降低了系统复杂性。存储模块用于存储GPU性能数据,不同于现有存储模块,都是基于结构化的数据库存储,即先定义好表结构,再基于表记录的存储方式。在基于云计算的GPU性能监控系统中,所有存储数据使用云端的非结构化存储结构,具备分布式扩容的能力,在GPU性能监控系统中,存储基于时间点的测量值,组成基于时间序列的数据列,而且只保留一定时间范围内的数据。过期的数据会清空。
作为本发明的一种改进,所述GPU性能数据采集模块部署在每一个图形工作站节点上,作为整个系统数据采集端,主要采集图形工作站节点上的GPU性能数据,包括GPU使用率,GPU显存使用率,GPU已使用显存大小。
作为本发明的一种改进,所述数据分析模块用于对上传的数据进行分析,数据分析模块的运行有两种模式,一是用户通过移动端查看一定时间范围内性能指标,会触发数据分析模块进行指标的分析运算;二是定时的触发,进行性能指标计算,以达到监控目的,数据分析模块会按照数据来源的图形工作站和时间跨度两个维度进行分组。
作为本发明的一种改进,所述数据分析模块定时的触发,进行性能指标计算,数据分析模块的计算步骤如下:
c1.设定时间周期为t,t取值为1分钟或者3分钟,对GPU利用率,GPU显存使用率,GPU显存使用数量3个数据进行采样后计算相关移动均值曲线;
i.计算GPU的利用率的移动均值曲线
i1在每个时间周期触发点获取GPU的利用率的数据;
i2假设时间序列为t0,t1,t2…tn,每个时间点间隔为1分钟,对每个时间点,计算此一分钟内采集数据的均值。
i3以当前时间节点为起始,向前20个节点为周期,使用移动平均法对均值曲线平滑化;计算方法如下:
i3.1.假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn=mean(vn,vn-1,
vn-2...vn-19);由此得到序列GUV,每个元素为计算得到的数值;
ii.计算GPU的显存使用率的移动均值曲线,采用下面方式计算平滑化的均值;
ii1在每个时间周期触发点获取GPU的显存使用率的数据;
ii2.假设时间序列为t0,t1,t2…tn,每个时间点间隔为1分钟(前指定条件),对每个时间点,计算此一分钟内采集数据的均值。
ii3.以20个节点为周期,使用移动平均法对均值曲线平滑化。计算方法如下
ii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn=mean(vn,vn-1,vn-2...vn-19)由此得到序列GMUV,每个元素为计算得到的数值。
iii计算GPU的显存已使用数量的移动均值曲线
iii1在每个时间周期触发点获取GPU的显存已使用数量的数据
iii2假设时间序列为t0,t1,t2…tn,每个时间点间隔为1分钟(前指定条件),对每个时间点,计算此一分钟内采集数据的均值。
iii3以20个节点为周期,使用移动平均法对均值曲线平滑化。计算方法如下
iii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn=mean(vn,vn-1,vn-2...vn-19)
由此得到序列GMV,每个元素为计算得到的数值;
对于上述得到的序列GUV,GMUV,GMV分别按照下面公式继续计算:
c2.假设取20个时间节点tn…tn-19对应的值为vn…vn-19,根据标准差公式
Figure BDA0001269294890000031
依次计算Sn,Sn-1...Sn-19;
假设平滑化的均值为Vn,Vn-1....Vn-19,
c3.定义Un=min(M,Vn+2*Sn)M为GPU显存容量,即可使用的最大值。这一步骤即定义Un为平滑化均值加2倍标准差,以及最大显存容量两者之间的较小的那一个,依次以此方法计算Un-1,Un-2,…Un-19;
c4.定义Dn=max(0,Vn-2*Sn)这一步骤定义Dn为平滑化均值减2倍标准差,以及0值之间的较大的那一个,依次以此方法计算Dn-1,Dn-2,…Dn-19;
经上述计算,根据统计原理,求得GPU性能使用数据的标准差和信赖区间,得到一个GPU性能数据的合理波动范围即为[Dn,Un],如果在某个时间节点tn计算的均值大于Un,则说明当前性能已经超过合理波动范围,在这种情况下触发系统推送通知消息的动作。
作为本发明的一种改进,所述用户终端为管理员使用系统的接口,包括智能手机,平板和电脑,用户终端和系统进行通信的方式有两种,一种是主动获取,用户打开网页,选择某个图形工作站节点,查看此GPU性能数据或者查询某个计算指标;或者根据某项指标排序,同时查看不同工作站多个GPU的性能数据,这些数据都是图形化展示。用户也可以通过在智能手机安装APP获取相同的信息。另一种是被动通知,即由上述数据分析模块在经过智能分析计算后,对超范围的情况生成通知消息,由系统主动推送到用户终端,用户使用APP的情况下,会在APP内收到提醒。用户使用电脑,在打开浏览器的情况下也可以收到提醒通知。
作为本发明的一种改进,所述通信模块同样负责云平台和用户终端之间的通信,通信模块使用TCP/IP协议进行通信,对于用户终端发起的数据请求,以Rest接口的形式暴露各个接口供用户终端调用,或者对于推送通知时,通信模块使用WebSocket协议和用户终端进行连通。
作为本发明的一种改进,所述用户移动终端使用3G,4G移动网络或者Wifi方式与云平台中的通信模块进行通信。
相对于现有技术,本发明具有如下优点,1)本发明能够自动采集分散的图形工作站GPU性能数据,集中化存储及分析数据,通过智能的算法,有效监控GPU使用情况;2)本发明提供给管理员统一一致的界面,方便随时查看整个系统内各节点GPU性能状况,而不再需要登录每一个节点分别查看;3)本发明的GPU性能监控系统使用方便,用户可以通过移动终端智能手机使用APP接入,也可以在电脑上通过浏览器接入;4)本发明对于GPU使用过载的情况主动推送信息,使得管理员可以提早知晓,加快了系统管理员的反应速度,可以针对业务情景尽早进行相应处理;5)该技术方案降低了整个系统中图形工作站的管理维护成本,提高管理员维护工作的效率。
附图说明
图1本发明整体框架示意图.
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1,一种基于云计算的GPU性能监控系统,所述监控系统包括GPU性能数据采集模块,云平台以及用户终端(Web端和APP移动终端),所述GPU性能数据采集模块采集所在图形工作站的GPU性能数据,上传至云平台,云平台存储性能数据,用户使用终端可以查看云平台中的性能数据;所述云平台包括通信模块,存储模块以及数据分析模块,所述通信模块用于各个子模块之间的通信,包括性能数据上传、用户终端和云平台的通信、分析模块和用户终端的通信;存储模块用于存储GPU性能数据,所有存储数据都是基于时间点的测量值,而且只保留一定时间范围内的数据。过期的数据会清空。数据分析模块用于对上传的数据进行分析。本模块会按照数据来源的图形工作站和时间跨度两个维度进行分组。然后计算GPU性能的各项指标。用户通过终端可以查看这些指标,在某些指标超过预设范围时直接推送通知消息给用户。
所述GPU性能数据采集模块按照一定的时间周期定时采集,可设定为每5秒,或者每10秒采集一次。采集到数据后,立即上传至云平台中。
云平台是部署在企业内部的私有平台,也是整个系统的控制及处理中心,包括了存储模块,通信模块,数据分析模块三大部分。通信模块负责处理云平台和外部模块之间的互相通信,包括和采集端上传模块的通信,和用户终端之间的通信。上述数据采集模块上传的数据就是由通信模块接收,标记当前的时间戳,然后存储到存储模块中。
存储模块用于存储GPU性能数据,所有存储数据都是基于上述时间点的测量值,存储的数据通过属性标识来源的元数据,存储数据的基本形式如下:{ip=192.168.1.1,gpu_id=1gpu_useage_percent=0.4,gpu_mem_useage_percent=0.4,gpu_mem_used=16}
Ip标识图形工作站的IP,gpu_id标识gpu的id,在确定的图形工作站具有唯一性。存储模块只保留一定时间范围内的数据。过期的数据会清空,以防止占用空间无限增大的情况。
所述GPU性能数据采集模块部署在每一个图形工作站节点上,作为整个系统数据采集端,主要采集图形工作站节点上的GPU性能数据,包括GPU使用率,GPU显存使用率,GPU已使用显存大小。所述数据分析模块用于对上传的数据进行分析,数据分析模块的运行有两种模式,一是用户通过移动端查看一定时间范围内性能指标,会触发数据分析模块进行指标的分析运算;二是定时的触发,进行性能指标计算,以达到监控目的,数据分析模块会按照数据来源的图形工作站和时间跨度两个维度进行分组。所述数据分析模块定时的触发,进行性能指标计算,
数据分析模块的计算步骤如下:
c1.设定时间周期为t,t取值为1分钟或者3分钟,对GPU利用率,GPU显存使用率,GPU显存使用数量3个数据进行采样后计算相关移动均值曲线;
i.计算GPU的利用率的移动均值曲线
i1在每个时间周期触发点获取GPU的利用率的数据;
i2假设时间序列为t0,t1,t2…tn,每个时间点间隔为1分钟,对每个时间点,计算此一分钟内采集数据的均值。
i3以当前时间节点为起始,向前20个节点为周期,使用移动平均法对均值曲线平滑化;计算方法如下:
i3.1.假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn=mean(vn,vn-1,vn-2...vn-19);由此得到序列GUV,每个元素为计算得到的数值;
ii.计算GPU的显存使用率的移动均值曲线,采用下面方式计算平滑化的均值;
ii1在每个时间周期触发点获取GPU的显存使用率的数据;
ii2.假设时间序列为t0,t1,t2…tn,每个时间点间隔为1分钟(前指定条件),对每个时间点,计算此一分钟内采集数据的均值。
ii3.以20个节点为周期,使用移动平均法对均值曲线平滑化。计算方法如下
ii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn=mean(vn,vn-1,vn-2...vn-19)由此得到序列GMUV,每个元素为计算得到的数值。
iii计算GPU的显存已使用数量的移动均值曲线
iii1在每个时间周期触发点获取GPU的显存已使用数量的数据
iii2假设时间序列为t0,t1,t2…tn,每个时间点间隔为1分钟(前指定条件),对每个时间点,计算此一分钟内采集数据的均值。
iii3以20个节点为周期,使用移动平均法对均值曲线平滑化。计算方法如下
iii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn=mean(vn,vn-1,vn-2...vn-19)
由此得到序列GMV,每个元素为计算得到的数值;
对于上述得到的序列GUV,GMUV,GMV分别按照下面公式继续计算:
c2.假设取20个时间节点tn…tn-19对应的值为vn…vn-19,根据标准差公式
Figure BDA0001269294890000071
依次计算Sn,Sn-1......Sn-19;
假设平滑化的均值为Vn,Vn-1......Vn-19,
c3.定义Un=min(M,Vn+2*Sn)M为GPU显存容量,即可使用的最大值。这一步骤即定义Un为平滑化均值加2倍标准差,以及最大显存容量两者之间的较小的那一个,依次以此方法计算Un-1,Un-2,…Un-19;
c4.定义Dn=max(0,Vn-2*Sn)这一步骤定义Dn为平滑化均值减2倍标准差,以及0值之间的较大的那一个,依次以此方法计算Dn-1,Dn-2,…Dn-19;
经上述计算,根据统计原理,求得GPU性能使用数据的标准差和信赖区间,得到一个GPU性能数据的合理波动范围即为[Dn,Un],如果在某个时间节点tn计算的均值大于Un,则说明当前性能已经超过合理波动范围,在这种情况下触发系统推送通知消息的动作。
所述用户终端为管理员使用系统的接口,包括智能手机,平板和电脑,用户终端和系统进行通信的方式有两种,一种是主动获取,用户打开网页,选择某个图形工作站节点,查看此GPU性能数据或者查询某个计算指标;或者根据某项指标排序,同时查看不同工作站多个GPU的性能数据,这些数据都是图形化展示。用户也可以通过在智能手机安装APP获取相同的信息。另一种是被动通知,即由上述数据分析模块在经过智能分析计算后,对超范围的情况生成通知消息,由系统主动推送到用户终端,用户使用APP的情况下,会在APP内收到提醒。用户使用电脑,在打开浏览器的情况下也可以收到提醒通知。
所述通信模块同样负责云平台和用户终端之间的通信,通信模块使用TCP/IP协议进行通信,对于用户终端发起的数据请求,以Rest接口的形式暴露各个接口供用户终端调用,或者对于推送通知时,通信模块使用WebSocket协议和用户终端进行连通。
所述用户移动终端使用3G,4G移动网络或者Wifi方式与云平台中的通信模块进行通信。上述基于云计算的GPU性能监控系统,构建了一个分散采集,集中处理的基于云平台的整套体系。将整个环境中的GPU性能情况统一地展现在管理员的终端设备上,极大方便了管理员的日常监控管理和维护工作。基于统计的智能分析,能够及时预警可能的GPU资源紧张状况,主动推送通知,使得管理员能够及早应对。
本发明是基于云计算平台,在每个带GPU的工作站节点,检测单元采集到数据采集后,会发送到云端统一存储。管理员可以通过终端设备(智能手机和电脑)看到实时的GPU性能数据,包括GPU使用率,GPU显存使用率,已使用GPU显存大小。这些数据可以图形化展示,使得管理员更加直观,准确,系统的掌握整体情况。同时系统中的分析模块也部署在云计算平台中,其能从存储中获取每个节点的性能数据,对这些数据进行智能分析,根据分析的结果主动发送信息给管理人员,提醒管理人员注意或者采取行动。从而降低整个系统中图形工作站的管理维护成本,提高管理员维护工作的效率。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (4)

1.一种基于云计算的GPU性能监控系统,其特征在于,所述监控系统包括GPU性能数据采集模块,云平台以及用户终端,所述GPU性能数据采集模块采集所在图形工作站的GPU性能数据,上传至云平台,云平台存储性能数据,用户使用终端查看云平台中的性能数据;
所述云平台包括通信模块,存储模块以及数据分析模块,所述通信模块用于各个子模块之间的通信,包括性能数据上传、用户终端和云平台的通信、分析模块和用户终端的通信;存储模块用于存储GPU性能数据,数据分析模块用于对上传的数据进行分析;
所述GPU性能数据采集模块部署在每一个图形工作站节点上,采集所在图形工作站的GPU性能数据,GPU性能数据采集模块采取侵入式的探针方式,针对GPU性能数据进行采集,包括GPU利用率、GPU显存利用率、GPU显存使用量;GPU性能数据采集模块将采集到的GPU性能数据上传至云平台;
所述数据分析模块用于对上传的数据进行分析,数据分析模块通过可配置方式即CRON表达式指定在触发时机进行性能指标计算,以达到监控目的,数据分析模块会按照数据来源的图形工作站和时间跨度两个维度进行分组;
所述数据分析模块定时触发,进行性能指标计算,数据分析模块的计算步骤如下:
c1.设定时间周期为t,t取值为1分钟或者3分钟,对GPU利用率,GPU显存使用率,GPU显存使用数量3个数据进行采样后计算相关移动均值曲线;
i.计算GPU的利用率的移动均值曲线
i1在每个时间周期触发点获取GPU的利用率的数据;
i2假设时间序列为t0,t1,t2…tn,每个时间点间隔为1分钟,对每个时间点,计算此1分钟 内采集数据的均值;
i3以当前时间节点为起始,向前20个节点为周期,使用移动平均法对均值曲线平滑化;计算方法如下:
i3.1.假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn=mean(vn,vn-1,vn-2…vn-19);由此得到序列GUV,每个元素为计算得到的数值;
ii.计算GPU的显存使用率的移动均值曲线,采用下面方式计算平滑化的均值;
ii1在每个时间周期触发点获取GPU的显存使用率的数据;
ii2.假设时间序列为t0,t1,t2…tn,每个时间点间隔为1分钟,对每个时间点,计算此1分钟内采集数据的均值;
ii3.以20个节点为周期,使用移动平均法对均值曲线平滑化;计算方法如下
ii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn=mean(vn,vn-1,vn-2…vn-19)由此得到序列GMUV,每个元素为计算得到的数值;
iii计算GPU的显存已使用数量的移动均值曲线;
iii1在每个时间周期触发点获取GPU的显存已使用数量的数据
iii2假设时间序列为t0,t1,t2…tn,每个时间点间隔为1分钟,对每个时间点,计算此1分钟 内采集数据的均值;
iii3以20个节点为周期,使用移动平均法对均值曲线平滑化;计算方法如下
iii3.1假设上一步骤计算的t0…tn对应的值为v1…vn,则Vn=mean(vn,vn-1,vn-2…vn-19)
由此得到序列GMV,每个元素为计算得到的数值;
对于上述得到的序列GUV,GMUV,GMV分别按照下面公式继续计算:
c2.假设取20个时间节点tn…tn-19对应的值为vn…vn-19,根据标准差公式
Figure FDA0003130260900000031
依次计算Sn,Sn-1…Sn-19;
假设平滑化的均值为Vn,Vn-1…Vn-19,
c3.定义Un=min(M,Vn+2*Sn)M为GPU显存容量,即可使用的最大值;这一步骤即定义Un为平滑化均值加2倍标准差,以及最大显存容量两者之间的较小的那一个,依次以此方法计算Un-1,Un-2,…Un-19;
c4.定义Dn=max(0,Vn-2*Sn)这一步骤定义Dn为平滑化均值减2倍标准差,以及0值之间的较大的那一个,依次以此方法计算Dn-1,Dn-2,…Dn-19;
经上述计算,根据统计原理,求得GPU性能使用数据的标准差和信赖区间,得到一个GPU性能数据的合理波动范围即为[Dn,Un],如果在某个时间节点tn计算的均值大于Un,则说明当前性能已经超过合理波动范围,在这种情况下触发系统推送通知消息的动作。
2.根据权利要求1所述的基于云计算的GPU性能监控系统,其特征在于,所述用户终端为管理员使用系统的接口,包括智能手机,平板和电脑,用户终端和系统进行通信的方式有两种,一种是主动获取,用户打开网页,选择某个图形工作站节点,查看此GPU性能数据或者查询某个计算指标;或者根据某项指标排序,同时查看不同工作站多个GPU的性能数据,另一种是被动通知,即由上述数据分析模块在经过智能分析计算后,对超范围的情况生成通知消息,由系统主动推送到用户终端,用户使用APP的情况下,会在APP内收到提醒。
3.根据权利要求1或2任意一项所述的基于云计算的GPU性能监控系统,其特征在于,所述通信模块负责云平台和用户终端之间的通信,通信模块使用TCP/IP协议进行通信,对于用户终端发起的数据请求,以Rest接口的形式暴露各个接口供用户终端调用,或者对于推送通知时,通信模块使用WebSocket协议和用户终端进行连通。
4.根据权利要求3所述的基于云计算的GPU性能监控系统,其特征在于,所述用户终端使用3G,4G移动网络或者Wifi方式与云平台中的通信模块进行通信。
CN201710240638.6A 2017-04-13 2017-04-13 基于云计算的gpu性能监控系统 Active CN108733531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710240638.6A CN108733531B (zh) 2017-04-13 2017-04-13 基于云计算的gpu性能监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710240638.6A CN108733531B (zh) 2017-04-13 2017-04-13 基于云计算的gpu性能监控系统

Publications (2)

Publication Number Publication Date
CN108733531A CN108733531A (zh) 2018-11-02
CN108733531B true CN108733531B (zh) 2021-08-24

Family

ID=63923770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710240638.6A Active CN108733531B (zh) 2017-04-13 2017-04-13 基于云计算的gpu性能监控系统

Country Status (1)

Country Link
CN (1) CN108733531B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471733A (zh) * 2018-11-22 2019-03-15 郑州云海信息技术有限公司 一种资源控制方法和装置
CN109871237B (zh) * 2018-12-07 2021-04-09 中国科学院深圳先进技术研究院 一种基于机器学习的CPU与GPU异构SoC性能刻画方法
CN110058982A (zh) * 2019-04-25 2019-07-26 北京网聘咨询有限公司 基于网络招聘的系统性能监控报警方法
CN110109813B (zh) * 2019-05-13 2023-02-17 北京达佳互联信息技术有限公司 用于gpu性能的信息确定方法、装置、终端及存储介质
CN110674013A (zh) * 2019-10-08 2020-01-10 浪潮云信息技术有限公司 一种云平台可自定义监控的gpu监控告警系统
CN110930291B (zh) * 2019-11-15 2022-06-17 山东英信计算机技术有限公司 一种gpu显存管理控制方法及相关装置
CN115269341B (zh) * 2022-09-26 2023-01-03 浩鲸云计算科技股份有限公司 一种gpu虚拟化资源使用率的多维度监控方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103283208A (zh) * 2011-11-23 2013-09-04 湖南深拓智能设备股份有限公司 基于云计算的远程实时监控系统
CN103780660A (zh) * 2012-10-25 2014-05-07 中国石油化工股份有限公司 一种gpu集群监控系统及监控报警发布方法
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断系统
CN104881352A (zh) * 2015-06-03 2015-09-02 上海新炬网络信息技术有限公司 基于移动端的系统资源监控装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9338064B2 (en) * 2010-06-23 2016-05-10 Twilio, Inc. System and method for managing a computing cluster
US9285858B2 (en) * 2013-01-29 2016-03-15 Blackberry Limited Methods for monitoring and adjusting performance of a mobile computing device
CN106250306B (zh) * 2016-08-18 2019-05-17 电子科技大学 一种适用于企业级运维自动化平台的性能预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103283208A (zh) * 2011-11-23 2013-09-04 湖南深拓智能设备股份有限公司 基于云计算的远程实时监控系统
CN103780660A (zh) * 2012-10-25 2014-05-07 中国石油化工股份有限公司 一种gpu集群监控系统及监控报警发布方法
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断系统
CN104881352A (zh) * 2015-06-03 2015-09-02 上海新炬网络信息技术有限公司 基于移动端的系统资源监控装置

Also Published As

Publication number Publication date
CN108733531A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108733531B (zh) 基于云计算的gpu性能监控系统
WO2021169268A1 (zh) 数据处理方法、装置、设备和存储介质
CN107566498A (zh) 一种基于物联网的数控机床监控方法及系统
CN103337012B (zh) 面向电网设备监控的多主题智能综合告警分析方法
CN107528870B (zh) 一种数据采集方法及其设备
CN104022902A (zh) 一种监控服务器集群的方法和系统
CN204376538U (zh) 一种智能配变运行实时监控系统
CN105357061A (zh) 一种基于大数据流处理技术的运维监控分析系统
CN112615742A (zh) 用于预警的方法、装置、设备以及存储介质
CN110659180A (zh) 基于集群技术的数据中心基础设施管理系统
CN115862177A (zh) 设备巡检方法及装置
CN112817751A (zh) 算力资源的管理方法及装置、存储介质、电子装置
CN112152874A (zh) 分布式系统中应用监控数据的采集与分析系统及方法
CN111586188A (zh) 电能监控系统与方法
CN108710347A (zh) 一种监控云平台
CN113570476A (zh) 基于自定义告警规则的电网监控系统容器服务监控方法
CN103778501A (zh) 电力调度自动化系统事故反演系统及事故反演方法
CN115686450A (zh) 一种服务大厅系统监控预警的方法及监控预警系统
CN115719147A (zh) 输电线路巡检数据处理方法、装置、平台
CN105184688A (zh) 一种远程电网实时费控管理系统
CN113886179A (zh) 服务器运行状态监控方法、装置、设备及可读存储介质
CN109120439B (zh) 分布式集群告警输出方法、装置、设备及可读存储介质
CN113271351A (zh) 一种云计算资源调度方法、装置、设备及可读存储介质
CN106569071B (zh) 一种soa架构下基于云计算的电能质量监测系统及实现方法
CN112003900A (zh) 实现分布式系统中高负载场景下服务高可用的方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210012 Room 302, 3 / F, Huashen Avenue, No. 11, software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant after: NANJING WITSOFT TECHNOLOGY Co.,Ltd.

Address before: 210012 Room 302, 3 / F, Huashen building, No.11 software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant before: NANJING WITSOFT TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant