CN110674013A - 一种云平台可自定义监控的gpu监控告警系统 - Google Patents

一种云平台可自定义监控的gpu监控告警系统 Download PDF

Info

Publication number
CN110674013A
CN110674013A CN201910947849.2A CN201910947849A CN110674013A CN 110674013 A CN110674013 A CN 110674013A CN 201910947849 A CN201910947849 A CN 201910947849A CN 110674013 A CN110674013 A CN 110674013A
Authority
CN
China
Prior art keywords
gpu
alarm
monitoring
data
processing module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910947849.2A
Other languages
English (en)
Inventor
屈傲
高传集
于昊
张晓玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN201910947849.2A priority Critical patent/CN110674013A/zh
Publication of CN110674013A publication Critical patent/CN110674013A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种云平台可自定义监控的GPU监控告警系统,属于云平台的监控告警技术领域,本发明要解决的技术问题为如何能够实现用户根据需求自定义监控配置,灵活的生成满足用户需求的监控数据,采用的技术方案为:该系统包括数据采集模块、监控配置管理模块、告警规则管理模块和数据处理模块,数据采集模块用于周期性采集GPU的性能指标;监控配置管理模块用于配置GPU监控维度、GPU监控指标、GPU监控周期和GPU监控统计方法;告警规则管理模块,用于配置告警规则;数据处理模块用于保存采集的数据,根据监控配置和采集的数据生产监控数据;同时用于定时遍历告警规则,根据采集的数据生成告警数据或者清除告警数据,并按照配置的通知方式转发。

Description

一种云平台可自定义监控的GPU监控告警系统
技术领域
本发明涉及云平台的监控告警技术领域,具体地说是一种云平台可自定义监控的GPU监控告警系统。
背景技术
三十年来,CPU性能的变化从未脱离摩尔定律。但是CPU性能的提升已经放缓。GPU计算定义了一种全新的超负荷定律。它始于高度专业化的并行处理器,通过系统设计、系统软件、算法以及优化应用程序的方式持续发展。尤其适用于日益增长的人工智能、HPC以及图形图像处理等应用场景的算力需求。
裸金属形式的GPU云物理主机能提供“一机多卡”或“多机多卡”的算力。但是部分用户,多张GPU卡超出了用户的算力需求,用户需要更细颗粒度的GPU算力,例如1张GPU卡。所以,需要将宿主机中的GPU卡虚拟化后分配给用户。GPU云服务器的供应商,为了保证服务质量,需要掌握所有服务中的GPU的运行状态;在这种场景下,需要一个工具能够监控所有GPU的性能数据。故如何能够实现用户根据需求自定义监控配置,灵活的生成满足用户需求的监控数据是目前现有技术存在的问题。
专利号为CN108733531A的专利文献公开了一种基于云计算的GPU性能监控系统,GPU性能数据采集单元将采集的GPU性能数据上传至基于云平台的服务中心,服务中心负责存储性能数据,并且按照规则计算性能指标,管理人员可以通过移动终端或者PC查看即时的性能指标。当性能指标超过预设的范围,服务中心也会通过智能终端主动通知管理员。该技术方案能够实时的观察到GPU性能,方便管理人员掌握GPU资源的使用情况,在GPU使用过载的情况下,能够及时收到通知信息,调配资源,做出合理对应,大大降低了整个工作站管理维持成本,提高了管理员维护的工作效率,但是不能够实现用户根据需求自定义监控配置,灵活的生成满足用户需求的监控数据。
发明内容
本发明的技术任务是提供一种云平台可自定义监控的GPU监控告警系统,来解决如何能够实现用户根据需求自定义监控配置,灵活的生成满足用户需求的监控数据的问题。
本发明的技术任务是按以下方式实现的,一种云平台可自定义监控的GPU监控告警系统,该系统包括,
数据采集模块,用于周期性采集GPU的性能指标;
监控配置管理模块,用于配置GPU监控维度、GPU监控指标、GPU监控周期和GPU监控统计方法;
告警规则管理模块,用于配置告警规则;告警规则包括告警维度、告警指标、告警周期、频次、告警统计方法、条件、阈值、时间范围以及告警生成和告警清除通知的方式;
数据处理模块,用于保存采集的数据,根据监控配置和采集的数据生产监控数据;同时用于定时遍历告警规则,根据采集的数据生成告警数据或者清除告警数据,并按照配置的通知方式转发。
作为优选,所述GPU的性能指标包括但不限于GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率和GPU温度。
更优地,所述GPU监控维度包括GPU挂载云服务器的ID、GPU的ID以及用户名称或用户ID;
GPU监控指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率以及GPU温度;
GPU监控周期的最小粒度为1分钟;
GPU监控统计方法包括最小值、最大值和平均值。
更优地,所述告警维度包括GPU挂载云服务器的ID、GPU的ID以及用户名称或用户ID;
告警指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率以及GPU温度;
告警周期的最小粒度为1分钟;
告警统计方法包括最小值、最大值和平均值。
更优地,所述告警生成和告警清除通知的方式包括短信通知、邮件通知以及webhook(Webhook是一个API概念,并且变得越来越流行;我们能用事件描述的事物越多,webhook的作用范围也就越大;Webhook作为一个轻量的事件处理应用,正变得越来越有用;准确的说webhoo是一种web回调或者http的push API,是向APP或者其他应用提供实时信息的一种方式。Webhook在数据产生时立即发送数据,也就是你能实时收到数据;这一种不同于典型的API,需要用了实时性需要足够快的轮询;这无论是对生产还是对消费者都是高效的,唯一的缺点是初始建立困难;Webhook有时也被称为反向API,因为他提供了API规则,你需要设计要使用的API;Webhook将向你的应用发起http请求,典型的是post请求,应用程序由请求驱动);
频次为连续n个周期指标值到阈值触发告警;
条件包括大于等于(≥)、大于(>)、小于等于(≤)、小于(<)、等于(=)、不等于(≠)以及介于两者之间(between)。
作为优选,所述监控数据生成步骤如下:
(1)、数据采集模块定时获取GPU的性能数据并发送到数据处理模块,数据处理模块将数据保存;
(2)、用户向数据处理模块请求监控数据,数据处理模块根据监控配置和GPU的性能数据生成监控数据返回给用户。
作为优选,所述告警数据生成具体步骤如下:
(1)、数据采集模块定时获取GPU的性能数据并发送到数据处理模块,数据处理模块将数据保存;
(2)、数据处理模块定时加载告警规则,并判断GPU的性能数据是否符合告警规则:
若GPU的性能数据符合告警规则,则保存告警数据并且根据配置的通知方式进行告警数据的转发。
作为优选,所述告警数据消除的具体步骤如下:
(1)、数据采集模块定时获取GPU的性能数据并发送到数据处理模块,数据处理模块将数据保存;
(2)、对正在使用的告警数据判断是否满足告警规则:
若不再满足告警规则,则将该告警数据保存到历史告警数据表并按照配置的通知方式进行告警清除转发。
本发明的云平台可自定义监控的GPU监控告警系统具有以下优点:
(一)、本发明根据自定义监控配置生成监控数据,根据自定义告警规则配置生成告警并根据配置转发,便于GPU云服务器的供应商,掌握所有服务中的GPU的运行状态,以便提供更加稳定,有保障的服务;
(二)、本发明的目的在于能够满足GPU型服务器使用用户和GPU型服务器供应商管理员用户应用需求,实现自定义维度、监控指标,周期,统计方法等,监控GPU的性能数据;
(三)、本发明针对GPU的性能数据进行监控,帮助用户(GPU型云服务器供应商)掌握GPU的运行情况,一边对各种事件能够及时响应,提供更加稳定,有保障的服务;
(四)、本发明可自定义的监控功能使用户查看所关心的范围内某项指标的数据,即提供用户自定义的监控数据;
(五)、本发明可自定义的告警功能使用户可以第一时间获得某个或某些GPU的运行状况是否超出用户的预期情况,且可根据需求选择通知的方式;
(六)、本发明能够实现用户根据需求自定义监控配置,灵活的生成满足用户需求的监控数据;用户可以按照自身的实际情况配置告警生成和清除的通知,收到告警的相关信息。
附图说明
下面结合附图对本发明进一步说明。
附图1为云平台可自定义监控的GPU监控告警系统的结构框图;
附图2为监控数据生成时序图;
附图3为告警数据生产的流程框图;
附图4为告警数据消除的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种云平台可自定义监控的GPU监控告警系统作以下详细地说明。
实施例:
如附图1所示,本发明的云平台可自定义监控的GPU监控告警系统,其结构包括,
数据采集模块,用于以1分钟为周期采集GPU的性能指标;GPU的性能指标包括但不限于GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率和GPU温度。
监控配置管理模块,用于配置GPU监控维度、GPU监控指标、GPU监控周期和GPU监控统计方法;其中,GPU监控维度包括GPU挂载云服务器的ID、GPU的ID以及用户名称或用户ID;
GPU监控指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率以及GPU温度;
GPU监控周期的最小粒度为1分钟;
GPU监控统计方法包括最小值、最大值和平均值。
告警规则管理模块,用于配置告警规则;告警规则包括告警维度、告警指标、告警周期、频次、告警统计方法、条件、阈值、时间范围以及告警生成和告警清除通知的方式;其中,告警维度包括GPU挂载云服务器的ID、GPU的ID以及用户名称或用户ID;
告警指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率以及GPU温度;
告警周期的最小粒度为1分钟;
告警统计方法包括最小值、最大值和平均值。
告警生成和告警清除通知的方式包括短信通知、邮件通知以及webhook;
频次为连续n个周期指标值到阈值触发告警;
条件包括大于等于(≥)、大于(>)、小于等于(≤)、小于(<)、等于(=)、不等于(≠)以及介于两者之间(between)。
数据处理模块,用于保存采集的数据,根据监控配置和采集的数据生产监控数据;同时用于定时遍历告警规则,根据采集的数据生成告警数据或者清除告警数据,并按照配置的通知方式转发。
如附图2所示,监控数据生成步骤如下:
(1)、用于铜鼓登录模块输入用户名和密码;
(2)、登录模块校验登录信息,并根据登录信息提示用户登录成功;
(3)、数据采集模块定时获取GPU的性能数据并发送到数据处理模块,数据处理模块将数据保存到GPU性能数据库;
(4)、用户向数据处理模块请求监控数据,数据处理模块根据监控配置和GPU的性能数据生成监控数据返回给用户。
如附图3所示,告警数据生成具体步骤如下:
(1)、数据采集模块定时获取GPU的性能数据并发送到数据处理模块,数据处理模块将数据保存;
(2)、数据处理模块定时加载告警规则,并判断GPU的性能数据是否符合告警规则:
若GPU的性能数据符合告警规则,则保存告警数据并且根据配置的通知方式进行告警数据的转发。
如附图4所示,告警数据消除的具体步骤如下:
(1)、数据采集模块定时获取GPU的性能数据并发送到数据处理模块,数据处理模块将数据保存;
(2)、对正在使用的告警数据判断是否满足告警规则:
若不再满足告警规则,则将该告警数据保存到历史告警数据表并按照配置的通知方式进行告警清除转发。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种云平台可自定义监控的GPU监控告警系统,其特征在于,该系统包括,
数据采集模块,用于周期性采集GPU的性能指标;
监控配置管理模块,用于配置GPU监控维度、GPU监控指标、GPU监控周期和GPU监控统计方法;
告警规则管理模块,用于配置告警规则;告警规则包括告警维度、告警指标、告警周期、频次、告警统计方法、条件、阈值、时间范围以及告警生成和告警清除通知的方式;
数据处理模块,用于保存采集的数据,根据监控配置和采集的数据生产监控数据;同时用于定时遍历告警规则,根据采集的数据生成告警数据或者清除告警数据,并按照配置的通知方式转发。
2.根据权利要求1所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述GPU的性能指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率和GPU温度。
3.根据权利要求1或2所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述GPU监控维度包括GPU挂载云服务器的ID、GPU的ID以及用户名称或用户ID;
GPU监控指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率以及GPU温度;
GPU监控周期的最小粒度为1分钟;
GPU监控统计方法包括最小值、最大值和平均值。
4.根据权利要求1或2所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述告警维度包括GPU挂载云服务器的ID、GPU的ID以及用户名称或用户ID;
告警指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率以及GPU温度;
告警周期的最小粒度为1分钟;
告警统计方法包括最小值、最大值和平均值。
5.根据权利要求4所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述告警生成和告警清除通知的方式包括短信通知、邮件通知以及webhook;
频次为连续n个周期指标值到阈值触发告警;
条件包括大于等于、大于、小于等于、小于、等于、不等于以及介于两者之间。
6.根据权利要求1所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述监控数据生成步骤如下:
(1)、数据采集模块定时获取GPU的性能数据并发送到数据处理模块,数据处理模块将数据保存;
(2)、用户向数据处理模块请求监控数据,数据处理模块根据监控配置和GPU的性能数据生成监控数据返回给用户。
7.根据权利要求1所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述告警数据生成具体步骤如下:
(1)、数据采集模块定时获取GPU的性能数据并发送到数据处理模块,数据处理模块将数据保存;
(2)、数据处理模块定时加载告警规则,并判断GPU的性能数据是否符合告警规则:
若GPU的性能数据符合告警规则,则保存告警数据并且根据配置的通知方式进行告警数据的转发。
8.根据权利要求1所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述告警数据消除的具体步骤如下:
(1)、数据采集模块定时获取GPU的性能数据并发送到数据处理模块,数据处理模块将数据保存;
(2)、对正在使用的告警数据判断是否满足告警规则:
若不再满足告警规则,则将该告警数据保存到历史告警数据表并按照配置的通知方式进行告警清除转发。
CN201910947849.2A 2019-10-08 2019-10-08 一种云平台可自定义监控的gpu监控告警系统 Pending CN110674013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910947849.2A CN110674013A (zh) 2019-10-08 2019-10-08 一种云平台可自定义监控的gpu监控告警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910947849.2A CN110674013A (zh) 2019-10-08 2019-10-08 一种云平台可自定义监控的gpu监控告警系统

Publications (1)

Publication Number Publication Date
CN110674013A true CN110674013A (zh) 2020-01-10

Family

ID=69080827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910947849.2A Pending CN110674013A (zh) 2019-10-08 2019-10-08 一种云平台可自定义监控的gpu监控告警系统

Country Status (1)

Country Link
CN (1) CN110674013A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752805A (zh) * 2020-07-01 2020-10-09 浪潮云信息技术股份公司 一种云服务器资源监控及告警系统
CN112565009A (zh) * 2020-11-27 2021-03-26 中盈优创资讯科技有限公司 一种基于自定义性能阈值告警规则的处理方法及装置
CN113242148A (zh) * 2021-05-17 2021-08-10 深圳市腾讯网域计算机网络有限公司 监控告警相关信息的生成方法、装置、介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105471671A (zh) * 2015-11-10 2016-04-06 国云科技股份有限公司 一种云平台资源自定义监控规则的方法
CN106100902A (zh) * 2016-08-04 2016-11-09 腾讯科技(深圳)有限公司 云端指标监控方法和装置
CN108733531A (zh) * 2017-04-13 2018-11-02 南京维拓科技有限公司 基于云计算的gpu性能监控系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105471671A (zh) * 2015-11-10 2016-04-06 国云科技股份有限公司 一种云平台资源自定义监控规则的方法
CN106100902A (zh) * 2016-08-04 2016-11-09 腾讯科技(深圳)有限公司 云端指标监控方法和装置
CN108733531A (zh) * 2017-04-13 2018-11-02 南京维拓科技有限公司 基于云计算的gpu性能监控系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752805A (zh) * 2020-07-01 2020-10-09 浪潮云信息技术股份公司 一种云服务器资源监控及告警系统
CN112565009A (zh) * 2020-11-27 2021-03-26 中盈优创资讯科技有限公司 一种基于自定义性能阈值告警规则的处理方法及装置
CN113242148A (zh) * 2021-05-17 2021-08-10 深圳市腾讯网域计算机网络有限公司 监控告警相关信息的生成方法、装置、介质及电子设备
CN113242148B (zh) * 2021-05-17 2022-08-23 深圳市腾讯网域计算机网络有限公司 监控告警相关信息的生成方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
CN110674013A (zh) 一种云平台可自定义监控的gpu监控告警系统
EP2301197B1 (en) Message management and suppression in a monitoring system
CN102346725B (zh) 更改设备配置文件的消息通知装置及方法
CN109257200B (zh) 大数据平台监控的方法和装置
CN104967537A (zh) 一种报警信息推送方法及装置
CN105471671A (zh) 一种云平台资源自定义监控规则的方法
CN111934920B (zh) 监控告警方法、装置、设备和存储介质
CN111367688B (zh) 一种业务数据的处理方法和装置
US9110745B2 (en) System and method for flow control in a messaging subsystem based on message-in/out rates
CN112511456A (zh) 流量控制方法、装置、设备、存储介质和计算机程序产品
CN105049270A (zh) 信息处理方法、装置及系统
CN113742066A (zh) 一种用于服务器集群的负载均衡系统和方法
CN110430068A (zh) 一种特征工程编排方法及装置
CN106211227A (zh) 流量预警方法和网络设备
CN114978860A (zh) 故障监控方法、装置、电子设备及存储介质
CN115811537A (zh) 资源调整方法、装置、计算机设备和存储介质
CN113407363A (zh) 一种基于远程字典服务的滑窗计数方法及装置
CN110865921A (zh) 数据监控方法、装置、可读存储介质和电子设备
CN108289041B (zh) 一种服务器信息的处理方法以及相关装置
CN114091704A (zh) 一种告警压制方法和装置
CN116846757A (zh) 集群资源的分配方法及装置、电子设备及存储介质
CN112968788A (zh) 网络切片容量设置方法、控制方法、装置、设备及介质
CN116112342A (zh) 告警信息处理方法、装置、电子设备以及存储介质
CN114879832A (zh) 用于运算装置的功耗控制方法、装置、芯片、设备及介质
CN112929191B (zh) 服务监控方法、系统以及相关设备、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110