CN103780660A - 一种gpu集群监控系统及监控报警发布方法 - Google Patents

一种gpu集群监控系统及监控报警发布方法 Download PDF

Info

Publication number
CN103780660A
CN103780660A CN201210414718.6A CN201210414718A CN103780660A CN 103780660 A CN103780660 A CN 103780660A CN 201210414718 A CN201210414718 A CN 201210414718A CN 103780660 A CN103780660 A CN 103780660A
Authority
CN
China
Prior art keywords
data
module
gpu
gpu cluster
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210414718.6A
Other languages
English (en)
Inventor
葛鑫
王胜春
李进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Petroleum and Chemical Corp
Sinopec Geophysical Research Institute
Original Assignee
China Petroleum and Chemical Corp
Sinopec Geophysical Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Petroleum and Chemical Corp, Sinopec Geophysical Research Institute filed Critical China Petroleum and Chemical Corp
Priority to CN201210414718.6A priority Critical patent/CN103780660A/zh
Publication of CN103780660A publication Critical patent/CN103780660A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种GPU集群监控系统及监控报警发布方法,属于信息技术领域。所述GPU集群监控系统包括数据采集模块、分析模块和展现模块;在GPU集群中的每一个计算节点上均安装有所述数据采集模块,所述数据采集模块采集该计算节点的数据信息,所述数据信息为GPU卡的利用率;所述分析模块设置在所述代理节点上,所述分析模块将所述采集模块采集到的数据信息收集到代理节点当中,并对数据信息进行统计分析,生成精简数据表;所述展现模块设置在所述信息发布服务器上,所述展现模块接收分析模块生成的精简数据表,并建立web平台,将精简数据表以图形的形势直观表现出来,让运维人员实时监控。

Description

一种GPU集群监控系统及监控报警发布方法
技术领域
本发明属于信息技术领域,具体涉及一种GPU集群监控系统及监控报警发布方法。
背景技术
GPU如今在地球物理领域应用越来越广泛,大规模的GPU集群也随之而产生,但现如今还未针对大规模GPU集群设备开发相应的实时监控系统,只能监控cpu、内存、存储等传统的计算机硬件状态。而且,目前的实时监控界面单一,只能反应节点健康状态,以及CPU和GPU的利用率。
发明内容
本发明的目的在于解决上述现有技术中存在的难题,提供一种GPU集群监控系统及监控报警发布方法,针对地球物理研究中对GPU设备的特殊要求,提供一种实时监控系统,实现监控GPU设备运行状态的功能,将采集的数据转化为可视化界面,实时的反应设备运行的情况,以保障设备的正常运行。
本发明是通过以下技术方案实现的:
一种GPU集群监控系统,包括代理节点、生产网交换机和信息发布服务器;被监控的GPU集群与代理节点连接,代理节点与生产网交换机连接,生产网交换机与信息发布服务器连接;所述GPU集群是由至少一个计算节点组成的且做并行计算的系统,一个计算节点是一个含有GPU卡的节点;
所述GPU集群监控系统包括数据采集模块、分析模块和展现模块;
在GPU集群中的每一个计算节点上均安装有所述数据采集模块,所述数据采集模块采集该计算节点的数据信息,所述数据信息为GPU卡的利用率;
所述分析模块设置在所述代理节点上,所述分析模块将所述采集模块采集到的数据信息收集到代理节点当中,并对数据信息进行统计分析,生成精简数据表;
所述展现模块设置在所述信息发布服务器上,所述展现模块接收分析模块生成的精简数据表,并建立web平台,将精简数据表以图形的形势直观表现出来,让运维人员实时监控。
所述数据采集模块是通过gmond守护进程来采集计算节点的数据信息
一种监控报警发布方法:所述分析模块将收集来的精简数据表中的数据与设定的界限值进行比较,如果精简数据表中的数据超过界限值,分析模块会向展示模块发送消息,展示模块将对应该数据的设备的标识(比如logo)标注上与其它设备的标识不同的颜色(例如红色),以引起运维人员的关注。所述界限值是根据本单位设备的实际情况所设定的,数据超过界限值被认为危险。
另外,所述展示模块向运维人员发送电子邮件和或短信,向运维人员告警。例如,如果节点网络中断,GPU集群监控系统即认为该节点死机,然后将该节点死机的信息通过电子邮件和或短信告知运维人员。
与现有技术相比,本发明的有益效果是:
本发明实现了GPU设备的实时监控,同时通过WEB界面发布实时监控信息,本发明在Ganglia监控系统的基础上扩展了GPU监控,并通过WEB页面进行展示。
附图说明
图1是本发明基于高性能计算的GPU集群监控系统的硬件结构图。
图2是本发明基于高性能计算的GPU集群监控系统的工作原理图。
图3是本发明本发明基于高性能计算的GPU集群监控系统的模块结构图。
具体实施方式
下面结合附图对本发明作进一步详细描述:
作为高性能计算的GPU集群,对GPU的实时监控一直是运维人员最为关心的。本发明在Ganglia的原有架构基础上,编写了一套适用于GPU监控的系统,并且设计了监控信息,实现了对于GPU的实时监控。一般所谓的GPU是包含GPU卡的计算节点,在普通的监控系统中只能对cpu、内存等常规信息进行实时监控,但是无法对GPU卡进行实时监控,本发明就是针对这个研发出一套系统来专门针对GPU卡的利用率进行实时监控。
如图1所示,本发明的GPU集群监控系统是应用在GPU集群中的,通过部署Ganglia系统中的gmond守护进程来采集并传递数据。本发明的监控系统包括代理节点、生产网交换机和信息发布服务器;被监控的GPU集群与代理节点连接,代理节点与生产网交换机连接,生产网交换机与信息发布服务器连接。
如图2所示,本发明的监控系统是在Ganglia的基础上进行扩展,实现对GPU集群的监控功能,Ganglia是一个集群监控系统,每个节点都运行一个收集和发送度量数据的名为gmond的守护进程,接收所有度量数据的主机叫代理节点,代理节点显示这些数据并且将这些数据的精简表单通过交换机传递到信息发布服务器上,这些数据在信息发布服务器会对这些数据进行处理,然后通过搭建web平台将运行状态呈现出来。
具体来说,如图3所示,本发明的监控系统包括数据采集模块、分析模块和展现模块;
在GPU集群中的每一个计算节点上均安装有所述数据采集模块,所述数据采集模块采集该计算节点的数据信息;所述GPU集群监控系统通过gmond守护进程采集各个计算节点的数据信息,所述数据信息为GPU卡的利用率;
所述分析模块设置在所述代理节点上,所述分析模块将所述采集模块采集到的数据信息收集到代理节点当中,并对数据信息进行统计分析,生成精简数据表;
所述展现模块设置在所述信息发布服务器上,所述展现模块接收分析模块生成的精简数据表,并建立web平台,将精简数据表以图形的形势直观表现出来,让运维人员实时监控。
除了传统的系统性能指标,如:cpu、mem、硬盘利用率,I/O负载、网络流量情况等,本发明主要扩展了GPU卡相关的各项信息。
本系统通过自主研发采集了每个节点的GPU相关指标,利用gmond守护进程将数据推送到代理节点,由代理节点统计分析,将精简的数据表送到信息发布服务器上进行WEB展示。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。

Claims (4)

1.一种GPU集群监控系统,包括代理节点、生产网交换机和信息发布服务器;被监控的GPU集群与代理节点连接,代理节点与生产网交换机连接,生产网交换机与信息发布服务器连接;所述GPU集群是由至少一个计算节点组成的且做并行计算的系统,一个计算节点是一个含有GPU卡的节点,其特征在于:
所述GPU集群监控系统包括数据采集模块、分析模块和展现模块;
在GPU集群中的每一个计算节点上均安装有所述数据采集模块,所述数据采集模块采集该计算节点的数据信息,所述数据信息为GPU卡的利用率;
所述分析模块设置在所述代理节点上,所述分析模块将所述采集模块采集到的数据信息收集到代理节点当中,并对数据信息进行统计分析,生成精简数据表;
所述展现模块设置在所述信息发布服务器上,所述展现模块接收分析模块生成的精简数据表,并建立web平台,将精简数据表以图形的形势直观表现出来。
2.根据权利要求1所述的GPU集群监控系统,其特征在于:所述数据采集模块是通过gmond守护进程来采集计算节点的数据信息。
3.一种利用权利要求2所述GPU集群监控系统进行监控报警发布方法,其特征在于:所述分析模块将收集来的精简数据表中的数据与设定的界限值进行比较,如果精简数据表中的数据超过界限值,分析模块会向展示模块发送消息,展示模块将对应该数据的设备的标识标注上与其它设备的标识不同的颜色。
4.根据权利要求3所述的监控报警发布方法,其特征在于:所述展示模块向运维人员发送电子邮件和或短信。
CN201210414718.6A 2012-10-25 2012-10-25 一种gpu集群监控系统及监控报警发布方法 Pending CN103780660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210414718.6A CN103780660A (zh) 2012-10-25 2012-10-25 一种gpu集群监控系统及监控报警发布方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210414718.6A CN103780660A (zh) 2012-10-25 2012-10-25 一种gpu集群监控系统及监控报警发布方法

Publications (1)

Publication Number Publication Date
CN103780660A true CN103780660A (zh) 2014-05-07

Family

ID=50572483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210414718.6A Pending CN103780660A (zh) 2012-10-25 2012-10-25 一种gpu集群监控系统及监控报警发布方法

Country Status (1)

Country Link
CN (1) CN103780660A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104407920A (zh) * 2014-12-23 2015-03-11 浪潮(北京)电子信息产业有限公司 一种基于进程间通信的数据处理方法及系统
CN104880330A (zh) * 2014-08-14 2015-09-02 深圳市亚泰光电技术有限公司 一种机械故障监测系统及方法
CN106569935A (zh) * 2015-10-12 2017-04-19 中国石油化工股份有限公司 用于地球物理高性能计算的进程分析方法及系统
CN108733531A (zh) * 2017-04-13 2018-11-02 南京维拓科技有限公司 基于云计算的gpu性能监控系统
CN108959165A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 一种gpu整机柜集群的管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204382A1 (en) * 2008-02-12 2009-08-13 Accenture Global Services Gmbh System for assembling behavior models of technology components
CN101783873A (zh) * 2009-01-19 2010-07-21 北京视典无限传媒技术有限公司 数字化多媒体信息传输平台
CN102081641A (zh) * 2010-10-15 2011-06-01 上海海洋大学 基于gpu的实时数据流高速匹配分析系统的设计
CN102493845A (zh) * 2011-11-24 2012-06-13 广州市地下铁道总公司 基于gis的城市轨道交通运营隧道监测预警系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204382A1 (en) * 2008-02-12 2009-08-13 Accenture Global Services Gmbh System for assembling behavior models of technology components
CN101783873A (zh) * 2009-01-19 2010-07-21 北京视典无限传媒技术有限公司 数字化多媒体信息传输平台
CN102081641A (zh) * 2010-10-15 2011-06-01 上海海洋大学 基于gpu的实时数据流高速匹配分析系统的设计
CN102493845A (zh) * 2011-11-24 2012-06-13 广州市地下铁道总公司 基于gis的城市轨道交通运营隧道监测预警系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何丽萍 等: "改进的基于Ganglia的网格监控系统", 《广东工业大学学报》 *
姜游: "基于WEB模式的存储统计监控系统", 《计算机系统应用》 *
彭武杰 等: "基于Ganglia 与MDS结合的网格监控体系研究", 《电脑与电信》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104880330A (zh) * 2014-08-14 2015-09-02 深圳市亚泰光电技术有限公司 一种机械故障监测系统及方法
CN104407920A (zh) * 2014-12-23 2015-03-11 浪潮(北京)电子信息产业有限公司 一种基于进程间通信的数据处理方法及系统
CN104407920B (zh) * 2014-12-23 2018-02-09 浪潮(北京)电子信息产业有限公司 一种基于进程间通信的数据处理方法及系统
CN106569935A (zh) * 2015-10-12 2017-04-19 中国石油化工股份有限公司 用于地球物理高性能计算的进程分析方法及系统
CN108733531A (zh) * 2017-04-13 2018-11-02 南京维拓科技有限公司 基于云计算的gpu性能监控系统
CN108733531B (zh) * 2017-04-13 2021-08-24 南京维拓科技股份有限公司 基于云计算的gpu性能监控系统
CN108959165A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 一种gpu整机柜集群的管理系统

Similar Documents

Publication Publication Date Title
CN103780660A (zh) 一种gpu集群监控系统及监控报警发布方法
CN104616205A (zh) 一种基于分布式日志分析的电力系统运行状态监视方法
CN107133273A (zh) 一种基于大数据的交通线网数据处理方法和服务器集群
CN103023695A (zh) 基于电力调度自动化的主站系统监测模型
CN107454364B (zh) 一种视频监控领域的分布式实时图像采集与处理系统
CN105262210A (zh) 一种变电站网络安全性分析预警系统和方法
CN107798395A (zh) 一种电网事故信号自动诊断方法及系统
CN106027328A (zh) 一种基于应用容器部署的集群监控的方法及系统
CN102521604B (zh) 一种基于巡检系统的设备性能退化评估装置及方法
CN106780161A (zh) 一种建筑能源管理系统和数据处理方法
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
CN201540592U (zh) 一种电能质量监测管理系统结构
CN102279905A (zh) 一种电网故障诊断中的数据流快速约简方法
CN107786391A (zh) 一种基于Grafana的对OpenStack的网络监控方法
CN107480027A (zh) 一种分布式深度学习运维系统
CN111080500A (zh) 基于spark streaming的实时规则的布控预警方法及装置
CN108628897A (zh) 基于快数据和大数据技术架构的运维管理方法
CN103034207A (zh) 一种基础设施健康监测系统及其实施过程
CN105137215A (zh) 医疗设备成本效益无线监测分析系统及方法
CN106817262A (zh) 一种日志分析装置
CN103065227A (zh) 一种支撑客服应急流程化可视化管理的信息系统
CN202172419U (zh) 一种故障分析处理系统
CN112256763A (zh) 在线监控系统及设备
Geng SUSTAINABLE DATA CENTER: STRATEGIC PLANNING, DESIGN, CONSTRUCTION, AND OPERATIONS WITH EMERGING TECHNOLOGIES
CN204271641U (zh) 一种基于psd-bpa的故障潮流并行分析系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140507