CN107645423A - 一种监控数据的展示系统及其方法 - Google Patents

一种监控数据的展示系统及其方法 Download PDF

Info

Publication number
CN107645423A
CN107645423A CN201610578369.XA CN201610578369A CN107645423A CN 107645423 A CN107645423 A CN 107645423A CN 201610578369 A CN201610578369 A CN 201610578369A CN 107645423 A CN107645423 A CN 107645423A
Authority
CN
China
Prior art keywords
data
monitoring
monitoring data
platform
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610578369.XA
Other languages
English (en)
Inventor
和荣
肖海力
武虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201610578369.XA priority Critical patent/CN107645423A/zh
Publication of CN107645423A publication Critical patent/CN107645423A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种监控数据的展示系统及其方法,该系统包括:环境监控平台、监控数据接口和监控数据展示平台;环境监控平台包括用于获取集群和服务器的各种插件,通过各种插件获取相应的监控数据;监控数据接口,用于将环境监控平台获取的监控数据以接口的形式对外提供数据;监控数据展示平台,用于获取监控数据接口对外提供的数据,以及对该数据从不同维度进行展示。本发明提供的一种监控数据的展示系统及其方法,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。

Description

一种监控数据的展示系统及其方法
技术领域
本发明涉及超级计算环境运行状况展示技术,特别是涉及一种监控数据的展示系统及其方法。
背景技术
超级计算环境主要为用户提供计算服务,同时对用户提出的问题及时响应并提供技术支持。衡量一个超级计算环境主要关注环境的资源信息、使用情况和用户数目等。管理员及时有效地获取环境的运行情况,了解环境的资源使用信息可更好地调度用户作业,为用户提供更好的服务。
基于Nagios搭建的监控平台中,针对集群主要考虑了系统利用率(CPU占用率)和节点占用率两个指标。为获取这两项数据按照Nagios已有插件的实现方式,编写了获取集群CPU和节点占用率的插件。在现有的监控平台中处于当时的需求只考虑了系统利用率这一指标,集群的其它运行数据并没有展示。
发明内容
本发明目的在于解决现有技术涉及的超级计算环境监控平台存在的上述问题,提出一种监控数据的展示系统及其方法,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。
为实现上述目的,一方面,本发明提供了一种监控数据的展示系统,该系统包括:监控数据展示平台、监控数据接口和环境监控平台;其中,
环境监控平台,包括用于获取集群和服务器的各种插件,通过各种插件获取相应的监控数据,监控数据包括集群信息;集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种;监控数据接口,用于将环境监控平台获取的监控数据以接口的形式对外提供数据;监控数据展示平台,用于获取监控数据接口对外提供的数据,以及对该数据从不同维度进行展示。
另一方面,本发明提供了一种监控数据的展示方法,该方法步骤包括:
通过环境监控平台获取相应的监控数据,监控数据包括集群信息;集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种;通过监控数据接口将环境监控平台获取的监控数据以接口的形式对外提供数据;通过监控数据展示平台获取监控数据接口对外提供的数据,以及对该数据从不同维度进行展示。
本发明提供的一种监控数据的展示系统及其方法,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。
附图说明
图1是本发明实施例提供的一种监控数据的展示系统结构示意图;
图2是图1所示展示系统的环境监控平台结构部署示意图;
图3是图1所示展示系统的监控数据登录流程示意图;
图4是图1所示展示系统的环境监控平台的权限控制图;
图5是本发明实施例提供的一种监控数据的展示系统的首页示意图;
图6是本发明实施例提供的一种监控数据的展示系统的集群示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1是本发明实施例提供的一种监控数据的展示系统结构示意图。如图1所示,监控数据的展示系统包括:监控数据展示平台101、监控数据接口102和环境监控平台103。
环境监控平台103包括用于获取集群和服务器的各种插件,通过各种插件获取相应的监控数据,监控数据包括集群信息;集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种。监控数据接口102用于将环境监控平台103获取的监控数据以接口的形式对外提供数据。监控数据展示平台101用于获取监控数据接口102对外提供的数据,以及对该数据从不同维度进行展示。
本发明实施例提供的一种监控数据的展示系统,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。
图2是本发明实施例提供的一种监控数据的展示系统的环境监控平台结构部署示意图。如图2所示,超级计算环境以三层架构超级计算网格中间件SCE作为核心支撑软件,根据部署和管理的要求,设计有登录客户端Client、中央服务器CS(center server)以及前端服务器FS(front server)三大模块。其中FS负责中央服务器CS与超级计算机HPC之间的连接,对到HPC的连接进行访问控制,以保证访问的安全性和合法性。考虑到超级计算环境的三层架构特点,采用Nagios的分布式监控方式部署监控平台。
服务器的具体含义如表1所示。监控主服务是部署在网络中心的一台服务器,收集所有信息并集中显示;监控中转服务器是指与超级计算环境(HPC)相连的前端FS服务器。由于安全等因素,主服务无法直接获取HPC的相应信息,只能通过FS中转服务器获取。FS是分布在分中心的网格服务器,为了方便获取信息,这里采用分布式监控的方式实现对FS以及相连的HPC的监控。
表1服务器描述
超级计算环境HPC的作业系统主要包括LSF、Torque、Pbspro和Slurm四种,所以需要根据各自的使用方式编写插件获取集群信息。获取的集群信息包括利用率、计算节点、账号、作业以及CPU核。其中利用率的定义如下:
系统利用率(CPU占有率)=(运行作业占用的CPU核数/开机总CPU核数)
节点占有率=(运行作业占用的节点数/开机总节点数)
开机率=(开机总节点数/总节点数)
计算节点数据包括总节点数、离线节点数、管理员关闭的节点数、运行作业占用的节点数、预留节点数、空闲节点数;账号数据包括总数、有作业运行的账号、有作业排队的账号;作业数据包括总作业数、运行作业数;CPU核数包括可用总核数、运行作业占用的核数、排队作业核数。
实现这些插件后,在监控中转服务和监控主服务定义好各项监控内容,验证配置后启动Nagios进程,监控信息会发送到监控主服务。在中国科学院超级计算环境监控平台中,前端服务器(监控平台中的监控中转服务)以五分钟一次的频率采集集群数据并汇报给监控主服务的服务器。部署监控主服务的服务器存放有所有集群的信息,可对这些信息进行分析处理。
在环境监控平台103中,总中心部署监控主服务的服务器收集到的监控数据借助RRDTool(Round Robin Database tool)将数据存储在对应的RRD文件中。“Round Robin“指使用固定大小的空间来存储数据,并有一个指针指向最新的数据的位置。一段时间后,当所有的空间都存满了数据,又从头开始存放。整个存储空间的大小是一个固定的数值,RRDTool就是使用类似的方式来存放数据的工具,该工具存储数据的一个缺点是存储空间大小固定,当所有空间都存满时会覆盖原有的数据。
在保存的数据中,如集群的利用率信息,很多情况下希望可以保留几个周期,以便于进行对比分析。借助RRDTool存储数据只能保留一段时间,所以在监控平台中引入了NDOUTILES将Nagios监控数据存入MySQL数据库。利用MySQL数据库中集群的原始数据,根据需求设计不同的表存储不同时间间隔的数据以便统计数据时使用。表2是针对中科院超级计算环境设计的数据表,其中scgrid表存储每个集群的原始数据,每五分钟增加一个数据项;scgridhalf、scgridtwo是通过scgrid数据表生成,主要用于提供集群最近半月或一月的数据;Dayinfo存储集群每天的系统利用率数据,通过scgrid数据累计求和取均值获得,用于计算每月的系统利用率数据。
表2数据表描述
图3是本发明实施例提供的一种监控数据的展示系统的监控数据登录流程示意图。
为保证数据访问的方便快捷,以及考虑到监控数据存储在MySQL数据库中,外部直接访问数据库获取数据会造成数据的不安全性。在监控数据接口102设置有SCEAPI-REST接口,SCEAPI-REST提供了基于HTTP协议的访问接口,包括用户管理、作业管理、文件管理等多基本功能,也提供了账号管理等高级功能。该接口具有良好的跨语言特性和跨平台特性。在SCEAPI-REST中,通过调用获取监控数据的WEB服务实现获取监控数据接口。
获取的监控数据主要包括集群利用率、计算节点数、账号数、作业数和CPU核数等信息。针对这些数据主要从计算节点、账户、作业、CPU核不同维度设计接口;除了考虑实时数据外,还设计了系统利用率的统计数据接口。具体接口定义如表3所示:
表3接口定义描述
其中,表3给出了定义的接口相对路径,调用API时URI路径还需要拼接HTTP协议、域名和版本信息,如http://域名/版本//show/scgrid/tdata表示获取环境整体实时数据全路径。表3中定义的各个接口都设计有自己的参数,如/show/scgrid/envInfo参数包括type、start、end三个,其中type表示需要获取的数据类型(计算节点、账号、作业、CPU核);start和end分别用于指定获取数据的开始时间和结束时间。
超级计算环境中用户和集群管理员可以使用第三方通行证,例如科技网通行证,为了方便浏览器端的开发,支持科技网通行证,SCEAPI-REST针对获取监控数据设计和实现了javascipt开发接口。开发人员可以直接在浏览器端使用,不再需要处理同源和跨域问题,该接口支持请求的并发访问。具体流程如图3所示,通过科技网通行证的脚本验证用户是否已经登录通行证,若已经成功登录,“通行证登录”模块负责根据code从科技网通行证服务器获取用户信息,并提供公开查询的权限,然后使用js脚本连接访问公开数据。WEB应用通过加载浏览器的javascript脚本即可获取JSON格式数据,进而对数据进行展示处理。
图4是本发明实施例提供的一种监控数据的展示系统的环境监控平台的权限控制图。如图4所示。针对不同的用户设置了三类角色,包括超级管理员、集群管理员和普通用户,在环境监控平台103中赋予每一类角色不同的权限用于查看不同的页面内容。当用户发出访问请求时,根据用户提供的凭证(用户名、密码)验证用户的合法性,若凭证无误,环境监控平台103通过角色检查得到用户的权限,根据权限显示对应的网站内容。通过权限控制可实现系统的分级,提高系统安全性,同时更加方便用户查看自己关注的内容。
环境监控平台103设计有首页、集群展示和集群月报利用率三个页面,其中,普通用户只能查看首页内容;集群管理员除首页外,可查看自己的集群利用信息;超级管理员可查看所有集群的信息。
图5是本发明实施例提供的一种监控数据的展示系统的首页示意图,左侧为超级计算环境的整体信息,包括总节点数、开机节点数和可用核数等。右侧为环境整体计算节点、核数、作业数和账号详细信息,可查看最近一天、最近一周和最近一月的数据。图6是本发明实施例提供的一种监控数据的展示系统的集群示意图。
本发明实施例提供的一种监控数据的展示系统及其方法,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种监控数据的展示系统,其特征在于,包括:监控数据展示平台(101)、监控数据接口(102)和环境监控平台(103);其中,
环境监控平台(103),包括用于获取集群和服务器的各种插件,通过所述各种插件获取相应的监控数据,所述监控数据包括集群信息;所述集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种;
监控数据接口(102),用于将所述环境监控平台(103)获取的监控数据以接口的形式对外提供数据;
监控数据展示平台(101),用于获取所述监控数据接口(102)对外提供的数据,以及对该数据从不同维度实行展示。
2.根据权利要求1所述的展示系统,其特征在于,所述环境监控平台(103)采用分布式监控方式部署监控平台,所述分布式监控方式部署监控平台包括Nagios监控平台。
3.根据权利要求1所述的展示系统,其特征在于,所述监控数据展示平台(101)针对不同的用户设置多个角色,所述多个角色包括超级管理员、集群管理员和普通用户。
4.根据权利要求3所述的展示系统,其特征在于,所述监控数据展示平台(101)设计有首页、集群展示和集群月报利用率三个页面,其中,普通用户只能查看首页内容;集群管理员除首页外,可查看自己的集群利用信息;超级管理员可查看所有集群的信息。
5.根据权利要求1所述的展示系统,其特征在于,所述环境监控平台(103)通过NDOUtils将监控数据存入Mysql数据库,利用MySQL数据库中集群的原始数据,根据需求设计不同的表,以存储不同时间间隔的数据。
6.根据权利要求1或5所述的展示系统,其特征在于,所述监控数据接口(102)设置有SCEAPI-REST接口,在所述SCEAPI-REST中,通过调用获取监控数据的WEB服务实现获取监控数据接口。
7.根据权利要求6所述的展示系统,其特征在于,所述监控数据接口(102)还设置有系统利用率的数据接口,用于获取环境的实时或统计数据。
8.一种监控数据的展示方法,应用于由监控数据展示平台(101)、监控数据接口(102)和环境监控平台(103)构成的展示系统中;其特征在于,
通过所述环境监控平台(103)获取相应的监控数据,所述监控数据包括集群信息;所述集群信息包括集群的利用率数据信息、计算节点数据信息、账号数据信息、作业数据信息以及CPU核的数据信息中的一种或多种;
通过所述监控数据接口(102)将所述环境监控平台(103)获取的监控数据以接口的形式对外提供数据;
通过所述监控数据展示平台(101)获取所述监控数据接口(102)对外提供的数据,以及对该数据从不同维度进行展示。
9.根据权利要求8所述的展示方法,其特征在于,所述环境监控平台(103)采用Nagios的分布式监控方式部署监控平台。
10.根据权利要求8所述的展示方法,其特征在于,所述环境监控平台(103)通过NDOUtils将监控数据存入Mysql数据库,利用MySQL数据库中集群的原始数据,根据需求设计不同的表,以存储不同时间间隔的数据。
CN201610578369.XA 2016-07-21 2016-07-21 一种监控数据的展示系统及其方法 Pending CN107645423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610578369.XA CN107645423A (zh) 2016-07-21 2016-07-21 一种监控数据的展示系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610578369.XA CN107645423A (zh) 2016-07-21 2016-07-21 一种监控数据的展示系统及其方法

Publications (1)

Publication Number Publication Date
CN107645423A true CN107645423A (zh) 2018-01-30

Family

ID=61107918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610578369.XA Pending CN107645423A (zh) 2016-07-21 2016-07-21 一种监控数据的展示系统及其方法

Country Status (1)

Country Link
CN (1) CN107645423A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861878A (zh) * 2019-01-17 2019-06-07 平安科技(深圳)有限公司 kafka集群的topic数据的监控方法及相关设备
CN114020443A (zh) * 2022-01-05 2022-02-08 国家超级计算天津中心 超级计算机资源调度方法、电子设备和介质
CN114584455A (zh) * 2022-03-04 2022-06-03 吉林大学 一种基于企业微信的中小型高性能集群监控系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控系统及方法
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理系统
US20160170861A1 (en) * 2014-12-16 2016-06-16 Xinyu Xingbang Information Industry Co., Ltd Method and a Device Thereof for Achieving the Monitoring Option Script of MySQL Database

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控系统及方法
US20160170861A1 (en) * 2014-12-16 2016-06-16 Xinyu Xingbang Information Industry Co., Ltd Method and a Device Thereof for Achieving the Monitoring Option Script of MySQL Database
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
和荣等: "基于Nagios的监控平台的设计与实现", 《科研信息化技术与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861878A (zh) * 2019-01-17 2019-06-07 平安科技(深圳)有限公司 kafka集群的topic数据的监控方法及相关设备
CN109861878B (zh) * 2019-01-17 2022-03-25 平安科技(深圳)有限公司 kafka集群的topic数据的监控方法及相关设备
CN114020443A (zh) * 2022-01-05 2022-02-08 国家超级计算天津中心 超级计算机资源调度方法、电子设备和介质
CN114584455A (zh) * 2022-03-04 2022-06-03 吉林大学 一种基于企业微信的中小型高性能集群监控系统
CN114584455B (zh) * 2022-03-04 2023-06-30 吉林大学 一种基于企业微信的中小型高性能集群监控系统

Similar Documents

Publication Publication Date Title
US11055273B1 (en) Software container event monitoring systems
CN108874640B (zh) 一种集群性能的评估方法和装置
CN104270417B (zh) 一种基于云计算的综合服务提供系统及方法
AU2005310976B2 (en) Performance monitoring witin an enterprise software system
US9135075B2 (en) Capacity planning for computing systems hosting multi-tier application based on think time value and resource cost of composite transaction using statistical regression analysis
US9122685B2 (en) Operating cloud computing and cloud computing information system
CN108365971A (zh) 日志解析方法、设备及计算机可读介质
CN107852417A (zh) 多租户身份和数据安全性管理云服务
Zhao et al. Cloud data management
US9460135B2 (en) Methods and automated systems for testing, optimization, and analysis that use robust statistical processing of non-binomial experimental results
CN109313572A (zh) 通用自动缩放
CN105959371B (zh) 网页分享系统
CN104580306B (zh) 一种多终端备份服务系统及其任务调度方法
Kee et al. Realistic modeling and svnthesis of resources for computational grids
CN109672757A (zh) 文件访问方法及文件访问处理装置
CN107645423A (zh) 一种监控数据的展示系统及其方法
CN107180050A (zh) 一种数据抓取系统及方法
CN205845090U (zh) 电力市场主体信用评价系统
US20130346368A1 (en) System and method for integrating software functionalities on n-layer architecture platform
Lohitha et al. Integrated publish/subscribe and push-pull method for cloud based IoT framework for real time data processing
CN107480189A (zh) 一种多维度实时分析系统及方法
Fan et al. An adaptive feedback load balancing algorithm in HDFS
Kim et al. QiOi: performance isolation for hyperledger fabric
Öztürk et al. Feature modeling of software as a service domain to support application architecture design
Yu et al. Performance studies of a websphere application, trade, in scale-out and scale-up environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180130