CN206611434U - 一种监控装置 - Google Patents

一种监控装置 Download PDF

Info

Publication number
CN206611434U
CN206611434U CN201720171889.9U CN201720171889U CN206611434U CN 206611434 U CN206611434 U CN 206611434U CN 201720171889 U CN201720171889 U CN 201720171889U CN 206611434 U CN206611434 U CN 206611434U
Authority
CN
China
Prior art keywords
information
sent
client
monitoring module
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201720171889.9U
Other languages
English (en)
Inventor
姚秋玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of High Energy Physics of CAS
Original Assignee
Institute of High Energy Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of High Energy Physics of CAS filed Critical Institute of High Energy Physics of CAS
Priority to CN201720171889.9U priority Critical patent/CN206611434U/zh
Application granted granted Critical
Publication of CN206611434U publication Critical patent/CN206611434U/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本实用新型公开了一种监控装置,其特征在于,包括监控主机和监控模块,所述监控模块运行于待监控的客户端上,用于收集所在客户端的硬件信息和软件信息发送给所述监控主机;所述监控主机包括信息汇总器、显示单元和信息接收器,所述信息接收器对所述监控模块发送过来的信息进行分类后发送给所述信息汇总器;所述信息汇总器根据不同管理员的定制模板显示对应内容到显示单元。本监控装置提高了监控装置的效率,实现了比较全面的信息监控,将监控内容分类细化,还可以根据使用者的需要进行定制,提高了监控装置的可扩展性。

Description

一种监控装置
技术领域
本实用新型涉及一种监控装置,尤其涉及一种用于大规模计算集群的信息监控装置。
背景技术
对于信息监控,是当前信息爆炸时代很重要的一个工作,尤其在高性能计算集群领域。集群拥有数千上万台计算机,涵盖各种类型的服务器,盘阵和刀片服务器。它们的整体运维是无法通过人工检查的方式来管理的。监控装置通过可视化的管理页面,让集群管理员迅速了解各服务器的运行状态、资源使用、配置策略和故障报警等,有效提高集群的可用性。
目前比较主流的几款监控管理软件,Ganglia主要用来监控服务器性能,比如cpu、mem、I/O负载和网络流量等,对于服务器更深层的各项服务没有监控。Nagios可监控的功能比较多,还可以采用插件方式自定义需要监控的内容,并提供故障报警功能。但这两种监控装置都只注重了“监”,缺乏“控”方面的内容。管理员使用的时候主要是浏览页面,具体问题的处理仍需再登录服务器解决。
实用新型内容
本实用新型的目的是针对现有技术的缺陷,提供一种监控装置,主要用于解决以下几个方面的内容:
1.监控内容的全面和可扩展。在一个拥有大规模的计算集群的数据中心,集群管理员会有多人,但是管理的侧重点各有不同,所以监控装置首先要求全面,应包括整个系统从硬件到软件的各种监控内容,并且可根据管理员的需求,提供API接口,允许管理员自定义监控程序。其次要求可定制化,对于不同的管理员,提供所需要的监控内容,减少管理员搜索信息的时间和监控主机不必要的检索压力。
2.监控信息收集的效率。在大规模的计算机集群中使用的监控装置,时刻都有海量的信息需要收集。为了提高信息收集的效率,本装置采用模块化设计,监控主机采用两级结构。底层的接收器分类收集信息,上层的信息汇总器根据定制模板给管理员显示需要查看的内容。在监控客户端(被监控机器,包括服务器、盘阵、刀片机)上运行内核级的监控模块,用于收集本机的各种硬件和软件信息,进行信息过滤,并将过滤后的结果发送给监控主机。
3.增加对被监控机器的修改操作功能。对于系统的配置,资源调整,策略更新以及一些程序化的故障处理,定制各处理脚本。由信息汇总器发送到监控客户端,以代码触发方式运行。
为实现上述目的,本实用新型的技术方案为:
一种监控装置,其特征在于,包括监控主机和监控模块,所述监控模块运行于待监控的客户端上,用于收集所在客户端的硬件信息和软件信息发送给所述监控主机;所述监控主机包括信息汇总器、显示单元和信息接收器,所述信息接收器对所述监控模块发送过来的信息进行分类后发送给所述信息汇总器;所述信息汇总器根据不同管理员的定制模板显示对应内容到显示单元。
进一步的,所述信息接收器包括系统配置信息接收器、资源管理信息接收器、状态监控信息接收器、策略更新信息接收器、统计分析信息接收器、日志管理信息接收器、访问授权信息接收器和错误报警信息接收器;其中
所述系统配置信息接收器,用于接收所述监控模块采集信息中的客户端硬件配置信息和操作系统版本信息、安装的软件包信息,并发送给所述信息汇总器;
所述资源管理信息接收器,用于接收所述监控模块采集信息中的客户端的硬件使用情况信息,并发送给所述信息汇总器;
所述状态监控信息接收器,用于接收所述监控模块采集信息中的客户端I/O负载和网络流量,并发送给所述信息汇总器;
所述策略更新信息接收器,用于接收所述监控模块采集信息中的客户端策略更新信息,并发送给所述信息汇总器;
所述统计分析信息接收器接,用于接收所述监控模块采集信息中的客户端作业统计信息、用户统计信息和进程统计信息,并发送给所述信息汇总器;
所述日志管理信息接收器,用于接收所述监控模块采集信息中的客户端各种日志信息,并发送给所述信息汇总器;
所述访问授权信息接收器,用于从所述监控模块采集信息中的获取使用者的用户信息和组别信息,并发送给所述信息汇总器;
所述错误报警信息接收器,用于接收所述监控模块采集信息中的客户端报警信息,并发送给所述信息汇总器。
进一步的,所述信息汇总器对所述客户端的系统配置、资源调整或策略更新生成一控制脚本发送到所述客户端。
进一步的,所述客户端包括服务器、盘阵和或刀片机。
进一步的,所述硬件包括cpu、mem、swap和磁盘。
进一步的,所述信息接收器对所述监控模块发送过来的信息进行分类后通过agent进程发送给所述信息汇总器。
与现有技术相比,本实用新型的积极效果为:
本实用新型监控装置实现了比较全面的信息监控,将监控内容分类细化。还可以根据使用者的需要进行定制,提高了监控装置的可扩展性;分级监控方式将繁重的监控处理分布到三级。在监控客户端上已完成了信息的初次过滤和处理,减少了无用信息传递导致的网络消耗和监控主机负担。接收器层负责接收和处理信息。信息汇总器根据用户组别显示监控网页,响应用户处理操作,分级方式提高了监控装置的效率;增加的控制功能,在发现故障时点击页面就可以处理,提高了集群的可用性。
附图说明
图1为本实用新型监控装置的示意图;
图2为信息接收器与信息汇总器结构示意图。
具体实施方式
下面通过附图和实施例,对本实用新型的技术方案做进一步的详细描述。
图1为本实用新型监控装置的示意图,如图1所示,包括监控主机和监控模块,所述监控主机包括信息汇总器、显示单元和信息接收器,监控模块运行于待监控的客户端上,用于收集所在客户端的硬件信息和软件信息发送给所述监控主机;所述信息接收器对所述监控模块发送过来的信息进行分类后分别发送给所述信息汇总器;所述信息汇总器根据不同管理员的定制模板显示对应内容到显示单元。
如图2所示,信息汇总器与信息接收器连接,其中信息接收器包括:系统配置信息接收器、资源管理信息接收器、状态监控信息接收器、策略更新信息接收器、统计分析信息接收器、日志管理信息接收器、访问授权信息接收器和错误报警信息接收器。
信息汇总器用于完成网页显示和交互,提取用户需要的各监控单元内容,响应用户的处理请求。各下层接受器根据关键字收集各自负责的信息,并以规定格式存入数据库。根据监控装置应用的场景和规模,信息汇总器和接收器可安装在同一台机器,也可以分别安装在不同的机器上。各接收器启用服务后会持续运行一个agent进程,如果信息汇总器在同一台机器上,则直接在进程间传递信息;如果信息汇总器在另外的机器上,接收器的agent进程通过网络tcp方式提交信息。
各个接收器的联系关系如下:
系统配置信息接收器、资源管理信息接收器、状态监控信息接收器、策略更新信息接收器、统计分析信息接收器、日志管理信息接收器、访问授权信息接收器和错误报警信息接收器分别与信息汇总器相连接。
各接收器的具体功能如下:
系统配置信息接收器,接收硬件配置信息和软件信息,通过agent进程发送给信息汇总器;
资源管理信息接收器,接收监控客户端cpu、mem、swap和磁盘等硬件使用情况信息,通过agent进程发送给信息汇总器;
状态监控信息接收器,接收监控客户端的I/O负载和网络流量,通过agent进程发送给信息汇总器;
策略更新信息接收器,接收监控客户端的各种策略,包括备份策略,作业策略等的修改更新信息,通过agent进程并发送给信息汇总器;
统计分析信息接收器,接收监控客户端的作业统计,用户统计,进程统计,通过agent进程发送给信息汇总器;
日志管理信息接收器,接收监控客户端的各种日志信息,包括系统日志和服务运行日志等,通过agent进程发送给信息汇总器;
在申请使用监控装置时,用户会被分类为硬件管理员,存储管理员,作业管理员,网络管理员以及普通用户,并将用户信息和组别保存至数据库。访问授权信息接收器根据用户名,从数据库中查找其对应的访问权限,通过agent进程发送给信息汇总器;
错误报警信息接收器,接收两类报警信息:一种是从监控客户端上收集到关于硬件故障的报警信息;另一种是接收日志分析系统分析到的各类软件报警,通过agent进程发送给信息汇总器。
最后所应说明的是,以上实施例仅用以说明本实用新型的技术方案而非限制,尽管参照较佳实施例对本实用新型进行了详细说明,本领域的普通技术人员应当理解,可以对本实用新型的技术方案进行修改或者等同替换,而不脱离本实用新型技术方案的精神和范围。

Claims (6)

1.一种监控装置,其特征在于,包括监控主机和监控模块,所述监控模块运行于待监控的客户端上,用于收集所在客户端的硬件信息和软件信息发送给所述监控主机;所述监控主机包括信息汇总器、显示单元和信息接收器,所述信息接收器对所述监控模块发送过来的信息进行分类后发送给所述信息汇总器;所述信息汇总器根据不同管理员的定制模板显示对应内容到显示单元。
2.如权利要求1所述的监控装置,其特征在于,所述信息接收器包括系统配置信息接收器、资源管理信息接收器、状态监控信息接收器、策略更新信息接收器、统计分析信息接收器、日志管理信息接收器、访问授权信息接收器和错误报警信息接收器;其中
所述系统配置信息接收器,用于接收所述监控模块采集信息中的客户端硬件配置信息和操作系统版本信息、安装的软件包信息,并发送给所述信息汇总器;
所述资源管理信息接收器,用于接收所述监控模块采集信息中的客户端的硬件使用情况信息,并发送给所述信息汇总器;
所述状态监控信息接收器,用于接收所述监控模块采集信息中的客户端I/O负载和网络流量,并发送给所述信息汇总器;
所述策略更新信息接收器,用于接收所述监控模块采集信息中的客户端策略更新信息,并发送给所述信息汇总器;
所述统计分析信息接收器接,用于接收所述监控模块采集信息中的客户端作业统计信息、用户统计信息和进程统计信息,并发送给所述信息汇总器;
所述日志管理信息接收器,用于接收所述监控模块采集信息中的客户端各种日志信息,并发送给所述信息汇总器;
所述访问授权信息接收器,用于从所述监控模块采集信息中的获取使用者的用户信息和组别信息,并发送给所述信息汇总器;
所述错误报警信息接收器,用于接收所述监控模块采集信息中的客户端报警信息,并发送给所述信息汇总器。
3.如权利要求1所述的监控装置,其特征在于,所述信息汇总器对所述客户端的系统配置、资源调整或策略更新生成一控制脚本发送到所述客户端。
4.如权利要求1或2或3所述的监控装置,其特征在于,所述客户端包括服务器、盘阵和或刀片机。
5.如权利要求1或2或3所述的监控装置,其特征在于,所述硬件包括cpu、mem、swap和磁盘。
6.如权利要求1或2所述的监控装置,其特征在于,所述信息接收器对所述监控模块发送过来的信息进行分类后通过agent进程发送给所述信息汇总器。
CN201720171889.9U 2017-02-24 2017-02-24 一种监控装置 Active CN206611434U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201720171889.9U CN206611434U (zh) 2017-02-24 2017-02-24 一种监控装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201720171889.9U CN206611434U (zh) 2017-02-24 2017-02-24 一种监控装置

Publications (1)

Publication Number Publication Date
CN206611434U true CN206611434U (zh) 2017-11-03

Family

ID=60168740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201720171889.9U Active CN206611434U (zh) 2017-02-24 2017-02-24 一种监控装置

Country Status (1)

Country Link
CN (1) CN206611434U (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519316A (zh) * 2018-05-22 2019-11-29 山东数盾信息科技有限公司 一种实现基于arm平台的集群资源监控方法
CN110827523A (zh) * 2019-09-23 2020-02-21 北京北方华创微电子装备有限公司 半导体设备报警管理系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519316A (zh) * 2018-05-22 2019-11-29 山东数盾信息科技有限公司 一种实现基于arm平台的集群资源监控方法
CN110827523A (zh) * 2019-09-23 2020-02-21 北京北方华创微电子装备有限公司 半导体设备报警管理系统
CN110827523B (zh) * 2019-09-23 2022-03-22 北京北方华创微电子装备有限公司 半导体设备报警管理系统

Similar Documents

Publication Publication Date Title
Castelli et al. Proactive management of software aging
CN107315776A (zh) 一种基于云计算的数据管理系统
CN107992398A (zh) 一种业务系统的监控方法和监控系统
CN102404126B (zh) 一种云计算在应用过程中的收费方法
CN108197261A (zh) 一种智慧交通操作系统
CN106778253A (zh) 基于大数据的威胁情景感知信息安全主动防御模型
CN108833137A (zh) 一种柔性微服务监控框架架构
US20120303807A1 (en) Operating cloud computing services and cloud computing information system
CN104881352A (zh) 基于移动端的系统资源监控装置
CN102724313B (zh) 基于云计算的集群式桥梁运营安全监控系统
CN106484709A (zh) 一种日志数据的审计方法和审计装置
CN105656698A (zh) 一种网络应用系统智能监控结构与方法
CN104811506B (zh) 基于无线传感器网络的油脂储藏远程监管系统及方法
CN103502990A (zh) 用于事件的内存中处理的系统和方法
CN103488793A (zh) 一种基于信息检索的用户行为监控方法
CN106789270A (zh) 一种信息系统集中运维管理的实现方法及系统
CN112579288A (zh) 一种基于云计算智能安全用数据管理系统
CN108182263A (zh) 一种数据中心综合管理系统的数据存储方法
CN206611434U (zh) 一种监控装置
CN112181704A (zh) 一种大数据任务处理方法、装置、电子设备及存储介质
CN113067717A (zh) 网络请求日志链式跟踪方法、全链路调用监控系统和介质
CN115733762A (zh) 具有大数据分析能力的监控系统
CN106790659A (zh) 一种时空信息云存储管理方法
CN109032904A (zh) 被监控、管理服务器及数据获取、分析方法和管理系统
Wang et al. Concept drift-based runtime reliability anomaly detection for edge services adaptation

Legal Events

Date Code Title Description
GR01 Patent grant
GR01 Patent grant