CN105955867A - 一种监控管理系统 - Google Patents

一种监控管理系统 Download PDF

Info

Publication number
CN105955867A
CN105955867A CN201610284166.XA CN201610284166A CN105955867A CN 105955867 A CN105955867 A CN 105955867A CN 201610284166 A CN201610284166 A CN 201610284166A CN 105955867 A CN105955867 A CN 105955867A
Authority
CN
China
Prior art keywords
node
submodule
information
monitoring
management system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610284166.XA
Other languages
English (en)
Inventor
叶江鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610284166.XA priority Critical patent/CN105955867A/zh
Publication of CN105955867A publication Critical patent/CN105955867A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种监控管理系统,所述监控管理系统分为底层、中间层和顶层三个层次,所述底层由被管理设备构成,每一个设备构成一个节点,中间层包括多个中间代理,顶层包括两个管理节点,所述中间代理使用mysql数据库和memcached分布式内存对象缓存系统进行管理,所述管理节点采用SSDB进行管理;本发明提升数据访问速度,从而提升对于大型计算机系统的监控力度,优化监控性能。

Description

一种监控管理系统
技术领域
本发明涉及计算机领域,具体涉及一种监控管理系统。
背景技术
在大型计算机系统中系统设备复杂,系统中除了计算节点外,还包括存储设备、互连设备和基础架构(包括供电和制冷)等,因此监控管理系统需要在对系统软件资源管理的同时,对这些硬件设备进行监测与控制,实现一个功能完备的监控管理系统。
大规模计算机系统结构不同,其监控管理软件架构也不尽相同。目前比较典型的集群管理软件包括Ganglia、Nagios、Supermon和Parmon。
Ganglia是目前应用最为广泛的集群监控软件之一。Ganglia能够得到广泛的应用主要得益于以下三点:GangIia是一个开源项目;Ganglia采用分级的树状体系结构,该结构使得Ganglia具有良好的可扩展性,可支持不同规模的集群系统;Ganglia采用基于XML技术的数据传输机制,因此监控信息可以跨越不同的平台进行交互。Ganglia在不进行任何配置的情况下能够进行节点的删除与添加,但是其带来的代价很大。首先多播导致监控数据占用了系统网络带宽,其次每个节点都维护了一张本区域内的节点状态表,当区域较大时,这些全局冗余的数据的更新效率低下。
NagiosL61是由Ethan Galstad开发的一款基于GPLv2的开源软件,也是当前使用广泛的监控软件之一。Nagios与Ganglia都可用于高性能计算环境中,但是这两者对监控的侧重点不同。Ganglia更多地收集监控数据并随时跟踪这些数据,而Nagios则致力于成为一种报警机制。
Supermon是美国洛斯阿拉莫斯国家高级计算实验室开发的一套面向linux集群的监控系统。Supermon是监控系统中的单一失效点,同时Supermon由于需要串行访问所有节点上的mon模块导致在大规模系统中监控效率下降。
Parmon软件采用c/s结构,每个节点上运行一个server程序负责本地信息收集,Client负责集中管理与信息显示。当系统规模较大时Client收集全系统信息需要的时间较长从而导致监控软件的实时性差。
上述管理软件在一定规模的集群系统上可以高效运行,但是当系统规摸不断扩大时,这些管理软件均面临实时性、可靠性和完备性下降等问题,因此,有必要研发一种监控管理系统,提升对于大型计算机系统的监控力度,优化监控性能。
发明内容
为了提升对于大型计算机系统的监控力度,优化监控性能,本发明提供一种监控管理系统。
本发明是以如下技术方案实现的,一种监控管理系统,所述监控管理系统分为底层、中间层和顶层三个层次,
所述底层由被管理设备构成,每一个设备构成一个节点,
中间层包括多个中间代理,每个中间代理管理一个或多个节点,所述中间代理负责接收来自所管辖范围内节点发送的信息,
顶层包括两个管理节点,所述两个管理节点利用心跳机制实现双机热备,所述管理节点用于管理中间代理发送的信息,并且通过web网页与管理员进行交互;
所述中间代理使用mysql数据库和memcached分布式内存对象缓存系统进行管理,memcached作为mysql前端进行使用,用于缓存访问量最高的数据,所述memcached采用一致性哈希算法建立key-value存储机制,
所述管理节点采用SSDB进行管理,所述SSDB由内存中的MemTable、Immutable MemTable以及磁盘上的Log文件和SSTable文件构成。
优选的,所述底层的每个节点上运行一个信息采集模块。
优选的,所述信息采集模块用于采集节点的资源信息,所述资源信息包括节点配置信息、节点资源使用情况和节点负载。
优选的,所述信息采集模块包括daemon子模块和OOB-mon子模块,所述Daemon子模块运行在节点上,用于采集本地信息,所述OOB-mon子模块为监控子模块,所述监控子模块由节点上的嵌入式系统来实现。
优选的,所述中间代理包括节点监听子模块、信息组播子模块和查询子模块,
所述节点监听子模块用于接收来自节点的静态信息和首次查询的动态信息,
所述信息组播子模块用于定时向所属分区内的节点发送中间代理的相关信息,
所述查询子模块用于定时对所属节点进行动态信息查询,并将查询的结果存储到mysql数据库。
本发明的有益效果是:
本发明提供了一种监控管理系统,通过三层架构、mysql数据库、memcached分布式内存对象缓存系统和SSDB进行监控管理,通过减少sql解析和磁盘操作加速数据操作的速度,并且memcached提供缓存减少了对于mysql的访问次数,提升数据访问速度,从而提升对于大型计算机系统的监控力度,优化监控性能。
附图说明
图1是第一个实施例装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
在一个实施例中,如图1所示,一种监控管理系统,所述监控管理系统分为底层、中间层和顶层三个层次,
所述底层由被管理设备构成,每一个设备构成一个节点,
中间层包括多个中间代理,每个中间代理管理一个或多个节点,所述中间代理负责接收来自所管辖范围内节点发送的信息,
顶层包括两个管理节点,所述两个管理节点利用心跳机制实现双机热备,所述管理节点用于管理中间代理发送的信息,并且通过web网页与管理员进行交互;
所述中间代理使用mysql数据库和memcached分布式内存对象缓存系统进行管理,memcached作为mysql前端进行使用,用于缓存访问量最高的数据,所述memcached采用一致性哈希算法建立key-value存储机制,
所述管理节点采用SSDB进行管理,所述SSDB由内存中的MemTable、Immutable MemTable以及磁盘上的Log文件和SSTable文件构成。
具体地,所述底层的每个节点上运行一个信息采集模块。
具体地,所述信息采集模块用于采集节点的资源信息,所述资源信息包括节点配置信息、节点资源使用情况和节点负载。
具体地,所述信息采集模块包括daemon子模块和OOB-mon子模块,所述Daemon子模块运行在节点上,用于采集本地信息,所述OOB-mon子模块为监控子模块,所述监控子模块由节点上的嵌入式系统来实现。
具体地,所述中间代理包括节点监听子模块、信息组播子模块和查询子模块,
所述节点监听子模块用于接收来自节点的静态信息和首次查询的动态信息,
所述信息组播子模块用于定时向所属分区内的节点发送中间代理的相关信息,
所述查询子模块用于定时对所属节点进行动态信息查询,并将查询的结果存储到mysql数据库。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (5)

1.一种监控管理系统,其特征在于,所述监控管理系统分为底层、中间层和顶层三个层次,
所述底层由被管理设备构成,每一个设备构成一个节点,
中间层包括多个中间代理,每个中间代理管理一个或多个节点,所述中间代理负责接收来自所管辖范围内节点发送的信息,
顶层包括两个管理节点,所述两个管理节点利用心跳机制实现双机热备,所述管理节点用于管理中间代理发送的信息,并且通过web网页与管理员进行交互;
所述中间代理使用mysql数据库和memcached分布式内存对象缓存系统进行管理,memcached作为mysql前端进行使用,用于缓存访问量最高的数据,所述memcached采用一致性哈希算法建立key-value存储机制,
所述管理节点采用SSDB进行管理,所述SSDB由内存中的MemTable、Immutable MemTable以及磁盘上的Log文件和SSTable文件构成。
2.根据权利要求1所述的一种监控管理系统,其特征在于,所述底层的每个节点上运行一个信息采集模块。
3.根据权利要求2所述的一种监控管理系统,其特征在于,所述信息采集模块用于采集节点的资源信息,所述资源信息包括节点配置信息、节点资源使用情况和节点负载。
4.根据权利要求2所述的一种监控管理系统,其特征在于,所述信息采集模块包括daemon子模块和OOB-mon子模块,所述Daemon子模块运行在节点上,用于采集本地信息,所述OOB-mon子模块为监控子模块,所述监控子模块由节点上的嵌入式系统来实现。
5.根据权利要求1所述的一种监控管理系统,其特征在于,所述中间代理包括节点监听子模块、信息组播子模块和查询子模块,
所述节点监听子模块用于接收来自节点的静态信息和首次查询的动态信息,
所述信息组播子模块用于定时向所属分区内的节点发送中间代理的相关信息,
所述查询子模块用于定时对所属节点进行动态信息查询,并将查询的结果存储到mysql数据库。
CN201610284166.XA 2016-05-03 2016-05-03 一种监控管理系统 Pending CN105955867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610284166.XA CN105955867A (zh) 2016-05-03 2016-05-03 一种监控管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610284166.XA CN105955867A (zh) 2016-05-03 2016-05-03 一种监控管理系统

Publications (1)

Publication Number Publication Date
CN105955867A true CN105955867A (zh) 2016-09-21

Family

ID=56913821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610284166.XA Pending CN105955867A (zh) 2016-05-03 2016-05-03 一种监控管理系统

Country Status (1)

Country Link
CN (1) CN105955867A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112003721A (zh) * 2020-07-15 2020-11-27 苏州浪潮智能科技有限公司 一种大数据平台管理节点高可用的实现方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112003721A (zh) * 2020-07-15 2020-11-27 苏州浪潮智能科技有限公司 一种大数据平台管理节点高可用的实现方法及装置
CN112003721B (zh) * 2020-07-15 2022-10-14 苏州浪潮智能科技有限公司 一种大数据平台管理节点高可用的实现方法及装置

Similar Documents

Publication Publication Date Title
US10296498B2 (en) Coordinated hash table indexes to facilitate reducing database reconfiguration time
CN111327681A (zh) 一种基于Kubernetes的云计算数据平台构建方法
CN104484472B (zh) 一种混合多种异构数据源的数据库集群及实现方法
JP2016509294A (ja) 分散型データベースクエリ・エンジン用のシステムおよび方法
US11080207B2 (en) Caching framework for big-data engines in the cloud
Wang et al. Hybrid pulling/pushing for i/o-efficient distributed and iterative graph computing
CN103595799A (zh) 一种实现分布式共享数据库的方法
CN105045929A (zh) 一种基于mpp构架的分布式关系型数据库
CN114647716B (zh) 一种适用于泛化数据仓库的系统
CN104281980B (zh) 基于分布式计算的火力发电机组远程诊断方法及系统
CN105069170B (zh) 一种海量空间信息存储与服务一体机系统
CN105975546A (zh) 一种新型计算机监管系统
Krish et al. Aptstore: dynamic storage management for hadoop
Wang et al. A query-oriented adaptive indexing technique for smart grid big data analytics
US10474653B2 (en) Flexible in-memory column store placement
KR20120118550A (ko) 대용량 데이터 고속처리용 분산 메인 메모리 데이터베이스 관리 시스템 구조
Memarzia et al. Toward efficient processing of spatio-temporal workloads in a distributed in-memory system
CN105955867A (zh) 一种监控管理系统
Le et al. Namenode and datanode coupling for a power-proportional hadoop distributed file system
CN115630122A (zh) 一种数据同步方法、装置、存储介质和计算机设备
Sreekanth et al. Big data electronic health records data management and analysis on cloud with MongoDB: a NoSQL database
Ganesh Data center energy management
CN114385577A (zh) 一种分布式文件系统
Zhang et al. Dcache: A distributed cache mechanism for hdfs based on rdma
Wang et al. Hgraph: I/o-efficient distributed and iterative graph computing by hybrid pushing/pulling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160921

WD01 Invention patent application deemed withdrawn after publication