CN105975546A - 一种新型计算机监管系统 - Google Patents
一种新型计算机监管系统 Download PDFInfo
- Publication number
- CN105975546A CN105975546A CN201610283317.XA CN201610283317A CN105975546A CN 105975546 A CN105975546 A CN 105975546A CN 201610283317 A CN201610283317 A CN 201610283317A CN 105975546 A CN105975546 A CN 105975546A
- Authority
- CN
- China
- Prior art keywords
- node
- information
- management
- submodule
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及一种新型计算机监管系统,所述监管系统分为底层、中间层和顶层三个层次,所述底层由被管理设备构成,每一个设备构成一个节点,中间层包括多个中间代理,顶层包括两个管理节点,所述两个管理节点采用主从模式,运行时主管理节点用于进行监控管理,当从管理节点检测到主管理节点故障后,启动本地的监控服务,当所述从管理节点检测到所述主管理节点恢复正常后,将监控管理功能移交给主管理节点;本发明提升数据访问速度,从而提升对于大型计算机系统的监控力度,优化监控性能。
Description
技术领域
本发明涉及计算机领域,具体涉及一种新型计算机监管系统。
背景技术
在大型计算机系统中系统设备复杂,系统中除了计算节点外,还包括存储设备、互连设备和基础架构(包括供电和制冷)等,因此监控管理系统需要在对系统软件资源管理的同时,对这些硬件设备进行监测与控制,实现一个功能完备的监控管理系统。
大规模计算机系统结构不同,其监控管理软件架构也不尽相同。目前比较典型的集群管理软件包括Ganglia、Nagios、Supermon和Parmon。
Ganglia是目前应用最为广泛的集群监控软件之一。Ganglia能够得到广泛的应用主要得益于以下三点:GangIia是一个开源项目;Ganglia采用分级的树状体系结构,该结构使得Ganglia具有良好的可扩展性,可支持不同规模的集群系统;Ganglia采用基于XML技术的数据传输机制,因此监控信息可以跨越不同的平台进行交互。Ganglia在不进行任何配置的情况下能够进行节点的删除与添加,但是其带来的代价很大。首先多播导致监控数据占用了系统网络带宽,其次每个节点都维护了一张本区域内的节点状态表,当区域较大时,这些全局冗余的数据的更新效率低下。
NagiosL61是由Ethan Galstad开发的一款基于GPLv2的开源软件,也是当前使用广泛的监控软件之一。Nagios与Ganglia都可用于高性能计算环境中,但是这两者对监控的侧重点不同。Ganglia更多地收集监控数据并随时跟踪这些数据,而Nagios则致力于成为一种报警机制。
Supermon是美国洛斯阿拉莫斯国家高级计算实验室开发的一套面向linux集群的监控系统。Supermon是监控系统中的单一失效点,同时Supermon由于需要串行访问所有节点上的mon模块导致在大规模系统中监控效率下降。
Parmon软件采用c/s结构,每个节点上运行一个server程序负责本地信息收集,Client负责集中管理与信息显示。当系统规模较大时Client收集全系统信息需要的时间较长从而导致监控软件的实时性差。
上述管理软件在一定规模的集群系统上可以高效运行,但是当系统规摸不断扩大时,这些管理软件均面临实时性、可靠性和完备性下降等问题,因此,有必要研发一种新型计算机监管系统,提升对于大型计算机系统的监控力度,优化监控性能。
发明内容
为了提升对于大型计算机系统的监控力度,优化监控性能,本发明提供一种新型计算机监管系统。
本发明是以如下技术方案实现的,一种新型计算机监管系统,所述监管系统分为底层、中间层和顶层三个层次,
所述底层由被管理设备构成,每一个设备构成一个节点,
中间层包括多个中间代理,每个中间代理管理一个或多个节点,所述中间代理负责接收来自所管辖范围内节点发送的信息,
顶层包括两个管理节点,所述管理节点用于管理中间代理发送的信息,并且提供基于web的监控服务,用户通过浏览器能够实现系统的远程和本地监控,所述两个管理节点上的报警信息处理模块负责接收系统内所有的报警消息,并且将所述报警消息发送到客户端,
所述两个管理节点采用主从模式,运行时主管理节点用于进行监控管理,当从管理节点检测到主管理节点故障后,启动本地的监控服务,当所述从管理节点检测到所述主管理节点恢复正常后,将监控管理功能移交给主管理节点,
所述中间代理使用mysql数据库和memcached分布式内存对象缓存系统进行管理,memcached作为mysql前端进行使用,用于缓存访问量最高的数据,所述memcached采用一致性哈希算法建立key-value存储机制,
所述管理节点采用SSDB进行管理,所述SSDB由内存中的MemTable和Immutable MemTable以及磁盘上的Log文件和SSTable文件构成。
优选的,所述底层的每个节点上运行一个信息采集模块,所述信息采集模块用于采集节点的资源信息,所述资源信息包括节点配置信息、节点资源使用情况和节点负载。
优选的,所述信息采集模块包括daemon子模块和OOB-mon子模块,所述Daemon子模块运行在节点上,用于采集本地信息,所述OOB-mon子模块为监控子模块,所述监控子模块由节点上的嵌入式系统来实现。
优选的,所述中间代理包括节点监听子模块、信息组播子模块和查询子模块,
所述节点监听子模块用于接收来自节点的静态信息和首次查询的动态信息,
所述信息组播子模块用于定时向所属分区内的节点发送中间代理的相关信息,
所述查询子模块用于定时对所属节点进行动态信息查询,并将查询的结果存储到mysql数据库。
本发明的有益效果是:
本发明提供了一种新型计算机监管系统,通过三层架构、mysql数据库、memcached分布式内存对象缓存系统和SSDB进行监控管理,通过减少sql解析和磁盘操作加速数据操作的速度,并且memcached提供缓存减少了对于mysql的访问次数,提升数据访问速度,从而提升对于大型计算机系统的监控力度,优化监控性能。
附图说明
图1是第一个实施例装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
在一个实施例中,如图1所示,一种新型计算机监管系统,所述监管系统分为底层、中间层和顶层三个层次,
所述底层由被管理设备构成,每一个设备构成一个节点,
中间层包括多个中间代理,每个中间代理管理一个或多个节点,所述中间代理负责接收来自所管辖范围内节点发送的信息,
顶层包括两个管理节点,所述管理节点用于管理中间代理发送的信息,并且提供基于web的监控服务,用户通过浏览器能够实现系统的远程和本地监控,所述两个管理节点上的报警信息处理模块负责接收系统内所有的报警消息,并且将所述报警消息发送到客户端,
所述两个管理节点采用主从模式,运行时主管理节点用于进行监控管理,当从管理节点检测到主管理节点故障后,启动本地的监控服务,当所述从管理节点检测到所述主管理节点恢复正常后,将监控管理功能移交给主管理节点,
所述中间代理使用mysql数据库和memcached分布式内存对象缓存系统进行管理,memcached作为mysql前端进行使用,用于缓存访问量最高的数据,所述memcached采用一致性哈希算法建立key-value存储机制,
所述管理节点采用SSDB进行管理,所述SSDB由内存中的MemTable和Immutable MemTable以及磁盘上的Log文件和SSTable文件构成。
具体地,所述底层的每个节点上运行一个信息采集模块,所述信息采集模块用于采集节点的资源信息,所述资源信息包括节点配置信息、节点资源使用情况和节点负载。
具体地,所述信息采集模块包括daemon子模块和OOB-mon子模块,所述Daemon子模块运行在节点上,用于采集本地信息,所述OOB-mon子模块为监控子模块,所述监控子模块由节点上的嵌入式系统来实现。
具体地,所述中间代理包括节点监听子模块、信息组播子模块和查询子模块,
所述节点监听子模块用于接收来自节点的静态信息和首次查询的动态信息,
所述信息组播子模块用于定时向所属分区内的节点发送中间代理的相关信息,
所述查询子模块用于定时对所属节点进行动态信息查询,并将查询的结果存储到mysql数据库。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (4)
1.一种新型计算机监管系统,其特征在于,所述监管系统分为底层、中间层和顶层三个层次,
所述底层由被管理设备构成,每一个设备构成一个节点,
中间层包括多个中间代理,每个中间代理管理一个或多个节点,所述中间代理负责接收来自所管辖范围内节点发送的信息,
顶层包括两个管理节点,所述管理节点用于管理中间代理发送的信息,并且提供基于web的监控服务,用户通过浏览器能够实现系统的远程和本地监控,所述两个管理节点上的报警信息处理模块负责接收系统内所有的报警消息,并且将所述报警消息发送到客户端,
所述两个管理节点采用主从模式,运行时主管理节点用于进行监控管理,当从管理节点检测到主管理节点故障后,启动本地的监控服务,当所述从管理节点检测到所述主管理节点恢复正常后,将监控管理功能移交给主管理节点,
所述中间代理使用mysql数据库和memcached分布式内存对象缓存系统进行管理,memcached作为mysql前端进行使用,用于缓存访问量最高的数据,所述memcached采用一致性哈希算法建立key-value存储机制,
所述管理节点采用SSDB进行管理,所述SSDB由内存中的MemTable和Immutable MemTable以及磁盘上的Log文件和SSTable文件构成。
2.根据权利要求1所述的一种新型计算机监管系统,其特征在于,所述底层的每个节点上运行一个信息采集模块,所述信息采集模块用于采集节点的资源信息,所述资源信息包括节点配置信息、节点资源使用情况和节点负载。
3.根据权利要求2所述的一种新型计算机监管系统,其特征在于,所述信息采集模块包括daemon子模块和OOB-mon子模块,所述Daemon子模块运行在节点上,用于采集本地信息,所述OOB-mon子模块为监控子模块,所述监控子模块由节点上的嵌入式系统来实现。
4.根据权利要求1所述的一种新型计算机监管系统,其特征在于,所述中间代理包括节点监听子模块、信息组播子模块和查询子模块,
所述节点监听子模块用于接收来自节点的静态信息和首次查询的动态信息,
所述信息组播子模块用于定时向所属分区内的节点发送中间代理的相关信息,
所述查询子模块用于定时对所属节点进行动态信息查询,并将查询的结果存储到mysql数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610283317.XA CN105975546A (zh) | 2016-05-03 | 2016-05-03 | 一种新型计算机监管系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610283317.XA CN105975546A (zh) | 2016-05-03 | 2016-05-03 | 一种新型计算机监管系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105975546A true CN105975546A (zh) | 2016-09-28 |
Family
ID=56993857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610283317.XA Pending CN105975546A (zh) | 2016-05-03 | 2016-05-03 | 一种新型计算机监管系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105975546A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106603329A (zh) * | 2016-12-02 | 2017-04-26 | 曙光信息产业(北京)有限公司 | 一种服务器集群的监控方法和系统 |
CN110971627A (zh) * | 2018-09-28 | 2020-04-07 | 杭州海康威视数字技术股份有限公司 | 节点控制方法及装置、任务处理系统 |
US11249860B2 (en) | 2017-11-21 | 2022-02-15 | Beijing Kingsoft Cloud Network Technology, Co., Ltd. | Node down recovery method and apparatus, electronic device, and storage medium |
-
2016
- 2016-05-03 CN CN201610283317.XA patent/CN105975546A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106603329A (zh) * | 2016-12-02 | 2017-04-26 | 曙光信息产业(北京)有限公司 | 一种服务器集群的监控方法和系统 |
US11249860B2 (en) | 2017-11-21 | 2022-02-15 | Beijing Kingsoft Cloud Network Technology, Co., Ltd. | Node down recovery method and apparatus, electronic device, and storage medium |
CN110971627A (zh) * | 2018-09-28 | 2020-04-07 | 杭州海康威视数字技术股份有限公司 | 节点控制方法及装置、任务处理系统 |
CN110971627B (zh) * | 2018-09-28 | 2022-08-05 | 杭州海康威视数字技术股份有限公司 | 节点控制方法及装置、任务处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10296498B2 (en) | Coordinated hash table indexes to facilitate reducing database reconfiguration time | |
US10089307B2 (en) | Scalable distributed data store | |
CN109241161B (zh) | 一种气象数据管理方法 | |
CN104484472B (zh) | 一种混合多种异构数据源的数据库集群及实现方法 | |
CN102694868B (zh) | 一种集群系统实现及任务动态分配方法 | |
Guo et al. | The building of cloud computing environment for e-health | |
US11841864B2 (en) | Method, device, and program product for managing index of streaming data storage system | |
KR20180057639A (ko) | 선택적 리소스 이동을 이용하는 네트워크 결합 메모리 | |
Wang et al. | Hybrid pulling/pushing for i/o-efficient distributed and iterative graph computing | |
CN111639114A (zh) | 一种基于物联网平台的分布式数据融合管理系统 | |
CN103595799A (zh) | 一种实现分布式共享数据库的方法 | |
CN110784539A (zh) | 一种基于云计算的数据管理系统及方法 | |
CN105975546A (zh) | 一种新型计算机监管系统 | |
CN114647716A (zh) | 一种泛化数据仓库 | |
Tsai et al. | Scalable SaaS indexing algorithms with automated redundancy and recovery management. | |
CN113127526A (zh) | 一种基于Kubernetes的分布式数据存储和检索系统 | |
CN105955867A (zh) | 一种监控管理系统 | |
CN112685486B (zh) | 数据库集群的数据管理方法、装置、电子设备及存储介质 | |
Fang et al. | A-dsp: An adaptive join algorithm for dynamic data stream on cloud system | |
Lin et al. | ReHRS: A hybrid redundant system for improving MapReduce reliability and availability | |
CN105511952A (zh) | 基于云计算平台的资源自迁移方法及系统 | |
Wang et al. | Hgraph: I/o-efficient distributed and iterative graph computing by hybrid pushing/pulling | |
EP3709173B1 (en) | Distributed information memory system, method, and program | |
CN110569310A (zh) | 一种云计算环境下的关系大数据的管理方法 | |
Hu et al. | DDC: distributed data collection framework for failure prediction in Tianhe supercomputers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160928 |
|
WD01 | Invention patent application deemed withdrawn after publication |