CN101183996A - 一种集群信息的监控方法 - Google Patents

一种集群信息的监控方法 Download PDF

Info

Publication number
CN101183996A
CN101183996A CNA2007101151672A CN200710115167A CN101183996A CN 101183996 A CN101183996 A CN 101183996A CN A2007101151672 A CNA2007101151672 A CN A2007101151672A CN 200710115167 A CN200710115167 A CN 200710115167A CN 101183996 A CN101183996 A CN 101183996A
Authority
CN
China
Prior art keywords
information
node
module
management node
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101151672A
Other languages
English (en)
Inventor
魏健
王守昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Langchao Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Langchao Electronic Information Industry Co Ltd filed Critical Langchao Electronic Information Industry Co Ltd
Priority to CNA2007101151672A priority Critical patent/CN101183996A/zh
Publication of CN101183996A publication Critical patent/CN101183996A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种集群信息的监控方法,包括监控Controller:将节点拓扑关系传递给信息收集模块,控制信息模块收集信息;信息收集模块:根据拓扑关系,形成信息传递链,收集集群中节点的信息,依此信息传递方式,能够减少通讯开支,且有很好的扩展性;报警模块:按用户设定的报警方式:mail、手机短信方式,向用户提供性能预警和硬件告警;记账统计模块:与信息收集模块相连,将信息收集模块收集的性能信息、记账信息进行处理,跟踪集群资源的消费情况。本发明中监控信息的传递方式适用于大规模集群;本发明可快速发现及时处理故障,提高整个集群系统的可用性;本发明为集群的系统优化提供数据支持和分析依据。

Description

一种集群信息的监控方法
1.技术领域
本发明涉及集群系统信息监控的方法,特别涉及大规模集群中信息监控的方法。
2.技术背景
近年来,随着计算机技术的发展,用集群构造超级计算机或超级服务器成为一种流行的趋势。集群的规模从过去的数个节点扩充到数百个节点甚至数千个节点,集群系统的管理监控也变得越来越复杂,集群的管理监控越来越成为一项具有挑战性的工作。如何有效的监控集群系统以及对集群进行维护都成为集群管理员费时费力的工作。由于收集的监控信息是海量的、未经处理的,用户无法直观的从这些数据中获得优化集群系统的依据。
3.发明内容
本发明的是要解决大规模集群中有效的对节点进行信息监控的问题,以及收集的信息未经过处理,用户难以理解,难以对集群的系统优化进行数据支持的问题。
本发明提供了一种集群信息监控方法,本发明的方法包括监控Controller、信息收集模块、报警模块和记账统计模块,其中监控Controller:控制信息模块收集信息,将节点拓扑关系传递给信息收集模块,信息收集模块根据拓扑关系,形成信息传递链收集集群中节点的信息,报警模块与信息收集模块相连,按用户设定的报警方式,mail、手机短信方式,向用户提供告警;记账统计模块与信息收集模块相连,将信息收集模块收集信息进行处理,跟踪集群资源的消费情况。
监控Controller自动读取配置文件中节点信息,将监控Controller运行的节点,作为根节点,也称为主管理节点(MM),根据广度优先的原则依次挂接其他节点作为普通节点(NM),当主管理节点(MM)的挂接数目达到饱和值时,启动一普通节点使其成为子管理节点(SM),继续挂接普通节点,当该子管理节点(SM)达到饱和值时,主管理节点又启动另一普通节点进行挂接,依次类推当所有普通节点都成为子管理节点时,再启动子管理节点下的普通节点成为子管理节点,直到配置文件中的所有节点都挂接完成。信息收集模块启动信息收集时,所有普通节点的信息向上传递给其子管理节点,子管理节点将信息进行链接,并将其自身的信息链接在后面,然后再向上一级子管理节点传递,最终到达主管理节点,主管理节点将收到与饱和值相当数量的信息链。这种传递信息的方式能够确保监控信息在网络上的转发次数最少,提高监控任务的执行效率。这种传递信息的方式,易于集群规模的扩展。
信息收集模块收集的信息包括:节点的CPU、内存、网络的负载信息,以及磁盘容量、CPU温度、电压、风扇转速、用户联机时间,信息收集模块收集到这些信息后与用户设定的阀值进行比较,一旦发现超出设定的域值,就按用户设定的报警方式进行告警。用户可以设定的报警方式包括:mail、手机短信;方便用户及时的获得故障信息,快速处理故障,提高整个集群系统的可用性。
记账统计模块将信息收集模块收集到的信息进行处理后存入数据库,并可按用户的要求输出CPU消费报表、网络流量报表,为用户对集群的系统优化提供数据支持和分析依据。
本发明集群信息监控方法,所具有的有益效果是:提高了集群系统的可用性和监控信息的通讯效率,确保监控信息在网络上的转发次数最少,提高监控任务的执行效率;完善报警机制和方便管理员快速发现故障。
4.附图说明
图1集群信息监控工作原理图;
图2集群信息监控流程图
图3集群信息监控拓扑结构和信息传递链示意图。
5.实施方式
下面通过附图和实施例对本发明的技术方案做进一步的详细描述。
如图1所示,为本发明的一实施例的基本结构示意图,本发明的方法包括设置监控Controller、信息收集模块、报警模块、记账统计模块,其中监控Controller是整个监控过程的核心,对整体的运行进行控制;信息收集模块与监控Controller相连,从监控Controller获得节点拓扑关系,形成信息传递链,收集集群中节点的信息,依此信息传递方式,能够减少通讯开支,且有很好的扩展性;报警模块与信息收集模块相连,判断信息收集模块收集的信息是否超出阀值,如果是,则按用户设定的报警方式:mail、手机短信方式,向用户提供性能预警和硬件告警;记账统计模块与信息收集模块相连,将判断信息收集模块收集的信息存入数据库保存,为以后的处理做准备,也可按用户的要求输出CPU消费报表、网络流量报表。
监控过程如图2所示,其包括以下步骤:步骤11,监控进程接收操作指令,启动运行;步骤12,监控Controller 1读取配置文件信息,对自身和其他模块的参数进行配置,并读取节点信息形成拓扑结构;步骤13,信息收集进程启动,信息收集模块根据获得的拓扑结构,形成信息传递链;步骤14,信息收集模块,处理信息链,获得各节点的信息;步骤15,报警模块判断获得的信息是否在用户设定的阀值范围中,如果否,则按用户设定的报警方式:mail、手机短信方式,向用户提供性能预警和硬件告警;步骤16,记账统计模块将收集的信息存入数据库保存,为以后处理时使用。
图2是读取节点信息形成拓扑结构的示意图,信息传递链的示意图如图3所示,监控Controller读取节点信息,将监控Controller运行的节点,作为根节点,也称为主管理节点(MM),假设剩余节点数目为7,根据广度优先的原则依次挂接其他节点作为普通节点(NM1,NM2,NM3),普通节点上运行NMAgent负责收集自身节点的监控信息;当主管理节点(MM)的挂接数目达到饱和值n时(饱和值n是主管理节点根据自身能承受的负载限定的挂接最大普通节点的数目,此处假设饱和值n等于3),启动一普通节点(NM1)使其成为子管理节点(SM1),子管理节点(SM1)继续挂接普通节点NM4、NM5、NM6,子管理节点运行SMAgent和NMAgent,负责收集其下面挂接的所有普通节点的信息和其自身的信息,当该子管理节点(SM1)达到饱和值时,主管理节点又启动另一普通节点(NM3)成为子管理节点(SM3)进行挂接,直到配置文件中的所有节点都挂接完成,此实例中直道NM7挂接完成。依次类推当所有普通节点都成为子管理节点时,再启动子管理节点下的普通节点成为子管理节点,最大能够挂接的节点数目是n*(n+1)。信息收集模块启动信息收集时,所有普通节点的信息向上传递给其子管理节点;子管理节点收到信息后,将信息进行链接,并将其自身的信息链接在后面;然后再向上一级传递,最终到达主管理节点,主管理节点将收到与饱和值相当数量的信息链。此处M4、M5、M6传递到SM1,SM1将其链接成M4+M5+M6,然后把其自身的信息链接在后面M4+M5+M6+M1,传递给主管理节点,最后主管理节点处收到3条信息链M4+ M5+M6+M1、M2、M7+M3

Claims (6)

1.一种集群信息的监控方法,其特征在于包括:设置监控Controller、信息收集模块、报警模块和记账统计模块,其中监控Controller:控制信息模块收集信息,将节点拓扑关系传递给信息收集模块,信息收集模块根据拓扑关系,形成信息传递链收集集群中节点的信息,报警模块与信息收集模块相连,按用户设定的报警方式,mail、手机短信方式,向用户提供告警;记账统计模块与信息收集模块相连,将信息收集模块收集信息进行处理,跟踪集群资源的消费情况。
2.根据权利要求1所述的方法,其特征在于监控Controller,自动读取配置文件中节点信息,形成节点拓扑结构;监控Controller将监控Controller运行的节点,作为根节点,也称为主管理节点(MM),根据广度优先的原则依次挂接其他节点作为普通节点(NM),当主管理节点(MM)的挂接数目达到饱和值时,启动主管理节点(MM)下的一普通节点使其成为子管理节点(SM),继续挂接普通节点,当该子管理节点(SM)达到饱和值时,主管理节点又启动另一普通节点进行挂接,依次类推当所有主管理节点(MM)下的普通节点都成为子管理节点时,再启动子管理节点下的普通节点成为子管理节点,直到配置文件中的所有节点都挂接完成
3.根据权利要求2所述的方法,其特征在于普通节点(NM),负责收集自身节点的监控信息;子管理节点(SM),负责收集其下面挂接的所有普通节点的信息和其自身的信息;根据拓扑结构,信息传递及链接的过程是:所有普通节点的信息向上传递给其子管理节点,子管理节点将信息进行链接,并将其自身的信息链接在后面,然后再向上一级子管理节点传递,最终到达主管理节点;主管理节点将收到与饱和值相当数量的信息链。
4.根据权利要求1所述的方法,其特征在于信息收集模块收集的信息包括:节点的CPU、内存、网络的负载信息,以及磁盘容量、CPU温度、电压、风扇转速、用户联机时间。
5.根据权利要求1所述的方法,其特征在于报警模块将信息收集模块收集的负载信息与用户设定的阀值进行比较,一旦发现超出设定的域值,就按用户设定的报警方式:mail、手机短信,进行告警。
6.根据权利要求1所述的方法,其特征在于记账统计模块与信息收集模块相连,将信息收集模块收集到的信息进行处理后存入数据库,并可按用户的要求输出CPU消费报表、网络流量报表。
CNA2007101151672A 2007-12-13 2007-12-13 一种集群信息的监控方法 Pending CN101183996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101151672A CN101183996A (zh) 2007-12-13 2007-12-13 一种集群信息的监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101151672A CN101183996A (zh) 2007-12-13 2007-12-13 一种集群信息的监控方法

Publications (1)

Publication Number Publication Date
CN101183996A true CN101183996A (zh) 2008-05-21

Family

ID=39449090

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101151672A Pending CN101183996A (zh) 2007-12-13 2007-12-13 一种集群信息的监控方法

Country Status (1)

Country Link
CN (1) CN101183996A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651576B (zh) * 2009-08-28 2011-11-30 国家计算机网络与信息安全管理中心 告警信息处理方法和系统
CN101646135B (zh) * 2009-08-28 2011-12-07 国家计算机网络与信息安全管理中心 用于集群监控的告警通知方法及系统
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
CN104090777A (zh) * 2014-07-28 2014-10-08 浪潮电子信息产业股份有限公司 一种对软件功能模块自定义界面布局的方法
CN104363280A (zh) * 2014-11-13 2015-02-18 浪潮(北京)电子信息产业有限公司 一种基于双通道传输的集群监控管理方法及系统
CN101778136B (zh) * 2010-01-15 2015-06-03 浪潮电子信息产业股份有限公司 通过网络远程实时监控为客户机安装操作系统的方法
CN108092815A (zh) * 2017-12-22 2018-05-29 合肥寰景信息技术有限公司 一种多通道并行处理信号集群性能监测方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651576B (zh) * 2009-08-28 2011-11-30 国家计算机网络与信息安全管理中心 告警信息处理方法和系统
CN101646135B (zh) * 2009-08-28 2011-12-07 国家计算机网络与信息安全管理中心 用于集群监控的告警通知方法及系统
CN101778136B (zh) * 2010-01-15 2015-06-03 浪潮电子信息产业股份有限公司 通过网络远程实时监控为客户机安装操作系统的方法
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
CN103607297B (zh) * 2013-11-07 2017-02-08 上海爱数信息技术股份有限公司 一种计算机集群系统的故障处理方法
CN104090777A (zh) * 2014-07-28 2014-10-08 浪潮电子信息产业股份有限公司 一种对软件功能模块自定义界面布局的方法
CN104363280A (zh) * 2014-11-13 2015-02-18 浪潮(北京)电子信息产业有限公司 一种基于双通道传输的集群监控管理方法及系统
CN104363280B (zh) * 2014-11-13 2018-06-12 浪潮(北京)电子信息产业有限公司 一种基于双通道传输的集群监控管理方法及系统
CN108092815A (zh) * 2017-12-22 2018-05-29 合肥寰景信息技术有限公司 一种多通道并行处理信号集群性能监测方法

Similar Documents

Publication Publication Date Title
CN101183996A (zh) 一种集群信息的监控方法
CN105159964B (zh) 一种日志监控方法及系统
WO2016041468A1 (zh) 一种唤醒方法、装置及终端
CN206060359U (zh) 一种分布式光伏电站的集中监控运维系统
CN102750350B (zh) 监控系统及方法
CN110794800A (zh) 一种智慧工厂信息管理的监控系统
WO2020211561A1 (zh) 数据的处理方法、装置、存储介质及电子装置
CN103163841A (zh) 自动化设备远程监控系统及方法
Bian et al. The new intelligent home control system based on the dynamic and intelligent gateway
CN107580054A (zh) 基于物联网的工业设备反向控制方法及系统
CN111143167B (zh) 用于多平台的告警归并方法及装置、设备、存储介质
CN110427298A (zh) 一种分布式日志的自动特征提取方法
CN115277692B (zh) 边缘网络计算终端设备自动运维方法、装置和系统
CN113869791A (zh) 一种基于日志模型的电网运维修复方法
CN111090643A (zh) 一种基于数据分析系统下的海量用电数据挖掘方法
CN104881015B (zh) 一种信息处理方法及智能家居控制设备
CN108667652A (zh) 一种远动机主备机安全切换模块及其切换方法
CN101820356A (zh) 基于ARM-Linux的网络故障诊断系统
CN106982128A (zh) 基于网络的社群构建方法
CN110572783B (zh) 基于短信的远程安全监控管理系统和方法
CN116567127B (zh) 一种具有故障监测功能的智能手机
CN113608952A (zh) 一种基于日志构建支持环境的系统故障处理方法及系统
CN202632054U (zh) 自动化设备远程监控系统
CN112506154A (zh) 一种生活污水处理站物联网监控系统
CN106774205A (zh) 智能型风电场的中央监控设备和风机监控方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080521