CN103634149B - 一种用于分布式系统的监测方法 - Google Patents

一种用于分布式系统的监测方法 Download PDF

Info

Publication number
CN103634149B
CN103634149B CN201310629527.6A CN201310629527A CN103634149B CN 103634149 B CN103634149 B CN 103634149B CN 201310629527 A CN201310629527 A CN 201310629527A CN 103634149 B CN103634149 B CN 103634149B
Authority
CN
China
Prior art keywords
module
distributed
information
monitoring
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310629527.6A
Other languages
English (en)
Other versions
CN103634149A (zh
Inventor
李晓芳
彭建华
庄燕滨
肖贤建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Dongji Road International Trade Co., Ltd.
Original Assignee
Changzhou Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Institute of Technology filed Critical Changzhou Institute of Technology
Priority to CN201310629527.6A priority Critical patent/CN103634149B/zh
Publication of CN103634149A publication Critical patent/CN103634149A/zh
Application granted granted Critical
Publication of CN103634149B publication Critical patent/CN103634149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种用于分布式系统的监测方法,在分布式主机部署监测模块,通过握手和心跳信息达到监测和告警的目的,本发明能实时收集、监测分布式系统中的各个进程的状态,根据收集到的状态对分布式系统进行状态统计,一旦发现分布式系统中进程异常以及进程处理业务出现异常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失。

Description

一种用于分布式系统的监测方法
技术领域
本发明涉及分布式系统,特别是一种用于分布式系统的监测方法。
背景技术
在大数据分析等分布式系统中,系统的稳定性、系统各个进程的运行状态以及数据处理状态一般很难进行计算与统计,这样就不能实时知道整个分布式系统的运行、处理情况,基于这种现状,当发现分布式系统出现问题时,往往已经造成了较严重的后果,尤其是基于实时大数据处理的分布式系统而言,造成的损失更大。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种能实时收集、监测分布式系统中的各个进程的状态,根据收集到的状态对分布式系统进行状态统计,一旦发现分布式系统中进程异常以及进程处理业务出现异常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失的用于分布式系统的监测方法。
为了达到上述目的,本发明采用以下技术方案:一种用于分布式系统的监测方法,步骤包括:
1)在分布式主机上启动监测模块,所述的监测模块通过端口监测分布式模块的注册信息,之后执行步骤2);
2)所述的分布式模块启动时,获取分布式模块所在机器的MAC地址与模块名,根据注册协议格式构造注册信息,所述的分布式模块发送注册信息给主机监测模块,所述的主机监测模块收到注册信息后,则回复注册成功信息给注册的模块,之后执行步骤3),否则执行步骤1);
3)所述的主机监测模块接收到分布式模块的注册信息后,按照协议格式进行解码,把模块注册信息放入处理协议结构ProcessProtocol中,并把结构实例放入到矢量类型的vProcessProtocol变量中,之后执行步骤4);
4)监控主机定时轮询vProcessProtocol变量,根据vProcessProtocol变量向对应的分布式模块发送握手消息,所述的分布式模块在握手响应中携带分布式主机的cpu占用率和内存利用情况信息,所述的监测模块解析分布式模块的握手响应,并把信息放入到进程状态结构ProcessStatus中,把存放分布式模块信息对应的进程状态结构ProcessStatus实例放入到vector类型变量vProcessStatus中,同时根据vProcessStatus中的信息,计算、统计各个分布式模块的模块状态与系统状态,之后执行步骤5);
5)当监测模块连续3次收不到对应分布式模块的握手响应,则认为分布式模块异常或网络异常,之后执行步骤6),否则执行步骤4);
6)检查模块通过使用Linux系统的ping命令监测网络状态,当ping命令返回网络异常,则发送网络异常告警,否则发送分布式模块异常告警,把异常的分布式模块的信息保存在日志文件中,同时从vProcessStatus变量中移除该模块的状态信息以及从vProcessProtocol变量中移除该模块的注册信息,之后执行步骤7);
7)告警级别通过配置文件进行定义,分布式主机监控模块启动时,加载告警级别配置文件,对告警级别进行预置,告警主机收到分布式模块的告警信息,根据告警级别选择告警行为,严重告警级别发送短信、声音以及邮件及时提醒,同时向告警监控屏幕输出告警信息,一般告警信息直接向告警监控屏幕输出告警信息,之后执行步骤8);
8)所述的分布式模块收到注册响应后,启动分布式模块与监测模块之间保活的心跳线程,定时向监测模块发送心跳信息,监测模块收到分布式模块的心跳消息后,实时回应心跳响应给对应分布式模块,之后执行步骤9);
9)当分布式模块连续3次收不到监测模块的心跳响应,则认为网络异常或监测模块异常,记录异常日志到日志文件,启动注册流程,定时重新注册,直到收到注册响应,之后执行步骤10),否则执行步骤8);
10)所述的分布式模块通过订阅协议格式,向监测模块订阅其它分布式模块与该模块所在机器的CPU占用、内存占用以及系统空闲信息。
所述的步骤2)中注册协议格式为功能模块唯一标识号和功能模块类型的组合,所述的功能模块唯一标识号为功能模块所在机器的MAC地址与功能模块名称的组合。
采用上述技术方案后,本发明具有以下有益效果:本发明能实时收集、监测分布式系统中的各个进程的状态,根据收集到的状态对分布式系统进行状态统计,一旦发现分布式系统中进程异常以及进程处理业务出现异常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失。
附图说明
图1分布式功能模块注册以及与主机功能模块保活流程以及信息交互图。
具体实施方式
下面根据说明书附图和具体实施例对本发明作进一步的解释。
如图1所示,1.在分布式主机启动监测功能模块,监测功能模块进入工作态后,通过端口监测分布式功能模块的注册信息;
2.分布式功能模块启动时,功能模块进入工作态后,获取本功能模块所在机器的MAC地址与功能模块名,根据注册协议格式构造注册信息,注册协议格式为:MAC地址&&功能模块名&&功能模块类型,注册交换逻辑为:分布式发送注册信息给主机监测功能模块,主机监测功能模块收到注册信息后,回复注册成功信息给注册的功能模块,这样注册流程完成;
3.主机监测功能模块接收到分布式功能模块的注册信息后,按照协议格式进行解码,把注册的分布式功能模块信息放入ProcessProtocol结构,并把结构实例放入到矢量类型的vProcessProtocol变量中;
4.监控主机定时轮询vProcessProtocol变量,根据该变量向对应的分布式功能模块发送握手消息,分布式功能模块在握手响应中携带分布式主机的cpu占用率、内存利用情况等信息,监测功能模块解析分布式功能模块的握手响应,并把信息放入到ProcessStatus结构,把存放分布式功能模块信息对应的ProcessStatus实例放入到vector类型变量vProcessStatus中,同时根据vProcessStatus中的信息,计算、统计各个分布式功能模块的功能模块状态与系统状态;
5.监测功能模块如果连续3次收不到对应分布式功能模块的握手响应,则认为分布式功能模块异常或网络异常;
6.通过使用linux系统的ping命令监测网络状态,如果ping命令返回网络异常,则发送网络异常告警,如果网络正常,则发送分布式功能模块异常告警,把异常的分布式功能模块的信息保存在日志文件中,同时从vProcessStatus中移除该功能模块的状态信息以及从vProcessProtocol中移除该功能模块的注册信息;
7.告警主机启动时,加载告警级别配置文件,告警主机收到分布式功能模块的告警信息,根据告警级别选择告警行为,严重告警级别发送短信、声音以及邮件及时提醒,同时向告警监控屏幕输出告警信息,一般告警信息直接向告警监控屏幕输出告警信息。告警级别分为严重、重要、一般、提醒。告警级别通过配置文件定义,严重级别告警码为:SW***;重要级别告警码为:IW***;一般级别告警码为:GA***;提醒级别告警码为:RA***。其中分布式模块或监控模块发生通信中断、模块运行异常终止等影响系统正常运行的事件属于严重告警;影响业务功能的告警属于严重告警;对系统与业务没有重要影响的告警,属于一般告警;一些希望引起关注,便于后续问题分析的事件,属于提醒。告警级别的定义,根据不同场景选择不同分类,对告警配置文件进行配置;
8.分布式功能模块收到注册响应后,启动分布式功能模块与监测功能模块之间保活的心跳线程,定时向监测功能模块发送心跳信息,监测功能模块收到分布式功能模块的心跳消息后,实时回应心跳响应给对应分布式功能模块;
9.分布式功能模块如果连续3次收不到监测功能模块的心跳响应,则认为网络异常或监测功能模块异常,记录异常日志到日志文件,启动注册流程,定时重新注册,直到收到注册响应;
10.分布式功能模块通过订阅协议格式,向监测功能模块订阅其它分布式功能模块与该功能模块所在机器的cpu占用、内存占用以及系统空闲信息等信息。
所述的监测模块与分布式模块构成的双向保活机制确保系统通信的完整性与稳定性,监测模块主动发起心跳保活流程,通过连续3次是否收到分布式模块握手心跳响为标准以确定监测模块到分布式模块的通信状态,同时分布式模块主动发起心跳保活流程,通过连续3次是否收到监测模块握手心跳响为标准以确定分布式模块到监测模块的通信状态。

Claims (2)

1.一种用于分布式系统的监测方法,其特征在于步骤包括:
1)在分布式主机上启动监测模块,所述的监测模块通过端口监测分布式模块的注册信息,之后执行步骤2);
2)所述的分布式模块启动时,获取分布式模块所在机器的MAC地址与模块名,根据注册协议格式构造注册信息,所述的分布式模块发送注册信息给主机监测模块,所述的主机监测模块收到注册信息后,则回复注册成功信息给注册的模块,之后执行步骤3),否则执行步骤1);
3)所述的主机监测模块接收到分布式模块的注册信息后,按照协议格式进行解码,把模块注册信息放入处理协议结构ProcessProtocol中,并把结构实例放入到矢量类型的vProcessProtocol变量中,之后执行步骤4);
4)监控主机定时轮询vProcessProtocol变量,根据vProcessProtocol变量向对应的分布式模块发送握手消息,所述的分布式模块在握手响应中携带分布式主机的cpu占用率和内存利用情况信息,所述的监测模块解析分布式模块的握手响应,并把信息放入到进程状态结构ProcessStatus中,把存放分布式模块信息对应的进程状态结构ProcessStatus实例放入到vector类型变量vProcessStatus中,同时根据vProcessStatus中的信息,计算、统计各个分布式模块的模块状态与系统状态,之后执行步骤5);
5)当监测模块连续3次收不到对应分布式模块的握手响应,则认为分布式模块异常或网络异常,之后执行步骤6),否则执行步骤4);
6)检查模块通过使用Linux系统的ping命令监测网络状态,当ping命令返回网络异常,则发送网络异常告警,否则发送分布式模块异常告警,把异常的分布式模块的信息保存在日志文件中,同时从vProcessStatus变量中移除该模块的状态信息以及从vProcessProtocol变量中移除该模块的注册信息,之后执行步骤7);
7)告警级别通过配置文件进行定义,分布式主机监控模块启动时,加载告警级别配置文件,对告警级别进行预置,告警主机收到分布式模块的告警信息,根据告警级别选择告警行为,严重告警级别发送短信、声音以及邮件及时提醒,同时向告警监控屏幕输出告警信息,一般告警信息直接向告警监控屏幕输出告警信息,之后执行步骤8);
8)所述的分布式模块收到注册响应后,启动分布式模块与监测模块之间保活的心跳线程,定时向监测模块发送心跳信息,监测模块收到分布式模块的心跳消息后,实时回应心跳响应给对应分布式模块,之后执行步骤9);
9)当分布式模块连续3次收不到监测模块的心跳响应,则认为网络异常或监测模块异常,记录异常日志到日志文件,启动注册流程,定时重新注册,直到收到注册响应,之后执行步骤10),否则执行步骤8);
10)所述的分布式模块通过订阅协议格式,向监测模块订阅其它分布式模块与该模块所在机器的CPU占用、内存占用以及系统空闲信息。
2.根据权利要求1所述的一种用于分布式系统的监测方法,其特征在于所述的步骤2)中注册协议格式为功能模块唯一标识号和功能模块类型的组合,所述的功能模块唯一标识号为功能模块所在机器的MAC地址与功能模块名称的组合。
CN201310629527.6A 2013-11-28 2013-11-28 一种用于分布式系统的监测方法 Active CN103634149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310629527.6A CN103634149B (zh) 2013-11-28 2013-11-28 一种用于分布式系统的监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310629527.6A CN103634149B (zh) 2013-11-28 2013-11-28 一种用于分布式系统的监测方法

Publications (2)

Publication Number Publication Date
CN103634149A CN103634149A (zh) 2014-03-12
CN103634149B true CN103634149B (zh) 2016-08-17

Family

ID=50214802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310629527.6A Active CN103634149B (zh) 2013-11-28 2013-11-28 一种用于分布式系统的监测方法

Country Status (1)

Country Link
CN (1) CN103634149B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065748A (zh) * 2014-07-10 2014-09-24 哈尔滨工程大学 一种分布式系统脆性动态监测方法
CN105553702A (zh) * 2015-12-11 2016-05-04 天津七一二通信广播有限公司 一种二次开发的轨道交通无线通信网管系统
CN105681128A (zh) * 2016-01-12 2016-06-15 北京中交兴路车联网科技有限公司 一种用于大数据系统状态监控的方法和装置
CN106161087A (zh) * 2016-06-28 2016-11-23 浪潮(北京)电子信息产业有限公司 一种Linux系统的网卡错误事件收集方法及系统
CN107515796B (zh) * 2017-07-31 2020-08-25 奇安信科技集团股份有限公司 一种设备异常监控处理方法及装置
CN107562796A (zh) * 2017-08-02 2018-01-09 上海斐讯数据通信技术有限公司 一种海量移动终端在线量统计方法和装置
CN107483601A (zh) * 2017-08-28 2017-12-15 郑州云海信息技术有限公司 一种分布式定时任务的实现方法及执行系统
CN108121614A (zh) * 2018-01-16 2018-06-05 郑州云海信息技术有限公司 一种ipmi进程监控方法、系统、设备及计算机介质
CN109245937B (zh) * 2018-10-08 2022-03-25 郑州云海信息技术有限公司 一种pim平台的告警方法及装置
CN109729002A (zh) * 2018-12-21 2019-05-07 山东智洋电气股份有限公司 机房监控告警、消警方法及装置
CN111935727B (zh) * 2020-07-10 2023-01-31 展讯半导体(成都)有限公司 通信异常处理方法、主节点、室内分布系统及存储介质
CN112612672B (zh) * 2020-12-18 2022-03-01 四川九洲电器集团有限责任公司 一种嵌入式软件实时运行状态监控方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466314A (zh) * 2002-06-19 2004-01-07 ��Ϊ�������޹�˾ 一种网管集中告警箱及其告警处理方法
JP2006190138A (ja) * 2005-01-07 2006-07-20 Mitsubishi Electric Corp アラーム管理装置及びアラーム管理方法及びプログラム
CN103166804A (zh) * 2011-12-14 2013-06-19 北京赛斯通科技发展有限公司 Sstm集中监控管理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466314A (zh) * 2002-06-19 2004-01-07 ��Ϊ�������޹�˾ 一种网管集中告警箱及其告警处理方法
JP2006190138A (ja) * 2005-01-07 2006-07-20 Mitsubishi Electric Corp アラーム管理装置及びアラーム管理方法及びプログラム
CN103166804A (zh) * 2011-12-14 2013-06-19 北京赛斯通科技发展有限公司 Sstm集中监控管理系统

Also Published As

Publication number Publication date
CN103634149A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN103634149B (zh) 一种用于分布式系统的监测方法
JP7178646B2 (ja) ネットワークのセキュリティモニタリング方法、ネットワークのセキュリティモニタリング装置及びシステム
US9917735B2 (en) System and method for big data aggregation in sensor network
CN101930656B (zh) 平安城市视频监控系统告警消息处理方法
WO2012146026A1 (zh) 一种物联网监控方法及系统
CN101953139B (zh) 响应于网络层连通性的dhcp初始化
US10592375B1 (en) Method and apparatus of establishing customized network monitoring criteria
CN104468819A (zh) 一种物联网消息推送系统及其方法
CN110995497A (zh) 一种云计算环境下统一运维的方法、终端设备及存储介质
WO2017080161A1 (zh) 云计算中报警信息的处理方法及装置
CN107562556A (zh) 故障的恢复方法、恢复装置及存储介质
US10581697B2 (en) SDN controlled PoE management system
CN108282355B (zh) 云桌面系统中设备巡检装置
US20170353363A1 (en) Systems and methods for managing network operations
CN103905219A (zh) 一种业务平台中通信信息的监控存储系统及方法
CN108092847A (zh) 一种电力lte无线终端远程在线监控方法
CN114070711A (zh) 告警信息的处理方法、装置、电子设备及存储介质
TWI448975B (zh) 應用於影像監控平台的分散式運算系統
CN202841168U (zh) 网络资源监控系统
CN106453012B (zh) 一种串行总线通信方法及装置
CN112929191B (zh) 服务监控方法、系统以及相关设备、装置
CN110932975B (zh) 流表下发方法、数据转发方法、装置及电子设备
CN114328093A (zh) 一种基于Hadoop的监控方法、系统、存储介质及设备
CN106612240B (zh) 一种存储高效网络连接系统及方法
Vajagic et al. Smart Home IoT Network Diagnostics using Big Data Services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181129

Address after: 213017 Room 938, Tianning Science Promotion Center, 256 Zhulin North Road, Tianning District, Changzhou City, Jiangsu Province

Patentee after: Changzhou Dongji Road International Trade Co., Ltd.

Address before: 213022 Wushan Road, Xinbei District, Changzhou, Jiangsu Province, No. 1

Patentee before: Changzhou Polytechnic College