CN104156299A - 一种用于并行系统的监测方法 - Google Patents

一种用于并行系统的监测方法 Download PDF

Info

Publication number
CN104156299A
CN104156299A CN201410412938.4A CN201410412938A CN104156299A CN 104156299 A CN104156299 A CN 104156299A CN 201410412938 A CN201410412938 A CN 201410412938A CN 104156299 A CN104156299 A CN 104156299A
Authority
CN
China
Prior art keywords
distributed
monitoring
information
parallel system
monitoring method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410412938.4A
Other languages
English (en)
Inventor
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU HUIJULE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
JIANGSU HUIJULE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU HUIJULE INFORMATION TECHNOLOGY Co Ltd filed Critical JIANGSU HUIJULE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410412938.4A priority Critical patent/CN104156299A/zh
Publication of CN104156299A publication Critical patent/CN104156299A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种用于并行系统的监测方法,在并行系统中增加一个监测进程,通过这个监测进程实时收集、监测并行系统中的各个进程的状态,根据收集到的状态对并行系统进行状态统计,一旦发现并行系统中进程异常以及进程处理业务出现异常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失,通过监测进程定时统计监测并进行告警,能够实时掌握并行系统的进程状态,对整个并行系统维护带来方便。

Description

一种用于并行系统的监测方法
技术领域
本发明涉及计算机的领域,尤其涉及一种用于并行系统的监测方法。
背景技术
在大数据分析等并行系统中,系统的稳定性、系统各个进程的运行状态以及数据处理状态一般很难进行计算与统计,这样就不能实时知道整个并行系统的运行、处理情况,基于这种现状,当发现并行系统出现问题时,往往已经造成了较严重的后果,尤其是基于实时大数据处理的并行系统而言,造成的损失更大。
发明内容
本发明主要解决的技术问题是提供一种用于并行系统的监测方法,在并行系统中增加一个监测进程,通过这个监测进程实时收集、监测并行系统中的各个进程的状态,根据收集到的状态对并行系统进行状态统计,一旦发现并行系统中进程异常以及进程处理业务出现异常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失,通过监测进程定时统计监测并进行告警,能够实时掌握并行系统的进程状态,对整个并行系统维护带来方便。
为解决上述技术问题,本发明采用的一个技术方案是:提供了一种用于并行系统的监测方法,包括以下步骤:
a、在分布式主机部署监测进程,各个分布式进程启动时,获取分布式进程的唯一标识号;
b、分布式进程启动时,向分布式主机中的监测进程注册,分布式主机中的监测进程收到注册信息后,把请求注册信息与请求进程的主机IP地址对应起来保存在内存M中;
c、分布式主机中的监测进程定时轮询M,向各个分布式进程发送握手信息,分布式进程收到握手信息后,把各自进程所在机器的情况信息反馈给分布式主机中的监测进程,监测进程统计收到的各个分布式进程的反馈信息,发现异常进行告警处理;
d、分布式进程向监测进程注册成功后,动分布式进程与监测进程之间保活的心跳线程,定时向主机监测进程发送心跳消息,主机监测进程及时响应分布式进程的心跳消息,一旦心跳消息出现异常后,分布式进程定时向主机监测进程重新注册,直到注册成功。
在本发明一个较佳实施例中,所述的步骤a中唯一标识号的构成为:进程所在机器的MAC地址+进程名称。
在本发明一个较佳实施例中,所述的步骤b中注册信息的格式构成:进程唯一标识号&&进程类型。
在本发明一个较佳实施例中,所述的步骤c中的情况信息包括cpu利用率、进程占用内存大小以及进程空闲时间信息。
在本发明一个较佳实施例中,所述的步骤d中心跳消息出现异常的情况为连续3次没有收到心跳消息的响应。
在本发明一个较佳实施例中,所述的监测方法采用双轮询机制。
本发明的有益效果是:本发明的用于并行系统的监测方法,在并行系统中增加一个监测进程,通过这个监测进程实时收集、监测并行系统中的各个进程的状态,根据收集到的状态对并行系统进行状态统计,一旦发现并行系统中进程异常以及进程处理业务出现异常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失,通过监测进程定时统计监测并进行告警,能够实时掌握并行系统的进程状态,对整个并行系统维护带来方便。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1 是本发明用于并行系统的监测方法的一较佳实施例的流程图;
图2 主机监测进程流程图;
图3分布式进程注册与保活流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1至图3所示,本发明实施例包括:
一种用于并行系统的监测方法,包括以下步骤:
a、在分布式主机部署监测进程,各个分布式进程启动时,获取分布式进程的唯一标识号;
b、分布式进程启动时,向分布式主机中的监测进程注册,分布式主机中的监测进程收到注册信息后,把请求注册信息与请求进程的主机IP地址对应起来保存在内存M中;
c、分布式主机中的监测进程定时轮询M,向各个分布式进程发送握手信息,分布式进程收到握手信息后,把各自进程所在机器的情况信息反馈给分布式主机中的监测进程,监测进程统计收到的各个分布式进程的反馈信息,发现异常进行告警处理;
d、分布式进程向监测进程注册成功后,动分布式进程与监测进程之间保活的心跳线程,定时向主机监测进程发送心跳消息,主机监测进程及时响应分布式进程的心跳消息,一旦心跳消息出现异常后,分布式进程定时向主机监测进程重新注册,直到注册成功。
上述中,所述的步骤a中唯一标识号的构成为:进程所在机器的MAC地址+进程名称;所述的步骤b中注册信息的格式构成:进程唯一标识号&&进程类型;所述的步骤c中的情况信息包括cpu利用率、进程占用内存大小以及进程空闲时间信息;所述的步骤d中心跳消息出现异常的情况为连续3次没有收到心跳消息的响应。
进一步的,所述的监测方法采用双轮询机制。双轮询机制确保网络暂时中断时,分布式进程在网络恢复时动态注册。
具体方法为:
在分布式主机中部署分布式监测进程,各个分布式进程启动时,获取自己所在机器的MAC地址以及进程名,向分布式主机上的分布式监测进程进行注册,注册协议格式为:MAC地址&&进程名称;分布式主机上的监测进程接收分布式进程的注册信息,同时获取分布式进程所在的IP地址,依据协议格式解析请求信息,把请求信息以及IP地址放入如下处理协议结构中:
处理协议结构
{
    主机IP地址;
    主机物理MAC地址;
    进程名称
}
然后把处理协议结构对应的一个分布式进程信息的一个实例放入到容器类型的中间处理协议结构变量(假设变量名称为:vP)中。
分布式主机上的监测进程定时轮询变量vP,获取vP中的分布式进程注册信息,通过IP地址向分布式进程发握手信息,分布式进程收到握手信息后,收集该进程所在机器的cpu利用率、进程占用内存大小以及进程空闲时间信息,把这些信息按照协议格式发送给分布式主机上的监测进程,监测进程收到握手反馈后,按照协议格式进行解析,把解析结果放入如下结构中:
处理状态结构
{
    主机IP地址;
    主机物理MAC地址;
    进程名称;
    CPU使用率;
    所占内存大小;
    所占线程;
    响应日期
}
然后监测进程把进程状态结构对应的一个实例放入到容器类型的处理状态结变量(假设变量名称为:vPS)中。
如果监测进程向一个分布式进程发送握手信息3次仍然没有收到反馈,则表明该分布式进程存在异常或网络异常,主机监测进程就向特定机器告警,同时删除vPS变量与vP变量中出现异常的分布式进程的信息,并把删除信息写入日志文件,同时特定机器把告警信息实时显示在桌面,紧急信息通过短信、声音与邮件进行提醒。
分布式进程注册成功后,定时向主机监测进程发送心跳信息,主机监测进程及时响应分布式进程的心跳请求,分布式进程向监测进程发送心跳消息连续3次没有收到心跳响应,则自动判断网络异常或主机监测进程异常,启动定时注册线程,定时向主机监测进程注册,一旦网络恢复正常或主机监测进程恢复正常,则分布式进程重新注册成功,通过这种心跳与握手双向机制,确保网络异常情况下,分布式进程与监测进程不重新启动的情况下,分布式进程与监测进程能够有效保持畅通。
实施例1:
在分布式主机启动监测进程,监测进程进入工作态后,通过端口监测分布式进程的注册信息;
分布式进程启动时,进程进入工作态后,获取本进程所在机器的MAC地址与进程名,根据注册协议格式构造注册信息,注册协议格式为:MAC地址&&进程名,注册交换逻辑为:分布式发送注册信息给主机监测进程,主机监测进程收到注册信息后,回复注册成功信息给注册的进程,这样注册流程完成;
主机监测进程接收到分布式进程的注册信息后,按照协议格式进行解码,把注册的分布式进程信息放入处理协议结构,并把结构实例放入到容器类型的处理协议变量中;
处理协议结构
{
    主机IP地址;
    主机物理MAC地址;
    进程名称
}
监控主机定时轮询处理协议结构变量,根据该变量向对应的分布式进程发送握手消息,分布式进程在握手响应中携带分布式主机的cpu占用率、内存利用情况等信息,监测进程解析分布式进程的握手响应,并把信息放入到处理状态结构,把存放分布式进程信息对应的处理状态实例放入到容器类型变量处理状态中,同时根据处理状态中的信息,计算、统计各个分布式进程的进程状态与系统状态。
监测进程如果连续3次收不到对应分布式进程的握手响应,则认为分布式进程异常或网络异常,通过使用linux系统的ping命令监测网络状态,如果ping命令返回网络异常,则发送网络异常告警,如果网络正常,则发送分布式进程异常告警,把异常的分布式进程的信息保存在日志文件中,同时从处理状态中移除该进程的状态信息以及从处理协议中移除该进程的注册信息;
告警主机收到分布式进程的告警信息,根据告警级别选择告警行为,严重告警级别发送短信、声音以及邮件及时提醒,同时向告警监控屏幕输出告警信息,一般告警信息直接向告警监控屏幕输出告警信息。
分布式进程收到注册响应后,启动分布式进程与监测进程之间保活的心跳线程,定时向监测进程发送心跳信息,监测进程收到分布式进程的心跳消息后,实时回应心跳响应给对应分布式进程;
分布式进程如果连续3次收不到监测进程的心跳响应,则认为网络异常或监测进程异常,记录异常日志到日志文件,启动注册流程,定时重新注册,直到收到注册响应。
综上所述,本发明的揭示用于并行系统的监测方法,在并行系统中增加一个监测进程,通过这个监测进程实时收集、监测并行系统中的各个进程的状态,根据收集到的状态对并行系统进行状态统计,一旦发现并行系统中进程异常以及进程处理业务出现异常,马上进行告警处理,把异常信息输出到指定桌面系统,严重信息通过电话或短信直接通知到负责人,使得问题能够得到及时发现,减少系统出现异常时带来的损失,通过监测进程定时统计监测并进行告警,能够实时掌握并行系统的进程状态,对整个并行系统维护带来方便。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种用于并行系统的监测方法,其特征在于,包括以下步骤:
a、在分布式主机部署监测进程,各个分布式进程启动时,获取分布式进程的唯一标识号;
b、分布式进程启动时,向分布式主机中的监测进程注册,分布式主机中的监测进程收到注册信息后,把请求注册信息与请求进程的主机IP地址对应起来保存在内存M中;
c、分布式主机中的监测进程定时轮询M,向各个分布式进程发送握手信息,分布式进程收到握手信息后,把各自进程所在机器的情况信息反馈给分布式主机中的监测进程,监测进程统计收到的各个分布式进程的反馈信息,发现异常进行告警处理;
d、分布式进程向监测进程注册成功后,动分布式进程与监测进程之间保活的心跳线程,定时向主机监测进程发送心跳消息,主机监测进程及时响应分布式进程的心跳消息,一旦心跳消息出现异常后,分布式进程定时向主机监测进程重新注册,直到注册成功。
2.根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的步骤a中唯一标识号的构成为:进程所在机器的MAC地址+进程名称。
3.根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的步骤b中注册信息的格式构成:进程唯一标识号&&进程类型。
4.根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的步骤c中的情况信息包括cpu利用率、进程占用内存大小以及进程空闲时间信息。
5.根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的步骤d中心跳消息出现异常的情况为连续3次没有收到心跳消息的响应。
6.根据权利要求1所述的用于并行系统的监测方法,其特征在于,所述的监测方法采用双轮询机制。
CN201410412938.4A 2014-08-21 2014-08-21 一种用于并行系统的监测方法 Pending CN104156299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410412938.4A CN104156299A (zh) 2014-08-21 2014-08-21 一种用于并行系统的监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410412938.4A CN104156299A (zh) 2014-08-21 2014-08-21 一种用于并行系统的监测方法

Publications (1)

Publication Number Publication Date
CN104156299A true CN104156299A (zh) 2014-11-19

Family

ID=51881804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410412938.4A Pending CN104156299A (zh) 2014-08-21 2014-08-21 一种用于并行系统的监测方法

Country Status (1)

Country Link
CN (1) CN104156299A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775981A (zh) * 2016-12-15 2017-05-31 北京奇虎科技有限公司 一种进程处理方法、装置及计算机可读介质
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
WO2018001048A1 (zh) * 2016-06-30 2018-01-04 中兴通讯股份有限公司 一种多进程监测方法、装置及服务系统
CN107911410A (zh) * 2017-10-17 2018-04-13 珠海金山网络游戏科技有限公司 分布式服务进程资源耗用统计方法和装置
CN107992375A (zh) * 2017-10-30 2018-05-04 努比亚技术有限公司 一种浏览器故障处理方法、终端及计算机可读存储介质
CN110912785A (zh) * 2019-12-26 2020-03-24 联陆智能交通科技(上海)有限公司 Rsu健康检测方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018001048A1 (zh) * 2016-06-30 2018-01-04 中兴通讯股份有限公司 一种多进程监测方法、装置及服务系统
CN106775981A (zh) * 2016-12-15 2017-05-31 北京奇虎科技有限公司 一种进程处理方法、装置及计算机可读介质
CN106775981B (zh) * 2016-12-15 2020-03-03 北京奇虎科技有限公司 一种进程处理方法、装置及计算机可读介质
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
CN107515796B (zh) * 2017-07-31 2020-08-25 奇安信科技集团股份有限公司 一种设备异常监控处理方法及装置
CN107911410A (zh) * 2017-10-17 2018-04-13 珠海金山网络游戏科技有限公司 分布式服务进程资源耗用统计方法和装置
CN107911410B (zh) * 2017-10-17 2021-02-02 珠海金山网络游戏科技有限公司 分布式服务进程资源耗用统计方法和装置
CN107992375A (zh) * 2017-10-30 2018-05-04 努比亚技术有限公司 一种浏览器故障处理方法、终端及计算机可读存储介质
CN110912785A (zh) * 2019-12-26 2020-03-24 联陆智能交通科技(上海)有限公司 Rsu健康检测方法及系统

Similar Documents

Publication Publication Date Title
CN104156299A (zh) 一种用于并行系统的监测方法
CN100471128C (zh) 一种实现设备状态轮询的方法及装置
CN103634149B (zh) 一种用于分布式系统的监测方法
CN106487596A (zh) 分布式服务跟踪实现方法
US20160294666A1 (en) Method and system for monitoring server cluster
CN108021487B (zh) 一种gpu图形处理性能监测与分析方法
CN110688280B (zh) 一种告警事件的管理系统、方法、设备和存储介质
WO2019223062A1 (zh) 系统异常的处理方法和系统
CN105357273B (zh) 异步通信模式下socket通信与进程管理通用平台及方法
CN105159964A (zh) 一种日志监控方法及系统
CN103116531A (zh) 存储系统故障预测方法和装置
CN105791028A (zh) 一种服务器集群的监控方法、服务器及系统
CN111221700B (zh) 一种集群节点状态监控方法、装置、设备及可读存储介质
CN103475696A (zh) 云计算集群服务器状态监控系统和方法
CN114024834A (zh) 故障定位方法、装置、电子设备及可读存储介质
CN111782431A (zh) 一种异常的处理方法、装置、终端及存储介质
CN111258973A (zh) Redis慢日志的存储、展示方法、装置、设备和介质
CN115102730A (zh) 多种设备的一体化监控方法
CN104765672A (zh) 错误码监控方法、装置及设备
CN104486122A (zh) 基于看门狗的路由器异常恢复系统及方法
CN112000544A (zh) 一种物联网设备大屏实时监控方法
CN110569238A (zh) 一种基于大数据的数据治理方法、系统、存储介质和服务端
CN115801545A (zh) 一种混合云管的异常实时上报方法、系统、设备和介质
CN108667649A (zh) 一种故障排查方法、装置及服务器
CN114328093A (zh) 一种基于Hadoop的监控方法、系统、存储介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141119

RJ01 Rejection of invention patent application after publication