CN105515886B - 一种网元故障监控的方法、网元及系统 - Google Patents

一种网元故障监控的方法、网元及系统 Download PDF

Info

Publication number
CN105515886B
CN105515886B CN201410545079.6A CN201410545079A CN105515886B CN 105515886 B CN105515886 B CN 105515886B CN 201410545079 A CN201410545079 A CN 201410545079A CN 105515886 B CN105515886 B CN 105515886B
Authority
CN
China
Prior art keywords
network element
service
monitoring
main service
monitored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410545079.6A
Other languages
English (en)
Other versions
CN105515886A (zh
Inventor
常耀斌
李文海
许利群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201410545079.6A priority Critical patent/CN105515886B/zh
Publication of CN105515886A publication Critical patent/CN105515886A/zh
Application granted granted Critical
Publication of CN105515886B publication Critical patent/CN105515886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种网元故障监控的方法、网元及系统,该移动健康业务系统的网元故障监控的方法包括:网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障。若出现故障,启动监控线程,监控线程对出现故障的网元进行唤醒操作,从而能对多级网元基于业务流实现服务监控和自动恢复。

Description

一种网元故障监控的方法、网元及系统
技术领域
本发明涉及业务支撑领域,尤其涉及一种网元故障监控的方法、网元及系统。
背景技术
目前对移动健康业务系统的网元监控一般采用集中式的方式对每个网元服务进行统一的管控,能在网元服务出现故障的时候将异常警告发送给管理员,但是无法实现网元服务的自动恢复,仍需管理员手动操作,尤其在管理员无法及时操作的时候(深夜、下班后等)服务将长时间无法恢复正常。
发明内容
本发明所要解决的技术问题在于提供一种网元故障监控的方法、网元及系统,能对多级网元基于业务流实现服务监控和自动恢复。
为了解决上述技术问题,本发明采用如下技术方案:
依据本发明的一个方面,提供了一种网元故障监控的方法,包括:
网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障。
其中,网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障的步骤包括:
每隔第二预设时间在网元中注入被监测网元主服务的ID;
若该网元根据被监测网元主服务的ID监测到被监测网元的主服务的状态出现异常时,则确定被监测网元出现故障。
其中,网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障的步骤包括:
每隔第三预设时间在网元的主服务中注入该网元被监测从服务的ID;
若主服务根据从服务的ID监测到该网元中的从服务的状态出现异常,则确定被监测从服务出现故障。
其中,上述方法还包括:
每隔第四预设时间在从服务中注入主服务的ID;
若从服务根据主服务的ID监测到该网元中的主服务的状态出现异常,则确定被监测主服务出现故障。
其中,网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障的步骤包括:
网元每隔第一预设时间向被监测网元发送测试数据流;
若监测到测试数据流出现异常,则确定该测试数据流的接收网元出现故障。
依据本发明的另一个方面,提供了一种网元,包括:
监测模块,用于根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障。
其中,监测模块包括:
第一单元,用于每隔第二预设时间在网元中注入被监测网元主服务的ID;
第二单元,用于根据被监测网元主服务的ID监测到主服务的状态出现异常时,则确定被监测网元出现故障。
其中,监测模块包括:
第三单元,用于设定主服务和从服务;
第四单元,用于每隔第三预设时间在该网元的主服务中注入该网元的被监测从服务的ID;
第五单元,用于在主服务根据从服务的ID监测到该网元中的从服务的状态出现异常时,则确定被监测从服务出现故障。
其中,监测模块还包括:
第六单元,用于每隔第四预设时间在从服务中注入主服务的ID;
第七单元,用于在根据主服务的ID监测到该网元中的主服务的状态出现异常时,则确定被监测主服务出现故障。
其中,监测模块包括:
第八单元,用于每隔第一预设时间向被监测网元发送测试数据流;
第九单元,用于在监测到测试数据流出现异常,则确定该测试数据流的接收网元出现故障。
依据本发明的另一个方面,提供了一种移动健康业务系统,包括运维管理网元、业务管理网元、数据汇聚分发网元、电子健康档案网元以及移动健康应用网元,其中任一网元根据与系统中的其它网元之间的业务流,监测其它网元是否出现故障;若出现故障,启动监控线程,监控线程对出现故障的网元进行唤醒操作。
本发明的有益效果是:
本发明的实施例中的网元能监测系统中其它网元的服务,并且当被监测网元出现故障时,能对被监测网元进行唤醒操作,从而实现对多级网元实现服务监控和自动恢复。
附图说明
图1为本发明实施例中图1中步骤11的第一实现方式的流程图;
图2为本发明实施例中图1中步骤11的第二实现方式的流程图;
图3为本发明实施例中图1中步骤11的第三实现方式的流程图;
图4为本发明实施例中移动健康业务系统的结构示意图;以及
图5为本发明实施例中移动健康业务系统的功能结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对移动健康业务系统的多级网元的监控无法实现网元服务的自动恢复,需要管理员手动操作的问题,提供一种网元故障监控的方法、网元及系统,能对多级网元基于业务流实现服务监控和自动恢复。
本发明实施例提供一种网元故障监控的方法包括:
步骤11,网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障;
在本发明的具体实施例中,网元能监测系统中其它网元的服务,并且当被监测网元出现故障时,能对被监测网元进行唤醒操作,从而实现对多级网元实现服务监控和自动恢复。
在本发明的具体实施例中,步骤11的实现方式有以下三种:
如图1所示,上述方法的步骤11包括:
步骤21,网元每隔第一预设时间向被监测网元发送测试数据流;
步骤22,若监测到测试数据流出现异常,则确定该测试数据流的接收网元出现故障。
在本发明的具体实施例中,任一网元每隔第一预设时间向系统中其它网元发送测试数据流,通过监测数据流的状态,即可判断被监测的网元是否出现故障,若果测试数据流出现异常,则确定该测试数据流的接收网元出现故障,当网元出现故障后,发送测试数据流的网元会通过测试数据流唤醒出现故障的网元。
如图2所示,第二实现方式:步骤11包括:
步骤31,每隔第二预设时间在网元中注入被监测网元主服务的ID;
步骤32,若该网元根据被监测网元主服务的ID监测到被监测网元的主服务的状态出现异常时,则确定被监测网元出现故障。
在本发明的具体实施例中,系统包括用户和设备注册业务流、数据上传业务流和测试数据业务流这3个业务流,系统的多个网元依据每一业务流形成上级网元和下级网元,在监控服务中,每个网元会设定一个主服务,同时在每个网元中注册其下级网元主服务的ID,每隔第二预设时间在上级网元中注入下级网元主服务的ID,当上级网元根据下级网元主服务的ID监测到下级网元的主服务的状态出现异常时,则确定该被监测的下级网元出现故障,此时,上级网元通过监控线程对下级网元进行唤醒操作,从而避免业务流阻塞,使业务流可以实时畅通。
如图3所示,第三实现方式:步骤11包括:
步骤41,每隔第三预设时间在网元的主服务中注入该网元被监测从服务的ID;
步骤42,若主服务根据从服务的ID监测到该网元中的从服务的状态出现异常,则确定被监测从服务出现故障。
在本发明的具体实施例中,给每个网元设定一个主服务和多个从服务,并在主服务中注册从服务的ID,每隔第三预设时间在主服务中注入从服务的ID,如果主服务根据从服务的ID监测到该网元中的从服务的状态出现异常时,则确定被监测的从服务出现故障,此时主服务会启动监控线程来唤醒该出现故障的从服务。
同时,上述方法还包括:
每隔第四预设时间在从服务中注入主服务的ID;
若从服务根据主服务的ID监测到该网元中的主服务的状态出现异常,则确定被监测主服务出现故障。
在本发明的具体实施例中,给每个网元设定一个主服务和多个从服务之后,不仅会在主服务中注册从服务的ID,也会在从服务中注册主服务的ID,因此,每隔第四预设时间在从服务中注入主服务的ID,若从服务根据主服务的ID监测到该网元的主服务的状态出现异常,则确定主服务出现故障,此时,从服务也可以通过监控线程对主服务进行唤醒操作,从而实现单个网元内部的监控和自动恢复功能。
其中,上述第三种实现方式和第二种实现方式还可以结合起来,即该网元监测到其它网元的故障状态后,还可以根据第三种方式,该网元通过自身内部的主服务和从服务的相互监测来判断该网元是否故障。
依据本发明的另一个方面,本发明的实施例还提供了一种网元,包括:
监测模块,用于根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障。
其中,监测模块包括:
第一单元,用于每隔第二预设时间在网元中注入被监测网元主服务的ID;
第二单元,用于根据被监测网元主服务的ID监测到主服务的状态出现异常时,则确定被监测网元出现故障。
其中,监测模块包括:
第三单元,用于设定主服务和从服务;
第四单元,用于每隔第三预设时间在该网元的主服务中注入该网元的被监测从服务的ID;
第五单元,用于在主服务根据从服务的ID监测到该网元中的从服务的状态出现异常时,则确定被监测从服务出现故障。
其中,监测模块还包括:
第六单元,用于每隔第四预设时间在从服务中注入主服务的ID;
第七单元,用于在从服务根据主服务的ID监测到该网元中的主服务的状态出现异常时,则确定被监测主服务出现故障。
其中,监测模块包括:
第八单元,用于每隔第一预设时间向被监测网元发送测试数据流;
第九单元,用于在监测到测试数据流出现异常,则确定该测试数据流的接收网元出现故障。
依据本发明的另一个方面,提供了一种移动健康业务系统,如图4~图5所示,包括运维管理网元、业务管理网元、数据汇聚分发网元、电子健康档案网元以及移动健康应用网元,其中任一网元根据与系统中的其它网元之间的业务流,监测其它网元是否出现故障;若出现故障,启动监控线程,监控线程对出现故障的网元进行唤醒操作。
在本发明的具体实施例中,业务管理网元是用于实现用户和业务的统一注册以及用户信息和设备信息的同步;数据汇聚分发网元是用于负责不同类型(传输协议和数据格式不同)的可穿戴设备的数据接入以及数据存储;电子健康档案网元是用于负责不同类型(数据格式或文件不同)的多种体征参数的统一存储,并分发给应用系统;移动健康应用网元包括慢病管理、运动管理、心电管理、高血压管理等,系统的上述5个网元中的任一网元可以监测系统中的其它网元是否出现故障,如果被监测的网元出现故障的话,启动监控线程对出现故障的网元进行唤醒操作。
其中,运维管理网元、业务管理网元、数据汇聚分发网元、电子健康档案网元以及移动健康应用网元中任一网元每隔第一预设时间向被监测网元发送测试数据流;
若监测到测试数据流出现异常,则确定该测试数据流的接收网元出现故障。
在本发明的具体实施例中,上述5个网元的任一网元可以每隔一段时间向被监测网元发送测试数据流来监测其它网元,若测试数据流出现异常,则确定该数据流的接收网元出现故障,启动监控线程来唤醒该出现故障的网元。
其中,运维管理网元、业务管理网元、数据汇聚分发网元、电子健康档案网元以及移动健康应用网元根据业务流的业务流向确定上级网元和下级网元;
每隔第二预设时间在上级网元中注入被监测下级网元主服务的ID;
若上级网元根据下级网元主服务的ID监测到主服务出现异常时,则确定被监测下级网元出现故障。
在本发明的具体实施例中,主要有以下3条业务流:用户和设备信息注册业务流:从业务管理网元到数据汇聚分发网元,再到电子健康档案网元,再到移动健康应用网元;数据上传业务流:从数据汇聚分发网元到电子健康档案网元,再到移动健康应用网元;测试数据业务流:从运维管理网元到数据汇聚分发网元,再到电子健康档案网元,再到移动健康应用网元,其中,业务流是通过应用类型、数据类型以及应用ID为标识生成的线程,基于以上3条业务流确定5个网元中的上级网元和下级网元,同时,在每个网元中设定一个主服务,这样就可以在上级网元中注册下级网元的主服务的ID,这样每隔一段时间在上级网元中注入下级网元的主服务的ID就可以监测下级网元是否出现故障,如果对应业务流出现故障的话,则确定该下级网元出现故障,此时,上级网元通过监控线程唤醒下级网元,使业务流实时畅通。
其中,运维管理网元、业务管理网元、数据汇聚分发网元、电子健康档案网元以及移动健康应用网元中均设定主服务和从服务;
每隔第三预设时间在主服务中注入被监测从服务的ID;
若主服务根据从服务的ID监测到网元中的从服务出现的状态异常,则确定被监测从服务出现故障。
其中,每隔第四预设时间在从服务中注入主服务的ID;
若从服务根据主服务的ID监测到网元中的主服务的状态出现异常,则确定被监测主服务出现故障。
在本发明的具体实施例中,设定每个网元的主服务与从服务,业务管理网元的主服务是用户信息注册服务,从服务是用户和设备信息的数据同步服务;数据汇聚分发网元的主服务是数据接入和存储服务,从服务是HTTP协议转发中间件、TCP/UDP协议转发中间件;电子健康档案网元的主服务是数据接入和存储服务,从服务是给各个应用的数据转发服务;移动健康应用网元的主服务是数据接入和存储服务,从服务是客户端发起的数据调用服务,在每个网元的主服务中注册从服务的ID,同时,在每个网元的从服务中注册主服务的ID,这样每隔一段时间在主服务中注入从服务的ID,通过监测网元中的线程是否出现异常来确定被监测从服务是否出现故障,若网元的线程出现异常,则确定被监测的从服务出现故障,此时,主服务会通过监控线程启动该从服务;同理,若果主服务出现故障,从服务也可以唤醒主服务。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种网元故障监控的方法,其特征在于,所述方法包括:
网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障;
网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障的步骤包括:
每隔第三预设时间在网元的主服务中注入该网元的被监测从服务的ID;
若主服务根据从服务的ID监测到该网元中的从服务的状态出现异常,则确定被监测从服务出现故障;主服务启动监控线程来唤醒该出现故障的从服务;
还包括:
每隔第四预设时间在所述从服务中注入所述主服务的ID;
若从服务根据主服务的ID监测到该网元中的主服务的状态出现异常,则确定被监测主服务出现故障;从服务通过监控线程对主服务进行唤醒操作。
2.根据权利要求1所述的方法,其特征在于,网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障的步骤包括:
每隔第二预设时间在网元中注入被监测网元主服务的ID;
若该网元根据被监测网元主服务的ID监测到被监测网元的主服务的状态出现异常时,则确定被监测网元出现故障。
3.根据权利要求1所述的方法,其特征在于,网元根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障的步骤包括:
网元每隔第一预设时间向被监测网元发送测试数据流;
若监测到测试数据流出现异常,则确定该测试数据流的接收网元出现故障。
4.一种网元,其特征在于,包括:
监测模块,用于根据与系统中的其它网元之间的业务流,监测系统中其它网元是否出现故障;
监测模块包括:
第三单元,用于设定主服务和从服务;
第四单元,用于每隔第三预设时间在该网元的主服务中注入该网元的被监测从服务的ID;
第五单元,用于在主服务根据从服务的ID监测到该网元中的从服务的状态出现异常时,则确定被监测从服务出现故障;主服务启动监控线程来唤醒该出现故障的从服务;
所述监测模块还包括:
第六单元,用于每隔第四预设时间在所述从服务中注入所述主服务的ID;
第七单元,用于在从服务根据主服务的ID监测到该网元中的主服务的状态出现异常时,则确定被监测主服务出现故障;从服务通过监控线程对主服务进行唤醒操作。
5.根据权利要求4所述的网元,其特征在于,所述监测模块包括:
第一单元,用于每隔第二预设时间在网元中注入被监测网元主服务的ID;
第二单元,用于根据被监测网元主服务的ID监测到所述主服务的状态出现异常时,则确定被监测网元出现故障。
6.根据权利要求4所述的网元,其特征在于,所述监测模块包括:
第八单元,用于每隔第一预设时间向被监测网元发送测试数据流;
第九单元,用于在监测到测试数据流出现异常,则确定该测试数据流的接收网元出现故障。
7.一种移动健康业务系统,包括运维管理网元、业务管理网元、数据汇聚分发网元、电子健康档案网元以及移动健康应用网元,其特征在于,其中任一网元根据与系统中的其它网元之间的业务流,监测其它网元是否出现故障;若出现故障,启动监控线程,所述监控线程对出现故障的网元进行唤醒操作;
其中,运维管理网元、业务管理网元、数据汇聚分发网元、电子健康档案网元以及移动健康应用网元中均设定主服务和从服务;
每隔第三预设时间在主服务中注入被监测从服务的ID;
若主服务根据从服务的ID监测到网元中的从服务出现的状态异常,则确定被监测从服务出现故障;主服务启动监控线程来唤醒该出现故障的从服务;
其中,每隔第四预设时间在从服务中注入主服务的ID;
若从服务根据主服务的ID监测到网元中的主服务的状态出现异常,则确定被监测主服务出现故障;从服务通过监控线程对主服务进行唤醒操作。
CN201410545079.6A 2014-10-15 2014-10-15 一种网元故障监控的方法、网元及系统 Active CN105515886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410545079.6A CN105515886B (zh) 2014-10-15 2014-10-15 一种网元故障监控的方法、网元及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410545079.6A CN105515886B (zh) 2014-10-15 2014-10-15 一种网元故障监控的方法、网元及系统

Publications (2)

Publication Number Publication Date
CN105515886A CN105515886A (zh) 2016-04-20
CN105515886B true CN105515886B (zh) 2019-01-01

Family

ID=55723545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410545079.6A Active CN105515886B (zh) 2014-10-15 2014-10-15 一种网元故障监控的方法、网元及系统

Country Status (1)

Country Link
CN (1) CN105515886B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1878384A (zh) * 2006-07-10 2006-12-13 华为技术有限公司 一种网元故障检测方法
CN102196472A (zh) * 2010-03-09 2011-09-21 中国移动通信集团公司 网元异常告警方法、装置及系统
CN102394774A (zh) * 2011-10-31 2012-03-28 广东电子工业研究院有限公司 云计算操作系统的控制器服务状态监控和故障恢复方法
CN102694871A (zh) * 2012-06-21 2012-09-26 甘肃省科学技术情报研究所 基于手机短信的服务器远程监控及故障处理的装置和方法
CN103246589A (zh) * 2012-02-03 2013-08-14 京信通信系统(中国)有限公司 一种多线程的监控方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299278B2 (en) * 2002-01-16 2007-11-20 Airvana, Inc. Managing network faults

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1878384A (zh) * 2006-07-10 2006-12-13 华为技术有限公司 一种网元故障检测方法
CN102196472A (zh) * 2010-03-09 2011-09-21 中国移动通信集团公司 网元异常告警方法、装置及系统
CN102394774A (zh) * 2011-10-31 2012-03-28 广东电子工业研究院有限公司 云计算操作系统的控制器服务状态监控和故障恢复方法
CN103246589A (zh) * 2012-02-03 2013-08-14 京信通信系统(中国)有限公司 一种多线程的监控方法及装置
CN102694871A (zh) * 2012-06-21 2012-09-26 甘肃省科学技术情报研究所 基于手机短信的服务器远程监控及故障处理的装置和方法

Also Published As

Publication number Publication date
CN105515886A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN101996106B (zh) 一种对软件运行状态进行监控的方法
CN104506357B (zh) 一种高可用集群节点管理方法
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
CN107147540A (zh) 高可用性系统中的故障处理方法和故障处理集群
CN103019866A (zh) 基于消息队列的分布式方法和系统
CN101777951B (zh) 一种数据监测的方法和系统
CN103036719A (zh) 一种基于主备集群服务器的跨地区服务容灾方法及装置
CN107070753A (zh) 一种分布式集群系统的数据监控方法、装置及系统
CN110134518A (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
CN102404386A (zh) 一种保证分布式文件系统元数据服务器组的服务高可靠的方法
CN104317679A (zh) 一种scada系统基于线程冗余的通信容错方法
CN103618788A (zh) 一种支持b/s结构系统高可用的方法
CN107360045A (zh) 一种存储集群系统的监控方法及装置
CN106789284A (zh) 一种基于Zabbix和Docker的监控系统和方法
CN105376266A (zh) 一种基于移动终端的泵站远程监控系统
CN109194744A (zh) 一种数据传输方法、装置、存储介质及监测设备
EP2882216B1 (en) Device and method for controlling, supervising and giving an alarming from a power supply of base station
CN103312541A (zh) 一种高可用互备集群的管理方法
CN105515886B (zh) 一种网元故障监控的方法、网元及系统
CN106161122A (zh) 一种自动化集中监控预警方法及系统
CN102377619A (zh) Snmp代理通信异常自动检测及处理方法
CN106210053A (zh) 一种电力系统广域消息管理方法
CN206524847U (zh) 一种教学用计算机网络安全控制装置
CN205430870U (zh) 一种数据中心冷冻站群控控制系统
CN104331353A (zh) 软件高可用保证的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant