CN101222650A - 多余度监控方法和系统 - Google Patents
多余度监控方法和系统 Download PDFInfo
- Publication number
- CN101222650A CN101222650A CNA200710000734XA CN200710000734A CN101222650A CN 101222650 A CN101222650 A CN 101222650A CN A200710000734X A CNA200710000734X A CN A200710000734XA CN 200710000734 A CN200710000734 A CN 200710000734A CN 101222650 A CN101222650 A CN 101222650A
- Authority
- CN
- China
- Prior art keywords
- monitoring
- webmaster
- service
- redundancy
- monitoring module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明提供了一种多余度监控方法和系统。监控网管应用的进程;监控网管应用提供的服务;通过网络接口,获取网管应用的运行状态;监控网管应用的底层数据库的服务状态;以及对上述四个步骤进行多组互为备份的二级监控。很大程度提高软件应用的可靠性,尤其提高电信领域的EMS和NMS网管软件的高可靠性。
Description
技术领域
本发明涉及电信领域网管技术,特别涉及一种多余度监控方法和系统。
背景技术
和普通软件应用相比,网管软件作为监控和管理网络的核心应用系统,要求能够长期、稳定的运行。而网管软件稳定运行受若干因素制约,包括:
1.系统软件的稳定性。系统软件包括操作系统、数据库系统、虚拟机等,如果系统软件出现不稳定因素,可能导致网管工作不正常。
2.网管应用软件自身的稳定性。
3.网络状况与稳定性。
现有网管系统只是对网管服务运行的进程做了监控,发觉进程不存在时重新启动网管应用,无法面对以上复杂情况。造成网管可用性达不到电信级用户的需求。
因此需要一种提高软件应用的可靠性的方法和装置,其可以很大程度提高软件应用的可靠性,尤其提高电信领域的EMS(ElementManagement System,网元管理系统)和NMS(Network ManagementSystem,网络管理系统)网管软件的高可靠性。
发明内容
本发明的主要目的在于提供一种多余度监控的方法和系统,用于很大程度提高网络管理应用的可靠性。
为了实现上述目的,根据本发明的第一方面,本发明提供了一种多余度监控方法。该多余度监控方法包括以下步骤:
监控网管应用的进程;监控网管应用提供的服务;通过网络接口,获取网管应用的运行状态;监控网管应用的底层数据库的服务状态;以及
对上述四个步骤进行多组互为备份的二级监控。
监控网管应用的进程的步骤进一步包括:
步骤S111,编写、部署监控脚本;
步骤S112,启动定时器,定时执行监控脚本;以及
步骤S113,根据监控脚本返回,来判断进程是否运行。
监控网管应用提供的服务的步骤进一步包括:
步骤S121,模拟客户端,向网管应用软件发送登录认证命令;以及
步骤S122,分析网管应用提供的服务返回的认证结果,判断认证服务是否正常。
获取网管应用的运行状态的步骤进一步包括:
步骤S131,网管服务开放6789端口,接受Socket连接;
步骤S132,执行监控的电脑通过IP地址或端口连接网管应用;
步骤S133,发送Socket命令,来获取网管应用的运行状态;以及
步骤S134,根据返回的结果,判断网管应用是否正常运行。
监控网管应用的底层数据库的服务状态的步骤进一步包括:
步骤S141,编写、部署监控脚本;
步骤S142,启动定时器,定时执行监控脚本;以及
步骤S143,根据监控脚本返回,来判断数据库是否正常运行。
可选地,四个步骤彼此独立,无先后顺序地分别执行。
可选地,四个步骤在一个定时器中触发。
如果四个步骤中的一个出现异常,则判断网管应用异常。
为了实现上述目的,根据本发明的第二方面,本发明提供了一种多余度监控系统。该多余度监控系统包括:进程监控模块,用于监控网管应用的进程;服务监控模块,用于监控网管应用提供的服务;运行状态获取模块,用于通过网络接口获取网管应用的运行状态;以及数据库监控模块,用于监控网管应用的底层数据库的服务状态;以及二级监控模块,用于对进程监控模块、服务监控模块、运行状态监控模块、和数据库监控模块进行多组互为备份的二级监控。
可选地,进程监控模块、服务监控模块、运行状态监控模块、和数据库监控模块彼此独立,无先后顺序地分别运行。
通过上述技术方案,可以很大程度提高软件应用的可靠性,尤其提高电信领域的EMS和NMS网管软件的高可靠性。
附图说明
图1是根据本发明的多余度监控方法的流程图;
图2是根据本发明的多余度监控系统的框图;以及
图3是根据本发明实施例的多余度监控的示意图。
具体实施方式
下面将参考附图详细说明本发明。
参照图1,根据本发明的多余度监控方法包括以下步骤:
步骤S110,监控网管应用的进程。
步骤S110进一步包括:
步骤S111,编写、部署监控脚本;
步骤S112,启动定时器,定时执行监控脚本;以及
步骤S113,根据监控脚本返回,来判断进程是否运行。
步骤S120,监控网管应用提供的服务。
步骤S120进一步包括:
步骤S121,模拟客户端,向网管应用软件发送登录认证命令;以及
步骤S122,分析网管应用提供的服务返回的认证结果,判断认证服务是否正常。
步骤S130,通过网络接口,获取网管应用的运行状态。
步骤S130进一步包括:
步骤S131,网管服务开放6789端口,接受Socket连接;
步骤S132,执行监控的电脑通过IP地址或端口连接网管应用;
步骤S133,发送Socket命令,来获取网管应用的运行状态;以及
步骤S134,根据返回的结果,判断网管应用是否正常运行。
步骤S140,监控网管应用的底层数据库的服务状态。
步骤S140进一步包括:
步骤S141,编写、部署监控脚本;
步骤S142,启动定时器,定时执行监控脚本;以及
步骤S143,根据监控脚本返回,来判断数据库是否正常运行。
步骤S150,对步骤S110至步骤S140进行多组互为备份的二级监控。
可选地,步骤S110至步骤S140彼此独立,无先后顺序地分别执行。
可选地,步骤S110至步骤S140在一个定时器中触发。
如果步骤S110至步骤S140中的一个出现异常,则判断网管应用异常。
参照图2,根据本发明的多余度监控系统10包括:进程监控模块20,用于监控网管应用的进程;服务监控模块30,用于监控网管应用提供的服务;运行状态获取模块40,用于通过网络接口获取网管应用的运行状态;以及数据库监控模块50,用于监控网管应用的底层数据库的服务状态;以及二级监控模块60,用于对进程监控模块20、服务监控模块30、运行状态监控模块40、和数据库监控模块50进行多组互为备份的二级监控。
进程监控模块20进一步用于:编写、部署监控脚本;启动定时器,定时执行监控脚本;以及根据监控脚本返回,来判断进程是否运行。
服务监控模块30进一步用于:模拟客户端,向网管应用软件发送登录认证命令;以及分析网管应用提供的服务返回的认证结果,判断认证服务是否正常。
运行状态监控模块40进一步用于:网管服务开放6789端口,接受Socket连接;执行监控的电脑通过IP地址或端口连接网管应用;发送Socket命令,来获取网管应用的运行状态;以及根据返回的结果,判断网管应用是否正常运行。
数据库监控模块50进一步用于:编写、部署监控脚本;启动定时器,定时执行监控脚本;以及根据监控脚本返回,来判断数据库是否正常运行。
可选地,进程监控模块20、服务监控模块30、运行状态监控模块40、和数据库监控模块50彼此独立,无先后顺序地分别运行。
可选地,进程监控模块20、服务监控模块30、运行状态监控模块40、和数据库监控模块50在一个定时器中触发。
如果进程监控模块20、服务监控模块30、运行状态监控模块40、和数据库监控模块50中的一个出现异常,则判断网管应用异常。
本发明涉及一种多余度监控提高软件应用的可靠性的方法,该方法可以很大程度提高软件应用的可靠性。具体而言,尤其涉及提高电信领域的EMS和NMS网管软件的高可靠性。多余度监控是指从多个角度,冗余的进行监控,一旦某个角度监控返回异常,则判定系统服务异常。本发明所要解决的技术问题是提供一种多余度监控方法,如图3所示。二级监控模块对一级监控模块进行监控,采用进程检查检查的方式,保证一级监控的进程正常运行,否则重新启动一级监控。同时对整个网管、数据库、一级监控,二级监控做一套镜像,形成双机本地备份(local cluster)。双机的一级监控模块之间和二级监控模块之间都是互相监控,以确保这些监控程序模块正常运行。该方法能提高软件应用的可靠性,解决了传统监控方式无法提高软件可用时间达到电信级要求的问题。
本发明的多余度监控除包括以下传统监控(一级监控)组成部分:
1.监控网管应用进程;
2.监控网管提供的某些服务,例如认证服务;
3.通过网络接口,获取网管应用运行状态,例如Socket接口;
4.监控网管应用底层数据库服务状态;
上述4步不是必须的,不过优选地都执行,还可以根据应用特点,增加其他项目。
还包括以下部分:
5.对上述部分组成的监控系统进行多组互为备份的监控程序(二级监控)。
上述前4个方面,只要有某一个方面出现异常,即可判断网管应用的某些服务会出现异常,甚至整个网管应用中断服务。最后一部分则是本发明的核心,即对监控系统又进行更高层次的监控、备份。
本发明的多余度监控的方法如下:
第一步:监控网管应用的进程是否正常运行
本步骤又可以包括下列步骤:
1.编写、部署监控脚本。为了便于扩展,采用脚本形式;
2.启动定时器,定时执行监控脚本;
3.根据监控脚本返回,判断进程是否运行。
第二步:监控网管应用提供的服务
1.模拟客户端,向网管应用软件发送登录认证命令;
2.分析网管服务返回认证结果,判断认证服务是否正常。
第三步:通过网络接口,获取网管应用运行状态
1.网管服务开放6789端口,接受Socket连接;
2.任何一台运行监控程序的电脑通过ip地址和端口连接网管应用;
3.发送Socket命令,获取网管系统情况,如内存使用;
4.根据网管应用返回结果,判断网管应用是否正常运行。
第四步:监控网管应用后台数据库
1.编写、部署监控脚本。为了便于扩展,采用脚本形式;
2.启动定时器,定时执行监控脚本;
3.根据监控脚本返回,判断数据库是否正常运行。
以上四个步骤互相独立,可以分别执行;也可以在一个定时器中触发4个步骤的监控检测。
第五步则是建立二级监控系统对上述监控系统再进行监控。
采用本发明方法,与现有技术相比,大大提高了监控准确性,能够使网管应用的有效服务时间达到电信一级用户的要求。
下面对技术方案的实施关键步骤详细进行说明:
1)编写网管应用监控脚本如下
#!/bin/sh
if ps-ef|grep″^*root.*java″
then exit 110
else exit 100
fi
根据是否存在root用户的包含java字符串的进程,判断网管应用进程是否启动。
2)编写数据库监控脚本如下
以oracle数据库为例
#里面的ip地址需要根据实际情况替换为listner的ip地址
if ps-ef|grep″^*oracle.*ora_smon″
then
if su-oracle-c″tnsping 10.61.94.253″;
then exit 100
else exit 110
fi
else exit 110
fi
主要包含两个步骤,首先检查是否存在oracle用户的包含ora_smon字符串的进程是否存在。如果存在,接着使用tnsping检测oracle监听是否正常。
3)通过网络接口,获取网管运行状态
这里我们使用TL1命令来实现这个功能。
命令:
LST-STAT:::12345::;
返回结果:
0 2006-10-11 10:55:49
M 1 COMPLD
EN=0 ENDESC=No error FM=23656KB TM=45324KBTM=65523KB
其中
FM(Free Memory)表示空闲内存
TM(Total Memory)表示总共使用内存
MM(Max Memory)表示最大可用内存
4)编写二级监控系统脚本
方法类似网管应用监控脚本,此处不再赘述。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多余度监控方法,其特征在于,包括以下步骤:
监控网管应用的进程;监控所述网管应用提供的服务;
通过网络接口,获取所述网管应用的运行状态;监控所述网管应用的底层数据库的服务状态;以及
对上述四个步骤进行多组互为备份的二级监控。
2.根据权利要求1所述的多余度监控方法,其特征在于,所述监控网管应用的进程的步骤进一步包括:
步骤S111,编写、部署监控脚本;
步骤S112,启动定时器,定时执行所述监控脚本;以及
步骤S113,根据所述监控脚本返回,来判断所述进程是否运行。
3.根据权利要求1所述的多余度监控方法,其特征在于,所述监控所述网管应用提供的服务的步骤进一步包括:
步骤S121,模拟客户端,向网管应用软件发送登录认证命令;以及
步骤S122,分析所述网管应用提供的服务返回的认证结果,判断认证服务是否正常。
4.根据权利要求1所述的多余度监控方法,其特征在于,所述获取所述网管应用的运行状态的步骤进一步包括:
步骤S131,网管服务开放6789端口,接受Socket连接;
步骤S132,执行监控的电脑通过IP地址或端口连接所述网管应用;
步骤S133,发送所述Socket命令,来获取所述网管应用的运行状态;以及
步骤S134,根据返回的结果,判断所述网管应用是否正常运行。
5.根据权利要求1所述的多余度监控方法,其特征在于,所述监控所述网管应用的底层数据库的服务状态的步骤进一步包括:
步骤S141,编写、部署监控脚本;
步骤S142,启动定时器,定时执行所述监控脚本;以及
步骤S143,根据所述监控脚本返回,来判断所述数据库是否正常运行。
6.根据权利要求1至5中任一项所述的多余度监控方法,其特征在于,所述四个步骤彼此独立,无先后顺序地分别执行。
7.根据权利要求1至5中任一项所述的多余度监控方法,其特征在于,所示四个步骤在一个定时器中触发。
8.根据权利要求1至5中任一项所述的多余度监控方法,其特征在于,如果所述四个步骤中的一个出现异常,则判断所述网管应用异常。
9.一种多余度监控系统,其特征在于,包括:
进程监控模块,用于监控网管应用的进程;
服务监控模块,用于监控所述网管应用提供的服务;
运行状态获取模块,用于通过网络接口获取所述网管应用的运行状态;以及
数据库监控模块,用于监控所述网管应用的底层数据库的服务状态;以及
二级监控模块,用于对所述进程监控模块、所述服务监控模块、所述运行状态监控模块、和所述数据库监控模块进行多组互为备份的二级监控。
10.根据权利要求9所述的多余度监控系统,其特征在于,所述进程监控模块、所述服务监控模块、所述运行状态监控模块、和所述数据库监控模块彼此独立,无先后顺序地分别运行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710000734XA CN101222650B (zh) | 2007-01-10 | 2007-01-10 | 多余度监控方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710000734XA CN101222650B (zh) | 2007-01-10 | 2007-01-10 | 多余度监控方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101222650A true CN101222650A (zh) | 2008-07-16 |
CN101222650B CN101222650B (zh) | 2011-06-22 |
Family
ID=39632181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200710000734XA Expired - Fee Related CN101222650B (zh) | 2007-01-10 | 2007-01-10 | 多余度监控方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101222650B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317696A (zh) * | 2014-10-27 | 2015-01-28 | 浙江省烟草公司金华市公司 | 一种信息化设备和服务运行状态故障报警系统 |
CN104503880A (zh) * | 2014-12-16 | 2015-04-08 | 新余兴邦信息产业有限公司 | 一种MySQL数据库监控选项脚本的实现方法及装置 |
CN109614283A (zh) * | 2018-10-24 | 2019-04-12 | 世纪龙信息网络有限责任公司 | 分布式数据库集群的监控系统 |
WO2019137208A1 (zh) * | 2018-01-11 | 2019-07-18 | 贵州白山云科技股份有限公司 | 一种底层数据监控方法、介质、设备及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1152514C (zh) * | 2001-05-25 | 2004-06-02 | 华为技术有限公司 | 电信网网管系统后台进程的监控装置 |
CN1547120A (zh) * | 2003-12-10 | 2004-11-17 | 沈阳东软软件股份有限公司 | 网络监视管理系统 |
CN1642030A (zh) * | 2004-01-05 | 2005-07-20 | 华为技术有限公司 | 一种网管双机容灾备份的实现方法 |
-
2007
- 2007-01-10 CN CN200710000734XA patent/CN101222650B/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317696A (zh) * | 2014-10-27 | 2015-01-28 | 浙江省烟草公司金华市公司 | 一种信息化设备和服务运行状态故障报警系统 |
CN104503880A (zh) * | 2014-12-16 | 2015-04-08 | 新余兴邦信息产业有限公司 | 一种MySQL数据库监控选项脚本的实现方法及装置 |
WO2016095551A1 (zh) * | 2014-12-16 | 2016-06-23 | 新余兴邦信息产业有限公司 | 一种MySQL数据库监控选项脚本的实现方法及装置 |
WO2019137208A1 (zh) * | 2018-01-11 | 2019-07-18 | 贵州白山云科技股份有限公司 | 一种底层数据监控方法、介质、设备及装置 |
CN109614283A (zh) * | 2018-10-24 | 2019-04-12 | 世纪龙信息网络有限责任公司 | 分布式数据库集群的监控系统 |
CN109614283B (zh) * | 2018-10-24 | 2022-04-08 | 天翼数字生活科技有限公司 | 分布式数据库集群的监控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101222650B (zh) | 2011-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107343034B (zh) | 基于QConf的Redis高可用系统及方法 | |
CN106341454B (zh) | 跨机房多活分布式数据库管理系统和方法 | |
CN107147540A (zh) | 高可用性系统中的故障处理方法和故障处理集群 | |
US7512677B2 (en) | Non-centralized network device management using console communications system and method | |
US20050262233A1 (en) | Methods and systems for history analysis for access paths in networks | |
CN101321084A (zh) | 在计算机环境中利用关联规则挖掘为计算实体产生配置规则的方法和装置 | |
CN106603696B (zh) | 一种基于超融合基础框架的高可用系统 | |
CN101102288A (zh) | 一种实现大型即时通信的方法及系统 | |
CN101222650B (zh) | 多余度监控方法和系统 | |
CN105138441A (zh) | 高可用集群系统及基于该系统的告警方法、告警系统 | |
CN103677967A (zh) | 一种数据库的远程数据服务系统及任务调度方法 | |
CN103647830A (zh) | 一种集群管理系统中多层次配置文件的动态管理方法 | |
CN106919346A (zh) | 一种基于clvm的共享存储虚拟化实现方法 | |
CN109684032A (zh) | 防脑裂的OpenStack虚拟机高可用计算节点装置及管理方法 | |
CN110971464A (zh) | 一种适合灾备中心的运维自动化系统 | |
CN103731328B (zh) | 基于Linux共享内存实现家庭网关数据通信的系统及方法 | |
CN104579791A (zh) | 一种实现k-db主备自动切换容灾集群的方法 | |
CN107104820B (zh) | 基于f5服务器节点的动态扩容日常运维方法 | |
CN106528370A (zh) | 一种在虚拟化层实现的虚拟机状态监控 | |
CN109144789A (zh) | 一种重启osd的方法、装置及系统 | |
US20090072953A1 (en) | Reliable Redundant Data Communication Through Alternating Current Power Distribution System | |
CN111769981A (zh) | 去中心化架构主节点推选方法、数据文件传输方法、系统 | |
Liu et al. | A large-scale study of failures on petascale supercomputers | |
CN105068763B (zh) | 一种针对存储故障的虚拟机容错系统和方法 | |
CN114116912A (zh) | 一种基于Keepalived实现数据库高可用的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110622 Termination date: 20180110 |
|
CF01 | Termination of patent right due to non-payment of annual fee |