CN101145983B - 一种网管系统的自诊断和自恢复子系统及方法 - Google Patents

一种网管系统的自诊断和自恢复子系统及方法 Download PDF

Info

Publication number
CN101145983B
CN101145983B CN200710075575.XA CN200710075575A CN101145983B CN 101145983 B CN101145983 B CN 101145983B CN 200710075575 A CN200710075575 A CN 200710075575A CN 101145983 B CN101145983 B CN 101145983B
Authority
CN
China
Prior art keywords
management system
network management
self
real
diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200710075575.XA
Other languages
English (en)
Other versions
CN101145983A (zh
Inventor
郭飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN200710075575.XA priority Critical patent/CN101145983B/zh
Publication of CN101145983A publication Critical patent/CN101145983A/zh
Application granted granted Critical
Publication of CN101145983B publication Critical patent/CN101145983B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种网管系统的自诊断和自恢复子系统及方法,该自诊断和自恢复子系统包括自检引导模块和实时监控模块;自检引导模块用于扫描检测当前网管系统,修复网管系统中检测到的问题,并在扫描检测完成后引导进入网管系统;实时监控模块用于实时监控当前网管系统的各运行状态,出现异常时,及时恢复网管系统的正常运行状态。其方法包括:a:扫描检测当前网管系统,若检测到问题,则自动修复;b:自检完成后,进入网管系统的主程序;c:实时监测网管系统的各运行状态,若出现异常,则及时恢复网管系统的正常运行状态。本发明实现了网管系统的自诊断和自恢复功能,在网管系统软件出现异常时,能够自动修复异常,增强了系统的可靠性和鲁棒性。

Description

一种网管系统的自诊断和自恢复子系统及方法
技术领域
本发明涉及电信领域,尤其涉及一种网管系统的自诊断和自恢复子系统及方法。
背景技术
在电信领域中,网管软件在配置、监控、维护各电信网元设备正常运行方面起着重要的作用。网管软件的运行要求系统有比较高的可靠性和鲁棒性,但出现一些异常情况时,如运行环境破坏、网管的非法操作、软件自身隐藏的bug造成内存泄漏或软件死锁、黑客攻击或病毒感染造成网管相关程序文件破坏或数据库异常等等问题,很可能造成网管软件不能正常运行,情况严重时系统会无法启动。现有技术中,对于这种异常情况,网管系统最多给出一定的错误提示或日志记录,一般只能靠手工的方法找出问题的原因来解决问题,还可采取重新启动网管系统、甚至重新安装网管系统等方法。这些方法都比较耗时,给网管软件自身的运行维护带来了不便,另外如果人工干预处理问题过长,有可能造成网元设备业务数据丢失。
发明内容
本发明所要解决的技术问题是提供一种网管系统的自诊断和自恢复子系统及方法,提高网管系统的自身维护管理能力。
为解决上述技术问题,本发明是通过以下技术方案实现的:
一种网管系统的自诊断和自恢复子系统,所述自诊断和自恢复子系统包括自检引导模块和实时监控模块;
所述自检引导模块用于扫描检测当前网管系统,修复网管系统中检测到的问题,并在扫描检测完成后引导进入网管系统;
所述实时监控模块用于实时监控当前网管系统的各运行状态,出现异常时,及时恢复网管系统的正常运行状态。
其中,所述网管系统包括备份模块,用于在网管系统安装时对其各程序的副本进行备份,在网管系统运行期间定时保存最近的至少一次正常运行参数。
其中,所述自诊断和自恢复子系统的部署方式与所述网管系统的部署方式相对应,在一台计算机上运行,或者在同一网管系统部署的多台机器上运行。
一种网管系统的自诊断和自恢复方法,所述方法包括以下步骤:
a:扫描检测当前网管系统,若检测到问题,则自动修复;
b:自检完成后,进入网管系统的主程序;
c:实时监测网管系统的各运行状态,若出现异常,则及时恢复网管系统的正常运行状态。
其中,所述方法还包括:在网管系统安装时对程序的副本进行备份,并在其运行期间,定时保存最近的至少一次正常运行参数。
其中,所述步骤a中的检测方法为:比较各参数、比较文件名称或大小、比较文件二进制、运行数据库修复脚本。
其中,所述步骤a中的修复方法为:根据保存的最近一次正常运行参数和程序副本,自动修复网管系统。
其中,所述步骤c进一步包括:对网管系统的进程进行监控,出现异常时,实时采取自动重启的方式来恢复网管系统的正常运行状态。
其中,所述步骤c还包括:定时扫描检测当前网管系统,若检测到问题,则根据备份的最近一次正常运行参数和程序副本来自动修复网管系统。
本发明具有如下有益效果:本发明实现了网管系统的自诊断和自恢复功能,在网管系统软件出现异常时,该系统能够自动修复异常,增强了网管系统的可靠性和鲁棒性。
附图说明
图1为本发明的系统结构图;
图2为本发明的方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:
本发明的核心思想为:通过一个网管系统的自诊断和自恢复子系统与网管自身的备份功能相配合,来实现网管系统的自诊断和自恢复。
如图1所示,本发明的网管系统的自诊断和自恢复子系统包括自检引导模块和实时监控模块。
其中,自检引导模块的功能为:网管软件系统启动时,扫描检测当前网管系统,若检测到问题,则自动执行对网管系统的修复;自检完成后引导进入网管系统;
实时监控模块的功能为:实时监控网管系统的各运行状态,出现异常时,及时恢复网管的正常运行状态。
该子系统与网管系统相对独立,可以有不同的部署方式,同网管系统的部署相对应,即可以在一台计算机上运行,也可在同一网管系统部署的多台计算机上运行。
如图2所示,网管系统的自诊断和自恢复方法为:
a:网管系统启动时,先扫描检测当前网管系统,若检测到问题,则自动修复。
具体为:网管系统启动时,首先进入网管系统的自诊断和自恢复子系统的自检引导模块,执行网管系统的自检工作,扫描检测当前网管系统,如果检测到问题,则自动执行修复工作。
其中,自检引导模块的自检方法为:通过比较参数、文件名称或文件大小比较、文件二进制比较、运行数据库修复脚本等等多种方式来进行自检。检测出问题后,自动修复方法为:根据网管系统保存的最近一次正常运行参数和程序副本,自动修复网管系统。
b:自检完成后,进入网管系统的主程序。
c:实时监测网管系统的各运行状态,若出现异常,则及时恢复网管系统的正常运行状态。
具体为:在网管系统主程序运行期间,网管自诊断和自恢复子系统的实时监控模块在线监控进程,内存、I/O、CPU等的资源占用率等参数,网管运行进程出现异常时,实时采取自动重启的方式来恢复网管正常运行。
该步骤还包括:子系统采用定时器的方式,自检引导模块定时扫描检测当前网管系统,发现问题后及时告警并根据备份的最近一次正常运行参数和程序副本来自动修复网管系统。
实施例一:
此实施例中,网管系统由于某种原因,主程序文件或相关程序文件损坏或丢失,其主程序无法正常启动运行。网管系统启动后,自诊断和自恢复子系统通过文件名称、大小比较或文件二进制比较等方法定位出损坏或丢失的文件,然后从网管程序备份副本中复制相关的文件,修复当前的网管程序,修复完成后,引导网管主程序进入正常运行状态。
实施例二:
此实施例中,网管系统由于某种原因,其运行的环境参数被破坏,网管系统的主程序无法正常启动运行。网管系统启动后,自诊断自恢复子系统通过扫描对比当前的环境参数以及最近一次正常运行的正确环境参数,发现并定位问题,然后根据网管程序的最近一次正常参数备份修复当前的网管程序的环境参数,修复完成后,引导网管主程序进入正常运行状态。
实施例三:
此实施例中,网管系统运行期间,由于某种原因(如隐藏的BUG)造成部分网管相关进程内存严重泄漏,系统无法正常运行。自诊断和自恢复子系统实时监控到进程的内存资源异常问题后,自动重启复位相关进程,恢复网管系统的正常运行状态。
实施例四:
此实施例中,网管系统运行期间,在网管系统业务不繁忙的时候,自诊断和自恢复子系统定时扫描检测网管系统文件和相关的配置参数,发现异常后,根据备份的网管程序副本或最近一次正常参数,自动修复网管异常,恢复网管系统的正常运行状态。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种网管系统的自诊断和自恢复子系统,其特征在于,所述自诊断和自恢复子系统包括自检引导模块和实时监控模块;
所述自检引导模块用于扫描检测当前网管系统,修复网管系统中检测到的问题,并在扫描检测完成后引导进入网管系统;
所述实时监控模块用于实时监控当前网管系统的各运行状态,出现异常时,及时恢复网管系统的正常运行状态,
所述自诊断和自恢复子系统的部署方式与所述网管系统的部署方式相对应,在一台计算机上运行,或者在同一网管系统部署的多台机器上运行;
所述网管系统包括备份模块,用于在网管系统安装时对其各程序的副本进行备份,在网管系统运行期间定时保存最近的至少一次正常运行参数。
2.一种网管系统的自诊断和自恢复方法,其特征在于,在网管系统安装时对程序的副本进行备份,并在其运行期间,定时保存最近的至少一次正常运行参数,所述方法还包括以下步骤:
a:扫描检测当前网管系统,若检测到问题,则自动修复;
b:自检完成后,进入网管系统的主程序;
c:定时扫描检测当前网管系统,若检测到问题,则根据备份的最近一次正常运行参数和程序副本来自动修复网管系统。
3.如权利要求2所述的网管系统的自诊断和自恢复方法,其特征在于,所述步骤a中的检测方法为:比较各参数、比较文件名称或大小、比较文件二进制、运行数据库修复脚本。
4.如权利要求2所述的网管系统的自诊断和自恢复方法,其特征在于,所述步骤a中的修复方法为:根据保存的最近一次正常运行参数和程序副本,自动修复网管系统。
5.如权利要求2所述的网管系统的自诊断和自恢复方法,其特征在于,所述步骤c进一步包括:对网管系统的进程进行监控,出现异常时,实时采取自动重启的方式来恢复网管系统的正常运行状态。
CN200710075575.XA 2007-08-07 2007-08-07 一种网管系统的自诊断和自恢复子系统及方法 Expired - Fee Related CN101145983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710075575.XA CN101145983B (zh) 2007-08-07 2007-08-07 一种网管系统的自诊断和自恢复子系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710075575.XA CN101145983B (zh) 2007-08-07 2007-08-07 一种网管系统的自诊断和自恢复子系统及方法

Publications (2)

Publication Number Publication Date
CN101145983A CN101145983A (zh) 2008-03-19
CN101145983B true CN101145983B (zh) 2014-08-13

Family

ID=39208297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710075575.XA Expired - Fee Related CN101145983B (zh) 2007-08-07 2007-08-07 一种网管系统的自诊断和自恢复子系统及方法

Country Status (1)

Country Link
CN (1) CN101145983B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291248A (zh) * 2010-06-18 2011-12-21 中兴通讯股份有限公司 一种实现系统自恢复的方法及装置
CN103324867B (zh) * 2012-03-21 2016-08-17 宇龙计算机通信科技(深圳)有限公司 终端和应用程序的管理方法
CN107801064B (zh) * 2016-09-05 2020-08-18 中国移动通信集团公司 一种多屏互动系统的自修复的方法及装置
CN108241355B (zh) * 2016-12-27 2019-08-30 合肥美亚光电技术股份有限公司 安检机的故障恢复方法、系统及安检机
WO2020107198A1 (zh) * 2018-11-27 2020-06-04 刘馥祎 运算设备维护方法及装置、存储介质和程序产品
CN109714201B (zh) * 2018-12-19 2021-08-06 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 网络系统可靠性评估方法、装置、计算机设备和存储介质
CN109976951A (zh) * 2019-04-08 2019-07-05 中影环球(北京)科技有限公司 一种影院管理系统的自检方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1553580A (zh) * 2003-05-26 2004-12-08 华为技术有限公司 一种通信设备的启动方法
CN1642030A (zh) * 2004-01-05 2005-07-20 华为技术有限公司 一种网管双机容灾备份的实现方法
US7170801B2 (en) * 2002-07-04 2007-01-30 Samsung Electronics Co., Ltd. Method for replacing defects in a memory and apparatus thereof
CN1940877A (zh) * 2005-09-28 2007-04-04 联想(北京)有限公司 用于软件系统保护的软件系统保护点还原方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7170801B2 (en) * 2002-07-04 2007-01-30 Samsung Electronics Co., Ltd. Method for replacing defects in a memory and apparatus thereof
CN1553580A (zh) * 2003-05-26 2004-12-08 华为技术有限公司 一种通信设备的启动方法
CN1642030A (zh) * 2004-01-05 2005-07-20 华为技术有限公司 一种网管双机容灾备份的实现方法
CN1940877A (zh) * 2005-09-28 2007-04-04 联想(北京)有限公司 用于软件系统保护的软件系统保护点还原方法和装置

Also Published As

Publication number Publication date
CN101145983A (zh) 2008-03-19

Similar Documents

Publication Publication Date Title
CN101145983B (zh) 一种网管系统的自诊断和自恢复子系统及方法
CN100388217C (zh) 用于通信系统中的动态阈值缩放的方法和系统
EP3121726B1 (en) Fault processing method, related device and computer
KR102268355B1 (ko) 클라우드 배치 기반구조 검증 엔진
US9146839B2 (en) Method for pre-testing software compatibility and system thereof
US8677189B2 (en) Recovering from stack corruption faults in embedded software systems
US20120239981A1 (en) Method To Detect Firmware / Software Errors For Hardware Monitoring
US20160132420A1 (en) Backup method, pre-testing method for environment updating and system thereof
US20080162915A1 (en) Self-healing computing system
CN102063344A (zh) 一种系统故障信息转储的方法与系统
CN104685474A (zh) 包括不可纠正的错误的地址范围的通知
CN111581021B (zh) 应用程序启动异常的修复方法、装置、设备及存储介质
CN112667436A (zh) 一种服务器关机时的自动捕获分析方法、装置、设备及介质
US20140032962A1 (en) System and Methods for Self-Healing From Operating System Faults in Kernel/Supervisory Mode
CN100489730C (zh) 实时检查进程完整性的方法与系统
Jha et al. Resiliency of hpc interconnects: A case study of interconnect failures and recovery in blue waters
CN105426263A (zh) 一种实现金库系统安全运行的方法及系统
CN114020509A (zh) 工作负载集群的修复方法、装置、设备及可读存储介质
CN102262573B (zh) 操作系统启动保护方法和装置
CN105760276B (zh) 提高reboot命令重启可靠性并增加复位日志的方法
CN112395137B (zh) 一种linux内核异常的处理方法、设备及装置
CN1506829A (zh) 预防软件由于长时间运行而发生错误的方法
CN114217925A (zh) 一种实现异常自动重启的业务程序运行监控方法及系统
CN105391575A (zh) 一种金库控制方法及系统
CN104346239A (zh) 嵌入式系统中应用程序的异常恢复方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140813

Termination date: 20170807