CN104486122A - 基于看门狗的路由器异常恢复系统及方法 - Google Patents

基于看门狗的路由器异常恢复系统及方法 Download PDF

Info

Publication number
CN104486122A
CN104486122A CN201410788976.XA CN201410788976A CN104486122A CN 104486122 A CN104486122 A CN 104486122A CN 201410788976 A CN201410788976 A CN 201410788976A CN 104486122 A CN104486122 A CN 104486122A
Authority
CN
China
Prior art keywords
index
router
abnormal
module
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410788976.XA
Other languages
English (en)
Inventor
管建智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feixun Data Communication Technology Co Ltd
Original Assignee
Shanghai Feixun Data Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feixun Data Communication Technology Co Ltd filed Critical Shanghai Feixun Data Communication Technology Co Ltd
Priority to CN201410788976.XA priority Critical patent/CN104486122A/zh
Publication of CN104486122A publication Critical patent/CN104486122A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Abstract

本发明提供一种基于看门狗的路由器异常恢复系统及方法,包括若干个指标监控模块、告警模块和系统监控主进程;所述指标监控模块用于监控路由器可能出现异常的系统指标,并判断所监控的系统指标是否异常;所述告警模块用于在一个或多个所述指标监控模块判断系统指标异常时,发送告警信息给系统监控主进程;所述系统监控主进程用于处理指标监控模块的注册与解注册操作,在接收到告警信息后杀死看门狗的喂狗进程以重启系统进行恢复。本发明的基于看门狗的路由器异常恢复系统及方法利用看门狗机制来恢复除路由器系统僵死之外的异常情况;动态扩充需保护的异常情况列表。

Description

基于看门狗的路由器异常恢复系统及方法
技术领域
本发明涉及一种路由器的技术领域,特别是涉及一种基于看门狗的路由器异常恢复系统及方法。
背景技术
现有技术中,路由器有一套基于看门狗(Watch Dog)的故障恢复机制。当系统僵死时,能够重启路由器,将业务恢复到正常状态。看门狗的定时器有两种软件实现和硬件实现这两种实现方法。
看门狗包括一个喂狗(kicking the dog or service the dog)进程。定时器每次超时即重启设备,如果收到喂狗进程的喂狗动作则重置定时器。其中,喂狗进程按一定的周期执行喂狗操作,该周期小于等于定时器的周期。具体地,当系统正常工作的时候,每隔一段时间输出一个信号到喂狗端,给定时器清零;如果超过规定的时间不喂狗,定时器超时,就会给出一个复位信号到系统,使系统复位,以防止系统死机。
然而,现有的看门狗机制只能针对系统发生僵死的情况做进行恢复。在一些情况下,虽然系统没有僵死,路由器上一些关键进程异常退出或某些指标异常,也会导致一些业务已经不能正常工作。如果不能借助一些软件的机制来恢复系统,则需要重启路由器。这将会给路由器的使用带来很大的不便。
在实际使用中,路由器的进程或运行指标的异常情况有些是可以预测的,有些是不可以预测的。由于异常情况表现形态的不可预见性,即使有了看门狗机制,也无法对事先不能预见的异常情况进行恢复。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于看门狗的路由器异常恢复系统及方法,通过事后配置的方式来扩充看门狗能够恢复的异常情况,使得路由器在多种异常情况下均可正常运行,无需重启。
为实现上述目的及其他相关目的,本发明提供一种基于看门狗的路由器异常恢复系统,包括若干个指标监控模块、告警模块和系统监控主进程;所述指标监控模块用于监控路由器可能出现异常的系统指标,并判断所监控的系统指标是否异常;所述告警模块用于在一个或多个所述指标监控模块判断系统指标异常时,发送告警信息给系统监控主进程;所述系统监控主进程用于处理指标监控模块的注册与解注册操作,在接收到告警信息后杀死看门狗的喂狗进程以重启系统进行恢复。
根据上述的基于看门狗的路由器异常恢复系统,其中:所述指标监控模块通过通信接口向所述系统监控主进程进行注册与解注册操作。
根据上述的基于看门狗的路由器异常恢复系统,其中:所述指标监控模块包括参数读取模块和分析模块;所述指标读取模块用于采集路由器可能出现异常的系统指标;所述分析模块用于分析所述指标读取模块所读取的系统指标,判断系统指标是否异常。
根据上述的基于看门狗的路由器异常恢复系统,其中:所述系统指标包括进程是否存在、内存大小、IP地址、路由表、特定驱动的运行状态。
根据上述的基于看门狗的路由器异常恢复系统,其中:当需要对某个系统指标进行监控时,能够生成对应的指标监控模块,并向所述系统监控主进程注册。
同时,本发明还提供一种基于看门狗的路由器异常恢复方法,包括以下步骤:
若干个指标监控模块向系统监控主进程进行注册;
各个指标监控模块分别监控路由器可能出现异常的各项系统指标,并判断所监控的系统指标是否异常;
在一个或多个指标监控模块判断系统指标异常时,告警模块发送告警信息给系统监控主进程;
系统监控主进程在接收到告警信息后杀死看门狗的喂狗进程以重启系统进行恢复。
根据上述的基于看门狗的路由器异常恢复方法,其中:还包括:当某个系统指标不需要进行监控时,对应的指标监控模块向系统监控主进程进行解注册操作。
根据上述的基于看门狗的路由器异常恢复方法,其中:当需要对某个系统指标进行监控时,生成对应的指标监控模块,并向系统监控主进程注册。
根据上述的基于看门狗的路由器异常恢复方法,其中:所述指标监控模块包括参数读取模块和分析模块;所述指标读取模块采集路由器可能出现异常的系统指标;所述分析模块分析所述指标读取模块所读取的系统指标,判断系统指标是否异常。
根据上述的基于看门狗的路由器异常恢复方法,其中:所述系统指标包括进程是否存在、内存大小、IP地址、路由表、特定驱动的运行状态。
如上所述,本发明的基于看门狗的路由器异常恢复系统及方法,具有以下有益效果:
(1)能够利用看门狗机制来恢复除路由器系统僵死之外的异常情况;
(2)能够动态扩充需保护的异常情况列表。
附图说明
图1显示为本发明的基于看门狗的路由器异常恢复系统的结构示意图;
图2显示为本发明的基于看门狗的路由器异常恢复方法的流程图。
元件标号说明
1  指标监控模块
11 参数读取模块
12 分析模块
2  告警模块
3  系统监控主进程
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
参照图1,在本发明的基于看门狗的路由器异常恢复系统中,包括若干个指标监控模块1、告警模块2和系统监控主进程3。
指标监控模块1用于监控路由器可能出现异常的系统指标,并判断所监控的系统指标是否异常。具体地,每个指标监控模块用于监控特定的一个系统指标。所监控的系统指标包括有进程是否存在、内存大小、IP地址、路由表和特定驱动的运行状态,等等。
其中,指标监控模块1包括参数读取模块11和分析模块12。
具体地,指标读取模块11用于采集路由器可能出现异常的系统指标。其中,所采集的系统指标包括进程是否存在、内存大小、IP地址、路由表、特定驱动的运行状态等等。所采用的读取手段包括调用系统函数、读取linux内核/proc文件系统中的文件、通过进程间通信机制从其他进程获取需要的信息、通过ioctl从内核或驱动中获取信息,等等。
分析模块12用于分析指标读取模块11所读取的系统指标,判断系统指标是否异常。具体地,系统指标异常的情形包括系统指标不能正常读取、所读取的系统指标超出阀值等。
告警模块2用于在一个或多个指标监控模块判断系统指标异常时,发送告警信息给系统监控主进程3。
系统监控主进程3用于处理指标监控模块的注册与解注册操作,在接收到告警信息后杀死看门狗的喂狗进程以重启系统进行恢复。
下面通过具体实施例来阐述本发明的基于看门狗的路由器异常恢复系统的工作机制。以内存大小为例,指标读取模块周期性地读取/proc/meminfo文件,以获取系统的剩余内存;当内存小于最小预留值,如2M时,分析模块判断该系统指标异常,需要重启系统进行恢复;告警模块则发送告警信息给系统监控主进程;系统监控主进程触发看门狗的恢复机制。
因此,在实际使用中,现有路由器通过系统的维护日志或对问题的分析发现实际运行中会出现的异常情况,然后针对该异常情况开发新的指标监控模块,并安装到设备的操作系统中,从而实现对该异常的恢复功能。具体地,指标监控模块通过通信接口向系统监控主进程进行注册与解注册操作。
在本发明的路由器系统框架中包括可读写的文件系统、模块的远程下载、模块的安装/卸载机制、远程管理接口等。通过该框架,设备管理员可以远程向路由器设备安装特定的指标监控模块,使得路由器能够恢复特定的异常情况。因此,本发明的基于看门狗的路由器异常恢复系统及方法不仅能够恢复除路由器系统僵死之外的异常情况,还能够根据路由器的运行情况动态扩充的需保护的异常情况,从而保证路由器的长久正常运行。
参照图2,本发明的基于看门狗的路由器异常恢复方法包括以下步骤:
步骤S1、若干个指标监控模块向系统监控主进程进行注册。
具体地,指标监控模块通过通信接口向系统监控主进程进行注册。
步骤S2、各个指标监控模块分别监控路由器可能出现异常的各项系统指标,并判断所监控的系统指标是否异常。
每个指标监控模块用于监控特定的一个系统指标。所监控的系统指标包括有进程是否存在、内存大小、IP地址、路由表和特定驱动的运行状态,等等。
其中,指标监控模块包括参数读取模块和分析模块。
指标读取模块采集路由器可能出现异常的系统指标。其中,所采集的系统指标包括进程是否存在、内存大小、IP地址、路由表、特定驱动的运行状态等等。所采用的读取手段包括调用系统函数、读取linux内核/proc文件系统中的文件、通过进程间通信机制从其他进程获取需要的信息、通过ioctl从内核或驱动中获取信息,等等。
分析模块分析指标读取模块所读取的系统指标,判断系统指标是否异常。具体地,系统指标异常的情形包括系统指标不能正常读取、所读取的系统指标超出阀值等。
步骤S3、在一个或多个指标监控模块判断系统指标异常时,告警模块发送告警信息给系统监控主进程。
步骤S4、系统监控主进程在接收到告警信息后杀死看门狗的喂狗进程以重启系统进行恢复。
优选地,还包括步骤S5、当某个系统指标不需要进行监控时,对应的指标监控模块向系统监控主进程进行解注册操作。
在本发明的一个优选实施例中,还包括:当需要对某个系统指标进行监控时,生成对应的指标监控模块,并向系统监控主进程注册。
具体地,指标监控模块通过通信接口向系统监控主进程进行解注册操作。
综上所述,本发明的基于看门狗的路由器异常恢复系统及方法能够利用看门狗机制来恢复除路由器系统僵死之外的异常情况;能够动态扩充需保护的异常情况列表。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于看门狗的路由器异常恢复系统,其特征在于:包括若干个指标监控模块、告警模块和系统监控主进程;
所述指标监控模块用于监控路由器可能出现异常的系统指标,并判断所监控的系统指标是否异常;
所述告警模块用于在一个或多个所述指标监控模块判断系统指标异常时,发送告警信息给系统监控主进程;
所述系统监控主进程用于处理指标监控模块的注册与解注册操作,在接收到告警信息后杀死看门狗的喂狗进程以重启系统进行恢复。
2.根据权利要求1所述的基于看门狗的路由器异常恢复系统,其特征在于:所述指标监控模块通过通信接口向所述系统监控主进程进行注册与解注册操作。
3.根据权利要求1所述的基于看门狗的路由器异常恢复系统,其特征在于:所述指标监控模块包括参数读取模块和分析模块;所述指标读取模块用于采集路由器可能出现异常的系统指标;所述分析模块用于分析所述指标读取模块所读取的系统指标,判断系统指标是否异常。
4.根据权利要求1所述的基于看门狗的路由器异常恢复系统,其特征在于:所述系统指标包括进程是否存在、内存大小、IP地址、路由表、特定驱动的运行状态。
5.根据权利要求1所述的基于看门狗的路由器异常恢复系统,其特征在于:当需要对某个系统指标进行监控时,能够生成对应的指标监控模块,并向所述系统监控主进程注册。
6.一种基于看门狗的路由器异常恢复方法,其特征在于:包括以下步骤:
若干个指标监控模块向系统监控主进程进行注册;
各个指标监控模块分别监控路由器可能出现异常的各项系统指标,并判断所监控的系统指标是否异常;
在一个或多个指标监控模块判断系统指标异常时,告警模块发送告警信息给系统监控主进程;
系统监控主进程在接收到告警信息后杀死看门狗的喂狗进程以重启系统进行恢复。
7.根据权利要求6所述的基于看门狗的路由器异常恢复方法,其特征在于:还包括:当某个系统指标不需要进行监控时,对应的指标监控模块向系统监控主进程进行解注册操作。
8.根据权利要求6所述的基于看门狗的路由器异常恢复方法,其特征在于:当需要对某个系统指标进行监控时,生成对应的指标监控模块,并向系统监控主进程注册。
9.根据权利要求6所述的基于看门狗的路由器异常恢复方法,其特征在于:所述指标监控模块包括参数读取模块和分析模块;所述指标读取模块采集路由器可能出现异常的系统指标;所述分析模块分析所述指标读取模块所读取的系统指标,判断系统指标是否异常。
10.根据权利要求6所述的基于看门狗的路由器异常恢复方法,其特征在于:所述系统指标包括进程是否存在、内存大小、IP地址、路由表、特定驱动的运行状态。
CN201410788976.XA 2014-12-17 2014-12-17 基于看门狗的路由器异常恢复系统及方法 Pending CN104486122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410788976.XA CN104486122A (zh) 2014-12-17 2014-12-17 基于看门狗的路由器异常恢复系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410788976.XA CN104486122A (zh) 2014-12-17 2014-12-17 基于看门狗的路由器异常恢复系统及方法

Publications (1)

Publication Number Publication Date
CN104486122A true CN104486122A (zh) 2015-04-01

Family

ID=52760630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410788976.XA Pending CN104486122A (zh) 2014-12-17 2014-12-17 基于看门狗的路由器异常恢复系统及方法

Country Status (1)

Country Link
CN (1) CN104486122A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789383A (zh) * 2015-11-20 2017-05-31 北京奇虎科技有限公司 路由器系统监测方法与装置
CN109391544A (zh) * 2017-08-08 2019-02-26 广州元电荷通信科技有限公司 2g/3g/4g路由器死机自动重启方法和电路
CN109862583A (zh) * 2019-01-04 2019-06-07 新华三技术有限公司 一种上报异常信息的方法及装置
CN111078441A (zh) * 2018-10-19 2020-04-28 迈普通信技术股份有限公司 一种系统运行状态监测方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916858A (zh) * 2006-09-19 2007-02-21 杭州华为三康技术有限公司 多核系统中的监控方法、监控装置以及多核系统
CN101295271A (zh) * 2007-04-29 2008-10-29 迈普(四川)通信技术有限公司 软件看门狗自我恢复方法
CN101820359A (zh) * 2010-03-09 2010-09-01 杭州华三通信技术有限公司 一种网络设备的故障处理方法和设备
CN103853625A (zh) * 2012-12-06 2014-06-11 苏州工业园区新宏博通讯科技有限公司 多任务看门狗的实现装置和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916858A (zh) * 2006-09-19 2007-02-21 杭州华为三康技术有限公司 多核系统中的监控方法、监控装置以及多核系统
CN101295271A (zh) * 2007-04-29 2008-10-29 迈普(四川)通信技术有限公司 软件看门狗自我恢复方法
CN101820359A (zh) * 2010-03-09 2010-09-01 杭州华三通信技术有限公司 一种网络设备的故障处理方法和设备
CN103853625A (zh) * 2012-12-06 2014-06-11 苏州工业园区新宏博通讯科技有限公司 多任务看门狗的实现装置和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789383A (zh) * 2015-11-20 2017-05-31 北京奇虎科技有限公司 路由器系统监测方法与装置
CN109391544A (zh) * 2017-08-08 2019-02-26 广州元电荷通信科技有限公司 2g/3g/4g路由器死机自动重启方法和电路
CN109391544B (zh) * 2017-08-08 2022-02-25 广州元电荷通信科技有限公司 2g/3g/4g路由器死机自动重启方法和电路
CN111078441A (zh) * 2018-10-19 2020-04-28 迈普通信技术股份有限公司 一种系统运行状态监测方法、装置及电子设备
CN109862583A (zh) * 2019-01-04 2019-06-07 新华三技术有限公司 一种上报异常信息的方法及装置

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN104199753B (zh) 一种虚拟机应用服务故障恢复系统及其故障恢复方法
CN105323113B (zh) 一种基于可视化技术的系统故障应急处置方法
CN108710544B (zh) 一种数据库系统的进程监控方法及轨道交通综合监控系统
US10489232B1 (en) Data center diagnostic information
US20140101489A1 (en) Method, Apparatus, and System for Handling Virtual Machine Internal Fault
CN107147540A (zh) 高可用性系统中的故障处理方法和故障处理集群
CN104486122A (zh) 基于看门狗的路由器异常恢复系统及方法
JP2012198796A (ja) ログ収集システム、装置、方法及びプログラム
CN110806921B (zh) 一种ovs异常告警监控系统及方法
CN111046011A (zh) 日志收集方法、系统、节点、电子设备及可读存储介质
CN110851320A (zh) 一种服务器宕机监管方法、系统、终端及存储介质
CN101296135A (zh) 故障信息的处理方法和装置
CN105763395A (zh) 云环境下用于虚拟机和容器的监控管理方法及系统
US9727406B2 (en) Mitigating crashes of an application server executing a monitoring agent
CN105550057A (zh) 嵌入式软件系统故障检测恢复方法和系统
CN109828945B (zh) 一种业务报文处理方法及系统
CN107291589B (zh) 在机器人操作系统中提升系统可靠性的方法
CN103763143A (zh) 基于存储服务器的设备异常报警的方法及系统
CN105426263A (zh) 一种实现金库系统安全运行的方法及系统
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN113672471A (zh) 一种软件监控方法、装置、设备及存储介质
CN104486149A (zh) 一种用于地面测试的有限状态机方法
CN102231124B (zh) 一种嵌入式系统任务的守护方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150401