CN104102572A - 一种系统故障检测及处理方法、装置 - Google Patents

一种系统故障检测及处理方法、装置 Download PDF

Info

Publication number
CN104102572A
CN104102572A CN201310111375.0A CN201310111375A CN104102572A CN 104102572 A CN104102572 A CN 104102572A CN 201310111375 A CN201310111375 A CN 201310111375A CN 104102572 A CN104102572 A CN 104102572A
Authority
CN
China
Prior art keywords
task
detection
endless loop
service routine
interrupt service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310111375.0A
Other languages
English (en)
Inventor
于光波
朱怀云
邱静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201310111375.0A priority Critical patent/CN104102572A/zh
Priority to PCT/CN2014/070187 priority patent/WO2014161373A1/zh
Priority to EP14779970.4A priority patent/EP2983086A4/en
Priority to US14/781,403 priority patent/US9720761B2/en
Publication of CN104102572A publication Critical patent/CN104102572A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/85Active fault masking without idle spares

Abstract

本发明公开了一种系统故障检测及处理方法、装置,包括:中断服务程序发送一级喂狗信号,并接收系统检测任务的二级喂狗信号;在检测到任务死循环或任务异常时,根据预先设定的处理策略进行系统异常处理;其中,当中断服务程序在设定时间内接收不到所述二级喂狗信号时,则中断服务程序停止发送一级喂狗信号,进行系统重启。本发明可以实现软件系统的故障自动检测,并根据用户策略自动恢复系统;能够同时检测系统启动过程和系统运行过程的系统异常,并自动恢复;能够对系统运行过程中的异常类型分类识别,并根据用户策略进行异常判断和自恢复;系统异常检测和自恢复策略用户可配置,异常原因可以记录,可查询。

Description

一种系统故障检测及处理方法、装置
技术领域
本发明涉及软件系统故障检测处理技术领域,特别是涉及一种系统故障检测及处理方法、装置。
背景技术
在软件系统启动和运行过程中,常常会发生故障导致系统无法工作,如:系统硬件吊死、操作系统崩溃、任务异常、任务死循环、中断过频等。对于通信系统软件来说,在软件系统发生故障时,能够自动识别任务异常状态,并根据用户的配置策略,进行相应的故障异常告警、记录以及系统恢复,这都是必不可少的功能。特别是对于那些实时性要求较高的支持语音业务的系统,在系统运行到任何阶段,遇到任何故障,都要求能够完全准确的异常识别、异常信息记录和自恢复处理。
现有的软件系统故障检测及自恢复方法,一般采用硬件狗或者软件看门狗技术。硬件狗就是一个简单的定时复位器件,其需要软件来定时为其产生脉冲喂狗信号,一旦超过定时门限(一般1到2秒)没有喂狗,则其会自动产生硬件复位信号,触发系统复位。软件看门狗技术其实现原理是为了解决硬件狗时间太短的问题,通过一些简单的心跳消息或者同步监听机制来增加硬件看门狗的复位时间。这些方法虽然简单易行,比较可靠,但是也有其自身缺陷:不能对系统所出现的所有异常情况进行检测;不能对系统中的特殊应用情况进行监控;不能对系统故障类型进行分类日志记录。
发明内容
本发明要解决的技术问题是提供一种系统故障检测及处理方法、装置,用以解决现有技术不能对系统所出现的所有异常情况进行检测的问题。
为解决上述技术问题,一方面,本发明提供一种系统故障检测及处理方法,包括:
中断服务程序发送一级喂狗信号,并接收系统检测任务的二级喂狗信号;
在检测到任务死循环或任务异常时,根据预先设定的处理策略进行系统异常处理;其中,当中断服务程序在设定时间内接收不到所述二级喂狗信号时,则中断服务程序停止发送一级喂狗信号,进行系统重启。
进一步,当系统出现操作系统崩溃或者硬件异常时,系统自动重启恢复。
进一步,当中断超过设定阈值、比所述系统检测任务优先级更高的任务忙、系统启动期间系统异常或所述系统检测任务自身异常挂起时,中断服务程序接收不到所述二级喂狗信号。
进一步,进行任务死循环检测时,包括:
系统检测任务定时二级软件喂狗,低优先级死循环辅助任务定时死循环保活维持;
定时统计中央处理器CPU占有率;
判断统计得到的CPU占有率是否高于CPU死循环判断门限值,如果否,则判定上述任务没有出现任务死循环;如果是,则进一步判断低优先级死循环辅助任务是否保活置位,如果是,则判定没有出现死循环;如果否,则进行告警,通知维护人员分析;
判断系统检测任务在采样检测时间段内是否只处理了一个消息,如果否,则进行告警,通知维护人员分析;如果是,则判定该任务处于死循环状态。
进一步,进行任务异常检测时,包括:
定时检测所有任务的工作状态;
根据检测到的任务工作状态,以及结合预先配置的任务异常判断策略,进行任务异常检测。
另一方面,本发明还提供一种系统故障检测及处理装置,包括:
信号处理模块,用于使中断服务程序发送一级喂狗信号,并接收系统检测任务的二级喂狗信号;
异常处理模块,用于在检测到任务死循环或任务异常时,根据预先设定的处理策略进行系统异常处理;其中,当中断服务程序在设定时间内接收不到所述二级喂狗信号时,则令中断服务程序停止发送一级喂狗信号,进行系统重启。
进一步,所述装置还包括:
自重启模块,用于当系统出现操作系统崩溃或者硬件异常时,系统自动重启恢复。
进一步,当中断超过设定阈值、比所述系统检测任务优先级更高的任务忙、系统启动期间系统异常或所述系统检测任务自身异常挂起时,中断服务程序接收不到所述二级喂狗信号。
进一步,所述装置还包括:
CPU占有率统计模块,用于系统检测任务定时二级软件喂狗,低优先级死循环辅助任务定时死循环保活维持时,定时统计中央处理器CPU占有率;
任务死循环检测模块,用于系统检测任务判断统计得到的CPU占有率是否高于CPU死循环判断门限值,如果否,则判定上述任务没有出现任务死循环;如果是,则进一步判断低优先级死循环辅助任务是否保活置位,如果是,则判定没有出现死循环;如果否,则进行告警,通知维护人员分析;判断系统检测任务在采样检测时间段内是否只处理了一个消息,如果否,则进行告警,通知维护人员分析;如果是,则判定该任务处于死循环状态。
进一步,所述装置还包括:
任务工作状态检测模块,用于定时检测所有任务的工作状态;
任务异常检测模块,用于根据检测到的任务工作状态,以及结合预先配置的任务异常判断策略,进行任务异常检测。
本发明有益效果如下:
本发明可以实现软件系统的故障自动检测,并根据用户策略自动恢复系统;能够同时检测系统启动过程和系统运行过程的系统异常,并自动恢复;能够对系统运行过程中的异常类型分类识别,并根据用户策略进行异常判断和自恢复;系统异常检测和自恢复策略用户可配置,异常原因可以记录,可查询。
附图说明
图1是本发明实施例中一种系统故障检测及处理方法的流程图;
图2是本发明实施例中一种系统故障检测及处理装置的结构示意图。
具体实施方式
以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
如图1所示,本发明实施例涉及一种系统故障检测及处理方法,包括:
步骤S101,中断服务程序发送一级喂狗信号,并接收系统检测任务的二级喂狗信号;
本步骤,中断服务程序正常一级硬件喂狗(发送一级喂狗信),当系统出现操作系统崩溃或者硬件异常,中断服务程序无法工作,硬件狗产生自动复位。
系统启动,中断服务程序开始一级硬件喂狗,待高优先级的系统检测任务启动,系统检测任务开始二级软件喂狗(发送二级喂狗信号),这段系统启动期间内如果发生系统异常,则将导致二级软件喂狗无法及时完成,从而停止一级硬件喂狗,系统将记录日志为启动异常、并同时自动复位。
系统启动后,高优先级系统检测任务正常运行,如果出现中断超过设定阈值(中断过频),或者比系统检测任务更高优先级的任务忙,则将导致二级软件喂狗无法及时完成,从而停止一级硬件喂狗,系统将记录日志并自动复位。另外,如果出现(高优先级)系统检测任务由于自身异常导致挂起,也会造成无法二级软件喂狗,一级硬件喂狗停止,系统将记录日志并自动复位。其中,比系统检测任务更高优先级的任务忙,是指比系统检测任务更高优先级的任务的CPU(Central Processing Unit,中央处理器)占有率超过预定门限值。
步骤S102,在检测到任务死循环或任务异常时,根据预先设定的处理策略进行系统异常处理;其中,当中断服务程序在设定时间内接收不到所述二级喂狗信号时,则中断服务程序停止发送一级喂狗信号,进行系统重启。
本步骤中,任务死循环检测,包括:定时统计任务的CPU占有率;并根据预先配置的CPU死循环判断门限值和死循环判断策略,进行任务死循环判断。任务死循环判断策略是由用于预先配置的,由用户根据任务特性、使用环境等因素进行配置,通常情况,任务的CPU占有率超过CPU死循环判断门限值则认为任务给死循环,当然,也可以设置例外情况。例如,一个低优先级死循环辅助任务,该任务的存在允许其他任务的CPU占有率超过CPU死循环判断门限值(在嵌入式系统中允许一些低优先级任务,比如idle任务一直很忙,但对系统的正常功能没有影响);位于特殊忙任务列表内的任务,允许这些特殊任务的CPU占有率超过CPU死循环判断门限值(一些关键任务在运行某些功能时在某段时间允许比较忙,不应该被看做任务异常忙)。另外,还需要进行任务死循环确认步骤,即至少在两次采样时间内都判定任务死循环,才可以认定该任务为死循环。
任务异常检测时,包括:定时检测所有任务工作状态;根据任务异常判断策略进行任务异常判断。任务异常判断策略由用户预先配置,用户可以根据实际情况进行不同配置。例如:只有判定任务为关键任务(关键任务指任务异常会影响到系统基本功能,必须马上恢复的任务;关键任务可以动态配置)异常时才进行自恢复(重启)操作;也可以当判定每个普通任务异常时,都可进行自恢复操作;也可以认为每个任务异常都不进行自恢复操作。任务异常检测也需要包括任务异常确认步骤,即至少两次采样时间内都判定任务异常才最终判定该任务异常。
系统自恢复处理,包括:判断系统异常(任务死循环或任务异常)后是否立即复位,如果是,立即复位,如果否,则根据系统自恢复等待时间而定,该等待时间可预先配置;系统异常等待时间到之后,复位条件判断,如果满足复位条件则立即复位;如果不满足则在等待默认时间后复位;系统异常不复位,则告警或者日志记录。系统异常日志记录包括:日志记录到内存或者记录到文件系统。
下面给出分别给出具体实施例,以进一步详细说明。
首先,本发明所述防范在系统启动或正常运行过程中的流程包括如下步骤:
步骤S201:系统启动,中断服务程序开始工作,并设置默认中断计数次数。默认中断计数次数根据系统正常启动时间而定,比如系统正常启动时间最长为5分钟,每次中断时间是10毫秒,则中断计数次数为5*60*1000/10=30000。
步骤S202:每次中断到来时,中断计数次数减1,中断服务程序进行一级硬件喂狗。如果此时系统硬件异常、操作系统崩溃等导致中断服务程序无法工作,则一级硬件喂狗停止,系统重启。
由于硬件看门狗喂狗门限一般为1到2秒,因此为了保证系统能够正常工作,系统启动过程中的其它任务在关中断时要特别关注,如果关中断时间比较长(超过喂狗门限)的,需要在代码中添加喂狗点,即在关中断中进行一级喂狗,以防止正常的关中断导致系统重启。
另外,每次中断到来时,同时进行中断计数是否大于0的判断,如果是,则等待下次中断到来,直至系统检测任务启动,转步骤S203;如果否,即中断计数等于0,说明高优先级系统检测任务没有正常启动工作,即在系统启动过程中遇到异常,这种情况相当于二级软件喂狗失效,则记录原因为启动异常,停止一级硬件喂狗,系统将重启。
步骤S203:高优先级系统检测任务启动,开始定时二级软件喂狗,重新设置中断计数次数,中断计数次数根据系统正常运行时任务死循环判断的及时性而定,如果死循环判断要求比较及时,数值则可以设置较小,相反则较大;比如:系统二级软件喂狗时间要求为3分钟,每次中断时间是10毫秒,则中断计数次数为3*60*1000/10=18000。
其中,高优先级系统检测任务二级软件喂狗定时时间可以根据中断计数次数,得到一个经验值,例如,可以设置成30秒二级软件喂狗一次。
步骤S204:当比高优先级系统检测任务优先级更高的任务忙,中断过频,或者高优先级任务异常挂起,即:3分钟内没有一次二级软件喂狗,则中断计数次数为0,系统认为高优先级任务忙,记录原因,停止一级硬件喂狗,系统重启。
本发明所述方法在系统正常运行过程中的任务死循环检测及自恢复方法流程如下:
步骤S301:高优先级系统检测任务和低优先级死循环辅助任务启动,高优先级系统检测任务定时二级软件喂狗,低优先级死循环辅助任务定时死循环保活维持。本步骤所述的高优先级和低优先级是相对来说,即系统检测任务的优先级高于死循环辅助任务的优先级。
步骤S302:高优先级系统检测任务,每隔1分钟统计一次任务的CPU占有率(统计任务状态为运行状态下的CPU占有率)。
步骤S303:高优先级系统检测任务比较已经统计得到的任务CPU占有率是否高于CPU死循环判断门限值(CPU死循环判断门限值可以根据系统的情况由用户预先手动配置);如果否,则判定上述任务没有出现任务死循环;如果是,则转步骤S304。
步骤S304:当判定有任务CPU占有率高于CPU死循环判断门限值时,则进一步判断低优先级死循环辅助任务是否保活置位,如果是,即低优先级死循环辅助任务有保活置位,说明该任务能够得到系统正常调度,系统没有出现死循环,任务优先级比低优先级死循环辅助任务更低的任务不在死循环统计范围之内;如果否,则转步骤S305。
步骤S305:如果低优先级任务死循环辅助任务没有置保活标志,也并不能说明该任务死循环,这是因为系统中存在某些任务在高优先级任务定时检测时间段内就是一直在运行,所以需要排除系统中的这些特殊任务,不能把它的正常忙状态当成死循环,但要告警通知维护人员分析。上述特殊任务由用户预先手动配置。
步骤S306:以上判断已经确定系统包括死循环任务,还需要进一步判断是否是在高优先级系统检测任务定时采样检测时间段内只处理了一个消息,如果该任务在定时采样时间段内同时处理了多个消息,说明该任务在系统中得到调度,系统没有出现死循环,但要告警通知维护人员分析,如果该任务在定时采样时间段内只处理了一个消息,则判定该任务处于死循环状态。
步骤S307:当系统中有任务死循环时,再次等待一个1个采样周期(采样时间段)进行死循环确认,确认之后进行日志记录,并准备重启恢复,但是重启之前需要判断系统中是否正在运行比较重要的工作(比如文件系统操作),如果系统正在运行比较重要工作不能马上重启,则允许延时一段时间之后强制关闭这些重要工作并重启。
本发明上述方法在系统正常运行过程中的任务异常检测及自恢复方法流程包括:
步骤S401:高优先级系统检测任务启动,并定时二级软件喂狗。
步骤S402:高优先级系统检测任务每隔1分钟(检测周期)检测系统所有任务的工作状态。
步骤S403:高优先级系统检测任务发现有任务异常挂起,则识别该任务是关键任务还是普通任务,系统根据用户配置的异常检测处理策略进行自恢复操作。例如,异常检测处理策略为:允许关键任务异常重启;或者普通任务异常重启;或者所有任务异常都不重启。其中,关键任务是由用户预先设置的,如果这些任务不能工作,则将影响系统重要功能。
步骤S404:当确定系统中有任务异常时,则系统需要记录异常任务的堆栈信息,同时日志记录,并重启恢复,但是重启之前需要判断系统中是否正在运行比较重要的工作(比如文件系统操作),如果系统正在运行比较重要工作不能马上重启,则允许延时一段时间之后强制关闭这些重要工作并重启。
另外,如图2所示,本发明实施例还涉及一种实现上述方法的系统故障检测及处理装置,包括:
信号处理模块201,用于使中断服务程序发送一级喂狗信号,并接收系统检测任务的二级喂狗信号;当中断超过设定阈值、比所述系统检测任务优先级更高的任务忙、系统启动期间系统异常或所述系统检测任务自身异常挂起时,中断服务程序接收不到所述二级喂狗信号。
异常处理模块202,用于在检测到任务死循环或任务异常时,根据预先设定的处理策略进行系统异常处理;其中,当中断服务程序在设定时间内接收不到所述二级喂狗信号时,则令中断服务程序停止发送一级喂狗信号,进行系统重启。
为达更佳技术效果,本发明上述装置还包括:
自重启模块,用于当系统出现操作系统崩溃或者硬件异常时,系统自动重启恢复。
CPU占有率统计模块,用于系统检测任务定时二级软件喂狗,低优先级死循环辅助任务定时死循环保活维持时,定时统计中央处理器CPU占有率;
任务死循环检测模块,用于系统检测任务判断统计得到的CPU占有率是否高于CPU死循环判断门限值,如果否,则判定上述任务没有出现任务死循环;如果是,则进一步判断低优先级死循环辅助任务是否保活置位,如果是,则判定没有出现死循环;如果否,则进行告警,通知维护人员分析;判断系统检测任务在采样检测时间段内是否只处理了一个消息,如果否,则进行告警,通知维护人员分析;如果是,则判定该任务处于死循环状态。
任务工作状态检测模块,用于定时检测所有任务的工作状态;
任务异常检测模块,用于根据检测到的任务工作状态,以及结合预先配置的任务异常判断策略,进行任务异常检测。
综上所述,本发明通过定时主动扫描检测和中断、喂狗相结合的方法,即能判断出任务死循环和任务异常等异常情况,也能判断出中断过频和硬件、软件挂死系统的情况,同时可以根据这些异常类型分类记录原因,自动延时恢复处理。即考虑了系统的特殊运行任务情况,也考虑了不同系统的动态配置要求,同时也可以检测系统启动过程的软件运行情况,基本满足了软件系统的大部分异常检测及自恢复需求。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (10)

1.一种系统故障检测及处理方法,其特征在于,包括:
中断服务程序发送一级喂狗信号,并接收系统检测任务的二级喂狗信号;
在检测到任务死循环或任务异常时,根据预先设定的处理策略进行系统异常处理;其中,当中断服务程序在设定时间内接收不到所述二级喂狗信号时,则中断服务程序停止发送一级喂狗信号,进行系统重启。
2.如权利要求1所述的系统故障检测及处理方法,其特征在于,当系统出现操作系统崩溃或者硬件异常时,系统自动重启恢复。
3.如权利要求1或2所述的系统故障检测及处理方法,其特征在于,当中断超过设定阈值、比所述系统检测任务优先级更高的任务忙、系统启动期间系统异常或所述系统检测任务自身异常挂起时,中断服务程序接收不到所述二级喂狗信号。
4.如权利要求3所述的系统故障检测及处理方法,其特征在于,进行任务死循环检测时,包括:
系统检测任务定时二级软件喂狗,低优先级死循环辅助任务定时死循环保活维持;
定时统计中央处理器CPU占有率;
判断统计得到的CPU占有率是否高于CPU死循环判断门限值,如果否,则判定上述任务没有出现任务死循环;如果是,则进一步判断低优先级死循环辅助任务是否保活置位,如果是,则判定没有出现死循环;如果否,则进行告警,通知维护人员分析;
判断系统检测任务在采样检测时间段内是否只处理了一个消息,如果否,则进行告警,通知维护人员分析;如果是,则判定该任务处于死循环状态。
5.如权利要求1、2或4所述的系统故障检测及处理方法,其特征在于,进行任务异常检测时,包括:
定时检测所有任务的工作状态;
根据检测到的任务工作状态,以及结合预先配置的任务异常判断策略,进行任务异常检测。
6.一种系统故障检测及处理装置,其特征在于,包括:
信号处理模块,用于使中断服务程序发送一级喂狗信号,并接收系统检测任务的二级喂狗信号;
异常处理模块,用于在检测到任务死循环或任务异常时,根据预先设定的处理策略进行系统异常处理;其中,当中断服务程序在设定时间内接收不到所述二级喂狗信号时,则令中断服务程序停止发送一级喂狗信号,进行系统重启。
7.如权利要求6所述的系统故障检测及处理装置,其特征在于,所述装置还包括:
自重启模块,用于当系统出现操作系统崩溃或者硬件异常时,系统自动重启恢复。
8.如权利要求6或7所述的系统故障检测及处理装置,其特征在于,当中断超过设定阈值、比所述系统检测任务优先级更高的任务忙、系统启动期间系统异常或所述系统检测任务自身异常挂起时,中断服务程序接收不到所述二级喂狗信号。
9.如权利要求8所述的系统故障检测及处理装置,其特征在于,所述装置还包括:
CPU占有率统计模块,用于系统检测任务定时二级软件喂狗,低优先级死循环辅助任务定时死循环保活维持时,定时统计中央处理器CPU占有率;
任务死循环检测模块,用于系统检测任务判断统计得到的CPU占有率是否高于CPU死循环判断门限值,如果否,则判定上述任务没有出现任务死循环;如果是,则进一步判断低优先级死循环辅助任务是否保活置位,如果是,则判定没有出现死循环;如果否,则进行告警,通知维护人员分析;判断系统检测任务在采样检测时间段内是否只处理了一个消息,如果否,则进行告警,通知维护人员分析;如果是,则判定该任务处于死循环状态。
10.如权利要求6、7或9所述的系统故障检测及处理装置,其特征在于,所述装置还包括:
任务工作状态检测模块,用于定时检测所有任务的工作状态;
任务异常检测模块,用于根据检测到的任务工作状态,以及结合预先配置的任务异常判断策略,进行任务异常检测。
CN201310111375.0A 2013-04-01 2013-04-01 一种系统故障检测及处理方法、装置 Pending CN104102572A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310111375.0A CN104102572A (zh) 2013-04-01 2013-04-01 一种系统故障检测及处理方法、装置
PCT/CN2014/070187 WO2014161373A1 (zh) 2013-04-01 2014-01-06 一种系统故障检测及处理方法、装置和计算机可读存储介质
EP14779970.4A EP2983086A4 (en) 2013-04-01 2014-01-06 SYSTEM FOR ERROR IDENTIFICATION AND PROCESSING, DEVICE AND COMPUTER READABLE STORAGE MEDIUM
US14/781,403 US9720761B2 (en) 2013-04-01 2014-01-06 System fault detection and processing method, device, and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310111375.0A CN104102572A (zh) 2013-04-01 2013-04-01 一种系统故障检测及处理方法、装置

Publications (1)

Publication Number Publication Date
CN104102572A true CN104102572A (zh) 2014-10-15

Family

ID=51657546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310111375.0A Pending CN104102572A (zh) 2013-04-01 2013-04-01 一种系统故障检测及处理方法、装置

Country Status (4)

Country Link
US (1) US9720761B2 (zh)
EP (1) EP2983086A4 (zh)
CN (1) CN104102572A (zh)
WO (1) WO2014161373A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572332A (zh) * 2015-02-09 2015-04-29 华为技术有限公司 处理系统崩溃的方法和装置
CN104679606A (zh) * 2015-03-18 2015-06-03 北京全路通信信号研究设计院有限公司 一种看门狗电路检测方法和装置
CN105260239A (zh) * 2015-10-19 2016-01-20 福建奥通迈胜电力科技有限公司 一种用于故障指示器功能性能均衡调度方法
CN106326049A (zh) * 2016-08-16 2017-01-11 广东欧珀移动通信有限公司 一种故障定位方法及终端
CN106528276A (zh) * 2015-09-10 2017-03-22 中国航空工业第六八研究所 一种基于任务调度的故障处理方法
CN106844084A (zh) * 2017-03-16 2017-06-13 北京新能源汽车股份有限公司 一种程序控制方法、装置及汽车
CN104268055B (zh) * 2014-09-01 2017-07-14 腾讯科技(深圳)有限公司 一种程序异常的监控方法和装置
CN107423151A (zh) * 2017-03-28 2017-12-01 上海斐讯数据通信技术有限公司 一种无线接入点系统恢复的方法和装置
CN104679606B (zh) * 2015-03-18 2018-02-09 北京全路通信信号研究设计院集团有限公司 一种看门狗电路检测方法和装置
CN107786374A (zh) * 2017-10-19 2018-03-09 郑州云海信息技术有限公司 一种Oracle集群文件系统及其实现fence的方法
CN107861840A (zh) * 2017-10-31 2018-03-30 长光卫星技术有限公司 一种增强小卫星在轨可靠性的方法
CN108958989A (zh) * 2017-06-06 2018-12-07 北京猎户星空科技有限公司 一种系统故障恢复方法及装置
CN109710465A (zh) * 2018-12-29 2019-05-03 出门问问信息科技有限公司 智能手表及其定位模块的初始化方法、装置及电子设备
CN109783267A (zh) * 2019-01-17 2019-05-21 广东小天才科技有限公司 一种解决下载模式异常的方法及系统
CN111949009A (zh) * 2020-08-14 2020-11-17 深圳市中物互联技术发展有限公司 嵌入式控制器自诊断自维护方法、装置及存储介质
CN112905372A (zh) * 2021-02-02 2021-06-04 浙江大华技术股份有限公司 线程的异常诊断方法及装置
CN113687980A (zh) * 2020-05-19 2021-11-23 北京京东乾石科技有限公司 异常数据自恢复方法、系统、电子设备和可读存储介质
WO2023122891A1 (zh) * 2021-12-27 2023-07-06 宁德时代新能源科技股份有限公司 任务调度方法及多核处理器系统
CN117056062A (zh) * 2023-10-13 2023-11-14 武汉天喻信息产业股份有限公司 一种强制退出中断服务程序的方法和装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293979B (zh) * 2015-06-25 2019-11-15 伊姆西公司 检测进程无响应的方法和装置
CN109491824A (zh) * 2018-11-13 2019-03-19 福建北峰通信科技股份有限公司 一种嵌入式操作系统的看门狗控制方法
CN110597716B (zh) * 2019-08-29 2023-06-30 云南昆钢电子信息科技有限公司 一种多业务触发的故障检测处理系统及方法
CN110928778B (zh) * 2019-11-19 2023-09-15 百富计算机技术(深圳)有限公司 死循环定位方法、装置、计算机设备和存储介质
CN113049871A (zh) * 2019-12-27 2021-06-29 杭州海康微影传感科技有限公司 电压异常监测方法、装置及电子设备
CN111431895B (zh) * 2020-03-20 2022-04-22 宁波和利时信息安全研究院有限公司 系统异常处理方法、装置及系统
CN112134755A (zh) * 2020-09-21 2020-12-25 杭州迪普科技股份有限公司 公共网关接口程序监测方法及装置
CN112596941B (zh) * 2020-12-28 2023-10-03 凌云光技术股份有限公司 一种工业图像处理软件的工具结果判定方法及装置
CN113686550B (zh) * 2021-08-23 2024-03-01 苏州市大创信息运用有限公司 一种基于发光耦合和差值判断的故障探测方法、装置及电子显示设备系统
CN113692008B (zh) * 2021-08-27 2024-04-05 京东方科技集团股份有限公司 一种处理收发异常的方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196836A (zh) * 2007-12-29 2008-06-11 上海华为技术有限公司 一种控制看门狗电路复位的方法和装置
CN101221518A (zh) * 2008-01-29 2008-07-16 福建星网锐捷网络有限公司 一种防止硬件看门狗的定时器溢出的方法、装置与系统
CN101452420A (zh) * 2008-12-30 2009-06-10 中兴通讯股份有限公司 一种嵌入式软件异常监控和处理装置及其方法
CN101561778A (zh) * 2008-04-15 2009-10-21 中兴通讯股份有限公司 一种检测多任务操作系统任务死循环的方法
CN102141947A (zh) * 2011-03-30 2011-08-03 东方通信股份有限公司 一种对采用嵌入式操作系统的计算机应用系统中异常任务的处理方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003317A1 (en) 2002-06-27 2004-01-01 Atul Kwatra Method and apparatus for implementing fault detection and correction in a computer system that requires high reliability and system manageability
JP2006338605A (ja) * 2005-06-06 2006-12-14 Denso Corp プログラム異常監視方法及びプログラム異常監視装置
US8448029B2 (en) * 2009-03-11 2013-05-21 Lsi Corporation Multiprocessor system having multiple watchdog timers and method of operation
JP2010277303A (ja) * 2009-05-28 2010-12-09 Renesas Electronics Corp 半導体装置及び異常検出方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196836A (zh) * 2007-12-29 2008-06-11 上海华为技术有限公司 一种控制看门狗电路复位的方法和装置
CN101221518A (zh) * 2008-01-29 2008-07-16 福建星网锐捷网络有限公司 一种防止硬件看门狗的定时器溢出的方法、装置与系统
CN101561778A (zh) * 2008-04-15 2009-10-21 中兴通讯股份有限公司 一种检测多任务操作系统任务死循环的方法
CN101452420A (zh) * 2008-12-30 2009-06-10 中兴通讯股份有限公司 一种嵌入式软件异常监控和处理装置及其方法
CN102141947A (zh) * 2011-03-30 2011-08-03 东方通信股份有限公司 一种对采用嵌入式操作系统的计算机应用系统中异常任务的处理方法及系统

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268055B (zh) * 2014-09-01 2017-07-14 腾讯科技(深圳)有限公司 一种程序异常的监控方法和装置
CN104572332B (zh) * 2015-02-09 2018-08-21 华为技术有限公司 处理系统崩溃的方法和装置
CN104572332A (zh) * 2015-02-09 2015-04-29 华为技术有限公司 处理系统崩溃的方法和装置
CN104679606A (zh) * 2015-03-18 2015-06-03 北京全路通信信号研究设计院有限公司 一种看门狗电路检测方法和装置
CN104679606B (zh) * 2015-03-18 2018-02-09 北京全路通信信号研究设计院集团有限公司 一种看门狗电路检测方法和装置
CN106528276A (zh) * 2015-09-10 2017-03-22 中国航空工业第六八研究所 一种基于任务调度的故障处理方法
CN106528276B (zh) * 2015-09-10 2019-08-02 中国航空工业第六一八研究所 一种基于任务调度的故障处理方法
CN105260239A (zh) * 2015-10-19 2016-01-20 福建奥通迈胜电力科技有限公司 一种用于故障指示器功能性能均衡调度方法
CN105260239B (zh) * 2015-10-19 2019-01-11 福建奥通迈胜电力科技有限公司 一种用于故障指示器功能性能均衡调度方法
CN106326049A (zh) * 2016-08-16 2017-01-11 广东欧珀移动通信有限公司 一种故障定位方法及终端
CN106326049B (zh) * 2016-08-16 2019-07-19 Oppo广东移动通信有限公司 一种故障定位方法及终端
CN106844084B (zh) * 2017-03-16 2020-03-17 北京新能源汽车股份有限公司 一种程序控制方法、装置及汽车
CN106844084A (zh) * 2017-03-16 2017-06-13 北京新能源汽车股份有限公司 一种程序控制方法、装置及汽车
CN107423151A (zh) * 2017-03-28 2017-12-01 上海斐讯数据通信技术有限公司 一种无线接入点系统恢复的方法和装置
CN108958989A (zh) * 2017-06-06 2018-12-07 北京猎户星空科技有限公司 一种系统故障恢复方法及装置
CN107786374A (zh) * 2017-10-19 2018-03-09 郑州云海信息技术有限公司 一种Oracle集群文件系统及其实现fence的方法
CN107861840A (zh) * 2017-10-31 2018-03-30 长光卫星技术有限公司 一种增强小卫星在轨可靠性的方法
CN109710465A (zh) * 2018-12-29 2019-05-03 出门问问信息科技有限公司 智能手表及其定位模块的初始化方法、装置及电子设备
CN109783267A (zh) * 2019-01-17 2019-05-21 广东小天才科技有限公司 一种解决下载模式异常的方法及系统
CN113687980A (zh) * 2020-05-19 2021-11-23 北京京东乾石科技有限公司 异常数据自恢复方法、系统、电子设备和可读存储介质
CN113687980B (zh) * 2020-05-19 2024-03-01 北京京东乾石科技有限公司 异常数据自恢复方法、系统、电子设备和可读存储介质
CN111949009A (zh) * 2020-08-14 2020-11-17 深圳市中物互联技术发展有限公司 嵌入式控制器自诊断自维护方法、装置及存储介质
CN111949009B (zh) * 2020-08-14 2022-04-08 深圳市中物互联技术发展有限公司 嵌入式控制器自诊断自维护方法、装置及存储介质
CN112905372A (zh) * 2021-02-02 2021-06-04 浙江大华技术股份有限公司 线程的异常诊断方法及装置
WO2023122891A1 (zh) * 2021-12-27 2023-07-06 宁德时代新能源科技股份有限公司 任务调度方法及多核处理器系统
CN117056062A (zh) * 2023-10-13 2023-11-14 武汉天喻信息产业股份有限公司 一种强制退出中断服务程序的方法和装置
CN117056062B (zh) * 2023-10-13 2024-04-02 武汉天喻信息产业股份有限公司 一种强制退出中断服务程序的方法和装置

Also Published As

Publication number Publication date
US20160055046A1 (en) 2016-02-25
WO2014161373A1 (zh) 2014-10-09
US9720761B2 (en) 2017-08-01
EP2983086A4 (en) 2016-05-04
EP2983086A1 (en) 2016-02-10

Similar Documents

Publication Publication Date Title
CN104102572A (zh) 一种系统故障检测及处理方法、装置
CN101996106B (zh) 一种对软件运行状态进行监控的方法
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN101452420B (zh) 一种嵌入式软件异常监控和处理装置及其方法
CN102761439B (zh) Pon接入系统中基于看门狗的异常检测记录装置及方法
CN103607297A (zh) 一种计算机集群系统的故障处理方法
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
EP3148116A1 (en) Information system fault scenario information collection method and system
CN101556679A (zh) 一种综合前端系统故障处理方法及计算机设备
JP2008191839A (ja) 異常兆候検出システム
CN105426263B (zh) 一种实现金库系统安全运行的方法及系统
CN104216795A (zh) 一种多进程保护系统及其实现方法
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN106874126A (zh) 一种软件开发中主进程异常检测方法
CN102231124A (zh) 一种嵌入式系统任务的守护方法
CN105025179A (zh) 呼叫中心座席的监控方法及系统
JP2008102778A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
CN105391575B (zh) 一种金库控制方法及系统
JP7211026B2 (ja) ジョブ管理システム
CN114816930A (zh) 一种主动式服务自愈运维系统及方法
CN115037652A (zh) 一种套保系统后台模块运行监控系统
JP2004164271A (ja) ジョブ実行監視方法及びプログラム
CN112115003A (zh) 一种服务进程的掉线恢复方法、装置、设备及存储介质
CN107294786A (zh) 一种故障信息处理方法及装置
CN106357425A (zh) 一种网络管理代理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141015