CN111158941A - 一种看门狗的故障诊断处理方法和装置 - Google Patents

一种看门狗的故障诊断处理方法和装置 Download PDF

Info

Publication number
CN111158941A
CN111158941A CN201911262751.XA CN201911262751A CN111158941A CN 111158941 A CN111158941 A CN 111158941A CN 201911262751 A CN201911262751 A CN 201911262751A CN 111158941 A CN111158941 A CN 111158941A
Authority
CN
China
Prior art keywords
watchdog
fault
source
interrupt
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911262751.XA
Other languages
English (en)
Inventor
李鹏
韩嫚莉
沈华
李成文
杨军祥
王明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN201911262751.XA priority Critical patent/CN111158941A/zh
Publication of CN111158941A publication Critical patent/CN111158941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种看门狗的故障诊断处理方法和装置,该方法包括:步骤一:在看门狗超时进入看门狗中断服务程序时,获取看门狗故障源,并确定看门狗故障源的故障类型;步骤二:检测看门狗中断故障是否消除,若否,则执行步骤三;若是,则执行步骤四;步骤三:根据故障源的故障类型判断故障源对运行有看门狗的系统的健康状态的影响是否可忽略;若是,则执行步骤四;若否,则执行步骤五;步骤四:将看门狗中断计数器归零;步骤五:退出看门狗中断服务程序;步骤六:判断看门狗中断计数器是否超过门限值,若是,则看门狗复位有效,退出看门狗程序;若否,则退出看门狗程序。满足综合化航电系统应用软件的使用要求。

Description

一种看门狗的故障诊断处理方法和装置
技术领域
本发明属于嵌入式计算机系统领域,涉及一种看门狗的故障诊断处理方法和装置。
背景技术
随着机载系统综合化模块化航空电子系统发展的需求,对航电核心处理平台的综合化程度和处理性能要求越来越高,综合处理平台的综合化导致系统应用软件随之也朝着综合化的方向发展,于是,系统应用软件规模越来越庞大、任务调度越来越复杂,航电系统任务高度集中,如何提高系统应用软件的可靠性、健壮性、可用性成为我们当前面临的重要问题。
在联合式航电系统中,为了防止系统应用软件运行异常而出现程序跑飞或者死循环的现象,硬件电路专门设计了看门狗电路解决此类问题。在规定时间周期内,系统应用软件必须通过读/写特定寄存器对看门狗电路中的计数器“清零”(俗称喂狗),表示系统应用软件运行正常;否则,看门狗电路的计数器“超时”,看门狗电路将判定系统应用软件运行异常,然后看门狗电路将发出看门狗中断信号(俗称狗叫)通知系统,并产生系统复位。
综合化航电系统中,硬件电路和任务处理均采用综合化设计,如果看门狗超时后直接进行系统复位,将会导致系统因软件/硬件偶发性故障或非关键性故障导致整个系统出现短时间失控的现象,降低了系统的可靠性、可用性;而且,故障源如果并未消除,将导致故障系统反复复位,此系统将无法正常工作,如果此系统无余度备份的话,那么此系统功能将完全丧失;其次狗叫发生时的软件现场未记录的话,事后无法进行故障分析、定位。
发明内容
本发明解决的技术问题为:
本发明提供一种看门狗的故障诊断处理方法和装置,通过增强系统的容错能力来提高系统的可用性,避免了系统软件/硬件因偶发性故障引起的系统复位,适应综合化航电系统大规模应用软件的使用要求。
本发明的技术方案为:
本发明第一方面提供一种看门狗的故障诊断处理方法,包括:
步骤一:在看门狗超时进入看门狗中断服务程序时,获取看门狗故障源,并确定看门狗故障源的故障类型;
步骤二:检测所述看门狗中断故障是否消除,若否,则执行步骤三;若是,则执行步骤四;
步骤三:根据故障源的故障类型判断故障源对运行有所述看门狗的系统的健康状态的影响是否可忽略;若是,则执行步骤四;若否,则执行步骤五;
步骤四:将所述看门狗中断计数器归零;
步骤五:退出看门狗中断服务程序;
步骤六:判断看门狗中断计数器是否超过门限值,若是,则看门狗复位有效,退出看门狗程序;若否,则退出看门狗程序。
可选的,所述获取看门狗故障源,包括:
获取运行有所述看门狗所监控的软件的硬件的资源健康监控结果和看门狗故障现场故障信息;
根据所述资源健康监控结果和看门狗故障现场故障信息,采用预设故障诊断方程,定位触发看门狗中断的故障源。
可选的,所述确定看门狗故障源的故障类型,包括:
根据运行有所述看门狗的系统的健康管理配置数据,对比所述看门狗故障源和所述资源健康监控结果,判断所述看门狗故障源的故障类型。
可选的,所述看门狗复位有效用于对所述看门狗监控的软件进行复位。
可选的,所述故障类型包括关键故障和非关键故障;所述根据故障源的故障类型判断故障源对运行有所述看门狗的系统的健康状态的影响是否可忽略,包括:
若所述故障源的故障类型为关键故障,则确定故障源对运行有所述看门狗的系统的健康状态的影响不可忽略;
若所述故障源的故障类型为非关键故障,则确定故障源对运行有所述看门狗的系统的健康状态的影响可忽略。
本发明第二方面提供一种看门狗的故障诊断处理装置,包括:
故障类型获取模块,用于在看门狗超时进入看门狗中断服务程序时,获取看门狗故障源,并确定看门狗故障源的故障类型;
故障消除检测模块,用于检测所述看门狗中断故障是否消除;
故障影响检测模块,用于在所述看门狗中断故障未消除时,根据故障源的故障类型判断故障源对运行有所述看门狗的系统的健康状态的影响是否可忽略;
计数器归零模块,用于在所述看门狗中断故障消除,或,故障源对运行有所述看门狗的系统的健康状态的影响可忽略时,将所述看门狗中断计数器归零;
中断退出模块,用于在所述看门狗中断计数器归零时,或确定故障源对运行有所述看门狗的系统的健康状态的影响不可忽略时,退出看门狗中断服务程序;
计数器检测模块,用于判断看门狗中断计数器是否超过门限值,若是,则看门狗复位有效,退出看门狗程序;若否,则退出看门狗程序。
可选的,所述故障类型获取模块具体用于,获取运行有所述看门狗所监控的软件的硬件的资源健康监控结果和看门狗故障现场故障信息;
根据所述资源健康监控结果和看门狗故障现场故障信息,采用预设故障诊断方程,定位触发看门狗中断的故障源。
可选的,所述故障类型获取模块具体用于,根据运行有所述看门狗的系统的健康管理配置数据,对比所述看门狗故障源和所述资源健康监控结果,判断所述看门狗故障源的故障类型。
本发明的有益效果:
本发明通过对看门狗超时中断的故障诊断处理,剔除了偶发性故障造成的看门狗超时中断,增强了对偶发性故障的容错能力,避免了系统软件/硬件因偶发性故障引起的系统复位,满足综合化航电系统应用软件的使用要求,提高了系统的健壮性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的看门狗电路故障诊断流程图。
具体实施方式
下面结合附图对本技术方案做进一步详细说明。
图1为本发明一实施例提供的看门狗电路故障诊断流程图,如图1所示,本发明提供一种通过可配置故障诊断处理提高看门狗电路健壮性的方法,所述看门狗电路通过在看门狗中断服务处理程序中进行看门狗电路健康诊断和看门狗故障类型判断增强看门狗电路的健壮性。
本发明提供的看门狗电路健康诊断功能设计是在看门狗超时中断被触发后实现,需要完成如下步骤的功能:
a)看门狗超时触发后进入看门狗中断服务程序;
b)故障捕获:记录看门狗故障现场,收集看门狗相关故障信息;
c)故障定位:调用运行有看门狗所监控的软件的硬件的资源健康监控结果,根据故障诊断方程,定位具体触发看门狗超时的故障源;
d)故障诊断:根据系统故障管理配置信息,对比定位后的故障源和系统健康管理的配置数据,判断看门狗故障源的故障类型;
e)检测故障是否已经消除,若是,则将看门狗中断计数器归零,退出看门狗中断服务程序;若否,则根据故障类型对该故障源作出如下决策:
i.如果此故障源对系统健康状态无影响,那么忽略该故障源的此次故障,并将看门狗中断计数器归零,退出看门狗中断服务程序;确保不因为此故障源影响系统功能继续正常运行;
ii.如果此故障源对系统健康状态有影响,则直接退出看门狗中断服务程序。
f)在退出看门狗中断服务程序之后,判断看门狗中断计数器是否超过门限值,若是,则看门狗复位有效,退出看门狗程序;若否,则退出看门狗程序
其中,故障诊断方程可配置,可根据用户的要求进行自定义。
通过设置门限值,剔除了偶发性故障造成的看门狗超时中断,增强了对偶发性故障的容错能力,提高了系统的可用性。
示例性的,门限值可以根据系统对偶发性故障出现的容忍程度进行分别设置,以满足不同系统对看门狗超时中断偶发性故障不同的容错能力要求。
示例性的,看门狗超时中断计数器门限值可配置,提高该电路的通用性。
示例性的,看门狗计数器在看门狗上电复位后用于计时。
示例性的,所述看门狗复位有效用于对所述看门狗监控的软件进行复位。
示例性的,若所述故障源的故障类型为关键故障,则确定故障源对运行有所述看门狗的系统的健康状态的影响不可忽略;若所述故障源的故障类型为非关键故障,则确定故障源对运行有所述看门狗的系统的健康状态的影响可忽略。

Claims (8)

1.一种看门狗的故障诊断处理方法,其特征在于,包括:
步骤一:在看门狗超时进入看门狗中断服务程序时,获取看门狗故障源,并确定看门狗故障源的故障类型;
步骤二:检测所述看门狗中断故障是否消除,若否,则执行步骤三;若是,则执行步骤四;
步骤三:根据故障源的故障类型判断故障源对运行有所述看门狗的系统的健康状态的影响是否可忽略;若是,则执行步骤四;若否,则执行步骤五;
步骤四:将所述看门狗中断计数器归零;
步骤五:退出看门狗中断服务程序;
步骤六:判断看门狗中断计数器是否超过门限值,若是,则看门狗复位有效,退出看门狗程序;若否,则退出看门狗程序。
2.根据权利要求1所述的方法,其特征在于,所述获取看门狗故障源,包括:
获取运行有所述看门狗所监控的软件的硬件的资源健康监控结果和看门狗故障现场故障信息;
根据所述资源健康监控结果和看门狗故障现场故障信息,采用预设故障诊断方程,定位触发看门狗中断的故障源。
3.根据权利要求2所述的方法,其特征在于,所述确定看门狗故障源的故障类型,包括:
根据运行有所述看门狗的系统的健康管理配置数据,对比所述看门狗故障源和所述资源健康监控结果,判断所述看门狗故障源的故障类型。
4.根据权利要求1所述的方法,其特征在于,所述看门狗复位有效用于对所述看门狗监控的软件进行复位。
5.根据权利要求1所述的方法,其特征在于,所述故障类型包括关键故障和非关键故障;所述根据故障源的故障类型判断故障源对运行有所述看门狗的系统的健康状态的影响是否可忽略,包括:
若所述故障源的故障类型为关键故障,则确定故障源对运行有所述看门狗的系统的健康状态的影响不可忽略;
若所述故障源的故障类型为非关键故障,则确定故障源对运行有所述看门狗的系统的健康状态的影响可忽略。
6.一种看门狗的故障诊断处理装置,其特征在于,包括:
故障类型获取模块,用于在看门狗超时进入看门狗中断服务程序时,获取看门狗故障源,并确定看门狗故障源的故障类型;
故障消除检测模块,用于检测所述看门狗中断故障是否消除;
故障影响检测模块,用于在所述看门狗中断故障未消除时,根据故障源的故障类型判断故障源对运行有所述看门狗的系统的健康状态的影响是否可忽略;
计数器归零模块,用于在所述看门狗中断故障消除,或,故障源对运行有所述看门狗的系统的健康状态的影响可忽略时,将所述看门狗中断计数器归零;
中断退出模块,用于在所述看门狗中断计数器归零时,或确定故障源对运行有所述看门狗的系统的健康状态的影响不可忽略时,退出看门狗中断服务程序;
计数器检测模块,用于判断看门狗中断计数器是否超过门限值,若是,则看门狗复位有效,退出看门狗程序;若否,则退出看门狗程序。
7.根据权利要求6所述的装置,其特征在于,所述故障类型获取模块具体用于,获取运行有所述看门狗所监控的软件的硬件的资源健康监控结果和看门狗故障现场故障信息;
根据所述资源健康监控结果和看门狗故障现场故障信息,采用预设故障诊断方程,定位触发看门狗中断的故障源。
8.根据权利要求6所述的装置,其特征在于,所述故障类型获取模块具体用于,根据运行有所述看门狗的系统的健康管理配置数据,对比所述看门狗故障源和所述资源健康监控结果,判断所述看门狗故障源的故障类型。
CN201911262751.XA 2019-12-10 2019-12-10 一种看门狗的故障诊断处理方法和装置 Pending CN111158941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911262751.XA CN111158941A (zh) 2019-12-10 2019-12-10 一种看门狗的故障诊断处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911262751.XA CN111158941A (zh) 2019-12-10 2019-12-10 一种看门狗的故障诊断处理方法和装置

Publications (1)

Publication Number Publication Date
CN111158941A true CN111158941A (zh) 2020-05-15

Family

ID=70556888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911262751.XA Pending CN111158941A (zh) 2019-12-10 2019-12-10 一种看门狗的故障诊断处理方法和装置

Country Status (1)

Country Link
CN (1) CN111158941A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360315A (zh) * 2011-09-30 2012-02-22 中国航空工业集团公司第六三一研究所 一种容错控制系统看门狗电路管理方法
CN103885847A (zh) * 2014-02-08 2014-06-25 京信通信系统(中国)有限公司 一种基于嵌入式系统的喂狗方法及装置
CN105302263A (zh) * 2015-10-22 2016-02-03 成都卫士通信息产业股份有限公司 一种设备故障可自动断电重启的电路
CN105677497A (zh) * 2015-12-10 2016-06-15 中国航空工业集团公司西安航空计算技术研究所 一种高可用性看门狗电路
US20170083394A1 (en) * 2014-05-11 2017-03-23 Safetty Systems Ltd A framework as well as method for developing time-triggered computer systems with multiple system modes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360315A (zh) * 2011-09-30 2012-02-22 中国航空工业集团公司第六三一研究所 一种容错控制系统看门狗电路管理方法
CN103885847A (zh) * 2014-02-08 2014-06-25 京信通信系统(中国)有限公司 一种基于嵌入式系统的喂狗方法及装置
US20170083394A1 (en) * 2014-05-11 2017-03-23 Safetty Systems Ltd A framework as well as method for developing time-triggered computer systems with multiple system modes
CN105302263A (zh) * 2015-10-22 2016-02-03 成都卫士通信息产业股份有限公司 一种设备故障可自动断电重启的电路
CN105677497A (zh) * 2015-12-10 2016-06-15 中国航空工业集团公司西安航空计算技术研究所 一种高可用性看门狗电路

Similar Documents

Publication Publication Date Title
US20210182136A1 (en) Fault Processing Method, Related Apparatus, and Computer
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
CN100498725C (zh) 用于最小化计算机应用程序中的丢失的方法和系统
CN106682162B (zh) 日志管理方法及装置
EP1390848B1 (en) Task supervision
US20170147422A1 (en) External software fault detection system for distributed multi-cpu architecture
US20030084376A1 (en) Software crash event analysis method and system
US11853150B2 (en) Method and device for detecting memory downgrade error
US8074123B2 (en) Multi-CPU failure detection/recovery system and method for the same
CN105677497A (zh) 一种高可用性看门狗电路
JPH10214208A (ja) ソフトウェアの異常監視方式
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
CN111158941A (zh) 一种看门狗的故障诊断处理方法和装置
CN103995759A (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
JP2001005692A (ja) 計算機システムおよびその保守管理システム並びに障害通知方法
JP4575020B2 (ja) 障害解析装置
CN114217925A (zh) 一种实现异常自动重启的业务程序运行监控方法及系统
CN113704088B (zh) 一种进程追溯方法、进程追溯系统及相关装置
CN115865634B (zh) 功能模块的控制方法及装置、服务器
JP3479288B2 (ja) リモート診断保守方式,方法,およびプログラム
KR100497893B1 (ko) 교환기의 장애 처리 방법 및 장치
JP2716537B2 (ja) 複合システムにおけるダウン監視処理方式
CN106339285A (zh) 一种linux系统意外重启的分析方法
CN114356708A (zh) 一种设备故障监控方法、装置、设备及可读存储介质
CN117290149A (zh) 主控模块的复位故障定位方法、装置、设备、系统和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515