CN112631820A

CN112631820A - 软件系统的故障恢复方法及装置

Info

Publication number: CN112631820A
Application number: CN202011623290.7A
Authority: CN
Inventors: 许逢陪; 杨华
Original assignee: Hillstone Networks Co Ltd
Current assignee: Hillstone Networks Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-09

Abstract

本申请公开了一种软件系统的故障恢复方法及装置。其中，该方法包括：启动第一目标监控应用；检测软件系统中的应用程序定时向第一目标监控应用发送的第一心跳信号；如果应用程序发送第一心跳信号的超时时间超过第一预设时长，检测应用程序发生的故障的类型；依据故障的类型确定软件系统的故障恢复方式。本申请解决了由于目前软件系统通过硬件看门狗复位硬件设备使其从故障中恢复造成的软件系无法保留系统异常信息，无法定位故障原因的技术问题。

Description

软件系统的故障恢复方法及装置

技术领域

本申请涉及软件系统故障处理领域，具体而言，涉及一种软件系统的故障恢复方法及装置。

背景技术

随着应用场景、配置环境复杂的增加，嵌入式设备的软件系统也越来越复杂，即使在进行大量测试验证后，仍然存在系统故障的风险。在生产环境下，用户希望系统异常尽可能的不影响业务，同时希望软件能持续改进，避免后续再有相同的问题出现。

目前，通常使用硬件看门狗机制将软件系统从故障中恢复。具体技术方案为：在系统外部增加一个硬件看门狗，软件系统通过特定的总线协议定时向硬件看门狗发送心跳信号。硬件看门狗如果超过预设的时间没有收到软件系统发送心跳信号，就会复位硬件设备使软件系统从故障中恢复。

这种方式确实能够实现快速故障恢复，但由于软件系统是被外部硬件复位的，软件系无法保留系统异常信息，不利于进一步定位故障原因，在相同的配置和部署环境下，很容易再次出现相同的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种软件系统的故障恢复方法及装置，以至少解决由于目前软件系统通过硬件看门狗复位硬件设备使其从故障中恢复造成的软件系无法保留系统异常信息，无法定位故障原因的技术问题。

根据本申请实施例的一个方面，提供了一种软件系统的故障恢复方法，包括：启动第一目标监控应用；检测软件系统中的应用程序定时向第一目标监控应用发送的第一心跳信号；如果应用程序发送第一心跳信号的超时时间超过第一预设时长，检测应用程序发生的故障的类型；依据故障的类型确定软件系统的故障恢复方式。

可选地，第一预设时长是第一目标监控应用依据软件系统的负载情况设定的。

可选地，故障的类型至少包括：导致应用程序无法重启的致命故障以及不会导致应用程序重启的非致命故障。

可选地，依据故障的类型确定软件系统的故障恢复方式，包括：如果故障的类型为致命故障，利用第一目标监控应用收集软件系统当前的异常信息；收集异常信息结束后，利用第一目标监控应用重启软件系统。

可选地，依据故障的类型确定软件系统的故障恢复方式，还包括：如果故障的类型为非致命故障，利用第一目标监控应用收集软件系统当前的异常信息，并且在不重启软件系统的情况下重新运行一个新的应用程序。

可选地，上述方法还包括：控制第一目标监控应用向第二目标监控应用发送第二心跳信号。

可选地，上述方法还包括：如果第二目标监控应用检测到第一目标监控应用发送第二心跳信号的超时时间超过第二预设时长，利用第二目标监控应用重启运行软件系统的设备。

根据本申请实施例的另一方面，还提供了一种软件系统的故障恢复装置，包括：启动模块，用于启动第一目标监控应用；第一检测模块，用于检测软件系统中的应用程序定时向第一目标监控应用发送的第一心跳信号；第二检测模块，用于在应用程序发送第一心跳信号的超时时间超过第一预设时长的情况下，检测应用程序发生的故障的类型；确定模块，用于依据故障的类型确定软件系统的故障恢复方式。

根据本申请实施例的另再一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行以上的软件系统的故障恢复方法。

根据本申请实施例的另再一方面，还提供了一种处理器，处理器用于运行存储在存储器中的程序，其中，程序运行时执行以上的软件系统的故障恢复方法。

在本申请实施例中，采用启动第一目标监控应用；检测软件系统中的应用程序定时向第一目标监控应用发送的第一心跳信号；如果应用程序发送第一心跳信号的超时时间超过第一预设时长，检测应用程序发生的故障的类型；依据故障的类型确定软件系统的故障恢复方式的方式，通过在现有硬件看门狗技术方案的基础上增加了软件看门狗，根据系统负载设置软件看门狗超时时间，并且在系统异常时通过分析故障严重程度来决定使用何种方式恢复系统，从而实现了能够保证业务连续性，避免不必要的重启系统，同时可收集更多用于分析定位故障原因的信息的技术效果，进而解决了由于目前软件系统通过硬件看门狗复位硬件设备使其从故障中恢复造成的软件系无法保留系统异常信息，无法定位故障原因技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种软件系统的故障恢复方法的流程图；

图2是根据本申请实施例的一种软件系统的故障恢复方法的示意图；

图3是根据本申请实施例的一种软件系统的故障恢复装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种软件系统的故障恢复方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种软件系统的故障恢复方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，启动第一目标监控应用；

上述第一目标监控应用为软件看门狗程序，看门狗实际上是一个计数器，一般给看门狗一个数字，程序开始运行后，看门狗开始计数。如果程序运行正常，过一段时间CPU发出指令让看门狗置零，重新开始计数。如果看门狗增加到设定值就认为程序没有正常运行，强制整个系统复位。

背景技术部分提到的硬件看门狗是利用一个定时器电路，其定时输出连接到电路复位端，程序在一定时间范围内对定时器清零(俗称“喂狗”)，因此，程序正常运行时，定时器总不能溢出，也就不能产生复位信号。如果程序出现故障，不能在定时周期内复位看门狗，就使得看门狗定时器溢出产生复位信号并重启系统。

软件看门狗原理上相同，只是将硬件电路上的定时器用用处理器的内部定时器代替。

步骤S104，检测软件系统中的应用程序定时向第一目标监控应用发送的第一心跳信号；

步骤S106，如果应用程序发送第一心跳信号的超时时间超过第一预设时长，检测应用程序发生的故障的类型；

步骤S108，依据故障的类型确定软件系统的故障恢复方式。

通过上述步骤，通过在现有硬件看门狗技术方案的基础上增加了软件看门狗，根据系统负载设置软件看门狗超时时间，并且在系统异常时通过分析故障严重程度来决定使用何种方式恢复系统，从而实现了能够保证业务连续性，避免不必要的重启系统，同时可收集更多用于分析定位故障原因的信息的技术效果。

根据本申请的一个可选的实施例，第一预设时长是第一目标监控应用依据软件系统的负载情况设定的。

应用程序定时向软件看门狗发送心跳，软件看门狗根据系统繁忙程度等运行情况自动设置应用程序的心跳超时时间。例如，初始心跳超时时间为T1,当系统繁忙时，心跳超时时间增加到T2；系统非常空闲时，心跳时间设置为T0；T0<T1<T2。

优选地，上述故障的类型至少包括：导致应用程序无法重启的致命故障以及不会导致应用程序重启的非致命故障。

根据本申请的另一个可选的实施例，步骤S108通过以下方法实现：如果故障的类型为致命故障，利用第一目标监控应用收集软件系统当前的异常信息；收集异常信息结束后，利用第一目标监控应用重启软件系统。

在本步骤中，软件看门狗记录每个应用程序发送心跳的时间，并每秒检查一次应用程序多久没有发送心跳，如果超出当前设置的超时时间，则继续检查当前心跳超时的应用程序的故障级别。对于无法恢复的致命故障，需要先收集当前系统的所有重要定位信息，并且主动重启系统，硬件看门狗也自动被复位。

在本申请的一些可选的实施例中，步骤S108还可以通过以下方法实现：如果故障的类型为非致命故障，利用第一目标监控应用收集软件系统当前的异常信息，并且在不重启软件系统的情况下重新运行一个新的应用程序。

对于可恢复的非致命故障，软件看门狗也要收集重要的定位信息，但不重启系统，而只需要重新运行一个新的应用程序，这样可以避免不必要的业务中断，保证生产环境的稳定性。

上述方法还包括：控制第一目标监控应用向第二目标监控应用发送第二心跳信号。

在本申请的一个可选的实施例中，如果第二目标监控应用检测到第一目标监控应用发送第二心跳信号的超时时间超过第二预设时长，利用第二目标监控应用重启运行软件系统的设备。

需要说明的是，这里的第二目标监控应用即上文中提到的硬件看门狗。软件看门狗定时向硬件看门狗发送心跳信号。软件看门狗功能简单，相对复杂的业务逻辑而言非常稳定，绝大部分情况下都能代替硬件看门狗并且做更精细的控制。但是当出现系统崩溃等异常情况时，整个系统的软件都不能正常工作，这种情况下，硬件看门狗就可以起作用了。

当整个系统的软件都不能正常工作时，软件看门狗无法定时向硬件看门狗发送心跳信号，此时需要利用硬件看门狗重启运行软件系统的硬件设备。

对于致命故障，软件看门狗先收集信息，再重启系统；对于非致命故障，软件看门狗只需要收集信息，不需要重启系统，当软件系统崩溃、内存硬件错误等导致软件看门狗工作异常时，硬件看门狗负责重启以恢复系统。保留了软件系统在故障时也能快速恢复的功能。

下面结合应用场景，以一个具体的实施例对上述方法进行说明：

图2是根据本申请实施例的一种软件系统的故障恢复方法的示意图，如图2所示，现有应用程序A和应用程序B，其中，应用程序A是重要进程，应用程序B是非必要进程。系统初始化完成后，开启硬件看门狗并设置硬件看门狗心跳超时时间为Thw，软件喂狗模块开始给硬件看门狗定时发送心跳，同时开始记录应用程序A和应用程序B的心跳发送间隔。软件看门狗心跳超时时间初始值为T0。

当软件看门狗检测到系统繁忙、CPU利用率超过90％时，将心跳间隔时间设置为T1，T1>TO。随后，如果软件看门狗超过T1时间未收到应用程序B发送的心跳则会判断应用程序B工作异常，但应用程序B是非必要进程，此时不需要重启设备，软件喂狗模块继续给硬件看门狗发送心跳，系统继续运行。如果之后一段时间软件看门狗超过T1时间没有收到应用程序A发送的心跳，则判断应用程序A工作异常，软件看门狗开始收集异常信息，同时继续给硬件看门狗发送心跳。当软件看门狗收集异常信息结束，开始主动重启系统。

如果系统异常繁忙，以至于软件看门狗也不能及时给硬件看门狗发送心跳，直至超过硬件看门狗超时时间Thw，硬件看门狗会重启系统。

图3是根据本申请实施例的一种软件系统的故障恢复装置的结构框图，如图3所示，该装置包括：

启动模块30，用于启动第一目标监控应用；

第一检测模块32，用于检测软件系统中的应用程序定时向第一目标监控应用发送的第一心跳信号；

第二检测模块34，用于在应用程序发送第一心跳信号的超时时间超过第一预设时长的情况下，检测应用程序发生的故障的类型；

确定模块36，用于依据故障的类型确定软件系统的故障恢复方式。

需要说明的是，图3所示实施例的优选实施方式可以参见图1所示实施例的相关描述，此处不再赘述。

本申请实施例还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行以上的软件系统的故障恢复方法。

上述非易失性存储介质用于存储执行以下功能的程序：启动第一目标监控应用；检测软件系统中的应用程序定时向第一目标监控应用发送的第一心跳信号；如果应用程序发送第一心跳信号的超时时间超过第一预设时长，检测应用程序发生的故障的类型；依据故障的类型确定软件系统的故障恢复方式。

本申请实施例还提供了一种处理器，处理器用于运行存储在存储器中的程序，其中，程序运行时执行以上的软件系统的故障恢复方法。

上述处理器用于运行执行以下功能的程序：启动第一目标监控应用；检测软件系统中的应用程序定时向第一目标监控应用发送的第一心跳信号；如果应用程序发送第一心跳信号的超时时间超过第一预设时长，检测应用程序发生的故障的类型；依据故障的类型确定软件系统的故障恢复方式。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，ReQK-SSWd-Only Memory)、随机存取存储器(RQK-SSWM，RQK-SSWndom QK-SSWccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种软件系统的故障恢复方法，其特征在于，包括：

启动第一目标监控应用；

检测软件系统中的应用程序定时向所述第一目标监控应用发送的第一心跳信号；

如果所述应用程序发送所述第一心跳信号的超时时间超过第一预设时长，检测所述应用程序发生的故障的类型；

依据所述故障的类型确定所述软件系统的故障恢复方式。

2.根据权利要求1所述的方法，其特征在于，所述第一预设时长是所述第一目标监控应用依据所述软件系统的负载情况设定的。

3.根据权利要求1所述的方法，其特征在于，所述故障的类型至少包括：导致所述应用程序无法重启的致命故障以及不会导致所述应用程序重启的非致命故障。

4.根据权利要求3所述的方法，其特征在于，依据所述故障的类型确定所述软件系统的故障恢复方式，包括：

如果所述故障的类型为所述致命故障，利用所述第一目标监控应用收集所述软件系统当前的异常信息；

收集所述异常信息结束后，利用所述第一目标监控应用重启所述软件系统。

5.根据权利要求3所述的方法，其特征在于，依据所述故障的类型确定所述软件系统的故障恢复方式，还包括：

如果所述故障的类型为所述非致命故障，利用所述第一目标监控应用收集所述软件系统当前的异常信息，并且在不重启所述软件系统的情况下重新运行一个新的所述应用程序。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：控制所述第一目标监控应用向第二目标监控应用发送第二心跳信号。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

如果所述第二目标监控应用检测到所述第一目标监控应用发送所述第二心跳信号的超时时间超过第二预设时长，利用所述第二目标监控应用重启运行所述软件系统的设备。

8.一种软件系统的故障恢复装置，其特征在于，包括：

启动模块，用于启动第一目标监控应用；

第一检测模块，用于检测软件系统中的应用程序定时向所述第一目标监控应用发送的第一心跳信号；

第二检测模块，用于在所述应用程序发送所述第一心跳信号的超时时间超过第一预设时长的情况下，检测所述应用程序发生的故障的类型；

确定模块，用于依据所述故障的类型确定所述软件系统的故障恢复方式。

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述的软件系统的故障恢复方法。

10.一种处理器，其特征在于，所述处理器用于运行存储在存储器中的程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的软件系统的故障恢复方法。