CN112099984B

CN112099984B - 一种拟态工业网关内部异常检测及恢复方法

Info

Publication number: CN112099984B
Application number: CN202011278268.3A
Authority: CN
Inventors: 沈文君; 朱明星; 叶韬
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-12
Anticipated expiration: 2040-11-16
Also published as: CN112099984A

Abstract

本发明提出一种拟态工业网关内部异常检测及恢复方法，FPGA首先利用外部看门狗芯片进行异常检测和恢复处理，然后FPGA通过两路内部串口分别定时向X86和ARM两个CPU发送的心跳获取消息，如果任意一个CPU无心跳回复消息返回或返回的心跳回复消息有异常，则根据具体的异常情况对出现异常的CPU做出相应的恢复处理。本发明对设备上所有处理器均进行异常检测，将外部芯片检测和处理器内部自检相结合，提高设备异常检测有效性；对于执行拟态网关业务的X86和ARM进行多方位异常检测，提高X86和ARM异常检测覆盖面；FPGA分析X86和ARM的异常具体种类，根据异常种类分别采用不同的恢复方法，提高设备恢复速度。

Description

一种拟态工业网关内部异常检测及恢复方法

技术领域

本发明属于计算机网络领域，尤其涉及一种拟态工业网关内部异常检测及恢复方法。

背景技术

在拟态工业网关中，其中一种重要的机制是动态异构冗余构造，因此网关设备包含多个处理器，包括运行网关业务且功能等价的异构执行体的X86和ARM，实现输入代理、输出代理、多模裁决和负反馈功能的FPGA。多个处理器同时存在于一个网关设备造成系统复杂性较高，设备出现异常的概率也大幅提高，任何一个处理器发生异常就会导致整个设备故障，因此设计一套切实有效的设备内部异常检测及相应的自恢复机制是拟态工业网关能否长时间稳定运行的关键。

发明内容

本发明的目的在于针对现有技术的不足，本发明提出了一种拟态工业网关内部异常检测及恢复方法。

本发明的目的是通过以下技术方案来实现的：一种拟态工业网关内部异常检测及恢复方法，包括以下步骤：

（1）FPGA利用外部看门狗芯片进行异常检测和恢复处理；

（2）FPGA通过两路内部串口分别定时向X86和ARM两个CPU发送心跳获取消息，X86和ARM收到消息后收集CPU状态信息，返回心跳回复消息给FPGA；

（3）FPGA根据收到的X86和ARM心跳回复消息对出现异常的CPU做出相应的恢复操作。

进一步地，所述步骤（1）具体为：FPGA每间隔1秒对外部看门狗芯片进行喂狗操作，当FPGA不进行喂狗操作，看门狗芯片向FPGA发送复位信号，FPGA收到复位信号后复位重启，并对X86和ARM进行硬件复位。

进一步地，所述步骤（2）包括以下子步骤：

（2.1）FPGA每间隔2秒向X86和ARM发送心跳获取消息；

（2.2）X86和ARM收到心跳获取消息后收集CPU状态信息；CPU状态信息包括所有运行中的执行体状态值、CPU每个核状态值和CPU温度值；包括以下子步骤：

（2.2.1）执行体状态值：X86和ARM向在本机上运行的所有执行体发送心跳命令，如有心跳返回则标志执行体运行状态正常，无返回则标志执行体运行状态异常；

（2.2.2）CPU每个核状态值：X86和ARM对每个核均开启内核软件看门狗进行死锁检测，并在内核软件看门狗程序中增加保存核状态的功能，用于CPU收集每个核状态值时进行填充；

（2.2.3）CPU温度值：X86读取CPU每个核的温度，比较后取温度最高值；ARM直接读取CPU整体温度值；

（2.3）X86和ARM完成CPU状态信息收集，填充到心跳回复消息，并将消息发送至FPGA。

进一步地，X86运行两个执行体，ARM运行一个执行体。

进一步地，X86为8核处理器，ARM为6核处理器。

进一步地，所述步骤（3）包括以下子步骤：

（3.1）心跳回复消息异常：定义FPGA接收X86和ARM心跳回复消息的超时时间为1秒，FPGA为X86和ARM分别定义一个超时累加值，出现超时则该值加1，正确收到则该值清0，如果X86或ARM的超时累加值达到3，则认为该CPU已发生异常，FPGA对该CPU进行硬件复位处理；

（3.2）执行体状态值异常：FPGA为X86和ARM的每个执行体分别定义一个异常累加值，出现异常则该值加1，正确则该值清0，如果X86或ARM的异常累加值达到3，则认为该执行体已发生异常，FPGA发送执行体下线命令给该执行体所在的CPU，FPGA在该CPU的备选执行体中选择可信度最高的执行体，并将新执行体上线命令发送给CPU，完成执行体的替换；

（3.3）CPU每个核状态值有异常：FPGA发现X86或ARM的任意一个核的状态异常，则对发生核异常的CPU进行硬件复位处理；

（3.4）CPU温度值异常：FPGA对X86和ARM分别定义两个温度处理阈值：主频切换温度阈值down_freq_temper和硬件复位温度阈值recover_temper，且down_freq_temper<recover_temper，根据CPU温度的变化作出主频切换或硬件复位处理。

进一步地，所述步骤（3.4）包括以下子步骤：

（3.4.1）CPU主频切换处理，包括以下子步骤：

（3.4.1.1）FPGA分别为X86和ARM定义温度迟滞量hyst_temper，同时用于比较的CPU温度值采用连续k次的统计平均值；

（3.4.1.2）X86和ARM分别定义两个CPU运行频率：低功耗频率lower_freq和正常频率normal_freq；

（3.4.1.3）FPGA记录上次k次CPU温度平均值为pre_temper，当前k次CPU温度平均值为cur_temper；

（3.4.1.4）当pre_temper≤down_freq_temper+hyst_temper且cur_temper>down_freq_temper+hyst_temper时，FPGA向CPU发送CPU降频消息，CPU频率降到lower_freq；

（3.4.1.5）当pre_temper≥down_freq_temper-hyst_temper且cur_temper<down_freq_temper-hyst_temper时，FPGA向CPU发送CPU恢复正常频率消息，CPU频率调整到normal_freq；

（3.4.2）CPU硬件复位处理，包括以下子步骤：

（3.4.2.1）FPGA定义一个可存储N个温度值的数组temper_arry，存储连续N个获取到的CPU温度值；

（3.4.2.2）FPGA每间隔2秒统计temper_arry中温度大于recover_temper的个数n；

（3.4.2.3）FPGA定义一个值M，M<N；当n≥M时，判断CPU温度异常，FPGA对CPU进行硬件复位处理。

进一步地，温度值pre_temper的初始值为0。

进一步地，数组temper_arry中各元素的初始值为0。

进一步地，所述执行体备选池和可信度在FPGA初始化时指定。

与现有技术相比，本发明具有如下有益效果：

1、本发明对设备上的所有处理器（FPGA、X86和ARM）均进行异常检测，并且通过外部芯片检测和处理器内部自检相结合，提高设备异常检测的有效性；

2、对于执行拟态网关业务的X86和ARM进行多方位（执行体、CPU死锁、CPU温度和CPU软件）的异常检测，提高X86和ARM异常检测的覆盖面；

3、FPGA分析X86和ARM的异常具体种类，根据异常种类分别采用不同的恢复方法，提高设备恢复速度。

附图说明

图1为本发明拟态工业网关异常检测及恢复的架构；

图2为本发明拟态工业网关异常检测及恢复的流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步解释说明。

如图1为本发明拟态工业网关异常检测及恢复的架构，包括FPGA、ARM、X86和外部看门狗芯片；由FPGA给看门狗发送喂狗信号，由看门狗给FPGA发送复位信号；FPGA通过串口与ARM、X86数据交互；由FPGA给ARM、X86发送硬件复位信号。

如图2所示，本发明拟态工业网关异常检测及恢复方法，利用外部看门狗芯片对FPGA进行异常检测及恢复处理，FPGA分别对ARM和X86进行异常检测及恢复处理；具体包括以下处理方法：

（1）FPGA利用外部看门狗芯片进行异常检测和恢复处理：FPGA每间隔1秒对外部看门狗芯片进行喂狗操作，如果FPGA出现异常不进行喂狗操作，看门狗芯片会向FPGA发送复位信号，FPGA收到复位信号后复位重启，并在重启过程中对X86和ARM进行硬件复位，以保证整个系统完整恢复。

（2）FPGA通过两路内部串口分别定时向X86和ARM两个CPU发送心跳获取消息，X86和ARM收到消息后收集CPU的状态信息，返回心跳回复消息给FPGA，具体步骤如下：

（2.1）FPGA每间隔2秒向X86和ARM发送心跳获取消息。

（2.2）X86和ARM收到心跳获取消息后收集CPU状态信息；CPU状态信息具体包含以下内容：所有运行中的执行体状态值（X86运行两个执行体，ARM运行一个执行体）、CPU每个核状态值（判断是否死锁，X86为8核处理器，ARM为6核处理器）和CPU温度值，CPU状态信息获取如下：

（2.2.1）执行体状态值：X86和ARM向在本机上运行的所有执行体发送心跳命令，如有心跳返回则标志执行体运行状态正常，无返回则标志执行体运行状态异常。

（2.2.2）CPU每个核状态值：X86和ARM对每个核均开启内核软件看门狗进行死锁检测，修改内核软件看门狗程序，增加保存核状态的功能，CPU收集每个核状态值时填充。

（2.2.3）CPU温度值：X86读取CPU每个核的温度，比较后取温度最高值；ARM可以直接读取CPU整体温度值。

（3）FPGA对X86和ARM的异常检测包括多层次的检测，根据收到X86和ARM的心跳回复消息，分别根据心跳回复消息中的执行体状态值、CPU每个核状态值和CPU温度值做出相应处理，对出现异常的CPU做出相应的恢复操作，包括执行体异常、CPU死锁异常、CPU温度异常和CPU软件异常，并且FPGA根据不同的异常情况采取代价最小的恢复处理，包括替换执行体、CPU主频切换处理和CPU硬件复位处理；具体步骤如下：

（3.1）心跳回复消息异常：定义FPGA接收X86和ARM心跳回复消息的超时时间为1秒，FPGA为X86和ARM分别定义一个超时累加值，出现超时则该值加1，正确收到则该值清0，记录连续超时次数；如果X86或ARM的超时累加值达到3，则认为该CPU已发生异常，FPGA对该CPU进行硬件复位处理。

（3.2）执行体状态值异常：FPGA为X86和ARM的每个执行体分别定义一个异常累加值，出现异常则该值加1，正确则该值清0，记录连续异常次数；如果X86或ARM的某个执行体异常累加值达到3，则认为该执行体已发生异常，FPGA发送执行体下线命令给该执行体所在的CPU，FPGA在该CPU的备选执行体中选择可信度最高的执行体（执行体备选池和可信度在FPGA初始化时指定），并将新执行体上线命令发送给CPU，完成执行体的替换。

（3.3）CPU每个核状态值有异常：FPGA发现X86或ARM的任意一个核的状态异常（死锁），则对发生核异常的CPU进行硬件复位处理。

（3.4）CPU温度值异常：FPGA对X86和ARM分别定义两个温度处理阈值：主频切换温度阈值down_freq_temper和硬件复位温度阈值recover_temper，且down_freq_temper<recover_temper，当CPU温度发生变化时，会根据具体情况作出主频切换或硬件复位处理：

（3.4.1）CPU主频切换处理，处理方法如下：

（3.4.1.1）为防止频繁切换CPU频率，FPGA分别为X86和ARM定义温度迟滞量hyst_temper，同时每k次采样计算一次CPU温度平均值用于比较。

（3.4.1.2）X86和ARM分别定义两个CPU运行频率：低功耗频率lower_freq和正常频率normal_freq。

（3.4.1.3）FPGA记录上次k次CPU温度平均值为pre_temper（初始值为0），当前k次CPU温度平均值为cur_temper。

（3.4.1.4）当pre_temper≤down_freq_temper+hyst_temper且cur_temper>down_freq_temper+hyst_temper时，FPGA向CPU发送CPU频率降频消息，CPU频率降到lower_freq。

（3.4.1.5）当pre_temper≥down_freq_temper-hyst_temper且cur_temper<down_freq_temper-hyst_temper时，FPGA向CPU发送CPU频率恢复正常消息，CPU频率调整到normal_freq。

（3.4.2）CPU硬件复位处理，为防止CPU突发业务导致CPU在较短时间内温度上升触发硬件复位温度阈值，采用以下处理方法：

（3.4.2.1）FPGA定义一个可存储N个温度值（初始值为0）的数组temper_arry，每获取连续的N个CPU温度值存储得到一个temper_arry。

（3.4.2.2）FPGA每间隔2秒统计temper_arry中大于recover_temper的温度值个数，定义为n，n≤N。

Claims

1.一种拟态工业网关内部异常检测及恢复方法，其特征在于，包括以下步骤：

(1)FPGA利用外部看门狗芯片进行异常检测和恢复处理；

(2)FPGA通过两路内部串口分别定时向X86和ARM两个CPU发送心跳获取消息，X86和ARM收到心跳获取消息后收集CPU状态信息，返回心跳回复消息给FPGA；

(3)FPGA根据收到的X86和ARM心跳回复消息对出现异常的CPU做出相应的恢复操作，包括以下子步骤：

(3.1)心跳回复消息异常：定义FPGA接收X86和ARM心跳回复消息的超时时间为1秒，FPGA为X86和ARM分别定义一个超时累加值，出现超时则该值加1，正确收到则该值清0，如果X86或ARM的超时累加值达到3，则认为该CPU已发生异常，FPGA对该CPU进行硬件复位处理；

(3.2)执行体状态值异常：FPGA为X86和ARM的每个执行体分别定义一个异常累加值，出现异常则该值加1，正确则该值清0，如果X86或ARM的异常累加值达到3，则认为该执行体已发生异常，FPGA发送执行体下线命令给该执行体所在的CPU，FPGA在该CPU的备选执行体中选择可信度最高的执行体，并将新执行体上线命令发送给CPU，完成执行体的替换；

(3.3)CPU每个核状态值有异常：FPGA发现X86或ARM的任意一个核的状态异常，则对发生核异常的CPU进行硬件复位处理；

(3.4)CPU温度值异常：FPGA对X86和ARM分别定义两个温度处理阈值：主频切换温度阈值down_freq_temper和硬件复位温度阈值recover_temper，且down_freq_temper<recover_temper，根据CPU温度的变化作出主频切换或硬件复位处理。

2.根据权利要求1所述拟态工业网关内部异常检测及恢复方法，其特征在于，所述步骤(1)具体为：FPGA每间隔1秒对外部看门狗芯片进行喂狗操作，当FPGA不进行喂狗操作，外部看门狗芯片向FPGA发送复位信号，FPGA收到复位信号后复位重启，并对X86和ARM进行硬件复位。

3.根据权利要求1所述拟态工业网关内部异常检测及恢复方法，其特征在于，所述步骤(2)包括以下子步骤：

(2.1)FPGA每间隔2秒向X86和ARM发送心跳获取消息；

(2.2)X86和ARM收到心跳获取消息后收集CPU状态信息；CPU状态信息包括所有运行中的执行体状态值、CPU每个核状态值和CPU温度值；包括以下子步骤：

(2.2.1)执行体状态值：X86和ARM向在本机上运行的所有执行体发送心跳命令，如有心跳返回则标志执行体运行状态正常，无返回则标志执行体运行状态异常；

(2.2.2)CPU每个核状态值：X86和ARM对每个核均开启内核软件看门狗程序进行死锁检测，并在内核软件看门狗程序中增加保存核状态的功能，用于CPU收集每个核状态值时进行填充；

(2.2.3)CPU温度值：X86读取CPU每个核的温度，比较后取温度最高值；ARM直接读取CPU整体温度值；

(2.3)X86和ARM完成CPU状态信息收集，填充到心跳回复消息，并将心跳回复消息发送至FPGA。

4.根据权利要求3所述拟态工业网关内部异常检测及恢复方法，其特征在于，X86运行两个执行体，ARM运行一个执行体。

5.根据权利要求3所述拟态工业网关内部异常检测及恢复方法，其特征在于，X86为8核处理器，ARM为6核处理器。

6.根据权利要求1所述拟态工业网关内部异常检测及恢复方法，其特征在于，所述步骤(3.4)包括以下子步骤：

(3.4.1)CPU主频切换处理，包括以下子步骤：

(3.4.1.1)FPGA分别为X86和ARM定义温度迟滞量hyst_temper，同时用于比较的CPU温度值采用连续k次的统计平均值；

(3.4.1.2)X86和ARM分别定义两个CPU运行频率：低功耗频率lower_freq和正常频率normal_freq；

(3.4.1.3)FPGA记录上次k次CPU温度平均值为pre_temper，当前k次CPU温度平均值为cur_temper；

(3.4.1.4)当pre_temper≤down_freq_temper+hyst_temper且

cur_temper>down_freq_temper+hyst_temper时，FPGA向CPU发送CPU降频消息，CPU频率降到lower_freq；

(3.4.1.5)当pre_temper≥down_freq_temper-hyst_temper且

cur_temper<down_freq_temper-hyst_temper时，FPGA向CPU发送CPU恢复正常频率消息，CPU频率调整到normal_freq；

(3.4.2)CPU硬件复位处理，包括以下子步骤：

(3.4.2.1)FPGA定义一个存储N个温度值的数组temper_arry，存储连续N个获取到的CPU温度值；

(3.4.2.2)FPGA每间隔2秒统计temper_arry中温度大于recover_temper的个数n；

(3.4.2.3)FPGA定义一个值M，M<N；当n≥M时，判断CPU温度异常，FPGA对CPU进行硬件复位处理。

7.根据权利要求6所述拟态工业网关内部异常检测及恢复方法，其特征在于，温度值pre_temper的初始值为0。

8.根据权利要求6所述拟态工业网关内部异常检测及恢复方法，其特征在于，数组temper_arry中各元素的初始值为0。

9.根据权利要求1所述拟态工业网关内部异常检测及恢复方法，其特征在于，所述步骤(3.2)中，备选执行体及其可信度在FPGA初始化时指定。