CN112099984B - 一种拟态工业网关内部异常检测及恢复方法 - Google Patents

一种拟态工业网关内部异常检测及恢复方法 Download PDF

Info

Publication number
CN112099984B
CN112099984B CN202011278268.3A CN202011278268A CN112099984B CN 112099984 B CN112099984 B CN 112099984B CN 202011278268 A CN202011278268 A CN 202011278268A CN 112099984 B CN112099984 B CN 112099984B
Authority
CN
China
Prior art keywords
cpu
fpga
arm
temperature
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011278268.3A
Other languages
English (en)
Other versions
CN112099984A (zh
Inventor
沈文君
朱明星
叶韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202011278268.3A priority Critical patent/CN112099984B/zh
Publication of CN112099984A publication Critical patent/CN112099984A/zh
Application granted granted Critical
Publication of CN112099984B publication Critical patent/CN112099984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提出一种拟态工业网关内部异常检测及恢复方法,FPGA首先利用外部看门狗芯片进行异常检测和恢复处理,然后FPGA通过两路内部串口分别定时向X86和ARM两个CPU发送的心跳获取消息,如果任意一个CPU无心跳回复消息返回或返回的心跳回复消息有异常,则根据具体的异常情况对出现异常的CPU做出相应的恢复处理。本发明对设备上所有处理器均进行异常检测,将外部芯片检测和处理器内部自检相结合,提高设备异常检测有效性;对于执行拟态网关业务的X86和ARM进行多方位异常检测,提高X86和ARM异常检测覆盖面;FPGA分析X86和ARM的异常具体种类,根据异常种类分别采用不同的恢复方法,提高设备恢复速度。

Description

一种拟态工业网关内部异常检测及恢复方法
技术领域
本发明属于计算机网络领域,尤其涉及一种拟态工业网关内部异常检测及恢复方法。
背景技术
在拟态工业网关中,其中一种重要的机制是动态异构冗余构造,因此网关设备包含多个处理器,包括运行网关业务且功能等价的异构执行体的X86和ARM,实现输入代理、输出代理、多模裁决和负反馈功能的FPGA。多个处理器同时存在于一个网关设备造成系统复杂性较高,设备出现异常的概率也大幅提高,任何一个处理器发生异常就会导致整个设备故障,因此设计一套切实有效的设备内部异常检测及相应的自恢复机制是拟态工业网关能否长时间稳定运行的关键。
发明内容
本发明的目的在于针对现有技术的不足,本发明提出了一种拟态工业网关内部异常检测及恢复方法。
本发明的目的是通过以下技术方案来实现的:一种拟态工业网关内部异常检测及恢复方法,包括以下步骤:
(1)FPGA利用外部看门狗芯片进行异常检测和恢复处理;
(2)FPGA通过两路内部串口分别定时向X86和ARM两个CPU发送心跳获取消息,X86和ARM收到消息后收集CPU状态信息,返回心跳回复消息给FPGA;
(3)FPGA根据收到的X86和ARM心跳回复消息对出现异常的CPU做出相应的恢复操作。
进一步地,所述步骤(1)具体为:FPGA每间隔1秒对外部看门狗芯片进行喂狗操作,当FPGA不进行喂狗操作,看门狗芯片向FPGA发送复位信号,FPGA收到复位信号后复位重启,并对X86和ARM进行硬件复位。
进一步地,所述步骤(2)包括以下子步骤:
(2.1)FPGA每间隔2秒向X86和ARM发送心跳获取消息;
(2.2)X86和ARM收到心跳获取消息后收集CPU状态信息;CPU状态信息包括所有运行中的执行体状态值、CPU每个核状态值和CPU温度值;包括以下子步骤:
(2.2.1)执行体状态值:X86和ARM向在本机上运行的所有执行体发送心跳命令,如有心跳返回则标志执行体运行状态正常,无返回则标志执行体运行状态异常;
(2.2.2)CPU每个核状态值:X86和ARM对每个核均开启内核软件看门狗进行死锁检测,并在内核软件看门狗程序中增加保存核状态的功能,用于CPU收集每个核状态值时进行填充;
(2.2.3)CPU温度值:X86读取CPU每个核的温度,比较后取温度最高值;ARM直接读取CPU整体温度值;
(2.3)X86和ARM完成CPU状态信息收集,填充到心跳回复消息,并将消息发送至FPGA。
进一步地,X86运行两个执行体,ARM运行一个执行体。
进一步地,X86为8核处理器,ARM为6核处理器。
进一步地,所述步骤(3)包括以下子步骤:
(3.1)心跳回复消息异常:定义FPGA接收X86和ARM心跳回复消息的超时时间为1秒,FPGA为X86和ARM分别定义一个超时累加值,出现超时则该值加1,正确收到则该值清0,如果X86或ARM的超时累加值达到3,则认为该CPU已发生异常,FPGA对该CPU进行硬件复位处理;
(3.2)执行体状态值异常:FPGA为X86和ARM的每个执行体分别定义一个异常累加值,出现异常则该值加1,正确则该值清0,如果X86或ARM的异常累加值达到3,则认为该执行体已发生异常,FPGA发送执行体下线命令给该执行体所在的CPU,FPGA在该CPU的备选执行体中选择可信度最高的执行体,并将新执行体上线命令发送给CPU,完成执行体的替换;
(3.3)CPU每个核状态值有异常:FPGA发现X86或ARM的任意一个核的状态异常,则对发生核异常的CPU进行硬件复位处理;
(3.4)CPU温度值异常:FPGA对X86和ARM分别定义两个温度处理阈值:主频切换温度阈值down_freq_temper和硬件复位温度阈值recover_temper,且down_freq_temper<recover_temper,根据CPU温度的变化作出主频切换或硬件复位处理。
进一步地,所述步骤(3.4)包括以下子步骤:
(3.4.1)CPU主频切换处理,包括以下子步骤:
(3.4.1.1)FPGA分别为X86和ARM定义温度迟滞量hyst_temper,同时用于比较的CPU温度值采用连续k次的统计平均值;
(3.4.1.2)X86和ARM分别定义两个CPU运行频率:低功耗频率lower_freq和正常频率normal_freq;
(3.4.1.3)FPGA记录上次k次CPU温度平均值为pre_temper,当前k次CPU温度平均值为cur_temper;
(3.4.1.4)当pre_temper≤down_freq_temper+hyst_temper且cur_temper>down_freq_temper+hyst_temper时,FPGA向CPU发送CPU降频消息,CPU频率降到lower_freq;
(3.4.1.5)当pre_temper≥down_freq_temper-hyst_temper且cur_temper<down_freq_temper-hyst_temper时,FPGA向CPU发送CPU恢复正常频率消息,CPU频率调整到normal_freq;
(3.4.2)CPU硬件复位处理,包括以下子步骤:
(3.4.2.1)FPGA定义一个可存储N个温度值的数组temper_arry,存储连续N个获取到的CPU温度值;
(3.4.2.2)FPGA每间隔2秒统计temper_arry中温度大于recover_temper的个数n;
(3.4.2.3)FPGA定义一个值M,M<N;当n≥M时,判断CPU温度异常,FPGA对CPU进行硬件复位处理。
进一步地,温度值pre_temper的初始值为0。
进一步地,数组temper_arry中各元素的初始值为0。
进一步地,所述执行体备选池和可信度在FPGA初始化时指定。
与现有技术相比,本发明具有如下有益效果:
1、本发明对设备上的所有处理器(FPGA、X86和ARM)均进行异常检测,并且通过外部芯片检测和处理器内部自检相结合,提高设备异常检测的有效性;
2、对于执行拟态网关业务的X86和ARM进行多方位(执行体、CPU死锁、CPU温度和CPU软件)的异常检测,提高X86和ARM异常检测的覆盖面;
3、FPGA分析X86和ARM的异常具体种类,根据异常种类分别采用不同的恢复方法,提高设备恢复速度。
附图说明
图1为本发明拟态工业网关异常检测及恢复的架构;
图2为本发明拟态工业网关异常检测及恢复的流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步解释说明。
如图1为本发明拟态工业网关异常检测及恢复的架构,包括FPGA、ARM、X86和外部看门狗芯片;由FPGA给看门狗发送喂狗信号,由看门狗给FPGA发送复位信号;FPGA通过串口与ARM、X86数据交互;由FPGA给ARM、X86发送硬件复位信号。
如图2所示,本发明拟态工业网关异常检测及恢复方法,利用外部看门狗芯片对FPGA进行异常检测及恢复处理,FPGA分别对ARM和X86进行异常检测及恢复处理;具体包括以下处理方法:
(1)FPGA利用外部看门狗芯片进行异常检测和恢复处理:FPGA每间隔1秒对外部看门狗芯片进行喂狗操作,如果FPGA出现异常不进行喂狗操作,看门狗芯片会向FPGA发送复位信号,FPGA收到复位信号后复位重启,并在重启过程中对X86和ARM进行硬件复位,以保证整个系统完整恢复。
(2)FPGA通过两路内部串口分别定时向X86和ARM两个CPU发送心跳获取消息,X86和ARM收到消息后收集CPU的状态信息,返回心跳回复消息给FPGA,具体步骤如下:
(2.1)FPGA每间隔2秒向X86和ARM发送心跳获取消息。
(2.2)X86和ARM收到心跳获取消息后收集CPU状态信息;CPU状态信息具体包含以下内容:所有运行中的执行体状态值(X86运行两个执行体,ARM运行一个执行体)、CPU每个核状态值(判断是否死锁,X86为8核处理器,ARM为6核处理器)和CPU温度值,CPU状态信息获取如下:
(2.2.1)执行体状态值:X86和ARM向在本机上运行的所有执行体发送心跳命令,如有心跳返回则标志执行体运行状态正常,无返回则标志执行体运行状态异常。
(2.2.2)CPU每个核状态值:X86和ARM对每个核均开启内核软件看门狗进行死锁检测,修改内核软件看门狗程序,增加保存核状态的功能,CPU收集每个核状态值时填充。
(2.2.3)CPU温度值:X86读取CPU每个核的温度,比较后取温度最高值;ARM可以直接读取CPU整体温度值。
(2.3)X86和ARM完成CPU状态信息收集,填充到心跳回复消息,并将消息发送至FPGA。
(3)FPGA对X86和ARM的异常检测包括多层次的检测,根据收到X86和ARM的心跳回复消息,分别根据心跳回复消息中的执行体状态值、CPU每个核状态值和CPU温度值做出相应处理,对出现异常的CPU做出相应的恢复操作,包括执行体异常、CPU死锁异常、CPU温度异常和CPU软件异常,并且FPGA根据不同的异常情况采取代价最小的恢复处理,包括替换执行体、CPU主频切换处理和CPU硬件复位处理;具体步骤如下:
(3.1)心跳回复消息异常:定义FPGA接收X86和ARM心跳回复消息的超时时间为1秒,FPGA为X86和ARM分别定义一个超时累加值,出现超时则该值加1,正确收到则该值清0,记录连续超时次数;如果X86或ARM的超时累加值达到3,则认为该CPU已发生异常,FPGA对该CPU进行硬件复位处理。
(3.2)执行体状态值异常:FPGA为X86和ARM的每个执行体分别定义一个异常累加值,出现异常则该值加1,正确则该值清0,记录连续异常次数;如果X86或ARM的某个执行体异常累加值达到3,则认为该执行体已发生异常,FPGA发送执行体下线命令给该执行体所在的CPU,FPGA在该CPU的备选执行体中选择可信度最高的执行体(执行体备选池和可信度在FPGA初始化时指定),并将新执行体上线命令发送给CPU,完成执行体的替换。
(3.3)CPU每个核状态值有异常:FPGA发现X86或ARM的任意一个核的状态异常(死锁),则对发生核异常的CPU进行硬件复位处理。
(3.4)CPU温度值异常:FPGA对X86和ARM分别定义两个温度处理阈值:主频切换温度阈值down_freq_temper和硬件复位温度阈值recover_temper,且down_freq_temper<recover_temper,当CPU温度发生变化时,会根据具体情况作出主频切换或硬件复位处理:
(3.4.1)CPU主频切换处理,处理方法如下:
(3.4.1.1)为防止频繁切换CPU频率,FPGA分别为X86和ARM定义温度迟滞量hyst_temper,同时每k次采样计算一次CPU温度平均值用于比较。
(3.4.1.2)X86和ARM分别定义两个CPU运行频率:低功耗频率lower_freq和正常频率normal_freq。
(3.4.1.3)FPGA记录上次k次CPU温度平均值为pre_temper(初始值为0),当前k次CPU温度平均值为cur_temper。
(3.4.1.4)当pre_temper≤down_freq_temper+hyst_temper且cur_temper>down_freq_temper+hyst_temper时,FPGA向CPU发送CPU频率降频消息,CPU频率降到lower_freq。
(3.4.1.5)当pre_temper≥down_freq_temper-hyst_temper且cur_temper<down_freq_temper-hyst_temper时,FPGA向CPU发送CPU频率恢复正常消息,CPU频率调整到normal_freq。
(3.4.2)CPU硬件复位处理,为防止CPU突发业务导致CPU在较短时间内温度上升触发硬件复位温度阈值,采用以下处理方法:
(3.4.2.1)FPGA定义一个可存储N个温度值(初始值为0)的数组temper_arry,每获取连续的N个CPU温度值存储得到一个temper_arry。
(3.4.2.2)FPGA每间隔2秒统计temper_arry中大于recover_temper的温度值个数,定义为n,n≤N。
(3.4.2.3)FPGA定义一个值M,M<N;当n≥M时,判断CPU温度异常,FPGA对CPU进行硬件复位处理。

Claims (9)

1.一种拟态工业网关内部异常检测及恢复方法,其特征在于,包括以下步骤:
(1)FPGA利用外部看门狗芯片进行异常检测和恢复处理;
(2)FPGA通过两路内部串口分别定时向X86和ARM两个CPU发送心跳获取消息,X86和ARM收到心跳获取消息后收集CPU状态信息,返回心跳回复消息给FPGA;
(3)FPGA根据收到的X86和ARM心跳回复消息对出现异常的CPU做出相应的恢复操作,包括以下子步骤:
(3.1)心跳回复消息异常:定义FPGA接收X86和ARM心跳回复消息的超时时间为1秒,FPGA为X86和ARM分别定义一个超时累加值,出现超时则该值加1,正确收到则该值清0,如果X86或ARM的超时累加值达到3,则认为该CPU已发生异常,FPGA对该CPU进行硬件复位处理;
(3.2)执行体状态值异常:FPGA为X86和ARM的每个执行体分别定义一个异常累加值,出现异常则该值加1,正确则该值清0,如果X86或ARM的异常累加值达到3,则认为该执行体已发生异常,FPGA发送执行体下线命令给该执行体所在的CPU,FPGA在该CPU的备选执行体中选择可信度最高的执行体,并将新执行体上线命令发送给CPU,完成执行体的替换;
(3.3)CPU每个核状态值有异常:FPGA发现X86或ARM的任意一个核的状态异常,则对发生核异常的CPU进行硬件复位处理;
(3.4)CPU温度值异常:FPGA对X86和ARM分别定义两个温度处理阈值:主频切换温度阈值down_freq_temper和硬件复位温度阈值recover_temper,且down_freq_temper<recover_temper,根据CPU温度的变化作出主频切换或硬件复位处理。
2.根据权利要求1所述拟态工业网关内部异常检测及恢复方法,其特征在于,所述步骤(1)具体为:FPGA每间隔1秒对外部看门狗芯片进行喂狗操作,当FPGA不进行喂狗操作,外部看门狗芯片向FPGA发送复位信号,FPGA收到复位信号后复位重启,并对X86和ARM进行硬件复位。
3.根据权利要求1所述拟态工业网关内部异常检测及恢复方法,其特征在于,所述步骤(2)包括以下子步骤:
(2.1)FPGA每间隔2秒向X86和ARM发送心跳获取消息;
(2.2)X86和ARM收到心跳获取消息后收集CPU状态信息;CPU状态信息包括所有运行中的执行体状态值、CPU每个核状态值和CPU温度值;包括以下子步骤:
(2.2.1)执行体状态值:X86和ARM向在本机上运行的所有执行体发送心跳命令,如有心跳返回则标志执行体运行状态正常,无返回则标志执行体运行状态异常;
(2.2.2)CPU每个核状态值:X86和ARM对每个核均开启内核软件看门狗程序进行死锁检测,并在内核软件看门狗程序中增加保存核状态的功能,用于CPU收集每个核状态值时进行填充;
(2.2.3)CPU温度值:X86读取CPU每个核的温度,比较后取温度最高值;ARM直接读取CPU整体温度值;
(2.3)X86和ARM完成CPU状态信息收集,填充到心跳回复消息,并将心跳回复消息发送至FPGA。
4.根据权利要求3所述拟态工业网关内部异常检测及恢复方法,其特征在于,X86运行两个执行体,ARM运行一个执行体。
5.根据权利要求3所述拟态工业网关内部异常检测及恢复方法,其特征在于,X86为8核处理器,ARM为6核处理器。
6.根据权利要求1所述拟态工业网关内部异常检测及恢复方法,其特征在于,所述步骤(3.4)包括以下子步骤:
(3.4.1)CPU主频切换处理,包括以下子步骤:
(3.4.1.1)FPGA分别为X86和ARM定义温度迟滞量hyst_temper,同时用于比较的CPU温度值采用连续k次的统计平均值;
(3.4.1.2)X86和ARM分别定义两个CPU运行频率:低功耗频率lower_freq和正常频率normal_freq;
(3.4.1.3)FPGA记录上次k次CPU温度平均值为pre_temper,当前k次CPU温度平均值为cur_temper;
(3.4.1.4)当pre_temper≤down_freq_temper+hyst_temper且
cur_temper>down_freq_temper+hyst_temper时,FPGA向CPU发送CPU降频消息,CPU频率降到lower_freq;
(3.4.1.5)当pre_temper≥down_freq_temper-hyst_temper且
cur_temper<down_freq_temper-hyst_temper时,FPGA向CPU发送CPU恢复正常频率消息,CPU频率调整到normal_freq;
(3.4.2)CPU硬件复位处理,包括以下子步骤:
(3.4.2.1)FPGA定义一个存储N个温度值的数组temper_arry,存储连续N个获取到的CPU温度值;
(3.4.2.2)FPGA每间隔2秒统计temper_arry中温度大于recover_temper的个数n;
(3.4.2.3)FPGA定义一个值M,M<N;当n≥M时,判断CPU温度异常,FPGA对CPU进行硬件复位处理。
7.根据权利要求6所述拟态工业网关内部异常检测及恢复方法,其特征在于,温度值pre_temper的初始值为0。
8.根据权利要求6所述拟态工业网关内部异常检测及恢复方法,其特征在于,数组temper_arry中各元素的初始值为0。
9.根据权利要求1所述拟态工业网关内部异常检测及恢复方法,其特征在于,所述步骤(3.2)中,备选执行体及其可信度在FPGA初始化时指定。
CN202011278268.3A 2020-11-16 2020-11-16 一种拟态工业网关内部异常检测及恢复方法 Active CN112099984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011278268.3A CN112099984B (zh) 2020-11-16 2020-11-16 一种拟态工业网关内部异常检测及恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011278268.3A CN112099984B (zh) 2020-11-16 2020-11-16 一种拟态工业网关内部异常检测及恢复方法

Publications (2)

Publication Number Publication Date
CN112099984A CN112099984A (zh) 2020-12-18
CN112099984B true CN112099984B (zh) 2021-02-12

Family

ID=73784610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011278268.3A Active CN112099984B (zh) 2020-11-16 2020-11-16 一种拟态工业网关内部异常检测及恢复方法

Country Status (1)

Country Link
CN (1) CN112099984B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115941559B (zh) * 2023-03-14 2023-06-06 之江实验室 一种基于fpga动态管理拟态执行体的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101546279A (zh) * 2009-05-14 2009-09-30 华为技术有限公司 嵌入式设备的异常处理装置、系统和方法
JP2017146832A (ja) * 2016-02-18 2017-08-24 日本電信電話株式会社 異常ログ検出システムおよび異常ログ検出方法
JP2018106430A (ja) * 2016-12-27 2018-07-05 富士電機株式会社 動作検証回路
CN108304280A (zh) * 2018-01-30 2018-07-20 郑州云海信息技术有限公司 控制异构混合内存系统异常恢复的方法、bmc及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101546279A (zh) * 2009-05-14 2009-09-30 华为技术有限公司 嵌入式设备的异常处理装置、系统和方法
JP2017146832A (ja) * 2016-02-18 2017-08-24 日本電信電話株式会社 異常ログ検出システムおよび異常ログ検出方法
JP2018106430A (ja) * 2016-12-27 2018-07-05 富士電機株式会社 動作検証回路
CN108304280A (zh) * 2018-01-30 2018-07-20 郑州云海信息技术有限公司 控制异构混合内存系统异常恢复的方法、bmc及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于状态机的USB2.0事件检测模块的硬件实现;聂晶等;《合肥工业大学学报(自然科学版)》;20070928;第30卷(第9期);第1113-1116页 *

Also Published As

Publication number Publication date
CN112099984A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
US7730364B2 (en) Systems and methods for predictive failure management
US7328376B2 (en) Error reporting to diagnostic engines based on their diagnostic capabilities
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN110581852A (zh) 一种高效型拟态防御系统及方法
CN103116531A (zh) 存储系统故障预测方法和装置
CN114064333A (zh) 一种内存故障处理方法和装置
CN109086151A (zh) 一种服务器上隔离内存故障的方法及装置
CN108536548B (zh) 一种磁盘坏道的处理方法、装置及计算机存储介质
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN112099984B (zh) 一种拟态工业网关内部异常检测及恢复方法
CN101197621A (zh) 一种对网管系统故障进行远程诊断定位的方法及其系统
US20230185659A1 (en) Memory Fault Handling Method and Apparatus
CN108154230A (zh) 深度学习处理器的监控方法和监控装置
WO2017218277A1 (en) Monitoring peripheral transactions
CN109308242A (zh) 一种动态监控方法、装置、设备和存储介质
CN101841541B (zh) 一种基于多播网络监控集群的方法及系统
CN113535448B (zh) 一种多重看门狗控制方法及其控制系统
CN107528705B (zh) 故障处理方法及装置
KR102624950B1 (ko) 시계열 데이터를 이용한 주기성을 갖는 이상 수치 검출 시스템
CN108899059B (zh) 一种固态硬盘的检测方法和设备
CN113407391A (zh) 故障处理的方法、计算机系统、基板管理控制器和系统
CN102521060A (zh) 基于看门狗本地检测技术的高可用集群系统假死解决方法
CN111708672B (zh) 数据传输方法、装置、设备及存储介质
CN117271234A (zh) 故障诊断方法、装置、存储介质及电子装置
CN115755570A (zh) 多冗余度异构调度裁决器的调度裁决方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant