CN103605593B - 异构系统的故障诊断、恢复方法及装置 - Google Patents

异构系统的故障诊断、恢复方法及装置 Download PDF

Info

Publication number
CN103605593B
CN103605593B CN201310642805.1A CN201310642805A CN103605593B CN 103605593 B CN103605593 B CN 103605593B CN 201310642805 A CN201310642805 A CN 201310642805A CN 103605593 B CN103605593 B CN 103605593B
Authority
CN
China
Prior art keywords
fault
path
fpga
arm
logic region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310642805.1A
Other languages
English (en)
Other versions
CN103605593A (zh
Inventor
王书义
杨德光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201310642805.1A priority Critical patent/CN103605593B/zh
Publication of CN103605593A publication Critical patent/CN103605593A/zh
Application granted granted Critical
Publication of CN103605593B publication Critical patent/CN103605593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明提供了一种异构系统的故障诊断、恢复方法及装置,其中的方法包括:在X86与FPGA组成的异构系统中,按照物理位置和逻辑相关性对FPGA进行逻辑区域划分,并在FPGA中预设故障分类判断,对故障进行识别;当第一通路出现故障时,在X86启用第二通路作为备份链路的同时,第三通路根据所划分的逻辑区域向FPGA反馈故障类别,并且X86通过向ARM发出故障诊断指令对第一通路进行故障诊断;在FPGA中,对发生故障的逻辑区域进行定位,然后由ARM发出恢复指令并通过第三通路对发生故障的逻辑区域进行复位,以完成异构系统故障的恢复。通过本发明能够实现备份FPGA与X86之间的通信控制链路、获取故障诊断信息以及恢复偶发性故障,提高系统故障的调试能力和稳定运行能力。

Description

异构系统的故障诊断、恢复方法及装置
技术领域
本发明涉及异构系统技术领域,更为具体地,涉及一种异构系统的故障诊断、恢复方法及装置。
背景技术
异构系统被视为计算机处理器继单核和多核之后的第三个时代,其能够实现不同类型指令集和体系架构的计算单元之间的协同计算和彼此加速,从而突破CPU的发展瓶颈,有效解决能耗和系统的扩展性问题。
在X86系统与FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)系统两者结合的异构系统中,X86系统能够对异构系统起到主要控制作用,并维护整个异构系统的正常工作;而FPGA系统由于其精准的时序控制,能够提升异构系统的性能,但其需要X86系统的控制和维护来保证持续正常的运行。
在X86系统与FPGA系统的交互过程中,由于FPGA器件接口数量的限制,往往集中资源专注于对外处理,而对于其内部控制通路常常因为冗余代价太大,一般只设一个冗余链路,如此便抑制了冗余链路的保障效果。
为了保障FPGA系统稳定的受控于X86系统,则需要设置多个冗余链路。也就是说,需要消耗较大代价进行控制通路冗余。即便如此,也不能够保障FPGA系统的稳定受控。因为控制数据总会到达同一个控制点,当FPGA系统出现较为严重的全局故障时,就可能会导致所有的冗余链路均告失效,从而造成FPGA系统整个控制通路出现故障。
在X86系统与FPGA系统两者结合的异构系统中,一旦控制通路出现故障,即会出现X86系统对FPGA系统的控制和维护问题,从而使整个FPGA系统失去持续正常的工作能力,也无法再从X86系统获得控制类数据,使故障的排查和分析遇到困难,从而增加调试问题的成本。
发明内容
鉴于上述问题,本发明的目的是提供一种异构系统的故障诊断、恢复方法及装置,以实现对FPGA的通信控制链路的备份、故障诊断信息的获取和偶发性故障的恢复,提高系统故障的调试能力和稳定运行能力。
根据本发明的一个方面,提供一种异构系统的故障诊断、恢复方法,包括:
在X86与FPGA组成的异构系统中,按照物理位置和逻辑相关性对FPGA进行逻辑区域划分,并在FPGA中预设故障分类判断,对故障进行分类识别;
当作为正常情况下的X86与FPGA之间的通信通路的第一通路出现故障时,X86启用第二通路作为X86与FPGA通信控制的备份链路;其中,X86通过第二通路向ARM发出指令,然后再通过ARM实现对FPGA的通信控制;其中,
在X86启用第二通路的同时,第三通路根据所划分的逻辑区域向FPGA反馈故障类别,并且X86通过向ARM发出故障诊断指令对第一通路进行故障诊断;
在FPGA中,根据所述ARM对所述第一通路的故障诊断结果对发生故障的逻辑区域进行定位,然后由ARM发出恢复指令并通过第三通路对发生故障的逻辑区域进行复位,以完成对异构系统的故障恢复。
其中,在X86通过向ARM发出故障诊断指令对第一通路进行故障诊断的过程中,X86通过预设的故障处理方案,向ARM发出故障诊断指令对FPGA中出现的故障进行诊断。
其中,在通过第三通路对发生故障的逻辑区域进行复位的过程中,将发生故障的逻辑区域与未发生故障的逻辑区域进行分隔,实现只对发生故障的逻辑区域进行复位。
另一方面,本发明还提供一种异构系统的故障诊断、恢复装置,包括:
故障分类单元,用于在X86与FPGA组成的异构系统中,按照物理位置和逻辑相关性对FPGA进行逻辑区域划分,并在FPGA中预设故障分类判断,对故障进行分类识别;
备份链路启用单元,用于当作为正常情况下的X86与FPGA之间的通信通路的第一通路出现故障时,第三通路根据所划分的逻辑区域向FPGA反馈故障类别,然后X86启用第二通路作为X86与FPGA通信控制的备份链路;其中,X86通过第二通路向ARM发出指令,然后再通过ARM实现对FPGA的通信控制;
故障诊断单元,用于在X86启用第二通路的同时,第三通路根据所划分的逻辑区域向FPGA反馈故障类别,并且X86通过向ARM发出故障诊断指令对第一通路进行故障诊断;
故障恢复单元,用于在FPGA中,根据所述ARM对所述第一通路的故障诊断结果对发生故障的逻辑区域进行定位,然后由ARM发出恢复指令并通过第三通路对发生故障的逻辑区域进行复位,以完成对异构系统的故障恢复。
上述根据本发明的异构系统的故障诊断、恢复方法及装置,通过利用独立于X86与FPGA的第三方ARM,能够实现备份FPGA与X86之间的通信控制链路、获取故障诊断信息以及恢复偶发性故障,提高系统故障的调试能力和稳定运行能力。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的异构系统的故障诊断、恢复方法流程示意图;
图2为根据本发明实施例的各通信通路之间的连接关系示意图;
图3为根据本发明实施例的Cam表模块结构示意图;
图4为根据本发明实施例的异构系统的故障诊断、恢复装置逻辑结构框图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
以下将结合附图对本发明的具体实施例进行详细描述。
针对前述现有的X86与FPGA两者结合的异构系统在控制通路出现故障时,FPGA无法从X86中获得控制类数据,造成FPGA故障排查的难度和增加调试问题的成本的问题。本发明利用独立于X86与FPGA的第三方ARM(Advanced RISC Microprocessor,高级RISC微处理器),从而创造一个额外的控制通路,作为X86与FPGA之间的备用通信通路,以承载X86对FPGA的一切操作,并且还可监控FPGA的状态,起到辅助控制FPGA的作用。通过本发明能够实现备份FPGA与X86之间的通信控制链路、获取故障诊断信息以及恢复偶发性故障,提高系统故障的调试能力和稳定运行能力。
为了说明本发明提供的异构系统的故障诊断、恢复方法,图1示出了根据本发明实施例的异构系统的故障诊断、恢复方法流程。
如图1所示,本发明提供的异构系统的故障诊断、恢复方法包括:
S110:在X86与FPGA组成的异构系统中,按照物理位置和逻辑相关性对FPGA进行逻辑区域划分,并在FPGA中预设故障分类判断,对故障进行分类识别。
具体地,对有可能发生故障的情形进行分类,并在FPGA中内置判断条件来判断发生故障的逻辑区域的故障类别。其中,以接口形态为例,对于fifo接口,可根据空/满读写以及数据状态作为判断条件,看是否出现不符合逻辑的状态,比如空读、满写、非空不读等等;对于查表类总线接口,根据总线的请求和回复的使能配合的拍数,来查看是否有效地返回了查表数据,比如有请求没有回复,回复时机不正确等等;而对于复杂外设接口,由于在调用复杂外设接口时,往往使用现有成熟的核,这类核除了会用到上述两种接口外,还会提供自身的协商状态等信号,通过检查协商状态是否成功来判断接口是否正常。
而对于模型类的故障判断,则可根据模型的类别分别预设不同的判断条件对其故障类别进行判断。具体地,对于数据信息分离模型,可以通过增加令牌标志等,来观察数据和信息是否匹配,从而确定是否出现失配异常。
对于传输接口模型,如果是对外传输接口,按照网络协议增加标准的校验和进行处理,保证报文传输正确;如果是对内传输接口,则可以设定自己的校验方法,特殊处理错误报文,其中,当出现大量错误报文时,则有可能发生了错误。
对于令牌模型,由于其主要是对数据进行存储,然后反复提取信息进行多次处理,最终提供处理结果,因此,主要对令牌的使用和回收进行观察跟踪,当令牌耗尽或拥塞时,即表明出现了问题。
对于全交叉模型,由于全交叉模型的交换比较复杂,其选路是使用特定标志,因此,可以检查标志是否正确,不正确的标志需要特殊处理,以免无法选路导致全交叉通路阻塞。
S120:当作为正常情况下的X86与FPGA之间的通信通路的第一通路出现故障时,X86启用第二通路作为X86与FPGA通信控制的备份链路;其中,X86通过第二通路向ARM发出指令,然后再通过ARM实现对FPGA的通信控制;其中,在X86启用第二通路的同时,第三通路根据所划分的逻辑区域向FPGA反馈故障类别,并且X86通过向ARM发出故障诊断指令对第一通路进行故障诊断。
在此,需要说明的是,本发明所提及的第一通路为正常情况下的X86与FPGA之间的通信通路;第二通路为将ARM作为中转站所实现的X86与FPGA之间的备用通信通路;第三通路为FPGA的故障监测反馈通路,以及对发生故障的逻辑区域发出复位指令的通路。
通常X86与FPGA之间都是使用第一通路进行通信,但是当第一通路出现故障时(即X86与FPGA之间的通信失败时),则启用第二通路作为备用通信通路,实现X86与FPGA之间的通信。此时第二通路分别与X86、ARM和FPGA相连。也就是说,在启用第二通路时,ARM就相当于一个信息的中转站,其接收X86发出的控制信息,然后再发送给FPGA,从而实现X86对FPGA的通信控制。
其中,在X86通过向ARM发出故障诊断指令对第一通路进行故障诊断的过程中,X86通过预设的故障处理方案,向ARM发出故障诊断指令对FPGA中出现的故障进行诊断。
具体地,在启用第二通路的同时,X86还需按预设的处理方案,通过向ARM发出故障诊断指令来诊断FPGA所出现的故障(即对第一通路进行故障诊断)。也就是说,ARM在接收到X86所发出的指令后,即开始故障诊断。
另外,由于第二通路是作为X86与FPGA之间的备用通信通路,因此,原来通过第一通路所获得的FPGA的配置信息和状态信息,ARM通过第二通路同样能够获得,在获得这些信息之后,调试人员即可进一步分析故障发生的原因,从而为故障的定位和恢复提供更多的信息。
S130:在FPGA中,根据ARM对第一通路的故障诊断结果对发生故障的逻辑区域进行定位,然后由ARM发出恢复指令并通过第三通路对发生故障的逻辑区域进行复位,以完成对异构系统的故障恢复。
具体地,在对发生故障的逻辑区域进行定位后,根据故障的类别,通过ARM的预设处理方案,通过第三通路对发生故障的逻辑区域进行复位,实现对故障的恢复;或者使用X86额外定制的其他故障恢复方案,通过第二通路发送给ARM,再由ARM对恢复方案进行分解,然后再通过第三通路发送给FPGA,完成对故障的恢复。
也就是说,根据第三通路所反馈的故障类别,通过在ARM中预设恢复方案,并通过第三通路对发生故障的逻辑区域进行复位;或者,通过在X86中预设恢复方案,然后通过第二通路将预设的恢复方案发送给ARM,再由ARM将所发送的恢复方案进行分解,并通过第三通路对发生故障的逻辑区域进行复位。
通过图1所示的流程可以看出,本发明提供的异构系统的故障诊断、恢复方法通过独立于X86与FPGA的第三方ARM,能够实现备份FPGA与X86之间的通信控制链路、获取故障诊断信息以及恢复偶发性故障,提高系统故障的调试能力和稳定运行能力。
为了说明X86、ARM和FPGA以及第一通路、第二通路和第三通路之间的关系,图2示出了根据本发明实施例的各通信通路之间的连接关系。
如图2所示,首先按照物理位置和逻辑相关性,将FPGA分隔成几个较为独立的逻辑区域(即对FPGA进行逻辑区域划分),然后所划分的逻辑区域通过C通路(即第三通路)向FPGA的故障监控模块反馈故障类别,接着FPGA的故障监控模块将故障类别通过B通路发送给ARM的故障信息收集模块,再经由ARM的故障信息收集模块通过B通路发送给X86的业务维护模块。
X86的业务维护模块实现对FPGA的控制,其在正常情况下通过A通路(即第一通路)实现X86与FPGA之间的通信控制。当A通路出现故障时,X86则启用B通路(即第二通路)作为备用通信通路,实现X86与FPGA之间的通信控制,此时ARM即相当于一个中转站,其接收X86的控制信息并转发给FPGA。
在X86启用B通路的同时,X86的业务维护模块通过B通路将预设的故障解决方案发送给ARM的故障信息搜集模块,ARM的故障信息收集模块再将X86所发送过来的解决方案进行分解,然后再经由B通路将恢复指令发送给FPGA的故障监控模块,FPGA的故障监控模块通过C通路,将按故障类别对发生故障的逻辑区域进行复位,以完成对系统故障的恢复。
需要说明的是,在通过第三通路对发生故障的逻辑区域进行复位的过程中,将发生故障的逻辑区域与未发生故障的逻辑区域进行分隔,实现只对发生故障的逻辑区域进行复位,以完成系统故障的恢复。
其中,异构系统故障的恢复可以解决的问题一般需满足如下特征:FPGA中的问题和无法靠FPGA内部逻辑进行自恢复的问题以及偶发性故障,例如电磁干扰、偶发性Bug等等。
在本发明的一个示例中,以katyusha项目中的Cam表模块为例,其Cam表模块结构如图3所示。其中,Cam表的输入数据、输出数据、输入配置和输出异常四个接口都是fifo接口;Cam表相对独立,处理数据中的mac地址,vlan等信息,用于从片外存储中读/写/查找信息,并将信息返回相关信息给Cam表。
首先对Cam表进行逻辑区域划分,由于其逻辑相关性较小,因此只需从模块间的分隔fifo划开即可。
划分逻辑区域之后,一般的故障识别只需简单地从逻辑区域边缘检查,来判定全局检查设备是否正常运行或者有阻断故障,监控外部fifo接口(即输入数据、输出数据、输入配置和输出异常四个接口),按照fifo接口的监控逻辑检查数据和接口状态即可,而在本发明中,除了对一般的故障进行识别外,还可在划分的逻辑区域内进一步预设故障分类判断,对故障进行进一步分类识别。
其中,将Cam表模块细分为二级模块,各个二级模块和存储单元间也可做同理划分。具体地:
首先,在各个二级模块之间,以及二级模块和存储单元之间,按fifo接口识别,定制普通的fifo接口类故障;
其次,提取数据进行查表,并将查表结果反馈到报文中,按数据信息分离模型识别,定制Cam表模块内部数据和查表信息的匹配检查;
最后,在模块逻辑和片外存储之间,按照复杂外设接口类进行检查,一方面检查外设状态,同时根据部分私有数据检查查表信息返回是否正常。
在找出Cam表的故障之后,对其进行恢复,在对Cam表进行恢复时需要注意四点:1、数据流的阻断,不能使数据损坏;2、配置包的阻断,不能使配置数据损坏;3、外接存储器件的初始化;4、报文的存储,外部包体存储空间的释放。其具体恢复步骤如下:
1、入口的fifo数据处理完,之后暂停处理,出口fifo同理,不再写入,这样能保证在阻断数据流时,不使数据损坏和在阻断配置包时,不使配置数据损坏。
2、外接存储器件设置初始化逻辑,复位后启动,进行初始化,不残留任何数据,保证外接存储器件的初始化。
3、然后放开出入口fifo,也是为了保证阻断数据流和配置包时,不使数据和配置数据损坏。
4、存储空间释放方面,需要存储模块支持超时释放功能,保证报文的存储以及外部包体存储空间的释放。
通过上述示例可以看出,在对Cam表模块进行完全恢复时,不残留任何数据,同时残留在存储模块的部分信息也能通过超时删除掉。
与上述方法相对应,本发明还提供一种异构系统的故障诊断装置,图4示出了根据本发明实施例的异构系统的故障诊断装置逻辑结构。
如图4所示,本发明提供的异构系统的故障诊断、恢复装置包括故障分类单元410、备份链路启用单元420、故障诊断单元430和故障恢复单元440。
其中,故障分类单元410用于在X86与FPGA组成的异构系统中,按照物理位置和逻辑相关性对FPGA进行逻辑区域划分,并在FPGA中预设故障分类判断,对故障进行分类识别。
具体地,故障分类单元410需要对有可能发生故障的情形进行分类,并在FPGA中内置判断条件来判断发生故障的逻辑区域的故障类别。
以接口形态为例,对于fifo接口,故障分类单元410可根据空/满读写以及数据状态作为判断条件,看是否出现不符合逻辑的状态,比如空读、满写、非空不读等等;对于查表类总线接口,根据总线的请求和回复的使能配合的拍数,来查看是否有效地返回了查表数据,比如有请求没有回复,回复时机不正确等等;而对于复杂外设接口,由于在调用复杂外设接口时,往往使用现有成熟的核,这类核除了会用到上述两种接口外,还会提供自身的协商状态等信号,通过检查协商状态是否成功来判断接口是否正常。
对于其他类型的故障判断,也可根据故障的类型在FPGA中内置相应的判断条件来判断发生故障的逻辑区域的故障类别,在此不再赘述。
其中,故障分类单元410还包括:故障判断单元(图中未示出),用于在划分的逻辑区域内进一步预设故障分类判断,对故障进行进一步分类识别。在划分的逻辑区域内进一步预设故障分类判断更有利于分析更深层的故障,从而能够更准确的对故障进行定位。
备份链路启用单元420用于当作为正常情况下的X86与FPGA之间的通信通路的第一通路出现故障时,X86启用第二通路作为X86与FPGA通信控制的备份链路;其中,X86通过第二通路向ARM发出指令,然后再通过ARM实现对FPGA的通信控制。
具体地,通常X86与FPGA之间都是使用第一通路进行通信,但是当第一通路出现故障时(即X86与FPGA之间的通信失败时),备份链路启用单元420则启用第二通路作为备用通信通路,实现X86与FPGA之间的通信。此时第二通路分别与X86、ARM和FPGA相连,而ARM就相当于信息的中转站,其接收X86发出的控制信息,然后再发送给FPGA,从而实现X86对FPGA的通信控制。
故障诊断单元430用于在X86启用第二通路的同时,第三通路根据所划分的逻辑区域向FPGA反馈故障类别,并且X86通过向ARM发出故障诊断指令对第一通路进行故障诊断。
具体地,故障诊断单元430在启用第二通路的同时,X86通过向ARM发出故障诊断指令对第一通路进行故障诊断的过程中,X86通过预设的故障处理方案,向ARM发出故障诊断指令对FPGA中出现的故障进行诊断。
故障恢复单元440用于在FPGA中,根据所述ARM对所述第一通路的故障诊断结果对发生故障的逻辑区域进行定位,然后由ARM发出恢复指令并通过第三通路对发生故障的逻辑区域进行复位,以完成对异构系统的故障恢复。
其中,故障恢复单元440进一步包括:故障隔离单元(图中未示出),用于在通过第三通路对发生故障的逻辑区域进行复位的过程中,将发生故障的逻辑区域与未发生故障的逻辑区域进行分隔,实现只对发生故障的逻辑区域进行复位。
具体地,故障恢复单元440通过如下方式完成对异构系统的故障恢复:根据第三通路所反馈的故障类别,通过在ARM中预设恢复方案,并通过第三通路对发生故障的逻辑区域进行复位;或者,通过在X86中预设恢复方案,然后通过第二通路将预设的恢复方案发送给ARM,再由ARM将所发送的恢复方案进行分解,并通过第三通路对发生故障的逻辑区域进行复位。
根据上述实施例可以看出,本发明提供的异构系统的故障诊断、恢复方法及装置,通过利用第三方系统——ARM,能够实现对FPGA与X86之间的通信链路进行备份、以及通过ARM获取的故障诊断信息对故障进行恢复,从而提高异构系统故障的调试能力和稳定运行能力。
如上参照附图以示例的方式描述了根据本发明的异构系统的故障诊断、恢复方法及装置。但是,本领域技术人员应当理解,对于上述本发明所提出的异构系统的故障诊断、恢复方法及装置,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (10)

1.一种异构系统的故障诊断、恢复方法,包括:
在X86与FPGA组成的异构系统中,按照物理位置和逻辑相关性对FPGA进行逻辑区域划分,并在FPGA中预设故障分类判断,对故障进行分类识别;
当作为正常情况下的X86与FPGA之间的通信通路的第一通路出现故障时,X86启用第二通路作为X86与FPGA通信控制的备份链路;其中,X86通过所述第二通路向ARM发出指令,然后再通过ARM实现对FPGA的通信控制;其中,
在X86启用所述第二通路的同时,第三通路根据所划分的逻辑区域向FPGA反馈故障类别,并且X86通过向ARM发出故障诊断指令对所述第一通路进行故障诊断;
在FPGA中,根据所述ARM对所述第一通路的故障诊断结果对发生故障的逻辑区域进行定位,然后由ARM发出恢复指令并通过所述第三通路对发生故障的逻辑区域进行复位,以完成对异构系统的故障恢复。
2.如权利要求1所述的异构系统的故障诊断、恢复方法,其中,在X86通过向ARM发出故障诊断指令对所述第一通路进行故障诊断的过程中,
X86通过预设的故障处理方案,向ARM发出故障诊断指令对FPGA中出现的故障进行诊断。
3.如权利要求1所述的异构系统的故障诊断、恢复方法,其中,根据所述第三通路所反馈的故障类别,通过在ARM中预设恢复方案,并通过第三通路对发生故障的逻辑区域进行复位;或者,
通过在X86中预设恢复方案,然后通过第二通路将预设的恢复方案发送给ARM,再由ARM将所发送的恢复方案进行分解,并通过第三通路对发生故障的逻辑区域进行复位。
4.如权利要求1所述的异构系统的故障诊断、恢复方法,其中,在通过所述第三通路对发生故障的逻辑区域进行复位的过程中,将发生故障的逻辑区域与未发生故障的逻辑区域进行分隔,实现只对发生故障的逻辑区域进行复位。
5.如权利要求1所述的异构系统的故障诊断、恢复方法,其中,在划分的逻辑区域内进一步预设故障分类判断,对故障进行进一步分类识别。
6.一种异构系统的故障诊断、恢复装置,包括:
故障分类单元,用于在X86与FPGA组成的异构系统中,按照物理位置和逻辑相关性对FPGA进行逻辑区域划分,并在FPGA中预设故障分类判断,对故障进行分类识别;
备份链路启用单元,用于当作为正常情况下的X86与FPGA之间的通信通路的第一通路出现故障时,X86启用第二通路作为X86与FPGA通信控制的备份链路;其中,X86通过所述第二通路向ARM发出指令,然后再通过ARM实现对FPGA的通信控制;
故障诊断单元,用于在X86启用所述第二通路的同时,第三通路根据所划分的逻辑区域向FPGA反馈故障类别,并且X86通过向ARM发出故障诊断指令对所述第一通路进行故障诊断;
故障恢复单元,用于在FPGA中,根据所述ARM对所述第一通路的故障诊断结果对发生故障的逻辑区域进行定位,然后由ARM发出恢复指令并通过所述第三通路对发生故障的逻辑区域进行复位,以完成对异构系统的故障恢复。
7.如权利要求6所述的异构系统的故障诊断、恢复装置,其中,所述故障诊断单元对所述第一通路进行故障诊断的过程中,
X86通过预设的故障处理方案,向ARM发出故障诊断指令对FPGA中出现的故障进行诊断。
8.如权利要求6所述的异构系统的故障诊断、恢复装置,其中,所述故障恢复单元通过如下方式完成对异构系统的故障恢复:
根据所述第三通路所反馈的故障类别,通过在ARM中预设恢复方案,并通过第三通路对发生故障的逻辑区域进行复位;或者,
通过在X86中预设恢复方案,然后通过第二通路将预设的恢复方案发送给ARM,再由ARM将所发送的恢复方案进行分解,并通过第三通路对发生故障的逻辑区域进行复位。
9.如权利要求6所述的异构系统的故障诊断、恢复装置,其中,所述故障恢复单元进一步包括:
故障隔离单元,用于在通过所述第三通路对发生故障的逻辑区域进行复位的过程中,将发生故障的逻辑区域与未发生故障的逻辑区域进行分隔,实现只对发生故障的逻辑区域进行复位。
10.如权利要求6所述的异构系统的故障诊断、恢复装置,其中,所述故障分类单元进一步包括:
故障判断单元,用于在划分的逻辑区域内进一步预设故障分类判断,对故障进行进一步分类识别。
CN201310642805.1A 2013-12-02 2013-12-02 异构系统的故障诊断、恢复方法及装置 Active CN103605593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310642805.1A CN103605593B (zh) 2013-12-02 2013-12-02 异构系统的故障诊断、恢复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310642805.1A CN103605593B (zh) 2013-12-02 2013-12-02 异构系统的故障诊断、恢复方法及装置

Publications (2)

Publication Number Publication Date
CN103605593A CN103605593A (zh) 2014-02-26
CN103605593B true CN103605593B (zh) 2016-08-24

Family

ID=50123822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310642805.1A Active CN103605593B (zh) 2013-12-02 2013-12-02 异构系统的故障诊断、恢复方法及装置

Country Status (1)

Country Link
CN (1) CN103605593B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104932960B (zh) * 2015-05-07 2018-05-15 四川九洲空管科技有限责任公司 一种Arinc429通信系统可靠性改进系统及方法
CN111158950A (zh) * 2019-11-28 2020-05-15 中国航空工业集团公司西安航空计算技术研究所 一种嵌入式计算机系统异常复位的定位系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742540A (zh) * 2010-02-05 2010-06-16 华为技术有限公司 在线自诊断的方法及装置
CN102667729A (zh) * 2010-01-15 2012-09-12 株式会社日立制作所 嵌入式装置以及嵌入式系统
CN102750212A (zh) * 2012-06-13 2012-10-24 长园深瑞继保自动化有限公司 嵌入式系统故障诊断方法和设有故障诊断的嵌入式系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5422448B2 (ja) * 2010-03-10 2014-02-19 株式会社東芝 制御装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102667729A (zh) * 2010-01-15 2012-09-12 株式会社日立制作所 嵌入式装置以及嵌入式系统
CN101742540A (zh) * 2010-02-05 2010-06-16 华为技术有限公司 在线自诊断的方法及装置
CN102750212A (zh) * 2012-06-13 2012-10-24 长园深瑞继保自动化有限公司 嵌入式系统故障诊断方法和设有故障诊断的嵌入式系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向进化容错的FPGA故障模型研究;龚健 等;《中国空间科学技术》;20090625;第29卷(第3期);57-63页 *

Also Published As

Publication number Publication date
CN103605593A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN105589776B (zh) 一种故障定位方法及服务器
CN104685830B (zh) 故障管理的方法、实体和系统
US7787388B2 (en) Method of and a system for autonomously identifying which node in a two-node system has failed
CN201909961U (zh) 一种冗余控制系统
CN111414268B (zh) 故障处理方法、装置及服务器
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
CN106598790A (zh) 一种服务器硬件故障检测方法及其装置和服务器
CN107634855A (zh) 一种嵌入式系统的双机热备方法
JP4886601B2 (ja) Usbインタフェース設備に対して操作を行う装置及び方法
CN106936616A (zh) 备份通信方法和装置
CN103138988B (zh) 网络故障的定位处理方法及装置
WO2020143243A1 (zh) 一种应用于列车自动运行系统的双系热备切换方法及系统
CN108155619A (zh) 继电保护装置多核cpu嵌入式系统处理方法和平台
CN107729190B (zh) 一种io路径故障转移处理方法和系统
CN104808572A (zh) 基于功能安全的高完整性plc控制器
CN105760241A (zh) 一种内存数据导出方法和系统
US20030041290A1 (en) Method for monitoring consistent memory contents in redundant systems
CN103605593B (zh) 异构系统的故障诊断、恢复方法及装置
CN106559288A (zh) 一种基于icmp报文的快速故障检测方法
CN109471763A (zh) 抓取NVME硬盘trace的方法、装置、设备及系统
CN103995759A (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN101397020A (zh) 智能采集驱动设备
RU2569576C1 (ru) Управляющий модуль
CN105868038A (zh) 内存错误处理方法及电子设备
CN101964731A (zh) 一种数据链路监测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant