CN105589768B - 一种可自愈的容错计算机系统 - Google Patents

一种可自愈的容错计算机系统 Download PDF

Info

Publication number
CN105589768B
CN105589768B CN201510908703.9A CN201510908703A CN105589768B CN 105589768 B CN105589768 B CN 105589768B CN 201510908703 A CN201510908703 A CN 201510908703A CN 105589768 B CN105589768 B CN 105589768B
Authority
CN
China
Prior art keywords
node
fault
tolerant
self
healing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510908703.9A
Other languages
English (en)
Other versions
CN105589768A (zh
Inventor
马小博
林坚
解文涛
段小虎
夏德天
陈益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN201510908703.9A priority Critical patent/CN105589768B/zh
Publication of CN105589768A publication Critical patent/CN105589768A/zh
Application granted granted Critical
Publication of CN105589768B publication Critical patent/CN105589768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/183Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components
    • G06F11/184Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components where the redundant components implement processing functionality

Abstract

本发明提出了一种可自愈的容错计算机系统,包括三个构型相同的容错节点,每个容错节点除具备基本的计算机功能外,同时包括三模冗余的IO接口容错与双处理器的比较监控功能;三个节点同时并行工作,采用高速总线与外部设备交联,节点之间通过高速串行总线实现节点之间的数据交互;节点内部的IO接口数据经过三模冗余的硬件表决后提供给节点内的双处理器,双处理器同时工作,对运算结果进行比较监控。容错节点指具备独立工作能力的计算机。本发明提出了一种可自愈的容错计算机系统,可适应当前再不增加系统余度数的情况下,将可靠性提升1个数量级。

Description

一种可自愈的容错计算机系统
技术领域
本发明属于飞机航空电子系统设计领域,是一种高可靠的机载容错计算机系统。
背景技术
机载计算机系统的容错是利用冗余的元件或者部件来屏蔽已发生故障对系统产生的影响。所以故障容错可定义为:若一个系统在出现运行性故障时,能依靠系统内驻的能力来保持系统连续正确地执行其预定的流程和输入输出功能,这个系统称作故障容错系统。通常容错系统在诊断出某一冗余部件或单元故障后会采剔除该故障部件或该部分功能,实现故障的隔离,这种方式可有效保证系统的可靠运行,避免故障部件的影响。随着技术的不断发展,对系统可靠性、经济性、重量的要求的不断提升,如果通过增加余度提高系统可靠性将会提高系统的复杂度与成本,因此增加余度数量已不符合容错技术发展的要求,通过对容错计算机系统的故障部件进行故障恢复和自愈,可有效提升容错系统的可靠性与可用性,也是当前容错计算机系统技术的发展趋势。
发明内容
为了解决背景技术中所存在的技术问题,本发明提出了一种可自愈的容错计算机系统,可适应当前再不增加系统余度数的情况下,将可靠性提升1个数量级。
本发明的技术解决方案:一种可自愈的容错计算机系统,其特征在于:所述系统包括三个构型相同的容错节点,每个容错节点除具备基本的计算机功能外,同时包括三模冗余的IO接口容错与双处理器的比较监控功能;
三个节点同时并行工作,采用高速总线与外部设备交联,节点之间通过高速串行总线实现节点之间的数据交互;
节点内部的IO接口数据经过三模冗余的硬件表决后提供给节点内的双处理器,双处理器同时工作,对运算结果进行比较监控;
容错节点指具备独立工作能力的计算机。
可自愈的容错计算机系统实现方法,其特征在于:所述方法包括以下步骤:
1)设计自愈系统,建立三模冗余IO控制逻辑,对FPGA内部区域实现细粒度划分,保证自愈时间,即从故障发生到故障恢复小于50ms;
2)根据不同的故障类型进行相应得重构配置;
若为瞬态故障通过重构逻辑对FPGA故障部分进行重构恢复,若为永久故障采用对可重构逻辑器件重新配置的方法,避开产生错误的芯片区域,利用其周边的其他可重构逻辑资源组合替代原本在出错区域上实现的功能;
3)重构系统在重构过程中节点正常工作,利用IO的冗余资源在故障发生到自愈完成,将发生的故障记录到非易失存储中;
4)系统中冗余节点之间的表决出现不一致节点时,冗余节点采用多数表决原则,确定故障节点,进行故障节点的隔离,进行控制逻辑切换;保证执行正确控制指令。
本发明的优点是:
1、本发明采用三节点的容错系统结构,是由三个独立的计算机组成的容错系统。
2、每个节点内部通过FPGA实现计算机三模冗余的接口处理逻辑,可实现对IO接口的节点内故障诊断,同时利用FPGA的动态可重构功能实现故障的重构与恢复。对不可恢复的硬件故障通过余度降级实现节点的一次故障工作。
3、节点内处理器配置为双核处理器(一个命令处理器,一个监控处理器),保证节点内数据的完整可信。
附图说明
图1是本发明系统结构示意图;
图2是本发明自愈过程示意图;
图3是本发明节点间与节点内故障逻辑转换图;
具体实施方式
下面对本发明做进一步详细说明。
参见图1,本发明的可自愈容错计算机系统主要由三个同构型容错节点组成,每个节点内部由三模冗余的IO接口与双处理器构成,物理上系统包含3台相同的容错节点。3个节点同时并行工作,采用高速容错总线与外部设备交联,节点之间通过高速串行总线实现节点之间的数据交互(CCDL),节点内部的IO接口数据要经过三模冗余的硬件表决后提供给节点内的双处理器,双处理器同时工作,对运算结果进行比较监控,无故障时由主处理器参与节点之间的表决与监控,实现对应用系统的控制。当任何一个节点内的IO出现故障时,对故障的IO进行自愈重构,重构成功后实现恢复,处理器监控出现故障时,利用其他节点的数据信息定位故障处理器,并进行隔离,此时不降级容错节点。其特征在于:
计算机系统采用三节点容错结构,每个节点具备内部为三模冗余的IO和双处理器保证节点信息的完整可靠;
利用FPGA的动态重构、局部重构并不影响其它电路的功能。设计建立故障自愈(self-healing)系统,故障自愈通过故障检测、修复/缓解故障,恢复系统故障前状态等任务,硬件故障检测可通过三模冗余IO接口,硬件自监测发现,故障修复通过重构或复位实现。见图2.
设计专门的自愈系统,建立三模冗余IO控制逻辑,对FPGA内部区域实现细粒度划分,保证自愈时间(从故障发生到故障恢复)小于50ms;
根据不同的故障类型进行相应得故障配置,若为粒子辐射故障通过重构逻辑对FPGA故障部分进行重构恢复,若为永久故障采用对可重构逻辑器件重新配置的方法,避开产生错误的芯片区域,利用其周边的其他可重构逻辑资源组合替代原本在出错区域上实现的功能。
重构系统在重构过程中节点正常工作,利用IO的冗余资源在故障发生到自愈完成,对系统的正常工作不产生影响,仅将发生的故障记录到非易失存储中。
系统中各节点之间的表决出现永久故障后,节点采用多数表决原则,确定故障节点,进行故障节点的隔离,进行控制逻辑切换,保证执行正确控制指令。节点间与节点内故障逻辑转换见图3。

Claims (2)

1.一种可自愈的容错计算机系统,其特征在于:所述系统包括三个构型相同的容错节点,容错节点指具备独立工作能力的计算机,每个容错节点内处理器配置为双核处理器,其中一个为命令处理器,另一个为监控处理器;每个容错节点内部通过FPGA实现计算机三模冗余的接口处理逻辑,可实现对IO接口的节点内故障诊断,同时利用FPGA的动态可重构功能实现故障的重构与恢复,使得每个容错节点除具备基本的计算机功能外,同时包括三模冗余的IO接口容错与双处理器的比较监控功能;
三个节点同时并行工作,采用高速总线与外部设备交联,节点之间通过高速串行总线实现节点之间的数据交互;
节点内部的IO接口数据经过三模冗余的硬件表决后提供给节点内的双处理器,双处理器同时工作,对运算结果进行比较监控。
2.权利要求1所述可自愈的容错计算机系统的实现方法,其特征在于:包括以下步骤:
1)建立三个构型相同的容错节点,每个容错节点内部通过FPGA实现计算机三模冗余的接口处理逻辑,对FPGA内部区域实现细粒度划分,保证自愈时间,即从故障发生到故障恢复小于50ms;
2)根据不同的故障类型进行相应得重构配置;
若为瞬态故障通过重构逻辑对FPGA故障部分进行重构恢复,若为永久故障采用对可重构逻辑器件重新配置的方法,避开产生错误的芯片区域,利用其周边的其他可重构逻辑资源组合替代原本在出错区域上实现的功能;
3)重构系统在重构过程中节点正常工作,利用IO的冗余资源在故障发生到自愈完成,将发生的故障记录到非易失存储中;
4)系统中容错节点之间的表决出现不一致节点时,容错节点采用多数表决原则,确定故障节点,进行故障节点的隔离,进行控制逻辑切换;保证执行正确控制指令。
CN201510908703.9A 2015-12-09 2015-12-09 一种可自愈的容错计算机系统 Active CN105589768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510908703.9A CN105589768B (zh) 2015-12-09 2015-12-09 一种可自愈的容错计算机系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510908703.9A CN105589768B (zh) 2015-12-09 2015-12-09 一种可自愈的容错计算机系统

Publications (2)

Publication Number Publication Date
CN105589768A CN105589768A (zh) 2016-05-18
CN105589768B true CN105589768B (zh) 2019-05-28

Family

ID=55929367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510908703.9A Active CN105589768B (zh) 2015-12-09 2015-12-09 一种可自愈的容错计算机系统

Country Status (1)

Country Link
CN (1) CN105589768B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10672206B2 (en) * 2017-12-11 2020-06-02 GM Global Technology Operations LLC Systems, methods and apparatuses for diagnostic fault detection by parameter data using a redundant processor architecture
WO2020251155A1 (en) 2019-06-13 2020-12-17 Samsung Electronics Co., Ltd. An automated system for healing faulty node in a network and method thereof
CN113032329B (zh) * 2021-05-21 2021-09-14 千芯半导体科技(北京)有限公司 基于可重构存算芯片的计算结构、硬件架构及计算方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9116531B2 (en) * 2013-02-27 2015-08-25 General Electric Company Methods and systems for current output mode configuration of universal input-output modules
CN103346862B (zh) * 2013-07-01 2016-01-27 中南大学 一种分级保护的片上网络数据传输装置及方法
CN105045672B (zh) * 2015-07-24 2018-07-06 哈尔滨工业大学 一种基于sram fpga的多级容错加固卫星信息处理系统

Also Published As

Publication number Publication date
CN105589768A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
Avizienis Toward systematic design of fault-tolerant systems
CN107347018B (zh) 一种三冗余1553b总线动态切换方法
CN104731670B (zh) 一种面向卫星的轮换式星载计算机容错系统
US8930752B2 (en) Scheduler for multiprocessor system switch with selective pairing
US8671311B2 (en) Multiprocessor switch with selective pairing
Mikhail et al. Increasing SCADA system availability by fault tolerance techniques
CN105589768B (zh) 一种可自愈的容错计算机系统
CN105550053A (zh) 一种提升可用性的监控对容错系统余度管理方法
CN103235591B (zh) 一种基于硬、软件故障注入相结合的在线故障注入方法
CN103853622A (zh) 一种互为备份的双余度控制方法
WO2019076036A1 (zh) 一种基于冗余以太网的安全计算机系统
CN109634171A (zh) 双核双锁步二取二架构及其安全平台
CN101794241A (zh) 基于可编程逻辑器件三冗余容错计算机上电复位的电路
Missimer et al. Distributed real-time fault tolerance on a virtualized multi-core system
CN101788940A (zh) 基于可编程逻辑器件2x2冗余容错计算机上电复位的电路
Depledge Fault-tolerant computer systems
Shernta et al. Using triple modular redundant (tmr) technique in critical systems operation
Fayyaz et al. Adaptive middleware design for satellite fault-tolerant distributed computing
Dumitriu et al. Decentralized run-time recovery mechanism for transient and permanent hardware faults for space-borne FPGA-based computing systems
Ramos et al. High-performance, dependable multiprocessor
CN103631668A (zh) 一种适用于空间应用多机系统优先链表决装置
Prager et al. A fault tolerant signal processing computer
CN101799782A (zh) 一种基于可编程器件的冗余容错计算机数据表决电路
CN101788941A (zh) 一种基于可编程器件的冗余容错计算机数据同步电路
Su et al. An overview of fault-tolerant digital system architecture

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant