CN105589768A - 一种可自愈的容错计算机系统 - Google Patents
一种可自愈的容错计算机系统 Download PDFInfo
- Publication number
- CN105589768A CN105589768A CN201510908703.9A CN201510908703A CN105589768A CN 105589768 A CN105589768 A CN 105589768A CN 201510908703 A CN201510908703 A CN 201510908703A CN 105589768 A CN105589768 A CN 105589768A
- Authority
- CN
- China
- Prior art keywords
- fault
- node
- tolerant
- self
- healing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/18—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
- G06F11/183—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components
- G06F11/184—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components where the redundant components implement processing functionality
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明提出了一种可自愈的容错计算机系统,包括三个构型相同的容错节点,每个容错节点除具备基本的计算机功能外,同时包括三模冗余的IO接口容错与双处理器的比较监控功能;三个节点同时并行工作,采用高速总线与外部设备交联,节点之间通过高速串行总线实现节点之间的数据交互;节点内部的IO接口数据经过三模冗余的硬件表决后提供给节点内的双处理器,双处理器同时工作,对运算结果进行比较监控。容错节点指具备独立工作能力的计算机。本发明提出了一种可自愈的容错计算机系统,可适应当前再不增加系统余度数的情况下,将可靠性提升1个数量级。
Description
技术领域
本发明属于飞机航空电子系统设计领域,是一种高可靠的机载容错计算机系统。
背景技术
机载计算机系统的容错是利用冗余的元件或者部件来屏蔽已发生故障对系统产生的影响。所以故障容错可定义为:若一个系统在出现运行性故障时,能依靠系统内驻的能力来保持系统连续正确地执行其预定的流程和输入输出功能,这个系统称作故障容错系统。通常容错系统在诊断出某一冗余部件或单元故障后会采剔除该故障部件或该部分功能,实现故障的隔离,这种方式可有效保证系统的可靠运行,避免故障部件的影响。随着技术的不断发展,对系统可靠性、经济性、重量的要求的不断提升,如果通过增加余度提高系统可靠性将会提高系统的复杂度与成本,因此增加余度数量已不符合容错技术发展的要求,通过对容错计算机系统的故障部件进行故障恢复和自愈,可有效提升容错系统的可靠性与可用性,也是当前容错计算机系统技术的发展趋势。
发明内容
为了解决背景技术中所存在的技术问题,本发明提出了一种可自愈的容错计算机系统,可适应当前再不增加系统余度数的情况下,将可靠性提升1个数量级。
本发明的技术解决方案:一种可自愈的容错计算机系统,其特征在于:所述系统包括三个构型相同的容错节点,每个容错节点除具备基本的计算机功能外,同时包括三模冗余的IO接口容错与双处理器的比较监控功能;
三个节点同时并行工作,采用高速总线与外部设备交联,节点之间通过高速串行总线实现节点之间的数据交互;
节点内部的IO接口数据经过三模冗余的硬件表决后提供给节点内的双处理器,双处理器同时工作,对运算结果进行比较监控;
容错节点指具备独立工作能力的计算机。
可自愈的容错计算机系统实现方法,其特征在于:所述方法包括以下步骤:
1)设计自愈系统,建立三模冗余IO控制逻辑,对FPGA内部区域实现细粒度划分,保证自愈时间,即从故障发生到故障恢复小于50ms;
2)根据不同的故障类型进行相应得重构配置;
若为瞬态故障通过重构逻辑对FPGA故障部分进行重构恢复,若为永久故障采用对可重构逻辑器件重新配置的方法,避开产生错误的芯片区域,利用其周边的其他可重构逻辑资源组合替代原本在出错区域上实现的功能;
3)重构系统在重构过程中节点正常工作,利用IO的冗余资源在故障发生到自愈完成,将发生的故障记录到非易失存储中;
4)系统中冗余节点之间的表决出现不一致节点时,冗余节点采用多数表决原则,确定故障节点,进行故障节点的隔离,进行控制逻辑切换;保证执行正确控制指令。
本发明的优点是:
1、本发明采用三节点的容错系统结构,是由三个独立的计算机组成的容错系统。
2、每个节点内部通过FPGA实现计算机三模冗余的接口处理逻辑,可实现对IO接口的节点内故障诊断,同时利用FPGA的动态可重构功能实现故障的重构与恢复。对不可恢复的硬件故障通过余度降级实现节点的一次故障工作。
3、节点内处理器配置为双核处理器(一个命令处理器,一个监控处理器),保证节点内数据的完整可信。
附图说明
图1是本发明系统结构示意图;
图2是本发明自愈过程示意图;
图3是本发明节点间与节点内故障逻辑转换图;
具体实施方式
下面对本发明做进一步详细说明。
参见图1,本发明的可自愈容错计算机系统主要由三个同构型容错节点组成,每个节点内部由三模冗余的IO接口与双处理器构成,物理上系统包含3台相同的容错节点。3个节点同时并行工作,采用高速容错总线与外部设备交联,节点之间通过高速串行总线实现节点之间的数据交互(CCDL),节点内部的IO接口数据要经过三模冗余的硬件表决后提供给节点内的双处理器,双处理器同时工作,对运算结果进行比较监控,无故障时由主处理器参与节点之间的表决与监控,实现对应用系统的控制。当任何一个节点内的IO出现故障时,对故障的IO进行自愈重构,重构成功后实现恢复,处理器监控出现故障时,利用其他节点的数据信息定位故障处理器,并进行隔离,此时不降级容错节点。其特征在于:
计算机系统采用三节点容错结构,每个节点具备内部为三模冗余的IO和双处理器保证节点信息的完整可靠;
利用FPGA的动态重构、局部重构并不影响其它电路的功能。设计建立故障自愈(self-healing)系统,故障自愈通过故障检测、修复/缓解故障,恢复系统故障前状态等任务,硬件故障检测可通过三模冗余IO接口,硬件自监测发现,故障修复通过重构或复位实现。见图2。
设计专门的自愈系统,建立三模冗余IO控制逻辑,对FPGA内部区域实现细粒度划分,保证自愈时间(从故障发生到故障恢复)小于50ms;
根据不同的故障类型进行相应得故障配置,若为粒子辐射故障通过重构逻辑对FPGA故障部分进行重构恢复,若为永久故障采用对可重构逻辑器件重新配置的方法,避开产生错误的芯片区域,利用其周边的其他可重构逻辑资源组合替代原本在出错区域上实现的功能。
重构系统在重构过程中节点正常工作,利用IO的冗余资源在故障发生到自愈完成,对系统的正常工作不产生影响,仅将发生的故障记录到非易失存储中。
系统中各节点之间的表决出现永久故障后,节点采用多数表决原则,确定故障节点,进行故障节点的隔离,进行控制逻辑切换,保证执行正确控制指令。节点间与节点内故障逻辑转换见图3。
Claims (2)
1.一种可自愈的容错计算机系统,其特征在于:所述系统包括三个构型相同的容错节点,每个容错节点除具备基本的计算机功能外,同时包括三模冗余的IO接口容错与双处理器的比较监控功能;
三个节点同时并行工作,采用高速总线与外部设备交联,节点之间通过高速串行总线实现节点之间的数据交互;
节点内部的IO接口数据经过三模冗余的硬件表决后提供给节点内的双处理器,双处理器同时工作,对运算结果进行比较监控;
容错节点指具备独立工作能力的计算机。
2.可自愈的容错计算机系统实现方法,其特征在于:所述方法包括以下步骤:
1)设计自愈系统,建立三模冗余IO控制逻辑,对FPGA内部区域实现细粒度划分,保证自愈时间,即从故障发生到故障恢复小于50ms;
2)根据不同的故障类型进行相应得重构配置;
若为瞬态故障通过重构逻辑对FPGA故障部分进行重构恢复,若为永久故障采用对可重构逻辑器件重新配置的方法,避开产生错误的芯片区域,利用其周边的其他可重构逻辑资源组合替代原本在出错区域上实现的功能;
3)重构系统在重构过程中节点正常工作,利用IO的冗余资源在故障发生到自愈完成,将发生的故障记录到非易失存储中;
4)系统中冗余节点之间的表决出现不一致节点时,冗余节点采用多数表决原则,确定故障节点,进行故障节点的隔离,进行控制逻辑切换;保证执行正确控制指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510908703.9A CN105589768B (zh) | 2015-12-09 | 2015-12-09 | 一种可自愈的容错计算机系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510908703.9A CN105589768B (zh) | 2015-12-09 | 2015-12-09 | 一种可自愈的容错计算机系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105589768A true CN105589768A (zh) | 2016-05-18 |
CN105589768B CN105589768B (zh) | 2019-05-28 |
Family
ID=55929367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510908703.9A Active CN105589768B (zh) | 2015-12-09 | 2015-12-09 | 一种可自愈的容错计算机系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105589768B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109900491A (zh) * | 2017-12-11 | 2019-06-18 | 通用汽车环球科技运作有限责任公司 | 使用冗余处理器架构通过参数数据进行诊断故障检测的系统、方法和装置 |
CN113032329A (zh) * | 2021-05-21 | 2021-06-25 | 千芯半导体科技(北京)有限公司 | 基于可重构存算芯片的计算结构、硬件架构及计算方法 |
US11888682B2 (en) | 2019-06-13 | 2024-01-30 | Samsung Electronics Co., Ltd. | Automated system for healing faulty node in a network and method thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103346862A (zh) * | 2013-07-01 | 2013-10-09 | 中南大学 | 一种分级保护的片上网络数据传输装置及方法 |
US20140239923A1 (en) * | 2013-02-27 | 2014-08-28 | General Electric Company | Methods and systems for current output mode configuration of universal input-output modules |
CN105045672A (zh) * | 2015-07-24 | 2015-11-11 | 哈尔滨工业大学 | 一种基于sram fpga的多级容错加固卫星信息处理系统 |
-
2015
- 2015-12-09 CN CN201510908703.9A patent/CN105589768B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140239923A1 (en) * | 2013-02-27 | 2014-08-28 | General Electric Company | Methods and systems for current output mode configuration of universal input-output modules |
CN103346862A (zh) * | 2013-07-01 | 2013-10-09 | 中南大学 | 一种分级保护的片上网络数据传输装置及方法 |
CN105045672A (zh) * | 2015-07-24 | 2015-11-11 | 哈尔滨工业大学 | 一种基于sram fpga的多级容错加固卫星信息处理系统 |
Non-Patent Citations (1)
Title |
---|
徐文芳等: "三模冗余容错系统管理板", 《清华大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109900491A (zh) * | 2017-12-11 | 2019-06-18 | 通用汽车环球科技运作有限责任公司 | 使用冗余处理器架构通过参数数据进行诊断故障检测的系统、方法和装置 |
CN109900491B (zh) * | 2017-12-11 | 2021-05-11 | 通用汽车环球科技运作有限责任公司 | 使用冗余处理器架构通过参数数据进行诊断故障检测的系统、方法和装置 |
US11888682B2 (en) | 2019-06-13 | 2024-01-30 | Samsung Electronics Co., Ltd. | Automated system for healing faulty node in a network and method thereof |
CN113032329A (zh) * | 2021-05-21 | 2021-06-25 | 千芯半导体科技(北京)有限公司 | 基于可重构存算芯片的计算结构、硬件架构及计算方法 |
CN113032329B (zh) * | 2021-05-21 | 2021-09-14 | 千芯半导体科技(北京)有限公司 | 基于可重构存算芯片的计算结构、硬件架构及计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105589768B (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107347018B (zh) | 一种三冗余1553b总线动态切换方法 | |
Avizienis | Toward systematic design of fault-tolerant systems | |
CN105550053A (zh) | 一种提升可用性的监控对容错系统余度管理方法 | |
EP2013733B1 (en) | Error filtering in fault tolerant computing systems | |
CN104731670B (zh) | 一种面向卫星的轮换式星载计算机容错系统 | |
CN110351174B (zh) | 一种模块冗余的安全计算机平台 | |
Wensley | Sift: software implemented fault tolerance | |
CN104731668B (zh) | Fpga三模冗余架构的故障管理与恢复控制器及其控制方法 | |
CN103544092A (zh) | 一种基于arinc653标准机载电子设备健康监控体系 | |
US20120210172A1 (en) | Multiprocessor switch with selective pairing | |
CN105589768A (zh) | 一种可自愈的容错计算机系统 | |
CN110293999B (zh) | 一种安全型lkj制动控制方式 | |
US9952579B2 (en) | Control device | |
CN101794241A (zh) | 基于可编程逻辑器件三冗余容错计算机上电复位的电路 | |
CN101788940A (zh) | 基于可编程逻辑器件2x2冗余容错计算机上电复位的电路 | |
Depledge | Fault-tolerant computer systems | |
CN101699389B (zh) | 磁盘热拔除的处理方法及装置 | |
CN108009047B (zh) | 一种双机热备模型及实现方法 | |
CN115328706A (zh) | 双cpu冗余架构综合控制方法及系统 | |
CN102339246B (zh) | 基于热备份的星载电子系统及热备份方法 | |
CN103631668A (zh) | 一种适用于空间应用多机系统优先链表决装置 | |
CN113312094A (zh) | 一种多核处理器应用系统及提高其可靠性的方法 | |
Thompson | Transputer-based fault tolerance in safety-critical systems | |
CN112131088B (zh) | 一种基于健康检查和容器的高可用方法 | |
EP4361817A1 (en) | 2*2oo2 security system based on cloud platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |