CN101576836B - 一种可降级的三机冗余容错系统 - Google Patents

一种可降级的三机冗余容错系统 Download PDF

Info

Publication number
CN101576836B
CN101576836B CN200910086598XA CN200910086598A CN101576836B CN 101576836 B CN101576836 B CN 101576836B CN 200910086598X A CN200910086598X A CN 200910086598XA CN 200910086598 A CN200910086598 A CN 200910086598A CN 101576836 B CN101576836 B CN 101576836B
Authority
CN
China
Prior art keywords
machine
unit
work
module
machines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910086598XA
Other languages
English (en)
Other versions
CN101576836A (zh
Inventor
徐利杰
王青
董朝阳
陈威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN200910086598XA priority Critical patent/CN101576836B/zh
Publication of CN101576836A publication Critical patent/CN101576836A/zh
Application granted granted Critical
Publication of CN101576836B publication Critical patent/CN101576836B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

一种可降级的三机冗余容错系统由A机、B机和C机三个结构相同的单机、公共存储器、仲裁切换单元及三机的输出驱动器组成;A机、B机和C机通过读写公共存储器内的单机输出结果实现三机间处理结果的交换,从而进行三机表决;此外,A机、B机和C机还能通过读写公共存储器内的进程信息实现三机或双机的同步;A机、B机、C机之间互相连接,彼此都能读取对方当前是否正常工作的状态信息;A机、B机、C机还与仲裁切换单元连接,向仲裁切换单元提供自身状态信息,由仲裁切换单元协调进行三机工作/双机工作/单机工作的冗余降级以及单机工作/双机工作/三机工作的冗余系统重构,仲裁切换单元还连接于三个的输出驱动器,决定A机、B机和C机对输出线的使用权,对于正常工作的三机,输出具有优先级顺序依次为A机-B机-C机。本发明具有高可靠性和长寿命的优点。

Description

一种可降级的三机冗余容错系统
技术领域
本发明涉及基于嵌入式的三机冗余备份技术,具体涉及一种可降级的三机冗余容错系统。
背景技术
航空航天等领域的某些关键场合要求其子系统具备高可用性的同时还要求有很长的工作寿命比如温度控制系统,对这些应用而言,任何因控制系统故障所造成的损失都是无法承受的。传统的采用双机冗余的控制系统存在以下不足:如双机热备份,虽然能减少单机故障时主备机之间的切换时间,但是系统工作寿命会明显下降;双机冷备份或温备份,虽然能获得较长的工作寿命,但是单机故障时系统恢复的时间相对较长,且以上两种方案均不能达到深空探测等项目所要求的可靠性和工作寿命。而传统的采用三机冗余的系统通过表决的方法只能达到容许一个单机永久性故障的要求,对于航天应用中的一些突发情况可能导致的双机同时故障没有应对能力,其容错能力和寿命均受局限。
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种具有高可靠性和长寿命的可降级的三机冗余容错系统。
本发明的技术解决方案:一种可降级的三机冗余容错系统,由A机、B机和C机三个结构相同的单机、公共存储器、仲裁切换单元及三机的输出驱动器组成;A机、B机和C机通过读写公共存储器内的单机输出结果实现三机间处理结果的交换,从而进行三机表决;此外,A机、B机和C机还能通过读写公共存储器内的进程信息实现三机或双机的同步;A机、B机、C机之间互相连接,彼此都能读取对方当前是否正常工作的状态信息;A机、B机、C机还与仲裁切换单元连接,向仲裁切换单元提供自身状态信息,由仲裁切换单元协调进行三机工作/双机工作/单机工作的冗余降级以及单机工作/双机工作/三机工作的冗余系统重构,仲裁切换单元还连接于三个的输出驱动器,决定A机、B机和C机对输出线的使用权,对于正常工作的三机,输出具有优先级顺序依次为A机-B机-C机。
公共存储器为三口RAM,包含三个单机处理结果存储区和进程信息存储区两部分,A机、B机和C机在处理结果存储区和进程信息存储区内有相对独立的存储空间,处理结果存储区用于存储单机的处理结果,进程信息存储区用于存储单机的状态信息。
单机的硬件单元包括CPU模块、供配电模块、数据采集模块、存储模块、输出模块和数据接口模块;软件模块包括:脉冲检测模块、表决器、自检测模块。供配电模块主要作用是在仲裁切换单元的控制下完成单机重启或永久断电将单机切出的操作。存储模块存储待执行的程序和CPU模块处理结果。数据采集模块负责将输入数据转换为数字量输入给CPU。输出模块的作用为将CPU模块的输出转化为所需的输出信号类型。数据接口模块实现CUP模块与公共存储器及容错冗余控制器的数据交换。脉冲检测模块的作用是检测来自仲裁切换单元发出的采样脉冲信号,作为CPU模块一个采样处理周期的开始;表决器采用三取二多数表决方式,表决器模块执行本机输出结果和表决器结果比对的任务;CPU模块首先采集输入数据并进行运算等处理,处理完后将结果存入公共存储器内的单机处理结果存储区,同时完成对公共存储器的处理结果存储区和输出驱动器的输出端口的自检,仅当公共存储器的处理结果存储区和输出驱动器的输出端口自检结果均正常时,CPU模块才认为单机自检通过,并向仲裁切换单元发出心跳信号。
对公共存储器的处理结果存储区的自检方法为:在单机执行完存储处理结果后,CPU模块通过总线读出存储在公共存储器中处理结果存储区内的处理结果,然后与CPU模块缓冲区内的处理结果进行比对,如果一致则表示检测结果正常,否则检测结果异常。
对输出驱动器的输出端口的自检方法为:CPU模块通过I/O线向输出驱动器发送一位数字量,在驱动器一端的I/O线设置一个回送机构,将发送的数据位回送给CPU模块,CPU模块对发出的数据和接收到的数据进行比对,如果二者一致则表明单机与输出驱动器之间的连接完好,否则认为单机与输出驱动器之间的连接存在故障。
表决器采用冗余设计,确保在单机中的一个表决器故障时,系统仍能进行正常的三机表决。
仲裁切换单元包括时钟模块、容错冗余控制器、优先级控制器;时钟模块为三个单机中的CPU时钟与容错冗余控制器提供时钟信号,从而实现全局时钟同步,同时时钟模块还向三个单机发送采样脉冲信号;优先级控制器与容错冗余控制器相连接,并读取容错冗余控制器内的三个单机输出允许信号;容错冗余控制器为整个冗余容错系统的核心,它与三个单机进行交互,对单机的输出结果连续错误、连续重启进行计数,还对单机自检输出的心跳信号进行监测,经过逻辑判断对单机的供配电单元发出重启指令以及永久性切出指令。
本发明与现有技术相比的优点在于:
(1)采用具有优先级的可降级和重构的三机容错冗余技术,相对于传统的三机冗余控制系统,本发明中的冗余容错系统采用了一种通过软硬件结合的自身具有容错功能的单机系统,避免了系统中的单点故障,此冗余容错系统允许有两个单机同时出现暂歇性故障或是永久性故障,因此与传统的三机容错冗余系统相比大大提高了系统的可靠性,此系统可以进行三机工作/双机工作/单机工作降级,并且在一定条件下可以进行单机工作/双机工作/三机工作重构,使系统具有较长的可靠工作寿命。
(2)本发明采用外部的三口RAM作为系统三个单机的程序进程信息和处理器结果的公共存储区,通过这种方式减少了三个单机之间互联,加强了各个单机的独立性,减小了关联故障发生的可能性,采用读进程信息进行同步的方式与传统的双缓冲和三缓冲方式相比使系统具有实时性更强、不间断工作的优点。
(3)本发明中采用了软硬件相结合的自检方法实现了对公共模块读写和输出线路的检测,使系统整体的可靠性得到提升。
(4)本发明单机中的表决器采用冗余设计,确保了在单机中的一个表决器故障时,系统仍能进行正常的三机表决,进一步提高了系统的可靠性。
(5)此外,本发明采用商用领域已经应用成熟的FPGA芯片以及硬件编成技术来实现系统的容错控制器,单部件的可靠性很高,并且使整个容错冗余系统的设计和实现变得更加方便可行。
附图说明
图1为本发明可降级的三机冗余容错系统的组成示意图;
图2为本发明的单机中各模块的组成示意图;
图3为本发明中公共存储器的自检方法示意图;
图4为本发明中输出端口自检方法示意图;
图5为本发明的仲裁模块中优先级控制器逻辑电路图;
图6为本发明的系统工作状态转换图。
具体实施方式
如图1所示,本发明包括A机100,B机200,C机300,仲裁切换单元400,公共存储500,三个单机的输出驱动器600。
如图1、2所示,A机100,B机200,C机300中单机均具有相同的结构。以A机为例:A机100硬件结构包含:CPU模块101、供配电模块102、存储模块103、数据采集模块104、输出模块105和数据接口模块106;软件模块包含:自检测模块107、表决器108和脉冲检测单元109。供配电模块102主要作用是在仲裁切换单元400的控制下完成单机重启或永久断电将单机切出的操作。存储模块103包含程序存储区和数据存储区两个部分。数据采集模块104可根据输入数据的实际类型进行设计,如果输入为模拟量则对输入信号进行A/D转换,然后输入给CPU模块,如果输入为数字量则可以将数据直接输入给CPU模块101。输出模块105的作用为将CPU模块101的输出转化为所需的输出信号类型。数据接口模块106主要实现CPU模块101与公共存储器500的数据交换和CPU模块101与容错冗余控制器402的数据交换。脉冲检测模块109的作用是检测来自仲裁切换单元400的时钟模块401发出的采样脉冲信号,以该采样脉冲信号用于作为CPU模块101一个采样处理周期T的开始;表决器108通过软件实现,采用的是三取二多数表决方式,此处的表决器还执行本机输出结果和表决器结果比对的任务;CPU模块101对采信后的输入数据进行处理,处理完后将结果存入公共存储器内的处理器结果存储区,同时完成对公共存储器的处理结果存储区和输出驱动器的输出端口的自检。对公共存储器的处理结果存储区自检的方法如图3所示,在CPU模块101执行完存储处理结果后,CPU模块101通过总线读出存储在公共存储器500内处理器结果存储区中的处理器结果,然后与CPU模块101缓冲区内的处理结果进行比对,如果一致则表示检测结果正常,否则检测结果异常。对输出驱动器600的输出端口的自检方法如图4所示:CPU模块101通过I/O线向输出驱动器600发送一位数字量,在输出驱动器600一端的I/O线设置一个回送机构,将发送的数据位回送给CPU模块101,CPU模块101对发出的和接收到的数据进行比对,如果二者一致则表明A机100与输出驱动器600之间的连接完好,否则A机100与输出驱动器600之间的连接存在一定故障。当且仅当公共存储区检测和输出端口检测结果均正常时,CPU模块101才会向仲裁切换单元400发出心跳信号。
如图1、5所示,仲裁切换单元400采用可编程器件FPGA,其功能模块包括:时钟模块401、容错冗余控制器402、优先级控制器403。优先级控制器403与容错冗余控制器402相连接,并读取容错冗余控制器402内的输出允许信号OA、OB和OC。时钟模块401内包含晶振、计数器、译码器,A机、B机和C机的CPU时钟与容错冗余控制器402内的看门狗时钟共用时钟模块内晶振产生的脉冲信号,实现全局时钟同步。通过设定时钟模块401内的计数器的值,可以实现定时向A机、B机、C机发送周期为T的采样脉冲信号。容错冗余控制器402是整个冗余容错系统的核心,它的主要功能是与三机进行交互,对单机的输出结果连续错误、连续重启等进行计数,还对单机自检模块的心跳信号进行监测,经过逻辑判断对单机的供配电单元发出重启指令以及永久性切出指令。其具体实现方法为内部设有四组标志位寄存器和两组计数器以及三个看门狗电路。四组标志位分别是:允许重启标志RA、RB、RC,记录当前是否处于重启状态,RX=1(此处X代表A、B或C,以下同)表示允许单机因为仲裁切换单元连续三个处理周期未接受到心跳信号而对单机发送重启指令,RX=0时,不允许单机因为仲裁切换单元连续三个处理周期未接受到心跳信号而对单机发送重启指令,设置允许重启标志可以防止某一单机由于处于重启状态使得仲裁切换单元连续三个处理周期接收不到心跳信号而对单机重复发送重启指令;单机是否切出标志WEA、WEB、WEC,WEX=1表示单机还处于系统中,包括正常工作和重启两个状态,WEX=0表示单机永久性的切出;单机自检完成标志SA、SB、SC,记录单机是否正常执行了数据处理和自检,当SX=1时表示单机正常执行了数据处理和自检,否则默认SX=0,值不变;单机输出允许标志OA、OB、OC,记录单机是否允许输出,OX=1表示允许该单机处理器结果作为输出,OX=0表示不允许该单机处理器结果作为输出,这组标志位由优先级控制器403读取并进行逻辑判断。两组组计数器分别为:三机表决过程中单机输出结果错误计数器EA、EB、EC,当EX大于单机输出结果错误最大允许次数EXmax值时容错冗余控制器会向单机发送重启指令;连续重启次数计数器CQA、CQB、CQC,当单机连续重启次数CQX大于给定值CQXmax时,冗余切换单元会向单机加断电单元发送永久性断电切出指令。看门狗电路设定为在三个周期内未收到单机自检模块发出的心跳信号时就会向单机发送一个重启请求信号RQX=1,当RX=1时系统执行重启动作,当RX=0时该重启请求被屏蔽。优先级控制器403在每个CPU处理周期内读取三机的输出允许信号OA、OB、OC,通过逻辑运算向输出驱动器600发送使能信号ENA、ENB、ENC,优先级控制器判断逻辑电路如图5所示。
如图5所示,优先级控制器判断逻辑电路中OA、OB、OC为三机的输出允许信号,值为1表示允许,值为0时表示不允许当前CPU的处理结果作为输出。ENA、ENB、ENC分别为三机CPU I/O线相连接的输出控制器的输出使能信号,ENX=1时表示CPUXI/O线上的数据输出给外部的作动器。优先级控制器的判断逻辑表达式为:ENA=OA,ENB=OA·OB,ENC=OA·OB·OC,这种逻辑所决定的系统输出顺序优先级为A机-B机-C机。
优先级控制器逻辑真值表
  OA   OB   OC   ENA   ENB   ENC
  1   1   1   1   0   0
  1   1   0   1   0   0
  1   0   1   1   0   0
  0   1   1   0   1   0
  1   0   0   1   0   0
  0   1   0   0   1   0
  0   0   1   0   0   1
ENA=OA
ENB=OA·OB
ENC=OA·OB·OC
ENA、ENB、ENC分别为三个输出控制器的输出时能信号,确保任何一个CPU周期内只能有一个单机对系统具有输出线使用权。
如图1所示,公共存储器500采用的是三口RAM,支持三机处理器同时对它进行读写操作,包含三个单机处理结果存储区和进程信息存储区两部分,A机、B机和C机在处理结果存储区和进程信息存储区内有相对独立的存储空间,处理结果存储区用于存储单机的处理结果,进程信息存储区用于存储单机的状态信息。在系统上电初始化的时候,在处理器数据存储区和进程信息存储区内为三机分配独立的存储地址空间。存储地址空间分配信息为三机所共有,从而保证了任何一个单机均能正确地读取另外两个单机的处理器输出结果以及相应的进程信息。
如图1所示,输出驱动器600的输入端为三机的I/O输入和使能端输入,输出端具有三态输出、输出保持能力,通过对三机的I/O输入信号进行功率放大来控制执行机构(如继电器)的动作,同时可接优先级控制器的输出来控制输出驱动器的输出状态(高电平输出、低电平输出和高阻输出),这种方法解决了总线争用问题以及输出干扰问题。
如图6所示,本发明中单机(A机、B机或C机,三机的软件工作流程一致)的软件工作流程图,在整个系统初始化上电阶段单机状态信号为SA=1,SB=1,SC=1,单机读取状态信息,如果SA=1则读取A机对应的进程信息,否则如果SB=1则读取B机对应的进程信息,再否则如果SC=1则读取C机对应的进程信息。同步完成后设置单机允许重启动作信号RX=1。此时,单机的输入脉冲信号检测单元一直处于检测状态,当检测到定时器以T为周期发出的脉冲信号时,设置SX=0,输出允许信号OX=0,CPU读取输入16位总线上的数据,进行处理,存入公共存储器的处理器输出结果存储区。紧接着系统进行自检,当公共存储区检测和输出端口检测结果均正常时,CPU才会向仲裁切换单元发出心跳信号并且置SX=1,连续重启计数器CQX清零。单机进行逻辑判断Y=WEA·WEB·WEC·(SA·SB+SA·SC+SB·SC),决定是否进行三机表决。当Y=0时表示不进行三级表决,设置本机OX=SX,等待下一脉冲信号。当Y=1时表示进行三机表决,即三机均在系统内且至少有两机正常通过自检,单机读取另外两机位于公共存储区内的处理器输出结果,通过自身的软件进行三取二多数一致表决,紧接着将表决器结果和自身输出结果进行一致性比较。如果一致则置OX=1,单机输出结果错误计数器EX清零,等待下一周期的脉冲信信号;如果结果不一致则置OX=0,单机输出结果错误计数器EX加1,等待下一周期的脉冲信号,当单机输出结果错误计数器EX大于设定值单机输出结果错误最大允许次数EXmax时,单机则进入重启状态,设置RX=0,连续重启计数器CQX加1。容错冗余控制器402内设有用于接收单机自检的发出的心跳信号的看门狗电路,如果看门狗在三个周期内没有收到心跳信号且RX=1,则单机进入重启状态,并设置RX=0,连续重启计数器加1。重启过程为,向单机的供配电单元发送命令进行断电-加电操作,单机重启后读取SA、SB、SC的值,判断后读取当前正常工作的优先级最高的单机的工作进程信息进行同步,同步完成后待下一脉冲信号到来后切入系统恢复正常工作。当连续重启计数器CQX技术值大于设定值最大允许连续重启次数CQXmax时,仲裁切换单元400向单机的供配电单元发出永久性断电操作,并且设置WEX=0,SX=0,OX=0(WEX=1表示单机处于正常工作或重启状态,WEX=0表示单机已被永久性的切出系统)。
如图6所示为系统工作状态转换图,系统大体包含三种状态:系统正常工作、系统暂时性实效、系统失效。单机由正常工作状态变为重启状态的转换条件为单机出现连续输出结果错误次数大于设定值或者仲裁切换单元连续三个周期没收到单机心跳信号的情况时,当单机经过重启后恢复正常则单机由重启状态转为正常工作状态。当单机连续重启且连续重启的次数超过设定值时,单机便会永久性的被切出。系统的正常工作状态包含:三机工作,双机正常、一机重启,一机工作、两机重启,双机工作、一机切出,一机工作、一机重启、一机切出,一机工作、两机切出。系统失效状态包含:两机重启一机切出、一机重启两机切出、三机均切出。由仲裁切换单元协调进行各工作状态之间的转换,进行系统降级和重构。
上述的过程具体实现如下:
仲裁切换单元协调进行三机工作/双机工作/单机工作的冗余系统降级的实现为:
(1)系统初始状态为三机均正常工作,当仲裁切换单元监测到某一单机出现输出结果连续错误次数大于设定值或者单机连续三个周期自检失败的情况时,向单机的供配电单元发送重启指令,系统处于双机工作、一机重启的状态,此时系统仍进行三机表决,若故障的单机连续重启且连续重启的次数大于设定值时,仲裁切换单元对单机发出永久断电指令,将其永久性切出,系统由三机工作降级为双机工作。
(2)系统为双机工作、一机重启状态或双机工作、一机切出的状态时,当仲裁切换单元检测到某正常单机故障并对其发出重启命令,系统进入一机工作、两机重启或一机工作、一机重启、一机切出的状态,若重启单机经一定次数重启后均未能恢复正常,则由仲裁切换单元将故障机永久性切出,系统由双机工作降级为单机工作。
(3)系统为三机工作状态时,当仲裁切换单元检测到有两单机均连续自检失败,且次数均超过三次,仲裁切换单元向这两个单机同时发出重启命令,系统进入一机工作、两机重启的状态,若重启的两个单机经一定次数的重启均未能恢复正常,则由仲裁切换单元将故障机永久性切出,系统由三机工作直接降级为单机工作。
仲裁切换单元协调进行单机工作/双机工作/三机工作的冗余系统重构的实现为:
(1)系统的单机工作状态包含一机工作、两机重启和一机正常、一机重启、一机切出两种状态,当仲裁切换单元检测到某一重启单机正常通过自检时,系统即进入双机工作状态,此时系统由单机工作重构为双机工作。
(2)当系统为双机工作、一机重启的双机工作状态时,如果仲裁切换单元检测到重启单机正常通过自检且输出结果与表决结果一致,则系统由双机工作重构为三机工作。
(3)当系统为一机工作、两机重启时,若仲裁切换单元检测到重启的故障机均正常通过自检,则系统由单机工作直接重构为三机工作。
(4)当系统为一机重启、两机切出或两机重启、一机切出的系统暂时性失效状态时,如果某一重启单机在限定次数内重启后正常通过了自检则系统由暂时性失效状态重构为单机工作状态。

Claims (6)

1.一种可降级的三机冗余容错系统,其特征在于:它由A机、B机和C机三个结构相同的单机、公共存储器、仲裁切换单元及三机的输出驱动器组成;A机、B机和C机通过读写公共存储器内的单机输出结果实现三机间处理结果的交换,从而进行三机表决;此外,A机、B机和C机还能通过读写公共存储器内的进程信息实现三机或双机的同步;A机、B机、C机之间互相连接,彼此都能读取对方当前是否正常工作的状态信息;A机、B机、C机还与仲裁切换单元连接,向仲裁切换单元提供自身状态信息,由仲裁切换单元协调进行三机工作/双机工作/单机工作的冗余系统降级以及单机工作/双机工作/三机工作的冗余系统重构,仲裁切换单元还连接于三机的输出驱动器,决定A机、B机和C机对输出线的使用权,对于正常工作的三机,输出具有优先级顺序依次为A机-B机-C机;
所述的每个单机的硬件单元包括CPU模块、供配电模块、数据采集模块、存储模块、输出模块和数据接口模块;软件模块包括:脉冲检测模块、表决器模块、自检测模块;供配电模块在仲裁切换单元的控制下完成单机重启或永久断电将单机切出的操作,存储模块存储待执行的程序和CPU模块处理结果,数据采集模块负责将输入数据转换为数字量输入给CPU模块,输出模块将CPU模块的输出转化为所需的输出信号类型,数据接口模块实现CPU模块与公共存储器及容错冗余控制器的数据交换;脉冲检测模块检测来自仲裁切换单元发出的采样脉冲信号,作为CPU模块一个采样处理周期的开始;表决器模块采用三取二多数表决方式,表决器模块执行本机输出结果和表决器模块结果比对的任务;CPU模块首先采集输入数据并进行运算处理,处理完后将结果存入公共存储器内的单机处理结果存储区,同时完成对公共存储器的处理结果存储区和输出驱动器的输出端口的自检,仅当公共存储器的处理结果存储区和输出驱动器的输出端口自检结果均正常时,CPU模块才认为单机自检通过,并向仲裁切换单元发出心跳信号;
所述的表决器模块采用冗余设计,确保在单机中的一个表决器模块故障时,系统仍能进行正常的三机表决;
所述仲裁切换单元包括时钟模块、容错冗余控制器、优先级控制器;时钟模块为三个单机中的CPU模块时钟与容错冗余控制器提供时钟信号,从而实现全局时钟同步,同时时钟模块还向三个单机发送采样脉冲信号;优先级控制器与容错冗余控制器相连接,并读取容错冗余控制器内的三个单机输出允许信号;容错冗余控制器为整个冗余容错系统的核心,它与三个单机进行交互,对单机的输出结果连续错误、连续重启进行计数,还对单机自检输出的心跳信号进行监测,经过逻辑判断对单机的供配电模块发出重启指令以及永久性切出指令。
2.根据权利要求1所述的可降级的三机冗余容错系统,其特征在于:所述的公共存储器为三口RAM,包含三个单机处理结果存储区和进程信息存储区两部分,A机、B机和C机在处理结果存储区和进程信息存储区内有相对独立的存储空间,处理结果存储区用于存储单机的处理结果,进程信息存储区用于存储单机的状态信息。
3.根据权利要求1所述的可降级的三机冗余容错系统,其特征在于:所述的对公共存储器的处理结果存储区的自检方法为:在单机执行完存储处理结果后,CPU模块通过总线读出存储在公共存储器中处理结果存储区内的处理结果,然后与CPU模块缓冲区内的处理结果进行比对,如果一致则表示检测结果正常,否则检测结果异常。
4.根据权利要求1所述的可降级的三机冗余容错系统,其特征在于:所述的对输出驱动器的输出端口的自检方法为:CPU模块通过I/O线向输出驱动器发送一位数据,在驱动器一端的I/O线设置一个回送机构,将发送的数据回送给CPU模块,CPU模块对发出的数据和接收到的数据进行比对,如果二者一致则表明单机与输出驱动器之间的连接完好,否则认为单机与输出驱动器之间的连接存在故障。
5.根据权利要求1所述的可降级的三机冗余容错系统,其特征在于:所述的由仲裁切换单元协调进行三机工作/双机工作/单机工作的冗余系统降级的实现为:
(1)系统初始状态为三机工作,当仲裁切换单元检测到某一单机出现输出结果连续错误次数大于设定值或者单机连续三个周期自检失败的情况时,向单机的供配电模块发送重启指令,系统处于双机工作、一机重启的状态,此时系统仍进行三机表决,若故障的单机连续重启且连续重启的次数大于设定值时,仲裁切换单元对单机发出永久断电指令,将其永久性切出,系统由三机工作降级为双机工作;
(2)系统为双机工作、一机重启或双机工作、一机切出的状态时,当仲裁切换单元检测到某正常单机故障并对其发出重启命令,系统进入一机工作、两机重启或一机工作、一机重启、一机切出的状态,若重启单机经一定次数重启后均未能恢复正常,则由仲裁切换单元将故障机永久性切出,系统由双机工作降级为单机工作;
(3)系统为三机工作状态时,当仲裁切换单元检测到有两单机均连续自检失败,且次数均超过三次,仲裁切换单元向这两个单机同时发出重启命令,系统进入一机工作、两机重启的状态,若重启的两个单机经一定次数的重启均未能恢复正常,则由仲裁切换单元将故障机永久性切出,系统由三机工作直接降级为单机工作。
6.根据权利要求1所述的可降级的三机冗余容错系统,其特征在于:所述的由仲裁切换单元协调进行单机工作/双机工作/三机工作的冗余系统重构的实现为:
(1)系统的单机工作状态包含一机工作、两机重启和一机正常、一机重启、一机切出两种状态,当仲裁切换单元检测到某一重启单机正常通过自检时,系统即进入双机工作状态,此时系统由单机工作重构为双机工作;
(2)当系统为双机工作、一机重启的双机工作状态时,如果仲裁切换单元检测到重启单机正常通过自检且输出结果与表决结果一致,则系统由双机工作重构为三机工作;
(3)当系统为一机工作、两机重启时,若仲裁切换单元检测到重启的故障机均正常通过自检,则系统由单机工作直接重构为三机工作;
(4)当系统为一机重启、两机切出或两机重启、一机切出的系统暂时性失效状态时,如果某一重启单机在限定次数内重启后正常通过了自检则系统由暂时性失效状态重构为单机工作状态。
CN200910086598XA 2009-06-12 2009-06-12 一种可降级的三机冗余容错系统 Expired - Fee Related CN101576836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910086598XA CN101576836B (zh) 2009-06-12 2009-06-12 一种可降级的三机冗余容错系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910086598XA CN101576836B (zh) 2009-06-12 2009-06-12 一种可降级的三机冗余容错系统

Publications (2)

Publication Number Publication Date
CN101576836A CN101576836A (zh) 2009-11-11
CN101576836B true CN101576836B (zh) 2011-02-02

Family

ID=41271773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910086598XA Expired - Fee Related CN101576836B (zh) 2009-06-12 2009-06-12 一种可降级的三机冗余容错系统

Country Status (1)

Country Link
CN (1) CN101576836B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107347018A (zh) * 2017-04-14 2017-11-14 上海航天控制技术研究所 一种三冗余1553b总线动态切换方法

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833536B (zh) * 2010-04-16 2012-02-08 北京航空航天大学 一种冗余仲裁机制的可重构星载计算机
CN102053882B (zh) * 2011-01-11 2013-08-21 北京航空航天大学 基于cots器件的异构星载容错计算机
CN102508745B (zh) * 2011-10-21 2014-01-08 上海交通大学 一种基于两级松散同步的三模冗余系统及其实现方法
CN102724083A (zh) * 2012-05-25 2012-10-10 哈尔滨工程大学 基于软件同步的可降级三模冗余计算机系统
CN103529691B (zh) * 2012-07-04 2016-08-10 北京精密机电控制设备研究所 一种查表式三冗余信号处理方法
US9074891B2 (en) * 2012-10-18 2015-07-07 Honeywell International Inc. High integrity, surface guidance system for aircraft electric taxi
CN102955427B (zh) * 2012-11-14 2014-12-03 中国船舶重工集团公司第七一九研究所 互联纠错式三模冗余控制系统及仲裁方法
CN102981470B (zh) * 2012-11-15 2015-09-30 哈尔滨工程大学 一种分布式系统可修复控制方法
CN103279404B (zh) * 2013-05-07 2016-06-15 清华大学 一种基于心跳状态字的多机系统同步及可靠性检测方法
CN103293949B (zh) * 2013-06-08 2016-02-03 杭州和利时自动化有限公司 开关量输出通道冗余容错控制方法及冗余开关量输出通道
CN103389914B (zh) * 2013-07-03 2015-10-21 浙江大学 基于时钟同步技术的星载三模冗余系统
CN103425553B (zh) * 2013-09-06 2015-01-28 哈尔滨工业大学 一种双机热备份系统及该系统的故障检测方法
CN103473156B (zh) * 2013-09-24 2015-07-08 北京控制工程研究所 一种基于实时操作系统的星载计算机三机热备份容错方法
CN103543714B (zh) * 2013-10-10 2016-08-17 上海发电设备成套设计研究院 一种模块积木式控制系统
CN103631668B (zh) * 2013-11-04 2017-10-24 中国航天科技集团公司第九研究院第七七一研究所 一种适用于空间应用多机系统优先链表决装置
CN103677080B (zh) * 2013-12-04 2015-08-19 北京控制工程研究所 一种三机热备份的时间同步方法
CN104636219B (zh) * 2014-12-12 2017-05-10 北京控制工程研究所 一种三机热备份实时系统同步事件响应的方法
CN104570721B (zh) * 2014-12-31 2017-06-30 重庆川仪自动化股份有限公司 冗余控制器主从状态确定方法
CN105045164A (zh) * 2015-05-28 2015-11-11 谭龙飞 可降级的三冗余同步表决计算机控制系统及方法
CN105116718B (zh) * 2015-08-18 2018-12-28 南京科远自动化集团股份有限公司 一种三冗余模拟量的优选方法及优选电路
CN106598017A (zh) * 2015-10-20 2017-04-26 中车大连电力牵引研发中心有限公司 冗余控制系统
CN105354381B (zh) * 2015-11-05 2018-07-13 天津津航计算技术研究所 基于重构的fpga多余度实现方法
CN106970857A (zh) * 2017-02-09 2017-07-21 上海航天控制技术研究所 一种可重构三冗余计算机系统及其重构降级方法
CN106980594A (zh) * 2017-04-06 2017-07-25 上海航天测控通信研究所 一种低成本高性能空间用计算机
CN107272400B (zh) * 2017-06-26 2020-05-19 北京机械设备研究所 一种同步冗余的顺序控制装置及方法
CN107168046B (zh) * 2017-06-27 2020-08-25 上海电机学院 一种三冗余dcs控制系统
DE102017210955A1 (de) * 2017-06-28 2019-01-17 Volkswagen Aktiengesellschaft Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum auflösen einer redundanz von zwei oder mehr redundanten modulen
CN107247644A (zh) * 2017-07-03 2017-10-13 上海航天控制技术研究所 一种三冗余计算机系统的重构降级方法
CN108345254B (zh) * 2018-04-08 2020-10-23 上海航天计算机技术研究所 三冗余控制方法和系统
CN108644319B (zh) * 2018-05-11 2020-05-12 重庆大学 一种用于航空的加油开关电动传动装置
CN110161837B (zh) * 2018-05-16 2021-12-10 北京机电工程研究所 三冗余积分信号均衡方法
CN108762994B (zh) * 2018-06-06 2022-04-12 哈尔滨工业大学 一种基于多机备份的星载计算机系统及该系统的切机方法
CN111142367B (zh) * 2018-11-02 2022-01-28 株洲中车时代电气股份有限公司 一种针对铁路安全应用的控制系统
CN109491238B (zh) * 2018-12-12 2022-06-03 南京工程学院 地铁站台门控制系统控制器冗余方法
CN109634097A (zh) * 2018-12-12 2019-04-16 上海航天控制技术研究所 一种三冗余接口电路及同步方法
CN109739693B (zh) * 2018-12-13 2022-06-24 上海航天控制技术研究所 货运飞船对接机构仲裁表决系统及其表决方法
CN111880971B (zh) * 2020-07-30 2024-02-02 上海航天计算机技术研究所 三机异构冗余系统和控制方法
CN112214350A (zh) * 2020-09-02 2021-01-12 中国船舶重工集团公司第七0九研究所 一种分布式多模冗余容错系统软件表决方法
CN112327682B (zh) * 2020-10-21 2022-07-15 浙江吉利控股集团有限公司 一种整机控制器系统、控制方法及电动飞行器
CN112015597B (zh) * 2020-10-26 2021-04-13 苏州浪潮智能科技有限公司 一种故障隔离方法、装置、设备及计算机可读存储介质
CN112947551B (zh) * 2021-02-01 2023-09-01 北京京东乾石科技有限公司 无人机控制系统及方法
CN113741494B (zh) * 2021-08-19 2024-02-23 上海卫星工程研究所 可驱动天线在轨安全状态监视系统及方法
CN115017071A (zh) * 2022-06-30 2022-09-06 重庆秦嵩科技有限公司 基于fpga srio的多cpu表决系统
CN116156860B (zh) * 2023-02-22 2024-03-08 北京航天发射技术研究所 一种电驱特种车辆同步伺服控制器的电磁兼容优化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107347018A (zh) * 2017-04-14 2017-11-14 上海航天控制技术研究所 一种三冗余1553b总线动态切换方法
CN107347018B (zh) * 2017-04-14 2019-12-20 上海航天控制技术研究所 一种三冗余1553b总线动态切换方法

Also Published As

Publication number Publication date
CN101576836A (zh) 2009-11-11

Similar Documents

Publication Publication Date Title
CN101576836B (zh) 一种可降级的三机冗余容错系统
US20190303255A1 (en) Cluster availability management
US4099234A (en) Input/output processing system utilizing locked processors
US5423024A (en) Fault tolerant processing section with dynamically reconfigurable voting
CN100375050C (zh) 高可靠性处理器的片上机制
CN105607698B (zh) 一种星载计算机系统方案设计方法
US8930752B2 (en) Scheduler for multiprocessor system switch with selective pairing
JPS5935057B2 (ja) マルチ構成可能なモジユ−ル処理装置
US20050246581A1 (en) Error handling system in a redundant processor
US8671311B2 (en) Multiprocessor switch with selective pairing
RU2455681C1 (ru) Отказоустойчивая вычислительная система с аппаратно-программной реализацией функций отказоустойчивости и динамической реконфигурации
US9195553B2 (en) Redundant system control method
CN108958987B (zh) 一种低轨小卫星容错系统及方法
US8037350B1 (en) Altering a degree of redundancy used during execution of an application
US20100229034A1 (en) Clock supply method and information processing apparatus
US20160004241A1 (en) Control device
CN105550067B (zh) 一种机载计算机双通道选择方法
CN102508746A (zh) 一种用于三机变结构容错计算机系统管理方法
JP5013324B2 (ja) コンピュータ装置及びそのbiosアップデート方法
Johnson The Intel 432: a VLSI architecture for fault-tolerant computer systems
CN108228391B (zh) 一种LockStep处理机及管理方法
CN104798059A (zh) 在检查点外部处理写入数据的多个计算机系统
US7743285B1 (en) Chip multiprocessor with configurable fault isolation
CN112445751B (zh) 适用于多模冗余系统的计算机主机接口板
CN111190774B (zh) 一种多核处理器可配置双模冗余结构

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110202

Termination date: 20170612

CF01 Termination of patent right due to non-payment of annual fee