CN1164996C - 自诊断的多模冗余系统 - Google Patents

自诊断的多模冗余系统 Download PDF

Info

Publication number
CN1164996C
CN1164996C CNB011242868A CN01124286A CN1164996C CN 1164996 C CN1164996 C CN 1164996C CN B011242868 A CNB011242868 A CN B011242868A CN 01124286 A CN01124286 A CN 01124286A CN 1164996 C CN1164996 C CN 1164996C
Authority
CN
China
Prior art keywords
monitor
fault
redundant
double track
sign indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB011242868A
Other languages
English (en)
Other versions
CN1402130A (zh
Inventor
江建慧
闵应骅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CNB011242868A priority Critical patent/CN1164996C/zh
Publication of CN1402130A publication Critical patent/CN1402130A/zh
Application granted granted Critical
Publication of CN1164996C publication Critical patent/CN1164996C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

一种自诊断的多模冗余系统,包括多个冗余模块和决策器,还包括分别监测冗余模块、决策器的监视器。本发明的多模冗余系统具有对故障模块和决策器、以及监视器自身故障的定位能力。当多个冗余模块中的任意一个发生故障,监视器将给出指示。当决策器发生故障时,监视器也会给出指示。而当监视器本身发生故障时,它仍会给出指示。这样,决策器给出正常输出时,由于监视器出现故障而导致舍弃决策器的正确输出这种情况就可避免发生,从而有利于提高系统的可用性。由于监视器能够指示本身的故障,因此整个冗余系统中就不存在所谓的“容错硬核”,这提高了系统的安全性。而且在进行系统维修时,故障诊断是在线进行的,相关的差错指示或记录将使诊断时间大大缩短,这就提高了系统的可维护性。

Description

自诊断的多模冗余系统
技术领域
本发明涉及多模冗余系统,特别涉及自诊断的多模冗余系统。
背景技术
为了提高系统的可信性(包括可靠性和可用性),广泛采用多模冗余系统。多模冗余系统由一组实现相同功能的冗余模块和决策器所构成。当少数模块发生故障时,它仍能使系统提供连续的正常的服务。在实际应用中,多模冗余系统一般包括双模冗余、三模冗余、四模冗余,甚至五模冗余。它已被用于许多面向商用或关键应用的容错计算机系统。如Tandem Integrity FT系统、Motorola Series FT Fail-Safe Open NetworkSystem Platforms等。双模冗余系统使用很广泛。决策方式多种多样,一般采用双模比较,主模块输出。三模冗余系统一般采用表决方式做决策器。航空控制系统常用四模冗余。
多模冗余表决系统虽然瞬时可靠性很高,长时可用性却较低。其平均故障间隔时间比单个模块还要低。原因就在于某个冗余模块故障后,在表决时反而起反作用。
传统的静态硬件冗余结构不具有故障定位能力,传统的动态硬件冗余结构也不提供明显的故障定位信息,并且用于故障检测和定位的附加电路本身的故障无法自检测。为克服这一困难,目前已提出了如下三类方案。
1)为每一个冗余模块配备相应的差错检测器。当模块给出正确(不正确)输出时,检测器发出正常(异常)指示信号。异常指示信号可用作终止故障模块输出的控制信号,或者为随后的修理提供必要的差错定位信息。然而,这种差错检测器不能做到自测试。
2)内建自测试技术和易测试表决器已被用于增强冗余系统的可测试性。但是,在测试方式下,冗余系统的正常服务将被中断。
3)为提供连续的服务,并发差错检测机制被引入到表决器的设计中。一个具有并发差错检测能力的冗余系统被称作自校验容错系统。它由一个传统的N-模冗余表决结构和一个附加差错指示电路组成。该附加电路监测所有冗余模块的功能输出和其自身的输出,若检测到差错,则给出差错指示信号。这种结构的缺点是附加差错指示电路难以区分是冗余模块出现的故障,或者是表决器出现的故障,还是其自身出现的故障。
发明内容
本发明的目的是提出一种自诊断多模冗余系统,这种系统在传统的多模冗余系统中增加了一个监视器。它能定位故障的冗余模块或决策器,或者定位监视器自身的差错,以提高整个冗余系统的可信性。
为实现上述目的,自诊断的多模冗余系统包括多个冗余模块和决策器,还包括分别监测冗余模块、决策器的监视器。
本发明的多模冗余系统具有对故障模块和决策器、以及监视器自身故障的定位能力。当多个冗余模块中的任意一个发生故障,监视器将给出指示。当决策器发生故障时,监视器也会给出指示。而当监视器本身发生故障时,它仍会给出指示。这样,当决策器给出正常输出时,由于监视器出现故障而导致舍弃决策器的正确输出这种情况就可避免发生,从而有利于提高系统的可用性。由于监视器能够指示本身的故障,因此整个冗余系统中就不存在所谓的“容错硬核”,这提高了系统的安全性。而且在进行系统维修时,故障诊断是在线进行的,相关的差错指示或记录将使诊断时间大大缩短,这就提高了系统的可维护性。
附图说明
图1是具有并发输出差错定位能力的N-模冗余系统;
图2是监视器的基本结构;
图3是双轨码识别器MC2;
图4是反向量识别器TCu;
图5是双模冗余系统监视器框图;
图6是用MC2构成的双模冗余系统的监视器电路(u=3);
图7是三模冗余表决系统的监视器框图;
图8是用MC2的级联树实现多输入双轨码识别器MC3;
图9是用MC2构成的三模冗余表决系统的监视器电路(u=4);
图10是四模冗余系统的监视器框图;
图11是用MC2的级联树实现多输入双轨码识别器MC4;
图12是五模冗余表决系统的监视器框图;
图13是用MC2的级联树实现多输入双轨码识别器MC5;
具体实施方案
下面结合附图详细描述本发明。图1给出了一个自诊断的N-模冗余系统的方案。在该图中,RMi(i=1,2,...,N,N≥2)表示第i个冗余模块,其输出为Wi,它有u-位,u≥2。VN是决策器,它有N组输入,每组输入均有u-位。W0为它的输出。
自诊断的多模冗余系统监视器所监视的对象是所有冗余模块的输出和决策器的输出,以及监视器本身。在传统的多模冗余系统中,所有输出都是u-维向量,而且当系统无差错时,这些输出应该是相同的。为了使监视器能够对自身的故障进行检测,选用双轨码识别器作为基本元件进行构造。这样,自诊断的多模冗余系统中某些冗余模块的输出将先被取反,形成反向量。
如图2所示,监视器由两部分组成。反向量识别器阵列由一组反向量识别器并列地构成。自诊断的多模冗余系统中某个冗余模块的输出和另一个冗余模块的输出、或者决策器的输出和一个冗余模块的输出以向量和反向量的形式送入一个反向量识别器。在正常情况下,反向量识别器阵列的输出是多组双轨码码字{C}。当系统出现差错时,某些反向量识别器的输出将不再是双轨码码字。为了明确地指示故障的所在,即在指示故障的位置时,用一组双轨码对应一个冗余模块或决策器的故障情况,所有反向量识别器的输出还被送入一个译码器。该译码器有N+1或N+2组双轨码输出{E}。通过观察这些输出就可以判断整个多模冗余系统是无差错的(即监视器的所有输出均为双轨码码字)、还是某个冗余模块或决策器产生了差错(即监视器的对应于该模块的输出为双轨码码字,而其它输出均为非码字),还是监视器本身发生了故障(即监视器给出了不同于前述两种情况下的其它输出)。
对N为奇数的多模冗余表决系统(N≥3),监视器有N+1组双轨码输出。对N为偶数的多模冗余系统(N≥6),可以将其划分成两个N为奇数的冗余模块组,然后使用两个用于N为奇数的多模冗余表决系统的监视器,其输出共有N+2组双轨码。由于四模冗余系统(N=4)的特殊性,它的监视器有5组双轨码输出。作为另一个特殊情况,双模冗余系统(N=2)的监视器只有一个反向量识别器阵列,而无译码器。其输出有3组双轨码。
作为实例,本发明给出了分别适用于双模冗余系统、三模冗余表决系统、四模冗余系统和五模冗余表决系统的监视器电路。
对于任何布尔变量x,(x, x)称为它的双轨码。所以,(0,1)或(1,0)是双轨码码字,而(0,0)或(1,1)不是双轨码字,因而称之为非码字。图3(a)给出了双轨码识别器MC2的符号,图3(b)给出了它的与非门实现方案。当且仅当X和Y都是码字时,Z才是码字。
对于任何u-维布尔向量
         W=(w1,w2,Λ,wu)
其反向量为
          W=( w1, w2,Λ, wu)
图4(a)给出了u-维反向量识别器TCu的符号,而图4(b)则给出了4-维反向量识别器TC4(u=4)用MC2的实现,更为一般的多维反向量识别器见文献[5]。它当且仅当W1和W2互为反向量时,才输出双轨码。
第一实施例
双模冗余系统是一种广泛应用的、低成本的容错结构。双模冗余系统的监视器的框图如图5所示,其中,NA代表由u个反相器并行地构成的反相器阵列。这里假定u≥2,即每个模块至少有两根输出线。监视器具有3组双轨码输出E0、E1和E2,是完全自校验的。
系统的故障情况可以从监视器的输出(E0,E1,E2)看出来,故称为故障症候。故障症候及其对应的意义如表1所示,其中,“是”表示该输出是双轨码字,而“非”表示该输出是非码字。例如,在系统正常工作的情况下,监视器的3组输出皆应为码字。如果监视器的输出只有E0为码字,则表明决策器出错。如果监视器的输出只有E1是码字,则表明第一个或第二个模块出错。如果监视器的输出只有一个(E0或E1或E2)为非码字,则表明监视器出错。
图6所示的是当u=3时,用MC2构成的监视器电路,其中,Wi=(wi1 wi2wi3),Ei=(ei1 ei2),i=0,1,2。
表1.双模冗余系统的故障症候
E0E1E2     意    义
是 非 非 W0出错,即决策器出现故障
非 是 非 W1或W2出错
非 是 是是 非 是是 是 非 监视器出现故障
是 是 是 双模冗余系统无差错
第二实施例
三模冗余表决系统的监视器框图如图7所示。图8给出了用MC2的级联树实现多输入双轨码识别器MC3的方法。当u=4时,TC4的设计示于图3(b),用于三模冗余表决系统的监视器电路如图9。它有4组双轨码输出(即8个输出),是完全自校验的。它用于定位由于任意冗余模块或表决器内部故障而产生的输出差错,以及监视器电路本身所产生的内部故障。监视器的工作需要一对互补时钟信号(, ),这可由一个时钟信号生成。时钟信号在监视器的所有其它输入矢量有效期间,不断交替变化。其变化频率可根据用户对监视器要求而定。对监视器要求越高,就应选择较高的频率。
监视器的输出(E0,E1,E2,E3)所表示出来的故障症侯及其对应的意义如表2所示。例如,在系统正常工作的情况下,监视器的4组输出皆应为码字。如果监视器的输出只有E0为码字,则表明表决器出错。如果监视器的输出只有E1是码字,则表明第一个模块出错。如果监视器的输出只有E0为非码字,则表明监视器出错,如此等等。
表2.三模冗余表决系统的故障症候
  E0E1E2E3     意    义
  是 非 非 非 W0出错,即表决器出现故障
  非 是 非 非 W1出错,即RM1出现故障
  非 非 是 非- W2出错,即RM2出现故障
  非 非 非 是 W3出错,即RM3出现故障
  非 是 是 是是 非 是 是是 是 非 是是 是 是 非是 是 非 非非 是 是 非非 非 是 是是 非 非 是 监视器出现故障
  是 是 是 是 三模冗余表决系统无差错
第三实施例
四模冗余系统广泛应用于航空航天系统中。四模冗余系统的决策器方案可以很多。但不论如何决策,监视器只负责在第一个故障出现时指出哪一个模块输出差错。
图10给出了四模冗余系统的监视器的逻辑结构。反向量识别器TCu的设计与三模冗余表决结构的监视器相同。当u=4时,TC4的设计也如图3(b)。图11给出了用MC2的级联树实现多输入双轨码识别器MC4的方法,其中MC2同样示于图2中。监视器有5组双轨码输出(即10个输出),即E=(E0,E1,E2,E3,E4)。该监视器是完全自校验的。它用于定位由于任意冗余模块或决策器内部故障而产生的输出差错,以及监视器电路本身所产生的内部故障。监视器的工作需要一对互补时钟信号(, ),这可由一个时钟信号生成。时钟信号在监视器的所有其它输入矢量有效期间,不断交替变化。其变化频率可根据用户对监视器要求而定。对监视器要求越高,就应选择较高的频率。
监视器的输出(E0,E1,E2,E3,E4)所表示出来的故障症候及其对应的意义如表3所示。例如,在系统正常工作的情况下,监视器的5组输出皆应为码字。如果监视器的输出只有E0为码字,则表明四个冗余模块都有相同的输出,而决策器却给出不同的输出,可见是决策器出错。如果监视器的输出只有E1是码字,则表明第一个模块出错。如果监视器的输出只有E0为非码字,则表明监视器出错,如此等等。
表3.四模冗余系统的故障症候
    E0E1E2E3E4     意    义
    是 非 非 非 非非 是 非 非 非非 非 是 非 非非 非 非 是 非非 非 非 非 是 W0有故障W1有故障W2有故障W3有故障W4有故障
    非 是 是 是 是是 非 是 是 是是 是 非 是 是是 是 是 非 是是 是 是 是 非是 是 非 非 非非 是 是 非 非非 非 是 是 非是 非 非 是 是是 非 非 非 是 监视器有故障
    是 是 是 是 是 四模冗余系统无差错
第四实施例
五模冗余表决系统的监视器框图如图12所示。监视器有6组双轨码输出(即12个输出),是完全自校验的。它用于定位由于任意冗余模块或表决器内部故障而产生的输出差错,以及监视器电路本身所产生的内部故障。图13给出了用MC2的级联树实现多输入双轨码识别器MC5的方法,其中MC2同样示于图2中。监视器的工作需要一对互补时钟信号(, ),这可由一个时钟信号生成。时钟信号在监视器的所有其它输入矢量有效期间,不断交替变化。其变化频率可根据用户对监视器要求而定。对监视器要求越高,就应选择较高的频率。
监视器的输出(E0,E1,E2,E3,E4,E5)所表示出来的故障症侯及其对应的意义如表4所示。例如,在系统正常工作的情况下,监视器的6组输出皆应为码字。如果监视器的输出只有E0为码字,则表明表决器出错。如果监视器的输出只有E1是码字,则表明第一个模块出错。如果监视器的输出只有E0为非码字,则表明监视器出错,如此等等。
表4.五模冗余表决系统的故障症候
    E0E1E2E3E4E5     意    义
    是 非 非 非 非 非非 是 非 非 非 非非 非 是 非 非 非非 非 非 是 非 非非 非 非 非 是 非非 非 非 非 非 是 W0有故障W1有故障W2有故障W3有故障W4有故障W5有故障
    非 是 是 是 是 是是 非 是 是 是 是是 是 非 是 是 是是 是 是 非 是 是是 是 是 是 非 是是 是 是 是 是 非是 是 非 非 非 非非 是 是 非 非 非非 非 是 是 非 非非 非 非 是 是 非非 非 非 非 是 是是 非 非 非 非 是 监视器有故障
    是 是 是 是 是 是 五模冗余表决系统无差错
对双模冗余系统,传统的双模冗余比较系统只能发现两个冗余模块的输出不一致,而传统的双模冗余切换系统必须依靠主模块自身的故障检测能力才能发现故障。它们均无法检测比较器或切换器内部所产生的故障。这样,当比较器或切换器故障后,如果不采取措施,若再有一个冗余模块发生故障,冗余系统就有可能给出错误的输出。本发明所提出的监视器能够及时地发现两个冗余模块输出不一致,或者检测到决策器的故障,从而可以有效地避免上述严重事件的发生。当然,如果监视器出现故障,监视器也会给出指示。
与传统的三模冗余表决系统、四模冗余系统和五模冗余表决系统相比,本发明所提出的监视器具有独特的并发故障定位能力。在发生第一个故障时,不但能定位发生该故障的冗余模块或决策器,而且能定位监视器自身的故障,从而可以有效地避免系统中故障的积累。

Claims (11)

1、一种自诊断的多模冗余系统,包括多个冗余模块和决策器,其特征在于还包括分别监测冗余模块、决策器的监视器。
2、按权利要求1所述的系统,其特征在于所述监视器是自检测监视器。
3、按权利要求1或2所述的系统,其特征在于所述监视器包括反向量识别器阵列和译码器。
4、按权利要求3所述的系统,其特征在于所述反向量识别器由双轨码识别器MC2构成。
5、按权利要求4所述的系统,其特征在于所述反向量识别器由双轨码识别器连接构成。
6、按权利要求4所述的系统,其特征在于双轨码识别器由级联的双轨码识别器构成。
7、按权利要求3所述的系统,其特征在于所述的译码器由多输入双轨码识别器构成。
8、按权利要求4所述的系统,其特征在于所述的双轨码识别器MC2满足仅当输入X和Y是码字时,输出Z才是码字。
9、按权利要求3所述的系统,其特征在于所述的监视器由反向量识别器和译码器连接构成。
10、按权利要求6所述的系统,其特征在于所述的有N个双轨码输入的多输入双轨码识别器由N-1个双轨码识别器MC2级联实现,N个输入中有一个特殊的双轨码时钟输入。
11、按权利要求1或2所述的系统,其特征在于所述监视器的多组双轨码输出用码字和非码字的不同组合来表示冗余系统是正常工作  还是其中某个部分出现了差错,而且所有输出双轨码组合中不出现全非码字组合。
CNB011242868A 2001-08-24 2001-08-24 自诊断的多模冗余系统 Expired - Fee Related CN1164996C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB011242868A CN1164996C (zh) 2001-08-24 2001-08-24 自诊断的多模冗余系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB011242868A CN1164996C (zh) 2001-08-24 2001-08-24 自诊断的多模冗余系统

Publications (2)

Publication Number Publication Date
CN1402130A CN1402130A (zh) 2003-03-12
CN1164996C true CN1164996C (zh) 2004-09-01

Family

ID=4665630

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011242868A Expired - Fee Related CN1164996C (zh) 2001-08-24 2001-08-24 自诊断的多模冗余系统

Country Status (1)

Country Link
CN (1) CN1164996C (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7290170B2 (en) * 2004-04-07 2007-10-30 International Business Machines Corporation Arbitration method and system for redundant controllers, with output interlock and automatic switching capabilities
CN101251816B (zh) * 2008-03-13 2010-06-09 中国科学院计算技术研究所 一种用于可编程器件的冗余系统及其冗余实现方法
CN101566669B (zh) * 2008-04-24 2011-06-01 中国科学院计算技术研究所 一种半导体集成电路装置及其可靠性测试装置和测试方法
RU2557441C2 (ru) * 2012-11-19 2015-07-20 Федеральное Государственное Бюджетное Учреждение "Федеральное Агентство По Правовой Защите Результатов Интеллектуальной Деятельности Военного, Специального И Двойного Назначения" (Фгбу "Фаприд") Циклический способ локализации неконтролируемых множественных отказов технических систем в процессе их функционирования и устройство для его реализации
CN106777719B (zh) * 2016-12-23 2018-05-08 中国人民解放军陆军工程大学 双模冗余的故障检测装置的故障检测方法
CN106650103B (zh) * 2016-12-23 2018-05-08 中国人民解放军军械工程学院 部分双模冗余的故障检测电路的设计方法

Also Published As

Publication number Publication date
CN1402130A (zh) 2003-03-12

Similar Documents

Publication Publication Date Title
JP3229070B2 (ja) 多数決回路及び制御ユニット及び多数決用半導体集積回路
US7555699B2 (en) Storage control circuit, and method for address error check in the storage control circuit
CN101276298B (zh) 一种fpga电路故障检测装置
US20130141230A1 (en) Sensor arrangement and method of using the same
US20040136319A1 (en) Self-healing chip-to-chip interface
Zhou et al. Conditional diagnosability of alternating group networks
US5784383A (en) Apparatus for identifying SMP bus transfer errors
CN1164996C (zh) 自诊断的多模冗余系统
Matsumoto et al. Evaluating the fault tolerance of stateful TMR
Ramamoorthy et al. Reliability analysis of systems with concurrent error detection
US6055660A (en) Method for identifying SMP bus transfer errors
CN1007021B (zh) 通过择多检测和校正误差的方法
CN111813807B (zh) 基于专家诊断库的实时故障诊断方法及装置
US6880119B1 (en) Method for supervising parallel processes
Matsumoto et al. Stateful TMR for transient faults
Ishida et al. Diagnosability and distinguishability analysis and its applications
CN1203405C (zh) 为了检查目的具有二重核心逻辑电路和硬件故障输入的集成电子组件
JPH08235006A (ja) 状態監視システム
Shokry et al. Fault-Tolerant Rotary Gray Encoder for Industrial Applications
US5404497A (en) Compact fail safe interface and voting module including the compact fail safe interface
RU2818031C1 (ru) Адаптивный мажоритарный блок элементов "n и более из (2n-1)"
KR0176085B1 (ko) 병렬처리 컴퓨터 시스템에서의 프로세서 노드 및 노드연결망의 에러 검출방법
Das et al. A fault location technique and alternate routing in Benes network
JPH0198034A (ja) 多重冗長系回路
Uehara Evaluations of Stateful NMR with Byzantine Failures

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040901

Termination date: 20190824

CF01 Termination of patent right due to non-payment of annual fee