CN100375044C - 信息处理系统及其控制方法、控制程序以及冗余控制装置 - Google Patents

信息处理系统及其控制方法、控制程序以及冗余控制装置 Download PDF

Info

Publication number
CN100375044C
CN100375044C CNB2005100854830A CN200510085483A CN100375044C CN 100375044 C CN100375044 C CN 100375044C CN B2005100854830 A CNB2005100854830 A CN B2005100854830A CN 200510085483 A CN200510085483 A CN 200510085483A CN 100375044 C CN100375044 C CN 100375044C
Authority
CN
China
Prior art keywords
treating apparatus
handling system
information handling
control method
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100854830A
Other languages
English (en)
Other versions
CN1834929A (zh
Inventor
佐藤启治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1834929A publication Critical patent/CN1834929A/zh
Application granted granted Critical
Publication of CN100375044C publication Critical patent/CN100375044C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/165Error detection by comparing the output of redundant processing systems with continued operation after detection of the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1641Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)
  • Power Sources (AREA)

Abstract

本发明提供一种用于信息处理系统的控制方法,该信息处理系统包括多个进行相同操作的处理装置,该控制方法包括以下步骤:如果在每个处理装置中没有检测到错误,而来自多个处理装置的各条输出信息出现不一致,则将电源电压波动较大的处理装置从信息处理系统中分离开。

Description

信息处理系统及其控制方法、控制程序以及冗余控制装置
技术领域
本发明涉及一种信息处理装置的控制方法、信息处理装置、信息处理系统的控制程序及包含冗余的控制装置,并且具体地涉及一种用于信息处理系统的有效技术,通过使用包含冗余的硬件进行相同的信息处理来提高抗故障能力。
背景技术
在需要具有高可靠性的服务器系统中,具有镜像功能的信息处理系统为人们所知,为了提高抗故障能力,设置有双重的诸如处理器之类的硬件,使它们执行相同的信息处理,如果在一个处理器中出现异常,则通过使用正常运行的镜像处理器的输入及输出信号来继续信息处理。
然而,在两个处理器的输出信号彼此不一致的情况下,通过处理器的异常检测,在双机并行的任一处理器中没有检测到上述错误(异常情况),例如每个处理器处理运行中的输入及输出数据奇偶性错误、ECC错误、超时错误和等等,用以识别这些处理器中哪一个处理器异常的判断标准就不存在。因此,如果注重可靠性的话,系统就需要停下来,但系统的可用性下降。这已经成为一个技术难题。
同时,与逻辑电路如处理器的运行速度相比,电源的异常检测一般花费很长的时间。应此,如果异常系统通过使用电源异常(包括电源电压下降、引起处理器不能运行)的检测信号进行检测,则这种技术无法纠正上述输出信号不一致的错误,而两个系统似乎都是正常的。
例如,专利文献1公开了一台高可靠性的计算机,包括:具有相同结构的第一和第二CPU;时钟单元,用于为这些CPU供应相同频率和相位的时钟和复位信号;双重系统适配器(DSBA),用于连接这些CPU与输入/输出装置;以及方框组间通信单元,用于改变CPU状态等等(在两个CPU之间),其中两个CPU按照时钟单元的时序同步执行程序,如果一个CPU出现故障,则双重系统适配器分离它,并使另一个没有故障的CPU继续运行。
通过使用来自两个CPU中正常运行的CPU的信号,主用的DSBA监测并比较两个CPU,访问如存储器、I/O等系统。
DSBA分别从两个CPU接收传送的信号,进行ECC校验、奇偶校验等检验,来确定CPU的正常状态,并且监测用于通知CPU检测到的异常的错误信号。当检测到异常,则DSBA关掉判断为异常的系统,仅由正常的CPU继续处理。
如果从CPU0和1传送的两个信号出现不一致,然而对于任一CPU都没有检测到异常,则可选择因不能继续而停止系统,或者只能选择使用两个CPU中的任何一个来继续处理。
在专利文献1公开的系统中,如果由CPU内部半导体的故障或者软件错误引起内部电路中出现差异,则内置错误检测电路能够通过奇偶校验等检测出来。或者,如果在CPU与DSBA之间的总线中出现错误,则通过输入到DSBA或者CPU的总线的奇偶校验或者ECC校验能够检测出错误。
如果为CPU运行供电的电源出现异常,就影响到整个CPU,从而CPU中的故障检测电路等不能正确发挥作用,因此不能输出错误信号,然后可能发生输出到控制器的数据,就好像CPU正常运行时的一样。
在电源出现故障的情况下,电压急剧下降,CPU的供电电压降到正常运行的最低电压以下,通常仅在几毫秒之后CPU就进入严重异常状态,因此在接下来的时间周期内该CPU可以判断为异常。但是,如果通过硬件进行了镜像(例如:双CPU),则需要在两个系统中的CPU输出不同的信号时才能立即判断错误,而不是在几毫秒之后。因此,需要在电源故障冲击CPU电路的故障之前检测电源异常。
同时,近年来CPU功耗有大幅增长,需要一个CPU提供一路电源,因此需要在实际的镜像设备中考虑电源故障的影响。
顺便提及,专利文献2公开了一种安装锁存器的技术,以保存从电压异常检测器的输出,该电压异常检测器监测数据处理系统中处理装置的电源电压,该数据处理系统包括多个处理装置以及用于监测这些处理系统的监测装置,当在处理装置中检测到异常时,通过参考锁存器由监测装置确定电源电压的异常,能够确定电压异常检测与处理装置故障之间的同步,并且完成对电压异常与处理装置异常之间的因果关系的说明。
尽管通过使用专利文献2公开的技术,可以确定电压异常与处理装置相应故障之间的因果关系,但是这里没有公开在这种故障情形中分辨有故障的CPU的技术,即如上所述的多个CPU的处理结果出现不一致时,而每一个CPU又没有检测到故障的情形。
同样,专利文献3公开了一种多元系统,包括,在每个多元化处理装置中,电源状态保持单元,用于监测各自装置的输入电源并存储瞬间电源中断发生时所对应的电源再次上电时的通、断状态;以及控制单元,用于比较其它处理装置包含的电源状态保持单元,对在其它装置中发现的无响应做出响应,判断无响应是否由瞬间电源中断对应的系统重新启动引起,并复位上述其他处理装置包含的电源状态保持单元的状态。
专利文献3与专利文献2一样,也没有公开在这种故障情形中分辨有故障的CPU的技术,即如上所述的多个CPU的处理结果出现不一致时,而每一个CPU又没有检测到故障的情形。
此外,专利文献4公开了一种计算机系统,包括:装配计算机系统的电路,以及故障管理系统,用于独立检测每个电路的故障状态并把每个电路与故障状态联系起来。然而,专利文献4也没有公开在这种故障情形中分辨有故障的CPU的技术,即如上所述的多个CPU的处理结果出现不一致时,而每一个CPU又没有检测到故障的情形。
[专利文献1]日本特许公开No.8-190494
[专利文献2]日本特许公开No.sho57-141731
[专利文献3]日本特许公开No.3-266131
[专利文献4]日本特许公开No.10-143387(USP6.000.040)
发明内容
本发明的目的为在该情形下提高信息处理系统的可用性,即多个处理装置的输出结果出现不一致时,而信息处理系统中的每个处理装置又没有检测到故障的情形;并且旨在通过使用冗余的多个处理装置进行相同的处理来实现高可靠性的目标。
本发明第一方面是提供一种用于信息处理系统的控制方法,该信息处理系统包括多个进行相同操作的处理装置,控制方法中包括以下步骤:如果在每个处理装置中没有检测到错误,而来自多个处理装置的各条输出信息的项目出现了不一致,则执行将电源电压波动较大的处理装置从信息处理系统分离开的步骤。
本发明第二方面是提供一种用于信息处理系统的控制方法,该信息处理系统在多个进行相同操作的处理装置中配备了电源监测器单元,控制方法中包括以下判断步骤,即信息处理系统的电源电压波动较大时,即使在每个处理装置中没有检测到错误,而来自多个处理装置的各条输出信息的项目出现了不一致,则认为在电源电压波动较大的处理装置中出现故障。
本发明第三方面是提供一种用于信息处理系统的控制方法,该信息处理系统配备了电源监测器单元,该电源监测器用于通过阈值检测多个第一和第二处理装置中的每一个处理装置的电源电压的波动,并将其输出为信息处理系统中的电压监测器信号,该信息处理系统包括多个进行相同处理的第一和第二处理装置,该控制方法包括以下步骤:即使在每个第一或第二处理装置中没有检测到错误,而来自第一或第二处理装置的各条输出信息的项目出现了不一致,则参考从电压监测器单元输出的、第一和第二处理装置中任一个处理装置的电压监测器信号,并将电源电压表现异常的第一或第二处理装置从该信息处理系统中分离出来。
本发明的第四方面是提供一种用于信息处理系统的控制方法,其使多个第一和第二处理装置进行相同的信息处理,以便选择使用处于无故障运行状态的第一或第二处理装置,该控制方法包括:第一步,判断除了电源电压之外,与第一和第二处理装置相关的错误校验项目是否正常;第二步,如果错误校验项目表现正常,则判断来自第一和第二处理装置的各个输出是否一致;以及第三步,如果在第二步中其各个输出出现不一致,则基于根据各第一和第二处理装置中的任一个电源电压波动值进行的错误判断,选择使用显示“无异常”状况的第一或第二处理装置。
本发明的第五方面是提供一种信息处理系统,包括:多个第一和第二处理装置;电压监测器单元,用于监测每个第一和第二处理装置的电源电压的波动;以及选择单元,用于在第一和第二处理装置之间进行使用切换,其中该选择单元包括:第一判断单元,用于判断除了电源电压之外,与第一和第二处理装置相关的错误校验项目是否正常;第二判断单元,如果错误校验项目表现正常,则判断来自第一和第二处理装置的各个输出是否一致;以及第三判断单元,如果第二判断单元判断各个输出出现不一致,则基于根据各第一和第二处理装置的任一个电源电压波动值进行的错误判断,选择使用显示“无异常”状况的第一或第二处理装置。
本发明的第六方面是提供一种用于执行信息处理系统的控制程序的信号,该信息处理系统包括:多个第一和第二处理装置,以及在第一和第二处理装置之间进行切换使用的选择单元,其中控制程序使选择单元执行以下操作:第一步,判断除了电源电压之外,与第一和第二处理装置相关的错误校验项目是否正常;第二步,如果错误校验项目表现正常,则判断来自第一和第二处理装置的各个输出是否一致;以及第三步,如果在第二步中其各个输出出现不一致,则基于根据各第一和第二处理装置中任一个的电源电压波动值的错误判断,选择使用显示“无异常”结果的第一或第二处理装置。
本发明的第七方面是提供一种冗余的控制装置,用于监测装配在信息处理系统中的多个处理装置并进行用于从该信息处理系统分离有故障的处理装置的操作,包括:控制逻辑,用于如果来自多个处理装置的各条输出信息的项目出现不一致,而在每个处理装置中没有检测到错误,则判断在电源电压波动比较大的处理装置中出现故障。
根据上述本发明,在信息处理系统中冗余包含多个处理装置进行相同的操作,并且如果在一个处理装置中出现故障,通过使用另一个没有故障的处理装置继续处理,即使在传统上难以确定故障的情况下,例如处理装置的处理结果出现不一致时,而每一个处理装置又没有检测到故障的情形时,能够在电源电压波动比较大的处理装置中出现故障时,从信息处理系统分离该处理装置,并通过使用另一个没有故障的处理装置继续系统操作,由此,提高信息处理系统的可靠性。
附图说明
图1为根据本发明实施例的信息处理系统的实例结构框图;
图2为根据本发明实施例中构成信息处理系统的冗余的控制电路的内部构成的实例结构框图;
图3为根据本发明实施例冗余的控制电路中判断操作的实例描述示图;
图4为根据本发明实施例冗余的控制电路中对电源电压进行判断操作的实例图形示图;以及
图5为根据本发明实施例冗余的控制电路中判断操作实例的流程图。
具体实施方式
下面参考附图详细描述本发明的优选实施例。
图1为根据本发明实施例的信息处理系统的实例结构框图;图2为根据本实施例构成信息处理系统10的冗余的控制电路的内部构成的实例结构框图;图3为根据本发明实施例冗余的控制电路中判断操作的实例描述示图;图4为根据本发明实施例冗余的控制电路中对电源电压进行判断操作的实例图形示图;以及图5为根据本发明实施例冗余的控制电路中判断操作实例的流程图。
根据本实施例的信息处理系统10包括多个0系列处理装置20(即第一处理装置)以及多个1系列处理装置30(即第二处理装置)、冗余的控制装置40(即选择单元)以及外围系统60。
例如,外围系统60包括存储装置、输入/输出装置以及通信装置。
0系列处理装置20和1系列处理装置3由相同的结构构成并且进行相同的操作。此外,冗余的控制装置40监测0系列处理装置20和1系列处理装置30进行相同的操作并将二者中的任一个与外围系统60相连接。如果0系列处理装置20和1系列处理装置30中的一个出现故障,这能够使信息处理系统10通过将二者之一与外围相连接来继续进行信息处理。
0系列处理装置20包括中央处理单元21(即CPU0)、电源22及电源监测器装置23。
中央处理单元21与冗余的控制装置40交换输入/输出信息24。输入/输出信息24被加到如ECC(纠错码)以及奇偶的错误校验数据25中,并且在冗余的控制装置40内部进行输入/输出信息24的错误检测和纠正。
中央处理单元21具有检测其内部装置中出现的内部故障的功能,并且内部故障的检测结果作为内部错误信号26被传送到冗余的控制装置40。
1系列处理装置30包括中央处理单元31(即CPU1)、电源32及电源监测器装置33。
中央处理单元31与冗余的控制装置40交换输入/输出信息34。输入/输出信息34被加到如ECC(纠错码)以及奇偶的错误校验数据35中,并且在冗余的控制装置40内部进行输入/输出信息34的错误检测和纠正。
中央处理单元31具有检测其内部装置中出现的内部故障的功能,并且内部故障的检测结果作为内部错误信号36被传送到冗余的控制装置40。
中央处理单元21在从电源22供应的电源电压V下运行。本实施例设置电源监测器装置23,以监测从电源22供应的电源电压V的波动。电源监测器装置23包括以高速及高灵敏度检测电源电压变化的检测电路(未示出),如果由电源22供应到中央处理单元21的电源电压V低于CPU工作电压Va,如下文中描述,则将电源错误信号23a输出到冗余的控制装置40。
同样,中央处理单元31在从电源32供应的电源电压V下运行。本实施例设置电源监测器装置23,以监测从电源32供应的电源电压V的波动。电源监测器装置33包括以高速及高灵敏度检测电源电压变化的检测电路(未示出),如果由电源32供应到中央处理单元31的电源电压V低于CPU工作电压Va,如下文中描述,则将电源错误信号33a输出到冗余的控制装置40。
接下来,参考图2描述冗余的控制装置40的构成实例。根据本实施例的冗余的控制装置40包括错误检测/纠正电路41及42、数据比较器43、与逻辑电路44至49及选择器50。注意在以下在图2所示的每个信号的描述中“1”表示“真”,而“0”表示“假”。
同时,注意在图2所示的逻辑电路中省略了对内部错误信号26和内部错误信号36的判断。这是因为内部错误信号26和内部错误信号36分别表示中央处理单元21和中央处理单元31内部更严重的错误,因此如果检测到内部错误信号26和内部错误信号36,则中央处理单元21或中央处理单元31会被无条件与信息处理系统10分离。
错误检测/纠正电路41通过使用错误校验数据25来检测并纠正输入/输出信息24,其中错误校验数据25被冗余添加到与中央处理单元21交换的输入/输出信息24中。如果这次错误检测及纠正处理检测到有不能纠正的错误,则错误检测/纠正电路41将不能纠正的错误检测信号41a输出到与门逻辑电路46。
错误检测/纠正电路42通过使用错误校验数据25来检测并纠正输入/输出信息34,其中错误校验数据35被冗余添加到与中央处理单元31交换的输入/输出信息34中。如果这次错误检测及纠正处理检测到有不能纠正的错误,则错误检测/纠正电路42将不能纠正的错误检测信号42a输出到与门逻辑电路47。
数据比较器43比较从中央处理单元21输入的输入/输出信息24与从中央处理单元31输入的输入/输出信息34,如果两者信息项目出现不一致,则将数据不一致检测信号43a输出到与逻辑电路44和45。
与门逻辑电路44将从电源监测器装置23输入的电源错误信号23a(PWR_Err0)和从数据比较器43输入的数据不一致检测信号43a进行与运算,以输出0系列故障预报信号44a。
与门逻辑电路45将从电源监测器装置33输入的电源错误信号33a(PWR_Err1)和从数据比较器43输入的数据不一致检测信号43a的进行与运算,以输出1系列故障预报信号44a。
与门逻辑电路46将从错误检测/纠正电路41输入的不能纠正的错误检测信号41a的逻辑反转信号和0系列故障预报信号44a的逻辑反转信号进行与运算,以输出0系列数据有效信号46a。
与门逻辑电路47将从错误检测/纠正电路42输入的不能纠正的错误检测信号42a的逻辑反转信号和1系列故障预报信号45a的逻辑反转信号的进行与运算,以输出1系列数据有效信号47a。
与门逻辑电路48将从与门逻辑电路46输入的0系列数据有效信号46a的逻辑反转信号和从与门逻辑电路47输入的1系列数据有效信号47a的逻辑反转信号的与运算,以输出二元故障信号48a。
与门逻辑电路49进行从与门逻辑电路46输入的0系列数据有效信号46a的逻辑反转信号和从与门逻辑电路47输入的1系列数据有效信号47a的与运算,以将数据选择控制信号49a输出到选择器50。
如果数据选择控制信号49a表示真(即“1”),则选择器50选择与1系列处理装置30相关的输入/输出信息34,而如果数据选择控制信号49a表示假(即“0”),则选择与0系列处理装置20相关的输入/输出信息24。
图3示出冗余的控制装置40中相应于在进行相同操作的多个0系列处理装置20和1系列处理装置30中各个错误发生情形(即情形S1至S8)下的判断处理。
即在图3所示的这些错误情形S 1至S8中,图2所示的冗余的控制装置40的逻辑电路判断选择0系列处理装置20或1系列处理装置30中的哪一个,如果分别相应于0系列处理装置20和1系列处理装置30的输入/输出信息24和输入/输出信息34之间的比较结果出现不一致(即数据不一致检测信号43a为真),而在上述装置中的任一个中没有出现错误。
下面描述根据本实施例的信息处理系统10的实例运行。
如上所述,本实施例使得装配在为中央处理单元21供应能源的电源22中的电源监测器装置23以及装配在为中央处理单元31供应能源的电源32中的电源监测器装置33分别将电源错误信号23a以及电源错误信号33a输入到冗余的控制装置40。
在中央处理单元21和31中的任一个由于电源电压V下降而出现故障之前,要求电源监测器装置23和33检测电压异常,因此,电源监测器装置由能够高速运行的元件构成,并且设置有高阈值。
具体来说,如图4所示,为电源监测器装置23和33设立的用于由电压波动检测阈值Vt指定的异常判断的阈值被确定为在额定电压V0与CPU工作电压值Va之间并且在本实施例中偏向于额定电压V0即为较高的值。
同时,如果电压波动检测阈值Vt被设置为接近额定电压V0,则电源监测器装置23和33会变得非常敏感,从而分别会对电源22和23中分别由中央处理单元21和31中的负载波动引起的电源电压V的轻微波动产生反应。
因此,本实施例不允许进行这样的处理,而通过直接利用电源监测器装置23或者33输出的电源错误信号23a或者33a,分离多路结构中的0系列处理装置20或者1系列处理装置30的一路。
换句话说,冗余的控制装置为分别来自每个0系列处理装置20和1系列处理装置30的输入/输出信息24和34及内部错误信号26(即错误)的奇偶校验或者ECC校验设置更高的优先权,并且即使与0系列处理装置20相关的输入/输出信息24和与1系列处理装置30相关的输入/输出信息34出现不一致,而在上述系列的校验中没有检测到异常,其参考分别从电源监测器装置23和33输出的电源错误信号23a和33a,进行或者分离0系列处理装置20或者分离1系列处理装置30的处理,其中来自信息处理系统10的电源错误信号23a或者33a分别表示异常并通过使用另一个0系列处理装置20或者1系列处理装置30来继续信息处理。
因此,如果来自0系列处理装置20的输入/输出信息24与来自1系列处理装置的输入/输出信息34表现一致,则电源错误信号23a和33a会被忽略。
上述图2所示的冗余的控制装置包含的逻辑电路的运算也能够通过软件来实现,例如用于控制冗余的控制装置40的控制程序70等。即控制程序70包括:校验处理逻辑71和72,用于监测每个中央处理单元21和23中的故障;比较逻辑73,用于将与0系列处理装置20相关的输入/输出信息24和与0系列处理装置30相关的输入/输出信息34相比较;以及选择逻辑74,选择输入/输出信息24或34中的任一个作为输入/输出数据51。
以下参考图5的流程图描述上述控制程序70的运行。
第一步是分别参考每个中央处理单元21和31的内部错误信号26和36,来判断是否二者中的任一个出现故障(步骤101),并且如果都没有故障,则进一步判断分别与中央处理单元21和31相关的输入/输出信息24和34的ECC和奇偶校验结果(步骤102)。
如果在两个系列中都不存在异常,则分别判断与0系列处理装置20和1系列处理装置30相关的输入/输出信息24和34是否表现一致(步骤103),如果两者信息项目表现一致,则表示没有异常出现,返回到步骤101(即情形S 1)。
另一方面,如果在步骤103中两者信息项目出现不一致(判断为“否”),即如果来自0系列处理装置20的输入/输出信息24与来自1系列处理装置30的输入/输出信息34出现不一致,而在两个系列的任一系列中都没有检测到故障(即情形S2至S5),通常,由于没有选择或者0系列处理装置20或者1系列处理装置30的依据,就需要停止信息处理系统10,从而降低了信息处理系统10的可用性。
与此相反,如果在步骤103(即情形S2至S5)输入/输出信息24和34被判断为不一致,则本实施例的处理参考电源错误信号23a用于确定在一端上的0系列处理装置20的电源电压波动错误(步骤104),并且如果存在错误,则参考在另一端上的使用的1系列处理装置30的电源错误信号33a,确定用于1系列处理装置30的电源电压有波动错误(步骤109),如果不存在错误,则选择与其相关的输入/输出信息34作为输入/输出数据51(即将0系列处理装置20从信息处理系统10分离出来)并连接到外围系统60(步骤110)(即情形S4)。
同时,如果在步骤104中的判断为用于0系列处理装置20的电源电压没有波动错误,然后参考用于另一端上的1系列处理装置30的电源错误信号33a,确定其电源电压波动错误(步骤105),并且如果存在错误,则选择与0系列处理装置20相关的输入/输出信息24(即将1系列处理装置30从信息处理系统10分离出来)并继续运行(步骤111)(即情形S3)。
相反,如果在步骤105对于1系列处理装置30没有检测到电源电压波动错误,则0系列处理装置20和1系列处理装置30的电源电压都正常,在这种情况下,0系列处理装置20和1系列处理装置30都被判断为出现错误(步骤106)(即情形S2)。
同样,如果在步骤109对于1系列处理装置30检测到电源电压波动错误,则意味着对于0系列处理装置20和1系列处理装置30都检测到电源电压的波动错误,0系列处理装置20和1系列处理装置30都被判断为出现错误(步骤106)(即情形S5)。
同时,如果在上述步骤101中判断为“否”,说明内部错误信号26或者36至少有一个为“真”;则判断是否存在双重错误,即0系列处理装置20和1系列处理装置30都出现故障(步骤107),并且如果二者都出现故障,那么转到步骤106(即情形S8)。
同样,在步骤107中,如果0系列处理装置20或者1系列处理装置30中的任一个被判断为出现故障,则选择0系列处理装置20或者1系列处理装置30中没有故障的处理装置继续处理(步骤108)(即情形S6或者S7)。如果在上述步骤102中判断为“否”,则情形相同。
就目前所述,在包括多个进行相同处理的0系列处理装置20和1系列处理装置30的信息处理系统10中,如果0系列处理装置20和1系列处理装置30的输入/输出信息24和输入/输出信息34出现不一致,而在两个系列处理装置的任一个中没有检测到错误,则通过认定其中出现的故障来分离检测到电源电压波动错误的处理装置,并通过参考分别从电源监测器装置23和33输出的电源错误信号23a和33a,使用另一系列的处理装置来继续运行信息处理系统,根据本实施例,所述电源监测器用于监测为每个0系列处理装置20和1系列处理装置30装配的电源22和32中的电压波动。因此,提高信息处理系统10的可用性。
注意以上描述举例说明了电源监测器装置23和33通过使用电压波动检测阈值Vt对于电源22和32分别判断电源电压的波动,但本发明不限与此。
例如,可以使用如下方法:在额定电压V0和CPU工作电压Va范围内,比较电源22和32之间的电源电压的波动幅度,并判断具有较小波动的电源为正常,而具有较大波动的电源为处于错误状态。
根据本发明,在旨在通过使冗余的多个处理装置进行相同的操作来获得高可靠性的信息处理系统中,当多个处理装置的处理结果出现不一致,而任一装置中都没有检测到故障的情形,可以提高在这种情形下信息处理系统的可用性,。
顺便提及,无需说明,本发明不限于上述实施例,而在本发明的范围内能够以多种方式进行改变。

Claims (12)

1.一种用于信息处理系统的控制方法,该信息处理系统包括多个进行相同操作的处理装置,该控制方法包括以下步骤:
如果在每个处理装置中没有检测到错误,而来自多个处理装置的各条输出信息的项目出现了不一致,则将电源电压波动较大的处理装置从信息处理系统分离开。
2.根据权利要求1所述的用于信息处理系统的控制方法,其中
所述错误包括所述的每个处理装置的内部错误,以及相应于每个处理装置与输入/输出数据相关的ECC校验错误或者奇偶校验错误。
3.根据权利要求1所述的用于信息处理系统的控制方法,其中
阈值设置在所述电源电压的额定值与所述处理装置正常运行的工作电压值之间,并且使用所述阈值作为参考判断所述电源电压波动的幅度。
4.一种用于信息处理系统的控制方法,该系统设置有电源监测器单元且具有多个进行相同操作的处理装置,该控制方法包括以下步骤:
如果来自多个处理装置的各条输出数据出现不一致,而在每个处理装置中没有检测到错误,则认为在电源电压波动较大的处理装置中出现了故障。
5.一种用于信息处理系统的控制方法,该系统设置有电压监测器单元,用于通过阈值检测多个第一和第二处理装置中的每一个处理装置的电源电压的波动,并将该波动输出为信息处理系统中的电压监测器信号,该信息处理系统包括多个进行相同处理的第一和第二处理装置,该控制方法包括以下步骤:
如果来自第一和第二处理装置的各条输出信息的项目出现不一致,而在第一和第二处理装置的任一个中没有检测到错误,则参考从电压监测器单元输出的、第一和第二处理装置中任一个处理装置的电压监测器信号,并将电源电压表现异常的第一或第二处理装置从该信息处理系统中分离出来。
6.一种用于信息处理系统的控制方法,该系统使多个第一和第二处理装置进行相同的信息处理,以便选择使用处于无故障运行状态的第一或第二处理装置,该控制方法包括:
第一步,判断除了电源电压之外,与第一和第二处理装置相关的错误校验项目是否正常;
第二步,如果错误校验项目表现正常,则判断来自第一和第二处理装置的各个输出是否一致;以及
第三步,如果在第二步中其各个输出出现不一致,则基于根据第一和第二处理装置中任一个的电源电压波动值的错误判断,选择使用显示“无异常”状况的第一或第二处理装置。
7.根据权利要求6所述的用于信息处理系统的控制方法,其中
在所述第一步使用的所述错误校验项目包括各所述第一和第二处理装置的内部错误,以及与相应于各第一和第二处理装置的输入/输出数据相关的ECC校验错误或者奇偶校验错误。
8.根据权利要求7所述的用于信息处理系统的控制方法,其中
在所述第三步中基于所述电源电压波动判断错误时,
如果电源电压位于一设置在电源电压的额定值与所述第一和第二处理装置能够正常运行的工作电压值之间的阈值以下,则所述电源电压被判断为异常。
9.一种信息处理系统,包括:
多个第一和第二处理装置;
电压监测器单元,用于监测第一和第二处理装置中每一个装置的电源电压的波动;以及
选择单元,用于在第一和第二处理装置之间进行使用的切换,其中
该选择单元包括:
第一判断单元,用于判断除了电源电压之外,与第一和第二处理装置相关的错误校验项目是否正常;
第二判断单元,如果错误校验项目表现正常,则判断来自第一和第二处理装置的各个输出是否一致;以及
第三判断单元,如果第二判断单元判断各个输出出现不一致,则基于根据各第一和第二处理装置中的任一个的电源电压波动值的错误判断,选择使用显示“无异常”状况的第一或第二处理装置。
10.根据权利要求9所述的信息处理系统,其中
如果电源电压位于阈值以下,则所述电源监测单元判断所述电源电压为 异常,该阈值被设置在电源电压的额定值与所述第一和第二处理装置能够正常运行的工作电压值之间。
11.根据权利要求9所述的信息处理系统,其中
所述第一判断单元使用的所述错误校验项目包括各所述第一和第二处理装置的内部错误,以及与相应于各第一和第二处理装置的输入/输出数据相关的ECC校验错误或者奇偶校验错误。
12.一种冗余控制装置,用于监测冗余装配在信息处理系统中的多个处理装置并执行用于从该信息处理系统分离有故障的处理装置的操作,包括:
控制逻辑,如果来自多个处理装置的各条输出数据出现不一致,而在每个处理装置中没有检测到错误,则判断在电源电压波动比较大的处理装置中出现故障。
CNB2005100854830A 2005-03-17 2005-07-21 信息处理系统及其控制方法、控制程序以及冗余控制装置 Expired - Fee Related CN100375044C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005077760 2005-03-17
JP2005077760A JP4330547B2 (ja) 2005-03-17 2005-03-17 情報処理システムの制御方法、情報処理システム、情報処理システムの制御プログラム、冗長構成制御装置

Publications (2)

Publication Number Publication Date
CN1834929A CN1834929A (zh) 2006-09-20
CN100375044C true CN100375044C (zh) 2008-03-12

Family

ID=36616934

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100854830A Expired - Fee Related CN100375044C (zh) 2005-03-17 2005-07-21 信息处理系统及其控制方法、控制程序以及冗余控制装置

Country Status (6)

Country Link
US (1) US7802138B2 (zh)
EP (1) EP1703401B1 (zh)
JP (1) JP4330547B2 (zh)
KR (1) KR100649998B1 (zh)
CN (1) CN100375044C (zh)
DE (1) DE602005025307D1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4262726B2 (ja) 2005-08-24 2009-05-13 任天堂株式会社 ゲームコントローラおよびゲームシステム
US7739524B2 (en) * 2005-08-29 2010-06-15 The Invention Science Fund I, Inc Power consumption management
US8255745B2 (en) * 2005-08-29 2012-08-28 The Invention Science Fund I, Llc Hardware-error tolerant computing
US8181004B2 (en) * 2005-08-29 2012-05-15 The Invention Science Fund I, Llc Selecting a resource management policy for a resource available to a processor
US8209524B2 (en) 2005-08-29 2012-06-26 The Invention Science Fund I, Llc Cross-architecture optimization
US7774558B2 (en) * 2005-08-29 2010-08-10 The Invention Science Fund I, Inc Multiprocessor resource optimization
US7627739B2 (en) * 2005-08-29 2009-12-01 Searete, Llc Optimization of a hardware resource shared by a multiprocessor
US7653834B2 (en) * 2005-08-29 2010-01-26 Searete, Llc Power sparing synchronous apparatus
US20070050606A1 (en) * 2005-08-29 2007-03-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Runtime-based optimization profile
US8214191B2 (en) * 2005-08-29 2012-07-03 The Invention Science Fund I, Llc Cross-architecture execution optimization
US7607042B2 (en) * 2005-08-29 2009-10-20 Searete, Llc Adjusting a processor operating parameter based on a performance criterion
US7779213B2 (en) * 2005-08-29 2010-08-17 The Invention Science Fund I, Inc Optimization of instruction group execution through hardware resource management policies
US7647487B2 (en) 2005-08-29 2010-01-12 Searete, Llc Instruction-associated processor resource optimization
US8516300B2 (en) * 2005-08-29 2013-08-20 The Invention Science Fund I, Llc Multi-votage synchronous systems
US7725693B2 (en) 2005-08-29 2010-05-25 Searete, Llc Execution optimization using a processor resource management policy saved in an association with an instruction group
US7877584B2 (en) * 2005-08-29 2011-01-25 The Invention Science Fund I, Llc Predictive processor resource management
JP4788597B2 (ja) * 2006-12-26 2011-10-05 株式会社明電舎 プログラマブルコントローラ二重化システム
WO2008120352A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 情報処理装置、エラー処理方法
JP5605672B2 (ja) * 2009-07-21 2014-10-15 日本電気株式会社 電圧監視システムおよび電圧監視方法
JP5373659B2 (ja) * 2010-02-18 2013-12-18 株式会社日立製作所 電子機器
US8935679B2 (en) 2012-10-10 2015-01-13 Freescale Semiconductor, Inc. Compiler optimized safety mechanism
JP5949576B2 (ja) * 2013-01-22 2016-07-06 株式会社デンソー 負荷駆動回路
JP6017344B2 (ja) * 2013-02-26 2016-10-26 株式会社日立製作所 制御装置、制御システム及びデータ生成方法
US20160147590A1 (en) * 2013-07-17 2016-05-26 Hewlett-Packard Development Company, L.P. Determine malfunction state of power supply module
CN105278516B (zh) * 2014-06-24 2017-12-12 南京理工大学 一种双冗余开关量plc控制系统可靠容错控制器的实现方法
GB2530025B (en) * 2014-09-05 2017-02-15 Ge Aviat Systems Ltd Methods of Integrity Checking Digitally Displayed Data And Display System
CN104731723A (zh) * 2015-03-19 2015-06-24 青岛海信电器股份有限公司 一种存储设备断电保护方法及装置
WO2017090164A1 (ja) * 2015-11-26 2017-06-01 三菱電機株式会社 制御装置
CN109032852A (zh) * 2018-07-24 2018-12-18 郑州云海信息技术有限公司 一种集成电路ic芯片的冗余电路及其使用方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4766567A (en) * 1984-04-19 1988-08-23 Ltd. Nippondenso Co. One-chip data processing device including low voltage detector
US5036455A (en) * 1989-07-25 1991-07-30 Tandem Computers Incorporated Multiple power supply sensor for protecting shared processor buses
EP0669568A2 (en) * 1994-02-28 1995-08-30 Sanyo Electric Co., Ltd. Microprocessor malfunction operation preventing circuit
JPH08161279A (ja) * 1994-12-08 1996-06-21 Nec Corp マルチプロセッサシステム
GB2342479A (en) * 1995-07-13 2000-04-12 Fujitsu Ltd Fault detection in a redundant multi-processor system
CN2447822Y (zh) * 2000-10-09 2001-09-12 张雨儒 中央处理器保护装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57141731A (en) 1981-02-26 1982-09-02 Fujitsu Ltd Voltage failure processing system in data processing system
US4453215A (en) * 1981-10-01 1984-06-05 Stratus Computer, Inc. Central processing apparatus for fault-tolerant computing
US4428020A (en) * 1981-10-14 1984-01-24 Scm Corporation Power supply sensing circuitry
DE3522418A1 (de) * 1985-06-22 1987-01-02 Standard Elektrik Lorenz Ag Einrichtung zur meldung des belegungszustandes von gleisabschnitten im bereich eines stellwerks
JP2505299B2 (ja) 1990-03-16 1996-06-05 富士通株式会社 多重化システムの無応答判定方式
JPH06242979A (ja) * 1993-02-16 1994-09-02 Yokogawa Electric Corp 二重化コンピュータ装置
US5664089A (en) * 1994-04-26 1997-09-02 Unisys Corporation Multiple power domain power loss detection and interface disable
JPH08190494A (ja) 1995-01-11 1996-07-23 Hitachi Ltd 二重化処理装置を有する高信頼化コンピュータ
US6000040A (en) 1996-10-29 1999-12-07 Compaq Computer Corporation Method and apparatus for diagnosing fault states in a computer system
JP3266131B2 (ja) 1999-02-17 2002-03-18 株式会社村田製作所 誘電体フィルタ、誘電体デュプレクサおよび通信装置
US6981176B2 (en) * 1999-05-10 2005-12-27 Delphi Technologies, Inc. Secured microcontroller architecture
US6191499B1 (en) * 1999-10-13 2001-02-20 International Business Machines Corporation System and method for providing voltage regulation to a multiple processor
US6971043B2 (en) * 2001-04-11 2005-11-29 Stratus Technologies Bermuda Ltd Apparatus and method for accessing a mass storage device in a fault-tolerant server
US7237148B2 (en) * 2002-09-05 2007-06-26 David Czajkowski Functional interrupt mitigation for fault tolerant computer
US7269764B2 (en) * 2004-06-18 2007-09-11 International Business Machines Corporation Monitoring VRM-induced memory errors

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4766567A (en) * 1984-04-19 1988-08-23 Ltd. Nippondenso Co. One-chip data processing device including low voltage detector
US5036455A (en) * 1989-07-25 1991-07-30 Tandem Computers Incorporated Multiple power supply sensor for protecting shared processor buses
EP0669568A2 (en) * 1994-02-28 1995-08-30 Sanyo Electric Co., Ltd. Microprocessor malfunction operation preventing circuit
JPH08161279A (ja) * 1994-12-08 1996-06-21 Nec Corp マルチプロセッサシステム
GB2342479A (en) * 1995-07-13 2000-04-12 Fujitsu Ltd Fault detection in a redundant multi-processor system
CN2447822Y (zh) * 2000-10-09 2001-09-12 张雨儒 中央处理器保护装置

Also Published As

Publication number Publication date
EP1703401A3 (en) 2009-03-04
KR100649998B1 (ko) 2006-11-27
JP2006260259A (ja) 2006-09-28
CN1834929A (zh) 2006-09-20
US20060212753A1 (en) 2006-09-21
DE602005025307D1 (de) 2011-01-27
KR20060101149A (ko) 2006-09-22
US7802138B2 (en) 2010-09-21
EP1703401A2 (en) 2006-09-20
JP4330547B2 (ja) 2009-09-16
EP1703401B1 (en) 2010-12-15

Similar Documents

Publication Publication Date Title
CN100375044C (zh) 信息处理系统及其控制方法、控制程序以及冗余控制装置
US7792594B2 (en) Redundant automation system comprising a master and a standby automation device
US20060150009A1 (en) Computer system and method for dealing with errors
JP3229070B2 (ja) 多数決回路及び制御ユニット及び多数決用半導体集積回路
JP6266239B2 (ja) マイクロコンピュータ
US10114356B2 (en) Method and apparatus for controlling a physical unit in an automation system
JP2008097164A (ja) 複数の機能要素から構成されるシステムの故障監視方法
CN103678031A (zh) 二乘二取二冗余系统及方法
CN114355760A (zh) 一种主控制站及其热备冗余控制方法
JPH11143729A (ja) フォールトトレラントコンピュータ
KR100279204B1 (ko) 자동제어시스템에서현장제어장치의콘트롤러이중화제어방법및그장치
US8831912B2 (en) Checking of functions of a control system having components
JP4983806B2 (ja) 二重化タイマを用いたシステム監視装置、および監視方法
JP2015106226A (ja) 二重化システム
JP4613019B2 (ja) コンピュータシステム
JP2002108638A (ja) マイクロコンピュータのエラー検出方法及びエラー検出回路及びマイクロコンピュータシステム
US7016995B1 (en) Systems and methods for preventing disruption of one or more system buses
Wirthumer et al. Fault Tolerance for Railway Signalling Votrics in Practice
WO2012165396A1 (ja) 電子制御システム
CN113311310A (zh) 故障检测电路、故障检测系统及故障检测方法
KR20210126178A (ko) 모터 제어방법
JPH04257931A (ja) 計算機システム
JP2018041492A (ja) マイクロコンピュータ
Popovich A. Systems with Repair
JPH06124213A (ja) コンピュータのフォールト・トレラント方式

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080312

Termination date: 20150721

EXPY Termination of patent right or utility model