CN1804811A - 容错系统及其中所使用的控制装置、动作方法 - Google Patents

容错系统及其中所使用的控制装置、动作方法 Download PDF

Info

Publication number
CN1804811A
CN1804811A CNA2005101215764A CN200510121576A CN1804811A CN 1804811 A CN1804811 A CN 1804811A CN A2005101215764 A CNA2005101215764 A CN A2005101215764A CN 200510121576 A CN200510121576 A CN 200510121576A CN 1804811 A CN1804811 A CN 1804811A
Authority
CN
China
Prior art keywords
state
handling part
self
online
tolerant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005101215764A
Other languages
English (en)
Inventor
水谷文俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN1804811A publication Critical patent/CN1804811A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1641Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components
    • G06F11/1645Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components and the comparison itself uses redundant hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1675Temporal synchronisation or re-synchronisation of redundant processing components
    • G06F11/1683Temporal synchronisation or re-synchronisation of redundant processing components at instruction level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/165Error detection by comparing the output of redundant processing systems with continued operation after detection of the error

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

两个系统(100),具有:在自身和其他系统之间通过锁步同步以相同的定时运行的CPU子系统(110);与其连接的IO子系统(120);与两者连接的FT控制器(130);和通过FT控制器(130)连接自身和其他系统之间的交叉链路(140)。FT控制器(130)其将通过两个系统(100)执行的容错用的、用于进行错误处理、同步化处理、以及再同步化处理的多个系统动作,作为与之对应的多个状态,与规定的事件信号关联进行管理,对应所述事件信号,对于所述多个系统的每一个转移所述多个状态,同时选择所述多个系统动作使CPU(110)执行。

Description

容错系统及其中所使用的控制装置、动作方法
技术领域
本发明涉及容错系统、其中使用的控制装置、动作方法以及动作程序,特别涉及规定用于实现计算机系统中的容错的系统动作的状态管理以及使用该状态的控制。
背景技术
现在,公知在计算机系统中把构成该计算机硬件的CPU(CentralProcessing Unit)、存储器、PCI(Peripheral Component Interconnect)、磁盘、电源等所有部件多重冗余(例如二重冗余或者三重冗余),即使某一部件发生故障也不停止计算机系统而能够连续运行的容错计算机系统(以下称“容错系统”)。
在容错系统中,多重冗余后的多个CPU(处理器)经常同步并以相同的定时执行同一动作(称为“锁步同步”)。在这样以锁步同步执行同一动作的多个CPU中,即使在某一CPU中发生故障,其余的CPU也继续正常运行。因此,容错系统对于由CPU执行的操作系统(OS)或者应用软件等软件动作没有影响,能够继续运行。
作为这样的容错系统的现有技术,分别在专利文献1中公开了用于锁步同步中的命令执行的装置及方法,在专利文献2中公开了对容错服务器中的大规模记录设备的存取装置及方法,在专利文献3中公开了使用包含通过锁步同步动作的处理器的多个处理组间的存储器部分复制的高速再同步化技术。
专利文献1:美国专利申请公开第2002/0152418号说明书;
专利文献2:美国专利申请公开第2002/0152419号说明书;
专利文献3:美国专利第5953742号说明书。
但是,在上述现有技术的容错系统中,对应CPU的动作状态(CPU总线的动作一致不一致)或者访问许可状态(IO访问的一致或者不一致)等系统状态恰当地执行用于实现容错功能的错误处理、二重冗余(同步化)处理、再同步化处理十分困难。
本发明考虑这样以往的事情而提出,其目的是根据系统状态恰当执行为实现容错功能的错误处理、同步化处理、再同步化处理。
为实现上述目的,本发明的容错系统备有由互相相同的计算机硬件构成的多个系统,所述多个系统具有:在自身和其他系统之间锁步同步的状态下能够动作的处理部、连接所述处理部的输入输出部、在所述处理部以及所述输入输出部之间连接的控制部、通过所述控制部相互连接所述自身和其他系统之间的信号传送部,所述控制部备有状态管理模块以及控制模块,前者把用于执行由所述多个系统执行的容错用的错误处理、同步化处理、以及再同步化处理的多个系统动作作为与它们对应的多个状态、与规定的事件信号相关联地进行管理,后者对应所述事件信号,对于所述多个系统的每一个使所述多个状态转移,同时选择所述多个系统动作,使所述处理部执行。
在本发明中,所述多个系统动作也可以包含:自身系统内的所述处理部以及所述输入输出部之间的访问控制、自身和其他系统之间的所述处理部以及所述输入输出部之间的访问控制、在所述自身和其他系统之间的从所述处理部对所述输入输出部的访问比较、在所述自身和其他系统之间的所述处理部内的总线上的访问比较、和在所述自身和其他系统之间的所述处理部的主存储复制,优选所述主存储复制包含部分复制。
在本发明中,所述多个状态也可以包括:表示编入所述多个系统的提供服务的系统中的状态的联机系状态、表示从所述提供服务的系统分离的状态的脱机系状态、和表示通过错误检测从所述提供服务的系统分离的状态的错误系状态。
优选所述联机系状态也可以包括:表示电源投入时所述处理部在自身和其他系统中相互异步动作的状态的联机分离状态、表示所述处理部在所述自身和其他系统中相互异步动作的状态的联机准备状态、表示所述处理部在所述自身和其他系统中相互同步动作检查该处理部内的主存储内容的状态的联机同步前状态、表示所述处理部在所述自身和其他系统中相互同步动作的状态的联机同步状态、和表示在所述联机同步状态时所述处理部内的总线上的动作成为在所述自身和其他系统中相互不一致时的暂时状态的联机异步状态,所述脱机系状态也可以包括:表示所述电源投入时所述处理部在所述自身和其他系统中相互异步动作的状态、与所述联机分离状态成对的脱机分离状态;表示所述处理部在所述自身和其他系统中相互异步动作的状态、与所述联机准备状态成对的脱机状态;在所述自身和其他系统间执行所述处理部的主存储复制、表示该处理部在所述自身和其他系统中相互异步动作的状态的脱机复制状态;和所述处理部内的总线上的动作在所述自身和其他系统中成为不一致时从所述系统分离的状态的脱机前状态。
在涉及本发明的容错系统中使用的控制装置,是在备有多个具有互相相同的处理部以及输入输出部的系统的容错系统中使用的控制装置,其特征在于具有状态管理模块和控制模块,前者把用于执行由所述多个系统执行的容错用的错误处理、同步化处理、以及再同步化处理的多个系统动作作为与它们对应的多个状态,与规定的事件信号关联进行管理;后者对应所述事件信号,对于所述多个系统的每一个使所述多个状态转移,同时选择所述多个系统动作,使所述处理部执行。
涉及本发明的容错系统的动作方法,是备有多个具有互相相同的处理部以及输入输出部的系统的容错系统的动作方法,其特征在于,具有:把用于执行由所述多个系统执行的容错用的错误处理、同步化处理、以及再同步化处理的多个系统动作作为与它们对应的多个状态,与规定的事件信号关联进行管理的步骤,和对应所述事件信号,对于所述多个系统的每一个使所述多个状态转移,同时选择所述多个系统动作,使所述处理部执行的步骤。
涉及本发明的容错系统的动作程序,是备有多个具有互相相同的处理部以及输入输出部的系统的容错系统的动作程序,其特征在于,把用于执行由所述多个系统执行的容错用的错误处理、同步化处理、以及再同步化处理的多个系统动作作为与它们对应的多个状态,与规定的事件信号关联进行管理的步骤,和对应所述事件信号,对于所述多个系统的每一个使所述多个状态转移,同时选择所述多个系统动作,使所述处理部执行的步骤。
根据本发明,能够对应系统状态恰当执行用于实现容错功能的错误处理、同步化处理、以及再同步化处理。
附图说明
图1是表示涉及本发明的实施例的容错系统的整体结构的概略框图。
图2是说明由容错控制器执行的自身系统内的CPU子系统和IO子系统之间的访问控制的图。
图3是说明由容错控制器进行的经由交叉链路的系统之间的访问控制的图。
图4说明由容错控制器执行的从CPU子系统对IO子系统的访问比较的图。
图5是说明由存储控制器执行的CPU总线的访问比较的图。
图6是说明由DMA/共享资源控制器执行的主存储复制的图。
图7是表示容错系统的处理的概略流程图。
图8是说明容错系统的状态转移的图。
图9是说明打开电源时的处理顺序的时序图。
图10是说明CPU子系统的同步化处理的处理顺序的时序图。
图11是说明从由于CPU总线的动作不一致引起的同步偏移到再同步化处理的处理顺序的时序图。
具体实施方式
下面参照附图详细说明本发明涉及的容错系统、其中所使用的控制装置、动作方法以及用于实施动作程序的最佳的方式。
图1表示根据本实施例的容错系统的基本结构。
图1所示的容错系统(也称为“容错计算机”、“容错服务器”等),在作为由互相相同的计算机硬件构成的多个系统组成的多重冗余计算机系统使用的二重冗余计算机系统中,备有两个系统100、100,即“#0系统”以及“#1系统”。在图1的例子中,互相独立的#0系统和#1系统构成单一的容错系统。在以下的说明中,根据需要,在把两个系统100、100的一方(例如#0系统)作为“自身系统”时,另一方作为“其他系统”(例如#1系统)区别使用。
各系统100、100,如图所示,具有成为处理部的CPU子系统110、成为输入输出部的IO(Input Output:输入输出)子系统120、连接CPU子系统110以及IO子系统120的、作为构成本发明的状态管理模块以及控制模块的主要部分的控制部(控制装置)的FT(容错)控制器130、和作为相互连接自身系统和其他系统间的CPU子系统110以及IO子系统120的信号传送路径的交叉链路140、140。在本实施例中,FT控制器130和CPU子系统110以及IO子系统120内的各种控制器(后述的存储器控制器113、IO控制器121、DMA/共享资源控制器122)一起作为容错系统内的主板控制器(控制装置)101装载。
自身系统内的CPU子系统110和IO子系统120可通过FT控制器130相互访问。另外,自身系统内的CPU子系统110和其他系统的IO子系统120,通过自身系统的FT控制器110、交叉链路140以及其他系统的FT控制器110可相互访问。
CPU子系统110具有CPU 111、成为该CPU 111的主存储器的存储器112、在CPU 111以及存储器112间通过CPU总线连接的存储器控制器113。在自身和其他系统的CPU子系统110、110间通过各个存储器控制器113、113连接。
自身和其他系统的CPU子系统110、110以相互锁步同步在相同的动作定时执行相同的动作,如通过硬件的故障检测把服务中的CPU子系统110分离的话,同一动作中的CPU子系统110原样不变继续执行服务。
IO子系统120,通过用CPU子系统110的CPU 111执行的软件形成的镜像链接的处理,在两系统100、100间具有冗余性那样构成。在图1的例子中,为用于连接CPU 111和IO设备总线126的多个(在图中的例子中为两个)IO控制器121、121、和在自身和其他系统间CPU子系统110、110的二重冗余,具有包含用于复制两存储器112、112的主存储区域的内容的DMA(Direct Memory Access)控制器以及用于执行两系统100、100间的信息共享的共享存储器或者具有系统间通信功能的共享资源控制器的DMA/共享资源控制器122。
两个IO控制器121、121之一通过IO桥123连接未图示的硬盘驱动器(HDD)等IO设备126,在另一个上通过遗留IO桥124连接ROM 125。各IO控制器121、121可从自身系统的CPU子系统110和其他系统的CPU子系统110分别访问。IO桥123,例如可以举出PCI(Peripheral ComponentInterconnect)总线、USB(Universal Serial Bus)、IEEE(Institute of Electricaland Electronic Engineering)1394等接口桥,另外遗留IO桥124例如可以举出PS(Personal System)/2端口或RS-232C(Recommended Standard 232version C)端口等接口桥。
FT控制器130具有容错功能,即用于1)自身系统内以及自身和其他系统间的CPU子系统110和IO子系统120的连接及其分离,2)错误检测,3)实现自身和其他系统间的CPU子系统110、110的二重冗余的各功能。下面参照图2~图6,说明FT控制器130的各功能。
FT控制器130,通过许可或者限制自身系统内以及自身和其他系统间的CPU子系统110和IO子系统之间的访问,执行自身和其他系统间的CPU子系统110和IO子系统120的连接及其分离。图2表示通过自身系统内的CPU子系统110以及IO子系统120间的访问动作(从CPU子系统110到IO子系统120的出站(outbound)访问,和从IO子系统120到CPU子系统110的入站(inbound)访问)引起的动作信号流动(参照图中的箭头A1,A1)的情形,图3表示经由交叉链路140、140的自身系统内的CPU子系统110和其他系统内的IO子系统120之间的访问动作(出站访问以及入站访问)引起的动作信号流动(参照图中的箭头A2,A2)的情形。
另外,FT控制器130,作为用于实现容错功能的错误检测机构,如图4所示,具有比较由从自身系统的CPU子系统110到自身系统的IO子系统120的访问动作引起的动作信号和由其他系统的CPU子系统110到自身系统的IO子系统120的访问动作引起的动作信号的功能(比较电路)。
该FT控制器130内的比较电路,在功能上具有在自身系统内的存储器控制器113上连接的缓冲器(BUF)131、经由交叉链路140在其他系统内的存储器控制器113上连接的缓冲器(BUF)132、和在两缓冲器131、132的输出上连接的比较部132。
在该比较电路中,通过比较部132相互比较由来自自身系统的CPU子系统110的访问动作引起的动作信号、和由来自其他系统的CPU子系统110的访问动作引起的动作信号,其结果,在发生由两访问动作引起的动作信号不一致的情况下,分离两个CPU子系统110、110中任何一个,使剩下的一个继续动作。在本实施例中,因为比较电路用缓冲器131、132构成,所以即使在发生两信号的不一致后,在缓冲器131、132的容量的许可限度内,可以不分离CPU子系统110经历某种程度的期间继续其动作。
图4表示,在#0系统侧的FT控制器130中,在比较部133中比较向一方的缓冲器131输入的#0系统内的从CPU子系统110对IO子系统120的访问动作引起的动作信号(参照图中的箭头A3)、和向另一方的缓冲器132输入的#1系统的从CPU子系统110对#0系统的IO子系统120的访问动作引起的动作信号(参照图中的箭头A4),从比较部133输出其结果(两信号的一致或者不一致)的情形(参照图中的箭头A5)。
CPU子系统110,使用DMA/共享资源控制器122的DMA控制器,把正提供服务的一侧的CPU子系统110中的存储器112的主存储区域的内容的全部或者一部分向待机侧的CPU子系统110中的存储器112的主存储区域复制,同时通过执行CPU复位实现自身和其他系统间的CPU子系统110、110的二重冗余。
这里,存储器112的主存储区域的内容,如果基本不遍及全部区域复制的话,则不能保证两CPU子系统110、110的二重冗余动作。但是,一旦执行二重冗余,就比较由两CPU子系统110、110内的CPU总线上的访问动作引起的动作信号,其结果,通过跟踪对发生两信号不一致后的存储器112的主存储内容的访问动作,可以得到自身和其他系统的存储器112、112间的主存储内容的差信息。通过使用该差信息,删减要复制的存储器112的主存储内容,大幅度缩短复制时间,在两CPU子系统110、110二重冗余后更加高速执行发生两CPU总线的动作信号不一致时的再同步化。
为执行这样的动作,CPU子系统110内的存储器控制器113,如图5所示,具有比较两系统100、100的CPU子系统110、110间的CPU总线的动作信号的功能(CPU总线比较功能)。在图5的例子中,具有比较自身系统的CPU子系统110内的CPU总线的动作信号(参照图中的箭头A6)、和其他系统的CPU子系统110内的CPU总线的动作信号(参照图中的箭头A7)、将其结果(一致、不一致)向FT控制器130输出的比较部114。
另外,FT控制器130,如前所述具有跟踪由两CPU子系统110、110内的CPU总线上的访问动作引起的两动作信号发生不一致后的存储器112的主存储访问动作、获得自身和其他系统的存储器112、112间的主存储内容的差信息的功能(以下称“主存储访问跟踪功能”)。
图6的例子表示通过DMA/共享资源控制器122执行的从#0系统向#1系统复制主存储内容的全部或者一部分的情况。
首先,在自身系统侧从DMA/共享资源控制器122经由FT控制器130和存储器控制器112向存储器112发出DMA读取请求(参照图中的箭头A8、A9),存储器112的主存储内容的全部或者一部分经由存储器控制器112和FT控制器130向DMA/共享资源控制器122内的共享存储器发送(参照图中的箭头A10、A11)。
同时,从自身系统侧的存储器控制器112通过FT控制器130、交叉链路140,经由其他系统侧的FT控制器130、DMA/共享资源控制器122向其他系统侧的存储器控制器112发出DMA写入请求(参照图中的箭头A12、A13),在自身系统侧的DMA/共享资源控制器122内的共享存储器中临时存储的存储器112的主存储内容的全部或者一部分通过FT控制器130、交叉链路140,经由其他系统侧的FT控制器130、存储器控制器112复制到存储器112中(参照图中的箭头A14、A15)。
为实现上述各种功能,在本实施例的FT控制器130中,定义表示系统动作状态的状态,由相应运行状态规定执行错误处理、二重冗余处理、以及再同步处理的软件动作,由此执行为实现容错的状态管理。
基本上,通过错误检测引起的子系统110、120的分离(状态转移)由硬件实时进行,但是子系统110、120的插入通过软件开始。根据错误检测的通知由CPU调用的软件,按照检测到的错误内容和其时的状态信息,识别系统的动作信息(CPU子系统110的同步、异步的状态,可否访问),选择处理。
这里说明使用FT控制器130管理的状态。
使用FT控制器130管理的状态,汇总表示CPU 111的状态、CPU子系统110、和IO子系统120之间的访问许可状态、两系统100、100之间的链路的状态,通过软件控制或硬件错误检测事件等能够进行状态转移。
另外,作为状态的预备信息,给每一状态定义作为排他的动作方式的“ACT(active:有效)”方式和“SBY(stand-by:备用)”方式。作为几种错误检测机构,在FT控制器130中,执行从自身系统的CPU子系统110对自身系统的IO子系统120的访问比较或CPU子系统110内的CPU总线的动作比较。由此在比较不一致不能确定具体错误位置的情况下,动作方式是“ACT”方式的CPU子系统110继续服务,动作方式是“STB”方式的CPU子系统110被分离。
表1及表2,表示定义的状态以及动作方式的内容。
表1
状态   动作方式   内容
Online sync(联机同步)   ACT   两系统的CPU同步动作的状态。可访问两系统的IO。检测到错误时如无其他确定疑点的材料则优先剩下。
  SBY   两系统的CPU同步动作的状态。可访问两系统的IO。检测到错误时如无其他确定疑点的材料则分离。
Pre onlinesync(联机同步前)   ACT   两系统的CPU同步动作的状态。可访问两系统的IO。为进行CPU二重冗余在系统间执行DMA后成为该状态。软件开始两系统的主存储内容的比较检查,如通过该试验,则成为“Online sync”状态。此时,如检查出错误,如无其他确定疑点的材料则优先剩下。
  SBY   两系统的CPU同步动作的状态。可访问两系统的IO。为进行CPU二重冗余在系统间执行DMA后成为该状态。软件开始两系统的主存储内容的比较检查,如通过该试验时,则成为“Online sync”状态。此时,如检查出错误,如无其他确定疑点的材料则分离。
  Online asnc(联机异步) ACT 在“Online sync”状态下,在CPU总线比较功能中发生不一致的状态。可访问两系统的IO。为高速再同步化的临时状态。跟踪主存储访问。在处于该状态的期间中只要通过硬件或软件能确定故障疑点的CPU子系统,通过比较缓冲器或者主存储跟踪用存储器成为“满(full)”或者“几乎满(almostfull)”转移到“Online sync”状态
STY 在“Online sync”状态下,在CPU总线比较功能中发生不一致的状态。可访问两系统的IO。为高速再同步化的临时状态。跟踪主存储访问。在处于该状态的期间中只要通过硬件或软件能确定故障疑点的CPU子系统,通过比较缓冲器或者主存储跟踪用存储器成为“满(full)”或者“几乎满(almostfull)”转移到“Fault”状态
  Online ready(联机准备) - 两系统的CPU异步动作的状态。表示在二重冗余前执行服务的CPU子系统。可访问两系统的IO。成为二重冗余处理时的主存储复制的复制源。通过和“Recover offline”状态的CPU组合进行同步复位,转移到“Pre online sync”状态,由此,识别复位是和投入电源时的状态不同的同步状态。
表2
  状态   动作方式 内容
  Online divide(联机分离)   - 两系统的CPU异步动作的状态。在“Online ready”状态的状态下切断交叉链路。可访问自身系统的IO,但不可访问其他系统的IO。但是可访问CPU的二重冗余必要的DMA/共享资源控制器。
  Offline divide(脱机分离)   - 两系统的CPU异步动作的状态。表示不在执行二重冗余前的服务的CPU子系统。可访问自身系统的IO,但不可访问其他系统的IO。但是可访问CPU的二重冗余必要的DMA/共享资源控制器。
  Offline(脱机)   - 两系统的CPU异步动作的状态。表示不在执行二重冗余前的服务的CPU子系统。可访问两系统的IO。
  Recoveroffline(脱机复制)   - 两系统的CPU异步动作的状态。表示在不执行二重冗余前的服务的CPU子系统。可访问两系统的IO。为二重冗余处理时的主存储复制的复制源。表示二重冗余处理执行中的状态,通过同步复位转移到“Pre online sync”状态。由此,识别复位是和电源投入时的状态不同的同步状态。
  Pre Offline(脱机前)   - 两系统的CPU异步动作的状态。CPU总线不一致后“SBY”方式的CPU子系统为执行高速再同步决定从服务分离后当时的状态。全部CPU进入SMM,通过结束再同步化处理开始的准备(到返回SMI ACK:全部CPU的SMI进入信号),转移到“Recover offline”状态。和“Fault”状态同样,抑制和子系统外的访问。
  Fault(故障) -   通过错误检测,通过明确展示的故障执行从服务分离的状态。全部抑制和自身系统以及其他系统也包含的其他子系统的访问。
这里,参照上述表,说明状态的详情。
在本实施例中定义的状态中,大致分为1)编入提供服务的系统中的状态(Online(联机)系)、2)从系统分离的状态(Offline(脱机)系)、以及3)从系统封锁的状态(Fault(错误)系)三种。以下顺序说明它们。
编入提供服务的系统中的状态(Online(联机)系)
表示该系统动作状态的状态,赋予状态名“Online”。该状态的CPU子系统110(CPU 111)表示实际提供服务的CPU。此外,根据同步状态或访问的限制,派生出以下的1-1)~1-5)多个状态ST1~ST5。
1-1)“Online divide(联机分离)”状态ST1
这是最初设定电源投入后的CPU子系统110的状态。成为该状态ST1的CPU子系统110,在容错系统中只有一个,与它成对的CPU子系统110成为后述的“Offline divide”状态。CPU子系统110,在“Online divide”状态ST1时,只访问自身系统的IO子系统120,不过可完全访问,在该CPU子系统100上动作的BIOS(Basic Input Output System)进入起动OS的阶段。
1-2)“Online ready(联机准备)”状态ST2
这是从“Online divide”状态ST1连接交叉链路140状态时的状态。另外,在后述的“Online async”状态成对的CPU子系统110、110中,在所述IO访问不一致或者CPU总线不一致时临时存储用主存储访问跟踪功能得到的信息的缓冲器超过规定阈值而成为“几乎满(almost full)”的状态时,通过软件指示动作方式是“ACT”方式的CPU子系统110成为“Onlineready”状态ST2(此时动作方式是“SBY”方式的CPU子系统110成为后述的“Pre offline”状态)。在从“Online divide”状态ST1向“Online ready”状态ST2转移时,与之成对的CPU子系统110从后述的“Offline divide”状态向“Offline”状态转移。该状态ST2的CPU子系统110能够完全访问其他系统上的IO子系统120,反之,也可以从该IO子系统120访问相应CPU子系统110。
1-3)“Pre online sync(联机同步前)”状态ST3
这是同步化处理中的同步复位解除后的状态,两系统100、100实质上处于同步状态。在该“Pre online sync”状态ST3和后述的“Online sync”状态时,通过从CPU子系统110向IO子系统120的出站访问动作执行的动作信号的比较成为有效。
同步化处理中的两系统间的主存储内容比较检查是未结束的状态,由于两系统间的主存储的内容不保证完全一致,所以不作为完全同步状态处理,置于高速再同步化处理的对象之外。在发生故障或者发生不一致的情况下,动作方式是“SBY”方式的CPU子系统110置为出错,动作方式是“ACT”方式的CPU子系统110,不管两系统何者发生故障,都不能置为出错。在该状态ST3时,CPU子系统110的动作方式不能切换(“ACT”方式/“SBY”方式)。
1-4)“Online sync(联机同步)”状态ST4
这是表示完全的同步状态(二重冗余)的状态。在该情况下,两系统100、100的状态,任何一个都是“Online sync”状态ST4。该状态ST4,因为是同步状态,所以如发生故障,故障状态分离功能发挥作用,如正进行FSB(Front Sid Bus)比较的话则能够高速再同步。
1-5)“Online async(联机异步)”状态ST5
这是在“Online sync”状态ST4的状态下在执行CPU总线不一致的检测的情况下转移的临时状态。在该时刻,因为还像维持同步那样处理,所以如果在故障位置发生明确展示的故障的话,则故障部分的分离的机构作用。在这种情况下,两系统100、100都成为“Online sync”状态ST5。
CPU总线不一致的结果,通过主存储访问跟踪功能的动作开始。由此,如IO访问缓冲器“满(Full)”,或者主存储访问跟踪的大小达到界限,则动作方式为“ACT”方式的CPU子系统110成为后述的“Offline ready”,动作方式为“SBY”方式的CPU子系统110成为“Pre offline”状态。另外,在动作方式为“SBY”方式的CPU子系统110侧,在具体执行确定故障的错误检测的情况下,成为后述的“Fault”状态。
2)从系统分离的状态(Offline系)
表示该系统动作状态的状态,赋予状态名“Offline”。该状态的CPU子系统110(CPU 111)表示从实际的系统分离。之外,根据访问限制或者同步化处理状态,派生出以下2-1)~2-4)所示的多个状态ST6~ST9。
2-1)“Offline divide(脱机分离)”状态ST6
这是表示投入电源加电复位后当时的状态的状态。亦即未成为“Onlinedivide”状态ST1的系统100侧的CPU子系统110的状态。不能进行对其他系统的IO子系统120的访问,但是可以对自身系统的IO子系统120进行访问。从IO子系统120对该CPU子系统110的访问也可以完全访问。
2-2)“Offline(脱机)”状态ST7
这是从“Offline divide”状态ST6到交叉链路140状态后的状态。另外,在处于后述的“Fault”状态中的CPU子系统110中是执行复位后的状态。在从“Offline divide”状态ST6转移时,成对的“Online divide”状态ST1的CPU子系统110转移到“Online ready”状态ST2。它与“Offlinedivide”状态ST6不同,不管自身和其他系统,可进行对IO子系统120的访问,但是,因为成为异步访问,所以和其他系统的CPU 111的访问竞争由软件管理。
2-3)“Recover Offline(脱机复制)”状态ST8
这是从“Offline”状态ST7进入通过DMA/共享资源控制器122的DMA控制器执行存储器112的主存储复制的二重冗余处理时的恢复方式的设定时刻。另外,在后述的“Pre offline”状态ST9时,通过作为系统管理编入请求的SMI(System Management Interrupt)进入信号从全部CPU进行SMM(System Management Mode),响应这点,从全部CPU返回SMIACK(ACKnowledgement),通过结束再同步化处理的准备,转移到该状态ST8。在该状态ST8,从CPU子系统110对IO子系统120的访问,仅异步请求可能。在该状态ST8中,通过对于从IO子系统120向CPU子系统110的异步请求的完成、和来自IO子系统120的请求。
2-4)“Pre Offline(脱机前)”状态ST9
它不检测在“Online async”状态ST5的CPU子系统110中明示的错误,在发生IO访问不一致或CPU总线不一致时的主存储访问跟踪“几乎满(Almost Full)”时,通过软件指示动作方式为“SBY”方式的CPU子系统110进行转移(动作方式为“SBY”方式的CPU子系统110向“Onlineready”状态ST2转移)。在该时刻,解除系统的二重冗余。向该状态ST9转移时,在向动作方式为“SBY”方式的CPU子系统110的全部的CPU 111发出SMI、从全部的CPU 111返回SMI ACK、再同步化处理准备齐备之前,继续该状态ST9。在处于该状态ST9时,相应CPU子系统110从系统分离,废弃对IO子系统120的访问,在CPU子系统110中以主·放弃响应。
与系统闭锁的状态(Fault系)
3-1)“Fault(错误)”状态ST10
这是判断为CPU子系统110故障、与系统分离的状态,或者是CPU子系统110的分离由软件强制进入的状态。在处于该状态ST9时,来自外部和来自内部的访问都不可能,从CPU子系统110对IO子系统120的访问作为主·放弃处理。
表3以及表4表示是让通过还是抑制在CPU子系统110和IO子系统120之间交换的请求的状态。这里,对于请求的完成全部通过。表中,分别用○表示可以访问,△表示有访问限制,×表示作为主·放弃返回。
表3
               从CPU子系统对IO子系统的出站访问
  状态 CPU出站·请求/消息
  Online syncPre onlinesyncOnline readyOnline async
Online divideOffline divide △(Destination=仅自身系统的IO:对自身系统的资源可访问,但是对经由交叉链路访问的其他系统的资源限制。在DMA/共享资源控制器中可以访问,但是不能对其他系统的IO设备进行访问)
OfflineRecoveroffline ○(两系统的CPU可分别异步访问,但是需要使用软件的排他处理等的管理)
  Pre offlineFault ×(主·放弃)
○:可以访问
△:有访问限制
×:主·放弃
表4
           从IO子系统对CPU子系统的入站·访问
  状态   CPU入站·请求/消息
  Online syncPre online syncOnline readyOnline async   ○
Online divideOffline divide   △(Sourse=仅自身系统的IO)
  Recover offline   ○
  Offline   △(Sourse=仅DMA/共享资源控制器)
  Pre offlineFault   ×
○:可以访问
△:有访问限制
×:主·放弃
从CPU子系统110对IO子系统120的出站(outbound)访问,通常仅来自正在进行服务的CPU子系统110的访问成为有效。因此,因为对应的完成也仅返回服务中的CPU子系统110,所以不能进行从服务外的CPU子系统110对IO子系统120的访问。
因此,在本实施例中,即使是服务外的CPU子系统110,也通过异步请求准备对IO子系统120的访问的方法。异步请求,CPU 111在“Offline”状态ST7、“Offline divide”状态ST6、“Recover offline”状态ST8时,可用系统100内的未图示的路由确定程序(router)设定。异步请求,在各系统100中作为不同的请求处理,对它的完成,向发出异步请求的系统100返回。这点,因为在同一资源中也可以访问,所以需要通过软件以排他控制等方法避免竞争。
图7是表示使用由FT控制器130进行的上述状态ST1~ST10的处理的流程图。
FT控制器130,接收关联上述状态ST1~ST10的状态转移事件、错误检测事件、或者软件指示(预先设定的事件信号)(步骤S1),与此对应转移到CPU子系统110的状态ST1~ST10(步骤S2:参照后述的图8~图11),对应转移的状态ST1~ST10选择容错用的错误处理、二重冗余处理(同步化处理)、以及再同步化处理(软件动作)(步骤S3),使CPU子系统110执行(CPU 111)执行选择的处理(步骤S4)。
图8表示上述状态ST1~ST10的状态转移图。如图8所示,由FT控制器130管理的状态ST1~ST10根据状态转移事件、错误检测事件、软件指示(预先设定的事件信号)执行转移。
图9~图11表示说明根据CPU 111的状态转移事件进行的状态转移的时序图。
图9表示系统的电源ON(打开)时的处理顺序。
首先,在#0系统侧执行#0系统的电源打开复位(T100)。此时的状态是“Offline divide”状态ST6。接着,通过主板控制器101把#0系统置为“ACT”方式(T101)。由此,#0系统转移到“Online divide”状态ST1。然后,解除复位,执行BIOS,启动OS(T102~T104)。
接着,在#1系统侧执行#1系统的电源打开复位(T200)。此时的状态是“Offline divide”状态ST6。接着,通过主板控制器101把#1系统置为“SBY”方式(T201)。此时,#0系统保持是“Offline divide”状态ST6。然后,解除复位,执行BIOS(T202~T203)。
接着,通过交叉链路140、140连接两系统后(S204),#0系统转移到“Online ready”状态ST2,#1系统转移到“Offline”状态ST7。
接着,在#1系统侧,一边使BIOS循环,一边等待CPU子系统110的系统同步处理(T205)。
图10表示执行CPU子系统110的系统同步化处理时的处理顺序。
接着,在#0系统侧开始系统同步化处理后(T105),在#1系统侧,在循环BIOS(T205)后,从“Offline”状态ST7置为“Recover offline”状态ST8。此时,在#0系统侧,保持为“Online ready”状态ST2。
接着,在#0系统侧,通过DMA控制器开始存储器的复制(T106),该DMA存储器复制结束后(T107),通过SMI BIOS执行CPU 111的编入处理(T108),CPU 111的超高速缓冲存储器/环境向#1系统复制(T109)。
接着,在两系统中进行同步复位(T110)。由此,#0系统侧从“Onlineready”状态ST2转移到“Pre Online sync”状态ST3,#1系统侧从“Recoveroffline”状态ST8转移到“Pre Online sync”状态ST3。此时,#0系统侧的动作方式成为“ACT”方式,#1系统侧的动作方式成为“SBY”方式。
接着,在#0系统侧,起动BIOS(T111),恢复CPU 111的环境(T112),返回到OS(T113),通过DMA控制器开始存储器的检查(T114)。该存储器的检查结束后(T115),#0系统从“Pre Online sync”状态ST3转移到“Online sync”状态ST4。
同样,在#1系统侧也起动BIOS(T207),恢复CPU 111的环境(T208),返回到OS(T209),通过DMA控制器开始存储器的检查(T210)。该存储器的检查结束后(T211),#1系统从“Pre Online sync”状态ST3转移到“Online sync”状态ST4。
此时,#0系统侧的动作方式成为“ACT”方式,#1系统侧的动作方式成为“SBY”方式。
图11表示因为发生两系统的CPU总线动作的不一致执行再同步处理时的处理顺序。
首先,如由于两系统的CPU总线动作的不一致发生同步偏离(T116、T212),则任何一个都从“Online sync”状态ST4转移到“Online async”状态ST5。然后,因为错误检查,执行存储器访问跟踪,如访问跟踪成为“几乎满(Almost full)”(T117、T213),则在#0系统侧,从“Online async”状态ST4转移到“Online ready”状态ST2,在#1系统侧,从“Online async”状态ST4转移到“Pre offline”状态ST9。
接着,在两系统中,通过SMI BIOS执行CPU 111的编入处理(T118,T214),在#1系统侧从“Pre offline”状态ST9转移到“Recover offline”状态ST8。此时,在#0系统侧,保持为“Online ready”状态ST2。
接着,在两系统中,通过DMA控制器开始存储器112的部分复制(T119、T215),它结束后(T120,T216),CPU 111的超高速缓冲存储器/环境向#1系统复制(T121、T217)。
接着,在两系统中执行同步复位(T122)。由此,#0系统侧从“Onlineready”状态ST2转移到“Pre online sync”状态ST3,#1系统侧从“Recoveroffline”状态ST8转移到“Pre online sync”状态ST3。此时,#0系统侧的动作方式成为“ACT”方式,#1系统侧的动作方式成为“SBY”方式。
接着,在#0系统侧,起动BIOS(T123),恢复CPU 111的环境(T124),返回到OS(T125),通过DMA控制器开始存储器的检查(T126)。该存储器的检查结束后(T127),#0系统从“Pre Online sync”状态ST3转移到“Online sync”状态ST4。
同样,在#1系统侧,也起动BIOS(T218),恢复CPU 111的环境(T219),返回到OS(T220),通过DMA控制器开始存储器的检查(T221)。该存储器的检查结束后(T222),#1系统从“Pre Online sync”状态ST3转移到“Online sync”状态ST4。
因此,在本实施例中,通过定义表示容错功能所需要的系统动作的多个状态,根据这些状态的状态规定用于执行错误处理、二重冗余处理(同步化处理)、以及再同步化处理的软件动作,实现容错功能。亦即根据本实施例,根据运行状态规定FT控制器的系统的分离·连接和子系统的分离·连接、用各系统的CPU执行的软件,通过从错误通知以及运行状态确认自身的CPU状态,进行错误检测或再同步化处理的处理选择,能够实现容错功能。
此外,在上述实施例中,作为容错系统举例表示二重冗余计算机系统,但是本发明不限于此,例如也可以适用于三重冗余等多重冗余的情况。

Claims (20)

1、容错系统,具有用互相相同的计算机硬件构成的多个系统,其特征在于,
所述多个系统具有:
可在自身和其他系统间以锁步同步动作的处理部,
连接所述处理部的输入输出部,
在所述处理部以及所述输入输出部之间连接的控制部,和
通过所述控制部互相连接所述自身和其他系统间的信号传送路径,
所述控制部,具有:
管理模块,其将通过所述多个系统执行的容错用的用于进行错误处理、同步化处理、以及再同步化处理的多个系统动作,作为与之对应的多个状态,与规定的事件信号关联进行管理,
控制模块,其对应所述事件信号,对于所述多个系统的每一个转移所述多个状态,同时选择所述多个系统动作使所述处理部执行。
2、如权利要求1所述的容错系统,其特征在于,
所述多个系统动作具有:
自身系统内的所述处理部以及所述输入输出部之间的访问控制,
自身和其他系统间的所述处理部以及所述输入输出部之间的访问控制,
所述自身和其他系统间的从所述处理部对所述输入输出部的访问比较,
所述自身和其他系统间的所述处理部内的总线上的访问比较,和
所述自身和其他系统间的所述处理器的主存储复制。
3、如权利要求2所述的容错系统,其特征在于,所述主存储复制包含部分复制。
4、如权利要求1到3中任何一项所述的容错系统,其特征在于,
所述多个状态具有:
表示编入在所述多个系统的提供服务的系统中的状态的联机系状态,
表示从所述提供服务的系统中分离的状态的脱机系状态,和
表示通过错误检测从所述提供服务的系统中分离的状态的错误系状态。
5、如权利要求1所述的容错系统,其特征在于,
所述联机系状态有:
表示电源投入时所述处理部在自身和其他系统中互相异步动作的状态的联机分离状态,
表示所述处理部在所述自身和其他系统中互相异步动作的状态的联机准备状态,
表示所述处理部在所述自身和其他系统中互相同步动作、检查该处理部内的主存储内容的状态的联机同步前状态,
表示所述处理部在所述自身和其他系统中互相同步动作的状态的联机同步状态,和
表示在所述联机同步状态时所述处理部内的总线上的动作在所述自身和其他系统中成为互相不一致时的临时的状态的联机异步状态,
所述脱机系状态有:
表示所述电源投入时所述处理部在所述自身和其他系统中互相异步动作的状态、与所述联机分离状态成对的脱机分离状态,
表示所述处理部在所述自身和其他系统中互相异步动作的状态、与所述联机准备状态成对的脱机状态,
在所述自身和其他系统间执行所述处理部的主存储复制、表示该处理部在所述自身和其他系统中互相异步动作的状态的脱机复制状态,和
表示在所述处理部内的总线上的动作在所述自身和其他系统中成为互相不一致时从所述系统分离的状态的脱机前状态。
6、一种控制装置,用于备有具有互相相同的处理部以及输入输出部的多个系统的容错系统中,其特征在于,具有状态管理模块和控制模块,
所述状态管理模块把通过所述多个系统执行的容错用的、为进行错误处理、同步化处理、以及再同步化处理的多个系统动作,作为与之对应的多个状态,与规定的事件信号相关联进行管理,
所述控制模块对应所述事件信号,对于所述多个系统的每一个使所述多个状态转移,同时选择所述多个系统动作使所述处理部执行。
7、如权利要求6所述的容错系统中使用的控制装置,其特征在于,
所述多个系统动作具有:
自身系统内的所述处理部以及所述输入输出部之间的访问控制,
自身和其他系统间的所述处理部以及所述输入输出部之间的访问控制,
所述自身和其他系统间的从所述处理部对所述输入输出部的访问比较,
所述自身和其他系统间的所述处理部内的总线上的访问比较,和
所述自身和其他系统间的所述处理器的主存储复制。
8、如权利要求7所述的容错系统中使用的控制装置,其特征在于,所述主存储复制包含部分复制。
9、如权利要求6到8中任何一项所述的容错系统中使用的控制装置,其特征在于,
所述多个状态具有:
表示编入在所述多个系统的提供服务的系统中的状态的联机系状态,
表示从所述提供服务的系统中分离的状态的脱机系状态,和
表示通过错误检测从所述提供服务的系统中分离的状态的错误系状态。
10、如权利要求9所述的容错系统中使用的控制装置,其特征在于,
所述联机系状态有:
表示电源投入时所述处理部在自身和其他系统中互相异步动作的状态的联机分离状态,
表示所述处理部在所述自身和其他系统中互相异步动作的状态的联机准备状态,
表示所述处理部在所述自身和其他系统中互相同步动作、检查该处理部内的主存储内容的状态的联机同步前状态,
表示所述处理部在所述自身和其他系统中互相同步动作的状态的联机同步状态,和
表示在所述联机同步状态时所述处理部内的总线上的动作在所述自身和其他系统中成为互相不一致时的临时的状态的联机异步状态,
所述脱机系状态有:
表示所述电源投入时所述处理部在所述自身和其他系统中互相异步动作的状态、与所述联机分离状态成对的脱机分离状态,
表示所述处理部在所述自身和其他系统中互相异步动作的状态、与所述联机准备状态成对的脱机状态,
在所述自身和其他系统间执行所述处理部的主存储复制、表示该处理部在所述自身和其他系统中互相异步动作的状态的脱机复制状态,和
表示在所述处理部内的总线上的动作在所述自身和其他系统中成为互相不一致时从所述系统分离的状态的脱机前状态。
11、一种容错系统的动作方法,所述容错系统备有具有互相相同的处理部以及输入输出部的多个系统,该容错系统的动作方法特征在于,具有:
把通过所述多个系统执行的容错用的、为进行错误处理、同步化处理、以及再同步化处理的多个系统动作,作为与之对应的多个状态,与规定的事件信号关联进行管理的步骤,和
对应所述事件信号,对于所述多个系统的每一个使所述多个状态转移,同时选择所述多个系统动作使所述处理部执行的步骤。
12、如权利要求11所述的容错系统的动作方法,其特征在于,
所述多个系统动作具有:
自身系统内的所述处理部以及所述输入输出部之间的访问控制,
自身和其他系统间的所述处理部以及所述输入输出部之间的访问控制,
所述自身和其他系统间的从所述处理部对所述输入输出部的访问比较,
所述自身和其他系统间的所述处理部内的总线上的访问比较,和
所述自身和其他系统间的所述处理器的主存储复制。
13、如权利要求12所述的容错系统的动作方法,其特征在于,所述主存储复制包含部分复制。
14、如权利要求11到13中任何一项所述的容错系统的动作方法,其特征在于,
所述多个状态具有:
表示编入在所述多个系统的提供服务的系统组的状态的联机系状态,
表示从所述提供服务的系统中分离的状态的脱机系状态,和
表示通过错误检测从所述提供服务的系统中分离的状态的错误系状态。
15、如权利要求14所述的容错系统的动作方法,其特征在于,
所述联机系状态有:
表示电源投入时所述处理部在自身和其他系统中互相异步动作的状态的联机分离状态,
表示所述处理部在所述自身和其他系统中互相异步动作的状态的联机准备状态,
表示所述处理部在所述自身和其他系统中互相同步动作、检查该处理部内的主存储内容的状态的联机同步前状态,
表示所述处理部在所述自身和其他系统中互相同步动作的状态的联机同步状态,和
表示在所述联机同步状态时所述处理部内的总线上的动作在所述自身和其他系统中成为互相不一致时的临时的状态的联机异步状态,
所述脱机系状态有:
表示所述电源投入时所述处理部在所述自身和其他系统中互相异步动作的状态、与所述联机分离状态成对的脱机分离状态,
表示所述处理部在所述自身和其他系统中互相异步动作的状态、与所述联机准备状态成对的脱机状态,
在所述自身和其他系统间执行所述处理部的主存储复制、表示该处理部在所述自身和其他系统中互相异步动作的状态的脱机复制状态,和
表示在所述处理部内的总线上的动作在所述自身和其他系统中成为互相不一致时从所述系统分离的状态的脱机前状态。
16、一种容错系统的动作程序,所述容错系统备有具有互相相同的处理部以及输入输出部的多个系统,该容错系统的动作程序特征在于,具有:
把通过所述多个系统执行的容错用的、为进行错误处理、同步化处理、以及再同步化处理的多个系统动作,作为与之对应的多个状态,与规定的事件信号关联进行管理的步骤,和
对应所述事件信号,对于所述多个系统的每一个使所述多个状态转移,同时选择所述多个系统动作使所述处理部执行的步骤。
17、如权利要求16所述的容错系统的动作程序,其特征在于,
所述多个系统动作具有:
自身系统内的所述处理部以及所述输入输出部之间的访问控制,
自身和其他系统间的所述处理部以及所述输入输出部之间的访问控制,
所述自身和其他系统间的从所述处理部对所述输入输出部的访问比较,
所述自身和其他系统间的所述处理部内的总线上的访问比较,和
所述自身和其他系统间的所述处理器的主存储复制。
18、如权利要求17所述的容错系统的动作程序,其特征在于,所述主存储复制包含部分复制。
19、如权利要求16到18中任何一项所述的容错系统的动作程序,其特征在于,
所述多个状态具有:
表示编入在所述多个系统的提供服务的系统中的状态的联机系状态,
表示从所述提供服务的系统中分离的状态的脱机系状态,和
表示通过错误检测从所述提供服务的系统中分离的状态的错误系状态。
20、如权利要求19所述的容错系统的动作程序,其特征在于,
所述联机系状态有:
表示电源投入时所述处理部在自身和其他系统中互相异步动作的状态的联机分离状态,
表示所述处理部在所述自身和其他系统中互相异步动作的状态的联机准备状态,
表示所述处理部在所述自身和其他系统中互相同步动作、检查该处理部内的主存储内容的状态的联机同步前状态,
表示所述处理部在所述自身和其他系统中互相同步动作的状态的联机同步状态,和
表示在所述联机同步状态时所述处理部内的总线上的动作在所述自身和其他系统中成为互相不一致时的临时的状态的联机异步状态,
所述脱机系状态有:
表示所述电源投入时所述处理部在所述自身和其他系统中互相异步动作的状态、与所述联机分离状态成对的脱机分离状态,
表示所述处理部在所述自身和其他系统中互相异步动作的状态、与所述联机准备状态成对的脱机状态,
在所述自身和其他系统间执行所述处理部的主存储复制、表示该处理部在所述自身和其他系统中互相异步动作的状态的脱机复制状态,和
表示在所述处理部内的总线上的动作在所述自身和其他系统中成为互相不一致时从所述系统分离的状态的脱机前状态。
CNA2005101215764A 2004-12-21 2005-12-19 容错系统及其中所使用的控制装置、动作方法 Pending CN1804811A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004369380A JP2006178616A (ja) 2004-12-21 2004-12-21 フォールトトレラントシステム、これで用いる制御装置、動作方法、及び動作プログラム
JP2004369380 2004-12-21

Publications (1)

Publication Number Publication Date
CN1804811A true CN1804811A (zh) 2006-07-19

Family

ID=36018211

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005101215764A Pending CN1804811A (zh) 2004-12-21 2005-12-19 容错系统及其中所使用的控制装置、动作方法

Country Status (6)

Country Link
US (1) US7519856B2 (zh)
EP (1) EP1675003A3 (zh)
JP (1) JP2006178616A (zh)
CN (1) CN1804811A (zh)
AU (1) AU2005246986A1 (zh)
CA (1) CA2531092A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455393A (zh) * 2013-09-25 2013-12-18 浪潮电子信息产业股份有限公司 一种基于进程冗余的容错系统设计方法
CN103703427A (zh) * 2011-07-20 2014-04-02 飞思卡尔半导体公司 同步第一处理单元和第二处理单元的处理装置和方法
CN104007657A (zh) * 2013-12-13 2014-08-27 许继集团有限公司 一种三重冗余系统与两重冗余系统的对接装置及方法
CN104597850A (zh) * 2013-10-30 2015-05-06 北京精密机电控制设备研究所 用于三冗余伺服控制器的数据交互及同步的方法和装置
CN104810808A (zh) * 2015-04-03 2015-07-29 南京国电南自电网自动化有限公司 一种多总线保护出口仲裁容错系统及方法
CN106537268A (zh) * 2014-07-30 2017-03-22 西门子公司 用于分派控制权限给计算机的方法和系统
CN106796541A (zh) * 2015-03-20 2017-05-31 瑞萨电子株式会社 数据处理装置
CN107273248A (zh) * 2016-04-05 2017-10-20 瑞萨电子株式会社 半导体设备以及访问管理方法
CN111581003A (zh) * 2020-04-29 2020-08-25 浙江大学 一种全硬件双核锁步处理器容错系统

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437605B2 (en) * 2002-09-10 2008-10-14 Union Switch & Signal, Inc. Hot standby method and apparatus
US7496786B2 (en) * 2006-01-10 2009-02-24 Stratus Technologies Bermuda Ltd. Systems and methods for maintaining lock step operation
US8370423B2 (en) * 2006-06-16 2013-02-05 Microsoft Corporation Data synchronization and sharing relationships
US20080109464A1 (en) * 2006-11-06 2008-05-08 Microsoft Corporation Extending Clipboard Augmentation
US8020112B2 (en) * 2006-11-06 2011-09-13 Microsoft Corporation Clipboard augmentation
US8453066B2 (en) 2006-11-06 2013-05-28 Microsoft Corporation Clipboard augmentation with references
US8751442B2 (en) 2007-02-12 2014-06-10 Microsoft Corporation Synchronization associated duplicate data resolution
US7933296B2 (en) * 2007-03-02 2011-04-26 Microsoft Corporation Services for data sharing and synchronization
JP4640359B2 (ja) * 2007-03-12 2011-03-02 日本電気株式会社 フォールトトレラントコンピュータ、フォールトトレラントコンピュータにおける同期制御方法
US7950014B2 (en) * 2007-06-01 2011-05-24 Microsoft Corporation Detecting the ready state of a user interface element
JP2009098988A (ja) * 2007-10-18 2009-05-07 Nec Computertechno Ltd フォルトトレラントコンピュータシステム
JP4822024B2 (ja) * 2008-02-29 2011-11-24 日本電気株式会社 フォールトトレラントサーバ、フルバックアップ方法、およびフルバックアッププログラム
US8296671B2 (en) 2008-05-01 2012-10-23 Microsoft Corporation Enabling access to rich data by intercepting paste operations
JP5347414B2 (ja) 2008-10-03 2013-11-20 富士通株式会社 同期制御装置,情報処理装置及び同期管理方法
JP5509637B2 (ja) * 2009-03-18 2014-06-04 日本電気株式会社 フォールトトレラントシステム
JP5760847B2 (ja) * 2011-08-22 2015-08-12 日本電気株式会社 情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラム
CN102364448B (zh) * 2011-09-19 2014-01-15 浪潮电子信息产业股份有限公司 一种计算机故障管理系统的容错方法
JP5772911B2 (ja) 2013-09-27 2015-09-02 日本電気株式会社 フォールトトレラントシステム
CN103593251A (zh) * 2013-11-07 2014-02-19 浪潮电子信息产业股份有限公司 一种基于进程冗余的容错系统及其设计方法
JP5880608B2 (ja) 2014-03-24 2016-03-09 日本電気株式会社 フォールトトレラントサーバ
JP2016115239A (ja) * 2014-12-17 2016-06-23 日本電気株式会社 フォールトトレラントシステム、フォールトトレラント方法、及び、プログラム
JP6540113B2 (ja) * 2015-03-12 2019-07-10 日本電気株式会社 フォールトトレラントサーバおよび同期化方法、並びにコンピュータ・プログラム
US10063376B2 (en) 2015-10-01 2018-08-28 International Business Machines Corporation Access control and security for synchronous input/output links
US9710171B2 (en) * 2015-10-01 2017-07-18 International Business Machines Corporation Synchronous input/output commands writing to multiple targets
US10120818B2 (en) 2015-10-01 2018-11-06 International Business Machines Corporation Synchronous input/output command
JP6083480B1 (ja) * 2016-02-18 2017-02-22 日本電気株式会社 監視装置、フォールトトレラントシステムおよび方法
US10474532B1 (en) * 2017-07-28 2019-11-12 EMC IP Holding Company LLC Automatic fault tolerance in a computing system providing concurrent access to shared computing resource objects
US11556394B2 (en) * 2021-05-14 2023-01-17 Nxp B.V. System and method for controlling access to shared resource in system-on-chips

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS615350A (ja) 1984-06-18 1986-01-11 Toshiba Corp 計算機
AU616213B2 (en) * 1987-11-09 1991-10-24 Tandem Computers Incorporated Method and apparatus for synchronizing a plurality of processors
US5163148A (en) * 1989-08-11 1992-11-10 Digital Equipment Corporation File backup system for producing a backup copy of a file which may be updated during backup
US6233702B1 (en) * 1992-12-17 2001-05-15 Compaq Computer Corporation Self-checked, lock step processor pairs
US6157967A (en) * 1992-12-17 2000-12-05 Tandem Computer Incorporated Method of data communication flow control in a data processing system using busy/ready commands
JPH0723079A (ja) 1993-07-01 1995-01-24 Fujitsu Ltd 二重化システムの運用系決定方法
EP0986008B1 (en) * 1993-12-01 2008-04-16 Marathon Technologies Corporation Computer system comprising controllers and computing elements
JP3319146B2 (ja) 1994-05-13 2002-08-26 富士電機株式会社 二重化制御システムのデータ同期転写方法
JPH08221285A (ja) 1995-02-09 1996-08-30 Nec Eng Ltd 情報処理システム
JPH08241286A (ja) 1995-03-06 1996-09-17 Nec Eng Ltd マルチ情報処理システムのクロック同期化システム
US5887146A (en) * 1995-08-14 1999-03-23 Data General Corporation Symmetric multiprocessing computer with non-uniform memory access architecture
US5953742A (en) * 1996-07-01 1999-09-14 Sun Microsystems, Inc. Memory management in fault tolerant computer systems utilizing a first and second recording mechanism and a reintegration mechanism
JPH10187472A (ja) 1996-12-19 1998-07-21 Fujitsu Ltd データ処理システム
US6138198A (en) * 1998-06-15 2000-10-24 Sun Microsystems, Inc. Processor bridge with dissimilar data registers which is operable to disregard data differences for dissimilar data write accesses
JP2000298594A (ja) 1999-04-13 2000-10-24 Nec Corp フォールトトレラント制御方法および冗長コンピュータシステム
US6971043B2 (en) * 2001-04-11 2005-11-29 Stratus Technologies Bermuda Ltd Apparatus and method for accessing a mass storage device in a fault-tolerant server
US6928583B2 (en) * 2001-04-11 2005-08-09 Stratus Technologies Bermuda Ltd. Apparatus and method for two computing elements in a fault-tolerant server to execute instructions in lockstep
JP3982353B2 (ja) * 2002-07-12 2007-09-26 日本電気株式会社 フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム
US7178058B2 (en) * 2002-08-30 2007-02-13 Nec Corporation Fault tolerant computer and transaction synchronization control method
JP3821806B2 (ja) 2002-08-30 2006-09-13 エヌイーシーコンピュータテクノ株式会社 フォールトトレラントコンピュータ、そのトランザクション同期制御方法及びプログラム
JP4492035B2 (ja) * 2003-04-21 2010-06-30 日本電気株式会社 データ処理装置
US20060178615A1 (en) * 2003-05-30 2006-08-10 Ronborg Steen M Allergy tester
JP4168403B2 (ja) * 2004-12-21 2008-10-22 日本電気株式会社 フォールトトレラントシステム、これで用いる制御装置、アクセス制御方法、及び制御プログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103703427A (zh) * 2011-07-20 2014-04-02 飞思卡尔半导体公司 同步第一处理单元和第二处理单元的处理装置和方法
CN103703427B (zh) * 2011-07-20 2016-05-11 飞思卡尔半导体公司 同步第一处理单元和第二处理单元的处理装置和方法
CN103455393A (zh) * 2013-09-25 2013-12-18 浪潮电子信息产业股份有限公司 一种基于进程冗余的容错系统设计方法
CN104597850A (zh) * 2013-10-30 2015-05-06 北京精密机电控制设备研究所 用于三冗余伺服控制器的数据交互及同步的方法和装置
CN104007657A (zh) * 2013-12-13 2014-08-27 许继集团有限公司 一种三重冗余系统与两重冗余系统的对接装置及方法
CN104007657B (zh) * 2013-12-13 2017-06-13 许继集团有限公司 一种三重冗余系统与两重冗余系统的对接装置及方法
CN106537268A (zh) * 2014-07-30 2017-03-22 西门子公司 用于分派控制权限给计算机的方法和系统
US10613502B2 (en) 2014-07-30 2020-04-07 Siemens Aktiengesellschaft Assigning a control authorization to a computer
CN106796541A (zh) * 2015-03-20 2017-05-31 瑞萨电子株式会社 数据处理装置
CN106796541B (zh) * 2015-03-20 2021-03-09 瑞萨电子株式会社 数据处理装置
CN104810808A (zh) * 2015-04-03 2015-07-29 南京国电南自电网自动化有限公司 一种多总线保护出口仲裁容错系统及方法
CN104810808B (zh) * 2015-04-03 2017-10-31 南京国电南自电网自动化有限公司 一种多总线保护出口仲裁容错方法
CN107273248A (zh) * 2016-04-05 2017-10-20 瑞萨电子株式会社 半导体设备以及访问管理方法
CN111581003A (zh) * 2020-04-29 2020-08-25 浙江大学 一种全硬件双核锁步处理器容错系统

Also Published As

Publication number Publication date
US20060150004A1 (en) 2006-07-06
JP2006178616A (ja) 2006-07-06
EP1675003A2 (en) 2006-06-28
AU2005246986A1 (en) 2006-07-06
EP1675003A3 (en) 2010-02-24
US7519856B2 (en) 2009-04-14
CA2531092A1 (en) 2006-06-21

Similar Documents

Publication Publication Date Title
CN1804811A (zh) 容错系统及其中所使用的控制装置、动作方法
US9582373B2 (en) Methods and systems to hot-swap a virtual machine
CN1143209C (zh) 操作系统的重启动方法和计算机系统的控制方法
US7877358B2 (en) Replacing system hardware
US7685476B2 (en) Early notification of error via software interrupt and shared memory write
TWI337304B (en) Method for fast system recovery via degraded reboot
CN1521625A (zh) 容错计算机系统,其再同步方法,及其再同步程序
US7321986B2 (en) Configuring cache memory from a storage controller
US7530000B2 (en) Early detection of storage device degradation
CN1855025A (zh) 远程复制处理方法、程序及系统
CN105700969A (zh) 服务器系统
CN1722077A (zh) 自我监控控制器、含该控制器的冗余储存系统及监控方法
JP2000105756A (ja) 網内の分散アプリケ―ションの故障を検出し、この故障を指定されるリプリケ―ションの程度に従って回復するための方法および装置
CN1300393A (zh) 在多个系统主机之间进行切换的方法
CN1920763A (zh) 存储系统
TW200414041A (en) Method and system for maintaining firmware versions in a data processing system
CN1794196A (zh) 确保用于识别容错计算机中的异步原因的时间
CN1828513A (zh) 具有级联的拷贝目标和增强的完整性的存储系统及其操作方法
WO2017158666A1 (ja) 計算機システム、計算機システムのエラー処理方法
US10824517B2 (en) Backup and recovery of configuration files in management device
CN1278254C (zh) 确定高可用性集群之活跃度的方法和系统
US20090138740A1 (en) Method and computer device capable of dealing with power fail
CN1584847A (zh) 在交流电源不存在时的操作状态保存
CN1755660A (zh) 冗余处理器中的诊断存储器转储方法
JP3774826B2 (ja) 情報処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication