CN1794196A

CN1794196A - 确保用于识别容错计算机中的异步原因的时间

Info

Publication number: CN1794196A
Application number: CN200510022913.4A
Authority: CN
Inventors: 水谷文俊
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-12-21
Filing date: 2005-12-21
Publication date: 2006-06-28
Also published as: EP1675002A1; AU2005246938A1; JP2006178636A; US20060150006A1; US7500139B2; CA2530018A1

Abstract

一种容错计算机具有一对双工系统，每一个双工系统具有以锁步同步相同地操作的各CPU子系统。双工系统的每一个都具有CPU、主存储单元、CPU总线控制器和DMA控制器。在每一个CPU子系统中都包括有CPU和主存储单元。在CPU子系统相互同步操作时，即使检测到异步操作，CPU总线控制器也连续地操作其自身系统的CPU。即使检测到异步操作，DMA控制器从检测到异步操作之后一直到达到预定时间为止都保持DMA传输处理，用于将存储在其自身系统或另一个系统的主存储单元中的数据传输到另一个系统或其自身系统的主存储单元。

Description

确保用于识别容错计算机中的异步原因的时间

技术领域

本发明涉及一种具有DMR(双模冗余)系统的容错计算机，以及控制这种容错计算机的方法，其中每一个DMR系统包括具有CPU和主存储单元的CPU子系统以及IO子系统。

背景技术

近年来，计算机越来越多的功能使得计算机的使用领域更加广泛。这种计算机需要甚至在出错的情况下也能继续操作。满足这一要求的一个解决办法就是具有双工系统的容错技术。

构建在容错技术基础上的容错计算机具有双工系统，每一个系统都包括有具有CPU和主存储单元的CPU子系统以及IO子系统。一些容错计算机采用锁步系统，用于根据同步时钟来互相同步地操作两个CPU子系统。

在具有锁步系统的容错计算机中，两个CPU子系统会不同步地工作，这易于引起存储在其主存储单元中的数据彼此不一致。异步的原因在于小规模的故障，包括CPU故障、由辐射引起以改变存储在主存储单元中的数据的软件错误，以及锁步系统不能保证的操作事件。

当具有锁步系统的容错计算机遭遇异步操作时，执行再同步处理，以使两个CPU子系统相互同步。再同步处理被分成几个阶段。阶段之一是将存储在CPU子系统之一的主存储单元中的数据复制到另一个CPU子系统的主存储单元，从而使主存储单元中的数据彼此一致。

例如，在JP-A-1998-177498(下面被称为“文件1”)中公开了用于加快上述再同步处理的现有容错计算机。

在文件1中所公开的容错计算机中，当在CPU子系统彼此同步地操作的同时发生写事件以将数据写到主存储单元之一时，CPU子系统的每一个记录用于表示记录数据被写事件更新的主存储单元的位置(页面)和当记录数据被写事件更新时的时间的信息。在异步操作时，根据记录的信息，只将存储在CPU子系统之一的主存储单元中的数据的更新数据复制到另一个CPU子系统的主存储单元。

在文件1中所公开的容错计算机中，由于只复制更新数据而不是存储在主存储单元中的所有数据，因此缩短了复制数据所需的时间，从而缩短了再同步处理。

不过，当检测文件1中所公开的容错计算机的异步操作时，没有检测异步操作的原因，而是立刻执行再同步处理，以将存储在CPU子系统之一的主存储单元中的数据的更新数据复制到另一个CPU子系统的主存储单元。

结果，如果异步操作是由从其中复制更新数据的CPU子系统的CPU的故障引起的，则即使在完全完成了再同步处理之后，也不能保证容错计算机的操作。

相应地，当检测容错计算机的异步操作时，有必要识别异步操作的原因，然后开始再同步处理。

如果识别异步操作的原因需要很长的时间，则由于CPU子系统在这段时间内保持不同步地操作，因此存储在CPU子系统的主存储单元中的数据的不一致增加，这使得难以缩短随后执行的再同步处理。

因此，如果在开始再同步处理之前识别异步操作的原因，则有必要使存储在CPU子系统的主存储单元中的数据的不一致减到最小。

发明内容

因此，本发明的目的是提出一种能够在开始再同步处理之前识别检测到的异步操作的原因的容错计算机，以及控制该容错计算机的方法。

本发明的另一目的是提出一种能够将存储在容错计算机的CPU子系统的主存储单元中的数据的不一致最小化的容错计算机，这种不一致是在开始再同步处理之前由识别异步操作的原因所引起的，并提出控制该容错计算机的方法。

根据本发明的容错计算机具有一对双工系统，该双工系统具有以锁步同步相同地操作的各CPU子系统。双工系统的每一个都包括CPU、主存储单元、CPU总线控制器、跟踪存储器和DMA控制器。

在每一个CPU子系统中都包括有CPU和主存储单元。

在CPU子系统相互同步地操作时，如果检测到异步操作，则CPU总线控制器在不宕机的情况下连续地操作其自身系统的CPU。

在CPU总线控制器检测到异步操作之后，每一次数据被存储到其自身系统的主存储单元时，跟踪存储器都存储关于用于存储其自身系统的主存储单元中的数据的写区域的信息。

如果CPU总线控制器检测到异步操作，则从检测到异步操作之后一直到达到预定时间为止，DMA控制器都保持DMA传输处理，以将存储在其自身系统或另一个系统的主存储单元中并且其写区域被存储在跟踪存储器中的数据传输到另一个系统或其自身系统的主存储单元。

通过上述结构，当检测到异步操作时，则在开始作为再同步处理的DMA传输处理之前，可以确保识别基于软件或硬件的异步操作的原因所需的时间。

容错计算机的结构进一步布置如下：双工系统的每一个都进一步包括缓冲器和访问比较器。缓冲器可以暂时存储输入数据，并在其后输出该数据。如果对通过缓冲器来自自身系统的CPU的访问细节和来自另一个系统的CPU的访问细节进行相互比较并且检测出相互不一致，以及还如果已经使用的缓冲器的存储容量超过了预定值，则访问比较器可以发送中断信号给CPU。在DMA控制器中到达的预定时间可以是当中断信号从访问比较器发送到CPU时的时间。

如果已经使用的跟踪存储器的存储容量超过了预定值，则DMA控制器可以将中断信号发送给CPU。在DMA控制器中到达的预定时间可以是当中断信号从DMA控制器发送到CPU时的时间。

通过上述结构，在DMA控制器中到达的预定时间是当中断信号从DMA控制器或访问比较器发送到CPU时的时间。中断信号可以替代如下信息，该信号用于向CPU指明在发出中断信号的时间之后存储在主存储单元中的数据不能根据DMA传输处理通过DMA控制器进行传输。由于识别异步操作的原因所需的时间可以限制到执行DMA传输处理所需的最小时间，因此可以确保识别异步操作的原因所需的时间，并且可以将由确保识别异步操作的原因所需的时间引起的存储在主存储单元中的数据的不一致保持为最小，从而缩短了再同步处理。

容错计算机的结构进一步布置如下：CPU总线控制器可以通过监控其自身系统的CPU总线的操作状态，将表示监控的操作状态的CPU总线操作信息发送给另一个系统的CPU总线控制器，并且对其自身系统的CPU总线操作信息和另一个系统的CPU总线操作信息进行相互比较，来检测异步操作。

通过上述结构，CPU总线控制器可以直接对CPU总线的操作进行相互比较，以在存储在主存储单元中的数据的不一致增加之前提早检测到异步操作，从而缩短再同步处理。

下面参考示出了本发明例子的附图进行讲述，将使本发明的上述和其他目的、特征和优点更加清楚。

附图说明

图1为根据本发明实施例的容错计算机的框图；

图2为图1所示的容错计算机的操作顺序的流程图；

图3为框图，示出了图2所示的流程的步骤201、202的处理细节；

图4为框图，示出了图2所示的流程的步骤203的处理细节；

图5为框图，示出了图2所示的流程的步骤204、206的处理细节；

图6为框图，示出了图2所示的流程的步骤205、206的处理细节；

图7为框图，示出了图2所示的流程的步骤208的处理细节；

图8为框图，示出了图2所示的流程的步骤208的处理细节；以及

图9为框图，示出了图2所示的流程的步骤208的处理细节。

具体实施方式

如图1所示，根据本发明实施例的容错计算机具有一对双工系统，即包括有CPU子系统11₀和IO子系统12₀的系统10₀(系统0)和包括有CPU子系统11₁和IO子系统12₁的系统10₁(系统1)。根据锁步同步(下面简称为“同步”)，CPU子系统11₀和CPU子系统11₁彼此同步地操作。

CPU子系统11₀包括CPU 111₀、主存储单元112₀、CPU总线控制器113x、存储总线控制器114₀和路由器115₀。IO子系统12₀包括交叉链路I/F 121₀、IO控制器122₀、IO访问比较器123₀、缓冲器124₀、存储访问跟踪存储器125₀和DMA(直接存储访问)控制器126₀。

类似地，CPU子系统11₁包括CPU 111₁、主存储单元112₁，CPU总线控制器113₁，存储总线控制器114₁和路由器115₁。IO子系统12₁包括交叉链路I/F 121₁、IO控制器122₁、IO访问比较器123₁、缓冲器124₁、存储访问跟踪存储器125₁和DMA(直接存储访问)控制器126₁。

下面来讲述系统10₀、10₁的组件的操作。虽然下面只详细讲述系统10₀的组件的操作，但是系统10₁的组件将与系统10₀的组件类似地操作。

CPU总线控制器113₀监控用于其自身和自身系统的CPU 111₀之间的CPU总线的操作，并且将表示监控结果的CPU总线操作信息发送给另一个系统的CPU总线控制器113₁。CPU总线控制器113₀还对其自身系统的CPU总线操作信息与另一个系统的CPU总线操作信息进行比较，并且检测什么时候它们相互不一致，即什么时候系统10₀、10₁彼此不同步地操作。如果CPU总线控制器113₀检测到CPU总线不一致，则CPU总线控制器113₀将表示CPU总线不一致的信号通过路由器115₀发送给DMA控制器126₀。CPU总线控制器113₀总是发送包括有CPU总线不活动状态的CPU总线操作信息。由于CPU总线自身具有较大的带宽，因此通过CPU总线控制器113₀进行CRC(循环冗余检查)码转换，可以减少CPU总线操作信息量。

CPU总线控制器113₀指定主存储单元112₀的地址/页面，并且将用于主存储单元112₀的写指令发送给存储总线控制器114₀。还将写指令发送给DMA控制器126₀。当由DMA控制器126₀进行指示时，CPU总线控制器113₀还指定主存储单元112₀的地址/页面，并且将用于主存储单元112₀的读指令发送给存储总线控制器114₀。

响应来自CPU总线控制器113₀的写指令或读指令，存储总线控制器114₀将数据写入主存储单元112₀的相应地址/页面中，或者从主存储单元112₀的相应地址/页面读出数据。

路由器115₀位于CPU子系统11₀和IO子系统12₀之间的边界上，并且在CPU子系统11₀和IO子系统12₀之间中继(relay)数据。

交叉链路I/F 121₀为用于IO子系统12₀和IO子系统12₁之间通信的高速接口。交叉链路I/F 121₀通常包括与系统10₀的内部时钟不同步地操作的串行链路。

IO控制器122₀接收来自其自身系统的CPU 111₀和另一个系统的CPU 111₁的访问。当CPU子系统11₀和CPU子系统11₁彼此同步地操作时，这两个访问是彼此相同的。IO控制器122₀访问其自身系统的CPU 111₀和另一个系统的CPU 111₁。

IO访问比较器123₀对从其自身系统的CPU 111₀到其自身系统的IO控制器122₀的访问细节和从另一个系统的CPU 111₁到其自身系统的IO控制器122₀的访问细节进行比较。如果比较的访问细节彼此不一致，则IO访问比较器123₀以中断的方式将表示不一致的信号通过路由器115₀发送给CPU 111₀。此时，由于来自其自身系统的CPU 111₀的访问只经由内部路径，而来自另一个系统的CPU 111₁的访问经由外部路径，因此自另一个系统的CPU 111₁的访问的到达时间被延迟。为了避免访问的到达时间之间的差异，位于IO访问比较器123₀的输入级中的缓冲器124₀暂时存储来自其自身系统的CPU 111₀的访问数据，然后将访问输出给IO访问比较器123₀。以这种方式，可以对访问数据的顺序转换(shuffling)进行调整，并且IO访问比较器123₀可以在不确定访问不一致的情况下等待，直到来自两个系统的访问都到达IO访问比较器123₀为止。

如果IO访问比较器123₀检测到已经用于存储数据的缓冲器124₀的存储容量超过预定值时，则IO访问比较器123₀通过中断的方式通过路由器115₀将表示存储容量超过预定值的信号发送到CPU 111₀。

基于从CPU总线控制器113₀发送到主存储单元112₀的写指令，DMA控制器126₀根据FIFO(先进先出)处理，将写入数据的主存储单元112₀的地址/页面信息存储到存储访问跟踪存储器125₀。DMA控制器126₀在被提供了来自CPU总线控制器113₀的表示CPU总线不一致的信号之后，开始存储地址/页面信息。通过从DMA控制器126₀发送到CPU总线控制器113₀的指令，可以将数据写入主存储单元112₀中。在这种情况下，DMA控制器126₀没有跟踪主存储单元112₀。出于这一目的，CPU总线控制器113₀应该期望地将一定的标记应用到要发送到主存储单元112₀的写指令上。

如果DMA控制器126₀检测到已经用于存储数据的存储访问跟踪存储器125₀的存储容量超过预定值时，则DMA控制器126₀通过中断的方式，将表示存储容量超过预定值的信号通过路由器115₀发送到其自身系统的CPU 111₀并且还通过交叉链路I/F 121₀发送到另一个系统的CPU 111₁。

DMA控制器126₀进一步根据DMA传输过程，根据存储在存储访问跟踪存储器125₀中的地址/页面信息，将主存储单元112₀的相应地址/页面的数据传输到其自身系统的主存储单元112₀和另一个系统的主存储单元112₁。DMA控制器126₀响应软件指令，开始传输相应地址/页面的数据。

现在，将在下面讲述根据图1所示的实施例的容错计算机的操作。以下要讲述的容错计算机的操作是基于当容错计算机开始操作时CPU子系统11₀、11₁彼此同步地操作的前提。

如图2所示，在CPU子系统11₀、11₁相互同步地操作的同时，假设在步骤201中CPU总线控制器113₀、113₁检测因CPU总线不一致引起的异步操作。在步骤202中，CPU总线控制器113₀将表示CPU总线不一致的信号发送给DMA控制器126₀，并且CPU总线控制器113₁将表示CPU总线不一致的信号发送给DMA控制器126₁，如图3所示。

CPU总线控制器113₀、113₁还将表示CPU总线不一致的信号发送给用于诊断异步操作是否是由CPU故障引起的硬件和软件实体(图中未示出)。

不过，即使是在异步操作时，CPU总线控制器113₀也在不宕机的情况下连续操作CPU 111₀，CPU总线控制器113₁也在不宕机的情况下连续操作CPU 111₁。即使发生异步操作之后的CPU 111₀、111₁的连续操作也增大了基于软件和硬件实体来确定异步操作是否是由CPU故障引起的可能性。

当DMA控制器126₀从CPU总线控制器113₀接收表示CPU总线不一致的信号时，在步骤203中DMA控制器126₀开始跟踪主存储单元112₀。当DMA控制器126₁从CPU总线控制器113₁接收表示CPU总线不一致的信号时，在步骤203中DMA控制器126₁也开始跟踪主存储单元112₁。

具体地，基于从CPU总线控制器113₀发送到主存储单元112₀的写指令，DMA控制器126₀将写入数据的主存储单元112₀的地址/页面信息存储到存储访问跟踪存储器125₀。基于从CPU总线控制器113₁发送到主存储单元112₁的写指令，DMA控制器126₁将写入数据的主存储单元112₁的地址/页面信息存储到存储访问跟踪存储器125₁。地址/页面信息的存储如图4所示。

之后，在步骤204中，假设DMA控制器126₀检测已经用于存储数据的存储访问跟踪存储器125₀的存储容量何时超过预定值，并且DMA控制器126₁检测已经用于存储数据的存储访问跟踪存储器125₁的存储容量何时超过预定值。在步骤206中，DMA控制器126₀以中断的方式将表示存储容量超过预定值的信号发送给其自身系统的CPU111₀和另一个系统的CPU 111₁，并且DMA控制器126₁以中断的方式将表示存储容量超过预定值的信号发送给其自身系统的CPU 111₁和另一个系统的CPU 111₀，如图5所示。

在步骤205中，假设IO访问比较器123₀检测来自自身系统的CPU111₀的访问的细节和来自另一个系统的CPU 111₁的访问的细节何时彼此不一致，或者检测已经用于存储数据的缓冲器124₀的存储容量何时超过预定值，并且还假设IO访问比较器123₁检测来自自身系统的CPU111₁的访问的细节和来自另一个系统的CPU 111₀的访问的细节何时彼此不一致，或者检测已经用于存储数据的缓冲器124₁的存储容量何时超过预定值。在步骤206中，IO访问比较器123₀以中断的方式将表示访问不一致或者缓冲器124₀的存储容量超过预定值的信号发送给其自身系统的CPU 111₀和另一个系统的CPU 111₁，并且IO访问比较器123₁以中断的方式将表示访问不一致或者缓冲器124₁的存储容量超过预定值的信号发送给其自身系统的CPU 111₁和另一个系统的CPU111₀，如图6所示。

在步骤202之后花费一段时间来连续地操作CPU 111₀、111₁，以基于软件和硬件诊断处理来确定异步操作是否是由CPU故障引起的。不过，如上所述，如果识别异步操作的原因需要很长的时间，则存储在主存储单元112₀、112₁中的数据的不一致增加，使得难以缩短随后要执行的再同步处理。

根据本实施例，在步骤202之后，如果在步骤206中将中断信号发送到CPU 111₀、111₁，则判断在中断信号之后存储在主存储单元112₀、112₁中的数据不能根据DMA传输处理通过DMA控制器126₀，126₁来进行传输。或者说，判断只有在直到在步骤206中发出中断信号的时间段期间存储在主存储单元112₀、112₁中的数据是根据DMA传输处理进行传输的，并且只在这段时间期间来识别异步操作的原因，之后执行再同步处理。结果，识别异步操作的原因所需的时间段被限制到执行DMA传输处理所需的最小时间段。结果，确保了识别异步操作的原因所需的时间段，并且可以将由确保识别异步操作的原因所需的时间段引起的存储在主存储单元112₀、112₁中的数据的不一致保持位最小。

在所示的实施例中，在步骤206中DMA控制器126₀、126₁或IO访问比较器123₀、123₁将中断信号发送给CPU 111₀、111₁。不过，即使软件在步骤206中或者在步骤206之前将中断信号发送给CPU111₀、111₁，随后的操作仍保持与如上所述的操作相同。

当在步骤206中发生中断事件时，开始再同步处理。根据再同步处理，在步骤207中，基于软件和硬件诊断处理，确定异步操作是否是由CPU故障引起的。

如果判断出异步操作不是由CPU 111₀、111₁中的任一个的故障所引起的，则判断异步操作是由诸如软件错误等次要故障引起的。在步骤208中，DMA控制器126₀、126₁开始根据软件指令来执行DMA传输处理。

具体地说，DMA控制器126₀从存储访问跟踪存储器125₀读取地址/页面信息，并且通过CPU总线控制器113₀向存储总线控制器114₀发出用于从主存储单元112₀的相应地址/页面读取数据的读指令。类似地，DMA控制器126₁从存储访问跟踪存储器125₁读取地址/页面信息，并且通过CPU总线控制器113₀向存储总线控制器114₀发出用于从主存储单元112₀的相应地址/页面读取数据的读指令。地址/页面信息的读取和读指令的发送如图7所示。然后，存储总线控制器114₀从主存储单元112₀的相应地址/页面读取数据，并且将读数据传输给DMA控制器126₀、126₁，如图8所示。然后，DMA控制器126₀将用于写入从主存储单元112₀传来的数据的写指令通过CPU总线控制器113₁发送给存储总线控制器114₁。类似地，DMA控制器126₁将用于写入从主存储单元112₀传来的数据的写指令通过CPU总线控制器113₁发送给存储总线控制器114₁。写指令的发送如图9所示。之后1存储总线控制器114₁将数据写入主存储单元112₁，因此存储在主存储单元112₀、112₁中的数据是相互一致的。

即使当将主存储单元112₀中所有相应的信息都传输给主存储单元112₁时，DMA控制器126₀、126₁也不停止操作。每一次将数据顺序地写入主存储单元112₀时，DMA控制器126₀、126₁执行将主存储单元112₀的相应地址/页面中的数据传输给主存储单元112₁的处理。

如果在步骤209中完成了再同步处理的DMA传输阶段，则在步骤210中控制进行到再同步处理的下一个阶段。

如果在步骤207中判断出异步操作是由CPU 111₀、111₁中的任一个的故障引起的，则在步骤211中通过软件指令在逻辑上断开连接属于故障CPU的系统。之后，在步骤212中控制进行到再同步处理的下一个阶段。

根据本实施例，即使在CPU子系统11₀、11₁相互同步地操作的同时检测异步操作，CPU 111₀、111₁也在不宕机的情况下继续操作。直到在检测到异步操作之后达到一定时间，在没有使得DMA控制器126₀、126₁根据DMA传输处理来开始传输数据的情况下，才使CPU111₀、111₁等待。

结果，当检测到异步操作时，可以在开始再同步处理之前确保用于识别硬件或软件上的异步操作的原因所需的时间段。

上面所指的一定时间为当DMA控制器126₀、126₁或IO访问比较器123₀、123₁发送中断信号给CPU 111₀、111₁的时间。中断信号可以替代如下信号，该信号用于向CPU 111₀、111₁指明在发出中断信号的时间之后存储在主存储单元112₀、112₁中的数据不能根据DMA传输处理通过DMA控制器126₀、126₁进行传输。

由于识别异步操作的原因所需的时间可以限制为执行DMA传输处理所需的最小时间，因此可以确保识别异步操作的原因所需的时间，并且可以将由确保识别异步操作的原因所需的时间引起的存储在主存储单元112₀、112₁中的数据的不一致保持为最小，从而缩短了再同步处理。

根据本实施例，CPU总线控制器113₀、113₁发送并且接收CPU总线操作信息，以提早直接对用于检测异步操作的CPU总线操作进行比较。

因此，可以在主存储单元中所存储的数据的不一致增加之前提早检测异步操作，从而也缩短了再同步处理。

虽然使用特定术语来讲述了本发明的优选实施例，但是这种讲述只是出于解释目的，可以知道，在不偏离权利要求的精神和范围的情况下可以对其进行修改和变化。

Claims

1.一种容错计算机，包括：

一对双工系统，其具有可相同地以锁步同步操作的各自CPU子系统；

所述双工系统的每一个都包括：

CPU，包括在所述CPU子系统的一个中；

主存储单元，包括在CPU子系统的所述一个中；

CPU总线控制器，用于在所述CPU子系统相互同步操作时，如果检测到异步操作，则在不宕机的情况下连续地操作其自身系统的CPU；

跟踪存储器，用于在所述CPU总线控制器检测到异步操作之后，每一次数据被存储到其自身系统的主存储单元时，都存储关于用于存储其自身系统的主存储单元中的数据的写区域的信息；以及

DMA控制器，用于如果所述CPU总线控制器检测到异步操作，则从检测到异步操作之后一直到达到预定时间为止，都保持DMA传输处理，以将存储在其自身系统或另一个系统的主存储单元中并且其写区域被存储在所述跟踪存储器中的数据传输到另一个系统或其自身系统的主存储单元。

2.如权利要求1所述的容错计算机，其中所述双工系统的每一个进一步包括：

缓冲器，用于暂时存储输入数据，并在其后输出该数据；以及

访问比较器，用于如果对通过所述缓冲器来自其自身系统的CPU的访问细节和来自另一个系统的CPU的访问细节进行相互比较并且检测到相互不一致，以及还如果已经使用的所述缓冲器的存储容量超过了预定值，则发送中断信号给所述CPU；

其中在所述DMA控制器中到达的所述预定时间是当中断信号从所述访问比较器发送到所述CPU时的时间。

3.如权利要求1所述的容错计算机，其中如果已经使用的所述跟踪存储器的存储容量超过了预定值，则所述DMA控制器将中断信号发送给所述CPU，并且在所述DMA控制器中到达的所述预定时间是当中断信号从所述DMA控制器发送到所述CPU时的时间。

4.如权利要求1所述的容错计算机，其中所述CPU总线控制器通过监控其自身系统的CPU总线的操作状态、将表示监控的操作状态的CPU总线操作信息发送给另一个系统的CPU总线控制器、并且对其自身系统的CPU总线操作信息和另一个系统的CPU总线操作信息进行相互比较，来检测异步操作。

5.一种控制具有一对双工系统的容错计算机的方法，每一个双工系统都具有每一个都包括CPU和主存储单元的各自CPU子系统，所述CPU子系统可相同地以锁步同步操作，该方法包括如下步骤：

a)在所述双工系统的每一个中，在所述CPU子系统相互同步地操作时，如果检测到异步操作，则在不宕机的情况下连续地操作其自身系统的CPU；

b)在所述双工系统的每一个中，在检测到异步操作之后，每一次数据被存储到其自身系统的主存储单元时，在跟踪存储器中存储有关用于存储其自身系统的主存储单元中的数据的写区域的信息；以及

c)在所述双工系统的每一个中，如果检测到异步操作，则从检测到异步操作之后一直到达到预定时间为止，都保持DMA传输处理，以将存储在其自身系统或另一个系统的主存储单元中并且其写区域被存储在所述跟踪存储器中的数据传输到另一个系统或其自身系统的主存储单元。

6.如权利要求5所述的方法，进一步包括如下步骤：

在所述双工系统的每一个中，如果对通过缓冲器来自其自身系统的CPU的访问细节和来自另一个系统的CPU的访问细节进行相互比较并且检测到相互不一致，以及还如果已经使用的所述缓冲器的存储容量超过了预定值，则发送中断信号给所述CPU；

其中，在所述步骤c)中，所述预定时间是当将中断信号发送到所述CPU时的时间。

7.如权利要求5所述的方法，进一步包括如下步骤：

在所述双工系统的每一个中，如果已经使用的所述跟踪存储器的存储容量超过了预定值，则发送中断信号给所述CPU；

8.如权利要求5所述的方法，其中所述步骤a)包括以下步骤：在所述双工系统的每一个中，监控其自身系统的CPU总线的操作状态，将表示监控的操作状态的CPU总线操作信息发送给另一个系统，并且对其自身系统的CPU总线操作信息和另一个系统的CPU总线操作信息进行相互比较。