CN1472650A

CN1472650A - 信息处理设备

Info

Publication number: CN1472650A
Application number: CNA031453627A
Authority: CN
Inventors: 爱野茂幸; 雄; 山崎茂雄
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-07-10
Filing date: 2003-07-08
Publication date: 2004-02-04
Anticipated expiration: 2023-07-08
Also published as: CN1269040C; DE60303468T2; TW200402622A; DE60303468D1; AU2003211183A1; EP1380950A1; EP1380950B1; CA2434290A1; US20040153731A1; KR100566340B1; ES2253613T3; JP2004046455A; KR20040005684A; TWI241479B

Abstract

本发明的信息处理设备包括第一和第二计算机单元，它们实质上同步地同时执行相同的指令，并分别具有第一和第二存储器单元。所述信息处理设备包括：复制单元，将存储在第二存储器单元中的部分数据复制给第一存储器单元；以及第三存储单元，在监控单元发现第一计算机单元失去同步时，存储信息以指定由复制单元复制存储在第二存储器单元中的哪部分数据。第一和第二计算机单元中的每一个还包括处理器和与所述处理器相连的总线，在本发明的另一信息处理设备中，监控单元还与所述总线相连。

Description

信息处理设备

技术领域

本发明涉及一种诸如步伐一致容错计算机(lockstep fault tolerantcomputer)之类的信息处理设备，此设备在多个时钟同步的计算机模块中同时处理相同的指令，以及更具体地涉及一种信息处理设备，此信息处理设备迅速同步已经与其他计算机模块不同步并被隔离在操作之外的计算机模块与其他计算机模块。

背景技术

传统的步伐一致容错计算机具有同时执行相同指令的多个计算机模块。在容错计算机中，由于故障或一些其他原因，这些计算机模块之一可能与其他计算机模块有差别地进行操作。当检测到与其他计算机模块有差别地进行操作的计算机模块时，换句话说，在找到失去一致同步(lockstep synchronism)的计算机模块时，步伐一致容错计算机就使检测到的计算机模块停止操作。

使计算机模块失去一致同步的原因多种多样。失去一致同步的计算机模块所采取的反应过程依赖于原因。使计算机失去一致同步的原因之一可以是计算机模块内发生的永久性故障。永久性故障并不是计算机自身能恢复暂时的干扰或故障，而是需要修理的故障。通常将其中发生了永久性故障的计算机模块从步伐一致容错计算机中取出，代替此模块，安装另一正常的计算机模块。

使计算机模块失去一致同步的另一潜在原因可能是由于计算机模块制造的多样性，操作定时暂时与其他计算机模块不同步的同步的缺失。另一潜在原因可能是由于如α射线等影响，引起计算机模块中的存储器的暂时性错误动作。在这些并不引起永久性故障的如同步的缺失或暂时性错误动作等原因中，并不需要更换计算机模块。

如果发生了永久性故障，更换有故障的计算机模块，而将更换了的计算机模块加入到其他计算机模块中，并与其他计算机模块同步。如果不存在永久性故障，此计算机模块重新加入其他计算机模块中，并与其他计算机模块重新同步。使断开的计算机模块重新加入其他计算机模块的操作是重新同步。当传统的步伐一致容错计算机重新同步失去一致同步的计算机模块时，传统的步伐一致容错计算机将处于一致同步中的另一计算机模块的存储器复制到要重新加入的计算机的存储器。之后，重新加入的计算机模块执行与其他计算机模块相同的操作。

在加入或重新加入计算模块时，传统的步伐一致容错计算机强制全部计算模块停止，并从处于一致同步的另一计算机模块复制加入或重新加入的计算机模块的存储器的全部内容。这使全部计算模块能够具有完全相同的内部状态。传统的步伐一致容错计算机被强制停止很长时间来加入或重新加入计算机模块。这是因为复制计算机模块中的存储器的全部内容需要很长时间。特别地，随着计算机模块中存储器大小的增加，复制计算机模块中的存储器的全部内容的时间也增加。

发明内容

本发明的一个目的是提供一种改进了可用性的信息处理设备。

本发明的另一目的是提供一种在检测到故障之后快速重新开始操作的信息处理设备。

按照本发明的一个方面，提供了一种信息处理设备，它包括：第一和第二计算机单元，实质上同步地同时执行相同的指令，并分别具有第一和第二存储器单元；监控单元，发现计算机单元中的哪一个失去了同步；复制单元，当监控单元发现第一计算机单元失去同步时，将存储在第二存储器单元中的部分数据复制给第一存储器单元；以及第三存储单元，在监控单元发现第一计算机单元失去同步时，存储信息以指定由复制单元复制存储在第二存储器单元中的哪部分数据。

按照本发明的另一方面，提供了一种信息处理设备，它包括：第一和第二计算机单元，实质上同步地同时执行相同的指令，分别具有第一和第二存储器单元，而且每一个至少具有一个处理器和与处理器相连的总线；监控单元，与总线相连，并发现计算机单元中的哪一个失去了同步；复制单元，当监控单元发现第一计算机单元失去同步时，将存储在第二存储器单元中的部分数据复制给第一存储器单元；以及第三存储单元，在监控单元发现第一计算机单元失去同步时，存储信息以指定由复制单元复制存储在第二存储器单元中的哪部分数据。

附图说明

通过下面详细描述和附图，将使本发明的其他特征和优点将变得更加清楚，其中：

图1是示出了本发明的实施例的方框图；以及

图2是示出了本发明操作的示例的示意图。

在附图中，相同的参考数字代表相同的结构性单元。

具体实施方式

如在背景技术中所描述的那样，使计算机模块失去一致同步的原因是永久性故障或非永久性故障。在容错计算机中，必须更换其中发生了永久性故障的计算机模块。另一方面，如果由于非永久性故障使计算机模块失去一致同步，通常不进行更换，而是没有任何改变地重新加入。即，在相当多的情况下，不是更换失去一致同步的计算机模块，而是没有任何改变地进行安装。存储在失去一致同步的计算机模块的存储器中的数据与存储在处于一致同步的计算机模块的存储器中的数据可能存在差别，而如果没有检测到故障，计算机模块的存储器将存储相同的数据。在很多情况下，差别很小或是有限的。

下面将详细描述本发明的实施例。

参照图1，信息处理设备包括计算机模块100、200和300、外围装置控制器400和500、监控单元700、地址存储单元701和数据传输单元702。在本实施例中，信息处理设备是步伐一致容错计算机。

计算机模块100包括处理器101和102、总线103、存储器104和存储器控制器105。处理器101和102具有相同或等价的结构，并与相同的总线103相连。存储器控制器105与总线103相连。处理器101和102通过总线103与存储器控制器105相连。存储器104与存储器控制器105相连。存储器控制器105通过信号线730与数据传输单元702相连。存储器控制器105通过信号线600与外围装置控制器400相连，并通过信号线610与外围装置控制器500相连。

每个计算机模块100、200和300具有相同或等价的配置或结构。具体地，计算机模块200包括处理器201和202、总线203、存储器204和存储器控制器205。处理器201和202与相同的总线203相连。存储器控制器205通过信号线731与数据传输单元702相连。存储器控制器205通过信号线601与外围装置控制器400相连，并通过信号线611与外围装置控制器500相连。计算机模块300包括处理器301和302、总线303、存储器304和存储器控制器305。处理器301和302与相同的总线303相连。存储器控制器305通过信号线732与数据传输单元702相连。存储器控制器305通过信号线602与外围装置控制器400相连，并通过信号线612与外围装置控制器500相连。

接下来，下面将详细描述本发明的实施例。为了简练地说明，集中在计算机模块100上进行描述。

处理器101和102执行由步伐一致容错计算机1指示的指令。由处理器101和102进行的指令执行过程实质上与由基于相同或实质上相同的时钟信号的计算机模块200和300的处理器所进行的指令执行过程同步，而且处理器101和102与计算机模块200和300的处理器实质上同时执行相同或实质上相同的指令。为所有计算机模块100、200和300共同提供时钟信号源，或者分别为计算机模块100、200和300提供同步的时钟信号源。即，计算机模块100、200和300指令“一致”同步地运行，其中每个计算机模块100、200和300实质上同步地执行实质上相同的指令流。在指令执行期间，处理器101和102将数据写入存储器104或从存储器104读取数据。基于时钟信号与计算机模块200和300的处理器同步的处理器101和102访问外围装置。具体地，处理器101和102通过总线103、存储器控制单元105和信号线600访问与外围装置控制器400相连的外围装置。处理器101和102通过总线103、存储器控制单元105和信号线610访问与外围装置控制器500相连的外围装置。当处理器101和102从监控单元700接收到作为停止指令的中断时，处理器101和102将收到中断时正在执行的处理的内容写到存储器的预定区域中，并停止它们的操作。如果处理器101和102因为由它们自己失去一致同步的原因引起的停止指令而停止它们的操作，则处理器101和102随后执行硬件诊断。硬件诊断就是诊断计算机模块100的硬件是否存在任何故障。

存储器控制器105向存储器104发送访问请求，此请求是从处理器101和/或102接收到的写访问请求和/或读访问请求。存储器控制器105把响应从存储器104发送到处理器101和102。当访问请求是写访问请求或读访问请求时，从处理器101和102向存储器104发送此请求。写访问请求包括写数据。当请求是读访问请求时，从存储器104向处理器101和102发送此请求。响应包括读数据。存储器控制器105向外围装置控制器400和500发送来自处理器101和102并至少寻址一个外围装置的访问请求。存储器控制器105向存储器104发送通过信号线730从数据传输单元702接收到的访问请求。例如，从数据传输单元702接收到的访问是执行直接存储器存取(DMA)传输。在DMA传输中，存储器104或者是传输的起源，或者是传输的目的地。

外围装置控制器400和500监控从所有计算机模块100、200和300接收到的外围装置的访问请求是否相互不一样。如果从所有计算机模块100、200和300接收到的访问请求没有不同，每个外围装置控制器400和500向相应的外围装置发送这些访问请求中的信号访问请求。如果从所有计算机模块100、200和300接收到的访问请求中任何一个与其他的不同，例如，每个外围装置控制器400和500丢弃这些访问请求，或者向相应的外围装置发送根据多数决定规则确定的信号访问请求。当寻址外围装置的访问请求是读访问请求时，每个外围装置控制器400和500向所有计算机模块100、200和300同时发送包括了从相应外围装置读出的数据的响应。

在本实施例中，监控单元700与直接连接到处理器101和102的总线相连。这加速了发现计算机模块100、200和300中的哪一个失去一致同步的监控单元700的检测。监控单元700通过信号线710和720与计算机模块100的总线103相连。在从处理器101和102向存储器104或外围装置发送的访问请求中，信号线710从总线103向监控单元700分发指示输出地址的时间的地址选通信号。在从处理器101和102向存储器104或外围装置发送的访问请求中，信号线720从总线103向监控单元700分发命令和地址。例如，命令包括写访问命令或读访问命令。监控单元700通过信号线711和721与计算机模块200的总线203相连，以及通过信号线712和722与计算机模块300的总线303相连。

监控单元700发现计算机模块100、200和300中的哪一个失去一致同步。监控单元700根据通过信号线710、711和712接收到的地址选通信号和通过信号线720、721和722接收到的命令和地址来监控来自计算机模块100、200和300的访问请求的一致性。当监控单元700检测到来自计算机模块100、200和300的访问请求间的不一致时，监控单元700通知地址存储单元701在计算机模块100、200和300之间的访问请求中存在不一致及哪一个是不一致的计算机模块。其访问请求与其他计算机模块不一致的计算机模块被确定为失去了“一致”同步。当监控单元700检测到不一致时，监控单元700将停止指令通知给所有计算机模块100、200和300的处理器，停止指令事实上是针对计算机模块100、200和300的处理器的中断。在接收到停止指令时，每个处理器将在中断时进行的处理的内容写到存储器预定的位置中，然后暂停。在监控计算机模块100、200和300之间的访问请求的不一致的示例中，当监控单元700接收到来自每个计算机模块100、200和300在相同周期期间的地址选通信号，而且在计算机模块100、200和300之间，此周期的命令和地址相同时，监控单元700检测访问请求的一致性或不一致性。如果在特定周期期间，来自计算机模块100的访问请求的地址与来自计算机模块200和300的访问请求的地址不同，则发现计算机模块100失去了一致同步，换句话说，不一致。在作为简化示例的另一示例中，监控单元700从所有计算机模块100、200和300只接收地址选通信号，并在相同周期接收到来自计算机模块100、200和300的地址选通信号时，确定访问请求的一致性或不一致性。

地址存储单元701具有存储与数据相对应的地址的缓冲区，所述数据存储在处于一致同步的计算机模块的存储器中，而且不同于存储在失去一致同步的计算机模块的存储器中的数据。自监控单元700通知地址存储单元701访问请求的不一致和不一致的计算机模块以来，地址存储单元701存储由其中检测到不一致性的访问请求所指示的地址及随后由计算机100、200和300发出的写访问请求。

在计算机模块100、200和300的全部处理器暂停并随后完成了硬件诊断时，数据传输单元702询问错误指示器标记和硬件诊断结果。错误指示器标记是指示在计算机模块中发生错误的标记。如果在计算机模块中发生永久性故障，数据传输单元702根据错误指示器标记和硬件诊断结果，能够将其找出。永久性故障不是暂时的干扰或其自身能够恢复的故障，而是需要修理的故障。如果在计算机模块中未发生永久性故障，数据传输单元702执行重新同步。重新同步包括使失去一致同步的计算机模块的存储器内容与处于一致同步的其他计算机模块的存储器内容一致。在重新同步中，如果计算机模块具有高速缓冲存储器(cache)，具体地，如果处理器具有高速缓冲存储器，在处于一致同步的计算机模块中执行高速缓冲存储器擦写操作(cache flash operation)。可以只在处于一致同步的单一计算机模块中执行高速缓冲存储器擦写操作。通过高速缓冲存储器擦写操作，将高速缓冲存储器中的数据写入到存储器中。在地址存储单元701中存储与从高速缓冲存储器写入到存储器的数据相对应地址。在高速缓冲存储器擦写完成之后，数据传输单元702从处于一致同步的计算机模块的存储器向失去一致同步的计算机模块的存储器复制与存储在地址存储单元701中的地址相对应的数据。即，向失去一致同步的计算机模块的存储器复制由存储在地址存储单元701中的地址指定的、并且存储在一致同步的计算机模块的存储器中的数据。在此复制操作中，可以利用直接存储器存取(DMA)传输。

在数据传输单元702完成复制操作之后，数据传输单元702复位所有计算机模块100、200和300并使它们重新开始执行。所有计算机模块100、200和300开始常规执行。计算机模块100、200和300中的所有处理器利用存储在计算机模块的预定存储区域中的内容，以开始常规执行。

在上述实施例中，利用来自总线103的信号线710和720，从处理器101和102向监控单元700和地址存储单元701传输寻址存储器104的访问请求。在受限制的情况下，可以修改本发明。例如，修改可以是利用从连接存储器控制器105和存储器104的线路分出的信号线来从处理器101和102向监控单元700和地址存储单元701传输访问请求。

接下来，将描述本发明的实施例。

参照图1和图2，计算机模块100、200和300一致同步地按常规执行操作。即，计算机模块100、200和300根据相同或实质上相同的时钟信号实质上同时按常规执行相同指令。计算机模块100、200和300的处理器依照指令访问存储器和外围装置。监控单元700监控来自计算机模块100、200和300的每个访问。具体地，监控单元700监视时间、相同周期中的访问请求的命令和地址，在计算机模块100、200和300之间是否一致。

设计算机模块100被干扰，从而来自计算机模块100的访问请求与来自其他计算机模块200和300的访问请求不一致，但是在计算机模块100中未发生永久性故障，监控单元700检测不一致。当检测到不一致时，监控单元700确定计算机模块100、200和300中的哪一个失去一致同步。在本实施例中，监控单元700确定计算机模块100失去一致同步。监控单元700通知地址存储单元701访问不一致和失去一致同步的计算机模块，在本实施例中，计算机模块100。监控单元700通过中断将停止指令通知给计算机模块100、200和300中的全部处理器。

当将访问不一致性和计算机模块100失去一致同步通知给地址存储单元701时，地址存储单元701记录不一致访问请求的地址和之后来自每个计算机模块100、200和300的写访问请求。

被通知了停止指令的处理器将正在进行的处理的内容写入存储器的预定区域，然后暂停。在其访问与其他计算机模块不一致的计算机模块上执行硬件诊断。在此示例中，在计算机模块100上执行硬件诊断。在完成硬件诊断之后，数据传输单元702询问错误指示器和硬件诊断结果。由于在本实施例中，在计算机模块100内未发送永久性故障，数据传输单元702执行重新同步。

在重新同步中，如果处于一致同步的任何计算机模块具有高速缓冲存储器，则执行高速缓冲存储器擦写。例如，在计算机模块200内执行高速缓冲存储器擦写。在本实施例中，高速缓冲存储器擦写将高速缓冲存储器的全部内容读出到计算机模块的存储器区域中。高速缓冲存储器擦写使得高速缓冲存储器中的数据被写出到存储器中。由写访问执行此到存储器的写出操作，而且将其数据被写出的地址存储在地址存储器单元701中。

数据传输单元702将只与存储在地址存储单元701中的地址相对应的、而且存储在处于一致同步的其他计算机模块之一、在本实施例中为计算机模块200的存储器中的数据复制到要重新同步的计算机模块、在本实施例中为计算机模块100的存储器中。在此实施例中，复制操作利用DMA传输。存储在地址存储单元701中的地址的数目少于存储器整个地址的数目。基于存储在地址存储单元701中的地址的本发明中的数据复制需要比整个地址的数据复制更少的时间。在完成复制操作之后，数据传输单元702复位所有计算机模块100、200和300。复位之后，所有计算机模块100、200和300与相互相同或实质上相同的时钟信号同步，并开始常规执行。

如上所述，当监控单元700发现任何计算机模块失去一致同步时，地址存储单元701存储失去一致同步的计算机模块的存储器中其数据可能不同于其他计算机模块的响应数据的地址。而且，在重新同步期间，数据传输单元702从处于一致同步的计算机模块的存储器向失去一致同步的计算机模块的存储器复制与存储在地址存储单元701中的地址相对应的数据。缩短了完成重新同步的计算机模块的存储器复制的时间。结果，可以将不是由于如永久性故障等决定性的原因而失去一致同步的计算机模块尽早地安装到容错计算机中。

在本实施例中，为了解释的目的，在步伐一致容错计算机1中提供了三个计算机模块100、200和300。本发明并不限制于这些具体的配置，而且计算机模块的数据可以不少于两个。

尽管已经结合上述优选实施例描述了本发明，现在本领域的技术人员仍然能够以多种其他方式来实现本发明。

Claims

1、一种信息处理设备，包括：

第一和第二计算机单元，实质上同步地同时执行相同的指令，并分别具有第一和第二存储器单元；

监控单元，发现所述计算机单元中的哪一个失去了所述同步；

复制单元，当所述监控单元发现所述第一计算机单元失去所述同步时，将存储在所述第二存储器单元中的部分数据复制给所述第一存储器单元；以及

第三存储单元，在所述监控单元发现所述第一计算机单元失去所述同步时，存储信息以指定由所述复制单元复制存储在所述第二存储器单元中的哪部分数据。

2、按照权利要求1所述的信息处理设备，其特征在于如果在所述第一计算机单元中未发生永久性故障，则激活所述复制单元。

3、按照权利要求1所述的信息处理设备，其特征在于所述监控单元根据其接收到来自所有所述计算机模块的第一信号的时间，发现所述第一计算机单元失去所述同步。

4、按照权利要求1所述的信息处理设备，其特征在于所述监控单元根据来自所有所述计算机模块的请求的时间、命令和地址，发现所述第一计算机单元失去所述同步。

5、按照权利要求1所述的信息处理设备，其特征在于所述信息包括与所述第一和第二存储器单元相关的地址。

6、按照权利要求1所述的信息处理设备，其特征在于所述信息包括自所述监控单元发现所述第一计算机单元失去所述同步以来的访问请求的地址。

7、按照权利要求1所述的信息处理设备，其特征在于所述信息包括与失去所述同步的所述计算机单元的数据相关的信息，其中所述数据具有与处于所述同步的所述计算机单元的相应数据不同的可能性。

8、按照权利要求1所述的信息处理设备，其特征在于所述信息包括由其中检测到所述第一计算机单元失去所述同步的访问请求和随后所述第二计算机单元的写访问请求所指示的地址。

9、按照权利要求1所述的信息处理设备，其特征在于所述信息包括在将高速缓冲存储器的内容写入所述存储器单元时的地址。

10、按照权利要求1所述的信息处理设备，其特征在于所述信息指示具有与所述第二存储器不一致的可能性的所述第一存储器中的位置。

11、按照权利要求1所述的信息处理设备，其特征在于所述复制单元利用直接存储器存取传输复制所述部分数据。

12、一种信息处理设备，包括：

第一和第二计算机单元，实质上同步地同时执行相同的指令，分别具有第一和第二存储器单元，而且每个计算机单元至少具有一个处理器和与所述处理器相连的总线；

监控单元，与所述总线相连，并发现所述计算机单元中的哪一个失去了所述同步；

13、按照权利要求12所述的信息处理设备，其特征在于如果在所述第一计算机单元中未发生永久性故障，则激活所述复制单元。

14、按照权利要求12所述的信息处理设备，其特征在于所述监控单元根据其接收到来自所有所述计算机模块的第一信号的时间，发现所述第一计算机单元失去所述同步。

15、按照权利要求12所述的信息处理设备，其特征在于所述监控单元根据来自所有所述计算机模块的请求的时间、命令和地址，发现所述第一计算机单元失去所述同步。

16、按照权利要求12所述的信息处理设备，其特征在于所述信息包括与所述第一和第二存储器单元相关的地址。

17、按照权利要求12所述的信息处理设备，其特征在于所述信息包括自所述监控单元发现所述第一计算机单元失去所述同步以来的访问请求的地址。

18、按照权利要求12所述的信息处理设备，其特征在于所述信息包括与失去所述同步的所述计算机单元的数据相关的信息，其中所述数据具有与处于所述同步的所述计算机单元的相应数据不同的可能性。

19、按照权利要求12所述的信息处理设备，其特征在于所述信息包括由其中检测到所述第一计算机单元失去所述同步的访问请求和随后所述第二计算机单元的写访问请求所指示的地址。

20、按照权利要求12所述的信息处理设备，其特征在于所述信息包括在将高速缓冲存储器的内容写入所述存储器单元时的地址。

21、按照权利要求12所述的信息处理设备，其特征在于所述信息指示具有与所述第二存储器不一致的可能性的所述第一存储器中的位置。

22、按照权利要求12所述的信息处理设备，其特征在于所述复制单元利用直接存储器存取传输复制所述部分数据。