CN86103695A

CN86103695A - 计算系统中用于故障恢复的方法和设备

Info

Publication number: CN86103695A
Application number: CN86103695.6A
Authority: CN
Inventors: 迈克尔·杰伊·弗里蒙特
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1985-08-16
Filing date: 1986-06-02
Publication date: 1987-02-11
Also published as: AU591134B2; JPS6240547A; CN1008778B; KR920001997B1; DE3669599D1; KR870002504A; EP0212791A1; EP0212791B1; CA1260148A; JPH0738161B2; US4703481A; AU5917386A

Abstract

在计算系统内恢复初始执行机器指令时故障的方法和设备。此计算系统被复原到预先记录的系统状态并启动机器指令再次执行。为了在再执行机器指令的过程中，当达到初始执行该指令而处理重复事件的同一点时能重复异步事件，要对初始执行和再执行的机器指令计数。在机器指令的再执行过程中，此计算系统完成机器指令初始执行时，在相同的点有相同输入的操作。因此，该计算系统所恢复的最终状态和故障出现前的特定系统状态相同。

Description

本发明与容错计算系统有关，特别涉及到对一个计算系统中被检测的故障出现进行恢复。一个故障出现是指在机器指令执行过程中给出了无效数据或后继的机器指令的执行失效。期望的解决方法是以最少数量的破坏来恢复并继续执行机器指令，确保数据和后继机器指令执行的有效，而不是全部停止并重新引导此计算系统。

此计算系统是由称作系统状态的一组标志来描述的。系统状态包括：由进程控制块和进程存取的局部数据组成的进程数据，以及象数据库文件这类永久数据组成的文件数据。

预先恢复方案仅部分恢复故障出现。对文件数据的修改要在故障出现全部完成或完全未出现之前。预先恢复方案在各校验点周期地记录足够的数据用以完全恢复校验点系统状态，此状态是存在于校验点的系统状态。

当故障被检测出，通过前面已登记的描述文件修改的信息来回溯，取消先前对文件的修改。计算系统被复原到最近记录的一个校验点系统状态。此状态定义为最后校验点系统状态。

预先恢复方案通常没有把文件数据复原到恰好故障出现之前的相同状态。在故障出现前没有完成修改文件数据的进程被异常终止，而不是启动。故障恢复后达到的系统状态定义为最终系统状态，此状态通常不是故障前系统状态。故障前系统状态是故障刚出现之前的系统状态。最终系统状态通常只是最后校验点系统状态。

为了提供容错功能，预先恢复方案使用模块冗余技术。两个或多个处理机并行运行，执行相同的代码。并在周期校验点比较并行的结果。如果这些结果有差异，则用判优方案选择这并行的结果。模块冗余技术受到费用限制，因为重复的硬件是非常昂贵的。

这种先有技术中，有一种方案能使最终系统状态和故障前系统状态相同。在执行每一不可重复的输入输出操作前插入校验点，在每个校验点，用户必须插入能记录下足够的信息的代码，以便使系统复原到校验点系统状态。

此方案存在几个不利方面。此方案对用户是不透明的，然而又要求用户对确保故障恢复的正确性承担部分责任。此方案要求用户来选择每一校验点上必须记录下的信息。所以和透明的方案相比更易于发生人的差错。没有选择足够的信息将危害正确的恢复，而选择太多的信息将降低系统的性能。

另一个不利方面在于校验点的间隔，即两个连续的校验点的间隔是由程序决定而不是独立于程序的。在每一不可重复的输入输出操作之前，记录校验点信息会产生过多的开销，它严重降低了系统的性能。校验点间隔不能设置得比两个不可重复的输入输出操作的间隔长。开销不能覆盖较长的校验点间隔，这样可以改进系统性能。由于平均恢复时间与校验点间隔有关，所以，不能在系统性能和平均恢复时间之间采取折衷的选择。

按照本发明提出的最佳实施方案，给出了在一个计算系统内，当机器指令初始执行期间有故障产生时能够恢复的一种方法和设备。此计算系统被复原到最后校验点系统状态，并且启动机器指令再执行。本发明把计算系统恢复到与一个特定的故障前系统状态相同的最终系统状态。

当启动机器指令再执行时，此计算系统在相同的输入和相同的各指令点完成的操作和这些机器指令在初始执行期间完成的操作一样。指令点是指一条机器指令在执行或再执行后达到的那点状态，它是由被执行的一串机器指令来决定，而不是由时间的推移来决定。

本发明在机器指令串再执行时，重复此机器指令初始执行期间处理的每一确定事件。一个确定事件是异步中断，它的处理影响到最终系统状态的确定。例如，一个典型的确定事件可以是一个输入事件，一个信息接收，一次读实时时钟，一个过程的生成，或一个过程的交换。机器指令初始执行时，在某一指令点初始处理的确定事件，在此机器指令再执行而达到同一指令点时，就重复这一确定事件。一个确定事件的重复可以通过再处理此确定事件的再次出现，或通过模拟一个再次出现并处理此确定事件得到。

在机器指令再执行期间，本发明不需重复非确定事件。非确定事件是一个异步中断，对它的处理对最终系统状态的确定是透明的。例如，一个非确定事件可以是一个超高速缓存出错，或是一个页面出错。虽然非确定事件可以在机器指令再执行过程中再现，但是，为了把计算系统恢复到故障前系统状态，并不需要重复非确定事件。

为了在机器指令再执行过程中，达到和机器指令初始执行中处理一确定事件的相同指令点时，重复此确定事件，本发明对初次执行和再执行的机器指令计数。在处理和重复确定事件时执行的机器指令串和在处理非确定事件中执行的指令串，通常不被计数。

本发明比仅靠跟踪一个确定事件再现的时间来试图进行故障恢复的计算系统优越。机器指令串初始执行时的时间开销，和同样的指令串再执行时的时间开销相比，可以或多或少些。例如，对于执行时间依赖于磁盘上磁头初始位置的输入输出操作，它的再执行就会导致不同的存取时间。

如果一个计算系统仅跟踪一个确定事件再现的时间，那么，在机器指令再执行期间，当达到一确定事件被初始处理的相同指令点时，此确定事件可能并不重复。机器指令串再执行所达到的一个最终系统状态将和此指令串初始执行时达到的故障前系统状态不同。本发明确保可达到故障前系统状态。在机器指令再执行时，当达到的指令点和机器指令初始执行中初始处理这确定事件所在的指令点相同时，总是重复此确定事件。

本发明允许校验点的间隔与用户的应用程序相独立。检验点间隔是可编程的，从而可在系统性能和平均恢复时间之间进行折衷。本发明对用户的应用是透明的，从而减少了难以预料的程序员错误的危险。

本发明不依靠立即故障检测。只要故障在需要人来干涉的付作用扩展之前被检测出来，仍能实现故障恢复。由于立即检测故障的硬件可由硬件和快速检测故障的软件来代替，故需要较少的硬件。

图1表示恢复计数器装置及计算系统内部连接的方框图。

图2是对异步事件进行分类的定义性的分层结构的方框图。

图3描述了机器指令的典型的执行序列，及相应的机器指令再执行序列。

图4为流程图，说明在机器指令执行期间所采取的步骤，其目的是由于出现故障而准备对系统进行恢复。

图5为流程图，说明在故障检测出之后为完成故障恢复而采取的步骤。

图6说明典型的机器指令执行序列和再执行序列。

最佳实施方案用一个恢复计数器对初次执行及随后再次执行的机器指令进行计数。图1表示恢复计数器100，它是一个控制寄存器。计算系统101包含有进程控制块103和局部数据105，以及磁盘109上的文件数据107。存储在恢复计数器100中的恢复计数器值102随着处理机104每执行一条机器指令而减少1。处理机状态字108中有一允许/禁止位106，它用来允许和禁止恢复计数器100进行计数。通过总线110对恢复计数器100进行读出和写入。

当恢复计数器值102倒计数降为零时，其高位112产生陷阱，陷阱是一种内部中断，它把程序控制权转给陷阱处理程序114，这是处理陷阱的软件。事件处理程序122和事件记录程序123属于软件。校验点系统状态记录程序126，故障修复程序124，校验点系统状态复位程序118和事件模拟程序120也同属于软件。信息可以写到磁盘116中。

图2表示对异步事件分类的定义性的分层结构。异步事件200被定义作确定事件202或非确定事件204。正如前面讨论的那样，确定事件是一种异步中断，对它进行处理影响到系统最终状态的确定，非确定事件也是一种异步中断，对它进行的处理是透明的，不影响系统最终状态的确定。

确定事件202被定义作再现事件206或非再现事件208。再现事件是一种确定事件，作为机器指令再执行的结果而再现。比如，由于读盘而引起的输入事件，在机器指令初次执行期间内出现，作为机器指令再执行的结果，它又再现。非再现事件也是一种确定事件，作为机器指令再执行的结果，不再出现。比如，由于人工键盘输入而引起的输入事件，在机器指令初次执行期间内出现，而作为机器指令再执行的结果，不再出现。

在机器指令的再执行中，再现事件206划分为早期再现事件210和晚期再现事件212。机器指令再执行中的早期再现事件在指令点IP′之前的指令点再现，其中IP′和指令点IP是相同的，在机器指令执行中，早期再现事件在IP点被初次处理。机器指令再执行中的晚期再现事件在指令点IP′或IP′之后再现，其中IP′和指令点IP相同，在机器指令执行中，晚期再现事件在IP点被初次处理。

图3描述的最佳实施方案可在指令点对故障出现定位。其中描述了典型的执行序列300和典型的再执行序列302执行中的一组机器指令。执行序列是一组按故障发生前的顺序执行的机器指令。再执行序列是一组在故障检测之后按一种特定的执行顺序来执行的机器指令。再执行序列包括与初次执行的机器指令本质上相同的那些执行过的机器指令。机器指令再执行的顺序与机器指令初次执行的特定顺序相同。

指令点304为校验点。在指令点304有校验点系统状态305。由运行校验点系统状态记录程序126而执行机器指令组306。校验点系统状态记录程序126在磁盘116上记录足够的信息，能把计算系统101完全恢复到校验点系统状态305。在执行机器指令组306之后，计算系统保持为校验点系统状态305。

执行序列300包括机器指令组308，309，310，311，312和313;先前执行过的机器指令组308，309，310，311，312和313在再执行序列302中被再次执行。

为处理出现在指令点320处的再现事件318，执行机器指令组314，315和316。运行事件处理程序122，则执行机器指令组314和316，运行事件记录程序123，则执行机器指令组315。运行事件记录程序123的目的是记录确定事件信息。确定事件信息是把一个确定事件的发生与另一个确定事件的发生区别开所必须的信息。确定事件信息包括从上一个校验点开始执行过的机器指令的计数，其中不包括为处理非确定事件所执行的机器指令。

执行机器指令组323，以处理出现在指令点328处的非确定事件326。运行事件处理程序122，则执行机器指令组323。

执行机器指令组330，331，332和333，以处理出现在指令点336处的非再现事件334。运行事件处理程序122，则执行机器指令组330和333，运行事件记录程序123，则执行机器指令组331和332。执行机器指令组331，以记录确定事件信息，执行机器指令组332，以记录非再现输入。非再现输入是接收部分非再现事件处理的输入。

执行机器指令组338，339和340，以处理出现在指令点344处的再现事件342。运行事件处理程序122，则执行机器指令组338和340，运行事件记录程序123，则执行机器指令组339。运行事件记录程序123，以记录确定事件信息。

在指令点346处有故障前系统状态345。故障出现347处在指令点346。故障检测处在指令点348。在指令点346和348之间执行机器指令组350。故障出现347使得机器指令组350的执行无效。

在故障检测349之后，计算系统101在概念上进入到恢复方式，由运行故障修复程序124来执行机器指令组352。机器指令组352的执行是要防止与故障347相同或类似的危急故障出现。比如，若故障出现347不是短暂地，而是由于物理存储器部分失效引起的，那么虚拟存储器管理的控制数据就应该更新，以反映出计算系统101新的物理配置。

故障修复程序124也采取某些步骤来保证在再执行序列302期间，某些输出不需要重复。比如，故障修复程序124暂时禁止某些输出口，如打印机和终端输出口。故障修复程序124采取一些步骤保证再执行序列302不受计算系统101的新的物理配置的影响。比如，通向一个设备的新的较长的物理通路导致产生一条到该设备的较长的软件通路，要求在每次访问该设备时执行两条附加的机器指令。故障修复程序124可使用以前记录的数据来确定在执行序列300期间内，该设备是否被访问过，以及何时被访问过。故障修复程序124可以修改执行过的机器指令以前记录的计数，以反映出两条附加的机器指令，每次访问该设备时，在再执行序列302中将要求执行这两条机器指令。

如果故障修复程序124不能修复计算系统101内的损坏部分，故障修复程序124就要求人来干予。即使人的干予要计算系统101停止下来，也已经有足够的信息记录在磁盘116中，以便损坏部分一经修复就能进行完整的故障恢复。如果计算系统101不能修复，已有足够的信息记录在磁盘116上，使得能在一台并行计算系统上进行完整的故障恢复。

运行校验点系统状态复位程序118，则执行机器指令组354。在执行序列300期间，对文件数据如此进行修改，使得对文件数据所做的任何改变以后都可以撒销。使用以前保留的记录，将文件数据107、进程控制块103和局部数据105复位，校验点系统状态复位程序118把计算系统101恢复到校验点系统状态305。

在指令点357处由高位112产生陷阱356。再执行序列302内的指令点357与执行序列300内的指令点320相同。在指令点357处应再次处理再现事件318。再现事件318是一种晚期再现事件，在指令点360之前不会再现。处理机104等待再现事件318。运行陷阱处理程序114，则执行指令组358，它完成初步陷阱处理。处理机104在空闲周期上循环，执行机器指令组359，等待再现事件318的再现。

当再现事件318在指令点360处再现时，机器指令组363和364被执行，以便再次处理再现事件318。运行事件处理程序122，则执行机器指令组363，运行陷阱处理程序114，则执行机器指令组364。

在再执行序列302中，对非确定事件326不产生陷阱，非确定事件326也不在再执行序列302中再现。

在指令点367处由高位112产生陷阱366。再执行序列302内的指令点367与执行序列300内的指令点336相同。非再现事件334不因为再执行序列302内的机器指令的再执行而再现。非再现事件334被模拟。执行机器指令组368，369和370，以模拟非再现事件334。运行陷阱处理程序114，则执行机器指令组368和370，运行事件模拟程序120，则执行机器指令组369。事件模拟程序120用以前记录的非再现输入来模拟非再现事件334的再现和处理。

再执行序列302内的指令点373与执行序列300内的指令点344相同。再现事件342应在指令点373处被再处理。再现事件342是一种早期再现事件;再现事件342在指令点373之前到的指令点372处再现。再现事件342再现时执行机器指令组371，374和379。运行事件处理程序122，则执行机器指令组371和379，运行事件处理程序123，则执行机器指令组374。事件处理程序122不在指令点372处立即对再现事件342进行再处理;事件处理程序122调用事件记录程序123，对再现事件342的再现进行记录并辨别，而在到达指令点373之前，再现事件342不进行再处理。如果再现事件342在指令点372处要求立即引起注意，那么事件处理程序122在指令点372处理再现事件342。在到达指令点373之前，不“报告”什么;从用户程序的观点看，在指令点373之前没有对再现事件342进行再处理。

在到达指令点373之前，再次执行机器指令组312。在指令点373由高位112产生陷阱375。再现事件342在指令点373处开始被再处理。执行机器指令组376，377和378，则对再现事件342进行再处理。运行陷阱处理程序114，则执行机器指令组376和378，运行事件处理程序122，则执行机器指令组377。

在指令点380处由高位112产生陷阱382。指令点380与指令点346相同;故障出现347位于指令点346处。运行陷阱处理程序114，则执行机器指令组383。陷阱处理程序114将恢复计数器的值102复位为指令点346处的值。陷阱处理程序114使计算系统101退出恢复方式。

在指令点384处到达系统最终状态，它与故障前的系统状态345相同。在指令点384之后机器指令组386将正常连续执行。

图4说明最佳实施方案在对故障出现进行恢复的准备中所执行的步骤。为完整地恢复校验点系统状态所要求的足够数据周期地记录在磁盘116上，这由在步骤400中运行校验点系统状态记录程序126来完成。恢复计数器值102在步骤402中通过总线110被复位为特定的初始值。在步骤404中，处理机104执行一条机器指令，当每执行一条机器指令时恢复计数器值102减少1。

如果在步骤406中检测到故障出现，则在步骤408中进行故障恢复。故障恢复在下面讨论，在图5中有更详细说明。返回到步骤404，继续执行机器指令。

如果在步骤410中未出现异步事件，则进行步骤436。如果在步骤436中查明到达校验点，则处理机104返回到步骤400;为完整地恢复校验点系统状态所要求的足够数据被记录在磁盘116中。如果在步骤436中查明没有到达校验点，处理机104返回到步骤404。执行另一条机器指令，恢复计数器值102减少1。

如果在步骤410中出现异步事件，则恢复计数器100被暂时禁止。在步骤412中，恢复计数器100的禁止是在硬件中允许/禁止位106复位来自动完成的。

如果在步骤414中查明出现确定事件，则在步骤418中通过总线110将恢复计数器值102读出并记录。在步骤420中运行事件处理程序122，以处理该确定事件。在步骤422中运行事件记录程序123，把确定事件的信息记录在磁盘116中。

如果在步骤424中查明出现了再现事件，则在步骤430中由允许/禁止位106将恢复计数器100置为再允许。在步骤430中，恢复计数器100置为再允许是在硬件中自动完成的，当执行从中断指令的返回时，返回指令将允许/禁止位106置位，即自动完成将恢复计数器100置为再允许。在步骤436中检查是否到达校验点。

如果在步骤426中查明出现了非再现事件，则在步骤428中，将非再现事件处理期间内接收的非再现输入记录在磁盘116中。恢复计数器100在步骤430中由允许/禁止位106置为再允许。在步骤436中检查是否到达校验点。

如果在步骤414中查明出现非确定事件，则在步骤434中运行事件处理程序122，处理非确定事件。恢复计数器100在步骤430中由允许/禁止位106置为再允许。在步骤436中检查是否到达校验点。

在一种供选择的最佳实施方案中，当出现异步事件时，恢复计数器100在恢复计数器值102及辨别该异步事件所要求的足够信息被记录后，置为再允许。置为再允许的恢复计数器100，在完全处理此异步事件之前，允许第二个具有高优先级的异步事件中断对第一个具有低优先级的异步事件的处理。

图5描述了检测到故障时，计算系统101所采取的恢复步骤。在步骤500中进入恢复方式。在步骤501中通过允许/禁止位106将恢复计数器暂时置为禁止。在步骤502中运行故障修复程序124，进行故障修复。故障检测时的恢复计数器值102，在步骤503中通过总线110读出并记录。在步骤504中，运行校验点系统状态复位程序118，它使用以前记录在磁盘116上的事件记录，以此将文件数据107复位。在步骤506中，运行校验点系统状态复位程序118，通过将进程控制块103和局部数据105复位，使计算系统101恢复到上一次校验点系统状态。

在步骤508中，通过总线110将恢复计数器值102复位。恢复计数器值102被复位到为了到达一指令点所必须执行的机器指令的计数，该指令点与一特定的确定事件或故障出现时所在的指令点相同。机器指令计数称作倒计数;倒计数数根据以前记录的恢复计数值来确定。

在步骤509中，恢复计数器100通过允许/禁止位106被置为再允许。在步骤510中，处理机104再执行一条机器指令，而恢复计数器值102随着每条机器指令再执行减少1。被再执行的机器指令与原先执行过的机器指令相同。在步骤510中，在陷阱或异步事件出现之前，一些机器指令被再执行着。

如果在步骤512中出现陷阱或异步事件，则恢复计数器100在步骤514中通过允许/禁止位106被暂时置为禁止。在步骤516中检查恢复计数器值102。如果恢复计数器值102不是倒数计数至零，则是出现异步事件。如果恢复计数器值102倒数计数至零，则是高位112产生陷阱。

如果在步骤518中查明出现早期再现事件，则在步骤520中运行事件记录程序123，记录早期再现事件的再现。事件记录程序123能辨别早期再现事件，以免早期再现事件与另外一个再现事件顺序颠倒地再现。事件处理程序122不立即处理早期再现事件;早期再现事件在后面的536步骤中处理。返回到步骤509;恢复计数器100被置为再允许。

如果在步骤518中查明出现非确定事件，则在步骤526中运行事件处理程序122，处理这个非确定事件。在步骤509中，恢复计数器100被置为再允许。

如果在步骤528中查明到达非再现事件的指令点，则陷阱处理程序114在步骤530中调用事件模拟程序120，模拟非再现事件。如果在非再现事件的初次处理期间内接收到非再现输入，则事件模拟程序120使用此非再现输入。在步骤508中，恢复计数器值102被复位为下一个倒计数值。

如果在步骤534中查明到达早期再现事件指令点，则陷阱处理程序114在步骤536中调用事件处理程序122，对早期再现事件进行再处理。在步骤508中恢复计数器值102被复位为下一个倒计数值。

如果在步骤538中查明到达晚期再现事件指令点，则陷阱处理程序114在步骤540中等待晚期再现事件的再现。陷阱处理程序114在步骤542中调用事件处理程序112，对晚期再现事件进行再处理。在步骤508中恢复计数器值102被复位为下一个倒计数值。

如果陷阱已产生，但还没有到达非再现事件，早期再现事件，或晚期再现事件的指令点，则为到达出现故障的指令点。在步骤544中，恢复计数器值102通过总线110被复位为上次记录的故障出现时的值。在步骤545中，通过允许/禁止位106将恢复计数器100置为再允许。在步骤546中退出恢复方式。

在一种可供选择的优先实施方案中，如果故障检测及时，则出现故障的准确指令点不需要由计算系统101来识别。图6说明典型的执行序列602和典型的再执行序列604，606和608中执行的一系列机器指令。

在执行序列602中，校验点系统状态610存在于指令点612处。故障出现614在指令点616处。处理机104在指令点620处启动读盘请求618。和读盘请求618同时出现的标志被设置，以记录读盘请求618。再现事件622是响应读盘请求618的输入事件，它发生在指令点624处。再现事件626发生在指令点628处。故障检测630出现在指令点632处。从计算系统101的角度看，故障出现614不能精确定位，而只能确定发生在指令点612和632之间的某处。

再执行序列604是一个典型的例子，说明若故障出现614没有传播且没有引起启动读盘请求618将会出现什么情况。读盘请求618及标志设置都发生于指令点636处。再执行序列604中的指令点636与执行序列602中的指令点620相同。再现事件622早于指令点638再现。在指令点644处发生陷阱640之前，不再涉及对再现事件622的处理。再执行序列604中的指令点644与执行序列602中的指令点624相同。再现事件626早于指令点646再现。在指令点650处发生陷阱648之前，不再涉及对再现事件626的处理。再执行序列604中的指令点650与执行序列602中的指令点628相同。再现事件626被再处理之后，以前记录的确定事件信息不再保留，所以将继续正常执行。

再执行序列605是一个典型的例子，说明若故障出现614传播且使读盘请求618被错误地启动将会出现什么情况。在再执行序列606期间内，故障出现614不会重复。这使得读盘请求618不出现和不设置标志。陷阱640发生在指令点644处。以前记录的确定事件信息表明，再现事件622将在指令点644处被再处理。因为未设置表示读盘的标志，因而可以确定在执行序列602中错误地发生过再现事件622。可以确定，再执行过程经过了这样一个指令点，它与执行序列602中初次发生故障所在的指令点相同。以前记录的再现事件622和626的信息被舍弃，并继续正常执行。

再执行序列608是另一个例子，说明若故障614传播并使读盘请求618被错误地启动会出现什么情况。在再执行序列608期间内，故障出现614不会重复。这使读盘请求不出现和不设置标志。读盘请求656在指令点658被启动。与读盘请求656同时出现的标志被设置，以记录读盘请求656。读盘请求656使再现事件660出现在指令点662处。当事件处理程序123不能将再现事件660和以前记录的再现事件622和626的信息相匹配，可以确定，再执行过程经过了这样一个指令点，它与执行序列602中初次发生故障所在的指令点相同。以前记录的再现事件622和626的信息被舍弃，并继续正常执行。

在故障检测630之前，故障出现614可能已经传播出一个影响非常严重，使计算系统101不能处理的错误。如果以前记录的信息表明传播了这样的错误，则处理机104停止执行，请求人工干予。

Claims

1、一种对从计算系统内检测出的故障进行恢复做准备的方法，该方法的特征包括以下步骤：

在第一个校验点，把计算系统的校验点系统状态记录下来；

在记录了校验点系统状态之后，对执行过的机器指令进行计数；以及

记录用于处理确定事件的确定事件信息。

2、根据权利要求1中的方法，其特征还包括步骤：

对非再现输入进行记录。

3、根据权利要求2中的方法，其中确定事件信息包括被标识的指令点到确定事件出现之间所执行的机器指令数的计数。

4、根据权利要求3中的方法，其中使第一校验点和第二校验点之间的间隔成为可编程的，使之能在计算系统性能和完成故障恢复所需要的平均时间之间进行折衷。

5、一种由于计算系统故障出现而进行恢复的方法，该方法的特征包括以下步骤：

把计算系统的系统状态恢复到以前记录下的最近一个校验点的系统状态;

在再执行序列中，将执行序列中初次执行过的机器指令进行再执行，其中再执行序列与执行序列本质上类似;以及，

使执行序列中按一种顺序进行初次处理的确定事件，在再执行序列中按同样顺序重复处理。

6、根据权利要求5中的方法，其中通过对再现事件进行再处理和对非再现事件进行模拟，使确定事件重复处理。

7、根据权利要求6中的方法，其中机器指令再执行的顺序与初次执行时的顺序相同。

8、根据权利要求7中的方法，它还包括步骤：

使记录校验点系统状态之后和故障出现之前所处理过的每一确定事件重复。

9、根据权利要求8中的方法，它还包括步骤：

使每个确定事件在再执行序列的一个指令点上重复，该指令点与每个确定事件在执行序列中初次被处理所在的指令点相同。

10、根据权利要求9中的方法，其中使每个确定事件在再执行序列的一个指令点上重复，该指令点与每个确定事件在执行序列中初次被处理所在的指令点相同，完成这一步骤的方法是对再执行的机器指令进行计数并使用以前记录下的机器指令的计数。

11、根据权利要求10中的方法，它还包括步骤：

如果到达与故障出现所在的指令点相同的指令点，则放弃再执行序列。

12、根据权利要求11中的方法，它还包括步骤：

如果到达与被检测出故障出现的指令点相同的指令点，则放弃再执行序列。

13、根据权利要求12中的方法，它还包括步骤：

如果到达的指令点，在该处确定事件信息表明确定事件应重复但在再执行序列中没有启动这样的确定事件，则放弃再执行序列。

14、根据权利要求13中的方法，它还包括步骤：

如果到达的指令点，在该处确定事件已启动并应被处理，但在执行序列中未记录相应的确定事件信息，则放弃再执行序列。

15、根据权利要求10中的方法，其中使每个确定事件在再执行序列的一个指令点上重复，该指令点与每个确定事件在执行序列中初次被处理所在的指令点相同，完成这一步骤的方法是辨别出而不是立即处理早期再现事件的早期再现。

16、根据权利要求10中的方法，其中使每个确定事件在再执行序列的一个指令点上重复，该指令点与每个确定事件在执行序列中初次被处理所在的指令点相同，完成这一步骤的方法是等待晚期再现事件的再现。

17、根据权利要求10中的方法，其中使每个确定事件在再执行序列的一个指令点在重复，该指令点与每个确定事件在执行序列中初次被处理所在的指令点相同，完成这一步骤的方法是使用以前记录下的非再现输入，模拟非再现事件，对该非再现事件的初次处理就包含输入这一非再现输入。

18、根据权利要求10中的方法，其中使每个确定事件在再执行序列的一个指令点上重复，该指令点与每个确定事件在执行序列中初次被处理所在的指令点相同，完成这一步骤的方法是在再执行序列的每一指令点上生成一个陷阱，此指令点与执行序列中每一确定事件被初次处理所在的指令点相同。

19、根据权利要求10中的方法，它还包括步骤：

给出非确定事件的再执行支路。

20、根据权利要求19中的方法，其中完成使非确定事件的再执行进入支路这一步骤的方法是，对非确定事件初次出现所执行的部分机器指令不进行计数。

21、一种对从计算系统内检测出的故障准备并进行恢复的方法，该方法的特征是包括以下步骤：

在记录下最后校验点系统状态之后，对所执行的机器指令计数;

记录处理确定事件所需要的确定事件信息;

把计算系统的系统状态恢复到以前记录下的最后校验点系统状态;

使执行序列中按一种顺序进行初次处理的确定事件，在再执行序列中按同样的顺序重复处理。

22、在计算系统内，用于从故障状态下进行恢复的设备，该设备包括：

对所执行的机器指令进行计数的计数装置;

读出所计数值的读出装置;以及，

记录确定事件信息的记录装置。

23、根据权利要求22中的设备，它还包括：

处理出现的确定事件和重新处理再现的确定事件的处理装置;

进行模拟使非再现事件再现的模拟装置;

记录把计算系统恢复到校验点系统状态所需要的信息的记录装置;以及，

把计算系统恢复到以前记录下来的校验点系统状态的恢复装置。

24、根据权利要求23中的设备，它还包括：

当计数装置已将第一个机器指令数进行计数时，生成陷阱的陷阱生成装置;以及，

当计数装置已将第一个机器指令数进行计数时，处理已生成的陷阱的陷阱处理装置。

25、权利要求24中的设备，它还包括：

允许用计数手段的允许手段;以及，

启动计数装置的启动装置，

禁止用计数装置的禁止装置。

26、权利要求25中的设备，它还包括：

把一个新值写入计数装置的写入装置。