CN1257244A

CN1257244A - 多处理器转换装置和主处理器转换方法

Info

Publication number: CN1257244A
Application number: CN99123148A
Authority: CN
Inventors: 小菅幸男; 竹田和正
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-12-15
Filing date: 1999-10-25
Publication date: 2000-06-21
Anticipated expiration: 2019-10-25
Also published as: US6502206B1; CN1129857C; JP2000181890A

Abstract

本文公开一种多处理器转换装置,该装置包括一个主处理器;多个协处理器,协处理器用于在主处理器的控制下执行调用过程;检测单元,用于检测主处理器的故障;和确定单元,用于当检测单元检测到主处理器的故障时根据每个协处理器的操作状态从协处理器中确定执行主处理器功能的替换处理器。每个协处理器的操作状态是,例如,施加到协处理器的负载状态或已完成的恢复操作的次数。通过选择一个负载小和不太频繁恢复其操作的协处理器作为替换处理器,可以确定一个适当的,较为稳定的替换处理器。

Description

多处理器转换装置和主处理器转换方法

本发明涉及具有一个主处理器和多个协处理器的多处理器转换装置，具体涉及当主处理器发生故障时，用于将执行主处理器功能的处理器从主处理器转换到协处理器之一的方法。

图14是表示常规的多处理器转换装置的示意方框图。在多处理器转换装置(下文仅简单称为转换装置)所包括的多个处理器中，一个处理器，即，主处理器(下文简单称为MPR)确定由转换装置执行的全部操作并控制下文描述的协处理器，但本身不执行调用过程。相反，根据MPR的控制由协处理器(下文仅简单称CPR)执行调用过程。通常提供多个CPR(CPR#0，#1，#2，…)以便分布按对于连接到转换装置的多个用户终端，或另一个转换装置执行调用过程的需要所施加的负载。提供一个存储设备(硬盘单元(HDU))用于每个MPR和CPR。

在图14，SP设备101是一个用于端接连接到发送一个音频信号的终端(例如，一个电话)的线路的线路设备。信号设备102是一个用于端接连接到发送未伴随音频信号的数据的终端(例如，一个传真机)的线路的线路设备。转接设备103是一个端接连接到另一个转换装置的线路的线路设备。这些线路设备经总线100连接到MPR和CPR。

假定在转换操作期间，由于某原因MPR有时会出现故障。这样由于在这段时间丢失全部转换操作的整体控制，这些控制包括MPR为CPR提供的控制，由该转换装置执行的全部调用操作将暂停，即使执行这些操作的CPR仍然能够正常工作。在这种情况下将会出现所谓的系统停机，为使系统恢复正常，操作员必须使用维护终端110常规地进行手动操作，如图14所示。

为避免系统停机，根据常规的方法，将MPR功能指定到预先选择的一个CPR，使得要是MPR发生故障，所选择的CPR会开始执行MPR功能。

然而，如果当MPR发生故障时预先选择CPR来执行MPR功能。可能会出现下面问题。

如果所选择的CPR也出现问题就不可能避免系统停机。以及如果所选择的CPR不稳定并且往往由于特定原因导致停机，当执行MPR功能的任务转到其上时，就会发生涉及所选择的CPR的系统故障。另外，当施加到所选择CPR的负载大于施加到其他CPR的负载时，当所选择的CPR必须执行MPR功能时会发生所选择的CPR过载。这种情况将导致所选择的CPR的性能下降以及整个转换装置操作的不稳定性。

因此，本发明的目的是提供一种多处理器转换装置及其主处理器转换方法，当主处理器发生故障时，该多处理器转换装置能够选择一个适当的协处理器并允许其起主处理器的作用。

为实现上述目的，根据本发明，提供一种多处理器转换装置，包括：

主处理器；

多个协处理器，用于在主处理器的控制下执行调用过程；

检测单元，用于检测主处理器的故障；和

确定单元，用于当检测单元检测到主处理器的故障时根据每个协处理器的操作状态从协处理器中确定执行主处理器功能的替换处理器。

此外，为实现上述目的，根据本发明提供一种用于包括一个主处理器和多个协处理器的多处理器转换装置的主处理器转换方法，其中在主处理器的控制下协处理器执行调用过程，该方法包括步骤：

检测主处理器的故障；

根据每个协处理器的操作状态从协处理器中确定执行主处理器功能的替换处理器；和

由替换处理器执行主处理器功能。

每个协处理器的操作状态是，例如，施加到协处理器的负载状态或恢复其操作的次数，或二者的组合。通过选择一个负载小或不太频繁恢复其操作的协处理器作为替换处理器，可确定一个适当的，较稳定的替换处理器。

图1示出根据本发明第一实施例的多处理器转换装置的方框图；

图2示出解释根据本发明第一实施例的处理器互连监控设备和MPR的图；

图3示出解释根据本发明第二实施例的处理器互连监控设备和MPR的图；

图4示出解释根据本发明第三实施例的处理器互连监控设备和MPR的图；

图5示出根据本发明另一实施例的多处理器转换装置的方框图；

图6示出解释根据本发明的实施例在MPR发生故障时由MPR和CPR交换的信号的图；

图7示出解释确定一个CPR负载的过程的图；

图8示出解释负载确定过程的图；

图9示出解释从MPR转换到CPR#0的主处理器转换过程的图；

图10示出解释从MPR转换到CPR#0的另一个主处理器转换过程的图；

图11示出解释MPR恢复过程的图；

图12示出解释在MPR已恢复正常之后将MPR和CPR#0返回其正常状态的过程的图；

图13示出将MPR和CPR#0返回其正常状态的另一过程的图；和

图14示出一个常规的多处理器转换装置的示意方框图；

下面将描述本发明的优选实施例。然而，应该注意到，本发明的技术范围不限于这些实施例。

图1示出根据本发明第一实施例的多处理器转换装置的方框图。与图14所用的相同的标记数字也用于表示对应的或相同的部件。在图1，处理器互连监控设备1连接到总线200，总线200连接每个处理器MPR各CPR。例如，处理器互连监控设备1由一个固件构成。处理器互连监控设备1向每个MPR，CPR周期性地发送一个监控信号。每个处理器将一个应答该监控信号的监控响应信号发送到处理器互连监控设备1。

图2示出解释根据本发明第一实施例的处理器互连监控设备1和MPR的图。在图2A，处理器互连监控设备1的监控单元10将包括操作检验标记的监控信号P发送给MPR。在MPR由监控信号接收器20接收监控信号P，当接收到该信号时，监控信号接收器20打开监控信号P所包括的操作检验标记并将包括处于ON状态的操作检验标记的监控应答信号Q返回到处理器互连监控设备1。

处理器互连监控设备1的监控单元10分析接收的监控应答信号Q。当监控应答信号Q所包括的操作检验标记处于ON状态时，监控单元10确定MPR为正常状态。当操作检验标记处于OFF状态时，监控单元10确定MPR为异常状态。以及当未接收到监控应答信号Q时，处理器互连监控设备1也确定MPR为异常状态。

当监控单元10检测到MPR的异常状态时，监控单元10向每个CPR发送MPR故障通知信号R。当接收到该信号R时，CPR停止与MPR的通信。

此后，处理器互连监控设备1收集与每个CPR所装载的负载有关的信息，并确定每个CPR的负载状态。为进行该确定，如图2A所示，处理器互连监控设备1包括控制单元11，负载确定单元12，负载测量单元13，和存取单元14。具体地，负载确定单元12经存取单元14访问负载测量单元13并收集与每个CPR前一天的每个小时的负载状态有关的信息。

负载测量单元13计算每个CPR(CPR#0，CPR#1或CPR#2)的每小时使用时间与转换装置的操作小时数的比率(负载状态)，并将该结果存储在测量单元13的数据库作为负载状态表，如图2B所示。在图2B，该表包含前一天的每个小时的负载状态信息，基于下面的原因使用该信息。由于CPR执行的调用过程所施加的正常负载波动和一天周期一致，在MPR的故障后，为获得最可靠的负载状态信息以用于确定哪一个CPR的负载可能增加，需要参考与在前一天的相同时间和继后一段时间所施加的负载有关的信息。

负载确定单元12以下面的方式使用图2B中的表来确定每个CPR的负载状态。当MPR在上午11点钟发生故障时，负载确定单元12从图2B中的负载状态信息表收集从前一天的上午11点钟开始的四个小时的负载状态信息，并由此确定在这段时间内具有最小负载总量值的CPR。例如，CPR#0，CPR#1和CPR#2的负载是

CPR#0＝20+10+5+5＝40

CPR#1＝3+30+20+15＝68

CPR#2＝10+20+10+10＝50

即，CPR#0的负载最小，因此，控制单元11选择CPR#0作为执行MPR功能的处理器(替换处理器)。

当MPR出现故障时，MPR自动执行恢复初始配置过程。当MPR的恢复未由恢复初始配置过程完成时，MPR重复恢复初始配置过程并且不停机。该实施例的MPR包括一个处理器关闭单元21用于该过程。处理器关闭单元21计数MPR执行的恢复初始配置过程的次数。当MPR未在执行次数已达到预定值的时间恢复时，处理器关闭单元21终止执行恢复初始配置过程，并关机该处理器。其后，处理器关闭单元21向处理器互连监控设备1发送关闭信号S，当处理器互连监控设备1接收到关闭信号S时，向完成MPR功能的CPR#0发送MPR关闭通知信号T。当接收到信号T时，CPR#0将其本身识别为替换处理器，并开始执行MPR功能，下面将对这一过程进行详细描述。

图3示出解释根据本发明第二实施例的处理器互连监控设备1和MPR的图。在图3A，由于监控信号P，监控应答信号Q，和MPR故障通知信号R与第一实施例的相同，不再给出对其的解释。

当处理器互连监控设备1的监控单元10检测到MPR的故障时，就收集CPR恢复计数信息以确定CPR已恢复的次数。为进行该过程，如图3A所示，处理器互连监控设备1包括控制单元11，恢复计数确定单元15，恢复计数测量单元16，和存取单元17。具体地，恢复计数确定单元15经存取单元17访问恢复计数测量单元16，并收集由每个CPR前一天执行的恢复初始配置过程的计数(恢复计数)。

恢复计数测量单元16获得每个CPR(CPR#0，CPR#1或CPR#2)每小时的恢复次数，并将该结果存储在恢复计数测量单元16的数据库作为恢复计数表，如图3B所示。图3B的表表示前一天的每个小时的恢复计数信息。可以采用前一天的恢复计数信息，这是因为它是可得到的与CPR操作状态有关的最新信息，因而将其认为是最可靠的。

恢复计数确定单元15采用图3B的表以下面的方式确定每个CPR的恢复计数。获得每个CPR的前一天24小时的总恢复计数，确定恢复计数最小的CPR。具体地，由于CPR#0，CPR#1和CPR#2的恢复计数为0，5和2，恢复计数确定单元15确定其恢复计数最小的CPR#0为最稳定的CPR。这样，控制单元11选择CPR#0作为执行MPR功能的处理器(替换处理器)。

以上面所述方式，处理器互连监控设备1向CPR#0发送MPR关闭通知信号T。当接收到信号T时，CPR#0将其本身识别为替换处理器。

图4示出解释根据本发明第三实施例的处理器互连监控设备1和MPR的图。第三实施例是第一实施例和第二实施例的组合。即，根据各CPR的负载状态信息和恢复计数信息选择执行MPR功能的CPR(替换处理器)。在图4A，由于监控信号P，监控应答信号Q，和MPR故障通知信号R与第一实施例的相同，不再给出对其的解释。

当处理器互连监控设备1的监控单元10检测到MPR的故障时，负载确定单元12经存取单元14从负载测量设备13收集每个CPR的负载状态信息(图2B中的表)，并执行与第一实施例相同的负载确定。负载测量设备13准备在图4B所示的表中的负载顺序信息，其中CPR以其负载的升序排序。恢复计数确定单元15经存取单元17从恢复计数测量单元17收集每个CPR的恢复计数信息(图3B中的表)，并执行与第二实施例相同的恢复计数确定。恢复计数确定单元15准备在图4B所示的表中的恢复计数顺序信息，其中各CPR以其恢复计数的升序排序。

处理器互连监控设备1的控制单元11采用图4B中的表以选择执行MPR功能的CPR(替换处理器)。在图4B，由于CPR#0根据负载确定表和恢复计数表排在第一，控制单元11选择CPR#0作为替换处理器。当根据负载确定表处于第一位的CPR和根据恢复计数表目处于该排序的CPR不同时，获得每个CPR的平均排序值，并选择具有最小平均排序值的CPR。

图5示出根据本发明另一实施例的多处理器转换装置的方框图。与图14所用的相同标记数字也用于表示对应的或相同的部件。然而，在图5，一个公用寄存器2取代处理器互连监控设备1连接到总线200，总线200将MPR和各CPR互相连接。正如下面所描述的，公用寄存器2是一个存储表示MPR和各CPR的关机状态的标记(关闭标记)的存储器。

图6示出根据本发明的实施例在MPR发生故障时在MPR和CPR间交换的信号的图。在图6，当该实施例的MPR出现故障时，MPR开始恢复初始配置过程，并且在MPR由单元管理器31启动报警通知单元30。

报警通知单元30向每个CPR发送包括其本身的处理器号和恢复初始配置级的报警信号U。其后，每个CPR使用报警单元40分析接收的报警信号U，并使用报警信号所包括的处理器号来识别有故障的作为MPR的处理器。处理器号是MPR和各CPR所具有的物理号码。例如，存在三个恢复初始配置级(1，2和3)，并且随着级的增加，恢复初始配置所需的处理变得更加复杂。

每个CPR的报警单元40向负载确定单元41发送负载确定指令。由于必须仅由一个CPR执行负载确定，正如下面所描述的，选择CPR中的一个执行该确定。

图7示出解释为判定哪一个CPR执行负载确定而使用的过程图。在图7，当从报警单元40接收到负载确定指令时，负载确定单元41检查在其本身的存储器存储的负载确定顺序表以确定其是否是执行负载确定的处理器。当相关的负载确定单元41的处理器号在负载确定顺序表42排在第一位时，负载确定单元41开始负载确定过程。当处理器号排在第二位或更低时，负载确定单元41从公用寄存器2读取较高处理器号的关闭标记，并检查较高的CPR的关机状态。当位于较高排序的全部CPR关机时(关闭标记为ON状态)，相关的负载确定单元41执行负载确定过程。当位于较高排序的全部CPR处于工作状态时(关闭标记为OFF状态)，相关的负载确定单元41不执行负载确定过程。

假定在图7的负载确定顺序表42 CPR#0占有最高排序并且CPR#1处于操作状态。在该情况下，CPR#0的负载确定单元41确定其执行负载确定过程。

图8示出解释负载确定过程的图。在图8，CPR#0的负载确定单元41经存取单元43访问负载测量单元50。负载测量单元50与第一实施例的负载测量单元13具有相同的功能。即，负载测量单元50获得每个CPR的负载，并将其存储在负载测量单元50的数据库作为负载状态信息(图2B中的表)。因此，负载确定单元41从负载测量单元50读取图2B中的表，并执行与第一实施例相同的负载确定。结果是，负载确定单元41选择CPR#0作为用作MPR的CPR(替换处理器)。

当MPR发生故障时，MPR自动执行恢复初始配置过程。在该实施例以及上述实施例中的MPR包括处理器关闭单元21。处理器关闭单元21计数MPR执行恢复初始配置过程的次数。当即使已执行过程的次数已达到预定计数也未恢复操作时，处理器关闭单元21允许MPR终止恢复初始配置过程，并将其关机。处理器关闭单元21向公用寄存器2发送一个关闭信号，并将对应于MPR处理器号的关闭标记设定为ON状态。

在执行了上述负载确定过程的同时，CPR#0的负载确定单元41在每个特定时间段经公用寄存器存取单元44检查MPR的关闭标记的状态。公用寄存器2所存储的是每个处理器号的关闭标记。如图8所示，从左边开始，依次是MPR，CPR#0，CPR#1和CPR#2的关闭标记的状态。

当负载确定单元41检测到MPR的关闭标记已被设定并处于ON状态时，确定CPR#0为替换处理器。接着CPR#0将其本身识别为替换处理器，并开始起MPR的作用。CPR#0也将其处理器号写入公用寄存器2的替换处理器配置区(未示出)。

在上面实例中，执行负载确定的CPR(CPR#0)和选择的CPR(CPR#0)一致。当两个CPR不一致时，CPR#0的负载确定单元41向选为起MPR作用的其他的CPR(例如，CPR#1)发送判定信号(未示出)。当接收到该判定信号时，CPR#1将其本身识别为替换处理器，并开始完成MPR的功能。

此外，在本发明的该实施例当选择一个CPR起MPR的作用时，可以采用第二实施例的恢复计数信息取代负载状态信息，或可以采用第三实施例中的负载状态信息和恢复计数信息。

下面将给出主处理器从MPR转换到CPR#0的过程，以及将CPR#0用作MPR的替换处理器的解释。

图9示出解释从MPR转换到CPR#0的主处理器转换过程的图。在图9，当CPR#0将其本身识别为MPR的替换处理器时，CPR#0向MPR发送一个CC停机信号以使MPR中止。在MPR中止之后，CPR#0从用于系统0和1的双操作状态切换到系统0和1分开的分离操作状态。在正常操作状态下，当系统相互同步时(双操作)，对于系统0和1CPR#0执行相同的处理。在该实施例，这两个系统被分离，一个系统(例如，系统0)如同CPR#0执行调用过程，而另一个系统(例如，系统1)执行MPR功能。

这样，由于在分离操作状态下，例如，CPR#0的系统1执行主处理器的功能，系统1装载来自公用存储器3的MPR操作数据和来自其本身的存储设备(所谓的硬盘单元(HDU))的系统文件，并执行初始化。在初始化之后，CPR#0的系统1执行主处理器的功能，而CPR#0的系统0继续执行调用过程。

图10示出解释另一个从MPR到CPR#0的主处理器功能转换过程的图。在图10，当CPR#0将其本身识别为MPR的替换处理器时，CPR#0向MPR发送一个CC暂停信号以使MPR中止。在MPR中止之后，CPR#0向MPR发送一个仅用于CP/IO系统的最小引导的指令(下文称为基本引导)。在已完成MPR的基本引导之后，MPR读取写入到公用寄存器2的替换处理器(CPR#0)的处理器号，并将基本引导结束通知发送给对应于该处理器号的处理器(CPR#0)。当接收到基本引导结束通知时，CPR#0将MPR操作数据从MPR的存储设备(HDU)传送到其本身的存储设备(HDU)。接着，CPR#0从双操作状态切换到分离操作状态，并且系统之一(例如，系统0)执行调用过程，而另一个系统(例如，系统1)开始执行MPR功能。

图11示出解释MPR恢复过程的图。如图9或10所示，当在分离操作状态执行时，由CPR#0以下面的方式进行MPR的恢复。在图11，CPR#0向MPR发送IPL(初始程序装载)信号。当接收到IPL信号时，根据IPL信号所包括的其中存储要引导的文件的目录，MPR将该文件从其本身的存储设备(HDU)装载到存储器。

当根据IPL信号完成恢复初始配置时，MPR将存储在处理器互连监控设备1的其关闭标记从ON状态变为OFF状态。

在IPL信号传输之后，CPR#0周期性地访问存储在处理器互连监控设备1的关闭标记。当CPR#0检测到对应于MPR的关闭标记已被设定为OFF状态时，CPR#0确定已完成MPR的恢复。

图12示出解释在MPR已恢复正常之后将MPR和CPR#0返回其正常状态的过程的图。在图12，当已完成MPR的恢复初始配置时，将存储在起主处理器作用的CPR#0的系统1的存储设备(HDU)的操作数据文件复制到MPR的存储设备。接着，将文件装载恢复指令从CPR#0的系统1发送到MPR以便使用复制的操作数据文件。当已装载该文件时，CPR#0释放分离操作状态，并返回到初始双操作状态作为协处理器。MPR将初始配置通知发送给处理器互连监控设备1，并初始化载波信息等。结果是，MPR开始主处理器的作用。

图1 3示出另一将MPR和CPR#0返回其正常状态的过程的图。在该过程，甚至在已完成MPR的恢复之后，CPR#0继续用作主处理器而MPR取代CPR#0执行调用过程。在图13，由于在已完成MPR的恢复初始配置之后，在起主处理器作用的CPR#0继续用作主处理器，将用于调用过程的操作数据文件从CPR#0的系统0的存储设备(HDU)复制到MPR的存储设备(HDU)。接着，将文件装载指令从CPR#1的系统1发送到MPR以便使用操作数据文件。当已装载该文件时，CPR#0释放分离操作状态，并工作在双操作状态作为主处理器。MPR将初始配置通知发送给处理器互连监控设备1，并初始化载波信息等。最后，MPR起协处理器的作用并执行调用过程。

如上所述，根据本发明，在具有一个主处理器和多个协处理器的多处理器转换装置，当主处理器出现故障时，检查协处理器的操作状态(负载状态和恢复计数)并选择一个最适当的协处理器起主处理器的作用。因此，不会出现系统停机现象并实现较为稳定的主处理器转换。

在不脱离本发明的精神和本质特性的情况下可以以其他特定形式实施本发明。因此，本实施例在各个方面仅具有说明性而不具有限定性，有附属的权利要求书而不是前述的说明书给出本发明的范围，因此，权利要求书包含来自其等效形式所具有的意义和范围的全部变化。

Claims

1.一种多处理器转换装置，包括：

主处理器；

多个协处理器，用于在主处理器的控制下执行调用过程；

检测单元，用于检测主处理器的故障；和

2.如权利要求1所述的多处理器转换装置，其中每个协处理器的操作状态是每个协处理器的负载状态。

3.如权利要求1所述的多处理器转换装置，其中每个协处理器的操作状态是每个协处理器的恢复发生计数。

4.如权利要求1所述的多处理器转换装置，其中每个协处理器的操作状态是每个协处理器的负载状态和恢复发生计数。

5.如权利要求1所述的多处理器转换装置，其中替换处理器通过从用于协处理器功能的双操作状态切换到分离操作状态执行协处理器功能和主处理器功能。

6.如权利要求5所述的多处理器转换装置，其中替换处理器通过主处理器的基本引导从主处理器的存储设备获得关于主处理器功能的数据以执行主处理器功能。

7.如权利要求5所述的多处理器转换装置，进一步包括一个存储关于主处理器功能的数据的存储器，其中替换处理器从该存储器获得关于主处理器功能的数据以执行主处理器功能。

8.如权利要求6所述的多处理器转换装置，其中，当主处理器已从故障中恢复时，替换处理器将关于主处理器功能的数据传送到主处理器；

主处理器根据接收的关于主处理器功能的数据恢复主处理器功能；和

替换处理器从分离操作状态切换到双操作状态以执行协处理器功能。

9.如权利要求7所述的多处理器转换装置，其中，当主处理器从故障中恢复时，替换处理器将关于主处理器功能的数据传送到主处理器；

主处理器根据传送的数据重新开始执行主处理器功能；和

替换处理器从分离操作状态返回到双操作状态以执行协处理器功能。

10.如权利要求6所述的多处理器转换装置，其中，当主处理器已从故障中恢复时，替换处理器将关于协处理器功能的数据传送到主处理器；

主处理器根据传送的数据开始执行协处理器功能；和

替换处理器从分离操作状态返回到双操作状态以执行主处理器功能。

11.如权利要求7所述的多处理器转换装置，其中，当主处理器已从故障中恢复时，替换处理器将关于协处理器功能的数据传送到主处理器；

主处理器根据传送的数据开始执行协处理器功能；和

替换处理器从分离操作状态返回到双操作状态以执行主处理器功能

12.一种用于多处理器转换装置的主处理器转换方法，该多处理器转换装置包括一个主处理器和多个协处理器，用于在主处理器的控制下执行调用过程，所述方法包括步骤：

用于检测主处理器的故障；

根据协处理器的操作状态从协处理器中确定执行主处理器功能的替换处理器；和

由替换处理器执行主处理器功能。

13.如权利要求12所述的主处理器转换方法，其中替换处理器通过从用于协处理器功能的双操作状态切换到分离操作状态执行协处理器功能和主处理器功能。

14.如权利要求13所述的主处理器转换方法，其中替换处理器获得关于主处理器功能的数据以执行主处理器功能。

15.如权利要求14所述的主处理器转换方法，其中，当主处理器已从故障中恢复时，替换处理器将关于主处理器功能的数据传送到主处理器；

主处理器根据传送的数据重新开始执行主处理器功能；和

16.如权利要求14所述的主处理器转换方法，其中，当主处理器已从故障中恢复时，替换处理器将关于协处理器功能的数据传送到主处理器；

主处理器根据传送的数据开始执行协处理器功能；和