CN1257244A - 多处理器转换装置和主处理器转换方法 - Google Patents

多处理器转换装置和主处理器转换方法 Download PDF

Info

Publication number
CN1257244A
CN1257244A CN99123148A CN99123148A CN1257244A CN 1257244 A CN1257244 A CN 1257244A CN 99123148 A CN99123148 A CN 99123148A CN 99123148 A CN99123148 A CN 99123148A CN 1257244 A CN1257244 A CN 1257244A
Authority
CN
China
Prior art keywords
processor
primary processor
coprocessor
cpr
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99123148A
Other languages
English (en)
Other versions
CN1129857C (zh
Inventor
小菅幸男
竹田和正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1257244A publication Critical patent/CN1257244A/zh
Application granted granted Critical
Publication of CN1129857C publication Critical patent/CN1129857C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2051Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant in regular structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)
  • Exchange Systems With Centralized Control (AREA)

Abstract

本文公开一种多处理器转换装置,该装置包括一个主处理器;多个协处理器,协处理器用于在主处理器的控制下执行调用过程;检测单元,用于检测主处理器的故障;和确定单元,用于当检测单元检测到主处理器的故障时根据每个协处理器的操作状态从协处理器中确定执行主处理器功能的替换处理器。每个协处理器的操作状态是,例如,施加到协处理器的负载状态或已完成的恢复操作的次数。通过选择一个负载小和不太频繁恢复其操作的协处理器作为替换处理器,可以确定一个适当的,较为稳定的替换处理器。

Description

多处理器转换装置和主处理器转换方法
本发明涉及具有一个主处理器和多个协处理器的多处理器转换装置,具体涉及当主处理器发生故障时,用于将执行主处理器功能的处理器从主处理器转换到协处理器之一的方法。
图14是表示常规的多处理器转换装置的示意方框图。在多处理器转换装置(下文仅简单称为转换装置)所包括的多个处理器中,一个处理器,即,主处理器(下文简单称为MPR)确定由转换装置执行的全部操作并控制下文描述的协处理器,但本身不执行调用过程。相反,根据MPR的控制由协处理器(下文仅简单称CPR)执行调用过程。通常提供多个CPR(CPR#0,#1,#2,…)以便分布按对于连接到转换装置的多个用户终端,或另一个转换装置执行调用过程的需要所施加的负载。提供一个存储设备(硬盘单元(HDU))用于每个MPR和CPR。
在图14,SP设备101是一个用于端接连接到发送一个音频信号的终端(例如,一个电话)的线路的线路设备。信号设备102是一个用于端接连接到发送未伴随音频信号的数据的终端(例如,一个传真机)的线路的线路设备。转接设备103是一个端接连接到另一个转换装置的线路的线路设备。这些线路设备经总线100连接到MPR和CPR。
假定在转换操作期间,由于某原因MPR有时会出现故障。这样由于在这段时间丢失全部转换操作的整体控制,这些控制包括MPR为CPR提供的控制,由该转换装置执行的全部调用操作将暂停,即使执行这些操作的CPR仍然能够正常工作。在这种情况下将会出现所谓的系统停机,为使系统恢复正常,操作员必须使用维护终端110常规地进行手动操作,如图14所示。
为避免系统停机,根据常规的方法,将MPR功能指定到预先选择的一个CPR,使得要是MPR发生故障,所选择的CPR会开始执行MPR功能。
然而,如果当MPR发生故障时预先选择CPR来执行MPR功能。可能会出现下面问题。
如果所选择的CPR也出现问题就不可能避免系统停机。以及如果所选择的CPR不稳定并且往往由于特定原因导致停机,当执行MPR功能的任务转到其上时,就会发生涉及所选择的CPR的系统故障。另外,当施加到所选择CPR的负载大于施加到其他CPR的负载时,当所选择的CPR必须执行MPR功能时会发生所选择的CPR过载。这种情况将导致所选择的CPR的性能下降以及整个转换装置操作的不稳定性。
因此,本发明的目的是提供一种多处理器转换装置及其主处理器转换方法,当主处理器发生故障时,该多处理器转换装置能够选择一个适当的协处理器并允许其起主处理器的作用。
为实现上述目的,根据本发明,提供一种多处理器转换装置,包括:
主处理器;
多个协处理器,用于在主处理器的控制下执行调用过程;
检测单元,用于检测主处理器的故障;和
确定单元,用于当检测单元检测到主处理器的故障时根据每个协处理器的操作状态从协处理器中确定执行主处理器功能的替换处理器。
此外,为实现上述目的,根据本发明提供一种用于包括一个主处理器和多个协处理器的多处理器转换装置的主处理器转换方法,其中在主处理器的控制下协处理器执行调用过程,该方法包括步骤:
检测主处理器的故障;
根据每个协处理器的操作状态从协处理器中确定执行主处理器功能的替换处理器;和
由替换处理器执行主处理器功能。
每个协处理器的操作状态是,例如,施加到协处理器的负载状态或恢复其操作的次数,或二者的组合。通过选择一个负载小或不太频繁恢复其操作的协处理器作为替换处理器,可确定一个适当的,较稳定的替换处理器。
图1示出根据本发明第一实施例的多处理器转换装置的方框图;
图2示出解释根据本发明第一实施例的处理器互连监控设备和MPR的图;
图3示出解释根据本发明第二实施例的处理器互连监控设备和MPR的图;
图4示出解释根据本发明第三实施例的处理器互连监控设备和MPR的图;
图5示出根据本发明另一实施例的多处理器转换装置的方框图;
图6示出解释根据本发明的实施例在MPR发生故障时由MPR和CPR交换的信号的图;
图7示出解释确定一个CPR负载的过程的图;
图8示出解释负载确定过程的图;
图9示出解释从MPR转换到CPR#0的主处理器转换过程的图;
图10示出解释从MPR转换到CPR#0的另一个主处理器转换过程的图;
图11示出解释MPR恢复过程的图;
图12示出解释在MPR已恢复正常之后将MPR和CPR#0返回其正常状态的过程的图;
图13示出将MPR和CPR#0返回其正常状态的另一过程的图;和
图14示出一个常规的多处理器转换装置的示意方框图;
下面将描述本发明的优选实施例。然而,应该注意到,本发明的技术范围不限于这些实施例。
图1示出根据本发明第一实施例的多处理器转换装置的方框图。与图14所用的相同的标记数字也用于表示对应的或相同的部件。在图1,处理器互连监控设备1连接到总线200,总线200连接每个处理器MPR各CPR。例如,处理器互连监控设备1由一个固件构成。处理器互连监控设备1向每个MPR,CPR周期性地发送一个监控信号。每个处理器将一个应答该监控信号的监控响应信号发送到处理器互连监控设备1。
图2示出解释根据本发明第一实施例的处理器互连监控设备1和MPR的图。在图2A,处理器互连监控设备1的监控单元10将包括操作检验标记的监控信号P发送给MPR。在MPR由监控信号接收器20接收监控信号P,当接收到该信号时,监控信号接收器20打开监控信号P所包括的操作检验标记并将包括处于ON状态的操作检验标记的监控应答信号Q返回到处理器互连监控设备1。
处理器互连监控设备1的监控单元10分析接收的监控应答信号Q。当监控应答信号Q所包括的操作检验标记处于ON状态时,监控单元10确定MPR为正常状态。当操作检验标记处于OFF状态时,监控单元10确定MPR为异常状态。以及当未接收到监控应答信号Q时,处理器互连监控设备1也确定MPR为异常状态。
当监控单元10检测到MPR的异常状态时,监控单元10向每个CPR发送MPR故障通知信号R。当接收到该信号R时,CPR停止与MPR的通信。
此后,处理器互连监控设备1收集与每个CPR所装载的负载有关的信息,并确定每个CPR的负载状态。为进行该确定,如图2A所示,处理器互连监控设备1包括控制单元11,负载确定单元12,负载测量单元13,和存取单元14。具体地,负载确定单元12经存取单元14访问负载测量单元13并收集与每个CPR前一天的每个小时的负载状态有关的信息。
负载测量单元13计算每个CPR(CPR#0,CPR#1或CPR#2)的每小时使用时间与转换装置的操作小时数的比率(负载状态),并将该结果存储在测量单元13的数据库作为负载状态表,如图2B所示。在图2B,该表包含前一天的每个小时的负载状态信息,基于下面的原因使用该信息。由于CPR执行的调用过程所施加的正常负载波动和一天周期一致,在MPR的故障后,为获得最可靠的负载状态信息以用于确定哪一个CPR的负载可能增加,需要参考与在前一天的相同时间和继后一段时间所施加的负载有关的信息。
负载确定单元12以下面的方式使用图2B中的表来确定每个CPR的负载状态。当MPR在上午11点钟发生故障时,负载确定单元12从图2B中的负载状态信息表收集从前一天的上午11点钟开始的四个小时的负载状态信息,并由此确定在这段时间内具有最小负载总量值的CPR。例如,CPR#0,CPR#1和CPR#2的负载是
CPR#0=20+10+5+5=40
CPR#1=3+30+20+15=68
CPR#2=10+20+10+10=50
即,CPR#0的负载最小,因此,控制单元11选择CPR#0作为执行MPR功能的处理器(替换处理器)。
当MPR出现故障时,MPR自动执行恢复初始配置过程。当MPR的恢复未由恢复初始配置过程完成时,MPR重复恢复初始配置过程并且不停机。该实施例的MPR包括一个处理器关闭单元21用于该过程。处理器关闭单元21计数MPR执行的恢复初始配置过程的次数。当MPR未在执行次数已达到预定值的时间恢复时,处理器关闭单元21终止执行恢复初始配置过程,并关机该处理器。其后,处理器关闭单元21向处理器互连监控设备1发送关闭信号S,当处理器互连监控设备1接收到关闭信号S时,向完成MPR功能的CPR#0发送MPR关闭通知信号T。当接收到信号T时,CPR#0将其本身识别为替换处理器,并开始执行MPR功能,下面将对这一过程进行详细描述。
图3示出解释根据本发明第二实施例的处理器互连监控设备1和MPR的图。在图3A,由于监控信号P,监控应答信号Q,和MPR故障通知信号R与第一实施例的相同,不再给出对其的解释。
当处理器互连监控设备1的监控单元10检测到MPR的故障时,就收集CPR恢复计数信息以确定CPR已恢复的次数。为进行该过程,如图3A所示,处理器互连监控设备1包括控制单元11,恢复计数确定单元15,恢复计数测量单元16,和存取单元17。具体地,恢复计数确定单元15经存取单元17访问恢复计数测量单元16,并收集由每个CPR前一天执行的恢复初始配置过程的计数(恢复计数)。
恢复计数测量单元16获得每个CPR(CPR#0,CPR#1或CPR#2)每小时的恢复次数,并将该结果存储在恢复计数测量单元16的数据库作为恢复计数表,如图3B所示。图3B的表表示前一天的每个小时的恢复计数信息。可以采用前一天的恢复计数信息,这是因为它是可得到的与CPR操作状态有关的最新信息,因而将其认为是最可靠的。
恢复计数确定单元15采用图3B的表以下面的方式确定每个CPR的恢复计数。获得每个CPR的前一天24小时的总恢复计数,确定恢复计数最小的CPR。具体地,由于CPR#0,CPR#1和CPR#2的恢复计数为0,5和2,恢复计数确定单元15确定其恢复计数最小的CPR#0为最稳定的CPR。这样,控制单元11选择CPR#0作为执行MPR功能的处理器(替换处理器)。
以上面所述方式,处理器互连监控设备1向CPR#0发送MPR关闭通知信号T。当接收到信号T时,CPR#0将其本身识别为替换处理器。
图4示出解释根据本发明第三实施例的处理器互连监控设备1和MPR的图。第三实施例是第一实施例和第二实施例的组合。即,根据各CPR的负载状态信息和恢复计数信息选择执行MPR功能的CPR(替换处理器)。在图4A,由于监控信号P,监控应答信号Q,和MPR故障通知信号R与第一实施例的相同,不再给出对其的解释。
当处理器互连监控设备1的监控单元10检测到MPR的故障时,负载确定单元12经存取单元14从负载测量设备13收集每个CPR的负载状态信息(图2B中的表),并执行与第一实施例相同的负载确定。负载测量设备13准备在图4B所示的表中的负载顺序信息,其中CPR以其负载的升序排序。恢复计数确定单元15经存取单元17从恢复计数测量单元17收集每个CPR的恢复计数信息(图3B中的表),并执行与第二实施例相同的恢复计数确定。恢复计数确定单元15准备在图4B所示的表中的恢复计数顺序信息,其中各CPR以其恢复计数的升序排序。
处理器互连监控设备1的控制单元11采用图4B中的表以选择执行MPR功能的CPR(替换处理器)。在图4B,由于CPR#0根据负载确定表和恢复计数表排在第一,控制单元11选择CPR#0作为替换处理器。当根据负载确定表处于第一位的CPR和根据恢复计数表目处于该排序的CPR不同时,获得每个CPR的平均排序值,并选择具有最小平均排序值的CPR。
以上面所述方式,处理器互连监控设备1向CPR#0发送MPR关闭通知信号T。当接收到信号T时,CPR#0将其本身识别为替换处理器。
图5示出根据本发明另一实施例的多处理器转换装置的方框图。与图14所用的相同标记数字也用于表示对应的或相同的部件。然而,在图5,一个公用寄存器2取代处理器互连监控设备1连接到总线200,总线200将MPR和各CPR互相连接。正如下面所描述的,公用寄存器2是一个存储表示MPR和各CPR的关机状态的标记(关闭标记)的存储器。
图6示出根据本发明的实施例在MPR发生故障时在MPR和CPR间交换的信号的图。在图6,当该实施例的MPR出现故障时,MPR开始恢复初始配置过程,并且在MPR由单元管理器31启动报警通知单元30。
报警通知单元30向每个CPR发送包括其本身的处理器号和恢复初始配置级的报警信号U。其后,每个CPR使用报警单元40分析接收的报警信号U,并使用报警信号所包括的处理器号来识别有故障的作为MPR的处理器。处理器号是MPR和各CPR所具有的物理号码。例如,存在三个恢复初始配置级(1,2和3),并且随着级的增加,恢复初始配置所需的处理变得更加复杂。
每个CPR的报警单元40向负载确定单元41发送负载确定指令。由于必须仅由一个CPR执行负载确定,正如下面所描述的,选择CPR中的一个执行该确定。
图7示出解释为判定哪一个CPR执行负载确定而使用的过程图。在图7,当从报警单元40接收到负载确定指令时,负载确定单元41检查在其本身的存储器存储的负载确定顺序表以确定其是否是执行负载确定的处理器。当相关的负载确定单元41的处理器号在负载确定顺序表42排在第一位时,负载确定单元41开始负载确定过程。当处理器号排在第二位或更低时,负载确定单元41从公用寄存器2读取较高处理器号的关闭标记,并检查较高的CPR的关机状态。当位于较高排序的全部CPR关机时(关闭标记为ON状态),相关的负载确定单元41执行负载确定过程。当位于较高排序的全部CPR处于工作状态时(关闭标记为OFF状态),相关的负载确定单元41不执行负载确定过程。
假定在图7的负载确定顺序表42 CPR#0占有最高排序并且CPR#1处于操作状态。在该情况下,CPR#0的负载确定单元41确定其执行负载确定过程。
图8示出解释负载确定过程的图。在图8,CPR#0的负载确定单元41经存取单元43访问负载测量单元50。负载测量单元50与第一实施例的负载测量单元13具有相同的功能。即,负载测量单元50获得每个CPR的负载,并将其存储在负载测量单元50的数据库作为负载状态信息(图2B中的表)。因此,负载确定单元41从负载测量单元50读取图2B中的表,并执行与第一实施例相同的负载确定。结果是,负载确定单元41选择CPR#0作为用作MPR的CPR(替换处理器)。
当MPR发生故障时,MPR自动执行恢复初始配置过程。在该实施例以及上述实施例中的MPR包括处理器关闭单元21。处理器关闭单元21计数MPR执行恢复初始配置过程的次数。当即使已执行过程的次数已达到预定计数也未恢复操作时,处理器关闭单元21允许MPR终止恢复初始配置过程,并将其关机。处理器关闭单元21向公用寄存器2发送一个关闭信号,并将对应于MPR处理器号的关闭标记设定为ON状态。
在执行了上述负载确定过程的同时,CPR#0的负载确定单元41在每个特定时间段经公用寄存器存取单元44检查MPR的关闭标记的状态。公用寄存器2所存储的是每个处理器号的关闭标记。如图8所示,从左边开始,依次是MPR,CPR#0,CPR#1和CPR#2的关闭标记的状态。
当负载确定单元41检测到MPR的关闭标记已被设定并处于ON状态时,确定CPR#0为替换处理器。接着CPR#0将其本身识别为替换处理器,并开始起MPR的作用。CPR#0也将其处理器号写入公用寄存器2的替换处理器配置区(未示出)。
在上面实例中,执行负载确定的CPR(CPR#0)和选择的CPR(CPR#0)一致。当两个CPR不一致时,CPR#0的负载确定单元41向选为起MPR作用的其他的CPR(例如,CPR#1)发送判定信号(未示出)。当接收到该判定信号时,CPR#1将其本身识别为替换处理器,并开始完成MPR的功能。
此外,在本发明的该实施例当选择一个CPR起MPR的作用时,可以采用第二实施例的恢复计数信息取代负载状态信息,或可以采用第三实施例中的负载状态信息和恢复计数信息。
下面将给出主处理器从MPR转换到CPR#0的过程,以及将CPR#0用作MPR的替换处理器的解释。
图9示出解释从MPR转换到CPR#0的主处理器转换过程的图。在图9,当CPR#0将其本身识别为MPR的替换处理器时,CPR#0向MPR发送一个CC停机信号以使MPR中止。在MPR中止之后,CPR#0从用于系统0和1的双操作状态切换到系统0和1分开的分离操作状态。在正常操作状态下,当系统相互同步时(双操作),对于系统0和1CPR#0执行相同的处理。在该实施例,这两个系统被分离,一个系统(例如,系统0)如同CPR#0执行调用过程,而另一个系统(例如,系统1)执行MPR功能。
这样,由于在分离操作状态下,例如,CPR#0的系统1执行主处理器的功能,系统1装载来自公用存储器3的MPR操作数据和来自其本身的存储设备(所谓的硬盘单元(HDU))的系统文件,并执行初始化。在初始化之后,CPR#0的系统1执行主处理器的功能,而CPR#0的系统0继续执行调用过程。
图10示出解释另一个从MPR到CPR#0的主处理器功能转换过程的图。在图10,当CPR#0将其本身识别为MPR的替换处理器时,CPR#0向MPR发送一个CC暂停信号以使MPR中止。在MPR中止之后,CPR#0向MPR发送一个仅用于CP/IO系统的最小引导的指令(下文称为基本引导)。在已完成MPR的基本引导之后,MPR读取写入到公用寄存器2的替换处理器(CPR#0)的处理器号,并将基本引导结束通知发送给对应于该处理器号的处理器(CPR#0)。当接收到基本引导结束通知时,CPR#0将MPR操作数据从MPR的存储设备(HDU)传送到其本身的存储设备(HDU)。接着,CPR#0从双操作状态切换到分离操作状态,并且系统之一(例如,系统0)执行调用过程,而另一个系统(例如,系统1)开始执行MPR功能。
图11示出解释MPR恢复过程的图。如图9或10所示,当在分离操作状态执行时,由CPR#0以下面的方式进行MPR的恢复。在图11,CPR#0向MPR发送IPL(初始程序装载)信号。当接收到IPL信号时,根据IPL信号所包括的其中存储要引导的文件的目录,MPR将该文件从其本身的存储设备(HDU)装载到存储器。
当根据IPL信号完成恢复初始配置时,MPR将存储在处理器互连监控设备1的其关闭标记从ON状态变为OFF状态。
在IPL信号传输之后,CPR#0周期性地访问存储在处理器互连监控设备1的关闭标记。当CPR#0检测到对应于MPR的关闭标记已被设定为OFF状态时,CPR#0确定已完成MPR的恢复。
图12示出解释在MPR已恢复正常之后将MPR和CPR#0返回其正常状态的过程的图。在图12,当已完成MPR的恢复初始配置时,将存储在起主处理器作用的CPR#0的系统1的存储设备(HDU)的操作数据文件复制到MPR的存储设备。接着,将文件装载恢复指令从CPR#0的系统1发送到MPR以便使用复制的操作数据文件。当已装载该文件时,CPR#0释放分离操作状态,并返回到初始双操作状态作为协处理器。MPR将初始配置通知发送给处理器互连监控设备1,并初始化载波信息等。结果是,MPR开始主处理器的作用。
图1 3示出另一将MPR和CPR#0返回其正常状态的过程的图。在该过程,甚至在已完成MPR的恢复之后,CPR#0继续用作主处理器而MPR取代CPR#0执行调用过程。在图13,由于在已完成MPR的恢复初始配置之后,在起主处理器作用的CPR#0继续用作主处理器,将用于调用过程的操作数据文件从CPR#0的系统0的存储设备(HDU)复制到MPR的存储设备(HDU)。接着,将文件装载指令从CPR#1的系统1发送到MPR以便使用操作数据文件。当已装载该文件时,CPR#0释放分离操作状态,并工作在双操作状态作为主处理器。MPR将初始配置通知发送给处理器互连监控设备1,并初始化载波信息等。最后,MPR起协处理器的作用并执行调用过程。
如上所述,根据本发明,在具有一个主处理器和多个协处理器的多处理器转换装置,当主处理器出现故障时,检查协处理器的操作状态(负载状态和恢复计数)并选择一个最适当的协处理器起主处理器的作用。因此,不会出现系统停机现象并实现较为稳定的主处理器转换。
在不脱离本发明的精神和本质特性的情况下可以以其他特定形式实施本发明。因此,本实施例在各个方面仅具有说明性而不具有限定性,有附属的权利要求书而不是前述的说明书给出本发明的范围,因此,权利要求书包含来自其等效形式所具有的意义和范围的全部变化。

Claims (16)

1.一种多处理器转换装置,包括:
主处理器;
多个协处理器,用于在主处理器的控制下执行调用过程;
检测单元,用于检测主处理器的故障;和
确定单元,用于当检测单元检测到主处理器的故障时根据每个协处理器的操作状态从协处理器中确定执行主处理器功能的替换处理器。
2.如权利要求1所述的多处理器转换装置,其中每个协处理器的操作状态是每个协处理器的负载状态。
3.如权利要求1所述的多处理器转换装置,其中每个协处理器的操作状态是每个协处理器的恢复发生计数。
4.如权利要求1所述的多处理器转换装置,其中每个协处理器的操作状态是每个协处理器的负载状态和恢复发生计数。
5.如权利要求1所述的多处理器转换装置,其中替换处理器通过从用于协处理器功能的双操作状态切换到分离操作状态执行协处理器功能和主处理器功能。
6.如权利要求5所述的多处理器转换装置,其中替换处理器通过主处理器的基本引导从主处理器的存储设备获得关于主处理器功能的数据以执行主处理器功能。
7.如权利要求5所述的多处理器转换装置,进一步包括一个存储关于主处理器功能的数据的存储器,其中替换处理器从该存储器获得关于主处理器功能的数据以执行主处理器功能。
8.如权利要求6所述的多处理器转换装置,其中,当主处理器已从故障中恢复时,替换处理器将关于主处理器功能的数据传送到主处理器;
主处理器根据接收的关于主处理器功能的数据恢复主处理器功能;和
替换处理器从分离操作状态切换到双操作状态以执行协处理器功能。
9.如权利要求7所述的多处理器转换装置,其中,当主处理器从故障中恢复时,替换处理器将关于主处理器功能的数据传送到主处理器;
主处理器根据传送的数据重新开始执行主处理器功能;和
替换处理器从分离操作状态返回到双操作状态以执行协处理器功能。
10.如权利要求6所述的多处理器转换装置,其中,当主处理器已从故障中恢复时,替换处理器将关于协处理器功能的数据传送到主处理器;
主处理器根据传送的数据开始执行协处理器功能;和
替换处理器从分离操作状态返回到双操作状态以执行主处理器功能。
11.如权利要求7所述的多处理器转换装置,其中,当主处理器已从故障中恢复时,替换处理器将关于协处理器功能的数据传送到主处理器;
主处理器根据传送的数据开始执行协处理器功能;和
替换处理器从分离操作状态返回到双操作状态以执行主处理器功能
12.一种用于多处理器转换装置的主处理器转换方法,该多处理器转换装置包括一个主处理器和多个协处理器,用于在主处理器的控制下执行调用过程,所述方法包括步骤:
用于检测主处理器的故障;
根据协处理器的操作状态从协处理器中确定执行主处理器功能的替换处理器;和
由替换处理器执行主处理器功能。
13.如权利要求12所述的主处理器转换方法,其中替换处理器通过从用于协处理器功能的双操作状态切换到分离操作状态执行协处理器功能和主处理器功能。
14.如权利要求13所述的主处理器转换方法,其中替换处理器获得关于主处理器功能的数据以执行主处理器功能。
15.如权利要求14所述的主处理器转换方法,其中,当主处理器已从故障中恢复时,替换处理器将关于主处理器功能的数据传送到主处理器;
主处理器根据传送的数据重新开始执行主处理器功能;和
替换处理器从分离操作状态返回到双操作状态以执行协处理器功能。
16.如权利要求14所述的主处理器转换方法,其中,当主处理器已从故障中恢复时,替换处理器将关于协处理器功能的数据传送到主处理器;
主处理器根据传送的数据开始执行协处理器功能;和
替换处理器从分离操作状态返回到双操作状态以执行主处理器功能。
CN99123148A 1998-12-15 1999-10-25 多处理器转换装置和主处理器转换方法 Expired - Fee Related CN1129857C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP10356342A JP2000181890A (ja) 1998-12-15 1998-12-15 マルチプロセッサ交換機及びその主プロセッサ切替方法
JP356342/1998 1998-12-15

Publications (2)

Publication Number Publication Date
CN1257244A true CN1257244A (zh) 2000-06-21
CN1129857C CN1129857C (zh) 2003-12-03

Family

ID=18448555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99123148A Expired - Fee Related CN1129857C (zh) 1998-12-15 1999-10-25 多处理器转换装置和主处理器转换方法

Country Status (3)

Country Link
US (1) US6502206B1 (zh)
JP (1) JP2000181890A (zh)
CN (1) CN1129857C (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100351789C (zh) * 2003-03-28 2007-11-28 索尼株式会社 信息提供设备、方法和信息提供系统
CN100356331C (zh) * 2002-09-20 2007-12-19 国际商业机器公司 管理硬件和软件部件的方法和装置
CN100399318C (zh) * 2004-12-31 2008-07-02 联想(北京)有限公司 一种具有多处理器的计算机及其操作方法
CN100456250C (zh) * 2005-09-09 2009-01-28 国际商业机器公司 用于执行恢复的方法和系统
CN101236515B (zh) * 2007-01-31 2010-05-19 迈普通信技术股份有限公司 多核系统单核异常的恢复方法
CN101271417B (zh) * 2007-03-22 2010-10-13 国际商业机器公司 修复数据处理系统的方法、数据处理系统及信息处置系统
US8090982B2 (en) 2007-06-11 2012-01-03 Toyota Jidosha Kabushiki Kaisha Multiprocessor system enabling controlling with specific processor under abnormal operation and control method thereof
CN101667931B (zh) * 2008-09-04 2012-07-04 阿尔卡特朗讯 自动确定替换故障网络单元的网络单元的设备和方法
CN1834950B (zh) * 2005-03-15 2013-03-27 英特尔公司 具有活动和非活动执行核心的多核处理器
CN103761160A (zh) * 2005-12-28 2014-04-30 高通股份有限公司 利用用户上下文信息检测故障状况并随后恢复的方法和设备
CN109445995A (zh) * 2018-09-04 2019-03-08 深圳市宝德计算机系统有限公司 服务器数据处理方法、装置以及存储介质
US10585766B2 (en) 2011-06-06 2020-03-10 Microsoft Technology Licensing, Llc Automatic configuration of a recovery service
CN112330928A (zh) * 2020-11-04 2021-02-05 郑州创源智能设备有限公司 一种燃气表联动报警器的信息处理方法、系统及存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002236667A1 (en) * 2000-10-31 2002-05-21 Millennial Net, Inc. Networked processing system with optimized power efficiency
US6839866B2 (en) * 2001-05-31 2005-01-04 Sycamore Networks, Inc. System and method for the use of reset logic in high availability systems
DE10148810B4 (de) * 2001-10-02 2006-07-20 Recaro Aircraft Seating Gmbh & Co. Kg Steuerungs- und Energieversorgungssystem für wenigstens zwei Flugzeugsitze
AU2002352922A1 (en) * 2001-11-28 2003-06-10 Millennial Net Etwork protocol for an ad hoc wireless network
CA2472442A1 (en) * 2002-01-10 2003-07-24 Massively Parallel Technologies, Inc. Parallel processing systems and method
EP1719363A4 (en) * 2003-06-05 2011-05-04 Millennial Net Inc PROTOCOL FOR CONFIGURING A WIRELESS NETWORK
JP2006323526A (ja) * 2005-05-17 2006-11-30 Fujitsu Ltd クラスタ管理プログラム、該プログラムを記録した記録媒体、クラスタ管理方法、ノード、およびクラスタ
WO2006130662A2 (en) * 2005-06-01 2006-12-07 Millennial Net, Inc. Communicating over a wireless network
JP2007058549A (ja) * 2005-08-24 2007-03-08 Nec Corp マルチコンピュータモジュールシステム、マルチコンピュータモジュール方法、および、プログラム
US7478272B2 (en) * 2005-09-30 2009-01-13 International Business Machines Corporation Replacing a failing physical processor
US7493515B2 (en) * 2005-09-30 2009-02-17 International Business Machines Corporation Assigning a processor to a logical partition
US20070124522A1 (en) * 2005-11-30 2007-05-31 Ellison Brandon J Node detach in multi-node system
US8305876B2 (en) * 2006-11-22 2012-11-06 Avaya Inc. Accelerated recovery during negotiation between a media gateway and a media gateway controller
US7633932B2 (en) * 2006-11-22 2009-12-15 Avaya Inc. Accelerated removal from service of a signal processor at a media gateway
TWI369608B (en) 2008-02-15 2012-08-01 Mstar Semiconductor Inc Multi-microprocessor system and control method therefor
JP4863095B2 (ja) * 2009-02-13 2012-01-25 日本電気株式会社 マルチノードコンピュータシステム及びノード間接続装置
WO2011001519A1 (ja) * 2009-06-30 2011-01-06 富士通株式会社 計算装置、並列計算機システムおよび同期プログラム
CN101697071B (zh) * 2009-07-20 2011-09-14 中汽商用汽车有限公司(杭州) 垃圾中转站故障自诊断、远程诊断处理系统及处理方法
US20150006978A1 (en) * 2012-02-13 2015-01-01 Mitsubishi Electric Corporation Processor system
JP5956940B2 (ja) * 2013-02-13 2016-07-27 日本電信電話株式会社 冗長化システムおよび現用機決定方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4442502A (en) * 1981-03-30 1984-04-10 Datapoint Corporation Digital information switching system
US4839895A (en) * 1987-01-07 1989-06-13 Nec Corporation Early failure detection system for multiprocessor system
JPH01297764A (ja) * 1988-05-25 1989-11-30 Nec Corp プロセッサ
US5222217A (en) * 1989-01-18 1993-06-22 International Business Machines Corporation System and method for implementing operating system message queues with recoverable shared virtual storage
CN1024963C (zh) * 1989-04-04 1994-06-08 横河电机株式会社 双计算机系统
JPH06250869A (ja) * 1993-03-01 1994-09-09 Hitachi Ltd 分散制御システム
JP3047275B2 (ja) * 1993-06-11 2000-05-29 株式会社日立製作所 バックアップ切り換え制御方法
JPH07249014A (ja) 1994-03-08 1995-09-26 Oki Electric Ind Co Ltd マルチプロセッサシステムとターミナルコントローラ
JPH07262032A (ja) * 1994-03-17 1995-10-13 Fujitsu Ltd 情報処理装置
US5491787A (en) * 1994-08-25 1996-02-13 Unisys Corporation Fault tolerant digital computer system having two processors which periodically alternate as master and slave
JP3447404B2 (ja) * 1994-12-08 2003-09-16 日本電気株式会社 マルチプロセッサシステム
US5696895A (en) * 1995-05-19 1997-12-09 Compaq Computer Corporation Fault tolerant multiple network servers
JP3502216B2 (ja) * 1995-07-13 2004-03-02 富士通株式会社 情報処理装置
US5704032A (en) * 1996-04-30 1997-12-30 International Business Machines Corporation Method for group leader recovery in a distributed computing environment
US6292905B1 (en) * 1997-05-13 2001-09-18 Micron Technology, Inc. Method for providing a fault tolerant network using distributed server processes to remap clustered network resources to other servers during server failure

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100356331C (zh) * 2002-09-20 2007-12-19 国际商业机器公司 管理硬件和软件部件的方法和装置
CN100351789C (zh) * 2003-03-28 2007-11-28 索尼株式会社 信息提供设备、方法和信息提供系统
CN100399318C (zh) * 2004-12-31 2008-07-02 联想(北京)有限公司 一种具有多处理器的计算机及其操作方法
CN1834950B (zh) * 2005-03-15 2013-03-27 英特尔公司 具有活动和非活动执行核心的多核处理器
CN100456250C (zh) * 2005-09-09 2009-01-28 国际商业机器公司 用于执行恢复的方法和系统
CN103761160A (zh) * 2005-12-28 2014-04-30 高通股份有限公司 利用用户上下文信息检测故障状况并随后恢复的方法和设备
CN103761160B (zh) * 2005-12-28 2017-03-01 高通股份有限公司 利用用户上下文信息检测故障状况并随后恢复的方法和设备
CN101236515B (zh) * 2007-01-31 2010-05-19 迈普通信技术股份有限公司 多核系统单核异常的恢复方法
CN101271417B (zh) * 2007-03-22 2010-10-13 国际商业机器公司 修复数据处理系统的方法、数据处理系统及信息处置系统
US8090982B2 (en) 2007-06-11 2012-01-03 Toyota Jidosha Kabushiki Kaisha Multiprocessor system enabling controlling with specific processor under abnormal operation and control method thereof
CN101667931B (zh) * 2008-09-04 2012-07-04 阿尔卡特朗讯 自动确定替换故障网络单元的网络单元的设备和方法
US10585766B2 (en) 2011-06-06 2020-03-10 Microsoft Technology Licensing, Llc Automatic configuration of a recovery service
CN109445995A (zh) * 2018-09-04 2019-03-08 深圳市宝德计算机系统有限公司 服务器数据处理方法、装置以及存储介质
CN112330928A (zh) * 2020-11-04 2021-02-05 郑州创源智能设备有限公司 一种燃气表联动报警器的信息处理方法、系统及存储介质
CN112330928B (zh) * 2020-11-04 2021-06-29 郑州创源智能设备有限公司 一种燃气表联动报警器的信息处理方法、系统及存储介质

Also Published As

Publication number Publication date
US6502206B1 (en) 2002-12-31
CN1129857C (zh) 2003-12-03
JP2000181890A (ja) 2000-06-30

Similar Documents

Publication Publication Date Title
CN1129857C (zh) 多处理器转换装置和主处理器转换方法
US7058858B2 (en) Systems and methods for providing automated diagnostic services for a cluster computer system
US6269478B1 (en) Monitoring method for recognizing endless loops and blocked processes in a computer system using task state comparisons
EP0403415A2 (en) System and method for detecting and diagnosing errors in a computer program
US7055071B2 (en) Method and apparatus for reporting error logs in a logical environment
US20020184555A1 (en) Systems and methods for providing automated diagnostic services for a cluster computer system
US20020178404A1 (en) Method for prioritizing bus errors
EP2431876A1 (en) Method and device for exception handling in embedded system
JPH03131939A (ja) 高信頼性コンピュータ診断システム
JPS62298839A (ja) 障害時に計算機システムを再始動する方法
JP2003256225A (ja) コンピュータシステム、障害対応方法及びコンピュータシステムを機能させるためのプログラム
CN1086364A (zh) 电信设备的双重控制处理器
CN1794198A (zh) 容错双工计算机系统及其控制方法
RU2134446C1 (ru) Способ управления перегрузкой сообщениями элементарной программы в мультипроцессорной управляющей системе (варианты)
CN1208717C (zh) 用于对计算机的自动技术支持的方法和系统
JPH0793233A (ja) ファームウェア・トレースデータ取得方式
US20080040707A1 (en) Program monitoring method, computer, and abnormal monitoring program product
US20100085870A1 (en) Global detection of resource leaks in a multi-node computer system
US20060248531A1 (en) Information processing device, information processing method and computer-readable medium having information processing program
CN87106625A (zh) 按预定顺序执行两个指令序列的方法和设备
CN1251085C (zh) 机群系统运行过程监控的方法和监控管理装置
CN1093661C (zh) 反向恢复型输入输出控制装置和输入输出控制方法
CN109144788B (zh) 一种重建osd的方法、装置及系统
JPH02216542A (ja) 診断実行制御方式
CN117407198A (zh) 嵌入式设备故障诊断方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20031203

Termination date: 20091125