CN1834926A - 故障通知方法 - Google Patents

故障通知方法 Download PDF

Info

Publication number
CN1834926A
CN1834926A CNA2005100870763A CN200510087076A CN1834926A CN 1834926 A CN1834926 A CN 1834926A CN A2005100870763 A CNA2005100870763 A CN A2005100870763A CN 200510087076 A CN200510087076 A CN 200510087076A CN 1834926 A CN1834926 A CN 1834926A
Authority
CN
China
Prior art keywords
unit
information
catastrophic failure
failure
subregion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100870763A
Other languages
English (en)
Other versions
CN100392607C (zh
Inventor
川原茂
木下孝行
丝泽慎太郎
细江广治
佐藤作太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1834926A publication Critical patent/CN1834926A/zh
Application granted granted Critical
Publication of CN100392607C publication Critical patent/CN100392607C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

本发明提供一种故障通知方法,具体提供一种用于检测故障和执行立即停止处理的通信方法。它是一种计算机的故障通知方法,该计算机包含被分区分隔的多个单元A和与多个单元A互连的单元B,其中单元B向多个单元A广播基于从多个单元A传送到单元B的信息产生的相同信息,其中当一个单元A中发生故障时,向该单元B通知故障信息,该单元B接收该故障信息,根据该故障信息产生相同故障信息并向正常情况下的多个单元A通知该相同故障信息,并且多个单元A接收该相同故障信息,如果它来自属于相同分区的一个单元A,则属于相同分区的多个单元A的操作被立即停止,否则多个单元A的操作继续。

Description

故障通知方法
技术领域
本发明涉及大规模计算机系统中的通信故障,尤其涉及划成分区的大规模计算机系统中通报故障的技术。
背景技术
近来,大规模计算机系统包含多个单元,并且构成这些系统的多个单元被配置成通过分隔成每个计算机或划成分区的计算机(分区:是作为系统一部分的单元,但能独立地运行),来灵活地响应负载状态。
例如,图1所示的系统配置是一个可行的例子。
图1的系统由多个单元A101,102,103,104(101-104)和用于控制每个A101-104单元的B2单元组成。通过象A3分区和B4分区所表示的分区方式,各个单元A被分区分开。单元A101-104和单元B2的配置是通过总线(总线A5,总线B6,总线C7和总线D8互连),从而交换必要的信息。
通过配置在单元B2中的、从单元A101-104经信号线SIG-A9连接的故障检测电路10,单元B2能识别出每个单元A101-104的状态。此外,单元B2包括选择电路11和合并电路12,并发送请求信息(将要被执行的处理),该请求信息不能通过总线A5在单元A101-104内部解决。并且选择电路11选择从各个单元A101-104发送的其中一条请求信息,并通过总线B6向每个单元A101-104广播选择的请求信息。
接着,基于该信息,合并电路12在预定的定时通过总线C7接收从单元A101-104发送到单元B2的信息,产生每个单元A101-104的发送信息,并通过总线D8发送产生的信息。
单元A101-104的内部的结构如图2和图3所示。图2所示的结构包含多个CPU13,一个北桥14(其将CPU与单元B2互连)和连接到北桥14的内存15。
图3所示的配置包含IO16,外围设备的接口电路例如局域网卡和一个用于将IO和单元B2互连的I/O主桥17。
在具有如上所述的配置的系统中,当在一个单元出现故障时,需要将故障通知给构成分区的所有单元并立即停止操作。作为用于向其他单元通知故障的方法,曾经提出一种通过专用信号线互连所有单元的通知方法。而且,作为另一种故障通知方法,曾经提出通过包(packet)等通知故障的方法。
根据专利文献1,提出在由多个设备构成的信息处理器设备中,当一设备产生停止信号时,该信号被传送到其他设备。当其他设备接收到停止信号时,执行关于预定程序的操作。
根据专利文献2,提出同时停止处理器(不管处理器在执行什么处理,使用具有最高优先级的不可屏蔽中断停止所有的处理器)有助于故障分析。
根据专利文件献3,当处理器中出现故障时,错误信息来标记该状态。在该处理器中的微处理器从该状态读取错误信息,基于该信息通过产生代码来编码,保持该状态并存储它。错误信息及其被保持和编码的状态被写入,然后通过中断信号通知其他处理器。当通过机器检查中断(halt)来停止微处理器时,根据该中断来执行编码,保持该状态,并通过中断信号将其发送给其它处理器。通过读取通知方处理器的状态保持性(status retention),接收到通知的处理器获得发送过通知的处理器的故障情况。
根据专利文献4,提出每个节点的故障信息从相同分区的一个或多个故障节点获取,根据该信息执行故障处理,并且可疑部分的详细说明(specification)和故障处理被精确及时地执行。
然而,在大规模计算机系统中,通过专用信号线将所有单元之间互连的通知方法导致了成本的增加,因为需要每个单元存储所有其它单元的分区信息并且随之在试图通过配置多个分区来提高系统的可用性时增加了连接信号线。
而且,利用包通知故障的方法,如果故障通知包从故障单元到相同分区的所有其它单元一个接一个地执行故障通知,就不能确保分区的立即和同时停止。例如,在包发送电路的故障或诸如单元电源故障的严重故障的情况,该故障单元不能发送故障通知包,因此构成该分区的其它单元不能立即停止。
专利文献1,2和3没有任何与大规模计算机系统相关的故障通知的描述,也没有考虑系统引入分区的系统的故障通知控制。特别地,专利文献件3描述了构成系统的单元中处理器之间通知故障的方法;然而没有考虑到为每个单元配置分区的情况。
根据专利文献4,为了对在一个分区的一部分中发生故障的该分区执行所有的停止处理,通过服务处理器和管理工具,执行来自个别单元的故障通知和停止处理。故障出现之后,需要花费一些时间去停止,因此在该时间段受到故障单元的影响将出现错误的操作和数据破坏等。而且,没有考虑严重故障的情况也存在问题。
专利文献1:日本特许公开No.55-121566
专利文献2:日本特许公开No.02-165367
专利文献3:日本特许公开No.03-084640
专利文献4:日本特许公开No.2004-62535(US2004/0153888)
发明内容
本发明的目的是提供一种通信方法,用于在没有服务处理器(例如软件处理)的情况下,在某部分出现故障时通过启动立即停止处理(例如,硬件停止:硬停止)来立即停止处理。
根据本发明,在计算机的故障通知方法中,包括被分区分隔的多个单元A和与多个单元A互连的单元B,其中该单元B向多个单元A广播相同的信息(该信息是根据从多个单元A传送到单元B的信息产生的),当故障出现在一个单元A中时,将所述信息作为故障信息向该单元B进行通知,且单元B接收该故障信息,根据该故障信息产生相同的故障信息并向正常情况下的多个单元A通知相同的故障信息,然后在多个单元A接收到相同的故障信息后,如果它来自属于相同分区的一个单元A,属于相同分区的多个单元A的操作被立即停止,并且如果它来自属于上述相同分区之外的分区的一个单元A,多个单元A的操作继续。
而且根据本发明,在计算机的故障通知方法中,包括被分区分隔的多个单元A和与多个单元A互连的单元B,其中该单元B向多个单元A广播相同的信息(该信息是根据从多个单元A传送到单元B的信息产生的),当在信息不能从一个单元A通知到单元B的严重故障中时,采用除该传送以外的其它方式将严重故障通知作为严重故障信息向该单元B进行通知,并且该单元B接收该严重故障信息,根据该严重故障信息产生相同的严重故障信息并将相同的严重故障信息传送到在正常情况下的多个单元A,然后在多个单元A接收到相同的严重故障信息之后,如果它来自属于相同分区的一个单元A,属于相同分区的多个单元A的操作被立即停止,并且如果它来自属于所述相同分区之外的分区的一个单元A,多个单元A的操作继续。
另外,根据本发明,计算机(其包含多个被分区分隔的单元A和与多个单元A互连的单元B,且其中该单元B向多个单元A广播相同的信息,该信息是根据从多个单元A传送到单元B的信息产生的)包括:通知电路,其当故障出现在一个单元A中时将作为该信息的故障信息向该单元B进行通知;合并电路,用于接收故障信息,根据该故障信息产生相同的故障信息,并通知给在正常情况下的多个单元A;以及控制电路,其用于在多个单元A接收到相同的故障信息后,如果它来自于属于相同分区的一个单元A,立即停止包含在相同分区的多个单元A的操作,并且如果它来自于属于所述相同分区之外的分区的一个单元A,继续该操作。
理想地,该合并电路具有这样的配置,其用于根据该故障信息字段的内容产生相同故障信息字段,并使除了该故障信息和该相同故障信息之外的字段无效。
进而,根据本发明,计算机(其包括多个被分区分隔的单元A和与多个单元A互连的单元B,其中该单元B向多个单元A广播相同的信息,该信息是根据从多个单元A传送到单元B的信息产生的)包括:故障检测电路,其具有互连线用于确认多个单元A和单元B之间的单元A的状态,当一个单元A不能向单元B通知故障时,该故障检测电路用于通过互连线接收严重故障通知并将严重故障作为严重故障信息进行通知;合并电路,用于接收该严重故障信息,根据该严重故障信息产生相同的严重故障信息,并用于向正常情况下的多个单元A通知该相同的严重故障信息;以及这样的电路,用于在多个单元A接收到相同的严重故障信息后,如果它来自于属于相同分区的一个单元A,立即停止包含在相同分区的多个单元A的操作,并且如果它来自于属于所述相同分区之外的分区的一个单元A,继续该操作。
优选地,该合并电路具有这样的配置,用于根据该严重故障信息字段的内容产生相同的严重故障信息字段,并使除了该故障信息和该相同故障信息之外的字段无效。
通过上面的配置,当故障发生时能够执行相同分区中的单元的立即硬停止。当严重故障发生时,也能够执行相同分区中的单元的立即硬停止。
本发明使由故障引起的错误操作和数据破坏最小化,提高了该系统的可靠性并在不用增加确保高可靠计算机系统的信号线的低成本情况下实现了立即停止处理。
附图说明
图1描述了计算机配置的一个例子;
图2示出单元A(CPU单元)配置的一个例子;
图3示出单元A(I/O单元)配置的一个例子;
图4描述了实施例1的故障通知方法的配置;
图5是实施例1的故障通知方法操作的流程图;
图6描述了实施例2的故障通知方法的配置;
图7是实施例2的故障通知方法操作的流程图;
图8是示出总线C数据结构的示意图;以及
图9是示出总线D数据结构的示意图。
具体实施方式
在下面的描述中,参照附图对本发明的实施例的细节进行阐述。
(实施例1)
图4中的系统包含多个单元A和用于控制每个单元A的单元B2。
在分区A3的组中或分区B4的组中分隔单元A;然而单元A103可以是分区A3的一部分或者分区B4的一部分。
结合附图提供本发明的优选实施例的说明。图4是描述本发明实施例的计算机(大规模计算机系统)的图。
通常,被每个分区分隔的每个单元A通过总线A5(例如本地请求总线)与单元B2交互,并将在单元A中不能解决的请求发送到单元B2(图4所示的(1)′信息发送)。
并且,通过总线B6(例如,全局存储地址总线),由选择电路11接收到的请求被广播到其他单元A(图4中的(2)向分区的请求发送)。
然而,当在单元C101(A)中检测到故障时,故障单元C101利用总线C7在预定的定时向单元B2发送故障通知(这是图4中的(3)′故障通知或(3)正常通知。在无故障发生时则是正常通知)。
单元B2确定通过总线C7接收到的信息(包)中的故障信息,并通过总线D8向每个单元C101和单元A102-104发送同样的信息(图4中是向分区(4)的通知)。
与故障单元A构成相同分区A3的单元A根据在总线D8中接收到的故障信息停止操作。分区B4中的单元A,虽然接收到故障信息(比如错误通知),还是继续该操作,忽略该故障信息(图4中(5-1)、(5-2)、(5-3)、(5-4)的操作)。
下一步,参照图5中的流程图,解释在分区A3的单元C101(相当于单元A)中检测到故障的情形实例。
步骤S21执行系统的正常操作并发布请求(信息发送(1)′)。
在步骤S22中,选择电路11接收从每个单元A发送的请求,并向每个分区(2)中的单元A广播所选请求。S21和S22是(3)实现正常操作的状态。
如果图4中的单元C101发生故障,那么,在步骤S23中,在分区A3中的单元C101中出现的故障被检测到(图4中的(1)故障检测)。然后,启动向单元B2通知故障检测的准备。
在步骤S24中,分区A3和B4到B2的所有单元A向单元B2通知信息(3)、(3)′、(3)″。在本实例中,来自故障单元C101的故障通知被加入到用于通知的信息(包)中。来自没有故障的单元A102、103的正常信息通知被执行。此时,由总线C7执行通知,并且上述故障通知例如在对包建立一中断状态字段(以后描述)并加入严重故障信息之后被传送。
在步骤S25中,合并电路12接收通过总线C7传送的信息(包)(3)、(3)′、(3)″,并通过总线D8通知故障发生。在本实例中,故障出现在单元C101中。因此,为了使在分区A3中包含的每个单元A识别故障,产生相同的故障信息,并且总线D8向每个单元A通知合并电路12的结果。但是,此时包含在分区A3中的单元A104没有反应。
在步骤S26中,当分区A3中的每个单元A通过相同的故障信息识别故障时,操作被停止。分区B4忽略分区A3中的故障而继续执行操作。
在本实例中,通过总线D8向分区A3和B4通知由合并电路12产生的相同故障通知信息。分区A3中的接收到相同故障信息的每个单元A通过合并电路产生的相同故障信息识别该故障,并停止操作(5-1)、(5-2)。在另一分区B4的单元A1忽略故障通知并继续该操作(5-3)、(5-4)。
根据上面的配置,不向管理处理器通知中断,不执行日志恢复和重启处理,并且,当故障发生时,不需要来自管理处理器的指令;因此,能够执行产生故障的相同分区中的单元的立即硬停止。
(实施例2)
图4中的系统包括多个单元A和用于控制每个单元A的单元B2。在分区A3的组中或分区B4的组中分隔单元A;然而单元A103可以是分区A3的一部分或分区B4的一部分。
在图6中,说明一种严重故障通知的方法。当在单元D102(A)中检测到故障,并且该故障很严重以至于总线C7不能被使用时,故障单元D102使用SIG-A9并向单元B2通知该故障单元D102被逻辑上分隔。这里,SIG-A9是使单元B2识别出单元D102的状态的信号线(互连线)。
接着,单元B2通过SIG-A9识别出现在单元D102中的严重故障。该单元B2在故障单元D102需要利用总线C7传送故障信息的定时,传递并识别严重故障信息给合并电路12而不是故障单元D102。
根据被通知的严重故障信息,产生相同严重故障信息,并且单元B2利用总线D8向每个单元A发送相同严重故障信息。根据总线D8(5-1),(5-2)收到的严重故障信息,与故障检测单元D102构成相同分区的单元A停止操作。在不同分区的单元A忽略总线D8接收到的严重故障信息并继续操作(5-3),(5-4)。
接着,参照图7所示的流程图给出出现严重故障的情况说明。
步骤S41实现正常系统的操作并发布请求(用于信息发送(1)′)。
在步骤S42中,选择电路11接收从每个单元A发送的请求,并向每个分区(2)的单元A广播所选择的请求。S41和S42处于执行正常操作的状态。
当出现严重故障,如图6所示,在步骤S43中,分区A3的单元D102开始准备检测和通知该严重故障。
步骤S44通过SIG-A9从单元D102向单元B2执行严重故障通知。SIG-A9通过检查单元A是否被分隔来确认单元A是否逻辑存在。
在步骤S45中,通过包含在单元B2中的故障检测电路10,确认分区A3的单元D102陷入严重的故障(2)″。这里,故障检测电路10被一个接一个连接到每个单元A,并当出现严重故障时,准备向合并电路12发出严重故障通知。
步骤46向单元B2通知来自分区A3和B4中所有的单元A的信息(3)、(3)′、(3)″。在本实例中,严重故障通知被加到信息中,并通过SIG-A9和故障检测电路10向单元D102的合并电路12通知在哪发生了严重故障。来自没有发生故障的单元A1的正常信息被通知。这时,通过总线C7进行通知。上述严重故障通知例如在对包建立中断状态字段(以后描述)并加入严重故障信息之后被发送。
在步骤S47中,合并电路12接收通过总线C7(3)、(3)′、(3)″发送的信息并通过总线D8通知故障出现。在该实例中,严重故障出现在单元D102中。因此同样的严重故障信息(其用于使包含在分区A3中的每个单元A识别该严重故障)在该合并电路12中产生,并且总线D8通知每个单元A合并电路12的产生结果。
在步骤48中,当分区A3中的单元A识别出发生了严重故障的时候,分区A3中的单元A立即停止。其他分区忽略分区A3中产生的故障并继续操作。
在该实例中,向分区A3和B4通知合并电路12产生的相同严重故障通知信息。接收到相同严重故障信息的分区A3中的每个单元A1识别该故障并停止操作(5-1),(5-2)。在另一分区B4中的单元A忽略故障通知并继续操作(5-3),(5-4)。
即使当发生严重的故障时,上述配置也允许与发生故障的故障单元相同的分区中的单元的立即硬停止。
下面,说明上述总线C7和总线D8上传输的信息(包)。图8示出总线C的数据结构的例子。
通过总线C7发送的信息包括这些字段,例如V:有效。T:目标命中,ABTST:中断状态,CST:缓存状态,STBNUM:存储缓存号。
这里,V:有效是表明该包是有效或无效的标志。T:目标命中表明双内嵌内存模块(dimm)命中是否存在。ABTST:中断状态通知重试通知或错误通知。CST:缓存状态表明缓存的状态。STBNUM:存储表明双内嵌内存模块被写入哪里的缓存号。
图9示出通过总线D发送的信息的数据字段结构的例子。总线D例如包括V,T,CST(如总线C7的情况一样),并且从Board_Id:Board_Id和INVCNT:无效计数等配置。
Board_Id:board_Id表明单元A的板(board)号。INVCNT:无效计数表明共享命中的号码。
当传送故障通知时,一个值被添加到ABTST。因此,当发生故障时,总线C7的其他字段和总线D8的其他字段变得没有意义。
例如,在总线C 7的情形,ABSTST=111的CHKSTP(故障)在故障发生时被通知。这时,其他字段无效。正常情况下ABTST=000。
在总线C8的情形,ABSTST=111的CHKSTP在故障发生时被广播,并且检查是否是自己的分区。该检查在接收单元A侧被执行(例如,检查可在预定的定时执行)。
当SIG-A9通知严重故障时,也设置ABTST=111。
接着,通过总线C7将来自每个单元A的信息传送到合并电路12。总线D8的信息从传送的信息中产生。然而错误传输的ABTST=111具有最高优先级,因此,虽然从别的总线C7通知正常信息,总线D8的ABTST也被设置成111并被广播。并向所有单元A进行错误通知。
由于许多故障检测被持续检查,难以精确确定何时检测到故障;然而,当发布请求(1)’之后的(3)、(3)′、(3)″的结果通知时,故障通知被产生并且被插入。因此,只要故障在(3)、(3)′、(3)″前被检测到,就可以插入故障通知。
本发明不仅局限于明上面描述的实施例,不脱离本发明的范围,可进行各种改进和改型。

Claims (6)

1、一种计算机的故障通知方法,包括由分区分隔的多个单元A和与单元A互联的单元B,其中单元B向多个单元A广播基于从多个单元A传送到单元B的信息所产生的相同信息,
其中当在一个单元A中发生故障时,将所述信息作为故障信息向单元B进行通知,单元B接收该故障信息,根据该故障信息产生相同故障信息并向正常情况下的多个单元A通知该相同故障信息,以及
在多个单元A接收到该相同故障信息之后,如果该相同故障信息来自于属于相同分区的一个单元A,则属于相同分区的多个单元A的操作被立即停止,而如果该相同故障信息来自于属于所述相同分区之外的分区的一个单元A,则多个单元A的操作继续。
2、如权利要求1所述的计算机的故障通知方法,其中,在所述信息不能从所述的一个单元A通知到单元B的严重故障情况下由单元A采用除该传送以外的其它方式将严重故障通知作为严重故障信息向单元B进行通知,
单元B接收该严重故障信息,根据该严重故障信息产生相同严重故障信息并向正常情况下的多个单元A通知该相同严重故障信息;以及
在多个单元A接收到该相同严重故障信息之后,如果该相同故障信息来自于属于相同分区的一个单元A,则属于相同分区的多个单元A的操作被立即停止,并且如果该相同故障信息来自于属于所述相同分区之外的分区的一个单元A,则多个单元A的操作继续。
3、一种计算机,包括由分区隔离的多个单元A和与单元A互联的单元B,其中单元B向多个单元A广播基于从多个单元A传送到单元B的信息产生的相同信息,其中该计算机包括:
通知电路,当一个单元A发生故障时用于向单元B通知作为所述信息的故障信息;
合并电路,其用于接收该故障信息,根据该故障信息产生相同故障信息,并通知在正常情况下的多个单元A;以及
控制电路,其用于在多个单元A接收到相同故障信息后,如果该相同故障信息来自于属于相同分区的一个单元A,则立刻停止包含在相同分区的多个单元A的操作,并且如果该相同故障信息来自于属于所述相同分区之外的分区的一个单元A,则继续该操作。
4、如权利要求3所述的计算机,其中该合并电路根据该故障信息字段的内容产生该相同故障信息的字段,并使除了该故障信息和该相同故障信息以外的字段无效。
5、一种计算机,包括由分区分隔的多个单元A和与单元A互联的单元B,其中单元B向多个单元A广播基于从多个单元A传送到单元B的信息产生的相同信息,其中该计算机包括:
故障检测电路,其具有用于确认多个单元A和单元B之间的多个单元A的状态的互连线,当不能从一个单元A向单元B通知故障时,该故障检测电路用于通过该互连线接收严重故障通知并将该严重故障作为严重故障信息进行通知;
合并电路,其用于接收该严重故障信息,根据该严重故障信息产生相同严重故障信息,并向正常情况下的多个单元A通知该相同严重信息;以及
电路,其用于在多个单元A接收到该相同严重故障信息后,如果该相同严重故障信息来自于属于相同分区的一个单元A,则立刻停止包含在相同分区的多个单元A的操作,并且如果该相同严重故障信息来自于所述相同分区之外的分区的一个单元A,则继续该操作。
6、如权利要求5所述的计算机,其中该合并电路根据该严重故障信息字段的内容产生该相同严重故障信息的字段,并使除了该故障信息和该相同故障信息以外的字段无效。
CNB2005100870763A 2005-03-18 2005-07-26 故障通知方法 Expired - Fee Related CN100392607C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005078452A JP2006260325A (ja) 2005-03-18 2005-03-18 障害の伝達方法
JP2005078452 2005-03-18

Publications (2)

Publication Number Publication Date
CN1834926A true CN1834926A (zh) 2006-09-20
CN100392607C CN100392607C (zh) 2008-06-04

Family

ID=36616945

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100870763A Expired - Fee Related CN100392607C (zh) 2005-03-18 2005-07-26 故障通知方法

Country Status (5)

Country Link
US (1) US20060212749A1 (zh)
EP (1) EP1703392A3 (zh)
JP (1) JP2006260325A (zh)
KR (1) KR100726205B1 (zh)
CN (1) CN100392607C (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7921453B2 (en) * 2006-12-22 2011-04-05 Intel Corporation Authenticated distributed detection and inference
JP5212471B2 (ja) 2008-06-02 2013-06-19 富士通株式会社 データ処理システム、データ処理方法およびデータ処理プログラム
JP5535471B2 (ja) 2008-12-05 2014-07-02 エヌイーシーコンピュータテクノ株式会社 マルチパーティション・コンピュータシステム、障害処理方法及びそのプログラム
US11227687B2 (en) 2010-01-22 2022-01-18 Deka Products Limited Partnership System, method, and apparatus for communicating data
MX353110B (es) * 2012-12-21 2017-12-19 Deka Products Lp Sistema, método y aparato para la comunicación de datos.
JP6567959B2 (ja) * 2015-11-17 2019-08-28 Necプラットフォームズ株式会社 情報処理装置、拡張記憶制御方法および拡張記憶制御プログラム
CN105610631B (zh) * 2016-02-03 2019-07-02 海南随手电子商务有限公司 网络数据处理方法和装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4916697A (en) * 1988-06-24 1990-04-10 International Business Machines Corporation Apparatus for partitioned clock stopping in response to classified processor errors
US5509127A (en) * 1992-12-04 1996-04-16 Unisys Corporation Transmission logic apparatus for dual bus network
JPH08286989A (ja) * 1995-04-19 1996-11-01 Fuji Xerox Co Ltd ネットワーク管理システム
JPH10269112A (ja) * 1997-03-25 1998-10-09 Hitachi Ltd 障害検出通知方式
US6594785B1 (en) * 2000-04-28 2003-07-15 Unisys Corporation System and method for fault handling and recovery in a multi-processing system having hardware resources shared between multiple partitions
US6977908B2 (en) * 2000-08-25 2005-12-20 Hewlett-Packard Development Company, L.P. Method and apparatus for discovering computer systems in a distributed multi-system cluster
US6973517B1 (en) * 2000-08-31 2005-12-06 Hewlett-Packard Development Company, L.P. Partition formation using microprocessors in a multiprocessor computer system
JP2002229806A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 計算機システム
US6711700B2 (en) * 2001-04-23 2004-03-23 International Business Machines Corporation Method and apparatus to monitor the run state of a multi-partitioned computer system
US6877107B2 (en) * 2001-07-05 2005-04-05 Softwired Ag Method for ensuring operation during node failures and network partitions in a clustered message passing server
US6842870B2 (en) * 2001-09-20 2005-01-11 International Business Machines Corporation Method and apparatus for filtering error logs in a logically partitioned data processing system
JP3891004B2 (ja) * 2002-02-26 2007-03-07 日本電気株式会社 情報処理システム及び該システムの制御方法並びにプログラム
CN100388218C (zh) * 2002-06-27 2008-05-14 中兴通讯股份有限公司 一种在服务器之间实现备份的方法
JP3640187B2 (ja) * 2002-07-29 2005-04-20 日本電気株式会社 マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
US7080230B2 (en) * 2003-04-25 2006-07-18 International Business Machines Corporation Broadcasting error notifications in system with dynamic partitioning
US20060101184A1 (en) * 2004-11-09 2006-05-11 Data Device Corporation Dual speed/dual redundant bus system

Also Published As

Publication number Publication date
KR20060101141A (ko) 2006-09-22
JP2006260325A (ja) 2006-09-28
EP1703392A3 (en) 2009-03-25
US20060212749A1 (en) 2006-09-21
KR100726205B1 (ko) 2007-06-11
CN100392607C (zh) 2008-06-04
EP1703392A2 (en) 2006-09-20

Similar Documents

Publication Publication Date Title
CN1834926A (zh) 故障通知方法
CN1111994C (zh) 在严格实时条件下容错通讯方法
CN1834929A (zh) 信息处理系统及其控制方法、控制程序以及冗余控制装置
EP1674996A2 (en) Computer system and method for dealing with errors
CN1932772A (zh) 一种隔离总线故障的方法、装置与一种单板
CN1195813A (zh) 由分布式计算机系统的一个硬件元件报告错误的系统
JP2004062535A (ja) マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
CN1842020A (zh) 一种实现数据业务备份的方法
CN1943206A (zh) 用于在集群系统的网络故障期间最大化连通性的系统和方法
US7774638B1 (en) Uncorrectable data error containment systems and methods
CN1295890C (zh) 信息传输系统及信息传输方法
CN1275000A (zh) 用于冗余切换控制的设备和方法
CN1504908A (zh) 存储器系统及其控制方法
CN1260654C (zh) 由分布式计算机系统的一个硬件元件报告错误的方法
CN1251103C (zh) 提高商务机群可服务性的方法
CN1794198A (zh) 容错双工计算机系统及其控制方法
CN1924810A (zh) 一种业务进程的分布式分优先级监控方法
CN117130832B (zh) 多核异构系统的监控复位方法、系统、芯片及电子设备
CN1841547A (zh) 识别故障模块的方法及装置
CN1832417A (zh) 一种数据采集方法及系统
CN114218004A (zh) 基于BMC的Kubernetes集群物理节点的故障处理方法和系统
CN1290013C (zh) 图形控制器中校验指令完整性的方法与电路
CN1240603C (zh) 远程监视系统
US8264948B2 (en) Interconnection device
CN105553735A (zh) 一种堆叠系统故障处理方法、设备及堆叠系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080604

Termination date: 20100726