CN104598341B - 用于确定在互连/控制器之间的故障的位置的方法和系统 - Google Patents

用于确定在互连/控制器之间的故障的位置的方法和系统 Download PDF

Info

Publication number
CN104598341B
CN104598341B CN201410534359.7A CN201410534359A CN104598341B CN 104598341 B CN104598341 B CN 104598341B CN 201410534359 A CN201410534359 A CN 201410534359A CN 104598341 B CN104598341 B CN 104598341B
Authority
CN
China
Prior art keywords
controller
system controller
computer
node
multiple node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410534359.7A
Other languages
English (en)
Other versions
CN104598341A (zh
Inventor
A·K·马哈詹
V·塞纳斯
V·苏班纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104598341A publication Critical patent/CN104598341A/zh
Application granted granted Critical
Publication of CN104598341B publication Critical patent/CN104598341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis

Abstract

本发明的各实施例涉及用于确定在互连/控制器之间的故障的位置的方法和系统。在一种用于确定在互连/控制器之间的故障的位置的方式中,计算机在耦合到互连的多个节点同时收集调试信息。在收集调试信息之后,计算机分析同时收集的调试信息、由此确定互连的哪端引起故障。

Description

用于确定在互连/控制器之间的故障的位置的方法和系统
技术领域
本公开内容涉及分布式计算机系统,并且更具体地涉及针对分布式计算机系统的故障数据。
背景技术
计算机系统中的硬件和软件部件的组合如今已经发展至这样的程度以使得这些计算机系统可以高度地可靠。可以通过使用冗余部件来提供计算机系统中的可靠性。例如,在一些计算机系统中,部件(比如节点控制器(这些节点控制器管理计算机系统的节点的硬件错误请求))是按冗余对(一个主节点控制器和一个冗余(备份)节点控制器)提供的。在这样的主节点控制器故障时,冗余节点控制器接管主节点控制器的操作。冗余对也可以出于相同目的而用于系统控制器。节点控制器和系统控制器也可以被称为服务处理器。服务处理器是在分布式计算机系统中的如下部件,该部件提供操作任务,比如初始化、配置、运行时错误检测、诊断和纠正以及密切地监视其它硬件部件的故障。
系统转储(dump)是冗余节点控制器的工作存储器在具体时间(比如当在冗余节点控制器上运行内的程序已经确定失去与系统控制器的通信时)的记录的状态。第一故障数据捕获(FFDC)是与由节点和/或系统控制器检测到的某个错误有关的最小信息集合。调试转储数据是FFDC的超集合,并且它包括来自控制器的所有信息、包括可能不与具体错误调查直接有关的信息。在错误在节点之一中出现时,从主节点控制器立即捕获对调试信息的转储以用于进一步分析。然而,备份节点控制器仅如果主节点控制器故障并且因而备份节点控制器作为主节点控制器而接管则才可以变成了解错误。这一过程被称为故障转移。等待故障转移过程完成以捕获转储可能延迟对调试信息的转储并且负面地影响用于分析错误的能力。
发明内容
本发明的实施例公开了一种用于确定在互连/控制器之间的故障的位置的方法、计算机程序产品和系统。该方法包括计算机在耦合到互连的多个节点同时收集调试信息。在收集调试信息之后,计算机分析同时收集的调试信息、由此确定互连的哪端引起故障。
附图说明
图1是图示了根据本发明的一个实施例的包括服务器计算机的分布式计算机系统环境的功能框图。
图2是描绘了根据本发明的一个实施例的用于同步调试信息生成的在图1的分布式计算机系统环境内的部件的相互通信的数据流程图。
图3图示了根据本发明的一个实施例的用于根据预定映射同步调试信息生成的场景的示例。
图4描绘了根据本发明的一个实施例的图1的服务器计算机的部件的框图。
具体实施方式
在分布式计算机系统内的正常操作期间,特定节点控制器可以检测错误。该错误可以包括许多不同类型的故障,比如通信故障错误、应用或者进程故障错误、特定节点或者节点控制器操作的崩溃或者锁定以及其它错误。在节点控制器检测到在分布式计算机系统中的错误时,分布式计算机系统的资源尝试存储与该错误相关的错误信息以用于以后取回。分布式计算机系统监视具有高优先级的进程、应用和其它资源而保持那些资源始终可用于用户和其它实体。分布式计算机系统可以运用一个或者多个系统控制器,该一个或者多个系统控制器监视分布式计算机系统的节点控制器和其它设备的操作并且管理节点控制器错误信息。在节点控制器检测到错误时,该错误可能在分布式计算机系统内引起通信故障。通信故障可能给系统控制器在取回节点控制器错误检测信息时带来挑战。
在具有在分级架构中配置的多个服务处理器的系统架构中,在遇到任何错误条件时从多于一个服务处理器同时收集调试信息可以改进错误分析。例如,如果节点内互连经历故障,则没有用于确定互连的哪端是故障的原因的可靠方法。同时从在其之间经历互连故障的节点二者上的服务处理器收集调试信息提供用于错误分析的附加数据。可以从收集同时调试信息受益的故障的另一示例是在节点控制器故障时。在这种情况出现时,主系统控制器不能与故障的节点控制器通信。从备份系统控制器和在经历故障的节点中的备份节点控制器二者同时收集故障数据可以是有益的。可以从收集同时调试信息受益的故障的又一示例是在主节点控制器难以访问在节点内的硬件时。这时,同时从主节点控制器和备份节点控制器二者收集的故障数据可以向系统管理员给予对错误的附加认识。
本发明的实施例认识到如果同时从所有涉及到的服务处理器(即节点控制器和系统控制器)捕获第一故障数据捕获(FFDC)和调试转储数据则可以改进对在分布式计算机系统内的错误的分析。本发明的实施例检测在分布式计算机系统中的错误、确定从哪些服务处理器收集调试信息并且将数据聚合成单个报告。本发明的实施例的实现方式可以采用多种形式,并且随后参照各图讨论示例性实现方式细节。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如(备注:术语“Java”可以在全世界各管辖地有商标权并且这里仅用来在这样的商标权可以存在的程度上指代被商标恰当命名的产品或者服务)、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
现在将参照各图详细描述本发明。图1是图示了根据本发明的一个实施例的被总体上表示为100的分布式计算机系统环境的功能框图。如在本说明书中使用的术语“分布式”描述如下计算机系统,该计算机系统包括一起作为单个计算机系统操作的多个物理上不同的设备。图1仅提供了一个实现方式的例示而不意味着关于可以在其中实施不同实施例的环境的任何限制。可以进行对描绘的环境的许多修改。
分布式计算机系统环境100包括服务器计算机102。服务器计算机102可以是管理服务器、web服务器或者能够接收和发送数据的任何其它电子设备或者计算系统。在其它实施例中,服务器计算机102可以代表如下服务器计算系统,该服务器计算系统比如在云计算环境中利用多个计算机作为服务器系统。在另一实施例中,服务器计算机102可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话或者能够与其它电子设备通信的任何可编程电子设备。在另一实施例中,服务器计算机102代表如下计算系统,该计算系统利用群集的计算机和部件以充当单个无缝资源池。服务器计算机102包括节点104、106、108和110以及系统控制器112和系统控制器114。服务器计算机102可以包括如关于图4进一步详细描绘和描述的内部和外部硬件部件。
节点104至节点110中的每个节点是执行用户应用的处理设备并且被包含在服务器计算机102中。每个这样的节点可以是web服务器、数据库或者任何其它计算设备。图1中所示实施例描绘每个节点包括处理器(例如,节点104的处理器118等)、存储器(例如,节点104的存储器120等)和两个节点控制器(例如,节点104的节点控制器116a和116b等)。每个节点控制器可以是服务处理器类型。虽然在图1中未全部示出,但是节点可以包括如本领域技术人员将想到的任何数目的设备,比如附加计算机处理器、附加计算机存储器、盘驱动适配器、盘驱动、通信适配器、总线适配器等。如在图1中描绘的那样,服务器计算机102被配置有四个节点(104,106,108,110),但是本领域读者将认识到根据本发明的实施例监管在计算机的冗余节点控制器上的系统转储时有用的计算机系统。例如,在本发明的各种实施例中,计算机系统可以包括一到八个节点。
在服务器计算机102中的每个节点(104,106,108,110)包括在冗余关系中配置的能够相互接管某些职责的两个节点控制器。节点控制器是在节点中包含的设备,该设备照管节点的在计算机系统的操作期间出现的任何硬件错误请求。在节点中的一对节点控制器由于冗余性而提供可靠节点控制器操作作为组——在一个节点控制器故障时,冗余节点控制器接管用于计算机系统的节点的节点控制器操作。一次将在一对中的仅一个节点控制器配置为主节点控制器。主节点控制器是在其中为计算机系统的节点执行所有节点控制器操作的节点控制器。对照而言,冗余节点控制器直至主节点控制器故障才执行用于计算机系统的节点的节点控制器操作。例如,在服务器计算机102的情境中,在节点104中,节点控制器116a是主节点控制器并且节点控制器116b是备份节点控制器。在节点106中,节点控制器122a是主节点控制器并且节点控制器122b是备份节点控制器。在节点108中,节点控制器128a是主节点控制器并且节点控制器128b是备份节点控制器。在节点110中,节点控制器134a是主节点控制器并且节点控制器134b是备份节点控制器。
服务器计算机102包括两个系统控制器(112,114)。每个系统控制器可以是服务处理器类型。系统控制器是管理在计算机系统中的节点的控制器。系统控制器可以在计算机系统的操作期间从节点收集错误和操作状态信息以及指引节点的操作。在本发明的一个实施例中,服务器计算机102包括用于提供可靠性的冗余系统控制器。特别地,在服务器计算机102中,系统控制器112是主系统控制器并且系统控制器114是备份系统控制器。
每个系统控制器包括非易失性存储器存储装置(140,142),比如硬盘驱动、CD驱动、DVD驱动或者其它非易失性存储装置。非易失性存储器存储装置用来如以下详细讨论的那样聚合在故障情形期间生成的所有调试信息。
图2是描绘了根据本发明的一个实施例的用于同步调试信息生成的在图1的分布式计算机系统环境内的部件的相互通信的数据流程图。
在检测到错误时,服务处理器(比如节点控制器或者另一系统控制器)向主系统控制器信号通知故障已经出现(步骤202)。在所示实施例中,节点控制器116a向系统控制器112信号通知故障已经出现。例如,节点控制器116a可以观测失去与节点控制器122a的通信。主系统控制器确定故障条件(步骤204)。如在先前示例中指出的那样,系统控制器112确定通信故障已经由于失去在节点控制器116a与节点控制器122a之间的通信而在节点104与节点106之间出现。在另一实施例中,主系统控制器可以确定故障条件而未从节点控制器接收故障已经出现这样的信号。例如,主系统控制器可以确定与特定节点控制器失去通信而节点控制器未发送警告。
主系统控制器确定故障条件是否需要对调试信息的同时转储(判决块206)。同时转储是在并行工作的多个服务处理器同时提供调试信息时。调试信息可以包括第一故障数据捕获(FFDC)以及调试转储数据,其中调试转储数据是包括来自控制器的所有信息的FFDC的超集合,包括可以不与具体错误调查直接相关的信息。对调试信息的同时转储可以通过在错误出现的相同时刻从不同服务处理器提供信息来改进对在分布式计算机系统内的错误的分析。例如,在主节点控制器的故障的时间从备用节点控制器和/或系统控制器捕获数据可以提供关于在该时间的系统性能的有价值信息。例如,如果主系统控制器检测到互连问题在多个节点之间出现则可能需要对调试信息的同时转储。如果主系统控制器确定故障条件无需对来自多个服务处理器的调试信息的同时转储,则不采取附加动作(否分支,判决块206)。
如果主系统控制器确定故障条件需要对调试信息的同时转储(是分支,判决块206),则主系统控制器选择将警告的服务处理器(步骤208)。例如,在描绘的实施例中,如果在节点104与节点106之间的互连故障,则系统控制器112从已经在其之间检测到互连故障的两个节点中的每个节点(具体为节点控制器116a、节点控制器116b、节点控制器122a和节点控制器122b)选择将警告错误的主备份节点控制器和备份节点控制器。在一个实施例中,在系统设计期间创建映射。映射如关于图3进一步详细描绘和描述的那样定义一个或者多个可能故障条件和对于关联的故障条件中的每个故障条件而被选择警告的服务处理器的场景。
在选择警告哪些服务处理器之后,主系统控制器向选择的节点控制器和备份系统控制器广播警告(步骤210)。警告是对于生成对调试信息的转储的请求。在以上讨论的其中已经在节点104与节点106之间检测到通信故障的示例中,系统控制器112向节点控制器116a、节点控制器116b、节点控制器122a、节点控制器122b和系统控制器114警告需要生成对调试信息的转储。
这里介绍了多种技术,通过这些技术,主系统控制器可以向选择的服务处理器(需要对来自这些服务处理器的调试信息的同时转储)广播警告。根据一种这样的技术,在一个实施例中,通过利用服务器计算机102中的可以与系统控制器和所有节点控制器通信的可编程中断生成器来警告需要对来自其的调试信息的同时转储的服务处理器。可编程中断生成器是向它连接到的一个或者多个选择的服务处理器生成中断的设备。例如,如果系统控制器112选择警告节点控制器116a和节点控制器122a,则系统控制器112向中断生成器(未示出)发信号以中断节点控制器116a和节点控制器122a。根据另一种这样的技术,在另一实施例中,通过使主系统控制器在所有选择的服务处理器驻留在其上的以太网传送(未示出)上广播错误来警告需要对来自其的调试信息的同时转储的服务处理器。根据第三种技术,在另一实施例中,在仅一个服务处理器检测到节点间错误时,服务处理器之一可以通过功能子系统接口(FSI)通知另一服务处理器。如果例如节点间总线的接收端体验错误、但是节点间总线的发射端不受错误影响则可以实施对FSI(未示出)的使用。FSI是提供双向通信的一级接口。
响应于从主系统控制器接收警告,选择的节点控制器和备份系统控制器生成对调试信息的转储(步骤212)。继续来自所示实施例的示例,节点控制器116a、节点控制器116b、节点控制器122a、节点控制122b和系统控制器114各自生成对调试信息的转储。
一旦已经生成了转储,选择的节点控制器和备份系统控制器就向主系统控制器传输对调试信息的转储(步骤214)。根据先前示例,节点控制器116a、节点控制器116b、节点控制器122a、节点控制122b和系统控制器114各自向系统控制器112传输关联的转储。
响应于从选择的节点控制器和备份系统控制器中的每个控制器接收对调试信息的转储,主系统控制器将各种转储聚合成单个数据集(步骤216)。聚合的数据集可以由系统管理员用来分析错误并且确定根本原因和将采取的纠正动作。继续来自所示实施例的示例,系统控制器112聚合从节点控制器116a、节点控制器116b、节点控制器122a、节点控制122b和系统控制器114接收的数据转储。聚合的数据集可以存储于主系统控制器的存储器中或者如下服务处理器中的任何服务处理器的存储器中,这些服务处理器提供可由服务计算机102的系统管理员访问的数据。在这一示例中,聚合的数据集存储于系统控制器112的存储器140中。
图3图示了根据本发明的一个实施例的用于根据预定映射同步调试信息生成的场景的示例。如先前关于图2提到的那样,在本发明的一个实施例中,主系统控制器可以借助在系统设计的时间创建的映射确定故障条件需要对来自多个服务处理器的调试信息的同时转储。映射定义一个或者多个可能故障条件和被选择为对于关联的故障条件中的每个故障条件而警告的服务处理器的场景。在各种实施例中,地图或者场景汇集存储于一个或者多个服务处理器上。在描绘的实施例中,主系统控制器注意到正在正确工作的服务处理器以及经历错误的服务处理器。场景1描绘了节点间故障的出现,在该节点间故障中,有在节点104与节点106之间的通信的失去。在这一场景中,主系统控制器(系统控制器112)警告节点104和节点106二者的主节点控制器和备份节点控制器(具体为节点控制器116a、节点控制器116b、节点控制器122a和节点控制器122b)并请求来自它们的调试信息。场景2描绘备份节点控制器(具体为在节点106中的节点控制器122b)故障的出现。在这一场景中,主系统控制器、系统控制器112警告经历错误的节点控制器(即节点控制器122b)以及该节点的冗余节点控制器(节点控制器122a)和备份系统控制器(系统控制器114)并请求来自它们的调试信息。备份系统控制器具有系统的与主系统控制器等同的视图。在节点控制器中经历的故障可以例如是在主系统控制器与出故障的节点控制器之间的通信故障。在这一情况下,备份系统控制器可以具有故障的不同视图,因为备份系统控制器未经历故障。因此,由备份系统控制器转储的调试信息可以辅助故障分析。场景3描绘备份节点控制器(具体为在节点104中的节点控制器116b)的故障的出现。在这一场景中,主系统控制器、系统控制器112警告经历错误的节点控制器(即节点控制器116b)以及该节点的冗余节点控制器(节点控制器116a)和备份系统控制器(系统控制器114)并请求来自它们的调试信息。应当领会到,在图3中描绘的场景是可以在复杂、分布式计算机系统中存在的许多场景的示例,而不暗示关于用于服务器计算机102的同时调试信息生成的场景的任何限制。
图4描绘了根据本发明的一个例示性实施例的服务器计算机102的部件的框图。应当领会到,图4仅提供了一个实现方式的例示而不暗示关于可以在其中实施不同实施例的环境的任何限制。可以进行对描绘的环境的许多修改。
服务器计算机102包括提供在计算机处理器404、存储器406、持久存储装置408、通信单元410和输入/输出(I/O)接口412之间的通信的通信结构402。通信结构402可以用任何被设计用于在处理器(比如微处理器、通信和网络处理器等)、系统存储器、外围设备和在系统内的任何其它硬件部件之间传递数据和/或控制信息的架构来实施。例如,通信结构402可以用一个或者多个总线来实施。
存储器406和持久存储装置408是计算机可读存储介质。在这一实施例中,存储器406包括随机存取存储器(RAM)414和高速缓存存储器416。一般而言,存储器406可以包括任何适当易失性或者非易失性计算机可读存储介质。
聚合的调试数据集存储于持久存储装置408中以用于经由存储器406的一个或者多个存储器由相应计算机处理器404中的一个或者多个计算机处理器执行和/或访问。在这一实施例中,持久存储装置408包括磁硬盘驱动。取代磁硬盘驱动或者除了磁硬盘驱动之外,持久存储装置408可以包括固态硬驱动、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存或者能够存储程序指令或者数字信息的任何其它计算机可读存储介质。
由持久存储装置408使用的介质也可以可去除。例如,可去除硬驱动可以用于持久存储装置408。其它示例包括光盘和磁盘、拇指驱动以及被插入到驱动中以用于向也是持久存储装置408的部分的另一计算机可读存储介质上传送的智能卡。
通信单元410在这些示例中提供与其它数据处理系统或者设备(包括服务器计算机102的资源)的通信。在这些示例中,通信单元410包括一个或者多个网络接口卡。通信单元410可以通过使用物理和无线通信链路中的任一种通信链路或者二者提供通信。可以通过通信单元410将聚合的调试数据集下载到持久存储装置408。
I/O接口412允许与可以连接到服务器计算机102的其它设备输入和输出数据。例如,I/O接口412可以提供与外部设备418(比如键盘、键区、触屏和/或一些其它适当输入设备)的连接。外部设备418也可以包括便携计算机可读存储介质,如比如拇指驱动、便携光盘或者磁盘和记忆卡。用来实现本发明的实施例的软件和数据可以存储于这样的便携计算机可读存储介质上并且可以经由I/O接口412被加载到持久存储装置408上。I/O接口412也连接到显示器420。
显示器420提供用于向用户显示数据的机制并且可以例如是计算机监视器。
基于这里描述的程序在本发明的一个具体实施例中被实施用于的应用来标识这些程序。然而,应当领会到仅为了方便而使用这里的任何特定程序命名,并且因此本发明不应限于仅在由这样的命名标识和/或暗示的任何具体应用中的使用。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (9)

1.一种用于确定在互连/控制器之间的故障的位置的方法,所述方法包括:
由第一系统控制器确定在服务器计算机中的错误,其中所述第一系统控制器耦合到第二系统控制器和所述服务器计算机的多个节点控制器,所述服务器计算机包括在分级架构中配置的多个服务处理器;
响应于确定在所述服务器计算机中的所述错误,由所述第一系统控制器确定应当由所述第二系统控制器和所述多个节点控制器二者中的多个控制器执行同时转储;
响应于确定应当执行所述同时转储,由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告;并且
由所述第一系统控制器接收由所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器执行的所述同时转储。
2.根据权利要求1所述的方法,其中由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告包括利用在所述服务器计算机中的可编程中断生成器以与所述多个系统控制器和所述多个节点控制器通信。
3.根据权利要求1所述的方法,其中由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告包括所述第一系统控制器在其上驻留所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器的以太网传送上广播所述错误。
4.根据权利要求1所述的方法,其中由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告包括利用在所述服务器计算机中的功能子系统接口以与所述多个系统控制器和所述多个节点控制器通信。
5.根据权利要求1所述的方法,其中由所述第一系统控制器确定应当由所述第二系统控制器和所述多个节点控制器二者中的多个控制器执行同时转储包括利用预定映射,所述映射定义对于其需要同时转储的场景。
6.一种用于确定在互连/控制器之间的故障的位置的计算机系统,所述计算机系统包括:
一个或者多个计算机处理器;
一个或者多个计算机可读存储介质;
在所述计算机可读存储介质上存储的用于由所述一个或者多个处理器中的至少一个处理器执行的程序指令,所述程序指令包括:
用于由第一系统控制器确定在服务器计算机中的错误的程序指令,其中所述第一系统控制器耦合到第二系统控制器和所述服务器计算机的多个节点控制器,所述服务器计算机包括在分级架构中配置的多个服务处理器;
用于响应于确定在所述服务器计算机中的所述错误,由所述第一系统控制器确定应当由所述第二系统控制器和所述多个节点控制器二者中的多个控制器执行同时转储的程序指令;
用于响应于确定应当执行所述同时转储,由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告的程序指令;并且
用于由所述第一系统控制器接收由所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器执行的所述同时转储的程序指令。
7.根据权利要求6所述的计算机系统,其中由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告包括用于利用在所述服务器计算机中的可编程中断生成器以与所述多个系统控制器和所述多个节点控制器通信的程序指令。
8.根据权利要求6所述的计算机系统,其中由所述第一系统控制器向所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器广播警告包括用于由所述第一系统控制器在其上驻留所述第二系统控制器和所述多个节点控制器二者中的所述多个控制器的以太网传送上广播所述错误的程序指令。
9.根据权利要求6所述的计算机系统,其中用于由所述第一系统控制器确定应当由所述第二系统控制器和所述多个节点控制器二者中的多个控制器执行同时转储的程序指令还包括用于利用预定映射的程序指令,所述映射定义对于其需要同时转储的场景。
CN201410534359.7A 2013-10-30 2014-10-11 用于确定在互连/控制器之间的故障的位置的方法和系统 Active CN104598341B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/066,722 US9256489B2 (en) 2013-10-30 2013-10-30 Synchronized debug information generation
US14/066,722 2013-10-30

Publications (2)

Publication Number Publication Date
CN104598341A CN104598341A (zh) 2015-05-06
CN104598341B true CN104598341B (zh) 2018-01-09

Family

ID=52996863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410534359.7A Active CN104598341B (zh) 2013-10-30 2014-10-11 用于确定在互连/控制器之间的故障的位置的方法和系统

Country Status (2)

Country Link
US (2) US9256489B2 (zh)
CN (1) CN104598341B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750605B (zh) * 2013-12-30 2018-08-14 伊姆西公司 将内核对象信息包括在用户转储中
US10346237B1 (en) * 2015-08-28 2019-07-09 EMC IP Holding Company LLC System and method to predict reliability of backup software
JP6576271B2 (ja) * 2016-03-07 2019-09-18 三菱電機株式会社 管理システム、管理装置、管理方法およびプログラム
US10338986B2 (en) 2016-10-28 2019-07-02 Microsoft Technology Licensing, Llc Systems and methods for correlating errors to processing steps and data records to facilitate understanding of errors
US10353802B2 (en) 2016-11-04 2019-07-16 International Business Machines Corporation Debugging a live streaming application
CN107168815B (zh) * 2017-05-19 2020-09-18 苏州浪潮智能科技有限公司 一种收集硬件错误信息的方法
US10613922B2 (en) * 2017-12-20 2020-04-07 International Business Machines Corporation Synchronously generating diagnostic data
JP7151637B2 (ja) * 2019-06-20 2022-10-12 富士通株式会社 情報処理装置、情報処理装置の制御方法及び情報処理装置の制御プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001011468A1 (en) * 1999-08-09 2001-02-15 Sun Microsystems, Inc. Diagnostic cagedmode for testing redundant system controllers
CN101535978A (zh) * 2006-11-10 2009-09-16 微软公司 分布式服务器系统中的消息转发备份管理器
US7743274B2 (en) * 2007-09-12 2010-06-22 International Business Machines Corporation Administering correlated error logs in a computer system
CN102201010A (zh) * 2011-06-23 2011-09-28 清华大学 无共享架构的分布式数据库系统及其实现方法
CN102497648A (zh) * 2011-12-02 2012-06-13 上海波顿无线传感技术有限公司 实现远程调试的装置及方法
CN102693166A (zh) * 2012-05-10 2012-09-26 华为技术有限公司 信息处理的方法、装置和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699505A (en) * 1994-08-08 1997-12-16 Unisys Corporation Method and system for automatically collecting diagnostic information from a computer system
US6857084B1 (en) 2001-08-06 2005-02-15 Lsi Logic Corporation Multiprocessor system and method for simultaneously placing all processors into debug mode
US7685575B1 (en) * 2004-06-08 2010-03-23 Sun Microsystems, Inc. Method and apparatus for analyzing an application
US7454657B2 (en) * 2004-09-02 2008-11-18 International Business Machines Corporation Method for self-diagnosing remote I/O enclosures with enhanced FRU callouts
US7523352B2 (en) * 2005-09-09 2009-04-21 International Business Machines Corporation System and method for examining remote systems and gathering debug data in real time
US7788520B2 (en) * 2007-09-14 2010-08-31 International Business Machines Corporation Administering a system dump on a redundant node controller in a computer system
JP5176837B2 (ja) * 2008-09-30 2013-04-03 富士通株式会社 情報処理システム及びその管理方法、制御プログラム並びに記録媒体
US8555105B2 (en) 2010-04-12 2013-10-08 International Business Machines Corporation Fallover policy management in high availability systems
US8381014B2 (en) 2010-05-06 2013-02-19 International Business Machines Corporation Node controller first failure error management for a distributed system
JP5370591B2 (ja) * 2010-09-01 2013-12-18 富士通株式会社 システムおよび障害処理方法
JP5532143B2 (ja) * 2010-11-12 2014-06-25 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
US8639984B2 (en) * 2011-08-09 2014-01-28 International Business Machines Corporation Checkpoint debugging using mirrored virtual machines

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001011468A1 (en) * 1999-08-09 2001-02-15 Sun Microsystems, Inc. Diagnostic cagedmode for testing redundant system controllers
CN101535978A (zh) * 2006-11-10 2009-09-16 微软公司 分布式服务器系统中的消息转发备份管理器
US7743274B2 (en) * 2007-09-12 2010-06-22 International Business Machines Corporation Administering correlated error logs in a computer system
CN102201010A (zh) * 2011-06-23 2011-09-28 清华大学 无共享架构的分布式数据库系统及其实现方法
CN102497648A (zh) * 2011-12-02 2012-06-13 上海波顿无线传感技术有限公司 实现远程调试的装置及方法
CN102693166A (zh) * 2012-05-10 2012-09-26 华为技术有限公司 信息处理的方法、装置和系统

Also Published As

Publication number Publication date
CN104598341A (zh) 2015-05-06
US20150121144A1 (en) 2015-04-30
US9436539B2 (en) 2016-09-06
US20150121145A1 (en) 2015-04-30
US9256489B2 (en) 2016-02-09

Similar Documents

Publication Publication Date Title
CN104598341B (zh) 用于确定在互连/控制器之间的故障的位置的方法和系统
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
CN104798349B (zh) 响应于端口故障的故障转移
CN105468484B (zh) 用于在存储系统中确定故障位置的方法和装置
US9479395B2 (en) Model framework to facilitate robust programming of distributed workflows
US8069370B1 (en) Fault identification of multi-host complex systems with timesliding window analysis in a time series
CN107431643A (zh) 监测存储集群元件
CN108833131A (zh) 分布式数据库云服务的系统、方法、设备和计算机存储介质
US9298553B2 (en) Methods, apparatus and system for selective duplication of subtasks
Reed et al. Reliability challenges in large systems
US10365946B2 (en) Clustering based process deviation detection
CN106796540A (zh) 用于分布式计算的主动故障恢复模型
US10467075B1 (en) Systems, devices and methods for predicting disk failure and minimizing data loss
TWI691852B (zh) 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品
CN104268061A (zh) 一种适用于虚拟机的存储状态监控机制
CN109508295B (zh) 区块链共识算法测试方法、装置、计算装置和存储介质
CN108900353A (zh) 故障告警方法及终端设备
CN107870832A (zh) 基于多维度健康诊断方法的多路径存储设备
US10055268B2 (en) Detecting high availability readiness of a distributed computing system
CN109542781B (zh) 区块链共识算法测试方法、装置、计算装置和存储介质
CN104750605A (zh) 将内核对象信息包括在用户转储中
KR101469179B1 (ko) 원자력 발전 시뮬레이터의 통신 진단 시스템
CN108287774A (zh) 一种服务器的故障诊断方法、装置、设备及存储介质
US10007583B2 (en) Generating a data structure to maintain error and connection information on components and use the data structure to determine an error correction operation
CN110532312A (zh) 一种基于大数据的工业互联云平台系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant