CN104956346A

CN104956346A - 控制由于分布式计算系统的计算节点中的故障而导致的错误传播

Info

Publication number: CN104956346A
Application number: CN201380071523.9A
Authority: CN
Inventors: 格雷格·B·莱萨日特; 达莱·C·莫里斯; 罗斯·W·赫里尔; 布莱纳·D·盖瑟
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2013-01-30
Filing date: 2013-01-30
Publication date: 2015-09-30
Anticipated expiration: 2033-01-30
Also published as: WO2014120148A1; US20150355961A1; TW201439746A; TWI519942B; BR112015018303A2; JP2016513309A; EP2951706A4; CN104956346B; US9990244B2; EP2951706A1; EP2951706B1

Abstract

一种技术，包括接收分布式计算机系统中的警报指示符，所述分布式计算机系统包括通过集群互连结构联接在一起的多个计算节点。所述警报指示符指示在所述多个计算节点中的第一计算节点中检测到故障。所述技术响应于所述警报指示符，指示对所述第一计算节点与其它计算节点中的至少一个其它计算节点之间的通信进行调节，以抑制由于所述第一计算节点内的所述故障而导致的错误传播。

Description

控制由于分布式计算系统的计算节点中的故障而导致的错误传播

背景技术

计算机系统传统上既包含易失性存储器设备，也包含非易失性存储器设备。以这种方式，由于易失性存储器设备的相对更快的存取时间，诸如动态随机存取存储器(DRAM)设备的易失性存储器设备通常被用于形成计算机系统的工作存储器。为了在系统断电时保存计算机系统数据，数据可以被存储在与较慢存取时间关联的非易失性大容量存储设备中，例如基于大容量存储设备的磁介质或光介质中。

相对高密度的固态持久性存储器技术的发展正在缩小两种技术之间的差距，且正因为如此，充当传统的“记忆”和“存储”二者功能的持久性、可按字节寻址的“存储器”使用的量正在不断增加。由于越来越多的使用这种存储器，分布式计算系统有望变得越来越普遍。在分布式计算系统下，典型地，计算节点为了共享或共用节点的记忆和存储资源而以集群结构(例如网络结构)联接在一起。

附图说明

图1是根据示例实施方式的分布式计算系统的示意图。

图2是根据示例实施方式描绘用于控制由于计算节点故障而导致的分布式计算系统中的错误传播的技术的流程图。

图3和图4是根据示例实施方式描绘用于控制由于计算节点故障而导致的分布式计算系统中的错误传播的技术的流程图。

图5是根据示例实施方式的分布式计算系统的更详细的示意图。

图6是根据示例实施方式描绘用于使用内部节点通信来控制由于计算节点故障而导致的分布式计算系统中的错误传播的技术的流程图。

图7是根据示例实现方式描绘用于控制由于计算节点故障而导致的分布式计算系统中的错误传播、同时允许对该节点进行故障分析的技术的流程图。

具体实施方式

参见图1，示例性分布式计算系统100包括N个计算节点110(作为示例在图1中描绘了计算节点110-1、110-2、…110-N)。通常，计算节点110包括可以形成该节点110的本地资源的资源，以及在多个计算节点110间共享或共用的资源。以这种方式，分布式计算系统100可以包括在计算节点110的不同组间共享的内存池和输入/输出(I/O)资源。

作为一个更具体的例子，计算节点110-1可以包括可以由计算节点110-1使用、也可以由其它计算节点110访问的I/O适配器112。以这种方式，I/O适配器112可以是可被用于访问一个或多个大容量存储设备140(可以是计算节点110-1的一部分或与计算机节点110-1分离)的基于小型计算机系统接口(SCSI)的适配器、光纤通道适配器或其他I/O适配器。计算节点110-1可以进一步包括存储器设备(例如，动态随机存取存储器(DRAM)设备和/或固态存储器设备)，该存储器设备可以形成计算节点110-1的本地存储器114，以及由其它计算节点110共享的共用存储器120。分布式计算系统100的其它计算节点110可以具有相似的本地和/或共用的资源。

为了访问共用资源，计算节点110可以在本文中被称为“集群互连结构130”的系统结构上进行通信。作为示例，如本领域技术人员可以理解地，集群互连结构130可以包括基于互联网的连接结构、基于局域网(LAN)连接的结构、基于广域网(WAN)连接的结构等等。

在其正常操作过程中，诸如计算节点110-1的给定计算节点110可能会经历硬件或软件错误，这导致计算节点110-1的域中发生故障。故障可能由于硬件故障(I/O适配器112故障、网络接口故障、存储器设备故障等等)以及由于系统固件中的编程错误、操作系统错误等等的软件故障而发生。不管故障的来源，当发生这样的故障时，计算节点110-1可能具有可能被损坏了的或因计算节点110-1的进一步操作而被损坏了的资源(例如，存储器内容)。

一种处理发生在给定计算节点中的故障的方法是，将该计算节点完全隔离，使得错误不传播到节点的外部并且不影响其它计算实体。例如，一种方法可以是关掉经历故障的计算节点，使得该节点为了纠正故障的原因和防止其它计算实体被损坏而脱机。尽管传统上，特定计算实体的故障域驻留在实体自身内，使得由于此故障导致的错误不传播到实体的外部，但是与传统不同，分布式计算系统100具有在其计算节点110间共享的共用I/O和存储资源。

因此，例如当计算节点110-1经历故障时，一个或多个其它计算节点110可能由于位于节点110-1上的共用的资源而被直接影响。此外，计算节点110-1从分布式计算系统100的其它计算节点110访问诸如I/O适配器112、共用存储器120之类的计算节点110-1外部的共用的资源。因此，有效故障域延伸到发生故障的计算节点110-1的外部并进入分布式计算系统100的其它区域。

本文公开的技术和系统的目的在于，控制由于发生在分布式计算系统100的计算节点110中的故障而导致的错误的传播。继续用计算节点110-1作为示例，假定发生与计算节点110-1有关的故障，那么根据示例实施方式，计算节点110-1产生警报指示符124。随后，为了限制计算节点110-1中的错误(由于计算节点110-1发生的故障而出现)，此警报指示符124被用于触发分布式计算系统100的一个或多个部件的动作的目的。

更具体地，根据示例实施方式，警报指示符124被分布式计算系统100的其余部分150接收，使得其余部分150可以采取合适的动作来抑制计算节点110-1中的错误。需要注意的是，如本领域技术人员可以理解地，由计算节点110-1使用的、用于检测故障的具体技术可以是若干故障检测技术中的一个技术。

结合图1参见图2，作为更具体的示例，根据一些实施方式，可以为了抑制其中共享资源的分布式计算系统中的错误传播而使用技术200。根据技术200，警报指示符被接收(框202)，这表示分布式计算系统的计算节点检测到了故障。响应于此警报指示符，根据框204，与该计算节点的通信受到调节，以控制由于故障而导致的错误传播。

作为更具体的示例，结合图1参见图3，根据一些实施方式，为了控制由于发生在给定计算节点中的故障而导致的错误的传播，技术300可以被分布式计算系统100的集群互连结构130使用。根据技术300，警报指示符被接收(框302)，这表示计算节点(本文被称为“受影响的计算节点”)检测到了故障。响应于警报指示符，集群互连结构130被用于(框304)选择性地限制其它计算节点可能与受影响的计算节点进行的操作。

以这种方式，根据示例实现方式，当特定计算节点110遭受故障时，从受影响的计算节点110向外的I/O通信被暂停，以防止进入节点110的I/O通信或节点110正在进行的I/O通信读取受影响的节点110的损坏的存储内容和将该损坏的存储内容传送给不知道该损坏的、节点110外部的另一设备。因此，根据一些实施方式，集群互连结构130将结构130上的交易制约或限制为针对停止或暂停与受影响的计算节点110交易的当前I/O的交易。

根据示例实施方式，经历故障的、受影响的计算节点110可以向被提供给受影响的节点110的所有远程I/O适配器传送这种命令以停止或暂停I/O交易，并且因此，集群互连结构130允许这些命令被传送。在进一步的示例实施方式中，在收到警报指示符124时，集群互连结构130可代表经历故障的、受影响的计算节点110而向被提供给受影响的节点110的所有远程I/O适配器立即传送这种命令以停止或暂停I/O交易。因此，考虑了许多变体，这些变体在所附权利要求的范围之内。

如本文进一步公开的，除了允许受影响的计算节点110传送命令以停止或暂停I/O交易之外，根据下面描述的进一步的实施方式，为了允许利用缓存的数据执行故障分析，集群互连结构进一步许可经历故障的计算节点110将缓存数据传送给一个或多个其它计算节点110。

在计算节点已经指示它已经遭受了故障后，结构130可以随之否认该计算节点可能试图进行的一些类型的访问。例如，计算节点可能不会被允许在其缓存中将远程存储器的新的部分放入缓存(encache)，或仅可以将执行数据收集序列所必需的位置放入缓存。计算节点可能不会被允许将额外的存储器和/或I/O资源提供给自己。此外，计算节点可能不会被允许将除了停止命令之外的命令发送给远程I/O适配器。

结合图1参见图4，根据进一步的实施方式，为了控制来自于经历故障的、受影响的计算节点110的错误传播，集群互连结构130可以被用来采取另外和/或附加的步骤。以这种方式，根据技术400，从经历故障的计算节点110接收(框402)警报指示符，该警报指示符指示该节点经历了故障。响应于此警报指示符，技术400包括利用(框404)诸如集群互连结构130的系统结构来将标签添加到由受影响的计算节点发起的每个包中，以表示来自该节点的数据的“可疑状态”。换句话说，受故障影响的节点以外的给定计算节点110接收包，此包包含指示可能的“可疑状态”的指示符(或“标签”)，然后，由于源节点已经被识别为经历了故障的一个节点，因此接收计算节点谨慎地处理该包。根据示例实施方式，标签被添加到包的头部中以由给定的字段(例如，给定的比特字段)指示。

图5根据进一步的实施方式描绘了分布式计算系统499的更详细的表示。对于此实施方式，分布式计算系统499包括形成N个相应计算节点110-1到110-N的物理机500(图5中描绘了N个物理机500-1、500-2、500-3…500-N作为示例)。物理机500是由真实硬件和软件组成的真实机器。

在这方面，如物理机500-1(对此示例来说，形成计算节点110-1)所图示的，物理机500-1包括机器可执行指令504，当被一个或多个中央处理单元(CPU)526执行时，致使一个或多个CPU 526形成操作系统506、一个或多个应用程序508、故障检测器514、一个或多个设备驱动器510等等。例如，应用程序中的一个应用程序可以是故障分析应用程序。CPU 526只是物理机500的硬件520的一个示例。在这方面，物理机500可以包括I/O适配器521、网络接口528和各种存储设备524。

一般来说，根据特定的实施方式，存储设备524可以是诸如半导体存储设备、基于磁性的存储设备、光存储设备、可移动介质之类的非瞬态存储设备。

还是如图5所描绘的，为了路由计算节点110之间的通信，集群互连结构130可以包括诸如网关、路由器、交换机之类的各种部件。图5示出示例部件550(例如，交换机、网关或附接点)，部件550可以包括一个或多个处理器552以及存储器554，存储器554存储指令，该指令在由处理器552执行时，可以引起处理器552为了控制来自经历故障的计算节点110的错误传播和允许为了故障分析目的而访问节点110，而执行本文公开的、代表结构130的一个或多个技术。

考虑了其它变体，这些变体在所附权利要求的范围之内。例如，根据进一步的实施方式，为了使用除结构130之外的分布式计算系统的一个或多个部件，可以使用图6中描绘的技术600，结构130为了控制来自经历故障的节点的错误的传播。以这种方式，根据技术600的框602，接收(框602)表示检测到计算节点中的故障的警报指示符。根据框604，响应于警报指示符，一个或多个消息被传送(框604)至一个或多个其它计算节点以警告一个或多个节点检测到的故障。例如，根据一些实施方式，经历故障的、受影响的计算节点可以产生消息并将消息传送至其它计算节点。在进一步的实施方式中，除了经历故障的计算节点，另一计算节点可以执行此任务，并且在进一步的实施方式中，系统结构可以传送这种消息。一旦给定计算节点收到这种消息，为了处理这些交易，该节点可以将与受影响的计算节点的所有将来的交易标记为“可疑”。

当给定计算节点遭受故障时，该计算节点可以具有在其处理器缓存中的状态，该处理器缓存对应于提供给该计算节点的远程存储器，并且该计算节点可以具有本地存储器。此缓存数据的状态，以及计算节点的本地存储器的状态，可以被保存以用于分析故障。需要注意的是，为了此目的，考虑到该数据被标记为数据被损坏的指示，该数据可能对其它计算节点来说成为可见的。

对于缓存在计算节点缓存中的回写数据，在检测到故障后，计算节点可能试图清空其缓存。尽管这通常会涉及将被修改了的缓存线回写到远程存储器中，但是已经获知故障的互连结构130可以自动地将这些回写交易标记为这些交易中的数据可能损坏的指示。例如，这些被标记的回写交易可以被存储在远程存储器中。例如，根据特定实施方式，交易的标记可以由经历故障的计算节点进行，也可以由系统结构进行。在随后的分析中，可以使用已经被提供给经历故障的计算节点的远程存储器，且可能损坏的指示可能在识别远程存储器的区域的数据中特别有用，该数据在故障时缓存在计算节点中，且因此很可能在故障前已经被新近引用。

对于经历故障的计算节点的本地存储器，计算节点(或代表计算节点的系统结构130)可以启动其本地存储器到节点外部的持久场所的复制操作。为此，诸如集群互连结构130的系统结构可以被指令来分配一定量未使用的远程存储器以为此分析目的而储存数据，或者，存在仅为该目的而保留的远程存储器的专用端口。此外，集群互连结构130可以分配这些远程存储器的专用端口中的一个或多个。在进行本地存储器的向外复制时，结构130可以确保向外复制针对专门分配的远程存储器，从而不允许计算节点向外复制到另一个正在使用的存储器，甚至是已经被提供给该节点的存储器。为了帮助分析故障，集群互连结构130可以进一步提供某种本地存储器已经在哪里被记录的指示。

因此，参见图7，根据一些实施方式，技术700包括接收(框702)表示检测到计算节点中的故障的警报指示符，以及在允许与至少一个其它计算节点通信以执行故障分析的同时，控制(框704)从计算节点的错误的传播。

根据一些实现方式，缓存数据的回写可以可替代地针对用于记录的分配的远程存储器，而不是针对为此目的而指派的原始远程存储器。此外，结构130可以代表计算节点进行此重定向，从而不依赖计算节点的能力，以在不损坏一些其它系统的情况下，正确地创建故障日志。将远程存储器的“记录”用于计算节点中的状态的故障后保存还可以具有以下优点，即允许在故障的计算节点新近将数据放入缓存之前，分析什么在远程存储器中，以及在故障的时刻，处在计算节点的缓存中的相应状态。此外，将分离的远程存储器的“记录”用于状态的故障后保存可以简化故障后哪个保留状态是可疑的状态的指示。

尽管本文已经公开了数量有限的示例，但是从本公开获益的本领域技术人员将从本公开领会到许多变型和变体。意图是所附权利要求覆盖所有这样的变型和变体。

Claims

1.一种方法，包括：

接收分布式计算机系统中的警报指示符，所述分布式计算机系统包括通过集群互连结构联接在一起的多个计算节点，所述警报指示符指示在所述多个计算节点中的第一计算节点中检测到故障；以及

响应于所述警报指示符，调节所述第一计算节点和其它计算节点中的至少一个其它计算节点之间的通信，以控制由于所述第一计算节点内的所述故障而导致的错误传播。

2.根据权利要求1所述的方法，其中调节所述通信包括：利用将所述第一计算节点联接到所述其它计算节点的系统结构，选择性地限制与所述第一计算节点进行的操作。

3.根据权利要求2所述的方法，其中调节所述通信包括：防止所述至少一个其它计算节点和所述第一计算节点之间进行的、除了针对暂停所述第一计算节点的输入/输出操作的操作之外的操作。

4.根据权利要求1所述的方法，其中调节所述通信包括：利用将所述第一计算节点联接到所述其它计算节点的系统结构，将标签添加到通过所述第一计算节点传送的包中，以表示与所述包关联的可疑状态。

5.根据权利要求1所述的方法，其中接收所述警报指示符包括：接收从所述第一计算节点到所述其它计算节点中的至少一个计算节点的至少一条消息，以警告所述至少一个其它计算节点所检测到的故障。

6.根据权利要求1所述的方法，其中调节所述通信包括：将所述第一计算节点中缓存的数据传送到所述系统的存储器，所述系统的存储器专用于检测到故障的计算节点的数据存储。

7.根据权利要求1所述的方法，进一步包括：

利用与所述第一计算节点的所述通信来执行所述第一计算节点上的故障分析。

8.一种装置，包括：

接口，用于从通过集群互连结构联接在一起的多个计算节点中的第一计算节点接收警报指示符，以指示在所述多个计算节点中的第一计算节点中检测到故障；以及

所述集群互连结构的部件，所述部件用于响应于所述警报指示符，调节所述第一计算节点与其它计算节点中的至少一个其它计算节点之间的通信，以抑制由于所述第一计算节点内的所述故障而导致的错误传播以及允许通过所述至少一个其它计算节点进行所述第一计算节点的故障分析。

9.根据权利要求8所述的装置，其中所述部件包括交换机、网关或附接点。

10.根据权利要求8所述的装置，其中所述部件适于响应于所述警报指示符，选择性地限制与所述第一计算节点进行的操作。

11.根据权利要求8所述的装置，其中所述部件适于将指示符添加到由所述第一计算节点发起的消息中，以表示与所述消息关联的可疑状态。

12.根据权利要求8所述的装置，其中所述部件适于在所述故障检测后允许所述第一计算节点执行至少一个回写操作，以将在所述故障检测之前存储在所述第一计算节点中的缓存数据写到所述系统的存储器，所述系统的存储器不是所述第一计算节点的一部分。

13.一种包括用于存储指令的非瞬态计算机可读存储介质的制品，所述指令在由基于处理器的系统执行时，引起所述基于处理器的系统：

响应于所述警报指示符，调节所述第一计算节点和其它计算节点中的至少一个其它计算节点之间的通信，以抑制由于所述第一计算节点内的所述故障而导致的错误传播。

14.根据权利要求13所述的制品，其中所述基于处理器的系统被设置在所述结构和所述至少一个其它计算节点之一中。

15.根据权利要求13所述的制品，所述存储介质存储指令，所述指令在由所述基于处理器的系统执行时，引起所述基于处理器的系统允许通过所述至少一个其它计算节点对所述第一计算节点进行故障分析。