CN104509033B

CN104509033B - 分布式网络中的共享保活和故障检测机制

Info

Publication number: CN104509033B
Application number: CN201280073493.0A
Authority: CN
Inventors: 蔡学军
Original assignee: Ericsson China Communications Co Ltd
Current assignee: Ericsson China Communications Co Ltd
Priority date: 2012-03-27
Filing date: 2012-03-27
Publication date: 2018-03-13
Anticipated expiration: 2032-03-27
Also published as: CN104509033A; US20150138948A1; US9338050B2; EP2832042A1; WO2013143065A1; EP2832042A4

Abstract

本文描述了用于检测结构化网络中失效节点的节点、计算机可读介质和方法。该方法包含：向主动组或被动组指配相邻集合的节点，其中相邻集合的节点连接到当前节点；命令主动组中的主动节点向当前节点发送保活查询，其中由当前节点控制用于从主动节点向当前节点发送保活查询的定时；命令被动节点侦听来自当前节点的保活查询，并用保活查询响应向当前节点答复；将当前节点配置成用保活查询响应向主动节点答复；以及基于(i)从被动节点接收的保活查询响应和(ii)由主动节点发送的保活查询确定失效节点。当前节点配置成不向主动节点发送保活查询，并且被动节点配置成不向当前节点发送保活查询。

Description

分布式网络中的共享保活和故障检测机制

技术领域

本发明一般涉及与分布式网络中的保活和故障检测机制相关的系统、软件和方法，并且更具体地说，涉及用于有效检测分布式网络中失效节点的机制和技术。

背景技术

分布式网络今天被用在各种上下文中，例如用于文件共享或IP语音。分布式网络包含网格、云、分布式数据库和对等(P2P)系统。它们演示了以灵活方式的分散式和自组织资源定位和使用的能力。

如图1所示，分布式网络100包含与其它节点互连的高数量的节点102(与常规客户端-服务器网络相比)。为了实现一致性并向节点提供所设计的应用或服务，通常节点、链路和/或资源(应用或服务)的可用性有必要对其它节点已知。从而，在此类分布式系统中，节点、链路和/或资源的可用性当前由一些保活(心跳)机制提供，在这些机制中在节点之间定期交换短消息以检测节点或链路的故障/可用性。

换句话说，节点104向邻居节点108发送保活消息106。如果在节点104未从节点108接收到答复，则节点104假定节点108停机(已经失效)。这对于网络100的每个节点102都是正确的，即，网络的每个节点都不断地探测它连接到的其它节点。重要特性并且也是在分布式网络中使用保活机制的主要原因是：保活机制主动地允许在基础应用或服务需要这些节点和连接之前检测节点或连接停止。

为了增强节点和/或服务的可用性并尽可能快速地检测故障，需要在现有分布式网络中以高频率交换保活消息。然而，在强互连的大规模分布式网络中，保活机制引入了节点之间的大量信令和通信开销，并且从而，限制了网络的可缩放性。因此，存在对于用于不断增大的分布式系统的有效保活和故障检测机制的需要。

现在讨论现有机制的几个限制。在当前分布式网络中使用的一个机制是如A.Rowstron和P. Druschel的“Pastry: Scalable, distributed object location androuting for large-scale peer-to-peer systems”(IF IP/ACM Middleware, 2001)和Mahajan等人的“Controlling the Cost of Reliability in P2P Overlays”(Proc. IPTP S2003)所描述的基本保活(BK)机制。在此机制中，通过网络从一个节点104向每个邻居节点108、110、112、114和116发送保活查询，并且每个邻居节点108、110、112、114和116向查询节点104发送回保活答复消息。当保活答复消息到达时，查询节点104知道另一节点仍存活并且链路在起作用。在两个方向每k秒定期发起保活消息传送，并且k称为保活间隔。直接连接到节点x(104)的节点(108、110、112、114和116)的集合称为节点x的邻域集合(N(x))。

用BK机制，每个节点独立于系统中的所有其它节点而管理。例如，都连接到第三节点108的两个节点104和120不共享有关它们公共节点108的任何信息，因此保活任务必须执行两次，一次由节点104并且一次由节点120，以便确定节点108是存活的。这将导致两个保活消息每k秒从节点104和120到达节点108。当然，节点108可连接到也发送保活消息的其它节点，从而进一步增大由节点108接收的消息量。

虽然BK机制直观并且容易实现，但系统大小或互连程度的增大引入了大量传统保活信令业务，这使分布式系统的性能降级。

为了解决基本保活机制的这个限制，Dedinski等人("Cooperative Keep-Alives:An Efficient Outage Detection Algorithm for P2P Overlay Networks," Peer-to-Peer Computing, 2007)已经提出了合作保活(CK)机制。在此机制中，来自目标节点的邻域集合的所有节点都向目标节点连续发送保活请求，并且目标节点配置成对来自邻域集合的节点答复以确保目标节点仍然存活。请求以某一频率发送，由目标节点控制。目标节点的目的是确保所有进来的保活请求的频率都接近期望的恒定间隔k，独立于其邻域集合的(通常改变的)大小。

这是通过在系统中的每个节点运行两个任务——发送方任务和接收方任务达成的。因为网络中的每个节点都运行这两个任务，因此系统是对称的，即，没有客户端或服务器角色。在给定节点的发送方任务的主要功能是在预先设置的时间向给定节点的邻域中的节点的接收方任务发送保活请求，并处理答复。发送方任务具有存储发送时间的时间表，称为发送方进度表。从来自那个邻居节点的最后保活答复中提取用于向具体邻居节点发送下一请求的时间。如果给定节点的发送方任务向另一节点发送请求并且给定节点未从另一节点接收到答复，则该请求最多被重复r次，其中r是预先定义的重试计数。在r次重试后，给定节点的发送方任务检测到另一节点的停止，并通过顺序泛洪技术向另一节点的所有邻居广播此信息。

尽管以上机制与基本保活机制相比减少了在节点之间交换的保活消息量，但它仍具有如下缺点。第一，保活消息是单向的，即，给定节点的邻居需要主动地发送请求消息以检索所有其邻居的状态。

第二，在节点失效之后，给定(检测)节点向失效节点的所有已知邻居节点发送保活信息。然而，当发送出此类信息时，有可能给定节点不能直接与失效节点的所有已知邻居节点通信。在此情况下，这些节点未接收到故障信息，并且仅能由它们自己检测失效节点，这需要另外的消息。从而，根据此机制，那些节点将花更长时间检测失效节点。此类问题未被以上机制考虑，也未被解决。

从而，存在开发减少大规模分布式网络或系统中故障检测时间和信令成本并且同时维持基本保活机制的有效性和可靠性的新的且有效的保活和故障检测机制的需要。

发明内容

在分布式网络中具有一个或多个失效节点的可能性是有可能的。从而，存在具有能以比现有机制有效且更快速的方式检测故障节点的适当机制(例如方法)的需要。在一个示范实施例中，网络节点被划分为被动节点（passive node）和主动节点（active node）。当前节点探测被动节点，但不探测主动节点。当检测到失效节点时，当前节点告知邻居失效节点，而且还追踪邻居节点是否可达到。使用后面所讨论的备选布置告知不可达到的邻居节点。

根据一个示范实施例，存在用于检测结构化网络中失效节点的方法。该方法包含向主动组或被动组指配相邻集合的节点的步骤。相邻集合的节点连接到当前节点。该方法进一步包含命令主动组中的主动节点向当前节点发送保活查询的步骤和命令被动节点侦听来自当前节点的保活查询并用保活查询响应向当前节点答复的步骤。该方法还包含将当前节点配置成用保活查询响应向主动节点答复的步骤。当前节点基于(i)从被动节点接收的保活查询响应和(ii)由主动节点发送的保活查询确定失效节点。当前节点配置成不向主动节点发送保活查询，并且被动节点配置成不向当前节点发送保活查询。

根据另一个示范实施例，存在配置成检测结构化网络中失效节点的节点。该节点包含配置成向主动组或被动组指配相邻集合的节点的处理器。相邻集合的节点连接到当前节点。节点还包含接口，该接口配置成从主动节点接收保活查询，并向被动节点发送保活查询，并从被动节点接收保活查询响应。接口还响应于保活查询向主动节点发送保活查询响应。处理器基于(i)从被动节点接收的保活查询响应和(ii)由主动节点发送的保活查询确定失效节点。当前节点配置成不向主动节点发送保活查询。

根据又一个示范实施例，存在包含计算机可执行指令的计算机可读介质，其中所述指令当由处理器执行时实现上面提到的方法。

从而，目的是克服以上部分中讨论的缺陷中的一些，并且提供以较少消息交换确定失效节点并且还以更安全方式告知邻居节点失效节点的机制。一个或多个独立权利要求有利地提供了用于确定失效节点的此类机制。

缩写列表

BK基本保活

CK合作保活

NST邻居集合表

ANL主动邻居列表

PNL被动邻居列表

KQ保活查询

KQR保活查询响应

KN保活通知

KNR保活通知响应

KNF保活通知转发

TCP传输控制协议

UDP用户数据报协议。

附图说明

并入说明书并构成其一部分的附图图示了一个或多个实施例，并且与说明书一起说明这些实施例。在附图中：

图1是具有多个节点的通信网络的示意图；

图2是根据示范实施例具有故障检测机制的当前节点及其邻居节点的示意图；

图3是图示根据示范实施例如何在被动节点与主动节点之间交换保活消息的示意图；

图4是图示根据示范实施例的保活查询消息格式的示意图；

图5是根据示范实施例的保活查询响应消息格式的示意图；

图6是根据示范实施例的保活通知消息格式的示意图；

图7是根据示范实施例的保活通知响应消息格式的示意图；

图8是根据示范实施例的保活通知转发消息格式的示意图；

图9是图示根据示范实施例在节点之间发生的检测失效节点的各种步骤的示意图；

图10是根据示范实施例用于确定失效节点的方法的流程图；以及

图11是根据示范实施例实现用于检测失效节点的方法的节点的示意图。

具体实施方式

示范实施例的如下描述参考附图。不同附图中的相同附图标记标识相同或类似元素。如下详细描述不限制本发明。而是，本发明的范围由所附权利要求书定义。为了简化，如下实施例相对于分布式协议(例如P2P Chord)建立成使得任何节点都知道其邻居节点的分布式网络的术语和结构进行讨论。然而，新颖实施例不限于给定分布式协议，而是可应用于其它类型的基础协议。

在说明书通篇提到“一个实施例”或“实施例”是指结合一实施例描述的具体特征、结构或特性包含在本发明的至少一个实施例中。从而，在说明书通篇各处出现的短语“在一个实施例中”或“在实施例中”不一定全都指的是同一实施例。进一步说，具体特征、结构或特性可以任何适合的方式组合在一个或多个实施例中。

根据示范实施例，存在用于检测结构化网络中失效节点的方法。该方法向主动组或被动组指配当前节点的相邻节点。命令来自主动组的节点向当前节点发送保活查询，并命令来自被动组的节点侦听来自当前节点的保活查询，并用保活查询响应向当前节点答复。当前节点配置成用保活查询响应向主动节点答复，并基于(i)从被动节点接收的保活查询响应和(ii)由主动节点发送的保活查询确定失效节点。当前节点配置成不向主动节点发送保活查询以减少业务，并且被动节点配置成不向当前节点发送保活查询以进一步减少业务。

现在相对于图2更详细说明这个新颖机制。分布式网络200具有N个节点，其中每个节点连接到网络中的一些其它节点。图2为了简化仅示出了少数节点202、206、208、210、212、214、222、224和226。当前节点202直接链接到节点206、208、210、212和214。这些节点206、208、210、212和214是节点202的邻居节点。它们形成节点202的邻居集合(NS)。邻居集合被标示为N(x)或204。类似地，节点212具有邻居节点202、222和224，并且这些节点形成节点212的邻居集合N(Z)220。网络中的所有其它节点由通用元素226表示。

邻居集合204中的节点206、208、210、212和214被指配给主动组216(其包含主动节点206、208和210)和被动组218(其包含被动节点212和214)。在下文假定，节点之间的邻域关系已经由基础覆盖协议(例如P2P Chord或其它分布式协议)建立。换句话说，当前节点知道其邻居节点，并且当前节点可与邻居节点通信，并且节点的基本信息(例如ID和IP地址)已经被交换。当节点加入或离开网络时，其邻居节点将基于现有协议更新它们的邻居集合204和相关参数。

适当地用此结构，在当前节点202的邻居集合204的节点之间共享保活信息，即，在现有机制中邻居集合204中的每个节点都不需要与当前节点202定期交换保活消息。而是，根据此新颖方法，邻居集合204中的节点被视为同一组的一部分，并且此组仅需要在固定间隔(例如预定时间间隔)与当前节点202交换保活消息。

换句话说，邻居集合204的节点206、208、210、212和214按预定顺序与当前节点202交换保活消息，即，节点206首先与当前节点202交换保活消息，在预定时间间隔之后，节点208与当前节点202交换保活消息，依此类推。进一步说，如后面将讨论的，并不是邻居集合204中的所有节点都向当前节点202发送保活消息，而是仅主动节点发送。如果邻居集合204中的邻居节点(例如节点208)已经检测到当前节点202的故障，则节点208将与邻居集合204中的所有其它节点共享此信息。

此外，为了进一步减少故障检测时间，在例如在图3中所示的两个节点之间双向共享保活信息。图3示出了具有两个邻居206和212的节点202，其中节点206是主动节点，而节点212是被动节点。这意味着，节点206向节点202发送保活查询230A，而节点202用保活查询响应230B向节点206答复。然而，节点202不向节点206发送保活查询。

类似地，因为节点202是被动节点212的主动节点，因此仅节点202向被动节点212发送保活查询232A，并且仅被动节点212向节点202发送回保活查询响应232B。换句话说，当节点202不向主动节点206发送保活查询并且被动节点212不向节点202发送保活查询时，这些节点之间的业务减少。从而，节点212通过检查它在预计时间之前是否已经从节点202接收到保活消息232A来检测节点202的故障。如果否，则节点212将假定节点202已经失效，并且保活消息被发送到节点202以主动确认节点202已经永久失效。

对于节点202确定节点206是否已经失效同样正确。换句话说，主动节点206通过定期发送保活查询消息230A来检测节点202的状态。如果主动节点206未从节点202接收到响应，则主动节点206将认为节点202已经失效，并将向节点202发送那个效果的确认消息。被动节点202将通过检查在预计时间期间是否从节点206接收到保活查询消息230A来检测主动节点206的状态。如果在预计时间以前节点202未从节点206接收到查询消息，则节点202将认为节点206已经失效，并将向节点206发送那个效果的消息。

为了实现这个新颖机制，根据示范实施例，每个节点需要保持两个列表：主动邻居列表(ANL)和被动邻居列表(PNL)。ANL配置成包含当前节点的主动邻居，而PNL配置成包含当前节点的被动邻居。主动角色和被动角色是对称的。例如，如果节点202是节点212的主动节点，则节点212是节点202的被动节点。此外，一个节点可同时作为主动邻居和被动邻居工作，例如图3中的节点202。然而，给定某一邻居，节点的角色是唯一的，例如，节点202是节点212的主动节点。

如上面所提到的，如果图2中的邻居集合220中的当前节点202已经检测到节点212的故障，则节点202应该向邻居集合220中的所有其它节点222和224通知节点212的故障。然而，在真实的分布式系统中，有可能节点202可能不能够直接与邻居集合220中的所有其它节点通信。换句话说，节点222和224之一可能是节点202不可达到的。

因此，与失效节点212相关的故障信息可能不与失效节点212的一些邻居节点共享。根据另一示范实施例，当前(检测)节点202配置成要求邻居集合220中的其它可达到的邻居节点向那些不可达到节点转发此类故障信息。例如，仍相对于图2，考虑当前节点202可直接到达节点222但不到达节点224。然后，当故障信息发送给它时，当前节点202追踪到未从节点224接收到响应，并且从而，当前节点202向邻居集合220中的其它可达到节点(222)发送含有不可达到节点224的ID和其它信息的消息。可达到节点222然后向不可达到节点224转发与失效节点212相关的故障信息。

用所提出的新颖机制，可迅速检测到节点故障，同时信令开销大大下降。从而，与现有机制相比，改进了分布式系统的总体性能。现在更详细地讨论上面讨论的新颖机制。

邻居集合表(NST)可自动保持在每个节点中，以将其邻居节点的信息存储在分布式系统中。在NST中，对于每个邻居节点都存在包含如下字段的条目：节点ID、IP地址和邻居列表。节点ID用于唯一表示分布式覆盖网络中的节点，例如在P2P网络中，ID是节点的对等ID。IP地址用于在节点之间传送消息，包含保活消息。邻居列表含有由当前条目的节点ID表示的节点的节点邻居集合。在当前节点检测到其邻居节点之一的故障时，它将通知邻居列表那个邻居节点。

表1示出了节点212的NST的示例。从该表中可以看到，节点212的邻居节点包含节点202、222和224。节点202的IP地址是"192.168.0.100"，而节点202的邻居包含节点206、208、210、212和214。节点222的IP地址是"192.168.0.200"，而节点222的邻居包含节点c和d，依此类推。

表1：节点212的样品邻居集合表

节点ID	IP地址	邻居列表
			202	192.168.0.100	(206,208,210,212,214)
222	192.168.0.200	(c,d)
			224	192.168.0.105	(e,f,g)

当邻居节点加入或离开网络时，应该动态构造和更新NST表。

除了NST之外，节点应该包含ANL和PNL。如上面所提到的，当与其邻居交换保活消息时，每个节点可作为主动邻居或被动邻居工作。ANL含有作为主动邻居工作的当前节点的邻居，而PNL含有作为被动邻居工作的当前节点的邻居。当前节点的ANL将每个主动邻居与一个节点ID和一个预计定时器关联。预计定时器指示那个主动邻居应该向当前节点发送保活查询消息的时间。预计定时器可由当前节点控制。当前节点的PNL将每个被动邻居与一个节点ID和一个发送定时器关联。发送定时器指示当前节点应该向那个被动节点发送保活查询消息的时间。

从而，ANL可用于确保由主动节点以固定间隔检查当前节点的状态，并且PNL可用于通过向它们发送保活查询消息来检查被动节点的状态。

在一个示范实施例中，ANL和PNL一起用于确定当前节点的状态。ANL中的邻居节点将以预先定义的时间间隔向当前节点发送保活查询消息。如果未从当前节点接收到响应，则主动邻居节点将认为当前节点可能已经失效并且可开始确认当前节点已经失效的重试机制。

PNL中的被动节点通过检查它们在预计定时器期满之前是否接收到保活查询消息来确定当前节点的状态。如果被动邻居节点在预计定时器之前的确从当前节点接收到了保活查询消息，则被动节点将得出结论：当前节点仍存活；否则，它们将得出结论：当前节点不可达到，并且它们可启动重试机制来确定当前节点是否已经失效。因此，能以这两种方式用更短的检测时间检测到当前节点的故障。

每个节点可自动保持NST、ANL和PNL。当节点加入网络时，所有其邻居节点都将把该节点添加到它们的NST、ANL和PNL中。当节点离开网络时，所有其邻居节点都将把该节点从它们的NST、ANL和PNL中移除。

上面描述的新颖方法可用各种方式实现。接下来描述一个此类方式。然而，本领域技术人员将理解，基于此公开可得出所呈现方法或其它方法的变化。

根据示范实施例，可使用五种类型的保活消息。这五种类型是：保活查询、保活查询响应、保活通知、保活通知响应以及保活通知转发。这些消息可在TCP或UDP分组的有效载荷中在节点之间交换。现在讨论每种类型的保活消息。

保活查询(KQ)消息可用于查询邻居节点的状态。该节点还可使用KQ消息传递其邻居节点的改变。KQ消息可包含在图4中图示的字段。这些字段可以是类型字段，其可以是8位字段以指示保活消息的类型。在此示例中，该类型被设置成1以指示保活查询消息。此字段对于所有保活消息是公共的。下一字段被保留。此字段可以是8位字段，并且它可以被保留以便将来使用。下一字段是长度。此字段可以是16位字段以指示保活消息的长度。此字段也对于所有保活消息是公共的。下一字段是邻居改变类型。此字段可以是32位字段以指示邻居节点的改变。如果该字段为0，则它指示由如下节点ID字段表示的节点由于最后一个消息交换而从其邻居集合移除。如果该字段为1，则它指示由如下节点ID字段表示的节点被添加到其邻居集合中。下一字段是节点ID。节点ID可以是32位字段以表示该节点。下一字段是节点地址。此字段是32位字段以表示由节点ID表示的节点的IP地址。对于IPv6，此字段将被设置成128位。在保活查询或保活查询响应消息中，可包含一个或多个邻居改变类型和节点ID字段。节点ID字段和节点地址字段必须与对应的邻居改变类型字段关联。

下一类型的保活消息是保活查询响应(KQR)。在被动节点从其邻居节点(主动节点)接收到保活查询消息之后，被动节点应该发送回KQR消息以指示其当前状态。还有，被动节点可使用此消息指示其邻居节点的改变。此消息还可用于控制主动节点应该何时发送下一保活查询消息。换句话说，被动节点可通过向主动节点发送适当发送时间来控制接收保活查询消息的定时。

图5中图示了保活查询响应的格式。保活查询响应可包含如下字段。第一字段是类型。此字段对于保活查询响应消息可设置成2。另一字段是状态。此字段可以是8位字段以指示节点的状态。值0指示这是查询消息的响应消息。值1指示这是未经请求的响应消息。下一字段是预计时间戳。此字段可以是64位字段以示出应该发送下一保活查询消息的时间。可采纳NTP时间戳的格式。这可以是64位无符号固定点数(以秒为单位)，相对于1900年1月1日0时。整数部分在前32位，而分数部分在后32位。剩余字段具有与上面相对于保活查询消息所讨论的相同的意思。

下一类型的保活消息是保活通知(KN)消息。图6中图示了此消息的格式。在当前节点已经检测到一个邻居节点已经失效之后，当前节点向失效节点的所有已知邻居节点发送保活通知消息。保活通知消息可包含各种字段。第一字段是类型。此字段对于保活通知消息可设置成3。另一字段可以是确认类型。此字段可以是8位字段以指示消息是否需要响应消息。如果该字段被设置成1，则需要响应消息；否则，不需要响应消息。另一字段可以是节点ID。此字段可以是32位字段以表示失效节点。在此消息中可包含一个或多个节点ID字段。

下一类型的保活消息是保活通知响应(KNR)消息。图7中图示了此消息的格式。在节点已经接收到KN消息之后，该节点应该向发送方发送保活通知响应消息作为确认。KNR消息可包含多个字段。一个字段是类型。此字段对于保活通知响应消息可设置成4。另一字段可以被保留。此字段可以是保留用于将来使用的8位字段。又一字段可以是节点ID。此字段可与保活通知消息中的一样。

下一类型的保活消息可以是保活通知转发(KNF)。图8示出了此消息的结构。在向失效节点的邻居节点发送保活通知消息之后，如果当前节点未接到保活通知响应消息，则当前节点可得出结论：失效节点的邻居节点不可达到。当前节点记录所有不可达到的节点，将它们添加到KNF消息，并且例如将它发送到随机选择的可达到节点。KNF消息可包含多个字段。第一字段是类型。此字段可以是8位字段，其可被设置成5。另一字段被保留。此8位字段被保留用于将来使用。下一字段可以是节点ID。此字段可以是32位字段以表示失效节点。在此消息中可包含一个或多个节点ID字段。

为了进一步减少开销信令，一个选项是：保活通知、通知响应和通知转发消息也可用于隐式地指示发送节点的存活。

现在相对于图9讨论上面提到的新颖过程。该过程例如可被划分成四个阶段：准备和设置、保活消息交换、故障检测和故障通知。从而，现在依次讨论每个阶段。

准备和设置阶段可包含下面所讨论的新步骤。一个步骤与设置邻域集合相关。当新节点加入网络时，其邻居节点将邻居集合设置成包含新节点。根据此示范实施例，假定基础分布式覆盖协议负责(1)邻域的建立，即，判定哪些节点将是新节点的邻居；(2)传输层的配置；(3)基本信息(例如节点ID和IP地址)的交换，等等。

关于图9，假定在步骤900使用基础覆盖协议(例如Chord和Partry)，节点202(IP地址是192.168.0.1并且当前邻居包含节点206、208、210、212、214)已经与节点212(IP地址是192.168.0.100并且当前邻居包含节点222和224)建立了相邻关系，并且这两个节点需要通过使用所提出的保活机制检测彼此的状态(即活着或失效)。

从而，两个节点202和212已经知道彼此的节点ID和IP地址，并且可彼此通信。然后，在步骤902，节点202和212在它们的邻居集合表中创建彼此的条目，并且除了邻居列表字段之外填充每个字段(包含节点ID和IP地址)。例如，节点202应该将212的条目添加到其NST中，如在下表2中所描述的。212的邻居列表现在是空的。邻居列表将通过交换保活消息来填充，如后面所描述的。

表2

节点ID	IP地址	邻居列表
			212	192.168.0.100	空

在交换保活消息之前，在步骤904决定两个通信节点的角色：一个应该是主动的，而另一个应该是被动的。例如，每个节点的主动邻居列表的长度(节点数)可用于确定每个节点的角色。假定L₂₀₂是节点202的主动邻居列表的长度，而L₂₁₂是节点212的主动邻居列表的长度。如果L₂₀₂>L₂₁₂，则节点202应该作为主动节点工作，并将节点212添加到其被动邻居列表；节点212应该将它自己设置为被动节点，并将节点202添加到其主动邻居列表。如果L₂₀₂=L₂₁₂或者两个主动邻居列表都是空的，则节点ID可能用于决定两个节点的角色，例如，具有较小节点ID的节点将表现为主动节点，而另一个节点将表现为被动节点。主动邻居列表的长度交换可通过使用基础覆盖协议达成，并且在此不描述。对于此实施例，假定节点202是主动邻居，而节点212是被动邻居。

然后，在步骤906，节点212发送含有其当前邻居节点(即节点222和224)以及节点202应该何时发送下一保活查询消息的预计发送时间T_s的保活查询响应消息。要指出，在此初始阶段，节点212发送保活查询响应消息，而不先接收保活查询消息。

预计发送时间T_s可计算如下：T_s=T₁+k，其中T₁是节点212的主动邻居列表中的最后节点向节点212发送保活查询消息的时间，并且k表示分布式系统想要检测节点故障的预先定义的时间间隔。在一个示范实施例中，预先定义的时间间隔k对于所有节点是相同的。从而，根据此示范实施例，被动节点可控制何时接收保活查询消息的时间。

在计算T_s之后，节点212将此信息填充到保活查询响应消息的字段“预计时间戳”，并将此信息发送到节点202。同时，节点212应该将时间值T_e(ANL中的预计定时器)与节点202关联。从而，节点212预计在时间T_e之前从节点202接收保活消息。当考虑时间移位和网络延迟时，时间T_e应该被设置成比T_s更晚，例如T_e=T_s+ζ，其中ζ是预先定义的值，例如1s。要指出，分布式网络中的节点的时间被假定成已经通过某种手段(例如网络时间戳协议)同步。

在步骤908，节点202更新其邻居列表，并设置发送定时器时间T_e。换句话说，在步骤906接收到来自节点212的保活查询响应消息之后，如果存在节点212的邻居的任何改变，则节点202更新其邻居集合表，并且用预计时间戳字段的值更新被动邻居列表中的节点212的发送定时器。更新节点202的NST，使得节点222和224被添加到节点212的邻居列表。

在步骤910和912，两个节点202和212中的每个节点都通知它们的相应邻居关于新邻居202或212。当下一次发送保活查询/响应消息时可实现这个通知。例如，节点202应该通知节点206、208、210、214节点212被添加到它们的邻居集合204，并且节点212应该通知节点222和224节点202被添加到它们的邻居集合220。

已经完成了准备和设置阶段，方法进行到保活消息交换阶段。根据这个阶段，当在步骤914节点212的发送定时器T_e期满时，在步骤916，节点202应该向节点212发送保活查询消息KQ。节点202的邻居改变也应该包含在这个消息KQ中。

如果从节点202接收到保活查询消息KQ，则在步骤918节点212应该解析该消息以检测是否存在任何邻居改变。如果是，则节点212应该更新节点202的邻居列表。然后，在步骤920，节点212应该发送保活查询响应KQR消息，具有与在步骤906描述的消息类似的内容。预计定时器T_e应该在节点202复位，类似于步骤908。

下一阶段是故障检测阶段。在此阶段，如果在步骤922a当前节点202在向其邻居节点212发送保活查询消息之后未接收到响应，则它可在预先定义的间隔期间重新发送保活查询消息。如果仍没有来自邻居节点212的答复，则在步骤924当前节点202应该得出结论：邻居节点212已经失效。

要指出，节点202可能失效，并且节点212可检测到失效节点。在此情况下，在步骤922b，节点212监视由节点202发送的保活消息以确定节点202是否已经失效。如果未从节点202接收到消息，则节点212应该主动向失效节点202发送保活消息。如果未从失效节点202接收到答复，则当前节点212应该以预先定义的间隔重新发送保活消息。如果仍未从失效节点202接收到答复，则在步骤924当前节点212应该认为节点202已经失效。

已经确定了失效节点，接下来是故障通知阶段，即，当前节点需要告知失效节点的邻居关于这个事件。更确切地说，如果节点212已经失效并且它由节点202检测到，如上面所讨论的，则在步骤926，节点202向节点212的邻居列表中的所有其它节点(222,224)发送故障信息与保活通知消息KN。如果节点212的邻居节点222接收到通知消息，则它应该从其邻居集合表中移除节点212的条目，并在步骤928向节点202发送保活通知响应消息KNR。

因为有可能节点202不能直接与失效节点212的所有邻居节点222和224通信，因此可能发生当前节点202可能不及时告知节点212的至少一个邻居节点224关于节点212的故障。对于这种情形，当前节点202记录是否从节点222和224接收到其状态通知消息的答复。

如果当前节点202在预先定义的时间间隔未从节点212的邻居节点224接收到保活通知响应，则当前节点202得出结论：节点212的邻居节点224不可达到。在此情况下，节点202生成保活通知转发消息KNF，其含有节点212的所有不可达到的邻居节点，并在步骤930，例如向节点212的若干随机选择的可达到的邻居节点222发送此消息。在接收到保活通知转发消息之后，选择的可达到的邻居节点222生成保活通知消息，并将此消息发送到在KNF消息中规定的那些节点。为了减少开销信令，预计没有这个消息的响应。要指出，一些节点仍不能接收到失效节点212的保活通知消息，在此情况下故障检测可能要花更长时间。在接收到消息KN或KNF之后，失效节点212的邻居节点222和224从它们的NST、PNL和/或ANL移除节点212的条目。

上面讨论的新颖机制可实现为接下来相对于图10所讨论的方法。根据示范实施例，该方法包含：步骤1000，向主动组或被动组指配相邻集合的节点，其中相邻集合的节点连接到当前节点；步骤1002，命令主动组中的主动节点向当前节点发送保活查询，其中由当前节点控制用于从主动节点向当前节点发送保活查询的定时；步骤1004，命令被动节点侦听来自当前节点的保活查询，并用保活查询响应向当前节点答复；步骤1006，将当前节点配置成用保活查询响应向主动节点答复；以及步骤1008，基于(i)从被动节点接收的保活查询响应和(ii)由主动节点发送的保活查询确定失效节点。

所提出的新机制的性能现在与先前机制(即基本和合作保活机制)相比较。两个性能度量通常用于分析保活机制：(1)平均检测时间和(2)开销信令。

对于基本保活机制，认为t_f是节点失效的时间，并且t_s是邻居节点向失效节点发送保活查询消息的时间。那么，t_s-t_f表示失效节点的检测时间。认为λ是发送保活查询消息的预先定义的时间间隔。那么，自然假定(t_s-t_f)在[0,λ]上具有均匀分布。因此，基于概率论，检测节点故障的平均检测时间θ是λ/2。关于第二度量，标准机制的开销信令包含保活查询和响应。每个节点每λ秒向每个邻居发送查询消息。从而，由具有d个邻居节点的节点在λ秒期间引入的保活消息(查询和响应)的数量是2d。

对于另一传统机制——合作保活机制，节点每λ秒从所有邻居节点接收保活查询消息。因此，平均检测时间与基本方法中的相同，即θ=λ/2。因为仅一个保活查询消息由所有其邻居节点发送，因此由具有d个邻居节点的节点在λ秒期间引入的保活消息的数量是2。可以看到，开销信令独立于其邻居节点的数量。

关于在此文档中提出的新颖机制，类似于合作保活解决方案，为了检测失效节点，仅一个保活查询消息由所有其邻居节点发送。因此，由具有d个邻居节点的节点在λ秒期间引入的保活消息的数量是2。如上面指出的，开销信令独立于其邻居节点的数量。

然而,与标准和合作机制相比较，新颖机制的故障检测时间减少。令t_f是节点失效的时间，t_s是邻居节点向失效节点发送保活查询消息的时间，并且t_d是失效节点应该向其邻居节点发送保活查询消息的预计时间。那么，检测时间是(t_s-t_f)和(t_d-t_f)中的最小值。假定λ是发送保活查询消息的时间间隔，并且(t_s-t_f)和(t_d-t_f)在[0,λ]上都具有均匀分布。根据概率论，平均检测时间是θ=λ/3。与基本和合作保活解决方案相比较，此新颖方法将平均检测时间减少了1/3，同时仍保持低信令开销。

从而，根据以上分析，可以看到，新颖机制与现有机制相比较有利地减少了信令开销和故障检测时间，这对现今的大规模分布式网络是有用的。

为了图示而非限制的目的，在图11中图示了根据示范实施例能够执行操作的代表性节点结构的示例。可使用硬件、固件、软件或它们的组合来执行本文描述的各个步骤和操作。

适合于执行在示范实施例中描述的活动的示范节点结构1100可包含服务器1101或不包含它。此类服务器1101可包含耦合到随机存取存储器(RAM)1104和只读存储器(ROM)1106的中央处理器(CPU)1102。ROM 1106也可以是其它类型的存储程序的存储介质，诸如可编程ROM(PROM)、可擦除PROM(EPROM)等。处理器1102可通过输入/输出(I/O)电路1108和总线1110与其它内部和外部组件通信，以提供控制信号等等。处理器1102执行由软件和/或固件指令所指示的各种功能，这在本领域是已知的。

服务器1101还可包含一个或多个数据存储装置，包括硬盘驱动器1112、CD-ROM驱动器1114和能够读和/或存储信息的其它硬件(诸如DVD)等。在一个实施例中，用于执行上面讨论的步骤的软件可被存储和分布在CD-ROM 1116、可移动介质1118或能够方便地存储信息的其它形式介质上。这些存储介质可被插入到诸如CD-ROM驱动器1114、盘驱动器1112等装置中，并由这些装置读取。服务器1101可耦合到显示器1120，显示器1120可以是任何类型的已知显示器或呈现屏幕，诸如LCD显示器、LED显示器、等离子显示器、阴极射线管(CRT)等。提供了用户输入接口1122，包含一个或多个用户接口机制，诸如鼠标、键盘、麦克风、触摸板、触摸屏、语音识别系统等。

服务器1101可经由网络耦合到其它计算装置，诸如陆线和/或无线终端。服务器可以是与诸如因特网1128的全球区域网(GAN)中一样的更大网络配置的一部分，其允许最终连接到各种陆线和/或移动客户端/观察器装置。

所公开的示范实施例提供了用于更有效地检测分布式网络中失效节点的节点装置、方法和计算机程序产品。应该理解到，此说明书不意图限制本发明。相反，示范实施例意图涵盖包含在由所附权利要求书所定义的本发明的精神和范围内的备选、修改和等效方案。进一步说，在示范实施例的详细描述中，阐述了大量特定细节以便提供对要求权利的发明的全面理解。然而，本领域技术人员将理解到，各种实施例可以在没有此类特定细节的情况下实践。

本领域技术人员还将认识到，可以在无线通信装置、电信网络中、作为方法或在计算机程序产品中实施示范实施例。因而，示范实施例可采取完全硬件实施例或组合了硬件和软件方面的实施例的形式。进一步说，示范实施例可采取存储在计算机可读存储介质上的计算机程序产品的形式，在介质中实施有计算机可读指令。可以利用任何适合的计算机可读介质，包括硬盘、CD-ROM、数字通用盘(DVD)、光存储装置或磁存储装置，诸如软盘或磁带。计算机可读介质的其它非限制示例包含闪速型存储器或其它已知存储器。

虽然在实施例中以具体组合描述了本示范实施例的特征和要素，但每个特征或要素可无需这些实施例的其它特征和要素而单独使用，或者以具有或没有本文公开的其它特征和要素的各种组合使用。在本申请中提供的方法或流程图可实现在计算机可读存储介质中有形地实施的计算机程序、软件或固件以便由专门编程的计算机或处理器执行。

Claims

1.一种用于检测结构化网络(200)中失效节点(212)的方法，所述方法包括：

向主动组(216)或被动组(218)指配相邻集合(204)的节点(206,208,210,212,214)，其中所述相邻集合(204)的所述节点(206,208,210,212,214)连接到当前节点(202)；

命令所述主动组(216)中的主动节点(206,208,210)向所述当前节点(202)发送保活查询(230A)，其中由所述当前节点(202)控制用于从所述主动节点(206,208,210)向所述当前节点(202)发送所述保活查询(230A)的定时；

命令被动节点(212,214)侦听来自所述当前节点(202)的保活查询(232A)，并用保活查询响应(232B)向所述当前节点(202)答复；

将所述当前节点(202)配置成用保活查询响应(230B)向所述主动节点答复；以及

基于(i)从所述被动节点接收的所述保活查询响应(232B)和(ii)由所述主动节点发送的所述保活查询(230A)确定所述失效节点(212)，

其中所述当前节点(202)配置成不向所述主动节点发送所述保活查询(232A)，并且所述被动节点配置成不向所述当前节点(202)发送保活查询。

2.如权利要求1所述的方法，进一步包括：

在所述当前节点保持仅包含所述主动节点的主动列表和仅包含所述被动节点的被动列表，其中所述主动节点和所述被动节点形成所述当前节点的所述相邻集合。

3.如权利要求1所述的方法，进一步包括：

如果作为对所述当前节点向所述失效节点发送的所述保活查询的答复未从所述失效节点接收到保活查询响应，则确定所述失效节点是被动节点。

4.如权利要求1所述的方法，进一步包括：

如果在预计时间所述当前节点未从所述失效节点接收到保活查询，则确定所述失效节点是主动节点。

5.如权利要求1所述的方法，进一步包括：

从所述当前节点向所述失效节点的邻居节点发送保活通知消息，其中所述保活通知包含所述失效节点已经失效的信息。

6.如权利要求5所述的方法，进一步包括：

保持具有所述失效节点的可达到的邻居节点的列表，其中可达到的邻居节点是响应于所述保活通知消息而对所述当前节点答复的节点。

7.如权利要求6所述的方法，进一步包括：

保持具有所述失效节点的不可达到的邻居节点的列表。

8.如权利要求7所述的方法，进一步包括：

从所述可达到的邻居节点列表中随机选择预定数量的节点。

9.如权利要求8所述的方法，进一步包括：

从所述当前节点向随机选择的可达到的邻居节点发送具有要被告知关于所述失效节点的所述不可达到的邻居节点的所述列表。

10.如权利要求1所述的方法，进一步包括：

从所述当前节点保持的各种表或列表中移除所述失效节点。

11.一种配置成检测结构化网络(200)中失效节点(212)的当前节点(202)，所述当前节点(202)包括：

处理器，配置成向主动组(216)或被动组(218)指配相邻集合(204)的节点(206,208,210,212,214)，其中所述相邻集合(204)的所述节点(206,208,210,212,214)连接到当前节点(202)；以及

接口，配置成：

从所述主动组(216)中的主动节点(206,208,210)接收保活查询(230A)；

向被动节点(212,214)发送保活查询(232A)，并从所述被动节点接收保活查询响应(232B)；以及

响应于所述保活查询(230A)向所述主动节点发送保活查询响应(230B)；

其中所述处理器基于(i)从所述被动节点接收的所述保活查询响应(232B)和(ii)由所述主动节点发送的所述保活查询(230A)确定所述失效节点，并且

其中所述当前节点(202)配置成不向所述主动节点发送所述保活查询(232A)。

12.如权利要求11所述的节点，其中所述处理器配置成不向所述被动节点发送保活查询响应。

13.如权利要求11所述的节点，其中所述处理器进一步配置成：保持仅包含所述主动节点的主动列表和仅包含所述被动节点的被动列表，其中所述主动节点和所述被动节点形成所述当前节点的所述相邻集合。

14.如权利要求11所述的节点，其中所述处理器进一步配置成：

如果作为对所述当前节点向所述失效节点发送的所述保活查询的答复未从所述失效节点接收到保活查询响应，则确定所述失效节点是被动节点；或者

15.如权利要求11所述的节点，其中所述处理器进一步配置成：向所述失效节点的邻居节点发送保活通知消息。

16.如权利要求15所述的节点，其中所述处理器进一步配置成：保持具有所述失效节点的可达到的邻居节点的列表，其中可达到的邻居节点是响应于所述保活通知消息而对所述当前节点答复的节点。

17.如权利要求16所述的节点，其中所述处理器进一步配置成：保持具有所述失效节点的不可达到的邻居节点的列表。

18.如权利要求17所述的节点，其中所述处理器进一步配置成：从所述可达到的邻居节点列表中随机选择预定数量的节点。

19.如权利要求18所述的节点，其中所述处理器进一步配置成：向随机选择的可达到的邻居节点发送具有要被告知关于所述失效节点的所述不可达到的邻居节点的所述列表。

20.一种用于检测结构化网络(200)中失效节点(212)的设备，包括：

用于向主动组(216)或被动组(218)指配相邻集合(204)的节点(206,208,210,212,214)的装置，其中所述相邻集合(204)的所述节点(206,208,210,212,214)连接到当前节点(202)；

用于命令所述主动组(216)中的主动节点(206,208,210)向所述当前节点(202)发送保活查询(230A)的装置，其中由所述当前节点(202)控制用于从所述主动节点(206,208,210)向所述当前节点(202)发送所述保活查询(230A)的定时；

用于命令被动节点(212,214)侦听来自所述当前节点(202)的保活查询(232A)，并用保活查询响应(232B)向所述当前节点(202)答复的装置；

用于将所述当前节点(202)配置成用保活查询响应(230B)向所述主动节点答复的装置；以及

用于基于(i)从所述被动节点接收的所述保活查询响应(232B)和(ii)由所述主动节点发送的所述保活查询(230A)确定所述失效节点(212)的装置，

21.一种包含计算机可执行指令的非暂时性计算机可读介质，其中所述指令当由处理器执行时实现用于检测结构化网络(200)中失效节点(212)的方法，所述方法包括：