CN102970167A

CN102970167A - 集群系统中网络节点的故障检测方法、网络节点和系统

Info

Publication number: CN102970167A
Application number: CN2012104853856A
Authority: CN
Inventors: 梁明旭
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-11-26
Filing date: 2012-11-26
Publication date: 2013-03-13
Anticipated expiration: 2032-11-26
Also published as: CN102970167B

Abstract

本发明实施例公开了一种集群系统中网络节点的故障检测方法，包括第二网络节点接收由第一网络节点发出的故障信号，所述故障信号是所述第一网络节点检测到CPU或桥片复位时上产生的复位信号生成的。所述第二网络节点检测到所述故障信号确定所述第一网络节点发生故障。采用本发明，可解决现有技术中通过心跳报文检测故障检测时间太长和系统处理开销过大的问题。

Description

集群系统中网络节点的故障检测方法、网络节点和系统

技术领域

本发明涉及信号检测领域，尤其涉及集群系统中故障检测的方法、网络节点和系统。

背景技术

为了保证业务的连续性，通常会为处理业务的关键设备配置备用设备，而该关键设备称为主用设备，备用设备通过向主用设备发送心跳报文，并接受主用设备返回的心跳报文来检测主用设备是否发生故障，并在主用设备发生故障时，接管主用设备上承载的业务，从而保证业务的连续性。

主备设备的设计思想在很多网络系统中得到广泛应用。以网络存储系统为例，网络存储系统包括存储控制器和存储阵列，客户端在访问存储系统时，与存储控制器建立连接，从而通过存储控制器访问存储阵列中的存储资源。存储控制器是实现网络存储的关键设备，假设有两个互为备份的存储控制器，每个存储器作为本端分别向对端周期性地发送心跳报文，如果在心跳超时时间到达之前接收到对端的心跳响应，则判定对端正常，否则判定对端发生异常，在判定对端异常时，接管对端业务。但是这种通过心跳检测对端存储控制器是否正常的方法存在以下问题，对端存储控制器为了避免误判，一般需要连续几个心跳报文无响应才会判定对方发生故障，这样故障的检测时间就会过长，这段时间业务会一直处于中断状态，影响业务的连续性。同时，若采用减小心跳报文的时间间隔来缩短检测时间，又会增大存储控制器的处理开销，影响自身的性能。

发明内容

本发明实施例所要解决的技术问题在于，可解决现有技术中通过心跳报文检测故障检测时间太长和系统处理开销过大的问题。

为了解决上述技术问题，本发明实施例提供了一种集群系统中网络节点的故障检测方法，包括：

第二网络节点接收由第一网络节点发出的故障信号，所述故障信号是所述第一网络节点检测到CPU或桥片复位时上产生的复位信号生成的。

所述第二网络节点检测到所述故障信号确定所述第一网络节点发生故障。

在第一种可能的实现方式中，所述第二网络节点检测到所述故障信号确定所述第一网络节点发生故障之后包括：

所述第二网络节点判断自身存储空间是否足够，若为是，则执行业务倒换操作，接管所述第一网络节点上承载的业务。

结合第一方面第一种可能的实现方式，在第二种可能的实现方式中，还包括：

当所述第二网络节点判断自身存储空间不足而无法接管所述第一网络节点上承载的业务时，向所述集群系统中其他网络节点广播所述故障信号，以使所述集群系统根据预定策略选取第三网络节点接管所述第一网络节点上的业务。

结合第一方面第一种可能的实现方式，在第三种可能的实现方式中，所述执行业务倒换操作，接管所述第一网络节点上承载的业务之后，还包括：

所述第二网络节点向所述集群系统中其他网络节点广播表示接管成功的指示信息。

结合第一方面至第一方面第三种可能的实现方式中的任一种，在第四种可能的实现方式中，还包括：

第二网络节点通过网口或串口接收到由第一网络节点发出的故障信号。

本发明第二方面提供一种集群网络中网络节点故障检测方法，其特征在于，包括：

检测到CPU或桥片产生的复位信号时，确定自身发生故障；

根据所述复位信号生成故障信号，并将所述故障信号发送至第二网络节点。

在第一种可能的实现方式中，检测到自身CPU或桥片产生的复位信号包括：

通过检测自身CPU或桥片复位引脚上电平发生的跳变确定自身是否产生复位信号。

结合第二方面第一种可能的实现方式，在第二种可能的实现方式中，将所述故障信号发送至第二网络节点包括：

通过网口或串口将所述故障信号发送至第二网络节点。

本发明第三方面提供了一种网络节点，包括：

接收模块，用于接收由第一网络节点发出的故障信号，所述故障信号是所述第一网络节点检测到CPU或桥片复位时上产生的复位信号生成的。

确定模块，用于检测到所述故障信号确定所述第一网络节点发生故障。

在第一种可能的实现方式中，还包括：

切换模块，用于判断自身存储空间是否足够，若为是，则执行业务倒换操作，接管所述第一网络节点上承载的业务。

结合第三方面第一种可能的实现方式，在第二种可能的实现方式中，还包括：

第一广播模块，用于当判断自身存储空间不足而无法接管所述第一网络节点上承载的业务时，向所述集群系统中其他网络节点广播所述故障信号，以使所述集群系统根据预定策略选取第三网络节点接管所述第一网络节点上的业务。

结合第三方面第一种可能的实现方式，在第三种可能的实现方式中，还包括：

第二广播模块，用于向所述集群系统中其他网络节点广播表示接管成功的指示信息。

结合第三方面至第三方面第三种可能的实现方式，在第四种可能的实现方式中，所述接收模块包括：

接收单元，用于通过网口或串口接收到由第一网络节点发出的故障信号。

本发明第四方面提供了一种网络节点，包括：

检测模块，用于检测到CPU或桥片产生的复位信号时，确定自身发生故障；

发送模块，用于根据所述复位信号生成故障信号，并将所述故障信号发送至第二网络节点。

在第一种可能的实现方式中，所述检测模块包括：

检测单元，用于通过检测自身CPU或桥片复位引脚上电平发生的跳变确定自身是否产生复位信号。

结合第四方面第一种可能的实现方式，在第二种可能的实现方式中，所述发送模块包括：

发送单元，用于通过网口或串口将所述故障信号发送至第二网络节点。

本发明第五方面提供了一种集群系统，其特征在于，包括至少一个主机，至少一个如第三方面至第三方面的第四种可能的实现方式中的任一种网络节点，至少一个第四方面至第四方面的第二种可能的实现方式中的任一种网络节点。

实施本发明实施例，具有如下有益效果：

实施本发明的实施例，监控网络节点发生故障产生的硬件复位信号，根据硬件复位信号生成故障信号发送至对端网络节点，对端网络节点检测到该故障信号立刻就可以判断故障信号的发送方发生故障，提高了故障的检测速度，从而减少了网络系统的业务切换时间，更好的保障了业务的连续性。同时网络节点由周期性地主动发送网络报文等待响应报文来判断对方是否发生故障变更为被动检测故障信号的发生来判断对方是否发生故障，降低了网络节点处理的处理开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种集群系统中网络节点的故障检测方法的流程示意图；

图2是本发明的一种集群系统中网络节点的故障检测方法的另一流程示意图；

图3是本发明的一种网络节点的结构示意图；

图4是本发明的一种网络节点的另一结构示意图；

图5是图4中接收模块的结构示意图；

图6是本发明的一种网络节点的又一结构示意图；

图7是本发明的一种集群系统中网络节点的故障检测方法的流程示意图；

图8是本发明的一种网络节点的结构示意图；

图9是本发明的一种网络节点的另一结构示意图；

图10是本发明的一种集群系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，为本发明的一种集群系统中网络节点的故障检测方法的流程示意图，包括：

步骤101、第二网络节点接收由第一网络节点发出的故障信号。

具体的，所述故障信号由第一网络节点根据自身CPU处理器或桥片复位引脚上的电平发生跳变时产生的复位信号生成的，所述桥片包括南桥芯片和北桥芯片，第一网络节点检测到CPU或南桥芯片或北桥芯片的复位引脚的电平发生跳变，即产生复位信号，说明第一网络节点发生系统故障产生即将执行复位操作，第一网络节点根据复位信号生成一个故障信号，所述故障信号至少包括第一网络节点的地址信息和业务信息，地址信息包括第一网络节点的IP(InternetProtocol，网络之间互联的协议，简称IP)地址和第二网络节点的IP地址，业务信息表明第一网络节点上承载的业务类型和占用自身硬件资源的大小。

步骤102、第二网络节点检测到所述故障信号确定所述第一网络节点发生故障。

具体的，第二网络节点一旦检测到故障信号，通过解析故障信号中的地址信息立即可以确定第一网络节点发生故障。

参见图2，为本发明的一种集群系统中网络节点的故障检测方法的另一流程示意图，包括：

步骤201、第二网络节点通过网口或串口接收第一网络节点发出的故障信号。

具体的，第二网络节点和第一网络节点之间通过网口或串口连接，二者之间建立一个专门的检测故障的通路。第一网络节点和第二网络节点之间的备份方式可采用主从备份、双机热备份或双机互为备份的方式，本发明不作限制。本实施例中以主从备份为例，即第一网络节点为主用网络节点，第二网络节点为备用网络节点，其他类型的备份方式的原理相同，本发明不再敖述。

所述故障信号为第一网络节点产生的复位信号生成的，第一节点产生复位信号表明自身系统发生故障需要重启，检测复位信号的方法为检测CPU处理器或桥片的复位引脚上电平发生跳变时，确定第一网络节点产生复位信号，即将执行复位操作，第一网络节点根据复位信号生成故障信号发送至第二网络节点，所述故障信号至少包括地址信息和业务信息，地址信息包括第一网络节点的IP(Internet Protocol，网络之间互联的协议，简称IP)地址和第二网络节点的IP地址，业务信息表明第一网络节点上承载的业务类型和占用自身硬件资源的大小。

步骤202、所述第二网络节点检测到所述故障信号确定所述第一网络节点发生故障。

具体的，第二网络节点和第一网络节点之间建立有专门传输故障信号的检测通路，第二网络节点一旦检测到自身网口或串口接收到故障信号，通过解析故障信号中的地址信号立即判定第一网络节点发生故障。与现有技术的心跳报文检测方法比较，无需等到几个心跳报文无响应才判定发生故障，提高了检测的速度，确保了业务的连续性。

步骤203、所述第二网络节点判断自身存储空间是否足够。

具体的，所述第二网络节点通过解析故障信号中的业务信息，所述业务信息中包括第一网络节点上承载的业务占用的存储空间的大小，通过查询自身剩余存储空间的大小来判定能否接管所述第一网络节点上承载的业务，若判断为是，执行步骤204、若判断为否，则执行步骤205。

步骤204、执行业务倒换操作，接管第一网络节点上承载的业务。

具体的，当第二网络节点判断自身剩余空间足够，即可以承载所述第一网络节点上承载的业务时，执行业务倒换操作，倒换操作的方法现有技术以作披露，此处不再敖述。

步骤205、向所述集群系统中其他网络节点广播所述故障信号，以使所述集群系统根据预定策略选取第三网络节点接管所述第一网络节点上的业务。

具体的，当步骤203判断为否时，第二网络节点向集群系统中所有的网络节点广播所述故障信号，网络中其他节点接收到所述故障信号后响应一个响应报文，所述集群系统根据响应报文中的剩余资源的大小根据预定策略选取第三网络节点接管所述第一网络节点上承载的业务，所述预定策略包括链路最短化策略。

步骤206、所述第二网络节点向所述集群系统中其他网络节点广播标识接管成功的指示信息。

具体的，当第二网络节点成功接管第一网络节点上承载的业务时，发送一个指示信息至集群系统中其他的网络节点，以通知其他网络节点业务承载主体的变更。

参加图3，为本发明的一种网络节点的结构示意图，包括：

接收模块11，用于接收由第一网络节点发出的故障信号，所述故障信号是所述第一网络节点检测到CPU或桥片复位时上产生的复位信号生成的。

确定模块12，用于检测到所述故障信号确定所述第一网络节点发生故障。

具体的，确定模块12一旦检测到故障信号，通过解析故障信号中的地址信息立即可以确定第一网络节点发生故障。

进一步的，参见图4和图5，为本发明的一种网络节点的另一种结构示意图除了接收模块11和检测模块12之外，还包括：

切换模块13，用于判断自身存储空间是否足够，若为是，则执行业务倒换操作，接管所述第一网络节点上承载的业务。

具体的，切换模块13通过解析故障信号中的业务信息，所述业务信息中包括第一网络节点上承载的业务占用的存储空间的大小，通过查询自身剩余存储空间的大小来判定能否接管所述第一网络节点上承载的业务，若判断为是，切换模块13执行业务倒换操作，倒换操作的方法现有技术以作披露，此处不再敖述。

第一广播模块14，用于当判断自身存储空间不足而无法接管所述第一网络节点上承载的业务时，向所述集群系统中其他网络节点广播所述故障信号，以使所述集群系统根据预定策略选取第三网络节点接管所述第一网络节点上的业务。

具体的，第一广播模块14判断判断无法承载第一网络节点上承载的业务时，向集群系统中所有的网络节点广播所述故障信号，网络中其他节点接收到所述故障信号后响应一个响应报文，所述集群系统根据响应报文中的剩余资源的大小根据预定策略选取第三网络节点接管所述第一网络节点上承载的业务，所述预定策略包括链路最短化策略。

第二广播模块15，用于向所述集群系统中其他网络节点广播表示接管成功的指示信息。

具体的，当第二网络节点成功接管第一网络节点上承载的业务时，第二广播模块15发送一个指示信息至集群系统中其他的网络节点，以通知其他网络节点业务承载主体的变更。

进一步的，所述接收模块11还包括：

接收单元111，接收单元，用于通过网口或串口接收到由第一网络节点发出的故障信号。

参见图6，为本发明的一种网络节点的又一结构示意图，包括处理器61、存储器62、输入装置63和输出装置64，桌面服务器中的处理器61的数量可以是一个或多个，图6以一个处理器为例。本发明的一些实施例中，处理器61、存储器62、输入装置63和输出装置64可通过总线或其他方式连接，图6中以总线连接为例。

其中，存储器62中存储一组程序代码，且处理器61用于调用存储器62中存储的程序代码，用于执行以下操作：

在本发明的一些实施例中，处理器61还用于执行：

所述第二网络节点判断存储器62存储空间是否足够，若为是，则执行业务倒换操作，接管所述第一网络节点上承载的业务。

在本发明的一些实施例中，处理器61还用于执行：

当所述第二网络节点判断存储器62存储空间不足而无法接管所述第一网络节点上承载的业务时，向所述集群系统中其他网络节点广播所述故障信号，以使所述集群系统根据预定策略选取第三网络节点接管所述第一网络节点上的业务。

在本发明的一些实施例中，处理器61还用于执行：

参见图7，为本发明的另一种集群系统中网络节点的故障检测方法的流程示意图，包括：

步骤301、检测到CPU或桥片产生的复位信号，确定自身发生故障。

具体的，第一网络节点检测到CPU或桥片产生的复位信号，复位信号的检测方法为检测CPU或南桥芯片或北桥芯片的复位引脚上的电平跳变，确定CPU或桥片产生复位信号，产生复位信号表明第一网络节点发生故障，即将进行复位操作。可以理解的是，第一网络节点中检测复位信号的硬件是相对于CPU或桥片独立工作的。

步骤302、根据所述复位信号生成故障信号，并将所述故障信号通过网口或串口发送至第二网络节点。

具体的，在复位信号中附加包括地址信息和业务信息以生成故障信号，故障信息包括一个IP数据报文，地址信息包括第一网络节点的IP(Internet Protocol，网络之间互联的协议，简称IP)地址和第二网络节点的IP地址，业务信息表明第一网络节点上承载的业务类型和占用自身硬件资源的大小，并将所述故障信息发送至第二网络节点，以使第二网络节点根据接收到的故障信号确定第一网络节点发生故障。

参见图8，为本发明的一种网络节点的结构示意图，包括：

检测模块21，用于检测到CPU或桥片产生的复位信号时，确定自身发生故障。

发送模块22，用于根据所述复位信号生成故障信号，并将所述故障信号发送至第二网络节点。

进一步的，检测模块21包括：

检测单元211，用于通过检测自身CPU或桥片复位引脚上电平发生的跳变确定自身是否产生复位信号。

发送模块22包括：

发送单元221，用于通过网口或串口将所述故障信号发送至第二网络节点。

参见图9，为本发明的一种网络节点的另一结构示意图，包括处理器71、存储器72、输入装置73和输出装置74，桌面服务器中的处理器71的数量可以是一个或多个，图9以一个处理器为例。本发明的一些实施例中，处理器71、存储器72、输入装置73和输出装置74可通过总线或其他方式连接，图9中以总线连接为例。

其中，存储器72中存储一组程序代码，且处理器71用于调用存储器62中存储的程序代码，用于执行以下操作：

检测到CPU或桥片产生的复位信号时，确定自身发生故障；

在本发明的一些实施例中，处理器71具体用于执行：

通过网口或串口将所述故障信号发送至第二网络节点。

参见图10，为本发明的一种集群系统的结构示意图，包括网络节点1，网络节点2和主机3，其中网络节点1，网络节点2和主机3的数量不作限制，可以是一个也可以是多个，本发明中以一个为例，网络节点2和网络节点1之间有一个故障检测链路，二者之间通过网口或串口连接在一起，用于发送故障信号的通路，网络节点2和网络节点1分别通过SAN(Storage Area Network，存储区域网络，简称SAN)与主机1连接，也可采用其他网络连接，形成一个备份系统。本分方式包括主从备份，热机双备份和热机互为备份，此处以主从本分为例说面，网络节点2为主用节点，网络节点1为备用节点，工作方式为：

网络节点2检测CPU或南桥芯片或北桥芯片的复位引脚上的电平跳变，确定CPU或桥片产生复位信号，产生复位信号表明网络节点2发生故障，即将进行复位操作。可以理解的是，第一网络节点中检测复位信号的硬件是相对于CPU或桥片独立工作的。网络节点2将所述复位信号生成故障信号，所述故障信号至少包括网络节点2的IP(Internet Protocol，网络之间互联的协议，简称IP)地址和网络节点1的IP地址，业务信息表明网络节点2上承载的业务类型和占用自身硬件资源的大小，网络节点1检测到故障信号后立刻确定网络节点2发生故障，判断自身存储空间是否足够，若为是则执行业务倒换操作，当网络节点1成功接管网络节点2上承载的业务时，发送一个指示信息至集群系统中其他的网络节点，以通知其他网络节点业务承载主体的变更。网络节点1判断自身存储空间不足时，网络节点1向集群系统中所有的网络节点广播所述故障信号，网络中其他节点接收到所述故障信号后响应一个响应报文，所述集群系统根据响应报文中的剩余资源的大小根据预定策略选取第三网络节点接管所述第一网络节点上承载的业务，所述预定策略包括链路最短化策略。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可网络于一计算机可读取网络介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的网络介质可为磁碟、光盘、只读网络记忆体(Read-Only Memory，ROM)或随机网络记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种集群系统中网络节点的故障检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述第二网络节点检测到所述故障信号确定所述第一网络节点发生故障之后包括：

3.如权利要求2所述的方法，其特征在于，还包括：

4.如权利要求2所述的方法，其特征在于，所述执行业务倒换操作，接管所述第一网络节点上承载的业务之后，还包括：

5.如权利要求1-4任一项所述的方法，其特征在于，还包括：

6.一种集群系统中网络节点故障检测方法，其特征在于，包括：

检测到CPU或桥片产生的复位信号时，确定自身发生故障；

7.如权利要求6所述的方法，其特征在于，检测到自身CPU或桥片产生的复位信号包括：

8.如权利要求7所述的方法，其特征在于，将所述故障信号发送至第二网络节点包括：

通过网口或串口将所述故障信号发送至第二网络节点。

9.一种网络节点，其特征在于，包括：

10.如权利要求9所述的网络节点，其特征在于，还包括：

11.如权利要求10所述的网络节点，其特征在于，还包括：

12.如权利要求10所述的网络节点，其特征在于，还包括：

13.如权利要求9-12任一项所述的网络节点，其特征在于，所述接收模块包括：

14.一种网络节点，其特征在于，包括：

15.如权利要求14所述的网络节点，其特征在于，所述检测模块包括：

16.如权利要求15所述的网络节点，其特征在于，所述发送模块包括：

17.一种集群系统，其特征在于，包括至少一个主机、至少一个如权利要求9-13任一项所述的网络节点和至少一个如权利要求14-16任一项所述的网络节点。