CN104038366B - 集群节点失效检测方法和系统 - Google Patents

集群节点失效检测方法和系统 Download PDF

Info

Publication number
CN104038366B
CN104038366B CN201410187243.0A CN201410187243A CN104038366B CN 104038366 B CN104038366 B CN 104038366B CN 201410187243 A CN201410187243 A CN 201410187243A CN 104038366 B CN104038366 B CN 104038366B
Authority
CN
China
Prior art keywords
node
section point
default
failure
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410187243.0A
Other languages
English (en)
Other versions
CN104038366A (zh
Inventor
李发明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Toyou Feiji Electronics Co., Ltd.
Original Assignee
SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd filed Critical SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410187243.0A priority Critical patent/CN104038366B/zh
Publication of CN104038366A publication Critical patent/CN104038366A/zh
Application granted granted Critical
Publication of CN104038366B publication Critical patent/CN104038366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明涉及一种集群节点失效检测方法和系统,控制集群中的节点之间相互发送检测数据包;依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;确定在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。在大于预设阀值数量的第一节点未接收到第二节点反馈的响应信息时,才认定第二节点为失效节点,保证失效节点定位的准确性。

Description

集群节点失效检测方法和系统
技术领域
本发明涉及通信技术领域,尤其涉及一种集群节点失效检测方法和系统。
背景技术
近些年来,由于计算机技术的日新月异,集群技术也得到了迅猛发展。集群技术的一个显著特征便为其高可用性。即它可以让用户通过互联网络,连接到一个由多个节点组成的后端服务器系统上,使系统的可靠性得到保证。通过采用冗余的部件,高可用多节点集群系统可以有效地防止因单点故障而造成的系统停机,保证服务器对外持续的提供服务,极大地提高了系统的可用性,但现有技术中往往无法对集群中的失效节点进行定位,导致数据传输出现故障。
发明内容
本发明的主要目的是提供一种集群节点失效检测方法和系统,旨在提高集群中失效节点检测的准确性。
本发明提出一种集群节点失效检测方法,包括:
控制集群中的节点之间相互发送检测数据包;
依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
确定在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;
在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。
优选地,确定在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量的步骤之后,该方法包括:
在未接收到响应数据包的第一节点的数量等于预设的第一阀值时,确定在预设的第二时间间隔内未接收到第二节点发送的检测数据包的第一节点的数量;
在预设的第二时间间隔内,未接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点。
优选地,所述在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点的步骤之后,该方法包括:
获取集群节点中所述失效节点的数量;
在集群中所述失效节点的数量大于预设的第三阀值时,记录所述集群为失效集群。
优选地,所述确定在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量的步骤之后,该方法包括:
在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效 节点。
优选地,所述在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点的步骤之后,该方法包括:
确定所述失效节点上的传输资源的类型;
在所述失效节点上的传输资源为系统资源时,获取其它有效节点的负载状况,并确定负载最低的有效节点;
控制所述负载最低的有效节点进行所述系统资源的传输。
本发明还提出一种集群节点失效检测系统,包括:
控制模块,用于控制集群中的节点之间相互发送检测数据包;
节点有效性检测模块,用于依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
确定模块,用于确定在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;
记录模块,用于在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。
优选地,所述确定模块还用于在未接收到响应数据包的第一节点的数量等于预设的第一阀值时,确定在预设的第二时间间隔内未接收到第二节点发送的检测数据包的第一节点的数量;所述记录模块还用于在预设的第二时间间隔内,未接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点。
优选地,,所述获取模块还用于获取集群节点中所述失效节点的数量;所述记录模块还用于在集群中所述失效节点的数量大于预设的第三阀值时,记录所述集群为失效集群
优选地,所述记录模块还用于在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为有效节点。
优选地,所述确定模块还用于确定所述失效节点上的传输资源的类型;该系统还包括获取模块,用于在所述失效节点上的传输资源为系统资源时,获取其它有效节点的负载状况,并确定负载最低的有效节点;所述控制模块还用于控制所述负载最低的有效节点进行所述系统资源的传输。
本发明提出的集群节点失效检测方法和系统,控制集群中的节点之间相互发送检测数据包;依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;确定在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。在大于预设阀值数量的第一节点未接收到第二节点反馈的响应信息时,才认定第二节点为失效节点,保证失效节点定位的准确性。
附图说明
图1为本发明集群节点失效检测方法第一实施例的流程示意图;
图2为本发明集群节点失效检测方法第二实施例的流程示意图;
图3为本发明集群节点失效检测方法第三实施例的流程示意图;
图4为本发明集群节点失效检测方法第四实施例的流程示意图;
图5为本发明集群节点失效检测方法第五实施例的流程示意图;
图6为本发明集群节点失效检测系统较佳实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面结合附图及具体实施例就本发明的技术方案做进一步的说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明集群节点失效检测方法第一实施例的流程示意图。
本实施例提出一种集群节点失效检测方法,包括:
步骤S10,控制集群中的节点之间相互发送检测数据包;
在本实施例中,可控制各个节点之间互相发送检测数据包,以保证集群中各个节点之间运行状态的相互检测。
步骤S20,依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
例如,在集群中有A、B、C、D四个节点,将B节点作为第二节点,则 A、C、D三个节点均为第一节点,判断B节点是否有效,在判断B节点是否有效后,可按照预设的顺序继续判断C节点是否有效,依次类推直至检测完所有的节点。
步骤S30,获取在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;
在本实施例中,第二节点在接收到数据包时,对接收到的数据包进行解析以确定接收到的数据包的类型,在接收到的数据包为检测数据包时,向所述第一节点反馈响应数据包。由于存在通信链路故障的情况,则第一节点未接收到第二节点发送的反馈数据包括多种情况:a、通信链路出现故障;b、第一节点出现故障并未发送检测数据包;c、第二节点出现故障并未发送反馈数据包。
在本实施例中,获取未接收到第二节点反馈的响应数据包的第一节点的数量的步骤可通过以下方案实现:a、第一节点在预设的第一时间间隔内未接收到响应数据包时,记录第二节点相对于第一节点为不可信节点,并记录第一节点的标识(如名称以及代码等),则该记录的第一节点的标识的数量即为未接收到第二节点反馈的响应数据包的第一节点的数量;b、第一节点在预设的第一时间间隔内未接收到响应数据包时,记录所述第二节点为不可信节点。该记录不可信节点的步骤可通过多种方式实现,例如,建立可信节点数据库以及不可信节点数据库,在将第二节点记录为不可信节点时,将其标识(如名称以及代码等)添加至不可信节点数据库中;或者,在将第二节点记录为不可信节点时,给所述第二节点添加不可信标识,并获取记录第二节点为不可信节点的次数,该记录第二节点为不可信节点的次数即为未接收到第二节点反馈的响应数据包的第一节点的数量。
步骤S40,在获取的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。
在本实施例中,第一阀值可由用户进行设定,优选方案为第一节点的数量的一半,以保证在大部分第一节点未接收到第二节点反馈的响应数据包时,记录第二节点为失效节点。
本实施例提出的集群节点失效检测方法,控制集群中的节点之间相互发送检测数据包;依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;确定在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。在大于预设阀值数量的第一节点未接收到第二节点反馈的响应信息时,才认定第二节点为失效节点,保证失效节点定位的准确性。
进一步地,为提高集群节点失效检测的准确度 ,参照图2,提出本发明集群节点失效检测方法第二实施例,在本实施例中,步骤S30之后,该方法包括:
步骤S50,在未接收到响应数据包的第一节点的数量等于预设的第一阀值时,确定在预设的第二时间间隔内未接收到第二节点发送的检测数据包的第一节点的数量;
步骤S60,在预设的第二时间间隔内,未接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点。
在本实施例中,可能出现未接受到响应数据包的第一节点的数量等于预设的第一阀值的情况,此时,无法确定第二节点是否失效,需要通过第一节点是否接收到第二节点发送的检测数据包,来确定第二节点是否失效,即:确定预设的第二时间间隔内接收到第二节点发送的检测数据包的第一节点的数量,在预设的第二时间间隔内接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录该第二节点为有效节点,在预设的第二时间间隔内接受到未接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录该第二节点为失效节点。
本领域技术人员可以理解的是,为提高失效节点有效性检测的效率,步骤S30可替换为:获取在预设的第一时间间隔之内,未接收到第二节点发送的检测数据包第一节点的数量;在获取的第一节点的数量大于预设的第一阀值时,记录第二节点为失效节点。
进一步地,为提高通信的准确性,参照图3,提出本发明集群节点失效检测方法第三实施例,在本实施例中,步骤S30之后该方法还包括:
步骤S70,获取集群节点中所述失效节点的数量;
步骤S80,在集群中所述失效节点的数量大于预设的第三阀值时,记录所述集群为失效集群。
在本实施例中,预设的第三阀值优选为集群中节点数量的一半,在集群中大部分节点不可用时,则认为该集群系统已不可进行数据传输,记录该集群为失效集群。在记录失效节点以及记录该集群为失效集群之后,可向维护终端(如服务器以及维修人员携带的终端等)发送维护请求,要保证失效节点和失效集群及时回复正常。
本领域技术人员可以理解的是,在第三阀值优选为集群中节点数量的一半时,若集群中有一个节点为失效节点,且集群中节点总数为二时,则认为节点之间无法进行通信,此时记录所述集群为失效集群。
进一步地,为提高通信的准确性,参照图4,提出本发明集群节点失效检测方法第四实施例,在本实施例中,步骤S30之后该方法还包括:
步骤S90,判断获取的第一节点的数量大于或小于预设的第一阀值;
步骤S100,在获取的第一节点的数量小于预设的第一阀值时,记录所述第二节点为有效节点;
步骤S40,在获取到的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。
在本实施例中,在获取的第一节点的数量小于预设的第一阀值时,由于大部分的第一节点均接收到第二节点发送的响应数据包,则记录该第二节点为有效节点。
进一步地,为提高通信的准确性,参照图5,提出本发明集群节点失效检测方法第五实施例,在本实施例中,步骤S40之后该方法还包括:
步骤S110,确定所述失效节点上的传输资源的类型;
步骤S120,在所述失效节点上的传输资源为预设的资源类型时,获取其它有效节点的负载状况,并确定负载最低的有效节点;
步骤S130,控制所述负载最低的有效节点进行所述传输资源的传输。
在本实施例中,预设的资源类型其系统资源,为避免系统资源在传输过程中丢失,导致集群系统出现故障,则采用其它有效 节点进行该系统资源的传输,以保证系统运行正常;为减小其它有效节点的传输压力,采用传输负载最小的节点进行数据传输。
本领域技术人员可以理解的是,为提高数据传输效率,减小各个节点的传输压力,可将失效节点上的传输资源分为多个子资源,然后由多个有效节点分别传输该多个子资源。
参照图6,图6为本发明集群节点失效检测系统较佳实施例的功能模块示意图。
需要强调的是,对本领域的技术人员来说,图6所示功能模块图仅仅是一个较佳实施例的示例图,本领域的技术人员围绕图6所示的集群节点失效检测系统的功能模块,可轻易进行新的功能模块的补充;各功能模块的名称是自定义名称,仅用于辅助理解该集群节点失效检测系统的各个程序功能块,不用于限定本发明的技术方案,本发明技术方案的核心是,各自定义名称的功能模块所要达成的功能。
本实施例提出一种集群节点失效检测系统,包括:
控制模块10,用于控制集群中的节点之间相互发送检测数据包;
在本实施例中,可控制各个节点之间互相发送检测数据包,以保证集群中各个节点之间运行状态的相互检测。
节点有效性检测模块20,用于依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
例如,在集群中有A、B、C、D四个节点,将B节点作为第二节点,则 A、C、D三个节点均为第一节点,判断B节点是否有效,在判断B节点是否有效后,可按照预设的顺序继续判断C节点是否有效,依次类推直至检测完所有的节点。
获取模块30,用于获取在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;
在本实施例中,第二节点在接收到数据包时,对接收到的数据包进行解析以确定接收到的数据包的类型,在接收到的数据包为检测数据包时,向所述第一节点反馈响应数据包。由于存在通信链路故障的情况,则第一节点未接收到第二节点发送的反馈数据包括多种情况:a、通信链路出现故障;b、第一节点出现故障并未发送检测数据包;c、第二节点出现故障并未发送反馈数据包。
在本实施例中,获取未接收到第二节点反馈的响应数据包的第一节点的数量的步骤可通过以下方案实现:a、第一节点在预设的第一时间间隔内未接收到响应数据包时,记录第二节点相对于第一节点为不可信节点,并记录第一节点的标识(如名称以及代码等),则该记录的第一节点的标识的数量即为未接收到第二节点反馈的响应数据包的第一节点的数量;b、第一节点在预设的第一时间间隔内未接收到响应数据包时,记录所述第二节点为不可信节点。该记录不可信节点的步骤可通过多种方式实现,例如,建立可信节点数据库以及不可信节点数据库,在将第二节点记录为不可信节点时,将其标识(如名称以及代码等)添加至不可信节点数据库中;或者,在将第二节点记录为不可信节点时,给所述第二节点添加不可信标识,并获取记录第二节点为不可信节点的次数,该记录第二节点为不可信节点的次数即为未接收到第二节点反馈的响应数据包的第一节点的数量。
记录模块40,用于在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。
在本实施例中,第一阀值可由用户进行设定,优选方案为第一节点的数量的一半,以保证在大部分第一节点未接收到第二节点反馈的响应数据包时,记录第二节点为失效节点。
本实施例提出的集群节点失效检测系统,控制集群中的节点之间相互发送检测数据包;依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;确定在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。在大于预设阀值数量的第一节点未接收到第二节点反馈的响应信息时,才认定第二节点为失效节点,保证失效节点定位的准确性。
进一步地,为提高集群节点失效检测的准确度 ,所述获取模块30还用于在未接收到响应数据包的第一节点的数量等于预设的第一阀值时,确定在预设的第二时间间隔内未接收到第二节点发送的检测数据包的第一节点的数量;所述记录模块40还用于在预设的第二时间间隔内,未接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点。
在本实施例中,可能出现未接受到响应数据包的第一节点的数量等于预设的第一阀值的情况,此时,无法确定第二节点是否失效,需要通过第一节点是否接收到第二节点发送的检测数据包,来确定第二节点是否失效,即:确定预设的第二时间间隔内接收到第二节点发送的检测数据包的第一节点的数量,在预设的第二时间间隔内接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录该第二节点为有效节点,在预设的第二时间间隔内接受到未接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录该第二节点为失效节点。
本领域技术人员可以理解的是,为提高失效节点有效性检测的效率,获取模块30还用于获取在预设的第一时间间隔之内,未接收到第二节点发送的检测数据包第一节点的数量;记录模块40还用于在获取的第一节点的数量大于预设的第一阀值时,记录第二节点为失效节点。
进一步地,为提高通信的准确性,所述获取模块30还用于获取集群节点中所述失效节点的数量;所述记录模块40还用于在集群中所述失效节点的数量大于预设的第三阀值时,记录所述集群为失效集群。
在本实施例中,预设的第三阀值优选为集群中节点数量的一半,在集群中大部分节点不可用时,则认为该集群系统已不可进行数据传输,记录该集群为失效集群。在记录失效节点以及记录该集群为失效集群之后,可向维护终端(如服务器以及维修人员携带的终端等)发送维护请求,要保证失效节点和失效集群及时回复正常。
本领域技术人员可以理解的是,在第三阀值优选为集群中节点数量的一半时,若集群中有一个节点为失效节点,且集群中节点总数为二时,则认为节点之间无法进行通信,此时记录所述集群为失效集群。
进一步地,为提高通信的准确性,所述记录模块40还用于在获取的第一节点的数量小于预设的第一阀值时,记录所述第二节点为有效节点。
在本实施例中,在获取的第一节点的数量小于预设的第一阀值时,由于大部分的第一节点均接收到第二节点发送的响应数据包,则记录该第二节点为有效节点。
进一步地,为提高通信的准确性,该系统还包括确定模块用于确定所述失效节点上的传输资源的类型;所述获取模块30还用于在所述失效节点上的传输资源为预设的资源类型时,获取其它有效节点的负载状况,并确定负载最低的有效节点;所述控制模块10还用于控制所述负载最低的有效节点进行所述传输资源的传输。
在本实施例中,预设的资源类型其系统资源,为避免系统资源在传输过程中丢失,导致集群系统出现故障,则采用其它有效 节点进行该系统资源的传输,以保证系统运行正常;为减小其它有效节点的传输压力,采用传输负载最小的节点进行数据传输。
本领域技术人员可以理解的是,为提高数据传输效率,减小各个节点的传输压力,可将失效节点上的传输资源分为多个子资源,然后由多个有效节点分别传输该多个子资源。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种集群节点失效检测方法,其特征在于,包括:
控制集群中的节点之间相互发送检测数据包;
依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
获取在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;
在获取的所述第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。
2.根据权利要求1所述的方法,其特征在于,所述获取在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量的步骤之后,该方法包括:
在获取的所述第一节点的数量等于预设的第一阀值时,获取在预设的第二时间间隔内未接收到第二节点发送的检测数据包的第一节点的数量;
在预设的第二时间间隔内,未接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点。
3.根据权利要求1或2所述的方法,其特征在于,所述在获取的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点的步骤之后,该方法包括:
获取集群节点中所述失效节点的数量;
在集群中所述失效节点的数量大于预设的第三阀值时,记录所述集群为失效集群。
4.根据权利要求1或2所述的方法,其特征在于,所述获取在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量的步骤之后,该方法包括:
在获取的所述第一节点的数量小于预设的第一阀值时,记录所述第二节点为有效节点。
5.根据权利要求4所述的方法,其特征在于,所述在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点的步骤之后,该方法包括:
确定所述失效节点上的传输资源的类型;
在所述失效节点上的传输资源为预设的资源类型时,获取其它有效节点的负载状况,并确定负载最低的有效节点;
控制所述负载最低的有效节点进行所述传输资源的传输。
6.一种集群节点失效检测系统,其特征在于,包括:
控制模块,用于控制集群中的节点之间相互发送检测数据包;
节点有效性检测模块,用于依次将集群中任一节点作为第二节点,其它节点作为第一节点以确定第二节点的有效性;
获取模块,用于获取在预设的第一时间间隔之内,未接收到第二节点基于所述第一节点发送的检测数据包反馈的响应数据包的第一节点的数量;
记录模块,用于在未接收到响应数据包的第一节点的数量大于预设的第一阀值时,记录所述第二节点为失效节点。
7.根据权利要求6所述的系统,其特征在于,所述获取模块还用于在未接收到响应数据包的第一节点的数量等于预设的第一阀值时,确定在预设的第二时间间隔内未接收到第二节点发送的检测数据包的第一节点的数量;所述记录模块还用于在预设的第二时间间隔内,未接收到第二节点发送的检测数据包的第一节点的数量大于预设的第二阀值时,记录所述第二节点为失效节点。
8.根据权利要求6或7所述的系统,其特征在于,所述获取模块还用于获取集群节点中所述失效节点的数量;所述记录模块还用于在集群中所述失效节点的数量大于预设的第三阀值时,记录所述集群为失效集群。
9.根据权利要求6或7所述的系统,其特征在于,所述记录模块还用于在获取的第一节点的数量小于预设的第一阀值时,记录所述第二节点为有效节点。
10.根据权利要求6所述的系统,其特征在于,该系统还包括确定模块用于确定所述失效节点上的传输资源的类型;所述获取模块还用于在所述失效节点上的传输资源为预设的资源类型时,获取其它有效节点的负载状况,并确定负载最低的有效节点;所述控制模块还用于控制所述负载最低的有效节点进行所述传输资源的传输。
CN201410187243.0A 2014-05-05 2014-05-05 集群节点失效检测方法和系统 Active CN104038366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410187243.0A CN104038366B (zh) 2014-05-05 2014-05-05 集群节点失效检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410187243.0A CN104038366B (zh) 2014-05-05 2014-05-05 集群节点失效检测方法和系统

Publications (2)

Publication Number Publication Date
CN104038366A CN104038366A (zh) 2014-09-10
CN104038366B true CN104038366B (zh) 2017-10-27

Family

ID=51468962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410187243.0A Active CN104038366B (zh) 2014-05-05 2014-05-05 集群节点失效检测方法和系统

Country Status (1)

Country Link
CN (1) CN104038366B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105306545B (zh) * 2015-09-28 2018-09-07 浪潮(北京)电子信息产业有限公司 一种集群对外服务节点失效接管的方法及系统
CN105872118A (zh) * 2015-11-25 2016-08-17 乐视云计算有限公司 Dns网络中节点服务器的检测方法及设备
CN107426051B (zh) * 2017-07-19 2018-06-05 北京华云网际科技有限公司 分布式集群系统中节点的工作状态的监测方法、装置及系统
CN114244693A (zh) * 2021-12-17 2022-03-25 中国建设银行股份有限公司 异常检测方法、装置、设备、介质和程序产品
CN115622055B (zh) * 2022-12-19 2023-04-25 睿至科技集团有限公司 一种能源系统的故障识别恢复方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1317658C (zh) * 2002-12-31 2007-05-23 联想(北京)有限公司 利用机群节点相互备份的容错方法
CN101471825B (zh) * 2007-12-26 2011-05-11 中国科学院声学研究所 利用声望模型的p2p流媒体系统节点有效性的检测方法
DE102008002738B4 (de) * 2008-06-27 2010-03-11 Airbus Deutschland Gmbh Verfahren zum Erkennen eines fehlerhaften Knotens
CN103716182B (zh) * 2013-12-12 2016-08-31 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统

Also Published As

Publication number Publication date
CN104038366A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN104038366B (zh) 集群节点失效检测方法和系统
CN106502874B (zh) 一种调用链跟踪方法
CN101848114B (zh) 故障检测方法和装置
CN104135395B (zh) Idc网络中数据传输质量监控方法和系统
WO2018054397A1 (zh) 业务功能链检测路径的方法和装置
CN104683289A (zh) 公共业务实体注册方法和系统
CN106059791B (zh) 一种存储系统中业务的链路切换方法和存储设备
CN102255974A (zh) 一种云计算服务器的云存储方法
KR101831604B1 (ko) 데이터 전송 방법, 인증 방법 및 이를 수행하기 위한 서버
CN105868037A (zh) 程序运行过程中错误信息的处理方法及系统
CN103138988B (zh) 网络故障的定位处理方法及装置
CN107171885A (zh) 一种检测服务器运行状态的方法、装置和系统
CN103259699B (zh) 测试方法、系统及客户端和服务端
EP3269161A1 (en) Method and apparatus for fast communication of information during bluetooth discovery phase
CN106878164A (zh) 一种报文传输方法和装置
CN102882704A (zh) 一种issu的软重启升级过程中的链路保护方法和设备
CN106105154A (zh) 数据上载的方法、装置及系统
CN102143018A (zh) 消息循环的检测方法、路由代理设备及组网系统
CN109274636A (zh) 数据安全传输方法及其装置、系统、列车
CN103995901A (zh) 一种确定数据节点失效的方法
CN104158843B (zh) 分布式文件存储系统的存储单元失效检测方法及装置
CN104301131A (zh) 故障管理方法和装置
CN111147600B (zh) 集群环境下的服务执行方法及终端
CN115242839B (zh) 物联网级联数据传输方法、装置、电子设备和存储介质
CN106648444B (zh) 一种消息处理方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140910

Assignee: Liu Yi

Assignor: Shenzhen Zhongbo Kechuang Information Technology Co., Ltd.

Contract record no.: 2014440020487

Denomination of invention: Cluster node failure detection method and system

License type: Common License

Record date: 20141230

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Liu Yi

Assignor: Shenzhen Zhongbo Kechuang Information Technology Co., Ltd.

Contract record no.: 2014440020487

Date of cancellation: 20161025

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Faming

Inventor before: Liu Yi

Inventor before: Li Lu

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190903

Address after: 100089 Floor 1-4, No. 2 Building, No. 9 Courtyard, Dijin Road, Haidian District, Beijing

Patentee after: Beijing Toyou Feiji Electronics Co., Ltd.

Address before: 518000 Room 1402, Feiyada Science and Technology Building, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Zhongbo Kechuang Information Technology Co., Ltd.