CN102594596B - 识别集群网络中可用分区的方法、装置及集群网络系统 - Google Patents

识别集群网络中可用分区的方法、装置及集群网络系统 Download PDF

Info

Publication number
CN102594596B
CN102594596B CN201210033905.XA CN201210033905A CN102594596B CN 102594596 B CN102594596 B CN 102594596B CN 201210033905 A CN201210033905 A CN 201210033905A CN 102594596 B CN102594596 B CN 102594596B
Authority
CN
China
Prior art keywords
node
unicom
status data
subregion
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210033905.XA
Other languages
English (en)
Other versions
CN102594596A (zh
Inventor
何敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210033905.XA priority Critical patent/CN102594596B/zh
Publication of CN102594596A publication Critical patent/CN102594596A/zh
Application granted granted Critical
Publication of CN102594596B publication Critical patent/CN102594596B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明适用于通信技术领域,提供了一种识别可用分区的方法、装置以及集群网络系统,所述系统包括管理节点和至少两个业务节点,所述业务节点用于:向集群网络系统中的其它业务节点发送心跳信息;当在预设时间内没收到1个或1个以上其它业务节点的心跳信息时,检测集群网络中的其它业务节点与自己本身的联通状况,并收集其它业务节点与自己本身的联通状况数据;所述管理节点用于:根据至少两个业务节点收集的联通状况数据,将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区。本发明使得当集群发生网络分割故障时,而且分区节点数目都小于或者等于1/2节点个数的情形下,能够有效识别可用分区,继续对外提供服务。

Description

识别集群网络中可用分区的方法、装置及集群网络系统
技术领域
本发明属于通信技术领域,尤其涉及一种识别集群网络分割的可用分区的方法、装置及集群网络系统。
背景技术
随着集群技术的成熟,越来越多的应用放在了集群系统上,使资源得到充分利用,同时也避免单独设备带来的不可靠。集群系统的高可用性保障包括节点的故障检测和恢复,节点的故障检测大多都是用心跳机制来检测,当网络发生故障后,将集群割裂为几个分区,以保证集群正常工作,然而,被割裂的所有的分区上的物理节点都会尝试提供所有服务,抢夺资源,以及尝试恢复对方分区的服务,这样在不能识别可用的分区和不可用分区的情况下,导致同一业务在不同的分区节点上启动,从而发生脑裂。
现有技术,针对于高可用集群出现网络分割故障时发生脑裂的现象,通常采用1/2仲裁方式识别集群中的可用分区和不可用分区,以防止脑裂,具体为:各自节点检查当前分区,当检查当前分区中可用节点个数大于集群的总节点数的1/2时,判断当前分区为可用分区;否则判断当前分区判定为不可用分区,则对该不可用分区采用爆头以预防脑裂。然而,采用1/2仲裁方式识别集群中的可用分区,仅从每个分区所具有的节点个数来判断分区是否是可用分区,而没有考虑整体的分割情况,因此,当出现下列情况无法有效判断,可能导致整个集群对外服务不可:
1、网络分割为2块以上时,有可能没有单个分区有大于1/2节点个数。
2、集群节点个数为偶数,网络分割为2个平均的分区。
发明内容
本发明实施例提供一种识别可用分区的方法、装置,以及应用该方法的集群网络系统,实现集群网络分割时可用分区的有效识别。
为了实现上述目的,本发明实施例提供如下技术方案:
本发明实施例提供一种集群网络系统,所述系统包括管理节点和至少两个业务节点,其中:
所述业务节点用于:向所述集群网络系统中的其它业务节点发送心跳信息;当在预设时间内没收到1个或1个以上其它业务节点的心跳信息时,检测集群网络中的其它业务节点与自己本身的联通状况,并收集其它业务节点与自己本身的联通状况数据,所述联通状况数据反映该业务节点与其它业务节点联通与否;
所述管理节点用于:根据所述至少两个业务节点收集的联通状况数据,将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区。
本发明实施例还提供了一种识别集群网络中可用分区的方法,所述方法包括:
根据所述集群网络中节点之间的联通状况数据将所述集群网络分割成至少两个分区;
从所述分区中确定出可用分区。
本发明实施例还提供了一种识别集群网络中可用分区的装置,所述装置包括:
分割模块,用于根据所述集群网络中节点之间的联通状况数据将所述集群网络分割成至少两个分区;
识别模块,用于从所述分区中确定出可用分区。
本实施例通过业务节点检测集群网络中的其它业务节点与自己本身的联通状况,并收集其它业务节点与自己本身的联通状况数据,通过管理节点将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区。由于充分考虑了集群网络中节点与节点间的联通状况数据,使得当集群因为交换机或者其他原因发生网络分割故障时,能够有效识别可用分区,继续对外提供服务,尤其是当分区节点数目都小于或者等于1/2节点个数,或当集群节点为偶数时,仍然能够有效识别可用分区,继续对外提供服务。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的集群网络系统一的结构图;
图2是本发明实施例一提供的集群网络系统二的结构图;
图3是发明实施例二提供的识别集群网络中可用分区的方法的实现的流程图
图4是本发明实施例二提供的掩码标识网络节点的示意图。
图5是本发明实施例二提供的识别网络分区过程的示意图;
图6是本发明实施例三提供的识别集群网络中可用分区的装置的结构图;、
图7是本发明实施例三提供的识别集群网络中可用分区的装置的另一结构图
图8是本发明实施例三提供的集群网络中可用分区的装置在集群网络系统一布局的结构图;
图9是本发明实施例三提供的集群网络中可用分区的装置在集群网络系统二布局的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的实现进行详细描述:
实施例一
本实施例中的集群网络系统包括管理节点和至少两个业务节点,其中:
所述业务节点用于:向所述集群网络系统中的其它业务节点发送心跳信息;当在预设时间内没收到1个或1个以上其它业务节点的心跳信息时,检测集群网络中的其它业务节点与自己本身的联通状况,并收集其它业务节点与自己本身的联通状况数据,所述联通状况数据反映该业务节点与其它业务节点联通与否;
本实施例中,集群网络中的节点平时定时互发心跳以通告其它的节点本节点存活,相应的,每个节点都会检查是否收到其它节点的心跳数据。当一个节点在预设时间没收到其它的1个节点的预设心跳信息时,可能是节点故障或单个节点主机隔离;当一个节点在预设时间没有收到2个以上节点的心跳信息时,可能是多个节点故障或网络分割故障。
所述管理节点用于:根据所述至少两个业务节点收集的联通状况数据,将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区。
其中,管理节点可以是业务节点之外的节点,即管理节点可以不执行集群系统的业务操作,在应用层面上实际不属于该集群系统,例如可以是第三方仲裁机为物理机或者虚拟机;管理节点也可以是业务节点中的某一个节点。
其中,可用分区为节点个数最多的分区或分区权重值最大的分区,所述分区权重值为根据所述分区中每个节点的权重,按照加权法则,计算得到的值。
集群网络系统一
在集群网络系统一中,管理节点是业务节点之外的节点,即独立的管理节点,请参阅图1示出了本发明实施例一提供的集群网络系统一的结构图,为了便于说明,仅示出了与本发明实施例相关的部分,所述集群网络系统包括汇聚交换机11;接入交换机12、接入交换机13......接入交换机1M,每一个接入交换机对应的多个业务节点,节点1至节点N,如接入交换机12对应的业务节点包括121、122......12N,接入交换机13对应的业务节点包括131、132......13N,接入交换机1M对应的业务节点包括1M1、1M2......1MN,以及管理节点15。
在所述集群网络系统一中,业务节点收集其它业务节点与自己本身的联通状况数据,并将收集到的数据发送到管理节点15,由管理节点15根据所述至少两个业务节点收集的联通状况数据,将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区。其中,管理节点15收集到的联通状况数据可以是全部节点的数据时,也可以是部分节点的数据,当收集的是全部节点数据时,则根据收集到的全部节点数据将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区;当某些节点出现节点故障时,此时管理节点15收集到的联通状况数据是部分业务节点的联通状况时,可以只根据收集到的节点数据将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区;当然,管理节点15可以只收集发生变化的节点的联通状况数据,而复用未发生变化的节点的联通状况数据。
集群网络系统二
在集群网络系统二中,管理节点是多个业务节点中的选取的某一个节点,请参阅图2示出了本发明实施例一提供的集群网络系统二的结构图,为了便于说明,仅示出了与本发明实施例相关的部分,所述集群网络系统包括汇聚交换机21;接入交换机22、接入交换机23......接入交换机2M,每一个接入交换机对应的多个业务节点,节点1至节点N,如接入交换机22对应的业务节点包括221、222......22N,接入交换机23对应的业务节点包括231、232......23N,接入交换机2M对应的业务节点包括2M1、2M2......2MN,以及存储节点25。
集群网络系统二还包括存储节点25用于存储所述业务节点收集的联通状况数据存储节点,其中存储节点可以实现为集群网路中的共享存储,也可以实现为其它具备存储功能的物理节点。
此时,所述业务节点还用于:将收集的其它业务节点与自己本身的联通状况数据发送给所述存储节点;所述业务节点中选取的管理节点用于:从所述存储节点中获取所述至少两个业务节点收集的联通状况数据。以及所述管理节点还用于:向所述集群网络系统中的业务节点发送心跳信息;当在预设时间内没收到1个或1个以上业务节点的心跳信息时,检测集群网络中的业务节点与自己本身的联通状况并收集业务节点与自己本身的联通状况数据,所述联通状况数据反映该管理节点与业务节点联通与否。
本实施例中,可以根据实际需求制定管理节点的选取策略,例如,可以在存储节点中设置相应的属性位,当存储节点的数据发生变化时,业务节点对存储节点的属性值进行修改,可以选取第一个修改存储节点的业务节点为管理节点,写入数据顺序由存储节点上的写入锁保障。
本实施例通过业务节点检测集群网络中的其它业务节点与自己本身的联通状况,并收集其它业务节点与自己本身的联通状况数据,通过管理节点将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区。由于充分考虑了集群网络中节点与节点间的联通状况数据,使得当集群因为交换机或者其他原因发生网络分割故障时,而且分区节点数目都小于或者等于1/2节点个数的情形下,能够有效识别可用分区,继续对外提供服务;且当集群节点为偶数时,仍然能够有效识别可用分区,继续对外提供服务。
实施例二
图3示出了本发明实施例二提供的识别集群网络中可用分区的方法的实现的流程图,在集群网络中所有节点会向其它节点发送心跳信息以检测与其它节点的联通状况,所述方法详述如下:
在步骤S301中,根据所述集群网络中节点之间的联通状况数据将所述集群网络分割成至少两个分区。本发明实施例通过集群网络中各个节点之间的联通状况数据找到相互联通的节点组成一个分区,找到的各个分区之间不联通。
本实施例中,联通状况数据可以是本地存储的,也可以是从存储节点(例如共享存储)上获取的,当联通状况数据可以是本地存储时,收集其它节点与自己本身的联通状况数据的过程具体为:当在预设时间内没收到1个或1个以上节点的心跳信息时,检测集群网络中的其它节点与自己本身的联通状况并收集其它节点与自己本身的联通状况数据,所述联通状况数据反映该节点与其它节点联通与否,其中,可以通过ping包检测2节点间是否能够联通。
本实施例中,所述联通状况数据可以使用二进制掩码表示,具体为:将集群网络中的每一个节点与其它节点的联通状况分别以1个二进制字节表示,若当前节点跟其它节点的通信状况为不连通,则记录为0;若当前节点跟其它节点的通信状况为连通,则记录为1;每个节点本身为联通,记录为1。则步骤S301具体可以采用以下方式:
1、判断当前节点与其它节点是否联通;
2、若联通则记录为1,若未联通则记录为0;
3、判断当前节点是否是集群网络的最后一个节点,若是,则执行步骤S302,若否,则获取下一个网络节点,并执行步骤1。
值得说明的是,在实际的应用中,也可以采用若当前节点跟其它节点的通信状况为不连通,则记录为1;若当前节点跟其它节点的通信状况为连通,则记录为0。
为了便于理解,以下以8个节点的集群网络为例对集群网络中掩码记录的过程进行说明,但不以此情况为限,假设1号节点为当前节点,那么第1位即最低位表示跟1号节点自身的联通状态记录1;第2位表示1号节点与2号节点的联通状态,为不联通,则记录为0;第3位表示1号节点与3号节点的联通状态,为不联通,则记录为0;第4位表示1号节点与4号节点的联通状态,为联通,则记录为1;......以此类推,1号节点与5号节点至8号节点的联通状态,均为不联通,记录为0,则1号节点与其它节点的联通状况数据记录为“00001001”;2号节点与其它节点的联通状况数据记录为“00010010”;3号节点与其它节点的联通状况数据记录为“11100100”;4号节点与其它节点的联通状况数据记录为“00001001”;5号节点与其它节点的联通状况数据记录为“00010010”;6号节点与其它节点的联通状况数据记录为“11100100”;7号节点与其它节点的联通状况数据记录为“11100100”;8号节点与其它节点的联通状况数据记录为“11100100”,具体可以参阅图4。
此时,所述步骤S301具体为:
A、在所述集群网络节点之间的联通状况数据中选择一个节点的联通状况数据,将所述选择的节点的联通状况数据与其它节点的联通状况数据进行与运算,根据运算的结果,将与所述选择的节点有交集的节点作为一个分区;
本实施例中,如果该节点的联通状况数据与其它节点的联通状况数据进行与运算的结果不为0,表示两节点有交集,则两节点为相同分区;如果该节点的联通状况数据与其它节点的联通状况数据进行与运算的结果为0,表示两节点没有交集,则两节点为不同分区。
B、在未被分区的节点中继续选择下一个节点的联通状况数据,将所述下一个节点的联通状况数据与剩余的未被分区的节点的联通状况数据继续进行与运算,根据运算的结果,将与所述下一个节点有交集的节点作为一个分区;
C、判断分区是否完成,若是,则结束;若否,则返回执行步骤B。
为了便于理解,以下仍然以上述8个节点的集群网络为例,对集群网络节点分区的过程进行说明,但不以此情况为限,请参与图5为识别网络分区的具体过程:首先,将节点1与其它的7个节点进行与运算,根据运算结果,节点1与节点4有交集,则将节点1和节点4划分为1个分区;在未被分区的六个节点中,继续将节点2与其它的节点进行与运算,将节点2和节点5划分为1个分区;以此类推,得到节点3、节点6、节点7和节点8构成的分区,此时,分区完成,得到所有3个分区。
本实施例中,通过二进制掩码标识网络节点间联通状况,使不同的网络节点间通过循环与运算比较得到网络整体状态,实现将集群网络节点分割成不同的分区。
在步骤S302中,从所述分区中确定出可用分区;
本实施例中,所述可用分区为节点个数最多的分区或分区权重值最大的分区,所述分区权重值为根据所述分区中每个节点的权重,按照加权法则,计算得到的值,其中,每个节点的权重可以根据每个集群的具体情况进行预先设置。
另外,可选的,本发明实施例提供的方法步骤S301之前还可以包括:当在预设时间内没收到1个或1个以上节点的心跳信息时,检测集群网络中的其它节点与自己本身的联通状况并收集其它节点与自己本身的联通状况数据,所述联通状况数据反映该节点与其它节点联通与否。应当理解的是,该收集信息的步骤应当是至少两个节点。
本实施例中,当集群网络遇到网络分割故障后,各节点接收到分割故障信息,并根据故障信息,采用本实施例中的算法对集群进行分区,取代了原来的1/2策略算法。后续集群管理进程使可用分区接管集群对外提供服务,并尝试恢复位于非此分区上的业务;不可用分区的节点爆头(下电),或根据业务用户自设的网络分割执行策略,例如虚拟化集群下,可以按用户设定的相关策略——虚拟机继续运行/下电/强制下电执行,以达到用户期望结果。
本实施例通过业务节点检测集群网络中的其它业务节点与自己本身的联通状况,并收集其它业务节点与自己本身的联通状况数据,通过管理节点将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区。由于充分考虑了集群网络中节点与节点间的联通状况数据,使得当集群因为交换机或者其他原因发生网络分割故障时,而且分区节点数目都小于或者等于1/2节点个数的情形下,能够有效识别可用分区,继续对外提供服务;且当集群节点为偶数时,仍然能够有效识别可用分区,继续对外提供服务。
实施例三
图6示出了本发明实施例三提供的识别集群网络中可用分区的装置的结构图,为了便于说明,仅示出了与本发明实施例相关的部分。
所述装置包括分割模块61和识别模块62。
分割模块61,用于根据所述集群网络中节点之间的联通状况数据将所述集群网络分割成至少两个分区;
识别模块62,用于从所述分区中确定出可用分区。
可选的,所述联通状况数据可以使用二进制掩码表示,所述分割模块62具体用于:A、在所述集群网络节点之间的联通状况数据中选择一个节点的联通状况数据,将所述选择的节点的联通状况数据与其它节点的联通状况数据进行与运算,根据运算的结果,将与所述选择的节点有交集的节点作为一个分区;B、在未被分区的节点中继续选择下一个节点的联通状况数据,将所述下一个节点的联通状况数据与剩余的未被分区的节点继续进行与运算,根据运算的结果,将与所述下一个节点有交集的节点作为一个分区;C、判断分区是否完成,若是,则结束;若否,则返回执行步骤B。具体实现过程可以参考实施例二中介绍,在此不再赘述。
可选的,所述可用分区为节点个数最多的分区或分区权重值最大的分区,所述分区权重值为根据所述分区中每个节点的权重,按照加权法则,计算得到的值。
可选的,所述装置还包括信息收集模块63,请参阅图7,信息收集模块63用于当在预设时间内没收到1个或1个以上业务节点的心跳信息时,检测集群网络中的业务节点与自己本身的联通状况并收集业务节点与自己本身的联通状况数据,所述联通状况数据反映该管理节点与业务节点联通与否。应当理解的是,信息收集的功能可以由本发明实施例的识别可用分区装置完成,也可以由其他装置完成,例如集群系统中的集群故障检测装置等。
根据集群网络的不同,上述识别集群网络中可用分区的装置在集群网络系统中的布局可以采用如下方式:
对于实施例一中的集群网络系统一,识别集群网络可用分区的装置在集群网络中的布局请参阅图8,为了便于说明,仅示出了与本发明实施例相关的部分:
其中,可以在各个业务节点上设置信息收集模块63,用于当在预设时间内没收到1个或1个以上其它业务节点的心跳信息时,检测集群网络中的其它业务节点与自己本身的联通状况,并收集其它业务节点与自己本身的联通状况数据,所述联通状况数据反映该业务节点与其它业务节点联通与否。应当理解的是,初始情况下,各个业务节点向所述集群网络系统中的其它业务节点发送心跳信息,所述心跳信息用于检测网络的联通状况。
部属在独立的管理节点上分隔模块61和识别模块62,根据所述至少两个业务节点收集的联通状况数据,将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区。
对于实施例一中的集群网络系统二,识别集群网络中可用分区的装置在集群网络中的请参阅图9,为了便于说明,仅示出了与本发明实施例相关的部分:
在所有业务节点上设置信息收集模块63,向所述集群网络系统中的其它业务节点发送心跳信息;当在预设时间内没收到1个或1个以上其它业务节点的心跳信息时,检测集群网络中的其它业务节点与自己本身的联通状况,并收集其它业务节点与自己本身的联通状况数据,所述联通状况数据反映该业务节点与其它业务节点联通与否;
并在业务节点中选取业务节点1作为管理节点,并在所述选中的管理节点部属所述分隔模块61和识别模块62,两个模块用于根据所述至少两个业务节点收集的联通状况数据,将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区。
除以上之外,集群网络中还可以包括存储节点25,用来存储各个业务节点收集的网络连通状况数据,并提供给上述管理节点使用。
本发明实施例提供的识别集群网络中可用分区的装置可以使用在前述对应的方法实施例二中,详情参见上述实施例二的描述,在此不再赘述。
值得注意的是,上述装置和系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种集群网络系统,其特征在于,所述系统包括管理节点和至少两个业务节点,其中:
所述业务节点用于:向所述集群网络系统中的其它业务节点发送心跳信息;当在预设时间内没收到1个或1个以上其它业务节点的心跳信息时,检测集群网络中的其它业务节点与自己本身的联通状况,并收集其它业务节点与自己本身的联通状况数据,所述联通状况数据反映该业务节点与其它业务节点联通与否;
所述管理节点用于:根据至少两个所述业务节点收集的联通状况数据,将所述集群网络分割成至少两个分区,从所述分区中确定出可用分区;
所述可用分区为节点个数最多的分区或分区权重值最大的分区,所述分区权重值为根据所述分区中每个节点的权重,按照加权法则,计算得到的值。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括存储节点,其中:
所述存储节点用于:存储所述业务节点收集的联通状况数据;
所述业务节点还用于:将收集的其它业务节点与自己本身的联通状况数据发送给所述存储节点;
所述管理节点还用于:从所述存储节点中获取所述至少两个业务节点收集的联通状况数据。
3.根据权利要求1或2所述的系统,其特征在于,所述管理节点还用于:向所述集群网络系统中的业务节点发送心跳信息;当在预设时间内没收到1个或1个以上业务节点的心跳信息时,检测集群网络中的业务节点与自己本身的联通状况并收集业务节点与自己本身的联通状况数据,所述联通状况数据反映该管理节点与业务节点联通与否。
4.一种识别集群网络中可用分区的方法,其特征在于,所述方法包括:
根据所述集群网络中节点之间的联通状况数据将所述集群网络分割成至少两个分区;
从所述分区中确定出可用分区;
所述可用分区为节点个数最多的分区或分区权重值最大的分区,所述分区权重值为根据所述分区中每个节点的权重,按照加权法则,计算得到的值。
5.如权利要求4所述的方法,其特征在于,所述联通状况数据使用二进制掩码表示,所述根据所述集群网络中节点之间的联通状况数据将所述集群网络分割成至少两个分区,具体包括:
A、在所述集群网络节点之间的联通状况数据中选择一个节点的联通状况数据,将所述选择的节点的联通状况数据与其它节点的联通状况数据进行与运算,根据运算的结果,将与所述选择的节点有交集的节点作为一个分区;
B、在未被分区的节点中继续选择下一个节点的联通状况数据,将所述下一个节点的联通状况数据与剩余的未被分区的节点的联通状况数据继续进行与运算,根据运算的结果,将与所述下一个节点有交集的节点作为一个分区;
C、判断分区是否完成,若是,则结束;若否,则返回执行步骤B。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当在预设时间内没收到1个或1个以上节点的心跳信息时,检测集群网络中的其它节点与自己本身的联通状况并收集其它节点与自己本身的联通状况数据,所述联通状况数据反映该节点与其它节点联通与否。
7.一种识别集群网络中可用分区的装置,其特征在于,所述装置包括:
分割模块,用于根据所述集群网络中节点之间的联通状况数据将所述集群网络分割成至少两个分区;
识别模块,用于从所述分区中确定出可用分区,所述可用分区为节点个数最多的分区或分区权重值最大的分区,所述分区权重值为根据所述分区中每个节点的权重,按照加权法则,计算得到的值。
8.如权利要求7所述的装置,其特征在于,所述联通状况数据使用二进制掩码表示,所述分割模块具体用于:A、在所述集群网络节点之间的联通状况数据中选择一个节点的联通状况数据,将所述选择的节点的联通状况数据与其它节点的联通状况数据进行与运算,根据运算的结果,将与所述选择的节点有交集的节点作为一个分区;B、在未被分区的节点中继续选择下一个节点的联通状况数据,将所述下一个节点的联通状况数据与剩余的未被分区的节点继续进行与运算,根据运算的结果,将与所述下一个节点有交集的节点作为一个分区;C、判断分区是否完成,若是,则结束;若否,则返回执行步骤B。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
信息收集模块,用于当在预设时间内没收到1个或1个以上业务节点的心跳信息时,检测集群网络中的业务节点与自己本身的联通状况并收集业务节点与自己本身的联通状况数据,所述联通状况数据反映该管理节点与业务节点联通与否。
CN201210033905.XA 2012-02-15 2012-02-15 识别集群网络中可用分区的方法、装置及集群网络系统 Expired - Fee Related CN102594596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210033905.XA CN102594596B (zh) 2012-02-15 2012-02-15 识别集群网络中可用分区的方法、装置及集群网络系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210033905.XA CN102594596B (zh) 2012-02-15 2012-02-15 识别集群网络中可用分区的方法、装置及集群网络系统

Publications (2)

Publication Number Publication Date
CN102594596A CN102594596A (zh) 2012-07-18
CN102594596B true CN102594596B (zh) 2014-08-20

Family

ID=46482816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210033905.XA Expired - Fee Related CN102594596B (zh) 2012-02-15 2012-02-15 识别集群网络中可用分区的方法、装置及集群网络系统

Country Status (1)

Country Link
CN (1) CN102594596B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104052608B (zh) * 2014-07-07 2017-04-19 西安电子科技大学 云应用中基于第三方的无证书远程匿名认证方法
CN105704187B (zh) * 2014-11-27 2019-03-05 华为技术有限公司 一种集群脑裂的处理方法及装置
CN104580001B (zh) * 2014-12-29 2018-08-03 中国科学院信息工程研究所 一种网络数据包处理动态负载均衡方法
WO2016106682A1 (zh) * 2014-12-31 2016-07-07 华为技术有限公司 一种集群脑裂后仲裁处理方法、仲裁存储装置以及系统
JP6662185B2 (ja) * 2016-04-28 2020-03-11 横河電機株式会社 処理装置、代替処理装置、中継装置、処理システム及び処理方法
CN106452892A (zh) * 2016-10-24 2017-02-22 深圳市深信服电子科技有限公司 一种虚拟化管理的方法、节点及系统
CN106789193A (zh) * 2016-12-06 2017-05-31 郑州云海信息技术有限公司 一种集群投票仲裁方法及系统
CN109257195B (zh) 2017-07-12 2021-01-15 华为技术有限公司 集群中节点的故障处理方法及设备
CN107566219B (zh) * 2017-09-27 2020-09-18 华为技术有限公司 应用于集群系统的故障诊断方法、节点设备和计算机设备
CN111708668B (zh) * 2020-05-29 2023-07-07 北京金山云网络技术有限公司 集群故障的处理方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547119A (zh) * 2003-12-04 2004-11-17 中国科学院计算技术研究所 一种构造大规模高可用机群操作系统的方法
CN1892612A (zh) * 2005-06-28 2007-01-10 国际商业机器公司 集群可用性管理方法和系统
US7739541B1 (en) * 2003-07-25 2010-06-15 Symantec Operating Corporation System and method for resolving cluster partitions in out-of-band storage virtualization environments

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739541B1 (en) * 2003-07-25 2010-06-15 Symantec Operating Corporation System and method for resolving cluster partitions in out-of-band storage virtualization environments
CN1547119A (zh) * 2003-12-04 2004-11-17 中国科学院计算技术研究所 一种构造大规模高可用机群操作系统的方法
CN1892612A (zh) * 2005-06-28 2007-01-10 国际商业机器公司 集群可用性管理方法和系统

Also Published As

Publication number Publication date
CN102594596A (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
CN102594596B (zh) 识别集群网络中可用分区的方法、装置及集群网络系统
JP5723990B2 (ja) ファブリックに対する情報を集めるためにエージェントの等価サブセットを定める方法、およびそのシステム。
CN104469699B (zh) 集群仲裁方法和多集群配合系统
CN110851311A (zh) 服务故障的识别方法、装置、设备及存储介质
CN102394914A (zh) 集群脑裂处理方法和装置
JP2013542476A5 (zh)
CN109522316A (zh) 日志处理方法、装置、设备和存储介质
CN108206768A (zh) 集群监测和切换方法及装置
CN114943287A (zh) 一种计算机大数据采集处理系统、方法、设备及介质
CN113687790A (zh) 数据重构方法、装置、设备及存储介质
CN111459399A (zh) 一种数据写入方法、数据读取方法及装置
CN102187627B (zh) 负载分担的方法及装置、宽带接入服务器系统
CN107656847A (zh) 基于分布式集群的节点管理方法、系统、装置及存储介质
CN103810038A (zh) 一种ha集群中虚拟机存储文件迁移方法及其装置
CN113051428B (zh) 一种摄像机前端存储备份的方法及装置
CN104158843B (zh) 分布式文件存储系统的存储单元失效检测方法及装置
CN117411840A (zh) 链路故障处理方法、装置、设备、存储介质和程序产品
CN116760745A (zh) 网络异常处理方法、装置、设备、存储介质和程序产品
CN114697353B (zh) 一种分布式存储集群电网数据存储控制方法
CN103176745A (zh) 具有双控制器的储存系统的硬盘阵列接管方法
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN109213639A (zh) 一种存储容灾方法及装置
CN111324513B (zh) 一种人工智能开发平台的监控管理方法及系统
CN111131095B (zh) 报文转发方法及装置
CN108196985A (zh) 一种基于智能预测的存储系统故障预测方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140820

Termination date: 20180215

CF01 Termination of patent right due to non-payment of annual fee