CN102638369B - 一种主备倒换的仲裁方法、装置和系统 - Google Patents

一种主备倒换的仲裁方法、装置和系统 Download PDF

Info

Publication number
CN102638369B
CN102638369B CN201210088019.7A CN201210088019A CN102638369B CN 102638369 B CN102638369 B CN 102638369B CN 201210088019 A CN201210088019 A CN 201210088019A CN 102638369 B CN102638369 B CN 102638369B
Authority
CN
China
Prior art keywords
bmc
primary
subsequent use
normal
communication connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210088019.7A
Other languages
English (en)
Other versions
CN102638369A (zh
Inventor
石峰
吴登奔
张羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210088019.7A priority Critical patent/CN102638369B/zh
Publication of CN102638369A publication Critical patent/CN102638369A/zh
Application granted granted Critical
Publication of CN102638369B publication Critical patent/CN102638369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种主备倒换的仲裁方法、装置和系统,涉及小型机技术领域,解决了在主备倒换时因为没有关注主备SP的管理能力,而导致系统可用性不高的问题,同时也解决了由于添加第三方仲裁者而带来额外成本的问题。所述方法包括:主用SP向备用SP发送通信连接检测指令;当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,所述主用SP向所述备用SP发送主备倒换指令。本发明实施例主要用于主备倒换的过程中。

Description

一种主备倒换的仲裁方法、装置和系统
技术领域
本发明涉及小型机技术领域,尤其涉及一种主备倒换的仲裁方法、装置和系统。
背景技术
在小型机领域中,管理系统对各个BMC(Baseboard ManagementController,基板管理控制器)进行统一管理,并保证系统的可靠性、可用性以及稳定性。目前的服务处理器(Service Processor,SP)采用主SP与备SP共同管理系统,并保证主备的快速切换甚至是无缝切换,而且为了防止网络的单点失效,一般采用双网双平面的架构。
在现有技术中,一种方式是着眼于主备SP倒换的稳定性以及倒换速度,同时专门设计了一个仲裁电路进行主备SP倒换的仲裁;另一种方式是为管理系统增加了冗余的第三方仲裁,来关注SP是否在位,从而决定是否需要进行主备倒换。
发明人经过研究发现,现有技术方案主要涉及主备倒换的稳定性以及速度,将主备SP是否在位、是否有故障作为主备切换的仲裁条件,而没有关注主备SP的管理能力,系统的可用性不高,而且由于在管理系统中添加了专门的第三方仲裁者,额外增加了系统的成本。
发明内容
本发明的实施例提供一种主备倒换的仲裁方法、装置和系统,避免增加额外的设施充当仲裁者,降低了系统的成本,同时将服务处理器的管理能力也作为仲裁条件,提高了系统的可用性。
为达到上述目的,本发明采用如下技术方案:
一种主备倒换的仲裁方法,包括:
主用服务处理器SP检测并统计与自身通信连接正常的基板管理控制器BMC的个数,当检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向备用SP发送通信连接检测指令,以触发所述备用SP检测自身与各个BMC之间的通信连接是否正常,并统计与所述备用SP通信连接正常的BMC的个数;
当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,所述主用SP向所述备用SP发送主备倒换指令,以指示所述备用SP将自身的IP地址修改为所述主用SP的IP地址。
本发明实施例还提供另一种主备倒换的仲裁方法,包括:
第一SP检测与之相连的第二SP发送的心跳信号,所述心跳信号用于表明所述第二SP的状态正常;
当所述第一SP检测不到所述第二SP发送的心跳信号时,向与所述第二SP连接的各个BMC发送通信连接检测指令,以触发所述各个BMC检测各自与所述第二SP之间的通信连接是否正常;
当所述第一SP为备用SP,所述第二SP为主用SP,且所述各个BMC与所述第二SP之间的通信连接均不正常时,所述第一SP将自身的IP地址修改为所述主用SP的IP地址。
本发明实施例还提供一种主用服务处理器SP,用于对与之相连的基板管理控制器BMC进行管理,该主用SP包括:
第一处理单元,用于检测并统计与所述主用SP通信连接正常的BMC的个数,当检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向与所述主用SP连接的备用SP发送通信连接检测指令,以触发所述备用SP检测自身与各个BMC之间的通信连接是否正常,并统计与所述备用SP通信连接正常的BMC的个数;
第二处理单元,用于当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,向所述备用SP发送主备倒换指令,以指示所述备用SP将自身的IP地址修改为所述主用SP的IP地址。
本发明实施例还提供一种服务处理器SP,包括:
检测单元,用于检测与所述SP相连的另一SP发送的心跳信号,所述心跳信号用于表明所述另一SP的状态正常;
发送单元,用于当检测不到所述另一SP发送的心跳信号时,向与所述另一SP连接的各个BMC发送通信连接检测指令,以触发所述各个BMC检测各自与所述另一SP之间的通信连接是否正常;
处理单元,用于当所述SP为备用SP,所述另一SP为主用SP,且所述各个BMC与所述另一SP之间的通信连接均不正常时,将所述SP自身的IP地址修改为所述另一SP的IP地址。
本发明实施例还提供一种小型机系统,包括:主用服务处理器SP、备用SP、以及与所述主用SP和所述备用SP分别连接的多个BMC;所述主用SP用于对所述各个BMC进行管理,所述主用SP,还用于检测并统计与自身通信连接正常的BMC的个数,当检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向所述备用SP发送通信连接检测指令;
所述备用SP,用于在接收到所述主用SP发送的通信连接检测指令之后,检测自身与各个BMC之间的通信连接是否正常,并统计与自身通信连接正常的BMC的个数;
所述主用SP,还用于当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,所述主用SP向所述备用SP发送主备倒换指令;
所述备用SP,还用于在接收到所述主用SP发送的主备倒换指令后,将自身的IP地址修改为所述主用SP的IP地址。
本发明实施例还提供另外一种小型机系统,包括:第一服务处理器SP、第二SP、以及与所述第一SP和所述第二SP分别连接的多个基板管理控制器BMC,所述第一SP与所述第二SP通过互相发送心跳信号来告知对方自身的状态正常,所述第一SP和所述第二SP可以在主用状态和备用状态之间切换,当所述第一SP为主用SP时,所述第二SP为备用SP;当所述第一SP为备用SP时,所述第二SP为主用SP;所述第一SP,用于在检测不到所述第二SP发送的心跳信号时,向与所述第二SP连接的各个BMC发送通信连接检测指令;
所述BMC,用于在接收到所述第一SP发送的通信连接检测指令后,检测自身与所述第二SP之间的通信连接是否正常;
所述第一SP,还用于当所述第一SP为备用SP,所述第二SP为主用SP,且所述各个BMC与所述第二SP之间的通信连接均不正常时,所述第一SP将自身的IP地址修改为所述第二SP的IP地址。
本发明实施例提供的方案,当检测到存在至少一个BMC与该主用SP之间的通信连接存在异常时,通过比较主用SP和备用SP对各个BMC的管理能力,来决定是否进行主备倒换,不需要引入第三方仲裁者,降低了系统的成本,同时在主备双方都存在心跳且健康的情况下,考虑受管者的可管理性作为主备切换的仲裁条件,主备双方根据自己的管理能力进行主备切换,提高系统的可用性。
附图说明
图1为本发明实施例1提供的一种主备倒换的仲裁方法的流程图;
图2为现有技术中管理系统采用双网双平面的架构示例图;
图3为本发明实施例1提供的所述主用SP与所述至少一个BMC之间的通信链路存在故障的示例图;
图4为本发明实施例1提供的主备倒换的示例图;
图5为本发明实施例1提供的另一种主备倒换的仲裁方法的流程图;
图6为本发明实施例1提供的一个BMC存在异常的示例图;
图7为本发明实施例1提供的一种主备倒换的仲裁装置结构图;
图8为本发明实施例2提供的一种主备倒换的仲裁方法的流程图;
图9为本发明实施例2提供的所述主用SP状态异常的示例图;
图10为本发明实施例2提供的主备倒换的示例图;
图11为本发明实施例2提供的又一种主备倒换的仲裁方法的流程图;
图12为本发明实施例2提供的另一种主备倒换的仲裁方法的流程图;
图13为本发明实施例2提供的主用SP和备用SP之间的通信链路存在异常的示例图;
图14为本发明实施例2提供的再一种主备倒换的仲裁方法的流程图;
图15为本发明实施例2提供的备用SP状态异常的示例图;
图16为本发明实施例2提供的一种主备倒换的仲裁装置的结构图;
图17为本发明实施例3提供的一种小型机系统的结构图;
图18为本发明实施例3提供的另一种小型机系统的结构图。
具体实施方式
下面结合附图对本发明实施例一种主备倒换的仲裁方法、装置和系统进行详细描述。
实施例1
本发明实施例提供的一种主备倒换的仲裁方法,如图1所示,具体包括:
101、主用SP检测并统计与自身通信连接正常的BMC的个数,当检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向备用SP发送通信连接检测指令,以触发所述备用SP检测自身与各个BMC之间的通信连接是否正常,并统计与所述备用SP通信连接正常的BMC的个数;
102、当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,所述主用SP向所述备用SP发送主备倒换指令,以指示所述备用SP将自身的IP地址修改为所述主用SP的IP地址。
本发明实施例提供的一种主备倒换的仲裁方法,当主用SP检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,通过比较主用SP和备用SP对各个BMC的管理能力,来决定是否进行主备倒换。本发明实施例提供的方案,不需要引入第三方仲裁者,降低了系统的成本,同时在主备双方都存在心跳且健康的情况下,考虑受管者的可管理性作为主备切换的仲裁条件,主备双方根据自己的管理能力进行主备切换,提高系统的可用性。
在小型机领域,通过小型机管理系统对各个BMC进行统一的管理,而且为了防止网络的单点失效,管理系统一般会采用双网双平面的架构,如图2所示,图中实线与虚线代表两个网络平面。
BMC是整个小型机管理系统的一个有机组成部分,负责管理各个节点,对于不同的级别的小型机系统,系统中BMC的个数会不一样,例如32路系统中可能会存在16个BMC,而16路的系统中,可能只有8个BMC。所有的BMC会组成一个仲裁集团。在图2所述的架构中,主用SP会将一些必要的同步信息同步到备SP上。只有主用SP会对BMC进行管理,备用SP处于“待命”状态,只有在升主后,它才会接手对BMC的管理。
在图2所示的管理系统中,用户会预先对主用SP和备用SP设置各自的IP地址,同时会将所述主用SP的IP地址通知所述备用SP,所述主用SP在工作过程中会将其管理的BMC的IP信息同步到备用SP上。
当主要SP检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向备用SP发送通信连接检测指令,以触发所述备用SP检测自身与各个BMC之间的通信连接是否正常,备用SP通过ping的方式来检测自身能够ping通的BMC的个数。
在具体应用时,如图3所示,由于所述主用SP与所述至少一个BMC之间的通信链路存在故障,导致所述主用SP与所述至少一个BMC失去通信,但是备用SP可以和所述至少一个BMC通信,在这种情况下,所述检测结果指示与所述备用SP存在正常通信连接的BMC个数大于与所述主用SP存在正常通信连接的BMC个数,且与所述备用SP存在正常通信连接的BMC,除了包含所有与所述主用SP存在正常通信连接的BMC之外,还包含与所述主用SP不能正常通信连接的其他BMC,则表明此时所述备用SP更适合当所述主用SP,所以所述主用SP向所述备用SP发送主备倒换指令,以指示所述备用SP将自身的IP地址修改为主用SP的IP地址。如图4所示,所述各个BMC只需要不停的去连接192.168.51.5这个IP地址,主备倒换的过程对于所述各个BMC是并不可见,所述主备倒换过程就是一个修改IP地址的过程。
可选的,本发明实施例提供的一种主备倒换的仲裁方法,如图5所示,具体还包括:
103、当与所述主用SP通信连接正常的BMC个数大于或者等于与所述主用SP通信连接正常的BMC个数时,所述主用SP保持现有状态不变。
当所述检测结果中指示与所述备用SP存在正常通信连接的BMC个数小于或等于所述主用SP存在正常通信连接的BMC个数,说明所述主用SP仍然更适合作为主用SP。
如图6所示,当一个BMC存在异常时,导致所述备用SP也与所述BMC失去通信,则所述主用SP保持现有状态继续运行。
相应地,本发明实施例提供的一种主用服务处理器SP,如图7所示,该主用SP10包括第一处理单元11和第二处理单元12。
其中,所述第一处理单元11,用于检测并统计与所述主用SP通信连接正常的BMC的个数,当检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向与所述主用SP连接的备用SP发送通信连接检测指令,以触发所述备用SP检测自身与各个BMC之间的通信连接是否正常,并统计与所述备用SP通信连接正常的BMC的个数;;
第二处理单元12,用于当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,向所述备用SP发送主备倒换指令,以指示所述备用SP将自身的IP地址修改为所述主用SP的IP地址。
本发明实施例提供的主用SP,当检测到存在至少一个BMC与该主用SP之间的通信连接存在异常时,通过比较主用SP和备用SP对各个BMC的管理能力,来决定是否进行主备倒换。本发明实施例提供的方案,不需要引入第三方仲裁者,降低了系统的成本,同时在主备双方都存在心跳且健康的情况下,考虑受管者的可管理性作为主备切换的仲裁条件,主备双方根据自己的管理能力进行主备切换,提高系统的可用性。
其中,所述主用SP的第二处理单元,还用于当与所述主用SP通信连接正常的BMC个数大于或者等于与所述备用SP通信连接正常的BMC个数时,所述主用SP保持现有状态不变。
上述的实施例中,主备倒换的仲裁触发条件是主用SP检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常,然后通过比较主用SP和备用SP能够正常通信连接的BMC的个数,以及与所述备用SP存在正常通信连接的BMC是否包含所有与所述装置存在正常通信连接的BMC,来判断谁更适合作为主用SP,通过管理系统内的自有装置作为仲裁方,降低了系统的成本,更加关注服务处理器的管理能力,提高系统的可用性。
实施例2
本发明实施例提供的一种主备倒换的仲裁方法,如图8所示,具体包括:
201、第一服务器SP检测与之相连的第二SP发送的心跳信号,所述心跳信号用于表明所述第二SP的状态正常;
在本发明实施例提供的方法的操作过程中,第一SP与第二SP之间通过周期性发送心跳信号,判断设备的健康状况,判断对方是否“存活”,如果在指定的时间内仍没有收到设备的心跳信号,就可以判断此设备发生故障。
202、当第一SP检测不到第二SP发送的心跳信号时,向与所述第二SP连接的各个BMC发送通信连接检测指令,以触发所述各个BMC检测各自与所述第二SP之间的通信连接是否正常;
203、当所述第一SP为备用SP,所述第二SP为主用SP,且所述各个BMC与所述第二SP之间的通信连接均不正常时,所述第一SP将自身的IP地址修改为所述主用SP的IP地址。
需要说明的是,上述步骤203完成了主备切换的过程;BMC通过TCP连接到主用SP上,接受主用SP的管理,同时备用SP可以通过UDP的方式向BMC发送命令请求。BMC会不停的去连接主用SP的IP,直至连接上为止,本领域技术人员可以理解的是,主备切换的过程就是一个修改IP的过程,且主备切换的过程对BMC并不可见。
本发明实施例提供的一种主备倒换的仲裁方法,当第一SP检测不到第二SP发送的心跳信号时,询问与所述第二SP存在连接的各个BMC,由所述各个BMC检测各自与所述第二SP之间的通信连接是否正常,通过检测结果决定是否进行主备倒换。本发明实施例提供的方案,不需要引入第三方仲裁者,降低了系统的成本,同时在主备双方都存在心跳且健康的情况下,考虑受管者的可管理性作为主备切换的仲裁条件,主备双方根据自己的管理能力进行主备切换,提高系统的可用性。
在本发明实施例提供的方法的操作过中,主用SP与备用SP之间通过周期性发送心跳信号,判断设备的健康状况,判断对方是否“存活”,如果在指定的时间内仍没有收到设备的心跳信号,就可以判断此设备发生故障。当所述备用SP检测不到所述主用SP的心跳信号时,所述备用SP向各个BMC发送通信连接检测指令,以触发所述各个BMC检测各自与所述主用SP之间的通信连接是否正常,当所述各个BMC与所述主用SP之间的通信连接均不正常时,如图9所示,表明网络中所述主用SP挂死,所述主用SP不能管理所述各个BMC,则所述备用SP将自身的IP地址修改为所述主用SP的IP地址。如图10所示,所述各个BMC只需要不停的去连接192.168.51.5这个IP地址,主备倒换的过程对于所述各个BMC是并不可见,所述主备倒换过程就是一个修改IP地址的过程。
可选的,本发明实施例提供的一种主备倒换的仲裁方法,如图11所示,所述第一SP将自身的IP地址修改为所述主用SP的IP地址之后,还包括:
204、发出第一告警信息,以显示所述第二SP的状态异常。
在本发明的一个实施例中,当主用SP检测不到备用SP的心跳时,它首先会去询问各个被管理的BMC能否ping通备用SP,如果有一个BMC能ping通,则说明备用SP在位,则主用SP产生主备之间通信链路存在问题的告警;如果所有BMC都不能ping通备用SP,则主用SP会发出第一告警信息,以提示备用SP状态异常,当前不在位。
具体应用时,本发明实施例提供的另一种主备倒换的仲裁方法,如图12所示,第一SP为备用SP,第二SP为主用SP,具体包括:
301、当备用SP检测不到主用SP发送的心跳信号时,向与所述主用SP连接的各个BMC发送通信连接检测指令,以触发所述各个BMC检测各自与所述主用SP之间的通信连接是否正常,所述心跳信号用于表明所述第二SP的状态正常;
302、当存在至少一个BMC与所述主用SP之间的通信连接为正常时,所述备用SP发出第二告警信息,以显示所述主用SP与所述备用SP之间的通信链路存在异常。
如图13所示,当所述检测结果中指示存在至少一个BMC与所述主用SP之间的通信连接为正常时,表明所述至少一个BMC被所述主用SP所管理,说明网络中所述主用SP正常工作,则所述主用SP和所述备用SP都保持当前状态,所述备用SP发出第二告警信息,以显示所述主用SP与所述备用SP之间的通信链路存在异常。
具体应用时,本发明实施例提供的另一种主备倒换的仲裁方法,如图14所示,第一SP为主用SP,第二SP为备用SP,具体包括:
401、当主用SP检测不到备用SP发送的心跳信号时,向与所述备用SP连接的各个BMC发送通信连接检测指令,以触发所述各个BMC检测各自与所述备用SP之间的通信连接是否正常,所述心跳信号用于表明所述备用SP的状态正常;
402、当存在至少一个BMC与所述备用SP之间的通信连接为正常时,所述主用SP发出第三告警信息,以显示所述主用SP与所述备用SP之间的通信链路存在异常。
当主用SP检测不到备用SP发送的心跳信号时,所述主用SP会去询问与所述备用SP连接的各个BMC能否ping通备用SP,如图13所示,当存在至少一个BMC能够ping通所述备用SP时,表明网络中所述备用SP正常工作,则所述主用SP和所述备用SP都保持当前状态,所述主用SP发出第三告警信息,以显示所述主用SP与所述备用SP之间的通信链路存在异常。
403、当所述各个BMC与所述备用SP之间的通信连接均不正常时,所述主用SP发出第四告警信息,以显示所述备用SP的状态异常。
如图15所示,当所述各个BMC都不能ping通所述备用SP时,表明所述网络中所述备用SP不能正常工作,则所述主用SP发出第四告警信息,以显示所述备用SP的状态异常。
相应地,本发明实施例提供的一种服务处理器SP,如图16所示,所述SP20包括检测单元21、发送单元22和第一处理单元23。
其中,检测单元21,用于检测与所述SP相连的另一SP发送的心跳信号,所述心跳信号用于表明所述另一SP的状态正常;发送单元22,用于当检测不到另一SP发送的心跳信号时,向与所述另一SP连接的各个BMC发送通信连接检测指令,以触发所述各个BMC检测各自与所述另一SP之间的通信连接是否正常,所述心跳信号用于表明所述另一SP的状态正常;
处理单元23,用于当所述SP为备用SP,所述另一SP为主用SP,且所述各个BMC与所述另一SP之间的通信连接均不正常时,将所述SP自身的IP地址修改为所述另一SP的IP地址。
本发明实施例提供的服务处理器SP在检测不到与之连接的另一SP发送的心跳信号时,询问与所述第二SP存在连接的各个BMC,由所述各个BMC检测各自与该另一SP之间的通信连接是否正常,通过检测结果决定是否进行主备倒换。本发明实施例提供的方案,不需要引入第三方仲裁者,降低了系统的成本,同时在主备双方都存在心跳且健康的情况下,考虑受管者的可管理性作为主备切换的仲裁条件,主备双方根据自己的管理能力进行主备切换,提高系统的可用性。
可选的,本发明实施例提供的一种服务处理器SP还包括报警单元24,用于在所述处理单元将所述SP的IP地址修改为所述另一SP的IP地址之后,发出第一告警信息,以显示所述另一SP的状态异常。
可选的,所述报警单元,还用于当存在至少一个BMC与所述另一SP之间的通信连接为正常时,发出第二告警信息,以显示所述SP与所述另一SP之间的通信链路存在异常。
相应地,当本发明实施例提供的服务处理器SP处于主用状态,而与该SP相连的另一SP处于备用状态时,所述报警单元24,用于当存在至少一个BMC与所述另一SP之间的通信连接为正常时,发出第三告警信息,以显示所述SP与所述另一SP之间的通信链路存在异常;或者,当所述各个BMC与所述另一SP之间的通信连接均不正常时,发出第四告警信息,以显示所述第二SP的状态异常。
上述的实施例中,主备倒换的仲裁触发条件是主备双方失去通信,即主用SP检测不到备用SP发送的状态信号,或者备用SP检测不到主用SP发送的状态信号时,根据各个BMC作为仲裁方来判断谁更适合作为主用SP,降低了系统的成本,更加关注服务处理器的管理能力,提高系统的可用性。
实施例3
本发明实施例提供一种小型机系统,如图17所示,包括:主用SP、备用SP、以及与所述主用SP和所述备用SP分别连接的多个BMC;所述主用SP用于对所述各个BMC进行管理,
所述主用SP,还用于检测并统计与自身通信连接正常的BMC的个数,当检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向所述备用SP发送通信连接检测指令;
所述备用SP,用于在接收到所述主用SP发送的通信连接检测指令之后,检测自身与各个BMC之间的通信连接是否正常,并统计与自身通信连接正常的BMC的个数;
所述主用SP,还用于当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,所述主用SP向所述备用SP发送主备倒换指令;
所述备用SP,还用于在接收到所述主用SP发送的主备倒换指令后,将自身的IP地址修改为所述主用SP的IP地址。
本发明实施例提供的一种小型机系统,当主用SP检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,通过比较主用SP和备用SP对各个BMC的管理能力,来决定是否进行主备倒换。本发明实施例提供的方案,不需要引入第三方仲裁者,降低了系统的成本,同时在主备双方都存在心跳且健康的情况下,考虑受管者的可管理性作为主备切换的仲裁条件,主备双方根据自己的管理能力进行主备切换,提高系统的可用性。
可选的,所述主用SP,还用于当与所述备用SP存在正常通信连接的BMC个数小于或等于所述主用SP存在正常通信连接的BMC个数时,保持现有状态不变。
本发明实施例还提供一种小型机系统,如图18所示,包括:第一SP、第二SP、以及与所述第一SP和所述第二SP分别连接的多个BMC,所述第一SP与所述第二SP通过互相发送心跳信号来告知对方自身的状态正常,所述第一SP和所述第二SP可以在主用状态和备用状态之间切换,当所述第一SP为主用SP时,所述第二SP为备用SP;当所述第一SP为备用SP时,所述第二SP为主用SP;
所述第一SP,用于在检测不到所述第二SP发送的心跳信号时,向与所述第二SP连接的各个BMC发送通信连接检测指令;
所述BMC,用于在接收到所述第一SP发送的通信连接检测指令后,检测自身与所述第二SP之间的通信连接是否正常;
所述第一SP,还用于当所述第一SP为备用SP,所述第二SP为主用SP,且所述各个BMC与所述第二SP之间的通信连接均不正常时,所述第一SP将自身的IP地址修改为所述第二SP的IP地址。
本发明实施例提供的一种小型机系统,当第一SP检测不到第二SP发送的心跳信号时,询问与所述第二SP存在连接的各个BMC,由所述各个BMC检测各自与所述第二SP之间的通信连接是否正常,通过检测结果决定是否进行主备倒换。本发明实施例提供的方案,不需要引入第三方仲裁者,降低了系统的成本,同时在主备双方都存在心跳且健康的情况下,考虑受管者的可管理性作为主备切换的仲裁条件,主备双方根据自己的管理能力进行主备切换,提高系统的可用性。
可选的,所述第一SP,还用于当所述第一SP为主用SP,所述第二SP为备用SP,且存在至少一个BMC与所述第二SP之间的通信连接为正常时,所述第一SP发出告警信息,以显示所述第一SP与所述第二SP之间的通信链路存在异常。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种主备倒换的仲裁方法,其特征在于,包括:
主用服务处理器SP检测并统计与自身通信连接正常的基板管理控制器BMC的个数,当检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向备用SP发送通信连接检测指令,以触发所述备用SP检测自身与各个BMC之间的通信连接是否正常,并统计与所述备用SP通信连接正常的BMC的个数;
当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,所述主用SP向所述备用SP发送主备倒换指令,以指示所述备用SP将自身的IP地址修改为所述主用SP的IP地址。
2.根据权利要求1所述的方法,其特征在于,还包括:
当与所述主用SP通信连接正常的BMC个数大于或者等于与所述备用SP通信连接正常的BMC个数时,所述主用SP保持现有状态不变。
3.一种主备倒换的仲裁方法,其特征在于,包括:
第一SP检测与之相连的第二SP发送的心跳信号,所述心跳信号用于表明所述第二SP的状态正常;
当所述第一SP检测不到所述第二SP发送的心跳信号时,向与所述第二SP连接的各个BMC发送通信连接检测指令,以触发所述各个BMC检测各自与所述第二SP之间的通信连接是否正常;
当所述第一SP为备用SP,所述第二SP为主用SP,且所述各个BMC与所述第二SP之间的通信连接均不正常时,所述第一SP将自身的IP地址修改为所述主用SP的IP地址。
4.根据权利要求3所述的方法,其特征在于,在所述第一SP将自身的IP地址修改为所述主用SP的IP地址之后,还包括:
发出第一告警信息,以显示所述第二SP的状态异常。
5.根据权利要求3所述的方法,其特征在于,还包括:
当所述第一SP为备用SP,所述第二SP为主用SP,且存在至少一个BMC与所述第二SP之间的通信连接为正常时,所述第一SP发出第二告警信息,以显示所述第一SP与所述第二SP之间的通信链路存在异常。
6.根据权利要求3所述的方法,其特征在于,还包括:
当所述第一SP为主用SP,所述第二SP为备用SP,且存在至少一个BMC与所述第二SP之间的通信连接为正常时,所述第一SP发出第三告警信息,以显示所述第一SP与所述第二SP之间的通信链路存在异常;
当所述各个BMC与所述第二SP之间的通信连接均不正常时,所述第一SP发出第四告警信息,以显示所述第二SP的状态异常。
7.一种主用服务处理器SP,用于对与之相连的基板管理控制器BMC进行管理,其特征在于,所述主用SP,包括:
第一处理单元,用于检测并统计与所述主用SP通信连接正常的BMC的个数,当检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向与所述主用SP连接的备用SP发送通信连接检测指令,以触发所述备用SP检测自身与各个BMC之间的通信连接是否正常,并统计与所述备用SP通信连接正常的BMC的个数;
第二处理单元,用于当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,向所述备用SP发送主备倒换指令,以指示所述备用SP将自身的IP地址修改为所述主用SP的IP地址。
8.根据权利要求7所述的主用服务处理器,其特征在于,
所述第二处理单元,还用于当与所述主用SP通信连接正常的BMC个数大于或者等于与所述备用SP通信连接正常的BMC个数时,所述主用SP保持现有状态不变。
9.一种服务处理器SP,其特征在于,包括:
检测单元,用于检测与所述SP相连的另一SP发送的心跳信号,所述心跳信号用于表明所述另一SP的状态正常;
发送单元,用于当检测不到所述另一SP发送的心跳信号时,向与所述另一SP连接的各个BMC发送通信连接检测指令,以触发所述各个BMC检测各自与所述另一SP之间的通信连接是否正常;
处理单元,用于当所述SP为备用SP,所述另一SP为主用SP,且所述各个BMC与所述另一SP之间的通信连接均不正常时,将所述SP自身的IP地址修改为所述另一SP的IP地址。
10.根据权利要求9所述的SP,其特征在于,还包括:
报警单元,用于在所述处理单元将所述SP的IP地址修改为所述另一SP的IP地址之后,发出第一告警信息,以显示所述另一SP的状态异常。
11.一种小型机系统,包括:主用服务处理器SP、备用SP、以及与所述主用SP和所述备用SP分别连接的多个BMC;所述主用SP用于对所述各个BMC进行管理,其特征在于,
所述主用SP,还用于检测并统计与自身通信连接正常的BMC的个数,当检测到存在至少一个BMC与所述主用SP之间的通信连接存在异常时,向所述备用SP发送通信连接检测指令;
所述备用SP,用于在接收到所述主用SP发送的通信连接检测指令之后,检测自身与各个BMC之间的通信连接是否正常,并统计与自身通信连接正常的BMC的个数;
所述主用SP,还用于当与所述主用SP通信连接正常的BMC个数小于与所述备用SP通信连接正常的BMC个数,且与所述主用SP通信连接正常的BMC均与所述备用SP存在正常通信连接时,所述主用SP向所述备用SP发送主备倒换指令;
所述备用SP,还用于在接收到所述主用SP发送的主备倒换指令后,将自身的IP地址修改为所述主用SP的IP地址。
12.如权利要求11所述的系统,其特征在于,所述主用SP,还用于当与所述主用SP通信连接正常的BMC个数大于或者等于与所述备用SP通信连接正常的BMC个数时,保持现有状态不变。
13.一种小型机系统,包括:第一服务处理器SP、第二SP、以及与所述第一SP和所述第二SP分别连接的多个基板管理控制器BMC,所述第一SP与所述第二SP通过互相发送心跳信号来告知对方自身的状态正常,所述第一SP和所述第二SP可以在主用状态和备用状态之间切换,当所述第一SP为主用SP时,所述第二SP为备用SP;当所述第一SP为备用SP时,所述第二SP为主用SP;其特征在于,
所述第一SP,用于在检测不到所述第二SP发送的心跳信号时,向与所述第二SP连接的各个BMC发送通信连接检测指令;
所述BMC,用于在接收到所述第一SP发送的通信连接检测指令后,检测自身与所述第二SP之间的通信连接是否正常;
所述第一SP,还用于当所述第一SP为备用SP,所述第二SP为主用SP,且所述各个BMC与所述第二SP之间的通信连接均不正常时,所述第一SP将自身的IP地址修改为所述第二SP的IP地址。
14.如权利要求13所述的系统,其特征在于,所述第一SP,还用于当所述第一SP为主用SP,所述第二SP为备用SP,且所述检测结果中指示存在至少一个BMC与所述第二SP之间的通信连接为正常时,所述第一SP发出告警信息,以显示所述第一SP与所述第二SP之间的通信链路存在异常。
CN201210088019.7A 2012-03-29 2012-03-29 一种主备倒换的仲裁方法、装置和系统 Active CN102638369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210088019.7A CN102638369B (zh) 2012-03-29 2012-03-29 一种主备倒换的仲裁方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210088019.7A CN102638369B (zh) 2012-03-29 2012-03-29 一种主备倒换的仲裁方法、装置和系统

Publications (2)

Publication Number Publication Date
CN102638369A CN102638369A (zh) 2012-08-15
CN102638369B true CN102638369B (zh) 2015-05-27

Family

ID=46622622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210088019.7A Active CN102638369B (zh) 2012-03-29 2012-03-29 一种主备倒换的仲裁方法、装置和系统

Country Status (1)

Country Link
CN (1) CN102638369B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI479085B (zh) * 2012-12-06 2015-04-01 Inventec Corp 風扇轉速控制系統及用以控制風扇轉速之方法
CN103916272B (zh) * 2014-03-31 2017-11-14 大唐移动通信设备有限公司 一种主控单板及一种主控单板故障检测方法
CN110597672A (zh) * 2019-09-18 2019-12-20 恒为科技(上海)股份有限公司 一种atca交换系统的主备倒换的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101056205A (zh) * 2007-04-04 2007-10-17 杭州华为三康技术有限公司 一种基于atca架构服务器管理方法、系统及其装置
CN101060391A (zh) * 2007-05-16 2007-10-24 华为技术有限公司 主备服务器切换方法及系统及主用服务器、备用服务器
CN101808091A (zh) * 2010-03-11 2010-08-18 中兴通讯股份有限公司 一种支持数据协议保护的控制方法和系统
CN102265556A (zh) * 2011-05-31 2011-11-30 华为技术有限公司 通信设备间的主备倒换方法、通信设备和系统及服务请求设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143011B (zh) * 2010-08-23 2013-11-06 华为技术有限公司 一种实现网络保护的装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101056205A (zh) * 2007-04-04 2007-10-17 杭州华为三康技术有限公司 一种基于atca架构服务器管理方法、系统及其装置
CN101060391A (zh) * 2007-05-16 2007-10-24 华为技术有限公司 主备服务器切换方法及系统及主用服务器、备用服务器
CN101808091A (zh) * 2010-03-11 2010-08-18 中兴通讯股份有限公司 一种支持数据协议保护的控制方法和系统
CN102265556A (zh) * 2011-05-31 2011-11-30 华为技术有限公司 通信设备间的主备倒换方法、通信设备和系统及服务请求设备

Also Published As

Publication number Publication date
CN102638369A (zh) 2012-08-15

Similar Documents

Publication Publication Date Title
US10708132B2 (en) Technique for handling a status change in an interconnect node
CN106330475B (zh) 一种通信系统中管理主备节点的方法和装置及高可用集群
CN104798349A (zh) 响应于端口故障的故障转移
US20140095925A1 (en) Client for controlling automatic failover from a primary to a standby server
CN104113428B (zh) 一种设备管理装置和方法
KR20150088559A (ko) 네트워크의 장애를 복구하는 방법 및 장치
CN103795553A (zh) 基于监控的主、备服务器切换
CN103036719A (zh) 一种基于主备集群服务器的跨地区服务容灾方法及装置
CN103401696A (zh) 一种工业设备中的双网络冗余通讯系统及通讯方法
CN104486128B (zh) 一种实现双控制器节点间冗余心跳的系统及方法
CN102387087A (zh) 基于主动检测技术实现备份路由的方法和系统
CN102006189A (zh) 用于双机冗余备份的主用接入服务器确定方法及装置
JP6007849B2 (ja) ネットワーク中継装置
CN103856357A (zh) 一种堆叠系统故障处理方法及堆叠系统
CN103490914A (zh) 一种网络应用设备多机热备的切换系统及方法
CN111385107A (zh) 一种服务器的主备切换处理方法及装置
CN104580502A (zh) 一种实现负载均衡双机热备的方法
CN102638369B (zh) 一种主备倒换的仲裁方法、装置和系统
CN104503947B (zh) 多路服务器及其信号处理方法
CN103036701A (zh) 一种跨网段的n+1备用方法及装置
CN114257500B (zh) 一种超融合集群内部网络的故障切换方法、系统及装置
CN103001832B (zh) 分布式文件系统中节点的检测方法和装置
CN106850264B (zh) 一种网络设备
JP4287734B2 (ja) ネットワーク装置
JP2012075009A (ja) 冗長化装置及び冗長化プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant