CN118214648A - 一种双机热备的管理方法及计算设备 - Google Patents
一种双机热备的管理方法及计算设备 Download PDFInfo
- Publication number
- CN118214648A CN118214648A CN202311422633.7A CN202311422633A CN118214648A CN 118214648 A CN118214648 A CN 118214648A CN 202311422633 A CN202311422633 A CN 202311422633A CN 118214648 A CN118214648 A CN 118214648A
- Authority
- CN
- China
- Prior art keywords
- node
- standby
- dual
- database
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 83
- 238000007667 floating Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000009977 dual effect Effects 0.000 claims abstract description 44
- 238000004891 communication Methods 0.000 claims abstract description 13
- 238000010295 mobile communication Methods 0.000 claims 1
- 210000004556 brain Anatomy 0.000 abstract description 11
- 238000005336 cracking Methods 0.000 abstract description 3
- 238000003860 storage Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000000747 cardiac effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 101100384355 Mus musculus Ctnnbip1 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0663—Performing the actions predefined by failover planning, e.g. switching to standby network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0811—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Hardware Redundancy (AREA)
Abstract
本申请实施例提供一种双机热备的管理方法及计算设备,涉及服务器技术领域,该方法可以有效解决主备部署模式下存在的脑裂问题。该方法应用于双机热备系统中的第一节点;该双机热备系统包括:第一节点、第二节点以及网关;第一节点与第二节点分别与网关通信连接;该方法包括:第一节点检测与网关的连通性;第一节点检测浮动IP的占用情况;在第一节点与网关连通,且第一节点未占用浮动IP的情况下,第一节点获取第二节点的状态信息;第一节点根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机。
Description
技术领域
本申请实施例涉及服务器技术领域,尤其涉及一种双机热备的管理方法及计算设备。
背景技术
云服务是指在广域网或局域网内将硬件、软件、网络等资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。随着云服务的不断发展,各大企业都通过基于云服务构建软件定义网络(software defined networking,SDN)架构,以通过云服务向用户提供自己的业务。
在构建SDN的过程中,企业可以根据实际的业务量需求,选择部署大型云服务场景(部署三个或以上的节点)或者部署中型云服务场景(部署两个节点)。针对中型云服务场景来说,部署两个节点可以构成主备模式,保证业务的稳定性。但是这种主备模式的部署方案,会因为脑裂问题的存在导致业务无法正常运行。
发明内容
本申请实施例提供一种双机热备的管理方法及计算设备,可以有效解决主备部署模式下的脑裂问题。
第一方面,本申请实施例提供一种双机热备的管理方法,该方法应用于双机热备系统中的第一节点;双机热备系统包括:第一节点、第二节点以及网关;第一节点与第二节点分别与网关通信连接;方法包括:第一节点检测与网关的连通性;第一节点检测浮动网际互连协议(internet protocol,IP)的占用情况;在第一节点与网关连通,且第一节点未占用浮动IP的情况下,第一节点获取第二节点的状态信息;第一节点根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机。
本申请实施例提供的一种双机热备的管理方法,该方法所应用的双机热备系统中,增加网关分别与两个节点通信连接。第一节点在进行主备判断之前,先检测自身与网关的连通性与浮动IP的占用情况。在与网关连通且未占用浮动IP时,再根据两个节点的状态进行判断,确定主机和备机。通过网关检测和浮动IP检测,可以保证自身的网络正常,在这种情况下进一步根据两个节点的状态信息,从中选取一个合适的节点作为主机使用,以保证同一时间不会存在两个主机,从而有效避免脑裂问题的发生。另外,在正常运行过程中,若一个节点宕机,正常运行的节点也可以根据状态信息确定新的主机对外提供服务,保证业务的稳定性。
一种可能的实现方式中,状态信息包括以下至少一项:节点中数据库的状态、节点中数据库的日志数量、节点中可用资源数量、主用时长。
另一种可能的实现方式中,状态信息包括以下至少一项:节点中数据库的状态、节点中数据库的日志数量、节点中可用资源数量、主用时长。
又一种可能的实现方式中,状态信息包括:节点中数据库的状态;根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机,包括:在第一节点中数据库的状态,与第二节点中数据库的状态不相同的情况下,确定目标节点为主机,另一个节点为备机;目标节点为第一节点和第二节点中,数据库的状态为可用状态的节点。应理解,节点中数据库的状态跟节点在双机热备系统中的身份有关,因此根据数据库的状态可以准确地确定出主机和备机。
又一种可能的实现方式中,状态信息还包括:节点中数据库的日志数量;根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机,还包括:在第一节点中数据库的状态,与第二节点中数据库的状态相同的情况下,比较第一节点中数据库的日志数量与第二节点中数据库的日志数量;在日志数量不同的情况下,确定第一节点与第二节点中,数据库的日志数量最多的节点为主机,另一个节点为备机。应理解,由于主机的数据库需要频繁对外提供服务,因此主机中数据库的日志数量一般要多于备机中数据库的日志数量,因此根据日志数量多少可以准确确定出主机和备机。
又一种可能的实现方式中,状态信息还包括:节点中可用资源数量;根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机,还包括:在日志数量相同的情况下,比较第一节点中可用资源数量与第二节点中可用资源数量;在可用资源数量相同的情况下,确定第一节点与第二节点中,可用资源数量最多的节点为主机,另一个节点为备机。应理解,由于主机需要对外提供服务,因此主机的可以调用的资源数量一般要多于备机,因此根据可用资源数量可以准确确定出主机和备机。
又一种可能的实现方式中,状态信息还包括:主用时长;根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机,还包括:在可用资源的数量相同的情况下,确定第一节点与第二节点中,主用时长最长的节点为主机,另一个节点为备机。应理解,主用时长越长,说明节点为主机的可能性越大,因此可以以主用时长为依据准确确定出主机和备机。
又一种可能的实现方式中,第一节点与第二节点中分别存储有开放虚拟网络(open virtual network,OVN)升主程序以及OVN降备程序;方法还包括:第一节点指示双机热备系统中的主机,调用OVN升主程序并绑定浮动IP;第一节点指示双机热备系统中的备机,调用OVN降备程序。应理解,通过调用OVN控制程序实现升主或降备,无需用户手动进行主机和备机的配置,避免手动配置容易出错或者漏配置的问题,进一步保证双机热备系统的稳定性。
又一种可能的实现方式中,方法还包括:在与网关不通的情况下,第一节点产生告警;告警用于提示第一节点的网络存在故障;第一节点再次检测与网关的连通性。应理解,通过设置网关并检测自身与网关的连通性,可以有效确定节点自身是否出现网络问题,若出现则通过告警提示及时检修,保证故障的处理效率。
第二方面,本申请实施例提供一种管理装置,该装置包括:检测模块,获取模块以及确定模块;检测模块用于,检测与网关的连通性;检测模块还用于,检测浮动IP的占用情况;获取模块用于,在第一节点与网关连通,且第一节点未占用浮动IP的情况下,获取第二节点的状态信息;确定模块用于,根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机。
一种可能的实现方式中,状态信息包括以下至少一项:节点中数据库的状态、节点中数据库的日志数量、节点中可用资源数量、主用时长。
另一种可能的实现方式中,状态信息包括:节点中数据库的状态;确定模块具体用于,在第一节点中数据库的状态,与第二节点中数据库的状态不相同的情况下,确定目标节点为主机,另一个节点为备机;目标节点为第一节点和第二节点中,数据库的状态为可用状态的节点。
又一种可能的实现方式中,状态信息还包括:节点中数据库的日志数量;确定模块具体用于,在第一节点中数据库的状态,与第二节点中数据库的状态相同的情况下,比较第一节点中数据库的日志数量与第二节点中数据库的日志数量;在日志数量不同的情况下,确定第一节点与第二节点中,数据库的日志数量最多的节点为主机,另一个节点为备机。
又一种可能的实现方式中,状态信息还包括:节点中可用资源数量;确定模块具体用于,在日志数量相同的情况下,比较第一节点中可用资源数量与第二节点中可用资源数量;在可用资源数量相同的情况下,确定第一节点与第二节点中,可用资源数量最多的节点为主机,另一个节点为备机。
又一种可能的实现方式中,状态信息还包括:主用时长;确定模块具体用于,在可用资源的数量相同的情况下,确定第一节点与第二节点中,主用时长最长的节点为主机,另一个节点为备机。
又一种可能的实现方式中,第一节点与第二节点中分别存储有OVN升主程序以及OVN降备程序;上述装置还包括:调用模块;调用模块用于,第一节点指示双机热备系统中的主机,调用OVN升主程序并绑定浮动IP;第一节点指示双机热备系统中的备机,调用OVN降备程序。
又一种可能的实现方式中,确定模块还用于,在与网关不通的情况下,第一节点产生告警;告警用于提示第一节点的网络存在故障;检测模块还用于,第一节点再次检测与网关的连通性。
第三方面,本申请实施例提供一种双机热备系统,该系统包括:包括第一节点、第二节点以及网关;第一节点与第二节点分别与网关通信连接;第一节点中部署有管理模块;管理模块用于,检测第一节点与网关的连通性;检测浮动IP的占用情况;在第一节点与网关连通,且第一节点未占用浮动IP的情况下,获取第一节点的状态信息以及第二节点的状态信息;根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机。
第四方面,本申请实施例提供一种处理器,该处理器包括:接口和逻辑电路,所述逻辑电路用于执行上述第一方面的方法。
第五方面,本申请实施例提供一种计算设备,该计算设备包括处理器和存储器;处理器与存储器耦合;存储器用于存储计算机指令,计算机指令由处理器加载并执行以使计算设备实现上述第一方面的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质包括:计算机软件指令;当计算机软件指令在计算设备中运行时,使得计算设备实现上述第一方面的方法。
第七方面,本申请实施例提供一种计算机程序产品,当该计算机程序产品在计算设备上运行时,使得计算设备执行上述第一方面描述的相关方法的步骤,以实现上述第一方面的方法。
上述第二方面至第七方面的有益效果可以参考第一方面的对应描述,不再赘述。
附图说明
图1为本申请实施例提供的一种本申请技术方案的系统架构示意图;
图2为本申请实施例提供的另一种本申请技术方案的系统架构示意图;
图3为本申请实施例提供的一种应用环境的示意图;
图4为本申请实施例提供的一种计算设备的系统架构示意图;
图5为本申请实施例提供的一种双机热备的管理方法的流程示意图;
图6为本申请实施例提供的另一种双机热备的管理方法的流程示意图;
图7为本申请实施例提供的又一种双机热备的管理方法的流程示意图;
图8为本申请实施例提供的又一种双机热备的管理方法的流程示意图;
图9为本申请实施例提供的一种双机热备的管理方法的执行流程示意图;
图10为本申请实施例提供的一种双机热备的管理装置的组成示意图;
图11为本申请实施例提供的一种计算设备的组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
下面对本申请实施例涉及到的技术术语进行解释说明。
1、云服务:一种基于互联网的计算模式,它通过网络提供各种计算资源和服务,包括计算能力、存储空间、应用软件和开发平台等。用户可以通过互联网从云服务提供商那里购买所需的资源和服务,无需关心底层基础设施的维护和管理。
2、SDN:软件定义网络,一种新兴的网络架构,它通过将网络控制平面(controlplane)和数据转发平面(data plane)进行解耦,实现了网络的集中控制和动态管理。在传统网络中,控制平面和数据平面是紧密耦合的。而在软件定义网络中,通过使用集中式控制器和可编程交换机,将网络控制逻辑从网络设备中抽离出来,实现了网络的程序化和灵活性。另外,还可以通过虚拟化技术将网络资源划分为多个逻辑网络,从而实现对网络隔离,提高网络管理的便捷性。
3、双机热备:即主备部署模式,使用两台服务器,其中一台服务器称为主机,或者主服务器,另一台服务器称为备机,或者备份服务器。并且备份服务器处于热备状态,随时准备替代主服务器的工作。当主服务器发生故障或不可用时,备份服务器会立即接手主服务器的工作,以确保系统的连续性和可靠性。双机热备通常用于对关键业务和应用进行高可用性的保护,以减少系统停机时间和数据损失。在双机热备的架构中,主服务器和备份服务器之间保持实时的数据同步,并且主服务器能够接收和处理来自客户端的请求。当主服务器无法正常工作时,备份服务器会接管主服务器的IP地址和服务,保证应用程序继续运行而不中断。一旦主服务器恢复正常,备份服务器可以恢复到备份状态,等待下一次主服务器的故障。
4、API:应用程序接口,英文全称appl icat ion programming interface,一种计算接口,它定义多个应用程序之间的交互,以及可以进行的调用(cal l)或请求(request)的种类,如何进行调用或发出请求,应使用的数据格式,应遵循的惯例等。它还可以提供扩展机制,以便用户可以通过各种方式对现有功能进行不同程度的扩展。一个API可以是完全针对某个组件定制的,也可以是基于行业标准设计的。另外,API实现了模块化编程,可以隐藏内部实现细节,用户可以仅关心API的功能,而不必关心其具体是怎样实现的。
5、虚拟交换机(open vswitch,OVS):一个开源的虚拟交换机软件,它提供了一种灵活、可编程和可扩展的网络虚拟化解决方案。可以用于构建虚拟交换机,以连接虚拟机、容器和物理主机,形成一个虚拟网络。它可以提供高级交换机功能,如端口分组、流量隔离、流量调度和访问控制等。通过与控制器(如SDN控制器)的通信,OVS可以根据网络策略动态调整网络流量,并实现灵活的网络管理。
6、OVN:OVN是OVS提供的原生虚拟化网络方案,旨在解决传统SDN架构(比如Neutron DVR)的性能问题。其中,OVN是OVS的控制平面的一种结构实现。
如背景技术的描述,OVN是以OVS为基础,是SDN的一个实现方案,可以为云服务环境提供逻辑网络和网络服务功能,大多数企业都是以OVN为基础构建自己的SDN。目前,OVN官网提供的主流的部署方案分别为单机模式和集群模式,单机模式主要面向于小型云服务场景的需求,但该模式以单个节点进行管理,因此存在服务性能受限,容灾能力差的问题。而集群模式面向的大型云服务场景的需求,该模式是基于raft协议选择主机。这种模式虽然可以解决脑裂问题,但是它要求部署的节点数量必须是三个节点起步且是奇数个,因而配置复杂且资源消耗较大。因此对与有中型云服务器场景需求(部署两个服务器)的用户来说,OVN官网并未提供基于OVN的双机热备方案。
传统的双机热备或者说主备模式部署的方案虽然可以适用于中型云服务器场景,但是这种传统的双机热备模式,存在脑裂问题。如前所述,在双机热备模式中,备机会检测主机的状态,在主机宕机后接管主机的服务。其中,主机和备机通过心跳线连接,双方通过心跳线确定对端的运行情况。在一种情况下,由于心跳线断裂,双方都认为对端出现了故障,因此双方都会作为主机启动,就会存在争抢资源,争启应用程序,即产生脑裂问题。脑裂问题会导致两个节点同时读写共享数据,导致数据损坏。
例如,在相关技术中,引入三方软件pacemaker作为双机热备系统中的管理器,保证浮动IP高可用性。并且引入三方软件corosync作为心跳管理,感知主备的状态。针对底层的数据库来说,通过act ive/sync-from命令实现数据同步。
其中,浮动IP的原理是借助软件实现根据节点的具体运行情况将IP地址设置在特定的一个节点上,然后由该节点对外提供业务服务。这样的好处是用户在访问业务服务时,仅需要记住一个IP地址即可,不需要记住双机热备系统中两个节点各自的IP地址,保证用户的使用体验。
上述相关技术的方案存在如下问题:在corosync出现问题时,则无法感知节点的心跳,会导致双方节点各自为主,产生脑裂问题。在这种情况下,需要借助外部应用程序,重新选主,才能保证双机热备系统恢复正常。
综上所述,目前亟需一种可以避免脑裂问题的双机热备方案。
基于此,本申请实施例提供一种双机热备的管理方法,该方法所应用的双机热备系统中,增加网关分别与两个节点通信连接。第一节点在进行主备判断之前,先检测自身与网关的连通性与浮动IP的占用情况。在与网关连通且未占用浮动IP时,再根据两个节点的状态进行判断,确定主机和备机。通过网关检测和浮动IP检测,可以保证自身的网络正常,在这种情况下进一步根据两个节点的状态信息,从中选取一个合适的节点作为主机使用,以保证同一时间不会存在两个主机,从而有效避免脑裂问题的发生。
另外,该方法中基于OVN控制程序实现节点的升主或降备,可以适用于OVN的场景下。
图1为本申请实施例提供的一种本申请技术方案的系统架构示意图。如图1所示,包括中央OVN层,系统管理程序代理守护进程(hypervisor agent daemon,HAD)层以及OVS层。其中,OVN层以及OVS层分别以两个节点为例示出。
其中,ovn-central层中包括OVN插件(OVN plugin)1011,OVN北向数据库(OVNnorthbound database)1012,OVN北向(OVN northed)1013以及OVN南向数据库(OVNsouthbound database)1013。
OVN插件1011用于实现OVN与外部云管系统(cloud management system,CMS)通信,主要用于将CMS的逻辑网络配置概念转换为OVN可以理解的中间格式。OVN北向数据库1012用于负责保存虚拟网络配置,并提供API进行虚拟网络管理OVN northed用于连接OVN北向数据库与OVN南向数据库,将进行通信转换。OVN南向数据1014用于保存从OVN北向数据库的逻辑网络生成的逻辑流表,以及各个节点的实际物理网络状态。
其中,OVS层为虚拟交换机层,包括OVN控制器(ovn-control ler)1031,OVS虚拟交换(ovs-vswitchd)1032以及OVS数据库服务(ovsdb-server)1033。其中,OVN控制器1031用于连接ovs-vswitchd103来实现控制网络流量,连接ovsdb-server1033监控和控制虚拟交换机的配置。
其中,HAD层用于实现对OVN架构的整体管理。包括管理模块102,该管理模块102包括:包括监控模块1021,资源管理模块1022、仲裁模块1023、文件同步模块1024以及主控模块1025。
其中,监控模块1021用于检测节点的运行状态。如检测节点与网关的连通性,调用浮动IP模块以检测浮动IP的占用情况等。资源管理模块1022用于管理节点中各类资源,例如管理数据库的状态、统计数据库的日志数量、统计节点中可用资源数量以及记录节点对外提供服务的时长等。仲裁模块1023用于根据节点的状态信息进行仲裁,确定出主机和备机,并调用相应的OVN控制程序实现升主或降备。文件同步模块1024用于实现主机与备机的数据库(南北向数据库)之间的数据同步(采用act ive/sync-from命令)。主控模块1025用于协调上述模块之间的交互,根据节点的不同状态下调用不同的模块运行。
另外,管理模块102还可以调用虚拟机资源管理器(virtual resource manager,VRM)浮动IP(下文中简称为浮动IP)模块以及OVN控制程序(图1中未示出)。浮动IP模块可以根据节点的实际运行情况,将浮动IP绑定在两个节点中的一个节点上。OVN控制程序可以提供虚拟资源的功能接口,包括虚拟资源的启动、停止、升主(作为主机运行)、降备(作为备机运行)以及问题修复等功能。其中,OVN控制程序主要是启动ovn-central,ovn-central是运行OVN的管理平面组件。
图2为本申请实施例提供的另一种本申请技术方案的系统架构示意图。如图2所示,包括管理模块201,浮动IP模块202,以及节点1对应的数据库203和节点2对应的数据库204。其中,节点1指向浮动IP模块202,说明此刻节点1在对外提供服务,占用浮动IP,则节点1的数据库203中的数据需要同步至节点2的数据库204中。同时,由管理模块201监测节点1和节点2的状态,根据状态实现主备的切换。
本申请实施例提供的技术方案可以应用于图3所示的应用环境中。其中,包括两个节点(分别为节点1和节点2)和网关。两个节点分别与网关通信连接。
其中,一个节点可以是一个计算设备。这里计算设备具体可以是刀片服务器、高密服务器、机柜服务器、机架服务器或高性能服务器等,或者通用服务器、GPU服务器、DPU服务器或AI服务器等,本申请实施例对计算设备的具体形态不作限制。
其中,每个节点中部署有管理模块301,OVN控制程序302以及浮动IP模块303。浮动IP模块303为部署在节点的软件程序,节点1中的浮动IP模块与节点2中的浮动IP模块交互,实现根据节点的实际运行情况,将浮动IP绑定在两个节点中的一个节点上。
节点上的管理模块301可以通过检测该节点与网关的连通情况,以及浮动IP的占用情况,根据两个节点的状态信息进行仲裁,确定出主机和备机,进而调用相应节点中OVN控制程序302的升主或降备功能。
图4为计算设备的系统架构示意图,如图4所示,该计算设备的硬件包括处理器、带外控制器、存储器以及内存。软件包括带外管理模块以及操作系统(operat ing system,OS)。
其中,带外管理模块运行于带外控制器内,OS运行于处理器(如图4所示)。
其中,带外管理模块可以为非业务模块的管理单元。例如,带外管理模块可以通过专用的数据通道对计算设备进行远程维护和管理,该带外管理模块是完全独立于计算设备的操作系统之外,可以通过计算设备的带外管理接口与基本输入输出系统(bas ic inputoutput system,BIOS)和OS进行通信。
示例性的,带外管理模块可以包括计算设备运行状态的管理单元、处理器外的管理芯片中的管理系统、计算设备基板管理控制器(baseboard management control ler,BMC)、系统管理模块(system management mode,SMM)等。需要说明的,本申请实施例对带外管理模块的具体形式并不限定,以上仅为示例性说明。
内存,也称为内存储器或主存储器,安装在计算设备的主板上的内存插槽中,内存与内存控制器之间通过内存通道(channel)进行通信。内存具有至少一个内存列(rank),每个内存列分别位于内存的一个面上,每个内存列包括至少一个子内存列(subrank),内存列或子内存列包括多个内存芯片(device),每个内存芯片被划分为多个存储阵列组(bankgroup),每个存储阵列组包括多个存储阵列(bank),每个存储阵列划分为多个存储单元(cel l),每个存储单元具有一个行(row)地址和一个列(column)地址,每个存储单元包括一个或多个比特位。在一种划分方式中,内存从上级至下级可以依次划分为内存芯片、存储阵列组、存储阵列,存储行/存储列、存储单元、比特位,其中,内存颗粒、存储阵列组、存储阵列、存储行、存储了列、存储单元、比特位在内存上的地址为真实的物理地址。在另一种划分方式中,CPU基于分页机制将内存芯片划分为多个内存页(page),其中,内存页的地址为虚拟地址,虚拟地址需要转换后才会变为真实的物理地址。
存储器,可以是计算设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等,也可以是外部存储设备,例如U盘等。
在本申请实施例中,存储器中存储了OVN控制程序以及执行本申请实施例的技术方案的应用程序(上述管理模块)。应用程序被处理器读取和运行之后,确定出主机和备机,并调用相应的OVN控制程序执行升主或降备操作。
需要说明的,本申请实施例描述的系统架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
图5为本申请实施例提供的一种双机热备的管理方法的流程示意图。示例性的,本申请实施例提供的基于双机热备的管理方法,可以应用于图2中任一个节点中,如称为第一节点,或者应用于第一节点中的管理模块中。下面以第一节点为执行主体进行说明。
如图5所示,本申请实施例提供的双机热备的管理方法具体可以包括以下步骤:
S501、第一节点检测与网关的连通性。
应理解,通过设置网关分别与双机热备系统中的每个节点通信连接,这样,每个节点可以通过检测自身与网关的连通性,确定自身的网络是否产生故障。第一节点在初始上电时,或者正常运行的过程中,可以采用ping命令检测与网关的连通性。即第一节点可以利用自身IP地址的唯一性,向网关对应的IP地址发送一个数据包,并请求网关返回一个同样大小的数据包以确定第一节点与网关是否连通。
若第一节点与网关连通,则说明第一节点的网络正常,可以执行继续执行下述步骤S502-S504。若第一节点与网关不连通,则说明第一节点的网络异常,无法执行下述步骤,需要进行告警,以提示运维人员及时检修,具体可以参见下述图8对应的描述。
S502、第一节点检测浮动IP的占用情况。
如前所述,双机热备系统的每个节点中部署有浮动IP模块,第一节点中的浮动IP模块与第二节点中的浮动IP模块通过网络互相交互,实现根据各节点的具体运行情况将IP地址设置在特定的一个节点上。第一节点可以通过自身部署的浮动IP模块,查询浮动IP是否被占用,确定主备关系是否存在。
应理解,若网关连通,且自身未占用浮动IP,则第一节点继续执行如下S503-S504。若网关连通,且自身已占用浮动IP,则说明此时第一节点作为主机运行,可以不执行后续步骤,继续监测自身与网关的连通情况以及浮动IP的占用情况。
S503、在第一节点与网关连通,且第一节点未占用浮动IP的情况下,第一节点获取第二节点的状态信息。
S504、第一节点根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机。
针对上述S503和S504,若第一节点接收到网关的响应数据包,则说明第一节点与网络连通,即第一节点的网络正常可用。若此时也确定浮动IP未被占用,则可以执行后续的仲裁流程,以仲裁出主机和备机。在仲裁流程中,第一节点可以获取第二节点的状态信息,进而根据第一节点的状态信息以及第二节点的状态信息进行仲裁,确定双机热备系统中的主机和备机。其中,第一节点获取第二节点的状态信息,可以是通过网关获取,也可以是通过第一节点与第二节点之间直接连接的心跳线获取。
应理解,第一节点未占用浮动IP,一种情况是第一节点和第二节点均未占用,即两个节点处于初始状态,不存在主备关系,则第一节点需要仲裁出主机和备机。另一种情况是第二节点占用浮动IP,正在作为主机运行,则第一节点此时为备机,需要根据状态信息确定第一节点是否正常,以便及时进行主备切换。
可选的,状态信息包括以下至少一项:节点中数据库的状态、节点中数据库的日志数量、节点中可用资源数量、主用时长。
一种实现方式中,第一节点可以根据节点中数据库的状态仲裁出主机和备机。应理解,节点中数据库的状态跟节点在双机热备系统中的身份有关。例如,主机需要对外提供服务,若节点作为主机使用,说明该节点需要接收来自客户端的请求,该请求可能包括对数据库中数据的增删改查等操作。即数据库需要处于可用状态,以执行数据读写等操作。另外,备机作为主机的备用,主要将主机的数据库中的数据同步至自身,不需要对外提供服务。因此,备机的数据库处于非可用状态。由上述分析可知,第一节点可以根据两个节点中数据库的状态对比,确定数据库的状态为可用状态的节点作为主机,另一个节点则作为备机,由此实现确定出双机热备系统中的主机和备机。
另一种实现方式中,第一节点可以根据节点中数据库的日志数量仲裁出主机和备机。应理解,日志是计算设备在运行过程中产生的,记录有计算设备运行情况以及故障情况的文件,在数据库进行操作时计算设备都会产生日志进行记录。由于主机的数据库需要频繁对外提供服务,因此主机中数据库的日志数量一般要多于备机中数据库的日志数量。由上述分析可知,第一节点可以根据两个节点中数据库的日志数据。确定日志数量最多的节点作为主机,另一个节点则作为备机,由此实现确定出双机热备系统中的主机和备机。
又一种实现方式中,第一节点可以根据节点中可用资源数量仲裁出主机和备机。应理解,可用资源是计算设备当前能够使用的资源,包括存储资源、计算资源、网络资源等等。由于主机需要对外提供服务,因此主机的可以调用的资源数量一般要多于备机。由上述分析可知,第一节点可用根据两个节点中可用资源数量对比,确定可用资源数量最多的节点作为主机,另一个节点作为备机,由此实现确定出双机热备系统中的主机和备机。
又一种实现方式中,第一节点可以根据主用时长(或者说对外提供业务的时长)仲裁出主机和备机。应理解,双机热备系统中,每个节点都会记录自身作为主机的使用时长,时长越长,说明节点为主机的可能性越大。因此,第一节点可用根据两个节点的主用时长对比,确定主用时长最长的节点为主机,另一个节点为备机,由此实现确定出双机热备系统中的主机和备机。
又一种实现方式中,第一节点可以结合上述状态信息中的每一项:即节点中数据库的状态、节点中数据库的日志数量、节点中可用资源数量以及主用时长,综合确定出双机热备系统中的主机和备机。如图6所示,上述S404可以具体实现为如下:
S1、比较第一节点中数据库的状态与第二节点中数据库的状态;
在第一节点中数据库的状态,与第二节点中数据库的状态不相同的情况下(有结果),确定目标节点为主机,另一个节点为备机。其中,目标节点为第一节点和第二节点中,数据库的状态为可用状态的节点。
在第一节点中数据库的状态,与第二节点中数据库的状态相同的情况下(无结果),进一步执行如下S2。
S2、比较第一节点中数据库的日志数量与第二节点中数据库的日志数量。
在日志数量不同的情况下(有结果),确定第一节点与第二节点中,数据库的日志数量最多的节点为主机,另一个节点为备机。
在日志数量相同的情况下(无结果),进一步执行如下S3。
S3、比较第一节点中可用资源数量与第二节点中可用资源数量。
在可用资源数量不同的情况下(有结果),确定第一节点与第二节点中,可用资源数量最多的节点为主机,另一个节点为备机。
在可用资源的数量相同的情况下(无结果)、进一步执行如下S4。
S4、比较第一节点的主用时长与第二节点的主用时长。
确定第一节点与第二节点中,主用时长最长的节点为主机,另一个节点为备机。
可选的,在S4之后若未能确定出主机和备机,则可以回到上述S1,重复执行S1-S4的仲裁过程。直到仲裁出主机或备机,或者重复仲裁的次数超过预设阈值后产生告警,结束。
应理解,通过状态信息中每一项,分层次进行仲裁,可以从多个方面确定双机热备系统中的主机和备机,提高确定出主备关系的成功率,保证双机热备系统的稳定性。
如前所述,第一节点与第二节点中存储有OVN控制程序,其中,其中,OVN控制程序包括OVN升主程序和OVN降备程序,用于实现将节点的状态变更为主机使用或者变更为备机使用。因此,如图7所示,在本申请实施例中,在S404之后第一节点还执行如下:
S701、第一节点指示双机热备系统中的主机,调用OVN升主程序并绑定浮动IP。
S702、第一节点指示双机热备系统中的备机,调用OVN降备程序。
针对上述S701和S702,若第一节点确定自身为主机,则可以调用自身存储的OVN升主程序完成升主,并将浮动IP与自身的IP地址绑定,实现对外提供业务服务。同时,第一节点通过心跳线告知第二节点为备机,指示第二节点调用OVN降备程序,作为主机的热备使用。应理解,通过调用OVN控制程序实现升主或降备,无需用户手动进行主机和备机的配置,避免手动配置容易出错或者漏配置的问题,进一步保证双机热备系统的稳定性。
在本申请实施例中,如图8所示,在上述S403之后,第一节点还可以执行如下:
S801、在与网关不通的情况下,第一节点产生告警。
其中,告警用于提示第一节点的网络存在故障。
S802、第一节点再次检测与网关的连通性。
针对上述S801-S802,若第一节点在检测与网关连通性的过程中,无法ping通网关,则说明自身的网络出现了问题,作为主机无法对外提供服务,作为备机也无法实现数据库的同步,因此产生告警提示,提示运维人员及时检修。另外,第一节点可以再次检测自身与网关的连通性,直到可以与网关连通为止。应理解,通过设置网关并检测自身与网关的连通性,可以有效确定节点自身是否出现网络问题,若出现则通过告警提示及时检修,保证故障的处理效率。
下面结合双机热备系统初始启动的场景,以及正常运行时的场景对本申请实施例的技术方案进行说明。
在一种场景中,若双机热备系统处于初始上电工作状态,则双机热备系统中两个节点分别以单机模式启动管理模块(如图2中所示)。进一步的,管理模块进行初始化操作,例如启动节点中的浮动IP以及OVN控制程序,然后,管理模块可以根据预先设置的状态机,进行后续的仲裁流程。其中,设置状态机通常指的是创建一个状态机模型,用于描述有限状态系统的行为。状态机由一个状态集合和一组转移函数组成。每个状态代表系统的一个特定状态,例如计算设备的运行状态、故障状态等。在本申请实施例中,状态机用来描述节点的初始状态(即刚开始启动时的状态,不是主机也不是备机),主机状态以及备机状态之间的切换条件。节点可以根据仲裁的结果,实现状态的转移,即升为主机,或者降为备机等。
进一步的,两个节点中的管理模块选取一个节点作为执行主体,用于后续执行仲裁过程。例如,可以选择两个节点中IP地址较小的节点。如图2中节点1的IP地址为192.168.37.111,节点2的IP地址为192.168.37.112,则可以选择节点1作为第一节点,即第一节点中的管理模块为后续执行仲裁过程的管理模块。在第一节点与网关连通,且未占用浮动IP的情况下(初始启动没有主备关系,没有节点占用浮动IP),管理模块可以获取第一节点的状态信息,并获取第二节点的状态信息,根据两个节点的状态,进行图4所示流程的仲裁过程,确定出主机和备机。若确定自身为主机,则调用OVN升主程序并绑定浮动IP,并通过心跳线告知另一个节点为备机,指示另一个节点调用自身存储的OVN降备程序。至此,完成主备关系的建立,备机实时将主机的数据库的数据同步至自身的数据库中。同时,实时监测主备状态,以在出现问题时及时进行主备关系的切换。
在另一种场景中,若双机热备系统处于正常运行状态,则两个节点都可以作为第一节点,执行本申请实施例提供的技术方案。具体说明如下:若第一节点在检测到自身与网关连通,且未占用浮动IP的情况下,说明此刻另一个节点(第二节点)占用了浮动IP,正在作为主机运行。在这种情况下,第一节点也可以执行仲裁过程,确定第二节点的状态信息是否异常。若第二节点的状态信息异常,则第一节点可以根据仲裁结果确定自身为主机对外提供业务,保证业务的连续性与稳定性。若第一节点在检测到自身与网关连通,且占用浮动IP的情况下,说明此时自身作为主机运行,且网络正常,可以保证当前状态不变,继续监控自身的运行情况。
图9为本申请实施例提供的一种双机热备的管理方法的执行流程示意图。如图9所示,首先,以节点1作为执行主体来说,1、节点1中管理模块301通过ping的方式检测网关的连通性,2、管理模块通过浮动IP模块303确定浮动IP的占用情况。若与网关连通,且浮动IP未占用,3、则获取节点2的状态信息。4、根据节点1和节点2中状态信息包括的数据库的状态、数据库的日志数量、可用资源数量、主用时长来仲裁主机(例如节点1)和备机(例如节点2)。进一步的,5、节点1中的管理模块301调用OVN控制程序302升主,节点2中的管理模块301调用OVN控制程序302降备。
本申请实施例提供一种双机热备的管理方法,该方法所应用的双机热备系统中,增加网关分别与两个节点通信连接。第一节点在进行主备判断之前,先检测自身与网关的连通性与浮动IP的占用情况。在与网关连通且未占用浮动IP时,再根据两个节点的状态进行判断,确定主机和备机。通过网关检测和浮动IP检测,可以保证自身的网络正常,在这种情况下进一步根据两个节点的状态信息,从中选取一个合适的节点作为主机使用,以保证同一时间不会存在两个主机,从而有效避免脑裂问题的发生。另外,在正常运行过程中,若一个节点宕机,正常运行的节点也可以根据状态信息确定新的主机对外提供服务,保证业务的稳定性。
进一步的,本申请实施例中通过节点中数据库的状态、日志数量、可用资源数量、主用时长等与主备关系强相关的因素确定主机和备机,从而提高主备关系建立的准确性。本申请提供的双机热备的管理方法,仅是在现有系统架构中增加网关,通过管理模块即可实现双机热备系统中各类资源的管理,部署较为简单,可用方便快速地完成部署并投入使用。
可以看出,上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,本申请实施例提供了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在示例性的实施例中,本申请还提供一种双机热备的管理装置。该双机热备的管理装置可以是计算设备,也可以是计算设备中的处理器。该双机热备的管理装置可以包括一个或多个功能模块,用于实现以上方法实施例的双机热备的管理方法。
例如,图10为本申请实施例提供的一种双机热备的管理装置的组成示意图。如图10所示,该双机热备的管理装置包括:检测模块1001,获取模块1002以及确定模块1003。检测模块1001,获取模块1002以及确定模块1003之间互相连接。
检测模块1001用于,检测与网关的连通性。
检测模块1001还用于,检测浮动IP的占用情况。
获取模块1002用于,在第一节点与网关连通,且第一节点未占用浮动IP的情况下,获取第二节点的状态信息。
确定模块1003用于,根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机。
一种可能的实现方式中,状态信息包括以下至少一项:节点中数据库的状态、节点中数据库的日志数量、节点中可用资源数量、主用时长。
另一种可能的实现方式中,状态信息包括:节点中数据库的状态;确定模块1003具体用于,在第一节点中数据库的状态,与第二节点中数据库的状态不相同的情况下,确定目标节点为主机,另一个节点为备机;目标节点为第一节点和第二节点中,数据库的状态为可用状态的节点。
又一种可能的实现方式中,状态信息还包括:节点中数据库的日志数量;确定模块1003具体用于,在第一节点中数据库的状态,与第二节点中数据库的状态相同的情况下,比较第一节点中数据库的日志数量与第二节点中数据库的日志数量;在日志数量不同的情况下,确定第一节点与第二节点中,数据库的日志数量最多的节点为主机,另一个节点为备机。
又一种可能的实现方式中,状态信息还包括:节点中可用资源数量;确定模块1003具体用于,在日志数量相同的情况下,比较第一节点中可用资源数量与第二节点中可用资源数量;在可用资源数量相同的情况下,确定第一节点与第二节点中,可用资源数量最多的节点为主机,另一个节点为备机。
又一种可能的实现方式中,状态信息还包括:主用时长;确定模块1003具体用于,在可用资源的数量相同的情况下,确定第一节点与第二节点中,主用时长最长的节点为主机,另一个节点为备机。
又一种可能的实现方式中,第一节点与第二节点中分别存储有OVN升主程序以及OVN降备程序;上述装置还包括:调用模块1004;调用模块1004用于,第一节点指示双机热备系统中的主机,调用OVN升主程序并绑定浮动IP;第一节点指示双机热备系统中的备机,调用OVN降备程序。
又一种可能的实现方式中,确定模块1003还用于,在与网关不通的情况下,第一节点产生告警;告警用于提示第一节点的网络存在故障;检测模块1001还用于,第一节点再次检测与网关的连通性。
在示例性的实施例中,本申请实施例提供一种双机热备系统,该系统包括:包括第一节点、第二节点以及网关;第一节点与第二节点分别与网关通信连接;第一节点中部署有管理模块;管理模块用于,检测第一节点与网关的连通性;检测浮动IP的占用情况;在第一节点与网关连通,且第一节点未占用浮动IP的情况下,获取第一节点的状态信息以及第二节点的状态信息;根据第一节点的状态信息,以及第二节点的状态信息,确定双机热备系统中的主机和备机。
在示例性的实施例中,本申请实施例还提供了一种计算设备。图11为本申请实施例提供的计算设备的组成示意图。如图11所示,该计算设备可以包括:处理器1101和存储器1102;存储器1102存储有处理器1101可执行的指令;处理器1101被配置为执行指令时,使得计算设备实现如前述方法实施例中描述的方法。
本申请实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分流程可以由计算机指令来指示相关的硬件完成,该程序可存储于上述计算机可读存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述任一实施例的或内存。上述计算机可读存储介质也可以是上述恢复装置的外部存储设备,例如上述恢复装置上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,上述计算机可读存储介质还可以既包括上述恢复装置的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述恢复装置所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供一种计算机程序产品,该计算机产品包含计算机程序,当该计算机程序产品在计算机上运行时,使得该计算机执行上述实施例中所提供的任一项双机热备的管理方法。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(Compris ing)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种双机热备的管理方法,其特征在于,应用于双机热备系统中的第一节点;所述双机热备系统包括:所述第一节点、第二节点以及网关;所述第一节点与所述第二节点分别与所述网关通信连接;所述方法包括:
所述第一节点检测与所述网关的连通性;
所述第一节点检测国际互连协议浮动IP的占用情况;
在所述第一节点与所述网关连通,且所述第一节点未占用所述浮动IP的情况下,所述第一节点获取所述第二节点的状态信息;
所述第一节点根据所述第一节点的状态信息,以及所述第二节点的状态信息,确定所述双机热备系统中的主机和备机。
2.根据权利要求1所述的方法,其特征在于,所述状态信息包括以下至少一项:节点中数据库的状态、节点中数据库的日志数量、节点中可用资源数量、主用时长。
3.根据权利要求2所述的方法,其特征在于,所述状态信息包括:节点中数据库的状态;
所述第一节点根据所述第一节点的状态信息,以及所述第二节点的状态信息,确定所述双机热备系统中的主机和备机,包括:
在第一节点中数据库的状态,与所述第二节点中数据库的状态不相同的情况下,确定目标节点为所述主机,另一个节点为所述备机;所述目标节点为所述第一节点和所述第二节点中,数据库的状态为可用状态的节点。
4.根据权利要求3所述的方法,其特征在于,所述状态信息还包括:节点中数据库的日志数量;
所述根据所述第一节点的状态信息,以及所述第二节点的状态信息,确定所述双机热备系统中的主机和备机,还包括:
在所述第一节点中数据库的状态,与所述第二节点中数据库的状态相同的情况下,比较所述第一节点中数据库的日志数量与所述第二节点中数据库的日志数量;
在日志数量不同的情况下,确定所述第一节点与所述第二节点中,数据库的日志数量最多的节点为所述主机,另一个节点为所述备机。
5.根据权利要求4所述的方法,其特征在于,所述状态信息还包括:节点中可用资源数量;
所述根据所述第一节点的状态信息,以及所述第二节点的状态信息,确定所述双机热备系统中的主机和备机,还包括:
在日志数量相同的情况下,比较所述第一节点中可用资源数量与所述第二节点中可用资源数量;
在可用资源数量不同的情况下,确定所述第一节点与所述第二节点中,可用资源数量最多的节点为所述主机,另一个节点为所述备机。
6.根据权利要求5所述的方法,其特征在于,所述状态信息还包括:主用时长;
所述根据所述第一节点的状态信息,以及所述第二节点的状态信息,确定所述双机热备系统中的主机和备机,还包括:
在可用资源的数量相同的情况下,确定所述第一节点与所述第二节点中,主用时长最长的节点为所述主机,另一个节点为所述备机。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述第一节点与所述第二节点中分别存储有开放虚拟网络OVN升主程序以及OVN降备程序;所述方法还包括:
所述第一节点指示所述双机热备系统中的所述主机,调用所述OVN升主程序并绑定所述浮动IP;
所述第一节点指示所述双机热备系统中的所述备机,调用所述OVN降备程序。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
在与所述网关不通的情况下,所述第一节点产生告警;所述告警用于提示所述第一节点的网络存在故障;
所述第一节点再次检测与所述网关的连通性。
9.一种双机热备系统,其特征在于,包括第一节点、第二节点以及网关;所述第一节点与所述第二节点分别与所述网关通信连接;所述第一节点中部署有管理模块;所述管理模块用于,
检测所述第一节点与所述网关的连通性;
检测所述浮动IP的占用情况;
在所述第一节点与所述网关连通,且所述第一节点未占用所述浮动IP的情况下,获取所述第一节点的状态信息以及所述第二节点的状态信息;
根据所述第一节点的状态信息,以及所述第二节点的状态信息,确定所述双机热备系统中的主机和备机。
10.一种计算设备,其特征在于,所述计算设备包括处理器和存储器;所述处理器与所述存储器耦合;所述存储器用于存储计算机指令,所述计算机指令由所述处理器加载并执行以使计算设备实现如权利要求1-8任一所述的双机热备的管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311422633.7A CN118214648A (zh) | 2023-10-30 | 2023-10-30 | 一种双机热备的管理方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311422633.7A CN118214648A (zh) | 2023-10-30 | 2023-10-30 | 一种双机热备的管理方法及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118214648A true CN118214648A (zh) | 2024-06-18 |
Family
ID=91451160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311422633.7A Pending CN118214648A (zh) | 2023-10-30 | 2023-10-30 | 一种双机热备的管理方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118214648A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118555217A (zh) * | 2024-07-30 | 2024-08-27 | 山东云海国创云计算装备产业创新中心有限公司 | 数据传输方法、装置、网关节点、存储介质及系统 |
-
2023
- 2023-10-30 CN CN202311422633.7A patent/CN118214648A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118555217A (zh) * | 2024-07-30 | 2024-08-27 | 山东云海国创云计算装备产业创新中心有限公司 | 数据传输方法、装置、网关节点、存储介质及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107707393B (zh) | 基于Openstack O版特性的多活系统 | |
US10642704B2 (en) | Storage controller failover system | |
CN106899518B (zh) | 一种基于互联网数据中心的资源处理方法以及装置 | |
US10656877B2 (en) | Virtual storage controller | |
US8521703B2 (en) | Multiple node/virtual input/output (I/O) server (VIOS) failure recovery in clustered partition mobility | |
CN103618627B (zh) | 一种管理虚拟机的方法、装置及系统 | |
CN106789168B (zh) | 一种数据中心服务器管理网络的部署方法及架顶式交换机 | |
CN112204482B (zh) | 冗余热备控制系统、方法、控制设备及计算机可读存储介质 | |
CN104077199B (zh) | 基于共享磁盘的高可用集群的隔离方法和系统 | |
CN112948063B (zh) | 云平台的创建方法、装置、云平台以及云平台实现系统 | |
WO2014026374A1 (zh) | 服务器系统、管理方法及设备 | |
CN106506201A (zh) | Vnf迁移方法、mano和系统 | |
CN112639640B (zh) | 冗余热备控制系统、控制设备、冗余热备方法及计算机可读存储介质 | |
CN107666493B (zh) | 一种数据库配置方法及其设备 | |
CN118214648A (zh) | 一种双机热备的管理方法及计算设备 | |
CN111935244B (zh) | 一种业务请求处理系统及超融合一体机 | |
WO2018024139A1 (zh) | 硬盘管理方法和系统 | |
WO2018157605A1 (zh) | 一种集群文件系统中消息传输的方法及装置 | |
US20240320099A1 (en) | Storage system, data processing method, and apparatus | |
US8621260B1 (en) | Site-level sub-cluster dependencies | |
CN104052799B (zh) | 一种利用资源环实现高可用存储的方法 | |
CN110677509B (zh) | 一种适用于高性能计算机的地址自动配置系统 | |
CN111858187A (zh) | 一种电子设备及业务切换方法、装置 | |
CN114124803B (zh) | 设备管理方法、装置、电子设备及存储介质 | |
CN107515725B (zh) | 一种核心网虚拟化系统共享磁盘的方法、装置及网管mano系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |