CN111338858B - 一种双机房的容灾方法及装置 - Google Patents

一种双机房的容灾方法及装置 Download PDF

Info

Publication number
CN111338858B
CN111338858B CN202010099024.2A CN202010099024A CN111338858B CN 111338858 B CN111338858 B CN 111338858B CN 202010099024 A CN202010099024 A CN 202010099024A CN 111338858 B CN111338858 B CN 111338858B
Authority
CN
China
Prior art keywords
server
park
cluster
campus
main node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010099024.2A
Other languages
English (en)
Other versions
CN111338858A (zh
Inventor
孟江
钟小威
刘小翠
冯子杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010099024.2A priority Critical patent/CN111338858B/zh
Publication of CN111338858A publication Critical patent/CN111338858A/zh
Application granted granted Critical
Publication of CN111338858B publication Critical patent/CN111338858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种双机房的容灾方法及装置,所述方法包括:若判断获知服务器集群的第一园区服务器出现园区级故障,则核实对应的主节点服务器是否失效;若判断获知对应的主节点服务器失效,则执行服务启动脚本以加入到所述服务器集群的第二园区服务器;其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。所述装置用于执行上述方法。本发明实施例提供的双机房的容灾方法及装置,提高了服务器集群的可靠性。

Description

一种双机房的容灾方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种双机房的容灾方法及装置。
背景技术
机房是用于存放服务器的地方,为了保证服务的可靠性,通常会对机房内的服务器进行容灾备份。
分布式消息协调管理服务器集群用于对分布式消息服务器集群进行管理,分布式消息协调管理服务器集群运用一种基于节点选举的机制,在节点选举时需要有过半的节点达成一致才能工作,基于这个选举原则,需要部署的分布式消息协调管理服务器集群拥有奇数个服务器,在一个拥有2N+1个服务器的分布式消息协调管理服务器集群,需要N+1个服务器达成一致之后,选举才能生效。在分布式消息协调管理服务器集群采用两机房部署时,一个机房内部署了奇数个分布式消息协调管理服务器,另一个机房部署了偶数个分布式消息协调管理服务器,当奇数个分布式消息协调管理服务器出现园区级故障时,即由于网络异常等原因奇数个分布式消息协调管理服务器都不能正常工作,那么分布式消息协调管理服务器集群无法运用上述基于节点选举的机制,剩余偶数个分布式消息协调管理服务器无法完成工作。为了实现容灾,通常会对上述奇数个分布式消息协调管理服务器进行同城或者异地备份。
发明内容
针对现有技术中的问题,本发明实施例提供一种双机房的容灾方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种双机房的容灾方法,包括:
若判断获知服务器集群的第一园区服务器出现园区级故障,则核实对应的主节点服务器是否失效;
若判断获知对应的主节点服务器失效,则执行服务启动脚本以加入到所述服务器集群的第二园区服务器;
其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
另一方面,本发明提供一种双机房的容灾装置,包括:
判断单元,用于在判断获知服务器集群的第一园区服务器出现园区级故障之后,核实对应的主节点服务器是否失效;
执行单元,用于在判断获知对应的主节点服务器失效之后,执行服务启动脚本以加入到所述服务器集群的第二园区服务器;
其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
再一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述双机房的容灾方法的步骤。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述双机房的容灾方法的步骤。
本发明实施例提供的双机房的容灾方法及装置,在判断获知服务器集群的第一园区服务器出现园区级故障之后,核实对应的主节点服务器是否失效,在判断获知对应的主节点服务器失效之后,执行服务启动脚本以加入到服务器集群的第二园区服务器中,提高了服务器集群的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的双机房的容灾方法的流程示意图。
图2是本发明另一实施例提供的双机房的容灾方法的流程示意图。
图3是本发明一实施例提供的分布式服务系统的结构示意图。
图4是本发明一实施例提供的分布式服务协调管理组件集群的结构示意图。
图5是本发明一实施例提供的双机房的容灾装置的结构示意图。
图6是本发明另一实施例提供的双机房的容灾装置的结构示意图。
图7是本发明又一实施例提供的双机房的容灾装置的结构示意图。
图8是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
为了便于理解本申请提供的技术方案,下面先对本申请技术方案的研究背景进行简单说明。对于运用节点选举机制的服务器集群,包括奇数台服务器,即在所述服务器集群包括的2N+1台服务器中,需要有至少N+1台的多数服务器达成一致之后,才会执行相应的动作。当服务器集群采用双机房部署时,第一机房部署有奇数台服务器,称为第一园区服务器,第二个机房部署有偶数台服务器,称为第二园区服务器。为了实现对所述服务器集群的容灾,在第二机房部署一台服务器作为备份服务器,当第一园区服务器出现园区级故障时,所述备份服务器会执行本发明实施例提供的双机房的容灾方法,加入到所述服务器集群的第二园区服务器,使第二园区服务器的数量由偶数台变更为奇数台,能够正常执行节点选举机制,提高了服务器集群的可靠性。
图1是本发明一实施例提供的双机房的容灾方法的流程示意图,如图1所示,本发明实施例提供的双机房的容灾方法,包括:
S101、若判断获知服务器集群的第一园区服务器出现园区级故障,则核实对应的主节点服务器是否失效;
具体地,备份服务器会监听第一园区服务器的状态,如果发现所述第一园区服务器网络异常,那么判断出所述第一园区服务器出现园区级故障。所述备份服务器会核实与备份服务器对应的主节点服务器是否失效,所述备份服务器可以通过域名识别技术来判断主节点服务器是否失效,当所述备份服务器通过Ping命令检测对应的主节点服务器是否处于连通状态时,如果获得的是所述备份服务器对应的主节点服务器的IP地址,说明所述备份服务器对应的主节点服务器没有失效;当所述备份服务器通过Ping命令检测对应的主节点服务器是否处于连通状态时,如果获得的是所述备份服务器的IP地址,说明所述备份服务器对应的主节点服务器失效。其中,所述备份服务器与对应的主节点服务器除了IP地址不同以外,具有与对应的主节点服务器相同的服务配置,所述服务配置根据实际需要进行设置,本发明实施例不做限定。所述备份服务器设置在第二园区服务器所在的机房,所述备份服务器对应的主节点服务器为第一园区服务器中的一台服务器。
例如,所述备份服务器通过Ping命令检测所述第一园区服务器中每台服务器的网络状态,没有收到所述第一园区服务器中任何一台服务器的应答,说明所述第一园区服务器发生园区级故障。
S102、若判断获知对应的主节点服务器失效,则执行服务启动脚本以加入到所述服务器集群的第二园区服务器;其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
具体地,所述备份服务器如果判断出所述备份服务器对应的主节点服务器失效,那么会执行服务启动脚本,加入到所述服务器集群,即加入到所述服务器集群的第二园区服务器中,在所述备份服务器加入到所述第二园区服务器之后,所述第二园区服务器的数量由偶数台变为奇数台,所述第一园区服务器故障的服务器集群依然能够正常执行节点选举机制。其中,所述服务启用脚本是预设的,根据实际需要进行设置,本发明实施例不做限定。所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
本发明实施例提供的双机房的容灾方法,在判断获知服务器集群的第一园区服务器出现园区级故障之后,核实对应的主节点服务器是否失效,在判断获知对应的主节点服务器失效之后,执行服务启动脚本以加入到服务器集群的第二园区服务器中,提高了服务器集群的可靠性。此外,无需备份整个第一园区服务器即可实现容灾,降低了服务器集群的容灾成本。
在上述各实施例的基础上,进一步地,本地IP地址和对应的主节点服务器的IP地址不同且域名相同。
具体地,所述备份服务器的本地IP地址与所述备份服务器对应的主节点服务器的IP地址不同,但是域名相同。当所述备份服务器对应的主节点服务器正常时,通过域名识别技术识别到的是所述备份服务器对应的主节点服务器,当所述备份服务器对应的主节点服务器失效时,通过域名识别技术识别到的是所述备份服务器。
图2是本发明另一实施例提供的双机房的容灾方法的流程示意图,如图2所示,在上述各实施例的基础上,进一步地,所述若判断获知服务器集群的第一园区服务器出现园区级故障包括:
S1011、定期检测所述第一园区服务器的每个服务器的域名;
具体地,所述备份服务器与所述第一园区服务器的每个服务器都通信连接,可以定期检测所述第一园区服务器的每个服务器的域名。其中,所述定期根据实际需要进行设置,例如每1秒、5秒或者10秒检测一次,本发明实施例不做限定。
S1012、若在预设时间内没有收到所述第一园区服务器中所有服务器的响应,则确定所述第一园区服务器出现园区级故障。
具体地,所述备份服务器在检测所述第一园区服务器的每个服务器的域名时,如果在预设时间内没有收到所述第一园区服务器中所有服务器的响应,那么可以确定所述第一园区服务器出现园区级故障。其中,所述预设时间根据实际经验进行设置,本发明实施例不做限定。
例如,所述备份服务器分别对所述第一园区服务器的每个服务器进行Ping域名的操作,如果在所述预设时间内没有收到所述第一园区服务器中所有服务器的回复,说明所述第一园区服务器出现园区级故障。
在上述各实施例的基础上,进一步地,本发明实施例提供的双机房的容灾方法还包括:
发送园区级故障提示信息。
具体地,所述备份服务器判断出所述服务器集群的第一园区服务器出现园区级故障之后,可以向维修人员发送区级故障提示信息,以便维修人员获知第一园区服务器出现园区级故障。
图3是本发明一实施例提供的分布式服务系统的结构示意图,如图3所示,本发明实施例提供的分布式服务系统包括上游应用服务器1、分布式消息服务集群2、分布式服务协调管理组件集群3和下游应用服务器4,其中:
上游应用服务器1与分布式消息服务集群2通信连接,分布式消息服务集群2和分布式服务协调管理组件集群3通信连接,分布式消息服务集群2和下游应用服务器4通信连接。
上游应用服务器1发送业务报文到分布式消息服务集群2,分布式消息服务集群2对收到的业务报文进行存储和管理,分布式服务协调管理组件集群3对分布式消息服务集群2进行管理,下游应用服务器4从分布式消息服务集群2获取业务报文。业务报文的流转管理要依赖于分布式消息服务集群2,而分布式消息服务集群2的工作依赖于分布式服务协调管理组件集群3的管理,分布式服务协调管理组件集群3运用节点选举机制对分布式消息服务集群2进行管理。其中,分布式消息服务集群2和分布式服务协调管理组件集群3分别包括多台服务器。
图4是本发明一实施例提供的分布式服务协调管理组件集群的结构示意图,如图4所示,本发明实施例提供的分布式服务协调管理组件集群3包括第一园区服务器31和第二园区服务器32,第一园区服务器31包括服务器31A、服务器31B和服务器31C,第二园区服务器32包括服务器32D和服务器32E,在第二园区服务器32所在的机房设置备份服务器33,备份服务器33分别与服务器31A、服务器31B和服务器31C、服务器32D和服务器32E通信连接。服务器31A是备份服务器33对应的主节点服务器,具有相同的服务配置但IP地址不同,备份服务器33与服务器31A具有相同的域名。
在分布式服务协调管理组件集群3正常工作时,第一园区服务器31和第二园区服务器32工作。备份服务器33定期检测第一园区服务器31的服务器31A、服务器31B和服务器31C的域名,如果在预设时间内没有收到服务器31A、服务器31B和服务器31C的响应,说明第一园区服务器31出现园区级故障,备份服务器33会通过Ping命令检测服务器31A是否处于连通状态,如果备份服务器33没能检测获得服务器31A的IP地址,说明服务器31A失效。备份服务器33在判断出服务器31A失效之后,会执行服务启动脚本加入到第二园区服务器32,即启动备份服务器33的分布式协调管理器进程,分布式协调管理器进程启动后,可以自动加入到分布式服务协调管理组件集群3,使分布式服务协调管理组件集群3有3台可用的服务器,能够运用节点选举机制工作,保证分布式服务协调管理组件集群3的可靠性。
图5是本发明一实施例提供的双机房的容灾装置的结构示意图,如图5所示,本发明实施例提供的双机房的容灾装置包括判断单元501和执行单元502,其中:
判断单元501用于在判断获知服务器集群的第一园区服务器出现园区级故障之后,核实对应的主节点服务器是否失效;执行单元502用于在判断获知对应的主节点服务器失效之后,执行服务启动脚本以加入到所述服务器集群的第二园区服务器;其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
具体地,判断单元501会监听第一园区服务器的状态,如果发现所述第一园区服务器网络异常,那么判断出所述第一园区服务器出现园区级故障。判断单元501会核实与备份服务器对应的主节点服务器是否失效,所述备份服务器可以通过域名识别技术来判断主节点服务器是否失效,当所述备份服务器通过Ping命令检测对应的主节点服务器是否处于连通状态时,如果获得的是所述备份服务器对应的主节点服务器的IP地址,说明所述备份服务器对应的主节点服务器没有失效;当判断单元501通过Ping命令检测对应的主节点服务器是否处于连通状态时,如果获得的是所述备份服务器的IP地址,说明所述备份服务器对应的主节点服务器失效。其中,所述双机房的容灾装置与对应的主节点服务器除了IP地址不同以外,具有与对应的主节点服务器相同的服务配置,所述服务配置根据实际需要进行设置,本发明实施例不做限定。所述双机房的容灾装置设置在第二园区服务器所在的机房,所述双机房的容灾装置对应的主节点服务器为第一园区服务器中的一台服务器。
如果判断出所述备份服务器对应的主节点服务器失效,那么执行单元502会执行服务启动脚本,加入到所述服务器集群,即加入到所述服务器集群的第二园区服务器中,在所述备份服务器加入到所述第二园区服务器之后,所述第二园区服务器的数量由偶数台变为奇数台,所述第一园区服务器故障的服务器集群依然能够正常执行节点选举机制。其中,所述服务启用脚本是预设的,根据实际需要进行设置,本发明实施例不做限定。所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
本发明实施例提供的双机房的容灾装置,在判断获知服务器集群的第一园区服务器出现园区级故障之后,核实对应的主节点服务器是否失效,在判断获知对应的主节点服务器失效之后,执行服务启动脚本以加入到服务器集群的第二园区服务器中,提高了服务器集群的可靠性。此外,无需备份整个第一园区服务器即可实现容灾,降低了服务器集群的容灾成本。
在上述各实施例的基础上,进一步地,本地IP地址和对应的主节点服务器的IP地址不同且域名相同。
具体地,所述双机房的容灾装置的本地IP地址与所述双机房的容灾装置对应的主节点服务器的IP地址不同,但是域名相同。当所述双机房的容灾装置对应的主节点服务器正常时,通过域名识别技术识别到的是所述双机房的容灾装置对应的主节点服务器,当所述双机房的容灾装置对应的主节点服务器失效时,通过域名识别技术识别到的是所述双机房的容灾装置。
图6是本发明另一实施例提供的双机房的容灾装置的结构示意图,如图6所示,在上述各实施例的基础上,进一步地,判断单元501包括检测子单元5011和确定子单元5012,其中:
检测子单元5011用于定期检测所述第一园区服务器的每个服务器的域名;确定子单元5012用于若在预设时间内没有获得所述第一园区服务器中所有服务器的响应,则确定所述第一园区服务器出现园区级故障。
具体地,检测子单元5011与所述第一园区服务器的每个服务器都通信连接,检测子单元5011可以定期检测所述第一园区服务器的每个服务器的域名。其中,所述定期根据实际需要进行设置,例如每分钟检测一次,本发明实施例不做限定。
在检测所述第一园区服务器的每个服务器的域名时,确定子单元5012如果在预设时间内没有收到所述第一园区服务器中所有服务器的响应,那么可以确定所述第一园区服务器出现园区级故障。其中,所述预设时间根据实际经验进行设置,本发明实施例不做限定。
图7是本发明又一实施例提供的双机房的容灾装置的结构示意图,如图7所示,在上述各实施例的基础上,进一步地本发明实施例提供的双机房的容灾装置还包括发送单元503,其中:
发送单元503用于发送园区级故障提示信息。
具体地,判断出所述服务器集群的第一园区服务器出现园区级故障之后,发送单元503可以向维修人员发送区级故障提示信息,以便维修人员获知第一园区服务器出现园区级故障。
本发明实施例提供的双机房的容灾装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图8是本发明一实施例提供的电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信。处理器801可以调用存储器803中的逻辑指令,以执行如下方法:若判断获知服务器集群的第一园区服务器出现园区级故障,则核实对应的主节点服务器是否失效;若判断获知对应的主节点服务器失效,则执行服务启动脚本以加入到所述服务器集群的第二园区服务器;其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
此外,上述的存储器803中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:若判断获知服务器集群的第一园区服务器出现园区级故障,则核实对应的主节点服务器是否失效;若判断获知对应的主节点服务器失效,则执行服务启动脚本以加入到所述服务器集群的第二园区服务器;其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:若判断获知服务器集群的第一园区服务器出现园区级故障,则核实对应的主节点服务器是否失效;若判断获知对应的主节点服务器失效,则执行服务启动脚本以加入到所述服务器集群的第二园区服务器;其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种双机房的容灾方法,其特征在于,包括:
若判断获知服务器集群的第一园区服务器出现园区级故障,则核实对应的主节点服务器是否失效;其中,所述服务器集群为运用节点选举机制的服务器集群;
若判断获知对应的主节点服务器失效,则执行服务启动脚本以加入到所述服务器集群的第二园区服务器;
其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
2.根据权利要求1所述的方法,其特征在于,本地IP地址和对应的主节点服务器的IP地址不同且域名相同。
3.根据权利要求1所述的方法,其特征在于,所述若判断获知服务器集群的第一园区服务器出现园区级故障包括:
定期检测所述第一园区服务器的每个服务器的域名;
若在预设时间内没有获得所述第一园区服务器中所有服务器的域名,则确定所述第一园区服务器出现园区级故障。
4.根据权利要求1所述的方法,其特征在于,还包括:
发送园区级故障提示信息。
5.一种双机房的容灾装置,其特征在于,包括:
判断单元,用于在判断获知服务器集群的第一园区服务器出现园区级故障之后,核实对应的主节点服务器是否失效;其中,所述服务器集群为运用节点选举机制的服务器集群;
执行单元,用于在判断获知对应的主节点服务器失效之后,执行服务启动脚本以加入到所述服务器集群的第二园区服务器;
其中,所述服务器集群包括第一园区服务器和第二园区服务器,所述第一园区服务器有奇数台,所述第二园区服务器有偶数台,所述第一园区服务器包括所述主节点服务器。
6.根据权利要求5所述的装置,其特征在于,本地IP地址和对应的主节点服务器的IP地址不同且域名相同。
7.根据权利要求5所述的装置,其特征在于,所述判断单元包括:
检测子单元,用于定期检测所述第一园区服务器的每个服务器的域名;
确定子单元,用于若在预设时间内没有获得所述第一园区服务器中所有服务器的响应,则确定所述第一园区服务器出现园区级故障。
8.根据权利要求5至7任一项所述的装置,其特征在于,还包括:
发送单元,用于发送园区级故障提示信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
CN202010099024.2A 2020-02-18 2020-02-18 一种双机房的容灾方法及装置 Active CN111338858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010099024.2A CN111338858B (zh) 2020-02-18 2020-02-18 一种双机房的容灾方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010099024.2A CN111338858B (zh) 2020-02-18 2020-02-18 一种双机房的容灾方法及装置

Publications (2)

Publication Number Publication Date
CN111338858A CN111338858A (zh) 2020-06-26
CN111338858B true CN111338858B (zh) 2023-07-14

Family

ID=71186300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010099024.2A Active CN111338858B (zh) 2020-02-18 2020-02-18 一种双机房的容灾方法及装置

Country Status (1)

Country Link
CN (1) CN111338858B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181724A (zh) * 2020-09-23 2021-01-05 支付宝(杭州)信息技术有限公司 大数据容灾方法、装置和电子设备
CN114095343A (zh) * 2021-11-18 2022-02-25 深圳壹账通智能科技有限公司 基于双活系统的容灾方法、装置、设备及存储介质
CN114257595B (zh) * 2021-12-23 2024-05-17 网络通信与安全紫金山实验室 云平台容灾机房选举系统、方法、装置、介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103036719A (zh) * 2012-12-12 2013-04-10 北京星网锐捷网络技术有限公司 一种基于主备集群服务器的跨地区服务容灾方法及装置
CN105471995A (zh) * 2015-12-14 2016-04-06 山东省农业机械科学研究院 基于SOA的大规模Web服务机群高可用实现方法
CN206498429U (zh) * 2016-11-11 2017-09-15 中华通信系统有限责任公司 一种基于分布式异构网络的核心服务器组网系统
CN109714190A (zh) * 2018-11-28 2019-05-03 四川商通实业有限公司 一种基于应用级别的负载均衡与故障转移系统及其方法
CN110149366A (zh) * 2019-04-16 2019-08-20 平安科技(深圳)有限公司 提高集群系统可用性的方法、装置和计算机设备
CN110795280A (zh) * 2019-09-11 2020-02-14 杭州衣科信息技术有限公司 一种基于mysql异步双向的异地双活容灾系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170293540A1 (en) * 2016-04-08 2017-10-12 Facebook, Inc. Failover of application services
CN107819605A (zh) * 2016-09-14 2018-03-20 北京百度网讯科技有限公司 用于在服务器集群中切换服务器的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103036719A (zh) * 2012-12-12 2013-04-10 北京星网锐捷网络技术有限公司 一种基于主备集群服务器的跨地区服务容灾方法及装置
CN105471995A (zh) * 2015-12-14 2016-04-06 山东省农业机械科学研究院 基于SOA的大规模Web服务机群高可用实现方法
CN206498429U (zh) * 2016-11-11 2017-09-15 中华通信系统有限责任公司 一种基于分布式异构网络的核心服务器组网系统
CN109714190A (zh) * 2018-11-28 2019-05-03 四川商通实业有限公司 一种基于应用级别的负载均衡与故障转移系统及其方法
CN110149366A (zh) * 2019-04-16 2019-08-20 平安科技(深圳)有限公司 提高集群系统可用性的方法、装置和计算机设备
CN110795280A (zh) * 2019-09-11 2020-02-14 杭州衣科信息技术有限公司 一种基于mysql异步双向的异地双活容灾系统

Also Published As

Publication number Publication date
CN111338858A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111338858B (zh) 一种双机房的容灾方法及装置
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
EP2691859B1 (en) Fault detection and recovery as a service
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
CN111651291B (zh) 一种共享存储集群防脑裂的方法、系统、计算机存储介质
CN106330475B (zh) 一种通信系统中管理主备节点的方法和装置及高可用集群
JP4695705B2 (ja) クラスタシステムおよびノード切り替え方法
CN111901422B (zh) 一种集群中节点的管理方法、系统及装置
CN109474465A (zh) 一种基于服务器集群的可动态流转的高可用性的实现方法和系统
CN107508694B (zh) 一种集群内的节点管理方法及节点设备
CN111158962A (zh) 一种异地容灾方法、装置、系统、电子设备及存储介质
CN106452836B (zh) 主节点设置方法及装置
CN108306760A (zh) 用于在分布式系统中使管理能力自恢复的方法和装置
CN110971662A (zh) 一种基于Ceph的两节点高可用实现方法及装置
CN104503861A (zh) 一种异常处理方法及系统、代理设备与控制装置
CN113949649B (zh) 故障检测协议的部署方法、装置、电子设备及存储介质
CN110740064A (zh) 分布式集群节点故障处理方法、装置、设备及存储介质
JP6421516B2 (ja) サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
CN108509296B (zh) 一种处理设备故障的方法和系统
CN114938392B (zh) 一种分布式订阅发布系统及方法
US10514991B2 (en) Failover device ports
CN107087021B (zh) 主从服务器确定方法及装置
CN114598593B (zh) 消息处理方法、系统、计算设备及计算机存储介质
US8438261B2 (en) Failover scheme with service-based segregation
CN113890880A (zh) 一种多节点间的数据同步方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant