CN114090349A - 一种基于主备集群服务器跨地区服务容灾方法及装置 - Google Patents

一种基于主备集群服务器跨地区服务容灾方法及装置 Download PDF

Info

Publication number
CN114090349A
CN114090349A CN202111369854.3A CN202111369854A CN114090349A CN 114090349 A CN114090349 A CN 114090349A CN 202111369854 A CN202111369854 A CN 202111369854A CN 114090349 A CN114090349 A CN 114090349A
Authority
CN
China
Prior art keywords
cluster server
data
standby
main
standby cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111369854.3A
Other languages
English (en)
Inventor
涂俊文
肖中卿
郝嘉斌
杨浩帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Huazhiyuan Information Engineering Co ltd
Guangzhou Huajia Software Co ltd
Guangzhou Jiadu Urban Rail Intelligent Operation And Maintenance Service Co ltd
PCI Technology Group Co Ltd
PCI Technology and Service Co Ltd
Original Assignee
Guangdong Huazhiyuan Information Engineering Co ltd
Guangzhou Huajia Software Co ltd
Guangzhou Jiadu Urban Rail Intelligent Operation And Maintenance Service Co ltd
PCI Technology Group Co Ltd
PCI Technology and Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Huazhiyuan Information Engineering Co ltd, Guangzhou Huajia Software Co ltd, Guangzhou Jiadu Urban Rail Intelligent Operation And Maintenance Service Co ltd, PCI Technology Group Co Ltd, PCI Technology and Service Co Ltd filed Critical Guangdong Huazhiyuan Information Engineering Co ltd
Priority to CN202111369854.3A priority Critical patent/CN114090349A/zh
Publication of CN114090349A publication Critical patent/CN114090349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/82Solving problems relating to consistency

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请实施例公开了一种基于主备集群服务器跨地区服务容灾方法及装置。本申请实施例提供的技术方案,通过主集群服务器与跨地区的备集群服务器连接;在预设时间将数据同步至所述备集群服务器中;在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务;在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,所述增量数据为切换至备集群服务器进行数据服务后所增加的数据;在检测到和所述备集群服务器中的数据一致时,接收所述备集群服务器发送的元数据,并发送切换指令至备集群服务器,以实现切换至所述主集群服务器进行数据服务。

Description

一种基于主备集群服务器跨地区服务容灾方法及装置
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种基于主备集群服务器跨地区服务容灾方法及装置。
背景技术
随着多媒体技术和计算机网络的迅猛发展,对服务器的请求也大量增加。这迫切需要高性能、高可用性和高性价比的Web服务器系统。服务器集群技术正是目前解决服务器超载和提供高性能服务器的一种有效手段。服务器集群就是由多台计算机通过高速网络连接而成的系统,集群系统性价比高,并且有良好的扩展性和容错性等,因此获得了广泛的应用。
其中,Hive集群是可实现大规模分析的分布式容错数据仓库系统。该数据仓库系统能够集中存储信息,并且可以对存储的信息进行分析处理,从而做出对应的数据驱动决策。Hive集群让用户可以利用SQL读取、写入和管理PB级的数据。
随着Hive集群数据量写入的增加,Hive集群提供持续、稳定性的服务显得尤为重要。而在Hive集群进行主备切换时,主要难点在于:一方面,Hive集群数据量大;另一方面,例如像地铁行业等对关键核心的数据要求的RTO(Recovery Time Objective)恢复时间目标值以及RPO(Recovery Point Objective)恢复点目标值尽可能的小。
当前,Hive集群的高可用常见的方法是配置Metastore的高可用。Hive集群本身down机(死机)或者Hive集群所在机房停电等,就不能正常提供服务,导致提供数据服务的中断。而在某些领域数据中心,例如地铁数据中心,有些关键核心数据必须保证不中断地提供数据服务。。
发明内容
本申请实施例提供一种基于主备集群服务器跨地区服务容灾方法及装置,能够解决集群服务器故障导致提供数据中断问题,提升提供数据服务的持续性。
在第一方面,本申请实施例提供了一种基于主备集群服务器跨地区服务容灾方法,包括:主集群服务器与跨地区的备集群服务器连接;
所述主集群服务器在预设时间将数据同步至所述备集群服务器中;
所述主集群服务器在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务;
所述主集群服务器在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,所述增量数据为切换至备集群服务器进行数据服务后所增加的数据;
所述主集群服务器在检测到和所述备集群服务器中的数据一致时,接收所述备集群服务器发送的元数据,并发送切换指令至备集群服务器,以实现切换至所述主集群服务器进行数据服务。
进一步的,所述主集群服务器在预设时间将数据同步至备集群服务器中,具体为:
所述主集群服务器在预设时间将历史增量数据通过分布式拷贝方式同步至备集群服务器中;
所述主集群服务器在预设时间将实时增量数据通过同步增删方式同步至备集群服务器中。
进一步的,所述主集群服务器在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务,具体为:
所述主集群服务器在检测到出现故障时,通过负载均衡机制切换至备集群服务器进行数据服务。
进一步的,所述主集群服务器在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,具体为:
所述主集群服务器在检测到故障消除后,通过同步增删方式接收所述备集群服务器中的实时增量数据;
所述主集群服务器通过分布式拷贝方式接收在故障期间备集群服务器中新增的历史增量数据。
进一步的,所述方法还包括:在主集群服务器正常运行期间,所述主集群服务器同步刷新元数据信息,并将元数据信息同步备份至备集群服务器中。
进一步的,所述方法还包括:主集群服务器和备集群服务器中存储的数据采用按天区别方式进行存储,每天的数据存储在以对应的日期命名的文件夹中。
进一步的,所述方法还包括:所述主集群服务器在检测到和备集群服务器数据不一致时,通过分布式拷贝方式重新接收增量数据,并将增量数据重新覆盖导入对应文件夹中,直至数据一致。
在第二方面,本申请实施例提供了一种基于主备集群服务器跨地区服务容灾装置,包括:
通信连接装置,用于主集群服务器与跨地区的备集群服务器连接;
第一数据同步装置,用于在预设时间将数据同步至所述备集群服务器中;
第一切换装置,用于在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务;
第二数据同步装置,用于在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,所述增量数据为切换至备集群服务器进行数据服务后所增加的数据;
第二切换装置,用于在检测到和所述备集群服务器中的数据一致时,接收所述备集群服务器发送的元数据,并发送切换指令至备集群服务器,以实现切换至所述主集群服务器进行数据服务。
进一步的,所述第一数据同步装置,还用于在预设时间将历史增量数据通过分布式拷贝方式同步至备集群服务器中;在预设时间将实时增量数据通过同步增删方式同步至备集群服务器中。
进一步的,第一切换装置,还用于检测到出现故障时,通过负载均衡机制切换至备集群服务器进行数据服务。
进一步的,第二数据同步装置,还用于在检测到故障消除后,通过同步增删方式接收所述备集群服务器中的实时增量数据;
所述主集群服务器通过分布式拷贝方式接收在故障期间备集群服务器中新增的历史增量数据。
进一步的,所述装置还包括:
第三数据同步装置,用于在主集群服务器正常运行期间,同步刷新元数据信息,并将元数据信息同步备份至备集群服务器中。
进一步的,所述装置还包括:
数据存储装置,用于对主集群服务器和备集群服务器中存储的数据采用按天区别方式进行存储,每天的数据存储在以对应的日期命名的文件夹中。
进一步的,所述第二数据同步装置,还用于在检测到和备集群服务器数据不一致时,通过分布式拷贝方式重新接收增量数据,并将增量数据重新覆盖导入对应文件夹中,直至数据一致。
在第三方面,本申请实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的基于主备集群服务器跨地区服务容灾方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的基于主备集群服务器跨地区服务容灾方法。
本申请实施例通过主集群服务器与跨地区备集群服务器连接,并通过将数据同步至所述备集群服务器,所述主集群服务器发生故障时发送切换指令至所述备集群服务器实现切换至所述备集群服务器进行数据服务,并在故障消除之后接收备集群服务器发送的增量数据,在检测到主集群服务器和备集群服务器中数据一致时,接收所述备集群服务器发送的元数据并发送切换指令至所述备集群服务器实现切换至所述主集群服务器进行数据服务。采用上述技术手段,可以通过在主集群服务器发生故障时及时切换至备集群服务器进行数据服务,以保障数据不中断的进行服务,提高了数据提供服务的持续性;并且在故障消除后进行主备集群服务器数据的同步,在检测到两者数据一致时,再切换回主集群服务器进行数据服务,避免了数据的遗漏或重复写入,提高了数据传输有效性。
附图说明
图1是本申请实施例一提供的一种基于主备集群服务器跨地区服务容灾方法的流程图;
图2是本申请实施例一提供的另一种基于主备集群服务器跨地区服务容灾方法的流程图;
图3是本申请实施例二提供的一种基于主备集群服务器跨地区服务容灾装置的结构示意图;
图4是本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请提供的基于主备集群服务器跨地区服务容灾方法及装置,旨在通过主集群服务器与跨地区备集群服务器连接,并通过将数据同步至所述备集群服务器,所述主集群服务器发生故障时发送切换指令至所述备集群服务器实现切换至所述备集群服务器进行数据服务,并在故障消除之后接收备集群服务器发送的增量数据,在检测到主集群服务器和备集群服务器中数据一致时,接收所述备集群服务器发送的元数据并发送切换指令至所述备集群服务器实现切换至所述主集群服务器进行数据服务。相对于传统的主备集群服务器服务容灾方式,其通常是主集群服务器和备集群服务器置于相同地区区域的机房中,在发生地区性故障,例如该地区区域突发停电时,此时所述主集群服务器和备集群服务器均没法进行数据服务,从而导致了数据的传输中断。而集群系统提供持续稳定的数据服务是尤为重要的,例如地铁数据中心中某些核心数据是必须保证不中断地提供数据服务的。基于此,提供本申请实施例的基于主备集群服务器跨地区服务容灾方法,以解决现有主备集群服务器服务容灾过程中的集群故障导致提供数据中断的问题。
实施例一:
图1给出了本申请实施例一提供的一种基于主备集群服务器跨地区服务容灾方法的流程图,本实施例中提供的基于主备集群服务器跨地区服务容灾方法可以由基于主备集群服务器跨地区服务容灾设备执行,该基于主备集群服务器跨地区服务容灾设备可以通过软件和/或硬件的方式实现,该基于主备集群服务器跨地区服务容灾设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,该基于主备集群服务器跨地区服务容灾设备可以是终端设备,如计算机等。
下述以计算机为执行基于主备集群服务器跨地区服务容灾方法的主体,集群为Hive集群为例,进行描述。参照图1,该基于主备集群服务器跨地区服务容灾方法具体包括:
S101、主集群服务器与跨地区的备集群服务器连接。
具体的,主集群服务器和备集群服务器均可以实现数据提供服务。用户通过客户端可以通过主集群服务器或备集群服务器进行SQL读取、写入和管理PB级的数据。至少一个备集群服务器设置于不同于主集群服务器所在的地区,以保障在主集群服务器所在地区发生区域性故障(例如区域性停电)情况时,切换至备集群服务器后免受该区域性故障影响而进行正常的数据提供服务。
进一步的,主集群服务器与备集群服务器建立连接,以实现主备集群的数据同步和相关信息指令的发送和接收。
S102、所述主集群服务器在预设时间将数据同步至所述备集群服务器中。
具体的,在主集群服务器与备集群服务器建立连接后,在主备集群服务器均正常运行的情况下,由所述主集群服务器进行数据服务,包括进行数据的读写与共享数据服务等,并且在每天的预设时间定时同步数据至所述备集群服务器中。主集群服务器和备集群服务器中存储的数据采用按天区别方式进行存储,每天的数据存储在以对应的日期命名的文件夹中。例如,在主集群服务器中每天的数据都存放在HDFS上的一个以天为单元的文件夹中,所述文件夹名称为该天的日期。
进一步的,每天定时同步的数据分为历史增量数据和实时增量数据。所述主集群服务器在预设时间将历史增量数据通过分布式拷贝方式同步至备集群服务器中,将实时增量数据通过同步增删方式同步至备集群服务器中。所述主集群服务器将所述历史增量数据和所述实时增量数据同步至所述备集群服务器中对应的以天为单位的文件夹中。例如,对于所述主集群服务器中的HDFS文件,用Hadoop自带的集群间数据分布式拷贝同步工具distcp针对block进行集群间的数据同步。对于所述主集群服务器中基于开始同步的时间点(例如晚上12点)之前当天的数据增量为历史增量数据,对于每天的历史增量数据采用分布式拷贝方式(distcp)同步迁移至备集群服务器中。对于所述主集群服务器中基于开始同步的时间点(例如晚上12点)时刻的实时增量数据采用hive组件自带的同步增删(replication)方式同步至所述备集群服务器中。当天同步的历史增量数据和实时增量数据均放置于所述备集群服务器中对应的HDFS上的一个以天为单元的文件夹中,所述文件夹名称与所述主集群服务器中对应的名称相同。
进一步的,在主集群服务器正常运行期间,所述主集群服务器同步刷新元数据信息,并将元数据信息同步备份至备集群服务器中。元数据信息的同步是通过分布式拷贝的方式或同步增删方式进行同步的。
S103、所述主集群服务器在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务。
具体的,所述主集群服务器在检测到出现故障时,通过负载均衡机制切换至备集群服务器进行数据服务。
具体的,主备集群服务器通过负载均衡机制感知完成主备集群之间的自动切换。所述负载均衡机制为haproxy+keepalive机制。当检测到主集群服务器出现故障时,haproxy+keepalive机制会自动切换到备集群服务器提供数据服务,此时停止主集群服务器的Keepalive服务。通过这种方式实现主备集群的切换使得系统的RTO(Recovery TimeObjective)恢复时间目标值可以接近于零,从而使得上层应用不需要修改任何的配置,使得切换平滑进行,进而保持了持续数据服务的稳定性,提高了数据提供服务的稳定性。
进一步的,主备集群服务器通过haproxy+keepalive机制来保障切换,主备集群服务器的数据的写入和读取都通过虚拟IP进行。上层应用的读和写都通过统一的虚拟IP进行,而主备集群服务器则采用不同的IP进行,主备集群服务器通过haproxy+keepalive机制感知,当主集群服务器发生故障时,由于对上层应用都是采用统一的虚拟IP,因此上层应用在主、备集群服务器切换时可以无感知的进行。因此当主集群服务器发生故障时,可以直接切换到备集群服务器提供数据服务。当提供数据服务由主集群服务器切换到备集群服务器后,停止主集群服务器的Keepalive服务。
S104、所述主集群服务器在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,所述增量数据为切换至备集群服务器进行数据服务后所增加的数据。
具体的,所述主集群服务器在检测到故障消除后,通过同步增删方式接收所述备集群服务器中的实时增量数据,通过分布式拷贝方式接收在故障期间备集群服务器中新增的历史增量数据。
示例性的,主备集群服务器通过负载均衡机制感知完成主备集群之间的自动切换。所述负载均衡机制为haproxy+keepalive机制。当检测到主集群服务器故障消除时,主集群服务器接收备集群服务器以同步增删(replication)方式发送的实时增量数据,以及接收备集群服务器以分布式拷贝方式(distcp)发送的在故障期间备集群服务器中新增的历史增量数据。当天同步的历史增量数据和实时增量数据均放置于所述主集群服务器中对应的HDFS上的一个以天为单元的文件夹中,所述文件夹名称与所述备集群服务器中对应的名称相同。
在一实施例中,当需要从备集群服务器中同步数据至主集群服务器时,读取主备集群服务器中对应HDFS文件的记录时间,计算出需要同步的HDFS文件,并同步对应需要同步的HDFS文件数据。
S105、所述主集群服务器在检测到和所述备集群服务器中的数据一致时,接收所述备集群服务器发送的元数据,并发送切换指令至备集群服务器,以实现切换至所述主集群服务器进行数据服务。
具体的,所述主集群服务器在接收所述备集群服务器的数据的同时,进行主备集群服务器数据一致性检测,当检测到主备集群服务器中的数据一致时,接收所述备集群服务器发送的元数据,并发送切换指令至备集群服务器,开启主集群服务器的Keepalive服务。通过haproxy+keepalive机制会自动再次切换到主集群服务器对外提供数据服务,并停止备集群服务器的Keepalive服务。
进一步的,主备集群服务器通过haproxy+keepalive机制来保障切换,主备集群服务器的数据的写入和读取都通过虚拟IP进行。上层应用的读和写都通过统一的虚拟IP进行,而主备集群服务器则采用不同的IP进行,主备集群服务器通过haproxy+keepalive机制感知,当主集群服务器故障消除后,由于对上层应用都是采用统一的虚拟IP,因此上层应用在主、备集群服务器切换时可以无感知的进行。因此当主集群服务器故障消除后并且检验主备集群服务器中数据一致且同步元数据后,可以直接切换到主集群服务器提供数据服务。当提供数据服务由备集群服务器切换到主集群服务器后,停止备集群服务器的Keepalive服务。
在一实施例中,所述主集群服务器在检测到和备集群服务器数据不一致时,通过分布式拷贝方式重新接收增量数据,并将增量数据重新覆盖导入对应文件夹中,直至数据一致。
通过上述方法实现主备集群的切换使得系统RTO(Recovery Time Objective)恢复时间目标值可以很小,RPO(Recovery Point Objective)恢复点目标值也可以接近0。
上述,通过主集群服务器与跨地区备集群服务器连接,并通过将数据同步至所述备集群服务器,所述主集群服务器发生故障时发送切换指令至所述备集群服务器实现切换至所述备集群服务器进行数据服务,并在故障消除之后接收备集群服务器发送的增量数据,在检测到主集群服务器和备集群服务器中数据一致时,接收所述备集群服务器发送的元数据并发送切换指令至所述备集群服务器实现切换至所述主集群服务器进行数据服务。采用上述技术手段,可以通过在主集群服务器发生故障时及时切换至备集群服务器进行数据服务,以保障数据不中断的进行服务,提高了数据提供服务的持续性;并且在故障消除后进行主备集群服务器数据的同步,在检测到两者数据一致时,再切换回主集群服务器进行数据服务,避免了数据的遗漏或重复写入,提高了数据传输有效性。
另一方面,参照图2,提供本申请实施例的另一种基于主备集群服务器跨地区服务容灾方法。该基于主备集群服务器跨地区服务容灾方法对应为上述服务器执行,该基于主备集群服务器跨地区服务容灾方法,包括:
S201、备集群服务器与主集群连接。
S202、所述备集群服务器在预设时间接收所述主集群服务器发送的同步数据。
具体的,所述备集群服务器在预设时间通过分布式拷贝方式接收所述主集群服务器发送的历史增量数据;所述备集群服务器在预设时间通过同步增删方式接收所述主集群服务器中发送的实时增量数据。
进一步的,在主集群服务器正常运行期间,所述备集群服务器接收所述主集群服务器发送的元数据信息。主集群服务器和备集群服务器中存储的数据采用按天区别方式进行存储,每天的数据存储在以对应的日期命名的文件夹中。
S203、所述备集群服务器在检测到所述主集群服务器出现故障时,发送切换指令至所述主集群服务器,以实现切换至所述备集群服务器进行数据服务。
具体的,所述备集群服务器在检测到所述主集群服务器出现故障时,通过负载均衡机制切换至备集群服务器进行数据服务。
S204、所述备集群服务器在检测到所述主集群服务器故障消除后,发送在故障期间的增量数据至所述主集群服务器。
具体的,在检测到故障消除后,通过同步增删方式发送实时增量数据至所述主集群服务器中;通过分布式拷贝方式发送在故障期间备集群服务器中新增的历史增量数据发送至所述主集群服务器中。
S205、所述备集群服务器在检测到和所述主集群服务器中的数据一致时,发送元数据至所述主集群服务器中,并发送切换指令至所述主集群服务器,以实现切换至所述备集群服务器进行数据服务。
具体的,所述备集群服务器检测到和主集群服务器数据不一致时,通过分布式拷贝方式重新发送增量数据至所述主集群服务器中,直至数据一致。
上述,通过主集群服务器与跨地区备集群服务器连接,并通过将数据同步至所述备集群服务器,所述主集群服务器发生故障时发送切换指令至所述备集群服务器实现切换至所述备集群服务器进行数据服务,并在故障消除之后接收备集群服务器发送的增量数据,在检测到主集群服务器和备集群服务器中数据一致时,接收所述备集群服务器发送的元数据并发送切换指令至所述备集群服务器实现切换至所述主集群服务器进行数据服务。采用上述技术手段,可以通过在主集群服务器发生故障时及时切换至备集群服务器进行数据服务,以保障数据不中断的进行服务,提高了数据提供服务的持续性;并且在故障消除后进行主备集群服务器数据的同步,在检测到两者数据一致时,再切换回主集群服务器进行数据服务,避免了数据的遗漏或重复写入,提高了数据传输有效性。
实施例二:
在上述实施例的基础上,图3为本申请实施例二提供的一种基于主备集群服务器跨地区服务容灾装置的结构示意图。参考图3,本实施例提供的基于主备集群服务器跨地区服务容灾装置具体包括:通信连接装置21、第一数据同步装置22、第一切换装置23、第二数据同步装置24和第二切换装置25。
其中,通信连接装置21,用于主集群服务器与跨地区的备集群服务器连接;
第一数据同步装置22,用于在预设时间将数据同步至所述备集群服务器中;
第一切换装置23,用于在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务;
第二数据同步装置24,用于在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,所述增量数据为切换至备集群服务器进行数据服务后所增加的数据;
第二切换装置25,用于在检测到和所述备集群服务器中的数据一致时,接收所述备集群服务器发送的元数据,并发送切换指令至备集群服务器,以实现切换至所述主集群服务器进行数据服务。
进一步的,所述第一数据同步装置22,还用于在预设时间将历史增量数据通过分布式拷贝方式同步至备集群服务器中;在预设时间将实时增量数据通过同步增删方式同步至备集群服务器中。
进一步的,第一切换装置23,还用于检测到出现故障时,通过负载均衡机制切换至备集群服务器进行数据服务。
进一步的,第二数据同步装置24,还用于在检测到故障消除后,通过同步增删方式接收所述备集群服务器中的实时增量数据;
所述主集群服务器通过分布式拷贝方式接收在故障期间备集群服务器中新增的历史增量数据。
进一步的,所述装置还包括:
第三数据同步装置,用于在主集群服务器正常运行期间,同步刷新元数据信息,并将元数据信息同步备份至备集群服务器中。
进一步的,所述装置还包括:
数据存储装置,用于对主集群服务器和备集群服务器中存储的数据采用按天区别方式进行存储,每天的数据存储在以对应的日期命名的文件夹中。
进一步的,所述第二数据同步装置24,还用于在检测到和备集群服务器数据不一致时,通过分布式拷贝方式重新接收增量数据,并将增量数据重新覆盖导入对应文件夹中,直至数据一致。
上述,通过主集群服务器与跨地区备集群服务器连接,并通过将数据同步至所述备集群服务器,所述主集群服务器发生故障时发送切换指令至所述备集群服务器实现切换至所述备集群服务器进行数据服务,并在故障消除之后接收备集群服务器发送的增量数据,在检测到主集群服务器和备集群服务器中数据一致时,接收所述备集群服务器发送的元数据并发送切换指令至所述备集群服务器实现切换至所述主集群服务器进行数据服务。采用上述技术手段,可以通过在主集群服务器发生故障时及时切换至备集群服务器进行数据服务,以保障数据不中断的进行服务,提高了数据提供服务的持续性;并且在故障消除后进行主备集群服务器数据的同步,在检测到两者数据一致时,再切换回主集群服务器进行数据服务,避免了数据的遗漏或重复写入,提高了数据传输有效性。
实施例三:
本申请实施例三提供了一种电子设备,参照图3,该电子设备包括:处理器31、存储器32、通信模块33、输入装置34及输出装置35。该电子设备中处理器的数量可以是一个或者多个,该电子设备中的存储器的数量可以是一个或者多个。该电子设备的处理器、存储器、通信模块、输入装置及输出装置可以通过总线或者其他方式连接。
存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的基于主备集群服务器跨地区服务容灾方法对应的程序指令/模块(例如,基于主备集群服务器跨地区服务容灾装置中的通信连接装置、第一数据同步装置、第一切换装置、第二数据同步装置和第二切换装置)。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块33用于进行数据传输。
处理器31通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的基于主备集群服务器跨地区服务容灾方法。
输入装置34可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。
上述提供的电子设备可用于执行上述实施例一提供的基于主备集群服务器跨地区服务容灾方法,具备相应的功能和有益效果。
实施例四:
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于主备集群服务器跨地区服务容灾方法,该基于主备集群服务器跨地区服务容灾方法包括:主集群服务器与跨地区的备集群服务器连接;所述主集群服务器在预设时间将数据同步至所述备集群服务器中;所述主集群服务器在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务;所述主集群服务器在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,所述增量数据为切换至备集群服务器进行数据服务后所增加的数据;所述主集群服务器在检测到和所述备集群服务器中的数据一致时,接收所述备集群服务器发送的元数据,并发送切换指令至备集群服务器,以实现切换至所述主集群服务器进行数据服务。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的基于主备集群服务器跨地区服务容灾方法,还可以执行本申请任意实施例所提供的基于主备集群服务器跨地区服务容灾方法中的相关操作。
上述实施例中提供的基于主备集群服务器跨地区服务容灾装置、存储介质及电子设备可执行本申请任意实施例所提供的基于主备集群服务器跨地区服务容灾方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的基于主备集群服务器跨地区服务容灾方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

Claims (10)

1.一种基于主备集群服务器跨地区服务容灾方法,其特征在于,包括:
主集群服务器与跨地区的备集群服务器连接;
所述主集群服务器在预设时间将数据同步至所述备集群服务器中;
所述主集群服务器在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务;
所述主集群服务器在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,所述增量数据为切换至备集群服务器进行数据服务后所增加的数据;
所述主集群服务器在检测到和所述备集群服务器中的数据一致时,接收所述备集群服务器发送的元数据,并发送切换指令至备集群服务器,以实现切换至所述主集群服务器进行数据服务。
2.根据权利要求1所述的基于主备集群服务器跨地区服务容灾方法,其特征在于,所述主集群服务器在预设时间将数据同步至备集群服务器中,具体为:
所述主集群服务器在预设时间将历史增量数据通过分布式拷贝方式同步至备集群服务器中;
所述主集群服务器在预设时间将实时增量数据通过同步增删方式同步至备集群服务器中。
3.根据权利要求1所述的基于主备集群服务器跨地区服务容灾方法,其特征在于,所述主集群服务器在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务,具体为:
所述主集群服务器在检测到出现故障时,通过负载均衡机制切换至备集群服务器进行数据服务。
4.根据权利要求1所述的基于主备集群服务器跨地区服务容灾方法,其特征在于,所述主集群服务器在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,具体为:
所述主集群服务器在检测到故障消除后,通过同步增删方式接收所述备集群服务器中的实时增量数据;
所述主集群服务器通过分布式拷贝方式接收在故障期间备集群服务器中新增的历史增量数据。
5.根据权利要求1所述的基于主备集群服务器跨地区服务容灾方法,其特征在于,所述方法还包括:
在主集群服务器正常运行期间,所述主集群服务器同步刷新元数据信息,并将元数据信息同步备份至备集群服务器中。
6.根据权利要求1所述的基于主备集群服务器跨地区服务容灾方法,其特征在于,所述方法还包括:
主集群服务器和备集群服务器中存储的数据采用按天区别方式进行存储,每天的数据存储在以对应的日期命名的文件夹中。
7.根据权利要求6所述的基于主备集群服务器跨地区服务容灾方法,其特征在于,所述方法还包括:
所述主集群服务器在检测到和备集群服务器数据不一致时,通过分布式拷贝方式重新接收增量数据,并将增量数据重新覆盖导入对应文件夹中,直至数据一致。
8.一种基于主备集群服务器跨地区服务容灾装置,其特征在于,包括:
通信连接装置,用于主集群服务器与跨地区的备集群服务器连接;
第一数据同步装置,用于在预设时间将数据同步至所述备集群服务器中;
第一切换装置,用于在检测到出现故障时,发送切换指令至所述备集群服务器,以实现切换至所述备集群服务器进行数据服务;
第二数据同步装置,用于在检测到故障消除后,接收所述备集群服务器发送的增量数据,以实现所述主集群服务器与所述备集群服务器中的数据一致,所述增量数据为切换至备集群服务器进行数据服务后所增加的数据;
第二切换装置,用于在检测到和所述备集群服务器中的数据一致时,接收所述备集群服务器发送的元数据,并发送切换指令至备集群服务器,以实现切换至所述主集群服务器进行数据服务。
9.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的方法。
CN202111369854.3A 2021-11-18 2021-11-18 一种基于主备集群服务器跨地区服务容灾方法及装置 Pending CN114090349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111369854.3A CN114090349A (zh) 2021-11-18 2021-11-18 一种基于主备集群服务器跨地区服务容灾方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111369854.3A CN114090349A (zh) 2021-11-18 2021-11-18 一种基于主备集群服务器跨地区服务容灾方法及装置

Publications (1)

Publication Number Publication Date
CN114090349A true CN114090349A (zh) 2022-02-25

Family

ID=80301738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111369854.3A Pending CN114090349A (zh) 2021-11-18 2021-11-18 一种基于主备集群服务器跨地区服务容灾方法及装置

Country Status (1)

Country Link
CN (1) CN114090349A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115118738A (zh) * 2022-08-30 2022-09-27 深圳华锐分布式技术股份有限公司 基于rdma的灾备方法、装置、设备及介质
CN115567549A (zh) * 2022-09-22 2023-01-03 中国联合网络通信集团有限公司 数据缓存方法、装置、电子设备和可读存储介质
CN117667515A (zh) * 2023-12-08 2024-03-08 广州鼎甲计算机科技有限公司 主备集群的备份管理方法、装置、计算机设备及存储介质
CN117931769A (zh) * 2023-12-18 2024-04-26 中国人寿保险股份有限公司 数据迁移方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103036719A (zh) * 2012-12-12 2013-04-10 北京星网锐捷网络技术有限公司 一种基于主备集群服务器的跨地区服务容灾方法及装置
CN111917846A (zh) * 2020-07-19 2020-11-10 中信银行股份有限公司 一种Kafka集群切换方法、装置、系统、电子设备及可读存储介质
CN113051110A (zh) * 2019-12-27 2021-06-29 中国移动通信集团湖南有限公司 集群切换方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103036719A (zh) * 2012-12-12 2013-04-10 北京星网锐捷网络技术有限公司 一种基于主备集群服务器的跨地区服务容灾方法及装置
CN113051110A (zh) * 2019-12-27 2021-06-29 中国移动通信集团湖南有限公司 集群切换方法、装置及设备
CN111917846A (zh) * 2020-07-19 2020-11-10 中信银行股份有限公司 一种Kafka集群切换方法、装置、系统、电子设备及可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115118738A (zh) * 2022-08-30 2022-09-27 深圳华锐分布式技术股份有限公司 基于rdma的灾备方法、装置、设备及介质
CN115118738B (zh) * 2022-08-30 2022-11-22 深圳华锐分布式技术股份有限公司 基于rdma的灾备方法、装置、设备及介质
CN115567549A (zh) * 2022-09-22 2023-01-03 中国联合网络通信集团有限公司 数据缓存方法、装置、电子设备和可读存储介质
CN117667515A (zh) * 2023-12-08 2024-03-08 广州鼎甲计算机科技有限公司 主备集群的备份管理方法、装置、计算机设备及存储介质
CN117931769A (zh) * 2023-12-18 2024-04-26 中国人寿保险股份有限公司 数据迁移方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN114090349A (zh) 一种基于主备集群服务器跨地区服务容灾方法及装置
US8850144B1 (en) Active replication switch
US9037818B1 (en) Active replication switch
US8583885B1 (en) Energy efficient sync and async replication
US9658929B1 (en) Asynchronous splitting
US9032160B1 (en) Continuous data replication
US7613749B2 (en) System and method for application fault tolerance and recovery using topologically remotely located computing devices
CN102265277B (zh) 数据存储系统的操作方法和装置
JP6225262B2 (ja) 分散データグリッドにおいてデータを同期させるためにパーティションレベルジャーナリングをサポートするためのシステムおよび方法
US20200019543A1 (en) Method, apparatus and device for updating data, and medium
CN110727709A (zh) 一种集群数据库系统
CN104965850A (zh) 一种基于开源技术的数据库高可用实现方法
US10127077B2 (en) Event distribution pattern for use with a distributed data grid
US20170168756A1 (en) Storage transactions
EP2281240A1 (en) Maintaining data integrity in data servers across data centers
US9367409B2 (en) Method and system for handling failures by tracking status of switchover or switchback
US10452680B1 (en) Catch-up replication with log peer
EP4213038A1 (en) Data processing method and apparatus based on distributed storage, device, and medium
CN111506649A (zh) 交易数据容灾切换方法、装置及计算设备、存储介质
CN113849136B (zh) 一种基于国产平台的自动化fc块存储处理方法和系统
CN111506648A (zh) 交易数据备份方法、装置及计算设备、存储介质
CN103384266A (zh) 一种基于文件级实时同步的Parastor200管理节点高可用方法
CN112181723A (zh) 一种金融灾备方法、装置、存储介质及电子设备
US9367413B2 (en) Detecting data loss during site switchover
Friedman et al. Fast replicated state machines over partitionable networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220225

RJ01 Rejection of invention patent application after publication