CN113535480A

CN113535480A - 数据灾备系统、方法

Info

Publication number: CN113535480A
Application number: CN202110808166.6A
Authority: CN
Inventors: 李�杰; 赵楠; 何志东
Original assignee: Shenzhen Archforce Financial Technology Co Ltd
Current assignee: Shenzhen Archforce Financial Technology Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-10-22

Abstract

本申请涉及一种数据灾备系统、方法。所述系统包括：包括主中心和灾备中心，所述灾备中心设有多个，所述灾备中心包括一个代理节点和至少一个灾备集群；所述主中心获取外部输入的消息，并向各灾备中心逐个转发所述消息；所述灾备中心通过所述代理节点获取所述消息；所述代理节点，将所述消息分别同步发送给各所述灾备集群。采用本方法能够提高主中心数据处理效率。

Description

数据灾备系统、方法

技术领域

本申请涉及数据备份技术领域，特别是涉及一种数据灾备系统、方法。

背景技术

随着数据备份技术的发展，当主中心遭受重大破坏(地震、断网断电等)，部署在该主中心的应用集群无法继续工作，为了保证服务的可用性，备主中心的灾备集群接替主主中心，继续提供服务，出现了数据灾备技术。

传统技术中，为了解决主、灾节点之间的消息同步、故障切换、以及灾备集群内部节点的状态对齐问题。通常由主中心向灾备集群的各个成员依次转发消息。

然而，传统方法，由于主中心向灾备群中的各个成员依次转发消息，从而容易降低主中心数据处理效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高主中心数据处理效率的数据灾备系统、方法。

一种数据灾备系统，包括主中心和灾备中心，所述灾备中心设有多个，所述灾备中心包括一个代理节点和至少一个灾备集群；

所述主中心获取外部输入的消息，并向各灾备中心逐个转发所述消息；

所述灾备中心通过所述代理节点获取所述消息；

所述代理节点，将所述消息分别同步发送给各所述灾备集群。

在其中一个实施例中，所述代理节点在获取到所述消息时，分别生成全局消息顺序，按照所述主中心生成的全局消息顺序向各所述灾备集群同步发送所述消息。

在其中一个实施例中，所述灾备中心，当检测到断开与所述主中心的通信连接时，判定故障类型，根据所述故障类型确定对应的措施。

在其中一个实施例中，所述主中心包括主集群，所述灾备中心，还用于当确定所述故障类型为集群级别故障时，获取集群切换指令，根据所述集群切换指令将其中一个所述灾备集群切换作为新的主集群。

在其中一个实施例中，若所述灾备集群具有至少一个从集群，所述灾备集群在获取到对应代理节点发送的所述消息时，向各所述从集群转发所述消息。

一种数据灾备方法，应用于数据灾备系统的灾备中心，所述数据灾备系统包括主中心和灾备中心，所述灾备中心设有多个，所述灾备中心包括一个代理节点和至少一个灾备集群；所述方法包括：

通过代理节点获取主中心转发的所述消息；其中，所述消息为所述主中心获取外部输入的消息后，逐个向所述灾备中心发送的；

通过代理节点将所述消息分别同步给各所述灾备集群。

在其中一个实施例中，通过代理节点将所述消息分别同步给各所述灾备集群，包括：

获取代理节点在获取到所述消息时，按照所述主中心生成的所述全局消息顺序向各所述灾备集群同步发送所述消息。

在其中一个实施例中，当所述灾备集群包括一个从集群时，所述方法还包括：向各所述从集群转发所述消息。

在其中一个实施例中，所述方法还包括：

检测是否断开与主中心的通信连接；

当检测到断开与主中心的通信连接时，判定故障类型，根据所述故障类型确定对应的措施。

在其中一个实施例中，当确定所述故障类型为集群级别故障时，获取集群切换指令，根据所述集群切换指令将其中一个所述灾备集群切换作为新的主集群。

上述数据灾备系统、方法，通过主中心获取外部输入的消息；由主中心向各个灾备中心逐个转发消息；灾备中心通过代理节点获取消息；再通过代理节点将消息分别同步发送各灾备集群。长距离通信只能使主中心向各灾备中心逐个转发消息，数据中心内部，再通过代理节点实现灾备中心内各从集群的消息同步，从而不需要主中心向灾备中心的各个从集群成员依次转发消息，因而本申请能够提高主中心数据处理效率。

附图说明

图1为一个实施例中数据灾备系统图；

图2为一个实施例中数据灾备方法的流程示意图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据灾备方法，可以应用于如图1所示的应用环境/系统中。其中，包括主中心201、灾备中心202，主中心201包括多个主集群，各主集群之间相互独立，各自运行不同的程序，提供不同的服务。主中心102主要用于获取外部输入的消息，灾备中心202用于备份主中心201的消息。灾备中心202有多个灾备集群204，灾备集群204内有多个节点，节点是运行在服务器上的进程实例。各灾备中心202均有一个对应的代理节点203，代理节点203用于获取主中心201发送的消息，并将消息转发给对应的各灾备集群204，使灾备集群204的多个节点均能接收到消息。

在一个实施例中，如图1所示，提供了一种数据灾备系统，包括主中心201和灾备中心202，所述灾备中心202设有多个，所述灾备中心202包括一个代理节点203和至少一个灾备集群204和与所述灾备集群204对应的；

所述主中心201获取外部输入的消息，并向各灾备中心202逐个转发所述消息；

所述灾备中心202通过所述代理节点203获取所述消息；

所述代理节点203，将所述消息分别同步发送给各所述灾备集群204。

其中，主中心201是指数据中心，用于接收外部系统输入的消息，外部系统输入的消息，在金融证券行业，如用户在手机上下单产生的股票买卖委托等内容。主中心201包括主集群，主中心201获得的外部输入的消息通常是由其内部的主集群来获取的。灾备中心202是用于灾难备份的数据中心，一般和主中心201所在的城市不同，或者和主中心201虽然同城但区域不同。灾备中心202的主要作用是：在主中心201遭受重大破坏、短时间内无法恢复的情况下，接替主中心201继续工作。具体地，灾备中心202通过各灾备集群204的节点接收主中心201的消息，以实现消息的备份。通常一个灾备集群204包括一个主节点和多个备节点。

数据灾备系统包括一个主中心201和多个灾备中心202，一个灾备中心202包括多个灾备集群204，当灾备集群204还包括从集群时，该灾备集群204视为与该从集群对应的主集群。各个灾备中心202均有一个与之对应的代理节点203。其中，代理节点203是部署于灾备中心202的软件程序，用于接收主中心201向灾备中心202发送的消息。

主中心201和灾备中心202之间距离较远，属于长距离通信，灾备中心202要实现备份，传统的方法是主中心201将消息通过单播方式转发给各个从集群中的节点，造成网络带宽压力较大，通信成本过高。本申请设置代理节点203，主中心201和灾备中心202之间的消息转发仍采用单播方式，即主中心201向各个灾备中心202一对一、逐个地转发消息，转发过程中，无需在上一个灾备中心202确认完全收到消息的基础上进行。由此，各灾备中心202通过其对应的代理节点203可以获得主中心201转发的消息。在该灾备中心202的代理节点203获得消息后，需要进一步发送给该代理节点203对应的各灾备集群204。在代理节点203将消息转发给各灾备集群204时，是通过可靠组播方式使得各灾备集群204同时获得消息的。可靠组播方式具体表现为，代理节点203将消息同步发送给灾备集群204中的各个节点，即通过一个代理节点203可以实现调用一次发送接口，同时发送给灾备集群中的多个节点。在数据中心内部采用可靠组播方式，从而可以在一定程度上降低通讯时延和降低网络带宽占用。

此外，一般为了保证高可用性，主中心的主集群和灾备集群204都由两个节点组成。

上述数据灾备系统中，通过主中心获取外部输入的消息；由主中心向各个灾备中心逐个转发消息；灾备中心通过代理节点获取消息；再通过代理节点将消息分别同步发送各灾备集群。长距离通信只能使主中心向各灾备中心逐个转发消息，数据中心内部，再通过代理节点实现灾备中心内各从集群的消息同步，从而不需要主中心向灾备中心的各个从集群成员依次转发消息，因而本申请能够提高主中心数据处理效率。

在一个实施例中，所述代理节点203在获取到所述消息时，分别生成全局消息顺序，按照所述主中心201生成的全局消息顺序向各所述灾备集群204同步发送所述消息。

具体地，代理节点203在获取到消息时，同时接收到的还有主中心201生成的全局消息顺序，代理节点203按照该全局消息顺序向各灾备集群204同步发送消息，使从集群中的各个节点收到消息。

本实施例中，通过代理节点根据接收到的消息，按照主中心生成的全局消息顺序将消息同步给各灾备集群(中的节点)同步发送消息，从而使灾备集群和主中心内集群的消息输入顺序全局一致。

在一个实施例中，所述灾备中心202，当检测到断开与所述主中心201的通信连接时，判定故障类型，根据所述故障类型确定对应的措施。

其中，灾备中心202还用于检测是否和主中心201的通信连接断开，检测的依据是代理节点203应该收到主中心201转发的消息时，代理节点203并没有收到；或者灾备集群204中各节点，应该收到代理节点203同步发送的消息时，灾备集群204中的各节点并没有收到。

具体地，当灾备中心202检测到断开和主中心201的通信连接时，判定故障类型，故障类型包括短时断网或长时断网，导致短时断网的情况有电路跳闸、短时停电等，长时断网的情况有自然地质灾害或因其他重大情况导致短时间内无法恢复网络。根据不同的故障类型，确定对应的措施。对于短时断网，延时等待电路、网络恢复，对于长时断网，通常也称为集群级别故障，依照集群级别故障进行相应处理。

本实施例中，通过灾备中心检测到断开和主中心的通信连接，判定故障类型，最后根据故障类型确定对应的措施，以解决故障问题。

在一个实施例中，所述主中心201包括主集群，所述灾备中心202，还用于当确定所述故障类型为集群级别故障时，获取集群切换指令，根据所述集群切换指令将其中一个所述灾备集群204切换作为新的主集群。

其中，集群级别的故障是指整个主集群全都故障，并且无法恢复(比如城市遭受地震、断电等灾难)。集群切换指令是实现灾备集群204向主集群切换的切换指令，通常将集群切换指令发送到Domain Server(Domain Server是分布式系统基础架构的配置管理、运维监控中心，是部署在服务器上的软件程序)的方式，触发应用完成灾备中心202向主中心201的切换。

具体地，灾备集群204和主集群内部的代码功能完全相同，用于区分灾备集群204和主集群的是标记状态。集群切换指令由灾备中心202获取，获取之后灾备中心202修改标记状态，将灾备集群204的标记状态标记为主集群，即可使得灾备集群204变为主集群。

本实施例中，通过当灾备中心确定故障类型为集群级别故障时，获取集群切换指令，根据集群切换指令将其中一个灾备集群切换作为新的主集群，使其作为新的主集群继续对外提供服务。

在一个实施例中，若所述灾备集群204具有至少一个从集群，所述灾备集群204在获取到对应代理节点203发送的所述消息时，向各所述从集群转发所述消息。

其中，当一个灾备集群204具有多个从集群时，该灾备集群204可以视为若干个从集群的主集群。灾备集群204中各节点接收来自代理节点203的消息后，会再将消息转发给各从集群。

本实施例中，灾备集群在获取到对应代理节点发送的消息时，会向该灾备集群的各从集群转发消息，从而使各从集群的节点均同步收到消息。使灾备集群和各从集群共享同样的业务处理逻辑，可以使用同样的代码程序，无需重新开发。

在一个实施例中，如图2所示，一种数据灾备方法，应用于数据灾备系统的灾备中心，其中：以该方法应用于图1中的系统为例进行说明，所述数据灾备系统包括主中心和灾备中心，所述灾备中心设有多个，所述灾备中心包括一个代理节点和至少一个灾备集群；所述方法包括：

步骤S202，通过代理节点获取主中心转发的所述消息；其中，所述消息为所述主中心获取外部输入的消息后，逐个向所述灾备中心发送的；

步骤S204，通过代理节点将所述消息分别同步给各所述灾备集群。

其中，主中心是指数据中心，用于接收外部系统输入的消息，外部系统输入的消息，在金融证券行业，如用户在手机上下单产生的股票买卖委托等内容。灾备中心是用于灾难备份的数据中心，一般和主中心所在的城市不同，或者和主中心虽然同城但区域不同。灾备中心的主要作用是：在主中心遭受重大破坏、短时间内无法恢复的情况下，接替主中心继续工作。具体地，灾备中心通过各灾备集群的节点接收主中心的消息，以实现消息的备份。通常一个灾备集群包括一个主节点和多个备节点。

数据灾备系统包括一个主中心和多个灾备中心，一个灾备中心包括多个灾备集群，当灾备集群还包括从集群时，该灾备集群视为与该从集群对应的主集群。一个灾备中心内的各个灾备集群均有一个与之对应的代理节点。其中，代理节点是部署于灾备中心的软件程序，用于接收主中心向灾备中心发送的消息。

主中心和灾备中心之间距离较远，属于长距离通信，灾备中心要实现备份，传统的方法是主中心将消息通过单播方式转发给各个灾备集群中的节点，造成网络带宽压力较大，通信成本过高。本申请设置代理节点，主中心和灾备中心之间的消息转发仍采用单播方式，即主中心向各个灾备中心一对一、逐个地转发消息，转发过程中，无需在上一个灾备中心确认完全收到消息的基础上进行。由此，一个灾备中心通过其内部的各个代理节点可以获得主中心转发的消息。在该灾备中心的各代理节点获得消息后，需要进一步发送给各代理节点对应的灾备集群。在代理节点将消息转发给对应的灾备集群时，是通过可靠组播方式使得各灾备集群同时获得消息的。可靠组播方式具体表现为，代理节点将消息同步发送给灾备集群中的各个节点，即通过一个代理节点可以实现同时转发给多个节点。在数据中心内部采用可靠组播方式，从而可以在一定程度上降低网络带宽的占用。

此外，一般为了保证高可用性，主集群和灾备集群都由两个节点组成高可用集群。

本实施例中，通过主中心获取外部输入的消息；由主中心向个灾备中心逐个转发消息；灾备中心通过代理节点获取消息；再通过代理节点将消息分别同步发送各灾备集群。长距离通信只能使主中心向各灾备中心逐个转发消息，数据中心内部，再通过代理节点实现灾备中心内各从集群的消息同步，从而不需要主中心向灾备中心的各个从集群成员依次转发消息，因而本申请能够提高主中心数据处理效率。

在一个实施例中，通过代理节点将所述消息分别同步给各所述灾备集群，包括：

获取代理节点在获取到所述消息时，按照所述主中心生成的全局消息顺序向各所述灾备集群同步发送所述消息。

具体地，代理节点在获取到消息时，同时接收到的还有主中心生成的全局消息顺序，代理节点将按照该全局消息顺序向各灾备集群同步发送消息，使从集群中的各个节点收到消息。其中，全局消息顺序是代理节点接收各消息的顺序。

本实施例中，通过代理节点根据接收到的消息，生成全局消息顺序，并按照该全局消息顺序将消息同步给各灾备集群(中的节点)同步发送消息，从而使灾备集群和主中心内集群的消息输入顺序全局一致。

在一个实施例中，当所述灾备集群包括一个从集群时，所述方法还包括：向各所述从集群转发所述消息。

其中，当一个灾备集群具有多个从集群时，该灾备集群可以视为若干个从集群的主集群。灾备集群中各节点接收来自代理节点的消息后，会再将消息转发给各从集群。

在一个实施例中，数据灾备方法还包括：

检测是否断开与主中心的通信连接；

其中，灾备中心还用于检测是否和主中心的通信连接断开，检测的依据是代理节点应该收到主中心转发的消息时，代理节点并没有收到；或者灾备集群中各节点，应该收到代理节点同步发送的消息时，灾备集群中的各节点并没有收到。

具体地，当灾备中心检测到断开和主中心的通信连接时，判定故障类型，故障类型包括短时断网或长时断网，导致短时断网的情况有电路跳闸、短时停电、网络波动，交换机重启等，长时断网的情况有自然地质灾害或因其他重大情况导致短时间内无法恢复网络。根据不同的故障类型，确定对应的措施。对于短时断网，主集群不受影响，可以继续提供服务，在网络恢复后，会将消息从上次断点位置继续发送给灾备中心的代理节点，对于长时断网，通常也称为集群级别故障，依照集群级别故障进行相应处理。

在一个实施例中，当确定所述故障类型为集群级别故障时，获取集群切换指令，根据所述集群切换指令将其中一个所述灾备集群切换作为新的主集群。

其中，集群级别的故障是指整个主集群全都故障，并且无法恢复(比如城市遭受地震、断电等灾难)。集群切换指令是实现灾备集群向主集群切换的切换指令，通常将集群切换指令发送到Domain Server(Domain Server是分布式系统基础架构的配置管理、运维监控中心，是部署在服务器上的软件程序)的方式，触发应用完成灾备中心向主中心的切换。

具体地，灾备集群和主集群内部的代码功能完全相同，用于区分灾备集群和主集群的是标记状态。集群切换指令由灾备中心获取，获取之后灾备中心修改标记状态，将灾备集群的标记状态标记为主集群，即可使得灾备集群变为主集群。

应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据灾备数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据灾备方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据灾备系统，其特征在于，包括主中心和灾备中心，所述灾备中心设有多个，所述灾备中心包括一个代理节点和至少一个灾备集群；

所述灾备中心通过所述代理节点获取所述消息；

2.根据权利要求1所述的数据灾备系统，其特征在于，所述代理节点在获取到所述消息时，按照所述主中心生成的全局消息顺序向各所述灾备集群同步发送所述消息。

3.根据权利要求2所述的数据灾备系统，其特征在于，所述灾备中心，当检测到断开与所述主中心的通信连接时，判定故障类型，根据所述故障类型确定对应的措施。

4.根据权利要求3所述的数据灾备系统，所述主中心包括主集群，其特征在于，所述灾备中心，还用于当确定所述故障类型为集群级别故障时，获取集群切换指令，根据所述集群切换指令将其中一个所述灾备集群切换作为新的主集群。

5.根据权利要求1所述的数据灾备系统，其特征在于，若所述灾备集群具有至少一个从集群，所述灾备集群在获取到对应代理节点发送的所述消息时，向各所述从集群转发所述消息。

6.一种数据灾备方法，应用于数据灾备系统的灾备中心，其特征在于，所述数据灾备系统包括主中心和灾备中心，所述灾备中心设有多个，所述灾备中心包括一个代理节点和至少一个灾备集群；所述方法包括：

通过代理节点将所述消息分别同步给各所述灾备集群。

7.根据权利要求6所述的数据灾备方法，其特征在于，通过代理节点将所述消息分别同步给各所述灾备集群，包括：

8.根据权利要求6所述的数据灾备方法，其特征在于，当所述灾备集群包括一个从集群时，所述方法还包括：向各所述从集群转发所述消息。

9.根据权利要求6所述的数据灾备方法，其特征在于，所述方法还包括：

检测是否断开与主中心的通信连接；

10.根据权利要求9所述的数据灾备方法，其特征在于，当确定所述故障类型为集群级别故障时，获取集群切换指令，根据所述集群切换指令将其中一个所述灾备集群切换作为新的主集群。