CN116860516A - 一种大数据服务的容灾处理方法及相关设备 - Google Patents

一种大数据服务的容灾处理方法及相关设备 Download PDF

Info

Publication number
CN116860516A
CN116860516A CN202310721492.2A CN202310721492A CN116860516A CN 116860516 A CN116860516 A CN 116860516A CN 202310721492 A CN202310721492 A CN 202310721492A CN 116860516 A CN116860516 A CN 116860516A
Authority
CN
China
Prior art keywords
data processing
disaster recovery
cluster
task
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310721492.2A
Other languages
English (en)
Inventor
白永超
吴天虹
张嘉梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310721492.2A priority Critical patent/CN116860516A/zh
Publication of CN116860516A publication Critical patent/CN116860516A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1451Management of the data involved in backup or backup restore by selection of backup contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本说明书提供了一种大数据服务的容灾处理方法及相关设备,应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用。该方法包括:基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用;所述可用性指标用于指示数据处理应用对于可用性的要求;确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中;响应于所述生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务。

Description

一种大数据服务的容灾处理方法及相关设备
技术领域
本说明书一个或多个实施例涉及大数据技术领域,尤其涉及一种大数据服务的容灾处理方法及相关设备。
背景技术
大数据服务在金融、物流和/或日常生活等国计民生中占据着越来越重要的位置。因此,大数据服务的稳定性、数据的质量以及关键数据处理应用的产出时效等任何部分发生异常,都会带来巨大的经济、社会影响。为了在故障发生时,保障大数据服务的可用性,需要提供大数据服务的容灾解决方案。然而,大数据服务的基本特点就是数据量庞大,对于计算、存储的资源消耗极多,因此大数据服务的容灾处理带来的成本开销往往比较高。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种大数据服务的容灾处理方法及相关设备。
第一方面,本说明书提供了一种大数据服务的容灾处理方法,应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用;所述方法包括:
基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用;所述可用性指标用于指示数据处理应用对于可用性的要求;
确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中;
响应于所述生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务。
在一示出的实施方式中,所述可用性指标包括数据恢复点目标RPO和/或数据恢复时间RTO;
所述基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用,包括:
如果数据处理应用的RPO小于第一预设阈值,和/或,数据处理应用的RTO小于第二预设阈值,则确定所述数据处理应用为需要进行容灾保护的关键数据处理应用。
在一示出的实施方式中,所述关键数据处理应用中包括与所述大数据处理任务包含的多个子任务分别对应的多个任务节点;
所述确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,包括:
从所述关键数据处理应用包括的所述多个任务节点中确定出需要进行容灾保护的至少一个目标任务节点,并确定执行所述至少一个目标任务节点上承载的子任务所使用的目标数据。
在一示出的实施方式中,所述至少一个目标任务节点包括:
所述多个任务节点中最后输出与其对应的子任务的数据处理结果的末端任务节点,以及与所述末端任务节点之间存在计算依赖关系的上游任务节点。
在一示出的实施方式中,所述将所述目标数据备份到所述容灾集群中,包括:
启用多个备份线程,通过所述多个备份线程并行地执行将所述目标数据备份到所述容灾集群中的备份处理过程,并在所述备份处理过程中,基于所述生产集群与所述容灾集群之间的带宽情况,调整所述备份线程的数量。
在一示出的实施方式中,所述在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务,包括:
在所述容灾集群中创建用于承载与所述至少一个目标任务节点相同的子任务的至少一个容灾节点;
基于已备份的所述目标数据继续在所述至少一个容灾节点上执行所述大数据处理任务。
在一示出的实施方式中,所述方法还包括:
响应于所述生产集群的故障恢复,停止在所述容灾集群中执行所述大数据处理任务,并将所述容灾集群执行所述大数据处理任务所产生的数据同步到所述生产集群中,以继续在所述生产集群中执行所述大数据处理任务。
第二方面,本说明书提供了一种大数据服务的容灾处理装置,应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用;所述装置包括:
确定单元,用于基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用;所述可用性指标用于指示数据处理应用对于可用性的要求;
数据备份单元,用于确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中;
第一执行单元,用于响应于所述生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务。
相应地,本说明书还提供了一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由所述处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述第一方面所述的大数据服务的容灾处理方法。
相应地,本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如上述第一方面所述的大数据服务的容灾处理方法。
综上所述,本申请可以基于生产集群中的多个数据处理应用对于可用性的要求,从该多个数据处理应用中筛选出需要进行容灾保护的关键数据处理应用,并将该关键数据处理应用执行对应的大数据处理时所使用到的数据备份到容灾集群中。如此,当生产集群发生故障时,可以在容灾集群中基于该已备份的数据继续执行关键数据处理应用中的大数据处理任务,进而保障关键数据处理应用在故障发生时的可用性。如此,本申请考虑到生产集群中的多个数据处理应用对于可用性有着高低不同的要求,可以优先对要求高可用的关键数据处理应用进行容灾保护,进而实现了在保障大数据服务的容灾诉求的同时,避免不必要的资源开销,极大程度上降低了大数据服务的容灾处理成本。
附图说明
图1是一示例性实施例提供的一种容灾系统的系统架构示意图;
图2是一示例性实施例提供的一种大数据服务的容灾处理方法的流程示意图;
图3是一示例性实施例提供的一种大数据服务的容灾处理装置的结构示意图;
图4是一示例性实施例提供的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
需要说明的是,本申请中所述的“多个”是指两个或者两个以上。
此外,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
(1)容灾系统,是指在相隔较远的异地,建立至少两套IT系统,当其中的主要系统因意外灾害或者紧急情况(例如火灾、地震等)发生故障而停止工作时,备份系统可以及时接手主要系统的工作,进而保证整个系统的可用性。
相应的,在常规的大数据服务容灾解决方案中,通常会在与生产集群相隔较远的异地构建一个容灾集群,当发生火灾、地震或者停电等情况,进而导致原本承担大数据服务中的各项大数据处理任务的生产集群出现故障时,可以将任务全部切换到容灾集群中执行,以在生产集群的故障恢复前由容灾集群继续提供大数据服务,保障用户体验。
如此一来,虽然可以保障大数据服务在故障发生时的可用性,但是往往需要备份整个生产集群中的数据,带来的资源消耗较大,投入成本较高,在落地部署时存在较大的阻力。
基于此,本说明书提供了一种技术方案,可以针对生产集群中对可用性有着较高要求的关键数据处理应用进行容灾保护,将其数据备份到容灾集群,以继续在容灾集群上执行关键数据处理应用上的大数据处理任务,既保证了大数据服务的容灾诉求,又避免了不必要的资源开销。
在实现时,本申请可以应用于容灾系统中,该容灾系统可以包括生产集群和对应的容灾集群,其中,生产集群中可以部署有用于执行大数据处理任务的多个数据处理应用。当生产集群发生故障时,本申请可以基于生产集群中的多个数据处理应用的可用性指标,从多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用。其中,数据处理应用可以用于执行大数据处理任务,数据处理应用的可用性指标可以用于指示数据处理应用对于可用性的要求。进一步地,本申请可以确定该关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将该目标数据备份到容灾集群中,以在容灾集群中基于已备份的目标数据继续执行该大数据处理任务。
在以上技术方案中,本申请可以基于生产集群中的多个数据处理应用对于可用性的要求,从该多个数据处理应用中筛选出需要进行容灾保护的关键数据处理应用,并将该关键数据处理应用执行对应的大数据处理时所使用到的数据备份到容灾集群中。如此,当生产集群发生故障时,可以在容灾集群中基于该已备份的数据继续执行关键数据处理应用中的大数据处理任务,进而保障关键数据处理应用在故障发生时的可用性。如此,本申请考虑到生产集群中的多个数据处理应用对于可用性有着高低不同的要求,可以优先对要求高可用的关键数据处理应用进行容灾保护,进而实现了在保障大数据服务的容灾诉求的同时,避免不必要的资源开销,极大程度上降低了大数据服务的容灾处理成本。
请参阅图1,图1是一示例性实施例提供的一种容灾系统的系统架构示意图。本说明提供的一个或多个实施例可以在图1所示的系统架构或者类似的系统架构中具体实施。如图1所示,容灾系统可以包括生产集群100和容灾集群200。在一示出的实施方式中,生产集群100与容灾集群200之间可以通过任何可能的方式建立通信连接。示例性的,生产集群100与容灾集群200之间可以通过无线网络的方式进行通信,等等,本说明书对此不做具体限定。
其中,生产集群100可以是由多个服务器构成的服务器集群,如图1所示,生产集群100可以包括服务器10a和服务器10b等多个服务器。相应的,容灾集群200也可以是由多个服务器构成的服务器集群,如图1所示,生产集群100可以包括服务器20a和服务器20b等多个服务器。
应理解,图1所示的系统架构仅作示例性说明,在一些可能的实施方式中,容灾系统中可以包括多个容灾集群200,以提升容灾系统的可靠性和安全性。或者,该容灾系统中还可以包括独立于生产集群100和容灾集群200的其他计算机设备或集群,等等,本说明书对此不做具体限定。
在一示出的实施方式中,生产集群100可以用于提供大数据服务。示例性的,生产集群100中可以部署有多个用于执行大数据处理任务的数据处理应用。需要说明的是,该大数据处理任务可以包括大数据技术领域所涉及的任何可能的任务,本说明书对此不做特别限定。示例性的,该大数据处理任务例如可以包括大数据的采集、大数据的预处理(比如大数据抽取、清洗与标记)、大数据的分析与建模,以及大数据的可视化展示(例如报表),等等,本说明书对此不做具体限定。
在一示出的实施方式中,该多个数据处理应用可以均部署在生产集群100的服务器10a或者服务器10b中,或者,该多个数据处理应用中的一部分数据处理应用可以部署在生产集群100的服务器10a中,另一部分数据处理应用可以部署在服务器10b中,等等,本说明书对此不做具体限定。
在一示出的实施方式中,数据处理应用在执行相应的大数据处理任务时所使用的数据也可以存储在服务器10a或者服务器10b中。示例性的,以该大数据处理任务为大数据的预处理(比如包括大数据的清洗与标记)为例,则数据处理应用在执行该大数据处理任务时所使用的数据可以为前序采集到的大量原始数据。示例性的,以该大数据处理任务为大数据的可视化展示为例,则数据处理应用在执行该大数据处理任务时所使用的数据可以为前序获得的大数据分析或者预测结果,等等,本说明书对此不做具体限定。
进一步地,在一示出的实施方式中,数据处理应用在执行相应的大数据处理任务时所产出的数据(即输出的数据处理结果)也可以存储在服务器10a或者服务器10b中,等等,此处不再展开详述。
在一示出的实施方式中,容灾集群200可以部署在与生产集群100相隔较远的异地,例如容灾集群200与生产集群100可以部署在不同的城市,甚至不同的国家,等等,本说明书对此不做具体限定。如此,可以有效避免容灾集群200与生产集群100因当地发生火灾或者地震等情况而同时出现故障,即保证至少有一个集群可以正常工作来提供大数据服务。
在一示出的实施方式中,本申请可以获取生产集群100中的多个数据处理应用的可用性指标。其中,该可用性指标可以用于指示数据处理应用对于可用性的要求。进一步地,本申请可以基于多个数据处理应用的可用性指标,从多个数据处理应用中筛选出需要进行容灾保护的关键数据处理应用。示例性的,该关键数据处理应用可以是多个数据处理应用中对可用性要求比较高的应用。进一步地,本申请可以将该关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据备份到容灾集群中。示例性的,该目标数据应用可以存储在生产集群100的服务器10a中,服务器10a可以启用多个备份线程,通过该多个备份线程并行地将目标数据备份到容灾集群中,例如备份到容灾集群的服务器20a中,等等,本说明书对此不做具体限定。进一步地,当生产集群100发生故障时,例如生产集群100中的服务器10a和服务器10b发生故障,其中的数据处理应用无法正常执行大数据处理任务时,容灾集群200可以基于备份的目标数据,继续执行关键数据处理应用中的大数据处理任务,从而保障了关键数据处理应用在故障发生时的可用性。
如此,本申请考虑到生产集群中的多个数据处理应用对于可用性有着高低不同的要求,可以优先对可用性要求较高的关键数据处理应用进行容灾保护,进而实现了在保障大数据服务的容灾诉求的同时,减少了资源开销,平衡了大数据服务的可用性与容灾处理成本,满足用户的实际需求。
请参阅图2,图2是一示例性实施例提供的一种大数据服务的容灾处理方法的流程示意图。该方法可以应用于图1所示的容灾系统中,该容灾系统可以包括生产集群和容灾集群。其中,生产集群中可以部署有用于执行大数据处理任务的多个数据处理应用。其中,容灾集群可以作为生产集群的备份,主要用于在生产集群发生故障从而无法继续执行各项大数据处理任务时,承接生产集群中的大数据处理任务,以继续提供大数据服务。如图2所示,该方法具体可以包括如下步骤S101-步骤S103。
步骤S101,基于多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用。
在一示出的实施方式中,容灾系统中的生产集群和容灾集群可以部署在相隔较远的异地,如果生产集群所在的地区发生火灾、地震等灾难,或者出现断电、断网等紧急情况,很有可能导致生产集群发生故障,使得生产集群无法正常工作,其中的多个数据处理应用也就无法继续执行对应的大数据处理任务。基于此,当生产集群发生故障时,容灾系统可以对生产集群中部署的多个数据处理应用中的至少部分数据处理应用进行容灾保护,即将这至少部分数据处理应用中的大数据处理任务切换到容灾集群中继续执行。
在一示出的实施方式中,容灾系统可以从多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用。
需要说明的是,本说明书对确定关键数据处理应用的具体方式不做特别限定。
在一示出的实施方式中,容灾系统可以获取多个数据处理应用的可用性指标,并基于多个数据处理应用的可用性指标,从多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用。
其中,可用性指标可以用于指示数据处理应用对于可用性的要求,相应的,上述多个数据处理应用中的关键数据处理应用可以是对可用性要求较高的数据处理应用,而其他非关键数据处理应用可以是对可用性要求较低的数据处理应用。
可以理解的是,上述关键数据处理应用往往是生产集群中产出核心数据的应用,这些核心数据往往可以用于支撑一些线上产品,或者用于支撑企业的报表或者关键绩效指标(Key Performance Indicators,KPI)的运作,等等,本说明书对此不做具体限定。因此,如果在生产集群故障时不对关键数据处理应用进行容灾保护,极有可能因为关键数据处理应用停止工作,无法及时产出核心数据而产生较为严重的社会和经济影响,等等。
相应的,可以理解的是,其他对可用性要求较低的非关键数据处理应用,可以无需进行容灾保护,待生产集群的故障恢复后再继续执行相应的大数据处理任务即可。
需要说明的是,本方案中采用的可用性指标可以包括任何可能的用于描述数据处理应用对可用性要求的指标,本说明书对此不作特别限定。在一些可能的实施方式中,该可用性指标可以包括数据恢复点目标(Recovery Point Objective,RPO),和/或,数据恢复时间(Recovery Time Objective,RTO),等等,本说明书对此不做具体限定。
其中,RPO主要指当发生灾难或紧急事件从而导致机器故障时,数据处理应用所能承受的数据丢失量,一般来说,故障时间越长,数据丢失量越大。通常情况下,数据处理应用的RPO值越小,说明数据处理应用对于可用性的要求越高。
其中,RTO主要指当发生灾难或紧急事件从而导致机器故障时,数据处理应用所能承受的停止运行的最长时间,即从故障发生到恢复的最长时间。通常情况下,数据处理应用的RTO值越小,说明数据处理应用对于可用性的要求越高,比如需要在某个较短的时间段内或者某个时间点前产出数据(即输出数据处理任务的数据处理结果),即数据处理应用对数据产出时效的要求较高。
示例性的,以可用性指标包括RPO为例,如果多个数据处理应用中的任一数据处理应用的RPO小于第一预设阈值,则可以确定该数据处理应用为需要进行容灾保护的关键数据处理应用。
示例性的,以可用性指标包括RTO为例,如果数据处理应用中的任一数据处理应用的RTO小于第二预设阈值,则可以确定该数据处理应用为需要进行容灾保护的关键数据处理应用。
示例性的,以可用性指标包括RPO和RTO为例,如果多个数据处理应用中的任一数据处理应用的RPO小于第一预设阈值,并且,该数据处理应用的RTO小于第二预设阈值,则可以确定该数据处理应用为需要进行容灾保护的关键数据处理应用。
示例性的,以可用性指标包括RPO和RTO为例,如果多个数据处理应用中的任一数据处理应用的RPO小于第一预设阈值,或者,该数据处理应用的RTO小于第二预设阈值,则可以确定该数据处理应用为需要进行容灾保护的关键数据处理应用。
在一示出的实施方式中,除了通过上述RTO和RPO来确定关键数据处理应用之外,还可以基于相关政策的规定来确定关键数据处理应用。示例性的,如果相关政策规定了某些核心数据必须进行容灾保护,则承载该核心数据的数据处理任务的数据处理应用可以作为关键数据处理应用,等等,本说明书对此不做具体限定。
步骤S102,确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中。
在一示出的实施方式中,在确定出需要进行容灾保护的关键数据处理应用后,容灾系统可以先确定该关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,然后可以将存储在生产集群中的该目标数据备份到容灾集群中,以支持后续容灾集群可以基于该备份的目标数据继续执行该大数据处理任务。
需要说明的是,该大数据处理任务可以包括大数据技术领域所涉及的任何可能的任务,本说明书对此不做特别限定。示例性的,该大数据处理任务例如可以包括大数据的采集、大数据的预处理(比如大数据抽取、清洗与标记)、大数据的分析与建模,以及大数据的可视化展示(例如报表),等等,本说明书对此不做具体限定。
示例性的,以该大数据处理任务为大数据的预处理(比如包括大数据的清洗与标记)为例,则数据处理应用在执行该大数据处理任务时所使用的数据可以为前序采集到的大量原始数据。示例性的,以该大数据处理任务为大数据的可视化展示为例,则数据处理应用在执行该大数据处理任务时所使用的数据可以为前序获得的大数据分析或者预测结果,等等,本说明书对此不做具体限定。
可以理解的是,大数据处理任务往往可以包括与其处理流程相对应的多个子任务,相应的,关键数据处理应用中可以包括与上述大数据处理任务包含的多个子任务分别对应的多个任务节点,每个任务节点用于承载相对应的子任务。
在一示出的实施方式中,容灾系统在确定需要备份的目标数据时,可以包括:从关键数据处理应用包括的多个任务节点中确定出需要进行容灾保护(或者说容灾切换)的至少一个目标任务节点,并确定执行该至少一个目标任务节点上承载的子任务所使用的目标数据。
在一示出的实施方式中,容灾系统在确定上述需要进行容灾保护的至少一个目标任务节点时,可以先确定关键数据处理应用包含的多个任务节点中最后产出数据(即最后输出与其对应的子任务的数据处理结果)的末端任务节点。需要说明的是,鉴于大数据处理任务可能有一条或多条处理流程,该末端任务节点也可以包括一个或多个,本说明书对此不做具体限定。
进一步地,在一示出的实施方式中,容灾系统可以基于任务节点之间的计算依赖关系,逐级向上查找与该末端任务节点存在计算依赖关系的上游任务节点。也就是说,上述需要进行容灾保护的至少一个目标任务节点可以包括:多个任务节点中的末端任务节点,以及与该末端任务节点之间存在计算依赖关系的上游任务节点。
在一示出的实施方式中,该至少一个目标任务节点可以构成一条完整的任务链路,彼此之间存在直接或间接的依赖关系,进而可以保障后续将该多个目标任务节点上承载的任务切换到容灾集群中执行时,不会出现链路中断进而导致大数据处理任务无法正常执行的情况。
进一步地,在一示出的实施方式中,容灾系统在将该目标数据备份到容灾集群中时,可以创建一个复制任务(replication task),该复制任务运行时可以启用多个备份线程,通过该多个备份线程并行地执行将目标数据备份到容灾集群中的备份处理过程。此外,在上述备份目标数据的过程中,容灾系统还可以基于生产集群与容灾集群之间的带宽情况,实时调整备份线程的数量,以避免由于线程数量过多造成生产集群与容灾集群之间带宽拥堵。
在一示出的实施方式中,上述目标数据具体可以为一个或多个数据表,每个数据表可以包括一个或多个分区(partition)。示例性的,可以按照时间对包含大量数据的数据表进行分区。相应的,在备份过程中,容灾系统可以识别多个数据表中的分区,并按分区时间进行倒序排序,并基于排序后的顺序将数据表中的各个分区备份到容灾集群上,等等,本说明书对此不做具体限定。
在一示出的实施方式中,除了将关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据备份到容灾集群中之外,还可以将关键数据处理应用在执行对应的大数据处理任务时所产生的数据,即输出的数据处理结果,备份到容灾集群中,以保障后续在容灾集群中可以可靠地继续执行大数据处理任务。
步骤S103,响应于生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务。
在一示出的实施方式中,当生产集群发生故障,容灾系统便可以将用于执行任务的集群由原本的生产集群切换至容灾集群,包括将生产集群中的计算逻辑切换到容灾集群中,从而实现在容灾集群中,基于已备份的目标数据继续执行上述关键数据处理应用中的大数据处理任务,保证大数据服务在故障时的可用性。
在一示出的实施方式中,由于目标数据备份到了容灾集群中,则将用于执行任务的集群由原本的生产集群切换至容灾集群时还可以包括将存储引擎切换至容灾集群,等等,本说明书对此不做具体限定。
在一示出的实施方式中,容灾系统可以通过向容灾集群和生产集群下发切换指令的方式,将用于执行任务的集群由原本的生产集群切换至容灾集群,等等,本说明书对此不做具体限定。相应的,容灾集群在接收到该切换指令后,便可以启动大数据处理任务的执行。
在一示出的实施方式中,本申请可以先在容灾集群中创建与上述至少一个目标任务节点一一对应的至少一个容灾节点。其中,该至少一个容灾节点上承载的子任务与上述至少一个目标任务节点上承载的子任务相同。相应的,该至少一个容灾节点之间的依赖关系也与上述至少一个目标任务节点之间的依赖关系相同。
进一步地,容灾集群可以基于已备份的目标数据在该至少一个容灾节点上继续执行上述关键数据处理应用中的大数据处理任务。示例性的,容灾集群中的各个容灾节点可以读取上述备份的目标数据中的至少部分数据,并基于该至少部分数据执行其承载的子任务。
此外,需要说明的是,本说明书对创建容灾节点和备份目标数据的先后执行顺序不作特别限定。
在一示出的实施方式中,可以先在容灾集群中创建与待切换的至少一个目标任务节点对应的至少一个容灾节点,然后再将执行该至少一个目标任务节点上承载的大数据处理任务所使用的目标数据备份到容灾集群中。
在一示出的实施方式中,可以先将上述目标数据备份到容灾集群中。示例性的,上述目标数据中还可以包括与至少一个目标任务节点承载的子任务对应的任务标识。相应的,容灾集群在创建与上述至少一个目标任务节点一一对应的至少一个容灾节点时,具体可以基于该备份的目标数据中包括的任务标识,创建用于承载与该任务标识对应的子任务的至少一个容灾节点,等等,本说明书对此不做具体限定。
如上所述,鉴于数据备份的资源开销较大,本申请通常在故障发生前,即在生产集群日常的大数据处理过程中就可以确定出上述需要进行容灾保护的关键数据处理应用,并将关键数据处理应用在执行相应的大数据处理任务时所使用到的目标数据备份到容灾集群中。如此,在故障发生后,由于目标数据已提前备份,因此只需直接将原本在生产集群中执行的任务切换到容灾集群即可,使得容灾集群可以第一时间基于已备份的目标数据继续处理关键数据处理应用中的任务,保障大数据服务的可用性。
但是,在一些可能的实施方式中,本申请也可以响应于生产集群发生故障,再从多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用,并将关键数据处理应用在执行相应的大数据处理任务时所使用到的目标数据备份到容灾集群中。在一示出的实施方式中,生产集群可以预先为其中的多个数据处理应用分别添加对应的可用性指标,如此,当生产集群发生故障时,容灾系统可以及时获取每个数据处理应用的可用性指标,并基于此确定出需要进行容灾保护的关键数据处理应用,等等,本说明书对此不做具体限定。
此外,在一示出的实施方式中,如果生产集群的故障长时间没有恢复,容灾系统也可以对非关键数据处理应用进行容灾保护,以避免大量数据处理应用长时间停止工作带来的恶劣影响。
在一示出的实施方式中,如果生产集群的故障长时间没有恢复,容灾系统可以基于多个非关键数据处理应用的可用性指标,从多个非关键数据处理应用中确定出至少部分数据处理应用进行容灾保护。示例性的,该至少部分数据处理应用可以是在多个非关键数据处理应用中对可用性要求较高的应用。
示例性的,以可用性指标包括RPO为例,如果多个非关键数据处理应用中的任一非关键数据处理应用的RPO大于或等于第一预设阈值,且小于第三预设阈值,则当生产集群的故障在预设时间(比如10分钟、20分钟或者1小时)内还未恢复的情况下,可以对该非关键数据处理应用进行容灾保护,即将该非关键数据处理应用执行大数据处理任务所使用的数据备份到容灾集群,并在容灾集群中继续执行该非关键该数据处理应用中的大数据处理任务。
示例性的,以可用性指标包括RTO为例,如果多个非关键数据处理应用中的任一非关键数据处理应用的RTO大于或等于第二预设阈值,且小于第四预设阈值,则当生产集群的故障在预设时间(比如10分钟、20分钟或者1小时)内还未恢复的情况下,可以对该非关键数据处理应用进行容灾保护,即将该非关键数据处理应用执行大数据处理任务所使用的数据备份到容灾集群,并在容灾集群中继续执行该非关键该数据处理应用中的大数据处理任务,等等,本说明书对此不做具体限定。
进一步地,当生产集群的故障恢复后,容灾系统可以将用于执行任务的集群由容灾集群切换回生产集群,以继续由生产集群执行相应的大数据处理任务。
在一示出的实施方式中,容灾系统可以通过向容灾集群和生产集群下发切换指令的方式,将用于执行任务的集群由容灾集群切换回生产集群,等等,本说明书对此不做具体限定。相应的,容灾集群在接收到该切换指令后,可以停止执行上述容灾节点上的大数据处理任务。进一步地,容灾集群可以将在故障期间执行大数据处理任务所产生的数据同步到生产集群中,以使得生产集群可以基于该同步的数据接着执行上述关键数据处理应用中的大数据处理任务,等等,本说明书对此不做具体限定。
在一示出的实施方式中,响应于生产集群的故障恢复,生产集群中的其他非关键数据处理应用可以恢复工作,继续执行与其对应的大数据处理任务,等等,本说明书对此不做具体限定。
综上,本申请可以基于生产集群中的多个数据处理应用对于可用性的要求,从该多个数据处理应用中筛选出需要进行容灾保护的关键数据处理应用,并将该关键数据处理应用执行对应的大数据处理时所使用到的数据备份到容灾集群中。如此,当生产集群发生故障时,可以在容灾集群中基于该已备份的数据继续执行关键数据处理应用中的大数据处理任务,进而保障关键数据处理应用在故障发生时的可用性。如此,本申请考虑到生产集群中的多个数据处理应用对于可用性有着高低不同的要求,可以优先对要求高可用的关键数据处理应用进行容灾保护,进而实现了在保障大数据服务的容灾诉求的同时,避免不必要的资源开销,极大程度上降低了大数据服务的容灾处理成本。
与上述方法流程实现对应,本说明书的实施例还提供了一种大数据服务的容灾处理装置。该容灾处理装置可以应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用。请参阅图3,图3是一示例性实施例提供的一种大数据服务的容灾处理装置的结构示意图,该装置30可以应用于图1所示系统架构中的容灾系统。如图3所示,该装置30包括:
确定单元301,用于基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用;所述可用性指标用于指示数据处理应用对于可用性的要求;
数据备份单元302,用于确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中;
第一执行单元303,用于响应于所述生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务。
在一示出的实施方式中,所述可用性指标包括数据恢复点目标RPO和/或数据恢复时间RTO;
所述确定单元301,具体用于:
如果数据处理应用的RPO小于第一预设阈值,和/或,数据处理应用的RTO小于第二预设阈值,则确定所述数据处理应用为需要进行容灾保护的关键数据处理应用。
在一示出的实施方式中,所述关键数据处理应用中包括与所述大数据处理任务包含的多个子任务分别对应的多个任务节点;
所述数据备份单元302,具体用于:
从所述关键数据处理应用包括的所述多个任务节点中确定出需要进行容灾保护的至少一个目标任务节点,并确定执行所述至少一个目标任务节点上承载的子任务所使用的目标数据。
在一示出的实施方式中,所述至少一个目标任务节点包括:
所述多个任务节点中最后输出与其对应的子任务的数据处理结果的末端任务节点,以及与所述末端任务节点之间存在计算依赖关系的上游任务节点。
在一示出的实施方式中,所述数据备份单元302,具体用于:
启用多个备份线程,通过所述多个备份线程并行地执行将所述目标数据备份到所述容灾集群中的备份处理过程,并在所述备份处理过程中,基于所述生产集群与所述容灾集群之间的带宽情况,调整所述备份线程的数量。
在一示出的实施方式中,所述第一执行单元303,具体用于:
在所述容灾集群中创建用于承载与所述至少一个目标任务节点相同的子任务的至少一个容灾节点;
基于已备份的所述目标数据继续在所述至少一个容灾节点上执行所述大数据处理任务。
在一示出的实施方式中,所述装置30还包括:
第二执行单元304,用于响应于所述生产集群的故障恢复,停止在所述容灾集群中执行所述大数据处理任务,并将所述容灾集群执行所述大数据处理任务所产生的数据同步到所述生产集群中,以继续在所述生产集群中执行所述大数据处理任务。
上述装置30中各个单元的功能和作用的实现过程具体详见上述图1-图2对应实施例的描述,在此不再进行赘述。应理解,上述装置30可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是通过所在设备的处理器(CPU)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了CPU以及存储器之外,上述装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元或模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的装置、单元、模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备、车载计算机或者这些设备中的任意几种设备的组合。
与上述方法实施例相对应,本说明书的实施例还提供了一种计算机设备。请参阅图4,图4是一示例性实施例提供的一种计算机设备的结构示意图。图4所示的计算机设备可以为上述图1所示容灾系统的生产集群中的服务器10a、服务器10b,也可以是容灾集群中的服务器20a、服务器20b等,还可以是该容灾系统中独立于生产集群和容灾集群的计算机设备,等等,本说明书对此不做具体限定。如上所述,该容灾系统的生产集群中可以部署了用于执行大数据处理任务的多个数据处理应用。如图4所示,该计算机设备包括处理器1001和存储器1002,进一步还可以包括输入设备1004(例如键盘等)和输出设备1005(例如显示器等)。处理器1001、存储器1002、输入设备1004和输出设备1005之间可以通过总线或其他方式连接。如图4所示,存储器1002包括计算机可读存储介质1003,该计算机可读存储介质1003存储有能够由处理器1001运行的计算机程序。处理器1001可以是CPU,微处理器,或用于控制以上方法实施例执行的集成电路。处理器1001在运行存储的计算机程序时,可以执行本说明书实施例中大数据服务的容灾处理方法的各个步骤,包括:基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用;所述可用性指标用于指示数据处理应用对于可用性的要求;确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中;响应于所述生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务,等等。对上述大数据服务的容灾处理方法的各个步骤的详细描述请参见之前的内容,此处不再进行赘述。
与上述方法实施例相对应,本说明书的实施例还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中大数据服务的容灾处理方法的各个步骤。具体请参见上述图1-图2对应实施例的描述,此处不再进行赘述。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
在一个典型的配置中,终端设备包括一个或多个CPU、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (10)

1.一种大数据服务的容灾处理方法,应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用;所述方法包括:
基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用;所述可用性指标用于指示数据处理应用对于可用性的要求;
确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中;
响应于所述生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务。
2.根据权利要求1所述的方法,所述可用性指标包括数据恢复点目标RPO和/或数据恢复时间RTO;
所述基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用,包括:
如果数据处理应用的RPO小于第一预设阈值,和/或,数据处理应用的RTO小于第二预设阈值,则确定所述数据处理应用为需要进行容灾保护的关键数据处理应用。
3.根据权利要求1所述的方法,所述关键数据处理应用中包括与所述大数据处理任务包含的多个子任务分别对应的多个任务节点;
所述确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,包括:
从所述关键数据处理应用包括的所述多个任务节点中确定出需要进行容灾保护的至少一个目标任务节点,并确定执行所述至少一个目标任务节点上承载的子任务所使用的目标数据。
4.根据权利要求3所述的方法,所述至少一个目标任务节点包括:
所述多个任务节点中最后输出与其对应的子任务的数据处理结果的末端任务节点,以及与所述末端任务节点之间存在计算依赖关系的上游任务节点。
5.根据权利要求1所述的方法,所述将所述目标数据备份到所述容灾集群中,包括:
启用多个备份线程,通过所述多个备份线程并行地执行将所述目标数据备份到所述容灾集群中的备份处理过程,并在所述备份处理过程中,基于所述生产集群与所述容灾集群之间的带宽情况,调整所述备份线程的数量。
6.根据权利要求3所述的方法,所述在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务,包括:
在所述容灾集群中创建用于承载与所述至少一个目标任务节点相同的子任务的至少一个容灾节点;
基于已备份的所述目标数据继续在所述至少一个容灾节点上执行所述大数据处理任务。
7.根据权利要求1-6任意一项所述的方法,所述方法还包括:
响应于所述生产集群的故障恢复,停止在所述容灾集群中执行所述大数据处理任务,并将所述容灾集群执行所述大数据处理任务所产生的数据同步到所述生产集群中,以继续在所述生产集群中执行所述大数据处理任务。
8.一种大数据服务的容灾处理装置,应用于容灾系统,所述容灾系统包括生产集群和容灾集群;其中,所述生产集群中部署了用于执行大数据处理任务的多个数据处理应用;所述装置包括:
确定单元,用于基于所述多个数据处理应用的可用性指标,从所述多个数据处理应用中确定出需要进行容灾保护的关键数据处理应用;所述可用性指标用于指示数据处理应用对于可用性的要求;
数据备份单元,用于确定所述关键数据处理应用在执行对应的大数据处理任务时所使用的目标数据,并将所述目标数据备份到所述容灾集群中;
第一执行单元,用于响应于所述生产集群发生故障,在所述容灾集群中,基于已备份的所述目标数据继续执行所述关键数据处理应用中的大数据处理任务。
9.一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由所述处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求1至7任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的方法。
CN202310721492.2A 2023-06-16 2023-06-16 一种大数据服务的容灾处理方法及相关设备 Pending CN116860516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310721492.2A CN116860516A (zh) 2023-06-16 2023-06-16 一种大数据服务的容灾处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310721492.2A CN116860516A (zh) 2023-06-16 2023-06-16 一种大数据服务的容灾处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN116860516A true CN116860516A (zh) 2023-10-10

Family

ID=88220735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310721492.2A Pending CN116860516A (zh) 2023-06-16 2023-06-16 一种大数据服务的容灾处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN116860516A (zh)

Similar Documents

Publication Publication Date Title
US11586673B2 (en) Data writing and reading method and apparatus, and cloud storage system
US9773015B2 (en) Dynamically varying the number of database replicas
CN110149364A (zh) 基于数据服务平台提供微服务的方法、装置、存储介质
CN110708196B (zh) 数据处理方法及装置
JP2019523952A (ja) ストリーミングデータ分散処理方法及び装置
US9785507B2 (en) Restoration of consistent regions within a streaming environment
US8931051B2 (en) Scalable and highly available clustering for large scale real-time applications
CN110784498B (zh) 一种个性化数据容灾方法及装置
CN109614390A (zh) 数据库读写分离方法、装置、服务系统、设备及介质
CN111381931A (zh) 容灾方法、装置及系统
CN113625945A (zh) 分布式存储的慢盘处理方法、系统、终端及存储介质
CN108319618A (zh) 一种分布式存储系统的数据分布控制方法、系统及装置
CN108462756B (zh) 一种数据写入方法和装置
CN110162344A (zh) 一种隔离限流的方法、装置、计算机设备及可读存储介质
CN109189327A (zh) 区块链数据的压缩处理方法和装置
CN115757611A (zh) 大数据集群切换方法、装置、电子设备及存储介质
US9880776B1 (en) Content-driven data protection method for multiple storage devices
CN111488247B (zh) 一种管控节点多次容错的高可用方法及设备
CN113590285A (zh) 一种用于线程池参数动态设置的方法、系统及设备
CN113297173A (zh) 分布式数据库集群管理方法及装置、电子设备
CN111404737A (zh) 一种容灾处理方法以及相关装置
CN116860516A (zh) 一种大数据服务的容灾处理方法及相关设备
CN110018986B (zh) 异常快照识别方法及装置
US10831621B2 (en) Policy-driven high availability standby servers
CN107154960B (zh) 用于确定分布式存储系统的服务可用性信息的方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination