CN114706712A

CN114706712A - 基于Hadoop双集群的应急保障方法及系统

Info

Publication number: CN114706712A
Application number: CN202210313709.1A
Authority: CN
Inventors: 胡俊锋
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-05

Abstract

本发明公开了一种基于Hadoop双集群的应急保障方法及系统，方法包括：针对Hadoop生产集群配置Hadoop备用集群；预配置每个任务的任务态和执行态，并按照任务的任务态和执行态进行调度；生产集群发生故障时，获取当前任务断点状态并执行任务干预；停止生产集群的运行以及数据同步，备用集群继续执行当前任务；在针对修复完成的生产集群进行应急恢复时，将备用集群中的数据回备至生产集群；停止备用集群的运行，生产集群继续执行任务，同时开启数据同步过程。通过本发明的技术方案，能够灵活控制调度任务的运行，保障生产集群在发生故障时任务能够在备用集群上运行，保障任务状态和任务数据的一致性，过程简单便捷、易于维护，稳定性高。

Description

基于Hadoop双集群的应急保障方法及系统

技术领域

本发明涉及通信数据处理技术领域，尤其涉及一种基于Hadoop双集群的应急保障方法以及一种基于Hadoop双集群的应急保障系统。

背景技术

Hadoop是大数据通用处理平台，提供了分布式文件存储以及分布式离线并行计算，由于Hadoop的高拓展性，在使用Hadoop时通常以集群的方式运行，集群中的节点可达上千个，能够处理PB级的数据。

Hadoop集群HDFS的HA功能通过配置Active/Standby两个NameNode实现在集群中对NameNode的热备来解决NameNode机器出现故障(比如宕机或是软件、硬件升级)。

Hadoop集群HA功能虽然可解决机器崩溃或机器需要升级维护，NameNode通过热备方式将NameNode很快的切换到另外一台机器，但是在实际业务运行过程中会遇到其它未知的因素，如：集群不稳定、非HA突发故障、Hive任务运行慢等，影响业务及时性考核。

发明内容

针对上述问题，本发明提供了一种基于Hadoop双集群的应急保障方法及系统，通过将任务分为任务态和执行态，灵活控制调度任务的运行，通过生产集群与备用集群之间的应急切换与还原，保障生产集群在发生故障时任务能够在备用集群上运行，通过底层数据的任务双加载方式，保障任务状态和任务数据的一致性，过程简单便捷、易于维护，稳定性高。

为实现上述目的，本发明提供了一种基于Hadoop双集群的应急保障方法，包括：

针对Hadoop生产集群配置Hadoop备用集群；

预配置每个任务的任务态和执行态，使得任务执行过程中按照当前任务的任务态和执行态进行调度；

在所述生产集群发生故障时，获取当前任务断点状态并执行任务干预；

停止所述生产集群的运行以及向所述备用集群的数据同步过程，所述备用集群根据所述任务的断点状态继续执行当前任务；

在针对修复完成的生产集群进行应急恢复时，将所述备用集群中的数据回备至所述生产集群；

停止所述备用集群的运行，所述生产集群根据回备数据继续执行任务，同时开启所述生产集群向所述备用集群的数据同步过程。

在上述技术方案中，优选地，所述任务态包括任务信息、任务参数、任务依赖和任务组件的基础配置信息，根据所述基础配置信息确定当前任务在一个集群或多个集群的一致性；

所述执行态用于指定每个任务的执行集群所在，每个任务的执行态包括一个或多个集群，使得一个任务能够配置至多个集群进行执行。

在上述技术方案中，优选地，针对任务执行的任务干预具体包括：

针对已运行且状态正常的任务不进行干预；

针对已运行但状态异常的任务，修改状态为前一次正常；

针对未运行任务不进行干预。

在上述技术方案中，优选地，在所述生产集群发生故障时，分别检查所述生产集群和所述备用集群所执行任务的断点状态及数据是否正常；

所述备用集群在根据断点状态将任务执行完成后，得到所述生产集群故障导致非正常数据对应的正常数据。

在上述技术方案中，优选地，所述生产集群修复完成后，将所述备用集群运行过程中的任务数据回备至所述生产集群，同时生成执行日志；

任务恢复至所述生产集群运行时，同时再次开启所述生产集群向所述备用集群的数据同步过程。

本发明还提出一种基于Hadoop双集群的应急保障系统，应用如上述技术方案中任一项公开的基于Hadoop双集群的应急保障方法，包括：

集群配置模块，用于针对Hadoop生产集群配置Hadoop备用集群；

任务态配置模块，用于预配置每个任务的任务态和执行态，使得任务执行过程中按照当前任务的任务态和执行态进行调度；

故障检查模块，用于在所述生产集群发生故障时，获取当前任务断点状态并执行任务干预；

故障切换模块，用于停止所述生产集群的运行以及向所述备用集群的数据同步过程，并由所述备用集群根据所述任务的断点状态继续执行当前任务；

故障恢复模块，用于在针对修复完成的生产集群进行应急恢复时，将所述备用集群中的数据回备至所述生产集群；

故障还原模块，用于停止所述备用集群的运行，所述生产集群根据回备数据继续执行任务，同时开启所述生产集群向所述备用集群的数据同步过程。

在上述技术方案中，优选地，所述故障检查模块针对任务执行的任务干预具体包括：

针对已运行且状态正常的任务不进行干预；

针对已运行但状态异常的任务，修改状态为前一次正常；

针对未运行任务不进行干预。

在上述技术方案中，优选地，所述故障检查模块在所述生产集群发生故障时，分别检查所述生产集群和所述备用集群所执行任务的断点状态及数据是否正常；

所述故障切换模块在由所述备用集群根据断点状态将任务执行完成后，得到所述生产集群故障导致非正常数据对应的正常数据。

在上述技术方案中，优选地，所述故障还原模块在所述生产集群修复完成后，将所述备用集群运行过程中的任务数据回备至所述生产集群，同时生成执行日志；

在任务恢复至所述生产集群运行时，同时再次开启所述生产集群向所述备用集群的数据同步过程。

与现有技术相比，本发明的有益效果为：通过将任务分为任务态和执行态，灵活控制调度任务的运行，通过生产集群与备用集群之间的应急切换与还原，保障生产集群在发生故障时任务能够在备用集群上运行，通过底层数据的任务双加载方式，保障任务状态和任务数据的一致性，过程简单便捷、易于维护，稳定性高。

附图说明

图1为本发明一种实施例公开的基于Hadoop双集群的应急保障方法的流程示意图；

图2为本发明一种实施例公开的基于Hadoop双集群的应急保障机制示意图；

图3为本发明一种实施例公开的基于Hadoop双集群的正常执行流程示意图；

图4为本发明一种实施例公开的基于Hadoop双集群的应急恢复流程示意图；

图5为本发明一种实施例公开的基于Hadoop双集群的应急保障系统的模块示意图。

图中，各组件与附图标记之间的对应关系为：

11.集群配置模块，12.任务态配置模块，13.故障检查模块，14.故障切换模块，15.故障恢复模块，16.故障还原模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，根据本发明提供的一种基于Hadoop双集群的应急保障方法，包括：

针对Hadoop生产集群配置Hadoop备用集群；

在生产集群发生故障时，获取当前任务断点状态并执行任务干预；

停止生产集群的运行以及向备用集群的数据同步过程，备用集群根据任务的断点状态继续执行当前任务；

在针对修复完成的生产集群进行应急恢复时，将备用集群中的数据回备至生产集群；

停止备用集群的运行，生产集群根据回备数据继续执行任务，同时开启生产集群向备用集群的数据同步过程。

在该实施例中，通过将任务分为任务态和执行态，灵活控制调度任务的运行，通过生产集群与备用集群之间的应急切换与还原，保障生产集群在发生故障时任务能够在备用集群上运行，通过底层数据的任务双加载方式，保障任务状态和任务数据的一致性，过程简单便捷、易于维护，稳定性高。

其中，优选地，将任务的状态分为任务态、执行态，不仅方便任务的编辑，同时便于调度灵活控制任务的运行。

任务态包括任务信息、任务参数、任务依赖和任务组件的基础配置信息，根据基础配置信息确定当前任务在一个集群或多个集群的一致性，避免同一个任务在多个集群重复创建同时一致性难保障；

执行态用于指定每个任务的执行集群所在，每个任务的执行态包括一个或多个集群，使得一个任务能够配置至多个集群进行执行，实现一次配置，执行多次，任务配置一致性得到保障。

如图2至图4所示，具体地，调度在执行任务时，将任务的执行组件对应的程序提交到对应集群，如A任务为加载任务时，默认执行集群为A集群、B集群，调度执行A任务时，将A任务的程序分别提交到A集群(生产集群)、B集群(备用集群)，A任务会生成A、B集群两条执行实例；A任务为存储层、中间层、应用层任务时，执行集群为标识为生产集群的A集群。

生产集群发生故障后，整个应急保障流程包括应急切换、修复和应急恢复三个步骤。

应急切换包括：

事前：检查断点任务状态，执行任务干预；

事中：执行一键切换指令，包括1)主库停止生产、2)主库停止数据同步、3)备用库切换为生产库；

事后：检查任务运行状态。

在管理员对故障的生产库修复完成后，进行应急恢复。

应急恢复包括：

事前：数据回备，检查数据一致性；

事中：执行一键还原指令,包括1)备用库停止生产、2)主库切换为生产库、3)主库启动数据同步；

事后：检查任务运行状态。

通过分别的事前、事中和事后流水线操作，保障整个应急保障的顺利完成。

在上述实施例中，优选地，在应急切换事前，针对任务执行任务干预，具体包括：

针对已运行且状态正常的任务不进行干预；

针对已运行但状态异常的任务，修改状态为前一次正常；

针对未运行任务不进行干预。

在上述实施例中，优选地，在生产集群发生故障时，分别检查生产集群和备用集群所执行任务的断点状态及数据是否正常；

备用集群在根据断点状态将任务执行完成后，得到生产集群故障导致非正常数据对应的正常数据。

在上述实施例中，优选地，生产集群修复完成后，将备用集群运行过程中的任务数据回备至生产集群，同时生成执行日志；

任务恢复至生产集群运行时，同时再次开启生产集群向备用集群的数据同步过程。

根据上述实施例公开的基于Hadoop双集群的应急保障方法，以下通过具体示例对整个应急保障过程进行具体说明。

1、配置双集群A集群、B集群的属性：

组编号	集群名称	集群属性
			001	A集群	主库
001	B集群	备用库

2、新建加载任务a任务

3、新建存储任务b任务

4、双集群都正常

load_a任务分别在A集群、B集群执行；

tran_b任务只在A集群运行，依赖检查：

A集群load_a执行实例完成后，tran_b任务才可以在A集群运行；

B集群的tran_b任务是由A集群数据同步给B集群。

5、A集群(主)发生故障

5.1、应急切换事前检查：检查load_a、tran_b任务状态，load_a任务(数据日期：20201010)正常完成，tran_b任务失败(数据日期：20201010)，将tran_b任务置成前一数据日期成功(20201009)；A集群向B集群同步任务tran_b未执行。

5.2、事中：执行一键切换指令，包括：

1)主库A集群停止生产(如下表)：

组编号	集群名称	集群属性
			001	A集群	备用库
001	B集群	备用库

2)主库A集群停数据同步：

同步服务停止A集群向B集群tran_b任务数据同步；

3)备库B集群变为生产库：

组编号	集群名称	集群属性
			001	A集群	备用库
001	B集群	主库

5.3、事后：检查任务运行状态

B集群load_a,tran_b任务执行正常，数据日期都为20201010；

6、修复：经过1天时间，管理员进行修复，修复完成；

7、应急恢复：

7.1、事前：数据回备，检查数据一致性

A集群load_a任务由于是加载任务，不需要进行数据回备；tran_b需要依次进行两天的数据回备20201009和20201010，同步服务完成一天的同步，会生成tran_b的执行实例日志。

7.2、事中：执行一键还原指令,包括

1)备库B集群停生产

组编号	集群名称	集群属性
			001	A集群	备用库
001	B集群	备用库

2)主库A集群变为生产库

组编号	集群名称	集群属性
			001	A集群	主库
001	B集群	备用库

3)主库启动数据同步

同步服务开启A集群向B集群tran_b任务数据同步

8、事后：检查任务运行状态

如图5所示，本发明还提出一种基于Hadoop双集群的应急保障系统，应用如上述实施例中任一项公开的基于Hadoop双集群的应急保障方法，包括：

集群配置模块11，用于针对Hadoop生产集群配置Hadoop备用集群；

任务态配置模块12，用于预配置每个任务的任务态和执行态，使得任务执行过程中按照当前任务的任务态和执行态进行调度；

故障检查模块13，用于在生产集群发生故障时，获取当前任务断点状态并执行任务干预；

故障切换模块14，用于停止生产集群的运行以及向备用集群的数据同步过程，并由备用集群根据任务的断点状态继续执行当前任务；

故障恢复模块15，用于在针对修复完成的生产集群进行应急恢复时，将备用集群中的数据回备至生产集群；

故障还原模块16，用于停止备用集群的运行，生产集群根据回备数据继续执行任务，同时开启生产集群向备用集群的数据同步过程。

在上述实施例中，优选地，任务态包括任务信息、任务参数、任务依赖和任务组件的基础配置信息，根据基础配置信息确定当前任务在一个集群或多个集群的一致性；

执行态用于指定每个任务的执行集群所在，每个任务的执行态包括一个或多个集群，使得一个任务能够配置至多个集群进行执行。

在上述实施例中，优选地，故障检查模块13针对任务执行的任务干预具体包括：

针对已运行且状态正常的任务不进行干预；

针对已运行但状态异常的任务，修改状态为前一次正常；

针对未运行任务不进行干预。

在上述实施例中，优选地，故障检查模块13在生产集群发生故障时，分别检查生产集群和备用集群所执行任务的断点状态及数据是否正常；

故障切换模块14在由备用集群根据断点状态将任务执行完成后，得到生产集群故障导致非正常数据对应的正常数据。

在上述实施例中，优选地，故障还原模块16在生产集群修复完成后，将备用集群运行过程中的任务数据回备至生产集群，同时生成执行日志；

在任务恢复至生产集群运行时，同时再次开启生产集群向备用集群的数据同步过程。

上述实施例中公开的基于Hadoop双集群的应急保障系统，各模块中功能的实现按照上述实施例中公开的基于Hadoop双集群的应急保障方法中各步骤进行实施，具体参见上述实施例，在此不再赘述。

根据上述实施例公开的基于Hadoop双集群的应急保障方法及系统，在保障任务的及时、稳定运行方面，具有以下优点：

1、解决了单一Hadoop集群各种不稳定因素对业务侧造成的影响；

2、将任务的分为任务态和执行态，功能独立，方便调度进行管控；

3、业务侧的任务态配置信息只存储一份，目的是为了保障了任务的唯一性，避免编辑修改造成不一致；

4、双Hadoop集群有主、备集群之分，底层数据接入采用任务双加载，存储层、中间层任务、应用层任务采用主集群同步备集群方式来保障数据的一致性；

5、采用应急切换和应急恢复流程，操作简单便捷，易于维护。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Hadoop双集群的应急保障方法，其特征在于，包括：

针对Hadoop生产集群配置Hadoop备用集群；

2.根据权利要求1所述的基于Hadoop双集群的应急保障方法，其特征在于，所述任务态包括任务信息、任务参数、任务依赖和任务组件的基础配置信息，根据所述基础配置信息确定当前任务在一个集群或多个集群的一致性；

3.根据权利要求1所述的基于Hadoop双集群的应急保障方法，其特征在于，针对任务执行的任务干预具体包括：

针对已运行且状态正常的任务不进行干预；

针对已运行但状态异常的任务，修改状态为前一次正常；

针对未运行任务不进行干预。

4.根据权利要求1所述的基于Hadoop双集群的应急保障方法，其特征在于，在所述生产集群发生故障时，分别检查所述生产集群和所述备用集群所执行任务的断点状态及数据是否正常；

5.根据权利要求4所述的基于Hadoop双集群的应急保障方法，其特征在于，所述生产集群修复完成后，将所述备用集群运行过程中的任务数据回备至所述生产集群，同时生成执行日志；

6.一种基于Hadoop双集群的应急保障系统，应用如权利要求1至5中任一项所述的基于Hadoop双集群的应急保障方法，其特征在于，包括：

集群配置模块，用于针对Hadoop生产集群配置Hadoop备用集群；

7.根据权利要求6所述的基于Hadoop双集群的应急保障系统，其特征在于，所述任务态包括任务信息、任务参数、任务依赖和任务组件的基础配置信息，根据所述基础配置信息确定当前任务在一个集群或多个集群的一致性；

8.根据权利要求6所述的基于Hadoop双集群的应急保障系统，其特征在于，所述故障检查模块针对任务执行的任务干预具体包括：

针对已运行且状态正常的任务不进行干预；

针对已运行但状态异常的任务，修改状态为前一次正常；

针对未运行任务不进行干预。

9.根据权利要求6所述的基于Hadoop双集群的应急保障系统，其特征在于，所述故障检查模块在所述生产集群发生故障时，分别检查所述生产集群和所述备用集群所执行任务的断点状态及数据是否正常；

10.根据权利要求9所述的基于Hadoop双集群的应急保障系统，其特征在于，所述故障还原模块在所述生产集群修复完成后，将所述备用集群运行过程中的任务数据回备至所述生产集群，同时生成执行日志；