CN105589756B

CN105589756B - 批处理集群系统以及方法

Info

Publication number: CN105589756B
Application number: CN201410721547.0A
Authority: CN
Inventors: 王宇; 尹亚伟
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2014-12-03
Filing date: 2014-12-03
Publication date: 2019-02-15
Anticipated expiration: 2034-12-03
Also published as: CN105589756A

Abstract

本申请公开了一种批处理集群系统，所述系统包括：多个任务主节点，用于通过领域特定语言定义批处理任务的具体配置、分解和运行流程；多个执行子节点，用于根据所述具体配置、分解和运行流程来执行所述批处理任务中的分解步骤；以及分布式协调器，用于管理所述多个任务主节点，其中在任一时刻，在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态，而所述多个任务主节点中的其它节点则处于备用状态。本申请还公开了一种该批处理集群系统执行的方法。

Description

批处理集群系统以及方法

技术领域

本发明涉及批处理应用，更具体来说，涉及一种批处理集群系统以及方法。

背景技术

目前业内批处理系统在大部分实际应用场景下，都在一台机器上完成批处理的整体运行，因此运行失败，只能手动恢复（重新启动任务），同时还需要检测运行失败的批处理元数据，甚至需要手动修改状态数据，从而导致系统不易维护和使用，业务无法连续。现有的批处理系统的具体缺点如下：

1）批处理系统没有灵活的异常处理机制，无法灵活配置异常忽略机制，以及异常重试机制，从而保证批处理任务的连续性和健壮性。

2）批处理系统自身提供的主从方式，主节点有单点故障，因此故障无法自动转移恢复，同时子节点如果运行失败，也无法保证任务故障转移。

3）集群中对子节点任务分发是固定的，无法根据子节点的运行负载状况和任务的具体情况动态配置，因此无法真正高效的利用服务器的性能，来提高批处理效率。

发明内容

为了解决上述问题，本申请提供了一种批处理集群系统，所述系统包括：多个任务主节点，用于通过领域特定语言定义批处理任务的具体配置、分解和运行流程；多个执行子节点，用于根据所述具体配置、分解和运行流程来执行所述批处理任务中的分解步骤；以及分布式协调器，用于管理所述多个任务主节点，其中在任一时刻，在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态，而所述多个任务主节点中的其它节点则处于备用状态。

在上述批处理集群系统中，所述分布式协调器配置成存储批处理运行过程中的所有元数据。

在上述批处理集群系统中，处于工作状态的任务主节点配置成在运行过程中向所述分布式协调器写入与任务的运行以及状态相关的元数据信息，而所述多个执行子节点配置成在运行过程中向所述分布式协调器写入与所述任务中分解步骤的运行以及状态相关的元数据信息。

在上述批处理集群系统中，所述任务主节点包括：健康检查协调器，用于侦测处于工作状态的任务主节点的健康状况；故障恢复控制器，用于在所述处于工作状态的任务主节点无法正常工作时，根据存储的运行时元数据进行批处理运行上下文的恢复；任务分解处理器，用于根据预先配置的任务和数据分解策略对任务或数据进行拆分，并将拆分后的数据通过虚拟文件系统接口存放到文件中；以及任务执行协调器，用于负责分发任务主节点分解的任务。

在上述批处理集群系统中，所述任务执行协调器进一步配置成依据各执行子节点的运行负载和健康状态，对分解的任务进行分发。

在上述批处理集群系统中，所述执行子节点包括心跳器，用于定时向所述任务执行协调器发送健康消息。

根据本申请的另一个方面，提供了一种由根据之前所述的批处理集群系统执行的方法，所述方法包括：从外部系统接收向所述批处理集群系统提交的任务；由所述批处理集群系统中处于工作状态的一个任务主节点进行任务和数据拆分，并在所述拆分完成之后，进行步骤分解的子任务的分发；由所述批处理集群系统中的执行子节点执行由所述任务主节点分发过来的任务，并在执行过程中更新所述批处理集群系统中的分布式协调器中批处理运行的元数据信息；以及由所述任务主节点监测步骤分解的所有子任务是否执行成功；其中，在任一时刻，在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态，而所述多个任务主节点中的其它节点则处于备用状态。

在上述方法中，在批处理执行过程中，所述批处理集群系统中的分布式协调器不断监控处于工作状态的一个任务主节点的状态，并且在所述处于工作状态的任务主节点无法工作时，所述分布式协调器配置成挑选其它可用的任务主节点来继续服务，并由该可用的任务主节点调用故障恢复控制器来进行故障恢复。

在上述方法中，所述故障恢复控制器通过如下步骤来进行故障恢复：从所述分布式协调器获得最新的批处理元数据信息；以及如果某个任务处于正在执行的状态，则重新启动该任务。

在上述方法中，所述批处理集群系统中的执行子节点定时向所述任务主节点中的任务执行协调器报告健康状态，并且在所述执行子节点无法工作时，所述任务执行协调器将未处理完成的子任务连同运行信息发给其它可用的执行子节点。

附图说明

在参照附图阅读了本发明的具体实施方式以后，本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是：这些附图仅仅用于配合具体实施方式说明本发明的技术方案，而并非意在对本发明的保护范围构成限制。

图1是根据本申请的实施例、批处理集群系统的结构示意图；

图2是根据本申请的实施例、批处理运行时元数据的数据结构图；以及

图3是根据本申请的实施例、批处理集群系统的具体执行流程图。

具体实施方式

下面介绍的是本发明的多个可能实施例中的一些，旨在提供对本发明的基本了解，并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解，根据本发明的技术方案，在不变更本发明的实质精神下，本领域的一般技术人员可以提出可相互替换的其它实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

众所周知，批处理应用一般运行时间较长，但往往又需要保证任务在一定的时间窗口内完成，因此批处理在运行过程出现异常后，需在故障点恢复继续运行，保证整个业务运行的连续性。

本申请的技术方案构建了一个新型批处理集群系统。它可以配置异常忽略机制、重试机制以及重新运行机制，保证批处理运行的高效性和业务的连续性。本申请的集群系统将集群中所有的节点分为两类：任务主节点，执行子节点。任务主节点通过领域特定语言定义批处理任务的主流程（批处理运行的步骤），通过分布式协调器监控和管理任务主节点，同时存放批处理系统运行时元数据信息，为任务主节点的故障恢复提供数据。执行子节点执行任务主节点分解的任务(即任务主节点对步骤的分解)，任务主节点使用自定义的执行协调器来保证执行子节点任务分发的负载均衡，并且保证执行子节点运行时故障转移，从而最终保证整个集群任务执行的连续性和可靠性。

在本申请的批处理集群系统中，分布式协调器是高效和可靠的集群协同工作设备，它可以有效地解决集群中的单点故障问题，同时可以管理分布式环境中的数据。根据本申请的一些实施例，还使用自定义的分布式协调器存放集群主机中的批处理运行时关键元数据信息，为批处理的故障恢复提供保证。另外，领域特定语言具有很强的业务问题域描述功能，使用它来定义批处理的任务流程，可以提高批处理任务的可读性和维护性。

图1是根据本申请的实施例、批处理集群系统的结构示意图。在示出的批处理集群系统中包括分布式协调器、任务主节点以及执行子节点。

在一个实施例中，集群中所有的任务主节点都通过分布式协调器进行管理。如果集群中间的某一个主节点无法工作，分布式协调器会感知并重新进行选举，从集群剩余可用节点中重新选取一个主节点来继续失败节点的工作。在某一时刻，只有一个主节点处于工作状态，其他的主节点处于备用状态（standby）。

在一个实施例中，批处理运行过程中的所有元数据存放在分布式协调器中，可以被所有集群节点共享。批处理运行时元数据的数据结构定义如图2所示。

批处理运行时的元数据信息主要包括两部分，一个是任务的信息，另一个是任务中包含的步骤信息。元数据信息主要保存了批处理的运行中间状态。故障恢复需要使用它们。

在一个实施例中，任务主节点通过领域特定语言定义批处理任务的具体配置和运行流程（即定义流程的步骤）。如果批处理流程某步骤需要集群模式运行，则按照既定的任务和数据分解策略进行拆分，然后调用任务分解处理器来分发拆分的子任务。

在一个实施例中，在定义批处理的具体步骤时，该任务主节点可以配置具体的异常忽略机制和重试机制。例如，当批处理运行过程中遇到该类异常，可以跳过异常继续执行，或者重试执行，从而尽量保证批处理任务的连续性。

在一个实施例中，任务主节点在运行过程中会向分布式协调器写入批处理运行时元数据信息，记录job的运行及状态信息。

在一个实施例中，执行子节点作为批处理任务中分解的步骤的具体执行者，在运行过程中会向分布式协调器写入批处理运行时元数据信息，以记录分解的步骤运行及状态信息。优选地，执行子节点上面部署有心跳器，定时向任务执行协调器发送健康消息。

继续参考图1，任务主节点可进一步包括健康检查协调器、故障恢复控制器、任务分解处理器以及任务执行协调器。

在一个实施例中，健康检查协调器用于侦测任务主节点健康状况，确保批处理集群向外提供透明可用的批处理服务，批处理服务是通过虚拟IP地址向外提供服务。在某一时刻，虚拟IP绑定在一台可用的任务主节点上面。

在一个实施例中，当集群中的某台任务主节点无法正常工作，另外可用的任务主节点会代替无法工作的机器，在新的任务主节点工作之前，需要调用故障恢复控制器来进行故障恢复。这时，故障恢复控制器根据存储的运行时元数据进行批处理运行上下文的恢复。

在一个实施例中，任务分解处理器用于根据预先配置的任务和数据分解策略对任务或数据进行拆分。拆分后的数据通过虚拟文件系统接口被存放到文件系统，例如存放于分布式文件系统（譬如HDFS），共享存储NAS等。目前支持的拆分策略包括按照文件名称特征，数据记录关键子特征等，本领域技术人员可以根据具体应用场景再扩展出其他的拆分策略。

在一个实施例中，任务执行协调器负责分发任务主节点分解的任务（具体是任务分解处理器完成分解）。优选地，它具有负载均衡和故障检测功能。具体来说，任务执行协调器依据各执行子节点的运行负载和健康状况，对分解的任务进行分发。负载均衡策略可以配置。并且，任务执行协调器和执行子节点之间会有心跳检测功能，若检测超时，则协调器会自动将任务分发到另外一台可用的执行子节点进行处理。

批处理集群系统的整个工作过程共分为下面几个阶段：

第一阶段：批处理任务配置阶段

该阶段主要使用领域特定语言定义具体的任务执行流程。首先在任务主节点上定义任务步骤，各步骤的输入，处理和输出，以及步骤的运行参数（包括异常忽略和重试机制的参数配置）。注意选择任务和数据分解策略，负载均衡策略。然后在执行子节点上面定义具体的分解任务执行的步骤。

在配置过程中，仅将处理耗时的任务步骤配置成集群运行模式，利用集群提高处理效率，其他非耗时的任务步骤仍然配置成普通步骤，运行在任务主节点本机上面，分而治之。

第二阶段：批处理任务提交阶段

当向批处理集群提交任务时，都是通过虚拟地址来完成的，虚拟地址的绑定都是通过健康检查协调器达成的，健康检查协调器可以保证在任意时刻绑定的任务主节点服务可用。任务提交以后，会将任务请求参数存放在分布式协调器中，一旦批处理成功执行，会清理存入的job 请求参数；如果任务执行失败，新的任务主节点会从分布式协调器中获取任务请求参数，按照预先设置的异常处理策略进行恢复处理。

第三阶段：批处理任务执行阶段

批处理任务的执行流程如图3所示。具体如下：

1）外部系统向集群提交任务（通过健康检查协调器配置的虚拟地址），当前健康检查协调器绑定的，处于工作状态的任务主节点启动任务，执行配置的具体步骤。

2）执行步骤过程中，如果该步骤需要多机集群完成，则进行任务和数据拆分，任务拆分完成后，调用任务主节点进行步骤分解的子任务的分发。

在执行过程中，分布式协调器会不断监控任务主节点的状态，若当前的任务主节点无法工作，分布式协调器会挑选其他可用的任务主节点来继续服务。新的任务主节点会调用故障恢复控制器进行故障恢复。故障恢复过程如下：

i.首先从分布式协调器更新最新的批处理元数据信息；

ii. 如果某个任务处于正在执行状态，重新启动该任务，到达异常处理点。

3）执行子节点执行分发过来的任务，在执行过程中，会更新分布式协调器中批处理运行的元数据信息，主要是分解步骤的子任务的运行状态和信息。

同时，任务执行协调器会和执行子节点之间有心跳监控，集群中每台执行子节点都定时向任务执行协调器报告健康状况，若发现有任务运行的执行子节点无法工作，会将未处理完成子任务联同运行信息发给其他可用的执行子节点。

4）任务主节点检测到步骤分解的所有子任务是否执行成功，当分发到执行子节点上面的任务都完成后，再继续执行后续步骤（如果有的话）。

此外，在执行上述第2）步和第3）步过程中，如果配置了具体的异常忽略和重试机制，当批处理运行过程中遇到该类异常，可以跳过异常继续执行，或者重试执行，保证批处理业务的连续性。

第四阶段：批处理任务清理阶段

当批处理任务完全执行成功以后，会清理失效的元数据信息。系统有一个后台服务，定期清理分布式协调器中失效的批处理运行时元数据。

本本申请的技术方案至少具有如下优点：

1）批处理任务的定义完全基于领域特定语言描述，可维护性和可读性强。可以在集群和非集群环境中自由切换，无需修改代码。譬如，在任务主节点上面配置批处理主流程时，某个步骤原先配置成集群模式运行，可以根据需要轻松替换成非集群的步骤。

2）定义批处理任务的具体步骤时，可以配置具体的异常忽略和重试机制，当批处理运行过程中遇到该类异常，可以跳过异常继续执行，或者重试执行，尽量保证批处理任务的连续性。

3）使用分布式协调器管理批处理集群中的任务主节点的运行状况，避免由于主节点的单点故障导致整个批处理任务无法继续。分布式协调器本身也是高可靠的。

4）批处理集群在步骤分解子任务的分发过程中，支持负载均衡和故障自动转移，可以有效提高资源的利用效率、系统的稳定性以及业务运行的连续性。

上文中，参照附图描述了本发明的具体实施方式。但是，本领域中的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims

1.一种批处理集群系统，其特征在于，所述系统包括：

多个任务主节点，用于通过领域特定语言定义批处理任务的具体配置、分解和运行流程；

多个执行子节点，用于根据所述具体配置、分解和运行流程来执行所述批处理任务中的分解步骤；以及

分布式协调器，用于管理所述多个任务主节点，其中在任一时刻，在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态，而所述多个任务主节点中的其它节点则处于备用状态，

其中所述任务主节点包括：

健康检查协调器，用于侦测处于工作状态的任务主节点的健康状况；

故障恢复控制器，用于在所述处于工作状态的任务主节点无法正常工作时，根据存储的运行时元数据进行批处理运行上下文的恢复；

任务分解处理器，用于根据预先配置的任务和数据分解策略对任务或数据进行拆分，并将拆分后的数据通过虚拟文件系统接口存放到文件中；以及

任务执行协调器，用于负责分发任务主节点分解的任务。

2.如权利要求1所述的批处理集群系统，其中，所述分布式协调器配置成存储批处理运行过程中的所有元数据。

3.如权利要求2所述的批处理集群系统，其中，处于工作状态的任务主节点配置成在运行过程中向所述分布式协调器写入与任务的运行以及状态相关的元数据信息，而所述多个执行子节点配置成在运行过程中向所述分布式协调器写入与所述任务中分解步骤的运行以及状态相关的元数据信息。

4.如权利要求1所述的批处理集群系统，其中，所述任务执行协调器进一步配置成依据各执行子节点的运行负载和健康状态，对分解的任务进行分发。

5.如权利要求1所述的批处理集群系统，其中，所述执行子节点包括心跳器，用于定时向任务执行协调器发送健康消息。

6.如权利要求1所述的批处理集群系统，其中，所述具体配置包括异常忽略机制和重试机制，其中所述任务主节点配置成在批处理运行过程中遇到异常时，根据所定义的异常忽略机制和重试机制，跳过该异常继续执行，或者重试执行，从而尽量保证批处理任务的连续性。

7.一种由根据权利要求1所述的批处理集群系统执行的方法，所述方法包括：

从外部系统接收向所述批处理集群系统提交的任务；

由所述批处理集群系统中处于工作状态的一个任务主节点进行任务和数据拆分，并在所述拆分完成之后，进行步骤分解的子任务的分发；

由所述批处理集群系统中的执行子节点执行由所述任务主节点分发过来的任务，并在执行过程中更新所述批处理集群系统中的分布式协调器中批处理运行的元数据信息；以及

由所述任务主节点监测步骤分解的所有子任务是否执行成功；

其中，在任一时刻，在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态，而所述多个任务主节点中的其它节点则处于备用状态，其中所述任务主节点包括：

任务执行协调器，用于负责分发任务主节点分解的任务。

8.如权利要求7所述的方法，其中，在批处理执行过程中，所述批处理集群系统中的分布式协调器不断监控处于工作状态的一个任务主节点的状态，并且在所述处于工作状态的任务主节点无法工作时，所述分布式协调器配置成挑选其它可用的任务主节点来继续服务，并由该可用的任务主节点调用故障恢复控制器来进行故障恢复。

9.如权利要求8所述的方法，其中，所述故障恢复控制器通过如下步骤来进行故障恢复：从所述分布式协调器获得最新的批处理元数据信息；以及

如果某个任务处于正在执行的状态，则重新启动该任务。

10.如权利要求7所述的方法，其中，所述批处理集群系统中的执行子节点定时向所述任务主节点中的任务执行协调器报告健康状态，并且在所述执行子节点无法工作时，所述任务执行协调器将未处理完成的子任务连同运行信息发给其它可用的执行子节点。