CN105589756B - 批处理集群系统以及方法 - Google Patents

批处理集群系统以及方法 Download PDF

Info

Publication number
CN105589756B
CN105589756B CN201410721547.0A CN201410721547A CN105589756B CN 105589756 B CN105589756 B CN 105589756B CN 201410721547 A CN201410721547 A CN 201410721547A CN 105589756 B CN105589756 B CN 105589756B
Authority
CN
China
Prior art keywords
task
batch processing
host node
execution
group system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410721547.0A
Other languages
English (en)
Other versions
CN105589756A (zh
Inventor
王宇
尹亚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201410721547.0A priority Critical patent/CN105589756B/zh
Publication of CN105589756A publication Critical patent/CN105589756A/zh
Application granted granted Critical
Publication of CN105589756B publication Critical patent/CN105589756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请公开了一种批处理集群系统,所述系统包括:多个任务主节点,用于通过领域特定语言定义批处理任务的具体配置、分解和运行流程;多个执行子节点,用于根据所述具体配置、分解和运行流程来执行所述批处理任务中的分解步骤;以及分布式协调器,用于管理所述多个任务主节点,其中在任一时刻,在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态,而所述多个任务主节点中的其它节点则处于备用状态。本申请还公开了一种该批处理集群系统执行的方法。

Description

批处理集群系统以及方法
技术领域
本发明涉及批处理应用,更具体来说,涉及一种批处理集群系统以及方法。
背景技术
目前业内批处理系统在大部分实际应用场景下,都在一台机器上完成批处理的整体运行,因此运行失败,只能手动恢复(重新启动任务),同时还需要检测运行失败的批处理元数据,甚至需要手动修改状态数据,从而导致系统不易维护和使用,业务无法连续。现有的批处理系统的具体缺点如下:
1)批处理系统没有灵活的异常处理机制,无法灵活配置异常忽略机制,以及异常重试机制,从而保证批处理任务的连续性和健壮性。
2)批处理系统自身提供的主从方式,主节点有单点故障,因此故障无法自动转移恢复,同时子节点如果运行失败,也无法保证任务故障转移。
3)集群中对子节点任务分发是固定的,无法根据子节点的运行负载状况和任务的具体情况动态配置,因此无法真正高效的利用服务器的性能,来提高批处理效率。
发明内容
为了解决上述问题,本申请提供了一种批处理集群系统,所述系统包括:多个任务主节点,用于通过领域特定语言定义批处理任务的具体配置、分解和运行流程;多个执行子节点,用于根据所述具体配置、分解和运行流程来执行所述批处理任务中的分解步骤;以及分布式协调器,用于管理所述多个任务主节点,其中在任一时刻,在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态,而所述多个任务主节点中的其它节点则处于备用状态。
在上述批处理集群系统中,所述分布式协调器配置成存储批处理运行过程中的所有元数据。
在上述批处理集群系统中,处于工作状态的任务主节点配置成在运行过程中向所述分布式协调器写入与任务的运行以及状态相关的元数据信息,而所述多个执行子节点配置成在运行过程中向所述分布式协调器写入与所述任务中分解步骤的运行以及状态相关的元数据信息。
在上述批处理集群系统中,所述任务主节点包括:健康检查协调器,用于侦测处于工作状态的任务主节点的健康状况;故障恢复控制器,用于在所述处于工作状态的任务主节点无法正常工作时,根据存储的运行时元数据进行批处理运行上下文的恢复;任务分解处理器,用于根据预先配置的任务和数据分解策略对任务或数据进行拆分,并将拆分后的数据通过虚拟文件系统接口存放到文件中;以及任务执行协调器,用于负责分发任务主节点分解的任务。
在上述批处理集群系统中,所述任务执行协调器进一步配置成依据各执行子节点的运行负载和健康状态,对分解的任务进行分发。
在上述批处理集群系统中,所述执行子节点包括心跳器,用于定时向所述任务执行协调器发送健康消息。
根据本申请的另一个方面,提供了一种由根据之前所述的批处理集群系统执行的方法,所述方法包括:从外部系统接收向所述批处理集群系统提交的任务;由所述批处理集群系统中处于工作状态的一个任务主节点进行任务和数据拆分,并在所述拆分完成之后,进行步骤分解的子任务的分发;由所述批处理集群系统中的执行子节点执行由所述任务主节点分发过来的任务,并在执行过程中更新所述批处理集群系统中的分布式协调器中批处理运行的元数据信息;以及由所述任务主节点监测步骤分解的所有子任务是否执行成功;其中,在任一时刻,在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态,而所述多个任务主节点中的其它节点则处于备用状态。
在上述方法中,在批处理执行过程中,所述批处理集群系统中的分布式协调器不断监控处于工作状态的一个任务主节点的状态,并且在所述处于工作状态的任务主节点无法工作时,所述分布式协调器配置成挑选其它可用的任务主节点来继续服务,并由该可用的任务主节点调用故障恢复控制器来进行故障恢复。
在上述方法中,所述故障恢复控制器通过如下步骤来进行故障恢复:从所述分布式协调器获得最新的批处理元数据信息;以及如果某个任务处于正在执行的状态,则重新启动该任务。
在上述方法中,所述批处理集群系统中的执行子节点定时向所述任务主节点中的任务执行协调器报告健康状态,并且在所述执行子节点无法工作时,所述任务执行协调器将未处理完成的子任务连同运行信息发给其它可用的执行子节点。
附图说明
在参照附图阅读了本发明的具体实施方式以后,本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是:这些附图仅仅用于配合具体实施方式说明本发明的技术方案,而并非意在对本发明的保护范围构成限制。
图1是根据本申请的实施例、批处理集群系统的结构示意图;
图2是根据本申请的实施例、批处理运行时元数据的数据结构图;以及
图3是根据本申请的实施例、批处理集群系统的具体执行流程图。
具体实施方式
下面介绍的是本发明的多个可能实施例中的一些,旨在提供对本发明的基本了解,并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解,根据本发明的技术方案,在不变更本发明的实质精神下,本领域的一般技术人员可以提出可相互替换的其它实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
众所周知,批处理应用一般运行时间较长,但往往又需要保证任务在一定的时间窗口内完成,因此批处理在运行过程出现异常后,需在故障点恢复继续运行,保证整个业务运行的连续性。
本申请的技术方案构建了一个新型批处理集群系统。它可以配置异常忽略机制、重试机制以及重新运行机制,保证批处理运行的高效性和业务的连续性。本申请的集群系统将集群中所有的节点分为两类:任务主节点,执行子节点。任务主节点通过领域特定语言定义批处理任务的主流程(批处理运行的步骤),通过分布式协调器监控和管理任务主节点,同时存放批处理系统运行时元数据信息,为任务主节点的故障恢复提供数据。执行子节点执行任务主节点分解的任务(即任务主节点对步骤的分解),任务主节点使用自定义的执行协调器来保证执行子节点任务分发的负载均衡,并且保证执行子节点运行时故障转移,从而最终保证整个集群任务执行的连续性和可靠性。
在本申请的批处理集群系统中,分布式协调器是高效和可靠的集群协同工作设备,它可以有效地解决集群中的单点故障问题,同时可以管理分布式环境中的数据。根据本申请的一些实施例,还使用自定义的分布式协调器存放集群主机中的批处理运行时关键元数据信息,为批处理的故障恢复提供保证。另外,领域特定语言具有很强的业务问题域描述功能,使用它来定义批处理的任务流程,可以提高批处理任务的可读性和维护性。
图1是根据本申请的实施例、批处理集群系统的结构示意图。在示出的批处理集群系统中包括分布式协调器、任务主节点以及执行子节点。
在一个实施例中,集群中所有的任务主节点都通过分布式协调器进行管理。如果集群中间的某一个主节点无法工作,分布式协调器会感知并重新进行选举,从集群剩余可用节点中重新选取一个主节点来继续失败节点的工作。在某一时刻,只有一个主节点处于工作状态,其他的主节点处于备用状态(standby)。
在一个实施例中,批处理运行过程中的所有元数据存放在分布式协调器中,可以被所有集群节点共享。批处理运行时元数据的数据结构定义如图2所示。
批处理运行时的元数据信息主要包括两部分,一个是任务的信息,另一个是任务中包含的步骤信息。元数据信息主要保存了批处理的运行中间状态。故障恢复需要使用它们。
在一个实施例中,任务主节点通过领域特定语言定义批处理任务的具体配置和运行流程(即定义流程的步骤)。如果批处理流程某步骤需要集群模式运行,则按照既定的任务和数据分解策略进行拆分,然后调用任务分解处理器来分发拆分的子任务。
在一个实施例中,在定义批处理的具体步骤时,该任务主节点可以配置具体的异常忽略机制和重试机制。例如,当批处理运行过程中遇到该类异常,可以跳过异常继续执行,或者重试执行,从而尽量保证批处理任务的连续性。
在一个实施例中,任务主节点在运行过程中会向分布式协调器写入批处理运行时元数据信息,记录job的运行及状态信息。
在一个实施例中,执行子节点作为批处理任务中分解的步骤的具体执行者,在运行过程中会向分布式协调器写入批处理运行时元数据信息,以记录分解的步骤运行及状态信息。优选地,执行子节点上面部署有心跳器,定时向任务执行协调器发送健康消息。
继续参考图1,任务主节点可进一步包括健康检查协调器、故障恢复控制器、任务分解处理器以及任务执行协调器。
在一个实施例中,健康检查协调器用于侦测任务主节点健康状况,确保批处理集群向外提供透明可用的批处理服务,批处理服务是通过虚拟IP地址向外提供服务。在某一时刻,虚拟IP绑定在一台可用的任务主节点上面。
在一个实施例中,当集群中的某台任务主节点无法正常工作,另外可用的任务主节点会代替无法工作的机器,在新的任务主节点工作之前,需要调用故障恢复控制器来进行故障恢复。这时,故障恢复控制器根据存储的运行时元数据进行批处理运行上下文的恢复。
在一个实施例中,任务分解处理器用于根据预先配置的任务和数据分解策略对任务或数据进行拆分。拆分后的数据通过虚拟文件系统接口被存放到文件系统,例如存放于分布式文件系统(譬如HDFS),共享存储NAS等。目前支持的拆分策略包括按照文件名称特征,数据记录关键子特征等,本领域技术人员可以根据具体应用场景再扩展出其他的拆分策略。
在一个实施例中,任务执行协调器负责分发任务主节点分解的任务(具体是任务分解处理器完成分解)。优选地,它具有负载均衡和故障检测功能。具体来说,任务执行协调器依据各执行子节点的运行负载和健康状况,对分解的任务进行分发。负载均衡策略可以配置。并且,任务执行协调器和执行子节点之间会有心跳检测功能,若检测超时,则协调器会自动将任务分发到另外一台可用的执行子节点进行处理。
批处理集群系统的整个工作过程共分为下面几个阶段:
第一阶段:批处理任务配置阶段
该阶段主要使用领域特定语言定义具体的任务执行流程。首先在任务主节点上定义任务步骤,各步骤的输入,处理和输出,以及步骤的运行参数(包括异常忽略和重试机制的参数配置)。注意选择任务和数据分解策略,负载均衡策略。然后在执行子节点上面定义具体的分解任务执行的步骤。
在配置过程中,仅将处理耗时的任务步骤配置成集群运行模式,利用集群提高处理效率,其他非耗时的任务步骤仍然配置成普通步骤,运行在任务主节点本机上面,分而治之。
第二阶段:批处理任务提交阶段
当向批处理集群提交任务时,都是通过虚拟地址来完成的,虚拟地址的绑定都是通过健康检查协调器达成的,健康检查协调器可以保证在任意时刻绑定的任务主节点服务可用。任务提交以后,会将任务请求参数存放在分布式协调器中,一旦批处理成功执行,会清理存入的job 请求参数;如果任务执行失败,新的任务主节点会从分布式协调器中获取任务请求参数,按照预先设置的异常处理策略进行恢复处理。
第三阶段:批处理任务执行阶段
批处理任务的执行流程如图3所示。具体如下:
1)外部系统向集群提交任务(通过健康检查协调器配置的虚拟地址),当前健康检查协调器绑定的,处于工作状态的任务主节点启动任务,执行配置的具体步骤。
2)执行步骤过程中,如果该步骤需要多机集群完成,则进行任务和数据拆分,任务拆分完成后,调用任务主节点进行步骤分解的子任务的分发。
在执行过程中,分布式协调器会不断监控任务主节点的状态,若当前的任务主节点无法工作,分布式协调器会挑选其他可用的任务主节点来继续服务。新的任务主节点会调用故障恢复控制器进行故障恢复。故障恢复过程如下:
i.首先从分布式协调器更新最新的批处理元数据信息;
ii. 如果某个任务处于正在执行状态,重新启动该任务,到达异常处理点。
3)执行子节点执行分发过来的任务,在执行过程中,会更新分布式协调器中批处理运行的元数据信息,主要是分解步骤的子任务的运行状态和信息。
同时,任务执行协调器会和执行子节点之间有心跳监控,集群中每台执行子节点都定时向任务执行协调器报告健康状况,若发现有任务运行的执行子节点无法工作,会将未处理完成子任务联同运行信息发给其他可用的执行子节点。
4)任务主节点检测到步骤分解的所有子任务是否执行成功,当分发到执行子节点上面的任务都完成后,再继续执行后续步骤(如果有的话)。
此外,在执行上述第2)步和第3)步过程中,如果配置了具体的异常忽略和重试机制,当批处理运行过程中遇到该类异常,可以跳过异常继续执行,或者重试执行,保证批处理业务的连续性。
第四阶段:批处理任务清理阶段
当批处理任务完全执行成功以后,会清理失效的元数据信息。系统有一个后台服务,定期清理分布式协调器中失效的批处理运行时元数据。
本本申请的技术方案至少具有如下优点:
1)批处理任务的定义完全基于领域特定语言描述,可维护性和可读性强。可以在集群和非集群环境中自由切换,无需修改代码。譬如,在任务主节点上面配置批处理主流程时,某个步骤原先配置成集群模式运行,可以根据需要轻松替换成非集群的步骤。
2)定义批处理任务的具体步骤时,可以配置具体的异常忽略和重试机制,当批处理运行过程中遇到该类异常,可以跳过异常继续执行,或者重试执行,尽量保证批处理任务的连续性。
3)使用分布式协调器管理批处理集群中的任务主节点的运行状况,避免由于主节点的单点故障导致整个批处理任务无法继续。分布式协调器本身也是高可靠的。
4)批处理集群在步骤分解子任务的分发过程中,支持负载均衡和故障自动转移,可以有效提高资源的利用效率、系统的稳定性以及业务运行的连续性。
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims (10)

1.一种批处理集群系统,其特征在于,所述系统包括:
多个任务主节点,用于通过领域特定语言定义批处理任务的具体配置、分解和运行流程;
多个执行子节点,用于根据所述具体配置、分解和运行流程来执行所述批处理任务中的分解步骤;以及
分布式协调器,用于管理所述多个任务主节点,其中在任一时刻,在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态,而所述多个任务主节点中的其它节点则处于备用状态,
其中所述任务主节点包括:
健康检查协调器,用于侦测处于工作状态的任务主节点的健康状况;
故障恢复控制器,用于在所述处于工作状态的任务主节点无法正常工作时,根据存储的运行时元数据进行批处理运行上下文的恢复;
任务分解处理器,用于根据预先配置的任务和数据分解策略对任务或数据进行拆分,并将拆分后的数据通过虚拟文件系统接口存放到文件中;以及
任务执行协调器,用于负责分发任务主节点分解的任务。
2.如权利要求1所述的批处理集群系统,其中,所述分布式协调器配置成存储批处理运行过程中的所有元数据。
3.如权利要求2所述的批处理集群系统,其中,处于工作状态的任务主节点配置成在运行过程中向所述分布式协调器写入与任务的运行以及状态相关的元数据信息,而所述多个执行子节点配置成在运行过程中向所述分布式协调器写入与所述任务中分解步骤的运行以及状态相关的元数据信息。
4.如权利要求1所述的批处理集群系统,其中,所述任务执行协调器进一步配置成依据各执行子节点的运行负载和健康状态,对分解的任务进行分发。
5.如权利要求1所述的批处理集群系统,其中,所述执行子节点包括心跳器,用于定时向任务执行协调器发送健康消息。
6.如权利要求1所述的批处理集群系统,其中,所述具体配置包括异常忽略机制和重试机制,其中所述任务主节点配置成在批处理运行过程中遇到异常时,根据所定义的异常忽略机制和重试机制,跳过该异常继续执行,或者重试执行,从而尽量保证批处理任务的连续性。
7.一种由根据权利要求1所述的批处理集群系统执行的方法,所述方法包括:
从外部系统接收向所述批处理集群系统提交的任务;
由所述批处理集群系统中处于工作状态的一个任务主节点进行任务和数据拆分,并在所述拆分完成之后,进行步骤分解的子任务的分发;
由所述批处理集群系统中的执行子节点执行由所述任务主节点分发过来的任务,并在执行过程中更新所述批处理集群系统中的分布式协调器中批处理运行的元数据信息;以及
由所述任务主节点监测步骤分解的所有子任务是否执行成功;
其中,在任一时刻,在所述多个任务主节点中只有一个任务主节点被所述分布式协调器选择处于工作状态,而所述多个任务主节点中的其它节点则处于备用状态,其中所述任务主节点包括:
健康检查协调器,用于侦测处于工作状态的任务主节点的健康状况;
故障恢复控制器,用于在所述处于工作状态的任务主节点无法正常工作时,根据存储的运行时元数据进行批处理运行上下文的恢复;
任务分解处理器,用于根据预先配置的任务和数据分解策略对任务或数据进行拆分,并将拆分后的数据通过虚拟文件系统接口存放到文件中;以及
任务执行协调器,用于负责分发任务主节点分解的任务。
8.如权利要求7所述的方法,其中,在批处理执行过程中,所述批处理集群系统中的分布式协调器不断监控处于工作状态的一个任务主节点的状态,并且在所述处于工作状态的任务主节点无法工作时,所述分布式协调器配置成挑选其它可用的任务主节点来继续服务,并由该可用的任务主节点调用故障恢复控制器来进行故障恢复。
9.如权利要求8所述的方法,其中,所述故障恢复控制器通过如下步骤来进行故障恢复:从所述分布式协调器获得最新的批处理元数据信息;以及
如果某个任务处于正在执行的状态,则重新启动该任务。
10.如权利要求7所述的方法,其中,所述批处理集群系统中的执行子节点定时向所述任务主节点中的任务执行协调器报告健康状态,并且在所述执行子节点无法工作时,所述任务执行协调器将未处理完成的子任务连同运行信息发给其它可用的执行子节点。
CN201410721547.0A 2014-12-03 2014-12-03 批处理集群系统以及方法 Active CN105589756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410721547.0A CN105589756B (zh) 2014-12-03 2014-12-03 批处理集群系统以及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410721547.0A CN105589756B (zh) 2014-12-03 2014-12-03 批处理集群系统以及方法

Publications (2)

Publication Number Publication Date
CN105589756A CN105589756A (zh) 2016-05-18
CN105589756B true CN105589756B (zh) 2019-02-15

Family

ID=55929357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410721547.0A Active CN105589756B (zh) 2014-12-03 2014-12-03 批处理集群系统以及方法

Country Status (1)

Country Link
CN (1) CN105589756B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679817B (zh) * 2016-08-02 2022-02-08 阿里巴巴集团控股有限公司 工作流执行方法及相关设备
CN106993019B (zh) * 2016-11-29 2019-11-19 深圳壹账通智能科技有限公司 分布式任务调度方法和系统
CN107342828B (zh) * 2016-12-14 2020-07-07 上海申际轨道交通设备发展有限公司 一种应用于列车的数字广播控制系统
CN109842500B (zh) * 2017-11-24 2022-05-10 阿里巴巴集团控股有限公司 一种调度方法及系统、工作节点及监控节点
CN108446352A (zh) * 2018-03-09 2018-08-24 深圳市网信联动通信技术股份有限公司 一种处理海量数据的方法以及系统
CN110727539A (zh) * 2019-12-19 2020-01-24 北京江融信科技有限公司 批处理任务中的异常处理方法、系统及电子设备
CN114978871B (zh) * 2022-04-08 2023-10-24 北京航天飞行控制中心 业务系统的节点切换方法及节点切换装置、电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324533A (zh) * 2012-03-22 2013-09-25 华为技术有限公司 分布式数据处理方法、装置及系统
CN103812949A (zh) * 2014-03-06 2014-05-21 中国科学院信息工程研究所 一种面向实时云平台的任务调度与资源分配方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7647590B2 (en) * 2006-08-31 2010-01-12 International Business Machines Corporation Parallel computing system using coordinator and master nodes for load balancing and distributing work
US9268808B2 (en) * 2012-12-31 2016-02-23 Facebook, Inc. Placement policy

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324533A (zh) * 2012-03-22 2013-09-25 华为技术有限公司 分布式数据处理方法、装置及系统
CN103812949A (zh) * 2014-03-06 2014-05-21 中国科学院信息工程研究所 一种面向实时云平台的任务调度与资源分配方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hadoop分布式文件系统:架构和设计;我要涨工资少校;《百度文库》;20140829;第2-7页及附图
云计算ZooKeeper分布式应用的协调器;顶星级;《百度文库》;20101108;第2页、第6页

Also Published As

Publication number Publication date
CN105589756A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN105589756B (zh) 批处理集群系统以及方法
US11074143B2 (en) Data backup and disaster recovery between environments
US11663085B2 (en) Application backup and management
US20190391883A1 (en) Application migration between environments
US10509680B2 (en) Methods, systems and apparatus to perform a workflow in a software defined data center
CN102981931B (zh) 虚拟机备份方法及装置
CN110795503A (zh) 分布式存储系统的多集群数据同步方法及相关装置
CN102394914A (zh) 集群脑裂处理方法和装置
JP5444178B2 (ja) バックアップ・リストア処理装置とバックアップ・リストア処理方法およびプログラム
JP5948933B2 (ja) ジョブ継続管理装置、ジョブ継続管理方法、及び、ジョブ継続管理プログラム
WO2019020081A1 (zh) 分布式系统及其故障恢复方法、装置、产品和存储介质
CN115562911B (zh) 虚拟机数据备份方法及装置、系统、电子设备、存储介质
CN110895488B (zh) 任务调度方法及装置
CN111400139B (zh) 多数据中心批量作业的管控和调度系统、方法及存储介质
CN106572137B (zh) 一种分布式服务资源管理方法和装置
CN103973470A (zh) 用于无共享集群的集群管理方法和设备
JP5740338B2 (ja) 仮想環境運用支援システム
CN102045187A (zh) 一种利用检查点实现高可用性系统的方法和设备
US9032014B2 (en) Diagnostics agents for managed computing solutions hosted in adaptive environments
CN110196749B (zh) 虚拟机的恢复方法及装置、存储介质及电子装置
WO2024041363A1 (zh) 无服务器架构分布式容错系统、方法、装置、设备及介质
JP2008033778A (ja) コンピュータシステム、データベース復旧方法、データベース復旧プログラム
CN102708023B (zh) 备用系统计算器、集群系统、提供服务的方法和记录介质
CN112231399A (zh) 一种应用于图数据库的方法和装置
CN116010169A (zh) 一种基于云原生技术的云平台rds数据库迁移容灾方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant