CN105553760B - 一种基于心跳的软件模块故障处理方法及系统 - Google Patents

一种基于心跳的软件模块故障处理方法及系统 Download PDF

Info

Publication number
CN105553760B
CN105553760B CN201510918875.4A CN201510918875A CN105553760B CN 105553760 B CN105553760 B CN 105553760B CN 201510918875 A CN201510918875 A CN 201510918875A CN 105553760 B CN105553760 B CN 105553760B
Authority
CN
China
Prior art keywords
module
heartbeat
task
server
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510918875.4A
Other languages
English (en)
Other versions
CN105553760A (zh
Inventor
云晓春
郝志宇
孙振喜
张永铮
李伦
费海强
丁振全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201510918875.4A priority Critical patent/CN105553760B/zh
Publication of CN105553760A publication Critical patent/CN105553760A/zh
Application granted granted Critical
Publication of CN105553760B publication Critical patent/CN105553760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于心跳的软件模块故障处理方法及系统。该方法包括:1)在故障检测阶段,管理模块向各任务处理模块每隔一定时间发送心跳查询消息,任务处理模块在接收到心跳查询消息后将自身的信息添加到心跳响应消息,并反馈给管理模块;如果经过指定的时间间隔后管理模块未收到任务处理模块的心跳响应消息,则判定该任务处理模块为故障模块,进入故障处理阶段;2)在故障处理阶段,管理模块通知与故障模块所处理的任务相关联的其它正常的任务处理模块释放分配给故障任务的资源。本发明能够解决分布式系统中部分软件模块已经失效,而未失效软件模块无法感知此故障的问题,提高系统可用性与容错能力、降低系统故障恢复时间。

Description

一种基于心跳的软件模块故障处理方法及系统
技术领域
本发明涉及软件模块故障处理领域,特别是涉及一种能够支持单服务器多模块动态载入的基于心跳的软件模块故障检测与处理方法及系统。
背景技术
在分布式系统中,经常会出现某个或某些后端任务模块相应进程在处理任务过程中已经出错退出,但管理模块仍然在等待这些故障模块的反馈信息。通常情况下,分布式系统中一个任务会分布在多个服务器的多个后端任务模块上,如果只恢复故障模块所在服务器的环境,并不能保证系统整体能够恢复正常。
发明内容
本发明以提高系统可用性与容错能力、降低系统故障恢复时间为目标,解决分布式系统中部分软件模块已经失效,而未失效软件模块无法感知此故障的问题。
本发明采用的技术方案如下:
一种基于心跳的软件模块故障处理方法,包括如下步骤:
1)在故障检测阶段,管理模块向各任务处理模块每隔一定时间发送心跳查询消息,任务处理模块在接收到心跳查询消息后,将自身的信息添加到心跳响应消息,并反馈给管理模块;如果经过指定的时间间隔后管理模块未收到任务处理模块的心跳响应消息,则判定该任务处理模块为故障模块,进入故障处理阶段;
2)在故障处理阶段,管理模块查找所有下发的任务中涉及故障模块的任务,根据这些任务获取所有处理相同任务的其它任务处理模块,并通知与故障模块所处理的任务相关联的其它正常的任务处理模块释放分配给故障任务的资源。
进一步地,所述心跳查询消息和心跳响应消息均包含消息编号、消息名称、模块名称和服务器网络地址四个字段;所述心跳查询消息中,消息编号是管理模块每次生成消息的过程中自动生成的非重复的无符号整型数,模块名称和服务器网络地址用于唯一确定某台服务器的某个模块,模块名称为部署在物理服务器的任务处理模块的名称,服务器网络地址为服务器的IP地址;所述心跳响应消息中,消息编号是任务处理模块接收到的心跳查询消息编号,表示针对该心跳查询消息的响应,消息名称是任务处理模块接收到的心跳查询消息名称,服务器网络地址为任务处理模块所在服务器的IP地址,模块名称为任务处理模块的名称。
进一步地,所述管理模块存储心跳查询消息和心跳响应消息时,将服务器网络地址和模块名称作为索引关键字,每个关键字对应一个最新的心跳消息,将心跳消息实际内容存储在堆中,而关键字与心跳消息地址指针映射关系存储于栈中,在每次心跳消息反馈到达管理模块之后,迅速索引到相应的心跳消息内存空间,并对消息编号以及时间间隔信息进行更新。
进一步地,所述管理模块创建两个线程,一个线程负责生成心跳查询消息,并定时发送心跳查询消息给所有任务处理模块;另一个线程负责接收所有任务处理模块发送给管理模块的心跳响应消息,并将心跳响应消息包含的内容更新到管理模块的存储空间。
进一步地,所述管理模块中负责发送心跳查询消息的任务线程在每次发送完消息之后,检查管理模块存储空间中的心跳记录,检查每个模块的最新反馈时间点距离当前扫描时间点的时间间隔是否超过指定的时间间隔,如果没有超过则无操作,则否则将对应的服务器状态修改为不可用,即认为服务器对应模块已经处于故障状态,继续检查其他模块,直到扫描所有模块对应的记录。
进一步地,所述负责发送心跳查询消息的任务线程若每次扫描所有模块对应记录所耗费时间超过心跳定时发送的时间间隔,则将扫描存储空间所有模块对应记录的操作放在第三个线程中执行,以避免心跳查询消息的发送时间延长。
进一步地,检测出故障模块后,在后续任务处理过程中屏蔽该故障模块,在该故障模块修复好之后自动将其恢复为可用状态。
一种基于心跳的软件模块故障处理系统,包括任务创建模块、管理模块和任务处理模块,其中任务创建模块用于创建任务并下发给管理模块,管理模块将任务分发给部署在不同服务器的任务处理模块;管理模块向各任务处理模块每隔一定时间发送心跳查询消息,任务处理模块在接收到心跳查询消息后,将自身的信息添加到心跳响应消息,并反馈给管理模块;如果经过指定的时间间隔后管理模块未收到任务处理模块的心跳响应消息,则管理模块判定该任务处理模块为故障模块,之后管理模块查找所有下发的任务中涉及故障模块的任务,根据这些任务获取所有处理相同任务的其它任务处理模块,并通知与故障模块所处理的任务相关联的其它正常的任务处理模块释放分配给故障任务的资源。
与现有技术相比,本方法的创新之处在于:以心跳检测故障模块为基础,进行任务关联服务器的故障处理,能够支持单台物理服务器多模块的动态载入。具体体现在:
1.本方法能够支持每个物理服务器多模块动态载入,例如在物理服务器A上面,部署两个任务处理模块分别命名为A1和A2,两个模块仅需要正常反馈管理模块发送出的心跳消息。当A1或者A2中的任意一个或者全部故障无响应之后,管理模块都能够及时发现并记录,在故障恢复之前,避免给服务器A下达任务。
2.当分布于不同服务器的任务在处理过程中出现故障时,本方法会将故障模块所在服务器之外的其他服务器已经分配的资源释放,并撤销失败任务对环境造成的影响。
本发明能够及时发现分布式系统中模块故障无反馈的问题,并能够主动释放故障模块关联的其他非故障模块占用的资源,并在后续任务处理过程中屏蔽出问题的模块,在故障模块修复好之后,能够自动将其恢复为可用状态。本发明降低了系统故障恢复时间,提高了系统的可用性和容错性。
附图说明
图1是本发明的故障检测和处理系统的总体结构图。
图2是心跳消息格式示意图。
图3是管理模块存储心跳信息示意图。
图4是管理模块发送心跳查询消息和模块超时检查处理流程图。
图5是管理模块接收心跳反馈消息处理流程图。
图6是管理模块记录任务分发情况数据库表结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
如图1所示,本发明的故障检测和处理系统由唯一的管理模块和任务创建模块、多个不同的后端任务处理模块组成。采用该系统的故障检测和处理方法分为故障检测与故障处理两个阶段:
1)在故障检测阶段,主要是通过管理模块向后端任务处理模块每隔固定时间发送心跳消息,后端任务处理模块在接收到管理模块发送的心跳消息之后,将自身的信息添加到心跳反馈消息内容,并反馈给管理模块。当管理模块连续多次接收不到后端任务处理模块的心跳反馈消息,则进入故障处理阶段。
2)在故障处理阶段,管理模块首先查找所有下发的任务中涉及到故障模块的任务,根据这些任务获取到所有处理相同任务的其他后端处理模块,并通知故障模块所处理任务相关联的其他正常模块释放分配给故障任务的资源。在后续任务处理过程中屏蔽出问题的模块,在故障模块修复好之后,自动将其恢复为可用状态。
本发明的主要内容包括:1.心跳消息内容格式;2.管理模块对心跳消息的存储与处理;3.管理模块对故障关联模块的处理。
一、心跳消息内容及作用
心跳消息分为管理模块发送给后端任务处理模块的心跳查询消息和后端任务处理模块发送给管理模块的心跳响应消息(或称为心跳反馈消息)两种。如图2所示,两种消息格式一样,均包含消息编号(id)、消息名称(name)、模块名称(module name)和服务器网络地址(ip address)四个字段,其中消息编号保证消息在整个系统中是唯一的。在心跳查询消息中,消息编号是管理模块每次生成消息的过程中自动生成的非重复的32位无符号整型数;消息名称为“heartbeat”,表示为心跳消息,消息名称为“reboot”表示管理模块重启;模块名称和服务器网络地址两个字段能够唯一确定某台服务器的某个模块,前者为部署在物理服务器的后端任务处理模块的名称,后者为服务器的IP地址,例如在物理服务器A(IP地址为“192.168.0.11”)上面已经部署两个模块分别为a和b,那么当模块名称为“a”并且服务器IP地址为“192.168.0.11“时,表示查询消息是发送给服务器A上部署的模块a的心跳查询消息。在心跳反馈消息中,消息编号就是任务处理模块接收到的心跳查询消息编号,表示针对这个心跳查询消息的响应;消息名称(name)同样是任务处理模块接收到的心跳查询消息名称;服务器网络地址(ip address)为任务处理模块所在服务器的IP地址;模块名称(module name)为任务处理模块的名称。
二、管理模块对心跳消息的存储与处理
由服务器网络地址和模块名称能够唯一定位到一个模块,因此在管理模块存储中,将服务器网络地址和模块名称(ip+module)作为索引关键字,每个关键字对应一个最新的心跳消息,如图3所示,将心跳消息实际内容存储在堆中,而关键字与心跳消息地址指针映射关系存储于栈中。在每次心跳响应消息反馈到达管理模块之后,能够迅速索引到相应的心跳消息内存空间,并对消息编号以及时间间隔信息进行更新。
针对心跳消息的处理,管理模块创建两个线程,一个负责生成心跳查询消息,并定时发送心跳查询消息给所有任务处理模块;另一个线程负责接收所有任务处理模块发送给管理模块的心跳反馈消息,并将反馈消息包含的内容更新到管理模块的存储空间,即更新关键字对应记录的消息编号以及更新时间。图5为管理模块接收心跳反馈消息处理流程图。
同时由于负责发送心跳查询消息的任务线程计算量很小,耗时很少,在每次发送完消息之后,还会有另外一个操作:检查管理模块存储空间中的心跳记录,检查每个模块的最新反馈时间点距离当前扫描时间点的时间间隔是否超过指定的时间间隔,如果没有超过则无操作,则否则将对应的服务器状态修改为不可用,即认为服务器对应模块已经处于故障状态,继续检查其他模块,直到扫描所有模块对应的记录。图4为管理模块发送心跳查询消息和模块超时检查处理流程图。
但此处有一个问题,若每次扫描所有模块对应记录所耗费时间超过心跳定时发送的时间间隔时,会导致心跳查询消息的发送时间延长。如果存在这种问题,那么可以将扫描存储空间所有模块对应记录的操作放在第三个线程中执行,这样既可避免此问题。
三、管理模块对故障关联模块的处理
当一个任务从任务创建模块下发给管理模块之后,管理模块会根据具体任务的需求,分发给部署在不同服务器的任务处理模块,在每次分发过程中都会将分发信息记录到数据库中。数据库表结构如图6所示,三张表格依次为task_info、serv_info、task_serv_map。task_info表中记录任务相关信息,主键为任务编号。serv_info表中记录服务器相关信息,主键为服务器编号。task_serv_map表中记录任务与服务器之间的对应关系,主键为自增的记录编号。当管理模块在扫描存储空间的心跳反馈消息时,检测到存在模块反馈超时后,管理模块根据心跳反馈消息中的服务器网络地址从serv_info中查找到服务器编号,根据服务器编号查找任务编号,再根据任务编号查找除此服务器编号之外的其他服务器编号,如果存在,则需要获取到服务器编号列表,根据服务器编号列表在serv_info表中找到对应的服务器网络地址列表,组装释放资源的消息,根据服务器网络地址列表发送给后端相应的任务处理模块,并进行释放资源操作。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (8)

1.一种基于心跳的软件模块故障处理方法,其特征在于,包括如下步骤:
1)在故障检测阶段,管理模块向各任务处理模块每隔一定时间发送心跳查询消息,任务处理模块在接收到心跳查询消息后,将自身的信息添加到心跳响应消息,并反馈给管理模块;如果经过指定的时间间隔后管理模块未收到任务处理模块的心跳响应消息,则判定该任务处理模块为故障模块,进入故障处理阶段;
2)在故障处理阶段,管理模块查找所有下发的任务中涉及故障模块的任务,根据这些任务获取所有处理相同任务的其它任务处理模块,并通知与故障模块所处理的任务相关联的其它正常的任务处理模块释放分配给故障任务的资源;检测出故障模块后,在后续任务处理过程中屏蔽该故障模块,在该故障模块修复好之后自动将其恢复为可用状态。
2.如权利要求1所述的方法,其特征在于:所述心跳查询消息和心跳响应消息均包含消息编号、消息名称、模块名称和服务器网络地址四个字段;所述心跳查询消息中,消息编号是管理模块每次生成消息的过程中自动生成的非重复的无符号整型数,模块名称和服务器网络地址用于唯一确定某台服务器的某个模块,模块名称为部署在物理服务器的任务处理模块的名称,服务器网络地址为服务器的IP地址;所述心跳响应消息中,消息编号是任务处理模块接收到的心跳查询消息编号,表示针对该心跳查询消息的响应,消息名称是任务处理模块接收到的心跳查询消息名称,服务器网络地址为任务处理模块所在服务器的IP地址,模块名称为任务处理模块的名称。
3.如权利要求2所述的方法,其特征在于:所述管理模块存储心跳查询消息和心跳响应消息时,将服务器网络地址和模块名称作为索引关键字,每个关键字对应一个最新的心跳消息,将心跳消息实际内容存储在堆中,而关键字与心跳消息地址指针映射关系存储于栈中,在每次心跳消息反馈到达管理模块之后,迅速索引到相应的心跳消息内存空间,并对消息编号以及时间间隔信息进行更新。
4.如权利要求3所述的方法,其特征在于:所述管理模块创建两个线程,一个线程负责生成心跳查询消息,并定时发送心跳查询消息给所有任务处理模块;另一个线程负责接收所有任务处理模块发送给管理模块的心跳响应消息,并将心跳响应消息包含的内容更新到管理模块的存储空间。
5.如权利要求4所述的方法,其特征在于:所述管理模块中负责发送心跳查询消息的任务线程在每次发送完消息之后,检查管理模块存储空间中的心跳记录,检查每个模块的最新反馈时间点距离当前扫描时间点的时间间隔是否超过指定的时间间隔,如果没有超过则无操作,则否则将对应的服务器状态修改为不可用,即认为服务器对应模块已经处于故障状态,继续检查其他模块,直到扫描所有模块对应的记录。
6.如权利要求5所述的方法,其特征在于:所述负责发送心跳查询消息的任务线程若每次扫描所有模块对应记录所耗费时间超过心跳定时发送的时间间隔,则将扫描存储空间所有模块对应记录的操作放在第三个线程中执行,以避免心跳查询消息的发送时间延长。
7.如权利要求2所述的方法,其特征在于:所述管理模块根据任务创建模块下发的具体任务的需求,分发给部署在不同服务器的任务处理模块,在分发过程中将分发信息记录到数据库中,该数据库包括三张表格,依次为:
task_info表,记录任务相关信息,主键为任务编号;
serv_info表,记录服务器相关信息,主键为服务器编号;
task_serv_map表,记录任务与服务器之间的对应关系,主键为自增的记录编号;
所述管理模块在扫描存储空间的心跳响应消息时,检测到存在模块反馈超时后,根据心跳响应消息中的服务器网络地址从serv_info表中查找到服务器编号,根据服务器编号查找任务编号,再根据任务编号查找除此服务器编号之外的其他服务器编号,如果存在,则获取服务器编号列表,根据服务器编号列表在serv_info表中找到对应的服务器网络地址列表,组装释放资源的消息,根据服务器网络地址列表发送给后端相应的任务处理模块,并进行释放资源操作。
8.一种基于心跳的软件模块故障处理系统,其特征在于,包括任务创建模块、管理模块和任务处理模块,其中任务创建模块用于创建任务并下发给管理模块,管理模块将任务分发给部署在不同服务器的任务处理模块;管理模块向各任务处理模块每隔一定时间发送心跳查询消息,任务处理模块在接收到心跳查询消息后,将自身的信息添加到心跳响应消息,并反馈给管理模块;如果经过指定的时间间隔后管理模块未收到任务处理模块的心跳响应消息,则管理模块判定该任务处理模块为故障模块,之后管理模块查找所有下发的任务中涉及故障模块的任务,根据这些任务获取所有处理相同任务的其它任务处理模块,并通知与故障模块所处理的任务相关联的其它正常的任务处理模块释放分配给故障任务的资源;检测出故障模块后,在后续任务处理过程中屏蔽该故障模块,在该故障模块修复好之后自动将其恢复为可用状态。
CN201510918875.4A 2015-12-11 2015-12-11 一种基于心跳的软件模块故障处理方法及系统 Active CN105553760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510918875.4A CN105553760B (zh) 2015-12-11 2015-12-11 一种基于心跳的软件模块故障处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510918875.4A CN105553760B (zh) 2015-12-11 2015-12-11 一种基于心跳的软件模块故障处理方法及系统

Publications (2)

Publication Number Publication Date
CN105553760A CN105553760A (zh) 2016-05-04
CN105553760B true CN105553760B (zh) 2019-03-22

Family

ID=55832699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510918875.4A Active CN105553760B (zh) 2015-12-11 2015-12-11 一种基于心跳的软件模块故障处理方法及系统

Country Status (1)

Country Link
CN (1) CN105553760B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678918B (zh) * 2017-09-26 2021-06-29 郑州云海信息技术有限公司 一种分布式文件系统的osd心跳机制设置方法及装置
CN110213213B (zh) * 2018-05-30 2021-08-03 腾讯科技(深圳)有限公司 应用的定时任务处理方法及系统
CN109039809A (zh) * 2018-07-17 2018-12-18 中国电子科技集团公司电子科学研究院 一种网闸集群异常的检测方法、装置及内网服务器
CN109542591A (zh) * 2018-10-17 2019-03-29 深圳壹账通智能科技有限公司 工作任务补偿处理方法、装置、计算机设备及存储介质
CN111684297A (zh) * 2019-01-09 2020-09-18 深圳市大疆创新科技有限公司 激光雷达的通信方法、激光雷达及上位设备
JP7195333B2 (ja) * 2019-04-29 2022-12-23 エイチエムエヌ・テクノロジーズ・カンパニー・リミテッド 海底ケーブル障害の判断方法及び装置
CN111861547A (zh) * 2020-06-29 2020-10-30 北京嘀嘀无限科技发展有限公司 数据处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521044A (zh) * 2011-12-30 2012-06-27 北京拓明科技有限公司 一种基于消息中间件的分布式任务调度方法及系统
CN103067209A (zh) * 2013-01-25 2013-04-24 浪潮电子信息产业股份有限公司 一种心跳模块自检测方法
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN105095046A (zh) * 2015-07-14 2015-11-25 北京奇虎科技有限公司 任务监控的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521044A (zh) * 2011-12-30 2012-06-27 北京拓明科技有限公司 一种基于消息中间件的分布式任务调度方法及系统
CN103067209A (zh) * 2013-01-25 2013-04-24 浪潮电子信息产业股份有限公司 一种心跳模块自检测方法
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN105095046A (zh) * 2015-07-14 2015-11-25 北京奇虎科技有限公司 任务监控的方法及装置

Also Published As

Publication number Publication date
CN105553760A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN105553760B (zh) 一种基于心跳的软件模块故障处理方法及系统
US8381033B2 (en) Fault management in virtual computing environments
US7814050B2 (en) Disaster recovery
CN109669762B (zh) 云计算资源管理方法、装置、设备及计算机可读存储介质
US9647910B2 (en) Management server and control method of the management server for managing a service system virtually built using connected components
CN102043682B (zh) 一种工作流异常处理方法和系统
US7945814B2 (en) Remedying method for troubles in virtual server system and system thereof
US8191069B2 (en) Method of monitoring performance of virtual computer and apparatus using the method
JP4572250B2 (ja) 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
CN107329820B (zh) 一种用于集群系统的任务处理方法及装置
US9459948B2 (en) Auxiliary method, apparatus and system for diagnosing failure of virtual machine
JP6028850B2 (ja) データ多重化システム
CN105933137A (zh) 一种资源管理方法、装置及系统
US20120042197A1 (en) Method for resource information backup operation based on peer to peer network and peer to peer network thereof.
CN105630589A (zh) 分布式流程调度系统及流程调度、执行方法
US20130219224A1 (en) Job continuation management apparatus, job continuation management method and job continuation management program
JPWO2014076838A1 (ja) 仮想マシン同期システム
JP2007156679A (ja) サーバの障害回復方法及びデータベースシステム
CN111857998A (zh) 一种可配置的定时任务调度方法及系统
JP4461262B2 (ja) コンピュータ障害発生時に複数のコンピュータの配列を操作する方法
CN107153595A (zh) 分布式数据库系统的故障检测方法及其系统
CN105354102B (zh) 一种文件系统维护和修复的方法和装置
CN105812161A (zh) 一种控制器故障备份方法和系统
KR19990043986A (ko) 업무 인계 시스템
US10452321B2 (en) Storage system and control method therefor

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant