CN101145946B - 一种基于消息日志的容错集群系统和方法 - Google Patents

一种基于消息日志的容错集群系统和方法 Download PDF

Info

Publication number
CN101145946B
CN101145946B CN2007100771790A CN200710077179A CN101145946B CN 101145946 B CN101145946 B CN 101145946B CN 2007100771790 A CN2007100771790 A CN 2007100771790A CN 200710077179 A CN200710077179 A CN 200710077179A CN 101145946 B CN101145946 B CN 101145946B
Authority
CN
China
Prior art keywords
message
application process
checkpoint
send
computing node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007100771790A
Other languages
English (en)
Other versions
CN101145946A (zh
Inventor
王继刚
谢世波
李翌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN2007100771790A priority Critical patent/CN101145946B/zh
Publication of CN101145946A publication Critical patent/CN101145946A/zh
Application granted granted Critical
Publication of CN101145946B publication Critical patent/CN101145946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于消息日志的容错集群系统和方法,本发明系统中无需额外增加可靠设备,而是利用备份进程保存检查点和消息日志,同时,通过将它们记录到消息发送者侧的内存中避免同步日志记录产生的系统开销。这不仅减小了记录日志的费用,还取消了对稳定存储介质的依赖。本发明不需要任何保存检查点和日志的可靠存储设备,在恢复期间,也不会依赖额外备用的计算节点去接替失效节点,进程无需重新启动就会继续运行在剩余的节点上。同时,系统还可以方便地增加负载均衡功能,有效降低节点失效对整个系统的影响。

Description

一种基于消息日志的容错集群系统和方法
技术领域
本发明涉及计算机领域中容错集群系统及方法,尤其为不具有可靠存储设备和备用计算节点的集群环境提供基于消息日志的高效容错系统及方法。
背景技术
随着网络和计算技术的迅猛发展,网络业务与应用服务变得越来越复杂庞大,使得集群系统得到了广泛地应用。这些集群系统中往往包含了众多的计算节点,非常容易遭受频繁的局部故障,在没有容错方法的情况下,集群系统很难保证长时间的正常运行。对进程状态和进程间通信消息加以保存是一种有效的容错手段,集群系统遇到故障时,通过调用先前保存的检查点和消息日志可以帮助进程恢复到它在故障前所处的状态。在基于消息日志的容错方法中,进程除了按一定策略设置包含进程状态的检查点外,还要将进程间的通信消息以日志的形式保存到可靠存储介质上。在故障恢复过程中,进程首先回卷到检查点状态,然后利用消息日志进行重演。
根据消息日志被保存到稳定存储上的频率,目前公开的基于消息日志的容错方法主要有三类:第一类是悲观消息日志,它假定任何非确定事件之后都可能发生故障,最直接的实现方式就是在事件影响进程状态前,将事件的日志信息保存到稳定存储上,这保证了系统可以很容易地从任何时刻的故障中恢复。悲观消息日志有两个主要优势:一是不会产生孤立进程,二是消息日志和检查点的垃圾收集算法非常简单,然而悲观日志会导致很高的系统开销。第二类乐观消息日志先将事件的日志信息临时记录在易失的内存中,然后周期性地存放到稳定存储上。尽管这可以显著减少了系统无故障运行开销,但它需要复杂的恢复和垃圾收集算法。同时,还可能会由于孤立进程而产生无边界回卷问题。第三类因果消息日志方法结合了前两类方法的优点。它具有较低的无故障运行开销,同时也限制了失效回卷的程度,并保证进程回卷到最近的检查点状态。然而这些优势的获得是以复杂的恢复步骤为代价的。
以上所述的容错方法虽然各有特色,但都是基于目前集群系统中大多包含冗余设备,比如专门用于保存检查点和消息日志的稳定存储设备;用于代替失效计算节点的备用节点等。而在实际情况中,很多集群系统往往资源有限,难以提供额外设备,这使得上述的方法无法为这些系统提供容错功能。另一方面,在目前的集群系统中,保存检查点和消息日志会频繁地对外部存储设备进行读写,这会大大增加系统的无故障开销。而且,在故障出现后,新的计算节点重新启动失效进程,也会影响系统性能,增加故障恢复时间。
发明内容
本发明解决的技术问题是克服目前基于消息日志的容错方法过分依赖集群系统中拥有额外存储设备或计算节点的缺陷,并解决由于读写外部存储设备和重启失效进程所导致的系统性能开销问题,提出了一种基于消息日志的容错集群系统和方法。
本发明提出的基于消息日志的容错集群系统,包括多个计算节点,每个计算节点上运行着多个应用进程,每个应用进程都对应设有至少一个备用进程,且备用进程与其对应的应用进程不在一个计算节点上;各应用进程及其备用进程均记录有该应用进程所发送消息的消息日志,备用进程用于在计算节点发生故障时通过激活消息日志取代应用进程。
优选的,所述应用进程和备用进程中还设有用于记录给其它进程发送消息的最大发送序列号列表,以及用于记录从其它进程接收消息的接收序列号列表。
优选的,所述的最大发送序列号列表、接收序列号列表、进程所发送消息的消息日志保存在进程所属计算节点的主存中。
本发明提出的基于消息日志的容错方法,包括以下处理过程:
1)设定检查点,应用进程将其状态保存到检查点中,并将检查点信息同步到备用进程;
2)发送应用进程向接收应用进程发送消息,并对发送的消息以消息日志的方式保持到发送应用进程和接收应用进程中;
3)当计算节点发生故障,计算节点中失效的应用进程对应的备用进程通过保存的检查点和消息日志激活,并取代应用进程的工作。
优选的,所述步骤1)中具体包括以下处理过程:
11)设定检查点,应用进程将其状态保存到检查点中,并将检查点信息给其备用进程;
12)备用进程收到检查点信息后,用新的检查点信息替代旧的检查点信息,并向应用进程反馈确认信息。
优选的,所述步骤12)之后还包括以下处理步骤:
13)应用进程通过向更新检查点前所有与其有消息交互的应用进程以及其备份进程发送垃圾收集信息,收到垃圾收集信息的进程根据信息内容删除消息日志中的历史垃圾消息。
优选的,所述步骤2)具体包括以下处理过程:
21)发送应用进程向接收应用进程发送带有消息发送序列号的通信请求;
22)接收应用进程收到请求后,根据请求中带有的消息发送序列号在接收应用进程的消息日志中查询,对于确认该消息没有收到过,则为待接收的消息分配接收序列号,并向发送应用进程反馈;
23)发送应用进程向接收应用进程发送消息。
优选的,所述步骤23)具体为:
当发送应用进程与接收应用进程在同一计算节点时,
231)发送应用进程将消息、发送序列号、接收序列号发送到发送应用进程的备份进程;
232)发送应用进程的备份进程收到消息后,将内容保存到其消息日志中,并向发送应用进程发送确认信息;
233)发送应用进程向接收应用进程发送消息;
当发送应用进程与接收应用进程在不同的计算节点时,
234)发送应用进程将待发送消息、接收序列号保存在其消息日志中;
235)发送应用进程向接收应用进程发送消息。
优选的,所述步骤3)具体包括以下处理过程:
31)当计算节点发生故障,计算节点中失效的应用进程对应的备用进程通过保存的检查点和消息日志激活,并向其它应用进程发送广播消息;
32)其它应用进程收到广播消息后,向备用进程发送之前已发送给失效的应用进程的消息,并附有各消息的接收序列号和最大接收序列号;
33)被激活的备份进程从收到的接收序列号中找到最大值,开始重新分配接收序列号,完成取代应用进程的工作。
本发明利用备份进程保存检查点和消息日志,同时,通过将它们记录到消息发送者侧的内存中避免同步日志记录产生的系统开销。这不仅减小了记录日志的费用,还取消了对稳定存储介质的依赖。本发明不需要任何保存检查点和日志的可靠存储设备,在恢复期间,也不会依赖额外备用的计算节点去接替失效节点,进程无需重新启动就会继续运行在剩余的节点上。同时,系统还可以方便地增加负载均衡功能,有效降低节点失效对整个系统的影响。
附图说明
图1为本发明实现容错功能的集群系统结构原理图;
图2为本发明实现进程检查点保存的流程图;
图3为本发明实现进程间通信的流程图;
图4为本发明实现同一节点进程间通信消息保存的流程图;
图5为本发明实现不同节点进程间通信消息保存的流程图。
具体实施方式
下面结合附图对本发明技术方案的实施作进一步的详细描述。
图1为本发明实现容错功能的集群系统结构图。其中:
有m个进程运行在含有n个计算节点的集群系统中,计算节点故障均为失效停止,当一个节点失效时,其它的节点能够立即检测到它的失效。节点上运行的进程可以被描述为一个二元组:P=(pm,bk),pm和bk分别表示该进程的主版本和副版本。由于本发明的实施例中每个进程仅含有一个相应的副本,所以容错模型只允许单点失效,若使用更多的进程副本,该模型可以扩展到多点失效。本发明的容错方法完全基于软件,不依赖于任何特殊的硬件。系统中没有完全可靠的设备,节点间的通信都是通过网络消息传递;网络是可靠的;分段确定性(PWD,Piece Wise Deterministic)假设也被保留,它假设消息接收是影响进程状态唯一不确定事件。
本发明的实现需要向系统中每一个进程增加一些数据模块,在了解这些数据模块之前,首先认识两个数据项:发送序列号(SSN,Send SequenceNumber)-进程发送的每一条消息都有一个发送序列号,记录了当前发送者发给接收者消息的数目;接收序列号(RSN,Receive Sequence Number)-接收进程会为其接收到的每一条消息分配一个RSN,并按照RSN的递增顺序处理消息。
基于上述的数据项,在进程中定义了以下数据模块:
进程所发送消息的消息日志:进程发送的每一条消息连同消息的RSN号都被记录在一个消息日志中。如果消息在相同处理器上两个进程间发送,它们将被记录在发送进程副版本的消息日志中。
记录最大SSN列表:每个进程都维护了一个发送给其它进程最大SSN的列表,称之为SSNTable,它还维护了一个从不同进程接收的SSN滑动窗口,这被用于复制消息检测。
维护RSN值的列表:一个进程维护一个自从最近检查点后已分配的RSN列表,可以通过发送者和SSN号检索对应的消息是否已被接收,RSN列表中还包含已分配的最大RSN号Rcount。
除了最新的值,这些数据模块必须要包含在进程的检查点中,当进程从其检查点重启时,它们的值也将随着检查点数据恢复。
如图2所示,进程P周期性地决定将它的状态保存到检查点中,并将检查点发送给它的备份进程P.bk。每一个主进程还记录它已经处理的最大RSN的消息,保存发送给不同主进程的RSN列表将通过移除对应消息的入口被垃圾收集。
当接收到检查点后,P.bk将用新的检查点替换旧的检查点拷贝,然后发送一个确认消息给P.pm。接收到确认后,P.pm会发送一个包含最高RSN的垃圾收集消息给最新检查点前所有发送给它消息的进程,当进程Q.pm收到来自P.pm的垃圾收集消息后,Q.pm将删除消息日志中所有发送给P.pm且RSN小于消息中指定RSN的消息。同时,P.pm发送另一条相似的垃圾收集消息给它的备份进程P.bk,用以删除本地消息日志中旧的记录。
在决定检查点周期的问题上,内存和速度之间存在一个有趣的平衡:如果检查点周期过小,记录在发送者上的消息将占用比较小的内存,但保存检查点的开销将比较大。如果检查点周期过大,记录在发送者上的消息将变多而检查点的开销将变小。而且,稀少的检查点将由于需要重发的旧消息过多而使恢复变慢。所以在决定检查点周期中预期的故障数目也是重要的因素,而且一些应用可能有内存限制,所以检查点周期可能作为用户输入设置或者动态决定,针对检查点的需求驱动策略也可能被应用。
不像其它基于消息日志的容错方法,本发明不依赖于多个保存检查点的可靠服务器。取而代之的是依赖进程的主副版本不会在同一个检查点周期内出现故障。
图3表现了进程P发送消息给进程Q必须要执行的步骤。如图所示,两个进程在进行通信的过程中,会根据相互位置的不同而采取不同的方式保存消息日志。
本地进程间消息发送:虚拟化意味着多个进程可能被映射到相同计算节点上,相同节点上的进程可以被看作互为本地。发送给本地进程的消息日志和接收者在相同的节点上,如果节点失效,消息的所有信息都将从系统中消失,尽管消息可以被恢复的发送者重新生成,但是它还需要被接收者准确地按照先前的顺序处理,由于发送者和顺序号可以唯一确定一条消息,所以只要记录发送者进程序列号、消息的SSN和RSN,就可以满足正确性的需要。
来自于本地进程P的RSN(m)可以通过下列方法获得:带有RSN的本地消息被发送给发送者备份进程保存,只有在收到自己备份进程确认后才开始该消息的处理工作,发送本地消息的消息交换序列如图4所示,由于在远端节点上记录日志,本地进程间消息延时与远端进程间消息延时相同。
等待备份进程确认并不意味着进程执行的实际停止,而是进程记着它正在等待特定的消息继续执行,无论等待的消息何时到达,消息发送协议都将假设处于等待状态,这在下面所有的算法中都是正确的。
远端进程间消息发送:在不同节点上的两个进程被称为相互远端,在这种情况下,进程间通信按照远端消息发送步骤模式执行,消息发送的流程如图5所示。
进程P记录消息并发送入场券请求并等待回复。当进程Q接收到带有特定SSN的入场券请求,它将查询包含RSN列表的<sender,SSN>项,如果发现SSN已存在,则返回列表中存储的值,如果发现对应SSN的消息已收到,而且在最近的检查点以后,则标记RSN为已收到;如果发现消息在最近的检查点前收到,则标记RSN是旧的。如果以上的情况没有一个满足,将意味着这是一个新消息的请求。它将增加Rcount值并返回RSN给P,同时在列表中增加相应发送者,SSN和RSN的数据项。
标记为已接收的RSN意味着消息不需要发送给接收者,除非它被重启。对应于标记旧RSN的消息可以不需要记录,发送者只需简单地在它的日志中添加RSN即可。如果RSN是新的,它将分配给日志中对应的消息,并将该消息发送给接收者,RSN表还可以处理发送者P重发一个入场券请求的情况,如果Q已经为这个请求派发了RSN,Q将永远不会收到带有旧RSN的消息。消息按照RSN递增顺序被处理,虽然这会延长Q在旧RSN上的执行时间,然而却可以避免为新的SSN分配旧的RSN。当P开始发送消息m到Q处理m之间会有一个时间差,这个时间差由一个小消息往返时间所决定。
由于失效的计算节点上可能存在多个进程,所以,容错方法中更需要恢复步骤。以下是本发明在进程恢复中所涉及到的步骤。
失效探测器检测到有计算节点失效后,立刻通知失效主进程的备份进程,备份进程会通过最近的检查点和本地消息日志激活,并从检查点位置开始继续执行,以接管主进程的工作,激活完毕后备份进程会广播消息表示它已经准备好接收被记录的日志。作为对广播的回应,所有的主进程都将重发附有RSN的日志消息给被激活的备份进程。对于没有RSN的日志消息,入场券请求将会发送。每个主进程还会发送一个包含它所收到的来自该备份进程主版本最高的RSN号消息,同时,被激活的备份进程会拒绝任何它接收到的重复消息。一旦被激活的备份进程知道它的主版本在崩溃前所派发的最大RSN,它会开始重新派发RSN。在恢复期间如果一个本地消息被生成,来自备份进程的本地消息日志将被用于找到RSN。
针对集群系统的容错需求,本发明提出了一种基于消息日志的容错集群系统和方法。与其它的容错方法不同,本发明不依赖于任何完全可靠的存储设备,允许在没有额外节点替代的情况下,当小部分节点失效时,进程无需重新启动就可继续执行。本发明具有较低的系统开销和快速的错误恢复性能,有力地保证了集群计算业务不中断。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于消息日志的容错集群系统,其特征在于,所述集群系统包括多个计算节点,每个计算节点上运行着多个应用进程,每个应用进程都对应设有至少一个备用进程,且备用进程与其对应的应用进程不在一个计算节点上,即至少有一个计算节点上既运行着应用进程,又同时运行着其他计算节点上的应用进程所对应的备用进程;各应用进程及其备用进程均记录有该应用进程所发送消息的消息日志,备用进程用于在计算节点发生故障时通过激活消息日志取代应用进程。
2.根据权利要求1所述的基于消息日志的容错集群系统,其特征在于,所述应用进程和备用进程中还设有用于记录给其它进程所发送消息的最大发送序列号列表,以及用于记录从其它进程接收消息的接收序列号列表。
3.根据权利要求2所述的基于消息日志的容错集群系统,其特征在于,所述的最大发送序列号列表、接收序列号列表、进程所发送消息的消息日志保存在进程所属计算节点的主存中。
4.一种基于消息日志的容错方法,其特征在于,基于消息日志的容错集群系统包括多个计算节点,每个计算节点上运行着多个应用进程,每个应用进程都对应设有至少一个备用进程,且备用进程与其对应的应用进程不在一个计算节点上,即至少有一个计算节点上既运行着应用进程,又同时运行着其他计算节点上的应用进程所对应的备用进程;
所述基于消息日志的容错方法包括以下处理过程:
1)在计算节点上设定检查点,应用进程将其状态保存到检查点中,并将检查点信息同步到备用进程;
2)发送应用进程向接收应用进程发送消息,并对发送的消息以消息日志的方式保持到发送应用进程和接收应用进程中;
3)当计算节点发生故障,计算节点中失效的应用进程对应的备用进程通过保存的检查点和消息日志激活,并取代应用进程的工作。
所述步骤1)中具体包括以下处理过程:
11)在计算节点上设定检查点,应用进程将其状态保存到检查点中,并将检查点信息给其备用进程;
12)该计算节点上的备用进程收到其他计算节点发来的检查点信息后,用新的检查点信息替代旧的检查点信息,并向应用进程反馈确认信息。
5.根据权利要求4所述的基于消息日志的容错方法,其特征在于,所述步骤12)之后还包括以下处理步骤:
13)应用进程通过向更新检查点前所有与其有消息交互的应用进程以及其备份进程发送垃圾收集信息,收到垃圾收集信息的进程根据信息内容删除消息日志中的历史垃圾消息。
6.根据权利要求4所述的基于消息日志的容错方法,其特征在于,其特征在于,所述步骤2)具体包括以下处理过程:
21)发送应用进程向接收应用进程发送带有消息发送序列号的通信请求;
22)接收应用进程收到请求后,根据请求中带有的消息发送序列号在接收应用进程的消息日志中查询,对于确认该消息没有收到过,则为待接收的消息分配接收序列号,并向发送应用进程反馈;
23)发送应用进程向接收应用进程发送消息。
7.根据权利要求6所述的基于消息日志的容错方法,其特征在于,所述步骤23)具体为:
当发送应用进程与接收应用进程在同一计算节点时,
231)发送应用进程将消息、发送序列号、接收序列号发送到发送应用进程的备份进程;
232)发送应用进程的备份进程收到消息后,将内容保存到其消息日志中,并向发送应用进程发送确认信息;
233)发送应用进程向接收应用进程发送消息;
当发送应用进程与接收应用进程在不同的计算节点时,
234)发送应用进程将待发送消息、接收序列号保存在其消息日志中;
235)发送应用进程向接收应用进程发送消息。
8.根据权利要求4所述的基于消息日志的容错方法,其特征在于,所述步骤3)具体包括以下处理过程:
31)当计算节点发生故障,计算节点中失效的应用进程对应的备用进程通过保存的检查点和消息日志激活,并向其它应用进程发送广播消息;
32)其它应用进程收到广播消息后,向备用进程发送之前已发送给失效的应用进程的消息,并附有各消息的接收序列号和最大接收序列号;
33)被激活的备份进程从收到的接收序列号中找到最大值,开始重新分配接收序列号,完成取代应用进程的工作。
CN2007100771790A 2007-09-17 2007-09-17 一种基于消息日志的容错集群系统和方法 Active CN101145946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100771790A CN101145946B (zh) 2007-09-17 2007-09-17 一种基于消息日志的容错集群系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100771790A CN101145946B (zh) 2007-09-17 2007-09-17 一种基于消息日志的容错集群系统和方法

Publications (2)

Publication Number Publication Date
CN101145946A CN101145946A (zh) 2008-03-19
CN101145946B true CN101145946B (zh) 2010-09-01

Family

ID=39208260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100771790A Active CN101145946B (zh) 2007-09-17 2007-09-17 一种基于消息日志的容错集群系统和方法

Country Status (1)

Country Link
CN (1) CN101145946B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385536B (zh) * 2010-08-27 2014-06-11 中兴通讯股份有限公司 一种实现并行计算的方法及系统
WO2012149719A1 (zh) * 2011-08-31 2012-11-08 华为技术有限公司 一种建立检查点的方法和系统
CN102404139B (zh) * 2011-10-21 2014-01-15 浪潮电子信息产业股份有限公司 一种提高容错服务器应用层级容错性能的方法
EP3129903B1 (en) * 2014-07-01 2018-11-28 SAS Institute Inc. Systems and methods for fault tolerant communications
CN104346233B (zh) * 2014-10-13 2017-12-26 中国外汇交易中心 一种用于计算机系统的故障恢复方法及装置
CN106034137A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 用于分布式系统的智能调度方法及分布式服务系统
CN104951367B (zh) * 2015-07-17 2018-02-16 中国人民解放军国防科学技术大学 一种虚拟化云中容错任务调度方法
CN106919494B (zh) * 2015-12-25 2020-07-17 阿里巴巴集团控股有限公司 安卓应用日志的实现方法和装置
CN106933659B (zh) * 2015-12-30 2020-06-26 华为技术有限公司 管理进程的方法和装置
CN109739822B (zh) * 2018-12-26 2021-04-13 中国移动通信集团江苏有限公司 消息存储方法、装置、设备及存储介质
CN111046024B (zh) * 2019-12-16 2023-05-23 上海达梦数据库有限公司 一种共享存储数据库的数据处理方法、装置、设备及介质
CN113392152A (zh) * 2020-03-11 2021-09-14 伊姆西Ip控股有限责任公司 用于更新信息的方法、电子设备和计算机程序产品
CN111462836B (zh) * 2020-04-09 2023-03-31 合肥本源量子计算科技有限责任公司 恢复量子化学模型计算的方法和装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312922A (zh) * 1998-08-11 2001-09-12 艾利森电话股份有限公司 容错计算机系统
CN101055538A (zh) * 2006-04-12 2007-10-17 国际商业机器公司 应用容错和恢复的系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312922A (zh) * 1998-08-11 2001-09-12 艾利森电话股份有限公司 容错计算机系统
CN101055538A (zh) * 2006-04-12 2007-10-17 国际商业机器公司 应用容错和恢复的系统和方法

Also Published As

Publication number Publication date
CN101145946A (zh) 2008-03-19

Similar Documents

Publication Publication Date Title
CN101145946B (zh) 一种基于消息日志的容错集群系统和方法
EP2281240B1 (en) Maintaining data integrity in data servers across data centers
CN101751394B (zh) 数据同步方法和数据同步系统
CN106357787A (zh) 一种存储容灾控制系统
CN101207512B (zh) 一种数据库系统冗灾备份和切换方法
US9576040B1 (en) N-site asynchronous replication
US20140244578A1 (en) Highly available main memory database system, operating method and uses thereof
CN103763155A (zh) 分布式云存储系统多服务心跳监测方法
CN102761528A (zh) 数据管理系统及方法
CN103345470A (zh) 一种数据库容灾方法、系统及服务器
CN106339278A (zh) 一种网络文件系统的数据备份及恢复方法
CN103488546A (zh) 一种支持多级别数据和数据库在线并发备份与恢复方法
CN102968457B (zh) 数据库间切换方法和系统
CN1299203C (zh) 数据容灾备份控制系统
CN102404139B (zh) 一种提高容错服务器应用层级容错性能的方法
CN103634411A (zh) 一种具有状态一致性的市场数据实时广播系统及方法
KR101605455B1 (ko) 데이터 손실 없는 데이터베이스 리두 로그 이중화 방법 및 그를 위한 시스템
CN108445857B (zh) 一种scada系统的1+n冗余机制设计方法
CN107357800A (zh) 一种数据库高可用零丢失解决方法
CN1127242C (zh) 一种移动通信网的联机计费装置及方法
CN108833155A (zh) 一种双机热备存储系统
KR100298319B1 (ko) 통신시스템에서의 이중화 장치_
Snyder et al. Robustness infrastructure for multi-agent systems
Richard III et al. Complete process recovery in distributed systems using vector time
Elnozahy et al. Fault tolerance for a workstation cluster

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant