CN100546250C - 一种集群内检查点的管理方法 - Google Patents

一种集群内检查点的管理方法 Download PDF

Info

Publication number
CN100546250C
CN100546250C CNB2006101097137A CN200610109713A CN100546250C CN 100546250 C CN100546250 C CN 100546250C CN B2006101097137 A CNB2006101097137 A CN B2006101097137A CN 200610109713 A CN200610109713 A CN 200610109713A CN 100546250 C CN100546250 C CN 100546250C
Authority
CN
China
Prior art keywords
checkpoint
application program
cluster
multicast group
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006101097137A
Other languages
English (en)
Other versions
CN101123521A (zh
Inventor
李冉实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB2006101097137A priority Critical patent/CN100546250C/zh
Publication of CN101123521A publication Critical patent/CN101123521A/zh
Application granted granted Critical
Publication of CN100546250C publication Critical patent/CN100546250C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种集群内检查点的管理方法,包括步骤:获取应用程序的检查点管理标志;判断所述检查点管理标志参数值,若所述检查点管理标志的参数值表明基于冗余模型对检查点进行管理时,则根据该应用程序的冗余模型,通过与该应用程序相关的节点进行多点通信管理该应用程序的检查点,所述冗余模型所涉及到的节点数小于集群内的总节点数;否则,通过集群内的所有节点进行多点通信管理该应用程序的检查点。采用本发明方法,可实现基于冗余模型对应用程序的检查点进行管理,从而减少集群中节点物理资源的占用,减少管理检查点所消耗的时间,减少检查点的管理开销。

Description

一种集群内检查点的管理方法
技术领域
本发明涉及通信领域集群管理技术,尤其涉及一种集群内检查点的管理方法。
背景技术
检查点是一种通过保存应用程序运行状态来协助在应用程序间快速进行服务切换的机制,这种机制可以被认为是一种服务,称为检查点管理服务。应用程序通过使用检查点管理服务来保存其运行状态,在进行服务切换的过程中,如,将应用程序A1提供的服务切换至应用程序A2,应用程序A2可以使用检查点中保存的应用程序A1的运行状态来恢复A1此前提供的服务。检查点管理服务用于保证集群的高可用性,例如,如果一个处于活动(active)状态的应用程序出于某种原因意外失效了,此时处于备用(standby)状态的应用程序会借助检查点中保存的数据从失效应用程序的失效点处继续运行。由于在集群环境中,高可用性是非常重要的需求,所以,为集群中的应用程序提供检查点管理服务是很有必要的。
检查点是集群级的实体,由在集群范围内唯一的名称所标识。一份存储在检查点中的数据拷贝称为检查点副本,出于性能方面的考虑,这样的检查点副本往往保存在内存中而非磁盘上。一个检查点可以在集群的不同节点上有多个检查点副本,通过这种方式,可以在节点失效时保护检查点中的重要数据。
参见图1,为现有技术中集群内的检查点管理机制示意图。图1所示的集群由三个节点N1、N2和N3组成,这三个节点上均运行了检查点管理服务。应用程序A1、A2和A3运行在集群中,其中A1以active状态运行在节点N1上,以standby状态运行N2和N3上;A2以active状态运行在N2上,以standby状态运行在N1和N3上;A3以active运行在N1上,以standby状态运行在N2上。A1、A2和A3均使用检查点管理服务来保存其运行状态,形成的检查点分别是C1、C2和C3。同时,我们可以发现,在这一集群中,所有应用程序的检查点均存在于所有节点上。
集群管理工具除了提供检查点管理服务之外,还提供可用性管理、事件管理、集群成员管理等服务,结合使用这些服务,将有助于提高集群中应用程序的可用性。
在集群中,节点能够被增加或删除,应用程序也能够被在线部署。集群中的应用程序并不一定运行在集群的所有节点上,我们常常使用冗余模型来为在集群中运行的应用程序提供一定的冗余度。这种冗余模型提供了集群中应用程序的活动及备份信息。集群管理工具使用这些信息在集群中进行应用程序之间的切换(当然也有可能是失效切换)。通常使用的冗余模型有2N、N+M、N-Way等。以2N冗余模型为例,在这种冗余模型中,任意时刻,最多只能有一个应用程序处于active状态,且最多只能有一个应用程序处于standby状态,处于active状态的应用程序正常地对外提供服务,而处于standby状态的应用程序作为备份,随时做好接管active状态应用程序的准备。一般来说,传统的集群只提供单一的服务,而如果在集群中合理、有效地使用各种冗余模型,那么集群就能够对外提供多种服务。
现有技术中,检查点存在于集群中的所有节点之上,通过检查点管理服务来管理集群中的检查点。集群中的节点上会部署一些应用程序,当应用程序处于active状态时,检查点管理服务会在集群中的所有节点上创建和此应用程序相关的检查点。
上述现有技术并没有基于冗余模型来进行检查点的管理。集群中的每个节点都持有所有的检查点副本,不管这些检查点副本针对的应用程序是否部署在了此节点之上。实际上,当应用程序部署在了一个节点上时(可以是active状态的,也可以是standby状态的),针对这个应用程序的检查点对此节点来说才是必需的(即这样的检查点是和节点相关的),而如果一个节点持有和它无关的检查点,那会增加检查点管理的难度,且相对于节点的物理内存来说,检查点的尺寸可能会相当大,是一种资源浪费。
检查点管理包括创建检查点、更新检查点、删除检查点,以及在应用程序访问这些检查点时,保持它们的原子性(atomicity)。如果集群中存在大量的节点都持有和自己无关的检查点,那势必会影响到检查点管理的性能,这是由于对任意一个检查点的创建、更新和删除都是在整个集群中的所有节点上来进行的。另外,在这种情况下,检查点管理服务还必须在整个集群范围内保证检查点的原子性,这也会导致对检查点进行的相关操作响应变慢。
总的说来,上述现有技术存在问题有如下几个方面:
(1)维护和节点无关的检查点会消耗节点上的物理资源(如内存和CPU);
(2)为了保证检查点的原子性而消耗的时间会增加;
(3)对检查点的管理开销巨大。
发明内容
本发明提供一种集群内检查点的管理方法,用以解决现有技术的检查点管理机制消耗物理节点资源、消耗时间、管理开销巨大的问题。
本发明方法包括:
获取应用程序的检查点管理标志;
判断所述检查点管理标志参数值,若所述检查点管理标志的参数值表明基于冗余模型对检查点进行管理时,则根据该应用程序的冗余模型,通过与该应用程序相关的节点进行多点通信管理该应用程序的检查点,所述冗余模型涉及到的节点数小于集群内的总节点数;否则,通过集群内的所有节点进行多点通信管理该应用程序的检查点。
根据本发明的上述方法,所述检查点管理标志设置于集群内的所有或部分应用程序的冗余模型信息中。
所述通过与所述应用程序相关的节点进行多点通信,对所述应用程序的检查点进行管理,包括:
预先为被设置了基于冗余模型进行检查点管理标志的应用程序创建多播组,并在其中加入该应用程序冗余模型所涉及到的节点;
通过所述多播组在相应节点上管理所述应用程序的检查点。
当所述应用程序的冗余模型更新时,更新所述多播组中的相应节点。
上述方法中,通过与集群内的所有节点进行多点通信,对所述应用程序的检查点进行管理,包括:
预先设置默认多播组,并在其中加入集群内的所有节点;
通过所述默认多播组在集群内的所有节点上管理所述应用程序的检查点。
上述方法中,通过多播组管理应用程序的检查点,包括创建/更新或删除所述应用程序的检查点。
所述创建/更新应用程序检查点的步骤包括:
应用程序发出创建/更新检查点的请求;
集群管理系统判断是否存在根据该应用程序的冗余模型创建的检查点管理多播组,若是,则将检查点创建/更新请求转发到该多播组中的所有节点;否则,将检查点创建/更新请求转发到默认多播组中的所有节点;
收到检查点创建/更新请求的节点在该节点上创建/更新该应用程序的检查点。
所述删除应用程序检查点的步骤包括:
应用程序或集群管理系统发出删除检查点的请求;
集群管理系统判断是否存在根据该应用程序的冗余模型创建的检查点管理多播组,若是,则将检查点删除请求转发到该多播组中的所有节点;否则,将检查点删除请求转发到默认多播组中的所有节点;
收到检查点删除请求的节点删除该节点上的该应用程序的检查点。
本发明的有益效果如下:
(1)本发明中,检查点管理服务是基于特定冗余模型的,所有针对应用程序检查点的操作都只在冗余模型中与该应用程序相关的节点上进行,减少了对集群内其他与该应用程序不相关的节点的物理资源(CPU和内存)的占用,从而达到有效利用集群内的物理资源的目的。
(2)当冗余模型涉及到的节点数小于集群内的总节点数时,本发明基于冗余模型进行检查点管理的检查点数量比现有技术有所减少,因此,检查点管理服务能够针对应用程序发出的请求更快地做出响应,从而减少检查点管理所消耗的时间。
(3)本发明中所有针对检查点的操作都只在相关的节点上进行,管理检查点的开销将会被有效地减少。
附图说明
图1为现有技术中集群内的检查点管理机制示意图;
图2为本发明管理集群内的检查点的流程示意图;
图3为本发明通过多播组写检查点的流程示意图;
图4为本发明通过多播组删除检查点的流程示意图;
图5为本发明实施例的基于冗余模型的检查点管理机制示意图;
图6为本发明通过多播组进行检查点管理的流程示意图。
具体实施方式
本发明提供了一种基于集群冗余模型进行检查点管理的机制。通过在检查点管理机制中结合冗余模型的概念,达到对物理资源的高利用率、对检查点操作的快速响应以及减少检查点管理的开销。
参见图2,为本发明集群内检查点的管理流程示意图,具体步骤包括:
S21、预先为应用程序设置检查点管理标志,表明是否基于冗余模型对其进行检查点管理。
本发明在集群配置信息中的应用程序模型信息中引入了一个检查点管理标志,此标志用来表明是否基于冗余模型对该应用程序进行检查点管理。检查点管理标志可以是布尔型数据,此标志的配置情况及其含义如下所述:
检查点管理标志的值为真(TRUE),表示检查点管理服务将基于该应用程序的冗余模型对该应用程序进行检查点管理;
检查点管理标志的值为假(FALSE),表示检查点管理服务将基于整个集群中的所有节点对该应用程序进行检查点管理,即在集群中所有节点上创建并管理该应用程序的检查点;
在应用程序的配置信息中没有设置此标志,表示检查点管理服务将基于整个集群中的所有节点对该应用程序进行检查点管理。
S22、检查点管理服务获取应用程序的冗余模型信息,包括检查点管理标志和冗余模型配置信息,并据此创建多播组。本发明要求集群的配置管理服务向检查点管理服务提供相关的数据接口,以使检查点管理服务能够获取到应用程序的配置信息和检查点管理标志。
集群的配置管理服务负责管理集群内的配置信息。集群可以利用配置信息来管理应用程序的可用性。配置管理服务是和具体实现相关的,这并不在本发明涉及的范围之内。配置管理服务所要管理的配置信息包括:
集群中包含的节点;
网络配置的细节;
应用程序模型信息,如组件,组件服务实例、服务单元、服务组、保护组、冗余模型等。
检查点管理服务通过配置管理服务提供的数据接口获取到集群中用于配置检查点管理的配置信息,并进行初始化,包括:针对集群中的应用程序分别创建用于检查点管理的多播组。根据检查点管理标志的有无以及其数值,创建多播组时有如下三种情况:
情况一:检查点管理标志的值为TRUE时,检查点管理服务为该标志对应的应用程序创建一个检查点管理多播组,将冗余模型中和该应用程序相关的节点(N1,N2,...,Nn)加入到上述创建的多播组中。这里的节点号n是从冗余模型中获得的,但它的值在系统运行的过程中是可变化的,这依赖整个网络的性能,且由整个系统的管理员来确定。
情况二:检查点管理标志的值为FALSE时,检查点管理服务不为该标志对应的应用程序创建多播组,而是利用默认的检查点管理多播组对该应用程序的检查点进行管理,此默认多播组包含集群中所有的节点,由检查点管理服务为所有应用程序默认创建。
情况三:应用程序未设置检查点管理标志时,将利用默认的多播组对该应用程序的检查点进行管理。
S23、检查点管理服务接收应用程序检查点的管理请求。检查点的管理请求包括创建检查点、更新检查点数据和删除检查点,以及在应用程序访问检查点时,保持检查点的原子性。
S24、检查点管理服务判断该应用程序是否存在基于冗余模型创建的检查点管理多播组,若是,则执行步骤S25;否则,执行步骤S26。
S25、若多播组存在,则检查点管理服务将管理请求转发到该多播组中的所有节点。
S26、若多播组不存在,则检查点管理服务将管理请求转发到默认多播组中的所有节点。
S27、收到管理请求的节点在该节点上对该应用程序的检查点进行相应处理,包括创建、更新或删除检查点。
上述流程中,当应用程序的冗余模型改变时,多播组中的节点也根据改变后的冗余模型进行相应更新。
上述流程中采用了支持多点通信的多播组实现应用程序的检查点管理,除此之外,本发明方法还支持其他多点通信的方式来实现应用程序的检查点管理,如透明的进程间通信(Transparent Inter Process Communication,TIPC)的多点通信方式。在采用TIPC的集群系统中,通过TIPC协议的多点通信技术,实现检查点管理。采用TIPC多点通信实现检查点管理的过程中,创建一端口名称序列port name sequence(端口名称为节点服务端口的逻辑地址,对应于服务端口的物理地址),使其包含相应节点的端口名称port name,当需要对应用程序进行检查点管理时,通过向该端口名称序列发送管理指令,实现对相应节点上的应用程序检查点的管理。
检查点的创建和更新过程使用检查点写操作,以此来同步集群中应用程序的所有检查点副本中的数据。
参见图3,为本发明通过多播组写检查点的流程示意图,具体步骤包括:
S31、应用程序向检查点管理服务发出创建/更新检查点的请求;
S32、检查点管理服务判断该应用程序对应的基于冗余模型的检查点管理多播组是否存在,若存在,则执行步骤S33;否则,执行步骤S34;
S33、如果该多播组存在,则检查点管理服务将应用程序发出的创建/更新请求转发给此多播组中的所有节点;
S34、如果该多播组不存在,则检查点管理服务将应用程序发出的创建/更新请求转发给默认多播组中的所有节点;
S35、收到检查点创建请求的节点在该节点上创建该应用程序的检查点;收到检查点更新请求的节点更新该节点上该应用程序的检查点中的数据。
如果某个检查点中的数据被认为已经过期(根据某种特定的判断准则),那么应用程序或检查点管理服务会发出删除此检查点的请求,这会使得此检查点在集群中被删除。
参见图4,为本发明通过多播组删除检查点的流程示意图,具体步骤包括:
S41、应用程序或检查点管理服务发出删除检查点的请求;
S42、检查点管理服务判断该应用程序对应的基于冗余模型的检查点管理多播组是否存在,若存在,则执行步骤S43;否则,执行步骤S44;
S43、如果该多播组存在,则检查点管理服务将应用程序发出的删除请求转发给此多播组中的所有节点;
S44、如果该多播组不存在,则检查点管理服务将应用程序发出的删除请求转发给默认多播组中的所有节点;
S45、收到检查点删除请求的节点删除该节点上该应用程序的检查点。
现以集群中一个典型的基于冗余模型的检查点管理过程为例,对本发明进行详细描述。
参见图5,为本发明实施例的基于冗余模型的检查点管理机制示意图。图5所示的集群由三个节点N1、N2和N3组成,这三个节点上均运行了检查点管理服务。应用程序A1、A2和A3部署在集群中,其中A1以冗余模型N-way部署在三个节点上:以active状态运行在节点N1上,以standby状态部署N2和N3上;A2以冗余模型N+M部署在三个节点上:以active状态运行在N2上,以standby状态部署在N1和N3上;A3以冗余模型2N部署在N1和N2上:以active运行在N1上,以standby状态部署在N2上。A1、A2和A3均使用检查点管理服务来保存其运行状态,形成的检查点分别是C1、C2和C3。
采用多播组对图5所示的集群系统进行应用程序检查点管理的过程如图6所示。
参见图6,为本发明通过多播组进行检查点管理的流程示意图,包括步骤:
S61、在应用程序的冗余模型信息中设置检查点管理标志。A1、A2和A3的冗余模型信息(Ax_CONFIG,)如下:
A1_CONFIG:A1_RM=N1,N2,N3(N-way)A1_RM_CKPT=FALSE:...
A2_CONFIG:A2_RM=N1,N2,N3(N+M)
A3_CONFIG:A3_RM=N1,N2(2N)A3_RM_CKPT=TRUE:...
其中,Ax_RM_CKPT为检查点管理标志,A1_RM_CKPT=FALSE表明对应用程序A1不基于冗余模型对检查点进行管理;A3_RM_CKPT=TRUE表明对应用程序A3基于冗余模型对检查点进行管理;A2未设置A2_RM_CKPT,表明对应用程序A2不基于冗余模型对检查点进行管理。
S62、检查点管理服务获取应用程序的冗余模型信息(包括检查点管理标志和冗余模型配置信息),并基于冗余模型创建与其对应的检查点管理多播组。
对于应用程序A3,由于A3_RM_CKPT=TRUE,检查点管理服务为A3创建检查点管理多播组A3_CKPT_MC_GRP,并根据A3的冗余模型2N,将部署A3的节点N1和N2加入到该多播组中;
对于应用程序A1,由于A1_RM_CKPT=FALSE,检查点管理服务不为A1创建基于冗余模型的检查点管理多播组;
对于应用程序A2,由于未设置A2_RM_CKPT,检查点管理服务不为A2创建基于冗余模型的检查点管理多播组。
S63、检查点管理服务接收检查点管理请求。检查点管理请求包括检查点的创建、更新或删除请求。本实施例以应用程序A1、A2和A3向检查点管理服务发出创建检查点的请求为例进行说明。
S64、检查点管理服务判断应用程序是否存在基于冗余模型的检查点管理多播组;若存在,则执行步骤S65;否则,执行步骤S66。
S65、若存在基于冗余模型的多播组,则检查点管理服务将该应用程序的管理请求转发到该多播组中的所有节点;
对于A3,检查点管理服务判断该应用程序存在基于冗余模型的检查点管理多播组A3_CKPT_MC_GRP,则将A3发出的创建检查点的请求转发到多播组A3_CKPT_MC_GRP中的所有节点(即N1和N2)。
S66、若不存在基于冗余模型的多播组,则检查点管理服务将该应用程序的管理请求转发到默认多播组中的所有节点;
对于A1和A2,检查点管理服务判断该应用程序不存在基于冗余模型的检查点管理多播组,则将A1和A2发出的创建检查点的请求转发到预先为所有应用程序设置的默认多播组中的所有节点(即为集群内的所有节点)。
S67、接收到管理请求的节点在该节点上对该应用程序的检查点进行处理。
本实施例中,接收到检查点创建请求的节点在该节点上创建相应应用程序的检查点。
根据上述对本发明的描述可以看出,本发明在冗余模型涉及到的节点是整个集群总节点的一个真子集时,即,冗余模型涉及到的节点数小于集群内的总节点数,本发明才更加优越于其他现有技术。
通过以上流程描述可知,本发明通过在应用程序的冗余模型信息中设置是否基于冗余模型进行检查点管理的标志,并根据应用程序的冗余模型创建检查点管理多播组,实现基于冗余模型对检查点进行管理。由于基于冗余模型的检查点管理中,所有针对应用程序检查点的操作都只在冗余模型中与该应用程序相关的节点上进行,从而可减少对集群内物理资源(CPU和内存)的使用,减少管理检查点所消耗的时间,还可有效地减少管理检查点的开销。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1、一种集群内检查点的管理方法,其特征在于,包括:
获取应用程序的检查点管理标志;
判断所述检查点管理标志参数值,若所述检查点管理标志的参数值表明基于冗余模型对检查点进行管理时,则根据该应用程序的冗余模型,通过与该应用程序相关的节点进行多点通信管理该应用程序的检查点,所述冗余模型涉及到的节点数小于集群内的总节点数;否则,通过集群内的所有节点进行多点通信管理该应用程序的检查点。
2、如权利要求1所述的方法,其特征在于,所述检查点管理标志设置于集群内的所有或部分应用程序的冗余模型信息中。
3、如权利要求1所述的方法,其特征在于,所述通过与所述应用程序相关的节点进行多点通信,对所述应用程序的检查点进行管理,包括:
预先为被设置了基于冗余模型进行检查点管理标志的应用程序创建多播组,并在其中加入该应用程序冗余模型所涉及到的节点;
通过所述多播组在相应节点上管理所述应用程序的检查点。
4、如权利要求3所述的方法,其特征在于,当所述应用程序的冗余模型更新时,更新所述多播组中的相应节点。
5、如权利要求1所述的方法,其特征在于,通过与集群内的所有节点进行多点通信,对所述应用程序的检查点进行管理,包括:
预先设置默认多播组,并在其中加入集群内的所有节点;
通过所述默认多播组在集群内的所有节点上管理所述应用程序的检查点。
6、如权利要求3或5所述的方法,其特征在于,通过多播组管理应用程序的检查点,包括创建/更新或删除所述应用程序的检查点。
7、如权利要求6所述的方法,其特征在于,所述创建/更新应用程序检查点的步骤包括:
应用程序发出创建/更新检查点的请求;
集群管理系统判断是否存在根据该应用程序的冗余模型创建的检查点管理多播组,若是,则将检查点创建/更新请求转发到该多播组中的所有节点;否则,将检查点创建/更新请求转发到默认多播组中的所有节点;
收到检查点创建/更新请求的节点在该节点上创建/更新该应用程序的检查点。
8、如权利要求6所述的方法,其特征在于,所述删除应用程序检查点的步骤包括:
应用程序或集群管理系统发出删除检查点的请求;
集群管理系统判断是否存在根据该应用程序的冗余模型创建的检查点管理多播组,若是,则将检查点删除请求转发到该多播组中的所有节点;否则,将检查点删除请求转发到默认多播组中的所有节点;
收到检查点删除请求的节点删除该节点上的该应用程序的检查点。
CNB2006101097137A 2006-08-07 2006-08-07 一种集群内检查点的管理方法 Expired - Fee Related CN100546250C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006101097137A CN100546250C (zh) 2006-08-07 2006-08-07 一种集群内检查点的管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006101097137A CN100546250C (zh) 2006-08-07 2006-08-07 一种集群内检查点的管理方法

Publications (2)

Publication Number Publication Date
CN101123521A CN101123521A (zh) 2008-02-13
CN100546250C true CN100546250C (zh) 2009-09-30

Family

ID=39085709

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101097137A Expired - Fee Related CN100546250C (zh) 2006-08-07 2006-08-07 一种集群内检查点的管理方法

Country Status (1)

Country Link
CN (1) CN100546250C (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104025036B (zh) * 2011-12-30 2018-03-13 英特尔公司 低时延集群计算
US9671971B2 (en) * 2015-03-27 2017-06-06 Intel Corporation Managing prior versions of data for logical addresses in a storage device
CN107391335B (zh) * 2016-03-31 2021-09-03 阿里巴巴集团控股有限公司 一种用于检查集群健康状态的方法和设备
CN106776395B (zh) * 2017-01-22 2018-03-30 中国人民解放军国防科学技术大学 一种共享集群的任务调度方法及装置
CN112131034B (zh) * 2020-09-22 2023-07-25 东南大学 一种基于检测器位置的检查点软错误恢复方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一个适合大规模集群并行计算的检查点系统. 周恩强等.计算机发展与研究,第42卷第6期. 2005
一个适合大规模集群并行计算的检查点系统. 周恩强等.计算机发展与研究,第42卷第6期. 2005 *

Also Published As

Publication number Publication date
CN101123521A (zh) 2008-02-13

Similar Documents

Publication Publication Date Title
CN105549904B (zh) 一种应用于存储系统中的数据迁移方法及存储设备
RU2451991C1 (ru) Способ сохранения слияния виртуального порта и материальная среда
CN108234302B (zh) 保持网络装置用的分布式操作系统中的一致性
US20170063714A1 (en) System and Method for Network Function Virtualization Resource Management
CN105095317B (zh) 分布式数据库服务管理系统
CN109376197B (zh) 一种数据同步方法、服务器及计算机存储介质
CN100546250C (zh) 一种集群内检查点的管理方法
CN104199666A (zh) 一种应用程序动态配置方法及装置
Ho et al. A fast consensus algorithm for multiple controllers in software-defined networks
CN107454171B (zh) 消息服务系统及其实现方法
CN102317914A (zh) 虚拟资源管理方法、系统及装置
CN102314368A (zh) 更新服务器程序的配置数据的方法及设备
CN102497288A (zh) 一种双机备份方法和双机系统实现装置
US10097630B2 (en) Transferring data between sites
US7805503B2 (en) Capability requirements for group membership
Dustdar et al. Dynamic replication and synchronization of web services for high availability in mobile ad-hoc networks
CN109639773A (zh) 一种动态构建的分布式数据集群控制系统及其方法
KR101695012B1 (ko) 동적 노드 서비스 제공 방법 및 그 장치
CN115997190A (zh) 完全一致的高效非本地存储集群文件系统
CN103384882A (zh) 在服务器的共享组中管理使用权的方法
CN112087506B (zh) 一种集群节点管理方法、装置及计算机存储介质
CN101971144A (zh) 受系统资源影响的阶段式停机
CN104052799A (zh) 一种利用资源环实现高可用存储的方法
CN114615268B (zh) 基于Kubernetes集群的服务网络、监控节点、容器节点及设备
CN103164384A (zh) 多机系统共享内存的同步实现方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090930

Termination date: 20180807