CN102708023A - 备用系统计算器、集群系统、提供服务的方法和记录介质 - Google Patents

备用系统计算器、集群系统、提供服务的方法和记录介质 Download PDF

Info

Publication number
CN102708023A
CN102708023A CN2012100312536A CN201210031253A CN102708023A CN 102708023 A CN102708023 A CN 102708023A CN 2012100312536 A CN2012100312536 A CN 2012100312536A CN 201210031253 A CN201210031253 A CN 201210031253A CN 102708023 A CN102708023 A CN 102708023A
Authority
CN
China
Prior art keywords
service
data
current use
copy
computed device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100312536A
Other languages
English (en)
Other versions
CN102708023B (zh
Inventor
村田显宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN102708023A publication Critical patent/CN102708023A/zh
Application granted granted Critical
Publication of CN102708023B publication Critical patent/CN102708023B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Accessory Devices And Overall Control Thereof (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及备用系统计算器、集群系统、提供服务的方法和记录介质。备用系统计算器与用于保留服务相关数据的当前使用的系统计算器进行通信,通过使用该数据提供服务,在提供服务的同时更新数据。备用系统计算器包括保留器,用于保留数据的拷贝,以及提供器,用于在预定时间周期内没有接收到从当前使用的系统计算器发送给备用系统计算器的、表明当前使用的系统计算器正在进行操作的预定信号时,通过使用数据拷贝而同时限制更新保留器中数据拷贝的更新操作来提供服务。

Description

备用系统计算器、集群系统、提供服务的方法和记录介质
本申请基于2011年2月10日递交的第2011-027243号日本专利申请并要求以此作为优先权,其公开的全部内容以引用方式并入于此。
技术领域
本发明涉及在当前使用的系统计算器发生故障时接管由当前使用的系统计算器执行服务的备用系统计算器、集群系统、提供服务的方法和记录介质。
背景技术
为了缩短系统提供的服务停止期间的时间,已知包括多个能够提供相同服务的计算器的集群系统。
在集群系统中,当在执行应用程序和提供服务的当前使用的系统计算器中发生故障时,备用系统计算器通过接管应用程序的执行来接管服务。通过接管服务(服务的故障转移)可减少服务停止期间的时间周期。
当输出自当前使用的系统计算器的心跳(心跳分组)中断时,备用系统计算器判断在当前使用的系统计算器中是否发生故障。具体而言,备用系统计算器判断造成心跳中断的是通信故障(网络分割)还是当前使用的系统计算器中的故障。为了判断造成心跳中断的是通信故障或当前使用的系统计算器中的故障,要求在构成集群系统的计算器之间有多个物理上独立的通信线路。
即使心跳中断的原因是通信故障,如果备用系统计算器错误地判断心跳中断的原因为当前使用的系统计算器中的故障,则当前使用的系统计算器和备用系统计算器者两者都将提供服务。
在这种情况下,会产生由当前使用的系统计算器拥有的数据(基于执行服务而更新的数据)和由备用系统计算器拥有的数据(根据执行服务更新的数据)之间不能实现一致性的状态(裂脑(split brain))。
专利文献1(JP2006-146299)描述了在发生裂脑状态后在解决心跳中断时执行用于解决多个计算器中每一个的数据不一致的恢复过程的裂脑恢复方法。
在专利文献1中,描述了解决因裂脑导致的数据不一致的技术,然而,没有描述抑制裂脑状态发生的技术。
作为抑制裂脑状态发生的方法,提供在构成集群系统的计算器之间的多个物理上独立的通信线路、以及高精度地判断心跳中断的原因是通信故障还是当前使用的系统计算器中的故障的方法是可以想象的。
然而,该方法具有这样的问题,即要求构成集群系统的计算器之间的多个物理上独立的通信线路抑制裂脑状态的发生。该问题在备用系统计算器安装在远离当前使用的系统计算器安装位置的位置上以作为抑制故障的策略时尤为显著。
作为抑制裂脑状态发生的另一方法,操作者通过人工操作确认当前使用的系统计算器已经停止并继而将指令提提供备用系统以初始化故障转移的方法也是可以想象的。
然而,该方法具有这样的问题,即从当前使用的系统计算器停止操作时服务停止,直到操作者指示故障转移为止。
发明内容
本发明的目的是提供能够解决上述问题的备用系统计算器、集群系统、提供服务的方法和记录介质。
根据本发明的一个示例性方面,一种用于与保留服务相关数据的当前使用的系统计算器进行通信的备用系统计算器,所述当前使用的系统计算器通过使用数据提供服务,并且所述当前使用的系统计算器在提供服务的同时更新数据,备用系统计算器包括:
保留单元,用于保留数据的拷贝;以及
提供单元,用于在提供单元在预定时间周期内没有接收到从当前使用的系统计算器发送给备用系统计算器的预定信号时,通过使用数据拷贝而同时限制用于更新在所述保留单元中数据拷贝的更新操作来提供服务,所述预定信号表明当前使用的系统计算器正在进行操作。
根据本发明示例性的方面,一种在用于保留与服务相关的数据的当前使用的系统计算器进行通信的备用系统计算器中提供服务的方法,所述当前使用的系统计算器通过使用数据提供服务,并且所述当前使用的系统计算器在提供服务的同时更新数据,该方法包括:
在保留单元中保留数据的拷贝;以及
当备用系统计算器在预定时间周期内没有接收到从当前使用的系统计算器发送给备用系统计算器的预定信号时,通过使用数据拷贝而同时限制更新所述保留单元中数据拷贝的更新操作来提供服务,所述预定信号表明当前使用的系统计算器正在进行操作。
根据本发明示例性的方面,一种在其上具有用于使得用于保留与服务相关的数据的当前使用的系统计算器进行通信的计算机执行以下过程的程序的计算机可读记录介质,所述当前使用的系统计算器通过使用数据提供服务,所述当前使用的系统计算器在提供服务的同时更新数据,过程包括:
用于在保留单元中保留数据的拷贝的保留过程;以及
用于当所述计算机在预定时间周期内没有接收到从当前使用的系统计算器发送给备用系统计算器的预定信号时,通过使用数据拷贝而同时限制更新所述保留单元中数据拷贝的更新操作来提供服务的提供过程,所述预定信号表明当前使用的系统计算器正在进行操作。
从下列描述并参照描述本发明示例的附图,本发明的上述和其它目的、特征及优势将变得明显。
附图说明
图1是示出示例性实施方式的集群系统1的框图;
图2是示出在当前使用的系统计算器11处于正常状态时集群系统1的框图;
图3是示出在来自当前使用的系统计算器11的心跳分组中断的情况下集群系统1的框图;
图4是用于解释使用脚本101、102和103服务S的控制状态的示图;
图5是示出在备用系统计算器12中服务执行器32a的状态转换的示图;
图6是用于解释操作集群系统1的操作的流程图;以及
图7是示出集群系统1的经修改示例的框图。
具体实施方式
在下文中,将参照附图解释示例性实施方式。
图1是示出示例性实施方式的集群系统1的框图。
在图1中,集群系统1包括当前使用的系统计算器11和备用系统计算器12。当前使用的系统计算器11和备用系统计算器12可经由网络2相互通信。当前使用的系统计算器11和备用系统计算器12可经由网络2与客户终端13进行连接。例如,备用系统计算器12可安装在远离当前使用的系统计算器11的安装位置的位置上。
当前使用的系统计算器11包括保留与预先确定的服务S相关的数据11a1的保留器11a,以及提供器11b。提供器11b包括存储11b1和控制器11b2。控制器11b2包括集群控制器21a和服务执行器31a。
备用系统计算器12包括保留数据11a1的拷贝12a1的保留器12a,以及提供器12b。提供器12b包括存储12b1和控制器12b2。控制器12b2包括集群控制器22a和服务执行器32a。
首先,将解释当前使用的系统计算器11。
保留器11a例如是由计算机可读的记录介质的硬盘。记录介质不局限于硬盘,而是可以任意变换。
保留器11a中的数据11a1例如是服务S的客户数据(客户的姓名、年龄)。如果服务S是用于管理商品库存的服务,则数据11a1是示出商品库存的库存数据。数据11a1不局限于客户数据或库存数据,而是可以任意变换。
提供器11b通过使用保留器11a中的数据11a1提供服务S。
存储11b1是计算机可读的记录介质,并存储集群控制软件(集群控制程序)21和服务提供软件(服务提供程序)31。存储11b1可在保留器11a中提供。
例如,控制器11b2是作为计算机示例的CPU(中央处理单元)。
控制器11b2从存储11b1读取集群控制软件21,并执行软件以用作集群控制器21a。集群控制器21a是常驻的。
控制器11b2从存储器11b1读取服务提供软件31,并执行软件以用作服务执行器31a。当不提供服务S时,控制器11b2不执行服务提供软件31,并且不用作服务执行器31a。
服务执行器31a通过使用保留器11a中的数据11a1以将服务S提提供客户端终端13。在一些情况下服务执行器31a在提供服务S的同时还更新数据11a1。例如,如果服务S是库存管理服务,则数据11a1根据库存的变化进行更新。
集群控制器21a周期性地(例如,以10秒钟为间隔)将心跳分组发送给备用系统计算器12。心跳分组是指示当前使用的系统计算器11正在操作的预定信号的示例。心跳分组的传输间隔不局限于10秒,而是可以任意变换。
集群控制器21a通过服务执行器31a钩住(hook)用于更新数据11a1的进程,与数据11a1相似地,将保留器12a中数据的拷贝12a1进行更新(镜像)。集群控制器21a周期性地将数据11a1拷贝到保留器12a。集群控制器21a还周期性地将数据11a1和数据拷贝12a1之间的更新差异写入到保留器12a中。因此,数据11a1的拷贝12a1保留在保留器12a中。
接下来,将解释备用系统计算器12。
通常将保留器12a称为保留装置。
例如,保留器12a为硬盘。保留器12a保留当前使用的系统计算器11中由保留器11a保留的数据11a1的拷贝12a1。
通常将提供器12b称为提供装置。
在从当前使用的系统计算器11向备用系统计算器12发送的心跳分组不能被提供器12b在预定的时间周期(例如,90秒)内接收到,提供器12b通过使用数据拷贝12a1提供服务S,而同时限制更新保留器12a内数据拷贝12a1的更新操作。预定的时间周期不局限于90秒,而是可根据例如发送心跳分组的间隔和计算器与网络2的性能进行任意变换。
存储12b1是计算机可读存储介质,并存储集群控制软件(集群控制程序)22、服务提供软件(服务提供程序)32、脚本101、脚本102、和脚本103。服务提供软件32指定与服务提供软件31指定的过程相同的过程。可以在保留器12a中提供存储12b1。
例如,控制器12b2是CPU(中央控制单元)。
控制器12b2从存储12b1读取集群控制软件22,并执行软件以用作集群控制器22a。集群控制器22a是常驻的。
控制器12b2从存储12b1读取服务提供软件32,并执行软件以用作服务执行器32a。在不提供服务S时,控制器12b2不执行服务提供软件32,并且不用作服务执行器32a。
集群控制器22a从集群控制器21a接收周期性发送的心跳分组,由此监控当前使用的心跳计算器11的活动性/非活动性。
在示例性实施方式中,集群控制器22a监控从当前使用的系统计算器11发送给备用系统计算器12的心跳分组是否能在预定的时间周期(例如,90秒)内接收到。
如果由于当前使用的系统计算器11的操作停止或在当前使用的系统计算器11和备用系统计算器12之间的通信路径(例如,网络2)的故障,来自集群控制器21a的心跳分组不能被集群控制器22a在预定的时间周期内接收到,则集群控制器22a读取并执行存储12b1中的脚本101。
脚本101是用于使得集群控制器22a执行指令的程序,在指令中服务执行器32a执行通过使用保留器12a中的数据拷贝12a1启动具有功能限制的服务S的进程(在下文中,称为“第一进程”)。
在示例性实施方式中,在第一进程中,通过使用数据拷贝12a1提供服务S,而同时限制更新保留器12a中数据拷贝12a1的更新操作。例如,在第一进程中,启动服务S,而同时在备用系统计算器12中不更新数据拷贝12a1(仅用作参考),或将可更新部分限制到数据拷贝12a1的预定部分(例如,即使更新返回到原始状态也不影响服务S的范围)。
集群控制器22a执行脚本101,由此激活服务执行器32a,并使得服务执行器32a执行第一进程。
在下面的情况中:当前使用的系统计算器11没有停止,通信路径的故障恢复,并且来自集群控制器21a的心跳分组再次被集群控制器22a所接收,则集群控制器22a读取和执行存储12b1中的脚本102。
脚本102是用于使得集群控制器22a用于停止服务执行器32a的操作和将当前使用的系统计算器11中的数据11a1拷贝到保留器12a以更新保留器12a中的数据拷贝12a1的进程(在下文中,称为“第二进程”)的程序。
集群控制器22a通过执行脚本102来执行第二进程。当执行第二进程时,服务执行器32a停止操作,并且数据拷贝12a1成为最新的拷贝。
当操作者确认当前使用的系统计算器11停止、并执行用于取消关于备用系统计算器12的服务的功能限制的操作时,集群控制器22a接收取消更新操作的限制的指令。
当集群控制器22a接收到取消更新操作的限制的指令时,集群控制器22a读取并执行存储12b1中的脚本103。
脚本103是用于使得集群控制器22a执行指令的程序,在该指令中服务执行器32a执行用于取消更新操作的限制并用于使用数据拷贝12a1来提供服务S的进程(在下文中,称为“第三进程”)。
集群控制器22a通过执行脚本103使得服务执行器32a执行第三进程。因此,备用系统计算器12中的数据拷贝12a1用作母版(拷贝源)。
接下来,将描述集群系统1操作的要点。
当前使用的系统计算器11在正常状态下提供服务S。
在备用系统计算器12中,集群控制器22a接收从当前使用的系统计算器11中的集群控制器21a周期性发送的心跳分组,由此确认当前使用的系统计算器11的活动性。
图2是示出当前使用的系统计算器11处于正常状态时集群系统1的框图。在图2中,与图1中示出的配置具有相同配置的元件用相同的参考标号表示。
在当前使用的系统计算器11处于正常状态时,通过集群控制器21a和集群控制器22a将当前使用的系统计算器11中的服务执行器31a参考/更新的数据11a1拷贝到备用系统计算器12中的保留器12a中。
图3是示出集群系统1的框图,其中在集群系统1中来自当前使用的系统计算器11的心跳分组中断。在图3中,与图1中示出的配置具有相同配置的元件用相同的参考标号表示。
当来自当前使用的系统计算器11的心跳分组中断时,其中不能确认当前使用的系统计算器11的活动性时,集群控制器22a通过备用系统计算器12激活服务执行器32a。
服务执行器32a可以处于:停止状态、备用系统计算器12中数据更新受限制的状态、以及备用系统计算器12中数据更新不受限制的状态。
集群控制器22a执行描述用于执行在这些状态之间转换的进程的脚本101、102或103,由此控制服务执行器32a的状态转换。
图4是用于解释使用脚本101、102和103的服务S的控制状态的图。图5是示出备用系统计算器12中服务执行器32a的状态转换的图。
脚本101使得处于停止状态中的服务执行器32a经受到具有数据更新限制的激活状态的转换,脚本102使得处于具有数据更新限制的激活状态中的服务执行器32a经受到停止状态的转换,并且脚本103使得处于具有数据更新限制的激活状态中的服务执行器32a经受到没有数据更新限制的状态的转换。
接下来,将解释集群系统1的操作。
图6是用于解释集群系统1的操作的流程图。
备用系统计算器12中的集群控制器22a判断来自当前使用的系统计算器11是否已经中断(步骤S601)。
当来自当前使用的计算器11的心跳分组中断时,集群控制器22a执行脚本101(步骤S602)。在执行脚本101的同时,服务执行器32a启动处于备份系统计算器12中的数据拷贝12a1的更新受限的状态的服务S,其中,例如不更新数据拷贝12a1(仅用作参考),或将数据拷贝12a1的可更新部分限制到即使更新返回到原始状态也不导致问题的范围内。
继而,集群控制器22a判断是否已经恢复接收心跳分组(步骤S603)。
当恢复接收心跳分组时,认为当前使用的系统计算器11并未停止,并且认为是由于通信故障而导致心跳分组中断;从而,集群控制器22a执行脚本102(步骤S604)。
在执行脚本102的同时,集群控制器22a停止操作服务执行器32a。此外,集群控制器22a将当前使用的系统计算器11中的数据11a1拷贝到备用系统计算器12中的保留器12a以再次将两个系统中的数据进行匹配(S605)。
在将当前使用的系统计算器11中的数据11a1拷贝到备用系统计算器12中的保留器12a时,集群控制器22a返回到步骤S601,并且基于心跳分组的接收恢复当前使用的系统的活动性/非活动性监控。
另一方面,如果在步骤S603中没有恢复心跳,则集群控制器22a判断操作者是否已执行取消功能限制的操作(步骤S606)。
当操作者执行操作以取消功能限制时,集群控制器22a执行脚本103(步骤S607)。在执行脚本103的同时,集群控制器22a取消关于服务的功能限制,并将服务执行器32a的状态转换至提供与当前使用的系统计算器的服务类似的服务S的状态。
另一方面,当操作者不执行操作以取消步骤S606中的功能限制时,集群控制器22a返回到步骤S603。
接下来,将解释示例性实施方式的效果。
在示例性实施方式中,在确认心跳(心跳分组)中断时,将服务执行器32a的功能限制到即使中断是由通信故障导致的也不会导致问题的范围内,并且服务由备用系统计算器12自动地激活。因此,可以缩短服务完全停止的持续时间。
同样,在恢复通信故障时,由备用系统计算器12提供的服务可自动终止,以将集群系统1的状态返回到正常状态。
当脚本用于控制服务时,系统可用作作为独立于服务的执行的集群基本功能的一般用途。
根据示例性实施方式,保留器12a保留由当前使用的系统计算器11所拥有的数据11a1的拷贝12a1。当在预定的时间周期不能接收到从当前使用的系统计算器11发送给备用系统分组12的心跳分组时,提供器12b通过使用数据拷贝12a1提供服务S,同时限制用于更新保留器12a中数据拷贝12a1的更新操作。
由于提供器12b限制更新保留器12a中数据拷贝12a1的更新操作,可在不需要构成集群系统的计算器之间的多个物理上独立的通信线路的情况下抑制裂脑状态的发生。如果不能在预定的时间周期内接收心跳分组,提供器12b提供服务S,但服务S具有限制。因此,可缩短服务S完全停止的持续时间。
在示例性实施方式中,在不能在预定时间范围内接收到心跳分组时,提供器12b通过使用数据拷贝12a1提供服务,同时限制保留器12a中数据拷贝12a1的更新。在这种情况下,可禁止裂脑状态的发生。
在示例性实施方式中,当在提供服务后接收到取消限制更新操作的指令时,提供器12b取消关于更新操作的限制,并通过使用数据拷贝12a1提供服务。
在这种情况下,可取消关于更新操作的限制。
在示例性实施方式中,当在提供服务后接收到心跳分组时,提供器12b将当前使用的系统计算器11中的数据11a1拷贝到保留器12a中以更新保留器12a中的数据拷贝。
在这种情况下,在通信故障(网络分割)恢复的同时,集群系统1可自动返回到正常状态。
在上述示例性实施方式中,如图7所示,在服务执行器32a的激活/停止控制中,集群控制器22a可以关于来自服务执行器32a的数据拷贝控制访问,以允许服务执行器32a仅参考数据拷贝12a1,并允许通过操作者的人工操作更新数据,而不限制更新数据的功能。
在上述示例性实施方式中,所例示的配置仅为示例,而本发明并不局限于这些配置。
本发明效果的一个示例是可缩短服务完全停止的时间周期,而同时在不需要构成集群系统的计算器之间的多个物理上独立的通信线路的情况下抑制裂脑状态的发生。
尽管参照其示例性实施方式特定地示出和描述了本发明,但是本发明并不限于这些实施方式。本领域技术人员容易理解在不偏离由权利要求限定的本发明精神和范围的前提下,可以对其中的形式和细节进行各种改变。

Claims (7)

1.一种用于与保留服务相关数据的当前使用的系统计算器进行通信的备用系统计算器,所述当前使用的系统计算器通过使用所述数据提供所述服务,并且所述当前使用的系统计算器在提供所述服务的同时更新数据,所述备用系统计算器包括:
保留单元,用于保留所述数据的拷贝;以及
提供单元,用于在所述提供单元在预定时间周期内没有接收到从所述当前使用的系统计算器发送给所述备用系统计算器的预定信号时,通过使用所述数据的所述拷贝而同时限制用于更新在所述保留单元中的所述数据的所述拷贝的更新操作来提供所述服务,所述预定信号表明所述当前使用的系统计算器正在进行操作。
2.根据权利要求1所述的备用系统计算器,其中
当所述提供单元在预定时间周期内没有接收到所述预定信号时,所述提供单元通过使用所述数据拷贝而同时禁止更新操作来提供所述服务。
3.根据权利要求1所述的备用系统计算器,其中
当所述提供单元在提供所述服务后接收到取消更新操作限制的指令时,所述提供单元取消关于所述更新操作的所述限制,并通过使用所述数据的所述拷贝来提供所述服务。
4.根据权利要求1所述的备用系统计算器,其中
当所述提供单元在提供所述服务后接收到所述预定信号时,所述提供单元将所述当前使用的系统计算器中的所述数据拷贝到所述保留单元中以便更新所述保留单元中所述数据的所述拷贝。
5.一种包括根据权利要求1的备用系统计算器和当前使用的系统计算器的集群系统。
6.一种在用于保留与服务相关的数据的当前使用的系统计算器进行通信的备用系统计算器中提供服务的方法,所述当前使用的系统计算器通过使用所述数据提供所述服务,并且所述当前使用的系统计算器在提供所述服务的同时更新所述数据,所述方法包括:
在保留单元中保留所述数据的拷贝;以及
当所述备用系统计算器在预定时间周期内没有接收到从所述当前使用的系统计算器发送给所述备用系统计算器的预定信号时,通过使用所述数据的所述拷贝而同时限制用于更新在所述保留单元中的所述数据的所述拷贝的更新操作来提供服务,所述预定信号表明所述当前使用的系统计算器正在进行操作。
7.一种在其上具有用于使得用于保留与服务相关的数据的当前使用的系统计算器进行通信的计算机执行以下过程的程序的计算机可读记录介质,所述当前使用的系统计算器通过使用所述数据提供所述服务,并且所述当前使用的系统计算器在提供服务的同时更新数据,过程包括:
用于在保留单元中保留所述数据的拷贝的保留过程;以及
用于当所述计算机在预定时间周期内没有接收到从所述当前使用的系统计算器发送给所述备用系统计算器的预定信号时,通过使用所述数据的所述拷贝而同时限制用于更新在所述保留单元中的所述数据的所述拷贝的更新操作来提供服务的提供过程,所述预定信号表明当前使用的系统计算器正在进行操作。
CN201210031253.6A 2011-02-10 2012-02-09 备用系统计算器、集群系统、提供服务的方法和记录介质 Expired - Fee Related CN102708023B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-027243 2011-02-10
JP2011027243A JP5699658B2 (ja) 2011-02-10 2011-02-10 待機系計算機、クラスタシステム、サービス提供方法およびプログラム

Publications (2)

Publication Number Publication Date
CN102708023A true CN102708023A (zh) 2012-10-03
CN102708023B CN102708023B (zh) 2016-01-20

Family

ID=45655268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210031253.6A Expired - Fee Related CN102708023B (zh) 2011-02-10 2012-02-09 备用系统计算器、集群系统、提供服务的方法和记录介质

Country Status (4)

Country Link
US (1) US8977840B2 (zh)
EP (1) EP2487592B1 (zh)
JP (1) JP5699658B2 (zh)
CN (1) CN102708023B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102088B2 (en) 2013-12-25 2018-10-16 Nec Solution Innovators, Ltd. Cluster system, server device, cluster system management method, and computer-readable recording medium
US10628273B2 (en) 2015-01-30 2020-04-21 Nec Corporation Node system, server apparatus, scaling control method, and program
JP6434385B2 (ja) * 2015-08-11 2018-12-05 日本電信電話株式会社 更新システム、更新方法、および更新プログラム
US10409697B2 (en) * 2017-02-23 2019-09-10 Salesforce.Com, Inc. Automated self-healing database system and method for implementing the same

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050005001A1 (en) * 2003-03-28 2005-01-06 Hitachi, Ltd. Cluster computing system and its failover method
CN1794198A (zh) * 2004-12-20 2006-06-28 日本电气株式会社 容错双工计算机系统及其控制方法
CN101112070A (zh) * 2005-01-28 2008-01-23 诺基亚西门子通信有限责任两合公司 用于将分组地址分配给多个设备的方法和装置
CN101291243A (zh) * 2007-04-16 2008-10-22 广东省新支点技术服务有限公司 高可用集群系统的裂脑预防方法
CN101300780A (zh) * 2005-10-31 2008-11-05 瑞典福拓信息系统有限公司 高可靠性网络系统
US20110161724A1 (en) * 2009-12-25 2011-06-30 Canon Kabushiki Kaisha Data management apparatus, monitoring apparatus, replica apparatus, cluster system, control method and computer-readable medium
US20110173233A1 (en) * 2010-01-13 2011-07-14 Fujitsu Limited Database system and database control method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63286901A (ja) 1987-05-20 1988-11-24 Fujitsu Ltd 現用/予備系の切替制御方式
US6163856A (en) * 1998-05-29 2000-12-19 Sun Microsystems, Inc. Method and apparatus for file system disaster recovery
US20040034807A1 (en) * 2002-08-14 2004-02-19 Gnp Computers, Inc. Roving servers in a clustered telecommunication distributed computer system
JP3910967B2 (ja) 2004-03-12 2007-04-25 東芝ソリューション株式会社 2重化システム及び多重化制御方法
US7512830B2 (en) * 2004-05-14 2009-03-31 International Business Machines Corporation Management module failover across multiple blade center chassis
JP2006146299A (ja) * 2004-11-16 2006-06-08 Nec Corp スプリットブレインリカバリ方式、スプリットブレインリカバリ方法およびプログラム
US7962458B2 (en) * 2008-06-12 2011-06-14 Gravic, Inc. Method for replicating explicit locks in a data replication engine
JP5278540B2 (ja) * 2009-03-30 2013-09-04 富士通株式会社 オペレーションシステムのデータ管理方法及びサーバ
JP5455491B2 (ja) 2009-07-29 2014-03-26 大豊工業株式会社 軸受装置
US8407182B1 (en) * 2011-01-21 2013-03-26 Symantec Corporation Systems and methods for facilitating long-distance live migrations of virtual machines

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050005001A1 (en) * 2003-03-28 2005-01-06 Hitachi, Ltd. Cluster computing system and its failover method
CN1794198A (zh) * 2004-12-20 2006-06-28 日本电气株式会社 容错双工计算机系统及其控制方法
CN101112070A (zh) * 2005-01-28 2008-01-23 诺基亚西门子通信有限责任两合公司 用于将分组地址分配给多个设备的方法和装置
CN101300780A (zh) * 2005-10-31 2008-11-05 瑞典福拓信息系统有限公司 高可靠性网络系统
CN101291243A (zh) * 2007-04-16 2008-10-22 广东省新支点技术服务有限公司 高可用集群系统的裂脑预防方法
US20110161724A1 (en) * 2009-12-25 2011-06-30 Canon Kabushiki Kaisha Data management apparatus, monitoring apparatus, replica apparatus, cluster system, control method and computer-readable medium
US20110173233A1 (en) * 2010-01-13 2011-07-14 Fujitsu Limited Database system and database control method

Also Published As

Publication number Publication date
EP2487592B1 (en) 2013-06-26
JP2012168623A (ja) 2012-09-06
JP5699658B2 (ja) 2015-04-15
EP2487592A1 (en) 2012-08-15
CN102708023B (zh) 2016-01-20
US8977840B2 (en) 2015-03-10
US20120210117A1 (en) 2012-08-16

Similar Documents

Publication Publication Date Title
CN108616382B (zh) 升级网卡固件的方法、装置、网卡和设备
JP4940967B2 (ja) ストレージシステム、ストレージ装置、ファームウェアの活性交換方法、ファームウェアの活性交換プログラム
CN102541686B (zh) 一种使用虚拟机来实现系统的备份以及灾难恢复的方法
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
KR20110044858A (ko) 데이터 센터들에 걸쳐 데이터 서버들내 데이터 무결정의 유지
JP4341571B2 (ja) 記憶装置システムおよびその制御方法、制御プログラム
CN101996083A (zh) 一种镜像升级的方法和装置
CN106469069B (zh) 一种版本升级方法及系统
CN104320475A (zh) 一种设备升级方法及装置
CN102708023B (zh) 备用系统计算器、集群系统、提供服务的方法和记录介质
CN105426213A (zh) 软件更新方法和系统
CN112477919A (zh) 一种适用于列车控制系统平台的动态冗余备份方法及系统
JP2011253408A (ja) サーバシステム及びそのbios復旧方法
CN109324549B (zh) 一种双主控设备配置方法及双主控设备
CN101197709A (zh) 对电信设备进行升级的方法及系统
TW202105217A (zh) 電子設備、可遠端維護電子設備運作的系統及方法
JP2008217201A (ja) 自動アップデート方法
JP2007286952A (ja) サーバシステム、サーバ負荷低減方法
JP3447347B2 (ja) 障害検出方法
CN109189444A (zh) 一种服务器虚拟化系统的管理节点的升级控制方法及装置
CN101420329B (zh) 通信系统升级的方法及通信系统
JP6554801B2 (ja) 冗長通信装置及びその制御方法
CN111338847A (zh) 一种可自动恢复的服务器管理方法、系统及相关设备
CN113741248B (zh) 一种边缘计算控制器和控制系统
JP7013988B2 (ja) 制御装置、制御方法、制御プログラム、及び制御システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20220209