CN104427002A - 集群系统及用于在集群系统中提供服务可用性的方法 - Google Patents

集群系统及用于在集群系统中提供服务可用性的方法 Download PDF

Info

Publication number
CN104427002A
CN104427002A CN201410455215.2A CN201410455215A CN104427002A CN 104427002 A CN104427002 A CN 104427002A CN 201410455215 A CN201410455215 A CN 201410455215A CN 104427002 A CN104427002 A CN 104427002A
Authority
CN
China
Prior art keywords
physical server
virtual machine
server
log
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410455215.2A
Other languages
English (en)
Other versions
CN104427002B (zh
Inventor
朴诚美
李光炫
崔光民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung SDS Co Ltd
Original Assignee
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung SDS Co Ltd filed Critical Samsung SDS Co Ltd
Publication of CN104427002A publication Critical patent/CN104427002A/zh
Application granted granted Critical
Publication of CN104427002B publication Critical patent/CN104427002B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1425Reconfiguring to eliminate the error by reconfiguration of node membership
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45575Starting, stopping, suspending or resuming virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/85Active fault masking without idle spares
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种集群系统及用于在集群系统中提供服务可用性的方法。所述集群系统包括注册有活动(active)虚拟机的第一物理服务器;及多个物理服务器,所述多个物理服务器包括对应于所述活动虚拟机且注册有在所述第一物理服务器发生故障时对所述活动虚拟机进行故障转移(failover)的备用(standby)虚拟机的第二物理服务器,在发生所述故障时,所述多个物理服务器中的每个存储故障后(post-failure)的注册信息,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,所述一个物理服务器与所述第二物理服务器不同。

Description

集群系统及用于在集群系统中提供服务可用性的方法
技术领域
本发明涉及一种用于在集群系统中提供服务可用性的方法,更具体地讲,涉及一种在集群系统中基于虚拟化环境提供高水平的服务可用性的方法及其集群系统。
背景技术
在提供服务的计算机环境中,存在多种高可用性(High Availability:HA)技术以减少因发生物理故障(failure)而无法利用服务的停机时间(downtime)。例如,包括被连接为能够进行通信的多个服务器计算机的集群(cluster)系统提供预定服务的活动(active)服务器和所述活动服务器产生故障时用于恢复服务的备用(standby)服务器。
如上所述,在活动服务器发生故障的情况下,在备用服务器进行故障转移(failover)的期间,系统的管理员通过掌握在活动服务器中发生的故障的主要原因来修复活动服务器或者代替为新的服务器。
[现有技术文献]
[专利文献]
第930576号韩国授权专利
发明内容
如前述的HA技术,在活动服务器和备用服务器成为冗余的情况下,如果在备用服务器发生故障之后,在管理员对所述故障采取措施之前在活动服务器发生故障,则无法持续由活动服务器提供的服务。
此外,如果表示这种活动服务器和备用服务器的冗余的信息不准确,则在活动服务器发生故障时备用服务器无法正常进行故障转移。
公开的实施例涉及一种在包括多个物理服务器的集群系统中基于虚拟化环境(virtualized environment)提供高水平的服务可用性的方法,无论集群系统中的哪个物理服务器发生故障,也使得活动虚拟机和与其对应的备用虚拟机的对(pair)存在,进而可将表示这种对的信息基于物理服务器的可用资源来进行更新。
根据一个实施例,提供一种集群系统,所述集群系统包括:注册有活动(active)虚拟机的第一物理服务器;及多个物理服务器,所述多个物理服务器包括对应于所述活动虚拟机且注册有在所述第一物理服务器发生故障时对所述活动虚拟机进行故障转移(failover)的备用(standby)虚拟机的第二物理服务器,在发生所述故障时,所述多个物理服务器中的每一个存储故障后(post-failure)的注册信息,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,所述一个物理服务器与所述第二物理服务器不同。
根据所述集群系统的一方面,为了构成所述故障后的注册信息,所述一个物理服务器基于与所述多个物理服务器中的与所述第二物理服务器不同的物理服务器中的每一个的可用资源,从与所述第二物理服务器不同的所述物理服务器中被选择。
根据所述集群系统的一方面,所述活动虚拟机根据所述故障后的注册信息被注册到所述一个物理服务器。
根据所述集群系统的一方面,所述故障后的注册信息将注册到所述第一物理服务器的其他的备用虚拟机与所述多个物理服务器中的另一个物理服务器关联起来,所述另一个物理服务器与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的物理服务器不同。
根据所述集群系统的一方面,为了构成所述故障后的注册信息,所述另一个物理服务器基于所述多个物理服务器中的与注册有所述其他的活动虚拟机的物理服务器不同的物理服务器中的每一个的可用资源,从与注册有所述其他的活动虚拟机的物理服务器不同的所述物理服务器中被选择。
根据所述集群系统的一方面,所述其他的备用虚拟机根据所述故障后的注册信息被注册到所述另一个物理服务器。
根据所述集群系统的一方面,在发生所述故障之前,所述第一物理服务器及所述多个物理服务器中的每一个存储故障前(pre-failure)的注册信息,所述故障后的注册信息通过更新所述故障前的注册信息来构成,所述故障前的注册信息表示在发生所述故障之前注册到所述第一物理服务器及所述多个物理服务器中的每一个的虚拟机。
根据所述集群系统的一方面,在发生所述故障之前,可基于所述第一物理服务器的状态及所述多个物理服务器中的每一个的状态而变更所述故障前的注册信息。
根据所述集群系统的一方面,所述故障前的注册信息还表示所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源。
根据所述集群系统的一方面,所述故障前的注册信息的变更在所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源中的至少一个的变化量为临界值以上的情况下执行。
根据其他的实施例,提供一种服务可用性提供方法,所述方法用于在集群系统中提供服务可用性,包括如下步骤:在注册有活动虚拟机的第一物理服务器中发生故障时,使得注册到多个物理服务器中的第二物理服务器并与所述活动虚拟机对应的备用虚拟机对所述活动虚拟机进行故障转移;在发生所述故障时,将故障后的注册信息存储到所述多个物理服务器中的每一个,其中,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,所述一个物理服务器与所述第二物理服务器不同。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:为了构成所述故障后的注册信息,所述一个物理服务器基于所述多个物理服务器中的与所述第二物理服务器不同的物理服务器中的每一个的可用资源,从与所述第二物理服务器不同的所述物理服务器中被选择。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:将所述活动虚拟机注册到所述一个物理服务器。
根据所述服务可用性提供方法的一方面,所述故障后的注册信息还将注册到所述第一物理服务器的其他的备用虚拟机与所述多个物理服务器中的另一个物理服务器关联起来,所述另一个物理服务器与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的物理服务器不同。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:为了构成所述故障后的注册信息,所述另一个物理服务器基于所述多个物理服务器中的与注册有所述其他的活动虚拟机的物理服务器不同的物理服务器中的每一个的可用资源,从与注册有所述其他的活动虚拟机的物理服务器不同的所述物理服务器中被选择。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:所述其他的备用虚拟机根据所述故障后的注册信息被注册到所述另一个物理服务器。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:在发生所述故障之前,所述第一物理服务器及所述多个物理服务器中的每一个存储故障前的注册信息;通过更新所述故障前的注册信息来构成所述故障后的注册信息,其中,所述故障前的注册信息表示在发生所述故障之前注册到所述第一物理服务器及所述多个物理服务器中的每一个的虚拟机。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:在发生所述故障之前,可基于所述第一物理服务器的状态及所述多个物理服务器中的每一个的状态而变更所述故障前的注册信息。
根据所述服务可用性提供方法的一方面,所述故障前的注册信息还表示所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源。
根据所述服务可用性提供方法的一方面,所述故障前的注册信息的变更在所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源中的至少一个的变化量为临界值以上的情况下执行。
根据其他的实施例,提供一种服务器计算机,所述服务器计算机包括处理器及存储器,所述存储器包括:注册信息,表示注册到包括所述服务器计算机的多个服务器计算机及其他的服务器计算机中的每一个的虚拟机;备用虚拟机,与注册到所述其他的服务器计算机的活动虚拟机对应;及计算机可执行命令,在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:响应于判定所述其他服务器计算机发生故障,所述备用虚拟机对所述活动虚拟机进行故障转移;响应于所述判定,执行更新所述注册信息,其中,更新的所述注册信息将所述活动虚拟机与所述多个服务器计算机中的一个服务器计算机关联起来,所述一个服务器计算机与所述服务器计算机不同。
根据所述服务器计算机的一方面,在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:为了更新所述注册信息,基于所述多个服务器计算机中的与所述服务器计算机不同的服务器计算机中的每一个的可用资源,从与所述服务器计算机不同的服务器计算机中选择所述一个服务器计算机。
根据所述服务器计算机的一方面,所述其他的服务器计算机还注册有其他的备用虚拟机,更新的所述注册信息也将所述其他的备用虚拟机与所述多个服务器计算机中的另一个服务器计算机关联起来,所述另一个服务器计算机与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的服务器计算机不同。
根据所述服务器计算机的一方面,在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:为了更新所述注册信息,基于所述多个服务器计算机中的与注册有所述其他的活动虚拟机的服务器计算机不同的服务器计算机中的每一个的可用资源,从与注册有所述其他的活动虚拟机的服务器计算机不同的服务器计算机中选择所述另一个服务器计算机。
根据所述服务器计算机的一方面,在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:在发生所述故障之前,可基于所述多个服务器计算机中的每一个的状态及所述其他的服务器计算机的状态而变更所述注册信息。
根据所述服务器计算机的一方面,所述注册信息还表示所述其他的服务器计算机的可用资源及所述多个服务器计算机中的每一个的可用资源。
根据所述服务器计算机的一方面,变更所述注册信息的操作在所述多个服务器计算机中的每一个的可用资源及所述其他的服务器计算机的可用资源中的至少一个的变化量为临界值以上的情况下执行。
根据本发明的多个实施例的其他具体事项在以下的详细说明及附图中被揭示。
根据预定的实施例,包括多个物理服务器的集群系统中提供更高的服务可用性,因此可最小化在集群系统中的任一物理服务器发生故障时的服务的停机时间。
附图说明
图1示出根据本发明的实施例的包括多个服务器计算机的集群(cluster)系统;
图2示出本发明的实施例中的包含于物理服务器中的信息表的示例;
图3是示出根据本发明的实施例而在集群系统中提供服务可用性的过程的顺序图。
符号说明:
100:集群系统
110、120、130、140:物理服务器
111、121、131、141:活动虚拟机
112、122、132、142;备用虚拟机
116、126、136、146;信息表
具体实施方式
以下,将参照附图对本发明的具体实施方式进行描述。然而,这只不过是示例,并且本发明不限于此。
在对本发明进行描述时,在对与本发明相关的公知技术的具体描述被认为是会使本发明的主旨不清楚的情况下,省略其详细描述。并且,后述的术语作为考虑本发明中的功能而定义的术语,可根据使用者、运用者的意图或者惯例等而不同。因此,其定义应基于贯穿整个本说明书的内容而做出。
本发明的技术构思由权利要求书确定,并且以下的实施例只是用于有效地将本发明的技术思想解释给本发明所属的技术领域中具有普通的知识的技术人员的一种方式而已。
图1示出根据本发明的实施例的包括多个服务器计算机的集群(cluster)系统。
如图1所示,示例性的集群系统100包括第一物理服务器110、第二物理服务器120、第三物理服务器130及第四物理服务器140。各个物理服务器110、120、130、140被连接为能够通过网络180进行通信。例如,各个物理服务器110、120、130、140可通过网络180相互交换包含表示各自的状态的信息的信号(例如,心跳(heartbeat)信号)。网络180可以是环(ring)型、星(star)型、总线(bus)型、网(mesh)型或树(tree)型,但这毕竟是示例性的。
作为计算装置的各个物理服务器110、120、130、140包括:一个以上的处理器、一个以上的存储器、一个以上的存储装置(例如,硬盘驱动器)、一个以上的网络接口及一个以上的输入输出适配器之类的硬件。存储器可包括计算机可执行的命令,处理器可执行存储于存储器中的命令。在存储于存储器中的命令由处理器执行的情况下可执行根据以下记载的实施例的操作。
各个物理服务器110、120、130、140可提供虚拟化环境。例如,各个物理服务器110、120、130、140可注册有虚拟机(Virtual Machine:VM)。各个注册的虚拟机被分配有虚拟化的CPU、存储器等的资源。此外,各个物理服务器110、120、130、140包括用于运行虚拟机的软件、固件和/或操作系统组件。从而,存储于各个物理服务器110、120、130、140的存储器中的虚拟机可被运行。
根据预定的实施例,在集群系统100中基于虚拟化环境提供供高水平的服务可用性。如图1所示,在集群系统100中正常工作中的物理服务器110、120、130、140中的每个包括至少一个活动(active)虚拟机111、121、131、141。例如,活动虚拟机111、121、131、141中的每个根据复制(replication)/反射(mirroring)到与自己对应的备用(standby)虚拟机112、122、132、142的方式而被备份(backup),从而活动虚拟机111、121、131、141和备用虚拟机112、122、132、142可同步。与各个活动虚拟机111、121、131、141对应的备用虚拟机112、122、132、142位于与包括活动虚拟机111、121、131、141的物理服务器不同的物理服务器。作为一个示例,与第一物理服务器110的第一活动虚拟机111对应的第一备用虚拟机122包含于第二物理服务器120。
可在各个物理服务器110、120、130、140中存储表示包含于该物理服务器110、120、130、140的虚拟机的注册信息。换句话说,注册到各个物理服务器110、120、130、140的虚拟机被记录于这样的注册信息中。因此,该注册信息可用于在集群系统100中确认注册到某个物理服务器的虚拟机是什么或者注册有某个虚拟机的物理服务器是什么。
在另一方面,该注册信息可用于将其他的虚拟机添加到各个物理服务器110、120、130、140或者删除现有的虚拟机。例如,在各个物理服务器110、120、130、140的注册信息被改变/更新之后,物理服务器110、120、130、140中的至少一个可根据这样的注册信息将之前没有注册的虚拟机注册到自身上。
包含于各个物理服务器110、120、130、140的注册信息可以是表形态。根据图1,物理服务器110、120、130、140中的每个包括信息表116、126、136、146。信息表116、126、136、146可被构成为都包括相同的信息。
图2示出本发明的实施例中的包含于物理服务器中的信息表的示例。
示例性的信息表200包括用于识别物理服务器的信息210及用于识别包含于各个物理服务器中的虚拟机的信息220。信息表200还可包括用于识别与由信息220识别的虚拟机对应的虚拟机所在的物理服务器的信息230。
例如,信息表200可被构成为如下。以下举例示出的信息表200在图1中所示的集群系统100中可被用作包含于各个物理服务器110、120、130、140中的信息表116、126、136、146。
信息210(即,名为“物理服务器”的标题的列)表示集群系统100的第一物理服务器110、第二物理服务器120、第三物理服务器130及第四物理服务器140。
信息220(即,名为“虚拟机(VM)”的标题的列)表示注册到由信息210识别的各个物理服务器的虚拟机。具体地讲,信息220将第一活动虚拟机111及第四备用虚拟机112与第一物理服务器110关联起来而表示,将第二活动虚拟机121及第一备用虚拟机122与第二物理服务器120关联起来而表示,将第三活动虚拟机131及第二备用虚拟机132与第三物理服务器130关联起来而表示,将第四活动虚拟机141及第三备用虚拟机142与第四物理服务器140关联起来而表示。
信息230(即,名为“对应的虚拟机所在的物理服务器”的标题的列)表示包含与由信息220表示的虚拟机对应的虚拟机的物理服务器。例如,与第一活动虚拟机111同步的第一备用虚拟机122包含于第二物理服务器120,信息230将第二物理服务器120与第一活动虚拟机111关联起来而表示。作为另一示例,与第四备用虚拟机112同步的第四活动虚拟机141包含于第四物理服务器140,信息230将第四物理服务器140与第四备用虚拟机112关联起来而表示。以同样的方式,信息230是与包含于信息220中的其他虚拟机关联起来而表示预定的物理服务器。
此外,信息表200可包括表示信息210所表示的物理服务器的可用资源的信息(未示出)。例如,预定的物理服务器的可用资源可包括该物理服务器可用的CPU和/或存储器。
信息表200可变更。在信息表200变更的情况下,物理服务器110、120、130、140中的至少一个可根据变更的信息表200将之前没有注册到自身上的虚拟机注册到自身上。
信息表200在第一物理服务器110、第二物理服务器120、第三物理服务器130及第四物理服务器140中的任意一个生成和/或变更之后,可被提供到其余的物理服务器。生成和/或变更信息表200的物理服务器可动态变更。例如,如果第一物理服务器110在负责信息表200的变更的过程中在第一物理服务器110中发生故障,则至少一个其他的物理服务器(例如,第二物理服务器120)可负责信息表200的变更。与此不同,信息表200的生成和/或变更可由物理服务器110、120、130、140中的每个分别执行。
此外,如图2中所示,生成的信息表200可基于各个物理服务器110、120、130、140的状态而变更。表示各个物理服务器110、120、130、140的状态的信息可被包含于各个物理服务器110、120、130、140发送的信号(例如,各个物理服务器110、120、130、140可周期性地发送的心跳信号)中。例如,假设由第一物理服务器110负责信息表200的变更。第二物理服务器120、第三物理服务器130及第四物理服务器140中的每个可发送心跳信号,第一物理服务器110可变更信息表200,以基于包含于各个心跳信号的物理服务器的状态及自身的状态来再分配包含于物理服务器110、120、130、140中的全部或者一部分的虚拟机。进而,第二物理服务器120、第三物理服务器130及第四物理服务器140中的每个可将关于自己的可用资源的信息与心跳信号一起进行发送。在这种情况下,第一物理服务器110可基于各个物理服务器110、120、130、140的可用资源信息来变更信息表200。
信息表200变更的时间点可根据预定的策略来确定。例如,为了防止由于信息表200过于频繁地更新而导致的开销,可在各个物理服务器110、120、130、140的可用资源中的至少一个的变化量为临界值(例如,现有的可用资源的10%)以上的情况下变更信息表200。
再次参照图1,来说明在集群系统100中的预定物理服务器发生故障时提供服务可用性的方法。
将在注册有第一活动虚拟机111的第一物理服务器110中发生故障的情况为例。假设在发生故障之前存储于各个物理服务器110、120、130、140的信息表116、126、136、146包含图2中所示的信息表200。
在第一物理服务器110发生故障的情况下,第一备用虚拟机122对第一活动虚拟机111进行故障转移(failover)。这样的故障转移可参照信息表116、126、136、146而揭示。根据信息表116、126、136、146,集群系统100的第二物理服务器120注册有与第一活动虚拟机111对应的第一备用虚拟机122。例如,第二物理服务器120通过感测没有来自第一物理服务器110的针对从第二物理服务器120发送的心跳信号的响应,来判定在第一物理服务器110中发生故障。此外,第二物理服务器120参照自己的信息表126使得第一备用虚拟机122对第一活动虚拟机111进行故障转移。
如上所述,如果第一备用虚拟机122对第一活动虚拟机111进行故障转移,则原本由第一活动虚拟机111提供的服务被转移到第一备用虚拟机122,从而由第一备用虚拟机122来进行恢复。
此外,在第一物理服务器110发生故障时,信息表200被更新/重新构成。执行这样的更新以使注册在发生故障的第一物理服务器110中的虚拟机被适当地再分配到其余的物理服务器120、130、140。通过第一备用虚拟机122而被故障转移之后,除发生故障的第一物理服务器110以外的其余的物理服务器120、130、140中的至少一个物理服务器可更新信息表200。这样的更新可基于构成注册信息的逻辑,以免某个活动虚拟机和与之对应的备用虚拟机被注册到相同的物理服务器。
作为一个示例,更新的信息表200将第一活动虚拟机111与物理服务器120、130、140中的一个物理服务器关联起来。只是,如上所述,与第一活动虚拟机111相关联的物理服务器与第二物理服务器120不同。例如,根据更新的信息表200,第三物理服务器130与第一活动虚拟机111相关联。此外,更新的信息表200将注册到第一物理服务器110的第四备用虚拟机112与物理服务器120、130、140中的一个物理服务器关联起来。只是,如上所述,与第四备用虚拟机112相关联的物理服务器与注册有对应于第四备用虚拟机112的第四活动虚拟机141的第四物理服务器140不同。例如,根据更新的信息表200,第三物理服务器130与第一活动虚拟机111相关联。
进而,为了更新信息表200,与第一活动虚拟机111相关联的物理服务器及与第四备用虚拟机112相关联的物理服务器可基于物理服务器110、120、130、140中的一部分的可用资源而被选择。具体地讲,与第一活动虚拟机111相关联的物理服务器可基于除发生故障的第一物理服务器110及第一备用虚拟机122对第一活动虚拟机111进行故障转移的第二物理服务器120之外的其余物理服务器130、140中的每个的可用资源而由物理服务器130、140选择。例如,在第三物理服务器130比第四物理服务器140具有更充足的可用资源的情况下,将第一活动虚拟机111与第三物理服务器130关联起来。与第四备用虚拟机112相关联的物理服务器可基于除发生故障的第一物理服务器110及注册有第四活动虚拟机141的第四物理服务器140之外的其余物理服务器120、130中的每个的可用资源而由物理服务器120、130选择。例如,在第二物理服务器120比第三物理服务器130具有更充足的可用资源的情况下,将第四备用虚拟机112与第二物理服务器120关联起来。
概括而言,图2所示的信息表200根据如上所述的更新,作为与第二物理服务器120对应的虚拟机而在现有的第二活动虚拟机121及第一备用虚拟机122的基础上还显示第四备用虚拟机112,作为与第三物理服务器130对应的虚拟机而在现有的第三活动虚拟机131及第二备用虚拟机132的基础上还显示第一活动虚拟机111。此外,更新的信息表200作为对应于第四物理服务器140的虚拟机而与更新之前一样表示第四活动虚拟机141及第三备用虚拟机142。
根据更新的信息表200,注册在发生故障的第一物理服务器110的第一活动虚拟机111及第四备用虚拟机112分别被注册到其他的物理服务器。在前述的示例中,第一活动虚拟机111被注册到第三物理服务器130,第四备用虚拟机112被注册到第二物理服务器120。这样的注册可伴随着在第一物理服务器110发生故障之前对第一活动虚拟机111及第四备用虚拟机112中的每个的存储器快照或者对应的虚拟机进行复制。例如,将第一活动虚拟机111注册到第三物理服务器130可伴随着从共享存储器获取第一活动虚拟机111的最终快照,或者伴随着对包含于第二物理服务器120的存储器中的第一备用虚拟机122进行反射。
图3是示出根据本发明的实施例而在集群系统中提供服务可用性的过程的顺序图。
一旦开始服务可用性提供过程300,则集群系统100中的物理服务器110、120、130、140周期性地发送分别表示自己的状态的心跳信号(310)。表示注册到各个物理服务器110、120、130、140的虚拟机的注册信息可包含于各个物理服务器110、120、130、140。这样的注册信息可具有前述的信息表200的格式。
如果不存在不对心跳信号响应的物理服务器(320),则各个物理服务器110、120、130、140继续发送心跳信号(310)。
如果存在不对心跳信号响应的物理服务器(320),则可判定在相关的物理服务器中发生了故障。在这种情况下,在与注册到发生故障的物理服务器的活动虚拟机对应且注册到其他的物理服务器的备用虚拟机中进行故障转移(330)。例如,响应于判定在第一物理服务器110中发生了故障,第二物理服务器120使得与第一活动虚拟机111对应且注册到第二物理服务器120的第一备用虚拟机122对第一活动虚拟机111进行故障转移。
在进行这样的故障转移之后,针对除发生故障的物理服务器之外的其余的物理服务器重新构成注册信息(340)。这样的重新构成可基于如下的逻辑:使得活动虚拟机和与之对应的备用虚拟机不被注册到相同的物理服务器,并且将发生故障的物理服务器的虚拟机优先与可用资源充足的物理服务器关联起来而进行注册。为了方便起见,将发生故障之前的注册信息称为故障前(pre-failure)的注册信息,将发生故障之后被重新构成/更新的注册信息称为故障后(post-failure)的注册信息。
例如,在第一物理服务器110中发生故障时,故障后的注册信息将第一物理服务器110的第一活动虚拟机111与其他的物理服务器中的一个物理服务器关联起来,并将第一物理服务器110的第四备用虚拟机112与其他的物理服务器中的另一个物理服务器关联起来,只是,与第一活动虚拟机111相关联的物理服务器与注册有对第一活动虚拟机111进行故障转移的第一备用虚拟机122的第二物理服务器120不同,与第四备用虚拟机112相关联的物理服务器与注册有对应于第四备用虚拟机112的第四活动虚拟机141的第四物理服务器140不同。如上所述,为了构成故障后的注册信息,与发生故障的第一物理服务器110的活动虚拟机111、112相关联的物理服务器可基于物理服务器120、130、140中的一部分的可用资源而被选择。
这样的故障后的注册信息分别被存储到第二物理服务器120、第三物理服务器130及第四物理服务器140。在发生故障之后第一物理服务器110重新正常运行的情况下,故障后的注册信息(在故障后的注册信息动态变更的情况下则是和它一起变更的注册信息)也可被存储到第一物理服务器110。
根据故障后的注册信息(即,重新构成的信息),将发生故障的物理服务器中的各个虚拟机注册到其他的物理服务器(350)。如果在除发生故障的物理服务器以外的其余的物理服务器中的每个中存在没有根据重新构成的注册信息而进行注册的虚拟机(360),则继续将该虚拟机注册到相关的物理服务器(350)。如果根据重新构成的注册信息注册到与虚拟机相关的物理服务器(350),则过程300终止。
此外,本发明的实施例可包括记录有用于在计算机上执行本说明书中记载的方法的程序的计算机可读记录介质。所述计算机可读记录介质可单独地包括程序命令、本地数据文件、本地数据结构等,或者包括它们的组合。所述介质可以是为本发明而专门设计并构成的介质,或者可以是计算机软件领域的普通技术人员所公知而可以使用的介质。所述计算机可读记录介质的示例包括为了存储并执行程序命令而专门构成的硬件装置:诸如硬盘、软盘及磁带的磁介质、诸如CD-ROM、DVD的光记录介质、诸如软盘的磁光介质及ROM、RAM、闪存等。程序命令的示例可包括:由编译器编写的机器语言代码以及使用解释器等而由计算机来执行的高级语言代码。
虽然已通过代表性实施例对本发明进行了详细描述,但本发明所属的技术领域中具有公知常识的技术人员应该理解在不脱离本发明的范围的情况下可对上述实施例进行各种变形。
因此,本发明的权利范围不应局限于所描述的实施例而确定,而是应当由权利要求书及其等同物来确定。

Claims (27)

1.一种集群系统,包括:
注册有活动虚拟机的第一物理服务器;及
多个物理服务器,
所述多个物理服务器包括对应于所述活动虚拟机且注册有在所述第一物理服务器发生故障时对所述活动虚拟机进行故障转移的备用虚拟机的第二物理服务器,
在发生所述故障时,所述多个物理服务器中的每一个存储故障后的注册信息,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,且所述一个物理服务器与所述第二物理服务器不同。
2.根据权利要求1所述的集群系统,其中,
所述一个物理服务器基于与所述多个物理服务器中的、与所述第二物理服务器不同的物理服务器中的每一个的可用资源,从与所述第二物理服务器不同的所述物理服务器中被选择,以构成所述故障后的注册信息。
3.根据权利要求1所述的集群系统,其中,
所述活动虚拟机根据所述故障后的注册信息被注册到所述一个物理服务器。
4.根据权利要求1所述的集群系统,其中,
所述故障后的注册信息还将注册到所述第一物理服务器的其他的备用虚拟机与所述多个物理服务器中的另一个物理服务器关联起来,且所述另一个物理服务器与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的物理服务器不同。
5.根据权利要求4所述的集群系统,其中,
所述另一个物理服务器基于所述多个物理服务器中的、与注册有所述其他的活动虚拟机的物理服务器不同的物理服务器中的每一个的可用资源,从与注册有所述其他的活动虚拟机的物理服务器不同的所述物理服务器中被选择,以构成所述故障后的注册信息。
6.根据权利要求4所述的集群系统,其中,
所述其他的备用虚拟机根据所述故障后的注册信息被注册到所述另一个物理服务器。
7.根据权利要求1所述的集群系统,其中,
在发生所述故障之前,所述第一物理服务器及所述多个物理服务器中的每一个存储故障前的注册信息,所述故障后的注册信息通过更新所述故障前的注册信息来构成,所述故障前的注册信息表示在发生所述故障之前注册到所述第一物理服务器及所述多个物理服务器中的每一个的虚拟机。
8.根据权利要求7所述的集群系统,其中,
在发生所述故障之前,所述故障前的注册信息能够基于所述第一物理服务器的状态及所述多个物理服务器中的每一个的状态而变更。
9.根据权利要求7所述的集群系统,其中,
所述故障前的注册信息还表示所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源。
10.根据权利要求8所述的集群系统,其中,
所述故障前的注册信息的变更在所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源中的至少一个的变化量为临界值以上的情况下执行。
11.一种服务可用性提供方法,所述方法用于在集群系统中提供服务可用性,包括如下步骤:
在注册有活动虚拟机的第一物理服务器中发生故障时,使得注册到多个物理服务器中的第二物理服务器并与所述活动虚拟机对应的备用虚拟机对所述活动虚拟机进行故障转移;
在发生所述故障时,将故障后的注册信息存储到所述多个物理服务器中的每一个,
其中,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,且所述一个物理服务器与所述第二物理服务器不同。
12.根据权利要求11所述的服务可用性提供方法,还包括如下步骤:
所述一个物理服务器基于所述多个物理服务器中的与所述第二物理服务器不同的物理服务器中的每一个的可用资源,从与所述第二物理服务器不同的所述物理服务器中被选择,以构成所述故障后的注册信息。
13.根据权利要求11所述的服务可用性提供方法,还包括如下步骤:
根据故障后的注册信息,将所述活动虚拟机注册到所述一个物理服务器。
14.根据权利要求11所述的服务可用性提供方法,其中,
所述故障后的注册信息还将注册到所述第一物理服务器的其他的备用虚拟机与所述多个物理服务器中的另一个物理服务器关联起来,且所述另一个物理服务器与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的物理服务器不同。
15.根据权利要求14所述的服务可用性提供方法,还包括如下步骤:
所述另一个物理服务器基于所述多个物理服务器中的与注册有所述其他的活动虚拟机的物理服务器不同的物理服务器中的每一个的可用资源,从与注册有所述其他的活动虚拟机的物理服务器不同的所述物理服务器中被选择,以构成所述故障后的注册信息。
16.根据权利要求11所述的服务可用性提供方法,还包括如下步骤:
所述其他的备用虚拟机根据所述故障后的注册信息被注册到所述另一个物理服务器。
17.根据权利要求11所述的服务可用性提供方法,还包括如下步骤:
发生所述故障之前,在所述第一物理服务器及所述多个物理服务器中的每一个存储故障前的注册信息;
通过更新所述故障前的注册信息来构成所述故障后的注册信息,
其中,所述故障前的注册信息表示在发生所述故障之前注册到所述第一物理服务器及所述多个物理服务器中的每一个的虚拟机。
18.根据权利要求17所述的服务可用性提供方法,还包括如下步骤:
在发生所述故障之前,基于所述第一物理服务器的状态及所述多个物理服务器中的每一个的状态而变更所述故障前的注册信息。
19.根据权利要求17所述的服务可用性提供方法,其中,
所述故障前的注册信息还表示所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源。
20.根据权利要求18所述的服务可用性提供方法,其中,
所述故障前的注册信息的变更在所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源中的至少一个的变化量为临界值以上的情况下执行。
21.一种服务器计算机,包括处理器及存储器,所述存储器包括:
注册信息,表示注册到包括所述服务器计算机的多个服务器计算机及其他的服务器计算机中的每一个的虚拟机;
备用虚拟机,与注册到所述其他的服务器计算机的活动虚拟机对应;及
计算机可执行命令,
在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:
响应于所述其他服务器计算机发生故障的判定,使所述备用虚拟机对所述活动虚拟机进行故障转移;
响应于所述判定,执行更新所述注册信息,
其中,更新的所述注册信息将所述活动虚拟机与所述多个服务器计算机中的一个服务器计算机关联起来,且所述一个服务器计算机与所述服务器计算机不同。
22.根据权利要求21所述的服务器计算机,其中,
在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:基于所述多个服务器计算机中的与所述服务器计算机不同的服务器计算机中的每一个的可用资源,从与所述服务器计算机不同的服务器计算机中选择所述一个服务器计算机,以更新所述注册信息。
23.根据权利要求21所述的服务器计算机,其中,
所述其他的服务器计算机还注册有其他的备用虚拟机,
更新的所述注册信息还将所述其他的备用虚拟机与所述多个服务器计算机中的另一个服务器计算机关联起来,所述另一个服务器计算机与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的服务器计算机不同。
24.根据权利要求23所述的服务器计算机,其中,
在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:
基于所述多个服务器计算机中的与注册有所述其他的活动虚拟机的服务器计算机不同的服务器计算机中的每一个的可用资源,从与注册有所述其他的活动虚拟机的服务器计算机不同的服务器计算机中选择所述另一个服务器计算机,以更新所述注册信息。
25.根据权利要求21所述的服务器计算机,其中,
在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:
在发生所述故障之前,基于所述多个服务器计算机中的每一个的状态及所述其他的服务器计算机的状态而变更所述注册信息。
26.根据权利要求21所述的服务器计算机,其中,
所述注册信息还表示所述其他的服务器计算机的可用资源及所述多个服务器计算机中的每一个的可用资源。
27.根据权利要求25所述的服务器计算机,其中,
变更所述注册信息的操作在所述多个服务器计算机中的每一个的可用资源及所述其他的服务器计算机的可用资源中的至少一个的变化量为临界值以上的情况下执行。
CN201410455215.2A 2013-09-09 2014-09-09 集群系统及用于在集群系统中提供服务可用性的方法 Expired - Fee Related CN104427002B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130108007A KR101558047B1 (ko) 2013-09-09 2013-09-09 클러스터 시스템 및 클러스터 시스템에서 서비스 가용성을 제공하기 위한 방법
KR10-2013-0108007 2013-09-09

Publications (2)

Publication Number Publication Date
CN104427002A true CN104427002A (zh) 2015-03-18
CN104427002B CN104427002B (zh) 2018-02-16

Family

ID=52626747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410455215.2A Expired - Fee Related CN104427002B (zh) 2013-09-09 2014-09-09 集群系统及用于在集群系统中提供服务可用性的方法

Country Status (3)

Country Link
US (1) US9575785B2 (zh)
KR (1) KR101558047B1 (zh)
CN (1) CN104427002B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183588A (zh) * 2015-09-30 2015-12-23 华为技术有限公司 一种虚拟机的重建方法和装置
CN107949831A (zh) * 2015-09-08 2018-04-20 株式会社东芝 多重化处理系统、多重化处理方法以及程序
CN108183473A (zh) * 2017-12-13 2018-06-19 国网上海市电力公司 一种集群电动汽车参与辅助服务市场的优化投标方法
CN110286937A (zh) * 2019-07-04 2019-09-27 北京伟杰东博信息科技有限公司 一种分布式软件运行的方法及其系统

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102239177B1 (ko) * 2014-09-03 2021-04-09 주식회사 케이티 클라우드 서버 관리 방법, 이를 수행하는 클라우드 서버 관리 장치 및 클라우드 서비스 관리 시스템
KR101883251B1 (ko) 2015-10-07 2018-07-31 주식회사 엘지유플러스 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
US10341128B2 (en) * 2016-03-12 2019-07-02 Wipro Limited Method and system for optimizing usage of network resources in a communication network
US10552272B2 (en) * 2016-12-14 2020-02-04 Nutanix, Inc. Maintaining high availability during N-node failover
JP6813010B2 (ja) * 2018-08-31 2021-01-13 横河電機株式会社 可用性のシステム、方法、およびプログラム
JP7332280B2 (ja) * 2018-09-10 2023-08-23 横河電機株式会社 冗長化システム、冗長化プログラム、及び情報処理装置
CN110149366B (zh) * 2019-04-16 2022-03-18 平安科技(深圳)有限公司 提高集群系统可用性的方法、装置和计算机设备
KR102084031B1 (ko) * 2019-08-07 2020-05-29 주식회사 도시엔컴 복수 서버의 로컬 저장소를 통합 관리하는 방법 및 그 장치
KR102328384B1 (ko) 2020-07-23 2021-11-18 아콘소프트 주식회사 관리형 클러스터 자동 프로비저닝 엔진 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체
US12001303B2 (en) * 2021-10-21 2024-06-04 EMC IP Holding Company LLC Data center restoration and migration
KR20230174137A (ko) * 2022-06-20 2023-12-27 삼성전자주식회사 컨테이너 기반 다중 클러스터 환경에서 데이터 동기화를 위한 방법 및 장치
KR20240061995A (ko) * 2022-11-01 2024-05-08 삼성전자주식회사 컨테이너 기반 다중 클러스터 환경에서 서비스의 가중치 기반 고 가용성 제어 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876926A (zh) * 2009-11-26 2010-11-03 北京航空航天大学 一种非对称结构的软件三机热备容错方法
CN102271145A (zh) * 2010-06-04 2011-12-07 国云科技股份有限公司 一种虚拟计算机集群及其实施方法
CN102346779A (zh) * 2011-10-18 2012-02-08 中国联合网络通信集团有限公司 分布式文件系统和主控节点的备份方法
US20130054807A1 (en) * 2011-08-31 2013-02-28 Ibm Corporation Selecting a Primary-Secondary Host Pair for Mirroring Virtual Machines
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155912A1 (en) * 2005-01-12 2006-07-13 Dell Products L.P. Server cluster having a virtual server
KR100930576B1 (ko) 2006-12-04 2009-12-09 한국전자통신연구원 가상화 기반 고가용성 클러스터 시스템 및 고가용성클러스터 시스템에서 장애 관리 방법
KR100832543B1 (ko) 2006-12-08 2008-05-27 한국전자통신연구원 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법
US9354927B2 (en) * 2006-12-21 2016-05-31 Vmware, Inc. Securing virtual machine data
WO2010122709A1 (ja) * 2009-04-23 2010-10-28 日本電気株式会社 若化処理装置、若化処理システム、コンピュータプログラムおよびデータ処理方法
US8352482B2 (en) * 2009-07-21 2013-01-08 Vmware, Inc. System and method for replicating disk images in a cloud computing based virtual machine file system
US8429449B2 (en) * 2010-03-01 2013-04-23 International Business Machines Corporation Optimized placement of virtual machines in a network environment
KR101471879B1 (ko) * 2012-10-31 2014-12-11 삼성에스디에스 주식회사 하이퍼바이저 기반 서버 이중화 시스템, 그 방법 및 서버 이중화 컴퓨터 프로그램이 기록된 기록매체
US20160285734A1 (en) * 2012-11-21 2016-09-29 Nec Corporation Cloud-environment provision system, route control method, and medium
US9032157B2 (en) * 2012-12-11 2015-05-12 International Business Machines Corporation Virtual machine failover
US9405642B2 (en) * 2013-01-29 2016-08-02 Red Hat Israel, Ltd. Providing virtual machine migration reliability using an intermediary storage device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876926A (zh) * 2009-11-26 2010-11-03 北京航空航天大学 一种非对称结构的软件三机热备容错方法
CN102271145A (zh) * 2010-06-04 2011-12-07 国云科技股份有限公司 一种虚拟计算机集群及其实施方法
US20130054807A1 (en) * 2011-08-31 2013-02-28 Ibm Corporation Selecting a Primary-Secondary Host Pair for Mirroring Virtual Machines
CN102346779A (zh) * 2011-10-18 2012-02-08 中国联合网络通信集团有限公司 分布式文件系统和主控节点的备份方法
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107949831A (zh) * 2015-09-08 2018-04-20 株式会社东芝 多重化处理系统、多重化处理方法以及程序
CN107949831B (zh) * 2015-09-08 2021-03-16 株式会社东芝 多重化处理系统、多重化处理方法以及程序
CN105183588A (zh) * 2015-09-30 2015-12-23 华为技术有限公司 一种虚拟机的重建方法和装置
CN105183588B (zh) * 2015-09-30 2018-10-30 华为技术有限公司 一种虚拟机的重建方法和装置
CN108183473A (zh) * 2017-12-13 2018-06-19 国网上海市电力公司 一种集群电动汽车参与辅助服务市场的优化投标方法
CN110286937A (zh) * 2019-07-04 2019-09-27 北京伟杰东博信息科技有限公司 一种分布式软件运行的方法及其系统

Also Published As

Publication number Publication date
CN104427002B (zh) 2018-02-16
US20150074447A1 (en) 2015-03-12
KR101558047B1 (ko) 2015-10-06
US9575785B2 (en) 2017-02-21
KR20150029181A (ko) 2015-03-18

Similar Documents

Publication Publication Date Title
CN104427002A (zh) 集群系统及用于在集群系统中提供服务可用性的方法
CN101593136B (zh) 使得计算机具有高可用性的方法和计算机系统
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US8984330B2 (en) Fault-tolerant replication architecture
US9590843B2 (en) Method and system for providing distributed management in a networked virtualization environment
US8381033B2 (en) Fault management in virtual computing environments
US8910172B2 (en) Application resource switchover systems and methods
CN103559108B (zh) 一种基于虚拟化实现主备故障自动恢复的方法及系统
US8862927B2 (en) Systems and methods for fault recovery in multi-tier applications
JP7106953B2 (ja) サーバ切り替えプログラム、サーバ切り替え方法、及びサーバ切り替えシステム
CN104036043B (zh) 一种mysql高可用的方法及管理节点
CN106528327A (zh) 一种数据处理方法以及备份服务器
US9916215B2 (en) System and method for selectively utilizing memory available in a redundant host in a cluster for virtual machines
US20090083467A1 (en) Method and System for Handling Interrupts Within Computer System During Hardware Resource Migration
JP2007156679A (ja) サーバの障害回復方法及びデータベースシステム
CN103493021A (zh) 虚拟机高可用性
US20140289562A1 (en) Controlling method, information processing apparatus, storage medium, and method of detecting failure
CN108228678A (zh) 一种多副本数据恢复方法及装置
US9195528B1 (en) Systems and methods for managing failover clusters
CN104182300B (zh) 一种集群中虚拟机的备份方法及系统
JP5355725B2 (ja) 必須データ管理システム及び計算機及び必須データ管理プログラム及び記録媒体及び通信方法
CN105323271A (zh) 一种云计算系统以及云计算系统的处理方法和装置
CN104618191A (zh) 一种主机与裸存储块之间的通信故障检测方法和装置
TW201328247A (zh) 系統錯誤處理方法與使用其之伺服器系統
CN102457547A (zh) 多控制器的储存区域网络设备的升级方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180216

Termination date: 20200909

CF01 Termination of patent right due to non-payment of annual fee