CN101796490A - 具有服务器功能的配备有冗余度的分布式计算机系统 - Google Patents

具有服务器功能的配备有冗余度的分布式计算机系统 Download PDF

Info

Publication number
CN101796490A
CN101796490A CN200880105417.7A CN200880105417A CN101796490A CN 101796490 A CN101796490 A CN 101796490A CN 200880105417 A CN200880105417 A CN 200880105417A CN 101796490 A CN101796490 A CN 101796490A
Authority
CN
China
Prior art keywords
calculation element
server
business
physics
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880105417.7A
Other languages
English (en)
Inventor
C·M·斯蒂赫
M·迪克斯
M·A·彼得松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ABB Research Ltd Sweden
Original Assignee
ABB Research Ltd Sweden
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ABB Research Ltd Sweden filed Critical ABB Research Ltd Sweden
Publication of CN101796490A publication Critical patent/CN101796490A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

本发明设计一种分布式计算机系统,其包含至少两个物理的计算装置(S1至Sn)和至少两个在系统中安装的业务(Da至Dn)。所述计算机(S1至Sn)分别装备有用于至少一项业务(Da至Dn)的服务器的功能。为了提供冗余度,至少一个物理的计算装置(Sa至Sn)除了第一业务(例如Da)的服务器功能之外还附加地包含具有第二业务(例如Db’)的服务器功能的虚拟机(V)。此外,本发明涉及一种在分布式系统中安装冗余的服务器功能的方法。

Description

具有服务器功能的配备有冗余度的分布式计算机系统
技术领域
本发明涉及一种具有多个物理的计算装置的计算机系统,所述多个物理的计算装置分别具有服务器的功能。这种计算机服务器分别装备有用于至少一个特定业务的功能。此外,本发明涉及一种用于在分布式计算机系统中安装冗余服务器功能的方法。
背景技术
计算机服务器具有例如由于其所包含硬件的损耗所引起的确定的故障概率。在分布式计算机系统中当然还可以包含另外的计算机类型、例如客户端,但是因为本发明集中于服务器,所以在此不详细讨论其它的计算机类型。
为了提高分别由服务器所提供的业务的可用性,可以在分布式计算机系统中以冗余方式配置服务器。在图1中示出冗余系统的公知方案。在此,在图示的上部区域中示出具有n个服务器S1、S2、S3至Sn的非冗余初始系统,这n个服务器分别被设置用于n个业务Da、Db、Dc至Dn之一。在该图示的下部区域中,示出冗余的目标系统,其中以冗余方式在系统中实施其业务的这些服务器在该系统中以两倍的方式存在。为补充原始服务器S1至Sn所安装的服务器S(n+1)至S(n+n)被设置用于以冗余方式安装的业务Da’至Dn’。冗余的业务Da’至Dn’例如按照故障转移方案(Fail-Over-Konzept)以逻辑方式被包含在这种系统中,使得在服务器故障的情况下自动地转移到对应的服务器上。
公知的冗余计算机系统的缺点是如下必要性:必须为每个要以冗余方式实施的业务安装附加的计算装置。在可假设的最多的情况下,其中应该使所有服务器都以冗余方式可用,这意味着如图1所示的两倍的计算机数量。因此,这不仅导致更高的采购费用,而且还导致提高了的硬件维护费用、以及提高了的空间需求和运行费用(例如由于更高的能量费用)。
发明内容
因此,本发明所基于的任务是说明一种可利用较少成本实现的冗余服务器系统。
通过具有以冗余方式存在的服务器功能的分布式计算机系统来解决该任务,所述分布式计算机系统具有权利要求1中所说明的特征。在另外的权利要求中说明有利的扩展方案和用于安装冗余服务器功能的方法。
因此,本发明提出一种分布式计算机系统,其包含至少两个物理的计算装置。至少一个计算装置装备有两个服务器的功能,其中两个服务器之一相应地作为虚拟机被安装在所述计算装置中。每个如此设计的计算装置的两个服务器被设置用于两项不同的业务。在此,所述两项业务之一是以冗余方式安装在计算机系统中的业务。如果对于所有业务来说都应该存在冗余服务器,则必须在所有计算装置中都安装虚拟机。
执行本发明的前提条件是,用于冗余功能的物理的计算装置分别具有足够的性能以便附加地运行虚拟机。
根据本发明的计算机系统具有一系列优点:
通过所提出的借助于虚拟机来提供冗余度的解决方案,对于所安装的服务来说,在不必安装附加的物理的计算装置的情况下,实现了故障概率的减少。由此实现的改善的故障概率在本发明的冗余系统的情况下比在前述的公知冗余系统的情况下高,尤其是应该放弃附加的物理的计算装置时。
为了进一步减小故障概率,不排除附加地安装物理的计算装置。一般来说,借助于虚拟机——或者附加地借助于物理机——向所安装的所有业务提供冗余度,但是视业务的重要性而定也可以只针对一部分业务来设立冗余度。在用于安装虚拟机中的冗余业务的优选方法中,使用业务的所谓克隆(Klon)。但是,应该理解,也可以可替换地从头开始重新在虚拟机中安装业务。
附图说明
从下面借助于附图对实施例所进行的说明中得出对本发明的其它阐述及本发明的优点。
其中:
图1示出现有技术的冗余服务器系统的实施例,
图2示出本发明的冗余服务器系统的实施例,以及
图3示出针对一项业务在以不同方式设计的服务器系统中的故障概率的比较图。
具体实施方式
图2在上部图示区域中示出与图1中的示图一致的非冗余初始系统,该非冗余初始系统具有服务器S1、S2、S3至Sn,这些服务器分别被设置用于业务Da、Db、Dc至Dn之一。在此,字母n也表示现有服务器或业务的数量。最下部示出对应的、本发明的系统,其中为了提供冗余度,除了相应的原来的业务Da、Db、Dc至Dn之一外,服务器S1、S2、S3至Sn还分别具有其中安装有冗余业务(即用Da’、Db’至Dn’表示的业务)的虚拟机V。
此外在图2中,还在图示中在上部与在下部示出的系统(所述系统在前面已经有所阐述)之间示出了用于阐述用于安装冗余服务的优选方式的三个步骤。
为了例如针对在第一服务器S1中所安装的第一业务Da提供冗余度,在步骤1中首先在另一服务器上、在此是第二服务器S2上安装虚拟机V。
在步骤2中,生成第一业务Da的克隆Da’,并且该克隆Da’被移动(migriert)到第二服务器S2的虚拟机V中。在此,“克隆”表示生成副本,其中副本Da’具有与第一业务Da相同的功能。可替换地,也可以从头开始重新在虚拟机中安装Da’的功能。
在步骤3中,第二服务器S2的虚拟机V作为针对业务Da的冗余服务器、即如具有自身标识的新计算装置一样地逻辑上被添加到该计算机系统中。为了使Da的副本不是仅仅简单地以两倍方式存在于分布式系统中,而是如具有自身标识的新计算装置那样作为其原始计算装置的冗余部分来工作,在此还有可以对该副本进行相应的配置或调整。
为了以冗余的方式来配置所有业务Da、Db、Dc至Dn,对于每项业务都执行步骤1至3,从而结果是在第一服务器S1中安装业务Da和Dn’、在第二服务器S2中安装业务Db和Da’、在第三服务器S3中安装业务Dc和Db’,并且继续如此直到最后在第n个服务器Sn中安装业务Dn和D(n-1)’。
因此,在本发明的冗余系统的特别实施方式中,对于每项业务Da至Dn,在相应的另一计算机S1至Sn上安装有冗余的服务器功能Da’至Dn’。
然而,可替换地,冗余可以只限于所选出的确定的业务。
图3示例性示出在系统中所安装的业务之一发生故障并且分布式系统的整个功能由此受到影响的概率。在所计算的示例中对三个不同的系统进行比较,并且假设物理机和虚拟机都具有每机20%的故障概率。所比较的是:
-具有两个物理的计算装置的非冗余系统,其中所述物理的计算装置分别具有用于两项原始业务Da和Db的服务器功能,
-本发明的具有两个物理的计算装置S的冗余系统,所述物理的计算装置分别具有用于两项原始业务Da和Db的服务器功能,其中计算装置S分别含有安装有冗余业务Da’或Db’的虚拟机V,以及
-根据现有技术具有四个物理的计算装置的冗余系统,该四个物理的计算装置具有用于两项原始业务Da和Db以及两项冗余业务Da’和Db’的服务器功能。
该图示示出,对于非冗余系统来说,对于业务之一的故障概率被计算为36.00%。在公知的具有四个物理的计算装置的冗余系统的情况下,相应的故障概率只有7.84%。在根据本发明的冗余系统情况下,虽然具有10.84%的故障概率比公知的冗余系统略高,但是如果应该放弃附加的物理的计算装置,则可以看作是较好的折衷。

Claims (6)

1.分布式计算机系统,其包含至少两个物理的计算装置(S1至Sm)和至少两个安装在该系统中的业务(Da至Dm),其中
a)所述计算装置(S1至Sn)分别装备有用于所述业务(Da至Dn)中至少一项业务的服务器的功能,并且
b)为了提供冗余度,这些物理的计算装置(S1至Sn)中的至少一个计算装置除了包含第一业务(例如Da)的服务器功能之外还附加地包含具有第二业务(例如Db’)的服务器功能的虚拟机(V)。
2.根据权利要求1所述的分布式计算机系统,其特征在于,至少一个存在于该系统中的物理的计算装置(S1至Sn)包含具有第二物理服务器的冗余功能的虚拟机(V),从而对于至少一项业务(Da至Dn),存在冗余的服务器功能。
3.根据前述权利要求之一所述的分布式计算机系统,其特征在于,对于每项业务(Da至Dn),在相应的另一计算装置(S1至Sn)上安装有冗余的服务器功能(Da’至Dn’)。
4.根据前述权利要求之一所述的分布式计算机系统,其特征在于,为了进一步减少系统中的故障概率,设置有至少一个附加的、即冗余的物理的计算装置,该计算装置具有所述业务(Da至Dn)中至少一项业务的服务器功能。
5.用于在分布式计算机系统中安装冗余的服务器功能的方法,所述计算机系统具有物理的第一计算装置(S1)和至少一个物理的第二计算装置(S1至Sn中的S2),所述物理的第一计算装置和至少一个物理的第二计算装置分别包含至少两项业务(Da至Dn)中一项业务的服务器功能中,其中
a)在第一步骤(步骤1)中,在物理的第二计算装置(S2)中安装虚拟机(V),
b)在第二步骤(步骤2)中,生成第一业务(Da)的服务器功能的克隆(Da’),并且将所述克隆移动到物理的第二计算装置(S2)的虚拟机(V)中,并且/或者在所述虚拟机中重新安装所述功能(Da’),
c)在第三步骤(步骤3)中,将因而被构造的具有服务器功能的虚拟机(V)作为第一冗余服务器包含到所述计算机系统中。
6.根据权利要求5所述的方法,其特征在于,对于另外的业务(Db至Dn)的其余的服务器功能重复所述步骤(步骤1至3),以提供另外的冗余服务器。
CN200880105417.7A 2007-09-03 2008-08-20 具有服务器功能的配备有冗余度的分布式计算机系统 Pending CN101796490A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102007041651A DE102007041651A1 (de) 2007-09-03 2007-09-03 Mit Redundanz ausgestattetes verteiltes Computersystem mit Serverfunktionalitäten
DE102007041651.4 2007-09-03
PCT/EP2008/006819 WO2009030363A1 (de) 2007-09-03 2008-08-20 Mit redundanz ausgestattetes verteiltes computersystem mit serverfunktionalitäten

Publications (1)

Publication Number Publication Date
CN101796490A true CN101796490A (zh) 2010-08-04

Family

ID=40149755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880105417.7A Pending CN101796490A (zh) 2007-09-03 2008-08-20 具有服务器功能的配备有冗余度的分布式计算机系统

Country Status (5)

Country Link
US (1) US20100205474A1 (zh)
EP (1) EP2198369A1 (zh)
CN (1) CN101796490A (zh)
DE (1) DE102007041651A1 (zh)
WO (1) WO2009030363A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2787401B1 (en) 2013-04-04 2016-11-09 ABB Schweiz AG Method and apparatus for controlling a physical unit in an automation system
JP7239828B2 (ja) * 2019-08-02 2023-03-15 富士通株式会社 システム管理方法、システム管理プログラム、およびシステム管理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6609213B1 (en) * 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures
GB0112781D0 (en) * 2001-05-25 2001-07-18 Global Continuity Plc Method for rapid recovery from a network file server failure
US7139925B2 (en) * 2002-04-29 2006-11-21 Sun Microsystems, Inc. System and method for dynamic cluster adjustment to node failures in a distributed data system
JP4448719B2 (ja) * 2004-03-19 2010-04-14 株式会社日立製作所 ストレージシステム
US20060155912A1 (en) * 2005-01-12 2006-07-13 Dell Products L.P. Server cluster having a virtual server
JP4544146B2 (ja) * 2005-11-29 2010-09-15 株式会社日立製作所 障害回復方法

Also Published As

Publication number Publication date
EP2198369A1 (de) 2010-06-23
WO2009030363A1 (de) 2009-03-12
DE102007041651A1 (de) 2009-03-05
US20100205474A1 (en) 2010-08-12

Similar Documents

Publication Publication Date Title
US10977086B2 (en) Workload placement and balancing within a containerized infrastructure
CN101227315B (zh) 动态服务器集群及其控制方法
US7716517B2 (en) Distributed platform management for high availability systems
US11829247B2 (en) Method, device, and computer program product for rebuilding data of a failed storage device in a storage system
US9189381B2 (en) Managing CPU resources for high availability micro-partitions
Narayanan et al. Towards a leaner geo-distributed cloud infrastructure
CN102325192A (zh) 云计算实现方法和系统
CN101859317A (zh) 一种利用虚拟化构建数据库集群的方法
US20120072767A1 (en) Recovery of failed disks in an array of disks
CN103209197A (zh) 集群服务器部署方法及系统
US9244826B2 (en) Managing CPU resources for high availability micro-partitions
JP6288275B2 (ja) 仮想化基盤管理装置、仮想化基盤管理システム、仮想化基盤管理方法、及び、仮想化基盤管理プログラム
CN101216793A (zh) 一种多处理器系统故障恢复的方法及装置
US7249358B2 (en) Method and apparatus for dynamically allocating processors
US9158470B2 (en) Managing CPU resources for high availability micro-partitions
KR20130052599A (ko) 가상 데이터 센터 시스템
US10019182B2 (en) Management system and management method of computer system
CN105141459A (zh) 一种基于多路径技术的优化方法
US20140250269A1 (en) Declustered raid pool as backup for raid volumes
CN101796490A (zh) 具有服务器功能的配备有冗余度的分布式计算机系统
US20190324741A1 (en) Virtual appliance upgrades in high-availability (ha) computing clusters
US20100083034A1 (en) Information processing apparatus and configuration control method
US20090138764A1 (en) Billing Adjustment for Power On Demand
JP2009003537A (ja) 計算機
US20110154349A1 (en) Resource fault management for partitions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100804