CN104885059B

CN104885059B - 云系统管理装置、云系统及重新配置方法

Info

Publication number: CN104885059B
Application number: CN201280077616.8A
Authority: CN
Inventors: 远藤浩太郎
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2012-12-12
Filing date: 2012-12-12
Publication date: 2017-09-08
Anticipated expiration: 2032-12-12
Also published as: US9703653B2; US20150261630A1; JPWO2014091580A1; WO2014091580A1; CN104885059A; JP6072072B2

Abstract

实施方式的云系统管理装置具备：估计部，基于对在云系统内的服务器装置中动作的服务进程要保证的品质进行表示的品质信息，估计对服务进程不能达成品质的程度进行表示的违约信息；检测部，检测服务器装置的故障；决定部，当对在检测到故障的服务器装置中动作的至少一个第1服务进程进行重新配置时，将重新配置目的地的服务器装置中动作的至少一个第2服务进程的违约信息的总和小的服务器装置优先地、决定为重新配置目的地的服务器装置；以及重新配置部，通过将第1服务进程移动到重新配置目的地的服务器装置，来进行重新配置。

Description

云系统管理装置、云系统及重新配置方法

技术领域

本发明的实施方式涉及云系统管理装置、云系统及重新配置方法。

背景技术

近年来，在事业活动中采用通过云系统提供的服务(以下称为“云服务”。)的企业正在增多。利用云服务的好处之一是，系统的TCO(Total Cost of Ownership：总拥有成本)的削减。尤其是，降低运用管理成本这一点受到瞩目。而且，系统的导入费用、更新费用等与在公司内构筑的系统相比得到大幅削减也为魅力之一。

作为通过云服务的利用来削减TCO的根本的理由之一，列举出服务器装置等的计算机资源的有效利用。提供很多服务的云服务的事业者通过将计算机资源有效地分配给各服务，能够提高计算机资源的综合性的利用率。

由此，云服务的事业者能够以比用户单独拥有系统时更廉价的成本提供服务。此外，在以往的典型的系统中，以针对每个服务固定地分配计算机资源的前提设计系统，因此不是能够将很多的服务进程自由地配置到很多的计算机上的这种系统结构。

关于云服务的普及，若看技术方面，虚拟化技术的发展大幅参与进来。通过虚拟化技术，能够将物理上的计算机资源分割为逻辑上的单位(虚拟机)，并分配给服务进程。由此，能够自由地进行计算机资源对服务的分配。其结果，与服务的种类无关，而能够实现物理的计算机资源的共享，最佳配置的可能性大幅扩展。

云系统由很多的计算机构成，因此假定计算机发生故障的对策是必须的。一般来说，计算机的台数越多，则云系统之中的故障的发生概率越大。例如，即使计算机单独的可用性设为99.95％，如果计算机为10000台，则全部计算机同时动作的可用性不足1％。

随着云服务的适用范围扩展，对如所谓的社会基础·服务那样的要求24小时365天的稳定的运用的服务的适用也开始研究起来。另一方面，还存在着如大规模数据分析那样的虽然需要大量的计算资源，但高可靠性、高可用性不一定是绝对的云服务。

例如，存在要求24小时365天的连续运转且保证1分钟以内的MTTR(Mean Time ToRepair：平均修复时间)的情况。另一方面，也存在运转率99％程度的尽力服务(besteffort)的可用性就足够的情况。而且，作为可用性不受重视的例子，在计算机资源多余时，使以低价格利用该计算机资源的这种服务也是存在的。

发明内容

但是，在云系统内的服务器装置发生了故障时，有如下课题，根据服务进程要保证的品质，难以将能够使用的服务器装置有效地分配给服务进程。

实施方式的云系统管理装置具备：估计部，基于对在云系统内的服务器装置中动作的服务进程要保证的品质进行表示的品质信息，估计对所述服务进程无法达成所述品质的程度进行表示的违约信息；检测部，检测所述服务器装置的故障；决定部，当对在检测到所述故障的所述服务器装置中动作的至少一个第1服务进程进行重新配置时，将在所述重新配置目的地的服务器装置中动作的至少一个第2服务进程的所述违约信息的总和小的所述服务器装置优先地、决定为所述重新配置目的地的服务器装置；以及重新配置部，通过将所述第1服务进程移动到所述重新配置目的地的服务器装置，来进行重新配置。

通过上述结构的云系统管理装置，在云系统内的服务器装置发生了故障时，能够通过估计部、决定部及重新配置部，根据服务进程要保证的品质，将能够使用的服务器装置有效率地分配给服务进程。

附图说明

图1是表示实施方式的云系统的结构的一例的图。

图2是表示实施方式的云系统管理装置的状况数据的一例的图。

图3是表示实施方式的云系统管理装置的估计数据的一例的图。

图4是用于说明实施方式的云系统的第1集群(cluster)的一例的图。

图5是用于说明实施方式的云系统的第2集群的一例的图。

图6是用于说明实施方式的云系统的第2集群的服务进程的重新配置方法的一例的图。

图7是用于说明实施方式的云系统管理装置的第1集群的服务进程的重新配置方法的一例的流程图。

图8是用于说明实施方式的云系统的第1集群的服务进程的重新配置方法的一例的图。

图9是用于说明实施方式的云系统的第1集群的服务进程的重新配置方法的一例的图。

图10是用于说明实施方式的云系统的第1集群的服务进程的重新配置方法的一例的图。

图11是用于说明实施方式的云系统的第1集群的服务进程的重新配置方法的一例的图。

图12是用于说明实施方式的云系统管理装置决定成为第1集群的服务进程的重新配置目的地的服务器装置的方法的一例的流程图。

图13是表示实施方式的云系统的云系统管理装置、及服务器装置的硬件的结构的一例的图。

具体实施方式

一般来说，云服务所要求的可用性及性能通过SLA(Service Level Agreement：服务级别协议)决定。SLA是提供服务的事业者向客户约定服务的提供品质的协议。通过SLA，来保证可用性、平均响应时间等的性能等。此外，关于性能的保证，也与可用性的情况同样地、根据云服务的种类，其保证品质是各式各样的。

SLA根据其保证的程度能够大致分为二种。保证(guaranteed)型和尽力服务型。保证型约定所要求的品质。尽力服务型约定为了品质的提高而尽最大的努力。一般来说，认为性能需要保证型的保证的服务，在可用性方面也需要保证型的保证的情况较多。

为了提供保证型的服务，需要事先设想最坏情况并具有富余地分配计算机资源，因此有计算机资源的综合性的利用率下降的倾向。另一方面，尽力服务型的服务通过进行超过物理上的计算机资源的总量而分配计算机资源的过量使用(over commit)，从而能够提高计算机资源的综合性的利用率。

以下，说明实施方式的云系统管理装置、云系统及程序。图1是表示实施方式的云系统100的结构的一例的图。本实施方式的云系统100具备云系统管理装置10、服务器装置31a～31n及服务器装置32a～32n。服务器装置31a～31n设为，在云系统100的运用开始时刻使用于第1集群33。而且，服务器装置32a～32n设为，在云系统100的运用开始时刻使用于第2集群34。关于第1集群33及第2集群34的详细，后述。

此外，在不区别服务器装置31a～31n的情况下，称为服务器装置31。而且，在不区别服务器装置32a～32n的情况下，称为服务器装置32。服务器装置31及服务器装置32可以为任意的台数。而且，云系统100可以是云服务事业者以盈利为目的而提供云服务的云系统，也可以是私人云系统。

云系统管理装置10、服务器装置31a～31n及服务器装置32a～32n经由LAN(LocalArea Network：局域网)20而互相连接。而且，云系统管理装置10、服务器装置31a～31n及服务器装置32a～32n经由LAN20及网络40与客户端装置51a～51n连接。此外，在不区别客户端装置51a～51n的情况下，称为客户端装置51。

客户端装置51是为了用户接受云系统100的服务而使用的装置。客户端装置51可以是任意的装置。例如，客户端装置51是PC(Personal Computer)、便携终端等。

而且，网络40例如是因特网。而且，云系统管理装置10、服务器装置31a～31n及服务器装置32a～32n的一部分，处于其他的据点等的情况下，LAN20也可以是因特网、VPN(Virtual Private Network:虚拟专用网络)等。

云系统管理装置10具备检测部1、存储部2、估计部3、决定部4及重新配置部5。检测部1检测服务器装置31a～31n及服务器装置32a～32n的故障。

存储部2存储状况数据6及估计数据7。图2是表示实施方式的云系统管理装置10的品质达成状况数据的一例的图。状况数据6包括服务进程名、品质信息、累计不能动作时间及违约信息。服务进程名是在服务器装置31(32)中动作的服务进程的名称。品质信息是服务进程要保证的品质。品质信息例如由SLA决定。该品质是服务进程中适用的可用性、性能等。该性能是服务进程的平均响应时间等。累计不能动作时间是服务进程成为不能动作的时间的总和。违约信息是对品质信息无法达成的程度进行表示的信息。在图2的例子中，违约信息是违约金。违约金例如通过对超过品质信息允许的不能动作时间的时间(以下称为“违约时间”。)乘以时间单价的量的费用而生成。

对图2的具体例进行说明。服务进程A的品质信息表示服务进程A的累计不能动作时间在1年间为52分钟以内。即，估计部3在累计不能动作时间超过52分钟时生成违约信息。此外，服务进程A的累计不能动作时间是0分钟。因此，估计部3还未生成违约信息。

服务进程B的品质信息表示服务进程B的累计不能动作时间在1年间为30分钟以内。即，估计部3在累计不能动作时间超过30分钟时生成违约信息。此外，服务进程B的累计不能动作时间是29分钟。因此，估计部3还未生成违约信息。但是，一直到发生违约金之前，使服务进程B能够为不能动作的时间还有1分钟。

服务进程N的品质信息表示服务进程N的累计不能动作时间在1年间为40分钟以内。即，估计部3在累计不能动作时间超过40分钟时生成违约信息。此外，服务进程N的累计不能动作时间是42分钟。因此，估计部3对违约时间(2分种)乘以违约时间的时间单价而生成XXX日元的违约信息(违约金)。

这样，云系统管理装置10将品质信息(例如SLA)的达成状况量化为状况数据6。品质信息的达成状况的量化针对每个服务进程进行。每个服务进程的达成状况针对每个服务进程随时记录于存储部2。

此外，违约信息的生成方法不限于上述的方法。而且，图2的品质信息关于服务进程的可用性来决定，但该品质信息不限于与服务进程的可用性有关。该品质信息也可以是与根据能够对服务器装置的资源予以使用的比例等而算出的处理时间(平均响应时间)等的服务进程的性能的信息。

图3是表示实施方式的云系统管理装置10的估计数据7的一例的图。估计数据7包括服务进程名及预想违约信息。服务进程名是服务进程的名称。预想违约信息是将服务进程的累计不能动作时间与在对服务进程进行了重新配置的情况下的不能动作时间相加而估计的。预想违约信息能够作为是否可以使服务进程停止的一个指标来利用。此外，预想违约信息的算出方法可以相应于服务进程的品质信息而任意决定。

返回到图1，估计部3基于对服务进程要保证的品质进行表示的品质信息，估计对服务进程无法达成该品质的程度进行表示的违约信息。决定部4在由于服务器装置31的故障等的理由而变得需要服务进程的重新配置的情况下，以在重新配置目的地的服务器装置中动作的至少一个服务进程的违约信息的总和最小的方式，决定成为重新配置目的地的服务器装置。

重新配置部5具备开始部8及停止部9。重新配置部5通过停止部9停止服务进程，通过开始部8开始服务进程，由此重新配置服务进程。作为一例，对将服务进程A从服务器装置31a重新配置给服务器装置32a的情况进行说明。首先，停止部9停止服务器装置31a的服务进程A。接着，开始部8在服务器装置32a中开始服务进程A。由此，重新配置部5将服务进程A从服务器装置31a移动到服务器装置32a(重新配置)。此时，从停止到开始期间经过的时间与累计不能动作时间相加后记录于存储部2。此外，在伴随着服务器装置31a的故障的重新配置的情况下，停止部9实际上不进行服务进程A的停止，但代替停止所需的时间，将服务器装置31a的故障检测所需的时间(例如，心跳(heartbeat)的超时时间)与累计不能动作时间相加。

图4是用于说明实施方式的云系统100的第1集群33的一例的图。在第1集群33中，通过品质信息保证性能或者可用性等的服务进程(以下成称为“第1服务进程”。)动作。

第1集群33是将构成云系统100的多个服务器装置31在逻辑上归结在一起而成的单位。在服务器装置31中动作的至少一个服务进程由云系统管理装置10来固定地配置。即，在服务器装置31中动作的至少一个服务进程通过基于如下系统设计的硬件及软件结构而动作，该系统设计是被决定为必须对指定的性能要求等的品质信息予以保证的系统设计。

在第1集群33包含的服务器装置31由于故障而停止了的情况下，最初进行热交换(hot swap)。本实施方式的热交换为，使第2集群34的服务器装置32的资源开放，使该服务器装置32为未使用的状态，并将该未使用的服务器装置32替换为第1集群33的故障服务器装置31。

热交换对象的服务器装置32由决定部4决定。决定部4以满足以下的2个条件的方式决定第2集群34内成为热交换的对象的服务器装置32。第1条件是，具备即使将服务器装置32与发生了故障的服务器装置31替换也能够发挥充分的性能的这种计算机资源。第2的条件是，使服务器装置32停止的结果是，通过在服务器装置32中正在动作的服务进程产生的违约信息最小。

通过该热交换，能够看作发生了故障的服务器装置31正好复原而代之以第2集群34内的服务器装置32发生了故障。也就是说，热交换后，在第1集群33中，服务进程以与原来的配置全部相同的配置重新开始。而且，在第2集群34中，与服务器装置32由于故障而停止的情况同样地，进行在服务器装置32中正在动作的服务进程的重新配置。

在图4的例子中，在服务器装置31a中，服务进程A及服务进程B正在动作。通过使服务进程A及服务进程B在相同的主机中动作，从而提高服务进程A与服务进程B之间的通信速度。由此，云系统100保证服务进程A及服务进程B的性能。而且，服务进程C在服务器装置31b中正在单独动作。因此，服务进程C能够占有服务器装置31b的CPU(Central ProcessingUnit：中央处理单元)、存储器及通信I/F等的资源。由此，云系统100保证服务进程C的性能。

图5是用于说明实施方式的云系统100的第2集群34的一例的图。在第2集群34中，通过品质信息未保证性能或者可用性等的服务进程(以下称为“第2服务进程”。)动作。第2服务进程在尽可能最大地发挥性能或者可用性等的这种环境下动作。因此，在第2集群34的服务器装置32中，积极地进行过量使用，可以提高计算机资源的利用率。即，在服务器装置32中，可以分配比物理资源多的逻辑资源。

第2集群34是将构成云系统100的多个服务器装置32在逻辑上归结在一起而成的单位。在服务器装置32中动作的至少一个服务进程由云系统管理装置10动态地配置。云系统管理装置10通过特定的算法动态地配置服务进程。该算法基于服务进程使用的服务器装置32的资源、负荷及剩余资源、以及服务进程的品质信息(例如SLA)、该服务进程提供的服务的成本(价格等)、服务进程的配置状况等的信息而决定。在第2集群包含的服务器装置32发生了故障的情况下，云系统管理装置10将在该服务器装置32中正在动作的服务进程，重新配置到第2集群34的其他的服务器装置32。

例如，设服务进程A是第2服务进程。并且，假定服务进程A正在动作的服务器装置32发生了故障。在服务器装置32a中，服务进程B正在动作。在服务器装置32b中，服务进程C及服务进程D正在动作。在服务器装置32c中，服务进程E及服务进程F正在动作。此时，重新配置部5将服务进程A重新配置，以使得对其他的服务进程的性能或者可用性等的影响尽可能减少。而且，重新配置部5进行重新配置，以使得服务进程A自身的性能或者可用性等能够尽可能最大地发挥。在图5的例子中，服务进程A的重新配置目的地，选择仅服务进程B启动着的服务器装置32a。即，该例子的决定部4，以第2服务进程均匀地配置给服务器装置32中的方式，决定服务进程A的重新配置目的地。此外，在图5中，区别服务进程A～F对服务进程进行说明，但这里的服务进程A～C与图4的服务进程A～C无关。以下，在图6及8～11中也是同样的。

图6是用于说明实施方式的云系统100的第2集群的服务进程的重新配置方法的一例的图。在图6的例子中，在服务器装置32a中，服务进程A及服务进程B正在动作。服务器装置32b表示出发生了故障。此外，设为在服务器装置32b中服务进程C及服务进程D正在动作。服务器装置32c中，服务进程E及服务进程F正在动作。

在图6的例子中，重新配置部5将在服务器装置32b中正在动作的服务进程C重新配置到服务器装置32c。而且，重新配置部5将在服务器装置32b中正在动作的服务进程D重新配置到服务器装置32a。即，在图6的例子中，重新配置部5将在服务器装置32b中正在动作的服务进程均匀地重新配置到其他的服务器装置32。由此，在第2集群中动作的服务进程的性能或者可用性等能够尽可能最大地发挥。

接着，对实施方式的云系统管理装置10的第1集群33的服务进程的重新配置方法进行说明。图7是用于说明实施方式的云系统管理装置10的第1集群33的服务进程的重新配置方法的一例的流程图。而且，图8～10是用于说明实施方式的云系统100的第1集群33的服务进程的重新配置方法的一例的图。

首先，检测部检测第1集群33内的服务器装置31的故障(步骤S1)。以图8的情况为例进行说明。在图8的例子中，第1集群33具备服务器装置31a及服务器装置31b。而且，第2集群34具备服务器装置32a、服务器装置32b及服务器装置32c。

在图8的例子中，在服务器装置31a中，服务进程A及服务进程B正在动作。服务器装置31b表示出发生了故障。检测部1检测服务器装置31b的故障。此外，设为在服务器装置31b中服务进程C及服务进程D正在动作。而且，在服务器装置32a中，服务进程G正在动作。在服务器装置32b中，服务进程H及服务进程E正在动作。在服务器装置32c中，服务进程J及服务进程K正在动作。

返回到图7，决定部4决定与检测到故障的服务器装置31热交换的服务器装置32(重新配置目的地的服务器装置32)(步骤S2)。以图9的情况为例进行说明。图9的例子是，决定部4将服务器装置31b的服务进程的重新配置目的地的服务器装置32决定为服务器装置32b的情况的例子。此外，决定部4进行的重新配置目的地的服务器装置32的决定方法(步骤S2)的详细后述。

云系统100在热交换后将成为热交换的对象的第1集群33的服务器装置31，标识为第2集群34的服务器装置32。而且，云系统100在热交换后将成为热交换的对象的第2集群34的服务器装置32，标识为第1集群33的服务器装置31。图10中示出了云系统100利用重新配置目的地的服务器装置32b作为第1集群。而且，示出了云系统100将发生了故障的服务器装置31b表示为第2集群。此外，发生了故障的服务器装置31b如果因轻微的故障等的理由能够复原，则在复原后在第2集群中利用。

返回到图7，重新配置部5使重新配置目的地的服务器装置32的服务进程(第2服务进程)停止(步骤S3)。重新配置部5使重新配置后的服务进程(第1服务进程及第2服务进程)开始(步骤S4)。以图11的情况为例进行说明。在图11的例子中，重新配置部5将需要重新配置的第1服务进程(服务进程C及服务进程D)移动到由决定部4决定的服务器装置32b。而且，重新配置部5将在重新配置目的地的服务器装置32b中正在动作的第2服务进程(服务进程H)移动到服务器装置32a。而且，重新配置部5将在重新配置目的地的服务器装置32b中正在动作的第2服务进程(服务进程E)移动到服务器装置32c。

在图11的例子中，需要重新配置的第1服务进程(服务进程C及服务进程D)正在动作的服务器装置31b，被热交换为第2集群正在使用的服务器装置32b。由此，云系统管理装置10能够保证第1集群的第1服务进程的品质(可用性或性能等)，同时能够重新配置第1服务进程。

此外，本实施方式的云系统100包括第1集群和第2集群，该第1集群是由服务器装置31构成的集群，该服务器装置31供通过品质信息规定必须保证品质的第1服务进程动作，该第2集群品质是由服务器装置32构成的集群，该服务器装置32供未通过品质信息规定必须保证品质的第2服务进程动作。但是，云系统100也可以不进行这样的区别而使集群为一个。在该情况下，云系统管理装置10相应于在各服务器装置31(32)中动作的服务进程的品质信息，与集群的种类无关地以服务器装置31(32)单位个别判定并重新配置服务进程。

而且，反之，云系统100也可以更详细地区别集群。例如，也可以根据对服务进程要保证的品质进行表示的品质信息，将供第2服务进程动作的第2集群34分为第2集群34和第3集群。即，对云系统管理装置10追加通过阈值等定量地判定服务进程要求的品质的功能。并且，云系统管理装置10将该阈值为指定的值以上的服务进程分配到第2集群34的服务器装置32。而且，云系统管理装置10将该阈值比指定的值小的服务进程分配到第3集群的服务器装置。该功能例如也可以追加到估计部3中。而且，云系统管理装置10也可以使第3集群的资源的过量使用率(分配完毕逻辑资源/物理资源)的上限比第2集群的资源的过量使用率的上限大。而且，云系统管理装置10也可以使第2集群的利用费用比第3集群的利用费用高。决定部4也可以根据对该时刻的过量使用率怎样程度地到达过量使用率的上限进行比较，来决定选择哪个集群作为热交换的对象。

而且，重新配置部5也可以不将在重新配置目的地的服务器装置31(32)中正在动作的服务进程移动到其他的服务器装置31(32)。作为这种情况，例如有品质信息是服务进程的处理时间等的情况。违约信息相应于该处理时间而决定。在重新配置目的地的服务器装置31(32)中资源有富余的情况下，即使对重新配置目的地的服务器装置31(32)追加服务进程，也无需生成违约信息。在这样的情况下，重新配置部5也可以不将在重新配置目的地的服务器装置31(32)中正在动作的服务进程移动到其他的服务器装置31(32)。

图12是用于说明实施方式的云系统管理装置10决定成为第1集群33的服务进程的重新配置目的地的服务器装置32的方法的一例的流程图。

估计部3从第2集群34内的服务器装置32中选择一个服务器装置h(步骤S11)。估计部3选择一个服务器装置h的服务进程S(步骤S12)。估计部3估计重新配置了服务进程S的情况下的违约信息(步骤S13)。估计部3判定是否对服务器装置h的服务进程S全部进行了选择(步骤S14)。在对服务器装置h的服务进程S全部进行了选择的情况下，估计部3算出该估计的合计G_h(步骤S15)。在未对服务器装置h的服务进程S全部进行了选择的情况下，返回到步骤S12。估计部3判定是否对第2集群34内的服务器装置32全部进行了选择(步骤S16)。在对第2集群34内的服务器装置32全部进行了选择的情况下，决定部4选择合计G_h最小的服务器装置h(步骤S17)。此外，在步骤S17中，决定部4也可以不是必须选择合计G_h最小的服务器装置h。例如，决定部4也可以根据其他的指标，而停止使合计G_h小的服务器装置h优先。在对第2集群34内的服务器装置32全部进行了选择的情况下，返回到步骤S11。

接着，对违约信息的估计方法的一例进行说明。每个服务进程的违约信息的估计，例如能够基于对过去1年间的不能动作时间加上重新配置耗费的预想处理时间而得到的值及品质信息(例如，SLA)来计算。这里，重新配置耗费的预想处理时间通过过去的实绩值的平均来估计。具体而言，重新配置耗费的处理时间的过去的实绩值的平均能够通过用重新配置次数去除针对每个服务进程而记录于存储部2的不能动作时间而得到。此外，在过去一次也没有进行过重新配置的情况下，重新配置的实绩值不存在，所以也可以使用事前评价的结果等。而且，也可以使用与重新配置对象的服务进程同样的其他的服务的实绩值。

此外，在重新配置后的违约信息的估计最小的服务器装置32(热交换对象的服务器装置32)存在多个的情况下(例如，违约信息为0而排列等)，为了从中选择最佳的对象服务器装置32，也对在重新配置后服务器装置32进一步发生了故障的情况下的违约信息的期望值进行估计。这样选择服务器装置32，则能够以不仅重新配置后的违约信息最小，而且在重新配置后服务器装置32进一步发生了故障的情况所考虑的违约信息的期望值也最小的方式，选择服务器装置32。

以下，对在违约信息的估计最小的服务器装置32(重新配置目的地的服务器装置32的候选)存在多个的情况下，进一步估计违约信息的期望值的方法的一例进行说明。

设第2集群34内的服务器装置32的总数为N，并对各服务器装置32分配1到N的编号。算出各服务器装置h_k(1≤k≤N)被选为重新配置目的地的服务器装置32后、第2集群34内的服务器装置32发生了故障的情况下的违约信息的期望值。

此外，在下面的说明中，假定各服务器装置h_k(1≤k≤N)发生故障的概率相同。而且，设为能够认为在各服务器装置h_k(1≤k≤N)发生故障的概率充分小，将多台服务器装置h_k同时地发生故障的情况下的违约信息的期望值看作0。即，二点故障的概率相当小，所以一点故障的违约信息的期望值被看作违约信息的期望值的主要部分。决定部4将该主要部分最小的服务器装置h_k决定为重新配置目的地。

首先，对使用的记号进行说明。将s设为在第2集群34的服务器装置32中正在动作的服务进程。将g(n，s)设为从估计基准时起对服务进程s重新配置了n次时的违约信息的估计值。具体而言，例如，从将过去1年间的不能动作时间与n次量的重新配置的预想处理时间相加而得到的值，减去通过品质信息约定的值(例如52分钟)来估计违约时间。接着，算出与该违约时间相应的违约信息(例如违约金)，并将该违约信息设为g(n，s)。此外，g(0，s)表示是服务进程s的估计基准时的违约信息。

通过下式(1)来定义进行了n次重新配置时的违约信息的增加量G(n，s)。

【数式1】

G(n，s)＝g(n，s)-g(n-1，s)…(1)

这里，为了简单地进行计算，设服务器装置h_k全部为同一机种。即，设为G(n，s)是与配置服务进程的服务器装置h_k无关地估计出的。

在将服务器装置h_k的服务进程s移动到其他的服务器装置32后(重新配置了1次后)的全部服务进程s的违约信息，能够以下式(2)表示。

【数式2】

这里，H_k是在服务器装置h_k中正在动作的服务进程的集合。此外，式(2)的第1项表示在服务器装置h_k中正在动作的服务进程s的违约信息的总和。而且，式(2)的第2项表示在服务器装置h_k以外的服务器装置32中正在动作的服务进程s的违约信息的总和。式(2)能够如以下那样变形为式(3)。

【数式3】

也就是说，将服务器装置h_k的服务进程s移动到其他的服务器装置32后的全部服务器装置32的服务进程s的违约信息，是估计基准时的违约信息(第1项)与由将服务器装置h_k上的服务进程s重新配置1次而引起的违约信息的增加量(第2项)之和。可知依赖于式(3)的k的项仅仅是第2项。

在重新配置后的违约信息的估计最小的服务器装置32存在多个的情况下(例如，违约信息以0而排列等)，表示式(3)的第2项最小(同一)的服务器装置h_k存在多个。因此，在进一步算出违约信息的估计的期望值的情况下，也可以假定下式(4)相同。

【数式4】

关于各服务器装置h_k(1≤k≤N)，算出在服务器装置h_k被选为重新配置目的地的服务器装置32后、第2集群34内的服务器装置32发生了故障的情况下的违约信息的期望值。该违约信息的期望值能够通过将由服务器装置h_i(1≤i≤N)的任1台的故障而产生的服务进程s的违约金的增加量的期望值与式(1)相加的下式(5)来算出。

【数式5】

这里，p设为服务器装置h_i的故障概率(将服务器装置h_i的故障概率假定为全部相同。)。/H_i(其中，“/”表示上线。)，是在重新配置后(进行了一次热交换后)在服务器装置h_i中动作的服务进程的集合。/G(s)(其中，“/”表示上线。)，是服务s的违约信息的增加量。

/G(s)能够以下式(6)表示。

【数式6】

式(5)能够如下所述变形为式(7)。

【数式7】

式(7)的第3项(式(4))，在成为违约信息的期望值的评价对象的服务器装置h_k之间是相同的。因此，依赖于k的项仅仅是式(7)的第1项。即，决定部4只要决定通过下式(8)算出的值成为最小的服务器装置h_k即可。

【数式8】

式(8)能够与故障概率p、各服务进程s的重新配置目的地的服务器装置32无关地确定值，因此实际上能够计算。根据上述的计算，可知，在重新配置后服务器装置h_k2次(2台)以上发生故障的情况下，能够将下式(9)利用于违约信息的期望值的估计的值的评价。

【数式9】

即，在式(8)成为相同的值的情况下(例如，以0排列的情况下)，在式(9)设为n＝3，又再一次对在估计基准时的服务器装置h_k(1≤k≤N)中正在动作的服务进程s成为重新配置的对象的情况进行评价。估计部3这样增加n的值对式(9)进行评价，由此估计违约信息的期望值。决定部4通过该违约信息的期望值，决定成为热交换的对象的服务器装置h_k。

根据本实施方式的云系统管理装置10，在云系统100内的服务器装置31(32)发生了故障时，通过估计部3、决定部4及重新配置部5，能够根据服务进程要保证的品质，将能够使用的服务器装置31(32)有效地分配给服务进程。

而且，根据本实施方式的云系统管理装置10，能够将具有品质的要求等级不同的品质信息(例如SLA)的服务进程更有效地运用于云系统100。

(其他的实施方式)

对其他的实施方式的云系统管理装置10及云系统100进行说明。上述的实施方式的云系统100中，服务器装置31(32)被全部使用。作为其他的实施方式的云系统100，对有预备服务器装置作为剩余资源的情况进行说明。

预备服务器装置作为第2集群34的服务器装置而利用。但是，在预备服务器装置中动作的服务进程(以下称为“预备服务进程”。)要保证的品质，设为比第2集群34的服务器装置32更低。例如，预备服务进程是在服务器装置31(32)在产生故障的话，即使马上停止也没有妨碍的服务进程。因此，决定部4即使将预备服务器装置31决定为热交换的对象，预备服务进程也可以不转移到其他的服务器装置31(32)、其他的预备服务器装置。决定部4在第1集群的服务器装置31发生了故障时，首先将预备服务器装置决定为热交换的对象。

本实施方式的云系统管理装置10及云系统100，即使在云系统100的资源有富余的情况下，也能够根据服务进程要保证的品质，有效地分配云系统100的资源。

接着，对实施方式的云系统100的云系统管理装置10及服务器装置31(32)的硬件的结构的一例进行说明。图13是表示实施方式的云系统的云系统管理装置及服务器装置的硬件的结构的一例的图。以下，以云系统管理装置10的情况为例进行说明。

本实施方式的云系统管理装置10具备控制部61、主存储部62、辅助存储部63、显示部64、输入部65及通信I/F部66。控制部61、主存储部62、辅助存储部63、显示部64、输入部65及通信I/F部66，经由总线67而互相连接。

控制部61执行从辅助存储部63读出到主存储部62的程序。主存储部62是ROM(ReadOnly Memory)、RAM(Random Access Memory)等存储器。辅助存储部63是HDD(Hard DiskDrive)、光学驱动器等。显示部64是对云系统管理装置10的状态等进行显示的画面。显示部64是例如液晶显示器。输入部65是用于操作云系统管理装置10的接口。输入部65是例如键盘、鼠标等。通信I/F部66是用于与网络连接的接口。

本实施方式的云系统管理装置10中执行的程序，以可安装的格式或可执行的格式的文件记录在CD－ROM、软盘(FD)、CD－R、DVD(Digital Versatile Disk)等的计算机可读取的记录介质而作为计算机、程序、产品提供。

而且，也可以构成为，将本实施方式的云系统管理装置10中执行的程序存储在与因特网等网络连接的计算机上，并经由网络下载来提供该程序。而且，也可以构成为，通过因特网等网络途径来提供或发布本实施方式的云系统管理装置10中执行的程序。

而且，也可以构成为，将本实施方式的云系统管理装置10的程序预先装入ROM等来提供。

本实施方式的云系统管理装置10中执行的程序，成为包括上述的各功能块(检测部1、估计部3、决定部4及重新配置部5)的模块结构。该各功能块作为实际的硬件，控制部61从上述辅助存储部63等中读出并执行程序，由此上述各功能块被装载到主存储部62上。即，上述各功能块在主存储部62上生成。

此外，也可以将上述的各部(检测部1、估计部3、决定部4及重新配置部5)的一部分或全部不通过软件来实现，而通过IC等的硬件来实现。而且，存储部2例如是辅助存储部63。此外，也可以将通过辅助存储部63实现的存储部2的数据展开到主存储部62中。

如以上说明，根据实施方式的云系统管理装置10，在云系统100内的服务器装置31(32)发生了故障时，通过估计部3、决定部4及重新配置部5，能够根据服务进程要保证的品质，将能够使用的服务器装置31(32)有效地分配给服务进程。

对本发明的几个实施方式进行了说明，但这些实施方式是作为例子提示的，没有限定发明的范围的意图。这些新的实施方式，能够以其他各种方式实施，在不脱离发明的主旨的范围内，能够进行各种省略、置换、变更。这些实施方式及其变形，包含于发明的范围、要旨，并且包含于请求的范围记载的发明及其等同的范围。

符号说明

1 检测部

2 存储部

3 估计部

4 决定部

5 重新配置部

6 状况数据

7 估计数据

8 开始部

9 停止部

10 云系统管理装置

20 LAN

31a～31n、31 服务器装置

32a～32n、32 服务器装置

33 第1集群

34 第2集群

40 网络

51a～51n、51 客户端装置

61 控制部

62 主存储部

63 辅助存储部

64 显示部

65 输入部

66 通信I/F

67 总线

Claims

1.一种云系统管理装置，具备：

估计部，基于品质信息，估计违约信息，所述品质信息对在云系统内的服务器装置中动作的服务进程要保证的品质进行表示，所述违约信息对所述服务进程无法达成所述品质的程度进行表示；

检测部，检测所述服务器装置的故障；

决定部，当对在检测到所述故障的所述服务器装置中动作的至少一个第1服务进程进行重新配置时，将在所述重新配置目的地的服务器装置中动作的至少一个第2服务进程的所述违约信息的总和小的所述服务器装置优先地、决定为所述重新配置目的地的服务器装置；以及

重新配置部，通过将所述第1服务进程移动到所述重新配置目的地的服务器装置，来进行重新配置。

2.如权利要求1所述的云系统管理装置，

所述重新配置部还通过将所述第2服务进程移动到其他的所述服务器装置，来进行重新配置。

3.如权利要求2所述的云系统管理装置，

所述云系统包括：

第1集群，由供所述第1服务进程动作的第1服务器装置构成，所述第1服务进程是通过所述品质信息规定必须保证所述品质的服务进程；以及

第2集群，由供所述第2服务进程动作的第2服务器装置构成，所述第2服务进程是未通过所述品质信息规定必须保证所述品质的服务进程，

在检测到所述第1服务器装置的故障的情况下，所述决定部将所述第2服务器装置中的、在进行重新配置的情况下的所述服务进程的所述违约信息的总和小的所述第2服务器装置优先地、决定为成为在所述第1服务器装置中动作的所述第1服务进程的重新配置目的地的所述服务器装置。

4.如权利要求2所述的云系统管理装置，

所述云系统包括由供所述第2服务进程动作的第2服务器装置构成的第2集群，所述第2服务进程是未通过所述品质信息规定必须保证所述品质的服务进程，

所述其他的服务器装置是所述第2服务器装置。

5.如权利要求1至4任一项所述的云系统管理装置，

所述估计部通过将所述服务进程的累计不能动作时间与重新配置了所述服务进程的情况下的不能动作时间相加，来估计所述违约信息。

6.如权利要求1至4任一项所述的云系统管理装置，

所述估计部通过处理时间来估计所述违约信息，

所述处理时间是，在将所述第1服务进程转移到重新配置目的地的所述服务器装置的情况下，根据所述第1服务进程能够对所述重新配置目的地的服务器装置的资源加以使用的比例而算出的时间。

7.一种云系统，具备：

供至少一个服务进程动作的多个服务器装置；以及

云系统管理装置，

所述云系统管理装置具备：

检测部，检测所述服务器装置的故障；

8.一种重新配置方法，包括：

估计部基于品质信息，估计违约信息的步骤，所述品质信息对在云系统内的服务器装置中动作的服务进程要保证的品质进行表示，所述违约信息对所述服务进程无法达成所述品质的程度进行表示；

检测部检测所述服务器装置的故障的步骤；

当对在检测到所述故障的所述服务器装置中动作的至少一个第1服务进程进行重新配置时，决定部将在所述重新配置目的地的服务器装置中动作的至少一个第2服务进程的所述违约信息的总和小的所述服务器装置优先地、决定为所述重新配置目的地的服务器装置的步骤；以及

重新配置部通过将所述第1服务进程移动到所述重新配置目的地的服务器装置来进行重新配置的步骤。