CN106255957A

CN106255957A - 云计算资源的分配

Info

Publication number: CN106255957A
Application number: CN201480078625.8A
Authority: CN
Inventors: C.奥尔罗格
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2014-04-30
Filing date: 2014-04-30
Publication date: 2016-12-21
Also published as: EP3138002A1; US20170054592A1; WO2015167380A1

Abstract

本发明涉及用于分配物理云计算资源（12，16，18）到进程的方法、布置(26)、计算机程序和计算机程序产品，其中，至少一些云计算资源（12，16，18）具有不同寿命，所述云计算资源（12，16，18）具有单独的主要失效概率，每个概率基于云计算资源的寿命相关的失效概率函数。布置接收对为多个进程执行计算任务的请求，其中，进程具有不同进程优先级，调查用于执行请求的任务的云计算资源的可用性，以及基于进程优先级来指派可用云计算资源到进程，其中，有最高进程优先级的进程被指派到具有最低主要失效概率的云计算资源（12，16，18）。

Description

云计算资源的分配

技术领域

本发明一般涉及云计算。更具体地说，本发明涉及用于分配物理云计算资源到进程的方法、布置、计算机程序和计算机程序产品。

背景技术

随着诸如所谓的云计算等远程计算操作的发展，数据中心管理已变得越来越重要。

为各种应用执行计算操作的大型数据中心因此在稍后几年已变得常见。

在这些情况下，各种类型的应用发送处理请求到此类数据中心，请求的处理在其中执行，并且结果随后被输送到请求装置或网络。

通常在数据中心管理中，且具体而言在云设定中，有经常称为调度器的功能，其指派特定工作负载到特定硬件实例，即，指派处理任务到特定物理资源。

调度器因此负责指派数据中心内的硬件资源，并且这些资源执行处理并且将结果发送到请求计算机或人。在运行某一类型进程的请求计算机则不知道或为此不关心在数据中心中哪个物理资源执行处理，而只关注处理已完成的事实，其中，在数据中心中在云计算资源上执行的处理可以是虚拟机。此外，在此操作中，任务的处理必须达到一些的可靠性要求。由应用指派的任务的处理可根据服务级别协议(SLA)处理，协议指定由应用指派的任务的处理需要有多可靠。例如，可存在与识别在应用的任务的处理中由数据中心要求的可靠性的协议关联的平均修复时间MTTR或可用性值。

对于此类数据中心，因此可存在需要满足的多个不同可用率。例如，一个应用可要求99.999%的可用性，另一应用要求99.99%的可用性，以及其它应用可要求99.9%的可用性。

对于执行云计算的数据中心，因此，关注的是能够满足各种要求。然而，这可需要与物理资源的有效使用相组合。

因此，存在云计算数据中心能够在以有效方式使用物理资源的同时，满足由各种应用要求的各种可用率的方法的需要。

发明内容

本发明的一个目的因此是指派云计算资源到进程，并且在以有效方式使用物理资源的同时，组合满足各种应用的可用率要求。

根据第一方面，此目的通过一种用于分配物理云计算资源到进程的布置而实现。至少一些云计算资源具有不同寿命（age）。它们也具有单独的主要失效概率（primaryfailure probability），每个概率基于云计算资源的寿命相关的失效概率函数。布置包括对计算机指令起作用的处理器，由此布置操作以：

接收对为多个进程执行计算任务的请求，进程具有不同进程优先级，

调查用于执行请求的任务的云计算资源的可用性，以及

基于进程优先级来指派可用云计算资源到进程，其中有最高进程优先级的进程被指派到具有最低主要失效概率的云计算资源。

根据第二方面，此目的通过一种用于分配物理云计算资源到进程的方法而实现。至少一些云计算资源具有不同寿命。它们也具有单独的主要失效概率，每个概率基于云计算资源的寿命相关的失效概率函数。方法在云计算资源分配布置中执行，并且包括：

调查用于执行请求的任务的云计算资源的可用性，以及

根据第三方面，此目的通过一种用于分配物理云计算资源到进程的计算机程序而实现。至少一些云计算资源具有不同寿命。云计算资源也具有单独的主要失效概率，每个概率基于云计算资源的寿命相关的失效概率函数。计算机程序包括在用于分配云计算资源的布置中运行时，使得布置执行以下操作的计算机程序代码：

调查用于执行请求的任务的云计算资源的可用性，以及

根据第四方面，此目的通过一种用于分配物理云计算资源到进程的计算机程序产品而实现。计算机程序产品包括带有如第三方面所述计算机程序代码的数据载体。

根据上面提及的方面的本发明具有多个优点。它组合了满足可用性要求和云计算资源的有效使用。这样，与设备的良好使用相组合，未能满足合约义务的风险得以降低，这从维护角度而言可以是有利的。

在第一方面的有利变化中，布置还配置成基于寿命和失效概率函数，确定每个云计算资源的主要失效概率。

在第二方面的对应变化中，方法还包括基于寿命和失效概率函数，确定每个云计算资源的主要失效概率。

至少一些云计算资源可还采用辅助资源，以便其计算任务的执行。

根据第一方面的另一变化，布置还配置成在确定云计算资源的主要失效概率中，考虑使用的辅助资源的次要失效概率。

根据第二方面的对应变化，方法还包括在确定云计算资源的主要失效概率中，考虑使用的辅助资源的次要失效概率。

云计算资源的主要失效概率可基于云计算资源的利用程度。

根据第一方面的其它变化，布置还配置成查询辅助资源由云计算资源的利用程度，并且基于响应来估计利用程度。

根据第二方面的对应变化，方法还包括查询辅助资源由云计算资源的利用程度，并且基于响应来估计利用程度。

根据第一方面的又一变化，布置还配置成查询云计算资源有关指示利用的数据，并且基于响应来估计利用程度。

根据第二方面的对应的变化，方法还包括查询云计算资源有关指示利用的数据，并且基于响应来估计利用程度。

根据第一方面的其它变化，布置还配置成查询外部管理系统，并且基于响应来估计利用程度。

根据第二方面的对应的变化，方法还包括查询外部管理系统，并且基于响应来估计利用程度。

云计算资源的主要失效概率也可基于云计算资源的物理环境。

此外，云计算资源的主要失效概率可基于与云计算资源关联的故障和错误数据。

云计算资源的主要失效概率也可基于请求进程的故障和错误数据。

根据第一方面的另一变化，布置还配置成指派具有最高主要故障概率的单个云计算资源到具有最低进程优先级的请求进程。

根据第二方面的对应的变化，方法还包括指派具有最高故障概率的单个云计算资源到具有最低进程优先级的请求进程。

应强调的是，术语“包括（comprise）/包括(comprising)”当在本说明书中使用时用于指示所叙述的特征、整体、步骤或组件的存在，而不排除存在或添加一个或多个其它特征、整体、步骤、组件或其群组。

附图说明

现在将与附图相联系，更详细地描述本发明，其中：

图1以示意图方式显示与云计算数据中心进行通信的多个进程，

图2以示意图方式显示包括多个物理云计算资源和由一些云计算资源采用的辅助资源的云计算数据中心，

图3显示在云计算数据中心中实现云计算资源分配布置的第一方法的示意框图，

图4显示实现云计算资源分配布置的第二方法的示意框图，

图5显示根据第一实施例的在用于分配物理云计算资源的方法中的方法步骤的流程图，

图6显示根据第二实施例的在用于分配物理云计算资源的方法中的方法步骤的流程图，

图7以示意图方式显示由云计算资源分配布置执行的用于确定与云计算资源关联的主要故障概率的多个方法步骤，以及

图8显示包括带有用于实施云计算资源分配布置的功能性的计算机程序代码的数据载体的计算机程序产品。

具体实施方式

在下面的描述中，为了解释而不是限制的目的，阐述了特定的细节，如特定的体系结构、接口、技术等，以便提供本发明的详尽理解。然而，对本领域的技术人员显而易见的是，本发明可在脱离这些特定细节的其它实施例中实践。在其它实例中，忽略了熟知的布置、装置、电路和方法的详细描述以免不必要的细节混淆本发明的描述。

图1以示意图方式显示可以为云计算数据中心的数据中心10，各种进程将数据中心将要完成的处理任务发送到该云计算数据中心。作为备选，任务可由人发送。处理任务也可涉及在数据中心10中实施虚拟机。作为示例，存在第一进程PR1、第二进程PR2、第三进程PR3和第四进程PR4发送任务到数据中心10。作为示例，第一进程可以是语音媒体处理进程，并且第二进程PR2可以是批量数据处理进程。此外，这些进程可在处理其指派的任务方面对数据中心的可用性具有不同要求，其中可用性要求可在所谓的服务级别协议(SLA)中陈述。因此，鉴于具有优点的数据中心，不同进程可具有不同进程优先级，其中，高优先级具有高可用性要求，并且低优先级具有更低的可用性要求。优先级是业务优先级(businesspriority)，不是操作优先级。它们因此不是反映次序（要以此次序处理任务）的优先级，而是用于满足协议中规定的可用性的优先级。作为示例，可用性要求可陈述为百分比。例如，第一应用PR1可要求99.999%的可用性，第二PR2可要求99.99%的可用性，第三PR3也可要求99.99%的可用性，以及第四PR4可要求99.9%的可用性。在此情况下，第一进程PR1具有最高优先级，第二和第三进程PR2和PR3具有共享第二最高优先级，以及第四进程PR4具有最低优先级。此外，SLA也可陈述处理对安全性有多敏感。此安全性敏感度也可在进程优先级中反映。

图2以示意图方式显示在数据中心10中的各种云计算资源及辅助资源。云计算资源在此处可以是所谓的处理刀片，其基于处理器和本地固态磁盘(SSD)组合。作为示例，处理刀片可包括一个或两个处理器和诸如一个或两个SSD磁盘等一个或两个硬盘。此类处理刀片此处是第一类型的云计算资源CPRA，并且可在处理刀片机柜或机箱中提供。在图2中，有第一机柜或机箱11，其带有多个处理刀片CPRA，其中指示了第一类型CPRA 12的一个此类云计算资源。也有第二机柜或机箱14，其带有第一类型的多个云计算资源，其中指示了第二CPRA 16。处理刀片全部连接到交换器形式的第一辅助资源20以便连接到其它辅助资源。虽然仅第一机柜11的处理刀片显示为连接到交换器20，但应认识到的是，第二机柜14的处理刀片也连接到它。其它辅助资源包括网络附连存储(NAS) 22，其是用于由云计算资源和存储区域网络SAN (24)执行的处理的附加存储区域。这两种其它辅助资源可由其它硬盘组成以便执行处理器操作。作为示例，SAN可由50-100个硬盘组成。在图中也显示有第二类型的云处理资源CPRB 18，其（与第一类型相对）是独立的资源，即，不与机柜中其它云计算资源组合的云计算资源。此第二类型的资源是所谓的披萨盒(pizza box)资源，包括一个或更多个处理器，如1-4个CPU和8-10个硬盘。它一般不使用诸如SAN或NAS等辅助资源。

此外，资源可具有不同寿命。第一类型的第一云计算资源12可已在一年前投入运行，第一类型的第二云计算资源16可以是全新的，并且刚打算开始使用。另一方面，第二类型的云计算装置18在例如5年期间已投入运行。

图3显示实现云计算资源分配布置26的第一方法的示意框图。云计算资源分配布置26可以以连接到程序存储器M 30的处理器28形式提供。程序存储器30可包括实施云计算资源分配布置26的功能性的多个计算机指令，并且处理器28在对这些指令起作用时实施此功能性。因此，能够看到的是，处理器28和存储器30的组合提供云计算资源分配布置26。

图4显示实现云计算资源分配布置26的第二方式的示意框图。云计算资源分配布置26可包括主要故障概率确定单元PFPD 32、可用性调查单元AI 34和云计算资源指派单元CCRA 36。

此外，云计算资源分配布置26可还使用一些云计算资源实施，可能与辅助资源一起实施。计算机程序代码例如可存储在处理刀片的SSD磁盘之一上，并且在由相同处理刀片上的对应的处理器运行时提供资源分配布置。布置可以是固定的，表现在它被指派到固定物理资源。备选地，可能它是移动的，并且从资源移动到资源，如基于可靠性，例如从处理刀片移动到处理刀片。

现在将对图5进行参考，描述第一实施例，图5显示在用于由云计算资源分配布置执行的分配物理云计算资源的方法中的方法步骤的流程图。

如更早提及的，今天常见的是，诸如图1中的进程PR1、PR2、PR3和PR4等各种类型的进程将有关任务的执行的处理请求发送到数据中心10（例如，虚拟机的任务）。这些请求随后指派到不同云计算资源（任务在其中执行）。数据中心中的负责选择资源以执行此类任务的实体则是云计算资源分配布置26。

布置26可因此也被视为指派特定工作负载到数据中心10中特定硬件实例的调度器。

调度器或云计算资源分配布置26因此负责指派数据中心内的硬件资源或云计算资源，并且这些资源执行处理或者实施虚拟机和将可能结果发送到诸如计算机等请求实体。可在运行某一类型进程的请求实体则不知道或为此不关心在数据中心中哪个物理资源执行处理，而只知道处理已完成。作为备选，请求实体可以是人。在此操作中，处理或虚拟机可能必须达到一些的可靠性要求。由应用指派的任务的处理可根据服务级别协议(SLA)进行，协议指定由应用指派的处理需要有多可靠。例如，可存在与识别在应用的任务的处理中由数据中心要求的可靠性的协议关联的平均修复时间MTTR或可用性值。

对于执行云计算的数据中心，因此，关注的是能够满足各种可靠性要求，这不是那么简单的。

熟知的事实是硬件具有随寿命变化的失效概率分布或故障概率函数，其经常被称为浴缸(bathtub)函数，这是因为其被形成像浴缸或U。此函数（其因此是寿命相关的失效概率函数(FPF)）具有在硬件的生命期开始时高，中间低并且在末尾时越来越高的失效概率。该函数用于获得物理资源的主要故障概率。每个云计算处理资源将因此接收主要失效概率，其可基于资源的平均失效间隔时间(MTBF)值，即，上述寿命相关的失效概率函数的值。

然而，其它因素也可影响云计算资源的主要故障概率。例如，也已知的是，温度、灰尘和湿度可对硬件平均失效间隔时间(MTBF)有不利影响，并且对于一些组件（例如，固态存储装置），有源（读/写）或无源（使用的存储的百分比）利用也可直接影响MTBF。因此，这些也可用于影响物理资源的主要故障概率。

随着电信和其它关键解决方案引入云技术，已经认识到，某些应用比其它应用“更”关键。它们因此具有基于其SLA中的可用性要求的不同优先级。

在确定指派哪些资源到任务或虚拟机，以便满足在覆盖发送带有任务的请求的进程的SLA中规定的可用性要求以及以便获得处理资源的有效使用而无不必要的替换中，本发明的方面使用一些或所有上面提及的信息。

本发明的方面因此提供方法以平衡进程的可用性要求与现有硬件的有效使用。

布置26因此在为应用执行硬件的选择时，应用有关硬件生命周期的知识以及使用有关应用关键性的知识。

云计算资源分配布置26使用在数据中心中可存在物理云计算处理资源形式的硬件的事实，其中，至少一些资源具有不同寿命，这意味着它们处在其生命周期的不同阶段，并且因此具有不同可靠性。

此知识与有关要求的可用性的知识相组合，并且用于选择哪些资源将执行进程的任务。

为执行根据第一实施例的方法，云计算资源分配布置26先接收对为多个进程执行计算任务的请求，步骤38。它可因此接收对来自第一进程PR1，来自第二进程PR2，来自第三进程PR3和来自第四进程PR4的处理的请求。如更早提及的，作为备选，请求可由人发送。进程的处理每个由陈述可靠性要求的不同SLA覆盖，并且因此进程具有不同优先级，其中，如更早提及的，第一进程PR1可具有最高优先级，第二和第三进程PR2和PR3共享第二最高优先级，以及第四进程PR4可具有最低优先级。处理请求可由主要故障概率确定单元32接收。作为备选，它们可由可用性调查单元34接收。在此第一实施例中，它们由可用性调查单元34接收。

可用性调查单元34调查用于执行请求的任务或虚拟机的云计算资源的可用性，步骤40。这可涉及调查或第一和/或第二类型的哪些云计算资源占用，并且哪些自由接收任务。此调查可通过可用性调查单元34查询单独云计算资源和从中接收响应来执行。它也可通过监视资源的处理器关于处理器负载的活动，并且如果处理器负载低于处理器负载阈值，则确定处理器可用来完成。

随后，可关于主要故障概率而调查可用的那些资源。主要故障概率确定单元32可具有寄存器，其中存储了各种资源的单独主要失效概率。在其最简单的形式中，物理资源的主要失效概率只基于此资源的寿命相关的失效概率函数，即，取决于该资源的寿命的失效概率函数。主要故障概率确定单元32可因此基于寿命和失效概率函数，确定每个云计算资源的主要失效概率。主要失效概率可因此通过在对应于寿命的曲线上的值来获得。在其它实例中，也可基于多个其它输入来获得主要失效概率。例如，基于资源的操作的量，即，已使用的资源有多少，提供资源的环境（其中环境可包括操作条件，如机架或机柜中的温度，在该区域是否有任何冷却等），可调整从寿命相关的失效概率函数获得的值。也可能的是，基于云计算资源使用哪些辅助资源（如果有），调整寿命相关的失效概率函数的值。这些只是可调整资源的概率曲线以便获得云计算资源的主要故障概率的一些方式。

云计算资源指派单元36随后基于进程优先级来指派云计算资源到进程PR1、PR2、PR3、PR4，步骤42，其中有最高进程优先级的进程被指派到具有最低主要失效概率的云计算资源。这意味着具有极高可用性要求的资源可接收具有最低主要失效概率的资源。

如果第一进程PR1由语音媒体处理节点运行，则例如能够将此进程的任务调度到被认为当前处在低失效风险的硬件上，而如果第四进程PR4由带有尽力而为型（besteffort）服务级别协议的普通web服务器运行，则能够将此进程的任务调度到以前从未通电的硬件上或者调度到带有接近失效的本地SSD磁盘的处理刀片上。

这样，在确保云计算资源的更有效使用的同时，可满足SLA的可用性要求。因此，在将失效风险和应用的敏感度考虑在内的同时，硬件有着良好的利用。

现在将对图6和图7进行参考，描述第二实施例，其中，图6显示在用于分配物理云计算资源的方法中的方法步骤的流程图，并且图7以示意图方式显示由云计算资源分配布置执行的用于确定与云计算资源关联的主要故障概率的多个方法步骤。

在此实施例中，主要故障概率确定单元32保持有用于为每个处理资源或云计算资源确定主要故障概率的主要故障概率函数的清单（inventory），其中，主要故障概率基于资源的寿命（通过基于寿命相关的失效概率函数）。因此，正如在第一实施例中一样，存在基于故障曲线或MTBF曲线和资源的寿命的主要故障概率。然而，在此实施例中，存在做出的其它确定，以便获得更好地反映失效风险的主要故障概率。

对于清单中的每个硬件，因此，存在关联MTBF配置文件（profile）或故障概率函数。此MTBF配置文件能够通过将环境方面和利用方面考虑在内的动态计算而增强。此外，在清单中，可存在用于云计算资源和辅助资源两者的故障概率函数。

如在第一实施例中一样，再次接收与进程PR1、PR2、PR3和PR4有关的对于执行计算任务的多个处理请求，步骤44。布置26可因此接收对来自第一进程PR1，来自第二进程PR2，来自第三进程PR3和来自第四进程PR4的处理的请求。如以前一样，请求将根据不同SLA处理，并且因此进程具有不同进程优先级。处理请求可由主要故障概率确定单元32接收。作为备选，它们可由可用性调查单元34接收。在此第二实施例中，它们由主要故障概率确定单元32接收。

之后，主要故障概率确定单元32继续，并且确定不同资源的主要故障概率，步骤46。基于寿命和失效概率函数，确定每个云计算资源的主要失效概率。主要故障概率因此基于故障概率函数的故障概率p_MTTR。在已为各种云计算资源确定这些故障概率后，主要故障概率确定单元32向云计算资源指派单元36通知单独云计算资源的主要故障概率。

此外，可用性调查单元34调查用于执行请求的任务的云计算资源的可用性，步骤48。这可涉及调查或第一和/或第二类型的哪些云计算资源占用，并且哪些自由接收任务。这同样可通过可用性调查单元34查询单独云计算资源和接收响应来完成。它也可通过监视资源的处理器关于处理器负载的活动，并且如果处理器负载低于处理器负载阈值，则确定处理器可用来完成。

之后，云计算资源指派单元36基于进程优先级来指派云计算资源到进程PR1、PR2、PR3、PR4，步骤50，其中有最高进程优先级的进程被指派到具有最低主要失效概率的云计算资源。这意味着具有极高可用性要求的资源可接收具有最低失效概率的资源。

在资源的指派中，快速“结束摧毁(close to ruin)”一个单个云计算资源，而不是在多个资源上散布负载是更好的。因此，指派有最低优先级的可以为非关键进程的进程到具有最高主要失效概率的云处理资源可以是有利的。例如，如果第二主要云计算资源16具有最高主要失效概率，则将它指派到具有最低优先级的第四进程PR4可以是期望的。这可能引起与SSD磁盘有关的关注，其中，价格持续下降，并且在确保许多磁盘仍不可能失效的同时，所有SSD磁盘的大规模替换的时间能够拖延得越长，替换价格将越低（并且只是澄清：在磁盘完全失效前，代表非关键进程的处理可以能长时间运行）。具有最低进程优先级的请求进程可被指派具有最高主要故障概率的单个云计算资源。

如前面提及的一样，确定主要故障概率的方法可基于比故障概率函数p_MTTR的故障概率更多的输入。主要故障概率例如可对其使用的范围具有相关性。云计算资源的主要失效概率可因此基于云计算资源的利用程度。经常使用的云计算资源例如可比更不常使用的物理资源更可能变得有故障。出于此原因，主要故障概率确定单元32可查询辅助资源由各种云计算资源的利用程度，步骤52。它例如可将此类查询发送到交换器20、NAS 20和SAN24。例如，可使用像自监视、分析和报告技术(SMART)命令等机制，探测装置的利用。

辅助装置随后可通过哪些处理资源已使用它们的数据做出响应，其中，可基于响应估计利用程度。

主要故障概率确定单元32也可查询云处理资源的利用程度，步骤54。此处也可使用像SMART命令等机制来探测利用。也可能使用智能平台管理接口(IPMI)命令获得以不同速度的风扇运行时间、上电循环(power on cycles)及利用时长。

主要故障概率确定单元32也可查询外部管理系统，步骤56。例如，它可查看外部日志或数据库。随后，可基于响应来估计利用程度。

也可能可以在安装一件硬件时导入硬件利用数据 - 例如，在其从修复而恢复后，其中计数器可已归零，或者在使用利用正常运行时间的估计时。

基于所有或一些这些输入，主要失效确定单元32随后确定或估计每个云计算资源的利用程度，步骤58。此使用程度随后可接收对应的使用故障概率p_u。

主要故障概率确定单元32也可针对辅助装置的次要故障概率而调查目录，步骤60。这些概率也可与U或浴缸曲线关联，并且由每个云计算资源使用的辅助装置的值可被考虑。至少一些云计算资源采用辅助资源以便其计算任务的执行，并且主要故障概率确定单元32可在确定云计算资源的主要失效概率中考虑这些使用的辅助资源的次要失效概率SFP。

因此，可通过与所述云计算资源使用的装置关联的次要概率来调整主要故障概率。如果相关性拓扑已知（例如，计算刀片取决于网络交换器和电源），则应计算和使用总MTBF。

如果云计算资源例如使用交换器，则可使用对应的次要故障概率p_S1；如果采用NAS单元22，则可使用对应的次要故障概率p_S2；并且如果SAN单元24将要采用，则可使用对应的次要故障概率p_S3。

此外，主要故障概率确定单元32可调查每个云计算资源的物理环境，步骤62。因此，它可获得诸如温度、湿度、振动数据或电源数据（例如，指示是否有不洁的(unclean )功率尖峰等的电源数据）等环境数据。由于在冷却方面的节能使服务器室中温度上升，错误的概率模型可将数据中心中的位置或机架或机柜中的位置考虑在内以考虑不同环境方面。主要故障确定单元32可因此也提供用于每个云计算资源的环境故障概率p_e，以便使主要失效概率也基于物理环境。

作为示例，如果第一机柜11具有更佳环境，例如，如果该温度比在第二机柜14中的温度更低，则在此第一机柜11中的云计算资源将比在第二机柜14中的云计算资源具有更低环境故障概率。在此示例中，资源12将因此比资源16具有更低的环境故障概率。

主要故障概率确定单元32也可调查云计算资源的故障和错误数据，步骤64。系统也能够包括启发（heuristic）信息 - 已知例如由于存储器错误或类似物或甚至易于停电的整个站点原因而不时自发重新引导的“边界硬件”(borderline hardware)。主要故障确定单元32因此也可提供故障相关的故障概率p_f，其取决于物理资源的容易出错的程度，以便使云计算资源的主要失效概率基于与云计算资源关联的故障和错误数据。

主要故障概率确定单元32也可调查进程的故障错误数据，步骤66。针对应用的MTTR能够从启动应用的普通事件和存储这些事件中启发地确定，或者明确地包括在由云管理系统读取的应用描述符中。IT可因此也提供进程相关的故障相关故障概率p_p，以便获得也基于请求进程的故障和错误数据的云计算资源的主要失效概率。

基于所有或一些此输入以及基于寿命，并且更具体地说，基于针对此寿命的故障概率函数的故障概率pMTTR，主要故障确定单元32随后可能为所有或一些上面提及的概率确定总主要故障概率ptot，步骤68。

对于经由交换器20使用NAS 22和SAN 24两者的第一类型的云计算资源，主要故障概率例如可设置为：

P_tot = p_u + p_e + p_S1 + p_S2 + p_S3 + p_f + p_p + p_MTTR

此处，可看到的是，对于第二类型的云计算资源的对应的主要故障概率可设置为：

P_tot = p_u + p_e + p_f + p_p + p_MTTR

虽然上面未显示，但应认识到的是，在等式中使用权重是可能的。也可能以其它方式组合上述一个或更多个概率值。一些情况下，例如，次要概率和寿命相关的概率函数的概率可例如彼此相乘。

此外，可关注只使用一个或几个其它概率。作为示例，可忽略进程相关的故障相关故障概率p_p。

上述布置具有多个优点。它在满足进程的各种可靠性要求与物理资源的有效使用之间提供了良好的平衡。这样，与设备的良好使用相组合，未能满足合约义务的风险得以降低，这从维护角度而言可以是有利的。

如上提及的一样，进程的进程优先级可考虑对安全性的敏感度。这意味着在任务或处理完成后不允许任务或虚拟机的敏感数据保持在物理资源上。当云计算资源在运转时，它能够被安全地擦除/清除。然而，如果资源在处理期间崩溃，则这是不可能的。如果发生此情况，则安全人员会必须赶到数据中心10，提出并损毁硬件。通过使此敏感度反映在进程优先级中，降低了必须执行此类严厉措施的风险。

如最初暗示的一样，云计算资源分配布置26可以以带有关联程序存储器的一个或更多个处理器的形式提供，存储器包括计算机程序代码，其带有由处理器可执行以便执行云计算资源分配布置的功能性的计算机程序指令。

云计算资源分配布置的计算机程序代码也可以为计算机程序产品的形式，例如，以诸如CD ROM盘或记忆棒等数据载体的形式。在此情况下，数据载体或记棒携带带有计算机程序代码的计算机程序，其将实施上述云计算资源分配布置的功能性。图8中以示意图方式显示带有计算机程序代码72的一个此类数据载体70。

此外，可将云计算资源分配布置视为包括用于接收对为多个进程执行计算任务的请求的部件，其中用于接收的部件可通过主要故障概率确定单元或可用性调查单元来实施。

此外，可用性调查单元可被视为形成用于调查用于执行请求的任务的云计算资源的可用性的部件。

云计算资源指派单元可又被视为形成用于基于进程优先级，指派可用云计算资源到进程的部件。

主要故障概率确定单元可还被视为形成用于基于寿命和失效概率函数，确定每个云计算资源的主要失效概率的部件。此外，主要故障概率确定单元可被视为形成用于在确定云计算资源的主要失效概率中考虑使用的辅助资源的次要失效概率的部件。此外，主要故障概率确定单元可被视为形成用于基于云计算资源的利用程度，确定云计算资源的主要失效概率的部件。此外，主要故障概率确定单元可被视为形成用于查询辅助资源由云计算资源的利用程度，并且基于响应来估计利用程度的部件。主要故障概率确定单元可还被视为形成用于查询云计算资源有关指示利用的数据，并且基于响应来估计利用程度的部件。此外，主要故障概率确定单元可被视为形成用于查询外部管理系统，并且基于响应来估计利用程度的部件。此外，主要故障概率确定单元可被视为形成用于基于云计算资源的物理环境，确定云计算资源的主要失效概率的部件。此外，主要故障概率确定单元可被视为形成用于基于与云计算资源关联的故障和错误数据，确定云计算资源的主要失效概率的部件。此外，主要故障概率确定单元可被视为形成用于基于与请求进程的故障和错误数据，确定云计算资源的主要失效概率的部件。

最后，云计算资源指派单元可被视为形成用于指派具有最低进程优先级的请求进程具有最高主要故障概率的单个云计算资源的部件。

虽然结合目前视为最可行和优选的实施例描述了本发明，但要理解的是，本发明并不限于公开的实施例，而相反的是打算覆盖各种修改和等效布置。因此，本发明仅受随附权利要求限制。

Claims

1.一种用于分配物理云计算资源(12，16，18)到进程(PR1，PR2，PR3，PR4)的布置(26)，其中至少一些所述云计算资源(12，16，18)具有不同寿命，所述云计算资源(12，16，18)具有单独的主要失效概率，每个概率基于所述云计算资源的寿命相关的失效概率函数，所述布置(26)包括对计算机指令起作用的处理器(28)，由此所述布置操作以：

接收对为多个进程(PR1，PR2，PR3，PR4)执行计算任务的请求，所述进程具有不同进程优先级，

调查用于执行所述请求的所述任务的所述云计算资源的可用性，以及

基于所述进程优先级来指派所述可用云计算资源到所述进程(PR1，PR2，PR3，PR4)，其中有最高进程优先级的进程被指派到具有最低主要失效概率的云计算资源(12，16，18)。

2.如权利要求1所述的布置(26)，还操作以基于所述寿命和所述失效概率函数，确定每个云计算资源的所述主要失效概率。

3.如权利要求2所述的布置(26)，其中至少一些所述云计算资源采用辅助资源(20，22，24)以便其计算任务的执行，并且所述布置(26)还操作以在确定云计算资源的所述主要失效概率中考虑使用的辅助资源的次要失效概率。

4.如权利要求2或3所述的布置(26)，其中云计算资源的所述主要失效概率基于所述云计算资源的利用程度。

5.如权利要求4所述的布置(26)，其中至少一些所述云计算资源采用辅助资源以便执行计算任务，并且所述布置还操作以查询辅助资源由云计算资源的利用程度，并且基于响应，估计所述利用程度。

6.如权利要求4或5所述的布置(26)，还操作以查询云计算资源有关指示所述利用的数据，并且基于响应来估计所述利用程度。

7.如权利要求4-6任一项所述的布置(26)，还操作以查询外部管理系统，并且基于响应来估计所述利用程度。

8.如权利要求2-7任一项所述的布置(26)，其中云计算资源的所述主要失效概率基于所述云计算资源的物理环境。

9.如权利要求2-8任一项所述的布置(26)，其中云计算资源的所述主要失效概率基于与所述云计算资源关联的故障和错误数据。

10.如权利要求2-9任一项所述的布置(26)，其中云计算资源的所述主要失效概率基于请求进程的故障和错误数据。

11.如权利要求11所述的布置(26)，其中具有最低进程优先级的所述请求进程被指派具有最高主要故障概率的单个云计算资源。

12.一种用于分配物理云计算资源(12，16，18)到进程(PR1，PR2，PR3，PR4)的方法，其中至少一些所述云计算资源(12，16，18)具有不同寿命，所述云计算资源(12，16，18)具有单独的主要失效概率，每个概率基于所述云计算资源的寿命相关的失效概率函数，所述方法在云计算资源分配布置(26)中执行，并且包括：

接收(38；44)对为多个进程(PR1，PR2，PR3，PR4)执行计算任务的请求，所述进程具有不同进程优先级，

调查(40；48)用于执行所述请求的所述任务的所述云计算资源的可用性，以及

基于所述进程优先级来指派(42；50)所述可用云计算资源到所述进程(PR1，PR2，PR3，PR4)，其中有最高进程优先级的进程被指派到具有最低主要失效概率的所述云计算资源(12，16，18)。

13.如权利要求13所述的方法，还包括基于所述寿命和所述失效概率函数，确定(46；68)每个云计算资源的所述主要失效概率。

14.如权利要求14所述的方法，其中至少一些所述云计算资源采用辅助资源以便其计算任务的执行，所述方法还包括在确定云计算资源的所述主要失效概率中考虑(60)使用的辅助资源(20；22，24)的次要失效概率。

15.如权利要求14或15所述的方法，其中云计算资源的所述主要失效概率基于(58)所述云计算资源的利用程度。

16.如权利要求14-16任一项所述的方法，其中云计算资源的所述主要失效概率基于(62)所述云计算资源的物理环境。

17.如权利要求14-17任一项所述的方法，其中云计算资源的所述主要失效概率基于(64)与所述云计算资源关联的故障和错误数据。

18.如权利要求14-18任一项所述的方法，其中云计算资源的所述主要失效概率基于(66)请求进程的的故障和错误数据。

19.如权利要求13-19任一项所述的方法，其中可用云计算资源的所述指派包括指派具有最高故障概率的单个计算资源到具有最低进程优先级的所述请求进程。

20.一种用于分配物理云计算资源(12，16，18)到进程的计算机程序，其中至少一些所述云计算资源(12，16，18)具有不同寿命，所述云计算资源(12，16，18)具有单独的主要失效概率，每个概率基于所述云计算资源的寿命相关的失效概率函数，所述计算机程序包括在用于分配云计算资源的布置(26)中运行时使得所述布置执行以下操作的计算机程序代码(72)：

21.一种用于分配物理云计算资源到进程的计算机程序产品，所述计算机程序产品包括带有如权利要求21所述计算机程序代码(72)的数据载体(70)。