CN103858108A

CN103858108A - 硬件消耗架构

Info

Publication number: CN103858108A
Application number: CN201280048105.3A
Authority: CN
Inventors: E·J·鲍尔; R·S·亚当斯; W·D·里恩茨; M·M·克勒赫蒂
Original assignee: Alcatel Lucent SAS
Current assignee: Alcatel Lucent SAS
Priority date: 2011-09-30
Filing date: 2012-09-11
Publication date: 2014-06-11
Also published as: US20130086411A1; JP2014531690A; US9183102B2; IN2014DN02025A; WO2013048721A1; KR20140056371A; EP2761458A1

Abstract

各示例性实施例涉及方法和有关节点，所述方法包含以下中的一个或多个：识别多个硬件组件中的失效组件的硬件失效；确定当前被配置为使用所述失效组件的代理设备的集合；将代理设备重新配置为使用所述多个硬件组件中的工作组件。另外或可替代地，各示例性实施例涉及方法和有关网络节点，所述方法包含以下中的一个或多个：预计针对所述硬件模块的失效日期；基于针对所述硬件模块的目标更换日期来确定所预计的失效日期是否是可接受的；如果所预计的失效日期是不可接受的，则：选择针对所述硬件组件的参数调节，其中选择所述参数调节以将所预计的失效日期移动到更接近于所述目标更换日期，并且将所述参数调节应用于所述硬件组件。

Description

硬件消耗架构

相关申请交叉引用

本申请交叉引用以下共同待决申请：申请号[待确定]，代理人案号为ALC3748，Bauer等人的“LIVE MODULE DIAGNOSTIC TESTING”，其整体通过引用包含于此。

技术领域

本文公开的各种示例性实施例一般涉及系统可靠性和可用性。

背景技术

诸如虚拟化和云计算技术的崛起已经促进了将先前与专用和独立的硬件相关联的各种应用移动到提供共享硬件资源的机器上。这种所谓的“服务器整合”允许更充分地使用可用资源，并且因此降低了与未充分使用的资源相关联的成本。例如，通过使先前仅轻度使用的服务器退役，可以降低能量消耗、占地面积以及其它服务器成本。

然而，服务器整合可能导致各种不利的影响。提高硬件资源的使用能够提高硬件的失效率。然后，这些失效能够影响使用该硬件的应用。此外，在当前的架构下，当现场可更换单元（FRU）的硬件组件（诸如刀片或机架安装服务器）失效时，常常必须替换或维修该单元，从可用于应用执行的资源池中移除该服务器，即使该服务器的大多数硬件组件仍是可运行的。

发明内容

以下提供各种示例性实施例的简要概述。在以下概述中可能做出一些简化和省略，其旨在突出和介绍各种示例性实施例的一些方面，而不是旨在限制本发明的范围。优选示例性实施例的详细说明将跟随在后面部分，其充分地允许本领域的普通技术人员制造并使用本发明构思。

各示例性实施例涉及由硬件管理设备执行的用于使能硬件系统的增量失效的方法，所述硬件系统包含多个硬件组件，所述方法包含以下中的一个或多个：识别所述多个硬件组件中的失效组件的硬件失效；确定当前被配置为使用所述失效组件的代理设备的集合；以及针对所述代理设备的集合中的至少一个代理设备，将所述代理设备重新配置为使用所述多个硬件组件中的工作组件以代替所述失效组件；以及停用所述失效组件，其中所述多个硬件组件中的其它硬件组件仍然继续运行。

各示例性实施例涉及能够增量硬件失效的硬件系统，所述硬件系统包含：电路板；安装在所述电路板上的多个硬件组件；以及管理设备，其在运行时间期间停用所述多个硬件组件中的至少一个硬件组件，而所述多个硬件组件中的至少一个剩余的组件仍然继续运行。

各种示例性实施例涉及有形和非暂时性的机器可读存储介质，使用用于由硬件管理设备执行的用于使能硬件系统的增量失效的指令对所述机器可读存储介质进行编码，所述硬件系统包含多个硬件组件，所述有形和非暂时性的机器可读存储介质包含以下中的一个或多个：用于识别所述多个硬件组件中的失效组件的硬件失效的指令；用于确定当前被配置为使用所述失效组件的代理设备的集合的指令；以及用于针对所述代理设备的集合中的至少一个代理设备将所述代理设备重新配置为使用所述多个硬件组件中的工作组件以代替所述失效组件的指令；以及用于停用所述失效组件的指令，其中所述多个硬件组件中的其它硬件组件仍然继续运行。

各种示例性实施例另外包含重新配置所述硬件模块以切断所述失效组件的电源，同时继续向所述多个硬件组件中的至少另一个硬件组件提供电力。

描述了各种示例性实施例，其中所述硬件系统是包含电路板的硬件模块，在所述电路板上安装了所述多个硬件组件。

描述了各种示例性实施例，其中安装在所述电路板上的所有硬件组件是具有单个类型的硬件组件。

描述了各种示例性实施例，其中所述硬件管理设备包含管理程序（hypervisor），并且其中所述硬件管理设备使用所述多个硬件组件中的至少一个硬件组件来运行。

描述了各种示例性实施例，其中所述硬件管理设备包含云计算网关设备，并且其中：所述云管理设备管理多个管理程序；并且所述多个管理程序中的第一管理程序管理所述多个硬件组件。

各种示例性实施例另外包含：针对所述代理设备的集合中的至少一个代理设备，将所述代理设备重新配置为由所述多个管理程序中的第二管理程序来管理。

各种示例性实施例涉及由硬件管理设备执行的用于控制硬件模块的消耗的方法，所述硬件模块包含多个硬件组件，所述方法包含以下中的一个或多个：预计针对所述硬件模块的失效日期；基于针对所述硬件模块的目标更换日期来确定所预计的失效日期是否是可接受的；如果所预计的失效日期是不可接受的：则针对所述多个硬件组件中的至少一个硬件组件确定至少一个参数调节，其中选择所述至少一个参数调节以将所预计的失效日期移动到更接近于所述目标更换日期，并且将所述至少一个参数调节应用于所述多个硬件组件中的所述至少一个硬件组件。

各种示例性实施例涉及用于控制硬件模块的消耗的硬件管理设备，所述硬件模块包含多个硬件组件，所述硬件管理设备包含以下中的一个或多个：消耗策略引擎，其被配置为：预计针对所述硬件模块的失效日期，并且基于针对所述硬件模块的目标更换日期来确定所预计的失效日期是否是可接受的；以及参数调节器，其被配置为如果所预计的失效日期是不可接受的：则针对所述多个硬件组件中的至少一个硬件组件确定至少一个参数调节，其中选择所述至少一个参数调节以将所预计的失效日期移动到更接近于所述目标更换日期，并且将所述至少一个参数调节应用于所述多个硬件组件中的所述至少一个硬件组件。

各种示例性实施例涉及有形和非暂时性的机器可读存储介质，使用用于由硬件管理设备执行的用于控制硬件模块的消耗的指令对所述机器可读存储介质进行编码，所述硬件模块包含多个硬件组件，所述有形和非暂时性的机器可读存储介质包含以下中的一个或多个：用于预计针对所述硬件模块的失效日期的指令；用于基于针对所述硬件模块的目标更换日期来确定所预计的失效日期是否是可接受的指令；指令，所述指令用于如果所预计的失效日期是不可接受的：则针对所述多个硬件组件中的至少一个硬件组件确定至少一个参数调节，其中选择所述至少一个参数调节以将所预计的失效日期移动到更接近于所述目标更换日期，并且将所述至少一个参数调节应用于所述多个硬件组件中的所述至少一个硬件组件。

描述了各种示例性实施例，其中选择所述至少一个参数调节以使得所述硬件模块早于所预计的失效日期失效。

各种示例性实施例另外包含：基于针对所述多个硬件组件中的每个硬件组件的失效率来估计针对所述模块的当前生命阶段；其中基于所述模块的所述当前生命阶段来执行所述预计针对所述硬件组件的失效日期的步骤。

描述了各种示例性实施例，其中所述硬件管理设备管理多个硬件模块，并且每个硬件模块与当前的生命阶段相关联，并且还包含以下中的一个或多个：接收用于建立代理设备的请求；确定与所述请求相关联的生命阶段许可，其中所述生命阶段许可指示具有许可的生命阶段的模块应当用于满足所述请求；选择所述多个硬件模块中的硬件模块，其中所选择的硬件模块与所许可的生命阶段相关联；以及使用所选择的硬件模块来满足所述请求。

描述了各种示例性实施例，其中所述预计针对所述硬件模块的失效日期的步骤包含：预计在哪个日期将满足失效条件的日期，其中当小于配置数目的仍可运行的硬件组件时符合所述失效条件。

各种示例性实施例另外包含：确定所述多个硬件组件中的至少一个硬件组件的失效率，其中基于所述多个硬件组件中的至少一个硬件组件的所述失效率来执行所述预计针对所述硬件模块的失效日期的步骤。

描述了各种示例性实施例，其中所述至少一个参数调节包含对以下中的至少一个进行调节：冷却率、电压、时钟频率以及激活调度。

附图说明

为了更好地理解各种示例性实施例，可参照附图，其中：

图1a说明了用于提供共享硬件资源的示例性系统；

图1b说明了针对图1a的一些组件的可替代布置；

图1c说明了针对图1a的一些组件的另一可替代布置；

图2说明了用于提供可消耗的硬件资源的示例性硬件系统；

图3说明了用于处理失效硬件组件的示例性方法；

图4说明了随着时间的硬件模块失效率的示例性图；

图5说明了用于存储硬件状态信息的示例性数据布置；

图6说明了用于控制硬件资源的消耗的示例性方法；以及

图7说明了用于调节硬件参数的示例性方法。

为便于理解，已经使用相同的标记指明具有基本上相同或类似结构和/或基本上相同或类似功能的元素。

具体实施方式

鉴于上述，提供一种限制失效硬件资源对整个可使用资源的影响的硬件架构将是可取的。特别地，对于此类架构以停用任何失效的组件同时所有其它组件仍然充分运行将是可取的。现在参照附图，公开了各种示例性实施例的广泛方面。

图1a说明了用于提供共享硬件资源的示例性系统100a。可以共享此类硬件资源，例如以支持服务客户端用户的一些网络应用。示例性系统可包含：若干客户端设备110a-c、网络120、云计算网关130、资源分配设备140a-b、以及若干代理设备150a-d。资源分配设备140a-d和代理设备150a-d可位于一个或多个云计算基础设施中。

客户端设备110a-c每一个都可包含能够与诸如网络120的网络通信的任何设备。虽然这里示出了三个设备，但是示例性系统100a可包含更少或更多的设备。此外，在运行期间，加入示例性系统100a中的客户端设备的数量可以变化。例如，客户端设备110a可停止加入示例性系统100a和/或另两个客户端设备（未示出）可开始类似的加入。

每个客户端设备110a-c可以是能够经由网络120与另外设备通信的个人或便携计算机、终端、服务器、平板电脑、无线电子邮件设备、蜂窝电话、智能电话、电视机顶盒、或任何其它设备。每个客户端设备110a-c可出于不同原因加入示例性系统110a。例如，客户端设备110a可以是瘦客户端并且可依赖于示例性系统内的其它资源以执行与客户端设备110a有关的各种常规操作。作为另一示例，客户端设备110b可以是能够独立执行大多数任务的个人计算机，并可依赖于示例性系统100a内的其它资源来存储和检索数据，诸如例如大音乐或电子书集合。作为又一示例，客户端设备110c可以是服务器，其接收并响应来自其它设备（未示出）的请求。当此类请求到达的速率对客户端110c来说太快而不能在用于测定服务器负载的效率、响应时间或其它标准的一些量度内进行处理时，客户端设备110c可以依赖于示例性系统100a内的其它资源来处理此类请求的一部分。

网络120可以是适应于在示例性系统100a的其它设备之间提供通信的一个设备或一组设备。因此，网络120可包含：用于将分组转发到适当目的地的若干路由器和/或交换机。在各种实施例中，网络120可包含一个或多个2G、3G，和/或4G系统和/或其它无线系统。此外，在各种实施例中，网络120可包含有线网络，诸如互联网和/或一个或多个局域网（LAN）。

云计算网关130可以是适应于管理硬件资源的一个设备或一组设备。照此，云计算网关可实现诸如代理设备150a-d的代理设备的建立，在客户端设备110a-c和代理设备150a-d之间路由消息，改变用户对硬件的使用，监控硬件资源的状态，和/或控制硬件资源的消耗。以下将参照图2更详细地描述云计算网关的详细操作。

如以下将更详细地描述的，由云计算网关130管理的硬件资源可包含若干硬件模块。每个硬件模块可以是包含若干硬件组件的电路板。硬件组件进而提供由云计算网关130管理的硬件资源。例如，一种硬件模块可以是安装三十二个处理器的电路板。云计算网关130可操作以至少部分地管理这些三十二个处理器的处理能力的使用和消耗。此外，将参照图2描述硬件模块的进一步示例。如所示出的，示例性系统100a可包含两个硬件模块160a、170a。需要注意的是，虽然说明了两个硬件模块160a、170a，但是示例性系统100a可包含更少或更多的硬件模块（未示出）。

资源分配设备140a-b每一个都可以是使用硬件模块（诸如硬件模块160a、170a）的硬件资源的设备。资源分配设备140a-b还可以管理代理设备150a-d。例如，资源分配设备140a可管理代理设备150a-b，而资源分配设备140b可管理代理设备150c-d。在管理代理设备150a-d中，资源分配设备140a-b可相对于每个代理设备140a-d分配和/或实施硬件模块160a、170a的共享硬件资源。例如，资源分配设备140a可确保代理设备1150a可使用第一CPU上的20%的处理时间，而代理设备M150b可使用同一CPU上的10%的处理时间。因此，在各种实施例中，资源分配设备140a-b每一个都可包含管理程序。资源分配设备140a-b可执行许多另外的功能，诸如例如请求和响应消息路由、资源保留、负载均衡、使用计量、和/或计费。需要注意的是，虽然示例性系统100a包含两个资源分配设备140a-b，但是各种实施例可包含更少或更多的资源分配设备（未示出）。

代理设备150a-d每一个都有可以是被配置为结合客户端设备110a-c中的一个或多个客户端设备操作的设备。每个代理设备150a-d可包含硬件资源，诸如一个或多个处理器、存储器、存储设备、和/或网络接口。在各种实施例中，代理设备150a-d可以与其它代理设备150a-d和/或资源分配设备140a-b共享此类硬件资源。例如，代理设备1150a可以与资源分配设备140a和代理设备M150b共享CPU。可以将此类硬件资源安排在诸如硬件模块160a、170a的一个或多个物理硬件模块中。在各种实施例中，代理设备150a-d中的一个或多个代理设备可包含虚拟机。

根据一些实施例，资源分配设备140a-b可与它们管理的代理设备150a-d一起位于相同的物理硬件模块。例如，资源分配设备140a和代理设备150a-b可以一起位于单个物理硬件模块160a。在此类实施例中，资源分配设备140a可包含管理程序，而代理设备150a-b每一个可包含虚拟机，所有的这些可使用相同的硬件模块的各种硬件组件来执行。同样地，资源分配设备140b和代理设备150c-d可以一起位于另一个物理硬件模块170a。然而，应当明显的是，本文所描述的方法可应用于各种可替代配置。例如，如图1b中所示出的可替代配置100b示出了资源分配设备140a可位于第一硬件模块160b，而代理设备150a-b可全部位于第二硬件模块162b。作为另一替代，如图1c中所示出的可替代配置100c示出了资源分配设备140a和代理设备150a-b每一个可分别位于独立的硬件模块160c、162c、164c。此外，每个资源分配设备140a和代理设备150a-b可使用由多个硬件模块提供的资源。对于本领域的技术人员来说，各种另外的布置可以是明显的。

返回到图1a，云计算网关130和/或资源分配设备140a-b可被配置为处理硬件模块的硬件组件的失效。例如，如果硬件模块160a的CPU失效或以其它方式被视为不可用，则云计算网关130和/或资源分配设备140a可通过修改该CPU的软件或硬件配置或以其它方式从可使用的资源池中移除该CPU，来停用该失效的CPU。随后，云计算网关130和/或资源分配设备140a还可通过重配置硬件模块160a以切断该失效CPU的电源来降低运营费用。云计算网关130和/或资源分配设备140a还可将先前使用该失效CPU的任何代理设备150a-b重配置为代替地使用模块160a上的不同CPU或诸如模块170a的另一模块上的CPU。以这种方式，当硬件模块160a、170a的构成组件失效时，它们仍可以保持操作。当模块递增地失效时，虽然能力降低，但是它们可以继续执行功能。当模块能力下降低于继续运行是成本高效的点时，可以废弃或替换硬件模块。以这种方式，本架构提供了针对硬件资源的消耗。

云计算网关130和/或资源分配设备140a-b还适应于管理硬件模块160a、170a的消耗。特别地，云计算网关130和/或资源分配设备140a-b可调节硬件模块160a、170a或其组件的各种运行参数，以确保硬件模块160a、170a到达它们的使用寿命的终点或者稍微超过目标更换日期。例如，如果预测到硬件模块160a早于其目标更换日期之前变成非成本高效，则云计算网关130和/或资源分配设备140a可以调节运行参数以延长该硬件模块的寿命，诸如例如调低工作电压或时钟频率以减少组件压力从而延长其使用服务寿命。相反，如果预测到硬件模块170a可在其目标更换日期之后的一段时间中仍然保持成本高效，则云计算网关130和/或资源分配设备140b可以调节运行参数以缩短该硬件模块的寿命，诸如例如提升工作负载，从而确保在更换该硬件模块前该硬件模块的最大使用，或调低制冷率，从而减少运营费用。

系统管理者可以使用上述功能来针对所有硬件模块制定周期性的更换计划。例如，系统管理者可以将每个硬件模块配置为具有三年的使用寿命，交错地使得每个月更换全部硬件模块中的1/36。在使用本文所述方法的系统中，可以确保系统管理者：当在预定日期更换硬件模块时，该硬件模块已被充分地使用，并且实际上保持运行已不再成本高效。

图2说明了用于提供可消耗硬件资源的示例性硬件系统200。示例性硬件系统200可以对应于示例性系统100a的一部分。示例性硬件系统200可包含：网络220、云计算网关230以及硬件模块260、270、280。

网络220可以是适应于在示例性系统100a的其它设备之间提供通信的一个设备或一组设备。因此，网络120可包含：用于将分组转发到适当目的地的若干路由器和/或交换机。在各种实施例中，网络120可包含一个或多个2G、3G，和/或4G系统和/或其它无线系统。此外，在各种实施例中，网络120可包含有线网络，诸如互联网和/或一个或多个局域网（LAN）。在各种实施例中，网络220可以对应于示例性系统100a的网络120。

云计算网关230可以是适应于管理硬件资源的一个设备或一组设备。因此，云计算网关230可对应于示例性系统100a的云计算网关130。云计算网关230可包含：请求处理器232、代理设备分配存储设备234、模块接口236、诊断引擎238、模块状态存储设备240、失效处理器242、消耗策略引擎244、消耗规则存储设备246、参数调节器248、管理者接口250、计费处理器252以及服务计划存储设备254。应当注意的是，云计算网关230的各种组件可以可替代地或另外地位于驻留在一个或多个硬件模块260、270、280上的一个或多个资源分配设备（未示出）处。

请求处理器232可包含：硬件和/或在机器可读存储介质上的可执行指令，其被配置为接收和处理对代理设备的请求。例如，请求处理器232可经由网络220接收来自客户端（未示出）的请求建立新代理设备的请求。随后，请求处理器可确定适当的模块260、270、280来托管该新代理设备，并且然后经由模块接口236与驻留在模块260、270、280上的资源分配设备（未示出）通信来实现该新代理设备的建立。适当的模块260、270、280的选择可以至少部分地基于如存储在模块状态存储设备240中的模块260、270、280的当前条件、如存储在服务计划存储设备254中的发送请求的用户的服务计划、和/或针对将在新代理设备上运行的应用的可靠性要求。在建立新代理设备中，请求处理器232还可更新代理设备分配存储设备的内容以反映发送请求的客户端设备、代理设备和分配给该代理设备的硬件模块（多个）之间的对应关系。

请求处理器232可执行另外的功能，诸如在客户端设备（未示出）和活动的代理设备（未示出）之间路由消息。为实现此类功能，请求处理器232可参考存储在代理设备分配存储设备234中的数据，以确定哪个资源分配设备和/或硬件模块与哪个客户端设备相关联。请求处理器232还可将关于代理设备的建立和使用的数据转发给计费处理器，使得可以对每个客户端代理设备（未示出）的用户进行适当地计费。

代理设备分配存储设备234可以是能够存储描述代理设备的信息的任何机器可读介质。因此，代理设备分配存储设备234可包含机器可读存储介质，诸如只读存储器（ROM）、随机访问存储器（RAM）、磁盘存储介质、光存储介质、闪存设备、和/或类似的存储介质。在各种实施例中，代理设备分配存储设备234可以存储每个代理设备与其相关联的资源分配设备和/或硬件模块（多个）之间的相互关系。

模块接口236可以是包含硬件和/或编码在机器可读存储介质上的可执行指令的接口，其被配置为使能与一个或多个硬件模块260、270、280通信。在各实施例中，模块接口236可包含：以太网、PCI、SCSI、ATA、和/或其它硬件接口技术。在各种实施例中，模块接口236可包含刀片服务器背板。

诊断引擎238可包含：硬件和/或在机器可读存储介质上的可执行指令，其被配置为在硬件模块260、270、280和其硬件组件262、272、274、286上实现执行各种诊断，由此来测定这些硬件设备的当前健康状况和/或失效率。在各种实施例中，诊断引擎238可周期性地启动每个硬件组件262、272、274、286的测试，以确定硬件组件262、272、274、286的当前和/或历史失效率。例如，针对执行一个或多个诊断测试，诊断引擎可以与驻留在适当硬件模块260、270、280上的资源分配设备通信以便从资源池中移除组件和/或建立新代理设备。然后，诊断引擎238可以经由模块接口236接收测试结果，并且随后更新模块状态存储设备240以反映所测试的硬件组件的当前状态。如下文将进一步详细描述的，如果测试指示硬件组件已经失效或以其它方式不可用，则诊断引擎可以向失效处理器242发送指示以采取适当的适应动作。

诊断引擎238还可使用个体硬件组件262、272、274、286的诊断结果以及各种“使用寿命”技术（如本领域已知的）来测定作为整体的硬件模块260、270、280的当前生命阶段。如下文参照图4更详细描述的，可以预期硬件组件在它们的使用寿命中的不同阶段出展示出不同的失效率。这种现象常常符合众所周知的“浴盆曲线”模型。出于分层服务计划和失效预计的目的，诊断引擎238可以适应于确定每个模块260、270、280的当前生命阶段。

模块状态存储设备240可以是能够存储关于硬件模块和硬件组件的状态信息的任何机器可读介质。因此，模块状态存储设备240可以包含机器可读存储介质，诸如只读存储器（ROM）、随机访问存储器（RAM）、磁盘存储介质、光存储介质、闪存设备、和/或类似的存储介质。下文将参照图5更详细地描述模块状态存储设备240的示例性内容。在各种实施例中，模块状态存储设备240可以是与代理设备分配存储设备234相同的设备。

失效处理器242可包含：硬件和/或在机器可读存储介质上的可执行指令，其被配置为对各种硬件组件262、272、274、286失效或以其它方式变成不可用做出反应。失效处理器242可以从诊断引擎238和/或直接从运行在相应的硬件模块260、270、280上的资源分配设备（未示出）来接收此类失效的指示。响应于硬件组件刚刚不可用的指示，失效处理器242可查阅代理设备分配存储设备234来确定哪个代理设备可能已经使用该硬件组件。失效处理器234还可确定相关联的减少能力的硬件模块是否足以继续支持当前分配给其的所有代理设备。基于这个信息，失效处理器242可以将一个或多个代理设备重新分配到其它硬件模块。例如，如果在模块A上的处理器262变成不可用，则失效处理器242可以与模块260、270上的资源分配设备通信，以实现将一个或多个代理设备移动到模块B进而确保使用模块A260的代理设备的性能不因当前减少能力的模块而受影响。

消耗策略引擎244可包含：硬件和/或在机器可读存储介质上的可执行指令，其被配置为：响应于模块的预计的剩余寿命，确定采取什么动作。在各种实施例中，使用存储在模块状态存储设备240中的状态信息，消耗策略引擎244可以使用本领域已知的各种技术预计针对每个硬件模块260、270、280的估计的失效日期。在各种实施例中，不是预计针对每个模块的全部失效的日期，而是消耗规则存储设备可以存储针对一个或多个模块260、270、280的失效条件。这个失效条件可以指定继续运行模块不再成本高效的模块状态。例如，管理者可以确定只有当至少八个处理器仍然发挥功能时继续运行模块A260才是成本高效的。因此，消耗策略引擎可以预计一个日期，在该日期时模块A260被预期为具有少于八个发挥功能的处理器。

然后，针对该模块，消耗策略引擎244可以将所预计的失效日期与目标更换日期进行比较。此类目标更换日期可被存储在消耗规则存储设备246中。如果所预计的失效日期没有充分地接近于目标更换日期，则消耗策略引擎244可以向参数调节器指出这个事实，使得可以改变该模块的消耗率。在各种实施例中，消耗策略引擎244可以要求所预计的失效日期与目标更换日期一致，而其它实施例可以允许容忍数天或数个月。此类其它实施例可与允许这种容忍超过目标更换日期，但是不能在目标更换日期之前。

消耗规则存储设备246可以是任何机器可读介质，其能够存储关于何时应当并将更换每个硬件模块的状态信息。因此，消耗规则存储设备246可以包含机器可读存储介质，诸如只读存储器（ROM）、随机访问存储器（RAM）、磁盘存储介质、光存储介质、闪存设备、和/或类似的存储介质。在各种实施例中，消耗规则存储设备246可以存储针对每个模块的失效条件和目标更换日期。在各种实施例中，消耗规则存储设备246可以是与代理设备分配存储设备234和/或模块状态存储设备240相同的设备。

参数调节器248可包含：硬件和/或在机器可读存储介质上的可执行指令，其被配置为调节硬件组件的各种运行参数以缩短或延长硬件模块的使用寿命。基于模块的目标更换日期和该模块的预计的失效日期，如由消耗策略引擎报告的，参数调节器可以使用一个或多个预测模型来确定一个或多个参数调节以可操作地将模块的预计的失效日期移动到更接近于目标更换日期。例如可以由硬件组件262、272、274、286和/或硬件模块260、270、280的硬件制造商来提供此类预测模型。例如，如果参数调节器260接收到预定在十月份对模块A260进行更换的指示，但是具有延伸通过整个十一月的预计寿命，则参数调节器248可以确定应当将模块A的使用寿命缩短一个月。使用制造商提供的预测模型，参数调节器248可以确定通过增加200MHz超频处理器262将使模块A260的使用寿命大约减少一个月。在确定适当的参数调节后，参数调节器248还可以适应于经由模块接口236与硬件模块260、270、280通信以实现在该硬件上的参数调节。

管理者接口250可包含各种设备，诸如显示器、键盘和/或鼠标，使得管理者可以与云计算网关230交互。在各种实施例中，当诊断引擎238、消耗策略引擎244或其它组件确定模块260、270、280已经失效并且必须更换时（有可能在目标更换日期之前），管理者接口可以向管理者警告该失效。此外，管理者接口250可以使能管理者修改消耗规则存储设备246的内容。例如，管理者或许可能使用管理者接口250来定义针对各种模块260、270、280的失效条件和目标更换日期。例如，鉴于更新的经营决策，管理者可以将模块A的失效条件从小于6个运行的处理器修改为小于8个运行的处理器。对本领域的技术人员来说，对于管理者接口250的各种另外使用是明显的。

计费处理器252可包含：硬件和/或在机器可读存储介质上的可执行指令，其被配置为对示例性硬件系统的用户收取费用。计费处理器252可以从请求处理器232接收活动的指示，并且随后基于用户的服务计划从相关联的用户的账户收取费用。对于本领域的技术人员来说，各种计量和计费方法是明显的。

服务计划存储设备254可以是任何机器可读介质，其能够存储关于与示例性硬件系统200的各种用户相关联的服务计划的信息。因此，服务计划存储设备254可包含机器可读存储介质，诸如只读存储器（ROM）、随机访问存储器（RAM）、磁盘存储介质、光存储介质、闪存设备、和/或类似的存储介质。在各种实施例中，服务计划存储器254可存储在针对各种用户定义权利和计费细节中有用的用户标识数据、账单信息、服务等级和其它信息。在各种实施例中，服务计划存储设备254可以是与代理设备分配存储设备243、模块状态存储设备240和/或消耗规则存储设备246相同的设备。

硬件模块260、270、280每一个都可以是提供硬件资源以供在示例性硬件系统200中使用的硬件模块。硬件模块260、270、280说明硬件模块的三种不同的可能配置。本领域的技术人员将理解的是，虽然说明了三种可能性，但是还可能存在各种可替代的配置。此外，虽然示出了三种硬件模块260、270、280，但是硬件系统200可包含更少或更多的硬件模块。

硬件模块A260可以是同构类型的硬件模块。也就是说，模块A260可包含单个类型的硬件组件。在所说明的示例中，模块A260包含十八个处理器262并且没有其它硬件组件。应当注意的是，如本文所使用的，术语“硬件组件”指的是提供硬件资源的那些组件，所述硬件资源将被用作资源分配设备或代理设备的部件，或以其它方式提供以供外部客户端设备来使用。因此，虽然模块A260可包含另外的硬件，诸如例如支持处理器262的电源和/或通信接口，但是此类硬件不构成硬件组件。

处理器262中的一个或多个处理器可以至少部分地属于资源分配设备（未示出）。如先前所解释的，资源分配设备可以至少部分地负责管理也包含处理器262中的一个或多个处理器的若干代理设备（未示出）。如上所述，模块A260可以是同构模块。照此，使用处理器262的代理设备可以另外地使用位于其它硬件模块（未示出）上的其它硬件组件。例如，使用处理器262中的一个处理器的代理设备还可使用安装在不同模块（未示出）上的主存储器（未示出）的一部分。

模块B270说明了解耦合的异构硬件模块。如所示出的，模块B270包含十二个处理器272和三个存储器组274。类似模块A260，模块B270可支持资源分配设备和多个代理设备。然而，在模块B270的情况下，每个资源分配设备和代理设备可从相同的物理模块得到多个类型的硬件资源。任何处理器272可使用任何的存储器组274；也就是说，这两个资源是解耦合的。然而，为了确保高效和有效的使用，资源分配设备可以负责为每个代理设备分配一个或多个处理器272和一个或多个存储器组274的特定份额。

模块C280说明了耦合的异构硬件模块。如所示出的，模块C280包含十八个“计算核心”286。每个计算核心286可包含作为一个单元一起工作的多个硬件设备。例如，每个计算核心286可包含处理器和存储器组（未示出）。照此，每个计算核心可以被称为硬件元素。此外，资源分配设备和若干代理设备可共享计算核心286。然而，由于各种类型的硬件资源是紧耦合的，所以资源分配设备可能未必管理将如此多的不同类型的资源分配给代理设备；反而，资源分配设备可以为每个代理设备简单地分配一个或多个计算核心286的份额。

如将相对于图3更详细地描述的，可以设计每个模块260、270、280，使得可以停用任何单个硬件组件同时剩余的硬件组件继续运行。照此，每个模块260、270、280可包含供电电路，可以针对每个安装的硬件组件由控制信号来中断该供电电路。在确定特定硬件组件已经失效或以其它方式不再可用后，可由适应于管理硬件模块的健康的资源分配设备、云计算网关和/或单独的设备（未示出）断言此类控制信号。

图3说明了用于处理失效硬件组件的示例性方法300。出于解释的目的，将假定由资源分配设备来执行方法300。然而，应当理解的是，另外地或可替代地，可以由诸如云计算网关200的云计算网关来执行示例性方法300。

示例性方法300可以在步骤305开始，并前进到步骤310，其中资源分配设备识别硬件组件故障。特别地，资源分配设备可以确定硬件组件已经失效或可能最近将失效。在各种实施例中，资源分配设备可以以其它方式认为硬件组件不可用。然后，方法300可前进到步骤315，其中资源分配设备确定哪些代理设备当前包含所述不可用硬件组件的份额。然后，在步骤320，资源分配设备可以重新分配这些代理设备以替代地使用其它硬件组件。在执行这个步骤之后，失效的组件可以不再用于向任何设备提供硬件资源。在这时，所述方法300可以可选地结束，并且资源分配设备可简单地避免在将来使用该失效的组件。

在各种实施例中，方法300可以前进到步骤325，其中资源分配设备可以重新配置该硬件模块以切断失效的硬件组件的电源。这可以具有减少功率消耗的效果，从而降低作为整体的模块的继续运行的成本。然后，在步骤330，资源分配设备可以向云计算网关报告所述失效。使用这个报告，云计算网关可以继续在更高层在多个资源分配设备之间重新分配代理设备。应当明显的是，在由云计算网关自己执行方法300的实施例中，步骤330可以不出现。然后，方法300前进在步骤335结束。

图4说明了随着时间硬件模块的失效率的示例性图400。线410示出了随着时间一块硬件的硬件失效率一般可以遵循“浴盆曲线”模型。在硬件设备的生命开始接近，由于所谓的“婴儿死亡率”硬件失效率可能相对较高。也就是说，由于潜在缺陷一些硬件设备在投入运行之后不久就失效。在这个阶段之后存活的，硬件无错地享用其大部分使用寿命。然后，当硬件老化时，由于“磨损”硬件失效频繁地增加直到最后该硬件完全不可用。

根据本文所述的系统的各种方面，出于硬件分配和计费目的，可以将硬件组件的使用寿命分类成各种阶段。如所示出的，图400被分成五个生命阶段。全新阶段421，初期阶段422，成年阶段423，磨损阶段424以及生命末端阶段425。应当明显的是，各种可替代的阶段布置也是可能的。

作为评估硬件模块的当前阶段的一部分，云计算网关和/或资源分配设备可以适应于确定硬件模块当前运行在哪个生命阶段。可以使用本领域已知的各种使用寿命技术以及模块的构成组件的历史失效率来确定这个信息。随后，这个信息可用于基于模块的生命阶段将新代理设备分配到硬件模块。例如，高级用户可以付更多的费用以使用当前运行在初期阶段422的硬件，其中不太可能有硬件失效。作为另一示例，不同的应用可能具有不同的失效容忍度。照此，可将运行在全新阶段421或磨损阶段424的硬件分配给可容忍高风险的应用。此外，云计算网关和/或资源分配设备可完全地避免处于生命末端阶段425的模块。

图5说明了用于存储硬件状态信息的示例性数据布置500。示例性数据布置500可以说明示例性系统230的模块状态存储设备240的示例性内容。数据布置可包含若干字段，诸如例如模块字段510、生命阶段字段520、组件字段530和失效率字段540。

模块字段510可以识别特定模块记录应用于的模块。生命阶段字段520可指示针对模块的最近估计的生命阶段。组件字段530可以识别安装在模块上的硬件组件。失效率字段540可以指示针对组件的最近观测到的失效率。需要注意的是，虽然数据布置500说明了嵌入在模块记录内的组件记录，但是这可以构成抽象。本领域的技术人员将认识到实际上可以以许多不同方式来存储数据布置500。例如，数据布置500可实际上存储成多个表，分别独立地专用于硬件模块和硬件组件。

作为示例，模块记录560可以指示当前估计模块A处于第三生命阶段或成年阶段423。模块记录560可包含许多组件子记录562、564、566。组件子字段562可以指示已经观测到CPU1具有5%的失效率，而组件子字段564可指示已经观测到CPU2具有50%的失效率。模块记录560可包含许多另外的组件子记录566。示例性组件记录570、580和示例性组件子字段572、573、574、576、578、582、584、586指示类似的信息，鉴于上述描述它们的含义将是明显的。

图6说明了用于控制硬件资源的消耗的示例性方法600。出于解释的目的，将假定由诸如云计算网关200的云计算网关来执行方法600。然而应当理解的是，另外地或可替代地可以由资源分配设备来执行示例性方法300。

方法600可以从步骤605开始，并前进到步骤610，其中云计算网关可以实现在硬件组件上执行诊断测试。例如，云计算网关可以从资源池中移除该组件，和/或在该组件上启动新的代理设备以执行一个或多个测试。在接收到来自诊断测试的结果后，在步骤615云计算网关可以确定所述测试是否指示该组件不再可用。在各种实施例中，当继续运行该组件不再成本高效和/或不能够用足够低的失效风险来提供可接受质量的服务时，云计算网关可以确定该组件“不再可用”并且因此“失效”。因此，尽管组件可能在技术上仍可运行，但是云计算网关可基于各种另外因素将其视为失效组件。

如果组件已经失效，则在步骤620，云计算网关可以将一个或多个代理设备迁移到不同的硬件模块以降低具有失效组件的模块上的负载。如果组件还没有失效或在云计算网关已经迁移了代理设备，则方法600可以前进到步骤625，其中云计算网关可以更新与所测试组件相关联的失效率信息。

在步骤630，云计算网关可以确定是否应当测试另外的组件。例如，云计算网关可以同时测试模块上的所有组件，或可以在特定的时间调度若干组件以用于测试。如果仍需要测试另外的组件，则方法600可以环回到步骤610。一旦已经测试了将被测试的所有组件，则方法600可从步骤630前进到步骤635。

在步骤635，云计算网关可以估计针对硬件模块的当前的生命阶段。可以根据本领域的技术人员已知的各种“使用寿命”技术并且可以基于硬件模块的构成组件的失效率来执行这个步骤。出于解释的目的，假定方法600以相对于图4详细描述的方式来定义生命阶段。将明显的是，还可以使用各种可替代的生命阶段方案。在估计了模块的生命阶段之后，云计算网关可以更新模块记录和方法600。

接着，在步骤640，云计算网关可以确定该模块是否被估计为运行在生命阶段5。也就是说，云计算网关可以确定该模块是否处于“生命末端”阶段。如果是，则在步骤645，云计算网关可以通知管理者：该模块不再可用并且应当更换。然而，如果该模块处于不同的生命阶段，则方法800可以前进到步骤650。应当注意的是，在各种可替代实施例中，云计算网关可以适应于通知管理者：在不同生命阶段（诸如例如“磨损阶段”）应当更换模块。此外，在各种实施例中，可以基于系统范围或每个模块基础由管理者来配置引出步骤645的更换通知的生命阶段。对本领域的技术人员来说，对步骤640的各种另外修改将是明显的。

在步骤650，云计算网关可以预计针对该模块的失效日期。可以基于本领域的技术人员已知的各种方法来执行这个步骤。例如，云计算网关可以使用由硬件制造商提供的预测模型来估计硬件模块何时将满足特定的失效条件。可以基于各种信息，诸如例如该模块的生命阶段和/或其构成组件的失效率，来做出这种确定。

在步骤655中，云计算网关可以继续确定预计的失效日期是否充分接近于目标更换日期。在各种实施例中，方法600可以要求这两个日期相一致，而在其它实施例中，方法600可以允许在这两个日期中的预定变化。如果这两个日期充分接近，则可将模块视为在通往由更换日期所消耗的轨道上，并且方法600可以前进在步骤655结束。

然而，如果这两个日期不是充分接近，则在步骤660，云计算网关可以调节该硬件的各种运行参数。通过调节参数，云计算网关可以加速或延迟硬件模块的失效，使得现在可以预期该硬件模块将充分接近于目标更换日期而失效。下文将相对于图7更详细地描述用于实现这个功能的示例性过程。在重新配置硬件模块后，方法600可以前进在步骤665结束。

图7说明了用于调节硬件参数的示例性方法700。出于解释的目的，将假定由诸如云计算网关200的云计算网关来执行方法700。然而，应当理解的是，另外地或可替代地，可以由资源分配设备来执行示例性方法700。方法700可对应于方法600的步骤660。

方法700可以从步骤705开始，并且前进到步骤710，其中云计算网关可以确定参数以进行调节。例如，云计算网关可确定它应当调节时钟频率、制冷率和/或施加电压。可替代地或另外地，云计算网关可调节激活计划表，使得组件在硬件模块运行的时间的更短或更长比例的时间段中是活动的。可以基于预定的参数优先级、规则引擎（其应用规则集合以用于基于上下文数据来确定适当的参数）、或本领域的技术人员已知的另外方法，来做出这个决定。

接着，在步骤715，云计算网关可以确定应当如何调节所选择的参数。例如，云计算网关可以使用与所选择的参数相关联的预测模型来确定如何修改所述参数将使得模块符合目标更换日期。例如，预测模型可以指示将模块上的CPU超频200MHz，降低10%的冷却，或将每个CPU是活动的时间比例提高10%将使得该模块接近于目标更换日期而失效。然后，在步骤725，云计算网关可以确定参数值是否是可接受的。例如，如果参数值不可行或不切实际，则该参数值可能是不可接受的。例如，超过某水平时，模块可能不能安全地增加电压。作为另一示例，如果在CPU上的当前负载已经较低，则超频该CPU可能不切实际。如果参数值不可接受，则方法可前进到步骤730。

在步骤730，云计算网关可以确定可替代的调节。例如，云计算网关可以选择介于当前值和在步骤715中所确定的值之间的参数值。可替代地，云计算网关可以确定根本不应当调整参数。接着，在步骤735，如果参数将被调节到可替代的值，则云计算网关可以实现此类参数调节。然而，由于使用可替代的调节，所以模块可能还没被配置为符合目标更换日期。因此，方法700可环回到步骤710，并且使用不同的参数重复这个过程。照此，云计算网关可以调节多个参数以确保接近于目标更换日期来消耗模块。

在步骤725，一旦云计算网关识别可接受的参数调节，所述可接受的参数调节将足够地使得模块符合目标更换日期，则方法700前进到步骤740。在步骤740，云计算网关可以实现参数调节，并且方法700可以前进在步骤745结束。

根据上述，各种实施例使能限制失效的硬件资源对整个可使用资源的影响的硬件结构。特别地，通过提供能够有选择地停用或不使用失效的硬件组件的硬件模块，作为单元的硬件模块可以继续运行。此外，通过监控此类硬件模块的状态并且调节其硬件组件的运行参数，硬件系统可以确保该硬件模块接近于目标更换日期而充分消耗。

根据上述描述应当明显的是，本发明的各种示例性实施例可以实现在硬件和/或固件中。此外，各种示例性实施例可以实现成存储在机器可读存储介质上的指令，可由执行至少一个处理器读取并执行所述指令以执行本文详细描述的操作。机器可读存储介质可以包含用于以机器（诸如个人或便携计算机、服务器或其它计算设备）可读形式存储信息的任何机构。因此，有形和非暂时性的机器可读存储介质可包含：只读存储器（ROM）、随机访问存储器（RAM）、磁盘存储介质、光存储介质、闪存设备、和类似的存储介质。

本领域的技术人员应当了解的是，本文中的任何框图表示具体化本发明的原理的说明性电路的概念视图。类似地，将了解的是，任何流程图表、流程图、状态转移图、伪代码等表示各种过程，所述各种过程可以基本上表示在机器可读介质中并且因此可由计算机或处理器来执行，不管此类计算机或处理器是否明确地示出。

虽然，特别是参照各种示例性实施例的某些示例性方面已经详细地描述了各种示例性实施例，但是应当理解的是，本发明能够有其它实施例并且其细节能够在各种明显的方面进行修改。如对本领域的技术人员容易明显的是，可以实现各种变型和修改同时依然保持在本发明的精神和范围内。因此，上述公开、描述和附图仅是出于说明性的目的，并且不以任何方式限制本发明，本发明仅由所附权利要求限定。

Claims

1.一种由硬件管理设备执行的用于使能硬件系统的增量失效的方法，所述硬件系统包含硬件模块，所述硬件模块包含电路板，在所述电路板上安装了多个硬件组件，所述方法包括：

识别所述多个硬件组件中的失效组件的硬件失效（310）；

确定当前被配置为使用所述失效组件的代理设备的集合（315）；

针对所述代理设备的集合中的至少一个代理设备，将所述代理设备重新配置为使用所述多个硬件组件中的工作组件以代替所述失效组件（320）；以及

停用所述失效组件（325），其中所述多个硬件组件中的其它硬件组件仍然继续运行。

2.根据权利要求1所述的方法，还包括：重新配置所述硬件模块以切断所述失效组件的电源，同时继续向所述多个硬件组件中的至少另一个硬件组件提供电力。

3.根据权利要求1至2中的任何一项所述的方法，其中安装在所述电路板上的所有硬件组件是具有单个类型的硬件组件。

4.根据权利要求1至3中的任何一项所述的方法，其中所述硬件管理设备包括管理程序，并且其中所述硬件管理设备使用所述多个硬件组件中的至少一个硬件组件来运行。

5.根据权利要求1至4中的任何一项所述的方法，其中所述硬件管理设备包括云计算网关设备，并且其中：

所述硬件管理设备管理多个管理程序；以及

所述多个管理程序中的第一管理程序管理所述多个硬件组件。

6.根据权利要求5所述的方法，还包括：

针对所述代理设备的集合中的至少一个代理设备，将所述代理设备重新配置为由所述多个管理程序中的第二管理程序来管理。

7.根据权利要求1至6中的任何一项所述的方法，还包括：

预计针对所述硬件模块的失效日期（650）；

基于针对所述硬件模块的目标更换日期来确定所预计的失效日期是否是可接受的（655）；

如果所预计的失效日期是不可接受的，则：

针对所述多个硬件组件中的至少一个硬件组件来确定至少一个参数调节（710），其中选择所述至少一个参数调节以将所预计的失效日期移动到更接近于所述目标更换日期，并且

将所述至少一个参数调节应用于所述多个硬件组件中的所述至少一个硬件组件（740）。

8.根据权利要求7所述的方法，其中选择所述至少一个参数调节以使得所述硬件模块早于所预计的失效日期失效。

9.根据权利要求7至8中的任何一项所述的方法，其中所述硬件管理设备管理多个硬件模块，并且每个硬件模块与当前的生命阶段相关联，所述方法还包括：

接收用于建立代理设备的请求；

确定与所述请求相关联的生命阶段许可，其中所述生命阶段许可指示具有许可的生命阶段的模块应当用于满足所述请求；

选择所述多个硬件模块中的硬件模块，其中所选择的硬件模块与所许可的生命阶段相关联；以及

使用所选择的硬件模块来满足所述请求。

10.一种能够增量硬件失效的硬件系统，所述硬件系统包括：

电路板（260、270、280）；

安装在所述电路板上的多个硬件组件（262、272、274、286）；

至少一个代理设备，其被配置为使用所述多个硬件组件（262、272、274、286）中的至少一个硬件组件；以及

管理设备（140a，140b），在运行时间期间其停用所述多个硬件组件中的至少一个硬件组件，而所述多个硬件组件中的至少一个剩余的组件仍然继续运行。

11.根据权利要求10所述的硬件系统，其中，在停用所述至少一个硬件组件中，所述管理设备（140a、140b）重新配置所述电路板（260、270、280）以切断所述至少一个组件的电源。

12.根据权利要求10至11中的任何一项所述的硬件系统，其中所述管理设备（140a，140b）包含管理程序，并且所述管理设备使用所述多个硬件组件中的至少一个硬件组件。

13.根据权利要求10至12中的任何一项所述的硬件系统，其中安装在所述电路板上的所有硬件组件具有相同的类型。

14.根据权利要求10至13中的任何一项所述的硬件系统，其中，在停用所述至少一个硬件组件中，所述管理设备（140a，140b）：

识别被配置为使用所述至少一个硬件组件的代理设备的集合；以及

将所述代理设备的集合中的至少一个代理设备重新配置为使用所述至少一个剩余的组件以替代所述至少一个硬件组件。

15.根据权利要求10至14中的任何一项所述的硬件系统，其中响应于确定所述至少一个硬件组件已经失效，所述管理设备（140a、140b）停用所述多个硬件组件（262、272、274、286）中的所述至少一个硬件组件。