CN105940637B

CN105940637B - 用于机架级架构计算系统的工作负荷优化、调度和布置的方法和装置

Info

Publication number: CN105940637B
Application number: CN201580006083.8A
Authority: CN
Inventors: K·K·巴特法-沃尔库特; C·伍兹; G·埃斯特拉达; J·肯尼迪; J·巴特勒; S·普提尔斯基; A·乐基; V·拜恩-莫里诺; C·阿普顿; T·墨兹
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-02-27
Filing date: 2015-02-24
Publication date: 2020-03-31
Anticipated expiration: 2035-02-24
Also published as: EP3111592A1; WO2015130645A1; JP2017506776A; BR112016017483A2; EP3111592A4; US10404547B2; CN105940637A; JP6438035B2; US20160359683A1; JP2019079541A; EP3111592B1

Abstract

用于数据中心管理的技术包括各自包括机架控制器的一个或多个计算机架。所述机架控制器可以接收所述计算机架的部件的系统度量、性能度量或健康度量。所述机架控制器生成回归模型来预测部件寿命，并且可以基于所包括的硬件部件的寿命来预测逻辑机寿命。所述机架控制器可以基于剩余的部件或逻辑机寿命生成通知或调度维护会话。所述机架控制器可以使用具有类似剩余寿命的部件来构成逻辑机。在一些实施例中，所述机架控制器可以在执行应用之前基于部件故障概率验证服务级别协议。管理界面可以生成系统状态的交互式可视化并且响应于所述可视化而基于从人类输入得到的优化规则来优化数据中心调度。对其他实施例进行了描述并要求保护。

Description

用于机架级架构计算系统的工作负荷优化、调度和布置的方法和装置

相关申请的交叉引用

本申请根据35U.S.C.§119(e)要求2014年2月27日提交的题为“用于机架计算架构的工作负荷优化(WORKLOAD OPTIMIZATION FOR RACK COMPUTING ARCHITECTURES)”的美国临时申请号61/945,588以及同样是在2014年2月27日提交的题为“用于数据中心工作负荷调度和布置的灰箱优化(GRAY BOX OPTIMIZATION FOR DATACENTER WORKLOAD SCHEDULINGAND PLACEMENT)”的美国临时申请号61/945,597的优先权。

背景技术

“云”计算是经常用来指通常由在远离从中请求服务的位置的位置处联网在一起的多个计算机服务器作为服务所提供的计算资源的术语。云数据中心通常是指构成云或云的特定部分的服务器的物理安排。例如，服务器可以在数据中心物理安排成房间、组、行和机架。数据中心可以具有一个或多个“区域”，这些区域可以包括一个或多个房间的服务器。每个房间可以具有一行或多行服务器，并且每行可以包括一个或多个机架。每个机架可以包括一个或多个单独的服务器节点。区域、房间、机架和/或行中的服务器可以基于数据中心设施的物理基础设施要求而被安排成虚拟组，这些要求可以包括功率、能量、热、热量和/或其他要求。

随着云计算的普及性发展，客户越来越需要云服务提供商在他们的合同条款范围内包括服务级别协议(SLA)。这种SLA要求云服务提供商同意为客户提供至少一定级别的服务，这可以通过一个或多个度量(例如，系统正常运行时间、吞吐量等)来测量。SLA目标(包括服务交付目标(SDO)和服务级别目标(SLO)目标)、效率目标、符合性目标、能量目标(包括设施)以及其他环境和上下文约束也都可以被考虑。为了满足这种协议，云服务提供商在多个物理服务器和/或同一服务器上的多个节点或资源之间最佳分配客户工作负荷是非常重要的。然而，通常，这样的分配是基于当产生新的或待处理的工作负荷时什么资源可用而不考虑硬件故障概率，这可能导致服务提供商不能满足 SLA。

黑箱优化已在多个领域应用，但仍然存在许多其中由于问题的动态发展的性质和对人类循环中计划者和/或控制者的需要而尚未成功地应用计算优化的情况。常规优化算法可以很好地处理硬约束，例如切割和包装算法(例如，确定储存在标准集装箱中的实物的最高利润的组合)。例如，混合整数问题求解是可以处理硬约束的常规算法的一个代表性示例。黑箱优化解决方案可能需要以算法方式来描述问题，一般不参考具体领域的上下文细节。因此，这些系统可能不容易集成用户定义的知识或者发现或考虑动态变化。另外，黑箱优化算法可能不是所有用户可直接访问或可查看的。

附图简要说明

在附图中通过举例而非限制的方式展示了在此所描述的概念。为了展示的简单和清楚，图中所展示的元件不一定按比例绘制。在认为适当的情况下，在附图之间对参考标记加以重复以表示相应的或相似的元件。

图1是用于机架级计算架构中的工作负荷优化、调度和布置的系统的至少一个实施例的简化框图；

图2是图1的系统的机架控制器的环境的至少一个实施例的简化框图；

图3是可以由图1和图2的机架控制器执行的用于数据中心管理的方法的至少一个实施例的简化流程图；

图4是图1的系统的若干环境的至少一个实施例的简化框图；

图5是可以由图1和图4的机架控制器执行的用于工作负荷优化、调度和布置的方法的至少一个实施例的简化流程图；

图6是可以由图1和图4的性能数据服务器执行的用于预测工作负荷数据检索的方法的简化流程图；

图7是可以由图1和图4的机架控制器执行的用于性能监测的方法的至少一个实施例的简化流程图；

图8是可以由图1和图4的性能数据服务器执行的用于性能数据管理的方法的简化流程图；并且

图9是可以由图1和图4的系统执行的用于优化工作负荷调度和布置的方法的简化流程图。

具体实施方式

虽然本公开的概念易有多种不同修改和替代形式，但通过举例在附图中已经示出其具体实施例并且在此将对其进行详细描述。然而，应当理解的是，并不旨在将本公开的概念限制至所公开的具体形式，而是相反，意图是覆盖与本公开和所附权利要求书一致的所有修改、等效物和替代物。

说明书中提到“一个实施例”、“实施例”、“示意性实施例”等表明所描述的实施例可以包括具体特征、结构或特性，但每个实施例可能或可能不一定包括这个具体特征、结构或特性。而且，这些短语不一定指同一实施例。另外，当结合实施例描述具体特征、结构或特性时，应理解，无论是否明确描述，结合其他实施例来实现这种特征、结构或特性是在本领域的普通技术人员的知识范围内。另外，应当理解，“至少一个A、B和C”形式的列表内所包括的项可以指(A)；(B)；(C)；(A和B)；(A和C)；(B和C)；或 (A、B和C)。类似地，以“A、B或C中的至少一个”的形式列出的项可以指(A)；(B)；(C)；(A和B)；(A和C)；(B和C)；或(A、 B和C)。

在某些情况下，可以采用硬件、固件、软件或其任意组合来实现所公开的实施例。所公开的实施例还可以实现为一个或多个瞬态或非瞬态机器可读(例如，计算机可读)存储介质所携带或其上所存储的指令，这些指令可以由一个或多个处理器读取和执行。机器可读存储介质可以实施为任何存储设备、机制或其他用于存储或传输采用机器可读形式的信息的物理结构(例如，易失性或非易失性存储器、媒体盘或其他媒体设备)。

在附图中，一些结构或方法特征可能以具体安排和/或顺序示出。然而，应当理解，可以不需要这样的具体安排和/或顺序。反而，在某些实施例中，此类特征能够以与示意性附图中所示的相比不同的方式和/或顺序安排。另外，在具体的图中包括结构性特征或方法特征并不意味着暗示在所有的实施例中都需要这个特征，并且在某些实施例中，可以不包括这个特征或者这个特征可以与其他特征组合。

现在参考图1，在示意性实施例中，用于工作负荷优化、调度和布置的系统100包括通过网络108通信的若干计算机架102、管理界面104和性能数据服务器106。在使用中，计算机架102的控制器部件可以监测与计算机架102 的硬件部件相关联的系统度量、性能度量或健康度量。控制器部件确定可以用于预测每个部件的平均故障时间值的每个硬件部件的回归模型。控制器部件还可以确定构成了计算机架102的硬件部件的每个逻辑机的平均故障时间值。控制器部件可以基于平均故障时间值来管理计算机架102或系统100，例如，生成适当的警报或报警、调度维护会话或者从具有类似剩余寿命的部件构成逻辑机。因此，系统100可以提高效率并且降低用于计算机架102的维护会话的频率。

另外或替代地，在使用中，计算机架102的控制器部件可以向性能数据服务器106发送要执行的应用的描述。作为响应，性能数据服务器106发送与该应用描述相关联的预测工作负荷数据。预测工作负荷数据指示与执行所描述的应用相关联的计算机架102的各个硬件部件的使用模式。性能数据服务器106 可以基于从许多计算机架102接收的该应用的历史工作负荷数据来确定工作负荷数据。每个计算机架102可以使用硬件监测部件来监测众多性能度量。基于预测工作负荷数据，计算机架102确定与该应用相关联的硬件故障概率(例如，特定硬件部件在执行该应用预定时间段时可能出现故障的概率)。基于故障概率，计算机架102可以调度该应用由某些硬件部件(例如，具有最低故障概率的部件)来执行或者可以验证与该应用相关联的一个或多个服务级别协议。因此，系统操作者(例如，云服务提供商、管理者等)可以在客户的应用被执行之前将该客户的服务级别协议(SLA)与在预期由该应用表示的负载下硬件部件的预期寿命进行匹配。

另外或替代地，在使用中，计算应用或其他工作负荷可以使用系统100 的可用计算元件(例如，计算节点、存储器、存储装置或网络)分布在任何数量的计算机架102上。管理界面104生成当前系统状态的交互式可视化，例如包括工作负荷在计算机架102的计算元件中的当前分布和调度。管理界面104 将响应于可视化而接收到的人类输入转换成多个机器可读的用户定义的优化规则。管理界面104使用这些用户定义的优化规则以及预定义的目标和约束来优化数据中心工作负荷(即，优化工作负荷在系统100的计算元件中的布置和 /或调度)。在优化工作负荷之后，管理界面104刷新系统状态并且重复可视化和优化。因此，系统100可以是“灰箱优化”系统，该系统支持利用优化算法的直观人类交互，以便最终用户(包括非优化专家)可以向优化算法传授上下文和隐性知识，以改善所开发的解决方案。系统100可以利用多个内部约束(例如，效率)和/或外部约束(例如，服务交付目标)允许在高度异质(即，分离和/或模块化)的数据中心环境中改善工作负荷的调度和布置。另外，由于服务提供商从系统100的所有计算元件最佳获利同时严格管理运营成本的能力，系统100可以使服务提供商能够向客户提供范围广泛的服务级别和模板。另外，虽然被描述为由管理界面104执行，但是在一些实施例中，这些功能中的一些或全部功能可以由系统100的其他元件(如一个或多个计算机架102)来执行。

每个计算机架102可以实施为单独或与其他计算机架102组合能够执行在此所描述的功能的模块化计算设备。例如，计算机架102可以实施为用于机架安装模块化计算单元(如计算托盘、存储装置托盘、网络托盘或传统机架安装式部件(如服务器或交换机))的机箱。如图1中所示，每个计算机架102示意性地包括机架控制器120和连接至池式计算机柜124、池式存储器机柜130、池式存储装置机柜136以及池式网络机柜142的互连122。当然，在其他实施例中，每个计算机架102可以包括其他或附加部件，如服务器设备中常见的那些(例如，配电系统、冷却系统或各种输入/输出设备)。

应当理解，在一些实施例中，机架控制器120、池式计算机柜124、池式存储器机柜130、池式存储装置机柜136以及池式网络机柜142中的每一个可以实施为托盘、扩展板或刀片或任何其他形式因子。在这样的实施例中，每个机柜可以包括任何数量的计算部件，这些部件可以被分配给应用或工作负荷。应当理解，在其中计算机架102包括托盘、刀片或扩展板的实施例中，各个部件可以被更换或升级并且可以是“可热插拔”的。例如，在一些实施例中，池式计算机柜124可以实施为包括多个处理器和/或处理/控制电路的CPU托盘。在这样的实施例中，可以通过使用包括更新的和/或更强大的处理器的另一个池式计算机柜124换出池式计算机柜124来为计算机架102添加附加的处理功率。

池式计算机柜124可以实施为任何模块化计算单元，如计算托盘、扩展板、刀片、机箱或其他模块化单元。池式计算机柜124可以包括一个或多个处理器 126。例如，池式计算机柜124可以实施为多个计算模块或节点，每个计算模块或节点包括一个或多个处理器126。每个处理器126可以实施为能够执行在此所描述的功能的任何类型的处理器。例如，每个处理器可以实施为单个或多核处理器、数字信号处理器、微控制器或其他处理器或处理/控制电路。处理器 126可以是异质的；例如，处理器126中的某些处理器可以实施为高性能服务器处理器并且处理器126中的其他处理器可以实施为适于较高密度的部署的低功率处理器。池式计算机柜124可以包括度量部件128。度量部件128可以实施为任何性能计数器、性能监测单元或能够生成、测量或以其他方式捕获处理器126和/或池式计算机柜124的其他部件的性能度量的其他硬件监测器。

池式存储器机柜130可以实施为任何模块化存储器单元，如存储器托盘、扩展板、刀片、机箱或其他模块化单元。池式存储器机柜130包括池式存储器 132。池式存储器132可以实施为能够被分区、分配或以其他方式指派以供池式计算机柜124的处理器126中的一个或多个处理器使用的任何存储器。例如，池式存储器132可以实施为连接至易失性或非易失性存储器的池式存储器控制器，如大量常规RAM DIMM。在运行中，池式存储器机柜130可以存储在计算机架102的运行过程中所使用的各种数据和软件，如操作系统、虚拟机监测器以及用户工作负荷。池式存储器机柜130可以包括度量部件134。度量部件 134可以实施为任何性能计数器、性能监测单元或能够生成、测量或以其他方式捕获池式存储器132和/或池式存储器机柜130的其他部件的性能度量的其他硬件监测器。

类似地，池式存储装置机柜136可以实施为任何模块化存储单元，如存储装置托盘、扩展板、刀片、机箱或其他模块化单元。池式存储装置机柜136包括池式存储装置138。池式存储装置138可以实施为能够被分区、分配或以其他方式指派以供池式计算机柜124的处理器126中的一个或多个处理器使用的任何类型的数据存储装置。例如，池式存储装置138可以实施为一个或多个存储器设备和电路、存储卡、硬盘驱动、固态驱动或其他数据存储设备。例如，池式存储装置138可以被配置成存储将由计算机架102初始化和/或执行的一个或多个操作系统。池式存储装置机柜136可以包括度量部件140。度量部件140 可以实施为任何性能计数器、性能监测单元或能够生成、测量或以其他方式捕获池式存储装置138和/或池式存储装置机柜136的其他部件的性能度量的其他硬件监测器。

类似地，池式网络机柜142可以实施为任何模块化网络单元，如网络托盘、扩展板、刀片、机箱或其他模块化单元。池式网络机柜142包括池式网络设备 144。池式网络设备144可以实施为能够被分区、分配或以其他方式指派以供池式计算机柜124的处理器126中的一个或多个处理器使用的任何通信电路、设备或其集合。例如，池式网络设备144可以实施为任何数量的网络接口端口、卡或交换机。在一些实施例中，池式网络设备144可以能够在软件定义网络 (SDN)中运行。池式网络设备144可以被配置成使用任何一种或多种通信技术(例如，有线或无线通信)以及相关联的协议(例如，以太网、

WiMAX等)来实现这种通信。

池式计算机柜124、池式存储器机柜130、池式存储装置机柜136以及池式网络机柜142通过互连122连接至彼此和其他计算机架102。例如，互连122 可以实施为或另外包括存储器控制器集线器、输入/输出控制集线器、固件设备、通信链路(即，点到点的链路、总线链路、导线、电缆、光导、印刷电路板迹线等)和/或其他部件及子系统，以便于计算机架102的计算元件之间的数据传送。例如，在一些实施例中，互连122可以实施为或包括硅光子交换结构和多个光学互连。另外或替代地，在一些实施例中，互连122可以实施为或包括架顶式交换机。

机架控制器120可以实施为任何计算节点或能够针对计算机架102执行工作负荷管理和协调功能并且另外执行在此所描述的功能的其他计算设备。例如，机架控制器120可以实施为一个或多个计算机服务器、嵌入式计算设备、管理的网络设备、管理的交换机或其他计算设备。在一些实施例中，机架控制器120可以与互连122结合或以其他方式组合在(例如)架顶式交换机中。

如以上所描述的，在一些实施例中，系统100可以包括管理界面104。管理界面104被配置成为用户提供交互式界面，用于协调、管控或以其他方式管理系统100。管理界面104可以实施为能够执行在此所描述的功能的任何类型的计算或计算机设备，包括但不限于计算机、多处理器系统、服务器、机架安装式服务器、刀片服务器、膝上型计算机、笔记本计算机、平板计算机、可穿戴计算设备、网络设备、web设备、分布式计算系统、基于处理器的系统和/ 或消费电子设备。在一些实施例中，管理界面104可以实施为(例如)其中一些或所有计算功能由计算机架102执行并且用户界面功能由管理界面104执行的分布式系统。另外，在一些实施例中，管理界面140可以实施为由跨越网络 108分布并在公共或私有云中运行的多个计算设备形成的“虚拟服务器”。因此，虽然管理界面104在图1中被展示为实施为单个服务器计算设备，但是应当理解，管理界面104可以实施为在一起合作以促进下面所描述的功能的多个设备。如图1中所示，管理界面104示意性地包括处理器140、输入/输出子系统142、存储器144、数据存储设备146以及通信电路148。当然，在其他实施例中，管理界面104可以包括其他或附加部件，如工作站中常见的那些(例如，各种输入/输出设备)。另外，在某些实施例中，这些示意性部件中的一个或多个可以结合在另一部件中，或另外形成其一部分。例如，在某些实施例中，存储器144或其多个部分可以结合在处理器140中。

处理器140可以实施为能够执行在此所描述的功能的任何类型的处理器。处理器140可以实施为单个或多核处理器、数字信号处理器、微控制器或其他处理器或处理/控制电路。类似地，存储器144可以实施为能够执行在此所述功能的任何类型的易失性或非易失性存储器或数据存储装置。在运行中，存储器 144可以存储在管理界面104的运行过程中所使用的各种数据和软件，如操作系统、应用、程序、函数库和驱动程序。存储器144通过I/O子系统142通信连接至处理器140，该子系统可以实施为电路和/或部件以方便处理器140、存储器144和管理界面104的其他部件的输入/输出操作。例如，I/O子系统142 可以实施为或另外包括存储器控制器集线器、输入/输出控制集线器、集成传感器集线器、固件设备、通信链路(即，点到点的链路、总线链路、导线、电缆、光导、印刷电路板迹线等)和/或其他部件及子系统，从而便于输入/输出操作。在某些实施例中，I/O子系统142可以形成片上系统(SoC)的一部分并且与处理器140、存储器144以及管理界面104的其他部件一起被结合在单个集成电路芯片上。

数据存储设备146可以实施为被配置成用于短期或长期数据存储的任何类型的设备，例如存储器设备和电路、存储卡、硬盘驱动、固态驱动或其他数据存储设备。管理界面104的通信电路148可以实施为能够通过网络108实现管理界面104、计算机架102和/或其他远程设备之间的通信的任何通信电路、设备或其集合。通信电路148可以被配置成使用任何一种或多种通信技术(例如，有线或无线通信)以及相关联的协议(例如，以太网、

WiMAX等)来实现这种通信。

管理界面104还包括显示器150。管理界面104的显示器150可以实施为能够显示数字信息的任何类型的显示器，如液晶显示器(LCD)、发光二极管 (LED)、等离子显示器、阴极射线管(CRT)或其他类型的显示设备。如下面所进一步描述的，显示器150可以呈现交互式图形用户界面，用于系统100 的管理。

如以上所描述的，在一些实施例中，系统100可以包括性能数据服务器 106。性能数据服务器106被配置成保持使工作负荷数据与特定应用描述相关联的应用性能数据库160。性能数据服务器106可以实施为能够执行在此所描述的功能的任何类型的计算或计算机设备，包括但不限于计算机、多处理器系统、服务器、机架安装式服务器、刀片服务器、膝上型计算机、笔记本计算机、平板计算机、可穿戴计算设备、网络设备、web设备、分布式计算系统、基于处理器的系统和/或消费电子设备。性能数据服务器106可以包括服务器或类似计算设备中常见的部件和设备，如处理器、I/O子系统、存储器、数据存储设备、通信电路和/或其他外围设备。性能数据服务器106的这些各个部件可以类似于计算机架102和/或管理界面104的相应部件，对这些相应部件的描述适用于性能数据服务器106的相应部件并且在此不重复以免模糊本公开。另外，在一些实施例中，性能数据服务器106可以实施为由跨越网络108分布并在公共或私有云中运行的多个计算设备形成的“虚拟服务器”。因此，虽然性能数据服务器106在图1中被展示为实施为单个服务器计算设备，但是应当理解，性能数据服务器106可以实施为在一起合作以促进下面所描述的功能的多个设备。

如下面所更详细讨论的，计算机架102、管理界面104和性能数据服务器 106可以被配置成通过网络108彼此和/或与系统100的其他设备发送和接收数据。网络108可以实施为任何数量的各种有线和/或无线网络。例如，网络108 可以实施为或另外包括有线或无线局域网(LAN)、有线或无线广域网(WAN)、蜂窝网络和/或可公开访问的全球网络，如因特网。这样，网络108可以包括任何数量的附加设备，如附加计算机、路由器和交换机，以便于系统100的设备之间的通信。

虽然被展示为机架级架构(RSA)系统，但是在其他实施例中，系统100 可以实施为传统的数据中心、计算集群或者计算机器的其他集合。例如，系统 100可以包括通过网络通信的多个机架安装式或独立计算节点、网络交换结构、存储区域网络、云控制器或其他典型的数据中心部件。另外，在某些实施例中，这些示意性部件中的一个或多个可以结合在另一部件中，或另外形成其一部分。例如，在一些实施例中，池式存储器机柜130中的一个或多个或其多个部分可以结合在池式计算机柜124中的一个或多个中。类似地，虽然每个计算机架102被展示为包括单个池式计算机柜124、池式存储器机柜130、池式存储装置机柜136和池式网络机柜142，但是应当理解，每个计算机架102可以包括任何数量的这些模块化机柜和/或这些模块化机柜的组合。

现在参考图2，在示意性实施例中，机架控制器120在运行过程中建立环境200。示意性环境200包括性能监测模块202、分析模块204和数据中心管理模块210。环境200的各个模块可以实施为硬件、固件、软件或其组合。例如，环境200的模块、逻辑和其他部件中的每一个可以形成机架控制器120的处理器或其他硬件部件的一部分或另外由机架控制器120的处理器或其他硬件部件来建立。这样，在一些实施例中，环境200的模块中的一个或多个模块可以实施为电子设备的电路或集合(例如，性能监测电路、分析电路等)。另外或替代地，在一些实施例中，环境200的一部分或全部可以由系统100的其他实体(如由一个或多个池式计算机柜124或计算机架102的其他部件)来建立。

性能监测模块202被配置成接收与计算机架102的硬件部件相关联的度量。硬件部件可以包括计算资源、存储器资源、存储资源和/或网络资源。如下面所进一步描述的，度量可以包括系统度量、性能度量和/或健康度量。在一些实施例中，性能监测模块202还可以被配置成接收与由计算机架102执行的服务或其他计算应用相关联的性能指标。

分析模块204被配置成基于相关联度量确定计算机架102的每个硬件部件的回归模型。分析模块204被进一步配置成基于相关联回归模型确定每个硬件部件的平均故障时间(MTTF)值并且确定构成了这些硬件部件的逻辑机的 MTTF值。平均故障时间可以基于服务质量保证或由一个或多个服务级别协议建立的其他服务交付目标。分析模块204可以保持包含硬件部件和/或逻辑机的 MTTF值的一个或多个MTTF表。分析模块204的这些功能可以由一个或多个子模块(例如，由MTTF表模块206或服务级别协议(SLA)模块208)来执行。

数据中心管理模块210被配置成基于所计算的平均故障时间值来管理计算机架102和/或系统100。数据中心管理模块210可以被配置成(例如)通过创建警报或报警来通知用户每个硬件部件的平均故障时间值。数据中心管理模块210可以被配置成基于与每个逻辑机相关联的平均故障时间值来确定维护会话的未来时间。数据中心管理模块210可以被配置成基于相关联平均故障时间值将硬件部件构成为逻辑机。例如，数据中心管理模块210可以被配置成构成包括具有类似平均故障时间值的硬件部件的逻辑机。数据中心管理模块210的这些功能可以由一个或多个子模块(例如，由通知模块212、所调度的维护模块214或组成模块216)来执行。

现在参考图3，在使用中，机架控制器120可以执行用于数据中心管理的方法300。方法300开始于框302，其中，机架控制器120接收计算机架102 的一个或多个硬件部件的度量。这些度量可以实施为能够预测部件寿命的任何类型的数据。这些度量可以包括系统度量(例如，可在部件上直接测量的制造规格和值，如温度或功率)或健康和性能度量(例如，与部件的功能相关的度量，如带宽、等待时间或者吞吐量)。这些度量可以被编译成子部件日志文件，并且然后发送到机架控制器120，用于处理和存储。

示意性地，对于池式计算机柜124，系统度量可以实施为完全CPU规格、性能计数器监测数据(例如，关于由处理器126退役的指令、处理器126频率、板上存储器控制器带宽、高速缓存未命中统计等的数据)、温度数据、电源循环计数器、总使用小时数计数器或其他度量。池式计算机柜124的健康度量可以实施为内核崩溃计数器、处理器异常计数器或其他度量。池式计算机柜124 的性能度量可以实施为每秒指令计数器(例如，MIPS)或其他度量。

示意性地，对于池式存储器机柜130，系统度量可以实施为完全规格、温度数据、电源循环计数器、总使用小时数计数器、存储器访问计数器或其他度量。池式存储器机柜130的健康度量可以实施为奇偶错误计数器或其他度量。池式存储器机柜130的性能度量可以实施为观察到的存储器带宽或其他度量。

示意性地，对于池式存储装置机柜136，系统度量可以实施为存储类型，包括完全规格(例如，固态驱动、硬盘驱动、高速缓存大小等)、读/写计数器、每秒I/O操作(IOPS)计数器、总使用小时数计数器、温度数据或其他度量。池式存储装置机柜136的健康度量可以实施为块故障计数器、页面错误计数器、寻道时间数据、等待时间数据或其他度量。池式存储装置机柜136的性能度量可以实施为随机读取吞吐量数据或其他度量。

示意性地，对于池式网络机柜142，系统度量可以实施为网络技术类型，包括完全规格(例如，100Mbps、1000Mbps等)、温度数据、电源循环计数器、总使用小时数计数器或者其他度量。池式网络机柜142的健康度量可以实施为数据接收和发送计数器、发送和接收错误计数器以及其他度量。池式网络机柜142的性能度量可以实施为带宽数据或其他度量。

在一些实施例中，在框304中，机架控制器120可以从一个或多个专用硬件监测部件接收度量。例如，机架控制器120可以从池式计算机柜124的度量部件128、池式存储器机柜130的度量部件134、池式存储装置机柜136的度量部件140或池式网络机柜146的度量部件146接收度量。机架控制器120还可以从一个或多个固件模块、嵌入式固件设备、可管理性引擎或计算机架102 的其他带外管理部件接收度量。在一些实施例中，在框306中，机架控制器120 可以从一个或多个软件监测器接收度量。从软件监测器收集度量可能需要修改由计算机架102执行的其他软件或以其他方式与其进行协调。

在框308中，机架控制器120生成计算机架102的每个部件的回归模型，该模型可以用于估计相关联剩余硬件寿命。可以使用式y＝Xb来生成回归模型，其中y是响应向量(例如，健康度量或性能度量)，X是观测矩阵(例如，系统度量)，并且b是表示拟合参数的估计的向量。

在一些实施例中，在框310中，机架控制器120执行线性回归建模。机架控制器120可以使用稳健的多线性回归方法。机架控制器120可以利用双平方加权函数通过矩阵分解(使用QR分解来实现)来迭代地重新加权最小二乘法。因此，如大型数据中心所要求的，可以大规模有效地计算线性回归建模。

在一些实施例中，在框312中，机架控制器120执行非线性回归建模。机架控制器120使用广义线性模型(GLM)。机架控制器120使用概率链接和二项式分布来生成逻辑回归。当线性情况下的根均方误差相当大时，非线性回归建模可能是优选的。

在框314中，机架控制器120基于回归模型确定每个硬件部件的平均故障时间(MTTF)值。回归模型可以用于预测硬件部件的健康或性能的未来变化 (例如，通过预测健康度量或性能度量的未来值)。可以将预测度量与预定义阈值(如制造规格或服务级别协议(SLA)要求(例如，服务质量要求、服务级别目标或其他要求))进行比较。预测度量与预定义阈值相交时的时间点表示预测部件故障，并且与此时间的距离是平均故障时间(MTTF)。机架控制器120可以将每个部件的MTTF值存储到一个或多个数据表、数据库或其他数据源中。

在框316中，机架控制器120确定数据中心的每个逻辑机的MTTF。如以上所描述的，计算机架102的部件可以构成为可以用于执行计算应用或以其他方式提供服务的一个或多个逻辑机。逻辑机的寿命可被确定为其构成部件的最短寿命。例如，对于由计算、存储装置、网络和存储器资源构成的逻辑机，机架控制器120可以将该逻辑机的MTTF确定为构成为该逻辑机的计算、存储装置、网络和存储器部件的MTTF中的最小值。

在框318中，机架控制器120可以基于所计算的MTTF值来管理计算机架102和/或系统100。在一些实施例中，在框320中，机架控制器120可以通知管理者或其他用户硬件部件的剩余寿命。当小错误开始太频繁地出现时或者当部件的性能低于SLA所要求的时，该部件可以被标记用于更换。机架控制器120可以(例如)设置一个或多个报警或警报来通知管理者可能的部件故障。例如，机架控制器120可以生成标识在某个时间之前要更换以避免故障的部件的报警，或生成标识在某个时间内将需要维护的部件的警报。因此，机架控制器120可以允许管理者标识需要更换的子部件和了解利用率对逻辑机的影响。

在一些实施例中，在框322中，机架控制器120可以基于逻辑机的剩余寿命调度维护。当更换出现故障的部件时，出现故障的逻辑机可能会经历虚拟的重组过程。在重组过程中，逻辑机可能会被冻结并且因此所提供的服务质量或 SLA可能会严重降级。在部件的预测MTTF之前调度逻辑机的维护以更换这些部件可以有助于防止意外停机。在一些实施例中，在框324中，机架控制器 102可以基于由每个逻辑机执行的服务或其他计算应用的性能指标来进一步调度维护。机架控制器120可以(例如)在由逻辑机支持的服务是在其最不繁忙的时段时针对逻辑机调度维护会话。

在一些实施例中，在框326中，机架控制器120可以使用具有类似剩余寿命的硬件部件构成逻辑机。在分配过程中，机架控制器120可以查询计算、存储装置、网络或存储器部件的池以组装逻辑机。机架控制器120可以查询一个或多个数据源以获得MTTF值并且在选择过程中结合每个部件的预测故障日期。通过从具有类似寿命的部件构成逻辑机，可以在每个所调度的维护会话中更换多个部件，这样可以减少重复的维护会话并且另外改善服务质量。在管理计算机架102和/或数据中心之后，方法300循环回到框302以继续监测硬件部件的度量。

现在参考图4，在一些实施例中，机架控制器120可以另外或替代地在运行过程中建立环境400。示意性环境400包括协调模块402、硬件故障预测模块404、调度模块406、服务级别协议模块408和性能监测模块410。环境400 的各个模块可以实施为硬件、固件、软件或其组合。例如，环境400的模块、逻辑和其他部件中的每一个可以形成机架控制器120的处理器或其他硬件部件的一部分或另外由机架控制器120的处理器或其他硬件部件来建立。这样，在一些实施例中，环境400的模块中的一个或多个模块可以实施为电子设备的电路或集合(例如，协调电路、硬件故障预测电路等)。

协调模块402被配置成接收可以由计算机架102执行的应用的描述，将该应用描述发送到性能数据服务器106，并且作为响应从性能数据服务器106接收与该应用相关联的预测工作负荷数据。如下面所描述的，预测工作负荷数据指示计算机架102的一个或多个硬件部件(例如，计算资源、存储器资源、存储资源或网络资源)的使用模式，并且可能是从许多其他计算机架102生成的或以其他方式来源于它们。

硬件故障预测模块404被配置成基于预测工作负荷数据确定计算机架102 的一个或多个硬件部件的故障概率。硬件故障预测模块404还可以考虑其他数据，如与硬件部件相关联的本地存储的使用历史数据。硬件故障预测模块404 可以将其概率确定限制到可用于执行应用的硬件部件。

调度模块406被配置成标识可用于执行应用的计算机架102的硬件部件并且基于可用硬件部件中的每个可用硬件部件的故障概率选择可用硬件部件来执行计算应用。

服务级别协议模块408被配置成判定硬件部件的故障概率是否满足与计算应用相关联的服务级别协议(SLA)。服务级别协议模块408可以判定当在预定义时段内执行时硬件部件将出现故障的概率是否满足与应用相关联的一个或多个SLA目标(例如，正常运行时间、可靠性或其他服务交付目标(SDO) 和服务级别目标(SLO)目标)。

性能监测模块410被配置成(例如)从硬件度量部件128、134、140、146 收集与计算机架102的硬件部件相关联的硬件性能度量。性能监测模块410被配置成(例如)通过基于性能度量生成一个或多个标准化波形来基于硬件性能度量确定工作负荷数据(类似于从性能数据服务器106接收的预测工作负荷数据)。性能监测模块410被配置成标识由计算机架102执行的当前应用并且使这些应用的应用描述与工作负荷数据相关联。性能监测模块410被配置成将工作负荷数据和当前应用的应用描述发送到性能数据服务器106。

仍参考图4，在示意性实施例中，性能数据服务器106在运行过程中建立环境420。示意性环境420包括应用性能数据库模块422和通信模块424。环境420的各个模块可以实施为硬件、固件、软件或其组合。例如，环境420的模块、逻辑和其他部件中的每一个可以形成性能数据服务器106的处理器或其他硬件部件的一部分或另外由性能数据服务器106的处理器或其他硬件部件来建立。这样，在一些实施例中，环境420的模块中的一个或多个模块可以实施为电子设备的电路或集合(例如，应用性能数据库电路或通信电路)。

应用性能数据库模块422被配置成(例如)从应用性能数据库160检索与应用描述相关联的工作负荷数据。如以上所描述的，工作负荷数据可以是从一个或多个计算机架102接收的历史工作负荷数据。应用性能数据库模块422被进一步配置成判定与应用描述相关联的历史工作负荷数据是否存在，并且如果不存在，则生成应用描述的估计工作负荷数据。应用性能数据库模块422稍后可以使用从计算机架102接收的历史工作负荷数据替换估计工作负荷数据。

通信模块424被配置成从计算机架102接收历史工作负荷数据和计算应用的相关联描述。通信模块424被进一步配置成从计算机架102接收包括应用描述的查询，并且响应于这些查询将与该应用描述相关联的工作负荷数据发送到计算机架102。因此，工作负荷数据可以从性能数据服务器106传播到许多计算机架102。

仍参考图4，在示意性实施例中，管理界面104在运行过程中建立环境440。示意性环境440包括优化引擎模块442、系统状态模块444、交互式可视化模块446以及交互转换模块448。环境440的各个模块可以实施为硬件、固件、软件或其组合。例如，环境440的模块、逻辑和其他部件中的每一个可以形成管理界面104的处理器140或其他硬件部件的一部分或另外由管理界面104的处理器140或其他硬件部件来建立。这样，在一些实施例中，环境440的模块中的一个或多个模块可以实施为电子设备的电路或集合(例如，协调电路、硬件故障预测电路等)。在一些实施例中，环境440的一部分或全部可以由系统 100的其他实体(如机架控制器120或计算机架102的其他部件)来建立。

优化引擎模块442被配置成基于一个或一个以上优化约束来优化系统100 的数据中心调度。这些优化约束可以基于预定义的目标、约束或其他规则(例如，来自与系统100相关联的一个或多个服务级别协议)并且可以基于用户定义的目标、约束或其他规则，如下面所描述的。优化引擎模块442可以被配置成(例如)通过将被优化的数据中心调度传送到系统100的一个或多个机架控制器120来基于被优化的数据中心调度调整数据中心的系统状态。

系统状态模块444被配置成从系统100的传感器网络接收传感器数据。传感器网络包括若干传感器来测量系统100及其部件的状态，其中包括使用和性能数据、功率消耗数据、温度数据和其他状态数据。传感器网络可以包括(例如)计算机架102的度量部件128、134、140、146。

交互式可视化模块446被配置成生成表示系统100的状态的交互式可视化，并且响应于该交互式可视化而接收人类输入。交互式可视化可以结合由系统状态模块444确定的系统状态以及由优化引擎模块442生成的数据中心调度的任何先前的优化。

交互转换模块448被配置成将响应于交互式可视化而接收到的人类输入转换成用于优化系统100的工作负荷调度的一个或多个机器可读目标、约束或其他规则。如以上所描述的，当进一步优化数据中心调度时可以由优化引擎模块442来解释那些用户定义的规则。

现在参考图5，在使用中，机架控制器120可以执行用于数据中心工作负荷的优化、调度和布置的方法500。方法500开始于框502，其中，机架控制器120接收将由计算机架102执行(例如，运行、初始化、处理等)的新的应用的描述。可以从计算机架102的用户(例如，管理者、开发者、客户、订户等)接收(例如，通过任何合适的输入设备或过程)该应用描述。例如，在一些实施例中，机架控制器120可以接收对应于客户希望由计算机架102来运行 (例如，执行、初始化、处理等)的工作负荷的应用(例如，特定web服务器、数据库、金融交易服务器等)的应用描述。该应用描述可以描述该特定应用的身份和/或其他独特性质或特性。在一些实施例中，应用描述数据可以实施为根据OASIS的云应用的拓扑和业务流程规范(TOSCA)格式化的应用及其组成服务的描述。应用描述可以(例如)实施为描述应用的拓扑或其他结构以及用于创建、终止和/或以其他方式管理应用的一种或多种协调方法的一个或多个服务模板。当然，应当理解，任何其他格式可以用于描述应用及其组成服务。

在框504中，机架控制器120可以接收与新的应用相关联的一个或多个服务级别协议(SLA)。SLA定义要由计算机架102向客户提供的服务级别。SLA 可以包括一个或多个目标(如服务交付目标(SDO)和服务级别目标(SLO) 目标)、效率目标、符合性目标、能量目标(包括设施)以及其他环境或上下文约束。类似于应用描述，可以从计算机架102的用户(例如，管理者、开发者、客户、订户等)接收SLA。通常，SLA定义针对应用的交付的目标和约束 (例如，针对web服务器的正常运行时间目标)，而不是针对计算机架102的元件的特定性能或质量约束(例如，针对池式存储装置138的各个磁盘的可靠性目标)。

在框506中，机架控制器120将应用描述发送到性能数据服务器106。如下面结合图6所进一步描述的，性能数据服务器106查找与可能已经由其他计算机架102提供的应用描述相关联的历史性能数据。

在框508中，机架控制器120从性能数据服务器106接收与应用描述相关联的预测工作负荷数据。预测工作负荷数据对应于与其应用描述数据(例如， TOSCA应用描述)被发送的应用相关联的预测硬件使用模式。在一些实施例中，预测工作负荷数据可以实施为历史平均负载数据，如对应于应用的平均观测机器工作负荷。即，历史平均负载数据可以包括指示应用的执行(例如，运行、初始化、处理等)对计算机架102(或其他计算机架102)的计算或其他资源的先前影响的数据。例如，预测工作负荷数据可以指示应用的执行所引起的历史处理器、存储器、存储装置或网络负载。在一些实施例中，预测工作负荷数据可以实施为应用的历史工作负荷数据的平均值。在一些实施例中，预测工作负荷数据可以经由傅立叶变换实施为将瞬时负载描述为振幅、频率和相位的波形的集合。

在框510中，机架控制器120基于预测工作负荷数据确定在应用的执行期间计算机架102的一个或多个硬件部件的故障概率。机架控制器120可以(例如)分析所接收的预测工作负荷数据和对应于计算机架102的一个或多个部件的本地部件特定度量数据(例如，与计算机架102的一个或多个部件相关联的历史使用数据)。机架控制器120可以通过仅分析所接收的预测工作负荷数据或通过结合适于判定是否以及何时部件可能会出现故障的任何其他数据或度量分析所接收的预测工作负荷数据来确定故障概率。例如，机架控制器120可以另外分析可以由制造商提供、通过测试提供或以其他方式确定的关于部件故障率的统计数据。作为展示，预测工作负荷数据可以指示特定应用是存储密集型的。在该示例中，机架控制器120可以基于池式存储装置机柜136的每个磁盘、存储模块或其他部件的历史使用数据、预测工作负荷和关于该部件的故障率的统计数据来确定该部件的故障概率。在一些实施例中，部件的故障概率可以表示为该部件将在预定义(例如，参考等)时段内出现故障的机会的百分比。例如，故障概率可以表示为部件将在未来四周内的某个时间出现故障的概率。应当理解，故障概率和/或故障的时间段可以以任何其他方式来表示。在一些实施例中，在框512中，机架控制器120可以将概率的计算限制到计算机架102 的可用部件。例如，机架控制器102可以确定尚未被指派给任何任务的池式计算机柜124的处理器126的故障概率。

在框514中，机架控制器120基于故障概率选择一个或多个硬件部件来用于执行应用。例如，机架控制器120可以生成可用于执行(例如，运行、初始化、处理、服务等)应用的部件的列表，并且然后将这些部件从在预定义时间段内最不可能经历故障到在该同一时间段内最可能经历故障进行排列。机架控制器120可以选择最不可能经历故障的硬件部件来执行应用。例如，机架控制器120可以标识多个可用处理器126，根据故障概率排列这些可用处理器126，并且选择具有最低的故障概率的可用处理器126。另外或替代地，机架控制器 120可以基于一个或多个附加标准(如可用资源、接近度、安全性或其他标准) 来选择硬件部件。在选择一个或多个部件之后，计算机架102的协调器可以使用所选择的部件创建或以其他方式初始化应用的执行。

在框516中，机架控制器120判定故障概率是否可以满足针对应用请求的 SLA。机架控制器120可以判定计算机架102的一个或多个可用部件是否能够满足或以其他方式在满足SLA的一个或多个目标、约束或其他要求的阈值度量内。在这样做时，机架控制器120可以在应用和/或工作负荷的分配之前验证被选择来执行应用和/或工作负荷的计算机架102的一个或多个部件能够满足 SLA。在验证SLA之后，方法500循环回到框502以继续处理新的应用的描述。

现在参考图6，在使用中，性能数据服务器106可以执行用于预测工作负荷数据检索的方法600。方法600开始于框602，其中，性能数据服务器106 接收将由计算机架102执行的应用的描述。如以上所描述的，应用描述数据可以实施为根据OASIS的云应用的拓扑和业务流程规范(TOSCA)格式化的应用及其组成服务的描述。应用描述可以(例如)实施为描述应用的拓扑或其他结构以及用于创建、终止和/或以其他方式管理应用的一种或多种协调方法的一个或多个服务模板。

在框604中，性能数据服务器106查找与应用描述相关联的所存储历史工作负荷数据。例如，性能数据服务器106可以在应用性能数据库160中查找工作负荷数据，该数据库可以由应用名称和/或与应用相关联的其他标识符来索引。在框606中，性能数据服务器106判定应用描述是否存在历史工作负荷数据。如果存在，则方法600分支前进到框612，下面描述。如果工作负荷数据不存在，则方法600前进到框608。

在框608中，性能数据服务器106生成应用描述的估计工作负荷数据。例如，性能数据服务器106可以生成未知应用的平均工作负荷数据的估计，或提供默认工作负荷数据。性能数据服务器106可以存储估计工作负荷数据以供将来使用，例如，存储在应用性能数据库160中。在一些实施例中，在框610中，性能数据服务器106可以基于类似应用的历史工作负荷数据来生成未知应用的估计工作负荷数据。例如，如果应用描述与未知web服务器相关联，则性能数据服务器106可以通过组合或平均已知web服务器的工作负荷数据(例如，Apache2和nginx的工作负荷数据)来生成估计工作负荷数据。

在框612中，性能数据服务器106将工作负荷数据发送到计算机架102。性能数据服务器106可以发送(例如)如以上结合框604所描述而确定的历史工作负荷数据或如以上结合框608所描述而确定的估计工作负荷数据。如以上结合图5所描述的，计算机架102可以分析工作负荷数据来预测与应用相关联的硬件部件故障概率。在发送工作负荷数据之后，方法600循环回到框602以继续从计算机架102接收应用描述。

现在参考图7，在使用中，机架控制器120可以执行用于数据中心工作负荷的性能监测的方法700。方法700开始于框702，其中，机架控制器120接收计算机架102的一个或多个硬件部件的性能度量。性能度量可以实施为描述类型(例如，存储类型、处理器类型等)、性能度量(例如，寻道时间、奇偶和错误频率等)、工作特性(例如，温度等)、利用率度量(例如，总使用时间、访问总数等)和/或可以针对计算机架102的硬件部件中的每个硬件部件生成和/或捕获的任何其他类型的度量的任何类型的数据。例如，性能度量可以实施为表示特定硬件部件的负载或使用方面的一组低级别样本的二进制数据。

示意性地，对于池式计算机柜124，性能度量可以实施为性能计数器监测数据(例如，关于由处理器126退役的指令、处理器126频率、板上存储器控制器带宽、高速缓存未命中统计等的数据)、内核崩溃或处理器异常计数器、温度数据、电源周期计数器、总使用小时数计数器或其他度量。对于池式存储器机柜130，性能度量可以实施为观察到的存储器带宽、奇偶和错误计数器、存储器频率、存储器访问计数器、温度数据、电源循环计数器、总使用小时数计数器或其他度量。对于池式存储装置机柜136，性能度量可以实施为存储类型(例如，固态驱动、硬盘驱动、缓存大小等)、每秒读取、全局读取计数器、每秒写入、全局写入计数器、每秒总I/O操作(IOPS)、IOPS、块故障计数器、页面错误计数器、寻道时间数据、等待时间数据、温度数据、电源周期计数器、总使用小时数计数器或其他度量。对于池式网络机柜142，性能度量可以实施为每秒连接、发送的数据、接收的数据、温度数据、电源循环计数器、总使用小时数计数器或其他度量。

在一些实施例中，在框704中，机架控制器120可以从一个或多个专用硬件监测部件接收性能度量。例如，机架控制器120可以从池式计算机柜124的度量部件128、池式存储器机柜130的度量部件134、池式存储装置机柜136 的度量部件140或池式网络机柜146的度量部件146接收性能度量。在一些实施例中，在框706中，机架控制器120可以从一个或多个软件监测器接收性能度量。从软件监测器收集性能度量可能需要修改由计算机架102执行的其他软件或以其他方式与其进行协调。

在框708中，机架控制器120存储和处理性能度量以生成历史工作负荷数据。例如，机架控制器120可以将从计算机架102的部件中的每个部件接收的性能度量数据存储在本地硬件/性能数据库中。工作负荷数据可以表示一小时的平均使用的性能度量数据。例如，工作负荷数据可以实施为将瞬时负载描述为振幅、频率和相位的标准化波形的集合。机架控制器120可以(例如)通过对性能度量数据应用傅立叶变换来生成工作负荷数据。

在框710中，机架控制器120使工作负荷数据与计算机架102当前正在执行(例如，运行、初始化、处理、服务等)的一个或多个应用的描述相关联。因此，机架控制器120可以使每个应用与执行该应用所需的硬件资源(例如，计算、存储器、存储装置或网络资源)相关联。该应用描述可以描述该特定应用的身份和/或其他独特性质或特性。在一些实施例中，应用描述数据可以实施为根据OASIS的云应用的拓扑和业务流程规范(TOSCA)格式化的应用及其组成服务的描述。应用描述可以(例如)实施为描述应用的拓扑或其他结构以及用于创建、终止和/或以其他方式管理应用的一种或多种协调方法的一个或多个服务模板。当然，应当理解，任何其他格式可以用于描述应用及其组成服务。

在框712中，机架控制器120将工作负荷数据和相关联应用描述发送到性能数据服务器106。在一些实施例中，机架控制器120可以根据预定义(例如，参考)时间间隔向性能数据服务器106发送组合和/或匹配的数据。例如，在一些实施例中，机架控制器120可以每个小时向性能数据服务器106发送组合和 /或匹配的数据。如下面结合图8所描述的，性能数据服务器106可以存储和处理工作负荷数据。在发送工作负荷数据和相关联应用描述之后，方法700循环回到框702以继续监测性能度量。

现在参考图8，在使用中，性能数据服务器106可以执行用于性能数据管理的方法800。方法800开始于框802，其中，性能数据服务器106从计算机架102接收工作负荷数据和一个或多个相关联应用描述。如以上结合图7所描述的，工作负荷数据表示在相关联应用的执行期间计算机架102的一个或多个硬件部件上的测量负载。工作负荷数据可以实施为(例如)指示计算机架102 的各个硬件部件的一小时的平均使用的标准化波形的集合。如以上所描述的，应用描述数据可以实施为根据OASIS的云应用的拓扑和业务流程规范 (TOSCA)格式化的应用及其组成服务的描述。应用描述可以(例如)实施为描述应用的拓扑或其他结构以及用于创建、终止和/或以其他方式管理应用的一种或多种协调方法的一个或多个服务模板。

在框804中，性能数据服务器106处理和存储与应用描述相关联的工作负荷数据。例如，性能数据服务器106可以将工作负荷数据和相关联应用描述存储在应用性能数据库160中。在被存储之后，工作负荷数据可以被提供到计算后架102来预测相关联应用的硬件部件使用，如以上结合图5和图6所描述的。由于工作负荷数据可以来源于许多不同的计算机架102，因此应用性能数据库 160可被描述为“众包”数据库。在一些实施例中，在框806中，性能数据服务器106可以更新应用性能数据库160中的相关联应用描述的历史工作负荷数据。例如，性能数据服务器106可以更新平均值或更新将瞬时负载描述为振幅、频率和相位的标准化波形。在一些实施例中，在框808中，性能数据服务器106 可以使用从计算机架102接收的历史工作负荷数据替换应用性能数据库160中的估计数据。如以上结合图6的框608所描述的，对于没有历史工作负荷数据的某些未知应用或其他应用，性能数据服务器106可以生成估计工作负荷数据。通过使用由计算机架102提供的历史工作负荷数据替换估计工作负荷数据，性能数据服务器106使测量工作负荷数据优先于估计工作负荷数据。在存储工作负荷数据之后，方法800循环回到框802以继续从计算机架102接收工作负荷数据和相关联应用描述。

现在参考图9，在使用中，管理界面104可以执行用于优化工作负荷调度和布置的方法900。虽然被展示为由管理界面104执行，但是应当理解，在一些实施例中，方法900的功能中的一些或全部功能可以由系统100的其他元件来执行，包括由计算机架102和/或机架控制器120中的一个或多个来执行。方法900开始于框902，其中，管理界面104加载一个或多个初始优化约束并且使用这些约束来配置优化引擎模块442。初始优化约束可实施为一个或多个预定义约束和/或目标。在一些实施例中，在框904中，管理界面104可以基于一个或多个服务级别协议(SLA)确定初始约束。例如，初始优化约束可以对应于一个或多个服务级别目标(SLO)(如性能级别、正常运行时间/可靠性或其他定量测量)或一个或多个服务交付目标(SDO)(如数据位置、安全标准或其他SDO)。作为另一个示例，初始优化约束可以包括效率目标、符合性目标、能量目标(包括设施)以及其他环境和上下文约束。可以使用图形用户界面 (GUI)配置模块提供初始优化约束。

在框906中，管理界面104基于提供到优化引擎模块442的优化约束来确定系统100的工作负荷的优化的布置和/或调度。优化约束可以是初始优化约束或者可以基于用户定义的规则或约束，如下面所进一步描述的。因此，优化引擎模块442将问题空间的正规预定义描述与人类输入相集成，以创建具有最佳结果的解决方案联合认知系统。优化引擎模块442可以实施为使用算法来解决复杂问题的自动程序。具体地，优化引擎模块442可以确定系统100的最佳系统状态，其中包括工作负荷在系统100的各个计算元件上的最佳布置和/或调度。优化引擎模块442可以使用任何优化算法，包括随机优化算法。具体地，示意性优化引擎模块442可以在优化数据中心调度(例如，用于工作负荷的布置和/或调度的计划)时评估“软约束”。例如，考虑可以从例如(1)系统100 的某些计算元件上可用的平台特征选项和(2)数据传输速率配置选项这两种不同的不完全兼容的配置选项获益的工作负荷的进入元素。在该示例中，可能无法针对这两种选项精确地知道对工作负荷的执行的相对益处；该益处可以是在一个范围内。在该示例中，该益处可以基于统计来建立或建模，在这种情况下，可以选择多个情景，以便告知模型优先顺序。当然，这是非常简单的示例，并且规模地，优化可以结合成本、灵活性、部件寿命、信誉、服务级别保证(SLA) 以及风险各个方面。

优化引擎模块442尝试基于系统状态(包括描述系统100的计算元件的配置以及计算工作负荷的系统参数)来提供最佳解决方案。优化引擎模块442可以使用优化约束来调整用于评估系统100的性能的拟合函数。优化引擎模块 442可能需要非常快速地产生结果，以便可以(例如)在进行“what-if”情景计划时使用。快速结果可能需要元启发式方法。因此，优化引擎模块442可以使用随机优化的形式，如和声搜索、模拟退火或其他随机优化算法，以快速提供结果。因此，管理界面104可以捕获关于系统状态的运行时数据，处理运行时数据以收集运行时行为的统计证据，并且将这种统计证据与如上述和声搜索等优化技术相结合，以便建立系统100的行为的可靠模型(知识库)。

在框908中，管理界面104基于优化引擎模块442的输出调整系统100 的状态。例如，管理界面104可以给不同的工作负荷指派或重新指派系统100 的计算元件，将工作负荷转移到不同的计算元件或计算机架102，调整工作负荷的调度，或者执行如由优化引擎模块442确定的优化的数据中心调度所描述的任何其他配置。管理界面104可以通过与机架控制器120和/或计算机架102 的其他协调元件通信来调整系统100的状态。

在框910中，管理界面104收集指示系统100的状态的传感器数据。管理界面104可以使用系统100的传感器网络来收集关于系统状态的数据。系统状态可以包括关于系统100的工作负荷的任何数据，这些数据包括资源利用率数据、容量数据、热数据、能量消耗数据或者其他数据。传感器网络可以包括计算机架102的度量部件128、134、140、146和/或其他传感器、显示器或监测部件。管理界面104可以将系统状态数据存储在系统100内的系统状态数据库中。

在框912中，管理界面104生成和显示交互式可视化来表示系统100的状态。交互式可视化可以用于表示系统100的当前状态(包括优化引擎模块442 所生成的任何先前优化)和允许用户通过直观的交互向系统100传授信息这两者。优化算法的初始输出可以被呈现给一个或多个用户，用户然后可以(例如) 使用基于提示的“向导”界面以指定新的输入而通过简单的交互向系统100传授信息。交互式可视化可以实施为表示系统100的系统状态(包括工作负荷在系统100的各个计算元件上的当前布置和/或调度)的任何可视化。交互式可视化可以实施为数据中心操作者和/或监督者的管理界面(“仪表板”)的一部分或全部，并且可以提供工作负荷布置和/或调度历史的高度直观的表示。另外，交互式可视化可以提供允许用户对干预进行实验并检查它们的含义的交互式建议，其中优化算法响应于这些干预自动更新。在一些实施例中，交互式可视化可以允许用户在优化引擎所生成的若干可能情景之间选择。多个用户可以使用交互式可视化来协同与系统100进行交互以动态传授其专业背景知识。例如，数据中心和网络运营商、开发运营团队、中间件集成商和设施运营商可能都有知识通过交互式可视化来传授。交互式可视化可以(例如)使用管理界面104 的显示器150或系统100的其他控制台界面来本地呈现或(例如)使用网页或远程管理控制台来远程呈现。

在框914中，管理界面104基于交互式可视化接收用户输入。例如，如以上所进一步描述的，管理界面104可以接收对交互式可视化所生成的向导界面的一个或多个用户响应。

在框916中，管理界面104将用户输入转换成用于优化引擎模块442的一个或多个机器可读的用户定义的规则。这些机器可读规则可以实施为配置、约束或以其他方式调整优化引擎模块442的操作或输出的任何规则。基于用户输入生成机器可读规则允许用户输入基于用户的隐性知识用户可能知道的软约束和/或统计约束，但这些约束可能是不可通过传感器网络测量的。因此，用户可以建立和保持在运行时可以通过其来推理工作负荷布置的一组规则或试探法。这可以提高系统100的灵活性。因此，交互转换可以允许将表示用户已知的上下文信息的用户的动作转换成优化引擎模块442理解的格式，因此该解决方案是优化引擎模块442(或者在使用中的特定优化算法)本身不可知的。

在将用户输入转换成用于优化引擎模块442的用户定义的规则之后，方法 900循环回到框906以重新运行优化算法。因此，管理界面104可以快速地将动态用户反馈结合到优化算法的行为中。除了响应于用户输入，方法900还可以响应于系统100的状态的变化。系统状态数据可以在有规律的、持续的或响应的基础上由优化引擎模块442轮询或以其他方式查询以调整与当前数据中心调度的偏离。当发生偏离时，到系统状态数据的不断更新的数据库的连接可以支持对数据中心调度和通知的监测。在偏离数据中心调度(或用户定义如以上所描述的新的目标和/或约束)的情况下，优化引擎模块442可以重新运行并提供经更新的数据中心调度。因此，系统100可以克服数据中心调度迅速过时的问题。

示例

下面提供了在此所公开的技术的示意性示例。这些技术的实施例可以包括下面所描述的示例中的任何一个或多个，以及其任何组合。

示例1包括一种计算机架的机架控制器，所述机架控制器包括：性能监测模块，所述性能监测模块用于接收与所述计算机架的硬件部件相关联的度量，其中，所述度量包括系统度量、性能度量或健康度量；以及分析模块，所述分析模块用于：基于与所述硬件部件相关联的所述度量确定所述硬件部件的回归模型；基于所述硬件部件的所述回归模型确定所述硬件部件的平均故障时间值；并且基于所述硬件部件的所述平均故障时间值确定逻辑机的平均故障时间值，其中，所述逻辑机与所述硬件部件相关联。

示例2包括示例1的主题，并且其中，用于接收所述度量包括：用于从所述硬件部件的度量部件接收所述度量。

示例3包括示例1和2中任一项的主题，并且其中，所述硬件部件包括计算资源、存储器资源、存储资源或网络资源。

示例4包括示例1-3中任一项的主题，并且其中，用于确定所述回归模型包括：用于确定线性回归模型。

示例5包括示例1-4中的任一项的主题，并且其中，用于确定所述回归模型包括：用于确定非线性回归模型。

示例6包括示例1-5中任一项的主题，并且其中，用于确定所述硬件部件的所述平均故障时间值包括：用于基于所述回归模型确定与所述硬件部件相关联的预测度量；并且将所述预测度量与预定义的阈值度量进行比较。

示例7包括示例1-6中任一项的主题，并且其中，用于确定所述硬件部件的所述平均故障时间值包括：用于基于所述回归模型确定与所述硬件部件相关联的预测度量；确定与所述硬件部件相关联的服务级别协议的服务级别度量；并且将所述预测度量与所述服务级别度量进行比较。

示例8包括示例1-7中任一项的主题，并且进一步包括数据中心管理模块，所述数据中心管理模块用于通知用户所述硬件部件的所述平均故障时间值。

示例9包括示例1-8中任一项的主题，并且进一步包括数据中心管理模块，所述数据中心管理模块用于基于所述逻辑机的所述平均故障时间值确定与所述逻辑机相关联的维护会话的未来时间。

示例10包括示例1-9中任一项的主题，并且其中，所述性能监测模块进一步用于接收与指派给所述逻辑机的计算应用相关联的性能指标；并且用于确定所述未来时间进一步包括：用于基于所述性能指标确定所述未来时间。

示例11包括示例1-10中任一项的主题，并且进一步包括数据中心管理模块，所述数据中心管理模块用于：标识所述计算机架的多个硬件部件，其中，所述多个硬件部件包括所述硬件部件，并且其中，与所述硬件部件中的每个硬件部件相关联的平均故障时间值类似于所述硬件部件的所述平均故障时间值；并且将所述逻辑机构成为包括所述多个硬件部件。

示例12包括一种计算机架的机架控制器，所述机架控制器包括：协调模块，所述协调模块用于接收由所述计算机架可执行的计算应用的描述，将所述计算应用的所述描述发送到远程计算设备，并且响应于发送所述计算应用的所述描述而从所述远程计算设备接收与所述应用相关联的预测工作负荷数据，其中，所述预测工作负荷数据指示所述计算机架的硬件部件的使用模式；以及硬件故障预测模块，所述硬件故障预测模块用于基于所述预测工作负荷数据确定所述计算机架的所述硬件部件的故障概率。

示例13包括示例12的主题，并且其中，所述计算应用的所述描述包括服务模板。

示例14包括示例12和13中任一项的主题，并且其中，所述描述指示所述计算应用的结构或初始化方法。

示例15包括示例12-14中任一项的主题，并且其中，所述预测工作负荷数据包括指示所述硬件部件上的负载的波形的振幅、频率或相位。

示例16包括示例12-15中任一项的主题，并且其中，所述硬件部件包括计算资源、存储器资源、存储资源或网络资源。

示例17包括示例12-16中任一项的主题，并且进一步包括用于从所述计算机架的多个硬件部件标识可用硬件部件的调度模块，其中，所述可用硬件部件可用于执行所述计算应用；其中，所述硬件故障预测模块进一步用于基于所述预测工作负荷数据确定所述可用硬件部件中的每个可用硬件部件的故障概率。

示例18包括示例12-17中任一项的主题，并且其中，所述调度模块进一步用于根据所述可用硬件部件中的每个可用硬件部件的所述故障概率从所述可用硬件部件中选择可用硬件部件来执行所述计算应用。

示例19包括示例12-18中任一项的主题，并且进一步包括用于根据所述硬件部件的所述故障概率判定是否满足与所述计算应用相关联的服务级别协议的服务级别协议模块。

示例20包括示例12-19中任一项的主题，并且进一步包括性能监测模块，所述性能监测模块用于：接收与所述计算机架的第二硬件部件相关联的硬件性能度量；根据所述硬件性能度量确定历史工作负荷数据，其中，所述历史工作负荷数据指示所述第二硬件部件的使用模式；使所述计算机架的当前应用的应用描述与所述历史工作负荷数据相关联；并且将所述历史工作负荷数据和所述当前应用的所述应用描述发送到所述远程计算设备。

示例21包括示例12-20中任一项的主题，并且其中，用于接收所述硬件性能度量包括：用于从所述第二硬件部件的度量部件接收所述硬件性能度量。

示例22包括示例12-21中任一项的主题，并且其中，所述历史工作负荷数据包括指示所述第二硬件部件上的负载的波形的振幅、频率或相位。

示例23包括示例12-22中任一项的主题，并且其中，用于确定所述历史工作负荷数据包括：用于使用所述硬件性能度量的傅立叶变换来确定所述历史工作负荷数据。

示例24包括示例12-23中任一项的主题，并且其中，所述第二硬件部件包括计算资源、存储器资源、存储资源或网络资源。

示例25包括一种用于性能数据管理的计算设备，所述计算设备包括：通信模块，所述通信模块用于：从第一计算机架的第一机架控制器接收历史工作负荷数据和由所述第一计算机架可执行的计算应用的相关联描述，其中，所述历史工作负荷数据指示所述第一计算机架的硬件部件的使用模式；并且从第二计算机架的第二机架控制器接收所述计算应用的描述；以及应用性能数据库模块，所述应用性能数据库模块用于检索与所述计算应用的所述描述相关联的所述历史工作负荷数据；其中，所述通信模块进一步用于将所述历史工作负荷数据发送到所述第二机架控制器。

示例26包括示例25的主题，并且其中，所述计算应用的所述描述包括服务模板。

示例27包括示例25和26中任一项的主题，并且其中，所述描述指示所述计算应用的结构或初始化方法。

示例28包括示例25-27中任一项的主题，并且其中，用于检索与所述计算应用的所述描述相关联的所述历史工作负荷数据包括：用于判定与所述计算应用的所述描述相关联的历史工作负荷数据是否存在；响应于与所述计算应用的所述描述相关联的所述历史工作负荷数据存在的判定而检索与所述计算应用的所述描述相关联的所述历史工作负荷数据；并且响应于与所述计算应用的所述描述相关联的所述历史工作负荷数据不存在的判定而估计与所述计算应用的所述描述相关联的所述历史工作负荷数据。

示例29包括示例25-28中任一项的主题，并且其中，用于估计所述历史工作负荷数据包括：用于基于与第二计算应用相关联的历史工作负荷数据来估算所述历史工作负荷数据，其中，所述第二计算应用类似于所述计算应用。

示例30包括示例25-29中任一项的主题，并且其中，所述应用性能数据库模块进一步用于响应于接收到所述历史工作负荷数据和所述计算应用的所述相关联描述而用与所述计算应用相关联的所述历史工作负荷数据替换与所述计算应用相关联的估计工作负荷数据。

示例31包括一种用于数据中心工作负荷优化的管理界面，所述管理界面包括：交互式可视化模块，所述交互式可视化模块用于(i)生成表示所述数据中心的系统状态的交互式可视化并且(ii)响应于所述交互式可视化而接收人类输入；交互转换模块，所述交互转换模块用于将所述人类输入转换成用于优化所述数据中心的工作负荷调度的机器可读规则；以及优化引擎模块，所述优化引擎模块用于基于所述机器可读规则优化所述数据中心的数据中心调度。

示例32包括示例31的主题，并且其中，所述优化引擎模块进一步用于确定用于所述数据中心的工作负荷调度的优化的预定义的规则；并且用于优化所述数据中心调度进一步包括：用于基于所述预定义的规则优化所述数据中心的所述数据中心调度。

示例33包括示例31和32中任一项的主题，并且其中，用于确定所述预定义的规则包括：用于基于与所述数据中心相关联的服务级别协议来确定所述预定义的规则。

示例34包括示例31-33中任一项的主题，并且进一步包括用于从所述数据中心的多个传感器接收传感器数据的系统状态模块，其中，所述传感器数据指示所述数据中心的所述系统状态；其中，用于生成所述交互式可视化包括：用于响应于接收到所述传感器数据而生成所述交互式可视化。

示例35包括示例31-34中任一项的主题，并且其中，所述优化引擎模块进一步用于响应于所述数据中心调度的优化而基于所述数据中心调度来调整所述数据中心的所述系统状态；并且所述交互式可视化模块进一步用于响应于所述数据中心的所述系统状态的调整而更新表示所述数据中心的所述系统状态的所述交互式可视化。

示例36包括一种用于数据中心管理的方法，所述方法包括：计算机架的机架控制器接收与所述计算机架的硬件部件相关联的度量，其中，所述度量包括系统度量、性能度量或健康度量；所述机架控制器基于与所述硬件部件相关联的所述度量确定所述硬件部件的回归模型；所述机架控制器基于所述硬件部件的所述回归模型确定所述硬件部件的平均故障时间值；以及所述机架控制器基于所述硬件部件的所述平均故障时间值确定逻辑机的平均故障时间值，其中，所述逻辑机与所述硬件部件相关联。

示例37包括示例36的主题，并且其中，接收所述度量包括从所述硬件部件的度量部件接收所述度量。

示例38包括示例36和37中任一项的主题，并且其中，所述硬件部件包括计算资源、存储器资源、存储资源或网络资源。

示例39包括示例36-38中任一项的主题，并且其中，确定所述回归模型包括确定线性回归模型。

示例40包括示例36-39中任一项的主题，并且其中，确定所述回归模型包括确定非线性回归模型。

示例41包括示例36-40中任一项的主题，并且其中，确定所述硬件部件的所述平均故障时间值包括：基于所述回归模型确定与所述硬件部件相关联的预测度量；以及将所述预测度量与预定义的阈值度量进行比较。

示例42包括示例36-41中任一项的主题，并且其中，确定所述硬件部件的所述平均故障时间值包括：基于所述回归模型确定与所述硬件部件相关联的预测度量；确定与所述硬件部件相关联的服务级别协议的服务级别度量；以及将所述预测度量与所述服务级别度量进行比较。

示例43包括示例36-42中任一项的主题，并且进一步包括所述机架控制器通知用户所述硬件部件的所述平均故障时间值。

示例44包括示例36-43中任一项的主题，并且进一步包括所述机架控制器基于所述逻辑机的所述平均故障时间值确定与所述逻辑机相关联的维护会话的未来时间。

示例45包括示例36-44中任一项的主题，并且进一步包括所述机架控制器接收与指派给所述逻辑机的计算应用相关联的性能指标；其中，确定所述未来时间进一步包括基于所述性能指标确定所述未来时间。

示例46包括示例36-45中任一项的主题，并且进一步包括：所述机架控制器标识所述计算机架的多个硬件部件，其中，所述多个硬件部件包括所述硬件部件，并且其中，与所述硬件部件中的每个硬件部件相关联的平均故障时间值类似于所述硬件部件的所述平均故障时间值；以及所述机架控制器将所述逻辑机构成为包括所述多个硬件部件。

示例47包括一种用于优化数据中心调度的方法，所述方法包括：计算机架的机架控制器接收由所述计算机架可执行的计算应用的描述；所述机架控制器将所述计算应用的所述描述发送到远程计算设备；所述机架控制器响应于发送所述计算应用的所述描述而从所述远程计算设备接收与所述应用相关联的预测工作负荷数据，其中，所述预测工作负荷数据指示所述计算机架的硬件部件的使用模式；以及所述机架控制器基于所述预测工作负荷数据确定所述计算机架的所述硬件部件的故障概率。

示例48包括示例47的主题，并且其中，所述计算应用的所述描述包括服务模板。

示例49包括示例47和48中任一项的主题，并且其中，所述描述指示所述计算应用的结构或初始化方法。

示例50包括示例47-49中任一项的主题，并且其中，所述预测工作负荷数据包括指示所述硬件部件上的负载的波形的振幅、频率或相位。

示例51包括示例47-50中任一项的主题，并且其中，所述硬件部件包括计算资源、存储器资源、存储资源或网络资源。

示例52包括示例47-51中任一项的主题，并且进一步包括：所述机架控制器从所述计算机架的多个硬件部件标识可用硬件部件，其中，所述可用硬件部件可用于执行所述计算应用；以及所述机架控制器基于所述预测工作负荷数据确定所述可用硬件部件中的每个可用硬件部件的故障概率。

示例53包括示例47-52中任一项的主题，并且进一步包括所述机架控制器根据所述可用硬件部件中的每个可用硬件部件的所述故障概率从所述可用硬件部件中选择可用硬件部件来执行所述计算应用。

示例54包括示例47-53中任一项的主题，并且进一步包括所述机架控制器根据所述硬件部件的所述故障概率判定是否满足与所述计算应用相关联的服务级别协议。

示例55包括示例47-54中任一项的主题，并且进一步包括：所述机架控制器接收与所述计算机架的第二硬件部件相关联的硬件性能度量；所述机架控制器根据所述硬件性能度量确定历史工作负荷数据，其中，所述历史工作负荷数据指示所述第二硬件部件的使用模式；所述机架控制器使所述计算机架的当前应用的应用描述与所述历史工作负荷数据相关联；以及所述机架控制器将所述历史工作负荷数据和所述当前应用的所述应用描述发送到所述远程计算设备。

示例56包括示例47-55中任一项的主题，并且其中，接收所述硬件性能度量包括从所述第二硬件部件的度量部件接收所述硬件性能度量。

示例57包括示例47-56中任一项的主题，并且其中，所述历史工作负荷数据包括指示所述第二硬件部件上的负载的波形的振幅、频率或相位。

示例58包括示例47-57中任一项的主题，并且其中，确定所述历史工作负荷数据包括：使用所述硬件性能度量的傅立叶变换来确定所述历史工作负荷数据。

示例59包括示例47-58中任一项的主题，并且其中，所述第二硬件部件包括计算资源、存储器资源、存储资源或网络资源。

示例60包括一种用于性能数据管理的方法，所述方法包括：计算设备从第一计算机架的第一机架控制器接收历史工作负荷数据和由所述第一计算机架可执行的计算应用的相关联描述，其中，所述历史工作负荷数据指示所述第一计算机架的硬件部件的使用模式；所述计算设备从第二计算机架的第二机架控制器接收所述计算应用的描述；所述计算设备检索与所述计算应用的所述描述相关联的所述历史工作负荷数据；以及所述计算设备将所述历史工作负荷数据发送到所述第二机架控制器。

示例61包括示例60的主题，并且其中，所述计算应用的所述描述包括服务模板。

示例62包括示例60和61中任一项的主题，并且其中，所述描述指示所述计算应用的结构或初始化方法。

示例63包括示例60-62中任一项的主题，并且其中，检索与所述计算应用的所述描述相关联的所述历史工作负荷数据包括：判定与所述计算应用的所述描述相关联的历史工作负荷数据是否存在；响应于判定与所述计算应用的所述描述相关联的所述历史工作负荷数据存在而检索与所述计算应用的所述描述相关联的所述历史工作负荷数据；以及响应于判定与所述计算应用的所述描述相关联的所述历史工作负荷数据不存在而估计与所述计算应用的所述描述相关联的所述历史工作负荷数据。

示例64包括示例60-63中任一项的主题，并且其中，估计所述历史工作负荷数据包括基于与第二计算应用相关联的历史工作负荷数据来估算所述历史工作负荷数据，其中，所述第二计算应用类似于所述计算应用。

示例65包括示例60-64中任一项的主题，并且进一步包括所述计算设备响应于接收到所述历史工作负荷数据和所述计算应用的所述相关联描述而用与所述计算应用相关联的所述历史工作负荷数据替换与所述计算应用相关联的估计工作负荷数据。

示例66包括一种用于数据中心工作负荷优化的方法，所述方法包括：管理界面生成表示所述数据中心的系统状态的交互式可视化；所述管理界面响应于所述交互式可视化而接收人类输入；所述管理界面将所述人类输入转换成用于优化所述数据中心的工作负荷调度的机器可读规则；以及所述管理界面基于所述机器可读规则优化所述数据中心的数据中心调度。

示例67包括示例66的主题，并且进一步包括所述管理界面确定用于优化所述数据中心的工作负荷调度的预定义的规则；其中，优化所述数据中心调度进一步包括基于所述预定义的规则优化所述数据中心的所述数据中心调度。

示例68包括示例66和67中任一项的主题，并且其中，确定所述预定义的规则包括基于与所述数据中心相关联的服务级别协议来确定所述预定义的规则。

示例69包括示例66-68中任一项的主题，并且进一步包括所述管理界面从所述数据中心的多个传感器接收传感器数据，其中，所述传感器数据指示所述数据中心的所述系统状态；其中，生成所述交互式可视化包括响应于接收到所述传感器数据而生成所述交互式可视化。

示例70包括示例66-69中任一项的主题，并且进一步包括：所述管理界面响应于优化所述数据中心调度而基于所述数据中心调度来调整所述数据中心的所述系统状态；以及所述管理界面响应于调整所述数据中心的所述系统状态而更新表示所述数据中心的所述系统状态的所述交互式可视化。

示例71包括一种计算设备，所述计算设备包括：处理器；以及存储器，所述存储器具有存储于其中的多条指令，这些指令当被所述处理器执行时致使所述计算设备执行示例36-70中任一项的方法。

示例72包括一个或多个机器可读存储介质，所述一个或多个机器可读存储介质包括存储于其上的多条指令，这些指令响应于被执行而导致计算设备执行示例36-70中任一项的方法。

示例73包括一种计算设备，所述计算设备包括用于执行示例36-70中任一项的方法的装置。

示例74包括一种计算机架的机架控制器，所述架控制器包括：用于接收与所述计算机架的硬件部件相关联的度量的装置，其中，所述度量包括系统度量、性能度量或健康度量；用于基于与所述硬件部件相关联的所述度量确定所述硬件部件的回归模型的装置；用于基于所述硬件部件的所述回归模型确定所述硬件部件的平均故障时间值的装置；以及用于基于所述硬件部件的所述平均故障时间值确定逻辑机的平均故障时间值的装置，其中，所述逻辑机与所述硬件部件相关联。

示例75包括示例74的主题，并且其中，用于接收所述度量的所述装置包括用于从所述硬件部件的度量部件接收所述度量的装置。

示例76包括示例74和75中任一项的主题，并且其中，所述硬件部件包括计算资源、存储器资源、存储资源或网络资源。

示例77包括示例74-76中任一项的主题，并且其中，用于确定所述回归模型的所述装置包括用于确定线性回归模型的装置。

示例78包括示例74-77中任一项的主题，并且其中，用于确定所述回归模型的所述装置包括用于确定非线性回归模型的装置。

示例79包括示例74-78中任一项的主题，并且其中，用于确定所述硬件部件的所述平均故障时间值的所述装置包括：用于基于所述回归模型确定与所述硬件部件相关联的预测度量的装置；以及用于将所述预测度量与预定义的阈值度量进行比较的装置。

示例80包括示例74-79中任一项的主题，并且其中，用于确定所述硬件部件的所述平均故障时间值的所述装置包括：用于基于所述回归模型确定与所述硬件部件相关联的预测度量的装置；用于确定与所述硬件部件相关联的服务级别协议的服务级别度量的装置；以及用于将所述预测度量与所述服务级别度量进行比较的装置。

示例81包括示例74-80中任一项的主题，并且进一步包括用于通知用户所述硬件部件的所述平均故障时间值的装置。

示例82包括示例74-81中任一项的主题，并且进一步包括用于基于所述逻辑机的所述平均故障时间值确定与所述逻辑机相关联的维护会话的未来时间的装置。

示例83包括示例74-82中任一项的主题，并且进一步包括用于接收与指派给所述逻辑机的计算应用相关联的性能指标的装置；其中，用于确定所述未来时间的所述装置进一步包括用于基于所述性能指标确定所述未来时间的装置。

示例84包括示例74-83中任一项的主题，并且进一步包括：用于标识所述计算机架的多个硬件部件的装置，其中，所述多个硬件部件包括所述硬件部件，并且其中，与所述硬件部件中的每个硬件部件相关联的平均故障时间值类似于所述硬件部件的所述平均故障时间值；以及用于将所述逻辑机构成为包括所述多个硬件部件的装置。

示例85包括一种计算机架的机架控制器，所述机架控制器包括：用于接收由所述计算机架可执行的计算应用的描述的装置；用于将所述计算应用的所述描述发送到远程计算设备的装置；用于响应于发送所述计算应用的所述描述而从所述远程计算设备接收与所述应用相关联的预测工作负荷数据的装置，其中，所述预测工作负荷数据指示所述计算机架的硬件部件的使用模式；以及用于基于所述预测工作负荷数据确定所述计算机架的所述硬件部件的故障概率的装置。

示例86包括示例85的主题，并且其中，所述计算应用的所述描述包括服务模板。

示例87包括示例85和86中任一项的主题，并且其中，所述描述指示所述计算应用的结构或初始化方法。

示例88包括示例85-87中任一项的主题，并且其中，所述预测工作负荷数据包括指示所述硬件部件上的负载的波形的振幅、频率或相位。

示例89包括示例85-88中任一项的主题，并且其中，所述硬件部件包括计算资源、存储器资源、存储资源或网络资源。

示例90包括示例85-89中任一项的主题，并且进一步包括：用于从所述计算机架的多个硬件部件标识可用硬件部件的装置，其中，所述可用硬件部件可用于执行所述计算应用；以及用于基于所述预测工作负荷数据确定所述可用硬件部件中的每个可用硬件部件的故障概率的装置。

示例91包括示例85-90中任一项的主题，并且进一步包括用于根据所述可用硬件部件中的每个可用硬件部件的所述故障概率从所述可用硬件部件中选择可用硬件部件来执行所述计算应用的装置。

示例92包括示例85-91中任一项的主题，并且进一步包括用于根据所述硬件部件的所述故障概率判定是否满足与所述计算应用相关联的服务级别协议的装置。

示例93包括示例85-92中任一项的主题，并且进一步包括：用于接收与所述计算机架的第二硬件部件相关联的硬件性能度量的装置；用于根据所述硬件性能度量确定历史工作负荷数据的装置，其中，所述历史工作负荷数据指示所述第二硬件部件的使用模式；用于使所述计算机架的当前应用的应用描述与所述历史工作负荷数据相关联的装置；以及用于将所述历史工作负荷数据和所述当前应用的所述应用描述发送到所述远程计算设备的装置。

示例94包括示例85-93中任一项的主题，并且其中，用于接收所述硬件性能度量的所述装置包括用于从所述第二硬件部件的度量部件接收所述硬件性能度量的装置。

示例95包括示例85-94中任一项的主题，并且其中，所述历史工作负荷数据包括指示所述第二硬件部件上的负载的波形的振幅、频率或相位。

示例96包括示例85-95中任一项的主题，并且其中，用于确定所述历史工作负荷数据的所述装置包括用于使用所述硬件性能度量的傅立叶变换来确定所述历史工作负荷数据的装置。

示例97包括示例85-96中任一项的主题，并且其中，所述第二硬件部件包括计算资源、存储器资源、存储资源或网络资源。

示例98包括一种用于性能数据管理的计算设备，所述计算设备包括：用于从第一计算机架的第一机架控制器接收历史工作负荷数据和由所述第一计算机架可执行的计算应用的相关联描述的装置，其中，所述历史工作负荷数据指示所述第一计算机架的硬件部件的使用模式；用于从第二计算机架的第二机架控制器接收所述计算应用的描述的装置；用于检索与所述计算应用的所述描述相关联的所述历史工作负荷数据的装置；以及用于将所述历史工作负荷数据发送到所述第二机架控制器的装置。

示例99包括示例98的主题，并且其中，所述计算应用的所述描述包括服务模板。

示例100包括示例98和99中任一项的主题，并且其中，所述描述指示所述计算应用的结构或初始化方法。

示例101包括示例98-100中任一项的主题，并且其中，用于检索与所述计算应用的所述描述相关联的所述历史工作负荷数据的所述装置包括：用于判定与所述计算应用的所述描述相关联的历史工作负荷数据是否存在的装置；用于响应于判定与所述计算应用的所述描述相关联的所述历史工作负荷数据存在而检索与所述计算应用的所述描述相关联的所述历史工作负荷数据的装置；以及用于响应于判定与所述计算应用的所述描述相关联的所述历史工作负荷数据不存在而估计与所述计算应用的所述描述相关联的所述历史工作负荷数据的装置。

示例102包括示例98-101中任一项的主题，并且其中，用于估计所述历史工作负荷数据的所述装置包括用于基于与第二计算应用相关联的历史工作负荷数据来估算所述历史工作负荷数据的装置，其中，所述第二计算应用类似于所述计算应用。

示例103包括示例98-102中任一项的主题，并且进一步包括用于响应于接收到所述历史工作负荷数据和所述计算应用的所述相关联描述而用与所述计算应用相关联的所述历史工作负荷数据替换与所述计算应用相关联的估计工作负荷数据的装置。

示例104包括一种用于数据中心工作负荷优化的管理界面，所述管理界面包括：用于生成表示所述数据中心的系统状态的交互式可视化的装置；用于响应于所述交互式可视化而接收人类输入的装置；用于将所述人类输入转换成用于优化所述数据中心的工作负荷调度的机器可读规则的装置；以及用于基于所述机器可读规则优化所述数据中心的数据中心调度的装置。

示例105包括示例104的主题，并且进一步包括用于确定用于优化所述数据中心的工作负荷调度的预定义的规则的装置；其中，用于优化所述数据中心调度的所述装置进一步包括用于基于所述预定义的规则优化所述数据中心的所述数据中心调度的装置。

示例106包括示例104和105中任一项的主题，并且其中，用于确定所述预定义的规则的所述装置包括用于基于与所述数据中心相关联的服务级别协议来确定所述预定义的规则的装置。

示例107包括示例104-106中任一项的主题，并且进一步包括用于从所述数据中心的多个传感器接收传感器数据的装置，其中，所述传感器数据指示所述数据中心的所述系统状态；其中，用于生成所述交互式可视化的所述装置包括用于响应于接收到所述传感器数据而生成所述交互式可视化的装置。

示例108包括示例104-107中任一项的主题，并且进一步包括：用于响应于优化所述数据中心调度而基于所述数据中心调度来调整所述数据中心的所述系统状态的装置；以及用于响应于调整所述数据中心的所述系统状态而更新表示所述数据中心的所述系统状态的所述交互式可视化的装置。

Claims

1.一种计算机架的机架控制器，所述机架控制器包括：

性能监测模块，所述性能监测模块用于接收与所述计算机架的硬件部件相关联的度量，所述硬件部件由所述机架控制器管理，其中，所述度量包括系统度量、性能度量或健康度量；

分析模块，所述分析模块用于：

基于与所述硬件部件相关联的所述度量确定所述硬件部件的回归模型；以及

确定所述硬件部件的平均故障时间MTTF值，其中，确定MTTF值包括：(i)基于用于所述硬件部件的所述回归模型确定与所述硬件部件相关联的预测度量；(ii)确定与所述硬件部件相关联的服务级别协议的服务级别度量；以及(iii)将所述预测度量与所述服务级别度量进行比较以获得与时间点的距离，所述预测度量与所述服务级别度量在所述时间点相交；以及

数据中心管理模块，所述数据中心管理模块用于构成逻辑机，所述逻辑机包括所述硬件部件和所述计算机架的多个第二硬件部件，所述多个第二硬件部件中的每个第二硬件部件由所述机架控制器管理，其中，所述多个第二硬件部件是计算资源、存储资源、网络资源或存储器资源的硬件部件，所述第二硬件部件中的每个第二硬件部件与同用于所述硬件部件的MTTF值相同的经调度的维护会话相关联的MTTF值相关联。

2.如权利要求1所述的机架控制器，其中，用于接收所述度量包括：用于从所述硬件部件的度量部件接收所述度量。

3.如权利要求1所述的机架控制器，其中，所述硬件部件包括计算资源、存储器资源、存储资源或网络资源。

4.如权利要求1所述的机架控制器，其中，用于确定所述回归模型包括：用于确定线性回归模型。

5.如权利要求1所述的机架控制器，其中，用于确定所述回归模型包括：用于确定非线性回归模型。

6.如权利要求1所述的机架控制器，其中，用于确定所述硬件部件的MTTF值包括用于：

基于所述回归模型确定与所述硬件部件相关联的预测度量；并且

将所述预测度量与一个或多个预定义的阈值度量中的对应的预定义的阈值度量进行比较。

7.如权利要求1所述的机架控制器，其中，所述数据中心管理模块用于通知用户所述硬件部件的所述MTTF值。

8.如权利要求1所述的机架控制器，其中，所述数据中心管理模块用于基于所述逻辑机的MTTF值确定与所述逻辑机相关联的维护会话的未来时间。

9.如权利要求8所述的机架控制器，其中：

所述性能监测模块进一步用于接收与指派给所述逻辑机的计算应用相关联的性能指标；并且

用于确定所述未来时间进一步包括：用于基于所述性能指标确定所述未来时间。

10.一种用于数据中心管理的方法，所述方法包括：

由计算机架的机架控制器接收与所述计算机架的硬件部件相关联的度量，其中，所述度量包括系统度量、性能度量或健康度量，并且其中，所述硬件部件由所述机架控制器管理；

由所述机架控制器基于与所述硬件部件相关联的所述度量确定所述硬件部件的回归模型；

由所述机架控制器确定所述硬件部件的平均故障时间MTTF值，其中，确定MTTF值包括：(i)基于用于所述硬件部件的所述回归模型确定与所述硬件部件相关联的预测度量；(ii)确定与所述硬件部件相关联的服务级别协议的服务级别度量；以及(iii)将所述预测度量与所述服务级别度量进行比较以获得与时间点的距离，所述预测度量与所述服务级别度量在所述时间点相交；以及

由所述机架控制器构成逻辑机，所述逻辑机包括所述硬件部件和所述计算机架的多个第二硬件部件，所述多个第二硬件部件中的每个第二硬件部件由所述机架控制器管理，其中，所述多个第二硬件部件是计算资源、存储资源、网络资源或存储器资源的硬件部件，所述第二硬件部件中的每个第二硬件部件与同用于所述硬件部件的MTTF值相同的经调度的维护会话相关联的MTTF值相关联。

11.如权利要求10所述的方法，其中，接收所述量度包括从所述硬件部件的度量部件接收所述度量。

12.如权利要求10所述的方法，其中，确定所述硬件部件的MTTF时间值包括：

基于所述回归模型确定与所述硬件部件相关联的预测度量；以及

13.如权利要求10所述的方法，进一步包括所述机架控制器基于所述逻辑机的MTTF值确定与所述逻辑机相关联的维护会话的未来时间。

14.如权利要求13所述的方法，进一步包括：

所述机架控制器接收与指派给所述逻辑机的计算应用相关联的性能指标；

其中，确定所述未来时间进一步包括基于所述性能指标确定所述未来时间。

15.一种计算机架的机架控制器，所述机架控制器包括：

用于接收与所述计算机架的硬件部件相关联的度量的装置，其中，所述度量包括系统度量、性能度量或健康度量，并且其中，所述硬件部件由所述机架控制器管理；

用于基于与所述硬件部件相关联的所述度量确定所述硬件部件的回归模型的装置；

用于确定所述硬件部件的平均故障时间值MTTF的装置，其中，用于确定MTTF值的装置包括：(i)用于基于用于所述硬件部件的所述回归模型确定与所述硬件部件相关联的预测度量的装置；(ii)用于确定与所述硬件部件相关联的服务级别协议的服务级别度量的装置；以及(iii)用于将所述预测度量与所述服务级别度量进行比较以获得与时间点的距离的装置，所述预测度量与所述服务级别度量在所述时间点相交；以及

用于构成逻辑机的装置，所述逻辑机包括所述硬件部件和所述计算机架的多个第二硬件部件，所述多个第二硬件部件中的每个第二硬件部件由所述机架控制器管理，其中，所述多个第二硬件部件是计算资源、存储资源、网络资源或存储器资源的硬件部件，所述第二硬件部件中的每个第二硬件部件与同用于所述硬件部件的MTTF值相同的经调度的维护会话相关联的MTTF值相关联。

16.如权利要求15所述的机架控制器，其中，用于接收所述度量的装置包括用于从所述硬件部件的度量部件接收所述度量的装置。

17.如权利要求15所述的机架控制器，其中，用于确定所述硬件部件的MTTF值的装置包括：

用于基于所述回归模型确定与所述硬件部件相关联的预测度量的装置；以及

用于将所述预测度量与一个或多个预定义的阈值度量中的对应的预定义的阈值度量进行比较的装置。

18.如权利要求15所述的机架控制器，进一步包括用于基于所述逻辑机的MTTF值确定与所述逻辑机相关联的维护会话的未来时间的装置。

19.如权利要求18所述的机架控制器，进一步包括：

用于接收与指派给所述逻辑机的计算应用相关联的性能指标的装置；

其中，用于确定所述未来时间的装置进一步包括用于基于所述性能指标确定所述未来时间的装置。

20.一种机器可读存储介质，包括存储于其上的多条指令，所述多条指令响应于被执行而导致计算设备执行如权利要求10至14中任一项所述的方法。