CN114072770A

CN114072770A - 数据中心中的计算设备的自动修复

Info

Publication number: CN114072770A
Application number: CN202080034743.4A
Authority: CN
Inventors: I·费雷拉; G·巴拉克里希南; E·亚当斯; C·科尔特斯; E·呼兰德
Original assignee: Core Scientific Inc
Current assignee: Core Scientific Inc
Priority date: 2019-07-23
Filing date: 2020-07-22
Publication date: 2022-02-18
Also published as: EP4004733A4; CA3133672A1; US11249835B2; US10691528B1; EP4004733A1; CA3229405A1; US20210026729A1; WO2021016356A1

Abstract

用于管理数据中心中的多个计算设备的管理设备可以包括：网络接口；第一模块，其经由网络接口定期向计算设备发送健康状态查询；第二模块，其被配置为接收对健康状态查询的响应并且收集和存储计算设备的健康状态数据；第三模块，其被配置为创建支持票证，和/或第四模块，其被配置为(i)基于健康状态数据创建和定期更新Cox比例风险(CPH)模型；(ii)将深度神经网络(DNN)应用于CPH模型的输入；(iii)确定用于每个计算设备的故障概率；(iv)将每个故障概率与阈值进行比较；以及(v)使第三模块针对具有高于阈值的确定的故障概率的每个计算设备生成故障前支持票证。

Description

数据中心中的计算设备的自动修复

相关申请的交叉引用

本申请要求于2020年5月20日提交的第16/879,157号美国专利申请的优先权，该申请是于2020年1月29日提交的序列号为16/776,213的美国专利申请的继续申请(第10,691,528号美国专利)，其要求于2019年7月23日提交的题为“计算系统”的序列号为62/877,714的美国临时专利申请的优先权，其内容通过引用整体并入本文。

技术领域

本公开总体上涉及计算领域，并且更具体地涉及用于管理诸如数据中心中的挖矿机(miner)的多个计算设备的系统和方法。

背景技术

仅出于提供上下文的目的，在下面阐述该背景描述。因此，本背景描述的任何方面，在它不以其它方式作为现有技术的范围内的程度上，既不明示也不暗示承认为针对本公开的现有技术。

许多加密货币(例如，比特币、莱特币)基于称为区块链的技术，其中交易被组合成区块。这些区块与早先交易的先前区块一起存储到账本(“区块链”)中，并通过包含哈希值使其不可变(即实际上不可修改)。哈希值是基于区块来计算的并符合特定区块链的标准的数字。一旦区块和哈希值被加密货币网络确认，它们就会被添加到区块链中。哈希值可用于验证区块链上的任何先前交易或区块是否已被更改或篡改。这创建了不可变的交易账本，并允许加密货币网络防止有人试图双重支付数字硬币。

许多加密货币网络由大量参与者组成，这些参与者反复尝试以成为第一位计算出满足区块链网络要求的哈希值的人。取决于区块链，这些参与者可能会因为成为第一位计算出成功的哈希值的人而获得奖励(例如，硬币奖励或交易费奖励)，并且该奖励可以激励他们继续参与(挖矿)。

许多区块链网络需要作为哈希计算的一部分而解决的计算困难的问题。困难问题需要一个解决方案，该解决方案是难以(昂贵、耗时)产生但其他人易于验证并满足某些要求的数据。这通常被称为“工作量证明”。工作量证明(PoW)系统(或协议或功能)是一种共识机制。它通过要求服务请求者进行一些工作(通常意味着计算机的处理时间)来阻止拒绝服务攻击和其它服务滥用，诸如网络上的垃圾邮件。对于试图补偿网络上发生的哈希能力的增加的一些区块链网络，难度级别可能会定期更改。

网络中的参与者操作标准PC、服务器或称为挖矿设备或挖矿机的专用计算设备。由于所涉及的难度和所需的计算量，挖矿机通常被配置有提高执行哈希(设备的哈希率)或区块链网络所需的其它计算的速度的专用组件。专用组件的示例包括专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)和加速处理单元(APU)。专用加密货币挖掘软件(例如，cgminer)也可以与专用组件一起使用，例如配置为计算SHA-256算法的软件应用。

挖矿机经常在生成大量热量的高频下长时间运行。即使有冷却(例如高速风扇)，热量和持续不断的操作也可对挖矿机中组件的可靠性和寿命产生负面影响。例如，ASIC挖矿机具有大量哈希芯片(例如100个)，该芯片随着温度升高而更有可能发生故障。

区块链网络中的许多参与者在大型数据中心中同时操作大量(例如，1000个、10000个、50000个或更多)不同的挖矿机(例如，来自一个制造商或不同制造商的不同代的挖矿机)。这些数据中心和大量挖矿机可能难以管理。容纳大量挖矿机或其它基于ASIC或GPU的系统的数据中心与容纳更多通用计算机的传统数据中心面临不同的挑战。这是由于显著更高的密度，包括更高的功率使用、更高的热量生成和几乎持续不断的计算密集型操作。

持续不断的操作经常导致性能问题，诸如存储器泄漏。存储器泄漏可能通过降低可用存储器量来降低计算机的性能。当程序运行很长时间并且随着时间推移消耗越来越多的存储器时，存储器泄漏可能是一个问题。最终可能会分配过多的可用存储器，并且设备或系统的全部或部分可能会停止正常工作。设备上运行的一个或多个应用可能会失败，并且系统可能会因颠簸(thrashing)而变慢。颠簸是指计算机的虚拟存储器资源被过度使用，导致分页和页面错误的持续状态，从而显著减慢或抑制应用级处理。

在大型数据中心中，由于已知和未知原因二者，每天可能有大量单元发生故障。典型的数据中心管理解决方案是确定计算设备何时不再响应请求(例如，响应网络ping)，并且然后重启设备(例如，通过转到设备并拔掉它的插头)。因为每天可能需要数据中心技术人员花费大量时间来对所有故障设备进行精细和手动重启，所以这是不太理想的。此外，当设备性能劣化而设备仍然能够响应请求时，可能会在处理过程中出现重大损失。

至少出于这些原因，需要以允许改进对大量计算设备(诸如数据中心中的挖矿机)的管理的系统和方法。

发明内容

设想了用于更容易地管理具有多个计算设备(诸如挖矿机)的数据中心的方法和系统。示例计算设备包括例如ASIC挖矿机、FPGA挖矿机和GPU挖矿机，但其它计算设备类型也是可能的和预期的。

在一个实施例中，方法包括基于被监测的属性和预定义的健康属性级别发出自动(例如，没有人工干预)状态查询和修复指令。可以发送针对第二计算设备的第一健康状态查询。健康状态查询可以包括例如哈希率或温度。响应于在第一预定时间内没有接收到对第一健康状态查询的可接受响应，向第二计算设备发送第一修复指令。在足够完成第一修复指令的时间已经过去后，可以发送针对第二计算设备的第二健康状态查询。响应于在第二预定时间内没有接收到对第二健康状态查询的可接受响应，向第二计算设备发送第二修复指令。在经过足够完成第二修复指令的时间已经过去后，可以分发针对第二计算设备的第三健康状态查询。响应于在可接受时间段内没有接收到对第三健康状态查询的可接受响应，可以生成修复票证。

在一些实施例中，第一修复指令可以包括仅重置在计算设备上执行的挖掘应用、调节风扇速度、电压电平和操作频率，并且第二修复指令可以包括重置整个计算设备。

还设想了用于管理在数据中心中操作的计算设备的系统。在一个实施例中，系统可以包括用于与被管理的计算设备进行通信的网络接口以及一起被配置为自动管理计算设备的多个模块。模块例如可包括发送对被管理的计算设备的状态查询的第一模块。示例性第二模块可以被配置为接收和处理对健康状态查询的响应，并且第三模块可以被配置为响应于两次或更多次失败的修复尝试来创建支持票证。当已经过预定时间量而没有接收到对健康状态查询的可接受响应时，可以确定修复尝试失败。

该系统可以在软件中实现为可由计算设备的处理器执行的指令，并且该指令可以存储在非暂态计算机可读存储介质上，诸如闪存驱动器、CD-ROM、DVD-ROM，或硬盘。

在实施例中，用于管理数据中心中的多个计算设备的管理设备可以包括：用于与多个计算设备进行通信的网络接口；第一模块，其定期经由网络接口向计算设备中的每个计算设备发送健康状态查询；第二模块，其被配置为接收对健康状态查询的响应并收集和存储计算设备中的每个计算设备的健康状态数据；第三模块，其被配置为创建支持票证；和/或第四模块。第四模块可以被配置为：(i)基于收集的健康状态数据创建并定期更新Cox比例风险(CPH)模型；(ii)将深度神经网络(DNN)应用于CPH模型的输入；(iii)针对多个计算设备中的每个计算设备确定故障概率；(iv)将每个确定的故障概率与预定阈值进行比较；和/或(v)使第三模块针对多个计算设备中的具有超过预定阈值的确定的故障概率的每个计算设备生成故障前(pre-failure)支持票证。

本公开的实施例的前述和其它方面、特征、细节、效用和/或优点将通过阅读以下描述和通过查看附图而变得显而易见。

附图说明

图1是用于计算设备的数据中心的一个示例的顶视图。

图2是用于计算设备的数据中心中的舱(pod)的一个示例的前视图。

图3是用于数据中心中的计算设备的机架的一部分的一个示例的图示。

图4是计算设备(特别是挖矿机)的一个示例的图示。

图5是示出根据本公开的教导的管理数据中心中的诸如挖矿机的计算设备的一种示例方法的流程图。

图6是根据本公开的教导的用于管理数据中心中的计算设备的系统的示例的图示。

图7是示出管理数据中心中的诸如挖矿机的计算设备的另一示例方法的流程图。

具体实施方式

现在将详细参考本公开的实施例，在此描述其示例并在附图中示出其示例。虽然将结合实施例和/或示例来描述本公开，但是可理解它们不将本公开限于这些实施例和/或示例。相反，本公开涵盖替代、修改和等价物。

在此描述了针对各种装置、系统和/或方法的各种实施例。阐述了许多具体细节以提供对说明书中描述的和附图中所示的实施例的整体结构、功能、制造和使用的透彻理解。然而，本领域技术人员将理解可以在没有此类具体细节的情况下实践实施例。在其它情况下，没有详细描述公知的操作、组件和元件，以免混淆说明书中描述的实施例。本领域普通技术人员将理解在此描述和图示的实施例是非限制性示例，并且因此可以理解在此公开的具体结构和功能细节可以是代表性的并且不必限制实施例的范围.

现在参考图1，示出了用于计算设备的数据中心100的一个示例的顶视图。数据中心100被配置有大量的舱(pod)110。舱是成行或(更典型地)成行对的标准化的机架块，它们共享一些公共基础设施元件，如配电单元、网络路由器/交换机、密封系统和空气处理机。例如，舱可能具有间隔开并且每个都面向外的两个平行的设备机架。机架上的设备都可以取向为从舱外部吸入冷空气并将(由计算设备制热的)热空气排放到舱中心的空的空间中，在该空的空间中然后热空气上升并排出数据中心。例如，每个舱中间可能存在热风管道，以采集热废气，并且然后舱经由数据中心屋顶的通风口将热废气排出数据中心。

现在转向图2，示出了舱110的一个示例的前侧。舱110具有多个机架210，每个机架210具有用于保持计算设备的多个架子230。出于组织和管理的目的，架子可以在交换机部分220中组合在一起，交换机部分220中的每个架子都由同一网络交换机支持。在架子230中的每个架子中可以存在多个箱(bin)位置240，每个箱位置240保持单个计算设备。每个计算设备可被安装在具有电源连接和网络连接的箱中。

现在转向图3，示出了示例机架210中的一个架子230的更详细的前视图。在该示例中，计算设备310安装在架子230中的每个箱240中。在该示例中，计算设备310是ASIC挖矿机。ASIC挖矿机通常包括具有网络端口320、一个或多个状态指示器LED 330和一对冷却风扇(示出前风扇340)的控制器板，冷却风扇抽吸通过挖矿机中心的空气，挖矿机中存在执行计算并生成热量的多个哈希板。

现在转向图4，示出了计算设备310的一个示例实施例的图示。在该示例中，计算设备310包括监督设备中的多个哈希板350的操作的控制器360。控制器360还包括用于通信的网络端口320、用于重置计算设备310的重置按钮370和一个或多个指示器LED 330。两个风扇340(一个前风扇和一个后风扇)将冷空气吸入计算设备310并通过计算设备310的背面排出废热。其它类型的计算设备是可能的并预期的。

如上所述，大型数据中心的运营商面临的一个问题是识别并服务未最优操作的计算设备。出于包括设备从完全运行劣化到无响应状态所需的时间和生产力损失的多种原因，等待设备发生故障并且然后手动重启或使用重置按钮370对其重置是不合需要的。至少出于该原因，需要用于管理大量计算设备的改进系统和方法。

现在转向图5，示出了说明根据本公开的教导的用于管理数据中心中的计算设备的改进方法的示例实施例的流程图。请求来自一个或多个计算设备的状态信息(步骤500)。该请求可以经由网络连接(例如，有线或无线以太网)从管理服务器发送到一个或多个计算设备310。如果响应是可接受的(步骤510)，则可以在预定轮询间隔已经过去之后发送另一个周期性请求(步骤520)。例如，状态请求可能每1、5、6、10或30分钟发送一次。状态请求可以请求关于计算设备的不同操作参数的数据，诸如哈希率、温度、风扇速度或硬件错误的数量。示例请求可以查询特定计算设备310的温度，并且可接受响应可以是指示操作温度低于制造商针对该特定设备类型和型号指定的操作温度的响应。

一些请求可以被发送到数据提供者而不是被监测的设备。例如，在一些实施例中，哈希率请求可以被发送到被监测的设备，但是在其它实施例中，请求可以被发送到存储来自计算设备当前正在处理的矿池的信息的数据库。例如，数据库可以是由矿池提供的数据的本地副本。哈希率通常以每秒哈希数计算，例如3PH/s(每秒3×10¹⁵个哈希)、13TH/s(每秒13×10¹²个哈希)或90GH/s(每秒90×10⁹个哈希)，并且可能由矿池定期提供。一些矿池以工人为基础跟踪挖矿设备的哈希值。这意味着如果存在多于一个的挖矿设备连接到池中作为单个工人，则报告的哈希率信息可能批量覆盖所有这些挖矿设备。一些矿池允许使用针对挖掘设备的指定的工人名称，这使矿池能够跟踪哈希率并分别为每个挖掘设备报告哈希率。

如果响应不指示计算设备的可接受状态(步骤510)，则向计算设备发送第一修复指令(步骤530)。第一修复指令的一个示例是重启在计算设备上运行的应用。例如，可以重启在挖掘设备上运行的挖掘应用。这与重启整个计算设备不同。修复指令的另一示例包括响应于接收到指示温度过高的状态响应而发出的提高风扇速度或降低运行电压的指令。取决于被管理的计算设备，修复指令还可以包括在计算设备上运行计算机程序。

在第一修复指令已经被发送后，等待时间发生(步骤540)以允许目标计算设备完成执行第一修复指令。例如，可以使用五分钟、十分钟或十五分钟的等待时间来为目标计算设备提供足够的时间来完成第一修复指令的执行(或重复执行)。然后，另一状态请求被发送到计算设备(步骤550)。如果响应是可接受的(例如在制造商的温度或哈希率规范内)(步骤560)，则系统在进行另一个状态请求之前(步骤500)等待直到下一个轮询周期(步骤520)。如果响应是不可接受的(步骤560)，则发送第二修复指令(步骤570)。第二修复指令的一个示例是全设备重置指令。第二修复指令的另一示例是响应于接收到指示温度过高的状态响应而降低操作频率的指令。

在第二修复指令已经被发送后，等待时间发生(步骤580)以允许目标计算设备完成执行第二修复指令。然后，另一状态请求被发送到计算设备(步骤590)。如果响应是可接受的(步骤592)(例如在制造商的温度或哈希率规范内)，则系统在进行另一状态请求之前(步骤500)等待直到下一个轮询周期(步骤520)。可接受响应(步骤510、560、592)还可以使计算设备从任何现有的故障设备的列表中移除。如果响应是不可接受的(步骤592)，则生成支持票证(步骤594)。支持票证不仅可以包括计算设备的标识，还可以包括所执行的修复指令的历史和由此产生的健康状态报告。有利地，这可以节省支持人员的时间以免手动执行修复指令。

在一些实施例中，健康状态查询可以包括运行诊断指令或指令集。在其它实施例中，健康状态查询可以是对数据库的查询，该数据库存储为计算设备定期收集的状态信息(例如，从计算设备正在处理的矿池接收的)。

现在转向图6，示出了用于管理数据中心中的计算设备的系统的示例实施例的图示。在该实施例中，系统包括大量计算设备310(例如，挖矿机)。计算设备310经由服务器的网络接口640通过网络610与管理服务器600通信。虽然无线网络是可能的，但是数据中心中的当前计算设备密度意指当前优选为管理服务器600和计算设备310之间的通信使用诸如有线以太网的有线网络。在一些实施例中，计算设备310可以包括控制器360和用于经由网络610与管理服务器600通信的网络接口。控制器360可以被配置为向一个或多个计算或哈希板350发送计算任务，每个计算或哈希板具有可以在控制器指定的频率下操作的多个GPU或ASIC芯片390。计算设备310可以进一步包括多个冷却风扇340和电源380。电源输出到ASIC芯片390的电压可以基于由控制器360配置的设置而变化。ASIC芯片390的更高电压和频率水平将提高性能，但它们也可能会增加热量并对寿命产生负面影响。

管理服务器600可以是传统的PC或服务器，或专用设备。管理服务器600可以配置有一个或多个处理器620、易失性存储器和非易失性存储器，诸如闪存或内部或外部硬盘(例如，服务器600可访问的网络附加存储)。管理服务器600被配置为执行管理应用630以帮助用户(例如，数据中心技术人员)管理计算设备310。管理服务器600可以位于与计算设备310相同的数据中心或设施内，或者位于远程并经由互联网连接到计算设备310。

管理应用630优选地以软件(例如，存储在诸如硬盘、闪存驱动器或DVD-ROM的非易失性存储介质上的指令)实现，但是硬件实现方式是可能的。管理应用630可以包括多个模块，例如包括：用户界面模块632，其向用户显示数据并从用户接收输入(例如，经由外部显示器或经由用户的网络浏览器)；查询发送模块634，其发送状态查询以获取计算设备310的状态数据(例如，定期轮询每个设备的健康状态)；查询响应处理和修复模块638，其接收和处理状态查询响应并在需要时发出修复指令；以及支持票证创建模块636，其在修复指令未能将计算设备移动到可接受状态时创建支持票证。如果已解决，模块636可以生成“已解决”票证或更新现有票证，该票证具有在票务系统中提供计算设备的历史的记录的详细信息。模块636和638还可以包括防止管理应用由于设备或一组设备的重复出现的问题而陷入循环的智能(例如，规则)。例如，在发送了支持票证后，票证创建模块636可以被配置为不发送后续的修复指令或创建附加票证，直到技术人员指示设备已被修复或设备正确响应健康状态查询(指示设备已修复)。

在一些实施例中，用户界面模块632可以向用户提供界面以配置何时发送修复指令以及发送哪些修复指令的规则(或覆盖预定义规则)。管理应用630可以被配置为如果确定满足规则的条件(例如，问题的症状或先导指标)则自动执行该步骤。在一些实施例中，计算系统可以被配置为基于第二计算设备的活动和/或简档的过去数据进行学习并且在问题发生之前诸如基于领先指标采取纠正/主动动作。例如，在一些基于学习的实施例中，管理应用630可以被配置为在先前遇到的问题(例如，设备挂起)再次发生之前可以基于领先指标(例如，检测到哈希率下降)启动修复。

在一个实施例中，管理应用630可以被配置为监测关键健康度量(例如，哈希率、温度)中的异常，并且当问题被识别时，识别问题的尺度并适当地升级，包括在需要超出自动发出修复指令(自我修复)的升级时通知适当的个人。例如，如果单个设备报告温度升高，则可以分派第一(如果需要，第二)修复指令。然而，如果同一机架中的多个设备(例如，大于5％)开始经历升高的温度，则管理应用630可以被配置为(1)打开或增加数据中心的该区域的主动冷却速率(例如，蒸发冷却器或空调)，或(2)为机架创建高优先级票证，因为多个高温健康状态报告可指示数据中心的该部分中更广泛的气流问题，而不仅仅是单个计算设备的问题。

在另一个实施例中，管理应用630可以被配置为应用人工智能(AI)和机器学习(ML)以在计算设备中的异常发生或达到严重影响之前预测它们并创建补救机制(例如，修复指令)。例如，在一个实施例中，管理应用630可以被配置为在数据存储650中跟踪计算设备310的状态报告历史。当检测到问题模式时(例如，在预定时间段内的一系列多个不可接受的健康状态响应)，即使修复指令成功，票证创建模块636也可以创建票证。这些“屡犯”设备可能处于更灾难性的故障边缘，并且可能受益于技术人员检查和更换磨损组件(如风扇或电源)。管理应用630可以进一步被配置为经由用户界面模块632向用户提供屡犯设备列表。

在一些实施例中，管理应用630可以被配置为避免当多台机器在同一区域因相同问题停机时生成多张票证。区域可以通过聚合来定义。级别可能增加在所定义的区域中受影响的第二计算设备的数量，从单独的第二计算设备直到并包括多个数据中心处的多个第二计算设备。例如，定义的级别可以包括：总体(所有站点)、站点、舱、机架、交换机和单个计算设备。例如，如果“机器启动”度量在站点级别、舱级别和机架级别是健康的，但在交换机级别是不健康的，则可能在交换机级别生成一张票证。如果管理应用630检测到超出特定聚合级别的可接受范围的健康状态数字，则应用可以生成票证以及分派以尝试自动解决问题的修复指令。当多个计算设备由于同一问题而宕机时，例如在死开关切断与多个公司的计算设备的网络通信的情况下，可能为每个客户生成一张票证。

在一些实施例中，为了帮助识别计算设备310何时可能进入故障状态以及哪些其它指示符可能与故障状态相关，管理应用630可以包括人工智能(AI)和机器学习(ML)模块654以预测计算设备310中的异常并在异常发生或达到严重影响之前创建补救机制(例如，支持票证)。在一些实施例中，AI/ML模块654可被配置为使用Cox比例风险(CPH)模型根据历史遥测数据(存储在数据存储器650中)和可选的气候数据(例如，数据中心中的温度和湿度读数)来预测计算设备310的故障事件的可能性。

CPH模型通常用于临床环境以确定多变量因素如何可影响患者存活。CPH模型的益处是它能够同时评估几个因素对患者生存的影响。CPH模型输出的高于预定阈值的故障可能性(例如，80％可能性)的计算设备310可以为它们生成支持票证，使得数据中心人员可以检查它们并根据需要更换部件。对于AI和ML，使用数据存储650中的数据构建和训练模型。

在一些实施例中，CPH的初始模型可以使用被称为R中的Themeaux'sSurvival包或Python中的Pilon's Lifelines包的开源包构建。然后可以测试模型的性能以基于一致性(Concordance)指数确认模型是令人满意的，一致性指数是评估算法做出的预测的度量并且可用于对生存模型进行评分。评分按照一致对(concordant pairs)除以可能的评估对的总数的比例来计算。

然后可以通过将深度神经网络(DNN)连接到CPH模型的输入来增强高评分模型。该方法使用与简单前馈神经网络相关联的输入-输出关系对被检查过的生存数据进行建模作为非线性比例风险模型的基础。在一个实施例中，这是使用神经网络进行回归的Faraggi和Simon方法。例如，网络可以配置有单个输出节点以及具有输入、隐藏节点、偏置节点和输出的一层感知器。可在输入和隐藏节点之间使用Sigmoid非线性。有利的是，CPH的这些DNN实现方式可能优于传统的CPH，并且由于可以调节或任意选择神经网络架构，因此可扩展性更高。

在一些实施例中，AI模块654可以实现用于计算可能性的Efron方法，因为该方法已被证明优于其它方法，比精确计算方法更快，并且倾向于产生比其它方法更接近的估计。Efron方法的实现方式存在于TensorFlow 2.0中，使其比以前的CPH DNN工作更具可重用性。

现在转向图7，示出了AI/ML模块654的操作的一个实施例的细节。在该实施例中，收集并存储来自多个计算设备的数据(步骤700)。基于收集的数据创建/更新CPH模型(步骤710)。将DNN应用于CPH模块的输入(步骤720)。基于模型确定每个计算设备的故障概率(步骤730)。如果故障概率大于预定阈值(步骤740)，并且尚未生成支持票证(步骤760)，则生成票证(步骤770)。如果故障概率低于预定阈值(步骤740)，则过程在重复之前等待直到轮询间隔(步骤750)。

在整个说明书中对“各种实施例”、“采用实施例”、“在实施例中”或“实施例”等的引用意指结合实施例描述的特定特征、结构或特性被包括在至少一个实施例中。因此，在整个说明书中出现的短语“在各种实施例中”、“采用实施例”、“在实施例中”或“实施例”等不一定都指代相同的实施例。此外，特定特征、结构或特性可以在一个或多个实施例中以任何合适的方式组合。因此，结合一个实施例/示例说明或描述的特定特征、结构或特性可以全部或部分地与一个或多个其它实施例/示例的特征、结构、功能和/或特性组合而没有限制，因为此类组合不是不合逻辑的或无功能的。此外，在不脱离本公开的范围的情况下，可以进行许多修改以使特定情况或材料适应本公开的教导。

应当理解，对单个元素的引用不必如此受限并且可以包括此类元素中的一个或多个。任何方向引用(例如，加、减、上、下、向上、向下、左、右、向左、向右、顶、底、上方、下方、垂直、水平、顺时针和逆时针)仅用于识别目的帮助读者理解本公开，并且不产生限制，特别是关于实施例的位置、取向或使用。

接合引用(例如，附接、耦合、连接等)应被广义地解释并且可以包括元件之间的相对运动和元件的连接之间的中间构件。因此，接合引用不一定意指两个元件直接连接/耦合并彼此处于固定关系。说明书中“例如”的使用应被广义地解释并且用于提供本公开的实施例的非限制性示例，并且本公开不限于此类示例。“和”和“或”的使用应作广义解释(例如，被视为“和/或”)。例如但不限于，“和”的使用不一定需要列出的所有元素或特征，并且“或”的使用是包括性的，除非该构造不合逻辑。

虽然在此可以结合特定顺序的一个或多个步骤来描述过程、系统和方法，但是应当理解该方法也可以用不同顺序的步骤来实践，同时执行某些步骤，执行附加步骤，和/或省略某些描述的步骤。

包含在以上描述中或在附图中示出的所有内容应被解释为仅是说明性的而非限制性的。在不脱离本公开的情况下，可以进行细节或结构的改变。

应当理解，如在此所述的计算机、系统和/或处理器可以包括本领域已知的能够执行存储在相关联存储器中的预编程指令的传统处理装置，其全部执行根据在此描述的功能。就在此描述的方法以软件体现的程度而言，所得软件可存储在相关联存储器中并且还可构成用于执行该方法的部件。该系统或处理器可以进一步是具有ROM、RAM、RAM和ROM，和/或非易失性和易失性存储器的组合的类型，使得可以存储任何软件，并且还允许存储和处理动态产生的数据和/或信号。

应当进一步理解，根据本公开的制品可以包括非暂态计算机可读存储介质，其上具有编码用于实现在此描述的逻辑和其它功能的计算机程序。计算机程序可包括用于执行在此公开的一种或多种方法的代码。该实施例可被配置为经由一个或多个处理器执行，诸如集成到单个系统中或分布在通信网络上并通过通信网络连接在一起的多个处理器，并且通信网络可以是有线和/或无线的。用于实现结合一个或多个实施例描述的一个或多个特征的代码在由处理器执行时可以使多个晶体管从第一状态改变到第二状态。特定的变化模式(例如，哪些晶体管改变状态而哪些晶体管不改变)可以至少部分地由逻辑和/或代码规定。

Claims

1.一种管理设备，用于管理数据中心中的多个计算设备，其中，所述管理设备包括：

网络接口，其用于与所述多个计算设备进行通信，

第一模块，其发送针对所述计算设备中选择的一个计算设备的第一健康状态查询，

第二模块，其被配置为接收和处理对所述第一健康状态查询的任何响应，以及

第三模块，其被配置为创建支持票证，

其中，所述第二模块被配置为响应于在第一预定时间内没有接收到对所述第一健康状态查询的可接受响应：

(a)向所述选择的计算设备发送第一修复指令，

(b)等待至少足够让所述第一修复指令完成的时间，

(c)使所述第一模块向所述选择的计算设备发送第二健康状态查询；以及

(d)响应于在第二预定时间内没有接收到对所述第二健康状态查询的可接受响应：

(i)使所述第一模块向所述选择的计算设备发送第二修复指令，

(ii)等待至少足够让所述第二修复指令完成的时间，

(iii)向所述选择的计算设备发送第三健康状态查询；以及

(iv)响应于未接收到对所述第三健康状态查询的可接受响应，使所述第三模块创建识别所述第二计算设备和所述第二计算设备的健康状态的支持票证。

2.根据权利要求1所述的管理设备，其中，所述第一健康状态查询、所述第二健康状态查询和所述第三健康状态查询是对所述选择的计算设备的哈希率的查询，其中，所述第一修复指令是重启在所述选择的计算设备上操作的挖掘应用，并且其中，所述第二修复指令是重启所述选择的计算设备。

3.根据权利要求1所述的管理设备，其中，所述第一健康状态查询、所述第二健康状态查询和所述第三健康状态查询是对所述选择的计算设备的温度的查询，其中，所述第一修复指令是提高所述选择的计算设备的风扇速度，并且其中，所述第二修复指令是降低所述选择的计算设备的操作频率。

4.根据权利要求1所述的管理设备，进一步包括第四模块，所述第四模块包括Cox比例风险(CPH)模型的深度神经网络(DNN)实现方式，其中，在来自所述多个计算设备的历史状态数据方面训练所述DNN和CPH，并且其中，所述第四模块被配置为输出用于所述选择的计算设备的预测故障概率，并且其中，所述第三模块被配置为如果所述预测故障概率大于预定阈值，则针对所述选择的计算设备创建支持票证。

5.根据权利要求1所述的管理设备，其中，所述多个计算设备安装在多个机架中，其中，所述多个机架位于多个舱中，其中，所述第二模块被配置为检测：

(i)如果特定机架内的所述多个计算设备中超过第一预定百分比没有提供对所述健康状态查询的可接受响应；或者

(ii)如果特定舱内的所述多个计算设备中超过第二预定百分比没有提供对所述健康状态查询的可接受响应，

并且响应于此，使所述第三模块针对所述特定机架或特定舱创建支持票证。

6.根据权利要求1所述的管理设备，其中，所述多个计算设备安装在多个机架中，其中，所述健康状态查询是针对温度的，其中，所述第二模块被配置为检测所述多个机架中的任一个机架内的所述多个计算设备的大于预定阈值的技术设备是否未提供对所述健康状态查询的可接受响应，并且作为响应打开或增加所述数据中心的包括所述特定机架的区域的主动冷却的速率。

7.根据权利要求1所述的管理设备，其中，所述第二模块被配置为存储健康状态查询响应并检测所述多个计算设备内的屡犯设备，其中，所述屡犯设备在预定时间段内具有多个不可接受的健康状态查询响应，即使按照所述修复指令进行了修复。

8.一种用于管理数据中心中的多个计算设备的方法，所述方法包括：

从第一计算设备发出针对所述多个计算设备中的第二计算设备的第一健康状态查询；

响应于在第一预定时间内未接收到对所述第一健康状态查询的可接受响应：

(i)从所述第一计算设备向所述第二计算设备发出第一修复指令，

(ii)等待至少足够让所述第一修复指令完成的时间，

(iii)从所述第一计算设备发出针对所述第二计算设备的第二健康状态查询，以及

(iv)响应于在第二预定时间内未接收到对所述第二健康状态查询的可接受响应：

(a)从所述第一计算设备向所述第二计算设备发出第二修复指令，

(b)等待至少足够让所述第二修复指令完成的时间，

(c)从所述第一计算设备发出针对所述第二计算设备的第三健康状态查询，以及

(d)响应于在第二预定时间内没有接收到对所述第三健康状态查询的可接受响应，从所述第一计算设备发出修复票证。

9.根据权利要求1所述的方法，其中，所述第一修复指令是重启在所述第二计算设备上操作的挖掘应用，并且其中，所述第二修复指令是重启所述第二计算设备。

10.根据权利要求1所述的方法，其中，所述第一健康状态查询、所述第二健康状态查询和所述第三健康状态查询是对所述第二计算设备的所述哈希率的查询，其中，所述第一修复指令是重启在所述第二计算设备上操作的挖掘应用，并且其中，所述第二修复指令是重启所述第二计算设备。

11.根据权利要求1所述的方法，其中，所述第一健康状态查询、所述第二健康状态查询和所述第三健康状态查询是对所述第二计算设备的温度的查询，其中，所述第一修复指令是重启在所述第二计算设备上操作的挖掘应用，并且其中，所述第二修复指令是重启所述第二计算设备。

12.根据权利要求1所述的方法，其中，所述第一健康状态查询、所述第二健康状态查询和所述第三健康状态查询是对所述第二计算设备的温度的查询，其中，所述第一修复指令是提高所述风扇速度，并且其中，所述第二修复指令是降低所述第二计算设备的操作频率。

13.根据权利要求1所述的方法，其中，所述第一健康状态查询、所述第二健康状态查询和所述第三健康状态查询是针对所述第二计算设备的所述风扇速度的，其中，所述第一修复指令是改变所述风扇速度，并且其中，所述第二修复指令是重启所述第二计算设备。

14.根据权利要求1所述的方法，进一步包括响应于产生可接受的健康状态查询响应的所述第一或第二修复指令生成已解决的票证。

15.根据权利要求1所述的方法，进一步包括存储关于分派到所述第二设备的修复指令的数量的信息，并且如果在修复窗口内已经超过修复尝试的预定阈值，则避免向所述第二设备提交任何更多修复指令。

16.一种非暂态计算机可读存储介质，其存储可由计算的设备的处理器执行的指令，所述指令在执行时使所述计算的设备：

从第一计算设备向第二计算设备发送第一健康状态查询，并且响应于在第一预定时间内没有接收到对所述第一健康状态查询的可接受响应：

(i)从所述第一计算设备向所述第二计算设备发送第一修复指令，

(ii)等待至少足够让所述第一修复指令完成的时间，

(iii)从所述第一计算设备向所述第二计算设备发送第二健康状态查询；以及

(iv)响应于在第二预定时间内没有接收到对所述第二健康状态查询的可接受响应：

(a)从所述第一计算设备向所述第二计算设备发送第二修复指令，

(b)等待至少足够让所述第二修复指令完成的时间，

(c)从所述第一计算设备向所述第二计算设备发送第三健康状态查询，

(d)响应于在第二预定时间内没有从所述第二计算设备接收到对所述第三健康状态查询的可接受响应，从所述第一计算设备发送修复票证。

17.根据权利要求16所述的存储介质，其中，所述第一健康状态查询、所述第二健康状态查询和所述第三健康状态查询是对所述第二计算设备的哈希率的查询，其中，所述第一修复指令是重启在所述第二计算设备上操作的挖掘应用，并且其中，所述第二修复指令是重启所述第二计算设备。

18.根据权利要求16所述的存储介质，其中，所述第一健康状态查询、所述第二健康状态查询和所述第三健康状态查询是对所述第二计算设备的温度的查询，其中，所述第一修复指令是提高所述第二计算设备的风扇速度，并且其中，所述第二修复指令是降低所述第二计算设备的操作频率。

19.根据权利要求16所述的存储介质，进一步包括响应于检测到机架内的不健康计算设备的数量大于预定阈值而创建支持票证。

20.根据权利要求16所述的存储介质，进一步包括存储关于分派到所述第二设备的修复指令的数量的信息，并且如果在修复窗口内已经超过修复尝试的预定阈值，则避免向所述第二设备提交任何更多修复指令。

21.一种管理设备，用于管理数据中心中的多个计算设备，其中，所述管理设备包括：

网络接口，其用于与所述多个计算设备通信，

第一模块，其经由所述网络接口定期向所述计算设备中的每个计算设备发送健康状态查询，

第二模块，其被配置为接收对所述健康状态查询的响应并收集和存储用于所述计算设备中的每个计算设备的健康状态数据，

第三模块，其被配置为创建支持票证，以及

第四模块，其被配置为：

(i)基于所收集的健康状态数据创建并定期更新Cox比例风险(CPH)模型；

(ii)将深度神经网络(DNN)应用于所述CPH模型的输入；

(iii)针对所述多个计算设备中的每个计算设备确定故障概率；

(iv)将每个确定的故障概率与预定阈值进行比较；以及

(v)使所述第三模块针对所述多个计算设备中的具有超过所述预定阈值的确定的故障概率的每个计算设备生成故障前支持票证。

22.根据权利要求1所述的管理设备，其中，响应于在第一预定时间内没有接收到对特定健康状态查询的可接受响应，所述第三模块被配置为：

(i)发送第一修复指令，

(ii)等待至少足够让所述第一修复指令完成的时间，

(iii)发送第二健康状态查询，以及

(a)发送第二修复指令，

(b)等待至少足够让所述第二修复指令完成的时间，

(c)发送第三健康状态查询，以及

(d)响应于在第三预定时间内没有接收到对所述第三健康状态查询的可接受响应，使所述第三模块创建修复票证。

23.根据权利要求21所述的管理设备，其中，所述健康状态数据包括哈希率。

24.根据权利要求21所述的管理设备，其中，所述健康状态数据包括计算设备温度。

25.根据权利要求21所述的管理设备，其中，所述第二模块进一步被配置为收集所述数据中心的温度和湿度数据。

26.一种用于管理数据中心中的多个计算设备的方法，所述方法包括：

通过定期向所述多个计算设备中的每个计算设备发送健康状态查询来从所述多个计算设备中的每个计算设备收集健康状态数据；

基于所收集的健康状态数据创建并定期更新Cox比例风险(CPH)模型；

将深度神经网络(DNN)应用于所述CPH模型的输入；

确定用于所述多个计算设备中的每个计算设备的故障概率；

将每个确定的故障概率与预定阈值进行比较；以及

针对所述多个计算设备中具有超过所述预定阈值的确定的故障概率的每个计算设备生成支持票证。

27.根据权利要求26所述的方法，其中，所述收集的健康状态数据包括遥测数据。

28.根据权利要求27所述的方法，其中，所述收集的健康状态数据包括来自所述数据中心内的温度和湿度读数。

29.根据权利要求26所述的方法，其中，所述收集的健康状态数据包括设备风扇速度。

30.根据权利要求26所述的方法，其中，所述收集的健康状态数据包括设备哈希率。

31.根据权利要求26所述的方法，其中，所述收集的健康状态数据包括设备温度。

32.根据权利要求26所述的方法，其中，所述预定阈值为80％。

33.根据权利要求26所述的方法，进一步包括：

响应于在第一预定时间内未接收到对第一健康状态查询的可接受响应：

(i)发出第一修复指令，

(ii)等待至少足够让所述第一修复指令完成的时间，

(iii)发出第二健康状态查询，以及

(a)发出第二修复指令，

(b)等待至少足够让所述第二修复指令完成的时间，

(c)发出第三健康状态查询，以及

(d)响应于在第三预定时间内没有接收到对所述第三健康状态查询的可接受响应，发出修复票证。

34.一种非暂态计算机可读存储介质，存储可由计算设备的处理器执行的指令，所述指令在执行时使所述计算设备：

通过定期向数据中心中的多个计算设备中的每个计算设备发送健康状态查询，从所述计算设备中的每个计算设备收集健康状态数据；

将深度神经网络(DNN)应用于所述CPH模型的输入；

确定所述多个计算设备中的每个计算设备的故障概率；

将每个确定的故障概率与预定阈值进行比较；以及

针对所述多个计算设备中的具有超过所述预定阈值的确定的故障概率的每个计算设备生成预测支持票证。

35.根据权利要求34所述的存储介质，其中，响应于在第一预定时间内没有接收到对第一健康状态查询的可接受响应：

(i)发出第一修复指令，

(ii)等待至少足够让所述第一修复指令完成的时间，

(iii)发出第二健康状态查询，以及

(a)发出第二修复指令，

(b)等待至少足够让所述第二修复指令完成的时间，

(c)发出第三健康状态查询，以及

36.根据权利要求35所述的存储介质，其中，所述第一健康状态查询、所述第二健康状态查询和所述第三健康状态查询是对哈希率的查询，其中，所述第一修复指令是重启挖掘应用，并且其中，所述第二修复指令是设备重启指令。

37.根据权利要求34所述的存储介质，其中，所述健康状态数据包括设备风扇速度。

38.根据权利要求34所述的存储介质，其中，所述健康状态数据包括设备哈希率。

39.根据权利要求34所述的存储介质，其中，所述健康状态数据包括设备温度。

40.根据权利要求39所述的存储介质，其中，所述健康状态数据进一步包括来自所述数据中心内的温度和湿度读数。