CN108431836A - 用于硬件故障修复的基础设施管理系统 - Google Patents
用于硬件故障修复的基础设施管理系统 Download PDFInfo
- Publication number
- CN108431836A CN108431836A CN201680077603.9A CN201680077603A CN108431836A CN 108431836 A CN108431836 A CN 108431836A CN 201680077603 A CN201680077603 A CN 201680077603A CN 108431836 A CN108431836 A CN 108431836A
- Authority
- CN
- China
- Prior art keywords
- hardware
- combinations part
- component
- hardware combinations
- degrading state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000593 degrading effect Effects 0.000 claims abstract description 96
- 230000036541 health Effects 0.000 claims abstract description 69
- 230000008439 repair process Effects 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000003862 health status Effects 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 14
- 230000015556 catabolic process Effects 0.000 claims description 11
- 238000006731 degradation reaction Methods 0.000 claims description 11
- 230000000712 assembly Effects 0.000 claims description 9
- 238000000429 assembly Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 4
- 230000004888 barrier function Effects 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 64
- 230000006870 function Effects 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0837—Return transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
- H04L41/0661—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5003—Managing SLA; Interaction between SLA and QoS
- H04L41/5009—Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
- H04L41/5012—Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF] determining service availability, e.g. which services are available at a certain point in time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5003—Managing SLA; Interaction between SLA and QoS
- H04L41/5019—Ensuring fulfilment of SLA
- H04L41/5025—Ensuring fulfilment of SLA by proactively reacting to service quality change, e.g. by reconfiguration after service quality degradation or upgrade
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Abstract
在实施例中,提供了用于实现支持硬件故障修复的基础设施管理系统的方法和系统。确定硬件组件的故障已经发生。硬件组件是硬件组合件的一部分。访问硬件组合件的修复属性。修复属性指示硬件组合件的最小操作限制。最小操作限制基于健康度量或硬件组合件的可选组件和必需组件。该限制支持确定硬件组合件是否应当以降级状态操作。确定硬件组合件在没有已经故障的硬件组件的情况下进行操作满足硬件组合件的最小操作限制。硬件组合件以降级状态的操作被发起。在实施例中,硬件管理器与降级状态配置相关联以促进以降级状态操作硬件组合件。
Description
背景技术
大规模网络化系统是在用于运行应用和维护商业和操作功能的数据的各种设置中采用的普通平台。例如,数据中心(例如,物理云计算平台)可以同时为多个客户提供各种服务(例如,网络应用、电子邮件服务、搜索引擎服务等)。这些大规模网络化系统通常包括分布在整个数据中心的大量资源,其中每个资源都类似于在物理节点或主机上运行的物理机器或虚拟机(VM)。数据中心在可能偶尔发生故障硬件组件上运行。在某些情况下,可以轻松地更换故障硬件组件。然而,在其他情况下,硬件组件不能立即更换。因此,用于配置和实现使数据中心硬件组件以及故障数据中心硬件组件运行(至少暂时)的全面系统可以改善整个数据中心硬件操作和分布式硬件管理以满足确定的目标。
发明内容
本文中描述的实施例提供了用于实现支持硬件故障修复的基础设施管理系统的方法和系统。基础设施管理系统可以基于基础设施管理系统平台来实现,该基础设施管理系统平台包括可操作地集成的组件,以减少分布式计算系统的硬件基础设施中的故障硬件的影响。基础设施管理系统支持如下的配置模式,该配置模式可以帮助定义针对硬件的配置文件。配置模式可以是用于表示或定义计算基础设施中的硬件的配置属性的数据结构。配置模式具体包括硬件的健康模型。健康模型是硬件的计算条件的技术表示。硬件的配置模式和健康模型可以被定义在配置文件中。健康模型进一步基于健康度量或与硬件相关的可选组件和必需组件来定义硬件的最小操作限制。最小操作限制被用作一个阈值,该阈值用于允许硬件以降级状态操作而不是使硬件完全失效。在这方面,基础设施管理系统提高了硬件的利用率,这体现在于:在修复或更换硬件之前,以其他方式将被指定为故障的硬件将被允许在降级状态下操作。
在操作中,确定硬件组件的故障已经发生。硬件组件是硬件组合件的一部分。硬件组合件的修复属性被访问。修复属性指示硬件组合件的最小操作限制。最小操作限制可以基于健康度量或硬件组合件的可选组件和必需组件。最小操作限制支持确定硬件组合件是否应当以降级状态进行操作。
确定硬件组合件在没有已经故障的硬件组件的情况下进行操作仍然满足硬件组合件的最小操作限制。硬件组合件以降级状态的操作被发起。降级状态包括硬件组合件在没有硬件组件的情况下进行操作。在实施例中,硬件管理器(例如,操作系统和退货授权)与降级状态配置相关联以促进发起操作,以降级状态操作和修复硬件组合件。在预期到降级状态的情况下,可以定义降级状态配置以支持以降级状态运行的硬件组合件的硬件组合件操作和基础设施管理操作。
提供发明内容部分是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容无意确定所要求保护的主题的关键特征或基本特征,也无意孤立地用作确定所要求保护的主题的范围的辅助手段。
附图说明
以下参考附图详细描述本发明,在附图中:
图1是采用本文中描述的实施例可以被实现在其中的示例性分布式计算基础设施环境的框图;
图2A和图2B是根据本文中描述的实施例的用于硬件故障修复的基础设施管理系统的示例性实现的框图;
图3是根据本文中描述的实施例的用于硬件故障修复的基础设施管理系统的示例性实现的框图;
图4是示出根据本文中描述的实施例的用于实现用于硬件故障修复的基础设施管理系统的示例性方法的流程图;
图5是示出根据本文中描述的实施例的用于实现用于硬件故障修复的基础设施管理系统的示例性方法的流程图;
图6是适用于实现本文中描述的实施例的示例性计算环境的框图;以及
图7是适用于实现本文中描述的实施例的示例性分布式计算系统的框图。
具体实施方式
边缘计算通常是指将计算应用、数据和服务的边界从集中式节点推出到网络的逻辑末端。这样,云计算网络服务提供商的分布式计算系统可以包括支持分布式计算系统的地理上分散的顾客的边缘基础设施。边缘基础设施可以基于分布式计算系统中已标识的流量和使用模式来具体地部署。在这方面,客户端设备可以从边缘基础设施的中央基础设施访问分布式计算系统。边缘基础设施可以包括数据中心机架中的硬件或硬件组合件,这些数据中心机架尽可能靠近顾客而边缘基础设施不是集中式的。
如本文中可互换地使用的,短语和术语“硬件组合件”、“硬件清单”或“硬件”并不表示限于任何特定配置的组件,而是广义地指代可以集成在分布式计算基础设施内的机架中的任何单个设备、设备汇集(例如,网络设备、计算设备和电源设备)及其组件。硬件组合件、硬件清单或硬件可以包括可以参考本文中描述的功能而独立地被定义或配置为硬件的个体硬件组件。尽管通过示例的方式描述了本文中的实施例中的边缘基础设施以及其中特定的一些挑战,但是可以设想,所描述的方法和系统可以在具有硬件的其他类型的基础设施中实现。在一个实例中,硬件可以位于由云计算网络服务提供商的客户管理的私有企业网络内。在另一示例中,硬件可以位于由云计算网络服务提供商管理的数据中心内。
在云计算网络服务提供商的合作伙伴位置内的边缘基础设施可以在解决边缘基础设施中的硬件故障时提出挑战。位于合作伙伴位置内的边缘基础设施可以针对硬件的访问、控制和操作标准具有不同的策略。因此,与由云计算网络服务提供商完全拥有和/或操作的基础设施相比,硬件故障可能不会立即得到解决。故障边缘基础设施硬件的修复时间表可能只能临时执行,和/或可能会延迟几个月。结果就限制了在技术人员执行修复之前被标记为不健康(即,失败)并且置于脱机状态的硬件的最大数目。边缘基础设施硬件也经常具有有限的备份硬件,导致边缘基础设施中出现故障的硬件的影响非常大。例如,当若干机器出现故障并且处于脱机状态时,在边缘基础设施中进行工作负载的负载均衡将会困难得多。
用于解决硬件故障的常规方法基于立即移除、替换或修复硬件或硬件组合组件。这种硬件故障策略主要基于云计算网络服务提供商全资拥有和控制的数据中心中的大量硬件或立即访问数据中心的能力。然而,这种解决方案可能并不总是可行的,相比之下,替代解决方案可能在某些情况下更有效率。此外,随着边缘基础设施的实现越来越多,以批量方式立即移除、替换或修复硬件的标准硬件故障策略可能无法忍受,并且需要一种替代方法。
本文中描述的实施例涉及用于实现支持硬件故障修复的基础设施管理系统的简单且高效的方法、系统和计算机存储介质。在高层次,监测、降级状态供应和退货授权(RMA)系统、过程和组件被配置以支持硬件故障修复。硬件故障修复允许硬件组合件以降级状态进行操作,在降级状态下,硬件组合件中的健康硬件组件与硬件组合件中的故障硬件组件一起操作。基础设施管理系统支持如下的配置模式,该配置模式可以帮助定义硬件的配置文件。配置模式具体包括硬件的健康模型。健康模型是硬件的计算条件的技术表示。特别地,健康模型基于健康度量或与硬件相关联的可选组件和必需组件来定义硬件的最小操作限制。最小操作限制被用作一个阈值,该阈值用于允许硬件以降级状态操作而不是使硬件组合件完全失效。这带来硬件组合件的利用率最大化。
基础设施管理系统可以被实现用于分布式计算系统基础设施(例如,云计算基础设施)。特别地,该系统可以被实现用于边缘基础设施,这样的边缘基础设施难以被访问以解决硬件故障。实施硬件故障修复还可以有利地改进RMA系统,这体现在于:基础设施管理系统允许适时地调度分布式计算基础设施中的修复以获取更好的硬件利用率和效率。适时地调度修复可以包括计划对硬件的修复,使得在修复期间与客户的服务级别协议(SLA)不受影响或受最小影响。适时地调度修复也可以基于替代硬件和技术人员执行修复操作的可用性。
改善硬件的可用性和利用率基础在于定义硬件弹性。硬件弹性指的是放宽对硬件的强制性健康要求。硬件弹性可以基于健康度量或硬件的可选组件和必需组件。例如,对于硬件组合件,可以定义健康模型,健康模型具有:健康状况、要跟踪的健康度量、可选组件和必需组件、和最小操作限制以及其他属性。硬件组合件在发生故障时可以包括功能(健康)组件和故障(不健康)组件。可以评估功能组件和故障组件,并且如果硬件组合件仍然满足硬件的最小操作限制,则可以重新配置该硬件并且使其恢复联机以便在等待RMA动作时以降级状态进行操作。硬件弹性可以特别地定义为支持为硬件定义配置文件的配置模式的一部分。最小操作限制中定义的硬件弹性可以被定义在配置模式的修复属性中。硬件弹性可以进一步被定义或被调节为与使用该硬件的租户的服务级别协议(SLA)相符或相一致。SLA是指云计算网络服务提供商与定义预期服务的客户之间的契约。例如,可选组件被定义用于库存单位(SKU),以便在SKU仍然符合商定的服务级别而不仅仅是使SKU操作时使特定SKU保持联机而不具有可选组件。作为示例,一台机器可以包括属于标准部署的一部分的多个硬盘驱动器,并且通常在机器发生故障时,机器会脱机。然而,在本文中描述的情况下,如果机器仍然满足最小操作限制,则机器可以被重新配置为使用少于所有标准部署驱动器来操作。而且,在某些情况下,最小操作限制还必须满足租户的SLA。
在操作中,确定硬件组件的故障已经发生。硬件组件是硬件组合件的一部分。硬件组合件的修复属性被访问。修复属性指示硬件组合件的最小操作限制。最小操作限制可以基于健康度量或硬件组合件的可选组件和必需组件。最小操作限制支持确定硬件组合件是否应当以降级状态进行操作。
确定硬件组合件在没有故障硬件组件的情况下进行操作仍然满足硬件组合件的最小操作限制。硬件组合件以降级状态的操作被发起。降级状态包括硬件组合件在没有硬件组件的情况下进行操作。在实施例中,硬件管理器(例如,操作系统)与降级状态配置相关联以促进发起操作并且使硬件组合件以降级状态运行。在预期到降级状态的情况下,降级状态配置被定义以支持以降级状态运行的硬件组合件的硬件组合件操作和基础设施管理操作。
相应地,参考图1,分布式计算基础设施100支持基于本文中描述的平台的组件提供集成功能的基础设施管理系统平台。分布式计算基础设施100包括基础设施管理系统110、边缘基础设施130、中央基础设施140、管理员客户端150、供应商客户端160和顾客客户端(170a和170b)。本文中描述的组件使用网络(未示出)进行通信,网络可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。这种网络环境在办公室、企业范围的计算机网络、内联网和互联网中都很常见。相应地,网络在本文中不再进一步描述。
例如,管理员客户端150、供应商客户端160和顾客客户端(170a和170b)可以包括本文中参考图6描述的任何类型的计算设备600。管理员客户端150、供应商客户端160和顾客客户端(170a和170b)可以提供对本文中描述的不同组件的访问。特别地,如本文进一步描述的,管理客户端150和供应商客户端160可以访问基础设施管理系统110以执行由基础设施管理系统110促进的一个或多个操作。顾客客户端150a可以经由中央基础设施140访问分布式计算基础设施100中的资源,并且顾客客户端150b可以经由边缘基础设施130访问分布式计算基础设施100中的资源,
本文中使用的平台是指任何系统、计算设备、过程或服务或其组合。平台可以实现为硬件、软件、固件、专用设备或其任何组合。平台可以集成到单个设备中,或者可以分布在多个设备上。平台的各种组件可以共同定位或者可以是分布式的。该平台可以由其他平台及其组件形成。
除了所示出的那些之外或作为代替,可以使用其他布置和元件(例如,机器、接口、功能、顺序和功能分组等),并且一些元件可以被完全省略。此外,本文中描述的很多元件是功能实体,这些功能实体可以被实现为离散或分布式组件或与其他组件相结合并且以任何合适的组合和位置来实现。本文中描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件来执行。例如,各种功能可以由执行存储在存储器中的指令的处理器执行。
分布式计算基础设施100可以依靠基础设施管理系统110来实现硬件故障修复。基础设施管理系统110负责管理基础设施的硬件(例如,边缘基础设施)。基础设施管理系统110可以经由数据中心基础设施管理服务来实现,以使用具有配置属性的配置文件来定义和部署硬件,这些配置属性表达特定机器SKU的要求、健康状况、修复和设置。管理员客户端150可以促进利用服务、配置模式、配置文件和SKU来配置和管理基础设施管理系统的操作。SKU可以用于描述硬件、硬件组合件和硬件组合组件,这体现在:SKU表示与硬件相关联的并且将硬件与其他硬件区分开的属性(例如,制造商、产品说明、BIOS、固件、配置、材料、尺寸、颜色、包装和保修条款)。可以设想,SKU也可以指代涉及特定库存单位的唯一标识符或代码。基础设施管理系统110尤其可以接收和存储包括指示最小操作限制的修复属性的配置模式。最小操作限制可以基于健康度量,也可以基于特定机器SKU的硬件组合件的可选组件和必需组件。在这方面,与具有可操作的全套硬件组件的需求相比,最小操作限制指的是具有可操作的硬件组件子集的基本健康需求。如果硬件组合发生故障、但其中的硬件组件满足基本操作要求,则硬件组件仍将被使用,但是如果基本操作要求未被满足,将不会使用该硬件组件。
在硬件SKU的健康模型中定义的健康度量可以量化用于硬件修复评估的最小操作限制。最小操作限制可以是动态或静态的。可以更新配置文件以基于多个因素来指示不同的最小操作限制。例如,流量模式、对边缘基础设施的可访问性、跟踪的故障率、管理动作可能是决定最小操作限制并且进一步支持硬件SKU的最小操作限制的动态分配的因素。因此,边缘基础设施中的至少一些硬件可以与健康模型相关联以指示最小操作限制。在这方面,硬件组合件故障不会使整个硬件组合件失效,除非硬件故障导致硬件组合件操作限制低于健康度量指示的最小操作限制。
作为示例,与4个物理磁盘相关联的机器可以具有一个健康模型,该健康模型指示基础设施管理系统去监测健康磁盘的数目作为相关联的健康度量。基于健康度量的健康模型可以定义最小操作限制作为运行至少2个磁盘的机器。在这方面,机器上最多可能有2个磁盘出现故障,并且机器仍然可以操作或被重新供应为以2个磁盘进行操作。重新供应可以是硬件组合件的整体修复操作的一部分,使得硬件组合件以降级状态进行操作。可设想,SLA协议可以是定义最小操作限制的因素。例如,如果SLA进一步需要至少3个磁盘用于机器,那么即使机器可以使用2个磁盘进行操作,但由于该机器无法满足SLA,机器可能与3个磁盘的最小操作限制相关联,以用于与SLA相关联的租户。这样,可能停用硬件组合件以与具有第一SLA的第一租户一起使用,但不停用(或重新供应)具有第二SLA的第二租户的相同硬件组合件。定义和实现最小操作限制的其他变化和组合可以用本文中描述的实施例来设想。
降级状态配置可以包括被定义为适应硬件故障修复的分布式计算系统基础设施中的配置。如本文中所述,在预期到降级状态的情况下,降级状态配置可以与硬件管理器(例如,操作系统、管理程序、结构控制器、RMA门户)相关联。降级状态配置尤其可以包括当硬件组合件以降级状态进行操作时硬件管理器应当如何配置和操作硬件组合件的指令,该降级状态与未降级状态不同。例如,如果发生磁盘故障,则物理磁盘不会静态地被映射到逻辑驱动器,以考虑在降级状态下进行操作。在这方面,可以在硬件管理器内预先配置或定义降级状态配置。在实施例中,降级状态配置可以预先配置为在预期使硬件以降级状态运行的情况下改变硬件管理器的传统配置。
降级状态配置可以与数据中心管理器相关联。数据中心管理员可以定义新的名称或标签,用于捕获与不健康的硬件组件相关联的健康硬件组合件的状态。数据中心管理器可以将硬件组件标记为健康或不健康、但还包括硬件组件属性字段(“属性字段”或“机器属性”)以指示硬件的硬件组件不健康。同样,用属性字段标记具有硬件组件的硬件组合件可以帮助指示故障硬件组件,使得不监测故障硬件组件,并且另外,故障硬件组件可以在RMA下被替换,如下所讨论的。作为示例,服务器、附加属性字段可以指示丢失的磁盘和不良的磁盘。在监测期间,监视器服务操作以读取属性字段并且避免报告已经标记为不良或丢失的磁盘的错误。基于降级状态配置属性的基础设施管理系统可以以用于硬件修复功能的边缘基础设施(例如,边缘SKU和环境)为目标,同时排除集中式基础设施。配置模式可以包括硬件修复功能触发器属性。用于硬件组件和SKU的基于配置模式的配置文件可以专门定义触发器属性,以指示硬件修复功能何时应用于特定硬件基础设施。在这方面,分布式计算系统组件中的降级状态配置可以支持针对以降级状态运行的硬件组合件执行硬件组合件操作和基础设施管理操作。
基础设施管理系统100可以与已有的RMA结合操作,以至少部分基于本文中描述的硬件故障修复功能来支持RMA。作为基础设施管理系统100的一部分,RMA支持适时RMA操作和即时RMA操作。RMA可以利用硬件组合件的属性字段来标识硬件组合件的如下硬件组件的特定健康状态信息,这些硬件组件必须在RMA下被处理。适时地调度修复可以包括对硬件组合件的计划修复,使得与客户的服务水平协议(SLA)在修复期间不受影响或仅受最小影响。例如,在传统模型下,标识为故障的硬件将脱机,并且这会影响SLA并且甚至可能导致SLA不再满足。使用基础设施管理系统,只要硬件满足最低健康要求,就允许硬件以降级状态进行操作。结果,可以实现对硬件调度和执行修复,使得SLA仍然满足。即时RMA操作可以操作以立即修复硬件以达到完全健康。在实施例中,即时RMA操作基于遵循对于与硬件相关联的租户的SLA要求。租户可以在修复时被从硬件中移除,以便租户不会遇到任何意外故障。
继续参考图1,如图1所示,基础设施管理系统110可以包括支持提供如本文中所述的硬件故障修复功能的多个组件。基础设施管理系统110包括监视器组件112(WD 112)、数据中心管理器组件114(DM 114)、修复服务组件116(RS 116)、供应服务组件118(PS 118)和RMA组件120(RMA 120)。基础设施管理系统110使用配置模式和相应的配置文件来监测、配置、修复、供应和提供用于硬件的RMA的状态信息。在实施例中,配置模式基于本文中所述的SKU和配置属性。配置模式包括指示硬件组合件的最小操作限制的修复属性。最小操作限制可以基于健康度量或硬件组合件的可选组件和必需组件。最小操作限制支持确定硬件组合件是否应当以降级状态进行操作。
作为示例,可以参考机器或节点中的磁盘描述故障生命周期。例如,在较高级别上,WD 112可以访问配置模式,并且基于配置模式对磁盘执行健康检查,以确保所需的最少数目的磁盘健康。配置模式尤其可以基于SKU定义来指定所需磁盘的数目和可选磁盘的数目。配置模式可以基于具有租户的SLA,使得处于降级状态的硬件可以处理可选磁盘的变化。WD 112可以报告某些磁盘已经故障,但所需最小数目的磁盘是健康的。基于硬件组合件满足最小操作限制的健康信息报告,PS 118重新供应硬件并且安装健康的磁盘。在降级状态供应期间,PS 118使用来自WD 112的健康状态信息和配置模式来以降级状态供应硬件组合件。因此,以降级状态运行的硬件组合件将使这些变化对租户的影响达到最小化。
如本文所讨论的,在预期到降级状态的情况下,降级状态配置可以与硬件管理器(例如,操作系统、管理程序、结构控制器)相关联。在一个示例性实现中,经由配置模式和相应的配置文件来支持降级状态配置。例如,在磁盘和支持磁盘的操作系统的特定情况下,配置模式中断物理驱动器和逻辑驱动器(卷)之间的静态映射。根据机器的操作状况,不同的物理驱动器插槽用作系统卷。只要足够的物理磁盘是健康的以满足最低要求的逻辑驱动器和容量指标,机器就会被利用并且被标记为健康。可选类别中的卷和逻辑驱动器可能并不总是被创建,并且租户应用知道这样的配置并且预期到这些卷可能不存在。这样,可以设想,操作系统和以全容量硬件操作的其他应用根据需要而获知或被告知(即,被编程和重新配置)以在硬件以降级状态运行时适应和容忍硬件。例如,操作系统可以被预先配置为在预期到启动驱动器发生故障的情况下启动至任何驱动器,因此可以恢复到任何驱动器的降级状态。
基于4个JBOD(Just a Bunch of disks,磁盘组)的示例性硬件SKU的示例实现。只要2个磁盘在线且是健康的,硬件就可以操作和为流量提供服务。这个评估可以基于测试和/或满足预期的SLA。SKU的基本要求是2个磁盘,并且其余2个磁盘将被视为可选。在实施例中,为了适应这种灵活性,物理驱动器没有被静态地映射到逻辑驱动器。可能没有磁盘控制器插槽到逻辑磁盘固定映射,但指派是一致的。最低功能磁盘控制器插槽可以标记为逻辑磁盘0。如果从控制器暴露的物理磁盘0不健康,则从控制器暴露的物理磁盘1将成为逻辑磁盘0。只要执行一致的硬盘驱动器验证检查并且可以访问机器事件审计日志,就不会存储附加的状态来计算映射,因为它是一致的算法。
在另一示例中,具有4个磁盘的硬件SKU的全部4个磁盘可能发生故障。最小操作限制可以指示硬件SKU以降级状态进行操作,4个故障磁盘中只有2个在运行。实际上,在某些情况下,至少修复一部分硬件可能是有利的。特别地,可以修复硬件以满足最小操作限制。在这方面,整个硬件SKU不会丢失。同样,在修复其余硬件之前,部署机架中的部分硬件可以在过渡期内进行修复。例如,如果机架中存在10个降级刀片,则修复操作可以包括修复2个刀片,以具有足够的刀片以使机架保持操作,而不是同时修复所有10个刀片。使硬件的一部分得到修复和操作也可以具体地基于与硬件相关联的租户的SLA的满足。
配置文件将基本要求指定为具有健康的逻辑磁盘0和1,而磁盘2和3是可选的。卷规格在这方面保持不变。卷仍然基于逻辑磁盘指派来创建。如果指定卷没有匹配的逻辑磁盘,则不创建该卷。物理到逻辑磁盘部分模式可以扩展,卷信息保持不变。如上所述,本地操作系统可以被配置为期望可选卷可能不存在,并且基于哪些卷已经被供应来调节行为。租户可以做出假定,但是健康的节点上始终存在卷的基本需求。
在降级状态的供应阶段之前,WD 112可以访问DM 114中的机器210状态信息和配置文件以做出关于健康度量的决策。关键区别在于,根据存储在DM中的机器状态,健康要求和WD 112行为将发生变化。如果硬件组件在DM 114中被标记为不良,则WD 112可以不监测不健康的组件。WD 112只监测健康硬件并且向DM报告任何故障。在磁盘这种特定情况下,WD仅监测在DM中标记为健康并且被供应的磁盘。一旦检测到问题,如前一操作流程中的WD112向DM 114报告硬件问题。WD 112可以被配置为报告所有硬件问题。RS 116可以尝试解决在升级分解模式之后的问题。在最终的缓解情况中,RS 116可以请求PS 118重新供应(即,降级状态供应)机器。
参考图2A和图2B,图2A和图2B示出了用于实现基础设施管理系统的方法。DM 114负责管理分布式计算基础设施中的硬件。DM 114负责接收和存储硬件的配置模式。可以针对具有单独的硬件组合组件(例如,物理机器具有磁盘、NIC(网络接口控制器)、存储器、处理器、芯片等)的硬件或硬件组合件的特定SKU开发配置模式。DM 114还用作健康状态信息的存储库。分布式计算基础设施可以包括被支持用于硬件修复功能的机器210。机器210表示是与本文中描述的功能保持一致的示例性硬件或硬件组合件。DM 114存储并且提供对硬件基础设施(例如,边缘基础设施130)的健康状态信息的访问。健康状态信息基于硬件基础设施的相应硬件的配置模式和配置文件。如本文中所述,配置模式可以基于健康模型和SKU来定义。
在步骤212,WD 112访问并且从DM 114检索健康状态信息以确定要选择性地监测的硬件基础设施中的健康硬件。WD 112基于配置信息进行操作以监测和报告任何硬件故障。可以设想,WD 112还向DM报告在将硬件组件标记为健康或不健康的确定中可选地作为因素考虑的健康SLA故障,如在本文中更详细描述的。在步骤214,WD 112利用硬件的配置文件和健康状态来确定如何监测边缘基础设施。例如,WD 112确定哪些硬件和硬件组件是健康的并且需要被监测以及哪些健康度量和/或健康SLA将要被监测,特别是与硬件修复功能相关联的健康度量和/或健康SLA。在步骤216,WD 112监测边缘基础设施、机器210以标识故障硬件组件。
在步骤218,基于监测,WD 112可以检测硬件组合件中的硬件组件(例如,机器210中的机器组件)的故障。基础设施管理系统110包括提供灵活性的配置模式,以根据需要定义某些硬件组件并且将其他硬件组件定义为用于硬件组件和相应阈值条件的可选和进一步的健康度量。可以将硬件故障映射到硬件组件的可选类别或某个健康度量阈值条件(例如,最小操作限制)。在映射中标识的可选硬件指示可能发生故障的硬件组件,并且硬件组合件可以在不必立即修复可选硬件的情况下被恢复。因此,只要所需组件和健康度量得到满足,机器就会继续操作。例如,被映射到可选要求的特定磁盘在计算机仍然被标记为健康状态时可能会失效,在机器仍然被标记为健康时,被确定为处于或高于最小操作限制的类似数目的磁盘可能失效。因此,只有在未满足最小操作限制时,硬件组合件才可以被标记为不健康(或脱机)。例如,WD 112可以监测机器210,并且基础设施管理系统可以确保所需的最小数目的磁盘是健康的。或者,当基于可选组件和所需组件定义最小操作限制时,标记为不健康的任何可选组件都不会导致机器被标记为不健康。在步骤220,WD 112向DM 114报告检测到的硬件故障。在处理该机器210以重新供应之前,可以尝试修复机器210。可以设想,修复服务步骤对于某些或所有类型的硬件组合件是可选的。
RS 116操作以执行修复操作(例如,重启系统服务、软重启和硬重启)。在示例性实现中,软重启可以具体地指代软件重启并且硬重启可以指代硬件重置。在步骤222,RS 116从DM 114访问硬件的健康状态信息(例如,拉取硬件状态),并且在步骤224尝试修复动作以修复故障硬件组件。如步骤226所示,当修复动作失败时,RS 116可以在步骤228传送对硬件组件执行修复操作的请求。在步骤230,PS 118发起机器210(即,包括故障硬件组件的硬件组合件)的修复操作。修复操作(例如,重新供应)可以指:硬件组合件的功能硬件组件的降级状态重新供应、同时排除故障硬件组件。重新供应可以基于DM 114中的配置文件和经由WD 112更新的健康状态信息。配置文件用于验证配置属性。功能硬件组件被标记为健康,以便基础设施不会暴露于不健康的硬件组件以进行操作或监测。如果在重新供应期间检测到附加的硬件问题,则PS 118可能会使重新供应操作失败并且将机器210标记为不健康,并且使机器210失去旋转。在步骤232,PS 118发起重新供应操作以尝试重新配置机器210。在一个示例性实现中,作为重新供应的一部分,PS 118将预执行环境(PXE)加载到机器210上。在步骤234,预执行环境访问存储在DM 114中的故障信息。基于故障类型,预执行环境改变传统的供应行为。作为示例,预执行环境在步骤236验证机器上的磁盘的健康状况。如果磁盘没有通过健康要求但在DM 114中未被标记为不健康,则预执行环境会将该磁盘标记为不健康。
将剩余的健康磁盘与机器SKU的基本健康要求(例如,最小操作限制)相比较。如果健康磁盘的数目与基本健康要求所需的数目相匹配,则供应过程将继续。预执行环境将继续格式化和供应磁盘。预执行环境可以使用引导工具来在步骤238修改BIOS设置和引导顺序以使机器能够在新选出的系统盘上操作。在步骤240,WD 112不再监测故障磁盘,并且机器210向PS 118传送重新供应已成功完成的指示。在步骤242,向RS 116发送指示重新供应已成功的信息。
参考图2B,示出了用于基础设施管理系统110的示例性重新供应实现。图3包括机器210、机器操作系统210(MOS 250)、PS 118和DM 114。在一个实施例中,降级状态供应可以包括特定示例性实现细节。当机器210启动时,机器在步骤252传送PXE启动请求。PS 118接收请求并且在步骤254访问(和/或更新)来自DM 114的机器信息以决定响应。PS 118选择在步骤256将预安装环境(PE)映像加载到机器上并且更新DM 114中的状态以反映该动作。在PE映像加载完成之后,在步骤258将机器310启动至PXE中。在步骤260,MOS 310访问和检索机器的配置文件和DM 114以获取机器的健康状况。MOS 310在步骤262执行诊断以验证磁盘的寿命和健康状况。在步骤264,将机器信息更新传送给DM 114。例如,被检测为不健康并且在DM 114中未被标记为不健康的任何盘在DM 114中被相应地标记。修复操作包括验证健康物理磁盘的数目与在配置文件中指定的健康磁盘的基本要求相匹配。只要存在基本数目的健康磁盘,它就会继续进行供应过程。
在步骤266,该过程建立并且仅供应健康驱动器。例如,MOS 310选择第一健康物理磁盘作为逻辑磁盘0来托管系统卷。供应过程下载操作系统映像并且将操作系统安装在系统卷上。剩余的健康磁盘按顺序被供应为剩余卷,即下一健康物理磁盘对应于逻辑磁盘1,并且它是匹配的卷。在设置驱动器之后,MOS 310将更改启动设置,以确保第一健康物理磁盘被标记为系统启动磁盘。在步骤268,MOS 310更新DM 114中的机器210信息,并且在步骤270,MOS 310将机器启动至操作系统。
参考图3,图3示出了用于硬件故障修复的基础设施管理系统的实现。特别地,图3示出了用于基础设施管理系统的RMA操作流程。图3包括供应商客户端160、DM 114、PS 118和机器210。图3还包括具有RMA门户302、RMA状态304和同步代理306的RMA组件120。RMA 120提供作为网关或接入点操作以查看分布式计算系统中的硬件状态的RMA门户。RMA门户可以提供查看设置为RMA的不健康硬件的访问权限。RMA门户跟踪并且显示硬件状态。硬件的状态被存储在RMA状态304中。同步代理306促进协调RMA 120和DM 114之间的状态改变。供应商客户端160经由公共可访问的门户来访问存储有硬件的健康状态信息的DM 114。
如本文中所讨论的,使用基础设施管理系统支持的硬件可以以降级状态进行操作。硬件可以提供实时流量,但具有不健康硬件组件。RMA 120允许硬件被标记有两种状态信息——“降级”和“等待RMA(PendingRMA)”——以通过RMA组件支持硬件故障修复。降级状态指示机器在硬件组件发生故障操作时,并且PendingRMA指示供应商已请求将该机器移动到OFR(退出修复)。供应商还可以访问基础设施管理系统,并且根据与硬件相关联的租户的SLA要求将硬件从“PendingRMA”状态移动到即时“RMA”。在对硬件执行修复时,租户可以被从硬件中移除,使得租户不会遇到意外故障。
继续参考图3,开始时在步骤310,供应商可以经由供应商客户端160请求使硬件(例如,机器210)离线。当供应商(即,服务技术人员)请求将目标机器210移动到DM 114中的OFR时,RMA门户在步骤312处将状态更新或提交到RMA门户中的PendingRMA。如步骤314所示,同步代理306被配置为从RMA状态304周期性地拉取状态信息。DM 114也被配置为从DM114周期性地拉取状态信息,如步骤316所示。在步骤318,RMA 120然后确定具有等待RMA状态的硬件要采取的动作。当DM 114状态健康时(因为至少一个硬件组件仍在操作),RMA 120可以在步骤320更新DM 114以请求将硬件移动到DM 114中的OFR。PS 118还被配置为周期性地从DM 114提取状态信息。这样,PS 118拾取机器的状态改变,如步骤322所示,并且在步骤324,开始机器的取消供应过程。例如,在步骤324,PS 118可以传送发起擦拭机器的请求,并且在步骤326,擦拭机器210。在步骤328,可以可选地关闭机器。
继续参考机器210的示例性实现,在机器已经完成取消供应和关闭之后,在步骤330,PS 118向DM 114通知机器210处于DM 114中的OFR中。当DM 114状态是OFR时,RMA 120可以通过步骤332、334、336和338(这些步骤示出了状态信息的周期性提取)更新RMA门户,以将机器标记为OFR,OFR随后将在门户中示出。在步骤340,供应商客户端160可以从RMA102中检索状态信息,使得供应商可以在步骤342处在看到状态更新之后开始服务。可以设想,除了示出机器处于“等待RMA”状态之外,RMA门户302可以不向用户提供反馈。
RMA 120使RMA门户和DM 114之间的状态同步。为了支持适时的RMA,可以将RMA配置为开始查询属性字段(例如,机器属性)以标识处于“降级”状态的机器。另外,适时的RMA机器属性可以持续到RMA错误描述,因为它们本质上是硬件错误。RMA服务采取的动作取决于机器的RMA状态和DM状态。
此外,如上所述,作为示例,如果机器具有基本磁盘健康要求,基础设施管理系统可以使用PS 118(例如,PsAgent)来实现代理服务以确定是否满足基本健康要求。如果是这样,PS 118将使用较少的硬盘完成供应,并且让机器以降级状态运行。对于每该降级机器,PsAgent会在DM中设置机器属性以标记丢失了多少磁盘以及哪些磁盘有错误。WD 112监测磁盘的数目和所需的卷。可以更新WD 112以跳过未使用的磁盘的验证,即,保留在适时的RMA机器属性中的磁盘。
现在转到图4,提供了示出用于实现用于硬件故障修复的基础设施管理系统的功能的方法的流程图。开始时,在框410处,确定硬件组件的故障已经发生。硬件组件是硬件组合件的一部分。在框420处,发起用于以降级状态操作硬件组合件的修复操作。降级状态包括硬件组合件在没有故障硬件组件的情况下进行操作。在框430处,访问硬件属性的修复属性。修复属性指示硬件组合件的最小操作限制。配置模式包括用于定义对应硬件组合件的配置文件的多个属性。多个属性包括指示硬件组合件的最小操作的修复属性。健康模型是硬件组合件的计算条件的表示。最小操作限制是基于健康度量或与硬件组合件相关联的可选组件和必需组件定义的。
在框440,确定硬件组合件在没有已经故障的硬件组件的情况下进行操作满足硬件组合件的最小操作限制。在框450处,发起硬件组合件以降级状态的操作。降级状态包括硬件组合件在没有故障硬件组件的情况下进行操作。在预期到用于操作硬件组合的降级状态的情况下,与硬件组合件相关联的硬件管理器预先配置有降级状态配置。降级状态配置包括用于以降级状态操作硬件组合件的指令。
现在转到图5,提供了示出用于实现用于硬件故障修复的基础设施管理系统的功能的方法的流程图。开始时,在框510处,在预期到用于操作硬件基础设施的降级状态的情况下,向硬件基础设施配置降级状态配置。降级状态配置包括用于以降级状态操作硬件基础设施的指令。在框520处,确定硬件组件的故障已经发生。硬件组件被包括在硬件基础设施的硬件组合件中。在框530处,访问修复属性。修复属性指示硬件组合件的最小操作限制。在框540处,确定硬件组合件在没有故障硬件组件的情况下进行操作满足硬件组合件的最小操作限制。在框550处,发起硬件组合件以降级状态的操作。降级状态包括硬件组合件在没有硬件组件的情况下进行操作。在框560处,使用硬件基础设施中的硬件组合件来执行操作。执行操作至少部分基于降级状态配置。
参考基础设施管理系统,本文中描述的实施例允许硬件故障修复。基础设施管理系统服务平台组件是指用于提供硬件故障修复的集成组件。集成组件是指使用基础设施管理系统服务平台支持数据访问功能的硬件架构和软件框架。硬件架构是指物理组件及其相互关系,而软件框架是指提供可以用运行该软件的硬件设备来实现的功能的软件。端到端的基于软件的基础设施管理系统服务平台可以在基础设施管理系统服务平台组件内操作,以操作计算机硬件来提供基础设施管理系统服务平台功能。因此,基础设施管理系统服务平台组件可以管理资源并且为基础设施管理系统功能提供服务。本发明的实施例可以设想任何其他变型和组合。
作为示例,基础设施管理系统服务平台可以包括API库,API库包括用于例程、数据结构、对象类和变量的规范,可以支持设备的硬件架构和基础设施管理系统服务平台系统的软件框架的交互。这些API包括基础设施管理系统服务平台系统的配置规范,使得驱动程序组件和该系统中的组件可以在基础设施管理系统服务平台中彼此通信,如本文中所述。
在简要描述了本发明的实施例的概述之后,下面描述其中可以实现本发明的实施例的示例性操作环境,以便提供本发明的各个方面的一般上下文。特别地,首先参考图6,其示出了用于实现本发明的实施例的示例性操作环境,该环境被一般性地指定为计算设备600。计算设备600仅仅是合适的计算环境的一个示例,并不意图对本发明的用途或功能的范围提出任何限制。计算设备600也不应当被解释为具有与所示组件中的任何一个或组合相关的任何依赖性或要求。
本发明可以在计算机代码或机器可用指令的一般上下文中描述,包括由计算机或其他机器(诸如个人数据助理或其他手持设备)执行的计算机可执行指令(诸如程序模块)。通常,包括例程、程序、对象、组件、数据结构等程序模块是指执行特定任务或实现特定抽象数据类型的代码。本发明可以在各种系统配置中实施,包括手持设备、消费电子产品、通用计算机、更专业的计算设备等。本发明还可以在分布式计算环境中实施,在分布式计算环境中,任务由通过通信网络链接的远程处理设备来执行。
参考图6,计算设备600包括直接或间接耦合以下设备的总线610:存储器612、一个或多个处理器614、一个或多个呈现组件616、输入/输出端口618、输入/输出组件620和说明性电源622。总线610表示可以是一个或多个总线(诸如地址总线、数据总线或其组合)。尽管图6的各个框图为了清楚起见用线条示出,但实际上,描绘各种组件并不那么清楚,并且在表现上,线条更准确地是灰色和模糊的。例如,可以认为诸如显示设备等呈现组件是I/O组件。另外,处理器有存储器。认识到,这是本领域的性质,并且重申图6的图仅是说明可以结合本发明的一个或多个实施例使用的示例性计算设备。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等类别之间没有进行区分,因为都在图6的范围内并且参考“计算设备”都可被预期到。
计算设备600通常包括各种计算机可读介质。计算机可读介质可以是可以由计算设备600访问的任何可用介质,并且包括易失性和非易失性介质、可移除和不可移除介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。
计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM,闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备、或可以用于存储所需信息并且可以由计算设备700访问的任何其他介质。计算机存储介质不包括信号本身。
通信介质通常以调制数据信号(诸如载波或其他传输机制)来实施计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传递介质。术语“已调制数据信号”表示如下的信号,能够在该信号中对信息进行编码的方式设置或改变该信号的一个或多个特性。作为示例而非限制,通信介质包括有线介质(诸如有线网络或直接有线连接)以及无线介质(诸如声学、RF、红外线和其他无线介质)。上述任何组合也应当被包括在计算机可读介质的范围内。
存储器612包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备600包括从诸如存储器612或I/O组件620等各种实体读取数据的一个或多个处理器。呈现组件616向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。
I/O端口618允许计算设备600在逻辑上耦合到其他设备,包括I/O组件620,其中一些可以内置在其中。示例性组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备等。
现在参考图7,图7示出了其中可以采用本公开的实现的示例性分布式计算环境700。特别地,图7示出了云计算平台710中的基础设施管理系统(“系统”)的高级架构,其中该系统支持软件组件的无缝修改。应当理解,本文中描述的这个和其他布置仅作为示例被阐述。除了或替代所示的那些,可以使用其他布置和元件(例如,机器、接口、功能、顺序和功能分组等),并且一些元件可以被完全省略。此外,本文中描述的很多元件是可以被实现为离散或分布式组件或与其他组件相结合并且以任何合适的组合和位置来实现的功能实体。本文中描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件来执行。例如,各种功能可以由执行存储在存储器中的指令的处理器来执行。
数据中心可以支持包括云计算平台710、机架720和在机架720中的节点730(例如,计算设备、处理单元或刀片)的分布式计算环境700(例如,集中式基础设施和边缘基础设施)。该系统可以用跨越不同数据中心和地理区域运行云服务的云计算平台710来实现。云计算平台710可以实现用于供应和管理云服务的资源分配、部署、升级和管理的结构控制器740组件。通常,云计算平台710用于以分布式方式存储数据或运行服务应用。数据中心中的云计算基础设施710可以被配置为托管和支持特定服务应用的端点的操作。云计算基础设施710可以是公共云、私有云或专用云。
可以向节点730供应在节点130上运行定义的软件栈的主机750(例如,操作系统或运行时环境)。节点730还可以被配置为在云计算平台710内执行专门的功能(例如,计算节点或存储节点)。节点730被分配来运行租户的服务应用的一个或多个部分。租户可以是指利用云计算平台710的资源的客户。支持特定租户的云计算平台710的服务应用组件可以被称为租户基础设施或租赁。术语服务应用、应用或服务在本文中可互换地使用,并且广义地指代在数据中心之上运行或者访问数据中心内的存储和计算设备位置的任何软件或部分软件。
当节点730正在支持多于一个单独的服务应用时,节点可以被划分成虚拟机(例如,虚拟机752和虚拟机754)。物理机器也可以同时运行单独的服务应用。虚拟机或物理机器可以被配置为云计算平台710中的资源760(例如,硬件资源和软件资源)所支持的个性化计算环境。可以设想,资源可以被配置用于特定服务应用。此外,每个服务应用可以被分成功能部分,使得每个功能部分能够在单独的虚拟机上操作。在云计算平台710中,可以使用多个服务器来运行服务应用并且在群集中执行数据存储操作。特别地,服务器可以独立地执行数据操作,但被暴露为被称为群集的单个设备。群集中的每台服务器可以实现为节点。
客户端设备180可以链接到云计算平台710中的服务应用。客户端设备780可以是任何类型的计算设备,其例如可以对应于参考图7描述的计算设备700。客户端设备780可以被配置为向云计算平台710发出命令。在实施例中,客户端设备780可以通过虚拟因特网协议(IP)和负载平衡器或将通信请求启动至云计算平台710中的指定端点的其他装置来与服务应用通信。云计算平台710的组件可以通过网络(未示出)彼此通信,网络可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。
已经描述了分布式计算环境700和云计算平台710的各个方面,注意,可以使用任何数目的组件来实现在本公开的范围内的期望的功能。尽管为了清楚起见,图7的各种组件用线条示出,但实际上,描绘各种组件并不是清楚的,并且在表现上,线条可能更准确地是灰色或模糊的。此外,尽管图7的一些组件被描绘为单个组件,但是描述本质上和数目上是示例性的,并且不被解释为限制本公开的所有实现。
以上段落中描述的实施例可以与一个或多个具体描述的替代方案组合。特别地,在替代方案中,所要求保护的实施例可以包含对多于一个其他实施例的引用。所要求保护的实施例可以指定所要求保护的主题的进一步的限制。
本发明的实施例的主题在本文中被描述为具有特定性以符合法定要求。然而,描述本身并不意图限制本专利的范围。而是,发明人已经设想,所要求保护的主题还可以以其他方式来实施,以结合其他当前或未来的技术而包括与本文档中描述的步骤不同的步骤或类似的步骤的组合。此外,尽管本文中可以使用术语“步骤”和/或“框”来暗示所采用的方法的不同元素,但是这些术语不应当被解释为暗示本文中公开的各种步骤之中或之间的任何特定顺序,除非和如果明确地描述了各个步骤的顺序。
为了本公开的目的,词语“包括”具有与词语“包括”相同的广泛含义,并且单词“访问”包括“接收”、“引用”或“检索”。另外,除非另有相反指示,否则诸如“一个”和“一”等单词包括复数以及单数。因此,例如,在存在一个或多个特征的情况下,“特征”的约束满足。此外,术语“或”包括连接词、转折连词和两者(因此a或b包括a或b、以及a和b)。
为了上面详细讨论的目的,参考具有基础设施管理系统的分布式计算基础设施来描述本公开的实施例;然而本文中描绘的基础设施管理系统仅仅是示例性的。组件可以被配置用于执行实施例的新颖方面,其中被配置用于包括被编程为执行特定任务或使用代码实现特定抽象数据类型。此外,虽然本发明的实施例总体上可以指代本文中描述的基础设施管理系统和示意图,但是应当理解,所描述的技术可以扩展到其他实现的上下文。
已经关于特定实施例描述了本发明的实施例,但这些特定实施例在所有方面都是说明性的而不是限制性的。在不脱离本发明范围的情况下,对于本发明所属领域的普通技术人员而言,替代实施例将是很清楚的。
从上述内容可以看出,本发明很好地适用于实现上文提出的所有目标和目的的其他优点,这样的优点是很清楚的并且是该结构固有的。
应当理解,某些特征和子组合是有用的并且可以在不参考其他特征或子组合的情况下使用。这都由权利要求所涵盖并且在权利要求的范围内。
Claims (15)
1.一种用于实现支持硬件故障修复的基础设施管理系统的系统,所述系统包括:
基础设施管理组件,被配置为:
确定硬件组件的故障已经发生,所述硬件组件被包括在硬件组合件中;
发起用于以降级状态操作所述硬件组合件的修复操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作;
访问所述硬件组合件的修复属性,其中所述修复属性指示所述硬件组合件的最小操作限制;
确定所述硬件组合件在没有已经故障的所述硬件组件的情况下进行操作满足所述硬件组合件的最小操作限制;以及
发起所述硬件组合件以所述降级状态的操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作。
2.根据权利要求1所述的系统,其中配置模式包括用于定义对应硬件组合件的配置文件的多个属性,所述多个属性包括所述修复属性,所述修复属性指示来自硬件组合件的健康模型的所述最小操作限制,其中所述健康模型是所述硬件组合件的计算条件的表示。
3.根据权利要求1所述的系统,其中所述最小操作限制是基于健康度量或与所述硬件组合件相关联的可选组件和必需组件来定义的,并且其中在预期到用于操作所述硬件组合件的所述降级状态的情况下,与所述硬件组合件相关联的硬件管理器被预先配置有降级状态配置,其中所述降级状态配置包括用于以所述降级状态操作所述硬件组合件的指令。
4.根据权利要求1所述的系统,还包括:
数据中心管理器组件,被配置为:
提供对硬件组合件的健康状态信息和配置文件的访问,其中所述健康状态信息包括所述硬件组合件的各个健康硬件组件和不健康硬件组件的健康状态信息;
监视器组件,被配置为:
访问硬件组合件的所述健康状态信息;
选择性地监测硬件组合件的硬件组件,其中所述健康状态信息指示健康的所述硬件组件;以及
报告所述硬件组合件中的故障,其中至少一个故障基于所述硬件组合件的健康SLA故障。
5.根据权利要求4所述的系统,还包括:
供应服务组件,被配置为:
基于与所述硬件组合件相对应的健康状态信息和配置文件,对处于所述降级状态的所述硬件组合件执行修复操作,所述健康状态信息和所述配置文件是从所述数据中心组件获取的,其中修复操作包括验证所述硬件组合件的所述健康状态信息;以及
当针对具有第一SLA的第一租户未满足所述最小操作限制时,解除所述硬件组合件,所述第一SLA是所述最小操作限制中的因素;
标识具有第二SLA的第二租户,其中针对具有所述第二SLA的所述第二租户满足所述最小操作限制;以及
针对所述第二租户,对所述硬件组合件执行修复操作;以及退货授权组件,被配置为:
至少部分基于硬件组合件中的硬件组件的属性字段来执行适时的RMA操作,其中属性字段指示硬件组合件的对应硬件组件的健康状态信息。
6.一种用于实现基础设施管理系统的计算机实现的方法,所述方法包括:
确定硬件组件的故障已经发生,所述硬件组件被包括在硬件组合件中;
访问所述硬件组合件的修复属性,其中所述修复属性指示所述硬件组合件的最小操作限制;
基于访问所述修复属性,确定所述硬件组合件在没有已经故障的所述硬件组件的情况下进行操作满足所述硬件组合件的最小操作限制;以及
发起所述硬件组合件以所述降级状态的操作,其中所述降级状态包括所述硬件组合件在没有所述硬件组件的情况下进行操作。
7.根据权利要求6所述的方法,其中所述最小操作限制基于以下来定义:健康度量或与所述硬件组合件的库存单位(SKU)相关联的可选组件和必需组件以及与所述硬件组合件相关联的服务水平协议(SLA)。
8.根据权利要求6所述的方法,其中在预期到用于操作所述硬件组合件的所述降级状态的情况下,所述硬件组合件被预先配置有降级状态配置,其中所述降级状态配置包括用于以所述降级状态操作所述硬件的指令。
9.根据权利要求6所述的方法,其中在确定所述硬件组件的故障已经发生时,基于与所述硬件组合件相对应的健康状态信息和所述配置文件来发起对于所述硬件组合件执行修复操作以便以所述降级状态操作,其中修复操作包括验证所述硬件组合件的健康状态信息。
10.根据权利要求6所述的方法,其中发起所述硬件组合件以所述降级状态的操作还包括:
确定所述硬件组合件的多个硬件组件已经故障;
基于所述硬件组合件的所述最小操作限制来确定要修复的所述多个硬件组件的硬件组件子集;
修复所述硬件组件子集;以及
在所述硬件组合件上执行修复操作。
11.根据权利要求6所述的方法,还包括:
当针对具有第一SLA的第一租户未满足所述最小操作限制时,解除所述硬件组合件,所述第一SLA是所述最小操作限制中的因素;
标识具有第二SLA的第二租户,其中针对具有所述第二SLA的所述第二租户满足所述最小操作限制;以及
针对所述第二租户,对所述硬件组合件执行修复操作。
12.根据权利要求6所述的方法,还包括:
接收发起退货授权(RMA)操作以修复所述硬件组合件的指示,其中接收所述指示部分基于与所述硬件组合件相关联的租户的SLA要求。
13.一种或多种计算机存储介质,所述计算机存储介质上实施有计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时使所述一个或多个处理器执行用于实现用于硬件故障修复的基础设施管理系统的方法,所述方法包括:
在预期到用于操作硬件基础设施的降级状态的情况下,向所述硬件基础设施配置降级状态配置,其中所述降级状态配置包括用于以所述降级状态操作所述硬件基础设施的指令;
确定硬件组件的故障已经发生,所述硬件组件被包括在所述硬件基础设施的硬件组合件中;
访问所述硬件组合件的修复属性,其中所述修复属性指示所述硬件组合件的最小操作限制;
确定所述硬件组合件在没有已经故障的所述硬件组件的情况下进行操作满足所述硬件组合件的所述最小操作限制;
发起所述硬件组合件以所述降级状态的操作,其中所述降级状态包括所述硬件组合件在没有所述硬件组件的情况下进行操作;以及
使用所述硬件基础设施中的所述硬件组合件来执行操作,其中执行所述操作至少部分基于所述降级状态配置。
14.根据权利要求13所述的介质,其中在预期到用于操作所述硬件组合件的所述降级状态的情况下,所述硬件基础设施被预先配置有降级状态配置,其中所述降级状态配置包括用于以所述降级状态操作所述硬件的指令,其中基于配置模式的配置文件包括在修复操作期间被访问以将所述硬件组合件配置为在所述降级状态下进行操作的降级状态配置。
15.根据权利要求13所述的介质,其中降级状态配置包括用于硬件组合件的对应硬件组件的属性字段,属性字段指示针对硬件组合件的对应硬件组件的健康状态信息,其中适时的RMA操作至少部分基于硬件组合件中的硬件组件的属性字段来操作。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562274105P | 2015-12-31 | 2015-12-31 | |
US62/274,105 | 2015-12-31 | ||
US15/167,394 | 2016-05-27 | ||
US15/167,394 US10164852B2 (en) | 2015-12-31 | 2016-05-27 | Infrastructure management system for hardware failure remediation |
PCT/US2016/068608 WO2017117076A1 (en) | 2015-12-31 | 2016-12-26 | Infrastructure management system for hardware failure remediation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108431836A true CN108431836A (zh) | 2018-08-21 |
Family
ID=57822076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680077603.9A Pending CN108431836A (zh) | 2015-12-31 | 2016-12-26 | 用于硬件故障修复的基础设施管理系统 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10164852B2 (zh) |
EP (1) | EP3398126A1 (zh) |
CN (1) | CN108431836A (zh) |
WO (1) | WO2017117076A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110632886A (zh) * | 2018-10-17 | 2019-12-31 | 广东韶钢松山股份有限公司 | 一种小型plc硬件故障应急处理方法及处理装置 |
CN113114716A (zh) * | 2021-02-25 | 2021-07-13 | 浙江工商大学 | 一种边云协同管控系统及方法 |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10298442B2 (en) * | 2016-09-27 | 2019-05-21 | International Business Machines Corporation | Error recovery process |
US10389591B2 (en) * | 2016-10-28 | 2019-08-20 | Microsoft Technology Licensing, Llc | Autonomous configuration system for a service infrastructure |
US10956849B2 (en) | 2017-09-29 | 2021-03-23 | At&T Intellectual Property I, L.P. | Microservice auto-scaling for achieving service level agreements |
US11444830B2 (en) * | 2018-02-23 | 2022-09-13 | Ricoh Company, Ltd. | Mechanisms for cloud-based configuration and management of network devices using network mediators implemented separately from the network devices |
US11456920B2 (en) | 2018-02-23 | 2022-09-27 | Ricoh Company, Ltd. | Mechanisms for cloud-based configuration and management of network devices using network mediators implemented in the network devices |
US10644954B1 (en) | 2019-05-10 | 2020-05-05 | Capital One Services, Llc | Techniques for dynamic network management |
US10587457B1 (en) * | 2019-05-10 | 2020-03-10 | Capital One Services, Llc | Techniques for dynamic network resiliency |
US10756971B1 (en) | 2019-05-29 | 2020-08-25 | Capital One Services, Llc | Techniques for dynamic network strengthening |
US10698704B1 (en) | 2019-06-10 | 2020-06-30 | Captial One Services, Llc | User interface common components and scalable integrable reusable isolated user interface |
US10846436B1 (en) | 2019-11-19 | 2020-11-24 | Capital One Services, Llc | Swappable double layer barcode |
NL2026456B1 (en) * | 2020-09-11 | 2022-05-12 | Microsoft Technology Licensing Llc | Automatic node fungibility between compute and infrastructure nodes in edge zones |
US11604595B2 (en) | 2020-12-09 | 2023-03-14 | Dell Products L.P. | Data mirroring and data migration between storage volumes using system control processors |
US11928515B2 (en) | 2020-12-09 | 2024-03-12 | Dell Products L.P. | System and method for managing resource allocations in composed systems |
US11693703B2 (en) | 2020-12-09 | 2023-07-04 | Dell Products L.P. | Monitoring resource utilization via intercepting bare metal communications between resources |
US11809911B2 (en) | 2020-12-09 | 2023-11-07 | Dell Products L.P. | Resuming workload execution in composed information handling system |
US11704159B2 (en) | 2020-12-09 | 2023-07-18 | Dell Products L.P. | System and method for unified infrastructure architecture |
US11675665B2 (en) | 2020-12-09 | 2023-06-13 | Dell Products L.P. | System and method for backup generation using composed systems |
US11934875B2 (en) * | 2020-12-09 | 2024-03-19 | Dell Products L.P. | Method and system for maintaining composed systems |
US11675625B2 (en) | 2020-12-09 | 2023-06-13 | Dell Products L.P. | Thin provisioning of resources using SCPS and a bidding system |
US11853782B2 (en) | 2020-12-09 | 2023-12-26 | Dell Products L.P. | Method and system for composing systems using resource sets |
US11809912B2 (en) | 2020-12-09 | 2023-11-07 | Dell Products L.P. | System and method for allocating resources to perform workloads |
US11698821B2 (en) | 2020-12-09 | 2023-07-11 | Dell Products L.P. | Composable information handling systems in an open network using access control managers |
US11768612B2 (en) | 2021-01-28 | 2023-09-26 | Dell Products L.P. | System and method for distributed deduplication in a composed system |
US11687280B2 (en) | 2021-01-28 | 2023-06-27 | Dell Products L.P. | Method and system for efficient servicing of storage access requests |
US11675916B2 (en) | 2021-01-28 | 2023-06-13 | Dell Products L.P. | Method and system for limiting data accessibility in composed systems |
US11797341B2 (en) | 2021-01-28 | 2023-10-24 | Dell Products L.P. | System and method for performing remediation action during operation analysis |
US20230028774A1 (en) * | 2021-07-22 | 2023-01-26 | Dell Products L.P. | Method and system for automated healing of hardware resources in a composed information handling system |
US11947697B2 (en) | 2021-07-22 | 2024-04-02 | Dell Products L.P. | Method and system to place resources in a known state to be used in a composed information handling system |
US11928506B2 (en) | 2021-07-28 | 2024-03-12 | Dell Products L.P. | Managing composition service entities with complex networks |
US20230067108A1 (en) * | 2021-08-25 | 2023-03-02 | Kyndryl, Inc. | Computer analysis of routing data enabled for autonomous operation and control |
US11894973B2 (en) | 2022-03-10 | 2024-02-06 | Ricoh Company, Ltd. | Assigning and prioritizing mediation servers for monitoring legacy devices |
US11606242B1 (en) | 2022-03-10 | 2023-03-14 | Ricoh Company, Ltd. | Coordinated monitoring of legacy output devices |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1761115A (zh) * | 2005-09-27 | 2006-04-19 | 艾默生网络能源有限公司 | 电源系统故障的智能识别与排除方法 |
US20070074067A1 (en) * | 2005-09-29 | 2007-03-29 | Rothman Michael A | Maintaining memory reliability |
US20140298076A1 (en) * | 2013-03-26 | 2014-10-02 | Fujitsu Limited | Processing apparatus, recording medium storing processing program, and processing method |
CN104199755A (zh) * | 2014-08-25 | 2014-12-10 | 广东欧珀移动通信有限公司 | 一种基于指示灯诊断硬件模块故障的方法及系统 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2278092A1 (en) | 1998-08-12 | 2000-02-12 | Craig L. Decaluwe | Method and apparatus for routing data traffic away from a failing switchin a communications network |
US6721713B1 (en) | 1999-05-27 | 2004-04-13 | Andersen Consulting Llp | Business alliance identification in a web architecture framework |
US6996751B2 (en) | 2001-08-15 | 2006-02-07 | International Business Machines Corporation | Method and system for reduction of service costs by discrimination between software and hardware induced outages |
TWI239465B (en) * | 2002-12-03 | 2005-09-11 | Inventec Appliances Corp | Automation of maintenance management flow operation for returning and mending article |
US7933814B2 (en) * | 2003-09-26 | 2011-04-26 | Hewlett-Packard Development Company, L.P. | Method and system to determine if a composite service level agreement (SLA) can be met |
US20060064481A1 (en) * | 2004-09-17 | 2006-03-23 | Anthony Baron | Methods for service monitoring and control |
WO2006119112A1 (en) | 2005-04-29 | 2006-11-09 | Fat Spaniel Technologies, Inc. | Improving performance metrics in renewable energy systems |
US8294568B2 (en) * | 2006-07-10 | 2012-10-23 | Venture Corporation Limited | Wireless mine tracking, monitoring, and rescue communications system |
US20080184044A1 (en) * | 2007-01-31 | 2008-07-31 | Leech Phillip A | Method of managing power consumption for collections of computer systems |
US8306778B2 (en) | 2008-12-23 | 2012-11-06 | Embraer S.A. | Prognostics and health monitoring for electro-mechanical systems and components |
US8285438B2 (en) | 2009-11-16 | 2012-10-09 | Honeywell International Inc. | Methods systems and apparatus for analyzing complex systems via prognostic reasoning |
US9077627B2 (en) | 2011-03-28 | 2015-07-07 | Hewlett-Packard Development Company, L.P. | Reducing impact of resource downtime |
US8621463B2 (en) | 2011-09-09 | 2013-12-31 | GM Global Technology Operations LLC | Distributed computing architecture with dynamically reconfigurable hypervisor nodes |
US8839028B1 (en) | 2011-12-23 | 2014-09-16 | Emc Corporation | Managing data availability in storage systems |
US9917736B2 (en) | 2012-01-30 | 2018-03-13 | Microsoft Technology Licensing, Llc | Automated standalone bootstrapping of hardware inventory |
US8719618B2 (en) | 2012-06-13 | 2014-05-06 | International Business Machines Corporation | Dynamic cache correction mechanism to allow constant access to addressable index |
US9667470B2 (en) | 2012-09-07 | 2017-05-30 | Oracle International Corporation | Failure handling in the execution flow of provisioning operations in a cloud environment |
US20140122796A1 (en) | 2012-10-31 | 2014-05-01 | Netapp, Inc. | Systems and methods for tracking a sequential data stream stored in non-sequential storage blocks |
US9565080B2 (en) * | 2012-11-15 | 2017-02-07 | Microsoft Technology Licensing, Llc | Evaluating electronic network devices in view of cost and service level considerations |
US8996932B2 (en) | 2013-01-09 | 2015-03-31 | Microsoft Technology Licensing, Llc | Cloud management using a component health model |
US9602426B2 (en) * | 2013-06-21 | 2017-03-21 | Microsoft Technology Licensing, Llc | Dynamic allocation of resources while considering resource reservations |
US9262451B1 (en) * | 2013-07-01 | 2016-02-16 | Amazon Technologies, Inc. | Data quality checking and automatic correction |
US20150074749A1 (en) | 2013-09-10 | 2015-03-12 | Rockwell Automation Technologies, Inc. | Remote asset management services for industrial assets |
US9396059B2 (en) | 2013-12-19 | 2016-07-19 | Intel Corporation | Exchange error information from platform firmware to operating system |
US10184974B2 (en) * | 2015-09-22 | 2019-01-22 | Raytheon Company | Systems and methods for determining whether a circuit is operating properly |
-
2016
- 2016-05-27 US US15/167,394 patent/US10164852B2/en active Active
- 2016-12-26 EP EP16826845.6A patent/EP3398126A1/en not_active Ceased
- 2016-12-26 WO PCT/US2016/068608 patent/WO2017117076A1/en active Search and Examination
- 2016-12-26 CN CN201680077603.9A patent/CN108431836A/zh active Pending
-
2018
- 2018-12-21 US US16/229,715 patent/US11201805B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1761115A (zh) * | 2005-09-27 | 2006-04-19 | 艾默生网络能源有限公司 | 电源系统故障的智能识别与排除方法 |
US20070074067A1 (en) * | 2005-09-29 | 2007-03-29 | Rothman Michael A | Maintaining memory reliability |
US20140298076A1 (en) * | 2013-03-26 | 2014-10-02 | Fujitsu Limited | Processing apparatus, recording medium storing processing program, and processing method |
CN104199755A (zh) * | 2014-08-25 | 2014-12-10 | 广东欧珀移动通信有限公司 | 一种基于指示灯诊断硬件模块故障的方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110632886A (zh) * | 2018-10-17 | 2019-12-31 | 广东韶钢松山股份有限公司 | 一种小型plc硬件故障应急处理方法及处理装置 |
CN113114716A (zh) * | 2021-02-25 | 2021-07-13 | 浙江工商大学 | 一种边云协同管控系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2017117076A1 (en) | 2017-07-06 |
US10164852B2 (en) | 2018-12-25 |
US11201805B2 (en) | 2021-12-14 |
EP3398126A1 (en) | 2018-11-07 |
US20170195201A1 (en) | 2017-07-06 |
US20190386902A1 (en) | 2019-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108431836A (zh) | 用于硬件故障修复的基础设施管理系统 | |
US10678526B2 (en) | Method and system for managing the end to end lifecycle of a virtualization environment | |
US9740546B2 (en) | Coordinating fault recovery in a distributed system | |
US9354997B2 (en) | Automatic testing and remediation based on confidence indicators | |
CN102681865B (zh) | 分布式系统中的协调升级 | |
CN100417081C (zh) | 检查和修复网络配置的方法和系统 | |
US10110277B2 (en) | Server information handling system NFC management sideband feedback | |
CN104395888B (zh) | 建立硬件清单的初始配置的方法、系统和介质 | |
US9009542B1 (en) | Automatic testing and remediation based on confidence indicators | |
CN104704775B (zh) | 发现、确认和配置硬件清单组件 | |
US20160073276A1 (en) | Information Handling System Physical Component Maintenance Through Near Field Communication Device Interaction | |
US20140215029A1 (en) | Information Handling System Operational Management Through Near Field Communication Device Interaction | |
CN103701641B (zh) | 一种自动化运维的方法和系统 | |
CN106255957A (zh) | 云计算资源的分配 | |
US8688830B2 (en) | Abstracting storage views in a network of computing systems | |
CN104951855B (zh) | 用于促进对资源的管理的装置和方法 | |
US20090319635A1 (en) | Centrally managed inventory and entitlement data | |
US20150312087A1 (en) | Server Information Handling System NFC Ticket Management and Fault Storage | |
US9870234B2 (en) | Automatic identification of returned merchandise in a data center | |
US9331896B2 (en) | Server information handling system NFC ticket management and fault storage | |
US20180314503A1 (en) | Identifying And Associating Computer Assets Impacted By Potential Change To A Particular Computer Asset | |
US11405267B2 (en) | Policy-based temporal domain configuration architecture | |
US20230029280A1 (en) | System and method for providing a warranty assigned to a logical device group | |
US20220210016A1 (en) | Edge compute environment automatic server configuration tool |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |