CN104718533A

CN104718533A - 企业设备的强健硬件故障管理系统、方法及架构

Info

Publication number: CN104718533A
Application number: CN201280076291.1A
Authority: CN
Inventors: 苏哈斯·沙瓦纳; 瓦朗坦·安德斯; 苏尼·马尔霍特拉; 奥姆卡尔·S·普拉巴卡尔
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2012-10-08
Filing date: 2012-10-08
Publication date: 2015-06-17
Anticipated expiration: 2032-10-08
Also published as: TW201415214A; EP2904493A1; CN104718533B; US20150293800A1; WO2014058409A1; TWI608344B; EP2904493A4; US9594619B2

Abstract

公开了一种为企业设备提供强健硬件故障管理的强健硬件故障管理系统、方法及架构。在一个示例中，识别需要强健硬件故障管理的每个所述企业设备中的硬件设备及关联的硬件模块。进一步，确定与每个硬件模块关联的错误结构，并为所确定的错误结构分配唯一标识符。此外，在集中存储库中对所述错误结构建模。另外，将每个建模的错误结构与规则关联，用于检测硬件故障。而且，使用关联的规则标识符，将所述每个建模的错误结构的规则存储在所述集中存储库中。

Description

企业设备的强健硬件故障管理系统、方法及架构

背景技术

在今天的企业网络系统中，业务可靠性、可用性以及可服务性(RAS)特征是任何关键任务服务器的标志。通常，通过强健(robust)故障管理解决方案来实现RAS特征。这种故障管理解决方案对于提高企业网络系统中的企业设备的可用性和可服务性是至关重要的。

但是，大多数现有的故障管理解决方案在没有软件和固件更新的情况下，不能动态更新用于检测新的故障症状的企业设备。这种更新频繁地需要服务或系统停机时间。当前，在不同的word文档中、excel表中或使用编程语言捕获分析规则。进一步，由于每个企业设备定义其自己的分析规则和硬件组件的事件通知数据，因此没有管理分析规则的标准方式。而且，捕获分析规则的非标准方法会导致误解，产生不完整和不正确的分析。随着企业设备数量的增加，任何故障症状的不正确的分析或不必要的事件通知会对可用性、客户体验以及支持成本具有巨大影响。随着硬件组件的不断创新以及制造工艺的提升，基于过去的经验的分析规则对新的企业设备可能不合适，并且需要基于新检测的故障模式不断细化。

此外，现有的故障管理代码库对企业设备的每种类别是不同，使得实际上很难管理和利用代码中嵌入的硬件分析规则和事件。通过现有的硬件设计，对企业设备进行的任何更新都会产生对代码的新版本以及在客户处的多个软件和固件升级的需要。这会极大地增加支持成本以及降低全程客户体验(TCE)。

附图说明

现在将参照附图详细描述本发明的示例，其中：

图1示出企业设备的强健硬件故障管理系统的示例性框图；

图2示出企业设备的强健硬件故障管理系统的另一示例性框图；以及

图3示出比如图1和图2中示出的用于为企业设备提供强健硬件故障管理的方法的示例流程图。

本文描述的附图仅用于说明的目的，并且目的不在于以任何方式限制本公开的范围。

具体实施方式

公开了一种企业设备的强健硬件故障管理系统、方法和架构。在本技术方案的示例的以下详细描述中，参考形成其一部分的附图，并且其中，通过说明的方式示出了特定的示例，可在该特定的示例中实施本技术方案。充分描述的示例使得本领域的技术人员能够实施本技术方案，并且将理解，在不超出本技术方案的范围的情况下，可利用其它示例，以及可做出各种改变。因此，以下详细描述不应被理解为限制的意思，并且由所附的权利要求限定本发明主题的范围。

术语“规则”、“分析规则”以及“硬件分析规则”在整个文件中可互换地使用。

图1示出企业设备102的强健硬件故障管理系统的示例性框图100。示例性企业设备包括服务器、存储设备、网络设备，等等。如图1中所示，强健硬件故障管理系统包括企业设备102、数据中心104以及互联网/内联网106。进一步，企业设备102包括管理处理器108。此外，管理处理器108包括存储器110。另外，存储器110包括强健硬件故障管理模块112。而且，强健硬件故障管理模块112包括远程支持接口114、事件生成模块116、规则数据存储库接口118、基于规则的硬件错误分析引擎120、平台专用规则存储库122、错误日志管理模块124以及平台专用固件抽象层126。还有，数据中心104包括远程支持模块128、用户接口130、集中存储库132以及规则管理模块134。

进一步，企业设备102通过互联网/内联网106连接至数据中心104。此外，平台专用固件抽象层126联接至错误日志管理模块124。另外，错误日志管理模块124联接至基于规则的硬件错误分析引擎120。而且，基于规则的硬件错误分析引擎120联接至平台专用规则存储库122和事件生成模块116。还有，事件生成模块116联接至远程支持接口114。进一步，远程支持接口114联接至规则数据存储库接口118。此外，规则数据存储库接口118联接至平台专用规则存储库122。另外，远程支持模块128联接至用户接口130。而且，用户接口130联接至规则管理模块134和集中存储库132。还有，规则管理模块134联接至集中存储库132。

在操作中，规则管理模块134识别企业设备102中的硬件设备和关联的硬件模块。进一步，规则管理模块134通过包含硬件控制和状态寄存器的唯一类型值以及与每个硬件模块关联的其它有关信息，确定错误结构，并且为确定的错误结构分配唯一标识符。此外，规则管理模块134在集中存储库132中对错误结构建模。另外，规则管理模块134将规则与每个建模的错误结构关联，用于检测硬件故障。而且，规则管理模块134使用关联的规则标识符将每个建模的错误结构的规则存储在集中存储库132中。在一个示例中，基于发布企业设备102后观察到的故障模式，集中存储库132存储硬件分析规则和关联的事件，并且支持硬件分析规则的动态更新。

还是在操作中，在连接至集中存储库132时，强健硬件故障管理模块112通过从集中存储库132获得建模的错误结构的规则，在平台专用规则存储库122中动态更新/存储每个建模的错误结构的规则。在一个示例中，使用远程支持接口114下载可用于企业设备102的规则。可替代地，客户或支持工程师可在管理处理器108上运行命令，以通过新的控制状态寄存器(CSR)/模型专用寄存器(MSR)设置，从指定的存储区域下载规则。进一步，规则数据存储库接口118支持认证的应用程序和用户，以在平台专用规则存储库122中动态更新规则和事件，而不需要固件更新。

进一步在操作中，在与硬件模块关联的硬件错误发生时，强健硬件故障管理模块112接收二进制或平台专用格式的与该硬件模块关联的错误结构。具体地，在硬件错误发生时，平台专用固件抽象层126接收二进制或平台专用格式的错误结构，并读取日志以及发送到错误日志管理模块124。另外，强健硬件故障管理模块112将二进制或平台专用格式的错误结构解码成标准格式。具体地，错误日志管理模块124将二进制或平台专用格式的错误结构解码成标准格式，并为解码的错误结构分配唯一类型值。在一个示例性实现方式中，错误日志管理模块124将二进制或平台专用格式的错误结构解码成‘名字/值(name/value)’对的通用数据结构，具有包含与硬件设备关联的CSR/MSR名字的‘名字(name)’字段和包含CSR当前值的‘值(value)’字段。在将二进制或平台专用格式的错误结构转换成标准格式时，错误日志管理模块124可选择对错误结构增加关于硬件设备的额外信息，比如序列号、零件号，等等。进一步，错误日志管理模块124向基于规则的硬件错误分析引擎120发送解码的错误结构。

而且，强健硬件故障管理模块112将解码的错误结构类型值与平台专用规则存储库122中存储的建模的错误结构进行比较。在一个示例性实现方式中，基于规则的硬件错误分析引擎120从平台专用规则存储库122中获取适用于接收到的错误结构的规则，并触发分析操作。例如，基于规则的硬件错误分析引擎120将解码的错误结构类型值与获取的规则进行比较。基于规则的硬件错误分析引擎120支持阈值、抑制以及使用内部错误数据库中存储的历史错误的模式匹配。此平台独立的、轻量级的以及便携的基于规则的硬件错误分析引擎120允许解决方案组件的重用，由此，使标准故障管理解决方案能够跨多个企业设备。还有，强健硬件故障管理模块112在找到匹配时或基于比较的结果，生成错误事件和/或警告，并发起规则中定义的一个或多个动作。具体地，事件生成模块116在找到匹配时或基于比较的结果，生成错误事件和/或警告，并发起规则中定义的一个或多个动作。

现在参照图2，图2是企业设备202的强健硬件故障管理系统的另一示例性框图202。如图2中所示，该强健硬件故障管理系统包括企业设备202、数据中心104以及互联网/内联网106。进一步，企业设备202包括管理处理器204和存储器206。此外，存储器206包括操作系统(OS)208。另外，OS 208包括内核210。而且，内核210包括强健硬件故障管理模块112。还有，强健硬件故障管理模块112包括远程支持接口114、事件生成模块116、规则数据存储库接口118、基于规则的硬件错误分析引擎120、平台专用规则存储库122、错误日志管理模块124以及平台专用固件抽象层126。进一步，数据中心104包括远程支持模块128、用户接口130、集中存储库132以及规则管理模块134。

还有，企业设备202通过互联网/内联网106连接至数据中心104。进一步，管理处理器204联接至存储器206。此外，平台专用固件抽象层126联接至错误日志管理模块124。另外，错误日志管理模块124联接至基于规则的硬件错误分析引擎120。而且，基于规则的硬件错误分析引擎120联接至平台专用规则存储库122和事件生成模块116。还有，事件生成模块116联接至远程支持接口114。进一步，远程支持接口114联接至规则数据存储库接口118。此外，规则数据存储库接口118联接至平台专用规则存储库122。另外，远程支持模块128联接至用户接口130。而且，用户接口130联接至规则管理模块134和集中存储库132。还有，规则管理模块134联接至集中存储库132。

在操作中，规则管理模块134识别需要强健硬件故障管理的企业设备202中的硬件设备和关联的硬件模块。进一步，规则管理模块134通过包含硬件控制和状态寄存器的唯一类型值和与每个硬件模块关联的其它有关信息，确定错误结构，并为确定的错误结构分配唯一标识符。此外，规则管理模块134在集中存储库132中对错误结构建模。另外，规则管理模块134将规则与每个建模的错误结构关联，用于检测硬件故障。而且，规则管理模块134使用关联的规则标识符将每个建模的错误结构的规则存储在集中存储库132中。

进一步，在连接至集中存储库132时，强健硬件故障管理模块112通过从集中存储库132获得建模的错误结构的规则，在平台专用规则库122中动态更新/存储每个建模的错误结构的规则。在一个示例中，使用远程支持接口114下载可用于企业设备202的多个规则。可替代地，客户或支持工程师可在OS 208上运行命令，以通过新的CSR/MSR设置，从指定的存储区域下载硬件分析规则。进一步，规则数据存储库接口118支持认证的应用程序和用户，以在平台专用规则库122中动态更新规则和事件，而不需要固件更新。

此外，在与硬件模块关联的硬件错误发生时，强健硬件故障管理模块112接收二进制或平台专用格式的与该硬件模块关联的错误结构。另外，强健硬件故障管理模块112将该错误结构从二进制或平台专用格式解码成标准格式，并为解码的错误结构分配唯一类型值。而且，强健硬件故障管理模块112将解码的错误结构类型值与平台专用规则存储库122中存储的建模的错误结构的规则进行比较。还有，强健硬件故障管理模块112在找出匹配时或基于比较的结果，生成错误事件和/或警告，并发起规则中定义的一个或多个动作。这参照图1被更详细的解释了。

现在参照图3，图3是示出用于为企业设备(比如图1和图2中所示的那些)提供强健硬件故障管理的示例流程图300。在框302处，识别需要强健硬件故障管理的每个企业设备中的硬件设备和关联的硬件模块。示例性企业设备包括服务器、存储设备、网络设备，等等。例如，硬件设备包括处理器、存储器、芯片组、主机总线适配器(HBA)，等等。示例性硬件模块包括高速缓存、存储控制器、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)，等等。在框304处，通过唯一类型值，确定与每个硬件模块关联的错误结构，并为确定的错误结构分配唯一标识符。在框306处，在集中存储库中，对错误结构建模。在框308处，将规则与每个建模的错误结构关联，用于检测硬件故障。例如，下面示出一种规则：

Rule ID＝1,RULE CONDITION{MEMORY_ERROR.errstatus<OPERATOR>'VALUE'WITH THRESHOLD＝10,THRESHOLD_WINDOW＝1440(inminutes),SUPRESSION_WINDOW＝1440(in minutes)ON DEVICEJD＝MEMORY_ERROR.PhysicalLocation}ACTION{generate_event(1440)；

platform_specific_action(Action UUID)}

在该示例中，为MEMORY_ERROR(双列直插内存模块(DIMM)错误)类型的错误结构定义规则，并为字符串“ABCD”识别的平台类型定义规则。<OPERATOR>采用比如，EQUAL、BITAND、BITOR等的值，并且规则的条件部分包括多个字段：由<OPERATOR>：值构成。THRESHOLD_WINDOW以及SUPRESSION_WINDOW值用于由DEVICE_ID识别的企业设备。DEVICE_ID识别企业设备实例，运行时，在该企业设备上(例如，企业设备的物理位置)应用分析规则。动作(ACTION)用于生成支持事件，并使用唯一动作UUID进行平台专用自治愈动作(例如，故障组件的停用)。

例如，硬件故障的分析基于规则语言，该规则语言支持子规则的使用并允许子规则组合成单一规则，且进一步允许聚集的错误结构的分析。进一步，该规则语言捕获硬件错误的分析、自治愈等需要的CSR/MSR字段和可用的运算符(AND、OR，等等)、平台专用标识符、阈值以及平台专用自治愈动作。可通过增加用作功能标识符的新的关键词容易地扩展该规则语言。解析规则的基于规则的硬件错误分析引擎(例如，图1和2的基于规则的硬件错误分析引擎120)查找使用功能标识符注册的插件模块，并调用合适的处理程序。这使得硬件分析规则语言可扩展，并且能够基于平台需求定制化。在框310处，使用关联的规则标识符，将每个建模的错误结构的规则存储在集中存储库中。例如，使用唯一标识符识别每个规则，并使用唯一标识符识别存储在集中存储库中的每个错误结构。

在框312处，连接至集中存储库时，通过从该集中存储库获得建模的错误结构的规则，在位于每个企业设备的关联的平台专用规则存储库中动态更新/存储每个建模的错误结构的规则。在框314处，在发生与硬件模块关联的硬件错误时，接收二进制或平台专用格式的与该硬件模块关联的错误结构。在框306处，将二进制或平台专用格式的错误结构解码成标准格式，并为解码的错误结构分配唯一类型值。这参照图1被更详细的解释了。在框318处，将解码的错误结构类型值与存储在该平台专用规则存储库中的建模的错误结构的规则进行比较。在框320处，在找出匹配时或基于比较的结果，生成错误事件和/或警告，并发起规则中定义的一个或多个动作。

在一个示例中，一种产品包括非瞬态计算机可读存储介质，其上具有指令，在由计算平台执行该指令时，引起上面提到的方法的执行。前面描述的方法可以是实现指令集的计算机可读介质的形式，在由机器执行该指令集时，使得该机器执行本文公开的任意方法。应理解，本文讨论的各种示例可能不是同样的示例，且可分组到本文未明确公开的各种其他的示例。

另外，应理解，本文公开的各种操作、过程和方法可以以兼容计算机系统的机器可读介质和/或机器可访问介质实现，并且可以以任意顺序执行(例如，包括使用实现各种操作的手段)。因此，说明书和附图将视为说明性的而不是限制的意思。

在各种示例中，图1-3中描述的系统和方法提出了一种使用企业设备的规则提供强健硬件故障管理的技术。该技术有助于管理及利用跨不同的企业设备的规则。该技术还有助于使共享的硬件组件的错误分析算法标准化。进一步，规则语言有助于简化现有的故障管理解决方案，并且便携及具有影响力的通用分析引擎有助于跨多个企业设备的解决方案组件的重新使用。此外，规则的动态更新有助于增加/修改故障管理能力，而不用任何固件升级。

尽管本文已描述了某些方法、装置和生产的产品，本专利的覆盖范围不限于此。相反，无论是在字面上还是在等同原则下，本专利覆盖完全落在所附权利要求的范围中的所有方法、装置和生产的产品。

Claims

1.一种为企业设备提供强健硬件故障管理的方法，包括：

识别每个所述企业设备中的硬件设备和关联的硬件模块；

确定与每个硬件模块关联的错误结构，并且为所确定的错误结构分配唯一标识符；

在集中存储库中对所述错误结构建模；

将规则与每个建模的错误结构关联，用于检测硬件故障；以及

使用关联的规则标识符，将所述每个建模的错误结构的规则存储在所述集中存储库中。

2.根据权利要求1所述的方法，进一步包括：

在连接至所述集中存储库时，通过从所述集中存储库获得所述建模的错误结构的规则，在位于每个所述企业设备中的关联的平台专用规则存储库中，动态更新/存储所述每个建模的错误结构的规则。

3.根据权利要求2所述的方法，进一步包括：

在与硬件模块关联的硬件错误发生时，接收二进制或平台专用格式的与所述硬件模块关联的错误结构；

将所述二进制或平台专用格式的所述错误结构解码成标准格式，并且为所解码的错误结构分配唯一类型值；

将所解码的错误结构类型值与所述平台专用规则存储库中存储的所述建模的错误结构的规则进行比较；以及

基于所述比较的结果，生成错误事件和/或警告，并发起所述规则中定义的一个或多个动作。

4.根据权利要求1所述的方法，其中，所述企业设备选自由服务器、存储设备以及网络设备组成的组。

5.根据权利要求1所述的方法，其中，所述硬件设备选自由处理器、存储器、芯片组以及主机总线适配器(HBA)组成的组。

6.根据权利要求1所述的方法，其中，所述硬件模块选自由高速缓存、存储控制器、动态随机存取存储器(DRAM)以及静态随机存取存储器(SRAM)组成的组。

7.根据权利要求1所述的方法，其中，所述硬件故障的分析基于规则语言，所述规则语言支持子规则的使用，并且允许子规则组合成单一规则以及进一步允许聚集的错误结构的分析。

8.根据权利要求7所述的方法，其中，所述规则语言允许捕获硬件错误的分析和自治愈需要的控制状态寄存器(CSR)/模型专用寄存器(MSR)字段和可用的运算符(AND、OR，等等)、平台专用标识符、阈值以及平台专用自治愈动作。

9.一种强健硬件故障管理系统，包括：

数据中心，包括集中存储库和规则管理模块；

互联网/内联网；以及

企业设备，通过所述互联网/内联网联接至所述数据中心，其中所述企业设备包括：

管理处理器；和

存储器，联接至所述管理存储器，其中所述存储器包括操作系统(OS)，所述操作系统包括内核，其中所述内核和管理处理器中的一个包括强健硬件故障管理模块，其中所述规则管理模块识别所述企业设备中的硬件设备和关联的硬件模块，其中所述规则管理模块确定与每个硬件模块关联的错误结构，并为所确定的错误结构分配唯一标识符，其中所述规则管理模块在所述集中存储库中对所述错误结构建模，其中所述规则管理模块将规则与每个建模的错误结构关联，用于检测硬件故障，并且其中所述规则管理模块使用关联的规则标识符将所述每个建模的错误结构的规则存储在所述集中存储库中。

10.根据权利要求9所述的系统，其中，所述强健硬件故障管理模块在连接至所述集中存储库时，通过从所述集中存储库获得所述建模的错误结构的规则，在位于所述企业设备中的关联的平台专用规则存储库中，动态更新/存储所述每个建模的错误结构的规则。

11.根据权利要求10所述的系统，其中，所述强健硬件故障管理模块进一步配置用于：

12.根据权利要求9所述的系统，其中，所述企业设备选自由服务器、存储设备以及网络设备组成的组。

13.一种用于企业设备的强健硬件故障管理的非瞬态计算机可读存储介质，具有指令，在所述指令被计算设备执行时，使得所述计算设备用于：

识别每个所述企业设备中的硬件设备和关联的硬件模块；

确定与每个硬件模块关联的错误结构，并为所确定的错误结构分配唯一标识符；

在集中存储库中对所述错误结构建模；

14.根据权利要求13所述的非瞬态计算机可读存储介质，进一步包括：

15.根据权利要求14所述的非瞬态计算机可读存储介质，进一步包括：

将所述二进制或平台专用格式的所述错误结构解码成标准格式，并为所解码的错误结构分配唯一类型值；