CN104718533A - 企业设备的强健硬件故障管理系统、方法及架构 - Google Patents

企业设备的强健硬件故障管理系统、方法及架构 Download PDF

Info

Publication number
CN104718533A
CN104718533A CN201280076291.1A CN201280076291A CN104718533A CN 104718533 A CN104718533 A CN 104718533A CN 201280076291 A CN201280076291 A CN 201280076291A CN 104718533 A CN104718533 A CN 104718533A
Authority
CN
China
Prior art keywords
rule
wrong structure
hardware
modeling
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280076291.1A
Other languages
English (en)
Other versions
CN104718533B (zh
Inventor
苏哈斯·沙瓦纳
瓦朗坦·安德斯
苏尼·马尔霍特拉
奥姆卡尔·S·普拉巴卡尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN104718533A publication Critical patent/CN104718533A/zh
Application granted granted Critical
Publication of CN104718533B publication Critical patent/CN104718533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

公开了一种为企业设备提供强健硬件故障管理的强健硬件故障管理系统、方法及架构。在一个示例中,识别需要强健硬件故障管理的每个所述企业设备中的硬件设备及关联的硬件模块。进一步,确定与每个硬件模块关联的错误结构,并为所确定的错误结构分配唯一标识符。此外,在集中存储库中对所述错误结构建模。另外,将每个建模的错误结构与规则关联,用于检测硬件故障。而且,使用关联的规则标识符,将所述每个建模的错误结构的规则存储在所述集中存储库中。

Description

企业设备的强健硬件故障管理系统、方法及架构
背景技术
在今天的企业网络系统中,业务可靠性、可用性以及可服务性(RAS)特征是任何关键任务服务器的标志。通常,通过强健(robust)故障管理解决方案来实现RAS特征。这种故障管理解决方案对于提高企业网络系统中的企业设备的可用性和可服务性是至关重要的。
但是,大多数现有的故障管理解决方案在没有软件和固件更新的情况下,不能动态更新用于检测新的故障症状的企业设备。这种更新频繁地需要服务或系统停机时间。当前,在不同的word文档中、excel表中或使用编程语言捕获分析规则。进一步,由于每个企业设备定义其自己的分析规则和硬件组件的事件通知数据,因此没有管理分析规则的标准方式。而且,捕获分析规则的非标准方法会导致误解,产生不完整和不正确的分析。随着企业设备数量的增加,任何故障症状的不正确的分析或不必要的事件通知会对可用性、客户体验以及支持成本具有巨大影响。随着硬件组件的不断创新以及制造工艺的提升,基于过去的经验的分析规则对新的企业设备可能不合适,并且需要基于新检测的故障模式不断细化。
此外,现有的故障管理代码库对企业设备的每种类别是不同,使得实际上很难管理和利用代码中嵌入的硬件分析规则和事件。通过现有的硬件设计,对企业设备进行的任何更新都会产生对代码的新版本以及在客户处的多个软件和固件升级的需要。这会极大地增加支持成本以及降低全程客户体验(TCE)。
附图说明
现在将参照附图详细描述本发明的示例,其中:
图1示出企业设备的强健硬件故障管理系统的示例性框图;
图2示出企业设备的强健硬件故障管理系统的另一示例性框图;以及
图3示出比如图1和图2中示出的用于为企业设备提供强健硬件故障管理的方法的示例流程图。
本文描述的附图仅用于说明的目的,并且目的不在于以任何方式限制本公开的范围。
具体实施方式
公开了一种企业设备的强健硬件故障管理系统、方法和架构。在本技术方案的示例的以下详细描述中,参考形成其一部分的附图,并且其中,通过说明的方式示出了特定的示例,可在该特定的示例中实施本技术方案。充分描述的示例使得本领域的技术人员能够实施本技术方案,并且将理解,在不超出本技术方案的范围的情况下,可利用其它示例,以及可做出各种改变。因此,以下详细描述不应被理解为限制的意思,并且由所附的权利要求限定本发明主题的范围。
术语“规则”、“分析规则”以及“硬件分析规则”在整个文件中可互换地使用。
图1示出企业设备102的强健硬件故障管理系统的示例性框图100。示例性企业设备包括服务器、存储设备、网络设备,等等。如图1中所示,强健硬件故障管理系统包括企业设备102、数据中心104以及互联网/内联网106。进一步,企业设备102包括管理处理器108。此外,管理处理器108包括存储器110。另外,存储器110包括强健硬件故障管理模块112。而且,强健硬件故障管理模块112包括远程支持接口114、事件生成模块116、规则数据存储库接口118、基于规则的硬件错误分析引擎120、平台专用规则存储库122、错误日志管理模块124以及平台专用固件抽象层126。还有,数据中心104包括远程支持模块128、用户接口130、集中存储库132以及规则管理模块134。
进一步,企业设备102通过互联网/内联网106连接至数据中心104。此外,平台专用固件抽象层126联接至错误日志管理模块124。另外,错误日志管理模块124联接至基于规则的硬件错误分析引擎120。而且,基于规则的硬件错误分析引擎120联接至平台专用规则存储库122和事件生成模块116。还有,事件生成模块116联接至远程支持接口114。进一步,远程支持接口114联接至规则数据存储库接口118。此外,规则数据存储库接口118联接至平台专用规则存储库122。另外,远程支持模块128联接至用户接口130。而且,用户接口130联接至规则管理模块134和集中存储库132。还有,规则管理模块134联接至集中存储库132。
在操作中,规则管理模块134识别企业设备102中的硬件设备和关联的硬件模块。进一步,规则管理模块134通过包含硬件控制和状态寄存器的唯一类型值以及与每个硬件模块关联的其它有关信息,确定错误结构,并且为确定的错误结构分配唯一标识符。此外,规则管理模块134在集中存储库132中对错误结构建模。另外,规则管理模块134将规则与每个建模的错误结构关联,用于检测硬件故障。而且,规则管理模块134使用关联的规则标识符将每个建模的错误结构的规则存储在集中存储库132中。在一个示例中,基于发布企业设备102后观察到的故障模式,集中存储库132存储硬件分析规则和关联的事件,并且支持硬件分析规则的动态更新。
还是在操作中,在连接至集中存储库132时,强健硬件故障管理模块112通过从集中存储库132获得建模的错误结构的规则,在平台专用规则存储库122中动态更新/存储每个建模的错误结构的规则。在一个示例中,使用远程支持接口114下载可用于企业设备102的规则。可替代地,客户或支持工程师可在管理处理器108上运行命令,以通过新的控制状态寄存器(CSR)/模型专用寄存器(MSR)设置,从指定的存储区域下载规则。进一步,规则数据存储库接口118支持认证的应用程序和用户,以在平台专用规则存储库122中动态更新规则和事件,而不需要固件更新。
进一步在操作中,在与硬件模块关联的硬件错误发生时,强健硬件故障管理模块112接收二进制或平台专用格式的与该硬件模块关联的错误结构。具体地,在硬件错误发生时,平台专用固件抽象层126接收二进制或平台专用格式的错误结构,并读取日志以及发送到错误日志管理模块124。另外,强健硬件故障管理模块112将二进制或平台专用格式的错误结构解码成标准格式。具体地,错误日志管理模块124将二进制或平台专用格式的错误结构解码成标准格式,并为解码的错误结构分配唯一类型值。在一个示例性实现方式中,错误日志管理模块124将二进制或平台专用格式的错误结构解码成‘名字/值(name/value)’对的通用数据结构,具有包含与硬件设备关联的CSR/MSR名字的‘名字(name)’字段和包含CSR当前值的‘值(value)’字段。在将二进制或平台专用格式的错误结构转换成标准格式时,错误日志管理模块124可选择对错误结构增加关于硬件设备的额外信息,比如序列号、零件号,等等。进一步,错误日志管理模块124向基于规则的硬件错误分析引擎120发送解码的错误结构。
而且,强健硬件故障管理模块112将解码的错误结构类型值与平台专用规则存储库122中存储的建模的错误结构进行比较。在一个示例性实现方式中,基于规则的硬件错误分析引擎120从平台专用规则存储库122中获取适用于接收到的错误结构的规则,并触发分析操作。例如,基于规则的硬件错误分析引擎120将解码的错误结构类型值与获取的规则进行比较。基于规则的硬件错误分析引擎120支持阈值、抑制以及使用内部错误数据库中存储的历史错误的模式匹配。此平台独立的、轻量级的以及便携的基于规则的硬件错误分析引擎120允许解决方案组件的重用,由此,使标准故障管理解决方案能够跨多个企业设备。还有,强健硬件故障管理模块112在找到匹配时或基于比较的结果,生成错误事件和/或警告,并发起规则中定义的一个或多个动作。具体地,事件生成模块116在找到匹配时或基于比较的结果,生成错误事件和/或警告,并发起规则中定义的一个或多个动作。
现在参照图2,图2是企业设备202的强健硬件故障管理系统的另一示例性框图202。如图2中所示,该强健硬件故障管理系统包括企业设备202、数据中心104以及互联网/内联网106。进一步,企业设备202包括管理处理器204和存储器206。此外,存储器206包括操作系统(OS)208。另外,OS 208包括内核210。而且,内核210包括强健硬件故障管理模块112。还有,强健硬件故障管理模块112包括远程支持接口114、事件生成模块116、规则数据存储库接口118、基于规则的硬件错误分析引擎120、平台专用规则存储库122、错误日志管理模块124以及平台专用固件抽象层126。进一步,数据中心104包括远程支持模块128、用户接口130、集中存储库132以及规则管理模块134。
还有,企业设备202通过互联网/内联网106连接至数据中心104。进一步,管理处理器204联接至存储器206。此外,平台专用固件抽象层126联接至错误日志管理模块124。另外,错误日志管理模块124联接至基于规则的硬件错误分析引擎120。而且,基于规则的硬件错误分析引擎120联接至平台专用规则存储库122和事件生成模块116。还有,事件生成模块116联接至远程支持接口114。进一步,远程支持接口114联接至规则数据存储库接口118。此外,规则数据存储库接口118联接至平台专用规则存储库122。另外,远程支持模块128联接至用户接口130。而且,用户接口130联接至规则管理模块134和集中存储库132。还有,规则管理模块134联接至集中存储库132。
在操作中,规则管理模块134识别需要强健硬件故障管理的企业设备202中的硬件设备和关联的硬件模块。进一步,规则管理模块134通过包含硬件控制和状态寄存器的唯一类型值和与每个硬件模块关联的其它有关信息,确定错误结构,并为确定的错误结构分配唯一标识符。此外,规则管理模块134在集中存储库132中对错误结构建模。另外,规则管理模块134将规则与每个建模的错误结构关联,用于检测硬件故障。而且,规则管理模块134使用关联的规则标识符将每个建模的错误结构的规则存储在集中存储库132中。
进一步,在连接至集中存储库132时,强健硬件故障管理模块112通过从集中存储库132获得建模的错误结构的规则,在平台专用规则库122中动态更新/存储每个建模的错误结构的规则。在一个示例中,使用远程支持接口114下载可用于企业设备202的多个规则。可替代地,客户或支持工程师可在OS 208上运行命令,以通过新的CSR/MSR设置,从指定的存储区域下载硬件分析规则。进一步,规则数据存储库接口118支持认证的应用程序和用户,以在平台专用规则库122中动态更新规则和事件,而不需要固件更新。
此外,在与硬件模块关联的硬件错误发生时,强健硬件故障管理模块112接收二进制或平台专用格式的与该硬件模块关联的错误结构。另外,强健硬件故障管理模块112将该错误结构从二进制或平台专用格式解码成标准格式,并为解码的错误结构分配唯一类型值。而且,强健硬件故障管理模块112将解码的错误结构类型值与平台专用规则存储库122中存储的建模的错误结构的规则进行比较。还有,强健硬件故障管理模块112在找出匹配时或基于比较的结果,生成错误事件和/或警告,并发起规则中定义的一个或多个动作。这参照图1被更详细的解释了。
现在参照图3,图3是示出用于为企业设备(比如图1和图2中所示的那些)提供强健硬件故障管理的示例流程图300。在框302处,识别需要强健硬件故障管理的每个企业设备中的硬件设备和关联的硬件模块。示例性企业设备包括服务器、存储设备、网络设备,等等。例如,硬件设备包括处理器、存储器、芯片组、主机总线适配器(HBA),等等。示例性硬件模块包括高速缓存、存储控制器、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM),等等。在框304处,通过唯一类型值,确定与每个硬件模块关联的错误结构,并为确定的错误结构分配唯一标识符。在框306处,在集中存储库中,对错误结构建模。在框308处,将规则与每个建模的错误结构关联,用于检测硬件故障。例如,下面示出一种规则:
<Error Structure Type=MEMORY_ERROR,Platform ID=ABCD">
Rule ID=1,RULE CONDITION{MEMORY_ERROR.errstatus<OPERATOR>'VALUE'WITH THRESHOLD=10,THRESHOLD_WINDOW=1440(inminutes),SUPRESSION_WINDOW=1440(in minutes)ON DEVICEJD=MEMORY_ERROR.PhysicalLocation}ACTION{generate_event(1440);
platform_specific_action(Action UUID)}
在该示例中,为MEMORY_ERROR(双列直插内存模块(DIMM)错误)类型的错误结构定义规则,并为字符串“ABCD”识别的平台类型定义规则。<OPERATOR>采用比如,EQUAL、BITAND、BITOR等的值,并且规则的条件部分包括多个字段:由<OPERATOR>:值构成。THRESHOLD_WINDOW以及SUPRESSION_WINDOW值用于由DEVICE_ID识别的企业设备。DEVICE_ID识别企业设备实例,运行时,在该企业设备上(例如,企业设备的物理位置)应用分析规则。动作(ACTION)用于生成支持事件,并使用唯一动作UUID进行平台专用自治愈动作(例如,故障组件的停用)。
例如,硬件故障的分析基于规则语言,该规则语言支持子规则的使用并允许子规则组合成单一规则,且进一步允许聚集的错误结构的分析。进一步,该规则语言捕获硬件错误的分析、自治愈等需要的CSR/MSR字段和可用的运算符(AND、OR,等等)、平台专用标识符、阈值以及平台专用自治愈动作。可通过增加用作功能标识符的新的关键词容易地扩展该规则语言。解析规则的基于规则的硬件错误分析引擎(例如,图1和2的基于规则的硬件错误分析引擎120)查找使用功能标识符注册的插件模块,并调用合适的处理程序。这使得硬件分析规则语言可扩展,并且能够基于平台需求定制化。在框310处,使用关联的规则标识符,将每个建模的错误结构的规则存储在集中存储库中。例如,使用唯一标识符识别每个规则,并使用唯一标识符识别存储在集中存储库中的每个错误结构。
在框312处,连接至集中存储库时,通过从该集中存储库获得建模的错误结构的规则,在位于每个企业设备的关联的平台专用规则存储库中动态更新/存储每个建模的错误结构的规则。在框314处,在发生与硬件模块关联的硬件错误时,接收二进制或平台专用格式的与该硬件模块关联的错误结构。在框306处,将二进制或平台专用格式的错误结构解码成标准格式,并为解码的错误结构分配唯一类型值。这参照图1被更详细的解释了。在框318处,将解码的错误结构类型值与存储在该平台专用规则存储库中的建模的错误结构的规则进行比较。在框320处,在找出匹配时或基于比较的结果,生成错误事件和/或警告,并发起规则中定义的一个或多个动作。
在一个示例中,一种产品包括非瞬态计算机可读存储介质,其上具有指令,在由计算平台执行该指令时,引起上面提到的方法的执行。前面描述的方法可以是实现指令集的计算机可读介质的形式,在由机器执行该指令集时,使得该机器执行本文公开的任意方法。应理解,本文讨论的各种示例可能不是同样的示例,且可分组到本文未明确公开的各种其他的示例。
另外,应理解,本文公开的各种操作、过程和方法可以以兼容计算机系统的机器可读介质和/或机器可访问介质实现,并且可以以任意顺序执行(例如,包括使用实现各种操作的手段)。因此,说明书和附图将视为说明性的而不是限制的意思。
在各种示例中,图1-3中描述的系统和方法提出了一种使用企业设备的规则提供强健硬件故障管理的技术。该技术有助于管理及利用跨不同的企业设备的规则。该技术还有助于使共享的硬件组件的错误分析算法标准化。进一步,规则语言有助于简化现有的故障管理解决方案,并且便携及具有影响力的通用分析引擎有助于跨多个企业设备的解决方案组件的重新使用。此外,规则的动态更新有助于增加/修改故障管理能力,而不用任何固件升级。
尽管本文已描述了某些方法、装置和生产的产品,本专利的覆盖范围不限于此。相反,无论是在字面上还是在等同原则下,本专利覆盖完全落在所附权利要求的范围中的所有方法、装置和生产的产品。

Claims (15)

1.一种为企业设备提供强健硬件故障管理的方法,包括:
识别每个所述企业设备中的硬件设备和关联的硬件模块;
确定与每个硬件模块关联的错误结构,并且为所确定的错误结构分配唯一标识符;
在集中存储库中对所述错误结构建模;
将规则与每个建模的错误结构关联,用于检测硬件故障;以及
使用关联的规则标识符,将所述每个建模的错误结构的规则存储在所述集中存储库中。
2.根据权利要求1所述的方法,进一步包括:
在连接至所述集中存储库时,通过从所述集中存储库获得所述建模的错误结构的规则,在位于每个所述企业设备中的关联的平台专用规则存储库中,动态更新/存储所述每个建模的错误结构的规则。
3.根据权利要求2所述的方法,进一步包括:
在与硬件模块关联的硬件错误发生时,接收二进制或平台专用格式的与所述硬件模块关联的错误结构;
将所述二进制或平台专用格式的所述错误结构解码成标准格式,并且为所解码的错误结构分配唯一类型值;
将所解码的错误结构类型值与所述平台专用规则存储库中存储的所述建模的错误结构的规则进行比较;以及
基于所述比较的结果,生成错误事件和/或警告,并发起所述规则中定义的一个或多个动作。
4.根据权利要求1所述的方法,其中,所述企业设备选自由服务器、存储设备以及网络设备组成的组。
5.根据权利要求1所述的方法,其中,所述硬件设备选自由处理器、存储器、芯片组以及主机总线适配器(HBA)组成的组。
6.根据权利要求1所述的方法,其中,所述硬件模块选自由高速缓存、存储控制器、动态随机存取存储器(DRAM)以及静态随机存取存储器(SRAM)组成的组。
7.根据权利要求1所述的方法,其中,所述硬件故障的分析基于规则语言,所述规则语言支持子规则的使用,并且允许子规则组合成单一规则以及进一步允许聚集的错误结构的分析。
8.根据权利要求7所述的方法,其中,所述规则语言允许捕获硬件错误的分析和自治愈需要的控制状态寄存器(CSR)/模型专用寄存器(MSR)字段和可用的运算符(AND、OR,等等)、平台专用标识符、阈值以及平台专用自治愈动作。
9.一种强健硬件故障管理系统,包括:
数据中心,包括集中存储库和规则管理模块;
互联网/内联网;以及
企业设备,通过所述互联网/内联网联接至所述数据中心,其中所述企业设备包括:
管理处理器;和
存储器,联接至所述管理存储器,其中所述存储器包括操作系统(OS),所述操作系统包括内核,其中所述内核和管理处理器中的一个包括强健硬件故障管理模块,其中所述规则管理模块识别所述企业设备中的硬件设备和关联的硬件模块,其中所述规则管理模块确定与每个硬件模块关联的错误结构,并为所确定的错误结构分配唯一标识符,其中所述规则管理模块在所述集中存储库中对所述错误结构建模,其中所述规则管理模块将规则与每个建模的错误结构关联,用于检测硬件故障,并且其中所述规则管理模块使用关联的规则标识符将所述每个建模的错误结构的规则存储在所述集中存储库中。
10.根据权利要求9所述的系统,其中,所述强健硬件故障管理模块在连接至所述集中存储库时,通过从所述集中存储库获得所述建模的错误结构的规则,在位于所述企业设备中的关联的平台专用规则存储库中,动态更新/存储所述每个建模的错误结构的规则。
11.根据权利要求10所述的系统,其中,所述强健硬件故障管理模块进一步配置用于:
在与硬件模块关联的硬件错误发生时,接收二进制或平台专用格式的与所述硬件模块关联的错误结构;
将所述二进制或平台专用格式的所述错误结构解码成标准格式,并且为所解码的错误结构分配唯一类型值;
将所解码的错误结构类型值与所述平台专用规则存储库中存储的所述建模的错误结构的规则进行比较;以及
基于所述比较的结果,生成错误事件和/或警告,并发起所述规则中定义的一个或多个动作。
12.根据权利要求9所述的系统,其中,所述企业设备选自由服务器、存储设备以及网络设备组成的组。
13.一种用于企业设备的强健硬件故障管理的非瞬态计算机可读存储介质,具有指令,在所述指令被计算设备执行时,使得所述计算设备用于:
识别每个所述企业设备中的硬件设备和关联的硬件模块;
确定与每个硬件模块关联的错误结构,并为所确定的错误结构分配唯一标识符;
在集中存储库中对所述错误结构建模;
将规则与每个建模的错误结构关联,用于检测硬件故障;以及
使用关联的规则标识符,将所述每个建模的错误结构的规则存储在所述集中存储库中。
14.根据权利要求13所述的非瞬态计算机可读存储介质,进一步包括:
在连接至所述集中存储库时,通过从所述集中存储库获得所述建模的错误结构的规则,在位于每个所述企业设备中的关联的平台专用规则存储库中,动态更新/存储所述每个建模的错误结构的规则。
15.根据权利要求14所述的非瞬态计算机可读存储介质,进一步包括:
在与硬件模块关联的硬件错误发生时,接收二进制或平台专用格式的与所述硬件模块关联的错误结构;
将所述二进制或平台专用格式的所述错误结构解码成标准格式,并为所解码的错误结构分配唯一类型值;
将所解码的错误结构类型值与所述平台专用规则存储库中存储的所述建模的错误结构的规则进行比较;以及
基于所述比较的结果,生成错误事件和/或警告,并发起所述规则中定义的一个或多个动作。
CN201280076291.1A 2012-10-08 2012-10-08 企业设备的硬件故障管理系统、方法及架构 Active CN104718533B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/059161 WO2014058409A1 (en) 2012-10-08 2012-10-08 Robust hardware fault management system, method and framework for enterprise devices

Publications (2)

Publication Number Publication Date
CN104718533A true CN104718533A (zh) 2015-06-17
CN104718533B CN104718533B (zh) 2017-07-21

Family

ID=50477724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280076291.1A Active CN104718533B (zh) 2012-10-08 2012-10-08 企业设备的硬件故障管理系统、方法及架构

Country Status (5)

Country Link
US (1) US9594619B2 (zh)
EP (1) EP2904493A4 (zh)
CN (1) CN104718533B (zh)
TW (1) TWI608344B (zh)
WO (1) WO2014058409A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109245910A (zh) * 2017-07-10 2019-01-18 中兴通讯股份有限公司 识别故障类型的方法及装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9378075B2 (en) * 2013-05-15 2016-06-28 Amazon Technologies, Inc. Reducing interference through controlled data access
US10356046B2 (en) * 2013-09-13 2019-07-16 Siemens Aktiengesellschaft Restricting communications in industrial control
WO2016081002A1 (en) * 2014-11-20 2016-05-26 Hewlett Packard Enterprise Development Lp Query a hardware component for an analysis rule
US10162698B2 (en) * 2016-03-25 2018-12-25 Dropbox, Inc. System and method for automated issue remediation for information technology infrastructure
US10331507B2 (en) * 2016-12-21 2019-06-25 Mastercard International Incorporated Systems and methods for real time computer fault evaluation
US10402204B1 (en) * 2017-04-25 2019-09-03 American Megatrends International, Llc Multi-platform firmware support
US10379996B2 (en) * 2017-07-05 2019-08-13 Juniper Networks, Inc. Software analytics platform
US10713224B2 (en) 2017-11-15 2020-07-14 Bank Of America Corporation Implementing a continuity plan generated using solution data modeling based on predicted future event simulation testing
US10749791B2 (en) 2017-11-15 2020-08-18 Bank Of America Corporation System for rerouting electronic data transmissions based on generated solution data models
US10496460B2 (en) 2017-11-15 2019-12-03 Bank Of America Corporation System for technology anomaly detection, triage and response using solution data modeling
US10452466B1 (en) * 2017-11-29 2019-10-22 Architecture Technology Corporation Automated system maintenance capabilities for a computing system
US10936984B2 (en) 2018-05-08 2021-03-02 Bank Of America Corporation System for mitigating exposure associated with identified impacts of technological system changes based on solution data modelling
US10970406B2 (en) 2018-05-08 2021-04-06 Bank Of America Corporation System for mitigating exposure associated with identified unmanaged devices in a network using solution data modelling
US10977283B2 (en) 2018-05-08 2021-04-13 Bank Of America Corporation System for mitigating intentional and unintentional exposure using solution data modelling
US11023835B2 (en) 2018-05-08 2021-06-01 Bank Of America Corporation System for decommissioning information technology assets using solution data modelling

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN85106154A (zh) * 1985-08-15 1987-03-04 西屋电气公司 具有动态变换能力基于规则的诊断系统
US6883120B1 (en) * 1999-12-03 2005-04-19 Network Appliance, Inc. Computer assisted automatic error detection and diagnosis of file servers
CN101640756A (zh) * 2008-07-30 2010-02-03 索尼株式会社 信息处理设备、信息处理系统,以及信息处理方法
US20100138728A1 (en) * 2008-12-03 2010-06-03 Electronics And Telecommunications Research Institute Apparatus for supporting dynamic change of event rule under sca and method thereof
US20100146342A1 (en) * 2008-12-05 2010-06-10 Sun Microsystems, Inc. Method and system for platform independent fault management

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4642782A (en) 1984-07-31 1987-02-10 Westinghouse Electric Corp. Rule based diagnostic system with dynamic alteration capability
US6006016A (en) 1994-11-10 1999-12-21 Bay Networks, Inc. Network fault correlation
DE19953877A1 (de) * 1999-11-09 2001-05-23 Siemens Ag Verfahren und Kommunikationssystem zum Verwalten eines Kommunikationsnetzes
AU2003247862A1 (en) * 2002-07-15 2004-02-02 Flarion Technologies, Inc. Methods and apparatus for improving resiliency of communication networks
US7231550B1 (en) * 2003-10-31 2007-06-12 Sun Microsystems, Inc. Event protocol and resource naming scheme
KR100621094B1 (ko) * 2003-12-05 2006-09-08 삼성전자주식회사 컴퓨터 관리 장치 및 방법
US20050283498A1 (en) 2004-06-22 2005-12-22 Taiwan Semiconductor Manufacturing Company, Ltd. System and method to build, retrieve and track information in a knowledge database for trouble shooting purposes
EP1894151A2 (en) * 2005-06-20 2008-03-05 Future Route Limited Analytical system for discovery and generation of rules to predict and detect anomalies in data and financial fraud
US7516128B2 (en) * 2006-11-14 2009-04-07 International Business Machines Corporation Method for cleansing sequence-based data at query time
US7757124B1 (en) * 2007-07-16 2010-07-13 Oracle America, Inc. Method and system for automatic correlation of asynchronous errors and stimuli
US8949671B2 (en) * 2008-01-30 2015-02-03 International Business Machines Corporation Fault detection, diagnosis, and prevention for complex computing systems
ATE489810T1 (de) * 2008-04-08 2010-12-15 Tieto Oyj Dynamische fehleranalyse für ein zentral verwaltetes netzwerkelement in einem telekommunikationssystem
US8464143B2 (en) * 2009-01-12 2013-06-11 Board Of Regents Of The Nevada System Of Higher Education Error detection method
US8462619B2 (en) 2009-12-10 2013-06-11 At&T Intellectual Property I, L.P. Systems and methods for providing fault detection and management
US8479286B2 (en) * 2009-12-15 2013-07-02 Mcafee, Inc. Systems and methods for behavioral sandboxing
US20120239981A1 (en) * 2011-03-15 2012-09-20 International Business Machines Corporation Method To Detect Firmware / Software Errors For Hardware Monitoring
US8892419B2 (en) * 2012-04-10 2014-11-18 Artificial Solutions Iberia SL System and methods for semiautomatic generation and tuning of natural language interaction applications
US9069737B1 (en) * 2013-07-15 2015-06-30 Amazon Technologies, Inc. Machine learning based instance remediation
US10360523B2 (en) * 2013-11-18 2019-07-23 Nuwafin Holdings Ltd System and method for executing business services and enhancing business performance through a business process modeling notation
US9317354B2 (en) * 2014-01-31 2016-04-19 International Business Machines Corporation Dynamically determining an external systems management application to report system errors

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN85106154A (zh) * 1985-08-15 1987-03-04 西屋电气公司 具有动态变换能力基于规则的诊断系统
US6883120B1 (en) * 1999-12-03 2005-04-19 Network Appliance, Inc. Computer assisted automatic error detection and diagnosis of file servers
CN101640756A (zh) * 2008-07-30 2010-02-03 索尼株式会社 信息处理设备、信息处理系统,以及信息处理方法
US20100138728A1 (en) * 2008-12-03 2010-06-03 Electronics And Telecommunications Research Institute Apparatus for supporting dynamic change of event rule under sca and method thereof
US20100146342A1 (en) * 2008-12-05 2010-06-10 Sun Microsystems, Inc. Method and system for platform independent fault management

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109245910A (zh) * 2017-07-10 2019-01-18 中兴通讯股份有限公司 识别故障类型的方法及装置

Also Published As

Publication number Publication date
TW201415214A (zh) 2014-04-16
EP2904493A1 (en) 2015-08-12
CN104718533B (zh) 2017-07-21
US20150293800A1 (en) 2015-10-15
WO2014058409A1 (en) 2014-04-17
TWI608344B (zh) 2017-12-11
EP2904493A4 (en) 2016-06-22
US9594619B2 (en) 2017-03-14

Similar Documents

Publication Publication Date Title
CN104718533A (zh) 企业设备的强健硬件故障管理系统、方法及架构
US11269718B1 (en) Root cause detection and corrective action diagnosis system
US8990368B2 (en) Discovery of network software relationships
US7506336B1 (en) System and methods for version compatibility checking
US9940208B2 (en) Generating reverse installation file for network restoration
US20170279840A1 (en) Automated event id field analysis on heterogeneous logs
US20100220584A1 (en) Systems and methods for automatically generating system restoration order for network recovery
EP3616066B1 (en) Human-readable, language-independent stack trace summary generation
US7624309B2 (en) Automated client recovery and service ticketing
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
US9753792B2 (en) Method and system for byzantine fault tolerant data replication
CN105262633B (zh) 一种应用级容灾方法及应用级容灾系统
US20160147622A1 (en) Enhanced error detection in data synchronization operations
JPWO2004061681A1 (ja) 運用管理方法および運用管理サーバ
US8554727B2 (en) Method and system of tiered quiescing
US20170034200A1 (en) Flaw Remediation Management
CN105872127B (zh) 一种ip地址管理系统
US8954802B2 (en) Method and system for providing immunity to computers
JP2011145823A (ja) 通信システム及びその障害検出方法
CN102567478A (zh) 文件系统中的在线故障验证
US10664335B2 (en) System and method for maintaining the health of a machine
CN114816820A (zh) chproxy集群故障修复方法、装置、设备及存储介质
CN115658078A (zh) 数据库的预编译处理方法、装置、设备及介质
CN111949479B (zh) 交互系统和索引创建情况的确定方法、设备
US9372746B2 (en) Methods for identifying silent failures in an application and devices thereof

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160919

Address after: American Texas

Applicant after: HEWLETT PACKARD ENTERPRISE DEVELOPMENT LP

Address before: American Texas

Applicant before: Hewlett-Packard Development Company, Limited Liability Partnership

GR01 Patent grant