CN107526647B - 一种故障处理方法、系统和计算机程序产品 - Google Patents

一种故障处理方法、系统和计算机程序产品 Download PDF

Info

Publication number
CN107526647B
CN107526647B CN201610451127.4A CN201610451127A CN107526647B CN 107526647 B CN107526647 B CN 107526647B CN 201610451127 A CN201610451127 A CN 201610451127A CN 107526647 B CN107526647 B CN 107526647B
Authority
CN
China
Prior art keywords
fault
devices
failure
handling
failure handling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610451127.4A
Other languages
English (en)
Other versions
CN107526647A (zh
Inventor
杨利锋
徐鑫磊
贾瑞勇
李雄成
董继炳
韩耕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN201610451127.4A priority Critical patent/CN107526647B/zh
Priority to US15/629,583 priority patent/US10467085B2/en
Publication of CN107526647A publication Critical patent/CN107526647A/zh
Application granted granted Critical
Publication of CN107526647B publication Critical patent/CN107526647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats

Abstract

本公开的各实施例总体上涉及一种故障处理方法、系统和计算机程序产品。具体地,该方法可以包括确定待检测的多个设备以及相应的设备属性。该方法还可以包括基于设备属性,针对多个设备执行第一故障检测,第一故障检测基于对于多个设备通用的第一故障诊断规则。此外,该方法还可以包括响应于多个设备中的第一设备在第一故障检测中被确定为发生故障,针对第一设备执行第一故障处理,第一故障处理基于对于多个设备通用的第一故障处理规则。

Description

一种故障处理方法、系统和计算机程序产品
技术领域
本公开的各实施例总体上涉及计算机领域,具体地涉及一种故障处理方法、系统和计算机程序产品。
背景技术
在由大量各种硬件、软件和固件组合形成的复杂系统中,其可靠性保障通常是基于硬件平台的稳定性。例如,针对复杂的存储系统,其可靠性保障可能涉及硬件平台的如下方面,诸如,故障容忍系统(例如,通过冗余)、系统诊断设计、字段故障监测和校正动作、预测和预防维护或者用于实现系统可靠性的其他机制。
然而,在目前的实际应用中,虽然硬件平台已经开发了用于保障复杂系统可靠性的各种方法,但是上述各种方法非常复杂并且独立于复杂系统中的各模块。例如,针对每个硬件故障,硬件平台具有其唯一的检测和处理方法。硬件平台的软件通常无法重用某些通用的解决方案,由此硬件平台的可扩展性和可服务性对于复杂系统而言较差。
发明内容
本公开的各实施例提供了一种故障处理方法、系统和计算机程序产品。
根据本公开的第一方面,提供了一种故障处理方法。该方法可以包括确定待检测的多个设备以及相应的设备属性。该方法还可以包括基于设备属性,针对多个设备执行第一故障检测,第一故障检测基于对于多个设备通用的第一故障诊断规则。此外,该方法还可以包括响应于多个设备中的第一设备在第一故障检测中被确定为发生故障,针对第一设备执行第一故障处理,第一故障处理基于对于多个设备通用的第一故障处理规则。
在一个示例性实施例中,该方法还可以包括响应于多个设备在第一故障检测中均被确定为正常,针对多个设备中的至少一个第二设备执行第二故障检测,第二故障检测基于特定于第二设备的第二故障诊断规则。
在另一示例性实施例中,该方法还可以包括响应于第一设备在第一故障处理之后仍然至少部分地故障,针对第一设备执行第二故障处理,第二故障处理基于特定于第一设备的第二故障处理规则。
在又一示例性实施例中,该方法还可以包括确定第一设备的故障的严重级别;以及向用户呈现严重级别。
根据本公开的第二方面,提供了一种故障处理系统。该系统可以包括:处理器和存储器。存储器被耦合到处理器并且存储有供处理器执行的指令。指令当由处理器执行时,可以使得系统:确定待检测的多个设备以及相应的设备属性;基于设备属性,针对多个设备执行第一故障检测,第一故障检测基于对于多个设备通用的第一故障诊断规则;以及响应于多个设备中的第一设备在第一故障检测中被确定为发生故障,针对第一设备执行第一故障处理,第一故障处理基于对于多个设备通用的第一故障处理规则。
在一个示例性实施例中,指令当由处理器执行时,还可以使得系统:响应于多个设备在第一故障检测中均被确定为正常,针对多个设备中的至少一个第二设备执行第二故障检测,第二故障检测基于特定于第二设备的第二故障诊断规则。
在另一示例性实施例中,指令当由处理器执行时,还可以使得系统:响应于第一设备在第一故障处理之后仍然至少部分地故障,针对第一设备执行应用第二故障处理,第二故障处理基于特定于第一设备的第二故障处理规则。
在又一示例性实施例中,指令当由处理器执行时,还可以使得系统:确定第一设备的故障的严重级别;以及向用户呈现严重级别。
根据本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使得机器执行根据本公开的第一方面所描述的方法的任意步骤。
提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了根据本公开的实施例的用于故障处理的故障管理系统100的框图;
图2示出了根据本公开的实施例的用于故障处理的示例方法200的流程图;
图3示出了根据本公开的实施例的用于故障处理的另一示例方法300的流程图;
图4示出了根据本公开的实施例的用于故障处理的示例400;
图5示出了根据本公开的实施例的用于故障处理的装置500的框图;以及
图6示出了可以用来实施本公开内容的实施例的示例设备600的示意性框图。
具体实施例
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如以上所描述的,由于硬件平台的可扩展性和可服务性对于复杂系统而言较差,因此增加了复杂系统的维护成本以及维护时间。
为了解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种故障处理方法、系统和计算机程序产品。具体地,通过提取不同种类故障的共同部分并且提供针对特定故障的设备插件,为复杂系统的硬件平台提供了一种统一、可扩展的故障管理框架,从而改进了复杂系统的可服务性和可靠性,并且实现了自动故障警告、故障隔离和恢复机制以节省维护成本并减少维护时间。
图1示出了根据本公开的实施例的用于故障处理的故障管理系统100的框图。应当理解,仅出于示例性的目的描述故障管理系统100的结构和功能而不是暗示对于本公开的范围的任何限制。本公开的实施例可以被体现在不同的结构和/或功能中。
如图1所示,故障管理系统100可以包括设备图105、故障诊断模块110、故障处理引擎115、故障处理模块120以及设备插件1251、1252…125N(统称为“设备插件”125),其中N为自然数。故障处理引擎115耦合至设备图105、故障诊断模块110、故障处理模块120以及设备插件125。而且,借助于设备插件125,故障处理引擎115可以访问相应的设备1301、1302…130N(统称为“设备”130)。
设备130可以是各种硬件模块或者设备,包括但不限于存储设备,例如软盘、硬盘、光盘等、中央处理单元(CPU)、网络接口卡(NIC)、主机总线适配器(HBA),等等。设备插件125是用于这些设备130的接口,例如应用编程接口(API)。硬件驱动器(未示出)可以调用该设备插件125并且将设备130注册到故障处理引擎115。故障处理模块120可以将经故障处理引擎115处理后的故障报告给管理员并且恢复故障或将故障隔离。另外,该故障管理系统100还可以支持用户定义的回调接口用于某些特定处理和报告方式。
特别地,根据本公开的实施例,故障处理引擎115可以访问设备图105。设备图105存储着设备130及其相应的属性。故障处理引擎115从设备图105接收待检测的多个设备130以及相应的设备属性。设备图105的示例实现和具体配置将在下文描述。
基于这些信息,故障处理引擎115可以控制故障诊断模块110优先按照通用的故障诊断规则来检测设备故障。如果检测到了故障,故障处理引擎115可以控制故障处理模块120优先以通用的故障处理规则来处理检测到的故障。只有在通用的诊断和/或处理规则不奏效时,故障处理引擎115才有可能应用特别针对各个设备130的诊断和/或处理规则。通过下文描述将会理解,以此方式,能够显著提升硬件故障检测和处理的通用性和可扩展性。
下面将参考图2至图6来进一步详细描述本公开的示例实施例。图2示出了根据本公开的实施例的用于故障处理的示例方法200的流程图。例如,方法200可以由如图1所示的故障管理系统100来执行。应当理解的是,方法200还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本公开的范围在此方面不受限制。
如图2所示,在步骤205中,确定待检测的多个设备130以及相应的设备属性。在一个实施例中,这可以借助于设备图105来实现。在某些实施例中,设备图105可以以类似于Linux设备树的形式被实现,其记录着故障管理系统100中的设备130及其属性。例如,在一个实施例中,设备图105可以是一个数据库,其中记录着与用户期望监测的设备130的“硬件部件图”。
设备图105可以通过各种适当的方式获得。例如,在一个实施例中,设备图105中的信息是由用户指定的。也即,用户可以通过例如用户接口(UI)输入或者定义故障管理系统100中连接了哪些设备130,以及这些设备的属性。备选地或附加地,在一些实施例中,确定待检测的多个设备130可以通过自动检测或发现机制来确定。例如,可以对设备130进行扫描,从而确定与系统连接的设备130以及相应的设备属性。为此,这一个实施例中,在设备130被注册之后,故障处理引擎115可以指示遍历由外围设备控制接口(PCI)设备图排序的现有系统设备结构,从而生成需要的设备图105。
在步骤210中,基于设备属性,针对多个设备130执行故障检测,称为“第一故障检测”。根据本公开的实施例,在步骤210执行的第一故障检测是通用故障检测。也即,第一故障检测基于对于设备图105中记录的多个设备130通用的故障诊断规则,称为“第一故障诊断规则”。例如,故障诊断模块110负责向硬件部件应用诊断规则。具体地,当硬件平台的故障管理系统100启动时,故障诊断模块110基于设备图105指示的设备130的设备属性。
在步骤215中,确定多个设备130中是否存在至少一个设备在第一故障检测中被确定为发生故障。如果没有检测到任何故障,在一些实施例中,方法200可以返回到步骤205(图中未示出),以便重复上述故障检测过程。备选地,此时方法200也可以停止执行。在又一些实施例中,如下文将会参考图3描述的,也可以在这种情况下应用特定于每个设备130的专用故障检测规则来执行进一步的故障检测。
另一方面,如果在步骤215确定检测到了至少一个故障设备(称为“第一设备”),则方法200进行到步骤220,在此针对该第一设备(即,检测到的故障设备)执行故障处理。在步骤220处执行的故障处理可称为“第一故障处理”,它是一种通用的故障处理。也即,第一故障处理是基于对于多个设备130通用的故障处理规则,称为“第一故障处理规则”。
在某些实施例中,在步骤220,可以确定第一设备的故障的类型,继而基于故障类型来执行所述第一故障处理。所述故障的类型包括但不限于可恢复故障和不可恢复故障。具体地,在硬件平台的故障管理系统100中,可能出现如下故障:CPU故障、PCI总线故障(CMI和PCI适配器接口)、存储器错误、SLIC硬件/固件故障、盘故障、电缆破损(内部/外部)、专用集成电路(ASIC)硬件故障、机柜故障、电源故障,等等。例如,响应于确定盘(硬盘、软盘、光盘)的故障类型是不可恢复故障(诸如,磁盘的物理损伤),通过替换该盘可以修改例如独立磁盘冗余阵列(RAID)之类的故障。又例如,响应于确定服务处理器的故障类型是可恢复故障(诸如,电平的高低错误),通过重新配置可以避免此类错误。
通过上文描述可以理解,根据本公开的实施例,故障处理引擎115首先应用的是通用的故障检测(第一故障检测)和通用的故障处理(第一故障处理)。然而,由于复杂系统包括大量各种硬件、软件和固件,因此可能会出现这样的情况,即,通用的第一故障检测没有检测到设备130中实际上已经发生的故障,或者通用的第一故障处理没有完全解决故障设备(第一设备)的故障。为了应对这种情况,在某些实施例中,在通用规则失效的情况下,故障处理引擎115可以应用针对特定设备130的专用规则。接下来,参考图3来进一步描述这种情况。
图3示出了根据本公开的实施例的用于故障处理的另一示例方法300的流程图。如图3所示,步骤305至步骤320与图2中所示的步骤205至步骤220分别对应,在此不再累述。如果在步骤315确定所有的待检测设备130在第一故障检测中均被确定为正常,则方法300可以进行到步骤325。在步骤325,针对多个设备130中的至少一个待检测设备执行故障检测。例如,在一个实施例中,可以对每个待检测设备130执行故障检测。备选地,在一些实施例中,在步骤325也可以仅对一部分设备130(例如,重要设备,和/或故障风险较高的设备)执行故障检测。
在步骤325处执行的故障检测称为“第二故障检测”,它是基于特定于待检测设备的故障诊断规则,称为“第二故障诊断规则”。特定的故障诊断规则是具体针对各个不同设备的类型、特点、性能而生成的,因此与通用规则相比更具有针对性。而且,在某些实施例中,例如随着待检测设备130的更新、升级等操作,故障处理引擎115可以对第二故障诊断规则进行扩展,从而更好地适应设备130的变化。在一个实施例中,特定于待检测设备130的第二故障检测可以借助于相应的设备插件125来实现。也即,针对设备130的第二故障诊断规则可以由相应的设备插件125来保存或维护。例如,在实际应用中,每个不同的设备130可能需要不同的故障诊断规则。例如,响应于发生风扇故障,风扇的速度可能是反常的。但是对于硬盘故障,需要考虑大量诊断规则,诸如媒体访问故障、自动监视分析与报告技术(S.M.A.R.T)注册值。因此,设备插件125被设计用于在故障处理引擎115中注册其故障诊断规则和处理规则。在另一情况中,故障诊断规则和处理规则还可以由设备130/设备插件125本身管理。
如果在步骤327确定通过第二故障检测而检测到了故障,在一个实施例中,方法300可以进行到步骤320。另一方面,如果通过步骤325的第二故障检测仍然没有发现任何故障,则可以确定设备130的状态均为良好,方法300可以从步骤327返回步骤305(图中未示出),以执行下一轮检测。备选地,方法300也可以相应地结束本轮执行。
在步骤320,如上所述,向故障设备应用基于通用故障处理规则的第一故障处理。而后,方法300进行到步骤330,在此确定是否已经成功解决了所有检测到的故障。如果是这样,方法300可以返回步骤305以继续执行故障检测和处理。另一方面,如果在步骤330确定在第一故障处理之后仍然至少部分地故障,方法300可以进行到步骤335。
在步骤335,针对故障设备执行针对性的故障处理,称为“第二故障处理”。第二故障处理基于特定于故障设备的第二故障处理规则。在一个实施例中,与第二故障诊断规则类似,第二故障处理规则也可由设备130的相应设备插件125维护,而且也可以是可扩展的。
应当理解,上面描述的流程并非是必须的,而是可以根据具体的应用场景和需求而改变。例如,在一些实施例中,如果在步骤327确定在第二故障检测中发现了故障设备,方法300也可以直接进行到步骤335(如图3中虚线所示),以便应用特定于故障设备的第二故障处理过程。
在某些实施例中,在第一故障处理和/或第二故障处理中,故障处理引擎115还可以确定检测到的故障的严重级别,并且向用户呈现所述严重级别。例如,故障的严重级别可以包括:致命故障、关键故障、通用故障和警告。具体地,致命故障是指可以使得硬件平台的故障管理系统100崩溃、用户数据丢失或者存储设备停止服务的故障。响应于检测到这样的故障,故障处理引擎115可以立即恢复此故障或将其隔离并且报告给管理员。
关键故障是指可能使得关键功能失效(诸如存储系统退化)的故障,硬件平台的故障管理系统100必须尝试恢复该故障并且报告给管理员。通用故障是指不会引起严重的问题的故障。对于通用故障,故障处理引擎115可以处理该故障并且为管理员记录该故障的信息。警告的出现不会引起问题,甚至不需要进行处理,而只需要记录该故障的信息用于日志。
上文已经参考图2和图3详细描述了本公开实施例的故障检测和处理流程。下面参考图4描述一个根据本公开实施例的用于故障处理的示例400。将会理解,结合图4所描述的过程可以被视作是上文描述的方法200和300的一种具体实现。结合图4的描述仅仅是为了使本领域技术人员更好地理解本公开实施例的精神和原理,而无意以任何方式限制本公开的范围。
在图4所示的实施例中,在硬件平台的故障管理系统100启动阶段,可以通过设备注册/初始化模块405对设备130进行扫描,从而确定与故障管理系统100连接的设备130以及相应的设备属性,其中设备属性可以包括设备130的设备故障。例如,新的设备故障可以包括:主板部件故障(包括CPU、DIMM、主桥、ASIC、嵌入式NIC等)、机柜故障(包括风扇、温度、电压)、盘、电源、连接线(包括光纤接线、网络接线、SAS接线和两个单个处理器(SP)之间的CMI接口)和驱动器/固件/软件故障。
在注册设备故障407之后,故障处理引擎115可以指示遍历由外围设备控制接口(PCI)设备图排序的现有系统设备结构,其中该设备结构可以包括新的设备ID或者设备树(以树结构表示的设备属性信息),从而在409生成需要的设备图105。备选地,故障处理引擎115可以将新生成的设备图150存储至设备图注册表410,其中该设备图注册表410可以包括一个或多个设备图150,用于供故障处理引擎115访问以满足各种用途。
基于设备图150,故障处理引擎115可以通过API(例如,GUI/CLI420)控制故障诊断模块110在424开始/停止设备故障检测,并更新设备图150的配置信息。如果在412故障诊断模块110检测到了故障,故障处理引擎115可以控制故障处理模块120优先以通用的故障处理规则来处理检测到的故障。只有在通用的诊断和/或处理规则不奏效时,故障处理引擎115才有可能通过设备插件125在417注册/加载规则以分别向故障诊断模块110和故障处理模块120加载特别针对各个设备130的诊断规则和处理规则。通过上文描述可以理解,以此方式,能够显著提升设备故障检测和处理的通用性和可扩展性。
在419故障处理模块120执行故障处理之后,可以生成故障报告。根据故障报告中指示的故障类型,故障处理引擎115可以通过API(例如,GUI/CLI 420)供管理员在422查看报告。
另外,默认设备插件125可以由硬件平台的故障管理系统100提供给某些常见硬件,诸如CPU、DIMM和机柜传感器,其被预先定义了针对通用硬件的某些诊断规则和处理规则。针对特定硬件或具有复杂规则的硬件,设备插件125需要按照需求进行定义。硬件平台的故障管理系统100还为故障处理引擎115提供了GUI/CLI接口用于进行管理,例如包括:故障摘要报告、诊断规则和处理规则的配置和设备监视器管理。在某些实施例中,设备图105中可以包含任何适当形式的文件和/或代码,用于描述设备图105中指示的各设备130及其设备属性。例如,这些文件和/或代码可以描述在故障出现时需要由故障管理系统100检测并处理的系统硬件,并且可由故障管理系统100来管理。
图5示出了根据本公开的实施例的用于故障处理的装置500的框图。例如,故障处理方法200可以由装置500实现。如图5所示,装置500可以包括确定模块505,被配置为确定待检测的多个设备以及相应的设备属性。装置500还可以包括第一检测模块510,被配置为基于设备属性,针对多个设备执行第一故障检测,该第一故障检测基于对于多个设备通用的第一故障诊断规则。此外,装置500还可以包括第一处理模块515,被配置为响应于多个设备中的第一设备在第一故障检测中被确定为发生故障,针对第一设备执行第一故障处理,该第一故障处理基于对于多个设备通用的第一故障处理规则。
在一个实施例中,确定模块505可以包括设备图生成模块,其被配置为生成指示多个设备以及设备属性的设备图。在一个实施例中,确定模块505可以包括以下一项:输入接收模块,被配置为接收指定多个设备的用户输入;以及设备扫描模块,被配置为通过扫描与主机相连的设备来确定多个设备。
在一个实施例中,装置500还可以包括第二故障检测模块,其被配置为响应于多个设备在第一故障检测中均被确定为正常,针对多个设备中的至少一个第二设备执行第二故障检测,该第二故障检测基于特定于该第二设备的第二故障诊断规则。
在一个实施例中,装置500还可以包括第一扩展模块,其被配置为扩展特定于该第二设备的第二故障诊断规则。
在一个实施例中,装置500还可以包括第二处理模块,其被配置为响应于第一设备在第一故障处理之后仍然至少部分地故障,针对该第一设备执行第二故障处理,该第二故障处理基于特定于该第一设备的第二故障处理规则。
在一个实施例中,装置500还可以包括第二扩展模块,其被配置为扩展特定于该第一设备的第二故障处理规则。
在一个实施例中,其中执行第一故障处理可以包括确定所述第一设备的所述故障的类型;以及基于所述故障的类型来执行第一故障处理。在一个实施例中,其中所述故障的所述类型可以包括可恢复故障或者不可恢复故障。
在一个实施例中,装置500还可以包括:严重级别确定模块,其被配置为确定所述第一设备的所述故障的严重级别;以及严重级别呈现模块,其被配置为向用户呈现所述严重级别。
出于清楚的目的,在图5中没有示出装置500的某些可选模块。然而,应当理解,上文参考图1至图4所描述的各个特征同样适用于装置500。而且,装置500的各个模块可以是硬件模块,也可以是软件模块。例如,在某些实施例中,装置500可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,装置500可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本公开的范围在此方面不受限制。
图6示出了可以用来实施本公开内容的实施例的示例设备600的示意性框图。如图所示,设备600包括中央处理单元(CPU)605,其可以根据存储在只读存储器(ROM)610中的计算机程序指令或者从存储单元640加载到随机访问存储器(RAM)615中的计算机程序指令,来执行各种适当的动作和处理。在RAM 615中,还可存储设备600操作所需的各种程序和数据。CPU 605、ROM 610以及RAM 615通过总线620彼此相连。输入/输出(I/O)接口625也连接至总线620。
设备600中的多个部件连接至I/O接口625,包括:输入单元630,例如键盘、鼠标等;输出单元635,例如各种类型的显示器、扬声器等;存储单元640,例如磁盘、光盘等;以及通信单元645,例如网卡、调制解调器、无线通信收发机等。通信单元645允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如示例方法200、300和400,可由中央处理单元605执行。例如,在一些实施例中,示例方法200、300和400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元640。在一些实施例中,计算机程序的部分或者全部可以经由ROM 610和/或通信单元645而被载入和/或安装到设备600上。当计算机程序被加载到RAM 615并由CPU 605执行时,可以执行上文描述的示例方法/过程200、300和400中的一个或多个步骤。备选地,在其他实施例中,中央处理单元605也可以以其他任何适当的方式(例如,固件)被配置以实现上述过程/方法。
通过以上描述可以看出,本公开的实施例通过将数据备份注册为服务,满足了云计算环境中对于数据备份的快速部署和灵活扩展的要求。本公开的实施例通过经由被封装为可执行容器的备份服务代理来将应用的数据从源节点备份到目标节点,实现了应用和目标节点之间的松耦合。本公开的实施例通过提供针对备份服务的灵活配置,实现备份服务代理与应用实例的动态映射,从而使得备份服务能够适应于应用的各种动态变化(例如,应用的实例增加、减少或者跨节点移动等)并且能够容易地被扩展以支持大量的应用实例。此外,根据本公开的实施例的数据备份方案还能够兼顾传统的性能和功能要求,诸如备份窗口要求(例如,RTO/RPO)和媒体控制操作要求(例如,支持去重、压缩或加密等功能)等。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言-诸如Smalltalk、C++等,以及常规的过程式编程语言-诸如"C"语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (17)

1.一种故障处理方法,包括:
确定待检测的多个设备以及相应的设备属性;
基于所述设备属性,针对所述多个设备执行第一故障检测,所述第一故障检测基于对于所述多个设备通用的第一故障诊断规则;
响应于所述多个设备中的第一设备在所述第一故障检测中被确定为发生故障,针对所述第一设备执行第一故障处理,所述第一故障处理基于对于所述多个设备通用的第一故障处理规则;
响应于所述多个设备在所述第一故障检测中均被确定为正常,针对所述多个设备中的至少一个第二设备执行第二故障检测,所述第二故障检测基于特定于所述第二设备的第二故障诊断规则;以及
响应于所述第一设备在所述第一故障处理之后仍然至少部分地故障,针对所述第一设备执行第二故障处理,所述第二故障处理基于特定于所述第一设备的第二故障处理规则。
2.根据权利要求1所述的方法,其中确定待检测的多个设备以及相应的设备属性包括:
生成指示所述多个设备以及所述设备属性的设备图。
3.根据权利要求1所述的方法,其中确定待检测的多个设备以及相应的设备属性包括以下至少一项:
接收指定所述多个设备的用户输入;以及
通过扫描与主机相连的设备来确定所述多个设备。
4.根据权利要求1所述的方法,还包括:
扩展特定于所述第二设备的所述第二故障诊断规则。
5.根据权利要求1所述的方法,还包括:
扩展特定于所述第一设备的所述第二故障处理规则。
6.根据权利要求1所述的方法,其中执行第一故障处理包括:
确定所述第一设备的所述故障的类型;以及
基于所述故障的所述类型来执行所述第一故障处理。
7.根据权利要求6所述的方法,其中所述故障的所述类型包括可恢复故障或者不可恢复故障。
8.根据权利要求1所述的方法,还包括:
确定所述第一设备的所述故障的严重级别;以及
向用户呈现所述严重级别。
9.一种故障处理系统,包括:
处理器;
存储器,所述存储器被耦合到所述处理器并且存储有供所述处理器执行的指令,所述指令当由所述处理器执行时,使得所述系统:
确定待检测的多个设备以及相应的设备属性;
基于所述设备属性,针对所述多个设备执行第一故障检测,所述第一故障检测基于对于所述多个设备通用的第一故障诊断规则;
响应于所述多个设备中的第一设备在所述第一故障检测中被确定为发生故障,针对所述第一设备执行第一故障处理,所述第一故障处理基于对于所述多个设备通用的第一故障处理规则;
响应于所述多个设备在所述第一故障检测中均被确定为正常,针对所述多个设备中的至少一个第二设备执行第二故障检测,所述第二故障检测基于特定于所述第二设备的第二故障诊断规则;以及
响应于所述第一设备在所述第一故障处理之后仍然至少部分地故障,针对所述第一设备执行应用第二故障处理,所述第二故障处理基于特定于所述第一设备的第二故障处理规则。
10.根据权利要求9所述的系统,其中确定待检测的多个设备以及相应的设备属性包括:
生成指示所述多个设备以及所述设备属性的设备图。
11.根据权利要求9所述的系统,其中确定待检测的多个设备以及相应的设备属性包括以下至少一项:
接收指定所述多个设备的用户输入;以及
通过扫描与主机相连的设备来确定所述多个设备。
12.根据权利要求9所述的系统,所述指令当由所述处理器执行时,还使得所述系统:
扩展特定于所述第二设备的所述第二故障诊断规则。
13.根据权利要求9所述的系统,所述指令当由所述处理器执行时,还使得所述系统:
扩展特定于所述第一设备的所述第二故障处理规则。
14.根据权利要求9所述的系统,其中执行第一故障处理包括:
确定所述第一设备的所述故障的类型;以及
基于所述故障的所述类型来执行所述第一故障处理。
15.根据权利要求14所述的系统,其中所述故障的所述类型包括可恢复故障或者不可恢复故障。
16.根据权利要求9所述的系统,所述指令当由所述处理器执行时,还使得所述系统:
确定所述第一设备的所述故障的严重级别;以及
向用户呈现所述严重级别。
17.一种非瞬态计算机可读介质,包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1至8任一项所述的方法的步骤。
CN201610451127.4A 2016-06-21 2016-06-21 一种故障处理方法、系统和计算机程序产品 Active CN107526647B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610451127.4A CN107526647B (zh) 2016-06-21 2016-06-21 一种故障处理方法、系统和计算机程序产品
US15/629,583 US10467085B2 (en) 2016-06-21 2017-06-21 Fault processing method, system, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610451127.4A CN107526647B (zh) 2016-06-21 2016-06-21 一种故障处理方法、系统和计算机程序产品

Publications (2)

Publication Number Publication Date
CN107526647A CN107526647A (zh) 2017-12-29
CN107526647B true CN107526647B (zh) 2021-06-22

Family

ID=60659557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610451127.4A Active CN107526647B (zh) 2016-06-21 2016-06-21 一种故障处理方法、系统和计算机程序产品

Country Status (2)

Country Link
US (1) US10467085B2 (zh)
CN (1) CN107526647B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11387778B2 (en) * 2018-10-17 2022-07-12 Solaredge Technologies Ltd. Photovoltaic system failure and alerting
CN109739694A (zh) * 2019-01-03 2019-05-10 中国兵器装备集团自动化研究所 一种双机仲裁切换系统及方法
US11126492B1 (en) 2019-11-05 2021-09-21 Express Scripts Stategic Development, Inc. Systems and methods for anomaly analysis and outage avoidance in enterprise computing systems
CN111158943B (zh) * 2019-12-20 2024-03-22 航天信息股份有限公司 故障诊断方法及装置,存储介质,电子设备
CN111176170B (zh) * 2019-12-31 2021-07-09 北京北方华创微电子装备有限公司 半导体设备控制系统的启动方法及装置
CN111367769B (zh) * 2020-03-30 2023-07-21 浙江大华技术股份有限公司 应用故障处理方法及电子设备
CN111913095B (zh) * 2020-08-06 2022-12-23 易佰特新能源科技有限公司 一种锂电池自动化成设备主板故障检测和维修的方法
CN113609189B (zh) * 2021-08-04 2023-09-22 北京多达通能源科技有限公司 一种充电桩的故障监控方法以及相关设备
CN113852500B (zh) * 2021-09-18 2024-02-27 国科量子通信网络有限公司 量子设备业务故障诊断装置及其方法
CN116467110B (zh) * 2023-04-21 2024-02-23 深圳市联合同创科技股份有限公司 一种平板电脑的损坏检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100218030A1 (en) * 2009-02-20 2010-08-26 International Business Machines Corporation Interactive problem resolution presented within the context of major observable application behaviors
CN102880990A (zh) * 2011-06-14 2013-01-16 通用电气公司 故障处理系统
CN104331354A (zh) * 2014-11-20 2015-02-04 普华基础软件股份有限公司 一种云计算的实时综合监控方法
CN104618161A (zh) * 2015-02-02 2015-05-13 浪潮软件股份有限公司 一种应用集群监控装置及方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040221198A1 (en) * 2003-04-17 2004-11-04 Vecoven Frederic Louis Ghislain Gabriel Automatic error diagnosis
US7710897B2 (en) * 2004-08-26 2010-05-04 Fujitsu Limited Automatic discovery of logical network elements from existing links in a network
US20090210283A1 (en) * 2007-09-28 2009-08-20 Fujitsu Limited Support management method, support management system and information processing device
CN106055930A (zh) * 2010-11-05 2016-10-26 交互数字专利控股公司 设备检验和遇险指示
US8260974B1 (en) 2010-12-27 2012-09-04 Emc Corporation Techniques for accelerating the processing of enclosures in SAS disk storage arrays
US9110898B1 (en) 2012-12-20 2015-08-18 Emc Corporation Method and apparatus for automatically detecting replication performance degradation
US9959162B2 (en) * 2013-07-31 2018-05-01 Hewlett Packard Enterprise Development Lp Automated remote network target computing device issue resolution
US20150227404A1 (en) * 2014-02-11 2015-08-13 Wipro Limited Systems and methods for smart service management in a media network
US9641615B1 (en) 2014-03-31 2017-05-02 EMC IP Holding Company LLC Allocating RAID storage volumes across a distributed network of storage elements
US20160103722A1 (en) * 2014-10-10 2016-04-14 Qualcomm Incorporated Hardware lockup detection mechanism for user devices
US9652316B2 (en) * 2015-03-31 2017-05-16 Ca, Inc. Preventing and servicing system errors with event pattern correlation
US10042697B2 (en) * 2015-05-28 2018-08-07 Oracle International Corporation Automatic anomaly detection and resolution system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100218030A1 (en) * 2009-02-20 2010-08-26 International Business Machines Corporation Interactive problem resolution presented within the context of major observable application behaviors
CN102880990A (zh) * 2011-06-14 2013-01-16 通用电气公司 故障处理系统
CN104331354A (zh) * 2014-11-20 2015-02-04 普华基础软件股份有限公司 一种云计算的实时综合监控方法
CN104618161A (zh) * 2015-02-02 2015-05-13 浪潮软件股份有限公司 一种应用集群监控装置及方法

Also Published As

Publication number Publication date
US10467085B2 (en) 2019-11-05
US20170364404A1 (en) 2017-12-21
CN107526647A (zh) 2017-12-29

Similar Documents

Publication Publication Date Title
CN107526647B (zh) 一种故障处理方法、系统和计算机程序产品
US9396200B2 (en) Auto-snapshot manager analysis tool
JP5643321B2 (ja) 仮想コンピューティング環境における障害管理のための方法、システム、およびコンピュータ・プログラム
TWI546659B (zh) 基於資源存取模式預測、診斷應用程式故障並從應用程式故障恢復
US20120174112A1 (en) Application resource switchover systems and methods
US8874954B1 (en) Compatibility of high availability clusters supporting application failover with shared storage in a virtualization environment without sacrificing on virtualization features
US8266474B2 (en) Fast cluster failure detection
US8578214B2 (en) Error handling in a virtualized operating system
JP2020091835A (ja) 情報を処理するための方法及び装置
JP5531625B2 (ja) 通信システム及びその障害検出方法
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
CH716436A2 (it) Sistema e metodo di controllo di parti di archivo alla ricerca di malware.
US8990608B1 (en) Failover of applications between isolated user space instances on a single instance of an operating system
US9329953B2 (en) Reducing application downtime during failover
CN110609699A (zh) 维护存储系统的组件的方法、电子设备和计算机程序产品
US20130117231A1 (en) Application protection through a combined functionality failure manager
US10990481B2 (en) Using alternate recovery actions for initial recovery actions in a computing system
US9367384B2 (en) Admission control based on the end-to-end availability
US10977113B2 (en) System and method for fault identification, logging, and remediation
US20200127882A1 (en) Identification of cause of failure of computing elements in a computing environment
US9792168B2 (en) System and method for cloud remediation of a client with a non-bootable storage medium
JP2012022614A (ja) 計算機システムの管理方法、及び管理システム
US7673082B2 (en) Method and system to determine device criticality for hot-plugging in computer configurations
TWI556097B (zh) 藉由存取一網路位置接收更新模組之技術
US20150331772A1 (en) Methods for updating diagnostic tools on a hardware device and devices thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200414

Address after: Massachusetts, USA

Applicant after: EMC IP Holding Company LLC

Address before: Ma Sazhusaizhou

Applicant before: EMC Corp.

GR01 Patent grant
GR01 Patent grant