CN105468484A - 用于在存储系统中确定故障位置的方法和装置 - Google Patents

用于在存储系统中确定故障位置的方法和装置 Download PDF

Info

Publication number
CN105468484A
CN105468484A CN201410527596.0A CN201410527596A CN105468484A CN 105468484 A CN105468484 A CN 105468484A CN 201410527596 A CN201410527596 A CN 201410527596A CN 105468484 A CN105468484 A CN 105468484A
Authority
CN
China
Prior art keywords
disk
information
health
health status
performance index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410527596.0A
Other languages
English (en)
Other versions
CN105468484B (zh
Inventor
吕满
刘子锐
邹勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Priority to CN201410527596.0A priority Critical patent/CN105468484B/zh
Priority to US14/867,153 priority patent/US10346238B2/en
Publication of CN105468484A publication Critical patent/CN105468484A/zh
Application granted granted Critical
Publication of CN105468484B publication Critical patent/CN105468484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明的实施方式提供一种用于在存储系统中确定故障位置的方法和装置,该方法包括:获取磁盘的性能信息;响应于所述性能信息指示一个或多个性能指标超过相应的预定阈值,执行如下操作:至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常;以及响应于确定所述磁盘的健康状况为正常,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。通过该方法,可以在出现对磁盘的异常访问时,清楚地诊断出是磁盘本身的故障还是其连通路径上的故障,也可以在磁盘可能发生故障之前预测到该故障从而防止数据的丢失。

Description

用于在存储系统中确定故障位置的方法和装置
技术领域
本发明的实施方式涉及存储系统领域,更具体地,涉及一种用于在存储系统中确定故障位置的方法和装置。
背景技术
随着计算机技术的发展,对存储系统中硬盘故障的处理成为当前研究的一个热点。故障处理中的常见的问题可以是如何判定硬盘故障,如何预测硬盘故障从而防止数据丢失等等。现有技术中往往依赖于RAID之类的系统,它们在对磁盘的读写发生错误的情况下会通知系统磁盘出错。然而,由于存储系统除了磁盘之外,通常包括多个连接磁盘的结构或元件,如果并非磁盘本身的故障而是连接结构中的某一元件存在故障也可能会引起磁盘的读写错误,RAID往往不能甄别这种情况,并且同样会向系统报告磁盘发生故障。如果因为连接元件的故障而误判为磁盘故障,并因此更换掉磁盘,显然会造成不必要的浪费。另一方面,现有技术中也没有提供能够提前预测磁盘故障、从而在磁盘发生故障前提前采取措施以避免数据丢失的解决方案。
发明内容
为了解决现有技术中存在的上述问题,本说明书提出如下方案。
根据本发明的第一方面,提供一种用于在存储系统中确定故障位置的方法,包括:获取磁盘的性能信息;以及响应于所述性能信息指示一个或多个性能指标超过相应的预定阈值,执行如下操作:至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常;以及响应于确定所述磁盘的健康状况为正常,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。
在本发明的可选实施方式中,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置进一步包括:依次获取所述连通路径上的元件的健康状况信息;以及响应于所述连通路径上一个元件的所述健康状况信息出现异常,确定所述一个元件发生故障。
在本发明的可选实施方式中,所述至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常进一步包括:当所述一个或多个性能指标与所述磁盘的健康状况不相关,并且所述磁盘的健康状况信息无异常时,将所述磁盘的健康状况确定为正常。在本发明的进一步可选实施方式中,当所述一个或多个性能指标与所述磁盘的健康状况相关,和/或所述磁盘的健康状况信息存在异常时,将所述磁盘的健康状况确定为异常,并且确定所述磁盘存在故障。
在本发明的可选实施方式中,所述方法被定期执行、手动触发、响应于检测到所述磁盘的I/O性能异常而触发、或者响应于接收到报告所述磁盘I/O错误的信息而触发。在本发明的进一步可选实施方式中,所述磁盘I/O错误的信息由磁盘阵列RAID报告。
在本发明的可选实施方式中,所述性能指标包括以下中的一个或多个:I/O错误计数、平均I/O延迟、数据错误、重映射扇区计数、SASG-列表计数以及SAS背景介质扫描信息。
在本发明的可选实施方式中,所述健康状况信息包括历史健康状况信息和/或当前健康状况信息。
在本发明的可选实施方式中,所述健康状况信息通过硬盘的自动监视分析和报告技术S.M.A.R.T.报告获得。
根据本发明的第二方面,提供一种用于在存储系统中确定故障位置的装置,包括:获取单元,被配置为获取磁盘的性能信息;故障诊断单元,被配置为响应于所述性能信息指示一个或多个性能指标超过相应的预定阈值,执行如下操作:至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常;以及响应于确定所述磁盘的健康状况为正常,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。
在本发明的可选实施方式中,所述故障诊断单元进一步被配置为:依次获取所述连通路径上的元件的健康状况信息;以及响应于所述连通路径上一个元件的所述健康状况信息出现异常,确定所述一个元件发生故障。
在本发明的可选实施方式中,所述故障诊断单元进一步被配置为:当所述一个或多个性能指标与所述磁盘的健康状况不相关,并且所述磁盘的健康状况信息无异常时,将所述磁盘的健康状况确定为正常。在本发明的进一步可选实施方式中,所述故障诊断单元进一步被配置为:当所述一个或多个性能指标与所述磁盘的健康状况相关,和/或所述磁盘的健康状况信息存在异常时,将所述磁盘的健康状况确定为异常,并且确定所述磁盘存在故障。
在本发明的可选实施方式中,所述装置被定期触发、手动触发、响应于检测到所述磁盘的I/O性能异常而触发、或者响应于接收到报告所述磁盘I/O错误的信息而触发。在本发明的进一步可选实施方式中,所述磁盘I/O错误的信息由磁盘阵列RAID报告。
在本发明的可选实施方式中,所述性能指标包括以下中的一个或多个:I/O错误计数、平均I/O延迟、数据错误、重映射扇区计数、SASG-列表计数以及SAS背景介质扫描信息。
在本发明的可选实施方式中,所述健康状况信息包括历史健康状况信息和/或当前健康状况信息。
在本发明的可选实施方式中,所述健康状况信息通过硬盘的自动监视分析和报告技术S.M.A.R.T.报告获得
根据本发明的实施方式,可以在出现对磁盘的异常访问时,清楚地得知是磁盘本身的故障还是其连通路径上的故障,也可以在磁盘可能发生故障之前预测到该故障从而防止数据的丢失。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明的实施方式的存储系统后端连接结构的示意图。
图2示出了根据本发明的实施方式的用于在存储系统中确定故障位置的方法200。
图3示出了适于用来实现本发明的实施方式的存储系统后端连接结构的示意性分层拓扑图。
图4示出了根据本发明示例性实施方式的用于在存储系统中预测并确定故障位置的装置400的示意性框图。
图5示出了根据本发明实施方式的用于在存储系统中预测并确定故障位置的装置的状态流程图;
图6示出了适于用来实现本发明实施方式的示例性计算系统600的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了适于用来实现本发明的实施方式的存储系统后端连接结构的示意图。本领域技术人员应当理解,图1显示的连接结构仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,典型的存储系统连接可以包括依次连接的PCIE总线、主机接入卡HBA、扩展器(expander)以及磁盘。其中HBA可以包括与扩展器相连的多个端口,而扩展器又包括与多个磁盘相连的多个端口。容易理解,如图1所示的各个节点中的任何节点(如磁盘本身、端口、扩展端口、扩展器、主机端口、HBA端口以及PCIE等)发生故障,都可能引起对磁盘I/O操作的故障。换而言之,当接收到来自诸如RAID之类的磁盘管理系统报告磁盘的I/O操作发生故障时,难以确定的确是磁盘发生故障还是其连接结构中的一个或多个环节发生故障。如前所述,图1仅为具体示例,在实践存储环境中,磁盘可能经由各种部件连接到系统,包括但不限于:其切换卡(paddlecard)、线缆、扩展器、HBA、PCIE等,以及在OS中的各种软件堆栈来帮助访问磁盘(HBA驱动器、SCSI驱动器、块层等),连通链上的任何元件发生故障都可能引起磁盘无法访问。
为了解决这一问题,根据本发明的实施方式提供了一种用于确定存储系统中是否发生故障、以及在发生故障或可能发生故障时,确定故障位置的新方案。需要注意的是,本文中所使用的术语“磁盘”可以包括固态磁盘(SSD盘)、机械磁盘(HDD盘)、混合磁盘(SSHD盘)、或者其他类似的存储设备。本发明的范围在此方面不受限制。磁盘可以是计算机、服务器或者其他计算设备的存储系统的一部分。
图2示出了根据本发明的实施方式的用于在存储系统中确定故障位置的方法200。根据方法200,在步骤S201中,获取磁盘的性能信息。磁盘的性能信息涉及吞吐量、延迟等多方面的信息。这些性能信息可以被保存于寄存器中,并由例如监视器之类的部件周期性地采集。
接下来,方法200前进到步骤S202,响应于所述性能信息指示一个或多个性能超过相应的预定阈值,执行步骤S203——至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常,以及步骤S204——响应于确定所述磁盘的健康状况为正常,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。
在优选的实施方式中,性能信息中的典型性能指标可以包括:I/O错误计数(I/O正确性数据)、平均I/O延迟、(例如由RAID和文件系统所检测到的)数据错误、重映射扇区计数(例如SATA重映射扇区计数)、SASG-列表(硬盘坏道表)计数以及SAS背景介质扫描BMS信息(包括但不限于由BMS检测到的介质错误计数、BMS日志计数等),但不局限于此。可以分别为这些性能指标提前设定相应的阈值。在实践中,如果所设定的阈值接近于磁盘性能的极限值,则性能指标超过该阈值通常表明磁盘或相关的连接结构已经发生故障;相反,如果较为宽松地设定阈值,则性能指标超过阈值可以用来预测将来可能出现的磁盘故障。总之,当性能指标中的一个或多个超出其阈值时,可以启动对故障位置的判定过程——步骤S203和步骤S204。
如步骤S203所示,首先至少基于所述一个或多个性能指标来确定所述磁盘的健康状况是否正常。在一个具体实施例中,磁盘的健康状况正常例如包括两重含义:(1)超过阈值的该一个或多个性能指标与磁盘的健康状况不相关;且(2)磁盘本身的健康状况信息无异常。举例而言,在上述列举的性能指标中,重映射扇区计数、SASG-列表计数以及SAS背景介质扫描BMS信息可以认为与磁盘介质强相关,换而言之,即可以认为其与磁盘本身的健康状况相关。诸如这三种指标超过阈值,很可能认为磁盘的健康状况存在异常。备选地,也可以获取磁盘的健康状况信息,结合该健康状况信息是否异常来共同决定磁盘的健康状况是否正常。磁盘的健康状况信息可以通过例如被称为S.M.A.R.T的硬盘的自动分析和报告技术来获得,并且该健康状况信息可以包括磁盘的历史健康状况信息和/或当前健康状况信息。需要注意的是,S.M.A.R.T仅是提供磁盘健康状况信息的工具的一个示例,其他现有技术中的可用工具均可应用于此,本发明在此方面不受限制。一般而言,(1)和(2)中任一条件不满足,都可能判定磁盘的健康状况异常,从而直接确定是磁盘本身存在故障。反之,若(1)和(2)同时满足,则可以确定磁盘的健康状况正常。若确定磁盘的健康状况为正常,则故障(如果有)很可能存在于磁盘连通路径上的一个或多个元件中。从而如步骤S204所示,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。这一步骤将结合下文对图3的描述加以阐述。
图3示出了适于用来实现本发明的实施方式的存储系统后端连接结构的示意性分层拓扑图。本领域技术人员应当理解,取决于实际存储系统后端连接结构的不同,该拓扑图也会有所改变,本发明在此方面不受限制。如图3所示的分层拓扑图可以在存储系统建立时生成,并且可以随着任何时候热插拔事件(如磁盘加入/去除、新扩展器加入连接等)的发生而得到更新。
参照图3回顾图2中示出的方法200。在逐一获取各磁盘(包括磁盘0-N)的性能信息后,假设其中磁盘0的性能信息指示其的性能指标重映射扇区计数已经大大超出了阈值,由于重映射扇区计数被认为与磁盘0的健康状况相关,从而认为磁盘本身的健康状况异常,即,确定是该磁盘0本身发生故障。在另一情况下,如果其中磁盘0的性能信息指示并非其的重映射扇区计数指标超出阈值,而是I/O错误计数超出阈值,由于I/O错误计数不认为直接与磁盘0的健康状况相关,而通过S.M.A.R.T获取的磁盘本身的健康状况信息又未发现异常,从而考虑可能是磁盘0的连通路径(例如图3中从磁盘0经扩展器1、端口1、HBA至PCIE的有向路径)上的某个元件而非磁盘本身发生故障。为了诊断故障的位置,一种优选的方法是依次获取所述连通路径上的元件的健康状况信息,并响应于所述连通路径上一个元件的所述健康状况信息出现异常,确定所述一个元件发生故障。在实现中,如图3所示,可以(a)首先检查磁盘0的父节点——扩展器1的健康状况信息;(b)若该信息表明磁盘父节点(扩展器1)的健康状况异常,则确定是该父节点发生故障,后续步骤不再执行;(c)否则,若该信息表明父节点的健康状况正常,则继续沿该有向路径获取该父节点的父节点(图3种为端口1)的健康状况信息。重复步骤(b)和(c),直至找到健康状况异常的节点,判定其为发生故障的位置,诊断过程结束。或者在遍历完该路径仍无健康状况异常的节点时,认为在此路径上没有故障发生。类似地,元件的健康状况信息也包括历史健康状况信息和/或当前健康状况信息,并且可以由现有技术中的任何工具来提供。
以上结合图3对图2中所示的方法200进行了示例性说明。可以看出,根据本发明实施方式的用于确定故障位置的方法可以在出现对磁盘的异常访问时,清楚地诊断出是磁盘本身的故障还是其连通路径上的故障,也可以在磁盘可能发生故障之前预测到该故障从而防止数据的丢失。
在应用中,可以在多种情况下触发方法200。例如可以响应于检测到磁盘的I/O性能异常(例如I/O速度明显变慢)来触发方法200,或者响应于接收到(由诸如RAID之类的磁盘管理系统)报告磁盘I/O错误的信息而触发方法200。可替换地,方法200还可以由管理员或用户手动触发,或者被定期执行。本发明在此方面不受限制。
接下来参看图4进一步描述根据本发明示例性实施方式的用于在存储系统中预测并确定故障位置的装置400。
如图所示,装置400包括获取单元401,被配置为获取磁盘的性能信息;以及故障诊断单元402,被配置为响应于所述性能信息指示一个或多个性能指标超过相应的预定阈值,执行如下操作:至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常;以及响应于确定所述磁盘的健康状况为正常,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。
在本发明的可选实施方式中,所述故障诊断单元进一步被配置为:依次获取所述连通路径上的元件的健康状况信息;以及响应于所述连通路径上一个元件的所述健康状况信息出现异常,确定所述一个元件发生故障。
在本发明的可选实施方式中,所述故障诊断单元进一步被配置为:当所述一个或多个性能指标与所述磁盘的健康状况不相关,并且所述磁盘的健康状况信息无异常时,将所述磁盘的健康状况确定为正常。在本发明的进一步可选实施方式中,所述故障诊断单元进一步被配置为:当所述一个或多个性能指标与所述磁盘的健康状况相关,和/或所述磁盘的健康状况信息存在异常时,将所述磁盘的健康状况确定为异常,并且确定所述磁盘存在故障。
在本发明的可选实施方式中,所述装置400被定期触发、手动触发、响应于检测到所述磁盘的I/O性能异常而触发、或者响应于接收到报告所述磁盘I/O错误的信息而触发。在本发明的进一步可选实施方式中,所述磁盘I/O错误的信息由磁盘阵列RAID报告。
在本发明的可选实施方式中,所述性能指标包括以下中的一个或多个:I/O错误计数、平均I/O延迟、数据错误、重映射扇区计数、SASG-列表计数以及SAS背景介质扫描信息。
在本发明的可选实施方式中,所述健康状况信息包括历史健康状况信息和/或当前健康状况信息。
在本发明的可选实施方式中,所述健康状况信息通过硬盘的自动监视分析和报告技术S.M.A.R.T.报告获得。
图5示出了根据本发明实施方式的用于在存储系统中预测并确定故障位置的装置400的状态流程图。如图5所示,装置可以事先处于休眠状态,在超时、或RAID报告磁盘读写错误、或检测到磁盘的I/O性能异常、或管理员手动控制时被唤醒,从而开始诊断存储系统是否存在故障以及故障的位置。如图5所示,并如前文所详细描述的,通过获取磁盘的性能信息等统计数据、确定该性能信息是否超过相应的预定阈值等判决条件来确定是磁盘本身发生故障,还是与其相连的路径发生故障。如果是前者,则通知存储系统,且装置返回休眠状态;如果是后者,则发起对故障位置的诊断过程(如前述参照图2和3的描述)以确定具体是连通路径上的哪个元件发生故障。类似地,在找到发生故障的元件时通知存储系统,并让装置返回休眠状态,如果没有找到任何存在故障的元件,装置直接返回休眠状态。
图6示出了适于用来实现本发明实施方式的示例性计算系统600的框图。如图6所示,计算机系统600可以包括:CPU(中央处理单元)601、RAM(随机存取存储器)602、ROM(只读存储器)603、系统总线604、硬盘控制器605、键盘控制器606、串行接口控制器607、并行接口控制器608、显示控制器609、硬盘610、键盘611、串行外部设备612、并行外部设备613和显示器614。在这些设备中,与系统总线604耦合的有CPU601、RAM602、ROM603、硬盘控制器605、键盘控制器606、串行控制器607、并行控制器608和显示控制器609。硬盘610与硬盘控制器605耦合,键盘611与键盘控制器606耦合,串行外部设备612与串行接口控制器607耦合,并行外部设备613与并行接口控制器608耦合,以及显示器614与显示控制器609耦合。应当理解,图6所述的结构框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
应当理解,本发明中的流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (18)

1.一种用于在存储系统中确定故障位置的方法,包括:
获取磁盘的性能信息;
响应于所述性能信息指示一个或多个性能指标超过相应的预定阈值,执行如下操作:
至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常;以及
响应于确定所述磁盘的健康状况为正常,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。
2.根据权利要求1所述的方法,其中,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置进一步包括:
依次获取所述连通路径上的元件的健康状况信息;以及
响应于所述连通路径上一个元件的所述健康状况信息出现异常,确定所述一个元件发生故障。
3.根据权利要求1所述的方法,其中,所述至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常进一步包括:
当所述一个或多个性能指标与所述磁盘的健康状况不相关,并且所述磁盘的健康状况信息无异常时,将所述磁盘的健康状况确定为正常。
4.根据权利要求3所述的方法,进一步包括:
当所述一个或多个性能指标与所述磁盘的健康状况相关,和/或所述磁盘的健康状况信息存在异常时,将所述磁盘的健康状况确定为异常,并且确定所述磁盘存在故障。
5.根据权利要求1所述的方法,其中,所述方法被定期执行、手动触发、响应于检测到所述磁盘的I/O性能异常而触发、或者响应于接收到报告所述磁盘I/O错误的信息而触发。
6.根据权利要求5所述的方法,其中,所述磁盘I/O错误的信息由磁盘阵列RAID报告。
7.根据权利要求1所述的方法,其中,所述性能指标包括以下中的一个或多个:I/O错误计数、平均I/O延迟、数据错误、重映射扇区计数、SASG-列表计数以及SAS背景介质扫描信息。
8.根据权利要求1所述的方法,其中,所述健康状况信息包括历史健康状况信息和/或当前健康状况信息。
9.根据权利要求1所述的方法,其中,所述健康状况信息通过硬盘的自动监视分析和报告技术S.M.A.R.T.报告获得。
10.一种用于在存储系统中确定故障位置的装置,包括:
获取单元,被配置为获取磁盘的性能信息;
故障诊断单元,被配置为响应于所述性能信息指示一个或多个性能指标超过相应的预定阈值,执行如下操作:
至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常;以及
响应于确定所述磁盘的健康状况为正常,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。
11.根据权利要求10所述的装置,其中,所述故障诊断单元进一步被配置为:
依次获取所述连通路径上的元件的健康状况信息;以及
响应于所述连通路径上一个元件的所述健康状况信息出现异常,确定所述一个元件发生故障。
12.根据权利要求10所述的装置,其中,所述故障诊断单元进一步被配置为:
当所述一个或多个性能指标与所述磁盘的健康状况不相关,并且所述磁盘的健康状况信息无异常时,将所述磁盘的健康状况确定为正常。
13.根据权利要求12所述的装置,所述故障诊断单元进一步被配置为:
当所述一个或多个性能指标与所述磁盘的健康状况相关,和/或所述磁盘的健康状况信息存在异常时,将所述磁盘的健康状况确定为异常,并且确定所述磁盘存在故障。
14.根据权利要求10所述的装置,其中,所述装置被定期触发、手动触发、响应于检测到所述磁盘的I/O性能异常而触发、或者响应于接收到报告所述磁盘I/O错误的信息而触发。
15.根据权利要求14所述的装置,其中,所述磁盘I/O错误的信息由磁盘阵列RAID报告。
16.根据权利要求10所述的装置,其中,所述性能指标包括以下中的一个或多个:I/O错误计数、平均I/O延迟、数据错误、重映射扇区计数、SASG-列表计数以及SAS背景介质扫描信息。
17.根据权利要求10所述的装置,其中,所述健康状况信息包括历史健康状况信息和/或当前健康状况信息。
18.根据权利要求10所述的装置,其中,所述健康状况信息通过硬盘的自动监视分析和报告技术S.M.A.R.T.报告获得。
CN201410527596.0A 2014-09-30 2014-09-30 用于在存储系统中确定故障位置的方法和装置 Active CN105468484B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410527596.0A CN105468484B (zh) 2014-09-30 2014-09-30 用于在存储系统中确定故障位置的方法和装置
US14/867,153 US10346238B2 (en) 2014-09-30 2015-09-28 Determining failure location in a storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410527596.0A CN105468484B (zh) 2014-09-30 2014-09-30 用于在存储系统中确定故障位置的方法和装置

Publications (2)

Publication Number Publication Date
CN105468484A true CN105468484A (zh) 2016-04-06
CN105468484B CN105468484B (zh) 2020-07-28

Family

ID=55584526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410527596.0A Active CN105468484B (zh) 2014-09-30 2014-09-30 用于在存储系统中确定故障位置的方法和装置

Country Status (2)

Country Link
US (1) US10346238B2 (zh)
CN (1) CN105468484B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179968A (zh) * 2016-03-09 2017-09-19 株式会社东芝 信息存储装置、故障预测装置及故障预测方法
CN107729170A (zh) * 2017-09-29 2018-02-23 郑州云海信息技术有限公司 一种hba卡生成转存文件的方法及装置
CN107844381A (zh) * 2016-09-21 2018-03-27 中国电信股份有限公司 存储系统的故障处理方法以及装置
CN109726066A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 用于标识存储系统中的问题部件的方法和设备
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN110502401A (zh) * 2019-08-27 2019-11-26 中国工商银行股份有限公司 用于监控磁盘性能的方法、装置、系统及介质
CN110795276A (zh) * 2018-08-01 2020-02-14 阿里巴巴集团控股有限公司 一种存储介质的修复方法、计算机设备、存储介质
CN111104293A (zh) * 2018-10-26 2020-05-05 伊姆西Ip控股有限责任公司 用于支持盘故障预测的方法、设备和计算机程序产品
CN112131071A (zh) * 2017-09-18 2020-12-25 华为技术有限公司 一种内存评估的方法及装置
CN113568798A (zh) * 2021-09-28 2021-10-29 苏州浪潮智能科技有限公司 服务器故障定位方法、装置、电子设备及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909485B (zh) * 2015-12-23 2020-10-23 伊姆西Ip控股有限责任公司 用于确定存储系统性能下降的原因的方法和设备
JP6777848B2 (ja) * 2016-07-08 2020-10-28 富士通株式会社 制御装置、及びストレージ装置
US10223220B2 (en) * 2016-10-13 2019-03-05 International Business Machines Corporation Processing a health condition message on a health condition to determine whether to perform a swap operation
US10229013B2 (en) 2016-10-13 2019-03-12 International Business Machines Corporation Generating a health condition message on a health condition detected at a server to send to a host system accessing the server
CN110083470B (zh) * 2018-01-26 2023-07-21 浙江宇视科技有限公司 磁盘分析方法、装置及计算机可读存储介质
CN109472388B (zh) * 2018-04-10 2022-02-22 国网浙江省电力有限公司嘉兴供电公司 一种基于损耗的保电设备故障预警方法和系统
US11099925B2 (en) * 2018-07-10 2021-08-24 EMC IP Holding Company LLC Datacenter preemptive measures for improving protection using IoT sensors
US11106528B2 (en) * 2018-10-10 2021-08-31 EMC IP Holding Company LLC Datacenter IoT-triggered preemptive measures using machine learning
CN111857555A (zh) 2019-04-30 2020-10-30 伊姆西Ip控股有限责任公司 避免磁盘阵列的故障事件的方法、设备和程序产品
CN111208363B (zh) * 2019-12-13 2022-06-17 深圳市元征科技股份有限公司 测试方法及电子设备
US11561702B2 (en) 2020-10-30 2023-01-24 EMC IP Holding Company LLC Using path quarantining to identify and handle backend issues
US11587595B1 (en) * 2021-10-18 2023-02-21 EMC IP Holding Company LLC Method of identifying DAE-context issues through multi-dimension information correlation
CN116755920B (zh) * 2023-08-15 2023-11-17 苏州浪潮智能科技有限公司 故障定位方法、设备、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070079170A1 (en) * 2005-09-30 2007-04-05 Zimmer Vincent J Data migration in response to predicted disk failure
CN101127233A (zh) * 2007-09-25 2008-02-20 Ut斯达康通讯有限公司 流媒体应用中的硬盘错误检测与容错方法
CN102521090A (zh) * 2011-11-29 2012-06-27 浪潮电子信息产业股份有限公司 一种jbod上硬盘应用故障的定位方法
CN103955417A (zh) * 2014-04-02 2014-07-30 江门市未来之星网络科技有限公司 一种电脑硬盘数据检测设备及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091965A1 (en) * 2000-12-22 2002-07-11 Mark Moshayedi System and method for early detection of impending failure of a data storage system
US7103652B1 (en) * 2000-12-23 2006-09-05 Emc Corporation Ambiguity-purging and template-conflict-resolution in computer network events-notification
US7304128B2 (en) * 2002-06-04 2007-12-04 E.I. Du Pont De Nemours And Company Carbon nanotube binding peptides
WO2004025650A1 (en) * 2002-09-16 2004-03-25 Seagate Technology, Inc. Predictive disc drive failure methodology
US7624305B2 (en) * 2004-11-18 2009-11-24 International Business Machines Corporation Failure isolation in a communication system
JP4738438B2 (ja) * 2008-04-17 2011-08-03 株式会社日立製作所 外部接続ストレージシステムのパス管理及び障害箇所検出方法
US8949863B1 (en) * 2008-04-30 2015-02-03 Netapp, Inc. Creating environmental snapshots of storage device failure events
WO2011141961A1 (en) * 2010-05-12 2011-11-17 Hitachi, Ltd. Storage apparatus and method for controlling the same
JP6212934B2 (ja) * 2013-05-07 2017-10-18 富士通株式会社 ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070079170A1 (en) * 2005-09-30 2007-04-05 Zimmer Vincent J Data migration in response to predicted disk failure
CN101127233A (zh) * 2007-09-25 2008-02-20 Ut斯达康通讯有限公司 流媒体应用中的硬盘错误检测与容错方法
CN102521090A (zh) * 2011-11-29 2012-06-27 浪潮电子信息产业股份有限公司 一种jbod上硬盘应用故障的定位方法
CN103955417A (zh) * 2014-04-02 2014-07-30 江门市未来之星网络科技有限公司 一种电脑硬盘数据检测设备及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐然和杨鸿雁: "硬盘常见故障的分析和处理", 《鞍山师范学院学报(综合版)》 *
黄健: "实战硬盘维修", 《大众硬件》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179968A (zh) * 2016-03-09 2017-09-19 株式会社东芝 信息存储装置、故障预测装置及故障预测方法
CN107179968B (zh) * 2016-03-09 2020-06-26 株式会社东芝 信息存储装置、故障预测装置及故障预测方法
CN107844381A (zh) * 2016-09-21 2018-03-27 中国电信股份有限公司 存储系统的故障处理方法以及装置
CN112131071B (zh) * 2017-09-18 2024-05-17 华为技术有限公司 一种内存评估的方法及装置
CN112131071A (zh) * 2017-09-18 2020-12-25 华为技术有限公司 一种内存评估的方法及装置
CN107729170A (zh) * 2017-09-29 2018-02-23 郑州云海信息技术有限公司 一种hba卡生成转存文件的方法及装置
CN107729170B (zh) * 2017-09-29 2021-02-02 苏州浪潮智能科技有限公司 一种hba卡生成转存文件的方法及装置
CN109726066B (zh) * 2017-10-27 2022-06-24 伊姆西Ip控股有限责任公司 用于标识存储系统中的问题部件的方法和设备
CN109726066A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 用于标识存储系统中的问题部件的方法和设备
CN110795276A (zh) * 2018-08-01 2020-02-14 阿里巴巴集团控股有限公司 一种存储介质的修复方法、计算机设备、存储介质
CN111104293A (zh) * 2018-10-26 2020-05-05 伊姆西Ip控股有限责任公司 用于支持盘故障预测的方法、设备和计算机程序产品
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN110413227B (zh) * 2019-06-22 2021-06-11 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN110502401A (zh) * 2019-08-27 2019-11-26 中国工商银行股份有限公司 用于监控磁盘性能的方法、装置、系统及介质
CN113568798A (zh) * 2021-09-28 2021-10-29 苏州浪潮智能科技有限公司 服务器故障定位方法、装置、电子设备及存储介质
CN113568798B (zh) * 2021-09-28 2022-01-04 苏州浪潮智能科技有限公司 服务器故障定位方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN105468484B (zh) 2020-07-28
US20160092292A1 (en) 2016-03-31
US10346238B2 (en) 2019-07-09

Similar Documents

Publication Publication Date Title
CN105468484A (zh) 用于在存储系统中确定故障位置的方法和装置
US10198196B2 (en) Monitoring health condition of a hard disk
US7917810B2 (en) Method for detecting problematic disk drives and disk channels in a RAID memory system based on command processing latency
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
EP3660681B1 (en) Memory fault detection method and device, and server
US10387239B2 (en) Detecting memory failures in the runtime environment
CN107870832B (zh) 基于多维度健康诊断方法的多路径存储设备
US10606490B2 (en) Storage control device and storage control method for detecting storage device in potential fault state
CN111104293A (zh) 用于支持盘故障预测的方法、设备和计算机程序产品
US20170139605A1 (en) Control device and control method
US8984333B2 (en) Automatic computer storage medium diagnostics
JP7125602B2 (ja) データ処理装置および診断方法
JP2014048782A (ja) 情報処理装置、及び情報処理装置の障害処理方法
Lu et al. {NVMe}{SSD} failures in the field: the {Fail-Stop} and the {Fail-Slow}
US7546489B2 (en) Real time event logging and analysis in a software system
CN107807862A (zh) 检测硬盘故障点的方法、装置及服务器
WO2023273637A1 (zh) 一种故障检测方法及装置
EP1545054A1 (en) System and method for selecting measurements of a communication network
JP2018005826A (ja) 制御装置、及びストレージ装置
US20150046601A1 (en) Network system, maintenance work management method, processing apparatus, and non-transitory computer-readable recording medium recording program
US10210033B2 (en) Managing component errors with a common software sensor based diagnostic method
US20230025081A1 (en) Model training method, failure determining method, electronic device, and program product
US20140344630A1 (en) Information processing device and control device
US9990382B1 (en) Secure erasure and repair of non-mechanical storage media
US20230168962A1 (en) Troubleshooting for a distributed storage system by cluster wide correlation analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200413

Address after: Massachusetts, USA

Applicant after: EMC IP Holding Company LLC

Address before: Massachusetts, USA

Applicant before: EMC Corp.

GR01 Patent grant
GR01 Patent grant