CN113179657A - 恢复行为对于数据存储设备的预后和原位修复的用途 - Google Patents

恢复行为对于数据存储设备的预后和原位修复的用途 Download PDF

Info

Publication number
CN113179657A
CN113179657A CN201980078935.2A CN201980078935A CN113179657A CN 113179657 A CN113179657 A CN 113179657A CN 201980078935 A CN201980078935 A CN 201980078935A CN 113179657 A CN113179657 A CN 113179657A
Authority
CN
China
Prior art keywords
frph
hdd
head
determining
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980078935.2A
Other languages
English (en)
Inventor
R·莱斯特
T·利伯
A·斯特里格尔
E·理查德森
D·奔萨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Western Digital Technologies Inc
Original Assignee
Western Digital Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Digital Technologies Inc filed Critical Western Digital Technologies Inc
Publication of CN113179657A publication Critical patent/CN113179657A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0617Improving the reliability of storage systems in relation to availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0686Libraries, e.g. tape libraries, jukebox
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种用于识别数据存储系统中的有问题的数据存储设备诸如硬盘驱动器(HDD)的方法,所述方法涉及从多个HDD中的每个HDD检索并评估相应的恢复日志,诸如设备状态日志的介质错误部分。基于每个恢复日志,针对每个相应HDD的每个读写磁头确定每小时全恢复(FRPH)度量的值。一般来讲,所述FRPH度量表征磁头执行恢复操作已花费的时间量。响应于特定磁头FRPH达到预先确定的阈值,确定所述特定磁头在其中运行的所述HDD的原位修复。类似地,在固态驱动器(SSD)的上下文中,可基于等待解决输入/输出(IO)请求冲突花费的时间来确定延迟度量,原位修复可基于所述延迟度量。

Description

恢复行为对于数据存储设备的预后和原位修复的用途
技术领域
本发明的实施方案可整体涉及数据存储系统,并且更具体地涉及数据存储设备的预后和原位修复。
背景技术
存在对高容量数字数据存储系统的商业需求,其中多个数据存储设备(DSD)容纳在共同的壳体中。数据存储系统通常包括容纳多个搁架的大型壳体,DSD的行安装在该搁架上。使用数据存储系统的典型方法是移除或停止使用在现场发生故障或失效的DSD。然后,通常由内部实验室或客户部署站点的技术人员以替换DSD更换此类DSD。失效驱动器被客户销毁或返回给制造商进行失效分析。
本节中描述的任何方法是可以实行的方法,但不一定是先前已经设想到或实行过的方法。因此,除非另有说明,否则不应认为本节所述的任何方法仅仅因为包含在本节中而成为现有技术。
附图说明
实施方案通过示例而非限制的方式在附图中示出,在附图中相同的附图标记指代相似的元件并且其中:
图1A是根据一个实施方案的示出硬盘驱动器(HDD)的平面图;
图1B是根据一个实施方案的示出固态驱动器(SSD)的框图;
图2为根据一个实施方案的示出数据存储系统的透视图;
图3是根据一个实施方案的示出数据存储系统架构的框图;并且
图4是根据一个实施方案的示出识别有问题的硬盘驱动器的方法的流程图。
具体实施方式
本发明描述了数据存储设备的预后和原位修复的方法。在以下描述中,出于解释的目的,阐述了许多具体细节,以便提供对本文所述的本发明实施方案的透彻理解。然而,将显而易见的是,本文所述的本发明的实施方案可以在没有这些具体细节的情况下实践。在其他情况下,熟知的结构和设备以框图的形式示出,以便避免不必要地模糊本文所述的本发明的实施方案。
示例性操作上下文数据存储系统的物理描述
存在对高容量数字数据存储系统的商业需求,其中多个数据存储设备(DSD)诸如硬盘驱动器(HDD)和/或固态驱动器(SSD)容纳在共同的壳体中。数据存储系统通常包括容纳多个搁架的大型壳体,DSD的行安装在该搁架上。图2为根据实施方案的示出数据存储系统的示例的透视图。数据存储系统200可以包括系统壳体202(或“机架202”),多个数据存储系统托盘204容纳在该系统壳体中。例如,每个托盘204可被放置或滑动到机架202内的对应狭槽中。支架202还容纳系统控制器,并且还可容纳开关、存储服务器、应用服务器、电源、冷却风扇等。
图3是根据一个实施方案的示出数据存储系统架构的框图。示例性架构300示出了包括多个硬盘驱动器(HDD)304a(HDD1)、304b(HDD2)和304n(HDDn)的数据存储系统200,其中n表示可因具体实施而异的任意数量的HDD(和/或SSD)。每个HDD 304a-304n根据对应的通信协议323经由通信接口322与数据存储系统控制器312通信并处于该数据存储系统控制器的控制下。每个HDD 304a-304n包括对应非易失性存储器(NVM)306(例如,在HDD的情况下,通常为旋转磁盘介质的形式),其由包括日志模块310的相应HDD控制器308控制。每个日志模块310(其可以是例如对应片上系统(SoC)的构成,诸如数据信道电路或硬盘控制器电路的一部分,如图所示,在HDD的上下文中)能够记录HDD控制器308采取的动作,诸如记录读取、写入和查找错误、相关联的恢复动作以及其他近期和长期HDD状态信息。数据存储系统200的系统控制器312包括存储器313、处理器315和可靠性引擎314以及相关联的FRPH(每小时全恢复)模块316,它们共同表示涉及HDD 304a-304n的预后和原位修复的过程功能,如本文其他地方更详细描述的。
在本文中被描述为由系统控制器312或HDD 304a-304n执行或可执行的处理、功能、过程、动作、方法步骤等可包括通过执行存储在一个或多个存储器单元中的一个或多个指令序列来执行,并且当由一个或多个处理器执行时,导致此类性能。系统控制器312可以软件、硬件和固件的任何形式和/或组合来实施。例如,并且根据一个实施方案,系统控制器312包括专用集成电路(ASIC),该专用集成电路包括用于存储此类指令(作为非限制性示例,诸如固件)的至少一个存储器单元和用于执行此类指令的至少一个处理器,启用关于多个HDD 304a-304n的潜在有问题的HDD的预后(例如,“静默”故障驱动,其内部可能正在努力完成数据事务,但尚未公开故障),并且管理、控制、促进与已发生故障和故障中的HDD对应的原位修复动作。
数据存储系统200可与主机350通信地耦接,该主机可被实施为在其上执行可执行代码的硬件机器(对于非限制性示例,计算机或硬件服务器,等等),或作为可由一个或多个处理器(对于非限制性示例,软件服务器诸如数据库服务器、应用程序服务器、媒体服务器等)执行的软件指令。主机350通常表示数据存储系统200的客户端,并且具有向数据存储系统200提出读取和写入请求(输入/输出或“IO”)的能力。需注意,系统控制器312也可被称为“主机”,因为该术语通常参考对数据存储设备或设备阵列进行IO调用的任何设备来使用,诸如HDD 304a-304n。
背景技术
如本文所使用的,术语“基本上”应当理解为描述大部分或差不多被结构化、配置、定尺寸等的特征,但在实践中制造公差等引起结构、构型、尺寸等并不总是或一定如所述的那样精确的情形。例如,将结构描述为“基本上竖直的”将为该术语赋予其普通含义,使得侧壁对于所有实用目的均为竖直的,但可能并不精确地处于90度。
虽然诸如“最佳”、“优化”、“最小”、“最小化”等术语可能不具有与其相关联的某些值,但是如果这些术语在本文中使用,则意图是本领域普通技术人员将理解此类术语将包括在与本公开的整体一致的有益方向上影响值、参数、度量等。例如,将某事物的值描述为“最小”并不要求该值实际上等于某个理论最小值(例如,零),但应在实际意义上理解为对应的目标是在有益方向上朝向理论最小值移动该值。
一些数据存储系统实施诊断和原位(例如,“就位”或“在适当位置”)修复规程。这意味着在现场操作期间已发生故障的系统HDD在现场被诊断和修复到可能的程度,并且如果它们不能被修复,则它们被原位停用而不是被替换。优选地,原位修复需要自动化或半自动化过程,而所关注的HDD保留在系统外壳中。许多HDD修复不会导致容量或性能的任何损失。HDD可以仍然允许系统软件继续使用的方式被修复,尽管容量或性能降低。可允许无法修复的HDD在系统内的适当位置发生故障,诸如在其中系统附带过度配置的存储容量的情况下,尽管存在许多驱动器故障,但该过度配置的存储容量允许完整的指定存储容量的可用性。原位修复可消除调度服务技术人员替换现场故障的驱动器的成本,以及这些替换驱动器的成本。另外,原位修复可以减少存储设备的AFR(年故障率),并且将可能在未来产品发布采用“现场故障”模型时消除ARR(年返修率)。
HDD中原位修复的具体实施可使数据存储系统中必要的过度配置量最小化以能够提供寿命硬件保证。如所提及的,一些存储系统(和/或存储系统操作系统软件)可能能够在许多HDD发生故障之后继续使用这些HDD。对故障驱动器的分析显示,在现场故障的许多HDD可用相对简单的技术恢复至完全或部分使用。
可靠性引擎
参考图3,根据一个实施方案,被称为可靠性引擎314的软件组件负责执行或管理HDD诊断、预后和修复操作。关于诊断,当系统(例如,数据存储系统200的系统控制器312)检测到数据存储系统200的HDD 304a-304n的问题时,系统调用可靠性引擎314并传递描述系统对该HDD的问题的信息。
通常,可靠性引擎314可以进入关于该HDD的诊断状态并分析HDD以识别问题的根本原因。关于修复,一旦识别出问题的根本原因,可靠性引擎314就向系统控制器312通知建议的修复动作的逻辑,系统控制器312可基于系统事件(例如,代码上传、即将发生的关机/重启)和系统内磁盘冗余级别根据紧急性级别调度该建议的修复动作。一旦系统控制器312请求修复,HDD通常离线并且可靠性引擎314进行修复(这可能需要几秒到几天的任何时间)。在修复和修复后诊断结束时,HDD可以恢复到完全使用、恢复到以降低的容量和/或性能使用,或者HDD可以从系统停用。
根据实施方案,关于预后,可靠性引擎314还在每个HDD在线并被系统使用时周期性地监测每个HDD的健康。这可通过读取和分析HDD的内部E6日志317的限时子集来完成,诸如结合FRPH模块316或在该FRPH模块的帮助下,如本文其他地方更详细描述的。因此,可靠性引擎314可以主动检测例如HDD中的延迟问题或错误率问题,该问题影响主机可见性能,但是对于系统而言不够严重到使HDD发生故障。例如,在访问介质的特定磁头或区域时一致地进入高DRP(数据恢复过程)级别的HDD通常将表现出比其对等驱动器更高的IO完成延迟。在一些存储系统的擦除编码或基于RAID的系统中,主机可见延迟通常由数据集中最慢HDD的性能限定。可靠性引擎314可以异步通知系统控制器312该HDD的推荐修复操作的逻辑。一旦系统允许可靠性引擎314继续进行修复以移除高延迟磁头/表面,主机可见延迟劣化就被解决。
硬盘驱动器预后工具:每小时全恢复
图4是根据一个实施方案的示出识别有问题的硬盘驱动器的方法的流程图。图4的过程或流程可被实现为作为存储在一个或多个存储器单元中的一个或多个指令序列来执行,并且当由一个或多个处理器执行时,使得该过程执行。例如,存储在一个或多个存储器单元(例如,固件固有的ROM)中并且当由一个或多个处理器(例如,图3的系统控制器312的处理器315)执行时使得执行图4所示的过程的指令序列(例如,体现在图1的系统控制器312的固件中的可靠性引擎314)。
此外,设想了识别有问题的固态驱动器(SSD)的类似方法,该方法根据硬盘驱动器和固态驱动器底层的不同技术进行了适当修改。例如,对于HDD,DRP步骤增加主机可见延迟的主要原因是由于必须等待介质的附加旋转以重试操作的旋转延迟。相比之下,在SSD的上下文中不存在旋转延迟,因此主机可见延迟的关键原因是主机IO必须等待SSD正在执行的其他活动的场景,诸如主机IO请求与后台任务冲突(例如,垃圾回收、单元刷新、读取干扰等),主机IO请求与其他主机IO请求冲突,并且由于非易失性存储器部件由于老化和/或磨损而表现出劣化而需要更长的编程/擦除操作而导致延迟增加。因此,除了SSD之外,可使用与FRPH功能等效的度量来量化存储系统SSD中延迟的可变性(以及,同样地QoS(服务质量)的可变性)。
在框402处,从多个硬盘驱动器中的每一个硬盘驱动器检索相应的恢复日志。例如,数据存储系统200(图2和图3)的系统控制器312(图3)从多个HDD 304a-304n(图3)中的一个或多个的日志模块310(图3)检索E6日志317(图3)。E6日志317是指用于快照HDD的状态的二进制文件的具体实施。E6日志317包含大量(数十个)子区段,包括介质错误日志,并且通常在10MB至100MB的大小范围(数量级)内,这取决于获取哪些“模式”(区段组)。还存在增量E6日志能力,该增量E6日志能力仅获取“新”的状态,即,自最近的全量或增量获取以来。增量E6日志可小至几MB,但可至多达全量E6日志317的大小。E6日志317的区段具有各种主题/目的,一些是全局固定大小的“驱动器寿命”状态,并且一些随着更多驱动器活动的积累而随时间推移而增长。区段的数据元中的一些数据元在驱动器的寿命期间被保留,并且一些数据元被包裹,因为HDD自主删除较旧状态以避免超过尺寸的边界上限。根据一个实施方案,E6日志317的介质错误日志部分在下文中用来计算以下FRPH(每小时全恢复)度量,并且在功能上被称为“恢复日志”,因为E6日志317的该特定部分或区段记录由对应HDD内的每个读写磁头执行的数据恢复步骤(例如,查找恢复、读取恢复、写入恢复)。
在框404处,基于每个相应的恢复日志,针对多个HDD中的每个相应HDD的每个相应读写磁头确定被称为FRPH的度量的值。例如,如下文所述,基于在框402处检索的恢复日志,针对多个HDD 304a-304n中的一个或多个的每一个HDD的每个读写磁头(例如,图1的读写磁头110a)计算FRPH值。DRP或恢复“步骤”是HDD动态调用以从在执行先前步骤之后不可读的一个或多个扇区恢复数据的动作。例如,可存在HDD/磁头可用的数百个可能的DRP步骤,其可更一般地分类在类别中的一个中以用于读取、写入和查找恢复步骤,其中较高的步骤编号表示较多涉及的恢复算法,并且因此比较低编号的DRP步骤花费较长的时间来执行。
根据一个实施方案,“全恢复”是所有可能的DRP步骤的执行。如果全恢复不成功,则主机接收到指示无法传输数据的硬错误。
在框404a处,对磁头执行的所有恢复步骤上花费的时间量在特定时长(即,评估周期)上求和。例如,分析相关的恢复日志,并且对于非限制性示例,在操作时间的最后300小时内对由每个HDD磁头(例如,来自E6日志317的HDD介质错误日志区段)执行的所有恢复步骤的严重性(根据恢复步骤的每个“类型”或“级别”花费的时间)求和。根据一个实施方案,评估周期是允许在其上分析恢复步骤的任意时间窗口的可配置参数。
从概念上讲,全恢复意味着已经运行了恢复事件的所有恢复步骤,所需的恢复步骤越多,表明问题相对更严重并且数据恢复将花费的时间越长。然而,根据一个实施方案,出于算法目的,“全恢复”被表征为对应于磁头在一个或多个恢复步骤上花费的预先确定的时长。根据一个实施方案,将一次全恢复确立为磁头在一个或多个恢复步骤上实际花费约2.5秒。然而,出于算法目的而表征全恢复的方式可因具体实施而异。因此,对于磁头花费在恢复步骤上的每个预先确定的时间量(例如,2.5秒的实时),对“全恢复”进行计数。关于恢复步骤的严重性,如参考示例性系统所述,存在数百个可能的DRP恢复步骤,其中较高的步骤编号表示更多涉及的复杂恢复算法,因此,与较低编号的DRP步骤相比,需要更长的时间来执行。此外,恢复步骤被分类为具有类似复杂性的组,并且因此具有类似执行时间。例如,一千个“步骤4”恢复步骤在时间上可等同于一百个“步骤8”恢复步骤。
因此,在框404b处,确定在特定时长内的相等数量的全恢复。参考前述示例,磁头在300小时评估周期内恢复步骤上花费的2.5秒时间单位的数量建立该磁头的全恢复的数量。然后,在框404c处,基于所产生的全恢复的数量和所评估的特定时长,确定磁头的FRPH值,其表示每个磁头平均每小时花费的DRP恢复时间(例如,以最大长度全恢复所花费的时间为单位)例如,在过去300小时内平均每小时花费的DRP恢复时间。因此,在框404处,针对来自待评估的每个HDD 304a-304n的每个磁头迭代框404a-404c。此外,通过检查恢复日志以识别需要任何恢复步骤的每个IO,然后累加执行代表该IO使用的所有恢复步骤的总时间量的估计值来计算FRPH,并且针对HDD中的每个磁头单独计算FRPH度量。
在框404处的FRPH度量值的计算可通过以下方式来实现:分析评估周期的恢复日志,对每个磁头在数百个DRP恢复步骤中的每个中花费的总时间求和,这将有效地产生记录每个磁头对每个恢复步骤/级别的调用次数的柱状图。对于每个恢复步骤,可将估计该特定恢复步骤执行多长时间的恒定时间值乘以该恢复步骤的相应调用,这将产生每个磁头在任何恢复步骤中所花费的总时间量。在所有恢复步骤中花费的总时间量可除以评估周期(例如,300小时),这将得到每个磁头的在任何恢复步骤中花费的每小时的平均时间量。在所有恢复步骤中所花费的平均时间/小时可通过除以为全恢复建立的时间(例如,2.5秒的“全恢复”的等同物)来归一化,这将产生归一化为评估周期的FRPH值,其中FRPH值为一将意味着平均每小时(例如,在过去的300小时评估周期内)磁头用于在恢复操作模式中执行一次全恢复所花费的时间。
在框406处,响应于特定磁头FRPH达到预先确定的FRPH阈值,确定该特定磁头在其中运行的HDD的原位修复。例如,并且根据一个实施方案,具有在特定时长(例如,300小时评估周期)内具有为一(例如,阈值)或更大的FRPH值的一个或多个磁头的HDD被识别为有问题的HDD,即,可能“静默地”发生故障。此外,可使FRPH度量可供客户端查询,诸如经由RESTfulAPI(代表性状态传输应用程序接口)查询,由此客户端将决定FRPH值是否保证减轻动作,并且如果是的话,将需要自己发起此类动作。
根据一个实施方案,如果任何HDD 304a-304n具有FRPH大于或等于一的一个或多个磁头,则识别出在该有问题的HDD中具有最高FRPH的磁头,并且在该磁头上执行“磁头弹出”(磁头脱出),即,将磁头分类(例如,分类到系统控制器312和/或分类到HDD控制器308)为不具有在进一步的IO操作中使用的资格,从而有效地禁用进一步的使用/操作。另选地,根据一个实施方案,原本有问题的HDD可被重新格式化为其当前容量。例如,在其中一个或多个磁头在先前的修复操作中已被“弹出”并且此时决定不弹出另一个磁头的情况下,考虑到对应于先前弹出的磁头的减小的容量,HDD可被重新格式化为其当前容量。此外,并且根据一个实施方案,因为可以从介质错误日志确定介质的多少区域以及哪些有问题的区域对FRPH值有贡献,所以另一个修复选项涉及强行省去介质的问题区域(例如,标记区域不可用于进一步的IO),而不是进行更长并且更复杂的重新格式化或弹出修复。
智能系统级可靠性方案
历史存储系统可包括具有自主、独立设计的诊断和设备可靠性方案的存储设备,这可导致整个存储系统的效率和有效性降低。相比之下,分布在整个存储系统中的不同存储设备处和之间的可操作功能的扩展整体视图可导致更有效和更可靠的整体系统。
数据存储设备,诸如构成数据存储系统200(图2和图3)的HDD304a-304n(图3),可以被认为是可能影响与每个DSD相关联的数据完整性和可靠性的因素的敏感传感器,诸如HDD的上下文中的温度、气流、振动等,以及SSD的上下文中的年龄、存储周期等。此外,HDD304a-304n可为关于对应于特定介质磁头或区域的位置误差信号(PES)和对其有贡献的因素、DRP恢复操作等的信息源。因此,当与诸如控制器312(图3)的系统控制器共享时,每个DSD可能在内部知晓的数据完整性和恢复信息以及它们的组合可以为设备级的数据劣化症状提供廉价但有价值的扩展视力,以用作系统级的知情且有效的诊断、预后和修复控制点。还可存在关于在系统级可用(例如,对系统控制器312可用)的DSD的附加信息,这些信息可有助于和/或组合以有助于系统级的智能预测决策。例如,在HDD的上下文中,可使系统控制器知晓信息,诸如存储设备形状因素、磁盘数量(和/或致动器)、磁盘的RPM(每分钟转数)以及HDD模型中的其他常见变型,以及每个存储设备在特定搁架和系统支架(例如,图2的支架202)内的定位、与风扇的相对接近度、风扇速度、与热源的相对接近度、以及每个设备本身外部的其他因素。需注意,HDD 304a-304n以及系统控制器312可被编程为随时间“学习”。因此,可能影响与每个HDD相关的数据可靠性的因素可能不是静态的,即,这些因素(以及基于这些因素的修复决策)可能是随时间动态的。
本文所述的HDD监测诊断/预后修复的闭环性质能够连续监测HDD日志、示出该一个HDD的行为的计算度量,然后将每个HDD的度量与其对等驱动器的度量进行比较以确定“通过/失败”。需注意,每个HDD的事件日志用于计算每个HDD的度量,其中每个HDD仅意识到其自身。这里,系统可以看到许多HDD的度量的值,并且将一个HDD的度量与HDD对等驱动器的度量进行比较,其中对等驱动器的定义可以是可变的,例如,通过类似的模型类型、固件修订,并且甚至通过机架内HDD的用例。类似地,每个FRPH度量的计算仅评估一个驱动器上磁头的健康状况。然而,诊断主机可通过以下操作来为FRPH度量的构成通过或失败的哪个值设置阈值:考虑每个驱动器的FRPH度量相对于诊断主机可见的较大生态系统的异常程度。例如并且根据一个实施方案,通过/失败阈值(即,FRPH阈值)可被设置为等于两个或三个标准偏差的值,该标准偏差高于部署的其余部分的平均(或中值)FRPH评分。
硬盘驱动器配置
如所讨论的,实施方案可在采用多个数据存储设备(DSD)诸如HDD的数据存储系统的上下文中使用。因此,根据一个实施方案,图1A中显示了示出HDD 100的平面图以示出示例性操作组件。
图1A示出了包括滑块110b的HDD 100的部件的功能布置,滑块110b包括磁性读写磁头110a。滑块110b和磁头110a可统称为磁头滑块。HDD 100包括具有磁头滑块的至少一个磁头万向节组件(HGA)110、通常经由弯曲部附接到磁头滑块的引线悬架110c,以及附接到引线悬架110c的负载梁110d。HDD 100还包括可旋转地安装在主轴124上的至少一个记录介质120和附接到主轴124用于旋转介质120的驱动马达(不可见)。读写磁头110a(也可以称为换能器)包括写元件和读元件,用于分别写入和读取存储在HDD 100的介质120上的信息。可使用磁盘夹128将介质120或多个磁盘介质附连到主轴124。
HDD 100还包括附接到HGA 110的臂132、滑架134、包括电枢136和定子144的音圈马达(VCM),电枢136包括附接到滑架134的音圈140,转子144包括音圈磁体(不可见)。VCM的电枢136附接到滑架134并且被配置为移动臂132和HGA 110以访问介质120的部分,它们共同安装在具有插置的枢转轴承组件152的枢轴148上。就具有多个磁盘的HDD而言,滑架134可称为“E形块”或梳齿,因为滑架被布置为承载联动的臂阵列,从而使之呈现梳齿的外观。
包括包含磁头滑块耦接至的弯曲部的磁头万向节组件(例如,HGA110)、弯曲部耦接至的致动器臂(例如,臂132)和/或负载梁,以及致动器臂耦接至的致动器(例如,VCM)的组件可以统称为磁头堆叠组件(HSA)。然而,HSA可包括比所述的那些更多或更少的部件。例如,HSA可指还包括电互连部件的组件。一般来讲,HSA是被配置为移动磁头滑块以访问介质120的部分以进行读和写操作的组件。
进一步参考图1,包括至磁头110a的写信号和来自磁头110a的读信号的电信号(例如,到VCM的音圈140的电流)由柔性电缆组件(FCA)156(或“柔性电缆”)传输。柔性电缆156与磁头110a之间的互连件可包括臂电子(AE)模块160,该AE模块可具有读信号的板载前置放大器以及其他读通道和写通道电子部件。AE模块160可附接到滑架134,如图所示。柔性电缆156可以耦接到电连接器块164,该电连接器块164在一些配置中通过由HDD外壳168提供的电馈通提供电气连通。HDD外壳168(或“壳体底座”或“基板”或简称“底座”)与HDD盖一起为HDD 100的信息存储组件提供半密封(或气密密封,在一些配置中)的保护壳体。
其他电子部件,包括磁盘控制器和包括数字信号处理器(DSP)的伺服电子器件,向驱动马达、VCM的音圈140和HGA 110的磁头110a提供电信号。提供给驱动马达的电信号使驱动马达旋转,从而向主轴124提供扭矩,该扭矩继而传输到附连到主轴124的介质120。因此,介质120沿方向172旋转。旋转的介质120形成空气垫,该空气垫充当滑块110b的空气轴承表面(ABS)搭载于其上的空气轴承,以使得滑块110b在介质120的表面上方飞行,而不与记录信息的薄磁记录层形成接触。类似地,在利用轻于空气的气体(诸如用于非限制性示例的氦气)的HDD中,旋转的介质120形成气垫,该气垫充当滑块110b搭载于其上的气体或流体轴承。
向VCM的音圈140提供的电信号使HGA 110的磁头110a能够访问上面记录有信息的磁道176。因此,VCM的电枢136摆动经过圆弧180,这使HGA 110的磁头110a能够访问介质120上的各个磁道。信息存储在介质120上的多个径向嵌套的磁道中,这些磁道被布置在介质120上的扇区(诸如扇区184)中。相应地,每个磁道由多个扇区化磁道部分(或“磁道扇区”)诸如扇区化磁道部分188构成。每个扇区化磁道部分188可包括记录的信息和数据头,该数据头包含纠错码信息和伺服突发信号图案,诸如ABCD-伺服突发信号图案(其是识别磁道176的信息)。在访问磁道176时,HGA 110的磁头110a的读元件读取伺服突发信号图案,该伺服突发信号图案向伺服电子器件提供定位错误信号(PES),这会控制向VCM的音圈140提供的电信号,从而使磁头110a能够跟随磁道176。在找到磁道176并识别特定的扇区化磁道部分188时,磁头110a或者从磁道176读取信息或者根据磁盘控制器从外部代理(例如计算机系统的微处理器)接收的指令将信息写入磁道176。
HDD的电子架构包括用于执行其各自的HDD操作功能的多个电子部件,诸如硬盘控制器(“HDC”)、接口控制器、臂电子模块、数据通道、马达驱动器、伺服处理器、缓冲存储器等。两个或更多个此类部件可以组合在称为“片上系统”(“SOC”)的单个集成电路板上。此类电子部件中的若干个(如果不是全部的话)通常布置在印刷电路板上,该印刷电路板耦接到HDD的底侧,诸如耦接到HDD外壳168。
本文参考硬盘驱动器,诸如参考图1所示和所述的HDD 100,可以包括有时被称为“混合驱动器”的信息存储设备。混合驱动器通常指的是具有常规HDD(参见例如HDD 100)与使用非易失性存储器(诸如闪存或其他固态(例如,集成电路)存储器)的固态存储设备(SSD)(其为电可擦除和可编程的)组合的功能的存储设备。由于不同类型的存储介质的操作、管理和控制通常不同,因此混合驱动器的固态部分可包括其自身对应的控制器功能,该控制器功能可与HDD功能一起集成到单个控制器中。混合驱动器可被构建和配置为以多种方式操作并利用固态部分,诸如作为非限制性示例,将固态存储器用作高速缓存存储器,用于存储频繁访问的数据,用于存储I/O密集数据等。另外,混合驱动器可以被构建和配置为基本上作为单个壳体中的两个存储设备,即常规的HDD和SSD,具有用于主机连接的一个或多个接口。
固态驱动器配置
如所讨论的,实施方案可在采用多个数据存储设备(DSD)诸如SSD的数据存储系统的上下文中使用。因此,图1B是示出可以实现本发明的实施方案的示例性操作上下文的框图。图1B示出了通用SSD架构150,其中SSD 152通过主通信接口156与主机154通信地耦接。实施方案不限于如图1B所描绘的配置,相反,实施方案可以利用除图1B所示之外的SSD配置来实现。例如,实施方案可被实现为在依赖于用于写入和读取数据的非易失性存储器存储部件的其他环境中操作。
主机154广义地表示对一个或多个存储器设备进行数据I/O请求或调用等的任何类型的计算硬件、软件或固件(或前述的任何组合)。例如,主机154可以是在计算机、平板电脑、移动电话或通常包含存储器或与存储器交互的任何类型的计算设备上执行的操作系统,诸如主机350(图3)。将主机154耦接到SSD 152的主接口156可以是例如存储系统的内部总线或通信电缆或无线通信链路等。
图1B所示的示例性SSD 152包括接口160、控制器162(例如,其中具有固件逻辑的控制器)、寻址164功能块、数据缓冲器高速缓存166以及一个或多个非易失性存储器部件170a、170b-170n。
接口160是部件即SSD 152与主机154之间在该上下文中的交互点,并且在硬件和软件两者的层级上均适用。这允许部件经由输入/输出(IO)系统和相关联的协议与其他部件进行通信。硬件接口通常由接口处的机械信号、电信号和逻辑信号以及用于对它们进行排序的协议来描述。通用和标准接口的一些非限制性示例包括SCSI(小型计算机系统接口)、SAS(串行附接SCSI)和SATA(串行ATA)。
SSD 152包括控制器162,该控制器162将把非易失性存储器部件(例如,NAND闪存)桥接到主机(诸如非易失性存储器170a、170b、170n)的电子器件结合到主机154。控制器通常是执行固件级代码的嵌入式处理器,并且是SSD性能的重要因素。
控制器162经由寻址164功能块与非易失性存储器170a、170b、170n进行交互。寻址164功能用于例如管理从主机154到SSD 152上(即SSD152的非易失性存储器170a、170b、170n上)的对应物理块地址的逻辑块地址(LBA)之间的映射。因为非易失性存储器页面和主机扇区的大小不同,所以SSD必须构建和维护使其能够在将数据写入扇区或从扇区读取数据的主机与实际放置该数据的物理非易失性存储器页面之间转换的数据结构。可为SSD的易失性存储器172中的会话构建和维护该表结构或“映射”,诸如DRAM或控制器162和寻址164可访问的一些其他本地易失性存储器部件。另选地,可以在SSD的非易失性存储器诸如非易失性存储器170a、170b-170n中的会话上更持久地保持表结构。
除非易失性存储器170a、170b-170n之外,寻址164还与数据缓冲器高速缓存166交互。SSD 152的数据缓冲器高速缓存166通常使用DRAM作为高速缓存,类似于硬盘驱动器中的高速缓存。数据缓冲器高速缓存166用作向和从非易失性存储器部件传输数据的缓冲器或分级区域,并且用作高速缓存以加快对高速缓存数据的未来请求。数据缓冲器高速缓存166通常用易失性存储器来实现,因此存储在其中的数据不会永久性地存储在高速缓存中,即,数据不是持久性的。
最后,SSD 152包括一个或多个非易失性存储器170a、170b-170n部件。对于非限制性示例,非易失性存储器部件170a、170b-170n可被实现为闪存存储器(例如,NAND或NOR闪存)或现在或将来可用的其他类型的固态存储器。非易失性存储器170a、170b-170n部件是数据持续存储在其上的实际存储器电子部件。SSD 152的非易失性存储器170a、170b-170n部件可被认为是硬盘驱动器(HDD)存储设备中的硬盘的模拟。
此外,本文对数据存储设备的引用可涵盖多介质存储设备(或“多介质设备”,其有时可被称为“多层设备”或“混合驱动器”)。多介质存储设备通常指的是具有常规HDD(参见例如HDD 100)与使用非易失性存储器(诸如闪存或其他固态(例如,集成电路)存储器)的SSD(例如,参见SSD 150)(其为电可擦除和可编程的)组合的功能的存储设备。由于不同类型的存储介质的操作、管理和控制通常不同,因此混合驱动器的固态部分可包括其自身对应的控制器功能,该控制器功能可与HDD功能一起集成到单个控制器中。多介质存储设备可被构建和配置为以多种方式操作并利用固态部分,诸如作为非限制性示例,将固态存储器用作高速缓存存储器,用于存储频繁访问的数据,用于存储I/O密集数据,用于存储对应于有效载荷数据的元数据(例如,用于辅助解码有效载荷数据)等。另外,多介质存储设备可以被构建和配置为基本上作为单个壳体中的两个存储设备,即常规的HDD和SSD,具有用于主机连接的一个或多个接口。
扩展和另选的替代方案
在前述说明中,已经参照大量的具体细节描述了本发明的实施方案,这些细节可根据不同的具体实施而变化。因此,可以在不脱离实施方案较宽的实质和范围的情况下对其进行各种修改和改变。因此,本发明以及申请人旨在成为本发明的唯一且排他性的指示物的是由本专利申请以此类权利要求发出的具体形式发出的一组权利要求,包括任何后续的更正。本文明确阐述的对包含在这些权利要求中的术语的任何定义应当决定如权利要求中使用的这些术语的含义。从而,未在权利要求中明确引述的限制、元件、特性、特征、优点或属性不应以任何方式限制此权利要求的范围。因此,本说明书和附图被认为是示例性意义的而不是限制性意义的。
此外,在该描述中,某些过程步骤可按特定顺序示出,并且字母和字母数字标签可用于识别某些步骤。除非在说明书中明确指明,否则实施方案不一定限于执行此类步骤的任何特定顺序。具体地讲,这些标号仅用于方便步骤的识别,并非旨在指定或要求执行此类步骤的特定顺序。

Claims (21)

1.一种用于识别有问题的硬盘驱动器(HDD)的方法,所述方法包括:
从多个硬盘驱动器(HDD)中的每个硬盘驱动器检索相应的恢复日志;
基于每个相应的恢复日志,针对所述多个HDD中的每个相应HDD的每个相应读写磁头确定每小时全恢复(FRPH)度量的值,包括:
对所述磁头在特定时长内在由所述磁头执行的所有恢复步骤上花费的时间量求和,包括将全恢复表征为对应于所述磁头在一个或多个恢复步骤上花费的预先确定的时长,
确定在所述特定时长内的相等数量的全恢复,以及
基于全恢复的所述数量和所述特定时长来确定所述磁头的所述FRPH;以及
响应于特定磁头FRPH达到预先确定的FRPH阈值,确定所述特定磁头在其中运行的所述HDD的原位修复。
2.根据权利要求1所述的方法,其中所述多个HDD构成单个数据存储系统。
3.根据权利要求2所述的方法,还包括:
基于构成所述单个数据存储系统的所述多个HDD的FRPH的平均值或中值来确定所述FRPH阈值。
4.根据权利要求1所述的方法,其中所述多个HDD构成多个数据存储系统。
5.根据权利要求4所述的方法,还包括:
基于构成所述多个数据存储系统的所述多个HDD的FRPH的平均值或中值来确定所述FRPH阈值。
6.根据权利要求1所述的方法,其中所述特定时长是可配置参数。
7.根据权利要求1所述的方法,其中确定FRPH的所述值还包括将有问题的HDD识别为具有在300小时的时间段内表现出等于或大于一个全恢复的所述FRPH阈值的FRPH值的一个或多个磁头的HDD。
8.根据权利要求1所述的方法,其中确定所述HDD的所述原位修复包括:
基于所述HDD具有在所述特定时长内表现出等于或大于所述FRPH阈值的FRPH值的一个或多个磁头将所述HDD识别为有问题的HDD;
在所述有问题的HDD内识别具有最高FRPH的磁头;以及
将具有所述最高FRPH的所述磁头分类为不具有在进一步的输入/输出(IO)操作中使用的资格。
9.根据权利要求8所述的方法,其中确定所述HDD的所述原位修复包括:
在没有磁头在所述特定时长内表现出等于或大于所述FRPH阈值的FRPH值的情况下将所述HDD重新格式化为其当前存储容量。
10.根据权利要求1所述的方法,其中确定所述HDD的所述原位修复包括:
识别存储介质的对所述FRPH值有贡献的一个或多个问题区域;以及
标记介质的不可用于进一步的输入/输出(IO)操作的所述一个或多个问题区域。
11.一种数据存储系统,包括:
多个数据存储设备;和
系统控制器电路,所述系统控制器电路包括存储器和一个或多个处理器,并且实施一个或多个指令序列,所述一个或多个指令序列在由所述一个或多个处理器执行时,使得执行以下操作:
从多个硬盘驱动器(HDD)中的每个硬盘驱动器检索相应的恢复日志;
基于每个相应的恢复日志,针对所述多个HDD中的每个相应HDD的每个相应读写磁头确定度量每小时全恢复(FRPH)的值,包括:
对所述磁头在特定时长内在由所述磁头执行的所有恢复步骤上花费的时间量求和,包括将全恢复表征为对应于所述磁头在一个或多个恢复步骤上花费的预先确定的时长,
确定在所述特定时长内的相等数量的全恢复,以及
基于全恢复的所述数量和所述特定时长来确定所述磁头的所述FRPH;以及
响应于特定磁头FRPH达到预先确定的FRPH阈值,确定所述特定磁头在其中运行的所述HDD的原位修复。
12.根据权利要求11所述的数据存储系统,其中所述一个或多个指令序列使得进一步执行以下操作:
基于构成所述数据存储系统的所述多个HDD的FRPH的平均值或中值来确定所述FRPH阈值。
13.根据权利要求11所述的数据存储系统,其中所述一个或多个指令序列使得进一步执行以下操作:
基于构成多个数据存储系统的所述多个HDD的FRPH的平均值或中值来确定所述FRPH阈值。
14.根据权利要求11所述的数据存储系统,其中确定所述HDD的所述原位修复包括:
基于所述HDD具有在所述特定时长内表现出等于或大于所述FRPH阈值的FRPH值的一个或多个磁头将所述HDD识别为有问题的HDD;
在所述有问题的HDD内识别具有最高FRPH的磁头;以及
将具有所述最高FRPH的所述磁头分类为不具有在进一步的输入/输出(IO)操作中使用的资格。
15.根据权利要求14所述的数据存储系统,其中确定所述HDD的所述原位修复包括:
在没有磁头在所述特定时长内表现出等于或大于所述FRPH阈值的FRPH值的情况下将所述HDD重新格式化为其当前存储容量。
16.根据权利要求11所述的数据存储系统,其中确定所述HDD的所述原位修复包括:
识别存储介质的对所述FRPH值有贡献的一个或多个问题区域;以及
标记介质的不可用于进一步的输入/输出(IO)操作的所述一个或多个问题区域。
17.一种数据存储系统,包括:
多个硬盘驱动器(HDD);
用于从所述多个HDD中的每个HDD检索相应的恢复日志的装置;
用于基于每个相应的恢复日志,针对所述多个HDD中的每个相应HDD的每个相应读写磁头确定度量每小时全恢复(FRPH)的值的装置,包括:
用于对所述磁头在特定时长内在由所述磁头执行的所有恢复步骤上花费的时间量求和,包括将全恢复表征为对应于所述磁头在一个或多个恢复步骤上花费的预先确定的时长的装置,
用于确定在所述特定时长内的相等数量的全恢复的装置,和
用于基于全恢复的所述数量和所述特定时长来确定所述磁头的所述FRPH的装置;和
用于响应于特定磁头FRPH达到预先确定的FRPH阈值,确定所述特定磁头在其中运行的所述HDD的原位修复的装置。
18.根据权利要求17所述的数据存储系统,其中用于确定所述HDD的所述原位修复的所述装置包括:
用于基于所述HDD具有在所述特定时长内表现出等于或大于所述FRPH阈值的FRPH值的一个或多个磁头将所述HDD识别为有问题的HDD的装置;
用于在所述有问题的HDD内识别具有最高FRPH的磁头的装置;和
用于将具有所述最高FRPH的所述磁头分类为不具有在进一步的输入/输出(IO)操作中使用的资格的装置。
19.根据权利要求18所述的数据存储系统,其中用于确定所述HDD的所述原位修复的所述装置包括:
用于在没有磁头在所述特定时长内表现出等于或大于所述FRPH阈值的FRPH值的情况下将所述HDD重新格式化为其当前存储容量的装置。
20.根据权利要求17所述的数据存储系统,其中用于确定所述HDD的所述原位修复的所述装置包括:
用于识别存储介质的对所述FRPH值有贡献的一个或多个问题区域的装置;和
用于标记介质的不可用于进一步的输入/输出(IO)操作的所述一个或多个问题区域的装置。
21.一种数据存储系统,包括:
多个固态数据存储设备(SSD);和
系统控制器电路,所述系统控制器电路包括存储器和一个或多个处理器,并且实施一个或多个指令序列,所述一个或多个指令序列在由所述一个或多个处理器执行时,使得执行以下操作:
基于主机输入/输出(IO)请求冲突来确定所述多个SSD中的每个相应SSD的延迟度量的值,包括:
对在特定时长内由所述SSD在冲突上花费的等待时间量求和,包括将全等待表征为对应于所述SSD解决冲突花费的预先确定的时长,
确定在所述特定时长内的相等数量的全等待,以及
基于全等待的所述数量和所述特定时长来确定所述SSD的所述延迟度量值;以及
响应于特定SSD延迟度量值达到预先确定的阈值,确定所述SSD的原位修复。
CN201980078935.2A 2019-06-26 2019-12-26 恢复行为对于数据存储设备的预后和原位修复的用途 Pending CN113179657A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/453,368 2019-06-26
US16/453,368 US10969969B2 (en) 2019-06-26 2019-06-26 Use of recovery behavior for prognosticating and in-situ repair of data storage devices
PCT/US2019/068627 WO2020263336A1 (en) 2019-06-26 2019-12-26 Use of recovery behavior for prognosticating and in-situ repair of data storage devices

Publications (1)

Publication Number Publication Date
CN113179657A true CN113179657A (zh) 2021-07-27

Family

ID=74042866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980078935.2A Pending CN113179657A (zh) 2019-06-26 2019-12-26 恢复行为对于数据存储设备的预后和原位修复的用途

Country Status (4)

Country Link
US (1) US10969969B2 (zh)
CN (1) CN113179657A (zh)
DE (1) DE112019005459T5 (zh)
WO (1) WO2020263336A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320131A (ja) * 1997-05-21 1998-12-04 Mitsubishi Electric Corp ディスクサブシステム
US20020036850A1 (en) * 2000-09-28 2002-03-28 Seagate Technologies Llc Enhanced short disc drive self test using historical logs
CN102089746A (zh) * 2008-05-13 2011-06-08 微软公司 采用事务日志的闪存恢复
CN105260279A (zh) * 2015-11-04 2016-01-20 四川效率源信息安全技术股份有限公司 基于smart数据动态诊断硬盘故障的方法和装置
JP2016146071A (ja) * 2015-02-06 2016-08-12 株式会社ワイ・イー・シー ハードディスクドライブ装置診断装置及びハードディスクドライブ装置診断機能を備えた複写装置
US20170123738A1 (en) * 2015-10-30 2017-05-04 Fuji Xerox Co., Ltd. Print system, display control device, display control method, and non-transitory computer readable medium
CN109791520A (zh) * 2016-09-30 2019-05-21 亚马逊技术股份有限公司 物理介质感知的空间耦合的日志记录和重放

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192499B1 (en) 1998-05-29 2001-02-20 Adaptec, Inc. Device and method for extending error correction beyond one sector time
US6408406B1 (en) 1999-08-31 2002-06-18 Western Digital Technologies, Inc. Hard disk drive infant mortality test
WO2001026112A1 (fr) 1999-09-30 2001-04-12 Fujitsu Limited Procede de gestion de la duree de vie d'un support de stockage, stockage, systeme de stockage et support de stockage
JP3869365B2 (ja) 2000-07-21 2007-01-17 富士通株式会社 ディスク記録装置、および記録ディスクのセクタ交替方法
JP3634809B2 (ja) 2002-02-28 2005-03-30 株式会社東芝 Av用途のディスク記憶装置及び同装置におけるセクタエラー時の処理方法
US20060200726A1 (en) 2005-03-03 2006-09-07 Seagate Technology Llc Failure trend detection and correction in a data storage array
US7370261B2 (en) * 2005-05-09 2008-05-06 International Business Machines Corporation Convolution-encoded raid with trellis-decode-rebuild
CN101324859A (zh) 2007-06-14 2008-12-17 上海市闵行中学 一种硬盘硬件故障的检测方法
US8201019B2 (en) * 2009-04-28 2012-06-12 International Business Machines Corporation Data storage device in-situ self test, repair, and recovery
US8085488B2 (en) 2009-08-27 2011-12-27 Hitachi Global Storage Technologies Netherlands B.V. Predicting operational problems in a hard-disk drive (HDD)
US9262429B2 (en) 2012-08-13 2016-02-16 Microsoft Technology Licensing, Llc De-duplicating attachments on message delivery and automated repair of attachments
US9729534B2 (en) 2015-02-26 2017-08-08 Seagate Technology Llc In situ device authentication and diagnostic repair in a host environment
CN104714869B (zh) 2015-03-31 2017-12-29 四川效率源信息安全技术股份有限公司 一种修复西数硬盘无法访问数据的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320131A (ja) * 1997-05-21 1998-12-04 Mitsubishi Electric Corp ディスクサブシステム
US20020036850A1 (en) * 2000-09-28 2002-03-28 Seagate Technologies Llc Enhanced short disc drive self test using historical logs
CN102089746A (zh) * 2008-05-13 2011-06-08 微软公司 采用事务日志的闪存恢复
JP2016146071A (ja) * 2015-02-06 2016-08-12 株式会社ワイ・イー・シー ハードディスクドライブ装置診断装置及びハードディスクドライブ装置診断機能を備えた複写装置
US20170123738A1 (en) * 2015-10-30 2017-05-04 Fuji Xerox Co., Ltd. Print system, display control device, display control method, and non-transitory computer readable medium
CN105260279A (zh) * 2015-11-04 2016-01-20 四川效率源信息安全技术股份有限公司 基于smart数据动态诊断硬盘故障的方法和装置
CN109791520A (zh) * 2016-09-30 2019-05-21 亚马逊技术股份有限公司 物理介质感知的空间耦合的日志记录和重放

Also Published As

Publication number Publication date
DE112019005459T5 (de) 2021-09-09
US20200409569A1 (en) 2020-12-31
WO2020263336A1 (en) 2020-12-30
US10969969B2 (en) 2021-04-06

Similar Documents

Publication Publication Date Title
US9552174B2 (en) Method and system for preventing unreliable data operations at cold temperatures
US9152568B1 (en) Environmental-based device operation
US9189309B1 (en) System and method for predicting single-disk failures
US9229796B1 (en) System and method for determining disk failure indicator to predict future disk failures
US6600614B2 (en) Critical event log for a disc drive
US7558988B2 (en) Storage system and control method thereof
US9141457B1 (en) System and method for predicting multiple-disk failures
US9373354B2 (en) Method and system for preventing unreliable data operations at cold temperatures
US20180060192A1 (en) Adaptive Failure Prediction Modeling for Detection of Data Storage Device Failures
US8291190B2 (en) Disk drive including a host interface supporting different sizes of data sectors and method for writing data thereto
CN111508532A (zh) 用于磁存储介质的健康管理
US11237893B2 (en) Use of error correction-based metric for identifying poorly performing data storage devices
US10897273B2 (en) System-level error correction coding allocation based on device population data integrity sharing
US11593204B2 (en) Fleet health management device classification framework
US7885024B2 (en) Oscillation test for off track write
US10969969B2 (en) Use of recovery behavior for prognosticating and in-situ repair of data storage devices
US11410695B1 (en) Magnetic disk device
US11042298B2 (en) Access schemes for drive-specific read/write parameters
US11164598B1 (en) Managing data associated with overwritten portions of previously-written tracks
US20240077921A1 (en) Dynamically controlling variable data storage device threshold temperatures within a storage system
JP2006202254A (ja) 分散記憶システムにおける予測される故障からの決定論的予防回復
Langston Disk drive failure factors
US20100110854A1 (en) Disk device, and data moving program and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination