CN107179968B - 信息存储装置、故障预测装置及故障预测方法 - Google Patents
信息存储装置、故障预测装置及故障预测方法 Download PDFInfo
- Publication number
- CN107179968B CN107179968B CN201610806742.2A CN201610806742A CN107179968B CN 107179968 B CN107179968 B CN 107179968B CN 201610806742 A CN201610806742 A CN 201610806742A CN 107179968 B CN107179968 B CN 107179968B
- Authority
- CN
- China
- Prior art keywords
- failure
- errors
- error
- physical
- disk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000006185 dispersion Substances 0.000 claims description 19
- 238000012423 maintenance Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 5
- 230000010365 information processing Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 22
- 238000001514 detection method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 101100028900 Caenorhabditis elegans pcs-1 gene Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2273—Test methods
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B19/00—Driving, starting, stopping record carriers not specifically of filamentary or web form, or of supports therefor; Control thereof; Control of operating function ; Driving both disc and head
- G11B19/02—Control of operating function, e.g. switching from recording to reproducing
- G11B19/04—Arrangements for preventing, inhibiting, or warning against double recording on the same blank or against other recording or reproducing malfunctions
- G11B19/048—Testing of disk drives, e.g. to detect defects or prevent sudden failure
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/18—Error detection or correction; Testing, e.g. of drop-outs
- G11B20/1816—Testing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B19/00—Driving, starting, stopping record carriers not specifically of filamentary or web form, or of supports therefor; Control thereof; Control of operating function ; Driving both disc and head
- G11B19/02—Control of operating function, e.g. switching from recording to reproducing
- G11B19/04—Arrangements for preventing, inhibiting, or warning against double recording on the same blank or against other recording or reproducing malfunctions
- G11B19/041—Detection or prevention of read or write errors
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B5/00—Recording by magnetisation or demagnetisation of a record carrier; Reproducing by magnetic means; Record carriers therefor
- G11B5/455—Arrangements for functional testing of heads; Measuring arrangements for heads
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/18—Error detection or correction; Testing, e.g. of drop-outs
- G11B20/1816—Testing
- G11B2020/1826—Testing wherein a defect list or error map is generated
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/18—Error detection or correction; Testing, e.g. of drop-outs
- G11B2020/1869—Preventing ageing phenomena from causing data loss, e.g. by monitoring the age of record carriers or by recognising wear, and by copying information elsewhere when a record carrier becomes unreliable
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开的实施方式涉及信息存储装置、故障预测装置以及故障预测方法。根据实施方式,获取记录介质上的错误的物理位置信息,基于所述位置信息算出所述记录介质上的错误之间的物理位置关系,基于所述位置关系判别与所述错误相关的故障模式。
Description
本申请要求以美国临时专利申请62/305,663号(申请日:2016年3月9日)为在先申请的优先权。本申请通过参照该在先申请而包括在先申请的全部内容。
技术领域
本实施方式通常涉及信息存储装置、故障预测装置以及故障预测方法。
背景技术
为了防止磁盘装置中记录的数据的损坏和/或消失,希望预测磁盘装置的故障,在预测到磁盘装置的故障的情况下,快速地进行配件更换和/或数据退避等。
发明内容
本实施方式提供能够适当地预测磁盘装置等信息存储装置的故障的信息存储装置、故障预测装置以及故障预测方法。
本实施方式的故障预测方法中,获取记录介质上的错误的物理位置信息,基于所述位置信息算出所述记录介质上的错误之间的物理位置关系,基于所述位置关系判别关于所述错误的故障模式。
附图说明
图1是示出应用第1实施方式所涉及的故障预测方法的存储系统的概略构成例的框图。
图2是示出用于图1的存储系统的磁盘装置的概略构成的框图。
图3的(a)以及图3的(b)是示出应用第1实施方式所涉及的故障预测方法的磁盘上的错误分布的一例的图。
图4的(a)是示出头故障以及盘故障中的错误数与错误间平均距离的关系的图,图4的(b)是示出头故障以及盘故障中的错误间平均距离与故障频度的关系的直方图。
图5的(a)是示出图2的参数信息收集部的工作的流程图,图5的(b)是示出图1的故障预测装置的工作的流程图。
图6是示出图1的故障模式判别部的构成例的框图。
图7是示出应用第1实施方式所涉及的故障预测方法的存储系统的其它例的框图。
图8是示出应用第1实施方式所涉及的故障预测方法的存储系统的又一其它例的框图。
图9是示出应用第1实施方式所涉及的故障预测方法的存储系统的又一其它例的框图。
图10是示出应用第1实施方式所涉及的故障预测方法的存储系统的又一其它例的框图。
图11的(a)至图11的(c)是示出应用第2实施方式所涉及的故障预测方法的磁盘上的错误分布的一例的图。
图12是示出头故障以及写入故障中的最大连续轨道数与故障频度的关系的直方图。
图13是示出应用第2实施方式所涉及的故障预测方法的故障预测装置的工作的流程图。
图14是示出应用第2实施方式所涉及的故障预测方法的故障模式判别部的构成例的框图。
图15是示出被第2实施方式所涉及的故障预测方法检测到的错误位置的显示例的图。
具体实施方式
以下,参照附图,对实施方式所涉及的磁盘装置以及故障预测方法详细地进行说明。此外,并不通过这些实施方式来限定本发明。
(第1实施方式)
图1是示出应用第1实施方式所涉及的故障预测方法的存储系统的概略构成例的框图。
在图1中,在存储系统11A设置有N(N为正整数)台磁盘装置HD1~HDN。存储系统11A的容量能够设定为例如太字节(Terabyte)量级。存储系统11A能够用于例如数据中心。
图2是示出用于图1的存储系统的磁盘装置的概略构成的框图。
在图2中,在磁盘装置HDD设置有磁盘22,磁盘22经由主轴21被支承。另外,在磁盘装置HDD设置有头滑块HM,在头滑块HM,作为磁头而设置有写入头HW以及读取头HR。另外,写入头HW以及读取头HR被配置成与磁盘22对置。
此外,在图2中,示出如下情况:设置有3张磁盘22,通过在磁盘22的双面进行记录,记录面有6面。在此,能够针对各记录面设置磁头。在此,头滑块HM经由臂A被保持在磁盘22上。臂A能够在寻道(seek)时等使头滑块HM在水平面内滑动。
另外,在磁盘装置HDD设置有驱动臂A的音圈马达24,并且设置有使磁盘22旋转的主轴马达23。
写入头HW以及读取头HR经由头放大器25与信号处理电路26连接。
另外,在磁盘装置HDD设置有马达驱动器27、28、控制器29、MCU(Micro ControllerUnit;微控制器单元)30、存储器31以及参数信息收集部32。信号处理电路26、马达驱动器27、28、控制器29、MCU30、存储器31以及参数信息收集部32能够经由总线33而连接。控制器29与外部装置34连接。外部装置34可以是主计算机,也可以是外部接口。
头放大器25能够将在写入头HW中流动的写入电流放大和/或将由读取头HR读出的再生信号放大。信号处理电路26能够将由读取头HR再生的信号转换为可由主机10处理的数据形式,能够将从主机10输出的数据转换为可由写入头HW记录的信号形式。马达驱动器27能够驱动主轴马达23。马达驱动器28能够驱动音圈马达24。控制器29能够进行与外部装置34的接口控制。MCU30能够进行磁盘装置HDD的整体控制。存储器31能够保存磁盘装置HDD的控制所必需的数据和/或作为写入缓冲器和/或读取缓冲器使用。参数信息收集部32能够收集与磁盘装置HDD的写入或者读取相关的参数信息以及错误信息。错误信息例如可以举出错误数、错误率、错误位置信息,参数信息可以举出重试数、重试率、信号质量值、头浮起量等。
另外,在图1中,存储系统11A经由接口(IF)13与主机10连接。主机10与故障预测装置15以及显示部16连接。故障预测装置15能够预测各磁盘装置HD1~HDN的故障模式。在该故障模式的预测中,可以使用与磁盘22上的错误之间的物理位置关系相关的信息。该错误可以是读取错误,也可以是写入错误。在此,作为各磁盘装置HD1~HDN的故障模式,故障预测装置15可以判别盘故障和头故障。在该故障模式的判别中,可以使用与磁盘22上的错误之间的物理距离相关的参数。
或者,作为各磁盘装置HD1~HDN的故障模式,故障预测装置15也可以判别写入故障和读取故障。在该故障模式的判别中,可以使用与磁盘22上的存在错误的半径方向的大小(日文:大きさ)相关的参数。
在故障预测装置15设置有故障预兆检测部15A、故障模式判别部15B以及保全部15C。故障预兆检测部15A能够检测各磁盘装置HD1~HDN的故障预兆。故障模式判别部15B能够基于磁盘22上的错误之间的物理位置关系来判别关于错误的故障模式。在此,故障模式判别部15B能够基于与磁盘22上的错误之间的物理距离相关的参数,来判别盘故障和头故障。与错误之间的物理距离相关的参数能够表示磁盘22上的错误分布的局部存在性(局部性)或者分散性。在此,通过将与错误之间的物理距离相关的参数用于故障模式的判别,能够将故障模式数值化,能够使计算机执行故障模式的判别。保全部15C能够根据各磁盘装置HD1~HDN的故障模式来进行数据的保全处理。
图3的(a)以及图3的(b)是示出应用第1实施方式所涉及的故障预测方法的磁盘上的错误分布的一例的图。
在图3的(a)中,错误PE分散在磁盘22上。该错误PE的分散由于磁头移动至磁盘22上的任意位置而发生。因此,当存在错误PE的分散的情况下,能够判别为头故障。
另一方面,在图3的(b)中,错误PE存在于磁盘22的局部上。该错误PE的局部存在能够与磁盘22的局部的损伤对应。因此,当错误PE局部存在的情况下,能够判别为盘故障。
作为与错误之间的物理距离相关的参数,能够使用分散率D。通过使用该分散率D,能够容易地判定磁盘22上的错误分布的局部存在性或者分散性。对于该分散率D,可以根据错误间平均距离W和错误间平均距离的期待值We,利用以下的式子给出。
D=W/We
其中,
S:分布有错误的面积
di:从错误i到最邻近错误为止的距离
n:错误个数
在此,若分散率D为比1小的程度,则能够称为错误PE局部存在,若分散率D为接近1的程度,则错误PE会分散。能够使分散率D反映错误的空间分布特性,能够使盘故障的判别精度得以提高。
图4的(a)是示出头故障以及盘故障中的错误数(可恢复错误(recovered error)数)和错误间平均距离的关系的图,图4的(b)是示出头故障以及盘故障中的错误间平均距离和故障频度的关系的直方图。此外,错误间平均距离用MDDBE表现。
在图4的(a)以及图4的(b)中,利用错误间平均距离,将头故障组和盘故障组明确地分离。在此,能够从错误比较少的阶段起,将头故障组与盘故障组分离。
在此,通过在各磁盘装置HD1~HDN的故障预测时判别是头故障还是盘故障,能够早期地判断是无法在磁盘22整面进行读取或者写入的状态、还是能够在磁盘22的局部区域以外正常地进行读取或者写入的状态。因此,能够在防止磁盘装置HD1~HDN的过度更换的同时,防止数据的大范围的损坏,能够在抑制成本增加的同时,提高各磁盘装置HD1~HDN的可靠性。
以下,对图1的故障预测装置15的整体的工作进行说明。
图5的(a)是示出图2的参数信息收集部的工作的流程图,图5的(b)是示出图1的故障预测装置的工作的流程图。
在图5的(a)中,在磁盘装置HDD通常工作的情况下(S1),判断是否发生了错误(S2)。在发生了错误的情况下,在参数信息收集部32中,获取错误信息(S3),并记录该错误信息(S4)。另外,即便在未发生错误的情况下(S2),当发生内部的定时器中断(timerinterrupt)(S5)时,在参数信息收集部32中,获取磁盘装置HDD的内部信息(S6),并记录该内部信息(S7)。
另一方面,在图5的(b)中,在磁盘装置HDD通常工作的情况下(S11),在故障预测装置15中,从参数信息收集部32获取错误信息以及内部信息(S12)。另外,在故障预兆检测部15A中,基于错误数、错误率、错误位置信息、重试数、重试率、信号质量值以及头浮起量等测定值,来检测有无故障预兆(S13)。例如,使用该测定值中的某一个或者该测定值中的1个以上来算出评价值,在该评价值超过了预定的阈值的情况下,能够判定为存在故障预兆。在未检测到故障预兆的情况下,继续使用磁盘装置HDD(S15)。
另一方面,若在故障预兆检测部15A中检测到故障预兆,则在故障模式判定部15B中,判定关于故障预兆的故障模式(S14)。故障模式判定部15B在预定的定时,获取磁盘装置HDD内所保存的参数信息以及错误信息。在此所述的错误意味磁数据的读取错误,其中除包含可恢复的错误之外,还包含通过扇区交替处理恢复的交替源(日文:交代元)的错误。在此,故障模式判定部15B能够凭借预定的阈值,根据与错误的空间连续性相关的参数,判定关于故障预兆的故障模式是盘故障、还是头故障。
在判定为故障模式是头故障的情况下,在保全部15C中,保全由该读取头HR读出的数据(S16)。该由读取头HR读出的数据是指记录于与该读取头HR对应的盘面的数据。在此,保全部15C能够将由判定为存在头故障的预兆的读取头HR读出的数据拷贝至其它的盘面。其它的盘面是指,磁盘装置HDD所含的盘面(在图2的例子中为6面)中的、由判定为存在头故障的预兆的读取头HR以外的读取头HR读出数据的盘面。
其它的盘面既可以是设置有被判定为存在头故障的预兆的读取头HR的盘面的相反侧的盘面,也可以是与设置有被判定为存在头故障的预兆的读取头HR的磁盘22不同的磁盘22的盘面,还可以是与具备被判定为存在头故障的预兆的读取头HR的磁盘装置不同的磁盘装置所含的盘面。另外,优选其它的盘面是设置于该盘面的读取头HR的状态良好的盘面。读取头HR的状态良好的盘面也可以是与判定为无故障预兆的读取头HR对应的盘面、或在该盘面发生的错误数为预定值以下的盘面。进而,优选其它的盘面是错误率少的盘面。在此,保全部15C能够从磁盘装置收集各盘面的错误率,基于所收集的错误率,选择错误率少的盘面。
在判定为故障模式是盘故障的情况下,在保全部15C中,能够根据发生了错误的地址信息,决定是盘故障的可能性高的区域,并向主机10通知不在该区域新记录数据。另外,也可以向用户通知有无故障预兆和/或与故障模式相关的信息(S17)。此外,基于保全部15C的数据的保全方法不限于上述的方法。例如,保全部15C也可以将多个保全方法保存于查找表等,根据被检测到预兆的头的ID和/或各头的评价值等,选择要执行的保全方法。
图6是示出图1的故障模式判别部的构成例的框图。
在图6中,在故障模式判别部15B设置有错误记录获取部41、位置信息生成部42、故障模式判别模型43以及物理位置转换表44。错误记录获取部41能够经由主机10获取错误记录。位置信息生成部42能够生成磁盘22上的错误的物理位置信息。物理位置转换表44能够保持逻辑地址与磁盘上的物理位置信息的对应关系。故障模式判别模型43能够构建以与错误的位置信息相关的参数为解释变量(说明变量)的回归模型。在判别是头故障、还是盘故障的情况下,也可以构建以与错误的个数和错误之间的物理距离相关的参数为解释变量的多变量逻辑回归模型。
另外,通过错误记录获取部41从参数信息收集部32获取错误记录。在该错误记录中可以包含错误的逻辑地址。另外,在错误记录中,存在将写入错误和读取错误区别地记录的情况,但是,也可以包含错误记录的写入错误和读取错误而称为错误。另外,在位置信息生成部42中,通过参照逻辑-物理地址转换表44而将错误的逻辑地址转换为物理地址。另外,在故障模式判别模型43中,基于错误的物理地址生成与错误之间的物理距离相关的参数,根据该参数判别故障模式。
在此,在对故障模式的判别使用多变量逻辑回归模型的情况下,可以使用以下的式(1)。
p=1/(1+exp(-(β0+β1x1+…+βnxn)))…(1)
其中,p为模型输出,x为解释变量,β为其系数。在判别是头故障、还是盘故障的情况下,可以对解释变量x使用错误的个数(例如,可恢复错误数)、再生扇区数、或者与错误之间的物理距离相关的参数。与错误之间的物理距离相关的参数可以从分散率、错误之间的二维距离平均值、错误之间的二维距离中央值、错误之间的一维距离平均值以及错误之间的一维距离中央值之中进行选择。二维距离平均值以及二维距离中央值能够体现二维空间距离。在使用二维空间距离的方法中,能够精度良好地判别错误之间的接近性,能够精度良好地判别错误的局部性或者分散性。一维距离平均值以及一维距离中央值能够体现柱面(cylinder)距离。使用柱面距离的方法,与使用二维空间距离的方法相比,能够降低涉及计算的负担。
能够通过该模型输出p与预定的阈值的大小关系来判别是盘故障、还是头故障。例如,能够表示:模型输出p越接近于1,则是盘故障的可能性越高,模型输出p越接近于0,则是头故障的可能性越高。
图7是示出应用第1实施方式所涉及的故障预测方法的存储系统的其它例的框图。
在图1中,示出了以单体构成故障预测装置15的例子,当也可以将故障预测装置15内置于服务器。
即,在图7中,在存储系统11B设置有N台磁盘装置HD1~HDN、外部接口12A、控制装置12B以及维护接口12C。控制装置12B能够将磁盘装置HD1~HDN与外部接口12A或者维护接口12C连接。外部接口12A经由外部网络50与M(M为正整数)台客户端PC1~PCM连接。维护接口12C与管理服务器51A连接。管理服务器能够与一个或者多个存储系统12B的维护接口12C连接。在管理服务器51A设置有主机10、故障预测装置15以及显示部16。
在此,故障预测装置15能够经由维护接口12C对磁盘装置HD1~HDN进行访问,能够减轻涉及外部网络50的负担。
图8是示出应用第1实施方式所涉及的故障预测方法的存储系统的又一其它例的框图。
在图7中,示出了故障预测装置15不经由外部网络50对磁盘装置HD1~HDN进行访问的例子,但也可以经由外部网络50与磁盘装置HD1~HDN进行访问。
即,在图8中,在存储系统11C设置有N台磁盘装置HD1~HDN、外部接口12A以及控制装置12B。控制装置12B能够将磁盘装置HD1~HDN与外部接口12A连接。外部接口12A经由外部网络50与客户端PC1~PCM以及管理服务器51A连接。在管理服务器51A设置有主机10、故障预测装置15以及显示部16。
在此,故障预测装置15能够经由外部网络50对磁盘装置HD1~HDN进行访问。因此,不再需要存储系统11C设置维护接口12C,与图7的存储系统11B相比能够使构成简化。
图9是示出应用第1实施方式所涉及的故障预测方法的存储系统的又一其它例的框图。
在图7以及图8中,示出了故障预测装置15设置于磁盘装置HD1~HDN的外部的例子,但也可以设置于各磁盘装置HD1~HDN。
即,在图9中,在存储系统11D设置有N台磁盘装置HD1~HDN、外部接口12A、控制装置12B以及维护接口12C。在各磁盘装置HD1~HDN,设置有故障预测装置15以及主机10。控制装置12B能够将磁盘装置HD1~HDN与外部接口12A或者维护接口12C连接。外部接口12A经由外部网络50与客户端PC1~PCM连接。维护接口12C与管理服务器51B连接。管理服务器51B与显示部16连接。
在此,通过在各磁盘装置HD1~HDN设置故障预测装置15,能够使各磁盘装置HD1~HDN专有故障预测装置15,能够减轻涉及故障预测装置15的负担。
图10是示出应用第1实施方式所涉及的故障预测方法的存储系统的又一其它例的框图。
在图9中,示出故障预测装置15设置于各磁盘装置HD1~HDN的例子,但也可以设置于存储系统11E。
即,在图10中,在存储系统11E设置有N台磁盘装置HD1~HDN、外部接口12A、控制装置12B、管理接口12D以及管理节点12E。控制装置12B能够将磁盘装置HD1~HDN与外部接口12A或者管理接口12D连接。外部接口12A经由外部网络50与M台客户端PC1~PCM连接。管理接口12D与管理服务器12E连接。在管理服务器12E设置有主机10、故障预测装置15以及显示部16。管理服务器12E也可以经由管理接口12D与多个存储系统11E连接。在该情况下,在由管理接口12D连接的多个存储系统11E中,只要存在至少一个以上的具有管理服务器12E的存储系统11E即可,也可以是组合使用无管理系统12E的存储系统的构成。
在此,故障预测装置15能够经由管理接口12D对磁盘装置HD1~HDN进行访问,能够减轻涉及外部网络50的负担。
此外,在上述的实施方式中,对于判别作为故障模式是头故障、还是盘故障的方法进行了说明,但也可以应用于判别作为故障模式是头故障、还是介质故障的方法。另外,在上述的实施方式中,作为记录介质,以磁盘为例,但是,记录介质也可以是磁光盘,还可以是相变型光盘。
(第2实施方式)
图11的(a)至图11的(c)是示出应用第2实施方式所涉及的故障预测方法的磁盘上的错误分布的一例的图。
在图11的(a)中,在磁盘22上,错误PE仅在1条轨道T内沿圆周方向连续地发生。在轨道T内仅在圆周方向连续地发生错误PE的情况下,该错误PE的轨迹能够与写入头HW写入时的轨迹对应。因此,在错误PE在轨道T内仅在圆周方向上连续地发生的情况下,能够判别为写入故障。
另一方面,在图11的(b)中,在磁盘22上,错误PE在区域EA局部存在。但是,图11的(b)的错误PE,遍及多个轨道T而发生。该错误PE的局部存在能够与磁盘22的局部的损伤对应。因此,在错误PE遍及多个轨道T而局部存在于区域EA的情况下,能够判别为盘故障。
另一方面,在图11的(c)中,在磁盘22上,错误PE遍及大范围地分散。该错误PE的分散由于磁头移动至磁盘22上的任意的位置而发生。在该情况下,存在不仅发生了头故障,还发生了大范围内的盘故障或者这双方的故障的可能性。在该情况下,由于错误PE分散,因此,磁盘22的盘面全部无法被使用,该磁盘22上的故障的范围与头故障相同。因此,在存在错误PE的分散的情况,能够判别为头故障。
图12是示出头故障以及写入故障中的最大连续轨道数与故障频度的关系的直方图。此外,头故障组(群)与读取时发生的错误(也称为读取故障)对应,写入故障组与写入时发生的错误(也称为写入故障)对应。也能够换言之为:读取故障组是由于与图2中的读取头HR相关联的故障而发生的错误,写入故障组是由于与写入头HW相关联的故障而发生的错误。
在图12中,对于写入故障组,在轨道T内沿圆周方向连续地发生了错误PE。头故障组遍及多个轨道T发生了错误PE。因此,能够利用发生错误PE的最大连续轨道数,将头故障组与写入故障组明确地分离。
在此,通过在各磁盘装置HD1~HDN的故障预测时判别是写入故障、还是读取故障,能够早期地检测能够进行磁盘22的读取、但无法进行写入的状态。因此,通过在禁止磁盘22的写入同时容许读取,能够在防止磁盘装置HD1~HDN的过度更换的同时防止数据的大范围的损坏,能够在抑制成本增加的同时,提高各磁盘装置HD1~HDN的可靠性。
图13是示出应用第2实施方式所涉及的故障预测方法的故障预测装置的工作的流程图。
在图13中,在磁盘装置HDD通常工作的情况下(S21),故障预测装置15,从参数信息收集部32获取错误信息(S22)。另外,在故障预兆检测部15A中,基于错误数、错误率、错误位置信息、重试数、重试率、信号质量值以及头浮起量等测定值,检测有无故障预兆(S23)。在未检测到故障预兆的情况下,继续使用磁盘装置HDD(S25)。
另一方面,若由故障预兆检测部15A检测到故障预兆,则在故障模式判定部15B中,判定关于故障预兆的故障模式(S24)。在此,故障模式判定部15B能够凭借预定的阈值,以与存在错误的半径方向的大小相关的参数为基础,判定关于故障预兆的故障模式是写入故障、还是读取故障。与错误的半径方向的大小相关的参数,例如可以使用在磁盘装置HDD中发生的所有错误的轨道总数和/或错误不重复的轨道编号的总数等。或者,也可以使用错误的半径方向的轨道位置的标准偏差和/或轨道间距离的总和等。或者,也可以使用最大连续轨道数(在磁盘装置HDD中发生的全部的错误连续的轨道数的最大值)。
在判定为故障模式是写入故障的情况下,在保全部15C中,例如,针对被判定为写入故障的盘面,通过禁止自此以后的写入而抑制错误的发生(S26)。另外,由于认为未发生读取故障,因此,也可以通过通常的读取工作使存储于盘面的数据进行退避。进而,例如,也可以通过在数据退避后等再次进行写入而判断是否是暂时的和/或局部的写入错误。另外,也可以向用户通知有无故障预兆和/或与故障模式相关的信息。
在故障模式被判定为读取故障的情况下,在保全部15C中,也可以根据读取错误的个数等来对数据退避和/或继续使用进行判断(S27)。另外,读取故障的情况也存在未读取到数据的情况,因此,也可以为了保全而提前将记录于其它的磁盘装置HDD的数据进一步拷贝至其它的场所。另外,也可以通过与实施方式1同样的保全方法,来进行数据的保全。
图14是示出应用第2实施方式所涉及的故障预测方法的故障模式判别部的构成例的框图。
在图14中,在第2实施方式中,可以取代故障模式判别部15B而设置故障模式判别部15B′。在故障模式判别部15B′设置有错误记录获取部41、位置信息生成部42′以及故障模式判别模型43′。错误记录获取部41能够经由主机10获取错误记录。位置信息生成部42′能够生成磁盘22上的错误的物理位置信息。故障模式判别模型43′能够构建以与错误的位置信息相关的参数为解释变量的回归模型。在判别是写入故障、还是读取故障的情况下,也可以构建以与轨道数相关的参数和/或错误次数、重试次数等为解释变量的多变量逻辑回归模型。
另外,利用错误记录获取部41从参数信息收集部32获取错误记录。在该错误记录中可以含有错误的逻辑地址。另外,在位置信息生成部42′中,从错误的逻辑地址生成错误的轨道位置。另外,在故障模式判别模型43′中,基于错误的轨道位置生成与存在错误的半径方向的大小相关的参数,根据该参数判别故障模式。
在此,在对故障模式的判别使用多变量逻辑回归模型的情况下,能够使用式(1)。在判别是写入故障、还是读取故障的情况下,对于解释变量x,可以使用轨道总数和/或错误次数等。或者,也可以使用错误的最大连续轨道数、内部信息记录中的交替处理启动次数、错误信息记录的全部错误的轨道位置的分散、记录于错误信息记录的硬件错误次数、内部信息记录中的写入重试次数、记录于错误信息记录的写入错误次数、内部信息记录中的读取重试次数、记录于内部信息记录的软件错误次数、记录于错误信息记录的软件错误次数等。能够通过该模型输出p与预定的阈值的大小关系来判别是写入故障、还是读取故障。例如,能够表示为:模型输出p越接近于1,则是写入故障的可能性越高,模型输出p越接近于0,则是读取故障的可能性越高。
图15是示出被第2实施方式所涉及的故障预测方法检测到的错误位置的显示例的图。
在图15中,设为预测图1的磁盘装置HDD的写入故障和读取故障。在此,对磁盘装置HDD的与6面相当的盘面标注①至⑥的编号,各盘面的状态显示在显示部16。在此,针对各盘面,能够显示有无故障预兆(“D:-”表示无故障预兆)、写入故障与读取故障的区别、错误轨道数以及错误位置等。
此外,在故障预测装置15判别是写入故障、还是读取故障的情况下,既可以应用于图1的构成,也可以应用于图7至图10中任一个的构成。
虽然说明了本发明的几个实施方式,但是这些实施方式只是作为例子而示出的,并非用于限定发明的范围。这些新的实施方式能够以其他各种方式被实施,在不脱离发明的主旨的范围内,可以进行各种省略、置换、变更。这些实施方式和其变形包含于发明的范围和主旨内,并且包含于权利要求书所记载的发明及其等同的范围内。
Claims (17)
1.一种信息存储装置,具备:
磁盘;
相对于所述磁盘设置的磁头;以及
预测部,其基于所述磁盘上的错误之间的物理位置关系,预测关于所述错误的故障模式,
所述预测部基于以所述错误的个数和与所述错误的位置信息相关的参数为解释变量的多变量逻辑回归模型来预测所述故障模式。
2.根据权利要求1所述的信息存储装置,其中,
所述错误之间的物理位置关系是所述错误之间的物理距离,
所述预测部基于与所述错误之间的物理距离相关的参数来预测所述故障模式是盘故障、还是头故障。
3.根据权利要求2所述的信息存储装置,其中,
与所述错误之间的物理距离相关的参数表示所述磁盘上的错误分布的局部存在性或者分散性。
4.根据权利要求2所述的信息存储装置,其中,
所述物理距离是二维空间距离或者柱面距离。
6.根据权利要求2所述的信息存储装置,其中,
所述预测部具备保全部,所述保全部在所述盘故障的情况下,将包含发生了所述错误的部位的预定范围设为禁止写入,在所述头故障的情况下,使数据退避至备用区域。
7.根据权利要求2所述的信息存储装置,其中,
具备显示部,所述显示部显示包含所述错误的物理位置信息以及与所述错误之间的物理距离相关的参数中的至少某一个的信息。
8.根据权利要求1所述的信息存储装置,其中,
所述错误之间的物理位置关系是所述错误的半径方向的大小,
所述预测部基于与存在所述错误的半径方向的大小相关的参数来预测所述故障模式是写入故障、还是读取故障。
9.根据权利要求8所述的信息存储装置,其中,
与所述错误的半径方向的大小相关的参数,是存在错误的轨道的总数、错误连续的轨道数的最大值或者错误的半径方向的标准偏差。
10.根据权利要求8所述的信息存储装置,其中,
所述预测部具备保全部,所述保全部在所述写入故障的情况下,设为禁止写入,在所述读取故障的情况下,使数据退避至备用区域。
11.根据权利要求8所述的信息存储装置,其中,
具备显示部,所述显示部显示包含存在所述错误的轨道的物理位置信息以及存在所述错误的轨道的总数中的至少某一个的信息。
12.一种故障预测装置,具备:
获取部,其获取记录介质上的错误的物理位置信息;和
判别部,其基于所述位置信息算出所述记录介质上的错误之间的物理位置关系,基于所述位置关系判别关于所述错误的故障模式,
所述错误之间的物理位置关系是所述错误之间的物理距离,
所述判别部基于与所述错误之间的物理距离相关的参数来判别所述故障模式是介质故障、还是头故障。
13.根据权利要求12所述的故障预测装置,其中,
与所述错误之间的物理距离相关的参数表示所述记录介质上的错误分布的局部存在性或者分散性。
14.根据权利要求12所述的故障预测装置,其中,
所述错误之间的物理位置关系是所述错误的半径方向的大小,
所述判别部基于与存在所述错误的半径方向的大小相关的参数来判别所述故障模式是写入故障、还是读取故障。
15.一种故障预测方法,包括:
获取记录介质上的错误的物理位置信息;
基于所述位置信息算出所述记录介质上的错误之间的物理位置关系,基于所述位置关系判别关于所述错误的故障模式,
所述错误之间的物理位置关系是所述错误之间的物理距离,
基于与所述错误之间的物理距离相关的参数来判别所述故障模式是介质故障、还是头故障。
16.根据权利要求15所述的故障预测方法,其中,
与所述错误之间的物理距离相关的参数表示所述记录介质上的错误分布的局部存在性或者分散性。
17.根据权利要求15所述的故障预测方法,其中,
所述错误之间的物理位置关系是所述错误的半径方向的大小,
基于与存在所述错误的半径方向的大小相关的参数来判别所述故障模式是写入故障、还是读取故障。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662305663P | 2016-03-09 | 2016-03-09 | |
US62/305663 | 2016-03-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107179968A CN107179968A (zh) | 2017-09-19 |
CN107179968B true CN107179968B (zh) | 2020-06-26 |
Family
ID=59788506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610806742.2A Active CN107179968B (zh) | 2016-03-09 | 2016-09-06 | 信息存储装置、故障预测装置及故障预测方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10134437B2 (zh) |
CN (1) | CN107179968B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857330B (zh) * | 2017-11-30 | 2022-02-15 | 宜鼎国际股份有限公司 | 数据存取效率的预估方法 |
US11099925B2 (en) | 2018-07-10 | 2021-08-24 | EMC IP Holding Company LLC | Datacenter preemptive measures for improving protection using IoT sensors |
US11106528B2 (en) * | 2018-10-10 | 2021-08-31 | EMC IP Holding Company LLC | Datacenter IoT-triggered preemptive measures using machine learning |
US11450348B2 (en) * | 2019-01-31 | 2022-09-20 | Marvell Asia Pte, Ltd. | Health management for magnetic storage media |
CN111651933B (zh) * | 2020-05-22 | 2023-09-26 | 宁波诺丁汉新材料研究院有限公司 | 基于统计推断的工业锅炉故障预警方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7342737B2 (en) * | 2006-02-10 | 2008-03-11 | Seagate Technology Llc | Off track write protection using filtered position error signal |
US20090153997A1 (en) * | 2007-06-21 | 2009-06-18 | Samsung Electronics Co., Ltd. | Method operating hard disk drive on the basis of predicted defect using hierarchical clustering and curve fit |
CN105468484A (zh) * | 2014-09-30 | 2016-04-06 | 伊姆西公司 | 用于在存储系统中确定故障位置的方法和装置 |
CN110399238A (zh) * | 2019-06-27 | 2019-11-01 | 浪潮电子信息产业股份有限公司 | 一种磁盘故障预警方法、装置、设备及可读存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020191319A1 (en) * | 2001-04-12 | 2002-12-19 | Seagate Technology Llc | Merged defect entries for defects running in circumferential and radial directions on a disc |
JP4174009B2 (ja) | 2003-05-30 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テープ記録装置、テープ障害検出システム、テープ障害検出方法、プログラム、及び記録媒体 |
JP2007035217A (ja) | 2005-07-29 | 2007-02-08 | Fujitsu Ltd | ディスク記憶装置のデータ退避処理方法及びディスク記憶システム |
US7461298B2 (en) | 2005-08-31 | 2008-12-02 | Network Appliance, Inc. | Method and apparatus for diagnosing mass storage device anomalies |
US20070074087A1 (en) * | 2005-09-27 | 2007-03-29 | Hong-Jing Lo | System and method for writing information to an optical medium with predicting of defect characteristics |
KR100714876B1 (ko) * | 2005-12-27 | 2007-05-07 | 삼성전자주식회사 | 하드디스크 드라이브, 하드디스크 드라이브의 스크래치처리방법 및 그 방법을 수행하는 컴퓨터 프로그램을 기록한기록매체 |
JP4821448B2 (ja) | 2006-06-14 | 2011-11-24 | 富士通株式会社 | Raidコントローラおよびraid装置 |
JP2008010113A (ja) * | 2006-06-30 | 2008-01-17 | Fujitsu Ltd | 磁気ディスク制御装置、磁気ディスク装置および読取り障害修復方法 |
US8341121B1 (en) | 2007-09-28 | 2012-12-25 | Emc Corporation | Imminent failure prioritized backup |
US20090161243A1 (en) * | 2007-12-21 | 2009-06-25 | Ratnesh Sharma | Monitoring Disk Drives To Predict Failure |
US8760780B1 (en) * | 2012-03-22 | 2014-06-24 | Amazon Technologies, Inc. | System and method for disk sector failure prediction |
-
2016
- 2016-09-06 US US15/256,973 patent/US10134437B2/en active Active
- 2016-09-06 CN CN201610806742.2A patent/CN107179968B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7342737B2 (en) * | 2006-02-10 | 2008-03-11 | Seagate Technology Llc | Off track write protection using filtered position error signal |
US20090153997A1 (en) * | 2007-06-21 | 2009-06-18 | Samsung Electronics Co., Ltd. | Method operating hard disk drive on the basis of predicted defect using hierarchical clustering and curve fit |
CN105468484A (zh) * | 2014-09-30 | 2016-04-06 | 伊姆西公司 | 用于在存储系统中确定故障位置的方法和装置 |
CN110399238A (zh) * | 2019-06-27 | 2019-11-01 | 浪潮电子信息产业股份有限公司 | 一种磁盘故障预警方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US10134437B2 (en) | 2018-11-20 |
CN107179968A (zh) | 2017-09-19 |
US20170263283A1 (en) | 2017-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107179968B (zh) | 信息存储装置、故障预测装置及故障预测方法 | |
US7359134B2 (en) | Data save processing method for disk storage device and disk storage system | |
US6415189B1 (en) | Method and system for predicting disk drive failures | |
JP6078984B2 (ja) | 処理装置,処理方法,処理プログラム及び管理装置 | |
CN113179665B (zh) | 使用基于纠错的度量来识别性能不佳的数据存储设备 | |
CN103700387A (zh) | 硬盘坏道监测修复装置及方法 | |
US20080165444A1 (en) | Baseline popping noise detection circuit | |
US20060212777A1 (en) | Medium storage device and write path diagnosis method | |
US9343106B2 (en) | Performing process for removal medium | |
Tsai et al. | A study of soft error consequences in hard disk drives | |
JP4798037B2 (ja) | ハードディスクドライブ状態監視装置およびハードディスクドライブ状態監視方法 | |
US20060248236A1 (en) | Method and apparatus for time correlating defects found on hard disks | |
JP2017037626A (ja) | 故障予測装置、故障予測方法及び故障予測プログラム | |
JP2008198322A5 (zh) | ||
JP2008257411A (ja) | ディスク制御システム | |
US10969969B2 (en) | Use of recovery behavior for prognosticating and in-situ repair of data storage devices | |
US20200264946A1 (en) | Failure sign detection device, failure sign detection method, and recording medium in which failure sign detection program is stored | |
JP2880701B2 (ja) | ディスクサブシステム | |
JP2012038362A (ja) | ハードディスク故障予兆検出方法 | |
JP2005258633A (ja) | ディスクアレイシステム及びハードディスクドライブの障害予測方法 | |
JP2014002807A (ja) | ディスク上のディフェクトの凹凸を判別するディフェクト凹凸判別方法及び磁気ディスク装置 | |
JP5692577B2 (ja) | 磁気ディスク装置及び自己診断方法 | |
US7382559B2 (en) | Recovery processing method for device specific information of medium storage device and medium storage device | |
JP2004038380A (ja) | 光ディスクライブラリ装置 | |
US9406337B2 (en) | Disk array device, a failure path specifying method and a program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |