CN108763048B - 一种基于粒子滤波的硬盘故障预警与可靠性评估方法 - Google Patents
一种基于粒子滤波的硬盘故障预警与可靠性评估方法 Download PDFInfo
- Publication number
- CN108763048B CN108763048B CN201810574798.9A CN201810574798A CN108763048B CN 108763048 B CN108763048 B CN 108763048B CN 201810574798 A CN201810574798 A CN 201810574798A CN 108763048 B CN108763048 B CN 108763048B
- Authority
- CN
- China
- Prior art keywords
- hard disk
- early warning
- fault early
- state
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002245 particle Substances 0.000 title claims abstract description 48
- 238000011156 evaluation Methods 0.000 title claims abstract description 27
- 238000001914 filtration Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 68
- 230000015556 catabolic process Effects 0.000 claims abstract description 15
- 238000006731 degradation reaction Methods 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 12
- 230000036541 health Effects 0.000 claims description 11
- 238000012952 Resampling Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000012314 multivariate regression analysis Methods 0.000 claims description 5
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 4
- 239000013256 coordination polymer Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000010276 construction Methods 0.000 abstract description 3
- 238000000611 regression analysis Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000007500 overflow downdraw method Methods 0.000 abstract 1
- 230000004927 fusion Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000000342 Monte Carlo simulation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3419—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Analysis (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开一种基于粒子滤波的硬盘故障预警与可靠性评估方法,通过硬盘S.M.A.R.T.指标筛选与二次指标构造,结合多元回归分析的多源信息融合方法,实现将高维原始数据转换为一维硬盘状态退化量;运用基于贝叶斯估计的粒子滤波算法递推估计出硬盘状态序列,并与实际的硬盘状态观测序列作差,获得了硬盘系统残差;根据系统残差的统计特征设计自适应故障判定阈值,结合多点连续报警机制实施硬盘故障预警,统计硬盘可靠性评价相关指标。该方法能够融合硬盘多个维度的特征信息,充分利用全部有用信息,实现基于硬盘状态监测的在线故障预警,并能保证在零误报的情况下,获得高水平的故障检出率,同时输出指示性和指导意义更强的可靠性评价指标故障预警提前时间。
Description
本发明属于硬盘的故障诊断和可靠性工程领域,具体涉及一种基于粒子滤波的硬盘故障预警与可靠性评估方法。
背景技术
在如今这个高度依赖计算机和互联网的时代,政府、企业和个人都已实现无纸化办公,大量重要数据和资料都以数字化形式存储。据统计,全世界约有90%新生成数据是被存储于磁性介质中,而其中绝大多数又是存储在硬盘中。随着数据量规模不断增大以及人们对高速,稳定的云服务需求日益旺盛,数据安全问题日益突出,它不仅关系到个人利益和企业运营,甚至有可能影响国家安全。因此,对企业级硬盘进行故障预警和可靠性评估,进而为企业的存储运营维护提供有效指导,一直以来都是存储领域的研究热点。
目前,在硬盘故障预测和可靠性评估领域,多数研究工作都是以硬盘S.M.A.R.T.(Self-Monitoring,Analysis and Reporting Technology)数据为基础开展的。已有的围绕硬盘S.M.A.R.T.数据建立的基于统计和机器学习方法的硬盘故障预测模型大都是简单的二元分类器,只能给出是与否的预测结果,对它们的评价指标仅限于故障检出率FDR和误报率FAR的预测准确率,并不能很好地指导用户对存储设备进行有效地维护。因此,有必要尝试有别于现有的统计和机器学习方法进行硬盘故障预报和可靠性评估研究。
在工程实际中,得益于计算机技术的迅速发展,基于状态滤波的信号处理方法一度被认为是最具发展前景的工具,从经典的Kalman滤波到更受研究人员推崇的粒子滤波,已成功应用于目标定位、跟踪、语音识别、语音增强与消噪、系统辨识参数估计以及动态系统的故障检测等领域。粒子滤波是一种基于贝叶斯递推估计的蒙特卡洛模拟实现方法,完全突破了经典Kalman滤波的线性高斯假设,更适合解决非线性非高斯复杂系统的滤波问题。值得注意的是,近年来,基于粒子滤波的故障诊断方法不断被应用于诸如移动机器人、燃气涡轮发动机以及高速列车等极为复杂的大型系统的故障诊断。针对硬盘这类较为复杂的系统,退化数据往往表现为伴随着随机性、非线性的时间序列,尝试运用粒子滤波方法对其进行故障诊断不失为一种有效弥补统计和机器学习方法不足的解决途径。
发明内容
针对现有技术的不足和面临的挑战,本发明的目的在于提供一种基于粒子滤波的硬盘故障预警与可靠性评估方法,该方法一方面解决了固定阈值难以合理判定所有硬盘是否故障的难题,另一方面提出了一个对于存储设备维护人员更具指导意义的评价指标,即单个硬盘预警提前量。
为达到以上目的,本发明的技术方案为:
一种基于粒子滤波的硬盘故障预警与可靠性评估方法,包括以下步骤:
步骤1),采集硬盘运行数据的原始S.M.A.R.T.参数集,根据硬盘的主要失效形式为头碟界面相关失效,从采集的硬盘运行数据的原始S.M.A.R.T.参数集筛选出用于硬盘故障预警的一次指标;
再利用选取的一次指标构造能够反映硬盘动态异常行为的二次指标;
步骤2),基于该二次指标,运用多元回归分析方法将高维S.M.A.R.T.数据转换为一维硬盘状态退化数据,从而实现多源信息融合,以该一维硬盘状态退化数据作为状态观测序列;
步骤3),引入蒙特卡洛模拟实现思想,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态估计序列;
再利用多源信息融合得到的状态观测序列和该状态估计序列作差,得到硬盘系统的残差序列;
步骤4),最后,根据步骤3)所得残差序列的统计特征,设定适合于不同硬盘个体的自适应故障预警阈值,并利用该阈值和多点连续报警机制判定当前时刻硬盘的健康状态,获得单个硬盘的预警提前量;
步骤5),在对多个硬盘样本分别进行步骤3)至步骤4),统计用于评价硬盘可靠性的相关指标数值,以评价硬盘的可靠性。
本发明进一步的改进在于,步骤1)的具体步骤如下:
首先,由于硬盘的主要失效形式是头碟界面相关失效,而头碟界面由磁头、磁碟及空气轴承三部分组成,因此,选取和硬盘的磁头、磁碟及空气轴承相关的原始S.M.A.R.T.参数作为硬盘故障预警方法的一次输入指标,其中,一次指标包括:磁盘坏道(G-list)、读扇区计数(Read sector count)、读错误计数(Read error count)、写扇区计数(Writesector count)和写错误计数(Write error count);
其次,利用所选一次指标构造实际用于硬盘故障预警的二次指标,二次指标包括index1、index2、index3和index4,分别如下:
index1=G(ti);
其中,ti和ti+1是硬盘S.M.A.R.T.数据相邻的采样时刻,G(ti)表示ti时刻的磁盘坏道(G-list),Rsc(ti)表示ti时刻的读扇区计数(Read sector count),Wsc(ti)表示ti时刻的写扇区计数(Write sector count),Rec(ti)表示ti时刻的读错误计数(Read errorcount),Wec(ti)表示ti时刻的写错误计数(Write error count)。
本发明进一步的改进在于,步骤2)的具体步骤如下:
首先,根据已知硬盘S.M.A.R.T.数据集选取用于多元回归分析的训练集,并通过该训练集获得回归矩阵w,过程如下:
其中,y∈[0,1]为硬盘随时间增长的连续状态变量,y取硬盘故障时刻的0%、25%、50%、75%和100%处的状态值,分别为0、0.25、0.5、0.75和1;X{X1,X2,...,Xn}为影响硬盘连续状态变量值的S.M.A.R.T.数据,R1为一维空间;Rn为n维空间;y和X共同构成了训练集;
其次,利用得到的回归矩阵w对硬盘S.M.A.R.T.数据进行健康状态映射,过程如下:
本发明进一步的改进在于,步骤3)的具体步骤如下:
首先,引入蒙特卡洛模拟实现思想,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态序列,其过程如下:
当采样时刻t=1时,初始化步骤,对于任意粒子i=1:N,设置状态初值{μ0,Σ0};
当采样时刻t=2:T时,进行如下步骤:
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
本发明进一步的改进在于,步骤4)的具体步骤如下:
首先,通过所得硬盘系统残差序列的统计特征(统计特征为均值和标准差),设定适合于不同硬盘个体的自适应故障预警阈值,自适应故障预警阈值Threshold=m·μt+n·σt;
其中,m和n为常系数,μt为0到t时刻的残差均值,σt为0到t时刻的残差标准差;
然后,利用自适应故障预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,如果当前时刻残差未超过该自适应故障预警阈值,则进入下一时刻继续检测,直至检测到某一时刻残差超过该自适应故障预警阈值,则报硬盘故障,并记录当前时刻tkW,获得单个硬盘的预警提前量Tk=tkF-tkW。
本发明进一步的改进在于,步骤5)中,统计的用于评价硬盘可靠性的相关指标数值,包括:
其中,nCP表示从总体故障硬盘检测出来的硬盘数量,nF表示总体故障硬盘数量,nFP表示总体健康硬盘中被误报为故障的硬盘数量,nH表示总体健康硬盘数量,Tk表示第k个硬盘的预警提前量,tkF表示第k个硬盘发生故障时刻(对于未发生故障硬盘,该值取所采集数据的终点时刻),tkW表示第k个硬盘被报故障时刻。
与现有技术比较,本发明的优势为:
本发明的硬盘故障预警与可靠性评估方法基于硬盘原始S.M.A.R.T.数据构造的二次指标,能更好的反映硬盘工作运行过程中的动态异常行为,有助于故障预测算法更加高效的检测出故障,以便获得较高的故障硬盘检出率;通过将高维S.M.A.R.T.参数集转换为一维硬盘状态退化数据,有效地降低了数据维度,极大地提高了故障预测算法的计算效率,实现过程简单易掌握;采用基于贝叶斯估计的基于粒子滤波的故障预警方法,能更好的解决硬盘这类非线性非高斯复杂系统的状态滤波问题,其估计精度更高,不易产生硬盘故障误报;通过设计硬盘自适应故障阈值判定法,能够更好的适应不同硬盘个体的差异性,使各项可靠性评价指标更优;采用的硬盘故障多点连续报警机制,能有效地降低故障误报率以及提高预警提前量的精度;通过提出的可靠性评估指标预警提前量,具有更加明确的指示性,对于存储设备维护人员的指导意义更强;本发明的硬盘故障预警和可靠性评估方法简单可靠,易于在工程实践中实现硬盘故障在线检测。
附图说明
图1为发明提出基于粒子滤波的硬盘故障预警与可靠性评估方法的流程图;
图2为本发明硬盘S.M.A.R.T.数据经降维后的一维硬盘状态退化数据;
图3为本发明实施例中一个硬盘状态观测序列和状态估计序列图;
图4为本发明实施例中图3对应硬盘系统残差图;
图5为本发明实施例中另一个硬盘状态观测序列和状态估计序列图;
图6为本发明实施例中图5对应硬盘系统残差图;
图7为39块故障硬盘采用本发明方法所得预警结果的统计直方图;
图8为33块健康硬盘采用本发明方法所得预警结果的统计直方图。
具体实施方式
下面结合附图对本发明做详细描述:
参照图1,本发明的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,包括以下步骤:
1)、采集硬盘运行数据的原始S.M.A.R.T.参数集,根据硬盘的主要失效形式为头碟界面相关失效,从采集的硬盘运行数据的原始S.M.A.R.T.参数集筛选出用于硬盘故障预警的一次指标;再利用选取的一次指标构造能够反映硬盘动态异常行为的二次指标;具体过程如下:
1.1、由于硬盘的主要失效形式是头碟界面相关失效,而头碟界面由磁头、磁碟及空气轴承三部分组成,因此,选取和头碟界面相关的原始S.M.A.R.T.参数作为硬盘故障预警方法的一次输入指标,其中,一次指标包括:磁盘坏道(G-list)、读扇区计数(Readsector count)、读错误计数(Read error count)、写扇区计数(Write sector count)和写错误计数(Write error count);
1.2、利用所选一次指标构造实际用于硬盘故障预警的二次指标,二次指标包括index1、index2、index3和index4,分别如下:
index1=G(ti);
其中,ti和ti+1是硬盘S.M.A.R.T.数据相邻的采样时刻,G(ti)表示ti时刻的磁盘坏道(G-list),Rsc(ti)表示ti时刻的读扇区计数(Read sector count),Wsc(ti)表示ti时刻的写扇区计数(Write sector count),Rec(ti)表示ti时刻的读错误计数(Read errorcount),Wec(ti)表示ti时刻的写错误计数(Write error count)。2)、基于该二次指标,运用多元回归分析方法将高维S.M.A.R.T.数据转换为一维硬盘状态退化数据,从而实现多源信息融合,以该一维硬盘状态退化数据作为状态观测序列;具体过程如下:
2.1根据已知硬盘S.M.A.R.T.数据集选取用于多元回归分析的训练集,并通过该训练集获得回归矩阵w,过程如下:
其中,y∈[0,1]为硬盘随时间增长的连续状态变量,y取硬盘故障时刻的0%、25%、50%、75%和100%处的状态值,分别为0、0.25、0.5、0.75和1;X{X1,X2,...,Xn}为影响硬盘连续状态变量值的S.M.A.R.T.数据,R1为一维空间;Rn为n维空间;y和X共同构成了训练集;
2.2利用得到的回归矩阵w对硬盘S.M.A.R.T.数据进行健康状态映射,过程如下:
3)、引入蒙特卡洛模拟实现思想,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态估计序列;接着再利用多源信息融合得到的状态观测序列和该状态估计序列作差,得到硬盘系统的残差序列;具体过程如下:
(1)、引入蒙特卡洛模拟实现思想,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态序列,其过程如下:
当采样时刻t=1时,初始化步骤,对于任意粒子i=1:N,设置状态初值{μ0,Σ0};
当采样时刻t=2:T时,进行如下步骤:
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
4)、根据步骤3)所得残差序列的统计特征,设定适合于不同硬盘个体的自适应故障预警阈值,并利用该阈值和多点连续报警机制判定当前时刻硬盘的健康状态,获得单个硬盘的预警提前量;具体过程如下:
首先,通过所得硬盘系统残差序列的统计特征(统计特征为均值和标准差),设定适合于不同硬盘个体的自适应故障预警阈值,自适应故障预警阈值Threshold=m·μt+n·σt;
其中,m和n为常系数,μt为0到t时刻的残差均值,σt为0到t时刻的残差标准差;
然后,利用自适应故障预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,如果当前时刻残差未超过该自适应故障预警阈值,则进入下一时刻继续检测,直至检测到某一时刻残差超过该自适应故障预警阈值,则报硬盘故障,并记录当前时刻tkW,获得单个硬盘的预警提前量Tk=tkF-tkW;
其中,nCP表示从总体故障硬盘检测出来的硬盘数量,nF表示总体故障硬盘数量,nFP表示总体健康硬盘中被误报为故障的硬盘数量,nH表示总体健康硬盘数量,Tk表示第k个硬盘的预警提前量,tkF表示第k个硬盘发生故障时刻(对于未发生故障硬盘,该值取所采集数据的终点时刻),tkW表示第k个硬盘被报故障时刻。
下面结合附图对本发明的内容作进一步详细说明:
实施例:
该实施例结合多块服务器现网硬盘全寿命周期S.M.A.R.T.数据验证了该发明的有效性。
图1是本发明提出的一种基于粒子滤波的硬盘故障预警与可靠性评估方法的处理流程图,下面依照该流程处理多块服务器现网硬盘故障预警情况。
鉴于所获取的硬盘数据具有较完整的历史积累过程,这对于采用粒子滤波方法进行故障预警是比较有利的,其硬盘故障预警与可靠性评估的主要框架包括:多源信息融合,硬盘状态估计和构造硬盘系统残差,评价残差和统计可靠性评价指标三个部分。
(1)首先,根据硬盘的主要失效形式是头碟界面相关失效,选取和硬盘该部件相关的原始S.M.A.R.T.参数作为硬盘故障预警方法的一次输入指标,其中,一次指标包括:磁盘坏道(G-list)、读扇区计数(Read sector count)、读错误计数(Read error count)、写扇区计数(Write sector count)和写错误计数(Write error count);
其次,利用所选一次指标构造实际用于硬盘故障预警的二次指标,二次指标包括index1、index2、index3和index4,分别如下:
index1=G(ti);
其中,ti和ti+1是硬盘S.M.A.R.T.数据相邻的采样时刻,G(ti)表示ti时刻的磁盘坏道(G-list),Rsc(ti)表示ti时刻的读扇区计数(Read sector count),Wsc(ti)表示ti时刻的写扇区计数(Write sector count),Rec(ti)表示ti时刻的读错误计数(Read errorcount),Wec(ti)表示ti时刻的写错误计数(Write error count)。最后,基于该二次指标,根据已知硬盘S.M.A.R.T.数据集选取用于多元回归分析的训练集,并通过该训练集获得回归矩阵w,过程为:
其中,y∈[0,1]为硬盘随时间增长的连续状态变量,取硬盘故障时刻的0%、25%、50%、75%和100%处的状态值分别为0、0.25、0.5、0.75和1;X{X1,X2,...,Xn}为影响硬盘连续状态变量值的S.M.A.R.T.数据,R1为一维空间;Rn为n维空间;y和X共同构成了训练集;
利用得到的回归矩阵w对硬盘S.M.A.R.T.数据进行健康状态映射,过程为:
(2)首先,借助蒙特卡洛模拟实现,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态序列:
当采样时刻t=1时,初始化步骤,对于任意粒子i=1:N,设置状态初值{μ0,Σ0};
当采样时刻t=2:T时,进行如下步骤:
循环步骤3.1至步骤3.5,逐步输出得到硬盘状态估计序列如图3~图6所示,其中图3和图4为一块硬盘的故障预警处理过程,图5和图6为另一块硬盘的故障预警处理过程,图3和图5均呈现了对应硬盘的状态观测序列和状态估计序列随运行时间的变化趋势;
然后,利用多源信息融合得到的状态观测序列和硬盘状态估计序列作差,得到硬盘系统的残差序列如图3所示,其中,图3和图4为一块硬盘的故障预警处理过程,图5和图6为另一块硬盘的故障预警处理过程,图4和图6均呈现了对应硬盘系统的残差序列随时间的变化趋势;
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
(3)首先,通过所得硬盘系统残差序列的统计特征(统计特征包括均值和标准差),设定适合于不同硬盘个体的自适应故障预警阈值:
自适应故障预警阈值Threshold=m·μt+n·σt;
其中,m和n为常系数,μt为0到t时刻的残差均值,σt为0到t时刻的残差标准差;
然后,利用自适应故障预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,如果当前时刻残差未超过该自适应故障预警阈值,则进入下一时刻继续检测,直至检测到某一时刻残差超过该自适应故障预警阈值,则报硬盘故障,并记录当前时刻tkW,获得单个硬盘的预警提前量Tk=tkF-tkW;
如图4和图6所示,这两幅图均记录了对应硬盘的故障预警提前量,分别为126小时和200小时;
最后,对多个硬盘样本利用上述方法进行故障预警处理后,统计用于评价硬盘可靠性的相关指标数值,包括:
其中,nCP表示从总体故障硬盘检测出来的硬盘数量,nF表示总体故障硬盘数量,nFP表示总体健康硬盘中被误报为故障的硬盘数量,nH表示总体健康硬盘数量,Tk表示第k个硬盘的预警提前量,tkF表示第k个硬盘发生故障时刻(对于未发生故障硬盘,该值取所采集数据的终点时刻),tkW表示第k个硬盘被报故障时刻。
对多个硬盘样本分别利用上述方法进行故障预警处理后,统计故障检出率、故障误报率和平均预警提前量。
如图7所示,总体故障硬盘数量为39块,其中通过本发明提出的方法检测出故障硬盘的数量为36块,因此,硬盘故障检出率为92.31%;其平均预警提前量为958小时;
如图8所示,总体健康硬盘数量为33块,其中通过本发明提出的方法检测出故障硬盘的数量为0块,因此,硬盘故障检出率为0%;其平均预警提前量为0小时,表明该方法对于健康硬盘没有产生误报情况;
通过实施以上三部分流程,由实施例结果表明,本发明提出的基于粒子滤波的硬盘故障预警与可靠性评估方法,能够在保证零误报的情况下,获得高水平的故障检出率,此外,还能获得对于服务器运营商来说比较合理的故障预警提前量,这能充分指导他们进行大规模更换存储备件。
针对企业级硬盘故障预警工程实际问题,首先根据硬盘主要失效形式选取硬盘原始S.M.A.R.T.数据一次指标,并以此构造用于故障预警方法的二次指标;其次,基于二次指标进行多源信息融合,将高维原始数据降低为一维状态退化量;再次,运用基于贝叶斯估计的粒子滤波递推估计出硬盘状态序列,并与实际硬盘状态观测序列作差,获得硬盘系统残差;最后,根据残差统计特征设定自适应故障判定阈值,并结合多点连续报警机制实施故障预警,统计可靠性评价相关指标。该方法实施简单,效果显著,为企业级硬盘故障预测提供了一种有效的方法。
Claims (9)
1.一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,包括以下步骤:
步骤1),采集硬盘运行数据的原始S.M.A.R.T.参数集,从采集的硬盘运行数据的原始S.M.A.R.T.参数集筛选出用于硬盘故障预警的一次指标;再利用选出的一次指标构造能够反映硬盘动态异常行为的二次指标;
步骤2),基于该二次指标,将高维S.M.A.R.T.参数集转换为一维硬盘状态退化数据,以该一维硬盘状态退化数据作为状态观测序列;
步骤3),运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态估计序列;再利用步骤2)得到的状态观测序列与状态估计序列作差,得到硬盘系统的残差序列;
步骤4),根据步骤3)所得残差序列的统计特征,设定适合于不同硬盘个体的自适应故障预警阈值,并利用该预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,获得单个硬盘的预警提前量;
步骤5),对多个硬盘样本分别进行步骤3)至步骤4),统计用于评价硬盘可靠性的相关指标数值,以评价硬盘的可靠性。
2.根据权利要求1所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,步骤1)的具体过程如下:选取和硬盘的磁头、磁碟及空气轴承相关的原始S.M.A.R.T.参数作为硬盘故障预警方法的一次指标。
4.根据权利要求1所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,步骤2)中具体步骤如下:
首先,根据已知硬盘S.M.A.R.T.数据集选取用于多元回归分析的训练集,并通过该训练集获得回归矩阵w,过程如下:
其中,y∈[0,1],为硬盘随时间增长的连续状态变量;X{X1,X2,...,Xn},为影响硬盘连续状态变量值的S.M.A.R.T.数据;R1为一维空间;Rn为n维空间;y和X共同构成了训练集;
其次,利用得到的回归矩阵w对硬盘S.M.A.R.T.数据进行健康状态映射,过程如下:
5.根据权利要求4所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,硬盘随时间增长的连续状态变量y取硬盘故障时刻的0%、25%、50%、75%和100%处的状态值,分别为0、0.25、0.5、0.75和1。
6.根据权利要求4所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,步骤3)中的具体过程如下:
首先,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态估计序列,其过程如下:
当采样时刻t=1时,初始化步骤,对于任意粒子i=1:N,设置状态初值{μ0,Σ0};
当采样时刻t=2:T时,进行如下步骤:
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
7.根据权利要求1所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,步骤4)的具体步骤如下:
首先,通过所得硬盘系统残差序列的统计特征,确定适合于不同硬盘个体的自适应故障预警阈值,自适应故障预警阈值Threshold=m·μt+n·σt;
其中,m和n为常系数,μt为0到t时刻的残差均值,σt为0到t时刻的残差标准差;
然后,利用自适应故障预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,如果当前时刻残差未超过该自适应故障预警阈值,则进入下一时刻继续检测,直至检测到某一时刻残差超过该自适应故障预警阈值,则报硬盘故障,并记录当前时刻tkW,获得单个硬盘的预警提前量Tk=tkF-tkW;
tkF表示第k个硬盘发生故障时刻,对于未发生故障硬盘,tkF取所采集数据的终点时刻,tkW表示第k个硬盘被报故障时刻。
9.根据权利要求1所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,运用多元回归分析方法将高维S.M.A.R.T.参数集转换为一维硬盘状态退化数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810574798.9A CN108763048B (zh) | 2018-06-05 | 2018-06-05 | 一种基于粒子滤波的硬盘故障预警与可靠性评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810574798.9A CN108763048B (zh) | 2018-06-05 | 2018-06-05 | 一种基于粒子滤波的硬盘故障预警与可靠性评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763048A CN108763048A (zh) | 2018-11-06 |
CN108763048B true CN108763048B (zh) | 2021-01-19 |
Family
ID=64000171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810574798.9A Active CN108763048B (zh) | 2018-06-05 | 2018-06-05 | 一种基于粒子滤波的硬盘故障预警与可靠性评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763048B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115004B (zh) * | 2020-07-29 | 2022-02-11 | 西安交通大学 | 一种基于反向传播贝叶斯深度学习的硬盘寿命预测方法 |
CN112378670B (zh) * | 2020-11-10 | 2021-10-15 | 北京航空航天大学 | 一种基于改进粒子滤波的火箭发动机故障检测方法 |
CN113312758B (zh) * | 2021-05-12 | 2023-07-25 | 上海电气风电集团股份有限公司 | 风力发电机组的健康状态评估方法和装置 |
CN115408373A (zh) * | 2021-05-26 | 2022-11-29 | 中兴通讯股份有限公司 | 数据处理方法及设备、计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006048789A (ja) * | 2004-08-02 | 2006-02-16 | Hitachi Global Storage Technologies Netherlands Bv | 磁気ディスク装置の故障予測方法及びこれを用いた磁気ディスク装置 |
CN101866271A (zh) * | 2010-06-08 | 2010-10-20 | 华中科技大学 | 一种基于raid的安全预警系统和方法 |
CN103455395B (zh) * | 2013-08-08 | 2016-12-07 | 华为技术有限公司 | 一种硬盘故障的检测方法及装置 |
-
2018
- 2018-06-05 CN CN201810574798.9A patent/CN108763048B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108763048A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763048B (zh) | 一种基于粒子滤波的硬盘故障预警与可靠性评估方法 | |
CN108038049B (zh) | 实时日志控制系统及控制方法、云计算系统及服务器 | |
CN111459700B (zh) | 设备故障的诊断方法、诊断装置、诊断设备及存储介质 | |
CN111259947A (zh) | 一种基于多模态学习的电力系统故障预警方法和系统 | |
CN113642754B (zh) | 一种基于rf降噪自编码信息重构和时间卷积网络的复杂工业过程故障预测方法 | |
CN116559598B (zh) | 一种智慧配电网故障定位方法及系统 | |
CN110990788A (zh) | 一种基于三元维纳过程的轴承剩余寿命预测方法 | |
CN111913443A (zh) | 基于相似性的工业设备故障预警方法 | |
CN111666978B (zh) | 一种it系统运维大数据的智能故障预警系统 | |
Lai et al. | Accelerated multiple alarm flood sequence alignment for abnormality pattern mining | |
CN111881574A (zh) | 一种基于分布函数优选的风电机组关键部件可靠性建模方法 | |
CN113609770A (zh) | 基于分段线性拟合hi及lstm的滚动轴承rul预测方法 | |
CN115719283A (zh) | 一种智能化会计管理系统 | |
CN117094184B (zh) | 基于内网平台的风险预测模型的建模方法、系统及介质 | |
Ferraro et al. | A novel approach for predictive maintenance combining GAF encoding strategies and deep networks | |
CN112016800B (zh) | 一种基于有效性指标的特征选择方法与系统 | |
CN112016193B (zh) | 一种盾构机系统的润滑失效在线预测方法及系统 | |
CN117032165A (zh) | 一种工业设备故障诊断方法 | |
CN111934903A (zh) | 一种基于时序演化基因的Docker容器故障智能预测方法 | |
CN116702597A (zh) | 一种机械设备运行寿命预测与健康管理方法、系统及介质 | |
Wang et al. | Hard disk drives failure detection using a dynamic tracking method | |
CN114186644A (zh) | 一种基于优化随机森林的缺陷报告严重程度预测方法 | |
Kundu et al. | PCA-ANN based approach for remaining useful life prediction for roller ball bearings | |
Scheffel et al. | Data confidence applied to wind turbine power curves | |
CN110569277A (zh) | 一种配置数据信息自动识别与归类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240118 Address after: 710075 Room 1405, Building 3, West Yungu Phase II, Fengxi New Town, Xixian New District, Xi'an City, Shaanxi Province Patentee after: Shaanxi Yungang Zhiwei Technology Co.,Ltd. Address before: Beilin District Xianning West Road 710049, Shaanxi city of Xi'an province No. 28 Patentee before: XI'AN JIAOTONG University |