CN108763048B - 一种基于粒子滤波的硬盘故障预警与可靠性评估方法 - Google Patents

一种基于粒子滤波的硬盘故障预警与可靠性评估方法 Download PDF

Info

Publication number
CN108763048B
CN108763048B CN201810574798.9A CN201810574798A CN108763048B CN 108763048 B CN108763048 B CN 108763048B CN 201810574798 A CN201810574798 A CN 201810574798A CN 108763048 B CN108763048 B CN 108763048B
Authority
CN
China
Prior art keywords
hard disk
early warning
fault early
state
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810574798.9A
Other languages
English (en)
Other versions
CN108763048A (zh
Inventor
王宇
何龙
彭一真
訾艳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Yungang Zhiwei Technology Co.,Ltd.
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201810574798.9A priority Critical patent/CN108763048B/zh
Publication of CN108763048A publication Critical patent/CN108763048A/zh
Application granted granted Critical
Publication of CN108763048B publication Critical patent/CN108763048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种基于粒子滤波的硬盘故障预警与可靠性评估方法,通过硬盘S.M.A.R.T.指标筛选与二次指标构造,结合多元回归分析的多源信息融合方法,实现将高维原始数据转换为一维硬盘状态退化量;运用基于贝叶斯估计的粒子滤波算法递推估计出硬盘状态序列,并与实际的硬盘状态观测序列作差,获得了硬盘系统残差;根据系统残差的统计特征设计自适应故障判定阈值,结合多点连续报警机制实施硬盘故障预警,统计硬盘可靠性评价相关指标。该方法能够融合硬盘多个维度的特征信息,充分利用全部有用信息,实现基于硬盘状态监测的在线故障预警,并能保证在零误报的情况下,获得高水平的故障检出率,同时输出指示性和指导意义更强的可靠性评价指标故障预警提前时间。

Description

一种基于粒子滤波的硬盘故障预警与可靠性评估方法
本发明属于硬盘的故障诊断和可靠性工程领域,具体涉及一种基于粒子滤波的硬盘故障预警与可靠性评估方法。
背景技术
在如今这个高度依赖计算机和互联网的时代,政府、企业和个人都已实现无纸化办公,大量重要数据和资料都以数字化形式存储。据统计,全世界约有90%新生成数据是被存储于磁性介质中,而其中绝大多数又是存储在硬盘中。随着数据量规模不断增大以及人们对高速,稳定的云服务需求日益旺盛,数据安全问题日益突出,它不仅关系到个人利益和企业运营,甚至有可能影响国家安全。因此,对企业级硬盘进行故障预警和可靠性评估,进而为企业的存储运营维护提供有效指导,一直以来都是存储领域的研究热点。
目前,在硬盘故障预测和可靠性评估领域,多数研究工作都是以硬盘S.M.A.R.T.(Self-Monitoring,Analysis and Reporting Technology)数据为基础开展的。已有的围绕硬盘S.M.A.R.T.数据建立的基于统计和机器学习方法的硬盘故障预测模型大都是简单的二元分类器,只能给出是与否的预测结果,对它们的评价指标仅限于故障检出率FDR和误报率FAR的预测准确率,并不能很好地指导用户对存储设备进行有效地维护。因此,有必要尝试有别于现有的统计和机器学习方法进行硬盘故障预报和可靠性评估研究。
在工程实际中,得益于计算机技术的迅速发展,基于状态滤波的信号处理方法一度被认为是最具发展前景的工具,从经典的Kalman滤波到更受研究人员推崇的粒子滤波,已成功应用于目标定位、跟踪、语音识别、语音增强与消噪、系统辨识参数估计以及动态系统的故障检测等领域。粒子滤波是一种基于贝叶斯递推估计的蒙特卡洛模拟实现方法,完全突破了经典Kalman滤波的线性高斯假设,更适合解决非线性非高斯复杂系统的滤波问题。值得注意的是,近年来,基于粒子滤波的故障诊断方法不断被应用于诸如移动机器人、燃气涡轮发动机以及高速列车等极为复杂的大型系统的故障诊断。针对硬盘这类较为复杂的系统,退化数据往往表现为伴随着随机性、非线性的时间序列,尝试运用粒子滤波方法对其进行故障诊断不失为一种有效弥补统计和机器学习方法不足的解决途径。
发明内容
针对现有技术的不足和面临的挑战,本发明的目的在于提供一种基于粒子滤波的硬盘故障预警与可靠性评估方法,该方法一方面解决了固定阈值难以合理判定所有硬盘是否故障的难题,另一方面提出了一个对于存储设备维护人员更具指导意义的评价指标,即单个硬盘预警提前量。
为达到以上目的,本发明的技术方案为:
一种基于粒子滤波的硬盘故障预警与可靠性评估方法,包括以下步骤:
步骤1),采集硬盘运行数据的原始S.M.A.R.T.参数集,根据硬盘的主要失效形式为头碟界面相关失效,从采集的硬盘运行数据的原始S.M.A.R.T.参数集筛选出用于硬盘故障预警的一次指标;
再利用选取的一次指标构造能够反映硬盘动态异常行为的二次指标;
步骤2),基于该二次指标,运用多元回归分析方法将高维S.M.A.R.T.数据转换为一维硬盘状态退化数据,从而实现多源信息融合,以该一维硬盘状态退化数据作为状态观测序列;
步骤3),引入蒙特卡洛模拟实现思想,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态估计序列;
再利用多源信息融合得到的状态观测序列和该状态估计序列作差,得到硬盘系统的残差序列;
步骤4),最后,根据步骤3)所得残差序列的统计特征,设定适合于不同硬盘个体的自适应故障预警阈值,并利用该阈值和多点连续报警机制判定当前时刻硬盘的健康状态,获得单个硬盘的预警提前量;
步骤5),在对多个硬盘样本分别进行步骤3)至步骤4),统计用于评价硬盘可靠性的相关指标数值,以评价硬盘的可靠性。
本发明进一步的改进在于,步骤1)的具体步骤如下:
首先,由于硬盘的主要失效形式是头碟界面相关失效,而头碟界面由磁头、磁碟及空气轴承三部分组成,因此,选取和硬盘的磁头、磁碟及空气轴承相关的原始S.M.A.R.T.参数作为硬盘故障预警方法的一次输入指标,其中,一次指标包括:磁盘坏道(G-list)、读扇区计数(Read sector count)、读错误计数(Read error count)、写扇区计数(Writesector count)和写错误计数(Write error count);
其次,利用所选一次指标构造实际用于硬盘故障预警的二次指标,二次指标包括index1、index2、index3和index4,分别如下:
index1=G(ti);
Figure BDA0001685675030000031
Figure BDA0001685675030000032
Figure BDA0001685675030000033
其中,ti和ti+1是硬盘S.M.A.R.T.数据相邻的采样时刻,G(ti)表示ti时刻的磁盘坏道(G-list),Rsc(ti)表示ti时刻的读扇区计数(Read sector count),Wsc(ti)表示ti时刻的写扇区计数(Write sector count),Rec(ti)表示ti时刻的读错误计数(Read errorcount),Wec(ti)表示ti时刻的写错误计数(Write error count)。
本发明进一步的改进在于,步骤2)的具体步骤如下:
首先,根据已知硬盘S.M.A.R.T.数据集选取用于多元回归分析的训练集,并通过该训练集获得回归矩阵w,过程如下:
Figure BDA00016856750300000411
其中,y∈[0,1]为硬盘随时间增长的连续状态变量,y取硬盘故障时刻的0%、25%、50%、75%和100%处的状态值,分别为0、0.25、0.5、0.75和1;X{X1,X2,...,Xn}为影响硬盘连续状态变量值的S.M.A.R.T.数据,R1为一维空间;Rn为n维空间;y和X共同构成了训练集;
其次,利用得到的回归矩阵w对硬盘S.M.A.R.T.数据进行健康状态映射,过程如下:
Figure BDA0001685675030000041
X∈Rn,w∈R1
其中,
Figure BDA0001685675030000042
即为硬盘S.M.A.R.T.数据经降维得到的一维硬盘状态退化数据。
本发明进一步的改进在于,步骤3)的具体步骤如下:
首先,引入蒙特卡洛模拟实现思想,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态序列,其过程如下:
当采样时刻t=1时,初始化步骤,对于任意粒子i=1:N,设置状态初值{μ00};
当采样时刻t=2:T时,进行如下步骤:
步骤3.1,Kalman预测,对于i=1:N,计算
Figure BDA0001685675030000043
步骤3.2,利用Kalman预测得到的
Figure BDA0001685675030000044
进行重要性采样,对于i=1:N,计算权重
Figure BDA0001685675030000045
并归一化权重
Figure BDA0001685675030000046
步骤3.3,根据重要性采样得到的权重大小进行重采样,重新选取
Figure BDA0001685675030000047
步骤3.4,利用重采样得到的
Figure BDA0001685675030000048
进行Kalman更新,对于i=1:N,计算
Figure BDA0001685675030000049
步骤3.5,然后,对于i=1:N,输出
Figure BDA00016856750300000410
循环步骤3.1至步骤3.5,逐步输出
Figure BDA0001685675030000051
得到硬盘状态估计序列
Figure BDA0001685675030000052
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
其次,再利用状态观测序列
Figure BDA0001685675030000053
和硬盘状态估计序列
Figure BDA0001685675030000054
作差,得到硬盘系统的残差序列
Figure BDA0001685675030000055
本发明进一步的改进在于,步骤4)的具体步骤如下:
首先,通过所得硬盘系统残差序列的统计特征(统计特征为均值和标准差),设定适合于不同硬盘个体的自适应故障预警阈值,自适应故障预警阈值Threshold=m·μt+n·σt
其中,m和n为常系数,μt为0到t时刻的残差均值,σt为0到t时刻的残差标准差;
然后,利用自适应故障预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,如果当前时刻残差未超过该自适应故障预警阈值,则进入下一时刻继续检测,直至检测到某一时刻残差超过该自适应故障预警阈值,则报硬盘故障,并记录当前时刻tkW,获得单个硬盘的预警提前量Tk=tkF-tkW
本发明进一步的改进在于,步骤5)中,统计的用于评价硬盘可靠性的相关指标数值,包括:
故障检出率:
Figure BDA0001685675030000056
故障误报率:
Figure BDA0001685675030000057
平均预警提前量:
Figure BDA0001685675030000058
Tk=tkF-tkW
其中,nCP表示从总体故障硬盘检测出来的硬盘数量,nF表示总体故障硬盘数量,nFP表示总体健康硬盘中被误报为故障的硬盘数量,nH表示总体健康硬盘数量,Tk表示第k个硬盘的预警提前量,tkF表示第k个硬盘发生故障时刻(对于未发生故障硬盘,该值取所采集数据的终点时刻),tkW表示第k个硬盘被报故障时刻。
与现有技术比较,本发明的优势为:
本发明的硬盘故障预警与可靠性评估方法基于硬盘原始S.M.A.R.T.数据构造的二次指标,能更好的反映硬盘工作运行过程中的动态异常行为,有助于故障预测算法更加高效的检测出故障,以便获得较高的故障硬盘检出率;通过将高维S.M.A.R.T.参数集转换为一维硬盘状态退化数据,有效地降低了数据维度,极大地提高了故障预测算法的计算效率,实现过程简单易掌握;采用基于贝叶斯估计的基于粒子滤波的故障预警方法,能更好的解决硬盘这类非线性非高斯复杂系统的状态滤波问题,其估计精度更高,不易产生硬盘故障误报;通过设计硬盘自适应故障阈值判定法,能够更好的适应不同硬盘个体的差异性,使各项可靠性评价指标更优;采用的硬盘故障多点连续报警机制,能有效地降低故障误报率以及提高预警提前量的精度;通过提出的可靠性评估指标预警提前量,具有更加明确的指示性,对于存储设备维护人员的指导意义更强;本发明的硬盘故障预警和可靠性评估方法简单可靠,易于在工程实践中实现硬盘故障在线检测。
附图说明
图1为发明提出基于粒子滤波的硬盘故障预警与可靠性评估方法的流程图;
图2为本发明硬盘S.M.A.R.T.数据经降维后的一维硬盘状态退化数据;
图3为本发明实施例中一个硬盘状态观测序列和状态估计序列图;
图4为本发明实施例中图3对应硬盘系统残差图;
图5为本发明实施例中另一个硬盘状态观测序列和状态估计序列图;
图6为本发明实施例中图5对应硬盘系统残差图;
图7为39块故障硬盘采用本发明方法所得预警结果的统计直方图;
图8为33块健康硬盘采用本发明方法所得预警结果的统计直方图。
具体实施方式
下面结合附图对本发明做详细描述:
参照图1,本发明的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,包括以下步骤:
1)、采集硬盘运行数据的原始S.M.A.R.T.参数集,根据硬盘的主要失效形式为头碟界面相关失效,从采集的硬盘运行数据的原始S.M.A.R.T.参数集筛选出用于硬盘故障预警的一次指标;再利用选取的一次指标构造能够反映硬盘动态异常行为的二次指标;具体过程如下:
1.1、由于硬盘的主要失效形式是头碟界面相关失效,而头碟界面由磁头、磁碟及空气轴承三部分组成,因此,选取和头碟界面相关的原始S.M.A.R.T.参数作为硬盘故障预警方法的一次输入指标,其中,一次指标包括:磁盘坏道(G-list)、读扇区计数(Readsector count)、读错误计数(Read error count)、写扇区计数(Write sector count)和写错误计数(Write error count);
1.2、利用所选一次指标构造实际用于硬盘故障预警的二次指标,二次指标包括index1、index2、index3和index4,分别如下:
index1=G(ti);
Figure BDA0001685675030000071
Figure BDA0001685675030000072
Figure BDA0001685675030000073
其中,ti和ti+1是硬盘S.M.A.R.T.数据相邻的采样时刻,G(ti)表示ti时刻的磁盘坏道(G-list),Rsc(ti)表示ti时刻的读扇区计数(Read sector count),Wsc(ti)表示ti时刻的写扇区计数(Write sector count),Rec(ti)表示ti时刻的读错误计数(Read errorcount),Wec(ti)表示ti时刻的写错误计数(Write error count)。2)、基于该二次指标,运用多元回归分析方法将高维S.M.A.R.T.数据转换为一维硬盘状态退化数据,从而实现多源信息融合,以该一维硬盘状态退化数据作为状态观测序列;具体过程如下:
2.1根据已知硬盘S.M.A.R.T.数据集选取用于多元回归分析的训练集,并通过该训练集获得回归矩阵w,过程如下:
Figure BDA0001685675030000088
其中,y∈[0,1]为硬盘随时间增长的连续状态变量,y取硬盘故障时刻的0%、25%、50%、75%和100%处的状态值,分别为0、0.25、0.5、0.75和1;X{X1,X2,...,Xn}为影响硬盘连续状态变量值的S.M.A.R.T.数据,R1为一维空间;Rn为n维空间;y和X共同构成了训练集;
2.2利用得到的回归矩阵w对硬盘S.M.A.R.T.数据进行健康状态映射,过程如下:
Figure BDA0001685675030000081
X∈Rn,w∈R1
其中,
Figure BDA0001685675030000082
即为硬盘S.M.A.R.T.数据经降维得到的一维硬盘状态退化数据。
3)、引入蒙特卡洛模拟实现思想,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态估计序列;接着再利用多源信息融合得到的状态观测序列和该状态估计序列作差,得到硬盘系统的残差序列;具体过程如下:
(1)、引入蒙特卡洛模拟实现思想,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态序列,其过程如下:
当采样时刻t=1时,初始化步骤,对于任意粒子i=1:N,设置状态初值{μ00};
当采样时刻t=2:T时,进行如下步骤:
步骤3.1,Kalman预测,对于i=1:N,计算
Figure BDA0001685675030000083
步骤3.2,利用Kalman预测得到的
Figure BDA0001685675030000084
进行重要性采样,对于i=1:N,计算权重
Figure BDA0001685675030000085
并归一化权重
Figure BDA0001685675030000086
步骤3.3,根据重要性采样得到的权重大小进行重采样,重新选取
Figure BDA0001685675030000087
步骤3.4,利用重采样得到的
Figure BDA0001685675030000091
进行Kalman更新,对于i=1:N,计算
Figure BDA0001685675030000092
步骤3.5,然后,对于i=1:N,输出
Figure BDA0001685675030000093
循环步骤3.1至步骤3.5,逐步输出
Figure BDA0001685675030000094
得到硬盘状态估计序列
Figure BDA0001685675030000095
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
(2)、再利用多源信息融合得到的状态观测序列
Figure BDA0001685675030000096
和硬盘状态估计序列
Figure BDA0001685675030000097
作差,得到硬盘系统的残差序列
Figure BDA0001685675030000098
4)、根据步骤3)所得残差序列的统计特征,设定适合于不同硬盘个体的自适应故障预警阈值,并利用该阈值和多点连续报警机制判定当前时刻硬盘的健康状态,获得单个硬盘的预警提前量;具体过程如下:
首先,通过所得硬盘系统残差序列的统计特征(统计特征为均值和标准差),设定适合于不同硬盘个体的自适应故障预警阈值,自适应故障预警阈值Threshold=m·μt+n·σt
其中,m和n为常系数,μt为0到t时刻的残差均值,σt为0到t时刻的残差标准差;
然后,利用自适应故障预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,如果当前时刻残差未超过该自适应故障预警阈值,则进入下一时刻继续检测,直至检测到某一时刻残差超过该自适应故障预警阈值,则报硬盘故障,并记录当前时刻tkW,获得单个硬盘的预警提前量Tk=tkF-tkW
5)、在对多个硬盘分别进行步骤3)至步骤4),统计用于评价硬盘可靠性的相关指标数值,以评价硬盘的可靠性,统计的用于评价硬盘可靠性的相关指标数值,包括:故障检出率:
Figure BDA0001685675030000101
故障误报率:
Figure BDA0001685675030000102
平均预警提前量:
Figure BDA0001685675030000103
Tk=tkF-tkW
其中,nCP表示从总体故障硬盘检测出来的硬盘数量,nF表示总体故障硬盘数量,nFP表示总体健康硬盘中被误报为故障的硬盘数量,nH表示总体健康硬盘数量,Tk表示第k个硬盘的预警提前量,tkF表示第k个硬盘发生故障时刻(对于未发生故障硬盘,该值取所采集数据的终点时刻),tkW表示第k个硬盘被报故障时刻。
下面结合附图对本发明的内容作进一步详细说明:
实施例:
该实施例结合多块服务器现网硬盘全寿命周期S.M.A.R.T.数据验证了该发明的有效性。
图1是本发明提出的一种基于粒子滤波的硬盘故障预警与可靠性评估方法的处理流程图,下面依照该流程处理多块服务器现网硬盘故障预警情况。
鉴于所获取的硬盘数据具有较完整的历史积累过程,这对于采用粒子滤波方法进行故障预警是比较有利的,其硬盘故障预警与可靠性评估的主要框架包括:多源信息融合,硬盘状态估计和构造硬盘系统残差,评价残差和统计可靠性评价指标三个部分。
(1)首先,根据硬盘的主要失效形式是头碟界面相关失效,选取和硬盘该部件相关的原始S.M.A.R.T.参数作为硬盘故障预警方法的一次输入指标,其中,一次指标包括:磁盘坏道(G-list)、读扇区计数(Read sector count)、读错误计数(Read error count)、写扇区计数(Write sector count)和写错误计数(Write error count);
其次,利用所选一次指标构造实际用于硬盘故障预警的二次指标,二次指标包括index1、index2、index3和index4,分别如下:
index1=G(ti);
Figure BDA0001685675030000111
Figure BDA0001685675030000112
Figure BDA0001685675030000113
其中,ti和ti+1是硬盘S.M.A.R.T.数据相邻的采样时刻,G(ti)表示ti时刻的磁盘坏道(G-list),Rsc(ti)表示ti时刻的读扇区计数(Read sector count),Wsc(ti)表示ti时刻的写扇区计数(Write sector count),Rec(ti)表示ti时刻的读错误计数(Read errorcount),Wec(ti)表示ti时刻的写错误计数(Write error count)。最后,基于该二次指标,根据已知硬盘S.M.A.R.T.数据集选取用于多元回归分析的训练集,并通过该训练集获得回归矩阵w,过程为:
Figure BDA0001685675030000116
其中,y∈[0,1]为硬盘随时间增长的连续状态变量,取硬盘故障时刻的0%、25%、50%、75%和100%处的状态值分别为0、0.25、0.5、0.75和1;X{X1,X2,...,Xn}为影响硬盘连续状态变量值的S.M.A.R.T.数据,R1为一维空间;Rn为n维空间;y和X共同构成了训练集;
利用得到的回归矩阵w对硬盘S.M.A.R.T.数据进行健康状态映射,过程为:
Figure BDA0001685675030000114
其中,
Figure BDA0001685675030000115
即为硬盘S.M.A.R.T.数据经降维得到的一维硬盘状态退化数据,如图2所示,展示了各硬盘的状态观测值随着运行时间的变化趋势。
(2)首先,借助蒙特卡洛模拟实现,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态序列:
当采样时刻t=1时,初始化步骤,对于任意粒子i=1:N,设置状态初值{μ00};
当采样时刻t=2:T时,进行如下步骤:
步骤3.1,Kalman预测,对于i=1:N,计算
Figure BDA0001685675030000121
步骤3.2,利用Kalman预测得到的
Figure BDA0001685675030000122
进行重要性采样,对于i=1:N,计算权重
Figure BDA0001685675030000123
并归一化权重
Figure BDA0001685675030000124
步骤3.3,根据重要性采样得到的权重大小进行重采样,重新选取
Figure BDA0001685675030000125
步骤3.4,利用重采样得到的
Figure BDA0001685675030000126
进行Kalman更新,对于i=1:N,计算
Figure BDA0001685675030000127
步骤3.5,然后,对于i=1:N,输出
Figure BDA0001685675030000128
循环步骤3.1至步骤3.5,逐步输出
Figure BDA0001685675030000129
得到硬盘状态估计序列
Figure BDA00016856750300001210
如图3~图6所示,其中图3和图4为一块硬盘的故障预警处理过程,图5和图6为另一块硬盘的故障预警处理过程,图3和图5均呈现了对应硬盘的状态观测序列
Figure BDA00016856750300001211
和状态估计序列
Figure BDA00016856750300001212
随运行时间的变化趋势;
然后,利用多源信息融合得到的状态观测序列
Figure BDA00016856750300001213
和硬盘状态估计序列
Figure BDA00016856750300001214
作差,得到硬盘系统的残差序列
Figure BDA00016856750300001215
如图3所示,其中,图3和图4为一块硬盘的故障预警处理过程,图5和图6为另一块硬盘的故障预警处理过程,图4和图6均呈现了对应硬盘系统的残差序列随时间的变化趋势;
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
(3)首先,通过所得硬盘系统残差序列的统计特征(统计特征包括均值和标准差),设定适合于不同硬盘个体的自适应故障预警阈值:
自适应故障预警阈值Threshold=m·μt+n·σt
其中,m和n为常系数,μt为0到t时刻的残差均值,σt为0到t时刻的残差标准差;
然后,利用自适应故障预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,如果当前时刻残差未超过该自适应故障预警阈值,则进入下一时刻继续检测,直至检测到某一时刻残差超过该自适应故障预警阈值,则报硬盘故障,并记录当前时刻tkW,获得单个硬盘的预警提前量Tk=tkF-tkW
如图4和图6所示,这两幅图均记录了对应硬盘的故障预警提前量,分别为126小时和200小时;
最后,对多个硬盘样本利用上述方法进行故障预警处理后,统计用于评价硬盘可靠性的相关指标数值,包括:
故障检出率:
Figure BDA0001685675030000131
故障误报率:
Figure BDA0001685675030000132
平均预警提前量:
Figure BDA0001685675030000133
Tk=tkF-tkW
其中,nCP表示从总体故障硬盘检测出来的硬盘数量,nF表示总体故障硬盘数量,nFP表示总体健康硬盘中被误报为故障的硬盘数量,nH表示总体健康硬盘数量,Tk表示第k个硬盘的预警提前量,tkF表示第k个硬盘发生故障时刻(对于未发生故障硬盘,该值取所采集数据的终点时刻),tkW表示第k个硬盘被报故障时刻。
对多个硬盘样本分别利用上述方法进行故障预警处理后,统计故障检出率、故障误报率和平均预警提前量。
如图7所示,总体故障硬盘数量为39块,其中通过本发明提出的方法检测出故障硬盘的数量为36块,因此,硬盘故障检出率为92.31%;其平均预警提前量为958小时;
如图8所示,总体健康硬盘数量为33块,其中通过本发明提出的方法检测出故障硬盘的数量为0块,因此,硬盘故障检出率为0%;其平均预警提前量为0小时,表明该方法对于健康硬盘没有产生误报情况;
通过实施以上三部分流程,由实施例结果表明,本发明提出的基于粒子滤波的硬盘故障预警与可靠性评估方法,能够在保证零误报的情况下,获得高水平的故障检出率,此外,还能获得对于服务器运营商来说比较合理的故障预警提前量,这能充分指导他们进行大规模更换存储备件。
针对企业级硬盘故障预警工程实际问题,首先根据硬盘主要失效形式选取硬盘原始S.M.A.R.T.数据一次指标,并以此构造用于故障预警方法的二次指标;其次,基于二次指标进行多源信息融合,将高维原始数据降低为一维状态退化量;再次,运用基于贝叶斯估计的粒子滤波递推估计出硬盘状态序列,并与实际硬盘状态观测序列作差,获得硬盘系统残差;最后,根据残差统计特征设定自适应故障判定阈值,并结合多点连续报警机制实施故障预警,统计可靠性评价相关指标。该方法实施简单,效果显著,为企业级硬盘故障预测提供了一种有效的方法。

Claims (9)

1.一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,包括以下步骤:
步骤1),采集硬盘运行数据的原始S.M.A.R.T.参数集,从采集的硬盘运行数据的原始S.M.A.R.T.参数集筛选出用于硬盘故障预警的一次指标;再利用选出的一次指标构造能够反映硬盘动态异常行为的二次指标;
步骤2),基于该二次指标,将高维S.M.A.R.T.参数集转换为一维硬盘状态退化数据,以该一维硬盘状态退化数据作为状态观测序列;
步骤3),运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态估计序列;再利用步骤2)得到的状态观测序列与状态估计序列作差,得到硬盘系统的残差序列;
步骤4),根据步骤3)所得残差序列的统计特征,设定适合于不同硬盘个体的自适应故障预警阈值,并利用该预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,获得单个硬盘的预警提前量;
步骤5),对多个硬盘样本分别进行步骤3)至步骤4),统计用于评价硬盘可靠性的相关指标数值,以评价硬盘的可靠性。
2.根据权利要求1所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,步骤1)的具体过程如下:选取和硬盘的磁头、磁碟及空气轴承相关的原始S.M.A.R.T.参数作为硬盘故障预警方法的一次指标。
3.根据权利要求2所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,一次指标包括磁盘坏道、读扇区计数、读错误计数、写扇区计数和写错误计数;
利用一次指标构造的二次指标包括index1、index2、index3和index4,分别如下:
index1=G(ti);
Figure FDA0002689272470000011
Figure FDA0002689272470000021
Figure FDA0002689272470000022
其中,ti和ti+1是硬盘S.M.A.R.T.数据相邻的采样时刻,G(ti)表示ti时刻的磁盘坏道,Rsc(ti)表示ti时刻的读扇区计数,Wsc(ti)表示ti时刻的写扇区计数,Rec(ti)表示ti时刻的读错误计数,Wec(ti)表示ti时刻的写错误计数。
4.根据权利要求1所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,步骤2)中具体步骤如下:
首先,根据已知硬盘S.M.A.R.T.数据集选取用于多元回归分析的训练集,并通过该训练集获得回归矩阵w,过程如下:
Figure FDA0002689272470000023
y∈R1,X∈Rn
其中,y∈[0,1],为硬盘随时间增长的连续状态变量;X{X1,X2,...,Xn},为影响硬盘连续状态变量值的S.M.A.R.T.数据;R1为一维空间;Rn为n维空间;y和X共同构成了训练集;
其次,利用得到的回归矩阵w对硬盘S.M.A.R.T.数据进行健康状态映射,过程如下:
Figure FDA0002689272470000024
X∈Rn,w∈R1
其中,
Figure FDA0002689272470000025
为硬盘S.M.A.R.T.数据经降维得到的一维硬盘状态退化数据。
5.根据权利要求4所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,硬盘随时间增长的连续状态变量y取硬盘故障时刻的0%、25%、50%、75%和100%处的状态值,分别为0、0.25、0.5、0.75和1。
6.根据权利要求4所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,步骤3)中的具体过程如下:
首先,运用基于贝叶斯估计的粒子滤波方法递推估计出硬盘状态估计序列,其过程如下:
当采样时刻t=1时,初始化步骤,对于任意粒子i=1:N,设置状态初值{μ00};
当采样时刻t=2:T时,进行如下步骤:
步骤3.1,Kalman预测,对于i=1:N,计算
Figure FDA0002689272470000031
步骤3.2,利用Kalman预测得到的
Figure FDA0002689272470000032
进行重要性采样,对于i=1:N,计算权重
Figure FDA0002689272470000033
并归一化权重
Figure FDA0002689272470000034
步骤3.3,根据重要性采样得到的权重大小进行重采样,重新选取
Figure FDA0002689272470000035
步骤3.4,利用重采样得到的
Figure FDA0002689272470000036
进行Kalman更新,对于i=1:N,计算
Figure FDA0002689272470000037
步骤3.5,然后,对于i=1:N,输出
Figure FDA0002689272470000038
循环步骤3.1至步骤3.5,逐步输出
Figure FDA0002689272470000039
得到硬盘状态估计序列
Figure FDA00026892724700000310
其中,N表示粒子数量,T表示硬盘S.M.A.R.T.数据的长度,μ和Σ分别表示状态均值和方差,z表示离散状态变量,w表示粒子权重;
其次,再利用状态观测序列
Figure FDA00026892724700000311
和硬盘状态估计序列
Figure FDA00026892724700000312
作差,得到硬盘系统的残差序列
Figure FDA00026892724700000313
7.根据权利要求1所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,步骤4)的具体步骤如下:
首先,通过所得硬盘系统残差序列的统计特征,确定适合于不同硬盘个体的自适应故障预警阈值,自适应故障预警阈值Threshold=m·μt+n·σt
其中,m和n为常系数,μt为0到t时刻的残差均值,σt为0到t时刻的残差标准差;
然后,利用自适应故障预警阈值和多点连续报警机制判定当前时刻硬盘的健康状态,如果当前时刻残差未超过该自适应故障预警阈值,则进入下一时刻继续检测,直至检测到某一时刻残差超过该自适应故障预警阈值,则报硬盘故障,并记录当前时刻tkW,获得单个硬盘的预警提前量Tk=tkF-tkW
tkF表示第k个硬盘发生故障时刻,对于未发生故障硬盘,tkF取所采集数据的终点时刻,tkW表示第k个硬盘被报故障时刻。
8.根据权利要求1所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,用于评价硬盘可靠性的相关指标数值,包括:
故障检出率:
Figure FDA0002689272470000041
故障误报率:
Figure FDA0002689272470000042
平均预警提前量:
Figure FDA0002689272470000043
Tk=tkF-tkW
其中,nCP表示从总体故障硬盘检测出来的硬盘数量,nF表示总体故障硬盘数量,nFP表示总体健康硬盘中被误报为故障的硬盘数量,nH表示总体健康硬盘数量,Tk表示第k个硬盘的预警提前量,tkF表示第k个硬盘发生故障时刻,对于未发生故障硬盘,tkF取所采集数据的终点时刻,tkW表示第k个硬盘被报故障时刻。
9.根据权利要求1所述的一种基于粒子滤波的硬盘故障预警与可靠性评估方法,其特征在于,运用多元回归分析方法将高维S.M.A.R.T.参数集转换为一维硬盘状态退化数据。
CN201810574798.9A 2018-06-05 2018-06-05 一种基于粒子滤波的硬盘故障预警与可靠性评估方法 Active CN108763048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810574798.9A CN108763048B (zh) 2018-06-05 2018-06-05 一种基于粒子滤波的硬盘故障预警与可靠性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810574798.9A CN108763048B (zh) 2018-06-05 2018-06-05 一种基于粒子滤波的硬盘故障预警与可靠性评估方法

Publications (2)

Publication Number Publication Date
CN108763048A CN108763048A (zh) 2018-11-06
CN108763048B true CN108763048B (zh) 2021-01-19

Family

ID=64000171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810574798.9A Active CN108763048B (zh) 2018-06-05 2018-06-05 一种基于粒子滤波的硬盘故障预警与可靠性评估方法

Country Status (1)

Country Link
CN (1) CN108763048B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115004B (zh) * 2020-07-29 2022-02-11 西安交通大学 一种基于反向传播贝叶斯深度学习的硬盘寿命预测方法
CN112378670B (zh) * 2020-11-10 2021-10-15 北京航空航天大学 一种基于改进粒子滤波的火箭发动机故障检测方法
CN113312758B (zh) * 2021-05-12 2023-07-25 上海电气风电集团股份有限公司 风力发电机组的健康状态评估方法和装置
CN115408373A (zh) * 2021-05-26 2022-11-29 中兴通讯股份有限公司 数据处理方法及设备、计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048789A (ja) * 2004-08-02 2006-02-16 Hitachi Global Storage Technologies Netherlands Bv 磁気ディスク装置の故障予測方法及びこれを用いた磁気ディスク装置
CN101866271A (zh) * 2010-06-08 2010-10-20 华中科技大学 一种基于raid的安全预警系统和方法
CN103455395B (zh) * 2013-08-08 2016-12-07 华为技术有限公司 一种硬盘故障的检测方法及装置

Also Published As

Publication number Publication date
CN108763048A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108763048B (zh) 一种基于粒子滤波的硬盘故障预警与可靠性评估方法
CN108038049B (zh) 实时日志控制系统及控制方法、云计算系统及服务器
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN111259947A (zh) 一种基于多模态学习的电力系统故障预警方法和系统
CN113642754B (zh) 一种基于rf降噪自编码信息重构和时间卷积网络的复杂工业过程故障预测方法
CN116559598B (zh) 一种智慧配电网故障定位方法及系统
CN110990788A (zh) 一种基于三元维纳过程的轴承剩余寿命预测方法
CN111913443A (zh) 基于相似性的工业设备故障预警方法
CN111666978B (zh) 一种it系统运维大数据的智能故障预警系统
Lai et al. Accelerated multiple alarm flood sequence alignment for abnormality pattern mining
CN111881574A (zh) 一种基于分布函数优选的风电机组关键部件可靠性建模方法
CN113609770A (zh) 基于分段线性拟合hi及lstm的滚动轴承rul预测方法
CN115719283A (zh) 一种智能化会计管理系统
CN117094184B (zh) 基于内网平台的风险预测模型的建模方法、系统及介质
Ferraro et al. A novel approach for predictive maintenance combining GAF encoding strategies and deep networks
CN112016800B (zh) 一种基于有效性指标的特征选择方法与系统
CN112016193B (zh) 一种盾构机系统的润滑失效在线预测方法及系统
CN117032165A (zh) 一种工业设备故障诊断方法
CN111934903A (zh) 一种基于时序演化基因的Docker容器故障智能预测方法
CN116702597A (zh) 一种机械设备运行寿命预测与健康管理方法、系统及介质
Wang et al. Hard disk drives failure detection using a dynamic tracking method
CN114186644A (zh) 一种基于优化随机森林的缺陷报告严重程度预测方法
Kundu et al. PCA-ANN based approach for remaining useful life prediction for roller ball bearings
Scheffel et al. Data confidence applied to wind turbine power curves
CN110569277A (zh) 一种配置数据信息自动识别与归类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240118

Address after: 710075 Room 1405, Building 3, West Yungu Phase II, Fengxi New Town, Xixian New District, Xi'an City, Shaanxi Province

Patentee after: Shaanxi Yungang Zhiwei Technology Co.,Ltd.

Address before: Beilin District Xianning West Road 710049, Shaanxi city of Xi'an province No. 28

Patentee before: XI'AN JIAOTONG University