CN113157506A - 一种基于变点小波法的硬盘失效分析方法 - Google Patents

一种基于变点小波法的硬盘失效分析方法 Download PDF

Info

Publication number
CN113157506A
CN113157506A CN202110415523.2A CN202110415523A CN113157506A CN 113157506 A CN113157506 A CN 113157506A CN 202110415523 A CN202110415523 A CN 202110415523A CN 113157506 A CN113157506 A CN 113157506A
Authority
CN
China
Prior art keywords
hard disk
log
smart
running state
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110415523.2A
Other languages
English (en)
Other versions
CN113157506B (zh
Inventor
李肖坚
王海兰
张佳佳
杨昊澎
廖富
梁煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202110415523.2A priority Critical patent/CN113157506B/zh
Publication of CN113157506A publication Critical patent/CN113157506A/zh
Application granted granted Critical
Publication of CN113157506B publication Critical patent/CN113157506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2247Verification or detection of system hardware configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2263Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种用于提取硬盘运行状况的变点小波方法,首先时序化硬盘运行状况并剔除常量,生成硬盘SMART时序特征;其次用线性内插法填充时序特征的空缺值;其二用归一化方式等值化时序特征;其三分解出硬盘SMART时序特征的小波;其四并以可视化方式呈现小波形态的不同频率;最后用卷积网络与长短记忆网络验证变点小波具有表征硬盘失效的有效性。该方法不仅能处理含缺失值的硬盘运行状况日志还能提取出具有指示硬盘失效的变点小波特征。从而实现从硬盘运行状况日志中提取小波,用小波预测硬盘的健康状况,获得了提高预测准确率和精准率的技术效果。

Description

一种基于变点小波法的硬盘失效分析方法
技术领域
本发明涉及一种用于提取云服务器中硬盘运行状况的变点小波方法,该方法属于大数据挖掘的技术领域。
背景技术
硬盘运行状况日志是记录硬盘从启用到死亡的运行状态的信息,用SMART(Self-Monitoring Analysis and Reporting Technology,简称SMART)特征值表示硬盘运行的状态。而硬盘运行状况日志中的SMART特征信息主要是由制造商提供,当前尚不能直接从SMART特征中了解硬盘失效前表现出的突变症状。
硬盘失效给供应商和用户带来巨大的经济损失,硬盘失效不仅会导致用户的数据不可用,甚至永久性的丢失数据,还会导致服务器宕机,且已有研究指出硬盘失效是导致服务器失效的主要原因。硬盘失效有两种情况,一种是突然失效,另一种是随着时间的增长逐渐失效。
变点是指样本序列在某特性上的观察值发生异常变化的样本位置,这种突然变化往往反映事物的某种质的变化。目前分析变点特性的硬盘失效特征方法,主要有两种,第一种是基于统计方法分析硬盘运行状况,如用贝叶斯变点检测、参数估计等来揭示硬盘运行状况数据集中的均值、方差、趋势、概率等突变;第二种是用机器学习方法建立回归模型,拟合硬盘失效特征的衰退过程。
然而在不同的时间维度和空间维度上硬盘的失效特征值都是非均匀随机分布,虽然用传统的统计方法从均值、方差、趋势、概率等角度分析变点特征,取得一定效果,但由于传统的统计方法主要依靠假设检验理论,若假设不成立,则很难用传统的统计方法对失效特征建模。
且硬盘运行状况日志中存在严重的数据不平衡和空缺值问题,数据不平衡是指失效硬盘数量与正常硬盘数量的比例严重失衡;空缺值是指日志记录中含有空值。因此现有的分析变点特性方法尚不能直接处理含空缺值的硬盘运行状况日志。
如何从硬盘运行状况日志中提取硬盘失效的重要特征,是本发明有待解决的技术问题。
发明内容
本发明的目的是提取具有指示性的变点小波特征来表征硬盘失效。为了解决现有技术的问题,本发明提出一种基于变点小波法的硬盘失效分析方法。具体步骤有:
解读硬盘运行状况日志,明确硬盘运行状况日志的每一个记录的各字段含义的步骤;
剔除硬盘运行状况日志中的常量,并将硬盘运行状况SMART特征值按其采样的时间,先后顺序排列,生成可用的时序特征的处理步骤;
填充空缺值,计算空缺值的前后两个位置上值的平均值,作为空缺位的值的处理步骤;
用最大-最小值的归一化方法,等值化时序特征的处理步骤;
用小波变换方法,提取时序特征的变点小波的处理步骤;
以可视化方式呈现不同频率下的变点小波的形态的处理步骤;
验证变点小波具有预示硬盘失效的显著性。
本发明基于变点小波法的硬盘失效分析方法的优点在于:
①将硬盘运行状况SMART特征值按其采样的时间先后顺序排列,生成可用的时序特征。
②用线性内插法填充时序特征的空缺值,插入的值更接近时序特征的常态。
③用最大-最小值的归一化方法,等值化时序特征,使特征之间具有可比性。
④把硬盘运行状况的时序特征看作是信号,从时频域角度分析硬盘时序特征的变点小波来表征硬盘失效。
⑤以可视化方式呈现不同频率下的变点小波的形态,更直观的观察变点小波。
⑥用卷积与长短记忆网络(CNN+LSTM)模型验证变点小波具有预示硬盘失效的显著性。
附图说明
图1是硬盘运行状况日志。
图2是本发明提取变点小波的框架流程图。
在图2中,先读取硬盘运行状况记录;然后依据硬盘运行状况记录中的采集时间,对硬盘运行状况记录进行排序,得到时序特征日志;检测时序特征日志是否存在空缺值,若存在空缺值,则采用线性内插法补缺日志,得到完整的时序特征日志;对所述完整的时序特征日志进行归一化,得到等值化的时序特征日志;对等值化的时序特征日志进行小波变换,得到含突变点的小波序列;使用二维直角坐标系可视化变点小波序列的形态,得到变点小波形态的图片;最后,对含突变点的小波序列用卷积网络与长短记忆网络模型进行验证,证实变点小波的有效性。
图3是本发明预处理硬盘运行状况日志的smart特征的流程图。
在图3中,其思路是依据判定规则,找出不符合判定规则的硬盘运行状况日志中的信息项,并剔除硬盘运行状况日志中的该信息项,仅保留符合判定规则的信息项,作为有效特征。所述流程具体如下:输入硬盘运行状况日志,首先遍历硬盘运行状况日志中的所有信息项;然后依次检测出所述硬盘运行状况日志中信息项值恒为空或始终不变的信息项,并剔除所述硬盘运行状况日志中该信息项;其次对于信息项值非恒空且非常量的信息项,再检测该信息项是否含空缺值,若该信息项含空缺值,则采用线性内插法填充该信息项的空缺值;最后对非空且非常量的信息项进行归一化,得到有效特征集合。
图4是本发明smart_7的空缺值填充效果图。
图5是本发明smart_190的变点小波形态图。
图6是本发明smart_242的变点小波形态图。
具体实施方式
下面将结合附图对本发明做进一步的详细说明。
本发明处理的对象是硬盘运行状况日志,每一条硬盘运行状况日志是来源于云存储服务商BackBlaze提供的B2云存储,每年BackBlaze会发布各种型号硬盘运行的记录,其中硬盘的制造商包括希捷、西数、东芝等。BackBlaze官网地址https://www.backblaze.com/b2/hard-drive-test-data.html#downloading-the-raw-hard-drive-test-data。
本发明借助计算机硬件,且软件采用Python语言开发,使用MySQL作为数据库支撑,仿真环境为Intellij IDEA(版本号2020.1)编译器。仿真环境为matlab(版本号7.13)。
计算机是一种能够按照事先存储的程序,自动、高速地进行大量数值计算和各种信息处理的现代化智能电子设备。最低配置为CPU 2GHz,内存2GB,硬盘180GB;操作系统为windows 7及以上版本。
硬盘运行状况日志
在本发明中,硬盘运行状况日志,记为Log。所述Log中包括的内容信息有:日志生成时间date(单位,秒,年-月-日-时-分-秒,即yyyy-mm-dd-hh-mm-ss)、硬盘序列号serial_number、硬盘型号model、硬盘已使用的内存容量capacity_bytes(单位,字节)和硬盘运行状态smart特征SMART={smart_1,smart_2,…,smart_255,smart_256},即日志是个五元组信息
Figure BDA0003025740350000021
所述硬盘序列号serial_number、所述硬盘型号model和所述SMART是硬盘生产商制定的。
所述硬盘运行状态smart特征SMART包括有256个特征,记为SMART={smart_1,smart_2,…,smart_255,smart_256}。k表示任意一个硬盘运行状态特征,k∈[1,256],这256个特征是硬盘生产商制定的。
smart_1表示硬盘的原始数据读取错误率。
smart_2表示硬盘的读写性能。
smart_4表示硬盘的启停次计数。
smart_5表示硬盘的重定位磁区的计数。
smart_7表示硬盘的寻位错误率。
smart_9表示硬盘的通电时间。
smart_12表示硬盘的通电周期计数。
smart_183表示硬盘的运行时坏块计数。
smart_184表示硬盘的端-端错误的检测计数。
smart_187表示硬盘的已报告的不可纠正错误。
smart_188表示硬盘的命令超时。
smart_189表示硬盘的磁头高悬写。
smart_190表示硬盘的气流温度。
smart_192表示硬盘的电源关闭磁头缩回计数。
smart_193表示硬盘的负载周期计数。
smart_194表示硬盘的温度摄氏度。
smart_197表示硬盘的当前待定扇区的计数。
smart_198表示硬盘的脱机不可校正的扇区计数。
smart_199表示硬盘的DMA的CRC错误计数。
smart_240表示硬盘的磁头飞行时间。
smart_241表示硬盘的LBA写入总数。
smart_242表示硬盘的LBA读取总数。
smart_255表示硬盘的读取错误重试率。
smart_256表示硬盘的自动跌落保护记录。
硬盘运行状况日志的内容参见图1所示。本发明运行的硬盘运行状况日志来源于云存储服务商BackBlaze。从云存储服务器中读取多个硬盘运行状况的多条日志,形成日志集合,记为DLOG,对日志集合DLOG按照日志采集时间先后进行排序,得到待处理-日志集合,记为D_Log,且D_Log={Log1,Log2,…,Logi,…,Logj,…,Logy,…,Logz}。
Log1表示第一条待处理-日志。
Log2表示第二条待处理-日志。
Logi表示第i条待处理-日志。
Logj表示第j条待处理-日志。
Logy表示第y条待处理-日志。
Logz表示第z条待处理-日志。
本发明中,为了方便说明,Logi也称为任意一条待处理-日志,下角标i表示待处理-日志的标识号。Logi、Logj、Logy和Logz为不同的待处理-日志。
为了方便说明,列举了待处理-日志包含的具体内容信息:
例如,第一条待处理-日志Log1中包括的五元组内容信息,即
Figure BDA0003025740350000031
例如,第二条待处理-日志Log2中包括的五元组内容信息,即
Figure BDA0003025740350000032
例如,第三条待处理-日志Log3中包括的五元组内容信息,即
Figure BDA0003025740350000033
例如,第四条待处理-日志Log4中包括的五元组内容信息,即
Figure BDA0003025740350000041
例如,第五条待处理-日志Log5中包括的五元组内容信息,即
Figure BDA0003025740350000042
例如,第六条待处理-日志Log6中包括的五元组内容信息,即
Figure BDA0003025740350000043
例如,第七条待处理-日志Log7中包括的五元组内容信息,即
Figure BDA0003025740350000044
例如,第八条待处理-日志Log8中包括的五元组内容信息,即
Figure BDA0003025740350000045
例如,第九条待处理-日志Log9中包括的五元组内容信息,即
Figure BDA0003025740350000046
例如,第十条待处理-日志Log10中包括的五元组内容信息,即
Figure BDA0003025740350000047
列举的日志中存在相同硬盘序列号serial_number的有三种,分别是:S3010MAK、ZJV0XJQ0和ZJV02XWG。说明采集到的是有三种硬盘上的日志,则硬盘集合,记为HD={hd1,hd2,…,hdA}。第一个硬盘hd1赋值为S3010MAK。第二个硬盘hd2赋值为ZJV0XJQ0。最后一个硬盘hdA赋值为ZJV02XWG。
硬盘标记
在本发明中,硬盘标记为hd;硬盘集合,记为HD={hd1,hd2,…,hdA}。hd1表示第一个硬盘。hd2表示第二个硬盘。hdA表示最后一个硬盘。为了方便说明,下角标A表示硬盘的标识号;所述hdA也称为任意一个硬盘。
在本发明中,依据硬盘序列号serial_number对存在于同一硬盘的日志进行归类,记为待处理-同硬盘-日志集合D_LogHD,且
Figure BDA0003025740350000048
Figure BDA0003025740350000049
表示存在归属硬盘的第一条待处理-日志,简称为待处理-同硬盘-第一条日志。
Figure BDA00030257403500000410
表示存在归属硬盘的第二条待处理-日志,简称为待处理-同硬盘-第二条日志。
Figure BDA00030257403500000411
表示存在归属硬盘的第i条待处理-日志,简称为待处理-同硬盘-第i条日志。
Figure BDA00030257403500000412
表示存在归属硬盘的第j条待处理-日志,简称为待处理-同硬盘-第j条日志。
Figure BDA00030257403500000413
表示存在归属硬盘的第y条待处理-日志,简称为待处理-同硬盘-第y条日志。
Figure BDA00030257403500000414
表示存在归属硬盘的第z条待处理-日志,简称为待处理-同硬盘-第z条日志。
日志上赋值smart特征
在本发明中,硬盘供货商指定的硬盘运行状态smart特征是256个,如图1所示,工作于云服务器中的硬盘运行后,每一个硬盘运行日志Log的信息会被记录于这256个硬盘运行状态特征中的某一个smart特征或者多个smart特征中。硬盘运行状态smart特征,记为SMART={smart_1,smart_2,…,smart_255,smart_256}。任意一个硬盘运行状态smart特征记为符号k,且k∈[1,256]。同硬盘运行状态smart特征的特征序列,记为
Figure BDA0003025740350000051
Figure BDA0003025740350000052
表示待处理-同硬盘-第一条日志的硬盘运行状态smart特征。
Figure BDA0003025740350000053
表示待处理-同硬盘-第二条日志的硬盘运行状态smart特征。
Figure BDA0003025740350000054
表示待处理-同硬盘-第i条日志的硬盘运行状态smart特征。
Figure BDA0003025740350000055
表示待处理-同硬盘-第j条日志的硬盘运行状态smart特征。
Figure BDA0003025740350000056
表示待处理-同硬盘-第y条日志的硬盘运行状态smart特征。
Figure BDA0003025740350000057
表示待处理-同硬盘-第z条日志的硬盘运行状态smart特征。
各个硬盘上记录的日志
硬盘运行状况日志,记为Log。属于第一个硬盘hd1上的日志集合,记为
Figure BDA0003025740350000058
Figure BDA0003025740350000059
表示属于第一个硬盘hd1上的第一条硬盘运行状况日志。
Figure BDA00030257403500000510
表示属于第一个硬盘hd1上的第二条硬盘运行状况日志。
Figure BDA00030257403500000511
表示属于第一个硬盘hd1上的最后一条硬盘运行状况日志。为了方便说明,下角标B表示属于第一个硬盘hd1的硬盘运行状况日志的标识号;所述
Figure BDA00030257403500000512
也称为属于第一个硬盘hd1的任意一条硬盘运行状况日志。
例如,属于硬盘hd1上的日志集合有
Figure BDA00030257403500000513
所述
Figure BDA00030257403500000514
所述
Figure BDA00030257403500000515
所述
Figure BDA00030257403500000516
硬盘运行状况日志,记为Log。属于第二个硬盘hd2上的日志集合,记为
Figure BDA00030257403500000517
Figure BDA0003025740350000061
表示属于第二个硬盘hd2上的第一条硬盘运行状况日志。
Figure BDA0003025740350000062
表示属于第二个硬盘hd2上的第二条硬盘运行状况日志。
Figure BDA0003025740350000063
表示属于第二个硬盘hd2上的最后一条硬盘运行状况日志。为了方便说明,下角标C表示属于第二个硬盘hd2的硬盘运行状况日志的标识号;所述
Figure BDA0003025740350000064
也称为属于第二个硬盘hd2的任意一条硬盘运行状况日志。
例如,属于硬盘hd2上的日志集合有
Figure BDA0003025740350000065
所述
Figure BDA0003025740350000066
所述
Figure BDA0003025740350000067
所述
Figure BDA0003025740350000068
硬盘运行状况日志,记为Log。属于最后一个硬盘hdA上的日志集合,记为
Figure BDA0003025740350000069
Figure BDA00030257403500000610
表示属于最后一个硬盘hdA上的第一条硬盘运行状况日志。
Figure BDA00030257403500000611
表示属于最后一个硬盘hdA上的第二条硬盘运行状况日志。
Figure BDA00030257403500000612
表示属于最后一个硬盘hdA上的最后一条硬盘运行状况日志。为了方便说明,下角标D表示属于最后一个硬盘hdA的硬盘运行状况日志的标识号;所述
Figure BDA00030257403500000613
也称为属于最后一个硬盘hdA的任意一条硬盘运行状况日志。
例如,属于硬盘hdA上的日志集合有
Figure BDA00030257403500000614
所述
Figure BDA00030257403500000615
所述
Figure BDA00030257403500000616
所述
Figure BDA00030257403500000617
所述
Figure BDA00030257403500000618
参考图2所示,本发明用于提取硬盘运行状况的变点小波方法,包括如下步骤。
步骤一,读取硬盘运行状况日志;
步骤一是从云存储服务器中读取多个硬盘运行状况的多条日志,形成日志集合,记为DLOG,对日志集合DLOG按照日志采集时间先后进行排序,得到待处理-日志集合D_Log={Log1,Log2,…,Logi,…,Logj,…,Logy,…,Logz}。
步骤二,依据硬盘序列号选取出属于同一硬盘中的日志;
依据硬盘序列号serial_number从步骤一的待处理-日志集合D_Log={Log1,Log2,…,Logi,…,Logj,…,Logy,…,Logz}中选取出属于同一硬盘的日志,记为待处理-同硬盘-日志集合D_LogHD,且
Figure BDA0003025740350000071
在本发明中,由于硬盘集合记为HD={hd1,hd2,…,hdA},故属于同一硬盘的日志即待处理-同硬盘-日志集合标记为
Figure BDA0003025740350000072
步骤三,时序化同一硬盘上的硬盘运行状况日志;
步骤301,将256个硬盘运行状态smart特征赋值到各个日志上;
在本发明中,硬盘供货商指定的硬盘运行状态smart特征是256个,如图1所示,工作于云服务器中的硬盘运行后,每一个硬盘运行日志Log的信息会被记录于这256个硬盘运行状态特征中的某一个smart特征或者多个smart特征中。由于硬盘运行状态smart特征SMART={smart_1,smart_2,…,smart_255,smart_256},则有:待处理-同硬盘-第i条日志
Figure BDA0003025740350000073
携带的硬盘运行状态smart特征,记为同硬盘-smart特征的第i条日志
Figure BDA0003025740350000074
Figure BDA0003025740350000075
表示日志
Figure BDA0003025740350000076
携带了硬盘的原始数据读取错误率smart_1特征。
Figure BDA0003025740350000077
表示日志
Figure BDA0003025740350000078
携带了硬盘的读写性能smart_2特征。
Figure BDA0003025740350000079
表示日志
Figure BDA00030257403500000710
携带了硬盘的读取错误重试率smart_255特征。
Figure BDA00030257403500000711
表示日志
Figure BDA00030257403500000712
携带了硬盘的自动跌落保护记录smart_256特征。
例如,将硬盘运行状态smart特征SMART={smart_1,smart_2,…,smart_255,smart_256}赋值给第一个硬盘hd1上的日志集合
Figure BDA00030257403500000713
则有:
第一个硬盘hd1上的第一条日志
Figure BDA00030257403500000714
的同硬盘-smart特征的日志,记为
Figure BDA00030257403500000715
第一个硬盘hd1上的第二条日志
Figure BDA00030257403500000716
的同硬盘-smart特征日志,记为
Figure BDA00030257403500000717
第一个硬盘hd1上的最后一条日志
Figure BDA00030257403500000718
的同硬盘-smart特征日志,记为
Figure BDA00030257403500000719
例如,将硬盘运行状态smart特征SMART={smart_1,smart_2,…,smart_255,smart_256}赋值给第二个硬盘hd2上的日志集合
Figure BDA00030257403500000720
则有:
第二个硬盘hd2上的第一条日志
Figure BDA00030257403500000721
的同硬盘-smart特征日志,记为
Figure BDA00030257403500000722
第二个硬盘hd2上的第二条日志
Figure BDA00030257403500000723
的同硬盘-smart特征日志,记为
Figure BDA00030257403500000724
第二个硬盘hd2上的最后一条日志
Figure BDA00030257403500000725
的同硬盘-smart特征日志,记为
Figure BDA00030257403500000726
例如,将硬盘运行状态smart特征SMART={smart_1,smart_2,…,smart_255,smart_256}赋值给最后一个硬盘hdA上的日志集合
Figure BDA0003025740350000081
则有:
最后一个硬盘hdA上的第一条日志
Figure BDA0003025740350000082
的同硬盘-smart特征日志,记为
Figure BDA0003025740350000083
最后一个硬盘hdA上的第二条日志
Figure BDA0003025740350000084
的同硬盘-smart特征日志,记为
Figure BDA0003025740350000085
最后一个硬盘hdA上的第三条日志
Figure BDA0003025740350000086
的同硬盘-smart特征日志,记为
Figure BDA0003025740350000087
最后一个硬盘hdA上的最后一条日志
Figure BDA0003025740350000088
的同硬盘-smart特征日志,记为
Figure BDA0003025740350000089
步骤302,对携带smart特征的日志进行行列变换,得到时序化变换日志;
在本发明中,依据日志生成时间date的先后对对同硬盘-smart特征日志进行排序,然后进行行列变换处理,得到时序化-日志集合SMARTHD,记为:
Figure BDA00030257403500000810
简化所述时序化-日志集合为
Figure BDA00030257403500000811
k∈[1,256]。
例如,第一个硬盘hd1的硬盘运行状态smart特征有,
Figure BDA00030257403500000812
Figure BDA00030257403500000813
Figure BDA00030257403500000814
进行时序化smart特征的行列变换,得到:
Figure BDA0003025740350000091
例如,第二个硬盘hd2的硬盘运行状态smart特征有,
Figure BDA0003025740350000092
Figure BDA0003025740350000093
Figure BDA0003025740350000094
进行时序化smart特征的行列变换,得到:
Figure BDA0003025740350000095
例如,最后个硬盘hdA的硬盘运行状态smart特征有,
Figure BDA0003025740350000096
Figure BDA0003025740350000097
Figure BDA0003025740350000098
Figure BDA0003025740350000099
进行时序化smart特征的行列变换,得到:
Figure BDA00030257403500000910
参考图3所示,本发明获取同硬盘有效smart特征,流程如下:
步骤四,同硬盘有效特征获取;
在本发明中,设置了2个检测规则,分别为硬盘运行状态特征判断规则Ⅰ和硬盘运行状态特征判断规则Ⅱ。
在本发明中,待处理-同硬盘-第i条日志的硬盘运行状态smart特征
Figure BDA00030257403500000911
的特征方差,记为
Figure BDA00030257403500000912
硬盘运行状态特征判断规则Ⅰ
检测所述时序化-日志集合为
Figure BDA0003025740350000101
k∈[1,256]的值是否都为空;
如果都为空,则认为所述SMARTHD没提供smart特征信息,对硬盘失效分析没有贡献,则需要放弃所述SMARTHD
如果为非空,保留所述SMARTHD,并将SMARTHD记为时序化-有效日志集合
Figure BDA0003025740350000102
则有
Figure BDA0003025740350000103
k∈[1,256]。
硬盘运行状态特征判断规则Ⅱ
在时序化-有效日志集合
Figure BDA0003025740350000104
中,如果
Figure BDA0003025740350000105
的特征方差
Figure BDA0003025740350000106
则认为所述
Figure BDA0003025740350000107
是常量,对硬盘失效分析没有贡献,需要放弃
Figure BDA0003025740350000108
Figure BDA0003025740350000109
对应的序列,得到空序列-时序化-有效日志集合
Figure BDA00030257403500001010
在时序化-有效日志集合
Figure BDA0003025740350000111
中,如果
Figure BDA0003025740350000112
的特征方差
Figure BDA0003025740350000113
则认为所述
Figure BDA0003025740350000114
的值为变化量,能够为硬盘失效分析提供贡献,保留
Figure BDA0003025740350000115
Figure BDA0003025740350000116
对应的序列,同时时序化-有效日志集合
Figure BDA0003025740350000117
不变化。
步骤401,判断同硬盘上的日志的smart特征是否全为空;
采用硬盘运行状态特征判断规则Ⅰ遍历步骤三得到的时序化-日志集合SMARTHD中256个smart特征;
如果都为空,则认为所述SMARTHD没提供smart特征信息,对硬盘失效分析没有贡献,则需要放弃所述SMARTHD
如果为非空,保留所述SMARTHD,并将SMARTHD记为时序化-有效日志集合
Figure BDA0003025740350000118
则有:
Figure BDA0003025740350000119
步骤402,对时序化-有效日志进行方差判断;
在本发明中,待处理-同硬盘-第i条日志的硬盘运行状态smart特征
Figure BDA00030257403500001110
的特征方差,记为
Figure BDA00030257403500001111
采用硬盘运行状态特征判断规则Ⅱ遍历时序化-有效日志集合
Figure BDA00030257403500001112
特征方差;
如果特征方差
Figure BDA00030257403500001113
则认为所述
Figure BDA00030257403500001114
是常量,对硬盘失效分析没有贡献,需要放弃时序化-有效日志集合
Figure BDA00030257403500001115
Figure BDA00030257403500001116
对应的序列,得到空序列-时序化-有效日志集合
Figure BDA00030257403500001117
执行步骤501;
如果特征方差
Figure BDA00030257403500001118
则认为所述
Figure BDA00030257403500001119
的值为变化量,能够为硬盘失效分析提供贡献,保留时序化-有效日志集合
Figure BDA0003025740350000121
Figure BDA0003025740350000122
对应的序列,同时时序化-有效日志集合
Figure BDA0003025740350000123
不变化。执行步骤501;
例如,经步骤四的处理后,得到的
Figure BDA0003025740350000124
Figure BDA0003025740350000125
有21条smart特征信息,即
Figure BDA00030257403500001230
例如,
Figure BDA0003025740350000126
经硬盘运行状态特征判断规则Ⅰ处理后,得到同硬盘-规则Ⅰ-日志集合
Figure BDA0003025740350000127
所述
Figure BDA0003025740350000128
经硬盘运行状态特征判断规则Ⅱ处理后,得到同硬盘-规则Ⅱ-日志集合
Figure BDA0003025740350000129
例如,
Figure BDA00030257403500001210
经硬盘运行状态特征判断规则Ⅰ处理后,得到同硬盘-规则Ⅰ-日志集合
Figure BDA00030257403500001211
所述
Figure BDA00030257403500001212
经硬盘运行状态特征判断规则Ⅱ处理后,得到同硬盘-规则Ⅱ-日志集合
Figure BDA00030257403500001213
例如,
Figure BDA00030257403500001214
经硬盘运行状态特征判断规则Ⅰ处理后,得到同硬盘-规则Ⅰ-日志集合
Figure BDA00030257403500001215
所述
Figure BDA00030257403500001216
经硬盘运行状态特征判断规则Ⅱ处理后,得到同硬盘-规则Ⅱ-日志集合
Figure BDA00030257403500001217
步骤五,填充硬盘运行状况日志的空缺值;
在本发明中,由于硬盘运行和采集记录的设备不稳定或者其他因素,导致采集到的硬盘运行状况日志不是按日志生成时间date连续采样,故需要对存在空缺的所述date进行时间连续的日志补缺硬盘运行状况日志。由同硬盘-规则II-日志集合
Figure BDA00030257403500001218
得到同硬盘-补缺-日志集合
Figure BDA00030257403500001219
在本发明中,日志补缺采用线性内插法进行处理。该线性内插法出自1983年2月出版的《观测数据的数学处理》,作者林纪曾,第74页。
步骤501,检测日志生成时间;
对同硬盘-规则II-日志集合
Figure BDA00030257403500001220
进行日志生成时间dateHD_Ⅱ检测,若所述日志没有出现日志生成时间dateHD_Ⅱ,但该条日志中包括的信息项:硬盘序列号serial_number、硬盘型号model、硬盘内存容量capacity_bytes和硬盘运行状态特征SMART,至少存在一个信息项有空缺值,则说明该日志的内容信息项出现了空缺的信息项,需要进行该日志的信息项补缺;若所述日志生成时间dateHD_Ⅱ存在间隔
Figure BDA00030257403500001221
则说明出现了空缺的日志,需要进行日志补缺;若所述日志生成时间date为连续dateHD_Ⅱ的,则说明日志是连续采样的。
例如,对
Figure BDA00030257403500001222
进行日志生成时间
Figure BDA00030257403500001223
检测,没有出现间隔的日志生成时间
Figure BDA00030257403500001224
Figure BDA00030257403500001225
为连续采样。
例如,对
Figure BDA00030257403500001226
进行日志生成时间
Figure BDA00030257403500001227
检测,没有出现间隔的日志生成时间
Figure BDA00030257403500001228
但日志
Figure BDA00030257403500001229
的硬盘运行状态特征SMART出现空缺值,则需要对
Figure BDA0003025740350000131
中的
Figure BDA0003025740350000132
日志进行信息项补缺处理。
例如,对
Figure BDA0003025740350000133
进行日志生成时间
Figure BDA0003025740350000134
检测,出现了不连续的日志生成时间
Figure BDA0003025740350000135
则需要对
Figure BDA0003025740350000136
中的日志进行日志补缺处理。
步骤502,插入空缺日志;
经步骤501检测出需进行信息项补缺或日志补缺的硬盘DLHD_Ⅱ,DLHD_Ⅱ中待处理的日志记为
Figure BDA0003025740350000137
首先根据时间间隔
Figure BDA0003025740350000138
找到时间间隔
Figure BDA0003025740350000139
的前一时间对应的硬盘日志
Figure BDA00030257403500001310
然后找到时间间隔
Figure BDA00030257403500001311
的后一时间对应的日志
Figure BDA00030257403500001312
其次对所述
Figure BDA00030257403500001313
Figure BDA00030257403500001314
的非数值化信息:硬盘序列号serial_numberHD_Ⅱ、硬盘型号modelHD_Ⅱ,因为同一个硬盘不同日志生成时间的日志中硬盘序列号serial_number、硬盘型号model分别对应相等,因此待处理日志
Figure BDA00030257403500001315
的非数值化信息:硬盘序列号serial_numberHD_Ⅱ、硬盘型号modelHD_Ⅱ,与所述
Figure BDA00030257403500001316
Figure BDA00030257403500001317
的非数值化信息是一致的;对所述
Figure BDA00030257403500001318
Figure BDA00030257403500001319
中包括的数值化信息:硬盘已用内存容量capacity_bytesHD_Ⅱ和对硬盘运行状态特征SMARTHD_Ⅱ,依次计算所述
Figure BDA00030257403500001320
Figure BDA00030257403500001321
的平均值,作为缺失日志已用内存容量
Figure BDA00030257403500001322
的值,所述
Figure BDA00030257403500001323
Figure BDA00030257403500001324
的平均值,作为缺失日志硬盘运行状态特征
Figure BDA00030257403500001325
的值。即插入的缺失日志形式化表述如下:
Figure BDA00030257403500001326
其中,
Figure BDA00030257403500001327
Figure BDA00030257403500001328
Figure BDA00030257403500001329
Figure BDA00030257403500001330
Figure BDA00030257403500001331
k∈[1,4,5,7,9,12,183,184,187,188,189,190,192,193,194,197,198,199,240,241,242]。
例如,硬盘日志
Figure BDA0003025740350000141
没有出现待处理日志,则不需要处理
Figure BDA0003025740350000142
日志。
例如,硬盘日志
Figure BDA0003025740350000143
中的第二条
Figure BDA0003025740350000144
日志,其
Figure BDA0003025740350000145
中的
Figure BDA0003025740350000146
特征值为空,则第二条
Figure BDA0003025740350000147
日志为待处理日志
Figure BDA0003025740350000148
补缺所述
Figure BDA0003025740350000149
特征值后,硬盘日志记为
Figure BDA00030257403500001410
前一时刻日志
Figure BDA00030257403500001411
含空缺项日志
Figure BDA00030257403500001412
后一时刻日志
Figure BDA00030257403500001413
补缺信息项后的日志为
Figure BDA00030257403500001414
例如,硬盘日志
Figure BDA00030257403500001415
检测出了不连续的日志生成时间
Figure BDA00030257403500001416
待处理日志为
Figure BDA00030257403500001417
补缺所述空缺
Figure BDA00030257403500001418
日志后,硬盘日志记为
Figure BDA00030257403500001419
前一时刻日志
Figure BDA00030257403500001420
空缺日志
Figure BDA00030257403500001421
后一时刻日志
Figure BDA00030257403500001422
补缺的日志为
Figure BDA00030257403500001423
为了直观的显示在对硬盘日志填充值的效果,本发明采用二维直角坐标系展示了填充所述
Figure BDA00030257403500001424
特征值后的硬盘日志
Figure BDA00030257403500001425
在图4中,横坐标表示采集日志时间,纵坐标表示所述
Figure BDA00030257403500001426
时序特征的值。
本发明得出用线性插值的方式填充硬盘日志的缺空值,更接近硬盘日志的常态,可以避免引入误导的数据。
步骤六,归一化硬盘运行状况日志;
由于硬盘运行日志
Figure BDA0003025740350000151
中包括的内容信息,日志生成时间date、硬盘序列号serial_number、硬盘型号model、硬盘内存容量capacity_bytes和硬盘运行状态特征SMART具有不同的量纲,例如,SMART特征中有温度,磁头回缩计数,命令超时等特征,且所述特征的取值范围不一致。因此本发明对硬盘运行日志进行归一化,对同硬盘-补缺-日志集合
Figure BDA0003025740350000152
归一化,得到同硬盘-归一化-日志集合,记为
Figure BDA0003025740350000153
Figure BDA0003025740350000154
所述同硬盘-补缺-日志集合D_LogHD_fill中的硬盘运行状态特征SMARTHD_fill内含21个smart_kHD_fill特征的值序列,记为:
Figure BDA0003025740350000155
其中
Figure BDA0003025740350000156
所述同硬盘-补缺-日志集合D_LogHD_fill中的硬盘已用内存容量capacity_bytesHD_fill特征的值序列,记为:
Figure BDA0003025740350000157
本发明的归一化方法是指对所述21个smart_kHD_fill特征的值序列、硬盘已用内存容量capacity_bytesHD_fill的值序列,分别求其归一化值,归一化后取值范围为0~1,而对非数值化的采集时间dataHD_fill、硬盘序列号serial_numberHD_fill、硬盘型号modelHD_fill归一化后字段内容不变。
归一化的描述为:
Figure BDA0003025740350000161
其中,
Figure BDA0003025740350000162
表示归一化映射,从同硬盘-补缺-日志集合映射为同硬盘-归一化-日志集合;X′表示同硬盘-补缺-日志集合DLHD_fill,所述日志集合含有采集时间dataHD_fill、硬盘序列号serial_numberHD_fill、硬盘型号modelHD_fill硬盘、已用内存容量capacity_bytesHD_fill和smart_kHD _fill特征的值序列;Y′表示同硬盘-归一化-日志集合
Figure BDA0003025740350000163
所述日志集合含采集时间
Figure BDA0003025740350000164
硬盘序列号
Figure BDA0003025740350000165
硬盘型号
Figure BDA0003025740350000166
硬盘、已用内存容量
Figure BDA0003025740350000167
Figure BDA0003025740350000168
特征的值序列。
例如,第一个硬盘hd1的日志,经过归一化后得到
Figure BDA0003025740350000169
即:
Figure BDA00030257403500001610
例如,第二个硬盘hd2的日志,经过归一化后得到
Figure BDA00030257403500001611
即:
Figure BDA0003025740350000171
例如,第最后一个硬盘hdA的日志,经过归一化后得到
Figure BDA0003025740350000172
即:
Figure BDA0003025740350000181
步骤七,小波变换硬盘运行状况日志;
本发明使用的是离散小波变换方法,该方法出自1995年9月7日发表的《Daubechies wavelets and Mathematica》论文,见第3页Daubechies 4小波。该小波变换是时频域局部化分析方法,其时域平移因子与频域伸缩因子都可以改变,在时域和频域上都具有提取信号局部特征的能力。
硬盘运行状况的突变通常蕴含硬盘失效的重要信息,是硬盘失效表现的重要特征之一。小波变换能够把信号分解为一系列不同频率分量的信号,其中高频信号蕴含着突变点和不规则的突变部分。本发明把硬盘运行状况的时序特征看作是信号,从时频域角度分析硬盘时序特征的变点小波来表征硬盘失效。为了便于找到硬盘运行状况的突变点,对该硬盘运行状况日志进行小波变换,得到硬盘运行状况日志的小波。
步骤701,小波变换;
本发明从同硬盘-归一化-日志集合
Figure BDA0003025740350000182
中得到同硬盘-小波变换-日志集合
Figure BDA0003025740350000183
其中,上角标W表示小波变换的标识。
所述同硬盘-归一化-日志集合
Figure BDA0003025740350000184
中的硬盘运行状态特征
Figure BDA0003025740350000185
内含21个
Figure BDA0003025740350000191
特征的值序列,记为
Figure BDA0003025740350000192
其中
Figure BDA0003025740350000193
所述同硬盘-归一化-日志集合
Figure BDA0003025740350000194
中的硬盘已用内存容量
Figure BDA0003025740350000195
特征的值序列,记为
Figure BDA0003025740350000196
本发明的小波变换是指对所述已归一化的21个smart_knormalized特征序列、硬盘已用内存容量
Figure BDA0003025740350000197
进行小波变换,得到高频序列,而对非数值化的采集时间
Figure BDA0003025740350000198
硬盘序列号
Figure BDA0003025740350000199
硬盘型号
Figure BDA00030257403500001910
变换后字段内容不变。
小波变换的描述为:
Figure BDA00030257403500001911
其中,
Figure BDA00030257403500001912
表示归一化映射,从同硬盘-归一化-日志集合映射为同硬盘-小波变换-日志集合;X″表示同硬盘-归一化-日志集合
Figure BDA00030257403500001913
所述日志集合含采集时间
Figure BDA00030257403500001914
硬盘序列号
Figure BDA00030257403500001915
硬盘型号
Figure BDA0003025740350000201
硬盘、已用内存容量
Figure BDA0003025740350000202
Figure BDA0003025740350000203
特征的值序列;Y″表示同硬盘-小波变换-日志集合DLHD_W,所述日志集合含采集时间dataHD_W、硬盘序列号serial_numberHD_W、硬盘型号modelHD_W硬盘、已用内存容量capacity_bytesHD_W和smart_kHD_W特征的值序列。
例如,第一个硬盘hd1的日志,经过小波变换后得到
Figure BDA0003025740350000204
Figure BDA0003025740350000205
例如,第二个硬盘hd2的日志,经过小波变换后得到
Figure BDA0003025740350000206
Figure BDA0003025740350000207
例如,第最后一个硬盘hdA的日志,经过小波变换后得到
Figure BDA0003025740350000208
Figure BDA0003025740350000209
步骤702,呈现变点小波的形态;
为了直观的展现变点小波,本发明使用二维直角坐标系的方式展示变点小波在不同频率下的形态图,每张图中分别包含5张子图,从上到下依次呈现的是smart特征的归一化值、一级小波分解的近似(低频)信号,一级小波分解的细节(高频)信号,二级小波分解的细节信号,三级小波分解的细节信号,而横坐标表示硬盘的剩余寿命(单位/天),纵坐标表示smart特征不同特征值。
例如图5呈现了smart_190特征的变点小波的形态,smart_190表示硬盘的气流温度,从图5中可观察到,一级小波分解的近似信号的波形与smart特征的归一化值的波形近似,而一级细节信号、二级细节信号和三级细节信号均显示了硬盘运行的生命周期内出现小波(突变脉冲),且三级细节信号显示的小波较为集中且毛刺较少,更具有代表性,因此用三级细节小波表征硬盘失效。
例如图6分别呈现了smart_242特征的变点小波的形态,smart_242表示硬盘读取块总数。从图6中可观察到,一级小波分解的近似信号的波形与smart特征的归一化值的波形近似,而一级细节信号、二级细节信号和三级细节信号均显示了硬盘运行的生命周期内出现小波(突变脉冲),且三级细节信号显示的小波较为集中且毛刺较少,更具有代表性,因此用一级细节小波表征硬盘失效。
步骤八,验证变点小波
本发明用卷积网络与长短记忆网络(CNN+LSTM)模型验证变点小波对预测硬盘失效的有效性,卷积网络与长短记忆网络作为一个统一的模型,在CNN子模块中,包含一个一维卷积层、一个最大池化层和一个扁平层,其中扁平层将特征矩阵转换为向量,并将其送入LSTM子模块;LSTM子模块由两个LSTM层和一个全连通层组成。
在本发明中,变点小波验证采用长短记忆网络(CNN+LSTM)模型。所述卷积网络出自2017年8月出版的《Deep Learning》,作者Ian Goodfellow,第330页。所述长短记忆网络出自1997年9月发表的《Long Short-term Memory》,作者Sepp Hochreiter,第6页。
从Backblaze硬盘数据集中任意选取出训练集和测试集所需的硬盘运行状况日志,将本发明提取硬盘运行状况的变点小波方法,应用到训练集和测试集上,提取训练集和测试集的一级细节小波序列。应用卷积网络与长短记忆网络(CNN+LSTM)模型进行预测硬盘的健康状况。经过CNN+LSTM模型训练,将提取出的一级细节小波序列测试集送入CNN+LSTM模型做预测,预测出测试集样本的标签,并将预测出来的结果与样本真实标签相比较。实验结果表明,应用CNN+LSTM可预测硬盘的健康状况,并取得高准确的技术效果,如表1所示。
表1验证变点小波
Figure BDA0003025740350000211
表1给出了CNN+LSTM模型预测硬盘运行健康状况的结果。
在实施例中,训练样本中的标签值为“1”和“0”的比例为3:22,共计36300个样本;测试集中的标签值为“1”和“0”的比例也为3:22,共计145,000个样本。经过训练后,得出结果为准确率为91.56%,精准率为90.78%,误报率为0.56%。
本发明是一种用于提取硬盘运行状况的变点小波方法,所需要解决的是如何从含缺失值的硬盘运行状况日志中提取具有指示性的变点小波来表征硬盘失效的技术问题。该方法通过时序化硬盘运行状况日志,采用线性内插法填充空缺值,用最大-最小值归一化时序特征,应用小波变换方法分解硬盘时序特征并呈现小波形态的不同频率,在用卷积网络和长短记忆网络(CNN+LSTM)模型提取具有显著性的变点小波。从而实现从硬盘运行状况日志中提取小波,用小波预测硬盘的健康状况,获得了提高预测准确率和精准率的技术效果。

Claims (4)

1.一种基于变点小波法的硬盘失效分析方法,其特征在于包括有下列步骤:
步骤一,读取硬盘运行状况日志;
从存储服务器的硬盘中读取多个硬盘运行状况的多条日志,形成日志集合,记为DLOG;对日志集合DLOG按照日志采集时间先后进行排序,得到待处理-日志集合D_Log={Log1,Log2,…,Logi,…,Logj,…,Logy,…,Logz};
Log1表示第一条待处理-日志;
Log2表示第二条待处理-日志;
Logi表示第i条待处理-日志;
Logj表示第j条待处理-日志;
Logy表示第y条待处理-日志;
Logz表示第z条待处理-日志;
Logi、Logj、Logy和Logz为不同的待处理-日志;
步骤二,依据硬盘序列号选取出属于同一硬盘中的日志;
依据硬盘序列号serial_number从步骤一的待处理-日志集合D_Log={Log1,Log2,…,Logi,…,Logj,…,Logy,…,Logz}中选取出属于同一硬盘的日志,记为待处理-同硬盘-日志集合D_LogHD,且
Figure FDA0003025740340000011
Figure FDA0003025740340000012
表示待处理-同硬盘-第一条日志;
Figure FDA0003025740340000013
表示待处理-同硬盘-第二条日志;
Figure FDA0003025740340000014
表示待处理-同硬盘-第i条日志;
Figure FDA0003025740340000015
表示待处理-同硬盘-第j条日志;
Figure FDA0003025740340000016
表示待处理-同硬盘-第y条日志;
Figure FDA0003025740340000017
表示待处理-同硬盘-第z条日志;
硬盘集合记为HD={hd1,hd2,…,hdA};hd1表示第一个硬盘;hd2表示第二个硬盘;hdA表示最后一个硬盘;
步骤三,时序化同一硬盘上的硬盘运行状况日志;
步骤301,将256个硬盘运行状态smart特征赋值到各个日志上;
每一个硬盘运行日志Log的信息会被记录于硬盘运行状态特征中的某一个smart特征或者多个smart特征中;由于硬盘运行状态smart特征SMART={smart_1,smart_2,…,smart_255,smart_256},则有:待处理-同硬盘-第i条日志
Figure FDA0003025740340000021
携带的硬盘运行状态smart特征,记为同硬盘-smart特征的第i条日志
Figure FDA0003025740340000022
Figure FDA0003025740340000023
表示日志
Figure FDA0003025740340000024
携带了硬盘的原始数据读取错误率smart_1特征;
Figure FDA0003025740340000025
表示日志
Figure FDA0003025740340000026
携带了硬盘的读写性能smart_2特征;
Figure FDA0003025740340000027
表示日志
Figure FDA0003025740340000028
携带了硬盘的读取错误重试率smart_255特征;
Figure FDA0003025740340000029
表示日志
Figure FDA00030257403400000210
携带了硬盘的自动跌落保护记录smart_256特征;
步骤302,对携带smart特征的日志进行行列变换,得到时序化变换日志;
依据日志生成时间date的先后对对同硬盘-smart特征日志进行排序,然后进行行列变换处理,得到时序化-日志集合SMARTHD,记为:
Figure FDA00030257403400000211
简化所述时序化-日志集合为
Figure FDA00030257403400000212
Figure FDA00030257403400000213
表示日志
Figure FDA00030257403400000214
的任意一个smart特征;
Figure FDA00030257403400000215
表示日志
Figure FDA00030257403400000216
的任意一个smart特征;
Figure FDA0003025740340000031
表示日志
Figure FDA0003025740340000032
的任意一个smart特征;
Figure FDA0003025740340000033
表示日志
Figure FDA0003025740340000034
的任意一个smart特征;
Figure FDA0003025740340000035
表示日志
Figure FDA0003025740340000036
的任意一个smart特征;
Figure FDA0003025740340000037
表示日志
Figure FDA0003025740340000038
的任意一个smart特征;
步骤四,同硬盘有效特征获取;
设置了2个检测规则,分别为硬盘运行状态特征判断规则Ⅰ和硬盘运行状态特征判断规则Ⅱ;
待处理-同硬盘-第i条日志的硬盘运行状态smart特征
Figure FDA0003025740340000039
的特征方差,记为
Figure FDA00030257403400000310
硬盘运行状态特征判断规则Ⅰ
检测所述时序化-日志集合为
Figure FDA00030257403400000311
的值是否都为空;
如果都为空,则认为所述SMARTHD没提供smart特征信息,对硬盘失效分析没有贡献,则需要放弃所述SMARTHD
如果为非空,保留所述SMARTHD,并将SMARTHD记为时序化-有效日志集合
Figure FDA00030257403400000312
则有
Figure FDA00030257403400000313
硬盘运行状态特征判断规则Ⅱ
在时序化-有效日志集合
Figure FDA0003025740340000041
中,如果
Figure FDA0003025740340000042
的特征方差
Figure FDA0003025740340000043
则认为所述
Figure FDA0003025740340000044
是常量,对硬盘失效分析没有贡献,需要放弃
Figure FDA0003025740340000045
Figure FDA0003025740340000046
对应的序列,得到空序列-时序化-有效日志集合
Figure FDA0003025740340000047
在时序化-有效日志集合
Figure FDA0003025740340000048
中,如果
Figure FDA0003025740340000049
的特征方差
Figure FDA00030257403400000410
则认为所述
Figure FDA00030257403400000411
的值为变化量,能够为硬盘失效分析提供贡献,保留
Figure FDA00030257403400000412
Figure FDA00030257403400000413
对应的序列,同时时序化-有效日志集合
Figure FDA00030257403400000414
不变化;
步骤401,判断同硬盘上的日志的smart特征是否全为空;
采用硬盘运行状态特征判断规则Ⅰ遍历步骤三得到的时序化-日志集合SMARTHD中256个smart特征;
如果都为空,则认为所述SMARTHD没提供smart特征信息,对硬盘失效分析没有贡献,则需要放弃所述SMARTHD
如果为非空,保留所述SMARTHD,并将SMARTHD记为时序化-有效日志集合
Figure FDA00030257403400000415
则有:
Figure FDA0003025740340000051
步骤402,对时序化-有效日志进行方差判断;
待处理-同硬盘-第i条日志的硬盘运行状态smart特征
Figure FDA0003025740340000052
的特征方差,记为
Figure FDA0003025740340000053
采用硬盘运行状态特征判断规则Ⅱ遍历时序化-有效日志集合
Figure FDA0003025740340000054
特征方差;
如果特征方差
Figure FDA0003025740340000055
则认为所述
Figure FDA0003025740340000056
是常量,对硬盘失效分析没有贡献,需要放弃时序化-有效日志集合
Figure FDA0003025740340000057
Figure FDA0003025740340000058
对应的序列,得到空序列-时序化-有效日志集合
Figure FDA0003025740340000059
执行步骤501;
如果特征方差
Figure FDA00030257403400000510
则认为所述
Figure FDA00030257403400000511
的值为变化量,能够为硬盘失效分析提供贡献,保留时序化-有效日志集合
Figure FDA00030257403400000512
Figure FDA00030257403400000513
对应的序列,同时时序化-有效日志集合
Figure FDA00030257403400000514
不变化;执行步骤501;
步骤五,填充硬盘运行状况日志的空缺值;
由于硬盘运行和采集记录的设备不稳定或者其他因素,导致采集到的硬盘运行状况日志不是按日志生成时间date连续采样,故需要对存在空缺的所述date进行时间连续的日志补缺硬盘运行状况日志;由同硬盘-规则II-日志集合
Figure FDA00030257403400000515
得到同硬盘-补缺-日志集合
Figure FDA00030257403400000516
Figure FDA00030257403400000517
表示日志Log1经硬盘运行状态特征判断规则Ⅱ处理的日志;
Figure FDA00030257403400000518
表示日志Log2经硬盘运行状态特征判断规则Ⅱ处理的日志;
Figure FDA00030257403400000519
表示日志Logi经硬盘运行状态特征判断规则Ⅱ处理的日志;
Figure FDA00030257403400000520
表示日志Logj经硬盘运行状态特征判断规则Ⅱ处理的日志;
Figure FDA0003025740340000061
表示日志Logy经硬盘运行状态特征判断规则Ⅱ处理的日志;
Figure FDA0003025740340000062
表示日志Logz经硬盘运行状态特征判断规则Ⅱ处理的日志;
Figure FDA0003025740340000063
表示需要补缺的第一条日志;
Figure FDA0003025740340000064
表示需要补缺的第二条日志;
Figure FDA0003025740340000065
表示需要补缺的第i条日志;
Figure FDA0003025740340000066
表示需要补缺的第j条日志;
Figure FDA0003025740340000067
表示需要补缺的第y条日志;
Figure FDA0003025740340000068
表示需要补缺的第z条日志;
步骤501,检测日志生成时间;
对同硬盘-规则II-日志集合
Figure FDA0003025740340000069
进行日志生成时间dateHD_Ⅱ检测,若所述日志没有出现日志生成时间dateHD_Ⅱ,但该条日志中包括的信息项:硬盘序列号serial_number、硬盘型号model、硬盘内存容量capacity_bytes和硬盘运行状态特征SMART,至少存在一个信息项有空缺值,则说明该日志的内容信息项出现了空缺的信息项,需要进行该日志的信息项补缺;若所述日志生成时间dateHD_Ⅱ存在间隔
Figure FDA00030257403400000610
则说明出现了空缺的日志,需要进行日志补缺;若所述日志生成时间date为连续dateHD_Ⅱ的,则说明日志是连续采样的;
步骤502,插入空缺日志;
经步骤501检测出需进行信息项补缺或日志补缺的硬盘DLHD_Ⅱ,DLHD_Ⅱ中待处理的日志记为
Figure FDA00030257403400000611
首先根据时间间隔
Figure FDA00030257403400000612
找到时间间隔
Figure FDA00030257403400000613
的前一时间对应的硬盘日志
Figure FDA00030257403400000614
然后找到时间间隔
Figure FDA00030257403400000615
的后一时间对应的日志
Figure FDA00030257403400000616
其次对所述
Figure FDA00030257403400000617
Figure FDA00030257403400000618
的非数值化信息:硬盘序列号serial_numberHD_Ⅱ、硬盘型号modelHD_Ⅱ,因为同一个硬盘不同日志生成时间的日志中硬盘序列号serial_number、硬盘型号model分别对应相等,因此待处理日志
Figure FDA0003025740340000071
的非数值化信息:硬盘序列号serial_numberHD_Ⅱ、硬盘型号modelHD_Ⅱ,与所述
Figure FDA0003025740340000072
Figure FDA0003025740340000073
的非数值化信息是一致的;对所述
Figure FDA0003025740340000074
Figure FDA0003025740340000075
中包括的数值化信息:硬盘已用内存容量capacity_bytesHD_Ⅱ和对硬盘运行状态特征SMARTHD_Ⅱ,依次计算所述
Figure FDA0003025740340000076
Figure FDA0003025740340000077
的平均值,作为缺失日志已用内存容量
Figure FDA0003025740340000078
的值,所述
Figure FDA0003025740340000079
Figure FDA00030257403400000710
的平均值,作为缺失日志硬盘运行状态特征
Figure FDA00030257403400000711
的值;即插入的缺失日志形式化表述如下:
Figure FDA00030257403400000712
其中,
Figure FDA00030257403400000713
Figure FDA00030257403400000714
Figure FDA00030257403400000715
Figure FDA00030257403400000716
Figure FDA00030257403400000717
为了直观的显示在对硬盘日志填充值的效果,采用二维直角坐标系展示了填充所述
Figure FDA00030257403400000718
特征值后的硬盘日志
Figure FDA00030257403400000719
步骤六,归一化硬盘运行状况日志;
由于硬盘运行日志
Figure FDA00030257403400000720
中包括的内容信息,日志生成时间date、硬盘序列号serial_number、硬盘型号model、硬盘内存容量capacity_bytes和硬盘运行状态特征SMART具有不同的量纲;
对硬盘运行日志进行归一化,对同硬盘-补缺-日志集合
Figure FDA00030257403400000721
归一化,得到同硬盘-归一化-日志集合,记为
Figure FDA00030257403400000722
Figure FDA0003025740340000081
对需要补缺的第一条日志
Figure FDA0003025740340000082
归一化后,记为
Figure FDA0003025740340000083
对需要补缺的第二条日志
Figure FDA0003025740340000084
归一化后,记为
Figure FDA0003025740340000085
对需要补缺的第i条日志
Figure FDA0003025740340000086
归一化后,记为
Figure FDA0003025740340000087
对需要补缺的第j条日志
Figure FDA0003025740340000088
归一化后,记为
Figure FDA0003025740340000089
对需要补缺的第y条日志
Figure FDA00030257403400000810
归一化后,记为
Figure FDA00030257403400000811
对需要补缺的第z条日志
Figure FDA00030257403400000812
归一化后,记为
Figure FDA00030257403400000813
所述同硬盘-补缺-日志集合D_LogHD_fill中的硬盘运行状态特征SMARTHD_fill内含21个smart_kHD_fill特征的值序列,记为:
Figure FDA00030257403400000814
其中
Figure FDA00030257403400000815
所述同硬盘-补缺-日志集合D_LogHD_fill中的硬盘已用内存容量capacity_bytesHD_fill特征的值序列,记为:
Figure FDA00030257403400000816
归一化方法是指对所述21个smart_kHD_fill特征的值序列、硬盘已用内存容量capacity_bytesHD_fill的值序列,分别求其归一化值,归一化后取值范围为0~1,而对非数值化的采集时间dataHD_fill、硬盘序列号serial_numberHD_fill、硬盘型号modelHD_fill归一化后字段内容不变;
归一化的描述为:
Figure FDA0003025740340000091
Figure FDA0003025740340000092
表示归一化映射,从同硬盘-补缺-日志集合映射为同硬盘-归一化-日志集合;
X′表示同硬盘-补缺-日志集合DLHD_fill,所述日志集合含有采集时间dataHD_fill、硬盘序列号serial_numberHD_fill、硬盘型号modelHD_fill硬盘、已用内存容量capacity_bytesHD _fill和smart_kHD_fill特征的值序列;
Y′表示同硬盘-归一化-日志集合
Figure FDA0003025740340000094
所述日志集合含采集时间
Figure FDA0003025740340000095
硬盘序列号
Figure FDA0003025740340000096
硬盘型号
Figure FDA0003025740340000097
硬盘、已用内存容量
Figure FDA0003025740340000098
Figure FDA0003025740340000099
特征的值序列;
步骤七,小波变换硬盘运行状况日志;
采用离散小波变换方法,其时域平移因子与频域伸缩因子都可以改变,在时域和频域上都具有提取信号局部特征的能力;
硬盘运行状况的突变通常蕴含硬盘失效的重要信息,是硬盘失效表现的重要特征之一;小波变换能够把信号分解为一系列不同频率分量的信号,其中高频信号蕴含着突变点和不规则的突变部分;把硬盘运行状况的时序特征看作是信号,从时频域角度分析硬盘时序特征的变点小波来表征硬盘失效;为了便于找到硬盘运行状况的突变点,对该硬盘运行状况日志进行小波变换,得到硬盘运行状况日志的小波;
步骤701,小波变换;
从同硬盘-归一化-日志集合
Figure FDA0003025740340000093
中得到同硬盘-小波变换-日志集合
Figure FDA0003025740340000101
其中,上角标W表示小波变换的标识;
所述同硬盘-归一化-日志集合
Figure FDA0003025740340000105
中的硬盘运行状态特征
Figure FDA0003025740340000106
内含21个
Figure FDA0003025740340000107
特征的值序列,记为
Figure FDA0003025740340000102
其中
Figure FDA0003025740340000103
所述同硬盘-归一化-日志集合
Figure FDA0003025740340000108
中的硬盘已用内存容量
Figure FDA0003025740340000109
特征的值序列,记为
Figure FDA0003025740340000104
小波变换是指对所述已归一化的21个smart_knormalized特征序列、硬盘已用内存容量
Figure FDA00030257403400001010
进行小波变换,得到高频序列,而对非数值化的采集时间
Figure FDA00030257403400001011
硬盘序列号
Figure FDA00030257403400001012
硬盘型号
Figure FDA00030257403400001013
变换后字段内容不变;
小波变换的描述为:
Figure FDA0003025740340000111
Figure FDA0003025740340000112
表示归一化映射,从同硬盘-归一化-日志集合映射为同硬盘-小波变换-日志集合;
X″表示同硬盘-归一化-日志集合
Figure FDA0003025740340000113
所述日志集合含采集时间
Figure FDA0003025740340000114
硬盘序列号
Figure FDA0003025740340000115
硬盘型号
Figure FDA0003025740340000116
硬盘、已用内存容量
Figure FDA0003025740340000117
Figure FDA0003025740340000118
特征的值序列;
Y″表示同硬盘-小波变换-日志集合DLHD_W,所述日志集合含采集时间dataHD_W、硬盘序列号serial_numberHD_W、硬盘型号modelHD_W硬盘、已用内存容量capacity_bytesHD_W和smart_kHD_W特征的值序列;
步骤702,呈现变点小波的形态;
为了直观的展现变点小波,使用二维直角坐标系的方式展示变点小波在不同频率下的形态图,每张图中分别包含5张子图,从上到下依次呈现的是smart特征的归一化值、一级小波分解的近似低频信号,一级小波分解的细节高频信号,二级小波分解的细节信号,三级小波分解的细节信号,而横坐标表示硬盘的剩余寿命,纵坐标表示smart特征不同特征值。
2.根据权利要求1所述的基于变点小波法的硬盘失效分析方法,其特征在于:是从云存储服务器中读取多个硬盘运行状况的多条日志。
3.根据权利要求1所述的基于变点小波法的硬盘失效分析方法,其特征在于:硬盘供货商指定的硬盘运行状态smart特征是256个。
4.根据权利要求1所述的基于变点小波法的硬盘失效分析方法,其特征在于:对预测硬盘失效的结果为准确率为91.56%,精准率为90.78%,误报率为0.56%。
CN202110415523.2A 2021-04-18 2021-04-18 一种基于变点小波法的硬盘失效分析方法 Active CN113157506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110415523.2A CN113157506B (zh) 2021-04-18 2021-04-18 一种基于变点小波法的硬盘失效分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110415523.2A CN113157506B (zh) 2021-04-18 2021-04-18 一种基于变点小波法的硬盘失效分析方法

Publications (2)

Publication Number Publication Date
CN113157506A true CN113157506A (zh) 2021-07-23
CN113157506B CN113157506B (zh) 2022-07-22

Family

ID=76868247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110415523.2A Active CN113157506B (zh) 2021-04-18 2021-04-18 一种基于变点小波法的硬盘失效分析方法

Country Status (1)

Country Link
CN (1) CN113157506B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100182158A1 (en) * 2009-01-22 2010-07-22 International Business Machines Corporation Wavelet based hard disk analysis
CN109144833A (zh) * 2017-06-27 2019-01-04 中兴通讯股份有限公司 一种硬盘分析方法及装置
CN109918417A (zh) * 2019-02-28 2019-06-21 西安交通大学 基于小波变换的时序数据自适应分段、降维与表征方法及应用
CN110610419A (zh) * 2019-05-17 2019-12-24 山东财经大学 一种基于小波变换与长短期记忆神经网络融合的股票价格预测方法及装置
CN111949488A (zh) * 2020-08-14 2020-11-17 山东英信计算机技术有限公司 一种硬盘故障预测方法、系统及电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100182158A1 (en) * 2009-01-22 2010-07-22 International Business Machines Corporation Wavelet based hard disk analysis
CN109144833A (zh) * 2017-06-27 2019-01-04 中兴通讯股份有限公司 一种硬盘分析方法及装置
CN109918417A (zh) * 2019-02-28 2019-06-21 西安交通大学 基于小波变换的时序数据自适应分段、降维与表征方法及应用
CN110610419A (zh) * 2019-05-17 2019-12-24 山东财经大学 一种基于小波变换与长短期记忆神经网络融合的股票价格预测方法及装置
CN111949488A (zh) * 2020-08-14 2020-11-17 山东英信计算机技术有限公司 一种硬盘故障预测方法、系统及电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于红梅: "基于深度自编码网络与模糊推理相结合的矿用齿轮箱故障诊断方法", 《机床与液压》 *

Also Published As

Publication number Publication date
CN113157506B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN110113226B (zh) 一种检测设备异常的方法及装置
CN111459700A (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN116450399B (zh) 微服务系统故障诊断及根因定位方法
US20060173668A1 (en) Identifying data patterns
CN110858072B (zh) 设备运行状态的确定方法及装置
CN112951311A (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
US11036701B2 (en) Data sampling in a storage system
CN116597939A (zh) 基于大数据的药品质量控制管理分析系统及方法
CN113157506B (zh) 一种基于变点小波法的硬盘失效分析方法
CN112597539A (zh) 一种基于无监督学习的时间序列异常检测方法及系统
CN116881101A (zh) 一种硬盘日志记录、解析及监控方法、系统、设备及介质
CN115659271A (zh) 传感器异常检测方法、模型训练方法、系统、设备及介质
CN111597510B (zh) 一种输变电运检数据质量评估方法及系统
CN115047262A (zh) 基于电能质量数据的设备异常状态通用识别方法
CN113783750B (zh) 电网指标波动异常的检测方法及装置
CN116521490B (zh) 一种pc系统健康度自检方法、自检装置、设备及介质
Kumar et al. Outlier detection and removal: an efficient and effective concept in healthcare sector
Li et al. A Change-point Wavelet Method to Hard Drives Running Status
CN113029242B (zh) 结构健康监测系统中光纤光栅传感器异常诊断方法
CN117076184B (zh) 一种交易系统检测方法、装置及存储介质
CN113591813B (zh) 基于关联规则算法的异常研判方法、模型构建方法及装置
US20240112071A1 (en) Anomaly detection using hash signature generation for model-based scoring
CN117558451A (zh) 一种基于大数据的神经损失程度评估方法
CN117725156A (zh) 业务数据与财务数据的关联处理方法、系统、装置及介质
CN117909970A (zh) 一种数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant