CN110427311B - 基于时序特征处理与模型优化的磁盘故障预测方法和系统 - Google Patents

基于时序特征处理与模型优化的磁盘故障预测方法和系统 Download PDF

Info

Publication number
CN110427311B
CN110427311B CN201910558216.2A CN201910558216A CN110427311B CN 110427311 B CN110427311 B CN 110427311B CN 201910558216 A CN201910558216 A CN 201910558216A CN 110427311 B CN110427311 B CN 110427311B
Authority
CN
China
Prior art keywords
data
disk
random forest
decision tree
forest model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910558216.2A
Other languages
English (en)
Other versions
CN110427311A (zh
Inventor
周可
李春花
谢伟睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910558216.2A priority Critical patent/CN110427311B/zh
Publication of CN110427311A publication Critical patent/CN110427311A/zh
Application granted granted Critical
Publication of CN110427311B publication Critical patent/CN110427311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本发明公开了一种基于时序特征处理与模型优化的磁盘故障预测方法,其特征在于,包括步骤:获取磁盘的SMART属性数据、以及SMART属性数据的时间戳,根据获取的磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据,使用主成分分析法从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵,将得到的多维矩阵输入训练好的随机森林模型中,以得到磁盘的故障预测结果,根据得到的磁盘的故障预测结果对随机森林模型进行更新,以得到更新后的随机森林模型。本发明利用时序特征处理与模型优化,由此解决现有SMART技术中由于没有考虑SMART属性之间的关联关系,从而会导致磁盘故障预测的准确率较低的技术问题。

Description

基于时序特征处理与模型优化的磁盘故障预测方法和系统
技术领域
本发明属于存储技术领域,更具体地,涉及一种基于时序特征处理与模型优化的磁盘故障预测方法和系统。
背景技术
根据微软公司的统计,在其数据中心中,磁盘故障占了所有硬件损坏的78%。导致磁盘故障、从而影响磁盘可靠性的因素非常多,包括磁盘温度、湿度、负载高低、运行时间、潜在扇区错误故障等,这些因素都可能导致磁盘异常,并造成记录的用户数据丢失。
为了解决上述问题,近些年,人们提出了利用磁盘的自我监测、分析和报告(Self-Monitoring,Analysis and Reporting Technology,简称SMART)技术来主动预测磁盘故障,该技术监控磁盘中重要的健康属性指标并记录,同时为每个指标设定健康阈值;如果有指标低于阈值,则认为磁盘可能发生故障并发出预警信息给操作系统或用户,系统收到预警信息后可提前迁移或备份该磁盘的数据。目前,几乎所有的磁盘都支持SMART技术,
然而,现有的SMART技术都是采用基于阈值的简单算法,并没有考虑SMART属性之间的关联关系,从而会导致磁盘故障预测的准确率较低;此外,它是基于属性实时数据进行磁盘健康预警,并没有考虑到海量历史数据的特征分析,因此不能有效地实时追踪最新发生损坏的磁盘。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于时序特征处理与模型优化的磁盘故障预测方法和系统,其目的在于,利用时序特征处理与模型优化,由此解决现有SMART技术中由于没有考虑SMART属性之间的关联关系,从而会导致磁盘故障预测的准确率较低的技术问题,以及由于没有考虑到海量历史数据的特征分析,因此不能有效地实时追踪最新发生损坏的磁盘的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于时序特征处理与模型优化的磁盘故障预测方法,包括以下步骤:
(1)获取磁盘的SMART属性数据、以及SMART属性数据的时间戳;
(2)根据步骤(1)中获取的磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据,使用主成分分析法从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵;
(3)将步骤(2)中得到的多维矩阵输入训练好的随机森林模型中,以得到磁盘的故障预测结果;
(4)根据步骤(3)中得到的磁盘的故障预测结果对随机森林模型进行更新,以得到更新后的随机森林模型。
优选地,扩充数据包括SMART属性数据的标准值的变化量、以及原始值的变化量。
优选地,步骤(3)中的随机森林模型是通过以下步骤训练得到的:
(3-1)根据磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据,使用主成分分析法从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵,将多维矩阵分成训练数据集、验证数据集、以及测试数据集;
(3-2)生成N个决策树,所有决策树构成随机森林模型,并使用步骤(3-1)中得到的训练数据集中的时间戳对每个决策树进行初始化,以得到初始状态下的随机森林模型,其中N为自然数;
(3-3)将步骤(3-1)得到的训练数据集放入步骤(3-2)得到的初始状态下的随机森林模型中进行训练,以得到训练好的随机森林模型;
(3-4)将步骤(3-1)得到的验证数据集和测试数据集先后放入步骤(3-3)中训练好的随机森林模型中,以分别得到验证结果和故障预测结果。
优选地,步骤(3-2)具体包括以下子步骤:
(3-2-1)将训练数据集平均分成N个训练数据子集;
(3-2-2)设置计数器i=1;
(3-2-3)判断i是否小于或等于N,如果是则进入步骤(3-2-4),否则进入步骤(3-2-7);
(3-2-4)使用第i个训练数据子集中的时间戳计算该第i个训练数据子集的均值和方差;
(3-2-5)根据步骤(3-2-4)得到的第i个训练数据子集的均值和方差获取该第i个训练数据子集对应的第i个决策树的权重;
(3-2-6)设置计数器i=i+1,并返回步骤(3-2-3);
(3-2-7)使用获得的所有权重对应的决策树构成初始状态下的随机森林模型。
优选地,步骤(3-2-4)具体是采用以下公式:
Figure GDA0002459318970000031
Figure GDA0002459318970000032
其中
Figure GDA0002459318970000033
表示第i个训练数据子集的均值,
Figure GDA0002459318970000034
表示第i个训练数据子集的方差,ti,k表示第i个训练数据子集中第k条数据的时间戳。
优选地,步骤(3-2-5)具体是采用以下公式:
Wi=(λ1*χ1+γ1)*(λ2*χ2+γ2)
其中Wi表示第i个决策树的权重,λ1、λ2、γ1、γ2为加权因子,且均∈[0,1],λ1+γ1=1,λ2+γ2=1,χ1和χ2为中间变量,
且有
Figure GDA0002459318970000041
Figure GDA0002459318970000042
其中
Figure GDA0002459318970000043
表示所有N个训练数据子集的平均均值,σ表示所有N个训练数据子集的平均方差。
优选地,步骤(4)具体包括以下子步骤:
(4-1)在随机森林模型中增加一个后验决策树p;
(4-2)对后验决策树的权重进行初始化,具体是采用以下公式:
Figure GDA0002459318970000044
其中
Figure GDA0002459318970000045
表示后验决策树p的权重。
(4-3)根据步骤(3-3)的随机森林模型中每个决策树的预测准确率获取平均预测准确率
Figure GDA0002459318970000046
Figure GDA0002459318970000047
其中Pi表示步骤(3-4)中得到的故障预测结果中第i个决策树的预测准确率;
(4-4)根据步骤(4-3)得到的平均预测准确率
Figure GDA0002459318970000049
以及第i个决策树的权重获取该第i个决策树更新后的权重;
(4-5)使用获得的所有更新后的权重、以及后验决策树p的权重对应的决策树构成更新后的随机森林模型。
优选地,步骤(4-4)具体是采用以下公式:
W′i=Wi*(λ3*χ3+γ3)
其中W′i表示第i个决策树更新后的权重,λ3、γ3为加权因子,且均∈[0,1],λ3+γ3=1,χ3为中间变量,且有
Figure GDA0002459318970000048
按照本发明的另一方面,提供了一种基于时序特征处理与模型优化的磁盘故障预测系统,包括:
第一模块,用于获取磁盘的SMART属性数据、以及SMART属性数据的时间戳;
第二模块,用于根据第一模块获取的磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据,使用主成分分析法从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵;
第三模块,用于将第二模块得到的多维矩阵输入训练好的随机森林模型中,以得到磁盘的故障预测结果;
第四模块,用于根据第三模块得到的磁盘的故障预测结果对随机森林模型进行更新,以得到更新后的随机森林模型。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明能够解决现有SMART方法中存在的由于没有考虑SMART属性之间的关联关系,从而会导致磁盘故障预测的准确率较低的技术问题:由于本发明在步骤(2)中获取了扩充数据,该扩充数据通过变化量的方式体现出了SMART属性之间的关联关系,并且通过后续步骤(4)在随机森林模型中引入后验决策树提供负反馈更新,并对随机森林模型中的决策树权重进行了更新,因而能够动态地学习错误的预测数据,并进而保证整体模型对磁盘故障的预测准确率。
(2)本发明能够解决现有SMART技术中由于没有考虑到海量历史数据的特征分析,因此不能有效地实时追踪最新发生损坏的磁盘的技术问题:由于本发明通过步骤(4)在随机森林模型中引入后验决策树提供负反馈更新,并对随机森林模型中的决策树权重进行了更新,因而能够动态地学习错误的预测数据并实时追踪最新发生损坏的磁盘,并进一步提高了系统的预测性能。
(3)本发明在对故障磁盘进行建模前,使用时序数据分配策略进行数据分配,使用时序特征处理算法进行特征处理,两者共同作用保证随机森林模型对时序数据的抽象能力,在时序数据分配阶段,将样本数据按照时间分为训练集、测试集与验证集,从而保证模型各个阶段都得到数据的时序信息,可时刻感知数据的变化情况,在数据特征处理时,采用PCA算法对所有样本集合的数据进行数据增加与修正,在特征处理后可增强SMART属性表达能力,反映各数据特征随时间变化情况,从而在数据特征层面丰富模型。
(4)本发明通过PCA方法,在扩展部分属性的同时,删去部分无用、重复的属性,从而增强了随机森林模型中数据的质量,提升了预测的效果。
附图说明
图1是本发明基于时序特征处理与模型优化的磁盘故障预测方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,为提升大规模存储中心存储节点可靠性,降低存储节点磁盘介质故障导致的数据丢失问题,利用本发明进行提前故障预测,从而提前发现并修复坏盘。
如图1所示,本发明提供了一种基于时序特征处理与模型优化的磁盘故障预测方法,包括以下步骤:
(1)获取磁盘的静态数据、自我监测、分析和报告技术(Self-Monitoring,Analysis and Reporting Technology,简称SMART)属性数据、以及SMART属性数据的时间戳(即采集时间);
磁盘的静态属性如下表1所示:
表1
Figure GDA0002459318970000071
(2)根据步骤(1)中获取的磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据(即下表2中标准值的变化量、以及原始值的变化量),使用主成分分析法(Principal Component Analysis,简称PCA)从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵;
表2
Figure GDA0002459318970000072
Figure GDA0002459318970000081
具体而言,本发明得到的多维矩阵是19维,其对应着表2中打钩的19个被选择特征。
(3)将步骤(2)中得到的多维矩阵输入训练好的随机森林模型中,以得到磁盘的故障预测结果;
具体而言,本步骤中的随机森林模型是通过以下步骤训练的:
(3-1)根据磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据,使用主成分分析法从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵,将多维矩阵分成训练数据集、验证数据集、以及测试数据集;
在本步骤中使用的训练数据集、测试数据集、以及验证数据集的大小比例为4:3:3。
(3-2)生成N个决策树,所有决策树构成随机森林模型,并使用步骤(3-1)中得到的训练数据集中的时间戳对每个决策树进行初始化,以得到初始状态下的随机森林模型,其中N为自然数,优选为20;
本步骤具体包括以下子步骤:
(3-2-1)将训练数据集平均分成N个训练数据子集;
(3-2-2)设置计数器i=1;
(3-2-3)判断i是否小于或等于N,如果是则进入步骤(3-2-4),否则进入步骤(3-2-7);
(3-2-4)使用第i个训练数据子集中的时间戳计算该第i个训练数据子集的均值和方差;具体采用以下公式:
Figure GDA0002459318970000091
Figure GDA0002459318970000092
其中
Figure GDA0002459318970000093
表示第i个训练数据子集的均值,
Figure GDA0002459318970000094
表示第i个训练数据子集的方差,ti,k表示第i个训练数据子集中第k条数据的时间戳。
(3-2-5)根据步骤(3-2-4)得到的第i个训练数据子集的均值和方差获取该第i个训练数据子集对应的第i个决策树的权重;具体采用以下公式:
Wi=(λ1*χ1+γ1)*(λ2*χ2+γ2)
其中Wi表示第i个决策树的权重,λ1、λ2、γ1、γ2为加权因子,且均∈[0,1],λ1+γ1=1,λ2+γ2=1,χ1和χ2为中间变量,且有
Figure GDA0002459318970000095
Figure GDA0002459318970000096
其中
Figure GDA0002459318970000097
表示所有N个训练数据子集的平均均值,σ表示所有N个训练数据子集的平均方差。
(3-2-6)设置计数器i=i+1,并返回步骤(3-2-3);
(3-2-7)使用获得的所有权重对应的决策树构成初始状态下的随机森林模型;
(3-3)将步骤(3-1)得到的训练数据集放入步骤(3-2)得到的初始状态下的随机森林模型中进行训练,以得到训练好的随机森林模型;
(3-4)将步骤(3-1)得到的验证数据集和测试数据集先后放入步骤(3-3)中训练好的随机森林模型中,以分别得到验证结果和故障预测结果。
(4)根据步骤(3)中得到的磁盘的故障预测结果对随机森林模型进行更新,以得到更新后的随机森林模型。
本步骤具体包括以下子步骤:
(4-1)在随机森林模型中增加一个后验决策树p(其指的是上周期预测错误的数据进行再训练所使用的决策树);
(4-2)对后验决策树的权重进行初始化,具体是采用以下公式:
Figure GDA0002459318970000101
其中
Figure GDA0002459318970000102
表示后验决策树p的初始权重。
(4-3)根据步骤(3-3)的随机森林模型中每个决策树的预测准确率获取平均预测准确率
Figure GDA0002459318970000103
Figure GDA0002459318970000104
其中Pi表示步骤(3-4)中得到的故障预测结果中第i个决策树的预测准确率;
(4-4)根据步骤(4-3)得到的平均预测准确率
Figure GDA0002459318970000105
以及第i个决策树的权重获取该第i个决策树更新后的权重;具体采用以下公式:
W′i=Wi*(λ3*χ3+γ3)
其中W′i表示第i个决策树更新后的权重,λ3、γ3为加权因子,且均∈[0,1],λ3+γ3=1,χ3为中间变量,
且有
Figure GDA0002459318970000106
(4-5)使用获得的所有更新后的权重、以及后验决策树p的权重对应的决策树构成更新后的随机森林模型。
本发明根据磁盘故障预测系统中,故障磁盘训练模型的需要,将采集的数据分为三个维度进行存档。首先是磁盘静态数据,将记录存储服务器节点配置信息和存储磁盘介质配置信息两部分的数据。在存储服务器节点中,将采集服务器地址(sever_ip)数据和服务器型号(server_model)数据,进行定位到服务器级别;在存储磁盘介质中,磁盘数据采集程序记录磁盘生产厂家(disk_vendor),磁盘型号(disk_model),磁盘序列号(disk_sn),以及磁盘容量(disk_size)和磁盘所在盘符(disk_dev)数据,其中磁盘容量为int64型,单位是GB。第二部分是磁盘运行时产生的SMART数据,采集程序将自动采集当前磁盘记录的前25个SMART属性,包括属性中的三个有效值:原始值(rawvalue)、最差值(worstvalue)、标准值(value)。磁盘动态运行的SMART一般不会超过30个,属性标号靠后的数据对磁盘故障预测功能的影响不大。第三部分是采集磁盘数据那一刻的时间戳,用于在训练或者预测的时候标识数据产生的时间。采集程序将采集的完毕的数据形成标准化文件。
在数据采集系统中,海量的磁盘运行数据源源不断的被收集,存到后台的存储平台供故障预测系统建模和预测。在本发明中,首先对SMART数据进行数据清洗,后对故障磁盘数据进行建模,判断磁盘在接下来的一段时间是否会发生损坏,同样也需要不断地根据下一周期的数据进行模型更新,确保该模型可适应不断变化的数据模式。
在采集了磁盘的数据后,从中心监控系统中取到坏盘的标签数据,把标签数据与磁盘SMART数据作为磁盘的特征数据集,在特征处理后得到规整的训练和测试数据。到模型训练阶段时,规整的训练数据经过模型训练,模型学习坏盘数据特征从而生成故障模型。然后通过规整的磁盘数据测试,得到当前周期的坏盘。通过这样的训练、生成模型、测试的步骤,最终对每个周期的磁盘数据进行训练,测试每个周期的磁盘数据。并且把最新周期的预测结果保存数据到前端,将当前周期磁盘预测结果保留进行后验,进行模型的修正。在每次的迭代中,依据上周期模型预测错误记录,进行模型地更新调整。
在故障磁盘的训练环节,将磁盘的历史数据统一处理,按照特征选择方式将磁盘数据格式化为共19个SMART复合属性。并且将故障盘标签数据集中的磁盘标签置为1,将非故障盘的标签置为0,进行坏盘的标识。通过决策树算法进行训练,并将当前周期的模型保存,进行最新周期的坏盘预测。在实际模型预测中,数据的质量直接决定着模型的预测结果。在大规模磁盘故障预测问题中,由于原有样本是磁盘SMART属性,存在属性数目多,相关性大,表达能力不强等特点,需要对样本属性进行特征处理后才可进行训练预测。所以本发明设计将对对原有样本数据进行改进,扩展部分属性的同时删去部分无用、重复的属性,从而增强模型数据的质量,提升预测的效果。
在磁盘故障预测问题中,始SMART属性表达能力有限,无法表达属性变化情况,但在对原有属性进行拓展时,需考虑数据的特点以及模型的特征,不能对属性添加无关的信息。如SMART 5号属性,它的变化率标识坏块数目在一定时间内的增加量,如果某一段时间增加量很多,说明磁盘的状况可能区域损坏。所以部分属性的变化率可以增加属性的表达含义,丰富原有样本数据。但是如SMART 9号属性磁盘的加电时间,传统意义的理解认为磁盘加电时间的绝对值与磁盘的损坏有关,一般该属性是常量累加的,所以该项属性的变化量始终为常数,所以该项数据的变化率意义不大。为在增加各属性的变化率后去除无用属性,需要在扩展属性后对属性进行部分特征处理。
所以本发明的扩展属性将对原有属性集合添加变化率属性,对每个原有属性扩充增加一项变化率,其值等于上周期数据与现周期数据的差值,增加的具体方法如下。
对于原有的磁盘属性Xi表示为样本集合中第i条属性,需要对其扩充变化值属性Yi。记Xi={xi,1,xi,2,xi,3,……,xi,n}其中n为属性的维数,同样地Yi={yi,1,yi,2,yi,3,……,yi,2n},其中2n为Y的属性个数;它们的转换如下式:
Figure GDA0002459318970000121
在属性扩充后,由于增加了太多的无关属性,需要对属性集合进行精简。冗余特征使用PCA进行特征处理。在PCA处理后剩余属性仍然冗余,本发明将采用数据专家的建议,结合预实验手动提出一部分无关属性,从而保证模型数据的质量。对于磁盘故障预测模型特征工程时,采用下面的步骤进行处理。
(1)统计所有磁盘共有的20个SMART属性;
(2)对SMART属性选取其原始值(Raw value)和标准值(value)共40个作为特征;
(3)扩展基本特征,增加变化率特征共80个特征;
(4)选用PCA算法进行特征筛选出共40个特征;
(5)数据专家剔除多余属性,最终得到19个属性;
最初的20个SMART属性为数据集中共同拥有的20个属性。在最后专家人工特征筛选中,主要采用两步进行无关特征筛选,第一步是手动剔除一些明显无关的属性,如磁盘加电时间属性的变化量等;第二步是在预实验中,通过测试实验筛选出无关属性。特征筛选后的19维属性在前面已经描述过。
表2为最终模型选择的19维属性,其中第一列是属性的标号,第二列是属性的英文名称,第三列是属性的中文名称,第四列是被选择是特征;其中第四列分为四小列,分别表示SMART属性中的标准值、SMART属性中的原始值、标准值的变化值、以及原始值的变化值。其中变化值是通过人为计算,通过将同一块磁盘的前后两条数据的差值计算,然后重新设置为一条新的特征而形成。
磁盘被规整后的属性包括三部分,第一部分为磁盘的基本数据,在训练时仅保存磁盘的大小一项,第二部分为磁盘的动态SMART属性,其中包括19个被处理后的SMART属性。第三部分为数据的标签,标识这条数据是好盘还是坏盘。
在磁盘故障预测的建模阶段,使用时序数据分配策略进行数据分配,使用时序特征处理算法进行特征处理,两者共同作用保证模型对时序数据的抽象能力。在时序数据分配阶段,将样本数据按照时间分为训练集、测试集与验证集,从而保证模型各个阶段都可以得到数据的时序信息,可时刻感知数据的变化情况。在数据特征处理时,采用时序特征处理算法对所有样本集合的数据进行数据增加与修正。在特征处理后可增强SMART属性表达能力,反映各数据特征随时间变化情况,从而在数据特征层面丰富模型。
在机器学习的分类问题中,分类算法模型的构造和更新是故障预测模型的核心。本发明着重于大规模数据故障预测模型的构建,以及对带有时间标签的时序类预测问题的处理,和模型更新问题的解决。在随机森林模型预测模型构建中,使用数据样本的时序性对每颗决策树初始化赋予不同的权重,使得单颗决策树接受不同时序的样本数据,同时其初始权重也将动态调整。时间样本越近的决策树其初始权重越高,反之则越远,随机森林模型将相对更关心时间较近的决策树的输出结果。在模型更新时加入负反馈决策树与权值更新算法,对预测错误的样本集合重新学习,对预测正确的决策树正向激励。在随机森林模型原有的各决策树中,增加一颗负反馈决策树用语训练历史预测失败数据,达到负反馈学习效果。同时模型更新时更新各决策树预测权重,按照历史预测结果对随机森林模型中各决策树权值进行动态调整。
大规模磁盘故障预测是时序预测问题,其数据样本带有时间标签且时间不同对模型的贡献不同。对于同样一块磁盘的数据特征,时间范围越近的数据其价值越高,对现在的磁盘情况影响越大。所以在对随机森林模型进行建模时需要充分考虑到数据的时序性,在模型的各个决策树中通过各决策树对应的权重反映。本发明设计模型的时序特征中,对随机森林模型中对不同的决策树节点,其对应的不同样本数据设置不同的权重。对于磁盘特征越近的样本集合,其权重将会越高;磁盘特征越远的样本集合,其权重将会越低。在模型建立完成投票时,随机森林模型中各决策树的预测结果乘以该加权系数作为最终结果。
模型建立完成后根据时序数据样本进行故障预测,但随着数据量越来越多和时间不断累计,样本模式可能也会有所变化,预测模型同样需要时刻更新。在模型更新时需考虑上周期磁盘预测错误的情况,将其作为样本数据重新训练,在下一个时间周期将把该部分数据重新学习。为此本发明设计了负反馈更新模型,将历史错误预测的样本集合重新生成样本数据集,并且在随机森林模型中新加入一颗负反馈决策树,在模型更新时对其权重进行调整。在模型更新时,通过对上周期的预测结果动态调整,如果上周期预测的准确率高,那么将其权重相应增大,反之则降低其预测权重。通过加入该负反馈机制,单颗决策树可动态学习错误预测数据,从而保证整体模型的准确率。
在随机森林模型的构建中,最重要的部分是内部决策树的算法以及数据分配的流程。对应时序数据的预测中,其中与一般预测问题的处理最大的区别在于数据时间的连续性,以及对于不同时间不同数据样本的权重问题。面对时序数据问题,需要考虑不同时间的数据重要程度以及权重,对于越新的数据对模型的贡献越高,越远的数据对模型的贡献相应降低。
时序随机森林模型投票算法考虑模型中各决策树的数据时序特征,根据子数据集时间标签在总数据集时间标签的关系,进行加权运算。在运算时需要考虑整体样本数据集的范围,和子样本数据集的范围。用时序均值和时序方差刻画数据集的时序属性。
在磁盘故障预测模型中,数据将会以固定的频率进行采集,对于同一块磁盘其样本数据应该是连续的。但是由于磁盘数据采集时,可能由于网络抖动或者是服务器不稳定原因有少数样本丢失情况,导致数据不连续。所以在将数据集划分为子集时,同一数据子集存在不同的时间间隔情况。在数据时序分配策略中已经提出,本发明将不同时间序列的数据分配到不同的训练、验证和测试集中,各集合的数据样本应该是时间连续和被排序后的数据。在随机森林模型投票算法中,将对每个数据集合求出其数据样本的时间均值和方差,利用这两项数据对样本的时序性进行拟合。
在样本集确定后,将数据抽样分发到训练集、验证集和测试集,然后将各数据按照时间顺序对应到各决策树中。根据数据集合的时序不同,将不同的数据集对应到每颗决策树中,同时使用时序权重初始化算法确定每棵树的始权重。
在模型建立后将会持续对线上的磁盘进行故障预测,但是随着时间不断的推移数据将累计越来越多,故障磁盘的模式可能发生变化,所以需要对预测模型同样进行更新。在处理模型更新问题时主要有两个问题需要考虑,首先是最新周期数据加入训练模型中需要更新各决策的权重,其次是上周期预测后验数据处理。
在每周期预测完成后,将会得到上周期的预测结果,此时将最新的数据与历史预测数据重新进行训练。在本发明的设计中,将随机森林模型预测模型中加入一颗后验决策树,将历史数据预测错误的部分加入到厚颜决策树中,同时需要更新各决策树的投票权重,对下一轮预测数据重新计算。
对于后验决策树,它作为负反馈模型中重要的一部分,负责对历史数据错误预测的部分进行再训练,期望能够重新学习错误数据特征。后验决策树的权重与上周期整体的预测结果有关,如果上周期的预测结果较差,说明坏盘模式修改程度更大,相应的后验决策树的地位更加重要,那么需要提升它的权重。反之说明坏盘模型修改较低,不需要后验的结果进行修正,从而它的权重较低。
对于随机森林模型的所有决策树而言,其权重随着每次的预测结果的不同而不断更新,从而可以保证决策树学习到最新的坏盘模式。对于某些预测较为准确的决策时而言,其权重应相应地进行增加,反之应该降低其预测权重。
根据时序模型更新算法的描述,在普通决策树更新时考虑上周期所有决策树的预测情况,其中后验决策树的初始权重为所有树平均权重。模型更新具体流程如下:
(1)当前周期数据加入训练,根据时序数据分配算法求出数据集权重;
(2)将上周期预测错误的样本集重新输入到训练模型;
(3)参考历史周期各决策树预测结果,根据预测结果调整决策树权重;
在模型更新时需充分模型的泛化能力,在预测错误时将对应的决策树及时权重降低,在预测正确时将对应的决策树权重提升,本发明使用时序模型权重更新算法进行随机森林模型各决策树权重的更新。
在坏盘的预测阶段,首先利用当前周期的训练数据对模型训练,从而得到坏盘特征。然后利用前述的数据处理方法对测试数据进行特征工程等处理,形成规整的测试数据,最后使用训练好的模型对规整的测试数据进行预测,来判断该磁盘是否会在接下来的一段时间发生故障。为了能够正确进行预测,需要将最新周期的磁盘数据进行同样的特征处理,归一化为同样的训练数据格式。
在模型更新阶段,需要利用上一阶段的故障磁盘预测结果,和正确的故障标签数据进行后验,来帮助对现有模型的修正。其过程与上述模型更新部分相同,利用上一阶段预测错误的磁盘,加上正确的标签作为增加的数据集,并且配以更高的权重,从而增强错误数据预测的学习。利用上周期预测的结果的后验数据,进行模型的更新可以帮助的模型可以追踪到磁盘的最新模式,从而提高磁盘故障预测的准确率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于时序特征处理与模型优化的磁盘故障预测方法,其特征在于,包括以下步骤:
(1)获取磁盘的SMART属性数据、以及SMART属性数据的时间戳;
(2)根据步骤(1)中获取的磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据,使用主成分分析法从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵;其中扩充数据包括SMART属性数据的标准值的变化量、以及原始值的变化量;
(3)将步骤(2)中得到的多维矩阵输入训练好的随机森林模型中,以得到磁盘的故障预测结果;步骤(3)中的随机森林模型是通过以下步骤训练得到的:
(3-1)根据磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据,使用主成分分析法从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵,将多维矩阵分成训练数据集、验证数据集、以及测试数据集;
(3-2)生成N个决策树,所有决策树构成随机森林模型,并使用步骤(3-1)中得到的训练数据集中的时间戳对每个决策树进行初始化,以得到初始状态下的随机森林模型,其中N为自然数;
(3-3)将步骤(3-1)得到的训练数据集放入步骤(3-2)得到的初始状态下的随机森林模型中进行训练,以得到训练好的随机森林模型;
(3-4)将步骤(3-1)得到的验证数据集和测试数据集先后放入步骤(3-3)中训练好的随机森林模型中,以分别得到验证结果和故障预测结果;
(4)根据步骤(3)中得到的磁盘的故障预测结果对随机森林模型进行更新,以得到更新后的随机森林模型;步骤(4)具体包括以下子步骤:
(4-1)在随机森林模型中增加一个后验决策树p;
(4-2)对后验决策树的权重进行初始化,具体是采用以下公式:
Figure FDA0002459318960000021
其中
Figure FDA0002459318960000022
表示后验决策树p的权重;
(4-3)根据步骤(3-3)的随机森林模型中每个决策树的预测准确率获取平均预测准确率
Figure FDA0002459318960000023
Figure FDA0002459318960000024
其中Pi表示步骤(3-4)中得到的故障预测结果中第i个决策树的预测准确率;
(4-4)根据步骤(4-3)得到的平均预测准确率
Figure FDA0002459318960000025
以及第i个决策树的权重获取该第i个决策树更新后的权重;
(4-5)使用获得的所有更新后的权重、以及后验决策树p的权重对应的决策树构成更新后的随机森林模型。
2.根据权利要求1所述的磁盘故障预测方法,其特征在于,步骤(3-2)具体包括以下子步骤:
(3-2-1)将训练数据集平均分成N个训练数据子集;
(3-2-2)设置计数器i=1;
(3-2-3)判断i是否小于或等于N,如果是则进入步骤(3-2-4),否则进入步骤(3-2-7);
(3-2-4)使用第i个训练数据子集中的时间戳计算该第i个训练数据子集的均值和方差;
(3-2-5)根据步骤(3-2-4)得到的第i个训练数据子集的均值和方差获取该第i个训练数据子集对应的第i个决策树的权重;
(3-2-6)设置计数器i=i+1,并返回步骤(3-2-3);
(3-2-7)使用获得的所有权重对应的决策树构成初始状态下的随机森林模型。
3.根据权利要求2所述的磁盘故障预测方法,其特征在于,步骤(3-2-4)具体是采用以下公式:
Figure 1
Figure 3
其中
Figure 4
表示第i个训练数据子集的均值,
Figure FDA0002459318960000038
表示第i个训练数据子集的方差,ti,k表示第i个训练数据子集中第k条数据的时间戳。
4.根据权利要求3所述的磁盘故障预测方法,其特征在于,步骤(3-2-5)具体是采用以下公式:
Wi=(λ1*χ1+γ1)*(λ2*χ2+γ2)
其中Wi表示第i个决策树的权重,λ1、λ2、γ1、γ2为加权因子,且均∈[0,1],λ1+γ1=1,λ2+γ2=1,χ1和χ2为中间变量,
且有
Figure 5
Figure FDA0002459318960000034
其中
Figure FDA0002459318960000037
表示所有N个训练数据子集的平均均值,σ表示所有N个训练数据子集的平均方差。
5.根据权利要求4所述的磁盘故障预测方法,其特征在于,步骤(4-4)具体是采用以下公式:
W′i=Wi*(λ3*χ3+γ3)
其中W′i表示第i个决策树更新后的权重,λ3、γ3为加权因子,且均∈[0,1],λ3+γ3=1,χ3为中间变量,且有
Figure FDA0002459318960000035
6.一种基于时序特征处理与模型优化的磁盘故障预测系统,其特征在于,包括:
第一模块,用于获取磁盘的SMART属性数据、以及SMART属性数据的时间戳;
第二模块,用于根据第一模块获取的磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据,使用主成分分析法从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵;其中扩充数据包括SMART属性数据的标准值的变化量、以及原始值的变化量;
第三模块,用于将第二模块得到的多维矩阵输入训练好的随机森林模型中,以得到磁盘的故障预测结果;第三模块中的随机森林模型是通过以下子模块训练得到的:
第一子模块,用于根据磁盘的SMART属性数据的标准值和原始值、以及SMART属性数据的时间戳获取扩充数据,使用主成分分析法从扩充数据、以及SMART属性数据的标准值和原始值中选择多个特征,构成多维矩阵,将多维矩阵分成训练数据集、验证数据集、以及测试数据集;
第二子模块,用于生成N个决策树,所有决策树构成随机森林模型,并使用第一子模块中得到的训练数据集中的时间戳对每个决策树进行初始化,以得到初始状态下的随机森林模型,其中N为自然数;
第三子模块,用于将第一子模块得到的训练数据集放入第二子模块得到的初始状态下的随机森林模型中进行训练,以得到训练好的随机森林模型;
第四子模块,用于将第一子模块得到的验证数据集和测试数据集先后放入第三子模块中训练好的随机森林模型中,以分别得到验证结果和故障预测结果;
第四模块,用于根据第三模块得到的磁盘的故障预测结果对随机森林模型进行更新,以得到更新后的随机森林模型;第四模块具体包括以下子模块:
第五子模块,用于在随机森林模型中增加一个后验决策树p;
第六子模块,用于对后验决策树的权重进行初始化,具体是采用以下公式:
Figure FDA0002459318960000051
其中
Figure FDA0002459318960000053
表示后验决策树p的权重;
第七子模块,用于根据第三子模块的随机森林模型中每个决策树的预测准确率获取平均预测准确率
Figure FDA0002459318960000054
Figure FDA0002459318960000052
其中Pi表示第四子模块中得到的故障预测结果中第i个决策树的预测准确率;
第八子模块,用于根据第七子模块得到的平均预测准确率
Figure FDA0002459318960000055
以及第i个决策树的权重获取该第i个决策树更新后的权重;
第九子模块,用于使用获得的所有更新后的权重、以及后验决策树p的权重对应的决策树构成更新后的随机森林模型。
CN201910558216.2A 2019-06-26 2019-06-26 基于时序特征处理与模型优化的磁盘故障预测方法和系统 Active CN110427311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910558216.2A CN110427311B (zh) 2019-06-26 2019-06-26 基于时序特征处理与模型优化的磁盘故障预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910558216.2A CN110427311B (zh) 2019-06-26 2019-06-26 基于时序特征处理与模型优化的磁盘故障预测方法和系统

Publications (2)

Publication Number Publication Date
CN110427311A CN110427311A (zh) 2019-11-08
CN110427311B true CN110427311B (zh) 2020-07-28

Family

ID=68408702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910558216.2A Active CN110427311B (zh) 2019-06-26 2019-06-26 基于时序特征处理与模型优化的磁盘故障预测方法和系统

Country Status (1)

Country Link
CN (1) CN110427311B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078500A (zh) * 2019-12-11 2020-04-28 何晨 运行配置参数的调整方法、装置、计算机设备和存储介质
CN111008119A (zh) * 2019-12-13 2020-04-14 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
CN111124732A (zh) * 2019-12-20 2020-05-08 浪潮电子信息产业股份有限公司 一种磁盘故障的预测方法、系统、设备及存储介质
CN111292052B (zh) * 2020-01-14 2023-11-17 浙江工业大学 基于多源事件驱动的电子监察方法
CN111581072B (zh) * 2020-05-12 2023-08-15 国网安徽省电力有限公司信息通信分公司 一种基于smart和性能日志的磁盘故障预测方法
CN114327241A (zh) * 2020-09-29 2022-04-12 伊姆西Ip控股有限责任公司 管理磁盘的方法、电子设备和计算机程序产品
CN112990445B (zh) * 2021-05-13 2021-07-16 国网浙江省电力有限公司金华供电公司 一种配电网监控信息智能分析机器学习方法
CN113570619A (zh) * 2021-07-13 2021-10-29 清影医疗科技(深圳)有限公司 基于人工智能的计算机辅助胰腺病理图像诊断系统
CN113971003A (zh) * 2021-10-17 2022-01-25 中国船舶重工集团公司第七一六研究所 一种磁盘smart数据的在线采样装置与方法
CN115410638B (zh) * 2022-07-28 2023-11-07 南京航空航天大学 一种基于对比聚类的磁盘故障检测系统
CN116525105B (zh) * 2023-06-29 2023-10-03 中国人民解放军总医院 一种心源性休克预后预测预警系统、设备及可存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857592A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 数据恢复控制方法、服务器及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070079170A1 (en) * 2005-09-30 2007-04-05 Zimmer Vincent J Data migration in response to predicted disk failure
CN105260279B (zh) * 2015-11-04 2019-01-01 四川效率源信息安全技术股份有限公司 基于smart数据动态诊断硬盘故障的方法和装置
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
CN108228377B (zh) * 2017-12-29 2020-07-07 华中科技大学 一种面向磁盘故障检测的smart阈值优化方法
CN108647136B (zh) * 2018-05-10 2021-05-04 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN108986869B (zh) * 2018-07-26 2021-04-30 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857592A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 数据恢复控制方法、服务器及存储介质

Also Published As

Publication number Publication date
CN110427311A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110427311B (zh) 基于时序特征处理与模型优化的磁盘故障预测方法和系统
CN107832581B (zh) 状态预测方法和装置
US20210166072A1 (en) Learning highlights using event detection
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN112214369A (zh) 基于模型融合的硬盘故障预测模型建立方法及其应用
CN110471820B (zh) 一种基于循环神经网络的云存储系统磁盘故障预测方法
CN109918313B (zh) 一种基于GBDT决策树的SaaS软件性能故障诊断方法
CN111158964B (zh) 一种磁盘故障预测方法、系统、装置及存储介质
CN111984511B (zh) 一种基于二分类的多模型磁盘故障预测方法和系统
CN112699605A (zh) 一种充电桩故障元件预测方法及系统
CN111767162B (zh) 一种面向不同型号硬盘的故障预测方法及电子装置
CN110956277A (zh) 一种交互式的迭代建模系统及方法
CN105471647A (zh) 一种电力通信网故障定位方法
CN114116292B (zh) 一种融合ap聚类与宽度学习系统的硬盘故障预测方法
CN104750828A (zh) 一种基于6w规则的归纳演绎知识无意识自学习方法
CN113822336A (zh) 一种云硬盘故障预测方法、装置、系统及可读存储介质
US11424992B2 (en) Mesh communication network provision
CN115543762A (zh) 一种磁盘smart数据扩充方法、系统及电子设备
KR102480518B1 (ko) 신용평가 모델 업데이트 또는 교체 방법 및 장치
CN115904916A (zh) 一种硬盘故障预测的方法、装置、电子设备以及存储介质
CN115587333A (zh) 一种基于多分类模型的失效分析故障点预测方法及系统
CN110163498B (zh) 课件原创度评分方法、装置、存储介质及处理器
CN112884015A (zh) 一种面向供水管网分区计量系统日志信息的故障预测方法
US11354475B2 (en) Systems and methods for accurate voltage impact on integrated timing simulation
CN117093433B (zh) 故障检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant