CN108052528B

CN108052528B - 一种存储设备时序分类预警方法

Info

Publication number: CN108052528B
Application number: CN201711094873.3A
Authority: CN
Inventors: 陈进才; 卢萍; 陈楠; 王少兵; 刘鑫
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2019-11-26
Anticipated expiration: 2037-11-09
Also published as: CN108052528A

Abstract

本发明公开了一种存储设备时序分类预警方法，包括：实时采集存储设备参数；数据清洗；进行ARIMA时序分析；logistic回归分析和预警机制输出步骤。本发明在大数据的环境背景下，根据统计得到的历史数据和硬盘SMART信息，采用ARIMA模型进行时序预测分析，分析SMART特征值与存储设备故障率的相关性，进而选取出更适合于Logistic模型的特征值进行分类预测。本发明采用机器学习的方法预测存储设备故障率，解决了存储设备最终预测中存在的分类单一性和预警低强度的问题，克服了现有技术对于磁盘的预警机制存在的滞后性和准确率低、实际预警效用不大，难以应用于大数据环境的缺陷，能预测每类预警强度发生概率大小，为数据中心环境下的实时运维和监控提供了有效的应对解决方案。

Description

一种存储设备时序分类预警方法

技术领域

本发明涉及数据中心环境下的存储设备领域，其中，包括机械硬盘(Hard DiskDrive，HDD)、固态硬盘(Solid State Drive，SSD)、混合硬盘(Hybrid Hard Disk，HHD)和盘阵列等存储设备，更具体地，涉及一种融合时序预测分析模型和逻辑斯蒂回归分类模型的对于数据中心环境下的存储设备预警机制的性能分析、负载分析的综合预测实现方法。

背景技术

在当今的信息时代，每天都有大量新信息产生。全球总数据量以每年50％的速度增加，如今越来多的数据被存储在数据中心，存储是数据中心不可缺少的重要部分，任何数据中心数据最终都要放置到存储设备上，随着数据中心规模越来越大，需要存储的数据量也越来越大，同时，数据中心下的存储设备存在一定的异构性、复杂性、多变性，这对存储设备的高可靠性、高可用性提出了更高的要求。如果能够对数据中的存储设备故障进行预测，将会在保障数据安全、防止丢失、降低数据中心运营成本等方面带来极大价值，同时达到安全、高效的数据存储要求。在大数据环境下存储设备故障多发的情况使得用户的数据面临着较大的风险,而且由于基数太大，存储设备故障将大量发生，故障率极高，同时对于存储设备的故障预测率不高，这样使得针对数据中心环境下的存储设备故障的运维任务变得极为困难。为提高数据中心可靠性而进行的存储设备故障研究预测已成为研究热点之一。

业界针对这种情况的解决方案一般是采用S.M.A.R.T.技术，全称为“Self-Monitoring Analysis and Reporting Technology”，即“自我监测、分析及报告技术”。这是现在硬盘普遍采用的数据安全技术，是一种自动的硬盘状态检测与预警系统和规范。初期主要是通过在硬盘硬件内的检测指令对硬盘的硬件如磁头、盘片、马达、电路的运行情况进行监控、记录并与厂商所设定的预设安全值进行比较，若监控情况将或已超出预设安全值的安全范围，就可以通过主机的监控硬件或软件自动向用户作出警告并进行轻微的自动修复，以提前保障硬盘数据的安全。后来研究对象发展到SSD、HHD等存储设备上，针对SSD的指标是颗粒磨损次数(Wear-Range Data)，这个参数是显示“最大磨损块和最小磨损块相差的百分比”，这对于SSD固态硬盘来说是相当重要的一个参数。针对HDD的指标是累计加电时间(Power On Hours Count)，硬盘的通电时间越长，其故障率也就会越高，因此当硬盘的时间使用超过平均无故障时间后，就应该做好备份的准备了。

目前,基于S.M.A.R.T.的阈值判定方法是硬盘厂商普遍采用的故障硬盘预测方法。但是,采用该方法时,故障硬盘的检出率通常为3-10％,故障磁盘检测率过低,实际预警效用不大。当前,已建立的模型均基于硬盘厂商的S.M.A.R.T.数据和其它环境等数据,难以应用于实际的用户集群的硬盘故障预测。在一般情况下，S.M.A.R.T只报告“状况完好”或“出现故障”两种情况，因此无法给出更加具体的预警报告强度，报告比较单一化。

进一步的，传统的S.M.A.R.T.方法针对数据中心环境下的磁盘、固态盘以及盘阵列等存储设备的负载分析和预警机制中存在一定的误差，预测的准确率难以最大程度上满足我们的实际需求，而且对于数据中心管理员日常的运维和监控也提出了很高的要求，即使在接收到预警消息的情况下也难以实施有效的应对方法，可以说是一种针对突发情况的后发应对机制，存在一定的滞后性和无效性。

通过S.M.A.R.T.技术，确实可以对硬盘潜在故障进行有效预测，提高数据的安全性。但我们也应该看到，S.M.A.R.T.技术并不是万能的，它只能对渐发性的故障进行监测，而对于一些突发性的故障，如盘片突然断裂等，硬盘再怎么smart也无能为力了，不具有实时监测的功效，S.M.A.R.T具有被动性的检测、预警功能，而且S.M.A.R.T信息的记录没有周期性。不能进行序列化查询和优化。

近年来，研究者同样采用了一些基于硬盘的SMART属性的机器学习方法来对硬盘建立故障预测模型，对硬盘可能发生的故障进行提前预测，主要方法是根据存储设备的状态数据，建立分类模型，再根据分类模型将未知状态的存储根据其状态数据进行分类，一类是正常，一类是即将故障，虽然这种预测机制已经达到了较高的预测精度，并取得了比较好的预测效果，但是误报率(False Alarm Ratealse，FAR)还是太高。而且之前的研究大部分使用单分类器模型，由于硬盘的故障属于一类小概率事件，硬盘数据分布不平衡，使得这些模型不能很好应用在现实世界的数据中心。

Hamerly的论文《Bayesian approaches to failure prediction for diskdrives》中使用硬盘内部的SMART属性基于两种贝叶斯算法对硬盘的故障进行了预测。他们首先将硬盘的故障预测问题当做一种异常检测，使用期望最大化算法来训练一个贝叶斯聚类混合模型；第二种方法是使用一个监督学习的朴素贝叶斯分类器，这种方法足够简单，因此可以将其固化在硬盘动器中。在误报率为1％的情况下，基于期望最大化的朴素贝叶斯模型取得的故障检测率为35.40％，使用朴素贝叶斯分类器对硬盘的故障检测率为55％，虽然其使用的模型比较简单，但是其预测的准确率不高，而且贝叶斯模型中的数据独立性假设前提很难满足，是一种理想情况下模型假设，很难真正应用到实际的生产活动当中。

Hughes等人的论文《Improved disk-drive failure warnings Reliability》中提出了两种统计学方法用来提高SMART算法的故障检测率。他们利用硬盘驱动器内部的SMART属性，硬盘中原本的算法是依据最大误差阈值，然而Hughes发现许多SMART属性都是非参数分布的，这促使他们采用了秩和检验统计来对硬盘进行故障预测。秩和检验统计在硬盘内部实现也相当简单，同时Hughes提出了两种不同的策略：对多个属性进行秩和检验统计以及对单个属性进行秩和检验统计，之后对单个属性产生的结果再进行“或"运算以达到最终的结果。其使用的模型得到的故障检测率在误报率仅为0.2％的前提下比单纯依靠阈值算法的故障检测率高出3.4倍，然而最高的故障检测率仅达到40.60％，这种模型得到的故障检测率还是太低，仍然难以应用到实际的数据中心生产环境当中。

最近，Zhu等人的论文《Proactive drive failure prediction for large scalestorage systems》中提出了基于硬盘的SMART属性而使用人工神经网络(AnificialNeural Networks，ANN)进行了故障预测，通过后向传播算法来训练神经网络，并提出了一些策略来提高硬盘故障预测的准确率，相比之前的算法在故障检测率上取得了很大的提升，在误报率为0.48％的情况下，故障检测率达到了94.62％，但训练该模型需要的时间复杂度较高，同时对相应的训练环境要求较高，难以大规模应用到数据中心环境中去，影响了其进一步的预测效率。

南开大学安洲的《基于随机森林的硬盘故障预测算法的研究》一文中，根据硬盘SMART数据分布不平衡的特点，提出了一种基于随机森林算法的硬盘故障预测模型，保证了在故障误报率低的情况下，提高故障的检测率。虽然在构建随机森林的过程中，随着随机森林中决策树个数的增加，当其达到一定数量时，对于随机森林的整体模型来说不会产生过度拟合的现象。不过在应用随机森林模型到硬盘故障检测的问题中时，当随机森林中决策树个数到达一定数量时，随着随机森林中决策树个数的增加，模型的运行效率有所下降，而且对最终的分类效果也会有不利的影响。

在中国实用新型专利说明书CN105589795A中公开了一种使用基于预测模型的磁盘故障预测方法及装置，该发明包括的方法有收集海量磁盘的基础信息、历史运行信息和故障信息；分析所收集的海量磁盘的基础信息、历史运行信息和故障信息以确定与磁盘发生故障强相关的要素，并基于所确定的与磁盘发生故障强相关的要素构建预测模型；基于所述预测模型预测每个正在运行的磁盘发生故障的概率以及数量。该基于预测模型的磁盘故障预测方法及装置能够预测磁盘故障发生概率以及数量。在其所公开的方案中，基础信息包括磁盘类型、磁盘生产商、磁盘出厂信息，历史运行信息包括运行时间、运行环境以及基于时间序列的运行状态信息，所述故障信息包括故障发生时间、故障原因。其预测模型采用的是线性预测模型，但是其缺少了在使用具体的模型前必须对模型的合理性和有效性进行一定的假设论证过程，而是直接简单暴力的采取线性预测模型，所以会造成在模型算法选择的可行性和可用性上存在较大的问题，造成预警检测的误报率FAR(False AlarmRate)较高，而检出率FDR(Failure Datection Rate)较低的情况，另外，其进行选择的基础属性信息要素过程没有包含一定的特征筛选步骤，并没有选择那些与预警效果明显相关的特征属性进行线性预测分类，而是人为的随机进行添加和删减基本属性，会很大程度上影响模型的正确性，造成模型预测准确度极低，同时会造成模型欠拟合、泛化能力差和容错性不高的问题。而且这种预警机制只能预测故障是否会发生，是一种简单的非1即0的“二元分类”，而不能预测故障具体发生的时间，大大限制故障预测应用的场景，同时在将其用于实际数据中心时，发现预测中预警提前时间过长从而导致磁盘浪费严重。

在中国发明专利说明书CN105084698A中公开了一种基于历史检测数据的磁盘容量预测方法，该发明公开了一种基于历史检测数据的磁盘容量预测方法和及其使用该方法的装置，根据磁盘历史数据可序列化的特点，采用磁盘轮询检测和序列化磁盘容量数据存储，以及磁盘历史检测数据分析处理和依据数据分析结果进行磁盘容量预测，从而解决磁盘容量将要耗尽时色预警，避免了因磁盘容量故障造成的服务器体积和业务应用间断等问题，进而使磁盘的利用率最大化，降低因磁盘容量不够带来的风险和资源浪费，其使用的简单的序列化数据分析预测的方法，按照固定的时间间隔记录磁盘的已用容量和剩余磁盘容量数据，所采用的轮询检测是一种循环遍历的暴力方法，其时间复杂度较高，预测的效率较低。

发明内容

本发明提出一种存储设备时序分类预警方法，用于在满足预测低误报率的前提下提高存储设备故障预测的准确率，解决现有技术存在的存储设备故障预警机制存在的滞后性和准确率低、实际预警效用不大，难以应用于大数据环境的技术问题。

本发明提出的一种存储设备时序分类预警方法，包括如下步骤：

(1)实时采集存储设备参数，取得历史统计数据

所述存储设备参数从存储设备的SMART信息取得；包括存储设备的一些基本属性信息：CPU主频、缓存和负载百分比，负载大小，内存容量大小，内存实时运行状态下容量使用大小，HDD I/O的大小，SSD I/O的大小，HDD容量大小和实时容量使用大小，SSD容量大小和实时容量使用大小；

所述实时采集过程包括在数据中心集群的每个物理节点上部署脚本来收集该节点上存储设备的SMART信息，SMART信息根据属性值的不同进行分组，并按照“键：值”对的格式存储为SMART日志；在集群的每个物理节点部署守护进程，来收集本地SMART日志，并以SMART日志表的形式格式化存储在数据库中；将数据库中的SMART日志表以CSV格式存储位SMART数据文件；

所述历史统计数据包括上面所列的参数，包括存储设备的SMART特征数据和故障发生日志，可根据SMART数据文件统计取得，所述数据文件可以是存储设备运行日志；

(2)平稳性判断，按SMART信息的不同类型属性值，对步骤(1)获得时间序列数据即历史统计数据中取一组，数据可按照时间自定义分组，作为特征数据进行平稳性判断，以此来判断得到的数据能否采用时序分析预测。平稳性判断可根据时间序列的散点图、自相关函数和偏自相关函数图等进行检验；

若特征数据是平稳的转步骤(3)；

若特征数据非平稳，则进行平稳化处理；采用差分运算，对特征数据进行d阶差分运算，实现平稳化处理；所述阶数d即为使特征数据变为平稳序列时所对应的差分次数；

(3)噪声检验；

对平稳化后的特征数据进行噪声检验，如果未通过噪声检验，说明该特征数据的有用信息已经被提取完毕，应当舍弃该组数据，转步骤(2)；

所述噪声检验方法包括纯随机性检验和方差齐性检验；纯随机性采用构造检验统计量，优选Q统计量；方差齐性检验采用最小二乘法；

(4)进行ARIMA时序分析，根据时间序列模型的识别规则，建立相应的模型，该模型为AR、MA和ARMA三种模型之一，得到的模型参数(m,q)值的具体大小；

所述识别规则为：对得到的经过噪声检验的特征数据分别求得其自相关系数和偏自相关系数，并对自相关图和偏自相关图进行分析，得到最佳的阶层m和阶数q；若平稳序列的偏相关函数是m阶截尾的，而自相关函数是拖尾的，可断定序列适合AR(m)模型；若平稳序列的偏相关函数是拖尾的，而自相关函数是q阶截尾的，则可断定序列适合MA(q)模型；若平稳序列的偏相关函数和自相关函数均是拖尾的，则序列适合ARMA(m,q)模型；本发明中，ARIMA模型可对得到的平稳时间序列分别求得其自相关系数和偏自相关系数，通过对自相关图和偏自相关图的分析，得到最佳的阶层m和阶数q，加由步骤(2)得到的d，得到模型m、q、d参数。

对于非平稳时间序列，先进行d阶差分运算后化为平稳时间序列，此处的d即为ARIMA(m,d,q)模型中的d；若为平稳序列，则用ARMA(m,q)模型。所以ARIMA(m,d,q)模型区别于ARMA(m,q)之处就在于前者的自回归部分的特征多项式含有d个单位根。ARIMA包含有ARMA。RIMA模型包含于ARMA，比AMRA多一步对非平稳序列的d阶差分运算。

(5)logistic回归分析

采用Logistic回归分类算法进行分类处理，用经步骤(4)ARIMA模型时序分析输出的时间序列值作为输入自变量；用人工预先加上标签预警概率p作为输出因变量；

所述预警概率p分类，即存储设备的预警强度分类，指按p大小分成5类，分别是“正常”、“初级预警”、“中级预警”、“高级预警”和“最高预警”；

Logistic回归分类算法中的训练数据分为自变量和因变量，其中，自变量是前面的多维特征数据，相应的因变量是存储设备的预警强度分类，已预先由人工加上标签进行统计，按最终发生的故障预警概率p分类；所述预警概率p分类，指按p大小分成5类，分别是“正常”、“初级预警”、“中级预警”、“高级预警”和“最高预警”；训练好的模型用于最终进行预测。

Logistic回归分类算法中同时对相应的SMART特征数据进行特征排序和选择过程；采用pca或svd降维方法得到特征数据和预警强度相关性的大小关系，给出特征数据的重要性排序；然后保留在删减特征过程中概率下降幅度最小的特征数据，不断地删减特征数据，从而进行模型参数寻优；

Logistic回归分类根据计算得到的概率大小进行分类，得到分类结果数据以进行误差分析；

(6)误差分析

根据Logistic回归分类算法中得到的分类结果数据与实际统计得到的标签结果数据进行比较，进行误差分析，不断地训练和优化整个有监督的机器学习模型；若误差分析结果满足优化完成条件，则输出模型的具体参数，转步骤(7)；否则调整机器学习模型的参数，转步骤(5)，开始新一轮的训练；分类结果数据根据概率大小进行分类，历史统计结果数据的有标签；所述误差分析是指通过计算模型的预测精度统计量指标，用于调整机器学习模型的参数，从而改善模型预测精度统计量指标；所述优化完成条件是指预测精度统计量指标达到预定指标，此时对数损失函数和平方根误差这两个衡量模型预测精度统计量最小；

(7)预警机制输出

对Logistic算法的二元输出用softmax函数多元分类，从而实现多元分类；Logistic分类算法和Softmax函数进行多元分类，得到有多种预警强度级别，得到发生预警时的具体量化强度大小，其中得到的每个类别的概率即是我们进行预警机制得到的预警结果；

根据最终得到的softmax概率大小，得到最终预警的结果，输出结果；

采用五种基本的量化强度对其进行表示：

本发明中，所用Logistic回归分类算法具有4个方面优点：1、根据我们人为进行选择的特征数据与得到的预警标记数据之间存在的相关关系进行一定的分析判断，在特征增减和选择方面上一定程度上缓解了人为特征选择带来的模型误差影响；2、Logistic回归分类算法中同时对相应的SMART特征数据进行了特征选择过程，采用pca和svd等通用特征选择方法，根据特征数据与最终的预警强度的相关关系进行特征筛选过程，保留那些相关性高的特征数据；3、Logistic回归分类算法中的特征选择过程可以根据特征与预警强度相关性的大小关系，给出特征重要性排序，方便我们进行进一步的判断分析；4、Logistic回归分类算法中的特征选择过程可以方便我们对模型进行进一步的优化和改进，也可以以此为基础进行模型参数寻优，减少模型的误差因子，提高模型的泛化程度

本发明中，步骤(3)所采用的时序预测分析方法ARIMA模型中，要分别进行参数估计，来检验时间序列是否为平稳序列，然后进行假设检验，判断残差序列是否为白噪声。序列检验为白噪声，就说明序列中有用的信息已经被提取完毕了，剩下的全是随机扰动，无法进行预测和使用。参数估计的方法与数理统计中的参数点估计方法类似，有相关矩估计、最小二乘估计、最小方差估计、极大似然估计、最大熵估计等，一般可以使用最小二乘估计。对随机差分方程，代入量测数据，得到含噪声的线性方程组，采用最小二乘方法，可解出未知参数，由此可得到噪声方差，注意相关矩估计和最小二乘估计在N较大时效果相当。由于MA、ARMA模型中噪声含有多个，需要将历史噪声转化为数据的形式。

本发明步骤(3)所采用的时序预测分析方法ARIMA模型中，利用已通过检验，即参数检验和模型检验的模型得到的模型参数(m,q,d)来对相应的SMART特征数据分别进行预测分析，得到其在相应时间段内的序列值；所述时间段指一周时间。

进一步的，所述步骤(3)中根据ARIMA模型得到的序列值大小，可以通过数据中心下的自动化运行维护过程，将已经预测得到的特征数据导入到Logistic回归分类算法中进行有监督的机器学习训练过程，可以减少人为干扰带来的影响。所述SMART属性信息，包括存储设备的一些基本属性信息：CPU主频、缓存和负载百分比，负载大小、内存容量大小、内存实时运行状态下容量使用大小、HDD I/O的大小,SSD I/O的大小,HDD容量大小和实时容量使用大小、SSD容量大小和实时容量使用大小等特征信息。

进一步的，步骤(3)中，通过数据中心下的操作系统的shell脚本，定时地将ARIMA模型得到的预测数据导入到下一步的Logistic回归分类算法进行二元分类和softmax函数中进行模型训练进行多元分类。

本发明中，Logistic回归分类算法包含有分类和特征选择算法两个步骤。特征选择过程是对模型算法的完善，提高预测的准确率。在步骤(3)中的Logistic回归分类算法同时对相应的SMART特征数据进行了特征选择过程，根据特征变量与预警强度的相关关系进行特征筛选过程，保留那些相关性高的特征变量。具体地，相关性是可以先通过pca降维得到，然后通过不断的删减特征，保留那些在删减特征过程中概率下降幅度最小的特征。

本发明中，所述步骤(4)中Logistic回归分类算法根据我们进行选择的特征变量与得到的预警标记数据之间存在的相关关系进行一定的分析判断，在特征增减和选择方面上一定程度上缓解了人为特征选择带来的模型误差影响。

进一步的，所述步骤(4)中Logistic回归分类算法中的特征选择过程可以根据特征，包括经过ARIMA模型预测分析后的SMART特征数据，与预警强度相关性的大小关系，给出特征重要性排序，方便我们进行进一步的判断分析，从而提高分类的准确率。

本发明中，所述步骤(4)中Logistic回归分类算法中的特征选择过程可以方便我们对模型进行进一步的优化和改进，即根据特征变量与最终的预警强度的相关关系给出特征重要性排序，保留相关性高的特征变量；或也可以以此为基础进行模型参数寻优，减少模型的误差因子，提高模型的泛化程度。具体地，Logistic回归分类算法中的特征选择过程可以根据特征与预警强度相关性的大小关系，给出特征重要性排序，方便我们进行进一步的判断分析。本发明中，Logistic回归分类算法中存储设备的预警强度分成5类，分别是正常”和“初级预警”、“中级预警”、“高级预警”、“最高预警”5种情况。

同时，为了解决存储设备最终预测中存在的分类单一性和预警低强度的问题，本发明提出了基于Logistic的多元分类预警实现方法，结合前面提到的ARIMA的时序预警机制方法，给出了每种分类情况发生的具体概率大小，为数据中心环境下的实时运维和监控提供了有效的应对解决方案，提高了数据中心下存储设备的可靠性。

本发明提供一种基于存储设备的SMART数据，采用机器学习的方法预测存储设备故障率的实现方法，有效地提高了存储系统可靠性和可用性的目的。该实现方法首先考虑到在大数据的环境前提下，数据中心的HDD/SSD等存储设备出现系统级别程度上异常状况，绝对不是我们人为认为的一个随机状况，它的背后存在一定的因素影响，而且这种异常状态是在随着时间的变化情况下的一个累加渐变的过程，例如针对存储文件的频繁I/O读写过程，对于HDD/SSD的损耗影响过程不能忽略，这对于最终的存储设备出现异常状况有很强的时间关联性，因此可以采用序列分析方法对此过程进行统计建模分析二者的关联性，并且可以根据我们统计得到的历史数据来预测将来的HDD/SSD存储设备的具体使用容量数据的大小。进而根据硬盘SMART数据的分布，定性分析了SMART特征值与存储设备故障率的相关性，选取出更适合于Logistic模型的特征值，从而进行分类预测。

本发明专利克服了现有技术S.M.A.R.T.对于磁盘的预警机制存在的滞后性和准确率低、实际预警效用不大的缺点，难以应用于大数据环境的缺陷，提出一种适用于实际的数据中心和用户集群的存储设备故障预测机制实现方法。本发明专利同样克服了现在业界一般采取的使用简单线性预测模型来对存储设备进行预警机制会存在的欠拟合和低容错的缺点，特别地，在本发明中，采用了结合ARIMA的线性时间序列模型和Logistic回归非线性模型的拟合算法，提高了算法的预测精度和容错度，而且更重要的是，采取了线性模型和非线性模型结合的方案，克服了简单的线性模型拟合度较低，比较脆弱的缺点，提高了算法的健壮性和可行性。实验也证明,该方法具有较好的预测性能,并具有较强的泛化能力等优点，可以降低预警检测的误报率FAR(False Alarm Rate)，而且提升检出率FDR(FailureDatection Rate)，满足了实际数据中心生产环境中的要求。

进一步地，所采用的SMART数据包括存储设备实时数据和存储设备历史统计日志数据吗，都存储在相应的存储设备数据库当中。

进一步地，所采用的SMART特征数据包括了存储设备的一些基本属性信息，例如CPU容量大小、CPU实时运行状态下容量使用大小、内存容量大小、内存实时运行状态下容量使用大小、HDD I/O的大小,SSD I/O的大小,HDD容量大小和实时容量使用大小、SSD容量大小和实时容量使用大小等特征信息。

进一步地，所采用的时间序列分析是指时域分析，本发明主要关心的是序列值之间的相关关系对时间序列发展规律。

进一步地，所采用的时序预测分析方法是ARIMA差分自回归移动平均模型，对相应的SMART特征数据分别进行预测分析，预测时间可以自定义，本发明使用的时间段为一周左右。

进一步地，所采用的时序预测分析方法ARIMA模型中，先要对相应的特征数据进行平稳性判断和噪声检验，以此来判断得到的数据能否采用时序分析预测，对不能进行时序预测的特征进行相应的差分运算，将其转换成可以进行时序分析的数据，接着才将得到的数据再使用ARIMA进行时序预测。

进一步地，所采用的时序预测分析方法ARIMA模型中，平稳性检验可以根据时间序列的散点图、自相关函数和偏自相关函数图对序列的进行识别。

进一步地，所采用的时序预测分析方法ARIMA模型中，噪声检验包括纯随机性和方差齐性两个方面，纯随机性通常采用构造检验统计量，一般为Q统计量。

方差齐性用最小二乘法进行识别。

进一步地，所采用的时序预测分析方法ARIMA模型中，根据时间序列模型的识别规则，建立相应的模型，得到的模型参数(m,q)值的具体大小。

进一步地，所采用的时序预测分析方法ARIMA模型中，要分别进行参数估计，来检验是否具有统计意义，然后进行假设检验，来诊断残差序列是否为白噪声。

进一步地，所采用的时序预测分析方法ARIMA模型中，利用已通过检验的模型来对相应的SMART特征数据分别进行预测分析，得到其在相应时间段内的值。

进一步地，根据ARIMA模型得到的预测值大小可以通过数据中心下的自动化运维过程，将已经预测得到的特征数据自动导入到Logistic回归分类算法中进行有监督的机器学习训练过程。

进一步地，通过数据中心下的Linux操作系统的shell脚本，定时地将ARIMA模型得到的预测数据导入到下一步的Logistic回归分类算法中进行模型训练。

进一步地，shell脚本每天定时(本发明选择了每天早中晚三个时间段)的将得到的预测数据导入到Logistic回归分类算法中进行模型训练。

进一步地，将ARIMA模型得到的预测值进行了非线性映射，其中采用的映射函数是Logistic回归分类算法中的Sigmoid函数。

进一步地，Logistic回归分类算法中的训练数据分为自变量和因变量，其中

相应的因变量是存储设备的预警强度分类，预先由人工加上标签进行统计。

进一步地，Logistic回归分类算法不仅仅可以得到最终的预警分类，同样可以得到具体的分类预警强度发生的概率大小，方便我们进行进一步的预测分析。

进一步地，Logistic回归分类算法采用的Softmax分类函数进行多元分类。

进一步地，Softmax分类函数根据得到的预警概率大小进行多元分类。

进一步地，Logistic回归分类算法中同时对相应的SMART特征数据进行了特征选择过程，根据特征变量与最终的预警强度的相关关系进行特征筛选过程，保留那些相关性高的特征变量。

进一步地，为了达到本发明的目的，根据附图(3)，我们选择使用的Logistic机器学习分类算法相比其他的分类算法，在处理具体的存储设备时序分类问题中，在特征选择和具体的分类结果量化等某些方面具有一定的不可替代性优势，例如它可以根据这些量化过的特征数据值，最后计算得到HDD/SSD发生异常状况且正常预警的概率大小，而不是像其他算法一样简单的进行非1即0的二元分类，造成由于算法选择带来的一定程度上不可弥补的误差，也可以对存储设备实时的健康状况进行量化统计分析，给出HDD/SSD存储设备的运行状态强度大小，方便与之前的历史数据进行比较判读，可以有效地降低预警检测的误报率FAR(False Alarm Rate)，同时提高预警的检出率FDR(Failure Datection Rate)，后续也可以以此概率大小进行一定的数字特征范围上的运行状态解读和划分，为数据中心的运维和管理人员进行检查和检测也带来的一定的方便，可以进行深度量化统计和分析。

我们还预先将这些HDD/SSD存储设备的最终预警状态简单的分成了“正常”和“初级预警”、“中级预警”、“高级预警”、“最高预警”五种情况，而且分别进行了状态序号标记，再根据对这些特征数据进行监督训练后得到的预测状态与真实情况下的标记状态进行比较分析，得到一定的训练误差(Root Mean Square Error，RMSE)，然后根据误差分析，不断地对这些特征数据再次进行训练优化，进一步完善我们模型算法，而且同时根据判断特征数据与预测结果想过性的大小进行了一定的特征选择过程，从而提高模型预测准确率。

本发明中，所述守护进程(Daemon Process)，也就是通常说的Daemon进程(精灵进程)，是Linux中的后台服务进程。它是一个生存期较长的进程，通常独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，取得了如下技术效果：

1、提出的基于ARIMA的时序预警机制方法有效地在满足数据中心环境下的存储设备预测低误报率的前提下提高了预测的准确率

2、提出了基于Logistic的多元分类预警实现方法有效地解决存储设备最终预测中存在的分类单一性和预警低强度的问题

3、有效地克服了现有技术S.M.A.R.T.对于磁盘的预警机制存在的滞后性和准确率低、实际预警效用不大的缺点，难以应用于大数据环境的缺陷，适用于实际的数据中心和用户集群的存储设备故障预测

4、克服了现在业界一般采取的使用简单线性预测模型来对存储设备进行预警机制会存在的欠拟合和低容错的缺点，采用结合ARIMA的线性时间序列模型和Logistic回归非线性模型的拟合算法，提高了算法的预测精度和容错度

5、采取了线性模型和非线性模型结合的方案，克服了简单的线性模型拟合度较低，比较脆弱的缺点，提高了算法的健壮性和可行性

6、具有较好的预测性能,并具有较强的泛化能力等优点，可以降低预警检测的误报率FAR(False Alarm Rate)，而且提升检出率FDR(Failure Datection Rate)，满足了实际数据中心生产环境中的要求

附图说明

图1是本发明的整个模型流程图，包括ARIMA时序预测分析和Logistic回归分类预警两部分组成；

图2是根据图1中表示的ARIMA时序预测分析的具体流程图；

图3是根据图1中表示的Logistic回归分类预警和特征选择部分流程图；

图4是根据图3中进行Logistic回归分类预警和特征选择部分的函数形状图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了使本发明专利的目的、技术方案及优点更加的清晰明白，以下结合附图及实例，对本发明专利进行进一步的详细说明。应当理解，此处所描述的具体实施实例仅当解释本发明专利，而并不仅限于本发明。

例如，在根据历史统计数据得到了某数据中心下的一服务器的过去一个月时间内的CPU、内存、磁盘的使用信息和运行状态数据，以此数据来预测未来一段时间内(一般定义为1周)，该服务器的健康实时状态，分析它的预警机制。

附图1详细介绍了整个模型流程，首先根据得到的实时统计数据和历史统计数据，将其合并成关于服务器的日志数据，我们选择了包括CPU、内存、磁盘I/O、磁盘容量四种特征数据进行统计分析，其次，对这些特征数据进行了预处理过程，包括对特征数据进行了异常值分析、统计量分析、相关性分析等数据探索过程和数据清洗、数据变化、数据规约等数据清洗过程，然后对清洗过的特征数据进行时间序列建模，采用了ARIMA自回归移动模型对特征数据进行预测分析，分别得到了四种特征数据在未来1周内的量化数据，最后将这些预测得到的特征数据代入到Logistic回归模型中进行分类预测，根据逻辑斯蒂回归分类模型中得到的分类结果数据与实际统计得到的标签结果数据进行比较，而且进行误差分析，不断地训练和优化整个有监督的机器学习模型，得到优化过的机器学习模型以后就可以对新的服务器的特征数据进行建模分析，只需要将新的数据带入，进行预测和分类过程就可以得到最终的磁盘预警分类结果(标记为“1”或者“0”)。

附图2详细介绍了利用ARIMA时间序列模型对相关特征数据进行序列分析和预测流程，以内存使用信息为例，首先对内存时间序列进行平稳性检验，可以根据序列的时序图和自相关图来做检验判断，因为如果是平稳序列的话，它的时序图会显示该序列的值始终在一个常数范围内进行波动，而且它的波动范围有界，所以它的方差和均值都是常数，如果序列有明显的趋势性和周期性，通常不是平稳序列，这种方法虽然简单，但是带有一定的主观性。也可以采用自相关图的判断检验方法，平稳序列一般具有短期相关性，这意味着通常只有近期的序列值对现在的实时值有影响，时间间隔越长的过去值对现在的实时值影响越小，所以随着时间间隔K的变长，平稳序列的自相关系数ρ_k会不断的快速减小，并且会趋近于0，而非平稳序列的自相关系数衰减比较慢。然后要对序列进行纯随机性检验(也成白噪声检验)，纯随机序列的序列值之间无相关性，它的自相关系数趋近于0。对于平稳非白噪声序列，可以先计算它的自相关系数(ACF)和偏自相关系数(PACF),然后采用ARMA平稳自回归移动平均模型进行模型定阶，根据ACF和PACF的值选择AR(m),MA(q),ARMA(m,q)模型中的一种进行建模分析，然后对选择的模型进行参数检验和模型检验、模型优化等步骤之后，就可以对相关的特征数据进行短期的预测(设定为一周)，特别的我们选择的特征数据，如磁盘容量、内存使用、磁盘I/O等日志数据一般经过特征分析后是不具有平稳性的，所以也就不能使用以上的AR(m),MA(q),ARMA(m,q)等线性平稳回归模型，但是可以使用另外一种ARIMA模型先对序列值进行差分运算，之后得到的序列值就可以采用以上的步骤进行预测建模了。

附图3详细介绍了根据之前采用ARIMA模型进行特征预测得到的序列值再利用Logistic模型进行分类及特征选择流程。对于得到的特征序列值放入到Logistic模型之中进行有监督的机器学习模型训练，得到发生预警的相关概率大小，并以此进行分类，而且不断地进行模型优化，不断提高模型的泛化能力，同时可以采用特征选择的方法得到那些真正对我们最后的预警机制结果有用的特征。

其中：

Logistic函数：

回归模型：

z＝g(x)＝β₀+β₁x₁+β₂x₂+…+β_px_p+ε (2)

Softmax函数：

公式(1)就是基本的logistic函数的表达式，公式(2)是多个特征表示的线性表达式，在这里，我们选择了CPU使用信息、内存使用信息、磁盘I/O、磁盘容量使用情况等特征量，所以就有：

将x₁、x₂、x₃、x₄分别带入(2)式，得到的g(x)再代入(3)式即可，即可求出最终的磁盘发生预警概率的大小p，根据(1)式中Logistic函数的性质可知：

p≥0.5 表示预警将会发生结果标记为“1”；

p＜0.5 表示预警不会发生结果标记为“0”。

这样就可以根据概率p的大小来采取相应的预警机制强度。

进一步地，仅仅根据(1)式，我们只能得到一种基于Logistic逻辑回归分类算法的二分类机制，还是没有克服基于S.M.A.R.T.的“非1即0”的二元分类，所有我们需要结合Logistic分类算法和Softmax函数对模型进行改进即可，同时使用(1)式和(4)式即可使它能够完成我们需要的多元分类目标，得到发生预警时的具体量化的强度大小，其中得到的每个类别的概率就是我们进行预警机制得到的预警结果。

在这里，考虑到如果预警发生情况，我们选择了四种基本的量化强度对其进行表示，特别地:

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种存储设备时序分类预警方法，其特征在于，包括如下步骤：

(1)实时采集存储设备参数，取得历史统计数据

所述存储设备参数从存储设备的SMART信息取得；包括存储设备的基本属性信息：CPU主频，缓存和负载百分比，负载大小，内存容量大小，内存实时运行状态下容量使用大小，HDDI/O的大小，SSDI/O的大小，HDD容量大小和实时容量使用大小，SSD容量大小和实时容量使用大小；

所述历史统计数据包括上面所列的参数和故障发生日志，可根据SMART数据文件统计取得；

(2)平稳性判断

按SMART信息的不同类型属性值，对步骤(1)获得时间序列数据中取一组，作为特征数据进行平稳性判断；

若特征数据是平稳的转步骤(3)；

若特征数据非平稳，则进行平稳化处理：采用差分运算，对特征数据进行d阶差分运算，实现平稳化处理；所述阶数d即为使特征数据变为平稳序列时所对应的差分次数；

(3)噪声检验

对平稳化后的特征数据进行噪声检验，如果未通过噪声检验，说明该特征数据的有用信息已经被提取完毕，应当舍弃该组数据，转步骤(2)；否则，转步骤(4)；

(4)进行ARIMA时序分析，根据时间序列模型的识别规则，建立相应的模型，得到的模型参数(m,q)值的具体大小；对得到的经过噪声检验的特征数据，分别求得其自相关系数和偏自相关系数，并对自相关图和偏自相关图进行分析，得到最佳的阶层m和阶数q；

若平稳序列的偏相关函数是m阶截尾的，而自相关函数是拖尾的，可断定序列适合AR(m)模型；

若平稳序列的偏相关函数是拖尾的，而自相关函数是q阶截尾的，则可断定序列适合MA(q)模型；

若平稳序列的偏相关函数和自相关函数均是拖尾的，则序列适合ARMA(m,q)模型；

(5)logistic回归分析

采用Logistic回归分类算法进行处理，用经步骤(4)ARIMA模型时序分析输出的时间序列值作为输入自变量；用人工预先加上标签预警概率p作为输出因变量；

(6)误差分析

根据Logistic回归分类算法中得到的分类结果数据与实际统计得到的标签结果数据进行比较，进行误差分析，不断地训练和优化整个有监督的机器学习模型；若误差分析结果满足优化完成条件，则输出模型的具体参数，转步骤(7)；否则调整机器学习模型的参数，转步骤(5)，开始新一轮的训练；

所述误差分析是指通过计算模型的预测精度统计量指标，用于调整机器学习模型的参数，从而改善模型预测精度统计量指标；

所述优化完成条件是指预测精度统计量指标达到预定指标，此时对数损失函数和平方根误差这两个衡量模型预测精度统计量最小；

(7)预警机制输出

采用所述优化过的机器学习模型对当前存储设备的特征数据进行预测分类；对Logistic分类算法的二元输出，用softmax函数多元分类，从而实现多元分类；得到发生预警时的具体量化强度大小，得到最终预警的结果，输出结果；

2.根据权利要求1所述的时序分类预警方法，其特征在于，步骤(1)中所述实时采集过程包括在数据中心集群的每个物理节点上收集该节点上存储设备的SMART信息，SMART信息根据属性值的不同进行分组，并按照“键：值”对的格式存储为SMART日志；在集群的每个物理节点部署守护进程，来收集本地SMART日志，并以SMART日志表的形式格式化存储在数据库中；将数据库中的SMART日志表以CSV格式存储位SMART数据文件。

3.根据权利要求1所述的时序分类预警方法，其特征在于，步骤(4)所采用的时序预测分析方法ARIMA模型中，利用已通过检验的模型得到的模型参数(m,q,d)来对相应的SMART特征数据分别进行预测分析，得到其在相应时间段内的序列值；所述时间段指一周时间。

4.根据权利要求1所述的时序分类预警方法，其特征在于，步骤(4)中根据ARIMA模型得到的序列值大小，可以通过数据中心下的自动化运行维护过程，将已经预测得到的特征数据导入到Logistic回归分类算法中进行有监督的机器学习训练过程。

5.根据权利要求3所述的时序分类预警方法，其特征在于，步骤(4)中通过数据中心下的操作系统的shell脚本，定时地将ARIMA模型得到的预测数据导入到下一步的Logistic回归分类算法进行二元分类和softmax函数中进行模型训练进行多元分类。

6.根据权利要求1所述的时序分类预警方法，其特征在于，步骤(5)中Logistic回归分类算法中同时对相应的SMART特征数据进行特征排序和选择过程；采用pca或svd降维方法得到特征数据和预警强度相关性的大小关系，给出特征数据的重要性排序；然后保留在删减特征过程中概率下降幅度最小的特征数据，不断地删减特征数据，从而进行模型参数寻优。