CN113778766A

CN113778766A - 基于多维特征的硬盘故障预测模型建立方法及其应用

Info

Publication number: CN113778766A
Application number: CN202110943053.7A
Authority: CN
Inventors: 谭支鹏; 冯丹; 万举; 张鑫晏
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-12-10
Anticipated expiration: 2041-08-17

Abstract

本发明公开了一种基于多维特征的硬盘故障预测模型建立方法及其应用，属于计算机存储领域，包括：获得特征数据集，其中的每条样本包含硬盘状态、对应的特征数据以及时间；对特征数据集中的样本按时间升序排序后进行样本均衡和标准化，之后按照时间升序的顺序将其划分为训练集和测试集；以硬盘状态为标签信息，利用训练集和测试集对深度学习模型进行训练和测试，得到硬盘故障预测模型；特征数据包括SMART信息、固件版本信息和事件日志信息等，每类信息对应一个或多个数据项，数字类型的数据项取值为累积值。本发明同时利用SMART信息、固件版本信息和系统信息等作为特征数据，并充分考虑数据时序性，能够提高模型的训练效果，最终提高硬盘故障预测的精度。

Description

基于多维特征的硬盘故障预测模型建立方法及其应用

技术领域

本发明属于计算机存储领域，更具体地，涉及一种基于多维特征的硬盘故障预测模型建立方法及其应用。

背景技术

随着科技发展和生活水平提高，终端设备愈发普及，日常生活与工作都离不开计算机，因而数据安全也受到更多用户重视。作为个人电脑数据存储介质的硬盘一旦出现故障，便会造成巨大的数据损失。因此，对硬盘故障提前预警并告知用户提前备份重要数据是有重大意义的。在通常状态下，硬盘在24小时内出错的概率为万分之一左右，但是在如此庞大的终端设备市场面前，这个错误率将被大幅度放大，而各种五花八门的应用程序也在不断挑战硬盘的性能与稳定性。基于上述原因，需要有一套系统能提前预测硬盘是否会出错，从而告知用户提前备份重要数据。

可能导致硬盘故障的原因有很多，最常见的包括：外部振动、温度与湿度、电子元件损坏等，随着机器学习等代表性的人工智能技术的发展，给硬盘故障预测带来了新的工具，其中，机器学习里的分类算法非常适合解决硬盘故障预测问题。但目前针对硬盘故障预测方向的研究主要面向数据中心、商用存储系统等，尚未有针对终端设备硬盘故障的相关研究。通常针对前者的硬盘故障预测只会使用硬盘SMART信息作为模型训练数据，但由于终端设备的特殊性，除了能提取到SMART信息外，还能采集操作系统层、驱动层等其他相关信息，组成多维度的训练数据，从而提高故障预测效果。

现有的利用多维度的训练数据进行硬盘故障预测的方法，具有较好的预测效果，但是这些方法在训练时，仅考虑了硬盘自身相关的特征，而未未考虑硬盘所在终端设备的系统信息，并且这些方法在训练时，没有充分考虑数据的时序性，因此，预测精度有待进一步提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于多维特征的硬盘故障预测模型建立方法及其应用，其目的在于，同时利用硬盘的SMART信息和硬盘所在终端设备的系统信息构成硬盘的特征数据，并在模型训练时充分考虑硬盘数据的时序性，以提高模型的训练效果，最终提高硬盘故障预测的精度。

为实现上述目的，按照本发明的一个方面，提供了一种基于多维特征的硬盘故障预测模型建立方法，包括：

预处理步骤：获得特征数据集，其中的每条样本包含硬盘状态、对应状态下的特征数据以及特征数据的产生时间；特征数据包括SMART信息、固件版本信息和事件日志信息等，每类信息对应一个或多个数据项，每个数字类型的数据项取值为累积值，其他类型的数据项取值为编码后的数值；

数据集划分步骤：对特征数据集中的样本按时间升序排序后进行样本均衡和标准化，之后按照时间升序的顺序将特征数据集划分为训练集和测试集；

模型建立步骤：以样本中的特征数据为输入信息、硬盘状态为标签信息，利用训练集对深度学习模型进行训练，并利用测试集对训练后的深度学习模型进行测试，得到硬盘故障预测模型。

硬盘的SMART信息可以直接反映硬盘自身的状况以及所处环境的信息；固件是硬编码到硬盘中的计算机程序，是一个软件中间层，通过固件可以进行硬盘和软件(即Windows操作系统等)间的通信及数据传输，因此固件版本信息与硬盘的工作状态也有很大关系；事件日志信息中记录了系统的各个事件，以及相应的时间和时间发生的次数，反映了硬盘所在终端设备的运行情况，硬盘的状态一定程度上也会影响系统的运行状况，所以事件日志信息也可以间接反映硬盘的状态；硬盘各特征项的累积值与硬盘的使用寿命直接相关，能够准确反映硬盘的状态；本发明同时以硬盘的SMART信息、固件版本信息和硬盘所在设备的事件日志信息作为硬盘故障预测所依据的特征数据，且特征数据中，各数字类型的数据项取值为累积值，能够从多个维度挖掘硬盘的状态信息，提高模型的预测效果；

硬盘各特征项的累积值具有时序性，本发明先按照时间升序的顺序对特征数据集进行排序，再按先后顺序将其划分为训练集和测试集，对模型进行训练和测试，与特征数据的时序性相符，达到了用历史数据训练模型，用未来数据进行模型测试的目的，保证了模型对硬盘故障预测的准确性。

总体而言，本发明同时以硬盘的SMART信息、固件版本信息和硬盘所在设备的事件日志信息作为硬盘故障预测所依据的特征数据，特征数据中，各数字类型的数据项取值为累积值，并且基于特征数据的时序性对模型进行训练和测试，能够基于多个维度的特征信息有效保证模型的训练效果，有利于提高硬盘故障预测的精度。

进一步地，模型建立步骤中，利用训练集对深度学习模型进行训练，包括：

(S1)将训练集按时间升序的顺序划分为N个数据块，并利用大小为n的滑动窗口取前n个数据块；其中，N和n均为正整数，且n<N；

(S2)按照当前超参数组合设置深度学习模型的超参数，将所选取的n个数据块中的前n-1个数据块作为训练数据对深度学习模型进行训练，将第n个数据块作为验证数据，对训练后的深度学习模型的进行评分；

(S3)若滑动窗口还未到达训练集的末尾，则使滑动窗口向后滑动一个数据块，重新选取n个数据块，并转入步骤(S2)；否则，计算当前超参数下深度学习模型的平均评分；

(S4)对于每一个超参数组合，分别执行步骤(S1)～(S3)，从而确定使深度学习模型获得最高平均评分的超参数组合，并获得该超参数组合下的模型训练结果。

本发明所采用的上述模型训练方法，是一种基于时序的校验验证方法，每次利用时间上连续的样本数据进行交叉验证，且利用在先产生的样本数据进行训练，利用在后产生的样本数据进行验证，充分考虑了样本的时序特性，保证了模型的训练效果，并且通过反复的训练和验证，能够从有限的数据中心获取尽可能多的有效信息，提高了模型的泛化能力，使模型的性能更稳定。

进一步地，步骤(S4)中，通过网格搜索的方式进行超参数调优，以获得多个超参数组合。

本发明采用网格搜索的方式进行超参数调优，能够进一步提高模型的训练效果。

进一步地，数据集划分步骤中，按照时间升序的顺序将特征数据集划分为训练集和测试集之前，还包括：

从特征数据中筛选出对硬盘状态的影响程度最大的多个数据项，并剔除其余数据项，以对特征数据集进行更新。

在实际的应用场景中，特征数据中的数据项数量可能较多，本发明先筛选出对硬盘状态的影响程度最大的多个数据项，再根据筛选出的数据项划分训练集和测试集，能够在保证预测精度的情况下，有效减少特征变量的数量，提高模型的训练效率。

进一步地，从特征数据中筛选出对硬盘状态的影响程度最大的多个数据项，所采用的方法是基于机器学习算法的特征选择或基于相关性分析的特征选择。

进一步地，数据集划分步骤中，样本均衡，包括：

将按时间升序顺序排序后的特征数据集按照预设时间段进行划分，对于每个时间段内的样本，随机抽取x*a*m/k条正常盘的样本，共抽取得到x*a*m条正常盘的样本；

将故障盘的样本数量扩充为x*a；

利用所抽取的正常盘的样本和扩充后的故障盘样本对特征数据集进行更新；

其中，x为样本均衡前特征数据集中故障盘的样本数量，a为故障盘样本的放大比例，1:m为预设的故障盘与正常盘的样本比例，k为划分得到的时间段总数。

由于硬盘的故障率很低，所以会出现正常盘样本(负样本)远远多于故障盘样本(正样本)的现象，这种现象通常被称为样本不均衡，而样本不均衡会严重影响后续的模型训练工作，本发明先按时间段进行划分，采用逐时间段抽样的方式对正样本进行抽样，并对负样本的数量进行扩充，使得特征数据集中的样本在时间跨度上均匀分布。

进一步地，预设时间段为月。

本发明在进行样本均衡时，以月为粒度对特征数据集进行划分，能够避免因划分粒度过小，而导致执行效率低，不利于后续的调试，也能够避免因划分粒度过大而导致最终样本分布不均匀。

按照本发明的另一个方面，提供了一种基于多维特征的硬盘故障预测方法，包括：

获得硬盘当前的特征数据，进行标准化之后，输入由本发明提供的基于多维特征的硬盘故障预测模型建立方法所建立的硬盘故障预测模型，以预测得到硬盘当前的状态。

按照本发明的又一个方面，提供了一种计算机可读存储介质，包括：存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的基于多维特征的硬盘故障预测模型建立方法，和/或本发明提供的基于多维特征的硬盘故障预测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明同时以硬盘的SMART信息、固件版本信息和硬盘所在设备的事件日志信息作为硬盘故障预测所依据的特征数据，特征数据中，各数字类型的数据项取值为累积值，并且基于特征数据的时序性对模型进行训练和测试，能够基于多个维度的特征信息有效保证模型的训练效果，有利于提高硬盘故障预测的精度。

(2)本发明利用基于时序的校验验证方法，每次利用时间上连续的样本数据进行交叉验证，且利用在先产生的样本数据进行训练，利用在后产生的样本数据进行验证，充分考虑了样本的时序特性，保证了模型的训练效果，并且通过反复的训练和验证，能够从有限的数据中心获取尽可能多的有效信息，提高了模型的泛化能力，使模型的性能更稳定。

(3)本发明先筛选出对硬盘状态的影响程度最大的多个数据项，再根据筛选出的数据项划分训练集和测试集，能够在保证预测精度的情况下，有效减少特征变量的数量，提高模型的训练效率。

(4)本发明按照预设时间段对时间上有序的特征数据集进行划分，采用逐时间段抽样的方式对正样本进行抽样，并对负样本的数量进行扩充，使得特征数据集中的样本在时间跨度上均匀分布，能够避免因样本不均衡而影响模型的训练效果。

附图说明

图1为本发明实施例提供的基于多维特征的硬盘故障预测模型建立方法流程图；

图2本发明实施例提供的SMART信息中的固件版本信息的编码示意图；

图3为本发明实施例提供的随机森林模型训练与优化方法的流程图；

图4为本发明实施例提供的特征选择示意图；

图5为本发明实施例提供的训练集、测试集划分方法示意图；

图6为本发明实施例提供的基于时序的交叉验证方法示意图；

图7为本发明实施例提供的基于网格搜索的模型超参数调优方法示意图；

图8为本发明实施例提供的根据模型测试结果得出的混淆矩阵示意图；

图9为本发明实施例提供的模型性能指标计算方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了解决现有的硬盘故障预测方法的预测精度有待进一步提高的技术问题，本发明提供了一种基于多维特征的硬盘故障预测模型建立方法及其应用，其整体思路在于：充分挖掘能够反映硬盘状态的数据项，构成进行硬盘故障预测所依据的多维特征数据，并充分考虑这些特征数据的时序特性，按照时间升序的顺序对特征数据集进行排序后划分训练集和测试集，达到利用历史数据训练模型，利用未来数据测试模型的，最终有效提高模型的训练效果，以提高硬盘故障预测的精度。

在详细解释本发明的技术方案之前，先对硬盘SMART信息、固件版本信息和事件日志信息做如下简要介绍：

S.M.A.R.T.，全称为“Self-Monitoring Analysis and Reporting Technology”，即“自我监测、分析及报告技术”；是一种自动的硬盘状态检测与预警系统和规范。通过在硬盘硬件内的检测指令对硬盘的硬件如磁头、盘片、马达、电路的运行情况进行监控、记录并与厂商所设定的预设安全值进行比较，若监控情况将或已超出预设安全值的安全范围，就可以通过主机的监控硬件或软件自动向用户做出警告并进行轻微的自动修复，以提前保障硬盘数据的安全；除一些出厂时间极早的硬盘外，现在大部分硬盘均配备该项技术。

固件被定义为硬编码到硬盘中的计算机程序，其中包含基本操作存储编程，或者说，固件是一个软件中间层，通过固件可以进行硬盘和软件(即Windows操作系统等)间的通信；对于硬盘，固件是管理硬盘操作、出厂设置甚至标识的程序；任何出厂及用于计算机或服务器中的硬盘都有出厂时安装的固件。

事件日志是记录系统中硬件、软件和系统问题的信息，同时还可以监视系统中发生的事件；可以通过它来检查错误发生的原因，或者寻找受到攻击时攻击者留下的痕迹。

终端设备中，硬盘的SMART信息以及事件日志信息，均可通过现有的工具、程序等直接获取。

不失一般性地，若无特殊说明，以下实施例，硬盘所在终端设备中均搭载了Windows操作系统。

以下为实施例。

实施例1：

一种基于多维特征的硬盘故障预测模型建立方法，如图1所示，包括：

硬盘的SMART信息可以直接反映硬盘自身的状况以及所处环境的信息；事件日志信息中记录了系统的各个事件，以及相应的时间和时间发生的次数，反映了硬盘所在终端设备的运行情况，硬盘的状态一定程度上也会影响系统的运行状况，所以事件日志信息也可以间接反映硬盘的状态；固件是硬编码到硬盘中的计算机程序，是一个软件中间层，通过固件可以进行硬盘和软件(即Windows操作系统等)间的通信及数据传输，因此固件版本信息与硬盘的工作状态也有很大关系；硬盘各特征项的累积值与硬盘的使用寿命直接相关，能够准确反映硬盘的状态；本实施例同时以硬盘的SMART信息、固件版本信息和硬盘所在设备的事件日志信息作为硬盘故障预测所依据的特征数据，且特征数据中，各数字类型的数据项取值为累积值，能够从多个维度挖掘硬盘的状态信息，提高模型的预测效果；

作为一种可选的实施方式，本实施例的预处理步骤中的特征数据集具体是利用电脑管家程序从硬盘所在终端设备采集与硬盘故障相关的非隐私原始数据并进行预处理后得到的，本实施例所采集的事件日志信息具体包括BSOD蓝屏代码、WindowsEvent系统事件，表1所示为采集的部分原始数据。

表1中imei为终端设备硬盘的唯一标识SN码经过一系列的加密算法得到唯一标识，date为此条数据采集并上传时间，smart_1、smart_2、bsod_1、bsod_2、we_1、we_2为“特征值”，smart_1、smart_2属于SMART信息，bsod_1、bsod_2属于BSOD蓝屏代码信息，we_1、we_2属于WindowsEvent系统事件信息。

表1非隐私原始数据示例

imei	date	smart_1	smart_2	bsod_1	bsod_2	we_1	we_2
								AvzQt8	2020_01_01	0,0,0,4	0,0,0,113363	0	3	0	11
AvzQt8	2020_01_02	0,0,0,22	0,0,0,134645	1	0	0	6
								dS9dp9	2020_01_01	0,0,0,1	0,0,0,383065	0	4	3	0
dS9dp9	2020_01_02	0,0,0,5	0,0,0,404351	0	3	3	34

需要说明的是，表1只是用作说明数据格式的示例，所以虽然表1中的数据项很少，但是在实际应用中的数据项的数量远大于表1展示的数量，并且根据实际应用需求，可以在当前三个维度中的每一维度的打点数据中增加数据项，也可以添加除这三个维度之外的其他维度的打点数据；

为了便于后续的数据处理，本实施例中，利用电脑管家监控程序采集到终端设备硬盘打点数据后，会将数据上传至后台服务器；由于终端设备的用户基数庞大，导致每天都会产生并上传海量原始打点数据，故后台数据存储系统采用的是基于云存储的海量数据存储平台；

由于原始采集的打点数据中，各数据项的取值可能不是累积值，也可能包括多个数值，对于这样的数据项，需要通过预处理，使各数据项的取值为对应时刻的累积值；原始采集的打点数据中，有些数据项的类型还有可能不是数字类型，对于这样的数据项，需要通过编码的方式，将取值转换为数字类型的取值；

例如，对于硬盘SMART数据，其中的每一个数字类型的数据项所记录的原始格式为“当前值，最坏值，临界值，累积值”，如表1中imei编号为AvzQt8的硬盘在2020-01-01这一天上传的数据里smart_1值为“0,0,0,4”，而在原始数据处理时，只需要提取每个smart数据项的“累积值”，故此时应该提取“4”，以此类推；

又例如，对于BSOD蓝屏代码和WindowsEvent系统事件，原始数据里采集到的都是“当前值”，即每一个BSOD蓝屏代码和WindowsEvent系统事件在该计算机上当天发生的次数，而在原始数据处理时，需要提取每个BSOD蓝屏代码和WindowsEvent系统事件的“累积值”，所以需要对这些值按时间升序的顺序进行累加操作；

又例如，对于对硬盘SAMRT信息中的固件版本信息(Firmware)，该数据项的类型为字符类型，此时需要通过编码将各类固件版本信息转换为对应的数字类型取值；可选地，如图2所示，本实施例中，对固件版本信息进行编码的具体步骤如下：

初始标签为label＝0，标签编码映射表为T；

遍历所有Firmware固件版本数据，执行如下操作：

若当前遍历到的Firmware固件版信息A不存在于映射表T中，则在T中添加映射关系A->label，之后将label自增1，遍历下一条数据；若Firmware固件版本信息A存在于映射表T中，则直接遍历下一条数据；

重复上述操作，直至遍历完所有的Firmware固件版信息；

应当说明的是，以上编码方式仅为一种示例性的说明，不应理解为对本发明唯一的限定，在本发明其他的一些实施例中，也可采用其他的编码方式，只要保证将每一个Firmware固件版信息映射到唯一的数字类型取值即可；

对于其他非数字类型的数据项的编码方式类似，在此将不作一一列举。

经过上述预处理操作之后，原始的打点数据被处理成了特征数据，如表2所示。

表2特征数据示例

imei	date	smart_1	smart_2	bsod_1	bsod_2	we_1	we_2
								AvzQt8	2020_01_01	4	113363	0	3	0	11
AvzQt8	2020_01_02	22	134645	1	3	0	17
								dS9dp9	2020_01_01	1	383065	0	4	3	0
dS9dp9	2020_01_02	5	404351	0	7	6	34

可选地，本实施例在获得特征数据后，将特征数据集输出为“.csv”格式的文件；应当说明的是，存储特征数据的文件格式并不限于“.csv”格式，在本发明其他的一些实施例中，根据文件格式实际占用的存储空间或实际提供的读取写入速度，也可采用其他的文件格式进行存储，甚至也可以不使用文件而使用其他的存储形式进行存储；

后续在读取这些特征数据时，根据数据文件格式的不同，需要采用不同的方法来读取数据，同时，原始数据通常是大量的，数据文件大小以GB为单位，故在读取数据文件时，需要结合运行环境对读取文件的方法进行优化；影响数据文件读取性能的运行环境因素包括但不限于内存大小、硬盘大小、硬盘读写速度等；在本实施例中由于内存空间充足，所以能一次性读取并同时处理大量数据；当内存空间较小时，则可采用分块读取的方式，将大文件拆分为多个小文件并分批进行处理。

获取到特征数据后，为了利用该特征数据对模型进行训练，还需要为每条特征数据标注标签；所谓标签，就是用来表示数据类型的标识符，在本实施例中，标签主要分为故障盘标签“1”和正常盘标签“0”；由于原始数据采集时没有足够的条件去判断磁盘是否故障，故并未给数据打上故障或正常的标签；作为一种可选的实施方式，本实施例借助记录了硬盘所在终端设备的维修信息的故障工单为各条特征数据标注标签，故障工单是在终端设备送往维修点维修时产生的工作单据，记录了维修产品的基本信息和一些故障信息，具体数据如表3所示：

表3故障工单信息示例

imei	date	FaultDescription	Repair Methods
				AvzQt8	2020_01_01	检测不到硬盘	更换硬盘
Q3HOSl	2020_02_02	电脑有时蓝屏	更换硬盘
				Gii1Vs	2020_02_03	使用中卡顿	更换硬盘

其中imei同表1、2中imei，为加密后的终端设备唯一标识，date为维修时间，FaultDescription为对计终端设备故障的描述，Repair Methods为最终采取的维修措施；需要说明的是表3所示的故障工单是简化后的故障工单，并不表示故障工单必须按照这种格式来组织，根据应用场景和运作环境的不同，可以按具体需求组织故障工单的格式。

基于故障工单信息，本实施例为每条特征数据标注标签的方式如下：

对于每一条特征数据，首先判断其对应的imei是否存在于故障工单中，若否，则判断该特征数据的产生时刻，硬盘为正常盘，相应地为该条特征数据标注标签“0”；若是，则进行下一步；

进一步判断故障工单中相应记录的时间与特征数据的产生时间间隔是否在[0,th]的范围内，若是，则判断该特征数据的产生时刻，硬盘为故障盘，相应地为该条特征数据标注标签“1”，若否，则直接丢弃该条特征数据；其中，th是预设的时间阈值，其设定依据是：在发现硬盘发生故障之前的一个时间段内，硬盘可能已经发生了故障，或者不可靠；可选地，本实施例中，th设定为3小时。

标注完标签后得到样本，如表4所示：

表4样本示例

failure	imei	date	smart_1	smart_2	bsod_1	bsod_2	we_1	we_2
									1	AvzQt8	2020_01_01	4	113363	0	3	0	11
0	dS9dp9	2020_01_01	1	383065	0	4	3	0
									0	dS9dp9	2020_01_02	5	404351	0	7	6	34

获得标注了标签的特征数据，即样本数据后，即可得到特征数据集，该特征数据集可用于模型的训练和测试；

应当说明的是，以上特征数据集的获取方式并不是本发明获取特征数据集的唯一方式；在本发明其他的一些实施例中，也可以采用其他的工具或程序获取原始的打点数据；在获取到打点数据时，也可以采用其他的方式给给条数据打标签；当历史数据中，在硬盘已知状态下产生的特征数据足够多时，也可以直接从历史数据中提取数据记录并进行相应的预处理。

由于硬盘的故障率很低，所以会出现正常盘样本(负样本)远远多于故障盘样本(正样本)的现象，这种现象通常被称为样本不均衡，而样本不均衡会严重影响后续的模型训练工作，本实施例的数据集划分步骤通过样本均衡能够有效解决该问题；作为一种优选的实施方式，本实施例中，样本均衡包括：

将按时间升序顺序排序后的特征数据集按照预设时间段进行划分，对于每个时间段内的样本，随机抽取x*a*m/k条正常盘的样本，共抽取得到x*a*m条正常盘的样本；其中，x为样本均衡前特征数据集中故障盘的样本数量，a为故障盘样本的放大比例，1:m为预设的故障盘与正常盘的样本比例，k为划分得到的时间段总数；可选地，本实施例以月为粒度进行划分；

将故障盘的样本数量扩充为x*a，具体的扩充算法为SMOTE算法；

本实施例先按月进行划分，采用逐月抽样的方式对正样本进行抽样，并对负样本的数量进行扩充，使得特征数据集中的样本在时间跨度上均匀分布；应当说明的是，在本实施例中之所以采用“月”作为数据划分单位，是因为原始数据样本时间跨度较大，如果采用过小的划分粒度，例如“周”，则会导致执行效率较低，不利于后续的调试；在其他应用场景中，根据具体的数据样本特征，可以采用其它划分粒度对数据进行划分，例如“周”、“季度”等。

本实施例的数据集划分步骤中，在进行样本均衡之后，对数据进行标准化，可将特征数据数据转化为无量纲指标测评值，各指标值处于同一数量级别，可进行综合测评分析；如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用，这样不利于最终的实现效果；

作为一种可选的实施方式，本实施例的数据集划分步骤中，对于样本均衡之后的特征数据集，采用Z-Score方法进行标准化，具体步骤包括：

首先，对于数据中的每一个特征值，求它的均值，公式如下：

其中μ为特征值的均值，N为数据的总量，x为某一项特征；

然后，对于数据中的每一个特征值，求它的标准差，公式如下：

其中，σ为特征值的标准差；

最后，对于数据中的每一个特征值，计算它的标准化值，公式如下：

其中，z为特征值的标准化值；

通过上述方法对表4数据进行标准化，其结果如表5所示：

表5标准化之后的样本数据

failure	imei	date	smart_1	smart_2	bsod_1	bsod_2	we_1	we_2
									1	AvzQt8	2020_01_01	0.392	-1.411	0	-0.981	-1.2	-0.3
0	dS9dp9	2020_01_01	-1.373	0.625	0	-0.392	0.0	-1.1
									0	dS9dp9	2020_01_02	0.981	0.786	0	1.371	1.22	1.34

通过对比表4和表5可以发现，经过过标准化后的特征值均为相同的数量级，不存在某一特征值远大于其他特征值的情况，这种标准化后的数据有利于后续的建模及优化。

考虑到在实际的应用场景中，特征数据中的数据项数量可能较多，为了在保证预测精度的情况下，提高模型的训练效率，可选地，本实施例的数据集划分步骤中，在按照时间升序的顺序将特征数据集划分为训练集和测试集之前，还包括：

从特征数据中筛选出对硬盘状态的影响程度最大的多个数据项，并剔除其余数据项，以对特征数据集进行更新；

可选地，本实施例具体利用随机森林进行特征选择；如图3所示，基于随机森林算法的特征选择方法，其步骤包括：

对随机森林中的特征变量按照VI(Variable Importance)降序排序；

确定特征删除比例，从当前的特征变量中剔除相应比例不重要的指标，从而得到一个新的特征集；

用新的特征集建立新的随机森林，并计算特征集中每个特征的VI，并降序排序；

重复以上步骤,直到剩下m个特征；

特征选择的作用，包括：可以缓解维数灾难；降低学习任务的难度；可以增强模型可解释性；提升模型泛化能力，避免过拟合；

经过特征选择后的数据，其部分不重要的特征会被剔除，具体数据如表6所示：

表6数据项的重要性

failure	imei	date	smart_1	smart_2	bsod_2	we_1	we_2
								1	AvzQt8	2020_01_01	0.392	-1.411	-0.981	-1.2	-0.3
0	dS9dp9	2020_01_01	-1.373	0.625	-0.392	0.0	-1.1
								0	dS9dp9	2020_01_02	0.981	0.786	1.371	1.22	1.34

通过与表5对比不难发现，特征变量bsod_1被剔除了；

本实施例中，最终各数据项对硬盘状态的影响程度如图4所示，基于图4所示结果，本实施例所选择的数据项具体为：WindowsEvent_24、smart_15、smart_11、smart_12、smart_13、smart_10、smart_17、smart_19、smart_14、smart_16、smart_6、WindowsEvent_20和Firmware_25。其中：WindowsEvent_24表示在创建转储期间出错，创建转储文件失败；smart_15表示硬盘通电次数；smart_11表示主机写入硬盘的数据量，以1000个512Byte为单位；smart_12表示硬盘完成的读命令数；smart_13表示硬盘完成的写命令数；smart_10表示主机从硬盘读取的数据量，以1000个512Byte为单位；smart_17表示异常下电次数；smart_19表示错误日志条目计数；smart_14表示主控IO忙碌时间，以分钟为单位；smart_16表示通电时长，单位小时；smart_6表示硬盘温度，单位为K；WindowsEvent_20表示驱动程序在设备上检测到一个控制器错误；Firmware_25表示硬盘的固件版本。

应当说明的是，随机森林仅为本发明一种可选的特征选择方法，在本发明其他的一些实施例中，也可使用线性回归算法等其他的基于机器学习算法的特征选择方法，或者使用基于相关性分析，根据皮尔森相关性系数、斯皮尔曼相关性系数等完成特征选择。

硬盘各特征项的累积值具有时序性，本实施例的数据集划分步骤中，如图5所示，先按照时间升序的顺序对特征数据集进行排序，再按先后顺序将其划分为训练集和测试集，对模型进行训练和测试，与特征数据的时序性相符，达到了用历史数据训练模型，用未来数据进行模型测试的目的，保证了模型对硬盘故障预测的准确性；本实施例中，本实施例中，样本数据的时间跨度为1年，并且将前半年的样本数据划分到训练集，用于对模型进行训练，而将后半年的样本数据划分到测试集，用于对模型进行测试、优化；应当说明的是，训练集和测试集的划分比例是可以根据实际的应用场景灵活设定的。

可选地，本实施例的模型建立步骤中，所选用的深度学习模型为随机森林；模型训练的基本就是超参数调优，所谓超参数，就是机器学习模型的参数设置。本实施例中采用的随机森林模型超参数如表7所示：

表7随机森林模型超参数

超参数	超参数含义
		max_features	允许单个决策树使用特征的最大数量
n_estimators	随机森林里决策树的个数
		max_depth	决策树的最大深度
min_samples_split	分裂内部节点需要的最少样例数
		min_samples_leaf	叶子节点上应有的最少样例数

需要说明的是，表7并未展示随机森林模型的全部超参数，所展示的超参数是在本实施例中被认为最重要的几个。超参数选择过多或设置的太复杂会导致模型训练缓慢，不利于模型调优；

考虑到样本数据的时序特性，本实施例采用了一种基于时序的交叉验证方法对模型进行训练，具体的训练过程如图6所示，包括：

(S1)将训练集按时间升序的顺序划分为N个数据块，并利用大小为n的滑动窗口取前n个数据块；其中，N和n均为正整数，且n<N，可选地，如图6所示，本实施例中，N＝10，n＝6，划分得到的10个数据块分别为X_1～X_10；

(S4)对于每一个超参数组合，分别执行步骤(S1)～(S3)，从而确定使深度学习模型获得最高平均评分的超参数组合，并获得该超参数组合下的模型训练结果；如图6所示，本实施例中，对于一个超参数组合，共需要进行5轮交叉验证，相应的训练数据分别为x_1～x_5，相应的标签数据分别为y_1～y_5；

通常来说，超参数调优的方法主要有网格搜索、随机搜索等，在本实施例中我们采用的是网格搜索方法，其原理如图7所示，具体步骤如下：

对于模型的每个超参数，都可以设置若干个值，如图7左半部分所示，超参数1设置为{1,2}，超参数2设置为{3，5}，超参数3设置为{4}；

通过排列组合得出全部的超参数组合，如图7右半部分所示，所有组合为{1,3,4}、{1,5,4}、{2,3,4}、{2,5,4}；

根据这些超参数组合，依次对模型进行参数设置、模型训练、模型验证，最终得出一个训练成绩。

需要说明的是，交叉验证与基于网格搜索的超参数调优是同步进行的，即在网格搜索时每设置一次超参数组合、模型训练、模型验证时，这里的模型训练和模型验证代表的就是一次交叉验证，得到的最终成绩是这次交叉验证所产的平均成绩。

本发明的模型建立步骤中，利用训练集对模型训练完成后，输入测试集对模型进行测试，并计算模型的性能指标，本实施例中所涉及的模型性能指标如图8，图9所示；

其中，图8所示是一个根据模型预测结果与测试集的实际情况对比得出的混淆矩阵，具体实现方法为：

若测试集实际数据标签为1(正例)，模型预测结果为1(正例)，则TP+1；

若测试集实际数据标签为1(正例)，模型预测结果为0(负例)，则FN+1；

若测试集实际数据标签为0(负例)，模型预测结果为1(正例)，则FP+1；

若测试集实际数据标签为0(负例)，模型预测结果为0(负例)，则TN+1；

图9为使用混淆矩阵的值并通过一系列公式计算得出模型指标；

需要说明的是，图9所展示的模型指标并不是全部的模型指标，而是在本实施例中被认为重要的模型指标，因为本实施例运作的场景是终端设备市场以及故障硬盘的售后维修，所以召回率、误报率、准确度是本发明优先关注的指标，其中：

准确度是对模型的整体度量，它表示一个模型的整体性能优劣；

召回率代表模型准确预测出故障硬盘的能力，越高的召回率就表明模型能越准确地预测出故障硬盘，这也是模型有效性的体现；

误报率代表模型将正常硬盘错误地预测为故障硬盘，所以误报率要尽可能低，否则会对模型的实际应用带来不良影响。例如有100万块正常硬盘，误报率为1％，则模型会将约1万块正常硬盘误判为故障硬盘，这样的预测结果在实际应用过程中是无法被接受的；

可选地，为了在召回率足够高的情况下，尽可能降低误报率，本实施例判断模型指标是否达标的具体标准如下：

模型的准确度是否达标(例：>90％)，若是，则进行下一步判断；

模型的召回率是否达标(例：>80％)，若是，则进行下一步判断；

模型的误报率是否达标(例：<0.1％)，若是，则记录该次模型的参数及预测结果指标；

以上任一标准不满足，则重复以上训练和测试步骤，直到模型满足所有标准；应当说明的是，该判断标准并不唯一，可根据实际应用场景的差异制定任意标准来判断模型是否达标；

为保证模型具有可移植性并能够跨平台运行，可选地，本实施例在获取到测试达标的硬盘故障预测模型后，在输出模型文件时，使用ONNX开放神经网络交换标准，将原始模型文件转换为由ONNX标准表示的通用模型文件，从而使得在其它平台上使用ONNX标准就能调用该通用模型。

模型的配置文件主要用于在实际应用阶段，协助模型对输入的数据进行处理。

总体而言，本实施例同时以硬盘的SMART信息和硬盘所在设备的事件日志信息作为硬盘故障预测所依据的特征数据，特征数据中，各数字类型的数据项取值为累积值，并且基于特征数据的时序性对模型进行训练和测试，能够基于多个维度的特征信息有效保证模型的训练效果，有利于提高硬盘故障预测的精度。

实施例2：

一种基于多维特征的硬盘故障预测方法，包括：

获得硬盘当前的特征数据，进行标准化之后，输入由上述实施例1提供的基于多维特征的硬盘故障预测模型建立方法所建立的硬盘故障预测模型，以预测得到硬盘当前的状态；

应当理解的是，若在实际的硬盘故障预测时，同样从原始的打点数据中提取特征数据，则需要对原始的打点数据进行同样的预处理及特征选择操作，具体可参考上述实施例1中的描述，在此将不作描述；也可采用其他方式获得硬盘当前的特征数据，只要保证特征数据与模型训练时样本中的特征数据格式一致即可。

实施例3：

一种计算机可读存储介质，包括：存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1提供的基于多维特征的硬盘故障预测模型建立方法，和/或上述实施例2提供的基于多维特征的硬盘故障预测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多维特征的硬盘故障预测模型建立方法，其特征在于，包括：

预处理步骤：获得特征数据集，其中的每条样本包含硬盘状态、对应状态下的特征数据以及特征数据的产生时间；所述特征数据包括SMART信息、固件版本信息和事件日志信息，每类信息对应一个或多个数据项，每个数字类型的数据项取值为累积值，其他类型的数据项取值为编码后的数值；

数据集划分步骤：对所述特征数据集中的样本按时间升序排序后进行样本均衡和标准化，之后按照时间升序的顺序将特征数据集划分为训练集和测试集；

模型建立步骤：以样本中的特征数据为输入信息、硬盘状态为标签信息，利用所述训练集对深度学习模型进行训练，并利用所述测试集对训练后的所述深度学习模型进行测试，得到硬盘故障预测模型。

2.如权利要求1所述的基于多维特征的硬盘故障预测模型建立方法，其特征在于，所述模型建立步骤中，利用所述训练集对深度学习模型进行训练，包括：

(S1)将所述训练集按时间升序的顺序划分为N个数据块，并利用大小为n的滑动窗口取前n个数据块；其中，N和n均为正整数，且n<N；

(S2)按照当前超参数组合设置所述深度学习模型的超参数，将所选取的n个数据块中的前n-1个数据块作为训练数据对所述深度学习模型进行训练，将第n个数据块作为验证数据，对训练后的所述深度学习模型的进行评分；

(S3)若所述滑动窗口还未到达所述训练集的末尾，则使所述滑动窗口向后滑动一个数据块，重新选取n个数据块，并转入步骤(S2)；否则，计算当前超参数下所述深度学习模型的平均评分；

(S4)对于每一个超参数组合，分别执行步骤(S1)～(S3)，从而确定使所述深度学习模型获得最高平均评分的超参数组合，并获得该超参数组合下的模型训练结果。

3.如权利要求2所述的基于多维特征的硬盘故障预测模型建立方法，其特征在于，所述步骤(S4)中，通过网格搜索的方式进行超参数调优，以获得多个超参数组合。

4.如权利要求1～3任一项所述的基于多维特征的硬盘故障预测模型建立方法，其特征在于，所述数据集划分步骤中，按照时间升序的顺序将特征数据集划分为训练集和测试集之前，还包括：

从所述特征数据中筛选出对硬盘状态的影响程度最大的多个数据项，并剔除其余数据项，以对所述特征数据集进行更新。

5.如权利要求4所述的基于多维特征的硬盘故障预测模型建立方法，其特征在于，从所述特征数据中筛选出对硬盘状态的影响程度最大的多个数据项，所采用的方法是基于机器学习算法的特征选择或基于相关性分析的特征选择。

6.如权利要求1～3任一项所述的基于多维特征的硬盘故障预测模型建立方法，其特征在于，所述数据集划分步骤中，所述样本均衡，包括：

将故障盘的样本数量扩充为x*a；

利用所抽取的正常盘的样本和扩充后的故障盘样本对所述特征数据集进行更新；

其中，x为样本均衡前所述特征数据集中故障盘的样本数量，a为故障盘样本的放大比例，1:m为预设的故障盘与正常盘的样本比例，k为划分得到的时间段总数。

7.如权利要求6所述的基于多维特征的硬盘故障预测模型建立方法，其特征在于，所述预设时间段为月。

8.一种基于多维特征的硬盘故障预测方法，其特征在于，包括：

获得硬盘当前的特征数据，进行标准化之后，输入由权利要求1～7任一项所述的基于多维特征的硬盘故障预测模型建立方法所建立的硬盘故障预测模型，以预测得到硬盘当前的状态。

9.一种计算机可读存储介质，其特征在于，包括：存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1～7任一项所述的基于多维特征的硬盘故障预测模型建立方法，和/或权利要求8所述的基于多维特征的硬盘故障预测方法。