CN110413227A - 一种硬盘设备的剩余使用寿命在线预测方法和系统 - Google Patents

一种硬盘设备的剩余使用寿命在线预测方法和系统 Download PDF

Info

Publication number
CN110413227A
CN110413227A CN201910583452.XA CN201910583452A CN110413227A CN 110413227 A CN110413227 A CN 110413227A CN 201910583452 A CN201910583452 A CN 201910583452A CN 110413227 A CN110413227 A CN 110413227A
Authority
CN
China
Prior art keywords
data
time
hard disk
disc apparatus
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910583452.XA
Other languages
English (en)
Other versions
CN110413227B (zh
Inventor
谭支鹏
张鑫
冯丹
王芳
谢燕文
徐高翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910583452.XA priority Critical patent/CN110413227B/zh
Publication of CN110413227A publication Critical patent/CN110413227A/zh
Application granted granted Critical
Publication of CN110413227B publication Critical patent/CN110413227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0616Improving the reliability of storage systems in relation to life time, e.g. increasing Mean Time Between Failures [MTBF]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种硬盘设备的剩余使用寿命在线预测方法和系统,属于计算机存储技术领域。本发明以硬盘设备的SMART信息和I/O状态信息为依据,进行硬盘设备的剩余使用寿命在线预测,SMART数据记录了多项硬盘运行状态的可靠性指标,I/O状态信息包含I/O请求在硬盘设备上所消耗的时间,去掉了对硬盘设备寿命无关的时间;基于采集到的I/O状态信息,生成若干衍生变量属性,这些衍生变量与硬盘寿命强相关,反映了硬盘状态信息与故障的内在关系;采用分组标签赋值,避免使用变化较大的临时变量影响训练效果,并选用双向长短时记忆神经网络作为预测模型,结合前后隐藏层对当前值做出合理预测,均方根误差和平均绝对误差均得到了有效降低,从而提高硬盘寿命预测的精度。

Description

一种硬盘设备的剩余使用寿命在线预测方法和系统
技术领域
本发明属于计算机存储技术领域,更具体地,涉及一种硬盘设备的剩余使用寿命在线预测方法和系统。
背景技术
近年来,越来越多的软件应用程序选择作为在线服务部署在诸如微软、谷歌、亚马逊等云计算平台上。尽管大多数云服务提供厂商都宣称提供高可用性,但实际上云服务依然会失败从而导致用户不满意和经济损失。造成系统服务不可用的原因主要包括:操作失误、病毒破坏、硬件系统故障或软件故障(内存错误、网络故障灯)、设备硬件故障等几方面。相比如CPU、内存等其他部件,而且硬盘具有体量大,剩余使用寿命短等特点,是存储设备硬件故障的主要部分。提高硬盘可靠性在数据中心中显得尤为重要。
为提高云平台的可靠性,目前采用的技术主要分为被动容错和主动容错技术。被动容错主要包括纠删码、备份等。主动容错包括常规性维护和预测性维护两种。常规性维护主要包括周期性维护(定期检查,例如硬盘自带的SMART阈值监测)和故障时维护(运维检测到硬盘无法读写后进行数据恢复)。预测性维护主要通过机器学习的方法进行建模预测,目前主要将其作为二分类的问题,即判断硬盘是否故障。
上述方法中,被动容错技术会有数据丢失和经济损失的风险,维护成本较高;主动容错技术的常规性维护方法过于保守,且因设置阈值门栏过低导致预测准确率较低,会造成系统资源的严重浪费和影响系统正常提供服务;主动容错技术的预测性维护部分只考虑SMART信息,部分考虑I/O状态信息也包括了非硬盘本身导致的I/O调度的时间,建模方法也有尚待改进的地方,在实际生产环境中预测结果仍有待提高。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术硬盘寿命预测结果不准确的技术问题。
为实现上述目的,第一方面,本发明实施例提供了一种硬盘设备的剩余使用寿命在线预测方法,该方法包括以下步骤:
S1.定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
S2.通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S3.将转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
S4.通过特征工程,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S5.将转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
具体地,步骤S2包括以下步骤:
S201.对历史状态数据集进行数据清洗;
S202.基于清洗后的数据集,构建衍生变量,形成新的数据集;
S203.对新的数据集进行归一化;
S204.对归一化后数据集进行特征选择;
S205.对特征选择后的数据集进行分组标签赋值;
S206.对赋值后的数据集进行数据转换;
S207.对数据转换后的数据集进行样本分割。
具体地,所述衍生变量包括:吞吐率Th,表示硬盘设备每秒的传输数据量;Tps表示硬盘设备每秒的传输次数;表示每小时的平均I/O延迟。
具体地,步骤S205包括以下步骤:
(1)对每个时间点上采集的样本,根据硬盘的状态和通电时长,计算硬盘i在时刻ti的剩余使用寿命的临时变量RULi,t
其中,tfail是故障盘的故障时间,ti是该样本的采样时间,tmax是该硬盘的最长使用寿命年限,tpower是该硬盘的通电时长,在采集期间,如果发现硬盘i故障,那么该硬盘所有时刻的数据都认为是故障样本,否则,认为是正常样本;
(2)使用分段函数为样本计算标签值
其中,RULpw表示所有硬盘当中满足通电时长在[tm,tn]区间的RULi,t的平均值,k表示所有满足条件的样本的数量,[tm,tn]表示硬盘在tm~tn期间运行时长故障率曲线趋于稳定。
具体地,步骤S206包括以下步骤:
(1)将状态信息属性项{A1,A2,…,Am,}和标签值组成为硬盘设备在时刻t的时间序列数据;
(2)将硬盘的各时间序列数据转换为双向长短时记忆网络所接受的数据类型(预测变量X,目标变量Y);
以时间步T为时间窗口,取时间序列数据中A1,A2,…,Am,的所有属性值作为一个训练记录,多次移动时间窗口,得到多个训练记录,进而组成{训练记录个数,时间步,特征个数}大小的三维数组,该三维数组即为预测变量X;
以时间步T为时间窗口,取时间序列数据中的值作为一个训练记录对应的标签值向量,多次移动时间窗口,得到多个训练记录对应的标签值向量,进而组成{训练记录个数、时间步}大小的二维矩阵,该二维矩阵即为预测目标向量X对应的目标变量Y。
具体地,样本分割时,通过选择一个时间点,将该时间点前的样本归入训练集,将该时间点后的样本归入测试集,基于训练集采用滑动窗口随机分割一部分作为验证集。
具体地,以多个(预测变量X,目标变量Y)的数据对为输入,使用双向长短时记忆神经网络训练硬盘剩余使用寿命模型,以训练得到的模型作为输出,所述双向长短时记忆神经网络计算方法为:
其中,前向隐藏层向量用于从前向后迭代计算,后向隐藏层向量用于从后向前迭代计算,分别表示前向隐藏层、后向隐藏层和输出层的偏置向量,H表示输出层的激活函数,表示网络中各层的权值矩阵,xt表示输入值,是预测变量X中的训练记录在时刻t的各项特征值所组成的向量,yt是输出值,表示对预测变量Y中的训练记录在时刻t的标签值的预测值,亦表示为RUL′i,t
具体地,采用均方根误差RMSE和平均绝对误差MAE作为模型的损失函数,基于数据转换后的测试集进行模型评估,其计算方法为:
其中,n是样本集的总数,RUL′i,t是模型对时间步t上样本所预测的剩余使用寿命,是标签值,模型训练的目的是降低模型的RMSE、MAE,直到RMSE、MAE收敛时,模型的训练完成。
第二方面,本发明实施例提供了一种硬盘设备的剩余使用寿命预测系统,所述系统包括:
数据采集模块,用于定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
特征工程模块,用于通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集,以及,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
离线建模模块,用于将基于历史状态数据集转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
在线预测模块,用于将基于实时状态数据集转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
第三方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的硬盘设备的剩余使用寿命在线预测方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1.本发明以硬盘设备的SMART信息和I/O状态信息为依据,进行硬盘设备的剩余使用寿命在线预测,SMART数据记录了多项硬盘运行状态的可靠性指标,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间,去掉了与硬盘设备寿命无关的时间,因此,能够提高硬盘寿命预测的准确率。
2.本发明基于采集到的I/O状态信息,生成若干衍生变量属性,这些衍生变量与硬盘寿命强相关,反映了硬盘状态信息与故障的内在关系,能够有效提高硬盘寿命预测的精度。
3.本发明采用分组标签赋值,避免使用变化较大的临时变量RULi,t影响训练效果,并选用双向长短时记忆神经网络作为预测模型,前向隐藏层考虑了历史值对当前值的影响,后向隐藏层考虑了未来值对当前值的影响,结合前后隐藏层对当前值做出合理预测,克服了RNN梯度消失和爆炸的问题,均方根误差和平均绝对误差均得到了有效降低,从而提高硬盘寿命预测的精度。
附图说明
图1为本发明实施例提供的一种硬盘设备的剩余使用寿命在线预测方法流程图;
图2为本发明实施例提供的双向长短时记忆网络模型;
图3为本发明实施例提供的一种硬盘设备的剩余使用寿命预测系统结构示意图;
图4为本发明实施例提供的数据采集流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种硬盘设备的剩余使用寿命在线预测方法,该方法包括以下步骤:
S1.定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
S2.通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S3.将转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
S4.通过特征工程,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S5.将转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
步骤S1.定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间。
SMART技术是指硬盘设备的“自我监测、分析及报告技术”,通过在硬盘设备内的检测指令对硬盘设备硬件,如磁头、盘片、马达、电路的运行情况进行监控、记录并与硬盘设备厂商出厂设置的阈值进行比较,若监控记录值超出阈值,就通过主机的监控硬件或软件自动向用户告警并进行粗粒度的自动修复,以提前保障硬盘数据安全。这些SMART数据记录了多项硬盘运行状态的可靠性指标,使高准确率和高覆盖率的硬盘故障预测成为可能。因此本方法采用SMART数据进行硬盘故障预测。具体包括:时间戳、硬盘厂商、硬盘系列号、底层数据读取错误率、盘片启动时间、重定位磁区计数、寻道错误率、硬盘加电时长、报告不可纠正错误、等候重定的扇区计数等。
频繁持续的I/O操作会降低硬盘寿命并可能导致故障,因此,本发明采用I/O状态信息进行硬盘剩余使用寿命预测。本发明中采用的I/O状态信息包括I/O请求真正在硬盘设备上所消耗的时间去掉了对硬盘设备寿命无关的时间,例如,I/O队列的等待和传输时间。具体包括:每秒读/写扇区数、每秒读/写千字节数、I/O平均扇区数、I/O平均所需时间、读/写操作所需时间以及硬盘设备的繁忙比例、等多维度信息。
通过硬盘状态信息采集脚本,周期性地从数据中心中采集硬盘设备的SMART和I/O状态数据,构成硬盘运行状态数据。
设时刻ta第i块硬盘的运行状态数据为Dia={A1,A2…Am},表示硬盘i在时刻ta具有m维属性项Ai。从时刻t0记录开始到某时刻tx第i块硬盘的历史状态数据集表示为Di={Di0,Di1,…,Dix}。若数据中心部署了n块同型号硬盘,则时刻tx数据中心硬盘的历史状态数据集可表示为 时刻tx的实时状态数据集可表示为其中,T表示时间步。
步骤S2.通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集。
S201.对历史状态数据集进行数据清洗。
由于历史状态数据集中包含缺失值和异常值,无法直接用于建模,因此,本发明对历史状态数据集进行数据清洗。其中,缺失值采用均值填补,异常值采用删除操作。
S202.基于清洗后的数据集,构建衍生变量,形成新的数据集。
为了深入挖掘硬盘状态信息与故障的内在关系,本发明基于采集到的I/O状态信息,生成若干衍生变量。衍生变量包括:吞吐率Th表示硬盘设备每秒的传输数据量;Tps表示硬盘设备每秒的传输次数;表示每小时的平均I/O延迟。这些衍生变量与硬盘寿命强相关,能够有效提高硬盘寿命预测的精度。最后,时刻ta硬盘i新的多变量时间序列衍生为
S203.对新的数据集进行归一化。
将样本数据每个时刻的每种属性值缩放至[0,1]的分布上,使得多维特征具有相近的尺度,进而提高算法的收敛速度。
S204.对归一化后数据集进行特征选择。
使用经典的反向趋势检测算法对归一化后数据集进行特征选择,过滤掉与故障无关的特征。因此,本发明是基于多个与故障相关的属性进行建模分析的。假定特征选择后的数据集状态信息属性项为{A1,A2,…,Am,},其中,m’表示特征个数。
S205.对特征选择后的数据集进行分组标签赋值。
(1)对每个时间点上采集的样本,根据硬盘的状态和通电时长,计算硬盘i在时刻ti的剩余使用寿命的临时变量RULi,t
其中,tfail是故障盘的故障时间,ti是该样本的采样时间,tmax是该硬盘的最长使用寿命年限,由硬盘厂商给定,tpower是该硬盘的通电时长,可从SMART属性得知。在采集周期t0~tx期间,如果发现硬盘i故障,那么该硬盘所有时刻的数据都认为是故障样本,否则,认为是正常样本。
(2)使用分段函数为样本计算标签值避免使用变化较大的临时变量RULi,t影响训练效果。
其中,RULpw表示所有硬盘当中满足通电时长在[tm,tn]区间的RULi,t的平均值,k表示所有满足条件的样本的数量,[tm,tn]表示硬盘在tm~tn期间运行时长故障率曲线趋于稳定。
考虑到硬盘在足够健康的[tm,tn]期间剩余使用寿命较长,状态信息属性项{A1a,A2a,…,Ama}变化不大,因此,对于正常样本来说,采用状态信息属性项{A1a,A2a,…,Ama}作为输入,使用RULi,t=tmax-tpower作为标签值进行建模,拟合效果不佳,影响模型预测效果。本发明针对该问题,采用作为标签值,弱化了建模过程中RULi,t对正常盘的影响。
S206.对赋值后的数据集进行数据转换。
(1)将状态信息属性项{A1,A2,…,Am,}和标签值组成为硬盘设备在时刻t的时间序列数据。
(2)将硬盘的各时间序列数据转换为双向长短时记忆网络所接受的数据类型(预测变量X,目标变量Y)。
采集了[t0,tx]的历史状态数据集,各时刻的时间序列数据为
以时间步T为时间窗口,取时间序列数据的A1,A2,…,Am,的所有属性值作为一个训练记录,多次移动时间窗口,得到多个训练记录,进而组成{训练记录个数,时间步,特征个数}大小的三维数组,该三维数组即为预测变量X;
以时间步T为时间窗口,取时间序列数据的的值作为一个训练记录对应的标签值向量,多次移动时间窗口,得到多个训练记录对应的多个标签值向量,进而组成{训练记录个数、时间步}大小的二维矩阵,该二维矩阵即为预测目标向量X对应的目标变量Y。
由此将硬盘的历史状态数据集转换成多个(预测变量X,目标变量Y)的数据对,用于训练模型。本方法采用滑动窗口机制调整时间步的起始时间和窗口大小来扩大训练集的时间步总数。
S207.对数据转换后的数据集进行样本分割。
样本分割时,通过选择一个时间点,将该时间点前的样本归入训练集,将该时间点后的样本归入测试集,以供后续对模型进行交叉验证。基于训练集采用滑动窗口随机分割一部分作为验证集。本实施例中时间点选择为
步骤S3.将转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型。
S301.基于训练集使用双向长短时记忆神经网络,实现硬盘剩余使用寿命的预测模型。
以多个(预测变量X,目标变量Y)的数据对为输入,训练硬盘剩余使用寿命模型,以训练得到的模型作为输出。
如图2所示,双向长短时记忆网络模型包含三个隐藏层,并加入dropout层以避免过度拟合,进行批量训练时以(预测变量X,目标变量Y)作为模型输入,根据模型输出和目标变量Y的差异,使用Adam优化器调整模型。所述双向长短时记忆神经网络计算方法为:
其中,前向隐藏层向量用于从前向后迭代计算,后向隐藏层向量用于从后向前迭代计算,分别表示前向隐藏层、后向隐藏层和输出层的偏置向量,H表示输出层的激活函数,表示网络中各层的权值矩阵,xt表示输入值,是预测变量X中的训练记录在时刻t的各项特征值所组成的向量,yt是输出值,表示对预测变量Y中的训练记录在时刻t的标签值的预测值,亦表示为RUL′i,t
计算完后,更新输出序列yt。即正向计算时,隐藏层的有关;反向计算时,隐藏层的有关。
S302.基于验证集对所述硬盘剩余使用寿命的预测模型进行验证调优。
结合验证集,从学习速率、批次大小、隐藏层数、隐藏层维数和丢弃率等方面进行了超参数调优。
S303.基于测试集对调优后的硬盘剩余使用寿命的预测模型进行评估。
为衡量模型性能,本发明采用均方根误差(RMSE)和平均绝对误差(MAE)作为模型的损失函数基于数据转换后的测试集进行模型评估,其计算方法为:
其中,n是样本集的总数,RUL′i,t是模型对时间步t上样本所预测的剩余使用寿命。模型训练的目的是降低模型的RMSE、MAE,直到RMSE、MAE收敛时,模型的训练完成。
步骤S4.通过特征工程,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集。
以硬盘设备当前时刻ty(ty>tx)的时间步长T内的状态数据作为输入,经过与步骤S2相同的特征工程后,得到该硬盘最新的(预测变量X,目标变量Y)数据对。
步骤S5.将转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
以得到该硬盘最新的(预测变量X,目标变量Y)数据对作为所构建模型的输入,输出时间步内各时间点的剩余使用寿命预测值,取时间步内最近的时间点的预测值作为输出,作为对该磁盘剩余使用寿命的预测。
如图3所示,一种硬盘设备的剩余使用寿命预测系统,所述系统包括:
数据采集模块,用于定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
特征工程模块,用于通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集,以及,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
离线建模模块,用于将基于历史状态数据集转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
在线预测模块,用于将基于实时状态数据集转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
如图4所示,所述数据采集模块,用于通过硬盘运行信息采集脚本定期从数据中心中采集硬盘设备的运行状态信息,并通过日志收集进程导入分布式时序数据库中,数据库中的每条记录都对应着某块盘在某个时间点上的运行状态数据,时序数据库为硬盘状态的时序序列提供高效的存储以及强大的查询和统计功能。
基于时间序列的存储优化是指基于时间序列,对硬盘长期稳定、变动较少的状态信息进行列式存储和存储压缩,对不稳定、变动较多的状态信息只存储变动项,从而大大地减少存储所需要的空间;提供面向时间的索引,加快时间相关的存储操作速度;提供时间遗忘功能,对久远的数据进行缩减或删除,减少数据库的规模;基于时间序列的查询和统计功是指通过基于时间的索引和统计聚合缓存,加速时间相关的操作,使得时间查询,范围查询,区段统计等既直观,又快速,无需过多的操作,直接访问接口,便可以快速地获取到信息。同时,分布式时许数据库提供面向时间操作的强大功能:通过时间索引和统计聚合缓存,加速时间相关的操作,使得时间查询,范围查询,区段统计等,既直观,又快速,无需过多的操作,直接访问接口,便可以快速地获取到信息。
数据采集模块通过接口为离线建模和在线预测提供数据访问。离线建模需要大批量地访问硬盘的历史状态数据(CSV格式),而在线预测需要实时地访问硬盘当前的状态数据(JSON格式),所以批量导出接口为离线建模提供高带宽的数据访问,而实时导出接口为在线建模提供低延迟的数据访问。
在线预测方法能够在线实时接收离线建模模块所推送过来的预测模型更新,主要更新数据预处理相关的参数和预测模型内在的参数等,更新在线预测模块中处理数据的一小列流程,包括特征选取,归一化,预测模型等;在线预测模块通过实现REST API的访问接口,提供硬盘状态的实时评估和剩余使用寿命预测服务;面向数据中心中成千上万的硬盘,在线预测模块使用异步请求队列和多进程服务模型等技术,充分利用计算节点的性能,高效实时地响应预测请求。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种硬盘设备的剩余使用寿命在线预测方法,其特征在于,该方法包括以下步骤:
S1.定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
S2.通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S3.将转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
S4.通过特征工程,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S5.将转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
2.如权利要求1所述的方法,其特征在于,步骤S2包括以下步骤:
S201.对历史状态数据集进行数据清洗;
S202.基于清洗后的数据集,构建衍生变量,形成新的数据集;
S203.对新的数据集进行归一化;
S204.对归一化后数据集进行特征选择;
S205.对特征选择后的数据集进行分组标签赋值;
S206.对赋值后的数据集进行数据转换;
S207.对数据转换后的数据集进行样本分割。
3.如权利要求2所述的方法,其特征在于,所述衍生变量包括:吞吐率Th,表示硬盘设备每秒的传输数据量;Tps表示硬盘设备每秒的传输次数;表示每小时的平均I/O延迟。
4.如权利要求2所述的方法,其特征在于,步骤S205包括以下步骤:
(1)对每个时间点上采集的样本,根据硬盘的状态和通电时长,计算硬盘i在时刻ti的剩余使用寿命的临时变量RULi,t
其中,tfail是故障盘的故障时间,ti是该样本的采样时间,tmax是该硬盘的最长使用寿命年限,tpower是该硬盘的通电时长,在采集期间,如果发现硬盘i故障,那么该硬盘所有时刻的数据都认为是故障样本,否则,认为是正常样本;
(2)使用分段函数为样本计算标签值
其中,RULpw表示所有硬盘当中满足通电时长在[tm,tn]区间的RULi,t的平均值,k表示所有满足条件的样本的数量,[tm,tn]表示硬盘在tm~tn期间运行时长故障率曲线趋于稳定。
5.如权利要求2所述的方法,其特征在于,步骤S206包括以下步骤:
(1)将状态信息属性项{A1,A2,…,Am,}和标签值组成为硬盘设备在时刻t的时间序列数据;
(2)将硬盘的各时间序列数据转换为双向长短时记忆网络所接受的数据类型(预测变量X,目标变量Y);
以时间步T为时间窗口,取时间序列数据中A1,A2,…,Am,的所有属性值作为一个训练记录,多次移动时间窗口,得到多个训练记录,进而组成{训练记录个数,时间步,特征个数}大小的三维数组,该三维数组即为预测变量X;
以时间步T为时间窗口,取时间序列数据中的值作为一个训练记录对应的标签值向量,多次移动时间窗口,得到多个训练记录对应的标签值向量,进而组成{训练记录个数、时间步}大小的二维矩阵,该二维矩阵即为预测目标向量X对应的目标变量Y。
6.如权利要求2所述的方法,其特征在于,样本分割时,通过选择一个时间点,将该时间点前的样本归入训练集,将该时间点后的样本归入测试集,基于训练集采用滑动窗口随机分割一部分作为验证集。
7.如权利要求5所述的方法,其特征在于,以多个(预测变量X,目标变量Y)的数据对为输入,使用双向长短时记忆神经网络训练硬盘剩余使用寿命模型,以训练得到的模型作为输出,所述双向长短时记忆神经网络计算方法为:
其中,前向隐藏层向量用于从前向后迭代计算,后向隐藏层向量用于从后向前迭代计算,分别表示前向隐藏层、后向隐藏层和输出层的偏置向量,H表示输出层的激活函数,表示网络中各层的权值矩阵,xt表示输入值,是预测变量X中的训练记录在时刻t的各项特征值所组成的向量,yt是输出值,表示对预测变量Y中的训练记录在时刻t的标签值的预测值,亦表示为RUL′i,t
8.如权利要求7所述的方法,其特征在于,采用均方根误差RMSE和平均绝对误差MAE作为模型的损失函数,基于数据转换后的测试集进行模型评估,其计算方法为:
其中,n是样本集的总数,RUL′i,t是模型对时间步t上样本所预测的剩余使用寿命,是标签值,模型训练的目的是降低模型的RMSE、MAE,直到RMSE、MAE收敛时,模型的训练完成。
9.一种硬盘设备的剩余使用寿命预测系统,其特征在于,所述系统包括:
数据采集模块,用于定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
特征工程模块,用于通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集,以及,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
离线建模模块,用于将基于历史状态数据集转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
在线预测模块,用于将基于实时状态数据集转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的硬盘设备的剩余使用寿命在线预测方法。
CN201910583452.XA 2019-06-22 2019-06-22 一种硬盘设备的剩余使用寿命在线预测方法和系统 Active CN110413227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910583452.XA CN110413227B (zh) 2019-06-22 2019-06-22 一种硬盘设备的剩余使用寿命在线预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910583452.XA CN110413227B (zh) 2019-06-22 2019-06-22 一种硬盘设备的剩余使用寿命在线预测方法和系统

Publications (2)

Publication Number Publication Date
CN110413227A true CN110413227A (zh) 2019-11-05
CN110413227B CN110413227B (zh) 2021-06-11

Family

ID=68358701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910583452.XA Active CN110413227B (zh) 2019-06-22 2019-06-22 一种硬盘设备的剩余使用寿命在线预测方法和系统

Country Status (1)

Country Link
CN (1) CN110413227B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091863A (zh) * 2019-11-29 2020-05-01 浪潮(北京)电子信息产业有限公司 一种存储设备故障检测方法及相关装置
CN111736768A (zh) * 2020-05-29 2020-10-02 苏州浪潮智能科技有限公司 服务器硬盘剩余使用时间的预测方法、系统及存储介质
CN112905404A (zh) * 2019-11-19 2021-06-04 中国电信股份有限公司 固态硬盘的状态监控方法和装置
CN113496309A (zh) * 2021-06-15 2021-10-12 中国食品药品检定研究院 西洋参生长年限预测方法、模型的训练方法及装置
CN113553222A (zh) * 2021-06-21 2021-10-26 长沙证通云计算有限公司 一种存储硬盘检测预警方法及系统
CN114327241A (zh) * 2020-09-29 2022-04-12 伊姆西Ip控股有限责任公司 管理磁盘的方法、电子设备和计算机程序产品
CN114429249A (zh) * 2022-04-06 2022-05-03 杭州未名信科科技有限公司 钢管束生产设备的寿命预测方法、系统、设备及存储介质
CN115754866A (zh) * 2022-11-04 2023-03-07 国网山东省电力公司电力科学研究院 一种继电保护测试仪全寿命周期监测预警系统及方法
CN116502544A (zh) * 2023-06-26 2023-07-28 武汉新威奇科技有限公司 一种基于数据融合的电动螺旋压力机寿命预测方法及系统
CN116631487A (zh) * 2023-05-26 2023-08-22 北京市合芯数字科技有限公司 基于长短期记忆网络模型的固态硬盘寿命预测方法、装置、终端及介质
WO2024050782A1 (en) * 2022-09-08 2024-03-14 Siemens Aktiengesellschaft Method and apparatus for remaining useful life estimation and computer-readable storage medium

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744765A (zh) * 2013-10-25 2014-04-23 中国科学院计算技术研究所 一种虚拟化环境下的磁盘访问请求监控系统及其方法
CN104503909A (zh) * 2014-12-18 2015-04-08 浪潮(北京)电子信息产业有限公司 一种磁盘io性能的测试方法和装置
CN105468484A (zh) * 2014-09-30 2016-04-06 伊姆西公司 用于在存储系统中确定故障位置的方法和装置
US20170153845A1 (en) * 2015-11-27 2017-06-01 Fujitsu Limited Information processing apparatus and method executed by an information processing apparatus
US20180101313A1 (en) * 2016-10-07 2018-04-12 Prophetstor Data Services, Inc. Method for extending life expectancy of disks in cloud-based service system and system using the same
CN108304306A (zh) * 2018-01-17 2018-07-20 郑州云海信息技术有限公司 一种基于blktrace的磁盘I/O性能故障定位分析方法
CN108303253A (zh) * 2017-12-06 2018-07-20 华南理工大学 基于长短时记忆循环神经网络的轴承早期故障识别方法
CN109800134A (zh) * 2017-11-16 2019-05-24 先智云端数据股份有限公司 一种诊断数据中心储存设备的剩余寿命的方法和系统
CN109828869A (zh) * 2018-12-05 2019-05-31 中兴通讯股份有限公司 预测硬盘故障发生时间的方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744765A (zh) * 2013-10-25 2014-04-23 中国科学院计算技术研究所 一种虚拟化环境下的磁盘访问请求监控系统及其方法
CN105468484A (zh) * 2014-09-30 2016-04-06 伊姆西公司 用于在存储系统中确定故障位置的方法和装置
CN104503909A (zh) * 2014-12-18 2015-04-08 浪潮(北京)电子信息产业有限公司 一种磁盘io性能的测试方法和装置
US20170153845A1 (en) * 2015-11-27 2017-06-01 Fujitsu Limited Information processing apparatus and method executed by an information processing apparatus
US20180101313A1 (en) * 2016-10-07 2018-04-12 Prophetstor Data Services, Inc. Method for extending life expectancy of disks in cloud-based service system and system using the same
CN109800134A (zh) * 2017-11-16 2019-05-24 先智云端数据股份有限公司 一种诊断数据中心储存设备的剩余寿命的方法和系统
CN108303253A (zh) * 2017-12-06 2018-07-20 华南理工大学 基于长短时记忆循环神经网络的轴承早期故障识别方法
CN108304306A (zh) * 2018-01-17 2018-07-20 郑州云海信息技术有限公司 一种基于blktrace的磁盘I/O性能故障定位分析方法
CN109828869A (zh) * 2018-12-05 2019-05-31 中兴通讯股份有限公司 预测硬盘故障发生时间的方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIUJIAN WANG 等: "Remaining Useful Life Estimation in Prognostics Using Deep Bidirectional LSTM Neural Network", 《2018 PROGNOSTICS AND SYSTEM HEALTH MANAGEMENT CONFERENCE (PHM-CHONGQING)》 *
PREETHI ANANTHARAMAN 等: "Large Scale Predictive Analytics for Hard Disk Remaining Useful Life Estimation", 《2018 IEEE INTERNATIONAL CONGRESS ON BIG DATA (BIGDATA CONGRESS)》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905404A (zh) * 2019-11-19 2021-06-04 中国电信股份有限公司 固态硬盘的状态监控方法和装置
CN112905404B (zh) * 2019-11-19 2024-01-30 中国电信股份有限公司 固态硬盘的状态监控方法和装置
CN111091863A (zh) * 2019-11-29 2020-05-01 浪潮(北京)电子信息产业有限公司 一种存储设备故障检测方法及相关装置
CN111736768B (zh) * 2020-05-29 2022-07-08 苏州浪潮智能科技有限公司 服务器硬盘剩余使用时间的预测方法、系统及存储介质
CN111736768A (zh) * 2020-05-29 2020-10-02 苏州浪潮智能科技有限公司 服务器硬盘剩余使用时间的预测方法、系统及存储介质
CN114327241A (zh) * 2020-09-29 2022-04-12 伊姆西Ip控股有限责任公司 管理磁盘的方法、电子设备和计算机程序产品
CN113496309A (zh) * 2021-06-15 2021-10-12 中国食品药品检定研究院 西洋参生长年限预测方法、模型的训练方法及装置
CN113496309B (zh) * 2021-06-15 2024-04-19 中国食品药品检定研究院 西洋参生长年限预测方法、模型的训练方法及装置
CN113553222A (zh) * 2021-06-21 2021-10-26 长沙证通云计算有限公司 一种存储硬盘检测预警方法及系统
CN113553222B (zh) * 2021-06-21 2022-05-13 长沙证通云计算有限公司 一种存储硬盘检测预警方法及系统
CN114429249A (zh) * 2022-04-06 2022-05-03 杭州未名信科科技有限公司 钢管束生产设备的寿命预测方法、系统、设备及存储介质
WO2024050782A1 (en) * 2022-09-08 2024-03-14 Siemens Aktiengesellschaft Method and apparatus for remaining useful life estimation and computer-readable storage medium
CN115754866A (zh) * 2022-11-04 2023-03-07 国网山东省电力公司电力科学研究院 一种继电保护测试仪全寿命周期监测预警系统及方法
CN115754866B (zh) * 2022-11-04 2024-03-26 国网山东省电力公司电力科学研究院 一种继电保护测试仪全寿命周期监测预警系统及方法
CN116631487A (zh) * 2023-05-26 2023-08-22 北京市合芯数字科技有限公司 基于长短期记忆网络模型的固态硬盘寿命预测方法、装置、终端及介质
CN116502544A (zh) * 2023-06-26 2023-07-28 武汉新威奇科技有限公司 一种基于数据融合的电动螺旋压力机寿命预测方法及系统
CN116502544B (zh) * 2023-06-26 2023-09-12 武汉新威奇科技有限公司 一种基于数据融合的电动螺旋压力机寿命预测方法及系统

Also Published As

Publication number Publication date
CN110413227B (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN110413227A (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
Lai et al. Oort: Efficient federated learning via guided participant selection
Ma et al. Query-based workload forecasting for self-driving database management systems
CN108052528B (zh) 一种存储设备时序分类预警方法
US9104971B1 (en) Automated end-to-end sales process of storage appliances of storage systems using predictive modeling
CN103354924B (zh) 用于监视性能指标的方法和系统
JP5214656B2 (ja) 評価装置および評価プログラム
US5325505A (en) Intelligent storage manager for data storage apparatus having simulation capability
Amer et al. File access prediction with adjustable accuracy
US20070156479A1 (en) Multivariate statistical forecasting system, method and software
US11256595B2 (en) Predictive storage management system
US20190079965A1 (en) Apparatus and method for real time analysis, predicting and reporting of anomalous database transaction log activity
CN109558287A (zh) 一种固态硬盘寿命预测方法、装置和系统
EP3654186A1 (en) Automated identification of device status and resulting dynamic modification of device operations
CN107851106A (zh) 用于关系数据库即服务的自动需求驱动的资源缩放
US11307916B2 (en) Method and device for determining an estimated time before a technical incident in a computing infrastructure from values of performance indicators
CN111459761B (zh) 一种Redis配置的方法、装置、存储介质及设备
CN104471573A (zh) 更新高速缓存的数据库查询结果
CN106776288B (zh) 一种基于Hadoop的分布式系统的健康度量方法
CN103106152A (zh) 基于层次存储介质的数据调度方法
US9535779B1 (en) Method and system for predicting redundant array of independent disks (RAID) vulnerability
US20210026719A1 (en) Method and device for determining a technical incident risk value in a computing infrastructure from performance indicator values
CN111367747B (zh) 基于时间标注的指标异动检测预警的装置
US20220245010A1 (en) Time-series anomaly detection using an inverted index
WO2012030333A1 (en) Performing what-if analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant