CN111414289A - 一种基于迁移学习的磁盘故障预测方法及装置 - Google Patents

一种基于迁移学习的磁盘故障预测方法及装置 Download PDF

Info

Publication number
CN111414289A
CN111414289A CN202010180436.9A CN202010180436A CN111414289A CN 111414289 A CN111414289 A CN 111414289A CN 202010180436 A CN202010180436 A CN 202010180436A CN 111414289 A CN111414289 A CN 111414289A
Authority
CN
China
Prior art keywords
data
disk
module
transfer learning
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010180436.9A
Other languages
English (en)
Inventor
吴佳
李礼
陈佳
苗诗君
杨冀
季峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai V&g Information Technology Co ltd
Original Assignee
Shanghai V&g Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai V&g Information Technology Co ltd filed Critical Shanghai V&g Information Technology Co ltd
Priority to CN202010180436.9A priority Critical patent/CN111414289A/zh
Publication of CN111414289A publication Critical patent/CN111414289A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/10Test algorithms, e.g. memory scan [MScan] algorithms; Test patterns, e.g. checkerboard patterns 

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于迁移学习的磁盘故障预测方法及装置,包括数据采集模块,预处理模块,基于迁移学习的数据重标注模块,样本平衡性处理模块,在线预测模块。通过收集磁盘数据作为训练数据,对历史数据进行预处理,利用历史数据,基于迁移学习算法对数据缺失标签进行标注,磁盘样本集经过数据平衡性模块,使正负样本达到平衡,利用机器学习算法,训练磁盘故障预测模型,实时收集磁盘数据,以不同频次加入正负样本集,保证样本的平衡性;利用新样本评估磁盘故障预测模型。本发明通过迁移学习已有历史数据的分布特征,对磁盘新数据进行标注,解决了目前故障磁盘预测方案只能依赖历史数据建立离线的故障预测模型,而造成预测效率低的问题。

Description

一种基于迁移学习的磁盘故障预测方法及装置
技术领域
本发明属于计算机数据存储领域,具体涉及一种基于迁移学习的磁盘故障预测方法及装置。
背景技术
数据中心中数据存储的高可靠性主要依赖于数据的冗余存储,最常用的一种就是RAID(Redundant Arrays of Independent Drives)技术。RAID技术是一类用于保障数据可靠性存储技术的统称。该技术的核心思想是将每一块磁盘中存储的数据及其备份视为一个整体,当某一数据或它的备份没有失效时,整个系统可以正常运行,但是如果出现了原始数据和备份数据均损坏的情况,整个系统的可靠性将无法保证,因此,该技术会在原始数据或备份数据发生损坏时对其进行重新备份。冗余存储的数据能够保证在磁盘发生意外故障时能够对丢失的数据进行恢复,但是由于磁盘阵列在进行数据恢复时无法进行任何读写操作,也就意味着在数据恢复期间数据中心的部分功能将处于宕机状态,这将带来巨大的时间成本,所以随着数据总量的不断增大,数据中心中故障磁盘的数据恢复成本越来越高。此外,考虑到只有有效数据的存储才能为数据中心带来经济效益,伴随着大数据时代到来的海量数据也将给数据的冗余存储带来巨大的经济压力。所以为了减少磁盘故障带来的损失,降低维护成本,通常采用故障预测的方式对磁盘的运行状况进行评估,以保证能够在磁盘发生故障之前及时地对其中的重要数据进行备份,减少数据丢失造成的损失,同时可以减少冗余存储,提高存储系统的整体利用率。
目前,在线磁盘故障预测领域主要存在样本标签不准确问题。按照S.M.A.R.T.(Self Monitoring Analysis and Reporting Technology)标准,我们使用的最近采集到的样本可以被分为“当前运行状态良好”和“当前磁盘发生故障”两种状态,所以最终的模型预测结果只能被解释为预测当前磁盘是否会发生故障,和原始的预测目的不一致。为了解决这一问题,首先需要设定一个“预警时间”,并假设在磁盘实际发生故障之前的这段时间之内磁盘已经预警,这样就得到了新的样本分类标准:“预测磁盘将会发生故障”和“预测磁盘将不会发生故障”。但是,在在线收集数据的过程中我们无法获知磁盘发生故障的具体时间,那么就无法对实时获取的标签信息进行修改,这就为磁盘的在线预测带来了挑战。另一方面,样本标签缺失也是实际应用中的常见问题。因此直接修改实时获取的数据标签的做法并不可行。
发明内容
针对现有技术的不足,本发明提供了一种基于迁移学习的磁盘故障预测方法及装置,目的在于能够利用已有的历史信息,通过迁移学习算法弥补缺失样本,从而可以利用少量历史数据建立磁盘故障模型。具体采用的技术方案如下:
一种基于迁移学习的磁盘故障预测方法,包括如下步骤:
(1)在磁盘存储系统中,调用数据接口,收集一定阶段的磁盘数据(S.M.A.R.T.状态),作为训练数据;
(2)对磁盘历史数据进行预处理;
(3)利用历史数据,基于迁移学习算法对数据缺失标签进行标注,得到磁盘样本集;
(4)磁盘样本集经过数据平衡性模块,使正负样本达到平衡;
(5)基于采样处理后的数据集,利用机器学习算法,训练磁盘故障预测模型;
(6)实时收集磁盘数据,并以不同的频次加入正负样本集,保证样本的平衡性;
(7)利用新样本评估磁盘故障预测模型,如果达到给定阈值,则输出磁盘故障预测模型,否则,利用新加入的样本集优化磁盘故障预测模型。
进一步,上述的第二步骤对磁盘历史数据进行预处理,包括归一化,数据补全。
一种基于迁移学习的磁盘故障预测装置,包括:数据采集模块,数据预处理模块,基于迁移学习的数据重标注模块,样本平衡性处理模块,在线预测模块。
数据采集模块,从磁盘存储系统中实时地收集数据,为故障预测模型提供数据样本;
数据预处理模块,使处理后的数据能够满足预测模型的需要;
基于迁移学习的数据重标注模块,进行原始数据的重标注操作,根据收集到的历史数据使用不同的迁移学习算法对新到达的数据进行重标注,使之符合模型的需要;
样本平衡性处理模块,使用随机数算法对正常磁盘和故障盘进行平衡性处理操作,使两者保持在接近1:1的比例;
所述的在线预测模块,进行模型的训练和测试,并输出最终的预测结果。
进一步,上述的数据预处理模块,包括数据格式的转换,有效数据的筛选,数据单位统一的操作。
本发明的原理及技术方案进一步阐述如下:
1.数据采集模块。在运行时,从磁盘存储系统中实时收集数据,为故障预测模型提供数据样本。
2.数据预处理模块。主要包括数据格式的转换,有效数据的筛选,缺失数据的处理,数据归一化等一系列操作,使处理后的数据能够满足预测模型的需要。
3.基于迁移学习的数据重标注模块。主要进行原始数据的重标注操作。这一部分会根据收集到的历史数据使用不同的迁移学习算法对新到达的数据进行重标注,使之符合模型的需要。
考虑到磁盘样本的原始标签表示的是磁盘当前的运行状态,而不是未来一段时间内该磁盘可能存在的运行状态,并不能满足预测模型的需要。在进行磁盘故障预测时,我们总是希望能够预知在未来的某一段时间内磁盘是否会发生故障,而不是对当前磁盘的运行状态进行预测,方便提前对其中的数据进行备份减少乃至避免损失。也就是说,在使用预测模型的过程中,期望通过预测模型得到的结果是“磁盘在未来的一段时间内是否将会发生故障”,而不是“磁盘当前是否会发生故障”。从数据标签的角度来看,原始数据被划分为实际故障盘和当前正常工作磁盘两类并不能满足上述预测的需要。所以为了实现预测的目的,就不得不将处于实际故障发生前的“预警时间”之内的磁盘也纳入到故障盘的范畴之内,即将“预警时间”范围内的磁盘样本标签也修改为故障盘标签。
利用迁移学习算法,使用历史数据以及已经标注的历史数据标签对新收集到的数据进行标注,并将新收集到的数据标签作为历史数据备用。因此通过数据重标注模块运算得到的新的标签将作为最终的数据标签用于磁盘的故障预测。其中,历史数据是指某些已经收集到全部运行数据的故障盘信息,这些磁盘的型号不必与当前正在进行预测的磁盘的型号保持一致。此外,因为已经获取到了全部的运行数据,所以可以非常轻松地确定这些故障磁盘的“预警时间”,并将该范围内的标签修改为需要的形式。最后,使用基于迁移学习的数据重标注模块就可以为新收集到的数据赋予符合预测模型需要的新标签。值得注意的是,在此过程中新收集到的数据的标签并没有被使用,所以该模型在处理存在大量标签缺失的数据集时并不会受到影响。
4.样本平衡性处理模块。主要使用随机数算法对正常磁盘和故障盘进行平衡性处理操作,使两者大致保持在1:1的比例。
由于磁盘发生故障的概率极低,所以故障盘样本在总样本中仅占据极小的比例,即原始样本中正负类样本分布极度不均衡。如果不解决这一问题,最终将会导致预测模型极度偏向负类样本,使得错误预测主要集中在正类样本上。这一现象常被解释为未能及时地对即将发生的磁盘故障问题进行准确的预警。所以,尽管不处理样本不平衡的问题可以获得较高的准确度,但是在实际应用中的结果并不能满足高精度高可靠预测的需要。参阅附图2随机数筛选算法流程图。
考虑到正类样本量极少,再次筛选可能无法满足训练的需要,为了保证不影响正类样本总量,本文选择对负类样本进行下采样处理。下采样是指通过采样处理减少某一类样本总量,使之达到预设的范围之内。与之相对的是上采样,该方法是指通过数据模拟的方式对某一类样本的数据进行扩充,新添加的数据将保持和原有数据相同的数据分布特点,但不会或极少出现和原始数据完全相同的数据点。考虑到磁盘特征数据的数据分布特点不明显,难以添加合适的同分布数据,所以该算法采用的是下采样的方式对原始数据进行处理。
5.在线预测模块。这一部分主要进行的是模型的训练和测试,并输出最终的预测结果。数据标注模块,可以基于迁移学习通过磁盘历史数据对新到达数据进行重标注。因此可以基于此建立在线学习机制。
附图说明
图1为为本发明的数据重标注模块原理示意图;
图2为本发明的随机数筛选算法流程图;
图3为本发明一种基于迁移学习的磁盘故障预测装置示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的整体思路在于,对新盘来说,由于使用时间较短,缺乏大量的数据集,只能依赖历史数据建立模型。然而最主要的问题是,传统的预测磁盘是否故障方案,包含了从磁盘部署在存储系统直到磁盘发生故障的数据集,这在实际的问题中是无意义的。并且如果只利用历史数据进行训练,历史数据中是没有包含故障数据样本的。因为盘之间存在差异性,简单的利用其它盘训练得到的模型来预测另一个盘,在实际上也是不可信的。因此本文考虑采用迁移学习方案,基于迁移学习算法,将已经标注的盘(源域)的信息迁移到新盘(目标域)中,这样可以解决标注数据稀疏或者缺失的问题。
本发明的具体实施步骤如下:
(1)在磁盘存储系统中,调用数据接口,首先收集一定阶段的磁盘数据(S.M.A.R.T.状态),作为训练数据。
(2)对磁盘历史数据进行预处理,包括归一化,数据补全等。
(3)利用历史数据,基于迁移学习算法对数据缺失标签进行标注,得到磁盘样本集。
(4)磁盘样本集经过数据平衡性模块,使正负样本达到平衡。
(5)基于采样处理后的数据集,利用机器学习算法,训练磁盘故障预测模型。
(6)实时收集磁盘数据,并以不同的频次加入正负样本集,保证样本的平衡性。
(7)利用新样本评估磁盘故障预测模型,如果达到给定阈值,则输出磁盘故障预测模型,否则,利用新加入的样本集优化磁盘故障预测模型。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于迁移学习的磁盘故障预测方法,其特征在于,包括如下步骤:
(1)在磁盘存储系统中,调用数据接口,收集一定阶段的磁盘数据(S.M.A.R.T.状态),作为训练数据;
(2)对磁盘历史数据进行预处理;
(3)利用历史数据,基于迁移学习算法对数据缺失标签进行标注,得到磁盘样本集;
(4)磁盘样本集经过数据平衡性模块,使正负样本达到平衡;
(5)基于采样处理后的数据集,利用机器学习算法,训练磁盘故障预测模型;
(6)实时收集磁盘数据,并以不同的频次加入正负样本集,保证样本的平衡性;
(7)利用新样本评估磁盘故障预测模型,如果达到给定阈值,则输出磁盘故障预测模型,否则,利用新加入的样本集优化磁盘故障预测模型。
2.根据权利要求1所述的一种基于迁移学习的磁盘故障预测方法,其特征在于,包括:所述的(2)对磁盘历史数据进行预处理,包括归一化,数据补全。
3.一种基于迁移学习的磁盘故障预测装置,其特征在于,包括:数据采集模块,数据预处理模块,基于迁移学习的数据重标注模块,样本平衡性处理模块,在线预测模块;
所述的数据采集模块,从磁盘存储系统中实时地收集数据,为故障预测模型提供数据样本;
所述的数据预处理模块,使处理后的数据能够满足预测模型的需要;
所述的基于迁移学习的数据重标注模块,进行原始数据的重标注操作,根据收集到的历史数据使用不同的迁移学习算法对新到达的数据进行重标注,使之符合模型的需要;
所述的样本平衡性处理模块,使用随机数算法对正常磁盘和故障盘进行平衡性处理操作,使两者保持在接近1:1的比例;
所述的在线预测模块,进行模型的训练和测试,并输出最终的预测结果。
4.根据权利要求3所述的一种基于迁移学习的磁盘故障预测装置,其特征在于,包括:所述的数据预处理模块,包括数据格式的转换,有效数据的筛选,数据单位统一的操作。
CN202010180436.9A 2020-03-16 2020-03-16 一种基于迁移学习的磁盘故障预测方法及装置 Pending CN111414289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010180436.9A CN111414289A (zh) 2020-03-16 2020-03-16 一种基于迁移学习的磁盘故障预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010180436.9A CN111414289A (zh) 2020-03-16 2020-03-16 一种基于迁移学习的磁盘故障预测方法及装置

Publications (1)

Publication Number Publication Date
CN111414289A true CN111414289A (zh) 2020-07-14

Family

ID=71491210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010180436.9A Pending CN111414289A (zh) 2020-03-16 2020-03-16 一种基于迁移学习的磁盘故障预测方法及装置

Country Status (1)

Country Link
CN (1) CN111414289A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949459A (zh) * 2020-08-10 2020-11-17 南京航空航天大学 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN112379659A (zh) * 2020-11-12 2021-02-19 西安石油大学 一种石油钻机故障预测系统
CN116701150A (zh) * 2023-06-19 2023-09-05 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616031A (zh) * 2015-01-22 2015-05-13 哈尔滨工业大学深圳研究生院 迁移学习方法及装置
CN108986869A (zh) * 2018-07-26 2018-12-11 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法
CN109491850A (zh) * 2018-11-21 2019-03-19 北京北信源软件股份有限公司 一种磁盘故障预测方法及装置
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN110210320A (zh) * 2019-05-07 2019-09-06 南京理工大学 基于深度卷积神经网络的多目标无标记姿态估计方法
US20200019935A1 (en) * 2018-07-10 2020-01-16 International Business Machines Corporation Cognitive prioritization model for hardware device prediction maintenance delivery

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616031A (zh) * 2015-01-22 2015-05-13 哈尔滨工业大学深圳研究生院 迁移学习方法及装置
US20200019935A1 (en) * 2018-07-10 2020-01-16 International Business Machines Corporation Cognitive prioritization model for hardware device prediction maintenance delivery
CN108986869A (zh) * 2018-07-26 2018-12-11 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法
CN109491850A (zh) * 2018-11-21 2019-03-19 北京北信源软件股份有限公司 一种磁盘故障预测方法及装置
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN110210320A (zh) * 2019-05-07 2019-09-06 南京理工大学 基于深度卷积神经网络的多目标无标记姿态估计方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949459A (zh) * 2020-08-10 2020-11-17 南京航空航天大学 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN111949459B (zh) * 2020-08-10 2022-02-01 南京航空航天大学 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN112379659A (zh) * 2020-11-12 2021-02-19 西安石油大学 一种石油钻机故障预测系统
CN116701150A (zh) * 2023-06-19 2023-09-05 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法
CN116701150B (zh) * 2023-06-19 2024-01-16 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法

Similar Documents

Publication Publication Date Title
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN111414289A (zh) 一种基于迁移学习的磁盘故障预测方法及装置
CN109828869B (zh) 预测硬盘故障发生时间的方法、装置及存储介质
CN111209131A (zh) 一种基于机器学习确定异构系统的故障的方法和系统
WO2021238258A1 (zh) 一种磁盘故障预测方法和系统
Yang et al. Hard drive failure prediction using big data
CN102498445A (zh) 用于机器状态监测的、使用规则生成的样本的监督故障学习
KR20180054992A (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
CN111949459B (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
WO2021052168A1 (zh) 磁盘故障预测方法、装置、计算机可读存储介质及服务器
Wang et al. AIOPS prediction for hard drive failures based on stacking ensemble model
Su et al. Recurrent neural network based real-time failure detection of storage devices
CN111930597A (zh) 基于迁移学习的日志异常检测方法
Tomer et al. Hard disk drive failure prediction using SMART attribute
Alharthi et al. Sentiment analysis based error detection for large-scale systems
CN108415819A (zh) 一种硬盘故障追踪方法和装置
Lin et al. Edits: An easy-to-difficult training strategy for cloud failure prediction
CN113093695A (zh) 一种数据驱动的sdn控制器故障诊断系统
CN117194163A (zh) 一种计算机设备、故障检测系统、方法及可读存储介质
CN115410638B (zh) 一种基于对比聚类的磁盘故障检测系统
Gao et al. Disk Failure Prediction Based on Transfer Learning
CN115543702A (zh) 一种多源固态硬盘协同故障诊断方法、系统、设备及介质
Wang et al. Hard disk drives failure detection using a dynamic tracking method
Li et al. New metrics for disk failure prediction that go beyond prediction accuracy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200714

RJ01 Rejection of invention patent application after publication