CN111949459B - 一种基于迁移学习和主动学习的硬盘故障预测方法及系统 - Google Patents

一种基于迁移学习和主动学习的硬盘故障预测方法及系统 Download PDF

Info

Publication number
CN111949459B
CN111949459B CN202010794576.5A CN202010794576A CN111949459B CN 111949459 B CN111949459 B CN 111949459B CN 202010794576 A CN202010794576 A CN 202010794576A CN 111949459 B CN111949459 B CN 111949459B
Authority
CN
China
Prior art keywords
hard disk
attribute
data set
smart
smart attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010794576.5A
Other languages
English (en)
Other versions
CN111949459A (zh
Inventor
关东海
赵瑞
袁伟伟
陈兵
屠要峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010794576.5A priority Critical patent/CN111949459B/zh
Publication of CN111949459A publication Critical patent/CN111949459A/zh
Application granted granted Critical
Publication of CN111949459B publication Critical patent/CN111949459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于迁移学习和主动学习的硬盘故障预测方法及系统。所述方法包括获取待训练的源域硬盘的SMART属性的数据集和目标域硬盘的SMART属性的数据集;根据所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集,采用主成分分析法,确定硬盘健康属性;对所述硬盘健康属性的取值范围进行归一化处理;将归一化后的硬盘健康属性在固定长度的时间段内进行堆叠转换;根据堆叠转换后的硬盘健康属性,采用迁移算法,得到迁移模型;根据训练后的迁移模型进行目标域硬盘的故障的预测。本发明提高了硬盘故障预测的准确性。

Description

一种基于迁移学习和主动学习的硬盘故障预测方法及系统
技术领域
本发明涉及硬盘故障预测领域,特别是涉及一种基于迁移学习和主动学习的硬盘故障预测方法及系统。
背景技术
大规模数据中心的存储系统通常建立在数千甚至数百万个硬盘上,硬盘故障经常发生。硬盘故障可能会导致严重的数据丢失,从而导致系统不可用,如果丢失的数据无法恢复,甚至会导致灾难性的后果。因此,对硬盘故障进行预测是十分必要的。
目前,硬盘厂商基本都采用自我监测分析报告技术(Self-Monitoring Analysisand Reporting Technology,SMART)对硬盘状态进行监测和分析,大多数SMART属性包含关于硬盘逐渐退化和可能的缺陷的信息。在内部,硬盘使用所谓的“阈值方法”基于SMART值来表示其故障状态,这意味着如果SMART属性的值超过了相应的预定义阈值,硬盘将发出警报,但这种方法对故障的检测率只有3%~10%。随着机器学习和数据挖掘等代表性的人工智能技术的发展,给硬盘故障预测带来了新的工具,最近的趋势是将基于硬盘SMART属性的机器学习方法应用于硬盘故障预测,主要分为无监督和有监督两类。基于有监督的检测方法需要大量带标记的训练数据,在缺少标记的情况下,可以训练基于无监督的故障预测模型。但是无监督算法的有效性通常不令人满意。并且传统的机器学习方法通常使用来自一个硬盘型号的数据来训练预测模型,也不适用于其他不同的型号。基于以上问题,大多研究对此提供的解决方案是迁移学习。
迁移学习技术用于将知识从源数据集迁移到目标数据集。对于来自同一个制造商的不同型号的源域硬盘和目标域硬盘,它们具有不同的SMART值分布,利用同一故障预测模型进行预测会导致预测结果不准确。
发明内容
本发明的目的是提供一种基于迁移学习和主动学习的硬盘故障预测方法及系统,提高硬盘故障预测的准确性。
为实现上述目的,本发明提供了如下方案:
一种基于迁移学习和主动学习的硬盘故障预测方法,包括:
获取待训练的源域硬盘的SMART属性的数据集和目标域硬盘的SMART属性的数据集;所述源域硬盘为来自同一制造商的不同型号的带标记SMART属性的数据集的硬盘;所述目标域硬盘为待预测的无标记SMART属性的数据集的硬盘;
根据所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集,采用主成分分析法,确定硬盘健康属性;所述硬盘健康属性为与所述硬盘健康状态相关的SMART属性;
对所述硬盘健康属性的取值范围进行归一化处理;
将归一化后的硬盘健康属性在固定长度的时间段内进行堆叠转换;
根据堆叠转换后的硬盘健康属性,采用迁移算法,得到迁移模型;所述迁移模型以堆叠转换后的硬盘健康属性为输入,以硬盘的预测结果为输出;所述预测结果为硬盘正常或硬盘故障;
根据训练后的迁移模型进行目标域硬盘的故障的预测。
可选的,所述对所述硬盘健康属性的取值范围进行归一化处理,具体包括:
利用公式
Figure GDA0003293443510000021
进行归一化处理;其中,xnorm为归一化处理后的第i个SMART属性的取值,xi是第i个SMART属性的原始的取值,xmax为第i个SMART属性的最大值,xmin为第i个SMART属性最小值。
可选的,所述根据训练后的迁移模型进行目标域硬盘的故障的预测,之前还包括:
对所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集进行设定轮数的主动采集,确定含有标记SMART属性的数据集;
根据所述迁移模型预测结果确定硬盘不确定性的值;
根据硬盘不确定性的值大于设定阈值,从所述目标域硬盘的SMART属性的数据集中确定待标记的SMART属性,并将所述待标记的SMART属性从所述目标域硬盘的SMART属性的数据集中删除,得到更新后的目标域硬盘的SMART属性的数据集;
对所述待标记的SMART属性进行标记;
根据标记后的待标记的SMART属性、更新后的目标域硬盘的SMART属性的数据集以及含有标记SMART属性的数据集训练所述迁移模型,确定训练后的迁移模型。
可选的,所述根据所述迁移模型预测结果确定硬盘不确定性的值,具体包括:
利用公式Uncertainy(x)=-|prob(Health)-prob(Failure)|确定硬盘不确定性的值;其中,prob(Health)为所述迁移模型的预测结果为硬盘正常的概率,prob(Failure)为所述迁移模型的预测结果为硬盘故障的概率。
一种基于迁移学习和主动学习的硬盘故障预测系统,包括:
数据集获取模块,用于获取待训练的源域硬盘的SMART属性的数据集和目标域硬盘的SMART属性的数据集;所述源域硬盘为来自同一制造商的不同型号的带标记SMART属性的数据集的硬盘;所述目标域硬盘为待预测的无标记SMART属性的数据集的硬盘;
硬盘健康属性确定模块,用于根据所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集,采用主成分分析法,确定硬盘健康属性;所述硬盘健康属性为与所述硬盘健康状态相关的SMART属性;
归一化处理模块,用于对所述硬盘健康属性的取值范围进行归一化处理;
堆叠转换模块,用于将归一化后的硬盘健康属性在固定长度的时间段内进行堆叠转换;
迁移模型确定模块,用于根据堆叠转换后的硬盘健康属性,采用迁移算法,得到迁移模型;所述迁移模型以堆叠转换后的硬盘健康属性为输入,以硬盘的预测结果为输出;所述预测结果为硬盘正常或硬盘故障;
故障预测模块,用于根据训练后的迁移模型进行目标域硬盘的故障的预测。
可选的,所述归一化处理模块具体包括:
归一化处理单元,用于利用公式
Figure GDA0003293443510000041
进行归一化处理;其中,xnorm为归一化处理后的第i个SMART属性的取值,xi是第i个SMART属性的原始的取值,xmax为第i个SMART属性的最大值,xmin为第i个SMART属性最小值。
可选的,还包括:
含有标记SMART属性的数据集确定模块,用于对所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集进行设定轮数的主动采集,确定含有标记SMART属性的数据集;
硬盘不确定性的值确定模块,用于根据所述迁移模型预测结果确定硬盘不确定性的值;
更新后的目标域硬盘的SMART属性的数据集确定模块,用于根据硬盘不确定性的值大于设定阈值,从所述目标域硬盘的SMART属性的数据集中确定待标记的SMART属性,并将所述待标记的SMART属性从所述目标域硬盘的SMART属性的数据集中删除,得到更新后的目标域硬盘的SMART属性的数据集;
待标记的SMART属性标记模块,用于对所述待标记的SMART属性进行标记;
训练后的迁移模型确定模块,用于根据标记后的待标记的SMART属性、更新后的目标域硬盘的SMART属性的数据集以及含有标记SMART属性的数据集训练所述迁移模型,确定训练后的迁移模型。
可选的,所述根据所述迁移模型预测结果确定硬盘不确定性的值,具体包括:
硬盘不确定性的值确定单元,用于利用公式Uncertainy(x)=-|prob(Health)-prob(Failure)|确定硬盘不确定性的值;其中,prob(Health)为所述迁移模型的预测结果为硬盘正常的概率,prob(Failure)为所述迁移模型的预测结果为硬盘故障的概率。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种基于迁移学习和主动学习的硬盘故障预测方法及系统,筛选出与硬盘健康状态相关的SMART属性,再利用迁移算法,得到迁移模型,即利用迁移学习算法用来自源域硬盘的大量标记SMART数据和来自目标域硬盘的大量无标记SMART数据训练模型,通过迁移模型提取的特征具有很好的迁移能力和判别能力,进而提高硬盘故障预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种基于迁移学习和主动学习的硬盘故障预测方法流程示意图;
图2为迁移模型训练流程示意图;
图3为本发明所提供的一种基于迁移学习和主动学习的硬盘故障预测系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于迁移学习和主动学习的硬盘故障预测方法及系统,提高硬盘故障预测的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种基于迁移学习和主动学习的硬盘故障预测方法流程示意图,如图1所示,本发明所提供的一种基于迁移学习和主动学习的硬盘故障预测方法,包括:
S101,获取待训练的源域硬盘的SMART属性的数据集和目标域硬盘的SMART属性的数据集;所述源域硬盘为来自同一制造商的不同型号的带标记SMART属性的数据集的硬盘;所述目标域硬盘为待预测的无标记SMART属性的数据集的硬盘;SMART属性包括Raw ReadError Rate、Spin-Up Time、Seek Error Rate、Temperature等20多个属性。
S102,根据所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集,采用主成分分析法,确定硬盘健康属性;所述硬盘健康属性为与所述硬盘健康状态相关的SMART属性。
S103,对所述硬盘健康属性的取值范围进行归一化处理;利用公式
Figure GDA0003293443510000061
进行归一化处理;其中,xnorm为归一化处理后的第i个SMART属性的取值,xi是第i个SMART属性的原始的取值,xmax为第i个SMART属性的最大值,xmin为第i个SMART属性最小值。归一化处理后的硬盘健康属性的取值范围为[0,1],使得不同的SMART属性具有相同的取值范围。
每块硬盘中最多有30个有意义的SMART属性值,但有些属性对于故障预测是无用的,因为它们在操作过程中几乎不变,需要剔除;而有些属性随着时间的推移变化显著,并且在健康和故障硬盘上的值差异明显,所以保留这些与硬盘健康状态相关的SMART属性。
S104,将归一化后的硬盘健康属性在固定长度的时间段内进行堆叠转换。归一化后的硬盘健康属性为1D-SMART属性,堆叠转换之后为2D-SMART。这种1Dto2D的技术有利于部署该深度迁移学习算法,并能利用CNN的自动特征提取的优势。
S105,根据堆叠转换后的硬盘健康属性,采用迁移算法,得到迁移模型;所述迁移模型以堆叠转换后的硬盘健康属性为输入,以硬盘的预测结果为输出;所述预测结果为硬盘正常或硬盘故障。
具体地,通过在源域和目标域上学习到一个公共的特征表示空间,那么在这个特征空间上,源域特征上学到的判别模型也可以用到目标域的特征上。为了使用该算法进行迁移学习,首先需要将特定时间点的硬盘1D-SMART属性在一段固定长度的时间内堆叠转化为2D-SMART属性,作为模型的输入。如果该2D-SMART属性中有一条故障SMART样本,则该2D-SMART样本为故障,否则为正常。
S106,根据训练后的迁移模型进行目标域硬盘的故障的预测。
S106之前还包括:
对所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集进行设定轮数的主动采集,确定含有标记SMART属性的数据集。
根据所述迁移模型预测结果确定硬盘不确定性的值;利用公式Uncertainy(x)=-|prob(Health)-prob(Failure)|确定硬盘不确定性的值;其中,prob(Health)为所述迁移模型的预测结果为硬盘正常的概率,prob(Failure)为所述迁移模型的预测结果为硬盘故障的概率。
主动学习即主动选择所需要的样例,从大量无标记样例中挑选认为最有价值的样例进行标记。这里使用不确定性作为主动学习的采样策略,样本的不确定性越大,说明当前的分类器最无法确定其类别,那么这样的样本的价值越大。为考察样本的不确定情况,这里用迁移学习模型估计目标域硬盘中未标记样本健康或故障的概率。
根据硬盘不确定性的值大于设定阈值,从所述目标域硬盘的SMART属性的数据集中确定待标记的SMART属性,并将所述待标记的SMART属性从所述目标域硬盘的SMART属性的数据集中删除,得到更新后的目标域硬盘的SMART属性的数据集。
对所述待标记的SMART属性进行标记。
根据标记后的待标记的SMART属性、更新后的目标域硬盘的SMART属性的数据集以及含有标记SMART属性的数据集训练所述迁移模型,确定训练后的迁移模型。迁移模型的训练过程如图2所示。
将目标域硬盘的无标记SMART测试数据输入训练好的模型,统计精确率(Precision)、召回率(Recall)、F1_Score和AUC等指标。
精确率、召回率、F1_Score和AUC指标分别表示:
精确率(Precision):成功预测出的故障磁盘占预测为故障磁盘的比例。
召回率(Recall):成功预测出的故障磁盘占实际故障磁盘总数的比例。
F1_Score:精确率和召回率两个指标之间的平衡。F1_Score越高,模型就越好。
AUC:分类问题中的性能度量。在故障故障预测中,AUC值越高,说明该模型能更好地区分故障硬盘和健康硬盘。
在本发明中,我们结合迁移学习和主动学习获得了硬盘故障预测效果的提升,我们在发明中称该方法为ATDFP。首先使用来自源域硬盘的有标记SMART数据和来自目标域硬盘的无标记SMART数据训练迁移模型实现域适应,为了部署该深度迁移算法,要对数据进行重新构造。具体地,通过将1D-SMART数据转化为2D类似图像表示的数据,即在指定的时间段内叠加多个1D-SMART属性数据得到。这样有利于利用CNN的自动特征提取的优势,进而利于使用迁移模型提取域不变特征。通过迁移模型提取的特征具有很好的迁移能力和判别能力,然后结合主动学习选择少量高质量的样本进行标记来重新训练模型。同传统的故障检测方法相比,本发明中的方法在精确率、召回率、F1_Score和AUC等评价指标上有一定的性能提升。
以下详细地描述本发明在来自Backblaze的公开的真实数据集上的测试效果,并与其他的故障检测方法进行比较。
实验中,我们分别使用两个制造商的不同型号的硬盘数据。来自Seagate制造商的两个型号的硬盘数据,ST4000DM000作为源域硬盘数据,ST12000NM0007作为目标域硬盘数据;以及来自HGST制造商的两个型号的硬盘数据,HDS722020ALA330作为源域硬盘数据,HDS5C3030ALA630作为目标域硬盘数据。每块硬盘都被分类为“health”或“failure”,每块硬盘都有许多SMART记录。表1列出选择的数据集。由于原始数据集中健康硬盘的样本比故障硬盘的样本多,因此我们采用多数类欠采样的方法来改进类不平衡情况下的训练,以创建训练数据集。每个SMART记录最多可以包含30个有意义的SMART属性,有些属性与我们的硬盘故障预测模型无关,需要选择表征硬盘健康状态的属性。表2为选择的SMART属性。
表1选择的硬盘数据集
Figure GDA0003293443510000091
表2选择的SMART属性
ID SMART Attribute Name
1 Raw Read Error Rate
3 Spin-Up Time
5 Reallocated Sectors Count
7 Seek Error Rate
9 Power-On Hours
187 Reported Uncorrectable Errors
188 Command Timeout
190 Airflow Temperature
193 Load/Unload Cycle Count
194 Temperature
197 Current Pending Sector Count
198 Offline Uncorrectable
240 Head Flying Hours
241 Total LBAs Written
242 Total LBAs Read
为了验证本发明中迁移组件的有效性,将同时使用有标记的源域数据和无标记的目标域数据训练得到的迁移模型(ATDFP)与只使用源域数据,不使用目标域数据(网络中不包括域分类器分支)训练的模型(SOURCE ONLY)进行比较,主要比较两种模型在数据集上的精确率、召回率、F1_Score和AUC等指标。
表3验证迁移组件的有效性,加粗的表示最优结果
Figure GDA0003293443510000101
表3的结果表明,当源域硬盘与目标域硬盘的SMART属性分布存在差异时,迁移组件的对抗网络框架可以学习到域不变特征,比只用源域硬盘数据训练的模型直接在目标域上测试能取得更好的结果,进而验证了本发明中迁移组件的有效性。
为了验证本发明提出的方法(ATDFP)的有效性,我们将其与几个典型的故障检测方法进行比较。这里对比的算法是(孤立森林)iForest、(局部异常因子)LOF和(随机森林)RF。前两种算法是典型的无监督的故障检测算法,第三种算法是有监督的算法。公平起见,对于RF,我们在目标域中标记了与ATDFP相同比例(10%)的样本。实验结果主要比较这四种算法的精确率、召回率、F1_Score和AUC等指标。
表4 ATDFP与其他三种算法的比较结果,加粗的表示最优结果
Figure GDA0003293443510000102
从表4中可以看到,ATDFP可以达到比其他三种方法在两个制造商的硬盘数据集上更好的性能。特别地,从ATDFP与无监督算法iForest和LOF的实验对比结果看出,ATDFP的性能优于无监督算法,进而说明了本发明中的ATDFP方法充分利用了源域和目标域硬盘的有标记数据。此外,从ATDFP与有监督算法RF的实验对比结果看出,在相同数量的标签下,ATDFP的性能优于有监督算法。这是因为迁移学习组件通过域适应可以迁移有标记的源域硬盘数据的知识,所以在目标域中只需要少量的标记就可以学习到很好的模型。
图3为本发明所提供的一种基于迁移学习和主动学习的硬盘故障预测系统结构示意图,如图3所示,本发明所提供的一种基于迁移学习和主动学习的硬盘故障预测系统,包括:数据集获取模块301、硬盘健康属性确定模块302、归一化处理模块303、堆叠转换模块304、迁移模型确定模块305和故障预测模块306。
数据集获取模块301用于获取待训练的源域硬盘的SMART属性的数据集和目标域硬盘的SMART属性的数据集;所述源域硬盘为来自同一制造商的不同型号的带标记SMART属性的数据集的硬盘;所述目标域硬盘为待预测的无标记SMART属性的数据集的硬盘。
硬盘健康属性确定模块302用于根据所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集,采用主成分分析法,确定硬盘健康属性;所述硬盘健康属性为与所述硬盘健康状态相关的SMART属性。
归一化处理模块303用于对所述硬盘健康属性的取值范围进行归一化处理;
堆叠转换模块304用于将归一化后的硬盘健康属性在固定长度的时间段内进行堆叠转换。
迁移模型确定模块305用于根据堆叠转换后的硬盘健康属性,采用迁移算法,得到迁移模型;所述迁移模型以堆叠转换后的硬盘健康属性为输入,以硬盘的预测结果为输出;所述预测结果为硬盘正常或硬盘故障。
故障预测模块306用于根据训练后的迁移模型进行目标域硬盘的故障的预测。
所述归一化处理模块303具体包括:归一化处理单元。
归一化处理单元用于利用公式
Figure GDA0003293443510000111
进行归一化处理;其中,xnorm为归一化处理后的第i个SMART属性的取值,xi是第i个SMART属性的原始的取值,xmax为第i个SMART属性的最大值,xmin为第i个SMART属性最小值。
本发明所提供的一种基于迁移学习和主动学习的硬盘故障预测系统,还包括:含有标记SMART属性的数据集确定模块、硬盘不确定性的值确定模块、更新后的目标域硬盘的SMART属性的数据集确定模块、待标记的SMART属性标记模块和训练后的迁移模型确定模块。
含有标记SMART属性的数据集确定模块用于对所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集进行设定轮数的主动采集,确定含有标记SMART属性的数据集。
硬盘不确定性的值确定模块用于根据所述迁移模型预测结果确定硬盘不确定性的值。
更新后的目标域硬盘的SMART属性的数据集确定模块用于根据硬盘不确定性的值大于设定阈值,从所述目标域硬盘的SMART属性的数据集中确定待标记的SMART属性,并将所述待标记的SMART属性从所述目标域硬盘的SMART属性的数据集中删除,得到更新后的目标域硬盘的SMART属性的数据集。
待标记的SMART属性标记模块用于对所述待标记的SMART属性进行标记。
训练后的迁移模型确定模块用于根据标记后的待标记的SMART属性、更新后的目标域硬盘的SMART属性的数据集以及含有标记SMART属性的数据集训练所述迁移模型,确定训练后的迁移模型。
所述根据所述迁移模型预测结果确定硬盘不确定性的值,具体包括:硬盘不确定性的值确定单元。
硬盘不确定性的值确定单元用于利用公式Uncertainy(x)=-|prob(Health)-prob(Failure)|确定硬盘不确定性的值;其中,prob(Health)为所述迁移模型的预测结果为硬盘正常的概率,prob(Failure)为所述迁移模型的预测结果为硬盘故障的概率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于迁移学习和主动学习的硬盘故障预测方法,其特征在于,包括:
获取待训练的源域硬盘的SMART属性的数据集和目标域硬盘的SMART属性的数据集;所述源域硬盘为来自同一制造商的不同型号的带标记SMART属性的数据集的硬盘;所述目标域硬盘为待预测的无标记SMART属性的数据集的硬盘;
根据所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集,采用主成分分析法,确定硬盘健康属性;所述硬盘健康属性为与所述硬盘健康状态相关的SMART属性;
对所述硬盘健康属性的取值范围进行归一化处理;
将归一化后的硬盘健康属性在固定长度的时间段内进行堆叠转换;归一化后的硬盘健康属性为1D-SMART属性,堆叠转换之后为2D-SMART;
根据堆叠转换后的硬盘健康属性,采用迁移算法,得到迁移模型;所述迁移模型以堆叠转换后的硬盘健康属性为输入,以硬盘的预测结果为输出;所述预测结果为硬盘正常或硬盘故障;
根据训练后的迁移模型进行目标域硬盘的故障的预测;
所述根据训练后的迁移模型进行目标域硬盘的故障的预测,之前还包括:
对所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集进行设定轮数的主动采集,确定含有标记SMART属性的数据集;
根据迁移模型预测结果确定硬盘不确定性的值;
在硬盘不确定性的值大于设定阈值时,从所述目标域硬盘的SMART属性的数据集中确定待标记的SMART属性,并将所述待标记的SMART属性从所述目标域硬盘的SMART属性的数据集中删除,得到更新后的目标域硬盘的SMART属性的数据集;
对所述待标记的SMART属性进行标记;
根据标记后的待标记的SMART属性、更新后的目标域硬盘的SMART属性的数据集以及含有标记SMART属性的数据集训练所述迁移模型,确定训练后的迁移模型。
2.根据权利要求1所述的一种基于迁移学习和主动学习的硬盘故障预测方法,其特征在于,所述对所述硬盘健康属性的取值范围进行归一化处理,具体包括:
利用公式
Figure DEST_PATH_IMAGE002
进行归一化处理;其中,
Figure DEST_PATH_IMAGE004
为归一化处理后的第i个SMART属性的取值,
Figure DEST_PATH_IMAGE006
是第i个SMART属性的原始的取值,
Figure DEST_PATH_IMAGE008
为第i个SMART属性的最大值,
Figure DEST_PATH_IMAGE010
为第i个SMART属性最小值。
3.根据权利要求1所述的一种基于迁移学习和主动学习的硬盘故障预测方法,其特征在于,所述根据所述迁移模型预测结果确定硬盘不确定性的值,具体包括:
利用公式
Figure DEST_PATH_IMAGE012
确定硬盘不确定性的值;其中,
Figure DEST_PATH_IMAGE014
为硬盘不确定性的值,
Figure DEST_PATH_IMAGE016
为所述迁移模型的预测结果为硬盘正常的概率,
Figure DEST_PATH_IMAGE018
为所述迁移模型的预测结果为硬盘故障的概率。
4.一种基于迁移学习和主动学习的硬盘故障预测系统,其特征在于,包括:
数据集获取模块,用于获取待训练的源域硬盘的SMART属性的数据集和目标域硬盘的SMART属性的数据集;所述源域硬盘为来自同一制造商的不同型号的带标记SMART属性的数据集的硬盘;所述目标域硬盘为待预测的无标记SMART属性的数据集的硬盘;
硬盘健康属性确定模块,用于根据所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集,采用主成分分析法,确定硬盘健康属性;所述硬盘健康属性为与所述硬盘健康状态相关的SMART属性;
归一化处理模块,用于对所述硬盘健康属性的取值范围进行归一化处理;
堆叠转换模块,用于将归一化后的硬盘健康属性在固定长度的时间段内进行堆叠转换;归一化后的硬盘健康属性为1D-SMART属性,堆叠转换之后为2D-SMART;
迁移模型确定模块,用于根据堆叠转换后的硬盘健康属性,采用迁移算法,得到迁移模型;所述迁移模型以堆叠转换后的硬盘健康属性为输入,以硬盘的预测结果为输出;所述预测结果为硬盘正常或硬盘故障;
故障预测模块,用于根据训练后的迁移模型进行目标域硬盘的故障的预测;
含有标记SMART属性的数据集确定模块,用于对所述待训练的源域硬盘的SMART属性的数据集和所述目标域硬盘的SMART属性的数据集进行设定轮数的主动采集,确定含有标记SMART属性的数据集;
硬盘不确定性的值确定模块,用于根据迁移模型预测结果确定硬盘不确定性的值;
更新后的目标域硬盘的SMART属性的数据集确定模块,用于在硬盘不确定性的值大于设定阈值时,从所述目标域硬盘的SMART属性的数据集中确定待标记的SMART属性,并将所述待标记的SMART属性从所述目标域硬盘的SMART属性的数据集中删除,得到更新后的目标域硬盘的SMART属性的数据集;
待标记的SMART属性标记模块,用于对所述待标记的SMART属性进行标记;
训练后的迁移模型确定模块,用于根据标记后的待标记的SMART属性、更新后的目标域硬盘的SMART属性的数据集以及含有标记SMART属性的数据集训练所述迁移模型,确定训练后的迁移模型。
5.根据权利要求4所述的一种基于迁移学习和主动学习的硬盘故障预测系统,其特征在于,所述归一化处理模块具体包括:
归一化处理单元,用于利用公式
Figure DEST_PATH_IMAGE002A
进行归一化处理;其中,
Figure DEST_PATH_IMAGE004A
为归一化处理后的第i个SMART属性的取值,
Figure DEST_PATH_IMAGE006A
是第i个SMART属性的原始的取值,
Figure DEST_PATH_IMAGE008A
为第i个SMART属性的最大值,
Figure DEST_PATH_IMAGE010A
为第i个SMART属性最小值。
6.根据权利要求4所述的一种基于迁移学习和主动学习的硬盘故障预测系统,其特征在于,所述根据所述迁移模型预测结果确定硬盘不确定性的值,具体包括:
硬盘不确定性的值确定单元,用于利用公式
Figure DEST_PATH_IMAGE020
确定硬盘不确定性的值;其中,
Figure DEST_PATH_IMAGE014A
为硬盘不确定性的值,
Figure DEST_PATH_IMAGE016A
为所述迁移模型的预测结果为硬盘正常的概率,
Figure DEST_PATH_IMAGE018A
为所述迁移模型的预测结果为硬盘故障的概率。
CN202010794576.5A 2020-08-10 2020-08-10 一种基于迁移学习和主动学习的硬盘故障预测方法及系统 Active CN111949459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010794576.5A CN111949459B (zh) 2020-08-10 2020-08-10 一种基于迁移学习和主动学习的硬盘故障预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010794576.5A CN111949459B (zh) 2020-08-10 2020-08-10 一种基于迁移学习和主动学习的硬盘故障预测方法及系统

Publications (2)

Publication Number Publication Date
CN111949459A CN111949459A (zh) 2020-11-17
CN111949459B true CN111949459B (zh) 2022-02-01

Family

ID=73333033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010794576.5A Active CN111949459B (zh) 2020-08-10 2020-08-10 一种基于迁移学习和主动学习的硬盘故障预测方法及系统

Country Status (1)

Country Link
CN (1) CN111949459B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627541B (zh) * 2021-08-13 2023-07-21 北京邮电大学 一种基于样本迁移筛选的光路传输质量预测方法
CN114282342A (zh) 2021-11-09 2022-04-05 三星(中国)半导体有限公司 存储装置的故障预测方法和装置
CN114116292B (zh) * 2022-01-27 2022-05-24 华南理工大学 一种融合ap聚类与宽度学习系统的硬盘故障预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224888A (zh) * 2015-09-29 2016-01-06 上海爱数软件有限公司 一种基于安全预警技术的磁盘阵列数据保护系统
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN109947086A (zh) * 2019-04-11 2019-06-28 清华大学 基于对抗学习的机械故障迁移诊断方法及系统
WO2019236386A1 (en) * 2018-06-08 2019-12-12 Microsoft Technology Licensing, Llc Computing node failure and health prediction for cloud-based data center
CN111158964A (zh) * 2019-11-26 2020-05-15 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111191786A (zh) * 2019-12-20 2020-05-22 南京航空航天大学 一种基于主动学习的迁移学习算法
CN111414289A (zh) * 2020-03-16 2020-07-14 上海威固信息技术股份有限公司 一种基于迁移学习的磁盘故障预测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10908602B2 (en) * 2017-08-02 2021-02-02 Strong Force Iot Portfolio 2016, Llc Systems and methods for network-sensitive data collection
CN108960270A (zh) * 2018-04-08 2018-12-07 中国科学院计算技术研究所 一种基于流形迁移学习的数据标定方法及系统
CN109359557B (zh) * 2018-09-25 2021-11-09 东北大学 一种基于迁移学习的sar遥感图像舰船检测方法
CN110224987B (zh) * 2019-05-08 2021-09-17 西安电子科技大学 基于迁移学习的网络入侵检测模型的构建方法、检测系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224888A (zh) * 2015-09-29 2016-01-06 上海爱数软件有限公司 一种基于安全预警技术的磁盘阵列数据保护系统
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
WO2019236386A1 (en) * 2018-06-08 2019-12-12 Microsoft Technology Licensing, Llc Computing node failure and health prediction for cloud-based data center
CN109947086A (zh) * 2019-04-11 2019-06-28 清华大学 基于对抗学习的机械故障迁移诊断方法及系统
CN111158964A (zh) * 2019-11-26 2020-05-15 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111191786A (zh) * 2019-12-20 2020-05-22 南京航空航天大学 一种基于主动学习的迁移学习算法
CN111414289A (zh) * 2020-03-16 2020-07-14 上海威固信息技术股份有限公司 一种基于迁移学习的磁盘故障预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于迁移学习和PU学习的软件故障预测方法研究;马睿涛;《中国优秀博硕士学位论文全文数据库(硕士)》;20180115;I138-341 *

Also Published As

Publication number Publication date
CN111949459A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111949459B (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
De Santo et al. Deep Learning for HDD health assessment: An application based on LSTM
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN110132598B (zh) 旋转设备滚动轴承故障噪声诊断算法
CN110427311B (zh) 基于时序特征处理与模型优化的磁盘故障预测方法和系统
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
CN111858108B (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN110389866A (zh) 磁盘故障预测方法、装置、计算机设备及计算机存储介质
CN112951311B (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
CN111158964B (zh) 一种磁盘故障预测方法、系统、装置及存储介质
CN113342597B (zh) 一种基于高斯混合隐马尔可夫模型的系统故障预测方法
US20220100389A1 (en) Method, electronic device, and computer program product for managing disk
CN111124732A (zh) 一种磁盘故障的预测方法、系统、设备及存储介质
CN111767162B (zh) 一种面向不同型号硬盘的故障预测方法及电子装置
CN111858265A (zh) 一种存储系统的存储故障预测方法、系统及装置
KR102522683B1 (ko) 배터리진단방법 및 그 장치
CN112433928A (zh) 一种存储设备的故障预测方法、装置、设备及存储介质
CN111414289A (zh) 一种基于迁移学习的磁盘故障预测方法及装置
CN113778766B (zh) 基于多维特征的硬盘故障预测模型建立方法及其应用
Yang et al. Zte-predictor: Disk failure prediction system based on lstm
CN114116292A (zh) 一种融合ap聚类与宽度学习系统的硬盘故障预测方法
CN117632552A (zh) 一种实时预测存储节点故障装置
CN115659271A (zh) 传感器异常检测方法、模型训练方法、系统、设备及介质
CN115456481A (zh) 应用于企业管理的考勤数据处理方法及考勤服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant