CN114418002A - 硬盘的健康度状态预测方法、装置、设备和存储介质 - Google Patents

硬盘的健康度状态预测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114418002A
CN114418002A CN202210066262.2A CN202210066262A CN114418002A CN 114418002 A CN114418002 A CN 114418002A CN 202210066262 A CN202210066262 A CN 202210066262A CN 114418002 A CN114418002 A CN 114418002A
Authority
CN
China
Prior art keywords
hard disk
data
health
health degree
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210066262.2A
Other languages
English (en)
Inventor
孙建旭
常甜甜
秦晓宁
许飞
陈颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nettrix Information Industry Beijing Co Ltd
Original Assignee
Nettrix Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nettrix Information Industry Beijing Co Ltd filed Critical Nettrix Information Industry Beijing Co Ltd
Priority to CN202210066262.2A priority Critical patent/CN114418002A/zh
Publication of CN114418002A publication Critical patent/CN114418002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种硬盘的健康度状态预测方法、装置、电子设备和存储介质,包括:获取硬盘健康度等级标准;采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据;基于均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型;根据硬盘健康度状态预测模型以及硬盘健康度等级标准,确定待测硬盘的健康度状态。通过遗传算法进行数据均衡,以保障样本中的故障数据和健康数据的数量保持基本持平,从而避免模型训练的过拟合,并且采用分层扰动和对抗训练与LSTM模型结合的方式,以保证模型训练的准确性,并通过预测结果与包含多个健康度等级的硬盘健康度等级标准,获取硬盘的健康度状态。

Description

硬盘的健康度状态预测方法、装置、设备和存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种硬盘健康度状态预测方法、装置、设备和存储介质。
背景技术
目前越来越多的工业级机构依靠数据中心来存储和处理数据,数据中心的崩溃可能会导致巨大的损失。而硬盘是数据中心最大的故障源之一,因此提前测试出故障硬盘,可以对个人和企业减少很多不必要的损失,并且目前主要是通过硬盘故障二分类或者BP神经网络模型获取硬盘的健康度状态。
但是二分类将硬盘健康度仅划分为故障和健康两个状态,这种划分方式过于绝对化,忽视了当某时刻突然高负载的情况对硬盘造成超大压力,而使得对硬盘的健康度状态预测发生偏差;针对BP神经网络由于原始所获取的故障数据样本较少,因此在不平衡数据集上会产生过拟合和偏置拟合的问题,从而影响硬盘的健康度状态预测的准确度,因此现有的硬盘健康度状态预测并不能满足用户的需求。
发明内容
本发明实施例提供了一种硬盘的健康度状态预测方法、装置、电子设备和存储介质,以实现对硬盘的健康度状态进行预测。
第一方面,本发明实施例提供了一种硬盘的健康度状态预测方法,包括:获取硬盘健康度等级标准,其中,所述硬盘健康度等级标准中至少包含三个健康度等级;
采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据;
基于所述均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型;
根据所述硬盘健康度状态预测模型以及所述硬盘健康度等级标准,确定待测硬盘的健康度状态。
另外,获取硬盘健康度等级标准,包括:获取用户所发送的等级划分指令,其中,所述等级划分指令中包含健康度等级及每个所述健康度等级匹配的距离故障时间;根据所述等级划分指令进行硬盘健康度等级划分获取所述硬盘健康度等级标准。通过将硬盘健康度等级至少划分为三个等级,而不是单一的故障和健康两个状态,从而可以保证硬盘健康度状态的准确性。
另外,采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据,包括:提取所述原始硬盘属性数据中的故障数据和健康数据;将所述故障数据作为所述遗传算法的初始种群进行后代繁殖获取更新后的故障数据;将所述更新后的故障数据和所述健康数据作为所述均衡后的硬盘数据。通过遗传算法对原始硬盘数据进行样本均衡,以保障样本中的故障数据和健康数据的数量保持基本持平,从而避免模型训练的过拟合。
另外,将所述故障数据作为所述遗传算法的初始种群进行后代繁殖获取更新后的故障数据,包括:获取指定适应度函数;将所述故障数据作为所述遗传算法的初始种群,并基于所述指定适应度函数进行后代繁殖获取所述更新后的故障数据。通过遗传算法基于指定适应度函数,对故障数据进行繁殖,从而增加故障数据的数量,以保障均衡后的样本数据库中故障数据和健康数据的差别不会过大。
另外,基于所述均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型,包括:将所述均衡后的硬盘数据输入长短时记忆神经网络LSTM模型,并获取每层所对应的梯度累加层;采用所述梯度累计层分别对所述LSTM模型中所匹配的层进行扰动训练获取初级训练模型;在所述初级训练模型的最后一层进行对抗扰动获取所述硬盘健康度状态预测模型。通过分层扰动和对抗训练避免LSTM模型的过拟合。
另外,根据所述硬盘健康度状态预测模型以及所述硬盘健康度等级标准,确定待测硬盘的健康度状态,包括:将待测硬盘的属性数据输入所述硬盘健康度状态预测模型,获取所述待测硬盘距离故障的时间;根据所述待测硬盘距离故障的时间以及所述硬盘健康度等级标准,确定所述待测硬盘的健康度等级;将所述待测硬盘的健康度等级作为所述健康度状态。
另外,根据所述待测硬盘距离故障的时间以及所述硬盘健康度等级标准,确定所述待测硬盘的健康度等级,包括:确定所述健康度等级标准中与所述待测硬盘距离故障的时间最接近的距离故障时间;确定所述最接近的距离故障时间所匹配的健康度等级;将所匹配的健康度等级作为所述待测硬盘的健康度等级。通过预测模型获取待测硬盘距离故障的时间,并根据预先划分的健康度等级标准,通过时间进行对比,准确的获取待测硬盘的健康度状态。
第二方面,本发明实施例提供了一种硬盘的健康度状态预测装置,包括:硬盘健康度等级标准获取模块,用于获取硬盘健康度等级标准,其中,所述硬盘健康度等级标准中至少包含三个健康度等级;
硬盘数据均衡模块,用于采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据;
硬盘健康度状态预测模型获取模块,用于基于所述均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型;
健康度状态确定模块,用于根据所述硬盘健康度状态预测模型以及所述硬盘健康度等级标准,确定待测硬盘的健康度状态。
第三方面,本发明实施例提供了一种电子设备,电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的方法。
本发明实施例的技术方案,通过遗传算法对原始硬盘数据进行样本均衡,以保障样本中的故障数据和健康数据的数量保持基本持平,从而避免模型训练的过拟合,并且采用分层扰动和对抗训练与LSTM模型结合的方式获取硬盘健康度状态预测模型,以保证模型训练的准确性,并通过预测结果与包含多个健康度等级的硬盘健康度等级标准,获取硬盘的健康度状态。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例一提供的硬盘的健康度状态预测方法的流程图;
图2A是本发明实施例二提供的硬盘的健康度状态预测方法的流程图;
图2B是本发明实施例二提供的硬盘健康度状态预测模型示意图;
图3是本发明实施例三提供的硬盘的健康度状态预测装置的结构示意图;
图4是本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、软件实现、硬件实现等等。
实施例一
图1是本发明实施例提供的硬盘的健康度状态预测方法的流程图,本实施例可适用于对硬盘的健康度状态进行预测的情况,该方法可以由本发明实施例中的硬盘的健康度状态预测装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,该方法具体包括如下操作:
步骤S101,获取硬盘健康度等级标准。
可选的,获取硬盘健康度等级标准,包括:获取用户所发送的等级划分指令,其中,等级划分指令中包含健康度等级及每个健康度等级匹配的距离故障时间;根据等级划分指令进行硬盘健康度等级划分获取硬盘健康度等级标准。
具体的说,硬盘发生故障并不是突发性事件,而是逐渐发生的,因此根据硬盘发生故障的时间将其划分为不同的健康度等级是十分必要的,这样可以按照健康度等级及时迁移硬盘中存储的重要数据,以更好的保护数据同时避免不必要的时间和人力资源的浪费。
其中,电子设备在获取到用户所发送的等级划分指令后,会根据等级划分指令进行硬盘健康度等级划分,以获取硬盘健康度等级标准,其中,在硬盘健康度等级标准中至少包含三个健康度等级,如下表1所示,为硬盘健康度等级标准的示例:
表1
距离故障时间 600h 480h 360h 240h 144h 72h
健康度等级 6 5 4 3 2 1
如表1所示,在硬盘健康度等级标准中包含六个等级,等级6为最健康的等级,将25天即600h后发生故障的硬盘划分到第6等级中,以5天为单位递减为进行等级划分,例如,等级2为距离故障还有6天即144h,等级1为距离故障还有3天即72小时。当然,本实施方式中仅是以包含三个健康度等级为例进行说明,而在实际应用中具体可以根据用户的需求进行限定。
步骤S102,采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据。
可选的,采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据,包括:提取原始硬盘属性数据中的故障数据和健康数据;将故障数据作为遗传算法的初始种群进行后代繁殖获取更新后的故障数据;将更新后的故障数据和健康数据作为均衡后的硬盘数据。
可选的,将故障数据作为遗传算法的初始种群进行后代繁殖获取更新后的故障数据,包括:获取指定适应度函数;将故障数据作为遗传算法的初始种群,并基于指定适应度函数进行后代繁殖获取更新后的故障数据。
具体的说,在数据中心硬盘检测数据中,正常硬盘的样本数量占大多数,而故障硬盘样本的数量较少,因此从数据中心所获取的原始硬盘数据具有极大的不平衡性,如果对硬盘直接进行预测,则会得到极低的准确性。因此本实施方式中会提取原始硬盘属性数据中的故障数据和健康数据,并且原始硬盘属性数据是一个序列数据,具体包括每个硬盘在指定时间区间范围内的属性数据,而属性具体可以是自我检测分析及报告技术(Self-MonitoringAnalysis and Report Technology,SMART)中所包含的相关属性,例如,可以包括硬盘转速和数据传输率等。因此本实施方式中的原始硬盘数据具体可以包括在一周时间范围内100个硬盘每天的硬盘转速和数据传输率,当然,本实施方式中仅是举例说明,而并不对硬盘数量以及属性的具体类型进行限定。
其中,由于原始硬盘属性数据中的故障硬盘样本的数量较少,因此本实施方式中会提取原始硬盘属性数据中的故障数据和健康数据,将故障数据作为遗传算法的初始种群进行后代繁殖获取更新后的故障数据。在具体实现中,具体是获取指定适应度函数,将故障数据作为遗传算法的初始种群,通过交叉变异产生新的种群,基于指定适应度函数进行评价,而好的染色体表示好的解决方案,从而获取更多的机会产生下一代,当达到预设的迭代次数时,获取最终的种群,并将所获取的最终的种群作为更新后的故障数据。更新后的故障数据相较于原始所提取的故障数据,数据量要明显增多,并将更新后的故障数据和之前从原始硬盘属性数据中所提取的健康数据作为均衡后的硬盘数据。
步骤S103,基于均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型。
可选的,基于均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型,包括:均衡后的硬盘数据输入长短时记忆神经网络LSTM模型,并获取每层所对应的梯度累加层;采用梯度累计层分别对LSTM模型中所匹配的层进行扰动训练获取初级训练模型;在初级训练模型的最后一层进行对抗扰动获取硬盘健康度状态预测模型。
具体的说,为了避免神经网络训练时的过拟合和偏拟合问题,本申请会基于分层扰动的对抗训练方法(Layerwise Perturbation-basedAdversarial Training,LPAT)来训练预测模型,LPAT不是仅仅在输入层中加入扰动,而是在时间序列输入层和中间层都可以生成对抗样本,并最终获取硬盘健康度状态预测模型。
步骤S104,根据硬盘健康度状态预测模型以及硬盘健康度等级标准,确定待测硬盘的健康度状态。
可选的,根据硬盘健康度状态预测模型以及硬盘健康度等级标准,确定待测硬盘的健康度状态,包括:将待测硬盘的属性数据输入硬盘健康度状态预测模型,获取待测硬盘距离故障的时间;根据待测硬盘距离故障的时间以及硬盘健康度等级标准,确定待测硬盘的健康度等级;将待测硬盘的健康度等级作为健康度状态。
可选的,根据待测硬盘距离故障的时间以及硬盘健康度等级标准,确定待测硬盘的健康度等级,包括:确定健康度等级标准中与待测硬盘距离故障的时间最接近的距离故障时间;确定最接近的距离故障时间所匹配的健康度等级;将所匹配的健康度等级作为待测硬盘的健康度等级。
在一个具体实现中,当将待测硬盘的属性数据输入硬盘健康度状态预测模型,所获取的硬盘距离故障的时间为160h,结合表1所示的硬盘健康度等级标准中确定与160h最接近的距离故障时间,由于160h位于240h至144h之间,并且与144h最为接近,并且获取144h所匹配的健康度等级为2,从而可以确定待测硬盘的健康度等级为2,同时将等级2以及等级2所对应的距离故障时间144h作为待测硬盘的健康度状态,当然,本实施方式中仅是举例说明,而并不对待测硬盘的具体等级进行限定。
需要说明的是,本实施方式中在获取到获取到待测硬盘的健康度状态之后,还可以对低于指定等级的健康度状态进行报警,例如,指定等级为健康度等级3,当确定待测硬盘的健康度状态低于等级3时,说明硬盘会在3天之内发生故障,此时会发出报警信号进行提示。其中,报警信号具体可以采用图像或语音的形式,例如,周期性播放“硬盘存在故障风险,请及时进行数据保存”,或者在人机交互界面上滚动播报硬盘存在故障风险的文字提示消息,以提示用户及时采取相应的措施,以对硬盘进行维修或者对硬盘中的数据进行备份。当然,本实施方式中仅是举例说明,而并不对报警信号的具体形式进行限定,只要能够对用户进行提示,则都是在本申请的保护范围内,本实施方式中不再进行赘述。
本发明实施例的技术方案,通过遗传算法对原始硬盘数据进行样本均衡,以保障样本中的故障数据和健康数据的数量保持基本持平,从而避免模型训练的过拟合,并且采用分层扰动和对抗训练与LSTM模型结合的方式获取硬盘健康度状态预测模型,以保证模型训练的准确性,并通过预测结果与包含多个健康度等级的硬盘健康度等级标准,获取硬盘的健康度状态。
实施例二
图2A是本发明实施例提供的硬盘的健康度状态预测方法的流程图,本实施例以上述实施例为基础,本实施例对上述步骤S103中的基于均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型进行具体说明,方法步骤具体包括如下操作:
步骤S201,获取硬盘健康度等级标准。
可选的,获取硬盘健康度等级标准,包括:获取用户所发送的等级划分指令,其中,等级划分指令中包含健康度等级及每个健康度等级匹配的距离故障时间;根据等级划分指令进行硬盘健康度等级划分获取硬盘健康度等级标准。
步骤S202,采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据。
可选的,采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据,包括:提取原始硬盘属性数据中的故障数据和健康数据;将故障数据作为遗传算法的初始种群进行后代繁殖获取更新后的故障数据;将更新后的故障数据和健康数据作为均衡后的硬盘数据。
可选的,将故障数据作为遗传算法的初始种群进行后代繁殖获取更新后的故障数据,包括:获取指定适应度函数;将故障数据作为遗传算法的初始种群,并基于指定适应度函数进行后代繁殖获取更新后的故障数据。
步骤S203,将均衡后的硬盘数据输入长短时记忆神经网络LSTM模型,并获取每层所对应的梯度累加层。
具体的说,如图2B所示,将均衡后的硬盘数据输入长短时记忆神经网络LSTM模型。LSTM模型包含M层,M=0为输入层,
Figure BDA0003480171730000111
为第m层的输出,其中,k为该层的维度,并且每一层都具有一个梯度累加层Pm。LPAT会经历两轮前馈和反向传播,第一轮中,所执行的前馈过程计算神经网络的输出,执行反向传播过程更新参数,并将梯度存储梯度累加层中,第一层所对应的梯度累加层为P0,在P0中包含第一轮反向传播过程中第一层所对应的梯度r0 *,同理第M-1层所对应的梯度累加层为PM-1,而在PM-1中包含第一轮反向传播过程中第M-1层所对应的梯度
Figure BDA0003480171730000112
Figure BDA0003480171730000113
对于其他层的梯度累加层的获取方式与此大致相同,本实施方式中不再进行赘述。因此本实施方式的梯度累加层的作用是将反向传播梯度暂时存储在第m层的输出上,图中用虚箭头表示。
步骤S204,采用梯度累计层分别对LSTM模型中所匹配的层进行扰动训练获取初级训练模型。
具体的说,在第二轮中,将基于梯度的分层对抗扰动添加到每一层,并执行前馈过程,计算神经网络的新输出。因此梯度累加层的另一个作用是根据梯度累加层的rm *计算第m层对抗性扰动,并将扰动添加到
Figure BDA0003480171730000121
中,图中用实箭头表示。然后,神经网络再次进行前馈处理,计算出新的输出。训练过程可以形成一个min-max问题。原始对抗样本应用最坏的扰动来最大化模型的误差,而LPAT模型试图通过最小化对手造成的误差来对这种扰动保持鲁棒性。因此本实施方式中通过所获取的梯度累加层对LSTM模型进行扰动训练获取初级训练模型。
步骤S205,在初级训练模型的最后一层进行对抗扰动获取硬盘健康度状态预测模型。
需要说明的是,针对初级训练模型,在最后一层进行对抗性扰动,如图所示,在倒第二层的输出结果包含三个,经过对抗扰动将比较好的结果的进行保留,因此在最后一层的输出结果中包含两个,并最终获取硬盘的健康度状态预测模型。当然,本实施方式中仅是举例说明,而并不对对抗扰动的具体输出结果进行限定。
步骤S206,根据硬盘健康度状态预测模型以及硬盘健康度等级标准,确定待测硬盘的健康度状态。
可选的,根据硬盘健康度状态预测模型以及硬盘健康度等级标准,确定待测硬盘的健康度状态,包括:将待测硬盘的属性数据输入硬盘健康度状态预测模型,获取待测硬盘距离故障的时间;根据待测硬盘距离故障的时间以及硬盘健康度等级标准,确定待测硬盘的健康度等级;将待测硬盘的健康度等级作为健康度状态。
本发明实施例的技术方案,通过遗传算法对原始硬盘数据进行样本均衡,以保障样本中的故障数据和健康数据的数量保持基本持平,从而避免模型训练的过拟合,并且采用分层扰动和对抗训练与LSTM模型结合的方式获取硬盘健康度状态预测模型,以保证模型训练的准确性,并通过预测结果与包含多个健康度等级的硬盘健康度等级标准,获取硬盘的健康度状态。
实施例三
图3为本发明实施例提供的硬盘的健康度状态预测装置的结构示意图,该装置包括:
硬盘健康度等级标准获取模块310,用于获取硬盘健康度等级标准,其中,硬盘健康度等级标准中至少包含三个健康度等级;
硬盘数据均衡模块320,用于采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据;
硬盘健康度状态预测模型获取模块330,用于基于均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型;
健康度状态确定模块340,用于根据硬盘健康度状态预测模型以及硬盘健康度等级标准,确定待测硬盘的健康度状态。
可选的,硬盘健康度等级标准获取模块,具体用于获取用户所发送的等级划分指令,其中,等级划分指令中包含健康度等级及每个健康度等级匹配的距离故障时间;
根据等级划分指令进行硬盘健康度等级划分获取硬盘健康度等级标准。
可选的,硬盘数据均衡模块包括:数据提取子模块,用于提取原始硬盘属性数据中的故障数据和健康数据;
故障数据更新子模块,用于将故障数据作为遗传算法的初始种群进行后代繁殖获取更新后的故障数据;
数据均衡子模块,用于将更新后的故障数据和健康数据作为均衡后的硬盘数据。
可选的,故障数据更新子模块,用于获取指定适应度函数;
将故障数据作为遗传算法的初始种群,并基于指定适应度函数进行后代繁殖获取更新后的故障数据。
可选的,硬盘健康度状态预测模型获取模块,用于将均衡后的硬盘数据输入长短时记忆神经网络LSTM模型,并获取每层所对应的梯度累加层;
采用梯度累计层分别对LSTM模型中所匹配的层进行扰动训练获取初级训练模型;
在初级训练模型的最后一层进行对抗扰动获取硬盘健康度状态预测模型。
可选的,健康度状态确定模块,用于将待测硬盘的属性数据输入硬盘健康度状态预测模型,获取待测硬盘距离故障的时间;
根据待测硬盘距离故障的时间以及硬盘健康度等级标准,确定待测硬盘的健康度等级;
将待测硬盘的健康度等级作为健康度状态。
可选的,健康度状态确定模块,还用于确定健康度等级标准中与待测硬盘距离故障的时间最接近的距离
故障时间;
确定最接近的距离故障时间所匹配的健康度等级;
将所匹配的健康度等级作为待测硬盘的健康度等级。
上述装置可执行本发明任意实施例所提供的硬盘的健康度状态预测方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的方法。
实施例四
图4是本发明实施例提供的一种电子设备的结构示意图。图4示出了适用于用来实现本发明实施方式的示例性电子设备412的框图。图4显示的电子设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备412以通用计算设备的形式出现。电子设备412的组件可以包括但不限于:一个或者多个处理器416,存储器428,连接不同系统组件(包括存储器428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器428用于存储指令。存储器428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)430和/或高速缓存存储器432。电子设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
电子设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信,还可与一个或者多个使得用户能与该电子设备412交互的设备通信,和/或与使得该电子设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,电子设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与电子设备412的其它模块通信。应当明白,尽管图4中未示出,可以结合电子设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储器428中的指令,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的硬盘的健康度状态预测方法:获取硬盘健康度等级标准,其中,硬盘健康度等级标准中至少包含三个健康度等级;采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据;基于均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型;根据硬盘健康度状态预测模型以及硬盘健康度等级标准,确定待测硬盘的健康度状态。
实施例五
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的硬盘的健康度状态预测方法:获取硬盘健康度等级标准,其中,硬盘健康度等级标准中至少包含三个健康度等级;采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据;基于均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型;根据硬盘健康度状态预测模型以及硬盘健康度等级标准,确定待测硬盘的健康度状态。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种硬盘的健康度状态预测方法,其特征在于,包括:
获取硬盘健康度等级标准,其中,所述硬盘健康度等级标准中至少包含三个健康度等级;
采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据;
基于所述均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型;
根据所述硬盘健康度状态预测模型以及所述硬盘健康度等级标准,确定待测硬盘的健康度状态。
2.根据权利要求1所述的方法,其特征在于,所述获取硬盘健康度等级标准,包括:
获取用户所发送的等级划分指令,其中,所述等级划分指令中包含健康度等级及每个所述健康度等级匹配的距离故障时间;
根据所述等级划分指令进行硬盘健康度等级划分获取所述硬盘健康度等级标准。
3.根据权利要求1所述的方法,其特征在于,所述采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据,包括:
提取所述原始硬盘属性数据中的故障数据和健康数据;
将所述故障数据作为所述遗传算法的初始种群进行后代繁殖获取更新后的故障数据;
将所述更新后的故障数据和所述健康数据作为所述均衡后的硬盘数据。
4.根据权利要求3所述的方法,其特征在于,所述将所述故障数据作为所述遗传算法的初始种群进行后代繁殖获取更新后的故障数据,包括:
获取指定适应度函数;
将所述故障数据作为所述遗传算法的初始种群,并基于所述指定适应度函数进行后代繁殖获取所述更新后的故障数据。
5.根据权利要求1所述的方法,其特征在于,所述基于所述均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型,包括:
将所述均衡后的硬盘数据输入长短时记忆神经网络LSTM模型,并获取每层所对应的梯度累加层;
采用所述梯度累计层分别对所述LSTM模型中所匹配的层进行扰动训练获取初级训练模型;
在所述初级训练模型的最后一层进行对抗扰动获取所述硬盘健康度状态预测模型。
6.根据权利要求1所述的方法其特征在于,所述根据所述硬盘健康度状态预测模型以及所述硬盘健康度等级标准,确定待测硬盘的健康度状态,包括:
将待测硬盘的属性数据输入所述硬盘健康度状态预测模型,获取所述待测硬盘距离故障的时间;
根据所述待测硬盘距离故障的时间以及所述硬盘健康度等级标准,确定所述待测硬盘的健康度等级;
将所述待测硬盘的健康度等级作为所述健康度状态。
7.根据权利要求6所述的方法,其特征在于,所述根据所述待测硬盘距离故障的时间以及所述硬盘健康度等级标准,确定所述待测硬盘的健康度等级,包括:
确定所述健康度等级标准中与所述待测硬盘距离故障的时间最接近的距离故障时间;
确定所述最接近的距离故障时间所匹配的健康度等级;
将所匹配的健康度等级作为所述待测硬盘的健康度等级。
8.一种硬盘的健康度状态预测装置,其特征在于,包括:
硬盘健康度等级标准获取模块,用于获取硬盘健康度等级标准,其中,所述硬盘健康度等级标准中至少包含三个健康度等级;
硬盘数据均衡模块,用于采用遗传算法对原始硬盘属性数据进行样本均衡获取均衡后的硬盘数据;
硬盘健康度状态预测模型获取模块,用于基于所述均衡后的硬盘数据进行分层扰动和对抗训练获取硬盘健康度状态预测模型;
健康度状态确定模块,用于根据所述硬盘健康度状态预测模型以及所述硬盘健康度等级标准,确定待测硬盘的健康度状态。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202210066262.2A 2022-01-20 2022-01-20 硬盘的健康度状态预测方法、装置、设备和存储介质 Pending CN114418002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210066262.2A CN114418002A (zh) 2022-01-20 2022-01-20 硬盘的健康度状态预测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210066262.2A CN114418002A (zh) 2022-01-20 2022-01-20 硬盘的健康度状态预测方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114418002A true CN114418002A (zh) 2022-04-29

Family

ID=81274864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210066262.2A Pending CN114418002A (zh) 2022-01-20 2022-01-20 硬盘的健康度状态预测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114418002A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270993A (zh) * 2022-08-23 2022-11-01 南通思诺船舶科技有限公司 柴油机组状态检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270993A (zh) * 2022-08-23 2022-11-01 南通思诺船舶科技有限公司 柴油机组状态检测方法及系统
CN115270993B (zh) * 2022-08-23 2023-06-23 南通思诺船舶科技有限公司 柴油机组状态检测方法及系统

Similar Documents

Publication Publication Date Title
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
CN110502519B (zh) 一种数据聚合的方法、装置、设备及存储介质
US20190026805A1 (en) Issue resolution utilizing feature mapping
CN111126045A (zh) 一种文本纠错方法和装置
CN111061740B (zh) 一种数据同步方法、设备和存储介质
US11811708B2 (en) Systems and methods for generating dynamic conversational responses using cluster-level collaborative filtering matrices
CN111400600A (zh) 一种消息推送方法、装置、设备和存储介质
CN111179055B (zh) 授信额度调整方法、装置和电子设备
CN111754278A (zh) 物品推荐方法、装置、计算机存储介质和电子设备
CN115034596A (zh) 一种风险传导预测方法、装置、设备和介质
CN114418002A (zh) 硬盘的健康度状态预测方法、装置、设备和存储介质
US10796036B2 (en) Prediction of inhalable particles concentration
CN113408070A (zh) 发动机参数的确定方法、装置、设备及存储介质
CN111210109A (zh) 基于关联用户预测用户风险的方法、装置和电子设备
US20230004750A1 (en) Abnormal log event detection and prediction
CN112989817B (zh) 一种气象预警信息自动审核方法
US11922129B2 (en) Causal knowledge identification and extraction
CN110874758A (zh) 潜在客户预测方法、装置、系统、电子设备、存储介质
CN110297989B (zh) 异常检测的测试方法、装置、设备和介质
US20220101186A1 (en) Machine-learning model retraining detection
CN108984680B (zh) 一种信息推荐方法、装置、服务器及存储介质
CN114201729A (zh) 一种矩阵运算方式的选择方法、装置、设备以及存储介质
CN109218411B (zh) 数据处理方法及装置、计算机可读存储介质、电子设备
CN111694951B (zh) 兴趣主题生成方法、装置、设备及存储介质
CN113780675A (zh) 一种消耗预测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination