CN114595085A - 磁盘失效预测方法、预测模型训练方法、电子设备 - Google Patents

磁盘失效预测方法、预测模型训练方法、电子设备 Download PDF

Info

Publication number
CN114595085A
CN114595085A CN202011394121.0A CN202011394121A CN114595085A CN 114595085 A CN114595085 A CN 114595085A CN 202011394121 A CN202011394121 A CN 202011394121A CN 114595085 A CN114595085 A CN 114595085A
Authority
CN
China
Prior art keywords
prediction
disk
training sample
information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011394121.0A
Other languages
English (en)
Inventor
宋顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202011394121.0A priority Critical patent/CN114595085A/zh
Priority to PCT/CN2021/133728 priority patent/WO2022116922A1/zh
Publication of CN114595085A publication Critical patent/CN114595085A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种磁盘失效预测方法、预测模型训练方法、电子设备,该磁盘失效预测方法包括:获取待预测磁盘的预测数据集,所述预测数据集包括预测样本IO的IO信息和与所述预测样本IO相对应的SMART信息,其中,所述预测数据集采集于所述待预测磁盘的缓存盘加速场景;将所述预测数据集输入至预先训练好的预测模型,得出所述待预测磁盘的预测结果。根据本发明实施例提供的方案,能够结合IO信息和SMART信息,对所有类型的磁盘进行磁盘失效预测,有效降低了数据丢失的风险。

Description

磁盘失效预测方法、预测模型训练方法、电子设备
技术领域
本发明涉及但不限于数据存储领域,尤其涉及一种磁盘失效预测方法、预测模型训练方法、电子设备。
背景技术
随着网络技术和通信技术的发展,服务器数据中心的数据存储量快速增加。磁盘是数据存储的重要硬件设备,对于较为大型的数据中心,磁盘的数量通常较多。磁盘的使用寿命通常有限,在使用寿命的末期,磁盘的损坏几率会大幅增加。为了解决这个问题,通常采用副本技术或基于纠删码技术进行数据冗余,但是只能避免单个磁盘失效导致的数据丢失,当多个磁盘同时失效,依然存在数据丢失的风险。
基于此,通常需要在磁盘运行过程中对磁盘进行失效预测,在检测到失效风险较高的情况下及时更换磁盘,从而减少数据丢失的风险。常见的做法是采用训练好的预测模型进行失效预测,但是现有的预测模型所采用的训练数据通常是磁盘的自我监测分析及报告技术(Self-Monitoring Analysis and Reporting Technology,SMART)信息,但是,SMART信息只能适用于磁盘参数种类较多串行高级技术(Serial Advanced TechnologyAttachment,SATA)机械盘,对于磁盘参数较少的串行连接小型计算机系统接口(SerialAttached SCSI,SAS,其中,小型计算机系统接口(Small Computer System Interface,SCSI))磁盘则无法得出准确的预测。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种磁盘失效预测方法、预测模型训练方法、电子设备,能够对所有类型磁盘进行失效预测。
第一方面,本发明实施例提供了一种磁盘失效预测方法,包括:
获取待预测磁盘的预测数据集,所述预测数据集包括预测样本输入输出(InputOutput,IO)的IO信息和与所述预测样本IO相对应的SMART信息,其中,所述预测数据集采集于所述待预测磁盘的缓存盘加速场景;
将所述预测数据集输入至预先训练好的预测模型,得出所述待预测磁盘的预测结果。
本发明实施例包括:获取待预测磁盘的预测数据集,所述预测数据集包括预测样本IO的IO信息和与所述预测样本IO相对应的SMART信息,其中,所述预测数据集采集于所述待预测磁盘的缓存盘加速场景;将所述预测数据集输入至预先训练好的预测模型,得出所述待预测磁盘的预测结果。根据本发明实施例提供的方案,能够结合IO信息和SMART信息,对所有类型的磁盘进行磁盘失效预测,有效降低了数据丢失的风险。
第二方面,本发明实施例还提供了一种预测模型训练方法,包括:
获取训练样本磁盘的预测训练样本集,所述预测训练样本集包括训练样本IO的训练样本IO信息和与所述训练样本IO相对应的训练样本SMART信息,其中,所述预测训练样本集采集于所述训练样本磁盘的缓存盘加速场景;
根据所述预测训练样本集训练所述预测模型。
第三方面,本发明实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的磁盘失效预测方法,或者执行如第二方面所述的预测模型训练方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面所述的磁盘失效预测方法,或者执行如第二方面所述的预测模型训练方法。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一个实施例提供的磁盘失效预测方法的流程图;
图2是本发明另一个实施例提供的模块框架示意图;
图3是本发明另一个实施例提供的根据预测周期确定预测结果的流程图;
图4是本发明另一个实施例提供的根据周期失效概率确定预测结果的流程图;
图5是本发明另一个实施例提供的根据被确定为高风险周期的次数确定预测结果的流程图;
图6是本发明另一个实施例提供的确定待预测磁盘处于缓存盘加速场景的流程图;
图7是本发明另一个实施例提供的预测模型训练方法的流程图;
图8是本发明另一个实施例提供的确定训练样本磁盘处于缓存盘加速场景的流程图;
图9是本发明另一个实施例提供的获取预测训练样本集的流程图;
图10是本发明另一个实施例提供的根据预设条件确定训练样本IO信息的流程图;
图11是本发明另一个实施例提供的根据训练周期训练预测模型的流程图;
图12是本发明另一个实施例提供的将预测样本训练集分为训练样本集和测试样本集的流程图;
图13是本发明另一个实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明提供了一种磁盘失效预测方法、预测模型训练方法、电子设备,该磁盘失效预测方法包括:获取待预测磁盘的预测数据集,所述预测数据集包括预测样本IO的IO信息和与所述预测样本IO相对应的SMART信息,其中,所述预测数据集采集于所述待预测磁盘的缓存盘加速场景;将所述预测数据集输入至预先训练好的预测模型,得出所述待预测磁盘的预测结果。根据本发明实施例提供的方案,能够结合IO信息和SMART信息,对所有类型的磁盘进行磁盘失效预测,有效降低了数据丢失的风险。
下面结合附图,对本发明实施例作进一步阐述。
如图1所示,图1是本发明一个实施例提供的磁盘失效预测方法的流程图,该磁盘失效预测方法包括但不限于有步骤S110和步骤S120。
步骤S110,获取待预测磁盘的预测数据集,预测数据集包括预测样本IO的IO信息和与预测样本IO相对应的SMART信息,其中,预测数据集采集于待预测磁盘的缓存盘加速场景。
需要说明的是,待预测磁盘每个预测样本IO的IO信息包括IO时延、IO大小、IO状态信息等多个属性,因此采用IO信息作为预测模型的输入,可以有效缓解属性不足的问题。
需要说明的是,本实施例可以通过磁盘的每秒读写操作次数(Input Output persecond,IOPS)确定预测样本IO最小的允许时间,将该最小的允许时间确定为时长阈值,当若干个IO的时长之和大于该时长阈值,可以确定预测样本IO均属于大块IO,即IO所对应的磁盘工作场景属于缓存盘加速场景。值得注意的是,在缓存盘加速的场景下,容易知道下发磁盘的IO是趋向于大块读写,小块IO较少,同时块层通常最大IO是512K,因此IO大小的范围相对较小。这为跟踪磁盘的IO大小提供了依据。本领域技术人员可以理解的是,在存储系统中,为保证存储服务质量,通常前端应用会进行服务能力匹配、存储侧会设置前端服务质量(Quality of Service,QOS)、后端QOS等,这些QOS有效地防止了IO在绝大部分情况下地突发,避免IO队列深度过大,磁盘负荷过重从而无法提供稳定地服务。综上所述,在缓存盘加速的场景下,统计大块IO在一定负载下的时延信息具有明显的意义,从应用层面提供了丰富的磁盘状态标识,因此,缓存盘加速场景下的IO信息能够用于进行失效预测。
值得注意的是,本实施例的预测数据集既包括IO信息,也包括相对应的SMART信息,上述相对应的SMART信息,可以是执行该预测样本IO过程中的SMART信息,也可以是根据采集周期对SMART信息进行采集,例如每天采集一次,具体的采集方法和周期根据实际情况调整即可,能够使得SMART信息与IO信息有一定的关联性即可。
需要说明的是,由于不同类型的磁盘的物理属性不同,因此其失效的标准不同,在对预测模型进行训练时可以将磁盘类型信息作为其中一个选择特征,使得预测模型得出的预测结果能够表征该类型磁盘的失效风险,基于此,还可以获取磁盘类型信息作为预测模型的输入,从而使得预测模型能够对不同类型的磁盘进行失效预测。可以理解的是,磁盘类型信息可以包括磁盘厂商、磁盘型号、磁盘容量、磁盘序列号和转速,本实施例对此不多作限定。
步骤S120,将预测数据集输入至预先训练好的预测模型,得出待预测磁盘的预测结果。
在一实施例中,具体的预测时机可以根据运营需求制定每天进行一次预测,减少数据丢失的风险,也可以是每采集一次IO信息和SMART信息后进行一次预测,根据实际需求调整即可。
值得注意的是,由于IO路径上不仅受磁盘本身的影响,还要受到控制器、扩展卡、线缆甚至操作系统的影响。IO信息是最终一个综合的信息,需要结合磁盘本身的一些信息来进行综合判断,并不能单独用来预测,否则容易误告警,比如将扩展卡某个物理口有问题告警成磁盘失效。而SMART信息为表征磁盘参数状态的信息,因此结合IO信息的特征与SMART信息的特征能够更加准确地预测出待预测磁盘的失效风险。
可以理解的是,采用预测模型进行预测结果的获取,可以预先根据IO信息和SMART信息对预测模型进行训练,例如可以采用IO信息中的时延信息、SMART信息中各参数的变化率、SMART信息中各参数的变化率增加的绝对值作为训练的特征,将特征进行标注之后输入至预测模块进行训练,使得预测模型能够根据上述特征得出待预测磁盘的预测结果。
在一实施例中,预测结果可以采用任意形式,例如是待预测磁盘当前的失效风险概率,或者是具体的风险数值等,也可以根据特定的采集周期确定对应的预测结果,例如是预测数据集为一周内的数据,得出的预测结果为未来一周失效的风险概率,能够反映出待预测磁盘的失效风险即可,在此不多做限定。
另外,在一实施例中,应用本申请的磁盘失效预测方法的系统架构图可以如图2所示,其中,包括预测中心和若干个代理节点,预测中心和代理节点均可以采用电子设备或者服务器的形式,在此不多作限定。预测中心可以包括告警管理模块、预测模块和磁盘信息管理模块,其中,告警管理模块用于在检测到磁盘处于高风险时进行告警提示,预测模块用于根据预测数据集进行待预测磁盘的失效风险预测,磁盘信息管理模块用于接收并管理代理节点发送的IO信息和SMART信息,并形成预测数据集。代理节点包括IO模块和SMART模块,其中,IO模块用于获取代理节点的磁盘的IO信息,并根据预设规则对IO信息进行筛选,使得筛选后的IO信息能够用于形成预测数据集;SMART模块用于采集代理节点的磁盘的SMART信息。需要说明的是,本申请并不涉及代理节点和预测中心的具体结构改进,仅涉及对采集的数据进行处理,在此不多做赘述。
另外,参照图3,在一实施例中,IO信息还包括IO时间信息,图1所示实施例中的步骤S120还包括但不限于有以下步骤:
步骤S310,确定预测周期,根据预测周期和IO时间信息从预测数据集中确定周期数据集;
步骤S320,根据周期数据集和预测模型,得出待预测磁盘在预测周期中的周期失效概率;
步骤S330,根据周期失效概率确定待预测磁盘的预测结果。
在一实施例中,预测周期可以根据实际需求选取,例如为了确定待预测磁盘近期的失效风险预测,将预测周期确定为若干天或者一周、两周,若为了确定待预测磁盘较长一段时间后的失效风险,可以将预测周期确定为一个月,具体根据实际需求调整即可。可以理解的是,预测周期可以是任意数量,例如同时获取一周、两周和四周的数据,并获取每个预测周期的预测结果,使得待预测磁盘的失效风险预测更加准确。
在一实施例中,如图2所示,磁盘信息管理模块中保存有采集到的预测数据集,为了减少存储压力,还可以对采集的数据进行生命周期管理,例如设定好的预测周期为一周,则可以通过生命周期管理,使得磁盘信息管理模块中的预测数据集中的IO信息和SMART信息均为一周内采集的数据,具体的生命周期管理方法并非本实施例作出的改进,在此不再赘述。
在一实施例中,IO时间信息可以是待预测磁盘执行该IO的具体时间信息,例如该IO开始执行的时间,也可以是该IO执行完成的时间,具体的选取的标准根据实际情况调整即可,在此不多作限定。
在一实施例中,周期失效概率为以预测周期为长度,待预测磁盘的失效概率,例如预测周期为一周,获取的周期数据集为过去一周内采集到的IO信息和SMART信息,根据上述信息进行失效预测,所得出的周期失效概率为该待预测磁盘未来一周内的失效概率。
另外,参照图4,在一实施例中,图3所示实施例中的步骤S330还包括但不限于有以下步骤:
步骤S410,当周期失效概率大于与预测周期相对应的预设的概率阈值,将预测结果确定为高风险;
步骤S420,当周期失效概率小于或等于概率阈值,将预测结果确定为低风险。
需要说明的是,概率阈值可以根据实际的风险管理需求确定,例如设定概率阈值大于80%为失效风险较高,小于或等于80%为失效风险较低,本实施例并不对具体的概率阈值作出限定,当然,也可以根据实际需求设定若干个风险等级所对应的若干个概率阈值,在此不再赘述。
需要说明的是,采用风险等级作为预测结果,能够体现探测磁盘的故障概率,以便于在检测到预测结果为高风险的情况下提前安排更换磁盘的时间,尤其可以减少多个磁盘同时出现故障的情况,减少数据丢失的风险。同时,还可以通过设置低风险所对应的概率阈值,使得周期失效概率低于该概率阈值的情况下不产生告警,有效减少误告警率。
可以理解的是,周期失效概率为与预测周期相对应的预测结果,并不会对不同预测周期的预测结果造成影响,例如,预测周期为一周的周期失效概率和预测周期为二周的周期失效概率为相互独立的参数,即确定预测周期为二周的预测结果时并不会考虑预测周期为一周的周期失效概率,在此不多作赘述。
另外,参照图5,在一实施例中,图4所示实施例中的步骤S410还包括但不限于有以下步骤:
步骤S510,当周期失效概率大于概率阈值,确定周期失效概率所对应的预测周期为高风险周期;
步骤S520,当预测周期被确定为高风险周期的次数大于预先设定的告警数阈值,将预测结果确定为高风险。
在一实施例中,采用告警数阈值能够有效减少误告警数,在实际预测的过程中,由于采用周期预测的方式,很可能某一天的数据异常导致预测结果为高风险,因此通过多次预测,能够有效减少偶发异常造成的预测结果偏差,具体的告警数阈值可以根据实际需求调整,在此不多作限定。
在一实施例中,当确定预测结果为高风险,还可以根据待预测磁盘的基本信息生成告警信息,基本信息可以是磁盘的型号、安装的位置等,在此不多作限定。可以理解的是,告警信息可以通过图2所示的告警管理模块生成,例如向后台管理系统推送告警信息,并且在告警信息中携带磁盘的基本信息,以便于维护人员及时准确地进行磁盘的维护。
另外,参照图6,在一实施例中,IO信息还包括IO时长和IO大小,待预测磁盘的缓存盘加速场景由以下步骤确定:
步骤S610,获取待预测磁盘的IOPS,根据待预测磁盘的IOPS和IO大小确定时长阈值;
步骤S620,当IO时长大于时长阈值,确定待预测磁盘处于缓存盘加速场景。
需要说明的是,待预测磁盘的IOPS可以通过任意方式获取,例如读取待预测磁盘的IOPS性能参数,也可以通过实际测试的方法对待预测磁盘进行若干次IO的测试所得,具体方式根据实际需求选取即可。
可以理解的是,时长阈值可以通过IO大小除以IOPS所得,由于IOPS用于表征磁盘的读写操作能力,因此时长阈值可以用于表征磁盘处理特定IO大小所需要的最小允许时间,当IO时长大于该最小允许时间,则可以确定该IO执行与缓存盘加速场景中。
值得注意的是,可以通过一个IO
另外,在一实施例中,SMART信息包括至少包括如下之一:
累计启停次数;
累计加载卸载次数;
成长坏道数;
非媒介错误计数;
不可修复的错误数。
在一实施例中,SMART信息可以包括任意可获取到的属性,例如磁盘健康评分(SMART Health Status)、累计启停次数(Accumulated start-stop cycles)、累计加载卸载次数(Accumulated load-unload cycles)、成长坏道数(Elements in grown defectlist)、非媒介错误计数(Non-medium error count)和不可修复的错误数,其中,不可修复的错误数可以包括不可修复的读操作错误数(Total uncorrected read errors)、不可修复的写操作错误数(Total uncorrected write errors),本领域技术人员有动机根据实际需求增加或者减少具体的磁盘参数,在此不多作限定。
可以理解的是,基于上述磁盘参数,为了表征磁盘的失效风险,可以采用每个磁盘参数的变化率和增量值,磁盘参数的变化率可以是表征具体数值变化速度快慢的参数,磁盘参数的增量值可以是增量值的绝对值,能够用于表征磁盘参数的变化幅度即可,当磁盘参数的变化幅度越大,则磁盘失效的风险越大。
另外,参照图7,本发明实施例还提供了一种预测模型训练方法,包括但不限于有步骤S710和步骤S720。
步骤S710,获取训练样本磁盘的预测训练样本集,预测训练样本集包括若干个训练样本IO的训练样本IO信息和与训练样本IO相对应的训练样本SMART信息,其中,预测训练样本集采集于训练样本磁盘的缓存盘加速场景。
在一实施例中,预测训练样本集的获取方式可以通过IOPS性能模型从图1所示实施例中所述的缓存盘加速场景中获取,IOPS性能模型可以通过手动测试不同大块IO在不同队列深度下的IOPS性能得出。可以理解的是,IOPS性能模型能够用于表征磁盘的读写能力,因此,对于一定数量的IO,能够利用IOPS性能模型计算出预估的允许时间,即上述的时长阈值,当若干个IO的实际处理时长大于该时长阈值,则可以认为该IO来自于处于缓存盘加速场景中,可以确定为有效的样本。可以理解的是,预测训练样本集可以采用周期性采集的方式,例如每天采集一次,具体周期根据实际需求选取即可。
值得注意的是,预测训练样本采集于缓存盘加速场景的原理可以参考图2实施例所述的原理,在此不多作赘述。
步骤S720,根据预测训练样本集训练预测模型。
在一实施例中,预测模型的训练可以是每天训练一次,也可以是根据实际需求调整,在此不多作限定。可以理解的是,当训练样本集包括若干个样本子集的情况下,可以根据样本子集分别进行训练,例如根据周期的不同采集了一周、两周和四周内的预测训练样本集,则分别针对对应的周期进行训练,从而使得预测模型能够对不同周期进行失效预测。
在一实施例中,预测模型可以采用常见的模型框架,例如LightGBM框架。需要说明的是,在对预测模型进行训练之前,还需要对模型的基本参数进行设置,例如当采用的模型框架为上述的LightGBM框架,可以按照下表1的方式设置框架参数:
参数名称
Learing rate 0.35
Iteration rounds 110
Cross validation 5
Total sample number 5160
Terminal condition 10<sup>-4</sup>
表1模型框架参数配置表
另外,参照图8,在一实施例中,训练样本IO信息包括训练样本IO时长和训练样本IO大小,图7所示实施例中的步骤S710还包括但不限于有以下步骤:
步骤S810,获取训练样本磁盘的IOPS,根据训练样本磁盘的IOPS和训练样本IO大小确定训练样本时长阈值;
步骤S820,当训练样本IO时长大于训练样本时长阈值,确定训练样本磁盘处于缓存盘加速场景。
需要说明的是,确定训练样本磁盘处于缓存盘加速场景的原理可以参考图6所示实施例的描述,为了叙述简便在此不多作赘述。
另外,参照图9,在一实施例中,图8所示实施例中的步骤S810还包括但不限于有以下步骤:
步骤S910,确定训练样本磁盘在缓存盘加速场景中的全部IO为备选IO;
根据预设条件从训练样本磁盘的全部IO中确定训练样本IO,将训练样本IO的IO信息确定为训练样本IO信息;
步骤S920,根据预设条件从备选IO中确定训练样本IO,将训练样本IO的IO信息确定为训练样本IO信息;
步骤S930,从训练样本磁盘的SMART信息中获取与训练样本IO相对应的训练样本SMART信息;
步骤S940,对训练样本IO信息和训练样本SMART信息进行预处理,并根据预处理后的训练样本IO信息和训练样本SMART信息生成预测训练样本集。
需要说明的是,虽然缓存盘加速场景中大多数的IO为大块IO,但是并非所有IO都能够用于模型的训练,因此,需要先将缓存盘加速场景中的IO确定为备选IO,再根据预设条件从备选IO中筛选出训练样本IO。
在一实施例中,在获取到训练样本IO和训练样本SMART信息后,对训练样本进行的预处理可以检查训练样本合法性、检查训练样本是否满足时间要求,也可以根据实际需求增加或减少对应的操作,例如处理正负样本不平衡等,在此不再赘述。可以理解的是,检查训练样本的合法性,主要用于确保获取的备选IO是连续的,避免获取过程被中断的IO作为训练样本,例如在某个IO执行的过程中,磁盘发生断电,则导致该IO为不连续的IO,其IO信息存在较大的偏差,无法应用于训练,因此可以通过预处理对该类型的样本进行去除。可以理解的是,检查训练样本是否满足时间要求,可以根据设置好的训练周期确定,例如设置好的最长的训练周期为四周,则对于四周以前的训练样本进行去除,以确保数据的时效性。
在一实施例中,在获取到训练样本IO和训练样本SMART信息后,还可以进行特征扩展,有利于加大数据的离散化,例如,在IO信息包括时延信息、状态信息、IO时间信息的基础上,对训练样本IO进行以下特征扩展:预先设置若干个时延段,例如0至32毫秒,32毫秒至64毫秒,64毫秒至128毫秒,128毫秒至512毫秒,>=512毫秒,根据训练样本IO信息中的时延信息,确定每个训练样本IO信息所处的时延段,并确定每个时延段的百分占比;磁盘健康度积分评估,将高时延段的比例进行适当权重加成,从而使更高时延段的比例占用更高的话语权,突出高时延带来的健康威胁;IO错误率,每个时延段中状态信息为IO错误的IO占整体IO的比例;每个时延段中按从大到小排序前N个的时延的平均值,N的数值可以根据实际需求选取。可以理解的是,SMART信息多为统计数据,因此可以对SMART信息中各统计数据进行变化率以及增加的绝对值的获取,以实现特征扩展,在此不多作赘述。
另外,参考图10,在一实施例中,训练样本IO信息还包括状态信息、时延信息和IO时间信息,预设条件至少包括如下之一:
状态信息为用于表征IO错误的错误状态;
IO大小大于预设的IO大小阈值;
当前已被确定为训练样本IO的数量小于预设的数量阈值;
IO时间信息符合预先设置的样本采集周期;
时延信息满足预先设定的时延分布区间。
在一实施例中,预设条件可以由图2所示的IO模块进行判断和数据筛选,例如可以根据采集周期,确定统计列表。为了叙述便利,以下结合图10对本实施例的预设条件进行举例说明:
在IO模块获取到备选IO后,首先判断备选IO的状态信息是否为IO错误,若是则直接加入统计列表,通过采集状态信息为IO错误的IO并用于训练,使得预测模型能够更加准确地预测出磁盘可能出现错误的概率。若备选IO的状态信息为IO正确,则对确定IO大小是否满足IO大小阈值进行判断,基于上述实施例的分析,大块IO的时延特性能够用于对磁盘失效进行预测,因此,本实施例可以只统计特定大小的IO,例如只统计在128K至512K范围内的IO,若备选IO大小大于IO大小阈值,则将该备选IO加入待选列表,否则对IO的数量进行判断,避免IO的采集数量不足。当已被采集的备选IO的数量超过数量阈值,则已经采集到足够的训练样本IO,此时可以将统计列表和待选列表中的备选IO确定为训练样本IO,而不采集当前的备选IO;若未超过数量阈值,则需要对当前的备选IO进行判断,例如通过备选IO的IO时间信息,确定该备选IO处于样本采集周期内,若否,则可以判断该备选IO的采集时间不满足采集周期,并且由于备选IO的采集是按照时间顺序采集,因此,此时可以确定备选IO的采集已经超期,则可以清理待选列表,并且停止备选IO的采集,若未超过采集周期,则该备选IO为有效的IO,将其加入统计列表,并将统计列表和待选列表中的备选IO确定为训练样本IO。
可以理解的是,预先设定的时延分布区间可以根据实际需求设置,例如上述实施例中的时延分布区间:0至32毫秒,32毫秒至64毫秒,64毫秒至128毫秒,128毫秒至512毫秒,>=512毫秒,当训练样本IO的时延信息满足上述时延分布区间,则可以进一步确定为可用的训练样本IO。
另外,参照图11,在一实施例中,图7所示实施例中的步骤S720还包括但不限于有以下步骤:
步骤S1110,获取预先设置的训练周期,根据训练样本IO的IO时间信息确定与训练周期相对应的周期样本集;
步骤S1120,根据周期样本集训练预测模型。
在一实施例中,训练周期可以根据实际需求选取,例如根据当前的时间,获取前第一周、前二周和前四周的训练样本作为周期样本集,使得预测模型可以根据不同的预测周期进行磁盘失效预测。
可以理解的是,在确定训练周期后,进行磁盘失效预测时可以根据相同的周期进行预测数据集的采集,从而获取出对应周期内的预测结果。
另外,在一实施例中,训练样本SMART信息至少包括如下之一:
累计启停次数;
累计加载卸载次数;
成长坏道数;
非媒介错误计数;
不可修复的错误数。
需要说明的是,对于训练样本SMART信息的选取,可以参考上述磁盘失效预测方法中SMART信息的选取原理,为了叙述简便在此不再赘述。
另外,参照图12,在一实施例中,图7所示实施例中的步骤S720还包括但不限于有以下步骤:
步骤S1210,按照预设比例从预测训练样本集中分割出训练样本集和测试样本集;
步骤S1220,根据训练样本集训练预测模型,并根据测试样本集对训练后的预测模型进行验证测试。
在一实施例中,预设比例可以是任意数值,根据实际需求调整即可,例如按照8:2的比例进行训练样本集和测试样本集的分割。
需要说明的是,上述实施例中的特征扩展操作可以在分割预测训练样本集之前,也可以在分割之后,本实施例对此不多作限定。
需要说明的是,通过测试样本集对预测模型进行验证测试时,可以采用常见的测试指标并设定阈值进行判断,例如错误发现率(False Discovery Rate,FDR)、错误接受率(False Accept Rate FAR),具体的阈值设定标准可以根据实际需求调整,在此不多作限定。
另外,参考图13,本发明的一个实施例还提供了一种电子设备,该电子设备1300包括:存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序。
处理器1320和存储器1310可以通过总线或者其他方式连接。
实现上述实施例的磁盘失效预测方法所需的非暂态软件程序以及指令存储在存储器1310中,当被处理器1320执行时,执行上述实施例中的应用于电子设备1300的磁盘失效预测方法,例如,执行以上描述的图1中的方法步骤S110至步骤S120,图3中的方法步骤S310至步骤S330,图4中的方法步骤S410至步骤S420,图5中的方法步骤S510至步骤S520,图6中的方法步骤S610至步骤S620,图7中的方法步骤S710至步骤S720,图8中的方法步骤S810至步骤S820,图9中的方法步骤S910至步骤S940,图11中的方法步骤S1110至步骤S1120,图12中的方法步骤S1210至步骤S1220。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的应用于电子设备的磁盘失效预测方法,例如,执行以上描述的图1中的方法步骤S110至步骤S120,图3中的方法步骤S310至步骤S330,图4中的方法步骤S410至步骤S420,图5中的方法步骤S510至步骤S520,图6中的方法步骤S610至步骤S620,图7中的方法步骤S710至步骤S720,图8中的方法步骤S810至步骤S820,图9中的方法步骤S910至步骤S940,图11中的方法步骤S1110至步骤S1120,图12中的方法步骤S1210至步骤S1220。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims (15)

1.一种磁盘失效预测方法,包括:
获取待预测磁盘的预测数据集,所述预测数据集包括预测样本IO的IO信息和与所述预测样本IO相对应的SMART信息,其中,所述预测数据集采集于所述待预测磁盘的缓存盘加速场景;
将所述预测数据集输入至预先训练好的预测模型,得出所述待预测磁盘的预测结果。
2.根据权利要求1所述的方法,其特征在于,所述IO信息还包括IO时间信息,所述将所述预测数据集输入至预先训练好的预测模型,得出所述待预测磁盘的预测结果,包括:
确定预测周期,根据所述预测周期和所述IO时间信息从所述预测数据集中确定周期数据集;
根据所述周期数据集和所述预测模型,得出所述待预测磁盘在所述预测周期中的周期失效概率;
根据所述周期失效概率确定所述待预测磁盘的预测结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述周期失效概率确定所述待预测磁盘的预测结果,包括:
当所述周期失效概率大于与所述预测周期相对应的预设的概率阈值,将所述预测结果确定为高风险;
当所述周期失效概率小于或等于所述概率阈值,将所述预测结果确定为低风险。
4.根据权利要求3所述的方法,其特征在于,所述当所述周期失效概率大于所述概率阈值,将所述预测结果确定为高风险,包括:
当所述周期失效概率大于所述概率阈值,确定所述周期失效概率所对应的预测周期为高风险周期;
当所述预测周期被确定为高风险周期的次数大于预先设定的告警数阈值,将所述预测结果确定为高风险。
5.根据权利要求1所述的方法,其特征在于,所述IO信息还包括IO时长和IO大小,所述待预测磁盘的缓存盘加速场景由以下步骤确定:
获取所述待预测磁盘的IOPS,根据所述待预测磁盘的IOPS和所述IO大小确定时长阈值;
当所述IO时长大于所述时长阈值,确定所述待预测磁盘处于缓存盘加速场景。
6.根据权利要求1所述的方法,其特征在于,所述SMART信息至少包括如下之一:
累计启停次数;
累计加载卸载次数;
成长坏道数;
非媒介错误计数;
不可修复的错误数。
7.一种预测模型训练方法,包括:
获取训练样本磁盘的预测训练样本集,所述预测训练样本集包括训练样本IO的训练样本IO信息和与所述训练样本IO相对应的训练样本SMART信息,其中,所述预测训练样本集采集于所述训练样本磁盘的缓存盘加速场景;
根据所述预测训练样本集训练所述预测模型。
8.根据权利要求7所述的方法,其特征在于,所述训练样本IO信息包括训练样本IO时长和训练样本IO大小,所述训练样本磁盘的缓存盘加速场景由以下步骤确定:
获取所述训练样本磁盘的IOPS,根据所述训练样本磁盘的IOPS和所述训练样本IO大小确定训练样本时长阈值;
当所述训练样本IO时长大于所述训练样本时长阈值,确定所述训练样本磁盘处于缓存盘加速场景。
9.根据权利要求8所述的方法,其特征在于,所述获取训练样本磁盘的预测训练样本集,包括:
确定所述训练样本磁盘在所述缓存盘加速场景中的全部IO为备选IO;
根据所述预设条件从所述备选IO中确定训练样本IO,将所述训练样本IO的IO信息确定为训练样本IO信息;
从所述训练样本磁盘的SMART信息中获取与所述训练样本IO相对应的训练样本SMART信息;
对所述训练样本IO信息和所述训练样本SMART信息进行预处理,并根据预处理后的所述训练样本IO信息和所述训练样本SMART信息生成预测训练样本集。
10.根据权利要求9所述的方法,其特征在于,所述训练样本IO信息还包括状态信息、时延信息和IO时间信息,所述预设条件至少包括如下之一:
所述状态信息为用于表征IO错误的错误状态;
所述IO大小大于预设的IO大小阈值;
当前已被确定为训练样本IO的数量小于预设的数量阈值;
所述IO时间信息符合预先设置的样本采集周期;
所述时延信息满足预先设定的时延分布区间。
11.根据权利要求10所述的方法,其特征在于,所述根据所述预测训练样本集训练所述预测模型,还包括:
获取预先设置的训练周期,根据所述训练样本IO的所述IO时间信息确定与所述训练周期相对应的周期样本集;
根据所述周期样本集训练所述预测模型。
12.根据权利要求7至9任意一项所述的方法,其特征在于,所述训练样本SMART信息至少包括如下之一:
累计启停次数;
累计加载卸载次数;
成长坏道数;
非媒介错误计数;
不可修复的错误数。
13.根据权利要求8所述的方法,其特征在于,所述根据所述预测训练样本集训练所述预测模型,还包括:
按照预设比例从所述预测训练样本集中分割出训练样本集和测试样本集;
根据所述训练样本集训练所述预测模型,并根据所述测试样本集对训练后的所述预测模型进行验证测试。
14.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的磁盘失效预测方法,或者执行如权利要求7至13中任意一项所述的预测模型训练方法。
15.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至6中任意一项所述的磁盘失效预测方法,或者执行如权利要求7至13中任意一项所述的预测模型训练方法。
CN202011394121.0A 2020-12-03 2020-12-03 磁盘失效预测方法、预测模型训练方法、电子设备 Pending CN114595085A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011394121.0A CN114595085A (zh) 2020-12-03 2020-12-03 磁盘失效预测方法、预测模型训练方法、电子设备
PCT/CN2021/133728 WO2022116922A1 (zh) 2020-12-03 2021-11-26 磁盘失效预测方法、预测模型训练方法、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011394121.0A CN114595085A (zh) 2020-12-03 2020-12-03 磁盘失效预测方法、预测模型训练方法、电子设备

Publications (1)

Publication Number Publication Date
CN114595085A true CN114595085A (zh) 2022-06-07

Family

ID=81813354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011394121.0A Pending CN114595085A (zh) 2020-12-03 2020-12-03 磁盘失效预测方法、预测模型训练方法、电子设备

Country Status (2)

Country Link
CN (1) CN114595085A (zh)
WO (1) WO2022116922A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822657A (zh) * 2023-08-25 2023-09-29 之江实验室 一种模型训练加速的方法、装置、存储介质及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115145494B (zh) * 2022-08-11 2023-09-15 江苏臻云技术有限公司 一种基于大数据时间序列分析的磁盘容量预测系统及方法
CN116259337B (zh) * 2023-05-15 2023-09-05 合肥联宝信息技术有限公司 磁盘异常检测方法及模型训练方法、相关装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268375B2 (en) * 2016-05-27 2019-04-23 Netapp, Inc. Methods for proactive prediction of disk failure in the disk maintenance pipeline and devices thereof
CN110389866A (zh) * 2018-04-20 2019-10-29 武汉安天信息技术有限责任公司 磁盘故障预测方法、装置、计算机设备及计算机存储介质
CN109376905A (zh) * 2018-09-20 2019-02-22 广东亿迅科技有限公司 磁盘空间预测方法、装置、计算机设备和存储介质
CN109828869B (zh) * 2018-12-05 2020-12-04 南京中兴软件有限责任公司 预测硬盘故障发生时间的方法、装置及存储介质
CN111581072B (zh) * 2020-05-12 2023-08-15 国网安徽省电力有限公司信息通信分公司 一种基于smart和性能日志的磁盘故障预测方法
CN112433896B (zh) * 2020-11-05 2023-12-22 北京浪潮数据技术有限公司 一种服务器磁盘故障预测方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822657A (zh) * 2023-08-25 2023-09-29 之江实验室 一种模型训练加速的方法、装置、存储介质及电子设备
CN116822657B (zh) * 2023-08-25 2024-01-09 之江实验室 一种模型训练加速的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
WO2022116922A1 (zh) 2022-06-09

Similar Documents

Publication Publication Date Title
CN114595085A (zh) 磁盘失效预测方法、预测模型训练方法、电子设备
CN109739739B (zh) 磁盘故障的预测方法、设备及存储介质
CN112188534B (zh) 一种异常检测方法和装置
CN112148561B (zh) 业务系统的运行状态预测方法、装置及服务器
CN111309502A (zh) 固态硬盘寿命预测方法
CN110175100B (zh) 一种存储盘故障预测方法及预测系统
CN115550195A (zh) 流量抑制预测方法、电子设备、存储介质
CN106708648B (zh) 一种文本数据的存储校验方法和系统
CN112328463A (zh) 一种日志监控方法及装置
CN113419885B (zh) 一种数据完整性处理方法、装置及电子设备
US20220101247A1 (en) Component replacement method and component replacement system
CN114661505A (zh) 存储部件故障处理方法、装置、设备和存储介质
CN115981911A (zh) 内存故障的预测方法、电子设备和计算机可读存储介质
CN111142898B (zh) 一种基于群体智能模式的数据防泄漏终端升级方法及系统
CN110058810B (zh) 分布式系统的磁盘清理方法和装置、分布式系统
CN112860527A (zh) 应用服务器的故障监测方法及装置
CN112769643A (zh) 资源调度方法、装置、电子设备及存储介质
CN114692082A (zh) 换电用户的识别方法、系统、设备和介质
CN111523609A (zh) 车辆数据处理方法、装置、计算机设备和存储介质
CN113676377B (zh) 基于大数据的在线用户数评估方法、装置、设备及介质
CN115686381B (zh) 存储集群运行状态的预测方法及装置
CN112039715A (zh) 一种网络系统容量预测方法及系统
CN116705137B (zh) 固态硬盘的测试模式切换方法
CN118093318A (zh) 基于id3决策树的日志健康度检测方法、装置和设备
CN116541244A (zh) kafka数据盘占用数据的实时监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination