CN110399238B - 一种磁盘故障预警方法、装置、设备及可读存储介质 - Google Patents

一种磁盘故障预警方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110399238B
CN110399238B CN201910569510.3A CN201910569510A CN110399238B CN 110399238 B CN110399238 B CN 110399238B CN 201910569510 A CN201910569510 A CN 201910569510A CN 110399238 B CN110399238 B CN 110399238B
Authority
CN
China
Prior art keywords
disk
data
performance data
early warning
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910569510.3A
Other languages
English (en)
Other versions
CN110399238A (zh
Inventor
段谊海
张东
郭锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201910569510.3A priority Critical patent/CN110399238B/zh
Publication of CN110399238A publication Critical patent/CN110399238A/zh
Application granted granted Critical
Publication of CN110399238B publication Critical patent/CN110399238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种磁盘故障预警方法,通过定期获取目标主机的磁盘smart数据作为磁盘性能数据,并根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,磁盘运行性能波动分析可以得到蕴含磁盘运行下的性能变化趋势信息的磁盘波动数据,将根据磁盘波动数据以及当前磁盘性能数据构造的矩阵输入至磁盘故障预测模型,可以同时兼顾蕴含磁盘运行下的性能变化趋势以及当前磁盘运行状态进行性能预测,全面考虑了磁盘运行中多种趋势信息对于预测结果生成过程所起的指导性作用,大大提升了磁盘预警的准确性,提高了设备运行的稳定性,保障了各种业务的正常运行。本申请还提供了一种磁盘故障预警装置、设备及一种可读存储介质,具有上述有益效果。

Description

一种磁盘故障预警方法、装置、设备及可读存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种磁盘故障预警方法、装置、设备及一种可读存储介质。
背景技术
随着互联网的飞速发展,数据中心等计算设备承载着各种数据的采集、存储及分析等功能,并随着业务的增加,业务主机会出现各种软件或者硬件的故障,影响着业务的稳定运行。其中,磁盘故障是数据中心最常见也是最频繁的故障,磁盘故障影响业务正常运行,甚至直接宕机,因此,磁盘的故障预测以及识别对于运行稳定性十分重要。
目前,传统的故障预测和识别方式一般将采集得到的当前磁盘smart数据输入至神经网络中,根据当前磁盘性能值预测在一定时间后是否存在故障风险。而由于磁盘性能变化以及预测是一个复杂持续的过程,并非仅仅由当前磁盘性能值所决定,因此该方法所能实现的磁盘故障预测功能十分有限,错误率较高。
因此,如何提升磁盘故障预测的准确性,提升设备以及业务运行的稳定性,是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的是提供一种磁盘故障预警方法,该方法同时根据磁盘运行性能波动分析得到的波动数据以及当前磁盘性能数据进行故障预测,提升了磁盘故障预测的准确性;本申请的另一目的是提供一种磁盘故障预警装置、设备及一种可读存储介质。
为解决上述技术问题,本申请提供一种磁盘故障预警方法,包括:
定期获取目标主机的磁盘smart数据,并将所述磁盘smart数据作为磁盘性能数据;
根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,生成磁盘波动数据;
根据所述磁盘波动数据以及当前磁盘性能数据进行矩阵构造,并将生成的矩阵作为输入矩阵;
将所述输入矩阵输入至预训练的磁盘故障预测模型进行故障预测,生成预测结果;
根据所述预测结果进行磁盘预警。
可选地,所述根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,包括:
将当前磁盘性能数据与指定历史磁盘性能数据做差值计算,并将得到的数据作为所述磁盘波动数据。
可选地,所述指定历史磁盘性能数据具体为:第一磁盘性能数据;其中,所述第一磁盘性能数据与所述当前磁盘性能数据的采集时间间隔小于时间阈值;
则相应地,将当前磁盘性能数据与所述指定磁盘性能数据做差值计算,具体为:将所述当前磁盘性能数据与所述第一磁盘性能数据做差值计算。
可选地,根据所述磁盘波动数据以及当前磁盘性能数据进行矩阵构造,包括:
将所述磁盘波动数据以及当前磁盘性能数据进行矩阵合并,得到合并矩阵;
对所述合并矩阵进行归一化处理,并将得到的矩阵作为所述输入矩阵。
可选地,在定期获取目标主机的磁盘smart数据之后,还包括:
从获取的磁盘smart数据中筛选出指定指标对应的目标数据,并将所述目标数据作为所述磁盘性能数据。
可选地,所述磁盘故障预测模型是根据故障前各时间阶段磁盘性能样本数据训练得到的发育网络。
可选地,所述磁盘故障预测模型的训练方法包括:
以指定天数作为划分间隔,根据磁盘发生故障前的天数信息将训练样本划分为若干类别;
对各类别的训练样本添加对应的磁盘预警标签;
将各类别下的训练样本输入至发育网络进行故障预测,生成测试标签;
判断所述磁盘预警标签与所述测试标签间的差异值是否达到输出阈值;
若未达到,根据所述差异值调整所述发育网络的参数;
若达到时,将所述发育网络作为所述磁盘故障预测模型。
本申请公开一种磁盘故障预警装置,包括:
数据获取单元,用于定期获取目标主机的磁盘smart数据,并将所述磁盘smart数据作为磁盘性能数据;
波动分析单元,用于根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,生成磁盘波动数据;
矩阵构造单元,用于根据所述磁盘波动数据以及当前磁盘性能数据进行矩阵构造,并将生成的矩阵作为输入矩阵;
模型计算单元,用于将所述输入矩阵输入至预训练的磁盘故障预测模型进行故障预测,生成预测结果;
故障预警单元,用于根据所述预测结果进行磁盘预警。
本申请公开一种磁盘故障预警设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序时实现所述磁盘故障预警方法的步骤。
本申请公开一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现所述磁盘故障预警方法的步骤。
本申请提供的磁盘故障预警方法,通过定期获取目标主机的磁盘smart数据作为磁盘性能数据,并根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,磁盘运行性能波动分析可以得到蕴含磁盘运行下的性能变化趋势信息的磁盘波动数据,将根据磁盘波动数据以及当前磁盘性能数据构造的矩阵输入至磁盘故障预测模型,因此,该预测方法可以同时兼顾蕴含磁盘运行下的性能变化趋势以及当前磁盘运行状态进行性能预测,全面考虑了磁盘运行中多种趋势信息对于预测结果生成过程所起的指导性作用,大大提升了磁盘预警的准确性,提高了设备运行的稳定性,保障了各种业务的正常运行。
本申请还提供了一种磁盘故障预警装置、设备及一种可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种磁盘故障预警方法的流程图;
图2为本申请实施例提供的一种网络示意图;
图3为本申请实施例提供的一种磁盘故障预警装置的结构框图;
图4为本申请实施例提供的一种磁盘故障预警设备的结构示意图。
具体实施方式
本申请的核心是提供一种磁盘故障预警方法,该方法同时根据磁盘运行性能波动分析得到的波动数据以及当前磁盘性能数据进行故障预测,提升了磁盘故障预测的准确性;本申请的另一核心是提供一种磁盘故障预警装置、设备及一种可读存储介质。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一:
请参考图1,图1为本实施例提供的一种磁盘故障预警方法的流程图;该方法主要包括:
步骤s110、定期获取目标主机的磁盘smart数据,并将磁盘smart数据作为磁盘性能数据。
其中,“目标主机”指进行磁盘故障预警的主机。获取目标主机的磁盘smart数据,获取磁盘smart数据的过程可以参照相关技术中的介绍,本实施例中对此不作限定,比如可以通过对监控主机实时采集磁盘smart数据等,在此不再赘述。
磁盘smart数据的采集间隔时间可以根据实际监测需求进行设定,可以设定每隔5min采集一次,或者每隔3min等。
smart指“Self-Monitoring,Analysis and Reporting Technology”,中文意思是“自我监测分析与报告技术”,它可以对硬盘的温度、内部电路、盘片表面介质材料等进行监测,力求及时分析出硬盘可能发出的问题,并发出警告,从而保护数据不受损失。磁盘smart数据中包含各方面下多种的磁盘性能数据,将磁盘smart数据作为磁盘性能数据进行磁盘运行性能分析可以全面准确地反映磁盘实际运行情况。
由于磁盘smart数据中包含的数据指标比较多,包括重映射扇区数、寻道错误率、寻道性能等数据,为全面考虑各种指标数据对于磁盘故障预测的所起的作用,可以直接对磁盘smart数据中所有指标数据进行后续处理,为提升数据处理速度,也可以选取其中若干项指标数据进行后续处理,本实施例中对此不做限定。
其中,优选地,由于磁盘smart数据中包含的数据指标较多,有些数据参考性能较小,有些数据计算较为复杂,进行数据筛选可以避免无用数据的干扰,提升数据处理效率,优选地,可以选取其中若干项指标进行后续分析,则具体地,在定期获取目标主机的磁盘smart数据之后,还包括:从获取的磁盘smart数据中筛选出指定指标对应的目标数据,并将目标数据作为磁盘性能数据。
具体地,指定指标可以根据不同的对于磁盘性能的评估需求以及磁盘类型确定,本实施例中不做限定,比如可以为:底层数据读取错误率、磁盘读写通量性能、启动/停止计数、重映射扇区数、寻道错误率、寻道性能、通电时间累计、主轴起旋重试次数、磁盘校准重试次数、磁盘通电次数、软件读取错误率、坏块增长计数、编程失败块计数、擦写失败块计数、磨损平衡操作次数、串口降速错误计数、I/O错误检测与校正、感应运算振动检测、无法校正的错误、命令超时、气流温度、磁头加载/卸载计数、温度、重映射事件计数、奇偶校验错误率、写错误率、脱道错误率、逻辑读取错误率、扭矩放大计数等。磁盘smart数据中该些指标数据较为通用,且可以准确反映磁盘状态,有利于磁盘性能的精准分析,本实施例中仅以上述指标为例进行介绍,处于其它需求下选取的其它指标均可参照本实施例的介绍,在此不再赘述。
步骤s120、根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,生成磁盘波动数据。
波动分析指分析磁盘在不同时间段下的磁盘性能变化趋势,波动分析可以反映磁盘在运行中各部件随时间推移而发生变化的过程,通过对波动分析生成的磁盘波动数据进行磁盘故障预警分析考虑了磁盘运行中多种趋势信息对于预测结果生成过程所起的指导性作用,提升了磁盘故障预警的准确性。
本实施例中对具体的波动分析手段不做限定,具体可以采用计算变化差值、计算性能变化曲线图的斜率、计算多次历史值下的方差等等,可以根据实际精度分析的需要进行设定。其中,优选地,根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析的过程具体可以为:将当前磁盘性能数据与指定历史磁盘性能数据做差值计算,并将得到的数据作为磁盘波动数据。该方法通过差值计算进行波动分析实现方式简单,计算速度快,有利于提升整体预测速度。具体地,指定历史磁盘性能数据可以为任意时刻采集的磁盘性能数据,本实施例中对指定历史磁盘性能数据的采集时间不做限定,为避免过大的时间维度可以提升波动分析的准确性,优选地,指定历史磁盘性能数据具体可以为:第一磁盘性能数据;其中,第一磁盘性能数据与当前磁盘性能数据的采集时间间隔小于时间阈值;则相应地,将当前磁盘性能数据与指定磁盘性能数据做差值计算,具体为:将当前磁盘性能数据与第一磁盘性能数据做差值计算。其中,时间阈值可以根据预测需要进行设定,比如可以与设定的磁盘smart数据采集间隔相同等。
步骤s130、根据磁盘波动数据以及当前磁盘性能数据进行矩阵构造,并将生成的矩阵作为输入矩阵。
磁盘波动数据反映磁盘运行过程中的性能变化,当前磁盘性能数据反映当前磁盘运行状态,同时根据磁盘运行过程中的性能变化以及当前磁盘运行状态进行磁盘预测可以兼顾多方面因素对于磁盘故障预测的影响,提升预测的准确度。
为实现同时对磁盘波动数据以及当前磁盘性能数据的数据分析,将两部分数据进行矩阵构造。矩阵构造的过程可以参照相关技术中的实现步骤,本实施例中不做限定。可选地,一种矩阵构造方法如下:
将磁盘波动数据以及当前磁盘性能数据进行矩阵合并,得到合并矩阵;
对合并矩阵进行归一化处理,并将得到的矩阵作为输入矩阵。
其中,矩阵合并属于一种简单的矩阵构造方法,实现方式简单,可以同时保留波动数据以及当前磁盘性能数据的完整特征;另外,先矩阵合并后进行归一化处理可以归纳统一样本的统计分布性、统一基本度量单位、加快模型数据处理速度,另外在数据中常存在奇异样本数据,奇异样本数据存在所引起的网络训练时间增加,并可能引起网络无法收敛。归一化处理可以避免出现这种情况,加快网络学习速度。本实施例中仅以该种矩阵构造步骤为例进行介绍,其它构造过程均可参照本实施例的介绍,在此不再赘述。
步骤s140、将输入矩阵输入至预训练的磁盘故障预测模型进行故障预测,生成预测结果。
其中,磁盘故障预测模型可以参照相关磁盘故障预警方法中的网络模型的搭建以及训练过程,本实施例中对此不再赘述,需要说明的是,在进行模型训练过程中所使用的训练样本的数据处理过程需与上述步骤s110至步骤s130中的处理过程对应。
步骤s150、根据预测结果进行磁盘预警。
当预测结果显示在将来的某个时间段内可能会发生某种磁盘故障,影响系统正常业务的运行,可以根据预测结果中显示的时间段信息和/或故障类型等信息进行磁盘预警。
其中,预警的具体形式不做限定,可以以语音预警的形式输出,也可以以弹屏的形式输出等,具体可以参照相关磁盘故障预警中所采用的预警手段,在此不再赘述。
基于上述介绍,本实施例提供的磁盘故障预警方法通过定期获取目标主机的磁盘smart数据作为磁盘性能数据,并根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,磁盘运行性能波动分析可以得到蕴含磁盘运行下的性能变化趋势信息的磁盘波动数据,将根据磁盘波动数据以及当前磁盘性能数据构造的矩阵输入至磁盘故障预测模型,因此,该预测方法可以同时兼顾蕴含磁盘运行下的性能变化趋势以及当前磁盘运行状态进行性能预测,全面考虑了磁盘运行中多种趋势信息对于预测结果生成过程所起的指导性作用,大大提升了磁盘预警的准确性,提高了设备运行的稳定性,保障了各种业务的正常运行。
实施例二:
基于上述实施例,上述实施例中对具体采用的磁盘故障预测模型的网络结构类型不做限定,可以选用传统的神经网络。而一般来说,传统神经网络需要反复迭代,增长学习需要重新训练反复迭代,训练以及实际预测过程的速度较慢,时间占用较长,为提升训练速度以及实际调用时的数据处理速度,本实施例提供一种以发育网络作为磁盘故障预测模型的形式。
发育网络是模拟人类大脑的发育规律而提出的一种智能网络,其基本思想如下:
该发育网络有3个区域,X,Y和Z,这三个区域类似于一般神经元网络的输入层,隐含层和输出层,但信号传输方向及内部工作原理和一般的神经元网络截然不同,网络示意图如图2所示。X通常作为传感器与外界环境接触,可以对任意传感器类型进行建模(如视觉,听觉或触觉),既可以作为输入也可以作为输出。Y层作为发育网络的大脑,通常是隐含的(封闭于“脑壳”中的),不能直接与外界环境接触,只能通过与X、Z区域的连接获得信息。Z层一般作为执行器层,即可以是输入也可以是输出,当Z处于外界监督状态时,此时Z是网络的输入,否则,Z给出一个输出向量来驱动执行器(肌肉或腺体)作用于真实世界。三个区域由低到高的顺序是X,Y,Z,例如,X层提供由低到高的输入给Y层,Z层提供由高到低的输入给Y层。图2中Z区域是人类设计或教授的,Y区域是自主产生的(自然的或发育的)。
该发育网络的具体工作原理描述如下:
(1)在t=0时刻,对A={X,Y,Z}中的任一区域,初始化其自适应部分N=(V,G)以及反应向量r,其中V是突触权值,G是神经元的年龄。
2)在t=1,2,...时刻,对A中的任一区域,不断重复下面的两个步骤:
①利用面积函数f进行如下计算:
(r′,N′)=f(b,t,N) (1)
其中b(bottom-up)和t(top-down)分别是对应区域来自于当前网络响应向量r的自下而上和自上而下的输入,r′是其新的响应向量;
②进行如下替代:N←N′,r←r′
若X是传感器接口,则x∈X一直处于被外界环境监督的状态,若Z是执行器接口,只有当“老师”选择的情况下,z∈Z才处于被监督状态,否则Z给出执行器的输出。只有当X,Y和Z三个区域都至少更新一次以后,整个发育网络才完成一次更新。当整个发育网络更新两次,对于特定的上下文内容(x,z),其完成了一个回合的预测,因为发育网络需要进行2次区域更新,Y区域更新以及X和Z区域的并行更新,(x,z)的数据传递到Y层后进行Y区域的数据更新,更新后的Y区域的数据传递给X、Z区域完成X、Z区域中对应数据的更新。
对于区域A中的任一神经元都有权值向量v=(vb,vt),对应于区域的输入为p=(b,t)。对于区域Y,有自下而上的输入b和自上而下的输入t,区域X只有自上而下的输入t,区域Z只有自下而上的输入b。区域中每一个神经元激活之前的能量定义如下所示的两个归一化后的向量内积的和:
其中:是归一化后的突触向量/>的单位向量,/>是归一化后的输入向量的单位向量。内积测量了两个单位向量/>和/>匹配的程度,因为r(vb,b,vt,t)=cosθ,θ是两个单位向量/>和/>之间的夹角。激活前的能量值处于[-1,1]之间。
为模拟任一区域A中的侧向抑制(lateral inhibitions),只有前top-k个获胜的神经元可以被激活并进行更新。考虑k=1,获胜的(被激活的)神经元可通过如下方式进行辨识:
对于k=1,只有唯一的获胜者才能被激活,其响应值yj=1,其他的神经元不被激活。发育网络中的所有连接都是基于Hebbian学习规则进行学习的:激活神经元的前突触活动和后突触活动y同时激活。以Y区域为例(其他区域的学习方法与Y类似),如果前突触末端和后突触末端一起被激活,神经元的突触向量有一个突触增益/>其他没被激活的神经元不改变其状态。当一个神经元j被激活后,其权值按照类似Hebbian规则更新如下:
其中,ω2(nj)是与激活年龄(激活次数)相关的学习率,ω1(nj)是保持率,并且,ω1(nj)+ω2(nj)≡1。ω2(nj)的最简单形式是ω2(nj)=1/n,该式给出了输入采样均值的递归计算方法:
其中,ti是神经元的激活时间,获胜神经元的年龄加1,即nj←nj+1。
发育网络是一种仿人类网络,其自身一直持续学习,不需要重新训练而是继续增加新数据进行训练,因此相对于传统的神经网络训练速度会有很大提升,对应地,数据处理速度以及精度也会有很大的提升,优选地,可以调用根据故障前各时间阶段磁盘性能样本数据训练得到的发育网络进行故障预测。
具体地,对发育网络进行训练以及磁盘故障预测的过程如下:
(1)发育网络训练:
如图2,X层为构造的输入矩阵,Y层和Z层为随机初始化的神经元。
该结构的发育网络的训练,分为两步:X层和Y层之间的计算、Y层和Z层之间的计算。
X层和Y层的计算首先按照公式2,求Y层各个神经元的能量,然后按按照公式3,求出Y层神经元中能量最大的那个神经元j,认为神经元j被激活,其次是被激活的Y层的神经元j的权值,按照公式4进行更新权值,其他的神经元不进行任何操作,最后神经元j的年龄加1。此时,Y层的神经元的输出只有神经元j的输出为1,其他神经元的输出为0,作为Z层的输入。
Y层和Z层的计算:此时,Y层的输出作为Z层的输入,假设训练指定的是Z层第k个神经元响应,则Z层神经元k,按照公式4进行更新权值,其他神经元不进行更新,最后神经元k的年龄加1。
(2)发育网络磁盘故障预测:
在磁盘故障预测阶段,发育网络的权值不在改变,根据X层的构造的输入矩阵,按照公式2进行计算Y层神经元的能量,然后按照公式3,计算出能量最大的那个神经元的位置,其次Y层能量最大的神经元的输出设置为1,其他的神经元的输出设置为0,把Y层神经元的输出,作为Z层神经元的输入,然后,Z层神经元按照公式3,计算出Z层最大的那个神经元的位置i,则认为最终的分类为Z层神经元i对应的磁盘故障预测结果。
其中,对于上述训练过程中训练样本的划分方式以及预定义的标签形式不做限定,优选地,一种磁盘故障预测模型的训练方法如下:
以指定天数作为划分间隔,根据磁盘发生故障前的天数信息将训练样本划分为若干类别;
对各类别的训练样本添加对应的磁盘预警标签;
将各类别下的训练样本输入至发育网络进行故障预测,生成测试标签;
判断磁盘预警标签与测试标签间的差异值是否达到输出阈值;
若未达到,根据差异值调整发育网络的参数;
若达到时,将发育网络作为磁盘故障预测模型。
其中,指定天数的设定可以根据发育网络的识别精度以及数据量等参数确定,比如训练后的发育网络对于10天以内的数据预测精度在5天左右,对于10天至30天的数据预测精度在10天以内,对于30天以上的数据预测精度在10天以上;则对于故障前0-10天的数据可以以5天作为类别划分条件,对于故障前10-30天的数据可以以10天作为类别划分条件,对于故障前30-60天的数据可以以30天作为类别划分条件,对于故障前60天以上的数据由于预测精度低以及数量少等原因可以整体作为单独的一个类别。
具体地,为加深对上述训练过程的理解,以上述划分规则为例对训练过程如下:
对故障和故障前0-5天的添加分类标签1,对故障前6-10天的添加分类标签2,对故障前11-20天的添加分类标签3,对故障前21-30天的添加分类标签4,对故障前30-60天的添加分类标签5,若存在超过60天的训练样本,可以直接对故障前60天以后的数据添加分类标签6,其中,标签1代表5天内会出现磁盘故障,标签2代表10天内会出现磁盘故障,标签3代表20天内会出现磁盘故障,标签4代表30天内会出现磁盘故障,标签5代表60天内会出现磁盘故障,标签6代表正常,作为训练样本。
将具有对应标签的训练样本输入至发育网络进行训练,训练结束后,即可实现对磁盘的故障预测。依照上述划分方式输出的实际预测标签形式与训练形式相同,比如输入矩阵A后输出标签1,则可以得到距离当前0至5天以内可能会发生磁盘故障的预测结果。
该种训练方式对于训练样本的类别划分间隔适中,避免了划分间隔较长时预警效果不佳的劣势,也避免了划分间隔较短时检测精度较低的不足,在此仅以该种划分方式为例进行介绍,其它情况本实施例中不再赘述。
如果在训练完成后实际使用过程中输出的分类标准不能满足客户的需要,也可以将采集到的新的数据和旧的数据进行合并训练,以达到增长学习的过程,在此不做限定。
实施例三:
请参考图3,图3为本申请实施例提供的一种磁盘故障预警装置300的结构框图;可以包括:数据获取单元310、波动分析单元320、矩阵构造单元330、模型计算单元340以及故障预警单元350。本实施例提供的磁盘故障预警装置可与上述磁盘故障预警方法相互对照。
其中,数据获取单元310主要用于定期获取目标主机的磁盘smart数据,并将磁盘smart数据作为磁盘性能数据;
波动分析单元320主要用于根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,生成磁盘波动数据;
矩阵构造单元330主要用于根据磁盘波动数据以及当前磁盘性能数据进行矩阵构造,并将生成的矩阵作为输入矩阵;
模型计算单元340主要用于将输入矩阵输入至预训练的磁盘故障预测模型进行故障预测,生成预测结果;
故障预警单元350主要用于根据预测结果进行磁盘预警。
可选地,波动分析单元具体可以为性能差值计算单元,性能差值计算单元具体用于:将当前磁盘性能数据与指定历史磁盘性能数据做差值计算,并将得到的数据作为磁盘波动数据。
可选地,性能差值计算单元具体可以用于:将当前磁盘性能数据与第一磁盘性能数据做差值计算;其中,第一磁盘性能数据与当前磁盘性能数据的采集时间间隔小于时间阈值;。
可选地,矩阵构造单元具体可以包括:
合并子单元,用于将磁盘波动数据以及当前磁盘性能数据进行矩阵合并,得到合并矩阵;
归一化子单元,用于对合并矩阵进行归一化处理,并将得到的矩阵作为输入矩阵。
可选地,数据获取单元可以进一步用于从获取的磁盘smart数据中筛选出指定指标对应的目标数据,并将目标数据作为磁盘性能数据。
模型计算单元中调用的磁盘故障预测模型由模型训练单元训练得到,可选地,模型训练单元具体用于根据故障前各时间阶段磁盘性能样本数据对预搭建的发育网络进行训练,得到磁盘故障预测模型。
可选地,模型训练单元具体可以包括:
样本划分子单元,用于以指定天数作为划分间隔,根据磁盘发生故障前的天数信息将训练样本划分为若干类别;
标签添加子单元,用于对各类别的训练样本添加对应的磁盘预警标签;
样本输入子单元,用于将各类别下的训练样本输入至发育网络进行故障预测,生成测试标签;
差值判断子单元,用于判断磁盘预警标签与测试标签间的差异值是否达到输出阈值;若未达到,触发调整子单元;若达到时,将发育网络作为磁盘故障预测模型;
调整子单元用于根据差异值调整发育网络的参数。
本实施例提供的磁盘故障预警装置同时根据磁盘运行性能波动分析得到的波动数据以及当前磁盘性能数据进行故障预测,可以提升磁盘故障预测的准确性。
实施例四:
本实施例提供一种磁盘故障预警设备,包括:存储器以及处理器。
其中,存储器用于存储程序;
处理器用于执行程序时实现如上述磁盘故障预警方法的步骤,具体可参照上述实施例中对于磁盘故障预警方法的介绍,在此不再赘述。
请参考图4,为本实施例提供的一种磁盘故障预警设备的结构示意图,该磁盘故障预警设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在磁盘故障预警设备301上执行存储介质330中的一系列指令操作。
磁盘故障预警设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上面图1所描述的磁盘故障预警方法中的步骤可以由本实施例提供的磁盘故障预警设备的结构实现。
实施例五:
本实施例公开一种可读存储介质,其上存储有程序,程序被处理器执行时实现如磁盘故障预警方法的步骤,具体可参照上述实施例中对磁盘故障预警方法的介绍。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的磁盘故障预警方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (8)

1.一种磁盘故障预警方法,其特征在于,包括:
定期获取目标主机的磁盘smart数据,并将所述磁盘smart数据作为磁盘性能数据;
根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,生成磁盘波动数据;
根据所述磁盘波动数据以及当前磁盘性能数据进行矩阵构造,并将生成的矩阵作为输入矩阵;
将所述输入矩阵输入至预训练的磁盘故障预测模型进行故障预测,生成预测结果;
根据所述预测结果进行磁盘预警;
所述磁盘故障预测模型是根据故障前各时间阶段磁盘性能样本数据训练得到的发育网络;
所述磁盘故障预测模型的训练方法包括:
以指定天数作为划分间隔,根据磁盘发生故障前的天数信息将训练样本划分为若干类别,所述指定天数根据发育网络的识别精度以及数据量确定;
对各类别的训练样本添加对应的磁盘预警标签;
将各类别下的训练样本输入至发育网络进行故障预测,生成测试标签;
判断所述磁盘预警标签与所述测试标签间的差异值是否达到输出阈值;
若未达到,根据所述差异值调整所述发育网络的参数;
若达到时,将所述发育网络作为所述磁盘故障预测模型。
2.如权利要求1所述的磁盘故障预警方法,其特征在于,所述根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,包括:
将当前磁盘性能数据与指定历史磁盘性能数据做差值计算,并将得到的数据作为所述磁盘波动数据。
3.如权利要求2所述的磁盘故障预警方法,其特征在于,所述指定历史磁盘性能数据具体为:第一磁盘性能数据;其中,所述第一磁盘性能数据与所述当前磁盘性能数据的采集时间间隔小于时间阈值;
则相应地,将当前磁盘性能数据与指定磁盘性能数据做差值计算,具体为:将所述当前磁盘性能数据与所述第一磁盘性能数据做差值计算。
4.如权利要求1所述的磁盘故障预警方法,其特征在于,根据所述磁盘波动数据以及当前磁盘性能数据进行矩阵构造,包括:
将所述磁盘波动数据以及当前磁盘性能数据进行矩阵合并,得到合并矩阵;
对所述合并矩阵进行归一化处理,并将得到的矩阵作为所述输入矩阵。
5.如权利要求1所述的磁盘故障预警方法,其特征在于,所述在定期获取目标主机的磁盘smart数据之后,还包括:
从获取的磁盘smart数据中筛选出指定指标对应的目标数据,并将所述目标数据作为所述磁盘性能数据。
6.一种磁盘故障预警装置,其特征在于,包括:
数据获取单元,用于定期获取目标主机的磁盘smart数据,并将所述磁盘smart数据作为磁盘性能数据;
波动分析单元,用于根据各时间段下的磁盘性能数据进行磁盘运行性能波动分析,生成磁盘波动数据;
矩阵构造单元,用于根据所述磁盘波动数据以及当前磁盘性能数据进行矩阵构造,并将生成的矩阵作为输入矩阵;
模型计算单元,用于将所述输入矩阵输入至预训练的磁盘故障预测模型进行故障预测,生成预测结果;
故障预警单元,用于根据所述预测结果进行磁盘预警;
模型训练单元具体用于根据故障前各时间阶段磁盘性能样本数据对预搭建的发育网络进行训练,得到磁盘故障预测模型;
模型训练单元具体包括:
样本划分子单元,用于以指定天数作为划分间隔,根据磁盘发生故障前的天数信息将训练样本划分为若干类别,所述指定天数根据发育网络的识别精度以及数据量确定;
标签添加子单元,用于对各类别的训练样本添加对应的磁盘预警标签;
样本输入子单元,用于将各类别下的训练样本输入至发育网络进行故障预测,生成测试标签;
差值判断子单元,用于判断磁盘预警标签与测试标签间的差异值是否达到输出阈值;若未达到,触发调整子单元;若达到时,将发育网络作为磁盘故障预测模型;
调整子单元用于根据差异值调整发育网络的参数。
7.一种磁盘故障预警设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序时实现如权利要求1至5任一项所述磁盘故障预警方法的步骤。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至5任一项所述磁盘故障预警方法的步骤。
CN201910569510.3A 2019-06-27 2019-06-27 一种磁盘故障预警方法、装置、设备及可读存储介质 Active CN110399238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910569510.3A CN110399238B (zh) 2019-06-27 2019-06-27 一种磁盘故障预警方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910569510.3A CN110399238B (zh) 2019-06-27 2019-06-27 一种磁盘故障预警方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110399238A CN110399238A (zh) 2019-11-01
CN110399238B true CN110399238B (zh) 2023-09-22

Family

ID=68324293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910569510.3A Active CN110399238B (zh) 2019-06-27 2019-06-27 一种磁盘故障预警方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110399238B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179968B (zh) * 2016-03-09 2020-06-26 株式会社东芝 信息存储装置、故障预测装置及故障预测方法
CN111124732A (zh) * 2019-12-20 2020-05-08 浪潮电子信息产业股份有限公司 一种磁盘故障的预测方法、系统、设备及存储介质
CN111581072B (zh) * 2020-05-12 2023-08-15 国网安徽省电力有限公司信息通信分公司 一种基于smart和性能日志的磁盘故障预测方法
CN114063881A (zh) * 2020-07-31 2022-02-18 阿里巴巴集团控股有限公司 分布式系统的磁盘管理方法及装置
CN112256535B (zh) * 2020-10-20 2023-08-22 湖南国科微电子股份有限公司 硬盘告警方法、装置、计算机设备及存储介质
CN112433896B (zh) * 2020-11-05 2023-12-22 北京浪潮数据技术有限公司 一种服务器磁盘故障预测方法、装置、设备及存储介质
CN112650635B (zh) * 2020-12-22 2024-01-30 宁畅信息产业(北京)有限公司 硬盘性能测试方法及模拟硬盘
CN113626340A (zh) * 2021-08-27 2021-11-09 中国银行股份有限公司 测试需求识别方法、装置、电子设备及存储介质
CN113986142B (zh) * 2021-11-09 2023-08-08 苏州浪潮智能科技有限公司 磁盘故障监控方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646114A (zh) * 2013-12-26 2014-03-19 北京百度网讯科技有限公司 硬盘smart数据中特征数据提取方法和装置
CN106650932A (zh) * 2016-12-23 2017-05-10 郑州云海信息技术有限公司 一种数据中心监控系统的智能故障分类方法及装置
WO2017129030A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
CN109361539A (zh) * 2018-10-16 2019-02-19 郑州云海信息技术有限公司 一种基于发育网络的性能告警方法和装置
CN109460341A (zh) * 2018-10-23 2019-03-12 郑州云海信息技术有限公司 一种日志数据的告警方法及装置
EP3460663A1 (en) * 2017-09-21 2019-03-27 Thomson Licensing Apparatus and method for rare failure prediction
CN109670690A (zh) * 2018-12-07 2019-04-23 泰康保险集团股份有限公司 数据信息中心监控预警方法、系统及设备
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646114A (zh) * 2013-12-26 2014-03-19 北京百度网讯科技有限公司 硬盘smart数据中特征数据提取方法和装置
WO2017129030A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN106650932A (zh) * 2016-12-23 2017-05-10 郑州云海信息技术有限公司 一种数据中心监控系统的智能故障分类方法及装置
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
EP3460663A1 (en) * 2017-09-21 2019-03-27 Thomson Licensing Apparatus and method for rare failure prediction
CN109361539A (zh) * 2018-10-16 2019-02-19 郑州云海信息技术有限公司 一种基于发育网络的性能告警方法和装置
CN109460341A (zh) * 2018-10-23 2019-03-12 郑州云海信息技术有限公司 一种日志数据的告警方法及装置
CN109670690A (zh) * 2018-12-07 2019-04-23 泰康保险集团股份有限公司 数据信息中心监控预警方法、系统及设备
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BP神经网络的短期负荷预测建模仿真;任恒杰;《电气传动自动化》;20131201(第06期);全文 *

Also Published As

Publication number Publication date
CN110399238A (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
CN110399238B (zh) 一种磁盘故障预警方法、装置、设备及可读存储介质
US20200210847A1 (en) Ensembling of neural network models
US9785886B1 (en) Cooperative execution of a genetic algorithm with an efficient training algorithm for data-driven model creation
CN108095716B (zh) 一种基于置信规则库和深度神经网络的心电信号检测方法
Stern Neural networks in applied statistics
US20090043715A1 (en) Method to Continuously Diagnose and Model Changes of Real-Valued Streaming Variables
Madhiarasan et al. Analysis of artificial neural network: architecture, types, and forecasting applications
Yan et al. Using labeled autoencoder to supervise neural network combined with k-nearest neighbor for visual industrial process monitoring
JP2022527536A (ja) 強化学習を通じた公平性の改善
Wu et al. A weighted deep domain adaptation method for industrial fault prognostics according to prior distribution of complex working conditions
Li et al. A Bayesian optimization AdaBN-DCNN method with self-optimized structure and hyperparameters for domain adaptation remaining useful life prediction
CN112433896B (zh) 一种服务器磁盘故障预测方法、装置、设备及存储介质
CN112488235A (zh) 一种基于深度学习的电梯时序数据的异常诊断方法
CN108108762A (zh) 一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法
CN106650932B (zh) 一种数据中心监控系统的智能故障分类方法及装置
CN116560895B (zh) 用于机械装备的故障诊断方法
CN111224805A (zh) 一种网络故障根因检测方法、系统及存储介质
CN114925938B (zh) 一种基于自适应svm模型的电能表运行状态预测方法、装置
KR20210082349A (ko) 애플리케이션의 스토리지 로드를 결정하는 방법 및 장치
CN109787958A (zh) 网络流量实时检测方法及检测终端、计算机可读存储介质
Shi et al. A novel unsupervised real‐time damage detection method for structural health monitoring using machine learning
CN114298299A (zh) 基于课程学习的模型训练方法、装置、设备及存储介质
CN117314643A (zh) 基于金融风洞数据的数据分析方法、装置及存储介质
CN109187898B (zh) 水产养殖环境中水质氨氮含量的软测量方法及装置
CN116644289A (zh) 一种慢盘检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant