CN111881000A - 一种故障预测方法、装置、设备及机器可读介质 - Google Patents

一种故障预测方法、装置、设备及机器可读介质 Download PDF

Info

Publication number
CN111881000A
CN111881000A CN202010789586.XA CN202010789586A CN111881000A CN 111881000 A CN111881000 A CN 111881000A CN 202010789586 A CN202010789586 A CN 202010789586A CN 111881000 A CN111881000 A CN 111881000A
Authority
CN
China
Prior art keywords
monitoring
data
module
real
characteristic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010789586.XA
Other languages
English (en)
Inventor
姚志强
周曦
蒋博劼
赵礼悦
卢智聪
张博宣
翁谦
张旭
曹文飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yuncongboyan Intelligent Technology Co Ltd
Original Assignee
Guangzhou Yuncongboyan Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yuncongboyan Intelligent Technology Co Ltd filed Critical Guangzhou Yuncongboyan Intelligent Technology Co Ltd
Priority to CN202010789586.XA priority Critical patent/CN111881000A/zh
Publication of CN111881000A publication Critical patent/CN111881000A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供一种故障预测方法、装置、设备及机器可读介质,该方法包括获取监测对象的包括累积类监测特征数据和实时状态类监测特征数据的监测数据,根据累积类监测特征数据和实时状态类监测特征数据分别获取该监测对象的预设时间窗口的相对变化量、当前异常情况,基于预设时间窗口的相对变化量和当前异常情况生成监测对象的故障预测结果;本发明还提供了一种故障预测装置、设备及机器可读介质,达到了针对于工业级大规模生产环境下的硬盘的故障预测泛化性能高、判断准确、资源消耗少的效果。

Description

一种故障预测方法、装置、设备及机器可读介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种故障预测方法、装置、设备及机器可读介质。
背景技术
现如今,互联网迅速发展,网络服务数量骤增,大规模海量数据存储系统是必不可少的支持。虽然市面上已有最新的存储介质例如SSD,在读性能等很多方面性能优于磁盘,但其高昂的花费使大部分数据中心难以负担。因此,大型数据中心依然采用传统的以磁盘为主的存储系统。这样做采购成本上虽然有了节省,但磁盘频繁损坏导致的数据丢失给企业带来的损失也是不可忽视的重大问题。
在大规模数据中心中,硬盘的使用规模或可达到百万级别,若发生硬盘故障,将可能影响服务器甚至整个IT基础设施的稳定性、可靠性。由于生产环境的多样性,硬盘故障种类繁多,相关技术中对工业级大规模生产环境下的硬盘进行故障预测往往需要消耗巨额的计算资源、存在泛化性能差,判断不准确的问题。
发明内容
针对于以上所述相关技术的缺点,本发明的目的在于提供一种故障预测方法、装置、设备及机器可读介质,用于解决针对于工业级大规模生产环境下的硬盘的故障预测存在计算资源消耗大、泛化性能差,判断不准确的问题。
为实现上述目的及其他相关目的,本发明提供一种故障预测方法,包括:
获取监测对象的监测数据,所述监测数据包括累积类监测特征数据、实时状态类监测特征数据;
根据所述累积类监测特征数据、实时状态类监测特征数据,分别获取所述监测对象的预设时间窗口的相对变化量、当前异常情况;
基于所述预设时间窗口的相对变化量和当前异常情况,生成所述监测对象的故障预测结果。
可选的,所述根据所述累积类监测特征数据获取所述监测对象的在预设时间窗口的相对变化量包括:对累积类监测特征数据进行差分处理以获取差分结果,对预设时间窗口内的所述差分结果进行指数加权滑动平均处理以获取预设时间窗口的指数加权滑动平均值;
所述根据所述实时状态类监测特征数据获取所述监测对象的当前异常情况包括:根据当前实时状态类监测特征数据和第一预设模型确定当前异常得分;
根据所述指数加权滑动平均值、所述当前异常得分,生成所述监测对象的故障预测结果。
可选的,所述当前实时状态类监测特征数据包括在预设获取时刻所获取的各实时状态类监测特征数据。
可选的,所述根据当前实时状态类监测特征数据和第一预设模型确定所述当前异常得分包括:
获取若干个监测对象的监测数据;
基于若干个监测对象的监测数据确定训练样本,并对所述训练样本进行二叉划分以构建孤立树,由所述孤立树构成孤立森林模型,所述第一预设模型包括孤立森林模型;
根据所述当前实时状态类监测特征数据和所述孤立森林模型计算所述当前异常得分。
可选的,所述若干个监测对象的监测数据包括所述监测对象在多个维度上的特征,所述对所述训练样本进行二叉划分以构建孤立树包括:
对所述训练样本进行抽样,获取至少一个样本集合;
选取所述多个维度中的任一维度;
根据所述训练样本集合确定所述维度对应的第一特征阈值,所述第一特征阈值包括所述维度在所述样本集合的取值区间内确定的分界值;
基于所述维度和所述第一特征阈值,将所述样本集合划分为两个子样本集合;
若所述子样本集合能够继续划分,将所述子样本集合作为新的样本集合,重新确定所述维度对应的第二特征阈值,所述第二特征阈值包括所述维度在所述新的样本集合的取值区间确定的新的分界值,基于所述维度和所述第二特征阈值,将所述新的样本集合划分为两个新的子样本集合;
若所述子样本集合或所述新的子样本集合不能继续划分,停止所述维度的二叉划分;
若完成所有选定的维度的二叉划分,所述孤立树构建完成。
可选的,所述根据所述指数加权滑动平均值、所述当前异常得分,生成所述监测对象的故障预测结果包括:
根据有监督集成学习方法使用lightgbm构建第二预设模型,所述第二预设模型包括二分类模型;
根据所述指数加权滑动平均值、所述当前异常得分和所述第二预设模型,生成所述监测对象的故障预测结果。
可选的,所述第二预设模型中的损失函数包括调节因子γ。
可选的,所述损失函数包括focalloss函数,所述focalloss函数为:
Figure BDA0002623274820000031
其中,y为真实的样本标签,y′为经过sigmoid激活函数的预测输出值,α为平衡因子,γ为调节因子。
可选的,所述故障预测结果包括故障概率值。
可选的,若预设时间段内所述故障概率值大于故障概率阈值的次数大于预设次数,所述监测对象处于故障状态。
可选的,所述累积类监测特征数据包括以下至少之一:电击起停次计数、重定位磁区计数、硬盘加电时间、电机起转重试、设备开关计数、终端校验出错、报告不可纠正错误数、通信超时、加速度错误率、电源关闭磁头收回计数、磁头升降计数、硬件ECC恢复、等候重定的扇区计数、无法校正的扇区计数、UltraDMA通讯CRC错误计数警告、LBA写入总数、LBA读取总数。
可选的,所述实时状态类监测特征数据包括以下至少之一:底层数据读取错误率、盘片启动时间、寻道错误率、磁头写入高度、气流温度、温度、传输错误率。
本发明还提供了一种故障预测装置,包括:
第一获取模块,用于获取监测对象的监测数据,所述监测数据包括累积类监测特征数据、实时状态类监测特征数据;
第二获取模块,用于根据所述累积类监测特征数据、实时状态类监测特征数据,分别获取所述监测对象的预设时间窗口的相对变化量、当前异常情况;
生成模块,用于基于所述预设时间窗口的相对变化量和当前异常情况,生成所述监测对象的故障预测结果。
可选的,所述第二获取模块包括第二获取第一子模块和第二获取第二子模块,
所述第二获取第一子模块用于对累积类监测特征数据进行差分处理以获取差分结果,对预设时间窗口内的所述差分结果进行指数加权滑动平均处理以获取预设时间窗口的指数加权滑动平均值;
所述第二获取第二子模块用于根据当前实时状态类监测特征数据和第一预设模型确定当前异常得分;
所述生成模块还用于根据所述指数加权滑动平均值、所述当前异常得分,生成所述监测对象的故障预测结果。
可选的,所述当前实时状态类监测特征数据包括预设获取时刻所获取的各实时状态类监测特征数据
可选的,所述第二获取第二子模块包括:
第三获取模块,用于获取若干个监测对象的监测数据;
训练模块,用于基于若干个监测对象的监测数据确定训练样本,并对所述训练样本进行二叉划分以构建孤立树,由所述孤立树构成孤立森林模型;
计算模块,用于根据所述当前实时状态类监测特征数据和所述孤立森林模型计算所述当前异常得分。
可选的,所述训练模块包括:
抽样模块,用于对所述训练样本进行抽样,获取至少一个样本集合;
选取模块,用于选取所述多个维度中的任一维度;
确定模块,用于根据所述训练样本集合确定所述维度对应的第一特征阈值,所述第一特征阈值包括所述维度在所述样本集合的取值区间内确定的分界值;
第一划分模块,用于基于所述维度和所述第一特征阈值,将所述样本集合划分为两个子样本集合;
第二划分模块,用于若所述子样本集合能够继续划分,将所述子样本集合作为新的样本集合,重新确定所述维度对应的第二特征阈值,所述第二特征阈值包括所述维度在所述新的样本集合的取值区间确定的新的分界值,基于所述维度和所述第二特征阈值,将所述新的样本集合划分为两个新的子样本集合;
停止模块,用于若所述子样本集合或所述新的子样本集合不能继续划分,停止所述维度的二叉划分;
第一构建模块,用于若完成所有选定的维度的二叉划分,所述孤立树构建完成。
可选的,所述生成模块包括第二构建模块,
所述第二构建模块用于根据有监督集成学习方法使用lightgbm构建第二预设模型,所述第二预设模型包括二分类模型;
所述生成模块还用于根据所述指数加权滑动平均值、所述当前异常得分和所述第二预设模型,生成所述监测对象的故障预测结果。
可选的,所述第二预设模型中的损失函数包括调节因子γ。
可选的,所述损失函数包括focalloss函数,所述focalloss函数为:
Figure BDA0002623274820000051
其中,y为真实的样本标签,y′为经过sigmoid激活函数的预测输出值,α为平衡因子,γ为调节因子。
可选的,所述故障预测结果包括故障概率值。
可选的,若预设时间段内所述故障概率值大于故障概率阈值的次数大于预设次数,所述监测对象处于故障状态。
本发明还提供了一种设备,所述设备包括:
一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如上述实施例如上述实施例中一个或多个所述的故障预测方法。
本发明还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如上述实施例中一个或多个所述的故障预测方法。
如上所述,本发明提供的一种故障预测方法、装置、设备及机器可读介质,具有以下有益效果:
本发明实施例提供了一种故障预测方法、装置、设备及机器可读介质,获取监测对象的包括累积类监测特征数据和实时状态类监测特征数据的监测数据,根据累积类监测特征数据和实时状态类监测特征数据分别获取该监测对象的预设时间窗口的相对变化量、当前异常情况,基于预设时间窗口的相对变化量和当前异常情况生成监测对象的故障预测结果。通过将监测数据进行了分类处理,借助于无监督集成学习方法构建的第一预测模型对实时状态类监测特征数据进行处理得到异常结果,借助于差分计算等方式得到预设时间窗口的相对变化量,借助于有监督集成学习方法构建的第二预测模型对异常结果、预设时间窗口的相对变化量进行处理,以得到该待监测硬盘的故障结果。可以实现针对于不同厂家、不同故障类型自动化地对硬盘异常情况进行预测。针对于不同分类的监测数据利用相应的无监督模型的第一预测模型、有监督模型的第二预测模型相结合,有效的提高了故障预测的准确性,同时降低了资源消耗。提供了一种针对于工业级大规模生产环境下的硬盘的故障预测方法,便于用户提前处置,达到了针对于工业级大规模生产环境下的硬盘的故障预测泛化性能高、判断准确、资源消耗少的效果。
附图说明
图1为本发明实施例一提供的故障预测方法的流程示意图。
图2为本发明实施例二提供的故障预测装置的结构示意图。
图3为一实施例提供的终端设备的硬件结构示意图。
图4为另一实施例提供的终端设备的硬件结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在大规模数据中心中,硬盘使用规模已经达到百万级别。盘类故障问题频发,会导致服务器甚至整个IT基础设施稳定性、可靠性的下降,最终对业务SLA带来负面影响。近十年,工业界和学术界开展了很多关于硬盘故障预测相关的工作,但对工业级大规模生产环境下的硬盘故障预测的研究却很少。大规模生产环境业务错综复杂、数据噪声大以及不确定因素多,因此,能否提前准确预测硬盘故障已经成为大规模数据中心和云计算时代工业界需要研究和解决的重要问题之一。
通常,商业硬件都会提供一些接口用于获取硬件错误信息,这些错误信息是由硬件自监测产生的,例如硬盘S.M.A.R.T。通过这些接口报告的错误信息是比较准确,这些信息可以为分析硬盘状态,进而预测硬盘故障的可能提供有力帮助。但是,在硬盘故障的预测方面,还存在着一些困难与挑战。
首先,由于生产环境的多样性,硬盘故障种类繁多,并非所有硬盘自监测S.M.A.R.T信息都与特定的硬盘故障种类相关,因为缺乏S.M.A.R.T属性对磁盘状态指示的标准,所以需要从S.M.A.R.T属性中选择与一部分磁盘故障相关的属性,作为故障预测模型的输入。此外,不同制造商生产的硬盘S.M.A.R.T存在差异,主要原因是各厂商使用不同的编码和标准化方式记录信息,所以对原始S.M.A.R.T数据建立简单模型或规则判断必然存在泛化性能差,判断不准确的问题。而若是对每一种不同厂商设备所可能发生的不同故障分别建立模型,一方面会遇到大量排列组合的可能性,最后消耗巨额的计算资源;另一方面特定厂商硬盘的特定故障类型所具有的历史样本太少,难以建立准确的判别模型。
其次,为了监控硬盘状态,监测数据通常情况是实时采集与更新。然而对于大规模的设备集群,实时监控数据通常具有巨大的体量,所以任何传统的离线算法,尝试对整个数据集建立统计指标将耗尽内存空间,是低效且不切实际的工作。
再次,在硬盘状态监控的过程中,由于故障行为属于极少数行为,使用传统的分类模型会面临样本极度不均衡的状态,对于重要的不均衡数据集很难学到满意的模型,也容易发生误判行为。
综上所述,利用原始S.M.A.R.T信息建立简单模型无法获得较好的训练效果,对大规模集群建立主流实时监控系统存在资源消耗大、性价比低的情况,且在硬盘故障场景下具有严重样本不均衡的情况,如何在节省计算资源的情况下建立实用的故障预测模型存在挑战。
为解决上述问题,本发明提供了一种故障预测方法、装置、设备及机器可读介质,实现针对于不同厂商、不同故障类型自动化地对硬盘异常情况进行预测,可以适应多变复杂的模型环境。针对于不同分类的监测数据根据相应的无监督模型的第一预测模型、有监督模型的第二预测模型相结合,提高了故障预测的准确性,同时节约了计算资源。
实施例一
请参阅图1,本发明提供一种故障预测方法,包括:
S101:获取监测对象的监测数据。
在一些实施例中,监测数据包括累积类监测特征数据、实时状态类监测特征数据。其中累积类监测特征数据、实时状态类监测特征数据是根据监测数据的业务属性进行分类后得到的。
在一些实施例中,累积类监测特征数据包括属性数值与获取时刻相关的监测数据,实时状态类监测特征数据包括属性数值与获取时刻不相关的监测数据。
在一些实施例中,监测数据包括属性名称、属性数值、属性代码等。
在一些实施例中,监测对象包括但不限于硬盘、磁盘等,监测数据包括但不限于硬盘的S.M.A.R.T监测数据。
在一些实施例中,累积类监测特征数据包括属性数值随获取时刻的增长而增长的监测数据,和,属性数值随获取时刻的增长而降低的监测数据。例如,当监测数据包括S.M.A.R.T监测数据时,S.M.A.R.T监测数据中的通信超时、加速度错误率、电源关闭磁头收回计数、磁头升降计数等,这些监测数据的属性数值均是随着时间的推移逐渐累加的。
在一些实施例中,实时状态类监测特征数据包括属性数值在每个获取时刻均是可以随机出现的,该属性数值与获取时刻在统计逻辑上是不相关的,例如,当监测数据包括S.M.A.R.T监测数据时,S.M.A.R.T监测数据中的寻道错误率、气流温度等。
在一些实施例中,当监测数据包括待监测硬盘的S.M.A.R.T监测数据时,硬盘S.M.A.R.T数据中包含每块硬盘在每个自监测时间点中的多项指标,此时累积类监测特征数据包括但不限于以下至少之一:电击起停次计数、重定位磁区计数、硬盘加电时间、电机起转重试、设备开关计数、终端校验出错、报告不可纠正错误、通信超时、加速度错误率、电源关闭磁头收回计数、磁头升降计数、硬件ECC恢复、等候重定的扇区计数、无法校正的扇区计数、UltraDMA通讯CRC错误计数警告、LBA写入总数、LBA读取总数等。其余监测数据为实时状态类监测特征数据。需要说明的是,由于根据磁盘生产厂家的不同,监测数据存在一定的差异,上述仅是针对于业界通用的S.M.A.R.T监测数据信息进行示例性的说明,当磁盘包括有其他上述未详举的监测数据时,本领域技术人员也可以根据该监测数据的业务属性,将其划分为累积类监测特征数据或实时状态类监测特征数据。
在一些实施例中,实时状态类监测特征数据包括但不限于以下至少之一:底层数据读取错误率、盘片启动时间、寻道错误率、磁头写入高度、气流温度、温度、传输错误率。
在一些实施例中,通常在大型数据中心中的磁盘均可以知晓其具体的型号,生产厂家和监测数据信息,本领域技术人员可以通过提前预设好累积类监测特征数据或实时状态类监测特征数据分类表,将各个监测数据提前划分好,在获取到监测数据的同时,或获取监测数据之后,按照分类表的划分规则,将监测数据分好类。
在一些实施例中,监测数据包括待监测硬盘的监测数据和该监测数据的获取时刻。该监测数据的获取时刻即为获取该监测数据的时间,例如在2020年1月1日12点30分监测到硬盘的电击起停次计数为30,此时,监测数据至少包括属性名称:电击起停次计数,属性数值:30,获取时刻:2020年1月1日12点30分。通过获取监测数据对应的获取时刻可以方便后续对该监测数据进行进一步分析,包括但不限于差分处理等。
在一些实施例中,监测数据包括但不限于待检测硬盘的S.M.A.R.T(Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术)监测数据,其中该S.M.A.R.T监测数据包括至少一种属性参数。
在一些实施例中,S.M.A.R.T监测数据包括但不限于表1所包括的监测数据。
表1
属性代码 属性名称
1 底层数据读取错误率
3 盘片启动时间
4 电击起停次计数
5 重定位磁区计数
7 寻道错误率
9 磁盘加电时间
10 电机起转重试
12 设备开关计数
184 终端校验出错
187 报告不可纠正错误数
188 通信超时
189 磁头写入高度
190 气流温度
191 加速度错误率
192 电源关闭磁头收回计数
193 磁头升降计数
194 温度
195 硬件ECC恢复
197 等候重定的扇区计数
198 无法校正的扇区计数
199 UltraDMA通讯CRC错误计数警告
240 传输错误率
241 LBA写入总数
242 LBA读取总数
在一些实施例中,预设时间间隔还可以结合当前各待监测硬盘的使用环境信息、各待监测硬盘的出厂信息、批次信息、型号、连续使用时长等来确定,其中,使用环境信息包括但不限于温度、湿度等。
在一些实施例中,监测数据还包括当前硬盘所在的硬盘周围环境信息,该硬盘周围环境信息包括但不限于:硬盘环境温度、硬盘环境湿度等。若硬盘所在的环境的温度、湿度过低或过高,也将引发硬盘故障。
在一些实施例中,由于在硬盘故障预测的场景下,应该尽可能提早,例如一个月,对故障做出预测,此时对监测数据的实时性并没有太高要求,所以可以降低数据采集频率,也即,可以增大预设时间间隔的长度,如每24小时一次,从而可以在大幅降低数据计算次数与存储压力的前提下,得到不同监测数据按照获取时间序列排列的监测数据,并通过数据库数据进行留存。
在一些实施例中,可以是从原始数据库中直接根据业务属性直接获取对应的累积类监测特征数据和实时状态类监测特征数据,也可以是获取到全部的监测数据后,再对监测数据根据业务属性进行分类,进而得到累积类监测特征数据和实时状态类监测特征数据。其中,分类标准可以是根据属性数值与获取时刻是否存在相关性,若相关,则该监测数据为累积类监测特征数据,若不相关,则该监测数据为实时状态类监测特征数据。分类标准还可以是参照监测数据的属性数值的计数标准进行分类,若属性数值是随获取时刻的推移进行累加计数的,或者换句话说,当前获取时刻的属性数值是在上一获取时刻的属性数值的基础上存在累积计算后所得到的属性数值,则该监测数据为累计类监测特征数据,若该属性数值与过往获取时刻的属性数值不相关,是在该获取时刻当场测量的一个参数值,则该监测数据为实时状态类监测特征数据。
在一些实施例中,监测数据也可以是在预设时间段内根据预设时间间隔基于时间序列所采集到的待监测硬盘的监测数据。根据预设时间间隔获取监测数据,可以大幅减少数据计算与存储的压力,其中预设时间间隔可以是由本领域技术人员根据需要设置的,且该预设时间间隔可以是一个固定的时间长度,如24小时、12小时,5小时等,该预设时间间隔也可以是按照一定规律变动的时间长度,例如在早上8点到晚上24点预设时间间隔为4小时,在0点到早上8点预设时间间隔为8个小时,也即获取早上8点所采集到的监测数据、获取12点采集到的监测数据、获取16点采集到的监测数据、获取20点所采集到的监测数据、获取24点所采集到的监测数据。又例如,在周一到周五预设时间间隔为24小时,也即获取每天中午12点所采集到的监测数据,在周六和周日预设时间间隔为12小时获取每天0点所采集到的监测数据和中午12点所采集到的监测数据。又例如,在法定节假日预设时间间隔为12小时,在非法定节假日预设时间间隔为48小时等。
在一些实施例中,监测对象包括一个或多个待监测硬盘。其中,各待监测硬盘可以是同一规格的,也可以是不同规格的,各待监测硬盘的出厂厂家也可以是相同或不同的,在此不做限定。
在一些实施例中,监测数据为预设时间段内的待监测硬盘的监测数据,该预设时间段可以是本领域技术人员根据需要设置的,例如,预设时间段可以是以待监测硬盘开始使用为初始时间,以当前时刻为结束时间的时间段。
在一些实施例中,故障预测方法应用于监测磁盘出厂后的使用过程中产生的各项磁盘数据,以预测磁盘的故障状态或者故障概率,使得磁盘使用者能够在磁盘发生故障之前便能知晓该磁盘存在较大故障风险,及时进行相应的保障措施,该保障措施包括但不限于将磁盘中的数据进行拷贝存储,更换磁盘等。
S102:根据累积类监测特征数据、实时状态类监测特征数据,分别获取监测对象的预设时间窗口的相对变化量、当前异常情况。
在一些实施例中,根据某一监测对象的获取到的全部累积类监测特征数据、全部实时状态类监测特征数据,分别获取监测对象的预设时间窗口的相对变化量、当前异常情况。
在一些实施例中,根据某一监测对象的获取到的至少一个累积类监测特征数据、至少一个实时状态类监测特征数据,分别获取监测对象的预设时间窗口的相对变化量、当前异常情况。本领域技术人员可以需要选取合适数量的累积类监测特征数据和实时状态类监测特征数据来进行后续计算。
在一些实施例中,在获取监测对象的预设时间窗口的相对变化量、当前异常情况之前,还包括数据清洗,清楚监测数据中不满足后续计算条件的无效数据。
在一些实施例中,在获取监测对象的预设时间窗口的相对变化量、当前异常情况之前,还包括确定目标累积类监测特征数据、目标实时状态类监测特征数据,例如获取到监测对象的监测数据包括最近15天的累积类监测特征数据ABCDEFG、最近15天的实时状态类监测特征数据abcdef,此时,预设时间窗口为3天,5天,7天,则可以选定目标累积类监测特征数据包括最近8天的累积类监测特征数据ABCDE,选定最近一天的实时状态类监测特征数据abc为目标实时状态类监测特征数据。
在一些实施例中,通过对监测对象的累积类监测特征数据各属性名称对应的预设时间间隔的属性数值分别进行差分计算,得到该监测对象的按属性名称分类的相对变化量,再按照监测数据的监测时间划分若干个预设时间窗口,分别计算各预设时间窗口内的该监测对象的相对变化量,可以消除原始数据由于存在不同的编码和标准化方式记录信息所导致的差异。其中预设时间窗口包括从当前时刻向前推移不同时间长度所形成的时间窗口,例如,当前获取到的监测数据是从7月1日到7月30日每天监测一次的监测数据,获取其中的累积类监测特征数据,当前时刻为监测数据中最近的时刻,也即7月30日,则预设时间窗口可以包括最近3天,最近7天,最近15天和最近30天。
在一些实施例中,根据累积类监测特征数据获取监测对象的在预设时间窗口的相对变化量包括:
对累积类监测特征数据进行差分处理以获取差分结果,对预设时间窗口内的差分结果进行指数加权滑动平均处理(Exponential Weighted Moving Average,EWMA)以获取预设时间窗口的指数加权滑动平均值,预设时间窗口的相对变化量包括指数加权滑动平均值。
例如,监测对象为硬盘A,其监测数据包括硬盘A的最近30天S.M.A.R.T监测数据,其中,硬盘A的监测频率为每天一次。通过对硬盘A的原始S.M.A.R.T中的累积类监测特征数据中各属性的属性数值进行差分计算,可以得到硬盘A某一属性每天相对于前一天的增量值,划分不同的预设时间窗口,根据该预设时间窗口内的数据计算平均值,每一个时间窗口都会得到一个平均值,该平均值就是预设时间窗口的相对变化量。根据该平均值,建立响应统计指标,作为在不同时间窗口内衡量硬盘A的运行状态的标准。
又例如:对于硬盘A的最近20天的S.M.A.R.T中的电机启停次数,首先进行差分处理,得到每日电机启停次数增量值,划分不同的时间窗口,分别为3天、7天以及15天,利用这些时间窗口内的每日电机启停次数增量值,进行指数加权滑动平均处理,如硬盘A近3天时间窗口内的每日电机启停次数增量值(差分结果)分别为15,10,5,设定滑动系数为0.8的情况下,该待监测硬盘3日指数加权滑动平均值为0.8*15+[0.8]^2*10+[0.8]^3*5=20.96。该指数加权滑动平均值即为在预设窗口3天的该监测对象的相对变化量。需要说明的是,滑动系数可以根据本领域技术人员的需要进行调整,在此不做限定。
在一些实施例中,可以对累积类监测特征数据进行至少两次差分计算,以得到符合需求的差分结果。
在一些实施例中,预设时间窗口可以是一个或多个,通过设置多个预设时间窗口,可以从多个时间维度如短期,中期,长期来判断监测对象的异常表现,进一步提升故障预测结果的准确性。
通过对差分结果进行加权滑动平均值的计算,增加数据的平稳性,同时也能够反映出监测对象在最近时间段的异常表现。
在一些实施例中,根据实时状态类监测特征数据获取监测对象的当前异常情况包括:根据当前实时状态类监测特征数据和第一预设模型确定当前异常得分。
在一些实施例中,当前实时状态类监测特征数据包括在预设获取时刻所获取的各实时状态类监测特征数据。
在一些实施例中,当前实时状态类监测特征数据包括在预设获取时刻所获取的各实时状态类监测特征数据。例如,监测数据包括最近15天(包括当天)的S.M.A.R.T数据,预设时刻为当天,则取当天的属于实时状态类监测特征数据作为当前时状态类监测特征数据。
在一些实施例中,根据当前实时状态类监测特征数据和第一预设模型确定当前异常得分包括:
获取若干个监测对象的监测数据;
基于若干个监测对象的监测数据确定训练样本,并对训练样本进行二叉划分以构建孤立树,由孤立树构成孤立森林模型,其中第一预设模型包括孤立森林模型;
根据当前实时状态类监测特征数据和孤立森林模型计算当前异常得分。
需要说明的是,若干个监测对象的监测数据可以是步骤S101中所获取的监测数据,也可以是历史获取的监测数据,在此不做限定。监测对象的数量也可以由本领域技术人员所确定的,在此不做限定。
在一些实施例中,若干个监测对象的监测数据包括监测对象在多个维度上的特征,对训练样本进行二叉划分以构建孤立树包括:
对训练样本进行抽样,获取至少一个样本集合;
选取多个维度中的任一维度;
根据训练样本集合确定维度对应的第一特征阈值,第一特征阈值包括维度在样本集合的取值区间内确定的分界值;
基于维度和第一特征阈值,将样本集合划分为两个子样本集合;
若子样本集合能够继续划分,将子样本集合作为新的样本集合,重新确定维度对应的第二特征阈值,第二特征阈值包括维度在新的样本集合的取值区间确定的新的分界值,基于维度和第二特征阈值,将新的样本集合划分为两个新的子样本集合;
若子样本集合或新的子样本集合不能继续划分,停止维度的二叉划分;
若完成所有选定的维度的二叉划分,孤立树构建完成。
下面通过一个具体的实施例,来示例性的说明第一预设模型的构建方式以及如何根据当前实时状态类监测特征数据和第一预设模型计算所述当前异常得分。
第一,构建一个树模型。
(1)获取若干个监测对象的监测数据,基于若干个监测对象的监测数据确定训练样本,也即,从若干个监测对象的监测数据中随机选定一些监测数据作为训练样本。例如,选定各监测硬盘的7个属性:底层数据读取错误率、盘片启动时间、寻道错误率、磁头写入高度、气流温度、温度、传输错误率的监测数据作为训练样本。
(2)随机指定一个维度,也即随机指定一个属性,在训练样本中随机抽样,形成一个样本集合,确定该维度对应的第一特征阈值p。其中,第一特征阈值p通过在当前样本集合中该维度的取值区间(该样本集合中该维度的取值的最大值和最小值所在的区间)中随机确定的一个分界值来得到。
(3)以此第一特征阈值p生成了一个超平面,然后将样本集合划分为2个子样本集合:将样本集合作为一个节点,子样本集合作为子节点,则把指定维度里小于p的数据放在当前节点的左子节点,把大于等于p的数据放在当前节点的右子节点。
(4)在子节点中递归步骤(2)和(3),不断构造新的孩子节点,直到子节点中只有一个数据(无法再继续切割)或子节点已到达限定高度。
(5)若该树模型满足以下任意一个条件,则该树模型构建完成:
树达到了限制的高度,其中限制高度可以是由本领域技术人员根据需要自行设置的;
节点上只有一个样本,如训练集中同时满足“寻道错误率>20%”,“温度>75”,“盘片启动时间>70ms”的硬盘只有一个;
节点上的样本所有特征都相同,如在“寻道错误率>20%”,“温度>75”,“盘片启动时间>70ms”的三层树条件下,得到的所有硬盘样本的所有状态类指标取值相同。
第二,构建孤立森林(第二预设模型)。
循环(1)至(4),直至生成若干棵孤立树模型,其中孤立森林中所包括的树模型的数量可以是由本领域技术人员根据需要所设定的,在此不做限定。
第三,计算当前异常得分。
样本点x的路径长度h(x)定义为从每棵孤立树的根节点开始到叶子结点所经历的边的数量,对每一个数据样本点,即某一时刻的某硬盘的实时状态类监测特征数据,遍历每一棵孤立树,计算该样本点在每棵孤立树下的平均路径长度,并对平均路径长度进行归一化,而后计算当前异常得分。其中,给定一个包含n个样本点x的数据集,树的平均路径长度为:
Figure BDA0002623274820000141
其中,H(i)为调和数,该值可以被估计为ln(i)+0.5772156649。c(n)为给定样本数n时,路径长度的平均值,用来标准化样本x的路径长度h(x);
样本点x的当前异常得分定义为:
Figure BDA0002623274820000142
其中,E(h(x))为样本点x在一批孤立树中的路径长度的期望。
这样就可以根据监测对象的某一时刻的实时状态类监测特征数据计算得到该监测对象在某一时刻的当前异常得分。
在一些实施例中,对所述训练样本进行抽样,获取至少一个样本集合,该样本集合的抽样方式可以是随机采样,也可以是根据预设采样规则进行采样。其中预设采样规则包括但不限于对于明显存在运行异常的带监控硬盘加大采样比例、使用极端的采样方式,为采样样本简单根据正负样本比赋予权重等。
通常,树模型的数量越多,也即决策模型的数量越多,第一预设模型所确定的当前异常得分越准确。
在一些实施例中,待监测硬盘的数量比较大时,存在故障风险的硬盘数量占比可能是相对比较小的,因此,随机抽样得到样本集合时,获取到运行状态正常的待监测硬盘的监测数据的概率相对较大,为使得第一预设模型的可信度更高,可以加大采样样本中运行状态异常的待监测硬盘的监测数据的采集比例。也即,可以采用极端的采样方式,增大运行异常的待监测硬盘作为采样样本的概率。
在一些实施例中,待监测硬盘的数量比较大时,存在故障风险的硬盘数量占比可能是相对比较小的,因此,随机抽样得到采样样本时,获取到运行状态正常的待监测硬盘的监测数据的概率相对较大,为使得第一决策模型的可信度更高,可为采样样本根据正负样本比赋予权重,其中正样本为运行状态正常的待监测硬盘,负样本为运行状态异常的监测硬盘。需要说明的是,运行状态的正常与异常可以由本领域的技术人员根据相关技术进行判定。
在一些实施例中,为使第一预设模型计算得到的当前异常得分更加准确,可以采用更细粒度的分组来构建树模型。
通过经由无监督的集成训练得到的第一预测模型,对特征进行自动化抽取与组合,可以提高预测效果。
S103:基于预设时间窗口的相对变化量和当前异常情况,生成监测对象的故障预测结果。
在一些实施例中,根据指数加权滑动平均值、当前异常得分,生成监测对象的故障预测结果包括:
根据有监督集成学习方法使用lightgbm(贝叶斯优化)构建第二预设模型,第二预设模型包括二分类模型;
根据指数加权滑动平均值、当前异常得分和第二预设模型,生成监测对象的故障预测结果。
在一些实施例中,第二预设模型中的损失函数包括调节因子γ。通过增加调节因子gamma,容易被错分的样本的计算权重增加,建模过程中会对此类样本倾斜,最终模型对判别易错分样本的能力大幅增加。
在一些实施例中,损失函数包括focalloss函数,focalloss函数为:
Figure BDA0002623274820000161
其中,y为真实的样本标签,y′为经过sigmoid激活函数的预测输出值,α为平衡因子,γ为调节因子。
在一些实施例中,故障预测结果包括故障概率值。
下面通过一个具体的实施例,示例性的说明根据指数加权滑动平均值、当前异常得分和第二预设模型,生成监测对象的故障预测结果的具体过程。
首先,利用有监督集成学习方法使用lightgbm构建二分类模型,其中该场景为二分类场景,该场景下常用的损失函数为对数损失函数L(Y,P(Y|X))=-log P(Y|X),对所有样本而言采用相同计算方式。
其次确定指数加权滑动平均值和当前异常得分,需要说明的是,指数加权滑动平均值和当前异常得分可以通过前述的方法得到。此时,对于一个硬盘对应一个当前异常得分和至少一个预设时间窗口的指数加权滑动平均值。将指数加权滑动平均值、当前异常得分输入到训练得到的lightgbm模型中,在lightgbm模型中,每一棵分类树会得出对该硬盘判为正例、反例,也即判断该硬盘是否故障的概率值,最终综合所有树的判断结果,即可得到故障概率结果。
在一些实施例中,为使第二预设模型对判别易错分样本的能力大幅增加,可以将二分类模型的损失函数增加调节因子γ。
在一些实施例中,第二预设模型的损失函数包括
Figure BDA0002623274820000162
其中,y为真实的样本标签,y′为经过sigmoid激活函数的预测输出值,α为平衡因子,γ为调节因子。
对于正样本,预测结果y'越接近1,则代表数据错分概率越低;对于负样本,预测结果y'越接近0,则数据错分概率越低。所以,γ>0将会减少易分类样本的损失,使得模型更关注于困难的、错分的样本。
本实施例针对样本极度不均衡的问题重新设计了模型的损失函数,能够更好的区分出少量的,易错分的样本。
例如,监测对象为硬盘A,获取到硬盘A最近30天(包含当天)每天一次的监测数据,选定预设时间窗口为3天、5天、15天,则分别对最近16天的累积类监测特征数据中17个属性进行差分处理,获取这17个属性的差分结果,再根据预设时间窗口,分别计算3天、5天、15天各属性的指数加权滑动平均值,得到共计3*17=51个指数加权滑动平均值。对当天的实时状态类监测特征数据根据第一预设模型得到1个当前异常得分。将上述51个指数加权滑动平均值和1个当前异常得分输入到第二预设模型中,即可得到最终的故障预测概率。
在一些实施例中,第二预设模型的生成方法包括以下至少之一:
基于距离的方法、基于邻近度的方法、基于聚类的方法、基于深度网络模型的方法。
在一些实施例中,故障预测方法还包括:
故障预测结果包括故障概率值。
在一些实施例中,若预设时间段内故障概率值大于故障概率阈值的次数大于预设次数,则确定监测对象处于故障状态。
需要说明的是,预设概率阈值的获取方式包括但不限于由本领域技术人员根据经验确定,也可以经由预先构建的预设概率阈值模型计算得到等。预设次数也是可以由本领域技术人员自行决定。
在一些实施例中,监测对象的数量大于2,故障预测方法还包括:
获取预测发生故障监测对象数量M,M大于0且小于监测对象的数量;
故障概率排名从高到低前M个的监测对象的故障预测结果包括疑似故障硬盘。
需要说明的是,预设发生故障监测对象数量M的获取方式包括但不限于由本领域技术人员根据经验确定,也可以经由预先构建的预设发生故障监测对象数量模型计算得到,还可以是过去一段时间,发生故障的监测对象的平均数量等。
需要说明的是,若存在至少两个监测对象的故障概率相同,由于故障概率相同的监测对象的排名是相同的,则这些监测对象若排名名次小于等于M,则故障预测结果均包括疑似故障硬盘。
在一些实施例中,故障预测方法还包括:
获取疑似故障监测对象最近N次的故障预测结果,N大于1;
若故障预测结果包括疑似故障监测对象的次数超过预设次数阈值,确定监测对象为预测故障监测对象。
需要说明的是,N的取值方式可以由本领域技术人员来确定,在此不做限定。例如可以选取过去一个月的故障预测结果,假设一个月进行了5次故障预测,则N取值为5。也可以选取过去5次故障预测的故障预测结果,可能这5次故障预测就是在最近一周内进行的。
需要说明的是,预设次数阈值也可以是由本领域技术人员根据模型计算获根据经验预估的,在此不做限定。
在一些实施例中,监测对象包括硬盘,对于同一个硬盘,在同一次故障预测中,存在其故障预测结果包括疑似故障硬盘的同时,该硬盘还被确定为预测故障硬盘。此时,本领域技术人员可以知晓该硬盘即将发生故障的概率非常高,需要及时进行预防性处理。
在一些实施例中,监测对象包括待监测硬盘,可以通过双层阈值的设定,确定最终被判为预测可能发生故障的硬盘,也即确定为预测故障硬盘。首先根据以往每日故障比例设定单日故障概率阈值,再根据待监测硬盘最近D天的故障预测情况,若在D天内超过一定比例的天数被故障预测结果为疑似故障硬盘,则最终判断该待监测硬盘为预测故障硬盘。例如:经过长期生产环境下的经验积累,系统中硬盘发生故障的概率为7/100000,假设系统中包括100000个硬盘,如果根据故障预测方法确定待监测硬盘的故障概率在所有硬盘中位于前7/100000,也即,将当前系统中各待监测硬盘的故障概率从高到低排序,该硬盘的排名位于前7名(包括第7名),则该待监测硬盘在当次故障预测中的故障预测结果包括疑似故障硬盘;假设系统每天进行一次故障预测检查,若在近5日中,某待监测硬盘有3日的故障预测结果都包括疑似故障硬盘,超过了预设次数阈值2,则该待监测硬盘被最终判定为预测故障硬盘。
通过对待监测硬盘多天故障预测结果综合评判,在一定程度降低了误判的概率。
在一些实施例中,针对同一个系统,可以执行统一的故障预测检测,也可以根据该系统中硬盘的厂家、总体使用时长或其他因素进行分区,针对不同区域中的硬盘应用各自对应的故障预测方法。其中各区域对应的故障预测方法的第一预测模型和第二预测模型可以是相同的也可以是不同的。
本发明实施例提供了一种故障预测方法,获取监测对象的包括累积类监测特征数据和实时状态类监测特征数据的监测数据,根据累积类监测特征数据和实时状态类监测特征数据分别获取该监测对象的预设时间窗口的相对变化量、当前异常情况,基于预设时间窗口的相对变化量和当前异常情况生成监测对象的故障预测结果。通过将监测数据进行了分类处理,借助于无监督集成学习方法构建的第一预测模型对实时状态类监测特征数据进行处理得到异常结果,借助于差分计算等方式得到预设时间窗口的相对变化量,借助于有监督集成学习方法构建的第二预测模型对异常结果、预设时间窗口的相对变化量进行处理,以得到该待监测硬盘的故障结果。可以实现针对于不同厂家、不同故障类型自动化地对硬盘异常情况进行预测。针对于不同分类的监测数据利用相应的无监督模型的第一预测模型、有监督模型的第二预测模型相结合,有效的提高了故障预测的准确性,同时降低了资源消耗。提供了一种针对于工业级大规模生产环境下的硬盘的故障预测方法,便于用户提前处置,达到了针对于工业级大规模生产环境下的硬盘的故障预测泛化性能高、判断准确、资源消耗少的效果。
可选的,本发明实施例中的故障预测方法,还通过对第二预设模型中的损失函数进行了改造,可以提高故障预测方法所确定的故障概率的准确性,使得该故障预测方法可以适应样本不均衡的场景。
可选的,本发明实施例中的故障预测方法,在结合实际业务场景并利用第一预测模型、第二预测模型对监测数据进性判断的过程中获取不同监测对象产生的自监测S.M.A.R.T监测数据,接着根据自监测S.M.A.R.T中的具体监测数据进行分类,分为累积类监测特征数据和实时状态类监测特征数据,对实时状态类监测特征数据采用无监督集成算法,对累积类监测特征数据根据获取时间建立时间序列窗口并进行差分处理、指数加权滑动平均值的方法对各监测数据进行转换,不仅提高了对故障的预测能力,也消除了不同制造商生产设备所计算出的数值差异。最后,为解决样本分布极度不均衡情况下该方法故障预测能力不足的问题,本发明实施例提出了对传统有监督集成模型损失函数修改的方法。同时,针对复杂的生产环境下容易出现的误判问题,设定一个结合设备近期多日表现进行判别的策略,以降低误判的可能性。可以实现针对于不同厂商、不同故障类型,可以适应多变复杂的模型环境自动化地对硬盘异常情况进行预测。
实施例二
参见图2,本实施例提供了一种故障预测装置200,包括:
第一获取模块201,用于获取监测对象的监测数据,监测数据包括累积类监测特征数据、实时状态类监测特征数据;
第二获取模块202,用于根据累积类监测特征数据、实时状态类监测特征数据,分别获取监测对象的预设时间窗口的相对变化量、当前异常情况;
生成模块203,用于基于预设时间窗口的相对变化量和当前异常情况,生成监测对象的故障预测结果。
在一些实施例中,第二获取模块包括第二获取第一子模块和第二获取第二子模块,
第二获取第一子模块用于对累积类监测特征数据进行差分处理以获取差分结果,对预设时间窗口内的差分结果进行指数加权滑动平均处理以获取预设时间窗口的指数加权滑动平均值;
第二获取第二子模块用于根据当前实时状态类监测特征数据和第一预设模型确定当前异常得分;
生成模块还用于根据指数加权滑动平均值、当前异常得分,生成监测对象的故障预测结果。
在一些实施例中,当前实时状态类监测特征数据包括预设获取时刻所获取的各实时状态类监测特征数据。
在一些实施例中,第二获取第二子模块包括:
第三获取模块,用于获取若干个监测对象的监测数据;
训练模块,用于基于若干个监测对象的监测数据确定训练样本,并对训练样本进行二叉划分以构建孤立树,由孤立树构成孤立森林模型;
计算模块,用于根据当前实时状态类监测特征数据和孤立森林模型计算当前异常得分。
在一些实施例中,训练模块包括:
抽样模块,用于对训练样本进行抽样,获取至少一个样本集合;
选取模块,用于选取多个维度中的任一维度;
确定模块,用于根据训练样本集合确定维度对应的第一特征阈值,第一特征阈值包括维度在样本集合的取值区间内确定的分界值;
第一划分模块,用于基于维度和第一特征阈值,将样本集合划分为两个子样本集合;
第二划分模块,用于若子样本集合能够继续划分,将子样本集合作为新的样本集合,重新确定维度对应的第二特征阈值,第二特征阈值包括维度在新的样本集合的取值区间确定的新的分界值,基于维度和第二特征阈值,将新的样本集合划分为两个新的子样本集合;
停止模块,用于若子样本集合或新的子样本集合不能继续划分,停止维度的二叉划分;
第一构建模块,用于若完成所有选定的维度的二叉划分,孤立树构建完成。
在一些实施例中,生成模块包括第二构建模块,
第二构建模块用于根据有监督集成学习方法使用lightgbm构建第二预设模型,第二预设模型包括二分类模型;
生成模块还用于根据指数加权滑动平均值、当前异常得分和第二预设模型,生成监测对象的故障预测结果。
在一些实施例中,第二预设模型中的损失函数包括调节因子。
在一些实施例中,损失函数包括focal loss函数,focal loss函数为:
Figure BDA0002623274820000201
其中,为真实的样本标签,为经过sigmoid激活函数的预测输出值,为平衡因子,为调节因子。
在一些实施例中,故障预测结果包括故障概率值。
在一些实施例中,若预设时间段内故障概率值大于故障概率阈值的次数大于预设次数,监测对象处于故障状态。
在本实施例中,该故障预测装置执行上述系统或方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由一个或多个处理器执行时,使得设备执行实施例一的故障预测方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例一的所包含步骤的指令(instructions)。
图3为本申请一实施例提供的终端设备的硬件结构示意图。如图3所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现上述各实施例的故障预测方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图4为本申请的一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图4所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例一中的故障预测方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (24)

1.一种故障预测方法,其特征在于,包括:
获取监测对象的监测数据,所述监测数据包括累积类监测特征数据、实时状态类监测特征数据;
根据所述累积类监测特征数据、实时状态类监测特征数据,分别获取所述监测对象的预设时间窗口的相对变化量、当前异常情况;
基于所述预设时间窗口的相对变化量和当前异常情况,生成所述监测对象的故障预测结果。
2.根据权利要求1所述的故障预测方法,其特征在于,
所述根据所述累积类监测特征数据获取所述监测对象的在预设时间窗口的相对变化量包括:对累积类监测特征数据进行差分处理以获取差分结果,对预设时间窗口内的所述差分结果进行指数加权滑动平均处理以获取预设时间窗口的指数加权滑动平均值;
所述根据所述实时状态类监测特征数据获取所述监测对象的当前异常情况包括:根据当前实时状态类监测特征数据和第一预设模型确定当前异常得分;
根据所述指数加权滑动平均值、所述当前异常得分,生成所述监测对象的故障预测结果。
3.根据权利要求2所述的故障预测方法,其特征在于,所述当前实时状态类监测特征数据包括在预设获取时刻所获取的各实时状态类监测特征数据。
4.根据权利要求2所述的故障预测方法,其特征在于,所述根据当前实时状态类监测特征数据和第一预设模型确定所述当前异常得分包括:
获取若干个监测对象的监测数据;
基于若干个监测对象的监测数据确定训练样本,并对所述训练样本进行二叉划分以构建孤立树,由所述孤立树构成孤立森林模型,所述第一预设模型包括孤立森林模型;
根据所述当前实时状态类监测特征数据和所述孤立森林模型计算所述当前异常得分。
5.根据权利要求4所述的故障预测方法,其特征在于,所述若干个监测对象的监测数据包括所述监测对象在多个维度上的特征,所述对所述训练样本进行二叉划分以构建孤立树包括:
对所述训练样本进行抽样,获取至少一个样本集合;
选取所述多个维度中的任一维度;
根据所述训练样本集合确定所述维度对应的第一特征阈值,所述第一特征阈值包括所述维度在所述样本集合的取值区间内确定的分界值;
基于所述维度和所述第一特征阈值,将所述样本集合划分为两个子样本集合;
若所述子样本集合能够继续划分,将所述子样本集合作为新的样本集合,重新确定所述维度对应的第二特征阈值,所述第二特征阈值包括所述维度在所述新的样本集合的取值区间确定的新的分界值,基于所述维度和所述第二特征阈值,将所述新的样本集合划分为两个新的子样本集合;
若所述子样本集合或所述新的子样本集合不能继续划分,停止所述维度的二叉划分;
若完成所有选定的维度的二叉划分,所述孤立树构建完成。
6.根据权利要求2所述的故障预测方法,其特征在于,所述根据所述指数加权滑动平均值、所述当前异常得分,生成所述监测对象的故障预测结果包括:
根据有监督集成学习方法使用lightgbm构建第二预设模型,所述第二预设模型包括二分类模型;
根据所述指数加权滑动平均值、所述当前异常得分和所述第二预设模型,生成所述监测对象的故障预测结果。
7.根据权利要求6所述的故障预测方法,其特征在于,所述第二预设模型中的损失函数包括调节因子γ。
8.根据权利要求7所述的故障预测方法,其特征在于,所述损失函数包括focalloss函数,所述focalloss函数为:
Figure FDA0002623274810000021
其中,y为真实的样本标签,y′为经过sigmoid激活函数的预测输出值,α为平衡因子,γ为调节因子。
9.根据权利要求1-8任一项所述的故障预测方法,其特征在于,所述故障预测结果包括故障概率值。
10.根据权利要求9所述的故障预测方法,其特征在于,若预设时间段内所述故障概率值大于故障概率阈值的次数大于预设次数,所述监测对象处于故障状态。
11.根据权利要求1-8任一项所述的故障预测方法,其特征在于,所述累积类监测特征数据包括以下至少之一:电击起停次计数、重定位磁区计数、硬盘加电时间、电机起转重试、设备开关计数、终端校验出错、报告不可纠正错误数、通信超时、加速度错误率、电源关闭磁头收回计数、磁头升降计数、硬件ECC恢复、等候重定的扇区计数、无法校正的扇区计数、UltraDMA通讯CRC错误计数警告、LBA写入总数、LBA读取总数。
12.根据权利要求1-8任一项所述的故障预测方法,其特征在于,所述实时状态类监测特征数据包括以下至少之一:底层数据读取错误率、盘片启动时间、寻道错误率、磁头写入高度、气流温度、温度、传输错误率。
13.一种故障预测装置,其特征在于,包括:
第一获取模块,用于获取监测对象的监测数据,所述监测数据包括累积类监测特征数据、实时状态类监测特征数据;
第二获取模块,用于根据所述累积类监测特征数据、实时状态类监测特征数据,分别获取所述监测对象的预设时间窗口的相对变化量、当前异常情况;
生成模块,用于基于所述预设时间窗口的相对变化量和当前异常情况,生成所述监测对象的故障预测结果。
14.根据权利要求13所述的故障预测装置,其特征在于,所述第二获取模块包括第二获取第一子模块和第二获取第二子模块,
所述第二获取第一子模块用于对累积类监测特征数据进行差分处理以获取差分结果,对预设时间窗口内的所述差分结果进行指数加权滑动平均处理以获取预设时间窗口的指数加权滑动平均值;
所述第二获取第二子模块用于根据当前实时状态类监测特征数据和第一预设模型确定当前异常得分;
所述生成模块还用于根据所述指数加权滑动平均值、所述当前异常得分,生成所述监测对象的故障预测结果。
15.根据权利要求14所述的故障预测装置,其特征在于,所述当前实时状态类监测特征数据包括在预设获取时刻所获取的各实时状态类监测特征数据。
16.根据权利要求14所述的故障预测装置,其特征在于,所述第二获取第二子模块包括:
第三获取模块,用于获取若干个监测对象的监测数据;
训练模块,用于基于若干个监测对象的监测数据确定训练样本,并对所述训练样本进行二叉划分以构建孤立树,由所述孤立树构成孤立森林模型;
计算模块,用于根据所述当前实时状态类监测特征数据和所述孤立森林模型计算所述当前异常得分。
17.根据权利要求16所述的故障预测装置,其特征在于,所述训练模块包括:
抽样模块,用于对所述训练样本进行抽样,获取至少一个样本集合;
选取模块,用于选取所述多个维度中的任一维度;
确定模块,用于根据所述训练样本集合确定所述维度对应的第一特征阈值,所述第一特征阈值包括所述维度在所述样本集合的取值区间内确定的分界值;
第一划分模块,用于基于所述维度和所述第一特征阈值,将所述样本集合划分为两个子样本集合;
第二划分模块,用于若所述子样本集合能够继续划分,将所述子样本集合作为新的样本集合,重新确定所述维度对应的第二特征阈值,所述第二特征阈值包括所述维度在所述新的样本集合的取值区间确定的新的分界值,基于所述维度和所述第二特征阈值,将所述新的样本集合划分为两个新的子样本集合;
停止模块,用于若所述子样本集合或所述新的子样本集合不能继续划分,停止所述维度的二叉划分;
第一构建模块,用于若完成所有选定的维度的二叉划分,所述孤立树构建完成。
18.根据权利要求14所述的故障预测装置,其特征在于,所述生成模块包括第二构建模块,
所述第二构建模块用于根据有监督集成学习方法使用lightgbm构建第二预设模型,所述第二预设模型包括二分类模型;
所述生成模块还用于根据所述指数加权滑动平均值、所述当前异常得分和所述第二预设模型,生成所述监测对象的故障预测结果。
19.根据权利要求18所述的故障预测装置,其特征在于,所述第二预设模型中的损失函数包括调节因子γ。
20.根据权利要求19所述的故障预测方法,其特征在于,所述损失函数包括focalloss函数,所述focalloss函数为:
Figure FDA0002623274810000041
其中,y为真实的样本标签,y′为经过sigmoid激活函数的预测输出值,α为平衡因子,γ为调节因子。
21.根据权利要求13-20任一项所述的故障预测装置,其特征在于,所述故障预测结果包括故障概率值。
22.根据权利要求21所述的故障预测装置,其特征在于,若预设时间段内所述故障概率值大于故障概率阈值的次数大于预设次数,所述监测对象处于故障状态。
23.一种设备,其特征在于,所述设备包括:
一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-12中一个或多个所述的故障预测方法。
24.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-12中一个或多个所述的故障预测方法。
CN202010789586.XA 2020-08-07 2020-08-07 一种故障预测方法、装置、设备及机器可读介质 Pending CN111881000A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010789586.XA CN111881000A (zh) 2020-08-07 2020-08-07 一种故障预测方法、装置、设备及机器可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010789586.XA CN111881000A (zh) 2020-08-07 2020-08-07 一种故障预测方法、装置、设备及机器可读介质

Publications (1)

Publication Number Publication Date
CN111881000A true CN111881000A (zh) 2020-11-03

Family

ID=73211264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010789586.XA Pending CN111881000A (zh) 2020-08-07 2020-08-07 一种故障预测方法、装置、设备及机器可读介质

Country Status (1)

Country Link
CN (1) CN111881000A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113009906A (zh) * 2021-03-04 2021-06-22 青岛弯弓信息技术有限公司 一种基于工业互联网的大数据预测分析方法及系统
CN113657622A (zh) * 2021-07-13 2021-11-16 国网河北省电力有限公司电力科学研究院 电力设备多维状态数据融合方法、装置、终端及存储介质
CN114238016A (zh) * 2021-12-15 2022-03-25 山东新一代信息产业技术研究院有限公司 基于温度感知动态调整Checkpoint间隔的方法
WO2022166481A1 (zh) * 2021-02-08 2022-08-11 华为技术有限公司 一种针对硬盘的故障预测方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064340A (zh) * 2011-10-21 2013-04-24 沈阳高精数控技术有限公司 一种面向数控机床的故障预测方法
CN105022912A (zh) * 2015-05-28 2015-11-04 北京交通大学 基于小波主成分分析的滚动轴承故障预测方法
CN108680358A (zh) * 2018-03-23 2018-10-19 河海大学 一种基于轴承温度模型的风电机组故障预测方法
CN109144025A (zh) * 2017-06-27 2019-01-04 发那科株式会社 故障预测装置以及机器学习装置
CN109976930A (zh) * 2017-12-28 2019-07-05 腾讯科技(深圳)有限公司 异常数据的检测方法、系统及存储介质
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN111008662A (zh) * 2019-12-04 2020-04-14 贵州电网有限责任公司 一种输电线路在线监测数据异常分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064340A (zh) * 2011-10-21 2013-04-24 沈阳高精数控技术有限公司 一种面向数控机床的故障预测方法
CN105022912A (zh) * 2015-05-28 2015-11-04 北京交通大学 基于小波主成分分析的滚动轴承故障预测方法
CN109144025A (zh) * 2017-06-27 2019-01-04 发那科株式会社 故障预测装置以及机器学习装置
CN109976930A (zh) * 2017-12-28 2019-07-05 腾讯科技(深圳)有限公司 异常数据的检测方法、系统及存储介质
CN108680358A (zh) * 2018-03-23 2018-10-19 河海大学 一种基于轴承温度模型的风电机组故障预测方法
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN111008662A (zh) * 2019-12-04 2020-04-14 贵州电网有限责任公司 一种输电线路在线监测数据异常分析方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022166481A1 (zh) * 2021-02-08 2022-08-11 华为技术有限公司 一种针对硬盘的故障预测方法、装置及设备
CN113009906A (zh) * 2021-03-04 2021-06-22 青岛弯弓信息技术有限公司 一种基于工业互联网的大数据预测分析方法及系统
CN113657622A (zh) * 2021-07-13 2021-11-16 国网河北省电力有限公司电力科学研究院 电力设备多维状态数据融合方法、装置、终端及存储介质
CN113657622B (zh) * 2021-07-13 2024-02-27 国网河北省电力有限公司电力科学研究院 电力设备多维状态数据融合方法、装置、终端及存储介质
CN114238016A (zh) * 2021-12-15 2022-03-25 山东新一代信息产业技术研究院有限公司 基于温度感知动态调整Checkpoint间隔的方法

Similar Documents

Publication Publication Date Title
US10216558B1 (en) Predicting drive failures
CN111881000A (zh) 一种故障预测方法、装置、设备及机器可读介质
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
US11164097B2 (en) Method for preloading application, storage medium, and terminal device
WO2017129032A1 (zh) 磁盘的故障预测方法和装置
US10908920B2 (en) Method for preloading application, computer readable storage medium, and terminal device
CN108052528A (zh) 一种存储设备时序分类预警方法
US20210026725A1 (en) Method and device for determining an estimated time before a technical incident in a computing infrastructure from values of performance indicators
CN103221899B (zh) 触觉输入设备、微处理器系统和控制触觉输入设备的方法
CN108596410B (zh) 一种风控事件自动处理方法及装置
CN110046633B (zh) 一种数据质量检测方法及装置
US11675643B2 (en) Method and device for determining a technical incident risk value in a computing infrastructure from performance indicator values
CN112005259A (zh) 用于商品测试的测试脚本的智能选择
US11436188B2 (en) Resource optimization and update method, server, and device
US10191668B1 (en) Method for dynamically modeling medium error evolution to predict disk failure
CN112148766A (zh) 利用人工神经网络模型进行数据抽样的方法和系统
Pinciroli et al. Lifespan and failures of SSDs and HDDs: similarities, differences, and prediction models
CN108491325B (zh) 文件系统测试方法、装置、存储介质及终端
CN115878400A (zh) 测试方法、装置、计算机设备、存储介质和程序产品
CN115509853A (zh) 一种集群数据异常检测方法及电子设备
US20210201164A1 (en) Method and system for identifying relevant variables
KR102343139B1 (ko) 어노멀리 검출방법 및 그 장치
CN112737834A (zh) 一种云硬盘故障预测方法、装置、设备及存储介质
US20190138931A1 (en) Apparatus and method of introducing probability and uncertainty via order statistics to unsupervised data classification via clustering
US20240143666A1 (en) Smart metric clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201103

RJ01 Rejection of invention patent application after publication