CN112433928A - 一种存储设备的故障预测方法、装置、设备及存储介质 - Google Patents

一种存储设备的故障预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112433928A
CN112433928A CN202011395011.6A CN202011395011A CN112433928A CN 112433928 A CN112433928 A CN 112433928A CN 202011395011 A CN202011395011 A CN 202011395011A CN 112433928 A CN112433928 A CN 112433928A
Authority
CN
China
Prior art keywords
data
determining
fault
category
key influence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011395011.6A
Other languages
English (en)
Inventor
刘泽志
李志勇
王毅
蔡元飞
黄明罡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011395011.6A priority Critical patent/CN112433928A/zh
Publication of CN112433928A publication Critical patent/CN112433928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种存储设备的故障预测方法、装置、设备及存储介质,所述方法包括:获取训练集,所述训练集包括至少一个训练样本,每个所述训练样本包括存储设备的性能数据和关键影响点数据;基于关键影响点的重要度确定所述训练样本中各特征向量的权重;利用所述训练集训练KNN模型,并获取训练好的KNN模型的超参数k;获取实测数据,计算所述实测数据的特征向量;基于所述训练样本中各特征向量的权重,计算所述实测数据的特征向量与所述训练样本中各特征向量的加权距离,基于所述加权距离确定最近邻的k个点;根据分类决策规则,确定所述实测数据的类别。实施本发明,可提高存储设备故障预测的准确性。

Description

一种存储设备的故障预测方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种存储设备的故障预测方法、装置、设备及存储介质。
背景技术
数据蕴藏着巨大的潜能,其对于每个公司正变得越来越重要,如何利用好数据已成最热门的话题之一。然而不能忽略了其根本,就是如何保护好源数据。据IDC(International Data Center,国际数据中心)的统计数字表明,美国在2000年以前的10年间发生过灾难的公司中,有55%当时倒闭,剩下的45%中,因为数据丢失,又有29%也在两年之内倒闭,生存下来的仅占16%。目前很多大型企业都认识到数据安全对于业务连续性的重要性,为了保障企业的业务连续性都建立了灾难备份中心。一旦灾难发生,灾难备份中心要在确定时间内接替生产中心的运营,恢复业务正常运行。目前大部分金融业在使用IBM主机作为核心业务平台,GDPS(Geographically Dispersed Parallel Sysplex,地理分散并行系统)是它在灾备和业务连续性方面的主要解决方案。GDPS是一种多站点或单站点端到端解决方案,能够让用户从一个统一的控制点完成对分布在多个站点的主机系统、磁盘和数据复制等进行自动化的管理和操作,在出现故障场景时自动进行恢复操作。
磁盘故障是数据中心日常运维中常见的故障类型之一,它严重影响了存储系统的可靠性和连续性。随着信息技术的发展,数据已成现代社会的命脉,并且已经彻底改变了业务格局,如果处理不当,它不仅会造成数据丢失,还会造成业务损失。因此,能够主动识别有问题的磁盘对存储可靠性至关重要。根据服务器类型可以将数据中心存储分类分为:封闭系统的存储和开放系统的存储,封闭系统主要指IBM大型机、小型机等;开放系统指基于包括Windows、UNIX、Linux等操作系统的服务器。目前磁盘故障分析在业界已经有很广泛的应用,其主要针对开放系统的存储,通过阈值法、统计方法、机器学习以及深度学习的方法对磁盘的SMART(Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术)信息进行分析。
但是,现有方案主要针对开放系统,复用性不足。并且,大部分方案基于磁盘的SMART信息进行分析,太过依赖磁盘的SMART信息,为了保证低误报率,磁盘厂商通过对阈值进行设置,导致故障检出率只有3%-10%。另外,目前对于磁盘的运行状态的研究结果表明,使用单一的或者简单的SMART信息还不能准确的预测磁盘故障,SMART信息有一定的缺点,比如HDD与SDD的相关参数不同,不同厂商不同型号的硬盘参数也不同,传统的机器学习方法只能针对同厂商、同型号的磁盘进行分别建模和预测,当引进一批新型号的磁盘,而新磁盘体量很少的情况下,即使为小样本磁盘单独建立一个预测模型,该模型也很难准确预测,导致不具备通用性。
发明内容
本申请所要解决的技术问题在于,提供一种存储设备的故障预测方法、装置、设备及存储介质,以解决现有技术中太过依赖SAMRT信息导致的故障检出率低以及预测模型不具备通用性的问题。
为了解决上述技术问题,一方面,本申请提供了一种存储设备的故障预测方法,所述方法包括:获取训练集,所述训练集包括至少一个训练样本,每个所述训练样本包括存储设备的性能数据和关键影响点数据,所述关键影响点数据为所述存储设备的关键影响点的数据,所述关键影响点为预先对所述存储设备的历史故障数据进行分析得到;基于关键影响点的重要度确定每个所述训练样本中各特征向量的权重,所述关键影响点的重要度为预先对所述存储设备的历史故障数据进行分析得到;利用所述训练集训练KNN模型,并获取训练好的KNN模型的超参数k(k≥1);获取实测数据,计算所述实测数据的特征向量;基于所述训练样本中各特征向量的权重,计算所述实测数据的特征向量与所述训练样本中各特征向量的加权距离,基于所述加权距离确定最近邻的k个点;根据分类决策规则,确定所述实测数据的类别。
另一方面,本申请提供了一种存储设备的故障预测装置,所述装置包括:训练集获取模块,用于获取训练集,所述训练集包括至少一个训练样本,每个所述训练样本包括存储设备的性能数据和关键影响点数据,所述关键影响点数据为所述存储设备的关键影响点的数据,所述关键影响点为预先对所述存储设备的历史故障数据进行分析得到;权重确定模块,用于基于关键影响点的重要度确定每个所述训练样本中各特征向量的权重,所述关键影响点的重要度为预先对所述存储设备的历史故障数据进行分析得到;超参数确定模块,用于利用所述训练集训练KNN模型,并获取训练好的KNN模型的超参数k(k≥1);实测数据获取模块,用于获取实测数据,计算所述实测数据的特征向量;加权距离计算模块,用于基于所述训练样本中各特征向量的权重,计算所述实测数据的特征向量与所述训练样本中各特征向量的加权距离,基于所述加权距离确定最近邻的k个点;类别确定模块,用于根据分类决策规则,确定所述实测数据的类别。
另一方面,本申请提供了一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现任一项所述的故障预测方法。
另一方面,本申请提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集使所述计算机执行任一所述的故障预测方法。
由于上述技术方案,本申请具有如下有益效果:
既可适用于开放系统,也可以适用于封闭系统,并且,解决了现有技术中太过依赖SAMRT信息导致的故障检出率低以及预测模型不具备通用性的问题,以及,预测故障的关键影响点,从而可以在系统配置和应用上作出相应调整,有效避免故障。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种存储设备的故障预测方法的流程示意图;
图2是本发明实施例提供的一条设备故障信息的示意图;
图3是本发明实施例提供的关键影响点的示意图;
图4是本发明实施例提供的一种存储设备的故障预测方法中在获取训练集之前还包括的步骤的流程示意图;
图5是本发明实施例提供的最优聚类的示意图;
图6是本发明实施例提供的一种存储设备的故障预测装置的结构示意图;
图7是本发明实施例提供的一种存储设备的故障预测设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
以下为本发明实施例提供的一种存储设备的故障预测方法的具体实施例,请参考图1,图1是本发明实施例提供的存储设备的故障预测方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中装置或设备执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。如图1所示,所述方法可以包括:
步骤S101:获取训练集,所述训练集包括至少一个训练样本,每个所述训练样本包括存储设备的性能数据和关键影响点数据,所述关键影响点数据为所述存储设备的关键影响点的数据,所述关键影响点为预先对所述存储设备的历史故障数据进行分析得到;
在本发明实施例中,所述存储设备的性能数据可以包括:磁盘吞吐量、磁盘数据传输率、磁盘响应时间、磁盘缓存命中率、磁盘后端吞吐量以及磁盘后端响应时间等。
所述关键影响点为从磁盘的所有故障特征中筛选出的关键点,图2为一条设备故障信息,其中,故障设备名称、故障发生日期、故障发生时间、故障设备PN号等信息均为磁盘的故障特征,如图3所示,故障设备SN号、故障设备名称、故障设备PN号等为从磁盘的故障特征中筛选出的关键点,即所述关键影响点。
在收集训练集的过程中,会收集磁盘的性能数据以及磁盘故障特征数据,由于在此之前利用了历史故障数据确定了关键影响点,因此,可以利用所述关键影响点从所述磁盘故障特征数据中筛选出关键影响点数据,也即,可以基于所述关键影响点对所述磁盘故障特征数据进行降维处理,从而可以降低时间、空间复杂度,节省不必要特征的开销。
具体的,所述训练集被构建为k维向量空间模型Rk,R={x1,x1,xN},其中
Figure BDA0002814519640000051
样本xi表示为特征向量,
Figure BDA0002814519640000052
表示为样本xi的第j个特征的值。
可选的,可以预先对所述存储设备的历史故障数据进行分析,得到所述关键影响点以及所述关键影响点的重要度,也即,如图4所示,在所述获取训练集的步骤之前,所述方法还可以包括:
步骤S401:获取至少一个所述存储设备的历史故障数据,所述历史故障数据包括至少一条设备故障信息,每条所述设备故障信息包括多维故障特征;
例如,如图2所示,每条设备故障信息包括故障设备名称、故障发生日期、故障发生时间、故障设备PN号等共18维的故障特征。
需要说明的是,在获取历史故障数据之后,需要对获取的数据进行预处理,以对缺失值、脏数据和异常数据进行处理。
步骤S403:对所述历史故障数据进行聚类分析,确定最优聚类的个数和每个所述最优聚类代表的类别;
可选的,所述对所述历史故障数据进行聚类分析,确定最优聚类个数可以包括:
步骤S4031:将所述历史故障数据中的每一条所述设备故障信息确定为一个类别;
步骤S4032:计算不同类别的故障信息的聚类中心间的欧式距离,将距离最近的两类合并为一类,并计算合并后的类的聚类中心;
步骤S4033:基于贝叶斯信息准则确定最优聚类个数;
步骤S4034:基于各个最优聚类中的单元分布特征确定所述最优聚类代表的类别。
例如,基于贝叶斯信息准则确定最优聚类个数为2个,如图5所示的聚类1和聚类2,其中,聚类1的单元分布特征符合测试磁盘类,聚类2的单元分布特征符合灾备磁盘类。
步骤S405:基于所述最优聚类代表的类别和所述多维故障特征,确定导致所述存储设备发生故障的关键影响点及所述关键影响点的重要度。
具体的,可以利用线性回归的方式从所述多维故障特征中确定出所述关键影响点,例如,可以建立如下两个线性方程:
ha=a0+a1x1+a2x2+…+a18x18
hb=b0+b1x1+b2x2+…+b18x18
其中,ha为测试磁盘类,hb为灾备磁盘类,x1、x2…x18中可以代入多维故障特征对应的数值,通过线性回归,可以求出两个线性方程的系数a0、a1…以及b0、b1…,基于两个线性方程的系数的大小,可以确定出关键影响点,以及关键影响点的重要度。
具体的,可以设置系数阈值,在某一维故障特征的系数大于等于该系数阈值时,说明该维的故障特征为关键影响点,相应的系数的大小可以用于表征关键影响点的重要度。
例如,系数a1大小为0.75,其大于系数阈值0.5,说明系数a1对应的故障特征(如故障设备SN号)为关键影响点,相应的系数0.75可以用于表征关键影响点的重要度;系数a18大小为0.05,其小于系数阈值0.5,说明系数a18对应的故障特征(如备件更换数量)为非关键影响点。
可选的,可以设置系数阈值,在某一维故障特征的系数的平均值大于等于该系数阈值时,说明该维的故障特征为关键影响点,相应的系数的平均值可以用于表征关键影响点的重要度。
例如,系数a1大小为0.75,系数b1大小为0.65,其平均值为0.7,大于系数阈值0.5,说明系数a1与b1对应的故障特征(如故障设备SN号)为故障影响点,相应的系数的平均值0.7可以用于表征故障影响点对故障的重要度。
在实际应用中,通过对全局数据进行聚类分析,可以反应历史故障数据内部的关联,并进而可以利用历史故障数据内部的关联进行后续故障的分类。
步骤S103:基于关键影响点的重要度确定所述训练样本中各特征向量的权重,所述关键影响点的重要度为预先对所述存储设备的历史故障数据进行分析得到;
在本发明实施例中,训练样本中性能数据的权重可以全部设置为1,也即,磁盘吞吐量、磁盘数据传输率、磁盘响应时间、磁盘缓存命中率等性能特征向量的权重均设置为1,训练样本中关键影响点的权重之和可以设置为1,各个关键影响点的权重可以基于所述关键影响点的重要度设置,关键影响点的重要度越大,相应特征向量的权重越大,例如,如图3所示,故障设备名称的重要度大于备件配置信息,那么,所述训练样本中特征向量(故障设备名称)的权重也大于所述训练样本中特征向量(备件配置信息)的权重,可选的,可以直接将所述关键影响点的重要度作为所述训练样本中相应特征向量的权重。
步骤S105:利用所述训练集训练KNN模型,并获取训练好的KNN模型的超参数k(k≥1);
在本发明实施例中,在利用训练好的KNN模型对实测数据进行预测之前,首先需要利用所述训练集对KNN模型进行训练,以确定训练好的KNN模型的超参数k。
在训练KNN模型时,首先利用如下公式计算训练集中两个样本之间的距离:
Figure BDA0002814519640000081
其中,
Figure BDA0002814519640000082
为样本xi中第l个特征的值,
Figure BDA0002814519640000083
为样本xj中第l个特征的值,wl为样本中第l个特征的权重。
在确定完距离函数后,可以采用交叉验证法来选取最优的k值,具体的,可以按照如下步骤选取最优的k值:
1)利用上述距离函数计算训练集中当前样本点与其余样本点之间的距离;
2)按距离递增依次排序;
3)选取与当前点距离最小的k个样本点;
4)统计前k个点所在的类别出现的频率;
5)返回前k个点出现频率最高的类别作为当前样本点的预测分类。
而后基于当前样本点的实际分类标签与预测分类是否一致确定当前样本点的分类是否正确,并参照上述步骤对所述训练集中的其余样本点进行验证,以选取最优的k值,将最优的k值作为训练好的KNN模型的超参数。
步骤S107:获取实测数据,计算所述实测数据的特征向量;
在本发明实施例中,所述实测数据的特征向量的维度与所述训练集中特征向量的维度相同,例如,利用训练集构建了k维向量空间模型,也即,所述训练集中向量的维度为k,那么为了便于计算,实测数据的特征向量的维度也设置为k。
步骤S109:基于所述训练集中各特征向量的权重,计算所述实测数据的特征向量与训练集中各特征向量的加权距离,基于所述加权距离确定最近邻的k个点;
具体的,可以按照如下步骤确定最近邻的k个点:
1)利用步骤S105中的距离函数计算实测数据与所述训练集中各个样本点之间的距离;
2)按距离递增依次排序;
3)选取与实测数据距离最小的k个样本点,即所述实测数据最近邻的k个点。
步骤S111:根据分类决策规则,确定所述实测数据的类别。
可选的,所述根据分类决策规则,确定所述实测数据的类别可以包括:
将在k个点中出现频率最高的类别确定为所述实测数据的类别。
具体的,在确定完所述实测数据最近邻的k个点后,可以统计前k个点所在的类别出现的频率,并返回前k个点出现频率最高的类别作为所述实测数据的预测分类。
可选的,所述根据分类决策规则,确定所述实测数据的类别还可以包括基于以下公式确定所述实测数据的类别:
f:Rn→V,V={υ12,,,υS},
Figure BDA0002814519640000091
其中,f(xq)为实测数据xq的类别,k为与实测数据xq最近邻的样本数,ci为实测数据xq与训练集中任一样本xi之间的加权距离的倒数,v为k个样本点中所有类别中的任意一种,f(xi)为k个样本点中任一样本点xi的类别。
例如,基于所述训练集,利用交叉验证法确定训练好的KNN模型的超参数k的值,如k=5,其中,样本点x1和x2的标签为有故障,样本x3-x5的标签为无故障,那么上述公式中的v为有故障类别或者为无故障类别,f(xi)为5个样本点中任一样本点xi的类别,如f(x1)为5个样本点中样本点x1的类别(即有故障类别),f(x2)为5个样本点中样本点x2的类别(即有故障类别),f(x3)为5个样本点中样本点x3的类别(即无故障类别)…。
当v为有故障类别时,f(x1)=v,则δ(υ,f(x1))=1,f(x2)=v,则δ(υ,f(x2))=1,f(x3)≠v,则δ(υ,f(x3))=0,f(x4)≠v,则δ(υ,f(x4))=0,f(x5)≠v,则δ(υ,f(x5))=0,与此同时,还需要结合实测数据与各个样本点的加权距离的倒数进行考虑,例如,实测数据与样本点x1之间的加权距离的倒数为0.5,实测数据与样本点x2之间的加权距离的倒数为0.6,那么可以求得
Figure BDA0002814519640000101
的值为1.1(即0.5×1+0.6×1+0+0+0)。
当v为无故障类别时,f(x1)≠v,则δ(υ,f(x1))=0,f(x2)≠v,则δ(υ,f(x2))=0,f(x3)=v,则δ(υ,f(x3))=1,f(x4)=v,则δ(υ,f(x4))=1,f(x5)=v,则δ(υ,f(x5))=1,与此同时,还需要结合实测数据与各个样本点的加权距离的倒数进行考虑,例如,实测数据与样本点x3之间的加权距离的倒数为0.4,实测数据与样本点x4之间的加权距离的倒数为0.3,实测数据与样本点x5之间的加权距离的倒数为0.2,那么可以求得
Figure BDA0002814519640000102
的值为0.9(即0+0+0.4×1+0.3×1+0.2×1)。
最后,将较大值所对应的v的类别作为实测数据xq的类别,在上述例子中,由于1.1大于0.9,因此,将实测数据的类别确定为有故障类别。
可以理解的是,如果不考虑实测数据与各个样本点的加权距离,实测数据的类别将被预测为5个样本点中出现频率最高的类别,即无故障类别,而在考虑实测数据与各个样本点的加权距离后,实测数据的类别被预测为有故障类别。可见,通过引入实测数据与各个样本点之间的加权距离,可以增加实测数据类别预测的准确性。
为验证上述方法的性能,将公司内部2019年磁盘性能数据作为为实验用的训练集。通过pyhon算法,与传统的KNN算法进行了比较,结果如表1所示。
表1
Figure BDA0002814519640000111
由表1可以看出,使用本申请的特征加权的KNN,可以有效提高预测的准确率。
本发明实施例还提供了一种存储设备的故障预测装置,如图6所示,所述装置可以包括:
训练集获取模块610,用于获取训练集,所述训练集包括至少一个训练样本,每个所述训练样本包括存储设备的性能数据和关键影响点数据,所述关键影响点数据为所述存储设备的关键影响点的数据,所述关键影响点为预先对所述存储设备的历史故障数据进行分析得到;
权重确定模块620,用于基于关键影响点的重要度确定每个所述训练样本中各特征向量的权重,所述关键影响点的重要度为预先对所述存储设备的历史故障数据进行分析得到;
超参数确定模块630,用于利用所述训练集训练KNN模型,并获取训练好的KNN模型的超参数k(k≥1);
实测数据获取模块640,用于获取实测数据,计算所述实测数据的特征向量;
加权距离计算模块650,用于基于所述训练样本中各特征向量的权重,计算所述实测数据的特征向量与所述训练样本中各特征向量的加权距离,基于所述加权距离确定最近邻的k个点;
类别确定模块660,用于根据分类决策规则,确定所述实测数据的类别。
在一些实施例中,所述装置还可以包括:
历史故障数据获取模块,用于获取所述存储设备的历史故障数据,所述历史故障数据包括至少一条设备故障信息,每条所述设备故障信息包括多维故障特征;
聚类分析模块,用于对所述历史故障数据进行聚类分析,确定最优聚类个数和每个所述最优聚类代表的类别;
关键影响点确定模块,用于基于所述最优聚类代表的类别和所述多维故障特征,确定导致所述存储设备发生故障的关键影响点及所述关键影响点的重要度。
在一些实施例中,所述聚类分析模块可以包括:
类别确定子模块,用于将所述历史故障数据中的每一条所述设备故障信息确定为一个类别;
合并子模块,用于计算不同类别的故障信息的聚类中心间的欧式距离,将距离最近的两类合并为一类,并计算合并后的类的聚类中心;
最优聚类个数确定子模块,用于基于贝叶斯信息准则确定最优聚类个数;
最优聚类代表的类别确定子模块,用于基于各个最优聚类中的单元分布特征确定所述最优聚类代表的类别。
上述实施例中提供的装置可执行本申请任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的方法。
本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如本实施例上述任一方法。
本实施例还提供了一种设备,其结构图请参见图7,该设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)(例如,一个或一个以上处理器)和存储器,一个或一个以上存储应用程序或数据的存储介质(例如一个或一个以上海量存储设备)。其中,存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对设备中的一系列指令操作。更进一步地,中央处理器可以设置为与存储介质通信,在设备上执行存储介质中的一系列指令操作。设备1000还可以包括一个或一个以上电源,一个或一个以上有线或无线网络接口,一个或一个以上输入输出接口,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。本实施例上述的任一方法均可基于图7所示的设备进行实施。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种存储设备的故障预测方法,其特征在于,所述方法包括:
获取训练集,所述训练集包括至少一个训练样本,每个所述训练样本包括存储设备的性能数据和关键影响点数据,所述关键影响点数据为所述存储设备的关键影响点的数据,所述关键影响点为预先对所述存储设备的历史故障数据进行分析得到;
基于关键影响点的重要度确定所述训练样本中各特征向量的权重,所述关键影响点的重要度为预先对所述存储设备的历史故障数据进行分析得到;
利用所述训练集训练KNN模型,并获取训练好的KNN模型的超参数k(k≥1);
获取实测数据,计算所述实测数据的特征向量;
基于所述训练样本中各特征向量的权重,计算所述实测数据的特征向量与所述训练样本中各特征向量的加权距离,基于所述加权距离确定最近邻的k个点;
根据分类决策规则,确定所述实测数据的类别。
2.根据权利要求1所述的故障预测方法,其特征在于,在所述获取训练集的步骤之前,所述方法还包括:
获取所述存储设备的历史故障数据,所述历史故障数据包括至少一条设备故障信息,每条所述设备故障信息包括多维故障特征;
对所述历史故障数据进行聚类分析,确定最优聚类个数和每个所述最优聚类代表的类别;
基于所述最优聚类代表的类别和所述多维故障特征,确定导致所述存储设备发生故障的关键影响点及所述关键影响点的重要度。
3.根据权利要求2所述的故障预测方法,其特征在于,所述对所述历史故障数据进行聚类分析,确定最优聚类个数和每个所述最优聚类代表的类别包括:
将所述历史故障数据中的每一条所述设备故障信息确定为一个类别;
计算不同类别的故障信息的聚类中心间的欧式距离,将距离最近的两类合并为一类,并计算合并后的类的聚类中心;
基于贝叶斯信息准则确定最优聚类个数;
基于各个最优聚类中的单元分布特征确定所述最优聚类代表的类别。
4.根据权利要求1所述的故障预测方法,其特征在于,所述根据分类决策规则,确定所述实测数据的类别包括:
将在k个点中出现频率最高的类别确定为所述实测数据的类别。
5.根据权利要求1所述的故障预测方法,其特征在于,所述根据分类决策规则,确定所述实测数据的类别包括基于以下公式确定所述实测数据的类别:
f:Rn→V,V={υ12,,,υs},
Figure FDA0002814519630000021
其中,f(xq)为实测数据xq的类别,k为与实测数据xq最近邻的样本数,ci为实测数据xq与训练集中任一样本xi之间的加权距离的倒数,v为k个样本点中所有类别中的任意一种,f(xi)为k个样本点中任一样本点xi的类别。
6.一种存储设备的故障预测装置,其特征在于,所述装置包括:
训练集获取模块,用于获取训练集,所述训练集包括至少一个训练样本,每个所述训练样本包括存储设备的性能数据和关键影响点数据,所述关键影响点数据为所述存储设备的关键影响点的数据,所述关键影响点为预先对所述存储设备的历史故障数据进行分析得到;
权重确定模块,用于基于关键影响点的重要度确定每个所述训练样本中各特征向量的权重,所述关键影响点的重要度为预先对所述存储设备的历史故障数据进行分析得到;
超参数确定模块,用于利用所述训练集训练KNN模型,并获取训练好的KNN模型的超参数k(k≥1);
实测数据获取模块,用于获取实测数据,计算所述实测数据的特征向量;
加权距离计算模块,用于基于所述训练样本中各特征向量的权重,计算所述实测数据的特征向量与所述训练样本中各特征向量的加权距离,基于所述加权距离确定最近邻的k个点;
类别确定模块,用于根据分类决策规则,确定所述实测数据的类别。
7.根据权利要求6所述的故障预测装置,其特征在于,所述装置还包括:
历史故障数据获取模块,用于获取所述存储设备的历史故障数据,所述历史故障数据包括至少一条设备故障信息,每条所述设备故障信息包括多维故障特征;
聚类分析模块,用于对所述历史故障数据进行聚类分析,确定最优聚类个数和每个所述最优聚类代表的类别;
关键影响点确定模块,用于基于所述最优聚类代表的类别和所述多维故障特征,确定导致所述存储设备发生故障的关键影响点及所述关键影响点的重要度。
8.根据权利要求7所述的故障预测方法,其特征在于,所述聚类分析模块包括:
类别确定子模块,用于将所述历史故障数据中的每一条所述设备故障信息确定为一个类别;
合并子模块,用于计算不同类别的故障信息的聚类中心间的欧式距离,将距离最近的两类合并为一类,并计算合并后的类的聚类中心;
最优聚类个数确定子模块,用于基于贝叶斯信息准则确定最优聚类个数;
最优聚类代表的类别确定子模块,用于基于各个最优聚类中的单元分布特征确定所述最优聚类代表的类别。
9.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一项所述的故障预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集使所述计算机执行如权利要求1-5任一所述的故障预测方法。
CN202011395011.6A 2020-12-03 2020-12-03 一种存储设备的故障预测方法、装置、设备及存储介质 Pending CN112433928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011395011.6A CN112433928A (zh) 2020-12-03 2020-12-03 一种存储设备的故障预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011395011.6A CN112433928A (zh) 2020-12-03 2020-12-03 一种存储设备的故障预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112433928A true CN112433928A (zh) 2021-03-02

Family

ID=74690812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011395011.6A Pending CN112433928A (zh) 2020-12-03 2020-12-03 一种存储设备的故障预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112433928A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113057623A (zh) * 2021-03-30 2021-07-02 上海理工大学 平足症筛查鞋垫以及平足症筛查步态分析系统
CN114172708A (zh) * 2021-11-30 2022-03-11 北京天一恩华科技股份有限公司 网络流量异常的识别方法
CN116014741A (zh) * 2023-03-23 2023-04-25 国网山东省电力公司聊城供电公司 基于数据处理的柔性控制器与配电网运行适配系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070101202A1 (en) * 2005-10-28 2007-05-03 International Business Machines Corporation Clustering process for software server failure prediction
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN109800782A (zh) * 2018-12-11 2019-05-24 国网甘肃省电力公司金昌供电公司 一种基于模糊knn算法的电网故障检测方法及装置
US20190188212A1 (en) * 2016-07-27 2019-06-20 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
CN110389866A (zh) * 2018-04-20 2019-10-29 武汉安天信息技术有限责任公司 磁盘故障预测方法、装置、计算机设备及计算机存储介质
CN110781914A (zh) * 2019-09-12 2020-02-11 腾讯科技(深圳)有限公司 一种设备故障的监控处理方法、装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070101202A1 (en) * 2005-10-28 2007-05-03 International Business Machines Corporation Clustering process for software server failure prediction
US20190188212A1 (en) * 2016-07-27 2019-06-20 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN110389866A (zh) * 2018-04-20 2019-10-29 武汉安天信息技术有限责任公司 磁盘故障预测方法、装置、计算机设备及计算机存储介质
CN109800782A (zh) * 2018-12-11 2019-05-24 国网甘肃省电力公司金昌供电公司 一种基于模糊knn算法的电网故障检测方法及装置
CN110781914A (zh) * 2019-09-12 2020-02-11 腾讯科技(深圳)有限公司 一种设备故障的监控处理方法、装置、设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
卢志浩;钟智;王楠;温海标;: "RBQENN算法在不平衡数据分类问题中的应用", 广西师范学院学报(自然科学版), no. 01, 25 March 2015 (2015-03-25), pages 58 *
姜少彬;杜春;陈浩;李军;伍江江;: "一种硬盘故障预测的非监督对抗学习方法", 西安电子科技大学学报, no. 02 *
梅子行 著: "《智能风控》", vol. 2020, 31 May 2020, 机械工业出版社, pages: 109 - 111 *
邓祖新: "《数据分析方法和SAS系统》", vol. 2006, 31 August 2006, 上海财经大学出版社, pages: 369 - 370 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113057623A (zh) * 2021-03-30 2021-07-02 上海理工大学 平足症筛查鞋垫以及平足症筛查步态分析系统
CN114172708A (zh) * 2021-11-30 2022-03-11 北京天一恩华科技股份有限公司 网络流量异常的识别方法
CN116014741A (zh) * 2023-03-23 2023-04-25 国网山东省电力公司聊城供电公司 基于数据处理的柔性控制器与配电网运行适配系统及方法

Similar Documents

Publication Publication Date Title
CN108923952B (zh) 基于服务监控指标的故障诊断方法、设备及存储介质
De Santo et al. Deep Learning for HDD health assessment: An application based on LSTM
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN112433928A (zh) 一种存储设备的故障预测方法、装置、设备及存储介质
CN107025153B (zh) 磁盘的故障预测方法和装置
CN109816031B (zh) 一种基于数据不均衡度量的变压器状态评估聚类分析方法
CN108052528A (zh) 一种存储设备时序分类预警方法
US8291263B2 (en) Methods and apparatus for cross-host diagnosis of complex multi-host systems in a time series with probabilistic inference
Wang et al. Log-based anomaly detection with the improved K-nearest neighbor
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN112596964B (zh) 磁盘故障的预测方法及装置
Gabel et al. Latent fault detection in large scale services
Han et al. Toward adaptive disk failure prediction via stream mining
CN111858108B (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN109240276B (zh) 基于故障敏感主元选择的多块pca故障监测方法
WO2022001125A1 (zh) 一种存储系统的存储故障预测方法、系统及装置
CN112148561A (zh) 业务系统的运行状态预测方法、装置及服务器
CN111949459B (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
Ghiasvand et al. Anomaly detection in high performance computers: A vicinity perspective
CN115729761A (zh) 一种硬盘故障预测方法、系统、设备及介质
CN115543671A (zh) 数据分析方法、装置、设备、存储介质及程序产品
CN115981911A (zh) 内存故障的预测方法、电子设备和计算机可读存储介质
Huang et al. Achieving scalable automated diagnosis of distributed systems performance problems
CN112445632A (zh) 基于故障数据建模的hpc可靠性评估方法
CN113434088B (zh) 一种磁盘识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination