CN110196792B - 故障预测方法、装置、计算设备及存储介质 - Google Patents

故障预测方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN110196792B
CN110196792B CN201810890680.7A CN201810890680A CN110196792B CN 110196792 B CN110196792 B CN 110196792B CN 201810890680 A CN201810890680 A CN 201810890680A CN 110196792 B CN110196792 B CN 110196792B
Authority
CN
China
Prior art keywords
decision tree
monitoring
monitoring record
model
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810890680.7A
Other languages
English (en)
Other versions
CN110196792A (zh
Inventor
谢伟睿
张
吉永光
王银虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810890680.7A priority Critical patent/CN110196792B/zh
Publication of CN110196792A publication Critical patent/CN110196792A/zh
Application granted granted Critical
Publication of CN110196792B publication Critical patent/CN110196792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了故障预测方法、装置、计算设备及存储介质。其中,一种故障预测方法,包括:获取第一监测时间段内的第一监测记录集合和第二监测时间段内的第二监测记录集合;基于所述第一监测记录集合,生成多个决策树模型;利用所述第二监测记录集合测试所述多个决策树模型中各决策树模型,而得到所述各决策树模型的预测结果;根据所述各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型;利用所述故障预测模型预测待测试的存储设备,并生成相应的故障预测结果。

Description

故障预测方法、装置、计算设备及存储介质
技术领域
本申请涉及设备监测技术领域,尤其涉及故障预测方法、装置、计算设备及存储介质。
背景技术
目前,硬盘等存储设备广泛应用于数据存储。存储设备在故障时可以造成数据损失,并影响与数据读写有关的各种业务。因此,对存储设备的运行状态是非常必要的。例如,一些监测方案可以利用存储设备的监测数据对为了对存储设备的故障进行提前预测。
发明内容
本申请提出了一种故障预测方案,能够提高故障预测准确性。
根据本申请一方面,提供一种故障预测方法,包括:获取第一监测时间段内的第一监测记录集合和第二监测时间段内的第二监测记录集合,其中,所述第一监测记录集合和所述第二监测记录集合用于描述被监测的存储设备的运行状态,所述第一监测时间段早于所述第二监测时间段;基于所述第一监测记录集合,生成多个决策树模型,每个决策树模型用于预测所述存储设备是否故障;利用所述第二监测记录集合测试所述多个决策树模型中各决策树模型,而得到所述各决策树模型的预测结果;根据所述各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型;利用所述故障预测模型预测待测试的存储设备,并生成相应的故障预测结果。
根据本申请一方面,提供一种故障预测装置,包括:记录获取单元,用于获取第一监测时间段内的第一监测记录集合和第二监测时间段内的第二监测记录集合,其中,所述第一监测记录集合和所述第二监测记录集合用于描述被监测的存储设备的运行状态,所述第一监测时间段早于所述第二监测时间段;决策树生成单元,用于基于所述第一监测记录集合,生成多个决策树模型,每个决策树模型用于预测所述存储设备是否故障;验证单元,用于利用所述第二监测记录集合测试所述多个决策树模型中各决策树模型,而得到所述各决策树模型的预测结果;模型生成单元,用于根据所述各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型;预测管理单元,用于利用所述故障预测模型预测待测试的存储设备,并生成相应的故障预测结果。
根据本申请一方面,提供一种计算设备,包括:一个或多个处理器、存储器以及一个或多个程序。一个或多个程序存储在该存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行本申请的数据处理方法的指令。
根据本申请一方面,提供一种存储介质,存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行本申请的数据处理方法。
综上,本申请的技术方案可以通过监测时间晚于第一监测记录集合的第二监测记录集合验证各决策树模型,从而能够充分验证各决策树模型的预测效果。在此基础上,本申请的技术方案根据预测结果而生成故障预测模型,可以提高故障预测模型的预测性能。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A示出了根据本申请一些实施例的应用场景的示意图;
图1B示出了根据本申请一些实施例的应用场景的示意图;
图2示出了根据本申请一些实施例的故障预测方法200的流程图;
图3示出了根据本申请一些实施例的故障预测方法300的流程图;
图4示出了根据本申请一些实施例的生成多个决策树模型的方法400的流程图;
图5示出了根据本申请一些实施例的决策树模型的示意图;
图6示出了根据本申请一些实施例的故障预测方法600的流程图;
图7A示出了一些实施例中更新前和更新后的第一、第二和第三监测记录集合的示意图;
图7B示出了根据本申请一些实施例的用户界面;
图7C示出了根据本申请一些实施例的故障预测结果的用户界面;
图7D示出了根据本申请一些实施例的对已故障的硬盘的用户界面;
图7E示出了根据本申请一些实施例的决策树模型的用户界面;
图7F示出了根据本申请一些实施例的预测概览的用户界面;
图7G示出了根据本申请一些实施例的属性项数据的用户界面;
图7H示出了根据本申请一些实施例的坏盘型号分布数据的用户界面;
图7I示出了根据本申请一些实施例的数据告警的用户界面;
图8示出了根据本申请一些实施例的故障预测装置800的示意图;
图9示出了根据本申请一些实施例的故障预测装置900的示意图;以及
图10示出了一个计算设备的组成结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在一些实施例中,为了预测硬盘等存储设备的故障,预测系统可以从存储设备的监测数据中随机选定一部分监测数据作为样本数据。在此基础上,预测系统可以利用样本数据训练预测模型,以便在后续获取最新的监测数据时,利用预测模型预测存储设备是否将会发生故障。
图1A示出了根据本申请一些实施例的应用场景100a的示意图。
如图1A所示,故障预测系统102可以通过一个或多个网络106与用户设备104(例如用户设备104a和104b)通信。故障预测系统102可以存储多个存储设备的监测记录110。这里,监测记录110用于描述存储设备的运行状态。故障预测系统102可以基于监测记录110生成用于预测存储设备是否故障的一个或多个故障预测模型112。基于故障预测模型112,故障预测系统102可以根据最新采集的监测记录,预测存储设备是否会在预定时间内发生故障,并生成相应的预测结果。这里预定时间例如是72小时等等。用户设备104可以访问故障预测系统102,以获取对存储设备的预测结果。这样,用户设备104可以显示对存储设备的预测结果。
存储设备例如可以是硬盘(例如机械硬盘或固态硬盘等等)等各种存储器。这里,存储设备例如可以属于存储集群或者计算集群等存储场景。存储设备故障是指存储设备出现无法读写数据、无法被正确识别等情况。在一些实施例中,监测记录例如可以包括“自我检测分析与报告技术”(Self-Monitoring Analysis And Reporting Technology,缩写为S.M.A.R.T)指标数据,但不限于此。
故障预测系统102可以包括一个或多个服务器。用户设备104可以包括但不限于掌上型计算机、可穿戴计算设备、个人数字助理(PDA)、平板计算机、笔记本电脑、台式计算机、移动电话、智能手机、增强型通用分组无线业务(EGPRS)移动电话、媒体播放器、导航设备、游戏控制台、电视机、或任意两个或更多的这些数据处理设备或其他数据处理设备的组合。
一个或多个网络106的示例包括局域网(LAN)和广域网(WAN)诸如互联网。可选地,本申请的实施例可以使用任意公知的网络协议来实现一个或多个网络106,包括各种有线或无线协议,诸如,以太网、通用串行总线(USB)、FIREWIRE、全球移动通讯系统(GSM)、增强数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、WiFi、IP语音(VoIP),Wi-MAX,或任意其他适合的通信协议。
图1B示出了根据本申请一些实施例的应用场景100b的示意图。如图1B所示,
故障预测系统102可以通过一个或多个网络106与代理服务器系统108通信。代理服务器系统108通过一个或多个网络106与用户设备104(例如用户设备104a和104b)通信。用户设备104可以通过代理服务器系统108访问故障预测系统102,以获取对存储设备的预测结果。这样,用户设备104可以显示对存储设备的预测结果。
代理服务器系统108例如可以包括一个或多个代理服务器114(例如HTTP服务器114a-b,但不限于此)。
集群116可以包括多个服务器节点118(例如服务器节点118a-b等等)。每个服务器节点118可以包括一个或多个存储设备120(例如存储设备120a-b)。存储设备120例如为硬盘。每个服务器节点118可以包括用于获取监测记录的采集装置122(例如采集装置122a-b)。这里,采集装置122也可以称为用于采集监测记录的探针(agent)。采集装置122例如可以获取存储设备的S.M.A.R.T指标数据,但不限处于此。
集群116可以与接口系统124通信。接口系统124可以从集群116中各服务器节点118获取监测记录。接口系统124例如可以包括一个或多个中转服务器126(例如中转服务器126a和126b)。中转服务器126可以将集群116中各服务器节点118的监测记录进行集中。在一些实施例中,接口系统124例如可以是网关系统。这里,网关系统是指能够实现多网统一接入、外网网络请求转发和支持自动负载均衡的系统,例如腾讯网关系统(Tencent GateWay,缩写为TGW)。
接口系统124与故障预测系统102通信。故障预测系统102可以从接口系统124获取监测记录。另外,接口系统124可以通过网络106将监测记录存储到存储系统128。这里,存储系统128可以包括一个或多个存储节点130(例如存储节点130a-c)。在一些实施例,存储系统128例如为离线式存储系统。这样,监测记录可以离线存储在存储系统128。
在一些实施例中,故障预测系统102可以包括一个或多个数据库服务器132和一个或多个模型生成服务器134。数据库服务器132例如是Mysql服务器,但不限于此。数据库服务器132可以存储监测记录110。模型生成服务器134可以基于数据库服务器132中监测记录110生成故障预测模型112。
图2示出了根据本申请一些实施例的故障预测方法200的流程图。故障预测方法200例如可以在故障预测系统102中执行,但不限于此。
在步骤S201中,获取第一监测时间段内的第一监测记录集合和第二监测时间段内的第二监测记录集合。其中,第一监测记录集合和第二监测记录集合均用于描述被监测的存储设备的运行状态。第一监测时间段早于第二监测时间段。
在一些实施例中,存储设备为硬盘等存储器。第一和第二监测记录集合中各监测记录可以由采集装置122采集。采集装置122例如可以按照时间间隔周期性采集监测记录。这里,时间间隔例如为0.5或1小时等等。
在步骤S202中,基于第一监测记录集合,生成多个决策树模型,每个决策树模型用于预测存储设备是否故障。这里,第一监测记录集合也可以称为样本数据的集合。第一监测记录集合中各监测记录可以包括多个属性项和表示是否故障的标签信息。这里,监测记录中属性项例如是S.M.A.R.T指标数据。另外,属性项还可以是其他用于描述存储设备的运行状态的数据,本申请对此不做限制。需要说明的是,步骤S202在通过一个监测记录确定一个存储设备故障(例如无法读写数据或者无法正确识别等等情况)时,可以将该监测记录之前一段时间(例如1周等时长)内的监测记录的标签信息确定为故障状态。在一些实施例中,步骤S202可以确定多个决策树模型中各决策树模型的树形结构。在一些实施例中,步骤S202可以从配置文件中获取待训练的树形结构。这里,故障预测系统102可以响应于用户操作对配置文件进行配置。在此基础上,步骤S202可以基于启发式规则,从多个属性项中选定树形结构中各分割节点的属性项(即,对树形结构进行训练而得到决策树模型)。这里,启发式规则例如是贪婪算法等等。在一些实施例中,对于树形结构中任一分割节点,步骤S202可以从多个属性项中选定该分割节点的备选属性项集合。步骤S202可以选定备选属性项集合中信息增益最大的一个属性项作为该分割节点的属性项。
在一些实施例中,步骤S202可以将第一监测记录集合按照时间顺序排列而得到监测记录序列。对于监测记录序列中任一个监测记录,步骤S202可以确定该监测记录与前一个记录在至少一个属性项上的差异信息。在此基础上,步骤S202可以将所述至少一个属性项中每个属性项对应的差异信息新增为该监测记录的一个属性项。这样,步骤S202可以利用监测记录序列中各监测记录的属性项,生成多个决策树。
在步骤S203中,利用第二监测记录集合测试多个决策树模型中各决策树模型,而得到各决策树模型的预测结果。这里,预测结果例如可以包括精确度和召回率等指标。需要说明的是,存储设备的各属性项在设备运行前期比较稳定,并随着运行时间的持续而逐渐地(或急剧地)发生数值变化。由于第二监测记录集合的采集时间晚于第一监测记录集合,步骤S203采用第二监测记录集合验证各决策树模型,可以充分验证各决策树模型的预测效果。
在步骤S204中,根据各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型。在一些实施例中,故障预测系统102可以在步骤S204中,根据各决策树模型的预测结果,从各决策树模型中选定一个或多个决策树模型。在一些实施例中,步骤S204可以根据预测结果的准确度,对各决策树模型由高到低进行排序,而得到排序结果。在此基础上,步骤S204可以依次从排序结果中选定一个或多个决策树模型。根据选定的一个或多个决策树模型各自的预测结果,步骤S204可以确定所述一个或多个决策树模型中各决策树模型在故障预测模型中权重参数。基于所述一个或多个决策树模型的权重参数,步骤S204可以将所述一个或多个决策树模型的加权和作为故障预测模型。
在步骤S205中,利用所述故障预测模型预测待测试的存储设备,并生成相应的故障预测结果。
综上,方法200可以通过监测时间晚于第一监测记录集合的第二监测记录集合验证各决策树模型,从而能够充分验证各决策树模型的预测效果。在此基础上,方法200根据预测结果而生成故障预测模型,可以提高故障预测模型的预测性能。
图3示出了根据本申请一些实施例的故障预测方法300的流程图。故障预测方法300例如可以在故障预测系统102中执行,但不限于此。
在步骤S301中,获取第一监测时间段内的第一监测记录集合和第二监测时间段内的第二监测记录集合。其中,第一监测记录集合和第二监测记录集合均用于描述被监测的存储设备的运行状态。第一监测时间段早于第二监测时间段。
在步骤S302中,基于第一监测记录集合,生成多个决策树模型,每个决策树模型用于预测存储设备是否故障。
在一些实施例中,第一监测记录集合中各监测记录包括多个属性项和表示是否故障的标签信息。步骤S302可以实施为方法400。
如图4所示,在步骤S401中,将第一监测记录集合按照时间顺序排列而得到监测记录序列。应当理解,在故障预测系统102获取的监测记录是按照采集时间顺序排列的序列时,方法400可以省略步骤S401。
对于监测记录序列中任一个监测记录,方法400可以执行步骤S402。在步骤S402中,确定该监测记录与前一个记录在至少一个属性项上的差异信息。在此基础上,步骤S402可以将所述至少一个属性项中每个属性项对应的差异信息新增为该监测记录的一个属性项。例如,步骤S402可以确定监测记录与前一个记录在属性项a、b和c上的差异信息。步骤S402可以分别将在属性项a、b和c对应的差异信息,新增为一个属性项。这样,步骤S402可以通过新增的属性项描述存储设备的运行状态随时间的变化规律。
在步骤S403中,确定多个决策树模型中各决策树模型的树形结构。这里,决策树模型的树形结构可以用树的深度和宽度等结构参数进行限定。在一些实施例中,步骤S403可以从配置文件中获取待训练的树形结构。这里,故障预测系统102可以响应于用户操作对配置文件进行配置。
在步骤S404中,基于启发式规则,从所述多个属性项中选定所述树形结构中各分割节点的属性项。这里,确定分割节点的属性项就可以生成决策树模型。。这启发式规则例如为贪婪算法等等。
在一些实施例中,步骤S404可以通过步骤S4041和S4042来实施。在步骤S4041中,对于树形结构中任一分割节点,从多个属性项中选定该分割节点的备选属性项集合。这里,对于一个决策树的树形结构而言,一个分割节点的备选属性项集合是从所述多个属性项中过滤掉已经在该决策树中使用的属性项后,剩余的属性项集合。
在步骤S4042中,选定备选属性项集合中信息增益最大的一个属性项作为该分割节点的属性项。需要说明的是,步骤S4042不限于通过信息增益选定属性项,还可以通过其他用于表征纯度的指标参数选定分割节点的属性项。
例如,图5示出了根据本申请一些实施例的决策树模型的示意图。如图5所示,通过属性项1,步骤S403将第一监测记录集合分裂为故障子集1和待确定子集1。这里,待确定子集中各监测记录待分类。类似地,步骤S403基于属性项2将待确定子集1分裂为故障子集2和待确定子集2。步骤S403基于属性项3将待确定子集1分裂为待确定子集3和待确定子集4。步骤S403基于属性项4将待确定子集3分裂为故障子集3和正常子集1。步骤S403基于属性项5将待确定子集4分裂为故障子集4和正常子集2。简言之,步骤S403可以通过属性项1-5,将第一监测记录集合分类为故障子集1至4,以及正常子集1和2。这里,故障子集中监测记录被分类为表示设备故障的第一类别。正常子集监测记录被分类为表示设备运行正常的第二类别。
综上,方法400可以充分考虑存储设备在运行过程中,运行状态随时间变化的规律,从而能够使得决策树学习到已故障硬盘的监测记录的变化趋势。
在步骤S303中,利用第二监测记录集合测试多个决策树模型中各决策树模型,而得到各决策树模型的预测结果。步骤S303的实施方式与步骤S203一致,这里不再赘述。
在步骤S304中,根据各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型。
在一些实施例中,方法300可以通过步骤S3041、S3042和S3043来实施步骤S304。
在步骤S3041中,根据各决策树模型的预测结果,从各决策树模型中选定一个或多个决策树模型。这里,预测结果可以包括准确度、召回率、精确度等预测指标中一个或多个。在一些实施例中,步骤S3041可以根据预测结果的准确度,对各决策树模型由高到低进行排序,而得到排序结果。在此基础上,步骤S3041可以依次从排序结果中选定一个或多个决策树模型。
在步骤S3042中,根据选定的一个或多个决策树模型各自的预测结果,确定所述一个或多个决策树模型中各决策树模型在故障预测模型中权重参数。在一些实施例中,步骤S3042可以根据各决策树模型的预测结果的准确度,确定各决策树模型在故障预测模型中权重参数。其中,各决策树模型的准确度与各决策树模型对应的权重参数成正比。换言之,步骤S3042可以按照选定的所有决策树模型在准确度上的比例关系,分配各决策树模型的权重参数。这里,准确度越高,权重参数越大。
在步骤S3043中,基于所述一个或多个决策树模型的权重参数,将所述一个或多个决策树模型的加权和作为故障预测模型。
在步骤S305中,利用故障预测模型预测待测试的存储设备,并生成相应的故障预测结果。在一些实施例中,存储设备的监测记录被周期性采集。相应的,故障预测系统可以周期性获取最新的监测记录。步骤S305可以根据最新一次获取的监测记录,对存储设备是否故障进行预测,并生成故障预测结果。
综上,通过步骤S302,方法300可以使得决策树模型可以学习到已故障的存储设备的监测记录的变化趋势(特别是,存储设备发生真实故障之前的一段时间内的变化趋势)。这样,方法300可以极大提高故障预测模型的预测能力。
图6示出了根据本申请一些实施例的故障预测方法600的流程图。故障预测方法600例如可以在故障预测系统102中执行,但不限于此。
在步骤S601中,获取第一监测时间段内的第一监测记录集合、第二监测时间段内的第二监测记录集合和第三时间段内的第三监测记录集合。其中,第一、第二和第三监测记录集合均用于描述被监测的存储设备的运行状态。第一监测时间段早于第二监测时间段。第三时间段在第二时间段之后。
在一些实施例中,方法600可以通过步骤S6011、S6012和S6013来实施步骤S601。
在步骤S6011中,获取所述被监测的存储设备的监测记录。
在步骤S6012中,按照监测时间顺序对所述被监测的存储设备的监测记录进行排序而得到排序结果。
在步骤S6013中,根据比例规则,将排序结果划分为第一监测记录集合、第二监测记录集合和第三监测记录集合。比例规则例如为4:3:3。
在步骤S602中,获取关于所述被监测的存储设备的异常信息。这里,异常信息不同于S.M.A.R.T指标信息。异常信息例如可以包括存储设备的可用扇区减少、数据丢失、数据恢复和硬盘序列号出错中至少一种。
在步骤S603中,基于第一监测记录集合,生成多个决策树模型。
在一些实施例中,第一监测记录集合中各监测记录包括多个属性项和表示是否故障的标签信息。这里,监测记录中属性项例如是S.M.A.R.T指标数据。另外,属性项还可以是其他用于描述存储设备的运行状态的数据,本申请对此不做限制。在一些实施例中,步骤S603可以实施为步骤S6031、S6032、S6033和S6034。
在步骤S6031中,对于第一监测记录对应的监测记录序列(即第一监测记录按照采集时间顺序排列得到的序列)中任一个监测记录,确定该监测记录与前一个记录在至少一个属性项上的差异信息。在此基础上,步骤S6032可以将所述至少一个属性项中每个属性项对应的差异信息新增为该监测记录的一个属性项。例如,步骤S6032可以确定监测记录与前一个记录在属性项a、b和c上的差异信息。步骤S6032可以分别将在属性项a、b和c对应的差异信息,新增为一个属性项。这样,步骤S6032可以通过新增的属性项描述存储设备的运行状态随时间的变化规律。
在步骤S6033中,确定多个决策树模型中各决策树模型的树形结构。步骤S6033的实施方式与步骤S403一致,这里不再赘述。
在步骤S6034中,基于启发式规则,从所述多个属性项中选定树形结构中各分割节点的属性项。S6034的实施方式与步骤S404一致,这里不再赘述。。综上,方法600通过步骤S6031、S6032、S6033和S6034可以充分考虑存储设备在运行过程中,运行状态随时间变化的规律,从而能够使得决策树学习到已故障硬盘的监测记录的变化趋势。
在一些实施例中,步骤S603还可以实施为步骤S6035、S6036和S6037。
在步骤S6035中,根据异常信息,为第一监测记录集合中各监测记录增加关于异常的属性项。这里,关于异常的属性项用于描述在各监测记录的采集时刻被监测的存储设备是否异常。
在步骤S6036中,确定多个决策树模型中各决策树模型的树形结构。步骤S6036的实施方式与步骤S403一致,这里不再赘述。
在步骤S6037中,基于启发式规则,从所述多个属性项中选定树形结构中各分割节点的属性项。S6037的实施方式与步骤S404一致,这里不再赘述。
在步骤S604中,利用第二监测记录集合测试多个决策树模型中各决策树模型,而得到各决策树模型的预测结果。步骤S604的实施方式与步骤S303一致,这里不再赘述。
在步骤S605中,根据各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型。这里,步骤S605的实施方式与步骤S304一致,这里不再赘述。
在步骤S606中,利用第三监测记录集合测试故障预测模型。这里,由于第三监测记录集合在监测时间上晚于第一和第二监测记录集合,步骤S606利用第三监测记录集合可以充分地测试故障预测模型的预测性能。例如,步骤S606可以对故障预测模型的准确度和召回率等指标项进行测试。
在步骤S607中,根据最新获取的监测记录更新第一监测记录集合、第二监测记录集合和第三监测记录集合。在一些实施例中,步骤S607可以将最新获取的监测记录添加到已有的监测记录集合(即第一、第二和第三监测记录集合组成的按照时间顺序排列的序列)中。在此基础上,步骤S607可以按照比例规则(例如第一、第二和第三监测记录集合的数量比例为4:3:3)重新确定第一、第二和第三监测记录集合。例如图7A示出了一些实施例中更新前和更新后的第一、第二和第三监测记录集合的示意图。
在步骤S608中,利用故障预测模型预测待测试的存储设备,并生成相应的故障预测结果。例如,在获取到最新的监测记录时,故障预测系统102可以通过步骤S608对最新的监测记录对应的存储设备(即待测试的存储设备)进行故障预测,并生成故障预测结果。
在步骤S609中,响应于对故障预测结果的查询请求,返回故障预测结果。在一些实施例中,故障预测系统102可以响应于用户设备104的查询请求,而返回故障预测结果。这样,用户设备104可以在用户界面中呈现故障预测结果。
在一些实施例中,用户设备104可以与故障预测系统102通信,并在用户界面中显示从故障预测系统102获取的内容项。例如,图7B示出了用户界面中可以显示的内容项。如图7B所示,与故障预测系统有关的内容项例如可以包括:预测概览、故障分析、模型分析、预测结果、坏盘查询和数据告警。图7C示出了根据本申请一些实施例的故障预测结果的显示界面。图7C对应于图7B中预测结果。
在步骤S610中,响应于已故障的硬盘的查询请求,返回已故障的硬盘的记录。在一些实施例中,查询请求可以指定存储设备的IP地址范围、硬盘盘符范围、查询时间范围等选择条件。步骤S610可以返回与查询请求对应的已故障的硬盘的记录。用户设备104可以在用户界面中显示来自故障预测系统102的已故障硬盘的记录。例如图7D示出了根据本申请一些实施例的对已故障的硬盘的显示界面。这里,图7D对应于图7B中坏盘查询。
在步骤S611中,响应于模型训练请求,生成与模型训练请求对应的决策树模型,并返回所生成的决策树模型。在一些实施例中,模型训练请求包括多个参数项,例如,用户生成模型的数据源用户设备104可以提供呈现决策树模型的用户界面。例如图7E示出了根据本申请一些实施例的决策树模型的显示界面。图7E对应图7B中模型分析如图7E所示,区域A为模型参数区域。用户可以在区域A中通过控件701选定用于训练模型参数的数据源。换言之,用户可以通过控件701从已有的监测记录序列中选定一个子序列。用户可以通过控件702选定所要应用的属性项的比例。例如,控件702选定40%时,步骤S611可以从所有属性项中挑选40%的属性项生成决策树模型。在一些实施例中,步骤S611可以基于主成分分析(Principal Component Analysis,缩写为PCA)自动挑选属性项,这里不再赘述。另外,用户可以通过控件703选定决策树的具体算法类型,例如ID3。当用户点击控件704时,用户设备104可以向故障预测系统102发送模型训练请求,以实故障预测系统生成一个决策树模型。模型训练请求可以包括控件701-703指定的模型参数。区域B示出了所生成的决策树模型的示意图。另外,当用户点击控件705时,用户设备104可以向故障预测系统102发送模型测试请求,以使故障预测系统102可以利用用于测试模型的监测记录(也可以称为测试样本)测试决策树模型并返回预测结果。用户设备可以在图7E所示的用户界面中显示预测结果,例如在区域A中显示精确度、准确度和召回率等表征预测结果的指标项。
在一些实施例中,用户设备104还可以显示图7B中预测概览的用户界面。如图7F示出了根据本申请一些实施例的预测概览的用户界面。如图7F所示,用户界面可以显示已监控硬盘、预测故障硬盘、确认故障硬盘和预测覆盖率。其中,已监控硬盘表示故障预测系统102所监控的硬盘的数量。预测故障硬盘表示故障预测系统102预测故障的硬盘数量。确认故障硬盘表示预测正确坏盘数与所有坏盘数的比值。预测覆盖率表示预测正确坏盘数与所有预测坏盘数的比值。另外,预测概览的用户界面还可以显示最新告警的硬盘描述(即,机器IP、盘符、序列号、历史告警率和告警时间)。
另外,用户设备104还可以显示图7B中故障分析的用户界面。例如,故障分析可以包括属性项数据和坏盘型号分布数据。图7G示出了根据本申请一些实施例的属性项数据的用户界面。图7H示出了根据本申请一些实施例的坏盘型号分布数据的用户界面。
如图7G所示,用户可以选定要查询的硬盘(即选定机器IP和硬盘盘符),还可以选定值类型。值类型的范围例如可以包括当前值(即,current值)、原始值(即,Raw值)、历史最坏值(即,Worst值)和标准值(即,Flag值)。另外,用户还可以选定查询时间范围。在用户点击查询空间706时,可以在区域707中显示属性项随时间变化的曲线。区域708显示有属性项的列表,例如包括S.M.A.R.T的第#1、#4、#5、#193和#197等属性项。用户通过选中区域708中属性项,可以在区域707中显示选中的属性项的曲线。例如,曲线C对应#5。曲线D对应#197。
如图7H所示,用户设备104可以按照硬盘的型号对坏盘统计结果进行显示。例如,型号为“xxx1”的硬盘在总坏盘数中比例最高,占比80%。型号为“xxx2”的硬盘在总坏盘数中占比14%。这样,用户可以根据坏盘统计结果的界面分析各种型号硬盘的使用情况。在一些实施例中,用户设备104可以显示关于图7B中数据告警的用户界面。数据告警的内容例如为硬盘的异常信息。这里,异常信息例如是上文中步骤S602中异常信息。异常信息例如可以包括存储设备的可用扇区减少、数据丢失、数据恢复和硬盘序列号出错中至少一种。图7I示出了根据本申请一些实施例的数据告警的用户界面。在图7I的用户界面可以显示对选定硬盘在特定异常类型(例如可用扇区减少等)或者全部异常类型上的异常信息记录。这样,用户可以根据图7I的用户界面分析硬盘的异常信息。
综上,方法600可以将异常信息(例如硬盘数据丢失、恢复、序列号变化等异常1情况)增加为监测记录的属性项,从而使得监测记录能够采用更多角度来描述存储设备的运行状态,进而提高应用监测记录所生成的故障预测模型的预测性能。
图8示出了根据本申请一些实施例的故障预测装置800的示意图。故障预测装置800例如可以驻留在故障预测系统102中。
如图8所示,故障预测装置800可以包括记录获取单元801、决策树生成单元802、验证单元803、模型生成单元804和预测管理单元805。
记录获取单元801,用于获取第一监测时间段内的第一监测记录集合和第二监测时间段内的第二监测记录集合。其中,第一监测记录集合和第二监测记录集合用于描述被监测的存储设备的运行状态。第一监测时间段早于第二监测时间段。
决策树生成单元802用于基于所述第一监测记录集合,生成多个决策树模型。每个决策树模型用于预测存储设备是否故障。
在一些实施例中,所述第一监测记录集合中各监测记录包括多个属性项和表示是否故障的标签信息。为了生成决策树模型,决策树生成单元802可以先确定多个决策树模型中各决策树模型的树形结构。基于启发式规则,决策树生成单元802可以从多个属性项中选定树形结构中各分割节点的属性项。
在一些实施例中,对于树形结构中任一分割节点,决策树生成单元802可以从多个属性项中选定该分割节点的备选属性项集合。这样,决策树生成单元802可以选定备选属性项集合中信息增益最大的一个属性项作为该分割节点的属性项。
在一些实施例中,决策树生成单元802在选定树形结构中各分割节点的属性项之前,可以将第一监测记录集合按照时间顺序排列而得到监测记录序列。在此基础上,对于监测记录序列中任一个监测记录,决策树生成单元802可以确定该监测记录与前一个记录在至少一个属性项上的差异信息,而将至少一个属性项中每个属性项对应的差异信息新增为该监测记录的一个属性项。
验证单元803用于利用第二监测记录集合测试多个决策树模型中各决策树模型,而得到各决策树模型的预测结果。
模型生成单元804用于根据各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型。在一些实施例中,模型生成单元804可以根据选定的一个或多个决策树模型各自的预测结果,确定各决策树模型在故障预测模型中权重参数。基于决策树模型的权重参数,模型生成单元804可以将所述一个或多个决策树模型的加权和作为所述故障预测模型。
在一些实施例中,为了确定权重参数,模型生成单元804可以根据各决策树模型的预测结果的准确度,确定各决策树模型在故障预测模型中权重参数。其中,各决策树模型对应的准确度与各决策树模型对应的权重参数成正比。在一些实施例中,模型生成单元804可以根据预测结果的准确度,对各决策树模型由高到低进行排序,而得到排序结果。这样,模型生成单元804可以依次从排序结果中选定一个或多个决策树模型。
预测管理单元805用于利用故障预测模型预测待测试的存储设备,并生成相应的故障预测结果。
图9示出了根据本申请一些实施例的故障预测装置900的示意图。故障预测装置900例如可以驻留在故障预测系统102中。
如图9所示,故障预测装置900可以包括记录获取单元901、决策树生成单元902、验证单元903、模型生成单元904和预测管理单元905。在一些实施例中,记录获取单元901、决策树生成单元902、验证单元903、模型生成单元904和预测管理单元905可以实现为与记录获取单元801、决策树生成单元802、验证单元803、模型生成单元804和预测管理单元805一致的实施方式,这里不再赘述。
在一些实施例中,故障预测装置900还可以异常获取单元906。异常获取单元906用于获取关于被监测的存储设备的异常信息。其中,异常信息包括存储设备的可用扇区减少、数据丢失、数据恢复和硬盘序列号出错中至少一种。
决策树生成单元905在选定树形结构中各分割节点的属性项之前,可以根据异常信息,为第一监测记录集合中各监测记录增加关于异常的属性项。关于异常的属性项用于描述在各监测记录的采集时刻被监测的存储设备是否异常。
在一些实施例中,记录获取单元901还可以获取第三时间段内的第三监测记录集合。其中,第三时间段在所述第二时间段之后。预测管理单元905可以利用第三监测记录集合测试故障预测模型。
在一些实施例中,记录获取单元901可以获取被监测的存储设备的监测记录。在此基础上,记录获取单元901可以按照监测时间顺序对被监测的存储设备的监测记录进行排序而得到排序结果。根据比例规则,记录获取单元901可以将排序结果划分为所述第一监测记录集合、第二监测记录集合和第三监测记录集合。
在一些实施例中,记录获取单元901还可以根据最新获取的监测记录更新第一监测记录集合、第二监测记录集合和第三监测记录集合。
图10示出了一个计算设备的组成结构图。如图10所示,该计算设备包括一个或者多个处理器(CPU)1002、通信模块1004、存储器1006、用户接口1010,以及用于互联这些组件的通信总线1008。
处理器1002可通过通信模块1004接收和发送数据以实现网络通信和/或本地通信。
用户接口1010包括一个或多个输出设备1012,其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口1010也包括一个或多个输入设备1014。用户接口1010例如可以接收遥控器的指令,但不限于此。
存储器1006可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器1006存储处理器1002可执行的指令集,包括:
操作系统1016,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
应用1018,包括用于实现上述故障预测方法的各种程序,比如可以包括图8所示的故障预测装置800或图9所示的故障预测装置900。
另外,本申请的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。
此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
因此本申请还公开了一种非易失性存储介质,其中存储有数据处理程序,该数据处理程序用于执行本申请上述故障预测方法的任意一种实施例。
另外,本申请所述的方法步骤除了可以用数据处理程序来实现,还可以由硬件来实现,例如,可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌微控制器等来实现。因此这种可以实现本申请所述方法的硬件也可以构成本申请。
以上所述仅为本申请的可选实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (12)

1.一种故障预测方法,其特征在于,包括:
获取被监测的存储设备的最新的监测记录,所述监测记录用于描述被监测的存储设备的运行状态;
将所述最新的监测记录添加到已有的监测记录中,其中,所述已有的检测记录被按照监测时间顺序进行排序而得到排序结果;根据比例规则,所述排序结果被划分为第一监测时间段内的第一监测记录集合、第二监测时间段内的第二监测记录集合和第三监测时间段内的第三监测记录集合,其中,所述第一监测时间段早于所述第二监测时间段,所述第三监测时间段在所述第二监测时间段之后;
根据所述最新的监测记录,更新所述排序结果,并按照所述比例规则,重新划分更新后的所述排序结果,得到更新后的所述第一监测记录集合、更新后的所述第二监测记录集合和更新后的所述第三监测记录集合;
基于所述更新后的第一监测记录集合,生成多个决策树模型,每个决策树模型为分类决策树,用于预测所述存储设备是否故障;
利用所述更新后的第二监测记录集合测试所述多个决策树模型中各决策树模型,而得到所述各决策树模型的预测结果;
根据所述各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型;
利用所述更新后的第三监测记录集合测试所述故障预测模型;以及
利用所述故障预测模型预测待测试的存储设备,并生成相应的故障预测结果。
2.如权利要求1所述的方法,其中,所述更新后的第一监测记录集合中各监测记录包括多个属性项和表示是否故障的标签信息;所述基于所述更新后的第一监测记录集合,生成多个决策树模型,包括:
确定所述多个决策树模型中各决策树模型的树形结构;
基于启发式规则,从所述多个属性项中选定所述树形结构中各分割节点的属性项。
3.如权利要求2所述的方法,其中,所述基于启发式规则,从所述多个属性项中选定所述树形结构中各分割节点的属性项,包括:
对于所述树形结构中任一分割节点,从所述多个属性项中选定该分割节点的备选属性项集合;
选定所述备选属性项集合中信息增益最大的一个属性项作为该分割节点的属性项。
4.如权利要求2所述的方法,其中,所述基于所述更新后的第一监测记录集合,生成多个决策树模型,进一步包括:
在从所述多个属性项中选定所述树形结构中各分割节点的属性项之前,
对于所述更新后的第一监测记录集合中任一个监测记录,确定该监测记录与前一个记录在至少一个属性项上的差异信息,而将所述至少一个属性项中每个属性项对应的差异信息新增为该监测记录的一个属性项。
5.如权利要求2所述的方法,进一步包括:获取关于所述被监测的存储设备的异常信息,其中,所述异常信息包括所述存储设备的可用扇区减少、数据丢失、数据恢复和硬盘序列号出错中至少一种;
所述基于所述更新后的第一监测记录集合,生成多个决策树模型,进一步包括:
在从所述多个属性项中选定所述树形结构中各分割节点的属性项之前,
根据所述异常信息,为所述更新后的第一监测记录集合中各监测记录增加关于异常的属性项,所述关于异常的属性项用于描述在各监测记录的采集时刻被监测的存储设备是否异常。
6.如权利要求1所述的方法,其中,所述根据所述各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型,包括:
根据所述各决策树模型的预测结果,从所述各决策树模型中选定一个或多个决策树模型;
根据所述选定的一个或多个决策树模型各自的预测结果,确定所述一个或多个决策树模型中各决策树模型在所述故障预测模型中权重参数;
基于所述一个或多个决策树模型的权重参数,将所述一个或多个决策树模型的加权和作为所述故障预测模型。
7.如权利要求6所述的方法,其中,所述根据所述选定的一个或多个决策树模型各自的预测结果,确定所述一个或多个决策树模型中各决策树模型在所述故障预测模型中权重参数,包括:
根据所述各决策树模型的预测结果的准确度,确定所述各决策树模型在所述故障预测模型中权重参数,其中,所述各决策树模型对应的准确度与各决策树模型对应的权重参数成正比。
8.如权利要求6所述的方法,其中,所述根据所述各决策树模型的预测结果,从所述各决策树模型中选定一个或多个决策树模型,包括:
根据所述预测结果的准确度,对所述各决策树模型由高到低进行排序,而得到排序结果;
依次从所述排序结果中选定一个或多个决策树模型。
9.一种故障预测装置,其特征在于,包括:
记录获取单元,用于:
获取被监测的存储设备的最新的监测记录,所述监测记录用于描述被监测的存储设备的运行状态;
将所述最新的监测记录添加到已有的监测记录中,其中,所述已有的检测记录被按照监测时间顺序进行排序而得到排序结果;根据比例规则,所述排序结果被划分为第一监测时间段内的第一监测记录集合、第二监测时间段内的第二监测记录集合和第三监测时间段内的第三监测记录集合,其中,所述第一监测时间段早于所述第二监测时间段,所述第三监测时间段在所述第二监测时间段之后;
根据所述最新的监测记录,更新所述排序结果,并按照所述比例规则,重新划分更新后的所述排序结果,得到更新后的所述第一监测记录集合、更新后的所述第二监测记录集合和更新后的所述第三监测记录集合;
决策树生成单元,用于基于所述更新后的第一监测记录集合,生成多个决策树模型,每个决策树模型为分类决策树,用于预测所述存储设备是否故障;
验证单元,用于利用所述第二监测记录集合测试所述多个决策树模型中各决策树模型,而得到所述各决策树模型的预测结果;
模型生成单元,用于根据所述各决策树模型的预测结果,生成包含所述多个决策树模型中一个或多个决策树模型的故障预测模型;
测试单元,利用所述更新后的第三监测记录集合测试所述故障预测模型;以及
预测管理单元,用于利用所述故障预测模型预测待测试的存储设备,并生成相应的故障预测结果。
10.如权利要求9所述的装置,其中,所述更新后的第一监测记录集合中各监测记录包括多个属性项和表示是否故障的标签信息;所述决策树生成单元根据下述方式基于所述更新后的第一监测记录集合,生成多个决策树模型:
确定所述多个决策树模型中各决策树模型的树形结构;
基于启发式规则,从所述多个属性项中选定所述树形结构中各分割节点的属性项。
11.一种计算设备,其特征在于包括:
一个或多个处理器;
存储器;以及
一个或多个程序,存储在该存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1-8中任一项所述的方法的指令。
12.一种存储介质,存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1-8中任一项所述的方法。
CN201810890680.7A 2018-08-07 2018-08-07 故障预测方法、装置、计算设备及存储介质 Active CN110196792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810890680.7A CN110196792B (zh) 2018-08-07 2018-08-07 故障预测方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810890680.7A CN110196792B (zh) 2018-08-07 2018-08-07 故障预测方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN110196792A CN110196792A (zh) 2019-09-03
CN110196792B true CN110196792B (zh) 2022-06-14

Family

ID=67751378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810890680.7A Active CN110196792B (zh) 2018-08-07 2018-08-07 故障预测方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN110196792B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955226B (zh) * 2019-11-22 2021-04-13 深圳市通用互联科技有限责任公司 设备故障预测方法、装置、计算机设备和存储介质
CN111858108B (zh) * 2020-06-23 2024-05-10 新华三技术有限公司 一种硬盘故障预测方法、装置、电子设备和存储介质
CN115208773B (zh) * 2021-04-09 2023-09-19 中国移动通信集团广东有限公司 网络隐性故障监测方法及装置
CN113609001A (zh) * 2021-07-13 2021-11-05 中国银行股份有限公司 测试问题确定方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014022154A1 (en) * 2012-08-02 2014-02-06 Siemens Corporation Building a failure-predictive model from message sequences
CN104021264A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 一种缺陷预测方法及装置
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107330464A (zh) * 2017-06-30 2017-11-07 众安信息技术服务有限公司 数据处理方法和装置
CN107450524A (zh) * 2017-08-30 2017-12-08 深圳市智物联网络有限公司 预测工业设备故障的方法、装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824715B (zh) * 2016-03-15 2018-10-02 南京邮电大学 基于Storm的CVFDT在CDN运维预测中的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014022154A1 (en) * 2012-08-02 2014-02-06 Siemens Corporation Building a failure-predictive model from message sequences
CN104021264A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 一种缺陷预测方法及装置
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107330464A (zh) * 2017-06-30 2017-11-07 众安信息技术服务有限公司 数据处理方法和装置
CN107450524A (zh) * 2017-08-30 2017-12-08 深圳市智物联网络有限公司 预测工业设备故障的方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
hard drive failure predition using decision trees;J Li,RJ Stone,G Wang,X Liu,Z Li,M Xu;《Reliability Engineering & System Safety》;20170310;第164卷;全文 *
J Li,RJ Stone,G Wang,X Liu,Z Li,M Xu.hard drive failure predition using decision trees.《Reliability Engineering & System Safety》.2017,第164卷55-65. *

Also Published As

Publication number Publication date
CN110196792A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110196792B (zh) 故障预测方法、装置、计算设备及存储介质
CN107025153B (zh) 磁盘的故障预测方法和装置
CN109828869B (zh) 预测硬盘故障发生时间的方法、装置及存储介质
US10592666B2 (en) Detecting anomalous entities
US7340649B2 (en) System and method for determining fault isolation in an enterprise computing system
US8938406B2 (en) Constructing a bayesian network based on received events associated with network entities
US11327742B2 (en) Affinity recommendation in software lifecycle management
CN107391301A (zh) 存储系统的数据管理方法、装置、计算设备及存储介质
US7181364B2 (en) Automated detecting and reporting on field reliability of components
US10810345B2 (en) Modifying a manufacturing process of integrated circuits based on large scale quality performance prediction and optimization
CN111898059B (zh) 网站页面质量评估和监控方法及其系统
CN113227978B (zh) 计算机处理管线中的自动异常检测
CN111108481A (zh) 故障分析方法及相关设备
CN103034567A (zh) 发现并修复损坏数据的装置和方法
CN112579327B (zh) 一种故障检测方法、装置及设备
CN111061581B (zh) 一种故障检测方法、装置及设备
CN112966056B (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
JP7082285B2 (ja) 監視システム、監視方法および監視プログラム
WO2020178106A1 (en) Mesh communication network provision
CN114500249A (zh) 一种根因定位方法和装置
CN111382041B (zh) 一种故障检测、数据处理方法、装置及设备
JP7425918B1 (ja) 情報処理装置、情報処理方法及びプログラム
US8780471B2 (en) Linking errors to particular tapes or particular tape drives
CN117251327A (zh) 模型训练方法、磁盘故障预测方法、相关装置及设备
CN111858283A (zh) 一种边缘数据中心的硬盘故障预处理方法及相关组件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant