CN112988437A - 一种故障预测方法、装置及电子设备和存储介质 - Google Patents

一种故障预测方法、装置及电子设备和存储介质 Download PDF

Info

Publication number
CN112988437A
CN112988437A CN201911304417.6A CN201911304417A CN112988437A CN 112988437 A CN112988437 A CN 112988437A CN 201911304417 A CN201911304417 A CN 201911304417A CN 112988437 A CN112988437 A CN 112988437A
Authority
CN
China
Prior art keywords
prediction
training
samples
target
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911304417.6A
Other languages
English (en)
Other versions
CN112988437B (zh
Inventor
李诗逸
古亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201911304417.6A priority Critical patent/CN112988437B/zh
Publication of CN112988437A publication Critical patent/CN112988437A/zh
Application granted granted Critical
Publication of CN112988437B publication Critical patent/CN112988437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Abstract

本申请公开了一种故障预测方法、装置及一种电子设备和计算机可读存储介质,该方法包括:采集监控数据,并基于所述监控数据得到每个预测项对应的训练样本;所述训练样本的样本类型包括正常样本和故障样本;提取所述训练样本的特征得到所述训练样本的特征向量,并基于所述训练样本的样本类型确定所述训练样本的目标向量;利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,利用所述预测模型对所述预测项进行故障预测。本申请提供了一种通用的故障预测方法,对不同的预测项可以采用相同的方式进行预测,可扩展性较高。

Description

一种故障预测方法、装置及电子设备和存储介质
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种故障预测方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
本地计算机系统和分布式系统会大量采用各种器件,如磁盘、内存、主板、CPU、网卡等。这些器件会经常出现各种故障,从而带来各种可靠性风险,造成数据丢失、系统崩溃等各种严重后果。
在相关技术中,一般会采取冗余和恢复技术来进行进行保护和防范各种故障。然而这些技术都是事后、被动的技术,冗余会带来成本开销,而出现故障后再进行恢复,会带来性能影响和可靠性降级。
因此,如何实现对系统故障进行预测是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种故障预测方法、装置及一种电子设备和一种计算机可读存储介质,实现对系统故障进行预测。
为实现上述目的,本申请提供了一种故障预测方法,包括:
采集监控数据,并基于所述监控数据得到每个预测项对应的训练样本;所述训练样本的样本类型包括正常样本和故障样本;
提取所述训练样本的特征得到所述训练样本的特征向量,并基于所述训练样本的样本类型确定所述训练样本的目标向量;
利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,利用所述预测模型对所述预测项进行故障预测。
其中,所述采集监控数据之后,还包括:
对所述监控数据进行数据预处理操作;其中,所述数据预处理操作包括格式转换、剔除无效数据和边界越界处理中的任一项或任几项的组合。
其中,所述基于所述监控数据得到每个预测项对应的训练样本,包括:
将所述监控数据按照所述预测项进行分类,得到每个所述预测项对应的监控数据;
选取预设时间窗口下的监控数据作为每个所述预测项的目标训练,并对所述目标监控数据进行离散化和归一化处理得到每个所述预测项对应的训练样本。
其中,所述提取所述训练样本的特征得到所述训练样本的特征向量,包括:
提取所述训练样本的所有特征项,并剔除与所述预测项无关的特征项得到每个所述预测项对应的目标特征项;
对每个所述训练样本的所述目标特征项进行特征组合以便得到每个所述训练样本的特征向量。
其中,利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,包括:
对所述训练样本中的正常样本进行欠采样得到目标正常样本,对所述训练样本中的故障样本进行过采样得到目标故障样本;
利用所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型。
其中,所述利用所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,包括:
将所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量输入所述机器学习模型中,并利用目标算法优化所述机器学习模型的参数,以便得到所述预测模型。
其中,所述机器学习模型包括随机森林、支持向量机、逻辑会话、神经网络和强化学习模型中的任几项;
所述利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型之后,还包括:
基于评估项对所有所述预测模型进行评估以便得到最佳预测模型;
相应的,利用所述预测模型对所述预测项进行故障预测,包括:
利用所述最佳预测模型对所述预测项进行故障预测。
为实现上述目的,本申请提供了一种故障预测装置,包括:
采集模块,用于采集监控数据,并基于所述监控数据得到每个预测项对应的训练样本;所述训练样本的样本类型包括正常样本和故障样本;
提取模块,用于提取所述训练样本的特征得到所述训练样本的特征向量,并基于所述训练样本的样本类型确定所述训练样本的目标向量;
训练模块,用于利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,利用所述预测模型对所述预测项进行故障预测。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述故障预测方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述故障预测方法的步骤。
通过以上方案可知,本申请提供的一种故障预测方法,包括:采集监控数据,并基于所述监控数据得到每个预测项对应的训练样本;所述训练样本的样本类型包括正常样本和故障样本;提取所述训练样本的特征得到所述训练样本的特征向量,并基于所述训练样本的样本类型确定所述训练样本的目标向量;利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,利用所述预测模型对所述预测项进行故障预测。
本申请提供的故障预测方法,在系统中部署监控装置,采集系统中各器件的监控数据,以得到各预测项的训练样本,利用训练样本训练机器学习模型得到各预测项对应的预测模型,利用该预测模型实现对各预测项的故障预测。在系统中存在不同的预测项,本申请提供了一种通用的故障预测方法,对不同的预测项可以采用相同的方式进行预测,可扩展性较高。本申请还公开了一种故障预测装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种故障预测方法的流程图;
图2为根据一示例性实施例示出的另一种故障预测方法的流程图;
图3为本申请提供的一种应用实施例的系统架构图;
图4为本申请提供的一种应用实施例的流程图;
图5为根据一示例性实施例示出的一种故障预测装置的结构图;
图6为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种故障预测方法,实现对系统故障进行预测。
参见图1,根据一示例性实施例示出的一种故障预测方法的流程图,如图1所示,包括:
S101:采集监控数据,并基于所述监控数据得到每个预测项对应的训练样本;所述训练样本的样本类型包括正常样本和故障样本;
本实施例的执行主体为计算机系统或分布式系统的处理器,目的为对系统中各器件的故障进行预测。在本步骤中,在系统中部署监控装置,用于对系统中的各器件进行监控,采集监控数据,监控数据可以包括各器件的健康信息、性能日志等。可以理解的是,本实施例不对具体的采集周期进行限定,可以实时采集监控数据,也可以每隔预设时长采集监控数据,均在本实施例的保护范围内。
作为一种优选实施方式,所述采集监控数据之后还包括:对所述监控数据进行数据预处理操作;其中,所述数据预处理操作包括格式转换、剔除无效数据和边界越界处理中的任一项或任几项的组合。在具体实施中,采集监控数据后对其进行预处理,以得到高质量的监控数据,提高后续故障预测的准确率。预处理主要包括格式转换、剔除无效数据和边界越界处理等。可以理解的是,不同的监控装置在不同系统中采集的监控数据的格式不同,需要对其进行格式统一以便后续步骤进行进一步处理。例如,系统A中采集到的磁盘使用时间为6527小时,而系统B中采集到的磁盘使用时间为230dd14hh,即230天14个小时,需要对这两种时间格式进行格式统一。另外,还需要将一些不方便处理的格式转换为方便处理的格式,例如,字符串转换为数值格式、将磁盘序列号用热读编码进行处理。其次,由于数据采集过程中可能存在异常,造成数据无效或部分丢失,例如采集到磁盘的监控数据均为0,或仅存在几个返回值,因此需要剔除这些数据。为了提高监控数据的质量,可以对某些监控项设置阈值,当采集到的数据超过阈值时进行边界越界处理,剔除越界数据或对该越界数据进行修正,例如按照边界值处理等,在此不进行具体限定。
在具体实施中,采集到监控数据后,基于监控数据得到每个预测项对应的训练样本。此处的预测项可以包括系统中的各器件,实现对各器件的故障预测。每个预测项的训练样本的样本类型均包括正常样本和故障样本,由于故障样本的数量较少,可能会导致后续预测准确度较低,因此在本步骤中可以通过自动故障判定和人工故障判定需要获取足够多的故障样本。对于自动故障判定,强化现有故障判定模块,通过如ECC(中文全称:错误检查和纠正,英文全称:Error Correcting Code)和磁盘内部检测机制检测读写错误、可纠正错误、不可纠正错误、坏道等,并存入日志。对于人工故障判定,可以由现场工程师通过服务问题的根本原因分析、通过返厂检修进行判定等方式获取故障样本。
S102:提取所述训练样本的特征得到所述训练样本的特征向量,并基于所述训练样本的样本类型确定所述训练样本的目标向量;
在本步骤中,提取训练样本的各个特征,并将其组合为特征向量。此处的特征可以包括某一项监控数据在预设时间窗口内差值、方差、总和、斜率等,在此不进行具体限定。基于样本类型可以确定训练样本的目标向量,即是否故障的结果。
S103:利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,利用所述预测模型对所述预测项进行故障预测。
在本步骤中,将上一步骤提取的各训练样本的特征向量和目标向量输入机器学习模型中,设置机器学习的训练参数,实现对机器学习模型的训练得到预测模型,该预测模型可以实现对训练样本对应的预测项的故障预测。在预测时,采集预设时间窗口内与该预测项相关的监控数据,提取该监控数据的特征信息,并将其输入预测模型中,得到预测结果。
此处的机器学习模型可以包括随机森林、支持向量机、逻辑会话、神经网络、强化学习模型等,在此不进行具有限定。在具体实施中,在训练机器学习模型时,可以将训练样本的特征向量和目标向量分别输入不同的机器学习模型中,以训练不同的机器学习模型,通过各评估项对得到的各预测模型进行评估以便得到最佳预测模型。即利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型的步骤之后,还包括:基于评估项对所有所述预测模型进行评估以便得到最佳预测模型;相应的,利用所述预测模型对所述预测项进行故障预测的步骤包括:利用所述最佳预测模型对所述预测项进行故障预测。此处的评估项可以包括准确率、召回率等,当然还可以采用交叉验证、ROC-AUC、FI-score、混淆矩阵等方式对预测模型进行评估,在此不进行具体限定。ROC(Receiver OperatingCharacteristic,接受者工作特征曲线)曲线和AUC(曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。)可以用来评价一个二值分类器(binary classifier)的优劣。在具体实施中,为了提高预测的准确率,会进行模型评估来选择准确率高的预测模型。根据不同的应用场景训练得到的预测模型就可以部署在计算机系统或分布式系统上去进行各种不同的预测,如磁盘故障预测,网络故障预测。如果预测结果和实际结果不符,即漏报误报,就需要反馈给迭代更新器,来调整参数和权重,以进行改进。
本申请实施例提供的故障预测方法,在系统中部署监控装置,采集系统中各器件的监控数据,以得到各预测项的训练样本,利用训练样本训练机器学习模型得到各预测项对应的预测模型,利用该预测模型实现对各预测项的故障预测。在系统中存在不同的预测项,本申请实施例提供了一种通用的故障预测方法,对不同的预测项可以采用相同的方式进行预测,可扩展性较高。
本申请实施例公开了一种故障预测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图2,根据一示例性实施例示出的另一种故障预测方法的流程图,如图2所示,包括:
S201:采集监控数据,将所述监控数据按照所述预测项进行分类,得到每个所述预测项对应的监控数据;
S202:选取预设时间窗口下的监控数据作为每个所述预测项的目标训练,并对所述目标监控数据进行离散化和归一化处理得到每个所述预测项对应的训练样本。
在本实施例中,对采集到的监控数据进行数据划分,即按照所述预测项进行分类得到每个预测项对应的监控数据,对每个预测项对应的监控数据进行紧凑时间序列,即选取预设时间窗口下的监控数据,并进行离散化和归一化处理得到每个预测项对应的训练样本
S203:提取所述训练样本的所有特征项,并剔除与所述预测项无关的特征项得到每个所述预测项对应的目标特征项;
可以理解的是,并不是每项监控数据都和预测相关,采集到的监控数据也不一定把所有和预测相关的信息挖掘出来了,所以需要通过特征工程来将和预测最相关的特征挖掘出来,并将和预测无关的特征剔除。在剔除无关特征项时,可以基于特征稳定性、突变点筛选、PCA(主成分分析)、互信息、卡方等,在此不进行具体限定。可见,在本实施例中,通过不断挖掘和预测最相关的特征,删减和预测无关的特征,从而得到高质量的特征数据,可以大大的提高预测准确率。
S204:对每个所述训练样本的所述目标特征项进行特征组合以便得到每个所述训练样本的特征向量。
S205:基于所述训练样本的样本类型确定所述训练样本的目标向量;
S206:对所述训练样本中的正常样本进行欠采样得到目标正常样本,对所述训练样本中的故障样本进行过采样得到目标故障样本;
对于正常样本和故障样本不均衡的情况,本实施例对训练样本进行平衡处理。在具体实施中,对正常样本进行欠采样,即只选取一部分的正常样本,欠采样例如随机采样、聚类采样等。对故障样本进行过采样,即对故障样本进行放大,过采样例如重复采样、SMOTE等。另外,可以利用学习曲线、迁移学习、窗口适配、静态规则协同、Boosting增强或基于投票的方式对采样后的样本进行进一步优化,得到目标正常样本和目标故障样本。
S207:利用所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型。
在本步骤中,利用上一步骤得到的目标正常样本和目标故障样本训练机器学习模型。优选的,本步骤包括:将所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量输入所述机器学习模型中,并利用目标算法优化所述机器学习模型的参数,以便得到所述预测模型。在具体实施中,为了提高预测的准确率,可以使用诸如网格搜索、随机搜索、遗传算法、粒子群优化等方法来进行模型调参,得到具有最优预测效果的参数,同时参数持久化保持,然后用该最优参数来对AI算法设置参数并执行训练,得到具有最优预测效果的预测模型。
S208:利用所述预测模型对所述预测项进行故障预测。
由此可见,本实施例通过不断挖掘和预测最相关的特征,删减和预测无关的特征,并对不平衡数据进行适当的平衡处理,从而得到高质量的特征数据,可以大大的提高预测准确率。
下面介绍本申请的一种应用实施例,系统架构如图3所示,故障预测方法的流程如图4所示。首先把数据采集代理(agent)部署在不同的计算机系统或分布式系统上,然后从这这些系统上定时(如每小时、每天)采集数据。收集的数据包括各种器件的健康信息、监控数据,性能日志、运行过程中的各种CPU、IO、内存日志等。
因为上述数据一般都是系统运行时的数据,所以对于故障预测而言只有好样本和少部分有故障的坏样本。缺乏足够多有故障的坏样本,这样是无法进行故障预测的。为了获取足够多有故障的坏样本,不但需要强化现有故障判定模块,通过像ECC和磁盘内部检测机制检测读写错误,可纠正错误,不可纠正错误,坏道等,并存入日志。但同时像坏盘,内存故障,等需要由现场工程师通过服务问题的根本原因分析获得,或通过返厂检修进行判定,但是需要把判定的结果以及器件的型号等以日志形式记录下来。这样就可以收集足够多有故障的坏样本。上述两部分分别对应自动故障判定和人工故障判定。
采集到数据后,就定期(如每小时、每天或每周)把这些数据发送到信息处理框架。信息处理框架就把从不同计算机系统或分布式系统上采集的这些数据进行汇总,并进行预处理。预处理包括:
(1)格式统一:不同计算机系统或分布式系统收集的数据格式不同,所以需要进行统一,便于处理。比如有些收集的磁盘使用时间是以小时为单位,如6527个小时,而有些是如230dd14hh(230天14个小时)这样的格式,所以需要进行格式统一。
(2)残缺和无效数据处理:因为数据收集过程中会碰到异常,造成数据的数据无效或者部分丢失造成残缺。所以需要对这部分数据进行归类处理,以区分正常数据。比如某次数据收集,收集失败,全是0。或者收集的数据,只有少数几个有返回值。这些都需要进行残缺和无效数据处理
(3)边界越界处理:对某些收集的数据,会偶尔有些特别异常的值,所以需要进行处理。比如收集磁盘寿命,显示磁盘寿命>100年,这明显异常,所以需要进行边界检测。
(4)格式转换:对一些不方便处理的格式会转换为方便处理的格式,如字符串转换为数值。有时候也需要进行一些脱敏处理,如把磁盘的序列号(SN)用读热编码进行处理,对日期按累加时间进行处理。这样就不会泄漏各种信息了。
进行完预处理后的数据就可以通过数据流发送给AI框架,AI框架中包括训练学习器和预测器。其中训练学习器会首先把预处理后的数据进行数据处理,进行各种特征准备,比如时间划分,训练测试数据划分,数据分类(如按磁盘模型分类),时间序列,离散化,归一化等。并不是每类数据都和预测相关,收集到的数据也不一定把所有和预测相关的信息挖掘出来了,所以需要通过特征工程来把和预测最相关的特征挖掘出来(对应特征挖掘),把和预测无关的特征剔除(对应特征提炼)。对于好坏样本很不均衡的情况,特征工程还需要进行平衡处理。特征挖掘主要包括差值、方差、总和、斜率等数值特征挖掘,以及挖掘属性组合以及紧凑时间序列等。特征提炼主要包括特征稳定性,突变点筛选,PCA,互信息,卡方等。平衡处理主要包括欠采样和过采样两大类,欠采样是对占多数部分的数据只选取其中的一部分,使得数据变的平衡。而过采样是对占少数部分的数据进行放大,使得数据变的平衡。具体方法有随机采样,聚类采样。另外,可以利用学习曲线、迁移学习、窗口适配、静态规则协同、Boosting增强或基于投票的方式对采集到的样本进行优化,经过特征工程后的数据在通过设置特征向量和目标向量后就可以用作AI算法的输入。机器学习算法如随机森林RF,支持向量机SVM,逻辑回归LR等;深度学习算法如反向传播神经网络BPNN,时间递归神经网络LSTM等;强化学习算法如Q-learning等。对AI算法设置参数,然后就可以执行训练,从而得到预测模型。为了提高预测的准确率,可以使用诸如网格搜索、随机搜索、遗传算法、粒子群优化等方法来进行模型调参,得到具有最优预测效果的参数,同时参数持久化保持,然后用该最优参数来对AI算法设置参数并执行训练,得到具有最优预测效果的预测模型。为了比较不同模型的预测效果,帮助调参找到最优预测模型,需要提供模型评估,一般可使用准确率、精确率-召回率、交叉验证(acc算法)、ROC-AUC、F1-score、混淆矩阵等进行模型评估。
根据不同的应用场景训练得到的预测模型就可以部署在计算机系统或分布式系统上去进行各种不同的预测,如磁盘故障预测,网络故障预测。对收集到的需要进行预测的数据进行相同的采集、处理和特征工程后,作为预测模块的输入,然后进行预测,得到预测结果。然后根据预测结果进行相应的处理,如磁盘故障预测,预测到故障就要提前进行数据迁移,避免故障后造成性能降级和可靠性风险。如果预测结果和实际结果不符,即漏报误报,就需要反馈给迭代更新器,来调整参数和权重,以进行改进。故障预测可以根据应用场景,提供磁盘故障预测、坏道预测、内存故障预测、网络故障预测等多种故障预测功能。
下面对本申请实施例提供的一种故障预测装置进行介绍,下文描述的一种故障预测装置与上文描述的一种故障预测方法可以相互参照。
参见图5,根据一示例性实施例示出的一种故障预测装置的结构图,如图5所示,包括:
采集模块501,用于采集监控数据,并基于所述监控数据得到每个预测项对应的训练样本;所述训练样本的样本类型包括正常样本和故障样本;
提取模块502,用于提取所述训练样本的特征得到所述训练样本的特征向量,并基于所述训练样本的样本类型确定所述训练样本的目标向量;
训练模块503,用于利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,利用所述预测模型对所述预测项进行故障预测。
本申请实施例提供的故障预测装置,在系统中部署监控装置,采集系统中各器件的监控数据,以得到各预测项的训练样本,利用训练样本训练机器学习模型得到各预测项对应的预测模型,利用该预测模型实现对各预测项的故障预测。在系统中存在不同的预测项,本申请实施例提供了一种通用的故障预测装置,对不同的预测项可以采用相同的方式进行预测,可扩展性较高。
在上述实施例的基础上,作为一种优选实施方式,还包括:
预处理模块,用于对所述监控数据进行数据预处理操作;其中,所述数据预处理操作包括格式转换、剔除无效数据和边界越界处理中的任一项或任几项的组合。
在上述实施例的基础上,作为一种优选实施方式,所述采集模块501包括:
采集单元,用于采集监控数据;
分类单元,用于将所述监控数据按照所述预测项进行分类,得到每个所述预测项对应的监控数据;
选取单元,用于选取预设时间窗口下的监控数据作为每个所述预测项的目标训练,并对所述目标监控数据进行离散化和归一化处理得到每个所述预测项对应的训练样本。
在上述实施例的基础上,作为一种优选实施方式,所述提取模块502包括:
提取单元,用于提取所述训练样本的所有特征项,并剔除与所述预测项无关的特征项得到每个所述预测项对应的目标特征项;
组合单元,用于对每个所述训练样本的所述目标特征项进行特征组合以便得到每个所述训练样本的特征向量;
确定单元,用于基于所述训练样本的样本类型确定所述训练样本的目标向量。
在上述实施例的基础上,作为一种优选实施方式,所述训练模块503包括:
采样单元,用于对所述训练样本中的正常样本进行欠采样得到目标正常样本,对所述训练样本中的故障样本进行过采样得到目标故障样本;
训练单元,用于利用所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型;
预测单元,用于利用所述预测模型对所述预测项进行故障预测。
在上述实施例的基础上,作为一种优选实施方式,所述训练单元具体为将所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量输入所述机器学习模型中,并利用目标算法优化所述机器学习模型的参数,以便得到所述预测模型的单元。
在上述实施例的基础上,作为一种优选实施方式,所述机器学习模型包括随机森林、支持向量机、逻辑会话、神经网络和强化学习模型中的任几项;
所述方法,还包括:
评估模块,用于基于评估项对所有所述预测模型进行评估以便得到最佳预测模型;
相应的,所述训练模块503具体为利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,并利用所述最佳预测模型对所述预测项进行故障预测的模块。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种电子设备,参见图6,本申请实施例提供的一种电子设备600的结构图,如图6所示,可以包括处理器11和存储器12。该电子设备600还可以包括多媒体组件13,输入/输出(I/O)接口14,以及通信组件15中的一者或多者。
其中,处理器11用于控制该电子设备600的整体操作,以完成上述的故障预测方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备600的操作,这些数据例如可以包括用于在该电子设备600上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备600与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(NearFieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件15可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的故障预测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述故障预测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器12,上述程序指令可由电子设备600的处理器11执行以完成上述的故障预测方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种故障预测方法,其特征在于,包括:
采集监控数据,并基于所述监控数据得到每个预测项对应的训练样本;所述训练样本的样本类型包括正常样本和故障样本;
提取所述训练样本的特征得到所述训练样本的特征向量,并基于所述训练样本的样本类型确定所述训练样本的目标向量;
利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,利用所述预测模型对所述预测项进行故障预测。
2.根据权利要求1所述故障预测方法,其特征在于,所述采集监控数据之后,还包括:
对所述监控数据进行数据预处理操作;其中,所述数据预处理操作包括格式转换、剔除无效数据和边界越界处理中的任一项或任几项的组合。
3.根据权利要求1所述故障预测方法,其特征在于,所述基于所述监控数据得到每个预测项对应的训练样本,包括:
将所述监控数据按照所述预测项进行分类,得到每个所述预测项对应的监控数据;
选取预设时间窗口下的监控数据作为每个所述预测项的目标训练,并对所述目标监控数据进行离散化和归一化处理得到每个所述预测项对应的训练样本。
4.根据权利要求1所述故障预测方法,其特征在于,所述提取所述训练样本的特征得到所述训练样本的特征向量,包括:
提取所述训练样本的所有特征项,并剔除与所述预测项无关的特征项得到每个所述预测项对应的目标特征项;
对每个所述训练样本的所述目标特征项进行特征组合以便得到每个所述训练样本的特征向量。
5.根据权利要求1所述故障预测方法,其特征在于,利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,包括:
对所述训练样本中的正常样本进行欠采样得到目标正常样本,对所述训练样本中的故障样本进行过采样得到目标故障样本;
利用所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型。
6.根据权利要求5所述故障预测方法,其特征在于,所述利用所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,包括:
将所述目标正常样本和所述目标故障样本的所述特征向量和所述目标向量输入所述机器学习模型中,并利用目标算法优化所述机器学习模型的参数,以便得到所述预测模型。
7.根据权利要求1至6中任一项所述故障预测方法,其特征在于,所述机器学习模型包括随机森林、支持向量机、逻辑会话、神经网络和强化学习模型中的任几项;
所述利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型之后,还包括:
基于评估项对所有所述预测模型进行评估以便得到最佳预测模型;
相应的,利用所述预测模型对所述预测项进行故障预测,包括:
利用所述最佳预测模型对所述预测项进行故障预测。
8.一种故障预测装置,其特征在于,包括:
采集模块,用于采集监控数据,并基于所述监控数据得到每个预测项对应的训练样本;所述训练样本的样本类型包括正常样本和故障样本;
提取模块,用于提取所述训练样本的特征得到所述训练样本的特征向量,并基于所述训练样本的样本类型确定所述训练样本的目标向量;
训练模块,用于利用所述特征向量和所述目标向量对机器学习模型进行训练得到预测模型,利用所述预测模型对所述预测项进行故障预测。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述故障预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述故障预测方法的步骤。
CN201911304417.6A 2019-12-17 2019-12-17 一种故障预测方法、装置及电子设备和存储介质 Active CN112988437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911304417.6A CN112988437B (zh) 2019-12-17 2019-12-17 一种故障预测方法、装置及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911304417.6A CN112988437B (zh) 2019-12-17 2019-12-17 一种故障预测方法、装置及电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112988437A true CN112988437A (zh) 2021-06-18
CN112988437B CN112988437B (zh) 2023-12-29

Family

ID=76342489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911304417.6A Active CN112988437B (zh) 2019-12-17 2019-12-17 一种故障预测方法、装置及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112988437B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113746668A (zh) * 2021-08-09 2021-12-03 中铁信弘远(北京)软件科技有限责任公司 一种应用进程故障预测方法、装置、设备及可读存储介质
CN114726713A (zh) * 2022-03-02 2022-07-08 阿里巴巴(中国)有限公司 节点故障模型训练方法、检测方法、设备、介质及产品
CN116167313A (zh) * 2023-02-22 2023-05-26 深圳市摩尔芯创科技有限公司 一种用于集成电路设计的训练数据生成方法和系统

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE873511A (fr) * 1978-01-18 1979-07-16 Westinghouse Electric Corp Inrichting voor het detecteren en isoleren van statische bitfouten in een netwerk van rekeneenheden
US20080052562A1 (en) * 2006-08-22 2008-02-28 Denso Corporation Fault detection unit for rotation angle detecting device
CA2611457A1 (en) * 2006-11-21 2008-05-21 General Instrument Corporation Method and apparatus for facilitating device redundancy in a fault-tolerant system
WO2011034805A1 (en) * 2009-09-17 2011-03-24 Siemens Aktiengesellschaft Supervised fault learning using rule-generated samples for machine condition monitoring
US20120136694A1 (en) * 2010-11-29 2012-05-31 International Business Machines Corporation Transition phase trouble detection in services delivery management
CN103033362A (zh) * 2012-12-31 2013-04-10 湖南大学 一种基于改进多变量预测模型的齿轮故障诊断方法
WO2014184934A1 (ja) * 2013-05-16 2014-11-20 株式会社日立製作所 障害分析方法、障害分析システム及び記憶媒体
CN106650932A (zh) * 2016-12-23 2017-05-10 郑州云海信息技术有限公司 一种数据中心监控系统的智能故障分类方法及装置
CN107169514A (zh) * 2017-05-05 2017-09-15 清华大学 电力变压器故障诊断模型的建立方法
BR102017004862A2 (pt) * 2016-03-22 2017-09-26 Siemens Aktiengesellschaft Method, device and system for determining the location of failure of a fault.
CN107247653A (zh) * 2017-06-02 2017-10-13 郑州云海信息技术有限公司 一种数据中心监控系统的故障分类方法和装置
CN109460588A (zh) * 2018-10-22 2019-03-12 武汉大学 一种基于梯度提升决策树的设备故障预测方法
CN109491850A (zh) * 2018-11-21 2019-03-19 北京北信源软件股份有限公司 一种磁盘故障预测方法及装置
WO2019153505A1 (zh) * 2018-02-07 2019-08-15 平安科技(深圳)有限公司 一种故障修复数据包的发布方法及服务器
CN110389866A (zh) * 2018-04-20 2019-10-29 武汉安天信息技术有限责任公司 磁盘故障预测方法、装置、计算机设备及计算机存储介质
WO2019205067A1 (en) * 2018-04-27 2019-10-31 Vita-Course Technologies Co., Ltd. Systems and methods for determining an arrhythmia type
CN110399906A (zh) * 2019-07-03 2019-11-01 深兰科技(上海)有限公司 基于支撑向量机的故障分类模型的训练方法及装置
CN110399237A (zh) * 2019-06-29 2019-11-01 苏州浪潮智能科技有限公司 一种磁盘故障预测方法、系统、终端及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE873511A (fr) * 1978-01-18 1979-07-16 Westinghouse Electric Corp Inrichting voor het detecteren en isoleren van statische bitfouten in een netwerk van rekeneenheden
US20080052562A1 (en) * 2006-08-22 2008-02-28 Denso Corporation Fault detection unit for rotation angle detecting device
CA2611457A1 (en) * 2006-11-21 2008-05-21 General Instrument Corporation Method and apparatus for facilitating device redundancy in a fault-tolerant system
WO2011034805A1 (en) * 2009-09-17 2011-03-24 Siemens Aktiengesellschaft Supervised fault learning using rule-generated samples for machine condition monitoring
US20120136694A1 (en) * 2010-11-29 2012-05-31 International Business Machines Corporation Transition phase trouble detection in services delivery management
CN103033362A (zh) * 2012-12-31 2013-04-10 湖南大学 一种基于改进多变量预测模型的齿轮故障诊断方法
WO2014184934A1 (ja) * 2013-05-16 2014-11-20 株式会社日立製作所 障害分析方法、障害分析システム及び記憶媒体
BR102017004862A2 (pt) * 2016-03-22 2017-09-26 Siemens Aktiengesellschaft Method, device and system for determining the location of failure of a fault.
CN106650932A (zh) * 2016-12-23 2017-05-10 郑州云海信息技术有限公司 一种数据中心监控系统的智能故障分类方法及装置
CN107169514A (zh) * 2017-05-05 2017-09-15 清华大学 电力变压器故障诊断模型的建立方法
CN107247653A (zh) * 2017-06-02 2017-10-13 郑州云海信息技术有限公司 一种数据中心监控系统的故障分类方法和装置
WO2019153505A1 (zh) * 2018-02-07 2019-08-15 平安科技(深圳)有限公司 一种故障修复数据包的发布方法及服务器
CN110389866A (zh) * 2018-04-20 2019-10-29 武汉安天信息技术有限责任公司 磁盘故障预测方法、装置、计算机设备及计算机存储介质
WO2019205067A1 (en) * 2018-04-27 2019-10-31 Vita-Course Technologies Co., Ltd. Systems and methods for determining an arrhythmia type
CN109460588A (zh) * 2018-10-22 2019-03-12 武汉大学 一种基于梯度提升决策树的设备故障预测方法
CN109491850A (zh) * 2018-11-21 2019-03-19 北京北信源软件股份有限公司 一种磁盘故障预测方法及装置
CN110399237A (zh) * 2019-06-29 2019-11-01 苏州浪潮智能科技有限公司 一种磁盘故障预测方法、系统、终端及存储介质
CN110399906A (zh) * 2019-07-03 2019-11-01 深兰科技(上海)有限公司 基于支撑向量机的故障分类模型的训练方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张立保: "风控日志监管异常自动检测方法研究", 《硕士电子期刊》 *
王崇科;卫娟;: "基于直推式学习的网络故障诊断算法", 计算机测量与控制, no. 12 *
钟将;时待吾;王振华;: "基于告警日志的网络故障预测", 计算机应用, no. 1 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113746668A (zh) * 2021-08-09 2021-12-03 中铁信弘远(北京)软件科技有限责任公司 一种应用进程故障预测方法、装置、设备及可读存储介质
CN113746668B (zh) * 2021-08-09 2024-04-02 中铁信弘远(北京)软件科技有限责任公司 一种应用进程故障预测方法、装置、设备及可读存储介质
CN114726713A (zh) * 2022-03-02 2022-07-08 阿里巴巴(中国)有限公司 节点故障模型训练方法、检测方法、设备、介质及产品
CN114726713B (zh) * 2022-03-02 2024-01-12 阿里巴巴(中国)有限公司 节点故障模型训练方法、检测方法、设备、介质及产品
CN116167313A (zh) * 2023-02-22 2023-05-26 深圳市摩尔芯创科技有限公司 一种用于集成电路设计的训练数据生成方法和系统
CN116167313B (zh) * 2023-02-22 2023-09-12 深圳市摩尔芯创科技有限公司 一种用于集成电路设计的训练数据生成方法和系统

Also Published As

Publication number Publication date
CN112988437B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
De Santo et al. Deep Learning for HDD health assessment: An application based on LSTM
US10514974B2 (en) Log analysis system, log analysis method and program recording medium
CN112988437B (zh) 一种故障预测方法、装置及电子设备和存储介质
CN109828869B (zh) 预测硬盘故障发生时间的方法、装置及存储介质
CN107025153B (zh) 磁盘的故障预测方法和装置
CN110958136A (zh) 一种基于深度学习的日志分析预警方法
CN104503874A (zh) 一种云计算平台的硬盘故障预测方法
CN111858242A (zh) 一种系统日志异常检测方法、装置及电子设备和存储介质
CN105488539A (zh) 分类模型的生成方法及装置、系统容量的预估方法及装置
KR102281819B1 (ko) 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템
CN114579380A (zh) 一种计算机系统故障的人工智能检测系统及方法
CN111949480A (zh) 一种基于组件感知的日志异常检测方法
CN113722134A (zh) 一种集群故障处理方法、装置、设备及可读存储介质
CN108628694B (zh) 一种基于可编程硬件的数据处理方法以及装置
CN110175100B (zh) 一种存储盘故障预测方法及预测系统
US10990669B2 (en) Vehicle intrusion detection system training data generation
CN114691403A (zh) 一种服务器故障诊断方法、装置、电子设备及存储介质
CN117094184B (zh) 基于内网平台的风险预测模型的建模方法、系统及介质
CN116756021A (zh) 基于事件分析的故障定位方法、装置、电子设备及介质
CN111161884A (zh) 针对不平衡数据的疾病预测方法、装置、设备及介质
AU2021269196B2 (en) Performance event troubleshooting system
KR102266416B1 (ko) 장애 예측 방법, 그리고 이를 구현하기 위한 장치
JP6666489B1 (ja) 障害予兆検知システム
JP6954671B2 (ja) 予兆監視装置、予兆監視方法およびプログラム
GB2590414A (en) Anomaly detection for code management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant