CN112395167A - 一种作业故障预测方法、装置及电子设备 - Google Patents
一种作业故障预测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112395167A CN112395167A CN202011365044.6A CN202011365044A CN112395167A CN 112395167 A CN112395167 A CN 112395167A CN 202011365044 A CN202011365044 A CN 202011365044A CN 112395167 A CN112395167 A CN 112395167A
- Authority
- CN
- China
- Prior art keywords
- fault
- training
- data
- sample data
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 93
- 238000012544 monitoring process Methods 0.000 claims description 57
- 239000010410 layer Substances 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 29
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 11
- 230000002547 anomalous effect Effects 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000002356 single layer Substances 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 8
- 238000002955 isolation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种作业故障预测方法、装置及电子设备,该方法包括:采集作业信息;其中,一条作业信息包括第一数量的目标特征指标;依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测;当依据所述作业故障预测结果确定存在故障风险时,进行故障预警处理。应用本发明实施例可以提高作业的运行效率,节省作业运行所需时间和资源成本。
Description
技术领域
本发明涉及云计算技术领域,尤其涉及一种作业故障预测方法、装置及电子设备。
背景技术
随着大数据、云计算技术的发展和各行业融合,高性能计算(High PerformanceComputing,简称HPC)平台从底层架构设计到上层页面显示实现了全新蜕变,包括对其功能进行扩展,根据用户的需求设计相关模块,为用户提供更加优质的服务。
大型HPC集群中的计算作业运行时间和资源消耗成本很大,一个作业的运行时间能达到几天或者几十天甚至数月。如果作业运行过程中会受到集群环境不稳定或者作业配置不当的影响,导致作业失败,这必然严重影响用户体验,因此作业故障预测和定位功能的实现至关重要。
目前,HPC集群中作业故障一般都是在故障发生后,对故障原因的分析,该方式从系统层面来说,需要大量的人力和时间分析已发生或者潜在的故障;从用户层面来看,作业失败后定位到故障原因再重新运行作业,极大的增加了计算作业的运行时间和资源成本。
发明内容
本发明提供一种作业故障预测方法、装置及电子设备,以解决传统作业故障检测方案需要在故障发生后分析故障原因,导致故障检测效率低的问题。
根据本发明实施例的第一方面,提供一种作业故障预测方法,包括:
采集作业信息;其中,一条作业信息包括第一数量的目标特征指标;
依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测;
当依据所述作业故障预测结果确定存在故障风险时,进行故障预警处理。
根据本发明实施例的第二方面,提供一种作业故障预测装置,包括:
采集单元,用于采集作业信息;其中,一条作业信息包括第一数量的目标特征指标;
预测单元,用于依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测;
处理单元,用于当依据所述作业故障预测结果确定存在故障风险时,进行故障预警处理。
根据本发明实施例的第三方面,提供一种电子设备,该电子设备包括:
处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现第一方面提供的作业故障预测方法。
应用本发明公开的技术方案,通过采集作业信息,并依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测,进而,当依据作业故障预测结果确定存在故障风险时,进行故障预警处理,实现了作业故障预测,提高了作业的运行效率,节省了作业运行所需时间和资源成本。
附图说明
图1是本发明实施例提供的一种作业故障预测方法的流程示意图;
图2是本发明实施例提供的一种作业故障预测模型的训练流程示意图;
图3是本发明实施例提供的一种作业故障预测的实现流程示意图;
图4是本发明实施例提供的一种作业故障预测模型的训练流程示意图;
图5是本发明实施例提供的一种作业故障预测装置的结构示意图;
图6是本发明实施例提供的另一种作业故障预测装置的结构示意图;
图7是本发明实施例提供的一种图5或图6所示装置的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。
请参见图1,为本发明实施例提供的一种作业故障预测方法的流程示意图,如图1所示,该作业故障预测方法可以包括以下步骤:
需要说明的是,本发明实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
步骤101、采集作业信息,其中,一条作业信息包括第一数量的目标特征指标。
本发明实施例中,为了实现作业故障预测,可以采集作业信息,一条作业信息可以包括预设数量(可以根据实际需求设定,如10个,本文中称为第一数量)的目标特征指标。
示例性的,采集作业信息时,需要采集的特征指标(即上述目标特征指标)可以在作业故障预测模型训练过程中确定,其具体实现将在下文中描述,本发明实施例在此不做赘述。
例如,当用户提交新的作业时,可以实时获取作业信息。
步骤102、依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测。
本发明实施例中,为了实现作业故障预测,以便提前定位故障原因,提高作业运行效率,节省作业运行所需时间和资源成本,可以构建作业故障预测模型,并依据历史作业监控数据,对作业故障预测模型进行训练,以便完成作业故障预测模型的训练之后,可以利用训练好的作业故障预测模型对实时运行的作业进行故障预测。
示例性的,作业故障预测模型依据历史作业监控数据中的异常数据进行训练。
相应地,可以依据采集到的预设时长(可以根据实际需求设定)内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测。
步骤103、当依据作业故障预测结果确定存在故障风险时,进行故障预警处理。
本发明实施例中,当依据作业故障预测结果确定存在故障风险,可以按照预设策略,进行故障预警处理,例如,通知用户或管理员采取应急措施。
可见,在图1所示方法流程中,通过构建并训练作业故障预测模型,并利用训练好的作业故障预测模型,依据采集到的作业运行过程中的作业信息,进行作业故障预测,并当确定存在故障风险时,进行故障预警处理,实现作业故障预测,提高了作业的运行效率,节省作业运行所需时间和资源成本。
在一些实施例中,如图2所示,作业故障预测模型的训练可以通过以下步骤实现:
步骤201、获取历史作业监控数据;其中,一条作业监控数据包括第二数量的特征指标,第二数量的特征指标包括第一数量的目标特征指标以及至少一个其它特征指标;
步骤202、对历史作业监控数据进行特征指标选择,以得到候选样本数据;其中,一条候选样本数据包括第一数量的目标特征指标;
步骤203、对候选样本数据进行异常检测,以确定候选样本数据中的异常数据,并将异常数据作为样本数据;
步骤204、依据样本数据对作业故障预测模型进行训练。
示例性的,为了实现作业故障预测模型的训练,需要先收集训练数据。
例如,可以采用历史作业监控数据中的异常数据来作为作业故障预测模型的训练数据。
相应地,在训练作业故障预测模型的过程中,可以获取预设时间段(可以根据实际需求设定)内的历史作业监控数据。
其中,一条作业监控数据可以包括预设数量(可以根据实际需求设定,如20个,本文中称为第二数量)的特征指标。
例如,可以通过集群监控、作业监控、用户提交作业配置参数,获取历史作业监控数据。
以用户提交的某一个作业为样本,历史作业监控数据为该作业在系统(如HPC集群)中运行过程中的运行数据,其可以包括但不限于以下特征指标:
通过集群监控软件获取该用户所用节点的资源占用情况(如CPU、GPU、内存等),该节点的作业数量、文件系统(如IO(Input/output,输入/输出),容量)、网络IO等;通过HPC平台数据库可获取用户提交作业的资源配置信息(用户配置的内存大小、CPU数量、GPU数量、节点数、最大运行时间,是否独占节点)、作业状态、作业运行时长、作业运行时间戳;通过作业监控软件可获取作业运行过程中实际占用的内存、CPU、GPU、文件读写IO和网络IO数据信息。
当获取到历史作业监控数据时,可以对获取到的历史作业监控数据进行特征指标选择,选出较优的特征指标,作为候选样本数据,提高训练模型的准确性和鲁棒性。
其中,该过程中选择出的特征指标即为上述目标特征指标,目标特征指标的数量即为上述第一数量,即第二数量的特征指标可以包括第一数量的目标特征指标以及至少一个其它特征指标。
例如,可以通过PCA(Principal Components Analysis,主成分分析)算法进行特征指标筛选。
对于得到的候选样本数据,可以进行异常检测,以确定候选样本数据中的异常数据,并将该异常数据作为样本数据。
例如,可以采用Isolation Forest(孤立森林)算法对候选样本数据进行检测。
其中,Isolation Forest算法的主要原理是利用异常数据占总的样本量比例小且异常点的特征值与正常点差异较大的特点进行异常检测,常用于检测连续性结构数据中的异常点,且准确率较高。
示例性的,可以依据按照上述方式得到的样本数据对作业故障预测模型进行训练。
在一个示例中,步骤202中,对历史作业监控数据进行特征指标选择,可以包括:
对历史作业监控数据进行数据清洗,以去除历史作业监控数据中的空值和无效值;
对清洗后的历史作业监控数据进行数据标准化处理;
对标准化处理后的历史作业监控数据进行特征指标选择。
示例性的,考虑到实际应用场景中,人为原因或外部环境原因导致设备故障,如不小心断开了电源或自然灾害导致断电等,可能会导致一些无效数据或空值的产生,为了避免这些数据对后续处理的影响,当获取到历史作业监控数据时,可以对历史监控数据进行数据清洗,以去除历史作业监控数据中的空值和无效值。
此外,为了消除不同特征指标之间的量纲影响,在对历史监控数据进行数据清洗之后,还可以对清洗后的历史监控数据进行数据标准化处理。
进而,可以对标准化处理后的历史作业监控数据进行特征指标选择。
在一个示例中,步骤204中,依据样本数据对作业故障预测模型进行训练,可以包括:
将样本数据划分为训练集和测试集;
利用训练集中的训练样本数据对作业故障预测模型进行训练,直至作业故障预测模型对测试集中的测试样本数据的识别准确率超过预设准确率阈值。
示例性的,当按照上述实施例中描述的方式得到样本数据时,在进行作业故障预测模型训练时,可以将样本数据划分为训练集和测试集,并利用训练集中的训练样本数据对作业故障预测模型进行训练,并利用测试集中的测试样本数据对所训练的作业故障预测模型的识别准确率进行测试,直至作业故障预测模型对测试集中的测试样本数据的识别准确率超过预设准确率阈值(可以根据实际场景设定,如95%)时,确定作业故障预测模型训练完成。
在一个示例中,样本数据标注有故障等级;作业故障预测模型包括输入层、隐含层以及输出层;隐含层为LSTM(Long Short-Term Memory,长短记忆)网络,LSTM网络包括3个LSTM单元;
上述利用训练集中的训练样本数据对作业故障预测模型进行训练,可以包括:
按照时间顺序,将训练集中的训练样本数据划分为3份,并通过输入层分别将各份训练样本数据输入对应的LSTM单元;
依据输出层输出的各训练样本数据的故障等级,以及各训练样本标注的故障等级,进行损失计算,并依据损失对LSTM单元进行参数调优;
当LSTM网络的迭代训练次数达到预设迭代次数时,依据测试集中的测试样本数据对LSTM网络进行测试;
若LSTM网络识别准确率超过预设准确率阈值,则确定LSTM网络训练完成;否则,再次对LSTM网络进行训练。
示例性的,LSTM网络是一种时间循环神经网络,在时序数据预测过程中,可以学习长期依赖信息。LSTM网络包含了三个输入,即上时刻的单元状态、上时刻LSTM的输出和当前时刻输入,这种机制可以有效的利用作业运行过程中不同时间信息的依赖关系,从而提高故障预测模型的准确率和鲁棒性。
相应地,在构建作业故障预测模型时,可以以单层LSTM网络为隐含层,利用得到的样本数据对LSTM网络进行训练,其具体训练过程可以在下文中结合具体实例进行说明。
在一些实施例中,上述作业故障预测结果可以包括故障等级。
相应地,步骤104、当依据作业故障预测结果确定存在故障风险时,进行故障预警处理,可以包括:
当依据作业故障预测结果确定存在故障风险时,依据作业故障预测结果包括的故障等级,采用预设的与故障等级匹配的故障预警策略,进行故障预警处理。
示例性的,由于不同原因导致的作业故障,需要采取的措施并不相同,因此,在训练作业故障预测模型时,可以针对不同故障原因导致的故障进行训练,以使作业故障预测模型可以预测出不同故障原因导致的故障风险,并依据故障原因确定故障等级(可以预先配置故障原因与故障等级的对应关系),采取对应策略进行故障预警处理。
其中,故障原因与故障等级的对应关系可以在下文中具体说明。
例如,对于网络故障、文件系统故障或/和计算资源不足导致的作业故障,通常需要管理员进行处理,此时,故障预警处理可以为通知管理员,由管理员提前定位故障原因。
对于作业资源配置导致的作业故障,如节点的CPU(Center Process Unit,中央处理单元)、GPU(Graphics Processing Unit,图像处理单元)或/和内存不足导致的故障,通常可以通过用户重新配置作业资源的方式克服,此时,故障预警处理可以为通知用户,如通过提交作业页面或者用户的订阅邮箱通知用户,提醒用户查看作业的配置信息并修改作业资源配置。
进一步地,在本发明实施例中,为了提高作业故障预测方案的灵活性和可控性,可以根据实际需求配置是否开启故障预测模式。
相应地,当确定故障预测模式开启时,可以按照上述方式进行作业故障预测;否则,可以按照已有策略进行处理,本发明实施例对此不做限定。
为了使本领域技术人员更好地理解本发明实施例提供的技术方案,下面结合具体应用场景对本发明实施例提供的技术方案进行说明。
用户在使用HPC计算平台web页面提交作业时,可以根据自己的需求确定是否开启故障预测模式,该模式可预测作业运行过程中及作业运行后可能会出现的故障及原因。故障主要包括集群系统故障(网络、文件系统、计算资源不足等)、作业配置故障;故障等级包括:严重故障和轻度故障。
例如,不同故障原因导致的作业故障的故障等级可以如表1所示:
表1、作业故障分类和等级划分
作业故障预测的实现过程:首先,对历史作业监控数据(连续数据)预处理,包括数据清洗(去除空值、无效数据等)、标准化;然后数据通过Isolation Forest算法检测预处理后的数据中的异常数据,最终利用LSTM神经网络模型(即上述作业故障预测模型)对异常情况的数据进行训练,将故障分为两种故障等级。其中检测结果为严重故障时,该故障信息会通知系统管理员,提醒管理员进行处理;检测结果为轻度故障时,会通过提交作业页面或者用户的订阅邮箱的方式及时提醒用户,查看作业的配置信息并修改,其流程示意图可以如图3所示。
下面对作业故障预测的处理流程进行详细说明。
一、数据采集:
数据主要来源包括:集群监控、作业监控、用户提交作业配置参数(平台数据库)。
在该实施例中,以某用户提交的某一个作业为例,初始数据采集时,可以采集如下特征指标:
通过集群监控软件获取该用户所用节点的资源占用情况(如CPU、GPU、内存等),该节点的作业数量、文件系统(如IO(Input/output,输入/输出),容量)、网络IO等;通过HPC平台数据库可获取用户提交作业的资源配置信息(用户配置的内存大小、CPU数量、GPU数量、节点数、最大运行时间,是否独占节点)、作业状态、作业运行时长、作业运行时间戳;通过作业监控软件可获取作业运行过程中实际占用的内存、CPU、GPU、文件读写IO和网络IO数据信息。
二、数据预处理
首先,通过数据清洗去除数据中的空值和无效值;然后,对清洗后的数据标准化处理,以消除不同特征之间的量纲影响;最后,使用PCA算法对收集到的特征指标进行特征选择,筛选出较优的特征指标(如10个较优的特征指标,即上述目标特征指标)(筛选后的数据即为上述候选样本数据),提高训练模型的准确性和鲁棒性。
三、数据筛选
利用Isolation Forest算法检测预处理后的数据中的异常点。
示例性的,Isolation Forest算法常用于检测连续性结构数据中的异常点,且准确率较高,其主要原理是利用异常数据占总的样本量比例小且异常点的特征值与正常点差异较大的特点进行异常检测。
使用Isolation Forest算法对预处理后的数据进行分析,将异常类别设置为4,并根据检测到的四种异常数据的实际异常情况给样本数据做标注(分别对应4种故障的原因)。其中标注为1、2、3的是严重故障,4对应的为轻度故障。最后将做好标注后的数据制作为一份完备的数据集(即上述样本数据),用于模型训练。
四、故障预测模型训练:
LSTM网络是一种时间循环神经网络,在时序数据预测过程中,可以学习长期依赖信息。LSTM网络包括三个输入:上时刻的单元状态、上时刻LSTM的输出和当前时刻输入,该机制可以有效的利用作业运行过程中不同时间信息的依赖关系,从而提高故障预测模型的准确率和鲁棒性。
示例性的,作业故障预测模型框架主要包括四部分:输入层、隐含层、输出层和网络训练部分,其中隐含层采用单层LSTM,包括三个LSTM单元;网络训练部分主要以隐含层为研究对象,给定网络初始化的随机种子数s、学习率以及训练步数,使用Adam优化器对交叉熵损失函数进行优化,不断更新网络参数,进而得到最终的工作故障预测模型。当工作故障预测模型在验证集上的准确率>0.95(即上述准确率阈值)时,则工作故障预测模型训练完成,其示意图可以如图4所示。
五、模型推理(即使用训练好的作业故障预测模型进行作业故障预测)
当检测的新的作业提交请求时,实时获取作业信息,定时调用训练好的作业故障预测模型,依据获取到的作业信息,使用训练好的作业故障预测模型,进行作业故障预测,并输出故障等级,若为严重故障(即输出结果为1、2获),则通知管理员进行处理;若未轻度故障(即输出结果为4),则可以通过提交作业页面或者用户的订阅邮箱的方式通知用户进行处理。
其中,当未预测到故障风险时,可以输出缺省值,如0,此时,不需要进行预警处理。
需要说明的是,在本发明实施例中,可以定时(如周期性地)更新训练好的作业故障预测模型,即每隔预设时间,重新获取预设时长内的历史作业监控数据(每次获取的历史作业监控数据属于不同的时间段),并按照上述方式重新进行作业故障预测模型训练,以利用训练好的作业故障预测模型更新当前使用的作业故障预测模型,以提高作业故障预测模型的场景适用性,保证作业故障预测的准确性。
通过以上描述可以看出,在本发明实施例提供的技术方案中,通过采集作业信息,并依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测,进而,当依据作业故障预测结果确定存在故障风险时,进行故障预警处理,实现了作业故障预测,提高了作业的运行效率,节省了作业运行所需时间和资源成本。
请参见图5,为本发明实施例提供的一种作业故障预测装置的结构示意图,如图5所示,该作业故障预测装置可以包括:
采集单元510,用于采集作业信息;其中,一条作业信息包括第一数量的目标特征指标;
预测单元520,用于依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测;该作业故障预测模型依据历史作业监控数据中的异常数据进行训练;
处理单元530,用于当依据所述作业故障预测结果确定存在故障风险时,进行故障预警处理。
在一些实施例中,如图6所示,所述装置还包括:
训练单元540,用于通过以下方式训练作业故障预测模型:
获取历史作业监控数据;其中,一条作业监控数据包括第二数量的特征指标,所述第二数量的特征指标包括所述第一数量的目标特征指标以及至少一个其它特征指标;
对所述历史作业监控数据进行特征指标选择,以得到候选样本数据;其中,一条候选样本数据包括所述第一数量的目标特征指标;
对所述候选样本数据进行异常检测,以确定所述候选样本数据中的异常数据,并将所述异常数据作为样本数据;
依据所述样本数据对所述作业故障预测模型进行训练。
在一些实施例中,所述训练单元540对所述历史作业监控数据进行特征指标选择,包括:
对所述历史作业监控数据进行数据清洗,以去除所述历史作业监控数据中的空值和无效值;
对清洗后的历史作业监控数据进行数据标准化处理;
对标准化处理后的历史作业监控数据进行特征指标选择。
在一些实施例中,所述训练单元540依据所述样本数据对所述作业故障预测模型进行训练,包括:
将所述样本数据划分为训练集和测试集;
利用所述训练集中的训练样本数据对所述作业故障预测模型进行训练,直至所述作业故障预测模型对测试集中的测试样本数据的识别准确率超过预设准确率阈值。
在一些实施例中,所述样本数据标注有故障等级;所述作业故障预测模型包括输入层、隐含层以及输出层;所述隐含层为单层长短记忆LSTM网络,所述LSTM网络包括3个LSTM单元;
所述训练单元540利用所述训练集中的训练样本数据对所述作业故障预测模型进行训练,包括:
按照时间顺序,将所述训练集中的训练样本数据划分为3份,并通过所述输入层分别将各份训练样本数据输入对应的LSTM单元;
依据所述输出层输出的各训练样本数据的故障等级,以及各训练样本标注的故障等级,进行损失计算,并依据损失对所述LSTM单元进行参数调优;
当所述LSTM网络的迭代训练次数达到预设迭代次数时,依据所述测试集中的测试样本数据对所述LSTM网络进行测试;
若所述LSTM网络识别准确率超过预设准确率阈值,则确定所述LSTM网络训练完成;否则,再次对所述LSTM网络进行训练。
在一些实施例中,所述作业故障预测结果包括故障等级;
所述处理单元530依据所述作业故障预测结果确定存在故障风险时,进行故障预警处理,包括:
当依据所述作业故障预测结果确定存在故障风险时,依据所述作业故障预测结果包括的故障等级,采用预设的与所述故障等级匹配的故障预警策略,进行故障预警处理。
对应地,本发明还提供了图5或6所示装置的硬件结构。参见图7,该硬件结构可包括:处理器和机器可读存储介质,机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现本发明上述示例公开的方法。
基于与上述方法同样的发明构思,本发明实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本发明上述示例公开的方法。
示例性的,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
由上述实施例可见,通过采集作业信息,并依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测,进而,当依据作业故障预测结果确定存在故障风险时,进行故障预警处理,实现了作业故障预测,提高了作业的运行效率,节省了作业运行所需时间和资源成本。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本公开旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (13)
1.一种作业故障预测方法,其特征在于,包括:
采集作业信息;其中,一条作业信息包括第一数量的目标特征指标;
依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测;该作业故障预测模型依据历史作业监控数据中的异常数据进行训练;
当依据所述作业故障预测结果确定存在故障风险时,进行故障预警处理。
2.根据权利要求1所述的方法,其特征在于,作业故障预测模型通过以下方式训练:
获取历史作业监控数据;其中,一条作业监控数据包括第二数量的特征指标,所述第二数量的特征指标包括所述第一数量的目标特征指标以及至少一个其它特征指标;
对所述历史作业监控数据进行特征指标选择,以得到候选样本数据;其中,一条候选样本数据包括所述第一数量的目标特征指标;
对所述候选样本数据进行异常检测,以确定所述候选样本数据中的异常数据,并将所述异常数据作为样本数据;
依据所述样本数据对所述作业故障预测模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述对所述历史作业监控数据进行特征指标选择,包括:
对所述历史作业监控数据进行数据清洗,以去除所述历史作业监控数据中的空值和无效值;
对清洗后的历史作业监控数据进行数据标准化处理;
对标准化处理后的历史作业监控数据进行特征指标选择。
4.根据权利要求2所述的方法,其特征在于,所述依据所述样本数据对所述作业故障预测模型进行训练,包括:
将所述样本数据划分为训练集和测试集;
利用所述训练集中的训练样本数据对所述作业故障预测模型进行训练,直至所述作业故障预测模型对测试集中的测试样本数据的识别准确率超过预设准确率阈值。
5.根据权利要求4所述的方法,其特征在于,所述样本数据标注有故障等级;所述作业故障预测模型包括输入层、隐含层以及输出层;所述隐含层为单层长短记忆LSTM网络,所述LSTM网络包括3个LSTM单元;
所述利用所述训练集中的训练样本数据对所述作业故障预测模型进行训练,包括:
按照时间顺序,将所述训练集中的训练样本数据划分为3份,并通过所述输入层分别将各份训练样本数据输入对应的LSTM单元;
依据所述输出层输出的各训练样本数据的故障等级,以及各训练样本标注的故障等级,进行损失计算,并依据损失对所述LSTM单元进行参数调优;
当所述LSTM网络的迭代训练次数达到预设迭代次数时,依据所述测试集中的测试样本数据对所述LSTM网络进行测试;
若所述LSTM网络识别准确率超过预设准确率阈值,则确定所述LSTM网络训练完成;否则,再次对所述LSTM网络进行训练。
6.根据权利要求1所述的方法,其特征在于,所述作业故障预测结果包括故障等级;
所述当依据所述作业故障预测结果确定存在故障风险时,进行故障预警处理,包括:
当依据所述作业故障预测结果确定存在故障风险时,依据所述作业故障预测结果包括的故障等级,采用预设的与所述故障等级匹配的故障预警策略,进行故障预警处理。
7.一种作业故障预测装置,其特征在于,包括:
采集单元,用于采集作业信息;其中,一条作业信息包括第一数量的目标特征指标;
预测单元,用于依据采集到的预设时长内的作业信息,利用预先训练的作业故障预测模型,进行作业故障预测;该作业故障预测模型依据历史作业监控数据中的异常数据进行训练;
处理单元,用于当依据所述作业故障预测结果确定存在故障风险时,进行故障预警处理。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练单元,用于通过以下方式训练作业故障预测模型:
获取历史作业监控数据;其中,一条作业监控数据包括第二数量的特征指标,所述第二数量的特征指标包括所述第一数量的目标特征指标以及至少一个其它特征指标;
对所述历史作业监控数据进行特征指标选择,以得到候选样本数据;其中,一条候选样本数据包括所述第一数量的目标特征指标;
对所述候选样本数据进行异常检测,以确定所述候选样本数据中的异常数据,并将所述异常数据作为样本数据;
依据所述样本数据对所述作业故障预测模型进行训练。
9.根据权利要求8所述的装置,其特征在于,所述训练单元对所述历史作业监控数据进行特征指标选择,包括:
对所述历史作业监控数据进行数据清洗,以去除所述历史作业监控数据中的空值和无效值;
对清洗后的历史作业监控数据进行数据标准化处理;
对标准化处理后的历史作业监控数据进行特征指标选择。
10.根据权利要求8所述的装置,其特征在于,所述训练单元依据所述样本数据对所述作业故障预测模型进行训练,包括:
将所述样本数据划分为训练集和测试集;
利用所述训练集中的训练样本数据对所述作业故障预测模型进行训练,直至所述作业故障预测模型对测试集中的测试样本数据的识别准确率超过预设准确率阈值。
11.根据权利要求10所述的装置,其特征在于,所述样本数据标注有故障等级;所述作业故障预测模型包括输入层、隐含层以及输出层;所述隐含层为单层长短记忆LSTM网络,所述LSTM网络包括3个LSTM单元;
所述训练单元利用所述训练集中的训练样本数据对所述作业故障预测模型进行训练,包括:
按照时间顺序,将所述训练集中的训练样本数据划分为3份,并通过所述输入层分别将各份训练样本数据输入对应的LSTM单元;
依据所述输出层输出的各训练样本数据的故障等级,以及各训练样本标注的故障等级,进行损失计算,并依据损失对所述LSTM单元进行参数调优;
当所述LSTM网络的迭代训练次数达到预设迭代次数时,依据所述测试集中的测试样本数据对所述LSTM网络进行测试;
若所述LSTM网络识别准确率超过预设准确率阈值,则确定所述LSTM网络训练完成;否则,再次对所述LSTM网络进行训练。
12.根据权利要求7所述的装置,其特征在于,所述作业故障预测结果包括故障等级;
所述处理单元依据所述作业故障预测结果确定存在故障风险时,进行故障预警处理,包括:
当依据所述作业故障预测结果确定存在故障风险时,依据所述作业故障预测结果包括的故障等级,采用预设的与所述故障等级匹配的故障预警策略,进行故障预警处理。
13.一种电子设备,其特征在于,该电子设备包括:
处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现权利要求1-6任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011365044.6A CN112395167A (zh) | 2020-11-27 | 2020-11-27 | 一种作业故障预测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011365044.6A CN112395167A (zh) | 2020-11-27 | 2020-11-27 | 一种作业故障预测方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112395167A true CN112395167A (zh) | 2021-02-23 |
Family
ID=74605445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011365044.6A Pending CN112395167A (zh) | 2020-11-27 | 2020-11-27 | 一种作业故障预测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395167A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743726A (zh) * | 2021-08-04 | 2021-12-03 | 国网福建省电力有限公司信息通信分公司 | 基于边缘计算的输电线路电缆沟作业安全管控方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6119112A (en) * | 1997-11-19 | 2000-09-12 | International Business Machines Corporation | Optimum cessation of training in neural networks |
CN109634820A (zh) * | 2018-11-01 | 2019-04-16 | 华中科技大学 | 一种云端移动端协同的故障预警方法、相关设备及系统 |
CN110233661A (zh) * | 2019-04-28 | 2019-09-13 | 国网安徽省电力有限公司信息通信分公司 | 长短期记忆神经网络训练方法,信道参数调整系统及方法 |
CN110766143A (zh) * | 2019-10-31 | 2020-02-07 | 上海埃威航空电子有限公司 | 基于人工神经网络的设备故障智能诊断方法 |
CN111769974A (zh) * | 2020-06-11 | 2020-10-13 | 中国科学院计算技术研究所 | 一种云系统故障诊断方法 |
-
2020
- 2020-11-27 CN CN202011365044.6A patent/CN112395167A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6119112A (en) * | 1997-11-19 | 2000-09-12 | International Business Machines Corporation | Optimum cessation of training in neural networks |
CN109634820A (zh) * | 2018-11-01 | 2019-04-16 | 华中科技大学 | 一种云端移动端协同的故障预警方法、相关设备及系统 |
CN110233661A (zh) * | 2019-04-28 | 2019-09-13 | 国网安徽省电力有限公司信息通信分公司 | 长短期记忆神经网络训练方法,信道参数调整系统及方法 |
CN110766143A (zh) * | 2019-10-31 | 2020-02-07 | 上海埃威航空电子有限公司 | 基于人工神经网络的设备故障智能诊断方法 |
CN111769974A (zh) * | 2020-06-11 | 2020-10-13 | 中国科学院计算技术研究所 | 一种云系统故障诊断方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743726A (zh) * | 2021-08-04 | 2021-12-03 | 国网福建省电力有限公司信息通信分公司 | 基于边缘计算的输电线路电缆沟作业安全管控方法及系统 |
CN113743726B (zh) * | 2021-08-04 | 2023-11-28 | 国网福建省电力有限公司信息通信分公司 | 基于边缘计算的输电线路电缆沟作业安全管控方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052528A (zh) | 一种存储设备时序分类预警方法 | |
CN111881023B (zh) | 一种基于多模型对比的软件老化预测方法及装置 | |
CN113094198A (zh) | 一种基于机器学习和文本分类的服务故障定位方法及装置 | |
CN111950660A (zh) | 一种人工智能训练平台的告警预测方法及装置 | |
CN112633542A (zh) | 系统性能指标预测方法、装置、服务器及存储介质 | |
CN117034143B (zh) | 一种基于机器学习的分布式系统故障诊断方法及装置 | |
CN110703743A (zh) | 设备故障预测与检测系统和方法 | |
CN113535522A (zh) | 一种异常情况的检测方法、装置和设备 | |
CN114662712A (zh) | 基于Wasserstein深度数字孪生模型的旋转机械状态监测方法 | |
CN116539994A (zh) | 基于多源时间序列数据的变电站主设备运行状态检测方法 | |
CN115185804A (zh) | 服务器性能预测方法、系统、终端及存储介质 | |
CN114528942A (zh) | 工程机械的数据样本库的构建、故障预测方法及工程机械 | |
CN112395167A (zh) | 一种作业故障预测方法、装置及电子设备 | |
CN117891234A (zh) | 机房运行状态的检测方法、装置、存储介质以及电子设备 | |
CN113822336A (zh) | 一种云硬盘故障预测方法、装置、系统及可读存储介质 | |
CN110413482B (zh) | 检测方法和装置 | |
CN116149895A (zh) | 大数据集群性能预测方法、装置和计算机设备 | |
CN113835947A (zh) | 一种基于异常识别结果确定异常原因的方法和系统 | |
CN115238583B (zh) | 一种支持增量日志的业务流程剩余时间预测方法与系统 | |
CN116701222A (zh) | 基于特征加权迁移学习的跨项目软件缺陷预测方法及系统 | |
CN113673811B (zh) | 一种基于session的在线学习绩效评估方法及装置 | |
CN114416467A (zh) | 一种异常检测方法及装置 | |
CN113593694A (zh) | 一种重症患者预后的预测方法 | |
CN111611117A (zh) | 硬盘故障的预测方法、装置、设备及计算机可读存储介质 | |
CN111221704A (zh) | 一种确定办公管理应用系统运行状态的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210223 |