CN112306981A - 一种面向高性能计算系统故障日志的故障预测方法 - Google Patents

一种面向高性能计算系统故障日志的故障预测方法 Download PDF

Info

Publication number
CN112306981A
CN112306981A CN202011211555.2A CN202011211555A CN112306981A CN 112306981 A CN112306981 A CN 112306981A CN 202011211555 A CN202011211555 A CN 202011211555A CN 112306981 A CN112306981 A CN 112306981A
Authority
CN
China
Prior art keywords
fault
value
time
output
lstm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011211555.2A
Other languages
English (en)
Inventor
刘锋
侯晓东
朱肖雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Keze Yuntian Intelligent Technology Co ltd
Original Assignee
Guangzhou Keze Yuntian Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Keze Yuntian Intelligent Technology Co ltd filed Critical Guangzhou Keze Yuntian Intelligent Technology Co ltd
Priority to CN202011211555.2A priority Critical patent/CN112306981A/zh
Publication of CN112306981A publication Critical patent/CN112306981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种面向高性能计算系统故障日志的故障预测方法,包括以下步骤:获取高性能计算系统的故障日志数据,并根据所述故障日志数据分析获取故障时间序列,其中,所述故障时间序列适用于LSTM模型;采用K‑means算法对上述故障日志数据中包含的故障类型进行聚类处理;基于上述故障时间序列搭建FD‑LSTM模型;基于上述FD‑LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测,并根据系统体系结构对预测结果进行统计分析。本发明通过对故障分类预测,可有效提高高性能计算系统的故障分析精确率,加强及其运维高效性,有效提高了系统的可靠性。

Description

一种面向高性能计算系统故障日志的故障预测方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种面向高性能计算系统故障日志的故障预测方法。
背景技术
为了追求更高的模拟精度以及获得更多的计算细节,科学家们越来越依赖高性能计算机来处理空前庞大的数据集和复杂的模拟仿真。高性能计算机从最初的单芯片系统一直发展到拥有成千上万处理器的集群系统(Cluster),实现了飞速发展;而直到目前为止,提高计算机性能的主要手段仍然是增加处理器数,这导致高性能计算机的规模迅速扩大。与此同时,对系统包括软件和硬件应对突发性错误事件的能力,即容错能力也有了更高的要求。特别是处理节点的增加,导致整个系统的平均无故障时间(Mean Time BetweenFailure,简称MTBF)大幅下降,例如,Intel公司为美国能源部研制的ASCI Red系统共有9000多个计算节点,虽然每个计算节点的MTBF都大于10年,但全系统的MTBF仅10小时(尚不含偶发性故障)。而像IBM的BlueGene/L这样处理器数目超过10万的大规模系统,MTBF会降到只有几十分钟甚至更短。
目前大规模的科学与工程计算问题,如空间飞行研究和核物理研究,往往需要连续运行几天甚至是几个月,而很多高性能计算机的MTBF已经变得比运行在该系统上的科学计算应用的执行时间更短。为了解决这一问题,迫切需要提高系统的容错能力。
为了提高系统的容错能力,已经在异常检测和故障预测方面投入了大量的研究工作。对于大规模的计算系统而言,存在一些故障特征,以及针对异常检测的机器学习解决方案,过去的解决方法是通过几个小时的准备时间识别出了逐渐失效的部件的故障,但是大多数故障发生在更短的时间内;因此,现有技术缺乏两个关键方面;首先,即使提前时间很短(以分钟为单位),也需要预测故障以及准确的故障位置,换句话说,针对即将发生的故障的组件(例如某个节点)并及时这样做,以便采取主动的恢复行动(例如作业迁移或隔离不健康的节点)也同样重要;其次,极大规模高性能计算的大规模组件数量给支持向量机(SVM)或主成分分析(PCA)等数据挖掘技术带来了挑战,因为预测必须实时执行,而且必须在实际故障发生之前得到结果。因此,需要新颖的可扩展和优化的数据挖掘解决方案。此外,计算系统生成的非结构化日志的自然语言也引起了两个问题;首先,由于数据缺乏任何结构和标签,传统的机器学习技术在处理数据时受到限制,例如,形成特征向量或分类器是非平凡的;其次,从高维数据中快速推断复杂的模式是不可行的,除非对数据进行处理并提供适当的输入表示。近年来,深度学习在这些方面取得了巨大的进步,尤其是在自然语言理解方面。这激发了在节点故障预测上下文中探索可扩展的无监督深度学习技术的需求。研究人员一致认为,故障预测是有用的,即使不完美,精度有限。假设50%的节点故障被正确预测,而剩下的节点故障被错误预测(假阳性),那么我们就可以避免一半的昂贵的检查点重新启动,这往往需要通过更廉价的进程迁移进行全局协调。
HPC系统在硬件、软件和应用程序层面上遭受各种各样的故障。虽然有些故障是可以检测的并且很明显可以检测到,比如内核恐慌,但是大多数异常都不容易跟踪。哪个组件将会失败,以及它将如何影响系统,目前还不清楚。系统中观察到的异常症状可能反映,也可能不反映确切的根本原因,例如,内核恐慌可能由Lustre文件系统错误或硬件机器检查异常引起。然而,如果通过结合快速数据挖掘技术提前检测到异常模式,那么节点故障、作业流产等不必要的后果可以得到缓解。
综上所述,在通往E级系统的道路上,可靠性(仅次于并行管理和能源效率)被视为三大挑战之一,而能够准确预测故障就可以提高系统的可靠性;它能够在系统仍在工作时进行响应,从而简化任何缓解机制;它消除了频繁存储应用程序状态的需要;结合热交换硬件,它可以简化系统管理和增加应用。因此,如何面向高性能计算系统设计准确有效的基于日志的故障预测方法是亟需解决问题。
因此,现有技术存在缺陷,需要改进。
发明内容
本发明的目的是克服现有技术的不足,提供一种面向高性能计算系统故障日志的故障预测方法。
本发明的技术方案如下:
一种面向高性能计算系统故障日志的故障预测方法,包括以下步骤;
步骤S1,获取高性能计算系统的故障日志数据,并根据所述故障日志数据分析获取故障时间序列,其中,所述故障时间序列适用于LSTM模型;
步骤S2,采用K-means算法对上述故障日志数据中包含的故障类型进行聚类处理;
步骤S3,基于上述故障时间序列搭建FD-LSTM模型;
步骤S4,基于上述FD-LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测,并根据系统体系结构对预测结果进行统计分析。
进一步地,所述步骤S1的具体实现方式包括以下步骤:
步骤S101,获取高性能计算系统的故障日志数据,并根据该故障日志数据分析获取时间数据集;
步骤S102,将故障发生的第一时间作为LSTM模型的时间序列索引,并根据该时间序列索引对上述时间数据集中的数据按先后顺序进行排序;
步骤S103,按时间先后顺序计算上述时间数据集中相邻故障发生的间隔时间数,并保存为time-interval列;
步骤S104,对上述间隔时间数进行分析处理,并去掉时间间隔过大的异常数据;
步骤S105,统计分析所述计算系统的节点的故障分布状况;其中,如果故障主要集中分布在某个节点,说明故障分布极不均匀,需单独考虑该节点的故障预测,其余节点再进行故障预测;而如果故障分布较为均匀,则可以使用LSTM模型进行故障预测。
进一步地,所述步骤S2的具体实现方式包括以下步骤:
步骤S201,根据手肘法确定k值,其中,误差平方差和SSE的公式为:
Figure BDA0002758995390000041
Ci为第i个簇,p为Ci中的样本点,mi为Ci的质心,SSE是所有样本的聚类误差,代表了聚类效果的好坏;
步骤S202,从上述时间数据集中随机选择k个数据点作为质心;
步骤S203,计算上述时间数据集中每一数据点与每一质心的距离,并将每一数据点划分到与其距离最小的质心所属的集合中,从而获得k个集合;
步骤S204,重新计算上述k个集合中每一集合的质心;
步骤S205,判断所述步骤S204重新计算的质心与原先的质心之间的距离是否小于设定值,其中,如果重新计算出来的质心与原先的质心之间的距离大于或等于某一设定的阈值,则需要跳转回步骤S203,反之,说明重新计算出来的质心的位置变化不大,趋于稳定,或者说收敛,可以认为聚类处理已经达到期望的结果,K-means算法终止。
进一步地,所述步骤S3中的FD-LSTM模型包括输入层、隐藏层、输出层、以及分别与所述输入层、隐藏层和输出层通过网络连接的网络训练模块;所述输入层用于对原始故障时间序列进行初步处理,包括划分时间数据集,通过所述输入层分割上述时间数据集得到新的故障时间序列X1、X2~Xt以满足网络输入要求;所述输出层用于提供预测结果P1、P2~Pt,且所述输出层内嵌有网络预测模块,所述网络预测模块采用迭代的方式对预测结果进行反标准化预测以获取与测试集所对应的故障发生时间或节点位置;所述网络训练模块采用Adam优化算法计算模型输出与理论输出的损失,并采用BPTT算法进行训练。
进一步地,所述步骤S3的具体实现方式包括以下步骤:
步骤S301,计算遗忘门的输出值ft,其中,输出值ft采用公式ft=σ(Wf·[ht-1,Xt]+bf)完成计算,σ为Sigmoid激励函数,bf为偏置向量,Xt为当前时刻的输入数据,ht-1为FD-LSTM模型前一时刻的输出值,即输出一个在0~1之间数值来决定FD-LSTM模型的单元状态Ct-1中丢弃相应的信息,从而实现控制历史信息的输入,以及过滤无用信息;
步骤S302,计算输入门的值it和向量值δt,其中,输入门的值it采用公式it=σ(Wi·[ht-1,Xt]+bi)完成计算,向量δt采用公式δt=tanh(Wc·[ht-1,Xt]+bc)完成计算,Xt为当前时刻的输入数据,ht-1为FD-LSTM模型前一时刻的输出值,bi为当前时刻的偏置向量,tanh为双曲正切激活函数,即根据输入门的值it和向量值δt来更新相应的内容;
步骤S303,采用公式Ct=ft·Ct-1+it·δt将FD-LSTM模型的单元状态Ct-1更新为Ct,即让旧的单元状态和遗忘门的输出值ft按元素相乘,丢弃掉不需要的信息,然后加上输入门的值it和向量值δt按元素相乘后组成的新的候选值向量,也就是决定添加相应的新信息到单元状态中,实质是丢弃旧信息再增加新信息;
步骤S304,计算输出门的值ot和输出门的最终输出值ht,其中,输出门的值ot采用公式ot=σ(Wo·[ht-1,Xt]+bo)完成计算,输出门的最终输出值ht采用公式ht=ot*tanh(Ct),σ为Sigmoid激励函数,ht为FD-LSTM模型t时刻的输出值,即为输出门的最终输出值,使用Sigmoid激励函数确定要输出的信息内容,将FD-LSTM模型t时刻的单元状态Ct代入tanh激活函数,由于tanh激活函数的输出值在-1~1之间,所以tanh(Ct)输出一个范围在-1~1之间的向量,再将该向量tanh(Ct)和输出门的值ot按元素相乘以获得最终要输出的信息,从而得到输出门的最终输出值ht
步骤S305,采用最小化代价函数对FD-LSTM模型的参数进行反向调整,使得输出值尽可能逼近目标值,其中,假设RUL(t)为t时刻的RUL真实值,RULest(t)为t时刻的RUL预测值,则FD-LSTM模型的损失函数计算公式为:J(t)=∑||RUL(t)-RULest(t)||2
进一步地,所述步骤S4的具体实现方式包括以下步骤:
步骤S401,根据所述步骤S3中的FD-LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测,并计算得到预测结果的平均间隔时间tm
步骤S402,计算故障提前时间的RMSE,即为均方根误差;
步骤S403,计算精确率ppv,其中,采用公式
Figure BDA0002758995390000061
完成精确率ppv的计算,TP为正确预测故障的正数,FP为被错误预测为故障的故障数;
步骤S404,计算召回率tpr,其中,采用公式
Figure BDA0002758995390000062
完成召回率tpr的计算,TP为正确预测故障的正数,FN为错误预测故障的故障数。
进一步地,所述故障类型包括软件故障、硬件故障、人为故障以及不明原因故障。
进一步地,所述步骤S101中的时间数据集为具有26个字段的数据集,且该时间数据集有16个字段为NULL,只取不常为空值的10个字段进行分析处理。
采用上述方案,本发明具有以下有益效果:
本发明通过对故障分类预测,可有效提高高性能计算系统的故障分析精确率,加强及其运维高效性,有效提高了系统的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明面向高性能计算系统故障日志的故障预测方法的流程图;
图2本发明步骤S201中手肘法的k与SSE的关系图;
图3为本发明步骤S3搭建的FD-LSTM模型的整体框架图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明。
参照图1至图3所示,本发明提供一种面向高性能计算系统故障日志的故障预测方法,包括以下步骤:
步骤S1,获取高性能计算系统的故障日志数据,并根据所述故障日志数据分析获取故障时间序列,其中,所述故障时间序列适用于LSTM模型;
步骤S2,采用K-means算法对上述故障日志数据中包含的故障类型进行聚类处理,其中,所述故障类型包括软件故障、硬件故障、人为故障以及不明原因故障;
步骤S3,基于上述故障时间序列搭建FD-LSTM模型;
步骤S4,基于上述FD-LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测,并根据系统体系结构对预测结果进行统计分析。
在本实施例中,所述步骤S1的具体实现方式包括以下步骤:
步骤S101,获取高性能计算系统的故障日志数据,并根据该故障日志数据分析获取时间数据集,其中,该时间数据集为具有26个字段的数据集,且该时间数据集有16个字段为NULL(即常为空值),因此,在后续的数据处理过程中,只取不常为空值的10个字段进行分析处理;
步骤S102,将故障发生的第一时间作为LSTM模型的时间序列索引,并根据该时间序列索引对上述时间数据集中的数据按先后顺序进行排序;
步骤S103,按时间先后顺序计算上述时间数据集中相邻故障发生的间隔时间数(单位为秒),并保存为time-interval列;
步骤S104,对上述间隔时间数进行分析处理,并去掉时间间隔过大的异常数据;
步骤S105,统计分析所述计算系统的节点的故障分布状况;其中,如果故障主要集中分布在某个节点,说明故障分布极不均匀,需单独考虑该节点的故障预测,其余节点再进行故障预测;而如果故障分布较为均匀,则可以使用LSTM模型进行故障预测。
在本实施例中,所述步骤S2的具体实现方式包括以下步骤:
步骤S201,根据手肘法确定k值,其中,误差平方差和SSE的公式为:
Figure BDA0002758995390000081
Ci为第i个簇,p为Ci中的样本点,mi为Ci的质心(即Ci中所有样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏;
步骤S202,从上述时间数据集中随机选择k个数据点作为质心;
步骤S203,计算上述时间数据集中每一数据点与每一质心的距离,并将每一数据点划分到与其距离最小的质心所属的集合中,从而获得k个集合;其中,该距离可以是欧式距离;
步骤S204,重新计算上述k个集合中每一集合的质心;
步骤S205,判断所述步骤S204重新计算的质心与原先的质心之间的距离是否小于设定值,其中,如果重新计算出来的质心与原先的质心之间的距离大于或等于某一设定的阈值,则需要跳转回步骤S203,反之,说明重新计算出来的质心的位置变化不大,趋于稳定,或者说收敛,可以认为聚类处理已经达到期望的结果,K-means算法终止。
在本实施例中,所述步骤S3中的FD-LSTM模型包括输入层1、隐藏层2、输出层3、以及分别与所述输入层1、隐藏层2和输出层3通过网络连接的网络训练模块4;所述输入层1用于对原始故障时间序列(即步骤S1获取的故障时间序列)进行初步处理,包括划分时间数据集,通过所述输入层分割上述时间数据集得到新的故障时间序列X1、X2~Xt以满足网络输入要求;所述输出层3用于提供预测结果P1、P2~Pt,且所述输出层内嵌有网络预测模块31,所述网络预测模块31采用迭代的方式对预测结果进行反标准化预测以获取与测试集所对应的故障发生时间或节点位置;所述网络训练模块4采用Adam优化算法计算模型输出与理论输出的损失,并采用BPTT算法进行训练,包括遗忘训练、输入训练和输出训练;
进一步的,所述步骤S3的具体实现方式包括以下步骤:
步骤S301,计算遗忘门的输出值ft,其中,输出值ft采用公式ft=σ(Wf·[ht-1,Xt]+bf)完成计算,σ为Sigmoid激励函数,bf为偏置向量,Xt为当前时刻的输入数据,ht-1为FD-LSTM模型前一时刻的输出值,即输出一个在0~1之间数值来决定FD-LSTM模型的单元状态Ct-1中丢弃相应的信息,从而实现控制历史信息的输入,以及过滤无用信息;
步骤S302,计算输入门的值it和向量值δt,其中,输入门的值it采用公式it=σ(Wi·[ht-1,Xt]+bi)完成计算,向量δt采用公式δt=tanh(Wc·[ht-1,Xt]+bc)完成计算,Xt为当前时刻的输入数据,ht-1为FD-LSTM模型前一时刻的输出值,bi为当前时刻的偏置向量,tanh为双曲正切激活函数,即根据输入门的值it和向量值δt来更新相应的内容;
步骤S303,采用公式Ct=ft·Ct-1+it·δt将FD-LSTM模型的单元状态Ct-1更新为Ct,即让旧的单元状态和遗忘门的输出值ft按元素相乘,丢弃掉不需要的信息,然后加上输入门的值it和向量值δt按元素相乘后组成的新的候选值向量,也就是决定添加相应的新信息到单元状态中,实质是丢弃旧信息再增加新信息;
步骤S304,计算输出门的值ot和输出门的最终输出值ht,其中,输出门的值ot采用公式ot=σ(Wo·[ht-1,Xt]+bo)完成计算,输出门的最终输出值ht采用公式ht=ot*tanh(Ct),σ为Sigmoid激励函数,ht为FD-LSTM模型t时刻的输出值(即输出门的最终输出值),使用Sigmoid激励函数确定要输出的信息内容,将FD-LSTM模型t时刻的单元状态Ct代入tanh激活函数,由于tanh激活函数的输出值在-1~1之间,所以tanh(Ct)输出一个范围在-1~1之间的向量,再将该向量tanh(Ct)和输出门的值ot按元素相乘以获得最终要输出的信息,从而得到输出门的最终输出值ht
步骤S305,采用最小化代价函数对FD-LSTM模型的参数进行反向调整,使得输出值尽可能逼近目标值,其中,假设RUL(t)为t时刻的RUL真实值,RULest(t)为t时刻的RUL预测值,则FD-LSTM模型的损失函数计算公式为:J(t)=∑||RUL(t)-RULest(t)||2
在本实施例中,所述步骤S4的具体实现方式包括以下步骤:
步骤S401,根据所述步骤S3中的FD-LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测,并计算得到预测结果的平均间隔时间tm
步骤S402,计算故障提前时间的RMSE(即均方根误差);
步骤S403,计算精确率ppv,其中,采用公式
Figure BDA0002758995390000101
完成精确率ppv的计算,TP为正确预测故障的正数,FP为被错误预测为故障的故障数;
步骤S404,计算召回率tpr,其中,采用公式
Figure BDA0002758995390000111
完成召回率tpr的计算,TP为正确预测故障的正数,FN为错误预测故障的故障数。
与现有技术相比,本发明具有以下有益效果:
本发明通过对故障分类预测,可有效提高高性能计算系统的故障分析精确率,加强及其运维高效性,有效提高了系统的可靠性。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向高性能计算系统故障日志的故障预测方法,其特征在于,包括以下步骤:
步骤S1,获取高性能计算系统的故障日志数据,并根据所述故障日志数据分析获取故障时间序列,其中,所述故障时间序列适用于LSTM模型;
步骤S2,采用K-means算法对上述故障日志数据中包含的故障类型进行聚类处理;
步骤S3,基于上述故障时间序列搭建FD-LSTM模型;
步骤S4,基于上述FD-LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测,并根据系统体系结构对预测结果进行统计分析。
2.根据权利要求1所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述步骤S1的具体实现方式包括以下步骤:
步骤S101,获取高性能计算系统的故障日志数据,并根据该故障日志数据分析获取时间数据集;
步骤S102,将故障发生的第一时间作为LSTM模型的时间序列索引,并根据该时间序列索引对上述时间数据集中的数据按先后顺序进行排序;
步骤S103,按时间先后顺序计算上述时间数据集中相邻故障发生的间隔时间数,并保存为time-interval列;
步骤S104,对上述间隔时间数进行分析处理,并去掉时间间隔过大的异常数据;
步骤S105,统计分析所述计算系统的节点的故障分布状况;其中,如果故障主要集中分布在某个节点,说明故障分布极不均匀,需单独考虑该节点的故障预测,其余节点再进行故障预测;而如果故障分布较为均匀,则可以使用LSTM模型进行故障预测。
3.根据权利要求2所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述步骤S2的具体实现方式包括以下步骤:
步骤S201,根据手肘法确定k值,其中,误差平方差和SSE的公式为:
Figure FDA0002758995380000021
Ci为第i个簇,p为Ci中的样本点,mi为Ci的质心,SSE是所有样本的聚类误差,代表了聚类效果的好坏;
步骤S202,从上述时间数据集中随机选择k个数据点作为质心;
步骤S203,计算上述时间数据集中每一数据点与每一质心的距离,并将每一数据点划分到与其距离最小的质心所属的集合中,从而获得k个集合;
步骤S204,重新计算上述k个集合中每一集合的质心;
步骤S205,判断所述步骤S204重新计算的质心与原先的质心之间的距离是否小于设定值,其中,如果重新计算出来的质心与原先的质心之间的距离大于或等于某一设定的阈值,则需要跳转回步骤S203,反之,说明重新计算出来的质心的位置变化不大,趋于稳定,或者说收敛,可以认为聚类处理已经达到期望的结果,K-means算法终止。
4.根据权利要求2所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述步骤S3中的FD-LSTM模型包括输入层、隐藏层、输出层、以及分别与所述输入层、隐藏层和输出层通过网络连接的网络训练模块;所述输入层用于对原始故障时间序列进行初步处理,包括划分时间数据集,通过所述输入层分割上述时间数据集得到新的故障时间序列X1、X2~Xt以满足网络输入要求;所述输出层用于提供预测结果P1、P2~Pt,且所述输出层内嵌有网络预测模块,所述网络预测模块采用迭代的方式对预测结果进行反标准化预测以获取与测试集所对应的故障发生时间或节点位置;所述网络训练模块采用Adam优化算法计算模型输出与理论输出的损失,并采用BPTT算法进行训练。
5.根据权利要求4所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述步骤S3的具体实现方式包括以下步骤:
步骤S301,计算遗忘门的输出值ft,其中,输出值ft采用公式ft=σ(Wf·[ht-1,Xt]+bf)完成计算,σ为Sigmoid激励函数,bf为偏置向量,Xt为当前时刻的输入数据,ht-1为FD-LSTM模型前一时刻的输出值,即输出一个在0~1之间数值来决定FD-LSTM模型的单元状态Ct-1中丢弃相应的信息,从而实现控制历史信息的输入,以及过滤无用信息;
步骤S302,计算输入门的值it和向量值δt,其中,输入门的值it采用公式it=σ(Wi·[ht-1,Xt]+bi)完成计算,向量δt采用公式δt=tanh(Wc·[ht-1,Xt]+bc)完成计算,Xt为当前时刻的输入数据,ht-1为FD-LSTM模型前一时刻的输出值,bi为当前时刻的偏置向量,tanh为双曲正切激活函数,即根据输入门的值it和向量值δt来更新相应的内容;
步骤S303,采用公式Ct=ft·Ct-1+it·δt将FD-LSTM模型的单元状态Ct-1更新为Ct,即让旧的单元状态和遗忘门的输出值ft按元素相乘,丢弃掉不需要的信息,然后加上输入门的值it和向量值δt按元素相乘后组成的新的候选值向量,也就是决定添加相应的新信息到单元状态中,实质是丢弃旧信息再增加新信息;
步骤S304,计算输出门的值ot和输出门的最终输出值ht,其中,输出门的值ot采用公式ot=σ(Wo·[ht-1,Xt]+bo)完成计算,输出门的最终输出值ht采用公式ht=ot*tanh(Ct),σ为Sigmoid激励函数,ht为FD-LSTM模型t时刻的输出值,即为输出门的最终输出值,使用Sigmoid激励函数确定要输出的信息内容,将FD-LSTM模型t时刻的单元状态Ct代入tanh激活函数,由于tanh激活函数的输出值在-1~1之间,所以tanh(Ct)输出一个范围在-1~1之间的向量,再将该向量tanh(Ct)和输出门的值ot按元素相乘以获得最终要输出的信息,从而得到输出门的最终输出值ht
步骤S305,采用最小化代价函数对FD-LSTM模型的参数进行反向调整,使得输出值尽可能逼近目标值,其中,假设RUL(t)为t时刻的RUL真实值,RULest(t)为t时刻的RUL预测值,则FD-LSTM模型的损失函数计算公式为:J(t)=∑||RUL(t)-RULest(t)||2
6.根据权利要求5所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述步骤S4的具体实现方式包括以下步骤:
步骤S401,根据所述步骤S3中的FD-LSTM模型分别对每一故障类型的聚类结果进行故障发生节点位置和故障提前时间的预测,并计算得到预测结果的平均间隔时间tm
步骤S402,计算故障提前时间的RMSE,即为均方根误差;
步骤S403,计算精确率ppv,其中,采用公式
Figure FDA0002758995380000041
完成精确率ppv的计算,TP为正确预测故障的正数,FP为被错误预测为故障的故障数;
步骤S404,计算召回率tpr,其中,采用公式
Figure FDA0002758995380000042
完成召回率tpr的计算,TP为正确预测故障的正数,FN为错误预测故障的故障数。
7.根据权利要求1所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述故障类型包括软件故障、硬件故障、人为故障以及不明原因故障。
8.根据权利要求2所述的面向高性能计算系统故障日志的故障预测方法,其特征在于,所述步骤S101中的时间数据集为具有26个字段的数据集,且该时间数据集有16个字段为NULL,只取不常为空值的10个字段进行分析处理。
CN202011211555.2A 2020-11-03 2020-11-03 一种面向高性能计算系统故障日志的故障预测方法 Pending CN112306981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011211555.2A CN112306981A (zh) 2020-11-03 2020-11-03 一种面向高性能计算系统故障日志的故障预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011211555.2A CN112306981A (zh) 2020-11-03 2020-11-03 一种面向高性能计算系统故障日志的故障预测方法

Publications (1)

Publication Number Publication Date
CN112306981A true CN112306981A (zh) 2021-02-02

Family

ID=74332862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011211555.2A Pending CN112306981A (zh) 2020-11-03 2020-11-03 一种面向高性能计算系统故障日志的故障预测方法

Country Status (1)

Country Link
CN (1) CN112306981A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076239A (zh) * 2021-04-12 2021-07-06 西安交通大学 一种高性能计算机用混合神经网络故障预测方法及系统
CN113111585A (zh) * 2021-04-15 2021-07-13 德州欧瑞电子通信设备制造有限公司 一种智能机柜故障预测方法、系统及智能机柜
CN113485878A (zh) * 2021-07-06 2021-10-08 国网江苏省电力有限公司信息通信分公司 一种多数据中心故障检测方法
CN113704075A (zh) * 2021-09-23 2021-11-26 中国人民解放军国防科技大学 一种基于故障日志的高性能计算系统故障预测方法
CN114049351A (zh) * 2022-01-11 2022-02-15 南通市金月亮新材料科技发展有限公司 一种基于人工智能的门窗焊接控制方法及系统
CN114449628A (zh) * 2021-12-30 2022-05-06 荣耀终端有限公司 日志数据处理方法、电子设备及其介质
CN114826876A (zh) * 2022-01-11 2022-07-29 杭州金硕信息技术有限公司 一种基于日志分析和在线仿真的云服务故障检测系统及方法
WO2022257421A1 (zh) * 2021-06-10 2022-12-15 天翼云科技有限公司 集群异常检测方法、装置和相关设备
CN117171603A (zh) * 2023-11-01 2023-12-05 海底鹰深海科技股份有限公司 一种基于机器学习的多普勒测速数据处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633750A (zh) * 2019-09-17 2019-12-31 中国石化销售有限公司华南分公司 一种基于lstm模型的电动阀门故障检测方法
CN111652444A (zh) * 2020-06-05 2020-09-11 南京机电职业技术学院 一种基于K-means和LSTM的日游客量预测方法
CN111858526A (zh) * 2020-06-19 2020-10-30 国网福建省电力有限公司信息通信分公司 基于信息系统日志的故障时间空间预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633750A (zh) * 2019-09-17 2019-12-31 中国石化销售有限公司华南分公司 一种基于lstm模型的电动阀门故障检测方法
CN111652444A (zh) * 2020-06-05 2020-09-11 南京机电职业技术学院 一种基于K-means和LSTM的日游客量预测方法
CN111858526A (zh) * 2020-06-19 2020-10-30 国网福建省电力有限公司信息通信分公司 基于信息系统日志的故障时间空间预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAWEI GENG 等: "Effective LSTM with K-means Clustering Algorithm for Electricity Load Prediction", RICAI19, pages 476 *
王鑫 等: "基于 LSTM 循环神经网络的故障时间序列预测", 北京航空航天大学学报, vol. 44, no. 4, pages 772 - 784 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076239A (zh) * 2021-04-12 2021-07-06 西安交通大学 一种高性能计算机用混合神经网络故障预测方法及系统
CN113111585A (zh) * 2021-04-15 2021-07-13 德州欧瑞电子通信设备制造有限公司 一种智能机柜故障预测方法、系统及智能机柜
WO2022257421A1 (zh) * 2021-06-10 2022-12-15 天翼云科技有限公司 集群异常检测方法、装置和相关设备
CN113485878A (zh) * 2021-07-06 2021-10-08 国网江苏省电力有限公司信息通信分公司 一种多数据中心故障检测方法
CN113704075A (zh) * 2021-09-23 2021-11-26 中国人民解放军国防科技大学 一种基于故障日志的高性能计算系统故障预测方法
CN114449628A (zh) * 2021-12-30 2022-05-06 荣耀终端有限公司 日志数据处理方法、电子设备及其介质
CN114049351A (zh) * 2022-01-11 2022-02-15 南通市金月亮新材料科技发展有限公司 一种基于人工智能的门窗焊接控制方法及系统
CN114826876A (zh) * 2022-01-11 2022-07-29 杭州金硕信息技术有限公司 一种基于日志分析和在线仿真的云服务故障检测系统及方法
CN114826876B (zh) * 2022-01-11 2024-05-03 杭州金硕信息技术有限公司 一种基于日志分析和在线仿真的云服务故障检测系统及方法
CN117171603A (zh) * 2023-11-01 2023-12-05 海底鹰深海科技股份有限公司 一种基于机器学习的多普勒测速数据处理方法
CN117171603B (zh) * 2023-11-01 2024-02-06 海底鹰深海科技股份有限公司 一种基于机器学习的多普勒测速数据处理方法

Similar Documents

Publication Publication Date Title
CN112306981A (zh) 一种面向高性能计算系统故障日志的故障预测方法
Guan et al. Ensemble of Bayesian predictors and decision trees for proactive failure management in cloud computing systems.
Hernández-Cano et al. Reghd: Robust and efficient regression in hyper-dimensional learning system
KR20180054992A (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
CN113704075A (zh) 一种基于故障日志的高性能计算系统故障预测方法
Jang et al. Siamese network-based health representation learning and robust reference-based remaining useful life prediction
CN112800231A (zh) 电力数据校验方法、装置、计算机设备和存储介质
CN112631890A (zh) 基于lstm-aco模型预测云服务器资源性能的方法
Zhang et al. A generalized uncorrelated ridge regression with nonnegative labels for unsupervised feature selection
Zhang et al. Quantifying the impact of memory errors in deep learning
Alharthi et al. Sentiment analysis based error detection for large-scale systems
Chen et al. A unified framework for layout pattern analysis with deep causal estimation
Obersteiner et al. A highly scalable, algorithm-based fault-tolerant solver for gyrokinetic plasma simulations
Liu et al. Special session: Fault-tolerant deep learning: A hierarchical perspective
CN114510871A (zh) 基于思维进化和lstm的云服务器性能衰退预测方法
Guan et al. A failure detection and prediction mechanism for enhancing dependability of data centers
Fazel A new method to predict the software fault using improved genetic algorithm
Shilpika et al. Toward an in-depth analysis of multifidelity high performance computing systems
Liu et al. Fault-tolerant deep learning: A hierarchical perspective
Dhingra et al. FARe: Fault-Aware GNN Training on ReRAM-based PIM Accelerators
Zhao et al. An adaptive online learning model for flight data cluster analysis
Agullo et al. Hard faults and soft-errors: possible numerical remedies in linear algebra solvers
Ramzanpour et al. Association rule mining based algorithm for recovery of silent data corruption in convolutional neural network data storage
Imamura et al. N-version genetic programming via fault masking
Mogal et al. Fast and accurate statistical criticality computation under process variations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202

RJ01 Rejection of invention patent application after publication