CN115509789A - 一种基于组件调用分析的计算系统故障预测方法和系统 - Google Patents

一种基于组件调用分析的计算系统故障预测方法和系统 Download PDF

Info

Publication number
CN115509789A
CN115509789A CN202211214987.8A CN202211214987A CN115509789A CN 115509789 A CN115509789 A CN 115509789A CN 202211214987 A CN202211214987 A CN 202211214987A CN 115509789 A CN115509789 A CN 115509789A
Authority
CN
China
Prior art keywords
data
time
component
sequence data
calling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211214987.8A
Other languages
English (en)
Other versions
CN115509789B (zh
Inventor
张学睿
尚明生
吴鑫
何盼
郑志浩
姚远
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Chongqing Institute of Green and Intelligent Technology of CAS
Original Assignee
Chongqing University
Chongqing Institute of Green and Intelligent Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, Chongqing Institute of Green and Intelligent Technology of CAS filed Critical Chongqing University
Priority to CN202211214987.8A priority Critical patent/CN115509789B/zh
Publication of CN115509789A publication Critical patent/CN115509789A/zh
Application granted granted Critical
Publication of CN115509789B publication Critical patent/CN115509789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Abstract

本发明涉及故障预测技术领域,具体为一种基于组件调用分析的计算系统故障预测方法和系统,包括:获取待预测组件的关联组件集合,采集其中每个组件的监测数据,进行处理,形成加权时序数据矩阵;根据关联组件集合,获取调用关系序列数据向量;获取采集监测数据的时刻开始预设时间间隔内的故障状态数据;根据加权时序数据矩阵、调用关系序列数据向量和故障状态数据,获取输入输出数据组;提取加权时序数据矩阵和调用关系序列数据向量的特征,进行融合,建立与实时故障状态数据的对应关系,形成分类预测模型;对分类预测模型进行训练优化,输出满足预设预测精度的分类预测模型。本方案能融合组件动态调用关系,以提高故障预测精度。

Description

一种基于组件调用分析的计算系统故障预测方法和系统
技术领域
本发明涉及故障预测技术领域,具体为一种基于组件调用分析的计算系统故障预测方法和系统。
背景技术
计算系统复杂性和动态性的增加,使得系统故障的产生难以避免。由于计算系统应用的普遍性,未知的系统故障可能造成难以预计的损失,所以在系统运行中需要实时采集系统状态,对故障提前进行判定和预警。现代计算系统通常由若干不同组件如硬件处理器、软件模块、数据库、网络系统等组成,不同组件具有不同运行规律,各组件之间关系复杂且相互影响。将计算系统视为统一整体,难以对其未来运行规律进行预测,需要从系统内部结构出发开展组件的故障预测。
现有故障预测技术主要采用日志、探针、监测工具等方法采集组件状态或质量时间序列数据,利用统计学方法如ARIMA时序分析模型,机器学习方法如支持向量机、XGBoost,深度学习方法如LSTM、CNN、GRU等神经网络模型结合时序数据预测特定指标如响应时间、系统负载、内存占用率等的发展趋势,从而判定组件乃至系统是否即将发生故障。由于组件间的相互连接或调用,故障可能通过网络、函数调用等进行累加或传播,虽然基于时间序列数据的分析方法能够预测每个组件的故障变化趋势,但难以预测故障在系统中的传导过程。因此研究人员在现有技术的基础上结合系统体系架构和调用信息,采用贝叶斯估计等方法建立故障传播模型,在时序分析模型基础上对组件故障传播规律进行推导,完善受关联组件影响的故障情形,提高组件故障预测精度。
但是上述方法只适用于结构简单、调用规律相对平稳的计算系统故障预测,其对于结构复杂,实时性、动态性较强的计算系统如分布式软件系统、微服务系统进行组件故障预测,还存在如下问题:
(1)计算系统中组件间的调用关系是动态变化过程,现有故障传播模型主要基于静态数据如系统体系结构,或统计数据如组件平均调用次数等建立,能够反映系统长时间的平均运行规律,但难以反映系统结构的动态变化情况,因此采用现有模型进行故障推导将影响实时的组件故障预测精度;
(2)针对时序数据(即时序状态数据)的深度学习模型在时序相关指标的预测上能取得一定效果,但系统架构信息不具备时序特征,难以与预测模型进行融合,建立一体化的预测方法,从而极大的影响了故障预测精度。
因此,现在急需一种基于组件调用分析的计算系统故障预测方法,在时序数据分析基础上,能融合组件动态调用关系,以提高故障预测精度。
发明内容
本发明的目的之一在于提供一种基于组件调用分析的计算系统故障预测方法,在时序数据分析基础上,能融合组件动态调用关系,以提高故障预测精度。
本发明提供的基础方案一:一种基于组件调用分析的计算系统故障预测方法,包括如下内容:
数据采集和分析步骤:根据历史监测数据和计算系统的架构,获取待预测组件的关联组件集合;采集关联组件集合中每个组件的监测数据,进行处理,形成加权时序数据矩阵,并根据关联组件集合,获取调用关系序列数据向量;获取采集监测数据的时刻开始预设时间间隔内的故障状态数据;根据加权时序数据矩阵、调用关系序列数据向量和故障状态数据,获取输入输出数据组;特征提取和融合步骤:提取加权时序数据矩阵和调用关系序列数据向量的特征,进行融合,并建立与实时故障状态数据的对应关系,形成分类预测模型;
模型训练和预测步骤:采集若干输入输出数据组,对分类预测模型进行训练优化,输出满足预设预测精度的分类预测模型。
基础方案一的有益效果:本方案包括三个步骤:数据采集和分析步骤、特征提取和融合步骤、模型训练和预测步骤;其中数据采集和分析步骤,先在计算系统体系架构基础上根据历史监测数据,获取待预测组件的关联组件集合,然后针对关联组件集合中的每个组件都进行监测数据的采集,并进行处理,以形成加权时序数据矩阵,并根据关联组件集合,获取调用关系序列数据向量,其中加权时序数据矩阵能反映组件的关联组件状态变化规律,调用关系序列数据向量能反映组件实时调用顺序;再然后获取采集监测数据的时刻开始预设时间间隔内的故障状态数据,根据加权时序数据矩阵、调用关系序列数据向量和故障状态数据,获取输入输出数据组,从而输入输出数据组表征的故障在时序状态数据的基础上融合了调用关系;
特征提取和融合步骤中提取加权时序数据矩阵和调用关系序列数据向量的特征,进行融合,并建立与实时故障状态数据的对应关系,形成分类预测模型,其中预测模型是基于多属性时序分析提取关联组件状态变化规律和基于序列分析提取组件实时调用关系的影响,建立融合的组件故障预测模型,通过将动态的组件调用关系分析融入故障预测中,可实时评估关联组件故障对后续组件的影响,从而极大提高组件故障预测精度;
模型训练和预测步骤中采集若干输入输出数据组,对分类预测模型进行训练优化,输出预设预测精度的分类预测模型,使得分类预测模型的预测精度能满足用户需求。
综上所述,本方案在时序数据分析基础上,能融合组件动态调用关系,以提高故障预测精度。
进一步,所述监测数据,包括:实时状态监测数据;
所述数据采集和分析步骤,包括:
关联组件分析子步骤:针对待预测组件,基于系统架构依赖图生成关联组件集合;
组件状态数据采集子步骤:对关联组件集合中的每个组件,任意时刻t,采集实时状态监测数据,进行处理,获取实时监测的时序状态数据,并进行切片组合,形成时间序列数据,对时间时序数据进行加权处理,形成加权时序数据矩阵;
动态调用关系数据采集子步骤:对关联组件集合中的每个组件,任意时刻t,获取组件被实时调用的序列数据,并进行切片,形成调用关系序列数据向量;
故障状态数据采集子步骤:对任意时刻t,根据特定时间间隔t0,采集t+t0时刻待预测组件是否有故障发生的实时故障状态数据,将加权时序数据矩阵,调用关系序列数据向量与实时故障状态数据进行时间对齐,形成完整的输入输出数据组。
有益效果:由于调用关系的不同,关联组件集合中的每个组件状态与待预测组件故障状态间具有不同的影响关系,对每个组件的时间时序数据进行加权处理,通过赋予不同的权重区分不同组件状态与待预测组件故障状态间的影响关系。
进一步,所述关联组件分析子步骤,包括:
S10101、通过系统的历史监测数据划分系统的组件,建立组件间的历史调用关系,生成系统架构依赖图;
S10102、针对任意待预测的组件A,通过系统架构依赖图查找被组件A调用过的所有组件集合B;
S10103、通过系统架构依赖图查找调用过组件A的所有组件集合C;
S10104、建立关联组件集合D={A,B,C},其包括:组件A,集合B和集合C中的所有组件。
有益效果:根据系统架构依赖图进行调用关系的确认,从而便于后续确定故障的传递或者影响对象。
进一步,所述监测数据,还包括:连续监测数据;
所述组件状态数据采集子步骤,包括:
S10201、对关联组件集合D中的每个组件j∈D,在每个定长间隔为i0的时间t,采集实时状态监测数据ri j,对应采集次数为i;
S10202、对每个组件的连续监测数据,基于任意时刻t和采集次数i,截取固定长度n个实时状态监测数据组成切片的时间序列数据
Figure BDA0003875804160000041
S10203、对所有组件的时间序列数据进行时间同步,对每个组件j的时间序列数据
Figure BDA0003875804160000042
赋予不同的权重值αj,形成加权时序数据矩阵
Figure BDA0003875804160000043
有益效果:进行切片处理,可以灵活选择用于后续故障预测的实时状态监测数据长度,并统一组装为时间序列数据,便于按需增加切片容量,更好的满足后续预测模型数据输入需求。
进一步,所述动态调用关系数据采集子步骤,包括:
S10301、对关联组件集合D中的每个组件j∈D,若组件运行或被其他组件调用,则将调用时间t,调用次数k与组件号jk按顺序记录至集合E,形成序列数据;
S10302、将集合E中的组件号按调用次数k进行排列,基于任意时刻t和调用次数k截取固定长度m个组件序列数据组成切片的调用关系序列数据向量yk=(jk-m+1,jk-m+2,…,jk),jk∈D。
有益效果:进行切片处理,可以使调用关系序列数据向量更好的满足用户的需求,便于按需增加切片容量。
进一步,所述故障状态数据采集子步骤,包括:
对任意时刻t,根据特定时间间隔t0,采集t+t0时刻待预测组件A是否有故障发生的实时故障状态数据
Figure BDA0003875804160000051
将加权时序数据矩阵xt,调用关系序列数据向量yt与实时故障状态数据
Figure BDA0003875804160000052
进行时间对齐,形成完整的输入输出数据组
Figure BDA0003875804160000053
有益效果:将加权时序数据矩阵xt,调用关系序列数据向量yt与实时故障状态数据
Figure BDA0003875804160000054
进行时间对齐,形成完整的输入输出数据组
Figure BDA0003875804160000055
将时序数据和调用关系进行融合,从而实时评估关联组件故障对后续组件的影响。
进一步,所述特征提取和融合步骤,包括:
组件状态数据特征提取子步骤:
S20101、根据加权时序数据矩阵xt的结构,采用时间序列相关的深度学习神经网络,结合权重训练相关的模型,建立多属性的时序状态数据特征学习模型f1
S20102、通过时序状态数据特征学习模型f1,计算任意时刻t加权时序数据矩阵xt的特征向量H(xt)=f1(xt);
动态调用关系数据特征提取子步骤:
S20201、根据调用关系序列数据向量yt的结构,采用序列数据相关的深度学习神经网络,建立调用关系序列数据特征学习模型f2
S20202、通过调用关系序列数据特征学习模型f2,计算任意时刻t调用关系序列数据向量yt的特征向量H(yt)=f2(xt);
特征融合与分类子步骤:
S20301、对任意时刻t的加权时序数据矩阵xt的特征向量H(xt)=f1(xt)和调用关系序列数据向量yt的特征向量H(yt)=f2(xt)进行融合,生成融合特征向量Ht=f3(H(xt),H(yt));
S20302、采用深度学习方法和分类方法,建立任意时刻t融合特征向量Ht到t+t0时刻组件A故障状态值的分类预测模型
Figure BDA0003875804160000056
有益效果:通过建立多属性的时序状态数据特征学习模型和调用关系序列数据特征学习模型,以提取任意时刻t加权时序数据矩阵xt的特征向量和任意时刻t调用关系序列数据向量yt的特征向量,在将两个特征向量进行融合,生成融合特征向量,并采用深度学习方法和分类方法,建立任意时刻t融合特征向量Ht到t+t0时刻组件A故障状态值的分类预测模型,从而实现将动态的组件调用关系分析融入故障预测中,可实时评估关联组件故障对后续组件的影响,提高组件故障预测精度。
进一步,所述模型训练和预测步骤,包括:
S301、获取若干个t时刻的加权时序数据矩阵xt,调用关系序列数据向量yt与实时故障的状态数据
Figure BDA0003875804160000061
形成输入输出数据组
Figure BDA0003875804160000062
基于深度学习训练方法训练时序状态数据特征学习模型f1,调用关系序列数据特征学习模型f2,分类预测模型
Figure BDA0003875804160000063
中的网络参数和权重值αj
S302、根据分类预测模型
Figure BDA0003875804160000064
预测的故障状态预测值
Figure BDA0003875804160000065
与实时故障状态数据
Figure BDA0003875804160000066
基于分类预测模型的精度评估指标计算分类预测模型的精度pt
S303、在任意时刻T,获取加权时序数据矩阵xT和调用关系序列数据向量yT,采用训练完成的分类预测模型
Figure BDA0003875804160000067
预测T+t0时刻组件A是否有故障发生的预测值
Figure BDA0003875804160000068
S304、采集T+t0时刻待预测组件是否有故障发生的实时故障状态数据
Figure BDA0003875804160000069
对比预测值
Figure BDA00038758041600000610
与实时故障状态数据
Figure BDA00038758041600000611
基于分类预测模型的精度评估指标计算分类预测模型的精度pT
S305、判断pT和pt的差值是否属于预设差值范围,若是,则等待后续新时刻T+i0采集系统的状态监测数据和T+i0+t0采集系统的故障数据,并执行S303;若否,则执行S301。
有益效果:通过历史数据对各模型进行训练,同时确定分类预测模型中的网络参数和状态监测数据权重值,以保障模型和参数的最优化,从而保障分类预测模型的预测精度,且对需要进行故障预测的时刻,采用分类预测模型进行故障预测后,还会对预测的精度与训练时的精度进行对比评估,保障每次故障预测的精度都满足用户需求,若不能满足用户需求,则需要对模型和参数进行重新训练优化。
进一步,所述精度评估指标,包括:精度、召回率、假阳性率、准确率和F1分数中的一种或多种。
有益效果:精度评估指标,包括:精度、召回率、假阳性率、准确率和F1分数中的一种或多种,以保障精度评估的全面性,同时保障精度评估指标的适用范围。
本发明的目的之二在于提供一种基于组件调用分析的计算系统故障预测系统,在时序数据分析基础上,能融合组件动态调用关系,以提高故障预测精度。
本发明提供的基础方案二:一种基于组件调用分析的计算系统故障预测系统,采用上述基于组件调用分析的计算系统故障预测方法。
基础方案二的有益效果:本方案在时序数据分析基础上,能融合组件动态调用关系,以提高故障预测精度。
附图说明
图1为本发明一种基于组件调用分析的计算系统故障预测方法实施例的流程示意图;
图2为本发明一种基于组件调用分析的计算系统故障预测方法实施例中数据采集和分析步骤的流程示意图;
图3为本发明一种基于组件调用分析的计算系统故障预测方法实施例中特征提取和融合步骤的流程示意图;
图4为本发明一种基于组件调用分析的计算系统故障预测方法实施例中特RSS系统48个组件的关系示意图;
图5为本发明一种基于组件调用分析的计算系统故障预测方法实施例中预测模型的整体结构示意图。
具体实施方式
下面通过具体实施方式进一步详细说明:
实施例基本如附图1所示:一种基于组件调用分析的计算系统故障预测方法,包括如下内容:
数据采集和分析步骤:根据历史监测数据和计算系统的架构,获取待预测组件的关联组件集合;采集关联组件集合中每个组件的监测数据,进行处理,形成加权时序数据矩阵,并根据关联组件集合,获取调用关系序列数据向量;获取采集监测数据的时刻开始预设时间间隔内的故障状态数据;根据加权时序数据矩阵、调用关系序列数据向量和故障状态数据,获取输入输出数据组;
具体地,如图2所示,数据采集和分析步骤,包括:
关联组件分析子步骤:针对待预测组件,基于系统架构依赖图生成关联组件集合;
具体为:S10101、通过系统的历史监测数据划分系统的组件,建立组件间的历史调用关系,生成系统架构依赖图;其中历史监测数据,包括但不限于:系统类、功能模块等静态结构数据,系统函数调用历史统计数据,系统输入输出实时流转数据等;组件划分的依据为系统不同的功能模块以及函数之间的调用关系;
S10102、针对任意待预测的组件A,通过系统架构依赖图查找被组件A调用过的所有组件集合B;
S10103、通过系统架构依赖图查找调用过组件A的所有组件集合C;
S10104、建立关联组件集合D={A,B,C},其包括:组件A,集合B和集合C中的所有组件。
组件状态数据采集子步骤:对关联组件集合中的每个组件,任意时刻t,采集实时状态监测数据,进行处理,获取实时监测的时序状态数据,并进行切片组合,形成时间序列数据,对时间时序数据进行加权处理,形成加权时序数据矩阵;
具体为:S10201、对关联组件集合D中的每个组件j∈D,在每个定长间隔为i0的时间t,即任意时刻t开始采集,采集时间长度为定长间隔i0,采集实时状态监测数据ri j,对应采集次数为i;即每隔定长间隔的时间i0,进行一次ri j的采集,采集次数为i;其中实时状态监测数据ri j,包括:组件执行功能、完成函数调用或完成输入输出的实时状态数据,如:响应时间、内存占用率和系统负载等;
S10202、对每个组件经过若干个时间间隔i0连续采集的状态监测数据ri j,
Figure BDA0003875804160000081
即连续监测数据,基于任意时刻t和采集次数i,截取固定长度n个实时状态监测数据组成切片的时间序列数据
Figure BDA0003875804160000082
S10203、对所有组件的时间序列数据进行时间同步,对每个组件j的时间序列数据
Figure BDA0003875804160000084
赋予不同的权重值αj,形成加权时序数据矩阵
Figure BDA0003875804160000083
动态调用关系数据采集子步骤:对关联组件集合中的每个组件,任意时刻t,获取组件被实时调用的序列数据,并进行切片,形成调用关系序列数据向量;
具体为:S10301、对关联组件集合D中的每个组件j∈D,若组件运行或被其他组件调用,则将调用时间t,调用次数k与组件号jk按顺序记录至集合E,形成序列数据;
S10302、将集合E中的组件号按调用次数k进行排列,基于任意时刻t和调用次数k截取固定长度m个组件序列数据组成切片的调用关系序列数据向量yt=(jk-m+1,jk-m+2,…,jk),jk∈D;
故障状态数据采集子步骤:对任意时刻t,根据特定时间间隔t0,采集t+t0时刻待预测组件是否有故障发生的实时故障状态数据,将加权时序数据矩阵,调用关系序列数据向量与实时故障状态数据进行时间对齐,形成完整的输入输出数据组。
具体为:对任意时刻t,根据特定时间间隔t0,采集t+t0时刻待预测组件A是否有故障发生的实时故障状态数据
Figure BDA0003875804160000091
将加权时序数据矩阵xt,调用关系序列数据向量yt与实时故障状态数据
Figure BDA0003875804160000092
进行时间对齐,形成完整的输入输出数据组
Figure BDA0003875804160000093
特征提取和融合步骤:提取加权时序数据矩阵和调用关系序列数据向量的特征,进行融合,并建立与实时故障状态数据的对应关系,形成分类预测模型;
具体地,如图3所示,特征提取和融合步骤,包括:
组件状态数据特征提取子步骤:S20101、根据加权时序数据矩阵xt的结构,采用时间序列相关的深度学习神经网络,结合权重训练相关的模型,建立多属性的时序状态数据特征学习模型f1;其中深度学习神经网络包括但不限于:LSTM和GRU,权重训练相关的模型包括但不限于Attention机制;
S20102、通过时序状态数据特征学习模型f1,计算任意时刻t加权时序数据矩阵xt的特征向量H(xt)=f1(xt);
动态调用关系数据特征提取子步骤:S20201、根据调用关系序列数据向量yt的结构,采用序列数据相关的深度学习神经网络,建立调用关系序列数据特征学习模型f2;其中深度学习神经网络包括但不限于:Transformer;
S20202、通过调用关系序列数据特征学习模型f2,计算任意时刻t调用关系序列数据向量yt的特征向量H(yt)=f2(xt);
特征融合与分类子步骤:S20301、对任意时刻t的加权时序数据矩阵xt的特征向量H(xt)=f1(xt)和调用关系序列数据向量yt的特征向量H(yt)=f2(xt)进行融合,生成融合特征向量Ht=f3(H(xt),H(yt));其中特征向量融合的方法包括但不限于:向量连接;
S20302、采用深度学习方法和分类方法,建立任意时刻t融合特征向量Ht到t+t0时刻组件A故障状态值的分类预测模型
Figure BDA0003875804160000094
其中深度学习方法包括但不限于:全连接网络;分类方法包括但不限于:softmax分类器和sigmoid分类器。
模型训练和预测步骤:采集若干输入输出数据组,对分类预测模型进行训练优化,输出预设预测精度的分类预测模型;
具体地,模型训练和预测步骤,包括:S301、获取若干个t时刻的加权时序数据矩阵xt,调用关系序列数据向量yt与实时故障的状态数据
Figure BDA0003875804160000101
形成输入输出数据组
Figure BDA0003875804160000102
基于深度学习训练方法训练时序状态数据特征学习模型f1,调用关系序列数据特征学习模型f2,分类预测模型
Figure BDA0003875804160000103
中的网络参数和权重值αj
S302、根据分类预测模型
Figure BDA0003875804160000104
预测的故障状态预测值
Figure BDA0003875804160000105
与实时故障状态数据
Figure BDA0003875804160000106
基于分类预测模型的精度评估指标计算分类预测模型的精度pt;其中精度评估指标,包括:精度(Precision)、召回率(Recall)、假阳性率(False-positive)、准确率(Accuracy)和F1分数(F1score)中的一种或多种;
S303、在任意时刻T,获取加权时序数据矩阵xT和调用关系序列数据向量yT,采用训练完成的分类预测模型
Figure BDA0003875804160000107
预测T+t0时刻组件A是否有故障发生的预测值
Figure BDA0003875804160000108
S304、采集T+t0时刻待预测组件是否有故障发生的实时故障状态数据
Figure BDA0003875804160000109
对比预测值
Figure BDA00038758041600001010
与实时故障状态数据
Figure BDA00038758041600001011
基于分类预测模型的精度评估指标计算分类预测模型的精度pT
S305、判断pT和pt的差值是否属于预设差值范围,若是,则等待与数据采集相同固定时间间隔i0后,在T+i0时刻,重新采集系统的状态监测数据并通过状态监测数据获取加权时序数据矩阵
Figure BDA00038758041600001012
和调用关系序列数据向量
Figure BDA00038758041600001013
在T+i0+t0时刻,采集并获取实时故障状态数据
Figure BDA00038758041600001014
并执行S303;若否,则执行S301;其中预设差值范围根据用户需求进行设置,其目的是为了控制pT未显著低于pt;其中状态监测数据为组件状态数据采集子步骤中所述的实时状态监测数据与连续监测数据和动态调用关系数据采集子步骤集合E。
具体实施过程如下:本实施例以一个多组件组成的开源微服务系统为例,说明融合调用关系分析的组件故障预测过程。该系统使用Netflix开发,用于RSS提要阅读,基于微服务架构搭建,部署在Emulab上,具有分布式系统特性。系统对外提供了Web服务,使用户可以查看、添加或删除RSS提要。系统设置包含两个表示层实例、三个业务层实例和一个数据库。此外,系统有一个前端负载平衡器、一个服务发现节点和两个RSSfeed服务器。用户可并发访问系统,并发用户数量在150左右,系统工作负载为每秒大约生成90个请求。模拟的工作负载驱动程序在独立节点上设置,并使用Apache JMeter生成用户请求。
在本实施例中,该系统的组件故障主要包含三种故障类型:内存泄漏、系统过载和响应超时,故障通过主动注入的形式产生。在故障注入前后持续采集2小时数据并重复10次,其中时序状态数据采集时间间隔为10秒到2分钟之间的任意值,组件被实时调用的序列数据为实时采集。内存泄漏通过在一个业务层中引入内存泄漏造成,每次请求从表示层发送到特定的实例时,1024字节的内存将被分配并且永远不会被释放。系统过载的场景采用增加用户数量,直到出现服务故障,系统无法处理所有传入的请求。响应超时通过在数据采集开始后90分钟和95分钟时故意关闭两个业务层实例,从而引入故障。
本实施例中精度评估指标采用:精度(Precision)、召回率(Recall)、假阳性率(False-positive rate)、准确率(Accuracy)和F1分数(F1Score);
具体地,
Figure BDA0003875804160000111
Figure BDA0003875804160000112
Figure BDA0003875804160000113
Figure BDA0003875804160000114
Figure BDA0003875804160000115
其中,FN表示被判定为不发生故障,但事实上发生故障的情形;
FP表示被判定为发生故障,但事实上没发生故障的情形;
TN表示被判定为不发生故障,事实上也是不发生故障的情形;
TP表示被判定为发生故障,事实上也是发生故障的情形。
根据本实施例提供的一种基于组件调用分析的计算系统故障预测方法,进行故障预测,具体过程如下:
数据采集和分析步骤:
关联组件分析子步骤:采用SLAstic工具,通过系统的历史监测数据划分系统的组件,建立组件间的历史调用关系,生成系统架构依赖图,其中组件划分的依据为系统不同的功能模块以及函数之间的调用关系。采用的示例RSS系统涵盖48个组件,如图4所示,图中的顶点圆圈代表组件编号,图中的边表示组件间的调用关系和依赖程度。组件1-48分别表示示例RSS系统中完成不同功能的系统模块如RSS信息查看、删除模块、服务发现节点模块等。以对组件17进行故障预测为例,组件17所依赖的组件包括:10、37、48、59,即B={10,37,48,59};依赖于组件17的组件包括:7,即C={7}。根据以上述组件建立关联组件集合D={17,10,37,48,59,7}。
组件状态数据采集子步骤:对关联组件集合D中的每个组件,在定长间隔的时间下,采集上述6个组件的实时状态监测数据;其中定长间隔的时间,包括但不限于10秒或2分钟,本实施例中为10秒;实时状态监测数据,包括但不限于:响应时间、内存占用率和系统负载;
将组件17的连续监测数据,基于任意时刻t,采集次数i和固定时间间隔i0,截取固定长度n个实时状态监测数据组成切片的时间序列数据
Figure BDA0003875804160000121
Figure BDA0003875804160000122
等。其他组件的连续监测数据切分同理。将多个组件同一时刻对应的切片时间序列数据向量组合为矩阵形式,并对每个组件的数据赋予不同的权重,形成加权时序数据矩阵如
Figure BDA0003875804160000123
矩阵大小为6×n;
动态调用关系数据采集子步骤:对关联组件集合D中的每个组件j∈D,通过历史监控数据,采集其中任意组件运行或被其他组件调用的历史顺序数据,即调用时间t,调用次数k与组件号jk按顺序记录至集合E,如E={37,17,7,59,17,10,17,7,48,17,7,17…};
基于任意时刻t和调用次数k截取固定长度m个组件序列数据组成切片的调用关系序列数据向量,即将连续的序列数据切分为长度为m的序列数据向量,如,yt=(37,17,7,59,17,10,17,7,...),
Figure BDA0003875804160000124
等,向量大小为m×1;
故障状态数据采集子步骤:对任意时刻t,根据特定时间间隔t0,采集t+t0时刻待预测的组件A是否有故障发生的实时故障状态数据
Figure BDA0003875804160000125
其中
Figure BDA0003875804160000126
将加权时序数据矩阵xt,调用关系序列数据向量yt与实时故障状态数据
Figure BDA0003875804160000127
进行时间对齐,形成完整的输入输出数据组
Figure BDA0003875804160000128
即根据特定时间间隔t0,获取每组切片数据xt与yt对应未来t+t0时刻组件17是否有故障发生的状态值记录
Figure BDA0003875804160000129
特征提取与融合步骤:
组件状态数据特征提取子步骤:根据加权时序数据矩阵xt的结构,采用基于注意力机制的多属性LSTM(MLSTM)模型,建立多属性的时序状态数据特征学习模型f1;在任意时刻t加权时序数据矩阵xt所代表的特征向量为H(xt)=f1(xt);假设基于注意力机制的MLSTM模型最后层具有n0个神经元,特征向量大小为n0×1;
动态调用关系数据特征提取子步骤:根据调用关系序列数据向量yt的结构,采用Transformer模型,建立调用关系序列数据特征学习模型f2;在任意时刻t调用关系序列数据向量yt所代表的特征向量为H(yt)=f2(xt)。假设Transformer模型最后层具有m0个神经元,向量大小为m0×1;
特征融合与分类子步骤:对相同时刻t的加权时序数据矩阵xt的特征向量H(xt)=f1(xt)和调用关系序列数据向量yt的特征向量H(yt)=f2(xt)进行融合,生成融合特征向量Ht=f3(H(xt),H(yt)),融合特征向量大小为(n0+m0)×1;
采用全连接网络层和sigmoid分类器,建立任意时刻t融合特征向量Ht到t+t0时刻组件17故障状态值的分类预测模型
Figure BDA0003875804160000131
本实施例中的预测模型的整体结构如图5所示。
模型训练与预测步骤:首先对分类预测模型的训练次数epoch、学习率、MLSTM滑动窗口n和Transformer滑动窗口m等网络参数进行选择;其中epoch代表训练样本往神经网络(分类预测模型)中导入的次数,学习率(模型学习速率)决定目标函数是否能收敛到局部最小值以及何时收敛到最小值,滑动窗口大小代表预测未来数据时采用多少长度的历史数据;
然后收集多个时刻对齐的加权时序数据矩阵xt和调用关系序列数据向量yt,及其对应t+t0组件17的实时故障的状态数据
Figure BDA0003875804160000132
打乱样本顺序使数据分布均匀;
再然后根据预设置的网络参数,将xt和yt依次输入f1,f2与g(Ht),通过对比输出数据
Figure BDA0003875804160000133
与观测数据
Figure BDA0003875804160000134
的差值,训练f1,f2与g(Ht)中的网络参数及注意力机制权重的αj。模型训练数据为整体采集数据的85%,测试数据为整体数据的15%,此处模型预测得到的预测值即预测故障状态值
Figure BDA0003875804160000135
再然后分析上述五个网络参数对故障预测精度的影响,通过网络搜索方法确定各模型的最优网络参数;
最后各模型训练完成后持续收集新的xt和yt输入至各模型中,进而预测后续时间组件17的故障状态,通过后续时刻采集的故障状态值持续评估预测模型精度,如精度出现不满足S305中所述的判断,则重新训练各模型,即执行S301。
具体地,根据上述模型训练与预测步骤,选择2个小时内连续采集的约35000条数据进行实验,其中包含故障状态数据约为6000条,数据采集的固定时间间隔i0为10秒,故障预测的特定时间间隔t0为10秒。
采用基于注意力权重机制的MLSTM模型学习时序状态数据特征,采用Transformer模型学习调用关系序列数据特征,实时状态监测数据固定长度即MLSTM滑动窗口n为16,调用关系序列数据固定长度即Transformer滑动窗口m为20。
对组件17、18和19的数据中注入的响应超时故障进行预测,比较并统计预测故障及实际故障情形及数量,评估本发明方法精度指标为Precision=0.982、Recall=0.982、FPR=0.026、Accuracy=0.991和F1Score=0.994。
为证明融合组件调用分析方法对故障预测精度提高的影响,基于相同的实验设置及数据,采用2种基于时间序列数据分析的故障预测方法进行对比实验,其中对比方法1为不融合组件调用分析的时间序列预测方法,采用相同的基于注意力权重机制的MLSTM网络为例开展实验;对比方法2为结合系统体系架构和统计调用信息的预测方法,采用贝叶斯估计方法建立故障传播模型,在时序分析模型LSTM网络基础上对组件故障传播规律进行推导,预测受关联组件影响的故障。本方法与2种对比方法的预测精度指标结果如表1所示:
表1软件响应超时故障预测精度指标比较结果
Figure BDA0003875804160000141
从表1的数据中可以看出,本发明方法在各精度评价指标上都优于现有LSTM与贝叶斯估计结合的方法(对比方法2),说明注意力权重机制和Transformer模块的引入都达到了提升软件系统故障预测精度的目的;除召回率外,本发明方法在其他精度指标上都优于不融合组件调用分析,基于注意力机制的MLSTM预测方法(对比方法1),说明了提取并融合调用关系数据序列特征能够提高故障预测精度。
综上所述,本方案相对于现有技术,在时序数据分析基础上,能融合组件动态调用关系,以提高故障预测精度。
本实施例中还提供一种基于组件调用分析的计算系统故障预测系统,采用上述基于组件调用分析的计算系统故障预测方法。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (10)

1.一种基于组件调用分析的计算系统故障预测方法,其特征在于,包括如下内容:
数据采集和分析步骤:根据历史监测数据和计算系统的架构,获取待预测组件的关联组件集合;采集关联组件集合中每个组件的监测数据,进行处理,形成加权时序数据矩阵,并根据关联组件集合,获取调用关系序列数据向量;获取采集监测数据的时刻开始预设时间间隔内的故障状态数据;根据加权时序数据矩阵、调用关系序列数据向量和故障状态数据,获取输入输出数据组;
特征提取和融合步骤:提取加权时序数据矩阵和调用关系序列数据向量的特征,进行融合,并建立与实时故障状态数据的对应关系,形成分类预测模型;
模型训练和预测步骤:采集若干输入输出数据组,对分类预测模型进行训练优化,输出满足预设预测精度的分类预测模型。
2.根据权利要求1所述的基于组件调用分析的计算系统故障预测方法,其特征在于,
所述监测数据,包括:实时状态监测数据;
所述数据采集和分析步骤,包括:
关联组件分析子步骤:针对待预测组件,基于系统架构依赖图生成关联组件集合;
组件状态数据采集子步骤:对关联组件集合中的每个组件,任意时刻t,采集实时状态监测数据,进行处理,获取实时监测的时序状态数据,并进行切片组合,形成时间序列数据,对时间时序数据进行加权处理,形成加权时序数据矩阵;
动态调用关系数据采集子步骤:对关联组件集合中的每个组件,任意时刻t,获取组件被实时调用的序列数据,并进行切片,形成调用关系序列数据向量;
故障状态数据采集子步骤:对任意时刻t,根据特定时间间隔t0,采集t+t0时刻待预测组件是否有故障发生的实时故障状态数据,将加权时序数据矩阵,调用关系序列数据向量与实时故障状态数据进行时间对齐,形成完整的输入输出数据组。
3.根据权利要求2所述的基于组件调用分析的计算系统故障预测方法,其特征在于,
所述关联组件分析子步骤,包括:
S10101、通过系统的历史监测数据划分系统的组件,建立组件间的历史调用关系,生成系统架构依赖图;
S10102、针对任意待预测的组件A,通过系统架构依赖图查找被组件A调用过的所有组件集合B;
S10103、通过系统架构依赖图查找调用过组件A的所有组件集合C;
S10104、建立关联组件集合D={A,B,C},其包括:组件A,集合B和集合C中的所有组件。
4.根据权利要求3所述的基于组件调用分析的计算系统故障预测方法,其特征在于,所述监测数据,还包括:连续监测数据;
所述组件状态数据采集子步骤,包括:
S10201、对关联组件集合D中的每个组件j∈D,在每个定长间隔为i0的时间t,采集实时状态监测数据ri j,对应采集次数为i;
S10202、对每个组件的连续监测数据,基于任意时刻t和采集次数i,截取固定长度n个实时状态监测数据组成切片的时间序列数据
Figure FDA0003875804150000021
S10203、对所有组件的时间序列数据进行时间同步,对每个组件j的时间序列数据Rtj赋予不同的权重值αj,形成加权时序数据矩阵
Figure FDA0003875804150000022
5.根据权利要求4所述的基于组件调用分析的计算系统故障预测方法,其特征在于,所述动态调用关系数据采集子步骤,包括:
S10301、对关联组件集合D中的每个组件j∈D,若组件运行或被其他组件调用,则将调用时间t,调用次数k与组件号jk按顺序记录至集合E,形成序列数据;
S10302、将集合E中的组件号按调用次数k进行排列,基于任意时刻t和调用次数k截取固定长度m个组件序列数据组成切片的调用关系序列数据向量yt=(jk-m+1,jk-m+2,…,jk),jk∈D。
6.根据权利要求5所述的基于组件调用分析的计算系统故障预测方法,其特征在于,所述故障状态数据采集子步骤,包括:
对任意时刻t,根据特定时间间隔t0,采集t+t0时刻待预测组件A是否有故障发生的实时故障状态数据
Figure FDA0003875804150000023
将加权时序数据矩阵xt,调用关系序列数据向量yt与实时故障状态数据
Figure FDA0003875804150000024
进行时间对齐,形成完整的输入输出数据组
Figure FDA0003875804150000025
7.根据权利要求6所述的基于组件调用分析的计算系统故障预测方法,其特征在于,所述特征提取和融合步骤,包括:
组件状态数据特征提取子步骤:
S20101、根据加权时序数据矩阵xt的结构,采用时间序列相关的深度学习神经网络,结合权重训练相关的模型,建立多属性的时序状态数据特征学习模型f1
S20102、通过时序状态数据特征学习模型f1,计算任意时刻t加权时序数据矩阵xt的特征向量H(xt)=f1(xt);
动态调用关系数据特征提取子步骤:
S20201、根据调用关系序列数据向量yt的结构,采用序列数据相关的深度学习神经网络,建立调用关系序列数据特征学习模型f2
S20202、通过调用关系序列数据特征学习模型f2,计算任意时刻t调用关系序列数据向量yt的特征向量H(yt)=f2(xt);
特征融合与分类子步骤:
S20301、对任意时刻t的加权时序数据矩阵xt的特征向量H(xt)=f1(xt)和调用关系序列数据向量yt的特征向量H(yt)=f2(xt)进行融合,生成融合特征向量Ht=f3(H(xt),H(yt));
S20302、采用深度学习方法和分类方法,建立任意时刻t融合特征向量Ht到t+t0时刻组件A故障状态值的分类预测模型
Figure FDA0003875804150000031
8.根据权利要求7所述的基于组件调用分析的计算系统故障预测方法,其特征在于,所述模型训练和预测步骤,包括:
S301、获取若干个t时刻的加权时序数据矩阵xt,调用关系序列数据向量yt与实时故障的状态数据
Figure FDA0003875804150000032
形成输入输出数据组
Figure FDA0003875804150000033
基于深度学习训练方法训练时序状态数据特征学习模型f1,调用关系序列数据特征学习模型f2,分类预测模型
Figure FDA0003875804150000034
中的网络参数和权重值αj
S302、根据分类预测模型
Figure FDA0003875804150000035
预测的故障状态预测值
Figure FDA0003875804150000036
与实时故障状态数据
Figure FDA0003875804150000037
基于分类预测模型的精度评估指标计算分类预测模型的精度pt
S303、在任意时刻T,获取加权时序数据矩阵xT和调用关系序列数据向量yT,采用训练完成的分类预测模型
Figure FDA0003875804150000038
预测T+t0时刻组件A是否有故障发生的预测值
Figure FDA0003875804150000039
S304、采集T+t0时刻待预测组件是否有故障发生的实时故障状态数据
Figure FDA0003875804150000041
对比预测值
Figure FDA0003875804150000042
与实时故障状态数据
Figure FDA0003875804150000043
基于分类预测模型的精度评估指标计算分类预测模型的精度pT
S305、判断pT和pt的差值是否属于预设差值范围,若是,则等待后续新时刻T+i0采集系统的状态监测数据和T+i0+t0采集系统的故障数据,并执行S303;若否,则执行S301。
9.根据权利要求8所述的基于组件调用分析的计算系统故障预测方法,其特征在于,所述精度评估指标,包括:精度、召回率、假阳性率、准确率和F1分数中的一种或多种。
10.一种基于组件调用分析的计算系统故障预测系统,其特征在于,采用如权利要求1-9任一项的基于组件调用分析的计算系统故障预测方法。
CN202211214987.8A 2022-09-30 2022-09-30 一种基于组件调用分析的计算系统故障预测方法和系统 Active CN115509789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211214987.8A CN115509789B (zh) 2022-09-30 2022-09-30 一种基于组件调用分析的计算系统故障预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211214987.8A CN115509789B (zh) 2022-09-30 2022-09-30 一种基于组件调用分析的计算系统故障预测方法和系统

Publications (2)

Publication Number Publication Date
CN115509789A true CN115509789A (zh) 2022-12-23
CN115509789B CN115509789B (zh) 2023-08-11

Family

ID=84507178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211214987.8A Active CN115509789B (zh) 2022-09-30 2022-09-30 一种基于组件调用分析的计算系统故障预测方法和系统

Country Status (1)

Country Link
CN (1) CN115509789B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210704A (en) * 1990-10-02 1993-05-11 Technology International Incorporated System for prognosis and diagnostics of failure and wearout monitoring and for prediction of life expectancy of helicopter gearboxes and other rotating equipment
WO2015030606A2 (en) * 2013-08-26 2015-03-05 Auckland University Of Technology Improved method and system for predicting outcomes based on spatio / spectro-temporal data
CN110457786A (zh) * 2019-05-06 2019-11-15 浙江工业大学 基于深度置信网络的卸船机关联规则故障预测模型方法
CN112184468A (zh) * 2020-09-29 2021-01-05 中国电子科技集团公司电子科学研究院 基于时空关系的动态社会关系网络链路的预测方法及装置
CN112783940A (zh) * 2020-12-31 2021-05-11 广州大学 基于图神经网络的多源时序数据故障诊断方法和介质
CN112906969A (zh) * 2021-03-01 2021-06-04 三一重工股份有限公司 发动机故障预测方法、装置、电子设备及存储介质
CN113011102A (zh) * 2021-04-01 2021-06-22 河北工业大学 基于多元时间序列的Attention-LSTM的青霉素发酵过程故障预测方法
CN113094200A (zh) * 2021-06-07 2021-07-09 腾讯科技(深圳)有限公司 一种应用程序的故障预测方法和装置
CN113341919A (zh) * 2021-05-31 2021-09-03 中国科学院重庆绿色智能技术研究院 一种基于时序数据长度优化的计算系统故障预测方法
CN115033615A (zh) * 2022-05-18 2022-09-09 山东中烟工业有限责任公司 一种基于时序数据的烟草设备故障预测系统及预测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291571B (zh) * 2017-06-27 2021-04-16 歌尔光学科技有限公司 Vr一体机的调试方法及装置
CN111737033B (zh) * 2020-05-26 2024-03-08 复旦大学 一种基于运行时图谱分析的微服务故障定位方法
US20220134336A1 (en) * 2020-10-30 2022-05-05 EGI Tech (Qing Dao) Co., Limited Sequencing systems including a base unit and removable cartridge
CN113094235B (zh) * 2021-04-14 2023-03-10 天津大学 一种尾延迟异常云审计系统及方法
CN113778797A (zh) * 2021-08-30 2021-12-10 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 机械硬盘监测方法、装置、计算机设备和存储介质
CN113900844A (zh) * 2021-09-26 2022-01-07 北京必示科技有限公司 一种基于服务码级别的故障根因定位方法、系统及存储介质
CN114218403B (zh) * 2021-12-20 2024-04-09 平安付科技服务有限公司 基于知识图谱的故障根因定位方法、装置、设备及介质
CN114710592B (zh) * 2022-04-11 2023-05-02 江西省信合客户服务有限公司 一种基于人工智能的呼叫系统及方法
CN114780335A (zh) * 2022-04-11 2022-07-22 深圳市金蝶天燕云计算股份有限公司 监测数据的关联方法、装置、计算机设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210704A (en) * 1990-10-02 1993-05-11 Technology International Incorporated System for prognosis and diagnostics of failure and wearout monitoring and for prediction of life expectancy of helicopter gearboxes and other rotating equipment
WO2015030606A2 (en) * 2013-08-26 2015-03-05 Auckland University Of Technology Improved method and system for predicting outcomes based on spatio / spectro-temporal data
CN110457786A (zh) * 2019-05-06 2019-11-15 浙江工业大学 基于深度置信网络的卸船机关联规则故障预测模型方法
CN112184468A (zh) * 2020-09-29 2021-01-05 中国电子科技集团公司电子科学研究院 基于时空关系的动态社会关系网络链路的预测方法及装置
CN112783940A (zh) * 2020-12-31 2021-05-11 广州大学 基于图神经网络的多源时序数据故障诊断方法和介质
CN112906969A (zh) * 2021-03-01 2021-06-04 三一重工股份有限公司 发动机故障预测方法、装置、电子设备及存储介质
CN113011102A (zh) * 2021-04-01 2021-06-22 河北工业大学 基于多元时间序列的Attention-LSTM的青霉素发酵过程故障预测方法
CN113341919A (zh) * 2021-05-31 2021-09-03 中国科学院重庆绿色智能技术研究院 一种基于时序数据长度优化的计算系统故障预测方法
CN113094200A (zh) * 2021-06-07 2021-07-09 腾讯科技(深圳)有限公司 一种应用程序的故障预测方法和装置
CN115033615A (zh) * 2022-05-18 2022-09-09 山东中烟工业有限责任公司 一种基于时序数据的烟草设备故障预测系统及预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何盼: "分布式系统监控资源多目标优化分配", 计算机科学 *
尚明生: "基于LSTM网络的在线藻类时序数据预测研究:以三峡水库为例", 湖泊科学 *
王焘;张文博;徐继伟;魏峻;钟华;: "云环境下基于统计监测的分布式软件系统故障检测技术研究", 计算机学报, no. 02 *

Also Published As

Publication number Publication date
CN115509789B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN109347668B (zh) 一种服务质量评估模型的训练方法及装置
US7680753B2 (en) System and method for fault identification in an electronic system based on context-based alarm analysis
US7693982B2 (en) Automated diagnosis and forecasting of service level objective states
KR20220114986A (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
CN107707431A (zh) 一种面向云平台的数据安全监测方法及系统
Liu et al. An online learning approach to improving the quality of crowd-sourcing
US20040010733A1 (en) System and method for fault identification in an electronic system based on context-based alarm analysis
CN110912737A (zh) 一种基于混合模型的动态感知性能预告警方法
CN112783682B (zh) 一种基于云手机服务的异常自动修复方法
CN111294812A (zh) 一种资源扩容规划的方法及系统
CN109947627A (zh) 一种基于资源调用链的多层云应用监视诊断方法
CN111123223A (zh) 用于雷达健康管理的通用开发平台、管理系统及方法
CN116719664B (zh) 基于微服务部署的应用和云平台跨层故障分析方法及系统
CN111858265A (zh) 一种存储系统的存储故障预测方法、系统及装置
CN113515434A (zh) 异常分类方法、装置、异常分类设备及存储介质
Jain et al. Fuzzy Markovian modeling of machining system with imperfect coverage, spare provisioning and reboot
CN110543462A (zh) 微服务可靠性预测方法、预测装置、电子设备及存储介质
CN115378928B (zh) 基于云服务的监控方法及系统
CN115509789A (zh) 一种基于组件调用分析的计算系统故障预测方法和系统
CN114003466A (zh) 一种用于微服务应用程序的故障根因定位方法
CN112732519A (zh) 一种事件监控方法及装置
CN112417446A (zh) 一种软件定义网络异常检测架构
Bendriss et al. A deep learning based sla management for NFV-based services
Xia et al. Research on hidden danger risk perception technology based on big data
CN117520040B (zh) 一种微服务故障根因确定方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yao Yuan

Inventor after: Zheng Zhihao

Inventor after: Wu Xin

Inventor after: Shang Mingsheng

Inventor after: He Pan

Inventor after: Zhang Xuerui

Inventor after: Zhang Fan

Inventor before: Zhang Xuerui

Inventor before: Shang Mingsheng

Inventor before: Wu Xin

Inventor before: He Pan

Inventor before: Zheng Zhihao

Inventor before: Yao Yuan

Inventor before: Zhang Fan

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant