CN115509789A

CN115509789A - 一种基于组件调用分析的计算系统故障预测方法和系统

Info

Publication number: CN115509789A
Application number: CN202211214987.8A
Authority: CN
Inventors: 张学睿; 尚明生; 吴鑫; 何盼; 郑志浩; 姚远; 张帆
Original assignee: Chongqing University; Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing University; Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-23
Anticipated expiration: 2042-09-30
Also published as: CN115509789B

Abstract

本发明涉及故障预测技术领域，具体为一种基于组件调用分析的计算系统故障预测方法和系统，包括：获取待预测组件的关联组件集合，采集其中每个组件的监测数据，进行处理，形成加权时序数据矩阵；根据关联组件集合，获取调用关系序列数据向量；获取采集监测数据的时刻开始预设时间间隔内的故障状态数据；根据加权时序数据矩阵、调用关系序列数据向量和故障状态数据，获取输入输出数据组；提取加权时序数据矩阵和调用关系序列数据向量的特征，进行融合，建立与实时故障状态数据的对应关系，形成分类预测模型；对分类预测模型进行训练优化，输出满足预设预测精度的分类预测模型。本方案能融合组件动态调用关系，以提高故障预测精度。

Description

一种基于组件调用分析的计算系统故障预测方法和系统

技术领域

本发明涉及故障预测技术领域，具体为一种基于组件调用分析的计算系统故障预测方法和系统。

背景技术

计算系统复杂性和动态性的增加，使得系统故障的产生难以避免。由于计算系统应用的普遍性，未知的系统故障可能造成难以预计的损失，所以在系统运行中需要实时采集系统状态，对故障提前进行判定和预警。现代计算系统通常由若干不同组件如硬件处理器、软件模块、数据库、网络系统等组成，不同组件具有不同运行规律，各组件之间关系复杂且相互影响。将计算系统视为统一整体，难以对其未来运行规律进行预测，需要从系统内部结构出发开展组件的故障预测。

现有故障预测技术主要采用日志、探针、监测工具等方法采集组件状态或质量时间序列数据，利用统计学方法如ARIMA时序分析模型，机器学习方法如支持向量机、XGBoost，深度学习方法如LSTM、CNN、GRU等神经网络模型结合时序数据预测特定指标如响应时间、系统负载、内存占用率等的发展趋势，从而判定组件乃至系统是否即将发生故障。由于组件间的相互连接或调用，故障可能通过网络、函数调用等进行累加或传播，虽然基于时间序列数据的分析方法能够预测每个组件的故障变化趋势，但难以预测故障在系统中的传导过程。因此研究人员在现有技术的基础上结合系统体系架构和调用信息，采用贝叶斯估计等方法建立故障传播模型，在时序分析模型基础上对组件故障传播规律进行推导，完善受关联组件影响的故障情形，提高组件故障预测精度。

但是上述方法只适用于结构简单、调用规律相对平稳的计算系统故障预测，其对于结构复杂，实时性、动态性较强的计算系统如分布式软件系统、微服务系统进行组件故障预测，还存在如下问题：

(1)计算系统中组件间的调用关系是动态变化过程，现有故障传播模型主要基于静态数据如系统体系结构，或统计数据如组件平均调用次数等建立，能够反映系统长时间的平均运行规律，但难以反映系统结构的动态变化情况，因此采用现有模型进行故障推导将影响实时的组件故障预测精度；

(2)针对时序数据(即时序状态数据)的深度学习模型在时序相关指标的预测上能取得一定效果，但系统架构信息不具备时序特征，难以与预测模型进行融合，建立一体化的预测方法，从而极大的影响了故障预测精度。

因此，现在急需一种基于组件调用分析的计算系统故障预测方法，在时序数据分析基础上，能融合组件动态调用关系，以提高故障预测精度。

发明内容

本发明的目的之一在于提供一种基于组件调用分析的计算系统故障预测方法，在时序数据分析基础上，能融合组件动态调用关系，以提高故障预测精度。

本发明提供的基础方案一：一种基于组件调用分析的计算系统故障预测方法，包括如下内容：

数据采集和分析步骤：根据历史监测数据和计算系统的架构，获取待预测组件的关联组件集合；采集关联组件集合中每个组件的监测数据，进行处理，形成加权时序数据矩阵，并根据关联组件集合，获取调用关系序列数据向量；获取采集监测数据的时刻开始预设时间间隔内的故障状态数据；根据加权时序数据矩阵、调用关系序列数据向量和故障状态数据，获取输入输出数据组；特征提取和融合步骤：提取加权时序数据矩阵和调用关系序列数据向量的特征，进行融合，并建立与实时故障状态数据的对应关系，形成分类预测模型；

模型训练和预测步骤：采集若干输入输出数据组，对分类预测模型进行训练优化，输出满足预设预测精度的分类预测模型。

基础方案一的有益效果：本方案包括三个步骤：数据采集和分析步骤、特征提取和融合步骤、模型训练和预测步骤；其中数据采集和分析步骤，先在计算系统体系架构基础上根据历史监测数据，获取待预测组件的关联组件集合，然后针对关联组件集合中的每个组件都进行监测数据的采集，并进行处理，以形成加权时序数据矩阵，并根据关联组件集合，获取调用关系序列数据向量，其中加权时序数据矩阵能反映组件的关联组件状态变化规律，调用关系序列数据向量能反映组件实时调用顺序；再然后获取采集监测数据的时刻开始预设时间间隔内的故障状态数据，根据加权时序数据矩阵、调用关系序列数据向量和故障状态数据，获取输入输出数据组，从而输入输出数据组表征的故障在时序状态数据的基础上融合了调用关系；

特征提取和融合步骤中提取加权时序数据矩阵和调用关系序列数据向量的特征，进行融合，并建立与实时故障状态数据的对应关系，形成分类预测模型，其中预测模型是基于多属性时序分析提取关联组件状态变化规律和基于序列分析提取组件实时调用关系的影响，建立融合的组件故障预测模型，通过将动态的组件调用关系分析融入故障预测中，可实时评估关联组件故障对后续组件的影响，从而极大提高组件故障预测精度；

模型训练和预测步骤中采集若干输入输出数据组，对分类预测模型进行训练优化，输出预设预测精度的分类预测模型，使得分类预测模型的预测精度能满足用户需求。

综上所述，本方案在时序数据分析基础上，能融合组件动态调用关系，以提高故障预测精度。

进一步，所述监测数据，包括：实时状态监测数据；

所述数据采集和分析步骤，包括：

关联组件分析子步骤：针对待预测组件，基于系统架构依赖图生成关联组件集合；

组件状态数据采集子步骤：对关联组件集合中的每个组件，任意时刻t，采集实时状态监测数据，进行处理，获取实时监测的时序状态数据，并进行切片组合，形成时间序列数据，对时间时序数据进行加权处理，形成加权时序数据矩阵；

动态调用关系数据采集子步骤：对关联组件集合中的每个组件，任意时刻t，获取组件被实时调用的序列数据，并进行切片，形成调用关系序列数据向量；

故障状态数据采集子步骤：对任意时刻t，根据特定时间间隔t₀，采集t+t₀时刻待预测组件是否有故障发生的实时故障状态数据，将加权时序数据矩阵，调用关系序列数据向量与实时故障状态数据进行时间对齐，形成完整的输入输出数据组。

有益效果：由于调用关系的不同，关联组件集合中的每个组件状态与待预测组件故障状态间具有不同的影响关系，对每个组件的时间时序数据进行加权处理，通过赋予不同的权重区分不同组件状态与待预测组件故障状态间的影响关系。

进一步，所述关联组件分析子步骤，包括：

S10101、通过系统的历史监测数据划分系统的组件，建立组件间的历史调用关系，生成系统架构依赖图；

S10102、针对任意待预测的组件A，通过系统架构依赖图查找被组件A调用过的所有组件集合B；

S10103、通过系统架构依赖图查找调用过组件A的所有组件集合C；

S10104、建立关联组件集合D＝{A,B,C}，其包括：组件A，集合B和集合C中的所有组件。

有益效果：根据系统架构依赖图进行调用关系的确认，从而便于后续确定故障的传递或者影响对象。

进一步，所述监测数据，还包括：连续监测数据；

所述组件状态数据采集子步骤，包括：

S10201、对关联组件集合D中的每个组件j∈D，在每个定长间隔为i₀的时间t，采集实时状态监测数据r_i ^j,对应采集次数为i；

S10202、对每个组件的连续监测数据，基于任意时刻t和采集次数i，截取固定长度n个实时状态监测数据组成切片的时间序列数据

S10203、对所有组件的时间序列数据进行时间同步，对每个组件j的时间序列数据

赋予不同的权重值α^j，形成加权时序数据矩阵

有益效果：进行切片处理，可以灵活选择用于后续故障预测的实时状态监测数据长度，并统一组装为时间序列数据，便于按需增加切片容量，更好的满足后续预测模型数据输入需求。

进一步，所述动态调用关系数据采集子步骤，包括：

S10301、对关联组件集合D中的每个组件j∈D，若组件运行或被其他组件调用，则将调用时间t，调用次数k与组件号j_k按顺序记录至集合E，形成序列数据；

S10302、将集合E中的组件号按调用次数k进行排列，基于任意时刻t和调用次数k截取固定长度m个组件序列数据组成切片的调用关系序列数据向量y_k＝(j_k-m+1,j_k-m+2,…,j_k),j_k∈D。

有益效果：进行切片处理，可以使调用关系序列数据向量更好的满足用户的需求，便于按需增加切片容量。

进一步，所述故障状态数据采集子步骤，包括：

对任意时刻t，根据特定时间间隔t₀，采集t+t₀时刻待预测组件A是否有故障发生的实时故障状态数据

将加权时序数据矩阵x_t，调用关系序列数据向量y_t与实时故障状态数据

进行时间对齐，形成完整的输入输出数据组

有益效果：将加权时序数据矩阵x_t，调用关系序列数据向量y_t与实时故障状态数据

进行时间对齐，形成完整的输入输出数据组

将时序数据和调用关系进行融合，从而实时评估关联组件故障对后续组件的影响。

进一步，所述特征提取和融合步骤，包括：

组件状态数据特征提取子步骤：

S20101、根据加权时序数据矩阵x_t的结构，采用时间序列相关的深度学习神经网络，结合权重训练相关的模型，建立多属性的时序状态数据特征学习模型f₁；

S20102、通过时序状态数据特征学习模型f₁，计算任意时刻t加权时序数据矩阵x_t的特征向量H(x_t)＝f₁(x_t)；

动态调用关系数据特征提取子步骤：

S20201、根据调用关系序列数据向量y_t的结构，采用序列数据相关的深度学习神经网络，建立调用关系序列数据特征学习模型f₂；

S20202、通过调用关系序列数据特征学习模型f₂，计算任意时刻t调用关系序列数据向量y_t的特征向量H(y_t)＝f₂(x_t)；

特征融合与分类子步骤：

S20301、对任意时刻t的加权时序数据矩阵x_t的特征向量H(x_t)＝f₁(x_t)和调用关系序列数据向量y_t的特征向量H(y_t)＝f₂(x_t)进行融合，生成融合特征向量H_t＝f₃(H(x_t),H(y_t))；

S20302、采用深度学习方法和分类方法，建立任意时刻t融合特征向量H_t到t+t₀时刻组件A故障状态值的分类预测模型

有益效果：通过建立多属性的时序状态数据特征学习模型和调用关系序列数据特征学习模型，以提取任意时刻t加权时序数据矩阵x_t的特征向量和任意时刻t调用关系序列数据向量y_t的特征向量，在将两个特征向量进行融合，生成融合特征向量，并采用深度学习方法和分类方法，建立任意时刻t融合特征向量H_t到t+t₀时刻组件A故障状态值的分类预测模型，从而实现将动态的组件调用关系分析融入故障预测中，可实时评估关联组件故障对后续组件的影响，提高组件故障预测精度。

进一步，所述模型训练和预测步骤，包括：

S301、获取若干个t时刻的加权时序数据矩阵x_t，调用关系序列数据向量y_t与实时故障的状态数据

形成输入输出数据组

基于深度学习训练方法训练时序状态数据特征学习模型f₁，调用关系序列数据特征学习模型f₂，分类预测模型

中的网络参数和权重值α^j；

S302、根据分类预测模型

预测的故障状态预测值

与实时故障状态数据

基于分类预测模型的精度评估指标计算分类预测模型的精度p_t；

S303、在任意时刻T，获取加权时序数据矩阵x_T和调用关系序列数据向量y_T，采用训练完成的分类预测模型

预测T+t₀时刻组件A是否有故障发生的预测值

S304、采集T+t₀时刻待预测组件是否有故障发生的实时故障状态数据

对比预测值

与实时故障状态数据

S305、判断p_T和p_t的差值是否属于预设差值范围，若是，则等待后续新时刻T+i₀采集系统的状态监测数据和T+i₀+t₀采集系统的故障数据，并执行S303；若否，则执行S301。

有益效果：通过历史数据对各模型进行训练，同时确定分类预测模型中的网络参数和状态监测数据权重值，以保障模型和参数的最优化，从而保障分类预测模型的预测精度，且对需要进行故障预测的时刻，采用分类预测模型进行故障预测后，还会对预测的精度与训练时的精度进行对比评估，保障每次故障预测的精度都满足用户需求，若不能满足用户需求，则需要对模型和参数进行重新训练优化。

进一步，所述精度评估指标，包括：精度、召回率、假阳性率、准确率和F1分数中的一种或多种。

有益效果：精度评估指标，包括：精度、召回率、假阳性率、准确率和F1分数中的一种或多种，以保障精度评估的全面性，同时保障精度评估指标的适用范围。

本发明的目的之二在于提供一种基于组件调用分析的计算系统故障预测系统，在时序数据分析基础上，能融合组件动态调用关系，以提高故障预测精度。

本发明提供的基础方案二：一种基于组件调用分析的计算系统故障预测系统，采用上述基于组件调用分析的计算系统故障预测方法。

基础方案二的有益效果：本方案在时序数据分析基础上，能融合组件动态调用关系，以提高故障预测精度。

附图说明

图1为本发明一种基于组件调用分析的计算系统故障预测方法实施例的流程示意图；

图2为本发明一种基于组件调用分析的计算系统故障预测方法实施例中数据采集和分析步骤的流程示意图；

图3为本发明一种基于组件调用分析的计算系统故障预测方法实施例中特征提取和融合步骤的流程示意图；

图4为本发明一种基于组件调用分析的计算系统故障预测方法实施例中特RSS系统48个组件的关系示意图；

图5为本发明一种基于组件调用分析的计算系统故障预测方法实施例中预测模型的整体结构示意图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例基本如附图1所示：一种基于组件调用分析的计算系统故障预测方法，包括如下内容：

数据采集和分析步骤：根据历史监测数据和计算系统的架构，获取待预测组件的关联组件集合；采集关联组件集合中每个组件的监测数据，进行处理，形成加权时序数据矩阵，并根据关联组件集合，获取调用关系序列数据向量；获取采集监测数据的时刻开始预设时间间隔内的故障状态数据；根据加权时序数据矩阵、调用关系序列数据向量和故障状态数据，获取输入输出数据组；

具体地，如图2所示，数据采集和分析步骤，包括：

具体为：S10101、通过系统的历史监测数据划分系统的组件，建立组件间的历史调用关系，生成系统架构依赖图；其中历史监测数据，包括但不限于：系统类、功能模块等静态结构数据，系统函数调用历史统计数据，系统输入输出实时流转数据等；组件划分的依据为系统不同的功能模块以及函数之间的调用关系；

具体为：S10201、对关联组件集合D中的每个组件j∈D，在每个定长间隔为i₀的时间t，即任意时刻t开始采集，采集时间长度为定长间隔i₀，采集实时状态监测数据r_i ^j，对应采集次数为i；即每隔定长间隔的时间i₀，进行一次r_i ^j的采集，采集次数为i；其中实时状态监测数据r_i ^j，包括：组件执行功能、完成函数调用或完成输入输出的实时状态数据，如：响应时间、内存占用率和系统负载等；

S10202、对每个组件经过若干个时间间隔i₀连续采集的状态监测数据r_i ^j,

即连续监测数据，基于任意时刻t和采集次数i，截取固定长度n个实时状态监测数据组成切片的时间序列数据

赋予不同的权重值α^j，形成加权时序数据矩阵

具体为：S10301、对关联组件集合D中的每个组件j∈D，若组件运行或被其他组件调用，则将调用时间t，调用次数k与组件号j_k按顺序记录至集合E，形成序列数据；

S10302、将集合E中的组件号按调用次数k进行排列，基于任意时刻t和调用次数k截取固定长度m个组件序列数据组成切片的调用关系序列数据向量y_t＝(j_k-m+1,j_k-m+2,…,j_k),j_k∈D；

具体为：对任意时刻t，根据特定时间间隔t₀，采集t+t₀时刻待预测组件A是否有故障发生的实时故障状态数据

进行时间对齐，形成完整的输入输出数据组

特征提取和融合步骤：提取加权时序数据矩阵和调用关系序列数据向量的特征，进行融合，并建立与实时故障状态数据的对应关系，形成分类预测模型；

具体地，如图3所示，特征提取和融合步骤，包括：

组件状态数据特征提取子步骤：S20101、根据加权时序数据矩阵x_t的结构，采用时间序列相关的深度学习神经网络，结合权重训练相关的模型，建立多属性的时序状态数据特征学习模型f₁；其中深度学习神经网络包括但不限于：LSTM和GRU，权重训练相关的模型包括但不限于Attention机制；

动态调用关系数据特征提取子步骤：S20201、根据调用关系序列数据向量y_t的结构，采用序列数据相关的深度学习神经网络，建立调用关系序列数据特征学习模型f₂；其中深度学习神经网络包括但不限于：Transformer；

特征融合与分类子步骤：S20301、对任意时刻t的加权时序数据矩阵x_t的特征向量H(x_t)＝f₁(x_t)和调用关系序列数据向量y_t的特征向量H(y_t)＝f₂(x_t)进行融合，生成融合特征向量H_t＝f₃(H(x_t),H(y_t))；其中特征向量融合的方法包括但不限于：向量连接；

其中深度学习方法包括但不限于：全连接网络；分类方法包括但不限于：softmax分类器和sigmoid分类器。

模型训练和预测步骤：采集若干输入输出数据组，对分类预测模型进行训练优化，输出预设预测精度的分类预测模型；

具体地，模型训练和预测步骤，包括：S301、获取若干个t时刻的加权时序数据矩阵x_t，调用关系序列数据向量y_t与实时故障的状态数据

形成输入输出数据组

中的网络参数和权重值α^j；

S302、根据分类预测模型

预测的故障状态预测值

与实时故障状态数据

基于分类预测模型的精度评估指标计算分类预测模型的精度p_t；其中精度评估指标，包括：精度(Precision)、召回率(Recall)、假阳性率(False-positive)、准确率(Accuracy)和F1分数(F1score)中的一种或多种；

预测T+t₀时刻组件A是否有故障发生的预测值

对比预测值

与实时故障状态数据

S305、判断p_T和p_t的差值是否属于预设差值范围，若是，则等待与数据采集相同固定时间间隔i₀后，在T+i₀时刻，重新采集系统的状态监测数据并通过状态监测数据获取加权时序数据矩阵

和调用关系序列数据向量

在T+i₀+t₀时刻，采集并获取实时故障状态数据

并执行S303；若否，则执行S301；其中预设差值范围根据用户需求进行设置，其目的是为了控制p_T未显著低于p_t；其中状态监测数据为组件状态数据采集子步骤中所述的实时状态监测数据与连续监测数据和动态调用关系数据采集子步骤集合E。

具体实施过程如下：本实施例以一个多组件组成的开源微服务系统为例，说明融合调用关系分析的组件故障预测过程。该系统使用Netflix开发，用于RSS提要阅读，基于微服务架构搭建，部署在Emulab上，具有分布式系统特性。系统对外提供了Web服务，使用户可以查看、添加或删除RSS提要。系统设置包含两个表示层实例、三个业务层实例和一个数据库。此外，系统有一个前端负载平衡器、一个服务发现节点和两个RSSfeed服务器。用户可并发访问系统，并发用户数量在150左右，系统工作负载为每秒大约生成90个请求。模拟的工作负载驱动程序在独立节点上设置，并使用Apache JMeter生成用户请求。

在本实施例中，该系统的组件故障主要包含三种故障类型：内存泄漏、系统过载和响应超时，故障通过主动注入的形式产生。在故障注入前后持续采集2小时数据并重复10次，其中时序状态数据采集时间间隔为10秒到2分钟之间的任意值，组件被实时调用的序列数据为实时采集。内存泄漏通过在一个业务层中引入内存泄漏造成，每次请求从表示层发送到特定的实例时，1024字节的内存将被分配并且永远不会被释放。系统过载的场景采用增加用户数量，直到出现服务故障，系统无法处理所有传入的请求。响应超时通过在数据采集开始后90分钟和95分钟时故意关闭两个业务层实例，从而引入故障。

本实施例中精度评估指标采用：精度(Precision)、召回率(Recall)、假阳性率(False-positive rate)、准确率(Accuracy)和F1分数(F1Score)；

具体地，

其中，FN表示被判定为不发生故障，但事实上发生故障的情形；

FP表示被判定为发生故障，但事实上没发生故障的情形；

TN表示被判定为不发生故障，事实上也是不发生故障的情形；

TP表示被判定为发生故障，事实上也是发生故障的情形。

根据本实施例提供的一种基于组件调用分析的计算系统故障预测方法，进行故障预测，具体过程如下：

数据采集和分析步骤：

关联组件分析子步骤：采用SLAstic工具，通过系统的历史监测数据划分系统的组件，建立组件间的历史调用关系，生成系统架构依赖图，其中组件划分的依据为系统不同的功能模块以及函数之间的调用关系。采用的示例RSS系统涵盖48个组件，如图4所示，图中的顶点圆圈代表组件编号，图中的边表示组件间的调用关系和依赖程度。组件1-48分别表示示例RSS系统中完成不同功能的系统模块如RSS信息查看、删除模块、服务发现节点模块等。以对组件17进行故障预测为例，组件17所依赖的组件包括：10、37、48、59，即B＝{10,37,48,59}；依赖于组件17的组件包括：7，即C＝{7}。根据以上述组件建立关联组件集合D＝{17,10,37,48,59,7}。

组件状态数据采集子步骤：对关联组件集合D中的每个组件，在定长间隔的时间下，采集上述6个组件的实时状态监测数据；其中定长间隔的时间，包括但不限于10秒或2分钟，本实施例中为10秒；实时状态监测数据，包括但不限于：响应时间、内存占用率和系统负载；

将组件17的连续监测数据，基于任意时刻t，采集次数i和固定时间间隔i₀，截取固定长度n个实时状态监测数据组成切片的时间序列数据

等。其他组件的连续监测数据切分同理。将多个组件同一时刻对应的切片时间序列数据向量组合为矩阵形式，并对每个组件的数据赋予不同的权重，形成加权时序数据矩阵如

矩阵大小为6×n；

动态调用关系数据采集子步骤：对关联组件集合D中的每个组件j∈D，通过历史监控数据，采集其中任意组件运行或被其他组件调用的历史顺序数据，即调用时间t，调用次数k与组件号j_k按顺序记录至集合E，如E＝{37,17,7,59,17,10,17,7,48,17,7,17…}；

基于任意时刻t和调用次数k截取固定长度m个组件序列数据组成切片的调用关系序列数据向量，即将连续的序列数据切分为长度为m的序列数据向量，如，y_t＝(37,17,7,59,17,10,17,7,...)，

等，向量大小为m×1；

故障状态数据采集子步骤：对任意时刻t，根据特定时间间隔t₀，采集t+t₀时刻待预测的组件A是否有故障发生的实时故障状态数据

其中

进行时间对齐，形成完整的输入输出数据组

即根据特定时间间隔t₀，获取每组切片数据x_t与y_t对应未来t+t₀时刻组件17是否有故障发生的状态值记录

特征提取与融合步骤：

组件状态数据特征提取子步骤：根据加权时序数据矩阵x_t的结构，采用基于注意力机制的多属性LSTM(MLSTM)模型，建立多属性的时序状态数据特征学习模型f₁；在任意时刻t加权时序数据矩阵x_t所代表的特征向量为H(x_t)＝f₁(x_t)；假设基于注意力机制的MLSTM模型最后层具有n₀个神经元，特征向量大小为n₀×1；

动态调用关系数据特征提取子步骤：根据调用关系序列数据向量y_t的结构，采用Transformer模型，建立调用关系序列数据特征学习模型f₂；在任意时刻t调用关系序列数据向量y_t所代表的特征向量为H(y_t)＝f₂(x_t)。假设Transformer模型最后层具有m₀个神经元，向量大小为m₀×1；

特征融合与分类子步骤：对相同时刻t的加权时序数据矩阵x_t的特征向量H(x_t)＝f₁(x_t)和调用关系序列数据向量y_t的特征向量H(y_t)＝f₂(x_t)进行融合，生成融合特征向量H_t＝f₃(H(x_t),H(y_t))，融合特征向量大小为(n₀+m₀)×1；

采用全连接网络层和sigmoid分类器，建立任意时刻t融合特征向量H_t到t+t₀时刻组件17故障状态值的分类预测模型

本实施例中的预测模型的整体结构如图5所示。

模型训练与预测步骤：首先对分类预测模型的训练次数epoch、学习率、MLSTM滑动窗口n和Transformer滑动窗口m等网络参数进行选择；其中epoch代表训练样本往神经网络(分类预测模型)中导入的次数，学习率(模型学习速率)决定目标函数是否能收敛到局部最小值以及何时收敛到最小值，滑动窗口大小代表预测未来数据时采用多少长度的历史数据；

然后收集多个时刻对齐的加权时序数据矩阵x_t和调用关系序列数据向量y_t，及其对应t+t₀组件17的实时故障的状态数据

打乱样本顺序使数据分布均匀；

再然后根据预设置的网络参数，将x_t和y_t依次输入f₁，f₂与g(H_t)，通过对比输出数据

与观测数据

的差值，训练f₁，f₂与g(H_t)中的网络参数及注意力机制权重的α_j。模型训练数据为整体采集数据的85％，测试数据为整体数据的15％，此处模型预测得到的预测值即预测故障状态值

再然后分析上述五个网络参数对故障预测精度的影响，通过网络搜索方法确定各模型的最优网络参数；

最后各模型训练完成后持续收集新的x_t和y_t输入至各模型中，进而预测后续时间组件17的故障状态，通过后续时刻采集的故障状态值持续评估预测模型精度，如精度出现不满足S305中所述的判断，则重新训练各模型，即执行S301。

具体地，根据上述模型训练与预测步骤，选择2个小时内连续采集的约35000条数据进行实验，其中包含故障状态数据约为6000条，数据采集的固定时间间隔i₀为10秒，故障预测的特定时间间隔t₀为10秒。

采用基于注意力权重机制的MLSTM模型学习时序状态数据特征，采用Transformer模型学习调用关系序列数据特征，实时状态监测数据固定长度即MLSTM滑动窗口n为16，调用关系序列数据固定长度即Transformer滑动窗口m为20。

对组件17、18和19的数据中注入的响应超时故障进行预测，比较并统计预测故障及实际故障情形及数量，评估本发明方法精度指标为Precision＝0.982、Recall＝0.982、FPR＝0.026、Accuracy＝0.991和F1Score＝0.994。

为证明融合组件调用分析方法对故障预测精度提高的影响，基于相同的实验设置及数据，采用2种基于时间序列数据分析的故障预测方法进行对比实验，其中对比方法1为不融合组件调用分析的时间序列预测方法，采用相同的基于注意力权重机制的MLSTM网络为例开展实验；对比方法2为结合系统体系架构和统计调用信息的预测方法，采用贝叶斯估计方法建立故障传播模型，在时序分析模型LSTM网络基础上对组件故障传播规律进行推导，预测受关联组件影响的故障。本方法与2种对比方法的预测精度指标结果如表1所示：

表1软件响应超时故障预测精度指标比较结果

从表1的数据中可以看出，本发明方法在各精度评价指标上都优于现有LSTM与贝叶斯估计结合的方法(对比方法2)，说明注意力权重机制和Transformer模块的引入都达到了提升软件系统故障预测精度的目的；除召回率外，本发明方法在其他精度指标上都优于不融合组件调用分析，基于注意力机制的MLSTM预测方法(对比方法1)，说明了提取并融合调用关系数据序列特征能够提高故障预测精度。

综上所述，本方案相对于现有技术，在时序数据分析基础上，能融合组件动态调用关系，以提高故障预测精度。

本实施例中还提供一种基于组件调用分析的计算系统故障预测系统，采用上述基于组件调用分析的计算系统故障预测方法。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。