CN111858526A

CN111858526A - 基于信息系统日志的故障时间空间预测方法及系统

Info

Publication number: CN111858526A
Application number: CN202010568671.3A
Authority: CN
Inventors: 吴树霖; 朱京; 赵子岩; 李宏发; 张江龙; 高扬; 李金凤; 吴小华; 张天奇; 赵云龙; 胡心颖; 郭庆; 杨彬彬; 李小威
Original assignee: State Grid Information and Telecommunication Co Ltd; State Grid Fujian Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; State Grid Fujian Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-10-30
Anticipated expiration: 2040-06-19
Also published as: CN111858526B

Abstract

本发明公开了基于信息系统日志的故障时间空间预测方法及系统，包括：获取信息系统当前时刻t之前的n个时间段内的时序日志数据x₁；基于所述时序日志数据对未来是否会产生故障进行判断：若不会产生故障，则不进一步处理；否则，进一步判断产生故障的具体时间点和空间位置；所述判断产生故障的具体时间点和空间位置采用多任务学习模型，对故障发生具体时间和位置这两个任务进行联合训练，并同时返回产生故障的具体时间点和空间位置，本发明不仅在以往预测故障有无的基础上，还能够同时预测出故障发生时间及故障产生的空间位置，将两个任务联合训练，利用故障信息之间的相关性只需一个流程就可实现，不必设置两个模型分别进行，提高了效率。

Description

基于信息系统日志的故障时间空间预测方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及基于信息系统日志的故障时间空间预测方法及系统。

背景技术

日志是一种反映信息系统运行轨迹的信息源，是每个信息系统必不可少的一部分。日志数据具有全业务范围、全时间类型、全时间维度的特性，蕴藏着信息系统运行的关键部分信息。在实际的生产工作中对运维人员进行系统维护和设备状态监控等活动有着至关重要的指导作用，利用日志数据可以提炼出较为有用的故障信息。

现有技术中，基于日志数据进行故障预测只能预测出故障的有无，也就是在未来一段时间内是否会产生故障。虽然有很多改进的技术，旨在提高预测的准确性，比如利用组合分类器，通过组合多个分类器形成复合模型，最终分类结果通过各分类器投票表决，可以用集成学习的算法来得以实现。但是对于要产生的故障其他信息是未知的，比如什么时间产生故障、故障发生在信息系统的哪个位置，预知信息系统故障时间和空间，能提前采取相应策略以免故障的发生。

发明内容

针对上述现有技术存在的问题，本发明提供了基于信息系统日志的故障时间空间预测方法及系统，基于日志数据对未来一段时间内是否会产生故障进行预测，并基于预测会发生故障的日志数据进行进一步精准预测，比如故障发生时间和发生位置，以用于信息系统管理员提前采取相应策略避免故障的发生。

本发明提供了基于信息系统日志的故障时间空间预测方法，包括：

获取信息系统当前时刻t之前的n个时间段(t-n*Δt，t)内的时序日志数据x₁，进行预处理；

基于所述时序日志数据对未来一个时间段(t，t+Δt)内信息系统是否会产生故障进行判断：

若不会产生故障，则不进一步处理，并输出信息系统运行正常信息；

否则，进一步判断产生故障的具体时间点和空间位置，并输出包含时间空间信息的故障预警信息；

所述判断产生故障的具体时间点和空间位置采用多任务学习模型，对故障发生具体时间和位置这两个任务进行联合训练，并同时返回产生故障的具体时间点和空间位置。

作为上述方案的进一步优化，所述基于所述时序日志数据获取未来一个时间段内信息系统是否会产生故障进行判断，采用基于分类的故障预测模型获取，故障预测模型采用的算法包括但不限于关联规则算法、决策树、神经网络、贝叶斯网络、支持向量机。

作为上述方案的进一步优化，所述基于所述时序日志数据对未来一个时间段(t，t+Δt)内信息系统是否会产生故障进行判断，采用第一深度神经网络，

所述第一深度神经网络的训练过程为：采集历史时序日志数据，提取第一特征向量，形成训练样本集，所述第一特征向量包括与日志级别关联的特征，并将日志级别为alert、error、warning且持续时间大于第一预设阈值的日志作为故障日志数据进行标注，日志级别为notice、info、debug的日志作为非故障数据进行标注，进行故障预测训练；

所述第一深度神经网络的预测过程为：基于采集的(t-n*Δt，t)内的时序日志数据提取第一特征向量，输入第一深度神经网络，预测(t，t+Δt)的日志级别，若日志级别为warning级别以上，则确定(t，t+Δt)内会产生故障。

作为上述方案的进一步优化，所述第一预设阈值根据闪电告警日志的持续时间确定。

作为上述方案的进一步优化，所述多任务学习模型的训练过程为：采集历史故障时序日志数据，提取第二特征向量，形成训练样本集，所述第二特征向量包括与故障的位置和产生时间均关联的特征，并将故障的位置和产生时间作为标注数据进行训练；

所述多任务学习模型的预测过程为：基于采集的(t-n*Δt，t)内的时序日志数据中的故障数据，提取第二特征向量输入多任务学习模型，预测(t，t+Δt)发生故障的具体时间和位置。

作为上述方案的进一步优化，所述第一特征向量包括事件发生时间点、日志级别、事件持续时间、日志发生的空间信息、事件详情；

第二特征向量包括告警级别、故障名称、网元类型、网络设备性能、告警源、故障的定位信息、故障的产生时间和清除时间。

作为上述方案的进一步优化，所述多任务学习模型包括特征输入层、隐层、特定任务层、特征任务输出层，

所述特征输入层用于接收第二特征向量和标注数据，

所述隐层采用参数硬共享机制，用于实现两个任务的数据共享，

所述特定任务层包括第一特性隐藏层和第二特性隐藏层，分别用于学习故障的产生时间和位置的预测任务，

所述特征任务输出层包括第一任务输出层和第二任务输出层，分别用于分别输出产生故障的具体时间点和空间位置的预测值。

作为上述方案的进一步优化，所述多任务学习模型的训练过程还包括：基于特征输入层输入的第二特征向量，经过前向网络传播，特征任务输出层输出得到预测的故障的位置和产生时间，基于预设的多任务学习联合损失函数，获得特征任务输出层输出得到的预测值与该输入的第二特征向量携带的标注数据之间的多任务联合损失值，将多任务联合损失值进行反向传播，利用控制变量法进行模型参数优化，直至训练过程结束，获取最佳的网络参数。

作为上述方案的进一步优化，所述预设的多任务学习联合损失函数loss_joint为：

其中，loss₁为故障时间的交叉熵损失函数，loss₂为故障空间的交叉熵损失函数。

本发明还提供了基于信息系统日志的故障时间空间预测系统，包括：

时序日志数据获取模块，用于获取信息系统当前时刻t之前的n个时间段(t-n*Δt，t)内的时序日志数据x₁，进行预处理；

故障预测模块，用于基于所述时序日志数据对未来一个时间段(t，t+Δt)内信息系统是否会产生故障进行判断，若不会产生故障，则不进一步处理，并输出信息系统运行正常信息；

故障时间空间预测模块，用于当故障预测模块预测结果为会产生故障时，进一步判断产生故障的具体时间点和空间位置，并输出包含时间空间信息的故障预警信息；所述判断产生故障的具体时间点和空间位置采用多任务学习模型，对故障发生具体时间和位置这两个任务进行联合训练，并同时返回产生故障的具体时间点和空间位置。

本发明的基于信息系统日志的故障时间空间预测方法及系统，具备如下有益效果：

1.本发明的基于信息系统日志的故障时间空间预测方法，采用先对日志数据预处理后训练出一个能预测是否会产生故障的模型，实现了对非故障日志数据的判断筛选过程，其中的过滤筛选过程，包括了对非故障日志的过滤和故障持续时间短的闪断告警日志的过滤，有效提高故障预测的效果，减小对下一步预测准确性的影响，在判断为会产生故障的基础上，进一步判断产生故障的具体位置和具体时间，不仅能实现预测故障有无，还能够在有故障的时候同时预测出故障发生时间及故障产生的空间位置，对系统未来一段时间的故障行为进行预测和分析，这样在故障出现之前，可以通过调度等预防措施，避免故障的发生或者尽可能降低故障导致的损失。

2.本发明的基于信息系统日志的故障时间空间预测方法，对于故障时间空间预测采用多任务学习模型，可以实现学习模型的模型结构的共享，简化深度学习模型的模型结构，与此同时，通过共享部分的引入，在进行模型训练时可以彼此影响,从而减少过度拟合的问题；故本实施例中通过共享部分的引入，具有模型整合度高及共享部分的特征不必重复计算的特点，与此同时执行该多任务学习模型的电子设备对信息系统日志的故障时间空间预测具有更大的泛化能力。

3.本发明不仅在以往预测故障有无的基础上，还能够同时预测出故障发生时间及故障产生的空间位置；本发明将故障发生具体时间和空间位置预测两个任务联合训练，利用故障信息之间的相关性只需一个流程就可实现，不必设置两个模型分别进行，提高了效率；不仅限于预测信息系统的故障时间和空间，还可在此基础上增加不同输出而得到更全面的故障信息，该模型有利于扩展。

附图说明

图1为本发明的基于信息系统日志的故障时间空间预测方法的整体流程框图；

图2为本发明的基于信息系统日志的故障时间空间预测方法的第一神经网络预测会不会产生故障的模型训练流程和预测流程；

图3为本发明的基于信息系统日志的故障时间空间预测方法的第一神经网络中的故障日志和非故障日志数据标注方法流程框图；

图4为本发明的基于信息系统日志的故障时间空间预测方法的多任务学习模型的结构图；

图5为发明的基于信息系统日志的故障时间空间预测系统的结构框图。

具体实施方式

下面结合具体实施例和附图对本发明的技术方案进行进一步说明。

获取信息系统当前时刻t之前的n个时间段(t-n*Δt，t)内的时序日志数据x₁，进行预处理，预处理过程包括数据清洗、字典构造、样本提取，其中数据清洗用于删除日志文本中一些无用的数字及符号，字典构造用于将日志中的特征字段进行数字编码，基于编码后的日志数据，提取其中的特征向量中的特征字段，并基于网络模型训练的需要，形成对应格式的训练集；

基于时序日志数据对未来一个时间段(t，t+Δt)内信息系统是否会产生故障进行判断：

判断产生故障的具体时间点和空间位置采用多任务学习模型，对故障发生具体时间和位置这两个任务进行联合训练，并同时返回产生故障的具体时间点和空间位置。

本实施例中进行的网络设备故障预测研究主要是针对网络设备出现的渐变故障，比如由于非法操作、设备老化等原因导致的网络故障，此类故障一般具有渐变性，表现在日志中就是故障出现之前一般会跟随有相关的日志数据出现。基于渐变故障的此种特点，我们可以知道网络设备日志数据之间存在一定的关联关系，因此我们便可以对观测时间窗口中日志数据的特征统计信息作为特征项，进行网络设备故障的预测。

上述对未来一个时间段(t，t+Δt)内信息系统是否会产生故障进行判断，采用基于分类的故障预测模型获取，故障预测模型采用的算法包括但不限于关联规则算法、决策树、神经网络、贝叶斯网络、支持向量机；

基于分类的预测技术是通过对故障历史数据进行分析，对预测目标是否会发生故障或这个故障类型建立类标号，并统计对应的数据信息作为特征，按照这种方式来建立样本，那么对未知类标号样本的预测便转换为数据挖掘中的分类问题。数据分类是通过学习训练数据，根据训练数据中的特征来建立分类器，再利用分类器来对未知类别的样本进行预测。现在数据挖掘中已经有大量的分类算法并且得到了广泛的应用，主要包括决策树、贝叶斯、人工神经网络、支持向量机等，在本实施例中，采用第一深度神经网络，

第一深度神经网络的训练过程为：采集历史时序日志数据，提取第一特征向量，形成训练样本集，所述第一特征向量包括与日志级别关联的特征，并将日志级别为alert、error、warning且持续时间大于第一预设阈值的日志作为故障日志数据进行标注，日志级别为notice、info、debug的日志作为非故障数据进行标注，进行故障预测训练；

具体的，本实施例中将常规的包括alert、error、warning、notice、info、debug级别的告警日志划分为故障数据和非故障数据，除此以外，还对一些正常运行的参数记录日志等不属于alert、error、warning、notice、info、debug级别的日志划分为非故障日志，另外，对于alert、error、warning级别的告警日志还需要对日志持续时间进行判断，当alert、error、warning级别日志数据持续时间小于第一预设阈值时，也将其划分为非故障日志数据，在此基础上，进行第一深度神经网络的训练和预测；

具体的，基于第一特征向量，形成训练样本集，是指基于历史时序日志数据，以某一时刻t₁为基准，以(t₁-n*Δt，t₁)时间段内的数据为输入数据，预测(t₁，t₁+Δt)时间段内是否会产生故障，t₁是可以变动的，从而得到多个(t₁-n*Δt，t₁)时间段内的日志数据，其中，输入数据输入第一深度神经网络前，对输入数据进行标注，即根据已知的(t₁，t₁+Δt)内的日志数据x₂是否为故障数据进行标注，标注方法包括：

首先判断日志数据x₂中是否具有alert、error、warning等字段特征，若有，则由该日志数据中获取的告警持续时间判断持续时间是否大于第一预设阈值，若持续时间小于第一预设阈值，则判定该故障为闪电告警日志，输入数据的标注数据为非故障日志数据，若持续时间大于第一预设阈值，则标注数据为故障日志数据，

若日志数据x₂是否具有notice、info、debug等字段特征，若有，则标注为非故障数据；

若日志数据x₂中是否不具有alert、error、warning、notice、info、debug等字段特征，则由专家经验运维人员的实际经验或者产品说明书作为故障数据的分类标准，进行人工标注故障或者非故障，因为第一深度神经网络输入的日志包括正常运行的参数记录日志、各种告警日志等，所以对于不具有alert、error、warning、notice、info、debug等字段特征的日志数据，采用人工标注的方法；

第一深度神经网络的预测过程为：基于采集的(t-n*Δt，t)内的时序日志数据提取第一特征向量，输入第一深度神经网络，预测(t，t+Δt)的日志级别，若日志级别为warning级别以上，则确定(t，t+Δt)内会产生故障。

本实施例的第一预设阈值根据闪电告警日志的持续时间确定，第一预设阈值的设置为了过滤掉系统日志中存在的大量的闪断式告警日志，该类故障出现之后，在很短时间之内，系统会自动恢复并将该告警排除，所以可以认为该类型的故障对网络系统的健康情况影响不大，所以在本实施例中，对于故障的时间和空间预测，不对该类故障进行研究。

在本实施例中，先对日志数据预处理后先训练出一个能预测是否会产生故障的模型，实现了对非故障日志数据的判断筛选过程，其中的过滤筛选过程，包括了对非故障日志的过滤和告警持续时间短的闪断告警日志的过滤，有效提高故障空间和时间两个任务预测的效果，减小其对下一步预测准确性的影响。

上述多任务学习模型的训练过程为：采集历史故障时序日志数据，提取第二特征向量，形成训练样本集，所述第二特征向量包括与故障的位置和产生时间均关联的特征，并将故障的位置和产生时间作为标注数据进行训练；

其中，第一特征向量包括事件发生时间点、日志级别、事件持续时间、日志发生的空间信息、事件详情、操作者信息、ip地址、进程ID；

本实施例中的，多任务学习模型包括特征输入层、隐层、特定任务层、特征任务输出层，

特征输入层用于接收第二特征向量和标注数据，

隐层采用参数硬共享机制，用于实现两个任务的数据共享，

特定任务层包括第一特性隐藏层和第二特性隐藏层，分别用于学习故障的产生时间和位置的预测任务，

特征任务输出层包括第一任务输出层和第二任务输出层，分别用于分别输出产生故障的具体时间点和空间位置的预测值。

在实施中，基于多任务学习的神经网络中，各神经网络层的层连接方式均为全连接。技术人员可以根据使用需求，设置各神经网络层包含的神经元的个数。

本实施例中，多任务学习模型针对故障产生时间和空间位置两个预测任务，通过设置一个隐层，可以体现多个任务间的共性，通过针对每个任务设置对应的特定任务层，调整特定任务层的参数，可以使得每个任务的个性能够充分的展示。

多任务学习模型的训练过程还包括：基于特征输入层输入的第二特征向量，经过前向网络传播，特征任务输出层输出得到预测的故障的位置和产生时间，基于预设的多任务学习联合损失函数，获得任务输出层输出得到的预测值与该输入的第二特征向量携带的标注数据之间的多任务联合损失值，将多任务联合损失值进行反向传播，利用控制变量法进行模型参数优化，直至训练过程结束，获取最佳的网络参数。

预设的多任务学习联合损失函数loss_joint为：

其中，loss₁为故障时间损失函数，loss₂为故障空间损失函数。

在训练过程中，逐一将多任务学习模型的训练样本集输入待训练的多任务学习的网络模型中，利用多任务学习模型进行前向运算,得到训练样本即输入的第二特征向量预测输出的产生故障的位置和产生时间，之后，将预测输出的产生故障的位置和产生时间和输入数据携带的标注数据进行比较，获得多任务学习联合损失函数值，在本实施例中，两个任务分别采用了对应的交叉熵损失函数loss₁和loss₂，将预测输出的产生故障的位置和输入数据携带的标注数据中的故障的位置数据输入交叉熵损失函数loss₁中得到位置损失函数值，将预测输出的产生故障的具体时间和输入数据携带的标注数据中的故障的时间数据输入交叉熵损失函数loss₂得到时间损失函数值，然后根据这两个损失函数值判断多任务学习联合损失函数是否达到了预测精度，若是，则完成训练，否则，经网络模型中反向传播,并利用梯度下降法对基础多任务学习的神经网络模型的参数进行更新。

在本发明中的多任务学习模型多个任务的实现网络之间设置有共享部分即隐层，也设置有专门完成特定任务的专有分支即特定任务层和特征任务输出层。通过共享部分的引入，可以实现学习模型的模型结构的共享，简化深度学习模型的模型结构，与此同时，通过共享部分的引入，在进行模型训练时可以彼此影响,从而减少过度拟合的问题；故本实施例中通过共享部分的引入，具有模型整合度高及共享部分的特征不必重复计算的特点，与此同时执行该多任务学习模型的电子设备对信息系统日志的故障时间空间预测具有更大的泛化能力。

基于上述基于信息系统日志的故障时间空间预测方法，本发明还提供了基于信息系统日志的故障时间空间预测系统，包括：

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.基于信息系统日志的故障时间空间预测方法，其特征在于：包括：

2.根据权利要求1所述的基于信息系统日志的故障时间空间预测方法，其特征在于：所述基于所述时序日志数据获取未来一个时间段内信息系统是否会产生故障进行判断，采用基于分类的故障预测模型获取，故障预测模型采用的算法包括但不限于关联规则算法、决策树、神经网络、贝叶斯网络、支持向量机。

3.根据权利要求2所述的基于信息系统日志的故障时间空间预测方法，其特征在于：所述基于所述时序日志数据对未来一个时间段(t，t+Δt)内信息系统是否会产生故障进行判断，采用第一深度神经网络，

4.根据权利要求3所述的基于信息系统日志的故障时间空间预测方法，其特征在于：所述第一预设阈值根据闪电告警日志的持续时间确定。

5.根据权利要求1所述的基于信息系统日志的故障时间空间预测方法，其特征在于：所述多任务学习模型的训练过程为：采集历史故障时序日志数据，提取第二特征向量，形成训练样本集，所述第二特征向量包括与故障的位置和产生时间均关联的特征，并将故障的位置和产生时间作为标注数据进行训练；

6.根据权利要求5所述的基于信息系统日志的故障时间空间预测方法，其特征在于：所述第一特征向量包括事件发生时间点、日志级别、事件持续时间、日志发生的空间信息、事件详情；

7.根据权利要求5所述的基于信息系统日志的故障时间空间预测方法，其特征在于：所述多任务学习模型包括特征输入层、隐层、特定任务层、特征任务输出层，

所述特征输入层用于接收第二特征向量和标注数据，

8.根据权利要求7所述的基于信息系统日志的故障时间空间预测方法，其特征在于：所述多任务学习模型的训练过程还包括：基于特征输入层输入的第二特征向量，经过前向网络传播，特征任务输出层输出得到预测的故障的位置和产生时间，基于预设的多任务学习联合损失函数，获得特征任务输出层输出得到的预测值与该输入的第二特征向量携带的标注数据之间的多任务联合损失值，将多任务联合损失值进行反向传播，利用控制变量法进行模型参数优化，直至训练过程结束，获取最佳的网络参数。

9.根据权利要求7所述的基于信息系统日志的故障时间空间预测方法，其特征在于：所述预设的多任务学习联合损失函数loss_joint为：

10.基于信息系统日志的故障时间空间预测系统，其特征在于：包括：