CN114816962B

CN114816962B - 基于attention-lstm的网络故障预测方法

Info

Publication number: CN114816962B
Application number: CN202210734978.5A
Authority: CN
Inventors: 阮峰; 许小龙; 薛朋
Original assignee: Nanjing Zhengfeng Information Technology Co ltd
Current assignee: Nanjing Zhengfeng Information Technology Co ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-11-04
Anticipated expiration: 2042-06-27
Also published as: CN114816962A

Abstract

本发明的基于ATTENTION‑LSTM的网络故障预测方法，对多个时间段用户时间序列状况特征数据进行模型训练，利用HMM优秀的能力预测用户时间序列故障数据最可能出现的状态序列；将状态序列连同日志数据，一同输入到数据增强模块产生故障率样本数据；根据故障率样本数据，输入到LSTM全连接层对提取的故障数据特征向量进行故障预测；最终对预测的结果进行注意力机制判别；在针对网络故障进行预测过程中，采用长短期神经网络并结合注意力机制。本发明的预测方法，兼容疑似故障数据和正常状态下的网络波动数据，有效提升了预测结果的准确率。

Description

基于ATTENTION-LSTM的网络故障预测方法

技术领域

本发明属于存储系统可靠性与可用性技术领域，尤其涉及一种基于ATTENTION-LSTM的网络故障预测方法。

背景技术

用户智能感知系统基于Web终端桌面，界面化操作直观易懂，可同时大批量运行用例，且一次可录制多条用例。对脚本进行模块化封装，可在短时间内对用例进行维护与更新。目前，智能感知系统为各券商建立的用例规模大多数近千条，优先建设核心交易相关用例，如普通交易、信用交易等，随后覆盖开户、行情、新股申购、资讯、理财等部分。例如华泰证券目前已建立超过2000条自动化用例，覆盖90％的功能检查点以及新老版本对比，极大提高APP自动化测试效率，每一次迭代可对APP进行全面检查，节省大量手工测试人力，缩短测试周期，保障APP稳定上线。

随着科学技术的快速发展，这个网络已经很深入地融入到人类的生活和工作中，为人类的社会生活带来了极大的便利。然而，虽然网络对人类有贡献，但很难避免网络故障，网络故障会给人类造成经济损失和安全问题。因此，为了减少损失，在网络故障发生之前发现网络故障尤为重要。预先预测，网络故障可以为工作人员修复故障做好准备，减少网络故障造成的损失。在网络系统运行过程中，会产生许多网络日志，日志中有大量的信息可以反映网络系统的运行状态，因此我们可以利用网络日志挖掘隐藏的重要信息。在此基础上，可以建立了故障预测的故障预测模型。

故障预测方法一般是通过分析高性能计算机当前以及过去一段时间的状态来预测之后一段时间的状态,尤其是之后一段时间是否会发生故障,从而允许采取一定的处理手段来减轻故障带来的损失,故障预测的方法可行,但同时也为我们的故障预测带来两大挑战，一是如何设计出比较高的准确率的故障预测模型,二是预测出故障后,采取什么样的手段来将故障所带来的损失降到最低。

公开号为CN113076239A的中国发明提出一种高性能计算机用混合神经网络故障预测方法，包括以下步骤：收集高性能计算机的日志数据，日志数据包括日志事件id，发生对应日志事件的时间戳和日志事件等级；对收集的日志数据进行数据清洗和特征选择，得到初始特征数据；使用随机森林算法构建故障预测模型，将得到初始特征数据输入故障预测模型，使用随机森林算法计算特征重要性，进行特征选择得到特征样本数据；将得到的特征样本数据输入LSTM网络模型中，使用LSTM网络模型对特征样本中是否存在故障事件进行预测。该发明通过随机森林对日志数据特征进行打分遴选，降低维度，这样可以减少训练复杂度，加快训练组度。然而采用随机森林算法构建的故障预测模型，会忽视日志数据中已经出现网络故障波但是运行结果依旧是正常状态的部分内容，从而影响预测结果的精准度。

发明内容

解决的技术问题：针对前述技术问题，本发明提出一种基于ATTENTION-LSTM的网络故障预测方法，有效提升了预测结果的准确率。

技术方案：

一种基于ATTENTION-LSTM的网络故障预测方法，所述网络故障预测方法包括以下步骤：

S1，收集多个时间段内多名用户的网络状况日志数据，网络状况日志数据包括日志事件id、发生对应日志时间的时间戳和用户状况等级；

S2，对网络状况日志数据进行数据清洗和特征选择，得到相应的初始数据特征；

S3，基于隐马尔可夫模型构建故障预测模型，将网络状况日志数据对应的初始数据特征输入到故障预测模型，计算得到相应的时间戳下网络状况日志数据最可能出现的状态序列；生成对应时间段的状态矩阵；状态类型包括故障状态、疑似故障状态和正常状态；

S4，将状态序列连同对应的日志数据，一同输入到数据增强模块，采用数据增强模块对日志数据的文本内容进行语句分析，计算得到日志数据对应的故障概率，其中，该日志数据对应的故障概率包括正常状态下的部分日志数据的故障概率；生成对应时间段的日志数据的故障概率矩阵；将相同时间段的故障概率矩阵与状态矩阵做归一化处理，计算得到相应时间段的故障率样本数据；

S5，将不同时间段的故障率样本数据输入到长短期记忆神经网络模型中，对故障率样本数据中是否存在故障时间进行初步预测，得到初步预测结果；

S6，采用注意力机制对初步预测结果中疑似故障事件的预测结果进行放大处理，判断是否为故障。

进一步地，步骤S1中，所述网络状况日志数据中自定义多类实体的实体列表为：

ER＝{er₁，er₂，…，er_N}

式中，er₁表示第一个种类的实体列表，er₂表示第二个种类的实体列表，er_N表示第N个种类的实体列表，N为实体列表最大数量，取值为正整数；ER中第n个种类的实体列表的元组表示为：

er_n＝(id_n，tim_n，state_n，per_n)

式中，1≤n≤N，id_n代表日志事件序列号，tim_n代表所发生日志事件的时间戳，per_n代表发生日志事件的用户名，state_n代表发生日志时用户状态情况。

进一步地，步骤S2中，对网络状况日志数据进行数据清洗的过程包括以下步骤：去除网络状况日志数据中的冗余的字符信息；对非结构化日志做统一处理，去除重复指令。

进一步地，步骤S3中，生成对应时间段的状态矩阵的过程包括以下步骤：

令随机状况的时间序列timx_m＝(X₁，...，X_m)，1≤m≤M，m代表时间序列中第m个时间段，M为时间序列最大数量，m，M皆为正整数，随机过程中各个当前时间段X_m状态的概率分布只与它的前一个时间段X_m-1状态有关，表示为：

P(X_m|X₁，...，X_m-1)＝P(X_m|X_m-1)

式中，将每小时作为时间检查点，监督每小时内故障状态；P(·)代表当前时间段下三种状态类型发生的概率矩阵，状态类型包括故障状态、疑似故障状态和正常状态；P(X_m|X_m-1)代表根据当前时间段X_m下的前一个时间段X_m-1的状态类型，预测当前时间段X_m最可能产生的状态类型的概率矩阵。

进一步地，步骤S4中，生成对应时间段的日志数据的故障概率矩阵的过程包括以下步骤：

通过分词技术将文本分割成若干关键词，同时进行词性标注处理，并过滤掉停用词，将剩余的关键词构建成图模型；采用图模型对关键词进行相似度排序(例如，故障与事故在图模型中相似)，当新导入的语句中的其中一个词语与图模型中的已有关键词相似度高于设定阈值时，则将该词语作为对应语句中的其中一个关键词；例如，故障为图模型中的关键词，输入语句中包含隐患词语，故障和隐患相似度高，因此默认将隐患设置为该语句的关键词；

对日志数据的文本进行分割，得到相应的句子集合T＝[S1，S2，...，Sp]，1≤p≤P，其中p代表句子集合中第p个语句，P为句子集最大数量，p，P皆为正整数；

对于每个句子Si进行分词和词性标注处理，根据自定义日志文件停用词典过滤掉停用词，只保留指定词性的单词，构建出T的图模型G＝(V,E,W)，其中V是关键词节点的集合，E是节点间各个边的非空有限集合即为V×V的子集，W为各边上的权重集合；1≤i≤p，其中 i为句子集合中第i个语句，取值为正整数；

根据G迭代计算各个节点的权重，计算公式如下：

其中，W_ji是图中任两个节点V_i和V_j之间边的权重；WS(V_i)是节点V_i的权重值，对于一个给定的点V_i，In(V_i)为指向节点V_i的点集合，Out(V_j)为节点V_j指向的点集合；WS(V_j)是节点 V_j的权重值；d表示阻尼系数，取值范围为0到1，代表从文本中的指定节点指向其他任意节点的概率；此处可随机选取一个节点，但该节点不会发生变动，因为如果固定节点发生变动，d的取值将会变化，无法得到一个统一的标准；

对于将句子集合T生成的故障概率矩阵如下：

其中，[S1，S2，...，Sp]为T的子类， [SpWord1，SpWord2，SpWord3，...，SpWordq]为相应的句子中每个单词，选取[s1,s2...sp]中的最长语句，统计最长语句中的单词总个数作为q的初始值，当剩余语句中每句的单词总数小于初始值q时，不足长度的部分用0来填充，若两个节点间有链接关系，对应的值为1，最终生成0－1矩阵。例如，语句集合中包含两句文本[本系统发生故障，目前网络波动但总体情况良好]，由于语句长度不同，对两个语句进行切词语句1 (S1)“本，系统，发生，故障”，语句2(S2)“目前，网络，波动，但，总体，情况，良好”，选取最长的语句单词总数，从而q值为7，将语句集合中不满足最大单词总个数为 7的语句，用0填充，生成矩阵如下：[本，系统，发生，故障，0，0，0；目前，网络，波动，但，总体，情况，良好]。根据图模型中关键词相似度权重，故障和波动存相似度较高，从而存在链接关系，因此最终生成0-1故障概率矩阵：[0,0,0,1,0,0,0；0,0,1,0,0,0,0]。

进一步地，步骤S5中，将不同时间段的故障率样本数据输入到长短期记忆神经网络模型中，对故障率样本数据中是否存在故障时间进行初步预测的过程包括以下步骤：

根据下述公式预测输入ER_k的连续正确的概率Score(ER_k，PL_k)：

式中，1≤k≤K，其中k代表日志数据中第k个日志数据，K为日志数据最大数量，k,K皆为正整数，PL_k是与每个输入日志事件ER_k对应的输出日志事件，R表示训练数据集中的日志事件总数，P(r，PL_r)是对于第r个输入日志事件ER_r输出为PL_r的概率，A(PL_r，PL_r+1)是从PL_r到PL_r+1的转移概率；

求出所有输入日志事件ER_k的连续正确概率Score(ER_k，PL_k)，利用维特比算法对输入日志事件ER_k及输出日志事件PL_k进行概率归一化处理，其中概率归一化处理结果P(PL_k|ER_k)的表达式如下：

式中，

表示预测第r个输入日志事件ER_r的连续正确概率的指数值，

表示为对于第r个输入日志事件ER_r，得到错误的输出日志事件率，

表示错误预测输入日志事件ER_r的连续概率的指数值。

进一步地，步骤S6中，采用注意力机制对初步预测结果中疑似故障事件的预测结果进行放大处理，判断是否为故障的过程包括以下步骤：

采用注意力机制，对不同时间点的初步预测结果进行加权求和，以放大初步预测结果中疑似故障事件的预测结果。

有益效果：

本发明的基于ATTENTION-LSTM的网络故障预测方法，对多个时间段用户时间序列状况特征数据进行模型训练，利用HMM优秀的能力预测用户时间序列故障数据最可能出现的状态序列；将状态序列连同日志数据，一同输入到数据增强模块产生故障率样本数据；根据故障率样本数据，输入到LSTM全连接层对提取的故障数据特征向量进行故障预测；最终对预测的结果进行注意力机制判别；在针对网络故障进行预测过程中，采用长短期神经网络并结合注意力机制。本发明的预测方法，兼容疑似故障数据和正常状态下的网络波动数据，有效提升了预测结果的准确率。

附图说明

图1为本发明实施例的基于ATTENTION-LSTM的网络故障预测方法流程图。

具体实施方式

下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

参见图1，本发明实施例提出一种基于ATTENTION-LSTM的网络故障预测方法，所述网络故障预测方法包括以下步骤：

S1，收集多个时间段内多名用户的网络状况日志数据，网络状况日志数据包括日志事件id、发生对应日志时间的时间戳和用户状况等级。

S2，对网络状况日志数据进行数据清洗和特征选择，得到相应的初始数据特征。

S3，基于隐马尔可夫模型(HMM)构建故障预测模型，将网络状况日志数据对应的初始数据特征输入到故障预测模型，计算得到相应的时间戳下网络状况志数据最可能出现的状态序列；生成对应时间段的状态矩阵；状态类型包括故障状态、疑似故障状态和正常状态。

S4，将状态序列连同对应的日志数据，一同输入到数据增强模块，采用数据增强模块对日志数据的文本内容进行语句分析，计算得到日志数据对应的故障概率，其中，该日志数据对应的故障概率包括正常状态下的部分日志数据的故障概率；生成对应时间段的日志数据的故障概率矩阵；将相同时间段的故障概率矩阵与状态矩阵做归一化处理，计算得到相应时间段的故障率样本数据。

S5，将不同时间段的故障率样本数据输入到长短期记忆神经网络模型(LSTM)中，对故障率样本数据中是否存在故障时间进行初步预测，得到初步预测结果。

S6，采用注意力机制(ATTENTION)对初步预测结果中疑似故障事件的预测结果进行放大处理，判断是否为故障。

具体的，所述预测方法包括：

步骤1，根据所述收集多个时间段内，多名用户的网络状况日志数据，该数据包括日志事件 id，发生对应日志时间的时间戳和用户状况等级；具体包括：

分析日志数据，获取日志数据中自定义多类实体的实体列表：

ER＝{er₁，er₂，...，er_N}

式中，er₁表示第一个种类的实体列表，er₂表示第二个种类的实体列表，er_N表示第N个种类的实体列表。

ER中第n个种类的实体列表的元组表示为

er_n＝(id_n，tim_n，state_n，per_n)

步骤2，根据日志数据进行数据清洗，得到初始数据特征；具体包括：

在将日志数据输入到预测模型之前，需要对数据进行预处理，因由于网络系统生成的日志包含了大量的冗余信息，如无用的数字和标点符号(例如“#”，“&”)，同时，针对非结构化日志做到统一处理，例如上下文日志出现间隔性重复，则删除重复的日志。最终清理这些无用的数据，以防止它影响网络的预测性能。

步骤3，根据使用通过隐马尔可夫模型(HMM)构建故障预测模型，将初始数据特征输入到故障预测模型，使用隐马尔可夫模型计算状态，根据状态对特征选择得到改时间戳下状态率：

由于随机状况的时间序列timx_m＝(X₁，...，X_m)，1≤m≤M时，随机过程中各个当前时间段 X_m状态的概率分布只与它的前一个时间段X_m-1状态有关，表示为：

P(X_m|X₁，…，X_m-1)＝P(X_m|X_m-1)

式中，P(X_m|X_m-1)是为通过已有的某时间段内的网络故障状况，求出该时间段内最可能产生状态矩阵。

步骤4，将状态序列连同日志数据，一同输入到数据增强模块，该模块作用是，对日志文件中日志情况进行二次分析，例如日志数据中出现了网络故障波动但是运行结果依旧是正常状态，但在HMM中无法提出，最终将数据增强后故障概率矩阵与HMM得到的状态矩阵做归一化计算得到故障率样本；具体包括：

面对非结构化日志数据，如何快速识别其中隐藏状态。利用数据增强算法对日志数据进行二次筛选，得到日志文件内状态关键词，该算法首先通过分词技术将文本分割成若干关键词，同时进行词性标注处理，并过滤掉停用词，最终将这些关键词构建成图模型。根据图模型将通过关键词相似度进行排序。即当某个关键词与其他关键词相似度较高时，则在该语句中形成关键词。

假定日志数据为T，对T按照完整句子进行分割后可以得到集合 T＝[S1，S2，...，Sp]。进一步，对于每个句子Si∈T(1≤i≤p)，进行分词和词性标注处理，并过滤掉停用词，其中停用词本文选择自定义日志文件停用词典，只保留指定词性的单词，如名词、形容词。进而构建出T的图模型G＝(V,E,W)，其中V是关键词节点的集合，E是节点间各个边的非空有限集合即为V×V的子集，W为各边上的权重集合，例如图中任两点 Vi,Vj之间边的权重为Wji。

根据G迭代计算各个节点的权重，计算如式：

其中，W_ji是图中任两个节点V_i和V_j之间边的权重；WS(V_i)是节点V_i的权重值，对于一个给定的点V_i，In(V_i)为指向节点V_i的点集合，Out(V_j)为节点V_j指向的点集合；d表示阻尼系数，取值范围为0到1，代表从文本中的指定节点指向其他任意节点的概率，在本实施例中，取值为0.85。最终将HMM状态矩阵与故障概率矩阵，两者矩阵相成得到最终的故障概率样本。

步骤5，将特征样本数据输入到长短期神经网络模型(LSTM)中，对特征样本中是否存在故障时间进行初步预测；具体包括：

将故障率样本数据输入到长短期记忆神经网络模型中，对特征样本中是否存在故障时间进行初步预测；对于每个输入事件ER_k终会得到与之对应的输出事件PL_k，预测输入ER_k的连续正确的概率为Score(ER_k，PL_k)，Score(ER_k，PL_k)的表达式如下：

式中，R表示训练数据集中的事件总数，P(i，PL_i)是对于第i个输入事件ER_i输出为PL_i的概率，A(PL_i，PL_i+1)是从PL_i到PL_i+1的转移概率。

求出所有输入事件ER_n的连续正确概率Score(ER_k，PL_k)，利用维特比算法对输入事件ER_k及输出事件PL_k进行概率归一化处理P(PL_k|ER_k)，其中概率归一化处理结果 P(PL_k|ER_k)表达式如下：

式中，

表示预测第i个输入事件ER_i的连续正确概率的指数值，

表示为对于第i个输入事件ER_i，得到错误的输出事件率，

表示错误预测输入事件ER_i的连续概率的指数值。

步骤6，根据使用注意力机制对初步预测结果中疑似故障事件进行预测结果放大，判断是否为故障；具体包括：

由于LSTM获得每个时间点的输出信息之间的“影响程度”都是一样的，而在初步预测结果中，为了突出部分输出结果对故障的重要性，引入加权的思想，注意力机制本质上就是加权求和，最终实现对网络故障的识别。

Claims

1.一种基于ATTENTION-LSTM的网络故障预测方法，其特征在于，所述网络故障预测方法包括以下步骤：

S6，采用注意力机制对初步预测结果中疑似故障事件的预测结果进行放大处理，判断是否为故障；

步骤S1中，所述网络状况日志数据中自定义多类实体的实体列表为：

ER＝{er₁，er₂，...，er_N}

er_n＝(id_n，tim_n，state_n，per_n)

式中，1≤n≤N，id_n代表日志事件序列号，tim_n代表所发生日志事件的时间戳，per_n代表发生日志事件的用户名，state_n代表发生日志时用户状态情况；

步骤S3中，生成对应时间段的状态矩阵的过程包括以下步骤：

令随机状况的时间序列timx_m＝(X₁，...，X_m)，1≤m≤M，m代表时间序列中第m个时间段，M为时间序列最大数量，m,M皆为正整数，随机过程中各个当前时间段X_m状态的概率分布只与它的前一个时间段X_m-1状态有关，表示为：

P(X_m|X₁，...，X_m-1)＝P(X_m|X_m-1)

式中，将每小时作为时间检查点，监督每小时内故障状态；P(·)代表当前时间段下三种状态类型发生的概率矩阵，状态类型包括故障状态、疑似故障状态和正常状态；P(X_m|X_m-1)代表根据当前时间段X_m下的前一个时间段X_m-1的状态类型，预测当前时间段X_m最可能产生的状态类型的概率矩阵；

步骤S4中，生成对应时间段的日志数据的故障概率矩阵的过程包括以下步骤：

通过分词技术将文本分割成若干关键词，同时进行词性标注处理，并过滤掉停用词，将剩余的关键词构建成图模型；采用图模型对关键词进行相似度排序，当新导入的语句中的其中一个词语与图模型中的已有关键词相似度高于设定阈值时，则将该词语作为对应语句中的其中一个关键词；

对日志数据的文本进行分割，得到相应的句子集合T＝[S1，S2，...Sp]，1≤p≤P，其中p代表句子集合中第p个语句，P为句子集最大数量，p,P皆为正整数；

对于每个句子Si 进行分词和词性标注处理，根据自定义日志文件停用词典过滤掉停用词，

只保留指定词性的单词，构建出T的图模型G＝(V,E,W)，其中V是关键词节点的集合，E是节点间各个边的非空有限集合即为V×V的子集，W为各边上的权重集合；1≤i≤p，其中i为句子集合中第i个语句，取值为正整数；

根据G迭代计算各个节点的权重，计算公式如下：

其中，W_ji是图中任两个节点V_i和V_j之间边的权重；WS(V_i)是节点V_i的权重值，对于一个给定的点V_i，In(V_i)为指向节点V_i的点集合，Out(V_j)为节点V_j指向的点集合；WS(V_j)是节点V_j的权重值；d表示阻尼系数，取值范围为0到1，代表从文本中的指定节点指向其他任意节点的概率；

句子集合T对应的故障概率矩阵如下：

其中，[SpWord1，SpWord，SpWord3，...，SpWordq]为相应的句子中每个单词，选取 [S1， S2 ， ...Sp] 中的最长语句，统计最长语句中的单词总个数作为q的初始值，当剩余语句中每句的单词总数小于初始值q时，不足长度的部分用0来填充，若两个节点间有链接关系，对应的值为1，最终生成0－1矩阵；

步骤S5中，将不同时间段的故障率样本数据输入到长短期记忆神经网络模型中，对故障率样本数据中是否存在故障时间进行初步预测的过程包括以下步骤：

根据下述公式预测输入ER_k的连续正确的概率Score(ER_k，PL_k)：

式中，

表示预测第r个输入日志事件ER_r的连续正确概率的指数值，

表示错误预测输入日志事件ER_r的连续概率的指数值。

2.根据权利要求1所述的基于ATTENTION-LSTM的网络故障预测方法，其特征在于，步骤S2中，对网络状况日志数据进行数据清洗的过程包括以下步骤：

去除网络状况日志数据中的冗余的字符信息；对非结构化日志做统一处理，去除重复指令。

3.根据权利要求1所述的基于ATTENTION-LSTM的网络故障预测方法，其特征在于，步骤S6中，采用注意力机制对初步预测结果中疑似故障事件的预测结果进行放大处理，判断是否为故障的过程包括以下步骤：