CN113553245A

CN113553245A - 结合双向切片gru与门控注意力机制日志异常检测方法

Info

Publication number: CN113553245A
Application number: CN202110549223.3A
Authority: CN
Inventors: 顾士景; 马超; 张闻彬; 王高洲; 殷齐林; 郭爽爽; 黄振; 刘荫; 韩圣亚; 汤琳琳; 于航; 徐浩; 张悦; 王惠剑; 郑海杰; 张凯; 刘培顺
Original assignee: Ocean University of China; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Current assignee: Ocean University of China; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-10-26
Anticipated expiration: 2041-05-20
Also published as: CN113553245B

Abstract

本发明属于日志异常检测技术领域，公开了一种结合双向切片GRU与门控注意力机制日志异常检测方法，包括：使用spell在线解析日志，通过提取日志的log key，将日志解析为结构化序列，引入双向切片与门控注意力机制构建日志异常检测模型，并将解析到得到的特征序列作为日志异常检测模型的输入进行日志异常检测模型训练，利用训练好的日志异常检测模型进行日志异常检测。本发明的日志异常检测算法，具有参数简单，收敛速度快的优点，在减少了运行时间的同时，取得了较高的准确率，在对于大型信息系统的日志分析中取得了较为理想的效果。

Description

结合双向切片GRU与门控注意力机制日志异常检测方法

技术领域

本发明属于日志异常检测技术领域，尤其涉及一种结合双向切片GRU与门控注意力机制日志异常检测方法。

背景技术

目前：系统运行过程中会产生各种各样的日志，这些日志记录了系统运行时的状态和系统执行的各种操作，是在线监视和异常检测的良好信息来源。因此，将系统中存在的异常日志快速准确的检测出来，对维护系统的安全稳定意义重大。

系统日志异常检测一直是异常检测领域中的热门研究课题。系统日志由多种非固定格式的非结构化数据集组成，和统计学、自然语言处理、机器学习等众多学科都有着非常紧密的联系。近些年，各国研究人员应用了不同学科领域的各种方法来进行日志异常检测，并取得了大量杰出的研究成果。现有技术1 利用抽象语法树(Abstract Syntax Tree，AST)和主成分分析(principal Component Analysis，PCA)方法来处理经过解析后产生的日志特征集，通过降低特征集的复杂度，取得了较好的异常检测准确率。但是该方法依赖于静态源代码分析来从日志中提取结构，在日志异常检测中的通用性较差。现有技术2提出一种以日志聚类为核心思想的异常检测方法——LogCluster。它拥有快速处理大量日志数据的能力，同时也能取得较高的异常检测精度。但是LogCluster对日志进行分组时，使用会话窗口的方式，这使得LogCluster只能检测带标记符的日志，限制了该方法的通用性。

近些年，深度学习的发展势头迅猛，在各个相关领域都取得了较为显著的成果，尤其在自然语言处理领域进展巨大。涌现出了大量以NLP为基础的优秀模型。现有技术3将系统日志中提取出的信息视为自然语言序列，围绕自然语言序列的处理，提出了一种基于LSTM的深度学习神经网络模型——DeepLog。该模型从正常执行中自动学习日志模型，并通过该模型，对正常执行下的日志数据进行异常监测。当检测到的日志与既定规则产生冲突时，即认定其为异常。实验结果表明，该方法在多个大型日志数据集上取得了非常高的检测精度，总体性能优于其他基于传统数据挖掘的日志异常检测方法。但该方法检测效率较低，理论上仍有一定提升空间。

通过上述分析，现有技术存在的问题及缺陷为：现有的日志异常检测方法检测速度慢，准确率不高。

解决以上问题及缺陷的难度为：不同行业领域产生的系统日志在内容以及格式方面存在较大差异，且数据量巨大，无法采用某种单一方法进行日志异常检测。对于某些没有标记符的日志，现存的一些基于标记符的日志异常检测方法无法发挥作用，且采用人工对于日志进行标记工作量巨大，难以完成。目前基于深度学习的日志异常检测模型无需对日志进行人工标记，能够自动学习异常日志特征，并基于异常日志特征进行日志异常检测，取得了良好的检测精度。但由于庞大的日志数据量，造成性能的下降以及巨大的时间开销。如何在处理海量日志数据的同时减少时间开销，是一个非常困难的问题。

解决以上问题及缺陷的意义为：通过结合双向切片GRU与门控注意力机制，减少了日志异常检测模型的参数数量，在模型上可以双向并行处理经过切片后的日志数据，显著减少了时间开销，同时引入门控注意力机制，使得检测精度得到了进一步的提高。在对于大型信息系统的日志分析中取得了理想的效果，在检测精度以及总体性能开销方面，优于现存大部分日志异常检测方法。在大型信息系统的风险分析以及故障预测领域具有积极影响。

发明内容

针对现有技术存在的问题，本发明提供了一种结合双向切片GRU与门控注意力机制日志异常检测方法。

本发明是这样实现的，一种结合双向切片GRU与门控注意力机制日志异常检测方法，所述结合双向切片GRU与门控注意力机制日志异常检测方法包括：使用spell在线解析日志，通过提取日志的log key，将日志解析为结构化序列，引入双向切片与门控注意力机制构建日志异常检测模型，并将解析到得到的特征序列作为日志异常检测模型的输入进行日志异常检测模型训练，利用训练好的日志异常检测模型进行日志异常检测。

进一步，所述日志异常检测模型包括：

输入层、双向GRU层、GA-Attention层、第二GRU层、拼接层和softmax 层；

输入层，用于用Word2Vec方法生成log key单词向量x_m；并利用x_ij表示 logkeyX_i的第j个单词的词向量j∈[1,MaxKey]；

双向GRU层，用于对经过Word2Vec方法生成的输入序列在两个方向分别进行处理；

GA-Attention层，用于为每个logkey中经过筛选的单词分配权重；

第二GRU层，用于对于GA-Attention层的输出序列在两个方向进行处理；

拼接层，用于将计算得到顶层输出

与

进行拼接；

softmax层，用于基于拼接结果计算得到一个n维向量，每一维度的值代表 logkey表中的每个元素出现在当前位置的概率，并得到每个logkey出现的概率。

进一步，所述日志异常检测模型损失函数为：

Loss＝-∑logp_dj；

其中，d表示每条logkey，j表示标签。

进一步，所述结合双向切片GRU与门控注意力机制日志异常检测方法包括以下步骤：

步骤一，利用Spell从日志数据中解析出logkey，并利用Word2Vec工具训练logkey向量；此步骤的作用是将logkey转化为转为计算机可以理解的稠密向量。

步骤二，将logkey转换成固定长度的索引，每个索引对应一个logkey序列向量；将logkey序列向量拼接成logkey序列矩阵，作为模型的嵌入层权重；此步骤的作用是产生模型的嵌入层权重。

步骤三，将日志解析出的logkey分别进行切片处理作为B i-SSGRU-GA-Attention模型的输入；此步骤的作用是将解析出的logkey进行切片，便于在模型中双向同步处理，减少模型的时间开销。

步骤四，将log key最小子序列索引表示输入嵌入层，再输入Bi-SSGRU层，提取logkey子序列层次特征；此步骤的作用是利用Bi-SSGRU层，提取log key 子序列层次特征，用于后续的异常分析。

步骤五，将每个子序列经过Bi-SSGRU提取到的特征输入到GA-Attention 层，分配相应的logkey序列向量权重；此步骤的作用是选择性的赋予logkey序列向量一定的权重，使正常日志或异常日志的序列特征更加明显，提高日志异常检测的准确率。

步骤六，经过多个网络层获取整个log key序列的特征表示，作为下一可能logkey概率表示；此步骤的作用是得到一个logkey概率表示。

步骤七，将logkey表按照输出的概率值从大到小排列，选取其中前b个组成集合；若系统当前时刻输出日志的logkey存在于集合中，则判断所述日志是正常的，否则即视为异常。此步骤的作用是判断概率值是否在预先设定的可信概率集合中，从而判断日志为正常或异常。

进一步，步骤一中，所述利用Spell从日志数据中解析出logkey包括：

(1)初始化LCSObject、LCSseq、lineIds以及存放所有日志对象的列表 LCSMap；

(2)流式读取日志，当读取到一个新的日志条目之后，遍历LCSMap，寻找该日志与所有LCSObject的最大公共子序列，如果子序列的长度大于日志序列长度的一半，则认为该日志该与日志键匹配；如果找到匹配的日志对象，跳转步骤(4)；如果没有，或者LCSMap为空，则跳转步骤(3)；

(3)将该行日志初始化为一个新的LCSObject，放入列表LCSMap中；

(4)将该行日志更新到匹配的LCSObject的行数列表lineIds中，并且更新LCSseq；

(5)跳转至步骤(2)，直到日志读取完毕。

进一步，所述利用Word2Vec工具训练log key向量包括：

采用Word2Vec方法生成logkey单词向量x_m，并利用x_ij表示X_i的第j个单词的词向量j∈[1,MaxKey]，令每个logkey的长度由MaxKey个单词向量构成，则每一个logkeyX_i可以表示为：

其中，X_i表示logkey,i∈[1,S],S表示总的logkey数量。

进一步，所述将日志解析出的logkey分别进行切片处理包括：

i,j分别表示处理方向上的第i个最小子序列的第j个输入。

进一步，所述提取logkey子序列层次特征包括：

首先，对于每个最小序列，根据上一层输出h_ij，输入单层感知机MLP以获得h_ij的隐含表示μ_ij；

然后，使用μ_ij和μ_w的相似度衡量单词的重要性，并通过softmax函数得到一个归一化的重要性权重矩阵α_ij；

最后，计算词向量的加权和得到每个最小子序列新的表示s_i，进行logkey 级别的局部关键特征关注。

进一步，所述logkey概率表示包括：

其中，c表示输入的历史序列，x_t表示目标logkey，V′(x)表示softmax层中的输出词向量。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明的日志异常检测算法，具有参数简单，收敛速度快的优点，在减少了运行时间的同时，取得了较高的准确率，解决了现存日志异常检测方法中存在的参数复杂、时间开销大以及精准度不高的问题。在对于大型信息系统的日志分析中取得了较为理想的效果。

本发明在基于GRU神经网络的日志异常检测算法的基础上，结合循环神经网络(RNN)提出了一种基于双向切片门控循环单元和门控注意力机制 (Bi-SSGRU-GA-Attention)的日志异常检测算法。针对海量不定格式的非结构化日志，通过提取日志的logkey，将日志解析为结构化序列，将解析到得到的特征序列作为模型的输入，用来训练Bi-SSGRU-GA-Attention神经网络模型用以检测日志异常，具有参数简单，收敛速度快的优点，在提升了运行速度的同时取得了较高检测精度。

本发明基于双向切片GRU与门控注意力机制相结合的日志异常检测方法，使用spell在线解析日志，使用基于logkey的日志解析方法，引入双向切片与门控注意力机制，实现了GRU在训练过程中并行性的可能，节约了模型的训练时间，同时提升了检测精度。实验结果表明，本发明算法在HDFS等大型日志数据集上取得了良好的表现，准确率、召回率以及时间成本均好于当前主流的一些日志异常检测方法。本发明能为今后相关工作提供算法参考和模型构建基准，具有一定理论指导意义。

附图说明

图1是本发明实施例提供的结合双切片GRU与门控注意力机制的日志异常检测模型示意图。

图2是本发明实施例提供的结合双向切片GRU与门控注意力机制日志异常检测方法流程图。

图3是本发明实施例提供的标准RNN结构示意图。

图4是本发明实施例提供的标准GRU结构示意图。

图5是本发明实施例提供的SGRU具体结构示意图。

图6是本发明实施例提供的辅助网络示意图。

图7是本发明实施例提供的骨干网络示意图。

图8是本发明实施例提供的四中方法在准确率、精确率、召回率、F值四个指标上的效果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种结合双向切片GRU与门控注意力机制日志异常检测方法，下面结合附图对本发明作详细的描述。

本发明实施例提供的结合双向切片GRU与门控注意力机制日志异常检测方法包括：

使用spell在线解析日志，通过提取日志的log key，将日志解析为结构化序列，引入双向切片与门控注意力机制构建日志异常检测模型，并将解析到得到的特征序列作为日志异常检测模型的输入进行日志异常检测模型训练，利用训练好的日志异常检测模型进行日志异常检测。

如图1所示，本发明实施例提供的日志异常检测模型包括：

GA-Attention层，用于为每个logkey中经过筛选的单词分配权重；

拼接层，用于将计算得到顶层输出

与

进行拼接；

本发明实施例提供的日志异常检测模型损失函数为：

Loss＝-∑logp_dj；

其中，d表示每条logkey，j表示标签。

实施例

如图1至图8所示为本发明的结合双向切片GRU与门控注意力机制日志异常检测方法的实施例，包括以下步骤：

S101，利用Spell从日志数据中解析出logkey，并利用Word2Vec工具训练 log key向量；

S102，将logkey转换成固定长度的索引，每个索引对应一个logkey序列向量；将logkey序列向量拼接成logkey序列矩阵，作为模型的嵌入层权重；

S103，将日志解析出的logkey分别进行切片处理作为B i-SSGRU-GA-Attention模型的输入；

S104，将log key最小子序列索引表示输入嵌入层，再输入Bi-SSGRU层，提取logkey子序列层次特征；

S105，将每个子序列经过Bi-SSGRU提取到的特征输入到GA-Attention层，分配相应的logkey序列向量权重；

S106，经过多个网络层获取整个log key序列的特征表示，作为下一可能 logkey概率表示；

S107，将logkey表按照输出的概率值从大到小排列，选取其中前b个组成集合；若系统当前时刻输出日志的logkey存在于集合中，则判断所述日志是正常的，否则即视为异常。

下面结合具体实施例对本发明的技术方案作进一步说明。

本实施例仅需使用Spell方法对日志进行解析提取出Logkey，并经过 Word2Vec工具训练log key向量，将训练后的log key向量作切片处理后，即可作为Bi-SSGRU-GA-Attention模型的输入，输出的结果即为对日志正常或异常的判断。Bi-SSGRU-GA-Attention模型引入双向切片与门控注意力机制，实现了 GRU在训练过程中并行性的可能，节约了模型的训练时间，同时提升了检测精度。

步骤S101中，利用Spell从日志数据中解析出logkey，具体步骤包括：

(3)将该行日志初始化为一个新的LCSObject，放入列表LCSMap中；

(5)跳转至步骤(2)，直到日志读取完毕。

本发明将所有的logkey定义为X_i,i∈[1,S],S为总的logkey数量。采用 Word2Vec方法生成log key单词向量x_m，x_m纬度本发明设定为100，m∈[1，Z]，Z 为X_i中所有不重复的logkey的个数，在本发明中，本发明采用Word2Vec中的 CBOW模型实现上述操作。然后，本发明使用x_ij来表示X_i的第j个单词的词向量 j∈[1,MaxKey]，本发明令每个logkey的长度由MaxKey个单词向量构成，则每一个logkeyX_i可以表示为：

步骤S102中，将logkey转换成固定长度的索引，每个索引对应一个logkey 序列向量；将logkey序列向量拼接成logkey序列矩阵，作为模型的嵌入层权重；

步骤S103中，如图1和图3所示，将日志解析出的logkey分别进行切片处理作为Bi-SSGRU-GA-Attention模型的输入；

步骤S104中，对经过Word2Vec方法生成的输入序列，本发明在两个方向分别进行处理：

i,j分别表示处理方向上的第i个最小子序列的第j个输入。

步骤S105中，为每个logkey中经过筛选的单词分配权重，首先，对于每个最小序列，根据上一层输出h_ij，输入单层感知机MLP以此获得h_ij的隐含表示μ_ij，然后使用μ_ij和μ_w的相似度来衡量单词的重要性，此处的μ_w是一个经过初始化用以表示上下文的向量。在衡量完单词的重要性之后，通过softmax函数得到一个归一化的重要性权重矩阵α_ij，最后，求词向量的加权和来得到每个最小子序列新的表示s_i，以此实现logkey级别的局部关键特征关注。

步骤S106中，如图1所示，在这一层中，本发明对于GA-Attention层的输出序列同样在两个方向进行处理：

其中

表示第一层第t个logkey子序列的隐含表示；p₀表示最小子序列个数，p₁表示第一层的log key子序列个数；l₀表示最小子序列长度。在第

层和第

层(n>1)：与第二GRU层同理，本发明可以推理出第n层输出的隐含表示如下：

表示第n层GRU第t个子序列的隐含表示；p_n表示n 层子序列的个数，见，l_n表示第n层子序列长度。

步骤S107中，由第

层和第

层本发明可以计算出顶层

将

与

进行拼接操作，将拼接后的结果作为softmax层的输入，通过softmax层计算得到一个n维向量，每一维度的值代表logkey表中的每个元素出现在当前位置的概率，所有概率之和为1。计算过程的数学形式如下：

由此可得出每个logkey出现的概率：

其中c表示输入的历史序列，x_t代表目标logkey，V′(x)为softmax层中的输出词向量。本发明采用的损失函数为：Loss＝-∑logp_dj。其中，d表示每条logkey，j表示标签。将logkey表按照输出的概率值从大到小排列，选取其中前b个组成集合。若系统当前时刻输出日志的logkey存在于集合中，则认为该日志是正常的，否则即视为异常。

实验评估

实验数据集

本实验选取了两个具有典型代表性的公开日志数据集。HDFS数据和BGL 数据，这两个数据集都是从生产系统收集的，共有15923592条日志消息和365298 个异常样本，HDFS数据包含11175629条日志消息，这些消息是从亚马逊EC2 平台收集的。HDFS日志记录每个数据块操作(如分配、写入、复制、删除)的唯一数据块ID。因此，日志中的操作可以更自然地被会话窗口捕获，如III-B中所介绍的，因为每个唯一的块ID可以用来将日志分割成一组日志序列。然后，本发明从这些日志序列中提取特征向量，并生成575061个事件计数向量。其中， 16838个样本被标记为异常。BGL数据包含4747963条日志信息，由Lawrence Livermore国家实验室(LLNL)的BlueGene/L超级计算机系统记录。与HDFS 数据不同，BGL日志没有记录每个作业执行的标识符。因此，本发明必须使用固定窗口或滑动窗口将日志切片为日志序列，然后提取相应的事件计数向量。但是窗口的数量取决于选择的窗口大小(和步长)。在BGL数据中，348460条日志消息被标记为故障，如果该序列中存在任何故障日志，则日志序列被标记为异常。因此，本发明将这些标签(异常与否)作为准确性评估的基础事实依据。在数据集上进行多角度的对比实验用以评估算法的性能。

实验环境

实验环境具体配置如下：处理器为Intel Corei7-10750H(5.0GHz)，显卡为NVIDIAGeForce GTX1650Ti(4GB)，32GB RAM(2133MHz)，操作系统为Ubuntu 16.04(64位)，编程环境为Python3.6.5。深度学习框架采用tensorflow。

模型参数

词嵌入维度代表了词语的特征，特征越多越能够更加准确的将词与词区分开来，但是在实际应用中维度太多会导致模型训练的开销增大，且维度越多词与词之间的关系也就越被淡化，这与本发明训练词向量的目的是相反的。因此本实验中，本发明设置词嵌入维度为200，Batch_size设置为1024，不同方向的隐藏层节点数设置为100，采用的优化器为Adam，迭代次数为10次。模型参数如表1所示：

表1模型参数

实验过程

本实验具体实施步骤如下：

b)使用Word2Vec工具训练log key向量；

c)将logkey转换成固定长度的索引，每个索引对应一个logkey序列向量；

e)将logkey序列向量拼接成logkey序列矩阵，作为模型的嵌入层权重；

f)将日志解析出的logkey分别进行切片处理作为Bi-SSGRU-GA-Attention 模型的输入；

g)log key最小子序列索引表示输入嵌入层，再输入Bi-SSGRU层，提取 log key子序列层次特征；

h)将每个子序列经过Bi-SSGRU提取到的特征输入到GA-Attention层，分配相应的logkey序列向量权重；

i)经过多个网络层获取整个log key序列的特征表示；作为下一可能logkey 概率表示。

为了验证双向切片GRU与门控注意力机制结合的日志异常检测模型的速度提升，本次实验选取包含11175629条数据的亚马逊大型HDFS日志作为此次对比实验数据集，对比实验共分为3组，在Maxkey为6时1种切片方式：SGRU (3，2)；在Maxkey为9时1种切片方式：SGRU(3，3)；在Maxkey为 12时1种切片方式：SGRU(4，3)。对比切片与不切片方式下的运行速度。表2 给出了不同输入长度下两种切片方式的运行速度对比，从表中可以看出，不同序列长度下的切片GRU模型相较于原模型的速度均有显著提升。对比不同序列长度下的性能提升幅度，可以看到序列长度越长，双向切片GRU与门控注意力机制结合模型相较于原模型速度提升越大。

表2切片模型与原模型在不同序列长度下运行速度对比

对比实验

在对比实验中，本发明选取了三种目前被广泛采用的异常检测算法：主成分分析(principal Component Analysis，PCA)、DeepLog和基于GRU的深度学习异常检测算法(引用)与本发明算法进行对比。其中PCA是离线检测算法，使用会话窗口(Session Windows)对日志进行分块(本发明使用滑动窗口)，从而提取出logkey，对logkey序列执行异常检测。现有技术实现了此种方法，相关开源代码可在github上找到。DeepLog使用LSTM神经网络构建模型，能够实现对日志异常的在线检测。基于GRU的深度学习异常检测算法在DeepLog 算法的基础上做了改进，采用GRU单元代替LSTM单元，具有参数少，训练快的优点，能够完成对日志异常的在线检测。实验首先对比PCA、DeepLog、GRU 三种方法的检测精度，然后对比GRU与Bi-SSGRU-GA-Attention这两种在线检测方法的检测速度，从多方面综合评价本发明算法。

本发明对比实验采用的日志数据集为203个亚马逊EC2节点运行38.7小时产生的HDFS日志数据集。该数据集中存在11175629条日志数据，包括575062 个事件跟踪(eventtrace)，对应着575062个具有不同block_id的HDFS文件块。所有的block_id均由Hadoop领域专家标记为正常或异常，其中异常数据数量约占总数据量的2.9％。现有技术构造了此数据集，并且在日志异常检测领域被广泛使用，该数据集开源并可在loghub获取。表3给出了训练集和测试集的具体信息。

表3训练集与测试集数据信息

实验采用的评估指标有准确率(Accuracy)、假阳性(false positives，FP)、假阴性(False negatives)、精确率(Precision)、召回率(Recall)、F值(F-measure) 六个指标。将正确检测出一个异常定义为一个正类，则FN和FP分别代表正常日志和异常日志的误报数量。准确率计算公式为：

表示被正确分类的正常日志和异常日志占总日志的百分比。精确率的计算公式为：

表示真异常在所有检测到的异常中所占的比例。召回率计算公式为：

表示检测到的异常占数据集中总异常的百分比。F值的计算公式为：

F值为精确率和召回率的加权调和平均，是一种基于精确率和召回率的综合评价指标。表4给出了四种算法在假阳性(false positives，FP)、假阴性(False negatives)、两个指标上的性能表现，可以看出，PCA算法在假阳性指标上表现优异，说明PCA算法在异常误报率方面控制的很好，但却得到了较多的假阴性，说明PCA算法倾向于将异常日志判别为正常，相比之下，DeepLog与GRU 算法均取得了较少的假阳性与假阴性，本发明算法在假阳性与假阴性方面表现略优于DeepLog算法与GRU算法。在性能方面取得了一定程度的提升。

表4 PCA、DeepLog，GRU、本文算法性能对比

图8在准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值 (F-measure)四个指标上对比了以上四种算法。从图中本发明可以看出，在精确率与F值方面，本发明算法略低于DeepLog，但在准确率与召回率两个指标中取得了最高成绩，整体性能与DeepLog相当，略优于GRU算法，明显好于PCA 算法。

为了验证本发明算法在运行速度上的提升，本发明将本发明算法与GRU算法单独进行对比试验。运行速度通过总运行时间以及平均每条日志所需的检测时间这两个指标来衡量。表5展示了GRU算法与本发明算法在HDFS日志测试数据集上的运行速度：

表5 GRU算法与本文算法运行速度对比

结合上表可以看到，在取得近似检测精度的前提下，本发明算法在运行速度上取得了较大的领先，相比GRU算法，运行总时间节约了8.9％，平均运行时间节约了8.2％。在实时性方面体现出了本发明算法的优越性。

综合来看，本发明算法优于PCA算法，同时在时间开销上优于DeepLog 算法与GRU算法，检测速度更快。在面对日志数量巨大且实时性要求较高的情境下，本发明算法有着较高的应用价值和实际意义。

结语

当前日志异常检测领域中涉及到神经网络与注意力机制的研究相对较少。本发明算法针对日志异常检测领域的不足之处，提出了一种基于双向切片GRU 与门控注意力机制相结合的日志异常检测算法，使用spell在线解析日志，使用基于logkey的日志解析方法，引入双向切片与门控注意力机制，实现了GRU在训练过程中并行性的可能，节约了模型的训练时间，同时提升了检测精度。实验结果表明，本发明算法在HDFS等大型日志数据集上取得了良好的表现，准确率、召回率以及时间成本均好于当前主流的一些日志异常检测方法。本发明研究目的是为今后相关工作提供算法参考和模型构建基准，具有一定理论指导意义。

证明部分(具体实施例/实验/仿真/药理学分析/能够证明本发明创造性的正面实验数据等)

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种结合双向切片GRU与门控注意力机制日志异常检测方法，其特征在于，所述结合双向切片GRU与门控注意力机制日志异常检测方法包括：使用spell在线解析日志，通过提取日志的log key，将日志解析为结构化序列，引入双向切片与门控注意力机制构建日志异常检测模型，并将解析到得到的特征序列作为日志异常检测模型的输入进行日志异常检测模型训练，利用训练好的日志异常检测模型进行日志异常检测。

2.如权利要求1所述结合双向切片GRU与门控注意力机制日志异常检测方法，其特征在于，所述日志异常检测模型包括：

输入层、双向GRU层、GA-Attention层、第二GRU层、拼接层和softmax层；

输入层，用于用Word2Vec方法生成log key单词向量x_m；并利用x_ij表示logkeyX_i的第j个单词的词向量j∈[1,MaxKey]；

GA-Attention层，用于为每个logkey中经过筛选的单词分配权重；

拼接层，用于将计算得到顶层输出

与

进行拼接；

softmax层，用于基于拼接结果计算得到一个n维向量，每一维度的值代表logkey表中的每个元素出现在当前位置的概率，并得到每个logkey出现的概率。

3.如权利要求2所述结合双向切片GRU与门控注意力机制日志异常检测方法，其特征在于，所述日志异常检测模型损失函数为：

Loss＝-∑logp_dj；

其中，d表示每条logkey，j表示标签。

4.如权利要求1所述结合双向切片GRU与门控注意力机制日志异常检测方法，其特征在于，所述结合双向切片GRU与门控注意力机制日志异常检测方法包括以下步骤：

步骤一，利用Spell从日志数据中解析出logkey，并利用Word2Vec工具训练log key向量；

步骤二，将logkey转换成固定长度的索引，每个索引对应一个logkey序列向量；将logkey序列向量拼接成logkey序列矩阵，作为模型的嵌入层权重；

步骤三，将日志解析出的logkey分别进行切片处理作为Bi-SSGRU-GA-Attention模型的输入；

步骤四，将log key最小子序列索引表示输入嵌入层，再输入Bi-SSGRU层，提取log key子序列层次特征；

步骤五，将每个子序列经过Bi-SSGRU提取到的特征输入到GA-Attention层，分配相应的logkey序列向量权重；

步骤六，经过多个网络层获取整个log key序列的特征表示，作为下一可能logkey概率表示；

步骤七，将logkey表按照输出的概率值从大到小排列，选取其中前b个组成集合；若系统当前时刻输出日志的logkey存在于集合中，则判断所述日志是正常的，否则即视为异常。

5.如权利要求4所述结合双向切片GRU与门控注意力机制日志异常检测方法，其特征在于，步骤一中，所述利用Spell从日志数据中解析出logkey包括：

(1)初始化LCSObject、LCSseq、lineIds以及存放所有日志对象的列表LCSMap；

(3)将该行日志初始化为一个新的LCSObject，放入列表LCSMap中；

(5)跳转至步骤(2)，直到日志读取完毕。

6.如权利要求4所述结合双向切片GRU与门控注意力机制日志异常检测方法，其特征在于，所述利用Word2Vec工具训练log key向量包括：采用Word2Vec方法生成logkey单词向量x_m，并利用x_ij表示X_i的第j个单词的词向量j∈[1,MaxKey]，令每个logkey的长度由MaxKey个单词向量构成，则每一个logkeyX_i可以表示为：

其中，X_i表示logkey,i∈[1,S],S表示总的logkey数量。

7.如权利要求4所述结合双向切片GRU与门控注意力机制日志异常检测方法，其特征在于，所述将日志解析出的logkey分别进行切片处理包括：

i,j分别表示处理方向上的第i个最小子序列的第j个输入。

8.如权利要求4所述结合双向切片GRU与门控注意力机制日志异常检测方法，其特征在于，所述提取log key子序列层次特征包括：

最后，计算词向量的加权和得到每个最小子序列新的表示s_i，进行logkey级别的局部关键特征关注。

9.如权利要求4所述结合双向切片GRU与门控注意力机制日志异常检测方法，其特征在于，所述logkey概率表示包括：

其中，c表示输入的历史序列，x_t表示目标logkey，V'(x)表示softmax层中的输出词向量。

10.一种数据挖掘的日志异常检测终端，其特征在于，所述数据挖掘的日志异常检测终端用于实现权利要求1～9任意一项所述的结合双向切片GRU与门控注意力机制日志异常检测方法。