CN116910013A

CN116910013A - 基于语义流图挖掘的系统日志异常检测方法

Info

Publication number: CN116910013A
Application number: CN202310873970.1A
Authority: CN
Inventors: 李腾; 魏少博; 林炜国; 彭春蕾; 李思琦; 崔金玉; 李德彪
Original assignee: Xi'an Lianfei Intelligent Equipment Research Institute Co ltd; Xidian University
Current assignee: Xi'an Lianfei Intelligent Equipment Research Institute Co ltd; Xidian University
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-10-20

Abstract

本发明公开一种基于语义流图挖掘的系统日志异常检测方法，主要解决了现有技术针对海量非结构化日志在异常检测任务中日志噪声去除难、系统变更导致检测效果不佳的问题。包括：1)对日志原始语句进行预处理，去除无意义符号并进行分词；2)利用Word2Vec结合日志语句中单词的重要度计算日志语句的词向量；3)利用基于注意力机制的双GRU网络，得到日志语句的句向量表示；4)对日志句向量进行聚类，将相似度高的日志语句划分为一类，构造语义流图；5)通过图卷积神经网络对语义流图进行特征提取和训练，实现异常检测。本方法能够有效解决日志噪声对异常检测的影响，并利用日志语句之间的空间结构信息提高异常检测的准确性。

Description

基于语义流图挖掘的系统日志异常检测方法

技术领域

本发明属于信息安全技术领域，进一步涉及异常检测方法，具体为一种基于日志语义信息提取的系统异常检测方法，可用于主流计算机系统的异常检测和识别。

背景技术

系统日志记录了系统的状态信息和运行情况，包含系统的异常信息，通常由静态文本和变量组成，是了解系统状态的宝贵资源，通过分析系统日志包含的信息，能够分析系统的异常、定位系统故障点，进而提高系统的安全性和可靠性。日志文件与自然语言编写的文档并不相同，一是日志中相似的消息不断重复，这是由于程序通常以循环的方式执行，导致事件重复发生，并且大多数日志都由一组数量有限的日志打印语句生成，即代码中预定义的函数将格式化字符串写入输出并生成日志消息；二是日志中的一些消息具有高度的相关性，这是因为系统程序的执行遵循某些控制流，生成日志的组件之间彼此链接。目前绝大多数系统产生的日志都是半结构化或者非结构化的，不同系统之间的日志格式和类型都有所不同，因此，即使日志包含了系统重要事件的信息，要想对日志进行高效解析，提取日志中的事件信息进行异常检测也成为了一个难点。除了半结构化日志格式复杂难以解析和提取有效信息外，针对系统日志进行异常检测还面临着日志数据量庞大，日志中的垃圾数据和噪声的影响。

目前主流的针对系统日志进行异常检测方法主要包括以下步骤：1)对系统日志进行解析，提取日志中的模板；2)将日志模板构建为日志序列，提取日志模板序列中的特征向量；3)利用机器学习或深度学习的方法进行异常检测。但是面对海量非结构化和半结构化的系统日志，进行日志解析提取日志模板对日志解析器提出了挑战，此外，日志解析在异常检测系统中具有较大的时空消耗，导致异常检测任务效率低下。更重要的是，存在于系统日志中的噪声数据难以进行去除，这将直接影响异常检测的准确率。因此针对系统日志进行异常检测时如何克服日志解析带来的效率低下以及日志噪声对异常检测准确率的影响成为了亟待解决的难题。

发明内容

本发明目的在于针对上述现有技术的不足，提出一种基于语义流图的系统日志异常检测方法，解决现有技术针对海量非结构化日志在异常检测任务中日志噪声去除难、系统变更导致日志语句变更等问题。在进行基于日志的异常检测任务过程中，日志噪声的产生主要有以下几个原因：1)在收集和传输日志的过程中，由于传输延迟或数据丢失导致的日志数据混乱缺失；2)系统或应用程序重复记录事件信息；3)日志解析过程中，由于解析器的不稳定性导致日志模板的错误识别。此外，计算机系统在交付过程中的升级导致代码中的日志打印语句随之改变，由此产生的日志模板更新也会导致异常检测的误报率提高。本发明能够通过提取日志语句的语义向量将其作为语义流图的节点特征，通过图卷积神经网络模型对语义流图进行训练，能有效解决日志噪声对异常检测的影响并进一步利用日志语句之间的空间结构信息提高异常检测的准确性。

实现本发明方案的思路是：首先对日志原始语句进行简单的预处理，去除无意义符号和进行分词；其次利用Word2Vec结合日志语句中单词的重要度进行计算，得到日志语句的词向量，再利用基于注意力机制的双向门控循环单元(gated recurrent unit,GRU)网络进行计算得到日志语句的句向量表示；然后采用K-means聚类的方法对日志句向量进行聚类，相似度较高的日志语句划分为同一类，将其视为语义流图的同一节点，将日志序列转换为非去重的节点序列之后，将节点按照序列顺序构造出有向无环图，本发明称为语义流图。最后通过图卷积神经网络对语义流图进行特征提取和训练，实现基于语义流图的系统异常检测。

本发明实现上述目的的具体步骤如下：

(1)将对原始系统日志进行日志语句分割，去除无意义的符号，保留具有特殊含义的组合单词，得到初始预处理后的系统日志；

(2)将初始预处理后的系统日志按照会话或窗口机制划分日志序列，利用Word2Vec模型将该日志序列中的单词或词组转换为词向量，令第m条日志的第n个单词的词向量为v_n ^m；

(3)计算日志语句中单词的词频-逆文档频率TF-IDF，其中，第m条日志的第n个单词的TF-IDF表示为T_mn；

(4)将与T_mn相结合，根据下式得到最终日志语句单词的向量表示W_mn：

其中，α表示权重因子；

(5)将W_mn作为基于注意力机制的双向GRU模型的输入，得到包含L条日志序列的句向量集合S＝{s₁,s₂,...,s_m,...,s_L}，其中，s_m表示第m条日志语句向量；

(6)采用K-means聚类方法对集合S中的日志语句向量进行聚类，将日志序列按照聚类结果进行匹配得到节点序列，按照该节点序列顺序构造出节点的有向无环图，最终得到日志序列的语义流图G＝(V,E)，其中，V表示节点集合，E表示边的集合；

(7)使用图卷积神经网络对语义流图G进行特征提取和训练，通过对语义流图中节点特征进行传播和聚合，将其映射到分类标签，得到系统日志异常检测结果。

本发明与现有技术相比具有以下优点：

第一、由于本发明通过提取日志原始语句的语义，并将其转化为语义流图的形式进行异常检测，故只需要对原始日志进行简单的预处理，无需对原始日志语句进行难度较大且效率低下的日志解析工作，从而极大地提高了异常检测的效率。

第二、本发明采用K-means聚类的方法对日志语句向量进行聚类分析，极大地降低了日志噪声对异常检测的影响，同时也解决了在系统交付过程中，由于系统不断更新迭代所带来的日志语句不稳定性的问题。

第三、本发明采用语义流图的形式来进行异常检测，图结构能够包含序列所没有的空间结构信息，因此，利用图卷积神经网络模型能够提取语义流图中的节点和边特征以及空间信息特征，对于隐含在空间结构信息中的异常也能进行检测。

附图说明

图1为本发明的实现流程图；

图2为本发明中语义流图构造过程示意图；

图3为本发明构造的语义流图简化例图；

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合具体实施例对本发明做进一步清楚、完整的描述。

实施例一：参照图1，本发明提出的一种基于日志语义流图的系统异常检测方法，具体包括以下步骤：

步骤1.将对原始系统日志进行日志语句分割，去除无意义的符号，例如分号、逗号等标点符号以及#、@、*等特殊符号；然后对日志原始语句进行分词，对于一些特定的组合单词，如PacketResponder,本发明将这些具有特定含义的组合单词进行保留不进行分词，得到初始预处理后的系统日志。

步骤2.将初始预处理后的系统日志按照会话或窗口机制划分日志序列，得到规模为N的日志序列L，利用Word2Vec模型将该日志序列中的单词或词组转换为词向量，令第m条日志的第n个单词的词向量为。本实施例中利用Word2Vec模型的skip-gram变体对输入的日志序列进行语义向量提取，日志序列L中的第i条日志的语义向量为/>其中，/>表示该条日志中第j个单词的语义向量。

步骤3.计算日志语句中单词的词频-逆文档频率TF-IDF，其中，第m条日志的第n个单词的TF-IDF表示为T_mn。由于本发明只对原始日志进行了简单的预处理，并没有进行日志解析，保留了绝大部分单词，因此，为了考虑日志语句中不同单词的重要程度，本发明对日志语句中的单词计算TF-IDF。

计算日志语句中单词的词频-逆文档频率TF-IDF,实现步骤如下：

(3.1)将经过预处理的日志语句组成一个文档集合D，针对该集合中每一个日志语句和其中给定的单词，计算单词w在日志语句d中的词频TF(w,d)；

(3.2)计算单词w的逆文档频率IDF(w,D)：

其中，|D|表示文档集合D中的文档总数，|{d∈D:w∈d}|表示包含单词w的文档数；

(3.3)计算单词w在日志语句中的TF-IDF值T_mn：

T_mn＝TF-IDF(w,d,D)＝TF(w,d)×IDF(w,D)。

步骤4.将与T_mn相结合，根据下式得到最终日志语句单词的向量表示W_mn：

其中，α表示权重因子；

步骤5.将W_mn作为基于注意力机制的双向GRU模型的输入，得到包含L条日志序列的句向量集合S＝{s₁,s₂,...,s_m,...,s_L}，其中，s_m表示第m条日志语句向量。所述双向GRU模型由前向方向和后向方向的GRU组成，其中前向方向的GRU从前向后处理序列，后向方向的GRU从后向前处理序列.

步骤6.在得到日志序列的语句向量表示后，为了构造语义流图，需要对日志语句与语义流图节点相匹配，因此，采用K-means聚类方法对集合S中的日志语句向量进行聚类，将日志序列按照聚类结果进行匹配得到节点序列，按照该节点序列顺序构造出节点的有向无环图，最终得到日志序列的语义流图G＝(V,E)，其中，V表示节点集合，E表示边的集合。

所述采用K-means聚类方法对集合S中的日志语句向量进行聚类，实现如下：

(6.1)初始化聚类中心点，令S^a和S^b表示两个不同日志语句的句向量，分别记为第一向量和第二向量，根据下式计算S^a和S^b之间的欧几里得距离Distance(S^a,S^b)：

其中，n是向量维度，S_z ^a、S_z ^b分别表示第一向量S^a和第二向量S^b在第z个维度上的元素值；

(6.2)迭代更新聚类中心，在每次的迭代中，将每个向量分配给距离最近的聚类中心所属的簇，然后，更新每个簇的聚类中心为该簇中所有向量的均值向量；假设C_k表示第k个簇，N_k表示第k个簇的向量数量，u_k表示第k个簇的聚类中心，则第k个簇的聚类中心更新公式表示如下：

其中，x_e表示第e个向量，将其作为样本点，当聚类中心不再变化或者达到最大的迭代次数时，认为算法收敛，得到最终的聚类结果。

这一步中得到日志序列的语义流图G＝(V,E)，具体是将聚类簇中具有相同日志模板的日志语句认为语义流图中的同一节点，并将节点类型与原始日志序列中的日志条目进行匹配，按照日志序列的结构将不同的节点进行连接，构造出有向无环的语义流图，并将日志语句的句向量作为节点特征嵌入语义流图中；其中，表示G的节点集合，表示G中第p个节点v_p指向第q个v_q的有向边的集合；/>为正整数。

通过计算距离和更新聚类中心，K-means算法可以迭代优化聚类结果，当聚类中心不再变化或者达到最大的迭代次数时，认为算法收敛，得到最终的聚类结果，每个日志语句向量将属于一个聚类簇。每一个聚类簇中的日志语句具有相同的日志模板，我们将这些聚类簇中具有相同日志模板的日志语句认为语义流图中的同一节点，并将节点类型与原始日志序列中的日志条目进行匹配，按照日志序列的结构将不同的节点进行连接，构造出有向无环的语义流图，其中步骤5得到的日志语句的句向量作为节点特征嵌入语义流图中。

步骤7.在得到语义流图后，本发明采用图卷积神经网络模型对语义流图进行特征提取和聚合，结合图的结构和节点的特征学习图中节点的高级表示向量或整个图的表示向量，实现对语义流图的分类，即预测图的标签。

使用图卷积神经网络对语义流图G进行特征提取和训练，通过对语义流图中节点特征进行传播和聚合，将其映射到分类标签，得到系统日志异常检测结果。实现如下：

(7.1)将语义流图表示为节点和边的集合，对于图G，其中包含k_n个节点和k_e条边，使用邻接矩阵A表示图的连接关系，其中，A是一个大小为k_n×k_n的矩阵，A[p][q]表示节点p和节点q之间存在边；使用特征矩阵X表示每个节点的特征，其中X是一个大小为k_n×k_f的矩阵，X[p]表示节点p的特征向量，k_f表示每个节点的特征维度；

(7.2)图卷积神经网络是一种用于图数据的深度学习模型，图卷积神经网络的特点是通过迭代聚合节点的邻居信息来学习节点的表示。图卷积神经网络通过以下公式来聚合邻居节点的特征来得到节点的特征表示：

其中，H^(l)表示第l层的节点特征矩阵，是归一化的邻接矩阵，其中/>I是单位矩阵，/>是/>的对角线度矩阵，σ是激活函数，W^(l)是第l层的权重矩阵；

(7.3)我们将异常检测任务视为图分类任务，将语义流图划分为正常图与异常图两种类别，为了实现图分类任务，即得到图标签的预测值，本发明在图卷积神经网络的最后一层添加一个全局池化层，将节点级的表示聚合为图级别的表示，具体池化操作的公式如下：

其中，H^(L)表示最后一层的节点特征表示矩阵，h_G是图G的最终表示向量。在得到图G的表示向量后，将其作为图分类任务的输入，通过一个全连接层进行映射，使用softmax函数计算给定日志序列的正常和异常概率，公式如下：

其中，表示概率向量，W表示全连接层的权重矩阵，b表示偏置向量；

(7.4)使用交叉熵损失函数对图卷积神经网络模型输出结果与真实标签之间的差异，使用反向传播算法和梯度下降算法实现损失函数Loss最小化，更新网络参数；损失函数公式如下：

其中，y_G表示图G的真实标签，表示模型预测图G的标签。

实施例二：本实施例的整体实现步骤同实施例一，现对基于注意力机制的双向GRU模型生成日志语句向量的过程，做进一步描述：

GRU模型是循环神经网络(RNN)的变体，可以对序列进行建模，具有门控机制来控制信息的流动。GRU内部包含两种结构，即重置门和更新门，其中重置门决定了前一时刻隐藏状态对当前时刻的影响程度，可用于减少上一单元中被认为非相关的信息，更新们决定了当前时刻的新信息在当前隐藏状态中的更新程度，可用来决定上一单元有多少信息需要传递给下一单元。

双向GRU模型由两个方向的GRU组成，一个从前向后处理序列，另一个从后向前处理序列，在前向方向上，GRU的更新公式如下：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

其中，h_t表示第t时间步的隐藏状态，t的取值范围为1到T，T表示输入序列的长度；z_t和r_t分别表示更新门和重置门，表示临时的隐藏状态，W_z、W_r和W_h分别表示第一、第二和第三可学习参数，σ是sigmoid函数，表示逐元素相乘；

在后向方向上，公式和前向相同，后向GRU从序列的尾部开始处理序列，即从x_T到x₁。

本发明对双向GRU模型加入注意力机制，使模型关注输入序列的重要部分，在双向GRU模型中，使用注意力机制结合前向方向和后向方向的隐藏状态，得到第t时间步的注意力权重系数α_t：

其中，W_α表示可学习的注意力权重，h_context表示用于计算注意力权重的上下文向量；根据下式得到基于注意力机制的双向GRU模型的输出context_t：

本发明未详细说明部分属于本领域技术人员公知常识。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于语义流图挖掘的系统日志异常检测方法，其特征在于，包括如下步骤：

(2)将初始预处理后的系统日志按照会话或窗口机制划分日志序列，利用Word2Vec模型将该日志序列中的单词或词组转换为词向量，令第m条日志的第n个单词的词向量为

其中，α表示权重因子；

2.根据权利要求1所述方法，其特征在于：步骤(3)中计算日志语句中单词的词频-逆文档频率TF-IDF,实现步骤如下：

(3.2)计算单词w的逆文档频率IDF(w,D)：

(3.3)计算单词w在日志语句中的TF-IDF值T_mn：

T_mn＝TF-IDF(w,d,D)＝TF(w,d)×IDF(w,D)。

3.根据权利要求1所述方法，其特征在于：步骤(5)中基于注意力机制的双向GRU模型，所述双向GRU模型由前向方向和后向方向的GRU组成，其中前向方向的GRU从前向后处理序列，后向方向的GRU从后向前处理序列；

在两个方向上，GRU的更新公式如下：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

其中，h_t表示第t时间步的隐藏状态，t的取值范围为1到T，T表示输入序列的长度；z_t和r_t分别表示更新门和重置门，表示临时的隐藏状态，W_z、W_r和W_h分别表示第一、第二和第三可学习参数，σ是sigmoid函数，⊙表示逐元素相乘；

在双向GRU模型中，使用注意力机制结合前向方向和后向方向的隐藏状态，得到第t时间步的注意力权重系数α_t：

4.根据权利要求1所述方法，其特征在于：步骤(6)所述采用K-means聚类方法对集合S中的日志语句向量进行聚类，实现如下：

5.根据权利要求1所述方法，其特征在于：步骤(6)得到日志序列的语义流图G＝(V,E)，具体是将聚类簇中具有相同日志模板的日志语句认为语义流图中的同一节点，并将节点类型与原始日志序列中的日志条目进行匹配，按照日志序列的结构将不同的节点进行连接，构造出有向无环的语义流图，并将日志语句的句向量作为节点特征嵌入语义流图中；其中，表示G的节点集合，/>表示G中第p个节点v_p指向第q个v_q的有向边的集合；/>为正整数。

6.根据权利要求1所述方法，其特征在于：步骤(7)中使用图卷积神经网络对语义流图G进行特征提取和训练，通过对语义流图中节点特征进行传播和聚合，将其映射到分类标签，得到系统日志异常检测结果，实现如下：

(7.2)图卷积神经网络通过以下公式来聚合邻居节点的特征来得到节点的特征表示：

(7.3)将语义流图划分为正常图与异常图两种类别，获取图标签的预测值，在图卷积神经网络的最后一层添加一个全局池化层，将节点级的表示聚合为图级别的表示，具体池化操作的公式如下：

其中，y_G表示图G的真实标签，表示模型预测图G的标签。