CN111949480B

CN111949480B - 一种基于组件感知的日志异常检测方法

Info

Publication number: CN111949480B
Application number: CN202010795863.8A
Authority: CN
Inventors: 鄢萌; 尹昆; 徐玲; 付春雷; 张小洪; 徐洲; 雷晏
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2023-08-11
Anticipated expiration: 2040-08-10
Also published as: CN111949480A

Abstract

本发明涉及基于组件感知的日志异常检测方法，该方法将目标软件的日志消息转换为日志模板序列和组件序列，然后进行模型训练，将两个LSTM模型组合使用，两个LSTM模型训练使用相同的损失函数，采用梯度下降优化算法更行参数值，训练完成得到由日志检测模型和组件检测模型构成的组合模型；将t‑h到t‑1时刻的所有日志数据的参考日志模板序列和参考组件序列输入组合模型得到可能日志模板集和可能组件模板集；当t时刻日志消息m_t的待测日志模板序列在可能日志模板集中，且t时刻日志消息m_t的待测组件序列在可能组件模板集C_g中，则认为日志消息m_t为正常日志，否则产生系统告。试验结果表明，本发明方法的召回率和F值更高，表现更好。

Description

一种基于组件感知的日志异常检测方法

技术领域

本发明涉及软件日志检测技术领域，特别涉及一种基于组件感知的日志异常检测方法。

背景技术

随着软件系统向大规模，复杂的分布式系统发展，这些系统经常遭受错误和漏洞的困扰。此外，这些大型系统通常提供大量的在线服务和应用程序接口，这就要求系统具有很高的鲁棒性和稳定性。但是，当发生系统故障(例如服务故障和服务中断)时，多个服务可能会受到故障的影响，这可能会导致系统的重大损失。系统异常检测技术旨在定位这些系统故障。这种技术在系统维护中起着至关重要的作用。对于工程师来说，及时准确地发现异常是必要的，以便及时查明原因。

系统中有许多类型的数据可用于异常检测和故障排除。在大多数大型系统中普遍可用的日志数据具有大量信息，并且包含关键系统状态，事件和运行时消息的记录。因此，系统日志成为异常检测的中心数据源。基于日志的异常检测已成为一个研究问题，并有许多方法被提出来。通常，这些现有方法首先从日志中提取有用的特征，然后采用独特或通用的检测算法来定位异常日志。在此过程中，日志特征的选择至关重要，因为代表性特征可以反映正常日志和异常日志之间的差异。但是，现有方法在构建基于日志的异常检测模型时并未考虑日志中的组件。组件记录日志的位置并反映系统模块之间的调用关系。某些系统故障可能会导致不同的组件工作流，但是可能很难通过日志模板序列检测到它们。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：提供同时考虑组件和日志的日志异常检测方法。

为解决上述技术问题，本发明采用如下技术方案：一种基于组件感知的日志异常检测方法，包括如下步骤：

S100:获取目标软件的日志数据，将日志数据转换为日志模板序列和组件序列；

S200:模型训练，将两个LSTM模型组合使用，将S100得到的日志模板序列和组件序列分别输入到两个LSTM模型中进行训练，两个LSTM模型训练使用相同的损失函数，采用梯度下降优化算法更行参数值，训练完成得到由日志检测模型和组件检测模型构成的组合模型；

S300:异常检测，将t-h到t-1时刻的所有日志数据的参考日志模板序列和参考组件序列输入组合模型得到可能日志模板集L_g和可能组件模板集C_g；

当t时刻日志消息m_t的待测日志模板序列在可能日志模板集L_g中，且t时刻日志消息m_t的待测组件序列在可能组件模板集C_g中，则认为日志消息m_t为正常日志，否则产生系统告警。

作为改进，所述S100中的将非结构化日志数据转换为日志模板序列和组件序列的方法为：

使用固定深度树将获取的待测软件的日志数据中，构建日志模板序列；

使用正则表达式来匹配每一条日志数据中的组件，然后为不同的组件进行编号得到组件序列。

作为改进，所述S200的训练过程为：

设S100中得到n个日志模板序列L＝{l₁,l₂,...,l_n}和m个组件序列O＝{o₁,o₂,...,o_n}，n≥m；

设t时刻的日志消息为m_t；

给定一个日志消息序列M＝{m₁,m_2,...,m_t}，通过S100的方法提取日志模板序列和组件序列，将两者合并得到一个新的序列Me＝{(c₁,k₁),(c₂,k₂),...,(c_t,k_t)}，其中ct代表t时刻日志消息mt中的组件，kt代表t时刻日志消息mt的日志模板；

组合模型的输入是包含前h条日志模板的集合W，W＝{(c_t-h,k_t-h),(c_t-h+1,k_t-h+1),...,(c_t-1,k_t-1)}，每一对(c_t,k_t)都是由m_t中提取得到；

所以训练过程中的损失函数为交叉熵损失函数，两个LSTM模型都使用该损失函数如公式(1)：

其中，M为训练样本总数，k_j是当前日志模板或者组件的真实标签，p_j是模型输出的当前日志模板或者系统组件的概率值。

作为改进，所述S300中的x时刻的日志消息m_t的异常检测过程为：

S310:将t时刻的日志消息m_t通过S100的方法转化为对应的待测日志模板序列和待测组件序列；将t-h到t-1时刻的所有日志数据通过S100的方法转化为对应的参考日志模板序列和参考组件序列；

S320:将参考日志模板序列输入日志检测模型得到日志概率分布，选取前g个概率大日志模板序列组成可能日志模板集L_g；

将参考组件序列输入组件检测模型得到组件概率分布，选取前g个概率大组件模板序列组成可能组件模板集C_g；

S330:检测待测组件序列是否在可能组件模板集C_g中，如果待测组件序列在可能组件模板集C_g中，则执行下一步，否则执行S350；

S340:检测待测日志模板序列是否在可能日志模板集L_g中，如果检测待测日志模板序列在可能日志模板集L_g中，则退出程序，否则执行S350；

S350:日志消息m_t为异常，产生系统告。

相对于现有技术，本发明至少具有如下优点：

本发明方法简称LogC，首先将非结构化日志数据转换为日志模板序列和组件序列，通过这样的两个序列，LogC可以训练两个LSTM模型，并将它们组合以进行异常检测。实验结果表明，本发明方法的召回率和F测度值更高，表现更好。

附图说明

图1为本发明方法的结构图。

图2HDFS块的一个例子。由HDFS日志文件还原一个HDFS Block的事件流。

具体实施方式

下面对本发明作进一步详细说明。

为了更好地演示组件感知的分析，图2显示了包含多个日志消息的HDFS块(由块ID标识)的工作流，以及组件的更改。在图2中，E_t表示一类日志模板。dfs.FSNamesystem是Hadoop分布式文件系统(HDFS)的系统组件。某些系统故障可能会导致不同的组件工作流程，可以通过监视组件顺序的变化来定位这些系统故障。因此，我们提出了一种可以同时处理两种类型序列的组合模型。

本发明方法简称LogC旨在自动，准确地检测出反映系统故障的异常日志。通过日志记录语句打印的系统日志可以按其内容分为若干类。每条日志都包含其组件信息，这意味着该日志消息属于哪个系统模块。我通过考虑组件感知分析的组合LSTM模型来提高基于日志的异常检测的有效性。首先从历史日志中提取模板和组件，然后生成日志序列和组件序列。基于组合LSTM模型，一旦将新的日志序列和组件序列输入训练后的模型中，LogC就可以识别异常日志。

参见图1，一种基于组件感知的日志异常检测方法，包括如下步骤：

获取目标软件的日志数据，将日志数据转换为日志模板序列和组件序列。

日志中组件序列的获取：首先我们使用正则表达式来匹配每一条日志消息中的组件，例如，在HDFS日志文件中，组件包含两种格式，一种类似于dfs.DataNode，一种类似于dfs.DataNode$DataXceive，使用正则表达式匹配这两种格式；然后，我们为不同的组件进行编号。如图2所示，那么组件序列就为c1，c2，c3。

在实际应用中，正则表达式匹配日志中的组件效率很高，可以配合固定深度树的提取速率，通过感知组件序列中的异常变化，我们的方法在异常日志识别任务中可以表现更好。

注：匹配块ID主要是对日志序列进行逻辑切分，还原系统事件流，提高方法准确率。

统一了方法的评估指标中文翻译(精确率(precision)，召回率(recall)和F值(F-measure))

模型训练，将两个LSTM模型组合使用，将S100得到的日志模板序列和组件序列分别输入到两个LSTM模型中进行训练，两个LSTM模型训练使用相同的损失函数，训练完成得到由日志检测模型和组件检测模型构成的组合模型。LSTM模型为现有技术。

该组合模型由两个经过训练的LSTM模型构成，其中日志模板检测模型关注k_t的变化，仅输入日志模板序列；组件检测模型关注c_t的变化，仅输入日志组件序列，两个模型是处于同一地位。见图一。在训练阶段，它们是不互相干扰的。在检测阶段，日志模板检测模型给出日志模板的概率，组件检测模型给出组件的概率。

作为改进，所述S200的训练过程为：

设t时刻的日志消息为m_t。

给定一个日志消息序列M＝{m₁,m_2,...,m_t}，通过S100的方法提取日志模板序列和组件序列，将两者合并得到一个新的序列Me＝{(c₁,k₁),(c₂,k₂),...,(c_t,k_t)}，其中ct代表t时刻日志消息mt中的组件，kt代表t时刻日志消息mt的日志模板。

组合模型的输入是包含前h条日志模板的集合W，W＝{(c_t-h,k_t-h),(c_t-h+1,k_t-h+1),...,(c_t-1,k_t-1)}，每一对(c_t,k_t)都是由m_t中提取得到。举个例子，假设Me＝{(o₁,l₆),(o₁,l₄),(o₄,l₇),(o₃,l₂₂)}，窗口大小为h＝2，那么训练数据就为{(o₁,l₆),(o₁,l₄)→(o₄,l₇)}，{(o₁,l₄),(o₄,l₇)→(o₃,l₂₂)}。

这个组合模型是一个多分类器，所以训练过程中的损失函数为交叉熵损失函数，两个LSTM模型都使用该损失函数如公式(1)：

其中，M为训练样本总数，n代表日志模板种类或者组件种类的数量，k_j是当前日志模板或者组件的真实标签，p_j是模型输出的当前日志模板或者系统组件的概率值；采用Adam梯度下降优化算法降低loss值。

异常检测，将t-h到t-1时刻的所有日志数据的参考日志模板序列和参考组件序列输入组合模型得到可能日志模板集L_g和可能组件模板集C_g。

当t时刻日志消息m_t的待测日志模板序列在可能日志模板集L_g中，且t时刻日志消息m_t的待测组件序列在可能组件模板集C_g中，则认为日志消息m_t为正常日志，否则产生系统告。

S310:将t时刻的日志消息m_t通过S100的方法转化为对应的待测日志模板序列和待测组件序列；将t-h到t-1时刻的所有日志数据通过S100的方法转化为对应的参考日志模板序列和参考组件序列。

S320:将参考日志模板序列输入日志检测模型得到日志概率分布，选取前g个概率大日志模板序列组成可能日志模板集L_g。

将参考组件序列输入组件检测模型得到组件概率分布，选取前g个概率大组件模板序列组成可能组件模板集C_g。

S330:检测待测组件序列是否在可能组件模板集C_g中，如果待测组件序列在可能组件模板集C_g中，则执行下一步，否则执行S350。

S340:检测待测日志模板序列是否在可能日志模板集L_g中，如果检测待测日志模板序列在可能日志模板集L_g中，则退出程序，否则执行S350。

S350:日志消息m_t为异常，产生系统告。

具体的，为了确定t时刻的日志消息m_t是否为异常日志，将一个窗口大小的日志序列M_h＝{m_t-h,m_t-h+1,...,m_t-1}输送给LogC。首先，这些日志消息通过日志特征提取模块变成结构化数据，然后再输入到训练好的组合模型当中。组合模型的输出是两个概率分布：

然后对这些概率进行排序，选取前g个概率相对较大的可能的日志模板与组件模板。如果日志模板k_t以及组件c_t不在这前g个概率相对较大的日志模板集L_g以及组件集C_g之中，那么日志消息m_t就会被识别为异常，就会产生一个系统告警。具体来说，这里存在一个计算过程来决定日志消息m_t是否是异常的。定义r_l代表日志模板模型的预测结果，r_o代表组件模型的预测结果，那么最终的结果r由以下公式得出：

如果r＝1，日志消息m_t就会被识别为异常。

试验测试：

数据集及设置

使用两个开源数据集来评估本发明方法。表I报告了数据集的基本信息。这些日志来自分布式系统和高性能计算机系统。

表1数据集说明

数据集	原始日志数	异常日志数	异常占比(％)
				HDFS	11,175,629	16838(块)	2.93
ThunderBird	3,992,351	162,953	4.08

HDFS数据是从200多个Amazon EC2节点中收集的。我们通过块ID将HDFS日志消息分为不同的会话，每个会话都是一个块生命周期。HDFS中有575,061个块，数据集已由专家标记。ThunderBird是从圣地亚国家实验室的ThunderBird超级计算机系统收集的开源日志数据集。它有超过两亿条日志，我们选择了前四百万条日志消息。日志包含由标签标识的警报和非警报消息。

在以下实验中，在HDFS上，我们将开始约1％的正常日志用作训练数据，将其余部分用作测试数据(异常日志和正常日志)。在ThunderBird上，我们将数据集以固定的窗口进行切分，因为ThunderBird日志没有明显的标识符。如果会话中存在异常日志，我们会将会话标记为异常。日志的前80％被选为训练数据，其余为测试数据。

对比方法

我们与三种方法做了对比，PCA，IM，DeepLog。这三类方法都有相识的检测步骤。

PCA：主成分分析法，它将日志消息按照标识符划分为不同的组。

IM：IM根据日志参数之间的关系对日志消息进行分组。

DeepLog：DeepLog是最近提出的先进的异常检测方法。

评估标准

FP(假阳性)是被识别为异常日志(块)的正常日志(块)的数量。FN(假阴性)表示将多少个异常日志(块)标识为正常日志。TP(真阳性)表示正确识别的异常日志(块)的数量。异常检测是一个二元分类问题，因此通常将精确率(precision)，召回率(recall)和F值(F-measure)用作评估检测方法标准。

实验结果分析：

本发明方法简称为LogC。

表II展示出了这几种方法在两个数据集上的实验结果。

默认情况下，对于日志模板模型，我们设置g_k＝9，h_k＝10，L_k＝2，α_k＝64，而对于组件模型，g_c＝6，h_c＝10，L_c＝1，α_c＝64。g确定LogC的异常检测标准。h表示窗口大小。L是LSTM网络层的数量，α表示一个LSTM单元的存储单元。h_k和h_c的值必须相等。

如表II所示，在HDFS数据集上，本发明方法实现了98.29％的召回率和95.85％的F值。PCA的最高精确率为97.73％，但以降低召回率为代价，这意味着它可以实现更多的假阴性。在大型系统中，对于基于日志的检测方法，较低的召回率表示检测模块的监视功能虽然占用特定的系统资源，但监控能力却很弱。效率低下。在ThunderBird数据集上，日志模板和组件多于HDFS。需要减小窗口的大小，另外需要设置宽松一点的判定标准。如表II所示，与LogC相比，Deeplog的F值降低了0.55％，召回率降低了1.56％。

表2在两个数据集上的实验结果

总而言之，本发明方法LogC就F值而言，在两个日志数据集上均取得了最佳结果。与PCA和DeepLog相比，LogC具有更高的召回率，这意味着LogC产生的假阴性更少。

为了研究组件感知分析的重要性以及LogC中组件模型的有效性，我们将对比(PCA和IM)与组件模型结合在一起。新方法被命名为PCA-C和IM-C。

LogC的检测模型由DeepLog和组件模型组成。我们用两种异常检测方法替换了日志模板模型。对于每个日志会话，对比方法和组件模型分别给出预测值。

我们在HDFS数据集和ThunderBird数据集评估了两种新方法。如表III所示，与表II中的基准性能相比，新方法的召回率和F值更高，表现更好。但是，我们发现IM-C在HDFS上的结果不如以前的IM方法好。进一步的研究表明，组合组件模型是提高检测方法的召回率的有效方法，但是这种组合可能会稍微降低该方法的精确率。在这个案例中，IM在HDFS上实现100％的召回率，因此无法再次提高IM的召回率。PCA-C和IM-C在ThunderBird上的结果证明了我们发现的真实性以及组件感知分析的有效性。

总而言之，通过集成组件感知分析，在大多数情况下，基线(即PCA和IM)的效果更好。但是，LogC仍胜过两种新方法(即PCA-C和IM-C)。

表3两种新方法在数据集上的表现

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于组件感知的日志异常检测方法，其特征在于，包括如下步骤：

当t时刻日志消息m_t的待测日志模板序列在可能日志模板集L_g中，且t时刻日志消息m_t的待测组件序列在可能组件模板集C_g中，则认为日志消息m_t为正常日志，否则产生系统告警；

所述日志消息m_t的异常检测过程为：

S350:日志消息m_t为异常，产生系统告。

2.如权利要求1所述的，基于组件感知的日志异常检测方法，其特征在于，所述S100中的将非结构化日志数据转换为日志模板序列和组件序列的方法为：

3.如权利要求1所述的，基于组件感知的日志异常检测方法，其特征在于，所述S200的训练过程为：

设t时刻的日志消息为m_t；