CN117874662A

CN117874662A - 基于图模式的微服务日志异常检测方法

Info

Publication number: CN117874662A
Application number: CN202410061419.1A
Authority: CN
Inventors: 李丽香; 梁雪; 彭海朋; 吴薇; 暴爽; 叶子超
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-04-12

Abstract

本发明提供一种基于图模式的微服务日志异常检测方法，包括：日志向量表示阶段：原始文本型日志序列被转化为模型可处理的数值型日志序列；日志事件图构建阶段：利用所述调用链信息和时序信息，对所述数值型日志序列进行分割和连接，构建日志事件图；异常检测阶段，利用图模型和单分类模型学习正常的原始文本型日志序列的内在结构，实现无监督异常检测；本发明在生成日志节点初始化特征时，综合考虑了日志的语义信息和时间间隔信息，通过特征交叉的方式丰富了日志事件图中节点特征的信息量，这一举措使得模型能更好地理解不同维度信息之间的关联性，并实现对除顺序异常和结构异常之外的时间间隔异常的检测，从而有效提高异常检测精度；在微服务日志异常检测方面表现出更高的精度和鲁棒性，适合推广应用。

Description

基于图模式的微服务日志异常检测方法

技术领域

本发明属于日志异常检测技术领域，尤其是基于图模式的微服务日志异常检测方法。

背景技术

随着移动通信设备和互联网行业的快速发展，计算机软件系统的规模越来越大，各种漏洞和故障频繁发生，外部故障如恶意攻击，以及内部故障如内存过载等，都有可能导致系统中止，即便是微小的问题也可能对用户体验产生负面影响，甚至引发巨大的经济损失；因此，准确、及时地检测异常对于提高大型系统的可用性和可靠性至关重要。

为了方便故障识别，大多数系统都会在控制台生成日志，日志中的数据记录了系统在运行期间的详细信息和应用程序的行为，用户可以通过分析日志来识别系统的日志异常行为与错误，从而发现并解决系统可能面临的安全问题；日志异常指的是在系统或应用程序的日志文件中记录的异常或错误信息；这些异常可能包括但不限于：未知的操作，未处理的异常，非正常的行为，或者其他可能表示系统或应用程序出现问题的信息；异常的表现形式可能为顺序异常、参数异常、数量异常、时间间隔异常等。

然而，随着大规模IT系统的快速发展，日志中数据的数量已经增长到了传统方法难以分析的程度，例如商业云程序每小时大约产生十亿字节的数据；对此，研究者们提出了一系列基于数据驱动的方法，利用模型学习来实现自动高效的日志异常检测，但这些模型仍存在以下问题：

①当前的模型大多基于带标签的公开数据集进行研究，虽然取得了较高的精度，但与实际难以获得日志标签的情况不相符。

②在分布式系统中，日志消息由许多不同的线程或并发运行的任务产生，这种并发性导致即使在正常模式下，日志之间也不严格遵循顺序，从而干扰模型，导致误判率上升。

③大多数模型仅考虑单一特征，如模板顺序、模板数量、时间间隔等，导致模型偏向性较强，可能会漏判一些异常情况。

日志异常检测是指借助机器学习或深度学习方法，自动分析系统或应用程序的日志文件，以发现其中可能存在的异常或错误，从而帮助管理员快速发现和解决问题，日志异常检测模型的一般步骤可描述为：

①日志解析:日志数据是半结构化的文本数据,在使用数据挖掘技术进行训练之前，通常需要对原始日志数据进行结构化处理，这就需要使用日志解析技术；

日志解析的基本原理是，每条日志消息都由一个日志语句打印出来，并记录一个特定的系统事件，具有消息头和消息内容；其中，消息头由日志记录框架确定，包括时间戳、详细级别和组件，相对容易提取。消息内容会随系统运行变化而变化；因此，每条日志可以分为常量部分和变量部分；常量部分显示日志消息的事件模板，通常保持不变，变量部分包含动态的运行时信息(即参数)，这些信息可能因不同的事件发生而有所不同。日志解析的核心就是将每个日志消息转换为一个特定的事件模板和参数，从而达到压缩分类的目的。

一个有价值的日志解析算法应该能做到：

模板数目适中,太多的模板带来较低的压缩比,进而增加日志后续工作的复杂度，太少的模板又会丢失有价值的信息；

表征重要信息的变量应该作为模板内容被提取出来。当前主流的日志解析方法有基于规则匹配、源码分析、简单聚类、启发式以及词频信息等。

②日志分组:日志是带有时间戳的文本数据，通常有上下文依赖；异常检测模型的输入通常是一段时间内的日志，即一个日志序列；当前主流的日志分组方法有基于固定窗口划分、基于滑动窗口划分和基于标识符划分等。

③特征提取:日志特征提取的主要目的是构建可供机器学习模型处理的特征数据，从而学习日志的正常或异常模式。当前主流的特征提取方法包括基于自然语言处理和基于统计模型的日志特征提取方法。其中，基于自然语言处理的方法将每一条日志模板看作一段文本，利用自然语言处理领域的模型进行分词和向量化表示；基于统计模型的方法通常是在日志分组的基础上，统计每个日志模板的出现频率，将日志转化为频率向量，作为表征系统状态的监控指标。

④异常检测:经过特征提取，原始日志数据已经转化成了模型可以处理的特征数据，可以输入判别模型进行异常检测。在检测模型的设计上,包括传统机器学习方法和深度学习方法。传统机器学习方法具有硬件依赖性低、可解释性好等特点,典型的有基于主成分分析的算法、基于支持向量机的算法、基于隐马尔科夫模型的算法、基于K最近邻算法、各种聚类算法等。传统机器学习算法提取高级特征或者全局特征的能力相对有限,特别是日志文本的语义识别、长距离依赖等问题上表现不如深度学习,所以有大量研究将深度学习引入日志异常检测任务；基于深度学习的日志异常检测模型主要包括基于循环神经网络的算法、基于双向长短期记忆网络的算法、基于变分自编码器的算法、基于生成对抗网络的算法、基于Transformer网络的算法、基于图模型的算法等。

与常见的循环神经网络、双向长短期记忆网络等模型相比，基于图的方法表现出了更强大的检测能力,现有技术中中，Zhang等人提出的DeepTraLog模型就属于图模型下的一个前沿研究；该模型分为日志解析、调用链解析、事件向量化、调用链事件关系图构建、异常检测模型训练和在线异常检测六个步骤；

模型核心是通过微服务日志中的traceId和spanId划分日志序列，将日志事件和调用链融合构建日志事件图，并使用图神经网络和Deep SVDD训练异常检测模型。

尽管上述模型已经结合了日志中的语义信息、时序信息和调用链信息，达到了较高的检测水平，但这些算法或模型普遍存在如下缺陷：

①对日志序列顺序敏感度过高、检测异常模式单一；

②在实际应用中，即使是正常状态下，日志顺序也会因网络设备(如交换机、路由器)、服务器性能(如内存容量、CPU性能等)、并发性或用户请求量等略有差异，现有技术模型均过度的依赖日志序列顺序；

③此外，日志异常包括但不限于顺序异常、参数异常、响应时间异常等，现有技术模型大多只能检测其中一种异常。

发明内容

为了解决上述技术问题，本发明提供一种基于图模式的微服务日志异常检测方法，通过建立能够在不依赖标签的情况下的模型，结合日志的语义特征和时间间隔特征，学习正常序列的内在结构，自动适应系统日志的变化，并能通过研究图同构问题来降低模型对日志顺序的敏感度，同时，日志向量化表示融合了时间间隔特征和语义特征，可同时关注日志顺序、时间间隔、日志语义等多维信息，从而及时捕获系统潜在的异常行为，增加了异常捕获类型。

基于图模式的微服务日志异常检测方法，包括：日志向量表示、日志事件图构建和异常检测三个阶段；

进一步的，所述日志向量表示阶段：原始文本型日志序列被转化为模型可处理的数值型日志序列；

基于规则提取时间戳信息、调用链信息以及日志主体信息，再利用模板提取方法将所述原始文本型日志序列转换为日志模板序列，借助自然语言处理方法提取所述日志模板序列中的语义特征，生成向量化的数值型日志序列。

作为一种举例说明，微服务日志中的所述调用链信息包括：以traceId、spanId、parentSpanId为标识符的信息。

进一步的，所述日志事件图构建阶段：利用所述调用链信息和时序信息，对所述数值型日志序列进行分割和连接，构建日志事件图；

作为一种举例说明，所述时序信息是指：记录事件发生时间顺序的信息，通过提取时间戳信息并进行排序，即可形成微服务日志中的时序信息。

作为一种举例说明，所述日志事件图构建阶段通过traceId识别出属于同一请求的日志序列，然后计算时间间隔特征，并与语义特征进行融合，作为日志节点的初始化特征；随后，通过调用链信息和时序信息构建日志节点之间的连边，最终得到完整的日志事件图。

进一步的，所述异常检测阶段，利用图模型和单分类模型学习正常的原始文本型日志序列的内在结构，实现无监督异常检测；

利用GIN图神经网络提取图级别的表征，所述单分类模型训练一个超球体来描述正常的原始文本型日志序列的行为；最终，对于新的原始文本型日志序列，在经过前述处理后，进入异常检测模型，获得图级别的表征，并计算其与所述超球体球心的距离，从而预测该原始文本型日志序列是否异常。

作为一种举例说明，所述单分类模型为：Deep SVDD模型。本发明的有益效果：

在生成日志节点初始化特征时，本发明综合考虑了日志的语义信息和时间间隔信息，通过特征交叉的方式丰富了日志事件图中节点特征的信息量，这一举措使得模型能更好地理解不同维度信息之间的关联性，并实现对除顺序异常和结构异常之外的时间间隔异常的检测，从而有效提高异常检测精度。

设计并构建了一种基于全局注意力机制的图同构(GIN)神经网络模型，能够有效提取复杂图数据的特征表示，并降低模型对日志顺序的敏感度，该模型利用图同构卷积层进行非线性变换，对邻居节点特征进行信息聚合和特征融合，实现了对节点特征的丰富表示；同时，模型引入了全局注意力机制，通过全局软注意力层将节点特征进行聚合，得到整图的嵌入表示，这种方式在有效保留图结构信息的同时，使得图中的节点和边关系能够更好地被表示在低维向量空间中；此外，GIN网络的对称性假设使得模型在学习图表示时更加稳健，能够降低对节点顺序的敏感度。之后，模型将得到的图嵌入输入到了深度支持向量数据描述Deep SVDD算法中进行超球体训练。通过学习正常数据分布的紧凑超球体边界，模型最终能够有效地识别出数据空间中的异常点。

以上设计使得本发明在微服务日志异常检测方面表现出更高的精度和鲁棒性。

附图说明

图1为本发明基于图模式的微服务日志异常检测方法之整体模型结构示意图。

图2为本发明基于图模式的微服务日志异常检测方法之日志事件图构建示意图。

图3为本发明基于图模式的微服务日志异常检测方法之基于GIN的无监督日志异常检测模型结构示意图。

具体实施方式

下面，参考图1至图3所示，基于图模式的微服务日志异常检测方法，包括：日志向量表示、日志事件图构建和异常检测三个阶段；

作为一种举例说明，所述日志向量表示阶段：主要利用日志解析、词嵌入和统计学方法，为所述原始文本型日志序列的每条日志事件生成一个固定维度的向量表示。

作为一种举例说明，所述日志向量表示阶段这一模型首先通过日志解析，提取所述原始文本型日志序列中的关键信息，减少语料库的大小，然后结合词嵌入和统计学方法的优势，更好地提取日志中包含的语义和结构信息，为后续模型构建提供可靠的源数据信息。

作为一种举例说明，所述日志解析、词嵌入和统计学方法的具体步骤包括：

第一步，根据数据集的特点，针对唯一标识符、日期时间的特定模式，使用正则表达式对原始文本型日志序列进行扫描匹配和替换，在消除敏感信息的同时减少了数据噪声；

第二步，基于LogPAI，采用表现力最佳的Drain算法进行日志解析，将原始文本型日志序列转化为日志模板序列；

第三步，利用GloVe预训练模型为原始文本型日志序列中每条日志事件中的每个单词w都对应生成一个300维的向量表示V_w，利用TF-IDF模型计算单词在句子中的权重；

具体的，单词w在日志事件e中的词频TF_w,e表示为：

其中：n_w,e表示词条w在日志事件e中出现的次数，n_e为日志事件e中总的单词数；

每个单词w在整个日志文件中的普遍程度IDF_w表示为：

其中：N表示日志事件总数，N_w表示包含词条w的日志事件数量；

最终，每个单词w在日志事件e中的重要程度表示为：

W_w,e＝TF_w,e×IDF_w

第四步，通过加权求和的方式，为日志模板序列中的每条日志事件生成一个固定维度的向量表示，以便下游模型进行处理分析；

最终，日志模板序列中每条日志事件的向量化表示结果为：

作为一种举例说明，所述日志事件图构建阶段通过traceId识别出属于同一请求的日志序列，然后计算时间间隔向量，并与语义特征进行融合，作为日志节点的初始化特征；随后，通过调用链信息和时序信息构建日志节点之间的连边，最终得到一个有向日志事件图。

作为一种举例说明，所述日志事件图构建阶段通过捕捉系统中各个模块之间的调用关系和模块内部的时序关系，构建一个有向日志事件图，如图2所示，图中的每一个节点就是一条日志事件。

作为一种举例说明，所述调用关系反映了系统组件之间的依赖和交互模式，异常通常表现为不正常的调用流程或意外的调用序列。

作为一种举例说明，所述时序关系揭示了事件发生的顺序，异常往往表现为在正常操作时不太可能发生的事件时间分布；因此，通过构建调用-时序关系，能够更有效地识别所述数值型日志序列中潜在的异常模式。

作为一种举例说明，所述日志事件图构建阶段中，日志事件图的构建流程具体包括：

第一步，对于每一个服务span，获取属于该span下的所有一般日志事件和跨度日志事件，并按照时间戳建立顺序关系；

作为一种举例说明，在微服务中，日志事件细分为两种：“一般日志事件”和“跨度日志事件”；其中：“一般日志事件”指的是在本服务内部的日志，“跨度日志事件”指的是涉及多个服务之间操作的日志事件。

第二步，获取该数值型日志序列所对应的时间间隔向量T；

T₀＝0

T_i＝t_i-t_i-1(i>0)

其中，t_i表示第i条日志事件对应的时间戳；

第三步，对于每一条日志事件e，将时间间隔与日志事件的向量化表示结果逐个相加，得到节点初始化特征V′_e

V_e′＝V_e+T_e

第四步，对于跨度日志事件，根据其标识符parentSpanId构建父子跨度之间的连接；具体的，对于客户端/服务器型跨度，添加一条从客户端请求到服务端的连接，以及一条从服务端响应到客户端的连接；对于生产者/消费者跨度，则添加一条生产者到消费者的连接。

第五步，将连接信息转为为边序列，添加到每个节点的边信息中；

至此，本发明通过构建日志事件图的方式，将日志序列中的语义信息、时间间隔信息、调用链信息以及时序信息充分融入到了图结构中。

作为一种举例说明，所述单分类模型为：Deep SVDD模型。

作为一种举例说明，所述异常检测阶段，基于GIN的无监督日志异常检测方法具体包括：

第一步，加载正常模式下的日志事件图结构；

第二步，构建基于全局软注意力机制的GIN图神经网络，提取图级别的紧凑表示，并给出每个日志节点的注意力分数；

第三步，构建Deep SVDD模型，通过学习正常模式下图级别的紧凑表示，在图嵌入与球心之间建立一个"软边界"；

最后，对于新的原始文本型日志序列，首先构建日志事件图，再通过计算图级别的紧凑表示与球心之间的欧氏距离来判断其是否异常，对于异常序列，根据注意力分数快速定位到序列中的异常部分。

本发明在生成日志节点初始化特征时，综合考虑了日志的语义信息和时间间隔信息，通过特征交叉的方式丰富了日志事件图中节点特征的信息量，这一举措使得模型能更好地理解不同维度信息之间的关联性，并实现对除顺序异常和结构异常之外的时间间隔异常的检测，从而有效提高异常检测精度；本发明设计并构建了一种基于全局注意力机制的图同构(GIN)神经网络模型，能够有效提取复杂图数据的特征表示，并降低模型对日志顺序的敏感度，该模型利用图同构卷积层进行非线性变换，对邻居节点特征进行信息聚合和特征融合，实现了对节点特征的丰富表示；同时，模型引入了全局注意力机制，通过全局软注意力层将节点特征进行聚合，得到整图的嵌入表示，这种方式在有效保留图结构信息的同时，使得图中的节点和边关系能够更好地被表示在低维向量空间中；此外，GIN网络的对称性假设使得模型在学习图表示时更加稳健，能够降低对节点顺序的敏感度。之后，模型将得到的图嵌入输入到了深度支持向量数据描述Deep SVDD算法中进行超球体训练。通过学习正常数据分布的紧凑超球体边界，模型最终能够有效地识别出数据空间中的异常点。

以上所述的仅为本发明的优选实施例，所应理解的是，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，并不用于限定本发明的保护范围，凡在本发明的思想和原则之内所做的任何修改、等同替换等等，均应包含在本发明的保护范围之内。

Claims

1.基于图模式的微服务日志异常检测方法，其特征在于，包括：日志向量表示、日志事件图构建和异常检测三个阶段；

所述日志向量表示阶段：原始文本型日志序列被转化为模型可处理的数值型日志序列；

基于规则提取时间戳信息、调用链信息以及日志主体信息，再利用模板提取方法将所述原始文本型日志序列转换为日志模板序列，借助自然语言处理方法提取所述日志模板序列中的语义特征，生成向量化的数值型日志序列；

所述日志事件图构建阶段：利用所述调用链信息和时序信息，对所述数值型日志序列进行分割和连接，构建日志事件图；

所述异常检测阶段，利用图模型和单分类模型学习正常的原始文本型日志序列的内在结构，实现无监督异常检测；

2.根据权利要求1所述的基于图模式的微服务日志异常检测方法，其特征在于，微服务日志中的所述调用链信息包括：以traceId、spanId、parentSpanId为标识符的信息。

3.根据权利要求1所述的基于图模式的微服务日志异常检测方法，其特征在于，所述时序信息是指：记录事件发生时间顺序的信息，通过提取时间戳信息并进行排序，即可形成微服务日志中的时序信息。

4.根据权利要求1所述的基于图模式的微服务日志异常检测方法，其特征在于，所述日志事件图构建阶段通过traceId识别出属于同一请求的日志序列，然后计算时间间隔特征，并与语义特征进行融合，作为日志节点的初始化特征；随后，通过调用链信息和时序信息构建日志节点之间的连边，最终得到完整的日志事件图。

5.根据权利要求1所述的基于图模式的微服务日志异常检测方法，其特征在于，所述单分类模型为：Deep SVDD模型。

6.根据权利要求1所述的基于图模式的微服务日志异常检测方法，其特征在于，所述日志向量表示阶段：主要利用日志解析、词嵌入和统计学方法，为所述原始文本型日志序列的每条日志事件生成一个固定维度的向量表示；

所述日志向量表示阶段这一模型首先通过日志解析，提取所述原始文本型日志序列中的关键信息，减少语料库的大小，然后结合词嵌入和统计学方法的优势，更好地提取日志中包含的语义和结构信息，为后续模型构建提供可靠的源数据信息。

7.根据权利要求6所述的基于图模式的微服务日志异常检测方法，其特征在于，所述日志解析、词嵌入和统计学方法的具体步骤包括：

具体的，单词w在日志事件e中的词频TF_w，e表示为：

每个单词w在整个日志文件中的普遍程度IDF_w表示为：

其中：N表示日志事件总数，N_w表示包含词条w的日志事件数量；最终，每个单词w在日志事件e中的重要程度表示为：

W_w,e＝TF_w,e×IDF_w

最终，日志模板序列中每条日志事件的向量化表示结果为：

8.根据权利要求1所述的基于图模式的微服务日志异常检测方法，其特征在于，所述日志事件图构建阶段通过捕捉系统中各个模块之间的调用关系和模块内部的时序关系，构建一个有向日志事件图；

所述调用关系反映了系统组件之间的依赖和交互模式，异常通常表现为不正常的调用流程或意外的调用序列；

所述时序关系揭示了事件发生的顺序，异常往往表现为在正常操作时不太可能发生的事件时间分布；因此，通过构建调用-时序关系，能够更有效地识别所述数值型日志序列中潜在的异常模式。

9.根据权利要求8所述的基于图模式的微服务日志异常检测方法，其特征在于，所述日志事件图构建阶段中，日志事件图的构建流程具体包括：

第一步，对于每一个服务span，获取属于该span下的所有一般日志事件和跨度事件，并按照时间戳建立顺序关系；

第二步，获取该数值型日志序列所对应的时间间隔向量T；

T₀＝0

T_i＝t_i-t_i-1(i>0)

其中，t_i表示第i条日志事件对应的时间戳；

V_e′＝V_e+T_e

第四步，对于跨度日志事件，根据其标识符parentSpanId构建父子跨度之间的连接；具体的，对于客户端/服务器型跨度，添加一条从客户端请求到服务端的连接，以及一条从服务端响应到客户端的连接；对于生产者/消费者跨度，则添加一条生产者到消费者的连接；

第五步，将连接信息转为为边序列，添加到每个节点的边信息中。

10.根据权利要求1所述的基于图模式的微服务日志异常检测方法，其特征在于，所述异常检测阶段，基于GIN的无监督日志异常检测方法具体包括：

第一步，加载正常模式下的日志事件图结构；