CN116010208A

CN116010208A - 一种基于对抗迁移学习的日志异常检测方法

Info

Publication number: CN116010208A
Application number: CN202310017613.5A
Authority: CN
Inventors: 杨恺; 邱承博; 谢雨霞
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-04-25

Abstract

本发明提出一种基于对抗迁移学习的日志异常检测方法，通过建立一个可以借助原系统日志数据(源域)异常检测模型，以及新系统下无标记的日志数据集(目标域)，通过无监督域适应中的对抗迁移方法训练得到异常检测模型，实现对于新系统的异常检测。本发明使用并行卷积神经网络实现对于系统日志的语义特征提取，通过卷积神经网络将日志信息映射到隐变量空间进行词级特征的提取。通过循环神经网络来提取日志序列数据中所包含的时序特征，为异常判断奠定基础。对系统升级和更新之后的日志数据使用对抗迁移学习方法，借助已有模型来训练新数据集上的异常检测模型，然后直接进行异常检测，而不需要从头设计异常检测算法，有效提高运维效率。

Description

一种基于对抗迁移学习的日志异常检测方法

技术领域

本发明涉及异常检测技术领域，尤其涉及一种基于对抗迁移学习的日志异常检测方法。

背景技术

在数据挖掘领域，异常检测主要是用于对不符合预期模式的观测值、事件等进行识别。本发明主要考虑在大型复杂系统中基于日志数据的异常检测问题，但发明所提出的方法绝不仅限于对于某类数据的异常检测，可以泛化到需要借助监测数据分析进行异常检测的多种情况。

近些年，我们见证了信息体量的爆炸式增长，诸多领域都亟需海量数据的高效处理，因此针对海量数据的处理平台显得愈发重要。但是由于处理平台的架构复杂，生态系统规模庞大，一旦出现故障就很容易影响系统的可用性和可靠性，甚至造成严重的经济损失。因此为了给用户带来更好的使用体验，对于系统的有效维护显得至关重要。而对于系统的运行维护主要通过持续监控和分析系统日志，性能计数器和应用程序资源使用模式，评估系统运行状况并确定性能变化。如何更好的利用系统产生的一系列状态记录数据来实时地把握系统的运行情况，有效避免系统异常，可以节约运维成本，提高系统本身的可靠性和效率，并且实现智能化的运维过程。

为了便于海量数据的存储和处理，大型复杂系统平台通常在服务器集群上运行，同时可以扩展到数千个硬件节点上进行数据处理。这些节点通常涉及到许多地理位置分散的计算设备，而这些设备由于能力受限很容易发生故障，从而影响系统的正常运行。但是仅仅依靠传统的运维方式来为用户提供服务是非常不现实的，我们需要为运维方式注入智能化和自动化技术，并借助它来提高系统的可用性和可靠性。系统日志作为系统运行过程中收集到的特定短消息，它记录了正在运行的系统状态，分析日志数据有助于帮助我们全面了解系统的运行状态，从而实现大型复杂系统的智能运维。

现有的日志分析方法大都针对单一系统进行定制化设计，它们对于系统的升级和更新比较敏感，系统升级和更新会带来日志数据的一系列变化，这时候原有的日志分析模型将不再适用，因为不同的系统有不同的日志监控设施，问题也可能不一致。许多机器学习模型或深度学习模型的各个方面(比如特征提取、数据抽样和评估技术)都需要针对特定的问题背景进行调整，此时若从头开始设计整套日志分析方法，会导致运维成本飙升，并且针对于海量新的日志数据集进行数据标注十分耗时费力。如何合理利用已有的解决方案将其针对目标系统进行修改，才能既有效降低运维成本，又能保证比较优越的性能，目前是跨系统异常检测的一个巨大挑战。

然而，对于跨数据集的大型复杂系统的日志进行有效异常检测目前存在一系列的挑战。一方面是日志数据处理和分析本身存在的一些难点，首先，日志数据是高维、非结构化的，同时有着多种数据形式，包括文本、日期和数字。再者，日志数据的体量是十分庞大的，生成速度也很快速，需要实时的数据处理和分析。最后，对于体量巨大的日志数据进行标注，不仅需要领域专家知识还十分耗时。另一方面是跨数据集的情况下日志异常检测的难点，首先，源域数据集和目标域数据集日志之间存在语法描述上的差异，原有的分析方法不再能准确把握其语义特征。再者，源域数据集的日志模式和目标域数据集的日志模式存在差异，这会使得原有的检测方法对于异常的判断出现偏差，导致性能下降。其次，对于目标域数据集上的日志进行标注，成本高昂。最后，在实际应用中，针对目标域数据集进行异常检测时，仅仅依靠分析日志数据，可能对于系统状态的把握会显得不够全面，这时候需要借助一些系统知识来有效提高系统异常检测的性能。

发明内容

本发明的目的在于提出一种可靠性高、有效减低系统运维的成本、提高运维效率的日志异常检测方法。

为达到上述目的，本发明提出一种基于对抗迁移学习的日志异常检测方法，包括以下步骤：

步骤1：清洗源域日志数据；

步骤2：对所述源域日志数据进行清洗和预处理后进行正异常划分；

步骤3：将所述源域日志数据输入异常检测神经网络进行监督训练；

步骤4：多次训练得到源域深度异常检测网络模型；

步骤5：获取目标域无标记的日志数据进行清洗和预处理；

步骤6：将目标域无标记的日志数据输入到所述源域深度异常检测网络模型；

步骤7：借助对抗迁移学习方法训练目标域网络模型；

步骤8：输入待检测数据到所述目标域网络模型；

步骤9：根据目标域网络模型的输出结果与阈值进行对比；

步骤10：若大于阈值，判定为数据异常；若小于阈值，判定为数据正常。

进一步的，所述源域深度异常检测网络模型包括特征生成器和异常检测器。

进一步的，所述特征检测器对于通过并行卷积网络，将预处理日志数据输入到网络中，对日志数据进行嵌入处理，将高维的日志数据映射到低维隐变量空间，获取到其中的表示作为该日志数据的特征向量；

通过特征生成器G_f产生特征f₁：

f₁＝G_f(X_S/T；θ_f)。

进一步的，所述异常检测器采用LSTM单元或者GRU单元进行序列关系提取，并且可以根据序列的长度进行网络结构的动态调整，通过异常检测器G_y1生成异常结果：

G_y1(G_f(X_S/T；θ_f)；θ_y1)。

进一步的，在步骤7中，对抗迁移学习模型的整体结构包括一个特征生成器和两个异常检测器；分别实现的功能是特征生成和异常检测。

进一步的，所述特征生成器，输入数据通过并行的卷积神经网络生成对应的特征向量f₁，作为后续神经网络的输入；所述特征生成器需要同时对源域和目标域数据进行处理；

所述异常检测器，先要通过源域的数据进行训练，分别获得两个在源域上表现良好的异常检测器，然后再输入目标域数据来计算两个检测器之间的差异，通过对抗优化这个差异来动态调整异常检测器在目标域数据上的性能，以获得在目标系统上异常检测性能优越的模型。

针对于源域样本

和目标域样本

其中

表示源域输入样本，

表示对应的异常标记，源域共有n_s个有标记的日志序列数据；

表示目标域输入样本，目标域共有n_t个无标记的日志序列数据；

异常检测的损失函数分别是

和

其中θ_f表示特征生成器的参数，θ_y1，θ_y2表示异常检测器的参数；损失函数的具体的数学表达是：

用于衡量不同异常检测器检测结果差异的损失函数是

具体的数学表达是：

进一步的，所述对抗迁移学习方法训练具体的优化过程如下：

步骤1：通过优化特征生成器和异常预测器中的参数θ_f，

来实现对于源域上日志特征生成器和异常预测器的训练，具体的优化目标是：

步骤2：通过忽略特征生成器的参数来固定特征生成器，主要训练异常预测器使得不同异常预测器的预测结果之间的差异尽可能的大，具体的优化目标是：

步骤3：通过忽略异常预测器的参数来固定异常预测器，主要训练特征生成器使得不同异常预测器的预测结果之间的差异尽可能的小，具体的优化目标是：

与现有技术相比，本发明的优势之处在于：本方法利用已有系统(源域)本身产生的日志数据，基于无监督域适应中的对抗迁移方法来训练神经网络进行新系统(目标域)的异常检测，实现用系统日志数据进行系统异常检测的目的，从而提高系统的可靠性。并且由于引入的无监督域适应理论针对日志数据进行有效特征提取和知识迁移，不需要对新系统日志数据进行标记，可以有效减低系统运维的成本，并且进一步提高系统的整体运维效率。

附图说明

图1为本发明实施例中目标域系统日志数据进行异常检测的总体流程图；

图2为本发明实施例中对抗迁移异常检测网络模型示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案作进一步地说明。

如图1所示，本发明提出一种基于对抗迁移学习的日志异常检测方法，包括以下步骤：

步骤1：清洗源域日志数据；

步骤4：多次训练得到源域深度异常检测网络模型；

步骤5：获取目标域无标记的日志数据进行清洗和预处理；

步骤7：借助对抗迁移学习方法训练目标域网络模型；

步骤8：输入待检测数据到所述目标域网络模型；

步骤9：根据目标域网络模型的输出结果与阈值进行对比；

本发明使用有效的并行卷积神经网络结构来针对大体量的原始日志数据进行高效的语义特征提取。

具体而言，对于源域和目标域系统内出现的所有日志数据信息，先对其进行逐条扫描，完成简单的数据清洗工作，然后进行噪音处理，再进行正异常划分。将处理之后的日志数据作为原始语料用于训练输入部分所需要的卷积网络嵌入层模型，根据所得到的卷积网络嵌入层模型，将每条日志数据转化成维度相等的向量。

本发明提出的网络结构模型如图2所示。

结合图2，对于异常检测的模型，我们主要分为两个部分来介绍，分别是特征生成器和异常检测器。特征生成器，顾名思义要实现对于日志序列数据的自动化特征提取，主要任务是对预处理之后的日志数据，借助深度学习方法进行特征表示，以获取日志特征向量。具体地，通过并行卷积网络，将预处理日志数据输入到网络中，对日志数据进行嵌入处理，将高维的日志数据映射到低维隐变量空间，获取到其中的表示作为该日志数据的特征向量。之所以采用并行卷积网络，是因为同时考虑到日志序列在词语级别不同维度的特征，并且想要进一步提高特征提取的效率，所以采用了并行的结构。可以看到，源域和目标域的数据都需要通过并行卷积神经网络进行初步的特征提取，不同的卷积神经网络主要差距在于卷积核的大小设置不一致，对应提取日志数据中不同长度的语义信息特征，针对提取之后的特征可以进行组合获得不同粒度的语义特征，从而丰富了特征的多样性，有利于更好的把握日志的语义。

通过特征生成器G_f产生特征f₁：

f₁＝G_f(X_S/T；θ_f)

借助循环神经网络来对日志序列数据进行时序建模，从而有效把握日志序列异常特征。

结合图2，异常检测器部分，考虑到处理的日志数据本质上是序列型数据，想要针对日志数据的时序特性进行建模，故循环神经网络内部可以采用LSTM单元或者GRU单元进行序列关系提取，并且可以根据序列的长度进行网络结构的动态调整，通过异常检测器

生成异常结果：

基于无监督域适应理论和对抗迁移学习方法来训练目标域的异常检测神经网络，针对新系统的日志数据进行系统异常检测。

对抗迁移学习模型主要的思路是分析原系统中日志数据的特征，同时对比目标系统中日志数据的特征，考虑原系统所在的领域跟目标系统所在领域之间的差距，通过无监督域适应性(Unsupervised DomainAdaptation,UDA)的相关知识，结合对抗迁移学习来将原系统的有效信息迁移到目标系统上，从而辅助目标系统上异常检测模型的学习。具体地，如图2所示，对抗迁移学习模型的整体结构包括一个特征生成器和两个异常检测器。分别实现的功能是特征生成和异常检测。先来关注一下特征生成器部分，此处的输入数据通过并行的卷积神经网络生成对应的特征向量f₁，作为后续神经网络的输入。需要说明的是对抗迁移的训练过程中，特征生成器需要同时对源域和目标域数据进行处理，后半部分的异常检测器，先要通过源域的数据进行训练，分别获得两个在源域上表现良好的异常检测器，然后再输入目标域数据来计算两个检测器之间的差异，通过对抗优化这个差异来动态调整异常检测器在目标域数据上的性能，以获得在目标系统上异常检测性能优越的模型。

针对于源域样本

和目标域样本

其中

表示源域输入样本，

表示对应的异常标记，源域共有n_s个有标记的日志序列数据。

表示目标域输入样本，目标域共有n_t个无标记的日志序列数据。异常检测的损失函数分别是

和

其中θ_f表示特征生成器的参数，

表示异常检测器的参数。损失函数的具体的数学表达是：

用于衡量不同异常检测器检测结果差异的损失函数是

具体的数学表达是：

接下来描述对抗迁移训练的具体优化过程，分为三个步骤，步骤一主要是训练源域上性能优越的异常预测模型，步骤二和三通过交替优化来使得目标域上异常预测器的性能达到最优。

Step1：训练源域上的日志特征生成器和异常预测器

该步骤主要通过优化特征生成器和异常预测器中的参数θ_f，

Step2：固定特征生成器，分别训练预测器使得差异最大化

该步骤主要通过忽略特征生成器的参数来固定特征生成器，主要训练异常预测器使得不同异常预测器的预测结果之间的差异尽可能的大，具体的优化目标是：

Step3：固定预测器，训练特征生成器使得差异最小化

该步骤主要通过忽略异常预测器的参数来固定异常预测器，主要训练特征生成器使得不同异常预测器的预测结果之间的差异尽可能的小，具体的优化目标是：

整个过程体现的是一种对抗训练的思想，通过对分类器差异的对抗训练来实现有效的迁移，从而训练得到目标系统上性能优越的异常检测模型。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。