CN116010208A - 一种基于对抗迁移学习的日志异常检测方法 - Google Patents

一种基于对抗迁移学习的日志异常检测方法 Download PDF

Info

Publication number
CN116010208A
CN116010208A CN202310017613.5A CN202310017613A CN116010208A CN 116010208 A CN116010208 A CN 116010208A CN 202310017613 A CN202310017613 A CN 202310017613A CN 116010208 A CN116010208 A CN 116010208A
Authority
CN
China
Prior art keywords
anomaly
log
data
domain
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310017613.5A
Other languages
English (en)
Inventor
杨恺
邱承博
谢雨霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202310017613.5A priority Critical patent/CN116010208A/zh
Publication of CN116010208A publication Critical patent/CN116010208A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提出一种基于对抗迁移学习的日志异常检测方法,通过建立一个可以借助原系统日志数据(源域)异常检测模型,以及新系统下无标记的日志数据集(目标域),通过无监督域适应中的对抗迁移方法训练得到异常检测模型,实现对于新系统的异常检测。本发明使用并行卷积神经网络实现对于系统日志的语义特征提取,通过卷积神经网络将日志信息映射到隐变量空间进行词级特征的提取。通过循环神经网络来提取日志序列数据中所包含的时序特征,为异常判断奠定基础。对系统升级和更新之后的日志数据使用对抗迁移学习方法,借助已有模型来训练新数据集上的异常检测模型,然后直接进行异常检测,而不需要从头设计异常检测算法,有效提高运维效率。

Description

一种基于对抗迁移学习的日志异常检测方法
技术领域
本发明涉及异常检测技术领域,尤其涉及一种基于对抗迁移学习的日志异常检测方法。
背景技术
在数据挖掘领域,异常检测主要是用于对不符合预期模式的观测值、事件等进行识别。本发明主要考虑在大型复杂系统中基于日志数据的异常检测问题,但发明所提出的方法绝不仅限于对于某类数据的异常检测,可以泛化到需要借助监测数据分析进行异常检测的多种情况。
近些年,我们见证了信息体量的爆炸式增长,诸多领域都亟需海量数据的高效处理,因此针对海量数据的处理平台显得愈发重要。但是由于处理平台的架构复杂,生态系统规模庞大,一旦出现故障就很容易影响系统的可用性和可靠性,甚至造成严重的经济损失。因此为了给用户带来更好的使用体验,对于系统的有效维护显得至关重要。而对于系统的运行维护主要通过持续监控和分析系统日志,性能计数器和应用程序资源使用模式,评估系统运行状况并确定性能变化。如何更好的利用系统产生的一系列状态记录数据来实时地把握系统的运行情况,有效避免系统异常,可以节约运维成本,提高系统本身的可靠性和效率,并且实现智能化的运维过程。
为了便于海量数据的存储和处理,大型复杂系统平台通常在服务器集群上运行,同时可以扩展到数千个硬件节点上进行数据处理。这些节点通常涉及到许多地理位置分散的计算设备,而这些设备由于能力受限很容易发生故障,从而影响系统的正常运行。但是仅仅依靠传统的运维方式来为用户提供服务是非常不现实的,我们需要为运维方式注入智能化和自动化技术,并借助它来提高系统的可用性和可靠性。系统日志作为系统运行过程中收集到的特定短消息,它记录了正在运行的系统状态,分析日志数据有助于帮助我们全面了解系统的运行状态,从而实现大型复杂系统的智能运维。
现有的日志分析方法大都针对单一系统进行定制化设计,它们对于系统的升级和更新比较敏感,系统升级和更新会带来日志数据的一系列变化,这时候原有的日志分析模型将不再适用,因为不同的系统有不同的日志监控设施,问题也可能不一致。许多机器学习模型或深度学习模型的各个方面(比如特征提取、数据抽样和评估技术)都需要针对特定的问题背景进行调整,此时若从头开始设计整套日志分析方法,会导致运维成本飙升,并且针对于海量新的日志数据集进行数据标注十分耗时费力。如何合理利用已有的解决方案将其针对目标系统进行修改,才能既有效降低运维成本,又能保证比较优越的性能,目前是跨系统异常检测的一个巨大挑战。
然而,对于跨数据集的大型复杂系统的日志进行有效异常检测目前存在一系列的挑战。一方面是日志数据处理和分析本身存在的一些难点,首先,日志数据是高维、非结构化的,同时有着多种数据形式,包括文本、日期和数字。再者,日志数据的体量是十分庞大的,生成速度也很快速,需要实时的数据处理和分析。最后,对于体量巨大的日志数据进行标注,不仅需要领域专家知识还十分耗时。另一方面是跨数据集的情况下日志异常检测的难点,首先,源域数据集和目标域数据集日志之间存在语法描述上的差异,原有的分析方法不再能准确把握其语义特征。再者,源域数据集的日志模式和目标域数据集的日志模式存在差异,这会使得原有的检测方法对于异常的判断出现偏差,导致性能下降。其次,对于目标域数据集上的日志进行标注,成本高昂。最后,在实际应用中,针对目标域数据集进行异常检测时,仅仅依靠分析日志数据,可能对于系统状态的把握会显得不够全面,这时候需要借助一些系统知识来有效提高系统异常检测的性能。
发明内容
本发明的目的在于提出一种可靠性高、有效减低系统运维的成本、提高运维效率的日志异常检测方法。
为达到上述目的,本发明提出一种基于对抗迁移学习的日志异常检测方法,包括以下步骤:
步骤1:清洗源域日志数据;
步骤2:对所述源域日志数据进行清洗和预处理后进行正异常划分;
步骤3:将所述源域日志数据输入异常检测神经网络进行监督训练;
步骤4:多次训练得到源域深度异常检测网络模型;
步骤5:获取目标域无标记的日志数据进行清洗和预处理;
步骤6:将目标域无标记的日志数据输入到所述源域深度异常检测网络模型;
步骤7:借助对抗迁移学习方法训练目标域网络模型;
步骤8:输入待检测数据到所述目标域网络模型;
步骤9:根据目标域网络模型的输出结果与阈值进行对比;
步骤10:若大于阈值,判定为数据异常;若小于阈值,判定为数据正常。
进一步的,所述源域深度异常检测网络模型包括特征生成器和异常检测器。
进一步的,所述特征检测器对于通过并行卷积网络,将预处理日志数据输入到网络中,对日志数据进行嵌入处理,将高维的日志数据映射到低维隐变量空间,获取到其中的表示作为该日志数据的特征向量;
通过特征生成器Gf产生特征f1
f1=Gf(XS/T;θf)。
进一步的,所述异常检测器采用LSTM单元或者GRU单元进行序列关系提取,并且可以根据序列的长度进行网络结构的动态调整,通过异常检测器Gy1生成异常结果:
Gy1(Gf(XS/T;θf);θy1)。
进一步的,在步骤7中,对抗迁移学习模型的整体结构包括一个特征生成器和两个异常检测器;分别实现的功能是特征生成和异常检测。
进一步的,所述特征生成器,输入数据通过并行的卷积神经网络生成对应的特征向量f1,作为后续神经网络的输入;所述特征生成器需要同时对源域和目标域数据进行处理;
所述异常检测器,先要通过源域的数据进行训练,分别获得两个在源域上表现良好的异常检测器,然后再输入目标域数据来计算两个检测器之间的差异,通过对抗优化这个差异来动态调整异常检测器在目标域数据上的性能,以获得在目标系统上异常检测性能优越的模型。
针对于源域样本
Figure BDA0004040502480000041
和目标域样本
Figure BDA0004040502480000042
其中
Figure BDA0004040502480000047
表示源域输入样本,
Figure BDA0004040502480000048
表示对应的异常标记,源域共有ns个有标记的日志序列数据;
Figure BDA0004040502480000049
表示目标域输入样本,目标域共有nt个无标记的日志序列数据;
异常检测的损失函数分别是
Figure BDA0004040502480000043
Figure BDA0004040502480000044
其中θf表示特征生成器的参数,θy1,θy2表示异常检测器的参数;损失函数的具体的数学表达是:
Figure BDA0004040502480000045
Figure BDA0004040502480000046
用于衡量不同异常检测器检测结果差异的损失函数是
Figure BDA0004040502480000051
具体的数学表达是:
Figure BDA0004040502480000052
进一步的,所述对抗迁移学习方法训练具体的优化过程如下:
步骤1:通过优化特征生成器和异常预测器中的参数θf
Figure BDA0004040502480000053
来实现对于源域上日志特征生成器和异常预测器的训练,具体的优化目标是:
Figure BDA0004040502480000054
Figure BDA0004040502480000055
步骤2:通过忽略特征生成器的参数来固定特征生成器,主要训练异常预测器使得不同异常预测器的预测结果之间的差异尽可能的大,具体的优化目标是:
Figure BDA0004040502480000056
步骤3:通过忽略异常预测器的参数来固定异常预测器,主要训练特征生成器使得不同异常预测器的预测结果之间的差异尽可能的小,具体的优化目标是:
Figure BDA0004040502480000057
与现有技术相比,本发明的优势之处在于:本方法利用已有系统(源域)本身产生的日志数据,基于无监督域适应中的对抗迁移方法来训练神经网络进行新系统(目标域)的异常检测,实现用系统日志数据进行系统异常检测的目的,从而提高系统的可靠性。并且由于引入的无监督域适应理论针对日志数据进行有效特征提取和知识迁移,不需要对新系统日志数据进行标记,可以有效减低系统运维的成本,并且进一步提高系统的整体运维效率。
附图说明
图1为本发明实施例中目标域系统日志数据进行异常检测的总体流程图;
图2为本发明实施例中对抗迁移异常检测网络模型示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案作进一步地说明。
如图1所示,本发明提出一种基于对抗迁移学习的日志异常检测方法,包括以下步骤:
步骤1:清洗源域日志数据;
步骤2:对所述源域日志数据进行清洗和预处理后进行正异常划分;
步骤3:将所述源域日志数据输入异常检测神经网络进行监督训练;
步骤4:多次训练得到源域深度异常检测网络模型;
步骤5:获取目标域无标记的日志数据进行清洗和预处理;
步骤6:将目标域无标记的日志数据输入到所述源域深度异常检测网络模型;
步骤7:借助对抗迁移学习方法训练目标域网络模型;
步骤8:输入待检测数据到所述目标域网络模型;
步骤9:根据目标域网络模型的输出结果与阈值进行对比;
步骤10:若大于阈值,判定为数据异常;若小于阈值,判定为数据正常。
本发明使用有效的并行卷积神经网络结构来针对大体量的原始日志数据进行高效的语义特征提取。
具体而言,对于源域和目标域系统内出现的所有日志数据信息,先对其进行逐条扫描,完成简单的数据清洗工作,然后进行噪音处理,再进行正异常划分。将处理之后的日志数据作为原始语料用于训练输入部分所需要的卷积网络嵌入层模型,根据所得到的卷积网络嵌入层模型,将每条日志数据转化成维度相等的向量。
本发明提出的网络结构模型如图2所示。
结合图2,对于异常检测的模型,我们主要分为两个部分来介绍,分别是特征生成器和异常检测器。特征生成器,顾名思义要实现对于日志序列数据的自动化特征提取,主要任务是对预处理之后的日志数据,借助深度学习方法进行特征表示,以获取日志特征向量。具体地,通过并行卷积网络,将预处理日志数据输入到网络中,对日志数据进行嵌入处理,将高维的日志数据映射到低维隐变量空间,获取到其中的表示作为该日志数据的特征向量。之所以采用并行卷积网络,是因为同时考虑到日志序列在词语级别不同维度的特征,并且想要进一步提高特征提取的效率,所以采用了并行的结构。可以看到,源域和目标域的数据都需要通过并行卷积神经网络进行初步的特征提取,不同的卷积神经网络主要差距在于卷积核的大小设置不一致,对应提取日志数据中不同长度的语义信息特征,针对提取之后的特征可以进行组合获得不同粒度的语义特征,从而丰富了特征的多样性,有利于更好的把握日志的语义。
通过特征生成器Gf产生特征f1
f1=Gf(XS/T;θf)
借助循环神经网络来对日志序列数据进行时序建模,从而有效把握日志序列异常特征。
结合图2,异常检测器部分,考虑到处理的日志数据本质上是序列型数据,想要针对日志数据的时序特性进行建模,故循环神经网络内部可以采用LSTM单元或者GRU单元进行序列关系提取,并且可以根据序列的长度进行网络结构的动态调整,通过异常检测器
Figure BDA0004040502480000081
生成异常结果:
Figure BDA0004040502480000082
基于无监督域适应理论和对抗迁移学习方法来训练目标域的异常检测神经网络,针对新系统的日志数据进行系统异常检测。
对抗迁移学习模型主要的思路是分析原系统中日志数据的特征,同时对比目标系统中日志数据的特征,考虑原系统所在的领域跟目标系统所在领域之间的差距,通过无监督域适应性(Unsupervised DomainAdaptation,UDA)的相关知识,结合对抗迁移学习来将原系统的有效信息迁移到目标系统上,从而辅助目标系统上异常检测模型的学习。具体地,如图2所示,对抗迁移学习模型的整体结构包括一个特征生成器和两个异常检测器。分别实现的功能是特征生成和异常检测。先来关注一下特征生成器部分,此处的输入数据通过并行的卷积神经网络生成对应的特征向量f1,作为后续神经网络的输入。需要说明的是对抗迁移的训练过程中,特征生成器需要同时对源域和目标域数据进行处理,后半部分的异常检测器,先要通过源域的数据进行训练,分别获得两个在源域上表现良好的异常检测器,然后再输入目标域数据来计算两个检测器之间的差异,通过对抗优化这个差异来动态调整异常检测器在目标域数据上的性能,以获得在目标系统上异常检测性能优越的模型。
针对于源域样本
Figure BDA0004040502480000083
和目标域样本
Figure BDA0004040502480000084
其中
Figure BDA0004040502480000085
表示源域输入样本,
Figure BDA0004040502480000086
表示对应的异常标记,源域共有ns个有标记的日志序列数据。
Figure BDA0004040502480000087
表示目标域输入样本,目标域共有nt个无标记的日志序列数据。异常检测的损失函数分别是
Figure BDA0004040502480000088
Figure BDA0004040502480000089
其中θf表示特征生成器的参数,
Figure BDA00040405024800000810
表示异常检测器的参数。损失函数的具体的数学表达是:
Figure BDA0004040502480000091
Figure BDA0004040502480000092
用于衡量不同异常检测器检测结果差异的损失函数是
Figure BDA0004040502480000093
具体的数学表达是:
Figure BDA0004040502480000094
接下来描述对抗迁移训练的具体优化过程,分为三个步骤,步骤一主要是训练源域上性能优越的异常预测模型,步骤二和三通过交替优化来使得目标域上异常预测器的性能达到最优。
Step1:训练源域上的日志特征生成器和异常预测器
该步骤主要通过优化特征生成器和异常预测器中的参数θf
Figure BDA0004040502480000095
来实现对于源域上日志特征生成器和异常预测器的训练,具体的优化目标是:
Figure BDA0004040502480000096
Figure BDA0004040502480000097
Step2:固定特征生成器,分别训练预测器使得差异最大化
该步骤主要通过忽略特征生成器的参数来固定特征生成器,主要训练异常预测器使得不同异常预测器的预测结果之间的差异尽可能的大,具体的优化目标是:
Figure BDA0004040502480000098
Step3:固定预测器,训练特征生成器使得差异最小化
该步骤主要通过忽略异常预测器的参数来固定异常预测器,主要训练特征生成器使得不同异常预测器的预测结果之间的差异尽可能的小,具体的优化目标是:
Figure BDA0004040502480000101
整个过程体现的是一种对抗训练的思想,通过对分类器差异的对抗训练来实现有效的迁移,从而训练得到目标系统上性能优越的异常检测模型。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

Claims (7)

1.一种基于对抗迁移学习的日志异常检测方法,其特征在于,包括以下步骤:
步骤1:清洗源域日志数据;
步骤2:对所述源域日志数据进行清洗和预处理后进行正异常划分;
步骤3:将所述源域日志数据输入异常检测神经网络进行监督训练;
步骤4:多次训练得到源域深度异常检测网络模型;
步骤5:获取目标域无标记的日志数据进行清洗和预处理;
步骤6:将目标域无标记的日志数据输入到所述源域深度异常检测网络模型;
步骤7:借助对抗迁移学习方法训练目标域网络模型;
步骤8:输入待检测数据到所述目标域网络模型;
步骤9:根据目标域网络模型的输出结果与阈值进行对比;
步骤10:若大于阈值,判定为数据异常;若小于阈值,判定为数据正常。
2.根据权利要求1所述的基于对抗迁移学习的日志异常检测方法,其特征在于,所述源域深度异常检测网络模型包括特征生成器和异常检测器。
3.根据权利要求2所述的基于对抗迁移学习的日志异常检测方法,其特征在于,所述特征检测器对于通过并行卷积网络,将预处理日志数据输入到网络中,对日志数据进行嵌入处理,将高维的日志数据映射到低维隐变量空间,获取到其中的表示作为该日志数据的特征向量;
通过特征生成器Gf产生特征f1
f1=Gf(XS/T;θf)。
4.根据权利要求2所述的基于对抗迁移学习的日志异常检测方法,其特征在于,所述异常检测器采用LSTM单元或者GRU单元进行序列关系提取,并且可以根据序列的长度进行网络结构的动态调整,通过异常检测器
Figure FDA0004040502470000011
生成异常结果:
Figure FDA0004040502470000021
5.根据权利要求1所述的基于对抗迁移学习的日志异常检测方法,其特征在于,在步骤7中,对抗迁移学习模型的整体结构包括一个特征生成器和两个异常检测器;分别实现的功能是特征生成和异常检测。
6.根据权利要求5所述的基于对抗迁移学习的日志异常检测方法,其特征在于,所述特征生成器,输入数据通过并行的卷积神经网络生成对应的特征向量f1,作为后续神经网络的输入;所述特征生成器需要同时对源域和目标域数据进行处理;
所述异常检测器,先要通过源域的数据进行训练,分别获得两个在源域上表现良好的异常检测器,然后再输入目标域数据来计算两个检测器之间的差异,通过对抗优化这个差异来动态调整异常检测器在目标域数据上的性能,以获得在目标系统上异常检测性能优越的模型。
针对于源域样本
Figure FDA0004040502470000022
和目标域样本
Figure FDA0004040502470000023
其中
Figure FDA0004040502470000024
表示源域输入样本,
Figure FDA0004040502470000025
表示对应的异常标记,源域共有ns个有标记的日志序列数据;
Figure FDA0004040502470000026
表示目标域输入样本,目标域共有nt个无标记的日志序列数据;
异常检测的损失函数分别是
Figure FDA0004040502470000027
Figure FDA0004040502470000028
其中θf表示特征生成器的参数,
Figure FDA0004040502470000029
表示异常检测器的参数;损失函数的具体的数学表达是:
Figure FDA00040405024700000210
Figure FDA00040405024700000211
用于衡量不同异常检测器检测结果差异的损失函数是
Figure FDA00040405024700000212
具体的数学表达是:
Figure FDA0004040502470000031
7.根据权利要求6所述的基于对抗迁移学习的日志异常检测方法,其特征在于,所述对抗迁移学习方法训练具体的优化过程如下:
步骤1:通过优化特征生成器和异常预测器中的参数θf
Figure FDA0004040502470000032
来实现对于源域上日志特征生成器和异常预测器的训练,具体的优化目标是:
Figure FDA0004040502470000033
Figure FDA0004040502470000034
步骤2:通过忽略特征生成器的参数来固定特征生成器,主要训练异常预测器使得不同异常预测器的预测结果之间的差异尽可能的大,具体的优化目标是:
Figure FDA0004040502470000035
步骤3:通过忽略异常预测器的参数来固定异常预测器,主要训练特征生成器使得不同异常预测器的预测结果之间的差异尽可能的小,具体的优化目标是:
Figure FDA0004040502470000036
CN202310017613.5A 2023-01-06 2023-01-06 一种基于对抗迁移学习的日志异常检测方法 Pending CN116010208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310017613.5A CN116010208A (zh) 2023-01-06 2023-01-06 一种基于对抗迁移学习的日志异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310017613.5A CN116010208A (zh) 2023-01-06 2023-01-06 一种基于对抗迁移学习的日志异常检测方法

Publications (1)

Publication Number Publication Date
CN116010208A true CN116010208A (zh) 2023-04-25

Family

ID=86019402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310017613.5A Pending CN116010208A (zh) 2023-01-06 2023-01-06 一种基于对抗迁移学习的日志异常检测方法

Country Status (1)

Country Link
CN (1) CN116010208A (zh)

Similar Documents

Publication Publication Date Title
US20220405592A1 (en) Multi-feature log anomaly detection method and system based on log full semantics
CN113434357B (zh) 基于序列预测的日志异常检测方法及装置
Hoang et al. An efficient hidden Markov model training scheme for anomaly intrusion detection of server applications based on system calls
CN111914873A (zh) 一种两阶段云服务器无监督异常预测方法
CN113312447B (zh) 基于概率标签估计的半监督日志异常检测方法
CN108763931A (zh) 基于Bi-LSTM和文本相似性的漏洞检测方法
CN111782460A (zh) 大规模日志数据的异常检测方法、装置和存储介质
CN112738014A (zh) 一种基于卷积时序网络的工控流量异常检测方法及系统
Sun et al. Context-aware learning for anomaly detection with imbalanced log data
Zhang et al. Logst: Log semi-supervised anomaly detection based on sentence-bert
CN112035345A (zh) 一种基于代码片段分析的混合深度缺陷预测方法
CN115328782A (zh) 基于图表示学习和知识蒸馏的半监督软件缺陷预测方法
Zhu et al. An approach to cloud platform log anomaly detection based on natural language processing and LSTM
Xie et al. An attention-based gru network for anomaly detection from system logs
CN114416479A (zh) 一种基于流外正则化的日志序列异常检测方法
CN114676700A (zh) 基于混合多原型的小样本命名实体识别方法
CN112882899B (zh) 一种日志异常检测方法及装置
CN117874662A (zh) 基于图模式的微服务日志异常检测方法
CN117608889A (zh) 基于日志语义的异常检测方法以及相关设备
Li et al. Improving performance of log anomaly detection with semantic and time features based on bilstm-attention
CN116909788A (zh) 一种任务导向和视角不变的多模态故障诊断方法及系统
CN116010208A (zh) 一种基于对抗迁移学习的日志异常检测方法
CN114969761A (zh) 一种基于lda主题特征的日志异常检测方法
CN111209158B (zh) 服务器集群的挖矿监控方法及集群监控系统
CN115048269A (zh) 一种基于对抗迁移学习的日志异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200092 Siping Road 1239, Shanghai, Yangpu District

Applicant after: TONGJI University

Address before: 200092 Siping Road 1239, Shanghai, Hongkou District

Applicant before: TONGJI University