CN114741369A - 一种基于自注意力机制的图网络的系统日志检测方法 - Google Patents

一种基于自注意力机制的图网络的系统日志检测方法 Download PDF

Info

Publication number
CN114741369A
CN114741369A CN202210456449.3A CN202210456449A CN114741369A CN 114741369 A CN114741369 A CN 114741369A CN 202210456449 A CN202210456449 A CN 202210456449A CN 114741369 A CN114741369 A CN 114741369A
Authority
CN
China
Prior art keywords
sequence
data
model
log
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210456449.3A
Other languages
English (en)
Inventor
韩蒙
吴超飞
洪榛
林昶廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Binjiang Research Institute Of Zhejiang University
Original Assignee
Binjiang Research Institute Of Zhejiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Binjiang Research Institute Of Zhejiang University filed Critical Binjiang Research Institute Of Zhejiang University
Priority to CN202210456449.3A priority Critical patent/CN114741369A/zh
Publication of CN114741369A publication Critical patent/CN114741369A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种基于自注意力机制的图网络的系统日志检测方法,首先从系统的主日志文件中收集日志文本数据,以及系统硬件数据,建立标准的多序列数据源;建立时空图神经网络模型,基于标准多序列数据建立序列间图关系,以及序列内时序关系,训练最优参数;基于最优参数模型,将新的标准多序列数据进行模型推理,建立推理结果判别标准;基于推理结果,定位异常事件发生区域及异常发生时间,基于硬件数据进一步分析异常原因。本发明具有很好的稳定性,检测精度高。

Description

一种基于自注意力机制的图网络的系统日志检测方法
技术领域
本发明涉及计算机系统安全检测技术领域,具体涉及一种基于自注意力机制的图网络的系统日志检测方法。
背景技术
如今,数据服务通常运行在由数千台服务器组成的数据中心中,服务的质量取决于大数据系统的可靠性和安全性。特别是在一些企业的数据中心,需要提前检测异常事件,以避免造成重大损失。随着系统变得比以往任何时候都越来越复杂,它们正在暴露出更多的漏洞。部署细粒度的检测工具是至关重要的,这些工具旨在识别数据中可能被遗漏的线索。日志记录系统运行时触发的重要事件,并根据时间戳形成一个序列。如何有效利用这些日志序列数据进行事件检测具有重要意义。
系统记录系统状态和记录禁止事件,以帮助调试性能问题和故障,并执行根本原因分析。这种日志数据在几乎所有的计算机系统中都普遍可用,是理解系统状态的宝贵资源。此外,由于系统日志记录了正在运行的进程中发生的值得注意的事件,它们是在线监视和异常检测的极好的信息来源。
随着系统的规模和复杂性的增加,通过人工检查日志来检测系统异常变得越来越困难。多年来,许多基于日志的自动方法已经被提出来检测系统异常,这些工作从日志中检索有用的信息,并采用数据挖掘和机器学习技术来分析日志数据,并检测系统异常的发生。
现有的基于日志的异常检测方法虽然有效,但在实践中还不够鲁棒。为了检测异常情况,几乎所有现有的方法都需要使用从训练数据中提取的已知的日志事件(即日志消息的模板)和日志序列(即记录特定执行流的一系列日志事件)来构建一个检测模型。为了进行基于日志的异常检测,人们已经做出了巨大的努力。现有的异常检测方法根据机器学习模型可以大致分为两类:经典的基于机器学习的方法和基于深度学习的方法。现有的方法尽管它们在某些情况下是成功的,但没有一种是通用的异常检测方法,能够检测多种异常事件。
因此,在目前复杂的系统环境中,亟需提供一种有效的基于多源日志的安全检测方法。
发明内容
针对当前研究都针对特定攻击场景,对基于多源日志序列的检测研究不足的情况下,本发明提出了一种具有很好的可靠性、检测准确的基于时空图神经网络的系统日志检测方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于自注意力机制的图网络的系统日志检测方法,其包括以下步骤:
S1、从系统的主日志文件中收集日志文本数据和系统硬件数据,建立标准的多序列数据源;
S2、建立自注意力图网络模型,并基于标准多序列数据源建立序列间图关系和序列内时序关系;
S3、分别对日志序列进行序列内特征学习,建立频域时序模型;
S4、结合自注意力图网络模型和频域时序模型,建立自注意力时空模型,从空间和时间两个维度学习多序列日志间的关系;
S5、根据判别标准调试自注意力时空模型,将多序列训练数据作为输入进行模型训练得到最优参数模型;
S6、基于最优参数模型,将处理后的待检测多序列日志作为输出,推理结果,定位异常事件发生区域及异常发生时间,并根据硬件数据分析异常原因。
优选地,S1具体包括以下步骤:
S1.1、收集系统日志文本序列,基于日志解析器提取日志模板序号,得到日志数字序列;
S1.2、收集硬件序列信息,包括系统的Cpu,Ram,Buffer,Disk信息,按照1条/s的频次收集,写入文件,内容包含各指标信息及对应时间;
S1.3、以秒为单位,建立标准多序列数据源,对日志文本数据及系统硬件数据按照时间维度进行匹配,每条日志数据对应一个底层硬件序列关系,得到标准多序列数据;
S1.4、对硬件数据进行归一化处理,具体处理方法如下:
Figure 509716DEST_PATH_IMAGE001
(1)
其中,
Figure 161277DEST_PATH_IMAGE002
为标准数据结果,
Figure 488485DEST_PATH_IMAGE003
Figure 742748DEST_PATH_IMAGE004
是硬件数据样本中的最大和最小值,
Figure 104591DEST_PATH_IMAGE005
为硬件数据。
优选地,S2中建立自注意力图网络模型的具体步骤包括:
S2.1、利用自注意力机制得到权重矩阵,建立图结构学习层,计算方法如下:
Figure 661474DEST_PATH_IMAGE006
(2)
其中,
Figure 725245DEST_PATH_IMAGE007
Figure 751843DEST_PATH_IMAGE008
Figure 279776DEST_PATH_IMAGE009
表示所有节点的查询、键和嵌入,权重矩阵
Figure 820610DEST_PATH_IMAGE010
是图结构学习层的结果;
2.2、基于权重矩阵,得到当前时刻不同序列之间的权重关系,对不同时刻重复权重矩阵,得到序列时间上所有时刻的空间关系。
优选地,S3中建立频域时序模型的具体步骤包括:
S3.1、利用谱域图卷积的方式构建序列内特征,通过图傅里叶变换将输入转换为谱域,公式如下:
Figure 309360DEST_PATH_IMAGE011
(3)
其中,
Figure 108689DEST_PATH_IMAGE012
是单位矩阵,
Figure 179544DEST_PATH_IMAGE013
Figure 468443DEST_PATH_IMAGE014
的对角矩阵,
Figure 257539DEST_PATH_IMAGE015
是归一化图的拉普拉斯矩阵的特征向量矩阵,
Figure 267083DEST_PATH_IMAGE016
是定义为
Figure 972871DEST_PATH_IMAGE017
的特征值的对角化矩阵;
S3.2、在建立序列间图关系的基础上,学习序列内部的时序关系,采用一维卷积的方式捕捉时序特征,计算公式如下:
Figure 852578DEST_PATH_IMAGE018
(4)
其中,
Figure 440554DEST_PATH_IMAGE019
是一维卷积的输入,
Figure 66839DEST_PATH_IMAGE020
是卷积核,
Figure 299237DEST_PATH_IMAGE021
是非线性sigmoid函数,
Figure 867621DEST_PATH_IMAGE022
是矩阵之间的元素级乘积。
优选地,S4中建立自注意力时空模型的具体步骤包括:
S4.1、将每个谱时间图卷积单元通过谱域变换和频域变换捕捉序列之间和序列内部的特征,并将两个单位以残差的形式连接起来;
S4.2、自注意力时空模型中所有模块参数通过数据统一训练,以数据驱动的方式更新所有参数,设置目标损失函数如下:
Figure 428047DEST_PATH_IMAGE023
(5)
其中,
Figure 107290DEST_PATH_IMAGE024
是标准输入,
Figure 194194DEST_PATH_IMAGE025
为t时刻模型的预测值;
S4.3设定训练策略,将采集数据按照7:2:1的比例划分为训练数据,验证数据和测试数据,利用验证数据来评定是否为最优参数模型。
优选地,S5中推理结果判别标准具体包括:
自注意力时空模型通过精度、回收率和F1评分来评估该异常检测方法的有效性,将其结果标记为TP、TN、FP和FN;其中TP是HDFS数据集中的真正例,表示正常样本被模型预测为正常,TN是HDFS数据集中的真反例;表示异常样本被模型预测为异常,FP是HDFS数据集中的假正例,表示异常样本被模型预测结果为正常,FN是HDFS数据集中的假反例,表示正常样本被模型预测结果为异常。
精度指标的计算方式如下:
Figure 684213DEST_PATH_IMAGE026
(6)
回收率指标的计算方式如下:
Figure 184464DEST_PATH_IMAGE027
(7)
F1评分的计算方式如下:
Figure 217798DEST_PATH_IMAGE028
(8)。
优选地,S1.3中,对日志文本数据及系统硬件数据按照时间维度进行匹配具体是将N*1大小的日志数字序列与N*m大小的硬件序列匹配为N*(1+m)大小的标准多序列数据块,m为系统硬件采集的指标个数。
本申请与现有技术相比,至少具有以下明显优点和效果:
本发明提出了基于多源日志序列的检测方法,考虑系统相关的其他日志序列,引入图神经网络方法构建多个日志序列之间的关系,从而进行日志检测。构建基于时间的数据匹配和模板索引的工作流序列,与以往的日志序列特征检测方法不同,通过匹配对数的硬件数据来提高模型对异常序列的敏感性;通过多个数据序列,我们能够识别出较低比例的异常任务。本发明具有很好的稳定性,精度更高,对小比例异常事件更加敏感。
附图说明
图1是本发明方法的整体示意图。
图2是本发明多序列数据匹配示意图。
图3是本发明日志数据解析示意图。
图4是本发明基于谱域图卷积的时序预测算法示意图。
具体实施方式
为进一步了解本发明的内容,结合实施例对本发明作详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
参照图1至图4,本实施例涉及一种基于自注意力机制的图网络的系统日志检测方法,步骤如下:
S1、从系统的主日志文件中收集日志文本数据,以及系统硬件数据,建立标准的多序列数据源,所述过程如下:
S1.1、收集系统日志文本序列,基于日志解析器提取日志模板序号,得到日志数字序列;
S1.2、收集硬件序列信息,主要包括系统的Cpu,Ram,Buffer,Disk信息,按照1条/s的频次收集,写入文件,内容包含各指标信息及对应时间;
S1.3、因日志的生成频次不定,最小以秒为单位,为建立标准多序列数据源,需要对日志文本数据及系统硬件数据按照时间维度进行匹配,即将N*1大小的日志数字序列与N*m大小的硬件序列匹配为N*(1+m)大小的标准多序列数据块,m为系统硬件采集的指标个数,此处为m=4。每条日志数据都对应一个底层硬件序列关系,此时得到标准多序列数据。
S1.4、为消除量纲对结果的影响,此处还需要对硬件数据进行归一化处理,具体处理方法如下:
Figure 487105DEST_PATH_IMAGE029
其中,
Figure 334976DEST_PATH_IMAGE002
为标准数据结果,
Figure 807676DEST_PATH_IMAGE030
Figure 891039DEST_PATH_IMAGE031
是硬件数据样本中的最大和最小值,
Figure 500006DEST_PATH_IMAGE032
为硬件数据。
S2、建立自注意力图网络模型,基于标准多序列数据建立序列间图关系,以及序列内时序关系
Figure 518777DEST_PATH_IMAGE033
,建立自注意力图网络模型的过程如下:
S2.1、模型的一个主要目标是以图结构的形式学习日志和m个硬件之间的关系。为此,我们以一种数据驱动的方式构建图,其节点表示级数,边表示节点之间的依赖关系。所以首先需要建立模型的第一部分,即图结构学习层。此处,利用自注意力机制得到权重矩阵
Figure 993621DEST_PATH_IMAGE034
,计算方法如下:
Figure 365828DEST_PATH_IMAGE035
其中,
Figure 344148DEST_PATH_IMAGE007
,
Figure 268242DEST_PATH_IMAGE008
Figure 509343DEST_PATH_IMAGE036
表示所有节点的查询、键和嵌入。矩阵
Figure 872191DEST_PATH_IMAGE037
是图结构学习层的结果。
S2.2、基于权重矩阵
Figure 986909DEST_PATH_IMAGE038
,可以得到当前时刻不同序列之间的权重关系,不同时刻重复这一过程,即可得到序列时间上所有时刻的空间关系。
S3、分别对日志序列进行序列内特征学习,建立频域时序模型,建立频域时序模型的过程如下:
S3.1、为了更好的利用数据中周期性特征明显的特点,本方法采用谱域图卷积的方式构建序列内特征,首先通过图傅里叶变换将输入转换为谱域,公式如下:
Figure 816324DEST_PATH_IMAGE039
其中,
Figure 62498DEST_PATH_IMAGE012
是单位矩阵,
Figure 901141DEST_PATH_IMAGE013
Figure 339207DEST_PATH_IMAGE014
的对角矩阵。
Figure 729737DEST_PATH_IMAGE015
是归一化图的拉普拉斯矩阵的特征向量矩阵。
Figure 807414DEST_PATH_IMAGE016
是定义为
Figure 590693DEST_PATH_IMAGE017
的特征值的对角化矩阵。
S3.2、模型在建立了序列间图关系的基础上,还要学习序列内部的时序关系。此处,模型采用一维卷积的方式捕捉时序特征,计算如下公式:
Figure 70216DEST_PATH_IMAGE018
其中,
Figure 631648DEST_PATH_IMAGE019
是一维卷积的输入,
Figure 196621DEST_PATH_IMAGE040
是卷积核,此处卷积核大小为2。
Figure 446906DEST_PATH_IMAGE021
是非线性sigmoid函数,
Figure 905569DEST_PATH_IMAGE022
是矩阵之间的元素级乘积。
S4、结合图网络模型和频域时序模型,组合为自注意力时空模型,从空间和时间两个维度学习多序列日志间的关系,建立自注意力时空模型的过程如下:
S4.1、每个谱时间图卷积单元通过通过谱域变换和频域变换捕捉序列之间和序列内部的特征,并将两个单位以残差的形式连接起来。
S4.2、模型所有模块参数通过数据统一训练,以数据驱动的方式更新所有参数,设置目标损失函数如下:
Figure 778848DEST_PATH_IMAGE041
其中,
Figure 909746DEST_PATH_IMAGE036
是标准输入,
Figure 18516DEST_PATH_IMAGE025
为t时刻模型的预测值。
S4.3、设定训练策略,将采集数据按照7:2:1的比例划分为训练数据,验证数据和测试数据。其中利用验证数据来评定是否为最优参数模型。
S5、训练最优参数模型,将多序列训练数据作为输入进行模型训练,基于判别标准调试模型,推理结果判别标准具体包括:
自注意力时空模型通过精度、回收率和F1评分来评估该异常检测方法的有效性,将其结果标记为TP、TN、FP和FN。
其中TP是HDFS数据集中的真正例,表示正常样本被模型预测为正常,TN是HDFS数据集中的真反例;表示异常样本被模型预测为异常,FP是HDFS数据集中的假正例,表示异常样本被模型预测结果为正常,FN是HDFS数据集中的假反例,表示正常样本被模型预测结果为异常。
精度(Precision)指标的计算方式如下:
Figure 472631DEST_PATH_IMAGE026
回收率指标的计算方式如下:
Figure 126598DEST_PATH_IMAGE027
F1分数的计算方式如下:
Figure 994059DEST_PATH_IMAGE028
S6、基于最优参数模型,将处理后的待检测多序列日志作为输出,推理结果,定位异常事件发生区域及异常发生时间,基于硬件数据进一步分析异常原因。上述虽然对本发明的具体实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化,而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。

Claims (7)

1.一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,其包括以下步骤:
S1、从系统的主日志文件中收集日志文本数据和系统硬件数据,建立标准的多序列数据源;
S2、建立自注意力图网络模型,并基于标准多序列数据源建立序列间图关系和序列内时序关系;
S3、分别对日志序列进行序列内特征学习,建立频域时序模型;
S4、结合自注意力图网络模型和频域时序模型,建立自注意力时空模型,从空间和时间两个维度学习多序列日志间的关系;
S5、根据判别标准调试自注意力时空模型,将多序列训练数据作为输入进行模型训练得到最优参数模型;
S6、基于最优参数模型,将处理后的待检测多序列日志作为输出,推理结果,定位异常事件发生区域及异常发生时间,并根据硬件数据分析异常原因。
2.根据权利要求1所述的一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,S1具体包括以下步骤:
S1.1、收集系统日志文本序列,基于日志解析器提取日志模板序号,得到日志数字序列;
S1.2、收集硬件序列信息,包括系统的Cpu,Ram,Buffer,Disk信息,按照1条/s的频次收集,写入文件,内容包含各指标信息及对应时间;
S1.3、以秒为单位,建立标准多序列数据源,对日志文本数据及系统硬件数据按照时间维度进行匹配,每条日志数据对应一个底层硬件序列关系,得到标准多序列数据;
S1.4、对硬件数据进行归一化处理,具体处理方法如下:
Figure 3290DEST_PATH_IMAGE001
(1)
其中,
Figure 559036DEST_PATH_IMAGE002
为标准数据结果,
Figure 829480DEST_PATH_IMAGE003
Figure 360692DEST_PATH_IMAGE004
是硬件数据样本中的最大和最小值,
Figure 843626DEST_PATH_IMAGE005
为硬件数据。
3.根据权利要求1所述的一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,S2中建立自注意力图网络模型的具体步骤包括:
S2.1、利用自注意力机制得到权重矩阵,建立图结构学习层,计算方法如下:
Figure 394824DEST_PATH_IMAGE006
(2)
其中,
Figure 39432DEST_PATH_IMAGE007
Figure 43291DEST_PATH_IMAGE008
Figure 329916DEST_PATH_IMAGE009
表示所有节点的查询、键和嵌入,权重矩阵
Figure 204462DEST_PATH_IMAGE010
是图结构学习层的结果;
2.2、基于权重矩阵,得到当前时刻不同序列之间的权重关系,对不同时刻重复权重矩阵,得到序列时间上所有时刻的空间关系。
4.根据权利要求1所述的一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,S3中建立频域时序模型的具体步骤包括:
S3.1、利用谱域图卷积的方式构建序列内特征,通过图傅里叶变换将输入转换为谱域,公式如下:
Figure 551130DEST_PATH_IMAGE011
(3)
其中,
Figure 508197DEST_PATH_IMAGE012
是单位矩阵,
Figure 598513DEST_PATH_IMAGE013
Figure 593145DEST_PATH_IMAGE014
的对角矩阵,
Figure 845135DEST_PATH_IMAGE015
是归一化图的拉普拉斯矩阵的特征向量矩阵,
Figure 151482DEST_PATH_IMAGE016
是定义为
Figure 530642DEST_PATH_IMAGE017
的特征值的对角化矩阵;
S3.2、在建立序列间图关系的基础上,学习序列内部的时序关系,采用一维卷积的方式捕捉时序特征,计算公式如下:
Figure 363469DEST_PATH_IMAGE018
(4)
其中,
Figure 805601DEST_PATH_IMAGE019
是一维卷积的输入,
Figure 255037DEST_PATH_IMAGE020
是卷积核,
Figure 828101DEST_PATH_IMAGE021
是非线性sigmoid函数,
Figure 62904DEST_PATH_IMAGE022
是矩阵之间的元素级乘积。
5.根据权利要求1所述的一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,S4中建立自注意力时空模型的具体步骤包括:
S4.1、将每个谱时间图卷积单元通过谱域变换和频域变换捕捉序列之间和序列内部的特征,并将两个单位以残差的形式连接起来;
S4.2、自注意力时空模型中所有模块参数通过数据统一训练,以数据驱动的方式更新所有参数,设置目标损失函数如下:
Figure 187855DEST_PATH_IMAGE023
(5)
其中,
Figure 875320DEST_PATH_IMAGE024
是标准输入,
Figure 252074DEST_PATH_IMAGE025
为t时刻模型的预测值;
S4.3设定训练策略,将采集数据按照7:2:1的比例划分为训练数据,验证数据和测试数据,利用验证数据来评定是否为最优参数模型。
6.根据权利要求1所述的一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,S5中推理结果判别标准具体包括:
自注意力时空模型通过精度、回收率和F1评分来评估该异常检测方法的有效性,将其结果标记为TP、TN、FP和FN;其中TP是HDFS数据集中的真正例,表示正常样本被模型预测为正常,TN是HDFS数据集中的真反例;表示异常样本被模型预测为异常,FP是HDFS数据集中的假正例,表示异常样本被模型预测结果为正常,FN是HDFS数据集中的假反例,表示正常样本被模型预测结果为异常;
精度指标的计算方式如下:
Figure 325072DEST_PATH_IMAGE026
(6)
回收率指标的计算方式如下:
Figure 371657DEST_PATH_IMAGE027
(7)
F1评分的计算方式如下:
Figure 61264DEST_PATH_IMAGE028
(8)。
7.根据权利要求2所述的一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,S1.3中,对日志文本数据及系统硬件数据按照时间维度进行匹配具体是将N*1大小的日志数字序列与N*m大小的硬件序列匹配为N*(1+m)大小的标准多序列数据块,m为系统硬件采集的指标个数。
CN202210456449.3A 2022-04-28 2022-04-28 一种基于自注意力机制的图网络的系统日志检测方法 Pending CN114741369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210456449.3A CN114741369A (zh) 2022-04-28 2022-04-28 一种基于自注意力机制的图网络的系统日志检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210456449.3A CN114741369A (zh) 2022-04-28 2022-04-28 一种基于自注意力机制的图网络的系统日志检测方法

Publications (1)

Publication Number Publication Date
CN114741369A true CN114741369A (zh) 2022-07-12

Family

ID=82282720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210456449.3A Pending CN114741369A (zh) 2022-04-28 2022-04-28 一种基于自注意力机制的图网络的系统日志检测方法

Country Status (1)

Country Link
CN (1) CN114741369A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277180A (zh) * 2022-07-26 2022-11-01 电子科技大学 一种区块链日志异常检测与溯源系统
CN116700206A (zh) * 2023-05-24 2023-09-05 浙江大学 基于多模态神经网络的工业控制系统异常检测方法及装置
CN117217499A (zh) * 2023-11-07 2023-12-12 南京职豆豆智能科技有限公司 一种基于多源数据驱动的校园电动滑板车调度优化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277180A (zh) * 2022-07-26 2022-11-01 电子科技大学 一种区块链日志异常检测与溯源系统
CN115277180B (zh) * 2022-07-26 2023-04-28 电子科技大学 一种区块链日志异常检测与溯源系统
CN116700206A (zh) * 2023-05-24 2023-09-05 浙江大学 基于多模态神经网络的工业控制系统异常检测方法及装置
CN116700206B (zh) * 2023-05-24 2023-12-05 浙江大学 基于多模态神经网络的工业控制系统异常检测方法及装置
CN117217499A (zh) * 2023-11-07 2023-12-12 南京职豆豆智能科技有限公司 一种基于多源数据驱动的校园电动滑板车调度优化方法
CN117217499B (zh) * 2023-11-07 2024-02-06 南京职豆豆智能科技有限公司 一种基于多源数据驱动的校园电动滑板车调度优化方法

Similar Documents

Publication Publication Date Title
CN114741369A (zh) 一种基于自注意力机制的图网络的系统日志检测方法
Bao et al. Execution anomaly detection in large-scale systems through console log analysis
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
Oliner et al. Alert detection in system logs
CN102265227B (zh) 用于在机器状况监视中创建状态估计模型的方法和设备
CN111930903A (zh) 基于深度日志序列分析的系统异常检测方法及系统
Lim et al. Identifying recurrent and unknown performance issues
KR102281819B1 (ko) 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템
CN117743909A (zh) 一种基于人工智能的供热系统故障分析方法及装置
CN111784404B (zh) 一种基于行为变量预测的异常资产识别方法
CN113468035A (zh) 日志异常检测方法、装置、训练方法、装置及电子设备
CN112073396A (zh) 一种内网横向移动攻击行为的检测方法及装置
CN115757062A (zh) 一种基于句嵌入以及Transformer-XL的日志异常检测方法
Zhu et al. A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm.
AU2021269196B2 (en) Performance event troubleshooting system
CN114553473A (zh) 一种基于登录ip和登陆时间的异常登陆行为检测系统和方法
Li et al. Event block identification and analysis for effective anomaly detection to build reliable HPC systems
CN114580472A (zh) 工业互联网中因果与注意力并重的大型设备故障预测方法
KR20220134954A (ko) 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템
Wen et al. PerfDoc: Automatic performance bug diagnosis in production cloud computing infrastructures
Hickman et al. Enhancing HPC system log analysis by identifying message origin in source code
CN117149500B (zh) 基于指标数据和日志数据的异常根因获得方法及系统
CN113778733B (zh) 一种基于多尺度mass的日志序列异常检测方法
CN115017019A (zh) 一种基于日志的系统异常检测方法、装置及存储介质
Mathur et al. Anode: Empirical detection of performance problems in storage systems using time-series analysis of periodic measurements

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination