CN114741369A - 一种基于自注意力机制的图网络的系统日志检测方法 - Google Patents
一种基于自注意力机制的图网络的系统日志检测方法 Download PDFInfo
- Publication number
- CN114741369A CN114741369A CN202210456449.3A CN202210456449A CN114741369A CN 114741369 A CN114741369 A CN 114741369A CN 202210456449 A CN202210456449 A CN 202210456449A CN 114741369 A CN114741369 A CN 114741369A
- Authority
- CN
- China
- Prior art keywords
- sequence
- data
- model
- log
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
一种基于自注意力机制的图网络的系统日志检测方法,首先从系统的主日志文件中收集日志文本数据,以及系统硬件数据,建立标准的多序列数据源;建立时空图神经网络模型,基于标准多序列数据建立序列间图关系,以及序列内时序关系,训练最优参数;基于最优参数模型,将新的标准多序列数据进行模型推理,建立推理结果判别标准;基于推理结果,定位异常事件发生区域及异常发生时间,基于硬件数据进一步分析异常原因。本发明具有很好的稳定性,检测精度高。
Description
技术领域
本发明涉及计算机系统安全检测技术领域,具体涉及一种基于自注意力机制的图网络的系统日志检测方法。
背景技术
如今,数据服务通常运行在由数千台服务器组成的数据中心中,服务的质量取决于大数据系统的可靠性和安全性。特别是在一些企业的数据中心,需要提前检测异常事件,以避免造成重大损失。随着系统变得比以往任何时候都越来越复杂,它们正在暴露出更多的漏洞。部署细粒度的检测工具是至关重要的,这些工具旨在识别数据中可能被遗漏的线索。日志记录系统运行时触发的重要事件,并根据时间戳形成一个序列。如何有效利用这些日志序列数据进行事件检测具有重要意义。
系统记录系统状态和记录禁止事件,以帮助调试性能问题和故障,并执行根本原因分析。这种日志数据在几乎所有的计算机系统中都普遍可用,是理解系统状态的宝贵资源。此外,由于系统日志记录了正在运行的进程中发生的值得注意的事件,它们是在线监视和异常检测的极好的信息来源。
随着系统的规模和复杂性的增加,通过人工检查日志来检测系统异常变得越来越困难。多年来,许多基于日志的自动方法已经被提出来检测系统异常,这些工作从日志中检索有用的信息,并采用数据挖掘和机器学习技术来分析日志数据,并检测系统异常的发生。
现有的基于日志的异常检测方法虽然有效,但在实践中还不够鲁棒。为了检测异常情况,几乎所有现有的方法都需要使用从训练数据中提取的已知的日志事件(即日志消息的模板)和日志序列(即记录特定执行流的一系列日志事件)来构建一个检测模型。为了进行基于日志的异常检测,人们已经做出了巨大的努力。现有的异常检测方法根据机器学习模型可以大致分为两类:经典的基于机器学习的方法和基于深度学习的方法。现有的方法尽管它们在某些情况下是成功的,但没有一种是通用的异常检测方法,能够检测多种异常事件。
因此,在目前复杂的系统环境中,亟需提供一种有效的基于多源日志的安全检测方法。
发明内容
针对当前研究都针对特定攻击场景,对基于多源日志序列的检测研究不足的情况下,本发明提出了一种具有很好的可靠性、检测准确的基于时空图神经网络的系统日志检测方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于自注意力机制的图网络的系统日志检测方法,其包括以下步骤:
S1、从系统的主日志文件中收集日志文本数据和系统硬件数据,建立标准的多序列数据源;
S2、建立自注意力图网络模型,并基于标准多序列数据源建立序列间图关系和序列内时序关系;
S3、分别对日志序列进行序列内特征学习,建立频域时序模型;
S4、结合自注意力图网络模型和频域时序模型,建立自注意力时空模型,从空间和时间两个维度学习多序列日志间的关系;
S5、根据判别标准调试自注意力时空模型,将多序列训练数据作为输入进行模型训练得到最优参数模型;
S6、基于最优参数模型,将处理后的待检测多序列日志作为输出,推理结果,定位异常事件发生区域及异常发生时间,并根据硬件数据分析异常原因。
优选地,S1具体包括以下步骤:
S1.1、收集系统日志文本序列,基于日志解析器提取日志模板序号,得到日志数字序列;
S1.2、收集硬件序列信息,包括系统的Cpu,Ram,Buffer,Disk信息,按照1条/s的频次收集,写入文件,内容包含各指标信息及对应时间;
S1.3、以秒为单位,建立标准多序列数据源,对日志文本数据及系统硬件数据按照时间维度进行匹配,每条日志数据对应一个底层硬件序列关系,得到标准多序列数据;
S1.4、对硬件数据进行归一化处理,具体处理方法如下:
优选地,S2中建立自注意力图网络模型的具体步骤包括:
S2.1、利用自注意力机制得到权重矩阵,建立图结构学习层,计算方法如下:
2.2、基于权重矩阵,得到当前时刻不同序列之间的权重关系,对不同时刻重复权重矩阵,得到序列时间上所有时刻的空间关系。
优选地,S3中建立频域时序模型的具体步骤包括:
S3.1、利用谱域图卷积的方式构建序列内特征,通过图傅里叶变换将输入转换为谱域,公式如下:
S3.2、在建立序列间图关系的基础上,学习序列内部的时序关系,采用一维卷积的方式捕捉时序特征,计算公式如下:
优选地,S4中建立自注意力时空模型的具体步骤包括:
S4.1、将每个谱时间图卷积单元通过谱域变换和频域变换捕捉序列之间和序列内部的特征,并将两个单位以残差的形式连接起来;
S4.2、自注意力时空模型中所有模块参数通过数据统一训练,以数据驱动的方式更新所有参数,设置目标损失函数如下:
S4.3设定训练策略,将采集数据按照7:2:1的比例划分为训练数据,验证数据和测试数据,利用验证数据来评定是否为最优参数模型。
优选地,S5中推理结果判别标准具体包括:
自注意力时空模型通过精度、回收率和F1评分来评估该异常检测方法的有效性,将其结果标记为TP、TN、FP和FN;其中TP是HDFS数据集中的真正例,表示正常样本被模型预测为正常,TN是HDFS数据集中的真反例;表示异常样本被模型预测为异常,FP是HDFS数据集中的假正例,表示异常样本被模型预测结果为正常,FN是HDFS数据集中的假反例,表示正常样本被模型预测结果为异常。
精度指标的计算方式如下:
回收率指标的计算方式如下:
F1评分的计算方式如下:
优选地,S1.3中,对日志文本数据及系统硬件数据按照时间维度进行匹配具体是将N*1大小的日志数字序列与N*m大小的硬件序列匹配为N*(1+m)大小的标准多序列数据块,m为系统硬件采集的指标个数。
本申请与现有技术相比,至少具有以下明显优点和效果:
本发明提出了基于多源日志序列的检测方法,考虑系统相关的其他日志序列,引入图神经网络方法构建多个日志序列之间的关系,从而进行日志检测。构建基于时间的数据匹配和模板索引的工作流序列,与以往的日志序列特征检测方法不同,通过匹配对数的硬件数据来提高模型对异常序列的敏感性;通过多个数据序列,我们能够识别出较低比例的异常任务。本发明具有很好的稳定性,精度更高,对小比例异常事件更加敏感。
附图说明
图1是本发明方法的整体示意图。
图2是本发明多序列数据匹配示意图。
图3是本发明日志数据解析示意图。
图4是本发明基于谱域图卷积的时序预测算法示意图。
具体实施方式
为进一步了解本发明的内容,结合实施例对本发明作详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
参照图1至图4,本实施例涉及一种基于自注意力机制的图网络的系统日志检测方法,步骤如下:
S1、从系统的主日志文件中收集日志文本数据,以及系统硬件数据,建立标准的多序列数据源,所述过程如下:
S1.1、收集系统日志文本序列,基于日志解析器提取日志模板序号,得到日志数字序列;
S1.2、收集硬件序列信息,主要包括系统的Cpu,Ram,Buffer,Disk信息,按照1条/s的频次收集,写入文件,内容包含各指标信息及对应时间;
S1.3、因日志的生成频次不定,最小以秒为单位,为建立标准多序列数据源,需要对日志文本数据及系统硬件数据按照时间维度进行匹配,即将N*1大小的日志数字序列与N*m大小的硬件序列匹配为N*(1+m)大小的标准多序列数据块,m为系统硬件采集的指标个数,此处为m=4。每条日志数据都对应一个底层硬件序列关系,此时得到标准多序列数据。
S1.4、为消除量纲对结果的影响,此处还需要对硬件数据进行归一化处理,具体处理方法如下:
S2.1、模型的一个主要目标是以图结构的形式学习日志和m个硬件之间的关系。为此,我们以一种数据驱动的方式构建图,其节点表示级数,边表示节点之间的依赖关系。所以首先需要建立模型的第一部分,即图结构学习层。此处,利用自注意力机制得到权重矩阵,计算方法如下:
S3、分别对日志序列进行序列内特征学习,建立频域时序模型,建立频域时序模型的过程如下:
S3.1、为了更好的利用数据中周期性特征明显的特点,本方法采用谱域图卷积的方式构建序列内特征,首先通过图傅里叶变换将输入转换为谱域,公式如下:
S3.2、模型在建立了序列间图关系的基础上,还要学习序列内部的时序关系。此处,模型采用一维卷积的方式捕捉时序特征,计算如下公式:
S4、结合图网络模型和频域时序模型,组合为自注意力时空模型,从空间和时间两个维度学习多序列日志间的关系,建立自注意力时空模型的过程如下:
S4.1、每个谱时间图卷积单元通过通过谱域变换和频域变换捕捉序列之间和序列内部的特征,并将两个单位以残差的形式连接起来。
S4.2、模型所有模块参数通过数据统一训练,以数据驱动的方式更新所有参数,设置目标损失函数如下:
S4.3、设定训练策略,将采集数据按照7:2:1的比例划分为训练数据,验证数据和测试数据。其中利用验证数据来评定是否为最优参数模型。
S5、训练最优参数模型,将多序列训练数据作为输入进行模型训练,基于判别标准调试模型,推理结果判别标准具体包括:
自注意力时空模型通过精度、回收率和F1评分来评估该异常检测方法的有效性,将其结果标记为TP、TN、FP和FN。
其中TP是HDFS数据集中的真正例,表示正常样本被模型预测为正常,TN是HDFS数据集中的真反例;表示异常样本被模型预测为异常,FP是HDFS数据集中的假正例,表示异常样本被模型预测结果为正常,FN是HDFS数据集中的假反例,表示正常样本被模型预测结果为异常。
精度(Precision)指标的计算方式如下:
回收率指标的计算方式如下:
F1分数的计算方式如下:
S6、基于最优参数模型,将处理后的待检测多序列日志作为输出,推理结果,定位异常事件发生区域及异常发生时间,基于硬件数据进一步分析异常原因。上述虽然对本发明的具体实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化,而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。
Claims (7)
1.一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,其包括以下步骤:
S1、从系统的主日志文件中收集日志文本数据和系统硬件数据,建立标准的多序列数据源;
S2、建立自注意力图网络模型,并基于标准多序列数据源建立序列间图关系和序列内时序关系;
S3、分别对日志序列进行序列内特征学习,建立频域时序模型;
S4、结合自注意力图网络模型和频域时序模型,建立自注意力时空模型,从空间和时间两个维度学习多序列日志间的关系;
S5、根据判别标准调试自注意力时空模型,将多序列训练数据作为输入进行模型训练得到最优参数模型;
S6、基于最优参数模型,将处理后的待检测多序列日志作为输出,推理结果,定位异常事件发生区域及异常发生时间,并根据硬件数据分析异常原因。
2.根据权利要求1所述的一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,S1具体包括以下步骤:
S1.1、收集系统日志文本序列,基于日志解析器提取日志模板序号,得到日志数字序列;
S1.2、收集硬件序列信息,包括系统的Cpu,Ram,Buffer,Disk信息,按照1条/s的频次收集,写入文件,内容包含各指标信息及对应时间;
S1.3、以秒为单位,建立标准多序列数据源,对日志文本数据及系统硬件数据按照时间维度进行匹配,每条日志数据对应一个底层硬件序列关系,得到标准多序列数据;
S1.4、对硬件数据进行归一化处理,具体处理方法如下:
7.根据权利要求2所述的一种基于自注意力机制的图网络的系统日志检测方法,其特征在于,S1.3中,对日志文本数据及系统硬件数据按照时间维度进行匹配具体是将N*1大小的日志数字序列与N*m大小的硬件序列匹配为N*(1+m)大小的标准多序列数据块,m为系统硬件采集的指标个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210456449.3A CN114741369A (zh) | 2022-04-28 | 2022-04-28 | 一种基于自注意力机制的图网络的系统日志检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210456449.3A CN114741369A (zh) | 2022-04-28 | 2022-04-28 | 一种基于自注意力机制的图网络的系统日志检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114741369A true CN114741369A (zh) | 2022-07-12 |
Family
ID=82282720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210456449.3A Pending CN114741369A (zh) | 2022-04-28 | 2022-04-28 | 一种基于自注意力机制的图网络的系统日志检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114741369A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277180A (zh) * | 2022-07-26 | 2022-11-01 | 电子科技大学 | 一种区块链日志异常检测与溯源系统 |
CN116700206A (zh) * | 2023-05-24 | 2023-09-05 | 浙江大学 | 基于多模态神经网络的工业控制系统异常检测方法及装置 |
CN117217499A (zh) * | 2023-11-07 | 2023-12-12 | 南京职豆豆智能科技有限公司 | 一种基于多源数据驱动的校园电动滑板车调度优化方法 |
-
2022
- 2022-04-28 CN CN202210456449.3A patent/CN114741369A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277180A (zh) * | 2022-07-26 | 2022-11-01 | 电子科技大学 | 一种区块链日志异常检测与溯源系统 |
CN115277180B (zh) * | 2022-07-26 | 2023-04-28 | 电子科技大学 | 一种区块链日志异常检测与溯源系统 |
CN116700206A (zh) * | 2023-05-24 | 2023-09-05 | 浙江大学 | 基于多模态神经网络的工业控制系统异常检测方法及装置 |
CN116700206B (zh) * | 2023-05-24 | 2023-12-05 | 浙江大学 | 基于多模态神经网络的工业控制系统异常检测方法及装置 |
CN117217499A (zh) * | 2023-11-07 | 2023-12-12 | 南京职豆豆智能科技有限公司 | 一种基于多源数据驱动的校园电动滑板车调度优化方法 |
CN117217499B (zh) * | 2023-11-07 | 2024-02-06 | 南京职豆豆智能科技有限公司 | 一种基于多源数据驱动的校园电动滑板车调度优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114741369A (zh) | 一种基于自注意力机制的图网络的系统日志检测方法 | |
Bao et al. | Execution anomaly detection in large-scale systems through console log analysis | |
CN111459700B (zh) | 设备故障的诊断方法、诊断装置、诊断设备及存储介质 | |
Oliner et al. | Alert detection in system logs | |
CN102265227B (zh) | 用于在机器状况监视中创建状态估计模型的方法和设备 | |
CN111930903A (zh) | 基于深度日志序列分析的系统异常检测方法及系统 | |
Lim et al. | Identifying recurrent and unknown performance issues | |
KR102281819B1 (ko) | 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템 | |
CN117743909A (zh) | 一种基于人工智能的供热系统故障分析方法及装置 | |
CN111784404B (zh) | 一种基于行为变量预测的异常资产识别方法 | |
CN113468035A (zh) | 日志异常检测方法、装置、训练方法、装置及电子设备 | |
CN112073396A (zh) | 一种内网横向移动攻击行为的检测方法及装置 | |
CN115757062A (zh) | 一种基于句嵌入以及Transformer-XL的日志异常检测方法 | |
Zhu et al. | A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm. | |
AU2021269196B2 (en) | Performance event troubleshooting system | |
CN114553473A (zh) | 一种基于登录ip和登陆时间的异常登陆行为检测系统和方法 | |
Li et al. | Event block identification and analysis for effective anomaly detection to build reliable HPC systems | |
CN114580472A (zh) | 工业互联网中因果与注意力并重的大型设备故障预测方法 | |
KR20220134954A (ko) | 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템 | |
Wen et al. | PerfDoc: Automatic performance bug diagnosis in production cloud computing infrastructures | |
Hickman et al. | Enhancing HPC system log analysis by identifying message origin in source code | |
CN117149500B (zh) | 基于指标数据和日志数据的异常根因获得方法及系统 | |
CN113778733B (zh) | 一种基于多尺度mass的日志序列异常检测方法 | |
CN115017019A (zh) | 一种基于日志的系统异常检测方法、装置及存储介质 | |
Mathur et al. | Anode: Empirical detection of performance problems in storage systems using time-series analysis of periodic measurements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |