CN111930903A - 基于深度日志序列分析的系统异常检测方法及系统 - Google Patents
基于深度日志序列分析的系统异常检测方法及系统 Download PDFInfo
- Publication number
- CN111930903A CN111930903A CN202010613585.XA CN202010613585A CN111930903A CN 111930903 A CN111930903 A CN 111930903A CN 202010613585 A CN202010613585 A CN 202010613585A CN 111930903 A CN111930903 A CN 111930903A
- Authority
- CN
- China
- Prior art keywords
- log
- parameter
- anomaly detection
- events
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 82
- 238000012300 Sequence Analysis Methods 0.000 title claims abstract description 21
- 230000002159 abnormal effect Effects 0.000 claims abstract description 42
- 238000002372 labelling Methods 0.000 claims abstract 3
- 238000000034 method Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000002547 anomalous effect Effects 0.000 claims 1
- 230000005856 abnormality Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开提供了一种基于深度日志序列分析的系统异常检测方法及系统,通过将序列标注模型Bi‑LSTM‑CRF应用到日志路径异常检测中,将正态分布应用到日志参数异常检测中,这使得BiLCN能够自动的学习正常的日志模式,包括日志执行路径以及日志事件的参数,并能准确的将偏离正常模型的日志事件检测出来标记为异常;同时,所述系统还包括日志解析器、特征提取器以及日志路径流模型,通过检测的日志序列构造成日志路径流模型,将异常情况反馈给用户,以便用户及时进行系统诊断,经实验验证,本方法具有较高的准确度和执行效率。
Description
技术领域
本公开属于大规模系统日志异常检测技术领域,尤其涉及一种基于深度日志序列分析的系统异常检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
系统异常检测是检测系统故障、调试机器性能以及维护系统安全等必不可少的重要任务;随着系统运行中遇到的漏洞以及非法入侵等恶意行为变得多样化,产生的日志数据的种类也越来越多;因此,异常检测也面临着越来越多的挑战。系统日志文件可以从所有的计算机系统中提取,记录了不同时刻系统的运行状态和发生的事件,是故障分析、性能检测、以及进行系统异常检测的重要数据。
由于系统差异等原因导致日志多样化,因此在对系统进行异常检测时具有很大的挑战;为了克服这一问题,许多研究者根据不同的系统设计了不同的日志挖掘工具,并使用日志挖掘的方法对系统进行异常检测;虽然基于日志挖掘的方法在对系统异常检测时具有一定的准确性,但是这些方法仅限于特定的场景,而且在进行日志挖掘的过程中还需要掌握大量的专业知识。因此,基于传统的数据挖掘方法在异常检测中不能发挥更好的效果。
发明人发现,现有技术中,对系统日志进行异常检测的方法主要使用两个数据处理:日志解析和特征提取,原始的日志事件通过日志解析器转化为时序化的日志序列,特征提取每一类日志事件中的参数并构建为一个参数向量,运用自然语言处理的知识,通过将注意力机制纳入到RNN语言模型中来对系统进行异常检测,虽然该方法对系统异常检测有一定的效果,但是无法有效的解决不同系统间的异常检测问题。
发明内容
本公开为了解决上述问题,提供一种基于深度日志序列分析的系统异常检测方法及系统,根据不同系统之间的日志信息,通过日志解析器、特征提取器进行日志数据的转换和处理,将日志信息转化为日志序列;然后将日志序列输入到有双向长短时记忆网络以及条件随机场组成的模型中进行训练和检测;并将日志信息中的参数输入到高斯分布模型进行训练,来获取合适的阈值;最后将检测完成的日志序列构建为日志路径流模型,以便于及时将异常情况反馈给用。
根据本公开实施例的第一个方面,提供了一种基于深度日志序列分析的系统异常检测方法,包括:
获取日志事件历史数据集,对日志事件进行解析,根据解析得到的标识符将所述日志事件数据集划分为若干日志序列;
利用所述日志序列作为输入,对Bi-LSTM-CRF模型进行训练;
利用训练好的Bi-LSTM-CRF模型对待检测的日志序列进行路径异常检测;
对解析后的日志事件进行特征提取,从具有同一标识符的日志事件中提取全部参数构造参数向量,利用正态分布模型对所述参数向量进行拟合;
通过所述正态分布模型对待测日志序列中的日志事件进行参数异常检测;
根据所述路径异常检测以及参数异常检测结果确定异常发生的位置。
根据本公开实施例的第二个方面,提供了一种基于深度日志序列分析的系统异常检测系统,包括:
数据预处理模块,用于获取日志事件历史数据集,对每个日志事件进行解析,根据解析得到的标识符将所述日志事件数据集划分为若干日志序列;以及对解析后的日志事件进行特征提取,从具有同一标识符的日志事件中提取全部参数构造参数向量;
模型训练模块,用于利用所述日志序列作为输入,对Bi-LSTM-CRF模型进行训练;以及利用正态分布模型对所述参数向量进行拟合;
路径异常检测模块,用于利用训练好的Bi-LSTM-CRF模型对待检测的日志序列进行路径异常检测;
参数异常检测模块,用于通过所述正态分布模型对待测日志序列中的日志事件进行参数异常检测;
故障诊断模块,用于根据所述路径异常检测以及参数异常检测结果确定异常发生的位置。
根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于深度日志序列分析的系统异常检测方法。
根据本公开实施例的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于深度日志序列分析的系统异常检测方法。
与现有技术相比,本公开的有益效果是:
(1)本公开提出了一个由双向长短时记忆网络(Bi-LSTM)、条件随机场(CRF)以及正态分布(ND)等组合的深度日志序列分析的系统异常检测框架(BiLCN),该框架将序列标注模型Bi-LSTM-CRF应用到日志路径异常检测中,将正态分布应用到日志参数异常检测中,使得BiLCN能够自动的学习正常的日志模式,包括日志执行路径以及日志事件的参数,并能准确的将偏离正常模型的日志事件检测出来标记为异常。
(2)此外,本公开所述方案通过将检测的日志序列构造成日志路径流模型,将异常情况反馈给用户,以便用户及时进行系统诊断,提高了大型系统异常检测的准确度。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请并不构成对本申请的不当限定。
图1是本公开实施例一所述的深度日志序列异常检测框架BiLCN示意图;
图2是本公开实施例一所述的日志路径检测模型Bi-LSTM-CRF的执行过程示意图;
图3是本公开实施例一所述的日志路径流模型图;
图4是本公开实施例一所述的异常诊断过程示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一:
本实施例的目的是提供一种基于深度日志序列分析的系统异常检测方法。
如图1所示,在本实施例中,提供了一种基于深度日志序列分析的系统异常检测方法,包括:
获取日志事件历史数据集,对日志事件进行解析,根据解析得到的标识符将所述日志事件数据集划分为若干日志序列;
利用所述日志序列作为输入,对Bi-LSTM-CRF模型进行训练;
利用训练好的Bi-LSTM-CRF模型对待检测的日志序列进行路径异常检测;
对解析后的日志事件进行特征提取,从具有同一标识符的日志事件中提取全部参数构造参数向量,利用正态分布模型对所述参数向量进行拟合;
通过所述正态分布模型对待测日志序列中的日志事件进行参数异常检测;
根据所述路径异常检测以及参数异常检测结果确定异常发生的位置。
在本实施例中,所述方法以HDFS系统产生的日志信息为实验对象,结合BiLCN系统异常检测框架,所述框架主要包括了五部分:日志解析、特征提取、日志执行路径异常检测、日志参数异常检测以及构建日志路径流模型。
日志解析器:日志事件是系统操作期间发生的交互的记录,它包括一个时间标记,执行的调用的类名称以及执行时的参数。日志解析器通过读取每行日志文件,从非结构化日志中自动学习事件模板,并将原始日志数据转换为结构化的时序序列。
特征提取:特征提取的输入是通过日志解析的日志事件,输出是一个日志参数向量,并把具有相同特征的日志事件标记为唯一的日志标签。选定一组特征作为转化的相关属性,从同一标签的日志事件提取全部的参数构造为参数向量。
在训练阶段,首先,我们将训练日志数据分别通过日志解析器、特征提取器转化为一组日志序列以及提取每个日志的参数;其次,我们把每一类日志事件的全部参数输入正态分布进行训练,找到合适的阈值,并将日志序列输入Bi-LSTM-CRF模型中进行训练。
在测试阶段,我们将新的日志输入到BiLCN框架中;首先,模型将进行日志路径异常检测,只要日志序列中任何一个日志事件发生异常,那么该日志序列就会被标记为异常;其次,我们对正常的日志序列中的每一类日志事件提取参数,分别将提取的参数输入到正态分布模型中进行参数异常检测;最后,BiLCN把每个检测成功的日志序列构造日志路径流模型,方便用户能准确的进行故障分析,并且还能根据用户的检测及时更新模型参数,能够有效的适应新的日志模式。
以下对所述检测方法进行详细解释:
步骤1:获取日志事件历史数据集,对日志事件进行解析,将结构不统一的日志数据进行归一化处理,通过正则表达式和文本挖掘技术的组合,使用正则表达式对每个日志行进行预处理,以分析文本的结构化部分,使用文本挖掘技术提取剩余部分;根据每一类日志事件的标识符id进行转化,将每一类(即同一标识符)的日志事件转化为一个唯一的日志标号,例如,假设系统包含20种标识符,利用L={l1,l2,l3,…,ln}表示整个日志事件数据集,其中l的下标即为日志事件标号,n=20,那么l1表示标号为1的日志事件集合;同时,通过滑动窗口对日志事件数据集进行划分,划分为若干日志事件序列,所述滑动窗口由窗口大小和步长组成,具体窗口大小和步长根据实际需求可自行设定。
步骤2:对解析后的日志事件进行特征提取,特征提取的输入是通过日志解析的日志事件,输出是一个日志参数向量;选定一组特征作为转化的相关属性,分别对同一标号的日志事件提取其参数构造为参数向量,在本实例中提取HDFS系统日志中的时间参数,并构造成一个参数向量。
步骤3:日志路径异常检测,将步骤1生成的日志序列输入到Bi-LSTM-CRF模型中进行日志路径异常检测,在本实例中,假设训练日志事件数据集为{l11,l23,l5,l9,l12,l25,l3},设定窗口大小h=4,则用于训练模型的输入序列和输出标签为:{l11,l23,l5,l9→l12},{l23,l5,l9,l12→l25},{l5,l9,l12,l25→l3}。
步骤4:重复训练步骤3中的步骤100次,通过训练得出阈值k的值为0.5、内存单元数α值为128、窗口w的值为10,所述训练数据在Bi-LSTM模型内进行双向传播,其输出是下一时刻发生的日志事件的概率值,同时,训练过程获得阈值k,当概率值小于k时,则判定为异常;所述Bi-LSTM网络的前向传播推算的公式如下所示:
输入门:
遗忘门:
输出门:
所述Bi-LSTM网络反向传播推算的公式为
输入门:
遗忘门:
输出门:
在上述公式中,α代表集合计算的值,b代表激活函数计算的值,w是不同节点之间连接的参数,是当前时间的输入,是所有单元在前一时刻的状态,是上一次不同LSTM内存块的输出,是当前时间内所有细胞的状态,最终,所述Bi-LSTM模型的输出结果为下一时刻日志事件的发生的概率值;
步骤5:如图2所示,将步骤4得到的结果作为输入,输入到线性链条件随机场中,并输出CRF结果中最高的一组,作为判别下一时刻日志事件是否异常的最终结果;具体的,根据输入的得分序列(即日志事件发生的概率值序列),X=(X1,X2,X3,…,Xn),计算输出序列Y=(Y1,Y2,Y3,…,Yn),随机变量序列Y的条件概率分布P(Y|X)构成条件随机场,则称P(Y|X)为线性链条件随机场,计算公式如下所示:
P(Yi|X,Y1,…,YI-1,Yi+1,…,Yn)=P(Yi|X,YI-1,Yi+1)i=1,2,3,…,n (10)
条件随机场的参数化形式为:
其中,Z(x)是规范化因子,其计算公式为:
其中,tk是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置;sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置;λk,μl是tk,sl对应的权值;特征函数tk,sl的取值只能是1或0,当满足特征条件时取值为1,否则为0;
步骤6:将步骤2中提取的日志参数向量作为输入,输入到正态分布模型中,将从HDFS系统日志中同一日志事件的信息中提取的n个日志参数(X1,x2,x3,…,xn),计算出这n个参数的均值μ和方差σ;均值和方差的计算公式为:
并且日志数据符合正态分布,且区域μ±3σ包含了99.7%的数据,如果某个日志事件的参数值距离分布的均值μ超过了3σ,那么这个参数值就被标记为异常;
步骤7:构建日志路径流模型,所述日志路径流模型由检测完成的日志事件的标号组成,将详细的记录分歧点、异常点的位置以及日志事件执行的顺序,其功能是能够让用户了解产生异常的位置和原因,以及分歧点产生的原因(是并发还是新任务引起的);如图3所示,将步骤5、步骤6的检测结果进行统计和分析,构建日志路径流模型,将引起并发或新任务开始的日志事件定义为分歧点,在进行日志路径异常检测时,模型会根据训练得出的阈值k进行判断,如果分歧点之后的日志事件概率大于k则标记为正常,否则为异常。当标记为正常时根据日志序列的执行顺序去分析产生分歧点的原因,并生成日志路径流,帮助用户及时了解异常发生的位置和原因;之后再去分析是并发还是新任务引起的,日志路径流模型可任用来帮助用户及时了解异常发生的位置和原因。
在本实例中,如图3所示,日志序列{5,3,12}预测输出的日志为{6}的概率为1,那么日志序列{5,3,12,6}来自同一个任务。对于一个并发的任务序列{12,6}的下一步是“14”或“23”,事件“6”就是分歧点。事件“14”和“23”的预测概率分别为0.7和0.3,这就会使得模型反馈给序列{12,16}预测下一日志为“14”,实际情况“14”和“23”都是序列{12,16}的后续任务,这种情况下之前训练的模型就会导致模型预测错误,因此,需要利用该日志序列对Bi-LSTM-CRF模型的参数进行更新;如图3所示,如果分歧点是由新任务引起的,那么预测的日志任务“14”和“23”将不会一个接一个地出现,而是分别以两个新任务的形式继续进行。如果将每个这样的日志键合并到日志序列中,那么下一个预测就是对一个新任务的日志键的预测,那么我们就在分歧点日志键“6”处停止当前任务的工作模式,并开始为新任务{14→22}和{23→10}构建工作模式;新任务是一个选择分支,只能执行当前的一个,不能同时执行。
故障诊断,如图4所示,日志路径流模型可任用来帮助用户及时了解异常发生的位置和原因。在本实例中,日志任务序列{5,12,25,6}预测下一个日志事件“18”的概率为1,但是实际执行的日志事件为9,在这时便发生了异常,此时,根据日志路径流模型进行异常诊断,可以轻松的找到当前日志序列发生异常的日志事件;异常的日志事件是发生在“Received block(.*)src:(.*)dest:(.*)of size(.*)”之后,“Starting thread totransfer block(.*)to(.*)”之前,(.*)代表参数。
实施例二:
本实施例的目的是提供一种基于深度日志序列分析的系统异常检测系统。
一种基于深度日志序列分析的系统异常检测系统,包括:
数据预处理模块,用于获取日志事件历史数据集,对每个日志事件进行解析,根据解析得到的标识符将所述日志事件数据集划分为若干日志序列;以及对解析后的日志事件进行特征提取,从具有同一标识符的日志事件中提取全部参数构造参数向量;
模型训练模块,用于利用所述日志序列作为输入,对Bi-LSTM-CRF模型进行训练;以及利用正态分布模型对所述参数向量进行拟合;
路径异常检测模块,用于利用训练好的Bi-LSTM-CRF模型对待检测的日志序列进行路径异常检测;
参数异常检测模块,用于通过所述正态分布模型对待测日志序列中的日志事件进行参数异常检测;
故障诊断模块,用于根据所述路径异常检测以及参数异常检测结果确定异常发生的位置。
实施例三:
本实施例的目的是提供一种电子设备。
一种电子设备,包括、存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
获取日志事件历史数据集,对日志事件进行解析,根据解析得到的标识符将所述日志事件数据集划分为若干日志序列;
利用所述日志序列作为输入,对Bi-LSTM-CRF模型进行训练;
利用训练好的Bi-LSTM-CRF模型对待检测的日志序列进行路径异常检测;
对解析后的日志事件进行特征提取,从具有同一标识符的日志事件中提取全部参数构造参数向量,利用正态分布模型对所述参数向量进行拟合;
通过所述正态分布模型对待测日志序列中的日志事件进行参数异常检测;
根据所述路径异常检测以及参数异常检测结果确定异常发生的位置。
实施例四:
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤,包括:
获取日志事件历史数据集,对日志事件进行解析,根据解析得到的标识符将所述日志事件数据集划分为若干日志序列;
利用所述日志序列作为输入,对Bi-LSTM-CRF模型进行训练;
利用训练好的Bi-LSTM-CRF模型对待检测的日志序列进行路径异常检测;
对解析后的日志事件进行特征提取,从具有同一标识符的日志事件中提取全部参数构造参数向量,利用正态分布模型对所述参数向量进行拟合;
通过所述正态分布模型对待测日志序列中的日志事件进行参数异常检测;
根据所述路径异常检测以及参数异常检测结果确定异常发生的位置。
上述实施例提供的一种基于基于深度日志序列分析的系统异常检测方法及系统完全可以实现,具有广阔应用前景。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种基于深度日志序列分析的系统异常检测方法,其特征在于,包括:
获取日志事件历史数据集,对日志事件进行解析,根据解析得到的标识符将所述日志事件数据集划分为若干日志序列;
利用所述日志序列作为输入,对Bi-LSTM-CRF模型进行训练;
利用训练好的Bi-LSTM-CRF模型对待检测的日志序列进行路径异常检测;
对解析后的日志事件进行特征提取,从具有同一标号的日志事件中提取全部参数构造参数向量,利用正态分布模型对所述参数向量进行拟合;
通过所述正态分布模型对待测日志序列中的日志事件进行参数异常检测;
根据所述路径异常检测以及参数异常检测结果确定异常发生的位置。
2.如权利要求1所述的一种基于深度日志序列分析的系统异常检测方法,其特征在于,所述对日志事件进行解析,利用日志解析器通过读取每行日志事件,从非结构化日志中自动学习事件模板,并将原始日志数据转换为结构化的时序序列;具体的解析过程通过正则表达式对每个日志行进行预处理,分析文本的结构化部分,利用文本挖掘技术提取剩余部分。
3.如权利要求1所述的一种基于深度日志序列分析的系统异常检测方法,其特征在于,所述标号是根据解析后的日志事件标识符,将具有同一标志符的日志事件进行唯一标号,利用滑动窗口将标号后的日志事件数据进行分组,得到若干组日志序列。
4.如权利要求1所述的一种基于深度日志序列分析的系统异常检测方法,其特征在于,所述路径异常检测过程中,通过训练好的Bi-LSTM-CRF模型,其输入为通过滑动窗口分组后的日志序列,其中Bi-LSTM模型的输入出为下一时刻发生某一日志事件的概率值,所述概率值作为CRF模型的输入,根据所述概率值判断所述日志事件是否异常。
5.如权利要求1所述的一种基于深度日志序列分析的系统异常检测方法,其特征在于,所述特征提取是利用日志解析后的日志事件,根据待检测的相关属性,对具有同一标号的日志事件提取对应参数构造为参数向量。
6.如权利要求5所述的一种基于深度日志序列分析的系统异常检测方法,其特征在于,在模型训练过程中利用正态分布模型对所述参数向量进行拟合,获得所述参数向量的拟合曲线,将待测试的日志序列中每个日志事件的对应参数输入训练好的正态分布模型,根据3σ准则判别相应参数是否异常。
7.如权利要求1所述的一种基于深度日志序列分析的系统异常检测方法,其特征在于,根据所述所述路径异常检测以及参数异常检测结果,利用日志路径流模型将异常发生的位置及原因直观的展示给用户。
8.一种基于深度日志序列分析的系统异常检测系统,其特征在于,包括:
数据预处理模块,用于获取日志事件历史数据集,对每个日志事件进行解析,根据解析得到的标识符将所述日志事件数据集划分为若干日志序列;以及对解析后的日志事件进行特征提取,从具有同一标识符的日志事件中提取全部参数构造参数向量;
模型训练模块,用于利用所述日志序列作为输入,对Bi-LSTM-CRF模型进行训练;以及利用正态分布模型对所述参数向量进行拟合;
路径异常检测模块,用于利用训练好的Bi-LSTM-CRF模型对待检测的日志序列进行路径异常检测;
参数异常检测模块,用于通过所述正态分布模型对待测日志序列中的日志事件进行参数异常检测;
故障诊断模块,用于根据所述路径异常检测以及参数异常检测结果确定异常发生的位置。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于深度日志序列分析的系统异常检测方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于深度日志序列分析的系统异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010613585.XA CN111930903B (zh) | 2020-06-30 | 2020-06-30 | 基于深度日志序列分析的系统异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010613585.XA CN111930903B (zh) | 2020-06-30 | 2020-06-30 | 基于深度日志序列分析的系统异常检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930903A true CN111930903A (zh) | 2020-11-13 |
CN111930903B CN111930903B (zh) | 2024-10-15 |
Family
ID=73316778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010613585.XA Active CN111930903B (zh) | 2020-06-30 | 2020-06-30 | 基于深度日志序列分析的系统异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930903B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632018A (zh) * | 2020-12-21 | 2021-04-09 | 山东理工大学 | 一种业务流程事件日志采样方法与系统 |
CN112698977A (zh) * | 2020-12-29 | 2021-04-23 | 下一代互联网重大应用技术(北京)工程研究中心有限公司 | 服务器故障定位方法方法、装置、设备及介质 |
CN112732655A (zh) * | 2021-01-13 | 2021-04-30 | 北京六方云信息技术有限公司 | 针对无格式日志的在线解析方法及系统 |
CN112882899A (zh) * | 2021-02-25 | 2021-06-01 | 中国烟草总公司郑州烟草研究院 | 一种日志异常检测方法及装置 |
CN113312447A (zh) * | 2021-03-10 | 2021-08-27 | 天津大学 | 基于概率标签估计的半监督日志异常检测方法 |
CN113358154A (zh) * | 2021-06-03 | 2021-09-07 | 广东工业大学 | 一种农机设备故障监控溯源系统和方法 |
CN113553245A (zh) * | 2021-05-20 | 2021-10-26 | 中国海洋大学 | 结合双向切片gru与门控注意力机制日志异常检测方法 |
CN113778733A (zh) * | 2021-08-31 | 2021-12-10 | 大连海事大学 | 一种基于多尺度mass的日志序列异常检测方法 |
CN114584379A (zh) * | 2022-03-07 | 2022-06-03 | 四川大学 | 基于优化特征提取粒度的日志异常检测方法 |
JP2022101455A (ja) * | 2020-12-24 | 2022-07-06 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | パターンベースSoS内の失敗誘発相互作用を分析する方法および装置 |
WO2022174719A1 (en) * | 2021-02-19 | 2022-08-25 | International Business Machines Corporation | Automatically generating datasets by processing collaboration forums using artificial intelligence techniques |
CN115277180A (zh) * | 2022-07-26 | 2022-11-01 | 电子科技大学 | 一种区块链日志异常检测与溯源系统 |
CN115333973A (zh) * | 2022-08-05 | 2022-11-11 | 武汉联影医疗科技有限公司 | 设备异常检测方法、装置、计算机设备和存储介质 |
CN115426254A (zh) * | 2022-08-26 | 2022-12-02 | 中国银行股份有限公司 | 系统日志异常识别网络的建立、识别方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956309A (zh) * | 2019-10-30 | 2020-04-03 | 南京大学 | 基于crf和lstm的流程活动预测方法 |
CN111190804A (zh) * | 2019-12-28 | 2020-05-22 | 同济大学 | 一种云原生系统的多层次的深度学习日志故障检测方法 |
CN111209168A (zh) * | 2020-01-14 | 2020-05-29 | 中国人民解放军陆军炮兵防空兵学院郑州校区 | 一种基于nLSTM-self attention的日志序列异常检测框架 |
-
2020
- 2020-06-30 CN CN202010613585.XA patent/CN111930903B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956309A (zh) * | 2019-10-30 | 2020-04-03 | 南京大学 | 基于crf和lstm的流程活动预测方法 |
CN111190804A (zh) * | 2019-12-28 | 2020-05-22 | 同济大学 | 一种云原生系统的多层次的深度学习日志故障检测方法 |
CN111209168A (zh) * | 2020-01-14 | 2020-05-29 | 中国人民解放军陆军炮兵防空兵学院郑州校区 | 一种基于nLSTM-self attention的日志序列异常检测框架 |
Non-Patent Citations (2)
Title |
---|
"CRF Layer on the Top of BiLSTM-1", pages 1, Retrieved from the Internet <URL:https://createmomo.github.io/2017/09/12/ CRF_Layer_on_the_Top_of_BiLSTM_1/> * |
MIN DU: "DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning", CCS’17: PROCEEDINGS OF THE 2017 ACM SIGSAC CONFERENCE ON COMPUTER AND COMMUNICATIONS SECURITY, 3 November 2017 (2017-11-03), pages 1285 - 1298, XP055583401, DOI: 10.1145/3133956.3134015 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632018B (zh) * | 2020-12-21 | 2022-05-17 | 深圳市杰成软件有限公司 | 一种业务流程事件日志采样方法与系统 |
CN112632018A (zh) * | 2020-12-21 | 2021-04-09 | 山东理工大学 | 一种业务流程事件日志采样方法与系统 |
JP7299640B2 (ja) | 2020-12-24 | 2023-06-28 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | パターンベースSoS内の失敗誘発相互作用を分析する方法および装置 |
JP2022101455A (ja) * | 2020-12-24 | 2022-07-06 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | パターンベースSoS内の失敗誘発相互作用を分析する方法および装置 |
CN112698977B (zh) * | 2020-12-29 | 2024-03-29 | 赛尔网络有限公司 | 服务器故障定位方法方法、装置、设备及介质 |
CN112698977A (zh) * | 2020-12-29 | 2021-04-23 | 下一代互联网重大应用技术(北京)工程研究中心有限公司 | 服务器故障定位方法方法、装置、设备及介质 |
CN112732655A (zh) * | 2021-01-13 | 2021-04-30 | 北京六方云信息技术有限公司 | 针对无格式日志的在线解析方法及系统 |
CN112732655B (zh) * | 2021-01-13 | 2024-02-06 | 北京六方云信息技术有限公司 | 针对无格式日志的在线解析方法及系统 |
GB2618953A (en) * | 2021-02-19 | 2023-11-22 | Ibm | Automatically generating datasets by processing collaboration forums using artificial intelligence techniques |
US11455236B2 (en) | 2021-02-19 | 2022-09-27 | International Business Machines Corporation | Automatically generating datasets by processing collaboration forums using artificial intelligence techniques |
WO2022174719A1 (en) * | 2021-02-19 | 2022-08-25 | International Business Machines Corporation | Automatically generating datasets by processing collaboration forums using artificial intelligence techniques |
CN112882899A (zh) * | 2021-02-25 | 2021-06-01 | 中国烟草总公司郑州烟草研究院 | 一种日志异常检测方法及装置 |
CN113312447A (zh) * | 2021-03-10 | 2021-08-27 | 天津大学 | 基于概率标签估计的半监督日志异常检测方法 |
CN113312447B (zh) * | 2021-03-10 | 2022-07-12 | 天津大学 | 基于概率标签估计的半监督日志异常检测方法 |
CN113553245A (zh) * | 2021-05-20 | 2021-10-26 | 中国海洋大学 | 结合双向切片gru与门控注意力机制日志异常检测方法 |
CN113553245B (zh) * | 2021-05-20 | 2022-04-19 | 中国海洋大学 | 结合双向切片gru与门控注意力机制日志异常检测方法 |
CN113358154A (zh) * | 2021-06-03 | 2021-09-07 | 广东工业大学 | 一种农机设备故障监控溯源系统和方法 |
CN113778733A (zh) * | 2021-08-31 | 2021-12-10 | 大连海事大学 | 一种基于多尺度mass的日志序列异常检测方法 |
CN113778733B (zh) * | 2021-08-31 | 2024-03-15 | 大连海事大学 | 一种基于多尺度mass的日志序列异常检测方法 |
CN114584379B (zh) * | 2022-03-07 | 2023-05-30 | 四川大学 | 基于优化特征提取粒度的日志异常检测方法 |
CN114584379A (zh) * | 2022-03-07 | 2022-06-03 | 四川大学 | 基于优化特征提取粒度的日志异常检测方法 |
CN115277180A (zh) * | 2022-07-26 | 2022-11-01 | 电子科技大学 | 一种区块链日志异常检测与溯源系统 |
CN115277180B (zh) * | 2022-07-26 | 2023-04-28 | 电子科技大学 | 一种区块链日志异常检测与溯源系统 |
CN115333973A (zh) * | 2022-08-05 | 2022-11-11 | 武汉联影医疗科技有限公司 | 设备异常检测方法、装置、计算机设备和存储介质 |
CN115426254A (zh) * | 2022-08-26 | 2022-12-02 | 中国银行股份有限公司 | 系统日志异常识别网络的建立、识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111930903B (zh) | 2024-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930903B (zh) | 基于深度日志序列分析的系统异常检测方法及系统 | |
CN109739755B (zh) | 一种基于程序追踪和混合执行的模糊测试系统 | |
CN110222512B (zh) | 一种基于中间语言的软件漏洞智能检测与定位方法与系统 | |
CN113326244B (zh) | 一种基于日志事件图和关联关系挖掘的异常检测方法 | |
US20110083123A1 (en) | Automatically localizing root error through log analysis | |
CN111190804A (zh) | 一种云原生系统的多层次的深度学习日志故障检测方法 | |
CN112182219A (zh) | 一种基于日志语义分析的在线服务异常检测方法 | |
CN113064873B (zh) | 一种高召回率的日志异常检测方法 | |
CN114296975A (zh) | 一种分布式系统调用链和日志融合异常检测方法 | |
CN113779590B (zh) | 一种基于多维度表征的源代码漏洞检测方法 | |
CN117236677A (zh) | 一种基于事件抽取的rpa流程挖掘方法及装置 | |
CN114741369A (zh) | 一种基于自注意力机制的图网络的系统日志检测方法 | |
CN116909788A (zh) | 一种任务导向和视角不变的多模态故障诊断方法及系统 | |
Khaliq et al. | A deep learning-based automated framework for functional User Interface testing | |
An et al. | Real-time Statistical Log Anomaly Detection with Continuous AIOps Learning. | |
Li et al. | Improving performance of log anomaly detection with semantic and time features based on bilstm-attention | |
CN113553245B (zh) | 结合双向切片gru与门控注意力机制日志异常检测方法 | |
Xie et al. | An attention-based gru network for anomaly detection from system logs | |
Nam et al. | Vm failure prediction with log analysis using bert-cnn model | |
CN117827508A (zh) | 一种基于系统日志数据的异常检测方法 | |
CN113468035A (zh) | 日志异常检测方法、装置、训练方法、装置及电子设备 | |
CN117687904A (zh) | 一种界面测试的方法、装置、设备和可读存储介质 | |
Valueian et al. | Constructing automated test oracle for low observable software | |
CN117170922A (zh) | 日志数据分析方法、装置、终端设备以及存储介质 | |
CN115017015B (zh) | 一种边缘计算环境下程序异常行为检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |