CN115600607A - 一种日志检测方法、装置、电子设备及介质 - Google Patents
一种日志检测方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN115600607A CN115600607A CN202211361018.5A CN202211361018A CN115600607A CN 115600607 A CN115600607 A CN 115600607A CN 202211361018 A CN202211361018 A CN 202211361018A CN 115600607 A CN115600607 A CN 115600607A
- Authority
- CN
- China
- Prior art keywords
- log
- sample
- embedded representation
- sample log
- logs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 230000002776 aggregation Effects 0.000 claims abstract description 37
- 238000004220 aggregation Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000002372 labelling Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 16
- 230000004931 aggregating effect Effects 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例公开了一种日志检测方法、装置、电子设备及介质。其中,该方法包括:提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示;根据所述初始嵌入表示,提取包括至少两个样本日志的样本日志序列的时序特征,得到所述样本日志序列的聚合嵌入表示;对至少两个样本日志序列的聚合嵌入表示进行特征融合,并根据特征融合后的聚合嵌入表示确定所述样本日志的预测类型;根据所述样本日志的预测类型以及标注类型确定损失函数,基于所述损失函数进行模型训练得到日志检测模型,以根据所述日志检测模型对待检测日志进行检测。本技术方案通过捕捉日志数据更全面、更深层次的特征,实现更精准的日志异常检测。
Description
技术领域
本申请涉及日志检测技术领域,尤其涉及一种日志检测方法、装置、电子设备及介质。
背景技术
在实际运维工作中,由于日志是作为记录系统运行状况的重要信息,所以需要格外注意其中的内容。日志具有种类繁多、结构复杂以及数量大的特点,如何快速定位问题日志并对问题日志进行分类是值得研究的问题。对异常日志的快速准确识别,有利于缩短问题排查和运维分析时间,减少人力成本,提高工作效率。
现有日志的异常检测方法受模型特征表示的限制,不能全面地对异常日志进行检测,影响了最终异常检测结果。
发明内容
本申请提供了一种日志检测方法、装置、电子设备及介质,能够解决异常日志检测准确性差的问题。
根据本申请的一方面,提供了一种日志检测方法,所述方法包括:
提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示;
根据所述初始嵌入表示,提取包括至少两个样本日志的样本日志序列的时序特征,得到所述样本日志序列的聚合嵌入表示;
对至少两个样本日志序列的聚合嵌入表示进行特征融合,并根据特征融合后的聚合嵌入表示确定所述样本日志的预测类型;
根据所述样本日志的预测类型以及标注类型确定损失函数,基于所述损失函数进行模型训练得到日志检测模型,以根据所述日志检测模型对待检测日志进行检测。
根据本申请的另一方面,提供了一种日志检测装置,包括:
嵌入表示获取模块,用于提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示;
聚合嵌入表示模块,用于根据所述初始嵌入表示,提取包括至少两个样本日志的样本日志序列的时序特征,得到所述样本日志序列的聚合嵌入表示;
类型确定模块,用于对至少两个样本日志序列的聚合嵌入表示进行特征融合,并根据特征融合后的聚合嵌入表示确定所述样本日志的预测类型;
日志检测模块,用于根据所述样本日志的预测类型以及标注类型确定损失函数,基于所述损失函数进行模型训练得到日志检测模型,以根据所述日志检测模型对待检测日志进行检测。
根据本申请的另一方面,提供了一种日志检测电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的日志检测方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本申请任一实施例所述的日志检测方法。
本申请实施例的技术方案,通过样本日志的词向量矩阵提取文本语义特征,通过捕捉文本的局部上下文关系进行日志的初始嵌入表示。根据至少两个样本日志的时序特征和初始嵌入表示经过聚合操作形成样本日志序列的聚合嵌入表示。将至少两个样本日志序列的聚合嵌入表示进行特征融合并确定样本日志的预测类型。通过日志检测模型检测待检测日志,完成待检测日志的预测。本技术方案通过捕捉日志数据生成更全面、更深层次的特征,实现更精准的日志异常检测。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例一提供的一种日志检测方法的流程图;
图2是根据本申请实施例二提供的一种日志检测方法的流程图;
图3是根据本发明实施例提供的一种具体实现方式的结构图;
图4是根据本申请实施例三提供的一种日志检测装置的结构示意图;
图5是实现本申请实施例的一种日志检测方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本申请实施例一提供的一种日志检测方法的流程图,本实施例可适用于识别大量日志中的异常日志的情况,该方法可以由日志检测装置来执行,该日志检测装置可以采用硬件和/或软件的形式实现,该日志检测装置可配置于具有数据处理能力的电子设备中。如图1所示,该方法包括:
S110、提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示。
其中,样本日志可以是用于记录操作执行主体在执行任务时所生成的状态等执行信息,例如,样本日志可以是表示系统运行状况的信息。文本语义特征可以是应用文本语义特征提取模型提取文本数据的特征信息。初始嵌入表示可以是定义一种表示方法表示一个特征向量并映射到另一个特征向量的操作。
可选的,根据预训练得到的文本与向量的对应关系,确定所述样本日志的文本对应的日志向量;将所述日志向量输入至卷积神经网络,提取所述样本日志的文本语义特征,得到所述样本日志的初始嵌入表示。预训练得到的文本与向量的对应关系确定方式包括:基于BERT模型对未知标注类型的样本日志进行预训练,确定未知标注类型的样本日志的文本与向量的对应关系。
BERT(Bidirectional Encoder Representation from Transformers,双向Transformer编码)模型是同时考虑词的上文和下文进行特征提取得到词对应的词向量的模型。
具体的,基于BERT模型对采集的未知标注类型的样本日志,进行预训练,得到样本日志中的文本对应的向量,生成文本与向量的对应关系。其中,由于未标注类型的样本日志是未被标注的,因此,产生的所有日志均可以作为样本日志进行预训练,丰富了样本的数量,从而提高了预训练的准确性,从而准确地确定文本与向量的对应关系。
具体的,针对于样本日志,根据预训练得到的文本与向量的对应关系,确定样本日志中的文本对应的日志向量,可以采用全连接神经网络对初始词向量进行微调,并对日志向量进行补全操作,以扩充日志向量的边界范围,便于后续进行卷积操作。将日志向量输入至卷积神经网络,提取所述样本日志的文本语义特征,得到所述样本日志的初始嵌入表示。
示例性的,由采集的大量未知标注类型的样本日志训练BERT模型,生成大量的词与词向量之间的对应表。示例性的,以标注样本日志的时间点为基准,分别向前截取不同时间量级的样本日志序列,例如截取当前标注样本日志时间点之前的一分钟、一小时和一天的样本日志序列。其中,每个样本日志序列的截取时长可以根据实际情况进行确定,在此不做限定针对每一个样本日志序列,根据对应表将每条日志文本转化为词向量,将词向量组成矩阵,即词向量矩阵。将词向量矩阵输入至全连接神经网络的输入层、隐藏层和输出层进行调整,将词向量矩阵进行padding填充,使得词向量矩阵的维数为d。将词向量矩阵输入至具有多通道的,且具有不同维度的卷积核的卷积神经网络中,计算并捕捉了文本局部上下文的关系。对每个卷积核处理后的词向量矩阵进行池化,将池化后的结果进行拼接,由此获取的文本中最重要的特征,由全连接神经网络将拼接向量转化为与词向量矩阵相同的维度,进而得到每条日志文本的初始嵌入表示。
S120、根据所述初始嵌入表示,提取包括至少两个样本日志的样本日志序列的时序特征,得到所述样本日志序列的聚合嵌入表示。
其中,时序特征可以是样本日志序列中各个具有时间连续性的各样本日志之间存在的关联性特征。聚合嵌入表示可以是将关键信息通过数据重组、融合等操作实现关键信息的嵌入,关键信息可以是影响待检测文本进行类型划分的信息。
示例性的,由于每个样本日志序列都是一段时间内的样本日志构成的,因此可以提取样本日志序列的时序特征,以获取样本日志序列时间维度的关联特点。针对每个样本日志序列,将其中包含的至少两个样本日志提取时序特征后进行聚合,得到每个样本日志序列的聚合嵌入表示。
S130、对至少两个样本日志序列的聚合嵌入表示进行特征融合,并根据特征融合后的聚合嵌入表示确定所述样本日志的预测类型。
其中,特征融合可以是将不同维度的数据经过加和与拼接的操作将所有维度的数据归一为统一维度。预测类型可以是通过模型或者算法对当前的样本数据进行分类得到的结果。
具体的,将每个样本日志序列的聚合嵌入表示进行特征融合,并针对融合后的聚合嵌入表示,确定其预测类型。
S140、根据所述样本日志的预测类型以及标注类型确定损失函数,基于所述损失函数进行模型训练得到日志检测模型,以根据所述日志检测模型对待检测日志进行检测。
其中,损失函数可以是用来度量模型的预测值与真实值的差异程度的运算函数,它是一个非负实值函数,损失函数越小,模型的鲁棒性就越好。日志检测模型可以是用来检测日志数据为异常的日志序列还是正常的日志序列的模型。
具体的,根据样本日志的预测类型和标注类型确定损失函数,损失函数可以为交叉熵损失函数。损失函数将分类结果和真实结果进行比较计算差异,反向传播优化模型参数缩小差异,直到差异值变化趋于平稳时模型训练完成,生成日志检测模型。将待检测日志经日志检测模型进行预测,完成日志的检测。
在本申请实施例中,通过样本日志的词向量矩阵提取文本语义特征,通过捕捉文本的局部上下文关系进行日志的初始嵌入表示。根据至少两个样本日志的时序特征和初始嵌入表示经过聚合操作形成样本日志序列的聚合嵌入表示。将至少两个样本日志序列的聚合嵌入表示进行特征融合并确定样本日志的预测类型。通过日志检测模型检测待检测日志,完成待检测日志的预测。本技术方案通过捕捉日志数据生成更全面、更深层次的特征,实现更精准的日志异常检测。
实施例二
图2为本申请实施例二提供的一种日志检测方法的流程图,本实施例以上述实施例为基础进行优化。如图2所示,本实施例的方法具体包括如下步骤:
S210、提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示。
具体的,根据文本和向量的对应关系,确定样本日志对应的日志向量,并将日志向量输入至卷积神经网络,提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示。
S220、按照至少两个样本日志的时间顺序,分别将至少两个样本日志的初始嵌入表示输入至Transformer模型中,确定融合时序特征的关联嵌入表示。
示例性的,以标注样本日志的时间点为基准,分别向前截取不同时间量级的样本日志序列,例如截取当前标注样本日志时间点之前的一分钟、一小时和一天的样本日志序列。其中,每个样本日志序列的截取时长可以根据实际情况进行确定,在此不做限定。针对每一个样本日志序列,确定其中各样本日志的初始嵌入表示。针对每一个样本日志序列,根据其中每个样本日志的时间顺序,将各样本日志的初始嵌入表示输入至Transformer模型中,也就是时间在前的样本日志先输入至Transformer模型,时间在后的样本日志后输入至Transformer模型,确定融合时序特征的关联嵌入表示。
S230、对至少两个样本日志的关联嵌入表示进行聚合,得到聚合嵌入表示。
示例性的,针对各样本日志序列,将其包含的各样本日志的关联嵌入表示进行聚合,得到聚合嵌入表示。
作为一种可选择但不限定的实现方式,对至少两个样本日志的关联嵌入表示进行聚合,得到聚合嵌入表示包括步骤A1-A2:
步骤A1、通过最大池化层和/或平均池化层对至少两个样本日志的关联嵌入表示进行聚合,得到合并嵌入表示;
具体的,采用最大池化层和/或平均池化层对关联嵌入表示进行聚合,从而得到每个样本日志序列对应的合并嵌入表示,
步骤A2、将至少两个样本日志中的可疑日志的关联嵌入表示,与所述合并嵌入表示进行聚合,得到聚合嵌入表示;其中,可疑日志为对至少两个样本日志进行聚类后,与聚类簇中心距离最大的样本日志。
具体的,对样本日志进行聚类操作,得到聚类簇,计算各样本日志与其所属的聚类簇中心的距离,确定与聚类簇中心距离最大的样本日志,作为可疑日志。将可疑日志的关联嵌入表示与合并其纳入表示进行聚合,得到聚合嵌入表示。
在本申请实施例中,将可疑日志的关联嵌入表示与合并其纳入表示进行聚合的有益效果在于,由于合并嵌入表示是经过最大池化和/或平均池化得到的,因此可能存在特征被融合减弱。而可疑日志是距离聚类簇中心最远的样本日志,其特征较突出,有可能为异常日志,因此将可疑日志的关联嵌入表示与合并其纳入表示进行聚合能够突出异常日志的特征,以提高异常日志检测的准确性。
S240、基于注意力机制对至少两个样本日志序列的聚合嵌入特征表示进行特征融合,并将特征融合后的聚合嵌入表示输入至多层感知机,确定所述样本日志的预测类型。
具体的,由注意力机制对至少两个样本日志序列的聚合嵌入特征赋予注意力权重,实现特征融合。将融合后的自适应样本日志序列输入至多层感知机,及softmax分类函数中完成日志的类型预测。
可选的,所述样本日志序列的确定方式包括:确定已知标注类型的样本日志,将该样本日志之前预设时间之内的样本日志,与已知标注类型的样本日志,确定为样本日志序列;其中,同一样本日志对应至少两个样本日志序列,至少两个样本日志序列对应的预设时间不同。
具体的,以标注样本日志的时间点为基准,分别向前截取不同时间量级的样本日志序列,截取的样本日志序列的数量,以及每个样本日志序列中所涵盖的时间长度可以适应性选取,不做限定。例如截取当前标注样本日志时间点之前的一分钟、一小时和一天的样本日志序列。且同一个样本日志中包含至少两个不同预设时间的样本日志序列。
S250、根据所述样本日志的预测类型以及标注类型确定损失函数,基于所述损失函数进行模型训练得到日志检测模型,以根据所述日志检测模型对待检测日志进行检测。
具体的,根据样本日志的预测类型和标注类型确定损失函数,由样本日志序列对日志检测模型进行训练。将待检测日志经日志检测模型进行预测,完成日志的检测。
在本申请实施例中,由卷积神经网络将通过日志向量转化的词向量矩阵进行文本语义特征的提取,通过卷积神经网络的捕捉的文本局部上下文关系进行日志的初始嵌入表示。通过Transf ormer模型获取时序特征,得到融合时序特征的关联嵌入表示,再对样本日志序列中各样本日志的关联嵌入表示进行聚合,形成样本日志序列的聚合嵌入表示。将至少两个样本日志序列的聚合嵌入表示进行特征融合并确定样本日志的预测类型。细化了样本日志序列的选择操作。本技术方案通过捕捉日志数据更全面、更深层次的特征,实现更精准的日志异常检测。
图3示出了可以用来实施本发明实施例的具体实现方式的结构示意图。包括:Mn、Hn、Dn分别表示不同时长类型的样本日志序列,例如截取当前标注样本日志时间点之前的一分钟、一小时和一天的样本日志序列,Embedding操作是将每个样本日志序列转化为向量矩阵的方法,针对每一个样本日志序列应用三种维度卷积核进行卷积操作CNN,其中,三种维度包括(3*d)、(4*d)和(5*d)。根据每个卷积核得到的结果经池化层(Top N Pooling)进行拼接,由此得到每个样本日志序列中最重要的特征,经过拼接函数Concat()和FNN将每个样本日志序列中最重要的特征进行维度的调整。得到每个样本日志的初始嵌入表示。通过Transformer计算得到融合了时序特征的日志文本嵌入表示,接着通过最大池化Max和平均池化AVG聚合拼接文本向量的特征,再和聚类簇中偏离簇中心最远的样本日志的嵌入表示进行聚合,得到聚合的文本向量特征。利用Attention注意力机制的注意力权重w对3个不同的样本日志序列进行特征融合,注意力权重w包括(α1、α2、α3),将经过特征融合后的日志序列特征表示送入多层感知机,并利用softmax进行分类。结合交叉熵损失函数(CrossEntropy Loss)训练日志检测模型。
实施例三
图4为本申请实施例四提供的一种日志检测装置的结构示意图,该装置可执行本申请任意实施例所提供的日志检测方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置包括:
嵌入表示获取模块310,用于提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示;;
聚合嵌入表示模块320,用于根据所述初始嵌入表示,提取包括至少两个样本日志的样本日志序列的时序特征,得到所述样本日志序列的聚合嵌入表示;
类型确定模块330,用于对至少两个样本日志序列的聚合嵌入表示进行特征融合,并根据特征融合后的聚合嵌入表示确定所述样本日志的预测类型;
日志检测模块340,用于根据所述样本日志的预测类型以及标注类型确定损失函数,基于所述损失函数进行模型训练得到日志检测模型,以根据所述日志检测模型对待检测日志进行检测;
在本申请实施例中,嵌入表示获取模块310,包括:
第一确定单元,用于根据预训练得到的文本与向量的对应关系,确定所述样本日志的文本对应的日志向量;
第二确定单元,用于将所述日志向量输入至卷积神经网络,提取所述样本日志的文本语义特征,得到所述样本日志的初始嵌入表示;
第三确定单元,用于基于BERT模型对未知标注类型的样本日志进行预训练,确定未知标注类型的样本日志的文本与向量的对应关系。
在本申请实施例中,聚合嵌入表示模块320,包括:
时序特征融合单元,用于按照至少两个样本日志的时间顺序,分别将至少两个样本日志的初始嵌入表示输入至Transformer模型中,确定融合时序特征的关联嵌入表示;
嵌入表示聚合单元,用于对至少两个样本日志的关联嵌入表示进行聚合,得到聚合嵌入表示。
在本申请实施例中,时序特征融合单元,具体用于:
通过最大池化层和/或平均池化层对至少两个样本日志的关联嵌入表示进行聚合,得到合并嵌入表示;
将至少两个样本日志中的可疑日志的关联嵌入表示,与所述合并嵌入表示进行聚合,得到聚合嵌入表示;其中,可疑日志为对至少两个样本日志进行聚类后,与聚类簇中心距离最大的样本日志。
在本申请实施例中,类型确定模块330,包括:
样本日志类型确定单元,用于基于注意力机制对至少两个样本日志序列的聚合嵌入特征表示进行特征融合,并将特征融合后的聚合嵌入表示输入至多层感知机,确定所述样本日志的预测类型。在本申请实施例中,样本日志类型确定单元,具体用于:
确定已知标注类型的样本日志,将该样本日志之前预设时间之内的样本日志,与已知标注类型的样本日志,确定为样本日志序列;其中,同一样本日志对应至少两个样本日志序列,至少两个样本日志序列对应的预设时间不同。
本申请实施例所提供的一种日志检测装置可执行本申请任意实施例所提供的一种日志检测方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5示出了可以用来实施本申请的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如日志检测方法。
在一些实施例中,日志检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的日志检测方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行日志检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种日志检测方法,其特征在于,所述方法包括:
提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示;
根据所述初始嵌入表示,提取包括至少两个样本日志的样本日志序列的时序特征,得到所述样本日志序列的聚合嵌入表示;
对至少两个样本日志序列的聚合嵌入表示进行特征融合,并根据特征融合后的聚合嵌入表示确定所述样本日志的预测类型;
根据所述样本日志的预测类型以及标注类型确定损失函数,基于所述损失函数进行模型训练得到日志检测模型,以根据所述日志检测模型对待检测日志进行检测。
2.根据权利要求1所述的方法,其特征在于,提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示,包括:
根据预训练得到的文本与向量的对应关系,确定所述样本日志的文本对应的日志向量;
将所述日志向量输入至卷积神经网络,提取所述样本日志的文本语义特征,得到所述样本日志的初始嵌入表示。
3.根据权利要求1所述的方法,其特征在于,根据所述初始嵌入表示,提取包括至少两个样本日志的样本日志序列的时序特征,得到所述样本日志序列的聚合嵌入表示,包括:
按照至少两个样本日志的时间顺序,分别将至少两个样本日志的初始嵌入表示输入至Transformer模型中,确定融合时序特征的关联嵌入表示;
对至少两个样本日志的关联嵌入表示进行聚合,得到聚合嵌入表示。
4.根据权利要求3所述的方法,其特征在于,对至少两个样本日志的关联嵌入表示进行聚合,得到聚合嵌入表示,包括:
通过最大池化层和/或平均池化层对至少两个样本日志的关联嵌入表示进行聚合,得到合并嵌入表示;
将至少两个样本日志中的可疑日志的关联嵌入表示,与所述合并嵌入表示进行聚合,得到聚合嵌入表示;其中,可疑日志为对至少两个样本日志进行聚类后,与聚类簇中心距离最大的样本日志。
5.根据权利要求1所述的方法,其特征在于,对至少两个样本日志序列的聚合嵌入表示进行特征融合,并根据特征融合后的聚合嵌入表示确定所述样本日志的预测类型,包括:
基于注意力机制对至少两个样本日志序列的聚合嵌入特征表示进行特征融合,并将特征融合后的聚合嵌入表示输入至多层感知机,确定所述样本日志的预测类型。
6.根据权利要求5所述的方法,其特征在于,所述样本日志序列的确定方式包括:
确定已知标注类型的样本日志,将该样本日志之前预设时间之内的样本日志,与已知标注类型的样本日志,确定为样本日志序列;其中,同一样本日志对应至少两个样本日志序列,至少两个样本日志序列对应的预设时间不同。
7.根据权利要求1所述的方法,其特征在于,预训练得到的文本与向量的对应关系确定方式包括:
基于BERT模型对未知标注类型的样本日志进行预训练,确定未知标注类型的样本日志的文本与向量的对应关系。
8.一种日志检测装置,其特征在于,所述装置包括:
嵌入表示获取模块,用于提取样本日志的文本语义特征,得到所述样本日志的初始嵌入表示;
聚合嵌入表示模块,用于根据所述初始嵌入表示,提取包括至少两个样本日志的样本日志序列的时序特征,得到所述样本日志序列的聚合嵌入表示;
类型确定模块,用于对至少两个样本日志序列的聚合嵌入表示进行特征融合,并根据特征融合后的聚合嵌入表示确定所述样本日志的预测类型;
日志检测模块,用于根据所述样本日志的预测类型以及标注类型确定损失函数,基于所述损失函数进行模型训练得到日志检测模型,以根据所述日志检测模型对待检测日志进行检测。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的日志检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的日志检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211361018.5A CN115600607A (zh) | 2022-11-02 | 2022-11-02 | 一种日志检测方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211361018.5A CN115600607A (zh) | 2022-11-02 | 2022-11-02 | 一种日志检测方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115600607A true CN115600607A (zh) | 2023-01-13 |
Family
ID=84851673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211361018.5A Pending CN115600607A (zh) | 2022-11-02 | 2022-11-02 | 一种日志检测方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115600607A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860008A (zh) * | 2023-02-24 | 2023-03-28 | 山东云天安全技术有限公司 | 用于异常日志信息确定的数据处理方法、电子设备及介质 |
-
2022
- 2022-11-02 CN CN202211361018.5A patent/CN115600607A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860008A (zh) * | 2023-02-24 | 2023-03-28 | 山东云天安全技术有限公司 | 用于异常日志信息确定的数据处理方法、电子设备及介质 |
CN115860008B (zh) * | 2023-02-24 | 2023-05-12 | 山东云天安全技术有限公司 | 用于异常日志信息确定的数据处理方法、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114549874A (zh) | 多目标图文匹配模型的训练方法、图文检索方法及装置 | |
CN114428677B (zh) | 任务处理方法、处理装置、电子设备及存储介质 | |
CN114037059A (zh) | 预训练模型、模型的生成方法、数据处理方法及装置 | |
CN114692778B (zh) | 用于智能巡检的多模态样本集生成方法、训练方法及装置 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
CN115454706A (zh) | 一种系统异常确定方法、装置、电子设备及存储介质 | |
CN115294397A (zh) | 一种分类任务的后处理方法、装置、设备及存储介质 | |
CN115600607A (zh) | 一种日志检测方法、装置、电子设备及介质 | |
CN118210670A (zh) | 日志异常检测方法、装置、电子设备及存储介质 | |
CN116340831B (zh) | 一种信息分类方法、装置、电子设备及存储介质 | |
CN116755974A (zh) | 云计算平台运维方法、装置、电子设备及存储介质 | |
CN116795615A (zh) | 一种芯片评测方法、系统、电子设备和存储介质 | |
CN116467606A (zh) | 一种决策建议信息的确定方法、装置、设备及介质 | |
CN114444514B (zh) | 语义匹配模型训练、语义匹配方法及相关装置 | |
CN115829160A (zh) | 一种时序异常预测方法、装置、设备及存储介质 | |
CN112966108B (zh) | 检测数据和训练分类模型的方法、装置、设备和存储介质 | |
CN115630708A (zh) | 一种模型更新方法、装置、电子设备、存储介质及产品 | |
CN116204441B (zh) | 索引数据结构的性能测试方法、装置、设备及存储介质 | |
CN114037058B (zh) | 预训练模型的生成方法、装置、电子设备以及存储介质 | |
CN117574146B (zh) | 文本分类标注方法、装置、电子设备和存储介质 | |
CN116720186A (zh) | 一种恶意代码识别方法、装置、电子设备及存储介质 | |
CN116225767A (zh) | 日志故障分类模型训练方法、装置、设备及存储介质 | |
CN116431809A (zh) | 基于银行客服场景下的文本标注方法、装置和存储介质 | |
CN116524959A (zh) | 一种语音情绪确定方法、装置、设备及介质 | |
CN117807223A (zh) | 文本分类方法和模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |