CN115185920B - 一种日志类型的检测方法、装置及设备 - Google Patents

一种日志类型的检测方法、装置及设备 Download PDF

Info

Publication number
CN115185920B
CN115185920B CN202211106624.2A CN202211106624A CN115185920B CN 115185920 B CN115185920 B CN 115185920B CN 202211106624 A CN202211106624 A CN 202211106624A CN 115185920 B CN115185920 B CN 115185920B
Authority
CN
China
Prior art keywords
log
training
type
log event
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211106624.2A
Other languages
English (en)
Other versions
CN115185920A (zh
Inventor
郭玉慧
郑铁樵
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN202211106624.2A priority Critical patent/CN115185920B/zh
Publication of CN115185920A publication Critical patent/CN115185920A/zh
Application granted granted Critical
Publication of CN115185920B publication Critical patent/CN115185920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种日志类型的检测方法、装置及设备,方法包括:获取待检测日志数据;根据所述待检测日志数据中的待检测关键词之间的语义关联关系,构建待检测日志事件子图;根据所述待检测日志事件子图,在训练好的日志类型标注器的日志事件图中的相对应顶点的类型,对所述待检测日志事件子图中的顶点进行类型标注,得到所述待检测日志事件子图的各顶点的类型;根据所述待检测日志事件子图的各顶点的类型,输出所述待检测日志数据的类型。本发明的方案可以提高日志类型检测的准确性。

Description

一种日志类型的检测方法、装置及设备
技术领域
本发明涉及日志信息处理技术领域,特别是指一种日志类型的检测方法、装置及设备。
背景技术
日志是一种半结构化数据,记录着系统的行为及故障等信息,自动化日志分析可以帮助运维人员监控系统状态,检测系统异常。
日志异常检测方法,利用日志解析工具处理日志序列为日志模板,并利用标注的正常日志数据生成正常日志模式,然后通过与正常日志模式对比,检测日志数据中的异常日志。
日志解析方法,利用日志解析器将日志消息解析为日志事件(即日志消息模板),构造日志序列,然后构建弱监督或监督机器学习模型来检测异常。
但是由于日志消息本身有一些新的关键字(即它们不会出现在历史日志中)和语义信息,现有方法中的这种日志解析方式可能会导致一些错误,无法准确检测异常日志。
发明内容
本发明要解决的技术问题是如何提供一种日志类型的检测方法、装置及设备,可以提高日志类型检测的准确性。
为解决上述技术问题,本发明的技术方案如下:
一种日志类型的检测方法,包括:
获取待检测日志数据;
根据所述待检测日志数据中的待检测关键词之间的语义关联关系,构建待检测日志事件子图;
根据所述待检测日志事件子图,在训练好的日志类型标注器的日志事件图中的相对应顶点的类型,对所述待检测日志事件子图中的顶点进行类型标注,得到所述待检测日志事件子图的各顶点的类型;
根据所述待检测日志事件子图的各顶点的类型,输出所述待检测日志数据的类型。
可选的,所述日志类型标注器通过以下过程进行训练:
获得关键词序列集合和原始日志数据集,所述关键词序列集合包括标注了日志类型的至少一种类型的关键词,所述原始日志数据集包括至少一条原始日志数据;
根据所述关键词序列集合中每一种类型的关键词之间的语义关联关系构建训练日志事件图,所述训练日志事件图中,所述关键词为所述训练日志事件图的顶点,所述关键词之间的共现为所述训练日志事件图的边;
根据所述原始日志数据中的关键词之间的语义关联关系,构建训练日志事件子图;
根据所述训练日志事件子图在所述训练日志事件图中的相对应顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型;
将所述训练日志事件子图的各顶点对应的关键词进行分类,得到至少一种类型的训练目标关键词;
根据所述至少一种类型的训练目标关键词,更新所述关键词序列集合。
可选的,根据所述原始日志数据中的关键词之间的语义关联关系,构建训练日志事件子图,包括:
将所述原始日志数据对应的日志模板中的私有变量,作为所述原始日志数据的关键词;
根据所述关键词之间的语义关联关系,构建训练日志事件子图,所述训练日志事件子图中,所述原始日志数据的关键词为所述训练日志事件子图的顶点,所述关键词之间的共现为所述训练日志事件子图的边。
可选的,根据所述训练日志事件子图在所述训练日志事件图中的相对应顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型,包括:
遍历所述训练日志事件图中的各顶点,获得与所述训练日志事件子图相同的诱导子图;
将所述诱导子图的各顶点的类型,确定为所述训练日志事件子图的相对应的各顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型。
可选的,遍历所述训练日志事件图中的各顶点,获得与所述训练日志事件子图相同的诱导子图,包括:
随机采样一个类型
随机从类型为的关键词中采样一个关键词
从高斯分布采样步长L;
以关键词作为起始节点,作为游走的概率,L作为游走步长,在所述训练日志事件图上执行随机游走,获得与所述训练日志事件子图相同的目标子图。
可选的,高斯分布的参数如下:
其中,表示原始日志数据中的关键词的个数,f为关键词个数统计函数,k为整数,n为日志数量,m为高斯分布的序号,i为第i个日志数据;
通过高斯分布对长度L的随机游走进行采样,从节点游走的概率如下:
其中,是顶点的共现频率,的邻居顶点集合,j为图节点序号;所述日志事件子图的关键词属于日志事件图的一组顶点,关键词之间的边属于日志事件图的一组边,k=1,2,3,…,j。
可选的,将所述训练日志事件子图的各顶点对应的关键词进行分类,得到至少一种类型的目标关键词,包括:
将所述训练日志事件子图的各顶点对应的关键词,输入目标分类器;
通过所述目标分类器,对所述训练日志事件子图的各顶点对应的关键词重新提取关键词,得到至少一种类型的训练目标关键词。
本发明的实施例还提供一种日志类型的检测装置,包括:
获取模块,用于获取待检测日志数据;
处理模块,用于根据所述待检测日志数据中的待检测关键词之间的语义关联关系,构建待检测日志事件子图;根据所述待检测日志事件子图,在训练好的日志类型标注器的日志事件图中的相对应顶点的类型,对所述待检测日志事件子图中的顶点进行类型标注,得到所述待检测日志事件子图的各顶点的类型;根据所述待检测日志事件子图的各顶点的类型,输出所述待检测日志数据的类型。
本发明的实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。
本发明的实施例还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获取待检测日志数据;根据所述待检测日志数据中的待检测关键词之间的语义关联关系,构建待检测日志事件子图;根据所述待检测日志事件子图,在训练好的日志类型标注器的日志事件图中的相对应顶点的类型,对所述待检测日志事件子图中的顶点进行类型标注,得到所述待检测日志事件子图的各顶点的类型;根据所述待检测日志事件子图的各顶点的类型,输出所述待检测日志数据的类型,能够不依赖日志解析工具和任何标注数据,仍达到有效的日志异常检测准确率,解决了实际应用场景中数据标注问题和日志解析带来的错误语义问题。
附图说明
图1为本发明实施例提供的日志类型的检测方法流程图;
图2为本发明实施例提供的日志类型标注器的训练方法流程图;
图3为本发明实施例提供的解析工具解析后的日志事件与用关键词构建的日志事件图之间的对比图;
图4为本发明实施例提供的子图标注器的表现示意图;
图5为本发明实施例提供的日志类型的检测装置的模块示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的实施例提供一种日志类型的检测方法,包括:
步骤11,获取待检测日志数据;
步骤12,根据所述待检测日志数据中的待检测关键词之间的语义关联关系,构建待检测日志事件子图;
步骤13,根据所述待检测日志事件子图,在训练好的日志类型标注器的日志事件图中的相对应顶点的类型,对所述待检测日志事件子图中的顶点进行类型标注,得到所述待检测日志事件子图的各顶点的类型;
步骤14,根据所述待检测日志事件子图的各顶点的类型,输出所述待检测日志数据的类型。
本发明的该实施例,通过获取待检测日志数据;根据所述待检测日志数据中的待检测关键词之间的语义关联关系,构建待检测日志事件子图;根据所述待检测日志事件子图,在训练好的日志类型标注器的日志事件图中的相对应顶点的类型,对所述待检测日志事件子图中的顶点进行类型标注,得到所述待检测日志事件子图的各顶点的类型;根据所述待检测日志事件子图的各顶点的类型,输出所述待检测日志数据的类型,能够不依赖日志解析工具和任何标注数据,仍达到有效的日志异常检测准确率,解决了实际应用场景中数据标注问题和日志解析带来的错误语义问题。
本发明的一可选的实施例中,如图2所示,所述日志类型标注器通过以下过程进行训练:
步骤21,获得关键词序列集合和原始日志数据集,所述关键词序列集合包括标注了日志类型的至少一种类型的关键词,所述原始日志数据集包括至少一条原始日志数据;
具体的,输入的数据包括:1)一组由用户提供的包含所有类别的初始关键词,例如,L1可以为正常类型的关键词序列,L2可以为异常类型的关键词序列,当然L1可以为异常类型的关键词,L2可以为正常类型的关键词;这里的类型也可以进一步包括其它类型,其中表示在类别i中的第个关键词;2)来自不同类别的未标注类型的日志消息,即原始日志数据集;例如,图2中,初始关键词,其中,,其中,为正常类型的关键词finish,为正常类型的关键词end,为正常类型的关键词enable;对于异常类型的关键词,如interrupt,denied,error;未标注类型的日志消息包括:ciod:LONGchdirfailed:input error等;
步骤22,根据所述关键词序列集合中每一种类型的关键词之间的语义关联关系构建训练日志事件图,所述训练日志事件图中,所述关键词为所述训练日志事件图的顶点,所述关键词之间的共现为所述训练日志事件图的边;
具体的,为了在原始日志数据的关键字之间建立语义关联,首先利用用户提供的初始关键词构建训练日志事件图G,其中关键词作为顶点,关键词之间的共现作为边,表示为G=(V,E);如图2中的日志事件图;
步骤23,根据所述原始日志数据中的关键词之间的语义关联关系,构建训练日志事件子图;根据日志事件图的构建方式构建训练日志事件子图,如图2中训练标注器中右下角三个关键词构成的训练日志事件子图A;
具体的,该步骤在实现时,可以包括:步骤231,将所述原始日志数据对应的日志模板中的私有变量,作为所述原始日志数据的关键词;
步骤232,根据所述关键词之间的语义关联关系,构建训练日志事件子图,所述训练日志事件子图中,所述原始日志数据的关键词为所述训练日志事件子图的顶点,所述关键词之间的共现为所述训练日志事件子图的边;
步骤24,根据所述训练日志事件子图在所述训练日志事件图中的相对应顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型;如图2中,训练标注器中右上角的诱导子图B为与上述训练日志事件子图A相对应;
具体的,该步骤在实现时,可以包括:
步骤241,遍历所述训练日志事件图中的各顶点,获得与所述训练日志事件子图相同的诱导子图;
步骤242,将所述诱导子图的各顶点的类型,确定为所述训练日志事件子图的相对应的各顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型;
其中,步骤241可以包括:
随机采样一个类型
随机从类型为的关键词中采样一个关键词
从高斯分布采样步长L;
以关键词作为起始节点,作为游走的概率,L作为游走步长,在所述训练日志事件图上执行随机游走,获得与所述训练日志事件子图相同的诱导子图;
高斯分布的参数被估计如下:
其中,表示原始日志数据中的关键词的个数,f为关键词个数统计函数,k为整数,n为日志数量,m为高斯分布的序号,i为第i个日志数据;
通过高斯分布对长度L的随机游走进行采样,从节点游走的概率如下:
其中,是顶点的共现频率,的邻居顶点集合,j为图节点序号;所述日志事件子图的关键词属于日志事件图的一组顶点,关键词之间的边属于日志事件图的一组边,k=1,2,3,…,j;
步骤25,将所述训练日志事件子图的各顶点对应的关键词进行分类,得到至少一种类型的训练目标关键词;
具体的,该步骤在实现时,可以包括:
步骤251,将所述训练日志事件子图的各顶点对应的关键词,输入目标分类器;
步骤252,通过所述目标分类器,对所述训练日志事件子图的各顶点对应的关键词重新提取关键词,得到至少一种类型的目标关键词;
步骤26,根据所述至少一种类型的训练目标关键词,更新所述关键词序列集合;重复上述步骤21-26,直到日志事件子图的各顶点的类型的确定精度达到预设目标值。
该实施例中,日志类型标注器的训练是在日志事件子图上进行的,这是一个图级的自我监督任务。自我监督任务通常需要生成与下游任务相关的样本和标签,以实现更好的预训练。否则,它会产生负迁移,损害模型的泛化能力。自我监督预训练过程如下述算法1所示,由随机游动衍生的子图类似于由未标注的日志序列生成的子图,通过预训练子图标注器来预测随机游走的起点。
首先,从类别随机抽取一个关键词作为随机游走的起点。
随机游走的过程服从高斯分布,其中,随机游走步数与未标注日志数据的日志序列中包含的关键词数相同。
高斯分布的参数被估计如下:
其中,表示日志序列中的关键字数。然后,通过高斯分布对长度L的随机游走进行采样。
从节点游走的概率,通过共现频率被推导如下:
其中,是节点的共现频率,的邻居节点集合,j为图节点序号。
然后,从节点开始执行L步的随机游走,在每一步中,决定从到邻居游走的可能性。
在随机游走结束时,可以得到一个子图,这是日志事件图G中被遍历节点的诱导子图B。
在自监督预训练过程中,将诱导子图输入标注器A,标注器A学习预测诱导子图起点的类别。
损失函数定义为的负对数可能性如下:
算法1:
输入:日志事件图G,无标注的日志序列U,高斯分布参数(),边可能性
输出:预训练好的子图标注器A;
1)随机采样一个类别
2)随机从类别采样一个关键词
3)从高斯分布采样步长L;
4)在图G上执行随机游走,作为起始节点,作为游走的概率,L作为游走步长,然后获得一个子图
5)子图作为标注器A的输入,作为预测的目标,计算损失;
6)计算梯度和更新标注器A的参数;
7)重复上述步骤1)至步骤7),直到走遍所有图节点。
进一步地,在预训练子图标注器A之后,设计了一个增强的策略,使用投票对其进行微调,以生成标签,如下所示:
其中表示关键词的频率(TF)。
微调的目标函数定义为:
其中,是日志序列的子图。这里,微调的次数不能太多,否则可能会影响投票的效果。
在日志事件图中,对于顶点V,用向量表示每个关键词,其中表示日志类别的独热编码,表示关键词索引的独热编码,C表示类别数。
对于边E,根据关键词在未标记的日志序列中出现的顺序,在关键词之间设置了一条有向边,并取它们的共现作为边的属性。
由于每个日志中的关键词数量是有限的,因此不会通过任何滑动窗口来限制边的数量。然后,原始日志序列之间的语义相关信息可以通过图神经网络在日志事件图G上传播和聚合。
在训练子图标注器A之后,使用它来生成伪标签并标注所有未标注的日志U,然后用于训练日志分类器。该方法可以扩展到任何日志分类器。由于预训练的BERT可以应用于使用序列数据的领域,且日志可被视为序列数据。
因此,使用BERT作为日志分类器,分类器的训练目标定义为:
其中是真正类别的独热分布。只有真实类别的概率为1,其他类别的概率为0。是函数softmax之后的分布,Softmax是可以将数值向量转换为概率分布的函数。
日志分类器对所有未标注日志的预测标签用于重新提取日志序列的关键词。为了确定模型是否收敛,关键词的变化定义为:
其中,是第i次迭代的关键词集合;当时,关键词更新迭代完成,其中,是一个超参数。
该实施例中,由于关键词的覆盖范围和准确性有限,采用迭代方法来更新包含语义相关性的关键词。在每次迭代中,根据日志分类器的结果重新提取关键词。具体可以使用改进的TF-IDF变体来提取原始日志中的关键词,这增加了IDF的重要性,从而降低了常用词的分数。
日志词在类别中的重要性被评估如下:
其中,M是一个超参数。
根据分数,每个类别中排名前Z个日志词都被选为下一次迭代的关键词。
如图3所示,为解析工具解析后的日志事件与用关键词构建的日志事件图之间的对比,左边为解析工具解析后的日志事件,可以发现用日志事件图更能准确反映关键词之间的关联关系。
本发明的上述实施例所述的方法,在实际日志异常检测中,通过以下至少一个实现说明该方法的优势:
实现实例一:弱监督日志异常检测方法,其中输入数据阶段采用日志序列和日志语句。Sequence表示输入是日志序列,Sentence表示日志语句。
如示例表1所示,采用滑动窗口法(大小为20)进行序列级验证,而句子级验证则通过逐个输入日志数据来进行。结果表明,利用序列使本发明的方法性能在平衡F分数平均提高了3%。具体来说,在OpenStack数据集上实现了最大的改进(在性能方面提高了5.4%)。序列比句子的效果更好,因为序列包含更多的上下文信息,因此当以序列作为输入时,会使用更多的提示信息,这是简单而有效的。
示例表1不同输入数据类型对日志异常检测的影响
实现实施例二:
弱监督日志异常检测方法的示例,其中训练和测试阶段的时间消耗。
如示例表2所示,列出了弱监督日志异常检测方法在五个数据集上的训练时间和测试时间。对于每个数据集,使用整个样本,其中80%的数据被分割用于训练,其余20%用于按时间顺序进行测试。总的来说,日志异常检测方法效率高,预测时间短(例如,在OpenStack上预测整个测试集只需45秒)。由于训练过程是离线的,日志异常检测方法的训训时间(五个数据集平均53分钟)仍然可以接受。总的来说,日志异常检测方法是有效的,具有快速的测试时间,并且训练时间是可以接受的。
示例表2 日志异常检测方法的训练和测试阶段的时间消耗
实现实施例三:弱监督日志异常检测方法的示例,输入不同数据量的性能测试。为了验证弱监督日志异常检测方法在不同的数据输入规模下仍然具有鲁棒性,分别对10%、50%、70%和100%的全部数据进行了验证。一般来说随着数据量的增加,日志异常检测方法的平衡F分数会变得更高。该日志异常检测方法在Hadoop数据集上获得了最大的改进(17%)。我们认为这与Hadoop的数据分布有关,其中Hadoop包含的样本较少,而且异常数据的数量远大于正常数据。因此,随着数据量的增加,模型学习到更多关于异常的知识,同时变得更加健壮。此外,日志异常检测方法在仅占数据量10%的情况下仍能获得良好的检测结果,这验证了我们的方法在数据不足的情况下是鲁棒的。这一发现证明了利用图结构存储大规模跨域日志数据语义信息的可能性。
实现实施例四:弱监督日志异常检测方法的示例,子图标注器的表现。为了证明标注器训练程序的有效性,在Thunderbird数据集上比较了有与没有子图标注器以及有与没有自我监督(SS)的结果。对于没有子图标注器的情况,通过关键词计数来生成伪标签,这在弱监督方法下被广泛使用。对于没有自我监督的情况,直接微调子图标注器。在Thunderbird数据集上前五次迭代的结果如图4所示。由此,可以看到1)本发明的方法与标注器的所有组件相比获得了更高的性能,证明了的子图标注器利用关键词之间语义相关性的有效性。2)对于使用关键词计数的情况,由于忽略了关键词之间的相关性,伪标签的质量最差,这导致分类性能最差。3)对于微调但没有自我监督学习的情况,它的性能比关键词计数在第五次迭代中高了11%。4)的自我监督学习任务可以提高此方法的性能,在性能方面比没有自我监督的情况大幅度提高8%。
实施例五:弱监督日志异常检测方法的示例,其中日志分类器的预训练作用。为了显示预训练模型的效果,通过比较有无来自BERT的预训练权重的结果来进行验证。由于BERT被自然语言处理领域的研究人员广泛利用,使用基本版本的BERT模型。对于没有预训练模型的分类器,只是随机初始化分类器的参数。在示例表3中,结果证实了预训练模型在五个数据集上的有效性。对于没有BERT的情况,性能平均下降约7%。我们推断,没有各种类型异常的系统减轻了对预先训练的模型的依赖。例如,在HDFS上,性能仅下降4%,反之亦然。
示例表3比较有(w)和没有(w/o)预训练模型的结果
实现实施例六:弱监督日志异常检测方法的示例,使用和不使用日志解析器的关键词比较。在这里,通过一个案例来展示本发明的弱监督日志异常检测的能力。一开始,把“failed”作为初始关键字。经过两次迭代后,关键词被更新,前12个关键词如表4所示。
显然,本发明的方法提取的前12个关键词是正确的,属于“异常”范畴。此外,通过比较第一轮和第二轮的关键词,我们发现无论是否使用解析器,我们的方法都能够在迭代过程中寻找更准确的关键词。例如,当我们利用解析器时,关键字('scotext')在第一次迭代中被提取出来,但对于异常情况,它不是合理的。然后在第二次迭代中,这个关键词从前12个关键词中删除。经过分析,这些组合通常代表特定的进程或主机,例如表4中的“infinihost0”代表第一个主机。异常被注入并在验证后通过该主机,因此我们的方法具备了定位异常进程和主机的能力。基于这一发现,本发明的方法可以通过构造图来跟踪并对异常进行根分析。
示例表4运用和不用日志解析器的关键词对比
迭代次数 运用解析工具的关键词 不用解析工具的关键词
0 failed failed
1 Failed,denied,scontext,error,sockfs,append,ignoring,kernel,unexpected,request,null,topspin denied,failed,ignoring,obj_host_amd64_custom1_rhel4,error,append errbuf,tavor_mad,unexpected,get_fatal_err_syndrome,ram0,infinihost0
2 denied,ignoring,failed,error,append,null,errbuff,unexpected,unconfined,get_fatal_err_syndrome,tavor, sysapps denied,ignoring,infinihost0,failed,error,errbuf unexpected,null,get_fatal_err_syndrome,unconfined,append,obj_host_amd64_custom1_rhel4
本发明的上述实施例所述的日志类型检测方法,能够处理原始的无标注的日志数据,并引入关键词图构建,不依赖日志解析工具,更好地处理了日志事件中关键词之间的相关性和日志序列之间的上下文关系,以用于日志异常检测;能够不依赖日志解析工具和任何标注数据,仍达到有效的日志异常检测准确率,解决了实际应用场景中数据标注问题和日志解析带来的错误语义问题。
如图5所示,本实施例还提供一种日志类型的检测装置50,包括:
获取模块51,用于获取待检测日志数据;
处理模块52,用于根据所述待检测日志数据中的待检测关键词之间的语义关联关系,构建待检测日志事件子图;根据所述待检测日志事件子图,在训练好的日志类型标注器的日志事件图中的相对应顶点的类型,对所述待检测日志事件子图中的顶点进行类型标注,得到所述待检测日志事件子图的各顶点的类型;根据所述待检测日志事件子图的各顶点的类型,输出所述待检测日志数据的类型。
可选的,所述日志类型标注器通过以下过程进行训练:
获得关键词序列集合和原始日志数据集,所述关键词序列集合包括标注了日志类型的至少一种类型的关键词,所述原始日志数据集包括至少一条原始日志数据;
根据所述关键词序列集合中每一种类型的关键词之间的语义关联关系构建训练日志事件图,所述训练日志事件图中,所述关键词为所述训练日志事件图的顶点,所述关键词之间的共现为所述训练日志事件图的边;
根据所述原始日志数据中的关键词之间的语义关联关系,构建训练日志事件子图;
根据所述训练日志事件子图在所述训练日志事件图中的相对应顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型;
将所述训练日志事件子图的各顶点对应的关键词进行分类,得到至少一种类型的训练目标关键词;
根据所述至少一种类型的训练目标关键词,更新所述关键词序列集合。
可选的,根据所述原始日志数据中的关键词之间的语义关联关系,构建训练日志事件子图,包括:
将所述原始日志数据对应的日志模板中的私有变量,作为所述原始日志数据的关键词;
根据所述关键词之间的语义关联关系,构建训练日志事件子图,所述训练日志事件子图中,所述原始日志数据的关键词为所述训练日志事件子图的顶点,所述关键词之间的共现为所述训练日志事件子图的边。
可选的,根据所述训练日志事件子图在所述训练日志事件图中的相对应顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型,包括:
遍历所述训练日志事件图中的各顶点,获得与所述训练日志事件子图相同的诱导子图;
将所述诱导子图的各顶点的类型,确定为所述训练日志事件子图的相对应的各顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型。
可选的,遍历所述训练日志事件图中的各顶点,获得与所述训练日志事件子图相同的诱导子图,包括:
随机采样一个类型
随机从类型为的关键词中采样一个关键词
从高斯分布采样步长L;
以关键词作为起始节点,作为游走的概率,L作为游走步长,在所述训练日志事件图上执行随机游走,获得与所述训练日志事件子图相同的目标子图。
可选的,高斯分布的参数如下:
其中,表示原始日志数据中的关键词的个数,f为关键词个数统计函数,k为整数,n为日志数量,m为高斯分布的序号,i为第i个日志数据;
通过高斯分布对长度L的随机游走进行采样,从节点游走的概率如下:
其中,是顶点的共现频率,的邻居顶点集合,j为图节点序号;所述日志事件子图的关键词属于日志事件图的一组顶点,关键词之间的边属于日志事件图的一组边,k=1,2,3,…,j。
可选的,将所述训练日志事件子图的各顶点对应的关键词进行分类,得到至少一种类型的训练目标关键词,包括:
将所述训练日志事件子图的各顶点对应的关键词,输入目标分类器;
通过所述目标分类器,对所述训练日志事件子图的各顶点对应的关键词重新提取关键词,得到至少一种类型的训练目标关键词。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。
本实施例还提供一种计算机可读存储介质,其存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。
该计算设备可以包括:处理器(processor)、通信接口(CommunicationsInterface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的方法。程序中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (7)

1.一种日志类型的检测方法,其特征在于,包括:
获取待检测日志数据;
根据所述待检测日志数据中的待检测关键词之间的语义关联关系,构建待检测日志事件子图;
根据所述待检测日志事件子图,在训练好的日志类型标注器的日志事件图中的相对应顶点的类型,对所述待检测日志事件子图中的顶点进行类型标注,得到所述待检测日志事件子图的各顶点的类型;
根据所述待检测日志事件子图的各顶点的类型,输出所述待检测日志数据的类型;
其中,所述日志类型标注器通过以下过程进行训练:
获得关键词序列集合和原始日志数据集,所述关键词序列集合包括标注了日志类型的至少一种类型的关键词,所述原始日志数据集包括至少一条原始日志数据;
根据所述关键词序列集合中每一种类型的关键词之间的语义关联关系构建训练日志事件图,所述训练日志事件图中,所述关键词为所述训练日志事件图的顶点,所述关键词之间的共现为所述训练日志事件图的边;
根据所述原始日志数据中的关键词之间的语义关联关系,构建训练日志事件子图;
根据所述训练日志事件子图在所述训练日志事件图中的相对应顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型;
将所述训练日志事件子图的各顶点对应的关键词进行分类,得到至少一种类型的训练目标关键词;
根据所述至少一种类型的训练目标关键词,更新所述关键词序列集合;
其中,根据所述训练日志事件子图在所述训练日志事件图中的相对应顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型,包括:
遍历所述训练日志事件图中的各顶点,获得与所述训练日志事件子图相同的诱导子图;
将所述诱导子图的各顶点的类型,确定为所述训练日志事件子图的相对应的各顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型。
2.根据权利要求1所述的日志类型的检测方法,其特征在于,根据所述原始日志数据中的关键词之间的语义关联关系,构建训练日志事件子图,包括:
将所述原始日志数据对应的日志模板中的私有变量,作为所述原始日志数据的关键词;
根据所述关键词之间的语义关联关系,构建训练日志事件子图,所述训练日志事件子图中,所述原始日志数据的关键词为所述训练日志事件子图的顶点,所述关键词之间的共现为所述训练日志事件子图的边。
3.根据权利要求1所述的日志类型的检测方法,其特征在于,遍历所述训练日志事件图中的各顶点,获得与所述训练日志事件子图相同的诱导子图,包括:
随机采样一个类型
随机从类型为的关键词中采样一个关键词
从高斯分布采样步长L;
以关键词作为起始节点,作为游走的概率,L作为游走步长,在所述训练日志事件图上执行随机游走,获得与所述训练日志事件子图相同的目标子图;
其中,高斯分布的参数如下:
其中,表示原始日志数据中的关键词的个数,f为关键词个数统计函数,k为整数,n为日志数量,m为高斯分布的序号,i为第i个日志数据;
通过高斯分布对长度L的随机游走进行采样,从节点游走的概率如下:
其中,是顶点的共现频率,的邻居顶点集合,j为图节点序号;所述日志事件子图的关键词属于日志事件图的一组顶点,关键词之间的边属于日志事件图的一组边,k=1,2,3,…,j。
4.根据权利要求1所述的日志类型的检测方法,其特征在于,将所述训练日志事件子图的各顶点对应的关键词进行分类,得到至少一种类型的训练目标关键词,包括:
将所述训练日志事件子图的各顶点对应的关键词,输入目标分类器;
通过所述目标分类器,对所述训练日志事件子图的各顶点对应的关键词重新提取关键词,得到至少一种类型的训练目标关键词。
5.一种日志类型的检测装置,其特征在于,包括:
获取模块,用于获取待检测日志数据;
处理模块,用于根据所述待检测日志数据中的待检测关键词之间的语义关联关系,构建待检测日志事件子图;根据所述待检测日志事件子图,在训练好的日志类型标注器的日志事件图中的相对应顶点的类型,对所述待检测日志事件子图中的顶点进行类型标注,得到所述待检测日志事件子图的各顶点的类型;根据所述待检测日志事件子图的各顶点的类型,输出所述待检测日志数据的类型;
其中,所述日志类型标注器通过以下过程进行训练:获得关键词序列集合和原始日志数据集,所述关键词序列集合包括标注了日志类型的至少一种类型的关键词,所述原始日志数据集包括至少一条原始日志数据;根据所述关键词序列集合中每一种类型的关键词之间的语义关联关系构建训练日志事件图,所述训练日志事件图中,所述关键词为所述训练日志事件图的顶点,所述关键词之间的共现为所述训练日志事件图的边;根据所述原始日志数据中的关键词之间的语义关联关系,构建训练日志事件子图;根据所述训练日志事件子图在所述训练日志事件图中的相对应顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型;将所述训练日志事件子图的各顶点对应的关键词进行分类,得到至少一种类型的训练目标关键词;根据所述至少一种类型的训练目标关键词,更新所述关键词序列集合;
其中,根据所述训练日志事件子图在所述训练日志事件图中的相对应顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型,包括:遍历所述训练日志事件图中的各顶点,获得与所述训练日志事件子图相同的诱导子图;将所述诱导子图的各顶点的类型,确定为所述训练日志事件子图的相对应的各顶点的类型,对所述训练日志事件子图中的顶点进行类型标注,得到所述训练日志事件子图的各顶点的类型。
6.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至4任一项所述的方法。
CN202211106624.2A 2022-09-13 2022-09-13 一种日志类型的检测方法、装置及设备 Active CN115185920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211106624.2A CN115185920B (zh) 2022-09-13 2022-09-13 一种日志类型的检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211106624.2A CN115185920B (zh) 2022-09-13 2022-09-13 一种日志类型的检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115185920A CN115185920A (zh) 2022-10-14
CN115185920B true CN115185920B (zh) 2023-04-18

Family

ID=83524693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211106624.2A Active CN115185920B (zh) 2022-09-13 2022-09-13 一种日志类型的检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115185920B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591673B (zh) * 2024-01-17 2024-05-03 腾讯科技(深圳)有限公司 日志分组方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947814A (zh) * 2018-08-21 2019-06-28 慧安金科(北京)科技有限公司 用于检测数据集合中的异常数据组的方法和设备
CN112395159A (zh) * 2020-11-17 2021-02-23 华为技术有限公司 一种日志检测方法、系统、设备及介质
CN114465874A (zh) * 2022-04-07 2022-05-10 北京宝兰德软件股份有限公司 故障预测方法、装置、电子设备与存储介质
CN114595136A (zh) * 2022-05-09 2022-06-07 云智慧(北京)科技有限公司 一种日志解析方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909115B2 (en) * 2017-12-04 2021-02-02 Nec Corporation System event search based on heterogeneous logs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947814A (zh) * 2018-08-21 2019-06-28 慧安金科(北京)科技有限公司 用于检测数据集合中的异常数据组的方法和设备
CN112395159A (zh) * 2020-11-17 2021-02-23 华为技术有限公司 一种日志检测方法、系统、设备及介质
CN114465874A (zh) * 2022-04-07 2022-05-10 北京宝兰德软件股份有限公司 故障预测方法、装置、电子设备与存储介质
CN114595136A (zh) * 2022-05-09 2022-06-07 云智慧(北京)科技有限公司 一种日志解析方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
改进的基于日志聚类的异常检测方法;冯士龙,台宪青,马治杰;《计算机工程与设计》;20200429;第41卷(第4期);第1-6页 *

Also Published As

Publication number Publication date
CN115185920A (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
Kim et al. Dealing with noise in defect prediction
El-Masri et al. A systematic literature review on automated log abstraction techniques
Wienand et al. Detecting incorrect numerical data in dbpedia
Tabassum et al. An investigation of cross-project learning in online just-in-time software defect prediction
US11003638B2 (en) System and method for building an evolving ontology from user-generated content
Vasudevan et al. When does dough become a bagel? analyzing the remaining mistakes on imagenet
Ebrahimi et al. An HMM-based approach for automatic detection and classification of duplicate bug reports
Han et al. Perflearner: Learning from bug reports to understand and generate performance test frames
Banerjee et al. Automated triaging of very large bug repositories
US20180082215A1 (en) Information processing apparatus and information processing method
Kobayashi et al. Towards an NLP-based log template generation algorithm for system log analysis
US11551151B2 (en) Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus
US11403304B2 (en) Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects
Budhiraja et al. A supervised learning approach for heading detection
CN115185920B (zh) 一种日志类型的检测方法、装置及设备
US9558462B2 (en) Identifying and amalgamating conditional actions in business processes
Xu et al. A GitHub-based data collection method for software defect prediction
Guo et al. Loglg: Weakly supervised log anomaly detection via log-event graph construction
CN116841779A (zh) 异常日志检测方法、装置、电子设备和可读存储介质
Angeli et al. Stanford’s distantly supervised slot filling systems for KBP 2014
Revindasari et al. Traceability between business process and software component using Probabilistic Latent Semantic Analysis
Huynh et al. Argh! automated rumor generation hub
Ryman et al. Application of source code plagiarism detection and grouping techniques for short programs
Bhowmick et al. Twics: Lightweight entity mention detection in targeted twitter streams
US12039419B2 (en) Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant