CN110175158B - 一种基于向量化的日志模板提取方法和系统 - Google Patents

一种基于向量化的日志模板提取方法和系统 Download PDF

Info

Publication number
CN110175158B
CN110175158B CN201910431788.4A CN201910431788A CN110175158B CN 110175158 B CN110175158 B CN 110175158B CN 201910431788 A CN201910431788 A CN 201910431788A CN 110175158 B CN110175158 B CN 110175158B
Authority
CN
China
Prior art keywords
log
template
vector
module
closest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910431788.4A
Other languages
English (en)
Other versions
CN110175158A (zh
Inventor
全哲
肖桐
周旭
唐卓
陈建国
姜文君
李肯立
李克勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201910431788.4A priority Critical patent/CN110175158B/zh
Publication of CN110175158A publication Critical patent/CN110175158A/zh
Application granted granted Critical
Publication of CN110175158B publication Critical patent/CN110175158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Abstract

本发明公开了一种基于向量化的日志模板提取方法,其结合了离线日志模板提取和在线日志模板提取两个过程,离线日志模板提取先将所有的日志记录向量化后映射到一个高维向量空间,然后对所有向量进行聚类以实现对日志记录的分类,最后从每个类中提取出其中所有日志记录的最长公共单词子序列并用通配符替代不同的部分以作为该类的模板,在线日志模板提取基于离线提取的结果,对随着时间推移新产生的日志记录逐条进行处理,计算其向量化后的结果与已知各模板向量化后的结果的距离。本发明能够解决现有日志模板提取方法存在的不适合处理大量日志、普适性差、复杂性比较高的技术问题。

Description

一种基于向量化的日志模板提取方法和系统
技术领域
本发明属于计算机数据挖掘领域,具体地说,涉及一种基于向量化的日志模板提取方法和系统。
背景技术
计算机系统在运行过程中产生的各种日志是获取计算机系统健康和操作状态的重要信息来源,计算机系统的管理员和安全分析员在计算机系统出现故障和安全事件时都非常依赖日志信息,日志为计算机系统异常和故障的诊断甚至预测提供了重要的信息支撑。然而,随着计算机系统规模的不断增长,其产生的日志的规模也在不断增长,这使得人工查看日志变得非常繁琐,而且容易出错。因此,自动日志分析成为一个非常重要的研究课题,受到了大量研究人员的关注。其中,如何提取日志模板是一个重要的研究点。
现有的日志模板提取方法主要是无监督类型的方法,常用的有:(1)基于频繁项集挖掘的方法,这类方法通过挖掘日志文件中的频繁项集(频繁出现的单词的集合)并结合聚类以生成日志模板;然而,这类方法中的集合管理代价即使在日志模板数量较少的情况下也比较高昂,因此不适合处理大量的日志;(2)迭代分割日志挖掘方法(见Makanju A,Zincir-Heywood A N,Milios E E.Clustering event logs using iterativepartitioning[C].Acm Sigkdd International Conference on Knowledge Discovery&Data Mining.DBLP,2009),该方法先对日志记录集合进行三步划分(第一步按日志记录包含的符号的数量进行划分,第二步按符号的位置进行划分,第三步按两个符号之间的双射关系进行划分)以形成不同的日志记录簇,然后从每一个日志记录簇提取一个日志模板;但该方法同样存在问题,其以假设对应同一日志模板的所有日志记录具有相同的符号长度为先决条件,因此不具有普适性;(3)从源代码中提取日志打印格式作为日志模板的方法,该方法直接对相关系统的源代码进行分析,根据日志打印语句生成日志模板;但由于并不是所有的系统都允许访问源代码,因此该方法也不具有普适性;(4)在线日志模板提取方法,这类方法支持动态日志模板生成,克服了离线日志模板提取方法所存在的不能及时对日志记录进行分析以及模板更新代价高昂的缺陷,但是现有的该类方法以纯粹字符串的方式对日志记录进行处理,因而复杂性比较高。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于向量化的日志模板提取方法和系统,其目的在于,引入向量化的方式对日志记录进行处理,并结合离线日志模板提取和在线日志模板提取两个过程,解决现有日志模板提取方法存在的不适合处理大量日志、普适性差、复杂性比较高的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于向量化的日志模板提取方法,包括:
一、离线日志模板提取过程,包括步骤:
(1)从预先收集的日志文件中获取所有日志记录,对其进行预处理,以得到预处理后的所有日志记录。
(2)对预处理后的所有日志记录进行向量化处理,以得到向量集合,并对得到的向量集合进行聚类,从而将该向量集合划分成多个向量簇C1,C2,…,Cm,其中m表示聚类操作所得到的簇的总个数。
(3)对步骤(2)中得到的每个向量簇Ci,找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合Li,提取出其中所有日志记录的最长公共单词子序列,并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分,从而得到该日志记录集合Li的模板ti,其中i∈[1,m]。
(4)对步骤(3)得到的每个日志模板ti进行向量化处理,将向量化后的结果tvi称为模板向量,然后计算对应的向量簇Ci中的各个向量与该模板向量tvi的距离并找出最大距离d_maxi
二、在线日志模板提取过程,包括步骤:
(5)从日志文件中实时获取新产生的一条日志记录,并对其进行预处理,以得到预处理后的日志记录;然后对预处理后的日志记录进行向量化处理,以得到向量。
(6)采用步骤(2)中的聚类算法所使用的距离度量方法计算步骤(5)得到的向量与步骤(4)得到的各个模板向量tvi的距离。
(7)从步骤(6)得到的所有距离中找出最小距离,并判断该最小距离是否大于预定的阈值τd,如果是则进入步骤(8),否则进入步骤(9)。
(8)将该日志记录本身作为一个新的模板,并对该模板执行与步骤(4)中相同的处理,过程结束。
(9)找出步骤(7)中得到的最小距离所对应的模板向量tvclosest,再找出该模板向量tvclosest所对应的模板tclosest,然后计算步骤(5)中预处理后的日志记录与该模板tclosest之间的相似度s,并判断s是否大于预定的阈值τs,如果是,则tclosest就是该日志记录的模板,过程结束,否则进入步骤(10)。
(10)用通配符替代步骤(9)中得到的日志模板tclosest与步骤(5)中预处理后的日志记录之间的不同部分,从而得到更新后的日志模板,再对更新后的日志模板进行向量化处理,以得到更新的模板向量,然后用该更新的模板向量替换原始的模板向量tvclosest并重新计算对应的向量簇Cclosest中的各个向量与更新的模板向量之间的距离并找出最大距离d_maxclosest
优选地,步骤(1)中的预处理过程包括去掉时间戳和剔除重复的日志记录,步骤(5)中的预处理过程仅包括去掉时间戳。
优选地,步骤(2)和(5)中向量化处理过程完全相同,步骤(4)和(10)中向量化处理过程完全相同,日志模板中的通配符不作为单词参与向量化处理。
优选地,步骤(6)中,当前述的向量化处理过程使用的是词袋模型时,在计算距离之前先通过在tvi后面补0的方式使各个模板向量tvi的维度与新单词表的长度相等。
优选地,步骤(7)中的预定阈值τd的取值为步骤(4)中得到的所有d_maxi中的最大值乘以系数λ,其中λ∈[1,1.5]。
优选地,步骤(9)中,相似度s是步骤(5)中预处理后的日志记录与模板tclosest的最长公共单词子序列所包含的单词数与预处理后的日志记录所包含的单词数的比值,预定的阈值τs的取值在0.4到0.8之间。
按照本发明的另一方面,提供了一种基于向量化的日志模板提取系统,包括:
第一模块,用于从预先收集的日志文件中获取所有日志记录,对其进行预处理,以得到预处理后的所有日志记录。
第二模块,用于对预处理后的所有日志记录进行向量化处理,以得到向量集合,并对得到的向量集合进行聚类,从而将该向量集合划分成多个向量簇C1,C2,…,Cm,其中m表示聚类操作所得到的簇的总个数。
第三模块,用于对第二模块得到的每个向量簇Ci,找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合Li,提取出其中所有日志记录的最长公共单词子序列,并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分,从而得到该日志记录集合Li的模板ti,其中i∈[1,m]。
第四模块,用于对第三模块得到的每个日志模板ti进行向量化处理,将向量化后的结果tvi称为模板向量,然后计算对应的向量簇Ci中的各个向量与该模板向量tvi的距离并找出最大距离d_maxi
第五模块,用于从日志文件中实时获取新产生的一条日志记录,并对其进行预处理,以得到预处理后的日志记录;然后对预处理后的日志记录进行向量化处理,以得到向量。
第六模块,用于采用第二模块的聚类算法所使用的距离度量方法计算第五模块得到的向量与第四模块得到的各个模板向量tvi的距离。
第七模块,用于从第六模块得到的所有距离中找出最小距离,并判断该最小距离是否大于预定的阈值τd,如果是则进入第八模块,否则进入第九模块。
第八模块,用于将该日志记录本身作为一个新的模板,并对该模板执行与第四模块相同的处理,过程结束。
第九模块,用于找出第七模块得到的最小距离所对应的模板向量tvclosest,再找出该模板向量tvclosest所对应的模板tclosest,然后计算第五模块预处理后的日志记录与该模板tclosest之间的相似度s,并判断s是否大于预定的阈值τs,如果是,则tclosest就是该日志记录的模板,过程结束,否则进入第十模块;
第十模块,用于用通配符替代第九模块得到的日志模板tclosest与第五模块预处理后的日志记录之间的不同部分,从而得到更新后的日志模板,再对更新后的日志模板进行向量化处理,以得到更新的模板向量,然后用该更新的模板向量替换原始的模板向量tvclosest并重新计算对应的向量簇Cclosest中的各个向量与更新的模板向量之间的距离并找出最大距离d_maxclosest
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了步骤(2)、(4)、(5)、(6)、(8)、(10),这些步骤将日志记录和日志模板向量化并通过计算两个向量之间的距离来度量两条日志记录之间或者日志记录与日志模板之间的相似性,具有较低的复杂性和计算量,因此本发明运行时间短、资源消耗小,适合对大量日志进行处理。
(2)由于本发明的方法不需要经由源代码获取日志模板,也不需要对日志格式有特殊要求,因此本发明具有较好的普适性。
(3)本发明结合离线日志模板提取和在线日志模板提取,所以既可以充分利用历史日志信息,也可以根据需要动态生成新的日志模板。
附图说明
图1是本发明基于向量化的日志模板提取的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了便于理解本发明,以下首先对本发明出现的技术术语进行解释和说明:
单词:将日志记录字符串按空白字符和标点符号分割后得到的所有子字符串都称为单词,空白字符包括空格符、制表符、换行符、回车符等。如日志记录“Interfaceeth0down”包括三个单词:Interface、eth0、down。
最长公共单词子序列:在指定的所有日志记录字符串中都有出现、而且出现的先后次序一致的所有单词所构成的子序列,这些单词不需要在日志记录字符串中连续出现,可以理解为最长公共子序列的单词版本,因为此处进行比较的基本单元不是字符,而是单词。如两条日志记录“Interface eth0down”和“Interface eth1down”的最长公共单词子序列为“Interface down”。
本发明包括离线日志模板提取和在线日志模板提取两个过程。
离线日志模板提取先将所有的日志记录向量化后映射到一个高维向量空间,然后对所有向量进行聚类以实现对日志记录的分类,最后从每个类中提取出其中所有日志记录的最长公共单词子序列并用通配符替代不同的部分以作为该类日志记录的模板。
在线日志模板提取基于离线日志模板提取的结果,对随着时间推移新产生的日志记录逐条进行处理,分为三种情况:(1)某个日志模板能完全匹配该日志记录,无需额外操作;(2)没有日志模板能完全匹配该日志记录,但某个日志模板能匹配该日志记录的绝大部分,则更新该日志模板使其能匹配该日志记录;(3)该日志记录与所有日志模板的差别都比较大,则为该日志记录生成一个新的日志模板。
如图1所示,本发明基于向量化的日志模板提取方法包括:
一、离线日志模板提取过程:
(1)从预先收集的日志文件中获取所有日志记录,对其进行预处理,以得到预处理后的所有日志记录。
具体而言,本步骤中的预处理过程包括去掉时间戳和剔除重复的日志记录两项操作。
时间戳之所以可以去掉是因为时间戳是随时间变化的,可以将其排除在日志模板之外。去掉时间戳不仅可以避免时间戳对日志模板提取结果的影响,而且方便了剔除重复日志记录的操作,有利于减小开销。
剔除重复的日志记录是基于日志文件中往往有大量日志记录除时间戳以外完全相同的事实,本操作的意义在于可以避免对这些重复日志记录的处理开销。
(2)对预处理后的所有日志记录进行向量化处理,以得到向量集合,并对得到的向量集合进行聚类,从而将该向量集合划分成多个向量簇C1,C2,…,Cm,其中m表示聚类操作所得到的簇的总个数。
具体而言,本步骤采用字符串向量化方法(如词袋模型)将每条日志记录转换为一个向量,所有的向量构成向量集合。
以K均值聚类为例,先依据先验知识将K设置为一个比实际日志模板数小的数值,进行一次K均值聚类,聚类结束后计算各个簇的均方误差,对均方误差大于预定阈值τmse的各个簇分别进行一次K=2的K均值聚类,聚类结束后计算新产生的簇的均方误差,再对均方误差大于预定阈值τmse的各个簇分别进行一次K=2的K均值聚类,重复迭代过程,直到得到的所有簇的均方误差都不大于预定阈值τmse为止。预定阈值τmse的取值与采用的向量化方法相关,通过对不同值的多次试验选取一个聚类效果能够满足实际要求的值。
(3)对步骤(2)中得到的每个向量簇Ci,找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合Li,提取出其中所有日志记录的最长公共单词子序列,并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分,从而得到该日志记录集合Li的模板ti,其中i∈[1,m]。
例如,针对两条日志记录“Interface eth0down”和“Interface eth1down”构成的集合而言,最长公共单词子序列为“Interface down”,用通配符*替代每条日志记录中不在最长公共单词子序列中出现的部分,本步骤最终得到的日志模板是“Interface*down”。
(4)对步骤(3)得到的每个日志模板ti进行向量化处理,将向量化后的结果tvi称为模板向量,然后计算对应的向量簇Ci中的各个向量与该模板向量tvi的距离并找出最大距离d_maxi
本步骤的向量化处理过程与步骤(2)中的相同,但是日志模板中的通配符不作为单词参与向量化处理;向量簇Ci中的各个向量与模板向量tvi的距离的计算方法采用步骤(2)中的聚类算法所使用的距离度量方法。
二、在线日志模板提取过程:
(5)从日志文件中实时获取新产生的一条日志记录,并对其进行预处理,以得到预处理后的日志记录;然后对预处理后的日志记录进行向量化处理,以得到向量。
本步骤中的预处理只去掉时间戳,向量化处理的过程与步骤(2)中的完全相同。
(6)采用步骤(2)中的聚类算法所使用的距离度量方法计算步骤(5)得到的向量与步骤(4)得到的各个模板向量tvi的距离。
具体而言,本步骤得到的距离可以是欧式距离。
当前述的向量化处理过程使用的是词袋模型时,由于步骤(5)得到的日志记录中可能出现新的单词,所以在计算距离之前先通过在tvi后面补0的方式使各个模板向量tvi的维度与新单词表的长度相等。
(7)从步骤(6)得到的所有距离中找出最小距离,并判断该最小距离是否大于预定的阈值τd,如果是则进入步骤(8),否则进入步骤(9)。
具体而言,本步骤的预定阈值τd的取值设置为步骤(4)中得到的所有d_maxi中的最大值乘以系数λ(λ∈[1,1.5])。
(8)将该日志记录本身作为一个新的模板,并对该模板执行与步骤(4)中相同的处理,过程结束。
具体而言,因为此处的模板和日志记录相同,所以二者向量化后得到的向量之间的距离为0,因而此处的d_maxi等于0。
(9)找出步骤(7)中得到的最小距离所对应的模板向量tvclosest,再找出该模板向量tvclosest所对应的模板tclosest,然后计算步骤(5)中预处理后的日志记录与该模板tclosest之间的相似度s,并判断s是否大于预定的阈值τs,如果是,则tclosest就是该日志记录的模板,过程结束,否则进入步骤(10)。
具体而言,s定义为步骤(5)中预处理后的日志记录与模板tclosest的最长公共单词子序列所包含的单词数与预处理后的日志记录所包含的单词数的比值,本步骤中预定的阈值τs的取值在0.4到0.8之间。
(10)用通配符替代步骤(9)中得到的日志模板tclosest与步骤(5)中预处理后的日志记录之间的不同部分,从而得到更新后的日志模板,再对更新后的日志模板进行向量化处理,以得到更新的模板向量,然后用该更新的模板向量替换原始的模板向量tvclosest并重新计算对应的向量簇Cclosest中的各个向量与更新的模板向量之间的距离并找出最大距离d_maxclosest
本步骤的向量化处理过程与步骤(4)中的完全相同。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于向量化的日志模板提取方法,其特征在于,包括:
一、离线日志模板提取过程,包括步骤:
(1)从预先收集的日志文件中获取所有日志记录,对其进行预处理,以得到预处理后的所有日志记录;
(2)对预处理后的所有日志记录进行向量化处理,以得到向量集合,并对得到的向量集合进行聚类,从而将该向量集合划分成多个向量簇C 1 , C 2 , …, C m ,其中m表示聚类操作所得到的簇的总个数;
(3)对步骤(2)中得到的每个向量簇C i ,找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合L i ,提取出其中所有日志记录的最长公共单词子序列,并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分,从而得到该日志记录集合L i 的模板t i ,其中i∈[1, m];
(4)对步骤(3)得到的每个日志模板t i 进行向量化处理,将向量化后的结果tv i 称为模板向量,然后计算对应的向量簇C i 中的各个向量与该模板向量tv i 的距离并找出最大距离d_ max i
二、在线日志模板提取过程,包括步骤:
(5)从日志文件中实时获取新产生的一条日志记录,并对其进行预处理,以得到预处理后的日志记录;然后对预处理后的日志记录进行向量化处理,以得到向量;
(6)采用步骤(2)中的聚类算法所使用的距离度量方法计算步骤(5)得到的向量与步骤(4)得到的各个模板向量tv i 的距离;
(7)从步骤(6)得到的所有距离中找出最小距离,并判断该最小距离是否大于预定的阈值τ d ,如果是则进入步骤(8),否则进入步骤(9);步骤(7)中的预定阈值τ d 的取值为步骤(4)中得到的所有d_max i 中的最大值乘以系数λ,其中λ∈[1, 1.5];
(8)将该日志记录本身作为一个新的模板,并对该模板执行与步骤(4)中相同的处理,过程结束;
(9)找出步骤(7)中得到的最小距离所对应的模板向量tv closest ,再找出该模板向量tv closest 所对应的模板t closest ,然后计算步骤(5)中预处理后的日志记录与该模板t closest 之间的相似度s,并判断s是否大于预定的阈值τ s ,如果是,则t closest 就是该日志记录的模板,过程结束,否则进入步骤(10);
(10)用通配符替代步骤(9)中得到的日志模板t closest 与步骤(5)中预处理后的日志记录之间的不同部分,从而得到更新后的日志模板,再对更新后的日志模板进行向量化处理,以得到更新的模板向量,然后用该更新的模板向量替换原始的模板向量tv closest 并重新计算对应的向量簇C closest 中的各个向量与更新的模板向量之间的距离并找出最大距离d_ max closest
2.根据权利要求1所述的日志模板提取方法,其特征在于,
步骤(1)中的预处理过程包括去掉时间戳和剔除重复的日志记录;
步骤(5)中的预处理过程仅包括去掉时间戳。
3.根据权利要求1所述的日志模板提取方法,其特征在于,
步骤(2)和(5)中向量化处理过程完全相同;
步骤(4)和(10)中向量化处理过程完全相同,其中日志模板中的通配符不作为单词参与向量化处理。
4.根据权利要求1所述的日志模板提取方法,其特征在于,步骤(6)中,当前述的向量化处理过程使用的是词袋模型时,在计算距离之前先通过在tv i 后面补0的方式使各个模板向量tv i 的维度与新单词表的长度相等。
5.根据权利要求1所述的日志模板提取方法,其特征在于,步骤(9)中,相似度s是步骤(5)中预处理后的日志记录与模板t closest 的最长公共单词子序列所包含的单词数与预处理后的日志记录所包含的单词数的比值,预定的阈值τ s 的取值在0.4到0.8之间。
6.一种基于向量化的日志模板提取系统,其特征在于,包括:
第一模块,用于从预先收集的日志文件中获取所有日志记录,对其进行预处理,以得到预处理后的所有日志记录;
第二模块,用于对预处理后的所有日志记录进行向量化处理,以得到向量集合,并对得到的向量集合进行聚类,从而将该向量集合划分成多个向量簇C 1 , C 2 , …, C m ,其中m表示聚类操作所得到的簇的总个数;
第三模块,用于对第二模块得到的每个向量簇C i ,找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合L i ,提取出其中所有日志记录的最长公共单词子序列,并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分,从而得到该日志记录集合L i 的模板t i ,其中i∈[1, m];
第四模块,用于对第三模块得到的每个日志模板t i 进行向量化处理,将向量化后的结果tv i 称为模板向量,然后计算对应的向量簇C i 中的各个向量与该模板向量tv i 的距离并找出最大距离d_max i
第五模块,用于从日志文件中实时获取新产生的一条日志记录,并对其进行预处理,以得到预处理后的日志记录;然后对预处理后的日志记录进行向量化处理,以得到向量;
第六模块,用于采用第二模块的聚类算法所使用的距离度量方法计算第五模块得到的向量与第四模块得到的各个模板向量tv i 的距离;
第七模块,用于从第六模块得到的所有距离中找出最小距离,并判断该最小距离是否大于预定的阈值τ d ,如果是则进入第八模块,否则进入第九模块;第七模块中的预定阈值τ d 的取值为第四模块中得到的所有d_max i 中的最大值乘以系数λ,其中λ∈[1, 1.5];
第八模块,用于将该日志记录本身作为一个新的模板,并对该模板执行与第四模块相同的处理,过程结束;
第九模块,用于找出第七模块得到的最小距离所对应的模板向量tv closest ,再找出该模板向量tv closest 所对应的模板t closest ,然后计算第五模块预处理后的日志记录与该模板t closest 之间的相似度s,并判断s是否大于预定的阈值τ s ,如果是,则t closest 就是该日志记录的模板,过程结束,否则进入第十模块;
第十模块,用于用通配符替代第九模块得到的日志模板t closest 与第五模块预处理后的日志记录之间的不同部分,从而得到更新后的日志模板,再对更新后的日志模板进行向量化处理,以得到更新的模板向量,然后用该更新的模板向量替换原始的模板向量tv closest 并重新计算对应的向量簇C closest 中的各个向量与更新的模板向量之间的距离并找出最大距离d_max closest
CN201910431788.4A 2019-05-23 2019-05-23 一种基于向量化的日志模板提取方法和系统 Active CN110175158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910431788.4A CN110175158B (zh) 2019-05-23 2019-05-23 一种基于向量化的日志模板提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910431788.4A CN110175158B (zh) 2019-05-23 2019-05-23 一种基于向量化的日志模板提取方法和系统

Publications (2)

Publication Number Publication Date
CN110175158A CN110175158A (zh) 2019-08-27
CN110175158B true CN110175158B (zh) 2020-11-10

Family

ID=67691910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910431788.4A Active CN110175158B (zh) 2019-05-23 2019-05-23 一种基于向量化的日志模板提取方法和系统

Country Status (1)

Country Link
CN (1) CN110175158B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879802A (zh) * 2019-10-28 2020-03-13 同济大学 一种日志模式提取及匹配方法
CN110888849B (zh) * 2019-11-06 2022-07-22 国网上海市电力公司 一种在线日志解析方法、系统及其电子终端设备
CN111240942A (zh) * 2019-12-02 2020-06-05 华为技术有限公司 日志异常检测方法及装置
CN110990353B (zh) * 2019-12-11 2023-10-13 深圳证券交易所 日志提取方法、日志提取装置及存储介质
CN111143312A (zh) * 2019-12-24 2020-05-12 广东电科院能源技术有限责任公司 一种电力日志的格式解析方法、装置、设备和存储介质
CN111538639B (zh) * 2020-04-29 2023-08-18 湖南大学 一种日志解析方法
US20210349895A1 (en) * 2020-05-05 2021-11-11 International Business Machines Corporation Automatic online log template mining
CN112068979B (zh) * 2020-09-11 2021-10-08 重庆紫光华山智安科技有限公司 一种业务故障确定方法及装置
CN112463933A (zh) * 2020-12-14 2021-03-09 清华大学 系统日志模板的在线提取方法和装置
CN113535955B (zh) * 2021-07-16 2022-10-28 中国工商银行股份有限公司 一种日志快速归类方法及装置
CN115017268B (zh) * 2022-08-04 2022-10-11 北京航空航天大学 一种基于树结构的启发式日志抽取方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468677B (zh) * 2015-11-13 2019-11-19 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
CN105653444B (zh) * 2015-12-23 2018-07-13 北京大学 基于互联网日志数据的软件缺陷故障识别方法和系统
US10296849B2 (en) * 2017-02-15 2019-05-21 Microsoft Technology Licensing, Llc Member clustering with equi-sized partitions

Also Published As

Publication number Publication date
CN110175158A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN110175158B (zh) 一种基于向量化的日志模板提取方法和系统
WO2021088385A1 (zh) 一种在线日志解析方法、系统及其电子终端设备
CN109981625B (zh) 一种基于在线层次聚类的日志模板抽取方法
CN110457405B (zh) 一种基于血缘关系的数据库审计方法
CN110633371A (zh) 一种日志分类方法及系统
CN114818643B (zh) 一种保留特定业务信息的日志模板提取方法及装置
CN112926045B (zh) 一种基于逻辑回归模型的群控设备识别方法
CN103324929B (zh) 基于子结构学习的手写中文识别方法
CN111435343B (zh) 计算机系统日志模板的自动生成和在线更新方法与系统
CN110659175A (zh) 日志的主干提取方法、分类方法、设备及存储介质
Li et al. Historical Chinese character recognition method based on style transfer mapping
CN110738047B (zh) 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统
CN110347827B (zh) 面向异构文本运维数据的事件提取方法
CN113723542A (zh) 一种日志聚类处理方法及系统
CN112685374B (zh) 日志分类方法、装置及电子设备
CN112417893A (zh) 一种基于语义层次聚类的软件功能需求分类方法及系统
CN112882997B (zh) 一种基于N-gram与频繁模式挖掘的系统日志解析方法
Dwiandriani et al. Fingerprint clustering algorithm for data profiling using pentaho data integration
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及系统
CN111538839A (zh) 一种基于杰卡德距离的实时文本聚类方法
CN113064597B (zh) 一种冗余代码的识别方法、装置和设备
CN111813935B (zh) 一种基于层次狄利克雷多项分配模型的多源文本聚类方法
CN113535955B (zh) 一种日志快速归类方法及装置
CN111813934B (zh) 一种基于dma模型和特征划分多源文本主题模型聚类方法
CN114547316B (zh) 凝聚型层次聚类算法优化系统、方法、设备、介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant