CN110175158B

CN110175158B - 一种基于向量化的日志模板提取方法和系统

Info

Publication number: CN110175158B
Application number: CN201910431788.4A
Authority: CN
Inventors: 全哲; 肖桐; 周旭; 唐卓; 陈建国; 姜文君; 李肯立; 李克勤
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2020-11-10
Anticipated expiration: 2039-05-23
Also published as: CN110175158A

Abstract

本发明公开了一种基于向量化的日志模板提取方法，其结合了离线日志模板提取和在线日志模板提取两个过程，离线日志模板提取先将所有的日志记录向量化后映射到一个高维向量空间，然后对所有向量进行聚类以实现对日志记录的分类，最后从每个类中提取出其中所有日志记录的最长公共单词子序列并用通配符替代不同的部分以作为该类的模板，在线日志模板提取基于离线提取的结果，对随着时间推移新产生的日志记录逐条进行处理，计算其向量化后的结果与已知各模板向量化后的结果的距离。本发明能够解决现有日志模板提取方法存在的不适合处理大量日志、普适性差、复杂性比较高的技术问题。

Description

一种基于向量化的日志模板提取方法和系统

技术领域

本发明属于计算机数据挖掘领域，具体地说，涉及一种基于向量化的日志模板提取方法和系统。

背景技术

计算机系统在运行过程中产生的各种日志是获取计算机系统健康和操作状态的重要信息来源，计算机系统的管理员和安全分析员在计算机系统出现故障和安全事件时都非常依赖日志信息，日志为计算机系统异常和故障的诊断甚至预测提供了重要的信息支撑。然而，随着计算机系统规模的不断增长，其产生的日志的规模也在不断增长，这使得人工查看日志变得非常繁琐，而且容易出错。因此，自动日志分析成为一个非常重要的研究课题，受到了大量研究人员的关注。其中，如何提取日志模板是一个重要的研究点。

现有的日志模板提取方法主要是无监督类型的方法，常用的有：(1)基于频繁项集挖掘的方法，这类方法通过挖掘日志文件中的频繁项集(频繁出现的单词的集合)并结合聚类以生成日志模板；然而，这类方法中的集合管理代价即使在日志模板数量较少的情况下也比较高昂，因此不适合处理大量的日志；(2)迭代分割日志挖掘方法(见Makanju A,Zincir-Heywood A N,Milios E E.Clustering event logs using iterativepartitioning[C].Acm Sigkdd International Conference on Knowledge Discovery&Data Mining.DBLP,2009)，该方法先对日志记录集合进行三步划分(第一步按日志记录包含的符号的数量进行划分，第二步按符号的位置进行划分，第三步按两个符号之间的双射关系进行划分)以形成不同的日志记录簇，然后从每一个日志记录簇提取一个日志模板；但该方法同样存在问题，其以假设对应同一日志模板的所有日志记录具有相同的符号长度为先决条件，因此不具有普适性；(3)从源代码中提取日志打印格式作为日志模板的方法，该方法直接对相关系统的源代码进行分析，根据日志打印语句生成日志模板；但由于并不是所有的系统都允许访问源代码，因此该方法也不具有普适性；(4)在线日志模板提取方法，这类方法支持动态日志模板生成，克服了离线日志模板提取方法所存在的不能及时对日志记录进行分析以及模板更新代价高昂的缺陷，但是现有的该类方法以纯粹字符串的方式对日志记录进行处理，因而复杂性比较高。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于向量化的日志模板提取方法和系统，其目的在于，引入向量化的方式对日志记录进行处理，并结合离线日志模板提取和在线日志模板提取两个过程，解决现有日志模板提取方法存在的不适合处理大量日志、普适性差、复杂性比较高的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于向量化的日志模板提取方法，包括：

一、离线日志模板提取过程，包括步骤：

(1)从预先收集的日志文件中获取所有日志记录，对其进行预处理，以得到预处理后的所有日志记录。

(2)对预处理后的所有日志记录进行向量化处理，以得到向量集合，并对得到的向量集合进行聚类，从而将该向量集合划分成多个向量簇C₁,C₂,…,C_m，其中m表示聚类操作所得到的簇的总个数。

(3)对步骤(2)中得到的每个向量簇C_i，找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合L_i，提取出其中所有日志记录的最长公共单词子序列，并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分，从而得到该日志记录集合L_i的模板t_i，其中i∈[1,m]。

(4)对步骤(3)得到的每个日志模板t_i进行向量化处理，将向量化后的结果tv_i称为模板向量，然后计算对应的向量簇C_i中的各个向量与该模板向量tv_i的距离并找出最大距离d_max_i。

二、在线日志模板提取过程，包括步骤：

(5)从日志文件中实时获取新产生的一条日志记录，并对其进行预处理，以得到预处理后的日志记录；然后对预处理后的日志记录进行向量化处理，以得到向量。

(6)采用步骤(2)中的聚类算法所使用的距离度量方法计算步骤(5)得到的向量与步骤(4)得到的各个模板向量tv_i的距离。

(7)从步骤(6)得到的所有距离中找出最小距离，并判断该最小距离是否大于预定的阈值τ_d，如果是则进入步骤(8)，否则进入步骤(9)。

(8)将该日志记录本身作为一个新的模板，并对该模板执行与步骤(4)中相同的处理，过程结束。

(9)找出步骤(7)中得到的最小距离所对应的模板向量tv_closest，再找出该模板向量tv_closest所对应的模板t_closest，然后计算步骤(5)中预处理后的日志记录与该模板t_closest之间的相似度s，并判断s是否大于预定的阈值τ_s，如果是，则t_closest就是该日志记录的模板，过程结束，否则进入步骤(10)。

(10)用通配符替代步骤(9)中得到的日志模板t_closest与步骤(5)中预处理后的日志记录之间的不同部分，从而得到更新后的日志模板，再对更新后的日志模板进行向量化处理，以得到更新的模板向量，然后用该更新的模板向量替换原始的模板向量tv_closest并重新计算对应的向量簇C_closest中的各个向量与更新的模板向量之间的距离并找出最大距离d_max_closest。

优选地，步骤(1)中的预处理过程包括去掉时间戳和剔除重复的日志记录，步骤(5)中的预处理过程仅包括去掉时间戳。

优选地，步骤(2)和(5)中向量化处理过程完全相同，步骤(4)和(10)中向量化处理过程完全相同，日志模板中的通配符不作为单词参与向量化处理。

优选地，步骤(6)中，当前述的向量化处理过程使用的是词袋模型时，在计算距离之前先通过在tv_i后面补0的方式使各个模板向量tv_i的维度与新单词表的长度相等。

优选地，步骤(7)中的预定阈值τ_d的取值为步骤(4)中得到的所有d_max_i中的最大值乘以系数λ，其中λ∈[1,1.5]。

优选地，步骤(9)中，相似度s是步骤(5)中预处理后的日志记录与模板t_closest的最长公共单词子序列所包含的单词数与预处理后的日志记录所包含的单词数的比值，预定的阈值τ_s的取值在0.4到0.8之间。

按照本发明的另一方面，提供了一种基于向量化的日志模板提取系统，包括：

第一模块，用于从预先收集的日志文件中获取所有日志记录，对其进行预处理，以得到预处理后的所有日志记录。

第二模块，用于对预处理后的所有日志记录进行向量化处理，以得到向量集合，并对得到的向量集合进行聚类，从而将该向量集合划分成多个向量簇C₁,C₂,…,C_m，其中m表示聚类操作所得到的簇的总个数。

第三模块，用于对第二模块得到的每个向量簇C_i，找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合L_i，提取出其中所有日志记录的最长公共单词子序列，并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分，从而得到该日志记录集合L_i的模板t_i，其中i∈[1,m]。

第四模块，用于对第三模块得到的每个日志模板t_i进行向量化处理，将向量化后的结果tv_i称为模板向量，然后计算对应的向量簇C_i中的各个向量与该模板向量tv_i的距离并找出最大距离d_max_i。

第五模块，用于从日志文件中实时获取新产生的一条日志记录，并对其进行预处理，以得到预处理后的日志记录；然后对预处理后的日志记录进行向量化处理，以得到向量。

第六模块，用于采用第二模块的聚类算法所使用的距离度量方法计算第五模块得到的向量与第四模块得到的各个模板向量tv_i的距离。

第七模块，用于从第六模块得到的所有距离中找出最小距离，并判断该最小距离是否大于预定的阈值τ_d，如果是则进入第八模块，否则进入第九模块。

第八模块，用于将该日志记录本身作为一个新的模板，并对该模板执行与第四模块相同的处理，过程结束。

第九模块，用于找出第七模块得到的最小距离所对应的模板向量tv_closest，再找出该模板向量tv_closest所对应的模板t_closest，然后计算第五模块预处理后的日志记录与该模板t_closest之间的相似度s，并判断s是否大于预定的阈值τ_s，如果是，则t_closest就是该日志记录的模板，过程结束，否则进入第十模块；

第十模块，用于用通配符替代第九模块得到的日志模板t_closest与第五模块预处理后的日志记录之间的不同部分，从而得到更新后的日志模板，再对更新后的日志模板进行向量化处理，以得到更新的模板向量，然后用该更新的模板向量替换原始的模板向量tv_closest并重新计算对应的向量簇C_closest中的各个向量与更新的模板向量之间的距离并找出最大距离d_max_closest。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用了步骤(2)、(4)、(5)、(6)、(8)、(10)，这些步骤将日志记录和日志模板向量化并通过计算两个向量之间的距离来度量两条日志记录之间或者日志记录与日志模板之间的相似性，具有较低的复杂性和计算量，因此本发明运行时间短、资源消耗小，适合对大量日志进行处理。

(2)由于本发明的方法不需要经由源代码获取日志模板，也不需要对日志格式有特殊要求，因此本发明具有较好的普适性。

(3)本发明结合离线日志模板提取和在线日志模板提取，所以既可以充分利用历史日志信息，也可以根据需要动态生成新的日志模板。

附图说明

图1是本发明基于向量化的日志模板提取的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了便于理解本发明，以下首先对本发明出现的技术术语进行解释和说明：

单词：将日志记录字符串按空白字符和标点符号分割后得到的所有子字符串都称为单词，空白字符包括空格符、制表符、换行符、回车符等。如日志记录“Interfaceeth0down”包括三个单词：Interface、eth0、down。

最长公共单词子序列：在指定的所有日志记录字符串中都有出现、而且出现的先后次序一致的所有单词所构成的子序列，这些单词不需要在日志记录字符串中连续出现，可以理解为最长公共子序列的单词版本，因为此处进行比较的基本单元不是字符，而是单词。如两条日志记录“Interface eth0down”和“Interface eth1down”的最长公共单词子序列为“Interface down”。

本发明包括离线日志模板提取和在线日志模板提取两个过程。

离线日志模板提取先将所有的日志记录向量化后映射到一个高维向量空间，然后对所有向量进行聚类以实现对日志记录的分类，最后从每个类中提取出其中所有日志记录的最长公共单词子序列并用通配符替代不同的部分以作为该类日志记录的模板。

在线日志模板提取基于离线日志模板提取的结果，对随着时间推移新产生的日志记录逐条进行处理，分为三种情况：(1)某个日志模板能完全匹配该日志记录，无需额外操作；(2)没有日志模板能完全匹配该日志记录，但某个日志模板能匹配该日志记录的绝大部分，则更新该日志模板使其能匹配该日志记录；(3)该日志记录与所有日志模板的差别都比较大，则为该日志记录生成一个新的日志模板。

如图1所示，本发明基于向量化的日志模板提取方法包括：

一、离线日志模板提取过程：

具体而言，本步骤中的预处理过程包括去掉时间戳和剔除重复的日志记录两项操作。

时间戳之所以可以去掉是因为时间戳是随时间变化的，可以将其排除在日志模板之外。去掉时间戳不仅可以避免时间戳对日志模板提取结果的影响，而且方便了剔除重复日志记录的操作，有利于减小开销。

剔除重复的日志记录是基于日志文件中往往有大量日志记录除时间戳以外完全相同的事实，本操作的意义在于可以避免对这些重复日志记录的处理开销。

具体而言，本步骤采用字符串向量化方法(如词袋模型)将每条日志记录转换为一个向量，所有的向量构成向量集合。

以K均值聚类为例，先依据先验知识将K设置为一个比实际日志模板数小的数值，进行一次K均值聚类，聚类结束后计算各个簇的均方误差，对均方误差大于预定阈值τ_mse的各个簇分别进行一次K＝2的K均值聚类，聚类结束后计算新产生的簇的均方误差，再对均方误差大于预定阈值τ_mse的各个簇分别进行一次K＝2的K均值聚类，重复迭代过程，直到得到的所有簇的均方误差都不大于预定阈值τ_mse为止。预定阈值τ_mse的取值与采用的向量化方法相关，通过对不同值的多次试验选取一个聚类效果能够满足实际要求的值。

例如，针对两条日志记录“Interface eth0down”和“Interface eth1down”构成的集合而言，最长公共单词子序列为“Interface down”，用通配符*替代每条日志记录中不在最长公共单词子序列中出现的部分，本步骤最终得到的日志模板是“Interface*down”。

本步骤的向量化处理过程与步骤(2)中的相同，但是日志模板中的通配符不作为单词参与向量化处理；向量簇C_i中的各个向量与模板向量tv_i的距离的计算方法采用步骤(2)中的聚类算法所使用的距离度量方法。

二、在线日志模板提取过程：

本步骤中的预处理只去掉时间戳，向量化处理的过程与步骤(2)中的完全相同。

具体而言，本步骤得到的距离可以是欧式距离。

当前述的向量化处理过程使用的是词袋模型时，由于步骤(5)得到的日志记录中可能出现新的单词，所以在计算距离之前先通过在tv_i后面补0的方式使各个模板向量tv_i的维度与新单词表的长度相等。

具体而言，本步骤的预定阈值τ_d的取值设置为步骤(4)中得到的所有d_max_i中的最大值乘以系数λ(λ∈[1,1.5])。

具体而言，因为此处的模板和日志记录相同，所以二者向量化后得到的向量之间的距离为0，因而此处的d_max_i等于0。

具体而言，s定义为步骤(5)中预处理后的日志记录与模板t_closest的最长公共单词子序列所包含的单词数与预处理后的日志记录所包含的单词数的比值，本步骤中预定的阈值τ_s的取值在0.4到0.8之间。

本步骤的向量化处理过程与步骤(4)中的完全相同。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于向量化的日志模板提取方法，其特征在于，包括：

一、离线日志模板提取过程，包括步骤：

（1）从预先收集的日志文件中获取所有日志记录，对其进行预处理，以得到预处理后的所有日志记录；

（2）对预处理后的所有日志记录进行向量化处理，以得到向量集合，并对得到的向量集合进行聚类，从而将该向量集合划分成多个向量簇C ₁ , C ₂ , …, C _m，其中m表示聚类操作所得到的簇的总个数；

（3）对步骤（2）中得到的每个向量簇C _i，找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合L _i，提取出其中所有日志记录的最长公共单词子序列，并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分，从而得到该日志记录集合L _i的模板t _i，其中i∈[1, m]；

（4）对步骤（3）得到的每个日志模板t _i进行向量化处理，将向量化后的结果tv _i称为模板向量，然后计算对应的向量簇C _i中的各个向量与该模板向量tv _i的距离并找出最大距离d_ max _i；

二、在线日志模板提取过程，包括步骤：

（5）从日志文件中实时获取新产生的一条日志记录，并对其进行预处理，以得到预处理后的日志记录；然后对预处理后的日志记录进行向量化处理，以得到向量；

（6）采用步骤（2）中的聚类算法所使用的距离度量方法计算步骤（5）得到的向量与步骤（4）得到的各个模板向量tv _i的距离；

（7）从步骤（6）得到的所有距离中找出最小距离，并判断该最小距离是否大于预定的阈值τ _d，如果是则进入步骤（8），否则进入步骤（9）；步骤（7）中的预定阈值τ _d的取值为步骤（4）中得到的所有d_max _i中的最大值乘以系数λ，其中λ∈[1, 1.5]；

（8）将该日志记录本身作为一个新的模板，并对该模板执行与步骤（4）中相同的处理，过程结束；

（9）找出步骤（7）中得到的最小距离所对应的模板向量tv _closest，再找出该模板向量tv _closest所对应的模板t _closest，然后计算步骤（5）中预处理后的日志记录与该模板t _closest之间的相似度s，并判断s是否大于预定的阈值τ _s，如果是，则t _closest就是该日志记录的模板，过程结束，否则进入步骤（10）；

（10）用通配符替代步骤（9）中得到的日志模板t _closest与步骤（5）中预处理后的日志记录之间的不同部分，从而得到更新后的日志模板，再对更新后的日志模板进行向量化处理，以得到更新的模板向量，然后用该更新的模板向量替换原始的模板向量tv _closest并重新计算对应的向量簇C _closest中的各个向量与更新的模板向量之间的距离并找出最大距离d_ max _closest。

2.根据权利要求1所述的日志模板提取方法，其特征在于，

步骤（1）中的预处理过程包括去掉时间戳和剔除重复的日志记录；

步骤（5）中的预处理过程仅包括去掉时间戳。

3.根据权利要求1所述的日志模板提取方法，其特征在于，

步骤（2）和（5）中向量化处理过程完全相同；

步骤（4）和（10）中向量化处理过程完全相同，其中日志模板中的通配符不作为单词参与向量化处理。

4.根据权利要求1所述的日志模板提取方法，其特征在于，步骤（6）中，当前述的向量化处理过程使用的是词袋模型时，在计算距离之前先通过在tv _i后面补0的方式使各个模板向量tv _i的维度与新单词表的长度相等。

5.根据权利要求1所述的日志模板提取方法，其特征在于，步骤（9）中，相似度s是步骤（5）中预处理后的日志记录与模板t _closest的最长公共单词子序列所包含的单词数与预处理后的日志记录所包含的单词数的比值，预定的阈值τ _s的取值在0.4到0.8之间。

6.一种基于向量化的日志模板提取系统，其特征在于，包括：

第一模块，用于从预先收集的日志文件中获取所有日志记录，对其进行预处理，以得到预处理后的所有日志记录；

第二模块，用于对预处理后的所有日志记录进行向量化处理，以得到向量集合，并对得到的向量集合进行聚类，从而将该向量集合划分成多个向量簇C ₁ , C ₂ , …, C _m，其中m表示聚类操作所得到的簇的总个数；

第三模块，用于对第二模块得到的每个向量簇C _i，找出与其中的每个向量对应的、预处理后的日志记录所构成的日志记录集合L _i，提取出其中所有日志记录的最长公共单词子序列，并用通配符替代每条日志记录中不在最长公共单词子序列中出现的部分，从而得到该日志记录集合L _i的模板t _i，其中i∈[1, m]；

第四模块，用于对第三模块得到的每个日志模板t _i进行向量化处理，将向量化后的结果tv _i称为模板向量，然后计算对应的向量簇C _i中的各个向量与该模板向量tv _i的距离并找出最大距离d_max _i；

第五模块，用于从日志文件中实时获取新产生的一条日志记录，并对其进行预处理，以得到预处理后的日志记录；然后对预处理后的日志记录进行向量化处理，以得到向量；

第六模块，用于采用第二模块的聚类算法所使用的距离度量方法计算第五模块得到的向量与第四模块得到的各个模板向量tv _i的距离；

第七模块，用于从第六模块得到的所有距离中找出最小距离，并判断该最小距离是否大于预定的阈值τ _d，如果是则进入第八模块，否则进入第九模块；第七模块中的预定阈值τ _d的取值为第四模块中得到的所有d_max _i中的最大值乘以系数λ，其中λ∈[1, 1.5]；

第八模块，用于将该日志记录本身作为一个新的模板，并对该模板执行与第四模块相同的处理，过程结束；

第九模块，用于找出第七模块得到的最小距离所对应的模板向量tv _closest，再找出该模板向量tv _closest所对应的模板t _closest，然后计算第五模块预处理后的日志记录与该模板t _closest之间的相似度s，并判断s是否大于预定的阈值τ _s，如果是，则t _closest就是该日志记录的模板，过程结束，否则进入第十模块；

第十模块，用于用通配符替代第九模块得到的日志模板t _closest与第五模块预处理后的日志记录之间的不同部分，从而得到更新后的日志模板，再对更新后的日志模板进行向量化处理，以得到更新的模板向量，然后用该更新的模板向量替换原始的模板向量tv _closest并重新计算对应的向量簇C _closest中的各个向量与更新的模板向量之间的距离并找出最大距离d_max _closest。