CN111459964B

CN111459964B - 一种面向模板基于Word2vec的日志异常检测方法及装置

Info

Publication number: CN111459964B
Application number: CN202010211712.3A
Authority: CN
Inventors: 王进; 唐杨宁; 何施茗; 赵长庆; 曹敦
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-12-01
Anticipated expiration: 2040-03-24
Also published as: CN111459964A

Abstract

本发明公开了一种面向模板基于Word2vec的日志异常检测方法及装置，本发明方法包括以下步骤：对原始日志进行预处理得到日志模板，对日志模板进行切割，得到日志序列；基于Word2vec求取日志模板的特征向量，其中以日志模板的ID序号作为Word2vec的输入；根据日志模板的特征向量求取日志序列的特征向量；将日志序列的特征向量进行机器学习得到异常检测模型并根据异常检测模型进行检测。本发明考虑从Word2vec处理对象为模板入手，能够减少训练数据规模。而且本发明对原始日志进行了预处理，通过预处理减少日志异常检测所消耗的时间以避免影响最终异常检测结果。

Description

一种面向模板基于Word2vec的日志异常检测方法及装置

技术领域

本发明涉及日志异常检测技术领域，特别涉及一种面向模板基于Word2vec的日志异常检测方法及装置。

背景技术

目前，将词作为Word2vec(自然语言处理中一种产生词向量的语言表征模型)处理对象的日志序列(表示为在一段时间内系统按时间顺序产生的日志事件，由窗口对原始日志进行切分而得到)异常检测的步骤如下：首先将原始日志作为输入，使用Word2vec将原始日志中的每个单词映射到向量空间，使每个单词都有其相应的坐标，然后将日志事件(反映系统进行操作的消息)的坐标由该事件中所有单词坐标的质心来表示，日志序列由该序列中的所有日志事件的质心来表示，从而将形成日志序列的特征向量，最后采用机器学习判断日志序列是否异常。

但该方法还存在有以下缺陷：

(1)该方法使每一个词在向量空间中都有其相应的空间坐标，相关的词会靠近，互不相关的词在空间中距离更远，但是日志序列的特征向量由单词向量表示需要经过两次求质心操作才能得到，即通过对日志事件中的单词求一次质心得到日志事件的坐标，对日志序列中的日志事件求一次质心得到日志序列坐标。因此该方法的日志序列特征向量的表示就会存在偏差，从而影响最终异常检测的结果；其次由于系统日志序列的规模很大，进行训练时，需要针对每一个单词进行，因此计算复杂度也较高。

(2)词作为Word2vec处理对象的日志序列异常检测，其是直接将原始日志作为输入，没有对原始日志进行预处理。直接使用原始日志作为输入的缺陷有：首先，当原始日志中部分数据丢失时，使得某些日志消息不完整不能充分体现该事件所表达的内容；其次，原始日志存在部分冗余信息，以BGL数据集为例，每一条日志消息包含了时间戳，日期，结点，时间，重复结点，消息类型，组件(消息产生位置)，消息等级，语句内容等，这些不完整日志消息和冗余信息将影响日志异常检测的结果。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供一种面向模板基于Word2vec的日志异常检测方法及装置。

根据本发明的实施例，提供了一种面向模板基于Word2vec的日志异常检测方法，包括以下步骤：

对原始日志进行预处理得到日志模板，对所述日志模板进行切割，得到日志序列；

基于Word2vec求取所述日志模板的特征向量，其中以所述日志模板的ID序号作为所述Word2vec的输入；

根据所述日志模板的特征向量求取所述日志序列的特征向量；

将所述日志序列的特征向量进行机器学习得到异常检测模型并根据所述异常检测模型进行检测。

根据本发明的一些实施例，所述基于Word2vec求取所述日志模板的特征向量，具体包括：

基于Word2vec中的CBOW模型或Skip-gram模型求取所述日志模板的特征向量。

根据本发明的一些实施例，所述根据所述日志模板的特征向量求取所述日志序列的特征向量，具体包括：

求取所述日志序列中所有所述日志模板的特征向量的质心，得到日志序列的特征向量。

对所述日志模板进行赋权处理，得到所述日志序列的特征向量。

根据本发明的一些实施例，使用随机森林模型作为机器学习对象。

根据本发明的实施例，提供了一种面向模板基于Word2vec的日志异常检测装置，包括：预处理模块、模板特征提取模块、日志序列特征提取模块以及检测模块；

所述预处理模块用于对原始日志进行预处理得到日志模板，对所述日志模板进行切割，得到日志序列；

所述模板特征提取模块用于基于Word2vec求取所述日志模板的特征向量，其中以所述日志模板的ID序号作为所述Word2vec的输入；

所述日志序列特征提取模块用于根据所述日志模板的特征向量求取所述日志序列的特征向量；

所述检测模块用于将所述日志序列的特征向量进行机器学习得到异常检测模型并根据所述异常检测模型进行检测。

根据本发明的实施例，提供了一种面向模板基于Word2vec的日志异常检测设备，包括至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器；存储器存储有可被至少一个控制处理器执行的指令，指令被至少一个控制处理器执行，以使至少一个控制处理器能够执行如上所述的一种面向模板基于Word2vec的日志异常检测方法。

根据本发明的实施例，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上所述的一种面向模板基于Word2vec的日志异常检测方法。

本发明实施例提供的一种面向模板基于Word2vec的日志异常检测方法及装置，具体包括以下有益效果：

现有技术中是针对词作为Word2vec处理对象，形成的日志序列特征向量需要经过两次求质心操作，而本方法是针对于模板作为Word2vec处理对象，因此形成日志序列特征向量只需要经过一次求质心操作就可以得到，减少了训练数据规模。其次，现有技术是直接使用原始日志不经过预处理，直接使用原始日志会增加系统进行异常检测的时间复杂度，本方法首先对原始日志进行了预处理，将不完整的日志消息和冗余信息进行了过滤，因此能够提高日志异常检测的效率。

附图说明

下面结合附图和实施例对本发明进一步地说明；

图1为本发明实施例提供的一种面向模板基于Word2vec的日志异常检测方法的流程示意图；

图2为本发明实施例提供的预处理结果的示意图；

图3为本发明实施例提供的CBOW模型的示意图；

图4为本发明实施例提供的一种面向模板基于Word2vec的日志异常检测方法与现有技术的对照示意图；

图5为使用质心的方法进行异常检测的过程示意图；

图6为本发明实施例提供的F1分数的对照示意图；

图7为本发明实施例提供的AUC分数的对照示意图；

图8为本发明实施例提供的训练模型至异常检测总时间的对照示意图；

图9为本发明实施例提供的一种面向模板基于Word2vec的日志异常检测装置的结构示意图；

图10为本发明实施例提供的一种面向模板基于Word2vec的日志异常检测设备的结构示意图。

具体实施方式

下面将结合附图，对本公开实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。需要说明的是，在不冲突的情况下，本公开实施例及实施例中的特征可以相互组合。另外，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本公开的每个技术特征和整体技术方案，但其不能理解为对本公开保护范围的限制。

参照图1，本发明的一个实施例，提供了一种面向模板基于Word2vec的日志异常检测方法，包括以下步骤：

S100、对原始日志进行预处理得到日志模板，对日志模板进行切割，得到日志序列；

S200、基于Word2vec求取日志模板的特征向量，其中以日志模板的ID序号作为Word2vec的输入；

S300、根据日志模板的特征向量求取日志序列的特征向量；

S400、将日志序列的特征向量进行机器学习得到异常检测模型并根据异常检测模型进行检测。

具体说明如下：

步骤S100中预处理是用于将非结构化的日志消息变为结构化的日志消息，即将日志消息中的变量部分用通配符进行替代，而常量部分保持不变，这种形式就称为模板形式。预处理方法可使用Drain的日志解析方法，由于Drain方法和对日志模板进行切割，得到日志序列属于本领域公知，此处不再细述。

例如：

-1117848119 2005.06.03 R16-M1-N2-C:J17-U01 2005-06-03-18.21.59.871925R16-M1-N2-C:J17-U01 RAS KERNEL INFO CE sym 2,at0x0b85eee0,mask 0x05；

以上为一条日志消息，对其每一部分进行划分，其日志内容的组成如图2所示，日志事件就是其模板内容。在图2中，左列是每一段信息代表的内容，预处理能够去掉冗余信息和不必要的信息，即去掉那些不能完整切分成图2中结构组成的日志消息，避免那些日志消息影响最后的异常检测结果。

再例如：

-1117838978 2005.06.03 R02-M1-NO-C:J12-U11 2005-06-03-19.49.38.026704R02-M1-NO-C:J12-U11 RAS KERNEL INFO instruction cache parity error corrected；

-1117976658 2005.06.05 R36-M1-N8-C:J17-U01 2005-06-05-06.04.18.406158R36-M1-N8-C:J17-U01 RAS KERNEL INFO generating core.7828；

KERNDTLB 1118537694 2005.06.11 R30-M0-N9-C:J16-U01 2005-06-11-17.54.54.024829 R30-MO-N9-C:J16-U01 RAS KERNEL FATAL data TLB errorinterrupt；

以上为四条日志消息，其中，在时间戳之前的消息为该日志的异常标签，即判断该条日志消息是否为异常日志。只有当该位置的内容表示为“-”时，即表示为正常的日志消息。其它内容则表示该条日志消息为异常日志消息。经过步骤S100后得到的结果如下表1和表2所示；每一个日志模板都有其唯一的日志事件ID序号。

表1

表2

日志序列的表示形式由['CE sym 2,at0x0b85eee0,mask 0x05','instructioncache parity error corrected','generating core.7828','data TLB errorinterrupt','generating core.7828','CE sym 2,at0x0b85eee0,mask 0x05']变为了由模板的ID序号表示的形式['E1','E2','E3','E4','E3','E1']。其中日志序列是由窗口对日志模板进行切分而得到的。

由于Word2vec是一种将词转换为向量的方法，将模板的ID序号作为Word2vec的输入，就减少了输入的长度。假设一个日志序列为['FATAL data TLB error interrupt','instruction cache parity error corrected']，现有技术经过Word2vec处理后得到每一个词的坐标，'FATAL data TLB error interrupt'这句话(日志事件)的坐标就是由其组成的单词求质心得到，而日志序列则需要对这两个日志事件求质心得到。而当日志序列的表示形式为模板的ID序号时，例如为['E1','E2']时，经过Word2vec训练后，就可以得到E1和E2的坐标，然后可以直接对其求质心得到日志序列的坐标。因此相较于Word2vec处理的现有技术，省略了一次求取质心的操作。

步骤S200基于Word2vec得到模板向量的过程如下所示：

这里Word2vec分为两种模型，即Skip-gram(Continuous skip-gram Model)模型与CBOW(Continuous Bag-of-Words Model)模型，其中CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是特定的一个词的词向量，Skip-Gram模型和CBOW的思路相反，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。本实施例中主要以CBOW模型为例进行说明：

CBOW模型包含三层，输入层，投影层，输出层，如图3所示；

假设，语料为：Idrink coffee everyday，需得到coffee单词的坐标，可通过I，drink，every,day这四个单词的来得到其坐标。

若将日志序列中的模板的ID序号形式作为Word2vec输入，例如['E1','E2','E3','E4','E3','E1']，能得到每个日志事件对应模板的坐标，这里的E1至E4均为模板的ID序号，即将日志事件中的内容用模板的ID序号来替代。

步骤S300中求取日志序列的特征向量，可以采用以下两种方式进行：

第一、求取日志序列中所包含日志模板的特征向量的质心，得到日志序列的特征向量。

如图5所示，由于Word2vec的处理对象为模板，因此可得到每一个模板的空间向量。使用Word2vec得到句向量时，是通过对句中所有的词求质心得到句向量，因此Word2vec可以通过对所有模板求质心得到日志序列的特征向量，具体的求质心的公式如下：

p(l)为模板的向量，l为日志事件，f为日志序列；

第二、对模板进行赋权，得到日志序列的特征向量。

这里可使用最常见的赋权方法：TF-IDF(term frequency-inverse documentfrequency，词频-逆文本频率)。TF-IDF是信息检索的标准度量，与重心方法相比，模板在日志序列中的频率要高。也就是说，在计算日志序列的平均位置时，一个常见模板的权重将比稀有模板小。

步骤S400可选取随机森林模型作为机器学习的对象，将求出的日志序列的特征向量作为输入，进行学习，最终得到训练完成后的异常检测模型，能够进行异常检测。由于特征向量的机器学习是本领域的公知，此处不再细述。

如图4所示，本实施例与现有技术中不同之处在于：

由于现有技术中是针对词作为Word2vec的处理对象，形成的日志序列特征向量需要经过两个次求质心操作，而本方法是针对于模板作为Word2vec的处理对象，因此形成日志序列特征向量只需要经过一次求质心操作就可以得到，减少了训练数据规模。其次，现有技术是直接使用原始日志不经过预处理，直接使用原始日志会增加系统进行异常检测的时间复杂度，本方法首先对原始日志进行预处理，将非结构化的日志消息转化为结构化日志消息，将不完整的日志消息和冗余信息进行了过滤，因此本实施例方法能够提高日志异常检测的效率。

假设日志序列的个数为10，每个日志序列中包含的日志事件个数为100，每个日志事件中的单词个数均为10(日志事件长度为10-102)，现有技术以词作为处理对象进行训练时，读取的数据大小为10×100×10，也就是说序列数量*事件个数*单词的大小为10×100×10，由于Word2vec的处理对象是单词，因此需要得到日志序列的特征向量，首先需要对日志事件中的单词求取质心得到日志事件的特征向量，再对日志序列中的所有日志事件求取质心得到日志序列特征向量。本实施例方法采用模板(将日志消息中的变量由通配符进行替代)作为处理对象，读取的数据大小为10×100，即日志序列*日志模板，这样所读取的数据将会比现有技术读取的数据规模至少减少了10倍。本实施例方法以模板作为处理对象，在使用Word2vec进行日志序列特征向量求取时，可以少进行一次求取质心操作，这样不仅增加最终异常检测的准确性，而且减少了训练数据的规模。

本实施例方法与现有技术的实验结果对比如图6至图8所示；

实验平台：Baidu AI Studio，GPU:Tesla V100.Video Mem：16GB.Intel(R)Xeon(R)Gold 6148CPU：8core.RAM：32GB.Disk：100GB；

数据集：BGL数据集；

评价指标：F1分数、AUC分数，从训练Word2vec模型至异常检测所消耗的时间。

BGL数据集是BLUEGENE/L超级计算机记录的系统消息，该数据集具有4747963条日志消息，其中标记的异常日志为348460条，数据集的大小为708M。

参照图9，本发明的一个实施例，提供了一种面向模板基于Word2vec的日志异常检测装置，包括：预处理模块、模板特征提取模块、日志序列特征提取模块以及检测模块；

预处理模块用于对原始日志进行预处理得到日志模板，对日志模板进行切割，得到日志序列；

模板特征提取模块用于基于Word2vec求取日志模板的特征向量，其中以日志模板的ID序号作为Word2vec的输入；

日志序列特征提取模块用于根据日志模板的特征向量求取日志序列的特征向量；

检测模块用于将日志序列的特征向量进行机器学习得到异常检测模型并根据异常检测模型进行检测。

由于本装置实施例与上述方法实施例是基于相同的发明构思，因此上述方法实施例的相关内容同样适用于装置实施例，此处不再细述。

参照图10，本发明实施例还提供了一种面向模板基于Word2vec的日志异常检测设备，该面向模板基于Word2vec的日志异常检测设备可以是任意类型的智能终端，例如手机、平板电脑、个人计算机等。

具体地，该面向模板基于Word2vec的日志异常检测设备包括：一个或多个控制处理器和存储器，图10中以一个控制处理器为例。控制处理器和存储器可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中的面向模板基于Word2vec的日志异常检测设备对应的程序指令/模块，控制处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而实现上述方法实施例的一种面向模板基于Word2vec的日志异常检测方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储产生的数据。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于控制处理器远程设置的存储器，这些远程存储器可以通过网络连接至该面向模板基于Word2vec的日志异常检测设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个控制处理器执行时，执行上述方法实施例中的一种面向模板基于Word2vec的日志异常检测方法，例如，执行以上描述的图1中的方法步骤S100至S400。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，被图10中的一个控制处理器执行，可使得上述一个或多个控制处理器执行上述方法实施例中的一种面向模板基于Word2vec的日志异常检测方法，例如，执行以上描述的图1中的方法步骤S100至S400。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种面向模板基于Word2vec的日志异常检测方法，其特征在于，包括以下步骤：

对原始日志进行预处理得到日志模板，对所述日志模板进行切割，得到日志序列；所述日志模板的模板形式为所述日志消息中的变量部分用通配符进行替代，而常量部分保持不变；

基于Word2vec中的CBOW模型或Skip-gram模型求取所述日志模板的特征向量，其中以所述日志模板的ID序号作为所述Word2vec的输入；

求取所述日志序列中所有所述日志模板的特征向量的质心或对所述日志模板进行赋权处理，得到所述日志序列的特征向量，其中，求取所述日志序列中所有所述日志模板的特征向量的质心包括：对所述日志模板的ID序号输入所述Word2vec后的输出结果求质心，得到所述日志序列的特征向量，具体的求质心的公式如下：

p(l)为日志模板的特征向量，l为日志事件，f为日志序列；

2.根据权利要求1所述的一种面向模板基于Word2vec的日志异常检测方法，其特征在于：

使用随机森林模型作为机器学习对象。

3.一种面向模板基于Word2vec的日志异常检测装置，其特征在于，包括：预处理模块、模板特征提取模块、日志序列特征提取模块以及检测模块；

所述预处理模块用于对原始日志进行预处理得到日志模板，对所述日志模板进行切割，得到日志序列；所述日志模板的模板形式为所述日志消息中的变量部分用通配符进行替代，而常量部分保持不变；

所述模板特征提取模块用于基于Word2vec中的CBOW模型或Skip-gram模型求取所述日志模板的特征向量，其中以所述日志模板的ID序号作为所述Word2vec的输入；

所述日志序列特征提取模块用于求取所述日志序列中所有所述日志模板的特征向量的质心或对所述日志模板进行赋权处理，得到所述日志序列的特征向量，其中，求取所述日志序列中所有所述日志模板的特征向量的质心包括：对所述日志模板的ID序号输入所述Word2vec后的输出结果求质心，得到所述日志序列的特征向量，具体的求质心的公式如下：

p(l)为日志模板的特征向量，l为日志事件，f为日志序列；

4.一种面向模板基于Word2vec的日志异常检测设备，其特征在于：包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至2中任一项所述一种面向模板基于Word2vec的日志异常检测方法。

5.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至2中任一项所述一种面向模板基于Word2vec的日志异常检测方法。