CN114661544A

CN114661544A - 基于注意力机制层的大数据平台日志异常检测方法

Info

Publication number: CN114661544A
Application number: CN202210188714.4A
Authority: CN
Inventors: 卢思洋; 魏翔; 王明泉; 王志炜
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-24

Abstract

本发明提供了一种基于注意力机制层的大数据平台日志异常检测方法。该方法包括：通过大数据平台获取日志数据，将文本类型的日志数据转化为结构化的数字数据，生成一维的日志向量；对一维日志向量数据进行Logkey2vec编码，将一维日志向量映射到二维向量矩阵；构建基于注意力机制的CNN模型，使用日志数据的训练集训练基于注意力机制的CNN模型，将二维向量矩阵输入到训练好的基于注意力机制的CNN模型中，所述基于注意力机制的CNN模型输出所述日志数据中的日志条目的正常或者异常的类别预测结果信息。本发明方法利用大数据平台产生的多余日志，避免了实时监控系统的高资源占用，结合了CNN可以捕捉更多信息的优点，同时兼顾了准确性、稳定性、高效性。

Description

基于注意力机制层的大数据平台日志异常检测方法

技术领域

本发明涉及日志异常检测技术领域，尤其涉及一种基于注意力机制层的大数据平台日志异常检测方法。

背景技术

目前针对大数据平台日志的异常检测方法主要分三种，分别是：基于统计(Statistical-based)的异常检测、基于传统机器学习(Non-Deep Learning-based)的异常检测以及基于深度学习(Deep Learning-based)的异常检测。其中基于统计的异常检测方法不需要训练和学习过程，主要使用统计方法对大数据平台产生的日志进行异常检测，例如主成分分析法(Principal Component Analysis，PCA)和因子分析(Factor Analysis，FA)等统计学方法。在基于传统机器学习的异常检测方法中，有学者使用基于聚类的方法将系统中的日志分成多个聚类，在每一个聚类中选取具有代表性的日志进行人工检测；支持向量机(Support Vector Machine,SVM)和隐形马尔科夫链(Hidden Markov Model,HMM)是传统机器学习中比较常用的监督型方法，常用来做异常检测和错误预测。有学者通过利用SVM，RIPPER(一种基于规则的分类器)，以及一个制定化的KNN(K-Nearest Neighbors)方式来构建三个分类器进行错误分析。

深度神经网络作为有效的新型方法被引入日志分析领域，避免了传统日志分析方法的缺点。有学者尝试将深度学习模型应用到系统的异常日志检测中，并且取得了不错的效果。在基于深度学习的日志异常检测方法中，在线、实时的日志异常检测受益于基于时序的神经网络模型的应用，例如LSTM(Long Short-Term Memory)，RNN(Recurrent NeuralNetwork)。卷积神经网络(Convolutional Neural Networks，CNN)多用于离线检测，有学者实现了一种3D卷积模型的编码句子分类模型，通过三个不同大小的卷积核将每一卷积层与上一层中多个邻近的词语相连，从而捕捉更多的信息，在自然语言识别上取得了一定的突破。在离线日志分析中，有学者应用CNN模型在隐藏编码数据集的分类和识别中获得了好的性能。在加强神经网络的准确度方面，有学者提出了一种软注意力机制(Soft Attention)，其主要着重注意特征数据中相关单词或短句的识别，而不是注重整个特征数据集，提高了模型对特征学习的高效性。

日志数据通常含有丰富的语义信息，但是现有的研究中对日志数据的分析往往侧重于事件表示。有学者引入了词嵌入的原理，提出了一种简单有效的模板表示方法Template2Vec，可以准确的从日志模板中提取语义信息，并且保留了日志模板之间的语义关系，但是同时日志中许多单词的精确含义被忽视。

目前，现有技术中的针对大数据平台日志的异常检测方法的缺点包括：

基于统计的异常检测方法，不需要训练和学习过程，但是这类方法可能存在函数意义不明确、失效等问题。

基于统计的聚类的方法将系统中的日志分成多个聚类，在每一个聚类中选取具有代表性的日志进行人工检测，这虽然降低了工作量，但仍存在精度不高的问题。

采用基于传统机器学习的方法虽然可以避免统计方法中特征提取的非科学性并能取得更好的性能，但可能存在特征提取不精准、语义分析欠考虑等问题，并且在处理海量日志数据时，会花费大量的时间成本。传统机器学习方法如支持向量机(Support VectorMachine,SVM)和隐形马尔科夫链(Hidden Markov Model,HMM)可以避免特征提取的非科学性并能获得更好的性能，但是在处理大量数据集时，其表征能力仍有待提高。

发明内容

本发明的实施例提供了一种基于注意力机制层的大数据平台日志异常检测方法，以实现有效地对大数据平台日志进行异常检测。

为了实现上述目的，本发明采取了如下技术方案。

一种基于注意力机制层的大数据平台日志异常检测方法，包括：

通过大数据平台获取日志数据，对所述日志数据进行预处理，将文本类型的日志数据转化为结构化的数字数据，生成一维的日志向量；

对所述一维日志向量数据进行Logkey2vec编码，通过可学习的码本将所述一维日志向量映射到二维向量矩阵；

构建基于注意力机制的卷积神经网络CNN模型，使用日志数据的训练集训练所述基于注意力机制的CNN模型，得到训练好的基于注意力机制的CNN模型；

将所述二维向量矩阵输入到所述训练好的基于注意力机制的CNN模型中，所述基于注意力机制的CNN模型输出所述日志数据中的日志条目的正常或者异常的类别预测结果信息。

优选地，所述的通过大数据平台获取日志数据，对所述日志数据进行预处理，将文本类型的日志数据转化为结构化的数字数据，生成一维的日志向量，包括：

通过大数据平台获取原始的日志数据，对文本类型的日志数据进行预处理，将文本类型的日志数据转化为结构化的数字数据，一条日志文本由日志常量与数据组成，从日志文本的数据中将logkey提取出来，并将每个种类的logkey映射到唯一的数字编号，按照日志顺序组成新的结构化数据，生成一维的日志向量；

对所述一维的日志向量进行末尾填补或者裁剪处理，使所有的日志向量具有相同的长度。

优选地，所述的对所述一维日志向量数据进行Logkey2vec编码，通过可学习的码本将所述一维日志向量映射到二维向量矩阵，包括：

对所述一维日志向量数据进行Logkey2vec编码，通过可学习的码本将所述一维日志向量映射到二维向量矩阵，所述二维向量矩阵的宽度代表了每一个logkey映射为向量后的维度，所述二维向量矩阵的长度代表了logkey的数量，在卷积操作时，不割裂每个logkey向量中各个维度的含义，通过设置每种卷积核的长度来选择要同时进行卷积的logkey向量数量。

优选地，所述注意力机制包括日志常量注意力Logkey Attention和CNN过滤器注意力CNN-filter Attention。

优选地，所述的构建基于注意力机制的卷积神经网络CNN模型，使用日志数据的训练集训练所述基于注意力机制的CNN模型，得到训练好的基于注意力机制的CNN模型，包括：

构建基于注意力机制的CNN模型，在两个CNN模型中分别设置Logkey Attention结构与CNN-filter Attention结构，根据训练集数据中的日志数据生成一维的日志向量，对所述一维日志向量数据进行Logkey2vec编码，将所述一维日志向量映射到二维向量矩阵，将所述二维向量矩阵输入到两种分别设置了Logkey Attention结构与CNN-filterAttention结构的CNN模型进行训练，分别经过两种CNN模型运算，得到两种CNN模型的预测结果，将所述预测结果分别与已知的日志数据的给定标签进行对比，根据对比结果计算两种CNN模型的各项评价指标值，根据各项评价指标值调整两种CNN模型的内部参数。训练完成后，得到训练好的两种分别设置了Logkey Attention结构与CNN-filterAttention结构的CNN模型。

优选地，所述Logkey Attention结构由三个注意力层组成，令

代表经过卷积运算后得到的矩阵，其中m和n代表矩阵A的长宽维度，对于给定的矩阵A，将其分割为一个向量序列a₁,a₂...a_n，其中a_i代表A的第i行，Logkey Attention实现了向量a_i的加权缩放计算得到输出向量c_i的过程；

对于每一种不同的卷积结果A，其中输入向量a_i与输出向量c_i之间的关系均可表示为：

c_i＝λ_ia_i

每个输入i的attention权重计算为：

e_i＝ω^Ta_i

其中，ω是基于梯度下降对损失函数优化中的可学习参数，e_i是计算attention权重的中间过程值，由a_i计算得到e_i的过程由一个神经网络层实现，由e_i计算得到权重λ_i的过程由Softmax函数实现，计算得到的λ_i中的每一维度数值对应了输入向量a_i的每一维度权重，将输入向量与权重对应相乘，得到最终的加权向量c_i，使用平均池化对输出向量c_i所组成的输出矩阵C进行降维，将其转化为一维向量。

优选地，所述CNN-filter Attention结构关注每种CNN卷积结果之间的权重关系，首先对每种卷积核输出结果进行最大池化降维，获得降维后的一维向量a’_i，通过一层神经网络层计算每个a’_i对应的中间过程数值e’_i，再通过Softmax函数获得每个a’_i所对应的最终权重λ’_i，计算后，a’_i与λ’_i的数量相同，均等于之前操作中所使用的不同长度卷积核的种类数，将特征向量a’_i与权重λ’_i相乘，获得加权后的特征向量c’_i。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例方法利用大数据平台产生的多余日志，避免了实时监控系统的高资源占用，结合了CNN可以捕捉更多信息的优点，同时兼顾了准确性、稳定性、高效性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于注意力机制层的大数据平台日志异常检测方法的实现原理图；

图2为本发明实施例提供的一种Logkey Attention架构示意图；

图3为本发明实施例提供的一种CNN-filter Attention架构示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出了一种针对大数据平台日志的基于注意力机制层的日志异常检测方法，该方法结合日志编码和深度学习与注意力机制，实现对大数据平台日志的高精度异常检测。本发明实施例提出的基于注意力机制层的日志异常检测方法的实现原理图如图1所示，包括数据预处理、模型训练与评估部分。

在数据预处理过程中，通过大数据平台获取原始日志数据集后，对文本类型的日志数据进行预处理，将文本类型的日志数据转化为结构化的数字数据，使其能够被神经网络正确识别与输入。一条日志文本由日志常量(或日志键，即logkey)与对应的数据组成，虽然系统日志中会存在动态变化的数据，但出现的logkey种类总数是固定不变的。因此，可以将logkey提取出来，并将每个种类的logkey映射到唯一的数字编号，按照日志顺序组成新的结构化数据，生成一维的日志向量。此外，需通过对较短向量进行末尾填补、较长向量进行裁剪的方法，使所有向量具有相同的长度。然后，将具有相同长度的日志向量输入到模型训练与评估过程。

在模型训练与评估过程中，为了获得更丰富的logkey时空特性表征，首先对输入的一维日志向量数据进行Logkey2vec编码。在Logkey2vec编码中，输入的一维日志向量通过可学习的码本被映射到二维向量矩阵，该二维向量矩阵被输入到CNN(ConvolutionalNeural Networks，卷积神经网络)的卷积层中，以更好地学习潜在的日志时空关系信息。模型整体输出结果包括对日志条目的类别预测，分为“正常”与“异常”两类，而这些时空关系信息则辅助模型进行学习与预测。在CNN卷积处理时，可选择多组宽度与二维向量矩阵的宽度相吻合、而长度不同的卷积核同时进行卷积操作。这样做的原因是二维向量矩阵的宽度代表了每一个logkey映射为向量后的维度，而长度代表了logkey的数量；在卷积操作时，不能割裂每个logkey向量中各个维度的含义，但是可以通过设置每种卷积核的长度来选择要同时进行卷积的logkey向量数量。经过多组卷积核同时卷积操作后，生成多组不同大小的处理结果，即特征图(Feature Map)，实现了从不同尺度上获取潜在的日志时空信息。最后再加以结合，使网络更加全面细致地进行学习。

注意力机制(即Attention)在日志异常检测中的使用是本发明的主要创新点。为了筛选出日志数据中的关键信息，进一步提升模型异常检测的准确性，本发明提出了两种注意力模式，即Logkey Attention(日志常量注意力)与CNN-filter Attention(CNN过滤器注意力)。这两种注意力模式是相互独立的，均可单独应用于CNN的卷积过程中。通过在CNN卷积过程中设置并使用Logkey Attention或CNN-filer Attention结构，对比未使用此结构的常规CNN模型，能够获得更好的异常检测效果。

在模型的训练流程中，在两个常规CNN模型中分别设置Logkey Attention结构与CNN-filter Attention结构，并使用训练集数据对两个模型分别进行训练。输入的一维日志向量通过Logkey2vec编码后，分别经过两种架构运算，得到两种模型预测结果，并分别与已知的给定标签进行对比、训练其内部参数。训练完成后，内部参数即固定。

在模型评估过程中，使用测试集日志数据作为输入，分别通过参数固定的、设置有Logkey Attention结构与CNN-filter Attention结构的CNN模型，得到最终预测结果，并与已知的给定标签进行对比，计算两种CNN模型的各项评价指标值。

图2为本发明实施例提供的一种Logkey Attention架构示意图。LogkeyAttention关注日志向量维度之间的权重关系。Logkey Attention由三个注意力层组成。令

代表经过上述卷积运算后得到的矩阵，其中m和n代表矩阵A的长宽维度。对于给定的矩阵A，可将其分割为一个向量序列a₁,a₂...a_n，其中a_i代表A的第i行。Logkey Attention实现了向量a_i的加权缩放计算得到输出向量c_i的过程。

c_i＝λ_ia_i

每个输入i的attention权重可计算为：

e_i＝ω^Ta_i

其中，ω是基于梯度下降对损失函数优化中的可学习参数，e_i是计算attention权重的中间过程值。由a_i计算得到e_i的过程由一个神经网络层实现，由e_i计算得到权重λ_i的过程由Softmax函数实现。计算得到的λ_i中的每一维度数值对应了输入向量a_i的每一维度权重，因此，为了突出每个a_i中权重较大的维度所表示的特征，弱化每个a_i中权重较小的维度所表示的特征，需要将输入向量与权重对应相乘，得到最终的加权向量c_i。在c_i中，对模型训练有重点促进作用的特征维度数值被显著增大，而对训练作用较小、无作用或反作用的特征维度数值被抑制。之后，使用平均池化(average pooling)对输出向量c_i所组成的输出矩阵C进行降维，将其转化为一维向量。因为最大池化(max pooling)仅选取最大值作为整体表示，则可能导致权重最大、但数值绝对值很小的logkey信息被舍弃，会丢失LogkeyAttention信息，而平均池化可以很好地与Logkey Attention相结合。

通过加权过程，可以得到每一种不同卷积结果加权、池化后的输出向量。最后将这些向量进行拼接，即将不同尺度的特征信息进行融合，输入分类器进行分类训练。分类器由一层全连接网络层实现。Logkey Attention的整体流程如图2所示，其中，

代表attention权重矩阵，由一维权重向量λ组成，1和n分别表示矩阵Λ的长宽维度；E代表了由一维向量e组成的中间过程矩阵。

图3为本发明实施例提供的一种CNN-filter Attention架构示意图。CNN-filterAttention与Logkey Attention属于并列关系，是两种独立的、对卷积后结果进行特征加权提取的算法。两者关注重点不同，相互之间并无关联。

CNN-filter Attention关注每种CNN卷积结果之间的权重关系。首先，对每种卷积核输出结果进行最大池化(maxpooling)降维，获得降维后的一维向量a’_i。与上述LogkeyAttention计算过程相类似，通过一层神经网络层计算每个a’_i对应的中间过程数值e’_i，再通过Softmax函数获得每个a’_i所对应的最终权重λ’_i。计算后，a’_i与λ’_i的数量相同，均等于之前操作中所使用的不同长度卷积核的种类数。为了突出权重较大的特征向量a’_i所对应的卷积核尺度的特征，弱化权重较小的特征向量a’_i所对应的卷积核尺度的特征，我们将特征向量a’_i与权重λ’_i相乘，获得加权后的特征向量c’_i。在计算c’_i时，相当于促进了某些大小卷积核所提取的特征，而抑制了其他不同大小卷积核所提取的特征。而这种措施是对训练有益的，因为模型需要重点学习某些尺度下的特征，而不是对所有尺度下的特征都一并学习。

最后，将所有加权后的特征向量拼接，进行不同尺度的特征融合，输入分类器进行分类训练。分类器由一层全连接网络层实现。对于CNN-filter Attention模式，其主要目的在于获取多种卷积核之间的提取特征的相对重要性。其整体流程如图3所示。

在两种Attention方案最后的分类器设置上，可采用交叉熵、均方误差、平均绝对误差等损失函数衡量预测分类与标注分类间的分布差异，使用基于梯度下降法的一系列优化算法进行网络参数优化。训练完成后，再计算模型的评估指标值，如准确率、精确率、召回率、F1-score等。

本发明所采用的实验在Ubuntu 18.04操作系统中完成，Tensorflow版本1.15.0。在数据预处理模块中，在获取并读入历史数据后，首先统计所有日志文本数据中出现的所有logkey数量并对每个logkey进行编号，将每个种类的logkey文本与唯一的整型数字建立映射；对于每条日志文本数据，首先将原有的logkey文本映射为数字序列后，再将每条日志数字序列用0向后补全致长度50，形成一个50维日志向量。向量补全维度可以进行调整。

在模型训练与评估过程中，首先使用截断正态分布初始化码本(code book)中的参数。通过logkey2vec编码映射，可将每个logkey编码为128维向量以表示潜在的时空信息，因此，50维日志向量转化为50*128维日志矩阵，作为CNN卷积网络的输入。CNN中，设置三组卷积核，channel数均为128，宽度均为128，与日志矩阵宽度相吻合，以完整提取logkey中的潜在信息，而长度分别设置为3，4，5，以在不同邻域范围内提取logkey之间的空间信息。经过CNN卷积后，分别生成48*1*128，47*1*128与46*1*128维的输出结果。卷积核的长度种类与channel数均可进行调整，只需保证宽度与日志矩阵宽度相等即可。

对于Logkey Attention，首先分别对三种输出矩阵通过卷积操作进行降维。选择大小为1*1*128的卷积核，channel数为1，则卷积后可以将矩阵分别降维为48*1，47*1与46*1维向量，此过程是不可少且不可调整的。之后，通过softmax方法将向量中每一维数值映射到区间[0，1]之中，且总和为1，作为每个logkey的权重。将得到的logkey权重升维、拉伸，与CNN卷积生成的矩阵对应位相乘，即得到attention加权后的矩阵数据，大小分别为48*1*128，47*1*128与46*1*128。分别对加权矩阵进行平均池化，生成3个128维向量，进行拼接后，通过全连接层进行输出预测。需要注意的是，此处使用平均池化是为了保证LogkeyAttention信息不丢失；若使用最大池化，只选取最大值作为整体表示，则可能导致权重最大的logkey信息被舍弃，造成Logkey Attention信息丢失，不建议使用。

对于CNN-filter Attention，得到CNN卷积48*1*128，47*1*128与46*1*128维的输出结果后，先对其分别进行最大池化降维至1*128。设置一个128*1维度的向量w，令三个最大池化后向量分别与之相乘得到三个数值，再通过softmax方法映射得到3个[0，1]区间权重，分别对应3组CNN卷积核。将最大池化后向量与对应权重加权相乘，再通过对应位相加的形式进行融合，最后生成1*128维向量，进入全连接层，进入输出预测。

实验超参数batch_size设置为128，激活函数选择reLu，损失函数选择交叉熵损失函数，使用Adam优化器进行网络可学习参数(attention权重计算部分的参数均属于可学习参数)的优化。这些部分均可进行修改与调整，实验者亦可加入L2正则化、dropout等训练技巧进行调整与优化。模型训练完成后，分别统计模型的TP、FN、TN、FP四项指标，并在此基础上计算准确率accuracy、精确率precision、召回率recall、F1-score指标，并与其他模型进行比较。

综上所述，本发明实施例提出的基于注意力机制层的大数据日志异常检测模型是一种离线检测模型，利用了大数据平台产生的多余日志，相对于传统方法，避免了实时监控系统的高资源占用，结合了CNN可以捕捉更多信息的优点，同时兼顾了准确性、稳定性、高效性，可以有效地对大数据平台日志进行异常检测。

将本发明提出的两种基于注意力机制层的日志异常检测方法与其他六种现有的代表性异常检测方法进行对比，包括三种深度学习方法(CNN模型，MLP模型与LSTM模型)及三种非深度学习方法(主成分分析(PCA)，不变挖掘(IM)与N-gram)，在HDFS数据集上进行实验。其中，MLP模型由本发明自行提出作为基线模型，其经过logkey2vec编码，拥有简单的CNN架构与简单可调的参数。模型评估指标采用准确率accuracy、精确率precision(P)、召回率recall与F1-score(F1)，结果对比如表1所示。

表1各个方法在HDFS数据集上的训练效果对比

由表1中可知，本发明提出的注意力方法超出LSTM模型F1-score 2.89％，召回率4.76％，精确率3.04％。超出最佳的非深度学习方法N-gram模型F1-score 4.89％，召回率3.76％，精确率5.70％，该方法的性能高于其他方法。

试验结果表明，本发明模型识别日志异常准确率、召回率、F1-score等指标均优于其他基线模型，日志序列的异常检测性能更佳。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于注意力机制层的大数据平台日志异常检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的通过大数据平台获取日志数据，对所述日志数据进行预处理，将文本类型的日志数据转化为结构化的数字数据，生成一维的日志向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述的对所述一维日志向量数据进行Logkey2vec编码，通过可学习的码本将所述一维日志向量映射到二维向量矩阵，包括：

4.根据权利要求1或者2或者3所述的方法，其特征在于，所述注意力机制包括日志常量注意力Logkey Attention和CNN过滤器注意力CNN-filter Attention。

5.根据权利要求4所述的方法，其特征在于，所述的构建基于注意力机制的卷积神经网络CNN模型，使用日志数据的训练集训练所述基于注意力机制的CNN模型，得到训练好的基于注意力机制的CNN模型，包括：

构建基于注意力机制的CNN模型，在两个CNN模型中分别设置Logkey Attention结构与CNN-filter Attention结构，根据训练集数据中的日志数据生成一维的日志向量，对所述一维日志向量数据进行Logkey2vec编码，将所述一维日志向量映射到二维向量矩阵，将所述二维向量矩阵输入到两种分别设置了Logkey Attention结构与CNN-filter Attention结构的CNN模型进行训练，分别经过两种CNN模型运算，得到两种CNN模型的预测结果，将所述预测结果分别与已知的日志数据的给定标签进行对比，根据对比结果计算两种CNN模型的各项评价指标值，根据各项评价指标值调整两种CNN模型的内部参数。训练完成后，得到训练好的两种分别设置了Logkey Attention结构与CNN-filter Attention结构的CNN模型。

6.根据权利要求5所述的方法，其特征在于，所述Logkey Attention结构由三个注意力层组成，令A^m*n代表经过卷积运算后得到的矩阵，其中m和n代表矩阵A的长宽维度，对于给定的矩阵A，将其分割为一个向量序列a₁,a₂...a_n，其中a_i代表A的第i行，Logkey Attention实现了向量a_i的加权缩放计算得到输出向量c_i的过程；

c_i＝λ_ia_i

每个输入i的attention权重计算为：

e_i＝ω^Ta_i

7.根据权利要求5所述的方法，其特征在于，所述CNN-filter Attention结构关注每种CNN卷积结果之间的权重关系，首先对每种卷积核输出结果进行最大池化降维，获得降维后的一维向量a’_i，通过一层神经网络层计算每个a’_i对应的中间过程数值e’_i，再通过Softmax函数获得每个a’_i所对应的最终权重λ’_i，计算后，a’_i与λ’_i的数量相同，均等于之前操作中所使用的不同长度卷积核的种类数，将特征向量a’_i与权重λ’_i相乘，获得加权后的特征向量c’_i。