CN114816909A

CN114816909A - 一种基于机器学习的实时日志检测预警方法及系统

Info

Publication number: CN114816909A
Application number: CN202210385799.5A
Authority: CN
Inventors: 杨亦松; 张云; 贾琼; 吴磊; 陈欣; 王亚洲; 刁松
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-07-29
Anticipated expiration: 2042-04-13
Also published as: CN114816909B

Abstract

本发明涉及一种基于机器学习的实时日志检测预警方法及系统，属于信息安全技术领域。该系统是一种网络安全智能预警引擎，该方法基于XGBOOST提升树算法对网络日志进行特征提取，发掘日志中的组合特征，能够在有限日志训练集中，高效地将专家经验转化为可用特征，同时基于WORD2VEC自然语言处理技术对原始日志进行向量化处理并进行日志语义关联。

Description

一种基于机器学习的实时日志检测预警方法及系统

技术领域

本发明属于信息安全技术领域，具体涉及一种基于机器学习的实时日志检测预警方法及系统。

背景技术

随着共享、开放的互联网飞速发展，网络安全威胁呈现日益多样化与未知性的特点，网络攻击方式也呈现出自动化、多样化的发展趋势，网络安全面临着前所未有的挑战。网络安全威胁主要包括系统内部漏洞威胁、误操作威胁和外部攻击威胁。目前大型信息安全公司，已经能够基于数据流处理技术将服务器操作系统日志和安全硬件设备产生的安全日志同时进行数据标准化处理，并生成日志文件供后期分析。这些日志文件可以在入侵检测、故障处理、事件关联、事故处理、事后追究等诸多方面提供帮助。但是在新技术环境下，依赖对日志进行规则匹配和特征码技术的传统网络安全防御手段已经不能应付新型的网络威胁，业内急需建立起以机器学习、人工智能、大数据安全分析等技术为核心的第三代网络安全体系。

目前的日志分析方法大多基于领域知识依靠手动检查、或编写规则的方式人工进行特征识别和建立规则，随着网络入侵攻击由独立、简单、直接、易暴露逐渐演变成有组织、有目标、持续时间长的APT等攻击。传统的人工安全检测方法，依然很难从海量的日志文件中快速高效的检测到网络攻击。基于专家经验和安全规则的人工日志检测方法在面对海量安全日志文件时将耗费大量的人力，存在效率低，费用高，误报、漏报严重等的问题。具体问题如下：

1.需要大量具有网络安全专业技术的工程人员配置安全检测规则。

2.日志检测效率低下，过度依赖专家经验，且误报，漏报率高。

3.基于人工规则的日志安全检测系统普适性差，不能迁移，一旦安全系统环境变化，需要更新专家经验。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种效率高、准确率高的实时日志检测预警方法及系统。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于机器学习的实时日志检测预警方法，包括以下步骤：

首先采集模板化的日志数据，模板日志来源于不同的安全设备，在离线学习阶段，通过数据流处理技术对模板日志进行数据清洗，去除重复数据，同时补充空缺日志字段；之后根据预设专家经验对清洗后的日志数据进行特征提取，即在每一时间段中将所采集的模板日志进行特征提取，提取的内容包括日志特征和累计特征，所述日志特征包括IP地址、MAC地址，网络流量基线日志和其他非监督网络日志处理平台提供的特征日志；所述累计特征包括，该时间段内密码累计输入次数、IP累计登录次数这些需要累加计算的日志特征；在得到特征化的网络日志后，对这些网络日志依据预设专家经验进行数据标注，标注类型包括威胁日志、正常日志两类；

此时得到的标注日志所包含的特征是多样的，既包括数字类型特征，也包括字符特征，甚至文本格式特征，接着使用自然语言处理技术对这些特征进行词向量编码，将语义特征转化为可度量的距离，其中先对日志特征进行ONE-HOT编码，得到日志特征的词向量，通过WORD2VEC对ONE-HOT编码进行二次编码，既考虑日志特征间的位置信息，也考虑日志特征语义之间的相关性，同时完成词向量的降维；

之后使用XGBOOST模型对日志的词向量进行组合特征提取，在得到XGBOOST模型训练的日志特征向量后，选用逻辑回归模型构建预警模型，完成预警规则的自动化；在构建预警模型时，先在一个预设通用的日志特征训练集下训练得到一个通用的预警模型，称为通用评估模型，通用评估模型部署可迁移到归一化模板相同的任何安全环境中，部署后可进行安全预警，将这种迁移称为迁移学习模型；

在部署通用评估模型后进入在线服务阶段，在线服务阶段中模板化日志数据是按照时间序列顺序接收的，首先按照离线学习阶段的数据清洗和特征提取的方法对模板化日志数据进行处理得到特征日志；然后使用离线学习阶段中训练得到的WORD2VEC词向量对照表，将特征日志转化为词向量；之后调用离线学习阶段中构建的XGBOOST提升树模型，对特征日志提取组合特征，并将提取到的组合特征加入到特征日志中，作为特征日志的一维新特征，最后调用离线学习阶段训练好的逻辑回归模型对特征日志进行预警分析，产生告警标签，完成在线预警；

在线学习阶段，获取在线服务阶段所反馈的告警标签，告警标签包括威胁日志和正常日志两种类型，将该过程定义为在线学习阶段中的告警反馈，然后结合专家经验找到告警反馈中威胁日志相关的模板日志，之后对模板日志进行特征提取，特征提取过程和离线学习阶段的方法相同，之后结合之前通用评估模型的日志特征训练集进行模型迭代训练，训练过程和通用评估模型的训练方法一致，按照离线学习阶段的数据标注、词向量编码、组合特征提取这些步骤构训练新的word2vec词向量对照表、XGBOOST提升树和逻辑回归模型，训练完成后，在线服务阶段将加载新的word2vec词向量对照表、XGBOOST提升树和逻辑回归模型进行预警分析。

优选地，离线学习阶段和在线服务阶段的数据清洗方式具体包括：

(1)空缺值的清洗：忽略元组，人工填写空缺值，使用一个全局变量填充空缺值，使用属性的平均值、中问值、最大值、最小值的概率统计函数值来填充空缺值，其中将空缺值设置为null字段；

(2)重复数据的清洗：消除重复记录的思想是“排序和合并”，先将数据库中的记录排序，然后通过比较邻近记录是否相同来检测记录是否重复，确定重复日志数据中不包含时序特征和累计特征后再清除重复日志，清除重复日志算法为优先队列算法；

(3)错误数据的清洗：将错误字段设置为null，或直接删除错误数据。

优选地，离线学习阶段和在线学习阶段的特征提取方式具体如下：

根据实体设备发出的报警，依据预设专家经验从模板日志中找到与该报警相关的安全日志，该安全日志包括单条日志中的字段信息，也来源于多条日志组合累计信息，将单条模板日志中与安全漏洞相关的信息作为安全漏洞的文本日志特征，将多条模板日志的组合特征作为安全漏洞的累计特征，特征提取的过程就是将每条日志转变为文本日志特征和累记特征的组合，提取模板日志中与预设专家经验相关的信息。

优选地，离线学习阶段、在线学习阶段的词向量编码与降维过程中：

首先基于ONE-HOT编码的方式，对日志特征向量进行数值编码，得到特征编码的稀疏编码矩阵，使字符串日志转化为计算机可以操作的词向量；

在日志ONE-HOT编码的基础上使用WORD2VEC再次构建词向量，同时完成特征降维；

WORD2VEC词向量构建模型包括CBOW、SKIP-GRAM两种词向量构建方式，CBOW的方式是在知道词的上下文的情况下预测当前词，而SKIP-GRAM是在知道了词的情况下，对词的上下文进行预测，Word2Vec是轻量级的神经网络，其模型仅仅包括输入层、隐藏层和输出层，并且通过反向神经网络进行梯度传播来更新模型参数，同时通过哈夫曼树和负采样两种方法加快模型训练速度，模型训练后输入层参数W_V×N就是需要的词向量，WORD2VEC训练得到的词向量可保留网络日志中的位置信息和时序信息；在构建WORD2VEC模型训练集时，将同一安全设备发出的预警相关的网日志放在连续相近的位置上，并且尽可能地将与同一安全报警相关的网络日志放在相近的位置上。

优选地，离线学习阶段、在线学习阶段的词向量编码与降维的流程包括：

在日志特征提取过程中，将网络日志内容按照特征相关，即和一安全时间相关的日志特征编排在位置上被编排在一起，调整日志训练及中日志特征的序列，为ONE-HOT编码做准备；

使用ONE-HOT编码构建词向量，得到输入向量x_k，此时x_k的维度和日志特征训练集中词向量个数相同；

以ONE-HOT编码作为输入向量，使用WORD2VEC模型的CBOW或SKIP-GRAM模式再次构建词向量，SKIP-GRAM进行预测的次数是要多于CBOW的，在通用评估模型中训练词向量时选择SKIP-GRAM模型，在在线学习阶段使用CBOW模型训练。

优选地，离线学习阶段、在线学习阶段的组合特征提取过程中，利用XGBOOST生成的不同的树，找到每棵树的不同分裂点，组成模型日志的组合特征，使网络特征有更好的特征表达。

优选地，离线学习阶段、在线学习阶段的组合特征提取具体流程包括：

1)确定XGBOOST模型的损失函数为如下的均方差损失函数：

其中，y_i，yⁱ分别表示真实值和预测值

2)构建XGBOOST模型的目标函数：

其中，

为损失函数，Ω(f_t)为惩罚复杂函数，值越小复杂度越低，泛化能力越强，constant为常数项；

第t轮的模型预测值

等于前t-1轮的模型预测

f_t(x_i)表示第t棵树中对上一颗树误差的预测值；

3)将目标函数使用二阶泰勒展开，并去掉已知得常数项：

其中，g_i、h_i分别为损失函数

对

的一阶和二阶导数；

4)将增量函数f_t(x)转化为CART树中每棵子树的叶节点权重，目标函数变化为：

其中q(x_i)表示样本x在某个叶子节点上，

是该叶子节点的权重，I_j被定义为每个叶节点j上面样本下标的集合I_j＝{i|q(x_i)＝j}。γ、λ为自定义的不同常数，表示加入叶子节点后的复杂程度。T表示树中叶节点的个数，w_j表示第j个叶子节点的权重；

5)简化目标函数，对w_j求导让其等于0，得到w_j的最优解：

将最优解代入得到最优目标函数：

定义

6)从树深度为0开始，通过贪心算法寻找每个特征的最优分割点

先按照一个特征里的值进行排序，然后线性扫描该特征进而确定最好的分割点，接着对所有特征进行遍历找到每个特征的最优分割后，选择增益Gain最高的那个特征，然后线性扫描该特征进而确定最优的分割点，增益Gain的计算方法为：

表示分割后左子树的最优目标函数取值

表示分割后左子树的最优目标函数取值

表示不分割树所得到的目标函数取值

γ表示分割新树所带来的复杂度代价；

含义为：左子树加上右子树的目标函数分数，减去不分割拿到的目标函数分数；

7)按照第6步确定的最优分割点分割构建二叉树，判断第5步得到的最优目标函数是否满足要求，如果不满足要求，则用误差值再次构建二叉树，直到满足设定的结束标准；

8)将构建的多棵二叉树转化为组合特征，并完成特征编码。

优选地，将构建的多棵二叉树转化为组合特征，并完成特征编码的过程中，设X为日志特征训练集中的样本点，该样本点在XGBOOST中生成的每棵树种都对应的一个叶子节点，对于输入X，假设其在左子树落在第一个叶子节点，在右子树落在第二个节点，那么在左子树的one-hot编码为[1,0,0]，在右子树的one-hot编码为[0,1]，最终的特征为两个one-hot编码的组合[1,0,0,0,1]，在进行特征转化时，XGBOOST模型中所包含的树的棵数即为后面组合特征的数量，每一个组合特征的向量长度不等，该长度取决于所在树的叶子节点数量，将此特征作为新特征加入X之前已经提取的特征中。

优选地，构建逻辑回归模型的具体过程如下：

使用组合特征提取步骤中利用XGBOOST模型找到的组合特征，即ONE-HOT编码，作为一种组合特征表达，联合之前的原始特征，即模板日志进行特征提取后进行WORD2VEC编码得到的特征日志，一起构建逻辑回归模型的日志特征训练集；

利用构建的逻辑回归模型的日志特征训练集训练得到逻辑回归模型；

先将预测日志代入XGBOOST模型找到组合特征表达，然后再联合原始特征，在将组合特征日志代入之前训练好的逻辑回归模型完成预警。

本发明还提供了一种利用所述方法构建的实时日志检测预警系统。

(三)有益效果

本发明提供一种基于机器学习的实时日志检测预警方法及系统。该系统是一种网络安全智能预警引擎，该方法基于XGBOOST提升树算法对网络日志进行特征提取，发掘日志中的组合特征，能够在有限日志训练集中，高效地将专家经验转化为可用特征，同时基于WORD2VEC自然语言处理技术对原始日志进行向量化处理并进行日志语义关联。特征挖掘过程中既考虑原始日志中显著的时间序列特征，又兼顾日志参数的空间位置特征，能够发觉专家经验不能覆盖的隐含特征。该系统使用逻辑回归算法实现实时日志检测预警，逻辑回归算法具有的稳定和可靠性的特点，预警准确率高、运算速度快、资源占用少，不需要大规模训练数据，且预警结果具有可解释性。该方法通过迁移学习和在线学习的方法增强模型在不同网络用户环境中的普适性。

附图说明

图1为本发明的系统总体架构图；

图2为本发明的词向量编码与降维过程中特征切分示意图；

图3为本发明的词向量编码与降维过程中CBOW词向量构建示意图；

图4为本发明的词向量编码与降维过程中SKIP-GRAM方式词向量构建示意图；

图5为本发明的组合特征提取过程中XGBOOST特征提取编码示意图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提供了一种基于机器学习的实时日志检测预警方法及系统。本发明使用XGBOOST提升树算法对网络日志进行组合特征挖掘，从而更好地表达日志特征；使用WORD2VEC自然语言处理技术自动挖掘网络日志中语义相关特征，使用迁移学习的方法，对已经使用标注好的数据训练的模型进行迁移，在保证效果精度的同时，快速适应新的任务和新的环境。

系统总体架构

本发明所分析的日志内容来源于企业中的安全设备日志，但不是安全设备原始日志，而是通过将原始网络日志进行清洗之后得到的模板日志。原始网络日志包括各类实体安全设备的日志，和基于日志基线的无监督学习得到的预警日志。目前行业内有很多对原始日志的分析系统，第一步都是在构建原始日志对应的日志模板，之后通过模板关键词匹配和日志时序特征进行日志异常检测。这些方法由于日志模板的不确定性，效果不佳，且普适性差，目前大型网络安全公司已经有成熟的日志流梳理技术，可以对原始网络日志进行归一化处理。本发明的引擎在统一的日志模板上提取特征，通过WORD2VEC构建词向量，联合XGBOOST提升树方法发现组合特征，最后构建依据逻辑回归的具有可解释性的预测引擎，并通引擎实际部署后在线服务过程中收集到的日志进行在线学习，不断完善离线预警模型。系统总体架构图如图1所示。

如图1所示，本发明首先采集企业内部的模板化的日志数据，模板日志来源于不同的安全设备，不可避免地存在缺失或重复，在离线学习阶段，通过数据流处理技术对模板日志进行数据清洗，去除重复数据，同时补充空缺日志字段；之后根据专家经验对清洗后的日志数据进行特征提取，即在每一时间段中将所采集的模板日志进行特征提取，提取的内容包括日志特征和累计特征，所述日志特征包括IP地址、MAC地址，网络流量基线日志和其他非监督网络日志处理平台提供的特征日志等；所述累计特征包括，该时间段内密码累计输入次数、IP累计登录次数等需要累加计算的日志特征；在得到特征化的网络日志后，对这些网络日志依据专家经验进行数据标注，标注类型包括威胁日志、正常日志两类。

此时得到的标注日志所包含的特征是多样的，既包括数字类型特征，也包括字符特征，甚至文本格式特征。要让计算机能够分析这些数据需要使用自然语言处理技术对这些特征进行词向量编码。这些特征之间并不是相互独立的，在某一时间内，某些安全设备发出的日志对某个安全警报是高度相关的，而其他特征与安全警报的相关性就相对较弱，并且某一特征的不同取值也存在内在语义联系。将这些语义特征转化为可度量的距离，在构建基于XGBOOST的决策树时就能够更好地找到每个日志特征的最优切分点，即能够得到更好的特征表达方式，提高模型的预测准确性。所以本发明首先对日志特征进行ONE-HOT编码，得到日志特征的词向量，这些词向量之间是相互独立的，且维度很高；通过WORD2VEC对ONE-HOT编码进行二次编码，即考虑日志特征间的位置信息，也考虑了日志特征语义之间的相关性，同时完成词向量的降维。

在之后使用XGBOOST模型对日志的词向量进行组合特征提取，因为日志特征决定了所有预警模型的效果上限，而不同的预警模型只是离这个上限的距离不同而已。所以如何更有效地提取有效的特征是好的预警方案必须考虑的问题。使用XGBOOST进行特征编码就是让日志特征有更好的特征表达，在后续的预警模型中能提供更准确的区分度。在得到XGBOOST模型训练的日志特征向量后，本发明选用逻辑回归模型构建预警模型，完成预警规则的自动化。究其原因是考虑到逻辑回归模型计算复杂度低，并且该模型具有很强的可解释性。

企业日志模板的采集具有一致性，无论在哪里部署所采集的日志数据经过日志模板的过滤都能保持一致，所以在构建预警模型时，先在一个通用的日志特征训练集下训练得到一个通用的预警模型，称之为通用评估模型。通用评估模型部署可以迁移到归一化模板相同的任何安全环境中，部署后可以快速启动，并利用以往的专家经验进行安全预警，本发明将这种迁移称为迁移学习模型。

在部署通用评估模型后进入在线服务阶段，此阶段中模板化日志数据是按照时间序列顺序接收的，首先按照离线学习阶段的数据清洗和特征提取的方法对模板化日志数据进行处理得到特征日志；然后使用离线学习阶段中训练得到的WORD2VEC词向量对照表，将特征日志转化为词向量；之后调用离线学习阶段中构建的XGBOOST提升树模型，对特征日志提取组合特征，并将提取到的组合特征加入到特征日志中，作为特征日志的一维新特征，最后调用离线学习阶段训练好的逻辑回归模型对特征日志进行预警分析，产生告警标签，完成在线预警。

在线学习阶段，获取在线服务阶段所反馈的告警标签，告警标签包括威胁日志和正常日志两种类型，将该过程定义为在线学习阶段中的告警反馈，如图1所示。然后结合专家经验找到告警反馈中威胁日志相关的模板日志，之后对模板日志进行特征提取，特征提取过程和离线学习阶段的方法相同。之后结合之前通用评估模型的日志特征训练集进行模型迭代训练，训练过程和通用评估模型的训练方法一致。即按照离线学习阶段的数据标注、词向量编码、组合特征提取这些步骤构训练新的word2vec词向量对照表、XGBOOST提升树和逻辑回归模型。训练完成后，在线服务阶段将加载新的word2vec词向量对照表、XGBOOST提升树和逻辑回归模型进行预警分析。

具体流程包括：

一.离线学习阶段和在线服务阶段的数据清洗方式具体如下：

由于企业中的安全设备产生的日志并不是同步的，所以同一时间周期内的模版的日志来源于不同的安全设备或其他预警引擎，因此在模板日志中必然会存在空缺数据、重复数据或明显的错误数据。数据清洗的过程就是要对这些数据进行合理的处理，为之后的特征提取打好基础。

(1)空缺值的清洗，对于空缺值的清洗可以采取忽略元组，人工填写空缺值，使用一个全局变量填充空缺值，使用属性的平均值、中问值、最大值、最小值或更为复杂的概率统计函数值来填充空缺值。本引擎所处理的模板日志大多为字符类型，考虑后期的词向量编码的复杂度，特征向量降纬的需要，故本引擎将空缺值设置为null字段。

(2)重复数据的清洗，消除重复记录的基本思想是“排序和合并”，先将数据库中的记录排序，然后通过比较邻近记录是否相同来检测记录是否重复。但是在重复的网络日志中可能包含时序特征或者累计特征，本引擎将确定这些重复日志数据中不包含时序特征和累计特征后再清除重复日志，清除重复日志算法为：优先队列算法。

(3)错误数据的清洗，对于错误数据，例如安全设备故障所产生的数据，本引擎将错误字段设置为null，或直接删除错误数据。

二.离线学习阶段和在线学习阶段的特征提取方式具体如下：

实际应用中安全技术人员根据实体设备发出的报警，依据专家经验从模板日志中找到与该报警相关的安全日志。该日志包括单条日志中的某个字段信息，例如，防火墙报警字段；也来源于多条日志组合累计，例如，累积ip登录次数，累积路由转换次数、VLAN变化次数等。本发明将单条模板日志中与安全漏洞相关的信息作为安全漏洞的文本日志特征。将多条模板日志的组合特征作为安全漏洞的累计特征。特征提取的过程就是将每条日志转变为文本日志特征和累记特征的组合。提取模板日志中与专家经验相关的信息。

三.离线学习阶段、在线学习阶段的数据标注方式具体如下：

将经过特征提取后的模板日志，依据对应日志的专家经验进行标注，标注的类别的两类，威胁日志，正常日志。

四.离线学习阶段、在线学习阶段的词向量编码与降维方式如下：

由于模板日志来源于企业中的各种安全设备，从多种安全设备采集的模板日志类别繁多，根据专家经验进行模板日志特征提取后，日志特征维度会很高。不同日志特征可能来源于不同的安全设备，但特征之间并不是相互独立的，某个安全报警可以和某些特定的日志相关。因此本发明引擎首先基于one-hot编码的方式，对日志特征向量进行数值编码，得到特征编码的稀疏编码矩阵。使字符串日志转化为计算机可以操作的词向量。

但使用ONE-HOT编码构建日志词向量后，向量的维度依然会非常高。单纯的ONE-HOT编码产生的词向量是相互独立的，不能反应网络日志之间的潜在联系，这种日志之间的潜在联系是发掘日志间组合特征的重要依据。

而且应用决策树模型的时候，当日志数据维度非常高时,one-hot编码可能无法对相应的日志数据集进行切分，即在XGBOOST模型中训练数据中的特征没有区分度，无法找到最优的切分点。意味着每一个决策点上只能对一种特征进行是或否的判断。当日志维度高的时候，每个类别上的数据会很少，会产生切分不平衡的问题，会影响决策树的学习。因为就算可以在某个类别进行切分，也会分到很多零散的小空间上。如图2左所示。在这些小空间上统计信息不准确，学习会变差。应该使用如图2右的列别特征的最优切分方法。

但是本发明使用的XGBOOST模型不支持类别特征的最优切分工具。需要将日志特征的ONE-HOT编码降维，以便能够更好进行特征切分，转换为能够表达语义特征的词向量。并且发掘词向量之间的隐藏关系。所以本发明在日志ONE-HOT编码的基础上使用WORD2VEC再次构建词向量，同时完成特征降维。

WORD2VEC词向量构建模型包括CBOW、SKIP-GRAM两种词向量构建方式，CBOW的方式是在知道词的上下文的情况下预测当前词。而Skip-gram是在知道了词的情况下,对词的上下文进行预测。Word2Vec是轻量级的神经网络，其模型仅仅包括输入层、隐藏层和输出层，并且通过反向神经网络进行梯度传播来更新模型参数。同时通过Hierarchical softmax(哈夫曼树)和Negative Sampling(负采样)两种方法加快模型训练速度。如图3、图4所示，模型训练后输入层参数W_V×N就是本发明需要的词向量。WORD2VEC训练得到的词向量可以保留网络日志中的位置信息和时序信息。本发明在构建WORD2VEC模型训练集时，将同一安全设备发出的预警相关的网日志放在连续相近的位置上，并且尽可能的将与同一安全报警相关的网络日志放在相近的位置上。这样训练得到词向量即输入层参数W_V×N，不仅维度得到降低，且词向量的数值空间距离也做出了划分，漏洞相关的词向量组在数值距离上也更加相近，这样可以更加有效地找到日志的组合特征。主要流程为：

1.在日志特征提取过程中，将网络日志内容按照特征相关，即和某一安全时间相关的日志特征编排在位置上被编排在一起，调整日志训练及中日志特征的序列，为ONE-HOT编码做准备。

2.使用ONE-HOT编码构建词向量，得到图3，图4中的输入向量x_k，此时x_k的维度和日志特征训练集中词向量个数相同。

3.ONE-HOT编码作为输入向量，使用WORD2VEC模型的CBOW或SKIP-GRAM模式再次构建词向量。CBOW预测行为的次数跟整个文本的词数几乎是相等的，复杂度大概是O(V)；SKIP-GRAM进行预测的次数是要多于CBOW的：因为每个词在作为中心词时，都要使用周围词进行预测一次。这样相当于比CBOW的方法多进行了K次(假设K为窗口大小)，因此时间的复杂度为O(KV)，训练时间要比CBOW要长。在通用模型中训练词向量的时候因为时间充分，选择复杂度高、语义关联性更好的SKIP-GRAM模型，在在线学习阶段我们使用复杂度较低的CBOW模型训练，提高模型的训练速度。SKIP-GRAM和CBOW的模型的原理都是基于反向传播的神经网络模型，CBOW具体过程如下:

1.将ONE-HOT编码作为模型的输入,每一个编码作为日志特征的一个词语表示。每一个输入向量都是一个V维度向量。

2.输入层和隐藏层之前是一个v×n矩阵，即图3中的ω_V×N，ω_V×N中的每一行将表示输入层中的一个词向量。

3.将每个输入向量x_i和矩阵ω_V×N相乘后，取平均后得到隐藏层向量h_i，为一个N维向量。

其中C为输入词向量的个数。

4.隐藏层和输出层之间的参数矩阵为w'_v×n，是一个n×v矩阵,将隐藏层向量h_i与该矩阵相乘得到。

其中

是矩阵w'_v×n中的一行

5.利用对数线性分类模型softmax得到单词的后验分布，即多项分布得到

表示在词向量j在词向量i到U出现的情况下的条件概率，如图3所示。

5.构建训练目标及最大化如下函数：

其中j^*表示真实输出的词向量。

6.通过反向神经网络，梯度下降的方法更新隐藏层和输出层矩阵w'_v×n，之后更新输入层和隐藏层矩阵ω_V×N。更新好的矩阵ω_V×N就是所需要的词向量编码矩阵。其中每一行代表一个词向量。此时词向量的维度由V变成了N,完成了词向量的降维。

五.离线学习阶段、在线学习阶段的组合特征提取方式具体如下：

传统的日志分析方式为，依据专家经验提取日志模版中特征，并依据提取的日志特征作出安全预警。虽然专家经验提取了安全预警相关的日志特征，但无法关注特征之间的组合联系。例如，a防火墙报警和b网关流量增大之间的组合关系对安全预警的影响。挖掘这种日志中的组合特征，能够更加充分的转化专家经验，并对专家经验没有覆盖的特征，作出相对准确的预警评估。

xgboost作为提升树的一种，其性能相比于普通adaboost、gbdt有了极大的提升，其基本思想是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。xgboost使用泰勒二次展开计算损失函数，并求损失函数的最值后找到误差。该误差作为第二棵树的初始值。通过贪心算法寻找第二棵树的最有分裂点。并通过控制树的复杂度，减少模型的过拟合。

本模型利用×gboost生成的不同的树，找到每棵树的不同分裂点，组成模型日志的组合特征，使网络特征有更好的特征表达。具体流程如下：

1)确定XGBOOST模型的损失函数为如下的均方差损失函数：

其中，y_i，yⁱ分别表示真实值和预测值

2)构建XGBOOST模型的目标函数：

其中，

为损失函数，Ω(f_t)为惩罚复杂函数，值越小复杂度越低，泛化能力越强，constant为常数项。

第t轮的模型预测值

等于前t-1轮的模型预测

f_t(x_i)表示第t棵树中对上一颗树误差的预测值。

3)将目标函数使用二阶泰勒展开，并去掉已知得常数项：

其中，g_i、h_i分别为损失函数

对

的一阶和二阶导数；

其中q(x_i)表示样本x在某个叶子节点上，

是该叶子节点的权重。I_j被定义为每个叶节点j上面样本下标的集合I_j＝{i|q(x_i)＝j}。γ、λ为自定义的不同常数，表示加入叶子节点后的复杂程度。T表示树中叶节点的个数。w_j表示第j个叶子节点的权重。

5)简化目标函数，对w_j求导让其等于0，可以得到w_j的最优解：

将最优解带入可以得到最优目标函数：

定义

先按照一个特征里的值进行排序，然后线性扫描该特征进而确定最好的分割点，接着对所有特征进行遍历找到每个特征的最优分割后，选择增益Gain最高的那个特征，然后线性扫描该特征进而确定最优的分割点。增益Gain的计算方法为：

表示分割后左子树的最优目标函数取值

表示分割后左子树的最优目标函数取值

表示不分割树所得到的目标函数取值

γ表示分割新树所带来的复杂度代价，为自定项目。

含义为：左子树加上右子树的目标函数分数，减去不分割拿到的目标函数分数。

7)按照第6步确定的最优分割点分割构建二叉树，判断第5步得到的最优目标函数是否满足要求，如果不满足要求，则用误差值再次构建二叉树，直到满足设定的结束标准。

8)将构建的多棵分类树(二叉树)转化为组合特征，并完成特征编码。

具体特征构建流程如图5所示。其中，X为日志特征训练集中的样本点，该样本点在XGBOOST中生成的每棵树种都对应的一个叶子节点，如图5所示，对于输入x，假设其在左子树落在第一个叶子节点，在右子树落在第二个节点，那么在左子树的one-hot编码为[1,0,0]，在右子树的one-hot编码为[0,1]，最终的特征为两个one-hot编码的组合[1,0,0,0,1]。在进行特征转化时，XGBOOST模型中所包含的树的棵数即为后面组合特征的数量，每一个组合特征的向量长度不等，该长度取决于所在树的叶子节点数量。将此特征作为新特征加入X之前已经提取的特征中。

六.构建逻辑回归模型

本引擎使用逻辑回归模型作为日志预警模型，即前述离线学习阶段构建的通用评估模型，由于使用XGBOOST决策树直接作为预警模型，计算量将非常庞大，且XGBOOST基于决策树做判断参数阈值不好控制。逻辑回归模型是使用线性回归模型的预测值逼近分类任务真实标记的对数几率，具有如下优点：

1.直接对分类的概率建模，无需实现假设数据分布，从而避免了假设分布不准带来的问题(区别于生成式模型)；

2.不仅可预测出类别，还能得到该预测的概率。

3.对数几率函数是任意阶可导的凸函数，有许多数值优化算法都可以求出最优解。

4.逻辑回归模型的目标函数基于点乘和累加计算求和，可以使用并行计算算法能够更好的应对大规模数据。

具体过程如下：

使用上一步的组合特征提取步骤中利用XGBOOST模型找到的组合特征(ONE-HOT编码)作为一种组合特征表达，联合之前的原始特征(即模板日志进行特征提取后进行WORD2VEC编码得到的特征日志)一起构建逻辑回归模型的日志特征训练集。

先将预测日志代入XGBOOST模型找到组合特征表达，然后再联合原始特征(即，模板日志进行特征提取后进行WORD2VEC编码后得到的特征日志)，在将组合特征日志代入之前训练好的逻辑回归模型完成预警。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于机器学习的实时日志检测预警方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，离线学习阶段和在线服务阶段的数据清洗方式具体包括：

3.如权利要求1所述的方法，其特征在于，离线学习阶段和在线学习阶段的特征提取方式具体如下：

4.如权利要求1所述的方法，其特征在于，离线学习阶段、在线学习阶段的词向量编码与降维过程中：

5.如权利要求4所述的方法，其特征在于，离线学习阶段、在线学习阶段的词向量编码与降维的流程包括：

6.如权利要求1所述的方法，其特征在于，离线学习阶段、在线学习阶段的组合特征提取过程中，利用XGBOOST生成的不同的树，找到每棵树的不同分裂点，组成模型日志的组合特征，使网络特征有更好的特征表达。

7.如权利要求1所述的方法，其特征在于，离线学习阶段、在线学习阶段的组合特征提取具体流程包括：

1)确定XGBOOST模型的损失函数为如下的均方差损失函数：

其中，y_i，yⁱ分别表示真实值和预测值

2)构建XGBOOST模型的目标函数：

其中，

第t轮的模型预测值

等于前t-1轮的模型预测

f_t(x_i)表示第t棵树中对上一颗树误差的预测值；

3)将目标函数使用二阶泰勒展开，并去掉已知得常数项：

其中，g_i、h_i分别为损失函数

对

的一阶和二阶导数；

其中q(x_i)表示样本x在某个叶子节点上，

是该叶子节点的权重，I_j被定义为每个叶节点j上面样本下标的集合I_j＝{i|q(x_i)＝j}。Υ、λ为自定义的不同常数，表示加入叶子节点后的复杂程度。T表示树中叶节点的个数，w_j表示第j个叶子节点的权重；

5)简化目标函数，对w_j求导让其等于0，得到w_j的最优解：

将最优解代入得到最优目标函数：

定义

表示分割后左子树的最优目标函数取值

表示分割后左子树的最优目标函数取值

表示不分割树所得到的目标函数取值

Υ表示分割新树所带来的复杂度代价；

8)将构建的多棵二叉树转化为组合特征，并完成特征编码。

8.如权利要求7所述的方法，其特征在于，将构建的多棵二叉树转化为组合特征，并完成特征编码的过程中，设X为日志特征训练集中的样本点，该样本点在XGBOOST中生成的每棵树种都对应的一个叶子节点，对于输入X，假设其在左子树落在第一个叶子节点，在右子树落在第二个节点，那么在左子树的one-hot编码为[1,0,0]，在右子树的one-hot编码为[0,1]，最终的特征为两个one-hot编码的组合[1,0,0,0,1]，在进行特征转化时，XGBOOST模型中所包含的树的棵数即为后面组合特征的数量，每一个组合特征的向量长度不等，该长度取决于所在树的叶子节点数量，将此特征作为新特征加入X之前已经提取的特征中。

9.如权利要求8所述的方法，其特征在于，构建逻辑回归模型的具体过程如下：

10.一种利用权利要求1至9中任一项所述方法构建的实时日志检测预警系统。