CN109492193A

CN109492193A - 基于深度机器学习模型的异常网络数据生成与预测方法

Info

Publication number: CN109492193A
Application number: CN201811627720.5A
Authority: CN
Inventors: 杨恺; 窦绍瑜
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-03-19
Anticipated expiration: 2038-12-28
Also published as: CN109492193B

Abstract

本发明涉及一种基于深度机器学习模型的异常网络数据生成与预测方法，包括：步骤S1：收集系统组件的历史性能指标数据，并训练异常预测模型；步骤S2：在线收集系统中所有组件的性能指标数据；步骤S3：判断各组件是否存在与其有关联关系的组件，若为是，则执行步骤S4，反之，则执行步骤S5；步骤S4：将两个组件的数据组合成二元组，计算该二元组的残差值，并输入至该二元组对应的异常预测模型，并执行步骤S6；步骤S5：搜索该组件对应的异常预测模型，将该组件的性能指标数据输入至该组件所对应的异常预测模型，并执行步骤S6；步骤S6：判断模型输出的预测结果，若为是存在异常，则进行报警。与现有技术相比，本发明克服了异常预测系统训练时出现的样本不均衡问题，提高模型预测性能。

Description

基于深度机器学习模型的异常网络数据生成与预测方法

技术领域

本发明涉及异常预测领域，尤其是涉及一种基于深度机器学习模型的异常网络数据生成与预测方法。

背景技术

随着近年来IT技术的不断发展，IT系统的规模与复杂度不断增长，这使得控制、管理复杂系统变得越来越困难。大型复杂系统中的异常往往会随着系统规模与复杂度的增大，造成严重的、或不可预估的后果。所以，如何有效避免系统发生异常，成为了系统运维环节的一个难题。一般的，可以从异常检测与异常预测两个方面入手以避免复杂系统中的异常。其中，异常检测旨在监测系统性能指标，并根据实时数据判断系统的当前状态，当检测到当前系统状态偏离正常状态时(即发生异常时)，就需要采取必要措施以处理异常。异常检测问题是相对容易的，且相关技术也相对成熟，但异常检测仅能及时检测异常的存在，不能避免异常的发生。而异常预测旨在通过监测系统的实时性能指标，对系统的未来状态进行估计(即预测异常的发生)，当异常预测系统预测到一个异常时，就可以由人工或由系统自动地采取相关措施以避免异常。异常预测问题相对于异常检测问题难度更大，但可以有效避免异常。所以异常预测系统对解决运维中的异常问题有着重大意义。

异常预测问题通常可以被转化成一种特殊的二分类问题，其分类结果仅包括“异常”与“非异常”两类。传统的分类方法的前提是需要大量经过标记的数据做模型训练，虽然训练数据的标记过程往往会耗费巨大的成本，但正、负例数量较为均衡的标记数据对提升分类效果有着重大意义。不同于传统的分类问题，异常预测问题旨在预测到系统中的异常，而往往异常是不经常发生的，这导致异常样本非常的少，如果从特征提取的角度区分正常样本与异常样本的话，实际情况中的训练样本或训练样本不均衡往往会使分类性能显著下降。所以，如何克服异常预测问题中的训练样本不均衡问题，目前是异常预测系统的一个很大的挑战。

由于复杂系统中的监测数据往往是时间序列的形式，在异常预测时，我们需要借助时间序列的时间特性，如周期性等，对序列进行分析。所以，如何利用时间序列的性质对时间序列建模，也是异常预测问题的一大难点。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度机器学习模型的异常网络数据生成与预测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于深度机器学习模型的异常网络数据生成与预测方法，包括：

步骤S1：收集系统组件的历史性能指标数据，并训练异常预测模型；

步骤S2：在线收集系统中所有组件的性能指标数据；

步骤S3：判断各组件是否存在与其有关联关系的组件，若为是，则执行步骤S4，反之，则执行步骤S5；

步骤S4：将两个组件的数据组合成二元组，计算该二元组的残差值，并输入至该二元组对应的异常预测模型，并执行步骤S6；

步骤S5：搜索该组件对应的异常预测模型，将该组件的性能指标数据输入至该组件所对应的异常预测模型，并执行步骤S6；

步骤S6：判断模型输出的预测结果，若为是存在异常，则进行报警。

所述步骤S1具体包括：

步骤S11：收集各个系统组件的历史性能指标数据，并两两组合成二元组；

步骤S12：判断各二元组内的数据是否具有关联关系，若为是，则执行步骤S13，反之，则执行步骤S14；

步骤S13：计算二元组内的数据的残差序列，提取出残差序列中的异常事件与正常事件，然后执行步骤S16；

步骤S14：判断是否还有未判断过关联关系的二元组，若为是，则执行步骤S12，反之，则执行步骤S15；

步骤S15：对于与其他组件无关联关系的组件，提取出该组件历史性能指标中的异常事件与正常事件，然后执行步骤S16；

步骤S16：对于每个二元组或单个的组件数据，使用异常事件与正常事件训练一个基于深度学习的异常预测模型，并保存每个异常预测模型。

所述步骤S12具体包括：

步骤S121：针对任一二元组内的数据，生成一个自回归模型；

步骤S122：评估每一个自回归模型的R均方值：

其中：R²为所求的R均方值，y_t为t时刻y组件的性能指标，为使用给定的自回归模型模型θ对组件y在t时刻的预测值，θ为要评估的自回归模型，为y组件在时间窗口[1,t]内的平均值，N为历史性能指标数据的长度；

步骤S123：判断R均方值是否大于设定阈值，若为是，则存储该自回归模型，反之则丢弃该自回归模型。

所述自回归模型的生成过程具体包括：

步骤A1：输入两个组件x、y的历史正常性能指标[x_t-k,x_t-k-1,…,x_t-k-m]与[y_t,y_t-1,…,y_t-n]，并确定自回归模型系数：

y_t+a₁y_t-1+…+a_ny_t-n＝b₀x_t-k+b₁x_t-k-1+…+b_mx_t-k-m

其中：n，m，k为预设的自回归模型的参数，a₁,…,a_n与b₁,…,b_m为自回归模型系数；

步骤A2：确定自回归模型：

θ＝[a₁,…,a_n,b₁,…,b_m]

所述步骤S16具体包括：

步骤S161：根据提取出的异常事件，训练一个异常事件生成器；

步骤S162：在生成器学习到的概率分布上进行随机采样，得到生成的虚拟异常事件的异常数据；

步骤S163：使用步骤S161中的异常事件、步骤S162中的虚拟异常事件与正常事件训练一个异常预测模型。

所述异常事件生成器的架构为变分自动编码器。

所述异常事件生成器的训练过程中，训练的目标为最小化如下损失函数：

其中：为损失函数，KL(·)为KL散度，为样本被编码后生成的概率分布，为隐藏空间z的概率分布，是基于VAE编码结果的重建序列的概率分布，为生成器生成的重建序列与训练序列之间的重建损失，为生成器对训练样本编码后的样本表示。

所述异常预测模型为长短期记忆循环神经网络。

判断任一组件是否存在与其有关联关系的组件的过程具体为：判断是否存储了包含此组件的自回归模型，若为是，则判定自回归模型中涉及的两个组件存在关联，反之则判定该组件与其他组件均无关联关系。

所述步骤S4具体包括：

步骤S41：将两个组件的数据[x_t-k,x_t-k-1,…,x_t-k-m]、[y_t-1,y_t-2，…,y_t-n]组合成二元组；

步骤S42：搜索该二元组的自回归模型θ，以[x_t-k,x_t-k-1,…,x_t-k-m]作为输入，预测另一个组件的性能指标预测公式如下：

其中：θ为自回归模型。

步骤S43：计算残差序列，[r_t-L-1,r_t-L-2,…,r_t]残差序列计算公式如下：

其中是由自回归模型θ输出的预测值，y_t是真实的性能指标值，r_t为表征关联关系稳定性的残差值；

步骤S44：搜索该二元组对应的异常预测模型，输入残差值到该模型中。

与现有技术相比，本发明具有以下有益效果：

1)利用既有的异常数据生成更多的异常数据，从而克服异常预测系统训练时出现的样本不均衡问题，提高模型预测性能。

2)将复杂系统内组件之间的关联关系简化为成对的关联关系，并对该关联关系建模，可以在建模结果的基础上对组件的正常性能指标做出预测。

3)利用自回归模型进行关联关系的判断，可以提高关联关系的判断准确度。

4)能够分别对系统中的两种异常，即单变量上下文异常与集体上下文异常，进行有效预测。

5)预测的查准率与召回率能够根据实际需求进行调节；

附图说明

图1为本发明方法的主要步骤流程示意图；

图2为LSTM预测网络的结构示意图；

图3为异常预测模型训练过程的流程示意图；

图4为异常预测过程的流程示意图；

图5为VAE网络的结构示意图；

图6为异常数据生成结果样本示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一种基于深度机器学习模型的异常网络数据生成与预测方法，如图1、图3与图4所示，包括：

步骤S1：收集系统组件的历史性能指标数据，并训练异常预测器，其中异常预测器中保存处有多个针对二元组或者单一组件对应的异常预测模型；

如图3所示，步骤S1具体包括：

步骤S12具体包括：

步骤S121：针对任一二元组内的数据，生成一个自回归模型；

所述自回归模型的生成过程具体包括：

y_t+a₁y_t-1+…+a_ny_t-n＝b₀x_t-k+b₁x_t-k-1+…+b_mx_t-k-m

步骤A2：确定自回归模型：

θ＝[a₁,…,a_n,b₁,…,b_m]

步骤S122：评估每一个自回归模型的R均方值：

步骤S133：判断R均方值是否大于设定阈值，若为是，则存储该自回归模型，反之则丢弃该自回归模型。

步骤S16：对于每个二元组或单个的组件数据，使用异常事件与正常事件训练一个基于深度学习的异常预测模型，并保存每个模型。

所述步骤S16具体包括：

所述异常事件生成器的架构为变分自动编码器，异常事件生成器的训练过程中，训练的目标为最小化如下损失函数：

所述异常预测模型为长短期记忆循环神经网络。

步骤S2：在线收集系统中所有组件的性能指标数据。

所述步骤S4具体包括：

其中θ为自回归模型。

其中是由ARX模型输出的预测值，y_t是真实的性能指标值，r_t为表征关联关系稳定性的残差值

本申请中，使用长短期记忆循环神经网络(Long Short-Term Memory RecurrentNeural Network，LSTM RNN)实现异常预测，这种方法可以充分利用时间序列的时间特性与上下文相关性，并实现样本分类。

具体而言，本发明采用如图2所示的LSTM预测网络，网络的输入是一个定长的时间序列[x_t-L-1,x_t-L-2,…,x_t]，输出y_t是该序列后将会发生异常的概率。当输出的概率大于某个阈值的时候，就产生一个异常警报。

针对本发明所述的两种异常，即单变量上下文异常与集体上下文异常，我们在训练阶段分别使用不同的标记数据来训练网络。

针对单变量上下文异常，我们使用带标记的原始时间序列数据进行训练，具体而言，我们使用采样自异常预测期的时间序列数据[x_t-L-1,x_t-L-2,…,x_t]作为正例，并采用采样自系统正常期的时间序列数据[x′_t-L-1,x′_t′_-L-2,…,x′_t′]作为反例，对上述结构的LSTM网络进行有监督的训练。在异常预测阶段，我们使用一个与LSTM网络结构等长的窗口扫描组件的实时性能指标数据，并将窗口内的数据送入训练好的LSTM网络中，网络的输出y_t即为该时间窗口后将会发生异常的概率。

针对集体上下文异常，我们使用带标记的残差时间序列数据进行训练，具体而言，我们使用采样自异常预测期的时间序列数据[r_t-L-1,r_t-L-2,…,r_t]作为正例，并使用采样自系统正常运行期间的时间序列数据[r′_t′_-L-1,r′_t′_-L-2,…,r′_t′]作为反例，对上述结构的LSTM网络进行有监督的训练。在异常预测阶段，我们使用一个与LSTM网络结构等长的窗口扫描生成该残差序列的一对组件，并基于他们之间的ARX模型，得到这对组件的残差序列，我们将该残差序列送入训练好的LSTM网络中，网络的输出y_t即为该时间窗口后将会发生异常的概率。

上述异常预测方法在真实世界KPI数据集上做了性能评估，并采用查准率(precision)与召回率(recall)作为衡量性能的指标。上述LSTM网络的输出是一个介于0到1之间的异常概率p，通常我们使用0.5作为分类阈值，当p＜0.5时，样本被分类为正常，否则被分类为异常。因此，我们可以通过改变分类阈值，对异常预测的性能做出调整。表1列出了基于LSTM的方法与作为对比的随机森林方法在不同分类阈值下的预测性能。由此可见，在相同召回率下，基于LSTM的异常预测方法的查准率更高，可以说明本专利所述的异常预测方法具有先进性。

表1

使用变分自动编码器(Variational Auto-Encoder，VAE)生成与真实异常事件的统计特性高度相似的时间序列，所生成的时间序列数据可以用于克服训练上述LSTM网络时所面临的正、负样本不平衡问题。

具体而言，本发明采用如图5所示的VAE网络。

所述VAE网络分为编码器(encoder)和解码器(decoder)部分，其中编码器与解码器均采用LSTM结构。在训练过程中，编码器的输入是真实异常事件的异常数据，编码器将训练样本映射到隐藏空间z中，解码器译码隐藏空间z中的码字，并重建训练样本，其中隐藏空间中的样本分布被设定为符合多维高斯分布。网络的训练目标是最小化如下的损失函数：

在生成阶段，VAE中的解码器被视为生成器，我们首先在多维高斯分布上进行随机采样，并将样本送入生成器，即可得到一个生成的异常事件的时间序列。所生成的时间序列与真实的异常事件时间序列可以视为在同一个概率分布上的不同采样，其形状与统计性质均与真实异常事件的时间序列高度相似，所以所生成的时间序列可以视为真实的异常事件用于训练2)中所提出的LSTM网络，从而解决因训练样本不均衡导致的模型性能下降的问题。

上述方法在真实世界KPI数据集上进行了性能评估。在训练阶段，我们使用整段异常事件的时间序列作为样本来训练VAE网络，所述VAE网络的隐藏空间维度为200。在生成阶段，我们在概率密度介于[0.5,0.79]的范围内200维高斯分布上进行随机采样，并将采样结果送入解码器，生成的异常数据样本如图6所示，其中数据的上升代表了异常事件的发生。由此可得，本发明所述的异常数据生成方法可以生成与真实异常事件的统计特性高度相似的时间序列。

Claims

1.一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，包括：

步骤S2：在线收集系统中所有组件的性能指标数据；

2.根据权利要求1所述的一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求2所述的一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，所述步骤S12具体包括：

步骤S121：针对任一二元组内的数据，生成一个自回归模型；

步骤S122：评估每一个自回归模型的R均方值：

4.根据权利要求3所述的一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，所述自回归模型的生成过程具体包括：

y_t+a₁y_t-1+…+a_ny_t-n＝b₀x_t-k+b₁x_t-k-1+…+b_mx_t-k-m

步骤A2：确定自回归模型：

θ＝[a₁,…,a_n,b₁,…,b_m]。

5.根据权利要求2所述的一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，所述步骤S16具体包括：

6.根据权利要求5所述的一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，所述异常事件生成器的架构为变分自动编码器。

7.根据权利要求5所述的一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，所述异常事件生成器的训练过程中，训练的目标为最小化如下损失函数：

8.根据权利要求1所述的一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，所述异常预测模型为长短期记忆循环神经网络。

9.根据权利要求1所述的一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，判断任一组件是否存在与其有关联关系的组件的过程具体为：判断是否存储了包含此组件的自回归模型，若为是，则判定自回归模型中涉及的两个组件存在关联，反之则判定该组件与其他组件均无关联关系。

10.根据权利要求4所述的一种基于深度机器学习模型的异常网络数据生成与预测方法，其特征在于，所述步骤S4具体包括：

其中：θ为自回归模型。