CN116541193A

CN116541193A - 基于Wasserstein距离和联合优化策略的云数据中心异常定位方法

Info

Publication number: CN116541193A
Application number: CN202310236102.2A
Authority: CN
Inventors: 陈鹏; 戚思博; 陈娟; 任建华; 单文煜; 张永辉; 牛宪华; 徐雷
Original assignee: Quzhou Haiyi Technology Co ltd; Xihua University
Current assignee: Quzhou Haiyi Technology Co ltd; Xihua University
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-08-04

Abstract

本发明公开了基于Wasserstein距离和联合优化策略的云数据中心异常定位方法，涉及计算机技术领域，包括S1构建异常检测模型；S2获取历史数据，并导入异常检测模型进行训练优化；S3实时获取数据中心传感器设备的采集数据；S4采集数据导入优化后的异常检测模型进行异常检测，并得到异常结果；基于使用Wasserstein距离和梯度惩罚的GAN架构和并行训练的长短期记忆网络预测器实现。使用Wasserstein距离和梯度惩罚，可以正确衡量生成器生成的数据和原始样板数据之间的分布差异，解决经典GAN模型中使用JS散度导致的模式崩溃和梯度消失的问题，使整个训练过程稳定且收敛。LSTM神经网络对数据进行特征提取并预测下一个时间步的预期值，使用预测误差参与异常打分阶段提高模型的异常检测精度。

Description

基于Wasserstein距离和联合优化策略的云数据中心异常定位方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于Wasserstein距离和联合优化策略的云数据中心异常定位方法。

背景技术

近年来，云计算技术的发展日新月异。作为支持云计算服务的基础设施，云数据中心是一套复杂的高度虚拟化、自动化的设施，使得系统容易陷入异常，导致低质量的用户体验。因此，云数据中心的异常检测技术至关重要，因为数据主要来自物联网(IoT)的各种传感器。因此，我们一般会在云数据中心中考虑到多变量时间序列异常检测。然而，由于异常点的稀疏性和时间数据的噪声，异常点的模式可能与正常模式相似，这导致一些细微异常很难被区分。此外，现有的检测技术仍然有很高的误报率，并将正常行为判断为异常行为。因此，在保证多变量时间序列数据的检测召回率的同时降低误报率仍然是一个挑战，由于在多变量时间序列分析中效果较好，基于深度学习的异常检测方法吸引了越来越多的研究兴趣，近年来，国内外相关研究人员在多元时间序列异常检测方面取得了相当大的进展，根据是否使用神经网络，时间序列异常检测算法主要分为两类传统的时间序列异常检测方法和基于深度学习的异常检测方法，时间序列异常检测方法的缺点是需要关于异常持续时间和异常数量的先验知识，或者难以扩展到处理云数据中心中具有非线性和非平滑序列的多变量时间序列；基于深度学习的异常检测方法的缺点是在处理非线性、高维度和噪声数据时有局限性。

因此，现有的异常检测方法仍然存在以下不足：①由于物联网监控对象的复杂性和高动态性，采集的实时数据的非平稳、非线性和高噪声等特性使得时间序列不同时间特性和空间特性之间的相关性信息提取难度增加，导致异常检测的假阳率增加。②面对高维、海量的数据，现有的基于深度学习的检测方法通常采用单一的异常判定标准，这难以满足实际生产环境中对细微异常的有效检出的需求。

发明内容

本发明的目的就在于为了解决上述问题设计了一种基于Wasserstein距离和联合优化策略的云数据中心异常定位方法。

本发明通过以下技术方案来实现上述目的：

基于Wasserstein距离和联合优化策略的云数据中心异常定位方法，包括：

S1、构建异常检测模型，异常检测模型包括数据处理层、预测器、生成器、判别器和输出层，数据处理层用于处理导入异常检测模型的数据，输出层用于分析并输出异常结果，数据处理层的输出作为预测器、生成器和判别器的输入，预测器、生成器和判别器的输出均作为输出层的输入；

S2、获取历史数据，并导入异常检测模型进行训练优化；

S3、实时获取数据中心传感器设备的采集数据；

S4、采集数据导入优化后的异常检测模型进行异常检测，并得到异常结果。

本发明的有益效果在于：本技术基于使用Wasserstein距离和梯度惩罚的GAN架构和并行训练的长短期记忆网络预测器实现。一方面，使用Wasserstein距离和梯度惩罚，可以正确衡量生成器生成的数据和原始样板数据之间的分布差异，从而解决经典GAN模型中使用JS散度导致的模式崩溃和梯度消失的问题，使整个训练过程稳定且收敛。另一方面，使用LSTM神经网络对数据的时序信息进行特征提取并由此预测下一个时间步的预期值，使用预测误差参与异常打分阶段提高模型的异常检测精度。

附图说明

图1是本发明基于Wasserstein距离和联合优化策略的云数据中心异常定位方法的模型架构图；

图2是本发明基于Wasserstein距离和联合优化策略的云数据中心异常定位方法的流程示意图；

图3是本异常检测模型与所有基线方法在4个数据集上的异常检测性能指标对比图；

图4是本异常检测模型与与基于GAN的多元时间序列异常检测方法MADGAN的训练过程收敛性对比图；

图5是本发明基于Wasserstein距离和联合优化策略的云数据中心异常定位方法与5种异常检测方法在4个数据集上的检测性能对比。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要理解的是，术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图，对本发明的具体实施方式进行详细说明。

如图1、图2所示，基于Wasserstein距离和联合优化策略的云数据中心异常定位方法，包括：

S1、构建异常检测模型，异常检测模型包括数据处理层、预测器、生成器、判别器和输出层，数据处理层用于处理导入异常检测模型的数据，输出层用于分析并输出异常结果，数据处理层的输出作为预测器、生成器和判别器的输入，预测器、生成器和判别器的输出均作为输出层的输入；生成器包括三层MLP神经网络，MLP神经网络的隐藏层的大小为输入数据维度的一半，判别器包括一层一维卷积层和两层MLP神经网络，一维卷积层的卷积核大小为3，padding为1，预测器包括两层LSTM神经网络和一层MLP神经网络。

S2、获取历史数据，并导入异常检测模型进行训练优化；具体包括：

S21、获取历史数据，历史数据为多变量时间序列x＝[x₁,x₂,…,x_T]，其中T为多变量时间序列的长度，x_t∈R^M是在时间t的值，M是输入中的特征数；

S22、对历史数据进行预处理获得训练数据集X∈R^N×S，x_1:T被分割成N个长度为S的时间序列，用x_i,1:S来表示X中的第i^th个时间序列，采用标准正态分布，即对随机向量z进行采样，以代表白噪声；

S23、数据处理层对训练数据集进行最大值最小值归一化处理，根据提前设定好的滑动窗口来输入数据到生成器、判别器和预测器中，每一个滑动窗口分为条件域数据和目标域数据；

S24、滑动窗口的目标域数据作为生成器和判别器的输入，滑动窗口的目标域数据和条件域均作为预测器的输入；

S25、滑动窗口的目标域数据加上潜在空间的噪声后，由生成器进行重构输出重构后的数据，判别器比较滑动窗口的目标域数据和生成器重构的数据，进行相似度判断，根据相似度判断的结果利用Wasserstein距离更新生成器的训练参数，利用梯度惩罚方法迫使判别器的梯度范数接近1，直到生成器和判别器之间达到纳什均衡；滑动窗口的条件域数据输入到预测器，预测器输出预测数据，通过预测数据和滑动窗口的目标域数据指导预测器训练，预测器训练优化时的目标函数为MSE损失函数，即使用预测值和真实值之间的均方误差作为预测器损失函数，指导预测器训练，表示为预测器通过生成器和判别器并行训练使MSE损失函数最小化。

Wasserstein距离：将两个分布的移动计划矩阵标记为Wasserstein距离是寻找将一个分布的矩阵元素P转化为另一个分布的矩阵元素Q的成本最小化的计划矩阵v的方法，x_q是移动计划υ的列式求和，x_q是行式求和，计划υ的平均距离B(·)表示为Wasserstein距离W(·)的函数表述为

梯度惩罚方法：迫使判别器的梯度范数接近1，目标函数表示为其中，P_g表示生成器生成数据的数据分布，P_r表示真实数据集的数据分布，/>表示生成器生成数据，D(·)表示判别器神经网络，/>并且∈～U[0,1]，λ表示梯度惩罚系数。

S3、实时获取数据中心传感器设备的采集数据；

S4、采集数据导入优化后的异常检测模型进行异常检测，并得到异常结果；具体为：采集数据通过优化后的生成器生成重构值，优化后的判别器生成判别值，优化后的预测器整成预测值；输出层根据生成器的重构值、判别器的判别值、预测器的预测值和真实值之间的三种误差计算三种异常分数，表示为

其中Rscore表示生成器重构异常分数，Dscore表示鉴别器判别异常分数，Pscore表示预测器预测异常分数，N表示切分出的时间片段数量，S表示切分出的时间片段的末端时间点，R(·)、D(·)和P(·)分别表示生成器、鉴别器、和预测器；然后根据三种异常分数计算得到异常总分，表示为ADscore＝αRscore+βDscore+γPscore，α+β+γ＝1，α、β、γ分别为异常分数Rscore、Dscore和Pscore的权重；最后比较异常总分与预先设定的阈值输出向量/>其中/>表示二进制标签，表示时间戳t是否是异常。

实验

数据集

Skoltech Anomaly Benchmark(SKAB)[14]，用于评估异常检测算法所生成的数据集。它包括30多个数据集，数据集的收集都是安装在测试平台上的传感器收集起来的。异常比例为35.4％，时间数据粒度也为1s，数据维度为8。我们选取第1台传感器收集的数据进行实验。

Soil Moisture Activate Passive satellite(SMAP)和Mars ScienceLaboratory rover(MSL)是由NASA每隔1min收集的两个不同的航天器数据集，且MSL数据维度为55、SMAP数据维度为25。SMAP是美国的地球观测卫星所收集到的土壤水分遥感信息数据，MSL是火星科学实验室漫游者收集的数据。它们的异常比例分别为13.13％和10.72％。我们分别选取A-2和C-1子集进行实验。

接下来的实验用于对比本方法与已有方法之间的性能差异。

数据预处理

为了提高模型的精度和收敛速度，我们采用数据标准化处理训练集和测试集，通过这一手段消除不同量纲对模型的影响。我们采用最大最小值归一化。

模型训练过程

模型训练的流程图如图2所示，我们通过物联网设备收集的原始数据要先预处理，然后使用最大最小值归一化，根据提前设定好的滑动窗口来输入数据到异常检测模型中。

对于输入生成器、判别器和预测器的滑动窗口，每一个滑动窗口分为条件域和目标域。模型中生成器和判别器的输入为滑动窗口的目标域，其目的是重构出和滑动窗口的目标域特征模式尽可能接近的数据。模型中预测器的输入为滑动窗口的条件域和目标域，其目的是通过学习滑动窗口条件域的特征表示来预测出和滑动窗口的目标域特征模式尽可能接近的数据。

输入到生成器和判别器的滑动窗口目标域数据在加上潜在空间的噪声后，由生成器进行重构输出重构后的数据。判别器比较滑动窗口目标域数据和生成器重构的数据，进行相似度判断，并将给出的相似度判断用于更新生成器的训练参数，直到生成器和判别器之间达到纳什均衡，生成器能够生成出足以欺骗判别器的高质量数据为止。生成器由三层MLP组成，隐藏层的大小为输入数据维度的一半。判别器由一层一维卷积层和两层MLP层组成。一维卷积层的卷积核大小为3，padding为1。

输入到预测器的滑动窗口条件域数据经由LSTM层处理后，输出预测的和目标域模式接近的预测数据。预测器的目标函数为MSE损失函数，使用预测值和真实值之间的均方误差作为预测器损失函数，指导模型训练，其表示为：

预测器通过同生成对抗网络模块并行训练最小化这一损失函数。

在模型训练完毕之后，使用生成器重构值、判别器判别值、预测器预测值和真实值之间的三种误差，作为模型的异常分数。三种不同的异常分数表示为：

由此得到异常总分，表示为：

ADscore＝αRscore+βDscore+γPscore

在这个方程中，α+β+γ＝1用于参数化Rscore、Dscore和Pscore之间的权重。在异常检测期间，异常通过异常分数和特定阈值来识别。

模型性能指标

模型的性能比较采用分类的几个基于混淆矩阵的主要性能指标：精确率、召回率、F1。

其中精确率(Precision)的含义是在被所有预测为正的样本中实际为正样本的概率，表示所有预测为正样本的样本中，真正为正样本的占比。其表达式为：

召回率(Recall)的含义是在实际为正的样本中被预测为正样本的概率，表示在所有原样本中有多少正样本被检出。其表达式为：

F1同时考虑精确率和召回率，让两者同时达到最高，取得平衡。F1分数表达式为：

模型比较结果

从图3、图4、图5可以看出，与已有的模型相比，本模型在四个真实数据集中的实验结果如下：

从图5和图3中可以看到，本异常检测模型在四个数据集上表现出优异的异常检测性能，包括精度、F1得分。提出的PW-GAN-GP方法在这四个数据集上的表现明显优于所有其他方法，在SMD和PSM上分别获得了0.964和0.957的最佳F1分数。值得注意的是，与第二好的模型OmniAnomaly相比，本异常检测模型在这四个数据集上取得了11.67％的最佳F1分数的总体改进，以及精确度上17.94％的显著提升。

由图5可以看出，在SMAP和MSL数据集上的最佳F1得分方面的整体改进，没有SMD和PSM显示的那么令人印象深刻。NASA异常数据集和网络攻击数据集之间结果的主要差异在于特征依赖性。SMAP测量的各种分离属性，如辐射、温度、计算活动等，提供了对陆地表面土壤水分的测量，虽然不是完全独立的，但与SMD或PSM中的内部关联要小得多。然而，在像SMD和PSM这样的云平台数据集中，一个传感器上发生的任何轻微变化都可以传播到整个网络。因此，提出的生成式对抗学习和联合优化策略可能对云平台这样多个维度是相互紧密联系的数据集更有效。

模型收敛性分析

如图3所示。为了说明本异常检测模型所使用的Wasserstein距离和梯度惩罚对模型收敛性的提升，对比了本异常检测模型和基于GAN的多元时间序列异常检测方法MADGAN在SMD数据集子集上的收敛性对比。选用平均MSE损失函数作为训练过程中的收敛性指标，并且进行了最大最小值归一化以消除量纲的影响。可以看出本异常检测模型在训练过程中稳定收敛，而MADGAN在训练的初期阶段后很快开始出现波动乃至发散的现象。这很好地验证了本异常检测模型中所使用的Wasserstein距离和梯度惩罚对模型收敛性的提升的有效性。

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.基于Wasserstein距离和联合优化策略的云数据中心异常定位方法，其特征在于，包括：

S2、获取历史数据，并导入异常检测模型进行训练优化；

S3、实时获取数据中心传感器设备的采集数据；

2.根据权利要求1所述的基于Wasserstein距离和联合优化策略的云数据中心异常定位方法，其特征在于，生成器包括三层MLP神经网络，MLP神经网络的隐藏层的大小为输入数据维度的一半，判别器包括一层一维卷积层和两层MLP神经网络，一维卷积层的卷积核大小为3，padding为1，预测器包括两层LSTM神经网络和一层MLP神经网络。

3.根据权利要求1所述的基于Wasserstein距离和联合优化策略的云数据中心异常定位方法，其特征在于，S2包括：

S22、对历史数据进行预处理获得训练数据集X∈R^N×S，x_1:T被分割成N个长度为S的时间序列，用x_i,1:S来表示X中的第i^th个时间序列；

S25、滑动窗口的目标域数据加上潜在空间的噪声后，由生成器进行重构输出重构后的数据，判别器比较滑动窗口的目标域数据和生成器重构的数据，进行相似度判断，利用相似度判断的结果更新生成器的训练参数，直到生成器和判别器之间达到纳什均衡；滑动窗口的条件域数据输入到预测器，预测器输出预测数据，通过预测数据和滑动窗口的目标域数据指导预测器训练。

4.根据权利要求3所述的基于Wasserstein距离和联合优化策略的云数据中心异常定位方法，其特征在于，在S25中，利用Wasserstein距离和梯度惩罚训练生成器和判别器，利用MSE损失函数练优化预测器，预测器通过生成器和判别器并行训练使MSE损失函数最小化，MSE损失函数表示为

5.根据权利要求1所述的基于Wasserstein距离和联合优化策略的云数据中心异常定位方法，其特征在于，输出层根据生成器重构值、判别器判别值、预测器预测值和真实值计算三种异常分数，并根据三种异常分数计算异常总分，异常分数表示为其中Rscore表示生成器重构异常分数，Dscore表示鉴别器判别异常分数，Pscore表示预测器预测异常分数，N表示切分出的时间片段数量，S表示切分出的时间片段的末端时间点，R(·)、D(·)和P(·)分别表示生成器、鉴别器、和预测器，异常总分表示为ADscore＝αRscore+βDscore+γPscore，α+β+γ＝1，α、β、γ分别为异常分数Rscore、Dscore和Pscore的权重；根据异常总分和预先设定的阈值输出向量/>其中/>表示二进制标签，表示时间戳t是否是异常。

6.根据权利要求4所述的基于Wasserstein距离和联合优化策略的云数据中心异常定位方法，其特征在于：

Wasserstein距离：将两个分布的移动计划矩阵标记为Wasserstein距离是寻找将一个分布的矩阵元素P转化为另一个分布的矩阵元素Q的成本最小化的计划矩阵v的方法，x_p是移动计划υ的列式求和，x_q是行式求和，计划υ的平均距离B(·)表示为Wasserstein距离W(·)的函数表述为