CN114090396A

CN114090396A - 一种云环境多指标无监督异常检测和根因分析方法

Info

Publication number: CN114090396A
Application number: CN202210077012.9A
Authority: CN
Inventors: 刘发贵; 庄荣忠
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-02-25
Anticipated expiration: 2042-01-24
Also published as: CN114090396B

Abstract

本发明公开了一种云环境多指标无监督异常检测和根因分析方法。所述方法具体如下：对云服务器中的多个时序指标数据进行数据的预处理，划分训练集、验证集和测试集；剔除训练集中的异常数据簇，并为训练集其余的数据簇打上伪正常标签；将训练集、测试集和验证集的数据进行样本划分，得到子序列；根据进行样本划分后的训练集的样本数据训练无监督异常检测模型；对测试集的时序指标数据进行异常检测，得到异常概率，确定异常数据点，标记异常区间；使用特征选择方法对异常区间中的多个变量计算权重，根据权重大小得到影响异常的指标。本发明检测的类型更多且准确性越高。其采用的LSTM层对数据的时间关系进行捕获，更好的分析指标的时序特征。

Description

一种云环境多指标无监督异常检测和根因分析方法

技术领域

本发明属于云环境中的数据处理分析技术领域，尤其涉及一种云环境多指标无监督异常检测和根因分析方法。

背景技术

随着云计算新技术包括SDN(Software Defined Network)、高可用性部署(HighAvailability)、监控和审计技术地不断发展，云计算在企业和个人的日常运转过程中正发挥很大的正向优势。正是由于云环境的广泛使用，工业界和学术界对云环境稳定性也有了一定的要求。其中，为了保证云环境的稳定性，对云环境进行异常检测并进行故障定位成为了重要研究问题。这不仅可以帮助维护人员快速定位到可能出错的模块，也可以提高系统的容错性，保证在故障出现之前可以快速进行恢复，提高用户体验。

在云环境中，海量的机器监控数据包括监控指标数据、日志数据、调用轨迹等，让运维人员很难实时地诊断出异常，并寻找出导致异常的关键因素。现有的一些智能算法可以通过这些监控数据包括但不限于机器性能指标、日志数据、服务调用链，来对机器异常进行诊断，并进行分析，定位到异常相关的关键因素。

其中，通过监控指标进行故障根因分析主要有几种方式。一是对指标总量进行异常检测，再对检测出的异常定位出导致该异常的细粒度指标集合；二是分析多维的时间序列数据，找到发生异常时不同指标之间的关联关系，诊断根因；三是通过监控数据和日志、监控数据和服务调用的组合方式，来分析定位异常，如对日志事件进行诊断时，可以分析与事件相关的时序数据，进而对事件发生的原因进行分析。最早异常检测模型是由Denning提出一个面向主机的异常检测模型。如今，随着智能运维的发展，一些机器学习智能算法也逐渐被应用到异常检测中。文献“基于序列化自编码器的无监督KPI异常检测方法（CN113204590A）”提出了一种基于序列化自编码器的无监督KPI异常检测方法，但对于云环境中不平衡的数据，难以构建很好的异常检测模型。文献“一种无监督指标异常检测方法（CN113064796A）”预先将指标突变异常进行分类，并根据指标突变异常的不同类别的性质,将对应的指标类型划分为不同类型，从而对待测指标数据进行检测。然而，云环境系统具有海量基于时间序列的指标数据，指标之间互相影响，且对指标数据打上标签需要耗费大量的人力物力。常用的异常检测算法有神经网络如长短期记忆网络（LSTM）和自动编码器（AE）等、支持向量机算法（SVM）、随机森林算法（RF）、贝叶斯算法、最近邻算法等，但这些算法很多都依赖于现有的标签，而且云环境中不平衡的数据也使得这些算法难以达到理想的准确度。然而，在实际的云环境异常检测中，由于监控指标数据不平衡、给数据打上标签需要耗费很大的人力物力，以及监控指标维度的不断增多，监控指标之间互相影响，如何构造一种适合云环境的无监督异常检测和分析方法仍然是云环境智能运维的一项重大挑战。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种云环境多指标无监督异常检测和根因分析方法，用以利用云环境中的指标监控数据，对云环境中的异常进行检测，并找出异常相关的指标因素，从而实现异常检测分析，提高云环境的可靠性和容错性。

本发明通过如下技术方案实现：

一种云环境多指标无监督异常检测和根因分析方法，包括以下步骤：

S1、对云服务器中的多个时序指标数据进行数据的预处理，将预处理后的数据划分为训练集、验证集和测试集；

S2、采用基于堆叠自动编码器和K-Means聚类结合的方法剔除训练集中的异常数据簇，并为训练集其余的数据簇打上表示正常的伪正常标签；使用滑动窗口将训练集、测试集和验证集的数据进行样本划分，得到一定时间步长的子序列；

S3、根据步骤S2中进行样本划分后的训练集的样本数据训练基于LSTM网络的无监督异常检测模型；

S4、使用训练好的无监督异常检测模型对测试集的时序指标数据进行异常检测，得到异常概率，大于给定阈值的时序指标数据点为异常数据点，反之为正常数据点；并根据是否在异常区间开始后的不晚于T个时间点内检测到该异常区间的异常数据点，对异常区间进行标记；

S5、使用特征选择方法对异常区间中的多个变量计算权重，根据权重大小得到影响异常的指标。

进一步地，步骤S1中，数据的预处理包括缺失值处理和数据归一化处理；

所述缺失值处理为对多个时序指标数据中的空缺值进行人工填充和删除；对于某行或某列时序指标数据中的缺失值超过10个的，直接删除该行时序指标数据样本或者该列时序指标数据，而对于某行或某列时序指标数据中的连续缺失值不超过10个，选取同列中前后10个非缺失值的平均值进行填充；

所述数据归一化处理为使用归一化函数，使缺失值处理后的多个时序指标数据的值分布在[0,1]中，具体如下：

其中，

是归一化后的时序指标数据，

为时序指标数据，

为多个时序指标数据中的最大值和最小值。

进一步地，步骤S2包括以下步骤：

S2.1、采用堆叠自动编码器的方法逐层提取训练集中的时序指标数据的特征并降维，得到降维处理后的时序指标数据，从而简化复杂的多个时序指标数据，获得多个时序指标数据更高层次的特征；

S2.2、采用K均值聚类算法（K-Means）对降维处理后的时序指标数据进行聚类，使得少数的异常数据点聚合成一个数据簇，剔除数据量最少的数据簇，从而降低训练集中少数异常数据样本的影响，为无监督异常检测模型提供更合适的输入，然后为剩余的数据簇打上表示正常的伪正常标签；

S2.3、采用滑动窗口将打上伪正常标签后的时序指标数据划分为给定时间步长的子序列，作为无监督异常检测模型的输入。

进一步地，步骤S2.1中，堆叠自动编码器由多个自动编码器叠加构成，每一层的自动编码器都是一种无监督神经网络，通过全连接神经网络实现；自动编码器包括输入层，隐藏层和输出层；

在自动编码器（AE）的输入层输入

，经过编码阶段得到隐藏层输出

，再将隐藏层输出经过解码阶段得到与输入层输入

类似的输出层

；其中，输出层的维度与输入层的维度相同，而隐藏层则是降维后的输入层输入

的特征表示；每一层自动编码器训练完成后，保留隐藏层作为下一层自动编码器的输入；自动编码器的实现包括编码过程和解码过程：

编码过程即是从输入层映射隐藏层的过程，通过双层全连接神经网络实现，并利用编码函数

把输入向量

映射到隐藏层中输出

，具体如下：

其中，

是时序指标数据或者是上一层自动编码器的隐藏层，

是编码阶段权重向量，

是编码阶段偏置单元，

是激活函数

;

解码过程即是从隐藏层到输出层的映射过程，通过一层全连接网络实现，并利用解码函数

把编码阶段的输出

重构得到输出向量

，具体如下：

其中，

是解码阶段的输出，与输入层输入

相近，

是解码阶段权重向量，

是解码阶段偏置单元，

是激活函数

；

在每一层自动编码器（AE）中，以多个时序指标数据或者上一层自动编码器的隐藏层输出做为输入，经过自动编码器后即可重构新的输出向量

，其中，

为自动编码器的序号，

为第

层自动编码器的输入向量，

为第

层自动编码器的输出向量；通过自动编码器中全连接层神经网络的训练，输出向量

与输入向量

类似，得到降维的隐藏层向量做为输入层更深层次的表达，作为输入向量

提取的特征；

堆叠自动编码器由多个单层自动编码器组成，每一层自动编码器都以前一层自动编码器的隐藏层向量为基础，抽取出更加抽象的表达特征，从而能够逐层地学习时序指标数据；对于时序指标数据，采用无监督的训练方式训练第一层自动编码器，将隐藏层向量做为下一层自动编码器的输入，以相同的方式训练后续的自动编码器，最后一层的自动编码器的隐藏层向量即为最后降维后的时序指标数据的特征表示。

进一步地，步骤S2.2中，K均值聚类算法（K-Means）是一种经典的聚类算法，根据降维处理后的时序指标数据样本之间的距离大小，将时序指标数据样本集

划分为k个数据簇，k值根据实验参数调整，使得异常数据尽可能被分到一个数据簇中，

是第M个时序指标数据样本；

通过选择k个质心，让数据簇内的多个时序指标数据样本尽可能紧密的连在一起，做为一类相似的样本，并使得每个数据簇间的距离尽可能大；

K均值聚类算法首先随机选取k个时序指标数据样本

做为初始的k个质心，

为选取作为第k个质心的时序指标数据样本，并对其余的时序指标数据通过距离公式(4)归类到某个数据簇，接着根据公式(5)更新每个数据簇中的质心样本，重复上述过程，直至所有的质心样本都没有发生变化，输出最后的k个数据簇

；最终使得平方误差

最小化，如公式(6)所示，具体如下：

其中，

和

分别为第

个时序指标数据点和第

个质心，

为

和

的距离，

为第

个数据簇。

进一步地，步骤S2.3中，通过滑动窗口，将打上伪正常标签后的时序指标数据划分为多个给定时间步长子序列，作为无监督异常检测模型的输入

，每个子序列

，其中

和

中的

都为子序列的个数，

为滑动窗口的大小即时间步长，

为每个时序指标数据样本的维度，

为第d 个子序列，d的取值为1~n。

进一步地，步骤S3中，基于LSTM网络的无监督异常检测模型为采用LSTM神经网络构建生成器和判别器的生成对抗网络；

生成器包括多个不同的子生成器，通过集成多个子生成器生成的异常数据，使得生成的异常数据

具有多样性，避免生成高度相似的样本；其中，

是第

个子生成器中输入的正态分布的随机数，

是第

个子生成器生成的异常数据；

在训练时，根据滑动窗口处理后的子序列

与生成器

生成的异常数据通过判别器

进行分辨；生成器

通过循环训练尽可能减小生成的异常数据和滑动窗口处理后的子序列之间的差距直至判别器

不能区分，则开始循环训练判别器

，增强判别器

的辨别能力；经过生成器和判别器多次更新迭代，尽可能减少生成的异常数据和滑动窗口处理后的子序列的差异；判别器用于辨别滑动窗口处理后的子序列和异常数据，通过检测给定的数据点得到数据点的异常概率；生成器和判别器之间的更新迭代是一种极小极大博弈（

博弈）的过程，如公式(7)所示：

其中，

是生成器和判别器的对抗博弈函数，

是训练判别器，尽可能使判别器能识别出生成的异常数据和滑动窗口处理后的子序列，

是训练生成器，使得生成器尽可能最小化生成的异常数据和滑动窗口处理后的子序列的差异，

为判别器的输出，即数据点

为正常数据点的概率，z为正态分布随机数，

为生成器的输出，

为生成器的交叉熵损失函数，

为判别器的交叉熵损失函数。

进一步地，生成器和判别器都是基于LSTM神经网络构建，输入是滑动窗口处理后的子序列；LSTM神经网络中的每一个LSTM单元的输入包括一个时间点数据和上一层LSTM单元的隐藏层状态

，输出为当前LSTM单元的隐藏层状态

，其中

和

是第t 个LSTM单元的状态值和遗忘门值；在生成器中，LSTM神经网络中各个LSTM单元的隐藏层的状态值向量

经过

激活函数和全连接神经网络训练得到生成的异常数据；同样的，在判别器中，LSTM神经网络的隐藏层的状态值向量通过全连接网络层调整目标输出维度，得到每个子序列的异常概率值，如公式(8)和公式(9)所示：

其中，

是一个LSTM单元，

是第t个LSTM单元的隐藏层输出，

为数据点，

和

为全连接神经网络的权重向量和偏置单元，

是

网络的隐藏层状态值向量，

为异常概率值。

进一步地，步骤S4中，使用训练好的无监督异常检测模型对测试集的数据进行异常检测，输出测试集的数据的异常概率，并根据给定的阈值，异常概率大于阈值的数据判定为异常数据，否则判定为正常数据；

云环境中的异常是发生在某一段时间内，异常检测算法检测的不单单是一个数据点，而是在该时间段内的异常数据点集，该异常时间段内的数据为异常区间；对于检测到的异常数据点，如果在异常区间内，在异常开始的不晚于T个时间内能检测到异常数据点，则可以检测出该异常区间，否则检测不出该异常区间，T是实验参数，根据具体数据集进行调参；

对训练好的无监督异常检测模型的输出的异常概率，给定一个阈值，大于阈值的判定为异常数据样本，否则为正常样本；在连续的异常区间内，如果在开始后的不晚于T个时间点内可以检测到异常数据样本，则认为可以检测到该段异常区间，则该区间内的每一个异常点都为一次正确检测；

进一步地，步骤S5中，使用Relief特征选择算法，计算多个时序指标数据中的各个指标特征对异常区间的影响权重，并根据权重对指标特征进行排序，将根因分析问题归结为排序推荐的问题，定位到导致异常区间的关键指标特征；

Relief算法的主要思想是通过计算指标特征的权重来度量特征的重要性，通过计算一个向量，该向量的每个分量代表每个指标特征的对于分类的评价值，即权重值。每个特征指标的权值计算如公式(10)所示：

其中，

表示指标特征

的权值，

表示数据点

在指标特征

上的取值，

表示与数据点

同类别的数据点与数据点

的距离，

表示与数据点

不同类别的数据点与数据点

的距离；如果

小于

，则说明指标特征

对于分类效果是有利的，且差值越大，即

越大，表明指标特征

的分类能力越强，对异常区间的影响程度越大。

与现有技术相比，本发明具有如下的优点与技术成果：

1、提供了一种无监督的机器学习方法GAN对时序数据进行异常检测、不依赖于具体标签以及能够处理不平衡数据的方法，更拟合现实云环境。

2、所提出的基于LSTM网络的生成对抗网络通过捕获多指标之间的时序关系对异常序列进行检测。相比于常规方法的单指标异常检测方法，检测的类型更多且准确性越高。其采用的LSTM层对数据的时间关系进行捕获，更好的分析指标的时序特征；其采用的K-Means聚类也使得输入更加合理，降低训练难度；其采用的多目标生成器可以获得更加多样的异常数据，使得检测精度更高、泛化能力更强。

3、所提出的特征选择算法对异常序列进行根因定位。通过根据所计算的特征权值进行排序的方式，向运维人员定位异常序列的异常指标，更好的帮助运维人员对故障进行处理，降低故障处理时间。

附图说明

图1为本发明实施例中基于多指标时间序列的无监督异常检测和根因定位方法的流程示意图。

图2为本发明实施例中堆叠自动编码器和KMeans聚类预标注方法示意图。

图3为本发明实施例中训练集、测试集和验证集划分，以及滑动窗口划分子序列示意图。

图4为本发明实施例中多目标生成对抗网络示意图。

图5为本发明实施例中LSTM-GAN网络示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图，进行进一步的详细说明，但本发明的实施和保护不限于此。

实施例：

一种云环境多指标无监督异常检测和根因分析方法，如图1所示，包括以下步骤：

S1、对云服务器中的多个时序指标数据进行数据的预处理，数据的预处理包括缺失值处理和数据归一化处理；

其中，

是归一化后的时序指标数据，

为时序指标数据，

为多个时序指标数据中的最大值和最小值。

将预处理后的数据划分为训练集、验证集和测试集。

S2、如图2所示，采用基于堆叠自动编码器和K-Means聚类结合的方法剔除训练集中的异常数据簇，并为训练集其余的数据簇打上表示正常的伪正常标签；如图3所示，使用滑动窗口将训练集、测试集和验证集的数据进行样本划分，得到一定时间步长的子序列，包括以下步骤：

堆叠自动编码器由多个自动编码器叠加构成，每一层的自动编码器都是一种无监督神经网络，通过全连接神经网络实现；自动编码器包括输入层，隐藏层和输出层；

在自动编码器（AE）的输入层输入

，经过编码阶段得到隐藏层输出

，再将隐藏层输出经过解码阶段得到与输入层输入

类似的输出层

把输入向量

映射到隐藏层中输出

，具体如下：

其中，

是时序指标数据或者是上一层自动编码器的隐藏层，

是编码阶段权重向量，

是编码阶段偏置单元，

是激活函数

;

把编码阶段的输出

重构得到输出向量

，具体如下：

其中，

是解码阶段的输出，与输入层输入

相近，

是解码阶段权重向量，

是解码阶段偏置单元，

是激活函数

；在每一层自动编码器（AE）中，以多个时序指标数据或者上一层自动编码器的隐藏层输出做为输入，经过自动编码器后即可重构新的输出向量

，其中，

为自动编码器的序号，

为第

层自动编码器的输入向量，

为第

与输入向量

提取的特征；

K均值聚类算法（K-Means）是一种经典的聚类算法，根据降维处理后的时序指标数据样本之间的距离大小，将时序指标数据样本集

是第M个时序指标数据样本；

K均值聚类算法首先随机选取k个时序指标数据样本

做为初始的k个质心，

；最终使得平方误差

最小化，如公式(6)所示，具体如下：

其中，

和

分别为第

个时序指标数据点和第

个质心，

为

和

的距离，

为第

个数据簇。

S2.3、采用滑动窗口将打上伪正常标签后的时序指标数据划分为给定时间步长的子序列，作为无监督异常检测模型的输入；

通过滑动窗口，将打上伪正常标签后的时序指标数据划分为多个给定时间步长子序列，作为无监督异常检测模型的输入

，每个子序列

，其中

和

中的

都为子序列的个数，

为滑动窗口的大小即时间步长，

为每个时序指标数据样本的维度，

为第d个子序列，d 的取值为1~n。

S3、如图4和图5所示，根据步骤S2中进行样本划分后的训练集的样本数据训练基于LSTM网络的无监督异常检测模型；

基于LSTM网络的无监督异常检测模型为采用LSTM神经网络构建生成器和判别器的生成对抗网络；

具有多样性，避免生成高度相似的样本；其中，

是第

个子生成器中输入的正态分布的随机数，

是第

个子生成器生成的异常数据；

在训练时，根据滑动窗口处理后的子序列

与生成器

生成的异常数据通过判别器

进行分辨；生成器

不能区分，则开始循环训练判别器

，增强判别器

的辨别能力；经过生成器和判别器多次更新迭代，尽量减少生成的异常数据和滑动窗口处理后的子序列的差异；判别器可以用于辨别滑动窗口处理后的子序列和异常数据，通过检测给定的数据点得到数据点的异常概率；生成器和判别器之间的更新迭代是一种极小极大博弈（

博弈）的过程，如公式(7)所示：

其中，

是生成器和判别器的对抗博弈函数，

为判别器的输出，即数据点

为正常数据点的概率，z为正态分布随机数，

为生成器的输出，

为生成器的交叉熵损失函数，

为判别器的交叉熵损失函数。

生成器和判别器都是基于LSTM神经网络构建，输入是滑动窗口处理后的子序列； LSTM神经网络中的每一个LSTM单元的输入包括一个时间点数据和上一层LSTM单元的隐藏层状态

，输出为当前LSTM单元的隐藏层状态

，其中

和

是第t个LSTM单元的状态值和遗忘门值；在生成器中，LSTM神经网络中各个LSTM单元的隐藏层的状态值向量

经过

其中，

是一个LSTM单元，

是第t个LSTM单元的隐藏层输出，

为数据点，

和

为全连接神经网络的权重向量和偏置单元，

是

网络的隐藏层状态值向量，

为异常概率值。

S4、使用训练好的无监督异常检测模型对测试集的数据进行异常检测，输出测试集的数据的异常概率，并根据给定的阈值，异常概率大于阈值的数据判定为异常数据，否则判定为正常数据；

云环境中的异常是发生在某一段时间内，异常检测算法检测的不单单是一个数据点，而是在该时间段内的异常数据点集，该异常时间段内的数据为异常区间；对于检测到的异常数据点，如果在异常区间内，在异常开始的不晚于t个时间内能检测到异常数据点，则可以检测出该异常区间，否则检测不出该异常区间，T是实验参数，根据具体数据集进行调参，本实施例中，通过在2~5范围内选取T的值，尽可能识别出异常点所在的异常区间；

S5、使用特征选择方法对异常区间中的多个变量计算权重，根据权重大小得到影响异常的指标；

使用Relief特征选择算法，计算多个时序指标数据中的各个指标特征对异常区间的影响权重，并根据权重对指标特征进行排序，将根因分析问题归结为排序推荐的问题，定位到导致异常区间的关键指标特征；

其中，

表示指标特征

的权值，

表示数据点

在指标特征

上的取值，

表示与数据点

同类别的数据点与数据点

的距离，

表示与数据点

不同类别的数据点与数据点

的距离。如果

小于

，则说明指标特征

对于分类效果是有利的，且差值越大，即

越大，表明指标特征

的分类能力越强，对异常区间的影响程度越大。

上述流程为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种云环境多指标无监督异常检测和根因分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种云环境多指标无监督异常检测和根因分析方法，其特征在于，步骤S1中，数据的预处理包括缺失值处理和数据归一化处理；

其中，

是归一化后的时序指标数据，

为时序指标数据，

为多个时序指标数据中的最大值和最小值。

3.根据权利要求1所述的一种云环境多指标无监督异常检测和根因分析方法，其特征在于，步骤S2包括以下步骤：

S2.1、采用堆叠自动编码器的方法逐层提取训练集中的时序指标数据的特征并降维，得到降维处理后的时序指标数据；

S2.2、采用K均值聚类算法对降维处理后的时序指标数据进行聚类，使得异常数据点聚合成一个数据簇，剔除数据量最少的数据簇，然后为剩余的数据簇打上表示正常的伪正常标签；

4.根据权利要求3所述的一种云环境多指标无监督异常检测和根因分析方法，其特征在于，步骤S2.1中，堆叠自动编码器由多个自动编码器叠加构成，每一层的自动编码器都是一种无监督神经网络，通过全连接神经网络实现；自动编码器包括输入层，隐藏层和输出层；

在自动编码器（AE）的输输入层输入

，经过编码阶段得到隐藏层输出

，再将隐藏层输出经过解码阶段得到与输入层输入

类似的输出层

把输入向量

映射到隐藏层中输出

，具体如下：

其中，

是时序指标数据或者是上一层自动编码器的隐藏层，

是编码阶段权重向量，

是编码阶段偏置单元，

是激活函数

；

把编码阶段的输出

重构得到输出向量

，具体如下：

其中，

是解码阶段的输出，与输入层输入

相近，

是解码阶段权重向量，

是解码阶段偏置单元，

是激活函数

；

，其中，

为自动编码器的序号，

为第

层自动编码器的输入向量，

为第

与输入向量

提取的特征；

5.根据权利要求3所述的一种云环境多指标无监督异常检测和根因分析方法，其特征在于，步骤S2.2中，K均值聚类算法（K-Means）是一种经典的聚类算法，根据降维处理后的时序指标数据样本之间的距离大小，将时序指标数据样本集

划分为k个数据簇，k值根据实验参数调整，

是第M个时序指标数据样本；

K均值聚类算法首先随机选取k个时序指标数据样本

做为初始的k个质心，

；最终使得平方误差

最小化，如公式(6)所示，具体如下：

其中，

和

分别为第

个时序指标数据点和第

个质心，

为

和

的距离，

为第

个数据簇。

6.根据权利要求3所述的一种云环境多指标无监督异常检测和根因分析方法，其特征在于，步骤S2.3中，通过滑动窗口，将打上伪正常标签后的时序指标数据划分为多个给定时间步长子序列，作为无监督异常检测模型的输入

，每个子序列

，其中

和

中的

都为子序列的个数，

为滑动窗口的大小即时间步长，

为每个时序指标数据样本的维度，

为第d个子序列，d的取值为1~n。

7.根据权利要求1所述的一种云环境多指标无监督异常检测和根因分析方法，其特征在于，步骤S3中，基于LSTM网络的无监督异常检测模型为采用LSTM神经网络构建生成器和判别器的生成对抗网络；

具有多样性，避免生成高度相似的样本；其中，

是第

个子生成器中输入的正态分布的随机数，

是第

个子生成器生成的异常数据；

在训练时，根据滑动窗口处理后的子序列

与生成器

生成的异常数据通过判别器

进行分辨；生成器

不能区分，则开始循环训练判别器

，增强判别器

博弈）的过程，如公式(7)所示：

其中，

是生成器和判别器的对抗博弈函数，

为判别器的输出，即数据点

为正常数据点的概率，z为正态分布随机数，

为生成器的输出，

为生成器的交叉熵损失函数，

为判别器的交叉熵损失函数。

8.根据权利要求7所述的一种云环境多指标无监督异常检测和根因分析方法，其特征在于，生成器和判别器都是基于LSTM神经网络构建，输入是滑动窗口处理后的子序列；LSTM神经网络中的每一个LSTM单元的输入包括一个时间点数据和上一层LSTM单元的隐藏层状态

，输出为当前LSTM单元的隐藏层状态

，其中

和

经过

其中，

是一个LSTM单元，

是第t个LSTM单元的隐藏层输出，

为数据点，

和

为全连接神经网络的权重向量和偏置单元，

是

网络的隐藏层状态值向量，

为异常概率值。

9.根据权利要求1所述的一种云环境多指标无监督异常检测和根因分析方法，其特征在于，步骤S4中，使用训练好的无监督异常检测模型对测试集的数据进行异常检测，输出测试集的数据的异常概率，并根据给定的阈值，异常概率大于阈值的数据判定为异常数据，否则判定为正常数据；

对训练好的无监督异常检测模型的输出的异常概率，给定一个阈值，大于阈值的判定为异常数据样本，否则为正常样本；在连续的异常区间内，如果在开始后的不晚于T个时间点内可以检测到异常数据样本，则认为可以检测到该段异常区间，则该区间内的每一个异常点都为一次正确检测。

10.根据权利要求1所述的一种云环境多指标无监督异常检测和根因分析方法，其特征在于，步骤S5中，使用Relief特征选择算法，计算多个时序指标数据中的各个指标特征对异常区间的影响权重，并根据权重对指标特征进行排序，将根因分析问题归结为排序推荐的问题，定位到导致异常区间的关键指标特征；

每个特征指标的权值计算如公式(10)所示：

其中，

表示指标特征

的权值，

表示数据点

在指标特征

上的取值，

表示与数据点

同类别的数据点与数据点

的距离，

表示与数据点

不同类别的数据点与数据点

的距离；如果

小于

，则说明指标特征

对于分类效果是有利的，且差值越大，即

越大，表明指标特征

的分类能力越强，对异常区间的影响程度越大。