CN114564345A

CN114564345A - 一种服务器异常检测方法、装置、设备及存储介质

Info

Publication number: CN114564345A
Application number: CN202210181578.6A
Authority: CN
Inventors: 苏海明
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-05-31

Abstract

本申请公开了一种服务器异常检测方法、装置、设备及存储介质，包括：获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据；利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列；基于所述输出值序列通过POT模型确定出异常阈值，并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。可见，本申请利用服务器通过无监督学习算法构建的对抗自编码模型对运行过程中的性能数据进行时间点序列异常点检测，并基于通过POT模型自适应选取的异常阈值找到服务器发生异常波动的时间，提高服务器异常检测效率和准确度。

Description

一种服务器异常检测方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种服务器异常检测方法、装置、设备及存储介质。

背景技术

在实际的生产环境中，需要找到服务器运行中数据异常发生时刻，从而对服务器进行对应的质量分析。实际的运行环境中由于环境不断变化，服务器的工作负载常常处于非稳态状态，而异常情况在真实环境中十分稀少且进行样本标注十分困难，现有的常规统计方法无法准确检测服务器异常，例如基于监督学习的算法由于正负样本极不平均使得模型难以训练。

因此，如何提高服务器异常检测的效率和准确度是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种服务器异常检测方法、装置、设备及存储介质，能够提高服务器异常检测效率和准确度。其具体方案如下：

本申请的第一方面提供了一种服务器异常检测方法，包括：

获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据；

利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列；

基于所述输出值序列通过POT模型确定出异常阈值，并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。

可选的，所述获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据，包括：

按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集，得到由所述性能数据组成的所述时序数据。

可选的，所述按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集之后，还包括：

将采集到的所述性能数据存储至时序数据库，当获取到检测指令，则通过滑动窗口的方式对所述时序数据库中的所述性能数据进行切分以读取预设时间窗口的所述性能数据，得到由所述性能数据组成的所述时序数据。

可选的，所述利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列，包括：

利用所述对抗自编码模型中的对抗网络对所述时序数据进行第一处理，得到包含第一输出值的第一输出值序列；

利用所述对抗自编码模型中的自编码网络对所述时序数据进行第二处理，得到与包含第二输出值的第二输出值序列；

将所述第一输出值序列中各个时间点处的所述第一输出值分别与所述第二输出值序列中对应时间点处的所述第二输出值进行整合计算，以得到所述输出值序列。

可选的，所述第一输出值为由所述对抗网络的判别器输出的鉴别分值S₁，所述第二输出值为由所述自编码器网络中的解码器输出的重构误差值S₂；

相应的，所述输出值序列中的输出值S为：

S＝λS₁+(1-λ)S₂

其中，λ为超参数。

可选的，所述自编码网络为变分自编码器的网络。

可选的，所述基于所述输出值序列通过POT模型确定出异常阈值，包括：

利用POT模型中的第一关系式和第二关系式确定出与所述输出值序列对应的所述异常阈值；

所述第一关系式和所述第二关系式分别为：

其中，th为初始异常阈值，γ和β分别为广义帕累托分布中的形状参数和尺度参数，

和

为γ和β的最大似然估计，S为所述输出值序列中的输出值，Q为所述输出值序列中的输出值个数，Q_th为S＞th的输出值个数，q为置信度。

本申请的第二方面提供了一种服务器异常检测装置，包括：

数据获取模块，用于获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据；

数据处理模块，用于利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列；

异常检测模块，用于基于所述输出值序列通过POT模型确定出异常阈值，并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。

本申请的第三方面提供了一种电子设备，所述电子设备包括处理器和存储器；其中所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述服务器异常检测方法。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述服务器异常检测方法。

本申请中，先获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据；然后利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列；最后基于所述输出值序列通过POT模型确定出异常阈值，并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。可见，本申请利用服务器通过无监督学习算法构建的对抗自编码模型对运行过程中的性能数据进行时间点序列异常点检测，并基于通过POT模型自适应选取的异常阈值找到服务器发生异常波动的时间，提高服务器异常检测效率和准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种服务器异常检测方法流程图；

图2为本申请提供的一种对抗自编码模型训练过程示意图；

图3为本申请提供的一种具体的服务器异常检测过程示意图；

图4为本申请提供的一种服务器异常检测装置结构示意图；

图5为本申请提供的一种服务器异常检测电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有的实际运行环境中，由于环境不断变化，服务器的工作负载常常处于非稳态状态，而异常情况在真实环境中十分稀少且进行样本标注十分困难，现有的常规统计方法无法准确检测服务器异常，例如基于监督学习的算法由于正负样本极不平均使得模型难以训练。针对上述技术缺陷，本申请提供一种服务器异常检测方案，能够提高服务器异常检测效率和准确度。

图1为本申请实施例提供的一种服务器异常检测方法流程图。参见图1所示，该服务器异常检测方法包括：

S11：获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据。

本实施例中，获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据。所述性能数据为对CPU、内存、硬盘等的监控数据，包括但不限于CPU利用率、CPU用户利用率、内存利用率、磁盘使用率等指标项实时数据。这些数据在一定程度上反映服务器的运行状态，对这些数据进行处理，可以发现服务器运行中的异常行为，即服务器异常诊断。

本实施例中，先按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集，得到由所述性能数据组成的所述时序数据。然后将采集到的所述性能数据存储至时序数据库，当获取到检测指令，则通过滑动窗口的方式对所述时序数据库中的所述性能数据进行切分以读取预设时间窗口的所述性能数据，得到由所述性能数据组成的所述时序数据。telegraf是可收集系统和服务的统计数据的代理程序，内存占用小，通过插件系统可轻松添加支持其他服务的扩展，并能将收集到的数据写入到InfluxDB数据库。

在OpenStack云平台的系统性能监控中，使用telegraf工具采集服务器运行的性能数据，所述预设周期默认为60秒，采集后的数据进入Influxdb时序数据库中存储。这些采集的数据组成源数据集还可以用于对后续的所述对抗自编码模型进行训练。另外，还需要确定一个数据窗口，例如数据窗口确定为180，即以3小时的数据为一个检测窗口。以滑动窗口的方式将数据切分成固定长度，在进行异常检测时也以时间窗口为基本单位。这在实际使用中保证所述对抗自编码模型的实用性。

S12：利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列。

本实施例中，在获取到数据之后，利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列。上述过程所述对抗自编码模型包括两路网络：编码器G₁和判别器D组成的对抗网络、编码器G₁和解码器G₂组成的自编码网络。一方面，利用所述对抗自编码模型中的对抗网络对所述时序数据进行第一处理，得到包含第一输出值的第一输出值序列，另一方面，利用所述对抗自编码模型中的自编码网络对所述时序数据进行第二处理，得到与包含第二输出值的第二输出值序列。

为此，所述对抗自编码模型的训练包含了对编码器G₁，解码器G₂与判别器D的训练。无监督学习算法，原则上只学习正常样本的模式，一定程度上消除了常规统计模型的不准确性，并节省人工标注的成本。编码器G₁与解码器G₂使用的是CNN网络，将一维数据变成二维数据使模型更好地学习到数据的空间分布特性，能够更好地进行特征提取和还原。编码器G₁对训练样本进行特征提取产生特征向量，分别作为解码器G₂和判别器D的输入。解码器G₂将特征还原后结合原始输入计算出重构损失，并对编码器G₁和解码器G₂参数进行更新。判别器D结合编码器G₁产生的特征向量和从混合高斯模型中采样出的向量计算出鉴别损失来更新判别器D和编码器G₁，这在提高判别器D鉴别能力的同时，也使得编码器G₁产生的特征向量越来越真实，最终能够达到混淆判别器D的程度，两者达到一定的平衡。模型训练过程如图2所示。

本实施例中，所述自编码网络为变分自编码器的网络。变分自编码器学得原始数据中的统计特征，在一定程度上消除了异常值的影响，保留数据自身的规律。通过计算原始数据与重建后的数据的误差，将异常数据映射在误差中，一定程度上有放大异常数据的作用。首先对所述时序数据进行归一化过程，以消除不同标度对数据所带来的影响：

x_std＝(x-x_min)/(x_max-x_min)；

其中，x_max为每个样本数据的最大值，x_min为每个样本数据的最小值，max为映射区间的最大值，min为映射区间的最小值，x_std为标准化的结果，x_scale为归一化的结果。

自编码网络实际上是一个信息压缩和还原的过程，编码器G₁将高维数据向量压x缩成低维特征向量z，而解码器G₂负责将低维特征向量z尽量还原回去。在编解码的过程中存在信息损耗，信息损耗越大，重构效果越差。自编码网络的训练就是通过最小化重构损失来增强网络的信息压缩与还原的能力。这里采用均方差损失，自编码网络平均损失函数可以表示为:

其中，x_i是来自原始数据的样本。

本实施例中，对抗训练的思想来自于GAN，可以看成一个两者博弈的过程。也即编码器G₁与判别器D的博弈，训练的目标就是能够使编码结果越来越接近“真实分布”，即预设的先验分布，同时使得判别器D能够更好地区分特征向量到底是来自于编码器G₁输出的特征向量还是采样自“真实分布”的向量。先验分布假设为混合高斯分布，因为混合高斯分布经过神经网络投射可以拟合任意的分布。总体优化目标可以作如下表示:

判别器D优化目标表示为：

编码器G₁的优化目标为：

其中，z_i是采样自先验分布的向量，x_i是来自原始数据的样本，n为样本数。

最后将所述第一输出值序列中各个时间点处的所述第一输出值分别与所述第二输出值序列中对应时间点处的所述第二输出值进行整合计算，以得到所述输出值序列。本实施例中，所述第一输出值为由所述对抗网络的判别器输出的鉴别分值S₁，所述第二输出值为由所述自编码器网络中的解码器输出的重构误差值S₂。相应的，所述输出值序列中的输出值S为：

S＝λS₁+(1-λ)S₂

其中，λ为超参数。

结合模型的自编码网络部分产生的重构误差和对抗网络部分产生的鉴别分值来对样本做异常判断。异常的判断依据是测试样本是否符合正常模式。自编码网络通过训练学习到了样本空间X到特征空间Z的投射函数q(z|x)和特征Z空间到样本空间X的投射函数h(z|x)，能够对符合正常模式的样本进行很好的编解码。因此，对于正常数据来说，经过自编码网络计算出的重构误差较小，而异常数据的重构误差较大。对抗网络经过训练，编码器G₁能够将符合正常分布的数据编码成能够混淆判别器D的特征向量，判别器D也往往认为这是“真的”，而异常数据难以被很好地编码，其编码出的特征向量会被判别器D判为“假的”。

S13：基于所述输出值序列通过POT模型确定出异常阈值，并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。

本实施例中，基于所述输出值序列通过POT模型确定出异常阈值，并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。该过程如图3所示，图中所述输出值序列中的输出值S即为总异常分数。

需要说明的是，本实施例的所述异常阈值是通过所有S值组成的序列基于POT模型得到。POT模型(Peaks over Threshold)是对样本中超过某一充分大的阈值的所有观测值进行建模。根据极值理论(EVT)中的POT模型对总异常分值进行自适应阈值选取。极值理论是寻找序列中极值规律的一种统计理论，主要处理严重背离分布均值的极端值，其优势在于无需对数据分布进行假设且可以通过参数选取达到自动设置阈值的目的。通过POT选取阈值的具体过程为：利用POT模型中的第一关系式和第二关系式确定出与所述输出值序列对应的所述异常阈值。

所述第一关系式和所述第二关系式分别为：

和

为γ和β的最大似然估计，S为所述输出值序列中的输出值，Q为所述输出值序列中的输出值个数，Q_th为S＞th的输出值个数，q为置信度。在运算时只需调节一个q，就可以得到总异常分值的阈值。总异常分值序列中高于阈值的部分就为序列中的异常值。可以理解，

即为广义的帕累托分布，广义的帕累托分布定义为：如果X是一个随机变量，则X的概率分布满足

其中x是任何大于x_min的数，x_min是x最小可能的值，k是一个正参数。

可见，本申请实施例先获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据；然后利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列；最后基于所述输出值序列通过POT模型确定出异常阈值，并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。可见，本申请利用服务器通过无监督学习算法构建的对抗自编码模型对运行过程中的性能数据进行时间点序列异常点检测，并基于通过POT模型自适应选取的异常阈值找到服务器发生异常波动的时间，提高服务器异常检测效率和准确度。

参见图4所示，本申请实施例还相应公开了一种服务器异常检测装置，包括：

数据获取模块11，用于获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据；

数据处理模块12，用于利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列；

异常检测模块13，用于基于所述输出值序列通过POT模型确定出异常阈值，并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。

在一些具体实施例中，所述数据获取模块11，具体包括：

数据采集单元，用于按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集；

数据读取单元，用于将采集到的所述性能数据存储至时序数据库，当获取到检测指令，则通过滑动窗口的方式对所述时序数据库中的所述性能数据进行切分以读取预设时间窗口的所述性能数据，得到由所述性能数据组成的所述时序数据。

在一些具体实施例中，所述数据处理模块12，具体包括：

第一处理单元，用于利用所述对抗自编码模型中的对抗网络对所述时序数据进行第一处理，得到包含第一输出值的第一输出值序列；

第二处理单元，用于利用所述对抗自编码模型中的自编码网络对所述时序数据进行第二处理，得到与包含第二输出值的第二输出值序列；

整合计算单元，用于将所述第一输出值序列中各个时间点处的所述第一输出值分别与所述第二输出值序列中对应时间点处的所述第二输出值进行整合计算，以得到所述输出值序列。

在一些具体实施例中，所述第一输出值为由所述对抗网络的判别器输出的鉴别分值S₁，所述第二输出值为由所述自编码器网络中的解码器输出的重构误差值S₂；

相应的，所述输出值序列中的输出值S为：

S＝λS₁+(1-λ)S₂

其中，λ为超参数。

在一些具体实施例中，所述异常检测模块13，具体还用于利用POT模型中的第一关系式和第二关系式确定出与所述输出值序列对应的所述异常阈值；

所述第一关系式和所述第二关系式分别为：

和

进一步的，本申请实施例还提供了一种电子设备。图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的服务器异常检测方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的服务器异常检测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的性能数据。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的服务器异常检测方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的服务器异常检测方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种服务器异常检测方法，其特征在于，包括：

2.根据权利要求1所述的服务器异常检测方法，其特征在于，所述获取表征待检测服务器运行状态的性能数据，得到由所述性能数据组成的时序数据，包括：

3.根据权利要求2所述的服务器异常检测方法，其特征在于，所述按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集之后，还包括：

4.根据权利要求1至3任一项所述的服务器异常检测方法，其特征在于，所述利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理，得到与所述时序数据对应的输出值序列，包括：

5.根据权利要求4所述的服务器异常检测方法，其特征在于，所述第一输出值为由所述对抗网络的判别器输出的鉴别分值S₁，所述第二输出值为由所述自编码器网络中的解码器输出的重构误差值S₂；

相应的，所述输出值序列中的输出值S为：

S＝λS₁+(1-λ)S₂

其中，λ为超参数。

6.根据权利要求4所述的服务器异常检测方法，其特征在于，所述自编码网络为变分自编码器的网络。

7.根据权利要求5所述的服务器异常检测方法，其特征在于，所述基于所述输出值序列通过POT模型确定出异常阈值，包括：

所述第一关系式和所述第二关系式分别为：

和

8.一种服务器异常检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的服务器异常检测方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述的服务器异常检测方法。