CN114564345A - 一种服务器异常检测方法、装置、设备及存储介质 - Google Patents

一种服务器异常检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114564345A
CN114564345A CN202210181578.6A CN202210181578A CN114564345A CN 114564345 A CN114564345 A CN 114564345A CN 202210181578 A CN202210181578 A CN 202210181578A CN 114564345 A CN114564345 A CN 114564345A
Authority
CN
China
Prior art keywords
output value
server
sequence
data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210181578.6A
Other languages
English (en)
Inventor
苏海明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210181578.6A priority Critical patent/CN114564345A/zh
Publication of CN114564345A publication Critical patent/CN114564345A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种服务器异常检测方法、装置、设备及存储介质,包括:获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据;利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列;基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。可见,本申请利用服务器通过无监督学习算法构建的对抗自编码模型对运行过程中的性能数据进行时间点序列异常点检测,并基于通过POT模型自适应选取的异常阈值找到服务器发生异常波动的时间,提高服务器异常检测效率和准确度。

Description

一种服务器异常检测方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种服务器异常检测方法、装置、设备及存储介质。
背景技术
在实际的生产环境中,需要找到服务器运行中数据异常发生时刻,从而对服务器进行对应的质量分析。实际的运行环境中由于环境不断变化,服务器的工作负载常常处于非稳态状态,而异常情况在真实环境中十分稀少且进行样本标注十分困难,现有的常规统计方法无法准确检测服务器异常,例如基于监督学习的算法由于正负样本极不平均使得模型难以训练。
因此,如何提高服务器异常检测的效率和准确度是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种服务器异常检测方法、装置、设备及存储介质,能够提高服务器异常检测效率和准确度。其具体方案如下:
本申请的第一方面提供了一种服务器异常检测方法,包括:
获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据;
利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列;
基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。
可选的,所述获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据,包括:
按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集,得到由所述性能数据组成的所述时序数据。
可选的,所述按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集之后,还包括:
将采集到的所述性能数据存储至时序数据库,当获取到检测指令,则通过滑动窗口的方式对所述时序数据库中的所述性能数据进行切分以读取预设时间窗口的所述性能数据,得到由所述性能数据组成的所述时序数据。
可选的,所述利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列,包括:
利用所述对抗自编码模型中的对抗网络对所述时序数据进行第一处理,得到包含第一输出值的第一输出值序列;
利用所述对抗自编码模型中的自编码网络对所述时序数据进行第二处理,得到与包含第二输出值的第二输出值序列;
将所述第一输出值序列中各个时间点处的所述第一输出值分别与所述第二输出值序列中对应时间点处的所述第二输出值进行整合计算,以得到所述输出值序列。
可选的,所述第一输出值为由所述对抗网络的判别器输出的鉴别分值S1,所述第二输出值为由所述自编码器网络中的解码器输出的重构误差值S2
相应的,所述输出值序列中的输出值S为:
S=λS1+(1-λ)S2
其中,λ为超参数。
可选的,所述自编码网络为变分自编码器的网络。
可选的,所述基于所述输出值序列通过POT模型确定出异常阈值,包括:
利用POT模型中的第一关系式和第二关系式确定出与所述输出值序列对应的所述异常阈值;
所述第一关系式和所述第二关系式分别为:
Figure BDA0003521313290000021
Figure BDA0003521313290000031
其中,th为初始异常阈值,γ和β分别为广义帕累托分布中的形状参数和尺度参数,
Figure BDA0003521313290000032
Figure BDA0003521313290000033
为γ和β的最大似然估计,S为所述输出值序列中的输出值,Q为所述输出值序列中的输出值个数,Qth为S>th的输出值个数,q为置信度。
本申请的第二方面提供了一种服务器异常检测装置,包括:
数据获取模块,用于获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据;
数据处理模块,用于利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列;
异常检测模块,用于基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。
本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述服务器异常检测方法。
本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述服务器异常检测方法。
本申请中,先获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据;然后利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列;最后基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。可见,本申请利用服务器通过无监督学习算法构建的对抗自编码模型对运行过程中的性能数据进行时间点序列异常点检测,并基于通过POT模型自适应选取的异常阈值找到服务器发生异常波动的时间,提高服务器异常检测效率和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种服务器异常检测方法流程图;
图2为本申请提供的一种对抗自编码模型训练过程示意图;
图3为本申请提供的一种具体的服务器异常检测过程示意图;
图4为本申请提供的一种服务器异常检测装置结构示意图;
图5为本申请提供的一种服务器异常检测电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有的实际运行环境中,由于环境不断变化,服务器的工作负载常常处于非稳态状态,而异常情况在真实环境中十分稀少且进行样本标注十分困难,现有的常规统计方法无法准确检测服务器异常,例如基于监督学习的算法由于正负样本极不平均使得模型难以训练。针对上述技术缺陷,本申请提供一种服务器异常检测方案,能够提高服务器异常检测效率和准确度。
图1为本申请实施例提供的一种服务器异常检测方法流程图。参见图1所示,该服务器异常检测方法包括:
S11:获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据。
本实施例中,获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据。所述性能数据为对CPU、内存、硬盘等的监控数据,包括但不限于CPU利用率、CPU用户利用率、内存利用率、磁盘使用率等指标项实时数据。这些数据在一定程度上反映服务器的运行状态,对这些数据进行处理,可以发现服务器运行中的异常行为,即服务器异常诊断。
本实施例中,先按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集,得到由所述性能数据组成的所述时序数据。然后将采集到的所述性能数据存储至时序数据库,当获取到检测指令,则通过滑动窗口的方式对所述时序数据库中的所述性能数据进行切分以读取预设时间窗口的所述性能数据,得到由所述性能数据组成的所述时序数据。telegraf是可收集系统和服务的统计数据的代理程序,内存占用小,通过插件系统可轻松添加支持其他服务的扩展,并能将收集到的数据写入到InfluxDB数据库。
在OpenStack云平台的系统性能监控中,使用telegraf工具采集服务器运行的性能数据,所述预设周期默认为60秒,采集后的数据进入Influxdb时序数据库中存储。这些采集的数据组成源数据集还可以用于对后续的所述对抗自编码模型进行训练。另外,还需要确定一个数据窗口,例如数据窗口确定为180,即以3小时的数据为一个检测窗口。以滑动窗口的方式将数据切分成固定长度,在进行异常检测时也以时间窗口为基本单位。这在实际使用中保证所述对抗自编码模型的实用性。
S12:利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列。
本实施例中,在获取到数据之后,利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列。上述过程所述对抗自编码模型包括两路网络:编码器G1和判别器D组成的对抗网络、编码器G1和解码器G2组成的自编码网络。一方面,利用所述对抗自编码模型中的对抗网络对所述时序数据进行第一处理,得到包含第一输出值的第一输出值序列,另一方面,利用所述对抗自编码模型中的自编码网络对所述时序数据进行第二处理,得到与包含第二输出值的第二输出值序列。
为此,所述对抗自编码模型的训练包含了对编码器G1,解码器G2与判别器D的训练。无监督学习算法,原则上只学习正常样本的模式,一定程度上消除了常规统计模型的不准确性,并节省人工标注的成本。编码器G1与解码器G2使用的是CNN网络,将一维数据变成二维数据使模型更好地学习到数据的空间分布特性,能够更好地进行特征提取和还原。编码器G1对训练样本进行特征提取产生特征向量,分别作为解码器G2和判别器D的输入。解码器G2将特征还原后结合原始输入计算出重构损失,并对编码器G1和解码器G2参数进行更新。判别器D结合编码器G1产生的特征向量和从混合高斯模型中采样出的向量计算出鉴别损失来更新判别器D和编码器G1,这在提高判别器D鉴别能力的同时,也使得编码器G1产生的特征向量越来越真实,最终能够达到混淆判别器D的程度,两者达到一定的平衡。模型训练过程如图2所示。
本实施例中,所述自编码网络为变分自编码器的网络。变分自编码器学得原始数据中的统计特征,在一定程度上消除了异常值的影响,保留数据自身的规律。通过计算原始数据与重建后的数据的误差,将异常数据映射在误差中,一定程度上有放大异常数据的作用。首先对所述时序数据进行归一化过程,以消除不同标度对数据所带来的影响:
xstd=(x-xmin)/(xmax-xmin);
Figure BDA0003521313290000061
其中,xmax为每个样本数据的最大值,xmin为每个样本数据的最小值,max为映射区间的最大值,min为映射区间的最小值,xstd为标准化的结果,xscale为归一化的结果。
自编码网络实际上是一个信息压缩和还原的过程,编码器G1将高维数据向量压x缩成低维特征向量z,而解码器G2负责将低维特征向量z尽量还原回去。在编解码的过程中存在信息损耗,信息损耗越大,重构效果越差。自编码网络的训练就是通过最小化重构损失来增强网络的信息压缩与还原的能力。这里采用均方差损失,自编码网络平均损失函数可以表示为:
Figure BDA0003521313290000062
其中,xi是来自原始数据的样本。
本实施例中,对抗训练的思想来自于GAN,可以看成一个两者博弈的过程。也即编码器G1与判别器D的博弈,训练的目标就是能够使编码结果越来越接近“真实分布”,即预设的先验分布,同时使得判别器D能够更好地区分特征向量到底是来自于编码器G1输出的特征向量还是采样自“真实分布”的向量。先验分布假设为混合高斯分布,因为混合高斯分布经过神经网络投射可以拟合任意的分布。总体优化目标可以作如下表示:
Figure BDA0003521313290000071
判别器D优化目标表示为:
Figure BDA0003521313290000072
编码器G1的优化目标为:
Figure BDA0003521313290000073
其中,zi是采样自先验分布的向量,xi是来自原始数据的样本,n为样本数。
最后将所述第一输出值序列中各个时间点处的所述第一输出值分别与所述第二输出值序列中对应时间点处的所述第二输出值进行整合计算,以得到所述输出值序列。本实施例中,所述第一输出值为由所述对抗网络的判别器输出的鉴别分值S1,所述第二输出值为由所述自编码器网络中的解码器输出的重构误差值S2。相应的,所述输出值序列中的输出值S为:
S=λS1+(1-λ)S2
其中,λ为超参数。
结合模型的自编码网络部分产生的重构误差和对抗网络部分产生的鉴别分值来对样本做异常判断。异常的判断依据是测试样本是否符合正常模式。自编码网络通过训练学习到了样本空间X到特征空间Z的投射函数q(z|x)和特征Z空间到样本空间X的投射函数h(z|x),能够对符合正常模式的样本进行很好的编解码。因此,对于正常数据来说,经过自编码网络计算出的重构误差较小,而异常数据的重构误差较大。对抗网络经过训练,编码器G1能够将符合正常分布的数据编码成能够混淆判别器D的特征向量,判别器D也往往认为这是“真的”,而异常数据难以被很好地编码,其编码出的特征向量会被判别器D判为“假的”。
S13:基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。
本实施例中,基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。该过程如图3所示,图中所述输出值序列中的输出值S即为总异常分数。
需要说明的是,本实施例的所述异常阈值是通过所有S值组成的序列基于POT模型得到。POT模型(Peaks over Threshold)是对样本中超过某一充分大的阈值的所有观测值进行建模。根据极值理论(EVT)中的POT模型对总异常分值进行自适应阈值选取。极值理论是寻找序列中极值规律的一种统计理论,主要处理严重背离分布均值的极端值,其优势在于无需对数据分布进行假设且可以通过参数选取达到自动设置阈值的目的。通过POT选取阈值的具体过程为:利用POT模型中的第一关系式和第二关系式确定出与所述输出值序列对应的所述异常阈值。
所述第一关系式和所述第二关系式分别为:
Figure BDA0003521313290000081
Figure BDA0003521313290000082
其中,th为初始异常阈值,γ和β分别为广义帕累托分布中的形状参数和尺度参数,
Figure BDA0003521313290000083
Figure BDA0003521313290000084
为γ和β的最大似然估计,S为所述输出值序列中的输出值,Q为所述输出值序列中的输出值个数,Qth为S>th的输出值个数,q为置信度。在运算时只需调节一个q,就可以得到总异常分值的阈值。总异常分值序列中高于阈值的部分就为序列中的异常值。可以理解,
Figure BDA0003521313290000085
即为广义的帕累托分布,广义的帕累托分布定义为:如果X是一个随机变量,则X的概率分布满足
Figure BDA0003521313290000086
其中x是任何大于xmin的数,xmin是x最小可能的值,k是一个正参数。
可见,本申请实施例先获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据;然后利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列;最后基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。可见,本申请利用服务器通过无监督学习算法构建的对抗自编码模型对运行过程中的性能数据进行时间点序列异常点检测,并基于通过POT模型自适应选取的异常阈值找到服务器发生异常波动的时间,提高服务器异常检测效率和准确度。
参见图4所示,本申请实施例还相应公开了一种服务器异常检测装置,包括:
数据获取模块11,用于获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据;
数据处理模块12,用于利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列;
异常检测模块13,用于基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。
可见,本申请实施例先获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据;然后利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列;最后基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。可见,本申请利用服务器通过无监督学习算法构建的对抗自编码模型对运行过程中的性能数据进行时间点序列异常点检测,并基于通过POT模型自适应选取的异常阈值找到服务器发生异常波动的时间,提高服务器异常检测效率和准确度。
在一些具体实施例中,所述数据获取模块11,具体包括:
数据采集单元,用于按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集;
数据读取单元,用于将采集到的所述性能数据存储至时序数据库,当获取到检测指令,则通过滑动窗口的方式对所述时序数据库中的所述性能数据进行切分以读取预设时间窗口的所述性能数据,得到由所述性能数据组成的所述时序数据。
在一些具体实施例中,所述数据处理模块12,具体包括:
第一处理单元,用于利用所述对抗自编码模型中的对抗网络对所述时序数据进行第一处理,得到包含第一输出值的第一输出值序列;
第二处理单元,用于利用所述对抗自编码模型中的自编码网络对所述时序数据进行第二处理,得到与包含第二输出值的第二输出值序列;
整合计算单元,用于将所述第一输出值序列中各个时间点处的所述第一输出值分别与所述第二输出值序列中对应时间点处的所述第二输出值进行整合计算,以得到所述输出值序列。
在一些具体实施例中,所述第一输出值为由所述对抗网络的判别器输出的鉴别分值S1,所述第二输出值为由所述自编码器网络中的解码器输出的重构误差值S2
相应的,所述输出值序列中的输出值S为:
S=λS1+(1-λ)S2
其中,λ为超参数。
在一些具体实施例中,所述异常检测模块13,具体还用于利用POT模型中的第一关系式和第二关系式确定出与所述输出值序列对应的所述异常阈值;
所述第一关系式和所述第二关系式分别为:
Figure BDA0003521313290000101
Figure BDA0003521313290000102
其中,th为初始异常阈值,γ和β分别为广义帕累托分布中的形状参数和尺度参数,
Figure BDA0003521313290000103
Figure BDA0003521313290000104
为γ和β的最大似然估计,S为所述输出值序列中的输出值,Q为所述输出值序列中的输出值个数,Qth为S>th的输出值个数,q为置信度。
进一步的,本申请实施例还提供了一种电子设备。图5是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的服务器异常检测方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的服务器异常检测方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的性能数据。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的服务器异常检测方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的服务器异常检测方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种服务器异常检测方法,其特征在于,包括:
获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据;
利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列;
基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。
2.根据权利要求1所述的服务器异常检测方法,其特征在于,所述获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据,包括:
按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集,得到由所述性能数据组成的所述时序数据。
3.根据权利要求2所述的服务器异常检测方法,其特征在于,所述按照预设周期利用telegraf工具对所述待检测服务器运行过程中的所述性能数据进行采集之后,还包括:
将采集到的所述性能数据存储至时序数据库,当获取到检测指令,则通过滑动窗口的方式对所述时序数据库中的所述性能数据进行切分以读取预设时间窗口的所述性能数据,得到由所述性能数据组成的所述时序数据。
4.根据权利要求1至3任一项所述的服务器异常检测方法,其特征在于,所述利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列,包括:
利用所述对抗自编码模型中的对抗网络对所述时序数据进行第一处理,得到包含第一输出值的第一输出值序列;
利用所述对抗自编码模型中的自编码网络对所述时序数据进行第二处理,得到与包含第二输出值的第二输出值序列;
将所述第一输出值序列中各个时间点处的所述第一输出值分别与所述第二输出值序列中对应时间点处的所述第二输出值进行整合计算,以得到所述输出值序列。
5.根据权利要求4所述的服务器异常检测方法,其特征在于,所述第一输出值为由所述对抗网络的判别器输出的鉴别分值S1,所述第二输出值为由所述自编码器网络中的解码器输出的重构误差值S2
相应的,所述输出值序列中的输出值S为:
S=λS1+(1-λ)S2
其中,λ为超参数。
6.根据权利要求4所述的服务器异常检测方法,其特征在于,所述自编码网络为变分自编码器的网络。
7.根据权利要求5所述的服务器异常检测方法,其特征在于,所述基于所述输出值序列通过POT模型确定出异常阈值,包括:
利用POT模型中的第一关系式和第二关系式确定出与所述输出值序列对应的所述异常阈值;
所述第一关系式和所述第二关系式分别为:
Figure FDA0003521313280000021
Figure FDA0003521313280000022
其中,th为初始异常阈值,γ和β分别为广义帕累托分布中的形状参数和尺度参数,
Figure FDA0003521313280000023
Figure FDA0003521313280000024
为γ和β的最大似然估计,S为所述输出值序列中的输出值,Q为所述输出值序列中的输出值个数,Qth为S>th的输出值个数,q为置信度。
8.一种服务器异常检测装置,其特征在于,包括:
数据获取模块,用于获取表征待检测服务器运行状态的性能数据,得到由所述性能数据组成的时序数据;
数据处理模块,用于利用基于无监督学习算法构建的对抗自编码模型对所述时序数据进行处理,得到与所述时序数据对应的输出值序列;
异常检测模块,用于基于所述输出值序列通过POT模型确定出异常阈值,并将所述输出值序列中大于所述异常阈值的输出值对应的时间点确定为所述待检测服务器的异常发生时刻。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的服务器异常检测方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的服务器异常检测方法。
CN202210181578.6A 2022-02-25 2022-02-25 一种服务器异常检测方法、装置、设备及存储介质 Pending CN114564345A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210181578.6A CN114564345A (zh) 2022-02-25 2022-02-25 一种服务器异常检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210181578.6A CN114564345A (zh) 2022-02-25 2022-02-25 一种服务器异常检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114564345A true CN114564345A (zh) 2022-05-31

Family

ID=81716345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210181578.6A Pending CN114564345A (zh) 2022-02-25 2022-02-25 一种服务器异常检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114564345A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687029A (zh) * 2022-10-28 2023-02-03 中南大学 长期服务器运行状态时序数据可视化方法
CN117688499A (zh) * 2024-01-31 2024-03-12 成方金融科技有限公司 一种多指标异常检测方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687029A (zh) * 2022-10-28 2023-02-03 中南大学 长期服务器运行状态时序数据可视化方法
CN117688499A (zh) * 2024-01-31 2024-03-12 成方金融科技有限公司 一种多指标异常检测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110830450A (zh) 基于统计的异常流量监测方法、装置、设备及存储介质
CN109726763B (zh) 一种信息资产识别方法、装置、设备及介质
CN114564345A (zh) 一种服务器异常检测方法、装置、设备及存储介质
CN115412455B (zh) 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN110059894B (zh) 设备状态评估方法、装置、系统及存储介质
CN111160959B (zh) 一种用户点击转化预估方法及装置
CN113868953B (zh) 工业系统中多机组运行优化方法、装置、系统及存储介质
CN112668238B (zh) 一种降雨量处理方法、装置、设备和存储介质
CN112101765A (zh) 一种配电网运行指标数据异常数据处理方法及系统
CN114610561A (zh) 系统监测方法、装置、电子设备及计算机可读存储介质
CN113723618A (zh) 一种shap的优化方法、设备及介质
CN112085926B (zh) 一种河道水污染预警方法及系统
CN111783883A (zh) 一种异常数据的检测方法及装置
CN116383645A (zh) 一种基于异常检测的系统健康度智能监测评估方法
CN116126807A (zh) 一种日志分析方法及相关装置
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN115129548A (zh) 一种告警分析方法、装置、设备及介质
CN112686330B (zh) Kpi异常数据检测方法及装置、存储介质及电子设备
CN115293735A (zh) 一种无人工厂工业互联网平台监测管理方法及系统
CN113518058B (zh) 异常登录行为检测方法、装置、存储介质和计算机设备
CN111798237B (zh) 基于应用日志的异常交易诊断方法及系统
CN114358581A (zh) 性能指标的异常阈值确定方法和装置、设备、存储介质
CN114900835A (zh) 恶意流量智能检测方法、装置及存储介质
CN113110972A (zh) 一种时序数据异常检测方法、装置及介质
CN114385468A (zh) 一种日志分析方法、系统及相关组件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination