CN115412455B - 一种基于时间序列的服务器多性能指标异常检测方法及装置 - Google Patents
一种基于时间序列的服务器多性能指标异常检测方法及装置 Download PDFInfo
- Publication number
- CN115412455B CN115412455B CN202210897982.3A CN202210897982A CN115412455B CN 115412455 B CN115412455 B CN 115412455B CN 202210897982 A CN202210897982 A CN 202210897982A CN 115412455 B CN115412455 B CN 115412455B
- Authority
- CN
- China
- Prior art keywords
- data
- time
- frequency domain
- module
- index data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000005856 abnormality Effects 0.000 title claims abstract description 24
- 230000002159 abnormal effect Effects 0.000 claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000011985 exploratory data analysis Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 2
- 238000011425 standardization method Methods 0.000 claims description 2
- 238000005315 distribution function Methods 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于时间序列的服务器多性能指标异常检测方法及装置,所述方法实现过程如下:采集待检测的原始指标数据,提取有效的时域信号数据,变换得到有效的频域信号;建立基于卷积网络和长短时记忆网络的指标数据预测模型;将指标数据的有效时域信号和频域信号输入到训练好的预测模型,得到指标数据的预测结果;根据预测值和实际值计算指标数据的预测误差,通过指数加权移动平均对上述误差进行处理得到异常评分,根据POT算法确定异常阈值,若异常评分大于异常阈值,表明当前时刻的服务器存在异常状态。本发明能够有效提高在类不平衡情况下的异常数据的识别能力,从而提高整体异常检测精度,具有很好的应用价值。
Description
技术领域
本发明属于异常检测技术领域,具体涉及一种基于时间序列的服务器多性能指标异常检测方法及装置。
背景技术
服务器运行过程中产生的诸如CPU负载、网络使用量、内存使用量等指标数据表示当前服务器的运行状态,其指标数据可以看成按时间顺序组成的时间序列。这些大量的时序数据中包含着不同的信息特征,数据中的异常数据所蕴含的信息通常比正常数据更为重要。网络使用量异常可能表面系统发生入侵,CPU负载异常异常可能表明设备发生故障。因此,对于异常数据的信息提取、分析具有重要意义。
异常检测领域现有工作可以分为以下类别:基于分类的方法、基于聚类的方法、基于重构的方法和基于预测的方法。基于分类方法在标签数据充足的情况下,使用深度学习可以得到很好的准确率。但是在异常检测领域,异常数据相较于正常数据的比例非常小,同时对于数据的标注往往面临很多困难。基于聚类方法通过对数据样本进行聚类,将远离聚类中心的点视为异常数据点,由于基于聚类的模型的结构过于简单,无法处理复杂的数据,不能适应复杂数据的异常检测任务。基于重构的方法通过数据的低维表示对数据进行重构,将重构误差作为异常评分进行异常检测。由于基于编解码器结构的方法缺乏有效的正则化方法,可能造成模型的过拟合导致无法准确的进行异常检测。基于预测的方法根据模型的预测值与真实值之间的预测误差进行异常检测。已有的预测模型为时间序列的异常检测创造良好基础,但依旧是基于单模态而没有考虑数据在多模态空间的分布特征。
发明内容
发明目的:本发明的目的在于提供一种基于时间序列的服务器多性能指标异常检测方法及装置,能够有效提高在类不平衡情况下的异常数据的识别能力,从而提高整体异常检测精度,具有很好的应用价值。
技术方案:本发明提供了一种基于时间序列的服务器多性能指标异常检测方法,包括以下步骤:
(1)采集服务器性能指标的原始数据和待检测数据,对原始数据和待检测数据进行探索性分析,统计每个指标数据的均值、方差及分位数等属性特征;然后分别对获取的数据进行预处理,包括数据清洗和归一化处理,得到指标数据的有效时域信号;再将有效时域信号进行离散小波变换得到有效频域信号;
(2)从步骤(1)处理后的原始数据中选取服务器正常运行状况下的产生的指标数据的有效时域信号和频域信号,截取定长的局部信号,将截取的时频域信号作为基于CNN-LSTM的注意力预测模型的训练样本,通过无监督训练方式对预测模型进行训练得到指标数据的预测模型;
(3)从步骤(1)处理后的待检测数据中截取定长的时频域局部信号,将截取的信号作为测试样本输入至步骤(2)训练好的指标数据预测模型进行预测,得到待检测指标数据的预测结果;
(4)通过步骤(3)获得待检测数据在预测模型上的预测值,根据预测值和实际值计算预测误差;采用指数加权移动平均对预测误差进行优化处理,消除由于指标数据存在突变峰值导致预测误差较大产生的影响;对预测误差进行拟合计算得到异常阈值,若预测误差大于异常阈值则表明服务器指标数据存在异常的时间点数据。
进一步地,所述步骤(1)实现过程如下:
从原始标数据中确定包含的恒值特征数据,比较某条数据的最大值与最小值,若最大值与最小值相同则将其视为恒值特征去除;各指标数据值范围不同,对各指标数据分别使用min-max标准化方法将数据映射到[0,1]范围内,得到有效的指标数据时域信号;
将所述服务器性能指标数据进行预处理之后得到的时域信号,通过离散小波变换得到指标时序数据的频域信号表示;离散小波变换通过高通滤波和低通滤波器得到的频域信号长度为原始信号长度的一半,通过二次样条插值重构将频域信号扩充至与原始信号长度相同。
进一步地,步骤(2)所述基于CNN-LSTM的注意力预测模型包括:
时频域特征提取模块,包含两个由一维卷积网络组成的特征提取模块,分别对时频域信号进行卷积操作,提取其空间特征和局部时序特征;
时频域特征融合模块,包含一个用于提取特征上下文关系的一维卷积网络和一个软选择操作对时频域特征进行自适应融合,具体过程为:
M(zT,zF)=σ(Conv(GAP(zT+zF)))
其中,GAP为全局平均池化操作,Conv为卷积操作,为张量点乘运算,σ表示激活函数,zT表示提取得到的时域特征,zF表示提取得到的频域特征;采用sigmoid激活函数将数值映射到[0,1]范围内作为各模态特征的权重,首先将时域特征和频域特征进行相加,经过全局平均池化层对全局信息进行整合,使用一维卷积网络学习通道特征的上下文关系,经过激活函数得到每个通道的权重,最后对zT和zF做加权平均,各自权重分别为M(zT,zF)和1-M(zT,zF);
时空注意力模块,包含一个时间注意力机制和一个空间注意力机制,分别提取服务器指标数据的长时依赖关系和空间依赖关系,具体过程为:首先,对融合后的时频域特征经由BiLSTM层提取其时序关系,接着对BiLSTM层的输出特征由时间注意力和TPA注意力机制并行提取其超长时依赖关系和空间依赖关系分别得到时间注意力向量和空间注意力向量,最后经由全连接层得到预测结果。
进一步地,步骤(2)所述通过无监督方式对预测模型进行训练,具体方式为:
通过滑动窗口方式从有效时域信号和频域信号中截取定长局部信号,滑动窗口大小根据数据的周期性进行分析得到,滑动步长设置为1,划分后的数据表示为W={w1,w2,...,wm},wi={x1,x2,...,xl},l为窗口长度;每次输入模型一个窗口大小的wi数据,根据历史l个数据预测未来某一时刻数据xl+Δ的值,其中Δ值设置为6;将均方根误差作为损失函数对预测模型进行训练,通过迭代训练直至模型收敛得到训练好的预测模型。
进一步地,所述步骤(4)实现过程如下:
根据预测模型对待检测的服务器性能指标数据进行预测,比较预测值与实际值得到预测误差:
其中,表示第i个性能指标t时刻预测模型预测值,/>表示第i个性能指标t时刻原始数据值;
对预测误差进行指数加权移动平均,计算方式为:
Vt=Vt-1*α+et*(1-α)
其中,Vt是t时刻平滑后的预测误差,et是t时刻的预测误差,α为权重,通过设置α可以控制结果的平稳性,减少突变峰值对最终检测效果的影响;
根据POT算法对平滑处理后的预测误差进行拟合得到异常阈值:
其中,f(x)为广义帕累托分布,通过最大似然估计得到辅助参数σ和极值指数γ,n为数据总数,q表示期望概率,Nt表示峰值数,最后通过设置q得到异常阈值。
基于相同的发明构思,本发明还提供一种基于时间序列的服务器多性能指标异常检测装置,包括:
数据采集模块,对服务器运行指标数据进行采集,包括数据初步分析子模块和指标数据标记子模块;所述数据初步分析子模块查看指定时间段内指标数据的均值、方差及分位数等属性特征;所述指标数据标记子模块用于标记服务器不同运行状态下产生的指标数据;
数据预处理模块,在将数据输入至模型之前对数据进行预处理,得到对应的指标数据特征,包括数据清洗子模块,用于剔除无用的指标数据特征;归一化子模块,将各指标数据的数值范围映射至[0,1]范围内;
数据预测模块,包括模态转换子模块、窗口划分子模块和模型更新子模块;所述模态转换子模块,将指标数据的有效的时域信号转换为有效的频域信号;所述窗口划分子模块,用于截取定长的局部时频域信号;将截取的定长时频域数据输入至预测模型,得到相应的指标数据的预测值;所述模型更新子模块,当数据采集模块采集到的正常状态下的指标数据达到预设规模时,选取最新采集得到的数据对预测模型进行训练更新模型参数;
异常检测模块,比较数据预测模块输出的预测值与实际值进行异常检测,包括预测误差计算子模块和异常阈值计算子模块;所述预测误差计算子模块将指标数据的预测值与实际值比较得出预测误差,使用指数加权移动平均对预测误差进行平滑处理;所述异常阈值计算子模块根据POT算法对预测误差进行拟合确定异常阈值;若某时刻的预测误差大于异常阈值则将此时刻的状态标记为异常状态。
有益效果:与现有技术相比,本发明的有益效果:本发明提供的时频域特征融合模块相较于常用的相加和拼接融合操作,有以下优势:通过全局平均池化操作可以整合单个特征的跨时间步信息,通过一维卷积网络可以学习到特征的上下文依赖关系,加权平均采用软选择方式,可以通过网络训练确定各自权重;时空注意力机制能够捕捉时间序列的时空依赖关系,通过对正常数据样本学习能够对正常运行情况下的服务器指标数据进行准确预测,采用指数加权移动平均方法和极限值理论可以解决误报率过高以及手动设置阈值的局限性;本发明能够有效提高在类不平衡情况下的异常数据的识别能力,从而提高整体异常检测精度,具有更好的应用价值。
附图说明
图1为基于时间序列的服务器多性能指标异常检测方法的流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明提供一种基于时间序列的服务器多性能指标异常检测方法,提出一种时频域特征融合模块,在提取时频域多模态特征上下文关系基础上使用软选择的方式对多模态特征进行自适应融合,软选择方式能够自适应的为不同模态特征分配不同权重,有效利用数据多模态特征;构建一种由时间注意力和空间注意力组成的时空注意力模块,同时提取时间序列多模态特征的时空依赖关系,在充分利用时间序列多模态特征的历史状态信息的同时学习各特征之间的空间依赖信息。
如图1所示,具体包括以下步骤:
步骤1:采集服务器性能指标的原始数据和待检测数据,对原始数据和待检测数据进行探索性分析,统计每个指标数据的均值、方差及分位数等属性特征;然后分别对获取的数据进行预处理,包括数据清洗和归一化处理,得到指标数据的有效时域信号;再将有效时域信号进行离散小波变换得到有效频域信号。
数据清洗操作主要处理指标数据中包含的恒值特征数据,比较某条数据的最大值与最小值,若最大值与最小值相同则将其视为恒值特征去除;数据填充操作通过插值操作对时序数据中缺少的数据点进行填充;归一化处理,通过min-max标准化方法将各指标数据值范围映射到[0,1]范围内。
在进行数据划分之后和输入至预测模型之前需要进行模态转换和窗口划分;模态转换,将所述服务器性能指标数据进行预处理之后,通过离散小波变换得到指标时序数据的频域信号表示;得到的频域信号长度为原始信号长度的一半,通过二次样本插值重构将频域信号扩充至与原始信号长度相同。
步骤1旨在收集服务器运行时每时每刻产生的性能指标数据,包括CPU负载、网络使用量、内存使用量等指标数据,对这些指标数据进行初步的探索分析,观察其中恒值特征、缺失值、异常值分布情况,以便后续使用。
本实施方式中就服务器的多性能指标数据的异常检测展开具体研究,使用SMD数据集作为本发明的数据集,其包含对一个服务器集群中的28台机器为期五周的资源使用情况,每个机器的数据由38个指标数据组成,其存储形式按照其发生的时间顺序排列而成,表现形式为时间序列数据。对获取每个性能指标数据进行探索性分析,统计每个指标数据的属性特征,包括每个指标的均值、方差等统计特征;观察每个指标特征的缺失值、异常值情况;在此数据集中包含值恒为0的指标数据,且部分指标数据存在缺失情况,对数据进行预处理。对处理后的数据进行划分,按照6:2:2的比例划分训练集、验证集和测试集,其中训练集数据从服务器正常工作状态下产生的数据中选取,验证集和测试集数据既包含正常运行状态数据也包含异常状态下的数据。
步骤2:从步骤1中处理后的原始数据中选取服务器正常运行状况下的产生的指标数据的有效时域信号和频域信号,截取定长的局部信号,将截取的时频域信号作为基于CNN-LSTM的注意力预测模型的训练样本,通过无监督训练方式得到指标数据的预测模型。
基于卷积神经网络和长短时记忆网络的注意力预测模型包括:
时频域特征提取模块,包含两个由一维卷积网络组成的特征提取模块,分别对时频域信号进行卷积操作,提取其空间特征和局部时序特征。
时频域特征融合模块,包含一个用于提取特征上下文关系的一维卷积网络和一个软选择操作对时频域特征进行自适应融合,具体过程为:
M(zT,zF)=σ(Conv(GAP(zT+zF)))
其中,GAP为全局平均池化操作,Conv为卷积操作,为张量点乘运算,σ表示激活函数,zT表示提取得到的时域特征,zF表示提取得到的频域特征,采用sigmoid激活函数将数值映射到[0,1]范围内作为各模态特征的权重,首先将时域特征和频域特征进行相加,经过全局平均池化层对全局信息进行整合,使用一维卷积网络学习通道特征的上下文关系,经过激活函数得到每个通道的权重,最后对zT和zF做加权平均,各自权重分别为M(zT,zF)和1-M(zT,zF)。
时空注意力模块,包含一个时间注意力机制和一个空间注意力机制,分别提取服务器指标数据的长时依赖关系和空间依赖关系,具体过程为:首先,对融合后的时频域特征经由BiLSTM层提取其时序关系得到输出特征接着对BiLSTM层的输出特征由时间注意力和TPA注意力机制并行提取其超长时依赖关系和空间依赖关系分别得到时间注意力向量和空间注意力向量,最后经由全连接层得到预测结果。
通过无监督方式对预测模型进行训练,具体方式为:
通过滑动窗口方式从有效时域信号和频域信号中截取定长局部信号,将通过离散小波变换得到的时域信号和频域信号以滑动窗口的方式进行划分,滑动窗口大小根据数据的周期性进行分析得到,划分后的数据表示为W={w1,w2,...,wn},wi={x1,x2,...,xl},l为窗口长度。每次输入模型一个窗口大小的数据,根据历史l个数据预测未来某一时刻数据xl+Δ的值,其中Δ值设置为6;将均方根误差作为损失函数对预测模型进行训练,通过迭代训练直至模型收敛得到训练好的预测模型。其中,离散小波变换公式如下:
其中,Wφ和Wψ分别是近似系数和细节系数,φ(t)和ψ(t)分别为尺度函数和小波函数,通过构造正交函数将时间序列进行多分辨率分解,得到原始数据的低频和高频信号。近似系数得到的低频信号能够能够反映原始数据的趋势,细节系数得到的高频信号能够反映原始数据中的随机波动;得到的频域信号长度为原始信号长度的一半,通过二次样条插值将频域信号扩充至与原始信号长度相同。以滑动窗口的方式对进行模态转换后的数据进行划分,根据SMD数据进行周期性分析,滑动窗口大小设置为100,滑动步长设置为1。
根据SMD数据搭建预测模型,时频域特征提取模块的一维卷积网络参数为,卷积核大小为6,输出特征大小为100;时频域特征融合模块的一维卷积网络参数为,卷积核大小为7,输入特征与输出特征大小为1;时空注意力模块:时间注意力机制采用点积缩放评分函数:其中Q为/>K为/>空间注意力机制评分函数为:/> 其中HC由对/>进行卷积操作得到,HC∈Rn×k,/>表示HC的行向量,Wa为n×k的权重矩阵;
使用均方根误差作为损失函数,计算公式为:通过使用训练集数据对预测模型进行迭代训练,使得模型能够学习服务器正常运行状态下的指标数据分布特征,直至模型收敛得到训练好的预测模型。
步骤3:从步骤1中处理后的待检测数据中截取定长的时频域局部信号,将截取的信号作为测试样本输入至步骤2训练好的指标数据预测模型进行预测,得到待检测指标数据的预测结果。
步骤4:通过步骤3获得待检测数据在预测模型上的预测值,根据预测值和实际值计算预测误差;采用指数加权移动平均对预测误差进行优化处理,消除由于指标数据存在突变峰值导致预测误差较大产生的影响;对预测误差进行拟合计算得到异常阈值,若预测误差大于异常阈值则表明服务器指标数据存在异常的时间点数据。
根据预测模型对待检测的服务器性能指标数据进行预测,比较预测值与实际值得到预测误差,预测误差的计算方式为:
其中,表示第i个性能指标t时刻预测模型预测值,/>表示第i个性能指标t时刻原始数据值。
对预测误差进行指数加权移动平均,计算方式为:
Vt=Vt-1*α+et*(1-α)
其中,Vt是t时刻平滑后的预测误差,et是t时刻的预测误差,α为权重,通过设置α可以控制结果的平稳性,减少突变峰值对最终检测效果的影响。
根据POT算法对平滑处理后的预测误差进行拟合得到异常阈值,POT算法的计算方式为:
其中,f(x)为广义帕累托分布,通过最大似然估计得到辅助参数σ和极值指数γ,n为数据总数,q表示期望概率,Nt表示峰值数,最后通过设置参数q得到异常阈值。
考虑到不平衡问题,为了更全面的评价本发明方法的性能,采用精确率(Precision),召回率(Recall)和F1分数作为评价指标。F1指标常用于评价统计学中的二分类模型的效果,其可以看作为模型精确率和召回率的调和平均。
基于相同的发明构思,本发明还提供了一种基于时间序列的服务器多性能指标异常检测装置,包括数据采集模块、数据预处理模块、数据预测模块和异常检测模块;其中:
数据采集模块,对服务器运行指标数据进行采集,包括数据的初步分析子模块,即查看指定时间段内指标数据的均值、方差及分位数等属性特征;指标数据标记子模块,用于标记服务器不同运行状态下产生的指标数据。
数据预处理模块,在将数据输入至模型之前对数据进行预处理,得到对应的指标数据特征,包括数据清洗子模块,用于剔除无用的指标数据特征;归一化子模块,将各指标数据的数值范围映射至[0,1]范围内。
数据预测模块,通过数据采集模块采集未知状态下的服务器运行产生的指标数,经过数据预处理模块对采集到的数据进行预处理得到有效时域信号;模态转换子模块,将指标数据的有效的时域信号转换为有效的频域信号;窗口划分子模块,用于截取定长的局部时频域信号;将截取的定长时频域数据输入至预测模型,得到相应的指标数据的预测值;模型更新子模块,当数据采集模块采集到的正常状态下的指标数据达到预设规模时,选取最新采集得到的数据对预测模型进行训练更新模型参数。
异常检测模块,比较数据预测模块输出的预测值与实际值进行异常检测,包括预测误差计算子模块和异常阈值计算子模块;预测误差计算子模块:将所述的指标数据的预测值与实际值比较得出预测误差,使用指数加权移动平均对预测误差进行平滑处理;异常阈值计算子模块:根据POT算法对预测误差进行拟合确定异常阈值;若某时刻的预测误差大于异常阈值则将此时刻的状态标记为异常状态。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于时间序列的服务器多性能指标异常检测方法,其特征在于,包括以下步骤:
(1)采集服务器性能指标的原始数据和待检测数据,对原始数据和待检测数据进行探索性分析,统计每个指标数据的均值、方差及分位数;然后分别对获取的数据进行预处理,包括数据清洗和归一化处理,得到指标数据的有效时域信号;再将有效时域信号进行离散小波变换得到有效频域信号;
(2)从步骤(1)处理后的原始数据中选取服务器正常运行状况下的产生的指标数据的有效时域信号和频域信号,截取定长的局部信号,将截取的时频域信号作为基于CNN-LSTM的注意力预测模型的训练样本,通过无监督训练方式对预测模型进行训练得到指标数据的预测模型;
(3)从步骤(1)处理后的待检测数据中截取定长的时频域局部信号,将截取的信号作为测试样本输入至步骤(2)训练好的指标数据预测模型进行预测,得到待检测指标数据的预测结果;
(4)通过步骤(3)获得待检测数据在预测模型上的预测值,根据预测值和实际值计算预测误差;采用指数加权移动平均对预测误差进行优化处理,消除由于指标数据存在突变峰值导致预测误差较大产生的影响;对预测误差进行拟合计算得到异常阈值,若预测误差大于异常阈值则表明服务器指标数据存在异常的时间点数据。
2.根据权利要求1所述的一种基于时间序列的服务器多性能指标异常检测方法,其特征在于,所述步骤(1)实现过程如下:
从原始标数据中确定包含的恒值特征数据,比较某条数据的最大值与最小值,若最大值与最小值相同则将其视为恒值特征去除;各指标数据值范围不同,对各指标数据分别使用min-max标准化方法将数据映射到[0,1]范围内,得到指标数据的有效时域信号;
将所述服务器性能指标数据进行预处理之后得到的时域信号,通过离散小波变换得到指标时序数据的频域信号表示;离散小波变换通过高通滤波和低通滤波器得到的频域信号长度为原始信号长度的一半,通过二次样条插值重构将频域信号扩充至与原始信号长度相同。
3.根据权利要求1所述的一种基于时间序列的服务器多性能指标异常检测方法,其特征在于,步骤(2)所述基于CNN-LSTM的注意力预测模型包括:
时频域特征提取模块,包含两个由一维卷积网络组成的特征提取模块,分别对时频域信号进行卷积操作,提取时域信号的空间特征和频域信号的局部时序特征;
时频域特征融合模块,包含一个用于提取特征上下文关系的一维卷积网络和一个软选择操作对时频域特征进行自适应融合,具体过程为:
M(zT,zF)=σ(Conv(GAP(zT+zF)))
其中,GAP为全局平均池化操作,Conv为卷积操作,为张量点乘运算,σ表示激活函数,zT表示提取得到的时域特征,zF表示提取得到的频域特征;采用sigmoid激活函数将数值映射到[0,1]范围内作为每个通道的权重,首先将时域特征和频域特征进行相加,经过全局平均池化层对全局信息进行整合,使用一维卷积网络学习通道特征的上下文关系,经过激活函数得到每个通道的权重,最后对zT和zF做加权平均得到融合后的时频域特征z,各自权重分别为M(zT,zF)和1-M(zT,zF);
时空注意力模块,包含一个时间注意力机制和一个空间注意力机制,分别提取服务器指标数据的长时依赖关系和空间依赖关系,具体过程为:首先,对融合后的时频域特征经由BiLSTM层提取其时序关系,接着对BiLSTM层的输出特征由时间注意力和TPA注意力机制并行提取其超长时依赖关系和空间依赖关系分别得到时间注意力向量和空间注意力向量,最后经由全连接层得到预测结果。
4.根据权利要求1所述的一种基于时间序列的服务器多性能指标异常检测方法,其特征在于,步骤(2)所述通过无监督训练方式对预测模型进行训练,具体方式为:
通过滑动窗口方式从有效时域信号和频域信号中截取定长局部信号,滑动窗口大小根据数据的周期性进行分析得到,滑动步长设置为1,划分后的数据表示为W={w1,w2,...,wm},wi={x1,x2,...,xl},l为窗口长度;每次输入模型一个窗口大小的wi数据,根据历史l个数据预测未来某一时刻数据xl+Δ的值,其中Δ值设置为6;将均方根误差作为损失函数对预测模型进行训练,通过迭代训练直至模型收敛得到训练好的预测模型。
5.根据权利要求1所述的一种基于时间序列的服务器多性能指标异常检测方法,其特征在于,所述步骤(4)实现过程如下:
根据预测模型对待检测的服务器性能指标数据进行预测,比较预测值与实际值得到预测误差:
其中,表示第i个性能指标t时刻预测模型预测值,/>表示第i个性能指标t时刻原始数据值;
对预测误差进行指数加权移动平均,计算方式为:
Vt=Vt-1*α+et*(1-α)
其中,Vt是t时刻平滑后的预测误差,et是t时刻的预测误差,α为权重,通过设置α可以控制结果的平稳性,减少突变峰值对最终检测效果的影响;
根据POT算法对平滑处理后的预测误差进行拟合得到异常阈值:
其中,f(x)为广义帕累托分布函数,通过最大似然估计得到辅助参数σ和极值指数γ,n为预测误差数据总数,q表示期望概率,Nt表示峰值数,最后通过设置q得到异常阈值th。
6.一种采用如权利要求1-5任一所述方法的基于时间序列的服务器多性能指标异常检测装置,其特征在于,包括:
数据采集模块,对服务器运行指标数据进行采集,包括数据初步分析子模块和指标数据标记子模块;所述数据初步分析子模块查看指定时间段内指标数据的均值、方差及分位数;所述指标数据标记子模块用于标记服务器不同运行状态下产生的指标数据;
数据预处理模块,在将数据输入至模型之前对数据进行预处理,得到对应的指标数据特征,包括数据清洗子模块,用于剔除无用的指标数据特征;归一化子模块,将各指标数据的数值范围映射至[0,1]范围内;
数据预测模块,包括模态转换子模块、窗口划分子模块和模型更新子模块;所述模态转换子模块,将指标数据的有效的时域信号转换为有效的频域信号;所述窗口划分子模块,用于截取定长的局部时频域信号;将截取的定长时频域数据输入至预测模型,得到相应的指标数据的预测值;所述模型更新子模块,当数据采集模块采集到的正常状态下的指标数据达到预设规模时,选取最新采集得到的数据对预测模型进行训练更新模型参数;
异常检测模块,比较数据预测模块输出的预测值与实际值进行异常检测,包括预测误差计算子模块和异常阈值计算子模块;所述预测误差计算子模块将指标数据的预测值与实际值比较得出预测误差,使用指数加权移动平均对预测误差进行平滑处理;所述异常阈值计算子模块根据POT算法对预测误差进行拟合确定异常阈值;若某时刻的预测误差大于异常阈值则将此时刻的状态标记为异常状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897982.3A CN115412455B (zh) | 2022-07-28 | 2022-07-28 | 一种基于时间序列的服务器多性能指标异常检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897982.3A CN115412455B (zh) | 2022-07-28 | 2022-07-28 | 一种基于时间序列的服务器多性能指标异常检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115412455A CN115412455A (zh) | 2022-11-29 |
CN115412455B true CN115412455B (zh) | 2023-12-19 |
Family
ID=84160459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210897982.3A Active CN115412455B (zh) | 2022-07-28 | 2022-07-28 | 一种基于时间序列的服务器多性能指标异常检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115412455B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115809187B (zh) * | 2023-01-17 | 2023-04-18 | 江苏领视达智能科技有限公司 | 一种基于大数据筛选的无边框平板显示器废品处理方法 |
CN115859209B (zh) * | 2023-02-08 | 2023-05-16 | 烟台市福山区动物疫病预防控制中心 | 基于饲料消耗数据的畜牧业家禽养殖异常识别方法 |
CN115985463B (zh) * | 2023-03-17 | 2023-07-25 | 山东大学齐鲁医院 | 一种基于可穿戴式设备的实时预测肌肉疲劳度方法及系统 |
CN116388865B (zh) * | 2023-06-05 | 2023-09-15 | 深圳市飞思卓科技有限公司 | 一种基于pon光模块光功率异常的自动筛选方法 |
CN116383096B (zh) * | 2023-06-06 | 2023-08-18 | 安徽思高智能科技有限公司 | 基于多指标时序预测的微服务系统异常检测方法及装置 |
CN117572137B (zh) * | 2024-01-17 | 2024-03-29 | 山东海纳智能装备科技股份有限公司 | 一种七电平anpc高压变频器远程监测系统 |
CN117807055B (zh) * | 2024-02-29 | 2024-06-07 | 济南浪潮数据技术有限公司 | 存储系统的关键性能指标预测、分析方法及相关装置 |
CN118035227B (zh) * | 2024-04-15 | 2024-06-21 | 山东云擎信息技术有限公司 | 一种基于大数据评估的数据智能处理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615226A (zh) * | 2018-12-12 | 2019-04-12 | 焦点科技股份有限公司 | 一种运营指标异常监测方法 |
CN110690995A (zh) * | 2019-09-29 | 2020-01-14 | 南京大学 | 一种基于多变量时间序列预测的鲁棒性异常检测方法和设备 |
CN111562996A (zh) * | 2020-04-11 | 2020-08-21 | 北京交通大学 | 一种关键性能指标数据的时序异常检测方法及系统 |
CN112766342A (zh) * | 2021-01-12 | 2021-05-07 | 安徽容知日新科技股份有限公司 | 一种电气设备的异常检测方法 |
CN113067754A (zh) * | 2021-04-13 | 2021-07-02 | 南京航空航天大学 | 一种半监督时间序列异常检测方法及系统 |
CN113592019A (zh) * | 2021-08-10 | 2021-11-02 | 平安银行股份有限公司 | 基于多模型融合的故障检测方法、装置、设备及介质 |
CN114118586A (zh) * | 2021-11-29 | 2022-03-01 | 江苏科技大学 | 基于CNN-Bi LSTM的电机故障预测方法及系统 |
CN114785573A (zh) * | 2022-04-06 | 2022-07-22 | 杭州电子科技大学 | 基于深度学习的智能变电站过程层网络异常流量检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11494661B2 (en) * | 2019-08-23 | 2022-11-08 | Accenture Global Solutions Limited | Intelligent time-series analytic engine |
-
2022
- 2022-07-28 CN CN202210897982.3A patent/CN115412455B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615226A (zh) * | 2018-12-12 | 2019-04-12 | 焦点科技股份有限公司 | 一种运营指标异常监测方法 |
CN110690995A (zh) * | 2019-09-29 | 2020-01-14 | 南京大学 | 一种基于多变量时间序列预测的鲁棒性异常检测方法和设备 |
CN111562996A (zh) * | 2020-04-11 | 2020-08-21 | 北京交通大学 | 一种关键性能指标数据的时序异常检测方法及系统 |
CN112766342A (zh) * | 2021-01-12 | 2021-05-07 | 安徽容知日新科技股份有限公司 | 一种电气设备的异常检测方法 |
CN113067754A (zh) * | 2021-04-13 | 2021-07-02 | 南京航空航天大学 | 一种半监督时间序列异常检测方法及系统 |
CN113592019A (zh) * | 2021-08-10 | 2021-11-02 | 平安银行股份有限公司 | 基于多模型融合的故障检测方法、装置、设备及介质 |
CN114118586A (zh) * | 2021-11-29 | 2022-03-01 | 江苏科技大学 | 基于CNN-Bi LSTM的电机故障预测方法及系统 |
CN114785573A (zh) * | 2022-04-06 | 2022-07-22 | 杭州电子科技大学 | 基于深度学习的智能变电站过程层网络异常流量检测方法 |
Non-Patent Citations (1)
Title |
---|
基于LSTM循环神经网络的故障时间序列预测;王鑫;吴际;刘超;杨海燕;杜艳丽;牛文生;;北京航空航天大学学报(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115412455A (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115412455B (zh) | 一种基于时间序列的服务器多性能指标异常检测方法及装置 | |
CN111222290B (zh) | 一种基于多参数特征融合的大型设备剩余使用寿命预测方法 | |
CN111914883B (zh) | 一种基于深度融合网络的主轴轴承状态评估方法及装置 | |
CN108399434B (zh) | 基于特征提取的高维时间序列数据的分析预测方法 | |
CN108435819B (zh) | 一种铝型材挤压机能耗异常检测方法 | |
US12007745B2 (en) | Apparatus for predicting equipment damage | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN116066343A (zh) | 一种输油泵机组故障模型的智能预警方法及系统 | |
CN112504682A (zh) | 基于粒子群优化算法的底盘发动机故障诊断方法及系统 | |
CN114118219A (zh) | 基于数据驱动的长期加电设备健康状态实时异常检测方法 | |
CN117782198B (zh) | 一种基于云边端架构的公路机电设备运行监测方法及系统 | |
CN114564345A (zh) | 一种服务器异常检测方法、装置、设备及存储介质 | |
CN117131022B (zh) | 一种电力信息系统的异构数据迁移方法 | |
CN113918433A (zh) | 一种自适应的智慧网络设备性能指标异常检测装置及方法 | |
CN113487223A (zh) | 一种基于信息融合的风险评估方法和评估系统 | |
CN117421994A (zh) | 一种边缘应用健康度的监测方法和监测系统 | |
CN113159088A (zh) | 一种基于多特征融合和宽度学习的故障监测与诊断方法 | |
CN117079005A (zh) | 一种光缆故障监测方法、系统、装置及可读存储介质 | |
CN116383645A (zh) | 一种基于异常检测的系统健康度智能监测评估方法 | |
CN116384223A (zh) | 基于退化状态智能辨识的核设备可靠性评估方法及系统 | |
CN117060353A (zh) | 基于前馈神经网络高压直流输电系统故障诊断方法及系统 | |
CN116842330A (zh) | 一种可对比历史记录的保健信息处理方法及装置 | |
CN117009899A (zh) | 一种时序性海洋生态环境监测数据中的异常点检测方法 | |
CN116046396A (zh) | 一种轴承故障诊断方法、装置、设备及介质 | |
CN114676593A (zh) | 一种纺织设备的异常检测方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |