CN111562996A - 一种关键性能指标数据的时序异常检测方法及系统 - Google Patents

一种关键性能指标数据的时序异常检测方法及系统 Download PDF

Info

Publication number
CN111562996A
CN111562996A CN202010282009.1A CN202010282009A CN111562996A CN 111562996 A CN111562996 A CN 111562996A CN 202010282009 A CN202010282009 A CN 202010282009A CN 111562996 A CN111562996 A CN 111562996A
Authority
CN
China
Prior art keywords
data
abnormal
value
time series
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010282009.1A
Other languages
English (en)
Other versions
CN111562996B (zh
Inventor
王晶
林友芳
万怀宇
武志昊
韩升
董兴业
张硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010282009.1A priority Critical patent/CN111562996B/zh
Publication of CN111562996A publication Critical patent/CN111562996A/zh
Application granted granted Critical
Publication of CN111562996B publication Critical patent/CN111562996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0763Error or fault detection not based on redundancy by bit configuration check, e.g. of formats or tags

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种关键性能指标数据的时序异常检测方法,用以解决现有技术中时序数据异常检测效率低、准确率低的问题。所述时序异常检测方法,先对采集的时序数据中缺失值及异常值进行修正,再提取特征对数据进行拼接,将拼接数据划分为训练集和测试集,在优化目标函数的基础上训练得到异常检测模型,再进行测试及评估得到评估标准,以所述评估标准和异常检测模型,对待检测数据进行时间序列异常检测。本发明对具有周期性的不同时间序列数据的异常检测,从时间序列数据中提取不同维度的特征以保证考虑到数据在不同维度上的相关性都能被模型学习到,减少了异常标注带来的成本,同时适用于正负样本极不均匀的场景,提高了检测效率。

Description

一种关键性能指标数据的时序异常检测方法及系统
技术领域
本发明属于数据处理与安全领域,具体涉及一种关键性能指标数据的时序异常检测方法及系统。
背景技术
随着数据收集和存储技术的快速发展,金融、交通、互联网等领域积累了大量的时间序列数据,其中为了保证互联网中的各项服务不受干扰,需要密切监视各种关键性能指标(Key Performance Indicator,KPI),如CPU使用量、网络吞吐量、网页浏览量、在线用户数量等,以防止未及时检测的异常造成的服务瘫痪等负面影响。在此类KPI通常具有一定的季节性,我们认定为异常的样本通常是与正常时段不符、有较大差异的且不满足季节性的点或者片段。因此,时间序列异常检测是时间序列数据挖掘最重要的任务之一。现有的时间序列异常检测方法包括统机器学习方法和基于深度学习的方法两大类。
传统机器学习的时序异常检测方法,将时序异常检测作为一个二分类问题,使用现有的统计方法或者其他方法提取大量的相关特征,然后使用现有的功能强大的分类器进行分类。这类方法的局限性在于计算扩展性能差,并且存在维数灾难问题,不能用于特征维数非常多的场景中。另外,这类方法通常需要大量的特征工程,需要一定的领域知识和专家经验,而且提取的特征的有效性和异常标注的准确性都会极大地影响方法的性能。
基于深度学习的时序异常检测方法主要包含两类。第一类方法仍将时序异常检测作为二分类问题来处理,提取大量的相关特征,然后使用深度神经网络作为分类模型进行分类。这类方法依然存在不能用于大数据集的问题。第二类方法是通过递归神经网络对正常时序数据进行重构,根据正常时序数据的重构误差进行建模。对于新来的样本,根据其重构误差进行异常检测。这类方法有两个缺点,第一是没有充分考虑时序异常检测问题的正负样本极其不均衡的问题,第二是使用递归神经网络作为重构模型没有考虑到探测效率的问题,因此这类方法很难应用于真实环境中。
现有技术中,还存在以下时序异常检测方法:通过周期性判定和通过随机森林、孤立森林算法训练,生成观测样本点的预测值及其异常分数;或是通过生成预测基线对观测样本进行异常检测及预警。但是,上述方法仅对观测样本的异常情况有一个异常值的输出,并未学习训练出样本本身存在的一个分布情况,其次现有的时间序列异常检测算法不同程度上都存在一定的局限性,例如准确率不高、探测效率低下、泛化性能不高。
发明内容
为了提高KPI数据的时序异常检测效率及准确率,本发明实施例提供了一种关键性能指标KPI数据的时序异常检测方法及系统。本发明使用简单的全连接网络,同时优化目标函数,得到样本在特征空间的映射分布及其正常样本分布的描述,减少异常标注带来的成本,同时很好的适用于正负样本极不均匀的场景,提高时序异常检测的效率。
为了实现上述目标,本发明实施例所采用的技术方案如下:
第一方面,本发明实施例提供了一种关键性能指标数据的时序异常检测方法,所述方法包括如下步骤:
步骤S1,采集关键性能指标的时间序列数据;
步骤S2,判断所述时间序列数据中的缺失值和异常值,对所述缺失值及异常值进行修正,得到预处理后数据;
步骤S3,提取所述预处理后数据的特征,将所述特征作为内容增加数据的属性字段,得到拼接数据;
步骤S4,将所述拼接数据划分为训练集和测试集,训练集作为输入数据训练深度学习支持向量模型,得到数据在特征空间中的半径和任意数据的特征空间的向量表示,进一步得到异常检测模型;采用所述测试集测试所述异常检测模型,得到测试集的样本异常分数;
步骤S5,挑选异常分数阈值,与测试集的样本异常分数进行比较,得到检测标准;
步骤S6,以所述检测标准和异常检测模型,对待检测数据进行时间序列异常检测。
上述方案中,所述时间序列数据,为分钟粒度的数据,数据包含如下属性字段:关键绩效指标的序列ID,时间戳,关键绩效指标的值。
上述方案中,对所述缺失值及异常值进行修正,具体为:
所述时间序列数据为T,缺失值或异常值为xi,对xi取其左右长度为h窗口内的正常样本点,计算正常样本点的均值,使用式(1):
Figure BDA0002446967430000031
作为估计值对缺失值或异常值进行替换;对于窗口左右两端取不到h的情况,取能取到的最大值;若窗口内含有其他待处理的点,则不把这些待处理的点选取,计算均值仅计算有效点的均值,预处理过后得到的一条时间序列数据X。
上述方案中,所述步骤S3中的特征包括时间序列的统计特征、拟合特征、频域特征和非线性特征。
上述方案中,所述时间序列X的统计特征包括:最大值、最小值、均值、方差;对应的所述拼接数据为对数据增加最大值、最小值、均值和方差属性字段,任意数据
Figure BDA00024469674300000314
所述时间序列X的拟合特征包括:滑动平均、带权滑动平均、指数加权移动平均(EWMA)和奇异值分解(SVD);对应的所述拼接数据为对数据增加滑动平均、带权滑动平均、EWMA和SVD属性字段,任意数据为:
Figure BDA0002446967430000033
所述时间序列X的频域特征包括:谱残差(SR)、本征模函数(IMF)和小波特征;对应的所述拼接数据为对数据增加SR、IMF和小波属性字段,任意数据为:
Figure BDA0002446967430000034
所述时间序列X的非线性特征包括:熵、样本熵;对应的所述拼接数据为对数据增加熵和样本熵属性字段,任意数据为
Figure BDA00024469674300000315
Figure BDA00024469674300000316
其中:
Figure BDA0002446967430000037
Figure BDA0002446967430000038
Figure BDA0002446967430000039
SampEn(xi)=-ln[Ak(r)/Bm(r)] (8)
式(5)至(8)中,p0,p1,…,pm为时间序列数据X所包括的m+1种不同的关键绩效指标值s0,s1,…,sm,对应出现的概率,d[X,X*]定义为
Figure BDA00024469674300000310
Figure BDA00024469674300000311
d表示两个向量间的距离,由对应元素的最大差值决定,j的取值范围为[1,N-m+1],且i≠j;Bm(r)为
Figure BDA00024469674300000312
对所有i的平均值;令k=m+1,
Figure BDA00024469674300000313
上述方案中,所述拟合特征中:
x(j)点处的滑动平均值为:
Figure BDA0002446967430000041
x(j)点处的带权滑动平均值为:
Figure BDA0002446967430000042
x(j)点处的指数加权移动平均值为:
Figure BDA0002446967430000043
x(j)点处的SVD值为SVD(x(j));
wk为权值,β为指数加权移动平均值。
上述方案中,所述步骤S4中得到异常检测模型,具体为:
将所述拼接数据X划分为训练集Dk={x(1),x(2),…,x(k)}和测试集Tn={x(k+1),x(k +2),…,x(n)};训练集作为输入数据训练深度学习支持向量模型,φ(·;W*):
Figure BDA0002446967430000044
为拥有
Figure BDA0002446967430000045
层隐藏层的神经网络,并设定每层隐藏层的权重W={W1,…,WL},将深度支持向量数据描述的目标函数定义为:
Figure BDA0002446967430000046
式(9)中,第一项是每一个xi的特征空间的向量表示φ(x;W*)与超空间的中心c的距离的求和,第二项是一个带有超参数λ的权重衰减正则项;
将训练集输入,获得数据在特征空间中的半径R,和任意数据xi的特征空间的向量表示φ(xi;W*),及异常检测模型:
s(x)=||φ(x;W*)-c||2 (10)。
上述方案中,所述得到检测标准,具体为:
对测试集Tn={x(k+1),x(k+2),…,x(n)}中任意xi,i∈k+1…n,计算其异常分数s(xi),,根据设定的不同异常分数阈值
Figure BDA0002446967430000047
根据数据本身的标签属性进行Precision值和Recall值的计算,最终将F1-score值的集合F={f1,f2…fj},选择最大的F1-score值f*=max{f1,f2…fj}所对应的异常分数阈值S*作为检测异常的标准。
其中,
Figure BDA0002446967430000048
第二方面,本发明实施例还提供了一种关键性能指标数据的时序异常检测系统,所述系统包括:数据采集模块、数据预处理模块、特征拼接模块、模型训练与测试模块、阈值筛选模块、最终检测模块;其中,
所述数据采集模块与数据预处理模块相连,用于采集关键性能指标的时间序列数据。
所述数据预处理模块与所述特征拼接模块相连,用于判断所述时间序列数据中的缺失值和异常值,对所述缺失值及异常值进行修正,得到预处理后数据;
所述特征拼接模块与所述模型训练与测试模块相连,用于提取所述预处理后数据的特征,将所述特征作为内容增加数据的属性字段,得到拼接数据;
所述模型训练与测试模块与所述模型评估模块及最终检测模块相连,将所述拼接数据划分为训练集和测试集,训练集作为输入数据训练深度学习支持向量模型,得到数据在特征空间中的半径和任意数据的特征空间的向量表示,进一步得到异常检测模型;采用所述测试集测试所述异常检测模型,得到测试集的样本异常分数;
所述阈值筛选模块与所述最终检测模块相连,用于计算测试集的样本异常分数与预设的阈值集进行比较,通过获得最该评估分数来筛选阈值作为检测标准;
所述最终检测模块,用于以所述检测标准和异常检测模型,对待检测数据进行时间序列异常检测。
本发明具有如下有益效果:
本发明的本发明实施例的关键性能指标数据的时间序列异常检测方法,基于优化目标函数的无监督学习的方法,而非以重构误差作为目标函数进行优化,可以有效的进行具有周期性的不同时间序列数据的异常检测,能够从时间序列数据中提取不同维度的特征以保证考虑到数据在不同维度上的相关性都能被模型学习到。一方面减少了异常标注带来的成本,另一方面很好的适用于正负样本极不均匀的场景。同时使用简单的全连接网络就能获取很优的结果,同时也能保证较高效率。最终还能得到样本在特征空间的映射分布及其正常样本分布的描述,以此来保证最终获得的结果有很好的描述表示。本实施例有效的解决了传统方法的计算可扩展性差、维度灾难和使用核的方法中需要大量内存的问题,同时该方法提供了异常值的计算方法。依据该方法获得的异常值,可进行一个异常阈值的界定,以更好的适用于不同的时间序列数据上。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的关键性能指标数据的时序异常检测方法流程图;
图2为本发明实施例的关键性能指标数据的时序异常检测系统结构示意图。
具体实施方式
下面通过参考示范性实施例,对本发明技术问题、技术方案和优点进行详细阐明。以下所述示范性实施例仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非在这里进行定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本发明针对时间序列数据需要密切监视各种关键性能指标KPI,如CPU使用量、网络吞吐量、页面浏览量、在线用户数量,提出了一种关键性能指标KPI数据的时序异常检测方法。这里的KPI,通常指具有周期性服务器的关键性能指标。本发明从数据中学习到时序数据中的正常样本的分布,并以此作为判断异常的标准,从而进行时序异常检测。
下面结合附图,通过几个具体的实施例对本发明作进一步的详细说明,且各个实施例并不构成对本发明技术方案的限定。
第一实施例
本实施例提供了一种关键性能指标KPI数据的时序异常检测方法。图1所示为所述KPI数据的时序异常检测方法流程图。如图1所示,所述KPI数据的时序异常检测方法,包括如下步骤:
步骤S1,采集关键性能指标的时间序列数据。
本步骤中,采集一段时间内的测对象的分钟粒度的数据,数据包含如下属性字段:关键绩效指标的序列ID,时间戳,关键绩效指标的值。对数据中的异常进行人工标注,数据的属性字段将增加“标签”字段,以0表示正常点,1表示异常点,以此作为测试时评估模型的根据。异常时进行人工标注的过程,一般是依靠专家进行的,该部分的工作仅作为一个数据采集的过程,并且该方法作为一个无监督的异常检测方法,仅在阈值筛选过程使用该标签,是一般异常检测(分类)任务里常有的步骤,在此不再赘述。
步骤S2,判断所述时间序列数据中的缺失值和异常值,对所述缺失值及异常值进行修正,得到预处理后数据。
本步骤中,对所述缺失值及异常值进行修正,具体为:
所述时间序列数据为Τ,缺失值或异常值为xi,对xi取其左右长度为h窗口内的正常样本点,计算正常样本点的均值,使用
Figure BDA0002446967430000071
作为估计值对缺失值或异常值进行替换;对于窗口左右两端取不到h的情况,取能取到的最大值;若窗口内含有其他待处理的点,则不把这些待处理的点选取,计算均值仅计算有效点的均值,预处理过后得到的一条时间序列数据X。
步骤S3,提取所述预处理后数据的特征,将所述特征作为内容增加数据的属性字段,得到拼接数据。
本步骤中,所述特征包括时间序列的统计特征、拟合特征、频域特征和非线性特征。
其中,时间序列的统计特征包括:最大值、最小值、均值、方差。
根据预处理过后得到的一条时间序列数据X,记Xmax和Xmin为关键绩效指标的值中的最大值和最小值,记Xmean和Xvariance为关键绩效指标的所有值计算获得的均值和方差,对数据增加最大值、最小值、均值和方差属性字段,使得每个训练样本点
Figure BDA0002446967430000072
Figure BDA0002446967430000081
所述时间序列的拟合特征包括:滑动平均、带权滑动平均、指数加权移动平均(EWMA)和奇异值分解(SVD)。
根据预处理过后得到的一条时间序列数据X,取滑动窗口hi,hi∈H={5,10,15,20},i=1,2,3,4,取权值wi=W,i=1,2,3,4,取指数加权移动平均为β=0.9。记
Figure BDA0002446967430000082
作为x(j)点处的滑动平均值;记
Figure BDA0002446967430000083
作为x(j)点处的带权滑动平均值;记
Figure BDA0002446967430000084
作为x(j)点处的指数加权移动平均值,记SVD(x(j))作为x(j)点处的SVD值。对数据增加滑动平均、带权滑动平均、EWMA和SVD属性字段,使得其
Figure BDA0002446967430000085
Figure BDA0002446967430000086
所述时间序列的频域特征包括:谱残差(SR)、本征模函数(IMF)和小波特征。
根据预处理过后得到的一条时间序列数据X,首先计算其离散傅里叶变换A(f)=|F(X)|,将其转换到频域,计算其傅里叶变换后的相位
Figure BDA0002446967430000087
对幅值取对数后得到对数谱L(f)=log(A(f)),再用局部平均滤波器hn(f)对其进行平滑,得到V(f)=L(f)*hn(f),其中hn(f)是一个值1/(n*n)全为n×n的矩阵。因此谱残差值就可以通过对数谱和进行滤波后的差计算得到,即R(f)=L(f)-V(f)。通过小波变换,获得其小波特征wave(x(i)),再通过计算其本征模函数值获得其本征模特征imf(x(i))。对数据增加SR、IMF和小波属性字段,使得其
Figure BDA0002446967430000088
所述时间序列的非线性特征包括:熵、样本熵。
根据预处理过后得到的一条时间序列数据X,其中包括m+1种不同的关键绩效指标的值,s0,s1,…,sm,这些取值对应出现的概率分别是p0,p1,…,pm,则这个序列的熵为:
Figure BDA0002446967430000091
重构m维向量X(1),X(2),…,X(N-m+1),其中X(i)=[xi,xi+1,…,xi+m-1],对于1≤i≤N-m+1,统计满足式(6)条件的向量个数:
Figure BDA0002446967430000092
式(6)中,d[X,X*]定义为
Figure BDA0002446967430000093
X≠X*,d表示两个向量之间的距离,由对应元素的最大差值决定,j的取值范围为[1,N-m+1],但是i≠j。求
Figure BDA0002446967430000094
对所有i的平均值,记为Bm(r),即
Figure BDA0002446967430000095
Figure BDA0002446967430000096
令k=m+1,重复计算可得
Figure BDA0002446967430000097
Figure BDA0002446967430000098
其中:
Figure BDA0002446967430000099
则:
SampEn(xi)=-ln[Ak(r)/Bn(r)] (8)。
对数据增加熵和样本熵属性字段,使得其
Figure BDA00024469674300000910
Figure BDA00024469674300000911
步骤S4,将所述拼接数据划分为训练集和测试集,训练集作为输入数据训练深度学习支持向量模型,得到数据在特征空间中的半径和任意数据的特征空间的向量表示,进一步得到异常检测模型;采用所述测试集测试所述异常检测模型,得到测试集的样本异常分数。
本步骤中,将所述拼接数据X划分为训练集Dk={x(1),x(2),…,x(k)}和测试集Tn={x(k+1),x(k+2),…,x(n)}。
训练集作为输入数据训练深度学习支持向量模型,
Figure BDA00024469674300000913
为拥有
Figure BDA00024469674300000914
层隐藏层的神经网络,并设定每层隐藏层的权重W={W1,...,WL},则整个神经网络只需要学习其每一层隐藏层的权重及特征空间上的超空间的半径R。将深度支持向量数据描述的目标函数定义为:
Figure BDA00024469674300000912
式(9)中,第一项是每一个xi的特征空间的向量表示φ(x;W*)与超空间的中心c的距离的求和,第二项是一个带有超参数λ的权重衰减正则项。
最终通过神经网络学习获得数据在特征空间中的中心c,获得数据在特征空间中的半径R,和任意数据xi的特征空间的向量表示φ(xi;W*),及异常检测模型:
s(x)=||φ(x;W*)-c||2 (10)。
采用测试集对所述模型进行测试,得到测试集样本x的异常分数为s(x)=||φ(x;W*)-c||2
步骤S5,计算测试集中每个样本点的异常分数,设定不同的阈值,通过计算F1-score值,使最高的F1-score值对应的异常分数阈值作为检测异常标准。
本步骤中,对测试集Tn={x(k+1),x(k+2),…,x(n)}中任意xi,i∈k+1…n,计算其异常分数s(xi),,根据设定的不同异常分数阈值
Figure BDA0002446967430000102
根据数据本身的标签属性进行Precision值和Recall值的计算,最终将F1-score值的集合F={f1,f2…fj},选择最大的F1-score值f*=max{f1,f2…fj}所对应的异常分数阈值S*作为检测异常的标准。
其中,
Figure BDA0002446967430000101
步骤S6,以所述检测标准和异常检测模型,对实际应用中的KPI数据进行异常检测,对待检测的数据进行计算异常分数,根据预设异常分数阈值S*,认定超过异常分数阈值S*的待检测样本点为异常样本点,并将检测结果进行输出。
由以上可见,本发明实施例的关键性能指标数据的时间序列异常检测方法,基于优化目标函数的无监督学习的方法,而非以重构误差作为目标函数进行优化,可以有效的进行具有周期性的不同时间序列数据的异常检测,能够从时间序列数据中提取不同维度的特征以保证考虑到数据在不同维度上的相关性都能被模型学习到。一方面减少了异常标注带来的成本,另一方面很好的适用于正负样本极不均匀的场景。同时使用简单的全连接网络就能获取很优的结果,同时也能保证较高效率。最终还能得到样本在特征空间的映射分布及其正常样本分布的描述,以此来保证最终获得的结果有很好的描述表示。本实施例有效的解决了传统方法的计算可扩展性差、维度灾难和使用核的方法中需要大量内存的问题,同时该方法提供了异常值的计算方法。依据该方法获得的异常值,可进行一个异常阈值的界定,以更好的适用于不同的时间序列数据上。
第二实施例
本实施例提供了一种关键性能指标(KPI)数据的时序异常检测系统,图2所示为所述系统的结构示意图。如图2所示,所述KPI数据的时序异常检测系统,包括:数据采集模块10、数据预处理模块20、特征拼接模块30、模型训练与测试模块40、模型评估模块50、最终检测模块60。
其中,数据采集模块10与数据预处理模块20相连,用于采集关键性能指标的时间序列数据。
所述数据预处理模块20与所述特征拼接模块30相连,用于判断所述时间序列数据中的缺失值和异常值,对所述缺失值及异常值进行修正,得到预处理后数据。
所述特征拼接模块30与所述模型训练与测试模块相连40,用于提取所述预处理后数据的特征,将所述特征作为内容增加数据的属性字段,得到拼接数据。
所述模型训练与测试模块40与所述模型评估模块50及最终检测模块60相连,将所述拼接数据划分为训练集和测试集,训练集作为输入数据训练深度学习支持向量模型,得到数据在特征空间中的半径和任意数据的特征空间的向量表示,进一步得到异常检测模型;采用所述测试集测试所述异常检测模型,得到测试集的样本异常分数。
所述与之筛选模块50与所述最终检测模块相连60,用于计算测试集的样本异常分数与预设的阈值集进行比较,通过获得最该评估分数来筛选阈值作为检测标准。
所述最终检测模块60,用于以所述评估标准和异常检测模型,对待检测数据进行时间序列异常检测。
本实施例中所述关键性能指标(KPI)数据的时序异常检测系统,是与第一实施例的所述关键性能指标数据的时序异常检测方法相对应的,在第一实施例中所述时序异常检测方法的描述同样适用于本实施例的时序异常检测系统,在此不再赘述。
以上所述是本发明的优选实施方式,应当指出,本发明并不受限于以上所公开的示范性实施例,说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,在本发明揭露的技术范围做出的若干改进和润饰、可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种关键性能指标数据的时序异常检测方法,其特征在于,所述方法包括如下步骤:
步骤S1,采集关键性能指标的时间序列数据;
步骤S2,判断所述时间序列数据中的缺失值和异常值,对所述缺失值及异常值进行修正,得到预处理后数据;
步骤S3,提取所述预处理后数据的特征,将所述特征作为内容增加数据的属性字段,得到拼接数据;
步骤S4,将所述拼接数据划分为训练集和测试集,训练集作为输入数据训练深度学习支持向量模型,得到数据在特征空间中的半径和任意数据的特征空间的向量表示,进一步得到异常检测模型;采用所述测试集测试所述异常检测模型,得到测试集的样本异常分数;
步骤S5,预设异常分数阈值,与测试集的样本异常分数进行比较,得到评估标准;
步骤S6,以所述评估标准和异常检测模型,对待检测数据进行时间序列异常检测。
2.根据权利要求1所述的关键性能指标数据的时序异常检测方法,其特征在于,所述时间序列数据,为分钟粒度的数据,数据包含如下属性字段:关键绩效指标的序列ID,时间戳,关键绩效指标的值。
3.根据权利要求1所述的关键性能指标数据的时序异常检测方法,其特征在于,对所述缺失值及异常值进行修正,具体为:
所述时间序列数据为X,缺失值或异常值为xi,对xi取其左右长度为h窗口内的正常样本点,计算正常样本点的均值,使用式(1):
Figure FDA0002446967420000011
作为估计值对缺失值或异常值进行替换;对于窗口左右两端取不到h的情况,取能取到的最大值;若窗口内含有其他待处理的点,则不把这些待处理的点选取,计算均值仅计算有效点的均值。
4.根据权利要求1所述的关键性能指标数据的时序异常检测方法,其特征在于,所述步骤S3中的特征包括时间序列的统计特征、拟合特征、频域特征和非线性特征。
5.根据权利要求4所述的关键性能指标数据的时序异常检测方法,其特征在于,
所述时间序列X的统计特征包括:最大值、最小值、均值、方差;对应的所述拼接数据为对数据增加最大值、最小值、均值和方差属性字段,对应的任意数据为
Figure FDA0002446967420000021
所述时间序列X的拟合特征包括:滑动平均、带权滑动平均、指数加权移动平均EWMA和奇异值分解SVD;对应的所述拼接数据为对数据增加滑动平均、带权滑动平均、EWMA和SVD属性字段,对应的任意数据为:
Figure FDA0002446967420000022
所述时间序列X的频域特征包括:SR、IMF和小波特征;对应的所述拼接数据为对数据增加SR、IMF和小波属性字段,任意数据为:
Figure FDA0002446967420000023
所述时间序列X的非线性特征包括:熵、样本熵;对应的所述拼接数据为对数据增加熵和样本熵属性字段,任意数据为
Figure FDA0002446967420000024
Figure FDA0002446967420000025
其中:
Figure FDA0002446967420000026
Figure FDA0002446967420000027
Figure FDA0002446967420000028
SampEn(xi)=-ln[Ak(r)/Bm(r)] (8)
式(5)至(8)中,p0,p1,...,pm为时间序列数据X所包括的m+1种不同的关键绩效指标值s0,s1,...,sm,对应出现的概率,d[X,X*]定义为
Figure FDA0002446967420000029
Figure FDA00024469674200000210
d表示两个向量间的距离,由对应元素的最大差值决定,j的取值范围为[1,N-m+1],且i≠j;Bm(r)为
Figure FDA00024469674200000211
对所有i的平均值;令k=m+1,
Figure FDA00024469674200000212
6.根据权利要求5所述的关键性能指标数据的时序异常检测方法,其特征在于,所述拟合特征中:
x(j)点处的滑动平均值为:
Figure FDA00024469674200000213
x(j)点处的带权滑动平均值为:
Figure FDA0002446967420000031
x(j)点处的指数加权移动平均值为:
Figure FDA0002446967420000032
x(j)点处的SVD值为SVD(x(j));
wk为权值,β为指数加权移动平均值。
7.根据权利要求1所述的关键性能指标数据的时序异常检测方法,其特征在于,所述步骤S4中得到异常检测模型,具体为:
将所述拼接数据X划分为训练集Dk={x(1),x(2),...,x(k)}和测试集Tn={x(k+1),x(k +2),...,x(n)};训练集作为输入数据训练深度学习支持向量模型,
Figure FDA0002446967420000033
为拥有
Figure FDA0002446967420000034
层隐藏层的神经网络,并设定每层隐藏层的权重
Figure FDA0002446967420000035
将深度支持向量数据描述的目标函数定义为:
Figure FDA0002446967420000036
式(9)中,第一项是每一个xi的特征空间的向量表示
Figure FDA0002446967420000037
与超空间的中心c的距离的求和,第二项是一个带有超参数λ的权重衰减正则项;
将训练集输入,获得数据在特征空间中的半径R,和任意数据xi的特征空间的向量表示
Figure FDA0002446967420000038
及异常检测模型:
Figure FDA0002446967420000039
8.根据权利要求1所述的关键性能指标数据的时序异常检测方法,其特征在于,所述得到评估标准,具体为:
预设异常分数阈值
Figure FDA00024469674200000311
与测试样本点x获得的异常分数s(x)进行比较,认定超过异常分数阈值
Figure FDA00024469674200000312
的测试样本点为异常样本点,根据数据本身的标签属性进行Precision值和Recall值的计算,最终将F1-score值作为评估标准;
其中,
Figure FDA00024469674200000310
9.一种关键性能指标数据的时序异常检测系统,其特征在于,所述系统包括:数据采集模块、数据预处理模块、特征拼接模块、模型训练与测试模块、模型评估模块、最终检测模块;其中,
所述数据采集模块与数据预处理模块相连,用于采集关键性能指标的时间序列数据。
所述数据预处理模块与所述特征拼接模块相连,用于判断所述时间序列数据中的缺失值和异常值,对所述缺失值及异常值进行修正,得到预处理后数据;
所述特征拼接模块与所述模型训练与测试模块相连,用于提取所述预处理后数据的特征,将所述特征作为内容增加数据的属性字段,得到拼接数据;
所述模型训练与测试模块与所述模型评估模块及最终检测模块相连,将所述拼接数据划分为训练集和测试集,训练集作为输入数据训练深度学习支持向量模型,得到数据在特征空间中的半径和任意数据的特征空间的向量表示,进一步得到异常检测模型;采用所述测试集测试所述异常检测模型,得到测试集的样本异常分数;
所述模型评估模块与所述最终检测模块相连,用于预设异常分数阈值,与测试集的样本异常分数进行比较,得到评估标准;
所述最终检测模块,用于以所述评估标准和异常检测模型,对待检测数据进行时间序列异常检测。
CN202010282009.1A 2020-04-11 2020-04-11 一种关键性能指标数据的时序异常检测方法及系统 Active CN111562996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010282009.1A CN111562996B (zh) 2020-04-11 2020-04-11 一种关键性能指标数据的时序异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010282009.1A CN111562996B (zh) 2020-04-11 2020-04-11 一种关键性能指标数据的时序异常检测方法及系统

Publications (2)

Publication Number Publication Date
CN111562996A true CN111562996A (zh) 2020-08-21
CN111562996B CN111562996B (zh) 2021-11-23

Family

ID=72074231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010282009.1A Active CN111562996B (zh) 2020-04-11 2020-04-11 一种关键性能指标数据的时序异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN111562996B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966740A (zh) * 2020-08-24 2020-11-20 安徽思环科技有限公司 一种基于深度学习的水质荧光数据特征提取方法
CN112148955A (zh) * 2020-10-22 2020-12-29 南京航空航天大学 一种物联网时序数据异常检测方法及系统
CN112364077A (zh) * 2020-11-09 2021-02-12 光大理财有限责任公司 训练样本生成方法、机器学习模型训练方法及相关装置
CN112446002A (zh) * 2020-11-13 2021-03-05 天津大学 一种面向时序kpi数据的异常检测方法
CN112905412A (zh) * 2021-01-29 2021-06-04 清华大学 关键性能指标数据的异常检测方法及装置
CN113111096A (zh) * 2021-04-08 2021-07-13 东方电气集团科学技术研究院有限公司 一种面向发电设备高维时序工况数据的异常检测方法
CN113127705A (zh) * 2021-04-02 2021-07-16 西华大学 一种异构双向生成对抗网络模型及时间序列异常检测方法
WO2021189904A1 (zh) * 2020-10-09 2021-09-30 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质
CN113704241A (zh) * 2021-10-27 2021-11-26 国网浙江省电力有限公司信息通信分公司 一种低业务依赖的能源数据智能稽核方法
CN113961548A (zh) * 2021-09-22 2022-01-21 航天宏康智能科技(北京)有限公司 用水量时序数据的异常值处理方法和异常值处理装置
CN114019139A (zh) * 2021-10-26 2022-02-08 复旦大学 一种农用地土壤重金属异常数据的探测方法
CN114595124A (zh) * 2022-05-09 2022-06-07 北京瑞莱智慧科技有限公司 时序异常检测模型评估方法、相关装置及存储介质
CN114595448A (zh) * 2022-03-14 2022-06-07 山东省计算中心(国家超级计算济南中心) 一种基于相关性分析和三维卷积的工控异常检测方法、系统、设备及存储介质
CN114726749A (zh) * 2022-03-02 2022-07-08 阿里巴巴(中国)有限公司 数据异常检测模型获取方法、装置、设备、介质及产品
CN114757455A (zh) * 2022-06-15 2022-07-15 苏芯物联技术(南京)有限公司 一种基于伺服电机时序数据的地沟台车异常预测方法及系统
CN114881167A (zh) * 2022-05-24 2022-08-09 北京百度网讯科技有限公司 异常检测方法、装置、电子设备和介质
CN115361242A (zh) * 2022-10-24 2022-11-18 长沙市智为信息技术有限公司 一种基于多维特征网络的Web攻击检测方法
CN115412455A (zh) * 2022-07-28 2022-11-29 南京航空航天大学 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN115442271A (zh) * 2022-08-29 2022-12-06 云南电网有限责任公司迪庆供电局 一种网络性能指标时序数据异常检测方法
CN115659249A (zh) * 2022-12-28 2023-01-31 成都大汇物联科技有限公司 一种智能测站控制系统异常检测方法
CN116933023A (zh) * 2023-09-14 2023-10-24 德电北斗电动汽车有限公司 一种对置活塞磁力线性发电机的监测方法
CN117632937A (zh) * 2023-12-06 2024-03-01 北京开元泰达净化设备有限公司 一种工业互联网大数据平台及数据处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960303A (zh) * 2018-06-20 2018-12-07 哈尔滨工业大学 一种基于lstm的无人机飞行数据异常检测方法
CN109242207A (zh) * 2018-10-10 2019-01-18 中山大学 一种基于深度强化学习的金融时序数据预测方法
CN109978379A (zh) * 2019-03-28 2019-07-05 北京百度网讯科技有限公司 时序数据异常检测方法、装置、计算机设备和存储介质
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法
JP2020052460A (ja) * 2018-09-21 2020-04-02 東洋製罐グループホールディングス株式会社 異常検出システム、及び異常検出プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960303A (zh) * 2018-06-20 2018-12-07 哈尔滨工业大学 一种基于lstm的无人机飞行数据异常检测方法
JP2020052460A (ja) * 2018-09-21 2020-04-02 東洋製罐グループホールディングス株式会社 異常検出システム、及び異常検出プログラム
CN109242207A (zh) * 2018-10-10 2019-01-18 中山大学 一种基于深度强化学习的金融时序数据预测方法
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法
CN109978379A (zh) * 2019-03-28 2019-07-05 北京百度网讯科技有限公司 时序数据异常检测方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晶: ""非平稳时间序列的多尺度分析"", 《中国优秀博士学位论文全文数据库基础科学辑》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966740A (zh) * 2020-08-24 2020-11-20 安徽思环科技有限公司 一种基于深度学习的水质荧光数据特征提取方法
WO2021189904A1 (zh) * 2020-10-09 2021-09-30 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质
CN112148955A (zh) * 2020-10-22 2020-12-29 南京航空航天大学 一种物联网时序数据异常检测方法及系统
CN112364077A (zh) * 2020-11-09 2021-02-12 光大理财有限责任公司 训练样本生成方法、机器学习模型训练方法及相关装置
CN112446002A (zh) * 2020-11-13 2021-03-05 天津大学 一种面向时序kpi数据的异常检测方法
CN112446002B (zh) * 2020-11-13 2022-11-15 天津大学 一种面向时序kpi数据的异常检测方法
CN112905412A (zh) * 2021-01-29 2021-06-04 清华大学 关键性能指标数据的异常检测方法及装置
CN113127705A (zh) * 2021-04-02 2021-07-16 西华大学 一种异构双向生成对抗网络模型及时间序列异常检测方法
CN113111096A (zh) * 2021-04-08 2021-07-13 东方电气集团科学技术研究院有限公司 一种面向发电设备高维时序工况数据的异常检测方法
CN113111096B (zh) * 2021-04-08 2023-09-05 东方电气集团科学技术研究院有限公司 一种面向发电设备高维时序工况数据的异常检测方法
CN113961548B (zh) * 2021-09-22 2022-03-25 航天宏康智能科技(北京)有限公司 用水量时序数据的异常值处理方法和异常值处理装置
CN113961548A (zh) * 2021-09-22 2022-01-21 航天宏康智能科技(北京)有限公司 用水量时序数据的异常值处理方法和异常值处理装置
CN114019139A (zh) * 2021-10-26 2022-02-08 复旦大学 一种农用地土壤重金属异常数据的探测方法
CN114019139B (zh) * 2021-10-26 2024-03-26 复旦大学 一种农用地土壤重金属异常数据的探测方法
CN113704241B (zh) * 2021-10-27 2022-03-08 国网浙江省电力有限公司信息通信分公司 一种低业务依赖的能源数据智能稽核方法
CN113704241A (zh) * 2021-10-27 2021-11-26 国网浙江省电力有限公司信息通信分公司 一种低业务依赖的能源数据智能稽核方法
CN114726749A (zh) * 2022-03-02 2022-07-08 阿里巴巴(中国)有限公司 数据异常检测模型获取方法、装置、设备、介质及产品
CN114726749B (zh) * 2022-03-02 2023-10-31 阿里巴巴(中国)有限公司 数据异常检测模型获取方法、装置、设备及介质
CN114595448A (zh) * 2022-03-14 2022-06-07 山东省计算中心(国家超级计算济南中心) 一种基于相关性分析和三维卷积的工控异常检测方法、系统、设备及存储介质
CN114595448B (zh) * 2022-03-14 2022-09-27 山东省计算中心(国家超级计算济南中心) 一种基于相关性分析和三维卷积的工控异常检测方法、系统、设备及存储介质
CN114595124A (zh) * 2022-05-09 2022-06-07 北京瑞莱智慧科技有限公司 时序异常检测模型评估方法、相关装置及存储介质
CN114595124B (zh) * 2022-05-09 2022-07-15 北京瑞莱智慧科技有限公司 时序异常检测模型评估方法、相关装置及存储介质
CN114881167A (zh) * 2022-05-24 2022-08-09 北京百度网讯科技有限公司 异常检测方法、装置、电子设备和介质
CN114757455B (zh) * 2022-06-15 2022-11-01 苏芯物联技术(南京)有限公司 一种基于伺服电机时序数据的地沟台车异常预测方法及系统
CN114757455A (zh) * 2022-06-15 2022-07-15 苏芯物联技术(南京)有限公司 一种基于伺服电机时序数据的地沟台车异常预测方法及系统
CN115412455A (zh) * 2022-07-28 2022-11-29 南京航空航天大学 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN115412455B (zh) * 2022-07-28 2023-12-19 南京航空航天大学 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN115442271A (zh) * 2022-08-29 2022-12-06 云南电网有限责任公司迪庆供电局 一种网络性能指标时序数据异常检测方法
CN115442271B (zh) * 2022-08-29 2023-09-26 云南电网有限责任公司迪庆供电局 一种网络性能指标时序数据异常检测方法
CN115361242A (zh) * 2022-10-24 2022-11-18 长沙市智为信息技术有限公司 一种基于多维特征网络的Web攻击检测方法
CN115659249B (zh) * 2022-12-28 2023-09-19 成都大汇物联科技有限公司 一种智能测站控制系统异常检测方法
CN115659249A (zh) * 2022-12-28 2023-01-31 成都大汇物联科技有限公司 一种智能测站控制系统异常检测方法
CN116933023A (zh) * 2023-09-14 2023-10-24 德电北斗电动汽车有限公司 一种对置活塞磁力线性发电机的监测方法
CN116933023B (zh) * 2023-09-14 2023-12-01 德电北斗电动汽车有限公司 一种对置活塞磁力线性发电机的监测方法
CN117632937A (zh) * 2023-12-06 2024-03-01 北京开元泰达净化设备有限公司 一种工业互联网大数据平台及数据处理方法
CN117632937B (zh) * 2023-12-06 2024-04-30 北京开元泰达净化设备有限公司 一种工业互联网大数据平台及数据处理方法

Also Published As

Publication number Publication date
CN111562996B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN111562996B (zh) 一种关键性能指标数据的时序异常检测方法及系统
CN111967502B (zh) 一种基于条件变分自编码器的网络入侵检测方法
CN112015153B (zh) 一种无菌灌装生产线异常检测系统和方法
Nair et al. Learning a hierarchical monitoring system for detecting and diagnosing service issues
CN113868006B (zh) 时间序列的检测方法、装置、电子设备及计算机存储介质
Yang et al. An incipient fault diagnosis methodology using local Mahalanobis distance: Detection process based on empirical probability density estimation
Dias et al. Anomaly detection in trajectory data with normalizing flows
US8838519B2 (en) Graph-theoretic analysis of discrete-phase-space states for condition change detection and quantification of information
CN111538311B (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN115412455A (zh) 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN112213687B (zh) 基于伪异常点辨识的关口电能表数据异常检测方法及系统
Zhao et al. A novel deep fuzzy clustering neural network model and its application in rolling bearing fault recognition
CN114510958A (zh) 一种基于变换分类的时间序列异常检测方法
CN114004331A (zh) 一种基于关键指标和深度学习的故障分析方法
CN115081331A (zh) 一种基于状态参数重构误差的风电机组运行状态异常检测方法
CN116304604A (zh) 多变量时间序列数据异常检测、模型训练方法和系统
Li et al. A novel unsupervised anomaly detection method for rotating machinery based on memory augmented temporal convolutional autoencoder
Moon et al. Anomaly detection in edge nodes using sparsity profile
CN112949097A (zh) 一种基于深度迁移学习的轴承剩余寿命预测模型和方法
Gong et al. Application of improved bubble entropy and machine learning in the adaptive diagnosis of rotating machinery faults
JP2023133231A (ja) ネットワーク内のインフラストラクチャのデバイスによって生成された時系列データにおける異常を検出するための方法
Sha et al. Robust kernel principal component analysis and its application in blockage detection at the turn of conveyor belt
Cui et al. Causal network reconstruction from nonlinear time series: A comparative study
CN110967184B (zh) 基于振动信号分布特征识别的变速箱故障检测方法和系统
Liu et al. Anomaly Detection in Industrial Multivariate Time Series Data with Neutrosophic Theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant