CN112446002A - 一种面向时序kpi数据的异常检测方法 - Google Patents
一种面向时序kpi数据的异常检测方法 Download PDFInfo
- Publication number
- CN112446002A CN112446002A CN202011271468.6A CN202011271468A CN112446002A CN 112446002 A CN112446002 A CN 112446002A CN 202011271468 A CN202011271468 A CN 202011271468A CN 112446002 A CN112446002 A CN 112446002A
- Authority
- CN
- China
- Prior art keywords
- data
- recognizer
- training
- kpi
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Algebra (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向时序KPI数据的异常检测方法,步骤1、对一个极大极小二元博弈过程模型进行训练,通过交替训练使模型收敛;训练分为两个阶段即KPI识别器训练和重构器训练:步骤2、进行在线检测,用训练完成的识别器来判定数据正常/异常。本发明具有针对性强,检测精度高,检测鲁棒性高等优点。
Description
技术领域
本发明属于数据挖掘技术领域,特别是涉及一种时序KPI数据的异常检测方法。
背景技术
现代互联网应用的交互特性要求提供的服务具有低且稳定的延迟。然而,爆发性工作负载和资源竞争等因素往往会导致系统异常的发生,进而影响服务质量。因此,准确地检测系统异常变得越来越重要。除了现存的解决方案(例如日志诊断、领域知识驱动型检测),异常检测的一个主要方法是通过KPI数据(关键性能指标)检测系统异常,即实时测量一些重要的关键性能指标(例如用户访问负载、资源利用率和订单数量)并从中检测系统相关异常。
KPI数据反映了系统的时序状态,往往表现出周期性的特征。由于不确定噪声总是与周期模式相混合,使得KPI异常的检测是一个挑战性工作。特别是当KPI数据中的噪声不服从高斯分布时,异常与正常数据的识别难度增加。为了检测KPI异常,现有文献主要采用传统方法或深度学习方法。传统方法包括统计学方法和集成学习方法。它们无法处理高维数据,因为过于简单的模型难以提取到高维复杂的特征。尽管用于特征工程和异常识别的深度监督模型可以处理高维数据,但由于数据集的不平衡性,监督学习方法存在数据标注困难和模型收敛到次优的问题。
而目前还没有专门对时序数据高鲁棒的异常检测模型。
发明内容
本发明旨在提出一种面向时序KPI数据的异常检测方法,实现了基于深度学习的时序KPI数据异常检测。
本发明的一种面向时序KPI数据的异常检测方法,该方法具体包括以下步骤:
步骤1、对一个极大极小二元博弈过程模型进行训练,通过交替训练使模型收敛;训练分为两个阶段即KPI识别器训练和重构器训练:
步骤1-1、识别器训练过程为:首先从数据集中抽取在正常系统状态下采集的真实KPI数据和通过重构器重构异常KPI数据;
令正常数据标签为1、异常数据标签为0,通过最小化预测标签和真实标签的交叉熵来训练识别器,公式如下:
其中,xi是一条真实KPI数据,D(xi)是识别器对其真实性的评价,R(xi)是重构器对xi的重构结果,
利用公式(1)使识别器最大化区分正常数据和异常数据;
步骤1-2、重构器训练过程为最小化识别器的识别损失,公式如下:
其中,D(·)表示识别器对数据异常的判定,0表示数据正常,1表示数据异常;
步骤1-3、交替训练识别器和重构器,重复执行上述步骤1-1至步骤1-2直至模型收敛;当模型收敛时,通过重构器生成较为真实的数据;通过识别器识别正常数据的模式;
步骤2、进行在线检测,把待检测数据x输入给识别器D,然后D输出对数据x异常性的判定结果,用训练完成的识别器来判定数据正常/异常,如下式所示:
进行异常KPI数据识别的过程,具体包括以下步骤:
首先利用一维卷积神经网络提取时序KPI数据特征,然后利用一维卷积神经网络提取二次特征,最后把所有提取到的特征利用全连接神经网络进行分类:分析KPI数据的非高斯噪声特性,利用非平滑激活函数激活识别器来解决非高斯噪声问题,以便高效识别混有非高斯噪声的KPI异常;分析过程如下:
假设x={x1,x2,...,xw}是一个正常的KPI数据序列,Φ(·)是一个可学习的神经网络分类器,Φ(x)=1表示数据x正常,反之Φ(x)=0表示数据x异常;用ε={ε1,ε2,...,εw}表示非高斯分布噪声,接下来衡量Φ(x+ε)异常与否,ε表示边界;理想的异常检测器应满足以下标准之一:
当ε趋近无穷小的时候,得到如下关系式:
假设在识别器D中有n层神经网络,用Hj(·)表示将j-1th层映射到jth层中的函数,并将σj(·)作为jth层中的激活函数;
Φ(x)表示如下:
其中,σj(·)是非光滑函数;当σ'j(·)是不连续时,使得公式(7)成立。
与现有技术相比,本发明具有以下有益效果:
1)本发明的模型是基于异常检测目标,因为检测结果更精确;
2)相比较于传统统计学方法,本发明提出的基于深度学习模型在处理高维数据时更高效;
3)不同于集成学习方法,本发明提出的模型无需在原始数据上做特征工程,使得模型的应用范围更广;
4)本发明的模型以无监督的方式训练,免去上述数据比例不平衡导致的次优问题。不仅如此,监督模型需要大量数据标签,而大规模系统中标记数据是一个极具挑战性的任务,而无监督模型由于不需要数据,因此可以有效解决这个问题。
附图说明
图1为本发明的一种面向时序KPI数据的异常检测方法整体流程图;
图2为本发明的一种面向时序KPI数据的异常检测模型实施例架构图。
具体实施方式
以下结合附图及具体实施方式,进一步详述本发明技术方案。
如图1所示,为本发明的一种面向时序KPI数据的异常检测方法整体流程图。该流程具体包括以下步骤:
步骤1、对一个极大极小二元博弈过程模型进行训练,通过交替训练使模型收敛;训练分为两个阶段即KPI识别器训练和重构器训练:
1-1、识别器训练过程为:首先从数据集中抽取在正常系统状态下采集的真实KPI数据和通过重构器重构异常KPI数据(由于重构器在训练初期重构的数据和原始数据偏差较大,因此认为是异常数据);
令正常数据标签为1、异常数据标签为0,通过最小化预测标签(包括正常和异常标签)和真实标签(包括正常和异常标签)的交叉熵来训练识别器,公式如下:
公式(1)中,xi是一条真实KPI数据,D(xi)是识别器对其真实性的评价,R(xi)是重构器对xi的重构结果;
最小化公式(1)可以使识别器最大化区分正常数据和异常数据:对于正常数据,识别器输出1,异常数据识别器输出0。
1-2、重构器训练过程为最小化识别器的识别损失,公式如下:
其中,D(·)表示识别器对数据异常的判定,0表示正常,1表示异常。
最小化公式(7)可以使重构器生成的数据越来越真实,直至识别器的输出为1;
1-3、交替训练识别器和重构器,(重复执行上述步骤1-1至步骤1-2)直至模型收敛。当模型收敛时,通过重构器生成较为真实的数据;通过识别器识别正常数据的模式。
步骤2、进行在线检测。当模型训练完成时,模型中的识别器有辨别真伪数据的能力,因此本发明直接用训练完成的识别器来判定数据正常/异常。具体地,把待检测数据x输入给识别器D,然后D输出对数据x异常性的判定结果:
本发明为了高效、高精度地识别异常KPI数据,首先利用一维卷积神经网络提取时序KPI数据特征,然后利用一维卷积神经网络提取二次特征,最后把所有提取到的特征利用全连接神经网络进行分类:分析KPI数据的非高斯噪声特性,利用非平滑激活函数激活识别器来解决非高斯噪声问题,以便高效识别混有非高斯噪声的KPI异常。分析过程如下:
假设x={x1,x2,...,xw}是一个正常的KPI数据序列,Φ(·)是一个可学习的神经网络分类器,Φ(x)=1表示数据x正常,反之Φ(x)=0表示数据x异常;用ε={ε1,ε2,...,εw}表示非高斯分布噪声,接下来衡量Φ(x+ε)异常与否。由于噪声是非对称的,因此一定存在一个ε边界,其中x+ε为正态,x-ε为异常。反之亦然。因此,一个理想的异常检测器应满足以下标准之一:
情况一为了简单起见,本发明只考虑第一种情况。根据公式(4),一定存在一个临界噪声ε1:i={ε1,...,εi,0,0,...0},使得如下公式(2)成立,数据x加上和减去噪声ε1:i-1都为正常,而数据x减去ε1:i为异常;
左右两侧同时除以εi,得到下式:
当ε趋近无穷小的时候,对公式(6)求导,得到Φ(x)的导数:
因此当公式(7)成立的时候,是不连续的。假设在识别器D中有n层神经网络,用Hj(·)表示将j-1th层映射到jth层中的函数,并将σj(·)作为jth层中的激活函数。Φ(x)表示如下,其中σj(·)是非光滑函数:
分析完毕。
本模型专门针对KPI数据中非高斯噪声做了设计,在检测非高斯异常更加精确。利用识别器识别正常/异常数据时,会因为数据类别的不平衡导致模型收敛到次优解。
如图2所示,为本发明的一种面向时序KPI数据的异常检测模型实施例架构图。该模型包括两个部分:重构器和识别器。所述重构器为一个基于时序KPI数据的自编码器(即由多层全连接神经网络构成的编码器和解码器),其用于提供异常KPI数据的样本,训练目标是当给定一个KPI数据时,通过编码以及解码过程近似重现该KPI数据,生成供识别器训练的负类数据(数据标签为0)。所述识别器用于识别异常KPI数据,由卷积神经网络实现。
相比于生成器,本发明选择KPI重构器的原因如下:
原因一、对于序列预测任务生成模型,进而迭代生成序列,生成器导致了近似误差的累积。
原因二、KPI数据中存在大量噪声,生成模型的预测精度容易受到影响;
原因三、已经获得了KPI数据的完整视图而不只是部分数据,因此不需要生成模型的生成过程。
Claims (2)
1.一种面向时序KPI数据的异常检测方法,其特征在于,该方法具体包括以下步骤:
步骤1、对一个极大极小二元博弈过程模型进行训练,通过交替训练使模型收敛;训练分为两个阶段即KPI识别器训练和重构器训练:
步骤1-1、识别器训练过程为:首先从数据集中抽取在正常系统状态下采集的真实KPI数据和通过重构器重构异常KPI数据;
令正常数据标签为1、异常数据标签为0,通过最小化预测标签和真实标签的交叉熵来训练识别器,公式如下:
其中,xi是一条真实KPI数据,D(xi)是识别器对其真实性的评价,R(xi)是重构器对xi的重构结果,
利用公式(1)使识别器最大化区分正常数据和异常数据;
步骤1-2、重构器训练过程为最小化识别器的识别损失,公式如下:
其中,D(·)表示识别器对数据异常的判定,0表示数据正常,1表示数据异常;
步骤1-3、交替训练识别器和重构器,重复执行上述步骤1-1至步骤1-2直至模型收敛;当模型收敛时,通过重构器生成较为真实的数据;通过识别器识别正常数据的模式;
步骤2、进行在线检测,把待检测数据x输入给识别器D,然后D输出对数据x异常性的判定结果,用训练完成的识别器来判定数据正常/异常,如下式所示:
2.如权利要求1所述的一种面向时序KPI数据异常检测方法,其特征在于,进行异常KPI数据识别的过程,具体包括以下步骤:
首先利用一维卷积神经网络提取时序KPI数据特征,然后利用一维卷积神经网络提取二次特征,最后把所有提取到的特征利用全连接神经网络进行分类:分析KPI数据的非高斯噪声特性,利用非平滑激活函数激活识别器来解决非高斯噪声问题,以便高效识别混有非高斯噪声的KPI异常;分析过程如下:
假设x={x1,x2,...,xw}是一个正常的KPI数据序列,Φ(·)是一个可学习的神经网络分类器,Φ(x)=1表示数据x正常,反之Φ(x)=0表示数据x异常;用ε={ε1,ε2,...,εw}表示非高斯分布噪声,接下来衡量Φ(x+ε)异常与否,ε表示边界;理想的异常检测器应满足以下标准之一:
当ε趋近无穷小的时候,得到如下关系式:
假设在识别器D中有n层神经网络,用Hj(·)表示将j-1th层映射到jth层中的函数,并将σj(·)作为jth层中的激活函数;
Φ(x)表示如下:
其中,σj(·)是非光滑函数;当σ'j(·)是不连续时,使得公式(7)成立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011271468.6A CN112446002B (zh) | 2020-11-13 | 2020-11-13 | 一种面向时序kpi数据的异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011271468.6A CN112446002B (zh) | 2020-11-13 | 2020-11-13 | 一种面向时序kpi数据的异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446002A true CN112446002A (zh) | 2021-03-05 |
CN112446002B CN112446002B (zh) | 2022-11-15 |
Family
ID=74738020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011271468.6A Active CN112446002B (zh) | 2020-11-13 | 2020-11-13 | 一种面向时序kpi数据的异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446002B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102798870A (zh) * | 2012-08-07 | 2012-11-28 | 中国空间技术研究院 | 一种卫星导航系统兼容性分析方法 |
CN108334907A (zh) * | 2018-02-09 | 2018-07-27 | 哈尔滨工业大学(威海) | 一种基于深度学习的复杂装备点异常检测方法及系统 |
CN108769993A (zh) * | 2018-05-15 | 2018-11-06 | 南京邮电大学 | 基于生成对抗网络的通信网络异常用户检测方法 |
CN109584221A (zh) * | 2018-11-16 | 2019-04-05 | 聚时科技(上海)有限公司 | 一种基于监督式生成对抗网络的异常图像检测方法 |
WO2020029356A1 (zh) * | 2018-08-08 | 2020-02-13 | 杰创智能科技股份有限公司 | 一种基于生成对抗网络的脸部变化预测方法 |
CN110875790A (zh) * | 2019-11-19 | 2020-03-10 | 上海大学 | 基于生成对抗网络的无线信道建模实现方法 |
CN111562996A (zh) * | 2020-04-11 | 2020-08-21 | 北京交通大学 | 一种关键性能指标数据的时序异常检测方法及系统 |
US20200311558A1 (en) * | 2019-03-29 | 2020-10-01 | Peking University | Generative Adversarial Network-Based Optimization Method And Application |
-
2020
- 2020-11-13 CN CN202011271468.6A patent/CN112446002B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102798870A (zh) * | 2012-08-07 | 2012-11-28 | 中国空间技术研究院 | 一种卫星导航系统兼容性分析方法 |
CN108334907A (zh) * | 2018-02-09 | 2018-07-27 | 哈尔滨工业大学(威海) | 一种基于深度学习的复杂装备点异常检测方法及系统 |
CN108769993A (zh) * | 2018-05-15 | 2018-11-06 | 南京邮电大学 | 基于生成对抗网络的通信网络异常用户检测方法 |
WO2020029356A1 (zh) * | 2018-08-08 | 2020-02-13 | 杰创智能科技股份有限公司 | 一种基于生成对抗网络的脸部变化预测方法 |
CN109584221A (zh) * | 2018-11-16 | 2019-04-05 | 聚时科技(上海)有限公司 | 一种基于监督式生成对抗网络的异常图像检测方法 |
US20200311558A1 (en) * | 2019-03-29 | 2020-10-01 | Peking University | Generative Adversarial Network-Based Optimization Method And Application |
CN110875790A (zh) * | 2019-11-19 | 2020-03-10 | 上海大学 | 基于生成对抗网络的无线信道建模实现方法 |
CN111562996A (zh) * | 2020-04-11 | 2020-08-21 | 北京交通大学 | 一种关键性能指标数据的时序异常检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
IAN J. GOODFELLOW ET AL.: "Generative adversarial nets", 《ADV. NEURAL INF. PROCESS. SYST.》 * |
STANISLAV PIDHORSKYI ET AL.: "Generative Probabilistic Novelty Detection with Adversarial Autoencoders", 《ADV. NEURAL INF.PROCESS. SYST.》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112446002B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109639739B (zh) | 一种基于自动编码器网络的异常流量检测方法 | |
Azamfar et al. | Deep learning-based domain adaptation method for fault diagnosis in semiconductor manufacturing | |
CN113434357B (zh) | 基于序列预测的日志异常检测方法及装置 | |
Pham et al. | The random cluster model for robust geometric fitting | |
Yu et al. | PCWGAN-GP: A new method for imbalanced fault diagnosis of machines | |
CN117040917A (zh) | 一种具有监测预警功能的智慧型交换机 | |
CN111190804A (zh) | 一种云原生系统的多层次的深度学习日志故障检测方法 | |
CN112527604A (zh) | 一种基于深度学习的运维检测方法、系统、电子设备及介质 | |
CN117784710B (zh) | 数控机床远程状态监控系统及其方法 | |
KR20200056183A (ko) | 이상 탐지 방법 | |
CN113868006A (zh) | 时间序列的检测方法、装置、电子设备及计算机存储介质 | |
CN113452672A (zh) | 基于协议逆向分析的电力物联网终端流量异常分析方法 | |
CN116756594A (zh) | 一种电网数据异常点检测方法、系统、设备及介质 | |
CN117056834A (zh) | 基于决策树的大数据分析方法 | |
CN117516937A (zh) | 基于多模态特征融合增强的滚动轴承未知故障检测方法 | |
CN110879802A (zh) | 一种日志模式提取及匹配方法 | |
CN117951646A (zh) | 一种基于边缘云的数据融合方法及系统 | |
CN117874662A (zh) | 基于图模式的微服务日志异常检测方法 | |
CN111488950B (zh) | 分类模型信息输出方法及装置 | |
CN112446002B (zh) | 一种面向时序kpi数据的异常检测方法 | |
Gaugel et al. | Supervised Time Series Segmentation as Enabler of Multi-Phased Time Series Classification: A Study on Hydraulic End-of-Line Testing | |
Pan et al. | Unsupervised two-stage root-cause analysis for integrated systems | |
CN115017015B (zh) | 一种边缘计算环境下程序异常行为检测方法及系统 | |
CN115757062A (zh) | 一种基于句嵌入以及Transformer-XL的日志异常检测方法 | |
CN107067034B (zh) | 一种快速识别红外光谱数据分类的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |