CN109492193A - 基于深度机器学习模型的异常网络数据生成与预测方法 - Google Patents

基于深度机器学习模型的异常网络数据生成与预测方法 Download PDF

Info

Publication number
CN109492193A
CN109492193A CN201811627720.5A CN201811627720A CN109492193A CN 109492193 A CN109492193 A CN 109492193A CN 201811627720 A CN201811627720 A CN 201811627720A CN 109492193 A CN109492193 A CN 109492193A
Authority
CN
China
Prior art keywords
model
component
binary group
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811627720.5A
Other languages
English (en)
Other versions
CN109492193B (zh
Inventor
杨恺
窦绍瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201811627720.5A priority Critical patent/CN109492193B/zh
Publication of CN109492193A publication Critical patent/CN109492193A/zh
Application granted granted Critical
Publication of CN109492193B publication Critical patent/CN109492193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)

Abstract

本发明涉及一种基于深度机器学习模型的异常网络数据生成与预测方法,包括:步骤S1:收集系统组件的历史性能指标数据,并训练异常预测模型;步骤S2:在线收集系统中所有组件的性能指标数据;步骤S3:判断各组件是否存在与其有关联关系的组件,若为是,则执行步骤S4,反之,则执行步骤S5;步骤S4:将两个组件的数据组合成二元组,计算该二元组的残差值,并输入至该二元组对应的异常预测模型,并执行步骤S6;步骤S5:搜索该组件对应的异常预测模型,将该组件的性能指标数据输入至该组件所对应的异常预测模型,并执行步骤S6;步骤S6:判断模型输出的预测结果,若为是存在异常,则进行报警。与现有技术相比,本发明克服了异常预测系统训练时出现的样本不均衡问题,提高模型预测性能。

Description

基于深度机器学习模型的异常网络数据生成与预测方法
技术领域
本发明涉及异常预测领域,尤其是涉及一种基于深度机器学习模型的异常网络数据生成与预测方法。
背景技术
随着近年来IT技术的不断发展,IT系统的规模与复杂度不断增长,这使得控制、管理复杂系统变得越来越困难。大型复杂系统中的异常往往会随着系统规模与复杂度的增大,造成严重的、或不可预估的后果。所以,如何有效避免系统发生异常,成为了系统运维环节的一个难题。一般的,可以从异常检测与异常预测两个方面入手以避免复杂系统中的异常。其中,异常检测旨在监测系统性能指标,并根据实时数据判断系统的当前状态,当检测到当前系统状态偏离正常状态时(即发生异常时),就需要采取必要措施以处理异常。异常检测问题是相对容易的,且相关技术也相对成熟,但异常检测仅能及时检测异常的存在,不能避免异常的发生。而异常预测旨在通过监测系统的实时性能指标,对系统的未来状态进行估计(即预测异常的发生),当异常预测系统预测到一个异常时,就可以由人工或由系统自动地采取相关措施以避免异常。异常预测问题相对于异常检测问题难度更大,但可以有效避免异常。所以异常预测系统对解决运维中的异常问题有着重大意义。
异常预测问题通常可以被转化成一种特殊的二分类问题,其分类结果仅包括“异常”与“非异常”两类。传统的分类方法的前提是需要大量经过标记的数据做模型训练,虽然训练数据的标记过程往往会耗费巨大的成本,但正、负例数量较为均衡的标记数据对提升分类效果有着重大意义。不同于传统的分类问题,异常预测问题旨在预测到系统中的异常,而往往异常是不经常发生的,这导致异常样本非常的少,如果从特征提取的角度区分正常样本与异常样本的话,实际情况中的训练样本或训练样本不均衡往往会使分类性能显著下降。所以,如何克服异常预测问题中的训练样本不均衡问题,目前是异常预测系统的一个很大的挑战。
由于复杂系统中的监测数据往往是时间序列的形式,在异常预测时,我们需要借助时间序列的时间特性,如周期性等,对序列进行分析。所以,如何利用时间序列的性质对时间序列建模,也是异常预测问题的一大难点。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度机器学习模型的异常网络数据生成与预测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度机器学习模型的异常网络数据生成与预测方法,包括:
步骤S1:收集系统组件的历史性能指标数据,并训练异常预测模型;
步骤S2:在线收集系统中所有组件的性能指标数据;
步骤S3:判断各组件是否存在与其有关联关系的组件,若为是,则执行步骤S4,反之,则执行步骤S5;
步骤S4:将两个组件的数据组合成二元组,计算该二元组的残差值,并输入至该二元组对应的异常预测模型,并执行步骤S6;
步骤S5:搜索该组件对应的异常预测模型,将该组件的性能指标数据输入至该组件所对应的异常预测模型,并执行步骤S6;
步骤S6:判断模型输出的预测结果,若为是存在异常,则进行报警。
所述步骤S1具体包括:
步骤S11:收集各个系统组件的历史性能指标数据,并两两组合成二元组;
步骤S12:判断各二元组内的数据是否具有关联关系,若为是,则执行步骤S13,反之,则执行步骤S14;
步骤S13:计算二元组内的数据的残差序列,提取出残差序列中的异常事件与正常事件,然后执行步骤S16;
步骤S14:判断是否还有未判断过关联关系的二元组,若为是,则执行步骤S12,反之,则执行步骤S15;
步骤S15:对于与其他组件无关联关系的组件,提取出该组件历史性能指标中的异常事件与正常事件,然后执行步骤S16;
步骤S16:对于每个二元组或单个的组件数据,使用异常事件与正常事件训练一个基于深度学习的异常预测模型,并保存每个异常预测模型。
所述步骤S12具体包括:
步骤S121:针对任一二元组内的数据,生成一个自回归模型;
步骤S122:评估每一个自回归模型的R均方值:
其中:R2为所求的R均方值,yt为t时刻y组件的性能指标,为使用给定的自回归模型模型θ对组件y在t时刻的预测值,θ为要评估的自回归模型,为y组件在时间窗口[1,t]内的平均值,N为历史性能指标数据的长度;
步骤S123:判断R均方值是否大于设定阈值,若为是,则存储该自回归模型,反之则丢弃该自回归模型。
所述自回归模型的生成过程具体包括:
步骤A1:输入两个组件x、y的历史正常性能指标[xt-k,xt-k-1,…,xt-k-m]与[yt,yt-1,…,yt-n],并确定自回归模型系数:
yt+a1yt-1+…+anyt-n=b0xt-k+b1xt-k-1+…+bmxt-k-m
其中:n,m,k为预设的自回归模型的参数,a1,…,an与b1,…,bm为自回归模型系数;
步骤A2:确定自回归模型:
θ=[a1,…,an,b1,…,bm]
所述步骤S16具体包括:
步骤S161:根据提取出的异常事件,训练一个异常事件生成器;
步骤S162:在生成器学习到的概率分布上进行随机采样,得到生成的虚拟异常事件的异常数据;
步骤S163:使用步骤S161中的异常事件、步骤S162中的虚拟异常事件与正常事件训练一个异常预测模型。
所述异常事件生成器的架构为变分自动编码器。
所述异常事件生成器的训练过程中,训练的目标为最小化如下损失函数:
其中:为损失函数,KL(·)为KL散度,为样本被编码后生成的概率分布,为隐藏空间z的概率分布,是基于VAE编码结果的重建序列的概率分布,为生成器生成的重建序列与训练序列之间的重建损失,为生成器对训练样本编码后的样本表示。
所述异常预测模型为长短期记忆循环神经网络。
判断任一组件是否存在与其有关联关系的组件的过程具体为:判断是否存储了包含此组件的自回归模型,若为是,则判定自回归模型中涉及的两个组件存在关联,反之则判定该组件与其他组件均无关联关系。
所述步骤S4具体包括:
步骤S41:将两个组件的数据[xt-k,xt-k-1,…,xt-k-m]、[yt-1,yt-2,…,yt-n]组合成二元组;
步骤S42:搜索该二元组的自回归模型θ,以[xt-k,xt-k-1,…,xt-k-m]作为输入,预测另一个组件的性能指标预测公式如下:
其中:θ为自回归模型。
步骤S43:计算残差序列,[rt-L-1,rt-L-2,…,rt]残差序列计算公式如下:
其中是由自回归模型θ输出的预测值,yt是真实的性能指标值,rt为表征关联关系稳定性的残差值;
步骤S44:搜索该二元组对应的异常预测模型,输入残差值到该模型中。
与现有技术相比,本发明具有以下有益效果:
1)利用既有的异常数据生成更多的异常数据,从而克服异常预测系统训练时出现的样本不均衡问题,提高模型预测性能。
2)将复杂系统内组件之间的关联关系简化为成对的关联关系,并对该关联关系建模,可以在建模结果的基础上对组件的正常性能指标做出预测。
3)利用自回归模型进行关联关系的判断,可以提高关联关系的判断准确度。
4)能够分别对系统中的两种异常,即单变量上下文异常与集体上下文异常,进行有效预测。
5)预测的查准率与召回率能够根据实际需求进行调节;
附图说明
图1为本发明方法的主要步骤流程示意图;
图2为LSTM预测网络的结构示意图;
图3为异常预测模型训练过程的流程示意图;
图4为异常预测过程的流程示意图;
图5为VAE网络的结构示意图;
图6为异常数据生成结果样本示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一种基于深度机器学习模型的异常网络数据生成与预测方法,如图1、图3与图4所示,包括:
步骤S1:收集系统组件的历史性能指标数据,并训练异常预测器,其中异常预测器中保存处有多个针对二元组或者单一组件对应的异常预测模型;
如图3所示,步骤S1具体包括:
步骤S11:收集各个系统组件的历史性能指标数据,并两两组合成二元组;
步骤S12:判断各二元组内的数据是否具有关联关系,若为是,则执行步骤S13,反之,则执行步骤S14;
步骤S12具体包括:
步骤S121:针对任一二元组内的数据,生成一个自回归模型;
所述自回归模型的生成过程具体包括:
步骤A1:输入两个组件x、y的历史正常性能指标[xt-k,xt-k-1,…,xt-k-m]与[yt,yt-1,…,yt-n],并确定自回归模型系数:
yt+a1yt-1+…+anyt-n=b0xt-k+b1xt-k-1+…+bmxt-k-m
其中:n,m,k为预设的自回归模型的参数,a1,…,an与b1,…,bm为自回归模型系数;
步骤A2:确定自回归模型:
θ=[a1,…,an,b1,…,bm]
步骤S122:评估每一个自回归模型的R均方值:
其中:R2为所求的R均方值,yt为t时刻y组件的性能指标,为使用给定的自回归模型模型θ对组件y在t时刻的预测值,θ为要评估的自回归模型,为y组件在时间窗口[1,t]内的平均值,N为历史性能指标数据的长度;
步骤S133:判断R均方值是否大于设定阈值,若为是,则存储该自回归模型,反之则丢弃该自回归模型。
步骤S13:计算二元组内的数据的残差序列,提取出残差序列中的异常事件与正常事件,然后执行步骤S16;
步骤S14:判断是否还有未判断过关联关系的二元组,若为是,则执行步骤S12,反之,则执行步骤S15;
步骤S15:对于与其他组件无关联关系的组件,提取出该组件历史性能指标中的异常事件与正常事件,然后执行步骤S16;
步骤S16:对于每个二元组或单个的组件数据,使用异常事件与正常事件训练一个基于深度学习的异常预测模型,并保存每个模型。
所述步骤S16具体包括:
步骤S161:根据提取出的异常事件,训练一个异常事件生成器;
所述异常事件生成器的架构为变分自动编码器,异常事件生成器的训练过程中,训练的目标为最小化如下损失函数:
其中:为损失函数,KL(·)为KL散度,为样本被编码后生成的概率分布,为隐藏空间z的概率分布,是基于VAE编码结果的重建序列的概率分布,为生成器生成的重建序列与训练序列之间的重建损失,为生成器对训练样本编码后的样本表示。
步骤S162:在生成器学习到的概率分布上进行随机采样,得到生成的虚拟异常事件的异常数据;
步骤S163:使用步骤S161中的异常事件、步骤S162中的虚拟异常事件与正常事件训练一个异常预测模型。
所述异常预测模型为长短期记忆循环神经网络。
步骤S2:在线收集系统中所有组件的性能指标数据。
步骤S3:判断各组件是否存在与其有关联关系的组件,若为是,则执行步骤S4,反之,则执行步骤S5;
判断任一组件是否存在与其有关联关系的组件的过程具体为:判断是否存储了包含此组件的自回归模型,若为是,则判定自回归模型中涉及的两个组件存在关联,反之则判定该组件与其他组件均无关联关系。
步骤S4:将两个组件的数据组合成二元组,计算该二元组的残差值,并输入至该二元组对应的异常预测模型,并执行步骤S6;
所述步骤S4具体包括:
步骤S41:将两个组件的数据[xt-k,xt-k-1,…,xt-k-m]、[yt-1,yt-2,…,yt-n]组合成二元组;
步骤S42:搜索该二元组的自回归模型θ,以[xt-k,xt-k-1,…,xt-k-m]作为输入,预测另一个组件的性能指标预测公式如下:
其中θ为自回归模型。
步骤S43:计算残差序列,[rt-L-1,rt-L-2,…,rt]残差序列计算公式如下:
其中是由ARX模型输出的预测值,yt是真实的性能指标值,rt为表征关联关系稳定性的残差值
步骤S44:搜索该二元组对应的异常预测模型,输入残差值到该模型中。
步骤S5:搜索该组件对应的异常预测模型,将该组件的性能指标数据输入至该组件所对应的异常预测模型,并执行步骤S6;
步骤S6:判断模型输出的预测结果,若为是存在异常,则进行报警。
本申请中,使用长短期记忆循环神经网络(Long Short-Term Memory RecurrentNeural Network,LSTM RNN)实现异常预测,这种方法可以充分利用时间序列的时间特性与上下文相关性,并实现样本分类。
具体而言,本发明采用如图2所示的LSTM预测网络,网络的输入是一个定长的时间序列[xt-L-1,xt-L-2,…,xt],输出yt是该序列后将会发生异常的概率。当输出的概率大于某个阈值的时候,就产生一个异常警报。
针对本发明所述的两种异常,即单变量上下文异常与集体上下文异常,我们在训练阶段分别使用不同的标记数据来训练网络。
针对单变量上下文异常,我们使用带标记的原始时间序列数据进行训练,具体而言,我们使用采样自异常预测期的时间序列数据[xt-L-1,xt-L-2,…,xt]作为正例,并采用采样自系统正常期的时间序列数据[x′t-L-1,x′t-L-2,…,x′t′]作为反例,对上述结构的LSTM网络进行有监督的训练。在异常预测阶段,我们使用一个与LSTM网络结构等长的窗口扫描组件的实时性能指标数据,并将窗口内的数据送入训练好的LSTM网络中,网络的输出yt即为该时间窗口后将会发生异常的概率。
针对集体上下文异常,我们使用带标记的残差时间序列数据进行训练,具体而言,我们使用采样自异常预测期的时间序列数据[rt-L-1,rt-L-2,…,rt]作为正例,并使用采样自系统正常运行期间的时间序列数据[r′t-L-1,r′t-L-2,…,r′t′]作为反例,对上述结构的LSTM网络进行有监督的训练。在异常预测阶段,我们使用一个与LSTM网络结构等长的窗口扫描生成该残差序列的一对组件,并基于他们之间的ARX模型,得到这对组件的残差序列,我们将该残差序列送入训练好的LSTM网络中,网络的输出yt即为该时间窗口后将会发生异常的概率。
上述异常预测方法在真实世界KPI数据集上做了性能评估,并采用查准率(precision)与召回率(recall)作为衡量性能的指标。上述LSTM网络的输出是一个介于0到1之间的异常概率p,通常我们使用0.5作为分类阈值,当p<0.5时,样本被分类为正常,否则被分类为异常。因此,我们可以通过改变分类阈值,对异常预测的性能做出调整。表1列出了基于LSTM的方法与作为对比的随机森林方法在不同分类阈值下的预测性能。由此可见,在相同召回率下,基于LSTM的异常预测方法的查准率更高,可以说明本专利所述的异常预测方法具有先进性。
表1
使用变分自动编码器(Variational Auto-Encoder,VAE)生成与真实异常事件的统计特性高度相似的时间序列,所生成的时间序列数据可以用于克服训练上述LSTM网络时所面临的正、负样本不平衡问题。
具体而言,本发明采用如图5所示的VAE网络。
所述VAE网络分为编码器(encoder)和解码器(decoder)部分,其中编码器与解码器均采用LSTM结构。在训练过程中,编码器的输入是真实异常事件的异常数据,编码器将训练样本映射到隐藏空间z中,解码器译码隐藏空间z中的码字,并重建训练样本,其中隐藏空间中的样本分布被设定为符合多维高斯分布。网络的训练目标是最小化如下的损失函数:
其中:为损失函数,KL(·)为KL散度,为样本被编码后生成的概率分布,为隐藏空间z的概率分布,是基于VAE编码结果的重建序列的概率分布,为生成器生成的重建序列与训练序列之间的重建损失,为生成器对训练样本编码后的样本表示。
在生成阶段,VAE中的解码器被视为生成器,我们首先在多维高斯分布上进行随机采样,并将样本送入生成器,即可得到一个生成的异常事件的时间序列。所生成的时间序列与真实的异常事件时间序列可以视为在同一个概率分布上的不同采样,其形状与统计性质均与真实异常事件的时间序列高度相似,所以所生成的时间序列可以视为真实的异常事件用于训练2)中所提出的LSTM网络,从而解决因训练样本不均衡导致的模型性能下降的问题。
上述方法在真实世界KPI数据集上进行了性能评估。在训练阶段,我们使用整段异常事件的时间序列作为样本来训练VAE网络,所述VAE网络的隐藏空间维度为200。在生成阶段,我们在概率密度介于[0.5,0.79]的范围内200维高斯分布上进行随机采样,并将采样结果送入解码器,生成的异常数据样本如图6所示,其中数据的上升代表了异常事件的发生。由此可得,本发明所述的异常数据生成方法可以生成与真实异常事件的统计特性高度相似的时间序列。

Claims (10)

1.一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,包括:
步骤S1:收集系统组件的历史性能指标数据,并训练异常预测模型;
步骤S2:在线收集系统中所有组件的性能指标数据;
步骤S3:判断各组件是否存在与其有关联关系的组件,若为是,则执行步骤S4,反之,则执行步骤S5;
步骤S4:将两个组件的数据组合成二元组,计算该二元组的残差值,并输入至该二元组对应的异常预测模型,并执行步骤S6;
步骤S5:搜索该组件对应的异常预测模型,将该组件的性能指标数据输入至该组件所对应的异常预测模型,并执行步骤S6;
步骤S6:判断模型输出的预测结果,若为是存在异常,则进行报警。
2.根据权利要求1所述的一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,所述步骤S1具体包括:
步骤S11:收集各个系统组件的历史性能指标数据,并两两组合成二元组;
步骤S12:判断各二元组内的数据是否具有关联关系,若为是,则执行步骤S13,反之,则执行步骤S14;
步骤S13:计算二元组内的数据的残差序列,提取出残差序列中的异常事件与正常事件,然后执行步骤S16;
步骤S14:判断是否还有未判断过关联关系的二元组,若为是,则执行步骤S12,反之,则执行步骤S15;
步骤S15:对于与其他组件无关联关系的组件,提取出该组件历史性能指标中的异常事件与正常事件,然后执行步骤S16;
步骤S16:对于每个二元组或单个的组件数据,使用异常事件与正常事件训练一个基于深度学习的异常预测模型,并保存每个异常预测模型。
3.根据权利要求2所述的一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,所述步骤S12具体包括:
步骤S121:针对任一二元组内的数据,生成一个自回归模型;
步骤S122:评估每一个自回归模型的R均方值:
其中:R2为所求的R均方值,yt为t时刻y组件的性能指标,为使用给定的自回归模型模型θ对组件y在t时刻的预测值,θ为要评估的自回归模型,为y组件在时间窗口[1,t]内的平均值,N为历史性能指标数据的长度;
步骤S123:判断R均方值是否大于设定阈值,若为是,则存储该自回归模型,反之则丢弃该自回归模型。
4.根据权利要求3所述的一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,所述自回归模型的生成过程具体包括:
步骤A1:输入两个组件x、y的历史正常性能指标[xt-k,xt-k-1,…,xt-k-m]与[yt,yt-1,…,yt-n],并确定自回归模型系数:
yt+a1yt-1+…+anyt-n=b0xt-k+b1xt-k-1+…+bmxt-k-m
其中:n,m,k为预设的自回归模型的参数,a1,…,an与b1,…,bm为自回归模型系数;
步骤A2:确定自回归模型:
θ=[a1,…,an,b1,…,bm]。
5.根据权利要求2所述的一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,所述步骤S16具体包括:
步骤S161:根据提取出的异常事件,训练一个异常事件生成器;
步骤S162:在生成器学习到的概率分布上进行随机采样,得到生成的虚拟异常事件的异常数据;
步骤S163:使用步骤S161中的异常事件、步骤S162中的虚拟异常事件与正常事件训练一个异常预测模型。
6.根据权利要求5所述的一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,所述异常事件生成器的架构为变分自动编码器。
7.根据权利要求5所述的一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,所述异常事件生成器的训练过程中,训练的目标为最小化如下损失函数:
其中:为损失函数,KL(·)为KL散度,为样本被编码后生成的概率分布,为隐藏空间z的概率分布,是基于VAE编码结果的重建序列的概率分布,为生成器生成的重建序列与训练序列之间的重建损失,为生成器对训练样本编码后的样本表示。
8.根据权利要求1所述的一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,所述异常预测模型为长短期记忆循环神经网络。
9.根据权利要求1所述的一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,判断任一组件是否存在与其有关联关系的组件的过程具体为:判断是否存储了包含此组件的自回归模型,若为是,则判定自回归模型中涉及的两个组件存在关联,反之则判定该组件与其他组件均无关联关系。
10.根据权利要求4所述的一种基于深度机器学习模型的异常网络数据生成与预测方法,其特征在于,所述步骤S4具体包括:
步骤S41:将两个组件的数据[xt-k,xt-k-1,…,xt-k-m]、[yt-1,yt-2,…,yt-n]组合成二元组;
步骤S42:搜索该二元组的自回归模型θ,以[xt-k,xt-k-1,…,xt-k-m]作为输入,预测另一个组件的性能指标预测公式如下:
其中:θ为自回归模型。
步骤S43:计算残差序列,[rt-L-1,rt-L-2,…,rt]残差序列计算公式如下:
其中是由自回归模型θ输出的预测值,yt是真实的性能指标值,rt为表征关联关系稳定性的残差值;
步骤S44:搜索该二元组对应的异常预测模型,输入残差值到该模型中。
CN201811627720.5A 2018-12-28 2018-12-28 基于深度机器学习模型的异常网络数据生成与预测方法 Active CN109492193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811627720.5A CN109492193B (zh) 2018-12-28 2018-12-28 基于深度机器学习模型的异常网络数据生成与预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811627720.5A CN109492193B (zh) 2018-12-28 2018-12-28 基于深度机器学习模型的异常网络数据生成与预测方法

Publications (2)

Publication Number Publication Date
CN109492193A true CN109492193A (zh) 2019-03-19
CN109492193B CN109492193B (zh) 2020-11-27

Family

ID=65713021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811627720.5A Active CN109492193B (zh) 2018-12-28 2018-12-28 基于深度机器学习模型的异常网络数据生成与预测方法

Country Status (1)

Country Link
CN (1) CN109492193B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378111A (zh) * 2019-06-04 2019-10-25 哈尔滨工业大学(威海) 针对工业控制系统隐蔽攻击的入侵检测方法及检测系统
CN110457906A (zh) * 2019-08-15 2019-11-15 国家电网公司华东分部 一种网络安全事件智能告警方法
CN110704221A (zh) * 2019-09-02 2020-01-17 西安交通大学 一种基于数据增强的数据中心故障预测方法
CN111190804A (zh) * 2019-12-28 2020-05-22 同济大学 一种云原生系统的多层次的深度学习日志故障检测方法
CN111277603A (zh) * 2020-02-03 2020-06-12 杭州迪普科技股份有限公司 无监督异常检测系统和方法
CN111340614A (zh) * 2020-02-28 2020-06-26 深圳前海微众银行股份有限公司 基于联邦学习的样本采样方法、设备及可读存储介质
CN111913849A (zh) * 2020-07-29 2020-11-10 厦门大学 一种用于运维数据的无监督异常检测和鲁棒趋势预测方法
CN112037106A (zh) * 2020-08-07 2020-12-04 汉威科技集团股份有限公司 一种基于特征互相关性和概率密度的数据异常分析方法
CN112188487A (zh) * 2020-12-01 2021-01-05 索信达(北京)数据技术有限公司 一种提高用户鉴权准确性的方法与系统
CN112203311A (zh) * 2019-07-08 2021-01-08 中国移动通信集团浙江有限公司 网元异常诊断方法、装置、设备及计算机存储介质
CN112306808A (zh) * 2020-11-03 2021-02-02 平安科技(深圳)有限公司 性能监测评价方法、装置、计算机设备及可读存储介质
CN112949344A (zh) * 2019-11-26 2021-06-11 四川大学 一种用于异常检测的特征自回归方法
WO2021146996A1 (zh) * 2020-01-22 2021-07-29 京东方科技集团股份有限公司 设备指标优良性等级预测模型训练方法、监控系统和方法
CN113423118A (zh) * 2021-06-23 2021-09-21 河南工业大学 一种ads-b报文异常监测方法及系统
WO2021189844A1 (zh) * 2020-09-22 2021-09-30 平安科技(深圳)有限公司 多元kpi时间序列的检测方法、装置、设备及存储介质
CN114726581A (zh) * 2022-03-09 2022-07-08 同济大学 一种异常检测方法、装置、电子设备及存储介质
US11397876B2 (en) 2019-11-22 2022-07-26 Cisco Technology, Inc. Assessing data fidelity in a machine learning-based network assurance system
WO2022160902A1 (zh) * 2021-01-28 2022-08-04 广西大学 面向云环境下大规模多元时间序列数据异常检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582813A (zh) * 2009-06-26 2009-11-18 西安电子科技大学 基于分布式迁移网络学习的入侵检测系统及其方法
CN105302848A (zh) * 2014-10-11 2016-02-03 山东鲁能软件技术有限公司 一种设备智能预警系统的评估值校准方法
CN107135183A (zh) * 2016-02-26 2017-09-05 中国移动通信集团河北有限公司 一种流量数据监测方法和装置
CN107844798A (zh) * 2017-09-29 2018-03-27 上海元卓信息科技有限公司 一种基于机器学习的海量数据中检测异常值的方法
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
JP2018147442A (ja) * 2017-03-09 2018-09-20 沖電気工業株式会社 変化点検出装置および変化点検出方法
CN108682140A (zh) * 2018-04-23 2018-10-19 湘潭大学 一种基于压缩感知和自回归模型的增强型异常检测方法
CN108769993A (zh) * 2018-05-15 2018-11-06 南京邮电大学 基于生成对抗网络的通信网络异常用户检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582813A (zh) * 2009-06-26 2009-11-18 西安电子科技大学 基于分布式迁移网络学习的入侵检测系统及其方法
CN105302848A (zh) * 2014-10-11 2016-02-03 山东鲁能软件技术有限公司 一种设备智能预警系统的评估值校准方法
CN107135183A (zh) * 2016-02-26 2017-09-05 中国移动通信集团河北有限公司 一种流量数据监测方法和装置
JP2018147442A (ja) * 2017-03-09 2018-09-20 沖電気工業株式会社 変化点検出装置および変化点検出方法
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
CN107844798A (zh) * 2017-09-29 2018-03-27 上海元卓信息科技有限公司 一种基于机器学习的海量数据中检测异常值的方法
CN108682140A (zh) * 2018-04-23 2018-10-19 湘潭大学 一种基于压缩感知和自回归模型的增强型异常检测方法
CN108769993A (zh) * 2018-05-15 2018-11-06 南京邮电大学 基于生成对抗网络的通信网络异常用户检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LO¨IC BONTEMPS ET AL: "Collective Anomaly Detection Based on Long Short-Term Memory Recurrent Neural Networks", 《LECTURE NOTES IN COMPUTER SCIENCE》 *
杨晓: "基于ARX模型的网络流量异常检测", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
马金: "基于深度神经网络的序列异常检测研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378111A (zh) * 2019-06-04 2019-10-25 哈尔滨工业大学(威海) 针对工业控制系统隐蔽攻击的入侵检测方法及检测系统
CN110378111B (zh) * 2019-06-04 2023-05-09 哈尔滨工业大学(威海) 针对工业控制系统隐蔽攻击的入侵检测方法及检测系统
CN112203311A (zh) * 2019-07-08 2021-01-08 中国移动通信集团浙江有限公司 网元异常诊断方法、装置、设备及计算机存储介质
CN112203311B (zh) * 2019-07-08 2022-12-27 中国移动通信集团浙江有限公司 网元异常诊断方法、装置、设备及计算机存储介质
CN110457906A (zh) * 2019-08-15 2019-11-15 国家电网公司华东分部 一种网络安全事件智能告警方法
CN110704221A (zh) * 2019-09-02 2020-01-17 西安交通大学 一种基于数据增强的数据中心故障预测方法
US11397876B2 (en) 2019-11-22 2022-07-26 Cisco Technology, Inc. Assessing data fidelity in a machine learning-based network assurance system
CN112949344B (zh) * 2019-11-26 2023-03-31 四川大学 一种用于异常检测的特征自回归方法
CN112949344A (zh) * 2019-11-26 2021-06-11 四川大学 一种用于异常检测的特征自回归方法
CN111190804A (zh) * 2019-12-28 2020-05-22 同济大学 一种云原生系统的多层次的深度学习日志故障检测方法
CN113614758A (zh) * 2020-01-22 2021-11-05 京东方科技集团股份有限公司 设备指标优良性等级预测模型训练方法、监控系统和方法
WO2021146996A1 (zh) * 2020-01-22 2021-07-29 京东方科技集团股份有限公司 设备指标优良性等级预测模型训练方法、监控系统和方法
CN111277603A (zh) * 2020-02-03 2020-06-12 杭州迪普科技股份有限公司 无监督异常检测系统和方法
CN111277603B (zh) * 2020-02-03 2021-11-19 杭州迪普科技股份有限公司 无监督异常检测系统和方法
CN111340614A (zh) * 2020-02-28 2020-06-26 深圳前海微众银行股份有限公司 基于联邦学习的样本采样方法、设备及可读存储介质
CN111913849A (zh) * 2020-07-29 2020-11-10 厦门大学 一种用于运维数据的无监督异常检测和鲁棒趋势预测方法
CN111913849B (zh) * 2020-07-29 2022-02-11 厦门大学 一种用于运维数据的无监督异常检测和鲁棒趋势预测方法
CN112037106A (zh) * 2020-08-07 2020-12-04 汉威科技集团股份有限公司 一种基于特征互相关性和概率密度的数据异常分析方法
CN112037106B (zh) * 2020-08-07 2023-12-15 汉威科技集团股份有限公司 一种基于特征互相关性和概率密度的数据异常分析方法
WO2021189844A1 (zh) * 2020-09-22 2021-09-30 平安科技(深圳)有限公司 多元kpi时间序列的检测方法、装置、设备及存储介质
CN112306808A (zh) * 2020-11-03 2021-02-02 平安科技(深圳)有限公司 性能监测评价方法、装置、计算机设备及可读存储介质
CN112188487A (zh) * 2020-12-01 2021-01-05 索信达(北京)数据技术有限公司 一种提高用户鉴权准确性的方法与系统
WO2022160902A1 (zh) * 2021-01-28 2022-08-04 广西大学 面向云环境下大规模多元时间序列数据异常检测方法
CN113423118A (zh) * 2021-06-23 2021-09-21 河南工业大学 一种ads-b报文异常监测方法及系统
CN114726581A (zh) * 2022-03-09 2022-07-08 同济大学 一种异常检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109492193B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN109492193A (zh) 基于深度机器学习模型的异常网络数据生成与预测方法
CN113312447B (zh) 基于概率标签估计的半监督日志异常检测方法
CN113887616B (zh) 一种epg连接数的实时异常检测方法
CN109934130A (zh) 基于深度学习的卫星故障在轨实时故障诊断方法及系统
CN111858231A (zh) 一种基于运维监控的单指标异常检测方法
CN111914644A (zh) 一种基于双模态协同的弱监督时序动作定位方法及系统
Wahono et al. Neural network parameter optimization based on genetic algorithm for software defect prediction
CN110309136B (zh) 一种数据库异常事件缺失数据填充方法及系统
CN111598179B (zh) 电力监控系统用户异常行为分析方法、存储介质和设备
CN113076975A (zh) 一种基于无监督学习的大坝安全监测数据异常检测方法
Tan et al. Network fault prediction based on CNN-LSTM hybrid neural network
CN111190804A (zh) 一种云原生系统的多层次的深度学习日志故障检测方法
CN108875118B (zh) 一种高炉铁水硅含量预测模型准确度评价方法和设备
CN112529341A (zh) 一种基于朴素贝叶斯算法的钻井漏失机率预测方法
CN115220133B (zh) 一种多气象要素降雨预测方法、装置、设备及存储介质
CN111723949A (zh) 基于选择性集成学习的孔隙度预测方法
CN114997313B (zh) 一种海洋在线监测数据的异常检测方法
CN110222513A (zh) 一种线上活动的异常监测方法、装置及存储介质
CN115221233A (zh) 基于深度学习的变电站多类带电检测数据异常检测方法
CN115307943A (zh) 一种旋转机械设备多工况运行状态异常检测方法及系统
Ren et al. Predicting software defects using self-organizing data mining
CN107689015A (zh) 一种改进的电力系统不良数据辨识方法
CN116910559A (zh) 一种面向电网超算中心智能运维应用的指标异常检测方法
CN116611745A (zh) 一种基于智能制造的塑料薄膜质量评价方法及系统
CN116304051A (zh) 一种融合局部关键信息和预训练的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant