CN113468014A - 一种运维数据的异常检测方法及装置 - Google Patents

一种运维数据的异常检测方法及装置 Download PDF

Info

Publication number
CN113468014A
CN113468014A CN202010247360.7A CN202010247360A CN113468014A CN 113468014 A CN113468014 A CN 113468014A CN 202010247360 A CN202010247360 A CN 202010247360A CN 113468014 A CN113468014 A CN 113468014A
Authority
CN
China
Prior art keywords
maintenance data
detection
fitting
parameter
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010247360.7A
Other languages
English (en)
Inventor
丁一航
王兴
仇小苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010247360.7A priority Critical patent/CN113468014A/zh
Publication of CN113468014A publication Critical patent/CN113468014A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请实施例提供一种运维数据的异常检测方法及装置,涉及计算机技术领域,能够对运维数据进行有效地检测,显著提升检测效果。该方法包括:获取与当前运维数据对应的历史运维数据,该当前运维数据为当前时刻目标监控项对应的运维数据,该历史运维数据包括历史时间段内目标监控项对应的多个运维数据,历史运维数据的数据类型为下述一种:周期型、平稳型或随机型,该当前运维数据的类型与历史运维数据的类型相同;然后基于预定拟合算法,确定历史运维数据对应的拟合结果;并根据历史运维数据对应的拟合结果确定第一检测参数和第二检测参数;进而基于该第一检测参数和第二检测参数,确定当前运维数据是否异常。

Description

一种运维数据的异常检测方法及装置
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种运维数据的异常方法及装置。
背景技术
随着信息技术的发展,各种应用(App)层出不穷,服务器(或服务器集群)作为各种应用的信息处理设备,其运行的稳定性和可靠性愈加重要。在实际业务处理过程中,可以采集服务器的各项性能指标,并对性能指标进行分析以确定服务器是否存在异常。
目前,针对不同类型的性能指标数据(以下简称为运维数据),采用不同的检测方法来确定运维数据中是否存在异常数据,从而确定服务器是否存在异常。具体的,首先通过算法选择决策树对收集到的运维数据进行分类,即确定收集到的运维数据的类型,运维数据的类型包括周期型、平稳性和随机型;然后,根据运维数据的类型选择对应的检测方法来确定运维数据是否存在异常。例如,对于周期型数据,采用同比算法确定该运维数据是否存在异常;对于平稳性数据,采用突升突降算法确定该运维数据是否存在异常,对于随机型数据,采用恒定阈值方法确定该运维数据是否存在异常。
然而上述方法中,由于针对不同类型的运维数据需要采用不同的检测方法,而上述不同的检测方法均涉及阈值的设置,阈值设置的偏差可能会导致检测结果发生较大的误差。
发明内容
本申请实施例提供一种运维数据的异常检测方法及装置,能够对运维数据进行有效地检测,显著提升检测效果。
为达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供一种运维数据的异常检测方法,包括:获取与当前运维数据对应的历史运维数据,并且基于预定拟合算法,确定历史运维数据对应的拟合结果,以及根据历史运维数据对应的拟合结果确定第一检测参数和第二检测参数,第一检测参数和第二检测参数用于检测运维数据是否异常;基于第一检测参数和第二检测参数,确定当前运维数据是否异常。当前运维数据为当前时刻目标监控项对应的运维数据,历史运维数据包括历史时间段内该目标监控项对应的多个运维数据。历史运维数据的数据类型为下述一种:周期型、平稳型或随机型,当前运维数据的类型与历史运维数据的类型相同。
本申请实施例中,监控项可以包括服务器的处理器(例如CPU)、内存等,通过对服务器的处理器、内存等监控项对应的运维数据进行分析,确定服务器的运行状态。这里目标监控项可以为上述监控项中的一种。应理解,对于每一个监控项,监控项对应多种性能指标,例如,目标监控项为CPU,则该CPU的性能指标包括CPU的使用率、CPU的负载等。
上述历史运维数据的数据类型为下述一种:周期型、平稳型或随机型,应理解,该当前运维数据的类型与历史运维数据的类型相同。周期型指的是数据是有规律地周期性波动的(例如,一些广告收入或搜索流量是周期型数据);平稳型指的是短期内数据的波动幅度较小,不会突然上涨或下跌;随机型指的是数据无规律地波动。
本申请实施例提供的运维数据的异常检测方法,应用于对服务器的各项性能指标进行分析以确定服务器是否存在异常。具体的,检测设备获取历史运维数据,该历史运维数据包括历史时间段内目标监控项对应的多个运维数据,该历史运维数据的数据类型为下述一种:周期型、平稳型或随机型;并且基于预定拟合算法,确定该历史运维数据对应的拟合结果;以及根据该历史运维数据对应的拟合结果确定第一检测参数和第二检测参数;进而基于该第一检测参数和第二检测参数,确定当前运维数据是否异常。与现有的设定固定阈值的方法检测运维数据相比,本申请实施例基于与当前运维数据对应的历史运维数据得到检测参数(即第一检测参数和第二检测参数)更具适用性和灵活性,并且根据该参数能够对运维数据进行有效地检测,显著提升检测效果。
一种可能的实现方式中,在基于预定拟合算法,确定历史运维数据对应的拟合结果之前,本申请实施例提供的运维数据的异常检测方法还包括:确定历史运维数据的类型。
可选地,本申请实施例采用随机森林算法确定历史运维数据的类型,即确定该历史运维数据的类型是周期性,还是平稳性,或者是随机型。具体的,检测设备将历史数据分为多个数据组,然后对于每一个数据组进行特征提取(提取多维特征),将提取的特征作为随机森林模型的输入,从该随机森林模型输出每一个数据组的分类结果,最后对多个数据组的分类结果进行统计,根据统计结果确定该历史运维数据的类型,该统计结果也可以理解为投票结果,该检测设备分别统计多个数据组对应的识别结果中周期型数据的数量、平稳型数据的数量以及随机型数据的数量,将该统计结果中数量最多的类型作为该历史运维数据的类型。
一种可能的实现方式中,上述历史运维数据的类型为周期型,上述基于预定拟合算法,确定历史运维数据对应的拟合结果具体包括:去除历史运维数据的周期性分量,得到经处理的历史运维数据,该周期性分量是与当前时刻对应的多个历史运维数据的中值;并且基于预定拟合算法,采用第一拟合参数对经处理的历史运维数据进行拟合,得到历史运维数据对应的拟合结果,该第一拟合参数为预设时长或预设数量。
上述第一拟合参数为预设时长或预设数量,该第一拟合参数用于确定基于多少个参考数据来预测经处理的历史运维数据中的每一个数据,该参考数据来自上述经处理后的历史运维数据。
本申请实施例中,将与当前时刻对应的多个历史运维数据的中值周期性分量,由于中值不易受历史运维数据中的极值的影响,因此将中值作为周期性分量不但能够反映历史运维数据的周期性波动,而且具有较强的抗干扰性。
一种可能的实现方式中,根据历史运维数据对应的拟合结果确定第一检测参数和第二检测参数具体包括:确定经处理的历史运维数据与历史运维数据对应的拟合结果之间的差值;并且确定该差值的均值和标准差,将该差值的均值作为第一检测参数,将该差值的标准差作为第二检测参数。
一种可能的实现方式中,基于第一检测参数和第二检测参数,确定当前运维数据是否异常具体包括:去除当前运维数据的周期性分量,得到经处理的当前运维数据;并且基于预定拟合算法,采用第一拟合参数对经处理的当前运维数据进行拟合,得到当前运维数据对应的拟合结果;以及确定经处理的当前运维数据与当前运维数据对应的拟合结果之间的差值;然后根据第一检测参数和第二检测参数,确定第一检测阈值和第二检测阈值,第一检测阈值满足:TH_D=μ-n*σ,第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示第一检测参数,σ表示第二检测参数,n为预设值,n大于0,*表示相乘,第一检测阈值小于第二检测阈值;若经处理的当前运维数据与当前运维数据对应的拟合结果之间的差值大于第一检测阈值,且小于第二检测阈值,则确定当前运维数据正常;否则,确定当前运维数据异常。
本申请实施例中,对于周期型的运维数据,上述去除运维数据的周期性分量之后再对运维数据处理和检测,能够去除运维数据的周期性波动对检测结果的影响,并且检测结果受异常量的影响较小。
一种可能的实现方式中,历史运维数据的类型为随机型,基于预定拟合算法,确定历史运维数据对应的拟合结果具体包括:基于预定拟合算法,采用第二拟合参数对历史运维数据进行拟合,得到历史运维数据对应的拟合结果,第二拟合参数为预设时长或预设数量。
一种可能的实现方式中,历史运维数据的类型为平稳型,基于预定拟合算法,确定历史运维数据对应的拟合结果具体包括:基于预定拟合算法,采用第三拟合参数对历史运维数据进行拟合,得到历史运维数据对应的拟合结果,第三拟合参数为预设时长或预设数量。
一种可能的实现方式中,根据历史运维数据对应的拟合结果确定第一检测参数和第二检测参数具体包括:确定历史运维数据与历史运维数据对应的拟合结果之间的差值;并且确定该差值的均值和标准差,将该差值的均值作为第一检测参数,将该差值的标准差作为第二检测参数。
一种可能的实现方式中,基于第一检测参数和第二检测参数,确定当前运维数据是否异常具体包括:基于预定拟合算法,采用第二拟合参数对当前运维数据进行拟合,得到当前运维数据对应的拟合结果;并且确定当前运维数据与当前运维数据对应的拟合结果之间的差值;以及根据第一检测参数和第二检测参数,确定第一检测阈值和第二检测阈值,第一检测阈值满足:TH_D=μ-n*σ,第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示第一检测参数,σ表示第二检测参数,*表示相乘,第一检测阈值小于第二检测阈值;若经处理的当前运维数据与当前运维数据对应的拟合结果之间的差值大于第一检测阈值,且小于第二检测阈值,则确定当前运维数据正常;否则,确定当前运维数据异常。
一种可能的实现方式中,基于第一检测参数和第二检测参数,确定当前运维数据是否异常具体包括:基于预定拟合算法,采用第三拟合参数对当前运维数据进行拟合,得到当前运维数据对应的拟合结果;并且确定当前运维数据与当前运维数据的拟合结果之间的差值;以及根据第一检测参数和第二检测参数,确定第一检测阈值和第二检测阈值,第一检测阈值满足:TH_D=μ-n*σ,第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示第一检测参数,σ表示第二检测参数,*表示相乘,第一检测阈值小于第二检测阈值;若当前运维数据与当前运维数据的拟合结果之间的差值大于第一检测阈值,且小于第二检测阈值,则确定当前运维数据正常;否则,确定当前运维数据异常。
可选地,本申请实施例中,上述第二拟合参数、第一拟合参数可以相同,例如均为当前时刻之前的3小时。第三拟合参数可以与上述第一拟合参数和第二拟合参数不同,例如第三拟合参数为当前时刻之前的1小时。具体根据实际情况确定,本申请实施例不作限定。
一种可能的实现方式中,基于预定拟合算法,确定历史运维数据对应的拟合结果之前,本申请实施例提供的运维数据异常检测方法还包括:对历史运维数据进行预处理,预处理包括:插值处理和/或平滑处理。
本申请实施例中,通过对历史运维数据进行插值处理能够补充因网络异常或者存储异常丢失的运维数据;通过对历史运维数据进行平滑处理能够去除历史运维数据中的异常数据或噪声数据,进而基于预处理之后的历史运维数据确定第一检测参数和第二检测参数,能够使得基于第一检测参数和第二检测参数进行运维数据的异常检测时,检测结果更加准确、可靠。
第二方面,本申请实施例提供一种运维数据检测装置,包括:获取模块、确定模块以及检测模块。获取模块,用于获取与当前运维数据对应的历史运维数据,该当前运维数据为当前时刻目标监控项对应的运维数据,该历史运维数据包括历史时间段内目标监控项对应的多个运维数据,该历史运维数据的数据类型为下述一种:周期型、平稳型或随机型,当前运维数据的类型与历史运维数据的类型相同。确定模块,用于基于预定拟合算法,确定历史运维数据对应的拟合结果;并且根据历史运维数据对应的拟合结果确定第一检测参数和第二检测参数,第一检测参数和第二检测参数用于检测运维数据是否异常。检测模块,用于基于第一检测参数和第二检测参数,确定当前运维数据是否异常。
一种可能的实现方式中,上述确定模块,还用于确定历史运维数据的类型。
一种可能的实现方式中,历史运维数据的类型为周期型,上述确定模块,具体用于去除历史运维数据的周期性分量,得到经处理的历史运维数据,该周期性分量是与当前时刻对应的多个历史运维数据的中值;并且基于预定拟合算法,采用第一拟合参数对经处理的历史运维数据进行拟合,得到历史运维数据对应的拟合结果,第一拟合参数为预设时长或预设数量。
一种可能的实现方式中,上述确定模块,具体用于确定经处理的历史运维数据与历史运维数据对应的拟合结果之间的差值;并且确定该差值的均值和标准差,将该差值的均值作为第一检测参数,将该差值的标准差作为第二检测参数。
一种可能的实现方式中,上述确定模块,还用于去除当前运维数据的周期性分量,得到经处理的当前运维数据;并且基于预定拟合算法,采用第一拟合参数对经处理的当前运维数据进行拟合,得到当前运维数据对应的拟合结果;以及确定经处理的当前运维数据与当前运维数据对应的拟合结果之间的差值。检测模块,具体用于根据第一检测参数和第二检测参数,确定第一检测阈值和第二检测阈值,第一检测阈值满足:TH_D=μ-n*σ,第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示第一检测参数,σ表示第二检测参数,n为预设值,n大于0,*表示相乘,第一检测阈值小于第二检测阈值;在经处理的当前运维数据与当前运维数据对应的拟合结果之间的差值大于第一检测阈值,且小于第二检测阈值,确定当前运维数据正常;否则,确定当前运维数据异常。
一种可能的实现方式中,历史运维数据的类型为随机型,确定模块,具体用于基于预定拟合算法,采用第二拟合参数对历史运维数据进行拟合,得到历史运维数据对应的拟合结果,第二拟合参数为预设时长或预设数量。
一种可能的实现方式中,上述确定模块,具体用于基于预定拟合算法,采用第三拟合参数对历史运维数据进行拟合,得到历史运维数据对应的拟合结果,第三拟合参数为预设时长或预设数量。
一种可能的实现方式中,上述确定模块,具体用于确定历史运维数据与历史运维数据对应的拟合结果之间的差值;并且确定差值的均值和标准差,将该差值的均值作为第一检测参数,将该差值的标准差作为第二检测参数。
一种可能的实现方式中,上述确定模块,还用于基于预定拟合算法,采用第二拟合参数对当前运维数据进行拟合,得到当前运维数据对应的拟合结果;并且确定当前运维数据与当前运维数据对应的拟合结果之间的差值。检测模块,具体用于根据第一检测参数和第二检测参数,确定第一检测阈值和第二检测阈值,第一检测阈值满足:TH_D=μ-n*σ,第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示第一检测参数,σ表示第二检测参数,*表示相乘,第一检测阈值小于第二检测阈值;若经处理的当前运维数据与当前运维数据对应的拟合结果之间的差值大于第一检测阈值,且小于第二检测阈值,则确定当前运维数据正常;否则,确定当前运维数据异常。
一种可能的实现方式中,上述确定模块,还用于基于预定拟合算法,采用第三拟合参数对当前运维数据进行拟合,得到当前运维数据对应的拟合结果;并且确定当前运维数据与当前运维数据的拟合结果之间的差值。检测模块,具体用于根据第一检测参数和第二检测参数,确定第一检测阈值和第二检测阈值,第一检测阈值满足:TH_D=μ-n*σ,第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示第一检测参数,σ表示第二检测参数,*表示相乘,第一检测阈值小于第二检测阈值;若当前运维数据与当前运维数据的拟合结果之间的差值大于第一检测阈值,且小于第二检测阈值,则确定当前运维数据正常;否则,确定当前运维数据异常。
一种可能的实现方式中,本申请实施例提供的运维数据检测装置还包括预处理模块;该预处理模块,用于对历史运维数据进行预处理,预处理包括:插值处理和/或平滑处理。
第三方面,本申请实施例提供一种检测设备,包括存储器和与存储器连接的至少一个处理器,存储器用于存储指令,该指令被至少一个处理器读取后,检测设备执行上述第一方面或第一方面的任意一种可能的实现方式中的方法,具体参见上文的详细描述,此处不再赘述。
第四方面,本申请实施例提供一种计算机可读存储介质,用于储存为上述检测设备所用的计算机软件指令,其包含用于执行上述第一方面或上述方面的任意一种可能的实现方式所设计的程序。
第五方面,本申请实施例提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面的任意一种可能的实现方式中所述的方法。
第六方面,本申请实施例提供一种芯片,包括存储器和处理器。存储器用于存储计算机指令。处理器用于从存储器中调用并运行该计算机指令,以执行上述第一方面及其第一方面任意可能的实现方式中的方法。
附图说明
图1为本申请实施例提供的一种检测设备的硬件示意图;
图2为本申请实施例提供的一种运维数据的异常检测方法示意图一;
图3为本申请实施例提供的一种运维数据的异常检测方法示意图二;
图4为本申请实施例提供的一种运维数据的异常检测方法示意图三;
图5为本申请实施例提供的一种运维数据的异常检测方法示意图四;
图6为本申请实施例提供的一种运维数据的异常检测方法示意图五;
图7为本申请实施例提供的一种运维数据的异常检测方法流程示意图;
图8为本申请实施例提供的一种运维数据检测装置的结构示意图一;
图9为本申请实施例提供的一种运维数据检测装置的结构示意图二。
具体实施方式
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一拟合参数和第二拟合参数等是用于区别不同的拟合参数,而不是用于描述拟合参数的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个处理单元是指两个或两个以上的处理单元;多个系统是指两个或两个以上的系统。
基于背景技术存在的问题,本申请实施例提供一种运维数据的异常检测方法及装置,应用于对服务器的各项性能指标进行分析以确定服务器是否存在异常的场景中,具体的,检测设备获取历史运维数据,该历史运维数据包括历史时间段内目标监控项对应的多个运维数据,该历史运维数据的数据类型为下述一种:周期型、平稳型或随机型;并且基于预定拟合算法,确定该历史运维数据对应的拟合结果;以及根据该历史运维数据对应的拟合结果确定第一检测参数和第二检测参数;进而基于该第一检测参数和第二检测参数,确定当前运维数据是否异常。通过本申请实施例提供的技术方案,能够对运维数据进行有效地检测,显著提升检测效果。
执行本申请实施例提供的运维数据的异常检测方法的装置可以为检测设备,图1为本申请实施例提供的检测设备100的硬件结构示意图,如图1所示,该检测设备100包括处理器101、存储器102以及网络接口103等。
其中,处理器101是检测设备100的核心部件,处理器101用于运行检测设备100的操作系统与该检测设备100上的应用程序(包括系统应用程序和第三方应用程序),以实现该检测设备100的进行运维数据检测的方法。
本申请实施例中,处理器101可以是一个中央处理器(central processing unit,CPU),微处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合,其能够实现或执行结合本发明实施例公开的内容所描述的各种示例性的逻辑方框,模块和电路;处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
可选地,检测设备100包括一个或多个CPU,该CPU为单核CPU(single-CPU)或多核CPU(multi-CPU)。
其中,处理器101包括一个或多个中央处理器(central processing unit,CPU)。该CPU为单核CPU(single-CPU)或多核CPU(multi-CPU)。
存储器102包括但不限于是随机存取存储器(random access memory,RAM)、只读存储器(read only memory,ROM)、可擦除可编程只读存储器(erasable programmableread-only memory,EPROM)、快闪存储器、或光存储器等。存储器102中保存有操作系统的代码。
可选地,处理器101通过读取存储器102中保存的指令实现上述实施例中的方法,或者,处理器101通过内部存储的指令实现本申请实施例提供的方法。在处理器101通过读取存储器102中保存的指令实现本申请实施例提供的方法的情况下,存储器102中保存实现本申请实施例提供的运维数据的异常检测方法的指令。
网络接口103是有线接口,例如光纤分布式数据接口(fiber distributed datainterface,FDDI)、千兆以太网(gigabit ethernet,GE)接口。或者,网络接口103是无线接口。网络接口103用于检测设备与其他设备通信。
存储器102用于存储运维数据,可选地,存储器102还有用于检测记录等。至少一个处理器101进一步根据存储器102保存的运维数据、检测记录来执行上述方法实施例所描述的方法。处理器101实现上述功能的更多细节请参考下述各个方法实施例中的描述。
可选地,检测设备100还包括总线104,上述处理器101、存储器102通常通过总线104相互连接,或采用其他方式相互连接。
可选地,检测设备100还包括输入输出接口105,输入输出接口105用于与输入设备连接,接收用户通过输入设备输入的检测需求(例如检测哪个监控项的哪种性能指标)。输入设备包括但不限于键盘、触摸屏、麦克风等等。输入输出接口105还用于与输出设备连接,输出处理器101的检测结果(即当前运维数据是否异常)。输出设备包括但不限于显示器、打印机等等。
本申请实施例提供的运维数据的异常检测方法可以应用于具有如图1所示的硬件结构的检测设备或者具有类似结构的检测设备,或者还应用于其他结构的检测设备中,本申请实施例对此不作限定。
如图2所示,本申请实施例提供的运维数据的异常检测方法包括S101-S104。
S101、获取与当前运维数据对应的历史运维数据。
该当前运维数据为当前时刻目标监控项对应的运维数据,该历史运维数据包括历史时间段内目标监控项对应的多个运维数据。
本申请实施例中,监控项可以包括服务器的处理器(例如CPU)、内存等,通过对服务器的处理器、内存等监控项对应的运维数据进行分析,确定服务器的运行状态。这里目标监控项可以为上述监控项中的一种。应理解,对于每一个监控项,监控项对应多种性能指标,例如,目标监控项为CPU,则该CPU的性能指标包括CPU的使用率、CPU的负载等。
上述目标监控项对应的多个运维数据是对于某种性能指标,每隔一段固定时间(例如每分钟)采集一次性能指标,从而得到的多个性能指标。例如,上述目标监控项对应的多个运维数据是在多个时刻采集得到的CPU的使用率。或者,该目标监控项对应的多个运维数据是在多个时刻采集得到的CPU的负载,具体根据实际情况确定,本申请实施例不作限定。
本申请实施例中,当检测设备检测当前时刻的某一运维数据(以下实施例中均称为当前运维数据)时,该检测设备首先获取与该当前运维数据对应的历史时间段内的运维数据。该历史时间段内的运维数据与当前运维数据是同一种性能指标,例如当前运维数据为CPU的使用率,那么检测设备获得历史时间段内的多个CPU的使用率。
可选地,上述历史时间段是当前时刻之间的一段时间,例如当前时刻之前的一周(7天)或者当前时刻之前的两周(14天)等,该历史时间段的时长可以根据实际需求确定,本申请实施例不作限定。
上述历史运维数据的数据类型为下述一种:周期型、平稳型或随机型,应理解,该当前运维数据的类型与历史运维数据的类型相同。周期型指的是数据是有规律地周期性波动的(例如,一些广告收入或搜索流量是周期型数据);平稳型指的是短期内数据的波动幅度较小,不会突然上涨或下跌;随机型指的是数据无规律地波动。
S102、基于预定拟合算法,确定历史运维数据对应的拟合结果。
应理解,上述历史运维数据对应的拟合结果是历史运维数据包含的多个运维数据各自对应的拟合结果,即该多个运维数据各自的预测结果。
上述预定拟合算法为局部二次回归算法(或者称为局部二次曲线拟合算法)。
可选地,也可以采用其他拟合算法得到历史运维数据对应的拟合结果,具体的,根据实际情况选择合适的拟合算法作为预定拟合算法,本申请实施例不作限定。
S103、根据历史运维数据对应的拟合结果确定第一检测参数和第二检测参数。
该第一检测参数和第二检测参数用于检测运维数据是否异常。
S104、基于第一检测参数和第二检测参数,确定当前运维数据是否异常。
对于第一检测参数和第二检测参数的确定过程以及基于第一检测参数和第二检测参数确定当前运维数据是否异常的过程将在下述实施例中结合历史运维数据的数据类型进行详细介绍。
本申请实施例提供的运维数据的异常检测方法,应用于对服务器的各项性能指标进行分析以确定服务器是否存在异常。具体的,检测设备获取历史运维数据,该历史运维数据包括历史时间段内目标监控项对应的多个运维数据,该历史运维数据的数据类型为下述一种:周期型、平稳型或随机型;并且基于预定拟合算法,确定该历史运维数据对应的拟合结果;以及根据该历史运维数据对应的拟合结果确定第一检测参数和第二检测参数;进而基于该第一检测参数和第二检测参数,确定当前运维数据是否异常。与现有的设定固定阈值的方法检测运维数据相比,本申请实施例基于与当前运维数据对应的历史运维数据得到检测参数(即第一检测参数和第二检测参数)更具适用性和灵活性,并且根据该参数能够对运维数据进行有效地检测,显著提升检测效果。
进一步的,本申请实施例提供的运维数据的异常检测方法,对于不同类型的运维数据,能够采用统一的检测方法进行检测,能够简化检测流程,降低检测运维数据的复杂度。
结合图2,如图3所示,在上述S102之前,本申请实施例提供的运维数据的异常检测方法还包括S105。
S105、确定历史运维数据的类型。
应理解,该历史运维数据的类型为周期型、平稳性或随机型中的一种,即检测设备确定该历史运维数据的类型是上述三种类型中的哪种类型。
可选地,本申请实施例中,检测设备基于随机森林算法确定历史运维数据的类型,以历史运维数据为14天的运维数据为例,将该14天的运维数据划分为7个数据组,每个数据组包含连续2天的运维数据;然后对该7个数据组分别提取多维特征,将数据组的多维特征作为随机森林算法中的随机森林模型的输入,从而该随机森林模型输出该7个数据组的分类结果,分类结果是该7个数据组中各个数据组包含的历史运维数据的类型。
结合上述示例,一个数据组包含2天的数据,记为DAY1和DAY2,该数据组的多维特征可以表示为:
Figure BDA0002434303590000081
其中,μ1为DAY1对应的历史运维数据的均值,μ2为DAY2对应的历史运维数据的均值;σ1为DAY1对应的历史运维数据的标准差,σ2为DAY2对应的历史运维数据的标准差;D1为DAY1对应的历史运维数据的数据宽度(该数据宽度为DAY1对应的历史运维数据的最大值与最小值的差值),D2为DAY2对应的历史运维数据的数据宽度(该数据宽度为DAY2对应的历史运维数据的最大值与最小值的差值);σ3为DAY1对应的历史运维数据与DAY2对应的历史运维数据的差分的标准差;D3为DAY1对应的历史运维数据与DAY2对应的历史运维数据的欧氏距离。
结合上述示例,如下表1是基于随机森林算法对上述7个数据组的识别结果的示例。
表1
数据组 识别结果
数据组1 周期型
数据组2 周期型
数据组3 周期型
数据组4 平稳性
数据组5 周期型
数据组6 随机型
数据组7 随机型
上述得到7个数据组的识别结果之后,检测设备对该识别结果进行统计,根据统计结果确定该历史运维数据的类型,该统计结果也可以理解为投票结果,该检测设备分别统计7个数据组对应的识别结果中周期型数据的数量、平稳型数据的数量以及随机型数据的数量,将该统计结果中数量最多的类型作为该历史运维数据的类型。如下表2为统计结果的一种示例。
表2
数据类型 7个识别结果的统计结果
周期型 4
平稳型 1
随机型 2
结合表2,能够确定历史运维数据的类型为周期型。对于随机森林算法的详细描述可参考现有技术中对于随机森林算法的相关介绍,本申请实施例不再详述。
如图4所示,结合S105(即确定出历史运维数据的类型),在一种实现方式中,上述S102具体包括S1021-S1022。
S1021、当历史运维数据的类型为周期型时,去除该历史运维数据的周期性分量,得到经处理的历史运维数据。
本申请实施例中,上述周期性分量是与当前时刻对应的多个历史运维数据的中值。具体的,该周期性分量是根据上述历史运维数据中的部分运维数据确定的。首先从该历史运维数据包含的所有运维数据中选择与当前时刻对应的多个历史运维数据,然后计算该多个历史运维数据的中值,将多个历史运维数据的中值确定为上述周期性分量。
示例性的,若上述历史运维数据是当前时刻之前的连续14天中每隔1分钟采集一次而得到的运维数据,当前时刻为14:22分,那么与当前时刻对应的多个历史运维数据是上述14天中每一天的14:22分的运维数据,如此,可以得到14个与当前时刻对应的历史运维数据。然后计算该14个与当前时刻对应的历史运维数据的中值,将该中值作为周期性分量。由于中值不易受历史运维数据中的极值的影响,因此将中值作为周期性分量不但能够反映历史运维数据的周期性波动,而且具有较强的抗干扰性。
上述确定出运维数据的周期性分量之后,对于获取的历史运维数据,去除该历史运维数据的周期性分量,即该历史运维数据包含的多个运维数据分别减去上述周期性分量,得到经处理的历史运维数据。应理解,该经处理的历史运维数是由该历史运维数据与周期性分量的差值组成的数据。
S1022、基于预定拟合算法,采用第一拟合参数对经处理的历史运维数据进行拟合,得到历史运维数据对应的拟合结果。
其中,上述第一拟合参数为预设时长或预设数量,该第一拟合参数用于确定基于多少个参考数据来预测经处理的历史运维数据中的每一个数据,该参考数据来自经处理后的历史运维数据。
本申请实施例中,基于预定拟合算法,采用第一拟合参数对经处理的历史运维数据拟合具体指的是:对该经处理的历史运维数据中的每一个数据进行预测,得到经处理的历史运维数据中每一个数据的预测结果。
以经处理的历史运维数据中的一个数据(以下称为第一数据)为例来说明对经处理的历史运维数据进行拟合的过程。首先,根据上述第一拟合参数确定参考数据,具体的,若第一拟合参数为预设时长(例如3小时),则参考数据是第一数据对应的时刻之前的3个小时所包含的经处理的历史运维数据(不包括该第一数据),该参考数据的数量是180个(设定每个一分钟采集一个数据)。若第一拟合参数为预设数量,该预设数量为180,则确定参考数据的数量为180个,该180个参考数据是该第一数据对应的时刻之前的180个经处理的历史运维数据;然后,基于预设拟合算法(例如局部二次回归算法),使用180个参考数据对第一数据进行拟合(预测),得到该第一数据的拟合结果(即该第一数据的预测值)。同理,采用上述方法,可以得到经处理的历史运维数据中包含的多个数据的拟合结果。
如图4所示,上述S103具体包括S1031-S1032。
S1031、确定经处理的历史运维数据与历史运维数据对应的拟合结果之间的差值。
经处理的历史运维数据与历史运维数据对应的拟合结果之间的差值指的是:经处理的历史运维数据的实际值与历史运维数据对应的拟合结果之间的差值。如下表3是经处理的历史运维数据与历史运维数据对应的拟合结果之间的差值的一种示例。
表3
经处理的历史运维数据 历史运维数据对应的拟合结果 差值
a<sub>1</sub> a<sub>1</sub>' Δa<sub>1</sub>
a<sub>2</sub> a<sub>2</sub>' Δa<sub>2</sub>
a<sub>3</sub> a<sub>3</sub>' Δa<sub>3</sub>
a<sub>n</sub> a<sub>n</sub>' Δa<sub>n</sub>
S1032、确定经处理的历史运维数据与历史运维数据对应的拟合结果之间的差值的均值和标准差,将该差值的均值作为第一检测参数,将该差值的标准差作为第二检测参数。
结合表3,确定Δa1,Δa2,Δa3,……,Δan的均值为μ,标准差为σ,如此,第一检测参数为μ,第二检测参数为σ。
如图4所示,上述S104具体包括S1041a-S1041e。
S1041a、去除当前运维数据的周期性分量,得到经处理的当前运维数据。
该周期性分量即为上述S1021中所述的周期性分量。
S1041b、基于预定拟合算法,采用第一拟合参数对经处理的当前运维数据进行拟合,得到当前运维数据对应的拟合结果。
该预定拟合算法与上述对历史运维数据进行拟合的预定拟合算法相同,第一拟合参数与上述对历史运维数据进行拟合的第一拟合参数相同,对于S1041a-S1041b的详细描述可参考上述对于S1021-S1022的具体描述,此处不再赘述。
S1041c、确定经处理的当前运维数据与当前运维数据对应的拟合结果之间的差值。
假设当前运维数据为b,经处理的当前运维数据为b1,当前运维数据b对应的拟合结果为b1'(应理解,b1'是b1的预测值),则经处理的当前运维数据b1与当前运维数据对应的拟合结果b1'之间的差值为Δb1
S1041d、根据第一检测参数和第二检测参数,确定第一检测阈值和第二检测阈值。
该第一检测阈值满足:TH_D=μ-n*σ,该第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示第一检测参数,σ表示第二检测参数,n为预设值,n大于0,*表示相乘,该第一检测阈值小于第二检测阈值。
S1041e、若经处理的当前运维数据与当前运维数据对应的拟合结果之间的差值大于第一检测阈值,且小于第二检测阈值,则确定当前运维数据正常;否则,确定当前运维数据异常。
结合上述示例,若上述Δb1位于区间(μ-n*σ,μ+n*σ),则确定当前运维数据b是正常的,否则,确定当前运维数据b是异常的。
综上所述,当历史运维数据的类型为周期型时,首先去除该历史运维数据的周期性分量,然后再对去除周期型分量之后的历史运维数据进行拟合处理,得到第一检测参数和第二检测参数;进而在检测与该历史运维数据同类型的当前运维数据时,同理,先去除该当前运维数据的周期性分量,然后对该去除周期性分量之后的当前运维数据进行拟合处理,再基于上述第一检测参数和第二检测参数确定当前运维数据是否异常。本申请实施例中,对于周期型的运维数据,上述去除运维数据的周期性分量之后再对运维数据处理和检测,能够去除运维数据的周期性波动对检测结果的影响,并且检测结果受异常量的影响较小。
如图5所示,结合S105,在另一种实现方式中,上述S102具体可以包括S1023。
S1023、当历史运维数据的类型为随机型时,基于预定拟合算法,采用第二拟合参数对历史运维数据进行拟合,得到历史运维数据对应的拟合结果。
其中,上述第二拟合参数为预设时长或预设数量,该第二拟合参数用于确定基于多少个参考数据来预测历史运维数据中的每一个数据,该参考数据来自历史运维数据。可选地,该第二拟合参数可以与上述第一拟合参数相同,例如该第二拟合参数为预设时长时,该第二拟合参数可以为当前时刻之前的3小时。或者,第二拟合参数可以与第一拟合参数不同,具体根据实际情况确定,本申请实施例不作限定。
对于S1023的描述可参考上述实施例中对于S1022的详细描述,此处不再赘述。
如图5所示,上述S103具体包括S1033-S1034。
S1033、确定历史运维数据与历史运维数据对应的拟合结果之间的差值。
S1034、确定历史运维数据与历史运维数据对应的拟合结果之间的差值的均值和标准差,将该差值的均值作为第一检测参数,将该差值的标准差作为第二检测参数。
对于S1033-S1034的描述可参考上述实施例中对于S1031-S1032的相关描述,此处不再赘述。
如图5所示,上述S104具体包括S1042a-S1042d。
S1042a、基于预定拟合算法,采用第二拟合参数对当前运维数据进行拟合,得到当前运维数据对应的拟合结果。
同理,该预定拟合算法与上述对历史运维数据进行拟合的预定拟合算法相同,第二拟合参数与上述对历史运维数据进行拟合的第二拟合参数相同。对于S1042a的详细描述可参考上述对于S1023的具体描述,此处不再赘述。
S1042b、确定当前运维数据与当前运维数据对应的拟合结果之间的差值。
假设当前运维数据为b,当前运维数据b对应的拟合结果为b'(应理解,b'是b的预测值),则当前运维数据b与当前运维数据对应的拟合结果b'之间的差值为Δb。
S1042c、根据第一检测参数和第二检测参数,确定第一检测阈值和第二检测阈值。
该第一检测阈值满足:TH_D=μ-n*σ,第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示第一检测参数,σ表示第二检测参数,*表示相乘,该第一检测阈值小于该第二检测阈值。
S1042d、若经处理的当前运维数据与当前运维数据对应的拟合结果之间的差值大于第一检测阈值,且小于第二检测阈值,则确定当前运维数据正常;否则,确定当前运维数据异常。
结合上述示例,若上述Δb位于区间(μ-n*σ,μ+n*σ),则确定当前运维数据b是正常的,否则,确定当前运维数据b是异常的。
综上所述,当历史运维数据的类型为随机型时,对该历史运维数据进行拟合处理,得到第一检测参数和第二检测参数;进而在检测与该历史运维数据同类型的当前运维数据时,对该当前运维数据进行拟合处理,再基于上述第一检测参数和第二检测参数确定当前运维数据是否异常。
如图6所示,结合S105,在又一种实现方式中,上述S102具体可以包括S1024。
S1024、基于预定拟合算法,采用第三拟合参数对历史运维数据进行拟合,得到历史运维数据对应的拟合结果。
其中,上述第三拟合参数为预设时长或预设数量,该第三拟合参数用于确定基于多少个参考数据来预测历史运维数据中的每一个数据,该参考数据来自历史运维数据。可选地,该第三拟合参数可以与上述第一拟合参数或第二拟合参数不同,例如该第三拟合参数为预设时长时,该第三拟合参数可以为当前时刻之前的1小时。或者,第三拟合参数可以与第一拟合参数或第二拟合参数相同,具体根据实际情况确定,本申请实施例不作限定。
对于S1024的描述可参考上述实施例中对于S1022的详细描述,此处不再赘述。
如图6所示,上述S103具体包括S1035-S1036。
S1035、确定历史运维数据与历史运维数据对应的拟合结果之间的差值。
S1036、确定历史运维数据与历史运维数据对应的拟合结果之间的差值的均值和标准差,将该差值的均值作为第一检测参数,将该差值的标准差作为第二检测参数。
对于S1035-S1036的描述可参考上述实施例中对于S1031-S1032的相关描述,此处不再赘述。
如图6所示,上述S104具体包括S1043a-S1043d。
S1043a、基于预定拟合算法,采用第三拟合参数对当前运维数据进行拟合,得到当前运维数据对应的拟合结果。
同理,该预定拟合算法与上述对历史运维数据进行拟合的预定拟合算法相同,第三拟合参数与上述对历史运维数据进行拟合的第三拟合参数相同,对于S1043a的详细描述可参考上述对于S1024的具体描述,此处不再赘述。
S1043b、确定当前运维数据与当前运维数据的拟合结果之间的差值。
假设当前运维数据为b,当前运维数据b对应的拟合结果为b'(应理解,b'是b的预测值),则当前运维数据b与当前运维数据对应的拟合结果b'之间的差值为Δb。
S1043c、根据第一检测参数和第二检测参数,确定第一检测阈值和第二检测阈值。
该第一检测阈值满足:TH_D=μ-n*σ,第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示第一检测参数,σ表示第二检测参数,*表示相乘,该第一检测阈值小于第二检测阈值。
S1043d、若当前运维数据与当前运维数据的拟合结果之间的差值大于第一检测阈值,且小于第二检测阈值,则确定当前运维数据正常;否则,确定当前运维数据异常。
结合上述示例,若上述Δb位于区间(μ-n*σ,μ+n*σ),则确定当前运维数据b是正常的,否则,确定当前运维数据b是异常的。
综上所述,当历史运维数据的类型为平稳型时,对该历史运维数据进行拟合处理,得到第一检测参数和第二检测参数;进而在检测与该历史运维数据同类型的当前运维数据时,对该当前运维数据进行拟合处理,再基于上述第一检测参数和第二检测参数确定当前运维数据是否异常。
可选地,本申请实施例中,检测设备获取到历史运维数据之后,在基于预定拟合算法,确定历史运维数据对应的拟合结果之前,本申请实施例提供的运维数据的异常检测方法还包括:对历史运维数据进行预处理,该预处理包括:插值处理和/或平滑处理。通过对历史运维数据进行插值处理能够补充因网络异常或者存储异常丢失的运维数据;通过对历史运维数据进行平滑处理能够去除历史运维数据中的异常数据或噪声数据,进而基于预处理之后的历史运维数据确定第一检测参数和第二检测参数,能够使得基于第一检测参数和第二检测参数进行运维数据的异常检测时,检测结果更加准确、可靠。
本申请实施例中,当检测设备完成对某一运维数据的检测之后,该检测设备可以将该运维数据的检测记录保存下来,该检测记录的内容可以包括:该运维数据对应的监控项和/或性能指标、该运维数据的类型,以及上述基于与该运维数据对应的历史运维数据得到的第一检测参数和第二检测参数。若该运维数据的类型为周期型,该检测记录的内容还包括上述基于历史运维数据确定的周期性分量。
可选地,上述检测记录的内容可以包括:该运维数据对应的监控项和/或性能指标、该运维数据的类型,以及上述基于与该运维数据对应的历史运维数据得到的一对或多对第一检测阈值和第二检测阈值,该一对或多对检测阈值是上述n取不同的值时对应的第一检测阈值和第二检测阈值。同理,若该运维数据的类型为周期型,该检测记录的内容还包括上述基于历史运维数据确定的周期性分量。
可选地,上述检测记录中还包括但不限于下述信息:预定拟合算法的标识,预定拟合算法对应的拟合参数(例如上述的第一拟合参数、第二拟合参数以及第三拟合参数)、预处理的相关参数等。
在一种实现方式中,在检测设备在后续进行运维数据的异常检测过程中,该检测设备参考上述保存的检测记录,简化异常检测流程,实现快速对某一运维数据的检测。下面结合图7,以一个待检测运维数据为例,简单描述对该第一运维数据进行异常检测的过程。
步骤1、接收到外部报警模块(Alarm模块)发送的检测指示信息,该检测指示信息包括监控项指示信息和/或性能指标指示信息,以及时间戳。
该监控项指示信息和/或性能指标指示信息指示待检测运维数据的对应的监控项和/或性能指标,时间戳为待检测运维数据是哪个时刻的运维数据。
步骤2、根据监控项指示信息和/或性能指标指示信息,以及时间戳可以确定待检测的运维数据。
步骤3、确定此类待检测运维数据是否被检测过。
应理解,确定此类待检测运维数据是否被检测过指的是:根据该待检测运维数据对应的监控项和/或性能指标,确定之前是否检测过同一监控项和/或同一性能指标的运维数据。
若此类待检测运维数据未被检测过,则执行步骤4-步骤9,若此类待检测运维数据已被检测过,则执行步骤7-步骤9。
步骤4、获取与待检测运维数据对应的历史运维数据。
具体的,历史运维数据存储在外部存储介质中,此时,检测设备从外部存储介质中获取与该待检测运维数据对应的历史运维数据。
步骤5、预处理和/或确定历史运维数据的类型。
步骤6、基于历史运维数据进行参数计算。
具体的,基于上述获取的历史运维数据确定第一检测参数和第二检测参数。
步骤7、得到第一检测参数和第二检测参数。
待检测运维数据未被检测过,该第一检测参数和第二检测参数步骤6中基于历史运维数据进行参数计算得到的;待检测运维数据已被检测过,该第一检测参数和第二检测参数是从检测设备保存的检测记录中获取的。
步骤8、对待检测运维数据进行拟合处理。
步骤9、基于第一检测参数和第二检测参数对待检测运维数据进行检测。
具体的,结合上述步骤8中获得的待检测运维数据的拟合结果,以及第一检测参数和第二检测参数对待检测运维数据进行检测。
上述步骤1至步骤9涉及的相关内容均可参考上述实施例的所有内容,在此不再赘述。
上述主要从运维数据检测装置(例如检测设备)角度对本申请实施例提供的方案进行了介绍。可以理解的是,运维数据检测装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对运维数据检测装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图8示出了上述实施例中所涉及的运维数据检测装置的一种可能的结构示意图。如图8所示,运维数据检测装置包括:获取模块1001、确定模块1002以及检测模块1003。获取模块1001用于支持运维数据检测装置执行上述方法实施例中的S101。确定模块1002用于支持运维数据检测装置执行上述方法实施例中的S102(包括S1021-S1022或S1023或S1024)、S103(包括S1031-S1032或S1033-S1034或S1035-S1036)以及S105。检测模块1003用于支持运维数据检测装置执行上述方法实施例中的S104(包括S1041a-S1041e或S1042a-S1042d或S1043a-S1043d)。
可选地,本申请实施例提供的运维数据检测装置还包括预处理模块1004,该预处理模块1004用于支持运维数据检测装置对历史运维数据进行预处理(包括差值处理和/或平滑处理)。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
在采用集成的单元的情况下,图9示出了上述实施例中所涉及的运维数据检测装置的一种可能的结构示意图。如图9所示,运维数据检测装置可以包括:处理模块2001和通信模块2002。处理模块2001可以用于对运维数据检测装置的动作进行控制管理,处理模块2001可以用于支持运维数据检测装置执行上述方法实施例中S101-S104和S105,其中,S102包括S1021-S1022或S1023或S1024,S103包括S1031-S1032或S1033-S1034或S1035-S1036,S104包括S1041a-S1041e或S1042a-S1042d或S1043a-S1043d。通信模块2002可以用于支持运维数据检测装置与其他网络实体的通信。可选地,如图9所示,该运维数据检测装置还可以包括存储模块2003,用于存储运维数据检测装置的程序代码和数据。
其中,处理模块2001可以是处理器或控制器,例如可以是CPU、通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application-specificintegrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框、模块和电路。上述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块2002可以是收发器、收发电路或通信接口等。存储模块2003可以是存储器。
当处理模块2001为处理器(例如图1中的处理器101),通信模块2002为收发器(例如图1中的网络接口103和/输入输出接口105),存储模块2003为存储器(例如图1中的存储器102)时,处理器、收发器和存储器可以通过总线连接。总线可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extendedIndustry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例中的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))方式或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、磁盘、磁带)、光介质(例如,数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state drives,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (24)

1.一种运维数据的异常检测方法,其特征在于,包括:
获取与当前运维数据对应的历史运维数据,所述当前运维数据为当前时刻目标监控项对应的运维数据,所述历史运维数据包括历史时间段内所述目标监控项对应的多个运维数据,所述历史运维数据的数据类型为下述一种:周期型、平稳型或随机型,所述当前运维数据的类型与所述历史运维数据的类型相同;
基于预定拟合算法,确定所述历史运维数据对应的拟合结果;
根据所述历史运维数据对应的拟合结果确定第一检测参数和第二检测参数,所述第一检测参数和所述第二检测参数用于检测运维数据是否异常;
基于所述第一检测参数和所述第二检测参数,确定所述当前运维数据是否异常。
2.根据权利要求1所述的方法,其特征在于,基于预定拟合算法,确定所述历史运维数据对应的拟合结果之前,所述方法还包括:
确定所述历史运维数据的类型。
3.根据权利要求2所述的方法,其特征在于,所述历史运维数据的类型为周期型,所述基于预定拟合算法,确定所述历史运维数据对应的拟合结果,包括:
去除所述历史运维数据的周期性分量,得到经处理的历史运维数据,所述周期性分量是与当前时刻对应的多个历史运维数据的中值;
基于所述预定拟合算法,采用第一拟合参数对所述经处理的历史运维数据进行拟合,得到所述历史运维数据对应的拟合结果,所述第一拟合参数为预设时长或预设数量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述历史运维数据对应的拟合结果确定第一检测参数和第二检测参数,包括:
确定所述经处理的历史运维数据与所述历史运维数据对应的拟合结果之间的差值;
确定所述差值的均值和标准差,将所述差值的均值作为所述第一检测参数,将所述差值的标准差作为所述第二检测参数。
5.根据权利要求3或4所述的方法,其特征在于,基于所述第一检测参数和所述第二检测参数,确定当前运维数据是否异常,包括:
去除所述当前运维数据的所述周期性分量,得到经处理的当前运维数据;
基于所述预定拟合算法,采用所述第一拟合参数对所述经处理的当前运维数据进行拟合,得到所述当前运维数据对应的拟合结果;
确定所述经处理的当前运维数据与所述当前运维数据对应的拟合结果之间的差值;
根据所述第一检测参数和所述第二检测参数,确定第一检测阈值和第二检测阈值,所述第一检测阈值满足:TH_D=μ-n*σ,所述第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示所述第一检测阈值,TH_U表示所述第二检测阈值,μ表示所述第一检测参数,σ表示所述第二检测参数,n为预设值,n大于0,*表示相乘,所述第一检测阈值小于所述第二检测阈值;
若所述经处理的当前运维数据与所述当前运维数据对应的拟合结果之间的差值大于所述第一检测阈值,且小于所述第二检测阈值,则确定所述当前运维数据正常;否则,确定所述当前运维数据异常。
6.根据权利要求2所述的方法,其特征在于,所述历史运维数据的类型为随机型,所述基于预定拟合算法,确定所述历史运维数据对应的拟合结果,包括:
基于所述预定拟合算法,采用第二拟合参数对所述历史运维数据进行拟合,得到所述历史运维数据对应的拟合结果,所述第二拟合参数为预设时长或预设数量。
7.根据权利要求2所述的方法,其特征在于,所述历史运维数据的类型为平稳型,所述基于预定拟合算法,确定所述历史运维数据对应的拟合结果,包括:
基于所述预定拟合算法,采用第三拟合参数对所述历史运维数据进行拟合,得到所述历史运维数据对应的拟合结果,所述第三拟合参数为预设时长或预设数量。
8.根据权利要求6或7所述的方法,其特征在于,所述根据所述历史运维数据对应的拟合结果确定第一检测参数和第二检测参数,包括:
确定所述历史运维数据与所述历史运维数据对应的拟合结果之间的差值;
确定所述差值的均值和标准差,将所述差值的均值作为所述第一检测参数,将所述差值的标准差作为所述第二检测参数。
9.根据权利要求6或8所述的方法,其特征在于,基于所述第一检测参数和所述第二检测参数,确定当前运维数据是否异常,包括:
基于所述预定拟合算法,采用第二拟合参数对所述当前运维数据进行拟合,得到所述当前运维数据对应的拟合结果;
确定所述当前运维数据与所述当前运维数据对应的拟合结果之间的差值;
根据所述第一检测参数和所述第二检测参数,确定第一检测阈值和第二检测阈值,所述第一检测阈值满足:TH_D=μ-n*σ,所述第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示所述第一检测参数,σ表示所述第二检测参数,*表示相乘,所述第一检测阈值小于所述第二检测阈值;
若所述经处理的当前运维数据与所述当前运维数据对应的拟合结果之间的差值大于所述第一检测阈值,且小于所述第二检测阈值,则确定所述当前运维数据正常;否则,确定所述当前运维数据异常。
10.根据权利要求7或8所述的方法,其特征在于,基于所述第一检测参数和所述第二检测参数,确定当前运维数据是否异常,包括:
基于所述预定拟合算法,采用第三拟合参数对所述当前运维数据进行拟合,得到所述当前运维数据对应的拟合结果;
确定所述当前运维数据与所述当前运维数据的拟合结果之间的差值;
根据所述第一检测参数和所述第二检测参数,确定第一检测阈值和第二检测阈值,所述第一检测阈值满足:TH_D=μ-n*σ,所述第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示所述第一检测参数,σ表示所述第二检测参数,*表示相乘,所述第一检测阈值小于所述第二检测阈值;
若所述当前运维数据与所述当前运维数据的拟合结果之间的差值大于所述第一检测阈值,且小于所述第二检测阈值,则确定所述当前运维数据正常;否则,确定所述当前运维数据异常。
11.根据权利要求1至10任一项所述的方法,其特征在于,基于预定拟合算法,确定所述历史运维数据对应的拟合结果之前,所述方法还包括:
对所述历史运维数据进行预处理,所述预处理包括:插值处理和/或平滑处理。
12.一种运维数据检测装置,其特征在于,包括:获取模块、确定模块以及检测模块;
所述获取模块,用于获取与当前运维数据对应的历史运维数据,所述当前运维数据为当前时刻目标监控项对应的运维数据,所述历史运维数据包括历史时间段内所述目标监控项对应的多个运维数据,所述历史运维数据的数据类型为下述一种:周期型、平稳型或随机型,所述当前运维数据的类型与所述历史运维数据的类型相同;
所述确定模块,用于基于预定拟合算法,确定所述历史运维数据对应的拟合结果;并且根据所述历史运维数据对应的拟合结果确定第一检测参数和第二检测参数,所述第一检测参数和所述第二检测参数用于检测运维数据是否异常;
所述检测模块,用于基于所述第一检测参数和所述第二检测参数,确定所述当前运维数据是否异常。
13.根据权利要求12所述的装置,其特征在于,
所述确定模块,还用于确定所述历史运维数据的类型。
14.根据权利要求13所述的装置,其特征在于,所述历史运维数据的类型为周期型,
所述确定模块,具体用于去除所述历史运维数据的周期性分量,得到经处理的历史运维数据,所述周期性分量是与当前时刻对应的多个历史运维数据的中值;并且基于所述预定拟合算法,采用第一拟合参数对所述经处理的历史运维数据进行拟合,得到所述历史运维数据对应的拟合结果,所述第一拟合参数为预设时长或预设数量。
15.根据权利要求14所述的装置,其特征在于,
所述确定模块,具体用于确定所述经处理的历史运维数据与所述历史运维数据对应的拟合结果之间的差值;并且确定所述差值的均值和标准差,将所述差值的均值作为所述第一检测参数,将所述差值的标准差作为所述第二检测参数。
16.根据权利要求14或15所述的装置,其特征在于,
所述确定模块,还用于去除所述当前运维数据的所述周期性分量,得到经处理的当前运维数据;并且基于所述预定拟合算法,采用所述第一拟合参数对所述经处理的当前运维数据进行拟合,得到所述当前运维数据对应的拟合结果;以及确定所述经处理的当前运维数据与所述当前运维数据对应的拟合结果之间的差值;
所述检测模块,具体用于根据所述第一检测参数和所述第二检测参数,确定第一检测阈值和第二检测阈值,所述第一检测阈值满足:TH_D=μ-n*σ,所述第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示所述第一检测阈值,TH_U表示所述第二检测阈值,μ表示所述第一检测参数,σ表示所述第二检测参数,n为预设值,n大于0,*表示相乘,所述第一检测阈值小于所述第二检测阈值;在所述经处理的当前运维数据与所述当前运维数据对应的拟合结果之间的差值大于所述第一检测阈值,且小于所述第二检测阈值,确定所述当前运维数据正常;否则,确定所述当前运维数据异常。
17.根据权利要求13所述的装置,其特征在于,所述历史运维数据的类型为随机型,
所述确定模块,具体用于基于所述预定拟合算法,采用第二拟合参数对所述历史运维数据进行拟合,得到所述历史运维数据对应的拟合结果,所述第二拟合参数为预设时长或预设数量。
18.根据权利要求13所述的装置,其特征在于,所述历史运维数据的类型为平稳型,
所述确定模块,具体用于基于所述预定拟合算法,采用第三拟合参数对所述历史运维数据进行拟合,得到所述历史运维数据对应的拟合结果,所述第三拟合参数为预设时长或预设数量。
19.根据权利要求16或17所述的装置,其特征在于,
确定模块,具体用于确定所述历史运维数据与所述历史运维数据对应的拟合结果之间的差值;并且确定所述差值的均值和标准差,将所述差值的均值作为所述第一检测参数,将所述差值的标准差作为所述第二检测参数。
20.根据权利要求16或18所述的装置,其特征在于,
所述确定模块,还用于基于所述预定拟合算法,采用第二拟合参数对所述当前运维数据进行拟合,得到所述当前运维数据对应的拟合结果;并且确定所述当前运维数据与所述当前运维数据对应的拟合结果之间的差值;
所述检测模块,具体用于根据所述第一检测参数和所述第二检测参数,确定第一检测阈值和第二检测阈值,所述第一检测阈值满足:TH_D=μ-n*σ,所述第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示所述第一检测参数,σ表示所述第二检测参数,*表示相乘,所述第一检测阈值小于所述第二检测阈值;若所述经处理的当前运维数据与所述当前运维数据对应的拟合结果之间的差值大于所述第一检测阈值,且小于所述第二检测阈值,则确定所述当前运维数据正常;否则,确定所述当前运维数据异常。
21.根据权利要求17或18所述的装置,其特征在于,
所述确定模块,还用于基于所述预定拟合算法,采用第三拟合参数对所述当前运维数据进行拟合,得到所述当前运维数据对应的拟合结果;并且确定所述当前运维数据与所述当前运维数据的拟合结果之间的差值;
所述检测模块,具体用于根据所述第一检测参数和所述第二检测参数,确定第一检测阈值和第二检测阈值,所述第一检测阈值满足:TH_D=μ-n*σ,所述第二检测阈值满足:TH_U=μ+n*σ,其中,TH_D表示第一检测阈值,TH_U表示第二检测阈值,μ表示所述第一检测参数,σ表示所述第二检测参数,*表示相乘,所述第一检测阈值小于所述第二检测阈值;若所述当前运维数据与所述当前运维数据的拟合结果之间的差值大于所述第一检测阈值,且小于所述第二检测阈值,则确定所述当前运维数据正常;否则,确定所述当前运维数据异常。
22.根据权利要求12至21任一项所述的装置,其特征在于,所述装置还包括预处理模块;
所述预处理模块,用于对所述历史运维数据进行预处理,所述预处理包括:插值处理和/或平滑处理。
23.一种检测设备,其特征在于,包括存储器和与所述存储器连接的至少一个处理器,所述存储器用于存储指令,所述指令被所述至少一个处理器读取后,所述检测设备执行如权利要求1至11任一项所述的方法。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机指令,当所述计算机指令在计算机上运行时,以执行如权利要求1至11任一项所述的方法。
CN202010247360.7A 2020-03-31 2020-03-31 一种运维数据的异常检测方法及装置 Pending CN113468014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247360.7A CN113468014A (zh) 2020-03-31 2020-03-31 一种运维数据的异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247360.7A CN113468014A (zh) 2020-03-31 2020-03-31 一种运维数据的异常检测方法及装置

Publications (1)

Publication Number Publication Date
CN113468014A true CN113468014A (zh) 2021-10-01

Family

ID=77865799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247360.7A Pending CN113468014A (zh) 2020-03-31 2020-03-31 一种运维数据的异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN113468014A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037100A (zh) * 2021-11-15 2022-02-11 国网山东省电力公司信息通信公司 一种基于ai技术的电力设备运维方法及系统
CN115858311A (zh) * 2023-03-04 2023-03-28 北京神州光大科技有限公司 运维监控的方法、装置、电子设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037100A (zh) * 2021-11-15 2022-02-11 国网山东省电力公司信息通信公司 一种基于ai技术的电力设备运维方法及系统
CN114037100B (zh) * 2021-11-15 2024-01-16 国网山东省电力公司信息通信公司 一种基于ai技术的电力设备运维方法及系统
CN115858311A (zh) * 2023-03-04 2023-03-28 北京神州光大科技有限公司 运维监控的方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111459778B (zh) 运维系统异常指标检测模型优化方法、装置及存储介质
CN109587001B (zh) 一种性能指标异常检测方法及装置
CN107528722B (zh) 一种时间序列中异常点检测方法及装置
US9658916B2 (en) System analysis device, system analysis method and system analysis program
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
CN110750429A (zh) 运维管理系统的异常检测方法、装置、设备及存储介质
CN111538642B (zh) 一种异常行为的检测方法、装置、电子设备及存储介质
WO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
CN106407052B (zh) 一种检测磁盘的方法及装置
CN111309539A (zh) 一种异常监测方法、装置和电子设备
CN109857618B (zh) 一种监控方法、装置及系统
CN110955586A (zh) 一种基于日志的系统故障预测方法、装置和设备
CN113468014A (zh) 一种运维数据的异常检测方法及装置
KR20170084445A (ko) 시계열 데이터를 이용한 이상 감지 방법 및 그 장치
CN110858072B (zh) 设备运行状态的确定方法及装置
CN108664603A (zh) 一种修复时序数据的异常聚合值的方法及装置
CN113672600A (zh) 一种异常检测方法及系统
US9116804B2 (en) Transient detection for predictive health management of data processing systems
CN115794578A (zh) 一种电力系统的数据管理方法、装置、设备及介质
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN113326177A (zh) 一种指标异常检测方法、装置、设备及存储介质
CN111783883A (zh) 一种异常数据的检测方法及装置
GB2604081A (en) Identification of constituent events in an event storm in operations management
CN110198299B (zh) 一种入侵检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20220211

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Applicant after: Huawei Cloud Computing Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant before: HUAWEI TECHNOLOGIES Co.,Ltd.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination