CN112363890A - 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法 - Google Patents

基于Prophet模型的数据中心运维系统阈值自适应告警监测方法 Download PDF

Info

Publication number
CN112363890A
CN112363890A CN202011291798.1A CN202011291798A CN112363890A CN 112363890 A CN112363890 A CN 112363890A CN 202011291798 A CN202011291798 A CN 202011291798A CN 112363890 A CN112363890 A CN 112363890A
Authority
CN
China
Prior art keywords
data
time
alarm
maintenance system
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011291798.1A
Other languages
English (en)
Inventor
姚本初
丁正
刘胜军
谢飞
谢贻富
李海松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei City Cloud Data Center Co ltd
Original Assignee
Hefei City Cloud Data Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei City Cloud Data Center Co ltd filed Critical Hefei City Cloud Data Center Co ltd
Priority to CN202011291798.1A priority Critical patent/CN112363890A/zh
Publication of CN112363890A publication Critical patent/CN112363890A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Alarm Systems (AREA)

Abstract

本发明涉及基于Prophet模型的数据中心运维系统阈值自适应告警监测方法,与现有技术相比解决了运维系统依赖人工经验设定告警阈值的缺陷。本发明包括以下步骤:数据中心运维系统基础数据的采集及预处理;饱和增长趋势的分析;设定告警监测预测时间区间;Prophet模型的训练;告警监测结果的获得。本发明通过模型分析出告警阈值,无需运维人员对每个监控指标单独设置告警阈值,可以对所有满足要求的指标进行阈值自动设置并进行实时告警。

Description

基于Prophet模型的数据中心运维系统阈值自适应告警监测 方法
技术领域
本发明涉及工业数据分析技术领域,具体来说是基于Prophet模型的数据中心运维系统阈值自适应告警监测方法。
背景技术
目前,运维监控系统的告警阈值均是由运维工作人员依靠个人工作经验手动设置与调整。而对于大型数据中心,当设备导入监控系统时告警阈值的设置与调整会带来巨大的工作量,且由于设备及应用具体业务不同,运维人员很难对每一个设备及应用设置合理的阈值,大多数情况下都是采用默认阈值设置,当出现问题时才去修改。
Prophet是Facebook开源的时间序列预测模型,输入时间、对应时间的数据及预测周期,即可输出预测时间及对应时间的数据。同时,Prophet还可以考虑节假日效应带来的影响。
因此,如何在已有运维系统基础上,设计监控告警阈值自适应系统来帮助运维人员更快更精确的设置与修正阈值已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中运维系统依赖人工经验设定告警阈值的缺陷,提供一种基于Prophet模型的数据中心运维系统阈值自适应告警监测方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于Prophet模型的数据中心运维系统阈值自适应告警监测方法,包括以下步骤:
数据中心运维系统基础数据的采集及预处理:数据中心运维系统根据设定的采集周期定时采集监控数据及其对应时间,并作为时间序列进行记录和预处理,形成历史数据集;
饱和增长趋势的分析:根据历史数据集的监控数据增长趋势判断是否为饱和增长趋势,以选择对应的增长函数;
设定告警监测预测时间区间:设置要预测的时间区间长度为时间区间t1;设置节假日时间,即设置对当前监控对象该指标数据的正常波动会产生影响的日期;设置预测的置信区间的置信度d1,d1在90%-99%之间;
Prophet模型的训练:利用告警监测预测时间区间对Prophet模型进行训练;
告警监测结果的获得:待实际时间经过t2后,取出t2时间段的监控数据;对取出的监控数据进行去掉异常数据处理后,将剩下的正常数据输入训练后的Prophet模型,得到当前t2的告警阈值,待运维系统到达告警阈值时进行告警提示。
所述数据中心运维系统基础数据的采集及预处理包括以下步骤:
设置监控指标采集周期,根据不同的指标设置不同的采集周期;
部署采集程序在指定时间采集监控数据并记录采集时间点;
对采集数据进行处理,生成时间序列并记录下来;
基于时间序列将时间作为横坐标、数据值作为纵坐标建立二维散点图;
根据设置的正确区间,将非正确区间内的数据值作为异常点进行删除,将正确区间内的数据值作为历史数据集。
所述饱和增长趋势的分析包括以下步骤:
判断历史数据集的监控数据增长趋势是否为饱和增长趋势:
若是,则选择逻辑回归函数;
若不是,则选择分段线性函数;
若选择逻辑回归函数,设定承载能力cap,即预测趋近于cap时接近饱和;设定仅在第一次训练前选择增长函数,之后训练默认与第一次选择的一致。
所述Prophet模型的训练包括以下步骤:
将节假日时间、时间区间t1、置信度d1填入模型参数进行训练;
训练后会生成时间区间为t1的时间序列,每组数据包含时间ds以及对应时间的预测值yhat、预测上限yhat_upper、预测下限yhat_lower;
yhat_upper即为ds时间点的阈值上限,yhat_lower即为ds时间点的阈值下限。
有益效果
本发明的基于Prophet模型的数据中心运维系统阈值自适应告警监测方法,与现有技术相比通过模型分析出告警阈值,无需运维人员对每个监控指标单独设置告警阈值,可以对所有满足要求的指标进行阈值自动设置并进行实时告警。
在实际应用中,工作人员只需要设置简单的参数,即可得到最合适的且不断自动调整优化的符合具体运行情况的阈值;本发明采用的时间序列预测模型为Prophet,可综合考虑季节性趋势与节假日效应,适用于监控数据的预测场景;且模型拟合速度快,可同时进行较多指标的模型训练。
附图说明
图1为本发明的方法顺序图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种基于Prophet模型的数据中心运维系统阈值自适应告警监测方法,包括以下步骤:
第一步,数据中心运维系统基础数据的采集及预处理。数据中心运维系统根据设定的采集周期定时采集监控数据及其对应时间,并作为时间序列进行记录和预处理,形成历史数据集。其具体步骤如下:
(1)设置监控指标采集周期,根据不同的指标设置不同的采集周期;
(2)部署采集程序在指定时间采集监控数据并记录采集时间点;
(3)对采集数据进行处理,生成时间序列并记录下来;
(4)基于时间序列将时间作为横坐标、数据值作为纵坐标建立二维散点图;
(5)根据设置的正确区间,将非正确区间内的数据值作为异常点进行删除,将正确区间内的数据值作为历史数据集。
第二步,饱和增长趋势的分析:根据历史数据集的监控数据增长趋势判断是否为饱和增长趋势,以选择对应的增长函数。其具体步骤如下:
(1)判断历史数据集的监控数据增长趋势是否为饱和增长趋势:
若是,则选择逻辑回归函数;
若不是,则选择分段线性函数;
(2)若选择逻辑回归函数,设定承载能力cap,即预测趋近于cap时接近饱和。另外在设定时,仅在第一次训练前选择增长函数(逻辑回归函数或分段线性函数),之后训练默认与第一次选择的一致即可。
第三步,设定告警监测预测时间区间:设置要预测的时间区间长度为时间区间t1;设置节假日时间,即设置对当前监控对象该指标数据的正常波动会产生影响的日期;设置预测的置信区间的置信度d1,d1在90%-99%之间。
第四步,Prophet模型的训练:利用告警监测预测时间区间对Prophet模型进行训练。其具体步骤如下:
(1)将节假日时间、时间区间t1、置信度d1填入模型参数进行训练;
(2)训练后会生成时间区间为t1的时间序列,每组数据包含时间ds以及对应时间的预测值yhat、预测上限yhat_upper、预测下限yhat_lower;
(3)yhat_upper即为ds时间点的阈值上限,yhat_lower即为ds时间点的阈值下限。
第五步,告警监测结果的获得:待实际时间经过t2后,取出t2时间段的监控数据;对取出的监控数据进行去掉异常数据处理后,将剩下的正常数据输入训练后的Prophet模型,得到当前t2的告警阈值,待运维系统到达告警阈值时进行告警提示。在此,获得时间区间t2的预测值yhat、预测上限yhat_upper、预测下限yhat_lower,并根据此阈值区间,待到达此阈值后进行告警提示。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (4)

1.一种基于Prophet模型的数据中心运维系统阈值自适应告警监测方法,其特征在于,包括以下步骤:
11)数据中心运维系统基础数据的采集及预处理:数据中心运维系统根据设定的采集周期定时采集监控数据及其对应时间,并作为时间序列进行记录和预处理,形成历史数据集;
12)饱和增长趋势的分析:根据历史数据集的监控数据增长趋势判断是否为饱和增长趋势,以选择对应的增长函数;
13)设定告警监测预测时间区间:设置要预测的时间区间长度为时间区间t1;设置节假日时间,即设置对当前监控对象该指标数据的正常波动会产生影响的日期;设置预测的置信区间的置信度d1,d1在90%-99%之间;
14)Prophet模型的训练:利用告警监测预测时间区间对Prophet模型进行训练;
15)告警监测结果的获得:待实际时间经过t2后,取出t2时间段的监控数据;对取出的监控数据进行去掉异常数据处理后,将剩下的正常数据输入训练后的Prophet模型,得到当前t2的告警阈值,待运维系统到达告警阈值时进行告警提示。
2.根据权利要求1所述的基于Prophet模型的数据中心运维系统阈值自适应告警监测方法,其特征在于,所述数据中心运维系统基础数据的采集及预处理包括以下步骤:
21)设置监控指标采集周期,根据不同的指标设置不同的采集周期;
22)部署采集程序在指定时间采集监控数据并记录采集时间点;
23)对采集数据进行处理,生成时间序列并记录下来;
24)基于时间序列将时间作为横坐标、数据值作为纵坐标建立二维散点图;
25)根据设置的正确区间,将非正确区间内的数据值作为异常点进行删除,将正确区间内的数据值作为历史数据集。
3.根据权利要求1所述的基于Prophet模型的数据中心运维系统阈值自适应告警监测方法,其特征在于,所述饱和增长趋势的分析包括以下步骤:
31)判断历史数据集的监控数据增长趋势是否为饱和增长趋势:
若是,则选择逻辑回归函数;
若不是,则选择分段线性函数;
32)若选择逻辑回归函数,设定承载能力cap,即预测趋近于cap时接近饱和;设定仅在第一次训练前选择增长函数,之后训练默认与第一次选择的一致。
4.根据权利要求1所述的基于Prophet模型的数据中心运维系统阈值自适应告警监测方法,其特征在于,所述Prophet模型的训练包括以下步骤:
41)将节假日时间、时间区间t1、置信度d1填入模型参数进行训练;
42)训练后生成时间区间为t1的时间序列,每组数据包含时间ds以及对应时间的预测值yhat、预测上限yhat_upper、预测下限yhat_lower;
43)yhat_upper即为ds时间点的阈值上限,yhat_lower即为ds时间点的阈值下限。
CN202011291798.1A 2020-11-18 2020-11-18 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法 Pending CN112363890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011291798.1A CN112363890A (zh) 2020-11-18 2020-11-18 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011291798.1A CN112363890A (zh) 2020-11-18 2020-11-18 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法

Publications (1)

Publication Number Publication Date
CN112363890A true CN112363890A (zh) 2021-02-12

Family

ID=74532521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011291798.1A Pending CN112363890A (zh) 2020-11-18 2020-11-18 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法

Country Status (1)

Country Link
CN (1) CN112363890A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778805A (zh) * 2021-09-15 2021-12-10 中国建设银行股份有限公司 一种dcgw集群告警方法及系统
CN113835387A (zh) * 2021-09-16 2021-12-24 国家计算机网络与信息安全管理中心 运维管理方法、系统及介质
CN114564370A (zh) * 2022-04-29 2022-05-31 天云软件技术有限公司 告警阈值的确定方法、装置、设备及计算机存储介质
CN114756604A (zh) * 2022-06-13 2022-07-15 西南交通大学 一种基于Prophet组合模型的监测时序数据预测方法
CN115600770A (zh) * 2022-12-09 2023-01-13 成都睿的欧科技有限公司(Cn) 基于时序饱和预测的无线信号设备故障预警方法和系统
CN115759960A (zh) * 2022-11-07 2023-03-07 北京北明数科信息技术有限公司 事项监控方法、系统、计算机设备及介质
CN116206427A (zh) * 2023-05-06 2023-06-02 安徽智寰科技有限公司 一种基于通用指标自适应阈值的分级报警方法
CN117370330A (zh) * 2023-12-07 2024-01-09 浙江有数数智科技有限公司 一种基于Prophet-SVM模型的大数据采集系统的数据监控预警方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921355A (zh) * 2018-07-03 2018-11-30 国家计算机网络与信息安全管理中心 一种基于时间序列预测模型的告警阈值设定方法及装置
CN109582529A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种报警阈值的设置方法及装置
CN110147902A (zh) * 2019-04-10 2019-08-20 焦点科技股份有限公司 一种多项运营指标联合异常监测方法
CN110601900A (zh) * 2019-09-23 2019-12-20 中盈优创资讯科技有限公司 一种网络故障预警方法及装置
CN111679952A (zh) * 2020-06-08 2020-09-18 中国银行股份有限公司 告警阈值生成方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921355A (zh) * 2018-07-03 2018-11-30 国家计算机网络与信息安全管理中心 一种基于时间序列预测模型的告警阈值设定方法及装置
CN109582529A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种报警阈值的设置方法及装置
CN110147902A (zh) * 2019-04-10 2019-08-20 焦点科技股份有限公司 一种多项运营指标联合异常监测方法
CN110601900A (zh) * 2019-09-23 2019-12-20 中盈优创资讯科技有限公司 一种网络故障预警方法及装置
CN111679952A (zh) * 2020-06-08 2020-09-18 中国银行股份有限公司 告警阈值生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晓 等: "基于 Prophet 算法的铁路客流量预测研究", 《计算机技术与发展》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778805A (zh) * 2021-09-15 2021-12-10 中国建设银行股份有限公司 一种dcgw集群告警方法及系统
CN113835387A (zh) * 2021-09-16 2021-12-24 国家计算机网络与信息安全管理中心 运维管理方法、系统及介质
CN114564370A (zh) * 2022-04-29 2022-05-31 天云软件技术有限公司 告警阈值的确定方法、装置、设备及计算机存储介质
CN114756604A (zh) * 2022-06-13 2022-07-15 西南交通大学 一种基于Prophet组合模型的监测时序数据预测方法
CN115759960A (zh) * 2022-11-07 2023-03-07 北京北明数科信息技术有限公司 事项监控方法、系统、计算机设备及介质
CN115600770A (zh) * 2022-12-09 2023-01-13 成都睿的欧科技有限公司(Cn) 基于时序饱和预测的无线信号设备故障预警方法和系统
CN115600770B (zh) * 2022-12-09 2023-04-07 成都睿的欧科技有限公司 基于时序饱和预测的无线信号设备故障预警方法和系统
CN116206427A (zh) * 2023-05-06 2023-06-02 安徽智寰科技有限公司 一种基于通用指标自适应阈值的分级报警方法
CN116206427B (zh) * 2023-05-06 2023-06-30 安徽智寰科技有限公司 一种基于通用指标自适应阈值的分级报警方法
CN117370330A (zh) * 2023-12-07 2024-01-09 浙江有数数智科技有限公司 一种基于Prophet-SVM模型的大数据采集系统的数据监控预警方法

Similar Documents

Publication Publication Date Title
CN112363890A (zh) 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法
CN108763729B (zh) 基于网络结构熵的流程工业机电系统耦合状态评估方法
CN115760484A (zh) 一种配电台区隐患辨识能力提升方法、装置、系统及存储介质
CN113284004A (zh) 一种基于孤立森林算法的电力数据诊断的治理方法
CN116187725B (zh) 一种用于锻造自动线的锻造设备管理系统
CN111767003A (zh) 一种基于不同工况的采掘设备传感器数据自适应采集方法
CN118134458A (zh) 智能设备监控与维护系统
CN110134040B (zh) 工业设备的运行数据的处理方法及系统
CN113887749A (zh) 基于云边协同的电力物联网多维度监控处置方法、设备及平台
CN114238402A (zh) 告警数据处理方法、装置、存储介质以及电子设备
CN106292591A (zh) 一种设备大数据平台监测诊断系统
CN116757562B (zh) 一种具有自学习能力的智能制造调度方法
CN115883424B (zh) 一种高速骨干网间流量数据预测方法及系统
CN117375231A (zh) 一种基于电网数据节点的统计方法及数据处理系统
CN112700050A (zh) 一种光伏电站超短期第1点功率预测方法及系统
CN108737164B (zh) 一种电信网络实时告警过滤方法及装置
CN115436051B (zh) 液压支架压力异常识别方法
CN111352820A (zh) 一种高性能应用运行状态预测和监控方法、设备和装置
CN115604747A (zh) 一种基于5gc的指标异常闭环管理方法及装置
CN114862099B (zh) 一种基于规则引擎的连铸质量预判模型在线系统
CN115186935A (zh) 一种机电设备非线性故障预测方法及系统
CN111680572B (zh) 一种电网运行场景动态判定方法及系统
CN114298467A (zh) 用于民航运行管理自动化系统的智能监管系统及方法
CN112426155A (zh) 一种基于员工工作情绪的现场工作优化方法及系统
CN112003887A (zh) 一种面向工业互联网时序数据预测的云端-边缘协同深度学习装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212