CN112116123A - 一种基于动态基线的智能告警方法和系统 - Google Patents

一种基于动态基线的智能告警方法和系统 Download PDF

Info

Publication number
CN112116123A
CN112116123A CN202010774336.9A CN202010774336A CN112116123A CN 112116123 A CN112116123 A CN 112116123A CN 202010774336 A CN202010774336 A CN 202010774336A CN 112116123 A CN112116123 A CN 112116123A
Authority
CN
China
Prior art keywords
alarm
baseline
data
dynamic baseline
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010774336.9A
Other languages
English (en)
Inventor
王立新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Publication of CN112116123A publication Critical patent/CN112116123A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B29/00Checking or monitoring of signalling or alarm systems; Prevention or correction of operating errors, e.g. preventing unauthorised operation
    • G08B29/18Prevention or correction of operating errors
    • G08B29/185Signal analysis techniques for reducing or preventing false alarms or for enhancing the reliability of the system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Security & Cryptography (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及一种基于动态基线的智能告警方法和系统。方法包括步骤:S1、向基于动态基线算法的告警引擎接入时序数据指标;S2、基于预设的告警规则判断是否触发告警事件;S3、若是,则触发告警,若否,则返回步骤S1。系统包括:基于动态基线算法的告警引擎;时序数据指标接入模块,用于向基于动态基线算法的告警引擎接入时序数据指标;告警事件触发判断模块,用于基于预设的告警规则判断是否触发告警事件;告警事件触发模块,用于触发告警。借此,可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。

Description

一种基于动态基线的智能告警方法和系统
技术领域
本发明属于智能运维监控领域,具体涉及一种基于动态基线的智能告警方法和系统,主要用于监控数据指标的异常波动,从而实现监控告警。
背景技术
传统监控系统的告警一般采用基于固定阈值的方法,即运维人员根据数据指标来手动设定告警条件,比如当数据指标大于或者小于某个特定值或者超过某个特定的百分比时即产生告警。随后又出现了分时段固定阈值的方法,即把一天分成几个时段,对不同的时段设置不同的告警条件,但这种方法本质上依然属于固定阈值的方法。固定阈值的方法虽然能够满足传统运维中的一部分监控告警需求,但存在以下明显的不足:
第一、告警阈值需要运维人员手工设置,无法智能变更,这就导致:
1、运维人员的经验对阈值设置起关键作用,系统风险大;
2、监控对象的特征各不相同,阈值设置难度大;
3、监控对象太多,运维人员工作量大;
第二、无法满足需要根据忙、闲时动态调整告警阈值的需求:
1、固定告警阈值设置较大时,只对流量的波峰有意义,而其他时段的流量处于失控状态;
2、固定告警阈值设置较小时,无法满足波峰状态的告警,且峰值流量长时间处理告警状态,失去了告警意义。
综上,为了适应业务不断变化、减少运维对人员经验的依赖,业界希望采用基于动态基线的方法来触发告警。
发明内容
为了解决现有技术的上述问题,一方面,本发明提供一种基于动态基线的智能告警方法,可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于动态基线的智能告警方法,其包括如下步骤:
S1、向基于动态基线算法的告警引擎接入时序数据指标;
S2、基于预设的告警规则判断是否触发告警事件;
S3、若是,则触发告警,若否,则返回步骤S1。
借助上述方案,本发明的基于动态基线的智能告警方法,其可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。动态基线告警能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,降低告警的漏报率和误报率,减少对运维人员经验的依赖,提升告警的有效性和敏锐度,从而提升运维的综合保障能力。
本发明一个实施例的基于动态基线的智能告警方法,其中,步骤S1中基于动态基线算法的告警引擎实现原理如下:
S11、首先基于历史数据的学习构建基于历史数据的历史数据基线;
S12、再基于prophet模型的时间序列预测算法进一步预测,形成预测数据基线(即时间序列模型)。
本发明一个实施例的基于动态基线的智能告警方法,其中,时间序列模型y(t)为:
y(t)=g(t)+s(t)+∈t 式(1);
其中,g(t)代表趋势预测模型,s(t)代表周期性预测模型,∈t为误差。
其中,趋势预测模型函数g(t)为:
g(t)=(k+δa(t)^T)t+(m+βa(t)^T) 式(2);
其中,k为参数、m为参数、β为参数、T为参数;
其中,δ~Laplace(0,tau);
其中,a(t)可以设置为:
a(t)=0;t≥ts,
a(t)=1;otherwise。
其中,周期性预测模型s(t)可以根据傅立叶系数得到:
Figure BDA0002617834300000021
其中,P为周期性参数,a为参数,b为参数。
其中,如果时间跨度不超过七天,周期性参数P可以设置为三天,即N=3。
其中,如果时间跨度超过七天,周期性参数P可以设置为七天,即N=7,此时,s(t)=X(t)β,其中,X(t)如下式:
Figure BDA0002617834300000022
本发明一个实施例的基于动态基线的智能告警方法,其中,步骤S12中:使用T分布的先验方法进行基线预测。
本发明一个实施例的基于动态基线的智能告警方法,其中,在模型拟合时使用了基于先验方法,由于历史数据发生异常时,经常会有一些依靠统计方法无法检测出的异常,这些异常点在预处理阶段无法去除。使用传统的方法,当历史数据中的无法用统计方法去除的异常点很多时(实际数据处理中比较常见的场景),模型拟合的基线其鲁棒性会受到很大的影响,导致预测出来的基线不稳、不准,不能符合预期效果。
本实施例在求解基线的最优解时采用了基于T分布的先验分布方法来替代现有的高斯分布方法,这样的改进对历史数据学习时在幅值和频域的异常都具有很强的鲁棒性,这样的模型可以更好的拟合基线的正常模式。本发明改进后的算法极大减少了异常点对于基线预测的影响,增强了模型学习对异常点的鲁棒性。
本发明一个实施例的基于动态基线的智能告警方法,其中,步骤S2中,通过比较接入的实时的时序数据指标与预测数据基线之间的偏差来判断是否触发告警事件。
本发明一个实施例的基于动态基线的智能告警方法,其还包括步骤S0、数据预处理;预处理的数据包括历史数据,数据预处理包括采用分段的方法进行统计异常点的去除。
通常情况下历史数据的异常点对于模型的拟合有很大影响,它们会使计算的模型基线偏向异常点而导致模型可用性大大下降,尤其是在异常检查场景下。而解决这个问题的的最好办法就是找到这些异常点并剔除掉。传统的异常点去除方法通常是将整体数据内统计上的离群点找到并去除,但在实际数据中,因为被预测的数据具有周期性波动和整体趋势性的特点,经常有一些局部统计异常点但在全局不是统计异常点,所以整体的异常点去除方法不可取。
本实施例采用了基于percentile方法的分段异常点去除方法,相比较于现有的统计平均值和标准差,本实施例选用鲁棒性更强的中位数median和分位数的标准差作为统计依据,进行分段内的统计意义上的异常点去除,这种方法可以更好地去除分段内的离群点。
另一方面,本发明还提供一种基于动态基线的智能告警系统,可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于动态基线的智能告警系统,其包括:
基于动态基线算法的告警引擎;
时序数据指标接入模块,用于向基于动态基线算法的告警引擎接入时序数据指标;
告警事件触发判断模块,用于基于预设的告警规则判断是否触发告警事件;
告警事件触发模块,用于触发告警。
借助上述方案,本发明的基于动态基线的智能告警系统,其可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。动态基线告警能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,降低告警的漏报率和误报率,减少对运维人员经验的依赖,提升告警告警的有效性和敏锐度,从而提升运维的综合保障能力。
本发明一个实施例的基于动态基线的智能告警系统,其中,基于动态基线算法的告警引擎包括:
历史数据基线构建模块,用于基于历史数据的学习构建基于历史数据的历史数据基线;
预测数据基线构建模块,用于基于prophet模型的时间序列预测算法进行预测,形成预测数据基线。
本发明一个实施例的基于动态基线的智能告警系统,其中,预测数据基线构建模块包括:
T分布先验子模块,用于使用T分布的先验方法进行预测。
本发明一个实施例的基于动态基线的智能告警系统,其还包括数据预处理模块,用于采用包括分段的方法进行统计异常点的去除。
本发明一个实施例的基于动态基线的智能告警系统,其中,预处理的数据包括历史数据。
本发明一个较佳实施例的基于动态基线的智能告警系统,其中,时序数据指标需要满足以下要求中的至少一种:
(1)数据指标内容必须包含以下字段:数据的时间、对象名称、对象类型、指标名称、指标标准名称、聚合方式、聚合周期、数据类型、单位。
(2)对象类型:包括host、service、application、business。
(3)指标标准名称:指满足指标命名规范的指标名称。
(4)聚合方式:通过以下聚合函数进行聚合,包括avg、max、min、sum、count。
(5)聚合周期(单位分钟):指数据的时间范围。
(6)数据类型:包括整数数值型、小数数值型、字符型等。
(7)单位:指标数据的单位。
本发明的基于动态基线的智能告警方法和系统,能够通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。特别是能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,降低告警的漏报率和误报率,减少对运维人员经验的依赖,提升告警告警的有效性和敏锐度,从而提升运维的综合保障能力。
附图说明
图1为本发明一个实施例的基于动态基线的智能告警方法的主要流程示意图;
图2为本发明一个实施例的基于动态基线的智能告警方法的整体流程示意图;
图3为本发明一个实施例的基于动态基线的智能告警方法的预测数据基线建立流程示意图;
图4为本发明一个应用例的基于动态基线的智能告警方法与现有方法的结果对比示意图(a为现有技术的结果,b为本发明的结果);
图5为本发明一个实施例的基于动态基线的智能告警系统的结构示意图(一);
图6为本发明一个实施例的基于动态基线的智能告警系统的结构示意图(二);
图7为本发明一个实施例的基于动态基线的智能告警系统的结构示意图(三);
图8为本发明一个实施例的基于动态基线的智能告警系统的结构示意图(四);
图9为本发明一个实施例的基于动态基线的智能告警系统的结构示意图(五);
图10为本发明一个应用例的基于动态基线的智能告警系统的应用结果示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
参见图1,本发明一个实施例的基于动态基线的智能告警方法,其包括:
S1、向基于动态基线算法的告警引擎接入时序数据指标;
S2、基于预设的告警规则判断是否触发告警事件;
S3、若是,则触发告警,若否,则返回步骤S1。
借助上述方案,本发明的基于动态基线的智能告警方法,其可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。动态基线告警能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,降低告警的漏报率和误报率,减少对运维人员经验的依赖,提升告警的有效性和敏锐度,从而提升运维的综合保障能力。
本发明的一个较佳实施例中,所接入的时序数据指标满足以下要求:
(1)数据指标内容必须包含以下字段:数据的时间、对象名称、对象类型、指标名称、指标标准名称、聚合方式、聚合周期、数据类型、单位。
(2)对象类型:包括host、service、application、business。
(3)指标标准名称:指满足指标命名规范的指标名称。
(4)聚合方式:通过以下聚合函数进行聚合,包括avg、max、min、sum、count。
(5)聚合周期(单位分钟):指数据的时间范围。
(6)数据类型:包括整数数值型、小数数值型、字符型等。
(7)单位:指标数据的单位。
本领域技术人员知道,可以在步骤S2之前执行步骤S4、设定告警触发规则和告警事件发送规则;还可以在步骤S3之后执行步骤S5、展示告警事件、发送告警信息(参见图2)。
本发明的一个较佳实施例中,可以选择某个时序数据,并针对该数据设置告警规则。
其中,告警规则的内容包括:基线比较规则、聚合方式、时间窗口、时间粒度、告警级别(灾难级别、严重级别、警告级别)。
较佳的,还可以针对所选择的时序数据设置告警分派策略,告警的分派包括:定义告警发生后告警通知的接受人,即按照所设定的条件为所设定的告警事件分派告警事件的接受人。
实施时,告警事件可以根据分组规则在界面上进行展现,比如设置了告警消息通知的,会根据设置通过邮件、短信等不同渠道发送给指定的接收人。
本发明的一个较佳实施例中,基于动态基线算法与设定的告警规则,自动触发产生不同级别的告警事件。
具体的计算逻辑可以为:
当基线比较规则为以上时,基线偏离度=(数据实际值-基线值)/基线规则*100%;
当基线的偏离度处于不同的阈值空间时,触发相应告警。
比如,阈值可以设置为:超过基线的60%为严重,超过基线的80%时为灾难,当偏离度设置为基线的70%时,触发严重告警;当偏离度超过基线的80%时,触发灾难级别告警。
本发明的一个较佳实施例中,基线的计算由基于动态基线的告警引擎决定,动态基线的告警引擎实现原理如下:
本发明采用改进了的prophet模型方法来实现基于动态基线的告警引擎,实现原理为:基于历史数据学习基于历史数据的数据基线,并基于模型的预测算法进一步预测数据基线,当实时数据与预测的基线产生的偏差大于设定的偏差之后,产生对应等级的告警事件。
其中,Prophet是Facebook公司的一个开源的时间序列预测模型。它基于一个自加性模型,用来拟合年、周、季节以及假期等非线性趋势。Prophet模型对至少有一年历史数据的日常周期性数据效果较好,对缺失值有很强的鲁棒性。但在历史数据数量受限、异常点较多、偏差较大的情况下,Prophet模型对历史数据的异常点鲁棒性不够,效果不好。在实际测试过程中,在较少数据量(如1个月、一周)以及异常点较多且与正常数据模式偏差较大的情况下,该模型的预测数据与实际值相比很不准确,无法进行工程化落地。
本发明的一个优选实施例中,在数据预处理阶段,采用分段的方法进行统计异常点的去除,以克服Prophet模型的上述缺陷。
通常情况下历史数据的异常点对于模型的拟合有很大影响,它们会使计算的模型基线偏向异常点而导致模型可用性大大下降,尤其是在异常检查场景下。而解决这个问题的最好办法就是找到这些异常点并剔除掉。传统的异常点去除方法通常是将整体数据内统计上的离群点找到并去除,但在实际数据中,因为被预测的数据具有周期性波动和整体趋势性的特点,经常有一些局部统计异常点但在全局不是统计异常点,所以整体的异常点去除方法不可取。
本发明采用的基于percentile方法的分段异常点去除方法,相比较于统计平均值和标准差,选用鲁棒性更强的中位数median和分位数的标准差作为统计依据,进行分段内的统计意义上的异常点去除,这种方法可以很好地去除分段内的离群点。
如图3所示,数据预处理后,建立模型并进行模型拟合。
具体的,数据预处理后,按照下式建立模型:
y(t)=g(t)+s(t)+∈t 式(1);
其中,g(t)代表趋势预测模型,s(t)代表周期性预测模型,∈t为误差。
其中,趋势预测模型函数g(t)为:
g(t)=(k+δa(t)^T)t+(m+βa(t)^T) 式(2);
其中,k为参数、m为参数、β为参数、T为参数;
其中,δ~Laplace(0,tau);
其中,a(t)可以设置为:
a(t)=0;t≥ts,
a(t)=1;otherwlse。
其中,周期性预测模型s(t)可以根据傅立叶系数得到:
Figure BDA0002617834300000061
其中,P为周期性参数,a为参数,b为参数。
其中,如果时间跨度不超过七天,周期性参数P可以设置为三天,N=3。
其中,如果时间跨度超过七天,周期性参数P可以设置为七天,N=7,如下式:
Figure BDA0002617834300000062
因此,s(t)=X(t)β。
本发明的一个优选实施例中,在模型拟合阶段,在基线的预测过程中,使用T分布所谓先验的方法取代原有的高斯分布方式,以克服Prophet模型的上述缺陷。
由于历史数据发生异常时,经常会有一些以上统计方法无法检测出的异常,这些异常点在预处理阶段无法去除。使用传统的方法,当历史数据中的无法用统计方法去除的异常点很多时(实际数据中常见场景),模型拟合的基线其鲁棒性会受到很大的影响,导致预测出来的基线不稳、不准,不能符合预期效果。
因此本发明在求解基线的最优解时采用了基于T分布的先验分布方法来替代原有的高斯分布方法,这样的改进对历史数据学习时在幅值和频域的异常都具有很强的鲁棒性,这样的模型可以更好的拟合基线的正常模式。改进后的算法极大减少了异常点对于基线预测的影响,增强了模型学习对异常点的鲁棒性。
参见图4,图中棕色为预测的基线,黑色的点为数据实际值。图4(a)中后半段,黑色的异常点将基线向下拉;而使用t分布后的方法,图4(b)去除了异常点对基线的影响,基线的值向上,比实际值更接近。
由此可见,本发明实施例采用基于改进的prophet模型实现的动态基线方法,能够在较少的历史数据和受异常点影响大的情况下实现更加准确的基线预测,进而使得告警的准确率有了大幅提升,减少了误报情况的产生。
参见图5,本发明一个实施例的基于动态基线的智能告警系统,其包括:
基于动态基线算法的告警引擎;
时序数据指标接入模块,用于向基于动态基线算法的告警引擎接入时序数据指标;
告警事件触发判断模块,用于基于预设的告警规则判断是否触发告警事件;
告警事件触发模块,用于触发告警。
借助上述方案,本发明的基于动态基线的智能告警系统,其可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。动态基线告警能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,降低告警的漏报率和误报率,减少对运维人员经验的依赖,提升告警告警的有效性和敏锐度,从而提升运维的综合保障能力。
参见图6,本发明一个实施例的基于动态基线的智能告警系统,其中,还包括:
告警触发规则设定模块,用于设定告警触发规则;
告警事件发送规则设定模块,用于设定告警事件发送规则;
告警事件展示模块,用于展示告警事件;
告警消息发送模块,用于发送告警消息。
参见图7,本发明一个实施例的基于动态基线的智能告警系统,其中,基于动态基线算法的告警引擎包括:
历史数据基线构建模块,用于基于历史数据的学习构建基于历史数据的历史数据基线;
预测数据基线构建模块,用于基于prophet模型的时间序列预测算法进行预测,形成预测数据基线。
参见图8,本发明一个实施例的基于动态基线的智能告警系统,其中,预测数据基线构建模块包括:
T分布先验子模块,用于使用T分布的先验方法进行预测。
参见图9,本发明一个实施例的基于动态基线的智能告警系统,其还包括数据预处理模块,用于采用包括分段的方法进行统计异常点的去除。
本发明一个实施例的基于动态基线的智能告警系统,其中,预处理的数据包括历史数据。
本发明一个较佳实施例的基于动态基线的智能告警系统,其中,时序数据指标需要满足以下要求:
(1)数据指标内容必须包含以下字段:数据的时间、对象名称、对象类型、指标名称、指标标准名称、聚合方式、聚合周期、数据类型、单位。
(2)对象类型:包括host、service、application、business。
(3)指标标准名称:指满足指标命名规范的指标名称。
(4)聚合方式:通过以下聚合函数进行聚合,包括avg、max、min、sum、count。
(5)聚合周期(单位分钟):指数据的时间范围。
(6)数据类型:包括整数数值型、小数数值型、字符型等。
(7)单位:指标数据的单位。
下面还提供一个应用实例对本发明进行描述。
参见图10,本应用实例中,本发明的基于动态基线的智能告警系统应用于某银行,基于其某段时间(2018年10月24日、2018年10月26日、2018年10月27日、2018年10月28日)内的历史数据(以黑点表示),对未来一段时间(2018年10月29日、2018年10月30日、2018年10月31日)内设备使用情况的基线走势进行预测(以黑色波浪线为中心的灰色区域),预测结果如图10所示。由此可知,预测结果与实际运行结果(以灰点表示)基本吻合。
综上所述,本发明基于动态基线的智能告警方法和系统,通过采用基于改进的prophet模型实现的动态基线方法,尤其是在在数据预处理阶段采用基于percentile方法的分段异常点去除方法,选用鲁棒性更强的中位数median和分位数的标准差作为统计依据,进行分段内的统计意义上的异常点去除,并在求解基线的最优解时采用了基于T分布的先验分布方法来替代原有的高斯分布方法,能够在较少的历史数据和受异常点影响大的情况下实现更加准确的基线预测,进而使得告警的准确率有了大幅提升,减少了误报情况的产生。

Claims (10)

1.一种基于动态基线的智能告警方法,其包括如下步骤:
S1、向基于动态基线算法的告警引擎接入时序数据指标;
S2、基于预设的告警规则判断是否触发告警事件;
S3、若是,则触发告警,若否,则返回步骤S1。
2.如权利要求1所述的基于动态基线的智能告警方法,其特征在于,步骤S1中基于动态基线算法的告警引擎实现原理如下:
S11、首先基于历史数据的学习构建基于历史数据的历史数据基线;
S12、再基于prophet模型的时间序列预测算法进一步预测,形成预测数据基线。
3.如权利要求2所述的基于动态基线的智能告警方法,其特征在于,步骤S12中:使用T分布的先验方法进行预测。
4.如权利要求2所述的基于动态基线的智能告警方法,其特征在于:
步骤S2中,通过比较接入的实时的时序数据指标与预测数据基线之间的偏差来判断是否触发告警事件。
5.如权利要求1所述的基于动态基线的智能告警方法,其特征在于,还包括步骤S0、数据预处理;预处理的数据包括历史数据,数据预处理包括采用分段的方法进行统计异常点的去除。
6.一种基于动态基线的智能告警系统,其特征在于,其包括:
基于动态基线算法的告警引擎;
时序数据指标接入模块,用于向基于动态基线算法的告警引擎接入时序数据指标;
告警事件触发判断模块,用于基于预设的告警规则判断是否触发告警事件;
告警事件触发模块,用于触发告警。
7.如权利要求6所述的基于动态基线的智能告警系统,其特征在于,基于动态基线算法的告警引擎包括:
历史数据基线构建模块,用于基于历史数据的学习构建基于历史数据的历史数据基线;
预测数据基线构建模块,用于基于prophet模型的时间序列预测算法进行预测,形成预测数据基线。
8.如权利要求7所述的基于动态基线的智能告警系统,其特征在于,预测数据基线构建模块包括:
T分布先验子模块,用于使用T分布的先验方法进行预测。
9.如权利要求6所述的基于动态基线的智能告警系统,其特征在于,还包括数据预处理模块,用于采用包括分段的方法进行统计异常点的去除。
10.如权利要求9所述的基于动态基线的智能告警系统,其特征在于,预处理的数据包括历史数据。
CN202010774336.9A 2019-08-05 2020-08-05 一种基于动态基线的智能告警方法和系统 Pending CN112116123A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019107185069 2019-08-05
CN201910718506 2019-08-05

Publications (1)

Publication Number Publication Date
CN112116123A true CN112116123A (zh) 2020-12-22

Family

ID=73799133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010774336.9A Pending CN112116123A (zh) 2019-08-05 2020-08-05 一种基于动态基线的智能告警方法和系统

Country Status (1)

Country Link
CN (1) CN112116123A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598291A (zh) * 2020-12-25 2021-04-02 中国农业银行股份有限公司 一种基于Prophet的运维智能排班方法及装置
CN113342623A (zh) * 2021-05-28 2021-09-03 福建福诺移动通信技术有限公司 基于动态阈值方法的可视化预警系统及方法
CN113835387A (zh) * 2021-09-16 2021-12-24 国家计算机网络与信息安全管理中心 运维管理方法、系统及介质
CN114500011A (zh) * 2022-01-13 2022-05-13 中国电子科技网络信息安全有限公司 一种基于行为基线异常分析和事件编排的辅助决策方法
CN115454778A (zh) * 2022-09-27 2022-12-09 浙江大学 大规模云网络环境下的时序指标异常智能监控系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100058345A1 (en) * 2008-08-28 2010-03-04 David Isaiah Seidman Automatic and dynamic detection of anomolous transactions
CN109343995A (zh) * 2018-10-25 2019-02-15 金税信息技术服务股份有限公司 基于多源异构数据融合、机器学习及客服机器人的智能运维分析系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100058345A1 (en) * 2008-08-28 2010-03-04 David Isaiah Seidman Automatic and dynamic detection of anomolous transactions
CN109343995A (zh) * 2018-10-25 2019-02-15 金税信息技术服务股份有限公司 基于多源异构数据融合、机器学习及客服机器人的智能运维分析系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张戎: "Facebook时间序列预测算法Prophet的研究", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/52330017?FROM=TIMELINE》 *
洪立俊: "大规模数据分析预测在数据中心的探索与实践", 《中国金融电脑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598291A (zh) * 2020-12-25 2021-04-02 中国农业银行股份有限公司 一种基于Prophet的运维智能排班方法及装置
CN112598291B (zh) * 2020-12-25 2023-10-13 中国农业银行股份有限公司 一种基于Prophet的运维智能排班方法及装置
CN113342623A (zh) * 2021-05-28 2021-09-03 福建福诺移动通信技术有限公司 基于动态阈值方法的可视化预警系统及方法
CN113835387A (zh) * 2021-09-16 2021-12-24 国家计算机网络与信息安全管理中心 运维管理方法、系统及介质
CN114500011A (zh) * 2022-01-13 2022-05-13 中国电子科技网络信息安全有限公司 一种基于行为基线异常分析和事件编排的辅助决策方法
CN114500011B (zh) * 2022-01-13 2023-12-05 中国电子科技网络信息安全有限公司 一种基于行为基线异常分析和事件编排的辅助决策方法
CN115454778A (zh) * 2022-09-27 2022-12-09 浙江大学 大规模云网络环境下的时序指标异常智能监控系统
CN115454778B (zh) * 2022-09-27 2023-08-08 浙江大学 大规模云网络环境下的时序指标异常智能监控系统

Similar Documents

Publication Publication Date Title
CN112116123A (zh) 一种基于动态基线的智能告警方法和系统
CN110708204B (zh) 一种基于运维知识库的异常处理方法、系统、终端及介质
US8601575B2 (en) Statistical method and system for network anomaly detection
CN107766533B (zh) 话务量异常的自动检测方法及系统、存储介质、电子设备
CN115328733A (zh) 应用于业务系统的告警方法、装置、电子设备及存储介质
WO2023071761A1 (zh) 一种异常定位方法及装置
CN111309565A (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
WO2019019749A1 (zh) 一种内存异常检测方法及设备
CN112511456A (zh) 流量控制方法、装置、设备、存储介质和计算机程序产品
CN105808368B (zh) 一种基于随机概率分布的信息安全异常检测的方法及系统
CN108182134A (zh) 一种通用接口监控方法、装置及设备、存储介质
CN109088775A (zh) 异常监控方法、装置以及服务器
CN105656693A (zh) 一种基于回归的信息安全异常检测的方法及系统
CN110400052A (zh) 关键性能指标的监控方法和装置
US8661113B2 (en) Cross-cutting detection of event patterns
CN105117315A (zh) 基于cep的告警处理系统及方法
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN116245865A (zh) 一种图像质量的检测方法、装置、电子设备及存储介质
CN116016115A (zh) 网络线路的流量监控方法、装置、设备、介质和程序产品
CN113472582B (zh) 用于信息技术监控中的警报关联和警报聚合的系统和方法
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
EP2882139B1 (en) System and method for IT servers anomaly detection using incident consolidation
CN110633165B (zh) 故障处理方法、装置、系统服务器及计算机可读存储介质
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN113158716A (zh) 一种基于信号频域分析的智能告警方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201222

RJ01 Rejection of invention patent application after publication