CN115480997A - 一种指标异常的告警方法、装置、电子设备及存储介质 - Google Patents

一种指标异常的告警方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115480997A
CN115480997A CN202110665498.3A CN202110665498A CN115480997A CN 115480997 A CN115480997 A CN 115480997A CN 202110665498 A CN202110665498 A CN 202110665498A CN 115480997 A CN115480997 A CN 115480997A
Authority
CN
China
Prior art keywords
index
value
abnormal
abnormal alarm
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110665498.3A
Other languages
English (en)
Inventor
丁泽伟
尧平
陈乐�
陈理华
肖忠良
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110665498.3A priority Critical patent/CN115480997A/zh
Publication of CN115480997A publication Critical patent/CN115480997A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明提供的一种指标异常的告警方法、装置、电子设备及存储介质,通过获取指标在目标时刻的指标值;根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知;实现了通过根据所述指标值与所述阈值范围的最大值或最小值确定异常告警等级,使得根据指标值确定的异常告警等级更准确,实现了低成本、高效率、可靠性高的异常告警体系,在减少人工配置告警阈值的基础上,提高了解决指标异常的效率与及时性。

Description

一种指标异常的告警方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种指标异常的告警方法、装置、电子设备及存储介质。
背景技术
随着信息化技术高速发展,网络规模扩大,业务系统增长,信息化运维管理工作已成为企业重点关注的方向;在信息系统中,确保信息系统设备运行的稳定可靠,并实现对系统设备运行状态的实时监控、性能告警、故障定位,对于保证系统正常运行具有重要意义。
目前,现有的信息系统设备监控告警通常采用静态设定的方法,即周期性采集系统中指标的数据,并将指标数据与设定好的阈值进行比较。现有的告警是基于固定的阈值范围设置的,当指标数据超过阈值时,就确定设备运行异常,并进行相应级别的告警;当指标数据在短时间内突然发生大幅度变化,但又未超过阈值时,设备可以已经出现异常,但是却不会发出告警,从而造成此类异常被忽略,继而引发重大故障。
由此可见,现有的系统中指标异常的告警方法,采用固定的阈值范围和告警级别,无法对指标数据进行动态的监测,且告警等级根据人员经验配置,错误率高,存在告警准确性、及时性、有效性低的问题。
发明内容
本发明提供一种指标异常的告警方法、装置、电子设备及存储介质,用以解决现有的系统中指标异常的告警方法,采用固定的阈值范围和告警级别,无法对指标数据进行动态的监测,且告警等级根据人员经验配置,错误率高,存在告警准确性、及时性、有效性低的问题;通过根据所述指标值与所述阈值范围的最大值或最小值确定异常告警等级,使得根据指标值确定的异常告警等级更准确,实现了低成本、高效率、可靠性高的异常告警体系,在减少人工配置告警阈值的基础上,提高了解决指标异常的效率与及时性。
本发明提供一种软件实例异常的预测方法,包括:
获取指标在目标时刻的指标值;
根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;
若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知。
进一步地,根据本发明提供的一种指标异常的告警方法,所述确定所述指标的异常告警等级,包括:
根据所述指标的阈值范围,确定所述阈值范围的最大值、最小值;
基于所述指标在目标时刻的指标值与所述最大值计算出的比例,或者,基于所述指标在目标时刻的指标值与所述最小值计算出的比例,确定出所述指标的异常告警等级。
进一步地,根据本发明提供的一种指标异常的告警方法,所述基于所述指标在目标时刻的指标值与所述最大值计算出的比例,或者,基于所述指标在目标时刻的指标值与所述最小值计算出的比例,确定出所述指标的异常告警等级,包括:
在大于所述最大值的区间内,通过预设的第一阶梯系数与第一容忍系数,划分出至少一个上限异常告警等级;
计算所述指标在目标时刻的指标值与所述最大值计算出的比例,若所述比例位于任一所述上限异常告警等级中,确定所述指标的上限异常告警等级;
或者,在小于所述最小值的区间内,通过预设的第二阶梯系数与第二容忍系数,划分出至少一个下限异常告警等级;
计算所述指标在目标时刻的指标值与所述最小值计算出的比例,若所述比例位于任一所述下限异常告警等级中,确定所述指标的下限异常告警等级。
进一步地,根据本发明提供的一种指标异常的告警方法,所述发出与所述指标的异常告警等级相匹配的异常告警通知,包括:
监控所述指标是否发生异常;
若监控到所述指标连续发生至少两次异常,发出异常告警通知。
进一步地,根据本发明提供的一种指标异常的告警方法,所述根据所述指标的阈值范围与所述指标值,确定所述指标是否异常,包括:
根据所述指标的预设概率值,在概率密度分布图中确定与所述预设概率值对应的目标相对误差值;其中,在所述概率密度分布图中,所述预设概率值用于将出现概率小于所述预设概率值的相对误差值确定为小概率事件;
获取所述指标在所述目标时刻的预测值;
根据所述预测值与所述目标相对误差值,计算所述指标在所述目标时刻的阈值,生成所述指标的阈值范围。
进一步地,根据本发明提供的一种指标异常的告警方法,所述根据所述指标的阈值范围与所述指标值,确定所述指标是否异常之前,包括:
获取所述指标在预设时间段内的历史数据;
确定所述指标在预设时间段内任一时刻的历史预测值;
根据所述预设时间段内任一时刻的历史预测值和历史指标值,确定任一时刻的历史预测值和历史指标值的相对误差值,建立所述预设时间段内的相对误差值集合;
根据所示相对误差值集合中的最小相对误差值与最大相对误差值,基于正态分布,建立所述相对误差值集合的概率密度分布图。
进一步地,根据本发明提供的一种指标异常的告警方法,所述获取所述指标在所述目标时刻的预测值,包括:
通过神经网络训练,建立指标预测模型;其中,所述指标预测模型是基于所述指标的历史数据以及所述指标的历史预测值训练得到的;
获取所述指标在目标时刻之前的预设数量的历史数据,并输入所述指标预测模型,生成所述指标在目标时刻的预测值。
本发明还提供一种指标异常的告警装置,包括:
获取单元,用于获取指标在目标时刻的指标值;
确定单元,用于根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;
告警单元,用于若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述一种指标异常的告警方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述一种指标异常的告警方法的步骤。
本发明提供的一种指标异常的告警方法、装置、电子设备及存储介质,通过获取指标在目标时刻的指标值;根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知;实现了通过根据所述指标值与所述阈值范围的最大值或最小值确定异常告警等级,使得根据指标值确定的异常告警等级更准确,实现了低成本、高效率、可靠性高的异常告警体系,在减少人工配置告警阈值的基础上,提高了解决指标异常的效率与及时性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种指标异常的告警方法的流程示意图;
图2是本发明另一实施例提供的告警等级设置示意图;
图3是本发明另一实施例提供的概率密度分布的示意图;
图4是本发明另一实施例提供的一种告警设置方法的流程图;
图5是本发明另一实施例提供的一种指标异常的告警装置的结构示意图;
图6是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对传统的判定指标异常的告警方法进行说明。
信息系统设备监控告警通常是基于规则的报警分析,告警设置主要采用静态设定方法。监控告警系统会周期性地采集信息系统设备监控指标数据,通过将采集数据与设定的阈值及进行比较,当监控指标超过阈值时,判定设备运行异常,并产生相应级别告警。静态设定方法的优点在于简单易行,缺点在于没有考虑时间、业务变化对指标的影响,告警设置的准确性、及时性、有效性低。比如将设备CPU使用率指标的告警阈值设置为固定值90%,部分设备历史峰值低于90%,基本不会出现告警,当设备CPU使用率从20%异常增长到80%时,信息系统已经出现问题,需要运维人员介入处理,而此时由于告警设置不合理,此类异常往往被忽略,继而引发重大故障。
因此,现有技术方案,通常采用静态设定方法,即人工设置监控指标的固定阈值、等级信息,当监控指标信息被归集后,监控系统判断具体指标数值是否符合告警阈值、等级设置条件,如符合,则对该指标进行告警。该方案存在以下缺点:
1、告警阈值、等级设置固定,告警准确性、及时性、有效性低;当对具有时间周期特征的指标进行监控时,无法体现动态的变化。告警根据经验配置,设置合理性存疑,且易配置出错。若告警灵敏度设置较低,则无法有效监控系统问题;若告警灵敏度设置较高,则会触发大量误告警。
2、告警指标数量多,人工配置和维护工作量大。
因此,优化告警设置方法,使告警设置能够根据实际运行环境和业务系统情况动态调整,提升告警的准确性、有效性,具有重要研究意义。
下面结合图1-图4描述本发明提供的一种指标异常的告警方法。
图1为本发明实施例提供的一种指标异常的告警方法的流程示意图。参见图1,该指标异常的告警方法包括:
步骤101:获取指标在目标时刻的指标值。
当软件进程在运行过程中,进程中的指标会产生指标值;其中,所述目标时刻可以为当前时刻;对指标在未来一段时间内是否会发生异常进行预测时,目标时刻也可以为未来的某一个时刻;当对指标的历史数据进行处理时,目标时刻还可以是某一历史时刻。
步骤102:根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级。
在判断指标是否发生异常时,需要比较指标值与指标的阈值范围。其中,指标的阈值范围,可以为预设的固定范围,即阈值范围中的最大值和最小值是固定的,当指标值超过该阈值范围时,该指标为异常。
进一步地,本实施例中,指标的异常告警等级是根据指标在目标时刻的指标值,与该指标的动态阈值范围共同确定的,计算指标值与动态阈值范围的最大值或最小值的比例值,确定所述指标所在的异常告警等级。
步骤103:若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知。
判断出指标存在异常后,继续确定出指标异常的异常告警等级;根据异常告警等级,发出与该等级对应的异常告警通知;其中,告警通知的触发条件,可以设置为当告警连续多个周期触发时,再发出告警通知,以避免系统运行过程中的偶然因素导致的误报警的发生。
本发明提供的一种指标异常的告警方法,通过获取指标在目标时刻的指标值;根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知;实现了通过根据所述指标值与所述阈值范围的最大值或最小值确定异常告警等级,使得根据指标值确定的异常告警等级更准确,实现了低成本、高效率、可靠性高的异常告警体系,在减少人工配置告警阈值的基础上,提高了解决指标异常的效率与及时性。
进一步地,在上述实施例的基础上,根据本发明提供的一种指标异常的告警方法,所述确定所述指标的异常告警等级,包括:
根据所述指标的阈值范围,确定所述阈值范围的最大值、最小值;
基于所述指标在目标时刻的指标值与所述最大值计算出的比例,或者,基于所述指标在目标时刻的指标值与所述最小值计算出的比例,确定出所述指标的异常告警等级。
本实施例中,使用动态阈值范围作为指标的阈值范围,并得到在目标时刻指标的动态阈值范围的最大值和最小值;在确定了指标在目标时刻的指标值之后,判断指标值是否大于阈值范围的最大值,或者是否小于阈值范围的最小值。
具体的,在大于最大值时,通过公式(1):
Figure BDA0003117211540000081
计算出指标值与最大值的比例N1;其中,N1为实际值超出上界值系数(百分比),Result为实际值(即指标值),AIUpper为上界值(即阈值范围中的最大值),N1∈[0,+∞]。
计算得到N1后,判定N1所在的等级,作为该指标在目标时刻的异常等级。
进一步地,在小于最小值时,通过公式(2):
Figure BDA0003117211540000082
计算出指标值与最大值的比例N2;其中,N2为实际值超出下界值系数(百分比),Result为实际值(即指标值),AILower为下界值(即阈值范围中的最小值),N2∈[0,1]。
计算得到N2后,判定N2所在的等级,作为该指标在目标时刻的异常等级。
本实施例中,通过计算指标值与阈值范围中最大值或最小值的比例,确定指标的异常告警等级,解决了现有技术中只通过指标值与阈值进行比较,造成异常告警不准确的问题,提高了对指标异常告警等级的判断的准确度和灵敏度。
进一步地,在上述实施例的基础上,根据本发明提供的一种指标异常的告警方法,所述基于所述指标在目标时刻的指标值与所述最大值计算出的比例,或者,基于所述指标在目标时刻的指标值与所述最小值计算出的比例,确定出所述指标的异常告警等级,包括:
在大于所述最大值的区间内,通过预设的第一阶梯系数与第一容忍系数,划分出至少一个上限异常告警等级;
计算所述指标在目标时刻的指标值与所述最大值计算出的比例,若所述比例位于任一所述上限异常告警等级中,确定所述指标的上限异常告警等级;
或者,在小于所述最小值的区间内,通过预设的第二阶梯系数与第二容忍系数,划分出至少一个下限异常告警等级;
计算所述指标在目标时刻的指标值与所述最小值计算出的比例,若所述比例位于任一所述下限异常告警等级中,确定所述指标的下限异常告警等级。
具体的,本实施例中,使用箱线图过滤法设置告警等级。确定了阈值范围中的最大值或最小值后,在最大值和最小值之外,分别划分出预设数量的等级范围;其中,上限异常告警等级和下限异常告警等级的数量由人为设定,具体的等级也可由人为设定。
其中,第一容忍系数用于确定指标的容忍上限,当指标值大于最大值,但是计算出的N1小于第一容忍系数时,仍判定该指标值为正常;第二容忍系数用于确定指标的容忍下限,当指标值小于最小值,但是计算出的N2小于第二容忍系数时,仍判定该指标值为正常。
第一阶梯系数用于根据指标值偏离阈值范围的程度确定指标异常的等级,可按需调整,不同的指标可以选用不同的第一阶梯系数,当计算得到的N1每超出最大值第一阶梯系数的一倍,异常告警等级即上升一级;同样的,当计算得到的N2每超出最小值第二阶梯系数的一倍,异常告警等级即上升一级。
图2为本发明另一实施例提供的告警等级设置示意图。参见图2,该告警等级设置过程包括:
设定Result为实际值,AIUpper为告警阈值基线区间上界,AILower为告警阈值基线区间下界,Tolerable_interval为可容忍区(其中T1、T2为容忍系数),Exception_Area_Up(Low)为异常区间。
1)当Result∈[AILower.AIUpper],属于正常范围;
2)当Result超出此范围,且向上超出,按照公式(1)计算出N1
其中,当N1∈[0,T1],为可容忍区间,判定结果正常。T1为向上容忍系数,支持配置,默认值可以设为0.5;
N1∈[T1+Ki,T1+Ki+1],Ki=i*0.5,判定结果异常,异常等级为i+1级;其中0.5为阶梯系数,可按需调整,每超出AIUpper值0.5倍,异常等级上升1级。本实施例中,在大于所述最大值的区间内,告警等级设置包括4个级别,即:
①i=0,N1∈(T1,T1+0.5],为1级告警;
②i=1,N1∈(T1+0.5,T1+1],为2级告警;
③i=2,N1∈(T1+1,T1+1.5],为3级告警;
④i=3,N1∈(T1+1.5,+∞],为4级告警。
3)当Result超出此范围,且向下超出,按照公式(2)计算出N2
其中,当N2∈[0,T2],为可容忍区间,判定结果正常。T2为向下容忍系数,支持配置,且T2应小于0.4,默认值可以设为0.2;
N2∈(T2+Ki,T2+Ki+1],Ki=i*0.2,判定结果异常,异常等级为i+1级。其中0.2为阶梯系数,可按需调整,每超出AILower值0.2倍,异常等级上升1级。本发明告警等级设置包括:
①i=0,N2∈(T2,T2+0.2],为2级告警;
②i=1,N2∈(T2+0.2,T2+0.4],为3级告警;
③i=2,N2∈(T2+0.4,1],为4级告警;
其中,当Result超出此范围,且向下超出时,若判断出该Result为异常时,直接确定该异常的最低异常告警等级为2级。具体的级别可以人为设定,本实施例不作具体限制。
本实施例中,通过计算指标值与阈值范围中最大值或最小值的比例,确定指标的异常告警等级,提高了对指标异常告警等级的判断的准确度和灵敏度;通过对不同的指标设置不同的容忍系数和阶梯系数,可以为不同的指标设置不同的告警等级,提高了异常告警等级的应用范围。
进一步地,在上述实施例的基础上,根据本发明提供的一种指标异常的告警方法,所述发出与所述指标的异常告警等级相匹配的异常告警通知,包括:
监控所述指标是否发生异常;
若监控到所述指标连续发生至少两次异常,发出异常告警通知。
在指标的运行过程中,异常发生有时是由于指标实际上发生了异常导致的,有时只是偶然出现了一次异常的指标值,且整体上指标出现异常的概率是比较低的。
对指标在运行过程中生成的指标值的异常情况进行监控,当监控到目标时刻的指标值存在异常时,确定指标的异常告警等级,但由于不能够确定该次异常是由于指标确实出现异常导致的,还是出现了偶然状况,因此在目标时刻并不直接发出异常告警通知;继续对该指标的异常情况进行监控,若该指标在下一时刻得到的指标值依然为异常,根据低概率事件基本不可能连续两次或多次出现原则,确定该指标确实发生了异常,发出异常告警通知。
其中,监控到指标连续发生至少两次异常,确定该指标发生异常,具体的连续发生的次数可以人为设定,本实施例不作具体限制。
发出的异常告警通知可以为短信或者电话,即通过短信和电话直接将异常告警通知发送给技术人员,使得发生异常时,技术人员可以第一时间获取到异常通知,并对该异常进行及时处理,减少异常的处理周期。
具体的,依据低概率事件基本不可能连续两次或多次出现原则,设置告警通知触发条件。当告警连续多个周期触发时,发出告警通知(短信、电话等)。
本实施例中,在监控到连续出现异常时,确定该指标发生了异常,避免了由偶然因素引起的指标值异常的错误判定,提高了异常告警的准确度;通过短信或电话形式发送异常告警通知,能够及时收取异常信息,提高异常的解决效率。
进一步地,在上述实施例的基础上,根据本发明提供的一种指标异常的告警方法,所述根据所述指标的阈值范围与所述指标值,确定所述指标是否异常,包括:
根据所述指标的预设概率值,在概率密度分布图中确定与所述预设概率值对应的目标相对误差值;其中,在所述概率密度分布图中,所述预设概率值用于将出现概率小于所述预设概率值的相对误差值确定为小概率事件;
获取所述指标在所述目标时刻的预测值;
根据所述预测值与所述目标相对误差值,计算所述指标在所述目标时刻的阈值,生成所述指标的阈值范围。
在指标的运行过程中,整体上指标出现异常的概率是比较低的,因此可以将指标出现异常的情况作为小概率事件进行处理。
对于某一指标,通过训练好的指标预测模型对指标在目标时刻的指标值进行预测,得到预测值;根据目标时刻的预测值与实际的指标值,计算出该指标在目标时刻的相对误差值。
基于大量的历史数据,通过正态分布方法,建立相对误差值的概率密度分布图,设定相对误差出现的概率低于预设概率值时为小概率事件,并根据预设概率值,确定出目标相对误差值;例如,设置预设概率值为1%时,在概率密度分布图中确定发生概率为1%时的相对误差值,作为目标相对误差值,其中发生概率为1%时的相对误差值可能存在两个,可以确定其中任一个作为目标相对误差值,本实施例中,使用两个相对误差值中较大的作为目标相对误差值。
根据该指标在目标时刻的预测值与目标相对误差值,计算指标在目标时刻的阈值(包括最大值、最小值),生成指标的阈值范围。其中,在多个时刻中,指标在每个时刻的预测值不同,得到的每个时刻的阈值范围也不同,即获取到的阈值范围为动态阈值范围。
具体的,采用如下公式计算并生成告警阈值动态基线:
Figure BDA0003117211540000131
其中,αP为目标相对误差值,预测值为指标在目标时刻的预测值,计算得出的两个值作为阈值中的最大值和最小值。
本实施例中,通过指标在目标时刻的预测值和目标相对误差值,确定指标在目标时刻的动态阈值范围,建立了阈值和预测值的关系,阈值可以根据预测值自动生成,无需人工配置;阈值还可以根据预测值动态变化,适应时间周期性特征,解决了告警阈值单一且固定、灵敏度设置不合理的缺点。
进一步地,在上述实施例的基础上,根据本发明提供的一种指标异常的告警方法,所述根据所述指标的阈值范围与所述指标值,确定所述指标是否异常之前,包括:
获取所述指标在预设时间段内的历史数据;
确定所述指标在预设时间段内任一时刻的历史预测值;
根据所述预设时间段内任一时刻的历史预测值和历史指标值,确定任一时刻的历史预测值和历史指标值的相对误差值,建立所述预设时间段内的相对误差值集合;
根据所示相对误差值集合中的最小相对误差值与最大相对误差值,基于正态分布,建立所述相对误差值集合的概率密度分布图。
获取预设时间段内的历史数据,包括该预设时间段内指标的实际指标值;通过指标预测模型,预测出该预设时间段内任一时刻的指标的历史预测值,通过公式计算出预设时间段内所有时刻的相对误差:
Figure BDA0003117211540000141
其中,实际值为历史数据中的历史指标值,预测值为历史预测值。
将得到的所有预设误差建立相对误差值集合,根据相对误差值集合中的最大值与最小值,基于正态分布方法,确定出任一相对误差出现的概率,建立概率密度分布图。
具体的,图3为本发明另一实施例提供的概率密度分布图的示意图。参见图3,该概率密度分布图的建立过程如下:
本实施例采用统计学中的显著性检验方法来建立预测值与阈值的关系。显著性检验是针对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。
首先,对设备内存使用率进行一段较长时间数据收集,记录其实际值与理论值的相对误差,并统计相对误差的概率密度。
将其相对误差范围记为[αminmax],在某一时刻,实际值与理论值的相对误差为α。正常情况下,α较大概率满足α∈[α12]。与此相比,若α∈[α2max],则较小概率满足。根据统计学显著性分析的定义,参照表1,出现概率低于5%或1%属于低概率事件。本发明适当设定相对误差出现的概率低于1%、0.5%为低概率事件,不同的指标可以设定不同的概率。
表1 显著性分析中P值的意义
P值 碰巧的几率 对无效假设 统计意义
P>0.05 碰巧出现的可能性大于5% 不能否定无效假设 两者差别无显著意义
P<0.05 碰巧出现的可能性小于5% 可以否定无效假设 两者差别有显著意义
P<0.01 碰巧出现的可能性小于1% 可以否定无效假设 两者差别有非常显著意义
本实施例中告警设置涉及统计学中的显著性检验方法。显著性验证,就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异,或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。
通过建立概率密度分布图,当针对不同指标设置不同的预设概率值时,可以获取到每一个预设概率值对应的目标相对误差值,从而确定出每一个指标的动态阈值范围。
本实施例中,通过大量的历史数据建立概率密度分布图,确定出任一指标的动态阈值范围,增加了目标相对误差值数据的可信度,提高了后续判断指标异常的精准度。
进一步地,在上述实施例的基础上,根据本发明提供的一种指标异常的告警方法,所述获取所述指标在所述目标时刻的预测值,包括:
通过神经网络训练,建立指标预测模型;其中,所述指标预测模型是基于所述指标的历史数据以及所述指标的历史预测值训练得到的;
获取所述指标在目标时刻之前的预设数量的历史数据,并输入所述指标预测模型,生成所述指标在目标时刻的预测值。
在建立概率密度分布图以及生成指标的动态阈值范围的过程中,都需要使用指标的预测值,本实施例中,预测值通过指标预测模型获得。具体的,获取预测值的过程如下:
步骤一:分析并选择告警动态阈值预测算法。经对比卡尔曼滤波、灰色预测、神经网络算法特性,本实施例选用神经网络算法来进行告警阈值预测,原因是:神经网络算法非线性映射能力强,预测精度高;自学习和自适应能力强,能不断根据历史数据来修正模型和进行预测。
步骤二:采集信息系统设备监控指标历史数据,用于神经网络训练,采集历史数据越多,训练越充分,预测值越准确。神经网络算法训练分为两个阶段:第一阶段(正向传播过程),给出输入信息通过输入层经隐含层处理并计算每个单元的实际输出值;二阶段(反向过程),若在输出层未能得到期望的输出值(即实际指标值),则逐层递归地计算实际输出与期望输出值之差值,以便根据此差值调节权值。
步骤三:输入当前和最近时刻监控指标数据,预测下一时刻监控指标数据。可以设置的方式有两种:方式一:输入当前Tn时刻的数据,预测出Tn+1时刻的数据;方式二:输入最近k个时刻(Tn,Tn-1,Tn-2,…,Tn-k+1)的数据,预测出Tn+1时刻的数据。输入最近时刻数据越多,预测下一个时刻数据越准确。本实施例的预测方式设置采用方式二。
本实施例中涉及了预测方法。常用的预测方法有卡尔曼滤波、灰色预测、神经网络。卡尔曼滤波法利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计;灰色预测法用观察到的反映预测对象特征的时间序列来构造灰色预测模型,预测未来某一时刻的特征量,或者达到某一特征量的时间;神经网络法是一种按误差逆传播算法训练的多层前馈网络算法,该算法使用梯度下降法,通过反向传播来不断调整网络的权值和阈值,使预测输出不断逼近期望输出。因此,本实施例中,使用神经网络算法训练得到指标预测模型。
在得到指标在目标时刻的预测值的过程中,向指标预测模型中输入在目标时刻之前的预设数量的历史数据,通过多个历史数据,得到更准确的预测值。其中,输入的历史数据的数量,可以由人为设定。
本实施例中,通过神经网络算法训练得到指标预测模型,输入预设数量的历史数据生成预测值,提高了生成的预测值的准确度。
图4为本发明另一实施例提供的一种告警设置方法的流程图。参见图4,该告警设置方法的流程包括:
步骤401:预测算法选择;选取神经网络算法进行预测值的生成及告警阈值的预测;
步骤402:数据采集模型训练;采集信息系统设备监控指标历史数据,用于神经网络训练;
步骤403:预测方式设置;输入预设数量的时刻的数据,预测出目标时刻的数据;
步骤404:实际值与预测值关系分析;通过计算相对误差值,确定实际值与预测值的关系式;
步骤405:阈值与预测值关系建立;采用统计学中的显著性检验方法来建立预测值与阈值的关系;
步骤406:告警阈值动态基线生成;通过目标相对误差值与预测值,计算指标的动态阈值范围(即告警阈值动态基线);
步骤407:告警等级设置;通过箱线图过滤法,设置告警等级;
步骤408:告警通知触发条件设置;根据低概率事件基本不可能连续两次或多次出现原则,当监控到所述指标连续发生至少两次异常,发出异常告警通知。
本发明引入神经网络预测算法,通过采集监控指标历史数据训练算法模型,可预测下一时刻指标数据;引入统计学显著性检验方法,建立阈值和预测值关系,根据映射关系可自动生成告警阈值动态基线;采用箱线图过滤法,设置告警等级;依据低概率事件基本不可能连续两次或多次出现原则,设置告警通知触发条件。
本发明采用神经网络算法,通过采集监控指标历史数据,来训练预测算法模型。在模型训练成熟后,可以根据当前/最近时刻指标数据,来预测下一时刻指标数据。
本发明采用统计学中的显著性校验方法,建立阈值和预测值关系。阈值可以根据预测值自动生成,无需人工配置;阈值可以根据预测值动态变化,适应时间周期性特征,解决了现有方案告警阈值单一固定、灵敏度设置不合理的缺点。
本发明采用箱线图过滤法,设置告警等级,依据低概率事件基本不可能连续两次或多次出现原则,设置告警通知触发条件,进而实现低成本、高效、可靠的告警等级体系。
本发明告警阈值动态基线可根据算法自动生成,解决了现有方案人工配置的问题;告警阈值设置动态可变,等级设置灵活可靠,解决了现有方案告警精确度、有效性低的问题。
下面对本发明提供的一种指标异常的告警装置进行描述,下文描述的指标异常的告警装置与上文描述的指标异常的告警方法可相互对应参照。
图5为本发明提供的一种指标异常的告警装置的结构示意图,参见图5,该指标异常的告警装置包括:
获取单元501,用于获取指标在目标时刻的指标值;
确定单元502,用于根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;
告警单元503,用于若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知。
本实施例提供的一种指标异常的告警装置适用于上述各实施例提供的指标异常的告警方法,在此不再赘述。
具体的,根据本发明提供的一种指标异常的告警装置,所述确定所述指标的异常告警等级,包括:
根据所述指标的阈值范围,确定所述阈值范围的最大值、最小值;
基于所述指标在目标时刻的指标值与所述最大值计算出的比例,或者,基于所述指标在目标时刻的指标值与所述最小值计算出的比例,确定出所述指标的异常告警等级。
进一步地,根据本发明提供的一种指标异常的告警装置,所述基于所述指标在目标时刻的指标值与所述最大值计算出的比例,或者,基于所述指标在目标时刻的指标值与所述最小值计算出的比例,确定出所述指标的异常告警等级,包括:
在大于所述最大值的区间内,通过预设的第一阶梯系数与第一容忍系数,划分出至少一个上限异常告警等级;
计算所述指标在目标时刻的指标值与所述最大值计算出的比例,若所述比例位于任一所述上限异常告警等级中,确定所述指标的上限异常告警等级;
或者,在小于所述最小值的区间内,通过预设的第二阶梯系数与第二容忍系数,划分出至少一个下限异常告警等级;
计算所述指标在目标时刻的指标值与所述最小值计算出的比例,若所述比例位于任一所述下限异常告警等级中,确定所述指标的下限异常告警等级。
进一步地,根据本发明提供的一种指标异常的告警装置,所述发出与所述指标的异常告警等级相匹配的异常告警通知,包括:
监控所述指标是否发生异常;
若监控到所述指标连续发生至少两次异常,发出异常告警通知。
进一步地,根据本发明提供的一种指标异常的告警装置,所述根据所述指标的阈值范围与所述指标值,确定所述指标是否异常,包括:
根据所述指标的预设概率值,在概率密度分布图中确定与所述预设概率值对应的目标相对误差值;其中,在所述概率密度分布图中,所述预设概率值用于将出现概率小于所述预设概率值的相对误差值确定为小概率事件;
获取所述指标在所述目标时刻的预测值;
根据所述预测值与所述目标相对误差值,计算所述指标在所述目标时刻的阈值,生成所述指标的阈值范围。
进一步地,根据本发明提供的一种指标异常的告警装置,所述根据所述指标的阈值范围与所述指标值,确定所述指标是否异常之前,包括:
获取所述指标在预设时间段内的历史数据;
确定所述指标在预设时间段内任一时刻的历史预测值;
根据所述预设时间段内任一时刻的历史预测值和历史指标值,确定任一时刻的历史预测值和历史指标值的相对误差值,建立所述预设时间段内的相对误差值集合;
根据所示相对误差值集合中的最小相对误差值与最大相对误差值,基于正态分布,建立所述相对误差值集合的概率密度分布图。
进一步地,根据本发明提供的一种指标异常的告警装置,所述获取所述指标在所述目标时刻的预测值,包括:
通过神经网络训练,建立指标预测模型;其中,所述指标预测模型是基于所述指标的历史数据以及所述指标的历史预测值训练得到的;
获取所述指标在目标时刻之前的预设数量的历史数据,并输入所述指标预测模型,生成所述指标在目标时刻的预测值。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行一种指标异常的告警方法,该方法包括:获取指标在目标时刻的指标值;根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的一种指标异常的告警方法,该方法包括:获取指标在目标时刻的指标值;根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的一种指标异常的告警方法,该方法包括:获取指标在目标时刻的指标值;根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种指标异常的告警方法,其特征在于,包括:
获取指标在目标时刻的指标值;
根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;
若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知。
2.根据权利要求1所述的一种指标异常的告警方法,其特征在于,所述确定所述指标的异常告警等级,包括:
根据所述指标的阈值范围,确定所述阈值范围的最大值、最小值;
基于所述指标在目标时刻的指标值与所述最大值计算出的比例,或者,基于所述指标在目标时刻的指标值与所述最小值计算出的比例,确定出所述指标的异常告警等级。
3.根据权利要求2所述的一种指标异常的告警方法,其特征在于,所述基于所述指标在目标时刻的指标值与所述最大值计算出的比例,或者,基于所述指标在目标时刻的指标值与所述最小值计算出的比例,确定出所述指标的异常告警等级,包括:
在大于所述最大值的区间内,通过预设的第一阶梯系数与第一容忍系数,划分出至少一个上限异常告警等级;
计算所述指标在目标时刻的指标值与所述最大值计算出的比例,若所述比例位于任一所述上限异常告警等级中,确定所述指标的上限异常告警等级;
或者,在小于所述最小值的区间内,通过预设的第二阶梯系数与第二容忍系数,划分出至少一个下限异常告警等级;
计算所述指标在目标时刻的指标值与所述最小值计算出的比例,若所述比例位于任一所述下限异常告警等级中,确定所述指标的下限异常告警等级。
4.根据权利要求1所述的一种指标异常的告警方法,其特征在于,所述发出与所述指标的异常告警等级相匹配的异常告警通知,包括:
监控所述指标是否发生异常;
若监控到所述指标连续发生至少两次异常,发出异常告警通知。
5.根据权利要求1所述的一种指标异常的告警方法,其特征在于,所述根据所述指标的阈值范围与所述指标值,确定所述指标是否异常,包括:
根据所述指标的预设概率值,在概率密度分布图中确定与所述预设概率值对应的目标相对误差值;其中,在所述概率密度分布图中,所述预设概率值用于将出现概率小于所述预设概率值的相对误差值确定为小概率事件;
获取所述指标在所述目标时刻的预测值;
根据所述预测值与所述目标相对误差值,计算所述指标在所述目标时刻的阈值,生成所述指标的阈值范围。
6.根据权利要求5所述的一种指标异常的告警方法,其特征在于,所述根据所述指标的阈值范围与所述指标值,确定所述指标是否异常之前,包括:
获取所述指标在预设时间段内的历史数据;
确定所述指标在预设时间段内任一时刻的历史预测值;
根据所述预设时间段内任一时刻的历史预测值和历史指标值,确定任一时刻的历史预测值和历史指标值的相对误差值,建立所述预设时间段内的相对误差值集合;
根据所示相对误差值集合中的最小相对误差值与最大相对误差值,基于正态分布,建立所述相对误差值集合的概率密度分布图。
7.根据权利要求5所述的一种指标异常的告警方法,其特征在于,所述获取所述指标在所述目标时刻的预测值,包括:
通过神经网络训练,建立指标预测模型;其中,所述指标预测模型是基于所述指标的历史数据以及所述指标的历史预测值训练得到的;
获取所述指标在目标时刻之前的预设数量的历史数据,并输入所述指标预测模型,生成所述指标在目标时刻的预测值。
8.一种指标异常的告警装置,其特征在于,包括:
获取单元,用于获取指标在目标时刻的指标值;
确定单元,用于根据所述指标的阈值范围与所述指标值,确定所述指标是否异常以及所述指标的异常告警等级;
告警单元,用于若所述指标异常,发出与所述指标的异常告警等级相匹配的异常告警通知。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述一种指标异常的告警方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种指标异常的告警方法的步骤。
CN202110665498.3A 2021-06-16 2021-06-16 一种指标异常的告警方法、装置、电子设备及存储介质 Pending CN115480997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110665498.3A CN115480997A (zh) 2021-06-16 2021-06-16 一种指标异常的告警方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110665498.3A CN115480997A (zh) 2021-06-16 2021-06-16 一种指标异常的告警方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115480997A true CN115480997A (zh) 2022-12-16

Family

ID=84419187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110665498.3A Pending CN115480997A (zh) 2021-06-16 2021-06-16 一种指标异常的告警方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115480997A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858505A (zh) * 2023-03-03 2023-03-28 天津市伟利达科技发展有限公司 一种用于识别变频器状态异常的数据处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858505A (zh) * 2023-03-03 2023-03-28 天津市伟利达科技发展有限公司 一种用于识别变频器状态异常的数据处理方法
CN115858505B (zh) * 2023-03-03 2023-05-05 天津市伟利达科技发展有限公司 一种用于识别变频器状态异常的数据处理方法

Similar Documents

Publication Publication Date Title
EP3236398A1 (en) A system for maintenance recommendation based on maintenance effectiveness estimation
CN108123849B (zh) 检测网络流量的阈值的确定方法、装置、设备及存储介质
CN114282434A (zh) 一种工业设备健康管理系统及方法
US9898917B2 (en) Method and apparatus for providing environmental management using smart alarms
JP5259797B2 (ja) 学習型プロセス異常診断装置、およびオペレータ判断推測結果収集装置
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
CN107888441B (zh) 一种网络流量基线自学习自适应方法
EP3270250A1 (en) Method and system for remote monitoring of power generation units
CN103856344B (zh) 一种告警事件信息处理方法及装置
KR102102346B1 (ko) 함정설비의 상태기반 정비지원 시스템 및 방법
CN107092654A (zh) 基于均值变化检测的报警正常与异常数据检测方法和装置
CN114168444B (zh) 一种基于监控大数据的动态运维报修方法
KR101776350B1 (ko) 압축기를 진단하는 방법 및 시스템
CN116663747B (zh) 一种基于数据中心基础设施的智能预警方法及系统
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN116345700B (zh) 一种用于储能电站的能耗监测方法及监测系统
CN115480997A (zh) 一种指标异常的告警方法、装置、电子设备及存储介质
CN114816917A (zh) 监测数据处理方法、装置、设备及存储介质
KR102108975B1 (ko) 함정설비의 상태기반 정비 지원 장치 및 방법
CN115016976A (zh) 一种根因定位方法、装置、设备及存储介质
CN109739210B (zh) 设备部件健康状态的评估方法及装置
CN112579665A (zh) 能源设备控制方法、装置及能源设备
CN117495357B (zh) 一种基于大数据的电力数据监管系统及方法
CN116011305A (zh) 水务系统故障定位方法、装置及水务系统故障定位系统
CN117171127A (zh) 一种基于大数据的数据库运维风险预警系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination