CN112445685A - 一种动态更新告警阈值的方法、装置及存储介质 - Google Patents

一种动态更新告警阈值的方法、装置及存储介质 Download PDF

Info

Publication number
CN112445685A
CN112445685A CN202011358291.3A CN202011358291A CN112445685A CN 112445685 A CN112445685 A CN 112445685A CN 202011358291 A CN202011358291 A CN 202011358291A CN 112445685 A CN112445685 A CN 112445685A
Authority
CN
China
Prior art keywords
alarm
value
alarm threshold
time period
triggering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011358291.3A
Other languages
English (en)
Inventor
占书中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202011358291.3A priority Critical patent/CN112445685A/zh
Publication of CN112445685A publication Critical patent/CN112445685A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Alarm Systems (AREA)

Abstract

本发明提供了一种动态更新告警阈值的方法、装置及存储介质,该方法包括依据单一监控指标的历史告警阈值,设置单一监控指标在不同时间段的告警阈值;统计不同时间段内基于对应的告警阈值触发告警的准确率;若基于对应的告警阈值触发告警的准确率低于预设准确率,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值。本发明实施例不仅提高了单个告警阈值的准确性,减少了单个监控指标的触发告警量,还有效地避免了被监控对象因为过多告警而导致重要的隐形问题被忽略的问题。而且,单一监控指标的触发告警量下降,能够降低监控告警系统的负载,并降低监控系统告警的IT成本。

Description

一种动态更新告警阈值的方法、装置及存储介质
技术领域
本发明涉及数据监控技术领域,特别是一种动态更新告警阈值的方法、装置及存储介质。
背景技术
目前软件应用在运维过程中,监控告警是最基础也是最核心的运维工作之一,此外接收和处理监控告警也是运维工作的重要内容。现有技术中,运营人员需要不断地通过手动对告警阈值进行调整和优化,例如对业务指标告警阈值的调整和优化。此外,在软件应用的业务不同时期误告警情况也很多,基于算法的IT运维AIOPS需要手工进行确认,而无法自动识别系统是否正常、告警是否有效等,无法提高监控告警的效率和准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的动态更新告警阈值的方法、装置及存储介质,能够提高单个告警阈值的准确性,减少单个监控指标的触发告警量,而且还有效地避免了被监控对象因为过多告警而导致重要的隐形问题被忽略的问题,单一监控指标的触发告警量下降,也能够降低监控告警系统的负载,降低监控系统告警的IT成本。
根据本发明实施例的一方面,提供了一种动态更新告警阈值的方法,包括:
依据单一监控指标的历史告警阈值,设置所述单一监控指标在不同时间段的告警阈值;
统计不同时间段内基于对应的告警阈值触发告警的准确率;
若基于对应的告警阈值触发告警的准确率低于预设准确率,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值。
可选地,统计不同时间段内基于对应的告警阈值触发告警的准确率,包括:
统计不同时间段内基于对应的告警阈值触发告警的总次数;
依据触发告警的监控数值判断各时间段内每次触发告警的准确性,根据判断结果统计告警不准确的次数;
依据所述触发告警的总次数、告警不准确的次数计算不同时间段内基于对应的告警阈值触发告警的准确率。
可选地,依据所述触发告警的总次数、告警不准确的次数计算不同时间段内基于对应的告警阈值触发告警的准确率之后,还包括:
若基于对应的告警阈值触发告警的准确率低于预设准确率,分析告警不准确次数中预设比例范围内的告警是否产生于对应时间段内的一子时间段;
若是,将所述子时间段划分为独立的新时间段;
依据新时间段中告警不准确的单一监控指标的监控数值动态更新相应新时间段的告警阈值。
可选地,统计不同时间段内基于对应的告警阈值触发告警的准确率,包括:在不同时间段内,每隔预设时间间隔统计基于对应的告警阈值触发告警的准确率;
依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值,包括:若统计出的一预设时间间隔对应的子时间段的触发告警的准确率低于预设准确率,将所述子时间段划分为独立的新时间段;依据新时间段中告警不准确的单一监控指标的监控数值动态更新相应新时间段的告警阈值。
可选地,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值,包括:
获取告警不准确的单一监控指标的监控数值;
选取所述监控数值中的最大监控数值和/或最小监控数值,对最大监控数值增加预设比例和/或最小监控数值减小预设比例,得到调整后的指标数值;
利用调整后的指标数值动态更新相应时间段的告警阈值。
可选地,依据单一监控指标的历史告警阈值,设置所述单一监控指标在不同时间段的告警阈值,包括:
收集不同时间段内单一监控指标的多个历史告警阈值;
计算每个时间段内单一监控指标的多个历史告警阈值的平均值,将计算出的平均值设置为相应时间段的告警阈值;或者,从每个时间段内单一监控指标的多个历史告警阈值中选取最大值和/或最小值,将选取的最大值和/或最小值设置为相应时间段的告警阈值。
可选地,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值之后,还包括:
比较监控到的所述单一监控指标对应的监控数值与相应时间段内的告警阈值的大小;
若所述监控数值高于或低于所述告警阈值,触发告警;
将触发告警后的告警结果进行告警收敛,将告警收敛结果反馈至运维运营侧。
根据本发明实施例的另一方面,还提供了一种动态更新告警阈值的装置,包括:
设定模块,适于依据单一监控指标的历史告警阈值,设置所述单一监控指标在不同时间段的告警阈值;
统计模块,适于统计不同时间段内基于对应的告警阈值触发告警的准确率;
更新模块,适于若基于对应的告警阈值触发告警的准确率低于预设准确率,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值。
根据本发明实施例的再一方面,还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行上文任意实施例的动态更新告警阈值的方法。
根据本发明实施例的再一方面,还提供了一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行上文任意实施例的动态更新告警阈值的方法。
本发明实施例在依据单一监控指标的历史告警阈值,设置单一监控指标在不同时间段的告警阈值之后,统计不同时间段内基于对应的告警阈值触发告警的准确率,在统计出的告警准确率低于预设准确率时,能够依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值。由此,本发明实施例针对单一监控指标,依据当前告警阈值实际触发告警的准确率可以自动对不同时间段的告警阈值进行动态更新和优化,使得单一监控指标的告警阈值随时间的变化而不断变化,不仅提高了单个告警阈值的准确性,减少了单个监控指标的触发告警量,还有效地避免了被监控对象因为过多告警而导致重要的隐形问题被忽略的问题。而且,单一监控指标的触发告警量下降,能够降低监控告警系统的负载,并降低监控系统告警的IT成本。进一步地,自动化对单一告警阈值动态更新,降低了人工优化告警阈值的工作量,减少了人工配置告警阈值造成的关键告警丢失的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明一实施例的动态更新告警阈值的方法流程示意图;
图2示出了根据本发明一实施例的统计触发告警准确率的流程示意图;
图3示出了根据本发明一实施例的动态更新相应时间段的告警阈值的流程示意图;
图4示出了根据本发明一实施例的动态更新告警阈值并进行告警通知的过程示意图;
图5示出了根据本发明一实施例的动态更新告警阈值的装置结构示意图;
图6示出了根据本发明另一实施例的动态更新告警阈值的装置结构示意图;
图7示出了根据本发明再一实施例的动态更新告警阈值的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种动态更新告警阈值的方法,图1示出了根据本发明一实施例的动态更新告警阈值的方法流程示意图,参见图1,该方法包括步骤S102至步骤S106。
步骤S102,依据单一监控指标的历史告警阈值,设置单一监控指标在不同时间段的告警阈值。
在发明实施例中,单一监控指标可以包括资源、网络、CPU、业务指标等任意一项监控指标,其中,业务指标可以包括不同业务对应的监控指标,如账户登录量、页面访问量、用户下单量等等。
参见上文步骤S102,在本发明一实施例中,依据单一监控指标的历史告警阈值设置单一监控指标在不同时间段的告警阈值时,可以先收集不同时间段内单一监控指标的多个历史告警阈值。然后,计算每个时间段内单一监控指标的多个历史告警阈值的平均值,将计算出的平均值设置为相应时间段的告警阈值。
例如,对于上午6到9点、9到12点这两个时间段分别收集单一监控指标的10个历史告警阈值。然后对6到9点时间段的10个历史告警阈值求平均值,将计算得到的平均值设置为6到9点时间段的告警阈值。而且,对9到12点时间段的10个历史告警阈值也求平均值,将该平均值设置为9到12点时间段的告警阈值。由于后续需要在初始告警阈值的基础上进行告警阈值的更新优化,因此通过依据单一监控指标的历史告警阈值初始设定单一监控指标在不同时间段的告警阈值,有助于提高后续动态更新相应时间段的告警阈值的准确性。
可选地,在收集不同时间段内单一监控指标的多个历史告警阈值之后,还可以从每个时间段内单一监控指标的多个历史告警阈值中选取最大值和/或最小值,将选取的最大值和/或最小值设置为相应时间段的告警阈值。该实施例中,若历史告警条件为监控数值大于告警阈值时触发告警,则可以选取多个历史告警阈值中的最大历史告警阈值。同理,若历史告警条件为监控数值小于告警阈值时触发告警,则可以选取多个历史告警阈值中的最小历史告警阈值。若历史告警条件为监控数值超出告警阈值区间时触发告警,则可以选取多个历史告警阈值中的最大历史告警阈值和最小历史告警阈值,本发明实施例对此不作具体限定。
步骤S104,统计不同时间段内基于对应的告警阈值触发告警的准确率。
在本发明实施例中,若在9点到12点时间段内,单一监控指标CPU使用率的告警阈值为80%,若监控到的CPU使用率为81%触发了告警,通过分析CPU使用率81%不会对服务器产生不良影响,此时认为该监控数值81%为告警不准确的监控数值。通过统计不同时间段内基于对应的告警阈值触发告警的准确率,后续可以依据告警不准确的监控数值更好的对相应时间段内容的告警阈值进行更新调整。
步骤S106,若基于对应的告警阈值触发告警的准确率低于预设准确率,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值。
本发明实施例中,当基于对应的告警阈值触发告警的准确率低于预设准确率时,说明告警不准确的次数相对较多,为避免后续出现类似告警不准确的问题,可以依据告警不准确的监控数值动态更新相应时间段的告警阈值。
本发明实施例针对单一监控指标,依据当前告警阈值实际触发告警的准确率可以自动对不同时间段的告警阈值进行动态更新和优化,单一监控指标的告警阈值随时间的变化而不断优化,不仅提高了单个告警阈值的准确性,减少了单个监控指标的触发告警量,还有效地避免了被监控对象因为过多告警而导致重要的隐形问题被忽略的问题。而且,单一监控指标的触发告警量下降,能够降低监控告警系统的负载,并降低监控系统告警的IT成本。进一步地,自动对单一告警阈值进行动态更新,降低了人工优化告警阈值的工作量,减少了人工配置告警阈值造成的关键告警丢失的问题。
参见上文步骤S104,在本发明一实施例中,统计不同时间段内基于对应的告警阈值触发告警的准确率的过程具体可以包括步骤S1041至步骤S1043。
步骤S1041,统计不同时间段内基于对应的告警阈值触发告警的总次数。
步骤S1042,依据触发告警的监控数值判断各时间段内每次触发告警的准确性,根据判断结果统计告警不准确的次数。
本发明实施例中,若6到9点这段时间内触发告警的总次数为10次,依据触发告警的监控数值判断出6到9点这段时间内10次告警中每次触发告警的准确性,根据10次的判断结果统计告警不准确的次数。结合上文实施例告警不准确指的是若单一监控指标的监控数值触发了告警,但是触发告警的监控数值实际上合理的,不会对系统或业务产生不良影响,此时认为该监控数值所触发的告警不准确。
步骤S1043,依据触发告警的总次数、告警不准确的次数计算不同时间段内基于对应的告警阈值触发告警的准确率。
在每个时间段内,利用该时间段的告警不准确的次数除以触发告警的总次数既可以得到触发告警的准确率。
例如,对于单一监控指标CPU使用率。时间段6到9点的告警阈值为90%,9点至12点的告警阈值为95%。统计6到9点时间段基于告警阈值90%触发告警的总次数为10次,依据触发告警的监控数值判断出6到9点这段时间内10次告警中每次触发告警的准确性,根据判断结果统计得知有6次告警不准确,由此分析出告警准确率为0.4,若预设准确率为0.5,则准确率0.4低于预设准确率0.5,需要对6点至9点时间段的告警阈值进行更新调整,以提高告警阈值准确性,进而提高触发告警的准确性。统计9到12点时间段基于告警阈值为95%触发告警的总次数为10次,依据触发告警的监控数值判断出9到12点这段时间内10次告警中每次触发告警的准确性,根据判断结果统计得知有4次告警不准确,由此分析出告警准确率为0.6,准确率0.6高于预设准确率0.5,无需对9点至12点时间段的告警阈值更新调整。
在本发明一实施例中,对于触发告警的准确率低于预设准确率的情况,本发明实施例在执行步骤S1043依据触发告警的总次数、告警不准确的次数计算不同时间段内基于对应的告警阈值触发告警的准确率之后,还可以进一步地划分新时间段,并对划分的新时间段的告警阈值进行动态更新。
具体的,若基于对应的告警阈值触发告警的准确率低于预设准确率,分析告警不准确次数中预设比例范围内的告警是否产生于对应时间段内的一子时间段。若是,则先将子时间段划分为独立的新时间段,然后依据新时间段中告警不准确的单一监控指标的监控数值动态更新相应新时间段的告警阈值。
例如,对于时间段为9点到12点,若基于告警阈值触发告警的准确率低于预设准确率,且告警不准确总次数共有10次,其中8次不准确告警集中产生于9点到9点半的时间段,若预设比例范围为小于100%且大于60%,8次不准确告警占10次告警不准确总次的80%,位于预设比例范围内,则可以将9点到9点半这个时间段独立划分出来作为一个子时间段。并且,基于告警不准确的单一监控指标的监控数值对新时间段9点到9点半之间告警阈值进行重新设置,而时间段9点半到12点的告警阈值可以不变。
本发明实施例针对单一监控指标的告警监控,可以依据已划分时间段中告警产生不合理次数的集中时间,重新划分时间段,并对新时间段对应的单一监控指标的告警阈值进行动态更新优化,不仅可以提高单个告警阈值的准确性,减少单个监控指标的触发告警量,避免被监控对象因为过多告警而导致重要的隐形问题被忽略的问题。而且依据已划分时间段中告警产生不合理次数的集中时间重新划分时间段,还可以进一步更加合理地重新划分单一监控指标的监控时间段,使得单一监控指标的不同监控时间段也不断地进行更新优化,以使划分出的时间段更加符合实际的监控需求,有助于针对单一监控指标进行准确有效的监控告警。
本发明一实施例中,在统计不同时间段内基于对应的告警阈值触发告警的准确率时,还可以在不同时间段内,每隔预设时间间隔统计基于对应的告警阈值触发告警的准确率,若统计出的一预设时间间隔对应的子时间段的触发告警的准确率低于预设准确率,将子时间段划分为独立的新时间段,进而依据新时间段中告警不准确的单一监控指标的监控数值动态更新相应新时间段的告警阈值。例如,在9点至12点的时间段内,每隔1小时统计一次触发告警的准确率,即9点到10点半统计一次触发告警的准确率,10点到11点统计一次触发告警的准确率,11点到12点统计一次触发告警的准确率。若在10点到11点的统计结果中得到触发告警的准确率低于预设准确率,则可以直接将10点到11划分为独立的新时间段,并依据新时间段中告警不准确的单一监控指标的监控数值动态更新相应新时间段的告警阈值。
本发明实施例针对单一监控指标的告警监控,在不同时间段内每隔预设时间间隔统计基于对应的告警阈值触发告警的准确率,能够更加细致地统计出大时间段中的不同小范围时间段实际所触发告警的准确率,进而对触发告警准确率较低的时间段划分为新的时间段,以使单一监控指标的不同监控时间段不断地更新且更加细化,达到了合理有效划分单一监控指标的不同监控时间段的效果。
参见上文步骤S106,在本发明一实施例中,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值的过程具体包括步骤S1061至步骤S1063。
步骤S1061,获取当前时间段内基于当前告警阈值触发告警时单一监控指标的多个监控数值。
步骤S1062,选取多个监控数值中的最大监控数值和/或最小监控数值,对最大监控数值增加预设比例和/或最小监控数值减小预设比例,得到调整后的指标数值。
在该实施例中,若监控数值大于告警阈值时触发告警,则选取多个监控数值中的最大监控数值,并对最大监控数值增加预设比例。例如,监控指标为服务器内存占用率,获取的多个监控数值分别为80%、85%、86%,则选取监控数值86%,并对监控数值86%增加预设百分比4%,则得到的指标数值为90%。同理,若监控数值小于告警阈值时触发告警,则选取多个监控数值中的最小监控数值,对最小监控数值增加预设比例。若告警阈值包含两个,分别为第一告警阈值和第二告警阈值,触发告警条件为大于上限告警阈值时触发告警或小于下限告警阈值时触发告警,则选取多个监控数值中的最大监控数值和最小监控数值,对最大监控数值和最小监控数值分别增加预设比例。
步骤S1063,利用调整后的指标数值动态更新相应时间段的告警阈值。
本发明实施例通过对最大监控数值增加预设比例、对最小监控数值减小预设比例,使得利用调整后的指标数值动态更新相应时间段的告警阈值能够留有一定富余量,避免后续相近的监控数值再次触发不准确告警的情况。
在本发明一实施例中,在执行步骤S106依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值之后,还可以分析动态更新后的相应时间段的告警阈值是否超过预设最大上限或低于预设最小下限。若是,依据单一监控指标的监控数值重新动态更新相应时间段的告警阈值。例如,监控指标CPU使用率告警阈值的最大上限为95%,最小下限为5%,若动态更新后的告警阈值超过最大上限95%,则会对CPU造成严重的负担,影响数据处理效率,因此,需要重新设置告警阈值,以使告警阈值在最大上限为95%和最小下限为5%的范围之内。
由此,本发明实施例通过设置告警阈值的最大上限、最小下限,并将动态更新后的相应时间段的告警阈值与最大上限或最小下限进行比较,以在告警阈值超出最大上限或低于最小下限时对告警阈值重新进行调整,能够有效避免动态更新后的告警阈值过大或过小造成对监控对象的负担。
在本发明实施例中,在执行步骤S106依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值之后,若单一监控指标对应的监控数值基于更新后告警阈值触发告警,对告警结果进行告警收敛,并将告警收敛结果反馈至运维运营人员。
首先,比较监控到的单一监控指标对应的监控数值与相应时间段内的告警阈值的大小,若监控数值高于或低于告警阈值,触发告警。然后,将触发告警后的告警结果进行告警收敛,将告警收敛结果反馈至运维运营侧。
本发明实施例通过对单一监控指标的告警阈值的动态更新,节约了人工参与更新告警阈值的人力资源,提高了单个告警阈值的准确性,并减少了单个监控指标的触发告警量,进而可以在后续针对多个单一监控指标的告警结果进行收敛计算时,有效地减少收敛计算的数据量,提高告警收敛的效率以及准确性。而且还可以有效地降低监控告警系统负载,从而实现降低监控告警系统的IT成本。
在本发明实施例中,对告警结果进行告警收敛方式可以包括如下方式。
方式一、可以对多个单一监控指标的告警结果基于CMDB业务树进行组合告警收敛。例如,单一监控指标前端接口稳定性和单一监控指标后端资源,由于前端接口稳定性会影响用户的直接体验,而后端资源供内部业务人员使用,对前端业务影响不大。因此,可以设置前端接口稳定性的告警优先级为一级告警。后端资源的告警优先级为二级告警。当监控到前端接口稳定性和后端资源两个指标触发告警,则通过CMDB业务树基于指标优先级进行组合分析后,优先针对前端接口稳定性指标向运营运维侧发送告警通知,即将前端接口稳定性指标的告警通知消息作为告警收敛结果发送至运营运维侧。
方式二、基于数据算法对告警结果进行收敛。例如,单一监控指标为云主机宕机情况,如果监控到10台云主机中的3台云主机宕机并触发告警,通过计算分析得到云主机宕机率为30%,小于预设指标50%,将云主机正常的告警收敛结果发送至运营运维侧,或者不向运营运维侧发送告警收敛结果。如果监控到10台云主机中的6台云主机宕机并触发告警,通过计算分析得到云主机宕机率为60%,大于预设指标50%,将云主机宕机率大于50%的告警收敛结果发送至运营运维侧。
在本发明实施例中,告警收敛结果的通知方式包括发送邮件(MAIL)方式、发送短信息(Short Message Service,SMS)方式、电话(TEL)通知等方式,本发明实施例对此不作具体限定。
为更加清楚的体现本发明实施例,参见图4,现以一具体实施例对单一监控指标阈值的动态更新及告警通知过程进行介绍。
首先,在步骤S1设置初始告警阈值,具体设置过程可以参见上文实施例。然后,在步骤S2监控数值并触发告警,即对单一监控指标监控得到的监控数值与对应的告警阈值比较大小,例如监控数值高于或低于告警阈值时触发告警。进而执行步骤S3统计告警准确率,具体统计过程可以参见上文实施例。执行步骤S4告警准确率低于预设准确率时生成新告警阈值,并在步骤S5利用新的告警阈值动态更新原告警阈值,动态更新告警阈值后会继续基于更新后的告警阈值监控数值并触发告警。进而在步骤S6对告警结果进行告警收敛。最后执行步骤S7将告警收敛结果告警通知给运维运营侧。
基于同一发明构思,本发明实施例还提供了一种动态更新告警阈值的装置。图5示出了根据本发明一实施例的动态更新告警阈值的装置结构示意图。参见图5,动态更新告警阈值的装置包括设定模块510、统计模块520和更新模块530。
设定模块510,适于依据单一监控指标的历史告警阈值,设置单一监控指标在不同时间段的告警阈值。
统计模块520,适于统计不同时间段内基于对应的告警阈值触发告警的准确率。
更新模块530,适于若基于对应的告警阈值触发告警的准确率低于预设准确率,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值。
在本发明实施例中,统计模块520还适于统计不同时间段内基于对应的告警阈值触发告警的总次数;依据触发告警的监控数值判断各时间段内每次触发告警的准确性,根据判断结果统计告警不准确的次数;依据触发告警的总次数、告警不准确的次数计算不同时间段内基于对应的告警阈值触发告警的准确率。
参见图6,在本发明实施例中,图5所示的动态更新告警阈值的装置还包括划分模块540。划分模块540,适于若基于对应的告警阈值触发告警的准确率低于预设准确率,分析告警不准确次数中预设比例范围内的告警是否产生于对应时间段内的一子时间段;若是,将子时间段划分为独立的新时间段。更新模块530还适于依据新时间段中告警不准确的单一监控指标的监控数值动态更新相应新时间段的告警阈值。
在本发明实施例中,统计模块520还适于在不同时间段内,每隔预设时间间隔统计基于对应的告警阈值触发告警的准确率。划分模块540还适于若统计出的一预设时间间隔对应的子时间段的触发告警的准确率低于预设准确率,将子时间段划分为独立的新时间段。更新模块530还适于依据新时间段中告警不准确的单一监控指标的监控数值动态更新相应新时间段的告警阈值。
在本发明实施例中,更新模块530还适于获取告警不准确的单一监控指标的监控数值;选取监控数值中的最大监控数值和/或最小监控数值,对最大监控数值增加预设比例和/或最小监控数值减小预设比例,得到调整后的指标数值;利用调整后的指标数值动态更新相应时间段的告警阈值。
在本发明实施例中,设定模块510还适于收集不同时间段内单一监控指标的多个历史告警阈值;计算每个时间段内单一监控指标的多个历史告警阈值的平均值,将计算出的平均值设置为相应时间段的告警阈值;或者,从每个时间段内单一监控指标的多个历史告警阈值中选取最大值和/或最小值,将选取的最大值和/或最小值设置为相应时间段的告警阈值。
参见图7,在本发明实施例中,图5所示的动态更新告警阈值的装置还包括告警模块550。告警模块550适于比较监控到的单一监控指标对应的监控数值与相应时间段内的告警阈值的大小;若监控数值高于或低于告警阈值,触发告警;将触发告警后的告警结果进行告警收敛,将告警收敛结果反馈至运维运营侧。
本发明实施例还提供了一种计算机存储介质,计算机存储介质存储有计算机程序代码,当计算机程序代码在计算设备上运行时,导致计算设备执行上文任意实施例的动态更新告警阈值的方法。
本发明实施例还提供了一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当计算机程序代码被处理器运行时,导致计算设备执行上文任意实施例的动态更新告警阈值的方法。
所属领域的技术人员可以清楚地了解到,上述描述的系统、装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。

Claims (10)

1.一种动态更新告警阈值的方法,包括:
依据单一监控指标的历史告警阈值,设置所述单一监控指标在不同时间段的告警阈值;
统计不同时间段内基于对应的告警阈值触发告警的准确率;
若基于对应的告警阈值触发告警的准确率低于预设准确率,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值。
2.根据权利要求1所述的方法,其特征在于,统计不同时间段内基于对应的告警阈值触发告警的准确率,包括:
统计不同时间段内基于对应的告警阈值触发告警的总次数;
依据触发告警的监控数值判断各时间段内每次触发告警的准确性,根据判断结果统计告警不准确的次数;
依据所述触发告警的总次数、告警不准确的次数计算不同时间段内基于对应的告警阈值触发告警的准确率。
3.根据权利要求2所述的方法,其特征在于,依据所述触发告警的总次数、告警不准确的次数计算不同时间段内基于对应的告警阈值触发告警的准确率之后,还包括:
若基于对应的告警阈值触发告警的准确率低于预设准确率,分析告警不准确次数中预设比例范围内的告警是否产生于对应时间段内的一子时间段;
若是,将所述子时间段划分为独立的新时间段;
依据新时间段中告警不准确的单一监控指标的监控数值动态更新相应新时间段的告警阈值。
4.根据权利要求1-3中任一项所述的方法,其特征在于,
统计不同时间段内基于对应的告警阈值触发告警的准确率,包括:在不同时间段内,每隔预设时间间隔统计基于对应的告警阈值触发告警的准确率;
依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值,包括:若统计出的一预设时间间隔对应的子时间段的触发告警的准确率低于预设准确率,将所述子时间段划分为独立的新时间段;依据新时间段中告警不准确的单一监控指标的监控数值动态更新相应新时间段的告警阈值。
5.根据权利要求1-3中任一项所述的方法,其特征在于,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值,包括:
获取告警不准确的单一监控指标的监控数值;
选取所述监控数值中的最大监控数值和/或最小监控数值,对最大监控数值增加预设比例和/或最小监控数值减小预设比例,得到调整后的指标数值;
利用调整后的指标数值动态更新相应时间段的告警阈值。
6.根据权利要求1-3中任一项所述的方法,其特征在于,依据单一监控指标的历史告警阈值,设置所述单一监控指标在不同时间段的告警阈值,包括:
收集不同时间段内单一监控指标的多个历史告警阈值;
计算每个时间段内单一监控指标的多个历史告警阈值的平均值,将计算出的平均值设置为相应时间段的告警阈值;或者,从每个时间段内单一监控指标的多个历史告警阈值中选取最大值和/或最小值,将选取的最大值和/或最小值设置为相应时间段的告警阈值。
7.根据权利要求1-3中任一项所述的方法,其特征在于,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值之后,还包括:
比较监控到的所述单一监控指标对应的监控数值与相应时间段内的告警阈值的大小;
若所述监控数值高于或低于所述告警阈值,触发告警;
将触发告警后的告警结果进行告警收敛,将告警收敛结果反馈至运维运营侧。
8.一种动态更新告警阈值的装置,包括:
设定模块,适于依据单一监控指标的历史告警阈值,设置所述单一监控指标在不同时间段的告警阈值;
统计模块,适于统计不同时间段内基于对应的告警阈值触发告警的准确率;
更新模块,适于若基于对应的告警阈值触发告警的准确率低于预设准确率,依据告警不准确的单一监控指标的监控数值动态更新相应时间段的告警阈值。
9.一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行权利要求1-7中任一项所述的动态更新告警阈值的方法。
10.一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行权利要求1-7中任一项所述的动态更新告警阈值的方法。
CN202011358291.3A 2020-11-27 2020-11-27 一种动态更新告警阈值的方法、装置及存储介质 Pending CN112445685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011358291.3A CN112445685A (zh) 2020-11-27 2020-11-27 一种动态更新告警阈值的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011358291.3A CN112445685A (zh) 2020-11-27 2020-11-27 一种动态更新告警阈值的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112445685A true CN112445685A (zh) 2021-03-05

Family

ID=74737855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011358291.3A Pending CN112445685A (zh) 2020-11-27 2020-11-27 一种动态更新告警阈值的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112445685A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113079047A (zh) * 2021-03-29 2021-07-06 北京奇艺世纪科技有限公司 一种告警处理方法及装置
CN115426287A (zh) * 2022-09-06 2022-12-02 中国农业银行股份有限公司 一种系统监控和优化方法、装置、电子设备及介质
CN116610537A (zh) * 2023-07-20 2023-08-18 中债金融估值中心有限公司 一种数据量监控方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293323A (en) * 1991-10-24 1994-03-08 General Electric Company Method for fault diagnosis by assessment of confidence measure
CN106557401A (zh) * 2016-10-13 2017-04-05 中国铁道科学研究院电子计算技术研究所 一种it设备监控指标的动态阈值设定方法及系统
CN108984370A (zh) * 2018-07-13 2018-12-11 北京京东尚科信息技术有限公司 一种确定监控阈值的方法和装置
CN109446017A (zh) * 2018-09-03 2019-03-08 平安科技(深圳)有限公司 一种告警算法生成方法、监控系统及终端设备
CN110971444A (zh) * 2019-10-09 2020-04-07 中移(杭州)信息技术有限公司 告警管理方法、装置、服务器及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293323A (en) * 1991-10-24 1994-03-08 General Electric Company Method for fault diagnosis by assessment of confidence measure
CN106557401A (zh) * 2016-10-13 2017-04-05 中国铁道科学研究院电子计算技术研究所 一种it设备监控指标的动态阈值设定方法及系统
CN108984370A (zh) * 2018-07-13 2018-12-11 北京京东尚科信息技术有限公司 一种确定监控阈值的方法和装置
CN109446017A (zh) * 2018-09-03 2019-03-08 平安科技(深圳)有限公司 一种告警算法生成方法、监控系统及终端设备
CN110971444A (zh) * 2019-10-09 2020-04-07 中移(杭州)信息技术有限公司 告警管理方法、装置、服务器及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113079047A (zh) * 2021-03-29 2021-07-06 北京奇艺世纪科技有限公司 一种告警处理方法及装置
CN113079047B (zh) * 2021-03-29 2022-10-14 北京奇艺世纪科技有限公司 一种告警处理方法及装置
CN115426287A (zh) * 2022-09-06 2022-12-02 中国农业银行股份有限公司 一种系统监控和优化方法、装置、电子设备及介质
CN115426287B (zh) * 2022-09-06 2024-03-26 中国农业银行股份有限公司 一种系统监控和优化方法、装置、电子设备及介质
CN116610537A (zh) * 2023-07-20 2023-08-18 中债金融估值中心有限公司 一种数据量监控方法、系统、设备及存储介质
CN116610537B (zh) * 2023-07-20 2023-11-17 中债金融估值中心有限公司 一种数据量监控方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112445685A (zh) 一种动态更新告警阈值的方法、装置及存储介质
CN112188531B (zh) 异常检测方法、装置、电子设备及计算机存储介质
US20190163546A1 (en) Correlating failures with performance in application telemetry data
CN107040415B (zh) 一种终端及数据上报方法、服务器及数据接收方法
WO2022111265A1 (zh) 一种信息告警方法、设备及存储介质
US9659063B2 (en) Systems and/or methods for event stream deviation detection
CN108880845B (zh) 一种信息提示的方法以及相关装置
CN110728525B (zh) 一种网络批量用户投诉的定界处理方法及装置
US8862119B2 (en) Method and apparatus for telecommunications network performance anomaly events detection and notification
CN108809734B (zh) 网络告警根源分析方法、系统、存储介质及计算机设备
WO2019019749A1 (zh) 一种内存异常检测方法及设备
JP7235967B2 (ja) ネットワーク分析プログラム、ネットワーク分析装置及びネットワーク分析方法
CN108075913B (zh) 一种播发系统服务质量的监控方法及其系统
CN108390793A (zh) 一种分析系统稳定性的方法及装置
EP4343554A1 (en) System monitoring method and apparatus
CN111181751B (zh) 一种频闪告警派单控制方法及系统
WO2024066331A1 (zh) 网络异常检测方法、装置、电子设备及存储介质
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN109963292B (zh) 投诉预测的方法、装置、电子设备和存储介质
CN116248473A (zh) 一种信息处理方法、装置及计算机可读存储介质
US20190044797A1 (en) Method and apparatus of establishing computer network monitoring criteria
CN115914064A (zh) 网络系统服务性能评估方法、装置、计算设备和存储介质
CN113590427A (zh) 一种监控指标异常的告警方法、装置、存储介质和设备
CN116991669A (zh) 告警方法、装置、终端设备以及存储介质
CN115543671A (zh) 数据分析方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination