CN110247796B - 监控告警方法、装置及相关设备 - Google Patents

监控告警方法、装置及相关设备 Download PDF

Info

Publication number
CN110247796B
CN110247796B CN201910462970.6A CN201910462970A CN110247796B CN 110247796 B CN110247796 B CN 110247796B CN 201910462970 A CN201910462970 A CN 201910462970A CN 110247796 B CN110247796 B CN 110247796B
Authority
CN
China
Prior art keywords
time point
amplitude
time
variation curve
curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910462970.6A
Other languages
English (en)
Other versions
CN110247796A (zh
Inventor
谢文
严大吉
王绪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910462970.6A priority Critical patent/CN110247796B/zh
Publication of CN110247796A publication Critical patent/CN110247796A/zh
Application granted granted Critical
Publication of CN110247796B publication Critical patent/CN110247796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Alarm Systems (AREA)

Abstract

本申请实施例公开了一种监控告警方法、装置及相关设备,该方法适用于系统数据监控。该方法包括:获取性能指标变化曲线,性能指标变化曲线包括M个时间点以及M个时间点分别对应的幅值;确定第一采集周期和第二采集周期,在性能指标变化曲线上获取第一采集周期所覆盖的第一变化曲线,并获取第二采集周期所覆盖的第二变化曲线;获取第一变化曲线中幅值a1,获取第二变化曲线中幅值a2,根据幅值a1和幅值a2确定第一采集周期和第二采集周期之间的幅值变化量,若幅值变化量大于或者等于第一阈值,则触发告警。采用本申请实施例,可及时发现网络隐患或业务质量下降趋势,降低运营风险。

Description

监控告警方法、装置及相关设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种监控告警方法、装置及相关设备。
背景技术
随着信息通信网络集中运维体制改革的不断深化,网络规模的不断扩展、多业务网络的逐渐融合和新业务的加速引入给电信网络管理及维护工作带来了极大的挑战。在传统网络维护模式中,维护人员主要关注的是设备状态,判断一台设备是否运转正常,主要依赖于设备告警。然而,客户对业务的感知是非常敏感的,传统的以设备状态为中心,基于网络、设备告警的监控维护模式存在诸多问题。目前的告警监控方式通常都是在网络无法连接或设备硬件发生故障时才会进行告警,因此,针对业务质量已经有所下降但设备部件无损坏的情况,目前的告警监控方式很可能并不会发起告警,可见传统的监控维护模式是无法及时发现网络隐患或业务质量下降趋势,导致增加运营风险。
发明内容
本申请实施例提供一种监控告警方法、装置及相关设备。可及时发现网络隐患或业务质量下降趋势,降低运营风险。
第一方面,本申请实施例提供了一种监控告警方法,该方法包括:
获取针对目标设备的硬件参数的性能指标变化曲线,上述性能指标变化曲线包括M个时间点以及上述M个时间点中各个时间点分别对应的幅值;M个时间点至少包括时间点t1、时间点t2、时间点t3以及时间点t4;上述时间点t4>上述时间点t2>上述时间点t3>上述时间点t1;
根据预设的采集周期长度L和上述时间点t1确定第一采集周期,并在上述性能指标变化曲线上确定上述第一采集周期所覆盖的第一变化曲线;上述第一变化曲线的起始时间戳为上述时间点t1,上述第一变化曲线的时长长度为L;
根据上述预设的采集周期长度L和上述时间点t2确定第二采集周期,并在上述性能指标变化曲线上确定上述第二采集周期所覆盖的第二变化曲线;上述第二变化曲线的起始时间戳为上述时间点t2,上述第二变化曲线的时长长度为L;
获取上述第一变化曲线中上述时间点t3对应的幅值a1,获取上述第二变化曲线中上述时间点t4对应的幅值a2,根据上述幅值a1和上述幅值a2确定上述第一采集周期和上述第二采集周期之间的幅值变化量,若上述幅值变化量大于或者等于第一阈值,则触发针对上述目标设备的第一告警;上述时间点t3所属于的时间范围为t1至t1+L;上述时间点t4所属于的时间范围为t2至t2+L。
结合第一方面,在一种可能的实施方式中,M个时间点还包括当前时间点t5;上述方法还包括:
在上述性能指标变化曲线上获取上述当前时间点t5对应的幅值a3,若上述幅值a3大于或者等于第二阈值,则触发针对上述目标设备的第二告警。
结合第一方面,在一种可能的实施方式中,M个时间点还包括起始时间点t0;上述根据预设的采集周期长度L和上述时间点t1确定第一采集周期之前,上述方法还包括:
在上述性能指标变化曲线上获取第一时间区间;上述第一时间区间为从t0至t5-2L的范围;
在上述第一时间区间随机选取时间点tn,若时间点tn对应的幅值an大于或者等于第三阈值,则将上述时间点tn确定为时间点t1;
在上述性能指标变化曲线上获取第二时间区间;上述第二时间区间为从t1+L至t5-L的范围;
在上述第二时间区间随机选取时间点tm,若时间点tm对应的幅值am大于或者等于上述第三阈值,则将上述时间点tm确定为时间点t2。
上述结合第一方面,在一种可能的实施方式中,上述获取上述第一变化曲线中上述时间点t3对应的幅值a1,获取上述第二变化曲线中上述时间点t4对应的幅值a2,包括:
查找上述第一变化曲线上具有最大幅值的时间点t3,将上述时间点t3对应的幅值确定为幅值a1;
查找上述第二变化曲线上具有最大幅值的时间点t4,将上述时间点t4对应的幅值确定为幅值a2。
结合第一方面,在一种可能的实施方式中,上述获取上述第一变化曲线中上述时间点t3对应的幅值a1,获取上述第二变化曲线中上述时间点t4对应的幅值a2,包括:
在上述第一变化曲线上从上述时间点t1开始,将经过第一预设时长长度L1后的时间点t3对应的幅值确定为幅值a1;
在上述第二变化曲线上从上述时间点t2开始,将经过第二预设时长长度L2后的时间点t4对应的幅值确定为幅值a2。
结合第一方面,在一种可能的实施方式中,上述时间点t1小于上述时间点t2;
上述根据上述幅值a1和上述幅值a2确定上述第一采集周期和上述第二采集周期之间的幅值变化量,包括:
确定上述幅值a1和上述幅值a2之间的差值,将上述差值的绝对值确定为目标数值;
根据上述幅值a1和上述目标数值确定上述第一采集周期和上述第二采集周期之间的幅值变化量。
结合第一方面,在一种可能的实施方式中,上述性能指标变化曲线包括中央处理器CPU占用率变化曲线、内存占用率变化曲线、磁盘读写I/O变化曲线、网络带宽变化曲线、并发用户数变化曲线、在线用户数变化曲线、平均响应时间变化曲线、事务成功率变化曲线、超时错误率变化曲线。
第二方面,本申请实施例提供了一种监控告警装置,该装置包括:
获取单元,用于获取针对目标设备的硬件参数的性能指标变化曲线,上述性能指标变化曲线包括M个时间点以及上述M个时间点中各个时间点分别对应的幅值;M个时间点至少包括时间点t1、时间点t2、时间点t3以及时间点t4;上述时间点t4>上述时间点t2>上述时间点t3>上述时间点t1;
第一确定单元,用于根据预设的采集周期长度L和上述时间点t1确定第一采集周期,并在上述获取单元确定的上述性能指标变化曲线上确定上述第一采集周期所覆盖的第一变化曲线;上述第一变化曲线的起始时间戳为上述时间点t1,上述第一变化曲线的时长长度为L;
第二确定单元,用于根据预设的上述采集周期长度L和上述时间点t2确定第二采集周期,并在上述获取单元确定的上述性能指标变化曲线上确定上述第二采集周期所覆盖的第二变化曲线;上述第二变化曲线的起始时间戳为上述时间点t2,上述第二变化曲线的时长长度为L;
第一告警单元,用于获取上述第一确定单元42确定的上述第一变化曲线中上述时间点t3对应的幅值a1,获取上述第二确定单元43确定的上述第二变化曲线中上述时间点t4对应的幅值a2,根据上述幅值a1和上述幅值a2确定上述第一采集周期和上述第二采集周期之间的幅值变化量,若上述幅值变化量大于或者等于第一阈值,则触发针对上述目标设备的第一告警;上述时间点t3所属于的时间范围为t1至t1+L;上述时间点t4所属于的时间范围为t2至t2+L。
结合第二方面,在一种可能的实施方式中,M个时间点还包括当前时间点t5;上述监控告警装置还包括:
第二告警单元,用于在上述性能指标变化曲线上获取上述当前时间点t5对应的幅值a3,若上述幅值a3大于或者等于第二阈值,则触发第二告警。
结合第二方面,在一种可能的实施方式中,上述监控告警装置还包括:
处理单元,用于在上述性能指标变化曲线上获取第一时间区间;上述第一时间区间为从t0至t5-2L的范围;
在上述第一时间区间随机选取时间点tn,若时间点tn对应的幅值an大于或者等于第三阈值,则将上述时间点tn确定为时间点t1;
在上述性能指标变化曲线上获取第二时间区间;上述第二时间区间为从t1+L至t5-L的范围;
在上述第二时间区间随机选取时间点tm,若时间点tm对应的幅值am大于或者等于上述第三阈值,则将上述时间点tm确定为时间点t2。
结合第二方面,在一种可能的实施方式中,上述第一告警单元具体用于:
查找上述第一变化曲线上具有最大幅值的时间点t3,将上述时间点t3对应的幅值确定为幅值a1;
查找上述第二变化曲线上具有最大幅值的时间点t4,将上述时间点t4对应的幅值确定为幅值a2。
结合第二方面,在一种可能的实施方式中,上述第一告警单元具体用于:
在上述第一变化曲线上从上述时间点t1开始,将经过第一预设时长长度L1后的时间点t3对应的幅值确定为幅值a1;
在上述第二变化曲线上从上述时间点t2开始,将经过第二预设时长长度L2后的时间点t4对应的幅值确定为幅值a2。
结合第二方面,在一种可能的实施方式中,上述时间点t1小于上述时间点t2;上述第一告警单元具体用于:
确定上述幅值a1和上述幅值a2之间的差值,将上述差值的绝对值确定为目标数值;
根据上述幅值a1和上述目标数值确定上述第一采集周期和上述第二采集周期之间的幅值变化量。
结合第二方面,在一种可能的实施方式中,上述性能指标变化曲线包括中央处理器CPU占用率变化曲线、内存占用率变化曲线、磁盘读写I/O变化曲线、网络带宽变化曲线、并发用户数变化曲线、在线用户数变化曲线、平均响应时间变化曲线、事务成功率变化曲线、超时错误率变化曲线。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
实施本申请实施例,具有如下有益效果:
通过计算第一采集周期所覆盖的第一变化曲线中的幅值a1与第二采集周期所覆盖的第二变化曲线中的幅值a2之间的幅值变化量,可监控某项性能指标的幅值在两个采集周期内的幅值变化量,通过将幅值变化量与第一阈值进行比较,可判断是否触发告警以及时做出提醒,从而可以及时发现网络隐患或业务质量下降趋势,降低了运营风险。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的监控告警方法的一流程示意图;
图1a是本申请实施例提供的获取幅值a1和幅值a2的一个应用场景示意图;
图1b是本申请实施例提供的获取幅值a1和幅值a2的另一应用场景示意图;
图2是本申请实施例提供的监控告警方法的另一流程示意图;
图3是本申请实施例提供的监控告警方法的另一流程示意图;
图4是本申请实施例提供的监控告警装置的结构示意图;
图5是本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的监控告警方法,可广泛适用于各种利用性能指标进行故障排查和/或性能监控的终端设备。在进行性能监控时,获取目标设备在业务运行期间产生的整个时间轴上的性能指标变化曲线,其中,性能指标变化曲线的种类包括中央处理器CPU占用率变化曲线、内存占用率变化曲线、磁盘读写I/O变化曲线、网络带宽变化曲线、并发用户数变化曲线、在线用户数变化曲线、平均响应时间变化曲线、事务成功率变化曲线、超时错误率变化曲线等,具体根据实际应用场景确定,在此不做限制。这里,目标设备为本次需要进行性能监控的终端设备,比如如果本次进行性能监控的终端设备是终端设备A,则目标设备即为终端设备A,终端设备包括但不限于智能手机、台式电脑、笔记本电脑、平板电脑、自助终端、智能营销设备等,为方便描述,统一描述为终端。根据预设的采集周期长度L和时间点t1(为方便描述,下面将以第一采集时间戳为例进行说明)确定第一采集周期并在性能指标变化曲线上确定第一采集周期所覆盖的第一变化曲线,根据预设的采集周期长度L和时间点t2(为方便描述,下面将以第二采集时间戳为例进行说明)确定第二采集周期并在性能指标变化曲线上确定第二采集周期所覆盖的第二变化曲线。不难理解的是,一条性能指标变化曲线包括多个时间点以及多个时间点中各个时间点分别对应的幅值。在第一变化曲线上获取幅值a1,在第二变化曲线中获取幅值a2,并根据幅值a1和幅值a2确定第一采集周期和第二采集周期之间的幅值变化量,若幅值变化量大于或者等于第一阈值,则触发第一告警。实施本申请实施例,通过计算第一采集周期所覆盖的第一变化曲线中的幅值a1与第二采集周期所覆盖的第二变化曲线中的幅值a2之间的幅值变化量,可监控某项性能指标的幅值在两个采集周期内的幅值变化量,通过将幅值变化量与第一阈值进行比较,可确定是否触发告警以及时做出提醒,降低了运营风险。
下面将结合图1至图5分别对本申请实施例提供的方法及相关装置分别进行详细说明。本申请实施例提供的方法中可包括用于获取性能指标变化曲线、确定第一采集周期和第二采集周期、确定第一变化曲线以及第二变化曲线;确定幅值a1和幅值a2间的幅值变化量、以及判断是否触发告警等数据处理阶段。其中,上述各个数据处理阶段的实现方式可参见如下图1至图3所示的实现方式。
参见图1,图1为本申请实施例提供的监控告警方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤101至103:
101、获取性能指标变化曲线。
在一些可行的实施方式中,随着业务访问的数据量、用户量日益增加,系统规模不断扩大,复杂性不断增加,终端设备性能和服务质量显得越来越重要。尤其是对性能指标的监控,能够帮助维护人员判断终端设备是否正常运行。其中,性能指标包括但不限于中央处理器(Central Processing Unit,CPU)占用率、内存占用率、磁盘读/写(Input/Output,I/O)、网络带宽、并发用户数、在线用户数、平均响应时间、事务成功率、超时错误率等,具体可根据实际应用场景确定,在此不做限制。
在一些可行的实施方式中,业务运行期间会产生多项性能指标所对应的多条性能指标变化曲线,其中一条性能指标变化曲线能够体现一项性能指标在时间轴上随着时间变化的变动情况。于是,通过获取多条性能指标变化曲线,并对获取的多条性能指标变化曲线中的每一条性能指标变化曲线进行分析,能够了解业务系统的运营情况。不难理解的是,一条性能指标变化曲线上包括M个时间点以及M个时间点中各个时间点分别对应的幅值,其中M为大于1的整数。
102、根据预设的采集周期长度L和时间点t1确定第一采集周期,并在性能指标变化曲线上确定第一采集周期所覆盖的第一变化曲线,根据预设的采集周期长度L和时间点t2确定第二采集周期并在性能指标变化曲线上确定第二采集周期所覆盖的第二变化曲线。
在一些可行的实施方式中,获取的一条性能指标变化曲线能够体现某一项性能指标在整个时间轴上的变动情况,进而反映业务系统的运行状况。因此,如果每次都针对整个时间轴上的一条性能指标变化曲线进行分析,其数据量将会非常庞大。在本申请实施例中,通过设置采集周期长度,然后截取整个时间轴上的性能指标变化曲线中的部分性能指标变化曲线用于性能分析能够大大减少用于性能分析的数据量。于是,根据预设的采集周期长度L和时间点t1(为方便描述,下面将以第一采集时间戳为例进行说明)能够确定第一采集周期,根据第一采集周期能够在性能指标变化曲线上确定第一采集周期所覆盖的第一变化曲线,其中,第一采集时间戳为第一变化曲线的起始时间戳,第一采集时间戳可随机选取,也可以是某个指定的时间点。不难理解的是,由于单个采集周期内的性能指标变化曲线不能代表整个时间轴上的运行状况,因此如果只分析单个采集周期内的性能指标变化曲线,其结果会太过单一,因此不具备代表性。于是在本申请实施例中,为了使性能分析的结果更加准确,可获取两个采集周期内的性能指标变化曲线用于性能分析。即根据预设的采集周期长度L和时间点t2(为方便描述,下面将以第二采集时间戳为例进行说明)能够确定第二采集周期,根据第二采集周期能够在性能指标变化曲线上确定第二采集周期所覆盖的第二变化曲线,第二采集时间戳为第二变化曲线的起始时间戳。其中,选取的第一采集时间戳可以包括当前时刻或当前时刻之前的任一时刻,选取的第二采集时间戳也可包括当前时刻或当前时刻之前的任一时刻,这里,选择的第一采集时间戳和第二采集时间戳不同,一般而言,第一采集时间戳小于第二采集时间戳,即在时间轴上看,第一采集时间戳在第二采集时间戳之前。可以理解的是,第一采集周期和第二采集周期可以是连续的两个采集周期,也可以是不连续的任意两个采集周期,具体根据实际应用场景确定,在此不做限制。
举例来说,假设获取的性能指标变化曲线是CPU占用率变化曲线,通过设置采集周期为24小时,第一采集时间戳为2018-12-29 00:00:00,第二采集时间戳为2018-12-30 00:00:00,根据第一采集时间戳2018-12-29 00:00:00和采集周期24小时可在CPU占用率变化曲线上确定2018-12-29 00:00:00至2018-12-29 23:59:59时间段内的曲线为第一变化曲线。根据第一采集时间戳2018-12-30 00:00:00和采集周期24小时可在CPU占用率变化曲线上确定2018-12-29 00:00:00至2018-12-29 23:59:59时间段内的曲线为第二变化曲线。
103、获取第一变化曲线中时间点t3对应的幅值a1,获取第二变化曲线中时间点t4对应的幅值a2,根据幅值a1和幅值a2确定第一采集周期和第二采集周期之间的幅值变化量,若幅值变化量大于或者等于第一阈值,则触发第一告警。
在一些可行的实施方式中,通过查找第一变化曲线上具有最大幅值的时间点t3,可将上述时间点t3对应的幅值确定为幅值a1。通过查找第二变化曲线上具有最大幅值的时间点t4,将上述时间点t4对应的幅值确定为幅值a2。根据得到的幅值a1和幅值a2可确定第一采集周期和第二采集周期之间的幅值变化量,其中幅值变化量可以是幅值a1和幅值a2之间的差值绝对值,也可以是该差值绝对值与幅值a1的比值,具体可根据实际应用场景确定,在此不做限制。这里,若幅值变化量是差值绝对值与幅值a1的比值,则第一采集时间戳应该小于第二采集时间戳。一般而言,时间点t4>时间点t3,即在时间轴上看,时间点t3在时间点t4之前。同时,时间点t3所属于的时间范围为t1至t1+L;时间点t4所属于的时间范围为t2至t2+L,即时间点t3∈[t1,t1+L],时间点t4∈[t2至t2+L]。
在一些可行的实施方式中,在对业务性能指标的监控中,告警阈值的设置是性能指标监控的关键,如何设置合理的告警阈值,直接决定性能指标的监控效果。本申请实施例的第一阈值是根据实际运营的经验再结合业务正常状态下的值确定的。因此,可将幅值变化量与第一阈值进行比较,若幅值变化量小于第一阈值,则说明业务系统在运行过程中暂未出现异常,不会触发告警;若幅值变化量大于或者等于第一阈值,则说明业务系统在运行过程中出现异常,触发告警。参见图1a,图1a是本申请实施例提供的获取幅值a1和幅值a2的一个应用场景示意图,其中,幅值a1和幅值a2分别是第一采集周期和第二采集周期中的最大幅值,时间点t3对应幅值a1,时间点t4对应幅值a2。
可选的,在一些可行的实施方式中,在第一变化曲线上从第一采集时间戳(即时间点t1)开始,将经过第一预设时长长度L1后的时间点t3对应的幅值确定为幅值a1。在第二变化曲线上从第二采集时间戳(即时间点t2)开始,将经过第二预设时长长度L2后的时间点t4对应的幅值确定为幅值a2。根据幅值a1和幅值a2可确定第一采集周期和第二采集周期之间的幅值变化量,这里幅值变化量可以是幅值a1和幅值a2之间的差值绝对值,也可以是该差值绝对值与幅值a1的比值,具体可根据实际应用场景确定,在此不做限制。若幅值变化量大于或者等于第一阈值,则触发第一告警。这里,第一预设时长长度L1和第二预设时长长度L2可以相同,也可以不同。若第一预设时长长度L1和第二预设时长长度L2相同且采集周期长度L为24小时(即一天),则时间点t3和时间点t4为不同采集周期中的同一时刻。参见图1b,图1b是本申请实施例提供的获取幅值a1和幅值a2的另一应用场景示意图,其中,第一预设时长长度L1和第二预设时长长度L2相同,时间点t3对应幅值a1,时间点t4对应幅值a2。
举例来说,假设采集到的第一变化曲线是2018-12-29 00:00:00至2018-12-2923:59:59时间段内的CPU占用率变化曲线,第二变化曲线是2018-12-30 00:00:00至2018-12-30 23:59:59时间段内的CPU占用率变化曲线,其中CPU占用率的第一阈值为20%。设置第一变化曲线上的时间点t3为2018-12-29 18:30:00,其中2018-12-29 18:30:00对应的幅值a1为64%,设置第二变化曲线上的时间点t4为2018-12-30 18:30:00,其中2018-12-3018:30:00所对应的幅值a2为43%。将幅值a164%和幅值a243%的差值绝对值21%作为幅值变化量,由于幅值变化量21%大于第一阈值20%,说明业务系统运行时出现了异常,因此会触发告警。
又举例来说,假设采集到的第一变化曲线是2018-12-29 00:00:00至2018-12-2923:59:59时间段内的并发用户数变化曲线,第二变化曲线是2018-12-30 00:00:00至2018-12-30 23:59:59时间段内的并发用户数变化曲线,其中并发用户数的第一阈值为20%。一般情况而言,白天的12点使用手机的人数是最多的,因此,我们可以设置第一变化曲线上的时间点t3为2018-12-2912:00:00,时间点t3对应的幅值a1为495,设置第二变化曲线上的时间点t4为2018-12-30 12:00:00,时间点t4对应的幅值a2为623,将幅值a1495和幅值a2623的差值绝对值128与幅值a1495的比值26%作为幅值变化量,由于幅值变化量26%大于第一阈值20%,说明业务系统运行时出现了异常,因此会触发告警。
在本申请实施例中,在进行性能监控时,获取业务运行期间产生的性能指标变化曲线,其中,性能指标变化曲线的种类包括中央处理器CPU占用率变化曲线、内存占用率变化曲线、磁盘读写I/O变化曲线、网络带宽变化曲线、并发用户数变化曲线、在线用户数变化曲线、平均响应时间变化曲线、事务成功率变化曲线、超时错误率变化曲线等,具体根据实际应用场景确定,在此不做限制。根据预设的采集周期和第一采集时间戳可确定第一采集周期并在性能指标变化曲线上确定第一采集周期所覆盖的第一变化曲线,根据预设的采集周期和第二采集时间戳可确定第二采集周期并在性能指标变化曲线上确定第二采集周期所覆盖的第二变化曲线。不难理解的是,一条性能指标变化曲线包括多个时间点以及多个时间点中各个时间点分别对应的幅值。在第一变化曲线上获取幅值a1,在第二变化曲线中获取幅值a2,并根据幅值a1和幅值a2确定第一采集周期和第二采集周期之间的幅值变化量,若幅值变化量大于或者等于第一阈值,则触发第一告警。实施本申请实施例,通过计算第一采集周期所覆盖的第一变化曲线中的幅值a1与第二采集周期所覆盖的第二变化曲线中的幅值a2之间的幅值变化量,可监控某项性能指标的幅值在两个采集周期内的幅值变化量,通过将幅值变化量与第一阈值进行比较,可确定是否触发告警以及时做出提醒,从而可以及时发现网络隐患或业务质量下降趋势,降低了运营风险,适用性高。
参见图2,图2是本申请实施例提供的监控告警方法的另一流程示意图。本申请实施例提供的监控告警方法可通过如下步骤201至204提供的实现方式进行说明:
201、获取性能指标变化曲线。
202、根据预设的采集周期长度L和时间点t1确定第一采集周期,并在性能指标变化曲线上确定第一采集周期所覆盖的第一变化曲线,根据预设的采集周期长度L和时间点t2确定第二采集周期并在性能指标变化曲线上确定第二采集周期所覆盖的第二变化曲线。
203、获取第一变化曲线中时间点t3对应的幅值a1,获取第二变化曲线中时间点t4对应的幅值a2,根据幅值a1和幅值a2确定第一采集周期和第二采集周期之间的幅值变化量,若幅值变化量大于或者等于第一阈值,则触发第一告警。
其中,步骤201-203的具体实现过程请参见图1所对应的实施例中步骤101-103所提供的实现方式,这里不再进行赘述。
204、在性能指标变化曲线上获取当前时间点t5对应的幅值a3,若幅值a3大于或者等于第二阈值,则触发第二告警。
在一些可行的实施方式中,在整个时间轴上的性能指标变化曲线上获取当前时刻对应的幅值a3,若幅值a3大于或者等于第二阈值,则触发第二告警,若幅值a3小于第二阈值,则不会触发第二告警,其中,当前时刻即为当前时间点t5,即第二告警为实时告警。可以理解的是,第二告警和第一告警可以同时发生,也可以先后发生,即第一告警和第二告警是相互独立的,只要能够满足各自的告警条件就能触发告警。其中,告警方式包括电话告警、短信告警和/或邮件告警等,第一告警和第二告警的告警方式和/或形式可以是相同的,也可以不同,具体根据实际应用场景确定,在此不做限制。
举例来说,假设获取的性能指标变化曲线是CPU占用率变化曲线,第二阈值是60%。从CPU占用率变化曲线上获取到当前时刻对应的幅值a3是54%,由于54%小于第二阈值60%,因此不会触发第二告警。
又举例来说,假设获取的性能指标变化曲线是CPU占用率变化曲线,根据第一采集时间戳2018-12-29 00:00:00和采集周期24小时,确定的第一变化曲线是2018-12-29 00:00:00至2018-12-29 23:59:59时间段内的CPU占用率变化曲线,根据第二采集时间戳2018-12-30 00:00:00和采集周期24小时,确定的第二变化曲线是2018-12-30 00:00:00至2018-12-30 23:59:59时间段内的CPU占用率变化曲线,其中假设CPU占用率的第一阈值为20%。可将获取到的2018-12-29 12:00:00(即时间点t3)所对应的幅值64%作为幅值a1,获取到的2018-12-30 12:00:00(即时间点t4)所对应的幅值43%作为幅值a2。幅值变化量为幅值a164%和幅值a243%的差值绝对值21%,由于幅值变化量21%大于第一阈值20%,说明业务系统运行时出现了异常,因此会触发第一告警。与此同时,获取到CPU占用率变化曲线上当前时刻对应的幅值a3是64%,假设第二阈值是60%,由于幅值a364%大于第二阈值60%,因此会触发第二告警。
在本申请实施例中,在进行性能监控时,获取业务运行期间产生的整个时间轴上的性能指标变化曲线,其中,性能指标变化曲线的种类包括中央处理器CPU占用率变化曲线、内存占用率变化曲线、磁盘读写I/O变化曲线、网络带宽变化曲线、并发用户数变化曲线、在线用户数变化曲线、平均响应时间变化曲线、事务成功率变化曲线、超时错误率变化曲线等,具体根据实际应用场景确定,在此不做限制。根据预设的采集周期和第一采集时间戳确定第一采集周期并在性能指标变化曲线上确定第一采集周期所覆盖的第一变化曲线,根据预设的采集周期和第二采集时间戳确定第二采集周期并在性能指标变化曲线上确定第二采集周期所覆盖的第二变化曲线。不难理解的是,一条性能指标变化曲线包括多个时间点以及多个时间点中各个时间点分别对应的幅值。在第一变化曲线上获取幅值a1,在第二变化曲线中获取幅值a2,并根据幅值a1和幅值a2确定第一采集周期和第二采集周期之间的幅值变化量,若幅值变化量大于或者等于第一阈值,则触发第一告警。与此同时,在整个时间轴上的性能指标变化曲线上获取当前时间点t5对应的幅值a3,若幅值a3大于或者等于第二阈值,则触发第二告警。其中,第一告警和第二告警是相互独立的,只要能够满足各自的告警条件就能触发告警,且第一告警和第二告警的告警方式和/或形式可以是相同的,也可以不同,具体根据实际应用场景确定,在此不做限制。实施本申请实施例,既可以通过监控某项性能指标在两个周期中的幅值变化量确定是否触发告警,也可以通过监控某项性能指标变化曲线上的当前时刻或任意时刻对应的幅值确定是否触发告警以及时做出提醒,从而可以及时发现网络隐患或业务质量下降趋势,降低了运营风险,适用性高。
参见图3,图3是本申请实施例提供的监控告警方法的另一流程示意图。本申请实施例提供的监控告警方法可通过如下步骤301至304提供的实现方式进行说明:
301、获取性能指标变化曲线。
在一些可行的实施方式中,随着业务访问的数据量、用户量日益增加,系统规模不断扩大,复杂性不断增加,终端设备性能和服务质量显得越来越重要。尤其是对性能指标的监控,能够帮助维护人员判断终端设备是否正常运行。其中,性能指标包括但不限于中央处理器(Central Processing Unit,CPU)占用率、内存占用率、磁盘读/写(Input/Output,I/O)、网络带宽、并发用户数、在线用户数、平均响应时间、事务成功率、超时错误率等,具体可根据实际应用场景确定,在此不做限制。
在一些可行的实施方式中,业务运行期间会产生多项性能指标所对应的多条性能指标变化曲线,其中一条性能指标变化曲线能够体现一项性能指标在时间轴上随着时间变化的变动情况。于是,通过获取多条性能指标变化曲线,并对获取的多条性能指标变化曲线中的每一条性能指标变化曲线进行分析,能够了解业务系统的运营情况。不难理解的是,一条性能指标变化曲线上包括多个时间点以及多个时间点中各个时间点分别对应的幅值。
302、在第一时间区间[t0,t5-2L]内随机选取时间点tn,若时间点tn对应的幅值an大于或者等于第三阈值,则将所述时间点tn确定为时间点t1,同时在第二时间区间[t1+L,t5-L]内随机选取时间点tm,若时间点tm对应的幅值am大于或者等于所述第三阈值,则将所述时间点tm确定为时间点t2。
在一些可行的实施方式中,为了减少告警数量,还可以设置第一采集周期和/或第二采集周期的起始时间戳的确定条件。其中,设置的上述确定条件可以是当时间轴上的某个时间点所对应的幅值大于或者等于第三阈值时,则将该时间点确定为第一采集周期或第二采集周期的起始时间戳,换句话说,可将该时间点确定为时间点t1或时间点t2,其中第三阈值的大小可根据实际应用场景确定,在此不做限制。具体地,可将整个时间轴上的性能指标变化曲线的开端所对应的时刻确定为起始时间点t0,即每次打开或开始查看性能指标变化曲线的时间点即为起始时间点t0。在性能指标变化曲线上获取第一时间区间,其中第一时间区间为从t0至t5-2L的范围,当前时间点t5即为当前时刻,L为预设的采集周期长度,即第一采集周期和第二采集周期的采集周期长度。在第一时间区间内随机选取任一时间点tn,若时间点tn对应的幅值an大于或者等于第三阈值,则将时间点tn确定为时间点t1。与此同时,在性能指标变化曲线上获取第二时间区间,其中第二时间区间为从t1+L至t5-L的范围,在第二时间区间内随机选取任一时间点tm,若时间点tm对应的幅值am大于或者等于第三阈值,则将时间点tm确定为时间点t2。一般而言,时间点t1小于时间点t2,即在时间轴上看,时间点t1在时间点t2之前。
303、根据预设的采集周期长度L和时间点t1确定第一采集周期并在性能指标变化曲线上确定第一采集周期所覆盖的第一变化曲线,根据预设的采集周期长度L和时间点t2确定第二采集周期并在性能指标变化曲线上确定第二采集周期所覆盖的第二变化曲线。
在一些可行的实施方式中,获取的一条性能指标变化曲线能够体现某一项性能指标在整个时间轴上的变动情况,进而反映业务系统的运行状况。因此,如果每次都针对整个时间轴上的一条性能指标变化曲线进行分析,其数据量将会非常庞大。在本申请实施例中,通过设置采集周期长度,然后截取整个时间轴上的性能指标变化曲线中的部分性能指标变化曲线用于性能分析能够大大减少用于性能分析的数据量。于是,根据预设的采集周期长度L和时间点t1(为方便描述,下面将以第一采集时间戳为例进行说明)能够确定第一采集周期,根据第一采集周期能够在性能指标变化曲线上确定第一采集周期所覆盖的第一变化曲线,其中,第一采集时间戳为第一变化曲线的起始时间戳。不难理解的是,由于单个采集周期内的性能指标变化曲线不能代表整个时间轴上的运行状况,因此如果只分析单个采集周期内的性能指标变化曲线,其结果会太过单一,因此不具备代表性。于是在本申请实施例中,为了使性能分析的结果更加准确,可获取两个采集周期内的性能指标变化曲线用于性能分析。即根据预设的采集周期长度L和时间点t2(为方便描述,下面将以第二采集时间戳为例进行说明)能够确定第二采集周期,根据第二采集周期能够在性能指标变化曲线上确定第二采集周期所覆盖的第二变化曲线,第二采集时间戳为第二变化曲线的起始时间戳。可以理解的是,第一采集周期和第二采集周期可以是连续的两个采集周期,也可以是不连续的任意两个采集周期,具体根据实际应用场景确定,在此不做限制。
304、获取第一变化曲线中时间点t3对应的幅值a1,获取第二变化曲线中时间点t4对应的幅值a2,根据幅值a1和幅值a2确定第一采集周期和第二采集周期之间的幅值变化量,若幅值变化量大于或者等于第一阈值,则触发第一告警。
在一些可行的实施方式中,通过查找第一变化曲线上具有最大幅值的时间点t3,可将上述时间点t3对应的幅值确定为幅值a1。通过查找第二变化曲线上具有最大幅值的时间点t4,可将上述时间点t4对应的幅值确定为幅值a2。根据得到的幅值a1和幅值a2可确定第一采集周期和第二采集周期之间的幅值变化量,其中幅值变化量可以是幅值a1和幅值a2之间的差值绝对值,也可以是差值绝对值与幅值a1的比值,具体可根据实际应用场景确定,在此不做限制。可以理解的是,当幅值变化量是差值绝对值与幅值a1的比值时,第一采集时间戳应该小于第二采集时间戳。一般而言,时间点t4>时间点t3,即在时间轴上看,时间点t3在时间点t4之前。同时,时间点t3所属于的时间范围为t1至t1+L;时间点t4所属于的时间范围为t2至t2+L,即时间点t3∈[t1,t1+L],时间点t4∈[t2至t2+L]。
在一些可行的实施方式中,在对业务性能指标的监控中,告警阈值的设置是性能指标监控的关键,如何设置合理的告警阈值,直接决定性能指标的监控效果。本申请实施例的第一阈值是根据实际运营的经验再结合业务正常状态下的值确定的。将幅值变化量与第一阈值进行比较,若幅值变化量小于第一阈值,则说明业务系统在运行过程中暂未出现异常,不会触发告警;若幅值变化量大于或者等于第一阈值,则说明业务系统在运行过程中出现异常,触发告警。
可选的,在一些可行的实施方式中,在第一变化曲线上从第一采集时间戳(即时间点t1)开始,将经过第一预设时长长度L1后的时间点t3对应的幅值确定为幅值a1。在第二变化曲线上从第二采集时间戳(即时间点t2)开始,将经过第二预设时长长度L2后的时间点t4对应的幅值确定为幅值a2。根据幅值a1和幅值a2可确定第一采集周期和第二采集周期之间的幅值变化量,这里幅值变化量可以是幅值a1和幅值a2之间的差值绝对值,也可以是该差值绝对值与幅值a1的比值,具体可根据实际应用场景确定,在此不做限制。若幅值变化量大于或者等于第一阈值,则触发第一告警。这里,第一预设时长长度L1和第二预设时长长度L2可以相同,也可以不同。若第一预设时长长度L1和第二预设时长长度L2相同且采集周期长度L为24小时(即一天),则时间点t3和时间点t4为不同采集周期中的同一时刻。
举例来说,假设采集到的第一变化曲线是2018-12-29 00:00:00至2018-12-2923:59:59时间段内的并发用户数变化曲线,第二变化曲线是2018-12-30 00:00:00至2018-12-30 23:59:59时间段内的并发用户数变化曲线,其中并发用户数的第一阈值为20%。一般情况而言,白天的12点使用手机的人数是最多的,因此,我们可以设置第一变化曲线上的时间点t3为2018-12-2912:00:00,2018-12-29 12:00:00对应的幅值a1为495,设置第二变化曲线上的时间点t4为2018-12-30 12:00:00,2018-12-30 12:00:00对应的幅值a2为623,将幅值a1495和幅值a2623的差值绝对值128与幅值a1495的比值26%作为幅值变化量,由于幅值变化量26%大于第一阈值20%,说明业务系统运行时出现了异常,因此会触发告警。
在本申请实施例中,在进行性能监控时,获取业务运行期间产生的整个时间轴上的性能指标变化曲线,其中,性能指标变化曲线的种类包括中央处理器CPU占用率变化曲线、内存占用率变化曲线、磁盘读写I/O变化曲线、网络带宽变化曲线、并发用户数变化曲线、在线用户数变化曲线、平均响应时间变化曲线、事务成功率变化曲线、超时错误率变化曲线等,具体根据实际应用场景确定,在此不做限制。根据预设的采集周期和确定出的第一采集时间戳确定第一采集周期并在性能指标变化曲线上确定第一采集周期所覆盖的第一变化曲线,根据预设的采集周期和确定出的第二采集时间戳确定第二采集周期并在性能指标变化曲线上确定第二采集周期所覆盖的第二变化曲线。不难理解的是,一条性能指标变化曲线包括多个时间点以及多个时间点中各个时间点分别对应的幅值。在第一变化曲线上获取幅值a1,在第二变化曲线中获取幅值a2,并根据幅值a1和幅值a2确定第一采集周期和第二采集周期之间的幅值变化量,若幅值变化量大于或者等于第一阈值,则触发第一告警。实施本申请实施例,通过将大于或者等于第二阈值的幅值所对应的时间点确定为其中一个采集时间戳,并通过设置另一个采集时间戳以监控某项性能指标在两个采集周期内的幅值变化量,将幅值变化量与第一阈值进行比较来确定是否触发告警,从而可以及时发现网络隐患或业务质量下降趋势,降低了运营风险,适用性高。
参见图4,图4是本申请实施例提供的监控告警装置的结构示意图。本申请实施例提供的监控告警装置包括:
获取单元41,用于获取针对目标设备的硬件参数的性能指标变化曲线,上述性能指标变化曲线包括M个时间点以及上述M个时间点中各个时间点分别对应的幅值;M个时间点至少包括时间点t1、时间点t2、时间点t3以及时间点t4;上述时间点t4>上述时间点t2>上述时间点t3>上述时间点t1;
第一确定单元42,用于根据预设的采集周期长度L和上述时间点t1确定第一采集周期,并在上述获取单元41确定的上述性能指标变化曲线上确定上述第一采集周期所覆盖的第一变化曲线;上述第一变化曲线的起始时间戳为上述时间点t1,上述第一变化曲线的时长长度为L;
第二确定单元43,用于根据上述预设的采集周期长度L和上述时间点t2确定第二采集周期,并在上述获取单元41确定的上述性能指标变化曲线上确定上述第二采集周期所覆盖的第二变化曲线;上述第二变化曲线的起始时间戳为上述时间点t2,上述第二变化曲线的时长长度为L;
第一告警单元44,用于获取上述第一确定单元42确定的上述第一变化曲线中上述时间点t3对应的幅值a1,获取上述第二确定单元43确定的上述第二变化曲线中上述时间点t4对应的幅值a2,根据上述幅值a1和上述幅值a2确定上述第一采集周期和上述第二采集周期之间的幅值变化量,若上述幅值变化量大于或者等于第一阈值,则触发针对上述目标设备的第一告警;上述时间点t3所属于的时间范围为t1至t1+L;上述时间点t4所属于的时间范围为t2至t2+L。
在一些可行的实施方式中,M个时间点还包括当前时间点t5;上述监控告警装置还包括:
第二告警单元45,用于在上述性能指标变化曲线上获取上述当前时间点t5对应的幅值a3,若上述幅值a3大于或者等于第二阈值,则触发针对上述目标设备的第二告警。
在一些可行的实施方式中,M个时间点还包括起始时间点t0;上述监控告警装置还包括:
处理单元46,用于在上述性能指标变化曲线上获取第一时间区间;上述第一时间区间为从t0至t5-2L的范围;
在上述第一时间区间随机选取时间点tn,若时间点tn对应的幅值an大于或者等于第三阈值,则将上述时间点tn确定为时间点t1;
在上述性能指标变化曲线上获取第二时间区间;上述第二时间区间为从t1+L至t5-L的范围;
在上述第二时间区间随机选取时间点tm,若时间点tm对应的幅值am大于或者等于上述第三阈值,则将上述时间点tm确定为时间点t2。
在一些可行的实施方式中,上述第一告警单元44具体用于:
查找上述第一变化曲线上具有最大幅值的时间点t3,将上述时间点t3对应的幅值确定为幅值a1;
查找上述第二变化曲线上具有最大幅值的时间点t4,将上述时间点t4对应的幅值确定为幅值a2。
在一些可行的实施方式中,上述第一告警单元44具体用于:
在上述第一变化曲线上从上述时间点t1开始,将经过第一预设时长长度L1后的时间点t3对应的幅值确定为幅值a1;
在上述第二变化曲线上从上述时间点t2开始,将经过第二预设时长长度L2后的时间点t4对应的幅值确定为幅值a2。
在一些可行的实施方式中,上述时间点t1小于上述时间点t2;上述第一告警单元44具体用于:
确定上述幅值a1和上述幅值a2之间的差值,将上述差值的绝对值确定为目标数值;
根据上述幅值a1和上述目标数值确定上述第一采集周期和上述第二采集周期之间的幅值变化量。
在一些可行的实施方式中,上述性能指标变化曲线包括中央处理器CPU占用率变化曲线、内存占用率变化曲线、磁盘读写I/O变化曲线、网络带宽变化曲线、并发用户数变化曲线、在线用户数变化曲线、平均响应时间变化曲线、事务成功率变化曲线、超时错误率变化曲线。
具体实现中,上述监控告警装置可通过其内置的各个功能模块执行如上述图1至图3中各个步骤所提供的实现方式。例如,上述获取单元41可用于执行上述各个步骤中获取性能指标变化曲线等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述第一确定单元42可用于执行上述各个步骤中确定第一采集周期以及确定第一变化曲线等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述第二确定单元43可用于执行上述各个步骤中确定第二采集周期以及第二变化曲线等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述第一告警单元44可用于执行上述各个步骤中确定幅值a1和幅值a2间的幅值变化量以及判断是否触发第一告警等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述第二告警单元45可用于执行上述各个步骤中确定幅值a3以及判断是否触发第二告警等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述处理单元46可用于执行上述各个步骤中确定时间点t1和确定时间点t2等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,监控告警装置可分别基于第一采集周期和第二采集周期在整个时间轴上的性能指标变化曲线上确定上述第一采集周期所覆盖的第一变化曲线和上述第二采集周期所覆盖的第二变化曲线。不难理解的是,一条性能指标变化曲线包括多个时间点以及上述多个时间点中各个时间点分别对应的幅值。在上述第一变化曲线上获取幅值a1,在上述第二变化曲线中获取幅值a2,并根据上述幅值a1和上述幅值a2可确定上述第一采集周期和上述第二采集周期之间的幅值变化量,若上述幅值变化量大于或者等于第一阈值,则触发第一告警。实施本申请实施例,通过计算第一采集周期所覆盖的第一变化曲线中的幅值a1与第二采集周期所覆盖的第二变化曲线中的幅值a2之间的幅值变化量,可监控某项性能指标的幅值在两个采集周期内的幅值变化量,通过将上述幅值变化量与第一阈值进行比较,可确定是否要触发告警以及时做出提醒,从而可以及时发现网络隐患或业务质量下降趋势,灵活性高,适用范围广。
参见图5,图5是本申请实施例提供的终端设备的结构示意图。如图5所示,本实施例中的终端设备可以包括:一个或多个处理器501和存储器502。上述处理器501和存储器502通过总线503连接。存储器502用于存储计算机程序,该计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令,执行如下操作:
获取针对目标设备的硬件参数的性能指标变化曲线,上述性能指标变化曲线包括M个时间点以及上述M个时间点中各个时间点分别对应的幅值;M个时间点至少包括时间点t1、时间点t2、时间点t3以及时间点t4;上述时间点t4>上述时间点t2>上述时间点t3>上述时间点t1;
根据预设的采集周期长度L和上述时间点t1确定第一采集周期,并在上述性能指标变化曲线上确定上述第一采集周期所覆盖的第一变化曲线;上述第一变化曲线的起始时间戳为上述时间点t1,上述第一变化曲线的时长长度为L;
根据上述预设的采集周期长度L和上述时间点t2确定第二采集周期,并在上述性能指标变化曲线上确定上述第二采集周期所覆盖的第二变化曲线;上述第二变化曲线的起始时间戳为上述时间点t2,上述第二变化曲线的时长长度为L;
获取上述第一变化曲线中上述时间点t3对应的幅值a1,获取上述第二变化曲线中上述时间点t4对应的幅值a2,根据上述幅值a1和上述幅值a2确定上述第一采集周期和上述第二采集周期之间的幅值变化量,若上述幅值变化量大于或者等于第一阈值,则触发针对上述目标设备的第一告警;上述时间点t3所属于的时间范围为t1至t1+L;上述时间点t4所属于的时间范围为t2至t2+L。
在一些可行的实施方式中,M个时间点还包括当前时间点t5;上述处理器501用于:
在上述性能指标变化曲线上获取上述当前时间点t5对应的幅值a3,若上述幅值a3大于或者等于第二阈值,则触发针对上述目标设备的第二告警。
在一些可行的实施方式中,上述处理器501用于:
在上述性能指标变化曲线上获取第一时间区间;上述第一时间区间为从t0至t5-2L的范围;
在上述第一时间区间随机选取时间点tn,若时间点tn对应的幅值an大于或者等于第三阈值,则将上述时间点tn确定为时间点t1;
在上述性能指标变化曲线上获取第二时间区间;上述第二时间区间为从t1+L至t5-L的范围;
在上述第二时间区间随机选取时间点tm,若时间点tm对应的幅值am大于或者等于上述第三阈值,则将上述时间点tm确定为时间点t2。
在一些可行的实施方式中,上述处理器501用于:
查找上述第一变化曲线上具有最大幅值的时间点t3,将上述时间点t3对应的幅值确定为幅值a1;
查找上述第二变化曲线上具有最大幅值的时间点t4,将上述时间点t4对应的幅值确定为幅值a2。
在一些可行的实施方式中,上述处理器501用于:
在上述第一变化曲线上从上述时间点t1开始,将经过第一预设时长长度L1后的时间点t3对应的幅值确定为幅值a1;
在上述第二变化曲线上从上述时间点t2开始,将经过第二预设时长长度L2后的时间点t4对应的幅值确定为幅值a2。
在一些可行的实施方式中,上述时间点t1小于上述时间点t2;上述处理器501用于:
确定上述幅值a1和上述幅值a2之间的差值,将上述差值的绝对值确定为目标数值;
根据上述幅值a1和上述目标数值确定上述第一采集周期和上述第二采集周期之间的幅值变化量。
在一些可行的实施方式中,上述性能指标变化曲线包括中央处理器CPU占用率变化曲线、内存占用率变化曲线、磁盘读写I/O变化曲线、网络带宽变化曲线、并发用户数变化曲线、在线用户数变化曲线、平均响应时间变化曲线、事务成功率变化曲线、超时错误率变化曲线。
应当理解,在一些可行的实施方式中,上述处理器501可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器502可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失性随机存取存储器。例如,存储器502还可以存储设备类型的信息。
具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图1至图3中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,终端设备可分别基于第一采集周期和第二采集周期在整个时间轴上的性能指标变化曲线上确定上述第一采集周期所覆盖的第一变化曲线和上述第二采集周期所覆盖的第二变化曲线。不难理解的是,一条性能指标变化曲线包括多个时间点以及上述多个时间点中各个时间点分别对应的幅值。在上述第一变化曲线上获取幅值a1,在上述第二变化曲线中获取幅值a2,并根据上述幅值a1和上述幅值a2可确定上述第一采集周期和上述第二采集周期之间的幅值变化量,若上述幅值变化量大于或者等于第一阈值,则触发第一告警。实施本申请实施例,通过计算第一采集周期所覆盖的第一变化曲线中的幅值a1与第二采集周期所覆盖的第二变化曲线中的幅值a2之间的幅值变化量,可监控某项性能指标的幅值在两个采集周期内的幅值变化量,通过将上述幅值变化量与第一阈值进行比较,可确定是否要触发告警以及时做出提醒,从而可以及时发现网络隐患或业务质量下降趋势,灵活性高,适用范围广。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1至图3中各个步骤所提供的监控告警方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的监控告警装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smartmedia card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims (9)

1.一种监控告警方法,其特征在于,所述方法包括:
获取针对目标设备的硬件参数的性能指标变化曲线,所述性能指标变化曲线包括M个时间点以及所述M个时间点中各个时间点分别对应的幅值;M个时间点至少包括时间点t1、时间点t2、时间点t3以及时间点t4;所述时间点t4>所述时间点t2>所述时间点t3>所述时间点t1;所述M个时间点还包括当前时间点t5,所述M为大于1的整数;
在所述性能指标变化曲线上获取第一时间区间;所述第一时间区间为从t0至t5-2L的范围;在所述第一时间区间随机选取时间点tn,若时间点tn对应的幅值an大于或者等于第三阈值,则将所述时间点tn确定为时间点t1;在所述性能指标变化曲线上获取第二时间区间;所述第二时间区间为从t1+L至t5-L的范围;在所述第二时间区间随机选取时间点tm,若时间点tm对应的幅值am大于或者等于所述第三阈值,则将所述时间点tm确定为时间点t2;
根据预设的采集周期长度L和所述时间点t1确定第一采集周期,并在所述性能指标变化曲线上确定所述第一采集周期所覆盖的第一变化曲线;所述第一变化曲线的起始时间戳为所述时间点t1,所述第一变化曲线的时长长度为L;
根据所述预设的采集周期长度L和所述时间点t2确定第二采集周期,并在所述性能指标变化曲线上确定所述第二采集周期所覆盖的第二变化曲线;所述第二变化曲线的起始时间戳为所述时间点t2,所述第二变化曲线的时长长度为L;
获取所述第一变化曲线中所述时间点t3对应的幅值a1,获取所述第二变化曲线中所述时间点t4对应的幅值a2,根据所述幅值a1和所述幅值a2确定所述第一采集周期和所述第二采集周期之间的幅值变化量,若所述幅值变化量大于或者等于第一阈值,则触发针对所述目标设备的第一告警;所述时间点t3所属于的时间范围为t1至t1+L;所述时间点t4所属于的时间范围为t2至t2+L。
2.根据权利要求1所述方法,其特征在于,所述方法还包括:
在所述性能指标变化曲线上获取所述当前时间点t5对应的幅值a3,若所述幅值a3大于或者等于第二阈值,则触发针对所述目标设备的第二告警。
3.根据权利要求1或2所述方法,其特征在于,所述获取所述第一变化曲线中所述时间点t3对应的幅值a1,获取所述第二变化曲线中所述时间点t4对应的幅值a2,包括:
查找所述第一变化曲线上具有最大幅值的时间点t3,将所述时间点t3对应的幅值确定为幅值a1;
查找所述第二变化曲线上具有最大幅值的时间点t4,将所述时间点t4对应的幅值确定为幅值a2。
4.根据权利要求1或2所述方法,其特征在于,所述获取所述第一变化曲线中所述时间点t3对应的幅值a1,获取所述第二变化曲线中所述时间点t4对应的幅值a2,包括:
在所述第一变化曲线上从所述时间点t1开始,将经过第一预设时长长度L1后的时间点t3对应的幅值确定为幅值a1;
在所述第二变化曲线上从所述时间点t2开始,将经过第二预设时长长度L2后的时间点t4对应的幅值确定为幅值a2。
5.根据权利要求1或2所述方法,其特征在于,所述时间点t1小于所述时间点t2;
所述根据所述幅值a1和所述幅值a2确定所述第一采集周期和所述第二采集周期之间的幅值变化量,包括:
确定所述幅值a1和所述幅值a2之间的差值,将所述差值的绝对值确定为目标数值;
根据所述幅值a1和所述目标数值确定所述第一采集周期和所述第二采集周期之间的幅值变化量。
6.根据权利要求1或2所述方法,其特征在于,所述性能指标变化曲线包括中央处理器CPU占用率变化曲线、内存占用率变化曲线、磁盘读写I/O变化曲线、网络带宽变化曲线、并发用户数变化曲线、在线用户数变化曲线、平均响应时间变化曲线、事务成功率变化曲线、超时错误率变化曲线。
7.一种监控告警装置,其特征在于,所述装置包括:
获取单元,用于获取针对目标设备的硬件参数的性能指标变化曲线,所述性能指标变化曲线包括M个时间点以及所述M个时间点中各个时间点分别对应的幅值;M个时间点至少包括时间点t1、时间点t2、时间点t3以及时间点t4;所述时间点t4>所述时间点t2>所述时间点t3>所述时间点t1;所述M个时间点还包括当前时间点t5,所述M为大于1的整数;
处理单元,用于在所述性能指标变化曲线上获取第一时间区间;所述第一时间区间为从t0至t5-2L的范围;在所述第一时间区间随机选取时间点tn,若时间点tn对应的幅值an大于或者等于第三阈值,则将所述时间点tn确定为时间点t1;在所述性能指标变化曲线上获取第二时间区间;所述第二时间区间为从t1+L至t5-L的范围;在所述第二时间区间随机选取时间点tm,若时间点tm对应的幅值am大于或者等于所述第三阈值,则将所述时间点tm确定为时间点t2;
第一确定单元,用于根据预设的采集周期长度L和所述时间点t1确定第一采集周期,并在所述获取单元确定的所述性能指标变化曲线上确定所述第一采集周期所覆盖的第一变化曲线;所述第一变化曲线的起始时间戳为所述时间点t1,所述第一变化曲线的时长长度为L;
第二确定单元,用于根据所述预设的采集周期长度L和所述时间点t2确定第二采集周期,并在所述获取单元确定的所述性能指标变化曲线上确定所述第二采集周期所覆盖的第二变化曲线;所述第二变化曲线的起始时间戳为所述时间点t2,所述第二变化曲线的时长长度为L;
第一告警单元,用于获取所述第一确定单元确定的所述第一变化曲线中所述时间点t3对应的幅值a1,获取所述第二确定单元确定的所述第二变化曲线中所述时间点t4对应的幅值a2,根据所述幅值a1和所述幅值a2确定所述第一采集周期和所述第二采集周期之间的幅值变化量,若所述幅值变化量大于或者等于第一阈值,则触发针对所述目标设备的第一告警;所述时间点t3所属于的时间范围为t1至t1+L;所述时间点t4所属于的时间范围为t2至t2+L。
8.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
CN201910462970.6A 2019-05-30 2019-05-30 监控告警方法、装置及相关设备 Active CN110247796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910462970.6A CN110247796B (zh) 2019-05-30 2019-05-30 监控告警方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910462970.6A CN110247796B (zh) 2019-05-30 2019-05-30 监控告警方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN110247796A CN110247796A (zh) 2019-09-17
CN110247796B true CN110247796B (zh) 2022-09-20

Family

ID=67885663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910462970.6A Active CN110247796B (zh) 2019-05-30 2019-05-30 监控告警方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN110247796B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110650060A (zh) * 2019-10-16 2020-01-03 中国联合网络通信集团有限公司 流量告警的处理方法、设备及存储介质
CN111650346B (zh) * 2020-07-14 2021-02-12 中科三清科技有限公司 大气污染监测数据的自动审核方法、装置及电子设备
CN112346939A (zh) * 2020-11-02 2021-02-09 长沙市到家悠享网络科技有限公司 告警方法、装置、设备和存储介质
CN113468021B (zh) * 2021-06-28 2024-02-09 阿波罗智联(北京)科技有限公司 监控性能数据的方法、装置、设备以及存储介质
CN113742169B (zh) * 2021-08-13 2024-06-21 深圳前海微众银行股份有限公司 一种业务监控告警方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902437A (zh) * 2014-03-11 2014-07-02 深圳市同洲电子股份有限公司 一种检测方法及服务器
CN106557407A (zh) * 2016-11-14 2017-04-05 腾讯科技(深圳)有限公司 一种设备负载的监控方法和装置
CN107871190A (zh) * 2016-09-23 2018-04-03 阿里巴巴集团控股有限公司 一种业务指标监控方法及装置
CN109688188A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 监控告警方法、装置、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902437A (zh) * 2014-03-11 2014-07-02 深圳市同洲电子股份有限公司 一种检测方法及服务器
CN107871190A (zh) * 2016-09-23 2018-04-03 阿里巴巴集团控股有限公司 一种业务指标监控方法及装置
CN106557407A (zh) * 2016-11-14 2017-04-05 腾讯科技(深圳)有限公司 一种设备负载的监控方法和装置
CN109688188A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 监控告警方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110247796A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110247796B (zh) 监控告警方法、装置及相关设备
CN108845910B (zh) 大规模微服务系统的监控方法、装置及存储介质
CN106569585B (zh) 一种管理应用程序进程的方法及终端
CN109672582B (zh) 全路径监测方法、设备、存储介质及装置
CN110471821B (zh) 异常变更检测方法、服务器及计算机可读存储介质
CN109495291B (zh) 调用异常的定位方法、装置和服务器
CN113190423B (zh) 业务数据的监控方法、装置及系统
CN109992473A (zh) 应用系统的监控方法、装置、设备及存储介质
CN109995555A (zh) 监控方法、装置、设备及介质
CN111163073A (zh) 流量数据处理方法和装置
CN109561222A (zh) 一种语音数据的异常检测方法及装置
CN111651170B (zh) 一种实例动态调整方法、装置及相关设备
CN109559218A (zh) 一种异常交易的确定方法、装置及存储介质
CN114168420A (zh) 一种数据告警方法、系统、电子设备及存储介质
CN114022151A (zh) 区块链数据可视化方法、系统、电子设备和存储介质
CN110674149B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN114708717A (zh) 一种系统监控的关联告警方法及装置
CN105429792A (zh) 用户行为流量获取方法及装置、用户行为分析方法及系统
CN111124791A (zh) 一种系统测试方法及装置
CN112612679A (zh) 系统运行状态监控方法、装置、计算机设备和存储介质
CN110633165B (zh) 故障处理方法、装置、系统服务器及计算机可读存储介质
CN112491650A (zh) 动态分析服务之间调用环路情况的方法及相关设备
CN109710552B (zh) 总线传输质量评估方法、系统和计算机存储介质
CN116302889A (zh) 功能模块的性能测试方法、装置和服务器
KR102464688B1 (ko) 모니터링 결과의 이벤트 등급 결정 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant