异常监控方法、装置以及服务器
技术领域
本说明书实施例涉及监控技术领域,尤其涉及一种异常监控方法、装置以及服务器。
背景技术
监控是整个运维乃至整个产品生命周期中最重要的一环,通过监控可以在事前及时预警发现故障,在事后提供详实的数据用于追查定位问题。随着数据化运营的全面铺开,通过对监控目标各项性能指标进行监控,可以知晓所述监控目标的运作情况。例如,通过监控某个应用程序的登陆成功率、广告点击率等性能指标,可以知晓该应用程序是否在正常运行。为了及时发现并解决问题,当监控对象的某项性能指标出现异常时,监控系统会通过短信或邮件等方式向运营人员发送告警信息。在运营人员接收的告警信息中,存在大量的无效告警,这在很大程度上牵制了运营人员处理故障的效率。因此,减少监控系统的无效告警具有重要意义。
发明内容
本说明书实施例提供及一种异常监控方法、装置以及服务器。
第一方面,本说明书实施例提供一种异常监控方法,包括:
获得目标性能指标的当前采样数据,所述目标性能指标为当前监控的性能指标;
根据所述当前采样数据判断所述目标性能指标是否出现异常;
若所述目标性能指标出现异常,则判断所述目标性能指标在预设历史时段内的变化趋势是否为由异常向正常变化,所述预设历史时段为从预设历史时间至所述当前采样数据的采样时间对应的历史时段;
若所述目标性能指标在所述预设历史时段内的变化趋势为由异常向正常变化,则对所述目标性能指标出现异常不进行告警。
第二方面,本说明书实施例提供一种异常监控装置,包括:
当前采样数据获得模块,用于获得目标性能指标的当前采样数据,所述目标性能指标为当前监控的性能指标;
第一判断模块,用于根据所述当前采样数据判断所述目标性能指标是否出现异常;
第二判断模块,用于在所述目标性能指标出现异常时,判断所述目标性能指标在预设历史时段内的变化趋势是否为由异常向正常变化,所述预设历史时段为从预设历史时间至所述当前采样数据的采样时间对应的历史时段;
第一确定模块,用于在所述目标性能指标在所述预设历史时段内的变化趋势为由异常向正常变化时,确定对所述目标性能指标出现异常不进行告警。
第三方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述异常监控方法的步骤。
第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述异常监控方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例中,将异常发现和进行告警设置为相互独立,在目标性能指标出现异常时,并不是直接针对所述目标性能指标出现异常进行告警,而是去判断所述目标性能指标在预设历史时段内的变化趋势,当所述目标性能指标在所述预设历史时段内的变化趋势为由异常向正常变化时,表明所述目标性能指标的状态正在变好,无需运营人员进行维护,因而对所述目标性能指标出现异常不进行告警,从而减少了无效告警的数量,降低监控系统的告警打扰率。
附图说明
图1为本说明书实施例的异常监控应用场景示意图;
图2为本说明书实施例的异常监控方法的流程图;
图3a-图3d为本说明书实施例的目标性能指标在预设历史时段内由异常向正常变化的变化趋势示意图;
图4为本说明书实施例的目标性能指标和相似性能指标在预设历史时段内的变化趋势示意图;
图5为本说明书实施例的异常监控服务器的结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
请参见图1,为本说明书实施例的异常监控应用场景示意图。监控目标100为被监控的对象,其可以为硬件、系统、应用程序、网络、流量、日志等;异常监控装置200通过监控所述监控目标100的各项性能指标101,对所述监控目标100的整体运作情况进行监控。所述异常监控装置200可以设置在所述监控目标100所在的系统中,也可以设置在专门的服务器中,本说明书实施例对此不进行限定。
第一方面,本说明书实施例提供一种异常监控方法。图2是所述异常监控方法的流程示意图,所述异常监控方法包括步骤S201-步骤S204。
S201,获得目标性能指标的当前采样数据,所述目标性能指标为当前监控的性能指标。
对于所述监控目标100的整体运作情况,可以通过一项以上所述性能指标101进行衡量,所述性能指标101用于表征所述监控目标100的工作性能。根据所述监控目标100的具体形态不同,所述性能指标101也不相同。以所述监控目标100为硬件终端为例,所述性能指标101可以为CPU温度、物理磁盘空间、虚拟磁盘空间以及主板温度等指标;以所述监控目标100为应用程序为例,所述性能指标101可以为登陆成功率、广告点击率等指标。
对所述监控目标100进行监控时,会按照预设时间间隔对所述性能指标101进行采样,根据所述性能指标101的当前采样数据可以对所述性能指标101的当前状态进行监控。所述预设时间间隔可以根据具体情况而定,例如,每分钟采样一次,每小时采样一次,每天采样一次,对应所述预设时间间隔为每分钟、每小时或者每天,本说明书实施例对此不进行限定。由于每项性能指标101的监控方式均相同,本说明书实施例以对所述目标性能指标进行监控为例进行说明,所述目标性能指标为当前监控的性能指标。需要说明的是,所述获得目标性能指标的当前采样数据,可以是对所述目标性能指标进行采样,获得所述当前采样数据;也可以是从其他采样装置直接接收所述当前采样数据。根据所述目标性能指标的具体形态不同,对所述目标性能指标进行采样的方式也不相同。例如,以所述监控目标100为硬件终端、所述目标性能指标为CPU温度为例,可以通过温度传感器对CPU温度进行采样。
S202,根据所述当前采样数据判断所述目标性能指标是否出现异常。
判断所述目标性能指标是否出现异常,通常是判断所述当前采样数据是否满足预设条件,所述预设条件为小于第一预设阈值、大于第二预设阈值或者位于预设区间内。若所述当前采样数据不满足所述预设条件,则可以确定所述目标性能指标出现异常。以所述目标性能指标为所述登陆成功率为例,在判断所述登陆成功率是否出现异常时,将所述登陆成功率的当前采样数据与预设百分比进行比较,若所述登陆成功率的当前采样数据小于所述预设百分比,则确定所述登陆成功率出现异常。
若所述目标性能指标出现异常,则执行步骤S203,判断所述目标性能指标在预设历史时段内的变化趋势是否为由异常向正常变化,所述预设历史时段为从预设历史时间至所述当前采样数据的采样时间对应的历史时段。
所述目标性能指标在所述预设历史时段内的变化趋势,可以根据所述当前采样数据以及与所述当前采样数据相邻的前一个以上连续采样数据获得,即通过至少两个采样数据确定所述目标性能指标的变化趋势。所述预设历史时间可根据所述预设时间间隔进行设置,只要保证在所述预设历史时段内有对所述目标性能指标进行一次以上采样即可。以所述预设时间间隔为每分钟为例,所述预设历史时间只要设置为在所述当前采样数据的采样时间之前一分钟即可。
具体地,获得所述预设历史时段内与所述当前采样数据相邻的前N个连续采样数据,N为正整数。N的取值可根据具体情况确定,在本说明书实施例中,N的取值为2。以所述目标性能指标为所述登陆成功率为例,若所述预设时间间隔为每分钟且所述当前采样数据的采样时间为10:05,则获得所述登陆成功率在10:04的采样数据以及所述登陆成功率在10:03的采样数据。
判断|xn-xth|是否不小于|xn-1-xth|,xn为位于所述当前采样数据之前的第n个采样数据,xn-1为位于所述当前采样数据之前的第n-1个采样数据,xth为所述第一预设阈值、所述第二预设阈值、所述预设区间的下限或者所述预设区间的上限,1≤n≤N,x0为所述当前采样数据。当所述预设条件为小于所述第一预设阈值时,xth为所述第一预设阈值;当所述预设条件为大于所述第二预设阈值时,xth为所述第二预设阈值;当所述预设条件为位于所述预设区间内时,xth为所述预设区间的下限或者所述预设区间的上限。仍以所述目标性能指标为所述登陆成功率为例,所述当前采样数据为x0,所述登陆成功率在10:04的采样数据为x1,所述登陆成功率在10:03的采样数据为x2,所述预设百分比为xth,则判断|x2-xth|是否不小于|x1-xth|以及|x1-xth|是否不小于|x0-xth|。
若|xn-xth|不小于|xn-1-xth|,则所述目标性能指标在所述预设历史时段内的变化趋势为由异常向正常变化。仍以所述目标性能指标为所述登陆成功率为例,所述预设百分比为80%,所述当前采样数据为70%:
若所述登陆成功率在10:04的采样数据为60%,所述登陆成功率在10:03的采样数据为40%,所述目标性能指标在所述预设历史时段内的变化趋势如图3a所示,由于|40%-80%|>|60%-80%|>|70%-80%|,因而所述目标性能指标在所述预设历史时段内由异常向正常变化;
若所述登陆成功率在10:04的采样数据为60%,所述登陆成功率在10:03的采样数据为60%,所述目标性能指标在所述预设历史时段内的变化趋势如图3b所示,由于|60%-80%|=|60%-80%|>|70%-80%|,因而所述目标性能指标在所述预设历史时段内由异常向正常变化;
若所述登陆成功率在10:04的采样数据为70%,所述登陆成功率在10:03的采样数据为40%,所述目标性能指标在所述预设历史时段内的变化趋势如图3c所示,由于|40%-80%|>|70%-80%|=|70%-80%|,因而所述目标性能指标在所述预设历史时段内由异常向正常变化;
若所述登陆成功率在10:04的采样数据为70%,所述登陆成功率在10:03的采样数据为70%,所述目标性能指标在所述预设历史时段内的变化趋势如图3d所示,由于|70%-80%|=|70%-80%|=|70%-80%|,因而所述目标性能指标在所述预设历史时段内由异常向正常变化。
若所述目标性能指标在所述预设历史时段内的变化趋势为由异常向正常变化,则执行步骤S204,对所述目标性能指标出现异常不进行告警。
所述目标性能指标在所述预设历史时段内的变化趋势为由异常向正常变化,表明所述目标性能指标的状态正在变好,无需运营人员进行维护,因而对所述目标性能指标出现异常不进行告警,准备对所述目标性能指标的下一次采样数据进行监控。本说明书实施例通过判断所述目标性能指标在所述预设历史时段内的变化趋势,当所述目标性能指标在所述预设历史时段内的变化趋势为由异常向正常变化时不进行告警,因而减少了无效告警的数量,降低了监控系统的告警打扰率。
在一个可选实现方式中,在所述判断所述目标性能指标在预设历史时段内的变化趋势是否为由异常向正常变化之后,本说明书实施例还包括步骤S205和步骤S206。
若所述目标性能指标在所述预设历史时段内的变化趋势不为由异常向正常变化,则执行步骤S205,判断是否存在相似性能指标,所述相似性能指标在所述预设历史时段内的变化趋势与所述目标性能指标在所述预设历史时段内的变化趋势相同。
所述目标性能指标在所述预设历史时段内的变化趋势不为由异常向正常变化,表明所述目标性能指标的状态正在变差,即所述目标性能指标在所述预设历史时段内的变化趋势为由正常向异常变化。如前所述,对于所述监控目标100的运作情况,可以通过一项以上性能指标进行衡量。当同时监控所述监控目标100的多项性能指标时,有些性能指标可能存在相似性,即某项性能指标出现异常时,相似的性能指标也会出现异常。所述相似性能指标在所述预设历史时段内的变化趋势获得方法,与所述目标性能指标在所述预设历史时段内的变化趋势获得方法类似,即根据所述相似性能指标的当前采样数据以及与所述相似性能指标的当前采样数据相邻的前一个以上连续采样数据获得。所述相似性能指标在所述预设历史时段内的变化趋势与所述目标性能指标在所述预设历史时段内的变化趋势相同,由于所述目标性能指标为由正常向异常变化,因而所述相似性能指标也是由正常向异常变化。
仍以所述目标性能指标为所述登陆成功率为例,若所述登陆成功率和应用程序的广告点击率在所述预设历史时段内的变化趋势如图4所示,所述登陆成功率和所述广告点击率均由正常向异常变化,且所述广告点击率在所述预设历史时段内的变化趋势与所述登陆成功率在所述预设历史时段内的变化趋势相同,因而确定所述广告点击率为所述登陆成功率的相似指标。
若存在所述相似性能指标,则执行步骤S206,判断在所述当前采样数据的采样时间之后是否已对所述相似性能指标进行告警。通过判断是否存在所述相似性能指标,在存在所述相似性能指标且在所述当前采样数据的采样时间之后已对所述相似性能指标进行告警时,对所述目标性能指标出现异常不进行告警,可以进一步降低监控系统的告警打扰率。
针对每次历史告警,都会产生相应的告警信息,所有历史告警的告警信息形成历史告警池。通过在所述历史告警池中进行查找,可以判断在所述当前采样数据的采样时间之后是否已对所述相似性能指标进行告警。
若在所述当前采样数据的采样时间之后已对所述相似性能指标进行告警,则执行步骤S204,对所述目标性能指标出现异常不进行告警。
在一个可选实现方式中,在所述判断是否存在相似性能指标之后,本说明书实施例还包括步骤S207。
若不存在所述相似性能指标,或者存在所述相似性能指标但在所述当前采样数据的采样时间之后未对所述相似性能指标进行告警,则执行步骤S207,判断用户是否已对所述目标性能指标出现异常进行响应。
所述用户为负责维护所述监控目标100的运营人员,通过监控所述用户的操作行为,可以判断所述用户是否已对所述目标性能指标出现异常进行响应。
若所述用户已对所述目标性能指标出现异常进行响应,则执行步骤S204,对所述目标性能指标出现异常不进行告警。所述用户已对所述目标性能指标出现异常进行响应,表明所述用户已知晓所述目标性能指标出现异常,因而对所述目标性能指标出现异常不进行告警,进一步降低监控系统的告警打扰率。
在一个可选实现方式中,在所述判断用户是否已对所述目标性能指标出现异常进行响应之后,本说明书实施例还包括步骤S208。
若所述用户未对所述目标性能指标出现异常进行响应,则执行步骤S208,对所述目标性能指标出现异常进行告警。
所述对所述目标性能指标出现异常进行告警,可以通过邮件、短信、对话框以及即时通信中的一种或多种组合将告警信息发送给所述用户。进一步,所述告警信息还可以包括所述目标性能指标出现异常的异常等级,所述异常等级可以根据所述当前采样数据获得。例如,以所述预设条件为小于所述第一预设阈值且所述第一预设阈值为10为例,若所述当前采样数据为1000,则所述异常等级可以标定为高等级;若所述当前采样数据为100,则所述异常等级可以标定为中等级;若所述当前采样数据为30,则所述异常等级可以标定为低等级。
第二方面,基于同一发明构思,本说明书实施例提供一种异常监控装置,包括:
当前采样数据获得模块,用于获得目标性能指标的当前采样数据,所述目标性能指标为当前监控的性能指标;
第一判断模块,用于根据所述当前采样数据判断所述目标性能指标是否出现异常;
第二判断模块,用于在所述目标性能指标出现异常时,判断所述目标性能指标在预设历史时段内的变化趋势是否为由异常向正常变化,所述预设历史时段为从预设历史时间至所述当前采样数据的采样时间对应的历史时段;
第一确定模块,用于在所述目标性能指标在所述预设历史时段内的变化趋势为由异常向正常变化时,确定对所述目标性能指标出现异常不进行告警。
在一种可选实现方式中,所述第一判断模块包括:
第一判断单元,用于判断所述当前采样数据是否满足预设条件,所述预设条件为小于第一预设阈值、大于第二预设阈值或者位于预设区间内;
第一确定单元,用于在所述当前采样数据不满足所述预设条件时,确定所述目标性能指标出现异常。
在一种可选实现方式中,所述第二判断模块包括:
历史采样数据获得单元,用于获得所述预设历史时段内与所述当前采样数据相邻的前N个连续采样数据,N为正整数;
第二判断单元,用于判断|xn-xth|是否不小于|xn-1-xth|,xn为位于所述当前采样数据之前的第n个采样数据,xn-1为位于所述当前采样数据之前的第n-1个采样数据,xth为所述第一预设阈值、所述第二预设阈值、所述预设区间的下限或者所述预设区间的上限,1≤n≤N,x0为所述当前采样数据;
第二确定单元,用于在|xn-xth|不小于|xn-1-xth|时,所述目标性能指标在所述预设历史时段内的变化趋势为由异常向正常变化。
在一种可选实现方式中,所述异常监控装置还包括:
第三判断模块,用于在所述目标性能指标在所述预设历史时段内的变化趋势不为由异常向正常变化时,判断是否存在相似性能指标,所述相似性能指标在所述预设历史时段内的变化趋势与所述目标性能指标在所述预设历史时段内的变化趋势相同;
第四判断模块,用于在存在所述相似性能指标时,判断在所述当前采样数据的采样时间之后是否已对所述相似性能指标进行告警;
第二确定模块,用于在所述当前采样数据的采样时间之后已对所述相似性能指标进行告警时,确定对所述目标性能指标出现异常不进行告警。
在一种可选实现方式中,所述异常监控装置还包括:
第五判断模块,用于在不存在所述相似性能指标时,或者存在所述相似性能指标但在所述当前采样数据的采样时间之后未对所述相似性能指标进行告警时,判断用户是否已对所述目标性能指标出现异常进行响应;
第三确定模块,用于在所述用户已对所述目标性能指标出现异常进行响应时,确定对所述目标性能指标出现异常不进行告警。
在一种可选实现方式中,所述异常监控装置还包括:
第四确定模块,用于在所述用户未对所述目标性能指标出现异常进行响应时,确定对所述目标性能指标出现异常进行告警。
在一种可选实现方式中,所述对所述目标性能指标出现异常进行告警包括:
通过邮件、短信、对话框以及即时通信中的一种或多种组合将告警信息发送给所述用户。
在一种可选实现方式中,所述告警信息包括异常等级,所述异常监控装置还包括:
异常等级获得模块,用于在所述目标性能指标出现异常时,根据所述当前采样数据获得所述异常等级。
第三方面,基于与前述实施例中异常监控方法同样的发明构思,本发明还提供一种服务器,如图5所示,包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序,所述处理器502执行所述程序时实现前述异常监控方法的步骤。
其中,在图5中,总线架构(用总线500来代表),总线500可以包括任意数量的互联的总线和桥,总线500将包括由处理器502代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口505在总线500和接收器501和发送器503之间提供接口。接收器501和发送器503可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器502负责管理总线500和通常的处理,而存储器504可以被用于存储处理器502在执行操作时所使用的数据。
第四方面,基于与前述实施例中互联网交易定位的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述异常监控方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。