CN105450454B - 一种服务监控告警方法以及装置 - Google Patents

一种服务监控告警方法以及装置 Download PDF

Info

Publication number
CN105450454B
CN105450454B CN201510881613.5A CN201510881613A CN105450454B CN 105450454 B CN105450454 B CN 105450454B CN 201510881613 A CN201510881613 A CN 201510881613A CN 105450454 B CN105450454 B CN 105450454B
Authority
CN
China
Prior art keywords
parameter
anomaly parameter
calculation
monitored system
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510881613.5A
Other languages
English (en)
Other versions
CN105450454A (zh
Inventor
陈帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN201510881613.5A priority Critical patent/CN105450454B/zh
Publication of CN105450454A publication Critical patent/CN105450454A/zh
Application granted granted Critical
Publication of CN105450454B publication Critical patent/CN105450454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例公开了一种服务监控告警方法以及装置,其中方法包括:在当前的采样周期内,获取被监控系统的服务状态;基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数;当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作;其中,所述历史异常参数是在上一个采样周期内基于所述参数计算方式所计算出的用于衡量所述被监控系统的异常指标的异常参数。采用本发明,可提高告警数据的准确度和可靠性。

Description

一种服务监控告警方法以及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种服务监控告警方法以及装置。
背景技术
在目前的互联网中,各式各样的服务都需要使用监控系统来保障业务正常运转,集中的监控系统在互联网中扮演越来越重要的角色。目前,主要使用SNMP TRAP(SimpleNetwork Management Protocol Trap,简单网络管理协议陷阱)等方式对被监控系统进行监控,这些现有的监控方式都是在出现异常时直接进行告警,但是对于一些不严重且可以由被监控系统自动恢复的异常(即可以不需要告警的异常),现有的监控方式依然会立即发起告警,即现有的监控方式并没有将被监控系统本身的异常恢复能力考虑在内,从而降低了告警数据的准确度和可靠性。
发明内容
本发明实施例提供一种服务监控告警方法以及装置,可提高告警数据的准确度和可靠性。
本发明实施例提供了一种服务监控告警方法,包括:
在当前的采样周期内,获取被监控系统的服务状态;
基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数;
当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作;
其中,所述历史异常参数是在上一个采样周期内基于所述参数计算方式所计算出的用于衡量所述被监控系统的异常指标的异常参数。
相应地,本发明实施例还提供了一种服务监控告警装置,包括:
获取模块,用于在当前的采样周期内,获取被监控系统的服务状态;
参数计算模块,用于基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数;
告警模块,用于当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作;
其中,所述历史异常参数是在上一个采样周期内基于所述参数计算方式所计算出的用于衡量所述被监控系统的异常指标的异常参数。
本发明实施例通过在当前的采样周期内获取被监控系统的服务状态,并基于服务状态对应的参数计算方式,可以对被监控系统对应的历史异常参数进行计算,以得到当前异常参数,并在当前异常参数超过预设的参数阈值时,可以对被监控系统进行告警操作,由此可见,通过每次采样到的服务状态控制异常参数进行相应变化,可以控制告警触发时机,即可以在异常参数未达到参数阈值时不触发告警,以向被监控系统提供自动恢复的时间,而在异常参数达到参数阈值时,说明此时的被监控系统出现异常的次数和频率比较高,因此,在此时触发告警可以提高告警数据的准确度和可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种服务监控告警方法的流程示意图;
图2是本发明实施例提供的另一种服务监控告警方法的流程示意图;
图2a是本发明实施例提供的一种异常参数的变化示意图;
图2b是本发明实施例提供的另一种异常参数的变化示意图;
图2c是本发明实施例提供的又一种异常参数的变化示意图;
图3是本发明实施例提供的一种服务监控告警装置的结构示意图;
图4是本发明实施例提供的一种参数计算模块的结构示意图;
图5是本发明实施例提供的一种异常确定计算单元的结构示意图;
图6是本发明实施例提供的一种正常确定计算单元的结构示意图;
图7是本发明实施例提供的一种告警模块的结构示意图;
图8是本发明实施例提供的另一种服务监控告警装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种服务监控告警方法的流程示意图,所述方法可以包括:
S101,在当前的采样周期内,获取被监控系统的服务状态;
具体的,一种应用于监控系统的服务器可以在当前的采样周期内,获取被监控系统的服务状态。所述服务器通过预设所述采样周期,可以定时采集所述服务状态,即每隔一个采样周期可以发起一个采样请求以获取所述服务状态。所述服务状态可以指所述被监控系统的工作状态,具体可以包括异常状态和正常状态。例如,若预设所述采样周期为1分钟,则所述服务器可以每隔1分钟采集一次所述服务状态。
S102,基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数;
具体的,当检测到所述服务状态为异常状态时,说明所述被监控系统当前出现异常,此时,可以确定所述异常状态对应的参数计算方式为递增计算方式,并基于所述递增计算方式对所述历史异常参数进行计算,以得到当前异常参数。其中,所述历史异常参数是在上一个采样周期内基于所述参数计算方式所计算出的用于衡量所述被监控系统的异常指标的异常参数,即当在下一个采样周期内时可以将所述当前异常参数作为新的历史异常参数。其中,所述递增计算方式对应的计算公式可以包括:当所述历史异常参数不为最小值时,所述当前异常参数=所述历史异常参数*递增系数;当所述历史异常参数为最小值时,所述当前异常参数=初始异常值。例如,若预设所述递增系数为2,所述初始异常值为4,异常参数的最小值为0,则当所述历史异常参数为8时,所述当前异常参数=8*2=16;又当所述历史异常参数为0时,所述当前异常参数=所述初始异常值=4。
当检测到所述服务状态为正常状态时,说明所述被监控系统当前正常工作,此时,可以确定所述正常状态对应的参数计算方式为递减计算方式,并基于所述递减计算方式对所述历史异常参数进行计算,以得到当前异常参数。其中,所述递减计算方式对应的计算公式可以包括:当所述历史异常参数不为最小值时,所述当前异常参数=所述历史异常参数-所述初始异常值;当所述历史异常参数为最小值时,所述当前异常参数=所述历史异常参数,所述递减计算方式中的初始异常值与所述递增计算方式中的初始异常值相同。例如,若预设所述初始异常值为4,异常参数的最小值为0,则当所述历史异常参数为8时,所述当前异常参数=8-4=4;又当所述历史异常参数为0时,所述当前异常参数=0。
其中,所述历史异常参数和所述当前异常参数可以统称为异常参数,通过每个采样周期所获取到的服务状态,可以计算出每个采样周期所对应的异常参数,以感知所述异常参数的连续变化。在开始对所述被监控系统进行监控时,可以将所述异常参数设为默认值(如最小值),例如,在第一个采样周期中,可以设置所述历史异常参数为所述默认值。其中,当所述异常参数为最小值时,说明所述被监控系统完全正常;当所述异常参数不为最小值时,说明所述被监控系统存在异常问题,所述异常参数越大,则所述被监控系统存在的异常问题越严重。
S103,当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作;
具体的,所述服务器计算出所述当前异常参数后,可以检测所述当前异常参数是否超过预设的参数阈值,若检测为所述当前异常参数超过所述参数阈值,则说明所述被监控系统存在的异常问题比较严重,此时,可以对所述被监控系统进行告警操作,从而保证了告警数据的准确性和可靠性。若检测为所述当前异常参数未超过所述参数阈值,则说明所述被监控系统存在的异常问题不算太严重,此时,将不触发告警操作,以向所述被监控系统提供自动恢复的时间,若所述被监控系统开始自动恢复,且检测出后续连续采集到的若干个服务状态均为正常状态,则可以通过所述递减计算方式以不断降低所述异常参数的数值,以表明所述被监控系统正在恢复正常,可见本发明实施例所提供的监控方法可以将所述被监控系统本身的异常恢复能力考虑在内。由于避免了一出现异常就告警,所以可以保障监控人员可以更高效地处理所述被监控系统中的异常和错误。
本发明实施例通过在当前的采样周期内获取被监控系统的服务状态,并基于服务状态对应的参数计算方式,可以对被监控系统对应的历史异常参数进行计算,以得到当前异常参数,并在当前异常参数超过预设的参数阈值时,可以对被监控系统进行告警操作,由此可见,通过每次采样到的服务状态控制异常参数进行相应变化,可以控制告警触发时机,即可以在异常参数未达到参数阈值时不触发告警,以向被监控系统提供自动恢复的时间,而在异常参数达到参数阈值时,说明此时的被监控系统出现异常的次数和频率比较高,因此,在此时触发告警可以提高告警数据的准确度和可靠性。
再请参见图2,是本发明实施例提供的另一种服务监控告警方法的流程示意图,所述方法可以包括:
S201,在当前的采样周期内,获取被监控系统的服务状态;
具体的,一种应用于监控系统的服务器可以在当前的采样周期内,获取被监控系统的服务状态。所述服务器通过预设所述采样周期,可以定时采集所述服务状态,即每隔一个采样周期可以发起一个采样请求以获取所述服务状态。所述服务状态可以指所述被监控系统的工作状态,具体可以包括异常状态和正常状态。例如,若预设所述采样周期为1分钟,则所述服务器可以每隔1分钟采集一次所述服务状态。
S202,当检测到所述服务状态为异常状态时,确定所述异常状态对应的参数计算方式为递增计算方式;
具体的,当检测到所述服务状态为异常状态时,说明所述被监控系统当前出现异常,此时,可以确定所述异常状态对应的参数计算方式为递增计算方式。其中,所述递增计算方式所涉及的预设计算参数包括预设的递增系数以及预设的初始异常值。
S203,判断所述历史异常参数是否为最小值;
具体的,所述服务器确定出所述递增计算方式后,可以判断所述历史异常参数是否为最小值;所述最小值可以为零。其中,所述历史异常参数是在上一个采样周期内基于所述参数计算方式所计算出的用于衡量所述被监控系统的异常指标的异常参数,即当在下一个采样周期内时可以将当前异常参数作为新的历史异常参数。
S204,基于所述递增计算方式,将所述初始异常值作为当前异常参数;
具体的,若S203判断为是,则可以基于所述递增计算方式,将所述初始异常值作为当前异常参数。
S205,基于所述递增计算方式,对所述历史异常参数和所述递增系数进行相乘,以得到当前异常参数;
具体的,若S203判断为否,则可以基于所述递增计算方式,对所述历史异常参数和所述递增系数进行相乘,以得到当前异常参数。
其中,所述递增计算方式对应的计算公式可以包括:当所述历史异常参数不为最小值时,所述当前异常参数=所述历史异常参数*递增系数;当所述历史异常参数为最小值时,所述当前异常参数=初始异常值。例如,若预设所述递增系数为2,所述初始异常值为4,异常参数的最小值为0,则当所述历史异常参数为8时,所述当前异常参数=8*2=16;又当所述历史异常参数为0时,所述当前异常参数=所述初始异常值=4。
S206,当检测到所述服务状态为正常状态时,确定所述正常状态对应的参数计算方式为递减计算方式;
具体的,当检测到所述服务状态为正常状态时,说明所述被监控系统当前正常工作,此时,可以确定所述正常状态对应的参数计算方式为递减计算方式。所述递减计算方式所涉及的预设计算参数包括所述初始异常值,所述递减计算方式中的初始异常值与所述递增计算方式中的初始异常值相同。
S207,判断所述历史异常参数是否为最小值;
S208,基于所述递减计算方式,将所述历史异常参数作为当前异常参数;
具体的,若S207判断为是,则可以基于所述递减计算方式,将所述历史异常参数作为当前异常参数。
S209,基于所述递减计算方式,对所述历史异常参数和所述初始异常值进行相减,以得到当前异常参数;
具体的,若S207判断为否,则可以基于所述递减计算方式,对所述历史异常参数和所述初始异常值进行相减,以得到当前异常参数。
其中,所述递减计算方式对应的计算公式可以包括:当所述历史异常参数不为最小值时,所述当前异常参数=所述历史异常参数-所述初始异常值;当所述历史异常参数为最小值时,所述当前异常参数=所述历史异常参数。例如,若预设所述初始异常值为4,异常参数的最小值为0,则当所述历史异常参数为8时,所述当前异常参数=8-4=4;又当所述历史异常参数为0时,所述当前异常参数=0。
其中,所述历史异常参数和所述当前异常参数可以统称为异常参数,通过每个采样周期所获取到的服务状态,可以计算出每个采样周期所对应的异常参数,以感知所述异常参数的连续变化。在开始对所述被监控系统进行监控时,可以将所述异常参数设为默认值(如最小值),例如,在第一个采样周期中,可以设置所述历史异常参数为所述默认值。其中,当所述异常参数为最小值时,说明所述被监控系统完全正常;当所述异常参数不为最小值时,说明所述被监控系统存在异常问题,所述异常参数越大,则所述被监控系统存在的异常问题越严重。
又例如,预设所述初始异常值为4,所述递增系数为2,异常参数的最小值为0,若在第三个采样周期中所采集到的所述服务状态为异常状态,且第二个采样周期中所计算出的异常参数为8,则可以计算出第三个采样周期中的异常参数为8*2=16;若在第四个采样周期中采集到的所述服务状态为正常状态,则可以计算出第四个采样周期中的异常参数为16-4=12;若在第五个采样周期中采集到的所述服务状态为异常状态,则可以计算出第五个采样周期中的异常参数为12*2=24,由此可见,从第二个采样周期到第五个采样周期中,所述异常参数的变化为8→16→12→24。
S210,当所述当前异常参数超过预设的参数阈值时,获取上一次对所述被监控系统进行告警操作的历史时间戳,并根据所述历史时间戳与当前时间戳计算告警间隔时长;
具体的,所述服务器计算出所述当前异常参数后,可以检测所述当前异常参数是否超过预设的参数阈值,若检测为所述当前异常参数超过所述参数阈值,则说明所述被监控系统存在的异常问题比较严重,此时,进一步获取上一次对所述被监控系统进行告警操作的历史时间戳,并根据所述历史时间戳与当前时间戳计算告警间隔时长。例如,若上一次进行告警操作的历史时间戳处于第三个采样周期,且当前时间戳处于第7个采样周期,则可以计算出所述告警间隔时长为4个采样周期的总时长。
进一步的,若检测为所述当前异常参数未超过所述参数阈值,则说明所述被监控系统存在的异常问题不算太严重,此时,将不触发告警操作,以向所述被监控系统提供自动恢复的时间,若所述被监控系统开始自动恢复,且检测出后续连续采集到的若干个服务状态均为正常状态,则可以通过所述递减计算方式以不断降低所述异常参数的数值,以表明所述被监控系统正在恢复正常,可见本发明实施例所提供的监控方法可以将所述被监控系统本身的异常恢复能力考虑在内。由于避免了一出现异常就告警,所以可以保障监控人员可以更高效地处理所述被监控系统中的异常和错误。
S211,当检测到所述告警间隔时长大于预设的时长阈值时,对所述被监控系统进行告警操作;
具体的,当检测到所述告警间隔时长大于预设的时长阈值时,可以对所述被监控系统进行告警操作。当检测到所述告警间隔时长小于或等于预设的时长阈值时,也不触发告警操作,从而可以避免一段时间内同一个被监控系统的异常重复告警。
再请一并参见图2a至图2c,分别为本发明实施例提供的一种异常参数的变化示意图。如图2a所示,可知预设的参数阈值为30,在第一个采样周期到第五个采样周期中,所获取到的服务状态始终为异常状态,因此,通过指数逻辑增长,可以保证所述异常参数可以快速的超过所述参数阈值以实现快速告警,即在第五个采样周期中即可计算出所述异常参数超过所述参数阈值,从而在第五个采样周期中进行告警。如图2b所示,可知预设的参数阈值为30,在第一个采样周期到第四个采样周期中,所获取到的服务状态均为异常状态,所以第一个采样周期到第四个采样周期中的异常参数是按照指数逻辑进行增长,而在第五个采样周期中所获取到的服务状态为正常状态,所以在第五个采样周期中,可以按照线性避退逻辑降低所述异常参数的数值,以保证在所述参数阈值以内使所述被监控系统可以自行恢复,以达到所述被监控系统自愈,且不告警的效果。如图2c所示,可知预设的参数阈值为30,在第一个采样周期到第三个采样周期中所获取到的服务状态均为异常状态,第四个采样周期中所获取到的服务状态为正常状态,在第五个采样周期到第六个采样周期中所获取到的服务状态均为异常状态,由此可见,通过指数逻辑增长和线性避退逻辑的配合使用,可以避免所述被监控系统因反复出错而进行反复的告警,而且由于第四个采样周期中的异常参数不为0,所以在第五个采样周期中检测到异常时,可以基于第四个采样周期中的异常参数实现异常参数的快速增长,以实现快速告警。
本发明实施例通过在当前的采样周期内获取被监控系统的服务状态,并基于服务状态对应的参数计算方式,可以对被监控系统对应的历史异常参数进行计算,以得到当前异常参数,并在当前异常参数超过预设的参数阈值时,可以对被监控系统进行告警操作,由此可见,通过每次采样到的服务状态控制异常参数进行相应变化,可以控制告警触发时机,即可以在异常参数未达到参数阈值时不触发告警,以向被监控系统提供自动恢复的时间,而在异常参数达到参数阈值时,说明此时的被监控系统出现异常的次数和频率比较高,因此,在此时触发告警可以提高告警数据的准确度和可靠性。
请参见图3,是本发明实施例提供的一种服务监控告警装置的结构示意图,所述服务监控告警装置1可以应用于服务器中,所述服务监控告警装置1可以包括:获取模块10、参数计算模块20、告警模块30;
所述获取模块10,用于在当前的采样周期内,获取被监控系统的服务状态;
具体的,所述获取模块10可以在当前的采样周期内,获取被监控系统的服务状态。通过预设所述采样周期,可以使所述获取模块10定时采集所述服务状态,即每隔一个采样周期可以发起一个采样请求以获取所述服务状态。所述服务状态可以指所述被监控系统的工作状态,具体可以包括异常状态和正常状态。例如,若预设所述采样周期为1分钟,则所述获取模块10可以每隔1分钟采集一次所述服务状态。
所述参数计算模块20,用于基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数;
具体的,所述获取模块10获取到所述服务状态后,可以由所述参数计算模块20基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数;其中,不同的服务状态分别对应不同的参数计算方式。其中,所述历史异常参数是在上一个采样周期内基于所述参数计算方式所计算出的用于衡量所述被监控系统的异常指标的异常参数,即当在下一个采样周期内时可以将所述当前异常参数作为新的历史异常参数。进一步的,再请一并参见图4,是所述参数计算模块20的结构示意图,所述参数计算模块20可以包括:异常确定计算单元201、正常确定计算单元202;
所述异常确定计算单元201,用于当检测到所述服务状态为异常状态时,确定所述异常状态对应的参数计算方式为递增计算方式,并基于所述递增计算方式对所述历史异常参数进行计算,以得到当前异常参数;
具体的,当检测到所述服务状态为异常状态时,说明所述被监控系统当前出现异常,此时,所述异常确定计算单元201可以确定所述异常状态对应的参数计算方式为递增计算方式,并基于所述递增计算方式对所述历史异常参数进行计算,以得到当前异常参数。进一步的,再请一并参见图5,是所述异常确定计算单元201的结构示意图,所述异常确定计算单元201可以包括:第一确定子单元2011、第一判断子单元2012、异常计算子单元2013;
所述第一确定子单元2011,用于当检测到所述服务状态为异常状态时,确定所述异常状态对应的参数计算方式为递增计算方式;所述递增计算方式所涉及的预设计算参数包括预设的递增系数以及预设的初始异常值;
所述第一判断子单元2012,用于判断所述历史异常参数是否为最小值;
所述异常计算子单元2013,用于若所述第一判断子单元2012判断为否,则基于所述递增计算方式,对所述历史异常参数和所述递增系数进行相乘,以得到当前异常参数;
所述异常计算子单元2013,还用于若所述第一判断子单元2012判断为是,则基于所述递增计算方式,将所述初始异常值作为当前异常参数;
具体的,所述递增计算方式对应的计算公式可以包括:当所述历史异常参数不为最小值时,所述当前异常参数=所述历史异常参数*递增系数;当所述历史异常参数为最小值时,所述当前异常参数=初始异常值。例如,若预设所述递增系数为2,所述初始异常值为4,异常参数的最小值为0,则当所述历史异常参数为8时,所述第一判断子单元2012可以判断出所述历史异常参数不为最小值,且所述异常计算子单元2013可以根据所述递增计算方式计算出所述当前异常参数=8*2=16;又当所述历史异常参数为0时,所述第一判断子单元2012可以判断出所述历史异常参数为最小值,且所述异常计算子单元2013可以根据所述递增计算方式计算出所述当前异常参数=所述初始异常值=4。
所述正常确定计算单元202,用于当检测到所述服务状态为正常状态时,确定所述正常状态对应的参数计算方式为递减计算方式,并基于所述递减计算方式对所述历史异常参数进行计算,以得到当前异常参数;
具体的,当检测到所述服务状态为正常状态时,说明所述被监控系统当前正常工作,此时,所述正常确定计算单元202可以确定所述正常状态对应的参数计算方式为递减计算方式,并基于所述递减计算方式对所述历史异常参数进行计算,以得到当前异常参数。进一步的,再请一并参见图6,是所述正常确定计算单元202的结构示意图,所述正常确定计算单元202可以包括:第二确定子单元2021、第二判断子单元2022、正常计算子单元2023;
所述第二确定子单元2021,用于当检测到所述服务状态为正常状态时,确定所述正常状态对应的参数计算方式为递减计算方式;所述递减计算方式所涉及的预设计算参数包括所述初始异常值;
所述第二判断子单元2022,用于判断所述历史异常参数是否为最小值;
所述正常计算子单元2023,用于若所述第二判断子单元2022判断为否,则基于所述递减计算方式,对所述历史异常参数和所述初始异常值进行相减,以得到当前异常参数;
所述正常计算子单元2023,还用于若所述第二判断子单元2022判断为是,则基于所述递减计算方式,将所述历史异常参数作为当前异常参数;
具体的,所述递减计算方式中的初始异常值与所述递增计算方式中的初始异常值相同。所述递减计算方式对应的计算公式可以包括:当所述历史异常参数不为最小值时,所述当前异常参数=所述历史异常参数-所述初始异常值;当所述历史异常参数为最小值时,所述当前异常参数=所述历史异常参数。例如,若预设所述初始异常值为4,异常参数的最小值为0,则当所述历史异常参数为8时,所述第二判断子单元2022可以判断出所述历史异常参数不为最小值,且所述正常计算子单元2023可以根据所述递减计算方式计算出所述当前异常参数=8-4=4;又当所述历史异常参数为0时,所述第二判断子单元2022可以判断出所述历史异常参数为最小值,且所述正常计算子单元2023可以根据所述递减计算方式计算出所述当前异常参数=0。
其中,所述参数计算模块20中所涉及到的所述历史异常参数和所述当前异常参数可以统称为异常参数,通过每个采样周期所获取到的服务状态,可以计算出每个采样周期所对应的异常参数,以感知所述异常参数的连续变化。在开始对所述被监控系统进行监控时,可以将所述异常参数设为默认值(如最小值),例如,在第一个采样周期中,可以设置所述历史异常参数为所述默认值。其中,当所述异常参数为最小值时,说明所述被监控系统完全正常;当所述异常参数不为最小值时,说明所述被监控系统存在异常问题,所述异常参数越大,则所述被监控系统存在的异常问题越严重。
又例如,预设所述初始异常值为4,所述递增系数为2,异常参数的最小值为0,若所述获取模块10在第三个采样周期中所采集到的所述服务状态为异常状态,且第二个采样周期中所计算出的异常参数为8,则所述参数计算模块20可以计算出第三个采样周期中的异常参数为8*2=16;若所述获取模块10在第四个采样周期中采集到的所述服务状态为正常状态,则所述参数计算模块20可以计算出第四个采样周期中的异常参数为16-4=12;若所述获取模块10在第五个采样周期中采集到的所述服务状态为异常状态,则所述参数计算模块20可以计算出第五个采样周期中的异常参数为12*2=24,由此可见,从第二个采样周期到第五个采样周期中,所述异常参数的变化为8→16→12→24。
所述告警模块30,用于当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作;
具体的,在计算出所述当前异常参数后,所述告警模块30可以检测所述当前异常参数是否超过预设的参数阈值,若检测为所述当前异常参数超过所述参数阈值,则说明所述被监控系统存在的异常问题比较严重,此时,所述告警模块30可以对所述被监控系统进行告警操作,从而保证了告警数据的准确性和可靠性。若检测为所述当前异常参数未超过所述参数阈值,则说明所述被监控系统存在的异常问题不算太严重,此时,所述告警模块30将不触发告警操作,以向所述被监控系统提供自动恢复的时间,若所述被监控系统开始自动恢复,且检测出后续连续采集到的若干个服务状态均为正常状态,则可以通过所述递减计算方式以不断降低所述异常参数的数值,以表明所述被监控系统正在恢复正常,可见本发明实施例所提供的监控方法可以将所述被监控系统本身的异常恢复能力考虑在内。由于避免了一出现异常就告警,所以可以保障监控人员可以更高效地处理所述被监控系统中的异常和错误。
进一步的,再请一并参见图7,是所述告警模块30的结构示意图,所述告警模块30可以包括:时长计算单元301、告警单元302;
所述时长计算单元301,用于当所述当前异常参数超过预设的参数阈值时,获取上一次对所述被监控系统进行告警操作的历史时间戳,并根据所述历史时间戳与当前时间戳计算告警间隔时长;
具体的,当所述当前异常参数超过预设的参数阈值时,说明所述被监控系统存在的异常问题比较严重,此时,可以先由所述时长计算单元301获取上一次对所述被监控系统进行告警操作的历史时间戳,并根据所述历史时间戳与当前时间戳计算告警间隔时长。例如,若上一次进行告警操作的历史时间戳处于第三个采样周期,且当前时间戳处于第7个采样周期,则所述时长计算单元301可以计算出所述告警间隔时长为4个采样周期的总时长。
所述告警单元302,用于当检测到所述告警间隔时长大于预设的时长阈值时,对所述被监控系统进行告警操作;
具体的,当检测到所述告警间隔时长大于预设的时长阈值时,所述告警单元302可以对所述被监控系统进行告警操作。当检测到所述告警间隔时长小于或等于预设的时长阈值时,也不触发告警操作,从而可以避免一段时间内同一个被监控系统的异常重复告警。
本发明实施例通过在当前的采样周期内获取被监控系统的服务状态,并基于服务状态对应的参数计算方式,可以对被监控系统对应的历史异常参数进行计算,以得到当前异常参数,并在当前异常参数超过预设的参数阈值时,可以对被监控系统进行告警操作,由此可见,通过每次采样到的服务状态控制异常参数进行相应变化,可以控制告警触发时机,即可以在异常参数未达到参数阈值时不触发告警,以向被监控系统提供自动恢复的时间,而在异常参数达到参数阈值时,说明此时的被监控系统出现异常的次数和频率比较高,因此,在此时触发告警可以提高告警数据的准确度和可靠性。
请参见图8,是本发明实施例提供的另一种服务监控告警装置的结构示意图,所述服务监控告警装置1000可以包括处理器1001、通信接口1002和存储器1003(所述服务监控告警装置1000中的处理器1001的数量可以为一个或多个,图8中以一个处理器为例)。本发明的一些实施例中,处理器1001、通信接口1002和存储器1003可通过通信总线或其他方式连接,其中,图8以通过通信总线连接为例。
其中,所述通信接口1002,用于与被监控系统进行通信;
所述存储器1003用于存储程序;
所述处理器1001用于执行所述程序,以实现
在当前的采样周期内,获取被监控系统的服务状态;
基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数;
当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作;
其中,所述历史异常参数是在上一个采样周期内基于所述参数计算方式所计算出的用于衡量所述被监控系统的异常指标的异常参数。
在一个实施例中,所述处理器1001在执行基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数时,具体用于:
当检测到所述服务状态为异常状态时,确定所述异常状态对应的参数计算方式为递增计算方式,并基于所述递增计算方式对所述历史异常参数进行计算,以得到当前异常参数;
当检测到所述服务状态为正常状态时,确定所述正常状态对应的参数计算方式为递减计算方式,并基于所述递减计算方式对所述历史异常参数进行计算,以得到当前异常参数。
在一个实施例中,所述处理器1001在执行当检测到所述服务状态为异常状态时,确定所述异常状态对应的参数计算方式为递增计算方式,并基于所述递增计算方式对所述历史异常参数进行计算,以得到当前异常参数时,具体用于:
当检测到所述服务状态为异常状态时,确定所述异常状态对应的参数计算方式为递增计算方式;所述递增计算方式所涉及的预设计算参数包括预设的递增系数以及预设的初始异常值;
判断所述历史异常参数是否为最小值;
若判断为否,则基于所述递增计算方式,对所述历史异常参数和所述递增系数进行相乘,以得到当前异常参数;
若判断为是,则基于所述递增计算方式,将所述初始异常值作为当前异常参数。
在一个实施例中,所述处理器1001在执行当检测到所述服务状态为正常状态时,确定所述正常状态对应的参数计算方式为递减计算方式,并基于所述递减计算方式对所述历史异常参数进行计算,以得到当前异常参数时,具体用于:
当检测到所述服务状态为正常状态时,确定所述正常状态对应的参数计算方式为递减计算方式;所述递减计算方式所涉及的预设计算参数包括所述初始异常值;
判断所述历史异常参数是否为最小值;
若判断为否,则基于所述递减计算方式,对所述历史异常参数和所述初始异常值进行相减,以得到当前异常参数;
若判断为是,则基于所述递减计算方式,将所述历史异常参数作为当前异常参数。
在一个实施例中,所述处理器1001在执行当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作时,具体用于:
当所述当前异常参数超过预设的参数阈值时,获取上一次对所述被监控系统进行告警操作的历史时间戳,并根据所述历史时间戳与当前时间戳计算告警间隔时长;
当检测到所述告警间隔时长大于预设的时长阈值时,对所述被监控系统进行告警操作。
本发明实施例通过在当前的采样周期内获取被监控系统的服务状态,并基于服务状态对应的参数计算方式,可以对被监控系统对应的历史异常参数进行计算,以得到当前异常参数,并在当前异常参数超过预设的参数阈值时,可以对被监控系统进行告警操作,由此可见,通过每次采样到的服务状态控制异常参数进行相应变化,可以控制告警触发时机,即可以在异常参数未达到参数阈值时不触发告警,以向被监控系统提供自动恢复的时间,而在异常参数达到参数阈值时,说明此时的被监控系统出现异常的次数和频率比较高,因此,在此时触发告警可以提高告警数据的准确度和可靠性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (4)

1.一种服务监控告警方法,其特征在于,包括:
在当前的采样周期内,获取被监控系统的服务状态;
基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数;所述服务状态为异常状态时,所述参数计算方式为递增计算方式;所述服务状态为正常状态时,所述参数计算方式为递减计算方式;当历史异常参数不为最小值时,所述递增计算方式对应的计算公式为:所述当前异常参数=所述历史异常参数*递增系数,所述递减计算方式对应的计算公式为:所述当前异常参数=所述历史异常参数-初始异常值;当所述历史异常参数为最小值时,所述递增计算方式对应的计算公式为:所述当前异常参数=初始异常值,所述递减计算方式对应的计算公式为:所述当前异常参数=所述历史异常参数;
当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作;
其中,所述历史异常参数是在上一个采样周期内基于所述参数计算方式所计算出的用于衡量所述被监控系统的异常指标的异常参数。
2.如权利要求1所述的方法,其特征在于,所述当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作,包括:
当所述当前异常参数超过预设的参数阈值时,获取上一次对所述被监控系统进行告警操作的历史时间戳,并根据所述历史时间戳与当前时间戳计算告警间隔时长;
当检测到所述告警间隔时长大于预设的时长阈值时,对所述被监控系统进行告警操作。
3.一种服务监控告警装置,其特征在于,包括:
获取模块,用于在当前的采样周期内,获取被监控系统的服务状态;
参数计算模块,用于基于所述服务状态对应的参数计算方式,对所述被监控系统对应的历史异常参数进行计算,以得到当前异常参数;所述服务状态为异常状态时,所述参数计算方式为递增计算方式;所述服务状态为正常状态时,所述参数计算方式为递减计算方式;当历史异常参数不为最小值时,所述递增计算方式对应的计算公式为:所述当前异常参数=所述历史异常参数*递增系数,所述递减计算方式对应的计算公式为:所述当前异常参数=所述历史异常参数-初始异常值;当所述历史异常参数为最小值时,所述递增计算方式对应的计算公式为:所述当前异常参数=初始异常值,所述递减计算方式对应的计算公式为:所述当前异常参数=所述历史异常参数;
告警模块,用于当所述当前异常参数超过预设的参数阈值时,对所述被监控系统进行告警操作;
其中,所述历史异常参数是在上一个采样周期内基于所述参数计算方式所计算出的用于衡量所述被监控系统的异常指标的异常参数。
4.如权利要求3所述的装置,其特征在于,所述告警模块包括:
时长计算单元,用于当所述当前异常参数超过预设的参数阈值时,获取上一次对所述被监控系统进行告警操作的历史时间戳,并根据所述历史时间戳与当前时间戳计算告警间隔时长;
告警单元,用于当检测到所述告警间隔时长大于预设的时长阈值时,对所述被监控系统进行告警操作。
CN201510881613.5A 2015-12-03 2015-12-03 一种服务监控告警方法以及装置 Active CN105450454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510881613.5A CN105450454B (zh) 2015-12-03 2015-12-03 一种服务监控告警方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510881613.5A CN105450454B (zh) 2015-12-03 2015-12-03 一种服务监控告警方法以及装置

Publications (2)

Publication Number Publication Date
CN105450454A CN105450454A (zh) 2016-03-30
CN105450454B true CN105450454B (zh) 2018-11-23

Family

ID=55560260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510881613.5A Active CN105450454B (zh) 2015-12-03 2015-12-03 一种服务监控告警方法以及装置

Country Status (1)

Country Link
CN (1) CN105450454B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107276779B (zh) * 2016-04-07 2021-01-08 阿里巴巴集团控股有限公司 一种监控方法、系统及设备
CN106407077A (zh) * 2016-09-21 2017-02-15 广州华多网络科技有限公司 一种实时告警方法及系统
CN108958092B (zh) * 2017-05-23 2022-11-04 佛山市顺德海尔电器有限公司 单片机时钟异常检测方法及装置、计算机可读存储介质、设备
CN109426911B (zh) 2017-08-31 2022-04-05 华为技术有限公司 一种设备的软件运行环境质量的评估方法及装置
CN109684179B (zh) * 2018-09-03 2022-05-17 平安科技(深圳)有限公司 系统故障的预警方法、装置、设备及存储介质
CN109857658B (zh) * 2019-01-23 2022-08-05 网易(杭州)网络有限公司 加速器功能的测试方法、服务器、终端及可读存储介质
TWI754131B (zh) * 2019-02-27 2022-02-01 鉅祥企業股份有限公司 工序管理系統及工序管理方法
CN111431747A (zh) * 2020-03-20 2020-07-17 本钢板材股份有限公司 一种厂域网网络自动监测方法
CN112433919B (zh) * 2020-11-25 2023-01-24 深圳前海微众银行股份有限公司 一种信息告警方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6046677A (en) * 1999-02-08 2000-04-04 Honda Of America Mfg., Inc. Method and apparatus for ensuring proper use of an indication device within an assembly line
CN101150040A (zh) * 2006-09-22 2008-03-26 北京北方微电子基地设备工艺研究中心有限责任公司 一种微电子刻蚀系统中受控部件的异常监测装置及方法
CN101673099A (zh) * 2009-10-16 2010-03-17 北京北方微电子基地设备工艺研究中心有限责任公司 一种监控工艺过程中的异常的方法和系统
CN103856366A (zh) * 2012-12-06 2014-06-11 腾讯科技(深圳)有限公司 一种平台数据监控方法及系统
CN104778111A (zh) * 2014-01-14 2015-07-15 深圳市腾讯计算机系统有限公司 一种进行报警的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6046677A (en) * 1999-02-08 2000-04-04 Honda Of America Mfg., Inc. Method and apparatus for ensuring proper use of an indication device within an assembly line
CN101150040A (zh) * 2006-09-22 2008-03-26 北京北方微电子基地设备工艺研究中心有限责任公司 一种微电子刻蚀系统中受控部件的异常监测装置及方法
CN101673099A (zh) * 2009-10-16 2010-03-17 北京北方微电子基地设备工艺研究中心有限责任公司 一种监控工艺过程中的异常的方法和系统
CN103856366A (zh) * 2012-12-06 2014-06-11 腾讯科技(深圳)有限公司 一种平台数据监控方法及系统
CN104778111A (zh) * 2014-01-14 2015-07-15 深圳市腾讯计算机系统有限公司 一种进行报警的方法和装置

Also Published As

Publication number Publication date
CN105450454A (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
CN105450454B (zh) 一种服务监控告警方法以及装置
CN105718715B (zh) 异常检测方法和设备
CN104778111B (zh) 一种进行报警的方法和装置
CN106161140B (zh) 确定被监控节点工作状态的方法、监控节点和集群系统
CN104426696B (zh) 一种故障处理的方法、服务器及系统
CN108696368B (zh) 一种网元健康状态的检测方法及设备
CN110441584B (zh) 设备运行状态监测方法、装置、存储介质和系统
CN109951466B (zh) 端口流量监控方法、装置、电子设备及机器可读存储介质
CN114936675A (zh) 一种故障预警方法、装置、存储介质及电子设备
CN107015162A (zh) 一种用于锌溴液流电池的soc在线校准方法
CN113448805A (zh) 基于cpu动态阈值的监控方法、装置、设备及存储介质
CN110674149B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN103942133B (zh) 一种信息处理方法及电子设备
JPH1152034A (ja) 電池寿命監視方法及び電池寿命監視装置並びに自動通報装置
CN110579675B (zh) 一种负载短路识别方法、装置、设备及存储介质
CN106357445B (zh) 一种用户体验监控方法及监控服务器
JP5976971B1 (ja) 見守り装置および見守り方法
CA3004773C (en) Detecting an error condition by monitoring a resource flow at a premises
CN115145902A (zh) 数据处理方法,装置,存储介质以及电子设备
CN108919157A (zh) 一种电子测试系统工况的实时告警方法及设备
CN115436809A (zh) 电池容量估算的方法、电子设备及存储介质
CN110907843A (zh) 电池阻抗计算方法及装置
CN109696894B (zh) 生产线状态判断方法及装置
CN113352939A (zh) 剩余电量确定方法、装置、电子设备和存储介质
CN110134048B (zh) 报警方法、装置、存储介质和处理器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant