CN110224885B - 设备监控的告警方法、装置、存储介质及电子设备 - Google Patents

设备监控的告警方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110224885B
CN110224885B CN201910472984.6A CN201910472984A CN110224885B CN 110224885 B CN110224885 B CN 110224885B CN 201910472984 A CN201910472984 A CN 201910472984A CN 110224885 B CN110224885 B CN 110224885B
Authority
CN
China
Prior art keywords
network
packet loss
acquisition
loss rate
target monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910472984.6A
Other languages
English (en)
Other versions
CN110224885A (zh
Inventor
孙卓然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201910472984.6A priority Critical patent/CN110224885B/zh
Publication of CN110224885A publication Critical patent/CN110224885A/zh
Application granted granted Critical
Publication of CN110224885B publication Critical patent/CN110224885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开涉及一种设备监控的告警方法、装置、存储介质及电子设备,可以在采集目标监控设备的运行信息失败时,获取在历史时间段内采集所述目标监控设备的运行信息的采集结果,所述采集结果表示采集是否成功;根据所述采集结果确定所述目标监控设备对应的采集失败率;向所述目标监控设备发送多个网络测试数据包,并根据多个所述网络测试数据包的返回结果,计算所述目标监控设备所处网络的网络状态数据,所述网络状态数据包括网络丢包率;根据所述采集失败率和所述网络状态数据确定是否告警。

Description

设备监控的告警方法、装置、存储介质及电子设备
技术领域
本公开涉及设备监控领域,具体地,涉及一种设备监控的告警方法、装置、存储介质及电子设备。
背景技术
在设备运维监控中,可以通过监控平台对设备进行实时监控,监控平台的主要作用是对有问题的设备进行告警上报,以便运维人员可以及时了解监控设备的运行状态,但如果上报信息不够准确,尤其是因网络抖动(因网络不稳造成的短暂性的连通性中断)导致的上报信息不准确的情况,如果不能正确识别,会增加告警的误报率,同时会降低运维人员的工作效率。
现有的设备监控中,一种常用的策略是重复采集策略,当第一次采集失败后立刻再次采集,但如果每次采集很慢,尤其连接超时较长时,连续采集会耗费时间,占用采集线程和系统资源,并且由于两次相隔很近,在程序中可能间隔几毫秒,不足以屏蔽网络抖动,从而不能正确识别因网络抖动造成的采集报错的情况,从而导致上报信息不准确,这不仅会增加告警的误报率,同时也浪费人力资源。
发明内容
本公开提供一种设备监控的告警方法、装置、存储介质及电子设备。
第一方面,提供一种设备监控的告警方法,所述方法包括:在采集目标监控设备的运行信息失败时,获取在历史时间段内采集所述目标监控设备的运行信息的采集结果,所述采集结果表示采集是否成功;根据所述采集结果确定所述目标监控设备对应的采集失败率;向所述目标监控设备发送多个网络测试数据包,并根据多个所述网络测试数据包的返回结果,计算所述目标监控设备所处网络的网络状态数据,所述网络状态数据包括网络丢包率;根据所述采集失败率和所述网络状态数据确定是否告警。
可选地,所述根据所述采集失败率和所述网络状态数据确定是否告警包括:若所述网络丢包率小于或者等于所述采集失败率,确定进行告警。
可选地,所述网络状态数据还包括丢包率波动阈值,所述根据所述采集失败率和所述网络状态数据确定是否告警包括:计算所述网络丢包率与所述丢包率波动阈值的和值;若所述和值小于或者等于所述采集失败率,确定进行告警。
可选地,获取所述目标监控设备所处网络的所述丢包率波动阈值包括:获取第一预设历史时间内的连续多个时刻分别对应的目标网络丢包率;根据连续多个时刻分别对应的所述目标网络丢包率计算得到所述丢包率波动阈值。
可选地,所述根据所述采集结果确定所述目标监控设备对应的采集失败率包括:根据所述采集结果确定第二预设历史时间内采集所述运行信息的总次数,以及所述第二预设历史时间内采集所述运行信息失败的失败次数;将所述失败次数与所述总次数的比值,确定为所述采集失败率。
第二方面,提供一种设备监控的告警装置,所述装置包括:获取模块,用于在采集目标监控设备的运行信息失败时,获取在历史时间段内采集所述目标监控设备的运行信息的采集结果,所述采集结果表示采集是否成功;第一确定模块,用于根据所述采集结果确定所述目标监控设备对应的采集失败率;第二确定模块,用于向所述目标监控设备发送多个网络测试数据包,并根据多个所述网络测试数据包的返回结果,计算所述目标监控设备所处网络的网络状态数据,所述网络状态数据包括网络丢包率;第三确定模块,用于根据所述采集失败率和所述网络状态数据确定是否告警。
可选地,所述第三确定模块,用于若所述网络丢包率小于或者等于所述采集失败率,确定进行告警。
可选地,所述网络状态数据还包括丢包率波动阈值,所述第三确定模块,用于计算所述网络丢包率与所述丢包率波动阈值的和值;若所述和值小于或者等于所述采集失败率,确定进行告警。
可选地,所述第二确定模块,用于获取第一预设历史时间内的连续多个时刻分别对应的目标网络丢包率;根据连续多个时刻分别对应的所述目标网络丢包率计算得到所述丢包率波动阈值。
可选地,所述第一确定模块,用于根据所述采集结果确定第二预设历史时间内采集所述运行信息的总次数,以及所述第二预设历史时间内采集所述运行信息失败的失败次数;将所述失败次数与所述总次数的比值,确定为所述采集失败率。
第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
通过上述技术方案,在采集目标监控设备的运行信息失败时,获取在历史时间段内采集所述目标监控设备的运行信息的采集结果,所述采集结果表示采集是否成功;根据所述采集结果确定所述目标监控设备对应的采集失败率;向所述目标监控设备发送多个网络测试数据包,并根据多个所述网络测试数据包的返回结果,计算所述目标监控设备所处网络的网络状态数据,所述网络状态数据包括网络丢包率;根据所述采集失败率和所述网络状态数据确定是否告警,这样,可以通过该网络状态数据诊断该目标监控设备当前所处网络的网络状况,并根据该采集失败率和该网络状态数据综合判断是否进行告警,从而可以及时识别因网络抖动造成的采集报错的情况,降低告警的误报率,并能节省人力资源。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的第一种设备监控的告警方法的流程图;
图2是根据一示例性实施例示出的第二种设备监控的告警方法的流程图;
图3是根据一示例性实施例示出的一种设备监控的告警装置的框图;
图4是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本公开主要应用于设备运维监控的场景中,现有的设备监控中,监控粒度都很细致,普遍在分钟级,能够很好的反应设备运行的各项指标状态,但是由于现场实施时,网络环境较复杂,容易出现网络不稳定的现象,例如网络出现抖动,而网络抖动通常就是网络不稳造成的短暂性的连通性中断,由于监控平台的监控粒度较细,若在出现网络抖动的同时去采集设备的运行状态信息,返回的结果是设备连通异常,进而产生告警通知运维人员,此时,若运维人员排查告警原因会发现设备运行正常,仅是网络抖动造成的监控产品采集报错,这显然会增加告警的误报率,同时也浪费人力资源。
为解决上述存在的问题,本公开提供一种设备监控的告警方法、装置、存储介质及电子设备,在采集目标监控设备的运行信息的过程中,若当前采集该运行信息失败,可以从该目标监控设备的历史采集记录中获取采集该目标监控设备的运行信息的采集结果,该历史采集记录用于保存每次采集该运行信息的采集结果,该采集结果包括采集成功或者采集失败;然后根据该采集结果计算该目标监控设备对应的采集失败率,并向该目标监控设备发送多个网络测试数据包,并根据多个该网络测试数据包的返回结果,计算该监控设备当前所处网络的网络状态数据,该网络状态数据可以包括网络丢包率,从而可以根据该采集失败率和网络状态数据确定是否告警,这样,可以通过该网络状态数据诊断该目标监控设备当前所处网络的网络状况,并根据该采集失败率和该网络状态数据综合判断是否进行告警,从而可以及时识别因网络抖动造成的采集报错的情况,降低告警的误报率,节省人力资源,进而提高运维人员的产品使用体验。
下面结合附图,对本公开的具体实施方式进行说明。
图1是根据一示例性实施例示出的一种设备监控的告警方法的流程图,如图1所示,该方法包括以下步骤:
在步骤101中,在采集目标监控设备的运行信息失败时,获取在历史时间段内采集该目标监控设备的运行信息的采集结果。
其中,该采集结果表示采集是否成功,该采集结果可以包括采集失败或者采集成功,该目标监控设备可以为监控平台(如设备监控服务器)正在监控的任一设备,该运行信息可以包括该目标监控设备的运行状态信息(如CPU占用率)。
在实际的设备监控场景中,监控平台可以按照第一预设频率采集该目标监控设备的运行信息,例如,可以每隔5分钟采集一次该目标监控设备的该运行信息,并且在每次采集该运行信息后,可以采用缓存机制记录保存该采集结果(例如,可以用0或1表示该采集结果,若当前时刻采集该运行信息成功,可以用1表示,若当前时刻采集该运行信息失败,可以用0表示),以便后续可以根据该采集结果计算该目标监控设备对应的采集失败率,在一种可能的实现方式中,某一时刻该采集结果可以以“(采集时间,采集结果)”的形式进行记录并缓存,例如,(17:00,1)表示在17:00这一时刻成功采集到该运行信息,此处只是举例说明,本公开对此不作限定。
另外,在监控平台采集该目标监控设备的运行信息的过程中,可以根据返回的采集信息确定是否采集成功,在一种可能的实现方式中,该采集信息的数据包中通常包括采集结果的标识信息(例如,1表示成功,0表示失败),因此,可以根据该标识信息确定是否成功采集该运行信息,例如,若确定返回的该采集信息的数据包中的标识信息为1时,可以确定当前时刻成功采集到该目标监控设备的运行信息,若确定返回的该采集信息的数据包中的标识信息为0时,可以确定当前时刻采集该目标监控设备的运行信息失败,此处只是举例说明,本公开对此不作限定。
在步骤102中,根据该采集结果确定该目标监控设备对应的采集失败率;
在本步骤中,可以根据该采集结果确定第二预设历史时间内采集该运行信息的总次数,以及该第二预设历史时间内采集该运行信息失败的失败次数;将该失败次数与该总次数的比值,确定为该采集失败率。
在步骤103中,向该目标监控设备发送多个网络测试数据包,并根据多个该网络测试数据包的返回结果,计算该目标监控设备所处网络的网络状态数据。
其中,该网络状态数据可以包括网络丢包率,该返回结果可以为第二预设时间内返回的该网络测试数据包的个数。
在本公开中,为提前诊断该目标监控设备所处网络的网络状态,可以通过定时向该目标监控设备发送该网络测试数据包的方式对当前的网络状态进行测试,具体地,可以按照第二预设频率在第一预设时间内向该目标监控设备发送预设数量的网络测试数据包,然后根据在第二预设时间内该网络测试数据包的返回结果计算该网络状态数据,另外,为保证在获取到步骤101中的该采集结果之前,便可以提前获知该目标监控设备当前所处网络的网络状态,该第二预设频率要大于该第一预设频率(该第一预设频率为采集目标监控设备的运行信息的频率),例如,可以每隔2分钟向该目标监控设备发送一次该网络测试数据包,可以每隔5分钟采集一次该目标监控设备的该运行信息,从而可以提前诊断该网络状态,为后续判断是否告警提供参考。
示例地,可以每隔2分钟(即为该第二预设频率)向该目标监控设备发送一次该网络测试数据包,并且每次均在2秒钟(即为该第一预设时间)内向该目标监控设备发送1000个(即为该预设数量)该网络测试数据包,假设获取到3秒钟内(即为该第二预设时间)返回的该网络测试数据包的个数为800个,此时,该网络丢包率即为(1000-800)/1000=20%,上述示例只是举例说明,本公开对此不作限定。
另外,为提高是否告警判断结果的稳定可靠性,该网络状态数据还可以包括丢包率波动阈值(也可称之为丢包率的置信波动区间),这样,可以根据该网络丢包率和该丢包率波动阈值两个参数更准确的判断该目标监控设备当前所处网络的网络状态。
在本公开中,可以获取第一预设历史时间内的连续多个时刻分别对应的目标网络丢包率;根据连续多个时刻分别对应的该目标网络丢包率计算得到该丢包率波动阈值,其中,该目标网络丢包率为该第一预设历史时间内的连续多个时刻中的任一时刻对应的该网络丢包率。
在一种可能的实现方式中,可以采用EWMA(Exponentially Weighted MovingAverage指数加权移动平均)算法,根据连续多个时刻分别对应的该目标网络丢包率计算得到该丢包率波动阈值,具体地,可以采用EWMA算法中的以下公式计算该丢包率波动阈值。
Figure BDA0002081297960000081
其中,δ表示该丢包率波动阈值,xi表示连续多个时刻中第i个时刻计算得到的该目标网络丢包率,N表示N个时刻,ui表示N个时刻中前i个时刻该目标网络丢包率的平均值。
还需说明的是,为提高系统监控告警的效率,同样可以采用缓存机制记录与该目标监控设备对应的该网络丢包率和该丢包率波动阈值,具体地,可以使用key-value方式进行缓存,例如可以以<目标监控设备IP,网络丢包率/丢包率波动阈值>的形式进行缓存,以便后续在确定是否进行告警时,可以从缓存中直接读取该网络丢包率和该丢包率波动阈值,从而提高系统运行的效率。
在步骤104中,根据该采集失败率和该网络状态数据确定是否告警。
在本步骤中,可以通过以下两种方式中的任意一种方式实现:
方式一、若该网络丢包率小于或者等于该采集失败率,确定进行告警。
方式二、可以计算该网络丢包率与该丢包率波动阈值的和值,若该和值小于或者等于该采集失败率,确定进行告警。
考虑到实际的应用场景中,若网络丢包率(或者,该网络丢包率与该丢包率波动阈值的和值)大于该采集失败率,可以说明网络本身就存在一定的丢包情况,当前的该采集失败率是一段时间积累的结果,并且该采集失败率小于该网络丢包率(或者,该网络丢包率与该丢包率波动阈值的和值),可以说明本次采集失败在合理范围内,是网络本身就存在不稳定性(如发生网络抖动),并非该目标监控设备出现问题,因此,在该网络丢包率(或者,该网络丢包率与该丢包率波动阈值的和值)大于该采集失败率时,系统默认当前情况合理,可以不进行告警,相反的,若该网络丢包率(或者,该网络丢包率与该丢包率波动阈值的和值)小于或者等于该采集失败率,确定进行告警。
需要说明的是,采用方式一中提供的告警策略无需计算该丢包率波动阈值,可以仅根据该网络丢包率确定该目标监控设备当前所处网络的网络状态,从而可以更快速的确定网络状态,也可以节省系统资源,但方式一相比较于方式二来说,判断结果的准确性相对较低,因此,为提高是否告警判断结果的准确性,可以根据每个历史时刻获取的该网络丢包率结合EWMA算法计算该丢包率波动阈值,然后采用方式二提供的告警策略确定是否进行告警,从而可以降低告警的误报率,提升用户体验。
还需说明的是,为避免该目标监控设备真出现问题时该网络丢包率(或者,该网络丢包率与该丢包率波动阈值的和值)仍大于该采集失败率的情况,在一种可能的实现方式中,若确定该网络丢包率连续第一预设次数(例如3次)大于或者等于预设阈值(如100%、99%等)时,或者若确定连续第二预设次数(如2次)采集该目标监控设备的运行信息失败,也可以直接判定该目标监控设备出现问题,此时可以直接进行告警,这样在一定程度上可以防止漏报的情况出现,进一步可以降低误报率。
采用上述方法,可以通过该网络状态数据诊断该目标监控设备当前所处网络的网络状况,并根据该采集失败率和该网络状态数据综合判断是否进行告警,从而可以及时识别因网络抖动造成的采集报错的情况,降低告警的误报率,节省人力资源,进而提高运维人员的产品使用体验。
图2是根据一示例性实施例示出的一种设备监控的告警方法的流程图,如图2所示,该方法包括以下步骤:
在步骤201中,在采集目标监控设备的运行信息失败时,获取在历史时间段内采集该目标监控设备的运行信息的采集结果。
其中,该采集结果表示采集是否成功,该采集结果可以包括采集失败或者采集成功,该目标监控设备可以为监控平台(如设备监控服务器)正在监控的任一设备,该运行信息可以包括该目标监控设备的运行状态信息(如CPU占用率)。
在实际的设备监控场景中,监控平台可以按照第一预设频率采集该目标监控设备的运行信息,例如,可以每隔5分钟采集一次该目标监控设备的该运行信息,并且在每次采集该运行信息后,可以采用缓存机制记录保存该采集结果(例如,可以用0或1表示该采集结果,若当前时刻采集该运行信息成功,可以用1表示,若当前时刻采集该运行信息失败,可以用0表示),以便后续可以根据该采集结果计算该目标监控设备对应的采集失败率,在一种可能的实现方式中,某一时刻该采集结果可以以“(采集时间,采集结果)”的形式进行记录并缓存,例如,(17:00,1)表示在17:00这一时刻成功采集到该运行信息,此处仅是举例说明,本公开对此不作限定。
另外,在监控平台采集该目标监控设备的运行信息的过程中,可以根据返回的采集信息确定是否采集成功,在一种可能的实现方式中,该采集信息的数据包中通常包括采集结果的标识信息(例如,1表示成功,0表示失败),因此,可以根据该标识信息确定是否成功采集该运行信息,例如,若确定返回的该采集信息的数据包中的标识信息为1时,可以确定当前时刻成功采集到该目标监控设备的运行信息,若确定返回的该采集信息的数据包中的标识信息为0时,可以确定当前时刻采集该目标监控设备的运行信息失败,此处只是举例说明,本公开对此不作限定。
在本实施例中,可以通过执行步骤202至步骤203确定该目标监控设备对应的采集失败率。
在步骤202中,根据该采集结果确定第二预设历史时间内采集该运行信息的总次数,以及该第二预设历史时间内采集该运行信息失败的失败次数。
在步骤203中,将该失败次数与该总次数的比值,确定为采集失败率。
示例地,以该第一预设频率为每隔5分钟采集一次该目标监控设备的运行信息,当前时刻为17:00,该历史时间段为以当前时刻为结束时刻的最近一小时,该第二预设历史时间也为以当前时刻为结束时刻的最近一小时为例,对根据步骤201中获取的该采集结果确定该目标监控设备的采集失败率进行说明,假设在执行步骤201后获取到的该采集结果为{(16:05,1);(16:10,1);(16:15,1);(16:20,1);(16:25,1);(16:30,1);(16:35,1);(16:40,1);(16:45,1);(16:50,1);(16:55,1);(17:00,0)},根据该采集结果,可以确定该第二预设历史时间内采集该运行信息的总次数为12次,该第二预设历史时间内采集该运行信息失败的失败次数为1次,此时,该采集失败率可以为1/12=8.33%,上述示例只是举例说明,本公开对此不作限定。
在本实施例中,可以通过执行步骤204至步骤207确定该网络状态数据,从而可以根据该网络状态数判断该目标监控设备当前所处网络的网络状况,具体地,可以用过执行步骤204和步骤205确定该网络状态数据中的网络丢包率,为提高是否告警判断结果的稳定可靠性,该网络状态数据还可以包括丢包率波动阈值,这样,可以根据该网络丢包率和该丢包率波动阈值两个参数更准确的判断该目标监控设备当前所处网络的网络状态,在本实施例中,可以通过执行步骤206和步骤207确定该丢包率波动阈值。
在步骤204中,向该目标监控设备发送多个网络测试数据包。
在本步骤中,可以按照第二预设频率在第一预设时间内向该目标监控设备发送预设数量的网络测试数据包。
其中,该第二预设频率大于该第一预设频率。
在本公开中,为提前诊断该目标监控设备所处网络的网络状态,可以通过定时向该目标监控设备发送网络测试数据包的方式对当前的网络状态进行测试,具体地,可以按照第二预设频率在第一预设时间内向该目标监控设备发送预设数量的网络测试数据包,然后根据在第二预设时间内该网络测试数据包的返回结果计算该网络状态数据,另外,为保证在获取到步骤201中的该采集结果之前,便可以提前获知该目标监控设备当前所处网络的网络状态,该第二预设频率要大于该第一预设频率(该第一预设频率为采集目标监控设备的运行信息的频率),例如,可以每隔2分钟向该目标监控设备发送一次该网络测试数据包,可以每隔5分钟采集一次该目标监控设备的该运行信息,从而可以提前诊断该网络状态,为后续判断是否告警提供参考。
在步骤205中,根据多个该网络测试数据包的返回结果计算网络丢包率。
其中,该返回结果可以为第二预设时间内返回的该网络测试数据包的个数。
示例地,可以每隔2分钟(即为该第二预设频率)向该目标监控设备发送一次该网络测试数据包,并且每次均在2秒钟(即为该第一预设时间)内向该目标监控设备发送1000个(即为该预设数量)该网络测试数据包,假设获取到3秒钟内(即为该第二预设时间)返回的该网络测试数据包的个数为800个,此时,该网络丢包率即为(1000-800)/1000=20%,上述示例只是举例说明,本公开对此不作限定。
另外,为进一步提高网络测试的准确性,在另一种可能的实现方式中,可以计算预设时间段内的平均丢包率,然后基于该平均丢包率确定当前所处网络的网络状态,具体地,可以通过“(当前值+历史值)/总计次数”的方式计算得到该平均丢包率,其中,该当前值即为当前时刻计算得到的该网络丢包率(如上述示例中计算得到的20%),该历史值即为预设历史网络测试时刻计算得到的该网络丢包率的历史值,该总计次数即为该预设时间段内发送该网络测试数据包的总次数。
在步骤206中,获取第一预设历史时间内的连续多个时刻分别对应的目标网络丢包率。
其中,该目标网络丢包率为该第一预设历史时间内的连续多个时刻中的任一时刻对应的该网络丢包率。
在步骤207中,根据连续多个时刻分别对应的该目标网络丢包率计算得到丢包率波动阈值。
在一种可能的实现方式中,可以采用EWMA算法,根据连续多个时刻分别对应的该目标网络丢包率计算得到该丢包率波动阈值,具体地,可以采用EWMA算法中的以下公式计算该丢包率波动阈值。
Figure BDA0002081297960000131
其中,δ表示该丢包率波动阈值,xi表示连续多个时刻中第i个时刻计算得到的该目标网络丢包率,N表示N个时刻,ui表示N个时刻中前i个时刻该目标网络丢包率的平均值。
还需说明的是,为提高系统监控告警的效率,同样可以采用缓存机制记录与该目标监控设备对应的该网络丢包率和该丢包率波动阈值,具体地,可以使用key-value方式进行缓存,例如可以以<目标监控设备IP,网络丢包率/丢包率波动阈值>的形式进行缓存,以便后续在确定是否进行告警时,可以从缓存中直接读取该网络丢包率和该丢包率波动阈值,从而提高系统运行的效率。
在本实施例中,可以通过执行步骤208至步骤209根据该采集失败率、该网络丢包率以及该丢包率波动阈值确定是否告警。
在步骤208中,计算该网络丢包率与该丢包率波动阈值的和值。
在步骤209中,若该和值小于或者等于该采集失败率,确定进行告警。
考虑到实际的应用场景中,若该网络丢包率与该丢包率波动阈值的和值,大于该采集失败率,可以说明网络本身就存在一定的丢包情况,当前的该采集失败率是一段时间积累的结果,并且该采集失败率小于该网络丢包率与该丢包率波动阈值的和值,可以说明本次采集失败在合理范围内,是网络本身就存在不稳定性(如发生网络抖动),并非该目标监控设备出现问题,因此,在该网络丢包率与该丢包率波动阈值的和值,大于该采集失败率时,系统默认当前情况合理,可以不进行告警,相反的,若该网络丢包率与该丢包率波动阈值的和值,小于或者等于该采集失败率,确定进行告警。
另外,在本公开中,也可以仅根据该网络丢包率判断该目标监控设备当前所处网络的网络状态,此时,若该网络丢包率小于或者等于该采集失败率,确定进行告警,此种方式,无需计算该丢包率波动阈值,可以节省系统资源。
还需说明的是,为避免该目标监控设备真出现问题时该网络丢包率(或者,该网络丢包率与该丢包率波动阈值的和值)仍大于该采集失败率的情况,在一种可能的实现方式中,若确定该网络丢包率连续第一预设次数(例如3次)大于或者等于预设阈值(如100%、99%等),或者若确定连续第二预设次数(如2次)采集该目标监控设备的运行信息失败,也可以直接判定该目标监控设备出现问题,此时可以直接进行告警,这样在一定程度上可以防止漏报的情况出现,进一步可以降低误报率。
采用上述方法,可以通过该网络状态数据诊断该目标监控设备当前所处网络的网络状况,并根据该采集失败率和该网络状态数据综合判断是否进行告警,从而可以及时识别因网络抖动造成的采集报错的情况,降低告警的误报率,节省人力资源,进而提高运维人员的产品使用体验。
图3是根据一示例性实施例示出的一种设备监控的告警装置的框图,如图3所示,该装置包括:
获取模块301,用于在采集目标监控设备的运行信息失败时,获取在历史时间段内采集该目标监控设备的运行信息的采集结果,该采集结果表示采集是否成功;
第一确定模块302,用于根据该采集结果确定该目标监控设备对应的采集失败率;
第二确定模块303,用于向该目标监控设备发送多个网络测试数据包,并根据多个该网络测试数据包的返回结果,计算该目标监控设备所处网络的网络状态数据,该网络状态数据包括网络丢包率;
第三确定模块304,用于根据该采集失败率和该网络状态数据确定是否告警。
可选地,该第三确定模块304,用于若该网络丢包率小于或者等于该采集失败率,确定进行告警。
可选地,该网络状态数据还包括丢包率波动阈值,该第三确定模块304,用于计算该网络丢包率与该丢包率波动阈值的和值;若该和值小于或者等于该采集失败率,确定进行告警。
可选地,该第二确定模块303,用于获取第一预设历史时间内的连续多个时刻分别对应的目标网络丢包率;根据连续多个时刻分别对应的该目标网络丢包率计算得到该丢包率波动阈值。
可选地,该第一确定模块302,用于根据该采集结果确定第二预设历史时间内采集该运行信息的总次数,以及该第二预设历史时间内采集该运行信息失败的失败次数;将该失败次数与该总次数的比值,确定为该采集失败率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
采用上述装置,可以通过该网络状态数据诊断该目标监控设备当前所处网络的网络状况,并根据该采集失败率和该网络状态数据综合判断是否进行告警,从而可以及时识别因网络抖动造成的采集报错的情况,降低告警的误报率,节省人力资源,进而提高运维人员的产品使用体验。
图4是根据一示例性实施例示出的一种电子设备400的框图。如图4所示,该电子设备400可以包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(I/O)接口404,以及通信组件405中的一者或多者。
其中,处理器401用于控制该电子设备400的整体操作,以完成上述的设备监控方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的设备监控方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的设备监控方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的设备监控方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由所述可编程的装置执行时用于执行上述的目标追踪的方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (8)

1.一种设备监控的告警方法,其特征在于,所述方法包括:
在采集目标监控设备的运行信息失败时,获取在历史时间段内采集所述目标监控设备的运行信息的采集结果,所述采集结果表示采集是否成功;
根据所述采集结果确定所述目标监控设备对应的采集失败率;
向所述目标监控设备发送多个网络测试数据包,并根据多个所述网络测试数据包的返回结果,计算所述目标监控设备所处网络的网络状态数据,所述网络状态数据包括网络丢包率;
根据所述采集失败率和所述网络状态数据确定是否告警;
所述网络状态数据还包括丢包率波动阈值,所述丢包率波动阈值用于表征丢包率的置信波动区间,所述根据所述采集失败率和所述网络状态数据确定是否告警包括:
计算所述网络丢包率与所述丢包率波动阈值的和值;
若所述和值小于或者等于所述采集失败率,确定进行告警。
2.根据权利要求1所述的方法,其特征在于,所述根据所述采集失败率和所述网络状态数据确定是否告警包括:
若所述网络丢包率小于或者等于所述采集失败率,确定进行告警。
3.根据权利要求1所述的方法,其特征在于,获取所述目标监控设备所处网络的所述丢包率波动阈值包括:
获取第一预设历史时间内的连续多个时刻分别对应的目标网络丢包率;
根据连续多个时刻分别对应的所述目标网络丢包率计算得到所述丢包率波动阈值。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述采集结果确定所述目标监控设备对应的采集失败率包括:
根据所述采集结果确定第二预设历史时间内采集所述运行信息的总次数,以及所述第二预设历史时间内采集所述运行信息失败的失败次数;
将所述失败次数与所述总次数的比值,确定为所述采集失败率。
5.一种设备监控的告警装置,其特征在于,所述装置包括:
获取模块,用于在采集目标监控设备的运行信息失败时,获取在历史时间段内采集所述目标监控设备的运行信息的采集结果,所述采集结果表示采集是否成功;
第一确定模块,用于根据所述采集结果确定所述目标监控设备对应的采集失败率;
第二确定模块,用于向所述目标监控设备发送多个网络测试数据包,并根据多个所述网络测试数据包的返回结果,计算所述目标监控设备所处网络的网络状态数据,所述网络状态数据包括网络丢包率;
第三确定模块,用于根据所述采集失败率和所述网络状态数据确定是否告警;
所述网络状态数据还包括丢包率波动阈值,所述丢包率波动阈值用于表征丢包率的置信波动区间,所述第三确定模块,用于计算所述网络丢包率与所述丢包率波动阈值的和值;若所述和值小于或者等于所述采集失败率,确定进行告警。
6.根据权利要求5所述的装置,其特征在于,所述第二确定模块,用于获取第一预设历史时间内的连续多个时刻分别对应的目标网络丢包率;根据连续多个时刻分别对应的所述目标网络丢包率计算得到所述丢包率波动阈值。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
8.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-4中任一项所述方法的步骤。
CN201910472984.6A 2019-05-31 2019-05-31 设备监控的告警方法、装置、存储介质及电子设备 Active CN110224885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910472984.6A CN110224885B (zh) 2019-05-31 2019-05-31 设备监控的告警方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910472984.6A CN110224885B (zh) 2019-05-31 2019-05-31 设备监控的告警方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110224885A CN110224885A (zh) 2019-09-10
CN110224885B true CN110224885B (zh) 2021-09-17

Family

ID=67819358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910472984.6A Active CN110224885B (zh) 2019-05-31 2019-05-31 设备监控的告警方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110224885B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527610A (zh) * 2019-09-17 2021-03-19 北京国双科技有限公司 设备运作状态的监测方法及装置
CN113657372B (zh) * 2020-05-12 2024-05-07 中移(上海)信息通信科技有限公司 一种车牌识别方法、装置、设备及计算机存储介质
CN112118411A (zh) * 2020-08-14 2020-12-22 视联动力信息技术股份有限公司 一种数据传输方法、装置、终端设备和存储介质
CN114584498B (zh) * 2020-12-01 2023-08-15 成都鼎桥通信技术有限公司 网关设备上下电测试方法、装置、设备、系统及产品
CN113253655B (zh) * 2021-06-01 2022-05-17 中富通集团股份有限公司 一种机房动力设备运行环境监控数据传输告警方法
CN115022207B (zh) * 2022-06-01 2023-03-28 山东云天安全技术有限公司 网络稳定性确定方法、装置、计算机设备及可读存储介质
CN114726758B (zh) * 2022-06-01 2022-11-04 山东云天安全技术有限公司 工业网络异常确定方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119753A (zh) * 2015-09-08 2015-12-02 中国联合网络通信集团有限公司 一种确定告警故障的方法及装置
CN106027326A (zh) * 2016-05-10 2016-10-12 杭州迪普科技有限公司 链路健康探测方法及装置
CN108683542A (zh) * 2018-05-22 2018-10-19 郑州云海信息技术有限公司 一种分布式存储系统的故障自诊断方法、系统及装置
CN108989135A (zh) * 2018-09-29 2018-12-11 新华三技术有限公司合肥分公司 网络设备故障检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9742638B1 (en) * 2013-08-05 2017-08-22 Amazon Technologies, Inc. Determining impact of network failures

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119753A (zh) * 2015-09-08 2015-12-02 中国联合网络通信集团有限公司 一种确定告警故障的方法及装置
CN106027326A (zh) * 2016-05-10 2016-10-12 杭州迪普科技有限公司 链路健康探测方法及装置
CN108683542A (zh) * 2018-05-22 2018-10-19 郑州云海信息技术有限公司 一种分布式存储系统的故障自诊断方法、系统及装置
CN108989135A (zh) * 2018-09-29 2018-12-11 新华三技术有限公司合肥分公司 网络设备故障检测方法及装置

Also Published As

Publication number Publication date
CN110224885A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110224885B (zh) 设备监控的告警方法、装置、存储介质及电子设备
KR102418969B1 (ko) 딥러닝 기반 통신망 장비의 장애 예측 시스템 및 방법
JP5418250B2 (ja) 異常検出装置、プログラム、及び異常検出方法
CN105376335B (zh) 一种采集数据上传方法和装置
CN113472607B (zh) 应用程序网络环境检测方法、装置、设备及存储介质
CN104065526B (zh) 一种服务器故障报警的方法和装置
US7933211B2 (en) Method and system for providing prioritized failure announcements
CN110659185A (zh) 一种基于真实用户感知的移动app用户体验监测方法
US11882024B2 (en) Application-aware links
KR102469441B1 (ko) 가상 게이트웨이 클러스터 전역 장애에 대한 모니터링 방법 및 장치
CN110224880B (zh) 一种心跳监测方法及监控设备
CN111147289B (zh) 告警关联关系确定方法、监测方法、装置、介质及设备
CN112367395A (zh) 一种报警阈值的修改方法、设备及计算机可读存储介质
US20200196172A1 (en) Network fault discovery
CN113254313A (zh) 一种监控指标异常检测方法、装置、电子设备及存储介质
CN114116128A (zh) 容器实例的故障诊断方法、装置、设备和存储介质
US10917203B2 (en) Estimate bit error rates of network cables
CN115333917A (zh) 一种cdn异常检测方法及装置
CN112134760A (zh) 链路状态监控方法、装置、设备及计算机可读存储介质
KR100807893B1 (ko) 서비스 데이터 네트워크 관리 시스템 및 그 운용 방법
CN112491635A (zh) 一种链路质量检测的方法、系统、实现设备及存储介质
CN110750418B (zh) 一种信息处理方法、电子设备和信息处理系统
US9311210B1 (en) Methods and apparatus for fault detection
CN109831342A (zh) 一种基于分布式系统的故障恢复方法
CN111506446B (zh) 接口故障检测方法及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant