CN113518020A - 一种断线回报侦测方法、装置、设备及可读存储介质 - Google Patents

一种断线回报侦测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113518020A
CN113518020A CN202111065715.1A CN202111065715A CN113518020A CN 113518020 A CN113518020 A CN 113518020A CN 202111065715 A CN202111065715 A CN 202111065715A CN 113518020 A CN113518020 A CN 113518020A
Authority
CN
China
Prior art keywords
target object
offline
state
counting
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111065715.1A
Other languages
English (en)
Inventor
杨子庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111065715.1A priority Critical patent/CN113518020A/zh
Publication of CN113518020A publication Critical patent/CN113518020A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种断线回报侦测方法、装置、设备及可读存储介质,该方法包括:对目标对象进行侦测;若目标对象当前状态为正常,则统计目标对象连续无回应的脱机统计次数,并在脱机统计次数达到第一阈值后,变更目标对象的状态为已脱机并输出脱机告警;若目标对象当前状态为已脱机,则统计目标对象连续有回应的在线统计次数,并在在线统计次数达到第二阈值后,变更目标对象的状态为正常;其中,第一阈值和第二阈值均大于1。本申请可解决因网络或是设备状态不稳定,导致侦测的结果时好时坏,从而发出许多假警报的问题;多次侦测到脱机才进行告警,还可降低告警次数,能够减少大量告警对管理者的干扰。

Description

一种断线回报侦测方法、装置、设备及可读存储介质
技术领域
本申请涉及监控技术领域,特别是涉及一种断线回报侦测方法、装置、设备及可读存储介质。
背景技术
通常,断线侦测回报机制会根据所需侦测的服务器一一设定测试的项目。通常一位管理者可能同时管理多台服务器或网络设备。当其中一台或多台设备出问题时,系统会通知该管理者。例如,一旦侦测到断线时,就会立刻发出警讯。采用这样的方法,很可能会因为一时的网络异常,或因设备忙碌一时无法回应,而发出假警报。这些假报警会对管理者造成干扰,如占用管理者对处理真警报的时间,甚至会出现管理者将真正的警报忽略,不利用设备管理。
综上所述,如何有效地解决断线侦测中的假警报等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本申请的目的是提供一种断线回报侦测方法、装置、设备及可读存储介质,对状态情况进行有效侦测,并统计状态情况,基于统计数据和相关阈值控制,实现缓冲回报机制,从而减少假警报。
为解决上述技术问题,本申请提供如下技术方案:
一种状态侦测方法,包括:
对目标对象进行侦测;
若所述目标对象当前状态为正常,则统计所述目标对象连续无回应的脱机统计次数,并在所述脱机统计次数达到第一阈值后,变更所述目标对象的状态为已脱机并输出脱机告警;
若所述目标对象当前状态为已脱机,则统计所述目标对象连续有回应的在线统计次数,并在所述在线统计次数达到第二阈值后,变更所述目标对象的状态为正常;
其中,所述第一阈值和所述第二阈值均大于1。
优选地,所述对目标对象进行侦测,包括:
利用PHP程序的开启socket方式,对所述目标对象进行侦测。
优选地,所述利用PHP程序的开启socket方式,对所述目标对象进行侦测,包括:
以脚本的方式,定时执行所述PHP程序中的ping子程序和tcping子程序,以对所述目标对象进行侦测;
其中,所述ping子程序,以开启socket的方式向所述目标对象发送ICMP 请求的封包;所述tcping子程序,以开启TCP socket联机检查所述目标对象的状态。
优选地,所述对目标对象进行侦测,包括:
对所述目标对象进行异地交互侦测。
优选地,所述输出脱机告警,包括:
将所述目标对象对应的断线回报讯息存入讯息池中;
定时扫描所述讯息池,若存在至少两个断线回报讯息对应同一个接收者,则将同一个接收者对应的至少两个断线回报讯息合并为一个断线回报讯息;
在合并完成后,向每一个接收者发送一个断线回报讯息。
优选地,在将所述目标对象对应的断线回报讯息存入讯息池中之后,还包括:
获取所述目标对象的持续脱机时间;
若所述脱机持续时间达到预设间隔周期,则返回执行将所述目标对象对应的断线回报讯息存入讯息池中的步骤。
优选地,所述对目标对象进行侦测,包括:
利用exec函数呼叫独立在PHP 脚本中的侦测程序,以便利用所述侦测程序对所述目标对象进行侦测。
一种断线回报侦测装置,包括:
侦测模块,用于对目标对象进行侦测;
告警状态切换模块,用于若所述目标对象当前状态为正常,则统计所述目标对象连续无回应的脱机统计次数,并在所述脱机统计次数达到第一阈值后,变更所述目标对象的状态为已脱机并输出脱机告警;
正常状态切换模块,用于若所述目标对象当前状态为已脱机,则统计所述目标对象连续有回应的在线统计次数,并在所述在线统计次数达到第二阈值后,变更所述目标对象的状态为正常;
其中,所述第一阈值和所述第二阈值均大于1。
一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述断线回报侦测方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述断线回报侦测方法的步骤。
应用本申请实施例所提供的方法,对目标对象进行侦测;若目标对象当前状态为正常,则统计目标对象连续无回应的脱机统计次数,并在脱机统计次数达到第一阈值后,变更目标对象的状态为已脱机并输出脱机告警;若目标对象当前状态为已脱机,则统计目标对象连续有回应的在线统计次数,并在在线统计次数达到第二阈值后,变更目标对象的状态为正常;其中,第一阈值和第二阈值均大于1。
本申请对状态情况进行有效侦测,并统计状态情况,基于统计数据和相关阈值控制,实现缓冲回报机制,从而减少假警报。具体的,缓冲回报机制的运作原理:当侦测到目标对象脱机时,必须侦测到连续脱机的脱机统计次数达到大于1的第一阈值,才确定目标对象确定脱机并输出脱机告警;在目标对象脱机的情况下,当侦测到目标对象在线时,必须侦测到连续在线的在线统计次数达到大于1的第二阈值,才确定目标对象确定上线。由于第一阈值和第二阈值均大于1,因而不会因为网络突然间的异常或目标对象一时的不稳定而频繁改变状态情况,而产生假警报的情况。即,本申请可解决因网络或是设备状态不稳定,导致侦测的结果时好时坏,从而发出许多假警报的问题;多次侦测到脱机才进行告警,还可降低告警次数,能够减少大量告警对管理者的干扰。
相应地,本申请实施例还提供了与上述断线回报侦测方法相对应的断线回报侦测装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种断线回报侦测方法的实施流程图;
图2为本申请实施例中一种缓冲回报状态示意图;
图3为本申请实施例中一种缓冲回报机制的时间抽比对示意图;
图4为位于断线侦测回报主机位于Server Farm网络上的示意图;
图5为位于断线侦测回报主机位于ADSL线路上的示意图;
图6为本申请实施例中一种异地侦测架构图;
图7为本申请实施例中不同回报方式比对示意图;
图8为本申请实施例中一种断线回报侦测装置的结构示意图;
图9为本申请实施例中一种电子设备的结构示意图;
图10为本申请实施例中一种电子设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例中一种断线回报侦测方法的流程图,该方法包括以下步骤:
S101、对目标对象进行侦测。
其中,目标对象可以具体为需要进行断线侦测回报的设备或服务。
在本实施例中,可以采用常用的侦测实现方案对目标对象进行侦测。即确定目标对象当前时刻是脱机(离线)还是上线。例如,可以向目标对象发送消息,并接收应答的方式来确定目标对象当前时刻是脱机还是上线,即若能够在收到应答则确定为上线,若接收不到应答则为脱机。
S102、若目标对象当前状态为正常,则统计目标对象连续无回应的脱机统计次数,并在脱机统计次数达到第一阈值后,变更目标对象的状态为已脱机并输出脱机告警。
通常,目标对象的状态可以在正常与已脱机之间进行切换。但是,在本实施例中,由于引用了缓冲回报机制,因而目标对象的状态不仅仅是正常或已脱机,还可以处于二者之间,如正常-已脱机阶段,已脱机-正常阶段。
为了便于说明,在本实施例中对目标对象的状态进行了精细划分,包括但不限于以下状态:
ON:服务/设备的状态是正常;
ON-OFF:服务/设备无回应,但连续无回应的次数,尚未累积到被认定成已脱机的标准;
OFF-SMS:服务/设备被认定为已脱机,系统会寄发警告讯息;
OFF:服务/设备被认定为已脱机,系统不寄发警告讯息;
OFF-ON:服务/设备正常回应,但连续正常回应的次数,尚未累积到被认定成状态是正常的标准。
也就是说,倘若目标对象当前状态为正常,即处于ON状态,则统计目标对象连续无回应的脱机统计次数,并在脱机统计次数达到第一阈值后,变更目标对象的状态为已脱机并输出脱机告警。
举例说明:假设第一阈值为2,且目标对象的当前状态为正常,目标对象连续无回应的统计脱机次数为f1,则在f1=0时,目标对象的当前状态仍然为ON状态;若f1=1,则目标对象的当前状态为ON-OFF;若f1≥2,则目标对象的当前状态为OFF,且在f1=2,目标对象的当前状态还同时对应OFF-SMS(即在f1达到第一阈值时进行告警)。
S103、若目标对象当前状态为已脱机,则统计目标对象连续有回应的在线统计次数,并在在线统计次数达到第二阈值后,变更目标对象的状态为正常。
其中,第一阈值和第二阈值均大于1。
也就是说,倘若目标对象当前状态为正常,即处于ON状态,则统计目标对象连续有回应的在线统计次数,并在在线统计次数达到第二阈值后,变更目标对象的状态为正常。
举例说明:假设第二阈值为2,且目标对象的当前状态为已脱机,目标对象连续无回应的统计脱机次数为f2,则在f2=0时,目标对象的当前状态仍然为OFF状态(或OFF-SMS状态);若f2=1,则目标对象的当前状态为OFF-ON;若f2≥2,则目标对象的当前状态为ON。
需要说明的是,第一阈值和第二阈值仅用于区别这两个阈值是针对不同的状态切换而设置,而并非是指具有主次、先后等限定意义。
为便于理解,下面对目标对象的各种状态变更进行举例说明。
请参考图2,图2为本申请实施例中一种缓冲回报状态示意图。
其中,图中的transition a和transition b为侦测的结果,其说明如下:
a:侦测到服务/设备正常;
b:侦测到服务/设备断线。
F:用来判断状态是否应改变的变量,具体的,当状态由ON至OFF方向,则F表示脱机统计次数;当状态由OFF至ON方向,则F表示在线统计次数越来越多,因而脱机统计次数被降值。在图2所示的缓冲回报状态示意图中,第一阈值和第二阈值均为3。
以目标对象为设备为例,缓冲回报机制的运作原理说明如下:当侦测到设备断线时,必须连续侦测三次断线才会发出警报;当发出警报之后,如果有侦测到上线情况,则不会立即认为该设备已经上线,而是采用缓冲的方式,连续侦测三次上线,才会认为设备真正上线。
如此,便能够有效避免设备一下子上线,一下子断线,造成系统不断的发出警报(即产生假警报问题)。
一般回报与缓冲回报机制,最主要的差异可参考图3所示的时间轴图示。在图3中,S1、S2、S3为一般回报;S1’、S2’、S3’则是缓冲回报。在S1和S1’中,只有两次侦测断线并不会发出回报通知。在S2和S2’中,侦测到连续三次以上的断线,也只会发出一次的回报通知。在比较S3和S3’可知,S3在网络不稳定的情况之下,会发出多次的回报通知讯息,而采用缓冲回报机制的S3’,在网络不稳定的情况之下,只会发出一次的回报通知,不会发出额外不需要的回报通知(即告警)。
应用本申请实施例所提供的方法,对目标对象进行侦测;若目标对象当前状态为正常,则统计目标对象连续无回应的脱机统计次数,并在脱机统计次数达到第一阈值后,变更目标对象的状态为已脱机并输出脱机告警;若目标对象当前状态为已脱机,则统计目标对象连续有回应的在线统计次数,并在在线统计次数达到第二阈值后,变更目标对象的状态为正常;其中,第一阈值和第二阈值均大于1。
本申请对状态情况进行有效侦测,并统计状态情况,基于统计数据和相关阈值控制,实现缓冲回报机制,从而减少假警报。具体的,缓冲回报机制的运作原理:当侦测到目标对象脱机时,必须侦测到连续脱机的脱机统计次数达到大于1的第一阈值,才确定目标对象确定脱机并输出脱机告警;在目标对象脱机的情况下,当侦测到目标对象在线时,必须侦测到连续在线的在线统计次数达到大于1的第二阈值,才确定目标对象确定上线。由于第一阈值和第二阈值均大于1,因而不会因为网络突然间的异常或目标对象一时的不稳定而频繁改变状态情况,而产生假警报的情况。即,本申请可解决因网络或是设备状态不稳定,导致侦测的结果时好时坏,从而发出许多假警报的问题;多次侦测到脱机才进行告警,还可降低告警次数,能够减少大量告警对管理者的干扰。
需要说明的是,基于上述实施例,本申请实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。
在本申请中的一种具体实施方式中,为了避免SNMP(Simple Network ManagementProtocol,简单网络管理协议)可能造成的问题,在本实施例中可以不使用SNMP来建置系统,而是利用开启TCP socket方式来侦测网络或服务器的上线状态。
其中,利用Switch上的SNMP 功能,建置一套警报系统,当网络断线时,系统会以电子邮件或是简讯的方式通知网管人员。SNMP是网管人员的一大帮手,但是要使用SNMP进行网络管理时,会有几个问题。首先,网络设备必须要能支持SNMP功能;其次,若要监管的是服务器,则服务器必须要安装并启动SNMP服务。此外,当网络设备或是服务器启动SNMP时,则会有被黑客入侵的潜在危险。
在本实施例中,利用开启TCP socket(tcp套接字)方式来对网络设备或是服务器进行联机状态测试时,除了可以用基本的ICMP(Internet Control Message Protocol,互联网控制消息协议)来测试设备的联机外,也可以针对服务器特定的服务进行测试,以避免机器本身可以联机但是却无法提供服务的状况。同时,利用开启TCP socket联机来测试的方式,可以对所有的TCP网络服务进行测试,而不需要对每一种服务撰写一支专属的程序。除了可以减少程序开发的时间之外,更可以增加系统的通用性。
实施过程中,即上述步骤S101对目标对象进行侦测,包括:利用PHP程序的开启socket方式,对目标对象进行侦测。具体的,以脚本的方式,定时执行PHP程序中的ping子程序和tcping子程序,以对目标对象进行侦测;其中,ping子程序,以开启socket的方式向目标对象发送ICMP请求(request)的封包;tcping子程序,以开启TCP socket联机检查目标对象的状态。
也就是说,在本实施例中,为了避免使用SNMP所带来的问题,本系统不使用SNMP来侦测,而是使用PHP程序的开启socket方式,来侦测设备的上线状态。之所以会选用PHP程序,是因为侦测上线状态必须是一个可在背景定时执行的脚本(script),发送回报通知的简讯以及电子邮件也是script,而侦测到的结果希望能以网页的方式呈现出来。PHP 程序不仅能够撰写网页程序,同时也可以script的方式来执行,对于程序开发或是后续维护人员而言,仅需熟悉一种程序语言即可。
使用PHP来侦测设备或服务器上线状况的程序代码如下所示:
function ping($host)
$packet="\x08\x00\x8e\xff\x00\x00\x00\x00\x69";
$socket=socket_create(AF_INET,SOCK_RAW,1);
socket_connect($socket,$host,null);
socket_send($socket,$packet,strlen($packet),0);
$result=socket_read($socket,255);
function tcping($host,$port)
$socket=socket_create(AF_INET,SOCK_STREAM, SOL_TCP);
$result=socket_connect($socket,$host,$port);
其中,ping子程序是利用开启socket的方式来送出ICMP request的封包;而tcping子程序则是以开启TCP socket联机来检查服务器特定服务的状态。并将这支PHP程序以脚本的方式,运用crontab(设定让系统定时自动执行指定的指令或程式)定时执行,即可定时检查设备或服务器当时的上线状态。
在本申请中的一种具体实施方式中,考虑到如果执行断线回报侦测方法的这台主机是放置在区内,当对外联机不通时,断线侦测回报机制对于区内所有设备都会认为是上线状态,为了解决这一问题,在本实施例中提出异地交互侦测来解决此问题。即上述步骤S101对目标对象进行侦测,可以具体为:对目标对象进行异地交互侦测。
为便于理解异地交互侦测,结合相关技术对异地交互侦测进行简要说明:
首先,断线侦测回报主机主要目的是为了要侦测区内的网络设备或是服务器发生不正常断线的状况。通常这台主机会放置在Server Farm(服务器群集是计算机服务器的一个集合)或是其他的网段,如图4所示,其中Service Monitor为断线侦测回报主机。这时会有几种状况发生。首先,假设对外的网络联机发生问题时,由于断线侦测主机是放置在区内,因此可能侦测到区内设备以及服务器仍然是上线状态,即使可以侦测对外联机不通,管理者也无法收到发出的电子邮件,而且系统也无法透过网络来传送简讯。为了避免这种问题发生,断线侦测服务器不应该放置在区内的骨干网络上。一般除了有连接到TANET的网络外,通常都还会申请其他固网业者的ADSL(Asymmetric Digital Subscriber Line,非对称数字用户线路又称非对称数字用户回路)线路,当成是备援或是负载平衡来使用,因此,建议将该主机放置在ADSL线路上,才能侦测到TANET断线。其网络架构如图5所示。
即使将断线侦测回报主机放置在ADSL线路上,仍然还有几个问题存在。该主机在线路上虽然已经和TANET网络分开,但是实体放置的位置却是在同一个机房内,这会面临到另一个问题,那就是假设全区或是机房因故停电,则断线侦测主机自然也会因为没有电源而无法发挥作用。另一个问题是,断线侦测主机本身的Single Point of Failure(单点故障),也就是说,假如这台主机本身无法正常运作,则所有的异常断线都无法侦测到。因此,建议采用异地侦测的机制,同时也必须存在交互侦测的系统,才能确保系统能正常运作。异地侦测架构如图6所示。
此架构的说明如下。有些可能会有多个地区,或是可以与其他地区合作,在本区以及第二地分别架设一台断线侦测回报主机。放置在Server Farm ADSL线路上的主机称为master(主),提供主要的侦测回报服务。放置在第二地的服务器称为slave(备),其主要的目的是定时侦测master的上线状态。一旦slave发现master已经断线,则slave除了会回报给断线侦测回报系统的管理者之外,同时slave也会接管master的工作,继续侦测区内设备及服务器的状态,如此才能避免Single Point of Failure的问题。当然,为了确保slave能够正运作,master当然也必须要随时侦测salve的上线状态。
在本申请中的一种具体实施方式中,为了避免大量重复的告警对管理者造成干扰,还可以进行精简汇报。具体的实现过程,即步骤S102中的输出脱机告警,包括:
步骤一、将目标对象对应的断线回报讯息存入讯息池中;
步骤二、定时扫描讯息池,若存在至少两个断线回报讯息对应同一个接收者,则将同一个接收者对应的至少两个断线回报讯息合并为一个断线回报讯息;
步骤三、在合并完成后,向每一个接收者发送一个断线回报讯息。
为便于描述,下面将上述三个步骤结合起来进行说明。
通常,断线侦测回报机制会根据所需侦测的服务器一一设定测试的项目,但是,通常一位管理者可能同时管理多台服务器或网络设备。当其中一台设备出问题时,系统会通知该管理者。但是,当对外网络不通时,则系统会发现同时有多台设备断线,然后一一发送电子邮件以及简讯给管理者。假设某位管理者负责二十部服务器,则在这种情况下,管理者可能会收到二十通简讯,除了造成管理者的困扰之外,同时也浪费简讯资源。
因此,针对回报机制,本实施例根据管理者来发送通知讯息而不是根据每台设备发出通知讯息。在上述的情况中,即使该管理者所管的二十台服务器同时被侦测到已断线时,管理者也只会收到一封邮件以及一通简讯,内容则会包含这二十台服务器的详细信息。
具体的,在本实施例中,采用message pool(讯息池)的方式,来解决上述问题。当系统针对某一设备发出断线回报时,断线回报讯息会先被放置在message pool中。真正负责发出简讯以及电子邮件的程序,会定时扫描message pool,并且先把message pool中同一个接收者的多个messages(本文中指断线回报讯息)合并成一个之后才发出。实际运作方式如图7所示,其中,图7的上半部是一般的回报方式,下半部为采用message pool的回报方式。在图中可明显看出,采用message pool方式可以减少大量的通知讯息给同一位用户。
进一步,当系统侦测到设备断线时会发出断线回报通知讯息,如果这个断线通知讯息仅发出一次的话,则可能会因为管理者一时的疏忽而漏掉这个通知讯息。系统初期的设计,是每隔一段固定的时间(例如五分钟)就发出一次讯息。但是根据实际执行的结果发现,以这种持续性的发出简讯,对管理者而言也是一种困扰,因为如果设备是在半夜发生问题,则管理者可能整夜收到数十通简讯。且,即便是设备或服务上线之后,仍然会持续性的发出简讯,会严重干扰管理者。为了解决这一问题,在执行上述步骤一在将目标对象对应的断线回报讯息存入讯息池中之后,还包括:
获取目标对象的持续脱机时间;
若脱机持续时间达到预设间隔周期,则返回执行将目标对象对应的断线回报讯息存入讯息池中的步骤。
也就是说,在本实施例中,可采用累计时间的方式来传送讯息。例如,系统可以在第一次发现脱机状态时发出简讯,如果持续脱机的话,半小时后发出第二通简讯,二小时后再发出第三通,八小时后发出第四通,而不同的服务器或设备,发出回报通知的间隔时间,是可以依需求调整的。如此,才能够持续地用较不扰人的方式提醒管理者。
在本申请中的一种具体实施方式中,为了提高侦测效率,还可以对多个目标对象进行平行侦测。即,上述步骤S101对目标对象进行侦测,包括:利用exec函数呼叫独立在PHP脚本中的侦测程序,以便利用侦测程序对目标对象进行侦测。
具体的,在缓冲回报机制中,时间对系统的影响是非常重要的。通常断线侦测回报机制所要侦测设备的IP以及port number(通讯端口号码)都是储存在数据库中。当程序从数据库中取出所要侦测的设备后,通常是以循序的方式一台一台侦测。如果设备是上线的情况,则很快就会有回应;如果设备是断线状态,则系统必须等待timeout(超时命令/指令)时间到之后,才能确定设备为断线状态。由于侦测设备数量很多,且要等待timeout,因此可能会造成所有的设备测试完成一次所花的时间较长,而影响到缓冲回报机制的运作。
为了解决这个问题,由于PHP缺乏multithread(线程)的功能,所以在实施例中,将侦测程序独立在一个PHP(一种开源的通用计算机手稿语言)脚本中。当主程序侦测每一个设备(或服务)时,都必须以exec()(exec函数,程式的命令函数)的方式呼叫侦测程序。如此,系统中就可以有许多侦测程序同时地侦测不同的设备/服务,然后各自将侦测的结果储存到数据库中。而侦测程序之间不会相互影响。
相应于上面的方法实施例,本申请实施例还提供了一种断线回报侦测装置,下文描述的断线回报侦测装置与上文描述的断线回报侦测方法可相互对应参照。
参见图8所示,该装置包括以下模块:
侦测模块101,用于对目标对象进行侦测;
告警状态切换模块102,用于若目标对象当前状态为正常,则统计目标对象连续无回应的脱机统计次数,并在脱机统计次数达到第一阈值后,变更目标对象的状态为已脱机并输出脱机告警;
正常状态切换模块103,用于若目标对象当前状态为已脱机,则统计目标对象连续有回应的在线统计次数,并在在线统计次数达到第二阈值后,变更目标对象的状态为正常;
其中,第一阈值和第二阈值均大于1。
应用本申请实施例所提供的装置,对目标对象进行侦测;若目标对象当前状态为正常,则统计目标对象连续无回应的脱机统计次数,并在脱机统计次数达到第一阈值后,变更目标对象的状态为已脱机并输出脱机告警;若目标对象当前状态为已脱机,则统计目标对象连续有回应的在线统计次数,并在在线统计次数达到第二阈值后,变更目标对象的状态为正常;其中,第一阈值和第二阈值均大于1。
本申请对状态情况进行有效侦测,并统计状态情况,基于统计数据和相关阈值控制,实现缓冲回报机制,从而减少假警报。具体的,缓冲回报机制的运作原理:当侦测到目标对象脱机时,必须侦测到连续脱机的脱机统计次数达到大于1的第一阈值,才确定目标对象确定脱机并输出脱机告警;在目标对象脱机的情况下,当侦测到目标对象在线时,必须侦测到连续在线的在线统计次数达到大于1的第二阈值,才确定目标对象确定上线。由于第一阈值和第二阈值均大于1,因而不会因为网络突然间的异常或目标对象一时的不稳定而频繁改变状态情况,而产生假警报的情况。即,本申请可解决因网络或是设备状态不稳定,导致侦测的结果时好时坏,从而发出许多假警报的问题;多次侦测到脱机才进行告警,还可降低告警次数,能够减少大量告警对管理者的干扰。
在本申请的一种具体实施方式中,侦测模块101,具体用于利用PHP程序的开启socket方式,对目标对象进行侦测。
在本申请的一种具体实施方式中,侦测模块101,具体用于以脚本的方式,定时执行PHP程序中的ping子程序和tcping子程序,以对目标对象进行侦测;其中,ping子程序,以开启socket的方式向目标对象发送ICMP请求的封包;tcping子程序,以开启TCP socket联机检查目标对象的状态。
在本申请的一种具体实施方式中,侦测模块101,具体用于对目标对象进行异地交互侦测。
在本申请的一种具体实施方式中,告警状态切换模块102,具体用于将目标对象对应的断线回报讯息存入讯息池中;定时扫描讯息池,若存在至少两个断线回报讯息对应同一个接收者,则将同一个接收者对应的至少两个断线回报讯息合并为一个断线回报讯息;在合并完成后,向每一个接收者发送一个断线回报讯息。
在本申请的一种具体实施方式中,告警状态切换模块102,具体用于在将目标对象对应的断线回报讯息存入讯息池中之后,获取目标对象的持续脱机时间;若脱机持续时间达到预设间隔周期,则返回执行将目标对象对应的断线回报讯息存入讯息池中的步骤。
在本申请的一种具体实施方式中,侦测模块101,具体用于利用exec函数呼叫独立在PHP 脚本中的侦测程序,以便利用侦测程序对目标对象进行侦测。
相应于上面的方法实施例,本申请实施例还提供了一种电子设备,下文描述的一种电子设备与上文描述的一种断线回报侦测方法可相互对应参照。
参见图9所示,该电子设备包括:
存储器332,用于存储计算机程序;
处理器322,用于执行计算机程序时实现上述方法实施例的断线回报侦测方法的步骤。
具体的,请参考图10,图10为本实施例提供的一种电子设备的具体结构示意图,该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储器332通信,在电子设备301上执行存储器332中的一系列指令操作。
电子设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的断线回报侦测方法中的步骤可以由电子设备的结构实现。
相应于上面的方法实施例,本申请实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种断线回报侦测方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的断线回报侦测方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

Claims (10)

1.一种断线回报侦测方法,其特征在于,包括:
对目标对象进行侦测;
若所述目标对象当前状态为正常,则统计所述目标对象连续无回应的脱机统计次数,并在所述脱机统计次数达到第一阈值后,变更所述目标对象的状态为已脱机并输出脱机告警;
若所述目标对象当前状态为已脱机,则统计所述目标对象连续有回应的在线统计次数,并在所述在线统计次数达到第二阈值后,变更所述目标对象的状态为正常;
其中,所述第一阈值和所述第二阈值均大于1。
2.根据权利要求1所述的断线回报侦测方法,其特征在于,所述对目标对象进行侦测,包括:
利用PHP程序的开启socket方式,对所述目标对象进行侦测。
3.根据权利要求2所述的断线回报侦测方法,其特征在于,所述利用PHP程序的开启socket方式,对所述目标对象进行侦测,包括:
以脚本的方式,定时执行所述PHP程序中的ping子程序和tcping子程序,以对所述目标对象进行侦测;
其中,所述ping子程序,以开启socket的方式向所述目标对象发送ICMP请求的封包;所述tcping子程序,以开启TCP socket联机检查所述目标对象的状态。
4.根据权利要求1所述的断线回报侦测方法,其特征在于,所述对目标对象进行侦测,包括:
对所述目标对象进行异地交互侦测。
5.根据权利要求1所述的断线回报侦测方法,其特征在于,所述输出脱机告警,包括:
将所述目标对象对应的断线回报讯息存入讯息池中;
定时扫描所述讯息池,若存在至少两个断线回报讯息对应同一个接收者,则将同一个接收者对应的至少两个断线回报讯息合并为一个断线回报讯息;
在合并完成后,向每一个接收者发送一个断线回报讯息。
6.根据权利要求5所述的断线回报侦测方法,其特征在于,在将所述目标对象对应的断线回报讯息存入讯息池中之后,还包括:
获取所述目标对象的持续脱机时间;
若所述脱机持续时间达到预设间隔周期,则返回执行将所述目标对象对应的断线回报讯息存入讯息池中的步骤。
7.根据权利要求1至6任一项所述的断线回报侦测方法,其特征在于,所述对目标对象进行侦测,包括:
利用exec函数呼叫独立在PHP 脚本中的侦测程序,以便利用所述侦测程序对所述目标对象进行侦测。
8.一种断线回报侦测装置,其特征在于,包括:
侦测模块,用于对目标对象进行侦测;
告警状态切换模块,用于若所述目标对象当前状态为正常,则统计所述目标对象连续无回应的脱机统计次数,并在所述脱机统计次数达到第一阈值后,变更所述目标对象的状态为已脱机并输出脱机告警;
正常状态切换模块,用于若所述目标对象当前状态为已脱机,则统计所述目标对象连续有回应的在线统计次数,并在所述在线统计次数达到第二阈值后,变更所述目标对象的状态为正常;
其中,所述第一阈值和所述第二阈值均大于1。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述断线回报侦测方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述断线回报侦测方法的步骤。
CN202111065715.1A 2021-09-13 2021-09-13 一种断线回报侦测方法、装置、设备及可读存储介质 Pending CN113518020A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111065715.1A CN113518020A (zh) 2021-09-13 2021-09-13 一种断线回报侦测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111065715.1A CN113518020A (zh) 2021-09-13 2021-09-13 一种断线回报侦测方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113518020A true CN113518020A (zh) 2021-10-19

Family

ID=78063232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111065715.1A Pending CN113518020A (zh) 2021-09-13 2021-09-13 一种断线回报侦测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113518020A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448716A (zh) * 2022-02-28 2022-05-06 奇安信科技集团股份有限公司 工控安全的控制方法及电子设备、存储介质
CN114666242A (zh) * 2022-03-14 2022-06-24 北京计算机技术及应用研究所 一种高效的基于api网关的服务健康检查方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106130827A (zh) * 2016-08-30 2016-11-16 杭州迪普科技有限公司 网络设备可达性的检测方法和装置
CN108964947A (zh) * 2017-05-18 2018-12-07 腾讯科技(深圳)有限公司 后台服务质量检测方法和装置、计算机设备
US20200287916A1 (en) * 2019-03-07 2020-09-10 F-Secure Corporation Method of threat detection in a computer network security system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106130827A (zh) * 2016-08-30 2016-11-16 杭州迪普科技有限公司 网络设备可达性的检测方法和装置
CN108964947A (zh) * 2017-05-18 2018-12-07 腾讯科技(深圳)有限公司 后台服务质量检测方法和装置、计算机设备
US20200287916A1 (en) * 2019-03-07 2020-09-10 F-Secure Corporation Method of threat detection in a computer network security system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448716A (zh) * 2022-02-28 2022-05-06 奇安信科技集团股份有限公司 工控安全的控制方法及电子设备、存储介质
CN114666242A (zh) * 2022-03-14 2022-06-24 北京计算机技术及应用研究所 一种高效的基于api网关的服务健康检查方法

Similar Documents

Publication Publication Date Title
EP1360796B1 (en) Method and system for a set of network appliances which can be connected to provide enhanced collaboration, scalability, and reliability
US6038288A (en) System and method for maintenance arbitration at a switching node
US5922051A (en) System and method for traffic management in a network management system
CN113518020A (zh) 一种断线回报侦测方法、装置、设备及可读存储介质
CN103607297A (zh) 一种计算机集群系统的故障处理方法
US7430688B2 (en) Network monitoring method and apparatus
JP2004021549A (ja) ネットワーク監視システムおよびプログラム
EP1890427B1 (en) A system and method for monitoring the device port state
CN112035319B (zh) 一种针对多路径状态的监控告警系统
JP2013030826A (ja) ネットワーク監視システム、ネットワーク監視方法
US20030135773A1 (en) Remote sensing of power supply states
CN101631048A (zh) 一种监视被管理对象的方法、装置及系统
CN111698127A (zh) 一种网络内设备的状态监控系统、方法和装置
EP1622310B1 (en) Administration method and system for network management systems
CN117579651A (zh) 物联网系统
CN113381884B (zh) 用于监控告警系统的全链路监控方法及装置
CN102185720A (zh) 一种北向通知管理接口装置及其管理方法
CN112636999A (zh) 一种端口的探测方法和网络监控系统
JPH07319836A (ja) 障害監視方式
CN112162897A (zh) 一种公用智能设备管理方法及系统
CN111064609A (zh) 消息系统的主从切换方法、装置、电子设备及存储介质
CN115242669B (zh) 一种网络质量监测方法
JPH0311841A (ja) ローカルエリアネットワーク
JP3398702B2 (ja) 通信システム
CN117194166A (zh) 串口外接设备监控方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211019

RJ01 Rejection of invention patent application after publication