CN114422412A - 一种设备检测方法、装置和通信设备 - Google Patents

一种设备检测方法、装置和通信设备 Download PDF

Info

Publication number
CN114422412A
CN114422412A CN202011093314.2A CN202011093314A CN114422412A CN 114422412 A CN114422412 A CN 114422412A CN 202011093314 A CN202011093314 A CN 202011093314A CN 114422412 A CN114422412 A CN 114422412A
Authority
CN
China
Prior art keywords
equipment
response
time period
heartbeat data
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011093314.2A
Other languages
English (en)
Other versions
CN114422412B (zh
Inventor
帅煜韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202011093314.2A priority Critical patent/CN114422412B/zh
Priority to PCT/CN2021/114169 priority patent/WO2022078070A1/zh
Publication of CN114422412A publication Critical patent/CN114422412A/zh
Application granted granted Critical
Publication of CN114422412B publication Critical patent/CN114422412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种设备检测方法、装置和通信设备,该方法包括:当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括第一设备、第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况;根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括所述第二设备发生故障或者第二设备与第一设备之间的传输链路发生故障。本方法利用周边设备检测的历史心跳数据和设备自身获取的历史心跳数据对处于异常状态的设备进行检测,提高了分布式网络内设备故障检测的准确率,避免网络波动下导致的误判。

Description

一种设备检测方法、装置和通信设备
技术领域
本申请涉及通信领域,尤其是涉及一种设备检测方法、装置和通信设备。
背景技术
在分布式网络中,为了及时获取网络中各个网络设备的状态,通常会采用心跳检测法来检测网络中的各个设备是否发生故障。具体地,心跳检测法是指一个设备周期性地向另一个设备发送心跳数据包,然后根据另一个设备反馈的响应数据包情况来确定接收端设备是否处于正常状态。比如图1所示,设备1定期地向设备2发送心跳数据包,然后等待设备2反馈响应数据包,如果在预设时间段内,设备1未接收到设备2发送的响应数据包,则设备1会判定设备2发生了故障,此时需要上报告警信息。
技术人员在实践过程中发现,在采用心跳检测法对设备的状态进行检测时,可能由于网络波动现象导致系统误判。比如网络波动时,可能出现网络线路时通时断的情况,进而导致发送端设备或者路由器,比如设备1定期发送的心跳数据包丢包,或者称为“概率性丢包”,从而导致接收端的设备2不会发送响应数据包,此时设备1只能判断出设备2发生故障,但实际上有可能是设备1和设备2之间的传输线路发生故障,而设备2本身并未发生故障,因此,采用心跳检测法不能准确地检测出设备实际的状态,准确率较低。
发明内容
本申请实施例提供了一种设备检测方法、装置和通信设备,用于解决分布式网络中发生网络波动时无法准确检测设备状态的技术问题。为了解决该技术问题,本申请公开了以下技术方案:
第一方面,本申请提供了一种设备检测方法,该方法包括:当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括所述第一设备、所述第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况;根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括所述第二设备发生故障,或者所述第二设备与所述第一设备之间的传输链路发生故障。
本方法,利用两个周边设备检测的历史心跳数据,和设备自身获取的历史心跳数据对处于异常状态的设备进行检测,通过比较各设备过去一段时间内的超时次数,确定出发生故障的原因是设备本身的故障,或者是概率性丢包导致的链路故障,由于获取的历史心跳数据是多个设备互相检测和上报的心跳超时情况,利用全局信息进行决策,所以相比于单一设备的历史心跳数据检测,本方法提高了分布式网络内设备故障检测的准确率,从而避免网络波动情况下由于概率性丢包导致的误判。
结合第一方面,在第一方面的一种可能的实现方式中,根据所述历史心跳数据中每个设备检测所述应答响应情况,确定所述第二设备应答响应超时的原因,包括:根据所述每个设备检测的所述应答响应情况分别确定所述第一设备、所述第二设备和所述第三设备在所述第一时间段内的应答响应超时总数N1,N2和N3;当满足第一条件时,确定所述原因是所述第二设备发生故障,所述第一条件为:所述第二设备对应的所述应答响应超时总数N2最大,且所述第三设备对应的所述应答响应超时总数N3大于0。
本实现方式中,利用第一条件能够准确地检测出故障是否属于设备本身故障,从而提升了分布式网络在网络波动场景下故障检测的准确率。
结合第一方面,在第一方面的另一种可能的实现方式中,当满足第二条件时,确定所述原因是,所述第二设备与所述第一设备之间的传输链路发生故障,所述第二条件为:所述第一设备对应的所述应答响应超时总数N1大于0,所述第二设备对应的所述应答响应超时总数N2大于0,且所述第三设备对应的所述应答响应超时总数N3等于0。
本实现方式中,利用第二条件能够准确地检测出故障是否属于设备与设备之间的传输链路发生故障,从而提升了分布式网络在网络波动场景下故障检测的准确率。
结合第一方面,在第一方面的又一种可能的实现方式中,所述历史心跳数据包括:
所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12,所述第一设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a13;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21,所述第二设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a23;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31。在上述所包含的历史心跳数据情况下,所述第一条件为:N2>N1,N2>N3,且N3>0;其中,N1=a12+a13+a21+a31,N2=a12+a21+a23+a32,N3=a13+a23+a31+a32
结合第一方面,在第一方面的又一种可能的实现方式中,在上述所包含的历史心跳数据情况下,还包括所述第二条件为N1=N2>0,N3=0。其中,N1=a12+a13+a21+a31,N2=a12+a21+a23+a32,N3=a13+a23+a31+a32
结合第一方面,在第一方面的又一种可能的实现方式中,当所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32。在上述所包含的历史心跳数据情况下,所述第一条件为:a12>0,a21>0,且a32>0;所述第二条件为:a12>0,a21>0,且a32=0。
结合第一方面,在第一方面的又一种可能的实现方式中,当所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31。在上述所包含的历史心跳数据情况下,所述第一条件为:a12>0,a21>0,且a32+a23>0;所述第二条件为:a12>0,a21>0,且a32+a23=0。
结合第一方面,在第一方面的又一种可能的实现方式中,获取所述第一设备在第一时间段内同步的所述第三设备上报的历史心跳数据之前,还包括:在两个或两个以上设备中选择所述第三设备,所述第三设备为在所述第一设备向两个或两个以上设备中的每个设备发送获取历史心跳数据的请求的情况下,接收到的第一个历史心跳数据所来自的设备。
结合第一方面,在第一方面的又一种可能的实现方式中,所述第一设备检测到第二设备反馈的应答响应超时之前,还包括:周期性地向网络中的所述第二设备和所述第三设备发送心跳数据包;分别接收来自所述第二设备和所述第三设备根据所述心跳数据包反馈的应答响应;统计所述第一时间段内所述第二设备反馈应答响应的累计超时次数,和,所述第三设备反馈应答响应的累计超时次数。
本实现方式中,分布式网络中的各个设备周期性地获取过去一段时间内其他设备的心跳超时情况,并同步这些设备的历史心跳数据,从而为发生故障时提供精准检测做准备。
第二方面,本申请提供了一种设备检测装置,所述装置包括:数据同步模块,当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括所述第一设备、所述第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况;处理模块,用于根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括:所述第二设备发生故障,或者所述第二设备与所述第一设备之间的传输链路发生故障。
结合第二方面,在第二方面的一种可能的实现方式中,所述处理模块,具体用于根据所述每个设备检测的所述应答响应情况分别确定所述第一设备、所述第二设备和所述第三设备在所述第一时间段内的应答响应超时总数N1,N2和N3,以及,当满足第一条件时,确定所述原因是所述第二设备发生故障;所述第一条件为:所述第二设备对应的所述应答响应超时总数N2最大,且所述第三设备对应的所述应答响应超时总数N3大于0。
结合第二方面,在第二方面的另一种可能的实现方式中,所述处理模块,还用于当满足第二条件时,确定所述原因是所述第二设备与所述第一设备之间的传输链路发生故障;所述第二条件为:所述第一设备对应的所述应答响应超时总数N1大于0,所述第二设备对应的所述应答响应超时总数N2大于0,且所述第三设备对应的所述应答响应超时总数N3等于0。
结合第二方面,在第二方面的又一种可能的实现方式中,当所述历史心跳数据包括以下参数时:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12,所述第一设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a13;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21,所述第二设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a23;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31
所述第一条件为:N2>N1,N2>N3,且N3>0;其中,N1=a12+a13+a21+a31,N2=a12+a21+a23+a32,N3=a13+a23+a31+a32
进一步地,在这种情况下,所述第二条件为N1=N2>0,N3=0。
结合第二方面,在第二方面的又一种可能的实现方式中,当所述历史心跳数据包括以下参数时:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32
所述第一条件为:a12>0,a21>0,且a32>0;所述第二条件为:a12>0,a21>0,且a32=0。
结合第二方面,在第二方面的又一种可能的实现方式中,当所述历史心跳数据包括以下参数时:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31
所述第一条件为:a12>0,a21>0,且a32+a23>0;所述第二条件为:a12>0,a21>0,且a32+a23=0。
结合第二方面,在第二方面的又一种可能的实现方式中,所述处理模块,还用于在两个或两个以上设备中选择所述第三设备,所述第三设备为在所述第一设备向两个或两个以上设备中的每个设备发送获取历史心跳数据的请求的情况下,通过所述数据同步模块接收到的第一个历史心跳数据所来自的设备。
结合第二方面,在第二方面的又一种可能的实现方式中,还包括:心跳检测模块,用于在所述第一设备检测到第二设备反馈的应答响应超时之前,周期性地向网络中的所述第二设备和所述第三设备发送心跳数据包;采样模块,用于分别接收来自所述第二设备和所述第三设备根据所述心跳数据包反馈的应答响应,并统计所述第一时间段内所述第二设备反馈应答响应的累计超时次数,和,所述第三设备反馈应答响应的累计超时次数。
第三方面,本申请还提供了一种芯片系统,该芯片系统包括处理器和存储器,其中,处理器与存储器耦合,存储器用于存储计算机程序指令;处理器用于执行存储器中存储的所述指令,以使得所述芯片系统执行前述第一方面及第一方面各种实现方式中的方法。
此外,所述芯片系统中还包括接口电路,所述接口电路用于实现所述芯片系统与外部的其它模块之间的通信。
可选的,所述芯片系统为一个芯片电路。
第四方面,本申请还提供一种通信设备,所述通信设备可以是前述第二方面所述设备检测装置,或者包含前述第三方面所述的芯片系统,以便能够执行前述第一方面及第一方面各种实现方式中的方法。
其中,所述通信设备可以包括但不限于处理器、存储器、通信接口,以及传感器模块、移动通信模块、无线通信模块、显示屏、摄像头、USB接口和电源管理模块等等。
第五方面,本申请还提供了一种计算机可读存储介质,该存储介质中存储有指令,使得当指令在计算机或处理器上运行时,可以用于执行前述第一方面以及第一方面各种实现方式中的方法。
另外,本申请还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,当该指令被计算机或处理器执行时,可实现前述第一方面以及第一方面各种实现方式中的方法。
需要说明的是,上述第二方面至第五方面的各种实现方式的技术方案所对应的有益效果与前述第一方面以及第一方面的各种实现方式的有益效果相同,具体参见上述第一方面以及第一方面的各种实现方式中的有益效果描述,不再赘述。
附图说明
图1为本申请提供的一种采用心跳检测法检测设备故障的网络结构示意图;
图2为本申请实施例提供的另一种采用心跳检测法检测设备故障的网络结构示意图;
图3为本申请实施例提供的一种设备检测方法的流程图;
图4为本申请实施例提供的一种设备检测装置的结构示意图;
图5为本申请实施例提供的另一种设备检测方法的流程图;
图6为本申请实施例提供的一种通信设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请实施例中的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中的技术方案作进一步详细的说明。
在对本申请实施例的技术方案说明之前,首先结合附图对本申请实施例的应用场景进行说明。
本申请的技术方案可应用于一种分布式网络,该网络可以是一种中心化的网络,也可以是一种去中心化网络,比如应用于一种智能家居环境。其中,所谓去中心化是相对于中心化的一个概念,去中心化网络中每个设备都是平等的,没有主设备和从设备。对于中心化网络来说,一般是主设备向其他从设备发送心跳数据包,并等待其他从设备反馈响应数据包,而在去中心化网络中,设备与设备之间互相发送心跳数据包和响应数据包。
例如图2所示,为本实施例提供的一种去中心化网络的结构示意图。该网络中包括至少三个电子设备,比如设备1、设备2和设备3。此外,还可以包括其他电子设备,比如交换机、路由器和服务器等,本实施例对该网络中所包含的电子设备的类型和数量不予限制。
可选的,所述设备1至设备3中的任意一种可以是一个终端设备,所述终端设备可以是一种便携式设备,比如智能终端、手机、笔记本电脑、平板电脑、个人计算机(personalcomputer,PC)、个人数字助理(personal digital assistant,PDA),可折叠终端、车载终端、具备无线通讯功能的可穿戴设备(例如智能手表或手环)、用户设备(user device)或用户设备(user equipment,UE)、以及增强现实(augmented reality,AR)或者虚拟现实(virtual reality,VR)设备等。此外,所述终端设备还可以是一种智能家居设备,比如部署在室内家庭中的音响、空调、冰箱、TV、洗衣机和热水器等,本申请的实施例对终端设备的具体设备形态不做限定。另外,上述各种终端设备中包括但不限于搭载苹果(IOS)、安卓(Android)、微软(Microsoft)或者其他操作系统。
此外,所述设备1至设备3中任意一种还可以是网络设备,比如交换机、网关、服务器等,本实施例对此不予限制。
需要说明的是,如果上述设备为终端设备,则设备与设备之间的通信可以通过无线网络,比如WiFi来传输;如果上述设备为网络设备,则设备与设备之间的通信可以通过Internet,比如光纤来传输。本申请对设备与设备之间具体的传输媒介不予限制。
本实施例中提供一种设备检测方法,该方法可应用于上述分布式网络,并能够检测出在网络波动时发生概率性丢包导致的应答响应异常问题。
其中,所述概率性丢包的一种可能的情况是,网络波动时由于线路的不稳定,出现网络链路时通时断的现象,导致心跳报文在链路传输过程中丢失。在这种情况下,接收端设备可能是处于正常状态,可以接收心跳数据包,并反馈应答的响应报文。
如图3所示,该方法包括以下步骤:
101:当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据。
其中,所述历史心跳数据包括所述第一设备、所述第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况。具体地,历史心跳数据至少包括以下3部分:
1、第一设备的历史心跳数据,包括:第一设备在第一时间段内检测的第二设备,和/或,第三设备对自己(第一设备)发送的心跳数据包的应答响应情况;
2、第二设备的历史心跳数据,包括:第二设备在第一时间段内检测的第一设备,和/或,第三设备对自己(第二设备)发送的心跳数据包的应答响应情况;
3、第三设备的历史心跳数据,包括:第三设备在第一时间段内检测的第一设备,和/或,第二设备对自己(第三设备)发送的心跳数据包的应答响应情况。
其中,上述第一设备的历史心跳数据由第一设备统计获得,第二设备的历史心跳数据和第三设备的历史心跳数据则通过各自设备主动上报给第一设备,第一设备分别接收后获得。
具体地,以第一设备的历史心跳数据为例,一种获取所述第一设备的历史心跳数据的实现方式是:第一设备周期性地向网络中的第二设备和第三设备发送心跳数据包,所述发送周期和发送范围可以自定义,比如设置发送周期为1s(秒),则第一设备每隔1s向每个其他设备发送一个心跳数据包或心跳报文。当第二设备和第三设备接收到来自第一设备发送的心跳数据包时,会向第一设备发送一个应答响应,比如反馈一个应答响应数据包或者响应报文等;第一设备会在发送一个心跳数据包之后开始计时,判断在预设时间内是否接收到来自第二设备和第三设备反馈的应答响应。所述预设时间可以自定义。
如果第一设备在预设时间内接收到第二设备或第三设备(接收端)发送的一个应答响应,则表示该接收端的应答反馈未超时;如果在预设时间之外接收到应答响应,或者没有接收到应答响应,则表示该接收端的应答反馈超时。可选的,所述应答反馈超时又可称为心跳异常。
例如,设备1在t1时刻分别向设备2和设备3发送一个心跳报文1,然后设备1在t2时刻接收到设备2反馈的响应报文1,在t3时刻接收到设备3反馈的响应报文2。如果t1与t2的时间间隔在预设时间间隔内,则设备1记录t1时刻发送给设备2的心跳报文所对应的应答响应未超时;如果t1与t3的时间间隔在所述预设时间间隔之外,或者在所述预设时间间隔内未接收到设备3发送的响应报文2,则记录t1时刻发送给设备3的心跳报文所对应的应答响应超时。
可选的,对于所述未超时的应答响应,第一设备将其标记为“0”,对于所述超时的应答响应,第一设备将其标记为“1”。对于上述设备2,设备1会对其在t1时刻发送的心跳报文1的应答响应标记为“0”,对于上述设备3,设备1会对其在t2时刻发送的心跳报文1的应答响应标记为“1”。应理解,设备1还可以通过其他方式来标记其接收的应答响应超时和未超时的情况,本实施例对设备1采用的标记方式不作限制。本实施例中,当检测到第二设备应答响应超时时,即心跳响应异常时,则记录一个全“1”的二维数组。
同理地,第二设备也周期性地分别向第一设备和第三设备发送心跳数据包,并记录第一设备和第三设备的应答响应超时情况,形成第二设备的历史心跳数据。第三设备也周期性地分别向第二设备和第一设备发送心跳数据包,并记录第二设备和第一设备的应答响应超时情况,形成第一设备的历史心跳数据。
另外,所述历史心跳数据可以定时刷新,比如在各个设备侧存储1min(分钟)时间间隔的历史心跳数据,或者,每隔1min刷新一次本地存储记录,将历史心跳数据更新为最近1~2min的历史心跳数据。
本实施例以第一设备为例,在上述步骤101中,当第一设备检测到第二设备反馈的应答响应超时是指,第一设备与第二设备在正常通信中,两端设备互相收发心跳数据包和应答响应,当第一设备在某一时刻向第二设备发送的心跳数据包后,在预设时间内(比如1s)未收到第二设备反馈的响应报文,则第一设备确认当前所述第二设备反馈的应答响应超时,启动步骤101的方法。
102:根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括:所述第二设备发生故障,或者所述第二设备与所述第一设备之间的传输链路发生故障。
具体地,可通过第一条件和第二条件来判断超时原因是设备本身发生的故障,还是设备之间传输链路发生的故障。
所述第一条件为:第二设备对应的所述应答响应超时总数N2最大,且第三设备对应的所述应答响应超时总数N3大于0。用表达式表示为:N2>N1,N2>N3,且N3>0。
所述第二条件为:第一设备对应的所述应答响应超时总数N1大于0,第二设备对应的所述应答响应超时总数N2大于0,且第三设备对应的所述应答响应超时总数N3等于0。用表达式表示为:N1>0,N2>0,且N3=0。
其中,N1表示所述第一设备在所述第一时间段内的应答响应超时总数,N2表示所述第二设备在所述第一时间段内的应答响应超时总数,N3表示所述第三设备在所述第一时间段内的应答响应超时总数。所述第一时间段可以自由设置,比如设置为30s、60s、90s、120s等,本实施例对此不予限制。
下面对本实施例中,第一设备根据历史心跳数据确定所述第二设备的故障原因,可能产生的几种实施方式进行说明。
第一种实施方式
本实施例中,假设各个设备发送心跳数据包的频率是1个/秒,周期是1秒,所述第一时间段是60s,所述预设时间为1s,即设备1发送一个心跳数据包后检测接收端的应答响应不超时的时间间隔是1s,则在一个检测周期60s内,如果设备1连续收到设备2发送的60个响应报文,假设设备2向设备1反馈响应报文的时间很短,比如毫秒级别的反馈响应,则在第61s时得到从第1s到第60s的检测周期(第一时间段)内,设备1检测设备2对设备1发送的心跳数据包的应答响应情况为,应答响应超时次数为0,即心跳异常次数为0。类似的,如果设备1在60s内只接收到设备3发送的4个满足在1s的预设时间间隔的响应报文,标记了4个“0”,其余56个心跳报文的反馈响应均为超时,即标记了56个“1”,则设备1统计过去60s内设备3的应答响应情况为,应答响应超时次数为56,即心跳异常次数为56。
可选的,所述心跳异常次数可用字母“a”来表示,则a12表示设备1在第一时间段内统计的设备2的心跳异常次数(或应答响应情况),a13表示设备1在所述第一时间段内统计的设备3的心跳异常次数,进而设备1在第一时间段内统计的设备2和设备3的历史心跳数据为{a12,a13}。在上述示例中,a12=0,a13=56,则设备1在60s统计的设备1的历史心跳数据为{0,56}。
同理地,第二设备的历史心跳数据可以表示为{a21,a23},第三设备的历史心跳数据可以表示为{a31,a32}。其中,a21表示设备2在所述第一时间段内统计的设备1发生心跳异常的次数,a23表示设备2在所述第一时间段内统计的设备3发生心跳异常的次数,a31表示设备3在所述第一时间段内统计的设备1发生心跳异常的次数,a32表示设备3在所述第一时间段内统计的设备2发生心跳异常的次数。
此时,设备1在第一时间段内获得设备1至设备3统计的所有历史心跳数据为
Figure BDA0002721729800000081
并且,设备1将这些历史心跳数据存储在设备1的本地存储介质中。
另外,上述方法还包括:第一设备将所述第一设备在所述第一时间段内统计的历史心跳数据分别发送给第二设备和第三设备。第二设备将其在所述第一时间段内统计的历史心跳数据分别发送给第一设备和第三设备。第三设备将其在所述第一时间段内统计的历史心跳数据分别发送给第一设备和第二设备。从而使得第一设备、第二设备和第三设备都分别获得其他两个设备统计的历史心跳数据。
当检测到网络内第二设备的状态异常时,第一设备的数据同步模块获取第一设备的历史心跳数据,同时从网络内其他设备获取历史心跳数据,如果获取超时,则将该第二设备的心跳数据a12设置为默认数据。
上述根据第一设备获取的第一设备、第二设备和第三设备在第一时间段内的历史心跳数据分析第二设备反馈超时的原因,具体为:
首先,根据所述每个设备检测的所述应答响应情况分别确定所述第一设备、所述第二设备和所述第三设备在所述第一时间段内的应答响应超时总数N1,所述应答响应超时总数又为累积心跳异常次数N1,所述累积心跳异常次数N1为所有设备检测的心跳异常次数之和。
例如,设备1的累积心跳异常次数为N1,且N1=a12+a13+a21+a31
设备2的累积心跳异常次数为N2,且N2=a12+a21+a23+a32
设备3的累积心跳异常次数为N3,且N3=a13+a23+a31+a32
如果N1、N2、N3各不相同,且N2>N1>N3,N3>0,或者,N2>N1,N2>N3,且N3>0,则满足上述第一条件,则确定超时原因是所述第二设备(即设备2)发生了故障。本实施方式中,将累计心跳超时(或异常次数)最多的设备确定为发生故障的设备。
同理地,如果N1>N2>N3,且N3>0,或者,N1>N2,N1>N3,且N3>0,则确定所述第一设备(即设备1)发生了故障。如果N3>N2>N1,且N3>0,或者,N3>N2,N3>N1,且N3>0,则确定所述第三设备(即设备3)发生了故障。
举例说明,设备1在检测到设备2异常时获取设备1至设备3在第一时间段内的历史心跳数据为
Figure BDA0002721729800000082
则N1=6+3+3+5=17,N2=6+3+0+0=9,N3=3+0+0+5=8,即N1>N2>N3,则确定设备1故障。
如果N1=N2>0,且N3=0,则满足上述第二条件,可确定超时原因是所述第二设备(即设备2)与所述第一设备(即设备1)之间的传输链路发生故障。
本实施例中提供的方法,利用两个周边设备检测的历史心跳数据,和设备自身获取的历史心跳数据对处于异常状态的设备进行检测,通过比较各设备过去一段时间内的超时次数,确定出发生故障的原因是设备本身的故障,或者是概率性丢包导致的链路故障,由于获取的历史心跳数据是多个设备互相检测和上报的心跳超时情况,利用全局信息进行决策,所以相比于单一设备的历史心跳数据检测,本方法提高了分布式网络内设备故障检测的准确率,从而避免网络波动情况下由于概率性丢包导致的误判。
另外,本方法中,分布式网络中的各个设备周期性地获取过去一段时间内其他设备的心跳超时情况,并同步这些设备的历史心跳数据,从而为发生故障时提供精准检测做准备。
第二种实施方式
本实施方式以设备1、设备2和设备3为例,当设备1检测到设备2心跳反馈超时后,设备1的数据同步模块从设备2和设备3同步其历史心跳数据,并进行处理。假设设备1获取的历史心跳数据包括:
设备1在第一时间段内统计的所述设备2反馈应答响应的累计超时次数a12;设备2在第一时间段内统计的所述设备1反馈应答响应的累计超时次数a21;设备3在第一时间段内统计的所述设备2反馈应答响应的累计超时次数a32;此时N1=a12,N2=a21,N3=a32,则通过上述历史心跳数据判断故障原因是设备2发生故障,还是设备1和设备2之间的传输链路发生故障,判断方法如下:
如果a12>0,a21>0,且a32>0,则满足上述第一条件,确定设备2发生故障;如果a12>0,a21>0,且a32=0,则满足上述第二条件,确定设备1和设备2之间的链路发生故障。
本实施方式在检测到设备2故障时,利用设备3的历史心跳数据,判断故障属于设备2本身的故障还是设备1与设备2之间的传输链路发生故障,从而提升了分布式网络在网络波动场景下,故障检测的准确率。
第三种实施方式
本实施方式与前述第二种可能的实施方式相似,不同之处在于设备1获取的历史心跳数据中,除了第二种可能的实施方式的a12,a21,a32之外,还包括a23,所述a31表示设备3在第一时间段内统计的设备1反馈应答响应的累计超时次数,此时N1=a12,N2=a21,N3=a32+a23,则上述步骤102,通过历史心跳数据判断故障原因是设备2发生故障,还是设备1和设备2之间的传输链路发生故障,判断方法如下:
如果a12>0,a21>0,且a32+a23>0,则满足上述第一条件,确定设备2发生故障;如果a12>0,a21>0,且a32+a23=0,则满足上述第二条件,确定故障原因是设备1和设备2之间的链路发生故障。
需要说明的是,根据上述历史心跳数据的不同,还可以包括其他更多或更少的判断方法,本实施例对上述各种具体的判断方法不做一一赘述。
第四种实施方式
本实施方式在上述步骤101之前,如果第一设备在检测第二设备发生异常时,网络中有除了第一设备和第二设备之外,还包括两个或两个以上的终端设备,则需要先从至少两个终端设备中选择一个作为所述第三设备。
一种具体的选择方法是,第一设备分别向两个或两个以上设备中的每个设备发送获取历史心跳数据的请求,每个接收到的请求的设备会向第一设备发送自己记录的历史心跳数据,第一设备接收到的第一个历史心跳数据时,将发送该第一个历史心跳数据的设备确定为所述第三设备。所述接收到的该第一个历史心跳数据的设备的响应速度最快,或者,距离第一设备最近,因此选择该设备作为第三设备处理效率较高。
在确定了所述第三设备,并接收了该第三设备上报的历史心跳数据之后,执行前述实施例的步骤101和102,对第二设备的响应超时原因进行分析处理,具体过程参见前述第一种、第二种或第三种实施方式的说明,本实施例对此不再赘述。
本实施例中,当有多个设备时,第一设备同时向这些设备中的每一个发送获取历史心跳数据的请求,并选择其中第一个收到的历史心跳数据所对应的设备,作为第三设备,从而可以提高检测效率。
应理解,还可以采用其他选择标准来确定所述第三设备,比如与第一设备距离最近的一个设备作为第三设备,本实施例对上述选择确定第三设备的判断标准不予限制。
本实施例提供的方法应用于一种分布式网络内,当其中的一个设备发生异常时,获取并同步网络内其他设备的历史心跳数据,并对历史心跳数据进行合并处理,利用处理后的数据准确定位故障设备。具体地,将历史心跳数据转换为某设备在过去一段时间的累计超时次数,通过比较各设备过去一段时间内的累计超时次数,确定出发生故障的设备,即累计超时次数最多的设备,本方法提升了网络波动场景下,分布式网络内设备故障检测的准确性,避免利用单设备信息进行决策导致的误判。
需要说明的是,本实施例以第一设备为例对第二设备出现的异常状况进行检测,同理地,在分布式网络中,第二设备和第三设备也可以利用同样的方法检测第一设备发生异常状态的原因,其中,第二设备在检测第一设备发生异常时的检测方法与前述实施例中的方法相同,参见上述实施例中的方法步骤,本实施例不再赘述。
下面介绍与上述方法实施例对应的装置实施例。
图4为本申请实施例提供的一种设备检测装置的结构示意图。所述装置可以是一种通信设备,或位于所述通信设备中的一个部件,例如芯片或芯片系统。并且该装置可以实现前述实施例中的设备检测方法。
具体地,如图4所示,该装置可以包括:数据同步模块401、处理模块402、心跳检测模块403和采样模块404。此外,所述装置还可以包括存储单元等其他的单元或模块。
其中,各个模块至少具备以下功能,参见图5所示,
501:心跳检测模块403用于在第一设备检测到第二设备反馈的应答响应超时之前,周期性地向网络中的所述第二设备和第三设备发送心跳数据包。采样模块404用于分别接收来自所述第二设备和所述第三设备根据所述心跳数据包反馈的应答响应,并统计所述第一时间段内所述第二设备反馈应答响应的累计超时次数,和,所述第三设备反馈应答响应的累计超时次数。
502:采样模块404将在第一时间段内统计的各个设备的应答响应情况作为历史心跳数据发送给数据同步模块401。
503:数据同步模块401在当第一设备检测到第二设备反馈的应答响应超时时(即设备2状态异常消息时),获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括所述第一设备、所述第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况。
504:处理模块402用于根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括:所述第二设备发生故障,或者所述第二设备与所述第一设备之间的传输链路发生故障。
可选的,在本实施例的一种具体的实现方式中,处理模块402具体用于根据所述每个设备检测的所述应答响应情况分别确定所述第一设备、所述第二设备和所述第三设备在所述第一时间段内的应答响应超时总数N1,N2和N3,以及,当满足第一条件时,确定所述原因是所述第二设备发生故障。其中,所述第一条件为:所述第二设备对应的所述应答响应超时总数N2最大,且所述第三设备对应的所述应答响应超时总数N3大于0。
可选的,在本实施例的另一种具体的实现方式中,处理模块402还用于当满足第二条件时,确定所述原因是所述第二设备与所述第一设备之间的传输链路发生故障。其中,所述第二条件为:所述第一设备对应的所述应答响应超时总数N1大于0,所述第二设备对应的所述应答响应超时总数N2大于0,且所述第三设备对应的所述应答响应超时总数N3等于0。
进一步地,在一种可能的实现方式中,所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12,所述第一设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a13;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21,所述第二设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a23;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31;所述第一条件为:N2>N1,N2>N3,且N3>0;其中,N1=a12+a13+a21+a31,N2=a12+a21+a23+a32,N3=a13+a23+a31+a32
进一步地,在另一种可能的实现方式中,还包括上述第二条件为N1=N2>0,N3=0。
可选的,在另一种可能的实现方式中,当所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32时,所述第一条件为:a12>0,a21>0,且a32>0;所述第二条件为:a12>0,a21>0,且a32=0。
可选的,在又一种可能的实现方式中,当所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31时,所述第一条件为:a12>0,a21>0,且a32+a23>0;所述第二条件为:a12>0,a21>0,且a32+a23=0。
可选的,在本实施例的又一种具体的实现方式中,处理模块402还用于在两个或两个以上设备中选择所述第三设备,所述第三设备为在所述第一设备向两个或两个以上设备中的每个设备发送获取历史心跳数据的请求的情况下,通过所述数据同步模块接收到的第一个历史心跳数据所来自的设备。
另外,在具体的硬件实现中,本实施例中还提供了一种通信设备,该通信设备可以是一个终端设备或网络设备,或者是集成在上述终端设备或网络设备上的一个部件。
图6示出了一种通信设备的结构示意图,该网络设备可以包括:处理器110、存储器120、和至少一个通信接口130。其中,处理器110、存储器120和至少一个通信接口130可通过通信总线耦合。
其中,处理器110为通信设备的控制中心,可用于设备间的通信,例如包括与第二设备、第三设备以及其他设备之间的信息传输。
处理器110可以由集成电路(Integrated Circuit,IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器110可以包括中央处理器(Central ProcessingUnit,CPU)或数字信号处理器(DigitalSignal Processor,DSP)等。
此外,处理器110还可以包括硬件芯片,所述该硬件芯片可以是专用集成电路(application specific integrated circuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。可选的,所述硬件芯片为一种处理芯片,或芯片电路。
存储器120用于存储和交换各类数据或软件,包括存储历史心跳数据、心跳数据包、响应包或响应报文等。此外存储器120中可以存储有计算机程序和代码。
具体地,存储器120可以包括易失性存储器(volatile memory),例如随机存取内存(Random Access Memory,RAM);还可以包括非易失性存储器(non-volatile memory),例如快闪存储器(flash memory),硬盘(Hard Sisk Drive,HDD)或固态硬盘(Solid-StateDrive,SSD),存储器120还可以包括上述种类的存储器的组合。
通信接口130,使用任何收发器一类的装置,用于与其它设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(Wireless Local AreaNetwork,WLAN)、虚拟可扩展局域网(Virtual Extensible Local Area Network,VXLAN)等。
应理解,上述通信设备中还可以包括其他更多或更少的部件,本申请实施例示意的结构并不构成对通信设备的具体限定。并且图6所示的部件可以以硬件,软件、固件或者其任意组合的方式来实现。
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。例如,在前述图4所示的装置中的心跳检测模块403和采样模块404可以通过通信接口来实现,所述数据同步模块401和处理模块402的功能可以由处理器110来实现,所述存储单元的功能可以由存储器120实现。
具体地,所述通信设备利用通信接口接收至少两个其他设备发送的应答响应,处理器110当检测到第二设备反馈的应答响应超时时,获取自己在第一时间段内同步的历史心跳数据,然后根据所述历史心跳数据中每个设备检测的应答响应情况,确定所述第二设备应答响应超时的原因。具体地,当检测到第二设备反馈的应答响应超时时,调用存储器120中的程序代码,执行上述实施例图3或图5所示的方法。
此外,该通信设备中还包括移动通信模块、无线通信模块等。所述移动通信模块包括:2G/3G/4G/5G等无线通信功能的模块。此外,还可以包括滤波器、开关、功率放大器、低噪声放大器(low noise amplifier,LNA)等。所述无线通信模块可以提供应用在通信设备上的包括WLAN、蓝牙(bluetooth),全球导航卫星系统(global navigation satellitesystem,GNSS),调频(frequency modulation,FM)等无线通信的解决方案。
此外,本申请实施例还提供了一种网络系统,该网络系统结构可以是如前述图2所示分布式网络架构,包括至少3个通信设备,比如设备1至设备3。其中,所述每个设备的结构可以是如图6所示的通信设备,用于实现前述实施例中的设备检测方法。
本实施例中,利用两个周边设备检测的历史心跳数据,和设备自身获取的历史心跳数据对处于异常状态的设备进行检测,通过比较各设备过去一段时间内的超时次数,确定出发生故障的原因是设备本身的故障,或者是概率性丢包导致的链路故障,由于获取的历史心跳数据是多个设备互相检测和上报的心跳超时情况,利用全局信息进行决策,所以相比于单一设备的历史心跳数据检测,本方法提高了分布式网络内设备故障检测的准确率,从而避免网络波动情况下由于概率性丢包导致的误判。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括一个或多个计算机程序指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照上述各个实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。
所述计算机程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个通信设备、计算机、服务器或数据中心通过有线或无线方式向另一个通信设备进行传输。
其中,所述计算机程序产品和所述计算机程序指令可以位于前述通信设备的存储器中,从而实现本申请实施例所述的设备检测方法。
此外,在本申请实施例的描述中,所述至少一个是指一个或一个以上,所述至少三个是指三个或三个以上。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”、“第三”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”、“第三”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”、“第三”等字样也并不限定一定不同。
以上所述的本申请实施例并不构成对本申请保护范围的限定。

Claims (20)

1.一种设备检测方法,其特征在于,所述方法包括:
当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括所述第一设备、所述第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况;
根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括:所述第二设备发生故障,或者所述第二设备与所述第一设备之间的传输链路发生故障。
2.根据权利要求1所述的方法,其特征在于,根据所述历史心跳数据中每个设备检测所述应答响应情况,确定所述第二设备应答响应超时的原因,包括:
根据所述每个设备检测的所述应答响应情况分别确定所述第一设备、所述第二设备和所述第三设备在所述第一时间段内的应答响应超时总数N1,N2和N3;
当满足第一条件时,确定所述原因是所述第二设备发生故障,所述第一条件为:所述第二设备对应的所述应答响应超时总数N2最大,且所述第三设备对应的所述应答响应超时总数N3大于0。
3.根据权利要求2所述的方法,其特征在于,还包括:
当满足第二条件时,确定所述原因是所述第二设备与所述第一设备之间的传输链路发生故障,所述第二条件为:所述第一设备对应的所述应答响应超时总数N1大于0,所述第二设备对应的所述应答响应超时总数N2大于0,且所述第三设备对应的所述应答响应超时总数N3等于0。
4.根据权利要求2或3所述的方法,其特征在于,所述历史心跳数据包括:
所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12,所述第一设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a13
所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21,所述第二设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a23
所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31
所述第一条件为:N2>N1,N2>N3,且N3>0;
其中,N1=a12+a13+a21+a31,N2=a12+a21+a23+a32,N3=a13+a23+a31+a32
5.根据权利要求4所述的方法,其特征在于,还包括:所述第二条件为N1=N2>0,N3=0。
6.根据权利要求2或3所述的方法,其特征在于,当所述历史心跳数据包括:
所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12
所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21
所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32
所述第一条件为:a12>0,a21>0,且a32>0;
所述第二条件为:a12>0,a21>0,且a32=0。
7.根据权利要求2或3所述的方法,其特征在于,当所述历史心跳数据包括:
所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12
所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21
所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31
所述第一条件为:a12>0,a21>0,且a32+a23>0;
所述第二条件为:a12>0,a21>0,且a32+a23=0。
8.根据权利要求1-7任一项所述的方法,其特征在于,获取所述第一设备在第一时间段内同步的所述第三设备上报的历史心跳数据之前,还包括:
在两个或两个以上设备中选择所述第三设备,所述第三设备为在所述第一设备向两个或两个以上设备中的每个设备发送获取历史心跳数据的请求的情况下,接收到的第一个历史心跳数据所来自的设备。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述第一设备检测到第二设备反馈的应答响应超时之前,还包括:
周期性地向网络中的所述第二设备和所述第三设备发送心跳数据包;
分别接收来自所述第二设备和所述第三设备根据所述心跳数据包反馈的应答响应;
统计所述第一时间段内所述第二设备反馈应答响应的累计超时次数,和,所述第三设备反馈应答响应的累计超时次数。
10.一种设备检测装置,其特征在于,所述装置包括:
数据同步模块,当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括所述第一设备、所述第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况;
处理模块,用于根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括:所述第二设备发生故障,或者所述第二设备与所述第一设备之间的传输链路发生故障。
11.根据权利要求10所述的装置,其特征在于,
所述处理模块,具体用于根据所述每个设备检测的所述应答响应情况分别确定所述第一设备、所述第二设备和所述第三设备在所述第一时间段内的应答响应超时总数N1,N2和N3,以及,当满足第一条件时,确定所述原因是所述第二设备发生故障;
所述第一条件为:所述第二设备对应的所述应答响应超时总数N2最大,且所述第三设备对应的所述应答响应超时总数N3大于0。
12.根据权利要求11所述的装置,其特征在于,
所述处理模块,还用于当满足第二条件时,确定所述原因是所述第二设备与所述第一设备之间的传输链路发生故障;
所述第二条件为:所述第一设备对应的所述应答响应超时总数N1大于0,所述第二设备对应的所述应答响应超时总数N2大于0,且所述第三设备对应的所述应答响应超时总数N3等于0。
13.根据权利要求11或12所述的装置,其特征在于,所述历史心跳数据包括:
所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12,所述第一设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a13
所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21,所述第二设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a23
所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31
所述第一条件为:N2>N1,N2>N3,且N3>0;
其中,N1=a12+a13+a21+a31,N2=a12+a21+a23+a32,N3=a13+a23+a31+a32
14.根据权利要求13所述的装置,其特征在于,还包括:
所述第二条件为N1=N2>0,N3=0。
15.根据权利要求11或12所述的装置,其特征在于,当所述历史心跳数据包括:
所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12
所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21
所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32
所述第一条件为:a12>0,a21>0,且a32>0;
所述第二条件为:a12>0,a21>0,且a32=0。
16.根据权利要求11或12所述的装置,其特征在于,当所述历史心跳数据包括:
所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a12
所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a21
所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a32,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a31
所述第一条件为:a12>0,a21>0,且a32+a23>0;
所述第二条件为:a12>0,a21>0,且a32+a23=0。
17.根据权利要求10-16任一项所述的装置,其特征在于,
所述处理模块,还用于在两个或两个以上设备中选择所述第三设备,所述第三设备为在所述第一设备向两个或两个以上设备中的每个设备发送获取历史心跳数据的请求的情况下,通过所述数据同步模块接收到的第一个历史心跳数据所来自的设备。
18.根据权利要求10-17任一项所述的装置,其特征在于,还包括:
心跳检测模块,用于在所述第一设备检测到第二设备反馈的应答响应超时之前,周期性地向网络中的所述第二设备和所述第三设备发送心跳数据包;
采样模块,用于分别接收来自所述第二设备和所述第三设备根据所述心跳数据包反馈的应答响应,并统计所述第一时间段内所述第二设备反馈应答响应的累计超时次数,和,所述第三设备反馈应答响应的累计超时次数。
19.一种通信设备,包括处理器和存储器,所述处理器与所述存储器耦合,其特征在于,
所述存储器,用于存储计算机程序指令;
所述处理器,用于执行所述存储器中存储的所述指令,以使得所述通信设备执行如权利要求1至9中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令被运行时,实现如权利要求1至9中任一项所述的方法。
CN202011093314.2A 2020-10-13 2020-10-13 一种设备检测方法、装置和通信设备 Active CN114422412B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011093314.2A CN114422412B (zh) 2020-10-13 2020-10-13 一种设备检测方法、装置和通信设备
PCT/CN2021/114169 WO2022078070A1 (zh) 2020-10-13 2021-08-24 一种设备检测方法、装置和通信设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011093314.2A CN114422412B (zh) 2020-10-13 2020-10-13 一种设备检测方法、装置和通信设备

Publications (2)

Publication Number Publication Date
CN114422412A true CN114422412A (zh) 2022-04-29
CN114422412B CN114422412B (zh) 2023-11-17

Family

ID=81208917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011093314.2A Active CN114422412B (zh) 2020-10-13 2020-10-13 一种设备检测方法、装置和通信设备

Country Status (2)

Country Link
CN (1) CN114422412B (zh)
WO (1) WO2022078070A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117424838A (zh) * 2023-10-31 2024-01-19 北京中瑞浩航科技有限公司 用于物联网设备的自学习检测方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983393B (zh) * 2022-12-30 2024-05-24 北京百度网讯科技有限公司 量子电路任务超时原因确定方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120008506A1 (en) * 2010-07-12 2012-01-12 International Business Machines Corporation Detecting intermittent network link failures
CN108964977A (zh) * 2018-06-05 2018-12-07 平安科技(深圳)有限公司 节点异常处理方法及系统,存储介质和电子设备
CN109887125A (zh) * 2019-02-02 2019-06-14 北京主线科技有限公司 故障检测方法及装置
US20190235939A1 (en) * 2018-01-26 2019-08-01 International Business Machines Corporation Heartbeat failure detection
CN110224880A (zh) * 2018-03-01 2019-09-10 华为技术有限公司 一种心跳监测方法及监控设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120008506A1 (en) * 2010-07-12 2012-01-12 International Business Machines Corporation Detecting intermittent network link failures
US20190235939A1 (en) * 2018-01-26 2019-08-01 International Business Machines Corporation Heartbeat failure detection
CN110224880A (zh) * 2018-03-01 2019-09-10 华为技术有限公司 一种心跳监测方法及监控设备
CN108964977A (zh) * 2018-06-05 2018-12-07 平安科技(深圳)有限公司 节点异常处理方法及系统,存储介质和电子设备
CN109887125A (zh) * 2019-02-02 2019-06-14 北京主线科技有限公司 故障检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117424838A (zh) * 2023-10-31 2024-01-19 北京中瑞浩航科技有限公司 用于物联网设备的自学习检测方法

Also Published As

Publication number Publication date
WO2022078070A1 (zh) 2022-04-21
CN114422412B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN110213068B (zh) 一种消息中间件的监控方法及相关设备
CN108833202B (zh) 故障链路检测方法、装置和计算机可读存储介质
US20120310599A1 (en) Sensor data collection system
CN102404170B (zh) 报文丢失检测方法、装置、及系统
CN112311617A (zh) 一种配置化数据监控告警方法及系统
CN104699598A (zh) 自动化测试方法、装置、设备及系统
WO2022078070A1 (zh) 一种设备检测方法、装置和通信设备
CN110784339B (zh) Lacp报文超时的故障检测方法、装置、电子设备
US11350476B2 (en) Techniques to restore wireless communication using wireless reference transmission
CN112333758B (zh) 电视网关系统的稳定性监测管理方法、系统及应用
CN111679925A (zh) 数据库故障处理方法、装置、计算设备和存储介质
CN111757371B (zh) 一种传输时延的统计方法、服务器及存储介质
CN109831335B (zh) 一种数据监控方法、监控终端、存储介质及数据监控系统
CN113810238A (zh) 网络监测方法、电子设备及存储介质
CN116455789A (zh) 数据丢包的检测方法、自移动设备和存储介质
JP2017152930A (ja) 通信システム、および通信最適化装置
CN115883340A (zh) 一种基于hplc和hrf双模通信故障处理方法和设备
US10104571B1 (en) System for distributing data using a designated device
CN111901174B (zh) 一种服务状态通知的方法、相关装置及存储介质
US10819609B2 (en) Communication relay device and network monitoring method
CN116260747A (zh) 终端测试设备的监测方法、装置及电子设备
CN107885169A (zh) 一种现场数据的收集方法、装置和系统
CN112073987A (zh) 状态监测方法、装置、设备及存储介质
CN111787584A (zh) 一种基于物联网的数据采集方法及系统
CN114428758B (zh) 基于iic总线的数据采集方法、系统、空调器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant