CN110740072B - 一种故障检测方法、装置和相关设备 - Google Patents

一种故障检测方法、装置和相关设备 Download PDF

Info

Publication number
CN110740072B
CN110740072B CN201810802448.3A CN201810802448A CN110740072B CN 110740072 B CN110740072 B CN 110740072B CN 201810802448 A CN201810802448 A CN 201810802448A CN 110740072 B CN110740072 B CN 110740072B
Authority
CN
China
Prior art keywords
service node
response message
node
service
network card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810802448.3A
Other languages
English (en)
Other versions
CN110740072A (zh
Inventor
陈昊
胡天驰
刘品强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201810802448.3A priority Critical patent/CN110740072B/zh
Publication of CN110740072A publication Critical patent/CN110740072A/zh
Application granted granted Critical
Publication of CN110740072B publication Critical patent/CN110740072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Abstract

本申请提供一种故障检测方法、装置及相关设备,该方法应用于网卡或交换机,包括:生成心跳探测消息;向业务节点发送该心跳探测消息,该心跳探测消息用于检测该业务节点的工作状态,该业务节点为该网卡所在的节点或该交换机连接的业务节点;获取响应消息,该响应消息包括用于指示该业务节点的工作状态的状态信息;向管理节点发送该响应消息,该管理节点用于管理该业务节点。以此提高分布式系统的性能。

Description

一种故障检测方法、装置和相关设备
技术领域
本申请涉及通信技术领域,尤其涉及一种故障检测方法、装置和相关设备。
背景技术
在分布式系统中,业务节点数量较多,当系统中的业务节点发生故障时,会导致业务中断或指令重复执行,因此,如何检测业务节点的故障成为一个亟待解决的技术问题。目前,一种业务节点的故障检测方法为:分布式系统中的管理节点通过管控平面向各个业务节点广播心跳探测消息,并根据各个业务节点通过管控平面发送的响应消息判断业务节点的状态。上述方法中,为了能够及时检测到这些业务节点的状态,管理节点需要在全系统中频繁地广播心跳探测消息,容易出现广播风暴,增加了管理节分析和处理响应消息的工作量,以及分布式系统中网络负载,影响了整个分布式系统的性能。
发明内容
本申请提供了一种故障检测方法、装置和相关设备,用于提高分布式系统的性能。
第一方面,本申请提供一种故障检测方法,该方法应用于网卡或交换机,生成心跳探测消息,向业务节点发送该心跳探测消息,获取响应消息,向管理节点发送该响应消息。其中,该心跳探测消息可以检测该业务节点的工作状态,该业务节点为该网卡所在的节点或该交换机连接的业务节点,该响应消息包括用于指示该业务节点的工作状态的状态信息,该管理节点管理该业务节点。由设置在业务节点上的网卡或连接业务节点的交换机生成心跳探测消息,且不通过广播发送将心跳探测消息发送给业务节点,不再使用广播包的形式监测业务节点的工作状态,因此,可以避免产生广播风暴,从而可以提高分布式系统的性能。
在一种可能的实现方式中,可以通过业务平面向管理节点发送该响应消息,业务平面为用于传输业务数据的平面,由于业务平面的时延较小,因此,可以快速地将业务节点的故障上报给管理节点,以便管理节点及时处理业务节点的故障,保证系统的正常运行,从而可以提高系统的可用性和可靠性。
在一种可能的实现方式中,只有业务节点在预设时间段内未向与业务节点直接连接的交换机发送业务数据时,才生成心跳探测消息,以便检测业务节点的故障,可见,在业务节点正常发送业务数据时,不用检测业务节点的故障,可以减少分布式系统中的网络负载,从而可以进一步提高分布式系统的性能。
在一种可能的实现方式中,工作状态可以包括正常和故障,在响应消息的状态为工作状态为故障时,才向管理节点发送响应消息,在响应消息的状态为工作状态为正常时,屏蔽响应消息,即不向管理节点发送响应消息,可以减少分布式系统中传输的消息数量,以及管理节点所需处理的消息数量,以便减少分布式系统中的网络负载,从而可以进一步提高分布式系统的性能。
在一种可能的实现方式中,当该方法应用于网卡时,该网卡为智能网卡,该智能网卡设置有独立的中央处理器(centralprocessing unit,CPU)和独立的供电设备,因此,在业务节点发生故障时,该智能网卡可以正常工作,从而可以对业务节点进行故障检测。
第二方面,本申请提供一种故障检测装置,该故障检测装置包括用于执行第一方面或第一方面任一种可能的实现方式所公开的故障检测方法的单元。
第三方面,本申请提供一种网卡,该网卡包括处理器、存储器、通信接口和总线,处理器、存储器和通信接口通过总线连接,通信接口用于进行通信,存储器用于存储程序代码,处理器用于执行存储器存储的程序代码,当处理器执行存储器存储的程序代码时,使得处理器执行第一方面或第一方面任一种可能的实现方式所述的故障检测方法的操作步骤。
第四方面,本申请提供一种业务节点,该业务节点包括处理器、存储器、通信接口、第三方面提供的网卡和总线,处理器、存储器、通信接口和网卡通过总线连接,通信接口用于进行通信,存储器用于存储程序代码,处理器用于执行存储器存储的程序代码。
第五方面,本申请提供一种交换机,该交换机用于连接管理节点和至少一个业务节点,管理节点用于管理至少一个业务节点,该交换机包括处理器、存储器、通信接口和总线,处理器、存储器和通信接口通过总线连接,通信接口用于进行通信,存储器用于存储程序代码,处理器用于执行存储器存储的程序代码,当处理器执行存储器存储的程序代码时,使得处理器执行第一方面或第一方面任一种可能的实现方式所述的故障检测方法的操作步骤。
第六方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
第七方面,本申请提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
图1是本发明实施例提供的一种网络架构示意图;
图2是本发明实施例提供的一种故障检测方法的流程示意图;
图3是本发明实施例提供的另一种故障检测方法的流程示意图;
图4是本发明实施例提供的一种故障检测装置的结构示意图;
图5是本发明实施例提供的一种网卡的结构示意图;
图6是本发明实施例提供的一种业务节点的结构示意图;
图7是本发明实施例提供的一种交换机的结构示意图。
具体实施方式
为了更好地理解本发明实施例提供的一种故障检测方法、装置和相关设备,下面先对本发明实施例使用的网络架构进行描述。请参阅图1,图1是本发明实施例提供的一种网络架构示意图。如图1所示,该网络架构可以包括管理节点101、多个交换机102和多个业务节点103。管理节点101,用于通过多个交换机102管理多个业务节点103。业务节点103,用于处理计算业务和传输数据。业务节点103上可以设置具有独立CPU和供电装置的网卡,该网卡用于检测业务节点103的故障;交换机102,用于传输数据,具体用于转发管理节点和业务节点之间通信的消息。图1所示的网络架构中交换机的数量和部署形态可以根据业务需求设置,例如,如图1所示,一个交换机用于与管理节点直接相连,该交换机可以仅用于转发数据或过滤某种类型的消息。业务节点直连两个或两个以上交换机,业务节点直连的交换机可以采用主备模式部署,以缓解分布式系统中数据传输所带来的网络负载。
进一步地,业务节点可以通过不同网络平面与管理节点相通信,具体地,将管理节点和业务节点传输管理类数据的平面称为管控平面,将管理节点和业务节点传输业务数据的平面称为业务平面,其中,平面可以理解为局域网内一个网段。例如,当管理节点向业务节点发送系统配置时,可以利用管控平面传输数据。当管理节点向业务节点发送业务请求或业务节点向管理节点发送业务应用的处理结果时,可以利用业务平面传输数据。
基于图1所示的网络架构,请参阅图2,图2是本发明实施例提供的一种故障检测方法的流程示意图。该故障检测方法可以由业务节点的网卡或交换机执行,图2以业务节点的网卡作为故障检测的执行主体为例进行描述。如图2所示,该故障检测方法可以包括以下步骤。
201、网卡生成心跳探测消息。
分布式系统中的管理节点对系统进行初始化之后,网卡可以周期性地生成心跳探测消息,也可以在监测到业务节点在预设时间段内未向与该业务节点直接连接的交换机发送业务数据时生成心跳探测消息,该业务数据的目的可以是管理节点,也可以是其他业务节点。周期和预设时间段为预先设置的,由于心跳探测消息是通过业务平面进行传输的,因此,周期和预设时间段的长短可以依据业务流传输情况进行设置,例如,在不影响业务流传输的情况下设置为最小值,以便在不影响业务流传输的情况下可以对业务节点的故障进行及时检测和处理。其中,该网络可以为智能网卡。
心跳探测消息中可以包括网卡的标识或媒体访问控制(media access control,MAC) 地址,以及心跳探测指令。
202、网卡向处理器发送心跳探测消息。
业务节点中配置的网卡和业务节点的处理器通过快捷外围部件互连标准(Peripheral Component Interconnect Express,PCIe)相连,网卡和处理器之间可以通过PCIe消息进行通信。网卡生成心跳探测消息之后,可以通过PCIe报文向网卡所在的业务节点的处理器发送心跳探测消息。
203、网卡获取响应消息。
当业务节点无故障,或者业务节点有故障,但故障并不影响业务节点的处理器的正常工作时,业务节点的处理器可以接收到来自设置在该业务节点上的网卡的心跳探测消息,之后可以根据心跳探测消息包括的心跳探测指令读取业务节点的工作状态,工作状态可以包括正常和故障。例如,业务节点出现进程挂死,处理器仍能检测该业务节点的故障。当工作状态为故障时,处理器还需要读取业务节点的故障类型。之后可以生成响应消息,响应消息可以包括节点信息,节点信息可以为业务节点的身份(identity,ID),也可以为业务节点的互联网协议(internetprotocol,IP),还可以为与业务节点直接连接的交换机的端口的ID。此外,响应消息还可以包括用于指示业务节点的工作状态的指示位,当指示位为 0时,可以表示业务节点的工作状态为正常,当指示位为1时,可以表示业务节点的工作状态为故障。当业务节点的工作状态为故障时,响应消息还可以包括业务节点的故障类型。之后可以根据心跳探测消息包括的网卡的MAC地址或标识将响应消息发送给网卡,响应消息具体是通过PCIe消息形式传输给网卡的。
当业务节点有故障,且故障导致业务节点的处理器的无法工作时,网卡向处理器发送心跳探测消息之后,网卡不会收到处理器发送的响应消息。例如,业务节点出现异常掉电故障。因此,当网卡距离发送心跳探测消息预设时间段时还未接收到来自处理器的响应消息时,可以认为处理器无法工作,网卡可以生成响应消息,响应消息可以与上述相同,此时,故障类型可以为处理器无法工作。此外,响应消息也可以只包括节点信息和故障类型,不包括指示位。
204、网卡向交换机发送响应消息。
网卡接收到来自所在的业务节点的处理器的响应消息之后,可以直接将响应消息转发给与所在业务节点直接连接的交换机。
可选地,网卡在接收到响应消息之后,也可以先根据响应消息包括的工作状态确定所在业务节点的工作状态,当工作状态为正常时,网卡可以屏蔽响应消息,此时,网卡可以不向交换机发送响应消息。当工作状态为故障时,网卡才向与所在业务节点直接连接的交换机发送响应消息。
可选地,网卡生成响应消息之后,向与所在业务节点直接连接的交换机发送响应消息。
205、交换机向管理节点发送响应消息。
与业务节点直接连接的交换机接收到来自网卡的响应消息之后,可以直接将响应消息转发给管理节点。
可选地,与业务节点直接连接的交换机接收到来自网卡的响应消息之后,也可以先根据响应消息中工作状态确定是否将该响应消息发送给管理节点。具体地,当工作状态为正常时,交换机屏蔽该响应消息,此时,交换机可以不向管理节点发送响应消息;当工作状态为故障时,交换机向管理节点发送响应消息。这个交换机与管理节点可以直接连接,也可以通过其它交换机进行连接。
上述心跳探测消息和响应消息可以全部通过业务平面进行传输。
可选地,交换机向管理节点发送的响应消息,也可以根据故障类型确定是通过业务平面传输,还是通过管控平面传输。当故障类型会导致业务中断或指令重复执行时,如节点进程挂死,可以通过业务平面向管理节点发送响应消息;当故障类型不会导致业务中断或指令重复执行时,如警告,可以通过管控平面向管理节点发送响应消息。
管理节点接收到来自交换机的响应消息之后,根据响应消息包括的指示位识别发送响应消息的工作状态,当工作状态为正常时,丢弃响应消息;当工作状态为故障时,根据响应消息包括的节点信息和故障类型处理发送响应消息的业务节点的故障。
上述网卡与交换机之间,交换机与管理节点之间的消息是通过单播方式进行传输的。
在图2所描述的故障检测方法中,由设置在业务节点上的网卡生成心跳探测消息,且通过PCIe消息方式将心跳探测消息发送给业务节点,网卡获取到响应消息后,利用管理节点与业务节点的业务平面发送响应消息,不再使用管理节点广播报文的形式监测业务节点的工作状态。而且,网卡或交换机可以屏蔽工作状态为正常的响应消息,可以减少管理节点所需处理的响应消息的数量,以及分布式系统中网络负载,避免产生广播风暴,从而可以提高分布式系统的性能。进一步地,本发明实施例中结合管理节点和业务节点之间的业务平面数据传输情况进行故障检测,通过监测业务节点是否通过业务平面发送数据确定业务节点的状态,复用了业务平面传输数据的情况判断业务节点的状态,如果业务节点在预设周期内一直有向直接连接的交换机发送数据,则认为业务节点状态正常,无需进行心跳探测,一定程度上减少了消息的数量,以及对计算和网络资源的占用情况,缓解了分布式系统的网络和计算设备的压力。
基于图1所示的网络架构,请参阅图3,图3是本发明实施例提供的另一种故障检测方法的流程示意图。本实施例与图2所示的故障检测方法的区别在于由交换机执行故障检测。如图3所示,该故障检测方法可以包括如下步骤。
301、交换机生成心跳探测消息。
分布式系统中的管理节点对系统进行初始化之后,交换机可以周期性地生成心跳探测消息,也可以在监测到业务节点在预设时间段内未向与该业务节点直接连接的交换机发送业务数据时生成心跳探测消息,也即在预设时间段内未接收到直接连接的业务节点发送的业务数据时生成心跳探测消息。其中,周期和预设时间段的设置方式与步骤201中的相同,详细描述请参考步骤201的描述,在此不再详细赘述。此处的交换机为与业务节点直接连接的交换机。
心跳探测消息中可以包括交换机的标识或MAC地址,以及心跳探测指令。
302、交换机向业务节点发送心跳探测消息。
交换机生成心跳探测消息之后,当心跳探测消息是周期性生成的时,交换机可以通过单播方式向与交换机直接连接的所有业务节点发送心跳探测消息。当心跳探测消息是在监测到业务节点在预设时间段内未向与该业务节点直接连接的交换机发送业务数据时生成的时,交换机可以通过单播方式只向与交换机直接连接的在预设时间段内未向该交换机发送业务数据的业务节点发送心跳探测消息。
303、交换机获取业务节点的响应消息。
当业务节点无故障,或者业务节点有故障,但故障并不影响业务节点的处理器的正常工作时,业务节点可以接收到来自直接连接该业务节点的交换机的心跳探测消息,之后可以根据心跳探测消息包括的心跳探测指令读取业务节点的工作状态,当工作状态为故障时,还需要读取业务节点的故障类型。之后可以生成响应消息,并根据心跳探测消息包括的交换机的MAC地址或标识将响应消息发送给交换机。该响应消息与步骤203中业务节点的处理器生成的相同,详细描述请参考步骤203的描述,在此不再详细赘述。
当业务节点有故障,且故障导致业务节点的处理器的无法工作时,交换机向业务节点发送心跳探测消息之后,交换机不会收到业务节点发送的响应消息。因此,当交换机距离发送心跳探测消息预设时间段时还未接收到来自业务节点的响应消息时,可以认为业务节点的处理器无法工作,交换机可以生成响应消息。该响应消息与步骤203中网卡生成的相同,详细描述请参考步骤203的描述,在此不再详细赘述。
304、交换机向管理节点发送响应消息。
交换机接收到来自直接连接的业务节点的响应消息之后,可以直接将响应消息转发给管理节点。
可选地,交换机接收到来自直接连接的业务节点的响应消息之后,也可以先根据响应消息包括的工作状态确定直接连接的业务节点的工作状态。具体地,当工作状态为正常时,交换机屏蔽该响应消息,此时,交换机可以不向管理节点发送响应消息;当工作状态为故障时,交换机才向管理节点发送响应消息。
交换机生成响应消息之后,向管理节点发送响应消息。
上述网卡与交换机之间,交换机与管理节点之间的消息是通过单播方式进行传输的。
在图3所描述的故障检测方法中,由直接连接业务节点的交换机生成心跳探测消息,且通过单播方式将心跳探测消息发送给业务节点,交换机获取到响应消息后,利用管理节点与业务节点的业务平面发送响应消息,不再使用广播包的形式监测业务节点的工作状态。而且,交换机可以屏蔽工作状态为正常的响应消息,可以减少管理节点所需处理的响应消息的数量,以及分布式系统中网络负载,避免产生广播风暴,从而可以提高分布式系统的性能。进一步地,本发明实施例中结合管理节点和业务节点之间的业务平面数据传输情况进行故障检测,通过监测业务节点是否通过业务平面发送数据确定业务节点的状态,复用了业务平面传输数据的情况判断业务节点的状态,如果业务节点在预设周期内一直有向直接连接的交换机发送数据,则认为业务节点状态正常,无需进行心跳探测,一定程度上减少了消息的数量,以及对计算和网络资源的占用情况,缓解了分布式系统的网络和计算设备的压力。
基于上述实施例中的故障检测方法的同一构思,请参阅图4,图4是本发明实施例提供的一种故障检测装置的结构示意图。如图4所示,该故障检测装置可以包括:
生成单元401,用于生成心跳探测消息;
发送单元402,用于向业务节点发送生成单元401生成的心跳探测消息,心跳探测消息用于检测业务节点的工作状态,业务节点为网卡所在的节点或交换机连接的业务节点;
获取单元403,用于获取响应消息,响应消息包括用于指示业务节点的工作状态的状态信息;
发送单元402,还用于向管理节点发送获取单元403获取的响应消息,管理节点用于管理业务节点。
可选地,发送单元402向管理节点发送响应消息包括:
通过业务平面向管理节点发送响应消息,业务平面为用于传输业务数据的平面。
可选地,生成单元401,具体用于当业务节点在预设时间段内未向与业务节点直接连接的交换机发送业务数据时,生成心跳探测消息。
可选地,工作状态可以包括正常和故障,发送单元402向管理节点发送响应消息包括:
当响应消息的状态为工作状态为故障时,向管理节点发送响应消息;
当响应消息的状态为工作状态为正常时,屏蔽响应消息。
可选地,当该故障检测装置为网卡时,网卡可以为智能网卡。
有关上述生成单元401、发送单元402和获取单元403更详细的描述可以直接参考上述图2-图3所示的方法实施例中的相关描述直接得到,这里不加赘述。
应理解的是,本发明实施例的装置可以通过专用集成电路(application-specific integrated circuit,ASIC)实现,或可编程逻辑器件(programmable logicdevice,PLD)实现,上述PLD可以是复杂程序逻辑器件(complex programmable logicaldevice,CPLD),现场可编程门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。也可以通过软件实现图2和图3所示的故障处理方法时,装置及其各个模块也可以为软件模块。
本发明实施例的装置可对应于本发明实施例中描述的方法,并且装置中的各个单元的上述和其它操作和/或功能分别为了实现图2至图3中的各个方法中交换机或网卡执行的相应流程,为了简洁,在此不再赘述。
应理解,图4所示的故障检测装置可以为网卡,也可以为交换机。
请参阅图5,图5是本发明实施例提供的一种网卡的结构示意图。如图5所示,该网卡 500可以包括处理器501、存储器502、通信接口503、供电装置505和总线506。
处理器501可以是一个通用中央处理器(CPU)。
存储器502可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,但不限于此。存储器502可以是独立存在,总线 506与处理器501相连接。存储器502也可以和处理器501集成在一起。总线506可包括一通路,在上述组件之间传送信息。其中:
存储器502中存储有一组程序代码,处理器501用于调用存储器502中存储的程序代码执行以下操作:
生成心跳探测消息;
通信接口503,用于向业务节点发送心跳探测消息,心跳探测消息用于检测业务节点的工作状态,业务节点为网卡所在的节点或交换机连接的业务节点;
通信接口503,还用于获取响应消息,响应消息包括用于指示业务节点的工作状态的状态信息;
通信接口503,还用于向管理节点发送响应消息,管理节点用于管理业务节点。
可选地,通信接口503向管理节点发送响应消息包括:
通过业务平面向管理节点发送响应消息,业务平面为用于传输业务数据的平面。
可选地,处理器501生成心跳探测消息包括:
当业务节点在预设时间段内未向与业务节点直接连接的交换机发送业务数据时,生成心跳探测消息。
可选地,工作状态可以包括正常和故障,通信接口503向管理节点发送响应消息包括:
当响应消息的状态为工作状态为故障时,向管理节点发送响应消息;
当响应消息的状态为工作状态为正常时,屏蔽响应消息。
可选地,该网卡可以为智能网卡。
可选地,供电装置505,用于为网卡进行供电。
应理解,本发明实施例的网卡500可对应于图4所示的故障检测装置,并可以对应于图 2中的网卡,并且网卡500中的各个模块的上述和其它操作和/或功能分别为了实现图2中的各个方法的相应流程,为了简洁,在此不再赘述。
请参阅图6,图6是本发明实施例提供的一种业务节点的结构示意图。如图6所示,该业务节点可以包括处理器601、存储器602、通信接口603、图5提供的网卡500和总线604,处理器601、存储器602、通信接口603和网卡500通过总线604连接,通信接口603用于进行通信,存储器602用于存储程序代码,处理器601用于执行存储器602存储的程序代码。应理解,本发明实施例的业务节点可以对应于图2-图3中的业务节点,并且业务节点中的各个模块的操作和/或功能分别为了实现图2-图3中的各个方法的相应流程,为了简洁,在此不再赘述。
请参阅图7,图7是本发明实施例提供的一种交换机的结构示意图。如图7所示,该交换机可以包括处理器701、存储器702、通信接口703和总线704。处理器701可以是一个通用中央处理器(CPU),多个CPU,微处理器,特定应用集成电路(application-specificintegrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。存储器702可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器702可以是独立存在,总线704与处理器701相连接。存储器702也可以和处理器701集成在一起。总线704可包括一通路,在上述组件之间传送信息。其中:
存储器702中存储有一组程序代码,处理器701用于调用存储器702中存储的程序代码执行以下操作:
生成心跳探测消息;
通信接口703,用于向业务节点发送心跳探测消息,心跳探测消息用于检测业务节点的工作状态,业务节点为网卡所在的节点或交换机连接的业务节点;
通信接口703,还用于获取响应消息,响应消息包括用于指示业务节点的工作状态的状态信息;
通信接口703,还用于向管理节点发送响应消息,管理节点用于管理业务节点。
可选地,通信接口703向管理节点发送响应消息包括:
通过业务平面向管理节点发送响应消息,业务平面为用于传输业务数据的平面。
可选地,处理器701生成心跳探测消息包括:
当业务节点在预设时间段内未向与业务节点直接连接的交换机发送业务数据时,生成心跳探测消息。
可选地,工作状态可以包括正常和故障,通信接口703向管理节点发送响应消息包括:
当响应消息的状态为工作状态为故障时,向管理节点发送响应消息;
当响应消息的状态为工作状态为正常时,屏蔽响应消息。
应理解,本发明实施例的交换机可对应于图4所示的故障检测装置,并可以对应于图3 中的交换机,并且交换机中的各个模块的上述和其它操作和/或功能分别为了实现图3中的各个方法的相应流程,为了简洁,在此不再赘述。
在一个实施例中还提供一种故障检测系统,该故障检测系统可以包括业务节点、交换机和管理节点,业务节点、交换机和管理节点对应于图2-图3,为了简洁,在此不再赘述。该故障检测系统由设置在业务节点上的网卡或连接业务节点的交换机生成心跳探测消息,且通过单播方式或PCIe消息将心跳探测消息发送给业务节点,不再使用广播包的形式监测业务节点的工作状态,因此,可以避免产生广播风暴,从而可以提高分布式系统的性能。此外,消息是通过业务平面进行传输的,由于业务平面的时延较小,因此,可以快速地将业务节点的故障上报给管理节点,以便管理节点及时处理业务节点的故障,保证系统的正常运行,从而可以提高系统的可用性和可靠性。此外,由于交换机或网卡可以过滤消息,可以减少分布式系统中传输的消息数量,以及管理节点所需处理的消息数量,以便减少分布式系统中的网络负载,从而可以进一步提高分布式系统的性能。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,SSD)。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种故障检测方法,其特征在于,所述方法应用于网卡或交换机,包括:
生成心跳探测消息;
向业务节点发送所述心跳探测消息,所述心跳探测消息用于检测所述业务节点的工作状态,所述业务节点为所述网卡所在的节点或所述交换机连接的业务节点;
获取响应消息,所述响应消息包括用于指示所述业务节点的工作状态的状态信息;
通过业务平面向管理节点发送所述响应消息,所述管理节点用于管理所述业务节点,所述业务平面为用于传输业务数据的平面。
2.根据权利要求1所述的方法,其特征在于,所述生成心跳探测消息,包括:
当所述业务节点在预设时间段内未向与所述业务节点直接连接的交换机发送业务数据时,生成心跳探测消息。
3.根据权利要求1所述的方法,其特征在于,所述工作状态包括正常和故障,所述向管理节点发送所述响应消息,包括:
当所述响应消息的状态为所述工作状态为故障时,向所述管理节点发送所述响应消息;
当所述响应消息的状态为所述工作状态为正常时,屏蔽所述响应消息。
4.根据权利要求1-3任一项所述的方法,其特征在于,当所述方法应用于所述网卡时,所述网卡为智能网卡。
5.一种故障检测装置,其特征在于,所述装置为网卡或交换机,包括:
生成单元,用于生成心跳探测消息;
发送单元,用于向业务节点发送所述生成单元生成的心跳探测消息,所述心跳探测消息用于检测所述业务节点的工作状态,所述业务节点为所述网卡所在的节点或所述交换机连接的业务节点;
获取单元,用于获取响应消息,所述响应消息包括用于指示所述业务节点的工作状态的状态信息;
所述发送单元,还用于通过业务平面向管理节点发送所述获取单元获取的响应消息,所述管理节点用于管理所述业务节点,所述业务平面为用于传输业务数据的平面。
6.根据权利要求5所述的装置,其特征在于,所述生成单元,具体用于当所述业务节点在预设时间段内未向与所述业务节点直接连接的交换机发送业务数据时,生成心跳探测消息。
7.根据权利要求5所述的装置,其特征在于,所述工作状态包括正常和故障,所述发送单元向管理节点发送所述响应消息,包括:
当所述响应消息的状态为所述工作状态为故障时,向所述管理节点发送所述响应消息;
当所述响应消息的状态为所述工作状态为正常时,屏蔽所述响应消息。
8.根据权利要求5-7任一项所述的装置,其特征在于,当所述装置为所述网卡时,所述网卡为智能网卡。
9.一种网卡,其特征在于,包括处理器、存储器、通信接口和总线,所述处理器、所述存储器和所述通信接口通过所述总线连接,所述通信接口用于进行通信,所述存储器用于存储程序代码,所述处理器用于执行所述存储器存储的程序代码,当所述处理器执行所述存储器存储的程序代码时,使得所述处理器执行权利要求1-4任一项所述的故障检测方法。
10.一种交换机,其特征在于,所述交换机用于连接管理节点和至少一个业务节点,所述管理节点用于管理所述至少一个业务节点,所述交换机包括处理器、存储器、通信接口和总线,所述处理器、所述存储器和所述通信接口通过所述总线连接,所述通信接口用于进行通信,所述存储器用于存储程序代码,所述处理器用于执行所述存储器存储的程序代码,当所述处理器执行所述存储器存储的程序代码时,使得所述处理器执行权利要求1-4任一项所述的故障检测方法。
CN201810802448.3A 2018-07-20 2018-07-20 一种故障检测方法、装置和相关设备 Active CN110740072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810802448.3A CN110740072B (zh) 2018-07-20 2018-07-20 一种故障检测方法、装置和相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810802448.3A CN110740072B (zh) 2018-07-20 2018-07-20 一种故障检测方法、装置和相关设备

Publications (2)

Publication Number Publication Date
CN110740072A CN110740072A (zh) 2020-01-31
CN110740072B true CN110740072B (zh) 2023-03-10

Family

ID=69235366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810802448.3A Active CN110740072B (zh) 2018-07-20 2018-07-20 一种故障检测方法、装置和相关设备

Country Status (1)

Country Link
CN (1) CN110740072B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573329A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 节点控制的方法、系统以及装置
CN113805788B (zh) * 2020-06-12 2024-04-09 华为技术有限公司 一种分布式存储系统及其异常处理方法和相关装置
CN112583932B (zh) * 2020-12-25 2022-12-09 北京明朝万达科技股份有限公司 业务处理方法、装置及网络架构
CN113872799A (zh) * 2021-08-27 2021-12-31 华为技术有限公司 管理节点的方法、节点和系统
CN114268562A (zh) * 2021-11-01 2022-04-01 贵州电网有限责任公司 芯片化继电保护的传输链路检测装置、系统和方法
CN114827052A (zh) * 2022-03-30 2022-07-29 阿里云计算有限公司 Ecmp节点健康状况的诊断方法及装置
CN114928654A (zh) * 2022-06-07 2022-08-19 中国工商银行股份有限公司 节点状态监测方法、装置、设备、存储介质和程序产品
CN117193272B (zh) * 2023-11-07 2024-01-26 常州华纳电气有限公司 一种基于大数据的电控测试数据管理系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104753707A (zh) * 2013-12-29 2015-07-01 中国移动通信集团公司 一种系统维护方法及网络交换设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050390B2 (en) * 2001-10-25 2006-05-23 Raytheon Company System and method for real-time fault reporting in switched networks
US7835265B2 (en) * 2002-10-31 2010-11-16 Conexant Systems, Inc. High availability Ethernet backplane architecture
CN101610212B (zh) * 2009-07-27 2012-12-12 迈普通信技术股份有限公司 实现数据平面可靠通信的方法和板卡
US9800495B2 (en) * 2009-09-30 2017-10-24 Infinera Corporation Fast protection path activation using control plane messages
US9088496B2 (en) * 2012-03-16 2015-07-21 Brocade Communications Systems, Inc. Packet tracing through control and data plane operations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104753707A (zh) * 2013-12-29 2015-07-01 中国移动通信集团公司 一种系统维护方法及网络交换设备

Also Published As

Publication number Publication date
CN110740072A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110740072B (zh) 一种故障检测方法、装置和相关设备
US10601643B2 (en) Troubleshooting method and apparatus using key performance indicator information
US10860311B2 (en) Method and apparatus for drift management in clustered environments
CN108418710B (zh) 一种分布式监控系统、方法及装置
US20160036654A1 (en) Cluster system
CN112737871B (zh) 链路故障检测方法、装置、计算机设备及存储介质
CN110572284B (zh) 一种虚拟网元的升级方法、装置及系统
CN113067875A (zh) 基于微服务网关动态流控的访问方法和装置以及设备
JP2013222313A (ja) 障害連絡効率化システム
CN114168071B (zh) 一种分布式集群扩容方法、分布式集群扩容装置及介质
CN112764956A (zh) 数据库的异常处理系统、数据库的异常处理方法及装置
EP3680780B1 (en) Cluster system, control method, and corresponding computer program
EP4167530A1 (en) Network monitoring method, electronic device and storage medium
US8108736B2 (en) Multi-partition computer system, failure handling method and program therefor
CN110224872B (zh) 一种通信方法、装置及存储介质
CN116670636A (zh) 数据存取方法、装置和存储介质
JP6551111B2 (ja) 情報処理装置、ダウン判定方法、クラスタシステム、及びプログラム
CN113254245A (zh) 一种存储集群的故障检测方法和系统
CN108512698B (zh) 一种网络容灾方法、装置及电子设备
CN110971477B (zh) 一种通信方法、设备、系统和存储介质
US9172596B2 (en) Cross-network listening agent for network entity monitoring
WO2022176021A1 (ja) テレメトリ情報通知装置、テレメトリ情報通知方法及びテレメトリ情報通知プログラム
CN112217718A (zh) 一种业务处理方法、装置、设备及存储介质
CN111200520A (zh) 网络监控方法、服务器和计算机可读存储介质
JP6364203B2 (ja) システムの稼働状態を監視する監視サーバ及び監視サーバの制御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant