CN117527653A - 一种集群的心跳管理方法、系统、设备及介质 - Google Patents

一种集群的心跳管理方法、系统、设备及介质 Download PDF

Info

Publication number
CN117527653A
CN117527653A CN202311666460.3A CN202311666460A CN117527653A CN 117527653 A CN117527653 A CN 117527653A CN 202311666460 A CN202311666460 A CN 202311666460A CN 117527653 A CN117527653 A CN 117527653A
Authority
CN
China
Prior art keywords
communication
heartbeat
communication module
node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311666460.3A
Other languages
English (en)
Inventor
请求不公布姓名
张岩
张海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hezhi Technology Co ltd
Original Assignee
Beijing Hezhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hezhi Technology Co ltd filed Critical Beijing Hezhi Technology Co ltd
Priority to CN202311666460.3A priority Critical patent/CN117527653A/zh
Publication of CN117527653A publication Critical patent/CN117527653A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请提出了一种集群的心跳管理方法、系统、设备及介质,涉及计算机通信技术领域。该方法包括:节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接。互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;所述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块。基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制。该方案能够有效的检测节点之间的通信情况,并在对异常节点进行处理时尽可能小的影响到整个集群的正常稳定运行。

Description

一种集群的心跳管理方法、系统、设备及介质
技术领域
本申请涉及计算机通信技术领域,具体而言,涉及一种集群的心跳管理方法、系统、设备及介质。
背景技术
在集群中包含有多个节点,每个节点独立工作并通过光纤通信。在受到外部干扰等因素的作用下,两个节点之间的通信可能出现断连的情况,从而影响到整个集群系统的运行。通常,可以人为的对其进行复位,但是,人为的复位会导致任务运行的中断,并且不能只恢复部分节点通信而不影响其他节点。因此,在节点之间的通信过程中,如何检测节点之间的通信连接情况,以及在出现通信异常的情况下应该如何正确处理,以使节点之间的通信异常尽可能小的影响到整个集群的稳定运行也就成为了亟需解决的技术问题。
发明内容
本申请的目的在于提供一种集群的心跳管理方法、系统、设备及介质,其能够有效的检测节点之间的通信情况,并在对异常节点进行处理时尽可能小的影响到整个集群的正常稳定运行。
本申请是这样实现的:
第一方面,本申请提供一种集群的心跳管理方法,包括以下步骤:
节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接。互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;上述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块。基于上述心跳查询结果确定故障通信模块,以对相应的信道和/或上述故障通信模块启动软复位恢复机制。
进一步地,基于前述方案,上述心跳数据包携带有循环冗余校核码,上述心跳查询结果携带有循环冗余校核码的校验结果、以及心跳数据包传输过程中的异常信息。
进一步地,基于前述方案,上述心跳查询结果包括当前节点发送心跳数据包后未收到对应的反馈信息、接收到的心跳数据包的循环冗余校核码的校验错误、或当前节点接收到心跳数据包的第一时间戳与相邻节点发送该心跳数据包的第二时间戳的差值大于预设处理时长。
进一步地,基于前述方案,上述基于上述心跳查询结果确定故障通信模块,以对相应的信道和/或上述故障通信模块启动软复位恢复机制,包括:
基于上述心跳查询结果定位互联异常的两相邻节点,并在断开与可疑通信模块相关联的其他模块的通信链接后,对上述可疑通信模块启动软复位恢复机制;上述可疑通信模块是定位为互联异常的两相邻节点互联所使用的通信模块。若未定位到可疑通信模块,则确认为通信信道故障,并启动通信建立连接模块的复位,等待信道两侧重新建立连接。
进一步地,基于前述方案,上述节点对应的收发器基于现场可编辑逻辑门阵列的IO接口实现;上述互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,包括:互联的两相邻节点每隔32个时钟周期使用对应的通信模块周期性的互相发送心跳数据包。
进一步地,基于前述方案,上述信道采用电信号通信或光信号通信。
第二方面,本申请提供一种集群的心跳管理系统,其包括:
拓扑模块,被配置为:节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接。查询模块,被配置为:互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;上述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块。处理模块,被配置为:基于上述心跳查询结果确定故障通信模块,以对相应的信道和/或上述故障通信模块启动软复位恢复机制。
第三方面,本申请提供一种电子设备,包括至少一个处理器、至少一个存储器和数据总线;其中:上述处理器与上述存储器通过上述数据总线完成相互间的通信;上述存储器存储有被上述处理器执行的程序指令,上述处理器调用上述程序指令以执行如上述第一方面中任一项所述的方法。
进一步地,基于前述方案,还包括中央处理器,所述中央处理器用于通过集群通信随时读取节点间通信的连接状况进行实时监测通信故障,以根据通信状态选择更优的数据传输路径。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项所述的方法。
相对于现有技术,本申请至少具有如下优点或有益效果:
本申请提出了一种集群的心跳管理方法,其互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接,然后通过互相独立设置的通信模块互相进行心跳检测,所依据的心跳数据仅从一个节点的通信模块到相邻节点的通信模块才维持有效,可以快速精准的检测和识别出心跳数据包在传输过程中出现的异常,以便于采用心跳检测加软复位的方式快速恢复通信出错的节点。由于互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接,从而软复位时可仅复位该节点通信异常的通信模块,其他节点以及该节点的其他模块均不复位,能尽可能保证集群的其他功能正常。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一种集群的心跳管理方法一实施例的流程图;
图2为本申请一实施例中节点互联的示意图;
图3为本申请一实施例中心跳复位的流程图;
图4为本申请一种集群的心跳管理系统一实施例的结构框图;
图5为本申请实施例提供的一种电子设备的结构框图。
图标:101、拓扑模块;102、查询模块;103、处理模块;104、处理器;105、存储器;106、数据总线。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
实施例1
针对大规模运集群内多个节点之间的通信异常恢复问题来说,以下问题尤为重要:如何检测节点之间的通信连接情况,并且在出现通信异常的情况下该如何恢复通信,以使节点之间的通信异常尽可能小的影响到整个集群的正常稳定运行。为此,本申请实施例提供了一种集群的心跳管理方法,其能够有效的检测节点之间的通信情况,并在对异常节点进行处理时尽可能小的影响到整个集群的正常稳定运行。
请参阅图1,该一种集群的心跳管理方法包括以下步骤:
步骤S101:节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接;
步骤S102:互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;所述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块;
步骤S103:基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制。
整个集群上电后,整个集群复位,所有数据传输通道通过光纤建立连接后数据开始正常通信。整个节点的连接如图2所示,互联的两相邻节点之间是通过各自独立设置的通信模块进行通信连接的,并且在节点之间建立连接后,相互之间发送数据,同时每隔一段时间互相发送一次心跳数据包,接收到心跳数据包并校验正确表明光纤两边相互之间通信正常。而根据心跳查询结果了解到互联的通信模块发生故障后,将对互联的两通信模块进行启动软复位机制,将两通信模块进行软复位。其中,软复位是通过复位逻辑控制,可以执行对单个模块或整个系统的复位,这种复位方式常用来错误处理。另外,在本申请的一些实现方式中,信道可以采用电信号通信,也可以采用光信号通信。
需要说明的是,同一节点上设置的多个通信模块相互隔离,是独立的模块,同一节点上设置的任一通信模块故障都不会影响另外的通信模块的正常运行,并且,心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块。因此,可以保证获取心跳查询结果的准确性和及时性,并且,软复位仅复位该节点通信异常的通信模块,其他节点与该节点的其他通信模块均不复位,可以尽可能的保证集群的其他功能的正常运行。
虽然图2中示出的多边形拓扑结构是四边形拓扑结构,但是在实际应用时可以根据需要选择任意多边形拓扑结构,例如可以是三角形拓扑结构、五边形拓扑结构和六边形拓扑结构等多边形结构,在此不做限定。
基于前述方案,在本申请的一实现方式中,所述心跳数据包携带有循环冗余校核码,所述心跳查询结果携带有循环冗余校核码的校验结果、以及心跳数据包传输过程中的异常信息。从而,可以在分析心跳数据包传输过程中的异常信息的基础上,结合对心跳数据携带的循环冗余校核码的校验处理结果,更加准确的了解到互联的两通信模块之间的通信情况。示例性地,心跳数据包的格式可以如下表所示:
其中,循环冗余校核码:检验接收到心跳数据包的正确性;
心跳信号标识:标志此数据包为心跳数据包;
心跳编号的低4位:心跳数据编号只取最低4位,用来识别心跳数据包的连续性;
模块故障代码:显示节点的通信模块故障类型;
软复位标识:欲启动软复位的信号;
数据保留位:暂未用到的数据位。
基于前述方案,在本申请的一实现方式中,所述心跳查询结果包括当前节点发送心跳数据包后未收到对应的反馈信息、接收到的心跳数据包的循环冗余校核码的校验错误、或当前节点接收到心跳数据包的第一时间戳与相邻节点发送该心跳数据包的第二时间戳的差值大于预设处理时长。
对于互联的两通信模块而言,其通信连接正常,能够正常的收发和验证对应的心跳数据包,但是还可能存在通信时延较大的情况,因此,可以根据当前节点接收到心跳数据包的第一时间戳与相邻节点发送该心跳数据包的第二时间戳的差值,进行表征两通信模块之间的延时,以在其延时较大时(差值大于能够接受的预设预处理长时),将通信模块之间的通信定义为异常,便于后续对其进行软复位,以通过复位的方式进行改善这种情况。
基于前述方案,在本申请的一实现方式中,所述基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制,包括,包括:基于所述心跳查询结果定位互联异常的两相邻节点,并在断开与可疑通信模块相关联的其他模块的通信链接后,对所述可疑通信模块启动软复位恢复机制;所述可疑通信模块是定位为互联异常的两相邻节点互联所使用的通信模块。若未定位到可疑通信模块,则确认为通信信道故障,并启动通信建立连接模块的复位,等待信道两侧重新建立连接。
该实现方式中,在启动软复位恢复机制之前,先断开与可疑通信模块相关联的其他模块的通信链接,可以防止可疑通信模块的复位对其他模块产生影响。即,通过在软复位时采用模块隔离的方式,可以防止复位的通信模块影响到与之相连的模块而产生异常。示例性的,其在产品的具现阶段,可以设计模块自检测功能,从而在心跳异常时,可以根据各模块的运行状态定位可疑故障模块,如果通信模块未检测到故障,则认定为通信信道故障。
基于前述方案,在本申请的一实现方式中,所述节点对应的收发器基于现场可编辑逻辑门阵列的IO接口实现;所述互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,包括:互联的两相邻节点每隔32个时钟周期使用对应的通信模块周期性的互相发送心跳数据包。
在上述实现方式中,节点收发器基于现场可编程逻辑门阵列(FPGA)的IO接口实现。为了保证心跳检测的时效性,上述实现方式中采用高频心跳数据交互,每隔32个时钟周期心跳数据包就会发送一次。FPGA运行时钟频率为200MHz/400MHz,则心跳数据包发送时间间隔为160ns/80ns,如果检测到通信异常,将可以及时恢复以防止数据出错造成的错误积累,避免影响该节点的数据计算以及该节点与其他节点的正常数据传输,从而影响整个集群的运行。在该实现方式中,从节点通道连接异常数据传输出错,到心跳数据包发送、接收及检测出异常,再到两个节点双向恢复,异常恢复时间可低至微秒级。
为了让本领域技术人员更直观的理解本申请,这里将结合图2以一个具体的示例加以说明。
在图2中,节点0-7上均分别设有对应的相互独立的模块a、模块b和模块c,以节点1为例,节点1与节点0、节点2以及节点6相连,节点1的通信模块a与节点0的通信模块a相互收发数据,节点1的通信模块b与节点2的通信模块a相互收发数据,节点1的通信模块c与节点6的通信模块a相互收发数据,节点1的通信模块a、通信模块b和通信模块c是相互独立的,并且三个通信模块之中任一通信模块故障不会影响另外两个通信模块的正常运行。心跳数据包由节点0的通信模块a向节点1的通信模块a发送,节点0接收到心跳数据包后,经过通信模块a解析发现运行正常的同时心跳数据包就作废了,与其他通信模块无关,同时,节点1的通信模块a也向节点1的通信模块a发送心跳数据包。如果从节点0向节点1发送的数据包解析有错误,也与其他通信模块无关,只需要恢复节点0的通信模块a和节点1的通信模块a。
当受到外部干扰等因素导致节点之间的通信断开(图2中节点1和节点2之间),从一个节点向另一个节点发送的数据包就会丢失或者出错,同时节点之间每隔一段时间互相发送一次心跳数据包,另一端就会接收不到心跳数据包或者接收到心跳数据包但校验错误,表明节点之间通信异常。这就是通过心跳数据包检测集群数据通信。
当检测到通信异常后将启动软复位恢复机制,随后节点1的通信模块b和节点2的通信模块a启动软复位,复位后,节点1的通信模块b和节点2的通信模块a恢复到初始状态,两个节点重新建立连接。再次建立连接后数据正常通信,并且定时发送心跳数据包,继续检测节点之间的通信状态。为了使节点1的通信模块b和节点2的通信模块a软复位时不影响其他模块,可以采用模块隔离的方式,即在节点1上的通信模块b进行复位,则将与节点1的通信模块b相关联的其他模块通信链接都断开,防止节点1的通信模块b复位带给其他模块产生影响,节点2的通信模块a复位也是一样。
如图3所示,在利用代码实现本申请的技术方案时,复位后等待建立通信连接,当连接建立后有一个channel(通道)同步的过程,延时一段时间开始传输数据,并发送和接收心跳数据包,如果校验正确通信正常,延时32个时钟周期后再次收发心跳数据包,直到通信异常回到复位状态重新连接。
终上所述,本申请不依赖于外部设备检测数据通信的状态,而是通过采用定时收发心跳数据包的机制,根据对心跳数据包的检测,自动检测通信传输中的异常。同时,在数据传输异常时,对故障通信模块启动软复位恢复机制,其不需要中断集群运行,也不影响其他节点的数据通信,即可自动恢复异常的数据通信。需要说明的是,两个节点之间的单向数据异常和双向数据异常在本申请中的恢复机制相同,都需要双向复位再连接。总之,通过本申请的技术方案,可以及时发现集群通信的故障或异常情况并及时恢复,避免集群运算中断或数据丢失,可以提高集群的稳定性和可靠性,确保集群能够持续稳定的运行。
实施例2
请参阅图4,本申请实施例提供了一种集群的心跳管理系统,其包括:
拓扑模块1,被配置为:节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接。查询模块2,被配置为:互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;所述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块。处理模块3,被配置为:基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制。
上述系统具体实现过程请参照实施例1中提供的一种集群的心跳管理方法,在此不再赘述。
实施例3
请参阅图5,本申请实施例提供了一种电子设备,该电子设备包括至少一个处理器104、至少一个存储器105和数据总线106;其中:处理器104与存储器105通过数据总线106完成相互间的通信;存储器105存储有可被处理器104执行的程序指令,处理器104调用程序指令以执行一种集群的心跳管理方法。例如实现:
节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接。互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;所述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块。基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制。
基于前述方案,在本申请的一些实现方式中,该电子设备还包括中央处理器,所述中央处理器用于通过集群通信随时读取节点间通信的连接状况进行实时监测通信故障,以根据通信状态选择更优的数据传输路径。
其中,存储器105可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器104可以是一种集成电路芯片,具有信号处理能力。该处理器104可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图5所示的结构仅为示意,电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
实施例4
本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器104执行时实现一种集群的心跳管理方法。例如实现:
节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接。互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;所述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块。基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制。
上述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种集群的心跳管理方法,其特征在于,包括以下步骤:
节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接;
互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;所述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块;
基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制。
2.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述心跳数据包携带有循环冗余校核码,所述心跳查询结果携带有循环冗余校核码的校验结果、以及心跳数据包传输过程中的异常信息。
3.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述心跳查询结果包括当前节点发送心跳数据包后未收到对应的反馈信息、接收到的心跳数据包的循环冗余校核码的校验错误、或当前节点接收到心跳数据包的第一时间戳与相邻节点发送该心跳数据包的第二时间戳的差值大于预设处理时长。
4.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制,包括:
基于所述心跳查询结果定位互联异常的两相邻节点,并在断开与可疑通信模块相关联的其他模块的通信链接后,对所述可疑通信模块启动软复位恢复机制;所述可疑通信模块是定位为互联异常的两相邻节点互联所使用的通信模块;
若未定位到可疑通信模块,则确认为通信信道故障,并启动通信建立连接模块的复位,等待信道两侧重新建立连接。
5.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述节点对应的收发器基于现场可编辑逻辑门阵列的IO接口实现;所述互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,包括:互联的两相邻节点每隔32个时钟周期使用对应的通信模块周期性的互相发送心跳数据包。
6.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述信道采用电信号通信或光信号通信。
7.一种集群的心跳管理系统,其特征在于,包括:
拓扑模块,被配置为:节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接;
查询模块,被配置为:互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;所述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块;
处理模块,被配置为:基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制。
8.一种电子设备,其特征在于,包括至少一个处理器、至少一个存储器和数据总线;其中:所述处理器与所述存储器通过所述数据总线完成相互间的通信;所述存储器存储有被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行如权利要求1-6任一项所述的方法。
9.如权利要求8所述的电子设备,其特征在于,还包括中央处理器,所述中央处理器用于通过集群通信随时读取节点间通信的连接状况进行实时监测通信故障,以根据通信状态选择更优的数据传输路径。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN202311666460.3A 2023-12-06 2023-12-06 一种集群的心跳管理方法、系统、设备及介质 Pending CN117527653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311666460.3A CN117527653A (zh) 2023-12-06 2023-12-06 一种集群的心跳管理方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311666460.3A CN117527653A (zh) 2023-12-06 2023-12-06 一种集群的心跳管理方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN117527653A true CN117527653A (zh) 2024-02-06

Family

ID=89756737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311666460.3A Pending CN117527653A (zh) 2023-12-06 2023-12-06 一种集群的心跳管理方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN117527653A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117827522A (zh) * 2024-03-04 2024-04-05 四川零点自动化系统有限公司 一种输出模块的故障保护方法、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117827522A (zh) * 2024-03-04 2024-04-05 四川零点自动化系统有限公司 一种输出模块的故障保护方法、设备和介质
CN117827522B (zh) * 2024-03-04 2024-05-14 四川零点自动化系统有限公司 一种输出模块的故障保护方法、设备和介质

Similar Documents

Publication Publication Date Title
US5390326A (en) Local area network with fault detection and recovery
CN101908986B (zh) 一种链路故障的检测方法和设备
US20140372805A1 (en) Self-healing managed customer premises equipment
WO2016095718A1 (zh) 检测通讯链路的方法、基站、网管、系统及存储介质
CN117527653A (zh) 一种集群的心跳管理方法、系统、设备及介质
JPH0339422B2 (zh)
CN112214441B (zh) 基于串行总线轮询协议的通信切换方法、设备和系统
CN108804260B (zh) 一种srio系统倒换的方法和装置
EP3232620B1 (en) Data center based fault analysis method and device
US20130064069A1 (en) Recovery Method for Ring-Based Network
US20240106737A1 (en) Application-aware links
RU2602977C2 (ru) Способ определения корректности оптоволоконного соединения, реализованного на основе замкнутой сети удаленных радиоблоков (rru), и блок базового диапазона (bbu)
CN111565133B (zh) 专线切换方法、装置、电子设备和计算机可读存储介质
CN101854263B (zh) 网络拓扑的分析处理方法、系统和管理服务器
US7719992B1 (en) System for proactive time domain reflectometry
CN111679925A (zh) 数据库故障处理方法、装置、计算设备和存储介质
CN113992501A (zh) 一种故障定位系统、方法及计算装置
CN110677316A (zh) 一种分布式存储服务器网卡检测方法和系统
CN207652457U (zh) 一种Bus_Off故障测试系统
CN115729782A (zh) 一种芯片运行状态监控及自愈方法和系统
EP2698949B1 (en) METHOD AND SYSTEM FOR SETTING DETECTION FRAME TIMEOUT DURATION OF ETHERNET NODEs
CN113009246B (zh) Pse设备检测装置及pse设备检测方法
CN112825501B (zh) 信号劣化处理方法、装置及系统
CN112422428B (zh) 链路状态获取方法、装置、电子设备及可读存储介质
CN111817892B (zh) 一种网络管理方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination