CN112511356B - 一种多节点集群的故障修复方法、装置、设备及介质 - Google Patents

一种多节点集群的故障修复方法、装置、设备及介质 Download PDF

Info

Publication number
CN112511356B
CN112511356B CN202011505796.8A CN202011505796A CN112511356B CN 112511356 B CN112511356 B CN 112511356B CN 202011505796 A CN202011505796 A CN 202011505796A CN 112511356 B CN112511356 B CN 112511356B
Authority
CN
China
Prior art keywords
fault
node
slave node
target slave
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011505796.8A
Other languages
English (en)
Other versions
CN112511356A (zh
Inventor
杨建阁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Inspur Data Technology Co Ltd
Original Assignee
Beijing Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Inspur Data Technology Co Ltd filed Critical Beijing Inspur Data Technology Co Ltd
Priority to CN202011505796.8A priority Critical patent/CN112511356B/zh
Publication of CN112511356A publication Critical patent/CN112511356A/zh
Application granted granted Critical
Publication of CN112511356B publication Critical patent/CN112511356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种多节点集群的故障修复方法、装置、设备及介质,该方法包括:对多节点集群中的主节点进行监听;当监听到主节点所发送的故障修复消息时,则从故障修复消息中提取与故障从节点所对应的故障识别码;若故障识别码与目标从节点所对应的识别码一致,则利用故障修复文件对目标从节点进行故障修复;其中,故障修复文件为预先添加至目标从节点,用于对目标从节点进行故障修复的文件;当目标从节点的故障修复完毕时,则向主节点返回故障修复完毕的反馈消息。显然,由于该方法省去了人工手动对故障从节点进行修复的繁琐步骤,所以,通过该方法就可以显著提高在对故障从节点进行修复时的准确性与修复效率。

Description

一种多节点集群的故障修复方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,特别涉及一种多节点集群的故障修复方法、装置、设备及介质。
背景技术
因为多节点集群具有高性价比、高可用性和高拓展能力的特点,所以,多节点集群在互联网领域得到了极为广泛的应用。在现有技术中,如果多节点集群中出现了发生故障的故障从节点,由于故障从节点的IP地址(Internet Protocol Address,互联网协议地址)失效,就会出现主节点无法对故障从节点进行管理的情形。在此情况下,只能是通过人工手动登录故障从节点才能对其进行修复。显然,多节点集群的此种故障修复方法不仅效率低下,而且,也容易出错。目前,针对这一技术问题,还没有较为有效的解决办法。
由此可见,如何提高在对故障从节点进行修复时的准确性与修复效率,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种多节点集群的故障修复方法、装置、设备及介质,以提高在对故障从节点进行修复时的准确性与修复效率。其具体方案如下:
一种多节点集群的故障修复方法,应用于多节点集群的目标从节点,包括:
对所述多节点集群中的主节点进行监听;
当监听到所述主节点所发送的故障修复消息时,则从所述故障修复消息中提取与故障从节点所对应的故障识别码;
若所述故障识别码与所述目标从节点所对应的识别码一致,则利用故障修复文件对所述目标从节点进行故障修复;其中,所述故障修复文件为预先添加至所述目标从节点,用于对所述目标从节点进行故障修复的文件;
当所述目标从节点的故障修复完毕时,则向所述主节点返回故障修复完毕的反馈消息。
优选的,所述对所述多节点集群中的主节点进行监听的过程,包括:
通过链路层对所述主节点进行监听。
优选的,所述从所述故障修复消息中提取与故障从节点所对应的故障识别码的过程,包括:
从所述故障修复消息中提取与故障从节点所对应的故障MAC地址或故障SN码。
优选的,还包括:
若所述故障识别码与所述目标从节点所对应的识别码不一致,则丢弃所述故障修复消息,并继续执行所述对所述多节点集群中的主节点进行监听的步骤。
相应的,本发明还公开了一种多节点集群的故障修复方法,应用于多节点集群的主节点,包括:
当所述多节点集群中出现故障从节点时,则向所述多节点集群中的目标从节点发送故障修复消息;其中,当所述目标从节点接收到所述故障修复消息时,则从所述故障修复消息中提取与所述故障从节点相对应的故障识别码,若所述故障识别码与所述目标从节点的识别码一致,则利用故障修复文件对所述目标从节点进行故障修复;所述故障修复文件为预先添加至所述目标从节点,用于对所述目标从节点进行故障修复的文件;
当接收到所述目标从节点对故障修复完毕的反馈消息时,则判定所述目标从节点的故障修复完毕。
优选的,还包括:
若未接收到所述目标从节点对故障修复完毕的反馈消息时,则继续执行所述向所述多节点集群中的目标从节点发送故障修复消息的步骤;
判断是否能够接收到所述目标从节点对故障修复完毕的反馈消息;
若否,则统计向所述目标从节点发送所述故障修复消息的目标次数;
当所述目标次数大于预设次数时,则判定所述目标从节点的硬件发生故障,并停止向所述目标从节点发送所述故障修复消息。
相应的,本发明还公开了一种多节点集群的故障修复装置,应用于多节点集群的目标从节点,包括:
节点监听模块,用于对所述多节点集群中的主节点进行监听;
信息提取模块,用于当监听到所述主节点所发送的故障修复消息时,则从所述故障修复消息中提取与故障从节点所对应的故障识别码;
故障修复模块,用于若所述故障识别码与所述目标从节点所对应的识别码一致,则利用故障修复文件对所述目标从节点进行故障修复;其中,所述故障修复文件为预先添加至所述目标从节点,用于对所述目标从节点进行故障修复的文件;
消息返回模块,用于当所述目标从节点的故障修复完毕时,则向所述主节点返回故障修复完毕的反馈消息。
相应的,本发明还公开了一种多节点集群的故障修复装置,应用于多节点集群的主节点,包括:
消息发送模块,用于当所述多节点集群中出现故障从节点时,则向所述多节点集群中的目标从节点发送故障修复消息;其中,当所述目标从节点接收到所述故障修复消息时,则从所述故障修复消息中提取与所述故障从节点相对应的故障识别码,若所述故障识别码与所述目标从节点的识别码一致,则利用故障修复文件对所述目标从节点进行故障修复;所述故障修复文件为预先添加至所述目标从节点,用于对所述目标从节点进行故障修复的文件;
故障判定模块,用于当接收到所述目标从节点对故障修复完毕的反馈消息时,则判定所述目标从节点的故障修复完毕。
相应的,本发明还公开了一种多节点集群的故障修复设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前述所公开的一种多节点集群的故障修复方法的步骤。
相应的,本发明还公开了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述所公开的一种多节点集群的故障修复方法的步骤。
可见,在本发明中,多节点集群中的目标从节点首先是对多节点集群中的主节点进行监听;当目标从节点监听到主节点所发送的故障修复消息时,则说明多节点集群中存在有发生故障的故障从节点,此时目标从节点则会从故障修复消息中提取与故障从节点所对应的故障识别码,并判断故障识别码是否与目标从节点自身所对应的识别码一致,如果一致,则说明目标从节点就是故障从节点,此时目标从节点就会调用预先所存储的故障修复文件来对目标从节点进行故障修复,并且,当目标从节点对故障修复完毕时,则会向主节点返回故障修复完毕的反馈消息。显然,通过本发明所提供的故障修复方法,由于相比于现有技术而言,省去了人工手动对故障从节点进行修复的繁琐步骤,所以,通过该方法就可以显著提高在对故障从节点进行修复时的准确性与修复效率。相应的,本发明所提供的一种多节点集群的故障修复装置、设备及介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种多节点集群的故障修复方法的流程图;
图2为本发明实施例所提供的一种对多节点集群中目标从节点进行故障修复时的示意图;
图3为本发明实施例所提供的另一种多节点集群的故障修复方法的流程图;
图4为本发明实施例所提供的一种多节点集群的故障修复装置的结构图;
图5为本发明实施例所提供的另一种多节点集群的故障修复装置的结构图;
图6为本发明实施例所提供的一种多节点集群的故障修复设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1为本发明实施例所提供的一种多节点集群的故障修复方法的流程图,该故障修复方法包括:
步骤S11:对多节点集群中的主节点进行监听;
步骤S12:当监听到主节点所发送的故障修复消息时,则从故障修复消息中提取与故障从节点所对应的故障识别码;
步骤S13:若故障识别码与目标从节点所对应的识别码一致,则利用故障修复文件对目标从节点进行故障修复;
其中,故障修复文件为预先添加至目标从节点,用于对目标从节点进行故障修复的文件;
步骤S14:当目标从节点的故障修复完毕时,则向主节点返回故障修复完毕的反馈消息。
在本实施例中,是提供了一种多节点集群的故障修复方法,通过该故障修复方法可以提高在对故障从节点进行修复时的准确性与修复效率。在该故障修复方法中,是以多节点集群中的目标从节点为执行主体进行说明,其中,目标从节点是指多节点集群中的任意一个从节点。
具体的,当多节点集群中存在故障从节点时,则多节点集群中的主节点会向所有从节点发送对故障从节点进行修复的故障修复消息;同时,多节点集群中的目标从节点也会对主节点进行监听,如果目标从节点监听到主节点所发送的故障修复消息时,目标从节点则会从故障修复消息中提取与故障从节点所对应的故障识别码;如果目标从节点判定出目标从节点自身的识别码与故障识别码一致,则说明目标从节点自身就是故障从节点,此时,目标从节点就会调用预先存储在自身节点中的故障修复文件来对目标从节点的故障进行修复,并且,当目标从节点将自身的故障修复完毕时,会向主节点返回故障修复完毕的反馈消息,以使得主节点知悉到故障从节点的当前状态。
其中,目标从节点在对自身故障进行修复时,需要对目标从节点的网络、密钥、证书等相关内容进行修复,并且,目标从节点在对其自身故障修复完毕时,还需要对目标从节点进行重启,并由此使得恢复后的数据可以生效。
可以理解的是,相较于现有技术而言,由于通过本申请所提供的故障修复方法,不仅能够免去人工手动对故障从节点进行修复的繁琐步骤,而且,也可以避免由于人工手动对故障从节点进行修复过程中所出现的错误,所以,通过此种设置方式,不仅可以提高在对故障从节点进行故障修复时的修复效率,而且,也可以提高在对故障从节点进行修复时的准确率。
可见,在本实施例中,多节点集群中的目标从节点首先是对多节点集群中的主节点进行监听;当目标从节点监听到主节点所发送的故障修复消息时,则说明多节点集群中存在有发生故障的故障从节点,此时目标从节点则会从故障修复消息中提取与故障从节点所对应的故障识别码,并判断故障识别码是否与目标从节点自身所对应的识别码一致,如果一致,则说明目标从节点就是故障从节点,此时目标从节点就会调用预先所存储的故障修复文件来对目标从节点进行故障修复,并且,当目标从节点对故障修复完毕时,则会向主节点返回故障修复完毕的反馈消息。显然,通过本实施例所提供的故障修复方法,由于相比于现有技术而言,省去了人工手动对故障从节点进行修复的繁琐步骤,所以,通过该方法就可以显著提高在对故障从节点进行修复时的准确性与修复效率。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,作为一种优选的实施方式,上述步骤:对多节点集群中的主节点进行监听的过程,包括:
通过链路层对主节点进行监听。
在本实施例中,目标从节点是通过链路层来对多节点集群中的主节点进行监听,因为链路层相比于物理层而言,不仅能够稳定地对数据进行传输,而且,还具有更为快速的数据传输速度,因此,当目标从节点通过链路层来对主节点进行监听时,就可以相对提高目标从节点对主节点进行监听时的监听效率。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,作为一种优选的实施方式,上述步骤:从故障修复消息中提取与故障从节点所对应的故障识别码的过程,包括:
从故障修复消息中提取与故障从节点所对应的故障MAC地址或故障SN码。
可以理解的是,因为在多节点集群中,每一个目标从节点都有对其身份进行唯一标识的SN码和MAC地址,所以,在本实施例中,目标从节点为了判断自身是否为故障从节点,是从主节点所发送的故障修复消息中提取与故障从节点所对应的故障MAC地址或故障SN码。
显然,通过本实施例所提供的技术方案,可以相对保证目标从节点在判断自身是否为故障从节点时的准确性与可靠性。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,作为一种优选的实施方式,上述故障修复方法还包括:
若故障识别码与目标从节点所对应的识别码不一致,则丢弃故障修复消息,并继续执行对多节点集群中的主节点进行监听的步骤。
在实际操作过程中,如果目标从节点的识别码与故障识别码不一致,则说明目标从节点不是故障从节点,在此情况下,目标从节点则会将接收到的故障修复消息丢弃,并继续执行对多节点集群中的主节点进行监听的步骤。
显然,通过本实施例所提供的技术方案,可以使得本申请所提供的多节点集群的故障修复方法更加全面与完整。
为了使得本领域技术人员能够更为清楚地明白本申请所提供技术方案的实现原理,本实施例通过一个场景实施例对上述所公开的技术内容进行详细说明。请参见图2,图2为本发明实施例所提供的一种对多节点集群中目标从节点进行故障修复时的示意图。
在本实施例中,首先是在多节点集群中的主节点上部署消息推送模块和故障恢复模块,并在目标从节点上部署消息监听模块和故障恢复模块;其中,目标从节点是指多节点集群中的任意一个从节点,主节点中的消息推送模块用于当主节点发现多节点集群中存在故障从节点时,向多节点集群中的从节点发送故障修复消息;主节点中的故障恢复模块用于主节点对多节点集群的故障恢复;目标从节点中的消息监听模块用于监听主节点所发送的故障修复消息,目标从节点中的故障修复模块用于对目标从节点进行故障修复。
当主节点发现多节点集群中存在故障从节点时,则调用消息推送模块通过链路层向目标从节点发送故障修复消息;与此同时,目标从节点会调用消息监听模块从链路层抓取消息,当目标从节点监听到主节点所发送的故障修复消息时,则会从故障修复消息中提取与故障从节点相对应的故障识别码,并判断故障从节点的故障识别码是否与目标从节点自身的识别码一致,如果目标从节点的识别码与故障识别码一致,则说明目标从节点就是故障从节点,此时目标从节点就会调用故障恢复模块来对目标从节点进行故障修复,并且,当目标从节点对自身故障修复完毕时,目标从节点则会通过链路层向主节点反馈故障修复完毕的反馈消息;如果目标从节点的识别码与故障识别码不一致,则目标从节点会将故障修复消息丢弃,并结束该进程。
可以理解的是,通过本实施例所提供的故障修复方法,由于相比于现有技术而言,不仅能够免去人工手动对故障从节点进行修复的繁琐步骤,而且,也可以避免由于人工手动对故障从节点进行修复过程中所出现的错误,所以,通过该方法就可以显著提高在对故障从节点进行修复时的准确性与修复效率。
请参见图3,图3为本发明实施例所提供的另一种多节点集群的故障修复方法的流程图,该故障修复方法包括:
步骤S31:当多节点集群中出现故障从节点时,则向多节点集群中的目标从节点发送故障修复消息;
其中,当目标从节点接收到故障修复消息时,则从故障修复消息中提取与故障从节点相对应的故障识别码,若故障识别码与目标从节点的识别码一致,则利用故障修复文件对目标从节点进行故障修复;故障修复文件为预先添加至目标从节点,用于对目标从节点进行故障修复的文件;
步骤S32:当接收到目标从节点对故障修复完毕的反馈消息时,则判定目标从节点的故障修复完毕。
在本实施例中,是提供了一种多节点集群的故障修复方法,通过该故障修复方法可以提高在对故障从节点进行修复时的准确性与修复效率。在该故障修复方法中,是以多节点集群中的主节点为执行主体进行说明,并且,在本实施例中,目标从节点是指多节点集群中的任意一个从节点。
具体的,当多节点集群中出现故障从节点时,主节点会向多节点集群中的目标从节点发送故障修复消息;其中,当目标从节点接收到故障修复消息时,目标从节点会从故障修复消息中提取与故障从节点相对应的故障识别码,如果目标从节点的识别码与故障识别码一致,则说明目标从节点就是故障从节点,在此情况下,目标从节点会利用预先存储在目标从节点自身中的故障修复文件来对目标从节点进行故障修复,并且,当目标从节点对自身故障修复完毕时,会向主节点返回故障修复完毕的反馈消息。当主节点接收到目标从节点所反馈的故障修复完毕的反馈消息时,则说明多节点集群中的故障已经修复完毕。
可见,在本实施例中,当多节点集群中存在故障从节点时,多节点集群中的主节点会向目标从节点发送故障修复消息,当目标从节点监听到主节点所发送的故障修复消息时,目标从节点会从故障修复消息中提取与故障从节点所对应的故障识别码,并判断故障识别码是否与目标从节点自身所对应的识别码一致,如果一致,则说明目标从节点就是故障从节点,此时目标从节点就会调用预先所存储的故障修复文件来对目标从节点进行故障修复,并且,当目标从节点对故障修复完毕时,则会向主节点返回故障修复完毕的反馈消息。显然,通过本实施例所提供的故障修复方法,由于相比于现有技术而言,省去了人工手动对故障从节点进行修复的繁琐步骤,所以,通过该方法就可以显著提高在对故障从节点进行修复时的准确性与修复效率。
基于上述实施例,本实施例对技术方案作进一步的说明与优化,作为一种优选的实施方式,上述故障修复方法还包括:
若未接收到目标从节点对故障修复完毕的反馈消息时,则继续执行向多节点集群中的目标从节点发送故障修复消息的步骤;
判断是否能够接收到目标从节点对故障修复完毕的反馈消息;
若否,则统计向目标从节点发送故障修复消息的目标次数;
当目标次数大于预设次数时,则判定目标从节点的硬件发生故障,并停止向目标从节点发送故障修复消息。
在本实施例中,如果主节点没有接收到目标从节点对故障修复完毕的反馈消息时,则说明发生故障的目标从节点并没有对自身的故障修复完毕或者是发生了其它异常情况。在此情况下,主节点会继续向目标从节点发送故障修复消息,与此同时,主节点还会判断是否能够接收到目标从节点所返回的对故障修复完毕的反馈消息。如果主节点还是没有接收到对故障修复完毕的反馈消息,则说明目标从节点存在异常,此时主节点会统计向目标从节点发送故障修复消息的目标次数,如果目标次数大于预设次数,则说明目标从节点的硬件发生故障,在此情况下,主节点就无需再向目标从节点发送故障修复消息,并且,为了避免多节点集群出现更大的经济损失,还可以通知维修人员对目标从节点进行维修。
显然,通过本实施例所提供的技术方案,就可以进一步提高在对故障从节点进行故障修复时的成功概率。
请参见图4,图4为本发明实施例所提供的一种多节点集群的故障修复装置的结构图,该故障修复装置包括:
节点监听模块41,用于对多节点集群中的主节点进行监听;
信息提取模块42,用于当监听到主节点所发送的故障修复消息时,则从故障修复消息中提取与故障从节点所对应的故障识别码;
故障修复模块43,用于若故障识别码与目标从节点所对应的识别码一致,则利用故障修复文件对目标从节点进行故障修复;其中,故障修复文件为预先添加至目标从节点,用于对目标从节点进行故障修复的文件;
消息返回模块44,用于当目标从节点的故障修复完毕时,则向主节点返回故障修复完毕的反馈消息。
本发明实施例所提供的一种多节点集群的故障修复装置,具有前述所公开的一种多节点集群的故障修复方法所具有的有益效果。
请参见图5,图5为本发明实施例所提供的另一种多节点集群的故障修复装置的结构图,该故障修复装置包括:
消息发送模块51,用于当多节点集群中出现故障从节点时,则向多节点集群中的目标从节点发送故障修复消息;其中,当目标从节点接收到故障修复消息时,则从故障修复消息中提取与故障从节点相对应的故障识别码,若故障识别码与目标从节点的识别码一致,则利用故障修复文件对目标从节点进行故障修复;故障修复文件为预先添加至目标从节点,用于对目标从节点进行故障修复的文件;
故障判定模块52,用于当接收到目标从节点对故障修复完毕的反馈消息时,则判定目标从节点的故障修复完毕。
本发明实施例所提供的一种多节点集群的故障修复装置,具有前述所公开的一种多节点集群的故障修复方法所具有的有益效果。
请参见图6,图6为本发明实施例所提供的一种多节点集群的故障修复设备的结构图,该故障修复设备包括:
存储器61,用于存储计算机程序;
处理器62,用于执行计算机程序时实现如前述所公开的一种多节点集群的故障修复方法的步骤。
本发明实施例所提供的一种多节点集群的故障修复设备,具有前述所公开的一种多节点集群的故障修复方法所具有的有益效果。
相应的,本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述所公开的一种多节点集群的故障修复方法的步骤。
本发明实施例所提供的一种计算机可读存储介质,具有前述所公开的一种多节点集群的故障修复方法所具有的有益效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种多节点集群的故障修复方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种多节点集群的故障修复方法,其特征在于,应用于多节点集群的目标从节点,包括:
对所述多节点集群中的主节点进行监听;
当监听到所述主节点所发送的故障修复消息时,则从所述故障修复消息中提取与故障从节点所对应的故障识别码;
若所述故障识别码与所述目标从节点所对应的识别码一致,则利用故障修复文件对所述目标从节点进行故障修复;其中,所述故障修复文件为预先添加至所述目标从节点,用于对所述目标从节点进行故障修复的文件;
当所述目标从节点的故障修复完毕时,则向所述主节点返回故障修复完毕的反馈消息;
所述对所述多节点集群中的主节点进行监听的过程,包括:
通过链路层对所述主节点进行监听;
还包括:
若所述故障识别码与所述目标从节点所对应的识别码不一致,则丢弃所述故障修复消息,并继续执行所述对所述多节点集群中的主节点进行监听的步骤。
2.根据权利要求1所述的故障修复方法,其特征在于,所述从所述故障修复消息中提取与故障从节点所对应的故障识别码的过程,包括:
从所述故障修复消息中提取与故障从节点所对应的故障MAC地址或故障SN码。
3.一种多节点集群的故障修复方法,其特征在于,应用于多节点集群的主节点,包括:
当所述多节点集群中出现故障从节点时,则向所述多节点集群中的目标从节点发送故障修复消息;其中,所述目标从节点通过链路层来对所述多节点集群中的所述主节点进行监听,并从所述链路层抓取所述故障修复消息;当所述目标从节点接收到所述故障修复消息时,则从所述故障修复消息中提取与所述故障从节点相对应的故障识别码,若所述故障识别码与所述目标从节点的识别码一致,则利用故障修复文件对所述目标从节点进行故障修复;所述故障修复文件为预先添加至所述目标从节点,用于对所述目标从节点进行故障修复的文件;
当接收到所述目标从节点对故障修复完毕的反馈消息时,则判定所述目标从节点的故障修复完毕;
还包括:
若未接收到所述目标从节点对故障修复完毕的反馈消息时,则继续执行所述向所述多节点集群中的目标从节点发送故障修复消息的步骤;
判断是否能够接收到所述目标从节点对故障修复完毕的反馈消息;
若否,则统计向所述目标从节点发送所述故障修复消息的目标次数;
当所述目标次数大于预设次数时,则判定所述目标从节点的硬件发生故障,并停止向所述目标从节点发送所述故障修复消息。
4.一种多节点集群的故障修复装置,其特征在于,应用于多节点集群的目标从节点,包括:
节点监听模块,用于对所述多节点集群中的主节点进行监听;
信息提取模块,用于当监听到所述主节点所发送的故障修复消息时,则从所述故障修复消息中提取与故障从节点所对应的故障识别码;
故障修复模块,用于若所述故障识别码与所述目标从节点所对应的识别码一致,则利用故障修复文件对所述目标从节点进行故障修复;其中,所述故障修复文件为预先添加至所述目标从节点,用于对所述目标从节点进行故障修复的文件;
消息返回模块,用于当所述目标从节点的故障修复完毕时,则向所述主节点返回故障修复完毕的反馈消息;
所述对所述多节点集群中的主节点进行监听的过程,包括:
通过链路层对所述主节点进行监听;
还包括:
若所述故障识别码与所述目标从节点所对应的识别码不一致,则丢弃所述故障修复消息,并继续执行所述对所述多节点集群中的主节点进行监听的步骤。
5.一种多节点集群的故障修复装置,其特征在于,应用于多节点集群的主节点,包括:
消息发送模块,用于当所述多节点集群中出现故障从节点时,则向所述多节点集群中的目标从节点发送故障修复消息;其中,所述目标从节点通过链路层来对所述多节点集群中的所述主节点进行监听,并从所述链路层抓取所述故障修复消息;当所述目标从节点接收到所述故障修复消息时,则从所述故障修复消息中提取与所述故障从节点相对应的故障识别码,若所述故障识别码与所述目标从节点的识别码一致,则利用故障修复文件对所述目标从节点进行故障修复;所述故障修复文件为预先添加至所述目标从节点,用于对所述目标从节点进行故障修复的文件;
故障判定模块,用于当接收到所述目标从节点对故障修复完毕的反馈消息时,则判定所述目标从节点的故障修复完毕;
还包括:
若未接收到所述目标从节点对故障修复完毕的反馈消息时,则继续执行所述向所述多节点集群中的目标从节点发送故障修复消息的步骤;
判断是否能够接收到所述目标从节点对故障修复完毕的反馈消息;
若否,则统计向所述目标从节点发送所述故障修复消息的目标次数;
当所述目标次数大于预设次数时,则判定所述目标从节点的硬件发生故障,并停止向所述目标从节点发送所述故障修复消息。
6.一种多节点集群的故障修复设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1或2所述的一种多节点集群的故障修复方法或权利要求3所述的一种多节点集群的故障修复方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1或2任一项所述的一种多节点集群的故障修复方法或权利要求3所述的一种多节点集群的故障修复方法的步骤。
CN202011505796.8A 2020-12-18 2020-12-18 一种多节点集群的故障修复方法、装置、设备及介质 Active CN112511356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011505796.8A CN112511356B (zh) 2020-12-18 2020-12-18 一种多节点集群的故障修复方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011505796.8A CN112511356B (zh) 2020-12-18 2020-12-18 一种多节点集群的故障修复方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112511356A CN112511356A (zh) 2021-03-16
CN112511356B true CN112511356B (zh) 2023-04-21

Family

ID=74922513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011505796.8A Active CN112511356B (zh) 2020-12-18 2020-12-18 一种多节点集群的故障修复方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112511356B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6581166B1 (en) * 1999-03-02 2003-06-17 The Foxboro Company Network fault detection and recovery
CN108769170A (zh) * 2018-05-18 2018-11-06 郑州云海信息技术有限公司 一种集群网络故障自检系统及方法
CN112491633B (zh) * 2020-12-17 2023-01-24 北京浪潮数据技术有限公司 一种多节点集群的故障恢复方法、系统及相关组件

Also Published As

Publication number Publication date
CN112511356A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN103414916B (zh) 一种故障诊断系统及方法
CN102047643B (zh) 用于在服务器故障的事件中能使客户端应用更快恢复的方法
CN111130879B (zh) 一种基于pbft算法的集群异常恢复方法
CN105933407A (zh) 一种实现Redis集群高可用的方法及系统
CN108737574A (zh) 一种节点离线判断方法、装置、设备及可读存储介质
CN111901176B (zh) 故障确定方法、装置、设备及存储介质
CN114490565A (zh) 数据库故障处理方法和装置
CN112511356B (zh) 一种多节点集群的故障修复方法、装置、设备及介质
CN111880947B (zh) 一种数据传输方法及装置
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN112491633B (zh) 一种多节点集群的故障恢复方法、系统及相关组件
CN110635954A (zh) 一种数据中心网络故障的处理方法及系统
CN107819508B (zh) 基于epon家庭网关的链路故障检测及恢复方法
CN113114800B (zh) 一种资源处理方法及装置
CN114048067A (zh) 一种断开节点加入集群的方法、系统、存储介质及设备
CN103532748A (zh) 一种drbd脑裂的处理方法及装置
CN114036129A (zh) 一种减小数据丢失的数据库切换方法
US9348701B2 (en) Method and apparatus for failure recovery in a machine-to-machine network
CN106250256B (zh) 一种服务器故障恢复方法及其装置
CN114448778B (zh) 一种标准网络文件系统的网络锁及其故障恢复方法
CN113868246B (zh) 存储系统中位图同步方法、系统、装置及可读存储介质
CN114095342B (zh) 备份的实现方法及装置
CN115190005B (zh) 一种基于Redis的双宿主系统的高可用方法
CN111262717B (zh) 一种分布式网络中数据同步异常的恢复方法和装置
CN115277379B (zh) 分布式锁容灾处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant