CN115250225A - 一种基于故障域检测的网络健康监测方法、装置及介质 - Google Patents

一种基于故障域检测的网络健康监测方法、装置及介质 Download PDF

Info

Publication number
CN115250225A
CN115250225A CN202210878514.1A CN202210878514A CN115250225A CN 115250225 A CN115250225 A CN 115250225A CN 202210878514 A CN202210878514 A CN 202210878514A CN 115250225 A CN115250225 A CN 115250225A
Authority
CN
China
Prior art keywords
node
state
fault
isolation
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210878514.1A
Other languages
English (en)
Inventor
张鹏
高矗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202210878514.1A priority Critical patent/CN115250225A/zh
Publication of CN115250225A publication Critical patent/CN115250225A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本申请涉及网络监测技术领域,公开了一种基于故障域检测的网络健康监测方法、装置及介质,包括:获取分布式集群系统中各节点的网口标记状态和节点隔离状态,并在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,若加上目标节点后分布式集群系统当前的隔离节点总数超过故障域,将目标节点中一个网口的网口标记状态标记为正常,并上报故障预警。由此,在产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,预先判断加上该目标节点后隔离节点总数是否超过故障域,若是,将其中一个网口的状态标记为正常,进而在即将超过故障域前进行预判,以便及时排除故障,提高分布式集群系统的可靠性。

Description

一种基于故障域检测的网络健康监测方法、装置及介质
技术领域
本申请涉及网络监测技术领域,特别是涉及一种基于故障域检测的网络健康监测方法、装置及介质。
背景技术
分布式集群系统是实现系统扩展性和高可靠性的重要技术手段,分布式集群系统包括多个节点(例如,计算机节点),节点网络是否正常对于分布式集群网络来说至关重要。
在对分布式集群系统的网络环境进行健康的诊断时,若网络出现亚健康,则发出亚健康告警提示,以便工作人员及时进行网络维护。通常会对出现问题的网口进行切换或关闭。然而,若bond绑定的2个网口同时出现故障,例如,节点Cluser网络的2个网口出现亚健康,则会对该节点进行隔离处理,隔离处理后的节点无法正常使用,即该节点无法正常进行业务。若隔离节点超过分布式集群系统的故障域时,会导致用户无法正常登陆,任务下发和执行任务。
由此可见,如何避免隔离节点数量超过故障域导致分布式集群系统无法正常业务,提高分布式集群系统的可靠性,是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种基于故障域检测的网络健康监测方法、装置及介质,避免分布式集群系统隔离节点数量超过故障域导致系统无法正常业务,提升分布式集群系统的可靠性。
为解决上述技术问题,本申请提供一种基于故障域检测的网络健康监测方法,包括:
获取分布式集群系统中各节点的网口标记状态和节点隔离状态;
在确定产生新的所述节点隔离状态为隔离,且节点中所有所述网口标记状态为故障的目标节点时,判断加上所述目标节点后所述分布式集群系统当前的隔离节点总数是否超过故障域;
若超过所述故障域,将所述目标节点中一个网口的所述网口标记状态标记为正常,并上报故障预警。
优选地,在所述获取分布式集群系统中各节点的网口标记状态和节点隔离状态之后还包括:
在确定产生所述节点隔离状态为未隔离,且对应网口中存在任意一个网口的所述网口标记状态为故障的第一节点时,将所述第一节点中的故障网口关闭;
在确定产生所述节点隔离状态为隔离,且对应网口中不存在网口的所述网口标记状态为故障的第二节点时,将所述第二节点的节点隔离状态修改为未隔离。
优选地,所述将所述目标节点中一个网口的所述网口标记状态标记为正常包括:
按照网络传输顺序将所述目标节点中最后一个网口的所述网口标记状态标记为正常。
优选地,所述网口标记状态根据以下步骤得到,包括:
获取各网口的时延和丢包率;
判断所述时延是否大于时延阈值,且所述丢包率是否均大于丢包率阈值;
若是,将对应网口的所述网口标记状态标记为故障,否则,将对应网口的所述网口标记状态标记为正常。
优选地,若加上所述目标节点后所述分布式集群系统当前的隔离节点总数未超过所述故障域,还包括:
记录所述目标节点的网口标记状态和节点隔离状态。
优选地,所述获取分布式集群系统中各节点的网口标记状态和节点隔离状态包括:
每隔预设时长后,获取所述分布式集群系统中各节点的网口标记状态和节点隔离状态。
优选地,所述的基于故障域检测的网络健康监测方法,还包括:
在确定所述分布式集群系统中各节点的网口标记状态或节点隔离状态发生改变时,上报对应的告警信号。
为了解决上述技术问题,本申请还提供了一种基于故障域检测的网络健康监测装置,包括:
第一获取模块,用于获取分布式集群系统中各节点的网口标记状态和节点隔离状态;
第一判断模块,用于在确定产生新的所述节点隔离状态为隔离,且节点中所有所述网口标记状态为故障的目标节点时,判断加上所述目标节点后所述分布式集群系统当前的隔离节点总数是否超过故障域,若超过所述故障域,调用第一标记模块和第一上报模块;
所述第一标记模块,用于将所述目标节点中一个网口的所述网口标记状态标记为正常;
所述第一上报模块,用于上报故障预警。
所述基于故障域检测的网络健康监测装置,还包括:
关闭模块,用于在确定产生所述节点隔离状态为未隔离,且对应网口中存在任意一个网口的所述网口标记状态为故障的第一节点时,将所述第一节点中的故障网口关闭;
修改模块,用于在确定产生所述节点隔离状态为隔离,且对应网口中不存在网口的所述网口标记状态为故障的第二节点时,将所述第二节点的节点隔离状态修改为未隔离。
第二标记模块,用于按照网络传输顺序将所述目标节点中最后一个网口的所述网口标记状态标记为正常。
读取模块,用于读取获取各网口的时延和丢包率;
处理模块,用于判断所述时延是否大于时延阈值,且所述丢包率是否均大于丢包率阈值;
若是,将对应网口的所述网口标记状态标记为故障,否则,将对应网口的所述网口标记状态标记为正常。
记录模块,用于记录所述目标节点的网口标记状态和节点隔离状态。
第二获取模块,用于每隔预设时长后,获取所述分布式集群系统中各节点的网口标记状态和节点隔离状态。
第二上报模块,用于在确定所述分布式集群系统中各节点的网口标记状态或节点隔离状态发生改变时,上报对应的告警信号。
为了解决上述技术问题,本申请还提供了一种基于故障域检测的网络健康监测装置,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的基于故障域检测的网络健康监测方法的步骤。
为了解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于故障域检测的网络健康监测方法的步骤。
本发明所提供的一种基于故障域检测的网络健康监测方法,包括:获取分布式集群系统中各节点的网口标记状态和节点隔离状态,并在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,判断加上目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,并上报故障预警。由此可见,本申请所提供的技术方案,在产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,预先判断加上该目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,进而在分布式集群系统即将超过故障域前进行了预判,以便提醒工作人员及时进行故障排除,保证分布式集群系统正常业务,提高分布式集群系统的可靠性。
此外,本申请还提供一种基于故障域检测的网络健康监测装置和介质,与上述的基于故障域检测的网络健康监测方法相对应,效果同上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种基于故障域检测的网络健康监测方法的流程图;
图2为本申请实施例所提供的一种基于故障域检测的网络健康监测装置的结构图;
图3为本申请另一实施例提供的一种基于故障域检测的网络健康监测装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种基于故障域检测的网络健康监测方法、装置及介质。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
分布式集群系统是实现系统扩展性和高可靠性的重要技术手段,分布式集群系统包括多个节点(例如,计算机节点),节点网络是否正常对于分布式集群网络来说至关重要。
在对分布式集群系统的网络环境进行健康的诊断时,若网络出现亚健康,则发出亚健康告警提示,以便工作人员及时进行网络维护。通常会对出现问题的网口进行切换或关闭。然而,若bond绑定的2个网口同时出现故障,例如,节点Cluser网络的2个网口出现亚健康,则会对该节点进行隔离处理,隔离处理后的节点无法正常使用,即该节点无法正常进行业务。若隔离节点超过分布式集群系统的故障域时,会导致用户无法正常登陆,任务下发和执行任务。
为了避免隔离节点数量超过故障域导致分布式集群系统无法正常业务,提高分布式集群系统的可靠性,本申请实施例提供了一种基于故障域检测的网络健康监测方法,当分布式集群系统中产生节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,预判加上该目标节点后分布式集群系统的隔离节点总是是否超过故障域,当超过故障域时,将该目标节点对应的网口中其中一个网口的网口标记状态标记为正常,并将故障预警进行上报,由此,警示工作人员分布式集群系统即将无法正常业务。
图1为本申请实施例所提供的一种基于故障域检测的网络健康监测方法的流程图,如图1所示,该方法包括:
S10:获取分布式集群系统中各节点的网口标记状态和节点隔离状态;
在具体实施例中,读取分布式集群系统中各节点网口的时延和丢包率,当时延大于时延阈值,且丢包率大于丢包率阈值时,将网口的网口标记状态标记为故障,否则网口标记状态标记为正常。得到各节点网口的状态后,扫描获取各节点的网口标记状态和节点隔离状态,以便于根据网口标记状态和节点隔离状态对故障域进行预判。
为了避免数据混乱,在每个预设时长后进行一次步骤S10以获取各节点的网口标记状态和节点隔离状态。
S11:在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,判断加上目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,进入步骤S12;
S12:将目标节点中一个网口的网口标记状态标记为正常,并上报故障预警。
可以理解的是,当分布式集群系统中隔离节点总数超过故障域时,分布式集群系统就无法正常进行业务,其中,故障域指的是分布式集群系统中允许节点故障的总数,而隔离节点指的是无法正常进行业务的节点。
为了避免分布式集群系统因隔离节点总数超过故障域导致无法正常业务,因此,当确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,判断加上该目标节点后分布式集群系统当前的隔离节点是否超过故障域,若超过故障域,为了避免当前分布式集群系统无法正常业务,将目标节点中一个网口的网口标记状态标记为正常,进而解除该节点的隔离状态,即将该目标节点的节点隔离状态由隔离转变为未隔离。此时,将故障预警进行上报,以便工作人员及时将故障进行排除,或将隔离节点减少至故障域范围内,进而保证分布式集群系统的正常业务。
当然,若加上该目标节点后分布式集群系统当前的隔离节点未超过故障域时,将目标节点的网口标记状态和节点隔离状态。
值得注意的是,当隔离节点超过故障域时,需要将节点网口中一个网口的网口标记状态标记为正常,事实上,网口的传输有固定的顺序,因此,为了避免标记出错,可以将最后一个获取的网口对应的网口标记状态标记为正常。
除了产生目标节点的情况外,在确定产生节点隔离状态为未隔离,且对应网口中存在任意一个网口的网口标记状态为故障的第一节点时,将第一节点中的故障网口关闭。在确定产生节点隔离状态为隔离,且对应网口中不存在网口的网口标记状态为故障的第二节点时,将第二节点的节点隔离状态修改为未隔离。
将各节点不同的网口状态标记和节点隔离状态上报至客户端,以便用户实时查看当前分布式集群系统中各节点的状态。
本申请实施例所提供的基于故障域检测的网络健康监测方法,包括:获取分布式集群系统中各节点的网口标记状态和节点隔离状态,并在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,判断加上目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,并上报故障预警。由此可见,本申请所提供的技术方案,在产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,预先判断加上该目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,进而在分布式集群系统即将超过故障域前进行了预判,以便提醒工作人员及时进行故障排除,保证分布式集群系统正常业务,提高分布式集群系统的可靠性。
在具体实施例中,为了进一步提高分布式集群系统的可靠性,在确定产生节点隔离状态为未隔离,且对应网口中存在任意一个网口的网口标记状态为故障的第一节点时,将第一节点中的故障网口关闭,由此,将故障网口关闭以确保分布式集群系统的正常业务。
此外,当确定产生节点隔离状态为隔离,且对应网口中不存在网口的网口标记状态为故障的第二节点时,可以理解,该第二节点的节点隔离状态标记有误,为了保证该第二节点依旧能正常业务,将第二节点的节点隔离状态修改为未隔离。
本申请实施例所提供的基于故障域检测的网络健康监测方法,在确定产生节点隔离状态为未隔离,且对应网口中存在任意一个网口的网口标记状态为故障的第一节点时,将第一节点中的故障网口关闭,在确定产生节点隔离状态为隔离,且对应网口中不存在网口的网口标记状态为故障的第二节点时,将第二节点的节点隔离状态修改为未隔离。由此,进一步保证分布式集群系统的可靠性。
事实上,每个节点的网口传输存在一定的顺序,为了避免对分布式集群系统故障域进行预判时,出现预判出现混乱和误判,在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,并确定加上该目标节点后分布式集群中隔离节点总数超过故障域,此时,按照网络传输顺序将目标节点中最后一个网口的网口标记状态标记为正常。
例如,在节点Cluser网络中存在两个网口,当节点Cluser网络中两个网口的网口故障状态均为故障,节点Cluser的隔离节点状态为隔离时,按照传输顺序,将第二个网口的网口标记状态标记为正常。
本申请实施例所提供的基于故障域检测的网络健康监测方法,将目标节点中一个网口的网口标记状态标记为正常时,按照网络传输顺序将目标节点中最后一个网口的网口标记状态标记为正常,避免在进行故障域预判时,出现结果的混乱,进一步保证分布式集群系统的可靠性。
在具体实施例中,对分布式集群系统中各网口标记状态进行标记时,先读取各网口的时延和丢包率,在确定时延大于时延阈值,且丢包率大于丢包率阈值时,将对应网口的网口标记状态标记为故障,否则,将对应网口的网口标记状态标记为正常。
本申请实施例所提供的基于故障域检测的网络健康监测方法,对各节点的网口标记状态进行标记时,读取各网口的时延和丢包率,在确定时延大于时延阈值,且丢包率均大于丢包率阈值时,将对应网口的网口标记状态标记为故障,其他情况,标记为正常,以便于根据网口标记状态对故障域进行预判,保证分布式集群系统正常业务。
可以理解的是,若加上目标节点后分布式集群系统当前的隔离节点总数未超过故障域时,记录目标节点的网口标记状态和节点隔离状态,以便用户实时查看各节点的网口标记状态和节点隔离状态。
本申请实施例所提供的基于故障域检测的网络健康监测方法,在加上目标节点后隔离节点总数未超过故障域时,记录该目标节点的网口标记状态和节点隔离状态,以便下次对故障域的预判。
事实上,在进行预判的过程中,扫描各节点并进行判断需要耗费一些时,因此为了避免扫描出现重复或结果出现混乱,可以在每隔预设时长后,获取分布式集群系统中各节点的网口标记状态和节点隔离状态以便进行故障域的预判。
本申请实施例所提供的基于故障域检测的网络健康监测方法,每隔预设时长后,获取分布式集群系统中各节点的网口标记状态和节点隔离状态,避免对故障域进行预判出现错误,进一步提升分布式集群系统可靠性。
在具体实施例中,将节点的隔离节点状态标记为隔离时会产生一个隔离告警,当节点中的网口状态为故障时会产生对应的网口故障告警,当时延超过时延阈值时会产生对应的时延告警,当然丢包率也存在对应的丢包率告警,超过故障域存在对应的故障告警等,不同的状态会对应一个告警信号。
当确定分布式集群系统中各节点的网口标记状态或节点隔离状态发生改变时,上报对应的告警信号,以便工作人员及时查看各节点的状态并排除对应的故障。
本申请实施例所提供的基于故障域检测的网络健康监测方法,在确定分布式集群系统中各节点的网口标记状态或节点隔离状态发生改变时,上报对应的告警信号,以便查看各节点当前状态并技术排除故障,进一步提升分布式集群系统的可靠性,保证分布式集群系统业务正常。
在上述实施例中,对于基于故障域检测的网络健康监测方法进行了详细描述,本申请还提供一种基于故障域检测的网络健康监测装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件结构的角度。
图2为本申请实施例所提供的一种基于故障域检测的网络健康监测装置的结构图,如图2所示,该装置包括:
第一获取模块10,用于获取分布式集群系统中各节点的网口标记状态和节点隔离状态;
第一判断模块11,用于在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,判断加上目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,调用第一标记模块12和第一上报模块13;
第一标记模块12,用于将目标节点中一个网口的网口标记状态标记为正常
第一上报模块13,用于上报故障预警。
优选地,本申请实施例所提供的基于故障域检测的网络健康监测装置还包括:
关闭模块,用于在确定产生所述节点隔离状态为未隔离,且对应网口中存在任意一个网口的所述网口标记状态为故障的第一节点时,将所述第一节点中的故障网口关闭;
修改模块,用于在确定产生所述节点隔离状态为隔离,且对应网口中不存在网口的所述网口标记状态为故障的第二节点时,将所述第二节点的节点隔离状态修改为未隔离。
第二标记模块,用于按照网络传输顺序将所述目标节点中最后一个网口的所述网口标记状态标记为正常。
读取模块,用于读取获取各网口的时延和丢包率;
处理模块,用于判断所述时延是否大于时延阈值,且所述丢包率是否均大于丢包率阈值;
若是,将对应网口的所述网口标记状态标记为故障,否则,将对应网口的所述网口标记状态标记为正常。
记录模块,用于记录所述目标节点的网口标记状态和节点隔离状态。
第二获取模块,用于每隔预设时长后,获取所述分布式集群系统中各节点的网口标记状态和节点隔离状态。
第二上报模块,用于在确定所述分布式集群系统中各节点的网口标记状态或节点隔离状态发生改变时,上报对应的告警信号。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请实施例所提供的基于故障域检测的网络健康监测装置,包括:获取分布式集群系统中各节点的网口标记状态和节点隔离状态,并在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,判断加上目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,并上报故障预警。由此可见,本申请所提供的技术方案,在产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,预先判断加上该目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,进而在分布式集群系统即将超过故障域前进行了预判,以便提醒工作人员及时进行故障排除,保证分布式集群系统正常业务,提高分布式集群系统的可靠性。
图3为本申请另一实施例提供的一种基于故障域检测的网络健康监测装置的结构图,如图3所示,基于故障域检测的网络健康监测装置包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例所提到的基于故障域检测的网络健康监测方法的步骤。
本实施例提供的基于故障域检测的网络健康监测装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,简称DSP)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)、可编程逻辑阵列(ProgrammableLogic Array,简称PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(Central Processing Unit,简称CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有图像处理器(GraphicsProcessing Unit,简称GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,简称AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的基于故障域检测的网络健康监测方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于基于故障域检测的网络健康监测方法中所涉及的相关数据。
在一些实施例中,基于故障域检测的网络健康监测装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图3中示出的结构并不构成对基于故障域检测的网络健康监测装置的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的基于故障域检测的网络健康监测装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:基于故障域检测的网络健康监测方法。
本申请实施例所提供的基于故障域检测的网络健康监测装置,包括:获取分布式集群系统中各节点的网口标记状态和节点隔离状态,并在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,判断加上目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,并上报故障预警。由此可见,本申请所提供的技术方案,在产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,预先判断加上该目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,进而在分布式集群系统即将超过故障域前进行了预判,以便提醒工作人员及时进行故障排除,保证分布式集群系统正常业务,提高分布式集群系统的可靠性。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的一种基于故障域检测的网络健康监测方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种基于故障域检测的网络健康监测方法,其特征在于,包括:
获取分布式集群系统中各节点的网口标记状态和节点隔离状态;
在确定产生新的所述节点隔离状态为隔离,且节点中所有所述网口标记状态为故障的目标节点时,判断加上所述目标节点后所述分布式集群系统当前的隔离节点总数是否超过故障域;
若超过所述故障域,将所述目标节点中一个网口的所述网口标记状态标记为正常,并上报故障预警。
2.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,在所述获取分布式集群系统中各节点的网口标记状态和节点隔离状态之后还包括:
在确定产生所述节点隔离状态为未隔离,且对应网口中存在任意一个网口的所述网口标记状态为故障的第一节点时,将所述第一节点中的故障网口关闭;
在确定产生所述节点隔离状态为隔离,且对应网口中不存在网口的所述网口标记状态为故障的第二节点时,将所述第二节点的节点隔离状态修改为未隔离。
3.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,所述将所述目标节点中一个网口的所述网口标记状态标记为正常包括:
按照网络传输顺序将所述目标节点中最后一个网口的所述网口标记状态标记为正常。
4.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,所述网口标记状态根据以下步骤得到,包括:
读取各网口的时延和丢包率;
判断所述时延是否大于时延阈值,且所述丢包率是否均大于丢包率阈值;
若是,将对应网口的所述网口标记状态标记为故障,否则,将对应网口的所述网口标记状态标记为正常。
5.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,若加上所述目标节点后所述分布式集群系统当前的隔离节点总数未超过所述故障域,还包括:
记录所述目标节点的网口标记状态和节点隔离状态。
6.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,所述获取分布式集群系统中各节点的网口标记状态和节点隔离状态包括:
每隔预设时长后,获取所述分布式集群系统中各节点的网口标记状态和节点隔离状态。
7.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,还包括:
在确定所述分布式集群系统中各节点的网口标记状态或节点隔离状态发生改变时,上报对应的告警信号。
8.一种基于故障域检测的网络健康监测装置,其特征在于,包括:
第一获取模块,用于获取分布式集群系统中各节点的网口标记状态和节点隔离状态;
判断模块,用于在确定产生新的所述节点隔离状态为隔离,且节点中所有所述网口标记状态为故障的目标节点时,判断加上所述目标节点后所述分布式集群系统当前的隔离节点总数是否超过故障域,若超过所述故障域,调用第一标记模块和第一上报模块;
所述第一标记模块,用于将所述目标节点中一个网口的所述网口标记状态标记为正常;
所述第一上报模块,用于上报故障预警。
9.一种基于故障域检测的网络健康监测装置,其特征在于,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于故障域检测的网络健康监测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于故障域检测的网络健康监测方法的步骤。
CN202210878514.1A 2022-07-25 2022-07-25 一种基于故障域检测的网络健康监测方法、装置及介质 Pending CN115250225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210878514.1A CN115250225A (zh) 2022-07-25 2022-07-25 一种基于故障域检测的网络健康监测方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210878514.1A CN115250225A (zh) 2022-07-25 2022-07-25 一种基于故障域检测的网络健康监测方法、装置及介质

Publications (1)

Publication Number Publication Date
CN115250225A true CN115250225A (zh) 2022-10-28

Family

ID=83699411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210878514.1A Pending CN115250225A (zh) 2022-07-25 2022-07-25 一种基于故障域检测的网络健康监测方法、装置及介质

Country Status (1)

Country Link
CN (1) CN115250225A (zh)

Similar Documents

Publication Publication Date Title
US10585774B2 (en) Detection of misbehaving components for large scale distributed systems
CN106961352B (zh) 监控系统及监控方法
CN110164104B (zh) 基于故障分级的故障预警方法、装置及设备
CN111290918B (zh) 服务器运行状态监控方法、装置及计算机可读存储介质
CN108845912B (zh) 服务接口调用故障的报警方法及计算设备
CN106385339B (zh) 企业网络的访问性能的监控方法和监控系统
CN111104283B (zh) 一种分布式存储系统的故障检测方法、装置、设备及介质
US20170351560A1 (en) Software failure impact and selection system
CN108073499A (zh) 应用程序的测试方法及装置
CN109558272A (zh) 服务器的故障恢复方法和装置
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
US9443196B1 (en) Method and apparatus for problem analysis using a causal map
CN109522184A (zh) 一种服务器系统安全监控方法、装置及终端
CN111124818B (zh) 一种扩展器Expander的监控方法、装置及设备
CN109857615B (zh) 一种内存泄漏的检测方法及装置
CN115250225A (zh) 一种基于故障域检测的网络健康监测方法、装置及介质
CN110381035A (zh) 网络安全测试方法、装置、计算机设备及可读存储介质
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN115687026A (zh) 多节点服务器故障预警方法、装置、设备及介质
TW201928747A (zh) 伺服器及其監控方法
US20230179501A1 (en) Health index of a service
CN108804947B (zh) 用于确定对数据库进行操作的白名单的方法和装置
CN111124754A (zh) 一种数据恢复方法、装置、设备及介质
CN111258845A (zh) 事件风暴的检测
CN110688267A (zh) 一种硬盘端口的修复方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination