CN115499294A - 一种分布式存储环境网络亚健康检测及故障自动处理方法 - Google Patents

一种分布式存储环境网络亚健康检测及故障自动处理方法 Download PDF

Info

Publication number
CN115499294A
CN115499294A CN202211156937.9A CN202211156937A CN115499294A CN 115499294 A CN115499294 A CN 115499294A CN 202211156937 A CN202211156937 A CN 202211156937A CN 115499294 A CN115499294 A CN 115499294A
Authority
CN
China
Prior art keywords
storage
network
node
storage node
health
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211156937.9A
Other languages
English (en)
Inventor
马名
康亮
童飞文
王怡清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI DRAGONNET TECHNOLOGY CO LTD
Original Assignee
SHANGHAI DRAGONNET TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI DRAGONNET TECHNOLOGY CO LTD filed Critical SHANGHAI DRAGONNET TECHNOLOGY CO LTD
Priority to CN202211156937.9A priority Critical patent/CN115499294A/zh
Publication of CN115499294A publication Critical patent/CN115499294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种分布式存储环境网络亚健康检测及故障自动处理方法,用于对分布式存储系统进行网络亚健康检测及故障处理,所述分布式存储系统包括存储集群和中央管理集群,所述存储集群包含有多个存储节点,包括以下步骤:通过集群视图感知获取存储集群的网络配置状态;循环获取各存储节点上报的节点状态检测结果,该节点状态检测结果为各存储节点基于主动探测机制获取,包括除自身存储节点外其他存储节点的网络状态信息;基于在设定时间内的所述节点状态检测结果,判定是否存在发生网络亚健康的存储节点,若是,则基于所述网络配置状态执行对应节点的网络修复或隔离处理。与现有技术相比,本发明具有减少运维成本,降低运维复杂度等优点。

Description

一种分布式存储环境网络亚健康检测及故障自动处理方法
技术领域
本发明涉及一种分布式存储环境中的网络健康检测技术,尤其是涉及一种分布式存储环境网络亚健康检测及故障自动处理方法。
背景技术
在分布式存储环境下,参与整个数据读写逻辑的物理或软件模块包括:服务器、交换机、普通网线、普通网卡模块,光纤线、光纤模块,操作系统等。其中网络相关模块在整个存储系统中担负起数据交换的桥梁。当网络模块发生故障时,轻则影响存储系统响应,重则引起级联反应,导致影响整个存储系统无法对外提供服务。
网络亚健康在上述网络异常情况中,属于客观存在,但模棱两可的境地,即虽可继续工作,但可能会严重影响业务。常见的网络亚健康包括丢包、延迟、拥塞等。当发生上述亚健康状态后,由于网络并未处于完全不可工作状态,而是在一种低效模式下勉强运行,导致部分存储节点成为瓶颈,影响整个存储系统的响应时效。因此在高质量的分布式存储系统中,网络亚健康的检测和故障处理,是提升存储产品稳定性的必不可少的一环。
当前常见的网络亚健康检测机制分为2种方式:1.检查网卡本身或交换机对外反馈的统计数值,如丢包率、包重传率等监控指标,通过统计结果判定网卡或链路是否有异常,2.通过搭建在分布式存储系统上实际业务自带的统计数值,如请求响应时间、错误请求次数等监控指标,间接判定网卡或链路是否有异常。上述方法存在以下缺点:
1.依赖网卡硬件或交换机硬件自带的监控指标,存在不同厂商有不同定义的问题,导致分布式存储软件需要适配多家厂商的硬件和固件,开发成本高,通用型差。
2.依赖实际业务自带的监控指标,会导致实际业务消耗更多的资源用于做网络亚健康等监控,且并非所有上层业务都自带监控功能,对于分布式存储系统,无法做到普遍适配效果。
3.无论依赖网卡硬件或交换机还是依赖实际业务自带的监控,都存在滞后型,即只有当网络亚健康已经发生,网卡硬件、交换机、实际业务已经感知到异常发生时才会被定义为发生网络亚健康,此时已经实际影响到了上层应用,无法做到提前感知。
当前常见的网络亚健康故障处理机制为:当监控发现发生网络亚健康事件后,需要人工切换服务器冗余网卡,切换后再观察后续监控指标判定是否恢复,从而做出响应。该操作存在以下缺点:
1.当发生网络亚健康后,人工响应需要时间。
2.在分布式存储集群下,存储节点数量少则数十台,多则数百台,将导致人工操作时间长、操作步骤多,会导致操作时间长,甚至潜在误操作,引起二次故障发生。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种分布式存储环境网络亚健康检测及故障自动处理方法,在分布式存储环境下,通过集群视图感知整个集群的网络状态,从而更精准的确定故障节点,并更快速的做出故障处理,缩短存储集群故障时间,减少运维成本,降低运维复杂度。
本发明的目的可以通过以下技术方案来实现:
一种分布式存储环境网络亚健康检测及故障自动处理方法,用于对分布式存储系统进行网络亚健康检测及故障处理,所述分布式存储系统包括存储集群和中央管理集群,所述存储集群包含有多个存储节点,所述方法包括以下步骤:
通过集群视图感知获取存储集群的网络配置状态;
循环获取各存储节点上报的节点状态检测结果,该节点状态检测结果为各存储节点基于主动探测机制获取,包括除自身存储节点外其他存储节点的网络状态信息;
基于在设定时间内的所述节点状态检测结果,判定是否存在发生网络亚健康的存储节点,若是,则基于所述网络配置状态执行对应节点的网络修复或隔离处理。
进一步地,所述网络配置状态从各存储节点接收获得,各存储节点通过以下步骤生成所述网络配置状态:
获取当前存储节点配置的服务IP地址,获取该IP地址所对应的网卡名称,判断该网卡是否为逻辑网卡,若是,则获取该逻辑网卡实际对应的多张物理网卡名称,并获取该逻辑网卡和对应的物理网卡的配置属性和状态,记录当前逻辑网卡实际使用的主网卡名称,生成所述网络配置状态,若否,则直接记录物理网卡名称,生成所述网络配置状态。
进一步地,所述存储节点基于主动探测机制获取节点状态检测结果具体为:
各存储节点定时获取当前存储集群中所有的存储节点列表;
各存储节点定时以自己当前使用IO网络为源地址,向其他存储节点发起网络探测请求,根据其他存储节点的请求响应情况生成所述节点状态检测结果。
进一步地,所述发起网络探测请求具体为:
在指定时间内,尽可能多地尝试发送ICMP数据包到其他存储节点,统计该指定时间内收到的响应数据包数量和每个响应数据包发送和接收时间,最终得出单位时间内当前存储节点到其他所有存储节点的丢包率和延迟,作为所述节点状态检测结果。
进一步地,同一时间,每个存储节点向其他存储节点并行发送所述ICMP数据包。
进一步地,若在设定时间内,某一存储节点到其他存储节点的丢包率和延迟均超过设定阈值,且持续指定时间段,则判定该存储节点发生网络亚健康。
进一步地,所述网络修复具体为:切换逻辑网卡所述对应的物理网卡。
进一步地,所述隔离处理具体为:关闭存储节点的处理IO逻辑存储服务或关闭电源下电。
进一步地,对于关闭存储节点的处理IO逻辑存储服务的存储节点,持续获取该存储节点的网络状态信息,判断该存储节点的网络亚健康状态是否消失,若是,则恢复该存储节点的处理IO逻辑存储服务。
本发明还提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如所述分布式存储环境网络亚健康检测及故障自动处理方法的指令。
与现有技术相比,本发明在分布式场景下通过对多节点网络状态实时进行全局统计和分析,从而在分布式存储无论是否有业务运行、业务负载是否高的场景下,都可提前发现网络亚健康,并能自动处理异常节点网络故障,并在处理异常后若未能消除网络亚健康时,通过隔离异常节点,保证整个分布式存储集群的可用性和性能指标,具有以下有益效果:
(1)本发明可独立于分布式系统软件本身运行,可适配通用分布式存储系统,存储系统无需二次开发或对接。
(2)本发明不需要上层业务自带的任何监控逻辑,上层业务无需二次开发或对接。
(3)本发明以集群视图检查和分析整个网络状态,可更准确定位故障节点。
(4)本发明为自动探测提前感知,不需要业务实际运行、或业务未在满负荷下运行,可提前发现网络亚健康问题。
(5)本发明在探测到网络亚健康后,可通过切换逻辑网卡或隔离物理节点的方式,多个维度尝试自动修复分布式存储集群。
(6)本发明全程无需人工介入,减小响应时间,减少运维成本,降低运维复杂度。
附图说明
图1为本发明分布式存储系统的结构示意图;
图2为本发明的执行过程分解示意图;
图3为本发明网络亚健康检测及故障处理的过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种分布式存储环境网络亚健康检测及故障自动处理方法,用于对分布式存储系统进行网络亚健康检测及故障处理,所述分布式存储系统包括存储集群和中央管理集群,所述存储集群包含有多个存储节点,所述方法包括以下步骤:通过集群视图感知获取存储集群的网络配置状态;循环获取各存储节点上报的节点状态检测结果,该节点状态检测结果为各存储节点基于主动探测机制获取,包括除自身存储节点外其他存储节点的网络状态信息;基于在设定时间内的所述节点状态检测结果,判定是否存在发生网络亚健康的存储节点,若是,则基于所述网络配置状态执行对应节点的网络修复或隔离处理。由于是循环获取各存储节点上报的节点状态检测结果,所以可以根据后续各个存储节点上报的探测结果,判定网络亚健康是否恢复。
上述方法应用的一种分布式存储系统如图1所示,包括存储集群、中央管理集群和业务集群,存储集群包含有多个存储节点,各存储节点通过多个交换机与中央管理集群连接,业务集群包括多个块存储访问客户端。各存储节点具有处理IO逻辑存储服务、配置存储节点服务和监控存储节点服务,各存储节点对应有逻辑网卡或物理网卡,所述逻辑网卡为多张物理网卡组成。
如图3所示,上述方法统计最近指定时间段内的丢包和延迟,判断是否超过设定阈值,若是,则判断存在处于网络亚健康状态的存储节点,先执行网卡切换操作,若网络亚健康消除,则流程结束,若否,则判断是否需要关闭节点,若是,则关闭服务器电源下电,若否,则关闭处理IO逻辑存储服务。
上述方法中,首先通过集群视图感知获取存储集群的网络配置状态,包括感知存储集群中存储节点的网络配置,识别网卡绑定类型以及各个子卡状态,具体地:
201)识别存储节点配置的IP地址;
202)通过IP地址反查出其所对应的网卡名称;
203)判断网卡是否为逻辑网卡,即是否为多个物理网卡绑定获得;
204)获取逻辑网卡对应的物理网卡列表;
205)获取当前状态下逻辑网卡实际对应的物理网卡。
上述步骤可由存储节点的监控存储节点服务实现。
上述方法中,存储集群内各个存储节点实现主动探测机制的过程如图2所示,以一个存储节点为例,具体步骤包括:
如过程1所示,存储节点1向中央管理集群获取其他存储节点列表,设存储集群内存在n个存储节点。
如过程2.1、2.2和2.3所示,存储节点1向定时以自己当前使用IO网络为源地址,向其他n-1个存储节点发起网络探测请求,根据其他存储节点的请求响应情况生成节点状态检测结果。其中2.1、2.2、2.3为同时发起,保证其他节点为同一时间探测。
如过程3所示,存储节点1将上一步中获取到的节点状态检测结果上报给中央管理集群,此时存储节点1完成一个周期的监控结果上报逻辑,待下一个周期重复执行上述过程1、2、3。
如过程4所示,中央管理集群收集并分析各个存储节点上报的网络健康状态,统计和分析发生网络亚健康的存储节点,若在设定时间内,某一存储节点到其他存储节点的丢包率和延迟均超过设定阈值,且持续指定时间段,则判定该存储节点发生网络亚健康。
假设存储节点1存在网络亚健康,则中央管理集群自动发起网络亚健康节点的网络修复或隔离网络亚健康节点,若选择网络修复,则中央管理集群发送切换网卡请求到存储节点1,存储节点切换完成后,此时逻辑网卡由如过程0的初始状态(此时逻辑网卡指向网卡1)更换为按过程5指向网卡2。若切换后网络亚健康异常消除,则故障解除,流程结束,若切换后网络亚健康异常未消除,则发起剔除存储节点操作,如过程6所示。剔除存储节点操作可以根据需要隔离节点,具体包括:关闭存储节点的处理IO逻辑存储服务或关闭电源下电。
对于关闭存储节点的处理IO逻辑存储服务的存储节点,持续获取该存储节点的网络状态信息,判断该存储节点的网络亚健康状态是否消失,即丢包率、延迟恢复到阈值之下,若是,则恢复该存储节点的处理IO逻辑存储服务。
中央管理集群根据后续各个存储节点上报的探测结果,判定网络亚健康是否恢复。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种分布式存储环境网络亚健康检测及故障自动处理方法,其特征在于,用于对分布式存储系统进行网络亚健康检测及故障处理,所述分布式存储系统包括存储集群和中央管理集群,所述存储集群包含有多个存储节点,所述方法包括以下步骤:
通过集群视图感知获取存储集群的网络配置状态;
循环获取各存储节点上报的节点状态检测结果,该节点状态检测结果为各存储节点基于主动探测机制获取,包括除自身存储节点外其他存储节点的网络状态信息;
基于在设定时间内的所述节点状态检测结果,判定是否存在发生网络亚健康的存储节点,若是,则基于所述网络配置状态执行对应节点的网络修复或隔离处理。
2.根据权利要求1所述的分布式存储环境网络亚健康检测及故障自动处理方法,其特征在于,所述网络配置状态从各存储节点接收获得,各存储节点通过以下步骤生成所述网络配置状态:
获取当前存储节点配置的服务IP地址,获取该IP地址所对应的网卡名称,判断该网卡是否为逻辑网卡,若是,则获取该逻辑网卡实际对应的多张物理网卡名称,并获取该逻辑网卡和对应的物理网卡的配置属性和状态,记录当前逻辑网卡实际使用的主网卡名称,生成所述网络配置状态,若否,则直接记录物理网卡名称,生成所述网络配置状态。
3.根据权利要求1所述的分布式存储环境网络亚健康检测及故障自动处理方法,其特征在于,所述存储节点基于主动探测机制获取节点状态检测结果具体为:
各存储节点定时获取当前存储集群中所有的存储节点列表;
各存储节点定时以自己当前使用IO网络为源地址,向其他存储节点发起网络探测请求,根据其他存储节点的请求响应情况生成所述节点状态检测结果。
4.根据权利要求3所述的分布式存储环境网络亚健康检测及故障自动处理方法,其特征在于,所述发起网络探测请求具体为:
在指定时间内,尽可能多地尝试发送ICMP数据包到其他存储节点,统计该指定时间内收到的响应数据包数量和每个响应数据包发送和接收时间,最终得出单位时间内当前存储节点到其他所有存储节点的丢包率和延迟,作为所述节点状态检测结果。
5.根据权利要求4所述的分布式存储环境网络亚健康检测及故障自动处理方法,其特征在于,同一时间,每个存储节点向其他存储节点并行发送所述ICMP数据包。
6.根据权利要求1所述的分布式存储环境网络亚健康检测及故障自动处理方法,其特征在于,若在设定时间内,某一存储节点到其他存储节点的丢包率和延迟均超过设定阈值,且持续指定时间段,则判定该存储节点发生网络亚健康。
7.根据权利要求2所述的分布式存储环境网络亚健康检测及故障自动处理方法,其特征在于,所述网络修复具体为:切换逻辑网卡所述对应的物理网卡。
8.根据权利要求2所述的分布式存储环境网络亚健康检测及故障自动处理方法,其特征在于,所述隔离处理具体为:关闭存储节点的处理IO逻辑存储服务或关闭电源下电。
9.根据权利要求8所述的分布式存储环境网络亚健康检测及故障自动处理方法,其特征在于,对于关闭存储节点的处理IO逻辑存储服务的存储节点,持续获取该存储节点的网络状态信息,判断该存储节点的网络亚健康状态是否消失,若是,则恢复该存储节点的处理IO逻辑存储服务。
10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-9任一所述分布式存储环境网络亚健康检测及故障自动处理方法的指令。
CN202211156937.9A 2022-09-21 2022-09-21 一种分布式存储环境网络亚健康检测及故障自动处理方法 Pending CN115499294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211156937.9A CN115499294A (zh) 2022-09-21 2022-09-21 一种分布式存储环境网络亚健康检测及故障自动处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211156937.9A CN115499294A (zh) 2022-09-21 2022-09-21 一种分布式存储环境网络亚健康检测及故障自动处理方法

Publications (1)

Publication Number Publication Date
CN115499294A true CN115499294A (zh) 2022-12-20

Family

ID=84470052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211156937.9A Pending CN115499294A (zh) 2022-09-21 2022-09-21 一种分布式存储环境网络亚健康检测及故障自动处理方法

Country Status (1)

Country Link
CN (1) CN115499294A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117914930A (zh) * 2024-03-15 2024-04-19 苔花科迈(西安)信息技术有限公司 煤矿井下基于网络状态检测的移动设备运行方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10511514B1 (en) * 2015-09-10 2019-12-17 Cisco Technology, Inc. Node-specific probes in a native load balancer
US20200145478A1 (en) * 2018-11-02 2020-05-07 EMC IP Holding Company LLC Method, electronic device, and computer program product for handling congestion of data transmission
CN111181760A (zh) * 2019-09-02 2020-05-19 腾讯科技(深圳)有限公司 网络故障探测方法、装置、计算机可读介质及电子设备
CN112187919A (zh) * 2020-09-28 2021-01-05 腾讯科技(深圳)有限公司 一种存储节点管理方法及相关装置
CN112486761A (zh) * 2020-11-19 2021-03-12 苏州浪潮智能科技有限公司 一种基于免线缆的集群健康状态检测方法
CN113254245A (zh) * 2020-02-13 2021-08-13 北京沃东天骏信息技术有限公司 一种存储集群的故障检测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10511514B1 (en) * 2015-09-10 2019-12-17 Cisco Technology, Inc. Node-specific probes in a native load balancer
US20200145478A1 (en) * 2018-11-02 2020-05-07 EMC IP Holding Company LLC Method, electronic device, and computer program product for handling congestion of data transmission
CN111181760A (zh) * 2019-09-02 2020-05-19 腾讯科技(深圳)有限公司 网络故障探测方法、装置、计算机可读介质及电子设备
CN113254245A (zh) * 2020-02-13 2021-08-13 北京沃东天骏信息技术有限公司 一种存储集群的故障检测方法和系统
CN112187919A (zh) * 2020-09-28 2021-01-05 腾讯科技(深圳)有限公司 一种存储节点管理方法及相关装置
CN112486761A (zh) * 2020-11-19 2021-03-12 苏州浪潮智能科技有限公司 一种基于免线缆的集群健康状态检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117914930A (zh) * 2024-03-15 2024-04-19 苔花科迈(西安)信息技术有限公司 煤矿井下基于网络状态检测的移动设备运行方法及装置

Similar Documents

Publication Publication Date Title
US7607043B2 (en) Analysis of mutually exclusive conflicts among redundant devices
US20200073656A1 (en) Method and Apparatus for Drift Management in Clustered Environments
WO2021027481A1 (zh) 故障处理方法、装置、计算机设备、存储介质及存储系统
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
US11030038B2 (en) Fault prediction and detection using time-based distributed data
US20140019814A1 (en) Error framework for a microprocesor and system
CN104205063A (zh) 操作管理装置、操作管理方法和程序
CN104753994A (zh) 基于集群服务器系统的数据同步方法及其装置
JP2017517060A (ja) 障害処理方法、関連装置、およびコンピュータ
US20080133979A1 (en) Fault model and rule based fault management apparatus in home network and method thereof
EP3956771B1 (en) Timeout mode for storage devices
CN113645085B (zh) 智能网卡的异常检测方法、装置、电子设备及存储介质
CN112217847A (zh) 微服务平台及其实现方法、电子设备及存储介质
CN115499294A (zh) 一种分布式存储环境网络亚健康检测及故障自动处理方法
US11563671B2 (en) Routing engine switchover based on health determined by support vector machine
CN108512675B (zh) 一种网络诊断的方法、装置、控制节点和网络节点
KR100943213B1 (ko) 홈네트워크에서의 오류 모델과 규칙 기반의 오류 관리 장치및 그 방법
CN117271234A (zh) 故障诊断方法、装置、存储介质及电子装置
CN111654401B (zh) 监控系统的网段切换方法、装置、终端和存储介质
JP5922127B2 (ja) 障害処理方法、コンピュータ可読ストレージ媒体およびコンピュータシステム
KR20130042438A (ko) 장애 처리를 수행하는 rfid 자원 관리 방법 및 그 장치
CN110138657B (zh) 交换机间的聚合链路切换方法、装置、设备及存储介质
CN113794595A (zh) 一种基于工业互联网的IoT设备高可用方法
CN114513398B (zh) 网络设备告警处理方法、装置、设备及存储介质
EP3756310A1 (en) Method and first node for managing transmission of probe messages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination