CN111464389B - 一种高可用节点故障检测方法及装置 - Google Patents

一种高可用节点故障检测方法及装置 Download PDF

Info

Publication number
CN111464389B
CN111464389B CN202010245646.1A CN202010245646A CN111464389B CN 111464389 B CN111464389 B CN 111464389B CN 202010245646 A CN202010245646 A CN 202010245646A CN 111464389 B CN111464389 B CN 111464389B
Authority
CN
China
Prior art keywords
availability node
node
availability
service
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010245646.1A
Other languages
English (en)
Other versions
CN111464389A (zh
Inventor
梁家盟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010245646.1A priority Critical patent/CN111464389B/zh
Publication of CN111464389A publication Critical patent/CN111464389A/zh
Application granted granted Critical
Publication of CN111464389B publication Critical patent/CN111464389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Abstract

本发明公开了一种高可用节点故障检测方法及装置,包括:判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果;当判断结果为第一高可用节点或第二高可用节点发生故障时,根据判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态;通过定时检查与发生故障的高可用节点连接的第二设备的健康状态来确定发生故障的高可用节点是否已修复;当确认发生故障的高可用节点已修复之后,将当前服务状态进行二次调整,调整回预设服务状态。有效的解决了现有技术中由于故障节点未必达到可用状态,从而导致分布式文件系统出现服务异常,甚至数据损坏的严重后果的问题,提高了安全性。

Description

一种高可用节点故障检测方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种高可用节点故障检测方法及装置。
背景技术
互为高可用的两个节点之间,通过Corosync和Pacemaker服务并且配置心跳线来监控对方是否存活,用以确定是否接管对方的服务,来保持该节点的高可用性。当对方节点恢复心跳之后,将接管的服务切换到对方来实现故障恢复。但是这种方法存在以下缺点:由于心跳线直接连接两个节点的板载以太网网卡,而且配置了静态的IP,因而心跳线恢复连接所需时间极短,导致心跳过早恢复。而Pacemaker在检测到对端心跳的时候,会立即交还所接管的服务,而此时故障节点未必达到可用状态,从而导致分布式文件系统出现服务异常,甚至数据损坏的严重后果。
发明内容
针对上述所显示出来的问题,本方法基于判断两个高可用节点的故障,当两个高可用节点中的一个出现故障时,调整他们的服务状态,然后确认故障是否已经修复,在完全修复之后再将出现故障的高可用节点调整回预设服务状态。
一种高可用节点故障检测方法,包括以下步骤:
判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果;
当所述判断结果为所述第一高可用节点或第二高可用节点发生故障时,根据所述判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态;
通过定时检查与所述发生故障的高可用节点连接的第二设备的健康状态来确定所述发生故障的高可用节点是否已修复;
当确认所述发生故障的高可用节点已修复之后,将所述当前服务状态进行二次调整,调整回所述预设服务状态。
优选的,所述判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果,包括:
在所述第一高可用节点和第二高可用节点之间设置一网线作为心跳线;
根据所述网线实时获取第一高可用节点和第二高可用节点的健康状态;
根据所述健康状态与预设状态的比较结果判断所述第一高可用节点和第二高可用节点是否发生故障。
优选的,所述当所述判断结果为所述第一高可用节点或第二高可用节点发生故障时,根据所述判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态,包括:
当所述判断结果为所述第一高可用节点和第二高可用节点任意一个高可用节点发生故障时,断开发生故障的高可用节点和其连接的第二设备的服务;
使用未发生故障的高可用节点同时为其连接的第一设备和所述第二设备提供服务,其中,所述未发生故障的高可用节点为所述第一高可用节点和第二高可用节点中除所述发生故障的高可用节点外的另一个高可用节点。
根据所述第一高可用节点、第二高可用节点和所述第一设备、第二设备的服务关系确定所述当前服务状态。
优选的,所述通过定时检查与所述发生故障的高可用节点连接的第二设备的健康状态来确定所述发生故障的高可用节点是否已修复,包括:
利用预设恢复控制装置检测所述第二设备IB网卡是否处于活跃状态,获取第一检测结果;
通过查询系统日志以及运行时的状态文件综合判断所述第二设备的HBA 卡及SAS连接状态是否正常,获取判断结果;
检测所述第二设备的存储器是否处于活动状态,获取第二检测结果;
当所述第一检测结果、判断结果和第二检测结果都处于预设正常状态时,确认所述发生故障的高可用节点已经修复;
当所述第一检测结果、判断结果和第二检测结果有任意一项没有处于所述预设正常状态时,确认所述发生故障的高可用节点还未完全修复。
优选的,所述当确认所述发生故障的高可用节点已修复之后,将所述当前服务状态进行二次调整,调整回所述预设服务状态,包括:
断开所述未发生故障的高可用节点与第二设备的服务;
恢复所述第二设备和发生故障的高可用节点之间的服务;
将所述第二设备和发生故障的高可用节点之间的服务调整为所述预设服务状态。
一种高可用节点故障检测装置,该装置包括:
判断模块,用于判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果;
第一调整模块,用于当所述判断结果为所述第一高可用节点或第二高可用节点发生故障时,根据所述判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态;
确定模块,用于通过定时检查与所述发生故障的高可用节点连接的第二设备的健康状态来确定所述发生故障的高可用节点是否已修复;
第二调整模块,用于当确认所述发生故障的高可用节点已修复之后,将所述当前服务状态进行二次调整,调整回所述预设服务状态。
优选的,所述判断模块,包括:
设置子模块,用于在所述第一高可用节点和第二高可用节点之间设置一网线作为心跳线;
获取子模块,用于根据所述网线实时获取第一高可用节点和第二高可用节点的健康状态;
比较子模块,用于根据所述健康状态与预设状态的比较结果判断所述第一高可用节点和第二高可用节点是否发生故障。
优选的,所述第一调整模块,包括:
第一断开子模块,用于当所述判断结果为所述第一高可用节点和第二高可用节点任意一个高可用节点发生故障时,断开发生故障的高可用节点和其连接的第二设备的服务;
服务子模块,用于使用未发生故障的高可用节点同时为其连接的第一设备和所述第二设备提供服务,其中,所述未发生故障的高可用节点为所述第一高可用节点和第二高可用节点中除所述发生故障的高可用节点外的另一个高可用节点。
确定子模块,用于根据所述第一高可用节点、第二高可用节点和所述第一设备、第二设备的服务关系确定所述当前服务状态。
优选的,所述确定模块,包括:
第一检测子模块,用于利用预设恢复控制装置检测所述第二设备IB网卡是否处于活跃状态,获取第一检测结果;
判断子模块,用于通过查询系统日志以及运行时的状态文件综合判断所述第二设备的HBA卡及SAS连接状态是否正常,获取判断结果;
第二检测子模块,用于检测所述第二设备的存储器是否处于活动状态,获取第二检测结果;
确认子模块,用于当所述第一检测结果、判断结果和第二检测结果都处于预设正常状态时,确认所述发生故障的高可用节点已经修复,当所述第一检测结果、判断结果和第二检测结果有任意一项没有处于所述预设正常状态时,确认所述发生故障的高可用节点还未完全修复。
优选的,所述第二调整模块,包括:
第二断开子模块,用于断开所述未发生故障的高可用节点与第二设备的服务;
恢复子模块,用于恢复所述第二设备和发生故障的高可用节点之间的服务;
调整子模块,用于将所述第二设备和发生故障的高可用节点之间的服务调整为所述预设服务状态。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种高可用节点故障检测方法的工作流程图;
图2为本发明所提供的一种高可用节点故障检测方法的另一工作流程图;
图3为本发明所提供的一种高可用节点故障检测装置的结构图;
图4为本发明所提供的一种高可用节点故障检测装置的另一结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
互为高可用的两个节点之间,通过Corosync和Pacemaker服务并且配置心跳线来监控对方是否存活,用以确定是否接管对方的服务,来保持该节点的高可用性。当对方节点恢复心跳之后,将接管的服务切换到对方来实现故障恢复。但是这种方法存在以下缺点:由于心跳线直接连接两个节点的板载以太网网卡,而且配置了静态的IP,因而心跳线恢复连接所需时间极短,导致心跳过早恢复。而Pacemaker在检测到对端心跳的时候,会立即交还所接管的服务,而此时故障节点未必达到可用状态,从而导致分布式文件系统出现服务异常,甚至数据损坏的严重后果。为了解决上述问题,本实施例公开了一种基于判断两个高可用节点的故障,当两个高可用节点中的一个出现故障时,调整他们的服务状态,然后修复故障,在完全修复之后再将出现故障的高可用节点调整回预设服务状态的方法。
一种高可用节点故障检测方法,如图 1所示,包括以下步骤:
步骤S101、判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果;
步骤S102、当判断结果为第一高可用节点或第二高可用节点发生故障时,根据判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态;
步骤S103、通过定时检查与发生故障的高可用节点连接的第二设备的健康状态来确定发生故障的高可用节点是否已修复;
步骤S104、当确认发生故障的高可用节点已修复之后,将当前服务状态进行二次调整,调整回预设服务状态;
在本实施例中,当两个高可用节点中的一个出现故障时,将未出现故障的高可用节点来代替出现故障的高可用节点进行服务,在保证了能正常服务的同时也可以有足够的时间去修复出现故障的高可用节点,通过定时检查与发生故障的高可用节点连接的第二设备的健康状态来确定发生故障的高可用节点是否修复,确保完全修复好出现故障的高可用节点后,恢复它的服务状态。
上述技术方案的工作原理为:判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果;当判断结果为第一高可用节点或第二高可用节点发生故障时,根据判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态;通过定时检查与发生故障的高可用节点连接的第二设备的健康状态来确定发生故障的高可用节点是否修复;当确认发生故障的高可用节点修复之后,将当前服务状态进行二次调整,调整回预设服务状态。
上述技术方案的有益效果为:通过定时检查与发生故障的高可用节点连接的第二设备的健康状态来确定发生故障的高可用节点是否修复,在完全修复之后恢复它的预设服务状态,在整个过程中既保证了服务的正常运行也避免了没有安全修复故障启动服务导致出现服务异常的问题,有效的解决了现有技术中由于故障节点未必达到可用状态,从而导致分布式文件系统出现服务异常,甚至数据损坏的严重后果的问题,提高了安全性。
在一个实施例中,如图2所示,判断第一高可用节点和第二高可用节点是否发生故障,包括:
步骤S201、在第一高可用节点和第二高可用节点之间设置一网线作为心跳线;
步骤S202、根据网线实时获取第一高可用节点和第二高可用节点的健康状态;
步骤S203、根据健康状态与预设状态的比较结果判断第一高可用节点和第二高可用节点是否发生故障。
上述技术方案的有益效果为:通过根据健康状态和预设状态的比较结果来确定两个高可用节点是否发生故障,在可以随时维护高可用节点安全的同时判断他们是否发生故障,进一步地提高了安全性。
在一个实施例中,当判断结果为第一高可用节点或第二高可用节点发生故障时,根据判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态,包括:
当判断结果为第一高可用节点和第二高可用节点任意一个高可用节点发生故障时,断开发生故障的高可用节点和其连接的第二设备的服务;
使用未发生故障的高可用节点同时为其连接的第一设备和第二设备提供服务,其中,未发生故障的高可用节点为第一高可用节点和第二高可用节点中除发生故障的高可用节点外的另一个高可用节点。
根据第一高可用节点、第二高可用节点和第一设备、第二设备的服务关系确定当前服务状态。
上述技术方案的有益效果为:可以准确有效地根据当前服务状态判断出哪一个高可用节点出现了故障,同时,使用未发生故障的高可用节点同时为其连接的第一设备和第二设备提供服务,可以为用户一直提供服务,提高了用户的体验感。
在一个实施例中,通过定时检查与发生故障的高可用节点连接的第二设备的健康状态来确定发生故障的高可用节点是否已修复,包括:
利用预设恢复控制装置检测第二设备IB网卡是否处于活跃状态,获取第一检测结果;
通过查询系统日志以及运行时的状态文件综合判断第二设备的HBA卡及 SAS连接状态是否正常,获取判断结果;
检测第二设备的存储器是否处于活动状态,获取第二检测结果;
当第一检测结果、判断结果和第二检测结果都处于预设正常状态时,确认发生故障的高可用节点已经修复;
当第一检测结果、判断结果和第二检测结果有任意一项没有处于预设正常状态时,确认发生故障的高可用节点还未完全修复。
上述技术方案的有益效果为:通过同时满足三个条件来确保发生故障的高可用节点百分之百修复后才恢复它的服务状态,进一步地提高了安全性,避免出现未完全修复而启动服务导致服务无法运行的问题。
在一个实施例中,当确认发生故障的高可用节点已修复之后,将当前服务状态进行二次调整,调整回预设服务状态,包括:
断开未发生故障的高可用节点与第二设备的服务;
恢复第二设备和发生故障的高可用节点之间的服务;
将第二设备和发生故障的高可用节点之间的服务调整为预设服务状态。
上述技术方案的有益效果为:既保证了发生故障的高可用节点的正常使用同时又将修复好之后的高可用节点调整回预设服务状态,保证了修复之后的高可用节点的服务可以正常运行。
本实施例还公开了一种高可用节点故障检测装置,如图3所示,该装置包括:
判断模块301,用于判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果;
第一调整模块302,用于当判断结果为第一高可用节点或第二高可用节点发生故障时,根据所判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态;
确定模块303,用于通过定时检查与发生故障的高可用节点连接的第二设备的健康状态来确定发生故障的高可用节点是否已修复;
第二调整模块304,用于当确认发生故障的高可用节点已修复之后,将当前服务状态进行二次调整,调整回预设服务状态。
在一个实施例中,如图4所示,判断模块,包括:
设置子模块3011,用于在第一高可用节点和第二高可用节点之间设置一网线作为心跳线;
获取子模块3012,用于根据网线实时获取第一高可用节点和第二高可用节点的健康状态;
比较子模块3013,用于根据健康状态与预设状态的比较结果判断第一高可用节点和第二高可用节点是否发生故障。
在一个实施例中,第一调整模块,包括:
第一断开子模块,用于当判断结果为第一高可用节点和第二高可用节点任意一个高可用节点发生故障时,断开发生故障的高可用节点和其连接的第二设备的服务;
服务子模块,用于使用未发生故障的高可用节点同时为其连接的第一设备和第二设备提供服务,其中,未发生故障的高可用节点为第一高可用节点和第二高可用节点中除发生故障的高可用节点外的另一个高可用节点。
确定子模块,用于根据第一高可用节点、第二高可用节点和第一设备、第二设备的服务关系确定当前服务状态。
在一个实施例中,确定模块,包括:
第一检测子模块,用于利用预设恢复控制装置检测第二设备IB网卡是否处于活跃状态,获取第一检测结果;
判断子模块,用于通过查询系统日志以及运行时的状态文件综合判断第二设备的HBA卡及SAS连接状态是否正常,获取判断结果;
第二检测子模块,用于检测第二设备的存储器是否处于活动状态,获取第二检测结果;
确认子模块,用于当第一检测结果、判断结果和第二检测结果都处于预设正常状态时,确认发生故障的高可用节点已经修复,当第一检测结果、判断结果和第二检测结果有任意一项没有处于预设正常状态时,确认发生故障的高可用节点还未完全修复。
在一个实施例中,第二调整模块,包括:
第二断开子模块,用于断开未发生故障的高可用节点与第二设备的服务;
恢复子模块,用于恢复第二设备和发生故障的高可用节点之间的服务;
调整子模块,用于将第二设备和发生故障的高可用节点之间的服务调整为预设服务状态。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (8)

1.一种高可用节点故障检测方法,其特征在于,包括以下步骤:
判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果;
当所述判断结果为所述第一高可用节点或第二高可用节点发生故障时,根据所述判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态;
通过定时检查与所述发生故障的高可用节点连接的第二设备的健康状态来确定所述发生故障的高可用节点是否已修复;
当确认所述发生故障的高可用节点已修复之后,将所述当前服务状态进行二次调整,调整回所述预设服务状态;
所述判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果,包括:
在所述第一高可用节点和第二高可用节点之间设置一网线作为心跳线;
根据所述网线实时获取第一高可用节点和第二高可用节点的健康状态;
根据所述健康状态与预设状态的比较结果判断所述第一高可用节点和第二高可用节点是否发生故障。
2.根据权利要求1所述高可用节点故障检测方法,其特征在于,所述当所述判断结果为所述第一高可用节点或第二高可用节点发生故障时,根据所述判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态,包括:
当所述判断结果为所述第一高可用节点和第二高可用节点任意一个高可用节点发生故障时,断开发生故障的高可用节点和其连接的第二设备的服务;
使用未发生故障的高可用节点同时为其连接的第一设备和所述第二设备提供服务,其中,所述未发生故障的高可用节点为所述第一高可用节点和第二高可用节点中除所述发生故障的高可用节点外的另一个高可用节点;
根据所述第一高可用节点、第二高可用节点和所述第一设备、第二设备的服务关系确定所述当前服务状态。
3.根据权利要求1所述高可用节点故障检测方法,其特征在于,所述通过定时检查与所述发生故障的高可用节点连接的第二设备的健康状态来确定所述发生故障的高可用节点是否已修复,包括:
利用预设恢复控制装置检测所述第二设备IB网卡是否处于活跃状态,获取第一检测结果;
通过查询系统日志以及运行时的状态文件综合判断所述第二设备的HBA卡及SAS连接状态是否正常,获取判断结果;
检测所述第二设备的存储器是否处于活动状态,获取第二检测结果;
当所述第一检测结果、判断结果和第二检测结果都处于预设正常状态时,确认所述发生故障的高可用节点已经修复;
当所述第一检测结果、判断结果和第二检测结果有任意一项没有处于所述预设正常状态时,确认所述发生故障的高可用节点还未完全修复。
4.根据权利要求1所述高可用节点故障检测方法,其特征在于,所述当确认所述发生故障的高可用节点已修复之后,将所述当前服务状态进行二次调整,调整回所述预设服务状态,包括:
断开未发生故障的高可用节点与第二设备的服务;
恢复所述第二设备和发生故障的高可用节点之间的服务;
将所述第二设备和发生故障的高可用节点之间的服务调整为所述预设服务状态。
5.一种高可用节点故障检测装置,其特征在于,该装置包括:
判断模块,用于判断第一高可用节点和第二高可用节点是否发生故障,输出判断结果;
第一调整模块,用于当所述判断结果为所述第一高可用节点或第二高可用节点发生故障时,根据所述判断结果对第一高可用节点和第二高可用节点的预设服务状态进行第一次调整,得到当前服务状态;
确定模块,用于通过定时检查与所述发生故障的高可用节点连接的第二设备的健康状态来确定所述发生故障的高可用节点是否已修复;
第二调整模块,用于当确认所述发生故障的高可用节点已修复之后,将所述当前服务状态进行二次调整,调整回所述预设服务状态;
所述判断模块,包括:
设置子模块,用于在所述第一高可用节点和第二高可用节点之间设置一网线作为心跳线;
获取子模块,用于根据所述网线实时获取第一高可用节点和第二高可用节点的健康状态;
比较子模块,用于根据所述健康状态与预设状态的比较结果判断所述第一高可用节点和第二高可用节点是否发生故障。
6.根据权利要求5所述高可用节点故障检测装置,其特征在于,所述第一调整模块,包括:
第一断开子模块,用于当所述判断结果为所述第一高可用节点和第二高可用节点任意一个高可用节点发生故障时,断开发生故障的高可用节点和其连接的第二设备的服务;
服务子模块,用于使用未发生故障的高可用节点同时为其连接的第一设备和所述第二设备提供服务,其中,所述未发生故障的高可用节点为所述第一高可用节点和第二高可用节点中除所述发生故障的高可用节点外的另一个高可用节点;
确定子模块,用于根据所述第一高可用节点、第二高可用节点和所述第一设备、第二设备的服务关系确定所述当前服务状态。
7.根据权利要求5所述高可用节点故障检测装置,其特征在于,所述确定模块,包括:
第一检测子模块,用于利用预设恢复控制装置检测所述第二设备IB网卡是否处于活跃状态,获取第一检测结果;
判断子模块,用于通过查询系统日志以及运行时的状态文件综合判断所述第二设备的HBA卡及SAS连接状态是否正常,获取判断结果;
第二检测子模块,用于检测所述第二设备的存储器是否处于活动状态,获取第二检测结果;
确认子模块,用于当所述第一检测结果、判断结果和第二检测结果都处于预设正常状态时,确认所述发生故障的高可用节点已经修复,当所述第一检测结果、判断结果和第二检测结果有任意一项没有处于所述预设正常状态时,确认所述发生故障的高可用节点还未完全修复。
8.根据权利要求5所述高可用节点故障检测装置,其特征在于,所述第二调整模块,包括:
第二断开子模块,用于断开未发生故障的高可用节点与第二设备的服务;
恢复子模块,用于恢复所述第二设备和发生故障的高可用节点之间的服务;
调整子模块,用于将所述第二设备和发生故障的高可用节点之间的服务调整为所述预设服务状态。
CN202010245646.1A 2020-03-31 2020-03-31 一种高可用节点故障检测方法及装置 Active CN111464389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010245646.1A CN111464389B (zh) 2020-03-31 2020-03-31 一种高可用节点故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010245646.1A CN111464389B (zh) 2020-03-31 2020-03-31 一种高可用节点故障检测方法及装置

Publications (2)

Publication Number Publication Date
CN111464389A CN111464389A (zh) 2020-07-28
CN111464389B true CN111464389B (zh) 2021-09-14

Family

ID=71679455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010245646.1A Active CN111464389B (zh) 2020-03-31 2020-03-31 一种高可用节点故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN111464389B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103104961A (zh) * 2013-01-30 2013-05-15 广东美的制冷设备有限公司 通信故障检测方法和检测装置
CN103345439A (zh) * 2013-07-17 2013-10-09 国家电网公司 一种信息系统全链路健康状态监控方法及装置
CN106293874A (zh) * 2016-07-29 2017-01-04 浪潮(北京)电子信息产业有限公司 一种对高可用集群进行监控的方法及装置
CN110413451A (zh) * 2019-07-22 2019-11-05 苏州桦汉科技有限公司 一种usb设备自动恢复方法、装置及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188273B2 (en) * 2003-11-24 2007-03-06 Tsx Inc. System and method for failover
CN101841478B (zh) * 2010-04-27 2013-11-20 北京星网锐捷网络技术有限公司 路由设备切换方法及路由设备
US9811428B2 (en) * 2014-09-22 2017-11-07 Netapp Inc. System and method for handling multi-node failures in a disaster recovery cluster
US10771315B2 (en) * 2017-02-14 2020-09-08 Futurewei Technologies, Inc. High availability using multiple network elements
CN109842505A (zh) * 2017-11-27 2019-06-04 北京通号国铁城市轨道技术有限公司 一种云端集群故障处理方法及装置
CN108600040B (zh) * 2018-03-16 2022-03-15 国电南瑞科技股份有限公司 一种基于高可用检测节点的分布式系统节点故障检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103104961A (zh) * 2013-01-30 2013-05-15 广东美的制冷设备有限公司 通信故障检测方法和检测装置
CN103345439A (zh) * 2013-07-17 2013-10-09 国家电网公司 一种信息系统全链路健康状态监控方法及装置
CN106293874A (zh) * 2016-07-29 2017-01-04 浪潮(北京)电子信息产业有限公司 一种对高可用集群进行监控的方法及装置
CN110413451A (zh) * 2019-07-22 2019-11-05 苏州桦汉科技有限公司 一种usb设备自动恢复方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VoLTE核心网OPTIONS故障检测实现;韦凤梅;《中国新通信》;20171220(第24期);39-41 *

Also Published As

Publication number Publication date
CN111464389A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN109032849B (zh) 热备份系统、热备份方法和计算机设备
US7900087B2 (en) Method and apparatus for correlating an out-of-range condition to a particular power connection
CN108429629A (zh) 设备故障恢复方法和装置
US20130124908A1 (en) Systems and methods for automatic replacement and repair of communications network devices
US20140372805A1 (en) Self-healing managed customer premises equipment
US6222821B1 (en) System and method for reconfiguring a telecommunications network to its normal state after repair of fault
CN111385107B (zh) 一种服务器的主备切换处理方法及装置
JP2019537701A (ja) 高信頼性の配電ネットワーク故障の検出方法、装置及び記憶媒体
CN103905247A (zh) 一种基于多客户裁决的双机备份方法及系统
AU2018363059B2 (en) Control system for and method of fault location, isolation and supply restoration
CN111464389B (zh) 一种高可用节点故障检测方法及装置
US20080024949A1 (en) Method and System for Automatic Attempted Recovery of Equipment from Transient Faults
CN110502496B (zh) 一种分布式文件系统修复方法、系统、终端及存储介质
US8494120B2 (en) Detecting foreign voltage faults in telephone customer premise equipment
CN104754562A (zh) 数据复制异常的修复方法及装置
CN111901709B (zh) 一种多网络控制备份的光纤通信网络系统
JPH0887458A (ja) プロセス制御用データ伝送装置及びi/oバス伝送障害の除去方法
CN109067567B (zh) 一种网络通信中断诊断方法
US10110452B2 (en) Smart internet and power connector
CN108650115A (zh) 集抄系统多通道级联拓扑结构故障处理方法
JP4627933B2 (ja) 海底分岐装置とその給電制御方法及び給電制御システム
CN109617761B (zh) 一种主备服务器切换方法及装置
JP2979955B2 (ja) オーダーワイヤ通信システム
KR101542609B1 (ko) 고장 복구 장치 및 이의 작동 방법
CN106326151A (zh) 一种PCIe设备的拔除方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211215

Address after: 361021 unit 206, floor 2, No. 6, Chengyi North Street, phase III, software park, Xiamen, Fujian

Patentee after: Xiamen yunzhixin Intelligent Technology Co.,Ltd.

Address before: No.101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing

Patentee before: Yunzhisheng Intelligent Technology Co.,Ltd.

Patentee before: Xiamen yunzhixin Intelligent Technology Co., Ltd