CN113132159B - 存储集群节点故障的处理方法、设备及存储系统 - Google Patents

存储集群节点故障的处理方法、设备及存储系统 Download PDF

Info

Publication number
CN113132159B
CN113132159B CN202110374752.4A CN202110374752A CN113132159B CN 113132159 B CN113132159 B CN 113132159B CN 202110374752 A CN202110374752 A CN 202110374752A CN 113132159 B CN113132159 B CN 113132159B
Authority
CN
China
Prior art keywords
state
storage
service
storage node
load balancing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110374752.4A
Other languages
English (en)
Other versions
CN113132159A (zh
Inventor
杨国鹏
廖湘平
唐滔
张勇
凌波
谢文辉
陈志德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mach Valley Technology Co ltd
Original Assignee
Beijing Mach Valley Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mach Valley Technology Co ltd filed Critical Beijing Mach Valley Technology Co ltd
Priority to CN202110374752.4A priority Critical patent/CN113132159B/zh
Publication of CN113132159A publication Critical patent/CN113132159A/zh
Application granted granted Critical
Publication of CN113132159B publication Critical patent/CN113132159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种存储集群节点故障的处理方法、设备及存储系统,该方法包括:获取与第一存储节点的BFD会话状态;若所述BFD会话状态为down,则将所述第一存储节点对应的路由信息从路由表中删除,以将所述第一存储节点进行故障隔离。本发明负载均衡设备与存储集群中的存储节点通过BFD探测进行健康检测,将存储节点的健康检测时间降低到毫秒级,有效提高存储节点故障检测效率,从而能够及时对故障的存储节点进行故障隔离,并且不需要独立部署DNS服务器和健康检查服务器,系统结构简单,有效降低成本。

Description

存储集群节点故障的处理方法、设备及存储系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种存储集群节点故障的处理方法、设备及存储系统。
背景技术
随着视频监控、互联网应用、物联网应用以及存储技术的不断发展,图片、视频等对象存储数据量越来越大,存储系统的容量随之快速增长,已经达到PB级数据,当前,存储系统通常是由多个存储节点组成的存储集群,业务上,存储系统的存储节点采用全对称架构,每个存储节点均能处理客户端的存储请求,为了保证存储系统的性能及可靠性,需要在负载均衡的同时对存储节点的健康状态进行检测。
现有技术中,通常需要部署专门的DNS服务器和健康检查服务器,DNS服务器对外提供域名解析服务,客户端通过DNS服务器获取存储节点的IP地址,基于获取到的存储节点IP地址访问该存储节点完成存储业务,健康检查服务器对存储集群内所有存储节点进行健康检查,当某个存储节点(比如存储节点M)出现故障时,健康检查服务器通知DNS服务器,DNS服务器即可将该存储节点M的IP地址作废,当有客户端再发起域名解析时,基于负载均衡策略返回一个健康的存储节点的IP地址。
现有技术的这种健康检测方法,健康检查服务器从检测到存储节点故障到通知DNS服务器刷新内容,过程较慢,在秒级以上,检测时间较长,从而导致故障隔离及时性差,且需要独立部署DNS服务器和健康检查服务器,系统结构复杂,成本较高。
发明内容
本发明提供一种存储集群节点故障的处理方法、设备及存储系统,以解决现有技术存储节点故障检测时间长、成本高等问题。
第一个方面,本发明实施例提供一种存储集群节点故障的处理方法,包括:
获取与第一存储节点的BFD会话状态;
若所述BFD会话状态为down,则将所述第一存储节点对应的路由信息从路由表中删除,以将所述第一存储节点进行故障隔离。
第二个方面,本发明实施例提供一种存储集群节点故障的处理方法,包括:
获取存储业务的状态,存储业务的状态包括正常和不正常两种状态;
若所述存储业务的状态为不正常,则将与第一负载均衡设备之间的BFD会话down掉,以使所述第一负载均衡设备将对应的路由信息从路由表中删除。
第三个方面,本发明实施例提供一种负载均衡设备,包括:
第一获取模块,用于获取与第一存储节点的BFD会话状态;
第一处理模块,用于若所述BFD会话状态为down,则将对应的路由信息从路由表中删除,以将所述第一存储节点进行故障隔离。
第四个方面,本发明实施例提供一种存储节点,包括:
第二获取模块,用于获取存储业务的状态,存储业务的状态包括正常和不正常两种状态;
第二处理模块,用于若所述存储业务的状态为不正常,则将与第一负载均衡设备之间的BFD会话down掉,以使所述第一负载均衡设备将对应的路由信息从路由表中删除。
第五个方面,本发明实施例提供一种集群存储系统,包括:第一负载均衡设备和至少一个存储节点;
存储节点,用于获取存储业务的状态,存储业务的状态包括正常和不正常两种状态;若所述存储业务的状态为不正常,则将与第一负载均衡设备之间的BFD会话down掉;
第一负载均衡设备,用于获取与存储节点的BFD会话状态,若所述BFD会话状态为down,则将所述存储节点对应的路由信息从路由表中删除,以将所述存储节点进行故障隔离。
本发明实施例提供的存储集群节点故障的处理方法、设备及存储系统,负载均衡设备与存储集群中的存储节点通过BFD探测进行健康检测,将存储节点的健康检测时间降低到毫秒级,有效提高存储节点故障检测效率,从而能够及时对故障的存储节点进行故障隔离,将客户端的业务请求转发到其他健康的存储节点,保证业务不中断,并且不需要独立部署DNS服务器和健康检查服务器,系统结构简单,有效降低成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的存储集群节点故障的处理方法的流程示意图;
图2为本发明另一实施例提供的存储集群节点故障的处理方法的流程示意图;
图3为本发明一实施例提供的负载均衡设备的结构示意图;
图4为本发明一实施例提供的负载均衡设备的一种示例性结构示意图;
图5为本发明一实施例提供的负载均衡设备的另一种示例性结构示意图;
图6为本发明一实施例提供的负载均衡设备的再一种示例性结构示意图;
图7为本发明一实施例提供的存储节点的结构示意图;
图8为本发明一实施例提供的第二获取模块的一种示例性结构示意图;
图9为本发明一实施例提供的存储节点的一种示例性结构示意图;
图10为本发明另一实施例提供的负载均衡设备的结构示意图;
图11为本发明另一实施例提供的存储节点的结构示意图;
图12为本发明一实施例提供的集群存储系统的一种示例性架构示意图;
图13为本发明一实施例提供的集群存储系统的另一种示例性架构示意图;
图14为现有技术的存储系统的架构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对本发明所涉及的名词进行解释:
BFD:Bidirectional Forwarding Detection,是一种双向转发检测机制,可以提供毫秒级的检测,可以实现链路的快速检测,BFD通过与上层路由协议联动,可以实现路由的快速收敛,确保业务的永续性。本发明中通过在负载均衡设备(本发明中负载均衡设备以三层交换机来实现)及存储集群的各存储节点配置BFD探测机制,实现负载均衡设备与存储节点之间的双向探测,从而能够使负载均衡设备能够快速检测到存储节点故障,及时进行故障隔离。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个及两个以上,除非另有明确具体的限定。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明一实施例提供一种存储集群节点故障的处理方法,用于存储集群中的存储节点故障隔离,本实施例的执行主体为负载均衡设备,比如具体可以为三层交换机。
如图1所示,为本实施例提供的存储集群节点故障的处理方法的流程示意图,该方法包括:
步骤101,获取与第一存储节点的BFD会话状态。
具体的,在实际应用中,存储系统中可以设置一个负载均衡设备,该负载均衡设备称为第一负载均衡设备,存储系统中也可以设置两个或更多的负载均衡设备,当有多个负载均衡设备时,第一负载均衡设备可以是其中任意一个负载均衡设备;存储系统可以是包括客户端、负载均衡设备和多个存储节点的网络系统,多个存储节点构成存储集群,每个存储节点均可以处理客户端的存储业务,存储集群中存储节点隐藏内部IP地址,对外提供唯一的对外业务IP地址,客户端通过提供的唯一的对外业务IP地址向负载均衡设备发送存储业务请求,负载均衡设备基于预设负载均衡策略将客户端的存储业务请求路由到相应的存储节点进行业务处理;第一存储节点可以是存储集群中的任意一个存储节点;负载均衡设备可以是任意可实施的方式实现,本发明实施例中以三层交换机为例,在三层交换机上配置等价静态路由,实现存储业务的均衡;并且在每个负载均衡设备及每个存储节点上配置BFD探测模块,使得负载均衡设备与存储节点之间能够进行双向的健康检测;那么,第一负载均衡设备在启动后BFD探测功能启动,同样,第一存储节点在正常启动后BFD探测功能启动,第一负载均衡设备与第一存储节点之间建立BFD会话,任意一方可以周期性地向另一方发送BFD控制报文,使另一方能够确定该任意一方的健康状态,当第一负载均衡设备获取到其与第一存储节点的BFD会话状态后,根据BFD会话的具体状态来进行相应的处理,在BFD会话建立后,BFD会话的状态包括up和down两种状态(在BFD会话建立过程中,BFD会话状态还包括init状态),对于第一负载均衡设备来说,若其确定其与第一存储节点的BFD会话状态为up,则表示第一存储节点的状态为健康,相反若BFD会话状态为down则表示第一存储节点故障;同理,对于第一存储节点来说,若其确定其与第一负载均衡设备的BFD会话的状态为up则表示第一负载均衡设备的状态为健康,相反若BFD会话的状态为down则表示第一负载均衡设备的状态为故障。
可选地,第一负载均衡设备可以是从其自身的BFD探测模块获得其与第一存储节点的BFD会话状态,BFD探测模块的检测方式、BFD会话工作方式及运行模式可以根据实际需求设置,本实施例不做限定,比如BFD探测模块的检测方式可以采用双向检测方式;BFD会话工作方式可以采用控制报文方式,也可以采用Echo报文方式;运行模式包括BFD会话建立前模式和建立后模式,建立前模式可以采用主动模式或被动模式,建立后模式可以采用异步模式或查询模式;其中,主动模式是指在建立会话前不管是否收到对端发来的BFD控制报文,都会主动发送BFD控制报文;被动模式是指在建立会话前不会主动发送BFD控制报文,直到对端发来BFD控制报文;异步模式是指周期性地发送BFD控制报文,若在检测时间内没有收到BFD控制报文则将会话down;查询模式是指每一方都有独立的方法确认自己连接到对方,这样只要有一个BFD会话建立,则停止发送BFD控制报文,除非某一方需要显性地验证连接性。
示例性的,第一负载均衡设备的BFD探测模块在第一预设时间内未接收到第一存储节点发送的BFD控制报文,则将与第一存储节点的BFD会话down掉,即将BFD会话状态更新为down,并通知第一负载均衡设备的路由管理模块,路由管理模块则获取到该BFD会话状态,进行后续的故障隔离。
步骤102,若BFD会话状态为down,则将第一存储节点对应的路由信息从路由表中删除,以将第一存储节点进行故障隔离。
具体的,若第一负载均衡设备确定其与第一存储节点的BFD会话状态为down,则表示第一存储节点故障,第一负载均衡设备则可以及时将第一存储节点对应的路由信息从路由表中删除,保证后续存储业务不会再继续路由到第一存储节点,从而实现了第一存储节点的故障隔离。
可以理解地,在第一负载均衡设备与存储节点进行双向检测之前,需要先将健康的各存储节点对应的路由信息配置到路由表,当存储节点正常的时候,第一负载均衡设备与各存储节点的BFD会话维持up状态,各存储节点对应的路由有效,当第一负载均衡设备检测到某存储节点故障时,将与该存储节点的BFD会话down掉,当感知到BFD会话down掉,则立即将该存储节点对应的路由信息从路由表删除。
示例性的,负载均衡设备的一条路由信息配置如下:
ip route-static 1.1.1.1 32 192.168.1.1track bfd-session bfd_to_1
具体的路由信息条数可以根据健康的存储节点的数量设置,本实施例不做限定,比如可以有M个存储节点,则第M个存储节点对应的路由信息配置如下:
ip route-static 1.1.1.1 32 192.168.1.M track bfd-session bfd_to_M
在实际应用中,存储节点侧的BFD探测功能可以是通过BFD线程来实现,当存储节点故障时,其BFD线程退出,从而无法向第一负载均衡设备发送BFD控制报文,使第一负载均衡设备可以感知到该存储节点的BFD会话down,以确定该存储节点故障;存储节点故障可以包括存储节点存储业务不正常和存储节点整体故障,其中,存储节点存储业务不正常可以包括读业务不正常、写业务不正常及查询业务不正常中的一种或多种,存储节点整体故障可以包括存储节点断电、整机重启等情况;对于存储节点的存储业务不正常的情况可以是由该存储节点自己检测,在检测到自己的存储业务不正常时,可以控制将自己的BFD线程退出,从而使得BFD会话down,使第一负载均衡设备感知到该存储节点故障;对于存储节点整体故障的情况,由于其整体故障,BFD线程也会被迫退出,同样不能在第一预设时间内向第一负载均衡设备发送BFD控制报文,从而使第一负载均衡设备感知到该存储节点故障,因此,无论存储节点是哪种原因导致的故障,负载均衡设备均可以及时感知并进行故障隔离。
本实施例提供的存储集群节点故障的处理方法,负载均衡设备与存储集群中的存储节点通过BFD探测进行健康检测,将存储节点的健康检测时间降低到毫秒级,有效提高存储节点故障检测效率,从而能够及时对故障的存储节点进行故障隔离,将客户端的业务请求转发到其他健康的存储节点,保证业务不中断,并且不需要独立部署DNS服务器和健康检查服务器,系统结构简单,有效降低成本。
为了使本发明的技术方案更加清楚,本发明另一实施例对上述实施例提供的方法做进一步补充说明。
作为一种可实施的方式,为了能够在存储节点恢复正常后及时投入使用,在将第一存储节点对应的路由信息从路由表中删除之后,该方法还可以包括:
若接收到第一存储节点发送的BFD控制报文,则建立与第一存储节点的BFD会话;将第一存储节点对应的路由信息加入到路由表中,以将第一存储节点恢复使用。
具体的,当第一存储节点故障恢复后,第一存储节点的BFD探测功能启动,从而可以向第一负载均衡设备发送BFD控制报文,使第一负载均衡设备感知到第一存储节点,重新建立与第一存储节点之间的BFD会话,当与第一存储节点之间的BFD会话状态为up之后,表示第一存储节点可以投入使用,第一负载均衡设备则可以将第一存储节点对应的路由信息再加入到路由表中,在后续可以将客户端的存储业务按照预设负载均衡策略路由到该第一存储节点进行处理。
作为一种可实施的方式,为了及时发现存储节点故障,该方法还包括:
在与第一存储节点建立BFD会话后,若第一负载均衡设备在第一预设时间内未收到第一存储节点发送的BFD控制报文,则将BFD会话状态更新为down。
具体的,为了便于健康检测,及时发现存储节点故障,本发明BFD会话工作方式可以采用控制报文方式,即在BFD会话建立成功后,第一负载均衡设备与第一存储节点这两端均周期向对端发送BFD控制报文,若第一负载均衡设备在第一预设时间(第一预设时间可以根据实际需求设置,比如可以为20毫秒、30毫秒等)内未收到第一存储节点发送的BFD控制报文,第一负载均衡设备则将BFD会话down掉,具体为第一负载均衡设备的BFD探测模块将BFD会话down掉并通知第一负载均衡设备的路由管理模块,由路由管理模块将该第一存储节点的路由无效掉,即将该第一存储节点的路由信息从路由表删除。
在实际应用中BFD会话工作方式也可以根据实际需求采用BFD Echo报文方式进行健康检测。
BFD控制报文可以采用任意可实施的格式,比如BFD控制报文可以封装在UDP报文中传送,具体格式为现有技术,在此不再赘述。
需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本发明不做限定。
本实施例提供的存储集群节点故障的处理方法,在存储节点故障恢复后,通过BFD探测可以及时被负载均衡设备感知,并快速投入使用;并且本发明采用通用设备(即三层交换机)即可实现存储集群的高可靠性,无需新增诸如DNS服务器、健康检查服务器等设备,系统结构简单。
上面对负载均衡设备侧的方法进行了详细说明,下面对于负载均衡设备交互的存储集群中的存储节点侧的方法进行说明。
本发明再一实施例提供一种存储集群节点故障的处理方法,用于存储集群中的存储节点故障隔离,本实施例的执行主体为存储节点,该存储节点作为存储集群中的一个存储节点,该存储节点上设置有存储设备,用于存储图片、视频等对象数据。
如图2所示,为本实施例提供的存储集群节点故障的处理方法的流程示意图,该方法包括:
步骤301,获取存储业务的状态,存储业务的状态包括正常和不正常两种状态。
具体的,存储节点可以对自身存储业务的健康状态进行实时或周期性的检查,存储业务可以包括读业务、写业务、查询业务及其他相关业务,具体可以根据实际需求设置;具体检查方式可以采用任意可实施的方式,具体可以根据实际需求设置,比如可以采用现有标准的检查方式,也可以采用存储节点中存储设备生产厂商特有的检查方式,本发明实施例不做限定;存储业务的状态为不正常即指存储业务故障,存储业务状态正常即指存储业务没有故障,存储业务的状态可以由具体业务的状态来确定,比如若读业务、写业务和查询业务这三种业务中的至少一种业务不正常则确定该存储节点的存储业务状态为不正常,具体规则可以根据实际需求设置,本实施例不做限定。
步骤302,若存储业务的状态为不正常,则将与第一负载均衡设备之间的BFD会话down掉,以使第一负载均衡设备将对应的路由信息从路由表中删除。
具体的,若存储节点(比如第一存储节点)检测到自己的存储业务的状态为不正常,则表示自己无法正常处理存储业务,这时为了能够让第一负载均衡设备及时感知到自己的故障,该第一存储节点可以及时主动将其与第一负载均衡设备之间的BFD会话down掉,具体的第一存储节点可以主动控制自身的BFD线程退出,即可使第一负载均衡设备快速感知到第一存储节点故障,第一负载均衡设备则可以将第一存储节点对应的路由信息从路由表中删除,从而后续不会再将存储业务路由到第一存储节点,及时有效地实现对第一存储节点的隔离。
需要说明的是负载均衡设备的具体操作已在前述实施例进行了详细说明,在此不再赘述。
本实施例提供的存储集群节点故障的处理方法,存储节点可以对自身的存储业务状态进行实时或周期性的检查,并与BFD探测联动,使得负载均衡设备对于存储节点的整体故障及存储业务故障均能及时感知并及时进行故障隔离,将存储节点的健康检测时间降低到毫秒级,有效提高存储节点故障检测效率,且不需要独立部署DNS服务器和健康检查服务器,系统结构简单,有效降低成本。
为了使本发明的技术方案更加清楚,本发明再一实施例对上述实施例提供的方法做进一步补充说明。
作为一种可实施的方式,为了能够获取存储节点的存储业务的状态,需要预先设置业务状态检查方式,也即获取存储业务的状态,包括:
采用预设业务状态检查方式获取存储业务的状态。
具体的,预设业务状态检查方式可以根据实际需求设置,比如可以采用通用的标准的检查方式,也可以采用存储节点中存储设备生产厂商特有的检查方式。
进一步地,采用预设业务状态检查方式获取存储业务的状态,包括:
采用读业务状态检查方式获取读业务的第一状态;采用写业务状态检查方式获取写业务的第二状态;采用查询业务状态检查方式获取查询业务的第三状态;若第一状态、第二状态和第三状态中有至少一个状态为不正常,则确定存储业务的状态为不正常。
具体的,存储节点在检查自己的存储业务的状态时,检查方式为端到端的探测,每一次探测过程完成一次全流程的存储业务操作,包括探测写业务是否正常、读业务是否正常、查询业务是否正常等;对于读业务、写业务及查询业务的检查不分先后顺序,具体顺序可以根据实际需求设置。
本发明将存储业务状态的健康检测设置在每个存储节点本身来执行,可靠性高,且业务状态的健康检测不再是独立的集中式运行,不存在单点故障,并且现有技术采用健康检查服务器,需要轮询每个存储节点来对各存储节点进行健康检查,本发明相对于现有技术可以实时感知存储节点的业务状态,不需要轮询调度,从而可以有效提高检测速度。
作为另一种可实施的方式,为了在存储节点恢复正常后能够快速及时地投入使用,在若存储业务的状态为不正常,则将与第一负载均衡设备之间的BFD会话down掉之后,该方法还包括:
若存储业务的状态恢复正常,则向第一负载均衡设备发送BFD控制报文,以使第一负载均衡设备将对应的路由信息加入到路由表中。
具体的,当存储节点(比如第一存储节点)恢复正常后,第一存储节点的BFD线程则可以启动并投入工作状态,从而可以及时向第一负载均衡设备发送BFD控制报文,快速与第一负载均衡设备重新建立BFD会话,实现第一负载均衡设备与第一存储节点之间的双向探测,第一负载均衡设备则能快速感知第一存储节点恢复正常,并可以快速将第一存储节点对应的路由信息加入到路由表中,使第一存储节点能够快速投入使用,分担存储集群的存储业务流量。
作为另一种可实施的方式,为了避免负载均衡设备的单点故障,进一步提高存储系统的可靠性,该方法还包括:
若在第二预设时间内未收到第一负载均衡设备的BFD控制报文,则将与第一负载均衡设备之间的BFD会话down掉,与第二负载均衡设备建立BFD会话。
具体的,在本发明的存储系统中可以设置至少两个负载均衡设备,以两个三层交换机为例,分别称为第一负载均衡设备和第二负载均衡设备,两个三层交换机可以为双机热备,当第一负载均衡设备处于激活状态时,第一负载均衡设备与各存储节点通过BFD探测实现双向探测,当第一负载均衡设备故障后,第二负载均衡设备被激活,当第一存储节点在第二预设时间内未接收到第一负载均衡设备发送的BFD控制报文,则确定第一负载均衡设备故障,第一存储节点则向第二负载均衡设备发送BFD控制报文,与第二负载均衡设备建立BFD会话,客户端的存储业务由第二负载均衡设备路由到各存储节点,第二负载均衡设备的具体操作与第一负载均衡设备一致,在此不再赘述,此外,对于三层交换机的冗余热备的具体原理为现有技术,在此不再赘述;第二预设时间可以根据实际需求设置,比如可以为20毫秒、30毫秒等。
需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本发明不做限定。
本实施例提供的存储集群节点故障的处理方法,在存储节点故障恢复后,通过存储节点与负载均衡设备之间的BFD探测可以及时被负载均衡设备感知,并快速投入使用;并且本发明采用通用设备(即三层交换机)即可实现存储集群的高可靠性,无需新增诸如DNS服务器、健康检查服务器等设备,系统结构简单;此外,本发明还通过负载均衡设备的冗余热备避免负载均衡设备的单点故障,进一步提高存储系统可靠性。
以上对本发明负载均衡设备侧和存储节点侧的方法进行了详细说明,下面对本发明的负载均衡设备进行说明。
本发明再一实施例提供一种负载均衡设备,用于执行上述负载均衡设备侧实施例的方法。
如图3所示,为本实施例提供的负载均衡设备的结构示意图。该负载均衡设备50包括:第一获取模块51和第一处理模块52。
其中,第一获取模块,用于获取与第一存储节点的BFD会话状态;第一处理模块,用于若BFD会话状态为down,则将第一存储节点对应的路由信息从路由表中删除,以将第一存储节点进行故障隔离。
具体的,第一获取模块可以是负载均衡设备的路由管理模块的一个子模块,第一获取模块可以从该负载均衡设备的BFD探测模块获取与第一存储节点的BFD会话状态,具体可以是负载均衡设备的BFD探测模块在BFD会话状态变化时通知第一获取模块,第一获取模块则可以获取到该BFD会话状态,并发送给第一处理模块,第一处理模块可以是路由管理模块的另一个子模块,第一处理模块在获知BFD会话状态为down后,感知到第一存储节点故障,则将第一存储节点对应的路由信息从路由表中删除,以将第一存储节点进行故障隔离。
可选地,第一获取模块也可以是负载均衡设备的BFD探测模块,第一获取模块在探测到第一存储节点故障后,将与第一存储节点的BFD会话down掉,将会话状态更新为down,并通知第一处理模块,第一处理模块则可以是指路由管理模块,第一处理模块在获知BFD会话状态为down后,感知到第一存储节点故障,则将第一存储节点对应的路由信息从路由表中删除,以将第一存储节点进行故障隔离。
关于本实施例中的负载均衡设备,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,且能够达到相同的技术效果,此处将不做详细阐述说明。
为了使本发明的负载均衡设备更加清楚,本发明又一实施例对上述实施例提供的负载均衡设备做进一步补充说明。
作为一种可实施的方式,如图4所示,为本实施例提供的负载均衡设备的一种示例性结构示意图,为了能够在存储节点恢复正常后及时投入使用,该负载均衡设备还包括第一会话建立模块53。
其中,第一会话建立模块,用于若接收到第一存储节点发送的BFD控制报文,则建立与第一存储节点的BFD会话;第一处理模块,还用于将第一存储节点对应的路由信息加入到路由表中,以将第一存储节点恢复使用。
具体的,该负载均衡设备还可以包括接收模块,用于接收存储节点发送的BFD控制报文,在与第一存储节点的BFD会话down掉之后,若接收模块又接收到第一存储节点发送的BFD控制报文,可以将该BFD控制报文发送给第一会话建立模块,第一会话建立模块则可以感知到第一存储节点恢复正常,重新建立与第一存储节点的BFD会话,会话建立成功后,会话状态更新为up,第一会话建立模块则可以通知第一处理模块,第一处理模块将第一存储节点对应的路由信息加入到路由表中,以将第一存储节点恢复使用。
可选地,第一会话建立模块也可以是将up的会话状态通知第一获取模块,由第一获取模块发送给第一处理模块,具体可以根据实际需求设置。
作为另一种可实施的方式,如图5所示,为本实施例提供的负载均衡设备的另一种示例性结构示意图,该负载均衡设备还包括:第一更新模块54。
其中,第一更新模块,用于在与第一存储节点建立BFD会话后,若在第一预设时间内未收到第一存储节点发送的BFD控制报文,则将BFD会话状态更新为down。
具体的,第一更新模块可以是BFD探测模块,或者也可以是BFD探测模块的一个子模块,BFD探测模块若在第一预设时间内未收到第一存储节点发送的BFD控制报文,则表示第一存储节点故障,则由第一更新模块将BFD会话状态更新为down,并由第一更新模块通知第一获取模块,第一获取模块获取到该BFD会话状态,并发送给第一处理模块,第一处理模块感知到第一存储节点故障,则将第一存储节点对应的路由信息从路由表中删除,以将第一存储节点进行故障隔离。
需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本发明不做限定。
示例性的,如图6所示,为本实施例提供的负载均衡设备的再一种示例性结构示意图,该负载均衡设备包括第一获取模块51、第一处理模块52、第一会话建立模块53和第一更新模块54。各模块的具体操作参见前述内容,在此不再赘述。
关于本实施例中的负载均衡设备,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,且能够达到相同的技术效果,此处将不做详细阐述说明。
以下对本发明的存储节点进行说明。
如图7所示,为本实施例提供的存储节点的结构示意图。该存储节点70包括:第二获取模块71和第二处理模块72。
其中,第二获取模块,用于获取存储业务的状态,存储业务的状态包括正常和不正常两种状态;第二处理模块,用于若存储业务的状态为不正常,则将与第一负载均衡设备之间的BFD会话down掉,以使第一负载均衡设备将对应的路由信息从路由表中删除。
具体的,该存储节点对其自身的存储业务健康状况进行检查,通过第二获取模块获取自身的存储业务的状态,并发送给第二处理模块,第二处理模块则在存储业务的状态为不正常时,将与第一负载均衡设备之间的BFD会话down掉,以使第一负载均衡设备感知到该存储节点故障将该存储节点对应的路由信息从路由表中删除。
关于本实施例中的存储节点,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,且能够达到相同的技术效果,此处将不做详细阐述说明。
为了使本发明的存储节点更加清楚,本发明又一实施例对上述实施例提供的存储节点做进一步补充说明。
作为一种可实施的方式,为了使存储节点能够获取自身的存储业务的状态,需要预先设置业务状态检查方式,也即第二获取模块,具体用于:采用预设业务状态检查方式获取存储业务的状态。
进一步地,如图8所示,为本实施例提供的第二获取模块的一种示例性结构示意图,该第二获取模块71,具体包括:第一子模块711、第二子模块712、第三子模块713和确定子模块714。
其中,第一子模块,用于采用读业务状态检查方式获取读业务的第一状态;第二子模块,用于采用写业务状态检查方式获取写业务的第二状态;第三子模块,用于采用查询业务状态检查方式获取查询业务的第三状态;确定子模块,用于若第一状态、第二状态和第三状态中有至少一个状态为不正常,则确定第一存储节点的存储业务的状态为不正常。
作为另一种可实施的方式,如图9所示,为本实施例提供的存储节点的一种示例性结构示意图,为了使存储节点在恢复正常后能够快速及时地投入使用,该存储节点还包括:发送模块73。
其中,发送模块,用于若存储业务的状态恢复正常,则向第一负载均衡设备发送BFD控制报文,以使第一负载均衡设备将对应的路由信息加入到路由表中。
可以理解地,该发送模块不仅仅是用于在存储业务的状态恢复正常后向第一负载均衡设备发送BFD报文,而是在与负载均衡设备建立BFD会话过程中以及BFD会话建立成功后,都需要发送BFD控制报文,以能够实现其所在的存储节点与负载均衡设备的双向探测,也即,只要存储节点正常,其BFD线程能够启动,就会按照预设周期发送BFD报文。
作为另一种可实施的方式,为了避免负载均衡设备的单点故障,进一步提高存储系统的可靠性,第二处理模块,还用于若在第二预设时间内未收到第一负载均衡设备的BFD控制报文,则将与第一负载均衡设备之间的BFD会话down掉,与第二负载均衡设备建立BFD会话。
需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本发明不做限定。
关于本实施例中的存储节点,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,且能够达到相同的技术效果,此处将不做详细阐述说明。
本发明再一实施例提供一种负载均衡设备,用于执行上述负载均衡设备侧实施例提供的方法,该负载均衡设备可以为三层交换机,也可以是其他负载均衡设备。
如图10所示,为本实施例提供的负载均衡设备的结构示意图。该负载均衡设备80包括:第一存储器81、第一收发器82及至少一个第一处理器83。
其中,第一处理器、第一存储器与第一收发器通过电路互联;第一存储器存储计算机执行指令;第一收发器,用于接收客户端发送的业务请求;至少一个第一处理器执行第一存储器存储的计算机执行指令,使得至少一个第一处理器执行如上任一负载均衡设备侧实施例提供的方法。
具体的,客户端基于存储集群对外提供的唯一业务IP地址向该负载均衡设备发送业务请求,该负载均衡设备的第一收发器接收客户端发送的业务请求,发送给第一处理器,第一处理器读取并执行第一存储器存储的计算机执行指令,以实现如上任一负载均衡设备侧实施例提供的方法。
第一处理器还可以基于预设负载均衡策略将客户端发送的业务请求通过第一收发器转发到相应的健康存储节点进行处理。
需要说明的是,本实施例的负载均衡设备能够实现上述任一负载均衡设备侧实施例提供的方法,且能够达到相同的技术效果,在此不再赘述。
本发明又一实施例提供一种存储节点,用于执行上述存储节点侧实施例提供的方法,该存储节点可以是服务器或其他可实现的计算机设备,该存储节点作为存储集群中的一个存储节点。
如图11所示,为本实施例提供的存储节点的结构示意图。该存储节点90包括:第二存储器91、第二收发器92及至少一个第二处理器93。
其中,第二处理器、第二存储器与第二收发器通过电路互联;第二存储器存储计算机执行指令;第二收发器,用于接收负载均衡设备转发的客户端的业务请求;至少一个第二处理器执行第二存储器存储的计算机执行指令,使得至少一个第二处理器执行如上任一存储节点侧实施例提供的方法。
具体的,该存储节点在正常时,第二收发器可以接收负载均衡设备转发的客户端的业务请求,并可以响应客户端的业务请求进行存储业务处理。此外该存储节点还通过自身的BFD线程与负载均衡设备建立BFD会话,进行双向转发探测,该存储节点的第二处理器读取并执行第二存储器存储的计算机执行指令,对自身存储业务状态进行检查,并与BFD线程联动,使得负载均衡设备能够快速感知该存储节点故障,及时将该存储节点进行故障隔离,并在该存储节点恢复正常后,能够快速将该存储节点投入使用,实现如上任一存储节点侧实施例提供的方法。
需要说明的是,本实施例的存储节点能够实现上述任一存储节点侧实施例提供的方法,且能够达到相同的技术效果,在此不再赘述。
本发明实施例提供的负载均衡设备及存储节点可以应用于任意需要存储大量图片、视频等对象数据的场景,负载均衡设备可以由三层交换机实现,在三层交换机上配置等价静态路由和BFD探测模块,用于接收客户端发送的业务请求,基于预设负载均衡策略路由到存储集群中的相应存储节点,并且基于BFD探测模块,可以实时地或周期性地与各存储节点进行双向探测,以对存储节点的健康情况进行检测,当存储节点因整体故障、存储业务故障等各种原因故障时,负载均衡设备可以快速感知存储节点故障,及时将存储节点进行故障隔离,从而将故障检测及隔离过程的时间降低到毫秒级,有效提高存储节点故障检测效率,并能在存储节点恢复后,自动恢复该存储节点处理存储业务的功能,从而提高存储系统的可靠性。
在一些实施例中,本发明还提供一种集群存储系统,该系统包括:第一负载均衡设备和至少一个存储节点。
其中,存储节点,用于获取存储业务的状态,存储业务的状态包括正常和不正常两种状态;若所述存储业务的状态为不正常,则将与第一负载均衡设备之间的BFD会话down掉;第一负载均衡设备,用于获取与存储节点的BFD会话状态,若所述BFD会话状态为down,则将所述存储节点对应的路由信息从路由表中删除,以将所述存储节点进行故障隔离。
进一步地,存储节点,还用于若所述存储业务的状态恢复正常,则向所述第一负载均衡设备发送BFD控制报文;所述第一负载均衡设备,还用于若接收到所述存储节点发送的BFD控制报文,则建立与所述存储节点的BFD会话;并将所述存储节点对应的路由信息加入到所述路由表中,以将所述存储节点恢复使用。
进一步地,为了避免第一负载均衡设备的单点故障,该系统还可以包括:第二负载均衡设备,用于与第一负载均衡设备形成双机热备;所述存储节点,还用于在第二预设时间内未收到所述第一负载均衡设备的BFD控制报文时,将与所述第一负载均衡设备之间的BFD会话down掉,并与第二负载均衡设备建立BFD会话。
需要说明的是,各负载均衡设备及存储节点的具体操作以在前述实施例进行了详细说明,在此不再赘述。
可选地,该存储系统还可以包括至少一个客户端。
示例性的,如图12所示,为本实施例提供的集群存储系统的一种示例性架构示意图,该存储系统包括一个负载均衡设备(可称为第一负载均衡设备),该存储系统的第一负载均衡设备以三层交换机为例,该存储系统包括客户端、三层交换机和M个存储节点,三层交换机上配置有等价静态路由,M个存储节点形成存储集群,存储集群对外提供唯一的对外业务IP地址,通过三层交换机上的等价静态路由实现负载均衡,比如存储集群提供的对外业务IP地址为1.1.1.1,存储节点和三层交换机互联的接口的IP地址为192.168.1.x/24,则需要在三层交换机上配置如下静态路由:
ip route-static 1.1.1.1 32 192.168.1.1
ip route-static 1.1.1.1 32 192.168.1.2
ip route-static 1.1.1.1 32 192.168.1.M
然后,在三层交换机上,需要将1.1.1.1/32这个路由发布出去,让客户端能访问到存储集群的这个对外业务IP地址。
在等价静态路由配置过程中,三层转发设备的静态路由加入BFD探测,当存储节点正常的时候,BFD会话保持up状态,对应的静态路由有效,示例性的配置实例如下:
ip route-static 1.1.1.1 32 192.168.1.1track bfd-session bfd_to_1
ip route-static 1.1.1.1 32 192.168.1.2track bfd-session bfd_to_2
ip route-static 1.1.1.1 32 192.168.1.M track bfd-session bfd_to_M
存储节点中嵌入BFD线程,该BFD线程与三层交换机的BFD探测模块保持双向BFD探测,一旦存储节点探测到自身业务异常,立即关闭BFD会话,使三层交换机快速感知到该存储节点故障,这个感知时间在100毫秒内,三层交换机立即将该存储节点的静态路由信息从路由表中删除,业务请求被转发到其他正常的存储节点上;如果存储节点整体故障,比如断电、整机重启等,BFD会话也会down掉,三层交换机同样能够快速感知到该存储节点故障,及时将该存储节点进行故障隔离;当故障的存储节点恢复正常后,BFD会话up起来,恢复后的存储节点又可以快速投入使用,分担处理客户端的业务请求。
在一些实施例中,示例性的,如图13所示,为本实施例提供的存储系统的另一种示例性架构示意图,该存储系统配置有两个负载均衡设备,可以分别称为第一负载均衡设备和第二负载均衡设备,第一负载均衡设备和第二负载均衡设备分别以三层交换机A和三层交换机B为例,两个三层交换机堆叠,形成冗余热备(即双机热备),以解决负载均衡设备的单点故障问题,进一步提高存储系统的可靠性。
如图14所示,为现有技术的存储系统的架构示意图,现有存储系统包括客户端、专用的DNS服务器、健康检查服务器和存储集群,客户端向专用的DNS服务器发起存储节点IP请求,DNS服务器从节点列表中确定一个正常的存储节点X,将其IP返回给客户端,客户端与存储节点X进行通信完成业务,健康检查服务器对存储集群内所有存储节点轮询调度进行健康检查,针对某个存储节点,比如存储节点C出现故障时,健康检查服务器通知DNS服务器,DNS服务器将存储节点C的IP地址作废,当有客户端重新发起域名解析时,DNS服务器向该客户端返回健康的存储节点的IP地址;本发明的存储系统,相对于现有存储系统来说,一方面不需要独立部署DNS服务器和健康检查服务器,系统结构简单;另一方面本发明的存储系统存储集群可以隐藏内部地址,而只需对外提供唯一的对外业务IP地址即可,提高存储系统的安全性;再一方面,在存储节点故障时,与BFD探测联动,能够快速感知并能及时切走业务流量,切换过程可以达到毫秒级别,当故障的存储节点恢复后,能自动快速地恢复该存储节点处理业务的功能,提高存储系统的自动化程度;又一方面本发明的存储系统存储节点自身健康检查,不存在单点故障,可靠性高,且三层交换机采用冗余热备技术,进一步提高存储系统的可靠性。
本发明又一实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上任一实施例提供的方法。
需要说明的是,本实施例的计算机可读存储介质能够实现上述任一实施例提供的方法,且能够达到相同的技术效果,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置(即负载均衡设备和存储节点)和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (14)

1.一种存储集群节点故障的处理方法,适用于负载均衡设备,其特征在于,包括:
获取与第一存储节点的BFD会话状态,所述BFD会话状态为第一存储节点根据预设业务状态实时或周期性的检查自身的存储业务状态确定的,若所述存储业务的状态为不正常,则第一存储节点通过主动控制自身的BFD线程退出以将与第一负载均衡设备之间的BFD会话down掉;
若所述BFD会话状态为down,则将所述第一存储节点对应的路由信息从路由表中删除,以将所述第一存储节点进行故障隔离,所述负载均衡设备和第一存储节点上均配置有用于进行双向健康检测的BFD探测模块;
其中,第一存储节点根据预设业务状态检查自身的存储业务状态确定的,具体包括:采用读业务状态检查方式获取读业务的第一状态;
采用写业务状态检查方式获取写业务的第二状态;
采用查询业务状态检查方式获取查询业务的第三状态;
若所述第一状态、所述第二状态和所述第三状态中有至少一个状态为不正常,则确定存储业务的状态为不正常。
2.根据权利要求1所述的方法,其特征在于,在将所述第一存储节点对应的路由信息从路由表中删除之后,所述方法还包括:
若接收到所述第一存储节点发送的BFD控制报文,则建立与所述第一存储节点的BFD会话;
将所述第一存储节点对应的路由信息加入到所述路由表中,以将所述第一存储节点恢复使用。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在与所述第一存储节点建立BFD会话后,若在第一预设时间内未收到所述第一存储节点发送的BFD控制报文,则将所述BFD会话状态更新为down。
4.一种存储集群节点故障的处理方法,适用于存储集群中的存储节点,其特征在于,包括:
实时或周期性的采用预设业务状态检查方式获取存储业务的状态,存储业务的状态包括正常和不正常两种状态;
若所述存储业务的状态为不正常,则通过主动控制自身的BFD线程退出以将与第一负载均衡设备之间的BFD会话down掉,以使所述第一负载均衡设备将对应的路由信息从路由表中删除,所述第一负载均衡设备和第一存储节点上均配置有用于进行双向健康检测的BFD探测模块;
其中,所述采用预设业务状态检查方式获取存储业务的状态,包括:
采用读业务状态检查方式获取读业务的第一状态;
采用写业务状态检查方式获取写业务的第二状态;
采用查询业务状态检查方式获取查询业务的第三状态;
若所述第一状态、所述第二状态和所述第三状态中有至少一个状态为不正常,则确定存储业务的状态为不正常。
5.根据权利要求4所述的方法,其特征在于,在若存储业务的状态为不正常,则将与第一负载均衡设备之间的BFD会话down掉之后,所述方法还包括:
若存储业务的状态恢复正常,则向所述第一负载均衡设备发送BFD控制报文,以使所述第一负载均衡设备将对应的路由信息加入到所述路由表中。
6.根据权利要求4-5任一项所述的方法,其特征在于,所述方法还包括:
若在第二预设时间内未收到所述第一负载均衡设备的BFD控制报文,则将与所述第一负载均衡设备之间的BFD会话down掉,并与第二负载均衡设备建立BFD会话,所述第二负载均衡设备上配置有用于进行双向健康检测的BFD探测模块。
7.一种具有进行双向健康检测功能的负载均衡设备,其特征在于,包括:
第一获取模块,用于获取与配置有用于进行双向健康检测的BFD探测模块的第一存储节点的BFD会话状态,所述BFD会话状态为第一存储节点根据预设业务状态实时或周期性的检查自身的存储业务状态确定的,若所述存储业务的状态为不正常,则第一存储节点通过主动控制自身的BFD线程退出以将与第一负载均衡设备之间的BFD会话down掉;
第一处理模块,用于若所述BFD会话状态为down,则将所述第一存储节点对应的路由信息从路由表中删除,以将所述第一存储节点进行故障隔离;
其中,第一存储节点根据预设业务状态检查自身的存储业务状态确定的,具体包括:采用读业务状态检查方式获取读业务的第一状态;
采用写业务状态检查方式获取写业务的第二状态;
采用查询业务状态检查方式获取查询业务的第三状态;
若所述第一状态、所述第二状态和所述第三状态中有至少一个状态为不正常,则确定存储业务的状态为不正常。
8.根据权利要求7所述的设备,其特征在于,还包括第一会话建立模块;
所述第一会话建立模块,用于若接收到所述第一存储节点发送的BFD控制报文,则建立与所述第一存储节点的BFD会话;
所述第一处理模块,还用于将所述第一存储节点对应的路由信息加入到所述路由表中,以将所述第一存储节点恢复使用。
9.一种具有进行双向健康检测功能的存储节点,其特征在于,包括:
第二获取模块,用于实时或周期性的采用预设业务状态检查方式获取存储业务的状态,存储业务的状态包括正常和不正常两种状态;
第二处理模块,用于若所述存储业务的状态为不正常,则通过主动控制自身的BFD线程退出以将与配置有用于进行双向健康检测的BFD探测模块的第一负载均衡设备之间的BFD会话down掉,以使所述第一负载均衡设备将对应的路由信息从路由表中删除;
其中,所述采用预设业务状态检查方式获取存储业务的状态,包括:
采用读业务状态检查方式获取读业务的第一状态;
采用写业务状态检查方式获取写业务的第二状态;
采用查询业务状态检查方式获取查询业务的第三状态;
若所述第一状态、所述第二状态和所述第三状态中有至少一个状态为不正常,则确定存储业务的状态为不正常。
10.根据权利要求9所述的存储节点,其特征在于,还包括:
发送模块,用于若所述存储业务的状态恢复正常,则向所述第一负载均衡设备发送BFD控制报文,以使所述第一负载均衡设备将对应的路由信息加入到所述路由表中。
11.根据权利要求9或10所述的存储节点,其特征在于,所述第二处理模块,还用于若在第二预设时间内未收到所述第一负载均衡设备的BFD控制报文,则将与所述第一负载均衡设备之间的BFD会话down掉,并与配置有用于进行双向健康检测的BFD探测模块的第二负载均衡设备建立BFD会话。
12.一种集群存储系统,其特征在于,包括:具有进行双向健康检测功能的第一负载均衡设备和至少一个具有进行双向健康检测功能的存储节点;
存储节点,用于实时或周期性的采用预设业务状态检查方式获取存储业务的状态,存储业务的状态包括正常和不正常两种状态;若所述存储业务的状态为不正常,则通过主动控制自身的BFD线程退出以将与第一负载均衡设备之间的BFD会话down掉;
第一负载均衡设备,用于获取与存储节点的BFD会话状态,若所述BFD会话状态为down,则将所述存储节点对应的路由信息从路由表中删除,以将所述存储节点进行故障隔离;
其中,所述采用预设业务状态检查方式获取存储业务的状态,包括:
采用读业务状态检查方式获取读业务的第一状态;
采用写业务状态检查方式获取写业务的第二状态;
采用查询业务状态检查方式获取查询业务的第三状态;
若所述第一状态、所述第二状态和所述第三状态中有至少一个状态为不正常,则确定存储业务的状态为不正常。
13.根据权利要求12所述的系统,其特征在于,存储节点,还用于若所述存储业务的状态恢复正常,则向所述第一负载均衡设备发送BFD控制报文;
所述第一负载均衡设备,还用于若接收到所述存储节点发送的BFD控制报文,则建立与所述存储节点的BFD会话;并将所述存储节点对应的路由信息加入到所述路由表中,以将所述存储节点恢复使用。
14.根据权利要求12或13所述的系统,其特征在于,还包括:具有进行双向健康检测功能的第二负载均衡设备,用于与第一负载均衡设备形成双机热备;
所述存储节点,还用于在第二预设时间内未收到所述第一负载均衡设备的BFD控制报文时,将与所述第一负载均衡设备之间的BFD会话down掉,并与第二负载均衡设备建立BFD会话。
CN202110374752.4A 2021-04-08 2021-04-08 存储集群节点故障的处理方法、设备及存储系统 Active CN113132159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110374752.4A CN113132159B (zh) 2021-04-08 2021-04-08 存储集群节点故障的处理方法、设备及存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110374752.4A CN113132159B (zh) 2021-04-08 2021-04-08 存储集群节点故障的处理方法、设备及存储系统

Publications (2)

Publication Number Publication Date
CN113132159A CN113132159A (zh) 2021-07-16
CN113132159B true CN113132159B (zh) 2023-04-25

Family

ID=76775213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110374752.4A Active CN113132159B (zh) 2021-04-08 2021-04-08 存储集群节点故障的处理方法、设备及存储系统

Country Status (1)

Country Link
CN (1) CN113132159B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114301763A (zh) * 2021-12-15 2022-04-08 山石网科通信技术股份有限公司 分布式集群故障的处理方法及系统、电子设备及存储介质
CN114363342A (zh) * 2021-12-30 2022-04-15 科大讯飞股份有限公司 故障收敛方法及其相关装置和负载均衡集群
CN117278345B (zh) * 2023-11-20 2024-02-13 新华三技术有限公司 应用于网络设备的节能方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075921A (zh) * 2007-07-20 2007-11-21 华为技术有限公司 一种双向转发检测会话的处理方法及装置
CN103259685A (zh) * 2013-05-24 2013-08-21 杭州华三通信技术有限公司 检测链路故障的方法及网络设备
CN104901881A (zh) * 2015-04-30 2015-09-09 华为技术有限公司 路由设备、负载均衡设备、消息分发方法及系统
CN109660626A (zh) * 2018-12-29 2019-04-19 天翼电子商务有限公司 一种负载均衡方法、系统及负载均衡监控端
CN110908872A (zh) * 2019-11-29 2020-03-24 杭州迪普科技股份有限公司 一种服务器状态检测方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961601B2 (en) * 2007-08-16 2011-06-14 Ericsson Ab Lesser disruptive open shortest path first handling of bidirectional forwarding detection state changes
US7921219B2 (en) * 2008-08-19 2011-04-05 Cisco Technology, Inc. Maintaining protocol adjacency state with forwarding failure
US8953460B1 (en) * 2012-12-31 2015-02-10 Juniper Networks, Inc. Network liveliness detection using session-external communications
CN105591768B (zh) * 2014-10-21 2019-11-29 中兴通讯股份有限公司 故障检测方法及装置
US10069708B2 (en) * 2015-03-02 2018-09-04 Cisco Technology, Inc. Monitoring through S-BFD (seamless bidirectional forwarding detection)
US10200264B2 (en) * 2016-05-31 2019-02-05 128 Technology, Inc. Link status monitoring based on packet loss detection
CN109039746B (zh) * 2018-08-07 2022-02-25 新华三技术有限公司 检测双向转发路径检测会话状态的方法及处理器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075921A (zh) * 2007-07-20 2007-11-21 华为技术有限公司 一种双向转发检测会话的处理方法及装置
CN103259685A (zh) * 2013-05-24 2013-08-21 杭州华三通信技术有限公司 检测链路故障的方法及网络设备
CN104901881A (zh) * 2015-04-30 2015-09-09 华为技术有限公司 路由设备、负载均衡设备、消息分发方法及系统
CN109660626A (zh) * 2018-12-29 2019-04-19 天翼电子商务有限公司 一种负载均衡方法、系统及负载均衡监控端
CN110908872A (zh) * 2019-11-29 2020-03-24 杭州迪普科技股份有限公司 一种服务器状态检测方法及系统

Also Published As

Publication number Publication date
CN113132159A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113132159B (zh) 存储集群节点故障的处理方法、设备及存储系统
EP3373547B1 (en) Method for realizing disaster tolerance backup
US7518983B2 (en) Proxy response apparatus
US8489913B2 (en) Network system and network relay apparatus
CN113328894B (zh) 基于cu分离的双机热备的方法及设备
US9385944B2 (en) Communication system, path switching method and communication device
JP4922972B2 (ja) 通信システム
CN112787960B (zh) 一种堆叠分裂的处理方法、装置、设备及存储介质
JP4895972B2 (ja) リングプロトコル高速切替方法およびその装置
JP6383232B2 (ja) 中継システムおよびスイッチ装置
CN111953808A (zh) 一种双机双活架构的数据传输切换方法及架构构建系统
US7184394B2 (en) Routing system providing continuity of service for the interfaces associated with neighboring networks
CN114301763A (zh) 分布式集群故障的处理方法及系统、电子设备及存储介质
CN105915455B (zh) 位置标识分离协议多归属实现方法及装置
CN113055236B (zh) 集群业务节点故障的处理方法、装置、设备及存储介质
CN113765783B (zh) 通信方法及装置
CN111917590B (zh) 制造物联网网关主备倒换数据包mac表处理装置及方法
CN115643237B (zh) 一种用于会议的数据处理系统
CN113805788B (zh) 一种分布式存储系统及其异常处理方法和相关装置
JP2804876B2 (ja) 多重系装置を含むネットワークシステムの通信方法
JP2016134749A (ja) Dhcpサーバ
KR20010090635A (ko) 다중화 서버 시스템을 위한 통신 시스템 및 방법
CN117544665A (zh) 边缘节点的管理方法、装置、电子设备及可读存储介质
CN116743614A (zh) 一种实现nfv的nat网关高可靠性的方法及装置
JP2008242685A (ja) フェイルオーバ方法、クラスタシステム、情報処理装置、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant