CN113169895A - 用于具有低时延故障转移的虚拟化服务的n+1冗余 - Google Patents
用于具有低时延故障转移的虚拟化服务的n+1冗余 Download PDFInfo
- Publication number
- CN113169895A CN113169895A CN201980076569.7A CN201980076569A CN113169895A CN 113169895 A CN113169895 A CN 113169895A CN 201980076569 A CN201980076569 A CN 201980076569A CN 113169895 A CN113169895 A CN 113169895A
- Authority
- CN
- China
- Prior art keywords
- node
- address
- standby
- network
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/148—Migration or transfer of sessions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/142—Managing session states for stateless protocols; Signalling session states; State transitions; Keeping-state mechanisms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/143—Termination or inactivation of sessions, e.g. event-controlled end of session
- H04L67/145—Termination or inactivation of sessions, e.g. event-controlled end of session avoiding end of session, e.g. keep-alive, heartbeats, resumption message or wake-up for inactive or interrupted session
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/146—Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
Abstract
为服务器集群提供了故障转移保护,该服务器集群包括备用节点和支持用户会话的多个主节点。当该备用节点确定集群中的主节点已经发生故障时,该备用节点配置其网络接口以使用故障主节点的互联网协议(IP)地址。该备用节点还从针对集群的低时延数据库中取回由故障主节点支持的用户会话的会话数据,并在备用节点处恢复该用户会话。当该用户会话被恢复时,该备用节点从备用模式切换到活动模式。
Description
相关申请的交叉引用
本申请要求于2018年12月13日提交的美国临时申请No.62/779313和2018年11月21日提交的美国临时申请No.62/770550的优先权。这些参考文献中的每一个的公开内容通过引用整体并入本文。
技术领域
本公开总体上涉及用于通信网络的故障保护,并且更具体地,涉及用于具有低时延故障转移的虚拟化服务的N+1冗余方案。
背景技术
在通信网络中负责处理用户业务的网络节点发生故障的情况下,存在用于维护服务的连续性的两个主要的故障保护方案。两个主要的保护方案是1+1保护和N+1保护。通过1+1保护,N个备用节点可用于N个网络节点来接管一个或多个故障主节点的功能。在1+1保护方案中,每个网络节点具有其自己的专用备用节点,该专用备用节点可以接管当前由其对应的网络节点处理的业务,而不会丢失会话。这被称为“热备用”。1+1保护的一个缺点是:它要求系统资源加倍。通过N+1保护,1个备用节点可用于N个网络节点来接管单个故障主节点的功能。然而,N+1冗余方案通常仅提供“冷备用”保护,使得由故障的网络节点处理的业务在切换时丢失。现有的N+1解决方案不能保留故障主节点的状态,从而导致现有会话的拆除。这是因为备用节点不专用于N个主节点中的任何特定主节点,因此没有在故障之后如何在备份节点中使任何一个主节点的状态可用的解决方案。最终,仅有的益处是容量不会在故障之后下降,但不会为正在进行的会话提供保护。
在基于虚拟路由器冗余协议(VRRP)的解决方案的情况下,备用节点可以接管故障主节点的互联网协议(IP)地址以及故障主节点的功能,但是这些解决方案不接管保留套接字的会话连续性所需的故障主节点的实时状态。此外,网络的运营商必须针对每个VRRP关系来配置具有单独IP地址的单独VRRP会话(即,针对每个被视为要保护的主节点,备用节点需要单独的VRRP上下文)。这样,较大集群中的配置开销使解决方案烦琐。
发明内容
本公开包括为包括备用节点和多个主节点在内的网络节点的集群提供N+1冗余的方法和装置。当备用节点确定集群中的主节点已经发生故障时,该备用节点配置该备用节点以使用故障主节点的IP地址。该备用节点还从针对集群的低时延数据库中取回与故障主节点相关联的用户会话的会话数据,并在备用节点处恢复该用户会话。当用户会话被恢复时,该备用节点从备用模式切换到活动模式。
本公开的第一方面包括为网络节点的集群提供N+1冗余的方法。在一个实施例中,该方法包括:由备用节点确定集群中的主节点已经发生故障;配置备用节点以使用故障主节点的IP地址;从针对集群的低时延数据库中取回与故障主节点相关联的用户会话的会话数据;在备用节点处恢复用户会话;以及从备用模式切换到活动模式。
本公开的第二方面包括一种网络节点,其被配置为备用节点以为包括该备用节点和多个主节点在内的网络节点的集群提供N+1保护。该备用节点包括用于通过通信网络进行通信的网络接口和处理电路。该处理电路被配置为确定集群中的主节点已经发生故障。响应于确定主节点已经发生故障,该处理电路配置备用节点以使用故障主节点的IP地址。该处理电路还被配置为从针对集群的低时延数据库中取回与故障主节点相关联的用户会话的会话数据,并在备用节点处恢复用户会话。在用户会话被恢复之后,该处理电路将备用节点从备用模式切换到活动模式。
本公开的第三方面包括一种计算机程序,该计算机程序包括可执行指令,该可执行指令在由网络节点中的冗余控制器中的处理电路执行时,使该冗余控制器执行根据第一方面的方法。
本公开的第四方面包括一种包含根据第三方面的计算机程序的载体,其中,所述载体是电信号、光信号、无线电信号或非暂时性计算机可读存储介质中的一种。
附图说明
图1示出了具有N+1冗余保护的服务器集群。
图2图示了故障转移。
图3示出了根据第一实施例的故障转移过程。
图4示出了根据第二实施例的故障转移过程。
图5示出了由备用节点实现的示例性故障转移方法。
图6示出了由主节点实现的示例性恢复方法。
图7示出了示例性网络节点。
具体实施方式
现在参考附图,图1示出了具有N+1冗余保护的服务器集群10,其实现了诸如媒体网关(MGW)功能或边界网关功能(BGF)之类的虚拟网络功能(VNF)。服务器集群10可以例如在通信网络(例如互联网协议多媒体子系统(IMS)网络或其他电信网络)中使用。服务器集群10包括多个网络节点,该多个网络节点包括用于处理用户会话的多个主节点12和在主节点12发生故障的情况下提供N+1保护的备用节点14。集群10中的网络节点12、14中的每一个网络节点可以由专用硬件和处理资源来实现。备选地,可以将网络节点12、14实现为使用共享硬件和处理资源的虚拟机(VM)。
用户会话(例如,电话呼叫、媒体流等)由负载均衡节点16在主节点12之间分配。协调器18管理服务器集群10。分布式低时延数据库20用作集群10的数据存储,以存储由主节点12处理的用户会话的状态,如下所述。Gabor Nemeth、Daniel Gehberger和Peter Matray在题为“DAL:A Locality-Optimizing Distributed Shared Memory System”的文章中描述了示例性分布式数据库20。(Gábor Németh、Daniel Géhberger和Péter Mátray.“{DAL}:A Locality-Optimizing Distributed Shared Memory System.”9th{USENIX}Workshopon Hot Topics in Cloud Computing(HotCloud 17).Santa Clara,CA-July 10-11,2017)。
网络节点12、14是具有公共IP前缀的同一子网的一部分。每个用户会话与特定的IP地址相关联,该特定的IP地址识别处理用户会话的用户业务的主节点12。用户会话的状态信息被存储在为服务器集群10提供服务的分布式低时延数据库20中。在主节点12发生故障的情况下,备用节点14可以取回由故障主节点12处理的用户会话的状态信息,并恢复“丢失”的用户会话,从而维护用户会话的服务连续性。
图2以简化形式示出了图1的服务器集群10,以图示故障转移过程的基本步骤。假设在图2中主节点1已经发生故障。在1处,备用节点14检测到故障,并且识别故障主节点12。在2处,备用节点从数据库20中取回主节点1的状态信息,并在备用节点14处重新创建用户会话。在3处,备用节点接管主节点1的IP地址,并配置其网络接口以使用该IP地址。在4处,备用节点通告IP地址的位置改变。此后,与IP地址1相关联的用户会话的业务将被路由到备用节点14而不是主节点1。
可以将本公开中使用的故障保护方案视为具有三个单独的阶段。在称为准备阶段的第一阶段中,构建冗余系统,使得该系统为主节点12的故障做好准备。第二阶段包括故障转移过程,在该故障转移过程中,备用节点14在检测到主节点12的故障时接管由故障主节点12处理的活动用户会话。在故障转移过程完成之后,故障后过程恢复由主节点12的故障所丢失的系统的容量和冗余,使得重新建立备份保护以防止将来的网络节点故障。
在准备阶段期间,由每个主节点12将恢复用户会话所必需的状态信息外部化并存储在数据库20中。常规的基于日志的方法或检查点可用于将状态信息外部化。在2018年11月21日提交的题为“时延敏感中间盒的快速会话恢复”的共同未决的申请62/770,550中描述了将状态信息进行外部化的另一种合适方法。要被存储在数据库20中的必要数据取决于应用和应用中使用的通信协议。对于TCP会话,这种状态信息可以包括端口号、计数器、序列号、传输控制协议(TCP)缓冲区窗口上的各种数据等。通常,继续用户会话所必需的所有状态信息都应被存储在外部。
为了确保备份容易地可用于替换已经发生故障的主节点12,预配置了“热”备用节点14并使其可用于接管故障主节点12的任何用户会话。在预配置期间,执行系统检查以确保:
·备用节点14的映像被引导;
·备用节点14的操作系统已启动并正在运行;
·备用节点14具有通向数据库20的实时连接;以及
·备用节点14与其他实例共享相同配置,并连接到相同的下一跳路由器。
事先不知道哪个主节点12将发生故障,然而备用节点14准备从数据库20中获取必要的状态信息以接管任何一个主节点12。该备用模式在本文中称为“热”备用。
故障转移过程由主节点12之一的故障触发。在一些实施例中,备用节点12基于“心跳”或“保活”信令来检测故障。在一些实施例中,主节点12可以周期性地发送“心跳”信号,并且当备用节点14未接收到心跳信号时检测到故障。在其他实施例中,备用节点14可以周期性地向每个主节点12发送“保活”信号或“ping”消息。在这种情况下,当主节点12未能响应时检测到故障。该“保活”信令过程应该在备用节点14和每个主节点12之间连续成对运行。
在其他实施例中,主节点12的故障可以由另一个网络实体检测,并以故障通知的形式传送给备用节点14。例如,一个主节点12可以检测另一个主节点12的故障并向备用节点14发送故障通知。在另一个实施例中,数据库20可以检测主节点12的故障,并且向备用节点14发送故障通知。
当触发故障转移时,备用节点14取回故障主节点12的一个或多个IP地址以及在备用节点14处重新发起用户会话所必需的会话状态(例如,与应用和协议相关的上下文数据)。在一些实施例中,备用节点14将故障主节点12的网络标识(例如,IP地址)写入被称为STDBY-IDENTITY的全局键中,该全局键被存储在数据库20中,使得服务器集群10中的所有节点都意识到备用节点14已经承担了故障主节点12的角色。响应于故障检测或故障指示,备用节点14配置其网络接口以使用故障主节点12的一个或多个IP地址,并将取回到的会话状态加载到其自己的表中。当备用节点14准备好接管时,备用节点14广播具有其自己的媒体访问控制(MAC)地址及其新配置的IP地址的免费地址解析协议(GARP)消息,以便子网中的路由器知道将具有故障主节点12以前使用的IP地址的分组转发到备用节点的MAC地址。相同的一般原则也适用于互联网协议版本6(IPv6)接口(未经请求的邻居通告消息)。
在故障后阶段期间,恢复具有N个主节点12和1个备用节点14的服务器集群10的原始容量。基本上存在恢复系统容量的两种备选方法。
在用于故障后阶段的第一方法中,备用节点14从备用模式切换到活动模式,并且仅临时地用作主节点,当完成后恢复为“热”备用模式。备用节点14仅服务于从故障主节点12接管的用户会话,并且没有由负载均衡节点16分配为处理任何新的用户会话。当协调器18了解到主节点12的故障时,协调器18根据常规的横向扩展(scale-out)过程重新建立新的主节点12,以替换故障主节点12,并恢复系统容量。协调器18应该确保保留由用户平面上故障主节点12使用的IP地址,因为这些地址由备用节点14接管。在基于OpenStack的协调器18的情况下,保留IP地址意味着当故障主节点12消失时不应删除“端口”。然而,这要求垃圾收集。备用节点14在其终止时向协调器18发送触发,该触发指示可以删除由受影响的IP地址使用的端口。在该通知之后,可以将IP地址分配给新的网络节点(例如VNF)。
在故障后阶段期间,负载均衡节点18的操作需要考虑故障主节点12。然而,在故障之后,负载均衡节点18没有立即将新的输入会话分配给故障主节点12或备用节点14。如上所述,备用节点14继续服务于从故障主节点12接管的现有用户会话,但是不接收新的会话。在最后一个会话在备用节点14处完成之后,或者在定时器(MAX_STANDBY_LIFETIME)到期时,备用节点14擦除或清除数据库20中的STDBY_IDENTITY字段,向协调器18发送指示可以释放X的IP地址的通知,并且转换回“热”备用模式。当备用节点14接管故障主节点12时,启动MAX_STANDBY_LIFETIME定时器(如果使用)。
在用于故障后阶段的第二方法中,备用节点14永久承担故障主节点12的角色,并且协调器通过启动新的备用节点14来重新建立系统容量。在这种情况下,备用节点14向协调器18发送通知消息或其他指示,指示故障主节点12的IP地址已由备用节点14承担或接管,以便协调器18知道(i)该IP地址属于哪个主节点12,以及(ii)在横向扩展的情况下,这些IP地址不能用于主节点12的新实例。备用节点14(现在完全是主节点12)触发协调器18以启动用于备用节点14的新实例以恢复原始冗余保护。
可以存在以下情况:通常因为VM重新启动,主节点12仅暂时发生故障。在重新启动之后,主节点12可以尝试使用其较早的IP地址,这将引起与服务于与那些地址相关联的正在进行的用户会话的备用节点14的冲突。在重新启动之前,主节点读取数据库20中的STDBY_IDENTITY键。如果STDBY_IDENTITY键与主节点12的标识匹配,则主节点12暂停并等待,直到该键被擦除,指示由备用节点使用的IP地址已经被释放,或者向协调器18请求新的配置参数。
图3示出了在本公开的一些实施例中使用的示例性故障转移过程。当备用节点14检测到节点故障或接收到故障通知时(步骤1),它将故障主节点12的网络标识(例如,IP地址)写入数据库20中存储的全局键STDBY-IDENTITY中(步骤2)。备用节点14向数据库20发送GET消息,以请求针对故障主节点12的会话信息(步骤3)。响应于GET消息,数据库20向备用节点14发送故障主节点12的会话数据(步骤4)。如前所述,备用节点14配置其网络接口以使用故障主节点12的IP地址,并向网络广播GARP消息(步骤5)。在广播GARP消息时,网络中的路由器将先前发送到故障主节点12的消息路由到备用节点14,并且备用节点14将处理故障主节点12的用户会话。当负载均衡节点16被通知主节点12的故障时,负载均衡节点16将主节点12从其主节点12的列表中移除,以便不将新会话分配给故障主节点12(步骤6)。此外,当协调器18被通知主节点12的故障时,协调器18实例化主节点12的新实例以替换故障主节点12(步骤7)。
在图3所示的实施例中,假设备用节点14仅临时是活动的并且在备用定时器到期时或在备用节点14所承担的最后一个会话结束之后返回备用模式。在这种情况下,当备用定时器到期时(步骤8),或者当最后一个用户会话结束时,备用节点14向协调器18发送释放通知消息,以释放备用节点14所承担的IP地址,以便该IP地址可用于重新分配(步骤9)。备用节点14还清除数据库20中存储的备用标识键(步骤10)。
图4示出了在本公开的一些实施例中使用的另一示例性故障转移过程,其中备用14永久地替换故障主节点12。步骤1至6与图3所示的故障转移过程相同。在变为活动之后,备用节点14向协调器18和/或负载均衡节点16发送通知消息,以向协调器18和/或负载均衡节点16通知它已接管故障主节点12的IP地址(步骤7)。然后,协调器18实例化备用节点14的新实例以替换先前的备用节点14(步骤8)。在一些实施例中,协调器18可以向负载均衡节点16通知备用节点18现在被指定为主节点12。负载均衡节点16响应于来自备用节点14或协调器18的通知,将备用节点14添加到其可用主节点12的列表中(步骤9)。
图5示出了由包括多个主节点12在内的服务器集群10中的备用节点14实现的示例性方法100。当备用节点14确定集群10中的主节点12已经发生故障时(框110),备用节点12配置其网络接口以使用故障主节点12的IP地址(框120)。备用节点14还从针对集群的低时延数据库中取回与故障主节点12相关联的用户会话的会话数据(框130),并在备用节点14处恢复用户会话(框140)。当用户会话被恢复时,备用节点14从备用模式切换到活动模式(框150)。
在方法100的一些实施例中,确定集群10中的主节点12已经发生故障包括:向集群10中的一个或多个主节点12发送周期性的保活消息;以及当故障主节点12未能响应保活消息时确定节点故障。
在方法100的一些实施例中,确定集群中的主节点12已经发生故障包括接收故障通知。作为示例,可以从数据库20接收故障通知。
在方法100的一些实施例中,配置备用节点14以使用故障主节点12的IP地址包括:配置网络接口以使用故障主节点12的IP地址。
在方法100的一些实施例中,配置备用节点14以使用故障主节点12的IP地址还包括:宣布IP地址和备用节点14的MAC地址之间的绑定。
方法100的一些实施例还包括将数据库中的备用标识键设置为故障主节点12的标识。
方法100的一些实施例还包括:在用户会话中的最后一个用户会话结束之后,释放故障主节点12的IP地址,并从活动模式切换到备用模式。
方法100的一些实施例还包括:在用户会话中的最后一个用户会话结束之后,清除数据库20中的备用标识键。
方法100的一些实施例还包括:向协调器18通知备用节点14已经替换了故障主节点12,并且从负载均衡节点16接收新的用户会话。
图6示出了在主节点12的临时故障之后由网络节点的集群10中的主节点12实现的故障恢复的示例性方法200。在主节点12重新启动之后,主节点12确定网络节点的集群10中的备用节点14是否正在使用主节点12的IP地址(框210)。在确定IP地址正在由备用节点14使用时,主节点12获得新的IP地址或等待要由备用节点14释放的IP地址(框220)。在前一种情况下,主节点12使用新的IP地址来重新配置其网络接口,并返回到活动模式(框230、250)。在后一种情况下,主节点12检测由备用节点14对IP地址的释放(框240),并且响应于这种检测,返回到活动模式(框250)。
在方法200的一个实施例中,主节点12通过以下方式来确定网络节点的集群10中的备用节点14是否正在使用主节点12的IP地址:从服务于网络节点的集群10的数据库20中获取备用标识,并将该备用标识与主节点12的标识进行比较。
在方法200的另一个实施例中,主节点12通过以下方式来确定何时释放IP地址:监视数据库20中存储的备用标识并确定在清除或擦除备用标识时IP地址被释放。
图7示出了根据实施例的示例性网络节点30。网络节点30可以被配置为主节点12或备用节点14。网络节点30包括用于通过通信网络来发送和接收消息的网络接口32、处理电路34和存储器36。处理电路34可以包括一个或多个微控制器、微处理器、硬件电路、固件或其组合。存储器36包括易失性和非易失性存储器这二者,用于存储处理电路34进行操作所需的计算机程序代码和数据。存储器36可以包括用于存储数据的任何有形的非暂时性计算机可读存储介质,包括电、磁、光、电磁或半导体数据存储装置。存储器36存储包括可执行指令在内的计算机程序38,所述可执行指令配置处理电路34以实现本文所述的过程和方法,包括在图5和图6中所示的方法100、200中的一个或多个。在这方面,计算机程序38可以包括与上述装置或单元相对应的一个或多个代码模块。通常,计算机程序指令和配置信息被存储在非易失性存储器中,例如ROM、可擦除可编程只读存储器(EPROM)或闪存。在操作期间生成的临时数据可以被存储在易失性存储器中,例如随机存取存储器(RAM)。在一些实施例中,用于配置本文所述的处理电路34的计算机程序38可以被存储在可移除存储器中,例如便携式光盘、便携式数字视频盘或其他可移除介质。计算机程序38还可以体现在诸如电信号、光信号、无线电信号或计算机可读存储介质之类的载体中。在一些实施例中,存储器38存储由处理电路34执行的用于将网络节点30实现为虚拟机的虚拟化代码。
本领域技术人员还将理解,本文的实施例还包括对应的计算机程序。计算机程序包括指令,所述指令当在装置的至少一个处理器上执行时使装置执行上述任何相应处理。在这方面,计算机程序可以包括与上述装置或单元相对应的一个或多个代码模块。
实施例还包括包含这样的计算机程序在内的载体。该载体可以包括电信号、光信号、无线电信号或计算机可读存储介质之一。
在这方面,本文的实施例还包括非暂时性的计算机可读(存储或记录)介质上存储的计算机程序产品,且该计算机程序产品包括指令,该指令当由装置的处理器执行时使装置如上所述地执行。
实施例还包括计算机程序产品,其包括程序代码部分,该程序代码部分用于在计算机程序产品由计算设备执行时执行本文的任何实施例的步骤。该计算机程序产品可以存储在计算机可读记录介质上。
本文描述的方法和装置使得能够为包括备用节点和多个主节点在内的网络节点的集群提供N+1冗余。当集群中的主节点已经发生故障时,可以在备用节点处恢复用户会话。当用户会话被恢复时,备用节点从备用模式切换到活动模式。
对所示实现的以上描述不是旨在穷尽性的或将本公开的范围限于所公开的精确形式。尽管本文出于说明性目的描述了特定的实现和示例,但是如本领域技术人员将认识到的,各种等效修改在本公开的范围内是可能的。本文中使用词语“示例”或“示例性”来表示用作示例、实例或说明。本文中描述为“示例”或“示例性”的任何方案或设计不必解释为相比其他方案或设计优选或者有利。
Claims (43)
1.一种为网络节点的集群(10)提供N+1冗余的方法(100),所述方法(100)包括:
由备用节点(14、30)确定(110)集群(10)中的主节点(12、30)已经发生故障;
配置(120)所述备用节点(14、30)以使用故障主节点(12、30)的互联网协议IP地址;
从针对所述集群(10)的低时延数据库(20)中取回(130)与所述故障主节点(12、30)相关联的用户会话的会话数据;
在所述备用节点(14、30)处恢复(140)所述用户会话;以及
从备用模式切换(150)到活动模式。
2.根据权利要求1所述的方法(100),其中,确定(110)集群(10)中的主节点(12、30)已经发生故障包括:
向所述集群(10)中的一个或多个主节点(12、30)发送周期性的保活消息;以及
当所述故障主节点(12、30)未能响应保活消息时,确定节点故障。
3.根据权利要求1所述的方法(100),其中,确定(110)集群(10)中的主节点(12、30)已经发生故障包括:接收故障通知。
4.根据权利要求3所述的方法(100),其中,所述故障通知是从外部数据库(20)接收的。
5.根据权利要求1至4中任一项所述的方法(100),其中,配置(120)所述备用节点(14、30)以使用所述故障主节点(12、30)的IP地址包括:配置网络接口(32)以使用所述故障主节点(12、30)的IP地址。
6.根据权利要求5所述的方法(100),其中,配置(120)所述备用节点(14、30)以使用所述故障主节点(12、30)的IP地址还包括:
宣布所述IP地址与所述备用节点(14、30)的媒体访问控制MAC地址之间的绑定。
7.根据权利要求1至6中任一项所述的方法(100),还包括:将所述数据库(20)中的备用标识键设置为所述故障主节点(12、30)的标识。
8.根据权利要求1至7中任一项所述的方法(100),还包括在所述用户会话中的最后一个用户会话结束之后:
释放所述故障主节点(12、30)的IP地址;以及
从所述活动模式切换到所述备用模式。
9.根据权利要求1至7中任一项所述的方法(100),还包括在备用定时器到期时:
释放所述故障主节点(12、30)的IP地址;以及
从所述活动模式切换到所述备用模式。
10.根据权利要求8或9中任一项所述的方法(100),还包括:在所述用户会话中的最后一个用户会话结束之后或者在备用定时器到期时,清除所述数据库(20)中的所述备用标识键。
11.根据权利要求1至7中任一项所述的方法(100),还包括:
向协调器(18)通知所述备用节点(14、30)已经替换了所述故障主节点(12、30);以及
从负载均衡节点(916)接收新的用户会话。
12.一种为集群(10)中的多个主节点(12、30)提供N+1保护的网络节点(14、30),所述网络节点(14、30)包括:
网络接口(32),被配置为将所述网络节点(14、30)连接到通信网络;以及
处理电路(34),被配置为:
确定所述集群(10)中的主节点(12、30)之一已经发生故障;
配置所述备用节点(14、30)以使用故障主节点(12、30)的互联网协议IP地址;
从针对所述集群(10)的低时延数据库(20)中取回与所述故障主节点(12、30)相关联的用户会话的会话数据;
在所述备用节点(14、30)处恢复所述用户会话;以及
从备用模式切换到活动模式。
13.根据权利要求12所述的网络节点(14、30),其中,所述处理电路(34)被配置为:
向所述集群(10)中的一个或多个主节点(12、30)发送周期性的保活消息;以及
当所述故障主节点(12、30)未能响应保活消息时,确定节点故障。
14.根据权利要求12所述的网络节点(14、30),其中,所述处理电路(34)被配置为接收指示主节点(12、30)已经发生故障的故障通知。
15.根据权利要求14所述的网络节点(14、30),其中,所述故障通知是从外部数据库(20)接收的。
16.根据权利要求12至15中任一项所述的网络节点(14、30),其中,所述处理电路(34)被配置为配置网络接口(32)以使用所述故障主节点(12、30)的IP地址。
17.根据权利要求16所述的网络节点(14、30),其中,所述处理电路(34)还被配置为宣布所述IP地址与所述备用节点(14、30)的媒体访问控制MAC地址之间的绑定。
18.根据权利要求12至17中任一项所述的网络节点(14、30),其中,所述处理电路(34)还被配置为将所述数据库(20)中的备用标识键设置为所述故障主节点(12、30)的标识。
19.根据权利要求12至18中任一项所述的网络节点(14、30),其中,所述处理电路(34)还被配置为在所述用户会话中的最后一个用户会话结束之后:
释放所述故障主节点(12、30)的IP地址;以及
从所述活动模式切换到所述备用模式。
20.根据权利要求12至18中任一项所述的网络节点(14、30),其中,所述处理电路(34)还被配置为在备用定时器到期时:
释放所述故障主节点(12、30)的IP地址;以及
从所述活动模式切换到所述备用模式。
21.根据权利要求19或20中任一项所述的网络节点(14、30),其中,所述处理电路(34)还被配置为:在所述用户会话中的最后一个用户会话结束之后或者在备用定时器到期时,清除所述数据库(20)中的所述备用标识键。
22.根据权利要求12至18中任一项所述的网络节点(14、30),其中,所述处理电路(34)还被配置为:
向协调器(18)通知所述备用节点(14、30)已经替换了所述故障主节点(12、30);以及
从负载均衡节点接收新的用户会话。
23.一种为集群(10)中的多个主节点(12、30)提供N+1保护的网络节点(14、30),所述网络节点(12、30)被配置为:
确定所述集群(10)中的主节点(12、30)之一已经发生故障;
配置所述备用节点(14、30)以使用故障主节点(12、30)的互联网协议IP地址;
从针对所述集群(10)的低时延数据库(20)中取回与所述故障主节点(12、30)相关联的用户会话的会话数据;
在所述备用节点(14、30)处恢复所述用户会话;以及
从备用模式切换到活动模式。
24.根据权利要求23所述的网络节点(14、30),被配置为执行根据权利要求2至11中任一项所述的方法。
25.一种包括可执行指令的计算机程序,所述可执行指令在由移动网络的网络节点中的处理电路(34)执行时,使所述网络节点执行根据权利要求1至11所述的方法中的任何一项。
26.一种包含根据权利要求25所述的计算机程序在内的载体,其中,所述载体是电信号、光信号、无线电信号或计算机可读存储介质之一。
27.一种包含计算机程序在内的非暂时性计算机可读存储介质,所述计算机程序包括可执行指令,所述可执行指令在由移动网络的网络节点中的处理电路(34)执行时,使所述网络节点执行根据权利要求1至11所述的方法中的任何一项。
28.一种由集群(10)中的主节点(12、30)进行的故障恢复的方法(200),所述方法包括:
在所述主节点(12、30)重新启动之后,确定(210)所述集群(10)中的备用节点(14、30)是否正在使用所述主节点(12、30)的IP地址;以及
在确定备用节点(14、30)正在使用所述IP地址时,获得(220)新的IP地址或等待要由所述备用节点(14、30)释放的所述IP地址。
29.根据权利要求28所述的方法(200),其中,确定(210)网络节点的所述集群(10)中的备用节点(14、30)是否正在使用所述主节点(12、30)的IP地址包括:
从服务于网络节点的所述集群(10)的数据库(20)中获取备用标识;以及
将所述备用标识与所述主节点(12、30)的标识进行比较。
30.根据权利要求28或29所述的方法(200),还包括:使用所述新的IP地址重新配置(230)所述主节点(12、30)的网络接口,并返回到活动模式。
31.根据权利要求28或29所述的方法(200),还包括:检测(240)由所述备用节点(14、30)对所述IP地址的释放,并且在检测到所述释放时返回(250)到活动模式。
32.一种在网络节点(12、14、30)的集群(10)中的网络节点(12、30),所述网络节点(12、30)包括:
网络接口(32),被配置为将所述网络节点连接到通信网络;以及
处理电路(34),被配置为:
在所述网络节点(12、30)重新启动之后,确定所述集群(10)中的备用节点(14、30)是否正在使用所述网络节点(12、30)的IP地址;以及
当确定备用节点(14、30)正在使用所述IP地址时,获得新的IP地址或等待要由所述备用节点(14、30)释放的所述IP地址。
33.根据权利要求32所述的网络节点(12、30),其中,确定网络节点的所述集群(10)中的备用节点(14、30)是否正在使用所述网络节点(12、30)的IP地址包括:
从服务于所述集群(10)的数据库(20)中获得备用标识;以及
将所述备用标识与所述网络节点(12、30)的标识进行比较。
34.根据权利要求32或33所述的网络节点(12、30),还包括:使用所述新的IP地址重新配置所述网络节点(12、30)的网络接口,并返回到活动模式。
35.根据权利要求28或29所述的网络节点(12、30),还包括:检测由所述备用节点(14、30)对所述IP地址的释放,并且在检测到所述释放时返回到活动模式。
36.一种为集群(10)中的多个主节点(12、30)提供N+1保护的网络节点(12、30),所述网络节点被配置为:
在所述网络节点(12、30)重新启动之后,确定所述集群(10)中的备用节点(14、30)是否正在使用所述网络节点的IP地址;以及
当确定备用节点(14、30)正在使用所述IP地址时,获得新的IP地址或等待要由所述备用节点(14、30)释放的所述IP地址。
37.根据权利要求36所述的网络节点(12、30),被配置为执行根据权利要求29至31中任一项所述的方法。
38.一种包括可执行指令在内的计算机程序产品,所述可执行指令在由移动网络的网络节点(12、30)中的处理电路(34)执行时,使所述网络节点(12、30)执行根据权利要求28至31所述的方法中的任何一项。
39.一种包含根据权利要求38所述的计算机程序在内的载体,其中,所述载体是电信号、光信号、无线电信号或计算机可读存储介质之一。
40.一种包含计算机程序在内的非暂时性计算机可读存储介质(36),所述计算机程序包括可执行指令,所述可执行指令在由移动网络的网络节点(12、30)中的处理电路(34)执行时,使所述网络节点(12、30)执行根据权利要求28至31所述的方法中的任何一项。
41.一种通信网络(10),包括:
多个主节点(12、30),被配置为处理用户业务;
低时延分布式数据库(20),被配置为存储与所述主节点(12、30)相关联的用户会话;以及
备用节点(30),被配置为:
确定集群(10)中的主节点(12、30)之一已经发生故障;
配置所述备用节点(14、30)以使用故障主节点(12、30)的互联网协议IP地址;
从针对所述集群(10)的低时延数据库(20)中取回与所述故障主节点(12、30)相关联的用户会话的会话数据;
在所述备用节点(14、30)处恢复所述用户会话;以及
从备用模式切换到活动模式。
42.根据权利要求41所述的通信网络(10),其中,所述备用节点(14、30)被配置为执行根据权利要求2至11中任一项所述的方法。
43.根据权利要求41或42所述的通信网络(10),其中,所述主节点(12、30)之一被配置为:
在所述主节点(12、30)重新启动之后,确定所述集群(10)中的备用节点(14、30)是否正在使用所述主节点(12、30)的IP地址;以及
在确定备用节点(14、30)正在使用所述IP地址时,获得新的IP地址或等待要由所述备用节点(14、30)释放的所述IP地址。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862770550P | 2018-11-21 | 2018-11-21 | |
US62/770,550 | 2018-11-21 | ||
US201862779313P | 2018-12-13 | 2018-12-13 | |
US62/779,313 | 2018-12-13 | ||
PCT/IB2019/060037 WO2020104992A1 (en) | 2018-11-21 | 2019-11-21 | N+1 redundancy for virtualized services with low latency fail-over |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113169895A true CN113169895A (zh) | 2021-07-23 |
Family
ID=68699490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980076569.7A Pending CN113169895A (zh) | 2018-11-21 | 2019-11-21 | 用于具有低时延故障转移的虚拟化服务的n+1冗余 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11917023B2 (zh) |
EP (2) | EP3884620A1 (zh) |
CN (1) | CN113169895A (zh) |
WO (2) | WO2020104992A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113891358A (zh) * | 2021-09-30 | 2022-01-04 | 阿里巴巴达摩院(杭州)科技有限公司 | 云网络的负载均衡方法、设备及存储介质 |
CN114301763A (zh) * | 2021-12-15 | 2022-04-08 | 山石网科通信技术股份有限公司 | 分布式集群故障的处理方法及系统、电子设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11917023B2 (en) | 2018-11-21 | 2024-02-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Fast session restoration for latency sensitive middleboxes |
CN112448858B (zh) * | 2021-02-01 | 2021-04-23 | 腾讯科技(深圳)有限公司 | 网络通信控制方法及装置、电子设备和可读存储介质 |
CN114422567A (zh) * | 2021-12-09 | 2022-04-29 | 阿里巴巴(中国)有限公司 | 数据请求的处理方法、装置、系统、计算机设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050172161A1 (en) * | 2004-01-20 | 2005-08-04 | International Business Machines Corporation | Managing failover of J2EE compliant middleware in a high availability system |
US20060294241A1 (en) * | 2005-06-24 | 2006-12-28 | Sanjay Cherian | Preserving sessions in a wireless network |
US20090254775A1 (en) * | 2008-04-02 | 2009-10-08 | International Business Machines Corporation | Method for enabling faster recovery of client applications in the event of server failure |
US20120236823A1 (en) * | 2011-03-18 | 2012-09-20 | Kompella Vachaspati P | System and method for failover handling at geo-redundant gateways |
CN102938705A (zh) * | 2012-09-25 | 2013-02-20 | 上海证券交易所 | 一种高可用多机备份路由表管理与切换方法 |
US20130107872A1 (en) * | 2004-02-13 | 2013-05-02 | Thomas Dean Lovett | Processor-memory module performance acceleration in fabric-backplane enterprise servers |
US20140301388A1 (en) * | 2013-04-06 | 2014-10-09 | Citrix Systems, Inc. | Systems and methods to cache packet steering decisions for a cluster of load balancers |
US20140344441A1 (en) * | 2013-05-16 | 2014-11-20 | Tektronix, Inc. | System and method for gtp session persistence and recovery |
US20160344821A1 (en) * | 2015-05-21 | 2016-11-24 | Dell Products, Lp | System and Method for Live Migration of Remote Desktop Session Host Sessions without Data Loss |
CN107454155A (zh) * | 2017-07-25 | 2017-12-08 | 北京三快在线科技有限公司 | 一种基于负载均衡集群的故障处理方法、装置以及系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7444335B1 (en) * | 2001-02-28 | 2008-10-28 | Oracle International Corporation | System and method for providing cooperative resource groups for high availability applications |
US20040107382A1 (en) | 2002-07-23 | 2004-06-03 | Att Corp. | Method for network layer restoration using spare interfaces connected to a reconfigurable transport network |
US7483374B2 (en) | 2003-08-05 | 2009-01-27 | Scalent Systems, Inc. | Method and apparatus for achieving dynamic capacity and high availability in multi-stage data networks using adaptive flow-based routing |
US7716274B1 (en) * | 2004-04-14 | 2010-05-11 | Oracle America, Inc. | State data persistence in a distributed computing environment |
US7916855B2 (en) | 2005-01-07 | 2011-03-29 | Cisco Technology, Inc. | System and method for storing and restoring communication dialog |
US8248916B2 (en) * | 2005-12-30 | 2012-08-21 | Telefonaktiebolaget Lm Ericsson (Publ) | Recovery methods for restoring service in a distributed radio access network |
US7953861B2 (en) | 2006-08-10 | 2011-05-31 | International Business Machines Corporation | Managing session state for web applications |
US8918673B1 (en) | 2012-06-14 | 2014-12-23 | Symantec Corporation | Systems and methods for proactively evaluating failover nodes prior to the occurrence of failover events |
US9755889B2 (en) | 2013-02-13 | 2017-09-05 | International Business Machines Corporation | Service failover and failback using enterprise service bus |
US9727486B1 (en) * | 2015-09-10 | 2017-08-08 | Infinidat Ltd. | Writing pages to a storage system |
CN109196807B (zh) | 2016-06-01 | 2021-09-24 | 瑞典爱立信有限公司 | 网络节点以及操作网络节点以进行资源分发的方法 |
US10552069B2 (en) * | 2017-07-07 | 2020-02-04 | Sap Se | Caching the topology of a distributed data storage system |
US10411948B2 (en) * | 2017-08-14 | 2019-09-10 | Nicira, Inc. | Cooperative active-standby failover between network systems |
US11334468B2 (en) | 2017-12-14 | 2022-05-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Checking a correct operation of an application in a cloud environment |
US11917023B2 (en) | 2018-11-21 | 2024-02-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Fast session restoration for latency sensitive middleboxes |
-
2019
- 2019-11-21 US US17/293,984 patent/US11917023B2/en active Active
- 2019-11-21 WO PCT/IB2019/060037 patent/WO2020104992A1/en unknown
- 2019-11-21 WO PCT/IB2019/060031 patent/WO2020104988A1/en unknown
- 2019-11-21 EP EP19813146.8A patent/EP3884620A1/en active Pending
- 2019-11-21 CN CN201980076569.7A patent/CN113169895A/zh active Pending
- 2019-11-21 US US17/295,645 patent/US20220006868A1/en active Pending
- 2019-11-21 EP EP19809923.6A patent/EP3884619A1/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050172161A1 (en) * | 2004-01-20 | 2005-08-04 | International Business Machines Corporation | Managing failover of J2EE compliant middleware in a high availability system |
US20130107872A1 (en) * | 2004-02-13 | 2013-05-02 | Thomas Dean Lovett | Processor-memory module performance acceleration in fabric-backplane enterprise servers |
US20060294241A1 (en) * | 2005-06-24 | 2006-12-28 | Sanjay Cherian | Preserving sessions in a wireless network |
US20090254775A1 (en) * | 2008-04-02 | 2009-10-08 | International Business Machines Corporation | Method for enabling faster recovery of client applications in the event of server failure |
US20120236823A1 (en) * | 2011-03-18 | 2012-09-20 | Kompella Vachaspati P | System and method for failover handling at geo-redundant gateways |
CN102938705A (zh) * | 2012-09-25 | 2013-02-20 | 上海证券交易所 | 一种高可用多机备份路由表管理与切换方法 |
US20140301388A1 (en) * | 2013-04-06 | 2014-10-09 | Citrix Systems, Inc. | Systems and methods to cache packet steering decisions for a cluster of load balancers |
US20140344441A1 (en) * | 2013-05-16 | 2014-11-20 | Tektronix, Inc. | System and method for gtp session persistence and recovery |
US20160344821A1 (en) * | 2015-05-21 | 2016-11-24 | Dell Products, Lp | System and Method for Live Migration of Remote Desktop Session Host Sessions without Data Loss |
CN107454155A (zh) * | 2017-07-25 | 2017-12-08 | 北京三快在线科技有限公司 | 一种基于负载均衡集群的故障处理方法、装置以及系统 |
Non-Patent Citations (1)
Title |
---|
张慧勇;刘年超;翁啸华;: "基于IP寻址的彩信网关备份方案研究", 中兴通讯技术, no. 03 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113891358A (zh) * | 2021-09-30 | 2022-01-04 | 阿里巴巴达摩院(杭州)科技有限公司 | 云网络的负载均衡方法、设备及存储介质 |
CN113891358B (zh) * | 2021-09-30 | 2024-04-16 | 杭州阿里云飞天信息技术有限公司 | 云网络的负载均衡方法、设备及存储介质 |
CN114301763A (zh) * | 2021-12-15 | 2022-04-08 | 山石网科通信技术股份有限公司 | 分布式集群故障的处理方法及系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3884619A1 (en) | 2021-09-29 |
US20220006868A1 (en) | 2022-01-06 |
EP3884620A1 (en) | 2021-09-29 |
WO2020104992A1 (en) | 2020-05-28 |
US20220124159A1 (en) | 2022-04-21 |
WO2020104988A1 (en) | 2020-05-28 |
US11917023B2 (en) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113169895A (zh) | 用于具有低时延故障转移的虚拟化服务的n+1冗余 | |
CN110912780B (zh) | 一种高可用集群检测方法、系统及受控终端 | |
EP1770508B1 (en) | Blade-based distributed computing system | |
US9219641B2 (en) | Performing failover in a redundancy group | |
JP5727055B2 (ja) | 地理的冗長ゲートウェイでのセッション復元性のためのシステムおよび方法 | |
EP3114799B1 (en) | Method and system for seamless sctp-server failover between sctp servers running on different machines | |
US20160234059A1 (en) | Method for migrating service of data center, apparatus, and system | |
US11349706B2 (en) | Two-channel-based high-availability | |
CN108989476B (zh) | 一种地址分配方法以及装置 | |
CN102123105A (zh) | Vrrp标准协议与vrrp负载均衡协议之间的切换方法和设备 | |
CN110535947B (zh) | 一种存储设备集群配置节点切换方法、装置及设备 | |
JP5039975B2 (ja) | ゲートウェイ装置 | |
EP3474501B1 (en) | Network device stacking | |
CN107682226B (zh) | Nat板的监控方法及装置 | |
CN112492030B (zh) | 数据存储方法、装置、计算机设备和存储介质 | |
CN114301842B (zh) | 路由查找方法及装置、存储介质和处理器、网络系统 | |
CN115499414A (zh) | 地址分配方法及装置 | |
CN110417599B (zh) | 主备节点的切换方法以及节点服务器 | |
CN115460160A (zh) | 基于Full-Mesh组网的网络通信方法、系统、存储介质及交换机 | |
CN109600256B (zh) | 状态切换方法和装置 | |
KR20180099143A (ko) | Tcp 세션 복구 장치 및 방법 | |
CN108768798B (zh) | 一种设备接入方法及装置 | |
WO2020103627A1 (zh) | 一种基于虚机容灾的业务自愈方法、设备和存储介质 | |
JP2009278436A (ja) | 通信システム及び冗長構成管理方法 | |
CN104009873A (zh) | 网络小型计算机系统接口的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |