CN102047643A - 用于在服务器故障的事件中能使客户端应用更快恢复的方法 - Google Patents

用于在服务器故障的事件中能使客户端应用更快恢复的方法 Download PDF

Info

Publication number
CN102047643A
CN102047643A CN2009801204319A CN200980120431A CN102047643A CN 102047643 A CN102047643 A CN 102047643A CN 2009801204319 A CN2009801204319 A CN 2009801204319A CN 200980120431 A CN200980120431 A CN 200980120431A CN 102047643 A CN102047643 A CN 102047643A
Authority
CN
China
Prior art keywords
node
server node
failover
notice
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801204319A
Other languages
English (en)
Other versions
CN102047643B (zh
Inventor
迈克尔·科菲
曼朱纳思·B·穆图尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102047643A publication Critical patent/CN102047643A/zh
Application granted granted Critical
Publication of CN102047643B publication Critical patent/CN102047643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/161Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/163In-band adaptation of TCP data exchange; In-band control procedures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration

Abstract

提供了一种用于通过向客户端应用发送服务器节点的故障的通知而在多节点数据处理系统处于故障转移的条件下时改善恢复时间的系统和方法,所述服务器节点担任运行在客户端节点上的客户端应用的服务器。在本发明中,由担任服务器节点的备用的故障转移节点提供该通知。当客户端应用很长时间内未从服务器接收到响应时,假定所述服务器发生故障并启动重新连接。本发明通过令系统级的软件先行通知客户端应用所述服务器的故障,从而加速由所述客户端应用启动的重新连接。这样使得客户端应用能够更快地恢复。

Description

用于在服务器故障的事件中能使客户端应用更快恢复的方法
技术领域
本发明一般地涉及多节点数据处理系统和方法。更具体地,本发明涉及用于在服务器故障事件中改善恢复时间的系统和方法。更加具体地,本发明涉及这样的系统:与等待基于故障节点的性能的缺失来确定故障不同,故障转移(fallover)节点提供故障通知。如此处以及所附权利要求中所使用的,所述术语“节点”和“服务器”可互换使用,不过,可以理解,服务器可以包括若干节点。
背景技术
在诸如HACMP(高可用性集群管理程序)的集群件(clusterware)应用中,存在很多客户端应用,当主服务器发生故障时,它们足够智能地自动重新连接到备用服务器。可以通过将正在与客户端交互的主服务器的IP(因特网协议)地址动态地移动到备用服务器实现这一点。因此,客户端应用不必响应于服务器故障而被终止和/或重启。集群件的此能力在这里被称为“故障转移”。然而,问题是,一旦主服务器发生故障,所述客户端和服务器之间存在的TCP(传输控制协议)连接需要一段时间来被终止。这主要是因为客户端应用不知道服务器的故障,所以所述客户端应用持续重传,直到所述TCP重传计数器过期(expire),由此最终终止所述TCP连接。因此,可以看出客户端应用在尝试与备用服务器重新连接之前,花费相当长的时间才意识到所述服务器故障。因此,由上可知,本领域存在克服这里和上面所述的低效和局限的需求。
发明内容
上面描述的延迟可以通过及时地向客户端通知故障事件来避免。所述客户端一旦接收到这个关于服务器故障的通知,则优选地重新连接。本发明优选地提供了用于加速客户端应用与集群内的一个或多个备用服务器重新连接的过程的机制。为了快速终止所述服务器(假定发生故障的节点)与所述客户端之间存在的所有TCP连接,一旦所述服务器发生故障,则所述客户端优选地接收用于该TCP连接的RST(重置分组)。虽然预计此RST分组所来自的节点发生故障,但本发明的方法仍然优选地生成此RST分组。为了达到此目的,一旦故障转移发生,则所述故障转移节点(备用服务器)优选地向所述客户端发送此RST分组。效果上,对于客户端,所述故障转移节点装作故障节点。
按照本发明的一个实施例,一种用于改善故障转移条件下的恢复的方法包括下述步骤:向客户端应用发送服务器节点的故障的通知,所述服务器节点正担任用于在客户端节点上运行的客户端应用的服务器。由担任所述服务器节点的备用的故障转移节点提供此通知。
优选地,所述故障转移节点伪装成所述服务器节点,以发送所述故障的通知。根据优选的实施例,从所述客户端应用接收数据分组。该分组被访问来确定传送信息,且所述传送信息被用于向所述客户端应用发送所述服务器节点的故障的通知。
根据优选的实施例,所述数据分组是当所述客户端应用没有接收到向所述服务器节点的数据分组的原始传送的应答时、已经被所述客户端应用重传的数据分组。在一个实施例中,所述故障转移节点通知所述客户端节点:所述故障转移节点已经替换所述服务器节点。
额外的特征和优势可以通过本发明的技术实现。本发明的其他实施例和方面在此详细说明,并作为要求权利的本发明的一部分。
本发明的各种实施例满足的期望目标在此的详述并不是为了暗示或表明任何或所有所述目标单独地或共同地是本发明最一般的实施例或任何更具体的实施例中的必要特征。
附图说明
下面将参考以下附图并仅以示例的方式说明本发明的优选实施例。
图1是说明使用本发明的基本节点配置环境之间的连接的框图,并且还说明了在本发明的优选实施例的操作中发生的事件的序列;以及
图2是说明本发明的优选实施例的处理中典型地出现的事件的序列的流程图。
具体实施方式
如之前所讨论的,客户端可以利用诸如TCP协议等与服务器通信。如果所述服务器发生故障,所述客户端可能不会注意到故障已经发生。在不存在对客户端发送出的分组的任何应答的情况下,所述客户端将持续重传直到所述TCP重传计数器过期。这可能是相当一段时间之后。因此,期望强行终止并重置所述客户端与服务器之间的连接。所述TCP协议具有重置(RST)选项。当双方正在通信时,如果第一方注意到另一方已经停止了通信,则所述第一方可以发送RST以强制另一方重置所述连接。然而,这里的关键是所述客户端可能在相当一段时间内不会意识到存在问题。当所述客户端最终意识到存在问题时,所述客户端将接着尝试重新连接,并将连接到故障转移节点。
根据优选的实施例,本发明利用监视与所述客户端通信的服务器节点的备用(或故障转移)服务器。当所述故障转移节点注意到所述服务器节点已经发生故障时,所述故障转移节点接管所述服务器节点的地址。此时,所述备用服务器查看所接管的IP地址上的所有流量,以观察是否任何流量是去往(即,寻址到)用于在所述服务器节点上运行的、但已经在具有所述IP地址的备用节点上重启的应用。如果它发现了任何这样的流量,则“伪装”成所述服务器节点。
然而,所述故障转移节点不知道所述服务器节点持有的连接。所述故障转移节点不知道谁持有它们或它们持有什么类型的连接。因此,所述故障转移节点需要能够推断出所述服务器节点与谁连接,并随后“鼓励”(利用RST选项)这样的客户端与所述故障转移节点连接。自然地,这对于认为它们正重新连接到所述服务器节点的客户端来说是透明的。
为了使该方案可行,所述客户端必须相信RST分组来自所述服务器节点。在TCP连接中,每一个分组具有一个序列号和“ACK”号,其保证了所述数据在传送的结束时在接收器上被适当地排序。在任一时间点,如果TCP接收到具有不正确的序列号或ACK号的分组,则它立即丢弃该分组。所以,对于任意能够在两个其他应用“B”和“C”之间存在的TCP连接上发送分组的应用“A”,应用“A”必须确定在TCP序列中将要发送给所述客户端的下一个分组的序列号、ACK号以及TCP头信息。
相似地,对于能够向所述客户端发送RST(重置)分组的备用服务器(故障转移节点),其必须确定用于该RST分组的适当的TCP头信息。在TCP连接中,当所述通信方中任一方在没有通过发送FIN分组(其被用在TCP中以指示传送的结束)或RST分组来终止所述连接就停止运行时,另一方开始再次重传所述旧的分组。
在优选的实施例中,所述故障转移节点已经接管了所述服务器的地址。因此,一旦所述故障转移节点从故障节点获得(通过激活)IP地址,所述故障转移节点接收到一些来自所述客户端的重传分组。所述备用服务器(故障转移节点)利用它刚从所述客户端接收到的重传分组获得所述序列中的下一个分组的TCP头信息。此TCP头信息使所述备用服务器能够确定例如所述RST分组应该使用什么序列号以及所述RST分组应该被发送到哪里。
利用原始IP套接字,任何应用都能够制作分组并在两个不同的应用之间存在的TCP连接上发送它。该新制作的分组对于接收器表现为真正的分组,因为它认为那是它的对等应用发送的。在本发明中,诸如HACMP的集群件利用原始IP套接字制作RST分组并将其发送到客户端。此RST分组立即断开旧的TCP连接,由此客户端能够快速地再次重新连接。
在本发明中,不需要改变现有的客户端应用或TCP栈本身。不论所述TCP连接是由TCP连接超时还是RST分组终止,所述客户端应用都将其视为意外的终止并尝试重新连接。
图1根据优选的实施例说明了本发明的使用中的事件或情况的序列。具体地,圆圈里的“1”指示了正与服务器节点200通信的客户端节点100的初始状态。圆圈里的“2”指示了服务器节点200发生故障以及存在向故障转移节点300的故障转移的事件。圆圈里的“3”指示了故障转移节点300向客户端节点100传达服务器节点200出现故障并正接管通信功能的事件。圆圈里的“4”指示了客户端节点100现在连接到故障转移节点300的最终状态。所说明的处理避免了在客户端节点100上运行的应用必须等待节点200的故障的指示的必要,由于应用级软件典型地不知道节点故障,所以所述故障指示需要较长的时间才会到达。以系统级速度和优先级运行的故障转移处理出现得快得多,且该事实与TCP连接的协议结构一起,允许向基于服务器应用的客户端快得多的通知。
图2说明了本发明的处理中发生的事件的典型序列。所述处理由服务器节点200的故障触发(步骤101)。系统级软件以相对快速的方式检测到此故障并向故障转移(或备用)节点300提供故障转移(步骤102)。故障转移节点300接着向客户端节点100提供通知(步骤103)。客户端节点100接着终止到节点200的连接(步骤104)。
本发明还包括用于执行这里详述的处理的机器可读指令形式的软件。此外,本发明包括具有部署在其存储器内的用于实施所详述的处理的指令的数据处理系统。
虽然这里已经根据某些优选的实施例详细地说明了本发明,但本领域的技术人员可以对其做很多修改和改变。相应地,所附权利要求意在覆盖所有落在本发明的精神和范围内的修改和改变。

Claims (42)

1.一种用于在故障转移条件下改善恢复的方法,所述方法包括以下步骤:
将担任在客户端节点上运行的客户端应用的服务器的服务器节点的故障的通知发送至所述客户端应用,由担任所述服务器节点的备用的故障转移节点提供所述通知。
2.如权利要求1所述的方法,还包括终止与所述服务器节点的连接的步骤。
3.如权利要求1或2所述的方法,还包括在所述故障转移节点上激活原本与所述服务器节点相关联的IP地址的步骤。
4.如权利要求3所述的方法,还包括在所述故障转移节点上接收在所述客户端节点上重传的分组的步骤。
5.如权利要求4所述的方法,还包括在所述故障转移节点上获得TCP头信息的步骤。
6.如权利要求5所述的方法,其中所述头信息包括分组序列号。
7.如权利要求5或6所述的方法,还包括在所述故障转移节点上构建重置分组的步骤。
8.如权利要求7所述的方法,其中所述重置分组的构建使用原始套接字。
9.如权利要求7或8所述的方法,还包括将所述重置分组传送到运行在所述客户端节点上的所述应用。
10.如权利要求7、8或9所述的方法,还包括终止从所述客户端节点到所述服务器节点的连接的步骤。
11.如权利要求10所述的方法,还包括所述应用尝试重新连接的步骤。
12.如前面任一权利要求所述的方法,其中所述服务器节点和所述客户端节点通过传输控制协议通信。
13.如前面任一权利要求所述的方法,其中所述故障转移节点通知在所述客户端节点上运行的应用:所述服务器节点发生故障。
14.如权利要求13所述的方法,其中所述故障转移节点可操作来通知所述客户端节点:所述故障转移节点已经替代所述服务器节点。
15.如前面任一权利要求所述的方法,其中所述方法由所述服务器节点的故障触发。
16.如前面任一权利要求所述的方法,其中比通过传输控制协议连接所提供的通知更早地提供所述通知。
17.如前面任一权利要求所述的方法,其中所述故障转移节点伪装成所述服务器节点,以发送所述故障的通知,所述方法包括:
接收来自所述客户端应用的数据分组;以及
访问所述数据分组,以确定传送信息,其中发送故障的通知的步骤包括:
使用所述传送信息,以向所述客户端应用发送所述服务器节点的故障的通知。
18.如权利要求17所述的方法,其中所述数据分组是当所述客户端应用没有接收到向所述服务器节点的数据分组的原始传送的应答时、已经被所述客户端应用重传的数据分组。
19.一种包括至少三个节点的多节点数据处理系统,其在存储器中包含程序指令,所述程序指令用于:所述节点将担任在客户端节点上运行的客户端应用的服务器的服务器节点的故障的通知发送至所述客户端节点,由担任所述服务器节点的备用的故障转移节点提供所述通知。
20.如权利要求19所述的系统,还包括用于终止与所述服务器节点的连接的单元。
21.如权利要求19或20所述的系统,还包括用于在所述故障转移节点上激活原本与所述服务器节点相关联的IP地址的单元。
22.如权利要求21所述的系统,还包括用于在所述故障转移节点上接收在所述客户端节点上重传的分组的单元。
23.如权利要求22所述的系统,还包括用于在所述故障转移节点上获得TCP头信息的单元。
24.如权利要求23所述的系统,其中所述头信息包括分组序列号。
25.如权利要求23或24所述的系统,还包括用于在所述故障转移节点上构建重置分组的单元。
26.如权利要求25所述的系统,其中所述重置分组的构建使用原始套接字。
27.如权利要求25或26所述的系统,还包括用于将所述重置分组传送到运行在所述客户端节点上的应用的单元。
28.如权利要求25、26或27所述的系统,还包括用于终止从所述客户端节点到所述服务器节点的连接的单元。
29.如权利要求28所述的系统,还包括用于由所述应用尝试重新连接的单元。
30.如权利要求19至29中任一项所述的系统,其中所述服务器节点和所述客户端节点通过传输控制协议通信。
31.如权利要求19至29中任一项所述的系统,其中所述故障转移节点通知运行在所述客户端节点上的应用:所述服务器节点已经发生故障。
32.如权利要求31所述的系统,其中所述故障转移节点包括用于通知所述客户端节点所述故障转移节点已经替代所述服务器节点的单元。
33.如权利要求19至32中的任一项所述的系统,其中所述方法由所述服务器节点的故障触发。
34.如权利要求19至33中的任一项所述的系统,其中比通过传输控制协议连接所提供的通知更早地提供所述通知。
35.如权利要求19至34中的任一项所述的系统,其中所述故障转移节点伪装成所述服务器节点,以发送所述故障的通知,所述系统包括:
用于接收来自所述客户端应用的数据分组的单元;以及
用于访问所述数据分组以确定传送信息的单元,其中用于发送故障的通知的单元包括:
用于使用所述传送信息以向所述客户端应用发送所述服务器节点的故障的通知的单元。
36.如权利要求35所述的系统,其中所述数据分组是当所述客户端应用没有接收到向所述服务器节点的数据分组的原始传送的应答时、已经被所述客户端应用重传的数据分组。
37.如前面任一权利要求所述的系统,其中所述服务器节点和运行在所述客户端节点上的所述应用初始通过传输控制协议连接连接。
38.一种其上包含指令的机器可读介质,所述指令用于将担任在客户端节点上运行的客户端应用的服务器的服务器节点的故障的通知发送至所述客户端节点,由担任所述服务器节点的备用的故障转移节点提供所述通知。
39.如权利要求38所述的机器可读介质,其中所述服务器节点和在所述客户端节点上运行的应用初始通过传输控制协议连接连接。
40.如权利要求38或39所述的机器可读介质,其中所述故障转移节点伪装成所述服务器节点,以发送所述故障的通知,所述机器可读介质包括:
用于接收来自所述客户端应用的数据分组的指令;以及
用于访问所述数据分组以确定传送信息的指令,其中用于发送故障的通知的指令包括:
用于使用所述传送信息以向所述客户端应用发送所述服务器节点的故障的通知的指令。
41.如权利要求40所述的机器可读介质,其中所述数据分组是当所述客户端应用没有接收到向所述服务器节点的数据分组的原始传送的应答时、已经被所述客户端应用重传的数据分组。
42.一种包含程序代码单元的计算机程序,当所述程序在计算机上运行时,所述程序代码单元被适配来执行权利要求1至18中的任一项所述的方法。
CN200980120431.9A 2008-04-02 2009-03-10 用于在服务器故障的事件中能使客户端应用更快恢复的方法 Active CN102047643B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/061,185 2008-04-02
US12/061,185 US7971099B2 (en) 2008-04-02 2008-04-02 Method for enabling faster recovery of client applications in the event of server failure
PCT/EP2009/052803 WO2009121689A1 (en) 2008-04-02 2009-03-10 Method for enabling faster recovery of client applications in the event of server failure

Publications (2)

Publication Number Publication Date
CN102047643A true CN102047643A (zh) 2011-05-04
CN102047643B CN102047643B (zh) 2015-01-28

Family

ID=40929637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980120431.9A Active CN102047643B (zh) 2008-04-02 2009-03-10 用于在服务器故障的事件中能使客户端应用更快恢复的方法

Country Status (8)

Country Link
US (1) US7971099B2 (zh)
EP (1) EP2274898B1 (zh)
JP (1) JP5695558B2 (zh)
KR (1) KR101419579B1 (zh)
CN (1) CN102047643B (zh)
BR (1) BRPI0911284B1 (zh)
CA (1) CA2706579C (zh)
WO (1) WO2009121689A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014040566A1 (en) * 2012-09-17 2014-03-20 Tencent Technology (Shenzhen) Company Limited Method of establishing a network socket with a data server
CN104426703A (zh) * 2013-09-11 2015-03-18 博雅网络游戏开发(深圳)有限公司 一种服务器升级方法及系统
CN105808391A (zh) * 2016-04-05 2016-07-27 浪潮电子信息产业股份有限公司 一种热替换cpu节点的方法及装置
CN106357744A (zh) * 2016-08-29 2017-01-25 浪潮(北京)电子信息产业有限公司 Smb客户端重连集群的方法、系统及smb客户端
US9591080B2 (en) 2012-09-17 2017-03-07 Tencent Technology (Shenzhen) Company Limited Method of establishing a network socket with a data server

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9450804B2 (en) * 2009-09-03 2016-09-20 At&T Intellectual Property I, L.P. Anycast aware transport for content distribution networks
US8555105B2 (en) * 2010-04-12 2013-10-08 International Business Machines Corporation Fallover policy management in high availability systems
US20150215158A1 (en) * 2014-01-28 2015-07-30 Qualcomm Incorporated Discriminating or prioritizing users during failover in a voip system
JP6575318B2 (ja) * 2015-11-18 2019-09-18 富士通株式会社 ネットワーク制御装置、クラスタシステムおよび制御プログラム
CN113055373A (zh) * 2017-03-30 2021-06-29 华为技术有限公司 数据传输方法和通信设备
CN113169895A (zh) * 2018-11-21 2021-07-23 瑞典爱立信有限公司 用于具有低时延故障转移的虚拟化服务的n+1冗余

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040268175A1 (en) * 2003-06-11 2004-12-30 Eternal Systems, Inc. Transparent TCP connection failover
US6871296B2 (en) * 2000-12-29 2005-03-22 International Business Machines Corporation Highly available TCP systems with fail over connections
US20050262381A1 (en) * 2004-04-27 2005-11-24 Takaichi Ishida System and method for highly available data processing in cluster system
EP1892921A2 (en) * 2000-10-26 2008-02-27 Intel Corporation Method and sytem for managing distributed content and related metadata

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0537903A2 (en) 1991-10-02 1993-04-21 International Business Machines Corporation Distributed control system
US5805785A (en) 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
US6189111B1 (en) 1997-03-28 2001-02-13 Tandem Computers Incorporated Resource harvesting in scalable, fault tolerant, single system image clusters
US5963963A (en) 1997-07-11 1999-10-05 International Business Machines Corporation Parallel file system and buffer management arbitration
US6023706A (en) 1997-07-11 2000-02-08 International Business Machines Corporation Parallel file system and method for multiple node file access
US6223231B1 (en) * 1998-11-12 2001-04-24 Sun Microsystems, Inc. Method and apparatus for highly-available processing of I/O requests while application processing continues
US6523130B1 (en) 1999-03-11 2003-02-18 Microsoft Corporation Storage system having error detection and recovery
US6651242B1 (en) * 1999-12-14 2003-11-18 Novell, Inc. High performance computing system for distributed applications over a computer
US6675217B1 (en) 2000-07-06 2004-01-06 Microsoft Corporation Recovery of cluster consistency following failover
US20020107966A1 (en) 2001-02-06 2002-08-08 Jacques Baudot Method and system for maintaining connections in a network
JP2003084996A (ja) * 2001-09-11 2003-03-20 Hitachi Ltd ホストコンピュータの切替方法
US7076555B1 (en) * 2002-01-23 2006-07-11 Novell, Inc. System and method for transparent takeover of TCP connections between servers
US7984157B2 (en) * 2002-02-26 2011-07-19 Citrix Systems, Inc. Persistent and reliable session securely traversing network components using an encapsulating protocol
JP3932994B2 (ja) * 2002-06-25 2007-06-20 株式会社日立製作所 サーバ引継システムおよびその方法
US7197660B1 (en) 2002-06-26 2007-03-27 Juniper Networks, Inc. High availability network security systems
US7152180B2 (en) * 2002-12-06 2006-12-19 Ntt Docomo, Inc. Configurable reliable messaging system
US20040153700A1 (en) * 2003-01-02 2004-08-05 Nixon Mark J. Redundant application stations for process control systems
US20050086342A1 (en) 2003-09-19 2005-04-21 Andrew Burt Techniques for client-transparent TCP migration
US7386624B2 (en) * 2003-10-23 2008-06-10 International Business Machines Corporation Method, system and article for dynamic real-time stream aggregation in a network
US20050254508A1 (en) * 2004-05-13 2005-11-17 Nokia Corporation Cooperation between packetized data bit-rate adaptation and data packet re-transmission
US20050283529A1 (en) * 2004-06-22 2005-12-22 Wan-Yen Hsu Method and apparatus for providing redundant connection services
EP1719056A4 (en) * 2004-08-26 2009-04-08 Availigent Inc METHOD AND SYSTEM FOR PROVIDING HIGH AVAILABILITY TO COMPUTING APPLICATIONS
US20060129666A1 (en) * 2004-12-09 2006-06-15 International Business Machines Corporation Selective device reset method for device sharing with fail-over
US7844691B2 (en) 2004-12-30 2010-11-30 Xstor Systems, Inc. Scalable distributed storage and delivery
JP4516439B2 (ja) * 2005-02-01 2010-08-04 富士通株式会社 中継プログラム、中継方法および中継装置
US7668962B2 (en) * 2005-02-07 2010-02-23 Symantec Operating Corporation System and method for connection failover using redirection
JP2007312227A (ja) * 2006-05-19 2007-11-29 Canon Inc 情報処理システム及びその制御方法、並びに該制御方法を実行するプログラム
US9009327B2 (en) * 2007-08-03 2015-04-14 Citrix Systems, Inc. Systems and methods for providing IIP address stickiness in an SSL VPN session failover environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1892921A2 (en) * 2000-10-26 2008-02-27 Intel Corporation Method and sytem for managing distributed content and related metadata
US6871296B2 (en) * 2000-12-29 2005-03-22 International Business Machines Corporation Highly available TCP systems with fail over connections
US20040268175A1 (en) * 2003-06-11 2004-12-30 Eternal Systems, Inc. Transparent TCP connection failover
US20050262381A1 (en) * 2004-04-27 2005-11-24 Takaichi Ishida System and method for highly available data processing in cluster system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014040566A1 (en) * 2012-09-17 2014-03-20 Tencent Technology (Shenzhen) Company Limited Method of establishing a network socket with a data server
US9591080B2 (en) 2012-09-17 2017-03-07 Tencent Technology (Shenzhen) Company Limited Method of establishing a network socket with a data server
CN104426703A (zh) * 2013-09-11 2015-03-18 博雅网络游戏开发(深圳)有限公司 一种服务器升级方法及系统
CN104426703B (zh) * 2013-09-11 2018-08-31 深圳市东方博雅科技有限公司 一种服务器升级方法及系统
CN105808391A (zh) * 2016-04-05 2016-07-27 浪潮电子信息产业股份有限公司 一种热替换cpu节点的方法及装置
CN106357744A (zh) * 2016-08-29 2017-01-25 浪潮(北京)电子信息产业有限公司 Smb客户端重连集群的方法、系统及smb客户端

Also Published As

Publication number Publication date
WO2009121689A1 (en) 2009-10-08
KR20100135855A (ko) 2010-12-27
EP2274898B1 (en) 2014-04-30
US7971099B2 (en) 2011-06-28
KR101419579B1 (ko) 2014-07-14
EP2274898A1 (en) 2011-01-19
CN102047643B (zh) 2015-01-28
BRPI0911284A2 (pt) 2016-07-26
CA2706579A1 (en) 2009-10-08
JP5695558B2 (ja) 2015-04-08
JP2011518486A (ja) 2011-06-23
BRPI0911284B1 (pt) 2021-03-02
CA2706579C (en) 2016-07-19
US20090254775A1 (en) 2009-10-08

Similar Documents

Publication Publication Date Title
CN102047643A (zh) 用于在服务器故障的事件中能使客户端应用更快恢复的方法
US6934875B2 (en) Connection cache for highly available TCP systems with fail over connections
US7929422B2 (en) Method of moving a transport connection among network hosts
US6594776B1 (en) Mechanism to clear MAC address from Ethernet switch address table to enable network link fail-over across two network segments
JP3932994B2 (ja) サーバ引継システムおよびその方法
US20020087912A1 (en) Highly available TCP systems with fail over connections
JP4974964B2 (ja) ロードバランス型ネットワーク環境におけるインテリジェントフェイルオーバー
US20220131768A1 (en) Communication of a message using a network interface controller on a subnet
CN103019889A (zh) 分布式文件系统及其故障处理方法
CN101431428B (zh) 安全监控服务恢复方法及系统
US7756012B2 (en) Intelligent failover in a load-balanced network environment
CN101951345A (zh) 一种报文的发送方法和设备
CN110677282B (zh) 一种分布式系统的热备份方法及分布式系统
CN104468151A (zh) 一种集群切换时保持tcp会话的系统和方法
US7178051B2 (en) Method for synchronous support of fault-tolerant and adaptive communication
US8266253B2 (en) Server system and event message transmission method therefor, client terminal and connection method and program therefor, and recording medium
JP2005527898A (ja) チャネル・アダプタ障害に対する冗長性を提供する方法
JP4258482B2 (ja) iSCSIストレージシステムおよびそのシステムにおけるパス多重化方法
US20060002290A1 (en) Method and apparatus of maintaining a pbx system
CN110677283B (zh) 一种网络双冗余快速切换的方法
WO2002103969A1 (fr) Procede de mise en oeuvre d'un groupe de gardes-portes telephoniques ip, et systeme de gardes-portes
CN110716827A (zh) 适用于分布式系统的热备份方法及分布式系统
JP4803194B2 (ja) 通信システム、通信方法、プログラム、及び記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant