CN103580902A - 一种计算机信息系统及其动态容灾方法 - Google Patents

一种计算机信息系统及其动态容灾方法 Download PDF

Info

Publication number
CN103580902A
CN103580902A CN201210277988.7A CN201210277988A CN103580902A CN 103580902 A CN103580902 A CN 103580902A CN 201210277988 A CN201210277988 A CN 201210277988A CN 103580902 A CN103580902 A CN 103580902A
Authority
CN
China
Prior art keywords
service
cluster
service cluster
disaster recovery
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210277988.7A
Other languages
English (en)
Other versions
CN103580902B (zh
Inventor
王旭新
薛鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201210277988.7A priority Critical patent/CN103580902B/zh
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to EP13828379.1A priority patent/EP2883329B1/en
Priority to PCT/CN2013/080413 priority patent/WO2014023174A1/en
Priority to JP2015525717A priority patent/JP2015526815A/ja
Priority to KR1020157005435A priority patent/KR20150032346A/ko
Priority to US14/040,295 priority patent/US9262287B2/en
Publication of CN103580902A publication Critical patent/CN103580902A/zh
Application granted granted Critical
Publication of CN103580902B publication Critical patent/CN103580902B/zh
Priority to PH12015500177A priority patent/PH12015500177B1/en
Priority to CL2015000282A priority patent/CL2015000282A1/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/143Reconfiguring to eliminate the error with loss of software functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/90Services for handling of emergency or hazardous situations, e.g. earthquake and tsunami warning systems [ETWS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Emergency Management (AREA)
  • Environmental & Geological Engineering (AREA)
  • Public Health (AREA)
  • Hardware Redundancy (AREA)
  • Alarm Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种计算机信息系统及其动态容灾方法,包括:按照服务类别划分的两个以上的服务集群,所述每一服务集群中包括两个以上的服务节点;每个服务节点具备本系统内的所有服务类型的服务处理逻辑;还包括动态容灾节点,用于设置所述各服务集群的动态容灾策略,监测所述各服务集群的运行状况;在各服务集群都运行正常的情况下,根据所述动态容灾策略,将各服务类别的服务请求调度到该服务类别对应的服务集群进行响应处理;在某个服务集群运行异常的情况下,根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整。利用本发明,可以提高计算机信息系统的健壮性。

Description

一种计算机信息系统及其动态容灾方法
技术领域
本申请涉及计算机信息处理技术领域,尤其涉及一种计算机信息系统及其动态容灾方法。
背景技术
在计算机信息系统中,为了保证信息服务的安全性和稳定性,需要建立两套或多套功能相同的服务处理系统,在这些两套或多套的服务处理系统之间可以实现功能容灾,即当一个服务处理系统发生问题,则可以由另外的服务处理系统来对外提供服务,因此可以保证对外服务的安全性和稳定性。容灾是系统高可用性技术的一个重要组成部分,需要预先考虑到外界环境或突发事件对系统的影响,避免灾难发生时系统无法提供服务或数据丢失。所谓的灾难是指机器硬件故障、网络故障、程序崩溃、突发事件导致过载等无法提供正常服务的事件。
目前业界通常在计算机系统的组成和服务架构上实现容灾方案。
图1为现有技术一的一种互联网服务系统架构的示意图。参见图1,所述互联网服务系统就是计算机信息系统的一种具体应用领域,该架构中,所有服务节点对等,例如图1中具有101、102、和103三个对等的服务节点,每个服务节点同时对外提供所有服务(假定服务类别分为A、B、C三类)的处理逻辑,这些对等的服务节点组成了一个服务集群。图1所述的系统架构目前被许多网站采用,其容灾原理是客户端发起一种类型的服务请求后,通过系统的传输控制协议(TCP,Transmission ControlProtocol)层的负载均衡系统将该服务请求随机分配到所述服务集群中的某一个服务节点上,由该服务节点响应该服务请求。当某个服务节点发生灾难事件如硬件故障时,则服务请求会分配给其它运行正常的服务节点进行响应。
图2为现有技术二的一种互联网服务系统架构的示意图。参见图2,该架构中,按照服务类型划分成三个服务集群,每个服务集群内部的所有服务节点只提供一种固定类型的服务,在一个服务集群内部的服务节点是对等的。例如图2中所述服务集群201提供A类的服务,服务集群202提供B类的服务,服务集群203提供C类的服务。以服务集群201为例,其中的每个服务节点211、212、213都只具备A类服务的处理逻辑,客户端中设置有每种类型服务对应的服务集群的地址,当客户端发起A类服务的服务请求后,该A类服务请求发送到服务集群201,然后由TCP层的负载均衡系统将该服务请求随机分配到该服务集群201中的某一个服务节点上,由该服务节点响应该服务请求。当服务集群201中的某个服务节点发生灾难事件如硬件故障时,则A类服务请求会分配给其它运行正常的服务节点进行响应。图2所述的系统架构目前通常被许多互联网游戏业务系统所采用。
但是,上述现有技术存在如下技术问题:
整个计算机信息系统的健壮性差。例如在现有技术一中,如果所述服务集群内部故障的服务节点达到一定数目,系统实际负载大于正常工作的服务节点能承受的负载时,系统会因过载而导致整体不可用。在现有技术二中,虽然将不同类型的服务采用不同的服务集群分散处理,但是每个服务集群内部也存在跟现有技术一同样的健壮性差的问题,即如果一个服务集群内部故障的服务节点达到一定数目,在该服务集群的实际负载大于正常工作的服务节点能承受的负载时,该服务集群会因过载而导致整体不可用,从而导致无法对外提供对应类型的服务。
发明内容
有鉴于此,本发明的主要目的在于提供一种计算机信息系统及其动态容灾方法,以提高计算机信息系统的健壮性。
本发明的技术方案是这样实现的:
一种计算机信息系统,包括:
按照服务类别划分的两个以上的服务集群,所述每一服务集群中包括两个以上的服务节点;每个服务节点具备本系统内的所有服务类型的服务处理逻辑,所述服务处理逻辑用于响应到达本服务集群的服务请求;
动态容灾节点,用于设置所述各服务集群的动态容灾策略,监测所述各服务集群的运行状况;在各服务集群都运行正常的情况下,根据所述动态容灾策略,将各服务类别的服务请求调度到该服务类别对应的服务集群进行响应处理;在某个服务集群运行异常的情况下,根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整。
一种计算机信息系统的动态容灾方法,包括:
按照服务类别划分两个以上的服务集群,在所述每一服务集群中设置两个以上的服务节点;每个服务节点设置本系统内的所有服务类型的服务处理逻辑;
设置所述各服务集群的动态容灾策略;
监测所述各服务集群的运行状况,在各服务集群都运行正常的情况下,根据所述动态容灾策略,将各服务类别的服务请求调度到该服务类别对应的服务集群进行响应处理;在某个服务集群运行异常的情况下,根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整。
与现有技术相比,本发明按照服务类别划分为两个以上的服务集群,在所述每一服务集群中设置两个以上的服务节点;每个服务节点都是对等节点,即都要设置本系统内的所有服务类型的服务处理逻辑;同时,设置所述各服务集群的动态容灾策略,在各服务集群都运行正常的情况下,将各服务类别的服务请求调度到该服务类别固定对应的服务集群进行响应处理;在某个服务集群运行异常的情况下,根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整。这样,整个计算机信息系统内的所有服务节点都是对等的,可以根据各服务集群的运行状况,动态调整相应服务集群对服务请求的响应方式,即使某个服务集群内的故障服务节点达到一定数目而不能提供对外服务时,也可以将该服务集群对应的响应的服务请求转移到其它运行正常的服务集群上,因此整个计算机信息系统对外提供的服务并不会轻易中断,提高了计算机信息系统的健壮性。
附图说明
图1为现有技术一的一种互联网服务系统架构的示意图;
图2为现有技术二的一种互联网服务系统架构的示意图;
图3为本发明所述计算机信息系统动态容灾方法的一种流程图;
图4为本发明所述计算机信息系统的一种组成架构示意图;
图5为本发明所述计算机信息系统的又一种组成架构示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明
图3为本发明所述计算机信息系统动态容灾方法的一种流程图。参见图3,本发明的计算机信息系统的动态容灾方法包括:
301、按照服务类别划分两个以上的服务集群,在所述每一服务集群中设置两个以上的服务节点;每个服务节点设置本系统内的所有服务类型的服务处理逻辑,以响应到达本服务集群的服务请求;
302、设置所述各服务集群的动态容灾策略;
303、监测所述各服务集群的运行状况,在各服务集群都运行正常的情况下,根据所述动态容灾策略,将各服务类别的服务请求调度到该服务类别对应的服务集群进行响应处理;在某个服务集群运行异常的情况下,根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整。
与本发明所述的方法对应,本发明还公开了一种计算机信息系统。
图4为本发明所述计算机信息系统的一种组成架构示意图。参见图4,本发明的计算机信息系统包括:
按照服务类别划分的两个以上的服务集群,例如图3中为三个服务集群401、402、和403,所述每一服务集群中包括两个以上的服务节点;每个服务节点具备本计算机信息系统内的所有服务类型的服务处理逻辑,所述服务处理逻辑用于响应到达本服务集群的服务请求。即本发明所述的所有服务集群中的所有的服务节点在功能上都是对等的,不论哪种类型的服务请求(例如图3中假设分为A、B、C三种服务类型),所述任一个服务节点都能够进行该服务请求的响应处理。
除了所述服务集群,本发明的计算机信息系统还包括动态容灾节点,即图4中的所述D节点404,该动态容灾节点用于设置所述各服务集群的动态容灾策略,监测所述各服务集群的运行状况;在各服务集群都运行正常的情况下,根据所述动态容灾策略,将各服务类别的服务请求调度到该服务类别对应的服务集群进行响应处理;在某个服务集群运行异常的情况下,根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整。
所述动态容灾节点的数量可以为一个,也可以为两个或两个以上,如图5为本发明所述计算机信息系统的又一种组成架构示意图,其中包括可以相互备份和相互容灾切换的主动态容灾节点541和备动态容灾节点542,所述主动态容灾节点541和备动态容灾节点542组成了一个提供动态容灾服务的容灾服务集群504。在正常情况下,由其中的主动态容灾节点提供动态容灾服务,当主动态容灾节点运行异常时,可以切换到备动态容灾节点继续运行,该备动态容灾节点切换为主动态容灾节点,前述的主动态容灾节点切换为备动态容灾节点,从而进一步提高整个系统的健壮性。
所述动态容灾策略可以预先设置,具体设置的动态容灾策略内容可以有多种,下面实施例做具体介绍。
所述动态容灾策略中可以包括的策略为:在各服务集群都运行正常的情况下,各服务类别的服务请求由该服务类别固定对应的服务集群进行响应处理。如图4和图5所示,在各服务集群都运行正常的情况下,所述服务集群401只对外提供A类型的服务,服务集群402只对外提供B类型的服务,服务集群403只对外提供C类型的服务。这种固定的对应关系属于所述动态容灾策略信息中的一部分,需要预先设置好,具体内容包括每个服务类型与其对应的服务集群地址的对应关系。在某个服务集群运行异常的情况下,则需要对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整,具体的调整指令信息也属于所述动态容灾策略的一部分,而且通常每种服务类型的服务集群都会有对应的包括所述调整指令的动态容灾策略。
所述步骤303中,所述监测各服务集群的运行状况的具体方法可以有多种,例如典型的两种为:
第一种监测方法为:由所述各服务集群中的各服务节点定时(例如每隔T1秒)向所述动态容灾节点上报自身的负载信息,所述负载信息可以包括常规的负载信息,例如CPU占用量、网络占用量等。动态容灾节点根据上报情况以及上报的负载信息判断各服务集群的运行状况。例如,所述上报情况是指所述服务节点是否每隔T1秒就上报一次负载信息,如果上报的次数或频率少于指定的值则判定该服务节点异常;然后根据上报的负载信息判断服务节点的负载是否超过指定的值,如果超过则判定该服务节点运行异常;最后判断每个服务集群内部的异常服务节点的数量是否超过指定的值,如果超过则判定该服务集群运行异常,否则判定该服务集群运行正常。
或者,第二种监测方法为:由请求服务的客户端定时(例如每隔T2秒)向动态容灾节点上报各类服务请求的数量和响应状况,动态容灾节点根据所上报的各类服务请求的数量和响应状况判断对应类别的服务集群的运行状况。例如如果某种服务类型的服务请求中发生响应失败的数量超过指定的阈值,则判定该服务类型固定对应的服务集群运行异常,否则可以判定该服务类型对应的服务集群运行正常。
通过上述监测方法,所述动态容灾节点可以随时监测到各个服务集群的运行状况,并根据运行状况和各服务集群对应的动态容灾策略进行调整。
本发明可以将所述每种服务类型及其对应的服务集群地址的对应关系信息设置在各客户端,例如具体可以预先设置在客户端,或者在系统启动后由所述动态容灾节点发送给各客户端。在计算机信息系统初始启动后,默认各服务集群都运行正常,这时如果客户端发起某种类型的服务请求,则根据所述对应关系,将该服务类型的服务请求发送到其对应的服务集群地址进行响应处理。例如A类服务请求发送给A类服务集群,B类服务请求发送给B类服务集群,C类服务请求发送给C类服务集群。所述收到服务请求的服务集群通过内部的TCP层采用负载均衡的方式将所述服务请求随机分配到某一个服务节点中,由该服务节点对该服务请求进行响应处理。当某个服务节点发生灾难事件如硬件故障时,则服务集群会将收到的服务请求分配给其它运行正常的服务节点进行响应处理。
在系统启动运行后,动态容灾节点会通过上述的监测方法监测各个服务集群的运行状况,如果监测到某个服务集群运行异常,则根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整。
本发明中,还提出按照可降级服务维度划分的服务类别的技术方案。上述所述按照服务类别划分服务集群,所述不同的服务类别之间是用可降级服务维度来区分的。所述可降级服务是指:该服务逻辑的部分模块出现故障时,依然能够为用户提供部分服务来满足用户的核心需求,例如互联网站用户的登录、查看个人信息等需求,则可称该服务为可降级服务。所述可降级服务维度,是评价可降级服务可接受的降级幅度,可接受的降级幅度越大,其可降级服务维度越高。
例如,上述所提到的A、B、C类服务可以按照用户影响、收入影响来划分并考虑可降级服务的应用场景。以常见的互联网服务为例,A类服务为核心体验服务,属于必须内容,用户无法接受该类服务出现问题,例如登录操作等,其可降级服务维度最低;B类服务为用户有损价值服务,用户能接受该类服务在较短的时间不可用,例如查看好友的主页、上传或下载文件等服务,该类服务的可降级服务维度较A类服务稍高一级;C类服务为可有损体验服务,该类服务只影响用户体验,即使较长时间内没办法修复也不会有大的影响,该类服务的可降级服务维度最高。
如上所述,所述A、B、C类服务根据可降级服务维度由低到高排列。在动态调整服务请求的响应服务集群和/或响应方式时,可以根据不同的可降级服务维度进行处理。
例如,所述在某个服务集群运行异常的情况下,所述动态容灾节点根据该服务集群的动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整的具体方式中,包括以下判断处理步骤:
判断其它运行正常的服务集群的负载情况是否可以承受所述发生异常的服务集群对应类别的服务请求的负载,如果是则调度所述运行正常的服务集群来响应所述发生异常的服务集群对应类别的服务请求;否则,针对可降级服务维度比发生异常的服务集群高的服务集群,停止其中的服务集群对其对应类别的服务请求的响应处理,再重复执行本判断处理步骤。
例如如图4和图5所示,如果动态容灾节点通过监测发现A类服务集群运行异常,则该动态容灾节点首先判断其它运行正常的服务集群(例如此处为B类服务集群和C类服务集群)的负载情况是否可以承受本因由A类服务集群对应响应的A类服务请求的负载,例如具体可以按照所述服务节点或客户端上报的信息来判断,具体的判断方式可以利用现有技术。
如果B、C类服务集群可以承受所述A类服务请求的负载,则调度所述运行正常的B、C类服务集群来响应所述A类服务请求,例如具体可以是将来自客户端的A类服务请求平均分布到B、C类服务集群的每个服务节点上进行响应处理。
如果B、C类服务集群可以承受所述A类服务请求的负载,由于B、C类服务集群的可降级服务维度比A类服务集群的可降级服务维度高,则可以调整B、C类服务集群的对其服务请求的响应,例如具体是停止这些可降级服务维度高的服务集群对其对应类别的服务请求的响应处理。如果其可降级服务维度比发生异常的服务集群高的服务集群只有一个,则直接停止该服务集群对其对应类别的服务请求的响应处理。如果其可降级服务维度比发生异常的服务集群高的服务集群有两个以上时,例如此处的B、C类服务集群的可降级维度都比A类服务集群高,则属于这种情况。在这种情况下,先停止其中的最高级可降级服务维度的服务集群(如此处是C类服务集群)对其对应类别的服务请求的响应处理,再重复执行所述判断处理步骤;如果所述运行正常的服务集群(此处是B和C类服务集群)的负载情况依然不可以承受所述发生异常的服务集群对应类别的服务请求的负载,则再停止低一级可降级服务维度的服务集群(例如此处是B类服务集群)对其对应类别的服务请求的响应处理。如果其可降级服务维度比发生异常的A类服务集群高的服务集群有三个以上,则再重复执行所述判断处理步骤,直到所述运行正常的服务集群的负载情况可以承受所述A类服务请求的负载,或者直到可降级服务维度比A类服务集群高的所有服务集群都被停止对其对应类别的服务请求的响应处理。
在互联网信息服务中,有一种可以离线响应的服务,其服务数据更新并不频繁,因此可以存储在服务端,也可以存储在客户端,该类服务的服务请求可以由服务端来响应处理,也可以由客户端利用存储在客户端中的数据进行离线响应处理。例如,对于一些基于关系链的互联网服务就是属于这种可以离线响应的服务,当关系链出现故障或者压力过大时,可以启用本地关系链模式,客户端在每天第一次登录的时候拉取关系链数据存储到本地客户端,后续不再拉取,这样即使服务端的关系链服务不可用,则客户端也仍然可以离线响应关系链服务请求,从而保证用户可以正常使用关系链服务。
因此,在本发明的一种实施例中,如果所述可降级服务维度比发生异常的服务集群高的服务集群对应类别的服务为所述可以离线响应的服务时,例如如果上述的C类服务为可以离线响应的服务时,则停止该C类服务集群对C类服务请求的响应处理具体可以是调整该C类服务集群对C类服务请求的响应方式,例如具体为:将该C类服务请求改为离线响应方式,指示该服务请求的发起方客户端按照离线响应方式在本地处理该服务请求。
在本发明中,所述动态容灾节点对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整的具体操作中,包括:所述调度运行正常的服务集群来响应所述发生异常的服务集群对应类别的服务请求,和/或所述停止某个服务集群对其对应类别的服务请求的响应处理,和/或所述调整某类服务集群对其对应类别的服务请求的响应方式,这些方法的具体实现方式为:
a)生成包括相应服务类别的服务请求的响应服务集群地址和/或响应方式信息的调度信息。例如动态容灾节点要执行的调整操作假设为:调度B和C类服务集群来响应A类服务请求,并且要将C类服务请求的响应方式改为离线响应方式,同时停止B类服务集群对B类服务请求的响应处理,则所述调度信息中包括:A类服务请求对应的响应服务集群的地址为B和C类服务集群的地址,B类服务请求对应的响应服务集群地址为空,C类服务请求的响应方式改为离线响应。
b)将所述调度信息发送给客户端。例如具体是生成调度信息后主动发送给客户端,或者是由客户端每隔T3秒查询一次动态容灾节点,动态容灾节点将最新的调度信息以响应包的方式发送给客户端。
c)客户端根据收到的调度信息向相应的服务集群发起服务请求和/或按照所述响应方式信息处理对应的服务请求。例如根据上述步骤a)所述的调度信息,客户端将A类服务请求发送给B和C类服务集群,B类服务请求则直接放弃发送,C类服务请求由客户端本地按照离线响应方式处理。
如图4和图5所示,如果动态容灾节点通过监测发现B类服务集群运行异常,可以则同样按照上述的判断处理步骤进行处理,即:判断其它运行正常的A和C类服务集群的负载情况是否可以承受所述发生异常的B类服务集群对应的B类服务请求的负载,如果是则调度所述运行正常的A和C类服务集群来响应所述B类服务请求;否则,针对可降级服务维度比B类服务集群高的服务集群即所述C类服务集群,停止该C类服务集群对C类服务请求的响应处理,之后再判断A和C类服务集群的负载情况是否可以承受B类服务请求的负载,如果是则调度所述运行正常的A和C类服务集群来响应所述B类服务请求,否则不再处理。
另外,针对所述B类服务请求的动态容灾策略也可以有其它方式,例如判断当前是否为业务高峰期,如果是则不进行上述判断处理步骤的调整,如果当前为非高峰期,则再执行上述的判断处理步骤进行调整。
如图4和图5所示,如果动态容灾节点通过监测发现C类服务集群运行异常,可以则同样按照上述的判断处理步骤进行处理,即:判断其它运行正常的A和B类服务集群的负载情况是否可以承受所述发生异常的C类服务集群对应的C类服务请求的负载,如果是则调度所述运行正常的A和C类服务集群来响应所述C类服务请求;否则,此时由于C类服务集群的可降级服务维度已经是最高,因此只能调整该C类服务请求的响应方式,即将该C类服务请求改为离线响应方式,指示该服务请求的发起方按照离线响应方式在本地处理该服务请求。
当然,针对所述C类服务请求的动态容灾策略也可以有其它方式,例如如果动态容灾节点通过监测发现C类服务集群运行异常,则也可以直接调整该C类服务请求的响应方式,即将该C类服务请求改为离线响应方式,指示该服务请求的发起方按照离线响应方式在本地处理该服务请求。
当所述各服务集群又都恢复正常的情况下,则所述动态容灾节点继续将各服务类别的服务请求调度到该服务类别对应的服务集群进行响应处理。例如具体的方式是动态容灾节点给客户端发出服务集群运行正常的调度信息,客户端在收到该调度信息后,如果客户端发起某种类型的服务请求,则根据之前存储的每种服务类型及其对应的服务集群地址的对应关系信息,将该服务类型的服务请求发送到其对应的服务集群地址进行响应处理。例如A类服务请求发送给A类服务集群,B类服务请求发送给B类服务集群,C类服务请求发送给C类服务集群。
如上所述,本发明与现有技术相比,整个计算机信息系统内的所有服务节点都是对等的,可以根据各服务集群的运行状况,动态调整相应服务集群对服务请求的响应方式,即使某个服务集群内的故障服务节点达到一定数目而不能提供对外服务时,也可以将该服务集群对应的响应的服务请求转移到其它运行正常的服务集群上,因此整个计算机信息系统对外提供的服务并不会轻易中断,提高了计算机信息系统的健壮性,提高了对突发式负载和故障的应对能力。
另外,本发明所述各个服务节点由于都是对等的,即其中都包括相同的处理逻辑,因此本发明的可扩展性非常强。
还有,本发明可以按照可降级服务的维度对服务类型及其对应的服务集群进行分类,当某个服务集群出现异常时,优先保证可降级服务维度低的服务(即相对核心的服务)能够继续提供服务,而对于可降级服务维度高的服务(即相对有损的服务)可以进行停止或改为离线响应方式,这样可以在容灾时保证核心服务的稳定性,提高用户的满意度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种计算机信息系统,其特征在于,包括:
按照服务类别划分的两个以上的服务集群,所述每一服务集群中包括两个以上的服务节点;每个服务节点具备本系统内的所有服务类型的服务处理逻辑,所述服务处理逻辑用于响应到达本服务集群的服务请求;
动态容灾节点,用于设置所述各服务集群的动态容灾策略,监测所述各服务集群的运行状况;在各服务集群都运行正常的情况下,根据所述动态容灾策略,将各服务类别的服务请求调度到该服务类别对应的服务集群进行响应处理;在某个服务集群运行异常的情况下,根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整。
2.根据权利要求1所述的系统,其特征在于,所述动态容灾节点的数量为两个或两个以上,其中包括可以相互备份和相互容灾切换的主动态容灾节点和备动态容灾节点。
3.一种计算机信息系统的动态容灾方法,其特征在于,包括:
按照服务类别划分两个以上的服务集群,在所述每一服务集群中设置两个以上的服务节点;每个服务节点设置本系统内的所有服务类型的服务处理逻辑;
设置所述各服务集群的动态容灾策略;
监测所述各服务集群的运行状况,在各服务集群都运行正常的情况下,根据所述动态容灾策略,将各服务类别的服务请求调度到该服务类别对应的服务集群进行响应处理;在某个服务集群运行异常的情况下,根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整。
4.根据权利要求3所述的方法,其特征在于,所述服务类别为按照可降级服务维度划分的服务类别;
所述在某个服务集群运行异常的情况下,根据该服务集群的动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整,具体包括以下判断处理步骤:
判断运行正常的服务集群的负载情况是否可以承受所述发生异常的服务集群对应类别的服务请求的负载,如果是则调度所述运行正常的服务集群来响应所述发生异常的服务集群对应类别的服务请求;否则,针对可降级服务维度比发生异常的服务集群高的服务集群,停止其中的服务集群对其对应类别的服务请求的响应处理,再重复执行本判断处理步骤。
5.根据权利要求4所述的方法,其特征在于,所述可降级服务维度比发生异常的服务集群高的服务集群有两个以上时,则所述停止其中的服务集群对其对应类别的服务请求的响应处理,具体包括:
先停止其中的最高级可降级服务维度的服务集群对其对应类别的服务请求的响应处理,再重复执行所述判断处理步骤;如果所述运行正常的服务集群的负载情况依然不可以承受所述发生异常的服务集群对应类别的服务请求的负载,则再停止低一级可降级服务维度的服务集群对其对应类别的服务请求的响应处理,再重复执行所述判断处理步骤,直到所述运行正常的服务集群的负载情况可以承受所述发生异常的服务集群对应类别的服务请求的负载,或者直到可降级服务维度比发生异常的服务集群高的所有服务集群都被停止对其对应类别的服务请求的响应处理。
6.根据权利要求4或5所述的方法,其特征在于,所述可降级服务维度比发生异常的服务集群高的服务集群对应类别的服务为可以离线响应的服务时,则停止该服务集群对其对应类别的服务请求的响应处理,具体包括:
将该服务集群对应类别的服务请求改为离线响应方式,指示该服务请求的发起方按照离线响应方式在本地处理该服务请求。
7.根据权利要求3所述的方法,其特征在于,所述运行异常的服务集群对应类别的服务为可以离线响应的服务时,则:所述在该服务集群运行异常的情况下,根据该服务集群的所述动态容灾策略,对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整,包括:
调整所述运行异常的服务集群对应类别的服务请求的响应方式,具体为:将该运行异常的服务集群对应类别的服务请求改为离线响应方式,指示该服务请求的发起方按照离线响应方式在本地处理该服务请求。
8.根据权利要求3所述的方法,其特征在于,所述监测各服务集群的运行状况,具体包括:
由所述各服务集群中的各服务节点定时上报自身的负载信息,根据上报情况以及上报的负载信息判断各服务集群的运行状况;
或者,由请求服务的客户端定时上报各类服务请求的数量和响应状况,根据所上报的各类服务请求的数量和响应状况判断对应类别的服务集群的运行状况。
9.根据权利要求3至8任一项所述的方法,其特征在于,所述将各服务类别的服务请求调度到该服务类别对应的服务集群进行响应处理,具体包括:
将各种服务类型及其对应的服务集群地址的对应关系信息设置在客户端,客户端发起某种类型的服务请求时,根据所述对应关系,将该服务类型的服务请求发送到其对应的服务集群地址进行响应处理。
10.根据权利要求3至8任一项所述的方法,其特征在于,所述对相应服务类别的服务请求的响应服务集群和/或响应方式进行动态调整,具体为:
生成包括相应服务类别的服务请求的响应服务集群地址和/或响应方式信息的调度信息,将所述调度信息发送给客户端,客户端根据收到的调度信息向相应的服务集群发起服务请求和/或按照所述响应方式信息处理对应的服务请求。
CN201210277988.7A 2012-08-07 2012-08-07 一种计算机信息系统及其动态容灾方法 Active CN103580902B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201210277988.7A CN103580902B (zh) 2012-08-07 2012-08-07 一种计算机信息系统及其动态容灾方法
PCT/CN2013/080413 WO2014023174A1 (en) 2012-08-07 2013-07-30 Computer information system and dynamic disaster recovery method therefor
JP2015525717A JP2015526815A (ja) 2012-08-07 2013-07-30 コンピュータ情報システム及びその動的障害回復方法
KR1020157005435A KR20150032346A (ko) 2012-08-07 2013-07-30 컴퓨터 정보 시스템 및 이를 위한 동적 재난 복구 방법
EP13828379.1A EP2883329B1 (en) 2012-08-07 2013-07-30 Computer information system and dynamic disaster recovery method therefor
US14/040,295 US9262287B2 (en) 2012-08-07 2013-09-27 Computer information system and dynamic disaster recovery method therefor
PH12015500177A PH12015500177B1 (en) 2012-08-07 2015-01-27 Computer information system and dynamic disaster recovery method therefor
CL2015000282A CL2015000282A1 (es) 2012-08-07 2015-02-05 Sistema informático, que comprende por lo menos dos grupos de servicio, cada grupo incluye al menos dos nodos de servicio, y un nodo de recuperación dinámica de desastres; método de recuperación de desastres; medio legible por computador.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210277988.7A CN103580902B (zh) 2012-08-07 2012-08-07 一种计算机信息系统及其动态容灾方法

Publications (2)

Publication Number Publication Date
CN103580902A true CN103580902A (zh) 2014-02-12
CN103580902B CN103580902B (zh) 2015-01-14

Family

ID=50051888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210277988.7A Active CN103580902B (zh) 2012-08-07 2012-08-07 一种计算机信息系统及其动态容灾方法

Country Status (8)

Country Link
US (1) US9262287B2 (zh)
EP (1) EP2883329B1 (zh)
JP (1) JP2015526815A (zh)
KR (1) KR20150032346A (zh)
CN (1) CN103580902B (zh)
CL (1) CL2015000282A1 (zh)
PH (1) PH12015500177B1 (zh)
WO (1) WO2014023174A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103763400A (zh) * 2014-02-18 2014-04-30 成都致云科技有限公司 分布式系统中实现不间断服务的调度方法
CN105915583A (zh) * 2016-03-28 2016-08-31 联想(北京)有限公司 一种启动服务集群的方法及服务集群
CN106339296A (zh) * 2016-08-31 2017-01-18 虎扑(上海)文化传播股份有限公司 服务状态监测方法和装置
CN108206768A (zh) * 2016-12-20 2018-06-26 阿里巴巴集团控股有限公司 集群监测和切换方法及装置
CN109213637A (zh) * 2018-11-09 2019-01-15 浪潮电子信息产业股份有限公司 分布式文件系统集群节点的数据恢复方法、装置及介质
CN109582451A (zh) * 2018-11-21 2019-04-05 金色熊猫有限公司 任务调度方法、系统、设备以及可读介质
CN110022220A (zh) * 2018-01-08 2019-07-16 腾讯科技(深圳)有限公司 名片识别中的路由激活方法及系统
CN110351122A (zh) * 2019-06-17 2019-10-18 腾讯科技(深圳)有限公司 容灾方法、装置、系统与电子设备
CN110764963A (zh) * 2018-07-28 2020-02-07 阿里巴巴集团控股有限公司 一种服务异常处理方法、装置及设备
CN113949631A (zh) * 2021-11-19 2022-01-18 网宿科技股份有限公司 客户端容灾的处理方法、系统及电子设备
CN114006907A (zh) * 2021-10-28 2022-02-01 中国工商银行股份有限公司 分布式服务器的服务降级方法、装置、电子设备及介质
CN115689391A (zh) * 2022-12-02 2023-02-03 国涛(菏泽牡丹区)网络科技有限责任公司 一种基于电子商务的数据容灾方法、系统及云平台
CN116074387A (zh) * 2023-03-16 2023-05-05 中国工商银行股份有限公司 服务请求的处理方法、装置和计算机设备

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10778584B2 (en) 2013-11-05 2020-09-15 Cisco Technology, Inc. System and method for multi-path load balancing in network fabrics
US9825857B2 (en) 2013-11-05 2017-11-21 Cisco Technology, Inc. Method for increasing Layer-3 longest prefix match scale
US9674086B2 (en) 2013-11-05 2017-06-06 Cisco Technology, Inc. Work conserving schedular based on ranking
US9374294B1 (en) 2013-11-05 2016-06-21 Cisco Technology, Inc. On-demand learning in overlay networks
US10951522B2 (en) 2013-11-05 2021-03-16 Cisco Technology, Inc. IP-based forwarding of bridged and routed IP packets and unicast ARP
US9502111B2 (en) 2013-11-05 2016-11-22 Cisco Technology, Inc. Weighted equal cost multipath routing
US9769078B2 (en) 2013-11-05 2017-09-19 Cisco Technology, Inc. Dynamic flowlet prioritization
US9686180B2 (en) 2013-11-05 2017-06-20 Cisco Technology, Inc. Managing routing information for tunnel endpoints in overlay networks
US9397946B1 (en) 2013-11-05 2016-07-19 Cisco Technology, Inc. Forwarding to clusters of service nodes
US9655232B2 (en) 2013-11-05 2017-05-16 Cisco Technology, Inc. Spanning tree protocol (STP) optimization techniques
US9509092B2 (en) 2013-11-06 2016-11-29 Cisco Technology, Inc. System and apparatus for network device heat management
JP6315467B2 (ja) * 2014-08-27 2018-04-25 Kddi株式会社 ネットワーク復旧システムおよびプログラム
WO2016039784A1 (en) * 2014-09-10 2016-03-17 Hewlett Packard Enterprise Development Lp Determining optimum resources for an asymmetric disaster recovery site of a computer cluster
US10116493B2 (en) 2014-11-21 2018-10-30 Cisco Technology, Inc. Recovering from virtual port channel peer failure
US9477555B1 (en) * 2015-11-16 2016-10-25 International Business Machines Corporation Optimized disaster-recovery-as-a-service system
JP6835444B2 (ja) * 2015-12-31 2021-02-24 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ソフトウェア定義型データセンター、並びにそのためのサービスクラスタスケジューリング方法及びトラフィック監視方法
US10142163B2 (en) 2016-03-07 2018-11-27 Cisco Technology, Inc BFD over VxLAN on vPC uplinks
US10333828B2 (en) 2016-05-31 2019-06-25 Cisco Technology, Inc. Bidirectional multicasting over virtual port channel
US11509501B2 (en) 2016-07-20 2022-11-22 Cisco Technology, Inc. Automatic port verification and policy application for rogue devices
US10193750B2 (en) 2016-09-07 2019-01-29 Cisco Technology, Inc. Managing virtual port channel switch peers from software-defined network controller
US10547509B2 (en) 2017-06-19 2020-01-28 Cisco Technology, Inc. Validation of a virtual port channel (VPC) endpoint in the network fabric
CN108737153B (zh) * 2018-03-27 2021-06-15 深圳市网心科技有限公司 区块链灾备系统、方法、服务器和计算机可读存储介质
US11444878B2 (en) * 2019-09-04 2022-09-13 Yahoo Ad Tech Llc Intelligent dataflow-based service discovery and analysis
CN111010448B (zh) * 2019-12-23 2022-06-03 北京奇艺世纪科技有限公司 一种分布式消息系统和数据中心dc
US11334434B2 (en) * 2020-02-19 2022-05-17 Seagate Technology Llc Multi-level erasure system with cooperative optimization
US11372553B1 (en) 2020-12-31 2022-06-28 Seagate Technology Llc System and method to increase data center availability using rack-to-rack storage link cable
CN113032233A (zh) * 2021-03-17 2021-06-25 中国工商银行股份有限公司 分布式服务集群运行时参数自适应处理方法、装置及系统
US11789800B2 (en) * 2021-10-01 2023-10-17 Vmware, Inc. Degraded availability zone remediation for multi-availability zone clusters of host computers

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110219263A1 (en) * 2009-12-30 2011-09-08 Symantec Corporation Fast cluster failure detection
CN102546807A (zh) * 2012-01-17 2012-07-04 上海宏舜电子科技有限公司 基于云计算架构的网络服务系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728748B1 (en) 1998-12-01 2004-04-27 Network Appliance, Inc. Method and apparatus for policy based class of service and adaptive service level management within the context of an internet and intranet
JP2002163241A (ja) * 2000-11-29 2002-06-07 Ntt Data Corp クライアントサーバシステム
US7581224B2 (en) * 2003-07-10 2009-08-25 Hewlett-Packard Development Company, L.P. Systems and methods for monitoring resource utilization and application performance
US7356531B1 (en) * 2003-07-25 2008-04-08 Symantec Operating Corporation Network file system record lock recovery in a highly available environment
US7953703B2 (en) * 2005-02-17 2011-05-31 International Business Machines Corporation Creation of highly available pseudo-clone standby servers for rapid failover provisioning
CN101227315B (zh) * 2007-01-17 2011-04-20 上海市医疗保险信息中心 动态服务器集群及其控制方法
US8671179B2 (en) * 2007-06-19 2014-03-11 International Business Machines Corporation Dynamically adding best suited servers into clusters of application servers
CN101222362B (zh) * 2008-01-08 2011-10-26 腾讯科技(深圳)有限公司 一种服务调度方法、装置和服务调度系统
JP2010113495A (ja) * 2008-11-06 2010-05-20 Nomura Research Institute Ltd クラスタシステムおよびクラスタ制御方法
US8578076B2 (en) * 2009-05-01 2013-11-05 Citrix Systems, Inc. Systems and methods for establishing a cloud bridge between virtual storage resources
US8539087B2 (en) * 2010-03-12 2013-09-17 Symantec Corporation System and method to define, visualize and manage a composite service group in a high-availability disaster recovery environment
US8972551B1 (en) * 2010-04-27 2015-03-03 Amazon Technologies, Inc. Prioritizing service requests

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110219263A1 (en) * 2009-12-30 2011-09-08 Symantec Corporation Fast cluster failure detection
CN102546807A (zh) * 2012-01-17 2012-07-04 上海宏舜电子科技有限公司 基于云计算架构的网络服务系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103763400A (zh) * 2014-02-18 2014-04-30 成都致云科技有限公司 分布式系统中实现不间断服务的调度方法
CN105915583A (zh) * 2016-03-28 2016-08-31 联想(北京)有限公司 一种启动服务集群的方法及服务集群
CN106339296A (zh) * 2016-08-31 2017-01-18 虎扑(上海)文化传播股份有限公司 服务状态监测方法和装置
CN108206768A (zh) * 2016-12-20 2018-06-26 阿里巴巴集团控股有限公司 集群监测和切换方法及装置
CN110022220A (zh) * 2018-01-08 2019-07-16 腾讯科技(深圳)有限公司 名片识别中的路由激活方法及系统
CN110022220B (zh) * 2018-01-08 2022-02-25 腾讯科技(深圳)有限公司 名片识别中的路由激活方法及系统
CN110764963A (zh) * 2018-07-28 2020-02-07 阿里巴巴集团控股有限公司 一种服务异常处理方法、装置及设备
CN110764963B (zh) * 2018-07-28 2023-05-09 阿里巴巴集团控股有限公司 一种服务异常处理方法、装置及设备
CN109213637A (zh) * 2018-11-09 2019-01-15 浪潮电子信息产业股份有限公司 分布式文件系统集群节点的数据恢复方法、装置及介质
CN109582451A (zh) * 2018-11-21 2019-04-05 金色熊猫有限公司 任务调度方法、系统、设备以及可读介质
CN110351122A (zh) * 2019-06-17 2019-10-18 腾讯科技(深圳)有限公司 容灾方法、装置、系统与电子设备
CN110351122B (zh) * 2019-06-17 2022-02-25 腾讯科技(深圳)有限公司 容灾方法、装置、系统与电子设备
CN114006907A (zh) * 2021-10-28 2022-02-01 中国工商银行股份有限公司 分布式服务器的服务降级方法、装置、电子设备及介质
CN113949631A (zh) * 2021-11-19 2022-01-18 网宿科技股份有限公司 客户端容灾的处理方法、系统及电子设备
CN113949631B (zh) * 2021-11-19 2024-05-03 网宿科技股份有限公司 客户端容灾的处理方法、系统及电子设备
CN115689391A (zh) * 2022-12-02 2023-02-03 国涛(菏泽牡丹区)网络科技有限责任公司 一种基于电子商务的数据容灾方法、系统及云平台
CN115689391B (zh) * 2022-12-02 2024-03-08 国涛(菏泽牡丹区)网络科技有限责任公司 一种基于电子商务的数据容灾方法、系统及云平台
CN116074387A (zh) * 2023-03-16 2023-05-05 中国工商银行股份有限公司 服务请求的处理方法、装置和计算机设备

Also Published As

Publication number Publication date
US20140047264A1 (en) 2014-02-13
CL2015000282A1 (es) 2015-08-28
WO2014023174A1 (en) 2014-02-13
EP2883329B1 (en) 2018-01-03
KR20150032346A (ko) 2015-03-25
PH12015500177A1 (en) 2015-04-06
JP2015526815A (ja) 2015-09-10
EP2883329A1 (en) 2015-06-17
US9262287B2 (en) 2016-02-16
EP2883329A4 (en) 2015-07-08
PH12015500177B1 (en) 2015-04-06
CN103580902B (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
CN103580902B (zh) 一种计算机信息系统及其动态容灾方法
US10873622B2 (en) Call chain-based concurrency control method and apparatus, and control node
CN111158962B (zh) 一种异地容灾方法、装置、系统、电子设备及存储介质
US20140372805A1 (en) Self-healing managed customer premises equipment
CN105095001A (zh) 分布式环境下虚拟机异常恢复方法
CN104272654A (zh) 用于链路聚合中自适应快速启动的方法和装置
CN107948063B (zh) 一种建立聚合链路的方法和接入设备
CN106657212A (zh) 自助终端状态监控方法及系统
CN106874142B (zh) 一种实时数据容错处理方法及系统
CN110515295A (zh) 一种动态可配置的冗余io模块的方法
CN108092857A (zh) 一种分布式系统心跳检测方法及相关装置
CN111142801A (zh) 分布式存储系统网络亚健康检测方法及装置
CN104317679A (zh) 一种scada系统基于线程冗余的通信容错方法
CN105743565A (zh) 一种光传送网的保护倒换方法及装置
CN107026762B (zh) 一种基于分布式集群的容灾系统及方法
CN117914706A (zh) 一种网络配置方法、系统
CN112653597A (zh) 基于服务网格的服务熔断机制调整方法及系统
CN114615337B (zh) 设备调度方法、系统、服务器及存储介质
CN103023698A (zh) 基于以太网链路级oam优化lacp协议链路聚合的方法及装置
CN106055397B (zh) 一种锁的控制方法及装置
WO2014176969A1 (zh) 一种自动容灾切换方法及装置
CN103716186B (zh) 具有网络故障容错能力的人工话务系统及其方法
Kitamura Configuration of a Power-saving High-availability Server System Incorporating a Hybrid Operation Method
JP5631285B2 (ja) 障害監視システムおよび障害監視方法
CN111769976B (zh) 一种电力物联网终端故障自适应恢复方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1190011

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1190011

Country of ref document: HK