CN101902361A - 容灾业务系统及容灾方法 - Google Patents
容灾业务系统及容灾方法 Download PDFInfo
- Publication number
- CN101902361A CN101902361A CN2010102451657A CN201010245165A CN101902361A CN 101902361 A CN101902361 A CN 101902361A CN 2010102451657 A CN2010102451657 A CN 2010102451657A CN 201010245165 A CN201010245165 A CN 201010245165A CN 101902361 A CN101902361 A CN 101902361A
- Authority
- CN
- China
- Prior art keywords
- business
- service
- service server
- module
- disaster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 238000011084 recovery Methods 0.000 claims description 99
- 230000007257 malfunction Effects 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 description 13
- 238000012423 maintenance Methods 0.000 description 11
- 238000006467 substitution reaction Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 235000012364 Peperomia pellucida Nutrition 0.000 description 4
- 240000007711 Peperomia pellucida Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000012508 change request Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2035—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0663—Performing the actions predefined by failover planning, e.g. switching to standby network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0668—Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/34—Network arrangements or protocols for supporting network services or applications involving the movement of software or configuration parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/40—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2025—Failover techniques using centralised failover control functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2048—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Environmental & Geological Engineering (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开了一种容灾业务系统及容灾方法,该系统包括:故障检测模块,用于检测运行业务的业务服务器和/或业务是否处于故障状态;服务器管理模块,用于在检测结果为是时,确定用于替代业务服务器的容灾服务器;业务装卸模块,用于在容灾服务器上安装业务;业务运行模块,用于在容灾服务器上运行业务。本发明提高了容灾可靠性,降低了容灾业务系统投入的成本。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种容灾业务系统及容灾方法。
背景技术
电信领域中,大多数运营商的业务平台处于独立、分离的建设模式,每个业务平台都需要为每个业务建设单独的存储模块、对外接口、操作维护单元、计费单元等公共模块。
为了避免上述公共模块的重复建设从而避免重复投资,现阶段无论是面对新业务的建设,还是面对已有业务的扩容或替换,运营商都会以最小的投入产生最大的收益为目标,而多业务融合统一平台恰恰可以实现该目标。
多业务融合统一平台可以在保证产品稳定性和可靠性的前提下,降低各种成本并提高资源利用率。但是,当前的多业务融合统一平台在其业务发生故障后,都是采用一对一的容灾模式,即,采用多台容灾服务器,其中每台容灾服务器仅仅对特定某种业务进行容灾的容灾模式。这样,由于该容灾模式不能保证对每种业务具备足够的容灾能力,因此其可靠性不足;并且,该容灾模式中多台容灾服务器的使用大大增加了设备投入的成本。
发明内容
针对相关技术中的容灾业务系统采用一对一的容灾模式,不能保证对每种业务具备足够的容灾能力的问题而提出本发明,为此,本发明的主要目的在于提供一种容灾业务系统及容灾方法,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种容灾业务系统。
根据本发明的容灾业务系统包括:故障检测模块,用于检测运行业务的业务服务器和/或业务是否处于故障状态;服务器管理模块,用于在检测结果为是时,确定用于替代业务服务器的容灾服务器;业务装卸模块,用于在容灾服务器上安装业务;业务运行模块,用于在容灾服务器上运行业务。
进一步地,服务器管理模块包括:获取子模块,用于获取空闲的容灾服务器;确定子模块,用于根据空闲的容灾服务器的性能,确定用于替代业务服务器的容灾服务器。
进一步地,上述容灾业务系统还包括:存储模块,用于存储业务服务器的状态信息和业务的业务信息;其中,状态信息包括以下至少之一:用于指示业务服务器运行正常的状态信息、用于指示业务服务器运行故障的状态信息、用于指示业务服务器空闲的状态信息;业务信息包括以下至少之一:业务的业务节点、业务的模块号、业务的业务类型、业务的版本、业务的目录。
进一步地,上述容灾业务系统还包括:状态显示模块,用于显示状态信息和业务信息;状态告警模块,用于在检测结果为是时,产生告警。
进一步地,业务装卸模块还用于在处于故障状态的业务服务器上卸载业务。
为了实现上述目的,根据本发明的另一个方面,提供了一种容灾方法。
根据本发明的容灾方法包括:检测容灾业务系统中的业务服务器和/或运行于业务服务器上的业务是否处于故障状态;如果检测结果为是,确定用于替代业务服务器的容灾服务器;在容灾服务器上安装业务;在容灾服务器上运行业务。
进一步地,确定用于替代业务服务器的容灾服务器包括:获取容灾业务系统中的空闲的容灾服务器;根据空闲的容灾服务器的性能,确定用于替代业务服务器的容灾服务器。
进一步地,在检测容灾业务系统中的业务服务器和/或运行于业务服务器上的业务是否处于故障状态之前,上述方法还包括:存储业务服务器的状态信息和业务的业务信息;其中,状态信息包括以下至少之一:用于指示业务服务器运行正常的状态信息、用于指示业务服务器运行故障的状态信息、用于指示业务服务器空闲的状态信息;业务信息包括以下至少之一:业务的业务节点、业务的模块号、业务的业务类型、业务的版本、业务的目录。
进一步地,在检测容灾业务系统中的业务服务器和/或运行于业务服务器上的业务是否处于故障状态之前,上述方法还包括:显示状态信息和业务信息。
进一步地,在检测容灾业务系统中的业务服务器和/或运行于业务服务器上的业务是否处于故障状态之后,上述方法还包括:在检测结果为是时,产生告警。
通过本发明,采用在容灾服务器上安装业务,扩大了容灾服务器可以容灾的业务的范围,解决了相关技术中的容灾业务系统采用一对一的容灾模式,不能保证对每种业务具备足够的容灾能力的问题,提高了容灾可靠性,降低了容灾业务系统投入的成本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的容灾业务系统的结构框图;
图2是根据本发明优选实施例的容灾业务系统的示意图;
图3是根据本发明实施例的容灾方法的流程图;
图4是根据本发明优先实施例的容灾方法的交互流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
根据本发明的实施例,提供了一种容灾业务系统。图1是根据本发明实施例的容灾业务系统的结构框图,该系统包括故障检测模块11,服务器管理模块12,业务装卸模块13和业务运行模块14。下面对其结构进行详细描述。
故障检测模块11,用于检测运行业务的业务服务器和/或业务是否处于故障状态;服务器管理模块12,连接至故障检测模块11,用于在故障检测模块11的检测结果为是时,确定用于替代业务服务器的容灾服务器;业务装卸模块13,连接至故障检测模块11和服务器管理模块12,用于在服务器管理模块12确定的容灾服务器上安装业务,该业务是故障检测模块11检测到处于故障状态的业务服务器上运行的业务和/或是故障检测模块11检测到处于故障状态的业务;业务运行模块14,连接至业务装卸模块13,用于在业务装卸模块13安装业务后的容灾服务器上运行业务。
相关技术中,容灾服务器仅仅对特定某种业务进行容灾。本发明实施例中,通过业务装卸模块13在容灾服务器上安装业务,扩大了容灾服务器可以容灾的业务的范围,从而可以提高业务容灾的可靠性,并且降低容灾业务系统投入的成本。
优选地,服务器管理模块12包括获取子模块121和确定子模块122。下面对其结构进行详细描述。
获取子模块121,连接至故障检测模块11,用于在故障检测模块11的检测结果为是时,获取空闲的容灾服务器;确定子模块122,连接至获取子模块121,用于根据获取子模块121获取的空闲的容灾服务器的性能,确定用于替代业务服务器的容灾服务器。
本优选实施例中,如果获取子模块121获取到多台空闲的容灾服务器,则选择所有空闲的容灾服务器中的性能最佳的作为选定的容灾服务器。这样,可以为故障的业务服务器提供更好的容灾服务,从而提高容灾的可靠性。
需要说明的是,如果获取子模块121仅仅获取到一台空闲的容灾服务器,则将这台容灾服务器作为选定的容灾服务器。如果获取子模块121没有获取到空闲的容灾服务器,则故障检测模块11会向状态告警模块17发出告警信息,以表示当前没有可供选择的空闲的容灾服务器。
优选地,上述容灾业务系统还包括存储模块15,状态显示模块16和状态告警模块17。下面对其结构进行详细描述。
存储模块15,用于存储业务服务器的状态信息和业务的业务信息;其中,状态信息包括以下至少之一:用于指示业务服务器运行正常的状态信息、用于指示业务服务器运行故障的状态信息、用于指示业务服务器空闲的状态信息;业务信息包括以下至少之一:业务的业务节点、业务的模块号、业务的业务类型、业务的版本、业务的目录。状态显示模块16,连接至存储模块15,用于显示存储模块15存储的状态信息和业务信息。状态告警模块17,连接至故障检测模块11,用于在故障检测模块11的检测结果为是时,产生告警。
本优选实施例中,存储模块15存储的状态信息和业务的业务信息,可用于状态显示模块16的显示,从而提供给用户直观的提示信息,以便用户对容灾业务系统进行管理。状态告警模块17产生告警,可以给用户醒目的提示信息,以便用户处理容灾业务系统的故障。
优选地,业务装卸模块还用于在处于故障状态的业务服务器上卸载业务。
本优选实施例中,通过在处于故障状态的业务服务器上卸载业务,可以将该业务服务器恢复为正常的空闲的状态。然后,将该业务服务器作为新的容灾服务器,可以实现容灾服务器的重复利用,从而进一步提高业务容灾的可靠性,并且降低容灾业务系统投入的成本。
本发明还提供了一个优选实施例,结合了上述多个优选实施例的技术方案,下面结合图2来详细描述。
图2是根据本发明优选实施例的容灾业务系统的示意图,包括运营维护管理模块21(对应于上述状态显示模块和状态告警模块),设备管理数据库22(对应于上述存储模块),容灾模块23(对应于上述故障检测模块),计算机资源管理中心24(对应于上述服务器管理模块),自动部署模块25(对应于上述业务装卸模块),下面对其进行详细描述。
运营维护管理模块21,用于显示各个主机以及业务的状态,当设备发生故障后有相关告警等功能。
设备管理数据库22,用于对设备的信息进行存储。
容灾模块23,用于检测设备及业务状态,当业务或者主机发生故障后,进行容灾功能。
计算机资源管理中心24,用于管理各个业务服务器的状态,及被容灾功能。
自动部署模块25,用于在各个业务服务器上的业务安装。
根据本发明的实施例,还提供了一种容灾方法。图3是根据本发明实施例的容灾方法的流程图,包括如下的步骤S302至步骤S308。
步骤S302,检测容灾业务系统中的业务服务器和/或运行于业务服务器上的业务是否处于故障状态。
步骤S304,如果检测结果为是,确定用于替代业务服务器的容灾服务器。
步骤S306,在容灾服务器上安装业务。
步骤S308,在容灾服务器上运行业务。
相关技术中,容灾服务器仅仅对特定某种业务进行容灾。本发明实施例中,通过在容灾服务器上安装业务,扩大了容灾服务器可以容灾的业务的范围,从而可以提高业务容灾的可靠性,并且降低容灾业务系统投入的成本。
优选地,确定用于替代业务服务器的容灾服务器包括:获取容灾业务系统中的空闲的容灾服务器;根据空闲的容灾服务器的性能,确定用于替代业务服务器的容灾服务器。
本优选实施例中,如果获取到多台空闲的容灾服务器,则选择所有空闲的容灾服务器中的性能最佳的作为选定的容灾服务器。这样,可以为故障的业务服务器提供更好的容灾服务,从而提高容灾的可靠性。
需要说明的是,如果仅仅获取到一台空闲的容灾服务器,则将这台容灾服务器作为选定的容灾服务器。如果没有获取到空闲的容灾服务器,则会发出告警信息,以表示当前没有可供选择的空闲的容灾服务器。
优选地,在检测容灾业务系统中的业务服务器和/或运行于业务服务器上的业务是否处于故障状态之前,存储业务服务器的状态信息和业务的业务信息;其中,状态信息包括以下至少之一:用于指示业务服务器运行正常的状态信息、用于指示业务服务器运行故障的状态信息、用于指示业务服务器空闲的状态信息;业务信息包括以下至少之一:业务的业务节点、业务的模块号、业务的业务类型、业务的版本、业务的目录。
优选地,在检测容灾业务系统中的业务服务器和/或运行于业务服务器上的业务是否处于故障状态之前,显示状态信息和业务信息。
优选地,在检测容灾业务系统中的业务服务器和/或运行于业务服务器上的业务是否处于故障状态之后,在检测结果为是时,产生告警。
本优选实施例中,存储的状态信息和业务的业务信息,可用于状态显示模块16的显示,从而提供给用户直观的提示信息,以便用户对容灾业务系统进行管理。状态告警模块17产生告警,可以给用户醒目的提示信息,以便用户处理容灾业务系统的故障。
本发明还提供了一个优选实施例,结合了上述多个优选实施例的技术方案,下面结合图4来详细描述。
图4是根据本发明优先实施例的容灾方法的交互流程图,包括如下的步骤S400至步骤S434。
步骤S400,各个模块运行正常,设备上电,安装好操作系统、设备管理数据库等系统软件,基础网络配置完毕,每台主机配置好管理IP和管理账号密码(通常就是root密码);容灾中心安装完毕。当前有空闲的容灾服务器若干,并且已经在容灾中心注册成功。容灾中心设置为自动容灾模式。容灾中心通过和各个业务服务器之间的心跳消息进行交互,确定各个业务服务器是否状态正常。
步骤S402,容灾模块通过安全协议(Secure Shell,简称为SSH)方式与各个业务服务器进行心跳检测,一般心跳时间为10秒/次(可设置)。当容灾模块接收到业务服务器正常的响应后,会在设置的间隔时间内进行查询。当查询返回失败后,根据间隔时间会再次进行查询,查询3次后(可设置)认为业务服务器状态异常。容灾模块向消息接口模块发送业务服务器注销请求。
步骤S404,消息接口模块接收到业务服务器注销请求后,向计算机资源管理中心发送业务服务器状态变更请求,并在其中携带下电标识。
步骤S406,计算机资源管理中心进行业务服务器的状态变更、下电。如果当前的业务服务器只是业务有问题,业务服务器状态是好的。则会在业务服务器上面进行业务卸载及IP信息删除等相关操作。如果业务服务器发生问题,则会在下次业务服务器修复后,重新加载业务前进行相关删除操作。
步骤S408,计算机资源管理中心进行完相关操作后,向消息接口模块发送业务服务器状态变更响应,其中携带下电响应。
步骤S410,消息接口模块接收到计算机资源管理中心响应后,向容灾模块发出业务服务器注销响应。
步骤S412,容灾模块接收到业务服务器注销响应后,进行设备管理数据库操作,并删除相关业务信息(如业务节点,模块号等)。
步骤S414,容灾模块向运营维护管理模块发送停止业务通知请求,用于通知运营维护管理模块在页面上显示与相关业务信息相应的业务停止。
步骤S416,运营维护管理模块在接收到容灾模块的通知后,在页面上把业务的状态变更为停止,并在变更完成后,向容灾模块发送停止业务通知响应。
步骤S418,容灾模块在接收到停止业务通知响应后,在设备管理数据库中删除业务服务器的信息。删除掉后,向运营维护管理模块发送业务服务器注销结果通知请求。
步骤S420,运营维护管理模块把业务服务器的状态变为故障状态,同时给容灾模块发送业务服务器故障结果通知响应。
步骤S422,在进行完以上步骤后,容灾模块进行容灾服务器状态检测,如果当前没有空闲的容灾服务器,则会向运营维护管理模块发出告警信息(当前没有空闲的容灾服务器)。如果有多台空闲的容灾服务器,容灾模块则进行判断,查看所有容灾服务器中设备性能最佳的作为选定的容灾服务器。如果当前只有一台空闲的容灾服务器,则只在这台容灾服务器上进行容灾处理。选定好空闲的容灾服务器后,容灾模块向消息接口模块发送业务加载请求,消息接口模块向计算机资源管理中心发送空闲的容灾服务器的容灾服务器请求。
步骤S424,计算机资源管理中心查找到当前的空闲的容灾服务器后,向消息接口模块回容灾服务器请求响应,消息接口模块向容灾模块发送业务加载响应。
步骤S426,容灾模块接收到业务加载响应后,进行模块号复用。然后,容灾模块把原因模块号及业务加载请求(管理IP,逻辑IP,模块号,业务类型,版本和目录)发送给自动部署模块。
步骤S428,自动部署模块根据业务加载请求在该空闲的容灾服务器上面上传版本,执行安装脚本,自动启动脚本,成功后返回部署成功响应,并执行步骤S430。如果由于容灾服务器原因,造成部署失败,会在失败的容灾服务器上面,把业务及相关文件都删除,同时返回部署失败响应,然后由自动部署模块向容灾模块返回业务加载失败响应,并由容灾模块继续从步骤S420重新选择空闲的容灾服务器。
步骤S430,自动部署模块向容灾模块返回业务加载成功响应,容灾模块进行逻辑设备和物理设备入库。同时发送加载业务结果通知请求给运营维护管理模块。
步骤S432,运营维护管理模块在接收到加载业务结果通知请求后,会在页面上进行相关展示。同时返回加载业务结果通知响应给容灾模块。
步骤S434,生成配置文件,自动同步到所有节点。
综上所述,根据本发明的上述实施例,采用在容灾服务器上安装业务,扩大了容灾服务器可以容灾的业务的范围,解决了相关技术中的容灾业务系统采用一对一的容灾模式,不能保证对每种业务具备足够的容灾能力的问题,提高了容灾可靠性,并且,本发明的容灾方式可以使得容灾不需要特定的环境,任何一个业务都可以在任何一台服务器等环境上进行容灾,大大降低了容灾业务系统投入的成本。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种容灾业务系统,其特征在于,包括:
故障检测模块,用于检测运行业务的业务服务器和/或所述业务是否处于故障状态;
服务器管理模块,用于在所述检测结果为是时,确定用于替代所述业务服务器的容灾服务器;
业务装卸模块,用于在所述容灾服务器上安装所述业务;
业务运行模块,用于在所述容灾服务器上运行所述业务。
2.根据权利要求1所述的容灾业务系统,其特征在于,所述服务器管理模块包括:
获取子模块,用于获取空闲的容灾服务器;
确定子模块,用于根据所述空闲的容灾服务器的性能,确定用于替代所述业务服务器的所述容灾服务器。
3.根据权利要求1所述的容灾业务系统,其特征在于,还包括:
存储模块,用于存储所述业务服务器的状态信息和所述业务的业务信息;
其中,所述状态信息包括以下至少之一:用于指示所述业务服务器运行正常的状态信息、用于指示所述业务服务器运行故障的状态信息、用于指示所述业务服务器空闲的状态信息;
所述业务信息包括以下至少之一:所述业务的业务节点、所述业务的模块号、所述业务的业务类型、所述业务的版本、所述业务的目录。
4.根据权利要求3所述的容灾业务系统,其特征在于,还包括:
状态显示模块,用于显示所述状态信息和所述业务信息;
状态告警模块,用于在所述检测结果为是时,产生告警。
5.根据权利要求4所述的容灾业务系统,其特征在于,所述业务装卸模块还用于在处于故障状态的所述业务服务器上卸载所述业务。
6.一种容灾方法,其特征在于,包括:
检测容灾业务系统中的业务服务器和/或运行于所述业务服务器上的业务是否处于故障状态;
如果检测结果为是,确定用于替代所述业务服务器的容灾服务器;
在所述容灾服务器上安装所述业务;
在所述容灾服务器上运行所述业务。
7.根据权利要求6所述的方法,其特征在于,确定用于替代所述业务服务器的所述容灾服务器包括:
获取所述容灾业务系统中的空闲的容灾服务器;
根据所述空闲的容灾服务器的性能,确定用于替代所述业务服务器的所述容灾服务器。
8.根据权利要求7所述的方法,其特征在于,在检测所述容灾业务系统中的所述业务服务器和/或运行于所述业务服务器上的所述业务是否处于所述故障状态之前,所述方法还包括:
存储所述业务服务器的状态信息和所述业务的业务信息;
其中,所述状态信息包括以下至少之一:用于指示所述业务服务器运行正常的状态信息、用于指示所述业务服务器运行故障的状态信息、用于指示所述业务服务器空闲的状态信息;
所述业务信息包括以下至少之一:所述业务的业务节点、所述业务的模块号、所述业务的业务类型、所述业务的版本、所述业务的目录。
9.根据权利要求8所述的方法,其特征在于,在检测所述容灾业务系统中的所述业务服务器和/或运行于所述业务服务器上的所述业务是否处于所述故障状态之前,所述方法还包括:显示所述状态信息和所述业务信息。
10.根据权利要求8所述的方法,其特征在于,在检测所述容灾业务系统中的所述业务服务器和/或运行于所述业务服务器上的所述业务是否处于所述故障状态之后,所述方法还包括:在所述检测结果为是时,产生告警。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010245165.7A CN101902361B (zh) | 2010-07-26 | 2010-07-26 | 容灾业务系统及容灾方法 |
PCT/CN2010/076969 WO2012012962A1 (zh) | 2010-07-26 | 2010-09-15 | 容灾业务系统及容灾方法 |
EP10855190.4A EP2600565B1 (en) | 2010-07-26 | 2010-09-15 | Disaster tolerance service system and disaster tolerance method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010245165.7A CN101902361B (zh) | 2010-07-26 | 2010-07-26 | 容灾业务系统及容灾方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101902361A true CN101902361A (zh) | 2010-12-01 |
CN101902361B CN101902361B (zh) | 2014-09-10 |
Family
ID=43227580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010245165.7A Expired - Fee Related CN101902361B (zh) | 2010-07-26 | 2010-07-26 | 容灾业务系统及容灾方法 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP2600565B1 (zh) |
CN (1) | CN101902361B (zh) |
WO (1) | WO2012012962A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102291262A (zh) * | 2011-09-01 | 2011-12-21 | 中兴通讯股份有限公司 | 一种容灾的方法、装置及系统 |
CN102932196A (zh) * | 2011-08-11 | 2013-02-13 | 中国移动通信集团浙江有限公司 | 一种主机系统状态的检测方法和装置 |
CN103580883A (zh) * | 2012-07-19 | 2014-02-12 | 中兴通讯股份有限公司 | 一种业务容灾方法及系统 |
CN103812675A (zh) * | 2012-11-08 | 2014-05-21 | 中兴通讯股份有限公司 | 一种实现业务交付平台异地容灾切换的方法和系统 |
CN104734886A (zh) * | 2015-03-10 | 2015-06-24 | 青岛海尔智能家电科技有限公司 | 一种业务服务器的管理方法、装置及系统 |
CN104954157A (zh) * | 2014-03-27 | 2015-09-30 | 中国移动通信集团湖北有限公司 | 一种故障自愈方法及系统 |
CN106502823A (zh) * | 2016-09-29 | 2017-03-15 | 北京许继电气有限公司 | 数据云备份方法和系统 |
CN106776140A (zh) * | 2016-12-21 | 2017-05-31 | 博飞信息科技(上海)有限公司 | 超容灾备恢复一体机的装置及方法 |
CN107770398A (zh) * | 2016-08-22 | 2018-03-06 | 中兴通讯股份有限公司 | 呼叫中心的容灾方法及系统 |
CN116382967A (zh) * | 2023-06-02 | 2023-07-04 | 北京国电通网络技术有限公司 | 用于服务器设备固件故障的自动处理方法、电子设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113839975A (zh) * | 2020-06-24 | 2021-12-24 | 中兴通讯股份有限公司 | PaaS的中间件容灾方法、容灾装置、容灾设备及存储介质 |
US20230393957A1 (en) * | 2020-11-05 | 2023-12-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and Apparatuses for Providing a Back-Up Service |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1859219A (zh) * | 2006-04-18 | 2006-11-08 | 华为技术有限公司 | 基于设备容灾的业务接管方法、业务转接设备及备份机 |
CN101547084A (zh) * | 2008-03-24 | 2009-09-30 | 大唐移动通信设备有限公司 | 一种多媒体广播业务传输系统及方法 |
CN101621413A (zh) * | 2009-08-20 | 2010-01-06 | 中兴通讯股份有限公司 | 实现对web服务器进行负载均衡和容灾的装置及方法 |
CN101719179A (zh) * | 2009-11-18 | 2010-06-02 | 司光亚 | 一种大规模虚拟个体基础属性逆向生成方法 |
CN101902357A (zh) * | 2010-06-29 | 2010-12-01 | 中兴通讯股份有限公司 | 对业务服务器进行调度的方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5011073B2 (ja) * | 2007-11-22 | 2012-08-29 | 株式会社日立製作所 | サーバ切り替え方法、およびサーバシステム |
CN101729279A (zh) * | 2008-10-28 | 2010-06-09 | 中兴通讯股份有限公司 | 一种企业移动信息系统容灾的方法 |
-
2010
- 2010-07-26 CN CN201010245165.7A patent/CN101902361B/zh not_active Expired - Fee Related
- 2010-09-15 EP EP10855190.4A patent/EP2600565B1/en not_active Not-in-force
- 2010-09-15 WO PCT/CN2010/076969 patent/WO2012012962A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1859219A (zh) * | 2006-04-18 | 2006-11-08 | 华为技术有限公司 | 基于设备容灾的业务接管方法、业务转接设备及备份机 |
CN101547084A (zh) * | 2008-03-24 | 2009-09-30 | 大唐移动通信设备有限公司 | 一种多媒体广播业务传输系统及方法 |
CN101621413A (zh) * | 2009-08-20 | 2010-01-06 | 中兴通讯股份有限公司 | 实现对web服务器进行负载均衡和容灾的装置及方法 |
CN101719179A (zh) * | 2009-11-18 | 2010-06-02 | 司光亚 | 一种大规模虚拟个体基础属性逆向生成方法 |
CN101902357A (zh) * | 2010-06-29 | 2010-12-01 | 中兴通讯股份有限公司 | 对业务服务器进行调度的方法和系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102932196B (zh) * | 2011-08-11 | 2015-10-07 | 中国移动通信集团浙江有限公司 | 一种主机系统状态的检测方法和装置 |
CN102932196A (zh) * | 2011-08-11 | 2013-02-13 | 中国移动通信集团浙江有限公司 | 一种主机系统状态的检测方法和装置 |
CN102291262A (zh) * | 2011-09-01 | 2011-12-21 | 中兴通讯股份有限公司 | 一种容灾的方法、装置及系统 |
CN102291262B (zh) * | 2011-09-01 | 2018-03-23 | 中兴通讯股份有限公司 | 一种容灾的方法、装置及系统 |
CN103580883A (zh) * | 2012-07-19 | 2014-02-12 | 中兴通讯股份有限公司 | 一种业务容灾方法及系统 |
CN103580883B (zh) * | 2012-07-19 | 2018-09-11 | 南京中兴软件有限责任公司 | 一种业务容灾方法及系统 |
CN103812675A (zh) * | 2012-11-08 | 2014-05-21 | 中兴通讯股份有限公司 | 一种实现业务交付平台异地容灾切换的方法和系统 |
CN104954157A (zh) * | 2014-03-27 | 2015-09-30 | 中国移动通信集团湖北有限公司 | 一种故障自愈方法及系统 |
CN104954157B (zh) * | 2014-03-27 | 2018-12-04 | 中国移动通信集团湖北有限公司 | 一种故障自愈方法及系统 |
CN104734886A (zh) * | 2015-03-10 | 2015-06-24 | 青岛海尔智能家电科技有限公司 | 一种业务服务器的管理方法、装置及系统 |
CN107770398A (zh) * | 2016-08-22 | 2018-03-06 | 中兴通讯股份有限公司 | 呼叫中心的容灾方法及系统 |
CN106502823A (zh) * | 2016-09-29 | 2017-03-15 | 北京许继电气有限公司 | 数据云备份方法和系统 |
CN106776140A (zh) * | 2016-12-21 | 2017-05-31 | 博飞信息科技(上海)有限公司 | 超容灾备恢复一体机的装置及方法 |
CN116382967A (zh) * | 2023-06-02 | 2023-07-04 | 北京国电通网络技术有限公司 | 用于服务器设备固件故障的自动处理方法、电子设备 |
CN116382967B (zh) * | 2023-06-02 | 2023-09-12 | 北京国电通网络技术有限公司 | 用于服务器设备固件故障的自动处理方法、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
EP2600565A4 (en) | 2014-06-11 |
WO2012012962A1 (zh) | 2012-02-02 |
CN101902361B (zh) | 2014-09-10 |
EP2600565A1 (en) | 2013-06-05 |
EP2600565B1 (en) | 2016-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101902361B (zh) | 容灾业务系统及容灾方法 | |
EP2648114B1 (en) | Method, system, token conreoller and memory database for implementing distribute-type main memory database system | |
CN102571452B (zh) | 多节点管理的方法和系统 | |
EP2911341B1 (en) | Method and device for dynamically switching gateway of distributed resilient network interconnect | |
CN109005045B (zh) | 主备服务系统及主节点故障恢复方法 | |
CN102394914A (zh) | 集群脑裂处理方法和装置 | |
CN105933391A (zh) | 一种节点扩容方法、装置及系统 | |
CN102148850A (zh) | 一种集群系统的业务处理方法及集群系统 | |
CN103298016A (zh) | 移动终端的测试系统 | |
CN103312809A (zh) | 云平台中服务的分布式管理方法 | |
CN111949444A (zh) | 一种基于分布式服务集群的数据备份与恢复系统及方法 | |
CN104158707A (zh) | 一种检测并处理集群脑裂的方法和装置 | |
CN102664757B (zh) | 一种存储设备的级联方法及装置 | |
CN101227333B (zh) | 一种容灾网管系统及其网管客户端的登陆方法 | |
CN110391940A (zh) | 服务地址的响应方法、装置、系统、设备和存储介质 | |
CN102299814B (zh) | 一种snmp代理上管理信息库的升级方法和系统 | |
KR20090073130A (ko) | 네트워크 엘리먼트에서의 무정지형 매체 액세스 제어 어드레스 할당 | |
CN109189854A (zh) | 提供持续业务的方法及节点设备 | |
KR101430570B1 (ko) | 분산 컴퓨팅 시스템 및 상기 분산 컴퓨팅 시스템에서의 장애 복구 방법 | |
CN114124803B (zh) | 设备管理方法、装置、电子设备及存储介质 | |
CN116346582A (zh) | 一种实现主备双网冗余方法、装置、设备及存储介质 | |
JP2011145861A (ja) | 災害時自動切換えシステムとその処理方法 | |
CN107342905A (zh) | 一种集群存储系统故障转移的节点调度方法及系统 | |
CN103593369B (zh) | Hss数据查询、更新方法及处理系统 | |
CN107590032A (zh) | 存储集群故障转移的方法及存储集群系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170817 Address after: 151600, Wang Guitun, development village, Chun Ying Village, Qinggang County, Heilongjiang, Suihua Patentee after: Cong Xiuling Address before: 518057 Nanshan District science and technology, Guangdong Province, South Road, No. 55, No. Patentee before: ZTE Corporation |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140910 Termination date: 20180726 |
|
CF01 | Termination of patent right due to non-payment of annual fee |