CN101079747A - 多机热备的系统及其容错方法 - Google Patents

多机热备的系统及其容错方法 Download PDF

Info

Publication number
CN101079747A
CN101079747A CN 200710130296 CN200710130296A CN101079747A CN 101079747 A CN101079747 A CN 101079747A CN 200710130296 CN200710130296 CN 200710130296 CN 200710130296 A CN200710130296 A CN 200710130296A CN 101079747 A CN101079747 A CN 101079747A
Authority
CN
China
Prior art keywords
server
standby server
standby
application server
hot swap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710130296
Other languages
English (en)
Inventor
李斯特
洪源宗
杨志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YOUWANGTONG INTERNATIONAL INFORMATION CO Ltd
Original Assignee
YOUWANGTONG INTERNATIONAL INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YOUWANGTONG INTERNATIONAL INFORMATION CO Ltd filed Critical YOUWANGTONG INTERNATIONAL INFORMATION CO Ltd
Priority to CN 200710130296 priority Critical patent/CN101079747A/zh
Publication of CN101079747A publication Critical patent/CN101079747A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开一种多机热备的系统及其容错方法,是利用多个串联的备用服务器对多个应用服务器进行侦测与监控,通过一备用服务器以并联的方式与所有的应用服务器连接,而其他备用服务器则相互侦测,当一应用服务器发生错误时,异常的心跳信号侦测使得与其直接连接的备用服务器立刻取代发生错误的应用服务器,而同时与此备用服务器连接的另一备用服务器则立即接替原来的备用服务器,继续对所有应用服务器进行侦测与监控。因此,利用本发明多机热备的系统及其容错方法使得应用服务器中的程式与任务不会产生中断,同时可通过较少的备用服务器设置达到较高的容错能力。

Description

多机热备的系统及其容错方法
技术领域
本发明涉及一种热备的架构及其容错方法,特别是有关一种多机热备的系统及其容错方法。
背景技术
越来越多关键的信息应用通过处理能力强大的电脑进行运算或储存,不过一旦发生电脑系统故障或应用停机,将带来巨大的损失,尤其是对那些需要保障信息安全和提供不间断的信息服务的机构来说,如何保障各种关键应用持续营运,达到系统的持续性和可靠性,使整个系统能连续不间断的提供服务,已成为信息应用领域急需解决的重要课题,因此,容错电脑应用系统成为未来发展的主要趋势。
而就现行的电脑应用系统的服务器容错技术而言,主要可分为三大主流,分别为单机容错技术、双机热备技术和负载均衡集群技术,其中,针对不同需求与不同系统设计,分别将此常见的容错方法应用在同一电脑应用系统中,举例来说,如图1所示的一种现有大型网络视频系统,在此网络视频系统1中,其一端是中心服务器121、122、…、129,由网络与视频使用者10互动,另一端则是应用服务器161、162、…、169,由网络与前端设备181、182、…、189互动,其中,前端设备181、182、…、189包括数位摄影机(DVR)、影像服务器(video server)、网络摄影机(IP Camera)、输入输出控制器(I/Ocontroller)、存取控制器(access controller)…等等,而中心服务器121、122、…、129与分发服务器141、142、…、149采用负载均衡集群或是双机互备的模式以对使用者10提供服务,因此,在使用者10向系统提出服务请求时,系统会主动地将使用者10提出的服务进行分派,使相对应的中心服务器121、122、…、129与分发服务器141、142、…、149以提供服务,而无须事先指定使用者10与中心服务器121、122、…、129、分发服务器141、142、…、149之间的关系。但是相对应于这些前端设备181、182、…、189而言,此前端设备181、182、…、189与应用服务器161、162、…、169之间的配置关系在设定后就相对地固定,换言之,应用服务器161、162、…、169对于前端设备181、182、…、189的视频、警报…等等即时资料采集,或是关于设备调控方面,都必须考虑即时性(real time)与时间延续(time continuous)的关系,且在正常的运作状况下,因为此前端设备181、182、…、189与固定的应用服务器161、162、…、169之间的连接关系并非通过浮动式的选取模式,因此应用服务器161、162、…、169并不适合负载均衡集群的模式运作,且又因为此种具有两端对外的网络服务系统中的一端来自使用者10,因此使用者10与应用服务器161、162、…、169的一端适合采用浮动方式的连接关系,不过应用服务器161、162、…、169的另一端由于与网络的前端设备181、182、…、189连接,因此在应用服务器161、162、…、169对前端设备181、182、…、189做即时的调控时,若利用浮动方式选择应用服务器161、162、…、169,则即时的视频或是警报可能早已丢失,因此,在与前端设备181、182、…、189连接的网络监控与选择方法上,选择主从模式(Active/Standby)的双机热备方法优于负载均衡集群或是双机互备(Active/Active)的模式,换言之,本实施例中所提供的系统架构,每一应用服务器161、162、…、169系各自连接一备用服务器171、172、…、179以对相对应的应用服务器进行侦测与监控。
不过由于单机容错技术需要采用价格昂贵的高可用性(high availability,HA)或不停顿(Non-Stop)的特殊电脑主机,因此,对于整体建构成本而言较不划算,且若要达到较高的容错能力,则相对地需要较多的备用主机以达成目的。
发明内容
本发明提出的一种多机热备的系统及其容错方法,以解决整体建构成本过高,若达到较高的容错能力时,备用主机需求过多等问题。
本发明的主要目的,提出一种多机热备的系统及其容错方法,使用于应用服务器的监控方法中。
本发明的另一目的,提出一种多机热备的系统及其容错方法,利用心跳信号的监控方式以确认被监控的服务器是否有发生异常,从而进一步通过备用服务器继续正在进行的程式。
为达上述目的,本发明首先提供一种多机热备的系统,包括多个应用服务器以及多个备用服务器,其中,备用服务器包括至少一第一备用服务器与至少一第二备用服务器,且第一备用服务器与第二备用服务器之间利用串联方式相互连接,通过第一备用服务器与所有的应用服务器连接,且第二备用服务器则与第一备用服务器连接,因此一旦第一备用服务器发现与其连接的应用服务器发生错误时,则第一备用服务器取代发生错误的应用服务器,使得原本执行于应用服务器中的所有程式可转移至第一备用服务器中以继续正常地运作而不会有中断的问题产生,并再利用第二备用服务器取代第一备用服务器的角色继续对所有的应用服务器进行监控。此外,已经修复的应用服务器则用来做为第二备用服务器。
另外,本发明提供一种多机热备系统的容错方法,包括以下步骤,首先,第一备用服务器侦测到至少一心跳信号发生异常;然后,根据产生异常的心跳信号的路径找出发生错误的应用服务器;通过第一备用服务器完全取代发生错误的应用服务器;最后,命令第二备用服务器来取代第一备用服务器,使第二备用服务器继续进行执行对所有应用服务器运作的监控任务。
本发明多机热备的系统及其容错方法利用串联的备用服务器做为监控应用服务器,对于整体服务器系统在进行操作时,程式执行的过程中具有即时性以及保持时间延续性的特性,并且通过设置较少数量的备用服务器以达到较高容错次数的目的。
与现有技术相比,本发明具有以下优点:
本发明多机热备的系统及其容错方法能够应用在不适合浮动式选择服务器的系统中,并通过由多个串联的备用服务器结构降低系统的成本,同时在利用较少备用服务器的前提下,仍然能够达到承担较多错误发生的目标。
附图说明
图1为现有大型网络视频系统;
图2为本发明多机热备的系统架构示意图;
图3为本发明多机热备的系统容错方法的步骤流程图;
图4为应用本发明多机热备的系统大型网络视频系统的架构示意图。
主要组件符号说明如下:
1网络视频系统
10使用者
121、122、…、129中心服务器
141、142、…、149分发服务器
161、162、…、169应用服务器
171、172、…、179备用服务器
181、182、…、189前端设备
2网络视频系统
20使用者
221、222、…、229中心服务器
241、242、…、249分发服务器
261、262、263、264、…、269应用服务器
271、272、273、…、279备用服务器
281、282、…、289前端设备
具体实施方式
当一网络系统无法采用负载均衡集群或是双机互备模式的状态下,为了有效控制成本并且兼顾容错的能力,本发明提出一种多机热备的系统及其容错方法解决此问题。
图2为本发明多机热备的系统架构示意图,在此实施例中,有N个应用服务器261、262、263、264、…、269以分别执行其内部的应用程式,同时每个应用服务器261、262、263、264、…、269在一定的时序下产生一心跳信号做为通讯信号,且为了降低此心跳信号在传递过程中所受到的干扰,在每一应用服务器261、262、263、264、…、269中装设双网设备以建立心跳信号的专属网段,与N个应用服务器261、262、263、264、…、269相连接的一第一备用服务器271,通过并联的连接方式,此第一备用服务器271同时接收来自于N个应用服务器261、262、263、264、…、269所产生的心跳信号进行监控与侦测,而至少一第二备用服务器272、273、…、279通过串联的方式与第一备用服务器271进行连接,且第一备用服务器271在对应用服务器261、262、263、264、…、269进行监控的同时,第二备用服务器272也同时利用心跳信号的侦测方式对与其连接的第一备用服务器271进行监控与侦测。
根据图2的系统架构可知,其实际的运作流程如下所述,当第一备用服务器271侦测出第二应用服务器262所产生的心跳信号有异常的情形时,例如,第二应用服务器262不再产生心跳信号至第一备用服务器271、或是第二应用服务器262所产生的心跳信号被检验出错误等等情形,则第一备用服务器271立刻与第二应用服务器262进行所有程式的指令交换,使得原本进行于第二应用服务器262中的程式与任务立即地转移至第一备用服务器271中,并且利用第一备用服务器271继续进行所有程式与任务的执行,同时,串联于第一备用服务器271的第二备用服务器272因为不再接收到来自第一备用服务器271所产生心跳信号,因此,第二备用服务器272立即取代原本的第一备用服务器271以与第一应用服务器261、第三应用服务器263、第四应用服务器264、…、第N应用服务器269以及取代第二应用服务器262的第一备用服务器271进行连接,而与第二备用服务器272连接的另一第二备用服务器273,则取代了原本的第二备用服务器272继续进行侦测;换言之,相对应于图2中多机热备系统的容错方法能够整理为图3中所涉及的步骤流程图,首先,在步骤S1中,通过第一备用服务器271侦测到异常的心跳信号;然后,在步骤S2中,通过第一备用服务器271根据发生异常的心跳信号找出发生错误的第二应用服务器262;然后,在步骤S3中,利用第一备用服务器271完全取代发生错误的第二应用服务器262,使得原本第二应用服务器262的程式与任务立即移转至第一备用服务器271内而不发生中断现象;最后,在步骤S4中,命令第二备用服务器272来取代第一备用服务器271,使原本执行于第一备用服务器271的监控与侦测任务继续在第二备用服务器272中进行。
此外,上述发生错误的第二应用服务器在经过修复后,转而做为第二备用服务器,换言之,对于整体系统而言,虽然其中一应用服务器发生错误被另一备用服务器取代,不过在经过修复后,重新将发生错误的应用服务器修复做为备用,因此,整体系统不会随着发生错误的应用服务器增多而增加了备用服务器的负荷。同时,此应用服务器也与另一负载均衡的系统连接,因此对传送至此应用服务器中多个相同信息的请求,例如:向同一设备取得即时信息的情况下,由应用服务器将一份信息传给具负载均衡机制的前端服务器,例如:分发服务器,再由前端服务器传送给使用者,使整体系统的各个应用服务器不会发生负载过重的情况。
以上为应用服务器与备用服务器的连接关系与运作进行说明。下面,则应用本发明所提出的一种多机热备的系统大型网络视频系统,图4为大型网络视频系统的架构示意图,在本实施例中,一使用者20向网络视频系统2提出请求视频服务的信号,通过网络将此信号首先传送至多个中心服务器221、222、…、229与分发服务器241、242、…、249内,此中心服务器221、222、…、229与分发服务器241、242、…、249则通过负载均衡集群的模式平均地将各个请求服务的信号分配至相对应的中心服务器221、222、…、229或是分发服务器241、242、…、249中,此网络视频系统2的另一端则通过N个应用服务器261、262、…、269与相对应之前端设备281、282、…、289连接,此应用服务器261、262、…、269同时接收来自分发服务器241、242、…、249与使用者20的请求服务信号,并依据此请求服务的信号驱动或开启相对应的前端设备281、282、…、289,由于所有的应用服务器261、262、…、269与一备用服务器271以并联的方式进行连接,而一备用服务器271又以串联的方式与多个备用服务器272、273、…、279连接,其中,与应用服务器261、262、…、269连接的备用服务器271通过接收来自应用服务器261、262、…、269心跳信号的正常与否来侦测并监控所有的应用服务器261、262、…、269,而串联的备用服务器271、272、273、…、279则利用相互连接的备用服务器271、272、273、…、279之间的心跳信号交换彼此进行侦测与监控,因此,当其中一应用服务器262所产生的心跳信号发生异常时,与此应用服务器261、262、…、269连接的备用服务器271立即与发生错误的应用服务器262进行指令集的转移,取代发生错误的应用服务器262并继续执行其内部的程式与任务,使原本执行此应用服务器271内的所有程式与任务不会中断,同时,当此备用服务器271正与发生错误的应用服务器262进行指令集的转移时,同时发送一异常的心跳信号给与其连接的另一备用服务器272,因此,当接收到来自备用服务器271所发送出的异常心跳信号后,此备用服务器272随即取代备用服务器271对所有应用服务器261、262、…、269进行侦测与监控,其中此时的应用服务器262由备用服务器271取代,同时,串联于此备用服务器272的备用服务器273则继续对备用服务器272进行侦测与监控。另外,上述的中心服务器221、222、…、229与分发服务器241、242、…、249除了利用负载均衡模式以进行侦测外,还能采用双机互备模式以进行侦测。
综合上述,本发明多机热备的系统及其容错方法能够应用在不适合浮动式选择服务器的系统中,并通过由多个串联的备用服务器结构降低系统的成本,同时在利用较少备用服务器的前提下,仍然能够达到承担较多错误发生的目标。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1、一种多机热备的系统,其特征在于,包括:
多个应用服务器;以及
多个备用服务器,所述备用服务器以串联方式相互连接,且所述备用服务器包括至少一第一备用服务器与至少一第二备用服务器,通过所述第一备用服务器与所述应用服务器连接并监控所有所述应用服务器的运作,所述应用服务器发生错误则所述第一备用服务器取代发生错误的应用服务器使所有程式正常运作,并通过第二备用服务器以取代所述第一备用服务器来继续进行监控。
2、如权利要求1所述多机热备的系统,其特征在于,所述应用服务器与所述第一备用服务器之间利用心跳信号进行联系,所述第一备用服务器主动侦测所述应用服务器是否正常。
3、如权利要求1所述多机热备的系统,其特征在于,所述应用服务器利用网络接入多个设备。
4、如权利要求1所述多机热备的系统,其特征在于,所述第一备用服务器利用一对一关系对所述应用服务器进行监控。
5、如权利要求1所述多机热备的系统,其特征在于,所述第一备用服务器利用一对多关系对所述应用服务器进行监控。
6、如权利要求1所述多机热备的系统,其特征在于,所述第一备用服务器与所述第二备用服务器之间彼此监控。
7、一种多机热备的容错方法,其特征在于,包括下列步骤:
侦测至少一心跳信号发生异常;
利用至少一第一备用服务器根据发生异常的所述心跳信号找出发生错误的一应用服务器;
通过所述第一备用服务器完全取代发生错误的所述应用服务器的运作;以及
命令至少一第二备用服务器来取代所述第一备用服务器,使所述第二备用服务器继续进行监控。
8、如权利要求7所述多机热备的容错方法,其特征在于,侦测至少一所述心跳信号发生异常的现象,包括无法收到所述心跳信号的情形。
9、如权利要求7所述多机热备的容错方法,其特征在于,通过所述第一备用服务器完全取代发生错误的所述应用服务器运作的方法,利用所述第一备用服务器执行取代程序实现。
10、如权利要求7所述多机热备的容错方法,其特征在于,通过所述第一备用服务器完全取代发生错误的所述应用服务器运作的方法,利用所述第一备用服务器与所述应用服务器之间进行指令交换实现,而进行交换的指令包括应用软件、心跳软件、资料库、网际网络通讯协议地址、网络设定。
CN 200710130296 2007-07-18 2007-07-18 多机热备的系统及其容错方法 Pending CN101079747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710130296 CN101079747A (zh) 2007-07-18 2007-07-18 多机热备的系统及其容错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710130296 CN101079747A (zh) 2007-07-18 2007-07-18 多机热备的系统及其容错方法

Publications (1)

Publication Number Publication Date
CN101079747A true CN101079747A (zh) 2007-11-28

Family

ID=38906992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710130296 Pending CN101079747A (zh) 2007-07-18 2007-07-18 多机热备的系统及其容错方法

Country Status (1)

Country Link
CN (1) CN101079747A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101873223A (zh) * 2010-05-27 2010-10-27 天讯瑞达通信技术有限公司 基于ip切换的n+m服务备份机制
CN101895540A (zh) * 2010-07-12 2010-11-24 中兴通讯股份有限公司 用于应用服务进程守护的系统和方法
CN101876926B (zh) * 2009-11-26 2012-06-20 北京航空航天大学 一种非对称结构的软件三机热备容错方法
CN101723250B (zh) * 2009-12-24 2012-12-05 齐齐哈尔轨道交通装备有限责任公司 起重机安全控制方法和系统
CN103067206A (zh) * 2012-12-28 2013-04-24 无锡博欧节能科技有限公司 物联网跨机房分布式全自动热备用服务器切换系统
CN104503932A (zh) * 2015-01-07 2015-04-08 加弘科技咨询(上海)有限公司 多主板服务器主基板管理控制器仲裁方法及系统
CN104980693A (zh) * 2014-04-11 2015-10-14 深圳中兴力维技术有限公司 媒体服务备份方法及系统
CN108073477A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 设备监控系统、设备和设备监控方法
TWI704464B (zh) * 2019-06-10 2020-09-11 神雲科技股份有限公司 資料備援系統
CN113256174A (zh) * 2021-06-30 2021-08-13 天聚地合(苏州)数据股份有限公司 异常订单处理方法、装置、存储介质及设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876926B (zh) * 2009-11-26 2012-06-20 北京航空航天大学 一种非对称结构的软件三机热备容错方法
CN101723250B (zh) * 2009-12-24 2012-12-05 齐齐哈尔轨道交通装备有限责任公司 起重机安全控制方法和系统
CN101873223A (zh) * 2010-05-27 2010-10-27 天讯瑞达通信技术有限公司 基于ip切换的n+m服务备份机制
CN101895540A (zh) * 2010-07-12 2010-11-24 中兴通讯股份有限公司 用于应用服务进程守护的系统和方法
CN101895540B (zh) * 2010-07-12 2015-08-12 中兴通讯股份有限公司 用于应用服务进程守护的系统和方法
CN103067206A (zh) * 2012-12-28 2013-04-24 无锡博欧节能科技有限公司 物联网跨机房分布式全自动热备用服务器切换系统
CN103067206B (zh) * 2012-12-28 2016-07-06 无锡博欧节能科技有限公司 物联网跨机房分布式全自动热备用服务器切换系统
CN104980693A (zh) * 2014-04-11 2015-10-14 深圳中兴力维技术有限公司 媒体服务备份方法及系统
CN104503932A (zh) * 2015-01-07 2015-04-08 加弘科技咨询(上海)有限公司 多主板服务器主基板管理控制器仲裁方法及系统
CN108073477A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 设备监控系统、设备和设备监控方法
TWI704464B (zh) * 2019-06-10 2020-09-11 神雲科技股份有限公司 資料備援系統
CN113256174A (zh) * 2021-06-30 2021-08-13 天聚地合(苏州)数据股份有限公司 异常订单处理方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN101079747A (zh) 多机热备的系统及其容错方法
US20080301489A1 (en) Multi-agent hot-standby system and failover method for the same
CN202798798U (zh) 基于云计算技术的高可用系统
KR100420266B1 (ko) 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치
CN101179432A (zh) 一种多机环境中实现系统高可用的方法
US9645900B2 (en) Warm standby appliance
US8713352B2 (en) Method, system and program for securing redundancy in parallel computing system
KR20110044858A (ko) 데이터 센터들에 걸쳐 데이터 서버들내 데이터 무결정의 유지
CN1892612A (zh) 集群可用性管理方法和系统
CN104794028A (zh) 一种容灾处理方法、装置、主用数据中心和备用数据中心
CN102880522A (zh) 面向硬件故障的系统关键文件故障纠正方法及装置
CN101056254B (zh) 一种网络存储设备的扩展方法、系统及其装置
CN105579973A (zh) 冗余系统以及冗余系统管理方法
US20030177224A1 (en) Clustered/fail-over remote hardware management system
JP4592511B2 (ja) Ipネットワークサーバのバックアップシステム
JP5663981B2 (ja) ストレージ装置、ストレージ装置のコントローラおよびストレージ装置の制御方法
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
JP2007334764A (ja) Nasシステムおよびnasシステムの情報処理方法
JP4495248B2 (ja) 情報処理装置、障害処理方法
CN104536361B (zh) 一种数据处理方法以及冗余控制系统
CN201830376U (zh) 一种具有raid功能的硬盘录像机
CN112667428A (zh) Bmc故障处理电路、方法、装置、电子设备及存储介质
CN112650168A (zh) 分布式控制系统及其动态调度资源的方法
CN112181705A (zh) 基于多控制器的管理存储控制方法及存储设备
JP5353378B2 (ja) Haクラスタシステムおよびそのクラスタリング方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20071128