CN1464396A - 一种在服务器之间实现备份的方法 - Google Patents

一种在服务器之间实现备份的方法 Download PDF

Info

Publication number
CN1464396A
CN1464396A CN 02112320 CN02112320A CN1464396A CN 1464396 A CN1464396 A CN 1464396A CN 02112320 CN02112320 CN 02112320 CN 02112320 A CN02112320 A CN 02112320A CN 1464396 A CN1464396 A CN 1464396A
Authority
CN
China
Prior art keywords
machine
main computer
guest machine
node
arbitration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 02112320
Other languages
English (en)
Other versions
CN100388218C (zh
Inventor
丁震
陈世忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Innovation Polymerization LLC
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CNB021123209A priority Critical patent/CN100388218C/zh
Publication of CN1464396A publication Critical patent/CN1464396A/zh
Application granted granted Critical
Publication of CN100388218C publication Critical patent/CN100388218C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明提出了一种在服务器系统实现备份的方法,包括步骤:N台主用机和1台备用机上启动业务处理程序;N台主用机协同工作;同时,备用机以某给定的频率向其它主用机发送链路检测IP消息并等待相应的响应,从而监视它们的状态;如果备用机确认出现了故障机,修改仲裁数据,并将新的仲裁数据通知给其它业务服务器,然后重新启动自己,成为新主用机,接管故障机工作;故障机在故障排除后再次启动业务程序,成为新备用机,继续工作。本发明的备用机能够主动发现并接管发生故障的主用机,故障机在修复故障后作为新的备用机重新加入系统;这样既能保证短消息设备的性能和稳定性,又节省业务处理服务器设备成本,提高了服务器设备的市场竞争能力。

Description

一种在服务器之间实现备份的方法
技术领域
本发明涉及一种在服务器程序之间实现备份的方法,尤其涉及移动通讯领域的短消息系统中业务服务程序之间的N:1冗余备份。
背景技术
随着移动通讯的发展,短消息成为广大用户喜爱的业务,也成为电信运营商重要的利润来源,每年的短消息业务量已达数百亿条。迅速扩展的业务向对短消息设备的性能和稳定性提出了更高的要求。
在短消息系统中,业务服务器是业务处理的核心,往往需要对其进行双机冗余备份,即一台工作时另外一台处于准备状态,并不断的检测主用机的状态,一旦发现主用机故障,立刻接管它的工作。解决方案一般是依赖于操作系统或第三方的群集软件。
同时,为了提高短消息中心的处理能力,需要若干台业务服务器协同工作。在此情况下,如果继续使用原双机备份方案,就需要为每一台工作的业务处理机准备一台备用机,这样一来,设备的成本将成倍增加。
因此,既不能削减性能和稳定性,又要最大限度的降低设备的成本成为急待解决的一对矛盾。
在中国专利申请号为01106482的专利申请中,提及了一种业务服务器之间协作备份的方案。在该方案中,某一服务器负责分配任务,其它若干服务器负责处理任务。在系统中,负责分配任务的服务器成为系统的危险点,此专利申请的技术方案是对该服务器进行了备份。所以说,该方案在系统中引入了新的危险点,而对危险点的备份仍然是一种1∶1的双机备份思路。
发明内容
本发明要解决的技术问题是为了克服了现有短消息设备中对每台业务处理服务器都需要进行双机备份,造成成本较高的缺点,提出了一种N:1,即多台主用机加一台备用机进行备份的方法。
本发明的技术方案如下所述:
第一步
N台主用机和1台备用机上的业务处理程序按照先主用机后备用机的顺序启动。启动过程中所有的业务处理程序都从系统中的同一处读取一仲裁数据,该仲裁数据包含这N+1台业务服务器的主用或备用角色的信息。也就是说,所有的服务器知道自己的角色和其它机器的角色;
第二步
N台主用机协同工作;同时,备用机以某给定的频率向其它主用机发送链路检测IP消息并等待相应的响应,从而监视它们的状态;
第三步
如果备用机没有收到某台主用机的响应消息,则将对应该主用机的失败次数计数器加一。如果此失败次数计数器未达到设定的阀值,则继续第二步;否则,到第四步;
第四步
备用机确认故障机,修改上述的仲裁数据,并将新的仲裁数据通知给其它业务服务器,然后重新启动自己,使之成为新主用机,接管故障机工作;
第五步
故障机在故障得以排除后再次启动业务程序,使自己成为新备用机,返回第二步继续。
采用本发明所述方法,与现有技术相比,由于采取了N:1冗余备份的技术措施,备用机能够主动发现并接管发生故障的主用机,故障机在修复故障后可以作为新的备用机重新加入系统。这样既能保证短消息设备的性能和稳定性,又节省了N-1台业务处理服务器的设备成本,提高了短消息设备的市场竞争能力。
附图说明
图1是业务服务器在系统中的位置示意图。
图2是系统中备用机运行的主要流程图。
图3为本发明方法中业务服务器启动的主要过程。
图4为本发明方法中备用机启动后进行链路检测的主要过程。
图5为本发明方法中备用机检测系统中是否存在故障机,以及接管故障机的主要过程。
具体实施方式
图1介绍了N:1备份方案在通讯系统短消息中心工程环境下的具体实施。整个系统在TCP/IP的网络环境上构建,各节点可以通过消息互相访问。图1中参与N:1备份工作的主要包括4个业务服务器节点和1个仲裁数据节点。其中,仲裁数据节点保存有各业务服务器节点的当前角色,即谁是主用,谁是备用。仲裁数据可以存放在数据库中,也可以采取其它存储方式。各业务服务器程序启动时都要从仲裁数据节点读取仲裁数据,从而知道自己的角色和系统中其它各业务服务器的角色。在某一时刻,图1中的4个业务服务器节点只有1个备用机(即图1中的业务服务器4),其余3个为主用机。本图中的其它服务器是所有其它节点的概括示意,根据需要,可以包括网关,操作维护服务器等。
图2是备用机的主用工作流程。从图2中可见,备用机的工作主要有三个重要的步骤:启动、监测、接管。首先服务器启动,确认自身是备机(启动过程详见图3)。然后,备用机通过向各主用机发送消息并等待响应的机制来监测它们的状态(监测过程详见图4)。备用机根据监测的结果,按照一定的机制,判断出系统中是否有业务服务器节点发生了故障,并执行相应的动作,接管该故障机的工作(接管过程详见图5)。主用机启动后直接处理业务。
图3是业务服务器启动的主用流程。启动时需要从仲裁数据节点读取当前的仲裁数据,如本例中把业务服务器4配置为备用机,其余为主用机。这样,业务服务器1、2、3启动后成为主用机并相互协作处理业务;业务服务器4启动后成为备用机。备机启动后的主用工作包括:初始化状态表、计数器和启动两个定时器。状态表记录了所有主用业务服务器的状态,状态可以是正常或者断路,根据链路检测的结果动态更新(详见图4),所有节点初始化为正常。计数器是指各主用业务服务器的失败次数计数器,每个主机对应一个计数器。备用机检测到某主用业务服务器断路一次,就将对应的计数器加一(详见图5),所有计数器初始化为零。定时器是指链路检测定时器和失败计数器处理定时器,分别表示为定时器1和定时器2。根据需要,可将定时器1设置为3秒定时,即每3秒定时器到时,进入图4的处理流程;定时器2也设为3秒定时,每3秒进入图5的处理流程。
图4描述的是定时器1——链路检测定时器到时后的处理流程。备用机根据启动时读取的仲裁数据表,向仲裁数据表中每一主用机节点发送链路检测消息,并暂时先在业务服务器状态表中把每个节点的状态设为“断路”。全部发送完成后再次启动定时器1,然后等待链路检测消息的响应。当收到某节点的响应,就将对应的节点状态置为“正常”。
图5描述了定时器2——失败计数器处理定时器到时后的处理流程。定时器2到时,扫描图3中不断刷新的业务服务器状态表,根据扫描结果设置失败计数器表。如果某节点状态是“正常”,则将与它对应的失败计数器清零;如果某节点的状态是“断路”,则将与之对应的失败计数器加一。如果某节点的失败计数器的计数大于设定的阀值,比如20,则可确定此节点已经发生故障。然后,备用机修改仲裁节点上的仲裁数据,即将自己设成主用机,把故障节点设为新的备用机。下一步,把这新的仲裁数据发送给其它各业务服务器,再重新启动自己,成为真正的主用机,开始处理业务。如果这次没有发现任何故障节点,备机再次设定定时器2,等待下一次检查。另外,故障机在修复后重新加入系统,将成为新的备用机监测并随时准备接管其它服务器。
虽然本发明给出了针对通讯系统短消息业务服务器的实施例,但按照本发明的思路,本领域的一般技术人员完全可以在其它需要多台服务器备份的任何系统中实现N:1的备份。

Claims (7)

1、一种在服务器之间实现备份的方法,其特征在于:
第一步,N台主用机和1台备用机上的业务处理程序按照先主用机后备用机的顺序启动,启动过程中所有的业务处理程序都从系统中的同一处读取一仲裁数据;
第二步,N台主用机协同工作;同时,备用机以某给定的频率向其它主用机发送链路检测IP消息并等待相应的响应,从而监视它们的状态;
第三步,如果备用机没有收到某台主用机的响应消息,则将对应该主用机的失败次数计数器加一;如果此失败次数计数器未达到设定的阀值,则返回第二步;否则,到第四步;
第四步,备用机确认故障机,修改上述的仲裁数据,并将新的仲裁数据通知给其它业务服务器,然后重新启动自己,使之成为新主用机,接管故障机工作;
第五步,故障机在故障得以排除后再次启动业务程序,使自己成为新备用机,返回第二步继续。
2、根据权利要求1所述的实现备份的方法,其特征在于:所述步骤一中,还包括备机启动后的主要工作过程:初始化状态表、计数器和启动定时器1和定时器2。
3、根据权利要求1所述的实现备份的方法,其特征在于:所述步骤一中,启动过程中所有的业务处理程序都从系统中的同一处读取一仲裁数据,该仲裁数据包含这N+1台业务服务器的主用或备用角色的信息。
4、根据权利要求1所述的实现备份的方法,其特征在于,所述步骤二中,所述备用机以某给定的频率向其它主用机发送链路检测IP消息:当链路检测定时器1到时后,备用机根据启动时读取的仲裁数据表,向仲裁数据表中每一主用机节点发送链路检测消息,并暂时先在业务服务器状态表中把每个节点的状态设为“断路”;全部发送完成后再次启动定时器1,然后等待链路检测消息的响应;当收到某节点的响应,就将对应的节点状态置为“正常”。
5、根据权利要求2所述的实现备份的方法,其特征在于,当定时器2到时后,扫描业务服务器状态表,根据扫描结果设置失败计数器表;如果某节点状态是“正常”,则将与它对应的失败计数器清零;如果某节点的状态是“断路”,则将与之对应的失败计数器加一;如果某节点的失败计数器的计数大于设定的阀值,则确定此节点已经发生故障。
6、根据权利要求5所述的实现备份的方法,其特征在于,确定故障机后,备用机修改仲裁节点上的仲裁数据,即将自己设成主用机,把故障机设为新的备用机;并把新的仲裁数据发送给其它各业务服务器,再重新启动自己,成为真正的主用机,开始处理业务。
7、根据权利要求5或6所述的实现备份的方法,其特征在于,如果这次没有发现任何故障机,备用机再次设定定时器2,等待下一次检查。
CNB021123209A 2002-06-27 2002-06-27 一种在服务器之间实现备份的方法 Expired - Lifetime CN100388218C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021123209A CN100388218C (zh) 2002-06-27 2002-06-27 一种在服务器之间实现备份的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB021123209A CN100388218C (zh) 2002-06-27 2002-06-27 一种在服务器之间实现备份的方法

Publications (2)

Publication Number Publication Date
CN1464396A true CN1464396A (zh) 2003-12-31
CN100388218C CN100388218C (zh) 2008-05-14

Family

ID=29742140

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021123209A Expired - Lifetime CN100388218C (zh) 2002-06-27 2002-06-27 一种在服务器之间实现备份的方法

Country Status (1)

Country Link
CN (1) CN100388218C (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100353321C (zh) * 2004-02-21 2007-12-05 华为技术有限公司 具有主用和备用引导程序的系统及启动方法
CN100354835C (zh) * 2005-11-11 2007-12-12 哈尔滨工业大学 基于仲裁的容错服务器
CN100380326C (zh) * 2004-07-08 2008-04-09 国际商业机器公司 用于共享计算机资源的系统和方法
CN100391162C (zh) * 2005-04-13 2008-05-28 华为技术有限公司 一种切换服务器的控制方法
CN100392609C (zh) * 2005-02-17 2008-06-04 国际商业机器公司 产生高可用性伪克隆备用服务器的方法和系统
CN100392607C (zh) * 2005-03-18 2008-06-04 富士通株式会社 故障通知方法
CN100461697C (zh) * 2006-04-18 2009-02-11 华为技术有限公司 基于设备容灾的业务接管方法及备份机
CN100461106C (zh) * 2007-02-09 2009-02-11 无敌科技(西安)有限公司 一种开机程序的多重保护方法
CN101888610A (zh) * 2010-07-06 2010-11-17 中兴通讯股份有限公司 一种实现短消息业务的方法、系统和装置
CN1859423B (zh) * 2006-02-27 2010-12-08 华为技术有限公司 一种主机和转发设备同步切换的方法
CN101453366B (zh) * 2007-11-30 2011-03-23 英业达股份有限公司 实时修复联机的方法及系统
CN102075380A (zh) * 2010-12-16 2011-05-25 中兴通讯股份有限公司 一种服务器状态检测方法及装置
CN101453312B (zh) * 2007-11-30 2012-06-27 中国移动通信集团公司 一种对设备进行备份的方法和装置
CN102630046A (zh) * 2012-03-13 2012-08-08 深圳市九洲电器有限公司 数据获取系统、方法、机顶盒、网络服务器
CN101631204B (zh) * 2008-07-15 2012-10-31 北大方正集团有限公司 一种广播控制系统中的跟播方法及装置
CN1893370B (zh) * 2005-06-29 2013-01-30 国际商业机器公司 用于服务器群集恢复和维护的方法和系统
CN103902665A (zh) * 2014-03-11 2014-07-02 浪潮电子信息产业股份有限公司 一种存储虚拟化系统实现的方法
CN104980693A (zh) * 2014-04-11 2015-10-14 深圳中兴力维技术有限公司 媒体服务备份方法及系统
CN105897508A (zh) * 2016-04-01 2016-08-24 锐捷网络股份有限公司 一种分布式数据中心业务处理的方法和核心交换机
CN107276731A (zh) * 2016-04-01 2017-10-20 横河电机株式会社 冗余化装置、冗余化系统以及冗余化方法
CN109257220A (zh) * 2018-09-25 2019-01-22 中电科微波通信(上海)股份有限公司 备用采集终端以及轨道车辆设备数据采集系统
WO2020177471A1 (zh) * 2019-03-06 2020-09-10 中兴通讯股份有限公司 报文传输方法、装置及存储介质
CN112682955A (zh) * 2020-12-18 2021-04-20 广东芬尼克兹节能设备有限公司 一种热泵系统的机组替补控制方法及控制系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161895A (ja) * 1996-11-28 1998-06-19 Hitachi Ltd サーババックアップ方法
US6209051B1 (en) * 1998-05-14 2001-03-27 Motorola, Inc. Method for switching between multiple system hosts
JP2001045023A (ja) * 1999-08-02 2001-02-16 Matsushita Electric Ind Co Ltd ビデオサーバシステム及びビデオデータ配信方法
CN1198406C (zh) * 2000-09-02 2005-04-20 中兴通讯股份有限公司 通讯系统备份方法和设备

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100353321C (zh) * 2004-02-21 2007-12-05 华为技术有限公司 具有主用和备用引导程序的系统及启动方法
CN100380326C (zh) * 2004-07-08 2008-04-09 国际商业机器公司 用于共享计算机资源的系统和方法
CN100392609C (zh) * 2005-02-17 2008-06-04 国际商业机器公司 产生高可用性伪克隆备用服务器的方法和系统
CN100392607C (zh) * 2005-03-18 2008-06-04 富士通株式会社 故障通知方法
CN100391162C (zh) * 2005-04-13 2008-05-28 华为技术有限公司 一种切换服务器的控制方法
CN1893370B (zh) * 2005-06-29 2013-01-30 国际商业机器公司 用于服务器群集恢复和维护的方法和系统
CN100354835C (zh) * 2005-11-11 2007-12-12 哈尔滨工业大学 基于仲裁的容错服务器
CN1859423B (zh) * 2006-02-27 2010-12-08 华为技术有限公司 一种主机和转发设备同步切换的方法
US8055765B2 (en) 2006-04-18 2011-11-08 Huawei Technologies Co., Ltd. Service take-over method based on apparatus disaster recovery, service transfer apparatus and backup machine
CN100461697C (zh) * 2006-04-18 2009-02-11 华为技术有限公司 基于设备容灾的业务接管方法及备份机
CN100461106C (zh) * 2007-02-09 2009-02-11 无敌科技(西安)有限公司 一种开机程序的多重保护方法
CN101453312B (zh) * 2007-11-30 2012-06-27 中国移动通信集团公司 一种对设备进行备份的方法和装置
CN101453366B (zh) * 2007-11-30 2011-03-23 英业达股份有限公司 实时修复联机的方法及系统
CN101631204B (zh) * 2008-07-15 2012-10-31 北大方正集团有限公司 一种广播控制系统中的跟播方法及装置
WO2012003672A1 (zh) * 2010-07-06 2012-01-12 中兴通讯股份有限公司 一种实现短消息业务的方法、系统和装置
CN101888610A (zh) * 2010-07-06 2010-11-17 中兴通讯股份有限公司 一种实现短消息业务的方法、系统和装置
CN102075380A (zh) * 2010-12-16 2011-05-25 中兴通讯股份有限公司 一种服务器状态检测方法及装置
CN102630046A (zh) * 2012-03-13 2012-08-08 深圳市九洲电器有限公司 数据获取系统、方法、机顶盒、网络服务器
CN102630046B (zh) * 2012-03-13 2015-07-15 深圳市九洲电器有限公司 数据获取系统、方法、机顶盒、网络服务器
CN103902665A (zh) * 2014-03-11 2014-07-02 浪潮电子信息产业股份有限公司 一种存储虚拟化系统实现的方法
CN104980693A (zh) * 2014-04-11 2015-10-14 深圳中兴力维技术有限公司 媒体服务备份方法及系统
CN105897508A (zh) * 2016-04-01 2016-08-24 锐捷网络股份有限公司 一种分布式数据中心业务处理的方法和核心交换机
CN107276731A (zh) * 2016-04-01 2017-10-20 横河电机株式会社 冗余化装置、冗余化系统以及冗余化方法
CN107276731B (zh) * 2016-04-01 2021-03-26 横河电机株式会社 冗余化装置、冗余化系统以及冗余化方法
CN109257220A (zh) * 2018-09-25 2019-01-22 中电科微波通信(上海)股份有限公司 备用采集终端以及轨道车辆设备数据采集系统
CN109257220B (zh) * 2018-09-25 2021-10-29 中电科微波通信(上海)股份有限公司 备用采集终端以及轨道车辆设备数据采集系统
WO2020177471A1 (zh) * 2019-03-06 2020-09-10 中兴通讯股份有限公司 报文传输方法、装置及存储介质
CN112682955A (zh) * 2020-12-18 2021-04-20 广东芬尼克兹节能设备有限公司 一种热泵系统的机组替补控制方法及控制系统

Also Published As

Publication number Publication date
CN100388218C (zh) 2008-05-14

Similar Documents

Publication Publication Date Title
CN1464396A (zh) 一种在服务器之间实现备份的方法
Castelli et al. Proactive management of software aging
CN103607297A (zh) 一种计算机集群系统的故障处理方法
US7093013B1 (en) High availability system for network elements
EP2882136A2 (en) Method and system for implementing remote disaster recovery switching of service delivery platform
CN105302661A (zh) 一种实现虚拟化管理平台高可用的系统和方法
CN105306272A (zh) 信息系统故障场景信息收集方法及系统
CN109901969B (zh) 一种集中监控管理平台的设计方法及装置
CN113825164A (zh) 网络故障修复方法、装置、存储介质及电子设备
EP1800436A1 (en) Method and apparatus for determining impact of faults on network service
CN105589756A (zh) 批处理集群系统以及方法
CN112187511A (zh) 一种定位微服务熔断异常的方法、系统、设备及介质
KR20040091392A (ko) 웹을 이용한 원격 백업관리 시스템 및 그 시스템을 운용한백업관리 방법
CN102143011A (zh) 一种实现网络保护的装置及方法
CN102487332B (zh) 故障处理方法、装置和系统
CN112486713B (zh) 一种冻屏处理方法及电子设备
CN101958925A (zh) 一种控制远程设备的方法以及装置
CN104394033A (zh) 跨数据中心的监控系统、方法及装置
CN113987065A (zh) 数据库漂移方法、系统、电子设备和存储介质
CN113238893A (zh) 多数据中心的容灾系统、方法、计算机设备及介质
Corsava et al. Self-healing intelligent infrastructure for computational clusters
JPH07319836A (ja) 障害監視方式
CN111447329A (zh) 呼叫中心中状态服务器的监控方法、系统、设备及介质
CN110933066A (zh) 网络终端非法接入局域网的监控系统及方法
KR20010053866A (ko) 통신망에서의 장애복구용 트러블티켓 발행을 위한상태관리 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180426

Address after: California, USA

Patentee after: Global innovation polymerization LLC

Address before: 518057 Department of law, Zhongxing building, South Science and technology road, Nanshan District hi tech Industrial Park, Shenzhen

Patentee before: ZTE Corp.

TR01 Transfer of patent right
CX01 Expiry of patent term

Granted publication date: 20080514

CX01 Expiry of patent term