CN1642030A - 一种网管双机容灾备份的实现方法 - Google Patents

一种网管双机容灾备份的实现方法 Download PDF

Info

Publication number
CN1642030A
CN1642030A CN 200410002153 CN200410002153A CN1642030A CN 1642030 A CN1642030 A CN 1642030A CN 200410002153 CN200410002153 CN 200410002153 CN 200410002153 A CN200410002153 A CN 200410002153A CN 1642030 A CN1642030 A CN 1642030A
Authority
CN
China
Prior art keywords
disaster
monitoring program
server
network management
management system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410002153
Other languages
English (en)
Inventor
贺炜
黄西华
王佥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 200410002153 priority Critical patent/CN1642030A/zh
Publication of CN1642030A publication Critical patent/CN1642030A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种网管双机容灾备份的实现方法,所述网管双机容灾备份具有运行服务器和用于容灾的备份服务器,正常状态下在运行服务器上运行网管系统,并实时的将系统中的数据复制到容灾的备份服务器上,该方法为:至少在所述备份服务器上运行第一监控程序,该第一监控程序与所述运行服务器建立连接以检测运行服务器的工作状态,并在检测到所述运行服务器由于灾难导致瘫痪时自动在备份服务器上启动网管系统进行容灾恢复。

Description

一种网管双机容灾备份的实现方法
技术领域
本发明涉及网络系统的容灾技术,尤其涉及一种网管双机容灾备份的实现方法。
背景技术
软件系统的容灾备份是指在导致软件系统瘫痪的灾害(如:火灾、水灾、地震、人为破坏等)发生后,能够迅速恢复软件系统的运行,并保证系统中的数据不会丢失。通常采用的方法是在远离软件系统运行的地方建立一个容灾备份中心,然后定期将软件系统中的数据备份出来存放到容灾备份中心,当灾难发生导致软件系统瘫痪后,再通过这些备份的数据在容灾备份中心恢复软件系统的运行。对于电信网络管理系统这样的软件系统,系统需要实时收集电信网络中的各种事件通知(如:告警信息)。而当灾难发生系统瘫痪之后且容灾备份中心尚未恢复系统运行之前,这些事件将丢失。因此电信网络管理系统的容灾备份需要考虑的问题是:在保证数据备份的实时性基础上,如何快速地在容灾中心恢复系统运行。
现有的技术方案是利用数据复制程序将网管系统的数据通过网络实时复制到容灾中心的备份系统中,当灾难发生导致运行系统瘫痪后,由人工在容灾中心将备份系统启动,从而到达容灾恢复的目的。其实现原理如图1所示。
正常情况下,网管系统在运行服务器上运行,并通过数据复制程序实时将系统中的数据复制到容灾备份服务器的存储设备上。灾难发生后,当系统维护人员得知运行服务器由于某种原因瘫痪时,手工在备份服务器上启动网管系统。在运行服务器修复好之后,需要系统维护人员将备份服务器上运行的网管系统停止,然后将备份服务器中的数据手工同步到运行服务器(可通过网络传递数据,或者通过人工传递数据备份媒介,如磁带等),最后在运行服务器上重新启动网管系统,并重新启动数据复制程序。从而恢复系统正常情况下的状态。
尽管上述方案可以在一定程度上达到容灾目的,但还存在以下不足:
1、对灾难的响应不够迅速。由于需要人工启动备份系统,在无人值守的情况下,当灾难发生导致运行服务器瘫痪时,可能会导致系统长时间停机。对于网管系统,这样会导致其无法记录停机期间电信网络中的各种事件。
2、对系统维护人员的要求较高。配置、启动数据复制程序,同步数据,启动、停止网管系统等操作都需要一定的专业技能,对于维护人员提出了较高的要求。
3、无法实时监控容灾备份系统的状态。对于网管系统是否正常运行,数据复制是否正常,网络是否中断等状态都需要维护人员定期进行各项检查,这无形中提高了运维成本。
发明内容
本发明的目的在于提供一种网管双机容灾备份的实现方法,以解决现有容灾备份方案中存在对灾难的响应速度慢和对维护者要求高的问题。
实现本发明的技术方案:
一种网管双机容灾备份的实现方法,所述网管双机容灾备份具有运行服务器和备份服务器,正常状态下在运行服务器上运行网管系统,并实时的将系统中的数据复制到容灾的备份服务器上,其特征在于所述方法为,至少在所述备份服务器上运行第一监控程序,该第一监控程序与所述运行服务器建立连接并检测运行服务器的工作状态,并在检测到所述运行服务器由于灾难导致瘫痪时自动在备份服务器上启动网管系统进行容灾恢复。
根据上述方法:
在运行服务器上运行第二监控程序,所述第一监控程序与该第二监控程序通过心跳方式通信,当第一监控程序检测到第二监控程序心跳中断时确定运行服务器瘫痪,则自动在容灾备份服务器上启动网管系统进行容灾恢复。
所述第二监控程序还定时检测网管系统和/或数据复制程序的工作状态,如果检测到工作状态不正常时,则在向第一监控程序发送的心跳报文中携带状态信息,由第一监控程序自动在容灾备份服务器上启动网管系统进行容灾恢复。
所述第一、第二监控程序还相互检测对方服务器的运行状态。
当容灾备份服务器进行容灾恢复的过程中,第一监控程序检测到运行服务器恢复时进行自动切换,即在容灾备份服务器上停止网管系统的运行并在运行服务器上启动网管系统。
所述备份服务器提供一个图形用户终端,该图形用户终端与所述第一监控程序进行数据交换,并显示备份系统的状态信息。
本发明能够在无人值守的情况下,自动将系统在容灾备份中心进行恢复;通过后台监控程序自动完成对运行系统瘫痪的响应,因此极大地提高了对灾难的响应速度;由于自动化程度的提高,使系统维护人员可以很轻松地完成容灾备份任务;同时,监控终端图形化的用户界面使得系统维护人员能够实时、直观地监控容灾备份系统的状态,从而提高了运维效率。
附图说明
图1为现有技术中实现容灾备份的原理图;
图2A、2B为本发明实现容灾备份的原理图;
图3为灾难发生时由备份服务器恢复容灾的原理图。
具体实施方式
参阅图2A所示,在容灾备份服务器上运行第一监控程序。该监控程序检查运行服务器是否瘫痪,如果监控程序检查到运行服务器瘫痪,则自动在容灾备份服务器上启动网管系统,并停止数据复制程序的运行。该第一监控程序定时向运行服务器发送PING包,从而检测备份服务器与运行服务器之间的网络连接是否正常,当网络连接出现长时间中断后,该监控程序将认为运行服务器已经瘫痪,并将网管系统在备份服务器上启动。
在图2A的方式下,启动容灾恢复的唯一条件是整个运行服务器瘫痪。为了能够根据网管系统进程状态或者检测脚本来启动容灾恢复,除了在容灾备份服务器上运行第一监控程序外,还在运行服务器上运行第二监控程序。
参阅图2B所示,在容灾备份服务器上运行第一监控程序,在运行服务器上运行第二监控程序,该第一、第二监控程序均为后台监控程序。第一、第二监控程序分别实时检测系统的状态,并通过心跳方式检查对方服务器是否瘫痪。当容灾备份服务器上的第一监控程序检测到第二监控程序心跳中断,则可判断出运行服务器已经瘫痪,这时,第一监控程序会自动将网管系统在容灾备份服务器上重新启动,从而到达快速进行容灾恢复的目的。
在正常情况下,网管系统在运行服务器上运行,数据复制程序将系统中的数据实时复制到容灾备份服务器上。第二监控程序通过检查系统进程的运行状态来判断网管系统的工作状态;网管系统也可根据需要编写对应的检测脚本来向监控程序报告自己的状态,第二监控程序将定时执行该检测脚本,并通过返回值判断出网管系统的工作状态。监控程序还定期执行数据复制程序的状态检测脚本,并以此来判断数据复制是否正常、数据复制的方向等复制相关状态。当第二监控程序检测到运行服务器出现灾难时,则在向第一监控程序发送的心跳报文中携带相关信息,由第一监控程序自动将网管系统在容灾备份服务器上重新启动进行容灾恢复。
第一、第二监控程序还相互检测对方服务器的状态,使系统管理维护人员能够通过监控终端观察到两台服务器的状态;而只有在知道备份服务器状态的情况下,才可能进行人工强制的切换操作;另外,当网络长时间中断导致第一监控程序将网管系统在容灾备份服务器上启动,然后网络又恢复正常时,只有通过服务器之间相互检测状态,系统才可以决定如何恢复最初的运行状态。
为了避免因心跳报文因丢失而引起监控程序误操作,第一监控程序在多次(如2次或3次)未收到心跳响应时才在容灾备份服务器上启动网管系统。每次等待间隔时间等可在配置文件中进行配置。
参阅图3所示,当灾难发生导致运行服务器瘫痪时,容灾备份服务器上的第一监控程序检查到心跳中断,从而自动将网管系统在容灾备份服务器上启动。
网管系统在容灾备份服务器上启动后,监控程序将继续检测运行服务器的状态,当检测到运行服务器恢复正常后,将自动进行反向切换,也就是在容灾备份服务器上停止网管系统的运行,然后在运行服务器上启动网管系统,并将数据复制的方向调整为从运行服务器向备份服务器复制。反向切换完成后,整个系统恢复到正常(如图2所示)的状态。
为了使系统维护人员可以实时知晓容灾备份系统的状态,以监控容灾备份系统的运行,在备份服务器上提供一个图形用户终端。图形用户终端通过与后台监控程序建立TCP连接来进行数据交换,并根据这些数据信息为用户提供一个直观的容灾备份系统监控界面。如:网络通讯是否正常、网管系统是否运行正常、数据复制程序是否运行正常等,都能以直观的形式显示在图形界面上。
在本发明中,备份服务器上的第一监控程序与运行服务器上的第二监控程序之间的心跳连接除采用TCP连接外,也可采用其他网络协议,包括面向连接和非面向连接的协议。
本发明方法支持Windows操作系统和UNIX操作系统,同时可以使用各种类型数据复制软件,包括数据库级别的数据复制软件和磁盘卷级别的数据复制软件。

Claims (9)

1、一种网管双机容灾备份的实现方法,所述网管双机容灾备份具有运行服务器和用于容灾的备份服务器,正常状态下在运行服务器上运行网管系统,并实时的将系统中的数据复制到容灾的备份服务器上,其特征在于所述方法为,至少在所述备份服务器上运行第一监控程序,该第一监控程序与所述运行服务器建立连接以检测运行服务器的工作状态,并在检测到所述运行服务器由于灾难导致瘫痪时自动在备份服务器上启动网管系统进行容灾恢复。
2、如权利要1所述的方法,其特征在于,在运行服务器上运行第二监控程序,所述第一监控程序与该第二监控程序通过心跳方式通信,当第一监控程序检测到第二监控程序心跳中断时确定运行服务器瘫痪,则自动在容灾备份服务器上启动网管系统进行容灾恢复。
3、如权利要求2所述的方法,其特征在于,所述第二监控程序还定时检测网管系统和/或数据复制程序的工作状态,如果检测到工作状态不正常时,则在向第一监控程序发送的心跳报文中携带状态信息,由第一监控程序自动在容灾备份服务器上启动网管系统进行容灾恢复。
4、如权利要求2或3所述的方法,其特征在于,所述第一、第二监控程序还相互检测对方服务器的运行状态。
5、如权利要求4所述的方法,其特征在于,当容灾备份服务器进行容灾恢复的过程中,第一监控程序检测到运行服务器恢复时进行自动切换,即在容灾备份服务器上停止网管系统的运行并在运行服务器上启动网管系统。
6、如权利要求1或2所述的方法,其特征在于,所述备份服务器提供一个图形用户终端,该图形用户终端与所述第一监控程序进行数据交换,并显示备份系统的状态信息。
7、如权利要求6所述的方法,其特征在于,所述图形用户终端与所述第一监控程序采用TCP连接交换数据。
8、如权利要求2或3所述的方法,其特征在于,所述第一监控程序与第二监控程序之间采用传输控制协议(TCP)连接或其他网络协议连接。
9、如权利要求2或3所述的方法,其特征在于,所述第一监控程序与第二监控程序为后台监控程序。
CN 200410002153 2004-01-05 2004-01-05 一种网管双机容灾备份的实现方法 Pending CN1642030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410002153 CN1642030A (zh) 2004-01-05 2004-01-05 一种网管双机容灾备份的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410002153 CN1642030A (zh) 2004-01-05 2004-01-05 一种网管双机容灾备份的实现方法

Publications (1)

Publication Number Publication Date
CN1642030A true CN1642030A (zh) 2005-07-20

Family

ID=34867303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410002153 Pending CN1642030A (zh) 2004-01-05 2004-01-05 一种网管双机容灾备份的实现方法

Country Status (1)

Country Link
CN (1) CN1642030A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100370761C (zh) * 2005-10-26 2008-02-20 华为技术有限公司 一种智能网业务控制设备容灾系统
CN100413261C (zh) * 2006-01-04 2008-08-20 华为技术有限公司 数据恢复的方法和系统
WO2010145589A1 (zh) * 2009-06-30 2010-12-23 中兴通讯股份有限公司 快速恢复网管系统的方法及装置
CN102082733A (zh) * 2011-02-25 2011-06-01 杭州华三通信技术有限公司 一种Portal系统的接入方法和Portal系统
CN101222650B (zh) * 2007-01-10 2011-06-22 中兴通讯股份有限公司 多余度监控方法和系统
CN101217292B (zh) * 2007-01-04 2011-11-30 中兴通讯股份有限公司 媒体服务器容灾方法及装置
CN101582787B (zh) * 2008-05-16 2011-12-07 中兴通讯股份有限公司 一种双机备份系统及备份方法
CN102546250A (zh) * 2011-12-31 2012-07-04 山东中创软件商用中间件股份有限公司 一种基于主备机制的文件发布方法及系统
CN102629903A (zh) * 2011-12-21 2012-08-08 奇智软件(北京)有限公司 一种互联网应用中的容灾备份系统及方法
CN101651580B (zh) * 2009-09-08 2012-09-05 中兴通讯股份有限公司 一种触发双机切换的方法及装置
CN102693172A (zh) * 2011-08-31 2012-09-26 新奥特(北京)视频技术有限公司 一种信息录入系统的动态切换方法及系统
CN101599858B (zh) * 2009-06-25 2013-01-16 中兴通讯股份有限公司 主备机管理方法和服务器
CN103560895A (zh) * 2013-10-31 2014-02-05 国家电网公司 一种具有防死机功能的计费系统及服务器
CN103617269A (zh) * 2013-12-05 2014-03-05 中国联合网络通信集团有限公司 一种容灾接管方法及容灾接管系统
CN101145983B (zh) * 2007-08-07 2014-08-13 中兴通讯股份有限公司 一种网管系统的自诊断和自恢复子系统及方法
CN104679614A (zh) * 2015-03-31 2015-06-03 成都文武信息技术有限公司 一种数据库灾备系统
WO2015085529A1 (zh) * 2013-12-12 2015-06-18 华为技术有限公司 数据复制方法、数据复制装置和存储设备
WO2016165465A1 (zh) * 2015-09-29 2016-10-20 中兴通讯股份有限公司 一种网络管理方法及应急系统、存储介质

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100370761C (zh) * 2005-10-26 2008-02-20 华为技术有限公司 一种智能网业务控制设备容灾系统
CN100413261C (zh) * 2006-01-04 2008-08-20 华为技术有限公司 数据恢复的方法和系统
CN101217292B (zh) * 2007-01-04 2011-11-30 中兴通讯股份有限公司 媒体服务器容灾方法及装置
CN101222650B (zh) * 2007-01-10 2011-06-22 中兴通讯股份有限公司 多余度监控方法和系统
CN101145983B (zh) * 2007-08-07 2014-08-13 中兴通讯股份有限公司 一种网管系统的自诊断和自恢复子系统及方法
CN101582787B (zh) * 2008-05-16 2011-12-07 中兴通讯股份有限公司 一种双机备份系统及备份方法
CN101599858B (zh) * 2009-06-25 2013-01-16 中兴通讯股份有限公司 主备机管理方法和服务器
WO2010145589A1 (zh) * 2009-06-30 2010-12-23 中兴通讯股份有限公司 快速恢复网管系统的方法及装置
CN101651580B (zh) * 2009-09-08 2012-09-05 中兴通讯股份有限公司 一种触发双机切换的方法及装置
CN102082733B (zh) * 2011-02-25 2013-06-26 杭州华三通信技术有限公司 一种Portal系统的接入方法和Portal系统
CN102082733A (zh) * 2011-02-25 2011-06-01 杭州华三通信技术有限公司 一种Portal系统的接入方法和Portal系统
CN102693172A (zh) * 2011-08-31 2012-09-26 新奥特(北京)视频技术有限公司 一种信息录入系统的动态切换方法及系统
CN102693172B (zh) * 2011-08-31 2015-02-18 新奥特(北京)视频技术有限公司 一种信息录入系统的动态切换方法及系统
CN102629903B (zh) * 2011-12-21 2014-11-19 奇智软件(北京)有限公司 一种互联网应用中的容灾备份系统及方法
CN102629903A (zh) * 2011-12-21 2012-08-08 奇智软件(北京)有限公司 一种互联网应用中的容灾备份系统及方法
CN102546250A (zh) * 2011-12-31 2012-07-04 山东中创软件商用中间件股份有限公司 一种基于主备机制的文件发布方法及系统
CN102546250B (zh) * 2011-12-31 2014-06-18 山东中创软件商用中间件股份有限公司 一种基于主备机制的文件发布方法及系统
CN103560895A (zh) * 2013-10-31 2014-02-05 国家电网公司 一种具有防死机功能的计费系统及服务器
CN103560895B (zh) * 2013-10-31 2017-02-01 国家电网公司 一种具有防死机功能的计费系统及服务器
CN103617269A (zh) * 2013-12-05 2014-03-05 中国联合网络通信集团有限公司 一种容灾接管方法及容灾接管系统
CN103617269B (zh) * 2013-12-05 2018-03-23 中国联合网络通信集团有限公司 一种容灾接管方法及容灾接管系统
WO2015085529A1 (zh) * 2013-12-12 2015-06-18 华为技术有限公司 数据复制方法、数据复制装置和存储设备
CN104679614A (zh) * 2015-03-31 2015-06-03 成都文武信息技术有限公司 一种数据库灾备系统
WO2016165465A1 (zh) * 2015-09-29 2016-10-20 中兴通讯股份有限公司 一种网络管理方法及应急系统、存储介质
CN106559822A (zh) * 2015-09-29 2017-04-05 中兴通讯股份有限公司 一种网络管理方法及应急系统

Similar Documents

Publication Publication Date Title
CN1642030A (zh) 一种网管双机容灾备份的实现方法
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
AU752844B2 (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
CN103226502B (zh) 一种数据灾备控制系统及数据恢复方法
AU752846B2 (en) Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US7594138B2 (en) System and method of error recovery for backup applications
CN101582787B (zh) 一种双机备份系统及备份方法
US20020133727A1 (en) Automated node restart in clustered computer system
CN106339278A (zh) 一种网络文件系统的数据备份及恢复方法
WO2020088533A1 (zh) 虚拟化平台的容灾方法及装置
CN111327467A (zh) 一种服务器系统及其容灾备份方法和相关设备
WO2013185727A2 (zh) 一种实现业务交付平台异地容灾切换的方法和系统
JP2004252939A (ja) クラスタリングシステムのサイトでの双方向障害検出の為のシステム及び方法
CN1198406C (zh) 通讯系统备份方法和设备
CN104794028A (zh) 一种容灾处理方法、装置、主用数据中心和备用数据中心
CN106874136A (zh) 一种存储系统的故障处理方法及装置
CN106294795A (zh) 一种数据库切换方法及系统
CN101145983A (zh) 一种网管系统的自诊断和自恢复子系统及方法
CN112948484A (zh) 分布式数据库系统和数据灾备演练方法
CN114356650A (zh) 数据备份方法、装置、设备、系统及存储介质
CN109117317A (zh) 一种集群故障恢复方法和相关装置
US7634625B2 (en) Storage system and method for copying volumes by inspection of data security
CN112596945A (zh) 一种基于双主的灾备方法
JP3325785B2 (ja) 計算機の故障検出・回復方式
CN113946474A (zh) 一种储存系统高效容灾保护方法及容灾处理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication