CN103617269B - 一种容灾接管方法及容灾接管系统 - Google Patents

一种容灾接管方法及容灾接管系统 Download PDF

Info

Publication number
CN103617269B
CN103617269B CN201310654169.4A CN201310654169A CN103617269B CN 103617269 B CN103617269 B CN 103617269B CN 201310654169 A CN201310654169 A CN 201310654169A CN 103617269 B CN103617269 B CN 103617269B
Authority
CN
China
Prior art keywords
storage region
disaster
data
disaster tolerance
production
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310654169.4A
Other languages
English (en)
Other versions
CN103617269A (zh
Inventor
王长征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
China Unicom System Integration Ltd Corp
Original Assignee
China United Network Communications Group Co Ltd
China Unicom System Integration Ltd Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, China Unicom System Integration Ltd Corp filed Critical China United Network Communications Group Co Ltd
Priority to CN201310654169.4A priority Critical patent/CN103617269B/zh
Publication of CN103617269A publication Critical patent/CN103617269A/zh
Application granted granted Critical
Publication of CN103617269B publication Critical patent/CN103617269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供了一种容灾接管方法及容灾接管系统;所述方法应用于至少包括生产系统和测试系统的企业资源系统中;所述方法包括:将生产系统的数据同步到第一存储设备的第一存储区域中,作为容灾数据;当需要启用容灾接管时,停止同步;将所述第一存储区域中的容灾数据复制到所述第一存储设备的第二存储区域里;所述第一存储区域及第二存储区域均采用文件系统方式管理,并且文件系统的结构、命名均与所述生产系统的一致;在复制完成后,测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管。本发明能够快速、可靠地进行应用级的容灾接管,并避免对容灾数据的二次破坏。

Description

一种容灾接管方法及容灾接管系统
技术领域
本发明涉及计算机领域,尤其涉及一种容灾接管方法及容灾接管系统。
背景技术
ERP(企业资源计划)系统是建立在信息技术基础上,以系统化的管理思想,为企业决策层及员工提供决策运行手段的管理平台,借助这一平台,企业可以对资源进行有效共享与利用,改善企业经营模式,提高企业竞争力,因此,ERP系统被广泛应用于企业的日常管理中。
随着ERP系统逐渐成为企业管理中越来越重要的系统管理手段,业务功能的支撑已趋完善、全面,企业财务类业务管理及业务操作全部依赖ERP系统的功能协助完成,系统的使用更加密集涉及用户广泛,系统的重要性凸显。基于ERP系统对于企业业务支撑和业务数据保存能力的及时性、安全性的要求也越来越高,对ERP系统提供不间断业务支撑能力的需求已成为ERP系统在设计建设时的重中之重。
同大多数的系统一样,ERP系统运行过程中,会存在:承载系统运行的硬件平台出现设备意外损坏且难以修复的情况、受制于人力所控之外的如:地震、火灾、水灾、大面积断电等非人力能把控的灾难因素、系统承载平台运行过程中出现致命错误(硬件BUG)等硬件平台出现大范围损坏致使生产环境互备系统失效从而导致整个ERP系统生产环境无法提供系统服务用户无法访问,系统使用停止的情况。为使ERP系统具有在出现大范围硬件类灾难性打击造成生产环境互备机制丧失作用后,系统仍能在短时间内恢复提供生产业务应用的能力确保ERP系统的高可用性,通常企业内都会采用应用级容灾系统的方案,购买容灾环境专用主机在生产环境发生致命性打击丧失互备能力后启用容灾环境专用主机接管生产环境的数据库及应用,以达到通过备用硬件支撑能力的启用实现业务应用可持续提供的系统高可用性目标。
从业内流行的应用级容灾的设计和功能实现上来看,较为普遍采用的方式为:使用基于智能存储设备的数据同步技术将ERP系统的数据实时同步至其容灾环境存储设备中,这份数据正常情况下只有一份。在需要容灾接管时,断掉生产环境与容灾环境的数据同步链接后,将容灾环境中与生产环境架构相同的存储阵列直接接驳到容灾专用主机,以此实现容灾专用主机对拥有与生产环境发生灾难时完全一致的容灾端数据库及其应用的接管,替换已经无法提供业务应用能力的生产环境,实现生产业务在容灾端主机和存储上的应用过渡。在生产环境修复完成后,会将在容灾过程中的容灾环境数据逆向同步至已恢复业务应用能力的生产环境,以达到业务数据不丢失、数据一致的目的,不会产生业务补录等问题。
这种方法的缺陷在于:
(1)一般生产环境与其容灾环境会使用相同型号、规格的智能存储设备以避免因硬件的差异造成难以预料的隐患。由于智能存储设备操作较为复杂、繁琐且不同厂商的产品特性不尽相同,因此一般的企业硬件平台维护人员很难全面掌握对智能存储设备的操控,如出现容灾切换这种计划外需要进行复杂的存储设备操作场景时,还需依靠厂商人员的现场服务完成相应的设置与实施,对于时效性要求较高的容灾切换过程来说,这种依靠厂商介入的方式从全局的把控上显得较为薄弱,存在因路途、厂商人员临时调配不足等因素的制约。
(2)如果发生容灾切换后的二次灾难,将会对容灾环境的数据造成损毁,以至于只能通过备份恢复的手段进行生产环境的重建,而应用级容灾丧失了其提供连续生产应用服务的能力,生产业务将发生长时间的中断。
(3)容灾主机只在遇到突发大规模生产环境硬件平台损坏丧失互备运行能力时才会使用,长时间处于待机状态,应用方面维护不足一旦启用其硬件运行中是否存在隐患难以知晓,存在不确定因素。
(4)一般业内应用级容灾多采用降级容灾的方式,当出现生产环境大面积甚至全部损坏的情况容灾专用主机的性能承载能力将成为瓶颈可能无法提供正常的使用体验。
发明内容
本发明要解决的技术问题是如何快速、可靠地进行应用级的容灾接管,并避免对容灾数据的二次破坏。
为了解决上述问题,本发明提供了一种容灾接管方法,应用于至少包括生产系统和测试系统的企业资源系统中;所述方法包括:
将生产系统的数据同步到第一存储设备的第一存储区域中,作为容灾数据;
当需要启用容灾接管时,停止同步;
将所述第一存储区域中的容灾数据复制到所述第一存储设备的第二存储区域里;所述第一存储区域及第二存储区域均采用文件系统方式管理,并且文件系统的结构、命名均与所述生产系统的一致;
在复制完成后,测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管。
可选地,所述第一存储设备为智能存储设备;所述第一系统存储区域和第二系统存储区域各包括一个磁盘阵列;
将所述第一存储区域中的容灾数据复制到所述第一存储设备的第二存储区域里的步骤包括:
通过底层数据复制技术将所述第一存储区域的磁盘阵列中的容灾数据,复制到所述第一存储设备中的第二存储区域的磁盘阵列里。
可选地,所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管的步骤包括:
所述测试系统调用复制到所述第二存储区域的容灾数据中的配置文件启动容灾数据库及容灾应用;所述配置文件包括以下任一项配置信息或其任意组合:应用服务端口、数据库端口、所使用的磁盘、路径。
可选地,所述测试系统依据复制到所述第二存储区域中的容灾数据进行容灾接管的步骤还包括:
将用户设备对于所述测试系统的访问端口由禁用状态改为开启状态,将用户设备对于所述生产系统的访问端口由开启状态改为禁用状态。
可选地,当包括多个生产实例时,所述停止同步的步骤包括:
判断所述生产系统中各生产实例能否正常运行;对于无法正常运行的生产实例的数据,停止同步;对于正常运行的生产实例的数据,继续同步至所述第一存储区域;
所述测试系统依据复制到所述第二存储区域中的容灾数据进行容灾接管的步骤包括:
所述测试系统依据复制到所述第二存储区域中的容灾数据,对无法正常运行的生产实例进行接管。
本发明还提供了一种容灾接管系统,用于对企业资源系统中的生产系统进行容灾接管;包括:第一存储设备;
所述第一存储设备包括:
第一存储区域及第二存储区域;所述第一存储区域及第二存储区域均采用文件系统方式管理,并且文件系统的结构、命名均与所述生产系统的一致;
数据同步模块,用于将所述生产系统的数据同步到所述第一存储设备的第一存储区域中,作为容灾数据;当需要启用容灾接管时,停止同步;
数据复制模块,用于将所述第一存储区域中的容灾数据复制到所述第二存储区域里;
所述系统还包括:测试系统,用于在复制完成后,依据复制到所述第二存储区域的容灾数据进行容灾接管。
可选地,所述第一存储设备为智能存储设备;所述容灾系统存储区域和测试系统存储区域各包括一个磁盘阵列;
所述数据复制模块将所述第一存储区域中的容灾数据复制到所述第二存储区域里是指:
所述数据复制模块通过底层数据复制技术将所述第一存储区域的磁盘阵列中的容灾数据复制到所述第二存储区域的磁盘阵列里。
可选地,所述的系统还包括:
负载均衡设备,用于向用户设备提供对所述测试系统和所述生产系统的访问端口;当所述生产系统正常工作时,将所述测试系统的访问端口设置为禁用状态,将所述生产系统的访问端口设置为开启状态;当所述测试系统进行容灾接管时,将所述测试系统的访问端口由禁用状态改为开启状态,将所述生产系统的访问端口由开启状态改为禁用状态。
可选地,所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管是指:
所述测试系统调用复制到所述第二存储区域的容灾数据中的配置文件启动容灾数据库及容灾应用;所述配置文件包括以下任一项配置信息或其任意组合:应用服务端口、数据库端口、所使用的磁盘、路径。
可选地,当包括多个生产实例时,所述数据同步模块停止同步是指:
所述数据同步模块判断所述生产系统中各生产实例能否正常运行;对于无法正常运行的生产实例的数据,停止同步;对于正常运行的生产实例的数据,继续同步至所述第一存储区域;
所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管是指:
所述测试系统依据复制到所述第二存储区域的容灾数据,对无法运行的生产实例进行接管。
本发明的至少一个实施例采用与生产环境结构相近或相同的测试环境硬件资源进行容灾接管,由于测试系统日常使用频繁,软硬件维护较之容灾专用主机要更为全面及时,因此在接管容灾环境后运行相对较为稳定,系统性能资源有保障,且无须等待存储厂商专业人员到现场的情况下,以企业内的应用及硬件维护人员配合即可完成对容灾环境的接管,快速及时恢复生产业务应用;在容灾接管时将与生产系统同步得到的容灾数据复制到与该容灾数据位于同一存储设备中的其它存储区域中,可以避免对容灾数据的二次破坏,灾难发生那一刻的容灾数据可以作为备份进行保管,而不直接使用。
附图说明
图1是实施例一的容灾接管方法的流程示意图;
图2a是实施例一中进行数据同步的示意图;
图2b是实施例一中进行数据复制的示意图;
图3a是实施例一中例子一的示意图;
图3b是实施例一中例子二的示意图;
图3c是实施例一中例子三的示意图;
图3d是实施例一中例子四的示意图;
图4a是实施例二中正常工作时负载均衡设备的工作示意图;
图4b是实施例二中容灾切换时负载均衡设备的工作示意图;
图4c是实施例二中容灾切换且负载均衡设备失效时的示意图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一、一种容灾接管方法,应用于至少包括生产系统和测试系统的企业资源系统中;如图1所示,所述方法包括:
S101、将生产系统的数据同步到第一存储设备的第一存储区域中,作为容灾数据;
S102、当需要启用容灾接管时,停止同步;
S103、将所述第一存储区域中的容灾数据复制到所述第一存储设备的第二存储区域里;所述第一存储区域及第二存储区域均采用文件系统方式管理,并且文件系统的结构、命名均与所述生产系统的一致;
S104、在复制完成后,测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管。
由于ERP系统肩负企业月结、年结、出具财务报表、审计等关键财务类功能并保存企业财重要财务信息因此其运行过程中的安全、稳定及可靠性通常在企业内定义为最高级别,任何在ERP系统内的设置、变更或安装补丁均需先在与生产环境内容相近的测试环境验证后方可在生产环境执行,多方面确保ERP系统生产环境的稳定与安全,正因为这个特性通常企业在建设ERP系统时都会建设与其硬件相近或相同、软件架构一致的测试系统,以达到对生产环境在运行过程中数据与软件方面的全方位保护。
本实施例中采用测试系统进行生产容灾接管,摆脱了传统容灾环境保持静态的束缚,活用了硬件资源同时使得作为容灾环境的测试系统的软硬件升级、维护与生产环境同步,实现随时无障碍应用容灾切换,避免了长期处于静态的容灾硬件资源因维护不够及时而导致切换时发生意外的可能。另外,由于测试系统和生产系统软件架构相同,因此容灾接管时可在无厂商现场配合的情况下独立完成,能够最大程度简化发生容灾切换时的维护人员的技术操作、降低对厂商提供技术支撑的依赖、更短时间内实现容灾切换的实现。
本实施例由于在发生容灾切换前将发生灾难那一刻(即需要进行容灾接管,停止同步那一刻)的容灾数据先复制到测试系统所用的第二存储区域,对原始的容灾数据不进行任何应用操作仅保留数据,做到容灾数据的双保险,解决了一般传统容灾系统没有备份环境的弊端;即使之后发生二次破坏,依然能保证有一份完整的、未变动过的、停在生产系统发生灾难那个时间点的容灾数据。
与生产系统进行数据同步的第一存储区域与进行容灾接管的第二存储区域存储共用同一存储设备的机制,可以实现容灾数据随时至第二存储区域的一份或多份复制,可以应对多种数据使用要求;除去在测试环境硬件基础上实施的与生产环境一致的容灾应用环境外,其余多份的数据复制会因内置脚本的不同复制到其他测试存储的文件系统中,通过克隆技术完成多套新的测试环境的建立,实现测试环境的分类使用,达到对生产环境业务及功能更为全面的测试与保障,也使得测试环境的数据与生产环境更为接近,使测试的内容更具针对性和正确性,解决了以往测试环境更新缓慢需要停生产环境的弊端。
本实施例的一种实施方式中,所述第一存储设备为智能存储设备,第一存储区域和第二存储区域可以各包括一个磁盘阵列,用于保存生产系统的数据的生产系统存储区域也可以是另一个智能存储设备中的一个磁盘阵列。
本实施方式中,将所述第一存储区域中的容灾数据复制到所述第一存储设备的第二存储区域里的步骤具体可以包括:
通过底层数据复制技术将所述第一存储区域的磁盘阵列中的容灾数据复制到所述第一存储设备中的第二存储区域的磁盘阵列里。
本实施例的一种实施方式中,所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管的步骤具体可以包括:
所述测试系统调用复制到所述第二存储区域的容灾数据中的配置文件启动容灾数据库及容灾应用;所述配置文件可以包括以下任一项配置信息或其任意组合:
应用服务端口、数据库端口、所使用的磁盘、路径等信息。
本实施例的一种实施方式中,所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管的步骤还可以包括:
将用户设备对于所述测试系统的访问端口由禁用状态改为开启状态,将用户设备对于所述生产系统的访问端口由开启状态改为禁用状态。
所述配置文件包括了应用层和数据库层的配置信息,除上述配置信息之外,还可以包括构成测试系统所需的其它信息,其具体信息可根据ERP系统容灾环境建设时,在测试系统进行应用克隆及数据库配置而获得,之后生成的与测试系统相关的配置文件打包放入生产系统存储区域的指定路径下;在需要使用测试系统进行应用级容灾环境时,可以直接使用这些从生产环境同步过来的、与测试系统相关的配置文件进行测试系统的启动。
本实施例的一种实施方式中,当包括多个生产实例时,停止同步的步骤具体可以包括:
判断所述生产系统中各生产实例能否正常运行;对于无法正常运行的生产实例的数据,停止同步;对于正常运行的生产实例的数据,继续同步至所述第一存储区域;
所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管的步骤具体可以包括:
所述测试系统依据复制到所述第二存储区域中的容灾数据,对无法正常运行的生产实例进行接管。
本实施例中,将所述第一存储区域中的容灾数据复制到所述第一存储设备中的第二存储区域里时,可以复制一份或多份。
本实施例的一种实施方式中,所述第一存储设备为智能存储设备,所述第一存储区域为容灾系统存储区域,第二存储区域为测试系统存储区域;用于提供所述生产系统存储区域的也是智能存储设备。
该实施方式中,进行日常的数据同步时,ERP的生产、容灾与测试系统存储区域的关系如图2a所示,智能存储设备A(后文简称为A点)和智能存储设备B(以下简称为B点)为两个型号相同的智能存储设备。A点主要包含ERP生产环境所用磁盘阵列(生产系统存储区域),还包括智能存储设备的数据同步模块和数据底层复制模块。B点主要包括与生产环境存储架构设计完全相同的两份磁盘阵列,分别作为容灾系统存储区域和测试系统存储区域,同时也包含智能存储设备的数据同步模块和数据底层复制模块。
A点正常工作时保持与B点的数据实时同步,具体而言是生产系统存储区域中的数据与容灾系统存储区域中的数据的同步。B点中测试系统存储区域的数据通过智能存储设备提供的底层数据复制功能从容灾系统存储区域获得,在生产系统正常工作时,也可以通过外界下达指令或自动执行的方式将容灾系统存储区域中的数据复制到测试系统存储区域的预定路径中,通过克隆的方式实现测试系统的使用。复制的过程为人工执行或自动执行数据复制脚本完成。执行后测试系统存储区域中运行的是与生产系统某时间点数据相同的测试环境,用来进行业务或系统测试。容灾系统存储区域与测试系统存储区域之间的同步不一定是实时的,因此在图2a中以虚线表示。
当出现ERP系统生产环境重大灾难且生产环境中互备机制失效的情况下,需要启动应用级容灾环境接替生产应用;此时需要进行底层数据复制,ERP的生产、容灾与测试系统存储区域的关系如图2b所示,A点与B点的数据实时同步会自动停止(生产环境此时已不具备进行数据同步的能力,在多生产实例的生产环境中,智能存储设备具备依据生产实例断开相应数据同步链接的功能),此时B点的容灾系统存储区域中所保留的数据为生产环境发生灾难那一个时间点的数据,根据需要此时可以直接进行复制容灾系统存储区域的数据至测试系统存储区域的操作(可以由维护人员执行预置的脚本来进行复制,也可以由智能存储设备B在同步停止时自动执行预置的脚本来进行复制),此复制操作是基于智能存储设备底层数据复制机制,复制过程通常很快(分钟级),此操作无需容灾系统厂商的协助。
下面用该实施方式中的几个典型处理流程的例子进一步说明本实施例。
因企业ERP系统建设时依据业务支撑能力、采用的硬件平台架构等因素所致设计的不同数据库会分为多实例、单实例之分;应用服务会有单节点应用与双节点应用之分。无论生产实例及应用服务采用哪种架构,只要其采用文件系统存储管理方式,且拥有与生产环境架构相同的测试环境,就能够实现本实施例中利用测试系统接管生产系统,进行应用容灾的方法,做到快速响应及时接替生产应用。
例子一、单生产实例与单节点应用的容灾,如图3a所示。
本例子中,生产系统存储区域中包括一个生产数据库和与该生产数据库交互的一个生产应用节点的数据;测试系统存储区域中包括一个容灾数据库和与该容灾数据库交互的一个容灾应用节点的数据。
正常情况下ERP系统的生产系统存储区域中的数据变化会实时同步至容灾系统存储区域中,当出现生产环境重大灾难需要启用容灾环境接替生产应用时,此实时同步会由存储设备的监控机制自动停止,使得容灾系统存储区域中的数据保持在生产环境发生灾难失去同步的那一时间点上。
容灾系统存储区域与测试系统存储区域在同一存储设备中,发生容灾切换时,直接通过存储设备的底层数据复制技术将容灾系统存储区域中的数据复制到在测试系统存储区域中依照生产环境的存储结构设置的存储路径中,测试环境使用的操作系统也与生产环境相同;与此同时由企业网络维护人员开启负载均衡设备中原先处于禁用状态的测试主机容灾环境访问档口,如此时负载均衡设备已无法使用则无需进行此操作。
数据复制完毕后,通过之前在建设阶段创建的、保存于生产系统存储区域并同步至容灾系统存储区域中的配置文件启动容灾环境的数据库及应用,完成对生产应用服务的接替;如此时负载均衡设备无法使用则由应用维护人员向用户发布容灾环境的访问链接实现用户的访问使用,如此时负载均衡设备正常可用则无需执行此步骤,用户按照以往访问生产环境的方式即可实现对容灾环境的使用。
例子二、单生产实例与双节点应用的容灾,如图3b所示。
本例子中,生产系统存储区域中包括一个生产数据库和与该生产数据库交互的两个生产应用节点的数据;测试系统存储区域中包括一个容灾数据库和与该容灾数据库交互的一个容灾应用节点的数据。
正常情况下ERP系统生产系统存储区域中的数据变化会实时同步至容灾系统存储区域中,当出现生产环境重大灾难需要启用容灾环境接替生产应用时,此实时同步会由存储设备的监控机制自动停止,使得容灾系统存储区域中的数据保持在生产环境发生灾难失去同步的那一时间点上。
双节点应用服务器的目的在于提高应用服务器应对风险的能力,两台应用服务器各作为一个生产应用节点,两者的软硬件版本、型号、架构均相同,通过负载均衡设备实现对生产业务的共同支撑,由于是互备关系,这两台服务器仅有一台中的内容同步至容灾系统存储区域即可,容灾切换后将在容灾端启用单节点应用。
容灾系统存储区域与测试系统存储区域在同一存储设备中,发生容灾切换时直接通过存储设备的底层数据复制技术,将容灾系统存储区域中的数据复制到在测试系统存储区域中依照生产环境的存储结构设置的存储路径中,使用的操作系统也与生产环境相同,与此同时由企业网络维护人员开启负载均衡设备中原先处于禁用状态的测试主机容灾环境访问端口,如此时负载均衡设备已无法使用则无需进行此操作。
数据复制完毕后通过之前在建设阶段创建的、保存于生产系统存储区域并同步至容灾系统存储区域中的配置文件启动容灾环境的数据库及应用,完成对生产应用服务的接替;如此时负载均衡设备无法使用则由应用维护人员向用户发布容灾环境的访问链接实现用户的访问使用,如此时负载均衡设备正常可用则无需执行此步骤,用户按照以往访问生产环境的方式即可实现对容灾环境的使用。
例子三、多生产实例与单节点应用的容灾,如图3c所示。
本例子中,生产系统存储区域中包括N个生产数据库(N为大于1的正整数),和与各生产数据库一一对应交互的N个生产应用节点的数据;测试系统存储区域中包括N个容灾数据库和与各容灾数据库一一对应交互的N个容灾应用节点的数据。
正常情况下,ERP系统生产环境中的数据变化会实时同步至容灾系统存储区域中,当出现生产环境重大灾难需要启用容灾环境接替生产应用时,此实时同步会由存储设备的监控机制自动停止,使得容灾系统存储区域中的数据保持在生产环境发生灾难失去同步的那一时间点上。
ERP系统设计时由于考虑到应用环境、业务量、硬件平台性能资源等因素,对于业务量集中、庞大的企业一般会采用多生产实例的方式达到对ERP系统支撑性能要求上的满足。当灾难发生时有可能并不是所有的生产环境硬件均失去运行能力,可能存在几个(套)互备的生产实例无法运行的情况,智能存储设备具有根据不同的生产实例进行数据同步的断开的功能,正常的生产实例依然保持数据正常同步至容灾系统存储区域,而出现无法运行的生产实例将由测试系统启用相应的容灾环境所替代。
容灾系统存储区域与测试系统存储区域在同一存储设备中,发生容灾切换时直接通过存储设备的底层数据复制技术,将容灾系统存储区域中的数据复制到在测试系统存储区域中依照生产环境的存储结构设置的存储路径中,使用的操作系统也与生产环境相同,与此同时由企业网络维护人员开启负载均衡设备中原先处于禁用状态的测试主机容灾环境访问档口,如此时负载均衡设备已无法使用则无需进行此操作。
数据复制完毕后,通过之前在建设阶段创建的、保存于生产系统存储区域并同步至容灾系统存储区域中的配置文件启动容灾环境的数据库及应用,完成对生产应用服务的接替;如此时负载均衡设备无法使用,则由应用维护人员向用户发布容灾环境的访问链接实现用户的访问使用,如此时负载均衡设备正常可用则无需执行此步骤,用户按照以往访问生产环境的方式即可实现对容灾环境的使用。
例子四,多生产实例与双节点应用的容灾,如图3d所示。
本例子中,生产系统存储区域中包括N个生产数据库(N为大于1的正整数),以及这N个生产数据库各自交互的两个生产应用节点的数据;测试系统存储区域中包括N个容灾数据库和与各容灾数据库一一对应交互的N个容灾应用节点的数据。
正常情况下ERP系统生产环境中的数据变化会实时同步至容灾系统存储区域中,当出现生产环境重大灾难需要启用容灾环境接替生产应用时,此实时同步会由存储设备的监控机制自动停止,使得容灾系统存储区域中的数据保持在生产环境发生灾难失去同步的那一时间点上。
ERP系统设计时由于考虑到应用环境、业务量、硬件平台性能资源等因素,对于业务量集中、庞大的企业一般会采用多生产实例的方式,达到对ERP系统支撑性能要求上的满足;为提升ERP系统生产环境自身应对风险的能力,同时还采用应用双节点的方式,两台应用节点服务器软硬件版本、型号、架构均相同,通过负载均衡设备实现对生产业务的共同支撑,由于是互备关系这两台服务器仅有一台中的内容同步至容灾系统存储区域即可。容灾切换后将在容灾端启用单节点应用。当灾难发生时有可能并不是所有的生产环境硬件均失去运行能力,可能存在几个(套)互备的生产实例无法运行的情况,智能存储设备具有根据不同的生产实例进行数据同步的断开的功能,正常的生产实例依然保持数据正常同步至容灾系统存储区域,而出现无法运行的生产实例将由测试系统启用的相应的容灾环境所替代。
容灾系统存储区域与测试系统存储区域在同一存储设备中,发生容灾切换时直接通过存储设备的底层数据复制技术,将容灾系统存储区域中的数据复制到在测试系统存储区域中依照生产环境的存储结构设置的存储路径中,使用的操作系统也与生产环境相同;与此同时由企业网络维护人员开启负载均衡设备中原先处于禁用状态的测试主机容灾环境访问档口,如此时负载均衡设备已无法使用则无需进行此操作。
数据复制完毕后,通过之前在建设阶段创建的、保存于生产系统存储区域并同步至容灾系统存储区域中的配置文件启动容灾环境的数据库及应用,完成对生产应用服务的接替,如此时负载均衡设备无法使用,则由应用维护人员向用户发布容灾环境的访问链接实现用户的访问使用,如此时负载均衡设备正常可用则无需执行此步骤,用户按照以往访问生产环境的方式即可实现对容灾环境的使用。
实施例二、一种容灾接管系统,用于对生产系统进行容灾接管;包括:第一存储设备;
所述第一存储设备包括:
第一存储区域及第二存储区域;所述第一存储区域及第二存储区域均采用文件系统方式管理,并且文件系统的结构、命名均与所述生产系统的一致;
数据同步模块,用于将所述生产系统的数据同步到所述第一存储设备的容灾系统存储区域中,作为容灾数据;当需要启用容灾接管时,停止同步;
数据复制模块,用于将所述第一存储区域中的容灾数据复制到所述第二存储区域里;
所述系统还包括:测试系统,用于在复制完成后,依据复制到所述第二存储区域的容灾数据进行容灾接管。本实施例中,所述数据同步模块进行同步的具体方式可以为:生产环境在不关闭的情况下通过与存储设备的信息交换,将生产系统中的数据写入到存储设备中预留好的、结构、命名与生产系统一致的第一存储区域中。同步方式采用存储设备的在线同步方式。第一存储区域是在进行存储配置方案时预先制定划分好的,这部分空间是独立的,完全供生产系统的数据同步之用,一旦生产环境出现存储扩容,相应的第一存储区域也需要进行相同容量的扩容。第一次同步由于第一存储区域中没有数据,相当于将当时的生产系统的数据全部复制,所以时间会相对较长,之后再进行同步则可以是根据数据的增量进行写入,并且是实时同步写入的方式,时间会大为缩短。
本实施例中,生产系统的数据同步到第一存储区域中后可以不马上向第二存储区域传送;在需要进行容灾接管时、或是在需要时、或是在指定的时刻,可以通过存储环境的镜像映射(也可以理解为存储设备内不同磁盘阵列间的底层数据复制)将第一存储区域中的容灾数据传送到指定的第二存储区域之中,其结构与命名与生产系统一致。向第二存储区域复制数据的工作可以通过预先设置好的脚本自动运行,或通过人工手动操作进行。
本实施例的一种实施方式中,所述第一存储设备为智能存储设备,第一存储区域和第二存储区域可以各包括一个磁盘阵列;用于保存生产系统的数据的生产系统存储区域也可以是另一个智能存储设备中的一个磁盘阵列。
所述数据复制模块将所述第一存储区域中的容灾数据复制到所述第二存储区域里具体可以是指:
所述数据复制模块通过底层数据复制技术将所述第一存储区域的磁盘阵列中的容灾数据复制到所述第二存储区域的磁盘阵列里。
本实施例的一种实施方式中,所述系统还可以包括:
负载均衡设备,用于向用户设备提供对所述测试系统和所述生产系统的访问端口;当所述生产系统正常工作时,将所述测试系统的访问端口设置为禁用状态,将所述生产系统的访问端口设置为开启状态,如图4a所示;当所述测试系统进行容灾接管时,将所述测试系统的访问端口由禁用状态改为开启状态,将所述生产系统的访问端口由开启状态改为禁用状态,如图4b所示。
本实施方式中,用户设备正常访问时会通过负载均衡内置的访问端口实现对生产系统的访问,负载均衡设备中除了正常访问时使用的生产系统的访问端口外,还会保留测试系统的访问端口;正常情况下测试系统的访问端口为禁用状态,在发生容灾切换后会打开测试系统的端口而将生产系统的访问端口改为禁用状态,此操作可自动执行或由企业内部网络维护人员直接执行。操作时间在10分钟以内,并可与复制数据至测试系统存储区域的操作并行,相互间无影响。负载均衡设备中各访问端口信息均来自系统实施时的设置。在ERP生产环境产生重大灾难且需要进行容灾切换时,如当时负载均衡设备运行正常则用户设备对于系统的访问方式不会发生任何改变,按照往常登陆生产环境的方式,即可借助负载均衡设备的分配机制自动访问已替换了生产系统、用以执行生产业务应用、运行于测试系统上的容灾环境。
如果ERP系统发生容灾切换后负载均衡设备无法使用,则如图4c所示,可由应用维护人员直接向用户设备提供运行于测试系统上的容灾环境的访问链接,实现用户设备对容灾环境的直接访问。
本实施例的一种实施方式中,所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管是指:
所述测试系统调用复制到所述第二存储区域的容灾数据中的配置文件启动容灾数据库及容灾应用;所述配置文件可以包括以下任一项配置信息或其任意组合:应用服务端口、数据库端口、所使用的磁盘、路径。
该实施方式中,所述容灾接管系统还可以包括一配置模块,用于根据在容灾接管系统实施时创建的、在测试系统上启动的应用层和数据库层的配置信息,配置运行于测试系统上的容灾环境。所述配置文件在容灾接管系统建设时创建并打包存放于生产系统中,除上述配置信息外,还可以包括构成测试系统所需的其它信息,其具体信息可根据ERP系统容灾环境建设时在测试系统进行应用克隆及数据库配置而获得,并会随着容灾数据同步机制直接同步到第一存储区域中,当在测试系统启用容灾应用时,会随底层数据复制功能直接复制到第二存储区域中,在启动容灾数据库及容灾应用时直接调用即可。
本实施例的一种实施方式中,当包括多个生产实例时,所述数据同步模块停止同步具体可以是指:
所述数据同步模块判断所述生产系统中各生产实例能否正常运行;对于无法正常运行的生产实例的数据,停止同步;对于正常运行的生产实例的数据,继续同步至所述第一存储区域;
所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管具体可以是指:
所述测试系统依据复制到所述第二存储区域的容灾数据,对无法正常运行的生产实例进行接管。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims (10)

1.一种容灾接管方法,应用于至少包括生产系统和测试系统的企业资源系统中;所述方法包括:
将生产系统的数据同步到第一存储设备的第一存储区域中,作为容灾数据;
当需要启用容灾接管时,停止同步;
将所述第一存储区域中的容灾数据复制到所述第一存储设备的第二存储区域里;所述第一存储区域及第二存储区域均采用文件系统方式管理,并且文件系统的结构、命名均与所述生产系统的一致;
在复制完成后,测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管;
当包括多个生产实例时,所述停止同步的步骤包括:
判断所述生产系统中各生产实例能否正常运行;对于无法正常运行的生产实例的数据,停止同步;对于正常运行的生产实例的数据,继续同步至所述第一存储区域。
2.如权利要求1所述的方法,其特征在于:
所述第一存储设备为智能存储设备;所述第一存储区域和第二存储区域各包括一个磁盘阵列;
将所述第一存储区域中的容灾数据复制到所述第一存储设备的第二存储区域里的步骤包括:
通过底层数据复制技术将所述第一存储区域的磁盘阵列中的容灾数据,复制到所述第一存储设备中的第二存储区域的磁盘阵列里。
3.如权利要求1所述的方法,其特征在于,所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管的步骤包括:
所述测试系统调用复制到所述第二存储区域的容灾数据中的配置文件启动容灾数据库及容灾应用;所述配置文件包括以下任一项配置信息或其任意组合:
应用服务端口、数据库端口、所使用的磁盘、路径。
4.如权利要求3所述的方法,其特征在于,所述测试系统依据复制到所述第二存储区域中的容灾数据进行容灾接管的步骤还包括:
将用户设备对于所述测试系统的访问端口由禁用状态改为开启状态,将用户设备对于所述生产系统的访问端口由开启状态改为禁用状态。
5.如权利要求1所述的方法,其特征在于:
所述测试系统依据复制到所述第二存储区域中的容灾数据进行容灾接管的步骤包括:
所述测试系统依据复制到所述第二存储区域中的容灾数据,对无法正常运行的生产实例进行接管。
6.一种容灾接管系统,用于对企业资源系统中的生产系统进行容灾接管;包括:第一存储设备;
其特征在于:
所述第一存储设备包括:
第一存储区域及第二存储区域;所述第一存储区域及第二存储区域均采用文件系统方式管理,并且文件系统的结构、命名均与所述生产系统的一致;
数据同步模块,用于将所述生产系统的数据同步到所述第一存储设备的第一存储区域中,作为容灾数据;当需要启用容灾接管时,停止同步;
数据复制模块,用于将所述第一存储区域中的容灾数据复制到所述第二存储区域里;
所述系统还包括:
测试系统,用于在复制完成后,依据复制到所述第二存储区域的容灾数据进行容灾接管;
当包括多个生产实例时,所述数据同步模块停止同步是指:
所述数据同步模块判断所述生产系统中各生产实例能否正常运行;对于无法正常运行的生产实例的数据,停止同步;对于正常运行的生产实例的数据,继续同步至所述第一存储区域。
7.如权利要求6所述的系统,其特征在于:
所述第一存储设备为智能存储设备;所述第一存储区域为容灾系统存储区域,第二存储区域为测试系统存储区域,所述容灾系统存储区域和测试系统存储区域各包括一个磁盘阵列;
所述数据复制模块将所述第一存储区域中的容灾数据复制到所述第二存储区域里是指:
所述数据复制模块通过底层数据复制技术将所述第一存储区域的磁盘阵列中的容灾数据复制到所述第二存储区域的磁盘阵列里。
8.如权利要求6所述的系统,其特征在于,还包括:
负载均衡设备,用于向用户设备提供对所述测试系统和所述生产系统的访问端口;当所述生产系统正常工作时,将所述测试系统的访问端口设置为禁用状态,将所述生产系统的访问端口设置为开启状态;当所述测试系统进行容灾接管时,将所述测试系统的访问端口由禁用状态改为开启状态,将所述生产系统的访问端口由开启状态改为禁用状态。
9.如权利要求6所述的系统,其特征在于,所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管是指:
所述测试系统调用复制到所述第二存储区域的容灾数据中的配置文件启动容灾数据库及容灾应用;所述配置文件包括以下任一项配置信息或其任意组合:应用服务端口、数据库端口、所使用的磁盘、路径。
10.如权利要求6所述的系统,其特征在于:
所述测试系统依据复制到所述第二存储区域的容灾数据进行容灾接管是指:
所述测试系统依据复制到所述第二存储区域的容灾数据,对无法运行的生产实例进行接管。
CN201310654169.4A 2013-12-05 2013-12-05 一种容灾接管方法及容灾接管系统 Active CN103617269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310654169.4A CN103617269B (zh) 2013-12-05 2013-12-05 一种容灾接管方法及容灾接管系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310654169.4A CN103617269B (zh) 2013-12-05 2013-12-05 一种容灾接管方法及容灾接管系统

Publications (2)

Publication Number Publication Date
CN103617269A CN103617269A (zh) 2014-03-05
CN103617269B true CN103617269B (zh) 2018-03-23

Family

ID=50167972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310654169.4A Active CN103617269B (zh) 2013-12-05 2013-12-05 一种容灾接管方法及容灾接管系统

Country Status (1)

Country Link
CN (1) CN103617269B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404565B (zh) * 2014-07-22 2019-01-29 杭州宏杉科技股份有限公司 一种双活数据保护方法和装置
CN104331254A (zh) * 2014-11-05 2015-02-04 浪潮电子信息产业股份有限公司 一种基于双活逻辑卷的存储双活系统设计方法
CN105872024B (zh) * 2016-03-25 2019-12-20 盛趣信息技术(上海)有限公司 容灾设备、系统及方法
CN109308643B (zh) * 2017-07-27 2022-04-08 阿里巴巴集团控股有限公司 一种打底数据生成方法、数据容灾方法及相关设备
WO2019060663A1 (en) * 2017-09-21 2019-03-28 Oracle International Corporation SYSTEMS AND METHODS FOR UPDATING MULTI-LEVEL APPLICATION BATTERIES IN A CLOUD ENVIRONMENT
CN108154343B (zh) * 2017-12-26 2022-01-14 国家电网公司 一种企业级信息系统的应急处理方法及系统
CN108536809A (zh) * 2018-03-30 2018-09-14 四川九阵科技股份有限公司 一种区域医疗断网收费系统及方法
CN111124748B (zh) * 2018-11-01 2024-04-19 中国移动通信集团河北有限公司 数据构建的方法、装置、设备和介质
CN111078258B (zh) * 2019-12-20 2023-05-12 深圳前海微众银行股份有限公司 一种版本升级方法及装置
CN113391950B (zh) * 2021-05-20 2022-03-08 广西飞创信息科技有限公司 一种高效容灾保护的方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1642030A (zh) * 2004-01-05 2005-07-20 华为技术有限公司 一种网管双机容灾备份的实现方法
CN101316184A (zh) * 2007-06-01 2008-12-03 华为技术有限公司 容灾切换方法、系统、装置
CN102012789A (zh) * 2009-09-07 2011-04-13 云端容灾有限公司 集中管理式备份容灾系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1852455A (zh) * 2005-11-22 2006-10-25 华为技术有限公司 一种数据容灾系统及其容灾方法
CN101635638B (zh) * 2008-07-25 2012-10-17 中兴通讯股份有限公司 一种容灾系统及其容灾方法
WO2011119173A1 (en) * 2010-03-26 2011-09-29 Carbonite, Inc. Transfer of user data between logical data sites
CN102200944B (zh) * 2011-06-16 2014-12-03 中国联合网络通信集团有限公司 Erp系统的测试环境克隆方法及系统
CN102710752B (zh) * 2012-05-13 2015-12-02 徐州易存信息技术有限公司 灾备存储系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1642030A (zh) * 2004-01-05 2005-07-20 华为技术有限公司 一种网管双机容灾备份的实现方法
CN101316184A (zh) * 2007-06-01 2008-12-03 华为技术有限公司 容灾切换方法、系统、装置
CN102012789A (zh) * 2009-09-07 2011-04-13 云端容灾有限公司 集中管理式备份容灾系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Face recognition for remote database backup system";Aniza Mohamed Din et al.;《2011 6th International Conference on Computer Sciences and Convergence Information Technology》;20131004;全文 *
"基于Oracle数据库容灾技术的研究";曹文琴 等;《制造业自动化》;20130222;全文 *

Also Published As

Publication number Publication date
CN103617269A (zh) 2014-03-05

Similar Documents

Publication Publication Date Title
CN103617269B (zh) 一种容灾接管方法及容灾接管系统
US20210243139A1 (en) Switching between fault response models in a storage system
US9817721B1 (en) High availability management techniques for cluster resources
EP2718816B1 (en) Recovery service location for a service
CN103597463B (zh) 恢复服务的自动配置
JP5486682B2 (ja) クラウドコンピューティング・ベースの仮想計算機・ファイルシステムにおいてディスク画像を複製するシステム及び方法
AU2022268336A1 (en) Synchronously replicating datasets and other managed objects to cloud-based storage systems
US11442652B1 (en) Replication handling during storage system transportation
JP4457184B2 (ja) ストレージシステムにおけるフェイルオーバー処理
CN107707393A (zh) 基于Openstack O版特性的多活系统
US7702757B2 (en) Method, apparatus and program storage device for providing control to a networked storage architecture
WO2009012132A1 (en) Maintaining availability of a data center
CN204859222U (zh) 同城数据中心双活高可用系统
Stonebraker Errors in database systems, eventual consistency, and the cap theorem
TW201514684A (zh) 使用群集資料庫中之儲存快照的推測性回復
US20180052902A1 (en) Network partition handling in fault-tolerant key management system
CN105224637A (zh) 一种基于PostgreSQL数据库的主备/集群应用的综合性方法
US20150317224A1 (en) Preventing Non-Detectable Data Loss During Site Switchover
Dhanujati et al. Data center-disaster recovery center (DC-DRC) for high availability IT service
Vallath Oracle real application clusters
JP2022503583A (ja) 分散コンピューティング環境で分散調整エンジンを非破壊的にアップグレードする方法、装置およびシステム
CN116389233A (zh) 容器云管理平台主备切换系统、方法、装置和计算机设备
JP5218121B2 (ja) 情報システム及びディザスタリカバリ方法
US20120246423A1 (en) Method and System for Data Replication
Dell

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant