CN102655460B - 一种生产服务器冗余备份方法及系统 - Google Patents

一种生产服务器冗余备份方法及系统 Download PDF

Info

Publication number
CN102655460B
CN102655460B CN201210002187.XA CN201210002187A CN102655460B CN 102655460 B CN102655460 B CN 102655460B CN 201210002187 A CN201210002187 A CN 201210002187A CN 102655460 B CN102655460 B CN 102655460B
Authority
CN
China
Prior art keywords
server
optical fiber
centralized
operating system
dish group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210002187.XA
Other languages
English (en)
Other versions
CN102655460A (zh
Inventor
周正兴
李一明
宋建
刘威
郭巍
胡涛
彭昊
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201210002187.XA priority Critical patent/CN102655460B/zh
Publication of CN102655460A publication Critical patent/CN102655460A/zh
Application granted granted Critical
Publication of CN102655460B publication Critical patent/CN102655460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种生产服务器冗余备份方法及系统,该系统包括:生产服务器、备用服务器、光纤交换机和集中存储设备;生产服务器通过光纤交换机与集中存储设备相连接,备用服务器通过光纤交换机与集中存储设备相连接;生产服务器包括:操作系统存储单元,环境配置存储单元,集中存储设备调用单元,总线适配单元;备用服务器包括:操作系统备份单元,环境配置备份单元,集中存储设备识别/切换单元,总线适配单元;光纤交换机包括:映射关系存储单元,集中存储设备访问单元;集中存储设备包括:数据库存储单元,中间件存储单元,应用软件存储单元,业务数据存储单元。以解决备用服务器对故障生产服务器的快速接管问题。

Description

一种生产服务器冗余备份方法及系统
技术领域
本发明涉及服务器冗余备份技术领域,特别是涉及利用存储区域网络(SAN)架构的服务器与存储设备的多对多连接特性的冗余备份,具体地讲是一种生产服务器冗余备份方法及系统。
背景技术
随着信息化进程的快速发展,对于信息系统和应用数据的高可用要求也越来越高,确保数据的安全性,提高信息系统的可靠性,已成为急待解决的问题,不少企业都设计、建立了相应的数据备份和灾难恢复方案以提高业务连续性。根据统计,60%的信息系统故障是由于服务器的软、硬件故障造成的,其中操作系统失效和硬盘损坏是常见的故障。很多企业因此都投入大量资金购买服务器设备,制定了相关的服务器冗余备份方案。然而,随着业务的发展,大量的冗余服务器已成为企业机房运维工作的难题,它们不仅增加了设备的成本和维护量,而且加剧了机房空间和电力容量的紧张状况。
在现有技术中,企业机房常用的服务器冗余备份模式包括冷备、双机热备和多点集群等。
(1)服务器冷备模式:生产服务器负责平时的业务处理,并按时进行系统版本、业务数据的备份;在生产服务器正常运行时,备用服务器不投入生产业务,只定期利用进行生产数据同步,以减少生产服务器故障时备机切换的时间。备用服务器需要被配置成与生产服务器相同或近似的应用运行环境,一般采用“一主一备”的方式。在备机切换时,备用服务器必须先恢复故障生产服务器的数据,这将大大增加业务恢复时间。
(2)双机热备模式:双机热备模式一般采用主从模式,生产服务器运行应用系统来提供服务,与生产服务器软、硬件完全冗余的备用服务器处于待机状态。当生产服务器出现故障的时候,高可用(High-Availability,HA)软件可通过“心跳诊断”检测出故障,切换备机,保证应用在短时间内完全恢复正常使用。但是,双机热备模式存在着性能瓶颈,即如果进行切换后,在一台服务器上就要同时运行两个应用,造成生产系统性能下降,所以只适合业务负载小的应用系统。
(3)多点集群模式:多点集群模式使用多个服务器组成一个集群,在服务器集群上部署应用,设置接管策略,实现负载均衡和故障切换,保证应用系统的高可用性。由于集群管理增加了额外的服务器开销(如前端负载分配服务器),在后端服务器池中应用服务器数量较少时,多点集群模式将无法达到减少生产服务器数量的目的。
发明内容
本发明实施例提供了一种生产服务器冗余备份方法及系统,以解决备用服务器对故障生产服务器的快速接管问题。
本发明的目的之一是,提供一种生产服务器冗余备份系统,该系统包括:生产服务器、备用服务器、光纤交换机和集中存储设备;生产服务器通过光纤交换机与集中存储设备相连接,备用服务器通过光纤交换机与集中存储设备相连接;生产服务器包括:操作系统存储单元,用于存储生产服务器的操作系统软件;环境配置存储单元,用于存储生产服务器的操作系统的相关环境配置数据;集中存储设备调用单元,用于调用集中存储设备中存储的信息;总线适配单元,用于提供与光纤交换机的光纤I/O通道接口;备用服务器包括:操作系统备份单元,用于存储生产服务器的操作系统软件;环境配置备份单元,用于存储生产服务器的操作系统的相关环境配置数据;集中存储设备识别/切换单元,用于识别集中存储设备标识或在所述的生产服务器停机时调用对应集中存储设备中存储的信息;总线适配单元,用于提供与光纤交换机的光纤I/O通道接口;光纤交换机包括:映射关系存储单元,用于存储生产服务器与对应集中存储设备的映射关系;集中存储设备访问单元,用于为生产服务器或备用服务器配置连接集中存储设备的通道;集中存储设备包括:数据库存储单元,用于存储生产服务器的操作系统的数据库;中间件存储单元,用于存储生产服务器的操作系统的中间件;应用软件存储单元,用于存储应用软件;业务数据存储单元,用于存储业务数据。
本发明的目的之一是,提供一种生产服务器冗余备份系统,该系统包括:多个生产服务器、一个备用服务器、一个光纤交换机和多个集中存储盘组;每个生产服务器通过光纤交换机与对应的一个集中存储盘组相连接,备用服务器通过光纤交换机与每个集中存储盘组相连接;每个生产服务器包括:操作系统存储单元,用于存储生产服务器的操作系统软件;环境配置存储单元,用于存储生产服务器的操作系统的相关环境配置数据;集中存储盘组调用单元,用于调用对应集中存储盘组中存储的信息;总线适配单元,用于提供与光纤交换机的光纤I/O通道接口;备用服务器包括:操作系统备份单元,用于存储生产服务器的操作系统软件;环境配置备份单元,用于存储生产服务器的操作系统的相关环境配置数据;集中存储盘组识别/切换单元,用于识别集中存储盘组的硬盘号或在所述的生产服务器停机时调用对应集中存储盘组中存储的信息;总线适配单元,用于提供与光纤交换机的光纤I/O通道接口;光纤交换机包括:映射关系存储单元,用于存储生产服务器与对应集中存储盘组的映射关系;集中存储设备访问单元,用于为生产服务器或备用服务器配置连接对应集中存储盘组的通道;每个集中存储盘组包括:数据库存储单元,用于存储生产服务器的操作系统的数据库;中间件存储单元,用于存储生产服务器的操作系统的中间件;应用软件存储单元,用于存储应用软件;业务数据存储单元,用于存储业务数据。
本发明的目的之一是,提供一种生产服务器冗余备份系统,该系统包括:多个生产服务器、一个备用服务器、二个光纤交换机和多个集中存储盘组;每个生产服务器分别通过二个光纤交换机与对应的一个集中存储盘组相连接,备用服务器分别通过二个光纤交换机与每个集中存储盘组相连接;每个生产服务器包括:操作系统存储单元,用于存储生产服务器的操作系统软件;环境配置存储单元,用于存储生产服务器的操作系统的相关环境配置数据;集中存储盘组调用单元,用于调用对应集中存储盘组中存储的信息;两个总线适配单元,用于提供与两个光纤交换机连接的两个光纤I/O通道接口;动态链路管理单元,用于两个光纤I/O通道的故障切换;备用服务器包括:操作系统备份单元,用于存储生产服务器的操作系统软件;环境配置备份单元,用于存储生产服务器的操作系统的相关环境配置数据;集中存储盘组识别/切换单元,用于识别集中存储盘组的硬盘号或在所述的生产服务器停机时调用对应集中存储盘组中存储的信息;两个总线适配单元,用于提供与两个光纤交换机连接的两个光纤I/O通道接口;动态链路管理单元,用于两个光纤I/O通道的故障切换;每个光纤交换机包括:映射关系存储单元,用于存储生产服务器与对应集中存储盘组的映射关系;集中存储盘组访问单元,用于为生产服务器或备用服务器配置连接对应集中存储盘组的通道;每个集中存储盘组包括:数据库存储单元,用于存储生产服务器的操作系统的数据库;中间件存储单元,用于存储生产服务器的操作系统的中间件;应用软件存储单元,用于存储应用软件;业务数据存储单元,用于存储业务数据。
本发明的目的之一是,提供一种生产服务器冗余备份方法,该方法包括:将多个操作系统相同的生产服务器组成生产服务器组;为生产服务器组配置一个备用服务器;在备份服务器的本地硬盘上安装与生产服务器相同的操作系统和相同的环境配置数据;使每个生产服务器通过光纤交换机与集中存储设备中的对应的一个集中存储盘组相连接,并调用集中存储盘组中存储的数据库、中间件、应用软件和业务数据;使备用服务器通过光纤交换机与集中存储设备中的每个集中存储盘组相连接,并识别每个集中存储盘组的硬盘号,或在生产服务器停机时,调用对应集中存储盘组中存储的数据库、中间件、应用软件和业务数据,重启应用。
本发明的有益效果在于:有效地缓解了高可用方案实施过程中出现的冗余服务器过多以及随之引发的机房空间不足和环境设施负载过高等问题,并有效地保证了服务器软、硬件故障发生后应用数据的同步性和业务系统的快速恢复,确保了系统的高可用性和业务的连续性。该技术提供了一种基于集中存储设备的N+1备份解决方案,即:N个生产服务器加一个备用服务器的备份解决方案。
本发明实施例利用存储区域网络(SAN)技术实现备机对故障服务器的快速接管。本方案具有节省服务器设备、业务恢复时间短、实施与维护的技术难度低等特点,能有效缓解目前普遍存在的因过多冗余服务器带来的维护成本高、机房空间逐渐不足,陷入机房扩容的困境、配套设施负荷高等问题,为各行业、领域的企业提供一种通用的、跨应用系统的冗余备份解决方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例生产服务器冗余备份系统的连接关系图;
图2为本发明实施例生产服务器的结构框图;
图3为本发明实施例备用服务器的结构框图;
图4为本发明实施例光纤交换机的结构框图;
图5为本发明实施例集中存储设备的结构框图;
图6为本发明实施例具有多个生产服务器的冗余备份系统的连接关系图;
图7为本发明实施例具有多个生产服务器和二个光纤交换机的冗余备份系统的连接关系图;
图8为本发明实施例多个生产服务器与对应的集中存储盘组的调用映射关系图;
图9为本发明实施例具有两个光纤交换机的生产服务器的结构框图;
图10为本发明实施例具有两个光纤交换机的备用服务器的结构框图;
图11为本发明实施例生产服务器冗余备份方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例的生产服务器冗余备份系统包括:生产服务器100、备用服务器200、光纤交换机300和集中存储设备400;生产服务器100通过光纤交换机300与集中存储设备400相连接,备用服务器200通过光纤交换机300与集中存储设备400相连接。
如图2所示,生产服务器100包括:操作系统存储单元101,用于存储生产服务器的操作系统软件;环境配置存储单元102,用于存储生产服务器的操作系统的相关环境配置数据;集中存储设备调用单元103,用于调用集中存储设备400中存储的信息;总线适配单元104,用于提供与光纤交换机300的光纤I/O通道接口。
如图3所示,备用服务器200包括:操作系统备份单元201,用于存储生产服务器100的操作系统软件;环境配置备份单元202,用于存储生产服务器100的操作系统的相关环境配置数据;集中存储设备识别/切换单元203,用于识别集中存储设备400的标识或在生产服务器100停机时调用对应集中存储设备400中存储的信息;总线适配单元204,用于提供与光纤交换机300的光纤I/O通道接口。
如图4所示,光纤交换机300包括:映射关系存储单元301,用于存储生产服务器100与对应集中存储设备400的映射关系;集中存储设备访问单元302,用于为生产服务器100或备用服务器200配置连接集中存储设备400的通道。
如图5所示,集中存储设备400包括:数据库存储单元401,用于存储生产服务器100的操作系统的数据库;中间件存储单元402,用于存储生产服务器100的操作系统的中间件;应用软件存储单元403,用于存储应用软件;业务数据存储单元404,用于存储业务数据。
在图1所示的生产服务器冗余备份系统中,在系统层面实施备份,在备用服务器200上只安装机器运行必须的操作系统,将其他数据库、中间件产品和相关应用系统安装与生产服务器100共享的集中存储设备400上,可以屏蔽各生产服务器100在应用层的差异,最大程度地减少备用服务器200的冗余,降低机房运行压力。
本实施例的生产服务器冗余备份系统以光纤交换机300为核心,采用光纤通道(Fiber Channel)协议,以高速的光纤通道为传输媒体建立存储网络。相对于各服务器里的内置磁盘,SAN具有以下优势:(1)集中存储,更有效地利用存储资源,存储速度快;(2)采用聚集技术和故障转移技术,提高其可用性和可靠性;(3)集中存储设备到各服务器的多对多连接方式,提高了灵活性和可扩充性;(4)缩短了数据备份和恢复时间,提高了吞吐量;(5)简单、集中的存储管理,降低了管理工作量,无需中断业务,即可添加或重新配置存储资源。
本实施例的生产服务器冗余备份系统,利用SAN架构下服务器与集中存储设备中的磁盘阵列“多对多”共享访问关系,提供了一种以集中存储设备为核心的简单、可靠、有效的容灾备份方案,能实现生产服务器的N+1冗余备份,从而大量节省了服务器设备,降低机房运行压力;同时,该方案具有数据同步性好、维护简单等特点,有较好的高可用性和适用范围。
实施例2
如图6所示,本实施例的生产服务器冗余备份系统包括:多个生产服务器100′、一个备用服务器200、一个光纤交换机300和多个集中存储盘组400′;每个生产服务器通过光纤交换机300与对应的一个集中存储盘组相连接,备用服务器200通过光纤交换机300与每个集中存储盘组相连接。例如,生产服务器1通过光纤交换机300与集中存储盘组1相连接,备用服务器200通过光纤交换机300分别与集中存储盘组1、集中存储盘组2及集中存储盘组n相连接,n为正整数。
每个生产服务器均包括:操作系统存储单元,用于存储生产服务器的操作系统软件;环境配置存储单元,用于存储生产服务器的操作系统的相关环境配置数据;集中存储盘组调用单元,用于调用对应集中存储盘组中存储的信息;总线适配单元,用于提供与光纤交换机300的光纤I/O通道接口;
备用服务器200包括:操作系统备份单元,用于存储生产服务器的操作系统软件;环境配置备份单元,用于存储生产服务器的操作系统的相关环境配置数据;集中存储盘组识别/切换单元,用于识别集中存储盘组的硬盘号或在生产服务器(如,生产服务器1)停机时调用对应集中存储盘组(如,集中存储盘组1)中存储的信息;总线适配单元,用于提供与光纤交换机300的光纤I/O通道接口。
光纤交换机300包括:映射关系存储单元,用于存储生产服务器与对应集中存储盘组的映射关系;集中存储设备访问单元,用于为生产服务器或备用服务器配置连接对应集中存储盘组的通道。
每个集中存储盘组均包括:数据库存储单元,用于存储生产服务器的操作系统的数据库;中间件存储单元,用于存储生产服务器的操作系统的中间件;应用软件存储单元,用于存储应用软件;业务数据存储单元,用于存储业务数据。
在图6所示的生产服务器冗余备份系统中,包括可安装各种操作系统的生产服务器,它们能提供操作系统的设备驱动、网络通信和系统服务等功能,为集中存储盘组中的数据库、中间件和应用程序的运行提供系统调用接口和业务处理能力。
备用服务器可以是一系列安装了不同操作系统的服务器,它们为使用相同操作系统的生产服务器提供硬件备份。当某台生产服务器出现故障后,备用服务器迅速切换,恢复业务。
光纤交换机为光纤数据链路的核心,为生产服务器、备用服务器提供了访问集中存储盘组的可靠连接。其中,集中存储设备访问单元的技术是SAN,它能实现服务器与集中存储设备中的磁盘阵列“多对多”共享访问关系,确保了备用服务器按预先定义的映射关系接管故障生产服务器的外接硬盘组。
集中存储设备由集中存储盘组组成,在集中存储盘组的硬盘上安装了操作系统层之上的数据库、中间件、应用软件和业务数据,为生产服务器和备用服务器提供扩展的、可靠的共享存储。
为了实现本实施例的生产服务器冗余备份系统,本实施例技术方案包括以下步骤:
步骤1、规划服务器分组,配置集中存储空间。
可按操作系统的不同类型,将生产服务器分成不同的组,每组生产服务器配置一台备用服务器。分组的原则还可参考业务连续性要求、服务器故障率等指标,配置更多的备用服务器以提高系统可靠性,确保同组多台生产服务器同时故障时有足够的备用服务器接管业务。本方案最大可实现一台备用服务器同时支持同操作系统的所有生产服务器,以下的方案描述均是基于这种情况。
在生产服务器分组规划完成后,首先在生产服务器和备用服务器的本地硬盘上安装操作系统,然后完成生产服务器和备用服务器外接共享存储的挂接。将集中存储设备上的硬盘组同时分配给生产服务器和备用服务器,以确保备用服务器切换时能识别原生产机硬盘组。这些步骤可以通过集中存储设备上的存储管理软件来实现,将集中存储设备中的硬盘号同时关联生产服务器和备用服务器的HBA卡WWN(World Wide Number)号即可。生产服务器使用该硬盘组进行工作,备用服务器只是通过操作系统识别该硬盘组信息但不启用。只有当生产服务器出现故障时,备用服务器才通过相关命令接管该硬盘组。
为避免光纤线路上的单点故障,如图7所示,可为每台生产服务器和备用服务器均两块HBA卡,通过两条光纤通道与不同的光纤交换机连接,最终实现双线连接集中存储设备。另外,在各生产服务器和备用服务器上安装动态链路管理软件,如HDLM(Hitachi Dynamic Link Manager)软件,实现光纤I/O通道的负载平衡和故障切换等功能。
步骤2:安装应用系统,备份系统信息。
在验证生产服务器能正常读写集中存储设备上的硬盘后,在其上安装相关的数据库、中间件和应用程序,同时业务数据也必须迁移到集中存储的硬盘中。
在应用系统的安装过程中,有一些参数和信息不可避免地会写入生产服务器本地硬盘上的系统文件中,这些信息也需要备份后保存在备用服务器中,供备机切换时使用,如:
在应用程序安装前,Unix类操作系统(包括AIX,Linux,Solaris等)往往要求先新建应用用户、配置应用环境参数,这些信息部分会被保存在本地硬盘中的系统文件内(如/etc目录下passwd、group、shadow、hosts和profile等文件)。由于各生产服务器间的参数可能存在不兼容,如同名用户的环境设置(如字符集、命令路径、参数变量值等)不同,因此不可能在备用服务器中都预先设置这些用户,只能在备机切换时用相关备份文件覆盖。
在应用程序安装时,某些windows操作系统的应用安装程序会在系统注册表中写入应用程序的版本信息、配置参数等,这些参数可以通过regedit工具导出以备恢复。
在应用程序安装后,为保障生产应用系统的正常、安全运行,还需要修改部分操作系统参数、启动相关系统服务。由于备用服务机为实现对多生产服务器的兼容,一般仅按缺省配置或最常用配置安装系统,所以生产服务器上这些被修改的参数文件和使用的运行脚本都需要备份到备用服务器中。
生产服务器的本机硬盘上被修改的系统环境信息均应被备份并传送到备用服务器,在备用服务器切换后,这些系统环境需要被恢复后才能重启业务应用。当生产服务器进行了重大修改,应及时更新这些系统备份文件,确保备用服务器切换后,应用系统能顺利运行。
步骤3:生产服务器故障后的备机切换。
当生产服务器发生故障,需要切换备用服务器时,应先停止生产服务器上的应用,卸载部署在集中存储设备上的文件系统,再由备份服务器接管这些文件系统。如果生产服务器已经宕机或非正常关闭,无法正常卸载集中存储设备上的文件系统,可以在备用服务器上通过命令将硬盘解锁,然后挂接这些文件系统到备用服务器中,获得对文件系统的操作权限。
在确认备用服务器能正常操作集中存储设备上应用系统的文件后,即可开始恢复应用的运行环境,在备用服务器上用原生产服务器的系统配置备份文件替换备机的配置文件,并运行环境配置脚本恢复系统参数。
经过上述备机切换步骤,备用服务器已接管原生产服务器调用的集中存储硬盘组,并具备与生产服务器相同的应用运行环境,只需修改IP地址、重启应用后即可直接提供生产服务。
本实施例的技术方案使备用服务器数量得到了极大的压缩,大大缓解了机房空间和电力供应的紧张状况,减少了维护工作量。同时,提供了极好的高可用性能,尤其适用于服务器设备老化、硬件故障较多的机房。一旦生产服务器发生故障,相关应用的数据依然保留在集中存储设备上,数据可以保持与故障点一致,因此业务恢复时RPO指标为0;同时,由于备机切换操作简单,又减少了数据恢复环节,恢复时间目标(Recovery Time Objective,RTO)也保持良好性能。
实施例3
如图7所示,本实施例的生产服务器冗余备份系统包括:多个生产服务器、一个备用服务器200、二个光纤交换机和多个集中存储盘组;
每个生产服务器分别通过二个光纤交换机与对应的一个集中存储盘组相连接,备用服务器分别通过二个光纤交换机与每个集中存储盘组相连接。例如,生产服务器1分别通过光纤交换机1和光纤交换机2的两个通道与集中存储盘组1相连接,备用服务器200通过光纤交换机1和光纤交换机2的两个通道与每个集中存储盘组相连接。
如图9所示,每个生产服务器100″包括:操作系统存储单元101,用于存储生产服务器的操作系统软件;环境配置存储单元102,用于存储生产服务器的操作系统的相关环境配置数据;集中存储盘组调用单元103′,用于调用对应集中存储盘组中存储的信息;两个总线适配单元104,用于提供与两个光纤交换机连接的两个光纤I/O通道接口;动态链路管理单元105,用于两个光纤I/O通道的故障切换。
如图10所示,备用服务器200″包括:操作系统备份单元201,用于存储生产服务器的操作系统软件;环境配置备份单元202,用于存储生产服务器的操作系统的相关环境配置数据;集中存储盘组识别/切换单元203′,用于识别集中存储盘组的硬盘号或在生产服务器停机时调用对应集中存储盘组中存储的信息;两个总线适配单元204,用于提供与两个光纤交换机连接的两个光纤I/O通道接口;动态链路管理单元205,用于两个光纤I/O通道的故障切换。
每个光纤交换机包括:映射关系存储单元,用于存储生产服务器与对应集中存储盘组的映射关系;集中存储盘组访问单元,用于为生产服务器或备用服务器配置连接对应集中存储盘组的通道。如图8所示,生产服务器与对应集中存储盘组的映射关系包括:生产服务器1与集中存储盘组1相对应,生产服务器2与集中存储盘组2相对应,生产服务器n与集中存储盘组n相对应。备用服务器200分别与集中存储盘组1、集中存储盘组2、集中存储盘组n相对应,并接管发生故障的生产服务器所对应的集中存储盘组。
每个集中存储盘组包括:数据库存储单元,用于存储生产服务器的操作系统的数据库;中间件存储单元,用于存储产服务器的操作系统的中间件;应用软件存储单元,用于存储应用软件;业务数据存储单元,用于存储业务数据。
本实施例的技术方案,为基于SAN架构的服务器高可用技术,利用SAN架构下可实现服务器与存储装置之间的多对多的映射,在服务器安装时,仅将最小化的操作系统保留在本地硬盘,而将应用软件、数据库、中间件、业务数据等大量信息存放在SAN架构下的集中存储设备中。利用SAN架构下同一个集中存储设备上的硬盘组可通过多路光纤通道分配给多台服务器的特点,实现了单备份机支持同操作系统的多台生产服务器的N+1冗余备份。当某台生产服务器出现短期无法恢复的软硬件故障时,备用服务器接管该生产服务器在集中存储设备上的硬盘组,快速恢复业务。本技术方案包括以下步骤:
步骤1:规划服务器分组,配置集中存储空间。
1)按操作系统的不同类型,将生产服务器分成不同的组,每组生产服务器配置一台备用服务器。分组的原则还可参考业务连续性要求、服务器故障率等指标,配置更多的备用服务器以提高系统可靠性,确保同组多台生产服务器同时故障时有足够的备用服务器接管业务。
2)在各生产服务器和备份服务器的本地硬盘上安装操作系统。生产服务器应该按应用系统的运行要求安装操作系统版本,升级系统补丁。同组生产服务器可能存在系统补丁版本不一致的问题,如使用Suse Linux操作系统的生产服务器目前主要有SP2、SP3两种系统版本号,由于操作系统一般都是“向下兼容”的,所以在备用服务器上的操作系统应选用版本较高的SP3,以保证更好的兼容性、运行性能和安全性。为了保障备用服务机为实现对多生产服务器的兼容,一般仅按缺省配置或最常用配置安装系统。
3)实现生产服务器和备用服务器外接共享存储。
将集中存储设备上的硬盘组同时分配给生产服务器和备用服务器,以确保备用服务器切换时能识别原生产机硬盘组。这些步骤可以通过集中存储设备上的存储管理软件来实现,将集中存储设备中的硬盘号同时关联生产服务器和备用服务器的HBA卡WWN号即可。
WWN号的查询可以使用以下命令(以AIX系统为例)
lsdev-Cc adapter-Sa|grep fcs,查看服务器连接的光纤设备;
lscfg-vpl fcs0,查看光纤设备fcs0信息,其中Network Address信息即为WWN号。
4)为每台服务器配置连接集中存储设备的双通道。
为避免光纤线路上的单点故障,如图7所示,为每台生产服务器和备用服务器均两块HBA卡,通过两条光纤通道与不同的光纤交换机连接,最终实现双线连接集中存储设备。
在光纤通道物理连接完成后,需要在光纤交换机为生产服务器和备用服务器配置连接集中存储设备的双通道,参考命令如下:
为生产服务器设置双通道:
zone name zone1 vsan1
member interface fc1/1-0
member interface fc1/1-2
zoneset name zoneset1 vsan1
member zone1
zoneset activate name zoneset1 vsan1
为备份服务器设置双通道:
zone name zone2 vsan1
member interface fc1/1-1
member interface fc1/1-3
zoneset name zoneset1 vsan1
member zone2
zoneset activate name zoneset1 vsan1
5)验证各服务器能正确识别集中存储设备上分配的逻辑单元号(LogicalUnit Number,LUN)。
一般情况下,在Windows操作系统下,打开磁盘管理器应当能够让新卷开始工作(有些要求必须重启)。在Linux操作系统下,可以自动识别新的LUN。在Solaris和AIX操作系统下,需要运行“cfgadm”或者“devfsadm”命令才能够看到新的LUN。
6)服务器端安装、配置动态链路管理软件。
在各生产服务器和备用服务器上安装动态链路管理软件,如HDLM软件等,实现光纤I/O通道的负载平衡和故障切换等功能,相关参考安装命令如下:
cp license/var/tmp,拷贝license;
./installhdlm,安装HDLM软件;
rpm-qi HDLNM,确认软件成功安装;
/opt/Dynamiclinkmanager/bin/dlnkmgr view-path-lu-sys,查看集中存储的基本信息。
步骤2:安装应用系统,备份系统信息。
1)安装应用系统;
在验证生产服务器能正常读写集中存储设备上的硬盘后,在其上安装相关的数据库、中间件和应用程序等软件,同时业务数据也必须迁移到集中存储的硬盘中。
2)备份各生产服务器的系统环境信息,传送到备用服务器。
在应用系统的安装过程中,有一些参数和信息不可避免地会写入生产服务器本地硬盘上的系统文件中,这些信息也需要备份后保存在备用服务器中,供备机切换时使用,如:
Unix类操作系统(包括AIX,Linux,Solaris等)中的应用用户、环境参数,这些信息部分会被保存在本地硬盘中的系统文件内(如/etc目录下passwd、group、shadow、hosts和profile等文件)。
windows操作系统的应用安装程序会在系统注册表中写入应用程序的版本信息、配置参数等,这些参数可以通过regedit工具导出以备恢复。
为保障生产应用系统的稳定、安全运行,某些应用系统还修改了部分操作系统参数、启动了相关系统服务。这些配置文件和相关运行脚本也需要备份。
备份完成后,将备份文件打包发送到备机保存。如果生产机进行了重大修改,应及时更新备份文件。
上述步骤完成后,如图7所示,生产服务器的本地硬盘上只安装操作系统和与操作系统密切相关的环境配置数据,而数据库、中间件、应用程序、业务数据等均存放在集中存储上。而备用服务器的本地硬盘上只安装了基本的操作系统,并保存了各生产服务器的系统环境配置数据。
步骤3:主服务器故障后的备机切换。
以下以AIX操作系统为例描述相关备机切换过程:
1)原生产机停止应用;
2)如果主机上还能控制集中存储设备,先卸除部署在集中存储设备上的文件系统,然后关闭VG,操作命令举例如下:
umount/oracle
umount/datafs
varyoffvg newdatavg
3)在备机上激活PVID导入VG并激活,再装载包含数据库和应用的文件系统
chdev-l hdisk1-a pv=yes
chdev-l hdisk2-a pv=yes
importvg-y newdatavg hdisk1
varyonvg newdatavg
mount/oracle
mount/datafs
如果主机不能已经宕机或非正常关闭,备机上的卷组将无法直接激活,必须在上述备机操作前执行命令将硬盘解锁:
/usr/DynamicLinkManager/bin/dlmpr-k
如果有硬盘名后带*号表示该盘组被锁定,运行以下命令解锁:
/usr/DynamicLinkManager/bin/dlmpr-c hdisk1
4)恢复系统环境设置
在备机上用原生产服务器的系统配置备份文件替换备机的配置文件,并运行环境配置脚本恢复系统参数。
5)重启应用,恢复业务。
经过上述备机切换步骤,备机已接管原生产机集中存储硬盘组,并具备与生产机相同的应用运行环境,只需修改IP地址、重启应用后即可直接提供生产服务。
实施例4
如图11所示,本实施例的生产服务器冗余备份方法包括:将多个操作系统相同的生产服务器组成生产服务器组;为生产服务器组配置一个备用服务器;在备份服务器的本地硬盘上安装与生产服务器相同的操作系统和相同的环境配置数据;使每个生产服务器通过光纤交换机与集中存储设备中的对应的一个集中存储盘组相连接,并调用集中存储盘组中存储的数据库、中间件、应用软件和业务数据;使备用服务器通过光纤交换机与集中存储设备中的每个集中存储盘组相连接,并识别每个集中存储盘组的硬盘号,或在生产服务器停机时,调用对应集中存储盘组中存储的数据库、中间件、应用软件和业务数据,重启应用。
使每个生产服务器分别通过两个光纤交换机与集中存储设备中的对应的一个集中存储盘组相连接,并通过一个光纤交换机调用所述集中存储盘组中存储的数据库、中间件、应用软件和业务数据;如果当前光纤交换机出现故障,则使生产服务器切换到另一个光纤交换机调用所述集中存储盘组中存储的数据库、中间件、应用软件和业务数据。
使备用服务器分别通过两个光纤交换机与集中存储设备中的每个集中存储盘组相连接,并通过一个光纤交换机识别每个集中存储盘组的硬盘号,或在生产服务器停机时,调用对应集中存储盘组中存储的数据库、中间件、应用软件和业务数据,重启应用。
如果当前光纤交换机出现故障,则使备用服务器切换到另一个光纤交换机识别每个集中存储盘组的硬盘号,或调用集中存储盘组中存储的数据库、中间件、应用软件和业务数据。
本发明有效地缓解了高可用方案实施过程中出现的冗余服务器过多以及随之引发的机房空间不足和环境设施负载过高等问题,并有效地保证了服务器软、硬件故障发生后应用数据的同步性和业务系统的快速恢复,确保了系统的高可用性和业务的连续性。该技术提供了一种基于集中存储的N+1备份解决方案,具有可跨应用实施的特性,使其具备广泛推广的价值和技术基础,可为各企业信息中心的机房部署和规划提供一种技术规范和通用的架构。随着集中存储方案的进一步成熟和应用与操作系统分离部署技术的进一步深入发展,此发明的推广价值将得到进一步的提高。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种生产服务器冗余备份系统,其特征是,所述的系统包括:生产服务器、备用服务器、光纤交换机和集中存储设备;
所述的生产服务器通过光纤交换机与所述的集中存储设备相连接,所述的备用服务器通过光纤交换机与所述的集中存储设备相连接;
所述的生产服务器包括:
操作系统存储单元,用于存储所述生产服务器的操作系统软件;
环境配置存储单元,用于存储所述生产服务器的操作系统的相关环境配置数据;
集中存储设备调用单元,用于调用所述集中存储设备中存储的信息;
总线适配单元,用于提供与所述光纤交换机的光纤I/O通道接口;
所述的备用服务器包括:
操作系统备份单元,用于存储所述生产服务器的操作系统软件;
环境配置备份单元,用于存储所述生产服务器的操作系统的相关环境配置数据;
集中存储设备识别/切换单元,用于识别集中存储设备标识或在所述的生产服务器停机时调用对应集中存储设备中存储的信息;
总线适配单元,用于提供与所述光纤交换机的光纤I/O通道接口;
所述的光纤交换机包括:
映射关系存储单元,用于存储所述生产服务器与对应集中存储设备的映射关系;
集中存储设备访问单元,用于为所述的生产服务器或备用服务器配置连接所述集中存储设备的通道;
所述的集中存储设备包括:
数据库存储单元,用于存储所述生产服务器的操作系统的数据库;
中间件存储单元,用于存储所述生产服务器的操作系统的中间件;
应用软件存储单元,用于存储应用软件;
业务数据存储单元,用于存储业务数据。
2.一种生产服务器冗余备份系统,其特征是,所述的系统包括:多个生产服务器、一个备用服务器、一个光纤交换机和多个集中存储盘组;
每个所述的生产服务器通过所述的光纤交换机与对应的一个所述的集中存储盘组相连接,所述的备用服务器通过所述的光纤交换机与每个所述的集中存储盘组相连接;
每个所述的生产服务器包括:
操作系统存储单元,用于存储所述生产服务器的操作系统软件;
环境配置存储单元,用于存储所述生产服务器的操作系统的相关环境配置数据;
集中存储盘组调用单元,用于调用对应集中存储盘组中存储的信息;
总线适配单元,用于提供与所述光纤交换机的光纤I/O通道接口;
所述的备用服务器包括:
操作系统备份单元,用于存储所述生产服务器的操作系统软件;
环境配置备份单元,用于存储所述生产服务器的操作系统的相关环境配置数据;
集中存储盘组识别/切换单元,用于识别集中存储盘组的硬盘号或在所述的生产服务器停机时调用对应集中存储盘组中存储的信息;
总线适配单元,用于提供与所述光纤交换机的光纤I/O通道接口;
所述的光纤交换机包括:
映射关系存储单元,用于存储所述生产服务器与对应集中存储盘组的映射关系;
集中存储设备访问单元,用于为所述的生产服务器或备用服务器配置连接对应集中存储盘组的通道;
每个所述的集中存储盘组包括:
数据库存储单元,用于存储所述生产服务器的操作系统的数据库;
中间件存储单元,用于存储所述生产服务器的操作系统的中间件;
应用软件存储单元,用于存储应用软件;
业务数据存储单元,用于存储业务数据。
3.一种生产服务器冗余备份系统,其特征是,所述的系统包括:多个生产服务器、一个备用服务器、二个光纤交换机和多个集中存储盘组;
每个所述的生产服务器分别通过所述的二个光纤交换机与对应的一个所述的集中存储盘组相连接,所述的备用服务器分别通过所述的二个光纤交换机与每个所述的集中存储盘组相连接;
每个所述的生产服务器包括:
操作系统存储单元,用于存储所述生产服务器的操作系统软件;
环境配置存储单元,用于存储所述生产服务器的操作系统的相关环境配置数据;
集中存储盘组调用单元,用于调用对应集中存储盘组中存储的信息;
两个总线适配单元,用于提供与所述两个光纤交换机连接的两个光纤I/O通道接口;
动态链路管理单元,用于两个光纤I/O通道的故障切换;
所述的备用服务器包括:
操作系统备份单元,用于存储所述生产服务器的操作系统软件;
环境配置备份单元,用于存储所述生产服务器的操作系统的相关环境配置数据;
集中存储盘组识别/切换单元,用于识别集中存储盘组的硬盘号或在所述的生产服务器停机时调用对应集中存储盘组中存储的信息;
两个总线适配单元,用于提供与所述两个光纤交换机连接的两个光纤I/O通道接口;
动态链路管理单元,用于两个光纤I/O通道的故障切换;
每个所述的光纤交换机包括:
映射关系存储单元,用于存储所述生产服务器与对应集中存储盘组的映射关系;
集中存储盘组访问单元,用于为所述的生产服务器或备用服务器配置连接对应集中存储盘组的通道;
每个所述的集中存储盘组包括:
数据库存储单元,用于存储所述生产服务器的操作系统的数据库;
中间件存储单元,用于存储所述生产服务器的操作系统的中间件;
应用软件存储单元,用于存储应用软件;
业务数据存储单元,用于存储业务数据。
4.一种生产服务器冗余备份方法,其特征是,所述的方法包括:
将多个操作系统相同的生产服务器组成生产服务器组;
为所述的生产服务器组配置一个备用服务器;
在所述的备用服务器的本地硬盘上安装与所述生产服务器相同的操作系统和相同的环境配置数据,其中,所述生产服务器的本地硬盘上只安装操作系统和操作系统的相关环境配置数据,数据库、中间件、应用程序、业务数据均存放在集中存储设备上;
使每个所述的生产服务器通过光纤交换机与集中存储设备中的对应的一个集中存储盘组相连接,并调用所述集中存储盘组中存储的数据库、中间件、应用软件和业务数据;
使所述的备用服务器通过所述的光纤交换机与所述的集中存储设备中的每个集中存储盘组相连接,并识别每个集中存储盘组的硬盘号,或在所述的生产服务器停机时,调用对应集中存储盘组中存储的数据库、中间件、应用软件和业务数据,重启应用。
5.根据权利要求4所述的生产服务器冗余备份方法,其特征是,所述的方法包括:
使每个所述的生产服务器分别通过两个光纤交换机与集中存储设备中的对应的一个集中存储盘组相连接,并通过一个所述的光纤交换机调用所述集中存储盘组中存储的数据库、中间件、应用软件和业务数据;
如果当前光纤交换机出现故障,则使所述的生产服务器切换到另一个光纤交换机调用所述集中存储盘组中存储的数据库、中间件、应用软件和业务数据。
6.根据权利要求5所述的生产服务器冗余备份方法,其特征是,所述的方法包括:
使所述的备用服务器分别通过所述的两个光纤交换机与所述的集中存储设备中的每个集中存储盘组相连接,并通过一个光纤交换机识别每个集中存储盘组的硬盘号,或在所述的生产服务器停机时,调用对应集中存储盘组中存储的数据库、中间件、应用软件和业务数据,重启应用;
如果当前光纤交换机出现故障,则使所述的备用服务器切换到另一个光纤交换机识别每个集中存储盘组的硬盘号,或调用所述集中存储盘组中存储的数据库、中间件、应用软件和业务数据。
CN201210002187.XA 2012-01-05 2012-01-05 一种生产服务器冗余备份方法及系统 Active CN102655460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210002187.XA CN102655460B (zh) 2012-01-05 2012-01-05 一种生产服务器冗余备份方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210002187.XA CN102655460B (zh) 2012-01-05 2012-01-05 一种生产服务器冗余备份方法及系统

Publications (2)

Publication Number Publication Date
CN102655460A CN102655460A (zh) 2012-09-05
CN102655460B true CN102655460B (zh) 2014-09-24

Family

ID=46730987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210002187.XA Active CN102655460B (zh) 2012-01-05 2012-01-05 一种生产服务器冗余备份方法及系统

Country Status (1)

Country Link
CN (1) CN102655460B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102868754B (zh) * 2012-09-26 2016-08-03 北京联创信安科技股份有限公司 一种实现集群存储高可用性的方法、节点装置和系统
CN103780417B (zh) * 2012-10-23 2018-10-26 上海盛大网络发展有限公司 一种基于云硬盘的数据库故障转移方法及装置
CN103095837A (zh) * 2013-01-18 2013-05-08 浪潮电子信息产业股份有限公司 一种实现lustre元数据服务器冗余的方法
CN103986789A (zh) * 2014-06-05 2014-08-13 浪潮电子信息产业股份有限公司 一种实现基于nfs的hadoop ha集群中nfs节点双机冗余的方法
CN105245361A (zh) * 2015-09-10 2016-01-13 浪潮(北京)电子信息产业有限公司 用于Linux系统的数据高可用系统、方法和装置
CN105635282B (zh) * 2015-12-30 2018-11-16 浪潮(北京)电子信息产业有限公司 一种集群管理系统与方法
CN105955836B (zh) * 2016-05-09 2019-04-19 深圳市前海云端容灾信息技术有限公司 一种冷热备份自动演练多功能系统
CN107526651A (zh) * 2016-06-21 2017-12-29 深圳中电长城信息安全系统有限公司 一种磁盘阵列备份的方法和系统
CN106028150B (zh) * 2016-07-07 2019-02-15 四川长虹电器股份有限公司 用于Linux系统的电视的多应用切换管理方法
CN107623705B (zh) * 2016-07-13 2019-12-20 杭州海康威视数字技术股份有限公司 基于视频云存储系统的存储模式升级方法、装置和系统
CN107197032A (zh) * 2017-06-20 2017-09-22 郑州云海信息技术有限公司 一种实时镜像的服务器数据在线备份方法
CN107357866B (zh) * 2017-07-01 2020-12-22 广东电网有限责任公司信息中心 一种电力企业信息系统中间件、数据库的国产化迁移方法
CN108259569B (zh) * 2017-12-25 2020-10-27 南京壹进制信息科技有限公司 一种基于ipsan共享存储的无代理连续数据保护方法及系统
CN108390919B (zh) * 2018-01-26 2021-06-25 昆明昆船逻根机场物流系统有限公司 一种用于高可靠双机热备的消息同步系统及方法
CN108446346B (zh) * 2018-03-07 2022-04-15 鞍钢集团矿业有限公司 一种数据集中备份系统及方法
CN109543365B (zh) * 2018-11-26 2020-11-06 新华三技术有限公司 一种授权方法及装置
CN109618123A (zh) * 2018-12-20 2019-04-12 广东电网有限责任公司 一种视频会议系统
CN113281987B (zh) * 2021-04-30 2022-09-06 共享智能铸造产业创新中心有限公司 多辆转运设备间的切换方法
CN113391853A (zh) * 2021-06-15 2021-09-14 中国工商银行股份有限公司 跨系统配置环境的方法、装置、设备、介质及程序产品
CN114003551A (zh) * 2021-11-01 2022-02-01 山东芯慧微电子科技有限公司 一种用于主从双机热备的fpga热备控制器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101026497A (zh) * 2006-02-03 2007-08-29 国际商业机器公司 用于与作为分组的多属性系统资源交互的装置和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101026497A (zh) * 2006-02-03 2007-08-29 国际商业机器公司 用于与作为分组的多属性系统资源交互的装置和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于SAN的集中存储备份系统的设计与实现";詹鹏;《中国优秀硕士学位论文全文库》;20110430;第3-5章 *
詹鹏."基于SAN的集中存储备份系统的设计与实现".《中国优秀硕士学位论文全文库》.2011,第3-5章.

Also Published As

Publication number Publication date
CN102655460A (zh) 2012-09-05

Similar Documents

Publication Publication Date Title
CN102655460B (zh) 一种生产服务器冗余备份方法及系统
US7318095B2 (en) Data fail-over for a multi-computer system
CN111338854B (zh) 基于Kubernetes集群快速恢复数据的方法及系统
CA2621249C (en) Application of virtual servers to high availability and disaster recovery solutions
US8909884B2 (en) Migrating virtual machines across sites
CN110912991A (zh) 一种基于超融合双节点高可用的实现方法
US20150317215A1 (en) Systems and methods for host image transfer
CN113504954B (zh) 调用CSI LVM Plugin插件、动态持久卷供应的方法、系统及介质
CN105335168B (zh) 实现操作系统远程配置的系统、方法及装置
JP2018500648A (ja) クラスタ間冗長構成におけるスムーズな制御部交代
CN104239166A (zh) 一种对运行中虚拟机实现文件备份的方法
US20210081292A1 (en) Managing containers on a data storage system
JP2006302273A (ja) 仮想的に無制限なストレージ
CN112579008A (zh) 容器编排引擎的存储部署方法、装置、设备及存储介质
CN105141459A (zh) 一种基于多路径技术的优化方法
US6460144B1 (en) Resilience in a multi-computer system
CN106612314A (zh) 基于虚拟机实现软件定义存储的系统
EP1687721B1 (en) Computer cluster, computer unit and method to control storage access between computer units
CN111045602A (zh) 集群系统控制方法及集群系统
CN117632374A (zh) 容器镜像的读取方法、介质、装置和计算设备
CN113608836A (zh) 一种基于集群的虚拟机高可用方法及系统
CN202385117U (zh) 一种生产服务器冗余备份系统
CN104503871A (zh) 一种基于小型机系统全冗余模型的实现方法
Dell
CN112835539A (zh) 一种机房搬迁方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant