CN103942123A - 一种反向数据抓取实现云容灾备份的方法及系统 - Google Patents

一种反向数据抓取实现云容灾备份的方法及系统 Download PDF

Info

Publication number
CN103942123A
CN103942123A CN201410167080.XA CN201410167080A CN103942123A CN 103942123 A CN103942123 A CN 103942123A CN 201410167080 A CN201410167080 A CN 201410167080A CN 103942123 A CN103942123 A CN 103942123A
Authority
CN
China
Prior art keywords
data
metadata
end processor
local
buffer memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410167080.XA
Other languages
English (en)
Other versions
CN103942123B (zh
Inventor
丁卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410167080.XA priority Critical patent/CN103942123B/zh
Publication of CN103942123A publication Critical patent/CN103942123A/zh
Application granted granted Critical
Publication of CN103942123B publication Critical patent/CN103942123B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种反向数据抓取实现云容灾备份的方法,包括:A、数据抓取前置机通过网络与需保护的服务器建立连接;B、前置机通过授权用户账号登录至源端服务器抓取数据信息;C、将抓取的源端实时数据信息经缓存后存入本地生成元数据;D、将前置机生成的元数据传输到本地后置机;E、对前置机和本地后置机的元数据进行对比;F、将本地后置机存储的元数据传输到异地后置机;G、对本地后置机和异地后置机的元数据进行对比。本发明通过反向抓取数据,有传统的被动抓取变为主动抓取,实现了在抓取数据无需在源端服务器安装各种agent模块来进行备份,在大数据和云计算的模式下依然完成云容灾备份的数据保护,节约了成本、提高了效率。

Description

一种反向数据抓取实现云容灾备份的方法及系统
技术领域
本发明属于数据备份领域,尤其涉及一种通过反向对源端服务器的数据抓取实现在云容灾混合云备份的方法及系统。
背景技术
传统数据备份实现方式:传统备份软件如IBM TSM, Symantec Netbackup和EMC Networker等备份软件,均采用在被备份服务器端安装备份Agent的实现方式。 具体方式为: 在需要备份的源端服务器上, 安装抓取该服务器数据的备份软件模块(Agent),然后备份软件模块将通过该Agent或是安装的多个Agent, 将源端服务器上的数据备份至后端的备份介质上。在源端服务器发生数据丢失时,将通过后端的备份介质,给予恢复。这种实现方式在实际操作中比较麻烦,因为源端服务器有不同的操作系统和应用服务,各个系统和应用服务的版本不同,故而实际安装维护操作时带来的很大的麻烦与不便。
在云计算和大数据模式下,该种传统方式无法实现数据的保护与备份。因为在大数据采用DFS/HDFS数据结构方式,每个元数据将有3个目标拷贝相对应, 更何况这种动辄源端有上千台服务器,采用装Agent的方式将会无法进行管理,且工作量巨大。
另外一个问题是高费用,由于要支持源端不同的操作系统和应用软件,因而源端服务器的Agent要有多个模块, 有些模块是支持不同操作系统的,有些模块是支持不同数据库的,有些模块是支持运行与该数据库上的应用服务的。有些模块是支持虚拟化层的。同个服务器上多个Agent的实现方式虽然能解决了传统数据备份的需求,但是带来的却是价格的高昂。
发明内容
本发明的目的在于提供一种反向数据抓取实现云容灾备份的方法,旨在解决传统备份软件中在源端服务器上必须安装各种agent模块来进行备份的问题。
本发明是这样实现的,一种反向数据抓取实现云容灾备份的方法,所述方法包括以下步骤:
A、数据抓取前置机通过网络与需保护的服务器建立连接;
B、前置机通过授权用户账号登录至源端服务器抓取数据信息;
C、将抓取的源端实时数据信息经缓存后存入本地生成元数据;
D、将前置机生成的元数据传输到本地后置机;
E、对前置机和本地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储并执行步骤F;若元数据对比不一致,则执行步骤D;
F、将本地后置机存储的元数据传输到异地后置机;
G、对本地后置机和异地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储;若元数据对比不一致,则执行步骤F。
本发明的进一步技术方案是:所述步骤B包括以下步骤:
B1、前置机通过授权用户登录至源端服务器;
B2、前置机读取数据信息发出操作指令进行数据处理后放置缓存中;
B3、前置机从源端缓存中抓取数据对其加密并压缩。
本发明的进一步技术方案是:所述步骤C包括以下步骤:
C1、将抓取的源端实时数据信息写入前置机的缓存或内存;
C2、将缓存或内存底端字节存储的数据存入本地磁盘生成元数据。
本发明的进一步技术方案是:所述前置机抓取数据时会在源端服务器数据做标识区分该数据时候被抓取。
本发明的进一步技术方案是:所述前置机抓取数据首次采用全量方式抓取,再抓取数据采用增量方式抓取。
本发明的进一步技术方案是:所述缓存或内存底端字节存储到本地磁盘采用缓存FIFO方式存入。
本发明的进一步技术方案是:所述前置机内置各类操作系统模块及各类数据库系统模块。
本发明的另一目的在于提供一种反向数据抓取实现云容灾备份的系统,该系统包括:
通道建立模块,用于数据抓取前置机通过网络与需保护的服务器建立连接;
数据抓取模块,用于前置机通过授权用户账号登录至源端服务器抓取数据信息;
本地存储模块,用于将抓取的源端实时数据信息经缓存后存入本地生成元数据;
一次传输模块,用于将前置机生成的元数据传输到本地后置机;
一次元数据对比模块,对前置机和本地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储并执行步骤F;若元数据对比不一致,则执行步骤D;
二次传输模块,用于将本地后置机存储的元数据传输到异地后置机;
二次元数据对比模块,用于对本地后置机和异地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储;若元数据对比不一致,则执行步骤F。
本发明的进一步技术方案是:所述数据抓取模块包括:
用户登录单元,用于前置机通过授权用户登录至源端服务器;
指令处理单元,用于前置机读取数据信息发出操作指令进行数据处理后放置缓存中;
抓取加密单元,用于前置机从源端缓存中抓取数据对其加密并压缩。
本发明的进一步技术方案是:所述本地存储模块包括:
暂时存储单元,用于将抓取的源端实时数据信息写入前置机的缓存或内存;
磁盘写入单元,用于将缓存或内存底端字节存储的数据存入本地磁盘生成元数据。
本发明的有益效果是:本发明通过反向抓取数据,有传统的被动抓取变为主动抓取,实现了在抓取数据无需在源端服务器安装各种agent模块来进行备份,在大数据和云计算的模式下依然完成云容灾备份的数据保护,节约了成本、提高了效率。
附图说明
图1是本发明实施例提供的反向数据抓取实现云容灾备份的方法的流程图。
具体实施方式
图1示出了本发明提供的反向数据抓取实现云容灾备份的方法的流程图,其详述如下:
步骤S1中,数据抓取前置机通过IP网络或光纤网路与需要备份保护的服务器建立对应的连接,成功的将前置机与服务器建立连接后则执行步骤S2;在准备好的前置机种安装支撑各个类型操作系统模块及各类数据库系统模块,操作系统模块包括微软操作系统客户端模块、 Linux操作系统客户端模块、IBM小型机AIX系统、 虚拟层模块如Vmware ESX客户端模块、MS-HyperV客户端模块及Xenserver客户端模块,各类数据库系统的模块包括Oracle RMAN客户端模块、MS-SQL模块及 PostgreSQL模块;在针对SAP等CRM,ERP业务系统的模块, 和针对大数据的DFS/HDFS, NoSQL客户端模块等,前置机另外内置有虚拟化软件VMware或Xenserver,该虚拟化软件将让各个上述模块在同一个设备下被统一管理。
在步骤S2中,抓取数据前置机通过网络的IP地址和源端服务器的手术安用户账号登录到源端服务器上,在登录的过程中首先要对网络IP地址进行验证,在验证当中如果IP地址不正确会提示词IP地址不存在,如果IP地址正确,则进行授权用户验证,如果验证用户正确,则建立通道连接,如果验证用户不正确,则源端服务器拒绝连接。
在步骤S3中,在成功链接服务器后,建立数据通信通道,前置机读取源端服务器数据信息,将数据信息读取完前置对服务器发送操作指令,让源端服务器将数据信息进行处理,并且将处理的数据信息放置在缓存中。
在步骤S4中,前置机从源端服务器的缓存中抓取数据,并且抓取的数据信息进行加密和压缩处理。在前置机抓取数据的同时,前置机会在源端服务器的数据上做标识,此标识用来区分该数据是否已经被抓取,并在前置机的数据库中添加索引。由于源端服务器上的数据结构存在不同,故前置机对源端服务器所发出的指令也不相同。在前置机第一次抓取源端服务器上的数据是采用的全量方式抓取,在以后的抓取数据中采用的是增量方式抓取。这两种方式抓取数据将最大程度减少对于存储介质和网络带宽的使用。
在步骤S5中,前置机将抓取的源端服务器的实时数据信息写入前置机的缓存或内存之中,将这些抓取回的实时数据暂时的存储在缓存或内存里。
在步骤S6中,将缓存或内存中暂时存储的数据信息的底端字节转存到前置机的本地磁盘上,并在转存的过程中将抓取的数据生成元数据。在将数据转存过程中按照缓存FIFO方式转存,而本地磁盘采用的是SSD或SAS或SATA等标准。
在步骤S7中,在前置将抓取的数据生成元数据的一端时间内要将元数据传输到本地后置机进行数据的备份存储,在传输的过程当中,首先要做的是传输数据库中的metedata(元数据)。
在步骤S8中,本地后置机接收metedata后需要与前置机进行metedata对比。比对metedata的目的是,待数据传输完成后,来校验数据的一致性。比对完成后,本地后置机开始接收的数据,接收的过程中依然进行标识,添加数据索引。传输完成之后,本地后置机会与前置机在一次进行数据库索引的对比,检查metedata,来确定接收的数据是否与前置机一致。在比对中,如果比对的元数据一致,则执行步骤S9,;如果在比对当中,比对的元数据不一致,则删除本次传输的数据并执行步骤S7。本地后置机将缓存中接收到的数据按照FIFO方式写入后端外置存储。支持绝大多数的主流存储。
在步骤S9中,在前置机与本地后置机的元数据一致进行数据存储,并且在一定的时间内,将存储的元数据传输到异地后置机。
在步骤S10中,异地后置机接收metedata后需要与前置机进行metedata对比。比对metedata的目的是,待数据传输完成后,来校验数据的一致性。比对完成后,异地后置机开始接收的数据,接收的过程中依然进行标识,添加数据索引。传输完成之后,异地后置机会与本地后置机在一次进行数据库索引的对比,检查metedata,来确定接收的数据是否与前置机一致。在比对中,如果比对的元数据一致,则执行步骤S11,;如果在比对当中,比对的元数据不一致,则删除本次传输的数据并执行步骤S9。本地后置机将缓存中接收到的数据按照FIFO方式写入后端外置存储。支持绝大多数的主流存储。
在步骤S11中,将本地后置机传输的元数据进行存储。异地置机将缓存中的接收到的数据按照FIFO的方式写入后端的多个存储中,供数据挖掘,数据分析,数据计算用。也可在发生数据损失后能及时恢复数据。
本发明通过反向抓取数据,有传统的被动抓取变为主动抓取,实现了在抓取数据无需在源端服务器安装各种agent模块来进行备份,在大数据和云计算的模式下依然完成云容灾备份的数据保护,节约了成本、提高了效率。
本发明解决了传统备份软件中在源端服务器上必须安装各种agent模块来进行备份,而传统备份软件的各个agent模块是需要额外购买的,对于各种类型企业和单位来说是一笔很大的额外费用,本发明采用无agent代理模式,通过反向抓取技术,在网络上获取源端数据,这样可以给企业,单位省下这笔高额的费用。通过本技术可以轻松解决基于云模式环境下的大数据保护-包含大数据备份容灾管理。由于传统备份软件工作方式的缘故,在大数据和云计算的模式下,无法对上千台的源端服务器进行管理,虽然在某些特定环境下虽然可以部分实现,如HDFS文件系统定义了namespace等方式,但是由于大数据异构性特点本质,其工作量和代价是巨大的,而通过本技术,可以轻松解决大数据环境下的数据保护这一难题。
本发明的另一目的在于提供一种反向数据抓取实现云容灾备份的系统,该系统包括:
通道建立模块,用于数据抓取前置机通过网络与需保护的服务器建立连接;
数据抓取模块,用于前置机通过授权用户账号登录至源端服务器抓取数据信息;
本地存储模块,用于将抓取的源端实时数据信息经缓存后存入本地生成元数据;
一次传输模块,用于将前置机生成的元数据传输到本地后置机;
一次元数据对比模块,对前置机和本地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储并执行步骤F;若元数据对比不一致,则执行步骤D;
二次传输模块,用于将本地后置机存储的元数据传输到异地后置机;
二次元数据对比模块,用于对本地后置机和异地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储;若元数据对比不一致,则执行步骤F。
所述数据抓取模块包括:
用户登录单元,用于前置机通过授权用户登录至源端服务器;
指令处理单元,用于前置机读取数据信息发出操作指令进行数据处理后放置缓存中;
抓取加密单元,用于前置机从源端缓存中抓取数据对其加密并压缩。
所述本地存储模块包括:
暂时存储单元,用于将抓取的源端实时数据信息写入前置机的缓存或内存;
磁盘写入单元,用于将缓存或内存底端字节存储的数据存入本地磁盘生成元数据。
所述前置机抓取数据时会在源端服务器数据做标识区分该数据时候被抓取。
所述前置机抓取数据首次采用全量方式抓取,再抓取数据采用增量方式抓取。
所述缓存或内存底端字节存储到本地磁盘采用缓存FIFO方式存入。
所述前置机内置各类操作系统模块及各类数据库系统模块。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种反向数据抓取实现云容灾备份的方法,其特征在于,所述方法包括以下步骤:
A、数据抓取前置机通过网络与需保护的服务器建立连接;
B、前置机通过授权用户账号登录至源端服务器抓取数据信息;
C、将抓取的源端实时数据信息经缓存后存入本地生成元数据;
D、将前置机生成的元数据传输到本地后置机;
E、对前置机和本地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储并执行步骤F;若元数据对比不一致,则执行步骤D;
F、将本地后置机存储的元数据传输到异地后置机;
G、对本地后置机和异地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储;若元数据对比不一致,则执行步骤F。
2.根据权利要求1所述的方法,其特征在于,所述步骤B包括以下步骤:
B1、前置机通过授权用户登录至源端服务器;
B2、前置机读取数据信息发出操作指令进行数据处理后放置缓存中;
B3、前置机从源端缓存中抓取数据对其加密并压缩。
3.根据权利要求2所述的方法,其特征在于,所述步骤C包括以下步骤:
C1、将抓取的源端实时数据信息写入前置机的缓存或内存;
C2、将缓存或内存底端字节存储的数据存入本地磁盘生成元数据。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述前置机抓取数据时会在源端服务器数据做标识区分该数据时候被抓取。
5.根据权利要求4所述的方法,其特征在于,所述前置机抓取数据首次采用全量方式抓取,再抓取数据采用增量方式抓取。
6.根据权利要求5所述的方法,其特征在于,所述缓存或内存底端字节存储到本地磁盘采用缓存FIFO方式存入。
7.根据权利要求5所述的方法,其特征在于,所述前置机内置各类操作系统模块及各类数据库系统模块。
8.一种反向数据抓取实现云容灾备份的系统,其特征在于,该系统包括:
通道建立模块,用于数据抓取前置机通过网络与需保护的服务器建立连接;
数据抓取模块,用于前置机通过授权用户账号登录至源端服务器抓取数据信息;
本地存储模块,用于将抓取的源端实时数据信息经缓存后存入本地生成元数据;
一次传输模块,用于将前置机生成的元数据传输到本地后置机;
一次元数据对比模块,对前置机和本地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储并执行步骤F;若元数据对比不一致,则执行步骤D;
二次传输模块,用于将本地后置机存储的元数据传输到异地后置机;
二次元数据对比模块,用于对本地后置机和异地后置机的元数据进行对比,若元数据对比一致,则将元数据进行存储;若元数据对比不一致,则执行步骤F。
9.根据权利要求8所述的系统,其特征在于,所述数据抓取模块包括:
用户登录单元,用于前置机通过授权用户登录至源端服务器;
指令处理单元,用于前置机读取数据信息发出操作指令进行数据处理后放置缓存中;
抓取加密单元,用于前置机从源端缓存中抓取数据对其加密并压缩。
10.根据权利要求9所述的系统,其特征在于,所述本地存储模块包括:
暂时存储单元,用于将抓取的源端实时数据信息写入前置机的缓存或内存;
磁盘写入单元,用于将缓存或内存底端字节存储的数据存入本地磁盘生成元数据。
CN201410167080.XA 2014-04-23 2014-04-23 一种反向数据抓取实现云容灾备份的方法及系统 Expired - Fee Related CN103942123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410167080.XA CN103942123B (zh) 2014-04-23 2014-04-23 一种反向数据抓取实现云容灾备份的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410167080.XA CN103942123B (zh) 2014-04-23 2014-04-23 一种反向数据抓取实现云容灾备份的方法及系统

Publications (2)

Publication Number Publication Date
CN103942123A true CN103942123A (zh) 2014-07-23
CN103942123B CN103942123B (zh) 2017-02-15

Family

ID=51189796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410167080.XA Expired - Fee Related CN103942123B (zh) 2014-04-23 2014-04-23 一种反向数据抓取实现云容灾备份的方法及系统

Country Status (1)

Country Link
CN (1) CN103942123B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572357A (zh) * 2014-12-30 2015-04-29 清华大学 一种用于hdfs系统的备份和恢复方法
CN107220149A (zh) * 2017-04-05 2017-09-29 深圳市广和通无线通信软件有限公司 在Windows下对Linux系统中无线通讯模块调试数据抓取方法和系统
CN108829538A (zh) * 2018-05-25 2018-11-16 郑州云海信息技术有限公司 一种基于存储的应用备份方法及装置
CN113704087A (zh) * 2021-07-09 2021-11-26 奇安信科技集团股份有限公司 一种跨域传输设备的文件业务测试方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999398A (zh) * 2011-09-15 2013-03-27 腾讯科技(深圳)有限公司 一种实现用户系统还原的方法、系统和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999398A (zh) * 2011-09-15 2013-03-27 腾讯科技(深圳)有限公司 一种实现用户系统还原的方法、系统和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572357A (zh) * 2014-12-30 2015-04-29 清华大学 一种用于hdfs系统的备份和恢复方法
CN107220149A (zh) * 2017-04-05 2017-09-29 深圳市广和通无线通信软件有限公司 在Windows下对Linux系统中无线通讯模块调试数据抓取方法和系统
CN107220149B (zh) * 2017-04-05 2020-05-22 深圳市广和通无线通信软件有限公司 在Windows下对Linux系统中无线通讯模块调试数据抓取方法和系统
CN108829538A (zh) * 2018-05-25 2018-11-16 郑州云海信息技术有限公司 一种基于存储的应用备份方法及装置
CN113704087A (zh) * 2021-07-09 2021-11-26 奇安信科技集团股份有限公司 一种跨域传输设备的文件业务测试方法、装置及电子设备
CN113704087B (zh) * 2021-07-09 2024-01-19 奇安信科技集团股份有限公司 一种跨域传输设备的文件业务测试方法、装置及电子设备

Also Published As

Publication number Publication date
CN103942123B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
US11294786B2 (en) Management of internet of things devices
US11704223B2 (en) Managing data from internet of things (IoT) devices in a vehicle
US9606876B2 (en) Back up and recovery in virtual machine environments
US20180285234A1 (en) Management of internet of things devices
US10067952B2 (en) Retrieving point-in-time copies of a source database for creating virtual databases
JP5701320B2 (ja) 複製ターゲットがシンプロビジョニングストレージシステム上の未使用記憶空間を再利用できるようにするためのシステムおよび方法
US8706694B2 (en) Continuous data protection of files stored on a remote storage device
JP6589054B2 (ja) データを不透明データバックアップストリームから復元するためのシステム及び方法
US12001452B2 (en) Search and analytics for storage systems
CN104781791A (zh) 通用可插拔云灾难恢复系统
CN105556478A (zh) 用于保护虚拟机数据的系统和方法
US20210141909A1 (en) Blockchain-based file handling
CN103942123A (zh) 一种反向数据抓取实现云容灾备份的方法及系统
CN106815096A (zh) 一种数据管理方法与装置
US20220382637A1 (en) Snapshotting hardware security modules and disk metadata stores
US11093465B2 (en) Object storage system with versioned meta objects
US11079960B2 (en) Object storage system with priority meta object replication
US11074002B2 (en) Object storage system with meta object replication
US11169960B2 (en) Data transfer appliance method and system
US9852200B1 (en) Systems and methods for restoring data files
US11593498B2 (en) Distribution of user specific data elements in a replication environment
Luo et al. Backup and disaster recovery system for HDFS
WO2022250826A1 (en) Managing keys across a series of nodes, based on snapshots of logged client key modifications
CN114398207A (zh) 一种结构化数据管理系统、方法、计算机设备及介质
CN114153853A (zh) 一种云存储数据索引管理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20190423

CF01 Termination of patent right due to non-payment of annual fee