CN104765651B - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN104765651B
CN104765651B CN201410004770.3A CN201410004770A CN104765651B CN 104765651 B CN104765651 B CN 104765651B CN 201410004770 A CN201410004770 A CN 201410004770A CN 104765651 B CN104765651 B CN 104765651B
Authority
CN
China
Prior art keywords
backup
data
recovery
data processing
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410004770.3A
Other languages
English (en)
Other versions
CN104765651A (zh
Inventor
陈欻
阮前
张健
叶荣光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Fujian Co Ltd
Original Assignee
China Mobile Group Fujian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Fujian Co Ltd filed Critical China Mobile Group Fujian Co Ltd
Priority to CN201410004770.3A priority Critical patent/CN104765651B/zh
Publication of CN104765651A publication Critical patent/CN104765651A/zh
Application granted granted Critical
Publication of CN104765651B publication Critical patent/CN104765651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法和装置,其中,一种数据处理方法包括:根据收到的备份指令,获取预先配置的备份策略;根据所述备份策略将数据存储到至少一个存储节点。另一种数据处理方法包括:根据收到的恢复指令,获取预先配置的恢复策略;根据预先配置的恢复策略进行数据的恢复。

Description

一种数据处理方法和装置
技术领域
本发明涉及通信技术,尤其涉及一种数据处理方法和装置。
背景技术
移动业务运营支撑系统(Business&Operation Support System,BOSS)的帐详单系统已建成多年,承担着原始话单批价处理、账单生成、账详单查询等基础功能,并为统计分析、收入保障提供数据来源。随着用户量和业务量日益增长,现有帐详单系统在前台查询性能、后台运维管理等方面逐渐达到瓶颈,难以满足业务发展需要。
针对帐详单的海量数据引起的存储空间小、查询性能差、统计分析瓶颈、文件库修改困难等问题,目前引入基于列模式、适合于海量数据存储的Hadoop分布式数据库(HadoopDatabase,HBase)以及旨在为数据仓库和大规模分析处理功能提供技术支持的分析型数据库Greenplum,以此来全面提升系统架构,得到新的云计算架构。
在新的云计算架构以下,数据同样需要备份和恢复处理。在BOSS帐详单系统的云方案中分布式数据库Hbase存储着海量的详单数据,现有的基本可行的基于Hbase的数据处理技术包括:利用Hbase的导出(Export)工具进行数据的备份,利用导入(Import)工具进行数据的恢复。
数据处理的步骤,如图1所示,包括:
1、备份数据时,利用Export工具将Hbase中的指定范围的数据,以表为粒度导出成Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)中的文件;
2、将HDFS中的文件备份到远端的备份存储中进行保存;
3、数据恢复时,先从远端备份存储中将数据恢复到HDFS中;
4、利用Import工具将HDFS中的文件加载到Hbase中。
虽然现有技术可以进行数据的备份和恢复处理。但是,当每天新的数据量很大,且留有的备份时间窗口很小时,现有技术无法在很小的备份窗口及时完成备份数据,无法记录在某一个时刻用户对数据的操作历史,无法保证多表间数据在某一时刻的关联,也无法在备份出的海量数据中快速的找到要恢复的数据并进行数据的恢复,由此现有技术不能满足数据处理的需求。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种数据处理方法和装置。
本发明提供一种数据处理方法,所述方法包括:
根据收到的备份指令,获取预先配置的备份策略;
根据所述备份策略将数据存储到至少一个存储节点。
本发明提供一种数据处理方法,所述方法包括:
根据收到的恢复指令,获取预先配置的恢复策略;
根据预先配置的恢复策略进行数据的恢复。
本发明提供另一种数据处理装置,所述装置包括:
第一获取单元,用于根据收到的备份指令,获取预先配置的备份策略;
第一控制单元,用于根据所述备份策略将数据存储到至少一个存储节点。
本发明提供另一种数据处理装置,所述装置包括:
第二获取单元,用于根据收到的恢复指令,获取预先配置的恢复策略;
第二控制单元,用于根据预先配置的恢复策略进行数据的恢复。
由上可知,本发明的技术方案包括:根据收到的备份指令,获取预先配置的备份策略;根据所述备份策略将数据存储到至少一个存储节点。由此,本发明能够在备份窗口内及时完成数据备份。
附图说明
图1为现有技术实现数据处理的示意图;
图2为本发明一种数据处理方法的第一实施例的流程示意图;
图3为本发明一种数据处理方法的第二实施例的流程示意图;
图4为本发明一种数据处理方法的第三实施例的流程示意图;
图5为本发明另一种数据处理方法的第一实施例的流程示意图;
图6为本发明另一种数据处理方法的第二实施例的流程示意图;
图7为本发明一种数据处理装置的实施例的流程示意图;
图8为本发明另一种数据处理装置的实施例的流程示意图;
图9为本发明实施例提供的实现数据处理方法的系统的结构示意图;
图10为本发明实施例提供的备份流程图;
图11为本发明实施例提供的恢复流程图。
具体实施方式
本发明提供的一种数据处理方法的第一实施例,如图2所示,所述方法包括:
步骤201、根据收到的备份指令,获取预先配置的备份策略;
步骤202、根据所述备份策略将数据存储到至少一个存储节点。
这里,可以通过控制备份代理来进行多点协同备份,以将数据存储到至少一个存储节点。所述备份代理的数量至少为一个,多个备份代理服务运行在并行计算框架之上。这样,可以有效地提高备份的并行性,同时可以保证任务执行的可靠性。
所述备份代理可以安装在Hbase RegionServer节点上,所述备份代理需要安装Hbase客户端(client)软件。这样,可以利用数据本地化的特性来尽量减少网络通信,提高备份性能。备份代理也可以称为备份代理节点。
在实际应用中,可以提供一个图形界面供备份管理人员进行备份策略的定制。
具体的,所述备份策略可以包括:
本发明提供的一种数据处理方法的第二实施例,如图3所示,所述方法包括:
步骤301、根据收到的备份指令,获取预先配置的备份策略;
步骤302、根据所述备份策略将数据存储到至少一个存储节点。
步骤303、记录并显示备份进度信息。
这里,可以通过提供一个图形界面显示备份进度信息。所述备份进度信息纪录了备份任务的进度。
本发明提供的一种数据处理方法的第三实施例,如图4所示,所述方法包括:
步骤401、根据收到的备份指令,获取预先配置的备份策略;
步骤402、根据所述备份策略将数据存储到至少一个存储节点。
步骤403、生成备份数据的索引。
这里,所述备份数据的索引用于记录备份数据所存储的位置,供恢复时快速定位备份数据。
本发明提供的一种数据处理方法的第一实施例,如图5所示,所述方法包括:
步骤501、根据收到的恢复指令,获取预先配置的恢复策略;
步骤502、根据预先配置的恢复策略进行数据的恢复。
这里,可以通过控制恢复代理来进行数据的恢复。所述恢复代理可以安装在HbaseRegionServer节点上,所述恢复代理需要安装Hbase client软件。恢复代理也可以称为恢复代理节点。
在实际应用中,可以提供一个图形界面供备份管理人员进行恢复策略的定制。
具体的,所述恢复策略可以包括:
本发明提供的一种数据处理方法的第二实施例,如图6所示,所述方法包括:
步骤601、根据收到的恢复指令,获取备份数据的索引;
步骤602、根据所述备份数据的索引在相应的存储节点查询恢复指令对应的数据,当查询到对应的数据时,进入步骤603;当查询不到对应的数据时,进入步骤605;
步骤603,获取预先配置的恢复策略;
步骤604、根据预先配置的恢复策略进行数据的恢复,结束本次流程。
步骤605、报告数据异常。
本发明提供的一种数据处理装置的实施例,如图7所示,所述装置包括:
第一获取单元701,用于根据收到的备份指令,获取预先配置的备份策略;
第一控制单元702,用于根据所述备份策略将数据存储到至少一个存储节点。
较佳地,所述装置还包括:
记录单元703,用于记录并显示备份进度信息。
较佳地,所述装置还包括:
生成单元704,用于记录并显示备份进度信息。
本实施例中的数据处理装置对应于下文的控制子系统、控制节点。
本发明提供的另一种数据处理装置的实施例,如图8所示,所述装置包括:
第二获取单元801,用于根据收到的恢复指令,获取预先配置的恢复策略;
第二控制单元802,用于根据预先配置的恢复策略进行数据的恢复。
较佳地,所述装置还包括:
第三获取单元803,用于根据收到的恢复指令,获取备份数据的索引;
查询单元804,用于根据所述备份数据的索引在相应的存储节点查询恢复指令对应的数据,当查询到对应的数据时,通知第二获取单元执行获取预先配置的恢复策略的操作。
本实施例中的数据处理装置可以对应于下文的控制子系统、控制节点。
在实际应用中,可以将备份数据用的数据处理装置和恢复数据用的数据处理装置设置在一个控制节点上。
下面结合附图和具体实施对本发明的技术方案进一步详细阐述。
本发明提供的一种数据处理方法可以通过图9所示的系统实现,所述系统包括控制子系统901、备份子系统902、恢复子系统903、存储子系统904、生产子系统905、备份数据恢复子系统906。
控制子系统901:提供一个图形界面供备份管理人员进行备份策略和恢复策略的定制;显示备份进度记录;控制备份代理以及恢复代理工作的开始和停止。控制子系统也可以称为控制节点。
备份子系统902:执行具体的备份任务,多个备份代理服务运行在并行计算框架之上。这样,可以有效地提高备份的并行性,同时可以保证任务执行的可靠性。所述备份代理可以安装在Hbase RegionServer节点上,所述备份代理需要安装Hbase client软件。这样,可以利用数据本地化的特性来尽量减少网络通信,提高备份性能。
恢复子系统903:执行具体的数据恢复任务,多个恢复代理服务运行在并行计算框架之上。这样,可以有效地提高恢复数据的并行性,同时可以保证任务执行的可靠性。所述恢复代理可以安装在Hbase RegionServer节点上,所述恢复代理需要安装Hbase client软件。这样,可以利用数据本地化的特性来尽量减少网络通信,提高备份性能。
存储子系统904:包括多个备份数据存储节点,用于存储海量的备份数据;提供备份数据索引节点,供恢复时快速定位备份数据。
生产子系统905:对外提供应用服务,同时为了数据的安全性需要进行数据的备份。
备份数据恢复子系统906:用于备份数据的恢复,数据恢复后可对外提供数据的访问。
如图10所示,在本发明中数据备份流程如下:
1001、管理人员通过控制节点定义备份策略。
假定备份策略为:
备份目标:table1,table2;
备份的时间段及开始时间:每天0点开始备份,备份窗口6个小时;
参与备份的节点,备份/恢复代理1、备份/恢复代理2、备份/恢复代理3;
备份方式:增量备份;
备份数据的组织方式:以主键组织数据。
1002、控制子系统生成备份策略。
1003、控制子系统获取到备份策略后,循环判断当前的时间是否是0点,如果不是0点,重复步骤1003;如果是0点,进入步骤1004。
1004、控制子系统则会启动备份代理1、备份代理2、备份代理3,并将备份策略告知备份代理。
1005、备份代理1、备份代理2、备份代理3开始对table1和table2中第一个未备份半小时数据进行并行的备份工作。
1006、判断第一个半小时的数据备份是否完成,当没有完成时,进入步骤1005;当完成时,备份代理将数据存储到存储子系统中,同时将备份的进度存储到控制子系统中,除了存储数据以外,还需生成备份数据的索引。进入步骤1007;
1007、控制子系统根据备份上一个半小时数据的时间看剩余的备份窗口是否满足下一个半小时的备份。当满足时,进入步骤1008;当不满足时,进入步骤10
1008、启动接下来半小时数据的备份,数据备份成功后同样要写入存储子系统,并将备份的进度存储到控制子系统中,除了存储数据以外,还需生成备份数据的索引。返回步骤1007,重复步骤1007~1008,直到备份窗口用完,则停止备份代理1、备份代理2、备份代理3的工作。
如图11所示,在本发明中数据恢复流程如下:
1101、管理人员通过控制节点定义恢复策略。
假定恢复策略为:
参与恢复的节点:备份/恢复代理1、备份/恢复代理2、备份/恢复代理3;
恢复的时间段、数据和位置:恢复2013/8/1117:30~18:00,table1和table2的数据,恢复到备份数据恢复系统中;
保留的副本数:3。
1102、控制节点生成恢复策略。
1103、控制节点生成恢复策略后立即启动恢复代理1、恢复代理2、恢复代理3,并将恢复策略传递给恢复代理。
1104、恢复代理接收到恢复命令后,开始进行并行的数据恢复工作。
1105、数据恢复工作首先到存储子系统的备份数据节点查询要恢复的数据是否存在,当存在时,进入步骤1106;当不存在时,进入步骤1108。
1106、将相应的数据恢复到备份数据恢复系统中;
1107、在数据恢复完成后,停止恢复代理1、恢复代理2、恢复代理3的工作,结束本次流程。
1108、向管理员报告数据异常。
本发明通过控制节点,以图形化的方式实现备份与恢复策略的定制、能够干预备份和恢复代理节点的运作、并且在备份的过程中能记录备份的进度以及断点。
本发明的备份和恢复代理节点,可以根据相应的配置策略进行海量数据的备份与恢复操作、并且可以根据需要自行选择全部或是部分节点参与、基于运行在MapReduce(MR)框架上的并行代理节点实现高效且可靠的备份与恢复工作。
本发明的备份和恢复代理节点,可以灵活选择备份的KEY字段、并且可以灵活选择备份时间点以及时间窗、并能在备份时实时统计每次备份所需要的时间,同时根据此统计时间和备份窗口来决定是否进行下一个时间段的增量备份。
本发明备份和恢复代理节点,可以按时间段、数据和位置、历史操作版本进行数据恢复操作;优先恢复时间最早的数据;并且在恢复时的rowkey上增加字符串的方式保证纪录的唯一性。
综上所述,本发明弥补了Hbase数据库架构下,单表频繁更新时无法实现增量备份、并发备份需手工协调,造成管理难度增大、业务限制造成海量数据的备份时间窗相对较小等不足。本发明的技术效果包括:可通过备份控制节点预先配置备份策略、恢复策略;备份数据、时间可灵活选择,备份时间窗可实时估算,可以任意选择历史操作数据进行恢复;通过备份/恢复代理进行多点协同备份与恢复。本发明可以实现高效可靠的全量与增量海量数据备份能力;可以最大化降低备份对业务连续性的影响;可以最大化减少备份过程的人工干预,降低运维管理工作量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (6)

1.一种数据处理方法,其特征在于,所述方法包括:
根据收到的备份指令,获取预先配置的备份策略;
根据所述备份策略,控制备份代理来进行多点协同备份,将数据存储到至少一个存储节点;并控制所述备份代理在备份时实时统计备份所需要的时间,并在备份窗口的时间大于统计的时间时进行下一个时间段的增量备份;
其中,所述备份代理安装在存储节点上。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
记录并显示备份进度信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
生成备份数据的索引。
4.一种数据处理装置,其特征在于,所述装置包括:
第一获取单元,用于根据收到的备份指令,获取预先配置的备份策略;
第一控制单元,用于根据所述备份策略,控制备份代理来进行多点协同备份,将数据存储到至少一个存储节点;并控制所述备份代理在备份时实时统计备份所需要的时间,并在备份窗口的时间大于统计的时间时进行下一个时间段的增量备份;其中,所述备份代理安装在存储节点上。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
记录单元,用于记录并显示备份进度信息。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
生成单元,用于记录并显示备份进度信息。
CN201410004770.3A 2014-01-06 2014-01-06 一种数据处理方法和装置 Active CN104765651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410004770.3A CN104765651B (zh) 2014-01-06 2014-01-06 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410004770.3A CN104765651B (zh) 2014-01-06 2014-01-06 一种数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN104765651A CN104765651A (zh) 2015-07-08
CN104765651B true CN104765651B (zh) 2019-02-26

Family

ID=53647496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410004770.3A Active CN104765651B (zh) 2014-01-06 2014-01-06 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN104765651B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159945A (zh) * 2015-08-10 2015-12-16 北京思特奇信息技术股份有限公司 一种Hbase与Hdfs之间的数据抽取转换方法及系统
CN107506258B (zh) * 2016-06-14 2021-11-12 伊姆西Ip控股有限责任公司 用于数据备份的方法和设备
CN107665153A (zh) * 2016-07-27 2018-02-06 中兴通讯股份有限公司 一种大数据系统中数据备份方法、恢复方法和装置
CN107193687A (zh) * 2017-04-18 2017-09-22 北京潘达互娱科技有限公司 数据库备份方法及调度设备
CN109976946A (zh) * 2019-02-27 2019-07-05 深圳点猫科技有限公司 一种用于教育云平台的调度系统历史数据恢复方法及装置
CN109901952B (zh) * 2019-03-06 2021-11-26 山东申启信息技术有限公司 一种数据备份方法、系统及服务器
CN110309020A (zh) * 2019-07-09 2019-10-08 中国工商银行股份有限公司 备份作业处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866305A (zh) * 2010-05-21 2010-10-20 武汉大学 支持数据查询和快速恢复的连续数据保护方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880799B2 (en) * 2005-09-30 2014-11-04 Cleversafe, Inc. Rebuilding data on a dispersed storage network
US8065273B2 (en) * 2006-05-10 2011-11-22 Emc Corporation Automated priority restores
CN101325785A (zh) * 2008-07-28 2008-12-17 深圳华为通信技术有限公司 数据备份与恢复方法及装置、移动设备
CN101515296A (zh) * 2009-03-06 2009-08-26 成都市华为赛门铁克科技有限公司 数据更新方法和装置
CN102117231A (zh) * 2009-12-30 2011-07-06 上海文广互动电视有限公司 一种分布式数据备份容灾系统以及方法
CN102708187B (zh) * 2012-05-14 2014-04-30 成都信息工程学院 基于Hbase数据库的倒排索引混合压缩及解压方法
CN102880531B (zh) * 2012-09-27 2014-04-16 新浪网技术(中国)有限公司 数据库备份系统及其备份方法和从数据库服务器
CN103338261B (zh) * 2013-07-04 2016-06-29 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及系统
CN104714858A (zh) * 2013-12-13 2015-06-17 中国移动通信集团公司 数据备份方法及装置、数据恢复方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866305A (zh) * 2010-05-21 2010-10-20 武汉大学 支持数据查询和快速恢复的连续数据保护方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于HDFS的数据备份系统的分析与设计;许维龙;《中国优秀硕士学位论文全文数据库信息科技辑》;20131115(第11期);第20-54页

Also Published As

Publication number Publication date
CN104765651A (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN104765651B (zh) 一种数据处理方法和装置
US10621049B1 (en) Consistent backups based on local node clock
US9965480B2 (en) Smart archiving of real-time performance monitoring data
US11042503B1 (en) Continuous data protection and restoration
CN103677973A (zh) 一种分布式多任务调度管理系统
US20160048408A1 (en) Replication of virtualized infrastructure within distributed computing environments
US20240160531A1 (en) Continuous data protection
US20200019320A1 (en) Capacity forecasting based on capacity policies and transactions
CN105843707B (zh) 数据库快速恢复方法及设备
US10083095B1 (en) Analytics-based backup system for determining optimum backup methods and predicting backup windows
CN105279261B (zh) 动态可扩展数据库归档方法和系统
US10067836B1 (en) Configuration based intelligent protection modeling
US20110029419A1 (en) Method, Apparatus and Program Storage Device for Providing Real-Time File System Charge-Back Accounting Per Management Object During A Report Cycle
CN104423960A (zh) 一种项目持续集成的方法及系统
CN112559475B (zh) 数据实时捕获和传输方法及系统
JP2016100006A (ja) パフォーマンス試験のためのベンチマーク・アプリケーションを生成する方法および装置
CN109144785A (zh) 用于备份数据的方法和装置
CN104657387A (zh) 一种数据查询方法及装置
CN106815096A (zh) 一种数据管理方法与装置
CN110263095A (zh) 数据备份与恢复方法、装置、计算机设备及存储介质
CN110764747A (zh) 基于Airflow的数据计算调度方法
CN104063468A (zh) 一种数据报表自动生成及提取方法及装置
US11042454B1 (en) Restoration of a data source
CN107315652B (zh) 一种数据备份方法及云hdfs系统
CN107797856B (zh) 基于windows服务的计划任务管控方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant