CN114546728A - 一种适用于HBase进行数据备份与恢复的方法 - Google Patents
一种适用于HBase进行数据备份与恢复的方法 Download PDFInfo
- Publication number
- CN114546728A CN114546728A CN202210188558.1A CN202210188558A CN114546728A CN 114546728 A CN114546728 A CN 114546728A CN 202210188558 A CN202210188558 A CN 202210188558A CN 114546728 A CN114546728 A CN 114546728A
- Authority
- CN
- China
- Prior art keywords
- backup
- data
- task
- state
- execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011084 recovery Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012544 monitoring process Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 6
- 238000007639 printing Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000013500 data storage Methods 0.000 abstract description 2
- 238000012423 maintenance Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种适用于HBase进行数据备份与恢复的方法,属于大数据存储与计算技术领域,本发明使用HDFS接口展示大数据集群的HDFS存储目录,用于选择数据备份目录,通过MapReduce任务读取HBase数据,将数据文件备份到HDFS分布式文件系统中,并在MySql关系型数据库中写入一条备份操作的记录。进行数据恢复时,选中之前的备份记录,系统自动根据备份记录调用MapReduce将数据恢复到备份时的状态。提供大数据备份与恢复的功能,更加快速、高效的达到容灾的目的。
Description
技术领域
本发明涉及大数据存储与计算技术领域,尤其涉及一种适用于HBase进行数据备份与恢复的方法。
背景技术
数据备份是容灾的基础,为了防止操作失误、机器宕机等故障必须进行数据备份。随着技术的不断发展,存量数据越来越多,对数据备份及恢复的要求也越来越高。传统的数据备份先读取数据,然后将数据写入到本地磁盘的文件中,数据恢复时再解析本地磁盘的数据文件转换格式后批量写入表中,这种方式会消耗大量的网络IO,性能差。
发明内容
为了解决以上技术问题,本发明提供了一种适用于HBase进行数据备份与恢复的方法。将数据备份到HDFS中,备份速度快,数据恢复耗时短,且易于操作,节省运维成本。
本发明的技术方案是:
一种适用于HBase进行数据备份与恢复的方法,使用HDFS分布式文件系统 API,获取HDFS路径,通过MapReduce任务读取HBase数据,将数据文件备份到 HDFS分布式文件系统中,并在MySql关系型数据库中添加一条备份操作记录,记录表名、备份时间、备份类型等信息。数据恢复时,选择数据备份列表中需要恢复的记录,通过MapReduce任务将备份的数据恢复到指定的HBase表中。
进一步的,
数据备份时,通过执行远程命令提交MapReduce任务读取HBase数据,将数据文件备份到HDFS分布式文件系统中。
数据恢复时通过操作记录获取数据备份列表中需要恢复的记录,数据恢复时后台通过执行远程命令提交MapReduce任务进行数据恢复,利用日志监听获取当前任务的执行情况。
再进一步的,
执行远程命令
实现将命令发送至集群所在节点并执行,同时监听该命令的执行日志记录;当该命令执行完成并且无日志输出后,将执行结果返回前台并展示给客户,包括:
1)、用户操作所在节点与集群节点之间生成公私钥免密配置文件并配置ssh 免密登陆;
2)、利用程序连接集群节点时,需指定使用的秘钥文件的绝对路径,并指定用户名称;
3)、连接到远程节点并发送执行命令,循环监听命令的执行日志,直至无新的日志产生,说明该命令执行完成。
操作记录
实时更新并记录任务操作进度的功能;通过日志监听获取任务执行日志,分析日志内容,获取当前任务执行状态,并更新到表中,包括:
1)、设计操作记录的存储表结构,包括操作类型、操作时间、存储目录;
2)、用户点击备份或恢复按钮时,先向表中记录一条操作记录,该记录的状态为初始状态;
3)、通过监听日志功能,根据当前任务的进度,实时更新为进行中、操作成功或操作失败状态。
日志监听
实现任务执行日志监听的功能;接口持续获取任务的执行日志,通过分析日志获得当前任务的执行状态,并反馈至前台展示给用户,包括:
1)、执行备份或恢复命令后,获取该任务的ID;
2)、调用远程rest接口,通过任务ID获取该任务的执行状态;
3)、循环调用接口,直至任务完成,并将任务的状态变化持续反馈给用户;数据备份
实现表的数据的备份功能;选择需要备份的数据表,点击数据备份;数据备份包含表名称、备份类型、备份路径;其中备份路径为HDFS路径,点击备份路径可以查看HDFS路径,选择数据备份的路径,包括:
1)、用户选择需要备份的表,点击数据备份按钮,弹出输入界面;
2)、在该界面上,备份类型分为全量备份和增量备份;表的第一次备份默认为全量备份,后续的备份默认为增量备份,该值为默认值,不可修改;
3)、选择一个HDFS文件系统中的目录作为备份目录,然后点击备份按钮:此次备份的操作记录会通过操作记录模块写入MySql中,包含表名称、备份类型、备份路径、备份时间和备份状态,此时备份状态为进行中,同时通过执行远程命令模块提交一个MapReduce任务用于导出HBase表的数据到HDFS文件系统;
4)、每隔5秒钟会通过日志监听模块获取当前任务的执行情况,后台打印执行过程日志并在当前界面展示任务的状态;
5)、备份任务结束,当前界面的任务状态改为完成状态,操作记录模块会修改备份操作记录的状态为完成状态。
数据恢复
实现表的数据的恢复功能;数据恢复的前提为数据备份成功;数据备份成功后,操作记录存储模块会保存此次操作的信息;点击数据恢复后,会弹出数据恢复列表,包含备份标签、备份时间、备份类型选择需要恢复的数据,点击恢复按钮进行数据恢复,包括:
1)、用户选择需要备份的表,点击数据恢复按钮,弹出列表界面;
2)、在该界面通过操作记录模块获取该表之前所有的备份操作记录并列表展示,包括操作时间、表的名称、备份类型;
3)、选择一条备份记录,点击恢复按钮;根据选择的备份记录获取表的名称,备份文件的存储路径,同时通过执行远程命令提交一个MapReduce任务读取HDFS 文件系统中的数据备份文件并恢复到指定的HBase表中;
4)、每隔5秒钟会通过日志监听获取当前任务的执行情况,后台打印执行过程日志并在当前界面展示任务的状态;
5)、恢复任务结束,当前界面的任务状态改为完成状态。
本发明的有益效果是
提供了HBase数据备份与恢复的可视化界面,用户不需知道底层的技术原理。易于操作,减少运维成本且数据备份到HDFS分布式文件系统中,更安全可靠。将备份或恢复任务拆分成子任务分配到子节点分别执行,充分利用系统资源,更加快速、高效的达到数据备份与恢复的目的。利用日志监听模块,实时获取任务的执行状态并将状态返回至前台,方便用户查看当前任务进度。
附图说明
图1是本发明的整体工作流程示意图;
图2是执行远程命令实现示意图;
图3是日志监听实现示意图,
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本方法提供了HBase表的备份与恢复功能,用户通过前台页面选择需备份的表,选择备份类型以及备份路径,发送备份命令至集群节点,该命令会运行 MapReduce分布式程序将导出的HBase表的数据写入到HDFS文件系统的指定目录下。恢复表的数据时,用户在可视化页面上选择之前历史备份操作记录用于恢复,该历史记录保存了备份的时间,备份数据的存储目录,可将存储目录上已经存在的数据恢复至表中。整个备份与恢复过程,利用远程执行命令模块发送命令至指定节点执行,并充分利用了HDFS多副本特性,提高备份数据的安全性,同时利用 MapReduce分布式计算特点,提升计算资源的利用率,加快用户操作速度。HBase 备份与恢复的基础架构详见图1。
1、执行远程命令模块实现
该功能用于实现将命令发送至集群所在节点并执行,同时监听该命令的执行日志记录。当该命令执行完成并且无日志输出后,将执行结果返回前台并展示给客户,详见图2:
1.1、用户操作所在节点与集群节点之间生成公私钥免密配置文件并配置ssh 免密登陆。该免密登陆配置可使用户不需输入密码,仅利用秘钥文件相互登陆并执行相关操作。
1.2、利用程序连接集群节点时,需指定使用的秘钥文件的绝对路径,并指定用户名称。该秘钥文件必须是此用户生成的,否则用户名与秘钥文件不匹配,导致无法远程连接节点。
1.3、连接到远程节点并发送执行命令,循环监听命令的执行日志,直至无新的日志产生,说明该命令执行完成。
2、历史操作记录模块实现
该功能实现了实时更新并记录任务操作进度的功能。通过日志监听模块获取任务执行日志,分析日志内容,获取当前任务执行状态,并更新到表中。
2.1、设计操作记录的存储表结构,包括操作类型、操作时间、存储目录等。
2.2、用户点击备份或恢复按钮时,先向表中记录一条操作记录,该记录的状态为初始状态。
2.3、通过监听日志功能,根据当前任务的进度,实时更新为进行中、操作成功或操作失败状态。
3、日志监听模块实现
该模块实现了任务执行日志监听的功能。接口持续获取任务的执行日志,通过分析日志获得当前任务的执行状态,并反馈至前台展示给用户。详见图3。
3.1、执行备份或恢复命令后,获取该任务的ID。
3.2、调用远程rest接口,通过任务ID获取该任务的执行状态。
3.3、循环调用接口,直至任务完成,并将任务的状态变化持续反馈给用户。
4、表数据备份模块实现
该模块实现了表的数据的备份功能。选择需要备份的数据表,点击数据备份。数据备份包含表名称、备份类型、备份路径。其中备份路径为HDFS路径,点击备份路径可以查看HDFS路径,选择数据备份的路径。
4.1、用户选择需要备份的表,点击数据备份按钮,弹出输入界面。
4.2、在该界面上,备份类型分为全量备份和增量备份。表的第一次备份默认为全量备份,后续的备份默认为增量备份,该值为默认值,不可修改。
4.3、选择一个HDFS文件系统中的目录作为备份目录,然后点击备份按钮。此次备份的操作记录会通过操作记录模块写入MySql中,包含表名称、备份类型、备份路径、备份时间和备份状态,此时备份状态为进行中,同时通过执行远程命令模块提交一个MapReduce任务用于导出HBase表的数据到HDFS文件系统。
4.4、每隔5秒钟会通过日志监听模块获取当前任务的执行情况,后台打印执行过程日志并在当前界面展示任务的状态。
4.5、备份任务结束,当前界面的任务状态改为完成状态,操作记录模块会修改备份操作记录的状态为完成状态。
5、表数据恢复模块实现
该模块实现了表的数据的恢复功能。数据恢复的前提为数据备份成功。数据备份成功后,操作记录存储模块会保存此次操作的信息。点击数据恢复后,会弹出数据恢复列表,包含备份标签、备份时间、备份类型选择需要恢复的数据,点击恢复按钮进行数据恢复。
5.1、用户选择需要备份的表,点击数据恢复按钮,弹出列表界面。
5.2、在该界面通过操作记录模块获取该表之前所有的备份操作记录并列表展示,包括操作时间、表的名称、备份类型。
5.3、选择一条备份记录,点击恢复按钮。根据选择的备份记录获取表的名称,备份文件的存储路径,同时通过执行远程命令模块提交一个MapReduce任务读取 HDFS文件系统中的数据备份文件并恢复到指定的HBase表中。
5.4、每隔5秒钟会通过日志监听模块获取当前任务的执行情况,后台打印执行过程日志并在当前界面展示任务的状态。
5.5、恢复任务结束,当前界面的任务状态改为完成状态。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种适用于HBase进行数据备份与恢复的方法,其特征在于,
使用HDFS分布式文件系统API,获取HDFS路径,通过MapReduce任务读取HBase数据,将数据文件备份到HDFS分布式文件系统中,并在MySql关系型数据库中添加一条备份操作记录;数据恢复时,选择数据备份列表中需要恢复的记录,通过MapReduce任务将备份的数据恢复到指定的HBase表中。
2.根据权利要求1所述的方法,其特征在于,
数据备份时,通过执行远程命令提交MapReduce任务读取HBase数据,将数据文件备份到HDFS分布式文件系统中。
3.根据权利要求2所述的方法,其特征在于,
数据恢复时通过操作记录获取数据备份列表中需要恢复的记录,数据恢复时后台通过执行远程命令提交MapReduce任务进行数据恢复,利用日志监听获取当前任务的执行情况。
4.根据权利要求3所述的方法,其特征在于,
执行远程命令
实现将命令发送至集群所在节点并执行,同时监听该命令的执行日志记录;当该命令执行完成并且无日志输出后,将执行结果返回前台并展示给客户,包括:
1)、用户操作所在节点与集群节点之间生成公私钥免密配置文件并配置ssh免密登陆;
2)、利用程序连接集群节点时,需指定使用的秘钥文件的绝对路径,并指定用户名称;
3)、连接到远程节点并发送执行命令,循环监听命令的执行日志,直至无新的日志产生,说明该命令执行完成。
5.根据权利要求4所述的方法,其特征在于,
操作记录
实时更新并记录任务操作进度的功能;通过日志监听获取任务执行日志,分析日志内容,获取当前任务执行状态,并更新到表中,包括:
1)、设计操作记录的存储表结构,包括操作类型、操作时间、存储目录;
2)、用户点击备份或恢复按钮时,先向表中记录一条操作记录,该记录的状态为初始状态;
3)、通过监听日志功能,根据当前任务的进度,实时更新为进行中、操作成功或操作失败状态。
6.根据权利要求5所述的方法,其特征在于,
日志监听
实现任务执行日志监听的功能;接口持续获取任务的执行日志,通过分析日志获得当前任务的执行状态,并反馈至前台展示给用户,包括:
1)、执行备份或恢复命令后,获取该任务的ID;
2)、调用远程rest接口,通过任务ID获取该任务的执行状态;
3)、循环调用接口,直至任务完成,并将任务的状态变化持续反馈给用户。
7.根据权利要求1所述的方法,其特征在于,
数据备份
实现表的数据的备份功能;选择需要备份的数据表,点击数据备份;数据备份包含表名称、备份类型、备份路径;其中备份路径为HDFS路径,点击备份路径可以查看HDFS路径,选择数据备份的路径,包括:
1)、用户选择需要备份的表,点击数据备份按钮,弹出输入界面;
2)、在该界面上,备份类型分为全量备份和增量备份;表的第一次备份默认为全量备份,后续的备份默认为增量备份,该值为默认值,不可修改;
3)、选择一个HDFS文件系统中的目录作为备份目录,然后点击备份按钮:此次备份的操作记录会通过操作记录模块写入MySql中,包含表名称、备份类型、备份路径、备份时间和备份状态,此时备份状态为进行中,同时通过执行远程命令模块提交一个MapReduce任务用于导出HBase表的数据到HDFS文件系统;
4)、每隔5秒钟会通过日志监听模块获取当前任务的执行情况,后台打印执行过程日志并在当前界面展示任务的状态;
5)、备份任务结束,当前界面的任务状态改为完成状态,操作记录模块会修改备份操作记录的状态为完成状态。
8.根据权利要求1所述的方法,其特征在于,
数据恢复
实现表的数据的恢复功能;数据恢复的前提为数据备份成功;数据备份成功后,操作记录存储模块会保存此次操作的信息;点击数据恢复后,会弹出数据恢复列表,包含备份标签、备份时间、备份类型选择需要恢复的数据,点击恢复按钮进行数据恢复,包括:
1)、用户选择需要备份的表,点击数据恢复按钮,弹出列表界面;
2)、在该界面通过操作记录模块获取该表之前所有的备份操作记录并列表展示,包括操作时间、表的名称、备份类型;
3)、选择一条备份记录,点击恢复按钮;根据选择的备份记录获取表的名称,备份文件的存储路径,同时通过执行远程命令提交一个MapReduce任务读取HDFS文件系统中的数据备份文件并恢复到指定的HBase表中;
4)、每隔5秒钟会通过日志监听获取当前任务的执行情况,后台打印执行过程日志并在当前界面展示任务的状态;
5)、恢复任务结束,当前界面的任务状态改为完成状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210188558.1A CN114546728A (zh) | 2022-02-28 | 2022-02-28 | 一种适用于HBase进行数据备份与恢复的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210188558.1A CN114546728A (zh) | 2022-02-28 | 2022-02-28 | 一种适用于HBase进行数据备份与恢复的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114546728A true CN114546728A (zh) | 2022-05-27 |
Family
ID=81679308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210188558.1A Pending CN114546728A (zh) | 2022-02-28 | 2022-02-28 | 一种适用于HBase进行数据备份与恢复的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114546728A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116010430A (zh) * | 2023-03-24 | 2023-04-25 | 杭州趣链科技有限公司 | 数据恢复方法、数据库系统、计算机设备和存储介质 |
CN117520056A (zh) * | 2024-01-08 | 2024-02-06 | 南京云信达科技有限公司 | Hbase数据备份的方法、系统、电子设备及存储介质 |
-
2022
- 2022-02-28 CN CN202210188558.1A patent/CN114546728A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116010430A (zh) * | 2023-03-24 | 2023-04-25 | 杭州趣链科技有限公司 | 数据恢复方法、数据库系统、计算机设备和存储介质 |
CN117520056A (zh) * | 2024-01-08 | 2024-02-06 | 南京云信达科技有限公司 | Hbase数据备份的方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11914486B2 (en) | Cloning and recovery of data volumes | |
CN114546728A (zh) | 一种适用于HBase进行数据备份与恢复的方法 | |
CN103197990B (zh) | 自动优先恢复及相关的装置和方法 | |
US10146629B1 (en) | Extensible workflow manager for backing up and recovering microsoft shadow copy compatible applications | |
EP2494456B1 (en) | Backup using metadata virtual hard drive and differential virtual hard drive | |
CN107256182B (zh) | 一种数据库还原的方法及设备 | |
US20200193388A1 (en) | Snapshot calendar view interfaces | |
CN112099989A (zh) | 一种Kubernetes云原生应用灾备、迁移与恢复的方法 | |
CN114637475A (zh) | 一种分布式存储系统控制方法、装置及可读存储介质 | |
US10360095B2 (en) | Methods and apparatuses for improving failure recovery in a distributed system | |
US20220147391A1 (en) | Cloud Resource Monitor and Interface Method and System for Containerized Applications | |
US10958523B1 (en) | Consistent deployment of monitoring configurations on multiple computing systems | |
CN111813602A (zh) | 一种基于消息中间件的数据库异地备份与恢复方法及系统 | |
CN114880167A (zh) | 数据备份、恢复方法、服务器、分布式系统及存储介质 | |
US11947949B2 (en) | Techniques for data package generation | |
CN115202929A (zh) | 数据库集群备份系统 | |
US11042454B1 (en) | Restoration of a data source | |
CN110764985A (zh) | 一种命令行记录的方法、系统、设备及可读存储介质 | |
WO2023240995A1 (zh) | 一种双机热备系统的数据恢复方法、装置及介质 | |
US10728323B2 (en) | Method and apparatus for operating infrastructure layer in cloud computing architecture | |
CN113986616A (zh) | 一种适用于Hive数据仓库进行数据备份与恢复的方法及系统 | |
CN115129542A (zh) | 数据处理方法、装置、存储介质及电子装置 | |
CN112148532A (zh) | 硬盘数据的批量恢复方法、装置、存储介质及电子设备 | |
CN111831481B (zh) | 一种基于c/s架构的数据库异地备份与恢复方法及系统 | |
CN112416655A (zh) | 一种基于企业服务门户的存储灾备系统及数据复制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |