CN111382137A

CN111382137A - 一种Hadoop集群文件备份系统及方法

Info

Publication number: CN111382137A
Application number: CN202010180130.3A
Authority: CN
Inventors: 温立涛; 杨彬; 陈勇铨; 周华
Original assignee: Shanghai Yingfang Software Co ltd
Current assignee: Shanghai Yingfang Software Co ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-07

Abstract

本发明公开了一种Hadoop集群文件备份系统及方法，该系统包括：Hadoop集群，遍历集群Hadoop文件系统上需备份的目录，获取相关文件信息并发送到备端主节点，以得到本次需备份的文件列表信息暂存至Hadoop临时文件列表中，逐条处理临时文件列表信息，根据分配到的目标数据节点建立连接，将临时文件列表中各文件的数据发送至分配的备端数据节点；备端主节点，于接收到集群发送的文件信息时，查询本地的文件状态数据库，获得备端文件的信息，并将集群发送来的文件信息与备端文件的信息比对，得到本次需备份的文件列表信息发送至集群；若干备端数据节点，用于接收集群发送的文件数据，与备端主节点之间进行状态的同步。

Description

一种Hadoop集群文件备份系统及方法

技术领域

本发明涉及计算机数据备份容灾领域，特别是涉及一种Hadoop集群文件备份系统及方法。

背景技术

随着计算机的普及与信息技术的进步,尤其是计算机网络的快速发展，信息日益成为国家和企业生存与和发展的重要基础,成为个人、企业、社会关注的焦点。如今的信息中心越来越复杂，不仅系统的规模每年翻番，系统的复杂性及面临的风险也在日益增加。但是，作为信息保护的一个重要手段，数据备份的重要性却经常被人们所忽视。实际上，只要发生了数据的传输、数据的存储以及数据的交换，就有可能产生数据的故障，这时如果没有采取适当的数据备份和数据恢复措施，就可能会导致数据的丢失。近几年，大量数据灾难的出现(如911事件、黑客服务器攻击、地震海啸等自然灾害)，以及业务部门对业务连续运行的要求不断提高，甚至越来越多的系统要求，零数据丢失，这都使得数据备份问题更加迫切。

随着大数据时代的到来，越来越多的大型信息处理系统，采用了分布式文件系统作为数据存储的载体，目前，Hadoop(Hadoop Distributed File System，简称HDFS)作为主流的分布式文件系统，已经得到广泛推广和使用。然而，现有的数据备份技术依然普遍依赖于快照进行备份，需要配置的东西比较多，使用比较复杂，没有形成一个简单完善的备份系统，无法适应大数据时代的数据备份需求。因此，如何实现高效的Hadoop文件备份成为了目前亟待解决的问题。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种Hadoop集群文件备份系统，以通过对Hadoop集群文件的备份，实现对Hadoop集群数据的保护。

为达上述目的，本发明提供一种Hadoop集群文件备份系统，包括：

Hadoop集群，遍历Hadoop集群中的Hadoop文件系统上需要备份的目录，获取到相关的文件信息并发送到备端主节点，以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中，逐条处理所述Hadoop临时文件列表信息，根据分配到的目标数据节点建立相应连接，将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点；

备端主节点，于接收到所述Hadoop集群发送的文件信息时，查询本地存储的文件状态数据库，获得备端文件的信息，并将所述Hadoop集群发送来的文件信息与获得的备端文件的文件信息比对，得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中；

若干备端数据节点，用于接收处理所述Hadoop集群发送的文件数据，并与所述备端主节点之间进行状态的同步。

优选地，于所述Hadoop集群，运行mapreduce任务，通过mapper读取所述Hadoop临时文件列表信息，以及通过运行在mapper里的基于行为的NIO框架将所述Hadoop临时文件列表信息中各文件的数据发送到对应的备端数据节点。

优选地，所述备端主节点生成需要处理的文件列表发送至所述Hadoop集群的同时，还根据文件目标节点指派算法进行备端数据节点分配，各备端数据节点则根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据。

优选地，所述备端数据节点接收所述Hadoop集群发送的文件数据时，根据地址先写入数据到一临时文件中，当监控到文件传输完成时，更名临时文件或者追加内容。

优选地，所述备端主节点于接收到本次备份任务结束标识时，发送本次备份任务结束标识至各备端数据节点，接收各备端数据节点上传的状态报告并汇总保存。

优选地，当各备端数据节点接收到所述备端主节点发送的本次备份任务标识时，检查所有文件状态，生成状态报告上传所述备端主节点。

优选地，所述备端数据节点开启一个或者多个，或者只启动所述备端主节点同时作为备端数据节点。

为达到上述目的，本发明还提供一种Hadoop集群文件备份方法，包括如下步骤：

步骤S1，遍历Hadoop集群中的Hadoop文件系统上需要备份的目录，获取到相关的文件信息并发送到备端主节点；

步骤S2，所述备端主节点于接收到所述Hadoop集群发送的文件信息时，查询本地存储的文件状态数据库，获得备端文件的信息，并将所述Hadoop集群发送来的文件信息与本地存储的备端文件的信息比对，得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中；

步骤S3，逐条处理所述Hadoop临时文件列表信息，根据分配到的目标数据节点建立相应连接，将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点；

步骤S4，各备端数据节点根据文件目标节点指派算法接收并存储所述Hadoop集群发送的文件数据。

优选地，于步骤S4之后，还包括如下步骤：

当本次备份任务结束时，所述Hadoop集群发送本次备份任务标识至备端主节点，所述备端主节点于接收到本次备份任务标识时，转寄本次备份任务标识至各备端数据节点，各备端数据节点于接收到本次备份任务标识时，检查所有文件状态，并生成状态报告上传所述备端主节点，由备端主节点汇总状态报告并予以保存。

优选地，于步骤S3中，运行mapreduce任务，通过mapper读取所述Hadoop临时文件列表信息，以及通过运行在mapper里的基于行为的NIO框架把所述Hadoop临时文件列表中各文件的数据发送到对应的备端数据节点上。

与现有技术相比，本发明一种Hadoop集群文件备份系统及方法通过遍历Hadoop集群中的Hadoop文件系统上需要备份的目录，获取到相关的文件信息并发送到备端主节点，以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中，然后读取所述Hadoop临时文件列表信息，根据所述Hadoop临时文件列表信息将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点，实现了对Hadoop集群数据的保护。

附图说明

图1为本发明一种Hadoop集群文件备份系统之具体实施例的系统架构图；

图2为本发明一种Hadoop集群文件备份方法的步骤流程图；

图3为本发明实施例中Hadoop文件备份的主流程(TaskMain)的流程示意图；

图4为本发明实施例中主流程(TaskMain)中生成数据状态列表的详细流程。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种Hadoop集群文件备份系统之具体实施例的系统架构图。如图1所示，本发明一种Hadoop集群文件备份系统，包括：

Hadoop集群10，遍历Hadoop集群中的Hadoop文件系统上需要备份的目录，获取到相关的文件信息并发送到备端主节点20，以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中，然后读取所述Hadoop临时文件列表信息，根据所述Hadoop临时文件列表信息将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点30。

备端主节点20，所述备端主节点20可以既是管理节点，又可以作为数据节点，所述备端主节点20主要用于管理备份文件的相关信息，所述备端主节点20于接收到所述Hadoop集群10发送的文件信息时，查询本地存储的文件状态数据库，获得备端文件的信息，并将所述Hadoop集群发送来的文件信息与本地存储的文件列表信息比对，得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中，所述备端主节点20还于接收到本次备份任务结束标识时，发送本次备份任务结束标识至各备端数据节点，接收各备端数据节点上传的状态报告并汇总保存。

若干备端数据节点30，用于接收所述Hadoop集群发送的文件数据，并与备端主节点20之间进行状态的同步，在本发明中，各备端数据节点30根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据，所述文件目标节点指派算法是指根据节点的容量和系统性能，当有新的文件要写入备端系统中，系统指派一个目标的备端数据节点来承接文件写入。具体地说，当某一备端数据节点30根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据时，按照地址先写入数据到临时文件中，当监控到文件传输完成时，则更改临时文件为正确的名称。当各备端数据节点接收到备端主节点20发送的本次备份任务标识时，检查所有文件状态，生成状态报告上传备端主节点20。

具体地说，请继续参照图1，为实现本发明之Hadoop集群文件备份系统，首先需要搭建以下环境：首先需要有需要备份的Hadoop集群10，即Hadoop Cluster；其次，需要启动一台备端主节点20，即MainBackupNode，该备端主节点20可以既是管理节点，又可以作为数据节点，备端主节点主要是管理备份文件的相关信息；然后，还需要启动若干备端数据节点30，该备端数据节点主要是接收Hadoop集群上的数据，并且和主节点之间进行状态的同步。这里需说明的是，备端数据节点30，即Backup DataNode，可以开启一个或者多个，或者也可以只启动一台备端主节点20同时作为备端数据节点30，本发明不以此为限。

当运行一次备份任务(Backup Task)时，首先会通过基于行为的NIO框架(采用基于行为的NIO框架，线程池大小可自动调节，buffer大小可自动调节，结合了NIO和BIO的优点，既能承受大量客户端接入，又有BIO快捷的数据传输能力)将Hadoop集群里和备端主节点存储的文件列表信息比对，即TaskMain首先遍历Hadoop集群10中的Hadoop文件系统上需要备份的目录，获取到相关的文件信息(例如需要备份的目录的列表信息)发送到备端主节点20，备端主节点20则查询本地存储的文件状态数据库(FileStatus Database)，获得备端文件的信息，并比较这两份文件信息(Merge Status)，从而得到本次需要备份的文件列表信息(例如两份文件的差异内容)暂存至所述Hadoop集群10上的所述Hadoop临时文件列表中，即FileList Merged；然后，于所述Hadoop集群10，运行mapreduce(MapReduce是Google公司于2004年提出的一种用于大数据处理的并行计算框架)任务，通过mapper(本发明中Mapper数量可配置，系统可根据Hadoop集群规模确定Mapper数量，根据预计数据传输规模分配Mapper计算任务，Mapper任务被均匀分配给Hadoop节点)读取文件列表信息(即所述Hadoop临时文件列表)和运行在mapper里的基于行为的NIO框架把文件的数据，即所述Hadoop临时文件列表中各文件的数据，发送到备端数据节点30；各备端数据节点30接收到数据后按照文件目标节点指派算法写入到对应的备端数据节点的存储单元中；当TaskMain等到HADOOP集群的任务结束信号时，发送本次备份任务结束标识到备端主节点，TaskMain程序结束，所述备端主节点接收到本次备份任务结束标识时，发送本次备份任务结束标识至各备端数据节点，各备端数据节点于接收到备端主节点20发送的本次备份任务标识时，检查所有文件状态，生成状态报告上传备端主节点20，备端主节点20接收各备端数据节点上传的状态报告并汇总保存。

也就是说，本发明采用基于行为的NIO框架，线程池大小自动调节，buffer大小自动调节，结合了NIO和BIO的优点，既能承受大量客户端接入，又有BIO快捷的数据传输能力，本发明还充分利用Hadoop集群的计算能力，Mapper数量可配置，系统可根据Hadoop集群规模确定Mapper数量，系统根据预计数据传输规模分配Mapper计算任务，Mapper任务被均匀分配给Hadoop节点。同时，本发明还通过对备端节点管理的设计，支持配置式数据节点热介入，实现了数据节点一键清除，数据节点数据负载的自均衡，节点间的数据可靠性互备，备端系统文件的浏览和查阅。

图2为本发明一种Hadoop集群文件备份方法的步骤流程图。如图2所示，本发明一种Hadoop集群文件备份方法，包括如下步骤：

步骤S1，遍历Hadoop集群中的Hadoop文件系统上需要备份的目录，获取到相关的文件信息并发送到备端主节点。

步骤S2，所述备端主节点于接收到所述Hadoop集群发送的文件信息时，查询本地存储的文件状态数据库，获得备端文件的信息，并将所述Hadoop集群发送来的文件信息与本地存储的文件列表信息比对，得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中。在生成需要处理的文件列表时，所述备端主节点还根据文件目标节点指派算法进行备端数据节点分配，所述文件目标节点指派算法是指根据节点的容量和系统性能，当有新的文件要写入备端系统中，指派一个目标数据节点来承接文件写入。

步骤S3，逐条处理所述Hadoop临时文件列表信息，根据分配到的目标数据节点建立相应的NIO连接，将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点。

在本发明具体实施例中，运行mapreduce任务，通过mapper读取所述Hadoop临时文件列表信息和运行在mapper里的基于行为的NIO框架把所述Hadoop临时文件列表中各文件的数据发送到备端数据节点上。具体地，MAPPER逐条处理所述Hadoop临时文件列表，根据分配到的目标的备端数据节点建立相应的NIO连接，MAPPER按照配置的数据包大小生成DATA_POST_ACTION，交给NIO框架，通过所述NIO框架把所述Hadoop临时文件列表中各文件的数据发送到分配到的目标的备端数据节点上，并当文件数据传输完成时，生成FILE_SUMMARY_ACTION，交给NIO框架。

步骤S4，各备端数据节点根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据。备端数据节点30根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据时，按照地址先写入数据到临时文件中，并监控是否收到FILE_SUMMARY_ACTION的线程，于接收到FILE_SUMMARY_ACTION时，判断文件传输是否完成，若完成，则更改临时文件为正确的名称。

步骤S5，当本次备份任务结束时，所述Hadoop集群发送本次备份任务标识至备端主节点，所述备端主节点于接收到本次备份任务标识时，转寄本次备份任务标识至各备端数据节点，各备端数据节点于接收到本次备份任务标识时，检查所有文件状态，并生成状态报告上传所述备端主节点，由备端主节点汇总状态报告并予以保存。

具体地说，当本次备份任务结束，所述Hadoop集群发送TASK_END_ACTION到备端主节点，然后备端主节点接收到TASK_END_ACTION时，转寄TASK_END_ACTION到每个备端数据节点；最后每个备端数据节点检查所有文件状态，生成状态报告，上传备端主节点，备端主节点汇总状态报告，保存，本次备份任务结束。

实施例

图3为本发明实施例中Hadoop文件备份的主流程(TaskMain)的流程示意图，图4为本发明实施例中主流程(TaskMain)中生成数据状态列表的详细流程。如图3及图4，本发明之Hadoop集群文件备份过程如下：

首先主流程(TaskMain)生成Hadoop临时文件列表：TaskMain遍历Hadoop文件系统上需要备份的目录，获取到相关的文件信息(loop Hadoop files)；TaskMain发送获取到的文件信息到备端主节点上；备端主节点查询本地存储的文件状态数据库(存储各备份数据节点的数据存储状态)，获得备端文件的信息；备端主节点比较这两份文件信息，生成最终的文件FILE_ACTION，即两份文件信息的差异内容；通过主流程(TaskMain)处理该文件FILE_ACTION，如果是NEW_FILE_ACTION或者APPEND_FILE_ACTION，则需要写入到Hadoop临时文件列表，同时，对于NEW_FILE_ACTION，则调用文件目标节点指派算法指派目标数据节点，而对于APPEND_FILE_ACTION，则获取之前备份的备端数据节点；主流程(TaskMain)将生成的Hadoop临时文件列表作为输入，提交和运行一个拷贝任务，此任务是一次Mapper Only的MapReduce任务。

接下来由MAPPER拷贝数据：MAPPER逐条处理所述Hadoop临时文件列表，根据分配到的目标的备端数据节点建立相应的NIO连接；MAPPER按照配置的数据包大小生成DATA_POST_ACTION(包含传输的文件数据)，交给NIO框架；当每个文件数据传输完成时，生成FILE_SUMMARY_ACTION，交给NIO框架。

然后备端系统处理文件数据写入：备端数据节点接收到文件数据，通过RandomAccess按照地址先写入数据到临时文件中；之后接收到FILE_SUMMARY_ACTION，判断文件传输是不是完成，如果完成，则更改临时文件为正确的名称，并在此期间会运行一个监控收到FILE_SUMMARY_ACTION文件的线程。

最后，结束本次备份任务：首先TaskMain等到HADOOP集群的本次备份任务结束，发送TASK_END_ACTION到备端主节点，TaskMain程序结束；然后备端主节点接收到TaskMain发来的结束action，转寄TASK_END_ACTION到每个备端数据节点；最后各备端数据节点检查所有文件状态，生成状态报告，上传备端主节点，备端主节点汇总状态报告，保存，本次备份任务结束。

综上所述，本发明一种Hadoop集群文件备份系统及方法通过遍历Hadoop集群中的Hadoop文件系统上需要备份的目录，获取到相关的文件信息并发送到备端主节点，以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中，然后读取所述Hadoop临时文件列表信息，根据所述Hadoop临时文件列表信息将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点，实现了对Hadoop集群数据的保护。本发明充分利用了Hadoop集群的计算能力，并且实现了一个易于管理和扩展的备端系统。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种Hadoop集群文件备份系统，包括：

Hadoop集群，遍历Hadoop集群Hadoop文件系统上需备份的目录，获取相关文件信息并发送到备端主节点比较，以得到本次需备份的文件列表信息暂存至一Hadoop临时文件列表中，逐条处理所述Hadoop临时文件列表信息，根据分配到的目标数据节点建立相应连接，将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点；

备端主节点，于接收到所述Hadoop集群发送的文件信息时，查询本地存储的文件状态数据库，获得相应的备端文件的信息，并将所述Hadoop集群发送来的文件信息与获得的备端文件的文件信息比对，得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中；

2.如权利要求1所述的一种Hadoop集群文件备份系统，其特征在于：于所述Hadoop集群，运行mapreduce任务，通过mapper读取所述Hadoop临时文件列表信息，以及通过运行在mapper里的基于行为的NIO框架将所述Hadoop临时文件列表信息中各文件的数据发送到对应的备端数据节点。

3.如权利要求2所述的一种Hadoop集群文件备份系统，其特征在于：所述备端主节点生成需要处理的文件列表发送至所述Hadoop集群的同时，还根据文件目标节点指派算法进行备端数据节点分配，各备端数据节点则根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据。

4.如权利要求3所述的一种Hadoop集群文件备份系统，其特征在于：所述备端数据节点接收所述Hadoop集群发送的文件数据时，根据地址先写入数据到一临时文件中，当监控到文件传输完成时，更名所述临时文件或者追加内容。

5.如权利要求4所述的一种Hadoop集群文件备份系统，其特征在于：所述备端主节点于接收到本次备份任务结束标识时，发送本次备份任务结束标识至各备端数据节点，接收各备端数据节点上传的状态报告并汇总保存。

6.如权利要求5所述的一种Hadoop集群文件备份系统，其特征在于：当各备端数据节点接收到所述备端主节点发送的本次备份任务标识时，检查所有文件状态，生成状态报告上传所述备端主节点。

7.如权利要求1所述的一种Hadoop集群文件备份系统，其特征在于：所述备端数据节点开启一个或者多个，或者只启动所述备端主节点同时作为备端数据节点。

8.一种Hadoop集群文件备份方法，包括如下步骤：

步骤S1，遍历Hadoop集群的Hadoop文件系统上需备份的目录，获取相关文件信息并发送到备端主节点；

步骤S2，所述备端主节点于接收到所述Hadoop集群发送的文件信息时，查询本地存储的文件状态数据库，获得相应的备端文件的信息，并将所述Hadoop集群发送来的文件信息与本地存储的备端文件的信息比对，得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中；

9.如权利要求8所述的一种Hadoop集群文件备份方法，其特征在于，于步骤S4之后，还包括如下步骤：

10.如权利要求9所述的一种Hadoop集群文件备份方法，其特征在于：于步骤S3中，运行mapreduce任务，通过mapper读取所述Hadoop临时文件列表信息，以及通过运行在mapper里的基于行为的NIO框架把所述Hadoop临时文件列表中各文件的数据发送到对应的备端数据节点上。