CN111382137A - 一种Hadoop集群文件备份系统及方法 - Google Patents

一种Hadoop集群文件备份系统及方法 Download PDF

Info

Publication number
CN111382137A
CN111382137A CN202010180130.3A CN202010180130A CN111382137A CN 111382137 A CN111382137 A CN 111382137A CN 202010180130 A CN202010180130 A CN 202010180130A CN 111382137 A CN111382137 A CN 111382137A
Authority
CN
China
Prior art keywords
file
backup
hadoop
data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010180130.3A
Other languages
English (en)
Inventor
温立涛
杨彬
陈勇铨
周华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yingfang Software Co ltd
Original Assignee
Shanghai Yingfang Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yingfang Software Co ltd filed Critical Shanghai Yingfang Software Co ltd
Priority to CN202010180130.3A priority Critical patent/CN111382137A/zh
Publication of CN111382137A publication Critical patent/CN111382137A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本发明公开了一种Hadoop集群文件备份系统及方法,该系统包括:Hadoop集群,遍历集群Hadoop文件系统上需备份的目录,获取相关文件信息并发送到备端主节点,以得到本次需备份的文件列表信息暂存至Hadoop临时文件列表中,逐条处理临时文件列表信息,根据分配到的目标数据节点建立连接,将临时文件列表中各文件的数据发送至分配的备端数据节点;备端主节点,于接收到集群发送的文件信息时,查询本地的文件状态数据库,获得备端文件的信息,并将集群发送来的文件信息与备端文件的信息比对,得到本次需备份的文件列表信息发送至集群;若干备端数据节点,用于接收集群发送的文件数据,与备端主节点之间进行状态的同步。

Description

一种Hadoop集群文件备份系统及方法
技术领域
本发明涉及计算机数据备份容灾领域,特别是涉及一种Hadoop集群文件备份系统及方法。
背景技术
随着计算机的普及与信息技术的进步,尤其是计算机网络的快速发展,信息日益成为国家和企业生存与和发展的重要基础,成为个人、企业、社会关注的焦点。如今的信息中心越来越复杂,不仅系统的规模每年翻番,系统的复杂性及面临的风险也在日益增加。但是,作为信息保护的一个重要手段,数据备份的重要性却经常被人们所忽视。实际上,只要发生了数据的传输、数据的存储以及数据的交换,就有可能产生数据的故障,这时如果没有采取适当的数据备份和数据恢复措施,就可能会导致数据的丢失。近几年,大量数据灾难的出现(如911事件、黑客服务器攻击、地震海啸等自然灾害),以及业务部门对业务连续运行的要求不断提高,甚至越来越多的系统要求,零数据丢失,这都使得数据备份问题更加迫切。
随着大数据时代的到来,越来越多的大型信息处理系统,采用了分布式文件系统作为数据存储的载体,目前,Hadoop(Hadoop Distributed File System,简称HDFS)作为主流的分布式文件系统,已经得到广泛推广和使用。然而,现有的数据备份技术依然普遍依赖于快照进行备份,需要配置的东西比较多,使用比较复杂,没有形成一个简单完善的备份系统,无法适应大数据时代的数据备份需求。因此,如何实现高效的Hadoop文件备份成为了目前亟待解决的问题。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种Hadoop集群文件备份系统,以通过对Hadoop集群文件的备份,实现对Hadoop集群数据的保护。
为达上述目的,本发明提供一种Hadoop集群文件备份系统,包括:
Hadoop集群,遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点,以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中,逐条处理所述Hadoop临时文件列表信息,根据分配到的目标数据节点建立相应连接,将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点;
备端主节点,于接收到所述Hadoop集群发送的文件信息时,查询本地存储的文件状态数据库,获得备端文件的信息,并将所述Hadoop集群发送来的文件信息与获得的备端文件的文件信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中;
若干备端数据节点,用于接收处理所述Hadoop集群发送的文件数据,并与所述备端主节点之间进行状态的同步。
优选地,于所述Hadoop集群,运行mapreduce任务,通过mapper读取所述Hadoop临时文件列表信息,以及通过运行在mapper里的基于行为的NIO框架将所述Hadoop临时文件列表信息中各文件的数据发送到对应的备端数据节点。
优选地,所述备端主节点生成需要处理的文件列表发送至所述Hadoop集群的同时,还根据文件目标节点指派算法进行备端数据节点分配,各备端数据节点则根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据。
优选地,所述备端数据节点接收所述Hadoop集群发送的文件数据时,根据地址先写入数据到一临时文件中,当监控到文件传输完成时,更名临时文件或者追加内容。
优选地,所述备端主节点于接收到本次备份任务结束标识时,发送本次备份任务结束标识至各备端数据节点,接收各备端数据节点上传的状态报告并汇总保存。
优选地,当各备端数据节点接收到所述备端主节点发送的本次备份任务标识时,检查所有文件状态,生成状态报告上传所述备端主节点。
优选地,所述备端数据节点开启一个或者多个,或者只启动所述备端主节点同时作为备端数据节点。
为达到上述目的,本发明还提供一种Hadoop集群文件备份方法,包括如下步骤:
步骤S1,遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点;
步骤S2,所述备端主节点于接收到所述Hadoop集群发送的文件信息时,查询本地存储的文件状态数据库,获得备端文件的信息,并将所述Hadoop集群发送来的文件信息与本地存储的备端文件的信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中;
步骤S3,逐条处理所述Hadoop临时文件列表信息,根据分配到的目标数据节点建立相应连接,将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点;
步骤S4,各备端数据节点根据文件目标节点指派算法接收并存储所述Hadoop集群发送的文件数据。
优选地,于步骤S4之后,还包括如下步骤:
当本次备份任务结束时,所述Hadoop集群发送本次备份任务标识至备端主节点,所述备端主节点于接收到本次备份任务标识时,转寄本次备份任务标识至各备端数据节点,各备端数据节点于接收到本次备份任务标识时,检查所有文件状态,并生成状态报告上传所述备端主节点,由备端主节点汇总状态报告并予以保存。
优选地,于步骤S3中,运行mapreduce任务,通过mapper读取所述Hadoop临时文件列表信息,以及通过运行在mapper里的基于行为的NIO框架把所述Hadoop临时文件列表中各文件的数据发送到对应的备端数据节点上。
与现有技术相比,本发明一种Hadoop集群文件备份系统及方法通过遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点,以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中,然后读取所述Hadoop临时文件列表信息,根据所述Hadoop临时文件列表信息将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点,实现了对Hadoop集群数据的保护。
附图说明
图1为本发明一种Hadoop集群文件备份系统之具体实施例的系统架构图;
图2为本发明一种Hadoop集群文件备份方法的步骤流程图;
图3为本发明实施例中Hadoop文件备份的主流程(TaskMain)的流程示意图;
图4为本发明实施例中主流程(TaskMain)中生成数据状态列表的详细流程。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种Hadoop集群文件备份系统之具体实施例的系统架构图。如图1所示,本发明一种Hadoop集群文件备份系统,包括:
Hadoop集群10,遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点20,以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中,然后读取所述Hadoop临时文件列表信息,根据所述Hadoop临时文件列表信息将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点30。
备端主节点20,所述备端主节点20可以既是管理节点,又可以作为数据节点,所述备端主节点20主要用于管理备份文件的相关信息,所述备端主节点20于接收到所述Hadoop集群10发送的文件信息时,查询本地存储的文件状态数据库,获得备端文件的信息,并将所述Hadoop集群发送来的文件信息与本地存储的文件列表信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中,所述备端主节点20还于接收到本次备份任务结束标识时,发送本次备份任务结束标识至各备端数据节点,接收各备端数据节点上传的状态报告并汇总保存。
若干备端数据节点30,用于接收所述Hadoop集群发送的文件数据,并与备端主节点20之间进行状态的同步,在本发明中,各备端数据节点30根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据,所述文件目标节点指派算法是指根据节点的容量和系统性能,当有新的文件要写入备端系统中,系统指派一个目标的备端数据节点来承接文件写入。具体地说,当某一备端数据节点30根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据时,按照地址先写入数据到临时文件中,当监控到文件传输完成时,则更改临时文件为正确的名称。当各备端数据节点接收到备端主节点20发送的本次备份任务标识时,检查所有文件状态,生成状态报告上传备端主节点20。
具体地说,请继续参照图1,为实现本发明之Hadoop集群文件备份系统,首先需要搭建以下环境:首先需要有需要备份的Hadoop集群10,即Hadoop Cluster;其次,需要启动一台备端主节点20,即MainBackupNode,该备端主节点20可以既是管理节点,又可以作为数据节点,备端主节点主要是管理备份文件的相关信息;然后,还需要启动若干备端数据节点30,该备端数据节点主要是接收Hadoop集群上的数据,并且和主节点之间进行状态的同步。这里需说明的是,备端数据节点30,即Backup DataNode,可以开启一个或者多个,或者也可以只启动一台备端主节点20同时作为备端数据节点30,本发明不以此为限。
当运行一次备份任务(Backup Task)时,首先会通过基于行为的NIO框架(采用基于行为的NIO框架,线程池大小可自动调节,buffer大小可自动调节,结合了NIO和BIO的优点,既能承受大量客户端接入,又有BIO快捷的数据传输能力)将Hadoop集群里和备端主节点存储的文件列表信息比对,即TaskMain首先遍历Hadoop集群10中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息(例如需要备份的目录的列表信息)发送到备端主节点20,备端主节点20则查询本地存储的文件状态数据库(FileStatus Database),获得备端文件的信息,并比较这两份文件信息(Merge Status),从而得到本次需要备份的文件列表信息(例如两份文件的差异内容)暂存至所述Hadoop集群10上的所述Hadoop临时文件列表中,即FileList Merged;然后,于所述Hadoop集群10,运行mapreduce(MapReduce是Google公司于2004年提出的一种用于大数据处理的并行计算框架)任务,通过mapper(本发明中Mapper数量可配置,系统可根据Hadoop集群规模确定Mapper数量,根据预计数据传输规模分配Mapper计算任务,Mapper任务被均匀分配给Hadoop节点)读取文件列表信息(即所述Hadoop临时文件列表)和运行在mapper里的基于行为的NIO框架把文件的数据,即所述Hadoop临时文件列表中各文件的数据,发送到备端数据节点30;各备端数据节点30接收到数据后按照文件目标节点指派算法写入到对应的备端数据节点的存储单元中;当TaskMain等到HADOOP集群的任务结束信号时,发送本次备份任务结束标识到备端主节点,TaskMain程序结束,所述备端主节点接收到本次备份任务结束标识时,发送本次备份任务结束标识至各备端数据节点,各备端数据节点于接收到备端主节点20发送的本次备份任务标识时,检查所有文件状态,生成状态报告上传备端主节点20,备端主节点20接收各备端数据节点上传的状态报告并汇总保存。
也就是说,本发明采用基于行为的NIO框架,线程池大小自动调节,buffer大小自动调节,结合了NIO和BIO的优点,既能承受大量客户端接入,又有BIO快捷的数据传输能力,本发明还充分利用Hadoop集群的计算能力,Mapper数量可配置,系统可根据Hadoop集群规模确定Mapper数量,系统根据预计数据传输规模分配Mapper计算任务,Mapper任务被均匀分配给Hadoop节点。同时,本发明还通过对备端节点管理的设计,支持配置式数据节点热介入,实现了数据节点一键清除,数据节点数据负载的自均衡,节点间的数据可靠性互备,备端系统文件的浏览和查阅。
图2为本发明一种Hadoop集群文件备份方法的步骤流程图。如图2所示,本发明一种Hadoop集群文件备份方法,包括如下步骤:
步骤S1,遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点。
步骤S2,所述备端主节点于接收到所述Hadoop集群发送的文件信息时,查询本地存储的文件状态数据库,获得备端文件的信息,并将所述Hadoop集群发送来的文件信息与本地存储的文件列表信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中。在生成需要处理的文件列表时,所述备端主节点还根据文件目标节点指派算法进行备端数据节点分配,所述文件目标节点指派算法是指根据节点的容量和系统性能,当有新的文件要写入备端系统中,指派一个目标数据节点来承接文件写入。
步骤S3,逐条处理所述Hadoop临时文件列表信息,根据分配到的目标数据节点建立相应的NIO连接,将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点。
在本发明具体实施例中,运行mapreduce任务,通过mapper读取所述Hadoop临时文件列表信息和运行在mapper里的基于行为的NIO框架把所述Hadoop临时文件列表中各文件的数据发送到备端数据节点上。具体地,MAPPER逐条处理所述Hadoop临时文件列表,根据分配到的目标的备端数据节点建立相应的NIO连接,MAPPER按照配置的数据包大小生成DATA_POST_ACTION,交给NIO框架,通过所述NIO框架把所述Hadoop临时文件列表中各文件的数据发送到分配到的目标的备端数据节点上,并当文件数据传输完成时,生成FILE_SUMMARY_ACTION,交给NIO框架。
步骤S4,各备端数据节点根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据。备端数据节点30根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据时,按照地址先写入数据到临时文件中,并监控是否收到FILE_SUMMARY_ACTION的线程,于接收到FILE_SUMMARY_ACTION时,判断文件传输是否完成,若完成,则更改临时文件为正确的名称。
步骤S5,当本次备份任务结束时,所述Hadoop集群发送本次备份任务标识至备端主节点,所述备端主节点于接收到本次备份任务标识时,转寄本次备份任务标识至各备端数据节点,各备端数据节点于接收到本次备份任务标识时,检查所有文件状态,并生成状态报告上传所述备端主节点,由备端主节点汇总状态报告并予以保存。
具体地说,当本次备份任务结束,所述Hadoop集群发送TASK_END_ACTION到备端主节点,然后备端主节点接收到TASK_END_ACTION时,转寄TASK_END_ACTION到每个备端数据节点;最后每个备端数据节点检查所有文件状态,生成状态报告,上传备端主节点,备端主节点汇总状态报告,保存,本次备份任务结束。
实施例
图3为本发明实施例中Hadoop文件备份的主流程(TaskMain)的流程示意图,图4为本发明实施例中主流程(TaskMain)中生成数据状态列表的详细流程。如图3及图4,本发明之Hadoop集群文件备份过程如下:
首先主流程(TaskMain)生成Hadoop临时文件列表:TaskMain遍历Hadoop文件系统上需要备份的目录,获取到相关的文件信息(loop Hadoop files);TaskMain发送获取到的文件信息到备端主节点上;备端主节点查询本地存储的文件状态数据库(存储各备份数据节点的数据存储状态),获得备端文件的信息;备端主节点比较这两份文件信息,生成最终的文件FILE_ACTION,即两份文件信息的差异内容;通过主流程(TaskMain)处理该文件FILE_ACTION,如果是NEW_FILE_ACTION或者APPEND_FILE_ACTION,则需要写入到Hadoop临时文件列表,同时,对于NEW_FILE_ACTION,则调用文件目标节点指派算法指派目标数据节点,而对于APPEND_FILE_ACTION,则获取之前备份的备端数据节点;主流程(TaskMain)将生成的Hadoop临时文件列表作为输入,提交和运行一个拷贝任务,此任务是一次Mapper Only的MapReduce任务。
接下来由MAPPER拷贝数据:MAPPER逐条处理所述Hadoop临时文件列表,根据分配到的目标的备端数据节点建立相应的NIO连接;MAPPER按照配置的数据包大小生成DATA_POST_ACTION(包含传输的文件数据),交给NIO框架;当每个文件数据传输完成时,生成FILE_SUMMARY_ACTION,交给NIO框架。
然后备端系统处理文件数据写入:备端数据节点接收到文件数据,通过RandomAccess按照地址先写入数据到临时文件中;之后接收到FILE_SUMMARY_ACTION,判断文件传输是不是完成,如果完成,则更改临时文件为正确的名称,并在此期间会运行一个监控收到FILE_SUMMARY_ACTION文件的线程。
最后,结束本次备份任务:首先TaskMain等到HADOOP集群的本次备份任务结束,发送TASK_END_ACTION到备端主节点,TaskMain程序结束;然后备端主节点接收到TaskMain发来的结束action,转寄TASK_END_ACTION到每个备端数据节点;最后各备端数据节点检查所有文件状态,生成状态报告,上传备端主节点,备端主节点汇总状态报告,保存,本次备份任务结束。
综上所述,本发明一种Hadoop集群文件备份系统及方法通过遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点,以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中,然后读取所述Hadoop临时文件列表信息,根据所述Hadoop临时文件列表信息将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点,实现了对Hadoop集群数据的保护。本发明充分利用了Hadoop集群的计算能力,并且实现了一个易于管理和扩展的备端系统。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种Hadoop集群文件备份系统,包括:
Hadoop集群,遍历Hadoop集群Hadoop文件系统上需备份的目录,获取相关文件信息并发送到备端主节点比较,以得到本次需备份的文件列表信息暂存至一Hadoop临时文件列表中,逐条处理所述Hadoop临时文件列表信息,根据分配到的目标数据节点建立相应连接,将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点;
备端主节点,于接收到所述Hadoop集群发送的文件信息时,查询本地存储的文件状态数据库,获得相应的备端文件的信息,并将所述Hadoop集群发送来的文件信息与获得的备端文件的文件信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中;
若干备端数据节点,用于接收处理所述Hadoop集群发送的文件数据,并与所述备端主节点之间进行状态的同步。
2.如权利要求1所述的一种Hadoop集群文件备份系统,其特征在于:于所述Hadoop集群,运行mapreduce任务,通过mapper读取所述Hadoop临时文件列表信息,以及通过运行在mapper里的基于行为的NIO框架将所述Hadoop临时文件列表信息中各文件的数据发送到对应的备端数据节点。
3.如权利要求2所述的一种Hadoop集群文件备份系统,其特征在于:所述备端主节点生成需要处理的文件列表发送至所述Hadoop集群的同时,还根据文件目标节点指派算法进行备端数据节点分配,各备端数据节点则根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据。
4.如权利要求3所述的一种Hadoop集群文件备份系统,其特征在于:所述备端数据节点接收所述Hadoop集群发送的文件数据时,根据地址先写入数据到一临时文件中,当监控到文件传输完成时,更名所述临时文件或者追加内容。
5.如权利要求4所述的一种Hadoop集群文件备份系统,其特征在于:所述备端主节点于接收到本次备份任务结束标识时,发送本次备份任务结束标识至各备端数据节点,接收各备端数据节点上传的状态报告并汇总保存。
6.如权利要求5所述的一种Hadoop集群文件备份系统,其特征在于:当各备端数据节点接收到所述备端主节点发送的本次备份任务标识时,检查所有文件状态,生成状态报告上传所述备端主节点。
7.如权利要求1所述的一种Hadoop集群文件备份系统,其特征在于:所述备端数据节点开启一个或者多个,或者只启动所述备端主节点同时作为备端数据节点。
8.一种Hadoop集群文件备份方法,包括如下步骤:
步骤S1,遍历Hadoop集群的Hadoop文件系统上需备份的目录,获取相关文件信息并发送到备端主节点;
步骤S2,所述备端主节点于接收到所述Hadoop集群发送的文件信息时,查询本地存储的文件状态数据库,获得相应的备端文件的信息,并将所述Hadoop集群发送来的文件信息与本地存储的备端文件的信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中;
步骤S3,逐条处理所述Hadoop临时文件列表信息,根据分配到的目标数据节点建立相应连接,将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点;
步骤S4,各备端数据节点根据文件目标节点指派算法接收并存储所述Hadoop集群发送的文件数据。
9.如权利要求8所述的一种Hadoop集群文件备份方法,其特征在于,于步骤S4之后,还包括如下步骤:
当本次备份任务结束时,所述Hadoop集群发送本次备份任务标识至备端主节点,所述备端主节点于接收到本次备份任务标识时,转寄本次备份任务标识至各备端数据节点,各备端数据节点于接收到本次备份任务标识时,检查所有文件状态,并生成状态报告上传所述备端主节点,由备端主节点汇总状态报告并予以保存。
10.如权利要求9所述的一种Hadoop集群文件备份方法,其特征在于:于步骤S3中,运行mapreduce任务,通过mapper读取所述Hadoop临时文件列表信息,以及通过运行在mapper里的基于行为的NIO框架把所述Hadoop临时文件列表中各文件的数据发送到对应的备端数据节点上。
CN202010180130.3A 2020-03-16 2020-03-16 一种Hadoop集群文件备份系统及方法 Withdrawn CN111382137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010180130.3A CN111382137A (zh) 2020-03-16 2020-03-16 一种Hadoop集群文件备份系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010180130.3A CN111382137A (zh) 2020-03-16 2020-03-16 一种Hadoop集群文件备份系统及方法

Publications (1)

Publication Number Publication Date
CN111382137A true CN111382137A (zh) 2020-07-07

Family

ID=71215369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010180130.3A Withdrawn CN111382137A (zh) 2020-03-16 2020-03-16 一种Hadoop集群文件备份系统及方法

Country Status (1)

Country Link
CN (1) CN111382137A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327105A (zh) * 2013-06-26 2013-09-25 北京汉柏科技有限公司 hadoop系统中从属节点服务自动恢复方法
CN106250270A (zh) * 2016-07-28 2016-12-21 四川新环佳科技发展有限公司 一种云计算平台下的数据备份方法
CN110377577A (zh) * 2018-04-11 2019-10-25 北京嘀嘀无限科技发展有限公司 数据同步方法、装置、系统和计算机可读存储介质
CN110515918A (zh) * 2019-08-19 2019-11-29 南京邮电大学 一种基于hdfs的分布式存储平台及构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327105A (zh) * 2013-06-26 2013-09-25 北京汉柏科技有限公司 hadoop系统中从属节点服务自动恢复方法
CN106250270A (zh) * 2016-07-28 2016-12-21 四川新环佳科技发展有限公司 一种云计算平台下的数据备份方法
CN110377577A (zh) * 2018-04-11 2019-10-25 北京嘀嘀无限科技发展有限公司 数据同步方法、装置、系统和计算机可读存储介质
CN110515918A (zh) * 2019-08-19 2019-11-29 南京邮电大学 一种基于hdfs的分布式存储平台及构建方法

Similar Documents

Publication Publication Date Title
US10698866B2 (en) Synchronizing updates across cluster filesystems
CN111078667B (zh) 一种数据迁移的方法以及相关装置
JP5254611B2 (ja) 固定内容分散データ記憶のためのメタデータ管理
US20150213100A1 (en) Data synchronization method and system
US20100318575A1 (en) Storage or removal actions based on priority
US8805849B1 (en) Enabling use of analytic functions for distributed storage system data
JP5686034B2 (ja) クラスタシステム、同期制御方法、サーバ装置および同期制御プログラム
US10628298B1 (en) Resumable garbage collection
CN106528338B (zh) 一种远程数据复制方法、存储设备及存储系统
US7069270B1 (en) Automated method and mechanism for converting a single instance application to a multiple instance application
CN106095957A (zh) 分布式文件系统的跨域多副本文件同步方法及装置
CN106873902B (zh) 一种文件存储系统、数据调度方法及数据节点
US11093290B1 (en) Backup server resource-aware discovery of client application resources
US11042454B1 (en) Restoration of a data source
CN114564458B (zh) 集群间数据同步的方法、装置、设备和存储介质
CN116389233A (zh) 容器云管理平台主备切换系统、方法、装置和计算机设备
CN111382137A (zh) 一种Hadoop集群文件备份系统及方法
WO2021208402A1 (zh) 现代应用的副本数据管理系统及方法
US11341159B2 (en) In-stream data load in a replication environment
CN114281600A (zh) 一种容灾备份和容灾恢复方法、装置、设备及存储介质
US11645333B1 (en) Garbage collection integrated with physical file verification
CN112181729A (zh) 一种虚拟机备份控制装置、系统及方法
CN112148532A (zh) 硬盘数据的批量恢复方法、装置、存储介质及电子设备
CN111858175A (zh) 一种基于移动存储装置备份云平台数据的方法与设备
CN111522688A (zh) 分布式系统的数据备份方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200707

WW01 Invention patent application withdrawn after publication