CN108241557A - Hdfs中数据备份的方法 - Google Patents

Hdfs中数据备份的方法 Download PDF

Info

Publication number
CN108241557A
CN108241557A CN201611221011.8A CN201611221011A CN108241557A CN 108241557 A CN108241557 A CN 108241557A CN 201611221011 A CN201611221011 A CN 201611221011A CN 108241557 A CN108241557 A CN 108241557A
Authority
CN
China
Prior art keywords
file
data block
backup
data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611221011.8A
Other languages
English (en)
Inventor
林文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201611221011.8A priority Critical patent/CN108241557A/zh
Publication of CN108241557A publication Critical patent/CN108241557A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1451Management of the data involved in backup or backup restore by selection of backup contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/128Details of file system snapshots on the file-level, e.g. snapshot creation, administration, deletion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种HDFS中数据备份的方法,包括:获取针对所述HDFS中保存的文件执行的操作命令,所述HDFS中保存的至少一个文件包括多个数据块;确定执行所述操作命令后所述保存的文件中发生变化的数据块,以确定执行所述操作命令前需备份的所述数据块;备份所述执行操作命令前需备份的数据块,并确定执行操作命令后的备份节点且保存所述备份节点对应的备份节点信息。本发明实施例提供的一种HDFS中数据备份的方法,通过备份执行操作命令前的文件中包括的所述发生变化的数据块,减少了HDFS中数据备份时的数据量,在不影响HDFS系统性能的基础上,实现了轻量级的数据备份,从而提高了HDFS中数据备份的效率。

Description

HDFS中数据备份的方法
技术领域
本发明涉及大数据领域,尤其涉及一种HDFS中数据备份的方法。
背景技术
HDFS(Hadoop分布式文件系统)由于其具有高容错性、高可靠性、高扩展性等优点,被广泛使用。HDFS采用主从架构,一个HDFS集群包含一个Name Node主节点和众多DataNode从节点。Name Node作为HDFS文件系统的主节点,负责维护整个HDFS文件系统的命名空间,管理所有文件和目录的元数据。Data Node作为HDFS文件的从节点,负责存储文件分为的多个固定大小的数据块(默认块大小为64MB或者128MB)。Name Node节点存储数据块相关信息,包括文件和数据块的映射关系,数据块和Data Node节点的映射关系。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:随着当前大数据技术的应用,各企业和政府部门对数据的依赖性越来越强,数据保护也变得非常重要。但对于HDFS中存储的大数据,如果由于误操作或其他原因导致数据丢失,要恢复TB甚至是PB级别的数据往往是非常困难的,或者需要耗费非常长的时间。
发明内容
有鉴于此,本发明提供了一种HDFS中数据备份的方法,通过把文件中发生变化的数据块作为备份文件保存,从而减少HDFS中数据备份时的数据量,实现了轻量级的数据备份,在不影响HDFS系统性能的基础上,提高了HDFS中海量数据备份的效率,从而提高数据还原的效率。
本发明实施例提供一种HDFS中数据备份的方法,包括:
获取针对所述HDFS中保存的文件执行的操作命令,所述HDFS中保存的至少一个文件包括多个数据块;
确定执行所述操作命令后所述保存的文件中发生变化的数据块,以确定执行所述操作命令前需备份的所述数据块;
备份所述执行操作命令前需备份的数据块,并确定执行操作命令后的备份节点且保存所述备份节点对应的备份节点信息。
可选地,本发明任一实施例中,所述操作命令包括:追加命令、删除命令、还原命令中的任一种或几种的组合。
可选地,本发明任一实施例中,所述操作命令为所述追加命令时,所述确定执行操作命令后所述保存的文件中发生变化的数据块,以确定执行所述操作命令前需备份的所述数据块包括:执行所述操作命令前复制所述文件中最后一个数据块;
比对复制的数据块与执行所述追加命令后文件中与所述复制的数据块对应的数据块,若比对结果不同,则确定所述保存的文件的最后一个数据块为需备份的所述数据块。
可选地,本发明任一实施例中,所述操作命令为所述删除命令时,所述确定执行操作命令后所述保存的文件中发生变化的数据块包括:
根据所述删除命令确定需要删除的所述保存的文件中的数据块,确定需要删除的所述数据块为发生变化的数据块。
可选地,本发明任一实施例中,所述备份所述执行操作命令前需备份的数据块包括:标记需要删除的所述数据块为已删除。
可选地,本发明任一实施例中,所述操作命令为所述还原命令时,所述确定执行操作命令后所述保存的文件中发生变化的数据块包括:
根据所述还原命令确定指定还原节点,并根据指定还原节点以及当前所述保存的文件确定需还原的所述数据块,确定需还原的所述数据块为发生变化的数据块。
可选地,本发明任一实施例中,包括:在所述HDFS中新增一信息表,所述信息表用于保存所述备份节点对应的所述备份节点信息,以方便对所述备份节点信息进行维护。
可选地,本发明任一实施例中,所述信息表中的备份节点信息按时序关系保存。
可选地,本发明任一实施例中,所述信息表设置在所述HDFS的Name Node中。
可选地,本发明任一实施例中,所述获取对所述HDFS中保存的文件需要执行的操作命令之后,所述确定执行操作命令后所述保存的文件中发生变化的数据块之前还包括:
判断所述文件存在执行操作命令前对应的所述备份节点,若存在,则继续确定执行操作命令后所述保存的文件中发生变化的数据块,否则先建立执行操作命令前对应的所述备份节点且保存所述备份节点对应的备份节点信息后,再继续确定执行操作命令后所述保存的文件中发生变化的数据块。
可选地,本发明任一实施例中,所述获取针对所述HDFS中保存的文件执行的操作命令之后,所述判断所述文件存在当前备份节点之前,还包括:
判断所述保存的文件是否为需要保护的文件,若所述保存的文件为需要保护的文件,则继续判断所述文件存在当前备份节点,否则不对所述保存的文件进行数据备份。
本发明实施例提供的一种HDFS中数据备份的方法,通过备份执行操作命令前的文件中包括的所述发生变化的数据块,减少了HDFS中数据备份时的数据量,在不影响HDFS系统性能的基础上,实现了轻量级的数据备份,从而提高了HDFS中数据备份的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种HDFS中数据备份的方法流程示意图;
图2为本发明实施例提供的另一种HDFS中数据备份的方法流程示意图;
图3为本发明实施例提供的一种HDFS中数据备份方法的应用场景示意图;
图4为本发明实施例提供的一种HDFS中数据还原方法的应用场景示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种HDFS中数据备份的方法流程示意图,如图1所示,其包括:
S11、获取对所述HDFS中保存的文件需要执行的操作命令,所述HDFS中保存的至少一个文件包括多个数据块;
本实施例中,在HDFS中保存文件时,通过将超大的文件被分成大小相等的数据量较小的数据块再保存至Data Node节点中,并在Name Node中保存完整的文件相关信息。在文件成功保存后,HDFS通过Name Node与Data Node节点协同操作完成对保存的文件的操作。由于文件保存后HDFS支持的操作命令包括:文件读取命令、文件追加命令、文件删除命令、文件还原命令。其中,执行文件的读取操作命令实现对文件进行读取;执行文件追加命令实现在文件后面追加内容;执行文件删除命令实现将文件从HDFS中删除;执行文件还原命令实现将文件还原至指定还原节点,由此可知,文件追加命令、文件删除命令和文件还原命令这三种操作会改变保存的文件中数据块的内容。因此,获取的针对所述HDFS中保存的文件执行的操作命令包括:追加命令、删除命令、还原命令。与此同时,为保证文件中的内容可以还原回执行操作前的状态,需要先备份执行追加命令、删除命令、还原命令这三种操作命令前的文件内容。
在本实施例中,由于不同的操作命令改变的文件内容不同,需要备份的数据块也不同,因此通过获取HDFS中保存的文件需要执行的操作命令,以在后续步骤S12中确定执行操作命令前的文件中需备份的数据块。
S12、确定执行操作命令后所述保存的文件中发生变化的数据块,以确定所述执行操作命令前需备份的所述数据块;
举例来说,本实施例中,当执行文件追加命令时,在保存的文件的最后一个数据块末尾追加内容。具体的,执行操作命令后,在文件最后一个数据块的基础上增加了数据内容,另外,若最后一个数据块不足以容纳追加的文件内容,则在其后面新增其他数据块作为补充,进而导致存储在Name Node中的文件信息发生了改变。因此,执行追加命令前的文件中需要备份的数据块包括文件中的最后一个数据块。
具体的,所述操作命令为所述追加命令时,执行所述追加命令前复制所述文件中最后一个数据块,以在执行完追加命令后,可以比对复制的数据块与执行所述追加命令后文件中与所述复制的数据块对应的数据块,若比对结果不同,则确定执行所述追加命令前复制所述文件中最后一个数据块为需要备份的数据块。
若执行追加命令后,数据块的数量未增加,则直接比对复制的数据块与执行追加命令后的文件的最后一个数据块的数据块内容,若内容相同,则说明文件的数据内容没有改变,此时不需要备份数据块,若内容不同,则可以确定执行追加命令前复制的数据块为需要备份的数据块。
若执行追加命令后数据块的数量增加了,则需要比对复制的数据块与执行追加命令后的文件中的增加数据块之前的最后一个数据块的内容,若内容相同,则可以确定执行追加命令时,只在文件的最后一个数据块之后增加了存储追加的数据内容的数据块,并未改变执行操作前的文件中最后一个数据块的内容,不需要备份数据块,若内容不同,则可以确定执行追加命令时,在文件的最后一个数据块内增加了数据内容,此时可以确定执行追加命令前复制的数据块为需要备份的数据块。
本实施例中,除了执行追加命令,还包括执行删除命令,执行针对所述HDFS中保存的文件删除命令时,应删除所述HDFS中保存文件的全部数据块,以及存储在Name Node中的文件信息。
具体的,所述操作命令为所述删除命令时,根据所述删除命令确定需要删除的所述保存的文件中的数据块,判定要删除的所述数据块为需备份的所述数据块。
S13、备份所述执行操作命令前需备份的数据块,并确定执行操作命令后的备份节点且保存所述备份节点对应的备份节点信息。
本步骤中备份上一步骤中确定需要备份的数据块,以为后续还原提供还原数据。
具体的,HDFS中保存的文件数据量很大,多为TB甚至是PB级别的数据文件,将文件数据整体备份时,备份需要的存储空间大、需要的时间长,而HDFS中数据块的容量一般只预设为64MB或者128MB,与整个文件相比很小。本实施例中,备份文件时只备份文件中发生变化的数据块,需要备份的数据量直接降低到了MB级别,极大的降低了备份需要的存储空间、需要的时间,在不影响HDFS性能的前提下,有效地实现了在数据块粒度上的数据备份,进而可以实现快速高效的数据还原。
备份所述发生变化的数据块时,需要根据不同的操作命令采取不同的备份策略。具体的,执行删除命令时,数据块的数量发生变化,但是数据块内的数据并未发生改变,因此,在针对删除命令进行备份时,为减少备份时间,只需要将需要删除的数据块标为删除,并根据删除命令更新Name Node即可,并不需要完全执行删除命令。执行追加命令时,备份步骤S12中确定的需要备份的数据块即可。执行还原命令时,数据块的数量以及数据块的内容均发生变化,此时,需要备份指定还原节点后文件增加的数据块。
备份所述执行操作命令前需备份的数据块的同时,还包括确定执行操作命令后的备份节点且保存所述备份节点对应的备份节点信息。备份节点信息包括执行完操作命令后所述HDFS中保存的文件的详细信息。具体的,备份节点对应的备份节点信息包括:文件名称、存储位置、创建时间、修改时间、文件包含的所有数据块的信息和数据块组合顺序,其中数据块信息存储各个数据块的ID号、创建时间、修改时间和存储位置。
将执行操作后文件的详细信息作为备份节点信息保存,可以为后续以备份节点为还原节点还原文件时提供文件的详细信息,从而可以根据文件的详细信息还原文件至指定还原节点。
本发明实施例提供的一种HDFS中数据备份的方法,通过备份执行操作命令前的文件中包括的所述发生变化的数据块,减少了HDFS中数据备份时的数据量,在不影响HDFS系统性能的基础上,实现了轻量级的数据备份,从而提高了HDFS中数据备份的效率。
图2为本发明实施例提供的另一种HDFS中数据备份的方法流程示意图,如图2所示,其包括:
S21、获取对所述HDFS中保存的文件需要执行的操作命令,所述HDFS中保存的每个文件均包括多个数据块。
S22、判断所述保存的文件是否为需要保护的文件。
若HDFS中保存的文件均为需要的保护的文件,此时直接判定文件为需要保护的文件即可;若HDFS中保存的文件进行了相关设置,导致只有部分文件为需要保存的文件,此时则需要根据对文件的设置判断需要执行操作命令的文件是否为需要保护的文件。例如,可以标记HDFS中保存的部分文件为需要保护的文件,标记后可以直接根据标记的标签判断保存的文件是否为需要保护的文件,若存在标签即为需要保护的文件,若不存在标签为不需要保护的文件。
如果保存的文件是需要保护的文件,则执行操作命令前的文件需要进行数据备份,因此需要继续执行步骤S23,若文件没有设置为需要保护的文件,则所述保存的文件不需要进行数据备份,直接执行操作命令即可。
S23、判定所述文件存在执行操作命令前对应的所述备份节点。
执行操作命令前的备份节点可以保证文件在执行操作命令后可以还原至执行操作命令前的文件。
若存在执行操作命令前对应的备份节点,则继续执行步骤S24,否则需要先建立备份节点且保存所述备份节点对应的备份节点信息后,再继续执行步骤S24。
S24、确定执行操作命令后所述保存的文件中发生变化的数据块。
本步骤与以上实施例中的步骤S12类似,在此不再赘述。
S25、备份所述执行操作命令前需备份的数据块,并确定执行操作命令后的备份节点且保存所述备份节点对应的备份节点信息。
本步骤与以上实施例中的步骤S13类似,在此不再赘述。
本发明实施例提供的一种HDFS中数据备份的方法,通过备份执行操作命令前的文件中包括的所述发生变化的数据块,减少了HDFS中数据备份时的数据量,在不影响HDFS系统性能的基础上,实现了轻量级的数据备份,从而提高了HDFS中数据备份的效率。
在本发明另一实施例中,还包括:在所述HDFS中新增一信息表,所述信息表用于保存所述备份节点对应的所述备份节点信息,比如在文件设置为需要保护的文件后,建立对应的初始备份节点,并保存初始备份节点对应的初始备份节点信息;在执行操作命令后,建立对应的备份节点,并保存备份节点信息至信息表中。具体的,在可以在HDFS中保存文件发生变化时,建立备份节点并保存备份节点信息,以完成信息表的实时维护。
具体的,所述信息表可以设置在HDFS的Name Node或Data Node中。若信息表设置在Data Node中,则每次进行与信息表相关的操作时,Name Node与Data Node协同操作才能完成,增加了Name Node与Data Node间的网络通信。若信息表设置在Name Node中,NameNode可以直接完成对信息表的相关操作,与设置在Name Node中相比,设置在Name Node中不需要与Data Node协同操作,从而减少了Name Node与Data Node间的网络通信。
具体的,可以将信息表设定为固定格式,并以初始备份节点信息为基点,按时序关系保存初始备份节点之后建立的备份节点对应的备份节点信息至信息表中,如表一所示。
表一
表一中的第一行为初始备份节点信息,由于建立初始备份节点时,并未对文件进行改动,因此可以将初始备份节点信息中的修改时间与创建时间设为一致。将初始备份节点信息保存至信息表后,再把后续建立的备份节点对应的备份节点信息按照时序关系保存至信息表中。
图3为本发明实施例提供的一种HDFS中数据备份方法的应用场景示意图,如图3所示,在建立了上述信息表之后,其包括:
S31、Name Node将指定文件对应的信息写入信息表,建立初始备份节点。
文件是HDFS中需要保护的文件,在确定文件需要保护后,保存文件信息至信息表中,建立初始备份节点。
S32、Name Node对文件状态进行监测,从而获取针对HDFS中保存的文件的操作命令。
若获取的操作命令为追加命令,则执行步骤S33,若获取的操作命令为删除命名,则执行步骤S38。
S33、Name Node先存储文件最后一个数据块内容。
S34、Name Node与各个Data Node协调完成追加命令。完成操作后,执行步骤S35。
S35、Name Node对操作前的最后一个数据块内容与操作后对应的数据块内容进行比对,以确认数据块内容是否发生变化。
具体比对方法与步骤S12类似,在此不再赘述。比对完成后,若是数据块内容没有发生变化,则执行步骤S36,否则执行步骤S37。
S36、Name Node不备份之前保存的最后一个数据块,只记录当前文件的信息存储到信息表。从而完成本次备份节点信息配置。
S37、Name Node将之前保存的数据块进行备份,同时记录当前文件的信息并存储到信息表。从而完成本次备份节点信息配置。
S38、Name Node将文件状态设置为删除标志,将文件信息从元数据中删除,保存文件数据内容和信息表中对应的文件信息。
S39、Name Node保存文件数据内容和信息表中对应的文件信息。从而完成本次备份节点信息配置。
本发明实施例提供的一种HDFS中数据备份方法的应用场景示意图,先建立指定文件的初始备份节点,在根据后续不同的操作执行不同的策略,从而备份执行操作命令前的文件中包括的所述发生变化的数据块,并建立对应的备份节点,减少了HDFS中数据备份时的数据量,在不影响HDFS系统性能的基础上,实现了轻量级的数据备份,从而提高了HDFS中数据备份的效率;且上述场景中将备份节点信息按照时序顺序保存至信息表中,实现了对信息表的实时维护。
根据上述实施例完成HDFS中的数据备份后,根据备份进行还原时,需要针对不同的情况执行不同的策略。因此,本实施例还提供一种HDFS中数据还原方法,具体如图4所示,包括:
S41、Name Node从信息表中读取该文件当前还原节点的文件信息和指定还原节点的文件信息。
S42、Name Node检测当前文件状态。
针对文件的操作包括追加命令与删除命令,执行删除命令后,会删除在Name Node中的文件的元数据,并标记数据块的状态为删除;追加命令只增加数据内容,并不会使数据块标为删除状态。因此数据块进行操作后数据块的状态包括未被删除的状态与被删除状态。若文件中的数据块为未被删除状态,则执行步骤S43,若文件中的数据块为被删除状态,则执行步骤S48。
S43、Name Node将当前时刻还原点的文件详细信息与指定还原节点的文件详细信息进行比对。
具体的,由于本步骤中的数据块为未被删除的状态,可以确定针对文件执行的操作命令可能包括追加命令。因此,与指定还原节点的文件相比,当前还原节点后可能存在增加的数据块。具体地,可以通过比对信息表中的当前还原节点对应的文件详细信息与指定还原节点对应的文件详细信息确定增加的数据块。还可以通过比对当前文件的元数据与指定还原节点对应的文件详细信息确定增加的数据块。
S44、Name Node需要将指定还原节点后增加的文件数据块设置为备份存储状态,用于后续用户需要还原到其他还原点时使用。
具体的,确定指定还原节点至当前还原的节点中增加的数据块后,还原文件时需要将增加的数据块删除,此时可以直接将需要删除的数据块标为删除,并更新Name Node,并不真正地删除增加的数据块,只是作为还原命令对应的备份文件进行保存,以作为后续的文件还原的基础。
S45、Name Node检测指定还原节点最后一个数据块内容是否与当前还原节点数据块内容一致。
指定还原节点后增加的数据不仅包括增加的数据块,也可能还包括在指定还原节点对应的文件的最后一个数据块内增加的数据。因此,本实施例中,需要比对指定还原节点的最后一个数据块与当前还原节点中与指定还原节点最后一个数据块对应的数据块,确定内容是否一致。
若内容不一致,则执行步骤S46后再执行步骤S47,若内容一致则直接执行步骤S47。
S46、Name Node将指定还原节点的最后一个数据块还原为指定还原节点对应的备份的最后一个数据块。
S47、Name Node更新元数据中该文件的详细信息。以完成本次文件还原操作。
S48、Name Node确定需要还原的数据块信息,并将数据块逐个进行还原。
具体的,本实施例中,由于文件处于被删除状态,此时Name Node中并未保存文件的元数据。可以先确定指定还原节点的位置,再以初始还原节点为基准,逐个还原至指定还原节点。
可替代的,本实施例中,由于文件中保存的数据块标记为删除,但并没有被真正删除,因此还可以根据指定还原节点确定需要还原的数据块的信息后,直接还原最后一个数据块之前的数据块,再由指定还原节点向前追溯,以确定需要还原的最后一个数据块。若建立指定还原节点的同时备份了最后一个数据块,则直接将备份的数据块作为最后一个数据块还原,若建立指定还原节点的同时并未备份最后一个数据块,则可以以指定还原节点为基点向前追溯,追溯得到的对最后一个数据块进行备份的还原节点可能包括多个,把与指定还原节点的时间距离最近的还原节点备份的最后一个数据块作为本次还原的最后一个数据块。
S49、Name Node将该文件的详细信息恢复到元数据中。以完成本次还原操作。
具体的,由于在根据以上实施例提供的数据备份的方法对HDFS中保存的文件进行备份时,不论针对追加命令进行备份还是删除命令进行备份,并未真正删除文件中包括的数据块。因此,本实施例中,在还原文件时,只需要在数据块粒度上对文件进行还原,减少了HDFS中数据还原时的数据量,在不影响HDFS系统性能的基础上,实现了轻量级的数据还原,从而提高了HDFS中数据还原的效率。
本领域的技术人员应明白,本发明实施例的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品,该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种HDFS中数据备份的方法,其特征在于,包括:
获取针对所述HDFS中保存的文件执行的操作命令,所述HDFS中保存的至少一个文件包括多个数据块;
确定执行所述操作命令后所述保存的文件中发生变化的数据块,以确定执行所述操作命令前需备份的所述数据块;
备份所述执行操作命令前需备份的数据块,并确定执行操作命令后的备份节点且保存所述备份节点对应的备份节点信息。
2.根据权利要求1所述的数据备份的方法,其特征在于,所述操作命令包括:追加命令、删除命令、还原命令中的任一种或几种的组合。
3.根据权利要求2所述的数据备份的方法,其特征在于,所述操作命令为所述追加命令时,所述确定执行操作命令后所述保存的文件中发生变化的数据块,以确定执行所述操作命令前需备份的所述数据块包括:执行所述操作命令前复制所述文件中最后一个数据块;
比对复制的数据块与执行所述追加命令后文件中与所述复制的数据块对应的数据块,若比对结果不同,则确定所述保存的文件的最后一个数据块为需备份的所述数据块。
4.根据权利要求2所述的数据备份的方法,其特征在于,所述操作命令为所述删除命令时,所述确定执行操作命令后所述保存的文件中发生变化的数据块包括:
根据所述删除命令确定需要删除的所述保存的文件中的数据块,确定需要删除的所述数据块为发生变化的数据块。
5.根据权利要求4所述的数据备份的方法,其特征在于,所述备份所述执行操作命令前需备份的数据块包括:标记需要删除的所述数据块为已删除。
6.根据权利要求2所述的数据备份的方法,其特征在于,所述操作命令为所述还原命令时,所述确定执行操作命令后所述保存的文件中发生变化的数据块包括:
根据所述还原命令确定指定还原节点,并根据指定还原节点以及当前所述保存的文件确定需还原的所述数据块,确定需还原的所述数据块为发生变化的数据块。
7.根据权利要求1所述的数据备份的方法,其特征在于,包括:在所述HDFS中新增一信息表,所述信息表用于保存所述备份节点对应的所述备份节点信息,以方便对所述备份节点信息进行维护。
8.根据权利要求7所述的数据备份的方法,其特征在于,所述信息表中的备份节点信息按时序关系保存。
9.根据权利要求8所述的数据备份的方法,其特征在于,所述信息表设置在所述HDFS的Name Node中。
10.根据权利要求1所述的数据备份的方法,其特征在于,所述获取对所述HDFS中保存的文件需要执行的操作命令之后,所述确定执行操作命令后所述保存的文件中发生变化的数据块之前还包括:
判断所述文件存在执行操作命令前对应的所述备份节点,若存在,则继续确定执行操作命令后所述保存的文件中发生变化的数据块,否则先建立执行操作命令前对应的所述备份节点且保存所述备份节点对应的备份节点信息后,再继续确定执行操作命令后所述保存的文件中发生变化的数据块。
11.根据权利要求10所述的数据备份的方法,其特征在于,所述获取针对所述HDFS中保存的文件执行的操作命令之后,所述判断所述文件存在当前备份节点之前,还包括:
判断所述保存的文件是否为需要保护的文件,若所述保存的文件为需要保护的文件,则继续判断所述文件存在当前备份节点,否则不对所述保存的文件进行数据备份。
CN201611221011.8A 2016-12-26 2016-12-26 Hdfs中数据备份的方法 Pending CN108241557A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611221011.8A CN108241557A (zh) 2016-12-26 2016-12-26 Hdfs中数据备份的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611221011.8A CN108241557A (zh) 2016-12-26 2016-12-26 Hdfs中数据备份的方法

Publications (1)

Publication Number Publication Date
CN108241557A true CN108241557A (zh) 2018-07-03

Family

ID=62702222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611221011.8A Pending CN108241557A (zh) 2016-12-26 2016-12-26 Hdfs中数据备份的方法

Country Status (1)

Country Link
CN (1) CN108241557A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109725895A (zh) * 2018-12-29 2019-05-07 北京奇艺世纪科技有限公司 一种数据备份方法及装置
CN111782440A (zh) * 2020-06-30 2020-10-16 北京奇艺世纪科技有限公司 一种数据处理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073560A (zh) * 2011-01-17 2011-05-25 北京深思洛克软件技术股份有限公司 一种数据备份方法和装置
CN103152395A (zh) * 2013-02-05 2013-06-12 北京奇虎科技有限公司 一种分布式文件系统的存储方法及装置
CN103186652A (zh) * 2011-12-28 2013-07-03 英业达股份有限公司 分布式的重复数据删除系统及其方法
CN104572357A (zh) * 2014-12-30 2015-04-29 清华大学 一种用于hdfs系统的备份和恢复方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073560A (zh) * 2011-01-17 2011-05-25 北京深思洛克软件技术股份有限公司 一种数据备份方法和装置
CN103186652A (zh) * 2011-12-28 2013-07-03 英业达股份有限公司 分布式的重复数据删除系统及其方法
CN103152395A (zh) * 2013-02-05 2013-06-12 北京奇虎科技有限公司 一种分布式文件系统的存储方法及装置
CN104572357A (zh) * 2014-12-30 2015-04-29 清华大学 一种用于hdfs系统的备份和恢复方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109725895A (zh) * 2018-12-29 2019-05-07 北京奇艺世纪科技有限公司 一种数据备份方法及装置
CN111782440A (zh) * 2020-06-30 2020-10-16 北京奇艺世纪科技有限公司 一种数据处理方法、装置及电子设备
CN111782440B (zh) * 2020-06-30 2024-03-08 北京奇艺世纪科技有限公司 一种数据处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11099956B1 (en) Snapshot-based disaster recovery orchestration of virtual machine failover and failback operations
US10162555B2 (en) Deduplicating snapshots associated with a backup operation
US10592347B2 (en) Selecting a store for deduplicated data
CN101577735B (zh) 一种接管故障元数据服务器的方法、装置及系统
CN106201771B (zh) 数据存储系统和数据读写方法
US20180004606A1 (en) Data backup using metadata mapping
CN104714859B (zh) 一种海量文件的快速备份与恢复的方法
US20160170657A1 (en) Deduplicated data storage system having distributed manifest
US10496490B2 (en) Selecting a store for deduplicated data
US8578203B2 (en) Providing a backup service from a remote backup data center to a computer through a network
CN102779080B (zh) 生成快照的方法、利用快照进行数据恢复的方法及装置
US10628298B1 (en) Resumable garbage collection
CN111506253B (zh) 一种分布式存储系统及其存储方法
CN107957920A (zh) 数据库备份系统
CN113886143B (zh) 虚拟机持续数据保护方法、装置及数据恢复方法、装置
CN108255638A (zh) 一种快照回滚方法及装置
WO2024148856A1 (zh) 数据写入方法、系统、存储硬盘、电子设备及存储介质
CN107885616A (zh) 一种基于文件系统解析的海量小文件备份恢复方法
CN107544869A (zh) 一种数据恢复方法和装置
CN115202929B (zh) 数据库集群备份系统
CN112800019A (zh) 基于Hadoop分布式文件系统的数据备份方法及系统
JP6070146B2 (ja) 情報処理装置及びバックアップ方法
CN104662522A (zh) 使用存储系统功能性的全虚拟机备份的系统和方法
US10296490B2 (en) Reporting degraded state of data retrieved for distributed object
CN108241557A (zh) Hdfs中数据备份的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180703