CN108241556A - Hdfs中数据异地备份的方法及装置 - Google Patents

Hdfs中数据异地备份的方法及装置 Download PDF

Info

Publication number
CN108241556A
CN108241556A CN201611220231.9A CN201611220231A CN108241556A CN 108241556 A CN108241556 A CN 108241556A CN 201611220231 A CN201611220231 A CN 201611220231A CN 108241556 A CN108241556 A CN 108241556A
Authority
CN
China
Prior art keywords
hdfs
data block
file
changed
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611220231.9A
Other languages
English (en)
Inventor
林文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201611220231.9A priority Critical patent/CN108241556A/zh
Publication of CN108241556A publication Critical patent/CN108241556A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1435Saving, restoring, recovering or retrying at system level using file system or storage system metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Abstract

本发明提供了一种HDFS中数据异地备份的方法及装置,方法包括:确定HDFS中发生变化的数据块,所述HDFS中至少保存一个文件,每个文件至少包括一个数据块;根据所述HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中。本发明实施例提供一种HDFS中数据异地备份的方法及装置,通过逐个备份发生变化的数据块,减小了备份的数据总量与备份需要的带宽,实现了轻量级的异地备份,提高了异地容灾的效率。

Description

HDFS中数据异地备份的方法及装置
技术领域
本发明涉及大数据领域,尤其涉及一种HDFS中数据异地备份的方法及装置。
背景技术
HDFS(Hadoop分布式文件系统)由于其具有高容错性、高可靠性、高扩展性等优点,被广泛使用。HDFS采用主从架构,一个HDFS集群包含一个Name Node主节点和众多DataNode从节点。Name Node作为HDFS文件系统的主节点,负责维护整个HDFS文件系统的命名空间,管理所有文件和目录的元数据。Data Node作为HDFS文件的从节点,负责存储文件分为的多个固定大小的数据块(默认块大小为64MB或者128MB)。Name Node节点存储数据块相关信息,包括文件和数据块的映射关系,数据块和Data Node节点的映射关系。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:随着当前大数据技术的应用,各企业和政府部门对数据的依赖性越来越强,数据容灾变得非常重要。当前对于HDFS中存储的大数据异地容灾技术往往采用数据库整体备份的方式,由于HDFS中存储的数据量较大,导致HDFS实现海量数据的异地容灾的效率较低。
发明内容
有鉴于此,本发明实施例提供一种HDFS中数据异地备份的方法及装置,通过逐个备份发生变化的数据块,减小了备份的数据总量与备份需要的带宽,实现了轻量级的异地备份,提高了异地容灾的效率。
本发明实施例提供一种HDFS中数据异地备份的方法,包括:
确定HDFS中发生变化的数据块,所述HDFS中至少保存一个文件,每个文件至少包括一个数据块;
根据所述HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中。
在本发明任一实施例中,所述确定HDFS中发生变化的数据块包括:
根据HDFS备份集群中存储的元数据的文件信息与所述HDFS中存储的对应元数据的文件信息,确定发生变化的文件,以确定所述发生变化的文件中发生变化的数据块。
在本发明任一实施例中,所述发生变化的文件包括:增加的文件、删除的文件或修改的文件中的任一种。
在本发明任一实施例中,所述发生变化的文件为增加的文件或删除的文件时,增加或删除的文件中包括的数据块均为发生变化的数据块;
所述逐个备份发生变化的数据块至异地的HDFS备份集群中包括:
若所述发生变化的文件为增加的文件,则逐个复制增加的文件中发生变化的数据块,并保存至异地的HDFS备份集群中;
若所述发生变化的文件为删除的文件,则逐个删除异地的HDFS备份集群中的文件中发生变化的数据块。
在本发明任一实施例中,所述逐个删除异地的HDFS备份集群中的文件中发生变化的数据块包括:
设置异地的HDFS备份集群上存储的文件中发生变化的数据块为待删除状态;
间隔设定的保护时长后,逐个删除设为所述待删除状态的所述数据块。
在本发明任一实施例中,所述发生变化的文件为修改的文件时,所述确定所述发生变化的文件中发生变化的数据块包括:
确定所述发生变化的文件包括的数据块分别在HDFS备份集群和所述HDFS中的元数据对应的数据块信息,并进行比对,进而确定所述发生变化的文件中发生变化的数据块。
在本发明任一实施例中,还包括:预先建立信息索引表,所述信息索引表用于存储HDFS备份集群的元数据。
在本发明任一实施例中,所述确定HDFS中发生变化的数据块对应的数据块信息之前,还包括:分多次获取HDFS中的元数据,以对HDFS中保存的文件进行监控。
在本发明任一实施例中,在分多次获取HDFS中的元数据时,按照设定的时间间隔,分多次获取HDFS中的元数据。
在本发明任一实施例中,所述根据所述HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中之后还包括:比对备份后的HDFS备份集群中元数据的文件信息、数据块信息与HDFS的元数据中的文件信息、数据块信息,以校验备份是否完成。
本发明实施例提供一种HDFS中数据异地备份的装置,包括:
数据确认模块,用于确定HDFS中发生变化的数据块对应的数据块信息,所述HDFS中保存的至少一个文件包括多个数据块;
数据同步模块,用于根据所述HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中。
本发明实施例提供一种HDFS中数据异地备份的方法及装置,通过确定HDFS中发生变化的数据块对应的数据块信息,所述HDFS中保存的至少一个文件包括多个数据块;根据所述HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中,减小了备份的数据总量与备份需要的带宽,实现了轻量级的异地备份,提高了异地容灾的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种HDFS中数据异地备份的方法流程示意图;
图2为本申请实施例提供的一种HDFS中数据异地备份的方法流程示意图;
图3为本申请实施例提供的一种HDFS中数据异地备份的装置结构示意图;
图4为本发明实施例提供的一种HDFS中数据异地备份的系统结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本申请实施例提供的一种HDFS中数据异地备份的方法流程示意图,如图所示,其包括:
S11、确定HDFS中发生变化的数据块对应的数据块信息,HDFS中至少保存一个文件,每个文件至少包括一个数据块;
本实施例中,在HDFS中保存文件时,通过将超大的文件被分成大小相等的数据量较小的数据块再保存至Data Node节点中,并在Name Node中保存完整的文件相关信息,形成元数据。在文件成功保存后,HDFS通过Name Node与Data Node节点协同操作完成对保存的文件的操作。操作完成后,HDFS中文件或文件中包括的数据块会发生变化,此时可以根据HDFS中的元数据包括的文件信息、数据块信息,与HDFS备份集群的元数据包括的文件信息、数据块信息确定。其中HDFS中的元数据是指维护HDFS文件系统中的文件和目录所需要的信息,主要包括文件信息和数据块信息,文件信息包括:文件名称、存储位置、创建时间、修改时间、文件包含的所有数据块的ID号和数据块组合顺序。数据块信息包括:各个数据块的ID号、创建时间、修改时间和存储位置。
具体的,可以预先建立信息索引表,将HDFS备份集群的元数据存储至信息索引表中。在针对文件的操作完成后,读取HDFS中的元数据,并与信息索引表中的数据进行比对,根据比对结果确定HDFS中发生变化的数据块对应的数据块信息。
具体的,信息索引表可以包括一个文件信息索引表、一个数据块信息索引表,用来存储HDFS备份集群的元数据包括的文件信息与数据块信息。
在获取到HDFS中的元数据与信息索引表中存储的HDFS备份集群的元数据后,根据HDFS备份集群中存储的元数据的文件信息与HDFS中存储的对应元数据的文件信息,确定发生变化的文件,以确定发生变化的文件中发生变化的数据块。具体的方法根据发生变化的文件的种类确定。发生变化的文件包括:增加的文件、删除的文件或修改的文件中的任一种。
若发生变化的文件为增加的文件或删除的文件时,由于增加文件或删除文件是对HDFS中保存的整个文件进行操作,因此,增加的文件或删除的文件中包括的数据块均为发生变化的数据块。此时,可以通过比对文件信息索引表与HDFS中存储的对应元数据的文件信息,确定发生变化的文件,即可确定发生变化的数据块。若是相同的文件在HDFS中与文件信息索引表保存的文件信息不同,则可以判断文件发生了变化。
具体的,可以通过比对在HDFS中与文件信息索引表中的文件名称,确定增加或删除的文件,同时确定增加或删除的文件包括的发生变化的数据块。
若发生变化的文件为修改的文件,可以通过比对在HDFS中与文件信息索引表中的文件名称与文件修改时间,确定修改的文件。但是,修改后的文件不仅包括发生变化的数据块,还包括不变的数据块,因此,在确定发生变化的文件后,还需要确定发生变化的文件包括的数据块分别在HDFS备份集群和HDFS中的元数据对应的数据块信息,并进行比对,进而确定发生变化的文件中发生变化的数据块。
S12、根据HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中。
具体的,HDFS中保存的文件数据量很大,多为TB甚至是PB级别的数据文件,将文件数据整体备份时,备份需要的存储空间大、需要的时间长,而HDFS中数据块的容量一般只预设为64MB或者128MB,与整个文件相比很小。本步骤中通过逐个备份上一步骤中确定的发生变化的数据块,减小了备份需要的数据量,从而减小了异地备份对带宽的要求,和异地备份需要的时间。
备份发生变化的数据块时,需要根据HDFS中文件不同的变化采取不同的备份策略。具体的,HDFS中保存的文件中,发生变化的文件包括:增加的文件、删除的文件或修改的文件中的任一种。
发生变化的文件为增加的文件时,文件中的数据块均为新增数据块,文件中包括的所有数据块均为发生变化的数据块。此时可以逐个复制增加的文件中发生变化的数据块,并保存至异地的HDFS备份集群中。
发生变化的文件为删除的文件时,文件中包括的数据块全部被删除,同理,文件包括的数据块也均为发生变化的数据块。具体的,可以逐个删除异地的HDFS备份集群中的文件中发生变化的数据块。进一步地,还可以设置异地的HDFS备份集群上存储的文件中发生变化的数据块为待删除状态;间隔设定的保护时长后,逐个删除设为待删除状态的数据块,以防止HDFS中出现误删操作。预设时长可以默认为7天,也可以根据实际需要设定。
发生变化的文件为修改的文件时,文件中的部分数据块发生变化,如经过追加或还原等操作后,保存的文件中发生变化的数据块包括:被修改、被删除或新增的数据块。
若发生变化的数据块为被修改的数据块,则逐个复制新的数据块并删除旧的数据块;若发生变化的数据块为被删除的数据块,则逐个删除数据块;若发生变化的数据块为新增的数据块,则逐个复制新的数据块。
另外,由于在上一步骤中还包括预先建立的存储HDFS备份集群的元数据的信息索引表,因此,备份完成后,还包括:更新信息索引表。更新后的信息索引表中的数据可以作为下次异地备份时的HDFS备份集群的元数据。
本实施例提供的一种HDFS中数据异地备份的方法,通过逐个备份发生变化的数据块,减小了备份的数据总量与备份需要的带宽,实现了轻量级的异地备份,提高了异地容灾的效率。
图2为本申请实施例提供的一种HDFS中数据异地备份的方法流程示意图,如图所示,其包括:
S21、分多次获取HDFS中的元数据,以对HDFS中保存的文件进行监控。
在分多次获取HDFS中的元数据时,按照设定的时间间隔,分多次获取HDFS中的元数据。设定的时间间隔可以为一分钟,也可以为其他数值,只要时间间隔大于每次备份需要的时间即可。
S22、确定HDFS中发生变化的数据块对应的数据块信息。
具体的,可以根据HDFS备份集群中存储的元数据的文件信息与HDFS中存储的对应元数据的文件信息,确定发生变化的文件,以确定发生变化的文件中发生变化的数据块。
本步骤与以上实施例中的步骤S11类似,在此不在赘述。
S23、根据HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中。
备份发生变化的数据块时,需要根据HDFS中文件不同的变化采取不同的备份策略。
具体的备份方法与以上实施例中的步骤S12类似,在此不再赘述。
S24、比对备份后的HDFS备份集群中元数据的文件信息、数据块信息与HDFS的元数据中的文件信息、数据块信息,以校验备份是否完成。
具体的,可以获取备份后的HDFS备份集群中元数据中与备份的数据块相关的信息与HDFS的元数据中份的数据块相关的信息,并进行比对,根据比对结果判断备份是否完成。具体比对的数据块相关信息包括:文件包含的所有数据块的ID号和数据块组合顺序、数据块的大小等。通过简单比对数据块的信息确认发生变化后的数据块已经备份至HDFS备份集群中,若数据块的相关信息相同,则可以确定备份完成,若数据块的相关信息不同,则发生变化的数据块并未被完全备份,备份没有完成。
另外,由于在以上步骤中还包括预先建立的存储HDFS备份集群的元数据的信息索引表,因此,完成校验,确认备份完成后,还需要执行步骤S25。
S25、更新信息索引表。更新后的信息索引表中的数据可以作为下次异地备份时的HDFS备份集群的元数据。
更新信息索引表包括更新文件信息索引表与数据块信息索引表,更新完成后信息索引表中保存的元数据与HDFS备份集群保存的额元数据内容相同,从而使信息索引表中的信息可以作为后续备份时的HDFS备份集群的元数据。
本实施例提供的一种HDFS中数据异地备份的方法,通过逐个备份发生变化的数据块,减小了备份的数据总量与备份需要的带宽,实现了轻量级的异地备份,提高了异地容灾的效率,且备份完成后还对备份的文件进行校验,提高了备份的准确率。
图3为本申请实施例提供的一种HDFS中数据异地备份的装置结构示意图,如图所示,其包括:
数据确认模块31,用于确定HDFS中发生变化的数据块对应的数据块信息,HDFS中保存的至少一个文件包括多个数据块;
通过比对取HDFS中的元数据的文件信息、数据块信息与HDFS备份集群的元数据的文件信息、数据块信息,确定发生变化的数据块。
HDFS中的元数据可以通过数据确认模块对HDFS的监控得到,具体的,数据确认模块多次获取HDFS中的元数据,以对HDFS中保存的文件进行监控,从而确定HDFS中发生变化的数据块对应的数据块信息。
具体的,数据确认模块在分多次获取HDFS中的元数据时,按照设定的时间间隔,分多次获取HDFS中的元数据,时间间隔可以设为一分钟,也可以是其他时间,只要相邻两次获取HDFS中的元数据的时间间隔大于一次备份需要的时间即可。
获取HDFS备份集群的元数据时,可以通过在数据确认模块中预先建立信息索引表,信息索引表用于存储HDFS备份集群的元数据,获取的信息索引表中的信息作为HDFS备份集群的元数据。信息索引表可以包括文件信息索引表与数据块信息索引表,用来存储HDFS备份集群的元数据包括的文件信息与数据块信息。
具体的,在获取HDFS中存储的元数据与HDFS备份集群的元数据之后,数据确认模块根据HDFS备份集群中存储的元数据的文件信息与HDFS中存储的对应元数据的文件信息,确定发生变化的文件,以确定发生变化的文件中发生变化的数据块。具体的确认方法根据不同的发生变化的文件确定。
发生变化的文件包括:增加的文件、删除的文件或修改的文件中的任一种,发生变化的文件为增加的文件或删除的文件时,增加或删除的文件中包括的数据块均为发生变化的数据块;发生变化的文件为修改的文件时,文件中既包括的发生变化的数据块,还包括没有发生变化的数据块,因此,数据确认模块还需要确定发生变化的文件包括的数据块分别在HDFS备份集群和HDFS中的元数据对应的数据块信息,并进行比对,进而确定发生变化的文件中发生变化的数据块。
确定发生变化的数据块信息后,数据确认模块与数据同步模块通信,使数据同步模块获取到发生变化的数据块信息。
数据同步模块32,用于根据HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中。
逐个备份发生变化的数据块至异地的HDFS备份集群中时,需要根据不同的发生变化的文件采取不同的备份策略。
具体的,若发生变化的文件为增加的文件,则数据同步模块逐个复制增加的文件中发生变化的数据块,并保存至异地的HDFS备份集群中;
若发生变化的文件为删除的文件,则数据同步模块逐个删除异地的HDFS备份集群中的文件中发生变化的数据块。
具体的,数据同步模块还可以设置异地的HDFS备份集群上存储的文件中发生变化的数据块为待删除状态;间隔设定的保护时长后,逐个删除设为待删除状态的数据块。
发生变化的文件为修改的文件时,文件中的部分数据块发生变化,如经过追加或还原等操作后,保存的文件中发生变化的数据块包括:被修改、被删除或新增的数据块。
若发生变化的数据块为被修改的数据块,则数据同步模块逐个复制新的数据块并删除旧的数据块;若发生变化的数据块为被删除的数据块,则数据同步模块逐个删除数据块;若发生变化的数据块为新增的数据块,则数据同步模块逐个复制新的数据块。
在数据同步模块备份的过程中,数据同步模块可以控制HDFS发送需要备份的数据块至HDFS的异地备份集群;还可以直接获取HDFS中需要备份的数据块,并复制至HDFS的异地备份集群中;还可以控制HDFS的异地备份集群直接获取HDFS中需要备份的数据块;或是通过其他方法完成备份,本实施例中再次不进行限定。
在备份完成后,数据同步模块还用于比对备份后的HDFS备份集群中元数据的文件信息、数据块信息与HDFS的元数据中的文件信息、数据块信息,以校验备份是否完成。
另外,由于在以上步骤中还包括预先建立的存储HDFS备份集群的元数据的信息索引表,因此,完成校验,确认备份完成后,还包括:更新信息索引表。更新后的信息索引表中的数据可以作为下次异地备份时的HDFS备份集群的元数据。
本实施例提供的一种HDFS中数据异地备份的装置,通过逐个备份发生变化的数据块,减小了备份的数据总量与备份需要的带宽,实现了轻量级的异地备份,提高了异地容灾的效率。
图4为本发明实施例提供的一种HDFS中数据异地备份的系统结构示意图,如图所示,其包括:
HDFS 41,用于存储文件。HDFS将超大的文件被分成大小相等的数据量较小的数据块再保存至Data Node节点中,并在Name Node节点中保存完整的文件相关信息,形成元数据,具体的,HDFS还可以包括作为Name Node节点的补充的Second Name Node节点。
数据确认模块42,用于确定HDFS中发生变化的数据块对应的数据块信息。
针对HDFS执行操作后,HDFS保存的文件包括的数据块部分会发生变化,发生变化后由数据确认模块确认。具体的,数据确认模块监控HDFS,获得HDFS中保存的文件的元数据,且数据确认模块根据异地的HDFS备份集群中保存的元数据建立文件信息索引表与数据块信息索引表,通过比对HDFS中保存的文件的元数据与信息表中保存的对应的数据,确定发生变化的数据块。
确认发生变化的数据块后,数据确认模块与数据同步模块通信,使数据同步模块获取发生变化的数据块对应的数据块信息。
数据同步模块43,用于根据HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群44中。
备份完成后,对备份的完整性进行校验,校验过程与上述实施例中的步骤类似,在此不再赘述。校验完成后,数据同步模块与数据确认模块进行通信,更新数据确认模块中的文件信息索引表与数据块信息索引表。
本领域的技术人员应明白,本发明实施例的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种HDFS中数据异地备份的方法,其特征在于,包括:
确定HDFS中发生变化的数据块,所述HDFS中至少保存一个文件,每个文件至少包括一个数据块;
根据所述HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中。
2.根据权利要求1所述的方法,其特征在于,所述确定HDFS中发生变化的数据块包括:
根据HDFS备份集群中存储的元数据的文件信息与所述HDFS中存储的对应元数据的文件信息,确定发生变化的文件,以确定所述发生变化的文件中发生变化的数据块。
3.根据权利要求2所述的方法,其特征在于,所述发生变化的文件包括:增加的文件、删除的文件或修改的文件中的任一种。
4.根据权利要求3所述的方法,其特征在于,所述发生变化的文件为增加的文件或删除的文件时,增加或删除的文件中包括的数据块均为发生变化的数据块;
所述逐个备份发生变化的数据块至异地的HDFS备份集群中包括:
若所述发生变化的文件为增加的文件,则逐个复制增加的文件中发生变化的数据块,并保存至异地的HDFS备份集群中;
若所述发生变化的文件为删除的文件,则逐个删除异地的HDFS备份集群中的文件中发生变化的数据块。
5.根据权利要求4所述的方法,其特征在于,所述逐个删除异地的HDFS备份集群中的文件中发生变化的数据块包括:
设置异地的HDFS备份集群上存储的文件中发生变化的数据块为待删除状态;
间隔设定的保护时长后,逐个删除设为所述待删除状态的所述数据块。
6.根据权利要求3所述的方法,其特征在于,所述发生变化的文件为修改的文件时,所述确定所述发生变化的文件中发生变化的数据块包括:
确定所述发生变化的文件包括的数据块分别在HDFS备份集群和所述HDFS中的元数据对应的数据块信息,并进行比对,进而确定所述发生变化的文件中发生变化的数据块。
7.根据权利要求2所述的方法,其特征在于,还包括:预先建立信息索引表,所述信息索引表用于存储HDFS备份集群的元数据。
8.根据权利要求1所述的方法,其特征在于,所述确定HDFS中发生变化的数据块对应的数据块信息之前,还包括:分多次获取HDFS中的元数据,以对HDFS中保存的文件进行监控。
9.根据权利要求8所述的方法,其特征在于,在分多次获取HDFS中的元数据时,按照设定的时间间隔,分多次获取HDFS中的元数据。
10.根据权利要求1所述的方法,其特征在于,所述根据所述HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中之后还包括:比对备份后的HDFS备份集群中元数据的文件信息、数据块信息与HDFS的元数据中的文件信息、数据块信息,以校验备份是否完成。
11.一种HDFS中数据异地备份的装置,其特征在于,包括:
数据确认模块,用于确定HDFS中发生变化的数据块对应的数据块信息,所述HDFS中保存的至少一个文件包括多个数据块;
数据同步模块,用于根据所述HDFS中发生变化的数据块对应的数据块信息,逐个备份发生变化的数据块至异地的HDFS备份集群中。
CN201611220231.9A 2016-12-26 2016-12-26 Hdfs中数据异地备份的方法及装置 Pending CN108241556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611220231.9A CN108241556A (zh) 2016-12-26 2016-12-26 Hdfs中数据异地备份的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611220231.9A CN108241556A (zh) 2016-12-26 2016-12-26 Hdfs中数据异地备份的方法及装置

Publications (1)

Publication Number Publication Date
CN108241556A true CN108241556A (zh) 2018-07-03

Family

ID=62702073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611220231.9A Pending CN108241556A (zh) 2016-12-26 2016-12-26 Hdfs中数据异地备份的方法及装置

Country Status (1)

Country Link
CN (1) CN108241556A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286730A (zh) * 2020-11-03 2021-01-29 浪潮云信息技术股份公司 一种将hdfs文件进行异地全量备份与恢复的方法
CN113360324A (zh) * 2021-08-10 2021-09-07 北京华科海讯科技有限公司 基于分布式文件数据的数据备份装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761162A (zh) * 2014-01-11 2014-04-30 深圳清华大学研究院 分布式文件系统的数据备份方法
CN104572357A (zh) * 2014-12-30 2015-04-29 清华大学 一种用于hdfs系统的备份和恢复方法
CN104679772A (zh) * 2013-11-29 2015-06-03 深圳市腾讯计算机系统有限公司 分布式数据仓库中删除文件的方法、装置、设备及系统
US20150242139A1 (en) * 2014-02-24 2015-08-27 Netapp, Inc. System and method for transposed storage in raid arrays
CN104932956A (zh) * 2015-06-19 2015-09-23 华南理工大学 一种面向大数据的云容灾备份方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679772A (zh) * 2013-11-29 2015-06-03 深圳市腾讯计算机系统有限公司 分布式数据仓库中删除文件的方法、装置、设备及系统
CN103761162A (zh) * 2014-01-11 2014-04-30 深圳清华大学研究院 分布式文件系统的数据备份方法
US20150242139A1 (en) * 2014-02-24 2015-08-27 Netapp, Inc. System and method for transposed storage in raid arrays
CN104572357A (zh) * 2014-12-30 2015-04-29 清华大学 一种用于hdfs系统的备份和恢复方法
CN104932956A (zh) * 2015-06-19 2015-09-23 华南理工大学 一种面向大数据的云容灾备份方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
代春林: "基于云存储的工作组同步系统的设计与实现", 《中国优秀硕士学位论文全文数据库》 *
何高峰: "基于HDFS的多租户小文件存储系统的研究与设计", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286730A (zh) * 2020-11-03 2021-01-29 浪潮云信息技术股份公司 一种将hdfs文件进行异地全量备份与恢复的方法
CN113360324A (zh) * 2021-08-10 2021-09-07 北京华科海讯科技有限公司 基于分布式文件数据的数据备份装置
CN113360324B (zh) * 2021-08-10 2021-11-30 北京华科海讯科技有限公司 基于分布式文件数据的数据备份装置

Similar Documents

Publication Publication Date Title
US20210049089A1 (en) Diagnosing errors in data storage and archiving in a cloud or networking environment
US9372908B2 (en) Merging an out of synchronization indicator and a change recording indicator in response to a failure in consistency group formation
US11354065B2 (en) Cloud edition and retrieve
US10162555B2 (en) Deduplicating snapshots associated with a backup operation
US20150172120A1 (en) Managing non-conforming entities in information management systems, including enforcing conformance with a model entity
EP2330519A1 (en) Distributed file system and data block consistency managing method thereof
US20140108345A1 (en) Exchanging locations of an out of synchronization indicator and a change recording indicator via pointers
EP3785120B1 (en) Fast and optimized restore using delta information
US10628298B1 (en) Resumable garbage collection
CN107340971B (zh) 一种数据存储与恢复架构与方法
US11853581B2 (en) Restoring a storage system using file relocation metadata
US20230315326A1 (en) Efficient backup after a restore operation
JP2019021284A (ja) IoT装置がデータセンタでバックアップするための分散型重複データ削除記憶システム及びその分散型重複データ削除を実現する方法
CN110456984A (zh) 一种对Ceph存储的块设备进行连续数据保护的方法
US10296490B2 (en) Reporting degraded state of data retrieved for distributed object
EP2372552B1 (en) Automated relocation of in-use multi-site protected data storage
CN108241556A (zh) Hdfs中数据异地备份的方法及装置
JP6251965B2 (ja) 情報システムおよびデータベース復旧方法
CN108241557A (zh) Hdfs中数据备份的方法
CN117931769A (zh) 数据迁移方法、装置、计算机设备和存储介质
CN114153395A (zh) 一种对象存储数据生命周期管理方法、装置及设备
CN110806953A (zh) 一种备份方法和装置
CN110019092A (zh) 数据存储的方法、控制器和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180703