CN102495894A - 重复数据查找方法、装置及系统 - Google Patents

重复数据查找方法、装置及系统 Download PDF

Info

Publication number
CN102495894A
CN102495894A CN2011104120564A CN201110412056A CN102495894A CN 102495894 A CN102495894 A CN 102495894A CN 2011104120564 A CN2011104120564 A CN 2011104120564A CN 201110412056 A CN201110412056 A CN 201110412056A CN 102495894 A CN102495894 A CN 102495894A
Authority
CN
China
Prior art keywords
block data
finger print
data
print information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104120564A
Other languages
English (en)
Inventor
黄焰
谢勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Digital Technologies Chengdu Co Ltd
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN2011104120564A priority Critical patent/CN102495894A/zh
Publication of CN102495894A publication Critical patent/CN102495894A/zh
Priority to PCT/CN2012/086371 priority patent/WO2013086969A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种重复数据查找方法、装置及系统,通过对待重删文件进行分块后,通过分块数据的指纹信息来确定负责查询的元数据服务器,而当在数据库中查询到已经存储有该分块数据指纹信息后,将分块数据指纹信息对应的分块数据发送至共享文件系统,而不用再发送给元数据服务器进行存储,与现有技术相比,很大程度上降低了链路开销,提升了系统性能。

Description

重复数据查找方法、装置及系统
技术领域
本发明实施例涉及存储技术,尤其涉及重复数据查找方法、装置及系统。
背景技术
重复数据删除(后面称“重删”)也称为智能压缩或单一实例存储,是一种可自动搜索重复数据,将相同数据只保留唯一的一个副本,并使用指向单一副本的指针替换掉其他重复副本,以达到消除冗余数据、降低存储容量需求的存储技术。
重复数据删除中,对于重复数据的查找无疑是重复数据删除性能的一个重要指标。现有技术中,为提高重复数据的查找效率通过以下方式:
将待重删的文件基于内容进行分块得到首次分块,然后对首次分块又进行细分得到细分块数据;从细分块中随机抽样一个细分块数据,计算该细分块数据的指纹信息并将该指纹信息作为首次分块的指纹信息,通过该指纹信息确定首次分块的处理节点,并将属于该首次分块的所有细分块分配给该节点处理,对每一个细分块在元数据服务器所管理的数据库中查找是否有重复数据;如果查询不到有相同的指纹信息,则认为该细分块在数据库中没有存储,则将细分块的数据进行压缩后发送到指定的元数据服务器进行存储;如果查询到相同的指纹信息时,则认为该细分块在数据库中已经存储,更新该细分块的引用计数。
发明人在研究中发现,现有技术在重复数据块的查找过程中,当数据库中没有存储细分块数据时,需要将细分块数据发送至管理数据库的节点进行存储,即使在传输过程中细分块数据经过压缩后再传输,但一旦数据量大的时候,现有技术的方法仍然会占用很大的链路开销,降低了系统性能。
发明内容
本发明实施例提供一种重复数据查询的方法,包括:
对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;
根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器;以指令所述元数据服务器查询所述分块数据的指纹信息是否已经存储在数据库中,并返回查询结果;
接收所述查询结果,当查询结果显示所述分块数据的指纹信息没有存储在数据库中时,将所述分块数据的指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入所述分块数据的指纹信息对应的分块数据元数据信息;当查询结果显示所述分块数据的指纹信息在数据库中已经存在时,指令元数据服务器更新所述分块数据的指纹信息在所述数据库中对应的分块数据的引用计数。
本发明实施例还提供一种重复数据查找装置,包括:
数据划分模块,用于对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;
发送模块,用于根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器,以使元数据服务器在数据库中查找所述接收的分块数据的指纹信息是否已经存储在数据库中,并返回查询结果;
查询结果处理模块,接收所述查询结果,当在数据库中没有查询到所述分块数据指纹信息时,将分块数据指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入该分块数据指纹信息对应的元数据信息;当在数据库中查询到分块数据指纹信息时,指令元数据服务器更新该指纹信息在数据库中对应的分块数据的引用计数。
本发明实施例还提供一种重复数据查找系统,包括:
重复数据查找装置,用于对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;用于根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器指令元数据服务器进行重复数据查询;接收元数据服务器返回的查询结果,当在数据库中没有查询到所述分块数据指纹信息时,将分块数据指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入所述分块数据元数据信息;当在数据库中查询到分块数据指纹信息时,指令元数据服务器更新该指纹信息对应的分块数据的引用计数;
元数据服务器,用于接收所述重复数据查找装置发送的将分块数据的指纹信息,在数据库中查找所接收的分块数据的指纹信息是否已经在数据库中存在,并向所述重复数据查找装置返回查询结果;执行所述重复数据查找装置发送的更新所查找的指纹信息对应的分块数据的引用计数的指令及将接收到的元数据信息插入数据库的指令;
数据库,用于存储分块数据的元数据信息,其中,元数据信息中包括分块数据的指纹信息及该分块数据被引用的次数。
本发明实施例中,对待重删文件进行分块后,通过分块数据的指纹信息来确定负责查询的元数据服务器,而当在数据库中查询到已经存储有该分块数据指纹信息后,将分块数据指纹信息对应的分块数据发送至共享文件系统,而不用再发送给元数据服务器进行存储,与现有技术相比,很大程度上降低了链路开销,提升了系统性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的重复数据查找方法的流程图;
图2为本本发明实施例所提供的另一个重复数据查找方法的流程图;
图3为本发明重复数据处理装置一个实施例的结构示意图;
图4为本发明重复数据处理装置另一个实施例的结构示意图;
图5为本发明重复数据处理系统一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明重复数据查找的方法的实施例,参见图1,本实施例的方法可以包括:
步骤100,对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;
本实施例中,当接收到重删任务文件后,首先对文件数据进行分块;计算每个分块数据的元数据信息,其中,分块数据的元数据信息包括分块数据的指纹信息;除此,分块数据的元数据信息还可以包括分块数据在共享文件系统中所属的文件序号,分块数据在所属文件中的起始位置,分块长度,该节点分配的处理节点编号,以及分块的引用计数信息等;
计算分块数据的指纹信息,该指纹信息的算法可以采用hash值的算法,得到每个分块数据的hash值作为该分块数据的指纹信息,当然,也可以采用MD5等其他算法,只要能获得分块数据的唯一标识即可;
步骤102,根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器,以使元数据服务器在数据库中查找所述接收的分块数据的指纹信息是否已经存储在数据库中,并返回查询结果;
本发明实施例中,可以预先根据所采用的哈希(hash)算法计算得到hash的范围值,将hash范围值分为m个分段得到m个hash值分段,每个元数据服务器对应不同的hash分段,每个元数据服务器可以对应m/n个hash分段,其中,n为元数据服务器的个数,通常可以配置m为n的整数倍。
对于HASH值的范围确定,可以通过采用常见HASH算法生成20个字节的HASH值,在确定HASH分段时,是通过将HASH值的最后一个字节右移5位。这样计算之后的结果能表示的范围就在23内,也就是0~7。可以表示HASH分段范围。
本发明实施例中,可以根据分块数据的指纹信息确定指纹信息在预先设置的指纹信息分段中的哪一段,根据确定的指纹信息分段,将分块数据的指纹信息发送至与该指纹信息所在分段对应的元数据服务器,以便后续由元数据服务器进行进一步的查询工作。
本发明实施例中,元数据库划分为若干个小组,每个元数据服务器都能访问到每一个小组;这样,将待重复数据删除的数据被划分为若干分块数据,因为分块数据的元数据分发给了多个元数据服务器,每个元数据服务器负责在数据库中查找一个或多个元数据信息,以确认所查找的元数据信息是否在数据库中已经存储,提升查找效率。
步骤104,接收所述查询结果,当在数据库中没有查询到所述分块数据指纹信息时,将分块数据指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入该分块数据指纹信息对应的元数据信息;当在数据库中查询到分块数据指纹信息时,指令元数据服务器更新该指纹信息在数据库中对应的分块数据的引用计数。
分块数据的引用计数表示在有多少个相同的分块数据被记录为一个分块数据,其中,所述被记录的一个分块数据的数据内容,和一个所述的相同分块数据的内容相同。引用次数的更新,是指在原有引用次数的基础之上,加上本次新增的引用次数。在数据库中,对分块数据内容相同的分块数据仅保留一份实例,如后续有相同的分块欲存储到数据库中时,因为数据库中对该分块数据已经保留了一份实例,因此不需要再保存该相同的分块数据,在用到给分块数据时,将分块数据的位置指向所保存的这个单一的实例,分块数据每被指向一次,就认为被引用一次;对于数据库中的这个单一实例而言,被指向了多少次,就可以认为被引用了多少次,也就表示有多少个相同的分块数据被记录为一个分块数据。
其中,接收到的查询结果中包括是否在数据库中查找到相同的指纹信息,若是,表示在数据库中已经存储有所查找的指纹信息了,若否,表示在数据库中目前还没有存储所查找的指纹信息;
当查询结果为“是”时,则在数据库中更新所查找的指纹信息对应的分块数据的引用计数;当查询结果为“否”时,将所查找的分块数据的指纹信息对应的分块数据存储到共享文件系统中,并由元数据服务器在数据库中插入该分块数据指纹信息对应的元数据信息。
本发明实施例中,对待重删文件进行分块后,通过分块数据的指纹信息来确定负责查询的元数据服务器,而当在数据库中查询到已经存储有该分块数据指纹信息后,将分块数据指纹信息对应的分块数据发送至共享文件系统,而不用再发送给元数据服务器进行存储,从而很大程度上降低了链路开销,提升了系统性能。
参见图2,本发明实施例还提供了另一种重复数据删除的方法,包括:
步骤200,对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;
在实际操作中,可能会同时处理多个文件的重复数据删除工作,而将文件分块后,可能会有相同的分块数据的情况;或者,一个文件中包括多个相同分块数据的情况;为了更好地降低链路开销,本发明实施例中还可以包括:
步骤201:根据分块数据的指纹信息查找相同分块数据,将相同分块数据记录为一个分块数据,并根据相同分块数据的数量更新所记录的该分块数据对应的元数据信息中的引用计数;
本实施例中,首先需要将文件分块,然后将所有分块数据中内容相同的分块数据仅保留一份实例,其他用到该分块数据的位置通过引用的方式指向该单一实例,从而起到减小空间占用的效果。对于单一实例分块而言,在原文件中有多少个与其内容相同的分块数据,我们就会对该单一实例分块记录其被指向的次数,这个值就是在向元数据服务器发送查询指令之前,分块数据对应的做引用计数。
通过步骤201,在向元数据服务器发送查询指令之前,先将相同的分块数据进行整合,整合后的相同分块数据就仅记录为一个分块数据,并根据相同分块数据的数量将整合后的分块数据对应的元数据中,将引用计数更新。例如:有6个分块数据的指纹信息相同,在向元数据下发查询指令之前,将6个分块数据仅记录为一个分块数据,并将该记录的分块数据对应的引用计数更新为6,表示给分块数据已经被引用了6次。通过步骤201,针对相同分块数据,可以仅下发一个指纹信息给元数据了。
步骤202,根据分块数据的指纹信息确定所述指纹信息在哪一个预置的指纹信息分段中,将分块数据的指纹信息发送至与所确定的指纹信息分段对应的元数据服务器;
预先设置指纹信息分段的方法与图1对应的实施例相同,可参见图1对应的实施例。
步骤204,元数据服务器在数据库中查找所接收的分块数据的指纹信息是否已经在数据库中存在,若是,则执行步骤206,若否,则执行步骤208;
步骤206,向元数据服务器发送更新所查找的指纹信息对应的分块数据的引用计数的指令;
本发明实施例中,如果数据库中已经存储有分块数据的指纹信息时,则向元数据发出更新分块数据被引用的次数的指令;
其中,如果被查找的指纹信息对应的分块数据元数据中,引用计数已经为6,则更新存储在数据库中该分块数据对应的元数据信息中的引用计数时,引用计数加6;
步骤208,将所查找的指纹信息对应的分块数据存储到共享文件系统中,向元数据服务器发送所查找指纹信息对应的分块数据的元数据信息,并指令元数据服务器将元数据信息插入数据库;
步骤210,元数据服务器执行所接收的将所查找指纹信息对应的分块数据的元数据信息插入数据库的指令;
本发明实施例中,提供一个共享文件系统,用于存储真实数据,即分块数据,并且,该共享文件系统对于所有的重复数据查找装置来说,存储分块数据的位置每个重复数据查找装置都可以访问到。
可选的,在对重删后的文件进行数据恢复时,本发明实施例还包括:
根据所述文件的分块数据在共享文件系统中的存放信息,生成记录文件以替换所述文件;
当需要恢复所述文件中的数据时,通过所述记录文件,读取所述文件的分块数据在所述共享文件系统中的存放信息,获得文件的分块数据以恢复所述文件中的数据。
当需要恢复重删后文件的数据时,通过读取所述文件的分块数据在所述共享文件系统中的存放信息,从所述共享文件系统上指定文件的偏移位置和分块长度,获得文件的分块数据以恢复重复数据删除前的数据。其中,“指定文件”是指存放目前分块数据的文件;在文件系统中,按照HASH分段将属于不同HASH分段的分块数据存放到不同文件中,便于多节点处理时并发访问,并且分块数据对应的元数据中存放了该分块数据在共享文件系统中所属文件的序号,通过所属文件的序号可以找到分块数据存放的文件。
通常对一个文件进行重复数据删除时,生成一个记录该文件中分块数据信息的记录文件,在重复数据删除完成后,用该文件替换掉原文件,由于此时文件中不再有分块数据,仅仅是一些记录文件,因此起到减小空间占用的重删目的。在用户使用该文件时,由底层驱动判断目前文件类型,如果是重删后文件,则调用重复数据查找装置恢复该文件为重删前文件,再提供给使用者。
本发明实施例中,对待重复数据删除文件进行分块后,并通过分块数据的指纹信息来确定负责查询的元数据服务器,而当在数据库中查询到已经存储有该分块数据指纹信息后,将分块数据指纹信息对应的分块数据发送至共享文件系统,而不用再发送给元数据服务器进行存储,并且,对待重删文件进行分块后,将相同分块数据进行整合后,对相同分块数据统一下发查询指令,从而很大程度上降低了链路开销,提升了系统性能。
与上述方法相应的,本发明实施例还提供了相应的装置和系统,下面进行具体说明,需要说明的是,对与方法一致的内容,下面不再做详细介绍。
本发明实施例还提供了一种重复数据查找装置,参见图3,包括:
数据划分模块300,用于对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;
其中,对文件进行分块和生产指纹信息的方法可参见方法实施例中的方法。
发送模块302,用于根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器,以使元数据服务器在数据库中查找所述接收的分块数据的指纹信息是否已经存储在数据库中,并返回查询结果;
查询结果处理模块304,接收所述查询结果,当在数据库中没有查询到所述分块数据指纹信息时,将分块数据指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入该分块数据指纹信息对应的元数据信息;当在数据库中查询到分块数据指纹信息时,指令元数据服务器更新该指纹信息在数据库中对应的分块数据的引用计数。
通过本发明实施例所提供的装置,对待重删文件进行分块后,通过分块数据的指纹信息来确定负责查询的元数据服务器,而当在数据库中查询到已经存储有该分块数据指纹信息后,将分块数据指纹信息对应的分块数据发送至共享文件系统,而不用再发送给元数据服务器进行存储,从而很大程度上降低了链路开销,提升了系统性能。
本发明实施例还提供另一种重复数据查找装置,参见图4,包括:
数据划分模块400,用于对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;
整合模块402,用于将分块数据的指纹信息发送给元数据服务器之前,根据分块数据的指纹信息查找相同分块数据,将相同分块数据记录为一个分块数据,并根据相同分块数据的数量更新记录的该分块数据对应的元数据信息中的引用计数;
发送模块404,用于根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器,以使元数据服务器在数据库中查找所述接收的分块数据的指纹信息是否已经存储在数据库中,并返回查询结果;
其中,所述发送模块根据分块数据的指纹信息确定所述指纹信息在哪一个预置的指纹信息分段;根据确定的指纹信息分段,将分块数据的指纹信息发送至与所述确定的指纹信息分段对应的元数据服务器。
本发明实施例中,提供一个共享文件系统,用于存储真实数据,即分块数据,并且,该共享文件系统对于所有的重复数据查找装置来说,存储分块数据的位置每个重复数据查找装置都可以访问到;
查询结果处理模块406,接收所述查询结果,当在数据库中没有查询到所述分块数据指纹信息时,将分块数据指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入该分块数据指纹信息对应的元数据信息;当在数据库中查询到分块数据指纹信息时,指令元数据服务器更新该指纹信息在数据库中对应的分块数据的引用计数;
其中,查询结果处理模块406,还可以用于,根据文件的分块数据在共享文件系统中的存放信息,生成记录文件以替换所述文件。
数据恢复模块408,用于当需要恢复所述文件的数据时,通过所述记录文件,读取所述文件的分块数据在所述共享文件系统中的存放信息,获得文件的分块数据以恢复所述文件中的数据。
通过本发明实施例所提供的装置,对待重复数据删除文件进行分块后,并通过分块数据的指纹信息来确定负责查询的元数据服务器,而当在数据库中查询到已经存储有该分块数据指纹信息后,不用再发送给元数据服务器进行存储,并且,对待重删文件进行分块后,将相同分块数据进行整合后,对相同分块数据统一下发查询指令,从而很大程度上降低了链路开销,提升了系统性能。
本发明实施例还提供一种重复数据查找系统,参见图5,包括:
重复数据查找装置500,用于对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;用于根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器指令元数据服务器进行重复数据查询;接收元数据服务器返回的查询结果,当在数据库中没有查询到所述分块数据指纹信息时,将分块数据指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入所述分块数据元数据信息;当在数据库中查询到分块数据指纹信息时,指令元数据服务器更新该指纹信息在数据库中对应的分块数据的引用计数。
元数据服务器502,用于接收所述重复数据查找装置发送的将分块数据的指纹信息,在数据库中查找所接收的分块数据的指纹信息是否已经在数据库中存在,并向所述重复数据查找装置返回查询结果;执行所述重复数据查找装置发送的更新所查找的指纹信息对应的分块数据的引用计数的指令和将接收到的元数据信息插入数据库的指令。
数据库504,用于存储分块数据的元数据信息,其中,元数据信息中包括分块数据的指纹信息及该分块数据被引用的次数。
本发明实施例中,对待重删文件进行分块后,通过分块数据的指纹信息来确定负责查询的元数据服务器,而当在数据库中查询到已经存储有该分块数据指纹信息后,将分块数据指纹信息对应的分块数据发送至共享文件系统,而不用再发送给元数据服务器进行存储,从而很大程度上降低了链路开销,提升了系统性能。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种重复数据查询的方法,其特征在于,包括:
对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;
根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器,以指令所述元数据服务器查询所述分块数据的指纹信息是否已经存储在数据库中,并返回查询结果;
接收所述查询结果,当查询结果显示所述分块数据的指纹信息没有存储在数据库中时,将所述分块数据的指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入所述分块数据的指纹信息对应的分块数据元数据信息;当查询结果显示所述分块数据的指纹信息在数据库中已经存在时,指令元数据服务器更新所述分块数据的指纹信息在所述数据库中对应的分块数据的引用计数。
2.根据权利要求1所述的方法,其特征在于,所述分块数据的元数据信息中还包括分块数据的引用计数,将分块数据的指纹信息发送给元数据服务器之前,还包括:
根据分块数据的指纹信息查找相同分块数据,将相同分块数据记录为一个分块数据,并根据相同分块数据的数量更新所记录的该分块数据对应的元数据信息中的引用计数。
3.根据权利要求1所述的方法,其特征在于,所述根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器,包括:
根据分块数据的指纹信息确定所述指纹信息在哪一个预置的指纹信息分段;
根据确定的指纹信息分段,将分块数据的指纹信息发送至与所述确定的指纹信息分段对应的元数据服务器。
4.根据权利要求3所述的方法,其特征在于,所述分块数据的指纹信息为分块数据的哈希值;所述预置的指纹信息分段为哈希值分段,每个元数据服务器对应m/n个不同的哈希分段,其中,m为所述哈希值分段的个数,n为元数据服务器个数。
5.根据权利要求1-4任一所述的方法,其特征在于,还包括:
根据所述文件的分块数据在共享文件系统中的存放信息,生成记录文件以替换所述文件;
当需要恢复所述文件中的数据时,通过所述记录文件,读取所述文件的分块数据在所述共享文件系统中的存放信息,获得文件的分块数据以恢复所述文件中的数据。
6.一种重复数据查找装置,其特征在于,包括:
数据划分模块,用于对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;
发送模块,用于根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器,以使元数据服务器在数据库中查找所述接收的分块数据的指纹信息是否已经存储在数据库中,并返回查询结果;
查询结果处理模块,接收所述查询结果,当在数据库中没有查询到所述分块数据指纹信息时,将分块数据指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入该分块数据指纹信息对应的元数据信息;当在数据库中查询到分块数据指纹信息时,指令元数据服务器更新该指纹信息在数据库中对应的分块数据的引用计数。
7.根据权利要求6所述的装置,其特征在于,所述数据划分模块生成的所述分块数据的元数据信息中还包括分块数据的引用计数,该装置还包括:
整合模块,用于将分块数据的指纹信息发送给元数据服务器之前,根据分块数据的指纹信息查找相同分块数据,将相同分块数据记录为一个分块数据,并根据相同分块数据的数量更新记录的该分块数据对应的元数据信息中的引用计数。
8.根据权利要求6或7所述的装置,其特征在于:
所述查询结果处理模块,还用于根据所述文件的分块数据在共享文件系统中的存放信息,生成记录文件以替换所述文件;
还包括:
数据恢复模块,用于当需要恢复所述文件的数据时,通过所述记录文件,读取所述文件的分块数据在所述共享文件系统中的存放信息,获得文件的分块数据以恢复所述文件中的数据。
9.根据权利要求6或7所述的装置,其特征在于,所述发送模块,具体用于根据分块数据的指纹信息确定所述指纹信息在哪一个预置的指纹信息分段;根据确定的指纹信息分段,将分块数据的指纹信息发送至与所述确定的指纹信息分段对应的元数据服务器,以使所述元数据服务器确定所述接收的分块数据的指纹信息是否已经存储在数据库中,并返回查询结果。
10.一种重复数据查找系统,其特征在于,包括:
重复数据查找装置,用于对文件进行分块,生成每个分块数据的元数据信息,其中所述分块数据的元数据信息中包括所述分块数据的指纹信息;用于根据分块数据的指纹信息将分块数据的指纹信息发送给元数据服务器指令元数据服务器进行重复数据查询;接收元数据服务器返回的查询结果,当在数据库中没有查询到所述分块数据指纹信息时,将分块数据指纹信息对应的分块数据存储到共享文件系统中,并指令元数据服务器在数据库中插入所述分块数据元数据信息;当在数据库中查询到分块数据指纹信息时,指令元数据服务器更新该指纹信息对应的分块数据的引用计数;
元数据服务器,用于接收所述重复数据查找装置发送的将分块数据的指纹信息,在数据库中查找所接收的分块数据的指纹信息是否已经在数据库中存在,并向所述重复数据查找装置返回查询结果;执行所述重复数据查找装置发送的更新所查找的指纹信息对应的分块数据的引用计数的指令及将接收到的元数据信息插入数据库的指令;
数据库,用于存储分块数据的元数据信息,其中,元数据信息中包括分块数据的指纹信息及该分块数据被引用的次数。
CN2011104120564A 2011-12-12 2011-12-12 重复数据查找方法、装置及系统 Pending CN102495894A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2011104120564A CN102495894A (zh) 2011-12-12 2011-12-12 重复数据查找方法、装置及系统
PCT/CN2012/086371 WO2013086969A1 (zh) 2011-12-12 2012-12-11 重复数据查找方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104120564A CN102495894A (zh) 2011-12-12 2011-12-12 重复数据查找方法、装置及系统

Publications (1)

Publication Number Publication Date
CN102495894A true CN102495894A (zh) 2012-06-13

Family

ID=46187719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104120564A Pending CN102495894A (zh) 2011-12-12 2011-12-12 重复数据查找方法、装置及系统

Country Status (2)

Country Link
CN (1) CN102495894A (zh)
WO (1) WO2013086969A1 (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915278A (zh) * 2012-09-19 2013-02-06 浪潮(北京)电子信息产业有限公司 重复数据删除方法
CN103019887A (zh) * 2012-12-12 2013-04-03 华为技术有限公司 数据备份方法及装置
CN103020174A (zh) * 2012-11-28 2013-04-03 华为技术有限公司 相似性分析方法、装置及系统
CN103067129A (zh) * 2012-12-24 2013-04-24 中国科学院深圳先进技术研究院 网络数据传输方法和系统
CN103064757A (zh) * 2012-12-12 2013-04-24 鸿富锦精密工业(深圳)有限公司 数据备份方法及系统
WO2013086969A1 (zh) * 2011-12-12 2013-06-20 华为技术有限公司 重复数据查找方法、装置及系统
CN103246730A (zh) * 2013-05-08 2013-08-14 网易(杭州)网络有限公司 文件存储方法和设备、文件发送方法和设备
CN103259729A (zh) * 2012-12-10 2013-08-21 上海德拓信息技术有限公司 基于零碰撞散列算法的网络数据精简传输方法
CN103414759A (zh) * 2013-07-22 2013-11-27 华为技术有限公司 网盘文件传输方法和装置
CN103547329A (zh) * 2012-12-12 2014-01-29 华为技术有限公司 集群系统中数据处理方法及装置
CN103823807A (zh) * 2012-11-16 2014-05-28 深圳市腾讯计算机系统有限公司 一种去除重复数据的方法、装置及系统
CN103970875A (zh) * 2014-05-15 2014-08-06 华中科技大学 一种并行重复数据删除方法
WO2014206242A1 (en) * 2013-06-25 2014-12-31 Tencent Technology (Shenzhen) Company Limited Systems and methods for data processing
CN105022741A (zh) * 2014-04-23 2015-11-04 苏宁云商集团股份有限公司 压缩方法和系统以及云存储方法和系统
CN103810297B (zh) * 2014-03-07 2017-02-01 华为技术有限公司 基于重删技术的写方法、读方法、写装置和读装置
CN106610790A (zh) * 2015-10-26 2017-05-03 华为技术有限公司 一种重复数据删除方法及装置
CN107122370A (zh) * 2016-02-25 2017-09-01 阿里巴巴集团控股有限公司 一种分布式检索方法及装置
CN107391761A (zh) * 2017-08-28 2017-11-24 郑州云海信息技术有限公司 一种基于重复数据删除技术的数据管理方法及装置
CN107506150A (zh) * 2017-08-30 2017-12-22 郑州云海信息技术有限公司 分布式存储装置、重删、写、删除、读取方法以及系统
CN107644081A (zh) * 2017-09-21 2018-01-30 锐捷网络股份有限公司 数据去重方法及装置
CN108134775A (zh) * 2017-11-21 2018-06-08 华为技术有限公司 一种数据处理方法和设备
CN108431815A (zh) * 2016-01-12 2018-08-21 国际商业机器公司 在处理器网格中的分布式数据的去重复数据
CN109522283A (zh) * 2018-10-30 2019-03-26 深圳先进技术研究院 一种重复数据删除方法及系统
CN112286457A (zh) * 2020-10-28 2021-01-29 杭州宏杉科技股份有限公司 对象重删方法、装置、电子设备及机器可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法
CN101599079A (zh) * 2009-07-22 2009-12-09 中国科学院计算技术研究所 一种备份数据集中存储的管理方法
CN101908077A (zh) * 2010-08-27 2010-12-08 华中科技大学 一种适用于云备份的重复数据删除方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495894A (zh) * 2011-12-12 2012-06-13 成都市华为赛门铁克科技有限公司 重复数据查找方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法
CN101599079A (zh) * 2009-07-22 2009-12-09 中国科学院计算技术研究所 一种备份数据集中存储的管理方法
CN101908077A (zh) * 2010-08-27 2010-12-08 华中科技大学 一种适用于云备份的重复数据删除方法

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013086969A1 (zh) * 2011-12-12 2013-06-20 华为技术有限公司 重复数据查找方法、装置及系统
CN102915278A (zh) * 2012-09-19 2013-02-06 浪潮(北京)电子信息产业有限公司 重复数据删除方法
CN103823807A (zh) * 2012-11-16 2014-05-28 深圳市腾讯计算机系统有限公司 一种去除重复数据的方法、装置及系统
CN103823807B (zh) * 2012-11-16 2018-06-15 深圳市腾讯计算机系统有限公司 一种去除重复数据的方法、装置及系统
US9372867B2 (en) 2012-11-28 2016-06-21 Huawei Technologies Co., Ltd. Similarity analysis method, apparatus, and system
CN103020174A (zh) * 2012-11-28 2013-04-03 华为技术有限公司 相似性分析方法、装置及系统
US9575984B2 (en) 2012-11-28 2017-02-21 Huawei Technologies Co., Ltd. Similarity analysis method, apparatus, and system
CN103020174B (zh) * 2012-11-28 2016-01-06 华为技术有限公司 相似性分析方法、装置及系统
CN103259729B (zh) * 2012-12-10 2018-03-02 上海德拓信息技术股份有限公司 基于零碰撞散列算法的网络数据精简传输方法
CN103259729A (zh) * 2012-12-10 2013-08-21 上海德拓信息技术有限公司 基于零碰撞散列算法的网络数据精简传输方法
WO2014089767A1 (zh) * 2012-12-12 2014-06-19 华为技术有限公司 集群系统中数据处理方法及装置
CN106445413A (zh) * 2012-12-12 2017-02-22 华为技术有限公司 集群系统中数据处理方法及装置
US8892529B2 (en) 2012-12-12 2014-11-18 Huawei Technologies Co., Ltd. Data processing method and apparatus in cluster system
CN103547329B (zh) * 2012-12-12 2016-11-02 华为技术有限公司 集群系统中数据处理方法及装置
CN103547329A (zh) * 2012-12-12 2014-01-29 华为技术有限公司 集群系统中数据处理方法及装置
CN106445413B (zh) * 2012-12-12 2019-10-25 华为技术有限公司 集群系统中数据处理方法及装置
CN103019887B (zh) * 2012-12-12 2016-01-06 华为技术有限公司 数据备份方法及装置
CN103064757A (zh) * 2012-12-12 2013-04-24 鸿富锦精密工业(深圳)有限公司 数据备份方法及系统
CN103019887A (zh) * 2012-12-12 2013-04-03 华为技术有限公司 数据备份方法及装置
CN103067129A (zh) * 2012-12-24 2013-04-24 中国科学院深圳先进技术研究院 网络数据传输方法和系统
CN103067129B (zh) * 2012-12-24 2015-10-28 中国科学院深圳先进技术研究院 网络数据传输方法和系统
CN103246730A (zh) * 2013-05-08 2013-08-14 网易(杭州)网络有限公司 文件存储方法和设备、文件发送方法和设备
CN103246730B (zh) * 2013-05-08 2016-08-10 网易(杭州)网络有限公司 文件存储方法和设备、文件发送方法和设备
WO2014206242A1 (en) * 2013-06-25 2014-12-31 Tencent Technology (Shenzhen) Company Limited Systems and methods for data processing
US10268715B2 (en) 2013-06-25 2019-04-23 Tencent Technology (Shenzhen) Company Limited Systems and methods for data processing
CN103414759B (zh) * 2013-07-22 2016-12-28 华为技术有限公司 网盘文件传输方法和装置
CN103414759A (zh) * 2013-07-22 2013-11-27 华为技术有限公司 网盘文件传输方法和装置
CN103810297B (zh) * 2014-03-07 2017-02-01 华为技术有限公司 基于重删技术的写方法、读方法、写装置和读装置
CN105022741A (zh) * 2014-04-23 2015-11-04 苏宁云商集团股份有限公司 压缩方法和系统以及云存储方法和系统
CN105022741B (zh) * 2014-04-23 2018-09-28 苏宁易购集团股份有限公司 压缩方法和系统以及云存储方法和系统
CN103970875A (zh) * 2014-05-15 2014-08-06 华中科技大学 一种并行重复数据删除方法
CN103970875B (zh) * 2014-05-15 2017-02-15 华中科技大学 一种并行重复数据删除方法和系统
CN106610790A (zh) * 2015-10-26 2017-05-03 华为技术有限公司 一种重复数据删除方法及装置
CN106610790B (zh) * 2015-10-26 2020-01-03 华为技术有限公司 一种重复数据删除方法及装置
CN108431815B (zh) * 2016-01-12 2022-10-11 国际商业机器公司 在处理器网格中的分布式数据的去重复数据
CN108431815A (zh) * 2016-01-12 2018-08-21 国际商业机器公司 在处理器网格中的分布式数据的去重复数据
CN107122370A (zh) * 2016-02-25 2017-09-01 阿里巴巴集团控股有限公司 一种分布式检索方法及装置
CN107391761B (zh) * 2017-08-28 2020-03-06 苏州浪潮智能科技有限公司 一种基于重复数据删除技术的数据管理方法及装置
CN107391761A (zh) * 2017-08-28 2017-11-24 郑州云海信息技术有限公司 一种基于重复数据删除技术的数据管理方法及装置
CN107506150A (zh) * 2017-08-30 2017-12-22 郑州云海信息技术有限公司 分布式存储装置、重删、写、删除、读取方法以及系统
CN107644081A (zh) * 2017-09-21 2018-01-30 锐捷网络股份有限公司 数据去重方法及装置
CN108134775A (zh) * 2017-11-21 2018-06-08 华为技术有限公司 一种数据处理方法和设备
CN108134775B (zh) * 2017-11-21 2020-10-09 华为技术有限公司 一种数据处理方法和设备
CN109522283A (zh) * 2018-10-30 2019-03-26 深圳先进技术研究院 一种重复数据删除方法及系统
CN112286457A (zh) * 2020-10-28 2021-01-29 杭州宏杉科技股份有限公司 对象重删方法、装置、电子设备及机器可读存储介质
CN112286457B (zh) * 2020-10-28 2022-08-26 杭州宏杉科技股份有限公司 对象重删方法、装置、电子设备及机器可读存储介质

Also Published As

Publication number Publication date
WO2013086969A1 (zh) 2013-06-20

Similar Documents

Publication Publication Date Title
CN102495894A (zh) 重复数据查找方法、装置及系统
CA2723731C (en) Managing storage of individually accessible data units
CA2941074C (en) Managing storage of individually accessible data units
US8799601B1 (en) Techniques for managing deduplication based on recently written extents
CN102725755B (zh) 文件访问方法及系统
CN102629247B (zh) 一种数据处理方法、装置和系统
KR20170054299A (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
US20230394010A1 (en) File system metadata deduplication
CN103858125A (zh) 重复数据处理方法、装置及存储控制器和存储节点
CN111950025A (zh) 一种基于区块链智能合约的文件分布式存储方法
US10515055B2 (en) Mapping logical identifiers using multiple identifier spaces
US11940956B2 (en) Container index persistent item tags
CN106528703A (zh) 一种重复删除的模式切换方法及装置
US8156126B2 (en) Method for the allocation of data on physical media by a file system that eliminates duplicate data
US20170344578A1 (en) Compressed data layout for optimizing data transactions
CN102567544A (zh) 数据库查询方法及装置
US11455255B1 (en) Read performance of log-structured file system (LFS)-based storage systems that support copy-on-write (COW) snapshotting
TWI475419B (zh) 用於在儲存系統上存取檔案的方法和系統
AU2014202186B2 (en) Managing storage of individually accessible data units

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: High tech Park No. 88 University of Electronic Science and technology of Sichuan province in 611721 Chengdu city high tech Zone West Park area Qingshui River Tianchen Road No. 5 building D

Applicant after: Huawei Symantec Technologies Co., Ltd.

Address before: High tech Park No. 88 University of Electronic Science and technology of Sichuan province in 611721 Chengdu city high tech Zone West Park area Qingshui River Tianchen Road No. 5 building D

Applicant before: Chengdu Huawei Symantec Technologies Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD. TO: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120613