CN102722450A - 一种基于位置敏感哈希的删冗块设备存储方法 - Google Patents

一种基于位置敏感哈希的删冗块设备存储方法 Download PDF

Info

Publication number
CN102722450A
CN102722450A CN2012101682422A CN201210168242A CN102722450A CN 102722450 A CN102722450 A CN 102722450A CN 2012101682422 A CN2012101682422 A CN 2012101682422A CN 201210168242 A CN201210168242 A CN 201210168242A CN 102722450 A CN102722450 A CN 102722450A
Authority
CN
China
Prior art keywords
data
superfluous
data segment
execution
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101682422A
Other languages
English (en)
Other versions
CN102722450B (zh
Inventor
余宏亮
孙竞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210168242.2A priority Critical patent/CN102722450B/zh
Publication of CN102722450A publication Critical patent/CN102722450A/zh
Application granted granted Critical
Publication of CN102722450B publication Critical patent/CN102722450B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于位置敏感哈希的删冗块设备存储方法,涉及数据存储领域。该方法包括:将删冗写操作的数据块和相应的数字指纹放入当前工作队列;D:判断队列中数据块的数量是否超过阈值,如果是,将阈值个数据块作为一个数据段,执行步骤F;否则,执行步骤E;E:判断队首数据块是否超时,如果是,将所有数据块作为一个数据段,执行步骤F;否则,执行步骤D;F:判断是否存在相似数据段元数据集合,如果是,执行步骤G;否则,创建一个空集合,执行步骤G;G:依次判断各数据块的数字指纹是否存在于相似数据段元数据集合中,如果是,修改数据块的存储地址;否则,生成数据块的元数据。该方法减少了删冗写操作过程访问元数据的时间开销。

Description

一种基于位置敏感哈希的删冗块设备存储方法
技术领域
本发明涉及数据存储技术领域,特别涉及一种基于位置敏感哈希的删冗块设备存储方法。
背景技术
随着数字信息量的爆炸式增长,数据占用空间越来越大;在过去的10年里,很多行业提供的存储系统容量从数十GB发展到数百TB,甚至数PB,足足翻了10,000多倍。随着数据的指数级增长,企业面临的快速备份和恢复的时间点越来越多,管理保存数据的成本越来越高,数据中心的空间和电能耗费也变得越来越多。研究发现,应用系统所保存的数据,高达60%是冗余的,而且随着时间的推移越来越严重。
为了缓解存储系统的空间增长问题,缩减数据占用空间,降低成本、最大程度的利用已有资源,冗余数据删除技术(简称删冗技术)就应运而生了。一方面,利用删冗技术,可以对存储空间的利用率进行优化。传统的数据压缩技术主要根据一些固定的模式利用传统的数据分析工具和技术来消除重复数据,不能有效地改善基于磁盘数据的成本效益,所以需要通过探究重复数据的特性,利用相应的删冗技术,以消除分布在存储系统中的相同文件或者数据块。另一方面,利用删冗技术,可以减少在网络中传输的数据量,进而降低能量消耗和网络成本。删冗技术的目标是消除分布在存储系统中的相同及相似文件或者数据块,因此能够减少大量的磁盘消耗,并且为数据复制大大节省网络带宽。
删冗技术可以广泛用于虚拟机存储、文件服务器、邮件服务器、磁盘备份、社区网络等诸多应用领域。传统上删冗技术不作为主存储系统使用,但近年来,随着云存储等技术的发展,以删冗技术构建主存储系统成为了一个重要的技术课题,以删冗技术构建的主存储系统简称为删冗存储系统。
块设备是最基本的存储设备,广泛应用与SAN(Storage AreaNetwork,存储区域网络)、NAS(Network Attached Storage,网络附属存储)等各种存储系统中,但是构建支持内嵌删冗的块设备存储系统时,面临两个重大的技术挑战:(1)作为底层块设备删冗结果如何通知上层系统,并且如何兼容已有不支持删冗的上层存储系统。(2)存储系统对块设备性能要求很高,而删冗会产生大量计算开销,以及增加大量删冗元数据,并且在写数据时需要查找写的数据是否在系统中,这会明显增大写数据的时间开销。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种基于位置敏感哈希的删冗块设备存储方法,以减少删冗写操作过程访问元数据的时间开销,保证块设备的性能要求。
(二)技术方案
为解决上述技术问题,本发明提供一种基于位置敏感哈希的删冗块设备存储方法,其包括步骤:
B:获取发起删冗写操作的进程ID,根据所述进程ID判断是否存在对应所述删冗写操作的删冗队列,如果是,将所述删冗队列作为当前工作队列,执行步骤C;否则,创建新的删冗队列作为当前工作队列,执行步骤C;
C:将所述删冗写操作的数据分成多个数据块,计算每个所述数据块的数字指纹,将所述数据块和相应的数字指纹放入所述当前工作队列;
D:判断所述当前工作队列中所述数据块的数量是否超过阈值,如果是,将所述阈值个所述数据块出队列后作为一个数据段,执行步骤F;否则,执行步骤E;
E:判断队首的所述数据块的等待时间是否超过预定时间,如果是,将所述当前工作队列中所有所述数据块出队列后作为一个数据段,执行步骤F;否则,执行步骤D;
F:计算所述数据段的位置敏感哈希函数值,根据所述位置敏感哈希函数值判断是否存在所述数据段的相似数据段元数据集合,如果存在,执行步骤G;否则,创建一个空集合作为所述数据段的相似数据段元数据集合,执行步骤G;
G:依次判断所述数据段中的各所述数据块的数字指纹是否存在于所述相似数据段元数据集合中,如果是,修改所述数据块的存储地址为所述数据指纹在所述相似数据段元数据集合中对应的元数据的存储地址;否则,在所述相似数据段元数据集合中生成所述数据块的元数据,所述元数据包括:所述数据块的数字指纹和存储地址。
优选地,在所述步骤B之前还包括步骤A:在块设备层增加删冗写操作,判断当前写操作的类型是否是删冗写操作,如果是,执行步骤B;否则,直接将所述当前写操作的数据写入二级存储。
优选地,所述步骤B具体包括步骤:
B1:获取发起删冗写操作的进程ID,将所述删冗写操作的数据加入缓存,将通用设备层的I/O完成函数的状态设置为待处理;
B2:根据所述进程ID判断是否存在对应所述删冗写操作的删冗队列,如果是,将所述删冗队列作为当前工作队列,执行步骤C;否则,创建新的删冗队列作为当前工作队列,执行步骤C。
优选地,所述步骤C具体包括步骤:将所述删冗写操作的数据按照预定大小分成多个数据块,计算所述数据块的安全哈希函数值作为所述数据块的数字指纹,将所述数据块和相应的数字指纹放入所述当前工作队列。
优选地,所述步骤D中,所述阈值为100。
优选地,所述步骤E中,所述预定时间为5秒。
优选地,所述步骤F具体包括步骤:
F1:使用bloom filter对所述数据段进行归一化处理,生成定长度数据块特征向量;
F2:根据所述定长度数据块特征向量,通过基于p-stable的位置敏感哈希函数计算得到所述数据段的位置敏感哈希函数值;
F3:根据所述位置敏感哈希函数值判断二级存储中是否存在所述数据段的相似数据段元数据集合,如果存在,执行步骤G;否则,创建一个空集合作为所述数据段的相似数据段元数据集合,执行步骤G。
优选地,所述步骤G具体包括步骤:
G1:依次判断所述数据段中的各所述数据块的数字指纹是否存在于所述相似数据段元数据集合中,如果是,执行步骤G2;否则,执行步骤G3;
G2:修改所述数据块的存储地址为所述数据指纹在所述相似数据段元数据集合中对应的元数据的存储地址,将所述元数据的引用值加1,将所述I/O完成函数的状态设置为修改后的,返回所述数据块的原存储地址和修改后的存储地址,将所述相似数据段元数据集合写回所述二级存储;
G3:在所述相似数据段元数据集合中生成所述数据块的元数据,将所述I/O完成函数的状态设置为完成,将所述相似数据段元数据集合写回所述二级存储;所述元数据包括:所述数据块的数字指纹、存储地址和引用值,所述引用值的初值为1。
(三)有益效果
本发明的所述基于位置敏感哈希的删冗块设备存储方法,具有以下优势:所述方法通过将删冗写操作根据进程ID分组,有效利用同一进程特定时间对同一文件操作带来的数据局部性,为实现相似数据段删冗提供基础,进而利用位置敏感哈希函数将相似元数据集合映射到相同的哈希空间位置,快速并准确地识别出相似数据段,既有效降低了删冗写操作使用内存的次数,又实现了对元数据集合的快速访问,减少了删冗写操作过程访问元数据的时间开销,有效保证了删冗块设备写操作性能;所述方法既可以使支持删冗块设备的上层存储系统方便使用块设备内嵌删冗功能,也使已有不支持删冗块设备的上层存储系统可以将本设备作为通用块设备使用,并且上层存储系统灵活使用删冗写操作,即可减少存储空间使用,也可以保证重要数据的多个副本不被删冗;所述方法通过增加两个I/O完成函数的状态,在不修改现有写流程的基础上,支持删冗结果返回上层存储系统,最小化上层存储系统使用删冗块设备带来的改动。
附图说明
图1是本发明的基于位置敏感哈希的删冗块设备存储方法流程图;
图2是相似数据段元数据集合索引表示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明的基于位置敏感哈希的删冗块设备存储方法流程图。如图1所示,所述方法包括步骤:
A:在块设备层增加删冗写操作,判断当前写操作的类型是否是删冗写操作,如果是,执行步骤B;否则,直接将所述当前写操作的数据写入二级存储,即执行现有的写操作。所述步骤A中,未改变原有的读、写操作,可以保证已有的不支持删冗块设备的存储系统仍然可以按照普通块设备方式使用删冗块设备;而支持删冗块设备的存储系统,则可以根据需要选择使用删冗写操作,让删冗块设备对写入的数据进行内嵌删冗。这样,上层存储系统对于重要的需要保存多个副本的数据,可以仍然使用现有的非删冗的写操作,避免删冗块设备将多个相同副本数据删掉只保留一份,以保证上层系统对数据可靠性的要求。
B:获取发起删冗写操作的进程ID(identity,标识号码),根据所述进程ID判断是否存在对应所述删冗写操作的删冗队列,如果是,将所述删冗队列作为当前工作队列,执行步骤C;否则,创建新的删冗队列作为当前工作队列,执行步骤C,这里新创建的删冗队列通过所述进程ID与所述删冗写操作相对应。上层存储系统为了有效提高访问存储设备的性能,一般尽可能采用顺序读、写操作,上层存储系统通过建立文件缓存等方法提高对块设备层顺序访问比例。因此,块设备层如果能利用经常出现的数据段顺序访问模式,将连续访问的数据块元数据组织在一起,则可以实现多个元数据的连续访问,这样将大大减少对元数据进行访问时带来的磁盘随机访问次数,有效提高元数据处理性能。通常上层存储系统的一个进程在某个时间点上对一个文件进行操作,因此根据发起删冗写操作的进程ID进行分组,可以得到对一个文件连续访问的数据段,这种对一个文件连续访问的模式以后也会以很高概率重复出现。
所述步骤B具体包括步骤:
B1:获取发起删冗写操作的进程ID,将所述删冗写操作的数据加入缓存,将通用设备层的I/O(输入/输出)完成函数的状态设置为待处理。本发明为I/O完成函数增加待处理状态和修改后的状态(下述步骤G2中),即保证了不对通用块设备写流程做太大改动,又以通用方式实现删冗结果通知支持删冗块设备的上层存储系统,这样上层存储系统可以根据删冗结果做相应处理。这个流程也与通用块设备写操作(即现有写操作)流程相符,最小化了上层存储系统支持删冗块设备所需要的修改。所述删冗写操作由独立的删冗线程完成。
B2:所述删冗线程根据所述进程ID判断是否存在对应所述删冗写操作的删冗队列,如果是,将所述删冗队列作为当前工作队列,执行步骤C;否则,创建新的删冗队列作为当前工作队列,执行步骤C。
C:将所述删冗写操作的数据按照预定大小分成多个数据块,计算所述数据块的安全哈希函数值作为所述数据块的数字指纹,将所述数据块、相应的数字指纹以及当前时间戳放入所述当前工作队列。所述安全哈希函数值采用SHA(Secure Hash Algorithm,安全散列算法)-1或者SHA-256。
D:判断所述当前工作队列中所述数据块的数量是否超过阈值,如果是,将所述阈值个所述数据块出队列后作为一个数据段,执行步骤F;否则,执行步骤E。所述阈值一般为100个左右。
E:判断队首的所述数据块的等待时间是否超过预定时间,如果是,将所述当前工作队列中所有所述数据块出队列后作为一个数据段,执行步骤F;否则,执行步骤D。所述预定时间为5秒。这里采用了一个超时监控线程,定期计算队首的所述数据块的时间戳与当前时间之差,以判断队首的所述数据块是否超时。
F:计算所述数据段的位置敏感哈希函数值,根据所述位置敏感哈希函数值判断是否存在所述数据段的相似数据段元数据集合,如果存在,执行步骤G;否则,创建一个空集合作为所述数据段的相似数据段元数据集合,执行步骤G。位置敏感哈希函数值(即LocationSensitive Hash,LSH)与一般的哈希函数值不同的是位置敏感性,也就是散列前的相似点经过哈希之后,也能够在一定程度上相似,并且具有一定的概率保证。因此,使用合适的位置敏感哈希函数值可以将相似的数据段映射到哈希值空间的相近位置,从而保证了相似数据段组织和识别的要求。
所述步骤F具体包括步骤:
F1:使用bloom filter(一种二进制向量数据结构)对所述数据段进行归一化处理,生成定长度数据块特征向量;
F2:根据所述定长度数据块特征向量,通过基于p-stable的位置敏感哈希函数计算得到所述数据段的位置敏感哈希函数值;
F3:根据所述位置敏感哈希函数值判断二级存储中是否存在所述数据段的相似数据段元数据集合,如果存在,执行步骤G;否则,创建一个空集合作为所述数据段的相似数据段元数据集合,执行步骤G。图2是相似数据段元数据集合索引表示意图,如图2所示,在内存中维护一个相似数据段元数据集合索引表,表中存有所述数据段的位置敏感哈希函数值和相应的相似数据段元数据集合的地址,根据相似数据段元数据集合的地址可以在外部存储(即二级存储)上查找到相似数据段元数据集合,进而执行步骤G。
G:依次判断所述数据段中的各所述数据块的数字指纹是否存在于所述相似数据段元数据集合中,如果是,修改所述数据块的存储地址为所述数据指纹在所述相似数据段元数据集合中对应的元数据的存储地址;否则,在所述相似数据段元数据集合中生成所述数据块的元数据,所述元数据包括:所述数据块的数字指纹和存储地址。在进行所述数据段中各数据块的查询时,如果能够找到一个小的集合,仅仅对该集合中元素进行数据查询的结果就能够与在整个数据集合中进行数据查询的结果在概率上相同,则可以提高数据查询的效率。本发明正是利用了这一点,将相似数据段(也就是包含有一定数量相似数据块的数据段)放在一起构成相似数据段元数据集合,从而查找该相似数据段元数据集合就可与查找所有数据段达到类似的删冗效果。
所述步骤G具体包括步骤:
G1:依次判断所述数据段中的各所述数据块的数字指纹是否存在于所述相似数据段元数据集合中,如果是,说明二级存储中已经有了相同内容的数据块,不需要再次写入,从而执行步骤G2;否则,说明所述数据块是新的,执行步骤G3;
G2:修改所述数据块的存储地址为所述数据指纹在所述相似数据段元数据集合中对应的元数据的存储地址,将所述元数据的引用值加1,将所述I/O完成函数的状态设置为修改后的,返回所述数据块的原存储地址和修改后的存储地址,将所述相似数据段元数据集合写回所述二级存储。如果所述相似数据段元数据集合的存储地址改变,相应修改所述相似数据段元数据集合索引表。
G3:在所述相似数据段元数据集合中生成所述数据块的元数据,将所述I/O完成函数的状态设置为完成;所述元数据包括:所述数据块的数字指纹、存储地址和引用值,所述引用值的初值为1。然后,将所述相似数据段元数据集合写回所述二级存储。如果所述相似数据段元数据集合的存储地址改变,相应修改所述相似数据段元数据集合索引表。
本发明实施例所述基于位置敏感哈希的删冗块设备存储方法,具有一下优势:所述方法通过将删冗写操作根据进程ID分组,有效利用同一进程特定时间对同一文件操作带来的数据局部性,为实现相似数据段删冗提供基础,进而利用位置敏感哈希函数将相似元数据集合映射到相同的哈希空间位置,快速并准确地识别出相似数据段,既有效降低了删冗写操作使用内存的次数,又实现了对元数据集合的快速访问,减少了删冗写操作过程访问元数据的时间开销,有效保证了删冗块设备写操作性能;所述方法既可以使支持删冗块设备的上层存储系统方便使用块设备内嵌删冗功能,也使已有不支持删冗块设备的上层存储系统可以将本设备作为通用块设备使用,并且上层存储系统灵活使用删冗写操作,即可减少存储空间使用,也可以保证重要数据的多个副本不被删冗;所述方法通过增加两个I/O完成函数的状态,在不修改现有写流程的基础上,支持删冗结果返回上层存储系统,最小化上层存储系统使用删冗块设备带来的改动。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (8)

1.一种基于位置敏感哈希的删冗块设备存储方法,其特征在于,包括步骤:
B:获取发起删冗写操作的进程ID,根据所述进程ID判断是否存在对应所述删冗写操作的删冗队列,如果是,将所述删冗队列作为当前工作队列,执行步骤C;否则,创建新的删冗队列作为当前工作队列,执行步骤C;
C:将所述删冗写操作的数据分成多个数据块,计算每个所述数据块的数字指纹,将所述数据块和相应的数字指纹放入所述当前工作队列;
D:判断所述当前工作队列中所述数据块的数量是否超过阈值,如果是,将所述阈值个所述数据块出队列后作为一个数据段,执行步骤F;否则,执行步骤E;
E:判断队首的所述数据块的等待时间是否超过预定时间,如果是,将所述当前工作队列中所有所述数据块出队列后作为一个数据段,执行步骤F;否则,执行步骤D;
F:计算所述数据段的位置敏感哈希函数值,根据所述位置敏感哈希函数值判断是否存在所述数据段的相似数据段元数据集合,如果存在,执行步骤G;否则,创建一个空集合作为所述数据段的相似数据段元数据集合,执行步骤G;
G:依次判断所述数据段中的各所述数据块的数字指纹是否存在于所述相似数据段元数据集合中,如果是,修改所述数据块的存储地址为所述数据指纹在所述相似数据段元数据集合中对应的元数据的存储地址;否则,在所述相似数据段元数据集合中生成所述数据块的元数据,所述元数据包括:所述数据块的数字指纹和存储地址。
2.如权利要求1所述的方法,其特征在于,在所述步骤B之前还包括步骤A:在块设备层增加删冗写操作,判断当前写操作的类型是否是删冗写操作,如果是,执行步骤B;否则,直接将所述当前写操作的数据写入二级存储。
3.如权利要求1所述的方法,其特征在于,所述步骤B具体包括步骤:
B1:获取发起删冗写操作的进程ID,将所述删冗写操作的数据加入缓存,将通用设备层的I/O完成函数的状态设置为待处理;
B2:根据所述进程ID判断是否存在对应所述删冗写操作的删冗队列,如果是,将所述删冗队列作为当前工作队列,执行步骤C;否则,创建新的删冗队列作为当前工作队列,执行步骤C。
4.如权利要求3所述的方法,其特征在于,所述步骤C具体包括步骤:将所述删冗写操作的数据按照预定大小分成多个数据块,计算所述数据块的安全哈希函数值作为所述数据块的数字指纹,将所述数据块和相应的数字指纹放入所述当前工作队列。
5.如权利要求4述的方法,其特征在于,所述步骤D中,所述阈值为100。
6.如权利要求4所述的方法,其特征在于,所述步骤E中,所述预定时间为5秒。
7.如权利要求4所述的方法,其特征在于,所述步骤F具体包括步骤:
F1:使用bloom filter对所述数据段进行归一化处理,生成定长度数据块特征向量;
F2:根据所述定长度数据块特征向量,通过基于p-stable的位置敏感哈希函数计算得到所述数据段的位置敏感哈希函数值;
F3:根据所述位置敏感哈希函数值判断二级存储中是否存在所述数据段的相似数据段元数据集合,如果存在,执行步骤G;否则,创建一个空集合作为所述数据段的相似数据段元数据集合,执行步骤G。
8.如权利要求7所述的方法,其特征在于,所述步骤G具体包括步骤:
G1:依次判断所述数据段中的各所述数据块的数字指纹是否存在于所述相似数据段元数据集合中,如果是,执行步骤G2;否则,执行步骤G3;
G2:修改所述数据块的存储地址为所述数据指纹在所述相似数据段元数据集合中对应的元数据的存储地址,将所述元数据的引用值加1,将所述I/O完成函数的状态设置为修改后的,返回所述数据块的原存储地址和修改后的存储地址,将所述相似数据段元数据集合写回所述二级存储;
G3:在所述相似数据段元数据集合中生成所述数据块的元数据,将所述I/O完成函数的状态设置为完成,将所述相似数据段元数据集合写回所述二级存储;所述元数据包括:所述数据块的数字指纹、存储地址和引用值,所述引用值的初值为1。
CN201210168242.2A 2012-05-25 2012-05-25 一种基于位置敏感哈希的删冗块设备存储方法 Expired - Fee Related CN102722450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210168242.2A CN102722450B (zh) 2012-05-25 2012-05-25 一种基于位置敏感哈希的删冗块设备存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210168242.2A CN102722450B (zh) 2012-05-25 2012-05-25 一种基于位置敏感哈希的删冗块设备存储方法

Publications (2)

Publication Number Publication Date
CN102722450A true CN102722450A (zh) 2012-10-10
CN102722450B CN102722450B (zh) 2015-01-14

Family

ID=46948223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210168242.2A Expired - Fee Related CN102722450B (zh) 2012-05-25 2012-05-25 一种基于位置敏感哈希的删冗块设备存储方法

Country Status (1)

Country Link
CN (1) CN102722450B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014094421A1 (zh) * 2012-12-21 2014-06-26 华为技术有限公司 数据处理方法和虚拟机管理平台
CN104102748A (zh) * 2014-08-08 2014-10-15 中国联合网络通信集团有限公司 文件映射方法及装置和文件推荐方法及装置
WO2014206242A1 (en) * 2013-06-25 2014-12-31 Tencent Technology (Shenzhen) Company Limited Systems and methods for data processing
CN104965689A (zh) * 2015-05-22 2015-10-07 浪潮电子信息产业股份有限公司 一种cpu/gpu的混合并行计算方法及装置
CN111737519A (zh) * 2020-06-09 2020-10-02 北京奇艺世纪科技有限公司 识别机器人账号的方法、装置、电子设备及计算机可读存储介质
WO2020253406A1 (zh) * 2019-06-17 2020-12-24 华为技术有限公司 一种数据处理方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN101963982A (zh) * 2010-09-27 2011-02-02 清华大学 基于位置敏感哈希的删冗存储系统元数据管理方法
US8032529B2 (en) * 2007-04-12 2011-10-04 Cisco Technology, Inc. Enhanced bloom filters
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8032529B2 (en) * 2007-04-12 2011-10-04 Cisco Technology, Inc. Enhanced bloom filters
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN101963982A (zh) * 2010-09-27 2011-02-02 清华大学 基于位置敏感哈希的删冗存储系统元数据管理方法
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尹玉冰 等: "《一种广域网环境下的分布式冗余删除存储系统》", 《中兴通讯技术》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014094421A1 (zh) * 2012-12-21 2014-06-26 华为技术有限公司 数据处理方法和虚拟机管理平台
WO2014206242A1 (en) * 2013-06-25 2014-12-31 Tencent Technology (Shenzhen) Company Limited Systems and methods for data processing
US20150269206A1 (en) * 2013-06-25 2015-09-24 Tencent Technology (Shenzhen) Company Limited Systems and Methods for Data Processing
US10268715B2 (en) 2013-06-25 2019-04-23 Tencent Technology (Shenzhen) Company Limited Systems and methods for data processing
CN104102748A (zh) * 2014-08-08 2014-10-15 中国联合网络通信集团有限公司 文件映射方法及装置和文件推荐方法及装置
CN104102748B (zh) * 2014-08-08 2017-12-22 中国联合网络通信集团有限公司 文件映射方法及装置和文件推荐方法及装置
CN104965689A (zh) * 2015-05-22 2015-10-07 浪潮电子信息产业股份有限公司 一种cpu/gpu的混合并行计算方法及装置
WO2020253406A1 (zh) * 2019-06-17 2020-12-24 华为技术有限公司 一种数据处理方法、装置及计算机可读存储介质
US11797204B2 (en) 2019-06-17 2023-10-24 Huawei Technologies Co., Ltd. Data compression processing method and apparatus, and computer-readable storage medium
CN111737519A (zh) * 2020-06-09 2020-10-02 北京奇艺世纪科技有限公司 识别机器人账号的方法、装置、电子设备及计算机可读存储介质
CN111737519B (zh) * 2020-06-09 2023-10-03 北京奇艺世纪科技有限公司 识别机器人账号的方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN102722450B (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
US11068455B2 (en) Mapper tree with super leaf nodes
CN101963982B (zh) 基于位置敏感哈希的删冗存储系统元数据管理方法
US9639289B2 (en) Systems and methods for retaining and using data block signatures in data protection operations
US10031675B1 (en) Method and system for tiering data
US9483511B2 (en) Stubbing systems and methods in a data replication environment
US9047301B2 (en) Method for optimizing the memory usage and performance of data deduplication storage systems
US8725698B2 (en) Stub file prioritization in a data replication system
US8352422B2 (en) Data restore systems and methods in a replication environment
CN101777017B (zh) 一种连续数据保护系统的快速恢复方法
CN105069048A (zh) 一种小文件存储方法、查询方法和装置
CN106874348B (zh) 文件存储和索引方法、装置及读取文件的方法
CN109445702B (zh) 一种块级数据去重存储系统
CN102722450A (zh) 一种基于位置敏感哈希的删冗块设备存储方法
CN106708427A (zh) 一种适用于键值对数据的存储方法
CN106445405B (zh) 一种面向闪存存储的数据访问方法及其装置
CN107291889A (zh) 一种数据存储方法及系统
CN102323958A (zh) 重复数据删除方法
US20180253252A1 (en) Storage system
CN109710572A (zh) 一种基于HBase的文件分片方法
CN106407224A (zh) 一种键值存储系统中文件压实的方法和装置
CN110427347A (zh) 重复数据删除的方法、装置、存储节点及存储介质
CN104965835B (zh) 一种分布式文件系统的文件读写方法及装置
CN102541982B (zh) 一种组织和访问元数据文件日志的方法
CN102693315A (zh) 一种基于共享内存映射的url去重方法及装置
CN104424189A (zh) 基于云平台的定位解算方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150114