CN105069111B - 云存储中基于相似性的数据块级数据去重方法 - Google Patents

云存储中基于相似性的数据块级数据去重方法 Download PDF

Info

Publication number
CN105069111B
CN105069111B CN201510485989.4A CN201510485989A CN105069111B CN 105069111 B CN105069111 B CN 105069111B CN 201510485989 A CN201510485989 A CN 201510485989A CN 105069111 B CN105069111 B CN 105069111B
Authority
CN
China
Prior art keywords
file
fingerprint
index
data block
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510485989.4A
Other languages
English (en)
Other versions
CN105069111A (zh
Inventor
刘竹松
李志科
王立栩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Guangdong Guangxin Communications Services Co Ltd
Original Assignee
Guangdong University of Technology
Guangdong Guangxin Communications Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology, Guangdong Guangxin Communications Services Co Ltd filed Critical Guangdong University of Technology
Priority to CN201510485989.4A priority Critical patent/CN105069111B/zh
Publication of CN105069111A publication Critical patent/CN105069111A/zh
Application granted granted Critical
Publication of CN105069111B publication Critical patent/CN105069111B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云存储中基于相似性的数据块级数据去重方法,包括:在云存储系统中添加一个指纹索引节点,指纹索引节点用于得到已存储文件的数据块指纹并根据已存储文件的相似性构建由主索引和从索引组成的二级指纹索引,其中,主索引为文件的文件特征指纹与文件相似性集合地址的映射,从索引为文件的数据块指纹与数据块地址、用户ID之间的映射,文件特征指纹为文件的最小数据块指纹;根据指纹索引节点的二级指纹索引对待存储的文件数据块进行去重。本发明利用文件的相似性构建二级指纹索引,然后根据构建的二级指纹索引进行数据块级的数据去重,检索效率更高;基于文件的相似性进行去重,应用范围更广。本发明可广泛应用于云存储领域。

Description

云存储中基于相似性的数据块级数据去重方法
技术领域
本发明涉及云存储领域,尤其是一种云存储中基于相似性的数据块级数据去重方法。
背景技术
数据去重是一种数据无损的冗余数据缩减技术,是一种数据处理技术。它使得多个相同的数据块在存储系统中只存储一个数据块副本,减少了存储数据所需的资源,节约了成本,已成为存储系统的一种新趋势。在云存储系统中,数据相对更密集,数据量更多,出现相似度高的数据可能性更高,因而对云存储中的数据进行去重更具实际意义,其在提高数据处理效率的同时还能减少存储设备的开销。
数量去重的分类方法主要包括:(1)从数据去重的粒度大小来分,数据去重可以分为字节级数据去重、数据块级数据去重和文件级数据去重;(2)从去重位置的角度来分,数据去重可以分为数据源端数据去重和数据宿端的数据去重;(3)从数据去重的范围来分,数据去重可以分为局部数据去重和全局数据去重。
传统文件系统中的数据去重过程如下:
1.对需要存储的数据进行分块;
2.利用哈希函数对每个数据块生成一个唯一的数据指纹,用以区分不同的数据块;
3.对每个将要存储数据块的数据指纹在系统的数据指纹库中查找,若找到相同的数据指纹,则表明数据块重复;若未找到,则表明数据块不重复。
从上述数据去重过程可以看出,现有的数据去重方法大多数都需要为已存储文件构建一个索引表,来提高对已存储数据的检索速度。这样的方法适用于存储有少量文件的文件系统, 但是在存储着海量数据文件的云存储系统中,普通的文件索引无法保障高效的检索,也无法跨用户对数据进行去重。
发明内容
为了解决上述技术问题,本发明的目的是:提供一种高效和应用范围广的云存储中基于相似性的数据块级数据去重方法。
本发明解决其技术问题所采用的技术方案是:
云存储中基于相似性的数据块级数据去重方法,包括:
A、在云存储系统中添加一个指纹索引节点,所述指纹索引节点用于得到已存储文件的数据块指纹并根据已存储文件的相似性构建由主索引和从索引组成的二级指纹索引,其中,主索引为文件的文件特征指纹与文件相似性集合地址的映射,从索引为文件的数据块指纹与数据块地址、用户ID之间的映射,文件特征指纹为文件的最小数据块指纹;
B、根据指纹索引节点的二级指纹索引对待存储的文件数据块进行去重。
进一步,所述云存储系统为基于HDFS的云存储服务系统。
进一步,所述步骤B,其包括:
B1、计算待存储的文件的文件特征指纹和每个数据块指纹;
B2、根据计算的文件特征指纹检索主索引,并根据检索的结果判断待存储的文件是否为新的文件类型,若是,则在执行步骤B3后执行步骤B5,反之,则在执行步骤B4后执行步骤B5;
B3、将待存储的文件分块存入存储系统中,并更新主索引及构建与待存储的文件类型相同的从索引;
B4、根据计算的数据块指纹检索从索引,并根据检索的结果更新从索引;
B5、更新元数据表,所述元数据表包括文件与数据块间的映射关系表以及数据块与数据节点间的映射关系表。
进一步,所述步骤B2,其具体为:
客户端将计算的文件特征指纹与每个数据块指纹发送给主节点,由主节点根据文件特征指纹去主索引中检索,若未检索到与计算的文件特征指纹相同的记录,则表明待存储的文件为新的文件类型,此时先执行步骤B3然后执行步骤B5;若检索到已存在与计算的文件特征指纹相同的记录,则表明云存储系统中已有同类型的文件数据存在,待存储的文件为旧的文件类型,此时先执行步骤B4然后执行步骤B5。
进一步,所述步骤B3,其包括:
为待存储的文件分配存储地址,并根据分配的地址将待存储的文件数据块存储到存储系统的数据节点上;
对主索引进行更新;
构建与待存储的文件类型相同的从索引。
进一步,所述步骤B4,其包括:
B41、主节点根据客户端发送过来的当前数据块指纹去从索引中检索,检索从索引中是否存在与客户端发送过来的当前数据块指纹相同的数据块指纹,若是,则表明当前数据块需要进行去重操作,此时执行步骤B43,反之,则执行步骤B42;
B42、为待存储的文件分配存储地址,并根据分配的地址将待存储的文件数据块存储到存储系统的数据节点上,然后更新从索引;
B43、更新从索引的用户ID,将当前数据块的用户ID添加到从索引中与当前数据块相同的数据块的用户ID上。
进一步,所述已存储文件的数据块指纹及待存储的文件的数据块指纹均采用SHA-1哈希算法计算得到。
本发明的有益效果是:利用文件的相似性构建由主索引和从索引组成的二级指纹索引,然后根据构建的二级指纹索引进行数据块级的数据去重,与传统基于文件的单个索引表的数据去重方法相比,检索效率更高;基于文件的相似性进行去重,不仅可以在一个用户的同类文件中进行数据去重,而且还可以在多个用户的同类文件之间进行数据去重,实现了跨用户的数据去重,应用范围更广。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1为本发明云存储中基于相似性的数据块级数据去重方法的整体流程图;
图2为本发明步骤B的流程图;
图3为本发明步骤B3的流程图;
图4为本发明步骤B4的流程图;
图5为本发明实施例二云存储系统数据去重的组成模块结构图;
图6为本发明的二级指纹索引结构示意图;
图7为本发明对待存储的文件数据块进行去重的流程图。
具体实施方式
参照图1,云存储中基于相似性的数据块级数据去重方法,包括:
A、在云存储系统中添加一个指纹索引节点,所述指纹索引节点用于得到已存储文件的数据块指纹并根据已存储文件的相似性构建由主索引和从索引组成的二级指纹索引,其中,主索引为文件的文件特征指纹与文件相似性集合地址的映射,从索引为文件的数据块指纹与数据块地址、用户ID之间的映射,文件特征指纹为文件的最小数据块指纹;
B、根据指纹索引节点的二级指纹索引对待存储的文件数据块进行去重。
进一步作为优选的实施方式,所述云存储系统为基于HDFS的云存储服务系统。
参照图2,进一步作为优选的实施方式,所述步骤B,其包括:
B1、计算待存储的文件的文件特征指纹和每个数据块指纹;
B2、根据计算的文件特征指纹检索主索引,并根据检索的结果判断待存储的文件是否为新的文件类型,若是,则在执行步骤B3后执行步骤B5,反之,则在执行步骤B4后执行步骤B5;
B3、将待存储的文件分块存入存储系统中,并更新主索引及构建与待存储的文件类型相同的从索引;
B4、根据计算的数据块指纹检索从索引,并根据检索的结果更新从索引;
B5、更新元数据表,所述元数据表包括文件与数据块间的映射关系表以及数据块与数据节点间的映射关系表。
进一步作为优选的实施方式,所述步骤B2,其具体为:
客户端将计算的文件特征指纹与每个数据块指纹发送给主节点,由主节点根据文件特征指纹去主索引中检索,若未检索到与计算的文件特征指纹相同的记录,则表明待存储的文件为新的文件类型,此时先执行步骤B3然后执行步骤B5;若检索到已存在与计算的文件特征指纹相同的记录,则表明云存储系统中已有同类型的文件数据存在,待存储的文件为旧的文件类型,此时先执行步骤B4然后执行步骤B5。
参照图3,进一步作为优选的实施方式,所述步骤B3,其包括:
为待存储的文件分配存储地址,并根据分配的地址将待存储的文件数据块存储到存储系统的数据节点上;
对主索引进行更新;
构建与待存储的文件类型相同的从索引。
参照图4,进一步作为优选的实施方式,所述步骤B4,其包括:
B41、主节点根据客户端发送过来的当前数据块指纹去从索引中检索,检索从索引中是否存在与客户端发送过来的当前数据块指纹相同的数据块指纹,若是,则表明当前数据块需要进行去重操作,此时执行步骤B43,反之,则执行步骤B42;
B42、为待存储的文件分配存储地址,并根据分配的地址将待存储的文件数据块存储到存储系统的数据节点上,然后更新从索引;
B43、更新从索引的用户ID,将当前数据块的用户ID添加到从索引中与当前数据块相同的数据块的用户ID上。
进一步作为优选的实施方式,所述已存储文件的数据块指纹及待存储的文件的数据块指纹均采用SHA-1哈希算法计算得到。
下面结合说明书附图和具体实施例对本发明作进一步详细说明。
实施例一
本实施例对本发明所涉及到的相关理论进行介绍。
(1)名词定义及解释
HDFS:Hadoop的核心组件之一,即Hadoop分布式文件系统,可以用来在多台普通的计算机之间搭建分布式文件存储系统。HDFS具有高容错性、高可靠性的特征。
数据指纹:通过哈希函数生长的散列值,能唯一标识生成该数据指纹的数据块,具有全局唯一性。
SHA-1算法:一个使用非常广泛的哈希算法,SHA-1的输入消息的长度小于264,输出160位长度的字符串,即散列值。
最小值理论:两个数据集合S1与S2被随机排列转换后,得到的散列值中最小的两个相等的概率等于集合S1与S2的Jaccard相似度。设H(S)代表集合S中的所有元素的散列值的集合,集合S中的最小元素为min(H(S)),则最小值理论用公式表达为:
Pr[min(H(S1))=min(H(S2))]=
本发明将使用SHA-1算法求得数据块的数据指纹,并使用最小的数据指纹作为文件特征指纹对文件进行分类,构建相似文件集合,从而在相似的文件之间进行数据块去重。
(2)HDFS的基本概念
block:数据块,HDFS的基本存储单位为64M的数据块。
NameNode:主节点,用来管理文件系统的命名空间,其将所有的文件和文件夹的元数据保存在一个文件系统树中。
DataNode:数据节点,是文件系统中真正存储数据的地方。
Client Node:客户端节点。
客户端节点或者主节点均可以向数据节点请求写入或者读出数据块。
DistributedFileSystem,,用于客户端节点向数据节点读取数据。
FSData OutputStream,用于客户端节点将数据分成块,写入数据节点。
实施例二
参照图5、6和7,本发明的第二实施例:
本发明从基于HDFS的云存储系统角度出发,设计了一种跨用户的、基于相似性的数据块级文件去重方法,来对云存储中的数据进行去重,具体的实现过程为:
(一)为已存储文件构建二级指纹索引
本发明在云存储系统中添加了一个数据指纹索引节点,该指纹索引节点,用于由已存储文件的数据块生成数据块指纹,并包括一个由主索引和从索引组成的二级指纹索引。其中,主索引为已存储文件的文件特征指纹索引与文件相似性集合地址的映射,从索引为已存储文件的数据块指纹与数据块地址、用户ID之间的映射。加入指纹索引节点的云存储系统组成模块如图5所示,而基于相似性的二级指纹索引如图6所示。
如图6所示,主索引为一个key-value键值对的数据结构,key为文件特征指纹,代表某一类文件;value为该指向类文件的相似性集合的指针,指向某一特定文件的相似性集合,即指向从索引。从索引的数据结构为相似性集合中数据块指纹与数据块地址、数据块拥有者之间的映射。其中,相似性集合与文件的类别相对应,每个相似性集合里面保存着某一特定类型文件的数据块指纹索引。对于某个数据块,其可能对应有多个用户ID,即该数据块被多个用户所共有,若某个用户删除文件时包含被共享的数据块,则其只删除该索引记录中该数据块对应的自身用户ID;只有在该数据块对应的用户ID为空(即所有用户ID均被删去)时,才可以删除该数据块。
(二)对待存储的文件进行数据去重
在NameNode发送DataNode节点地址给客户端之前,要先对待存储的文件数据块进行去重。如图7所示,对待存储的文件进行数据去重的具体实现过程为:
首先,由客户端计算需要存储的文件的文件特征指纹和每个数据块指纹,然后将文件特征指纹与每个数据块指纹发送给NameNode,由NameNode根据该文件特征指纹去主索引中检索。
若主索引中未检索到与该文件特征指纹相同的记录,则表明该文件为一新文件类型,此时即可将该文件分块存入存储系统中。同时,需要更新主索引和file-blocks的映射关系表(即文件与数据块间的映射关系表),并构建与该文件类型相同的从索引,然后将数据块存储到DataNode节点上。
若检索到主索引中已存在与该文件特征指纹相同的记录,则表明云存储系统中已有同类型的文件数据存在。这种情况下,NameNode根据客户端发送过来的每个数据块指纹去文件相似集合即(从索引)中检索。如果在从索引中查询到已存在与客户端发送过来的某个数据块指纹相同的数据块指纹,则表明该数据块是重复的,需要进行去重操作。此时需要更新从索引中的数据块拥有者字段(即用户ID),将当前数据块拥有者的ID添加到数据块拥有者字段中。
与现有技术相比,本发明具有以下优点:
(1)利用文件的相似性构建由主索引和从索引组成的二级指纹索引,然后根据构建的二级指纹索引进行数据块级的数据去重,与传统基于文件的单个索引表的数据去重方法相比,检索效率更高。
(2)基于文件的相似性进行去重,不仅可以在一个用户的同类文件中进行数据去重,而且还可以在多个用户的同类文件之间进行数据去重,实现了跨用户的数据去重,应用范围更广。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (5)

1.云存储中基于相似性的数据块级数据去重方法,其特征在于:包括:
A、在云存储系统中添加一个指纹索引节点,所述指纹索引节点用于得到已存储文件的数据块指纹并根据已存储文件的相似性构建由主索引和从索引组成的二级指纹索引,其中,主索引为文件的文件特征指纹与文件相似性集合地址的映射,从索引为文件的数据块指纹与数据块地址、用户ID之间的映射,文件特征指纹为文件的最小数据块指纹;
B、根据指纹索引节点的二级指纹索引对待存储的文件数据块进行去重;
所述云存储系统为基于HDFS的云存储服务系统;
所述步骤B,其包括:
B1、计算待存储的文件的文件特征指纹和每个数据块指纹;
B2、根据计算的文件特征指纹检索主索引,并根据检索的结果判断待存储的文件是否为新的文件类型,若是,则在执行步骤B3后执行步骤B5,反之,则在执行步骤B4后执行步骤B5;
B3、将待存储的文件分块存入存储系统中,并更新主索引及构建与待存储的文件类型相同的从索引;
B4、根据计算的数据块指纹检索从索引,并根据检索的结果更新从索引;
B5、更新元数据表,所述元数据表包括文件与数据块间的映射关系表以及数据块与数据节点间的映射关系表。
2.根据权利要求1所述的云存储中基于相似性的数据块级数据去重方法,其特征在于:所述步骤B2,其具体为:
客户端将计算的文件特征指纹与每个数据块指纹发送给主节点,由主节点根据文件特征指纹去主索引中检索,若未检索到与计算的文件特征指纹相同的记录,则表明待存储的文件为新的文件类型,此时先执行步骤B3然后执行步骤B5;若检索到已存在与计算的文件特征指纹相同的记录,则表明云存储系统中已有同类型的文件数据存在,待存储的文件为旧的文件类型,此时先执行步骤B4然后执行步骤B5。
3.根据权利要求1所述的云存储中基于相似性的数据块级数据去重方法,其特征在于:所述步骤B3,其包括:
为待存储的文件分配存储地址,并根据分配的地址将待存储的文件数据块存储到存储系统的数据节点上;
对主索引进行更新;
构建与待存储的文件类型相同的从索引。
4.根据权利要求2所述的云存储中基于相似性的数据块级数据去重方法,其特征在于:所述步骤B4,其包括:
B41、主节点根据客户端发送过来的当前数据块指纹去从索引中检索,检索从索引中是否存在与客户端发送过来的当前数据块指纹相同的数据块指纹,若是,则表明当前数据块需要进行去重操作,此时执行步骤B43,反之,则执行步骤B42;
B42、为待存储的文件分配存储地址,并根据分配的地址将待存储的文件数据块存储到存储系统的数据节点上,然后更新从索引;
B43、更新从索引的用户ID,将当前数据块的用户ID添加到从索引中与当前数据块相同的数据块的用户ID上。
5.根据权利要求1-4任一项所述的云存储中基于相似性的数据块级数据去重方法,其特征在于:所述已存储文件的数据块指纹及待存储的文件的数据块指纹均采用SHA-1哈希算法计算得到。
CN201510485989.4A 2015-08-10 2015-08-10 云存储中基于相似性的数据块级数据去重方法 Expired - Fee Related CN105069111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510485989.4A CN105069111B (zh) 2015-08-10 2015-08-10 云存储中基于相似性的数据块级数据去重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510485989.4A CN105069111B (zh) 2015-08-10 2015-08-10 云存储中基于相似性的数据块级数据去重方法

Publications (2)

Publication Number Publication Date
CN105069111A CN105069111A (zh) 2015-11-18
CN105069111B true CN105069111B (zh) 2018-09-18

Family

ID=54498481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510485989.4A Expired - Fee Related CN105069111B (zh) 2015-08-10 2015-08-10 云存储中基于相似性的数据块级数据去重方法

Country Status (1)

Country Link
CN (1) CN105069111B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302495B (zh) * 2015-11-20 2019-05-28 华为技术有限公司 数据存储方法及装置
CN105335530B (zh) * 2015-12-11 2018-10-19 上海爱数信息技术股份有限公司 一种提升大数据块重复数据删除性能的方法
CN105912268B (zh) * 2016-04-12 2020-08-28 韶关学院 一种基于自匹配特征的分布式重复数据删除方法及其装置
CN106293525B (zh) * 2016-08-05 2019-06-28 上海交通大学 一种提高缓存使用效率的方法及系统
CN107729338B (zh) * 2016-08-12 2020-09-04 中国电信股份有限公司 数据节点相似度计算方法和装置
CN107330097B (zh) * 2017-07-05 2020-11-10 郑州云海信息技术有限公司 一种分布式重删装置、数据指纹存储、读取方法及系统
CN107665241B (zh) * 2017-09-07 2020-09-29 北京京东尚科信息技术有限公司 一种实时数据多维度去重方法和装置
CN107832406B (zh) * 2017-11-03 2020-09-11 北京锐安科技有限公司 海量日志数据的去重入库方法、装置、设备及存储介质
CN109445703B (zh) * 2018-10-26 2019-10-25 黄淮学院 一种基于块级数据去重的Delta压缩存储组件
CN110149529B (zh) * 2018-11-01 2021-05-28 腾讯科技(深圳)有限公司 媒体信息的处理方法、服务器及存储介质
CN111522502B (zh) * 2019-02-01 2022-04-29 阿里巴巴集团控股有限公司 数据去重方法、装置、电子设备及计算机可读存储介质
CN110031701B (zh) * 2019-04-15 2021-05-25 杭州拓深科技有限公司 一种基于电流指纹技术的电器特征检测方法
CN110888842A (zh) * 2019-12-02 2020-03-17 中国银行股份有限公司 一种文件存储方法、文件查询方法、装置及设备
CN112929395B (zh) * 2019-12-05 2022-06-28 国际关系学院 云数据去重方法及系统
CN112583900B (zh) * 2020-12-02 2023-04-07 深圳市互盟科技股份有限公司 云计算的数据处理方法及相关产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882141A (zh) * 2009-05-08 2010-11-10 北京众志和达信息技术有限公司 一种实现重复数据数据删除的方法和系统
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
CN102831222A (zh) * 2012-08-24 2012-12-19 华中科技大学 一种基于重复数据删除的差量压缩方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9058298B2 (en) * 2009-07-16 2015-06-16 International Business Machines Corporation Integrated approach for deduplicating data in a distributed environment that involves a source and a target

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882141A (zh) * 2009-05-08 2010-11-10 北京众志和达信息技术有限公司 一种实现重复数据数据删除的方法和系统
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
CN102831222A (zh) * 2012-08-24 2012-12-19 华中科技大学 一种基于重复数据删除的差量压缩方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于相似性的分布式重复数据删除技术研究;于悦;《中国优秀硕士学位论文全文数据库信息科技辑》;20150215(第02期);摘要、正文第12-36页 *

Also Published As

Publication number Publication date
CN105069111A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN105069111B (zh) 云存储中基于相似性的数据块级数据去重方法
US10268697B2 (en) Distributed deduplication using locality sensitive hashing
US11030187B1 (en) Distributed database systems and structures
US9805079B2 (en) Executing constant time relational queries against structured and semi-structured data
CN102782643B (zh) 使用布隆过滤器的索引搜索
US9063947B2 (en) Detecting duplicative hierarchical sets of files
US7433869B2 (en) Method and apparatus for document clustering and document sketching
US11182256B2 (en) Backup item metadata including range information
US9785646B2 (en) Data file handling in a network environment and independent file server
US10366072B2 (en) De-duplication data bank
US20130339314A1 (en) Elimination of duplicate objects in storage clusters
CN106663056A (zh) 文件系统中的元数据索引搜索
CN113986873B (zh) 一种海量物联网数据模型化的处理、存储与共享方法
CN108089816B (zh) 一种基于负载均衡的查询式重复数据删除方法及装置
CN106105161A (zh) 在维持存储效率的同时向云数据存储装置备份数据
CN108804661B (zh) 一种云存储系统中基于模糊聚类的重复数据删除方法
CN102890678A (zh) 一种基于格雷编码的分布式数据布局方法及查询方法
CN103970875A (zh) 一种并行重复数据删除方法
CN111522791B (zh) 一种分布式文件重复数据删除系统及方法
CN105955675A (zh) 一种用于去中心云环境的重复数据删除系统及方法
Singhal et al. A Novel approach of data deduplication for distributed storage
Kumar et al. Differential Evolution based bucket indexed data deduplication for big data storage
Sharma et al. File-level Deduplication by using text files–Hive integration
Tolic et al. Deduplication in unstructured-data storage systems
Goel et al. A Detailed Review of Data Deduplication Approaches in the Cloud and Key Challenges

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180918

Termination date: 20200810