CN102663086A - 一种数据块索引的检索方法 - Google Patents

一种数据块索引的检索方法 Download PDF

Info

Publication number
CN102663086A
CN102663086A CN2012101009023A CN201210100902A CN102663086A CN 102663086 A CN102663086 A CN 102663086A CN 2012101009023 A CN2012101009023 A CN 2012101009023A CN 201210100902 A CN201210100902 A CN 201210100902A CN 102663086 A CN102663086 A CN 102663086A
Authority
CN
China
Prior art keywords
index record
fingerprint
bag
write
buffer queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101009023A
Other languages
English (en)
Other versions
CN102663086B (zh
Inventor
周可
王桦
宋兵强
夏德军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201210100902.3A priority Critical patent/CN102663086B/zh
Publication of CN102663086A publication Critical patent/CN102663086A/zh
Application granted granted Critical
Publication of CN102663086B publication Critical patent/CN102663086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据块索引的检索方法,本发明属于计算机数据存储和备份方法,解决现有数据块索引检索方法重复数据删除系统规模受到限制、重删率降低;或者在重复数据删除系统的规模增大的情况下,检索速度较慢的问题。本发明包括指纹检索步骤和存储新索引记录步骤,指纹检索步骤包括:布隆过滤器判断、读缓存队列判断、移动复制、写缓存队列判断、反向映射集合判断、动态标识集判断以及磁盘访问子步骤;存储新索引记录步骤又包括创建索引记录、写缓存包判断、写缓存队列判断和磁盘刷新子步骤。本发明提高了大数据量环境下重复数据删除索引检索的效率,维持了较低的内存占用,保证了重删率,具有良好的可扩展能力,可以提供大规模重复数据删除索引检索服务。

Description

一种数据块索引的检索方法
技术领域
本发明属于计算机数据存储和备份方法,具体涉及一种数据块索引的检索方法,用于删除重复数据。
背景技术
重复数据删除(Data De-duplication,DD),通过删除全局数据集合中重复的数据块,只保留其中一份,从而消除冗余数据,可以有效提高存储效率和利用率,很大程度上减少对物理存储空间的需求,减少传输过程中的网络带宽,同时它也是一种绿色存储技术,能够有效降低能耗,在存储备份领域得到极其广泛的应用。然而,在大存储容量下,特别是数据块粒度较细时,用于识别数据块的指纹数据非常庞大,不能够全部放入内存,需要利用磁盘空间存储。因此在一个重复数据删除系统中,用于检索指纹的索引系统成为影响系统性能的关键。现有的重复数据删除系统,或者是数据块过大、粒度较粗,造成重删率低下,不能有效节省存储空间;或者是索引系统磁盘访问频繁,严重影响系统整体效率。
现有数据块索引检索方法,一种是把所有的索引记录都放入内存中,但是内存空间是有限的,相对于磁盘空间来说要小很多,这就限制了整个索引系统所能检索的总的索引数量,进而限制了重复数据删除系统的规模,为了节省内存空间,往往把数据分割成较大的数据块,这又降低了重删率,见杨天明:“网络备份中重复数据删除技术研究”,华中科技大学博士学位论文,2010。另一种方法选择把索引记录存储在磁盘上,常用的索引记录则读取到内存中,各条索引记录是零散的,这大大增加了重复数据删除系统的规模,但索引记录的检索速度较慢,见Liu,Chuanyi.et al,Semantic Data De-duplication for ArchivalStorage Systems.In The Thirteenth IEEE Asia-Paciffic ComputerSystems Architecture Conference,2008.1-9。
以下对本发明中的术语进行解释:
索引系统:由写缓存队列、读缓存队列、布隆过滤器、反向映射集合、动态标识集和索引记录包组成,写缓存队列、读缓存队列、布隆过滤器、反向映射集合和动态标识集设置于计算机内存中,索引记录包存储在磁盘上,为了快速访问,部分索引记录包存储在内存中。
写缓存队列:由写缓存包组成,对写缓存的访问使用最近最少使用算法(Latest Recently Used,LRU),即最新写入的写缓存包放在队尾,最早写入的写缓存包放在队头,写缓存包用于暂存新加入的索引记录包,组织成散列表和双向队列两种形式,以写缓存包为单位写入磁盘;
读缓存队列:由读缓存包组成,对读缓存的访问使用最近最少使用算法(LRU),读缓存包用于暂存磁盘访问命中的索引记录包,组织成散列表和双向队列两种形式,以读缓存包为单位写入或读出;
布隆过滤器:一种快速判断集合中元素是否存在的概率型数据结构,可以产生准确的否认和概率性的肯定,用于快速识别新的指纹;
反向映射集合:反向映射的集合,存储在内存中,用于访问磁盘时提取指纹对应的索引记录包标识;反向映射指哈希值到索引记录包标识的映射,对每个指纹进行散列(哈希运算)后得到对应的哈希值,该哈希值要短于其对应的指纹,能够减少内存消耗,提高内存利用率;
动态标识集:存放内存中所有索引记录包的标识,用于排除不必要的磁盘访问;
索引记录包:多条索引记录的集合,每个索引纪录包都有一个标识,称为索引记录包标识;
索引记录:由指纹、索引记录包标识、数据块长度和数据块偏移组成,用于描述一个数据块;其中,索引记录包标识为索引记录包唯一标志,数据块偏移为该数据块相对所在文件文件头的位置;
指纹:用于唯一标识一个数据块的数据块标识,客户端使用分块算法对文件切分得到数据块后,使用MD5(Message-Digest Algorithm 5,信息-摘要算法5)或SHA(Secure Hash Algorithm,安全散列)系列等消息摘要算法计算出指纹;
采样率:索引记录包中的索引记录添加到反向映射集合中的概率,用于控制反向映射集合的大小;
重删率:数据在重复数据删除前和重复数据删除后的大小比;
发明内容
本发明提供一种数据块索引的检索方法,解决现有数据块索引检索方法重复数据删除系统的规模受到限制、重删率降低;或者在重复数据删除系统的规模增大的情况下,索引记录检索速度较慢的问题,以提高重复数据删除系统在大规模数据存储时的效率和扩展能力,并降低其成本。
本发明所提供的一种数据块索引的检索方法,其特征在于,包括以下步骤:
(1)指纹检索步骤:检索输入的指纹是否已存在于索引系统中,是则表明为旧指纹,向检索者返回旧指纹对应的索引记录,将旧指纹所在的索引记录包存入读缓存队列,结束;否则表明为新指纹,进行步骤(2);
(2)存储新索引记录步骤,包括以下子步骤:
(2-1)创建索引记录子步骤:为新指纹创建一条索引记录;
(2-2)写缓存包判断子步骤:判断当前写缓存包是否已满,是则进行步骤(2-3),否则将新指纹对应的索引记录写入当前写缓存包,向检索者返回新指纹对应的索引记录,结束;
(2-3)写缓存队列判断子步骤:判断写缓存队列是否已满,是则进行步骤(2-4),否则将新指纹对应的索引记录写入写缓存队列队尾写缓存包,向检索者返回新指纹对应的索引记录,结束;
(2-4)磁盘刷新子步骤:将写缓存队列中所有写缓存包写入磁盘,成为索引记录包;释放写缓存队列空间,将新指纹对应的索引记录写入写缓存队列队尾写缓存包,向检索者返回新指纹对应的索引记录,结束。
所述的检索方法,其特征在于,所述指纹检索步骤(1)包括以下子步骤:
(1-1)布隆过滤器判断子步骤:判断输入的指纹是否在布隆过滤器中,是则视为旧指纹,转子步骤(1-2);否则为新指纹,进行步骤(2);
(1-2)读缓存队列判断子步骤:判断旧指纹是否在读缓存队列中,是则转子步骤(1-3),否则转子步骤(1-4);
(1-3)移动复制子步骤:将命中的读缓存包移动到读缓存队列尾部,复制该旧指纹对应的索引记录项,向检索者返回该旧指纹对应的索引记录,结束;
(1-4)写缓存队列判断子步骤:判断旧指纹是否在写缓存队列中,是则从命中的写缓存包中复制该旧指纹对应的索引记录项,向检索者返回该旧指纹对应的索引记录,结束;否则转子步骤(1-5);
(1-5)反向映射集合判断子步骤:判断旧指纹是否在反向映射集合中,是则从反向映射集合中获得该旧指纹所在的索引记录包标识,转子步骤(1-6);否则判定为新指纹,进行步骤(2);
(1-6)动态标识集判断子步骤:判断所述索引记录包标识是否存在于动态标识集中,是则表示对应的索引记录包已在内存中,该旧指纹应为新指纹,进行步骤(2);否则转子步骤(1-7);
(1-7)磁盘访问子步骤:根据索引记录包标识,检索对应的该旧指纹是否已存在于磁盘中,是则复制该旧指纹对应的索引记录项,向检索者返回该旧指纹对应的索引记录,将旧指纹所在的索引记录包存入读缓存队列,结束;否则判定该旧指纹为新指纹,进行步骤(2)。
所述的检索方法,其特征在于,所述磁盘访问子步骤(1-7)包括以下过程:
(1-7-1)根据索引记录包标识定位磁盘索引文件,从磁盘索引文件读出索引记录包;
(1-7-2)判断旧指纹是否在索引记录包中,是则复制该旧指纹对应的索引记录项,向检索者返回该旧指纹对应的索引记录,转过程(1-7-3);否则该旧指纹应为新指纹,进行步骤(2);
(1-7-3)判断读缓存队列是否已满,是则转过程(1-7-4);否则转过程(1-7-5);
(1-7-4)将读缓存队列中第一个读缓存包写入磁盘,释放该读缓存包空间,转过程(1-7-5);
(1-7-5)将旧指纹所在的索引记录包存入读缓存队列中第一个读缓存包,再将该读缓存包移至读缓存队列队尾,结束。
所述的检索方法,其特征在于,所述创建索引记录子步骤(2-1)包括以下过程:
(2-1-1)将索引记录中的指纹添加到布隆过滤器中;
(2-1-2)将索引记录添加到写缓存队列的写缓存包中;
(2-1-3)判断采样时刻是否已到,是则转子步骤(2-1-4);否则转子步骤(2-1-5);
(2-1-4)将索引记录添加到反向映射集合中,转子步骤(2-1-5);
(2-1-5)修改索引系统元信息,索引系统元信息包括索引系统的总索引记录数目、索引系统对应的总数据量、存储在磁盘上的索引纪录包的个数及起始位置;结束。
所述的检索方法,其特征在于,所述磁盘刷新子步骤(2-4)包括以下过程:
(2-4-1)开始遍历写缓存队列;
(2-4-2)将当前写缓存包写入磁盘索引文件,成为当前索引记录包;
(2-4-3)从写缓存队列移除当前写缓存包,递减内存写缓存包计数值;
(2-4-4)从动态标识集中移除当前索引记录包标识;
(2-4-5)释放当前写缓存包占用的内存;
(2-4-6)判断写缓存队列是否遍历完,是则转子步骤(2-4-7),否则访问写缓存队列中下一个写缓存包,转子步骤(2-4-2);
(2-4-7)将新指纹对应的索引记录写入写缓存队列队尾写缓存包,向检索者返回新指纹对应的索引记录,结束。
(1)高效稳定:本发明结合了布隆过滤器,并利用反向映射集合快速定位磁盘,利用动态标识集进行局部排除,能够高效完成指纹的检索处理;在内存中分配两块同样大小的缓存空间作为写缓存队列和读缓存队列,读缓存队列和写缓存队列分别构成内存池,在写缓存队列写入时,同时可以从读缓存队列读取,加快了索引记录包的读写速度,同时避免了内存碎片,使得内存分配效率得到提升,极大提升了系统的稳定性。(2)内存占用低、可扩展性高:反向映射集合中对指纹进行第二次哈希运算和从索引记录包中挑选索引记录,并将其加入反向映射集合中以减少反向映射集合所占用的内存空间,极大降低了系统的内存占用,在数据存储容量扩张时,索引系统维持较为平稳的内存消耗,使用2~4GB的内存,可支持数十TB的独立数据存储。(3)不影响重删率:本发明考虑到数据流的局部性,即把索引记录存储为一个索引记录包,把对索引记录的处理转变为索引记录包的处理;采用索引记录打包存放和按照索引记录包整体换入换出缓存的策略,维持了较好的数据流局部性,对重删率无影响。
附图说明
图1为本发明的流程框图;
图2为指纹检索步骤的流程框图;
图3为指纹检索步骤中的磁盘访问子步骤流程框图;
图4为创建索引记录子步骤流程框图;
图5为磁盘刷新子步骤流程框图。
具体实施方式
以下结合附图对本发明进一步说明。
如图1所示,本发明包括指纹检索步骤和存储新索引记录步骤,存储新索引记录步骤又包括创建索引记录子步骤、写缓存包判断子步骤、写缓存队列判断子步骤和磁盘刷新子步骤。
如图2所示,本发明的指纹检索步骤包括:布隆过滤器判断子步骤、读缓存队列判断子步骤、移动复制子步骤、写缓存队列判断子步骤、反向映射集合判断子步骤、动态标识集判断子步骤以及磁盘访问子步骤。
如图3所示,所述磁盘访问子步骤包括以下过程:
(1-7-1)根据索引记录包标识定位磁盘索引文件,从磁盘索引文件读出索引记录包;
(1-7-2)判断旧指纹是否在索引记录包中,是则复制该旧指纹对应的索引记录项,向检索者返回该旧指纹对应的索引记录,转过程(1-7-3);否则该旧指纹应为新指纹,进行步骤(2);
(1-7-3)判断读缓存队列是否已满,是则转过程(1-7-4);否则转过程(1-7-5);
(1-7-4)将读缓存队列中第一个读缓存包写入磁盘,释放该读缓存包空间,转过程(1-7-5);
(1-7-5)将旧指纹所在的索引记录包存入读缓存队列中第一个读缓存包,再将该读缓存包移至读缓存队列队尾,结束。
如图4所示,创建索引记录子步骤包括以下过程:
(2-1-1)将索引记录中的指纹添加到布隆过滤器中;
(2-1-2)将索引记录添加到写缓存队列的写缓存包中;
(2-1-3)判断采样时刻是否已到,是则转子步骤(2-1-4);否则转子步骤(2-1-5);
(2-1-4)将索引记录添加到反向映射集合中,转子步骤(2-1-5);
(2-1-5)修改索引系统元信息,索引系统元信息包括索引系统的总索引记录数目、索引系统对应的总数据量、存储在磁盘上的索引纪录包的个数及起始位置;结束。
如图5所示,磁盘刷新子步骤包括以下过程:
(2-4-1)开始遍历写缓存队列;
(2-4-2)将当前写缓存包写入磁盘索引文件,成为当前索引记录包;
(2-4-3)从写缓存队列移除当前写缓存包,递减内存写缓存包计数值;
(2-4-4)从动态标识集中移除当前索引记录包标识;
(2-4-5)释放当前写缓存包占用的内存;
(2-4-6)判断写缓存队列是否遍历完,是则转子步骤(2-4-7),否则访问写缓存队列中下一个写缓存包,转子步骤(2-4-2);
(2-4-7)将新指纹对应的索引记录写入写缓存队列队尾写缓存包,向检索者返回新指纹对应的索引记录,结束。

Claims (5)

1.一种数据块索引的检索方法,其特征在于,包括以下步骤:
(1)指纹检索步骤:检索输入的指纹是否已存在于索引系统中,是则表明为旧指纹,向检索者返回旧指纹对应的索引记录,将旧指纹所在的索引记录包存入读缓存队列,结束;否则表明为新指纹,进行步骤(2);
(2)存储新索引记录步骤,包括以下子步骤:
(2-1)创建索引记录子步骤:为新指纹创建一条索引记录;
(2-2)写缓存包判断子步骤:判断当前写缓存包是否已满,是则进行步骤(2-3),否则将新指纹对应的索引记录写入当前写缓存包,向检索者返回新指纹对应的索引记录,结束;
(2-3)写缓存队列判断子步骤:判断写缓存队列是否已满,是则进行步骤(2-4),否则将新指纹对应的索引记录写入写缓存队列队尾写缓存包,向检索者返回新指纹对应的索引记录,结束;
(2-4)磁盘刷新子步骤:将写缓存队列中所有写缓存包写入磁盘,成为索引记录包;释放写缓存队列空间,将新指纹对应的索引记录写入写缓存队列队尾写缓存包,向检索者返回新指纹对应的索引记录,结束。
2.如权利要求1所述的检索方法,其特征在于,所述指纹检索步骤(1)包括以下子步骤:
(1-1)布隆过滤器判断子步骤:判断输入的指纹是否在布隆过滤器中,是则视为旧指纹,转子步骤(1-2);否则为新指纹,进行步骤(2);
(1-2)读缓存队列判断子步骤:判断旧指纹是否在读缓存队列中,是则转子步骤(1-3),否则转子步骤(1-4);
(1-3)移动复制子步骤:将命中的读缓存包移动到读缓存队列尾部,复制该旧指纹对应的索引记录项,向检索者返回该旧指纹对应的索引记录,结束;
(1-4)写缓存队列判断子步骤:判断旧指纹是否在写缓存队列中,是则从命中的写缓存包中复制该旧指纹对应的索引记录项,向检索者返回该旧指纹对应的索引记录,结束;否则转子步骤(1-5);
(1-5)反向映射集合判断子步骤:判断旧指纹是否在反向映射集合中,是则从反向映射集合中获得该旧指纹所在的索引记录包标识,转子步骤(1-6);否则判定为新指纹,进行步骤(2);
(1-6)动态标识集判断子步骤:判断所述索引记录包标识是否存在于动态标识集中,是则表示对应的索引记录包已在内存中,该旧指纹应为新指纹,进行步骤(2);否则转子步骤(1-7);
(1-7)磁盘访问子步骤:根据索引记录包标识,检索对应的该旧指纹是否已存在于磁盘中,是则复制该旧指纹对应的索引记录项,向检索者返回该旧指纹对应的索引记录,将旧指纹所在的索引记录包存入读缓存队列,结束;否则判定该旧指纹为新指纹,进行步骤(2)。
3.如权利要求2所述的检索方法,其特征在于,所述磁盘访问子步骤(1-7)包括以下过程:
(1-7-1)根据索引记录包标识定位磁盘索引文件,从磁盘索引文件读出索引记录包;
(1-7-2)判断旧指纹是否在索引记录包中,是则复制该旧指纹对应的索引记录项,向检索者返回该旧指纹对应的索引记录,转过程(1-7-3);否则该旧指纹应为新指纹,进行步骤(2);
(1-7-3)判断读缓存队列是否已满,是则转过程(1-7-4);否则转过程(1-7-5);
(1-7-4)将读缓存队列中第一个读缓存包写入磁盘,释放该读缓存包空间,转过程(1-7-5);
(1-7-5)将旧指纹所在的索引记录包存入读缓存队列中第一个读缓存包,再将该读缓存包移至读缓存队列队尾,结束。
4.如权利要求1所述的检索方法,其特征在于,所述创建索引记录子步骤(2-1)包括以下过程:
(2-1-1)将索引记录中的指纹添加到布隆过滤器中;
(2-1-2)将索引记录添加到写缓存队列的写缓存包中;
(2-1-3)判断采样时刻是否已到,是则转子步骤(2-1-4);否则转子步骤(2-1-5);
(2-1-4)将索引记录添加到反向映射集合中,转子步骤(2-1-5);
(2-1-5)修改索引系统元信息,索引系统元信息包括索引系统的总索引记录数目、索引系统对应的总数据量、存储在磁盘上的索引纪录包的个数及起始位置;结束。
5.如权利要求1所述的检索方法,其特征在于,所述磁盘刷新子步骤(2-4)包括以下过程:
(2-4-1)开始遍历写缓存队列;
(2-4-2)将当前写缓存包写入磁盘索引文件,成为当前索引记录包;
(2-4-3)从写缓存队列移除当前写缓存包,递减内存写缓存包计数值;
(2-4-4)从动态标识集中移除当前索引记录包标识;
(2-4-5)释放当前写缓存包占用的内存;
(2-4-6)判断写缓存队列是否遍历完,是则转子步骤(2-4-7),否则访问写缓存队列中下一个写缓存包,转子步骤(2-4-2);
(2-4-7)将新指纹对应的索引记录写入写缓存队列队尾写缓存包,向检索者返回新指纹对应的索引记录,结束。
CN201210100902.3A 2012-04-09 2012-04-09 一种数据块索引的检索方法 Active CN102663086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210100902.3A CN102663086B (zh) 2012-04-09 2012-04-09 一种数据块索引的检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210100902.3A CN102663086B (zh) 2012-04-09 2012-04-09 一种数据块索引的检索方法

Publications (2)

Publication Number Publication Date
CN102663086A true CN102663086A (zh) 2012-09-12
CN102663086B CN102663086B (zh) 2014-05-07

Family

ID=46772577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210100902.3A Active CN102663086B (zh) 2012-04-09 2012-04-09 一种数据块索引的检索方法

Country Status (1)

Country Link
CN (1) CN102663086B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915278A (zh) * 2012-09-19 2013-02-06 浪潮(北京)电子信息产业有限公司 重复数据删除方法
CN102982122A (zh) * 2012-11-13 2013-03-20 浪潮电子信息产业股份有限公司 一种适用于海量存储系统的重复数据删除方法
CN105786651A (zh) * 2016-02-29 2016-07-20 北京航空航天大学 一种面向备份任务的重复数据删除方法
CN105897921A (zh) * 2016-05-27 2016-08-24 重庆大学 一种结合指纹抽样和减少数据碎片的数据块路由方法
CN106575307A (zh) * 2014-08-21 2017-04-19 卓普网盘股份有限公司 具有用于个人搜索的方法的多用户搜索系统
CN106648457A (zh) * 2016-09-27 2017-05-10 华为数字技术(成都)有限公司 更新反向映射元数据的方法及装置
CN106776811A (zh) * 2016-11-23 2017-05-31 李天� 数据索引方法及装置
CN107038092A (zh) * 2017-04-17 2017-08-11 杭州宏杉科技股份有限公司 一种数据复制方法及装置
CN107515931A (zh) * 2017-08-28 2017-12-26 华中科技大学 一种基于聚类的重复数据检测方法
CN108446399A (zh) * 2018-03-29 2018-08-24 重庆大学 一种结构化海量实时数据的动态存储优化方法
CN109002400A (zh) * 2018-06-01 2018-12-14 暨南大学 一种内容感知型计算机缓存管理系统及方法
CN109739660A (zh) * 2018-12-24 2019-05-10 新华三技术有限公司合肥分公司 异常消息处理方法及装置
CN110569245A (zh) * 2019-09-10 2019-12-13 天津理工大学 重复数据删除系统中基于强化学习的指纹索引预取方法
CN111143343A (zh) * 2019-12-27 2020-05-12 南京壹进制信息科技有限公司 一种基于源端重删的数据高效删除方法及系统
CN112181617A (zh) * 2020-09-17 2021-01-05 东北大学 一种基于特定索引结构的高效调度算法
CN112748866A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种增量索引数据的处理方法和装置
CN113163346A (zh) * 2021-04-21 2021-07-23 成都锐成芯微科技股份有限公司 广播数据包过滤方法和无线通信系统
CN113688142A (zh) * 2021-10-25 2021-11-23 北京金山云网络技术有限公司 索引管理方法、装置、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1874490A (zh) * 2006-06-30 2006-12-06 华中科技大学 一种用于对等网络视频点播系统的磁盘缓存方法
US20110225191A1 (en) * 2010-03-10 2011-09-15 Data Domain, Inc. Index searching using a bloom filter
US20110276744A1 (en) * 2010-05-05 2011-11-10 Microsoft Corporation Flash memory cache including for use with persistent key-value store
CN102253820A (zh) * 2011-06-16 2011-11-23 华中科技大学 一种流式重复数据检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1874490A (zh) * 2006-06-30 2006-12-06 华中科技大学 一种用于对等网络视频点播系统的磁盘缓存方法
US20110225191A1 (en) * 2010-03-10 2011-09-15 Data Domain, Inc. Index searching using a bloom filter
US20110276744A1 (en) * 2010-05-05 2011-11-10 Microsoft Corporation Flash memory cache including for use with persistent key-value store
CN102253820A (zh) * 2011-06-16 2011-11-23 华中科技大学 一种流式重复数据检测方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915278A (zh) * 2012-09-19 2013-02-06 浪潮(北京)电子信息产业有限公司 重复数据删除方法
CN102982122A (zh) * 2012-11-13 2013-03-20 浪潮电子信息产业股份有限公司 一种适用于海量存储系统的重复数据删除方法
CN106575307A (zh) * 2014-08-21 2017-04-19 卓普网盘股份有限公司 具有用于个人搜索的方法的多用户搜索系统
CN105786651B (zh) * 2016-02-29 2018-12-04 北京航空航天大学 一种面向备份任务的重复数据删除方法
CN105786651A (zh) * 2016-02-29 2016-07-20 北京航空航天大学 一种面向备份任务的重复数据删除方法
CN105897921A (zh) * 2016-05-27 2016-08-24 重庆大学 一种结合指纹抽样和减少数据碎片的数据块路由方法
CN105897921B (zh) * 2016-05-27 2019-02-26 重庆大学 一种结合指纹抽样和减少数据碎片的数据块路由方法
CN106648457A (zh) * 2016-09-27 2017-05-10 华为数字技术(成都)有限公司 更新反向映射元数据的方法及装置
CN106648457B (zh) * 2016-09-27 2019-09-03 华为数字技术(成都)有限公司 更新反向映射元数据的方法及装置
CN106776811A (zh) * 2016-11-23 2017-05-31 李天� 数据索引方法及装置
CN107038092A (zh) * 2017-04-17 2017-08-11 杭州宏杉科技股份有限公司 一种数据复制方法及装置
CN107038092B (zh) * 2017-04-17 2020-03-10 杭州宏杉科技股份有限公司 一种数据复制方法及装置
CN107515931B (zh) * 2017-08-28 2023-04-25 华中科技大学 一种基于聚类的重复数据检测方法
CN107515931A (zh) * 2017-08-28 2017-12-26 华中科技大学 一种基于聚类的重复数据检测方法
CN108446399B (zh) * 2018-03-29 2021-07-30 重庆大学 一种结构化海量实时数据的动态存储优化方法
CN108446399A (zh) * 2018-03-29 2018-08-24 重庆大学 一种结构化海量实时数据的动态存储优化方法
CN109002400A (zh) * 2018-06-01 2018-12-14 暨南大学 一种内容感知型计算机缓存管理系统及方法
CN109739660A (zh) * 2018-12-24 2019-05-10 新华三技术有限公司合肥分公司 异常消息处理方法及装置
CN109739660B (zh) * 2018-12-24 2020-10-16 新华三技术有限公司合肥分公司 异常消息处理方法及装置
CN110569245A (zh) * 2019-09-10 2019-12-13 天津理工大学 重复数据删除系统中基于强化学习的指纹索引预取方法
CN112748866A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种增量索引数据的处理方法和装置
CN111143343A (zh) * 2019-12-27 2020-05-12 南京壹进制信息科技有限公司 一种基于源端重删的数据高效删除方法及系统
CN111143343B (zh) * 2019-12-27 2023-12-15 航天壹进制(江苏)信息科技有限公司 一种基于源端重删的数据高效删除方法及系统
CN112181617A (zh) * 2020-09-17 2021-01-05 东北大学 一种基于特定索引结构的高效调度算法
CN112181617B (zh) * 2020-09-17 2024-05-17 东北大学 一种基于特定索引结构的高效调度算法
CN113163346A (zh) * 2021-04-21 2021-07-23 成都锐成芯微科技股份有限公司 广播数据包过滤方法和无线通信系统
CN113688142A (zh) * 2021-10-25 2021-11-23 北京金山云网络技术有限公司 索引管理方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN102663086B (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN102663086B (zh) 一种数据块索引的检索方法
CN102364474B (zh) 用于机群文件系统的元数据存储系统和管理方法
CN102222085B (zh) 一种基于相似性与局部性结合的重复数据删除方法
CN110825748B (zh) 利用差异化索引机制的高性能和易扩展的键值存储方法
US8271462B2 (en) Method for creating a index of the data blocks
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN100498740C (zh) 一种数据缓存处理方法、系统及数据缓存装置
CN104346357B (zh) 一种嵌入式终端的文件存取方法及系统
CN102541983B (zh) 一种分布式文件系统中多客户端缓存同步的方法
CN106708427A (zh) 一种适用于键值对数据的存储方法
CN104699416B (zh) 一种数据存储系统以及一种数据存储方法
WO2012174888A1 (zh) 一种分布式缓存系统中的数据写入及读取方法及装置
CN107463447A (zh) 一种基于远程直接非易失内存访问的b+树管理方法
CN106844555A (zh) 一种用于电网wams系统的时序数据存储方法
CN107015763A (zh) 混合存储系统中ssd管理方法及装置
EP2765522B1 (en) Method and device for data pre-heating
CN102779138B (zh) 实时数据的硬盘存取方法
CN103139300A (zh) 一种基于重复数据删除的虚拟机镜像管理的优化方法
CN113821171B (zh) 一种基于哈希表与lsm树的键值存储方法
CN110888886A (zh) 一种索引结构及构建方法、键值存储系统及请求处理方法
CN104699424A (zh) 一种基于页面热度的异构内存管理方法
CN103383690A (zh) 分布式数据存储方法及系统
CN102467458B (zh) 建立数据区块的索引方法
CN101620618A (zh) 内存存储数据的维护方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant