CN103473150A - 一种用于数据去重系统中的碎片重写方法 - Google Patents

一种用于数据去重系统中的碎片重写方法 Download PDF

Info

Publication number
CN103473150A
CN103473150A CN2013103832043A CN201310383204A CN103473150A CN 103473150 A CN103473150 A CN 103473150A CN 2013103832043 A CN2013103832043 A CN 2013103832043A CN 201310383204 A CN201310383204 A CN 201310383204A CN 103473150 A CN103473150 A CN 103473150A
Authority
CN
China
Prior art keywords
data
fragment
container
rewriting
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103832043A
Other languages
English (en)
Other versions
CN103473150B (zh
Inventor
刘景宁
冯丹
周鹏举
许蔚
付忞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201310383204.3A priority Critical patent/CN103473150B/zh
Publication of CN103473150A publication Critical patent/CN103473150A/zh
Application granted granted Critical
Publication of CN103473150B publication Critical patent/CN103473150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于数据去重系统的碎片重写方法,其在数据去重中增加一个缓存作为重写感知缓存,该重写感知缓存中的数据项为数据块所引用的容器标识(Container ID),对判定为数据碎片的数据块,如果其引用的容器标识(Container ID)已存储在该重写感知缓存中,则此数据无需重写,否则重写该数据碎片。本发明的方法是在数据去重的过程中增加了一个与数据读时同样大小且缓存策略相同的缓存,避免了不必要的重复数据块的重写,克服了现有算法存在的缺陷。相比与现有的去碎片算法,一是改善了因数据碎片对读性能造成的影响,通过重写数据碎片来提高读性能;二是在提高读性能的同时保证了更少的去重率损失。

Description

一种用于数据去重系统中的碎片重写方法
技术领域
本发明属于计算机信息存储领域,具体涉及一种基于数据去重技术系统的碎片重写方法。
背景技术
数据去重技术(重复数据删除技术)作为一种能够识别和消除冗余数据、只存储单一副本数据的缩减技术,在备份存储系统、归档存储系统、甚至文件系统中都具有广泛应用。例如,使用数据去重技术在备份存储系统、归档存储系统中可以消除80%~90%的冗余数据,在虚拟机备份中可消除高达80%的冗余数据,在文件系统中可以节省3/4的文件空间开销以及87%的备份镜像开销。
然而,在基于数据去重的系统中,后续存储的文件的数据块共享之前存储的文件的数据块,从而数据块被分散而非连续地存储在磁盘上,形成大量的分散存储碎片,对系统的读性能造成重大影响。随着存储文件的数量的增加,后续文件的数据碎片化趋于严重,从而读性能也逐渐下降。在读数据时,尽管增大读缓存大小可以相对提高读性能,但提高的程度有限,增大读缓存大小不能从根本上解决问题。比如在基于数据去重技术的备份系统中最后存储的文件(版本)的数据读(恢复)性能比第一个文件(版本)降低了约10倍甚至更多,这将严重影响系统的可用性,尤其在灾难恢复的时候。由数据去重引起的数据碎片不像磁盘碎片可以通过后台整理而重新保证数据的连续性。因数据块之间存在共享,重新迁移数据块将涉及到索引更新等更复杂的问题,所以数据去重系统中的读性能是一个急需解决的问题。
现有一些碎片重写算法,通过在数据去重的过程中重写一定的数据碎片来解决数据的读性能问题。例如,CFL(Chunk FragmentationLevel)算法通过判定相邻数据块的大小之和与一个容器(Container:一个在内存中的缓存,作为磁盘读写的一种单位)的比值,如果小于一定的阀值则重写;CBR(Context-based rewriting)算法通过比较固定长度的数据流内容(比如5MB)与其对应固定长度的磁盘内容的相似性,如果其比值小于一定的阀值则重写,一般是重写碎片数据总量的5%。Capping是一个相对简单的策略,对每固定长度的数据流选择固定大小的Container个数,对其中引用Container次数最少的数据块进行重写。
以上三种碎片重写算法都是通过重写数据碎片并牺牲一定的去重率来提高读性能,但是它们共同的缺陷是:没有考虑读缓存对碎片的影响,重写已被预取到读缓存的数据碎片会同时降低读性能和去重率。
发明内容
本发明的目的在于针对现有技术的以上缺陷或改进需求,提出一种优化的碎片重写方法,其对判定出为碎片的数据块进行选择性重写,由此减少不必要的碎片数据的重写,解决目前数据去重系统中存在的碎片大量重写而带来的去重率降低与读性能降低的技术问题,相比与现有的碎片重写算法,具有更高的读性能和去重率。
为实现本发明目的,按照本发明的一个方面,提供一种用于数据去重系统的碎片重写方法,其特征在于,在数据去重中增加一个缓存作为重写感知缓存,该重写感知缓存中的数据项为数据块所引用的容器标识(Container ID),对判定为数据碎片的数据块,如果其引用的容器标识(Container ID)已存储在该重写感知缓存中,则此数据无需重写,否则重写该数据碎片。
作为本发明的进一步优选,所述的重写感知缓存为与读数据或恢复数据时同样大小且采用相同缓存策略的缓存。其中,所述大小是指缓存项的数量,而不是内存空间开销。
作为本发明的进一步优选,所述的重写感知缓存和读(恢复)数据缓存为LRU替换策略的缓存。
作为本发明的进一步优选,该增加的缓存为模拟恢复缓存行为的缓存。
按照本发明的另一个方面,提供一种用于数据去重系统的碎片重写方法,通过增加一个用于存储数据块引用的容器标识(Container ID)的重写感知缓存,来实现高性能数据重写,其特征在于,该方法包括如下步骤:
(1)对新来的数据块进行去重判断,如果不是重复数据,则存储此数据块,否则执行步骤(2);
(2)判断当前数据块是否为一个数据碎片,如果不是则不用重写,否则执行步骤(3);
(3)判断当前数据碎片是否应当重写,即如果当前数据碎片引用的容器标识(Container ID)存储在该重写感知缓存中,则不用重写,否则将当前数据碎片作为新数据重写。
作为本发明的进一步优选,所述的重写感知缓存为与读数据或恢复数据时同样大小且相同缓存策略的缓存,大小是指缓存项的个数。
作为本发明的进一步优选,所述的重写感知缓存和读数据或恢复数据缓存为LRU缓存。
作为本发明的进一步优选,所述判断当前数据块是否为一个数据碎片优选可以采用CFL算法、CBR算法或Capping算法实现。
按照本发明的又一个方面,提供一种用于数据去重系统的碎片重写方法,其基于CFL算法进行数据碎片判断并对该所述数据碎片进行选择性重写,从而实现高性能的碎片重写,其特征在于,该方法具体包括:
(1)对新来的数据块,首先检查是否是重复数据块,也就是看是否存在于DDFS-like指纹库中,如果不存在则直接作为新数据块写入Container,然后处理下一个数据块,否则转为步骤(2);
(2)对于重复的数据块,监控器判断当前CFL值,如果CFL值小于第一阈值(LWM)则转入步骤(4),如果大于第二阈值(HWM)则转入步骤(3),否则采用之前的去重方法转入相应的步骤(3)或(4);
(3)采用一般去重方法进行去重,即数据块不被存储,仅存储相应的数据块指纹,然后转入步骤(1);
(4)采用选择性去重方法进行去重,即判断当前数据块所引用的容器标识(Container ID)与用于暂存重复数据块的临时容器中的数据块是否有相同的容器标识(Container ID),如果是则暂时保存此数据块到临时容器中,转入步骤(1),否则转入步骤(5);
(5)判断当前临时容器的中所有数据块大小之和与一个容器(Container)大小的比值,如果比值不小于重写阈值,则不需要重写,清除临时容器中的所有数据,转入步骤(1),如果比值小于该重写阈值,即作为数据碎片,转入步骤(6);
(6)判断数据块是否在重写感知缓存队列中,如果存在则不需要重写,更新CFL值和重写感知缓存队列,转入步骤(1),否则转入步骤(7);
(7)重写临时容器中的所有数据块,更新CFL值和重写感知缓存队列,使最新的容器标识进入该重写感知缓存队列。
本发明方法根据实际应用环境中数据的写顺序与数据的读顺序是一致的特性而提出,在数据去重过程中模拟一个与读数据时同样大小的缓存,对判定为数据碎片的数据块,进一步判断数据碎片是否在CAR缓存中,重写那些在CAR缓存中未命中的数据碎片,避免重写那些在CAR缓存中已命中的数据碎片。
总体而言,现有的方法在数据去重过程中对重复的数据块进行判断,如果在一定范围的数据流中有很少的数据块引用已存储的数据块,就判定这些数据块为数据碎片,进而重写这些数据碎片。重写数据块,意味着存储系统中一个数据块可能对应2个或更多的副本,但是,在一个利用缓存读数据的环境下,这些重写的数据碎片可能已经被预取到缓存中了,重写这些数据碎片不仅没有相应的提高读性能,反而降低了读性能,因为这些数据碎片还要从磁盘上读取。另外,重写更多的数据碎片意味着降低更多的去重率。本发明的方法中在数据去重的过程中增加了一个与数据读时同样大小的LRU缓存,避免了不必要的重复数据块的重写,克服了现有算法存在的缺陷。相比与现有的去碎片算法,一是改善了因数据碎片对读性能造成的影响,通过重写数据碎片来提高读或恢复性能;二是避免了很多数据碎片的不必要重写,减少了数据碎片重写的数量,在提高读性能的同时保证了更少的去重率损失,提高了写吞吐率。
附图说明
图1为本发明方法示意图;
图2为本发明实施例的示意图;
图3为本发明实施例的方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。此处说明若涉及到具体实例时仅仅用以解释本发明,并不限定本发明。
本发明的方法可应用于基于数据去重技术的备份存储系统、归档存储系统和文件系统等应用数据去重技术的系统中。为了描述方便,本实施例中优选以应用数据去重技术的备份存储系统对本发明的方法进行描述,但本发明中的方法并不限定于上述备份存储系统中,也适用于诸如归档存储系统、文件系统等具有数据的写顺序与读顺序具有一致性的系统和方法中。
实际应用环境中,基于数据去重技术的备份系统有如下特征,底层采用容器(Container)存储,默认为4MB大小,可以根据实际需要配置。一个典型的备份过程是,首先对一个数据流或文件通过Rabin指纹分块,按照一定的安全哈希摘要算法(MD5,SHA1等)对每个数据块计算出一个信息摘要(指纹);然后在指纹库中进行查找,如果存在,说明是重复数据,则保存其指针引用;如果不存在则说明是新数据,将数据块写入一个事先生成的Container中(如果没有则创建),如果Container满,则写入磁盘,再创建一个新的Container进行存储,最后保存文件的元数据信息(包括属性信息,文件指纹序列);对于每个新数据块,都要在指纹库(存储所有唯一的指纹)中添加其数据块指纹信息。恢复时采用LRU缓存替换策略,缓存的数据项是Container。首先读取文件属性数据信息,按序读取指纹序列,根据指纹在LRU缓存中查找,如果没有命中,则从指纹库中读取相应的Container ID,并把相应的Container从磁盘读到LRU缓存,如果缓存满则替换;如果命中,则直接从缓存中读取。由于内存的读取速度远远大于磁盘速度,所以从磁盘读取Container的次数对恢复性能占主导因素。由于备份是恢复的逆过程,数据的写与读顺序是一致的,在备份过程中,重写一些数据碎片可以相应提高恢复性能,然而从数据恢复的角度考虑,一个被判定为数据碎片的数据块,如果已经存在于恢复时的LRU缓存中,则能够在缓存中命中,而不需要重新加载一个新的Container。一方面,如果重写这些已经在LRU缓存中命中的数据块,降低了去重率,因为重写了更多的重复数据块;另一方面,它没有提高恢复性能反而降低了恢复性能,因为重写这些重复数据块,需要存储于更多的Container中,导致恢复时需要读取更多的Container,也就是需要更多的磁盘IO,使恢复时的LRU命中率下降。
本发明的方法在备份过程中采用一个与恢复时同样缓存策略的且大小相同的重写感知缓存,大小是指缓存项的个数,优选LRU缓存,此处的感知LRU缓存不同于恢复时的LRU缓存,它仅仅缓存ContainerID而不是整个Container,几乎没有内存开销。对于判定为重复数据的数据块如果其引用的Container ID在感知缓存(CAR缓存)中,即此数据块命中,则此数据不需要重写,否则需要重写。
图1为本发明实施的示意图,其具体过程如下:
(1)首先对新来的数据块进行去重判断,如果不是重复数据,则存储此数据块,否则执行步骤(2);
(2)判断当前数据块是否为一个数据碎片,如果不是则不用重写,否则执行步骤(3)。其中,判断数据碎片的过程可以利用现有的碎片重写算法进行,例如CFL、CBR或Capping等等。
(3)判断当前数据碎片是否应当重写,如果当前数据块已经在CAR缓存中,则不用重写,否则把当前数据块作为新数据重写。
图2为本发明以CFL算法为基础的碎片重写方法的具体实施例的示意图。该实施例中优选采用类似DDFS(Data Domain File System系统中采用的一种以容器为单位进行读写磁盘的存储方式)--DDFS-like存储所有的唯一指纹,对新来的数据块进行去重判断。
采用CAR缓存方法的监控器(称为CARCFL监控器)会监控当前CFL值进而选择一般去重方法或选择性去重方法来处理当前的数据块。其中CFL=备份数据总大小/Container大小(比如4MB)/恢复数据时需要从磁盘读取的Container数量,CFL用于衡量一定的恢复性能,CFL=1,表示恢复性能与第一个版本一样,而第一个版本数据顺序存储,具有最好的读取性能。CFL值越小,恢复性能越低,CFL=0意味着其恢复性能接近0,CFL取值在0~1之间。CAR策略使用LWM(Low WaterMark)和HWM(High Water Mark)作为切换去重方法的阀值,上述阈值可以根据实际需要事先设定。系统初始条件下,CFL=LWM,采用一般去重方法,随着备份的进行与CFL的更新,对CFL进行判断,如果当前的CFL值小于LWM,则CAR监控器选择选用选择性去重方法方式处理后续的数据块;如果当前的CFL值大于HWM,则选择一般去重方式处理后续的数据块,否则继续采用之前的去重方法,即不进行去重方法切换,之前如果是一般去重方法,则继续采用一般去重方法,如果是选择性去重方法,则继续采用该选择性去重方法。
选择性去重方法主要用于重写数据碎片,是提升恢复性能的主要因素。首先把判断为重复数据的数据块存入一个临时Container中,作为候选的数据块,如果下一个数据块与此数据块引用相同的Container ID,则也存入此临时Container中,继续处理直到遇到一个引用不同Container ID的数据块,此时判断临时Container中所有数据块大小之和与一个Container大小(比如4MB)的比例,如果小于一定重写阀值(用P%表示),则重写这个临时Container中的所有数据(写入新Container),否则就不必要重写。该阀值P%可以根据实际需要进行具体选择,P取值范围为1~100,取值越小表示重写的数据越少,对去重率的影响也越小,一般优选取值为5左右。
一般去重方法是不必判断数据碎片以及是否重写,仅对于新数据块需要存储,对于重复数据块就不需要存储。
使用选择性去重方法重会提高CFL值,使用一般去重方法会降低CFL值,所以需要CARCFL监控器根据CFL值来选择去重方法,保证CFL值在一定的范围。
临时Container与新Container是内存中具有与Container同样大小的缓存,用来缓存数据块。临时Container用来临时保存经选择性去重方法处理后的的数据块,新Container存储新的数据块以及被重写的数据块,如果满则写入磁盘。
底层存储模型采用Container为单位进行读写,每个Container大小默认4MB,可自由配置。
图3为CFL算法基础上的碎片重写方法的流程示意图,其具体处理过程如下所示:
(1)对新来的数据块,首先检查是否是重复数据块,也就是看是否存在于DDFS-like指纹库中,如果不存在则直接作为新数据块写入Container,然后处理下一个数据块,否则转为步骤(2);
(2)对于重复的数据块,监控器判断当前CFL值,如果CFL值小于第一阈值(LWM)则转入步骤(4),如果大于第二阈值(HWM)则转入步骤(3),否则采用之前的去重方法转入相应的步骤(3)或(4);
(3)采用一般去重方法进行去重,即数据块不被存储,仅存储相应的数据块指纹,然后转入步骤(1);
(4)采用选择性去重方法进行去重,即判断当前数据块所引用的容器标识(Container ID)与用于暂存重复数据块的临时容器中的数据块是否有相同的容器标识(Container ID),如果是则暂时保存此数据块到临时容器中,转入步骤(1),否则转入步骤(5);
(5)判断当前临时容器的中所有数据块大小之和与一个容器(Container)大小的比值,如果比值不小于重写阈值,则不需要重写,清除临时容器中的所有数据,转入步骤(1),如果比值小于该重写阈值,即作为数据碎片,转入步骤(6);
(6)判断数据块是否在重写感知缓存队列中,如果存在则不需要重写,更新CFL值和重写感知缓存队列,转入步骤(1),否则转入步骤(7);
(7)重写临时容器中的所有数据块,更新CFL值和重写感知缓存队列,使最新的容器标识进入该重写感知缓存队列。
本领域的技术人员容易理解,以上所述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于数据去重系统的碎片重写方法,其特征在于,在数据去重过程中增加一个缓存作为重写感知缓存,该重写感知缓存中的数据项为数据块所引用的容器标识(Container ID),对判定为数据碎片的数据块,如果其引用的容器标识(Container ID)已存储在该重写感知缓存中,则此数据无需重写,否则重写该数据碎片。
2.根据权利要求1所述的一种用于数据去重系统的碎片重写方法,其特征在于,所述的重写感知缓存为与读数据或恢复数据时同样大小且相同缓存策略的缓存,其中所述大小是指缓存项的个数。
3.根据权利要求1或2所述的一种用于数据去重系统的碎片重写方法,其特征在于,所述的重写感知缓存为采用LRU替换策略的缓存。
4.一种用于数据去重系统的碎片重写方法,通过增加一个用于存储数据块引用的容器标识(Container ID)的缓存作为重写感知缓存,来实现高性能数据重写,其特征在于,该方法包括如下步骤:
(1)对新来的数据块进行去重判断,如果不是重复数据,则存储此数据块,否则执行步骤(2);
(2)判断当前数据块是否为一个数据碎片,如果不是则不用重写,否则执行步骤(3);
(3)判断当前数据碎片是否应当重写,即如果当前数据碎片引用的容器标识(Container ID)存储在该重写感知缓存中,则不用重写,否则将当前数据碎片作为新数据重写。
5.根据权利要求4所述的一种用于数据去重系统的碎片重写方法,其特征在于,所述的重写感知缓存为与读数据或恢复数据时同样大小且同样缓存策略的缓存,其中所述大小是指缓存项的个数。
6.根据权利要求4或5所述的一种用于数据去重系统的碎片重写方法,其特征在于,所述的重写感知缓存为LRU缓存。
7.根据权利要求4-6中任一项所述的一种用于数据去重系统的碎片重写方法,其特征在于,所述判断当前数据块是否为一个数据碎片优选可以采用CFL算法、CBR算法或Capping算法实现。
8.一种用于数据去重系统的碎片重写方法,其基于CFL算法进行数据碎片判断并对该所述数据碎片进行选择性重写,从而实现高性能的碎片重写,其特征在于,该方法具体包括:
(1)对新来的数据块,首先检查是否是重复数据块,如果不存在则直接作为新数据块写入Container,然后处理下一个数据块,否则转为步骤(2);
(2)对于重复的数据块,判断当前CFL值,如果CFL值小于第一阈值(LWM)则转入步骤(4),如果大于第二阈值(HWM)则转入步骤(3);
(3)采用一般去重方法进行去重,即数据块不被存储,仅存储相应的数据块指纹,然后转入步骤(1);
(4)采用选择性去重方法进行去重,即判断当前数据块所引用的容器标识(Container ID)与用于暂存重复数据块的临时容器中的数据块是否有相同的容器标识(Container ID),如果是则暂时保存此数据块到临时容器中,转入步骤(1),否则转入步骤(5);
(5)判断当前临时容器的中所有数据块大小之和与一个容器(Container)大小的比值,如果比值不小于重写阈值,则不需要重写,清除临时容器中的所有数据,转入步骤(1),如果比值小于该重写阈值,即作为数据碎片,转入步骤(6);
(6)判断数据块是否在重写感知缓存队列中,如果存在则不需要重写,更新CFL值和重写感知缓存队列,转入步骤(1),否则转入步骤(7);
(7)重写临时容器中的所有数据块,更新CFL值和重写感知缓存队列,使最新的容器标识进入该重写感知缓存队列。
CN201310383204.3A 2013-08-28 2013-08-28 一种用于数据去重系统中的碎片重写方法 Active CN103473150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310383204.3A CN103473150B (zh) 2013-08-28 2013-08-28 一种用于数据去重系统中的碎片重写方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310383204.3A CN103473150B (zh) 2013-08-28 2013-08-28 一种用于数据去重系统中的碎片重写方法

Publications (2)

Publication Number Publication Date
CN103473150A true CN103473150A (zh) 2013-12-25
CN103473150B CN103473150B (zh) 2016-08-31

Family

ID=49798016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310383204.3A Active CN103473150B (zh) 2013-08-28 2013-08-28 一种用于数据去重系统中的碎片重写方法

Country Status (1)

Country Link
CN (1) CN103473150B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885859A (zh) * 2014-03-12 2014-06-25 华中科技大学 一种基于全局统计的去碎片方法及系统
CN106066818A (zh) * 2016-05-25 2016-11-02 重庆大学 一种提高重复数据删除备份系统恢复性能的数据布局方法
CN106293525A (zh) * 2016-08-05 2017-01-04 上海交通大学 一种提高缓存使用效率的方法及系统
CN106503051A (zh) * 2016-09-23 2017-03-15 暨南大学 一种基于元数据分类的贪婪预取型数据恢复系统及恢复方法
CN106662981A (zh) * 2014-06-27 2017-05-10 日本电气株式会社 存储设备、程序和信息处理方法
CN104050103B (zh) * 2014-06-06 2017-07-18 华中科技大学 一种用于数据恢复的缓存替换方法与系统
CN107193498A (zh) * 2017-05-25 2017-09-22 山东浪潮商用系统有限公司 一种对数据进行去重复处理的方法及装置
CN108984338A (zh) * 2018-06-01 2018-12-11 暨南大学 一种面向去重备份系统数据恢复的离线最优缓存替换装置及方法
CN109002400A (zh) * 2018-06-01 2018-12-14 暨南大学 一种内容感知型计算机缓存管理系统及方法
CN109271353A (zh) * 2018-09-06 2019-01-25 华中科技大学 一种在数据去重过程中选择性重写自引用块方法及系统
CN109299183A (zh) * 2018-11-20 2019-02-01 北京锐安科技有限公司 一种数据处理方法、装置、终端设备和存储介质
CN109408288A (zh) * 2018-09-29 2019-03-01 华中科技大学 一种打包文件备份过程中数据去重碎片消除方法
CN109937411A (zh) * 2017-08-25 2019-06-25 华为技术有限公司 将接收的数据块存储为去重数据块的装置和方法
CN110083487A (zh) * 2019-04-08 2019-08-02 湖北工业大学 一种基于数据局部性的引用数据块碎片消除方法及系统
CN111796969A (zh) * 2020-05-29 2020-10-20 湖北工业大学 一种数据差量压缩检测方法、计算机设备和存储介质
CN111858574A (zh) * 2020-07-30 2020-10-30 暨南大学 一种面向数据去重技术的近似最优数据碎片块重写方法
CN111984604A (zh) * 2020-08-13 2020-11-24 华中科技大学 一种减少日志结构文件系统碎片的方法及闪存存储系统
WO2023050856A1 (zh) * 2021-09-28 2023-04-06 华为技术有限公司 数据处理方法及存储系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110289281A1 (en) * 2010-05-24 2011-11-24 Quantum Corporation Policy Based Data Retrieval Performance for Deduplicated Data
CN102541751A (zh) * 2010-11-18 2012-07-04 微软公司 用于数据去重复的可缩放块存储
CN102999605A (zh) * 2012-11-21 2013-03-27 重庆大学 一种通过优化数据放置来减少数据碎片的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110289281A1 (en) * 2010-05-24 2011-11-24 Quantum Corporation Policy Based Data Retrieval Performance for Deduplicated Data
CN102541751A (zh) * 2010-11-18 2012-07-04 微软公司 用于数据去重复的可缩放块存储
CN102999605A (zh) * 2012-11-21 2013-03-27 重庆大学 一种通过优化数据放置来减少数据碎片的方法和装置

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885859A (zh) * 2014-03-12 2014-06-25 华中科技大学 一种基于全局统计的去碎片方法及系统
CN104050103B (zh) * 2014-06-06 2017-07-18 华中科技大学 一种用于数据恢复的缓存替换方法与系统
CN106662981A (zh) * 2014-06-27 2017-05-10 日本电气株式会社 存储设备、程序和信息处理方法
CN106662981B (zh) * 2014-06-27 2021-01-26 日本电气株式会社 存储设备、程序和信息处理方法
CN106066818A (zh) * 2016-05-25 2016-11-02 重庆大学 一种提高重复数据删除备份系统恢复性能的数据布局方法
CN106066818B (zh) * 2016-05-25 2019-05-17 重庆大学 一种提高重复数据删除备份系统恢复性能的数据布局方法
CN106293525A (zh) * 2016-08-05 2017-01-04 上海交通大学 一种提高缓存使用效率的方法及系统
CN106293525B (zh) * 2016-08-05 2019-06-28 上海交通大学 一种提高缓存使用效率的方法及系统
CN106503051B (zh) * 2016-09-23 2019-05-14 暨南大学 一种基于元数据分类的贪婪预取型数据恢复系统及恢复方法
CN106503051A (zh) * 2016-09-23 2017-03-15 暨南大学 一种基于元数据分类的贪婪预取型数据恢复系统及恢复方法
CN107193498A (zh) * 2017-05-25 2017-09-22 山东浪潮商用系统有限公司 一种对数据进行去重复处理的方法及装置
CN107193498B (zh) * 2017-05-25 2020-03-27 浪潮软件集团有限公司 一种对数据进行去重复处理的方法及装置
CN109937411A (zh) * 2017-08-25 2019-06-25 华为技术有限公司 将接收的数据块存储为去重数据块的装置和方法
CN109937411B (zh) * 2017-08-25 2021-08-20 华为技术有限公司 将接收的数据块存储为去重数据块的装置和方法
US11507539B2 (en) 2017-08-25 2022-11-22 Huawei Technologies Co., Ltd. Apparatus and method for storing received data blocks as deduplicated data blocks
CN108984338A (zh) * 2018-06-01 2018-12-11 暨南大学 一种面向去重备份系统数据恢复的离线最优缓存替换装置及方法
CN109002400A (zh) * 2018-06-01 2018-12-14 暨南大学 一种内容感知型计算机缓存管理系统及方法
CN108984338B (zh) * 2018-06-01 2021-11-12 暨南大学 一种面向去重备份系统数据恢复的离线最优缓存替换装置及方法
CN109271353A (zh) * 2018-09-06 2019-01-25 华中科技大学 一种在数据去重过程中选择性重写自引用块方法及系统
CN109408288A (zh) * 2018-09-29 2019-03-01 华中科技大学 一种打包文件备份过程中数据去重碎片消除方法
CN109299183A (zh) * 2018-11-20 2019-02-01 北京锐安科技有限公司 一种数据处理方法、装置、终端设备和存储介质
CN110083487B (zh) * 2019-04-08 2022-11-18 湖北工业大学 一种基于数据局部性的引用数据块碎片消除方法及系统
CN110083487A (zh) * 2019-04-08 2019-08-02 湖北工业大学 一种基于数据局部性的引用数据块碎片消除方法及系统
CN111796969A (zh) * 2020-05-29 2020-10-20 湖北工业大学 一种数据差量压缩检测方法、计算机设备和存储介质
CN111858574A (zh) * 2020-07-30 2020-10-30 暨南大学 一种面向数据去重技术的近似最优数据碎片块重写方法
CN111858574B (zh) * 2020-07-30 2022-02-11 暨南大学 一种面向数据去重技术的近似最优数据碎片块重写方法
CN111984604A (zh) * 2020-08-13 2020-11-24 华中科技大学 一种减少日志结构文件系统碎片的方法及闪存存储系统
CN111984604B (zh) * 2020-08-13 2024-03-19 华中科技大学 一种减少日志结构文件系统碎片的方法及闪存存储系统
WO2023050856A1 (zh) * 2021-09-28 2023-04-06 华为技术有限公司 数据处理方法及存储系统

Also Published As

Publication number Publication date
CN103473150B (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
CN103473150A (zh) 一种用于数据去重系统中的碎片重写方法
CN111090398B (zh) 固态硬盘的垃圾回收方法、装置、设备及可读存储介质
US10318181B2 (en) System, method, and computer program product for increasing spare space in memory to extend a lifetime of the memory
CN106471478B (zh) 用于在非易失性数据存储设备内以原子的方式执行多个写事务的设备控制器和方法
US8627026B2 (en) Storage apparatus and additional data writing method
US10176190B2 (en) Data integrity and loss resistance in high performance and high capacity storage deduplication
JP5418719B2 (ja) ストレージ装置
US9921955B1 (en) Flash write amplification reduction
US8719501B2 (en) Apparatus, system, and method for caching data on a solid-state storage device
CN108139968B (zh) 确定垃圾收集器线程数量及活动管理的方法及设备
CN107391774B (zh) 基于重复数据删除的日志文件系统的垃圾回收方法
US20140006685A1 (en) Systems, methods, and interfaces for managing persistent data of atomic storage operations
CN106445405B (zh) 一种面向闪存存储的数据访问方法及其装置
CN109800185B (zh) 一种数据存储系统中的数据缓存方法
CN105404673A (zh) 基于nvram的高效文件系统构建方法
CN103080910A (zh) 存储系统
EP3316150A1 (en) Method and apparatus for file compaction in key-value storage system
CN104050057B (zh) 一种历史感知的数据去重碎片消除方法与系统
US20190026191A1 (en) Managing Data in a Storage System
US11841801B2 (en) Metadata management in non-volatile memory devices using in-memory journal
US10437784B2 (en) Method and system for endurance enhancing, deferred deduplication with hardware-hash-enabled storage device
US20230044942A1 (en) Conditional update, delayed lookup
Park et al. OFTL: Ordering-aware FTL for maximizing performance of the journaling file system
KR101382273B1 (ko) Ssd 저장장치의 마모도 감소를 위한 ssd 기반 서버급 저장장치의 복합적 데이터 중복제거 방법
CN110658999A (zh) 一种信息更新方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant