CN106293525B - 一种提高缓存使用效率的方法及系统 - Google Patents
一种提高缓存使用效率的方法及系统 Download PDFInfo
- Publication number
- CN106293525B CN106293525B CN201610637529.3A CN201610637529A CN106293525B CN 106293525 B CN106293525 B CN 106293525B CN 201610637529 A CN201610637529 A CN 201610637529A CN 106293525 B CN106293525 B CN 106293525B
- Authority
- CN
- China
- Prior art keywords
- block
- fingerprint
- data
- container
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0674—Disk device
- G06F3/0676—Magnetic disk device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种提高缓存使用效率的方法及系统,该方法包括:给定一个数值作为分块长度的大小;读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;计算获得每个数据块的指纹;检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,则增加其热度,而减小其他不相同的数据块的热度,通过本发明,能够用较少的内存尽可能多地节约磁盘空间,减少数据的冗余。
Description
技术领域
本发明涉及一种提高缓存使用效率的方法及系统,特别是涉及一种提高备份系统中重复数据删除缓存使用效率的方法。
背景技术
重复数据删除是一种将重复数据仅存储一份、从而节约磁盘空间的技术。它的方法是在重复分块的索引和其在磁盘中实际位置之间创造一种映射,可以分为以下几类:
1.文件重删和块重删
对于每一个文件,我们使用某个哈希函数计算它的指纹(fingerprint)。当发生哈希冲突时,意味着存在相同的文件。这种方法易于实施,但缺点是重删率相对较低。当两个大文件之间只有一个比特不同时,这两个文件就会被认为是不相同的,从而存储两份,造成大量的空间浪费。
为了解决上述问题,块重删技术应运而生。它弱化了文件的概念,把一个数据块作为重删的基本单位。根据方法的不同,分块可以是定长也可以是变长。定长分块基本为几个KB,很容易处理和管理。但另一方面,如果在块的头部插入或删除一个比特,后续所有的分块都会改变。利用Rabin Fingerprints的变长分块可以解决这个问题。在分块时,只有当遇到匹配的数据样式时才对分块进行截断。这样头部的改变就不会影响后续的分块。然而变长的分块由于在管理上有一定困难,实际情况中采用的并不多。
2.实时重删和后处理重删
实时重删需要处理器在遇到写入操作的时候就进行分块和计算指纹的操作,有一定的时间开销,对写入性能会产生一定影响。有时候我们可以借助外部装置来辅助计算,以适应诸如在固态硬盘这样的高速写入环境。
目前在备份系统领域已经存在一些重删方法,包括Zhu的布隆过滤器(BloomFilter)方法、Extreme Binning和Sparse Indexing等,但是它们在重删效率和内存占用方面存在一些问题。布隆过滤器方法可以让之前排除没有出现过的分块,从而免去检查它们重复性的开销;但是如果重删率较高或分块较多时,布隆过滤器将很容易被通过,丧失其意义。Extreme Binning利用文件来组织容器,把文件头部的分块作为索引。但是如果文件的头部分块不同,文件将会被归为不同的容器,大大减少重删的效率。Sparse Indexing方法根据指纹结尾的余数来对指纹进行分组,并选取一些最可能被重删的容器到内存中进行重删操作。然而在容器重删效率低时,这些大量的容器会占用较高的内存。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种提高备份系统中重复数据删除缓存使用效率的方法,其能够用较少的内存尽可能多地节约磁盘空间,减少数据的冗余。
为达上述及其它目的,本发明提出一种提高缓存使用效率的方法,包括如下步骤:
步骤一,给定一个数值作为分块长度的大小;
步骤二,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;
步骤三,计算获得每个数据块的指纹;
步骤四,检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,则增加其热度,而减小其他不相同的索引块的热度;
其中,所述索引块的指纹符合指定的最后N位为零的特征。
进一步地,若数据块的指纹不符合指定的特征,把该数据块作为一般块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的一般块的热度。
进一步地,于步骤三中,使用MD5哈希算法计算数据块的128位哈希值,作为该数据块的指纹。
进一步地,于步骤四中,可根据指纹的余数确定索引块,通过设定余数的大小,控制索引块的比例。
进一步地,于步骤四中,选取一个取样参数N,检查每个数据块的指纹,当指纹的末尾N位皆为零时,把该数据块作为索引块。
进一步地,于步骤四中,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器。
进一步地,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块。
进一步地,取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
为达到上述目的,本发明还提供一种提高缓存使用效率的系统,包括:
分块模块,给定一个数值作为分块长度的大小,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;
指纹计算模块,用于计算获得每个数据块的指纹;
判断模块,用于检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,若数据块的指纹不符合指定的特征,把该数据块作为一般块;
索引块重删模块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同的数据块的热度;
一般块重删模块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度;
其中,所述索引块的指纹符合指定的最后N位为零的特征。
进一步地,该系统还包括除冷模块,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块,取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
与现有技术相比,本发明一种提高缓存使用效率的方法及系统利用数据块的指纹特征建立索引,并对冷数据块进行实时清理,通过局部性增加了重复数据删除率,去除了冷数据对内存的不必要占用,增加了搜索效率,通过线性构建索引块表和容器,提高了磁盘的I/O性能。
附图说明
图1为本发明一种提高缓存使用效率的方法的步骤流程图;
图2为一典型的实时块重复数据删除系统的流程图;
图3为本发明具体实施例在进行重复数据删除时的流程图;
图4(a)为LRU算法示意图;
图4(b)为本发明具体例子的示意图;
图5为本发明一种提高缓存使用效率的系统的系统架构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种提高缓存使用效率的方法的步骤流程图。如图1所示,本发明一种提高缓存使用效率的方法,用于提高备份系统中重复数据删除缓存的使用效率,包括如下步骤:
步骤101,给定一个数值作为分块长度的大小,一般为几KB到几MB不等。
步骤102,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块。
步骤103,使用MD5哈希算法计算数据块的128位哈希值,作为该数据块的指纹。
步骤104,检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同索引块块的热度。在本发明中,可根据指纹的余数确定索引块的分块,通过设定余数的大小,控制被索引块的比例。
较佳地,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器。
步骤105,若数据块的指纹不符合指定的特征,把该数据块作为一般块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的一般块的热度。
较佳地,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块。
取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
图2为一典型的实时块重复数据删除系统的流程图,图3为本发明具体实施例在进行重复数据删除时的流程图。以下将配合图2及图3进一步说明本发明:
步骤S1,指纹分块:如同图2的「分块模块」所显示的,给定一个数值作为分块长度的大小,一般为几KB到几MB不等,且一般为2的幂次,比如4KB、64KB等。读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;使用MD5哈希算法计算数据块的128位哈希值,作为该数据块的指纹;
步骤S2,判断零块:如同图3的「判零模块」所显示的,选取一个取样参数N,检查数据块的指纹,当指纹的末尾N位皆为零时,称该数据块为零块,把该数据块作为索引块;
步骤S3,重删索引块:如同图3的「零块表」所显示的,对于每一个索引块,检查内存中的零块表中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同的数据块的热度;
进一步地,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器;
步骤S4,重删一般块:若数据块的指纹不符合后N为全为零的特征,把该数据块成为非零块,作为一般块处理。如同图3中的「容器」所显示的,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度;
步骤S5,去除冷块:若处理的数据块为索引块,且发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块;若处理的数据块是一般块,则在取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。如同图3中的「除冷模块」所显示的,先前容器中指纹为「0x764A」的数据块被发现重复,其热度由3变成11,增加了8(一个可变更的预先设定值);而指纹为「0x5B21」数据块原先热度为1,由于未被命中,其热度降为0,被标记为冷块,将不会在下次重删操作中被比较。
图4(a)为LRU算法示意图,图4(b)为本发明具体例子的示意图。图4(a)和图4(b)提供了一个例子,说明本发明利用指纹特征和传统LRU方法进行重删时的优越性。新数据块中的数值为数据块的指纹,这里选取取样参数为2,则指纹后两位为0时,该数据块为索引块。于是,图中指纹为0和4的块成为索引块。
当第(1)个数据块「4」作为索引块被读取时,它对应的容器被创建,将后续第(2)和第(3)个数据块「3」放入容器;
第(4)个数据块依然为「4」,和上一个索引块相同,于是容器不变,继续读取第(5)个数据块「2」,放入容器中;
第(6)个数据块「0」也为索引块,且不在零块表中出现,于是将其放入缓存,并新建一个其对应的容器,将原来的容器写回磁盘,而第(7)个数据块「1」将被放在「0」的容器中;
第(8)个数据块「4」为索引块,且在零块表中存在,则将「0」的容器写入,读入「4」的容器(已含有「2」和「3」);
第(9)和第(10)个数据块到来时,在容器中已经存在它们的重复块,从而原本未命中的缓存被命中了。
根据局部性原理,上述例子在实际应用中经常出现。
图5为本发明一种提高缓存使用效率的系统的系统架构图。如图5所示,本发明一种提高缓存使用效率的系统,包括:分块模块501、指纹计算模块502、判断模块503、索引块重删模块504以及一般块重删模块505。
分块模块501,给定一个数值作为分块长度的大小,一般为几KB到几MB不等,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;指纹计算模块502,使用MD5哈希算法计算每个数据块的128位哈希值,作为该数据块的指纹;判断模块503,用于检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,若数据块的指纹不符合指定的特征,把该数据块作为一般块;索引块重删模块504,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同的数据块的热度,较佳地,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器;一般块重删模块505,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度。
较佳地,本发明一种提高缓存使用效率的系统还包括除冷模块,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块,取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
综上所述,本发明一种提高缓存使用效率的方法及系统利用数据块的指纹特征建立索引,并对冷数据块进行实时清理,通过局部性增加了重复数据删除率,去除了冷数据对内存的不必要占用,增加了搜索效率,通过线性构建索引块表和容器,提高了磁盘的I/O性能。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种提高缓存使用效率的方法,包括如下步骤:
步骤一,给定一个数值作为分块长度的大小;
步骤二,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;
步骤三,计算获得每个数据块的指纹;
步骤四,检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,则增加其热度,而减小其他不相同的索引块的热度;
其中,所述索引块的指纹符合指定的最后N位为零的特征。
2.如权利要求1所述的一种提高缓存使用效率的方法,其特征在于:若数据块的指纹不符合指定的特征,把该数据块作为一般块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他一般块的热度。
3.如权利要求2所述的一种提高缓存使用效率的方法,其特征在于:于步骤三中,使用MD5哈希算法计算数据块的128位哈希值,作为该数据块的指纹。
4.如权利要求3所述的一种提高缓存使用效率的方法,其特征在于:于步骤四中,可根据指纹的余数确定索引块,通过设定余数的大小,控制索引块比例。
5.如权利要求4所述的一种提高缓存使用效率的方法,其特征在于:于步骤四中,选取一个取样参数N,检查每个数据块的指纹,当指纹的末尾N位皆为零时,把该数据块作为索引块。
6.如权利要求5所述的一种提高缓存使用效率的方法,其特征在于:于步骤四中,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器。
7.如权利要求6所述的一种提高缓存使用效率的方法,其特征在于:若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块。
8.如权利要求7所述的一种提高缓存使用效率的方法,其特征在于:取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
9.一种提高缓存使用效率的系统,包括:
分块模块,给定一个数值作为分块长度的大小,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;
指纹计算模块,用于计算获得每个数据块的指纹;
判断模块,用于检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,若数据块的指纹不符合指定的特征,把该数据块作为一般块;
索引块重删模块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同的数据块的热度;
一般块重删模块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度;
其中,所述索引块的指纹符合指定的最后N位为零的特征。
10.如权利要求9所述的一种提高缓存使用效率的系统,其特征在于:该系统还包括除冷模块,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块,取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610637529.3A CN106293525B (zh) | 2016-08-05 | 2016-08-05 | 一种提高缓存使用效率的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610637529.3A CN106293525B (zh) | 2016-08-05 | 2016-08-05 | 一种提高缓存使用效率的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106293525A CN106293525A (zh) | 2017-01-04 |
CN106293525B true CN106293525B (zh) | 2019-06-28 |
Family
ID=57665906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610637529.3A Active CN106293525B (zh) | 2016-08-05 | 2016-08-05 | 一种提高缓存使用效率的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106293525B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984574B (zh) * | 2017-06-05 | 2021-01-05 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法及装置 |
CN107391034B (zh) * | 2017-07-07 | 2019-05-10 | 华中科技大学 | 一种基于局部性优化的重复数据检测方法 |
CN109933279B (zh) * | 2017-12-19 | 2021-01-22 | 中国科学院声学研究所 | 一种支持混合存储系统的内容过滤方法 |
CN108664217B (zh) * | 2018-04-04 | 2021-07-13 | 安徽大学 | 一种降低固态盘存储系统写性能抖动的缓存方法及系统 |
CN110413235B (zh) * | 2019-07-26 | 2020-07-24 | 华中科技大学 | 一种面向ssd去重的数据分配方法及系统 |
CN111090389B (zh) * | 2019-10-31 | 2021-06-29 | 苏州浪潮智能科技有限公司 | 一种缓存空间的释放方法、设备以及存储介质 |
CN110944040A (zh) * | 2019-10-31 | 2020-03-31 | 浙江工商大学 | 一种数据压缩过程中的编码方法 |
CN111629378B (zh) * | 2020-06-05 | 2021-01-19 | 上海创蓝文化传播有限公司 | 一种基于布隆过滤器拦截风险短信的方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156753A (zh) * | 2011-04-29 | 2011-08-17 | 中国人民解放军国防科学技术大学 | 面向固态硬盘文件系统的数据页缓存方法 |
CN102222085A (zh) * | 2011-05-17 | 2011-10-19 | 华中科技大学 | 一种基于相似性与局部性结合的重复数据删除方法 |
CN103473150A (zh) * | 2013-08-28 | 2013-12-25 | 华中科技大学 | 一种用于数据去重系统中的碎片重写方法 |
CN103502957A (zh) * | 2012-12-28 | 2014-01-08 | 华为技术有限公司 | 数据处理方法及装置 |
CN103678158A (zh) * | 2013-12-26 | 2014-03-26 | 中国科学院信息工程研究所 | 一种数据布局优化方法及系统 |
CN104331525A (zh) * | 2014-12-01 | 2015-02-04 | 国家计算机网络与信息安全管理中心 | 基于重复数据删除的共享方法 |
CN105069111A (zh) * | 2015-08-10 | 2015-11-18 | 广东工业大学 | 云存储中基于相似性的数据块级数据去重方法 |
CN105487818A (zh) * | 2015-11-27 | 2016-04-13 | 清华大学 | 针对云存储系统中重复冗余数据的高效去重方法 |
-
2016
- 2016-08-05 CN CN201610637529.3A patent/CN106293525B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156753A (zh) * | 2011-04-29 | 2011-08-17 | 中国人民解放军国防科学技术大学 | 面向固态硬盘文件系统的数据页缓存方法 |
CN102222085A (zh) * | 2011-05-17 | 2011-10-19 | 华中科技大学 | 一种基于相似性与局部性结合的重复数据删除方法 |
CN103502957A (zh) * | 2012-12-28 | 2014-01-08 | 华为技术有限公司 | 数据处理方法及装置 |
CN103473150A (zh) * | 2013-08-28 | 2013-12-25 | 华中科技大学 | 一种用于数据去重系统中的碎片重写方法 |
CN103678158A (zh) * | 2013-12-26 | 2014-03-26 | 中国科学院信息工程研究所 | 一种数据布局优化方法及系统 |
CN104331525A (zh) * | 2014-12-01 | 2015-02-04 | 国家计算机网络与信息安全管理中心 | 基于重复数据删除的共享方法 |
CN105069111A (zh) * | 2015-08-10 | 2015-11-18 | 广东工业大学 | 云存储中基于相似性的数据块级数据去重方法 |
CN105487818A (zh) * | 2015-11-27 | 2016-04-13 | 清华大学 | 针对云存储系统中重复冗余数据的高效去重方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106293525A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106293525B (zh) | 一种提高缓存使用效率的方法及系统 | |
CN100565512C (zh) | 消除文件存储系统中冗余文件的系统及方法 | |
CN104899156B (zh) | 一种面向大规模社交网络的图数据存储及查询方法 | |
CN103080910B (zh) | 存储系统 | |
CN104978151B (zh) | 基于应用感知的重复数据删除存储系统中的数据重构方法 | |
CN103345472B (zh) | 基于有限二叉树布隆过滤器的去冗文件系统及其构建方法 | |
CN103488709B (zh) | 一种索引建立方法及系统、检索方法及系统 | |
CN109800185B (zh) | 一种数据存储系统中的数据缓存方法 | |
CN105183839A (zh) | 一种基于Hadoop的小文件分级索引的存储优化方法 | |
CN103020255B (zh) | 分级存储方法和装置 | |
EP3316150B1 (en) | Method and apparatus for file compaction in key-value storage system | |
CN104616680B (zh) | 基于光盘存储的重复数据删除系统及数据操作方法、装置 | |
CN106776375A (zh) | 一种磁盘内部的数据缓存方法及装置 | |
CN102694828B (zh) | 一种分布式缓存系统数据存取的方法及装置 | |
CN103324699B (zh) | 一种适应大数据应用的快速重复数据删除方法 | |
CN103514210B (zh) | 小文件处理方法及装置 | |
CN102035881A (zh) | 一种云端存储系统的数据缓存方法 | |
CN105980992B (zh) | 一种存储系统、识别数据块稳定性的方法以及装置 | |
AU2010200866B1 (en) | Data reduction indexing | |
US8229894B2 (en) | Storage system and control method for the same | |
CN104092670A (zh) | 网络缓存服务器处理文件的方法及处理缓存文件的设备 | |
CN103279502B (zh) | 一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法 | |
CN106155934B (zh) | 一种云环境下基于重复数据的缓存方法 | |
Park et al. | A lookahead read cache: improving read performance for deduplication backup storage | |
CN105243027A (zh) | 在存储设备中存储数据的方法和存储控制器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |