CN104978151A - 基于应用感知的重复数据删除存储系统中的数据重构方法 - Google Patents
基于应用感知的重复数据删除存储系统中的数据重构方法 Download PDFInfo
- Publication number
- CN104978151A CN104978151A CN201510345510.7A CN201510345510A CN104978151A CN 104978151 A CN104978151 A CN 104978151A CN 201510345510 A CN201510345510 A CN 201510345510A CN 104978151 A CN104978151 A CN 104978151A
- Authority
- CN
- China
- Prior art keywords
- file
- data
- block structure
- structure body
- hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012217 deletion Methods 0.000 title abstract description 5
- 230000037430 deletion Effects 0.000 title abstract description 5
- 230000008569 process Effects 0.000 claims abstract description 54
- 230000007306 turnover Effects 0.000 claims description 18
- 239000000872 buffer Substances 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000000903 blocking effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 238000005192 partition Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
基于应用感知的重复数据删除存储系统中的数据重构方法,涉及计算机存储领域。充分利用所备份文件的文件类型信息,对所有文件按文件类型进行分类,再按文件类型对文件进行备份,以提高数据读取时的数据重构速度。由并行的数据写入阶段和数据读取阶段组成,所述备份文件的数据写入阶段由文件分类步骤、文件分块步骤、哈希指纹计算步骤、重复数据删除步骤和数据写入步骤顺序组成;所述备份文件的数据读取阶段由文件分类信息获取步骤、文件指纹信息获取步骤、文件数据块获取步骤、数据重构完成步骤顺序组成。通过改变传统重复数据删除过程中的数据写入方法以提高数据读取时的数据重构速度。
Description
技术领域
本发明涉及计算机存储领域,尤其是涉及一种基于应用感知的重复数据删除存储系统中的数据重构方法。
背景技术
随着网络的发展,各种数据呈爆炸性的生长,对存储容量的需求也不断增大,所以存储容量的要求也不断增加。在考虑存储成本的情况下,人们开始思考如何在有限的空间内存储更多的数据,于是重复数据删除技术开始问世。
重复数据删除是一种目前主流且热门的存储技术,通过检测数据集的相同数据部分,删除重复的数据内容,只保留唯一的数据对象副本,从而达到消除冗余的目标。重复数据删除技术能够有效减少数据的存储容量和数据在网络中的传输量,进而降低存储成本和能耗需求或提高网络带宽。
存储系统的重复数据删除过程一般如下:系统首先将文件分成一组数据块,计算每个数据的哈希指纹,然后以该哈希指纹为关键字查找哈希表,判断该数据块是否与已存储的数据重复。若重复,则丢弃该数据块,只保留该数据块的索引号;若不重复,即该数据块是全新的,则保存该数据块并给其分配唯一的索引号,同时将该数据块的哈希指纹保存到哈希表。一个文件经过重复数据删除后在存储系统中就表现为一系列的数据块索引号。因此,一个物理文件在存储系统中对应一个逻辑表示,由一组指纹组成的元数据组成。当进行文件读取时,先读取该逻辑文件,然后根据指纹信息从存储系统中读取出相应的数据块,还原物理文件。
数据的分块方式主要有两种,一种是固定大小分块,即将数据分割成大小固定的数据块;另一种是基于内容的分块,为避免数据更新时带来的分块边界迁移问题而根据数据内容将数据分割成不同大小的数据块。通过对多个数据集的观察可以知道,对于静态应用文件即数据不会被更新的文件,例如虚拟机镜像文件,固定大小分块方法优于基于内容的分块方法。这两种分块方法都需要计算每个数据块的哈希指纹值,而计算哈希指纹是一个非常占用中央处理器资源的过程,所以评估哈希指纹的计算花销也是很重要的。
Vasily Tarasow,Deepak Jain,Geoff Kuenning,Sonam Mandal,KarthikeyaniPalanisami,Philip Shilane,Sagar Trehan,and Erez Zadol.Dmdedup:Device MapperTarget for Data Deduplication.In Proceeding of the 2014Ottawa Linux Symposium.Pages1-2.
发明内容
本发明的目的在于针对重复数据删除存储系统中数据的写入过程会直接影响数据的读取过程,因此改进数据的写入模式可以提升数据读取时的数据重构速度,提供一种用于提升数据读取时数据重构速度的基于应用感知的重复数据删除存储系统中的数据重构方法。
本发明包括并行的备份文件的数据写入阶段和备份文件的数据读取阶段;
所述备份文件的数据写入阶段,包括以下步骤:
(1)文件分类步骤,进行下列过程:
递归遍历备份路径下的所有文件,统计所有出现的文件类型和每个类型的所有文件及其路径,以生成分类树和备份版本号;转步骤(2);
(2)文件分块步骤,对同一类型的文件进行下列过程:
(2.1)遍历此类型下的全部文件,依次打开步骤(1)提供的对同一类型的所有文件路径;转过程(2.2);
(2.2)对每个文件路径,创建一个块结构体并标记文件开始;转过程(2.3);
(2.3)读取过程(2.2)中文件路径里的数据内容,创建一个块结构体并在此块结构体中存储文件数据内容,直至文件结束;除最后一个块结构体外,文件结构体中的数据大小固定的;转过程(2.4);
(2.4)创建一个块结构体并标记文件结束,并把所有创建的块结构体保存到一个块结构体队列中;判断同类型文件是否都已完成分块,若是,则转步骤(3),否则转步骤(2);
(3)哈希指纹计算步骤,进行下列过程:
根据过程(2.4)得到的块结构体队列,依次调用哈希函数计算每个块结构体数据部分的哈希值,然后创建一个相应的块结构体以保存其哈希值,把本过程创建的块结构体保存到一个哈希指纹队列中,并将标记文件开始和结束的块结构体也保存到哈希指纹队列中;转步骤(4);
(4)重复数据删除步骤,进行下列过程:
(4.1)将步骤(3)中的哈希指纹队列的一个块结构体包含的哈希指纹在键值表中进行查找,键值表是存储所有哈希指纹及对应存储地址的索引表,若键值表中找到一致的哈希指纹,则将此块结构标记为重复,否则将此哈希指纹及其对应存储地址写入键值表中;
(4.2)判断所有数据块是否都已经完成哈希指纹查找步骤即步骤(3)中创建的哈希指纹队列中所有块结构体中的哈希指纹都已在键值表中完成查找,若是,则转步骤(5),否则转过程(4.1);
(5)数据写入步骤,进行下列过程:
(5.1)判断过程(4.1)中的块结构体标记的数据块是否是重复的,若是,则记录该数据块在磁盘上的位置,否则将该数据块添加到存储缓存中;转过程(5.2);
(5.2)将存储缓存中的块结构体、元数据文件、键值表和哈希指纹队列写入到磁相应位置;转过程(5.3);
(5.3)判断所有文件类型是否都已完成写入操作,若是,则备份文件的数据写入阶段结束,否则转步骤(2);
所述备份文件的数据读取阶段,包括以下步骤:
(6)文件分类信息获取步骤,进行下列过程:
根据需要读取的备份文件的版本号获取相应的备份文件的分类树,统计此备份版本中出现的所有文件类型,对同一类型的文件进行步骤(7);
(7)文件指纹信息获取步骤,进行下列过程:
读取元数据文件,查找此备份版本中的全部哈希值队列;转步骤(8);
(8)文件数据块获取步骤,进行下列过程:
根据哈希指纹队列中的指纹信息查询键值表,读取对应的数据块;转步骤(9);
(9)数据重构完成步骤,进行下列过程:
递归创建备份文件目录,根据元数据文件将读取到的数据块重构到指定路径下,判断所有类型的数据是否都已经读取完毕,若是,则备份文件的数据读取阶段结束,否则转步骤(7)。
在重复数据删除存储系统中,数据的写入过程会直接影响数据的读取过程,因此改进数据的写入模式可以提升数据读取时的数据重构速度。针对这个问题,本发明提出的基于应用感知的数据重构方法,通过改变传统重复数据删除过程中的数据写入方法以提高数据读取时的数据重构速度。
本发明由并行的备份文件的数据写入阶段和备份文件的数据读取阶段组成。所述备份文件的数据写入阶段由文件分类步骤、文件分块步骤、哈希指纹计算步骤、重复数据删除步骤和数据写入步骤顺序组成;所述备份文件的数据读取阶段由文件分类信息获取步骤、文件指纹信息获取步骤、文件数据块获取步骤、数据重构完成步骤顺序组成。
所述重复数据删除系统关键在于基于应用感知的数据布局和指纹存储,每种类型的应用文件都对应四个磁盘文件,即数据块文件、索引文件、指纹序列文件和元数据文件。数据块文件保存此次备份的数据内容;索引文件保存数据分块后的键值对,即每个哈希指纹及其对应数据块所在的地址;指纹序列文件保存此次备份中所有数据块对应的指纹序列值;元数据文件保存此次备份的备份版本、文件数量、文件大小、分块数量、重复删除率和指纹序列文件地址。读取备份文件时根据需要读取的文件类型按类型重构。
附图说明
图1为本发明的示意图;
图2为本发明备份文件的数据写入过程的示意图;
图3为本发明文件分类过程结果的示意图;
图4为本发明文件数据布局的示意图;
图5为本发明数据读取过程的示意图。
具体实施方式
下面以三个文件a.txt、b.doc和c.pdf为例,结合附图对本发明作进一步说明。
本发明包括并行的备份文件的数据写入阶段和备份文件的数据读取阶段;
所述备份文件的数据写入阶段,包括以下步骤:
(1)文件分类步骤,进行下列过程:
递归遍历备份路径下的所有文件,统计所有出现的文件类型和每个类型的所有文件及其路径,以生成分类树和备份版本号;转步骤(2);
(2)文件分块步骤,对同一类型的文件进行下列过程:
(2.1)遍历此类型下的全部文件,依次打开步骤(1)提供的对同一类型的所有文件路径;转过程(2.2);
(2.2)对每个文件路径,创建一个块结构体并标记文件开始;转过程(2.3);
(2.3)读取过程(2.2)中文件路径里的数据内容,创建一个块结构体并在此块结构体中存储文件数据内容,直至文件结束;除最后一个块结构体外,文件结构体中的数据大小固定的;转过程(2.4);
(2.4)创建一个块结构体并标记文件结束,并把所有创建的块结构体保存到一个块结构体队列中;判断同类型文件是否都已完成分块,若是,则转步骤(3),否则转步骤(2);
(3)哈希指纹计算步骤,进行下列过程:
根据过程(2.4)得到的块结构体队列,依次调用哈希函数计算每个块结构体数据部分的哈希值,然后创建一个相应的块结构体以保存其哈希值,把本过程创建的块结构体保存到一个哈希指纹队列中,并将标记文件开始和结束的块结构体也保存到哈希指纹队列中;转步骤(4);
(4)重复数据删除步骤,进行下列过程:
(4.1)将步骤(3)中的哈希指纹队列的一个块结构体包含的哈希指纹在键值表中进行查找,键值表是存储所有哈希指纹及对应存储地址的索引表,若键值表中找到一致的哈希指纹,则将此块结构标记为重复,否则将此哈希指纹及其对应存储地址写入键值表中;
(4.2)判断所有数据块是否都已经完成哈希指纹查找步骤即步骤(3)中创建的哈希指纹队列中所有块结构体中的哈希指纹都已在键值表中完成查找,若是,则转步骤(5),否则转过程(4.1);
(5)数据写入步骤,进行下列过程:
(5.1)判断过程(4.1)中的块结构体标记的数据块是否是重复的,若是,则记录该数据块在磁盘上的位置,否则将该数据块添加到存储缓存中;转过程(5.2);
(5.2)将存储缓存中的块结构体、元数据文件、键值表和哈希指纹队列写入到磁相应位置;转过程(5.3);
(5.3)判断所有文件类型是否都已完成写入操作,若是,则备份文件的数据写入阶段结束,否则转步骤(2);
所述备份文件的数据读取阶段,包括以下步骤:
(6)文件分类信息获取步骤,进行下列过程:
根据需要读取的备份文件的版本号获取相应的备份文件的分类树,统计此备份版本中出现的所有文件类型,对同一类型的文件进行步骤(7);
(7)文件指纹信息获取步骤,进行下列过程:
读取元数据文件,查找此备份版本中的全部哈希值队列;转步骤(8);
(8)文件数据块获取步骤,进行下列过程:
根据哈希指纹队列中的指纹信息查询键值表,读取对应的数据块;转步骤(9);
(9)数据重构完成步骤,进行下列过程:
递归创建备份文件目录,根据元数据文件将读取到的数据块重构到指定路径下,判断所有类型的数据是否都已经读取完毕,若是,则备份文件的数据读取阶段结束,否则转步骤(7)。
图1为本发明的示意图:初始化步骤完成后进入并行的备份文件的数据写入阶段和备份文件的数据读取阶段,当用户操作完成发出关闭指令时,进入结束步骤。
图2为本发明备份文件的数据写入过程的示意图:初始化完成后首先是备份文件的文件分类步骤,对用户提供的备份目录进行递归遍历,得到文件分类信息,即备份目录下文件类型和每个文件类型下的所有文件的路径,在此例子中,有三种文件类型:txt、doc和pdf,每种文件类型包括一个文件;文件分类完成后,文件分块步骤按照文件类型依次对文件数据进行分块,生成文件块队列并标记文件的开头和结束;哈希计算步骤将依次调用哈希函数计算每个文件块结构体数据的哈希指纹值,然后创建一个相应的块结构体以保存其哈希指纹值,并把本过程创建的块结构体保持到一个哈希指纹队列中。对标记文件开始和结束的块结构体复制也保存在哈希指纹队列中;然后对哈希指纹队列中的每个块结构中的哈希指纹在键值表中进行查找,键值表是存储所有哈希指纹及对应存储地址的索引表,如果在键值表中找到一致的哈希指纹则将此块结构标记为重复,否则将此哈希指纹及其对应存储地址写入键值表中;标记结束后将非重复数据块和与此文件有关的元数据和键值表分类写入磁盘;判断在三种文件类型的文件数据是否都写入完成,是则结束,否则继续进行数据写入。
图3为本发明文件分类过程结果的示意图:主队列每个节点保存一个文件类型,每个文件类型节点下面的子队列中的每个节点保存属于这个文件类型的一个文件路径。
图4为本发明文件数据布局的示意图:每种文件类型的应用文件都对应四个磁盘文件,即数据块文件、键值表、指纹序列文件和元数据文件。
图5为本发明数据读取过程的示意图:根据用户提供的备份文件的版本号查询备份数据所在的位置,并通过元数据文件获取该备份文件的文件分类信息,重新生成如图2所示的文件分类结果,再按照用户的数据读取要求读取所要读取的文件的哈希指纹序列,根据键值表得到指纹序列对应的文件块地址,最后将用户需要的文件数据读取到用户指定的目录下,直至所有的文件类型都恢复完毕时数据读取结束。
Claims (1)
1.基于应用感知的重复数据删除存储系统中的数据重构方法,其特征在于包括并行的备份文件的数据写入阶段和备份文件的数据读取阶段;
所述备份文件的数据写入阶段,包括以下步骤:
(1)文件分类步骤,进行下列过程:
递归遍历备份路径下的所有文件,统计所有出现的文件类型和每个类型的所有文件及其路径,以生成分类树和备份版本号;转步骤(2);
(2)文件分块步骤,对同一类型的文件进行下列过程:
(2.1)遍历此类型下的全部文件,依次打开步骤(1)提供的对同一类型的所有文件路径;转过程(2.2);
(2.2)对每个文件路径,创建一个块结构体并标记文件开始;转过程(2.3);
(2.3)读取过程(2.2)中文件路径里的数据内容,创建一个块结构体并在此块结构体中存储文件数据内容,直至文件结束;除最后一个块结构体外,文件结构体中的数据大小固定的;转过程(2.4);
(2.4)创建一个块结构体并标记文件结束,并把所有创建的块结构体保存到一个块结构体队列中;判断同类型文件是否都已完成分块,若是,则转步骤(3),否则转步骤(2);
(3)哈希指纹计算步骤,进行下列过程:
根据过程(2.4)得到的块结构体队列,依次调用哈希函数计算每个块结构体数据部分的哈希值,然后创建一个相应的块结构体以保存其哈希值,把本过程创建的块结构体保存到一个哈希指纹队列中,并将标记文件开始和结束的块结构体也保存到哈希指纹队列中;转步骤(4);
(4)重复数据删除步骤,进行下列过程:
(4.1)将步骤(3)中的哈希指纹队列的一个块结构体包含的哈希指纹在键值表中进行查找,键值表是存储所有哈希指纹及对应存储地址的索引表,若键值表中找到一致的哈希指纹,则将此块结构标记为重复,否则将此哈希指纹及其对应存储地址写入键值表中;
(4.2)判断所有数据块是否都已经完成哈希指纹查找步骤即步骤(3)中创建的哈希指纹队列中所有块结构体中的哈希指纹都已在键值表中完成查找,若是,则转步骤(5),否则转过程(4.1);
(5)数据写入步骤,进行下列过程:
(5.1)判断过程(4.1)中的块结构体标记的数据块是否是重复的,若是,则记录该数据块在磁盘上的位置,否则将该数据块添加到存储缓存中;转过程(5.2);
(5.2)将存储缓存中的块结构体、元数据文件、键值表和哈希指纹队列写入到磁相应位置;转过程(5.3);
(5.3)判断所有文件类型是否都已完成写入操作,若是,则备份文件的数据写入阶段结束,否则转步骤(2);
所述备份文件的数据读取阶段,包括以下步骤:
(6)文件分类信息获取步骤,进行下列过程:
根据需要读取的备份文件的版本号获取相应的备份文件的分类树,统计此备份版本中出现的所有文件类型,对同一类型的文件进行步骤(7);
(7)文件指纹信息获取步骤,进行下列过程:
读取元数据文件,查找此备份版本中的全部哈希值队列;转步骤(8);
(8)文件数据块获取步骤,进行下列过程:
根据哈希指纹队列中的指纹信息查询键值表,读取对应的数据块;转步骤(9);
(9)数据重构完成步骤,进行下列过程:
递归创建备份文件目录,根据元数据文件将读取到的数据块重构到指定路径下,判断所有类型的数据是否都已经读取完毕,若是,则备份文件的数据读取阶段结束,否则转步骤(7)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510345510.7A CN104978151B (zh) | 2015-06-19 | 2015-06-19 | 基于应用感知的重复数据删除存储系统中的数据重构方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510345510.7A CN104978151B (zh) | 2015-06-19 | 2015-06-19 | 基于应用感知的重复数据删除存储系统中的数据重构方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104978151A true CN104978151A (zh) | 2015-10-14 |
CN104978151B CN104978151B (zh) | 2017-12-29 |
Family
ID=54274696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510345510.7A Active CN104978151B (zh) | 2015-06-19 | 2015-06-19 | 基于应用感知的重复数据删除存储系统中的数据重构方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104978151B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631013A (zh) * | 2015-12-29 | 2016-06-01 | 华为技术有限公司 | 生成哈希值的装置和方法 |
CN105808633A (zh) * | 2016-01-08 | 2016-07-27 | 平安科技(深圳)有限公司 | 数据归档方法和系统 |
CN106066896A (zh) * | 2016-07-15 | 2016-11-02 | 中国人民解放军理工大学 | 一种应用感知的大数据重复删除存储系统及方法 |
CN106507269A (zh) * | 2016-09-14 | 2017-03-15 | 广东欧珀移动通信有限公司 | 一种数据迁移方法及终端设备 |
CN106610790A (zh) * | 2015-10-26 | 2017-05-03 | 华为技术有限公司 | 一种重复数据删除方法及装置 |
CN107145449A (zh) * | 2016-03-01 | 2017-09-08 | 日本电气株式会社 | 存储设备和存储方法 |
CN107273042A (zh) * | 2016-03-31 | 2017-10-20 | 三星电子株式会社 | 重复删除dram系统算法架构 |
CN107357687A (zh) * | 2017-07-21 | 2017-11-17 | 长沙曙通信息科技有限公司 | 一种容灾备份新型重复数据删除实现方法 |
CN108009025A (zh) * | 2017-12-13 | 2018-05-08 | 北京小米移动软件有限公司 | 数据存储方法及装置 |
CN108228763A (zh) * | 2017-12-25 | 2018-06-29 | 深圳市海派通讯科技有限公司 | 一种基于智能终端自媒体冗余数据处理的方法 |
CN108241639A (zh) * | 2016-12-23 | 2018-07-03 | 航天星图科技(北京)有限公司 | 一种数据去重方法 |
CN109101365A (zh) * | 2018-08-01 | 2018-12-28 | 南京壹进制信息技术股份有限公司 | 一种基于源端数据重删的数据备份和恢复方法 |
CN109408466A (zh) * | 2018-11-01 | 2019-03-01 | 江苏农牧科技职业学院 | 一种农业物联网用冗余数据处理方法及装置 |
CN109408516A (zh) * | 2018-11-01 | 2019-03-01 | 江苏农牧科技职业学院 | 一种应用于农业物联网的数据处理方法和装置 |
CN109725823A (zh) * | 2017-10-27 | 2019-05-07 | 伊姆西Ip控股有限责任公司 | 用于管理混合存储盘阵列的方法和设备 |
CN110636141A (zh) * | 2019-10-17 | 2019-12-31 | 中国人民解放军陆军工程大学 | 基于云雾协同的多云存储系统及其管理方法 |
CN111061434A (zh) * | 2019-12-17 | 2020-04-24 | 人和未来生物科技(长沙)有限公司 | 基因压缩多流数据并行写入及读取方法、系统及介质 |
CN111338581A (zh) * | 2020-03-27 | 2020-06-26 | 尹兵 | 基于云计算的数据存储方法、装置、云服务器及系统 |
CN112597536A (zh) * | 2020-12-23 | 2021-04-02 | 瀚高基础软件股份有限公司 | 数据库表文件被非法删除的实时检测方法及装备 |
CN112912867A (zh) * | 2018-10-25 | 2021-06-04 | Emc Ip控股有限公司 | 应用感知的重复数据删除 |
CN113986891A (zh) * | 2021-09-09 | 2022-01-28 | 新华三大数据技术有限公司 | 一种重复数据删除方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706825A (zh) * | 2009-12-10 | 2010-05-12 | 华中科技大学 | 一种基于文件内容类型的重复数据删除方法 |
-
2015
- 2015-06-19 CN CN201510345510.7A patent/CN104978151B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706825A (zh) * | 2009-12-10 | 2010-05-12 | 华中科技大学 | 一种基于文件内容类型的重复数据删除方法 |
Non-Patent Citations (3)
Title |
---|
SONAM ET AL: "Dmdedup: Device Mapper Target for Data Deduplication", 《APPEARS IN THE PROCEEDINGS OF THE 2014 OTTAWA LINUX SYMPOSIUM 》 * |
张沪寅: "用户感知的重复数据删除算法", 《软件学报》 * |
毛波 等: "一种基于重复数据删除技术的云中云存储系统", 《计算机研究与发展》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610790A (zh) * | 2015-10-26 | 2017-05-03 | 华为技术有限公司 | 一种重复数据删除方法及装置 |
CN106610790B (zh) * | 2015-10-26 | 2020-01-03 | 华为技术有限公司 | 一种重复数据删除方法及装置 |
CN105631013A (zh) * | 2015-12-29 | 2016-06-01 | 华为技术有限公司 | 生成哈希值的装置和方法 |
CN105631013B (zh) * | 2015-12-29 | 2019-06-28 | 华为技术有限公司 | 生成哈希值的装置和方法 |
CN105808633A (zh) * | 2016-01-08 | 2016-07-27 | 平安科技(深圳)有限公司 | 数据归档方法和系统 |
CN105808633B (zh) * | 2016-01-08 | 2019-07-23 | 平安科技(深圳)有限公司 | 数据归档方法和系统 |
CN107145449A (zh) * | 2016-03-01 | 2017-09-08 | 日本电气株式会社 | 存储设备和存储方法 |
CN107145449B (zh) * | 2016-03-01 | 2022-07-12 | 日本电气株式会社 | 存储设备和存储方法 |
CN107273042A (zh) * | 2016-03-31 | 2017-10-20 | 三星电子株式会社 | 重复删除dram系统算法架构 |
CN107273042B (zh) * | 2016-03-31 | 2021-10-08 | 三星电子株式会社 | 重复删除dram系统算法架构的存储器模块及方法 |
CN106066896B (zh) * | 2016-07-15 | 2021-06-29 | 中国人民解放军理工大学 | 一种应用感知的大数据重复删除存储系统及方法 |
CN106066896A (zh) * | 2016-07-15 | 2016-11-02 | 中国人民解放军理工大学 | 一种应用感知的大数据重复删除存储系统及方法 |
CN106507269A (zh) * | 2016-09-14 | 2017-03-15 | 广东欧珀移动通信有限公司 | 一种数据迁移方法及终端设备 |
CN106507269B (zh) * | 2016-09-14 | 2020-02-07 | Oppo广东移动通信有限公司 | 一种数据迁移方法及终端设备 |
CN108241639A (zh) * | 2016-12-23 | 2018-07-03 | 航天星图科技(北京)有限公司 | 一种数据去重方法 |
CN108241639B (zh) * | 2016-12-23 | 2019-07-23 | 中科星图股份有限公司 | 一种数据去重方法 |
CN107357687A (zh) * | 2017-07-21 | 2017-11-17 | 长沙曙通信息科技有限公司 | 一种容灾备份新型重复数据删除实现方法 |
CN109725823A (zh) * | 2017-10-27 | 2019-05-07 | 伊姆西Ip控股有限责任公司 | 用于管理混合存储盘阵列的方法和设备 |
CN109725823B (zh) * | 2017-10-27 | 2021-11-16 | 伊姆西Ip控股有限责任公司 | 用于管理混合存储盘阵列的方法和设备 |
CN108009025A (zh) * | 2017-12-13 | 2018-05-08 | 北京小米移动软件有限公司 | 数据存储方法及装置 |
CN108228763A (zh) * | 2017-12-25 | 2018-06-29 | 深圳市海派通讯科技有限公司 | 一种基于智能终端自媒体冗余数据处理的方法 |
CN109101365A (zh) * | 2018-08-01 | 2018-12-28 | 南京壹进制信息技术股份有限公司 | 一种基于源端数据重删的数据备份和恢复方法 |
US11675742B2 (en) | 2018-10-25 | 2023-06-13 | EMC IP Holding Company LLC | Application aware deduplication |
CN112912867A (zh) * | 2018-10-25 | 2021-06-04 | Emc Ip控股有限公司 | 应用感知的重复数据删除 |
CN109408466B (zh) * | 2018-11-01 | 2020-03-13 | 江苏农牧科技职业学院 | 一种农业物联网用冗余数据处理方法及装置 |
CN109408516A (zh) * | 2018-11-01 | 2019-03-01 | 江苏农牧科技职业学院 | 一种应用于农业物联网的数据处理方法和装置 |
CN109408466A (zh) * | 2018-11-01 | 2019-03-01 | 江苏农牧科技职业学院 | 一种农业物联网用冗余数据处理方法及装置 |
CN110636141A (zh) * | 2019-10-17 | 2019-12-31 | 中国人民解放军陆军工程大学 | 基于云雾协同的多云存储系统及其管理方法 |
CN111061434A (zh) * | 2019-12-17 | 2020-04-24 | 人和未来生物科技(长沙)有限公司 | 基因压缩多流数据并行写入及读取方法、系统及介质 |
CN111338581A (zh) * | 2020-03-27 | 2020-06-26 | 尹兵 | 基于云计算的数据存储方法、装置、云服务器及系统 |
CN112597536B (zh) * | 2020-12-23 | 2023-01-24 | 瀚高基础软件股份有限公司 | 数据库表文件被非法删除的实时检测方法及装备 |
CN112597536A (zh) * | 2020-12-23 | 2021-04-02 | 瀚高基础软件股份有限公司 | 数据库表文件被非法删除的实时检测方法及装备 |
CN113986891A (zh) * | 2021-09-09 | 2022-01-28 | 新华三大数据技术有限公司 | 一种重复数据删除方法及装置 |
CN113986891B (zh) * | 2021-09-09 | 2024-03-12 | 新华三大数据技术有限公司 | 一种重复数据删除方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104978151B (zh) | 2017-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104978151A (zh) | 基于应用感知的重复数据删除存储系统中的数据重构方法 | |
US10289315B2 (en) | Managing I/O operations of large data objects in a cache memory device by dividing into chunks | |
US8392376B2 (en) | System and method for scalable reference management in a deduplication based storage system | |
US9251160B1 (en) | Data transfer between dissimilar deduplication systems | |
US8250033B1 (en) | Replication of a data set using differential snapshots | |
US8683156B2 (en) | Format-preserving deduplication of data | |
US8224875B1 (en) | Systems and methods for removing unreferenced data segments from deduplicated data systems | |
US9250819B2 (en) | Learning machine to optimize random access in a storage system | |
CN107391774B (zh) | 基于重复数据删除的日志文件系统的垃圾回收方法 | |
US20140359244A1 (en) | De-duplication with partitioning advice and automation | |
CN101777017B (zh) | 一种连续数据保护系统的快速恢复方法 | |
CN110998537B (zh) | 一种过期备份处理方法及备份服务器 | |
US20130151492A1 (en) | Information processing system | |
US9268832B1 (en) | Sorting a data set by using a limited amount of memory in a processing system | |
CN102929884A (zh) | 一种收缩虚拟磁盘镜像文件的方法及装置 | |
CN111522502B (zh) | 数据去重方法、装置、电子设备及计算机可读存储介质 | |
US8572338B1 (en) | Systems and methods for creating space-saving snapshots | |
Strzelczak et al. | Concurrent Deletion in a Distributed {Content-Addressable} Storage System with Global Deduplication | |
US11397706B2 (en) | System and method for reducing read amplification of archival storage using proactive consolidation | |
CN113535670B (zh) | 一种虚拟化资源镜像存储系统及其实现方法 | |
CN105493080B (zh) | 基于上下文感知的重复数据删除的方法和装置 | |
US12045203B2 (en) | Systems and methods for physical capacity estimation of logical space units | |
US11663166B2 (en) | Post-processing global deduplication algorithm for scaled-out deduplication file system | |
CN109189759A (zh) | Kv存储系统中的数据读取方法、数据查询方法、装置及设备 | |
CN104484402B (zh) | 一种删除重复数据的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |