CN103154950A - 重复数据删除方法及装置 - Google Patents

重复数据删除方法及装置 Download PDF

Info

Publication number
CN103154950A
CN103154950A CN2012800008638A CN201280000863A CN103154950A CN 103154950 A CN103154950 A CN 103154950A CN 2012800008638 A CN2012800008638 A CN 2012800008638A CN 201280000863 A CN201280000863 A CN 201280000863A CN 103154950 A CN103154950 A CN 103154950A
Authority
CN
China
Prior art keywords
data block
file
amended
data
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012800008638A
Other languages
English (en)
Other versions
CN103154950B (zh
Inventor
段雨梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103154950A publication Critical patent/CN103154950A/zh
Application granted granted Critical
Publication of CN103154950B publication Critical patent/CN103154950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种重复数据删除方法及装置,该重复数据删除方法包括:查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果;根据查询结果识别到数据块文件中存在与修改后的数据块相同的数据块时,根据数据块文件对修改后的数据块的索引进行更新;根据查询结果识别到数据块文件中不存在与修改后的数据块相同的数据块时,将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新。本发明实施例提供的重复数据删除方法及装置,实现对修改后的重复数据的删除,提高了其他数据块文件被修改的性能,提高了重复数据的删除效果。

Description

重复数据删除方法及装置
技术领域
本发明实施例涉及数据存储技术,尤其涉及一种重复数据删除方法及装置。
背景技术
随着全球化信息化的发展,企业数据呈爆炸式增长,企业数据冗余程度不断增高。重复数据删除技术是一种数据缩减技术,用于减少冗余数据在存储系统中使用的存储空间。
现有技术中的重复数据删除方法通常将用户文件分成多个数据块,对于重复的数据块只保留一个并记录在数据块文件中,建立用户文件与数据块文件的索引关系,以实现对重复数据的删除。当用户文件被修改时,需要建立对应于该用户文件的修改文件,将修改的数据块记录在该修改文件中,并建立修改后用户文件与修改文件的索引,即修改后的用户文件的索引分为两类:指向数据块文件的索引和指向修改文件的索引。由于修改文件与用户文件相对应,当大量用户文件被修改时,会生成大量的修改文件,修改文件多到一定程度是,会大大降低重删率,也会影响修改其他用户文件的性能。
发明内容
本发明实施例提供一种重复数据删除方法及装置,以避免了由于修改文件过多导致的重删率降低的问题,提高了重复数据的删除效果
本发明实施例提供一种重复数据删除方法,包括:
查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果,其中,所述数据块文件包括至少一个数据块,所述修改后的数据块为上一次重复数据删除后修改的数据块;
根据所述查询结果识别到所述数据块文件中存在与所述修改后的数据块相同的数据块时,根据所述数据块文件对所述修改后的数据块的索引进行更新;
根据所述查询结果识别到所述数据块文件中不存在与所述修改后的数据块相同的数据块时,将所述修改后的数据块添加到所述数据块文件中,并根据添加后的数据块文件对所述修改后的数据块的索引进行更新。
本发明实施例提供一种重复数据删除装置,包括:
查询模块,用于查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果,其中,所述数据块文件包括至少一个数据块,所述修改后的数据块为上一次重复数据删除后修改的数据块;
第一处理模块,用于根据所述查询结果识别到所述数据块文件中存在与所述修改后的数据块相同的数据块时,根据所述数据块文件对所述修改后的数据块的索引进行更新;
第二处理模块,用于根据所述查询结果识别到所述数据块文件中不存在与所述修改后的数据块相同的数据块时,将所述修改后的数据块添加到所述数据块文件中,并根据添加后的数据块文件对所述修改后的数据块的索引进行更新。
由上述技术方案可知,本发明实施例提供的重复数据删除方法及装置,查询数据块文件中是否存在与修改后的数据块相同的数据块,若数据块文件中存在与修改后的数据块相同的数据块,则根据数据块文件对修改后的数据块的索引进行更新,若数据块文件中不存在与修改后的数据块相同的数据块,则将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新。对于修改后的数据块,若数据块文件中已存在与该修改后的数据块内容一致的数据块,则直接修改该修改后的数据块的索引,实现对修改后的重复数据的删除。若该修改后的数据块的内容为新的内容,则将该修改后的数据块添加到数据块文件中,并更新该修改后的数据块的索引,无需建立新的修改文件。避免了由于修改文件过多导致的重删率降低的问题,提高了其他数据块文件被修改的性能,提高了重复数据的删除效果,提高了空间节约率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的重复数据删除方法流程图;
图2为本发明实施例二提供的重复数据删除方法流程图;
图3为本发明实施例三提供的重复数据删除装置结构示意图;
图4为本发明实施例四提供的重复数据删除装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例一提供的重复数据删除方法流程图。如图1所示,本实施例提供的重复数据删除方法具体可以应用于对存储系统中的重复数据的删除过程,可以通过重复数据删除装置来执行。该重复数据删除装置可以集成在该存储系统中,也可以单独设置。具体地,存储系统中的数据可以以用户文件的形式提供给用户,在未对存储系统中的数据进行任何处理时,用户浏览用户文件时,直接从存储系统中读取与该用户文件对应的数据并显示给用户,用户修改用户文件中的数据时,则直接对存储系统中与该用户文件对应的数据进行修改。对存储系统中的重复数据进行删除处理时,可以首先将数据划分为多个数据块。对数据进行划分可以采用定长分块方式也可以采用变长分块方式。定长分块方式中,数据块的容量均为预设容量,变长分块方式中,可以根据数据的内容对数据进行分块,将具有关联的内容划分在一个数据块内,可以提高数据块的完整性。对于重复的数据块只保留一个并记录在数据块文件中,建立用户文件与数据块文件的索引关系。该索引关系的格式中具体可以包括以下关键字段。
  数据块编号   数据块文件标识   偏移量   长度
数据块文件的数量具体为多个,可以为每个数据块文件分配唯一标识,偏移量用以指示该数据块在该数据块文件中的起始位置,长度用以指示该数据块的长度。可以建立单一实例库,以对多个数据块文件进行管理。
用户浏览用户文件时,可以根据该用户文件与数据块文件的索引关系,从数据块文件中读取数据并显示给用户。因此就用户而言,用户所浏览到的数据在进行重复数据删除操作前后并无差别。用户修改用户文件中的数据时,可以采用本实施例提供的重复数据删除方法。
本实施例提供的重复数据删除方法具体包括:
步骤10、查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果,其中,数据块文件包括至少一个数据块,修改后的数据块为上一次重复数据删除后修改的数据块;
用户对用户文件的修改具体为对用户文件中数据块的修改,用户修改的数据块即为修改后的数据块。根据修改后的数据块对数据块文件进行查询,具体地,当存在多个数据块文件时,需要对各数据块文件进行查询,判断数据块文件中是否存在与该修改后的数据块内容一致的数据块,若存在,则生成用以指示数据块文件中存在与该修改后的数据块相同的数据块的查询结果,若不存在,则生成用以指示数据块文件中不存在与该修改后的数据块相同的数据块的查询结果。
步骤20、根据查询结果识别到数据块文件中存在与修改后的数据块相同的数据块时,根据数据块文件对修改后的数据块的索引进行更新;
修改后的数据块的索引在更新之前,具体指向数据块文件中与修改前的数据块相同的数据块,若数据块文件中存在与该修改后的数据块相同的数据块,则将该修改后的数据块的索引更新为指向数据块文件中与该修改后的数据块相同的数据块。
步骤30、根据查询结果识别到数据块文件中不存在与修改后的数据块相同的数据块时,将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新。
若数据块文件中不存在与该修改后的数据块相同的数据块,则将该修改后的数据块添加到数据块文件中,并将该修改后的数据块的索引更新为指向数据块文件中与该被修改数据块相同的数据块,即新添加的数据块。
值得注意的是,步骤20和步骤30分别为针对不同查询结果的处理方式,不具有必然的时序性。
本实施例提供的重复数据删除方法,查询数据块文件中是否存在与修改后的数据块相同的数据块,若数据块文件中存在与修改后的数据块相同的数据块,则根据数据块文件对修改后的数据块的索引进行更新,若数据块文件中不存在与修改后的数据块相同的数据块,则将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新。对于修改后的数据块,若数据块文件中已存在与该修改后的数据块内容一致的数据块,则直接修改该修改后的数据块的索引,实现对修改后的重复数据的删除。若该修改后的数据块的内容为新的内容,则将该修改后的数据块添加到数据块文件中,并更新该修改后的数据块的索引,无需建立新的修改文件。避免了由于修改文件过多导致的重删率降低的问题,提高了其他数据块文件被修改的性能,提高了重复数据的删除效果,提高了空间节约率。
实施例二
图2为本发明实施例二提供的重复数据删除方法流程图。如图2所示,本实施例提供的重复数据删除方法在图1所示实施例的基础上,步骤10,根据修改后的数据块对数据块文件进行查询,生成查询结果之前,具体还可以包括如下步骤:
步骤40、将修改文件中的数据划分成修改后的数据块,修改文件用以记录上一次重复数据删除后修改的数据;
具体地,在实际应用中,在对用户文件进行修改时,也可以通过对应于该用户文件的修改文件记录修改后的数据,并建立用户文件与修改文件的索引关系。该索引关系可以单独记录,也可以在用户文件与数据块文件索引关系的基础上进行扩展,如将索引关系中的数据块文件标识设置为0以指示该数据块为经过修改后的数据块,其对应的记录存在于修改文件中。
将修改文件中的数据划分为多个数据块,以作为上述修改后的数据块。类似地,对修改文件中数据的划分方式也可以为定长分块方式或变长分块方式。根据修改后的数据块对数据块文件进行查询,若数据块文件中存在与修改后的数据块相同的数据块,则根据数据块文件对修改后的数据块的索引进行更新,若数据块文件中不存在与修改后的数据块相同的数据块,则将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新。
相应地,对修改后的数据块的索引进行更新之后,还包括:
步骤50、当修改文件中所有的修改后的数据块的索引都更新后,将修改文件删除。
具体地,对修改后的数据块的索引进行更新可以为步骤20中的索引更新步骤,也可以为步骤30中的索引更新步骤。
数据块文件中存在与修改后的数据块内容一致的数据块时,将原本指向修改文件的索引更新为指向数据块文件,数据块文件中不存在与修改后的数据块内容一致的数据块时,将该修改后的数据块添加到数据块文件中后,将原本指向修改文件的索引更新为指向该数据块文件,将用户文件与修改文件的索引关系更新为用户文件与数据块文件的索引关系,实现了对修改文件的数据删除。通过对修改文件的删除,释放修改文件占用的空间,进一步提高了重删效率和其他数据块文件被修改的性能。
本实施例提供的重复数据删除方法具体可以应用于对修改文件的数据整理,即可以先通过修改文件对修改的数据进行记录,再进行离线的修改文件重复数据删除,可以避免用户修改数据时资源的占用。
进一步地,在本实施例中,步骤40,将修改文件中的数据划分成修改后的数据块,可以包括如下步骤:
从修改文件中获取连续修改数据,若连续修改数据的容量大于预设阈值,则根据预设阈值将连续修改数据划分为至少两个修改后的数据块,若连续修改数据的容量不大于预设阈值,则将连续修改数据作为一个修改后的数据块。
连续修改数据即对应于用户文件一段连续的数据,通过以连续修改数据作为修改后数据块的划分基础,可以避免将分散的修改数据划分到一个数据块中时无法查询到相同的数据块的情况,提高了重复数据的匹配效果。
在本实施例中,步骤10,根据修改后的数据块对数据块文件进行查询,生成查询结果,具体可以包括如下步骤:
计算修改后的数据块的哈希值,将修改后的数据块的哈希值分别与获取到的数据块文件中各数据块的哈希值进行匹配,若匹配成功,则生成用以指示数据块文件中存在与修改后的数据块相同的数据块的查询结果,若匹配失败,则生成用以指示数据块文件中不存在与修改后的数据块相同的数据块的查询结果。
具体地,可以预先对所有的数据块文件中的各数据块的哈希值进行计算,并统一存储在单一实例库中。为修改后的数据块查询与其相同的数据块时,可以计算出修改后的数据块的哈希值,再根据该哈希值对单一实例库存储的哈希值进行查询。哈希值相同的两个数据块的内容一致,即为重复数据。通过匹配哈希值的方式确定重复数据,方法简单,便于实现。对于数据块的匹配过程也可以采用其他方式,不以本实施例为限。
在本实施例中,步骤20中的,根据数据块文件对修改后的数据块的索引进行更新之前,还可以包括如下步骤:
根据修改后的数据块的索引,将数据块文件中的、索引对应的数据块的引用次数减1,若减至0,则将数据块文件中的、索引对应的数据块删除;
步骤20中的,根据数据块文件对修改后的数据块的索引进行更新,具体可以包括如下步骤:
根据数据块文件中与修改后的数据块相同的数据块,对修改后的数据块的索引进行更新;
步骤20中的,根据数据块文件对修改后的数据块的索引进行更新之后,还可以包括如下步骤:
将数据块文件中与修改后的数据块相同的数据块的引用次数加1;
步骤30中的,根据添加后的数据块文件对修改后的数据块的索引进行更新,具体可以包括如下步骤:
根据添加后的数据块文件中与修改后的数据块相同的数据块,对修改后的数据块的索引进行更新;
步骤30中的,根据添加后的数据块文件对修改后的数据块的索引进行更新之后,还可以包括如下步骤:
将添加后的数据块文件中与修改后的数据块相同的数据块的引用次数设置为1。
通过数据块文件中数据块引用次数的记录,可以反映各数据块的引用情况,当某个数据块的引用次数为0时,说明用户文件中已不存在指向该数据块的数据,则可以将数据块文件中的该数据块删除,实现了对数据块文件的精简,避免了数据块文件的数据冗余。
实施例三
图3为本发明实施例三提供的重复数据删除装置结构示意图。如图3所示,本实施例提供的重复数据删除装置具体可以实现本发明任意实施例提供的重复数据删除方法的各个步骤,此不再赘述。
本实施例提供的重复数据删除装置具体包括查询模块11、第一处理模块12和第二处理模块13。查询模块11用于查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果,其中,数据块文件包括至少一个数据块,修改后的数据块为上一次重复数据删除后修改的数据块。第一处理模块12用于根据查询结果识别到数据块文件中存在与修改后的数据块相同的数据块时,根据数据块文件对修改后的数据块的索引进行更新。第二处理模块13用于根据查询结果识别到数据块文件中不存在与修改后的数据块相同的数据块时,将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新。
本实施例提供的重复数据删除装置,查询模块11查询数据块文件中是否存在与修改后的数据块相同的数据块,若数据块文件中存在与修改后的数据块相同的数据块,则第一处理模块12根据数据块文件对修改后的数据块的索引进行更新,若数据块文件中不存在与修改后的数据块相同的数据块,则第二处理模块13将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新。对于修改后的数据块,若数据块文件中已存在与该修改后的数据块内容一致的数据块,则直接修改该修改后的数据块的索引,实现对修改后的重复数据的删除。若该修改后的数据块的内容为新的内容,则将该修改后的数据块添加到数据块文件中,并更新该修改后的数据块的索引,无需建立新的修改文件。避免了由于修改文件过多导致的重删率降低的问题,提高了其他数据块文件被修改的性能,提高了重复数据的删除效果,提高了空间节约率。
实施例四
图4为本发明实施例四提供的重复数据删除装置结构示意图。如图4所示,本实施例提供的重复数据删除装置在图3所示实施例的基础上,进一步地,还可以包括修改文件划分模块14和删除模块15。修改文件划分模块14用于将修改文件中的数据划分成修改后的数据块,修改文件用以记录上一次重复数据删除后修改的数据。删除模块15用于当修改文件中所有的修改后的数据块的索引都更新后,将修改文件删除。通过修改文件划分模块14和删除模块15的设置,实现了对修改文件的重复数据的删除,且可以先通过修改文件对修改的数据进行记录,再进行离线的修改文件重复数据删除,可以避免用户修改数据时资源的占用。
进一步地,在本实施例中,修改文件划分模块14还可以用于从修改文件中获取连续修改数据,若连续修改数据的容量大于预设阈值,则根据预设阈值将连续修改数据划分为至少两个修改后的数据块,若连续修改数据的容量不大于预设阈值,则将连续修改数据作为一个修改后的数据块。通过以连续修改数据作为修改后数据块的划分基础,可以避免将分散的修改数据划分到一个数据块中时无法查询到相同的数据块的情况,提高了重复数据的匹配效果。
在本实施例中,查询模块11具体还可以用于计算修改后的数据块,将修改后的数据块的哈希值分别与获取到的数据块文件中各数据块的哈希值进行匹配,若匹配成功,则生成用以指示数据块文件中存在与修改后的数据块相同的数据块的查询结果,若匹配失败,则生成用以指示数据块文件中不存在与修改后的数据块相同的数据块的查询结果。通过匹配哈希值的方式确定重复数据,方法简单,便于实现。
进一步地,在本实施例,第一处理模块12还可以用于根据修改后的数据块的索引,将数据块文件中的、索引对应的数据块的引用次数减1,若减至0,则将数据块文件中的、索引对应的数据块删除,根据数据块文件中与修改后的数据块相同的数据块,对修改后的数据块的索引进行更新,将数据块文件中与修改后的数据块相同的数据块的引用次数加1。第二处理模块13还可以用于根据添加后的数据块文件中与修改后的数据块相同的数据块,对修改后的数据块的索引进行更新,将添加后的数据块文件中与修改后的数据块相同的数据块的引用次数设置为1。通过数据块文件中数据块引用次数的记录,可以反映各数据块的引用情况,当某个数据块的引用次数为0时,说明用户文件中已不存在纸箱该数据块的数据,则可以将数据块文件中的该数据块删除,实现了对数据块文件的精简,避免了数据块文件的数据冗余。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种重复数据删除方法,其特征在于,包括:
查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果,其中,所述数据块文件包括至少一个数据块,所述修改后的数据块为上一次重复数据删除后修改的数据块;
根据所述查询结果识别到所述数据块文件中存在与所述修改后的数据块相同的数据块时,根据所述数据块文件对所述修改后的数据块的索引进行更新;
根据所述查询结果识别到所述数据块文件中不存在与所述修改后的数据块相同的数据块时,将所述修改后的数据块添加到所述数据块文件中,并根据添加后的数据块文件对所述修改后的数据块的索引进行更新。
2.根据权利要求1所述的重复数据删除方法,其特征在于:
根据修改后的数据块对数据块文件进行查询,生成查询结果之前,还包括:
将修改文件中的数据划分成所述修改后的数据块,所述修改文件用以记录所述上一次重复数据删除后修改的数据;
相应地,对所述修改后的数据块的索引进行更新之后,还包括:
当所述修改文件中所有的所述修改后的数据块的索引都更新后,将所述修改文件删除。
3.根据权利要求2所述的重复数据删除方法,其特征在于,将修改文件中的数据划分成所述修改后的数据块,包括:
从所述修改文件中获取连续修改数据,若所述连续修改数据的容量大于预设阈值,则根据所述预设阈值将所述连续修改数据划分为至少两个所述修改后的数据块,若所述连续修改数据的容量不大于所述预设阈值,则将所述连续修改数据作为一个所述修改后的数据块。
4.根据权利要求1或2或3所述的重复数据删除方法,其特征在于,根据修改后的数据块对数据块文件进行查询,生成查询结果,包括:
计算所述修改后的数据块的哈希值,将所述修改后的数据块的哈希值分别与获取到的所述数据块文件中各数据块的哈希值进行匹配,若匹配成功,则生成用以指示所述数据块文件中存在与所述修改后的数据块相同的数据块的查询结果,若匹配失败,则生成用以指示所述数据块文件中不存在与所述修改后的数据块相同的数据块的查询结果。
5.根据权利要求1或2或3所述的重复数据删除方法,其特征在于:
根据所述数据块文件对所述修改后的数据块的索引进行更新之前,还包括:
根据所述修改后的数据块的索引,将所述数据块文件中的、所述索引对应的数据块的引用次数减1,若减至0,则将所述数据块文件中的、所述索引对应的数据块删除;
根据所述数据块文件对所述修改后的数据块的索引进行更新,包括:
根据所述数据块文件中与所述修改后的数据块相同的数据块,对所述修改后的数据块的索引进行更新;
根据所述数据块文件对所述修改后的数据块的索引进行更新之后,还包括:
将所述数据块文件中与所述修改后的数据块相同的数据块的引用次数加1;
所述根据添加后的数据块文件对所述修改后的数据块的索引进行更新,包括:
根据所述添加后的数据块文件中与所述修改后的数据块相同的数据块,对所述修改后的数据块的索引进行更新;
所述根据添加后的数据块文件对所述修改后的数据块的索引进行更新之后,还包括:
将所述添加后的数据块文件中与所述修改后的数据块相同的数据块的引用次数设置为1。
6.一种重复数据删除装置,其特征在于,包括:
查询模块,用于查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果,其中,所述数据块文件包括至少一个数据块,所述修改后的数据块为上一次重复数据删除后修改的数据块;
第一处理模块,用于根据所述查询结果识别到所述数据块文件中存在与所述修改后的数据块相同的数据块时,根据所述数据块文件对所述修改后的数据块的索引进行更新;
第二处理模块,用于根据所述查询结果识别到所述数据块文件中不存在与所述修改后的数据块相同的数据块时,将所述修改后的数据块添加到所述数据块文件中,并根据添加后的数据块文件对所述修改后的数据块的索引进行更新。
7.根据权利要求6所述的重复数据删除装置,其特征在于,还包括:
修改文件划分模块,用于将修改文件中的数据划分成所述修改后的数据块,所述修改文件用以记录所述上一次重复数据删除后修改的数据;
删除模块,用于当所述修改文件中所有的所述修改后的数据块的索引都更新后,将所述修改文件删除。
8.根据权利要求7所述的重复数据删除装置,其特征在于:所述修改文件划分模块还用于从所述修改文件中获取连续修改数据,若所述连续修改数据的容量大于预设阈值,则根据所述预设阈值将所述连续修改数据划分为至少两个所述修改后的数据块,若所述连续修改数据的容量不大于所述预设阈值,则将所述连续修改数据作为一个所述修改后的数据块。
9.根据权利要求6或7或8所述的重复数据删除装置,其特征在于:所述查询模块还用于计算所述修改后的数据块,将所述修改后的数据块的哈希值分别与获取到的所述数据块文件中各数据块的哈希值进行匹配,若匹配成功,则生成用以指示所述数据块文件中存在与所述修改后的数据块相同的数据块的查询结果,若匹配失败,则生成用以指示所述数据块文件中不存在与所述修改后的数据块相同的数据块的查询结果。
10.根据权利要求6或7或8所述的重复数据删除装置,其特征在于:
所述第一处理模块还用于根据所述修改后的数据块的索引,将所述数据块文件中的、所述索引对应的数据块的引用次数减1,若减至0,则将所述数据块文件中的、所述索引对应的数据块删除,根据所述数据块文件中与所述修改后的数据块相同的数据块,对所述修改后的数据块的索引进行更新,将所述数据块文件中与所述修改后的数据块相同的数据块的引用次数加1;
所述第二处理模块还用于根据所述添加后的数据块文件中与所述修改后的数据块相同的数据块,对所述修改后的数据块的索引进行更新,将所述添加后的数据块文件中与所述修改后的数据块相同的数据块的引用次数设置为1。
CN201280000863.8A 2012-05-04 2012-05-04 重复数据删除方法及装置 Active CN103154950B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/075082 WO2013163813A1 (zh) 2012-05-04 2012-05-04 重复数据删除方法及装置

Publications (2)

Publication Number Publication Date
CN103154950A true CN103154950A (zh) 2013-06-12
CN103154950B CN103154950B (zh) 2014-12-10

Family

ID=48550827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280000863.8A Active CN103154950B (zh) 2012-05-04 2012-05-04 重复数据删除方法及装置

Country Status (4)

Country Link
US (1) US8719237B2 (zh)
EP (3) EP2688000A4 (zh)
CN (1) CN103154950B (zh)
WO (1) WO2013163813A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455631A (zh) * 2013-09-22 2013-12-18 广州中国科学院软件应用技术研究所 一种数据处理方法、装置及系统
CN103559106A (zh) * 2013-10-14 2014-02-05 华为技术有限公司 一种数据的备份方法、装置及系统
CN103577565A (zh) * 2013-10-25 2014-02-12 华为技术有限公司 一种将文件导出到磁带的方法和装置
CN104484402A (zh) * 2014-12-15 2015-04-01 杭州华三通信技术有限公司 一种删除重复数据的方法及装置
CN104932841A (zh) * 2015-06-17 2015-09-23 南京邮电大学 一种云存储系统中节约型重复数据删除方法
CN106406762A (zh) * 2016-09-19 2017-02-15 郑州云海信息技术有限公司 一种重复数据删除方法及装置
CN106775452A (zh) * 2016-11-18 2017-05-31 郑州云海信息技术有限公司 一种数据监管方法及系统
CN107220005A (zh) * 2017-05-27 2017-09-29 郑州云海信息技术有限公司 一种数据操作方法及系统
CN107229420A (zh) * 2017-05-27 2017-10-03 郑州云海信息技术有限公司 数据存储方法、读取方法、删除方法和数据操作系统
CN107329702A (zh) * 2017-06-30 2017-11-07 郑州云海信息技术有限公司 一种自精简元数据管理方法及装置
CN109951490A (zh) * 2019-03-27 2019-06-28 远光软件股份有限公司 基于区块链的网页防篡改方法、系统及电子设备
CN113721836A (zh) * 2021-06-15 2021-11-30 荣耀终端有限公司 一种数据去重方法及装置
WO2021248863A1 (zh) * 2020-06-11 2021-12-16 华为技术有限公司 数据处理方法及存储设备
CN114333251A (zh) * 2021-12-29 2022-04-12 成都中科慧源科技有限公司 一种智能报警器、方法、系统、设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066503A (zh) * 2017-01-05 2017-08-18 郑州云海信息技术有限公司 海量元数据分片分布的方法及装置
CN108446076A (zh) * 2018-01-30 2018-08-24 上海天旦网络科技发展有限公司 基于网络摘要数据的索引创建方法和系统
CN111045856A (zh) * 2018-10-12 2020-04-21 伊姆西Ip控股有限责任公司 用于管理应用系统的方法、设备和计算机程序产品
CN117435135B (zh) * 2023-10-27 2024-04-02 广州鼎甲计算机科技有限公司 关于重复数据删除的存储空间回收的方法、装置和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599079A (zh) * 2009-07-22 2009-12-09 中国科学院计算技术研究所 一种备份数据集中存储的管理方法
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315984B2 (en) * 2007-05-22 2012-11-20 Netapp, Inc. System and method for on-the-fly elimination of redundant data
CN101409706B (zh) * 2007-10-09 2011-11-23 华为技术有限公司 一种边缘网络中的数据分发方法、数据分发系统及相关设备
US8266114B2 (en) * 2008-09-22 2012-09-11 Riverbed Technology, Inc. Log structured content addressable deduplicating storage
US8086799B2 (en) * 2008-08-12 2011-12-27 Netapp, Inc. Scalable deduplication of stored data
US8346736B2 (en) * 2009-03-16 2013-01-01 International Business Machines Corporation Apparatus and method to deduplicate data
US9058298B2 (en) * 2009-07-16 2015-06-16 International Business Machines Corporation Integrated approach for deduplicating data in a distributed environment that involves a source and a target
US8204867B2 (en) * 2009-07-29 2012-06-19 International Business Machines Corporation Apparatus, system, and method for enhanced block-level deduplication
CN101814045B (zh) * 2010-04-22 2011-09-14 华中科技大学 一种用于备份服务的数据组织方法
US8396843B2 (en) * 2010-06-14 2013-03-12 Dell Products L.P. Active file instant cloning
CN102142006B (zh) * 2010-10-27 2013-10-02 华为技术有限公司 分布式文件系统的文件处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599079A (zh) * 2009-07-22 2009-12-09 中国科学院计算技术研究所 一种备份数据集中存储的管理方法
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455631A (zh) * 2013-09-22 2013-12-18 广州中国科学院软件应用技术研究所 一种数据处理方法、装置及系统
CN103559106A (zh) * 2013-10-14 2014-02-05 华为技术有限公司 一种数据的备份方法、装置及系统
CN103559106B (zh) * 2013-10-14 2016-03-02 华为技术有限公司 一种数据的备份方法、装置及系统
CN103577565A (zh) * 2013-10-25 2014-02-12 华为技术有限公司 一种将文件导出到磁带的方法和装置
CN103577565B (zh) * 2013-10-25 2017-01-04 华为技术有限公司 一种将文件导出到磁带的方法和装置
CN104484402B (zh) * 2014-12-15 2018-02-09 新华三技术有限公司 一种删除重复数据的方法及装置
CN104484402A (zh) * 2014-12-15 2015-04-01 杭州华三通信技术有限公司 一种删除重复数据的方法及装置
CN104932841A (zh) * 2015-06-17 2015-09-23 南京邮电大学 一种云存储系统中节约型重复数据删除方法
CN104932841B (zh) * 2015-06-17 2018-05-08 南京邮电大学 一种云存储系统中节约型重复数据删除方法
CN106406762A (zh) * 2016-09-19 2017-02-15 郑州云海信息技术有限公司 一种重复数据删除方法及装置
CN106775452A (zh) * 2016-11-18 2017-05-31 郑州云海信息技术有限公司 一种数据监管方法及系统
CN107229420A (zh) * 2017-05-27 2017-10-03 郑州云海信息技术有限公司 数据存储方法、读取方法、删除方法和数据操作系统
CN107220005A (zh) * 2017-05-27 2017-09-29 郑州云海信息技术有限公司 一种数据操作方法及系统
CN107229420B (zh) * 2017-05-27 2020-05-26 苏州浪潮智能科技有限公司 数据存储方法、读取方法、删除方法和数据操作系统
CN107329702A (zh) * 2017-06-30 2017-11-07 郑州云海信息技术有限公司 一种自精简元数据管理方法及装置
CN107329702B (zh) * 2017-06-30 2020-08-21 苏州浪潮智能科技有限公司 一种自精简元数据管理方法及装置
CN109951490A (zh) * 2019-03-27 2019-06-28 远光软件股份有限公司 基于区块链的网页防篡改方法、系统及电子设备
WO2021248863A1 (zh) * 2020-06-11 2021-12-16 华为技术有限公司 数据处理方法及存储设备
US12001703B2 (en) 2020-06-11 2024-06-04 Huawei Technologies Co., Ltd. Data processing method and storage device
CN113721836A (zh) * 2021-06-15 2021-11-30 荣耀终端有限公司 一种数据去重方法及装置
CN114333251A (zh) * 2021-12-29 2022-04-12 成都中科慧源科技有限公司 一种智能报警器、方法、系统、设备和存储介质

Also Published As

Publication number Publication date
EP2688000A1 (en) 2014-01-22
US8719237B2 (en) 2014-05-06
EP2688000A4 (en) 2014-01-22
US20130297570A1 (en) 2013-11-07
EP3196781A1 (en) 2017-07-26
WO2013163813A1 (zh) 2013-11-07
CN103154950B (zh) 2014-12-10
EP3779715A1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
CN103154950B (zh) 重复数据删除方法及装置
US9280487B2 (en) Methods and apparatus for data processing using data compression, linked lists and de-duplication techniques
US10831734B2 (en) Update-insert for key-value storage interface
US9489388B2 (en) Computing system, host system and method for managing data
CN102096639B (zh) 用于修剪在非易失性闪速介质上的数据的方法
CN103164490B (zh) 一种不固定长度数据的高效存储实现方法和装置
CN103020255B (zh) 分级存储方法和装置
CN103677674B (zh) 一种数据处理方法及装置
CN102495894A (zh) 重复数据查找方法、装置及系统
CN103870514A (zh) 重复数据删除方法和装置
CN105224237A (zh) 一种数据存储方法及装置
CN103544077A (zh) 数据处理方法及装置、共享存储设备
CN103995855A (zh) 存储数据的方法和装置
CN105787037B (zh) 一种重复数据的删除方法及装置
CN102831072A (zh) 闪存设备及其管理方法、数据读写方法及读写装置
CN104423894A (zh) 数据储存装置以及快闪存储器控制方法
CN102629247A (zh) 一种数据处理方法、装置和系统
CN104636414A (zh) 提供对更新后的文件的访问的方法和执行该方法的计算机
CN103577336A (zh) 一种存储数据处理方法及装置
CN103677653A (zh) 一种基于ssd的数据处理方法及电子设备
CN103558998A (zh) 一种数据操作的方法和设备
CN103902562A (zh) 一种终端数据库升级方法及相关装置
CN103389942A (zh) 控制装置、存储装置及存储控制方法
CN103430178A (zh) 数据更新方法及装置和产品
CN104317963A (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant