CN105787037A - 一种重复数据的删除方法及装置 - Google Patents

一种重复数据的删除方法及装置 Download PDF

Info

Publication number
CN105787037A
CN105787037A CN201610105365.XA CN201610105365A CN105787037A CN 105787037 A CN105787037 A CN 105787037A CN 201610105365 A CN201610105365 A CN 201610105365A CN 105787037 A CN105787037 A CN 105787037A
Authority
CN
China
Prior art keywords
data
file
read
write
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610105365.XA
Other languages
English (en)
Other versions
CN105787037B (zh
Inventor
刘相乐
杨敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201610105365.XA priority Critical patent/CN105787037B/zh
Publication of CN105787037A publication Critical patent/CN105787037A/zh
Application granted granted Critical
Publication of CN105787037B publication Critical patent/CN105787037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种重复数据的删除方法及装置,包括:在文件读写频率表中查询与待写入的目标文件相似的文件的读写频率,并判断所述读写频率是否大于预定阈值;若是,则将所述目标文件写入新分配的磁盘空间中;若否,则通过重复数据删除策略将所述目标文件写入新分配的磁盘空间。可见,在本实施例中通过将重复数据删除策略的执行与文件的读写频率相结合,对读写频次数较高的文件不对其执行重复数据删除操作,从而减少磁盘碎片,减少寻道时间,提高系统的性能,实现了更合理的删除重复数据。

Description

一种重复数据的删除方法及装置
技术领域
本发明涉及计算机存储技术领域,更具体地说,涉及一种重复数据的删除方法及装置。
背景技术
随着IT技术的不断发展中,许多行业呈现出数字化迅猛发展趋势,信息存储的应用领域越来越广泛,加之云技术、云存储的应用,企业数据中心存储需求量越来越庞大,数据量呈指数级增长,已从以前的TB级上升到PB级,甚至EB级别。同时,研究表明,在应用系统所保存的数据中,大量的重复数据造成了存储资源的严重浪费,因此存储系统中数据高冗余问题受到越来越多的关注,如何缩减存储系统数据存储容量已经成为一个非常紧迫而且有必要的问题,而重复数据删除技术是其中一种容量优化技术,他通过查找文件中的重复数据块,然后将其用索引/元数据进行取代,也就是说不同文件或相同文件可以通过共享一份同样的数据块,将其与重复的数据块进行删除以达到减少存储容量的目的。
基于块的重复数据删除是目前主流的重复数据删除方法,他是一种在线删除数据的方法,即不需要开辟空间缓存数据量,而是随着数据流的输入不断执行重复数据删除操作。然而这种在线重复数据删除方法同时存在很多问题,最主要的就是影响系统的性能,尤其是当数据量特别大时,在查找重复数据的过程中会耗费大量时间。同时,由于重复的数据使用索引的方式从而使文件会有更多的碎片造成数据再读写过程中需要耗费更多的寻道时间。这一切都造成系统响应延迟,严重时甚至延迟的代价高于数据冗余的代价。
因此,如何合理的删除重复数据是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种重复数据的删除方法及装置,以实现合理的删除重复数据。
为实现上述目的,本发明实施例提供了如下技术方案:
一种重复数据的删除方法,包括:
在文件读写频率表中查询与待写入的目标文件相似的文件的读写频率,并判断所述读写频率是否大于预定阈值;
若是,则将所述目标文件写入新分配的磁盘空间中;若否,则通过重复数据删除策略将所述目标文件写入新分配的磁盘空间。
优选的,通过重复数据删除策略将所述目标文件写入新分配的磁盘空间之后,包括:
将文件读写频率表中的与所述目标文件相似的文件的读写次数加一。
优选的,还包括:
将读写频率大于预定频率阈值的文件作为原始文件,并检测所述原始文件是否引用其他数据;
若是,则检测所述原始文件的内存值及所述原始文件的引用数据的内存值;
向所述原始数据分配目标内存空间,并将所述原始数据和所述原始数据的引用数据写入所述目标内存空间;其中,所述目标内存空间的内存值不小于所述原始文件的内存值与所述原始文件的引用数据的内存值之和。
优选的,还包括:
检测内存中的哈希索引表的所占内存是否大于预定内存阈值;
若是,则清除所述哈希索引表中比对次数小于预定次数阈值的哈希值数据。
优选的,还包括:
遍历文件inode中的extent信息;
判断每个extent所包含地址的数据的引用次数是否小于预定引用次数;
若是,则从指纹库中删除引用次数小于预定引用次数的数据所对应的指纹信息,并将引用次数小于预定引用次数的数据的地址标记为未使用。
一种重复数据的删除装置,包括:
读写频率判断模块,用于在文件读写频率表中查询与待写入的目标文件相似的文件的读写频率,判断所述读写频率是否大于预定阈值;
若是,则触发第一写入模块;若否,则触发第二写入模块;
所述第一写入模块,用于将所述目标文件写入新分配的磁盘空间中;
所述第二写入模块,用于通过重复数据删除策略将所述目标文件写入新分配的磁盘空间。
优选的,包括:
读写频率更新模块,用于通过重复数据删除策略将所述目标文件写入新分配的磁盘空间之后,将文件读写频率表中的与所述目标文件相似的文件的读写次数加一。
优选的,还包括:
第一检测模块,用于将读写频率大于预定频率阈值的文件作为原始文件,并检测所述原始文件是否引用其他数据;若是,则触发内存值检测模块;
所述内存值检测模块,用于检测所述原始文件的内存值及所述原始文件的引用数据的内存值;
第三写入模块,用于向所述原始数据分配目标内存空间,并将所述原始数据和所述原始数据的引用数据写入所述目标内存空间;
其中,所述目标内存空间的内存值不小于所述原始文件的内存值与所述原始文件的引用数据的内存值之和。
优选的,还包括:
第二检测模块,用于检测内存中的哈希索引表的所占内存是否大于预定内存阈值;
若是,则触发哈希值数据清除模块;
所述哈希值数据清除模块,用于清除所述哈希索引表中比对次数小于预定次数阈值的哈希值数据。
优选的,还包括:
判断模块,用于遍历文件inode中的extent信息,判断每个extent所包含地址的数据的引用次数是否小于预定引用次数,若是,则触发执行模块;
所述执行模块,用于从指纹库中删除引用次数小于预定引用次数的数据所对应的指纹信息,并将引用次数小于预定引用次数的数据的地址标记为未使用。
通过以上方案可知,本发明实施例提供的一种重复数据的删除方法及装置,包括:在文件读写频率表中查询与待写入的目标文件相似的文件的读写频率,并判断所述读写频率是否大于预定阈值;若是,则将所述目标文件写入新分配的磁盘空间中;若否,则通过重复数据删除策略将所述目标文件写入新分配的磁盘空间。可见,在本实施例中通过将重复数据删除策略的执行与文件的读写频率相结合,对读写频次数较高的文件不对其执行重复数据删除操作,从而减少磁盘碎片,减少寻道时间,提高系统的性能,实现了更合理的删除重复数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种重复数据的删除方法流程示意图;
图2为本发明实施例公开的一种重复数据的删除装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种重复数据的删除方法及装置,以实现合理的删除重复数据。
参见图1,本发明实施例提供的一种重复数据的删除方法,包括:
S101、在文件读写频率表中查询与待写入的目标文件相似的文件的读写频率;
具体的,在本实施例所述的重复数据的删除方法适用于以extent方式进行空间管理的文件系统中,这里以extent的方式管理空间是指将文件系统逻辑块以extent的方式组织,再以多个extent组成文件。在本申请中的读写频率是指在一定时间范围内对文件的读写频率。
具体的,在系统运行过程中统计文件的读写频率,执行文件写操作时,对比文件读写频率表,然后对读写频率稍低的文件进行重复数据删除操作。文件读写频率表是系统对文件在一定时间内读写次数的记录,其内容包括文件的inode和文件的读写次数。对文件的读写次数设定一个阀值RW_times,当文件超过这个阀值时,对该文件不再使用重复数据删除策略,同时如果该文件曾经进行过重复数据删除即如果该文件的数据含有引用其他文件中的数据,需要进行文件数据整理操作,去除引用,从而提高文件的读写速度。
在本实施例中的文件inode是在文件系统数据结构inode的基础上改进而来的,在原有inode的基础上增加了两个标志位taga和tagb,taga标示是否可以对该文件使用重复数据删除策略,当该文件在一定时间范围内的读写次数达到阀值RW_times以后就会设置该标志位。tagb标示文件中数据引用其他地方的数据的次数,只在对该文件使用重复数据删除策略即taga设置以后有效。
S102、判断所述读写频率是否大于预定阈值;
若是,则执行S103;若否,则执行S104;
S103、将所述目标文件写入新分配的磁盘空间中;
S104、通过重复数据删除策略将所述目标文件写入新分配的磁盘空间。
具体的,通常重复数据删除策略是指在线重删,在线重删是指在系统正常运行过程进行重复数据的查找和删除操作,该操作不能影响用户业务的正常运行。但是在线重删系统过程中会占用很多的内存,在线重删操作,会使数据文件产生更多的碎片,从而使文件在读写过程中耗费更多的寻道时间,降低了系统性能,所以,对读写频率高的文件,应该尽量减少文件碎片从而减少文件读取时的寻道时间。因此在本申请中通过对读写频率高的文件不使用重删操作会更好的提高系统的性能,能使系统性能和数据重复率达到一个很好的平衡。
具体的,当文件系统有写请求到来时,本实施例提供的写文件的具体流程如下:
1、读取与待写入的目标文件相似的文件,并读取该文件inode的taga标记,判断是否使用重复数据删除策略;如果不能使用重复数据删除策略,则对待写入的数据分配空间,并写到磁盘,结束写流程;若能适用重复数据删除策略,则执行后续步骤。
其中,通过重复数据删除策略将所述目标文件写入新分配的磁盘空间之后,包括:将文件读写频率表中的与所述目标文件相似的文件的读写次数加一。
其中,在每次读取完文件之后,都会将相应的文件读写频率表中的读写次数加1,并将修改后的文件读写次数与设定的读写次数阀值RW_times比较,如果大于或等于该值,设置inode的taga标记为不再对该文件使用重复数据删除策略。
2、如果可以使用该策略,则将所要写到磁盘的数据按预先设置的段大小分段,对分段后的数据逐个计算该数据段的哈希值,将计算得到的数据段的哈希值与缓存中的指纹哈希索引表对比,检索是否是重复的数据段;如果是重复的数据段,则将该文件的该extent标记为引用,修改该extent的地址为引用的数据段的地址,将指纹哈希索引表中对应项的Data_counter值加1,将哈希索引表中对应项的Com_counter值加1;如果不是重复的数据段则为数据分配空间将数据写到磁盘,同时将该数据段的哈希值信息记录到哈希索引表中。
基于上述技术方案,本方案还包括:
检测内存中的哈希索引表的所占内存是否大于预定内存阈值;
若是,则清除所述哈希索引表中比对次数小于预定次数阈值的哈希值数据。
具体的,判断哈希索引表所占的内存是否达到预先设计的内存比例阈值,如果达到该阈值,则将匹配次数最少的哈希值数据项从该表中移除。
具体的,数据段的哈希值是指用来对比两个数据段是否相同的标志,如果两个哈希值相同说明这两个数据段的内容是完全相同的,即数据是重复的,要进行重复数据删除的操作。哈希值可以使用SHA、MD5等算法产生,本说明中使用MD5。
所述指纹哈希索引表是磁盘中所存储的指纹库的一部分。磁盘中的指纹库存放的是磁盘中所有文件数据按相同段大小划分后计算得到的哈希值以及该段数据的地址信息,同时表中的每一项还保存了该段数据的引用次数Data_counter。当磁盘数据量特别大时,该指纹库的数据量也会非常大,不可能全部放入内存中,因此只会将被引用次数高使用频繁的哈希值信息放入内存中组成内存中的哈希索引表。内存中的哈希索引表的每一项信息包含四个信息段,分别是哈希值、地址值、被引用次数、比对次数。其中比对次数是指该项指纹调入内存以后被比对成功的次数。初始值为0,每当有数据段的哈希值与这项的哈希值相等时,就将比对次数加1,同时该值每隔一定时间会自动减1,这样长时间未被比对成功就会被换出内存,被新的指纹项所替代。内存中的哈希索引表每隔一定时间要同步到磁盘上。
基于上述技术方案,本方案还包括:
将读写频率大于预定频率阈值的文件作为原始文件,并检测所述原始文件是否引用其他数据;
若是,则检测所述原始文件的内存值及所述原始文件的引用数据的内存值;
向所述原始数据分配目标内存空间,并将所述原始数据和所述原始数据的引用数据写入所述目标内存空间;其中,所述目标内存空间的内存值不小于所述原始文件的内存值与所述原始文件的引用数据的内存值之和。
具体的,通过重复数据删除策略将数据写入磁盘中后,为了减少数据的读写时间,在本申请中对执行过重复数据删除策略的数据执行文件数据整理操作。文件数据整理操作是指将文件中原本引用其他文件中数据的地方不再以引用的方式,而是将引用的数据段与文件中该数据段后的数据段合并,重新分配空间。其中,文件是由多个extent组成,相应的extent表中记载每个extent的详细信息,例如是否引用其他数据,其他数据的地址信息等。文件数据整理操作的具体流程可以为:
1、读取文件inode的引用数标记tagb;
2、如果tagb不为0,遍历文件的extent表,读取extent表中的标记,依次读取每个extent,并判断每个extent是否为引用的其他文件中的数据,直到读取的extent没有引用其他数据或者extent读取完毕;将所有extent引用其他文件中的数据的extent的大小求和,记为b;
3、计算引用的数据大小a;
4、重新分配空间a+b大小的空间,并将全部extenta的数据和引用的数据拷贝到新分配的空间中;
5、相应的修改文件inode的extent表;
6、将引用的数据段所对应指纹库中相应数据项的引用次数Data_counter的值减1;
7、将tagb的数值减一,若tagb的数值不为一,则代表文件还有引用的数据,这时可以循环执行2到7,直到tagb为0。
基于上述技术方案,本方案还包括:
遍历文件inode中的extent信息;
判断每个extent所包含地址的数据的引用次数是否小于预定引用次数;
若是,则从指纹库中删除引用次数小于预定引用次数的数据所对应的指纹信息,并将引用次数小于预定引用次数的数据的地址标记为未使用。
具体的,本实施例中的文件删除流程为:
1、遍历该文件inode中的extent信息,对每一个extent所包含的地址查找指纹库中包含该地址的对应项;
2、读取该对应项的Data_counter值,如果为0,则删除该项指纹信息,将这一段地址标记为未使用。如果不为0则保留该项指纹信息
3、查找该extent包含的下一段地址,重复步骤2,直到遍历完该inode所包含的所有extent。
具体的,本实施例中的extent是一个大的地址段,而指纹库中计算指纹哈希值的数据段则是最小数据段。即一个文件中包含一个或多个extent,一个extent包含一个或多个这样的数据段。
本发明实施例提供的一种重复数据的删除方法,包括:在文件读写频率表中查询与待写入的目标文件相似的文件的读写频率,并判断所述读写频率是否大于预定阈值;若是,则将所述目标文件写入新分配的磁盘空间中;若否,则通过重复数据删除策略将所述目标文件写入新分配的磁盘空间。可见,在本实施例中通过将重复数据删除策略的执行与文件的读写频率相结合,对读写频次数较高的文件不对其执行重复数据删除操作,从而减少磁盘碎片,减少寻道时间,提高系统的性能,实现了更合理的删除重复数据。
下面对本发明实施例提供的重复数据的删除装置进行介绍,下文描述的重复数据的删除装置与上文描述的重复数据的删除方法可以相互参照。
参见图2,本发明实施例提供的一种重复数据的删除装置,包括:
读写频率判断模块100,用于在文件读写频率表中查询与待写入的目标文件相似的文件的读写频率,判断所述读写频率是否大于预定阈值;
若是,则触发第一写入模块200;若否,则触发第二写入模块300;
所述第一写入模块200,用于将所述目标文件写入新分配的磁盘空间中;
所述第二写入模块300,用于通过重复数据删除策略将所述目标文件写入新分配的磁盘空间。
基于上述技术方案,本方案包括:
读写频率更新模块,用于通过重复数据删除策略将所述目标文件写入新分配的磁盘空间之后,将文件读写频率表中的与所述目标文件相似的文件的读写次数加一。
基于上述技术方案,本方案还包括:
第一检测模块,用于将读写频率大于预定频率阈值的文件作为原始文件,并检测所述原始文件是否引用其他数据;若是,则触发内存值检测模块;
所述内存值检测模块,用于检测所述原始文件的内存值及所述原始文件的引用数据的内存值;
第三写入模块,用于向所述原始数据分配目标内存空间,并将所述原始数据和所述原始数据的引用数据写入所述目标内存空间;
其中,所述目标内存空间的内存值不小于所述原始文件的内存值与所述原始文件的引用数据的内存值之和。
基于上述技术方案,本方案还包括:
第二检测模块,用于检测内存中的哈希索引表的所占内存是否大于预定内存阈值;
若是,则触发哈希值数据清除模块;
所述哈希值数据清除模块,用于清除所述哈希索引表中比对次数小于预定次数阈值的哈希值数据。
基于上述技术方案,本方案还包括:
判断模块,用于遍历文件inode中的extent信息,判断每个extent所包含地址的数据的引用次数是否小于预定引用次数,若是,则触发执行模块;
所述执行模块,用于从指纹库中删除引用次数小于预定引用次数的数据所对应的指纹信息,并将引用次数小于预定引用次数的数据的地址标记为未使用。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种重复数据的删除方法,其特征在于,包括:
在文件读写频率表中查询与待写入的目标文件相似的文件的读写频率,并判断所述读写频率是否大于预定阈值;
若是,则将所述目标文件写入新分配的磁盘空间中;若否,则通过重复数据删除策略将所述目标文件写入新分配的磁盘空间。
2.根据权利要求1所述的删除方法,其特征在于,通过重复数据删除策略将所述目标文件写入新分配的磁盘空间之后,包括:
将文件读写频率表中的与所述目标文件相似的文件的读写次数加一。
3.根据权利要求2所述的删除方法,其特征在于,还包括:
将读写频率大于预定频率阈值的文件作为原始文件,并检测所述原始文件是否引用其他数据;
若是,则检测所述原始文件的内存值及所述原始文件的引用数据的内存值;
向所述原始数据分配目标内存空间,并将所述原始数据和所述原始数据的引用数据写入所述目标内存空间;其中,所述目标内存空间的内存值不小于所述原始文件的内存值与所述原始文件的引用数据的内存值之和。
4.根据权利要求3所述的删除方法,其特征在于,还包括:
检测内存中的哈希索引表的所占内存是否大于预定内存阈值;
若是,则清除所述哈希索引表中比对次数小于预定次数阈值的哈希值数据。
5.根据权利要求4所述的删除方法,其特征在于,还包括:
遍历文件inode中的extent信息;
判断每个extent所包含地址的数据的引用次数是否小于预定引用次数;
若是,则从指纹库中删除引用次数小于预定引用次数的数据所对应的指纹信息,并将引用次数小于预定引用次数的数据的地址标记为未使用。
6.一种重复数据的删除装置,其特征在于,包括:
读写频率判断模块,用于在文件读写频率表中查询与待写入的目标文件相似的文件的读写频率,判断所述读写频率是否大于预定阈值;
若是,则触发第一写入模块;若否,则触发第二写入模块;
所述第一写入模块,用于将所述目标文件写入新分配的磁盘空间中;
所述第二写入模块,用于通过重复数据删除策略将所述目标文件写入新分配的磁盘空间。
7.根据权利要求6所述的删除装置,其特征在于,包括:
读写频率更新模块,用于通过重复数据删除策略将所述目标文件写入新分配的磁盘空间之后,将文件读写频率表中的与所述目标文件相似的文件的读写次数加一。
8.根据权利要求7所述的删除装置,其特征在于,还包括:
第一检测模块,用于将读写频率大于预定频率阈值的文件作为原始文件,并检测所述原始文件是否引用其他数据;若是,则触发内存值检测模块;
所述内存值检测模块,用于检测所述原始文件的内存值及所述原始文件的引用数据的内存值;
第三写入模块,用于向所述原始数据分配目标内存空间,并将所述原始数据和所述原始数据的引用数据写入所述目标内存空间;
其中,所述目标内存空间的内存值不小于所述原始文件的内存值与所述原始文件的引用数据的内存值之和。
9.根据权利要求8所述的删除装置,其特征在于,还包括:
第二检测模块,用于检测内存中的哈希索引表的所占内存是否大于预定内存阈值;
若是,则触发哈希值数据清除模块;
所述哈希值数据清除模块,用于清除所述哈希索引表中比对次数小于预定次数阈值的哈希值数据。
10.根据权利要求9所述的删除装置,其特征在于,还包括:
判断模块,用于遍历文件inode中的extent信息,判断每个extent所包含地址的数据的引用次数是否小于预定引用次数,若是,则触发执行模块;
所述执行模块,用于从指纹库中删除引用次数小于预定引用次数的数据所对应的指纹信息,并将引用次数小于预定引用次数的数据的地址标记为未使用。
CN201610105365.XA 2016-02-25 2016-02-25 一种重复数据的删除方法及装置 Active CN105787037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610105365.XA CN105787037B (zh) 2016-02-25 2016-02-25 一种重复数据的删除方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610105365.XA CN105787037B (zh) 2016-02-25 2016-02-25 一种重复数据的删除方法及装置

Publications (2)

Publication Number Publication Date
CN105787037A true CN105787037A (zh) 2016-07-20
CN105787037B CN105787037B (zh) 2019-03-15

Family

ID=56402975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610105365.XA Active CN105787037B (zh) 2016-02-25 2016-02-25 一种重复数据的删除方法及装置

Country Status (1)

Country Link
CN (1) CN105787037B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085900A (zh) * 2017-03-22 2017-08-22 百富计算机技术(深圳)有限公司 数据处理方法、装置、系统及pos终端
CN108427539A (zh) * 2018-03-15 2018-08-21 深信服科技股份有限公司 缓存设备数据的离线去重压缩方法、装置及可读存储介质
CN108427538A (zh) * 2018-03-15 2018-08-21 深信服科技股份有限公司 全闪存阵列的存储数据压缩方法、装置、及可读存储介质
CN108762679A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种在线ddp与离线ddp相结合的方法及其相关装置
CN109725849A (zh) * 2017-10-27 2019-05-07 株式会社日立制作所 存储系统和存储系统的控制方法
CN111427855A (zh) * 2016-09-28 2020-07-17 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
CN112559452A (zh) * 2020-12-11 2021-03-26 北京云宽志业网络技术有限公司 数据去重处理方法、装置、设备及存储介质
CN113342758A (zh) * 2021-08-06 2021-09-03 联想凌拓科技有限公司 文件系统的元数据管理方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377137A (zh) * 2012-04-30 2013-10-30 国际商业机器公司 使用增强的频繁块检测进行存储去重的方法和系统
CN103914522A (zh) * 2014-03-20 2014-07-09 电子科技大学 一种应用于云存储重复数据删除的数据块合并方法
CN104239518A (zh) * 2014-09-17 2014-12-24 华为技术有限公司 重复数据删除方法和装置
CN104616680A (zh) * 2014-12-25 2015-05-13 武汉光忆科技有限公司 基于光盘存储的重复数据删除系统及数据操作方法、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377137A (zh) * 2012-04-30 2013-10-30 国际商业机器公司 使用增强的频繁块检测进行存储去重的方法和系统
CN103914522A (zh) * 2014-03-20 2014-07-09 电子科技大学 一种应用于云存储重复数据删除的数据块合并方法
CN104239518A (zh) * 2014-09-17 2014-12-24 华为技术有限公司 重复数据删除方法和装置
CN104616680A (zh) * 2014-12-25 2015-05-13 武汉光忆科技有限公司 基于光盘存储的重复数据删除系统及数据操作方法、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张智鸿: "选择重复数据删除应注意的五个问题", 《中国计算机报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111427855A (zh) * 2016-09-28 2020-07-17 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
CN111427855B (zh) * 2016-09-28 2024-04-12 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
CN107085900A (zh) * 2017-03-22 2017-08-22 百富计算机技术(深圳)有限公司 数据处理方法、装置、系统及pos终端
WO2018171145A1 (zh) * 2017-03-22 2018-09-27 百富计算机技术(深圳)有限公司 数据处理方法、系统和pos终端
CN109725849A (zh) * 2017-10-27 2019-05-07 株式会社日立制作所 存储系统和存储系统的控制方法
CN108427539A (zh) * 2018-03-15 2018-08-21 深信服科技股份有限公司 缓存设备数据的离线去重压缩方法、装置及可读存储介质
CN108427538A (zh) * 2018-03-15 2018-08-21 深信服科技股份有限公司 全闪存阵列的存储数据压缩方法、装置、及可读存储介质
CN108427539B (zh) * 2018-03-15 2021-06-04 深信服科技股份有限公司 缓存设备数据的离线去重压缩方法、装置及可读存储介质
CN108762679A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种在线ddp与离线ddp相结合的方法及其相关装置
CN108762679B (zh) * 2018-05-30 2021-06-29 郑州云海信息技术有限公司 一种在线ddp与离线ddp相结合的方法及其相关装置
CN112559452A (zh) * 2020-12-11 2021-03-26 北京云宽志业网络技术有限公司 数据去重处理方法、装置、设备及存储介质
CN113342758A (zh) * 2021-08-06 2021-09-03 联想凌拓科技有限公司 文件系统的元数据管理方法、装置、设备和介质

Also Published As

Publication number Publication date
CN105787037B (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN105787037A (zh) 一种重复数据的删除方法及装置
US10620862B2 (en) Efficient recovery of deduplication data for high capacity systems
CN105718548B (zh) 基于去重复存储系统中用于可扩展引用管理的系统和方法
JP6304406B2 (ja) ストレージ装置、プログラム、情報処理方法
US10360182B2 (en) Recovering data lost in data de-duplication system
US8131687B2 (en) File system with internal deduplication and management of data blocks
CN107729558B (zh) 文件系统碎片整理的方法、系统、装置及计算机存储介质
CN102629247B (zh) 一种数据处理方法、装置和系统
CN111399777A (zh) 一种基于数据值分类的差异化键值数据存储方法
CN104301360A (zh) 一种日志数据记录的方法、日志服务器及系统
CN103797470A (zh) 存储系统
CN102929884A (zh) 一种收缩虚拟磁盘镜像文件的方法及装置
Zou et al. The dilemma between deduplication and locality: Can both be achieved?
CN103473150A (zh) 一种用于数据去重系统中的碎片重写方法
CN109086141B (zh) 内存管理方法和装置以及计算机可读存储介质
US10366000B2 (en) Re-use of invalidated data in buffers
CN107391774A (zh) 基于重复数据删除的日志文件系统的垃圾回收方法
CN103020255A (zh) 分级存储方法和装置
CN103577513A (zh) 藉延迟节点实例化以缓存xml信息集的系统和/或方法
CN108733306A (zh) 一种文件合并方法及装置
WO2020000492A1 (zh) 一种存储碎片管理方法及终端
CN104050057B (zh) 一种历史感知的数据去重碎片消除方法与系统
CN105493080B (zh) 基于上下文感知的重复数据删除的方法和装置
CN110888837A (zh) 对象存储小文件归并方法及装置
CN107506466B (zh) 一种小文件存储方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant