CN101908073A - 一种文件系统中实时删除重复数据的方法 - Google Patents

一种文件系统中实时删除重复数据的方法 Download PDF

Info

Publication number
CN101908073A
CN101908073A CN 201010252734 CN201010252734A CN101908073A CN 101908073 A CN101908073 A CN 101908073A CN 201010252734 CN201010252734 CN 201010252734 CN 201010252734 A CN201010252734 A CN 201010252734A CN 101908073 A CN101908073 A CN 101908073A
Authority
CN
China
Prior art keywords
data block
file
data
file system
sign
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010252734
Other languages
English (en)
Other versions
CN101908073B (zh
Inventor
唐力
汪东升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2010102527340A priority Critical patent/CN101908073B/zh
Publication of CN101908073A publication Critical patent/CN101908073A/zh
Application granted granted Critical
Publication of CN101908073B publication Critical patent/CN101908073B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文件系统中实时删除重复数据的方法,属于计算机数据存储技术领域。在文件系统创建阶段,在嵌入式数据库中设置文件元数据表、数据块索引表和文件组成表;在文件系统使用阶段,通过文件系统驱动接收和响应应用程序对文件系统发起的操作命令,包括创建新文件、向已有文件写入数据、从已有文件读取数据和删除已有文件。本发明方法,同时支持定长和不定长的文件分块方法,可实时删除文件系统中的重复数据,节省存储空间,提高存储设备的利用效率,而且重复数据的删除过程对应用程序和用户完全透明,无缝兼容现有各种应用程序的文件操作,几乎不会对用户感受造成任何负面影响。

Description

一种文件系统中实时删除重复数据的方法
技术领域
本发明涉及一种文件系统中实时删除重复数据的方法,属于计算机数据存储技术领域。
背景技术
随着数码设备日新月异的发展,人类社会正全面在进入数字化时代,需要存储的数据量也正呈现出爆炸式增长的态势。在此背景下,为了降低存储成本和提高存储系统的可扩展性,如何能以尽可能少的空间储存尽可能多的数据就成为存储领域最炙手可热的问题。
重复数据删除技术兴起于本世纪初期,近年来得到广泛普及和应用。重复数据删除的基本思想可概述如下:首先将存储系统中的文件都切分成若干数据块,用数据块内容的哈希值为数据块集合建立索引,每个哈希值对应的数据块内容都仅被存储一份;然后,存储系统并不是直接记录每个文件的具体内容,而是记录每个文件由那些数据块组成,以及这些数据块在每个文件中的位置信息;根据这些信息,存储系统就能由适当的数据块内容重构出每个文件的内容。
目前,重复数据删除技术主要被应用于数据的同步、备份或归档阶段,典型的代表有同步备份工具Dropbox以及EMC公司的磁盘备份、归档和灾难恢复产品Data Domain系统等。在上述这些方法中,重复数据删除都不是实时进行的。在Dropbox中,只有当每个文件被关闭后,才会对整个文件进行切块,然后再将变化的数据块传输到服务器端。而在DataDomain系统中,由于每次重复数据删除都需要扫描整个磁盘,因此只能以较低的频率周期性进行。不难理解,这种非实时的重复数据删除方法存在以下明显缺点:一、重复数据删除与数据的读、写操作在不同阶段各自独立进行,存储系统为了支持随机读写文件中的数据,必须在第一级存储阶段保存全部完整数据,而仅能在备份和归档的第二级存储阶段发挥节省存储空间的作用;二、切块效率低下,即使只修改极小一部分数据,也需要对一个文件甚至磁盘中的全部数据都重新进行切块。
发明内容
本发明的目的是提出一种文件系统中实时删除重复数据的方法,通过文件系统驱动模块截获来自应用程序的创建文件和向文件中写入数据的操作命令,然后根据操作命令提供的信息和数据,实时进行数据切块和重复数据删除,并只将新产生的数据块存储到磁盘上,从而在根本上实现以数据块为基本存储单元的文件系统及其存储和组织结构,达到节省存储空间的目的。
本发明提出的文件系统中实时删除重复数据的方法,包括以下步骤:
(1)采用嵌入式数据库存储文件系统中的元数据信息,在该嵌入式数据库中设置文件元数据表、数据块索引表和文件组成表;所述的文件元数据表记录文件系统中每个文件的元数据,该元数据包括文件标识、文件名、文件所在文件夹的标识、文件大小、文件类型、访问权限以及文件的创建、修改和访问时间;所述的数据块索引表记录文件系统中文件的数据块的标识以及与标识相对应的数据块的引用次数,其中数据块的标识为该数据块内容的哈希值;所述的文件组成表记录组成文件系统中的文件的数据块的信息,包括上述文件标识、数据块起始位置、数据块大小和数据块标识,由其中的数据块起始位置和数据块大小决定数据区域;
(2)通过文件系统的驱动模块,接收和响应应用程序对文件系统发起的操作命令,该操作命令包括创建新文件、向已有文件写入数据、从已有文件读取数据和删除已有文件,具体过程如下:
(2-1)当文件系统的驱动模块接收到来自应用程序的创建新文件的操作命令时,在文件元数据表中记录被创建文件的元数据;
(2-2)当文件系统的驱动模块接收到来自应用程序的向已有文件写入数据的操作命令时,进行以下操作:
(2-2-1)根据操作命令中被写文件的文件标识、写入位置和写入数据大小,从上述文件组成表中检索属于该被写文件的两个数据块标识,且满足与该两个数据块标识相对应的两个数据块为与被写入数据区域相互重叠的首、尾两个数据块;
(2-2-2)根据检索到的数据块标识,从存储设备中读取与该数据块标识相对应的数据块内容;
(2-2-3)将读出的数据块内容中与被写入数据区域不重叠的数据拼接到被写入数据的两侧,得到拼接后的数据及数据区域;
(2-2-4)从上述文件组成表中检索与属于该被写文件、且数据块起始位置位于上述步骤(2-2-3)数据区域之内的数据块相对应的数据块标识;
(2-2-5)将与从上述数据块索引表中检索到的数据块标识相对应的数据块的引用次数减1,当引用次数不为0时,进行步骤(2-2-6),当引用次数成为0时,从数据块索引表中删除该数据块标识及与该数据块标识相对应的数据块引用次数,并从存储设备上删除该数据块内容,进行步骤(2-2-6);
(2-2-6)将上述步骤(2-2-3)拼接后的数据切分成一组新数据块;
(2-2-7)从上述数据块索引表中分别搜索与上述一组新数据块相对应的每个数据块标识:若该数据块标识已存在,则在数据块索引表中将与该数据块标识相对应的数据块的引用次数加1,若该数据块标识为新标识,则在数据块索引表中添加该新数据块标识,并将与该新数据块标识相对应的数据块的引用次数设置为1,并将与该新数据块标识相对应的新数据块内容存储到存储设备上;在上述文件组成表中记录被写文件的文件标识、该新数据块的起始位置、该新数据块的大小以及该新数据块的标识;
(2-2-8)根据向已有文件写入数据的操作命令更新上述文件元数据表中被写文件的元数据;
(2-3)当文件系统的驱动模块接收到来自应用程序的从文件系统中的已有文件中读取数据的操作命令时,进行以下操作:
(2-3-1)根据操作命令,在计算机内存中分配与待读取数据的大小相等的内存空间,并将该内存空间初始化为空白;
(2-3-2)根据操作命令中的被读文件的文件标识和读取位置,从上述文件组成表中检索属于该被读文件的数据块标识,且满足与该数据块标识相对应的数据块是起始位置处于读取位置之前的最后一个数据块,若检索到该数据块标识,且该数据块区域与待读取数据区域存在重叠,则读取该数据块内容,并将该读取的内容与待读取数据区域的重叠部分写入上述步骤(2-3-1)的内存空间的头部,进行步骤(2-3-3),若检索不到该数据块标识,或者与检索到的数据标识相对应的数据块区域与待读取数据区域不存在重叠,则进行步骤(2-3-3);
(2-3-3)根据操作命令,从上述文件组成表中检索属于该被读文件的数据块标识,且满足与该数据块标识相对应的数据块的起始位置处于待读取数据区域内;读取与检索到的所有数据块标识相对应的数据块的内容,并将读出的数据块内容中与待读取数据区域的重叠部分写入上述步骤(2-3-1)的内存空间中;
(2-3-4)根据操作命令,更新上述文件元数据表中被读文件的元数据;
(2-3-5)将上述步骤(2-3-1)的内存空间中的数据通过文件系统的驱动模块返回给应用程序;
(2-4)当文件系统的驱动模块接收到来自应用程序的删除文件系统中的已有文件的操作命令时,进行以下操作:
(2-4-1)从上述文件组成表中检索属于被删除文件的数据块标识;
(2-4-2)在上述数据块索引表中将与检索到的每个数据块标识相对应的数据块的引用次数减1,当引用次数变为0时,从数据块索引表中删除该数据块标识及与该数据块标识相对应的数据块引用次数,从存储设备上删除该数据块内容,并进行步骤(2-4-3),当引用次数未变为0时,进行步骤(2-4-3);
(2-4-3)从上述文件组成表中删除被删除文件的所有记录;
(2-4-4)从上述文件元数据表中删除被删除文件的元数据。
本发明提出的文件系统中实时删除重复数据的方法,具备以下优点:
1、利用本发明的方法,可以删除文件系统中的重复数据,因此节省存储空间。
2、利用本发明的方法,将在进行文件读取、写入的同时,对被修改的文件数据进行切块与拼接操作,而无须处理未被修改的数据,因此极大提高了文件处理的效率。
3、本发明方法同时支持定长和不定长的文件分块方法,能够显著改善重复数据的去除效果,提高存储空间的利用效率。
4、与已有技术相比,本发明方法使得重复数据的删除过程对应用程序和用户完全透明,对新打开的文件可立即实现随机读、写操作,无须等候拼接临时文件,因此能够无缝兼容现有各种应用程序的文件操作,几乎不会对用户感受造成任何负面影响。
5、由于本方法能够删除文件系统中的重复数据,因此能够在备份文件系统中的数据时,能够减少需要复制的数据量,缩短备份时间,并节省备份计算和存储资源开销。
附图说明
图1是本发明方法的系统结构图。
图2是本发明方法中文件系统的驱动模块接收到来自应用程序的向已有文件写入数据的操作命令时的流程框图。
图3是本发明方法中向已有文件写入数据的过程示意图。
图4是本发明方法中文件系统的驱动模块接收到来自应用程序的从文件系统中的已有文件中读取数据的操作命令时的流程框图。
图5是本发明方法中计算待读取数据区域及计算向内存空间的起始写入位置示意图。
图6是本发明方法中从已有文件读取数据的过程示意图。
图7是本发明方法中文件系统的驱动模块接收到来自应用程序的删除文件系统中的已有文件的操作命令时的流程框图。
具体实施方式
下面结合附图,详细介绍本发明提出的文件系统中数据的实时去重和传输方法:
(1)如图1所示,本方法通过在操作系统的文件系统虚拟层之下注册文件系统驱动模块,接收和响应应用程序对文件系统发起的操作命令,由文件系统实时重复数据删除管理进程负责将元数据信息和数据块内容存储到存储设备中。具体地,本方法在存储设备中采用嵌入式数据库存储文件系统中的元数据信息。在该嵌入式数据库中设置文件元数据表、数据块索引表和文件组成表;所述的文件元数据表记录文件系统中每个文件的元数据,该元数据包括文件标识、文件名、文件所在文件夹的标识、文件大小、文件类型、访问权限以及文件的创建、修改和访问时间;所述的数据块索引表记录文件系统中文件的数据块的标识以及与标识相对应的数据块的引用次数,其中数据块的标识为该数据块内容的哈希值;所述的文件组成表记录组成文件系统中的文件的数据块的信息,包括上述文件标识、数据块起始位置、数据块大小和数据块标识,由其中的数据块起始位置和数据块大小决定数据区域。
(2)通过文件系统的驱动模块,接收和响应应用程序对文件系统发起的操作命令,该操作命令包括创建新文件、向已有文件写入数据、从已有文件读取数据和删除已有文件,具体过程如下:
(2-1)当文件系统的驱动模块接收到来自应用程序的创建新文件的操作命令时,在文件元数据表中记录被创建文件的元数据。
(2-2)当文件系统的驱动模块接收到来自应用程序的向已有文件写入数据的操作命令时,参见图2所示的流程框图,进行以下操作:
(2-2-1)根据操作命令中被写文件的文件标识、写入位置和写入数据大小,从上述文件组成表中检索属于该被写文件的两个数据块标识,且满足与该两个数据块标识相对应的两个数据块为与被写入数据区域相互重叠的首、尾两个数据块,具体过程可参见图3。从图3中,可以看出,文件系统中存在文件标识分别为1和2的两个文件,文件标识为1的文件由5个数据块组成,该5个数据块对应的数据块标识分别为A、B、C、D、E,文件标识为2的文件由3个数据块组成,该3个数据块对应的数据块标识分贝为A、D、F,文件组成表中记录了文件的组成信息。上述两个文件存在重复数据,导致该两个文件都含有数据块标识分别为A和D的两个数据块,由于这两个数据块的内容只被存储一次,因此实现了数据去重的目的。如图3所示,操作命令中被写文件的文件标识为1,根据该文件标识,同时根据操作命令中的写入位置和写入数据大小可计算出被写入数据区域,在文件组成表中检索属于该被写文件的两个数据块标识,且满足与该两个数据块标识相对应的两个数据块为与被写入数据区域相互重叠的首、尾两个数据块,就会得到数据块标识B和数据块标识D。
(2-2-2)根据检索到的数据块标识,从存储设备中读取与该数据块标识相对应的数据块内容;对应图3,就是读出数据块标识分别为B和D的两个数据块的内容。
(2-2-3)将读出的数据块内容中与被写入数据区域相不重叠的数据拼接到被写入数据的两侧,得到拼接后的数据及拼接后的数据区域;拼接过程、拼接后的数据及拼接后的数据区域,如图3所示。
(2-2-4)从上述文件组成表中检索与属于该被写文件、且数据块起始位置位于上述步骤(2-2-3)数据区域之内的数据块相对应的数据块标识;在如图3所示例中,该检索将得到的3个数据块标识,分别为B、C和D。
(2-2-5)将与从上述数据块索引表中检索到的数据块标识相对应的数据块的引用次数减1,当引用次数不为0时,进行步骤(2-2-6),当引用次数成为0时,从数据块索引表中删除该数据块标识及与该数据块标识相对应的数据块引用次数,并从存储设备上删除该数据块内容,进行步骤(2-2-6)。
(2-2-6)将上述步骤(2-2-3)拼接后的数据切分成一组新数据块;数据切分的方法可以使用基于用户或系统设定的数据块大小的定长切分和基于内容指纹的不定长切分,本发明的一个实施例中,使用了Muthitacharoen等人提出的基于Rabin指纹的可变长切分方法;如图3所示,拼接后的数据被切分成两个新的数据块,根据数据块内容的哈希值,该两个数据块的数据块标识分别为G和H。
(2-2-7)从上述数据块索引表中分别搜索与上述一组新数据块相对应的每个数据块标识:若该数据块标识已存在,则在数据块索引表中将与该数据块标识相对应的数据块的引用次数加1,若该数据块标识为新标识,则在数据块索引表中添加该新数据块标识,并将与该新数据块标识相对应的数据块的引用次数设置为1,并将与该新数据块标识相对应的新数据块内容存储到存储设备上;在上述文件组成表中记录被写文件的文件标识、该新数据块的起始位置、该新数据块的大小以及该新数据块的标识。
(2-2-8)根据向已有文件写入数据的操作命令,更新上述文件元数据表中被写文件的元数据。
(2-3)当文件系统的驱动模块接收到来自应用程序的从文件系统中的已有文件中读取数据的操作命令时,参见图4所示的流程框图,进行以下操作:
(2-3-1)根据操作命令,在计算机内存中分配与待读取数据的大小相等的内存空间,并将该内存空间初始化为空白;如图5所示。
(2-3-2)根据操作命令中的被读文件的文件标识和读取位置,从上述文件组成表中检索属于该被读文件的数据块标识,且满足与该数据块标识相对应的数据块是起始位置处于读取位置之前的最后一个数据块,若检索到该数据块标识,且该数据块区域与待读取数据区域存在重叠,则读取该数据块内容,并将该读取的内容与待读取数据区域的重叠部分写入上述步骤(2-3-1)的内存空间的头部,进行步骤(2-3-3),具体过程可参见图6。从图6中,可以看出,文件系统中存在文件标识分别为1和2的两个文件,文件标识为1的文件由5个数据块组成,该5个数据块对应的数据块标识分别为A、B、C、D、E,文件标识为2的文件由3个数据块组成,该3个数据块对应的数据块标识分贝为A、D、F,文件组成表中记录了文件的组成信息。在图6中,操作命令中被读文件的文件标识为1,根据该文件标识,同时根据操作命令中的读取位置,从文件组成表中检索属于该被读文件的数据块标识,且满足与该数据块标识相对应的数据块是起始位置处于读取位置之前的最后一个数据块,就会得到数据块标识B,而且与数据块标识B相对应的数据块区域与待读取数据区域存在重叠,因此,就要从存储设备中读取与B相对应的数据块的内容,并将读取的数据块内容与待读取数据区域的重叠部分写入图6中所示的内存空间的头部。若检索不到该数据块标识,或者与检索到的数据标识相对应的数据块区域与待读取数据区域不存在重叠,则进行步骤(2-3-3)。
(2-3-3)根据操作命令,从上述文件组成表中检索属于该被读文件的数据块标识,且满足与该数据块标识相对应的数据块的起始位置处于待读取数据区域内。在图5和图6所示例中,将会检索得到数据块标识C和D。读取与检索到的所有数据块标识相对应的数据块的内容,并将读出的数据块内容中与待读取数据区域的重叠部分写入上述步骤(2-3-1)的内存空间中。在该内存空间的中的起始写入位置等于该数据块的起始位置减去读取位置等到的差,以图6中将数据块标识为C的数据块内容写入该内存空间为例,由于读取位置为r,与C相对应的数据块的起始位置为b,因此,与C相对应的数据块内容将以b-r为起始写入位置被写入该内存空间中。
(2-3-4)根据操作命令,更新上述文件元数据表中被读文件的元数据,即修改被读文件的最近访问时间。
(2-3-5)将上述步骤(2-3-1)的内存空间中的数据通过文件系统的驱动模块返回给应用程序。
(2-4)当文件系统的驱动模块接收到来自应用程序的删除文件系统中的已有文件的操作命令时,参见图7所示的流程框图,进行以下操作:
(2-4-1)从上述文件组成表中检索属于被删除文件的数据块标识。
(2-4-2)在上述数据块索引表中将与检索到的每个数据块标识相对应的数据块的引用次数减1,当引用次数变为0时,从数据块索引表中删除该数据块标识及与该数据块标识相对应的数据块引用次数,从存储设备上删除该数据块内容,并进行步骤(2-4-3),当引用次数未变为0时,进行步骤(2-4-3)。
(2-4-3)从上述文件组成表中删除被删除文件的所有记录。
(2-4-4)从上述文件元数据表中删除被删除文件的元数据。

Claims (1)

1.一种文件系统中实时删除重复数据的方法,其特征在于该方法包括以下步骤:
(1)采用嵌入式数据库存储文件系统中的元数据信息,在该嵌入式数据库中设置文件元数据表、数据块索引表和文件组成表;所述的文件元数据表记录文件系统中每个文件的元数据,该元数据包括文件标识、文件名、文件所在文件夹的标识、文件大小、文件类型、访问权限以及文件的创建、修改和访问时间;所述的数据块索引表记录文件系统中文件的数据块的标识以及与标识相对应的数据块的引用次数,其中数据块的标识为该数据块内容的哈希值;所述的文件组成表记录组成文件系统中的文件的数据块的信息,包括上述文件标识、数据块起始位置、数据块大小和数据块标识,由其中的数据块起始位置和数据块大小决定数据区域;
(2)通过文件系统的驱动模块,接收和响应应用程序对文件系统发起的操作命令,该操作命令包括创建新文件、向已有文件写入数据、从已有文件读取数据和删除已有文件,具体过程如下:
(2-1)当文件系统的驱动模块接收到来自应用程序的创建新文件的操作命令时,在文件元数据表中记录被创建文件的元数据;
(2-2)当文件系统的驱动模块接收到来自应用程序的向已有文件写入数据的操作命令时,进行以下操作:
(2-2-1)根据操作命令中被写文件的文件标识、写入位置和写入数据大小,从上述文件组成表中检索属于该被写文件的两个数据块标识,且满足与该两个数据块标识相对应的两个数据块为与被写入数据区域相互重叠的首、尾两个数据块;
(2-2-2)根据检索到的数据块标识,从存储设备中读取与该数据块标识相对应的数据块内容;
(2-2-3)将读出的数据块内容中与被写入数据区域不重叠的数据拼接到被写入数据的两侧,得到拼接后的数据及数据区域;
(2-2-4)从上述文件组成表中检索与属于该被写文件、且数据块起始位置位于上述步骤(2-2-3)数据区域之内的数据块相对应的数据块标识;
(2-2-5)将与从上述数据块索引表中检索到的数据块标识相对应的数据块的引用次数减1,当引用次数不为0时,进行步骤(2-2-6),当引用次数成为0时,从数据块索引表中删除该数据块标识及与该数据块标识相对应的数据块引用次数,并从存储设备上删除该数据块内容,进行步骤(2-2-6);
(2-2-6)将上述步骤(2-2-3)拼接后的数据切分成一组新数据块;
(2-2-7)从上述数据块索引表中分别搜索与上述一组新数据块相对应的每个数据块标识:若该数据块标识已存在,则在数据块索引表中将与该数据块标识相对应的数据块的引用次数加1,若该数据块标识为新标识,则在数据块索引表中添加该新数据块标识,并将与该新数据块标识相对应的数据块的引用次数设置为1,并将与该新数据块标识相对应的新数据块内容存储到存储设备上;在上述文件组成表中记录被写文件的文件标识、该新数据块的起始位置、该新数据块的大小以及该新数据块的标识;
(2-2-8)根据向已有文件写入数据的操作命令更新上述文件元数据表中被写文件的元数据;
(2-3)当文件系统的驱动模块接收到来自应用程序的从文件系统中的已有文件中读取数据的操作命令时,进行以下操作:
(2-3-1)根据操作命令,在计算机内存中分配与待读取数据的大小相等的内存空间,并将该内存空间初始化为空白;
(2-3-2)根据操作命令中的被读文件的文件标识和读取位置,从上述文件组成表中检索属于该被读文件的数据块标识,且满足与该数据块标识相对应的数据块是起始位置处于读取位置之前的最后一个数据块,若检索到该数据块标识,且该数据块区域与待读取数据区域存在重叠,则读取该数据块内容,并将该读取的内容与待读取数据区域的重叠部分写入上述步骤(2-3-1)的内存空间的头部,进行步骤(2-3-3),若检索不到该数据块标识,或者与检索到的数据标识相对应的数据块区域与待读取数据区域不存在重叠,则进行步骤(2-3-3);
(2-3-3)根据操作命令,从上述文件组成表中检索属于该被读文件的数据块标识,且满足与该数据块标识相对应的数据块的起始位置处于待读取数据区域内;读取与检索到的所有数据块标识相对应的数据块的内容,并将读出的数据块内容中与待读取数据区域的重叠部分写入上述步骤(2-3-1)的内存空间中;
(2-3-4)根据操作命令,更新上述文件元数据表中被读文件的元数据;
(2-3-5)将上述步骤(2-3-1)的内存空间中的数据通过文件系统的驱动模块返回给应用程序;
(2-4)当文件系统的驱动模块接收到来自应用程序的删除文件系统中的已有文件的操作命令时,进行以下操作:
(2-4-1)从上述文件组成表中检索属于被删除文件的数据块标识;
(2-4-2)在上述数据块索引表中将与检索到的每个数据块标识相对应的数据块的引用次数减1,当引用次数变为0时,从数据块索引表中删除该数据块标识及与该数据块标识相对应的数据块引用次数,从存储设备上删除该数据块内容,并进行步骤(2-4-3),当引用次数未变为0时,进行步骤(2-4-3);
(2-4-3)从上述文件组成表中删除被删除文件的所有记录;
(2-4-4)从上述文件元数据表中删除被删除文件的元数据。
CN2010102527340A 2010-08-13 2010-08-13 一种文件系统中实时删除重复数据的方法 Expired - Fee Related CN101908073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102527340A CN101908073B (zh) 2010-08-13 2010-08-13 一种文件系统中实时删除重复数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102527340A CN101908073B (zh) 2010-08-13 2010-08-13 一种文件系统中实时删除重复数据的方法

Publications (2)

Publication Number Publication Date
CN101908073A true CN101908073A (zh) 2010-12-08
CN101908073B CN101908073B (zh) 2012-07-11

Family

ID=43263532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102527340A Expired - Fee Related CN101908073B (zh) 2010-08-13 2010-08-13 一种文件系统中实时删除重复数据的方法

Country Status (1)

Country Link
CN (1) CN101908073B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169491A (zh) * 2011-03-25 2011-08-31 暨南大学 一种多数据集中重复记录动态检测方法
CN102436478A (zh) * 2011-10-12 2012-05-02 浪潮(北京)电子信息产业有限公司 一种实现海量数据存取的系统及方法
CN103019887A (zh) * 2012-12-12 2013-04-03 华为技术有限公司 数据备份方法及装置
CN103309898A (zh) * 2012-03-15 2013-09-18 苏州市国贸电子系统工程有限公司 一种离散文件记录索引搜索更新方法
CN103617177A (zh) * 2013-11-05 2014-03-05 浪潮(北京)电子信息产业有限公司 一种堆叠式重复数据删除文件系统
CN104185060A (zh) * 2014-02-26 2014-12-03 无锡天脉聚源传媒科技有限公司 一种视频排重的方法及装置
CN104778193A (zh) * 2014-12-23 2015-07-15 北京锐安科技有限公司 数据去重方法及装置
CN104902010A (zh) * 2015-04-30 2015-09-09 浙江工商大学 一种云端存储文件的方法和系统
WO2015131492A1 (zh) * 2014-03-05 2015-09-11 中兴通讯股份有限公司 文件分块方法、系统及文件处理系统
CN105007504A (zh) * 2015-07-13 2015-10-28 无锡天脉聚源传媒科技有限公司 一种浏览记录处理方法及装置
CN105095300A (zh) * 2014-05-16 2015-11-25 阿里巴巴集团控股有限公司 一种数据库备份方法及系统
CN105138581A (zh) * 2015-07-31 2015-12-09 北京无线天利移动信息技术股份有限公司 一种移动信息写入和读取方法及系统
CN104025521B (zh) * 2011-12-26 2016-11-23 Sk电信有限公司 内容传输系统、优化该系统中网络流量的方法、中央控制装置和本地缓存装置
CN106776106A (zh) * 2016-11-11 2017-05-31 南京南瑞集团公司 一种基于NandFlash的数据存储方法
CN103593442B (zh) * 2013-11-15 2017-08-01 北京国双科技有限公司 日志数据的去重方法及装置
CN107179878A (zh) * 2016-03-11 2017-09-19 伊姆西公司 基于应用优化的数据存储的方法和装置
CN107220005A (zh) * 2017-05-27 2017-09-29 郑州云海信息技术有限公司 一种数据操作方法及系统
CN107229420A (zh) * 2017-05-27 2017-10-03 郑州云海信息技术有限公司 数据存储方法、读取方法、删除方法和数据操作系统
CN107329702A (zh) * 2017-06-30 2017-11-07 郑州云海信息技术有限公司 一种自精简元数据管理方法及装置
CN107526636A (zh) * 2016-10-26 2017-12-29 腾讯科技(深圳)有限公司 资源识别方法及装置
WO2018113724A1 (zh) * 2016-12-21 2018-06-28 广州优视网络科技有限公司 基于读写分离模式的下载提速方法、装置、终端设备及存储介质
CN109445702A (zh) * 2018-10-26 2019-03-08 黄淮学院 一种块级数据去重存储系统
CN109522283A (zh) * 2018-10-30 2019-03-26 深圳先进技术研究院 一种重复数据删除方法及系统
CN110008178A (zh) * 2019-01-04 2019-07-12 阿里巴巴集团控股有限公司 分布式文件系统元数据的组织方法及装置
CN110673800A (zh) * 2019-09-29 2020-01-10 苏州浪潮智能科技有限公司 文件系统的数据操作方法、装置、设备及可读存储介质
WO2020140634A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 存储空间优化方法、装置、计算机设备及存储介质
CN114158258A (zh) * 2020-06-18 2022-03-08 模范软体有限责任公司 实时动态地产生文件系统兼容性的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182789A1 (en) * 2003-08-05 2009-07-16 Sepaton, Inc. Scalable de-duplication mechanism
CN101582076A (zh) * 2009-06-24 2009-11-18 浪潮电子信息产业股份有限公司 一种基于数据库的重复数据删除方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182789A1 (en) * 2003-08-05 2009-07-16 Sepaton, Inc. Scalable de-duplication mechanism
CN101582076A (zh) * 2009-06-24 2009-11-18 浪潮电子信息产业股份有限公司 一种基于数据库的重复数据删除方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《软件学报》 20100531 敖莉 等. 重复数据删除技术 916-929 1 第21卷, 第5期 2 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169491B (zh) * 2011-03-25 2012-11-21 暨南大学 一种多数据集中重复记录动态检测方法
CN102169491A (zh) * 2011-03-25 2011-08-31 暨南大学 一种多数据集中重复记录动态检测方法
CN102436478A (zh) * 2011-10-12 2012-05-02 浪潮(北京)电子信息产业有限公司 一种实现海量数据存取的系统及方法
CN104025521B (zh) * 2011-12-26 2016-11-23 Sk电信有限公司 内容传输系统、优化该系统中网络流量的方法、中央控制装置和本地缓存装置
CN103309898A (zh) * 2012-03-15 2013-09-18 苏州市国贸电子系统工程有限公司 一种离散文件记录索引搜索更新方法
CN103019887B (zh) * 2012-12-12 2016-01-06 华为技术有限公司 数据备份方法及装置
CN103019887A (zh) * 2012-12-12 2013-04-03 华为技术有限公司 数据备份方法及装置
CN103617177A (zh) * 2013-11-05 2014-03-05 浪潮(北京)电子信息产业有限公司 一种堆叠式重复数据删除文件系统
WO2015067128A1 (zh) * 2013-11-05 2015-05-14 浪潮(北京)电子信息产业有限公司 一种堆叠式重复数据删除文件系统
CN103593442B (zh) * 2013-11-15 2017-08-01 北京国双科技有限公司 日志数据的去重方法及装置
CN104185060A (zh) * 2014-02-26 2014-12-03 无锡天脉聚源传媒科技有限公司 一种视频排重的方法及装置
CN104185060B (zh) * 2014-02-26 2017-07-07 无锡天脉聚源传媒科技有限公司 一种视频排重的方法及装置
WO2015131492A1 (zh) * 2014-03-05 2015-09-11 中兴通讯股份有限公司 文件分块方法、系统及文件处理系统
CN105095300A (zh) * 2014-05-16 2015-11-25 阿里巴巴集团控股有限公司 一种数据库备份方法及系统
CN104778193A (zh) * 2014-12-23 2015-07-15 北京锐安科技有限公司 数据去重方法及装置
CN104778193B (zh) * 2014-12-23 2018-03-23 北京锐安科技有限公司 数据去重方法及装置
CN104902010A (zh) * 2015-04-30 2015-09-09 浙江工商大学 一种云端存储文件的方法和系统
CN105007504A (zh) * 2015-07-13 2015-10-28 无锡天脉聚源传媒科技有限公司 一种浏览记录处理方法及装置
CN105138581A (zh) * 2015-07-31 2015-12-09 北京无线天利移动信息技术股份有限公司 一种移动信息写入和读取方法及系统
CN105138581B (zh) * 2015-07-31 2018-08-21 北京无线天利移动信息技术股份有限公司 一种移动信息写入和读取方法及系统
CN107179878A (zh) * 2016-03-11 2017-09-19 伊姆西公司 基于应用优化的数据存储的方法和装置
CN107526636B (zh) * 2016-10-26 2020-11-03 腾讯科技(深圳)有限公司 资源识别方法及装置
CN107526636A (zh) * 2016-10-26 2017-12-29 腾讯科技(深圳)有限公司 资源识别方法及装置
CN106776106A (zh) * 2016-11-11 2017-05-31 南京南瑞集团公司 一种基于NandFlash的数据存储方法
WO2018113724A1 (zh) * 2016-12-21 2018-06-28 广州优视网络科技有限公司 基于读写分离模式的下载提速方法、装置、终端设备及存储介质
CN107220005A (zh) * 2017-05-27 2017-09-29 郑州云海信息技术有限公司 一种数据操作方法及系统
CN107229420A (zh) * 2017-05-27 2017-10-03 郑州云海信息技术有限公司 数据存储方法、读取方法、删除方法和数据操作系统
CN107229420B (zh) * 2017-05-27 2020-05-26 苏州浪潮智能科技有限公司 数据存储方法、读取方法、删除方法和数据操作系统
CN107329702B (zh) * 2017-06-30 2020-08-21 苏州浪潮智能科技有限公司 一种自精简元数据管理方法及装置
CN107329702A (zh) * 2017-06-30 2017-11-07 郑州云海信息技术有限公司 一种自精简元数据管理方法及装置
CN109445702B (zh) * 2018-10-26 2019-12-06 黄淮学院 一种块级数据去重存储系统
CN109445702A (zh) * 2018-10-26 2019-03-08 黄淮学院 一种块级数据去重存储系统
CN109522283A (zh) * 2018-10-30 2019-03-26 深圳先进技术研究院 一种重复数据删除方法及系统
CN110008178A (zh) * 2019-01-04 2019-07-12 阿里巴巴集团控股有限公司 分布式文件系统元数据的组织方法及装置
WO2020140634A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 存储空间优化方法、装置、计算机设备及存储介质
CN110008178B (zh) * 2019-01-04 2023-04-07 创新先进技术有限公司 分布式文件系统元数据的组织方法及装置
CN110673800A (zh) * 2019-09-29 2020-01-10 苏州浪潮智能科技有限公司 文件系统的数据操作方法、装置、设备及可读存储介质
CN110673800B (zh) * 2019-09-29 2022-07-22 苏州浪潮智能科技有限公司 文件系统的数据操作方法、装置、设备及可读存储介质
CN114158258A (zh) * 2020-06-18 2022-03-08 模范软体有限责任公司 实时动态地产生文件系统兼容性的方法
CN114158258B (zh) * 2020-06-18 2022-08-19 模范软体有限责任公司 实时动态地产生文件系统兼容性的方法

Also Published As

Publication number Publication date
CN101908073B (zh) 2012-07-11

Similar Documents

Publication Publication Date Title
CN101908073B (zh) 一种文件系统中实时删除重复数据的方法
CN101917396B (zh) 一种网络文件系统中数据的实时去重和传输方法
CN101957836B (zh) 一种文件系统中可配置的实时透明压缩方法
US6789094B2 (en) Method and apparatus for providing extended file attributes in an extended attribute namespace
CN101419828B (zh) 一种模拟磁带串行模式的硬盘视频记录及检索方法
US10255235B2 (en) Database storage system based on jukebox and method using the system
US20150193473A1 (en) Database Storage System based on Optical Disk and Method Using the System
WO2008080143B1 (en) Method and system for searching stored data
CN104239443B (zh) 一种序列化数据操作日志的存储方法
CN103605778B (zh) 一种视频文件的定位方法、装置及系统
CN104156474B (zh) 一种分布式文件系统中文件的快速删除方法
CN102289451A (zh) 文件或文件夹查找方法和装置
CN103914522A (zh) 一种应用于云存储重复数据删除的数据块合并方法
CN101082930A (zh) 管理数据的设备和方法
CN104537050A (zh) 一种批量快速创建文件系统元数据和数据的方法
CN101539884B (zh) 数据存储方法和装置
DE102014104971A1 (de) Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung und eine entsprechende hierarchische Speicherumgebung
CN103631589B (zh) 应用识别方法与装置
US20090240678A1 (en) Purposing persistent data through hardware metadata tagging
CN104462388A (zh) 一种基于级联式存储介质的冗余数据清理方法
CN102609531B (zh) 一种根据关键字反查文件的方法
CN107315661A (zh) 一种集群文件系统已删除文件恢复方法及装置
CN103136264B (zh) 附件查询方法和用户终端
CN104239231A (zh) 一种加速二级缓存预热的方法及装置
CN100359592C (zh) 摄录设备硬盘的数据存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120711

Termination date: 20210813

CF01 Termination of patent right due to non-payment of annual fee