CN102033962B - 一种快速去重的文件数据复制方法 - Google Patents

一种快速去重的文件数据复制方法 Download PDF

Info

Publication number
CN102033962B
CN102033962B CN2010106200747A CN201010620074A CN102033962B CN 102033962 B CN102033962 B CN 102033962B CN 2010106200747 A CN2010106200747 A CN 2010106200747A CN 201010620074 A CN201010620074 A CN 201010620074A CN 102033962 B CN102033962 B CN 102033962B
Authority
CN
China
Prior art keywords
file
destination
file destination
data
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010106200747A
Other languages
English (en)
Other versions
CN102033962A (zh
Inventor
朱立谷
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN2010106200747A priority Critical patent/CN102033962B/zh
Publication of CN102033962A publication Critical patent/CN102033962A/zh
Application granted granted Critical
Publication of CN102033962B publication Critical patent/CN102033962B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明的一种快速去重的文件数据复制方法,包括:在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2,对所述第二目标文件元数据信息进行指纹计算形成ID3,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4;将所述ID1与所述ID3进行对比;若所述ID1与所述ID3相同,则无需复制;若所述ID1与所述ID3不相同,且所述ID2与所述ID4相同,则更新所述第一目标文件的元数据,若所述ID2与所述ID4不相同,则将所述第二目标文件全文件进行复制。

Description

一种快速去重的文件数据复制方法
技术领域
本发明涉及一种数据复制方法,特别涉及一种快速去重的文件数据复制方法。
背景技术
对于现有的文件数据复制方法主要有两种:一种是对整体文件进行去重,另一种是对文件内部数据块进行去重。前者是指针对整体文件去重算法进行的改进。传统的算法叫做完全文件检测(whole file detection,WFD)WFS技术是以文件为粒度查找重复数据,首先对整个文件进行指纹计算(hash计算),然后将该值与已存储的其他文件的hash值进行比较,如果检测到相同的值,则仅将文件用指针替换,如果不同则将整个文件进行传送,后者,将文件拆分为更小的数据段,对数据段的内容进行指纹计算,然后对每个段进行指纹对比,检测出内容相同的数据段,重复的段只传送指针,不同的数据段传输该数据段的全部内容。与前者相比,实际传送的数据量决定于备份或复制间隔内所产生的数据变化量,因此,比前者所需要传输的数据量要少很多。然而其文件对比所需要的检测时间确是相同的,均为对所有文件的所有内容进行比对检测。
然而,对于某些文件,经处理前后的内容完全一样,然而其指纹信息确发生了变化,如果只对全文件进行指纹计算,来确定前后是否一致,进而来决定是否对全文件进行复制,很可能造成具有完全一样内容的文件被再次传输,增加了传输的负载,也没有达到去复的目的。如果对于一些本来就没有被修改过的文件来说,采用上述数据段去复的方法进行去重复制,那么需要将该文件分成若干段,将每段内容指纹计算,然后将每个数据段的指纹进行对比,最终确定复制策略,这样一来,大大增加了对文件内容一致性的检测时间。另外,即便文件内容有改动,然而,对于一些行业来说,比如影视行业,IT业等他们需要定期复制的文件数量很大,且单一文件大小也很大,通常被修改的部分较大,且被修改的位置在文件中的分布也不一定,比如,经大量修改后的内容存在于整个文件的中部或末尾,如果采用现有技术中上述数据段去重的方法的去重文件数据复制方法,对文件数据的进行备份,需要对所有的内容进行对比,因此,很多没有修改的信息都被提取出进行对比,其前期的检测时间大大增加了,使复制的效率大大降低,更严重的甚至会造成工业生产的停滞,进而造成较大的经济损失。
发明内容
为此,本发明要解决的技术问题在于,提出一种能够显著减少重复文件数据检测时间,又能很好地保证重复性文件检测精度的,高效的快速去重的文件数据复制方法。
为此,本发明的一种快速去重的文件数据复制方法,包括:
指纹获取步骤
在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述ID1文件和所述ID2文件存储在数据库中;
在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4文件存储在数据库中;
指纹对比和文件复制执行步骤
将所述ID1文件与所述ID3文件进行对比:
若所述ID1文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目标文件目录下;
若所述ID1文件与所述ID3文件不相同,且所述ID2文件与所述ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据;
若所述ID1文件与所述ID3文件不相同,且所述ID2与所述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。
上述的文件数据复制方法,所述第一目标文件的元数据信息包括所述第一目标文件的按特定顺序组合而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目标文件的元数据信息包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修改时间。
上述的文件数据复制方法,所述指纹计算为Rabin计算、MD5计算、SHA-1计算、SHA-224计算、SHA-256计算、SHA-384和SHA-512计算中的一种。
上述的文件数据复制方法,所述预定间隔尺度为512B-5KB;
上述的文件数据复制方法,其特征在于:通过间隔提取的文件数据段大小为512B-2KB。
上述的文件数据复制方法,所述第一目标文件的元数据信息还包括所述第一目标文件的父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件的父目录信息和层次信息。
上述的文件数据复制方法,在每一次复制步骤完成后对备份文件分配同一个版本号,作为文件恢复的索引。
上述的文件数据复制方法,所述预定间隔尺度为1KB。
上述的文件数据复制方法,所述间隔提取的文件数据段大小为1KB。
上述文件数据复制方法,所述文件类型包括:压缩文件类、音视频文件类、图像文件类、可执行文件类、文档类和数据文件类中的一种或几种。
本发明具有以下优点:
1、快速去重的文件数据复制方法包括:在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述ID1文件和所述ID2文件存储在数据库中;在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4文件存储在数据库中;将所述ID1文件与所述ID3文件进行对比;若所述ID1文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目标文件目录下;若所述ID1文件与所述ID3文件不相同,则将所述ID2文件与所述ID4文件进行对比,若所述ID2文件与所述ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据,若所述ID2与所述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。以上处理过程在备份文件即第一目标文件和待备份文件即第二目标文件的元数据相同的情况下,只需要对比他们的元数据信息,无需对比其实质内容,由于元数据信息的数据量很小,因此其检测时间大大提高了,另外,当备份文件和待备份文件元数据相同的情况下,将备份文件经预定间隔尺度间隔提取的内容经过指纹计算的ID2文件和将待备份文件经预定间隔尺度间隔提取的内容经过指纹计算的ID4文件进行对比判断其相同性,由于在备份文件即第一目标文件和待备份文件即第二目标文件元数据不相同的情况下,它们的文件实质内容也有可能相同,通过间隔提取内容计算指纹用于指纹对比,可以快速发现分布于文件不同位置的修改处,无须对所有内容进行对比即可发生文件是否被修改过,可以大大减小其对比的时间,最终保证了相同文件数据的去重,又大大提高文件数据复制的效率。
2.通常情况下,对于一些大文件,其修改部分较多,且修改部分在文件中所处的位置又不一定,采用间隔尺度为512B-5KB可以较好的减少对文件相似度检测的时间,间隔提取的数据段大小为512B-2KB能较好地提高检测准确度。
3.间隔尺度为1KB,间隔提取的数据段大小为1KB,既可以大大减少对大文件相似度检测的时间,又可以很好地确保检测精度。
4.在每一次复制步骤完成后对备份文件分配同一个版本号,作为文件恢复的索引,其中每次文件恢复时都以最高的版本号为恢复索引,可以确保每次文件恢复时都将最新的文件内容进行恢复。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1为快速去重的文件复制方法的流程图;
具体实施方式
如图1所示的,一种快速去重的文件数据复制方法,包括:
指纹获取步骤
在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述ID1文件和所述ID2文件存储在数据库中。
在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4文件存储在数据库中。
其中,ID1是第一元数据经过指纹计算产生的一个字符串,而ID2是若数据段内容经过指纹计算产生的一个组合字符串。
指纹对比和文件复制执行步骤
将所述ID1文件与所述ID3文件进行对比;若所述ID1文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目标文件目录下;若所述ID1文件与所述ID3文件不相同,则将所述ID2文件与所述ID4文件进行对比,若所述ID2文件与所述ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据,若所述ID2与所述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。
其中,所述第一目标文件的元数据信息包括所述第一目标文件的按特定顺序组合而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目标文件的元数据信息包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修改时间。所述指纹计算为Rabin计算、MD5计算、SHA-1计算、SHA-224计算、SHA-256计算、SHA-384和SHA-512计算中的一种。所述预定间隔尺度为512B-5KB,最优选为1KB;通过间隔提取的文件数据段大小为512B-2KB,最优选为1KB;所述第一目标文件的元数据信息还包括所述第一目标文件的父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件的父目录信息和层次信息。上述文件数据复制方法,所述文件类型包括:压缩文件类、音视频文件类、图像文件类、可执行文件类、文档类和数据文件类中的一种或几种。
具体文件类型包括:
压缩文件类:*.arc*.cab*.ddi压缩文件,diskdupe的压缩文件,可由hd-copy还原*.Ice,*.zip,*.gz,*.tar
音视频文件类:*.avi,*.cmf,*.fli,*.ins,*.m3u,*.mp3,*.mov*.mpeg,*.vol,*.wav,*.swf;
图像文件类:*.bmp,*.bgi Borland公司的图形界面文件*.cda,cd文件*.icn,*.ico,*.iff,*.jpg,*.lbm,*.pbm,*.pgm,*.png,*.caj,*.GIF;
文档类:*.doc,*.fmt,*.fnt,*.mbd,*.wps,*.xls;
可执行文件类:*.com,*.dll,*.drv,*.exe,*.fox,*.fxp,*.frm,*.obj;
数据文件类:*.dat,*.dbf,*.idx,*.img,*.mem,*.ndx;
当需要将多个文件同时复制到所述目标文件目录下时,已存在在所述目标文件目录下的文件为所述第一目标文件,待复制到所述目标文件目录下的文件为第二目标文件。
实施例2
一种快速去重的文件数据复制方法,包括:
指纹获取步骤
在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述ID1文件和所述ID2文件存储在数据库中。
在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4文件存储在数据库中。
其中,ID1是第一元数据经过指纹计算产生的一个字符串,而ID2是若数据段内容经过指纹计算产生的一个组合字符串。
指纹对比和文件复制执行步骤
将所述ID1文件与所述ID3文件进行对比;若所述ID1文件与所述ID3文件相同,则将所述第二目标文件全文件复制到所述目标文件目录下;若所述ID1文件与所述ID3文件不相同,则将所述ID2文件与所述ID4文件进行对比,若所述ID2文件与所述ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据,若所述ID2与所述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。
其中,所述第一目标文件的元数据信息包括所述第一目标文件的按特定顺序组合而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目标文件的元数据信息包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修改时间。所述指纹计算为Rabin计算、MD5计算、SHA-1计算、SHA-224计算、SHA-256计算、SHA-384和SHA-512计算中的一种。所述预定间隔尺度为512B-5KB,最优选为1KB;通过间隔提取的文件数据段大小为512B-2KB,最优选为1KB;所述第一目标文件的元数据信息还包括所述第一目标文件的父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件的父目录信息和层次信息。上述文件数据复制方法,所述文件类型包括:压缩文件类、音视频文件类、图像文件类、可执行文件类、文档类和数据文件类一种或几种。
具体文件类型包括:
压缩文件类:*.arc*.cab*.ddi压缩文件,diskdupe的压缩文件,可由hd-copy还原*.Ice,*.zip,*.gz,*.tar
音视频文件类:*.avi,*.cmf,*.fli,*.ins,*.m3u,*.mp3,*.mov*.mpeg,*.vol,*.wav,*.swf;
图像文件类:*.bmp,*.bgi Borland公司的图形界面文件*.cda,cd文件*.icn,*.ico,*.iff,*.jpg,*.lbm,*.pbm,*.pgm,*.png,*.caj,*.GIF;
文档类:*.doc,*.fmt,*.fnt,*.mbd,*.wps,*.xls;
可执行文件类:*.com,*.dll,*.drv,*.exe,*.fox,*.fxp,*.frm,*.obj;
数据文件类:*.dat,*.dbf,*.idx,*.img,*.mem,*.ndx;
在每一次复制步骤完成后对备份文件分配同一个版本号,作为文件恢复的索引,其中每次文件恢复时都以最高的版本号为恢复索引。
当需要将多个文件同时复制到所述目标文件目录下时,已存在在所述目标文件件目录下的文件为所述第一目标文件,待复制到所述目标文件目录下的文件为第二目标文件。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以根据设备的大小不同做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种快速去重的文件数据复制方法,其特征在于:包括:
指纹获取步骤
在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述ID1文件和所述ID2文件存储在数据库中;
在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4文件存储在数据库中;
指纹对比和文件复制执行步骤
将所述ID1文件与所述ID3文件进行对比:
若所述ID1文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目标文件目录下;
若所述ID1文件与所述ID3文件不相同,且所述ID2文件与所述ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据;
若所述ID1文件与所述ID3文件不相同,且所述ID2与所述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。
2.根据权利要求1所述的文件数据复制方法,其特征在于:所述第一目标文件的元数据信息包括所述第一目标文件的按特定顺序组合而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目标文件的元数据信息包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修改时间。
3.根据权利要求2所述的文件数据复制方法,其特征在于:所述指纹计算为Rabin计算、MD5计算、SHA-1计算、SHA-224计算、SHA-256计算、SHA-384和SHA-512计算中的一种。
4.根据权利要求1-3任一所述的文件数据复制方法,其特征在于:所述预定间隔尺度为512B-5KB;
5.根据权利要求4所述的文件数据复制方法,其特征在于:通过间隔提取的文件数据段大小为512B-2KB。
6.根据权利要求5所述的文件数据复制方法,其特征在于:所述第一目标文件的元数据信息还包括所述第一目标文件的父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件的父目录信息和层次信息。
7.根据权利要求6所述的文件数据复制方法,其特征在于:在每一次复制步骤完成后对备份文件分配同一个版本号,作为文件恢复的索引。
8.根据权利要求7所述的文件数据复制方法,其特征在于:所述预定间隔尺度为1KB。
9.根据权利要求8所述的文件数据复制方法,其特征在于:所述间隔提取的文件数据段大小为1KB。
10.根据权利要求9所述文件数据复制方法,其特征在于:所述文件类型包括:压缩文件类、音视频文件类、图像文件类、可执行文件类、文档类和数据文件类中的一种或几种。
CN2010106200747A 2010-12-31 2010-12-31 一种快速去重的文件数据复制方法 Expired - Fee Related CN102033962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106200747A CN102033962B (zh) 2010-12-31 2010-12-31 一种快速去重的文件数据复制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106200747A CN102033962B (zh) 2010-12-31 2010-12-31 一种快速去重的文件数据复制方法

Publications (2)

Publication Number Publication Date
CN102033962A CN102033962A (zh) 2011-04-27
CN102033962B true CN102033962B (zh) 2012-05-30

Family

ID=43886855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106200747A Expired - Fee Related CN102033962B (zh) 2010-12-31 2010-12-31 一种快速去重的文件数据复制方法

Country Status (1)

Country Link
CN (1) CN102033962B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101703931B1 (ko) * 2011-05-24 2017-02-07 한화테크윈 주식회사 감시 시스템
CN102810075B (zh) * 2011-06-01 2014-11-19 英业达股份有限公司 事务型系统处理方法
CN103917960A (zh) * 2011-08-19 2014-07-09 株式会社日立制作所 存储装置和副本数据检测方法
CN102541991B (zh) * 2011-11-14 2014-12-24 广东威创视讯科技股份有限公司 一种文件处理方法和系统
CN103136243B (zh) * 2011-11-29 2016-08-31 中国电信股份有限公司 基于云存储的文件系统去重方法及装置
US9087010B2 (en) * 2011-12-15 2015-07-21 International Business Machines Corporation Data selection for movement from a source to a target
CN107360138B (zh) * 2012-09-24 2020-09-25 华为技术有限公司 一种媒体文件消重的方法、服务器及系统
CN103118019B (zh) * 2013-01-24 2016-03-16 南开大学 一种基于去重的文件网络复制方法
CN105511814A (zh) * 2015-12-11 2016-04-20 上海爱数信息技术股份有限公司 一种静态数据文件的存储方法
CN107783904B (zh) * 2017-09-27 2021-03-16 武汉斗鱼网络科技有限公司 单元测试桩去重方法、装置、计算机可读存储介质及设备
CN109241310B (zh) * 2018-07-25 2020-05-01 南京甄视智能科技有限公司 人脸图像数据库的数据去重方法与系统
CN108958983B (zh) * 2018-08-06 2021-03-26 深圳市科力锐科技有限公司 基于数据差异的还原方法、装置、存储介质及用户设备
CN110532795B (zh) * 2019-07-11 2021-02-19 西安交通大学 一种基于rabin指纹与异或计算的重复数据检测方法
CN113127865B (zh) * 2019-12-31 2023-11-07 深信服科技股份有限公司 一种恶意文件的修复方法、装置、电子设备及存储介质
CN111984300B (zh) * 2020-09-08 2024-01-23 网易(杭州)网络有限公司 代码复制方法及装置、电子设备和计算机可读存储介质
CN113190293B (zh) * 2021-06-10 2022-04-19 中国人民解放军国防科技大学 一种波形加载方法、装置、设备及可读存储介质
US11669496B2 (en) * 2021-07-21 2023-06-06 Huawei Technologies Co., Ltd. Method and apparatus for replicating a target file between devices

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008019133A3 (en) * 2006-08-04 2008-11-20 Google Inc Detecting duplicate and near-duplicate files
CN101539904A (zh) * 2009-04-21 2009-09-23 武汉大学 一种引文自动标引方法
CN201654778U (zh) * 2009-04-22 2010-11-24 同方知网(北京)技术有限公司 文本复制检测装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008019133A3 (en) * 2006-08-04 2008-11-20 Google Inc Detecting duplicate and near-duplicate files
CN101539904A (zh) * 2009-04-21 2009-09-23 武汉大学 一种引文自动标引方法
CN201654778U (zh) * 2009-04-22 2010-11-24 同方知网(北京)技术有限公司 文本复制检测装置

Also Published As

Publication number Publication date
CN102033962A (zh) 2011-04-27

Similar Documents

Publication Publication Date Title
CN102033962B (zh) 一种快速去重的文件数据复制方法
US9372941B2 (en) Data processing apparatus and method of processing data
US8745003B1 (en) Synchronization of storage using comparisons of fingerprints of blocks
CN102567218B (zh) 用于数据去重复块存储的垃圾收集和热点释放
CN102985911B (zh) 高度可伸缩和分布式重复数据删除
KR101556435B1 (ko) 데이터베이스 백업본 복구 방법 및 그 장치
US8782003B1 (en) Synchronization of storage using log files and snapshots
US20140337363A1 (en) Subsegmenting for efficient storage, resemblance determination, and transmission
US10162555B2 (en) Deduplicating snapshots associated with a backup operation
US7366859B2 (en) Fast incremental backup method and system
US20100235372A1 (en) Data processing apparatus and method of processing data
US10120595B2 (en) Optimizing backup of whitelisted files
US10108635B2 (en) Deduplication method and deduplication system using data association information
US20110040763A1 (en) Data processing apparatus and method of processing data
US10366072B2 (en) De-duplication data bank
CN104932841A (zh) 一种云存储系统中节约型重复数据删除方法
JP2012513069A (ja) コンテンツアウェア・データ分割およびデータ重複排除のための方法ならびに装置
JP2013140443A (ja) バックアップ制御プログラム、バックアップ制御方法およびバックアップ制御装置
CN103034659A (zh) 一种重复数据删除的方法和系统
CN107506260A (zh) 一种动态分块数据库增量备份方法
US8874527B2 (en) Local seeding of a restore storage for restoring a backup from a remote deduplication vault storage
US10732881B1 (en) Region cloning for deduplication
US20160335288A1 (en) Partitioned Data Replication
CN106708927B (zh) 文件的去重处理方法和装置
CN102541685A (zh) 一种Linux系统备份和修复方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120530

Termination date: 20131231