CN106708927B - 文件的去重处理方法和装置 - Google Patents

文件的去重处理方法和装置 Download PDF

Info

Publication number
CN106708927B
CN106708927B CN201611016883.0A CN201611016883A CN106708927B CN 106708927 B CN106708927 B CN 106708927B CN 201611016883 A CN201611016883 A CN 201611016883A CN 106708927 B CN106708927 B CN 106708927B
Authority
CN
China
Prior art keywords
file
algorithm
files
data blocks
sha
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611016883.0A
Other languages
English (en)
Other versions
CN106708927A (zh
Inventor
赵汝成
曾鸿军
王鹏雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 263 Enterprise Communication Co ltd
Original Assignee
Beijing 263 Enterprise Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 263 Enterprise Communication Co ltd filed Critical Beijing 263 Enterprise Communication Co ltd
Priority to CN201611016883.0A priority Critical patent/CN106708927B/zh
Publication of CN106708927A publication Critical patent/CN106708927A/zh
Application granted granted Critical
Publication of CN106708927B publication Critical patent/CN106708927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文件的去重处理方法和装置。本发明提供的文件的去重处理方法,包括:从上述文件中获取至少两个数据块;根据预设的哈希算法分别计算每个数据块的消息摘要,并根据上述至少两个数据块的消息摘要得到组合消息摘要;根据上述组合消息摘要进行去重比对操作。本发明提供的文件的去重处理方法,可降低组合消息摘要碰撞的概率,进而降低进行全文比对的概率,从而避免因全文比对导致的增加比对的工作量、增加比对的成本的问题。

Description

文件的去重处理方法和装置
技术领域
本发明涉及数据处理技术,尤其涉及一种文件的去重处理方法和装置。
背景技术
为避免相同的文件被重复存储,占用存储系统的容量,需要进行文件去重处理。
目前,采用如下方法来判断第一文件和第二文件是否相同,以在第一文件和第二文件相同时,进行文件去重处理。首先,对第一文件和第二文件分别进行哈希处理,得到第一文件的第一消息摘要和第二文件的第二消息摘要,然后,判断第一消息摘要与第二消息摘要是否相同。若第一消息摘要与第二消息摘要不相同,则确定第一文件和第二文件不同,不执行去重处理,两个文件分别进行存储,若第一消息摘要和第二消息摘要相同,则再判断第一文件的全文和第二文件的全文是否相同,若第一文件的全文和第二文件的全文相同,则确定第一文件和第二文件相同,执行去重处理,若第一文件的全文和第二文件的全文不相同,则确定第一文件与第二文件不相同,不执行去重处理,两个文件分别存储。
采用上述方法来判断两个文件是否相同时,由于哈希处理自身的特性,不同文件进过哈希处理后,可能会得到同样的消息摘要,例如,将两个不同的文件经过MD5算法处理后,得到的消息摘要碰撞(相同)的概率为1/2128,两个不同的文件的消息摘要碰撞的概率较高。这样,一旦两个不同的文件的消息摘要相同,为判断两个文件是否相同,就需要对两个文件进行全文比对,而这样因碰撞概率高导致的全文比对往往会增加比对的工作量,导致比对成本增加。
发明内容
本发明提供一种文件的去重处理方法,以解决现有的文件去重方法中,因文件的消息摘要碰撞的概率较高而导致的比对的工作量大、比对的成本高的问题。
本发明第一方面提供一种文件的去重处理方法,包括:
从所述文件中获取至少两个数据块;
根据预设的哈希算法分别计算每个数据块的消息摘要,并根据所述至少两个数据块的消息摘要得到组合消息摘要;
根据所述组合消息摘要进行去重比对操作。
进一步地,所述从所述文件中获取至少两个数据块,具体包括:
按照预设的内存间隔,间隔从所述文件中提取第一元数据块;
根据预设的组合策略,将所述第一元数据块组合为所述至少两个数据块。
进一步地,所述从所述文件中获取至少两个数据块,具体包括:
按照预设的数据块大小,顺序从所述文件中提取第二元数据块;
根据预设的组合策略,将所述第二元数据块组合为所述至少两个数据块。
进一步地,所述哈希算法为Rabin算法、MD5算法、SHA-1算法、SHA-224算法、SHA-256算法、SHA-384算法和SHA算法中的任一种。
本发明第二方面提供一种文件的去重处理装置,包括:获取模块,计算模块和处理模块,其中,
所述获取模块,用于从所述文件中获取至少两个数据块;
所述计算模块,用于根据预设的哈希算法分别计算每个数据块的消息摘要,并根据所述至少两个数据块的消息摘要得到组合消息摘要;
所述处理模块,用于根据所述组合消息摘要进行去重比对操作。
进一步地,所述获取模块,具体用于按照预设的内存间隔,间隔从所述文件中提取第一元数据块,并根据预设的组合策略,将所述第一元数据块组合为所述至少两个数据块
进一步地,所述获取模块,具体用于根据预设的数据块按照预设的数据块大小,顺序从所述文件中提取第二元数据块,并根据预设的组合策略,将所述第二元数据块组合为所述至少两个数据块。
进一步地,所述哈希算法为Rabin算法、MD5算法、SHA-1算法、SHA-224算法、SHA-256算法、SHA-384算法和SHA算法中的任一种。
本发明提供的文件的去重处理方法和装置,通过从上述文件中获取至少两个数据块,并根据预设的哈希算法分别计算每个数据块的消息摘要,以及根据上述至少两个数据块的消息摘要得到组合消息摘要,进而根据上述组合消息摘要进行去重比对操作。这样,可降低组合消息摘要碰撞的概率,进而降低进行全文比对的概率,从而避免因全文比对导致的增加比对的工作量、增加比对的成本的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明文件的去重处理方法实施例一的流程图;
图2为本发明文件的去重处理方法实施例二的流程图;
图3为本发明文件的去重处理方法实施例三的流程图;
图4为本发明文件的去重处理装置实施例一的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种文件的去重处理方法,以解决现有的文件去重方法中,因文件的消息摘要碰撞的概率较高而导致的比对的工作量大、比对的成本高的问题。
本发明提供的文件的去重处理方法,可应用于文件数据处理领域,具体的,可应用本发明提供的文件的去重处理方法,来判断两个文件是否相同,进而决定是否进行去重处理,以避免相同的文件被重复存储,进而占用存储空间的容量。
下面以具体的实施例来对本发明的技术方案进行详细说明,下面这几个具体的实施例可以相互结合,对于相同或相应的概念或过程可能在某些实施例中不再赘述。
图1为本发明文件的去重处理方法实施例一的流程图。本发明实施例的执行主体可以是单独的文件的去重处理装置,还可以是集成了文件的去重处理装置的硬件设备,例如计算机。本发明实施例以执行主体为单独的文件的去重处理装置为例来进行说明。本实施例涉及的是计算文件的组合消息摘要,并根据组合消息摘要进行去重比对操作的具体过程。如图1所示,本实施例提供的文件的去重处理方法,可以包括如下步骤:
S101、从上述文件中获取至少两个数据块。
具体地,本实施例中,文件的类型可以为压缩文件类、音视频文件类,图像文件类、可执行文件类、文档类和数据文件类等。例如,压缩文件类可以是arc压缩文件、cab压缩文件、ddi压缩文件等;音视频文件类可以为avi音视频文件、cmf音视频文件、fli音视频文件、ins音视频文件、mp3音视频文件、mov音视频文件等;图像文件类可以是bmp图像文件、bgi图像文件、cad图像文件、cd图像文件、ico图像文件、jpg图像文件、lbm图像文件、caj图像文件等。文档类文件可以为doc文件、fmt文件、fnt文件、mbd文件、wps文件、xls文件等;可执行文件类可以为com文件、dll文件、drv文件、exe文件、fox文件、fxp文件等;数据文件类可以为dat文件、dbf文件、idx文件、img文件、mem文件等。
此外,可以采用如下方法从上述文件中获取至少两个数据块。例如,在一种可能的实现方式中,可以将文件分为内存大小相等的至少两部分,得到至少两个数据块。再例如,在另一种可能的实现方式中,可以从文件中的任意位置任意获取至少两个数据块。在该种实现方式中,例如,假设将文件分为内存大小相等的三部分,这三部分按照在文件中的先后顺序依次记为第一部分、第二部分和第三部分,可以从文件的第一部分中的任意位置获取一个任意内存大小的数据块,再从文件的第三部分中的任意位置再获取一个任意内存大小的数据块,得到两个数据块。还可以从文件中的第二部分中直接获得至少两个数据块。
需要说明的是,上面所介绍的几种获取数据块的方式仅仅是几种可能的实现方式,本实施例不对数据块的具体获取方式作出限制。此外,本实施例中,也不对数据块的内存大小作出限定。
S102、根据预设的哈希算法分别计算每个数据块的消息摘要,并根据上述至少两个数据块的消息摘要得到组合消息摘要。
具体地,哈希算法可以为Rabin算法、MD5算法、SHA-1算法、SHA-224算法、SHA-256算法、SHA-384算法和SHA算法中的任一种。本实施例中,以采用MD5算法计算每个数据块的消息摘要为例来进行说明。例如,在步骤S101中,若获取了两个数据块:数据块A和数据块B,则在本步骤中,采用MD5算法分别计算数据块A的消息摘要MD5(A)和数据块B的消息摘要(B)。
需要说明的是,本步骤中,按照预设的组合顺序根据上述至少两个数据块的消息摘要得到消息摘要。结合上面的例子,当根据数据块A的消息摘要MD5(A)和数据块B的消息摘要MD5(B)得到组合消息摘要时,可以按照如下组合顺序得到组合消息摘要。即组合消息摘要=MD5(A)MD5(B),也可以按照以下组合顺序得到组合消息摘要,即组合消息摘要=MD5(B)MD5(A)。再例如,当在步骤S101中,从文件中获取到三个数据块:数据块A1、数据块B1、数据块C1,且在本步骤中,采用MD5算法计算得到数据块A1的消息摘要MD5(A1)、数据块B1的消息摘要MD5(B1)和数据块C1的消息摘要MD5(C1)。则再根据上述三个消息摘要得到组合消息摘要时,可以按照以下预设的组合顺序中的任意一种来得到组合消息摘要,其中,预设的组合顺序可以为:组合消息摘要=MD5(A1)MD5(B1)MD5(C1)、组合消息摘要=MD5(A1)MD5(C1)MD5(B1)、组合消息摘要=MD5(B1)MD5(A1)MD5(C1)、组合消息摘要=MD5(B1)MD5(C1)MD5(A1)、组合消息摘要=MD5(C1)MD5(A1)MD5(B1)、组合消息摘要=MD5(C1)MD5(A1)MD5(B1)。
需要说明的是,上面所介绍的几种预设的组合顺序仅仅是几种可能的实现方式,本实施例不对预设的组合顺序进行限定。
S103、根据上述组合消息摘要进行去重比对操作。
具体地,本步骤中,当按照步骤S101和步骤S102得到两个文件的组合消息摘要后,将这两个文件的组合消息摘要进行比对,判断两个文件的组合消息摘要是否相同,若组合消息摘要不相同,则确定两个文件不同,若两个文件的组合消息摘要相同,则对上述两个文件进行全文比对,以通过全文比对判断两个文件是否相同。
本实施例中,在进行文件的去重处理时,通过从文件中获取至少两个数据块,并根据预设的哈希算法分别计算每个数据块的消息摘要,以及根据上述至少两个数据块的消息摘要得到组合消息摘要,进而根据上述组合消息摘要进行去重比对操作。这样,可降低组合消息摘要碰撞的概率,进而降低进行全文比对的概率,从而避免因全文比对导致的增加比对的工作量,增加比对的成本的问题。
下面以一个具体的例子来解释说明本实施例提供的文件的去重处理方法能降低组合消息摘要碰撞的概率的具体原理。具体地,本例子以从文件中获取两个数据块,且以预设的哈希算法为MD5算法为例来进行说明。例如,从文件中获取两个数据块:数据块1和数据块2,并根据MD5算法计算得到数据块1的消息摘要MD5(1)和数据块2的消息摘要MD5(2),并根据这两个数据块的消息摘要得到组合消息摘要MD5(1)MD5(2),结合本申请背景技术中记载的内容可知,由于MD5算法自身的特性,两个文件经过MD5处理后,得到的消息摘要碰撞的概率为1/2128,因此,本实施例中,由于组合消息摘要是根据两个消息摘要组合得到的,因此,两个文件的组合消息摘要碰撞的概率为(1/2128)2。综上,本实施例提供的文件的去重处理的方法,可降低两个文件的组合消息摘要碰撞的概率。
结合上述例子和上面的分析,当从文件中获取N个数据块(其中,N大于等于2),且采用MD5算法来计算每个数据块的消息摘要时,最后根据上述N个数据块得到的组合消息摘要发生碰撞的概率为(1/2128)N。与现有技术中的消息摘要发生碰撞的概率相比,该组合消息摘要发生碰撞的概率大大降低。这样,当将不同的两个文件通过本实施例提供的文件去重方法进行去重处理时,这两个文件的组合消息摘要发生碰撞的概率非常小,可避免现有技术中因消息摘要的碰撞的概率高导致的继续进行全文比对,进而因全文比对导致的增加比对的工作量、增加比对的成本的问题。
本实施例提供的文件的去重处理方法,通过从文件中获取至少两个数据块,并根据预设的哈希算法分别计算每个数据块的消息摘要,以及根据上述至少两个数据块的消息摘要得到组合消息摘要,进而根据上述组合消息摘要进行去重比对操作。这样,可降低组合消息摘要碰撞的概率,进而降低进行全文比对的概率,从而避免因全文比对导致的增加比对的工作量、增加比对的成本的问题。
图2为本发明文件的去重处理方法实施例二的流程图。本实施例涉及的是如何从文件中获取至少两个数据块的过程。在实施例一的基础上,本实施例提供的文件的去重处理方法,步骤S101具体包括:
S201、按照预设的内存间隔,间隔从上述文件中提取第一元数据块。
具体地,预设的内存间隔的具体值可以根据需要设定,本实施例不对预设的内存间隔的具体值进行限定。例如,预设的内存间隔可以为500KB。
需要说明的是,第一元数据块包括多个数据块,本实施例中,不对数据块的具体大小进行限定。例如,元数据块的大小可以为1000KB。结合上面的例子,本步骤中,可以从文件中每间隔500KB获取一个内存大小为1000KB的元数据块,得到多个元数据块,这多个元数据块构成第一元数据块。
S202、根据预设的组合策略,将上述第一元数据块组合为上述至少两个数据块。
需要说明的是,本实施例不对预设的组合策略进行限定。例如,可以将上述第一元数据块按照数据块的个数等分为至少两部分,得到至少两个数据块。例如,上述第一元数据块包括9个元数据块,可以将这9个元数据块分为三部分(每部分包括三个元数据块),得到三个数据块。再例如,假设上述第一元数据块有5个元数据块,可以将第一个元数据块作为一个数据块,将中间的三个元数据块组合为第二个数据块,将最后的一个数据块作为一个数据块,得到三个数据块。
本实施例提供的文件的去重处理方法,按照预设的内存间隔,间隔从上述文件中提取第一元数据块,并根据预设的组合策略,将上述第一元数据块组合为至少两个数据块,进而根据预设的哈希算法分别计算每个数据块的消息摘要,并根据上述至少两个数据块的消息摘要得到组合消息摘要,从而根据上述组合消息摘要进行去重比对操作。这样,可降低组合消息摘要碰撞的概率,降低进行全文比对的概率,进而避免因全文比对导致的增加比对的工作量、增加比对的成本的问题。
图3为本发明文件的去重处理方法实施例三的流程图。本实施例涉及的是如何从文件中获取至少两个数据块的过程。在实施例一的基础上,本实施例提供的文件的去重处理方法,步骤S101具体包括:
S301、按照预设的数据块大小,顺序从上述文件中提取第二元数据块。
具体地,预设的数据块大小的具体值可以根据需要设定,本实施例不对预设的数据块大小的具体值进行限定。例如,预设的数据块大小可以为200KB;再例如,预设的数据块大小可以为整个文件大小的1/10。
需要说明的是,第二元数据块包括多个元数据块。例如,一个文件的大小为10000KB,且预设的数据块大小为100KB,则按照上述预设的数据块大小,顺序从上述文件中提取第二元数据块时,可以从上述文件中提取出100个元数据块。
S302、根据预设的组合策略,将上述第二元数据块组合为所述至少两个数据块。
具体地,本步骤的具体实现方法及实现原理可以参见实施例二中步骤S202的描述,此处不再赘述。例如,结合上述的例子,当获取到100个元数据块时,可以将这100个元数据块中的前50个元数据块组合为一个数据块,将这100个元数据块中的后50个元数据块组合为一个数据块,得到两个数据块。
本实施例提供的文件的去重处理方法,按照预设的数据块大小,顺序从上述文件中提取第二元数据块,并根据预设的组合策略,将上述第一元数据块组合为至少两个数据块,进而根据预设的哈希算法分别计算每个数据块的消息摘要,并根据上述至少两个数据块的消息摘要得到组合消息摘要,从而根据所述组合消息摘要进行去重比对操作。这样,可降低组合消息摘要碰撞的概率,降低进行全文比对的概率,进而避免因全文比对导致的增加比对的工作量、增加比对的成本的问题。
图4为本发明文件的去重处理装置实施例一的结构示意图。该装置可以通过软件、硬件或者软硬结合的方式实现,且该装置可以是单独的文件的去重处理装置,也可以是集成了文件的去重处理装置的其他设备,例如计算机。如图4所示,本实施例提供的文件的去重处理装置,可以包括:获取模块100,计算模块200和处理模块300,其中,
获取模块100,用于从上述文件中获取至少两个数据块;
计算模块200,用于根据预设的哈希算法分别计算每个数据块的消息摘要,并根据上述至少两个数据块的消息摘要得到组合消息摘要;
处理模块300,用于并根据上述组合消息摘要进行去重比对操作。
具体地,本实施例提供的装置,可以用于执行图1所示的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,上述哈希算法为Rabin算法、MD5算法、SHA-1算法、SHA-224算法、SHA-256算法、SHA-384算法和SHA算法中的任一种。
在本发明一种可能的实现方式中,获取模块100,具体用于按照预设的内存间隔,间隔从上述文件中提取第一元数据块,并根据预设的组合策略,将上述第一元数据块组合为上述至少两个数据块。
具体地,本实施例提供的装置,可以用于执行图2所示的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在本发明另一种可能的实现方式中,获取模块100,具体用于根据预设的数据块按照预设的数据块大小,顺序从上述文件中提取第二元数据块,并根据预设的组合策略,将上述第二元数据块组合为上述至少两个数据块。
具体地,本实施例提供的装置,可以用于执行图3所示的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种文件的去重处理方法,其特征在于,包括:
从所述文件中获取至少两个数据块;
根据预设的哈希算法分别计算每个数据块的消息摘要,并按照预设的组合顺序根据所述至少两个数据块的消息摘要得到组合消息摘要;
根据所述组合消息摘要进行去重比对操作,具体为:
将两个文件的所述组合消息摘要进行比对,判断所述两个文件的所述组合消息摘要是否相同,若所述组合消息摘要不相同,则确定两个文件不同;若所述组合消息摘要相同,则对所述两个文件进行全文比对,以判断所述两个文件是否相同;
其中,所述从所述文件中获取至少两个数据块,具体包括:
按照预设的内存间隔,间隔从所述文件中提取第一元数据块;
根据预设的组合策略,将所述第一元数据块组合为所述至少两个数据块;或者,
按照预设的数据块大小,顺序从所述文件中提取第二元数据块;
根据预设的组合策略,将所述第二元数据块组合为所述至少两个数据块。
2.根据权利要求1所述的方法,其特征在于,所述哈希算法为Rabin算法、MD5算法、SHA-1算法、SHA-224算法、SHA-256算法、SHA-384算法和SHA算法中的任一种。
3.一种文件的去重处理装置,其特征在于,包括:获取模块,计算模块和处理模块,其中,
所述获取模块,用于从所述文件中获取至少两个数据块;
所述计算模块,用于根据预设的哈希算法分别计算每个数据块的消息摘要,并按照预设的组合顺序根据所述至少两个数据块的消息摘要得到组合消息摘要;
所述处理模块,用于根据所述组合消息摘要进行去重比对操作,具体为:
将两个文件的所述组合消息摘要进行比对,判断所述两个文件的所述组合消息摘要是否相同,若所述组合消息摘要不相同,则确定两个文件不同;若所述组合消息摘要相同,则对所述两个文件进行全文比对,以判断所述两个文件是否相同;
其中,所述获取模块,具体用于按照预设的内存间隔,间隔从所述文件中提取第一元数据块,并根据预设的组合策略,将所述第一元数据块组合为所述至少两个数据块;或者,
所述获取模块,具体用于根据预设的数据块按照预设的数据块大小,顺序从所述文件中提取第二元数据块,并根据预设的组合策略,将所述第二元数据块组合为所述至少两个数据块。
4.根据权利要求3所述的装置,其特征在于,所述哈希算法为Rabin算法、MD5算法、SHA-1算法、SHA-224算法、SHA-256算法、SHA-384算法和SHA算法中的任一种。
CN201611016883.0A 2016-11-18 2016-11-18 文件的去重处理方法和装置 Active CN106708927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611016883.0A CN106708927B (zh) 2016-11-18 2016-11-18 文件的去重处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611016883.0A CN106708927B (zh) 2016-11-18 2016-11-18 文件的去重处理方法和装置

Publications (2)

Publication Number Publication Date
CN106708927A CN106708927A (zh) 2017-05-24
CN106708927B true CN106708927B (zh) 2021-01-05

Family

ID=58939833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611016883.0A Active CN106708927B (zh) 2016-11-18 2016-11-18 文件的去重处理方法和装置

Country Status (1)

Country Link
CN (1) CN106708927B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN110147363A (zh) * 2019-04-09 2019-08-20 华迪计算机集团有限公司 一种信息全文检索的数据去重清理方法及系统
CN110457628B (zh) * 2019-07-05 2020-09-22 平安国际智慧城市科技股份有限公司 网页版本校验方法、装置、设备及存储介质
CN110362560B (zh) * 2019-07-10 2021-12-31 政采云有限公司 一种无业务主键数据在存储数据库时去重的方法
CN111506268B (zh) * 2020-04-17 2023-07-18 北京百度网讯科技有限公司 代码文件存储方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012846A (zh) * 2010-12-12 2011-04-13 成都东方盛行电子有限责任公司 大视频文件完整性校验方法
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN103020317A (zh) * 2013-01-10 2013-04-03 曙光信息产业(北京)有限公司 基于重复数据删除的数据压缩方法和装置
CN103488952A (zh) * 2013-09-24 2014-01-01 华为技术有限公司 文件完整性验证方法及文件处理器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982180B (zh) * 2012-12-18 2016-08-03 华为技术有限公司 数据存储方法及设备
US8938417B2 (en) * 2013-02-22 2015-01-20 International Business Machines Corporation Integrity checking and selective deduplication based on network parameters
CN104123309B (zh) * 2013-04-28 2017-08-25 国际商业机器公司 用于数据管理的方法和系统
KR102187127B1 (ko) * 2013-12-03 2020-12-04 삼성전자주식회사 데이터 연관정보를 이용한 중복제거 방법 및 시스템
CN105306063B (zh) * 2015-10-12 2018-11-02 浙江大学 一种记录型数据存储空间的优化与恢复方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012846A (zh) * 2010-12-12 2011-04-13 成都东方盛行电子有限责任公司 大视频文件完整性校验方法
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN103020317A (zh) * 2013-01-10 2013-04-03 曙光信息产业(北京)有限公司 基于重复数据删除的数据压缩方法和装置
CN103488952A (zh) * 2013-09-24 2014-01-01 华为技术有限公司 文件完整性验证方法及文件处理器

Also Published As

Publication number Publication date
CN106708927A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN106708927B (zh) 文件的去重处理方法和装置
CN106534273B (zh) 区块链元数据存储系统及其存储方法与检索方法
JP5774742B2 (ja) データ重複除去方法及び装置
US8055633B2 (en) Method, system and computer program product for duplicate detection
CN108108127B (zh) 一种文件读取方法及系统
US20130067237A1 (en) Providing random access to archives with block maps
US10416915B2 (en) Assisting data deduplication through in-memory computation
US20120150824A1 (en) Processing System of Data De-Duplication
CN107391761B (zh) 一种基于重复数据删除技术的数据管理方法及装置
US10055310B2 (en) Method and system for data backup
US8819361B2 (en) Retaining verifiability of extracted data from signed archives
CN107850983B (zh) 计算机系统、存储装置和数据的管理方法
CN110618974A (zh) 一种数据存储方法、装置、设备及存储介质
JP2012238125A (ja) データの保存を制御する装置及び方法
Guido et al. Rapid differential forensic imaging of mobile devices
CN105095767A (zh) 基于文件数据块校验的安全启动系统与方法
CN104346194A (zh) 一种启动文件加载方法、装置及电子设备
US9922036B2 (en) System and method for duplicating files on client device for cloud storage
US10496313B2 (en) Identification of content-defined chunk boundaries
US9917697B2 (en) Performing incremental upgrade on APK base file corresponding to APK eigenvalue value
CN106980618B (zh) 基于MongoDB分布式集群架构的文件存储方法和系统
CN110516477A (zh) 文件处理方法及装置
US11018691B2 (en) Increasing storage capacity and data transfer speed in genome data backup
JP2024514448A (ja) ディープニューラルネットワーク重みのための圧縮技法
CN110968575B (zh) 一种大数据处理系统的去重方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant