CN104361068B - 一种数据去重过程中的并行分块方法与系统 - Google Patents
一种数据去重过程中的并行分块方法与系统 Download PDFInfo
- Publication number
- CN104361068B CN104361068B CN201410621223.XA CN201410621223A CN104361068B CN 104361068 B CN104361068 B CN 104361068B CN 201410621223 A CN201410621223 A CN 201410621223A CN 104361068 B CN104361068 B CN 104361068B
- Authority
- CN
- China
- Prior art keywords
- point
- piecemeal
- data
- contact
- data segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005192 partition Methods 0.000 title claims abstract description 12
- 238000005304 joining Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 5
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000000694 effects Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 5
- 238000003754 machining Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002070 germicidal effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据去重过程中的并行分块方法,其特征在于,包括:(1)将数据流中的文件分成多个定长的数据段,所述数据段的长度大于数据分块的最大块长;(2)利用计算机多核处理器并行对每个数据段进行分块,每个数据段都通过分块获得多个数据块;(3)将最后一个数据段除外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理。本发明提出的并行分块方法,采用一种新颖的边界衔接方法解决了传统分块方法的依赖性问题,以极小的去重率损失为代价,使得数据分块能并行进行,突破了数据去重计算的性能瓶颈。
Description
技术领域
本发明属于计算机存储技术领域,更具体地,涉及一种数据去重过程中的并行分块方法与系统。
背景技术
近年来,随着互联网的普及和发展,数据信息存储量呈爆炸式增长。据IDC权威统计,预计到2020年,全球的信息总量将达到44ZB。传输和存储如此大量的数据给研究人员提出了挑战。IDC分析表明,75%的信息是冗余的重复数据。因此,数据去重(或者称重复数据删除,Data Deduplication)作为一种能够有效地消除冗余数据的技术,成为了近年来存储领域的研究热点。数据去重技术不仅能够节省存储空间,而且避免了冗余数据的重复传输而节省网络带宽。由于其有效性,数据去重技术已被EMC、IBM、HP、Microsoft、NEC等知名计算机公司应用于存储产品当中。
数据去重技术是一种已经广泛应用于数据备份和归档产品的智能高效的无损数据压缩技术。该技术首先对文件进行分块(平均块长为约8KB),然后计算这些数据块的指纹(比如计算SHA-1哈希摘要),通过匹配指纹值来确定数据块是否重复。
虽然数据去重技术已发展多年,但是仍然面临着诸多挑战,特别是在对吞吐率要求严格的高性能存储系统中。一般来说,数据去重技术可以分为四个阶段:数据分块、指纹计算、指纹索引和存储。其中前两个过程(数据分块和指纹计算)需要占用大量的CPU,因此吞吐率较低。相对来说,分块的吞吐率又比指纹计算的更低,是整个数据去重系统写入过程的性能瓶颈。现有的解决方案是流水化并行处理数据去重的四个阶段。这样可以并 行化处理数据分块和指纹计算,加速数据去重计算速度。但是这样数据分块操作仍然是数据去重流水线操作后的性能瓶颈,如何进一步内部并行数据去重的分块操作,成为了现在的研究热点。
虽然现代计算机系统的处理器都是多核心,并行处理能力强,但是数据分块是有前后切点的依赖关系的。尤其是现在主流的数据去重系统在分块过程中添加了最小和最大块长限制,这样使得数据分块的前后依赖关系更加明显。如何在并行分块的过程中遵循这些依赖关系,而且保证并行分块的效果与传统线性执行分块的效果一致,是并行分块算法的关键。
由此可见,研究数据去重技术中的无损的并行分块,对于提高数据去重系统吞吐率从而进一步改进存储系统性能具有重要意义。
发明内容
本发明的目的在于提供一种数据去重过程中的并行分块方法,这种方法适用于分块过程中有最大值和最小值限制的数据去重系统。该发明使得数据去重的分块操作能并行进行,从而获得数据去重系统吞吐率的提升。同时该发明获得与线性分块近似相同的数据分块效果,从而仅损失极少量的去重率。
为了实现上述目的,按照本发明的一个方面,提供了一种数据去重过程中的并行分块方法,包括以下步骤:
(1)将数据流中的文件分成多个定长的数据段,数据段的长度大于数据分块的最大块长;
(2)利用计算机多核处理器并行对每个数据段进行分块,每个数据段都通过分块获得多个数据块;
(3)将除最后一个数据段之外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理(即重新分块和拼接),以获得与传统的线性分块相近的分块效果,从而减少数据去重率的损失。这里假定需要衔接的前后数据段是An和Bn,那么并行分块后数据段An的最后一个 切点为X,Y是数据段An和Bn的边界点,数据段Bn的前两个分块切点为Z和N。其中本发明提出的重新分块的区域为数据段Bn的开始的Lmin个字节,数据块的最小和最大块长限制分别为Lmin和Lmax个字节。数据段边界衔接处理可分为五种情况:
(3-1)若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ大于等于最小块长Lmin,则将Z作为下一个分块切点;
(3-2)若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ小于最小块长Lmin,则将N作为下一个分块切点;
(3-3)若没有在Bn开始的Lmin区域内找到分块的切点,而且XZ小于最大块长Lmax,则将Z作为下一个分块切点;
(3-4)若没有在Bn开始的Lmin区域内找到分块的切点,而且XZ大于最大块长Lmax且小于Lmin+Lmax(最大块长加最小块长),则将离X点距离为Lmax的O(XO=Lmax)作为分块切点,且认为O的下一个分块点为N;
(3-5)若没有在Bn开始的Lmin区域内找到分块的切点,而且XZ大于Lmin+Lmax(最大块长加最小块长),则将离X点距离为Lmax的O(XO=Lmax)作为分块切点,且认为O的下一个分块点为Z。
这五种情况中,情况(3-1)、(3-3)、(3-5)将获得与传统线性分块算法相同的分块效果,情况(3-2)和(3-4)将可能获得不同的分块效果,这两种情况根据我们的理论分析和实验观察,发生的概率很小(约为5%),影响的数据范围也很小(只是每个数据段的边界部分),因此最终对数据去重率影响小于0.01%,可以忽略。
所以本发明的并行分块算法通过有效的数据段并行分块计算,然后对数据段边界两个数据块衔接(重新分块然后拼接),在保证充分并行化分块计算的同时,获得了与传统的线性分块算法近似相同的分块效果,最后对数据去重系统损失的去重率极少。
在本发明的一个实施例中,所述步骤(3-3)中判断是否在Bn开始的Lmin区域内找到满足分块要求的切点具体为:使用一个滑动窗口对Bn开始的Lmin区域进行滑动分块判断:分块算法计算滑动窗口内容的哈希值,如果该哈希值满足分块的预定义要求,则认为这是一个满足要求的分块切点;如果不满足,则认为这不是一个满足要求的分块切点。
在本发明的一个实施例中,所述数据段的长度为2MB,所述数据块的分块平均块长为8KB,最小块长和最大块长限制分别为2KB和64KB。
按照本发明的另一方面,还提供了一种数据去重过程中的并行分块系统,所述系统包括数据分段模块、数据并行分块模块以及边界衔接处理模块,其中:
所述数据分段模块,用于将数据流中的文件分成多个定长的数据段,所述数据段的长度大于数据分块的最大块长;
所述数据并行分块模块,用于利用计算机多核处理器并行对每个数据段进行分块,每个数据段都通过分块获得多个数据块;
所述边界衔接处理模块,用于将除最后一个数据段之外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理,其中An和Bn是需要衔接的前后数据段,X为数据段An的最后一个切点,Y为数据段An和Bn的边界点,Z和N为数据段Bn的前两个分块切点,数据块的最小和最大块长限制分别为Lmin和Lmax个字节,边界衔接处理分为下述五种情况:
若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ大于等于最小块长Lmin,则将Z作为下一个分块切点;
若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ小于最小块长Lmin,则将N作为下一个分块切点;
若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ小于 最大块长Lmax,则将Z作为下一个分块切点;
若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ大于最大块长Lmax且小于Lmin+Lmax,则将离X点距离为Lmax的点O作为分块切点,且认为O的下一个分块点为N;
若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ大于Lmin+Lmax,则将离X点距离为Lmax的点O作为分块切点,且认为O的下一个分块点为Z。
与现有技术相比,本发明具有如下有益效果:
1、本发明提出的并行分块方法,采用一种新颖的边界衔接方法解决了传统分块方法的依赖性问题,以极小的去重率损失为代价,使得数据分块能并行进行,突破了数据去重计算的性能瓶颈;
2、本发明提出的并行分块方法,可以和传统的数据去重流水线技术结合起来,使得数据去重系统吞吐率随着计算机处理器核数而线性增加。
附图说明
图1为本发明的数据去重流水线图;
图2为基于内容分块的示意图;
图3为本发明的并行分块流程图;
图4为本发明的并行分块衔接的工作原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明所述的方法适用于带有多核处理器的数据去重系统。数据去重 技术的性能瓶颈在数据分块和指纹计算环节,尤其是数据分块的速度慢。为了提高系统的整体吞吐率,可以将分块操作和指纹计算并行处理。如图1所示,用户申请备份的文件被并行分块、并行计算指纹。不仅如此,系统还将四个阶段(即数据分块、指纹计算、指纹索引和存储)流水化处理,这样可以最大化系统的整体性能。图2给出了数据分块的示意图,数据去重系统使用一个滑动窗口进行分块操作:具体而言:分块算法计算滑动窗口内容的哈希值,如果该哈希值满足分块的预定义要求,则认为这是一个分块切点;如果不满足,则认为这不是一个分块切点。
为了进一步消除数据去重的计算瓶颈,本发明提出进一步并行化分块计算,然后再衔接边界上的两个数据块,从而获得与传统的线性分块近似的数据分块效果。为了避免分块的过程中出现个别的数据块过长或过短,现在主流的数据去重系统会在分块的过程中加上最小和最大块长限制(目前主流的去重系统,采用平均分块大小8KB,最小块长和最大块长限制分别为2KB和64KB)。而这两个限制的存在使得并行数据去重系统的数据分块环节成为了难点,因为数据分块的切点判断是有依赖性的,后一个切点的判断要依赖于前一个切点的位置。本发明也在于解决这一过程的并行计算实现问题。
本发明所用的方法先将数据流中的各个文件分割成定长的段,之后让各个段并行进行分块;因为分块的各个切点间具有依赖性,在未确定前面的切点位置的情况下对后面的数据进行分块会有很大的去重率损失,为了解决这个问题,该分块算法在各个数据段并行分块后,对前一个数据段的最后一个块和后一个数据段的第一个块进行边界衔接。如图3所示,A和B是由同一文件分割出来的两个相邻的数据段。A和B被并行分块处理产生了数据块A1,A2,……,An以及B1,B2,……,Bn。接下来要对An和B1进行边界衔接(即重分块和拼接)。
本发明将边界衔接的情况划分成5类,对于不同的分类采取不同的衔 接操作,以求能最大限度地减少去重率损失。这里假设采用普遍使用的数据去重分块配置:平均块长为8KB,最小块长和最大块长限制分别为2KB和64KB。
如图4所示,节点Y为两个并行分块计算的数据段的边界点,则因为最小块长的原因,并行分块在数据段B的前2KB大小区域[Y,Y1]内不会有切点(即分块的点);然而传统线性分块的起点是X点而不是Y点,所以在此区间内可能有切点Q。所以本发明提出对区域[Y,Y1]进行重新分块计算,然后基于这个分块结果进行并行分块之后的衔接。
从数据段Bn开始重新分块的第一个切点用O表示(这里O等于Q),第二个可能的切点是O1,而Z和N是并行分块的前两个切点;如果O1与Z或者N重合的话就表示并行分块获得了传统线性分块一样的分块效果,即没有数据去重率的损失。本发明把边界衔接分为以下五类:
(1)切点O∈[Y,Y1],OZ≥2KB。这种情况,O1与Z重合。所以An和B1的边界(即XY和YZ)衔接后生成的新数据块为XO和OZ。
(2)切点O∈[Y,Y1],OZ<2KB。这种情况,O1肯定不与Z重合,而可能与N重合。所以An和B1的边界(即XY和YZ)衔接后生成的新数据块为XO和ON,允许分块出错。
(3)切点XZ≤64KB。这种情况,O1与Z重合。An和B1的边界(即XY和YZ)衔接后生成的新块为XZ。
(4)切点64KB<XZ<66KB。这种情况,XO=64KB,OZ<2KB,O1肯定不与Z重合,而可能与N重合。所以An和B1的边界(即XY和YZ)衔接后生成的新数据块为XO和ON,允许分块出错。
(5)切点XZ≥66KB。这种情况,XO=64KB,OZ>2KB,O1与Z重合。所以An和B1的边界(即XY和YZ)衔接后生成的新数据块为XO和OZ。
在情况(1)、(3)和(5)中,本发明可以通过重新计算分块2KB的 区域(即图3的[Y,Y1]),然后衔接获得与传统分块相同的切点,在情况(2)和(4)中,允许出错的情况发生,在我们的理论推导和实践测试中,情况(2)和(4)发生的概率为5%,情况(2)和(4)仍然有80%的概率获得与传统的线性分块系统的分块效果。而且由于影响的数据块仅仅为数据段的边界的数据块,这样并行分块影响的去重率损失将小于0.01%。
本发明还提供了一种数据去重过程中的并行分块系统,所述系统包括数据分段模块、数据并行分块模块以及边界衔接处理模块,其中:
所述数据分段模块,用于将数据流中的文件分成多个定长的数据段,所述数据段的长度大于数据分块的最大块长;
所述数据并行分块模块,用于利用计算机多核处理器并行对每个数据段进行分块,每个数据段都通过分块获得多个数据块;
所述边界衔接处理模块,用于将除最后一个数据段之外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理,其中An和Bn是需要衔接的前后数据段,X为数据段An的最后一个切点,Y为数据段An和Bn的边界点,Z和N为数据段Bn的前两个分块切点,数据块的最小和最大块长限制分别为Lmin和Lmax个字节,边界衔接处理分为下述五种情况:
若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ大于等于最小块长Lmin,则将Z作为下一个分块切点;
若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ小于最小块长Lmin,则将N作为下一个分块切点;
若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ小于最大块长Lmax,则将Z作为下一个分块切点;
若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ大于最大块长Lmax且小于Lmin+Lmax,则将离X点距离为Lmax的点O作为分块切点, 且认为O的下一个分块点为N;
若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ大于Lmin+Lmax,则将离X点距离为Lmax的点O作为分块切点,且认为O的下一个分块点为Z。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种数据去重过程中的并行分块方法,其特征在于,所述方法包括如下步骤:
(1)将数据流中的文件分成多个定长的数据段,所述数据段的长度大于数据分块的最大块长;
(2)利用计算机多核处理器并行对每个数据段进行分块,每个数据段都通过分块获得多个数据块;
(3)将除最后一个数据段之外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理,其中An和Bn是需要衔接的前后数据段,X为数据段An的最后一个切点,Y为数据段An和Bn的边界点,Z和N为数据段Bn的前两个分块切点,XZ表示切分出的数据块,其内容为从切点X到分块切点Z之间的数据内容,假设数据块的最小和最大块长限制分别为Lmin和Lmax个字节,边界衔接处理分为下述五种情况:
(3-1)若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ的长度大于等于最小块长Lmin,则将Z作为下一个分块切点,OZ表示从切点O到分块切点Z之间的数据块;
(3-2)若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ的长度小于最小块长Lmin,则将N作为下一个分块切点;
(3-3)若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ的长度小于最大块长Lmax,则将Z作为下一个分块切点;
(3-4)若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ的长度大于最大块长Lmax且小于Lmin+Lmax,则将离X点距离为Lmax的点O作为分块切点,且认为O的下一个分块点为N;
(3-5)若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ的长度大于Lmin+Lmax,则将离X点距离为Lmax的点O作为分块切点,且认为O的下一个分块点为Z。
2.如权利要求1所述的数据去重过程中的并行分块方法,其特征在于,所述步骤(3)中判断是否在Bn开始的Lmin区域内找到满足分块要求的切点具体为:
使用一个滑动窗口对Bn开始的Lmin区域进行滑动分块判断:分块算法计算滑动窗口内容的哈希值,如果该哈希值满足分块的预定义要求,则认为这是一个满足要求的分块切点;如果不满足,则认为这不是一个满足要求的分块切点。
3.如权利要求1或2所述的数据去重过程中的并行分块方法,其特征在于,所述数据段的长度为2MB,所述数据块的分块平均块长为8KB,最小块长和最大块长限制分别为2KB和64KB。
4.一种数据去重过程中的并行分块系统,其特征在于,所述系统包括数据分段模块、数据并行分块模块以及边界衔接处理模块,其中:
所述数据分段模块,用于将数据流中的文件分成多个定长的数据段,所述数据段的长度大于数据分块的最大块长;
所述数据并行分块模块,用于利用计算机多核处理器并行对每个数据段进行分块,每个数据段都通过分块获得多个数据块;
所述边界衔接处理模块,用于将除最后一个数据段之外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理,其中An和Bn是需要衔接的前后数据段,X为数据段An的最后一个切点,Y为数据段An和Bn的边界点,Z和N为数据段Bn的前两个分块切点,XZ表示切分出的数据块,其内容为从切点X到分块切点Z之间的数据内容,假设数据块的最小和最大块长限制分别为Lmin和Lmax个字节,边界衔接处理分为下述五种情况:
若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ的长度大于等于最小块长Lmin,则将Z作为下一个分块切点,OZ表示从切点O到分块切点Z之间的数据块;
若在从Bn开始的Lmin区域内找到满足分块要求的切点O,而且OZ的长度小于最小块长Lmin,则将N作为下一个分块切点;
若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ的长度小于最大块长Lmax,则将Z作为下一个分块切点;
若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ的长度大于最大块长Lmax且小于Lmin+Lmax,则将离X点距离为Lmax的点O作为分块切点,且认为O的下一个分块点为N;
若没有在Bn开始的Lmin区域内找到满足分块要求的切点,而且XZ的长度大于Lmin+Lmax,则将离X点距离为Lmax的点O作为分块切点,且认为O的下一个分块点为Z。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410621223.XA CN104361068B (zh) | 2014-11-06 | 2014-11-06 | 一种数据去重过程中的并行分块方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410621223.XA CN104361068B (zh) | 2014-11-06 | 2014-11-06 | 一种数据去重过程中的并行分块方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104361068A CN104361068A (zh) | 2015-02-18 |
CN104361068B true CN104361068B (zh) | 2017-06-16 |
Family
ID=52528329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410621223.XA Active CN104361068B (zh) | 2014-11-06 | 2014-11-06 | 一种数据去重过程中的并行分块方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104361068B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644081A (zh) * | 2017-09-21 | 2018-01-30 | 锐捷网络股份有限公司 | 数据去重方法及装置 |
CN109101365A (zh) * | 2018-08-01 | 2018-12-28 | 南京壹进制信息技术股份有限公司 | 一种基于源端数据重删的数据备份和恢复方法 |
WO2020113470A1 (zh) * | 2018-12-05 | 2020-06-11 | 深圳大学 | 一种数据分块方法、装置及终端设备 |
CN111722787B (zh) | 2019-03-22 | 2021-12-03 | 华为技术有限公司 | 一种分块方法及其装置 |
CN110245322B (zh) * | 2019-05-09 | 2020-10-16 | 华中科技大学 | 一种基于硬件实现高速数据流实时Hilbert变换的方法和系统 |
CN113051216B (zh) * | 2021-04-22 | 2023-07-11 | 南京工业大学 | 一种基于FPGA加速的MobileNet-SSD目标检测装置及方法 |
US11669496B2 (en) * | 2021-07-21 | 2023-06-06 | Huawei Technologies Co., Ltd. | Method and apparatus for replicating a target file between devices |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103959254A (zh) * | 2011-11-30 | 2014-07-30 | 国际商业机器公司 | 优化去重后的数据的迁移/复制 |
CN103957230A (zh) * | 2014-03-10 | 2014-07-30 | 珠海市君天电子科技有限公司 | 一种客户端用户数确定方法、服务器、客户端及系统 |
CN103988199A (zh) * | 2011-12-02 | 2014-08-13 | 国际商业机器公司 | 已去重存储云中的数据残留的去除 |
US8825720B1 (en) * | 2011-04-12 | 2014-09-02 | Emc Corporation | Scaling asynchronous reclamation of free space in de-duplicated multi-controller storage systems |
CN104063374A (zh) * | 2013-03-18 | 2014-09-24 | 阿里巴巴集团控股有限公司 | 一种对数据进行去重的方法和设备 |
US8862606B1 (en) * | 2011-09-22 | 2014-10-14 | Emc Corporation | Executing correlated and multi-row subqueries in a MPP database |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8768895B2 (en) * | 2007-04-11 | 2014-07-01 | Emc Corporation | Subsegmenting for efficient storage, resemblance determination, and transmission |
US9087082B2 (en) * | 2013-03-07 | 2015-07-21 | International Business Machines Corporation | Processing control in a streaming application |
-
2014
- 2014-11-06 CN CN201410621223.XA patent/CN104361068B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8825720B1 (en) * | 2011-04-12 | 2014-09-02 | Emc Corporation | Scaling asynchronous reclamation of free space in de-duplicated multi-controller storage systems |
US8862606B1 (en) * | 2011-09-22 | 2014-10-14 | Emc Corporation | Executing correlated and multi-row subqueries in a MPP database |
CN103959254A (zh) * | 2011-11-30 | 2014-07-30 | 国际商业机器公司 | 优化去重后的数据的迁移/复制 |
CN103988199A (zh) * | 2011-12-02 | 2014-08-13 | 国际商业机器公司 | 已去重存储云中的数据残留的去除 |
CN104063374A (zh) * | 2013-03-18 | 2014-09-24 | 阿里巴巴集团控股有限公司 | 一种对数据进行去重的方法和设备 |
CN103957230A (zh) * | 2014-03-10 | 2014-07-30 | 珠海市君天电子科技有限公司 | 一种客户端用户数确定方法、服务器、客户端及系统 |
Non-Patent Citations (2)
Title |
---|
一种并行层次化的重复数据删除技术;贾志凯等;《计算机研究与发展》;20111231(第48期);全文 * |
大规模数据密集型系统中的去重查询优化;宋怀明等;《计算机研究与发展》;20101231(第47期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104361068A (zh) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104361068B (zh) | 一种数据去重过程中的并行分块方法与系统 | |
CN103699606B (zh) | 一种基于顶点切割与社区聚集的大规模图划分方法 | |
CN101989929B (zh) | 容灾数据备份的方法及系统 | |
US20210360088A1 (en) | Systems and methods for data deduplication by generating similarity metrics using sketch computation | |
US10191934B2 (en) | De-duplication system and method thereof | |
CN102722583A (zh) | 重复数据删除硬件加速装置和方法 | |
US11995050B2 (en) | Systems and methods for sketch computation | |
CN103995827B (zh) | MapReduce计算框架中的高性能排序方法 | |
CN105589908A (zh) | 用于事务集合的关联规则计算方法 | |
WO2021127245A1 (en) | Systems and methods for sketch computation | |
WO2021027331A1 (zh) | 基于图数据的全量关系计算方法、装置、设备及存储介质 | |
Li et al. | Losha: A general framework for scalable locality sensitive hashing | |
Kumar et al. | Bucket based data deduplication technique for big data storage system | |
KR102219948B1 (ko) | 메모리에 저장된 데이터 검색 방법 및 시스템 | |
CN104572872A (zh) | 一种基于极值的数据去重分块方法 | |
CN109739433A (zh) | 数据处理的方法及终端设备 | |
CN109033295A (zh) | 超大数据集的合并方法及装置 | |
WO2018205689A1 (zh) | 合并文件的方法、存储装置、存储设备和存储介质 | |
US11755540B2 (en) | Chunking method and apparatus | |
Luo et al. | Multi-scale receptive field fusion network for lightweight image super-resolution | |
Senthilkumar et al. | An efficient FP-Growth based association rule mining algorithm using Hadoop MapReduce | |
CN112162973A (zh) | 指纹碰撞规避、去重及恢复方法、存储介质和去重系统 | |
CN109558376A (zh) | 一种面向MapReduce框架的有效计算与数据传输重叠执行方法 | |
CN104639606B (zh) | 一种差异化对比分块的优化方法 | |
Vuong et al. | A design of parallel content-defined chunking system using non-hashing algorithms on FPGA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |