CN102684827B - 数据处理方法及数据处理设备 - Google Patents

数据处理方法及数据处理设备 Download PDF

Info

Publication number
CN102684827B
CN102684827B CN201210053609.6A CN201210053609A CN102684827B CN 102684827 B CN102684827 B CN 102684827B CN 201210053609 A CN201210053609 A CN 201210053609A CN 102684827 B CN102684827 B CN 102684827B
Authority
CN
China
Prior art keywords
sub
block
fingerprint
pieces section
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210053609.6A
Other languages
English (en)
Other versions
CN102684827A (zh
Inventor
滕新东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210053609.6A priority Critical patent/CN102684827B/zh
Publication of CN102684827A publication Critical patent/CN102684827A/zh
Priority to PCT/CN2013/071725 priority patent/WO2013127309A1/zh
Priority to EP13754635.4A priority patent/EP2717476A4/en
Priority to US14/186,226 priority patent/US9514209B2/en
Application granted granted Critical
Publication of CN102684827B publication Critical patent/CN102684827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3091Data deduplication
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3091Data deduplication
    • H03M7/3095Data deduplication using variable length segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例提供了数据处理方法及数据处理设备,如果待压缩的数据中包含了与重复数据库中的可变块的前半部分相同并且与可变块的后半部分不同的数据片段,则能够生成粒度小于发生匹配的可变块的新的可变块,并将新的可变块添加到重复数据库。新的可变块粒度较小,提高了后续的待压缩数据与更新后的重复数据库发生匹配的概率,进而提高了压缩的效率。

Description

数据处理方法及数据处理设备
技术领域
本发明涉及报文处理技术,尤其涉及一种数据处理方法及数据处理设备。
背景技术
数据压缩是对报文内容进行算法处理,减小数据量,但不影响信息传递的过程。数据压缩是为了达到节约网络传送带宽、实现应用加速的目的。
根据CDC(Content-Defined Chunking)可变块算法生成包含可变块、可变块的指纹以及可变块的摘要的重复数据库。生成重复数据库后,如果待压缩的数据中包含了与可变块的前半部分相同并且与可变块的后半部分不同的数据片段,则数据片段的指纹与可变块的指纹匹配,则数据片段的摘要与可变块的摘要不匹配。CDC算法认为重复数据库需要进行更新,并使用定界滑窗机制生成新的可变块。新的可变块粒度可能比较大,降低了后续的待压缩数据与更新后的重复数据库发生匹配的概率。以上可能导致压缩效率下降。
发明内容
本发明实施例提供一种数据处理方法及数据处理设备,用于提高数据压缩效率。
一方面,本发明实施例提供了一种数据处理方法,包括:
根据指纹算法计算待压缩数据中的第一片段的第一指纹,所述第一片段的起始位置与所述待压缩数据的起始位置相同,所述第一片段的长度与第一滑窗的长度相同;
在第一本地重复数据库中查找所述第一指纹,所述第一本地重复数据库用于存储重复数据、所述重复数据的指纹以及所述重复数据的摘要;
如果所述第一本地重复数据库中存在所述第一指纹,则根据所述第一指 纹获取所述第一本地重复数据库中的第一可变块以及所述第一可变块的摘要,所述第一指纹与根据所述指纹算法计算得到的所述第一可变块中的第一初始块的指纹相同,所述第一初始块的起始位置与所述第一可边块的起始位置相同,所述第一初始块的长度与所述第一滑窗的长度相同,所述第一可变块的摘要为根据摘要算法对所述第一可变块的摘要进行计算得到的;
根据所述摘要算法计算所述待压缩数据中的第二片段的摘要,所述第二片段的起始位置与所述待压缩数据的起始位置相同,所述第二片段的长度与所述第一可变块的长度相同;
比较所述第二片段的摘要与所述第一可变块的摘要;
如果所述第二片段的摘要与所述第一可变块的摘要不同,则获取所述第二片段中的第一子片段,所述第一子片段与所述第一可变块中的第一子可变块相同,所述第一子片段的起始位置与所述第二片段的起始位置相同,所述第一子可变块的起始位置与所述第一可变块的起始位置相同,所述第二片段中的第二比特与所述第一可变块中的第一比特不同,所述第二比特为所述第二片段中所述第一子片段的下一个比特,所述第一比特为所述第一可变块中所述第一子可变块的下一个比特;
将所述第一子片段、所述第一子片段的指纹以及所述第一子片段的摘要添加到所述第一本地重复数据库,生成第二本地重复数据库,所述第一子片段的指纹与所述第一指纹相同,所述第一子片段的摘要为根据所述摘要算法对所述第一子片段的摘要进行计算得到的。
另一方面,本发明实施例还提供了一种数据压缩设备,包括:
第一指纹计算单元,用于根据指纹算法计算待压缩数据中的第一片段的第一指纹,所述第一片段的起始位置与所述待压缩数据的起始位置相同,所述第一片段的长度与第一滑窗的长度相同;
查找单元,用于在第一本地重复数据库中查找所述第一指纹,所述第一本地重复数据库用于存储重复数据、所述重复数据的指纹以及所述重复数据的摘要;
重复内容获取单元,用于如果所述第一本地重复数据库中存在所述第一指 纹,则根据所述第一指纹获取所述第一本地重复数据库中的第一可变块以及所述第一可变块的摘要,所述第一指纹与根据所述指纹算法计算得到的所述第一可变块中的第一初始块的指纹相同,所述第一初始块的起始位置与所述第一可边块的起始位置相同,所述第一初始块的长度与所述第一滑窗的长度相同,所述第一可变块的摘要为根据摘要算法对所述第一可变块的摘要进行计算得到的;
摘要计算单元,用于根据所述摘要算法计算所述待压缩数据中的第二片段的摘要,所述第二片段的起始位置与所述待压缩数据的起始位置相同,所述第二片段的长度与所述第一可变块的长度相同;
摘要比较单元,用于比较所述第二片段的摘要与所述第一可变块的摘要;第一子片段获取单元,用于如果所述第二片段的摘要与所述第一可变块的摘要不同,则获取所述第二片段中的第一子片段,所述第一子片段与所述第一可变块中的第一子可变块相同,所述第一子片段的起始位置与所述第二片段的起始位置相同,所述第一子可变块的起始位置与所述第一可变块的起始位置相同,所述第二片段中的第二比特与所述第一可变块中的第一比特不同,所述第二比特为所述第二片段中所述第一子片段的下一个比特,所述第一比特为所述第一可变块中所述第一子可变块的下一个比特;
第一添加单元,用于将所述第一子片段、所述第一子片段的指纹以及所述第一子片段的摘要添加到所述第一本地重复数据库,生成第二本地重复数据库,所述第一子片段的指纹与所述第一指纹相同,所述第一子片段的摘要为根据所述摘要算法对所述第一子片段的摘要进行计算得到的。
又一方面,本发明实施例还提供了一种数据解压缩设备,包括:
第一指纹计算单元,用于根据指纹算法计算待压缩数据中的第一片段的第一指纹,所述第一片段的起始位置与所述待压缩数据的起始位置相同,所述第一片段的长度与第一滑窗的长度相同;
查找单元,用于在第一本地重复数据库中查找所述第一指纹,所述第一本地重复数据库用于存储重复数据、所述重复数据的指纹以及所述重复数据的摘要;
重复内容获取单元,用于如果所述第一本地重复数据库中存在所述第一指纹,则根据所述第一指纹获取所述第一本地重复数据库中的第一可变块以及所述第一可变块的摘要,所述第一指纹与根据所述指纹算法计算得到的所述第一可变块中的第一初始块的指纹相同,所述第一初始块的起始位置与所述第一可边块的起始位置相同,所述第一初始块的长度与所述第一滑窗的长度相同,所述第一可变块的摘要为根据摘要算法对所述第一可变块的摘要进行计算得到的;
摘要计算单元,用于根据所述摘要算法计算所述待压缩数据中的第二片段的摘要,所述第二片段的起始位置与所述待压缩数据的起始位置相同,所述第二片段的长度与所述第一可变块的长度相同;
摘要比较单元,用于比较所述第二片段的摘要与所述第一可变块的摘要;第一子片段获取单元,用于如果所述第二片段的摘要与所述第一可变块的摘要不同,则获取所述第二片段中的第一子片段,所述第一子片段与所述第一可变块中的第一子可变块相同,所述第一子片段的起始位置与所述第二片段的起始位置相同,所述第一子可变块的起始位置与所述第一可变块的起始位置相同,所述第二片段中的第二比特与所述第一可变块中的第一比特不同,所述第二比特为所述第二片段中所述第一子片段的下一个比特,所述第一比特为所述第一可变块中所述第一子可变块的下一个比特;
第一添加单元,用于将所述第一子片段、所述第一子片段的指纹以及所述第一子片段的摘要添加到所述第一本地重复数据库,生成第二本地重复数据库,所述第一子片段的指纹与所述第一指纹相同,所述第一子片段的摘要为根据所述摘要算法对所述第一子片段的摘要进行计算得到的。
根据本发明实施例提供的技术方案,如果待压缩的数据中包含了与重复数据库中的可变块的前半部分相同并且与可变块的后半部分不同的数据片段,则能够生成粒度小于发生匹配的可变块的新的可变块,并将新的可变块添加到重复数据库。新的可变块粒度较小,提高了后续的待压缩数据与更新后的重复数据库发生匹配的概率,进而提高了压缩的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的流程图;
图2为本发明实施例提供的数据处理方法的一种应用场景的示意图;
图3为本发明实施例提供的数据处理方法的另一种应用场景的示意图;
图4为本发明实施例提供的一种数据处理方法的一个具体实现方式的示意图;
图5为本发明实施例提供的另一种数据处理方法的流程图;
图6为本发明实施例提供的一种数据处理方法中压缩后报文的封装格式示意图;
图7为本发明实施例提供的一种数据处理方法应用到数据压缩侧设备的示意图;
图8为本发明实施例提供的数据压缩设备的结构示意图;
图9为本发明实施例提供的数据压缩设备的一种应用场景的组网结构图;
图10为本发明实施例提供的数据压缩设备的另一种应用场景的组网结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
数据压缩技术包括两种:一种是通过无损压缩算法在发送端压缩数据,在接收端进行数据解压;另一种是基于DRE(Data Redundancy Elimination,数据冗余删除)技术,也称为重复数据删除(De-duplication),将需要传送 的数据中的重复内容消除后用特殊的ID代替,只传递增量信息,从而减小数据量,实现数据压缩目的。
DRE技术一般应用于WOC(WAN Optimization Controller,广域网优化控制器),以减少需要WAN传送的数据量,相当于增加WAN带宽,节约了宝贵的WAN资源。WOC是一种应用加速设备。在WOC设备的DRE实现中,处理的对象可以是基于IP报文,也可以是基于一条会话(即同一会话的多个连续IP报文)。基于IP报文的处理实现简单,不需要缓存报文,性能较高,但是由于重复数据可能包含在多个报文中,导致不容易将重复数据进行识别和缓存。另外,将多个报文组合起来进行算法压缩时,由于不同包的类型不同(如不同协议,或不同格式),难以得到较高的压缩比。基于会话的处理则需要将一个会话的多个包进行缓存,在线处理时性能存在一定限制,但是可以最大限度地识别出重复数据,并且同一会话一般属于同一类型,进行算法压缩时能得到更高的压缩比。
DRE实现的过程包括:压缩设备的本地DRE模块分析报文,判断和确定相应数据块;将确定的数据块与重复数据库中的已存数据块比较,如果查找到同样的块存在,则表示之前传输过该数据块(即为重复数据),此时在报文中用指纹代替该数据块;没有找到的数据块被加入重复数据库中;可选地,对去冗余后的报文进一步进行压缩;远端设备的DRE模块解压(可选)后将指纹替换为原数据块,之后传送报文给用户;本地DRE模块与远端DRE模块需要进行数据块及指纹的同步。
DRE技术基于二进制数据进行删重处理,不需要感知上层的具体协议类型。其关键点是进行重复数据的识别和替换,即对内容完全相同的重复数据进行识别,并建立重复数据库(包括缓存重复数据和建立查找指纹),当后续传送的数据存在已缓存的内容(即重复数据)时,则用指纹代替。由于需要建立重复数据库缓存(cache)已有数据,因此DRE技术也称为字节缓存(Byte cache)技术。
而重复数据的识别和替换是基于数据块实现的,数据块的识别算法包括FSP(Fixed-Sized Partition,固定块)、CDC以及SB(Sliding Block,滑动块)。
其中,CDC算法采用一个滑动窗口(以下简称滑窗)对待压缩的数据进 行块定界,滑窗从数据开始按字节向后移动,并采用特定的哈希(HASH)算法(如rabin HASH、ELF HASH等)计算出滑窗的指纹信息。当计算出的指纹满足一定条件(如对特定值取模结果为某设定值),则认为找到数据块边界,然后向后滑动滑窗,再次计算滑窗的指纹信息,当计算条件成立,则找到下一数据块的边界,由此可以将整个数据划分成大小可变的多个数据块。
当确定数据块之后,采用特定的算法(SHA-1、MD5等,这些算法能对大量数据进行信息提取,形成固定长度的字段,由于算法的特定,不同的原始数据计算结果相同的概率非常低,可以忽略不计)来对数据块的内容进行计算,并将计算结果作为指纹查找本地的重复数据库,如果存在则表明已有相同内容的数据块存在,当前数据块为重复数据块,如果指纹不存在,则将当前数据块的指纹及块内容加入缓存(重复数据库),以备下次检查。
CDC算法的块定界算法可能因为计算条件总是不满足导致块过大,具体实现上可以对块的大小设定上下限,当满足上下限条件时强制分块。CDC算法的优点是对数据内容的变化不敏感,当插入或删除数据时只会影响到该变化数据相关的少量的数据块,而其它块不受影响。
图1为本发明实施例提供的一种数据处理方法的流程图。如图1所示,数据处理方法包括:
11、根据指纹算法计算待压缩数据中的第一片段的第一指纹,该第一片段的起始位置与该待压缩数据的起始位置相同,该第一片段的长度与第一滑窗的长度相同。
其中,第一滑窗为现有的滑窗,用于对数据块进行定界。
12、在第一本地重复数据库中查找该第一指纹,该第一本地重复数据库用于存储重复数据、该重复数据的指纹以及该重复数据的摘要。
13、如果该第一本地重复数据库中存在该第一指纹,则根据该第一指纹获取该第一本地重复数据库中的第一可变块以及该第一可变块的摘要,该第一指纹与根据该指纹算法计算得到的该第一可变块中的第一初始块的指纹相同,该第一初始块的起始位置与该第一可边块的起始位置相同,该第一初始块的长度与该第一滑窗的长度相同,该第一可变块的摘要为根据摘要算法对该第一可变块的摘要进行计算得到的。
14、根据该摘要算法计算该待压缩数据中的第二片段的摘要,该第二片段的起始位置与该待压缩数据的起始位置相同,该第二片段的长度与该第一可变块的长度相同。
其中,第二片段为现有CDC算法中进行匹配压缩处理的基本单元--数据块。
15、比较该第二片段的摘要与该第一可变块的摘要。
16、如果该第二片段的摘要与该第一可变块的摘要不同,则获取该第二片段中的第一子片段,该第一子片段与该第一可变块中的第一子可变块相同,该第一子片段的起始位置与该第二片段的起始位置相同,该第一子可变块的起始位置与该第一可变块的起始位置相同,该第二片段中的第二比特与该第一可变块中的第一比特不同,该第二比特为该第二片段中该第一子片段的下一个比特,该第一比特为该第一可变块中该第一子可变块的下一个比特。
17、将该第一子片段、该第一子片段的指纹以及该第一子片段的摘要添加到该第一本地重复数据库,生成第二本地重复数据库,该第一子片段的指纹与该第一指纹相同,该第一子片段的摘要为根据该摘要算法对该第一子片段的摘要进行计算得到的。
根据本发明实施例提供的技术方案,如果待压缩的数据中包含了与重复数据库中的可变块的前半部分相同并且与可变块的后半部分不同的数据片段,则能够生成粒度小于发生匹配的可变块的新的可变块,并将新的可变块添加到重复数据库。新的可变块粒度较小,提高了后续的待压缩数据与更新后的重复数据库发生匹配的概率,进而提高了压缩的效率。
上述11至17可由压缩侧设备执行,也可由解压缩设备执行。如压缩侧设备接收到一待去冗余的报文,该报文包括报文头及净荷,净荷为待压缩数据,压缩侧设备按照上述11至17对净荷进行处理。或者如解压缩侧设备接收到一去冗余后的报文,同样的,该去冗余后的报文包含报文头及净荷,只不过该净荷为压缩侧设备压缩后的数据,即部分数据已被替换为指纹,此时,解压缩侧设备处理的待压缩数据即净荷中其余未被替换的原始数据。
当上述方法由压缩侧设备实现时,本发明实施例提供的数据处理方法还可以包括:
接收第一报文,该第一报文包括第一报文头与第一净荷,该第一净荷包含第一净荷片段,该第一净荷片段的长度与该第一子片段的长度相同;
根据该指纹算法计算该第一净荷片段中第二初始块的指纹,该第二初始块的起始位置与该第一净荷片段的起始位置相同,该第二初始块的长度与该第一滑窗的长度相同;
根据该摘要算法计算该第一净荷片段的摘要;
如果该第二初始块的指纹与该第二本地重复数据库中的该第一子片段的指纹相等,并且该第一净荷片段的摘要与该第一子片段的摘要相等,则删除该第一报文中的该第一净荷片段,生成第二报文,该第二报文中包括第二报文头与第二净荷,该第二报文头与该第一报文头相同,该第二净荷包括该第一子片段的指纹。这样,解压缩侧设备可以根据指纹从重复数据库中找到对应的第一子片段,将指纹替换为第一子片段,将报文中的数据恢复为原始数据,实现数据的解压缩。
可选地,该第二净荷还包括该第一子片段在该第一报文中的位置信息。
当替换第一子片段的指纹未放置在第一子片段在第一报文中的原始位置时,解压缩侧设备对第二报文执行解压缩操作时,解压缩侧设备可以根据该第二净荷中包括的该第一子片段在该第一报文中的位置信息,确定第一子片段在第一报文中的原始位置,进而还原出第一报文。第一子片段在第一报文中的位置信息可以是第一子片段的最高比特相对于第一报文的报文头的最高比特的偏移量。
该获取该第二片段中的第一子片段之后,本发明实施例提供的数据处理方法还可以包括:
根据该指纹算法计算该待压缩数据中的第二子片段的第三初始块的指纹,该第二子片段的起始位置为该第二比特,该第二子片段的结束位置与该待压缩数据的结束位置相同;该第三初始块的起始位置为该第二比特,该第三初始块的长度等于该第一滑窗的长度;
根据第二滑窗获取第二子可变块中的第一检测块,该第二滑窗的起始位置与该第二子可变块中的第三比特对应,该第三比特为介于第二子可变块的 起始位置与该第二子可变块的结束位置之间的比特,该第二滑窗的长度等于该第一滑窗的长度,该第二子可变块的起始位置为该第一比特,该第二子可变块的结束位置与该第一可变块的结束位置相同;第二滑窗可定义为内容滑窗,专用于判断重复数据库中是否存在对应的数据块。其计算指纹的方法可与现有的滑窗相同,只是现有技术中滑窗仅用于定界。
根据该指纹算法计算该第一检测块的指纹;
比较该第三初始块的指纹与该第一检测块的指纹;
如果该第三初始块的指纹与该第一检测块的指纹相同,则比较该第二子可变块中的第三子可变块的摘要与该第二子片段中的第三子片段的摘要,该第三子可变块的起始位置与该第一检测块的起始位置相同,该第三子可变块的结束位置与该第一可变块的结束位置相同,该第三子片段的起始位置与该第二子片段的起始位置相同,该第三子片段的长度与该第三子可变块的长度相等,该第三子可变块的摘要为根据该摘要算法对该第三子可变块的摘要进行计算得到的;
如果该第三子片段的摘要与该第三子可变块的摘要相等,则将该第三子片段、该第三子片段的指纹以及该第三子片段的摘要添加到该第二本地重复数据库,生成第三本地重复数据库,该第三子片段的指纹等于该第三初始块的指纹,该第三子片段的摘要为根据该摘要算法对该第三子片段的摘要进行计算得到的。
在该第三子片段的摘要与该第三子可变块的摘要相等,并将该第三子片段、该第三子片段的指纹以及该第三子片段的摘要添加到该第二本地重复数据库的场景下,本发明实施例提供的数据处理方法还可以包括:
接收第三报文,该第三报文包括第三报文头与第三净荷,该第三净荷包含第二净荷片段以及第三净荷片段,该第二净荷片段的长度与该第一子片段的长度相同,该第三净荷片段的长度与该第三子片段的长度相同;
根据该指纹算法计算该第二净荷片段中第四初始块的指纹,根据该指纹算法计算该第三净荷片段中第五初始块的指纹,该第四初始块的起始位置与该第二净荷片段的起始位置相同,该第四初始块的长度与该第一滑窗的长度相同,该第五初始块的起始位置与该第三净荷片段的起始位置相同,该第五 初始块的长度与该第一滑窗的长度相同;
根据该摘要算法计算该第二净荷片段的摘要,根据该摘要算法计算该第三净荷片段的摘要;
如果该第四初始块的指纹与该第三本地重复数据库中的该第一子片段的指纹相等,并且该第二净荷片段的摘要与该第一子片段的摘要相等,则删除该第三报文中的该第二净荷片段,如果该第五初始块的指纹与该第三本地重复数据库中的该第三子片段的指纹相等,并且该第三净荷片段的摘要与该第三子片段的摘要相等,则删除该第三报文中的该第三净荷片段,生成第四报文,该第四报文中包括第四报文头与第四净荷,该第四报文头与该第三报文头相同,该第四净荷包括该第一子片段的指纹以及该第三子片段的指纹。
可选地,该第四净荷还包括该第一子片段在该第三报文中的位置信息、该第三子片段在该第三报文中的位置信息。
其中,第三子片段与第一子片段类似,为小于第二片段粒度的数据块,这样可以进一步提高数据压缩效率。第一子片段在第三报文中的位置信息可以是第一子片段的最高比特相对于第三报文的报文头的最高比特的偏移量。
如图2所示,待压缩数据块A’与重复数据库中对应的数据块A的摘要不同,可以理解为上次发送的数据块A经过修改后变为数据块A’,并进行再次发送。其中,待压缩数据块A’即上述第二片段,重复数据库中对应的数据块A即上述第一可变块。这样,上次发送数据时在重复数据库中保存的数据块A与当前发送的数据中的数据块A’相对应,具体地,当滑窗滑动到数据块A’时,计算指纹,若重复数据库中有相同的指纹,则表示重复数据库中存在有对应的数据块,这里对应的数据块为A。由于此时不知道数据块A’的长度,假定数据块A’的长度与数据块A相同,计算数据块A’的摘要,并与数据块A的摘要比较。显然,数据块A’的摘要与数据块A的摘要不同,因为数据块A与数据块A’的内容不同。
之后再找到数据块A’中与数据块A相同的部分,以及不同的部分,进行进一步地压缩处理。
具体地,逐字节比较数据块A’与数据块A,当重复数据库中对应的数据块A到第二拆分点,待压缩数据块A’到第一拆分点时,二者比较结果是 不一致,此时,将滑窗滑动到第一拆分点处计算指纹,重复数据库中,将滑窗滑动到第二拆分点处计算指纹,与第一拆分点处的指纹进行比较,不一致时,继续向后滑动滑窗,计算第二拆分点后的指纹,并继续与第一拆分点处的指纹进行比较,不一致时,继续向后滑动滑窗,直至计算出的指纹与第一拆分点处的指纹一致,或直至滑窗滑至数据块A的结束边界。本实施例中,数据块A的第三拆分点处的指纹与待压缩数据块A’的第一拆分点处的指纹一致。当数据块A的第三拆分点处的指纹与待压缩数据块A’的第一拆分点处的指纹一致时,利用HASH表项中的块长度及第三拆分点到边界的长度计算出待压缩数据块A’中第一拆分点到边界的长度,然后计算第一拆分点至边界的摘要,并计算重复数据库中数据块A的第三拆分点至边界的摘要,将计算出的两个摘要进行比较,当不一致时,按照前述操作比较第三拆分点后字节与第一拆分点后的字节,直至计算出的指纹与第一拆分点处的指纹一致,或直至滑窗滑至数据块A的结束边界;当一致时,待压缩数据块A’用第一拆分点拆分为两个子数据块A1、A2,重复数据库中的数据块A被第二拆分点、第三拆分点拆分为三个子数据块A1、A2、A3,可以看出,本次发送的数据块A’与上次发送的数据块A相比删除了子数据块A2,其余两个子数据块A1、A3不变,这样,可以用指纹替换A1或者A3,实现对数据的精确压缩,提高数据压缩效率。其中,待压缩数据块A’中的子数据块A1即上述第一子片段,待压缩数据块A’中的子数据块A3即上述第三子片段。重复数据库中的子数据块A1即上述第一子可变块,重复数据库中的子数据块A3的初始块,也就是从重复数据库中的子数据块A3的第一个比特开始长度为第一滑窗长度的数据块,即上述第二子可变块中的第一检测块。
替换A1或者A3也可以用其他方法实现。举例来说,可以用指纹、块长度及偏移值替换A1或者A3。
可选地,本发明实施例提供的数据处理方法还可以包括:
根据该指纹算法计算该第一可变块中的第四子可变块的第六初始块的指纹,该第四子可变块的起始位置为该第一比特,该第四子可变块的结束位置与该第一可变块的结束位置相同,该第六初始块的起始位置为该第一比特,该第六初始块的长度等于该第一滑窗的长度;
获取第四子片段中的第二检测块,该第二检测块的起始位置与该第四子片段中的第四比特对应,该第四比特为介于第三片段的起始位置与该第三片段的结束位置之间的比特,该第二检测块的长度等于该第一滑窗的长度,该第三片段的起始位置为该第二比特,该第三片段的结束位置通过定界算法确定,该第三片段为该待压缩数据中的片段,该第四子片段为该第三片段中的子片段,该第四子片段的起始位置与该第二检测块的起始位置相同,该第四子片段的长度与该第四子可变块的长度相同;
根据该指纹算法计算该第二检测块的指纹;
比较该第六初始块的指纹与该第二检测块的指纹;
如果该第六初始块的指纹与该第二检测块的指纹相同,则比较该第四子可变块的摘要与该第四子片段的摘要,该第四子可变块的摘要为根据该摘要算法对该第四子可变块的摘要进行计算得到的,该第四子片段的摘要为根据该摘要算法对该第四子片段的摘要进行计算得到的;
如果该第四子片段的摘要与该第四子可变块的摘要相同,则将该第四子片段、该第四子片段的指纹以及该第四子片段的摘要添加到该第二本地重复数据库,生成第四本地重复数据库,该第四子片段的指纹与该第六初始块的指纹相同。
可选地,在该第四子片段的摘要与该第四子可变块的摘要相同,将该第四子片段、该第四子片段的指纹以及该第四子片段的摘要添加到该第二本地重复数据库的场景下,本发明实施例提供的数据处理方法还可以包括:
接收第五报文,该第五报文包括第五报文头与第五净荷,该第五净荷包含第四净荷片度以及第五净荷片段,该第四净荷片度的长度与该第一子片段相同,该第五净荷片段的长度与该第四子片段的长度相同;
根据该指纹算法计算该第四净荷片段中第七初始块的指纹,根据该指纹算法计算该第五净荷片段中第八初始块的指纹,该第七初始块的起始位置与该第四净荷片段的起始位置相同,该第七初始块的长度与该第一滑窗的长度相同,该第八初始块的起始位置与该第五净荷片段的起始位置相同,该第八初始块的长度与该第一滑窗的长度相同;
根据该摘要算法计算该第四净荷片段的摘要,根据该摘要算法计算该第五净荷片段的摘要;
如果该第七初始块的指纹与该第四本地重复数据库中的该第一子片段的指纹相等,并且该第四净荷片段的摘要与该第一子片段的摘要相等,则删除该第五报文中的该第四净荷片段,如果该第八初始块的指纹与该第四本地重复数据库中的该第四子片段的指纹相等,并且该第五净荷片段的摘要与该第四子片段的摘要相等,则删除该第五报文中的该第五净荷片段,生成第六报文,该第六报文中包括第六报文头与第六净荷,该第六报文头与该第五报文头相同,该第六净荷包括该第一子片段的指纹以及该第四子片段的指纹。
可选地,该第六净荷还包括该第一子片段在该第五报文中的位置信息、该第四子片段在该第五报文中的位置信息。
其中,第四子片段与第一子片段类似,为小于第二片段粒度的数据块,可以进一步提高数据压缩效率。第一子片段在第五报文中的位置信息可以是第一子片段的最高比特相对于第五报文的报文头的最高比特的偏移量。
可选地,本发明实施例提供的数据处理方法还可以包括:
该第三片段的结束位置通过定界算法确定,包括:
从该第二比特开始向后滑动该定界算法中的第三滑窗,并判断该第三滑窗对应的数据是否符合该定界算法中的定界条件,当首次出现该第三滑窗对应的数据符合该定界条件时,在第一距离内继续向后滑动该第三滑窗,并判断该第三滑窗对应的数据是否符合该定界条件,如果出现该第三滑窗对应的第一数据符合该定界条件的情况时,则确定该第一数据的结束位置为该第三片段的结束位置,该第三滑窗的长度与该第一滑窗的长度相同,该第一距离的长度与该第一滑窗的长度相同。
如图3所示,待压缩数据块所属的上级数据块A’与重复数据块中对应的数据块A的摘要内容不同,可以理解为上次发送的数据块A经过修改后变为数据块A’,并进行再次发送,这样,上次发送数据时在重复数据库中保存的数据块A与当前发送的数据中的数据块A’相对应,具体地,当滑窗滑动到数据块A’时,计算指纹,若重复数据库中有相同的指纹,则表示重复数据库中存在有对应的数据块,这里对应的数据块为A。
其中,待压缩数据块所属的上级数据块A’可通过滑窗定界来确定。
计算数据块A’的摘要,并与数据块A的摘要比较。显然,数据块A’的摘要与数据块A的摘要不同,因为数据块A与数据块A’的内容不同。
之后再找到数据块A’中与数据块A相同的部分,以及不同的部分,进行进一步地压缩处理。
具体地,逐字节比较数据块A’与数据块A,当重复数据库中对应的数据块A到第二拆分点,待压缩数据块A’到第一拆分点时,二者比较结果是不一致。此时,将滑窗滑动到第二拆分点处计算指纹,上级数据块A’中,将滑窗滑动到第一拆分点处计算指纹,与第二拆分点处的指纹进行比较,不一致时,继续向后滑动滑窗,计算第一拆分点后的指纹,并继续与第二拆分点处的指纹进行比较,不一致时,继续向后滑动滑窗,直至计算出的指纹与第二拆分点处的指纹一致,或直至滑窗滑至数据块A’的结束边界。
本实施例中,数据块A’的第四拆分点处的指纹与重复数据库中数据块A的第二拆分点处的指纹一致。
当数据块A’的第四拆分点处的指纹与数据块A的第二拆分点处的指纹一致时,计算第四拆分点至边界的摘要,并计算重复数据库中数据块A的第二拆分点至边界的摘要,将计算出的两个摘要进行比较,当不一致时,按照前述操作比较第四拆分点后的字节与第一拆分点后的字节,直至计算出的指纹与第二拆分点处的指纹一致,或直至滑窗滑至数据块A’的结束边界;当一致时,上级数据块A’被第一拆分点、第四拆分点拆分为三个子数据块A1、A3、A2,重复数据库中的数据块A被第二拆分点拆分为两个子数据块A1、A2,可以看出,本次发送的数据块A’与上次发送的数据块A相比增加了子数据块A3,其余两个子数据块A1、A2不变,这样,可以用指纹替换A1或者A2,实现对数据的精确压缩,提高数据压缩效率。其中,待压缩数据块A’中的子数据块A2即上述第四子片段。待压缩数据块A’中的子数据块A2的初始块,也就是从待压缩数据块A’中的子数据块A2的第一比特开始长度为第一滑窗长度的数据块,即上述第四子片段中的第一检测块。
替换A1或者A2可以通过其他方法实现。举例来说,可以用指纹、块长度及偏移值替换A1或者A2。
当图1所示实施例的方法由解压缩侧设备实现时,本发明实施例提供的数据处理方法还可包括:将该第一子片段的指纹以及该第一子片段的摘要同步到压缩侧的重复数据库。压缩侧的重复数据库被同步后,压缩侧设备可使用已有的CDC算法对报文进行删重处理即对报文中的数据进行压缩处理,这样,当报文中包含第一子片段时,就会被删除,从而进一步提高了数据压缩效率。
当图1所示实施例的方法由压缩侧设备实现时,本发明实施例提供的数据处理方法还可包括:将该第一子片段、该第一子片段的指纹以及该第一子片段的摘要同步到解压缩侧的重复数据库。这样,当后续报文中的第一子片段被删除后,解压缩侧设备就能够利用重复数据库中保存的第一子片段对压缩数据进行恢复,实现解压缩。
可选地,当压缩侧和解压缩侧的重复数据库均包含有重复数据的内容,且数据处理方法由压缩侧设备实现时,本发明实施例提供的数据处理方法还可以包括:
删除该待压缩数据中的该第一子片段,将该第一子片段的指纹、该第一子片段的长度及该第一子片段在该待压缩数据中的位置信息添加到第七报文的净荷中,该待压缩数据为该第七报文的净荷。
第一子片段在待压缩数据中的位置信息可以是第一子片段的最高比特相对于待压缩数据的最高比特的偏移量。即,压缩侧设备在接收到该待压缩数据所在报文后,不仅能够匹配出第一子片段,在本地重复数据库中创建第一子片段,还能够对该待压缩数据进行压缩处理,删除第一子片段。其中,在去冗余报文中增加第一子片段的长度,是由于解压缩侧的重复数据库中已有第二片段,当去冗余报文发送到解压缩侧设备时,解压缩侧设备根据其中的第一子片段的指纹找到对应的第二片段,利用第一子片段的长度及第一子片段在该待压缩数据中的位置即第一子片段在压缩前报文中的原始位置,在第二片段中找到第一子片段,并对去冗余报文进行恢复,实现解压缩。
上述第三片段的结束位置通过定界算法确定,可包括:
从该第二比特开始向后滑动该定界算法中的第三滑窗,并判断该第三滑窗对应的数据是否符合该定界算法中的定界条件,当首次出现该第三滑窗对 应的数据符合该定界条件时,在第一距离内继续向后滑动该第三滑窗,并判断该第三滑窗对应的数据是否符合该定界条件,如果出现该第三滑窗对应的第一数据符合该定界条件的情况时,则确定该第一数据的结束位置为该第三片段的结束位置,该第三滑窗的长度与该第一滑窗的长度相同,该第一距离的长度与该第一滑窗的长度相同。
关于定界算法,可以参考CDC算法中的定界算法,此处不再赘述。
具体地,从上述第二比特开始向后滑动第三滑窗,判断第三滑窗对应的数据的指纹是否满足定界算法中的定界条件。
当首次出现第三滑窗对应的数据符合定界条件时,继续向后滑动第三滑窗。首次出现是指第一次出现第三滑窗对应的数据符合定界条件。第三滑窗的长度等于第一滑窗的长度。举例来说,第三滑窗的长度可以是64字节。定界算法中,第三滑窗向后滑动时,每次滑动的距离可以是1字节。
在第一距离内继续向后滑动第三滑窗,并判断第三滑窗对应的数据是否符合定界条件。如果在第一距离内多次出现第三滑窗对应的第一数据符合定界条件,则可以确定最后一次出现的第一数据为真正的边界。也就是说,可以确定最后一次出现的第一数据的结束位置为第三片段的结束位置。
图4为本发明实施例提供的一种数据压缩方法的一个具体实现方式的示意图。
如图4所示,根据CDC算法的定界原理分成三块的报文数据,其中,中间大块表示根据优化算法分成了三个子块。
假设该报文数据发送了三次,第一次发送时,子块3356B、4505B、4520B及2988B作为一个数据块发送,并被保存在重复数据库中。
第二次发送时,将该数据块拆分第一子块3356B及第二子块,第二子块由子块4505B、4520B与2988B组成。并且重复数据库中分别保存了第一子块3356B及第二子块。
第三次发送时,第一子块3356B成为数据块3356B,第二子块中删除了子块4520B,子块4505B及2988B作为一个数据块假设为数据块C。则在本次发送进行压缩处理时,需要将数据块C拆分为子块4505B及子块2988B。
具体地,当第三次发送数据时,以压缩数据块6788B、数据块3356B、数据块C及数据块4800B为例进行说明。
对图4中的数据块6788B、数据块3356B、数据块C及数据块4800B执行压缩操作,可以采用图5所示的数据处理方法。图5为本发明实施例提供的另一种数据处理方法的流程图。该数据处理方法包括:
51、滑动滑窗,计算指纹;这里的滑窗即内容滑窗,实现上内容滑动窗口可以与定界滑窗(即现有技术中的滑窗)合一,即对同样长度的数据进行HASH计算得到指纹,只是内容滑窗将指纹应用于判别数据块的内容是否发生变化,而定界滑窗将指纹应用于数据块定界。
52、判断是否存在HASH表项。具体地,用内容滑窗计算得到的指纹作为查找关键字(KEY)查找重复数据库,判断重复数据库是否存在HASH表项,该HASH表项包含有上述51计算得到的指纹。
若不存在HASH表项,说明指纹对应的数据块为本次新增加的内容,执行531,将新增加内容添加到重复数据库中。
若存在HASH表项,说明指纹对应的数据块曾经被保存到重复数据库中,则执行541,取HASH表项中的块信息,根据HASH表项中所保存的块信息(关键信息是块长度、SHA-1/MD5算法得到的数据即摘要(checksum))来与当前数据进行比较。当然,块信息还可以包含该数据块的原始数据内容。
531、判断计算出的指纹是否满足定界条件。采用CDC算法中类似的滑动窗口(称为定界滑窗)进行块定界,定界方法相同,即计算出指纹,并根据指纹判断是否满足定界条件,如果满足则确定找到数据的边界。
此处对CDC算法的定界过程有一点优化,因为有可能本数据块的内容发生了变化,该内容导致定界条件提前成立,而变化内容被计算到下一数据块中,结果可能导致下一块不能被判定为重复数据(实际上这部分确实为重复数据),因引考虑第一次满足条件的界为伪界,此时再向后滑动一部分距离(可称为数据扰动),如果再次发现定界条件满足,则认为后一次为真正的界(可以称为确界,前一次称为伪界),否则前一次就是真正的界(确界)。
532、最大界检查。通常数据块的长度有范围限制,可预先设定一个上限, 如最长不能超过64Kbyte(字节)。这里判断经过上述531确定的数据块的长度是否超过上限,若超过该上限,则以该上限作为数据块的长度,强制距离上述51滑窗字节为该上限的字节处定一个界,重新划定数据块,然后执行534;若531确定的数据块的长度未超过该上限,则执行532。
533、最小界检查。参见上述532,通常不仅预设一个上限来限定数据块可具有的最长的长度,还会预先设定一个下限来限定数据块可具有的最短的长度,如最短不能短于64字节。小于下限的情况作为零碎数据不压缩,这是为了防止数据库的数据块太零碎,占用系统资源,使得压缩过程没有意义,假如一个字节就是一个块,这是没有意义的,反而更加浪费系统资源。
若531确定的数据块的长度大于该下限,则执行534;若531确定的数据块的长度小于该下限,执行57;
534、确定可变块,计算摘要,然后执行56;
541、计算当前摘要是否一致。
具体的,计算当前数据块的摘要,并与重复数据库中的摘要进行比较。判断是否一致;若是,执行58;否则,执行542。
具体地,利用重复数据库中HASH表项记录的块长度直接确定上述步骤51滑窗对应的字节所属的数据块,然后计算该数据块的摘要。具体地,按照HASH表项中保存的块长度值定位当前数据的当前块即指纹对应的字节所属的数据块,通过SHA-1/MD5等算法计算当前块的checksum。计算得到的checksum与表项中保存的checksum进行比较,如果相同,则认为当前块为重复数据,将定界滑窗和内容滑窗都直接滑过本次找到的数据块,进行下一块的定界、内容比对。对于图4中的数据块3356B,按照上述方法,这次找到的实际上是一个重复块,此后先将内容滑窗滑到下一数据块C,检查其对应的指纹是否在重复数据库中存在,即利用内容滑窗指纹作为查找KEY在重复数据库中查找HASH表项。查找到HASH表项后,利用表项中的块长度计算数据块C的checksum,并与表项中的checksum进行比较,当检查到当前计算的checksum与表项中保存的checksum不一致,说明数据块C与重复数据库中对应的数据块的内容不同,执行542拆分数据块C及重复数据库中对应的数据块。
542、逐字节匹配拆分,对于每一个拆分出的子数据块,执行55;完成拆分后,对于拆分出的所有满足数据块的长度限制的子数据块执行543。在拆分过程中形成块的都要检查,不管是匹配部分还是不匹配部分,小于最小界的都作为零碎数据。在拆分过程中产生了新块都涉及到更新/删除表项,这是拆分过程中完成的。
具体地,从当前块的初始部分往后逐字节进行匹配,直到找到与重复数据库中不相同的字节,将当前块从不相同的字节处进行拆分,另外利用滑窗,检查从拆分点向后,是否有指纹与当前块的后续指纹相同,如果存在,检查两者完全匹配的部分,将其作为一个新块保存到重复数据库中,此过程主要是识别原来的数据中被删除掉一小部分的情况。
543、更新或删除HASH表项;
544、计算拆分摘要及块长度,然后执行56;
55、对子数据块进行最小界检查,若子数据块的长度大于上述下限,则对该子数据块执行543;若子数据块的长度小于上述下限,则对该子数据块执行57。55可在执行542的过程中执行,即542每拆分出一部分数据,就执行55,进行最小界检查,拆分完成后,也就对所有拆分出的子数据块完成了最小界检查,然后对所有拆分出的长度大于下限的数据块执行543。或者,55也可在542与543之间执行,即542先完成数据块的拆分,然后执行55,对于拆分出的所有子数据块执行55,再对55的判断结果执行57或543。
56、添加该可变块对应的HASH表项。
具体地,在重复数据库中,增加该数据块的内容,并添加HASH表项,即更新重复数据库,结束当前数据块的压缩处理。
57、非重复内容处理。具体地,单独处理非块内容即上述长度小于下限的零碎数据,这部分数据保留在报文中,不压缩,完成当前滑窗内字节的处理,继续向后滑动滑窗。
58、内容全部重复,重复内容替换成指纹,完成当前数据块的删除处理。当前块拆分完成后,继续滑动内容滑窗,检查后续数据块的内容,对当前块的后续数据进行处理。
上述流程中,定界滑窗和内容滑窗可为同一个滑窗,只是根据计算的结果(指纹)进行数据块定界、重复数据库中块内容的查找比较,据此,压缩方法流程分为定界滑窗流程和内容滑窗流程,最后的处理结果存在三种情况:一种是对原来的数据块进行了拆分,更新了重复数据库;另一种是未能匹配到块内容并且不符合加入重复数据库条件(如长度太短),这部分数据作为非重复内容直接放到报文中;还有一种结果是找到重复数据,此时将表示该重复数据的指纹及相关信息以一定格式放到报文中,发送给对方设备。
可选地,压缩后的报文的封装格式如图6所示,方式1中非重复数据的位置不变,只是非重复数据的前后的数据块作为重复数据而被替换了,方式2中替换格式在压缩后的报文中的位置被指定。其中,替换格式包括指纹、块长度及被替换的数据块在本报文中的偏移。
具体应用到数据块6788B时,首先滑窗滑动到数据块6788B的初始部分时,执行上述51操作,计算出初始部分的指纹,然后执行52,判断重复数据库是否存在包含该指纹的HASH表项,本实例中数据块6788B为重复数据块,因此,执行541,计算出数据块6788B的摘要,并与重复数据库中HASH表项保存的摘要相比较,判断是否一致,本实例中判断结果一致,即内容部分重复,执行58,删除数据中数据块6788B的内容,替换为指纹,完成对数据块6788B的处理。
之后滑窗滑动到数据块3356B的初始部分,执行51,计算出初始部分的指纹;执行52,从重复数据库中找到对应HASH表项,获知数据块3356B的块长度等块信息。执行541,计算出数据块3356B的摘要,与重复数据块的HASH表项中的摘要一致,说明数据块3356B的内容与重复数据库中对应HASH表项的数据块内容全部重复,执行58,删除数据中数据块3356B的内容,替换为指纹,完成对数据块3356B的处理。
之后滑窗滑动到数据块C的初始部分,执行51,计算出初始部分的指纹;执行52,查找重复数据库,判断是否存在包含该指纹的HASH表项。本实例中,重复数据库中存在数据块C的HASH表项。然后执行541,根据查找到的HASH表项中的块长度界定数据块C,计算出数据块C的摘要,并判断是否与HASH表项中的摘要一致。本实例中,数据块C的摘要与HASH表项中 的摘要不一致,然后执行542。从数据块C的初始部分开始向后逐字节与HASH表项对应的数据块内容进行比较,直到找到不相同的字节,将数据块C及重复数据库中HASH表项对应的数据块从此处即不相同的字节处进行拆分,本实例中,将数据块C拆分为子块4505B及子块2988B,其中,子块4505B与重复数据库中的数据重复,但是由于本次发送的数据块C中删除了子块4505B与子块2988B之间的子块4520B,导致数据块C的内容与重复数据库中的内容不匹配。然后执行543,将拆分出的部分4505B、2988B均作为一个新数据块保存到重复数据库中,并生成新的HASH表项替换之前查找到的HASH表项。相应地,重复数据库中的4520B满足数据块长度要求时,作为新的数据块保存,否则,删除。再执行544,计算子块4505B、子块2988B的块长度及摘要,添加到新的HASH表项中,以用于下次发送数据删除作为数据块的4505B、2988B的数据内容,并进行替换,提高数据的压缩效率。
对于待压缩的数据,继续向后滑动滑窗至数据块4800B的初始部分,执行51,计算初始部分的指纹。执行52,从重复数据库中找到对应HASH表项,获知数据块4800B的块长度等块信息。执行541,计算出数据块4800B的摘要,与重复数据块的HASH表项中的摘要一致,说明数据块4800B的内容与重复数据库中对应HASH表项的数据块内容全部重复,执行58,删除数据中数据块4800B的内容,替换为指纹,完成对数据块4800B的处理。
按照上述方法完成对数据的压缩后,压缩侧设备如WOC将报文发送到解压缩侧设备。
如图7所示,压缩侧设备接收报文后,对接收到的报文进行解析,得到报文的净荷。根据本发明实施例提供的数据处理方法对净荷中的数据进行压缩处理。将压缩处理后的数据封装为新报文。将新报文发送到解压缩侧设备。
解压缩侧设备接收到新报文后,利用重复数据库对新报文中的净荷进行解压缩处理。具体可以是将报文中的替换格式或指纹删除,并将替换格式或指纹替换为与替换格式或指纹对应的数据块,将将解压缩的数据封装为报文。
其中,重复数据库的生成(即前面的算法过程)可以只在一端设备完成,然后将数据(重复数据块指纹和/或数据内容)同步到对端。当数据流量主要为下行,即服务器侧流向用户侧(如用户下载文件),算法可以在靠近用户 侧的WOC设备实现,并且保存重复数据块内容,而靠近服务器一侧的WOC设备只需要同步指纹信息即可,不需要缓存所有内容,反之则在服务器侧的WOC设备处理算法和保存内容。当然两侧可以都计算和保存内容,只是会增加资源需求。
图8为本发明实施例提供的数据压缩设备的结构示意图。本实施例提供的数据压缩设备用于实施上述图1、图5所示实施例的方法,如图8所示,数据处理设备包括:第一指纹计算单元81、查找单元82、重复内容获取单元83、摘要计算单元84、摘要比较单元85、第一子片段获取单元86及第一添加单元87。
第一指纹计算单元81用于根据指纹算法计算待压缩数据中的第一片段的第一指纹,该第一片段的起始位置与该待压缩数据的起始位置相同,该第一片段的长度与第一滑窗的长度相同;
查找单元82用于在第一本地重复数据库中查找该第一指纹,该第一本地重复数据库用于存储重复数据、该重复数据的指纹以及该重复数据的摘要;
重复内容获取单元83用于如果该第一本地重复数据库中存在该第一指纹,则根据该第一指纹获取该第一本地重复数据库中的第一可变块以及该第一可变块的摘要,该第一指纹与根据该指纹算法计算得到的该第一可变块中的第一初始块的指纹相同,该第一初始块的起始位置与该第一可边块的起始位置相同,该第一初始块的长度与该第一滑窗的长度相同,该第一可变块的摘要为根据摘要算法对该第一可变块的摘要进行计算得到的;
摘要计算单元84用于根据该摘要算法计算该待压缩数据中的第二片段的摘要,该第二片段的起始位置与该待压缩数据的起始位置相同,该第二片段的长度与该第一可变块的长度相同;
摘要比较单元85用于比较该第二片段的摘要与该第一可变块的摘要;
第一子片段获取单元86用于如果该第二片段的摘要与该第一可变块的摘要不同,则获取该第二片段中的第一子片段,该第一子片段与该第一可变块中的第一子可变块相同,该第一子片段的起始位置与该第二片段的起始位置相同,该第一子可变块的起始位置与该第一可变块的起始位置相同,该第二片段中的第二比特与该第一可变块中的第一比特不同,该第二比特为该第二片 段中该第一子片段的下一个比特,该第一比特为该第一可变块中该第一子可变块的下一个比特;
第一添加单元87用于将该第一子片段、该第一子片段的指纹以及该第一子片段的摘要添加到该第一本地重复数据库,生成第二本地重复数据库,该第一子片段的指纹与该第一指纹相同,该第一子片段的摘要为根据该摘要算法对该第一子片段的摘要进行计算得到的。
本发明实施例提供的数据压缩设备还可包括:
第一报文接收单元,用于接收第一报文,该第一报文包括第一报文头与第一净荷,该第一净荷包含第一净荷片段,该第一净荷片段的长度与该第一子片段的长度相同;
第二初始指纹计算单元,用于根据该指纹算法计算该第一净荷片段中第二初始块的指纹,该第二初始块的起始位置与该第一净荷片段的起始位置相同,该第二初始块的长度与该第一滑窗的长度相同;
第一净荷摘要计算单元,用于根据该摘要算法计算该第一净荷片段的摘要;
第二报文生成单元,用于如果该第二初始块的指纹与该第二本地重复数据库中的该第一子片段的指纹相等,并且该第一净荷片段的摘要与该第一子片段的摘要相等,则删除该第一报文中的该第一净荷片段,生成第二报文,该第二报文中包括第二报文头与第二净荷,该第二报文头与该第一报文头相同,该第二净荷包括该第一子片段的指纹。
该第二净荷还可包括该第一子片段在该第一报文中的位置信息。第一子片段在第一报文中的位置信息可以是第一子片段的最高比特相对于第一报文的报文头的最高比特的偏移量。
本发明实施例提供的数据压缩设备还可包括:
第三初始指纹计算单元,用于根据该指纹算法计算该待压缩数据中的第二子片段的第三初始块的指纹,该第二子片段的起始位置为该第二比特,该第二子片段的结束位置与该待压缩数据的结束位置相同;该第三初始块的起始位置为该第二比特,该第三初始块的长度等于该第一滑窗的长度;
检测块获取单元,用于根据第二滑窗获取第二子可变块中的第一检测块,该第二滑窗的起始位置与该第二子可变块中的第三比特对应,该第三比特为介于第二子可变块的起始位置与该第二子可变块的结束位置之间的比特,该第二滑窗的长度等于该第一滑窗的长度,该第二子可变块的起始位置为该第一比特,该第二子可变块的结束位置与该第一可变块的结束位置相同;
检测块指纹计算单元,根据该指纹算法计算该第一检测块的指纹;
指纹比较单元,用于比较该第三初始块的指纹与该第一检测块的指纹;
第三摘要比较单元,用于如果该第三初始块的指纹与该第一检测块的指纹相同,则比较该第二子可变块中的第三子可变块的摘要与该第二子片段中的第三子片段的摘要,该第三子可变块的起始位置与该第一检测块的起始位置相同,该第三子可变块的结束位置与该第一可变块的结束位置相同,该第三子片段的起始位置与该第二子片段的起始位置相同,该第三子片段的长度与该第三子可变块的长度相等,该第三子可变块的摘要为根据该摘要算法对该第三子可变块的摘要进行计算得到的;
第三添加单元,用于如果该第三子片段的摘要与该第三子可变块的摘要相等,则将该第三子片段、该第三子片段的指纹以及该第三子片段的摘要添加到该第二本地重复数据库,生成第三本地重复数据库,该第三子片段的指纹等于该第三初始块的指纹,该第三子片段的摘要为根据该摘要算法对该第三子片段的摘要进行计算得到的。
本发明实施例提供的数据压缩设备还可包括:
第三报文接收单元,用于接收第三报文,该第三报文包括第三报文头与第三净荷,该第三净荷包含第二净荷片段以及第三净荷片段,该第二净荷片段的长度与该第一子片段的长度相同,该第三净荷片段的长度与该第三子片段的长度相同;
第四初始指纹计算单元,用于根据该指纹算法计算该第二净荷片段中第四初始块的指纹,根据该指纹算法计算该第三净荷片段中第五初始块的指纹,该第四初始块的起始位置与该第二净荷片段的起始位置相同,该第四初始块的长度与该第一滑窗的长度相同,该第五初始块的起始位置与该第三净荷片段的起始位置相同,该第五初始块的长度与该第一滑窗的长度相同;
第三净荷摘要计算单元,用于根据该摘要算法计算该第二净荷片段的摘要,根据该摘要算法计算该第三净荷片段的摘要;
第四报文生成单元,用于如果该第四初始块的指纹与该第三本地重复数据库中的该第一子片段的指纹相等,并且该第二净荷片段的摘要与该第一子片段的摘要相等,则删除该第三报文中的该第二净荷片段,如果该第五初始块的指纹与该第三本地重复数据库中的该第三子片段的指纹相等,并且该第三净荷片段的摘要与该第三子片段的摘要相等,则删除该第三报文中的该第三净荷片段,生成第四报文,该第四报文中包括第四报文头与第四净荷,该第四报文头与该第三报文头相同,该第四净荷包括该第一子片段的指纹以及该第三子片段的指纹。
该第四净荷还包括该第一子片段在该第三报文中的位置信息、该第三子片段在该第三报文中的位置信息。第一子片段在第三报文中的位置信息可以是第一子片段的最高比特相对于第三报文的报文头的最高比特的偏移量。
本发明实施例提供的数据压缩设备还可包括:
初始块指纹计算单元,用于根据该指纹算法计算该第一可变块中的第四子可变块的第六初始块的指纹,该第四子可变块的起始位置为该第一比特,该第四子可变块的结束位置与该第一可变块的结束位置相同,该第六初始块的起始位置为该第一比特,该第六初始块的长度等于该第一滑窗的长度;
检测块获取单元,用于获取第四子片段中的第二检测块,该第二检测块的起始位置与该第四子片段中的第四比特对应,该第四比特为介于第三片段的起始位置与该第三片段的结束位置之间的比特,该第二检测块的长度等于该第一滑窗的长度,该第三片段的起始位置为该第二比特,该第三片段的结束位置通过定界算法确定,该第三片段为该待压缩数据中的片段,该第四子片段为该第三片段中的子片段,该第四子片段的起始位置与该第二检测块的起始位置相同,该第四子片段的长度与该第四子可变块的长度相同;
检测块指纹计算单元,用于根据该指纹算法计算该第二检测块的指纹;
指纹比较单元,用于比较该第六初始块的指纹与该第二检测块的指纹;
第四摘要比较单元,用于如果该第六初始块的指纹与该第二检测块的指 纹相同,则比较该第四子可变块的摘要与该第四子片段的摘要,该第四子可变块的摘要为根据该摘要算法对该第四子可变块的摘要进行计算得到的,该第四子片段的摘要为根据该摘要算法对该第四子片段的摘要进行计算得到的;
第四添加单元,用于如果该第四子片段的摘要与该第四子可变块的摘要相同,则将该第四子片段、该第四子片段的指纹以及该第四子片段的摘要添加到该第二本地重复数据库,生成第四本地重复数据库,该第四子片段的指纹与该第六初始块的指纹相同。
本发明实施例提供的数据压缩设备还可包括:
第五报文接收单元,用于接收第五报文,该第五报文包括第五报文头与第五净荷,该第五净荷包含第四净荷片度以及第五净荷片段,该第四净荷片度的长度与该第一子片段相同,该第五净荷片段的长度与该第四子片段的长度相同;
第七初始指纹计算单元,用于根据该指纹算法计算该第四净荷片段中第七初始块的指纹,根据该指纹算法计算该第五净荷片段中第八初始块的指纹,该第七初始块的起始位置与该第四净荷片段的起始位置相同,该第七初始块的长度与该第一滑窗的长度相同,该第八初始块的起始位置与该第五净荷片段的起始位置相同,该第八初始块的长度与该第一滑窗的长度相同;
第五净荷摘要计算单元,用于根据该摘要算法计算该第四净荷片段的摘要,根据该摘要算法计算该第五净荷片段的摘要;
第六报文生成单元,用于如果该第七初始块的指纹与该第四本地重复数据库中的该第一子片段的指纹相等,并且该第四净荷片段的摘要与该第一子片段的摘要相等,则删除该第五报文中的该第四净荷片段,如果该第八初始块的指纹与该第四本地重复数据库中的该第四子片段的指纹相等,并且该第五净荷片段的摘要与该第四子片段的摘要相等,则删除该第五报文中的该第五净荷片段,生成第六报文,该第六报文中包括第六报文头与第六净荷,该第六报文头与该第五报文头相同,该第六净荷包括该第一子片段的指纹以及该第四子片段的指纹。
该第六净荷还可包括该第一子片段在该第五报文中的位置信息、该第四 子片段在该第五报文中的位置信息。第一子片段在第五报文中的位置信息可以是第一子片段的最高比特相对于第五报文的报文头的最高比特的偏移量。
可选地,从该第二比特开始向后滑动该定界算法中的第三滑窗,并判断该第三滑窗对应的数据是否符合该定界算法中的定界条件,当首次出现该第三滑窗对应的数据符合该定界条件时,在第一距离内继续向后滑动该第三滑窗,并判断该第三滑窗对应的数据是否符合该定界条件,如果出现该第三滑窗对应的第一数据符合该定界条件的情况时,则确定该第一数据的结束位置为该第三片段的结束位置,该第三滑窗的长度与该第一滑窗的长度相同,该第一距离的长度与该第一滑窗的长度相同。
本发明实施例提供的数据压缩设备还可包括:
第二同步单元,用于将该第一子片段、该第一子片段的指纹以及该第一子片段的摘要同步到解压缩侧的重复数据库。
本发明实施例提供的数据压缩设备还可包括:
压缩处理单元,用于删除该待压缩数据中的该第一子片段,将该第一子片段的指纹、该第一子片段的长度及该第一子片段在该待压缩数据中的位置信息添加到第七报文的净荷中,该待压缩数据为该第七报文的净荷。
第一子片段在待压缩数据中的位置信息可以是第一子片段的最高比特相对于待压缩数据的最高比特的偏移量。
本发明实施例提供的数据压缩设备可为WOC。本领域技术人员应理解,WOC除了上述功能单元,还应具有报文接收、网络连接等基本的功能单元,这里不再赘述。
本发明实施例提供的数据解压缩设备包括:
第一指纹计算单元,用于根据指纹算法计算待压缩数据中的第一片段的第一指纹,该第一片段的起始位置与该待压缩数据的起始位置相同,该第一片段的长度与第一滑窗的长度相同;
查找单元,用于在第一本地重复数据库中查找该第一指纹,该第一本地重复数据库用于存储重复数据、该重复数据的指纹以及该重复数据的摘要;
重复内容获取单元,用于如果该第一本地重复数据库中存在该第一指纹, 则根据该第一指纹获取该第一本地重复数据库中的第一可变块以及该第一可变块的摘要,该第一指纹与根据该指纹算法计算得到的该第一可变块中的第一初始块的指纹相同,该第一初始块的起始位置与该第一可边块的起始位置相同,该第一初始块的长度与该第一滑窗的长度相同,该第一可变块的摘要为根据摘要算法对该第一可变块的摘要进行计算得到的;
摘要计算单元,用于根据该摘要算法计算该待压缩数据中的第二片段的摘要,该第二片段的起始位置与该待压缩数据的起始位置相同,该第二片段的长度与该第一可变块的长度相同;
摘要比较单元,用于比较该第二片段的摘要与该第一可变块的摘要;
第一子片段获取单元,用于如果该第二片段的摘要与该第一可变块的摘要不同,则获取该第二片段中的第一子片段,该第一子片段与该第一可变块中的第一子可变块相同,该第一子片段的起始位置与该第二片段的起始位置相同,该第一子可变块的起始位置与该第一可变块的起始位置相同,该第二片段中的第二比特与该第一可变块中的第一比特不同,该第二比特为该第二片段中该第一子片段的下一个比特,该第一比特为该第一可变块中该第一子可变块的下一个比特;
第一添加单元,用于将该第一子片段、该第一子片段的指纹以及该第一子片段的摘要添加到该第一本地重复数据库,生成第二本地重复数据库,该第一子片段的指纹与该第一指纹相同,该第一子片段的摘要为根据该摘要算法对该第一子片段的摘要进行计算得到的。
本领域技术人员应理解为:本发明实施例提供的数据解压缩设备除具备上述单元外,还具有解压缩等基本功能单元。
本发明实施例提供的数据解压缩设备还可包括:
第一同步单元,用于将该第一子片段的指纹以及该第一子片段的摘要同步到压缩侧的重复数据库。
图9为本发明实施例提供的一种数据压缩方法的一种应用场景的组网结构图。如图9所示,在WAN两端用来压缩数据及解压缩数据的设备均为WOC。即,WOC可同时具备压缩数据和解压缩数据的功能。
图10为本发明实施例提供的一种数据压缩方法的另一种应用场景的组网结构图。如图10所示,两端WOC设备的交互包括控制和数据两个层面。
控制层面是两端设备需要通过私有协议交互控制信息,自动发现对端设备,通过下游设备发送响应到上游设备,可以使上游设备感知下游设备的存在及地址信息(如IP地址)。并且,两端设备需要互相通知采用的算法信息并达成一致(如都采用MD5进行内容checksum的计算),还需要同步重复数据库信息,包括指纹及指纹对应的信息表项(如块长度,checksum值等)。同步过程分为定时同步和增量同步,定时同步指定时将所有的重复数据库内容进行一致性检查,而增量同步则只对新增或更新/删除的特定块信息通知对端。
数据层面是指对通过两端设备的业务数据进行算法处理和数据替换,从而减少报文的长度和个数,达到数据压缩的目的。
根据本发明实施例提供的技术方案,如果待压缩的数据中包含了与重复数据库中的可变块的前半部分相同并且与可变块的后半部分不同的数据片段,则能够生成粒度小于发生匹配的可变块的新的可变块,并将新的可变块添加到重复数据库。
相对于直接对定位到的块进行查找方法,新的可变块粒度较小。因此,本发明实施例提供的技术方案提高了后续的待压缩数据与更新后的重复数据库发生匹配的概率,进而提高了压缩的效率。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示 意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文缩写为ROM,英文全称为Read-Only Memory)、随机存取存储器(英文缩写为RAM,英文全称为Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (27)

1.一种数据处理方法,其特征在于,包括:
根据指纹算法计算待压缩数据中的第一片段的第一指纹,所述第一片段的起始位置与所述待压缩数据的起始位置相同,所述第一片段的长度与第一滑窗的长度相同;
在第一本地重复数据库中查找所述第一指纹,所述第一本地重复数据库用于存储重复数据、所述重复数据的指纹以及所述重复数据的摘要;
如果所述第一本地重复数据库中存在所述第一指纹,则根据所述第一指纹获取所述第一本地重复数据库中的第一可变块以及所述第一可变块的摘要,所述第一指纹与根据所述指纹算法计算得到的所述第一可变块中的第一初始块的指纹相同,所述第一初始块的起始位置与所述第一可变块的起始位置相同,所述第一初始块的长度与所述第一滑窗的长度相同,所述第一可变块的摘要为根据摘要算法对所述第一可变块的摘要进行计算得到的;
根据所述摘要算法计算所述待压缩数据中的第二片段的摘要,所述第二片段的起始位置与所述待压缩数据的起始位置相同,所述第二片段的长度与所述第一可变块的长度相同;
比较所述第二片段的摘要与所述第一可变块的摘要;
如果所述第二片段的摘要与所述第一可变块的摘要不同,则获取所述第二片段中的第一子片段,所述第一子片段与所述第一可变块中的第一子可变块相同,所述第一子片段的起始位置与所述第二片段的起始位置相同,所述第一子可变块的起始位置与所述第一可变块的起始位置相同,所述第二片段中的第二比特与所述第一可变块中的第一比特不同,所述第二比特为所述第二片段中所述第一子片段的下一个比特,所述第一比特为所述第一可变块中所述第一子可变块的下一个比特;
将所述第一子片段、所述第一子片段的指纹以及所述第一子片段的摘要添加到所述第一本地重复数据库,生成第二本地重复数据库,所述第一子片段的指纹与所述第一指纹相同,所述第一子片段的摘要为根据所述摘要算法对所述第一子片段的摘要进行计算得到的。
2.根据权利要求1所述方法,其特征在于,还包括:
接收第一报文,所述第一报文包括第一报文头与第一净荷,所述第一净荷包含第一净荷片段,所述第一净荷片段的长度与所述第一子片段的长度相同;
根据所述指纹算法计算所述第一净荷片段中第二初始块的指纹,所述第二初始块的起始位置与所述第一净荷片段的起始位置相同,所述第二初始块的长度与所述第一滑窗的长度相同;
根据所述摘要算法计算所述第一净荷片段的摘要;
如果所述第二初始块的指纹与所述第二本地重复数据库中的所述第一子片段的指纹相等,并且所述第一净荷片段的摘要与所述第一子片段的摘要相等,则删除所述第一报文中的所述第一净荷片段,生成第二报文,所述第二报文中包括第二报文头与第二净荷,所述第二报文头与所述第一报文头相同,所述第二净荷包括所述第一子片段的指纹。
3.根据权利要求2所述方法,其特征在于,所述第二净荷还包括所述第一子片段在所述第一报文中的位置信息。
4.根据权利要求1所述方法,其特征在于,所述获取所述第二片段中的第一子片段之后,所述方法还包括:
根据所述指纹算法计算所述待压缩数据中的第二子片段的第三初始块的指纹,所述第二子片段的起始位置为所述第二比特,所述第二子片段的结束位置与所述待压缩数据的结束位置相同;所述第三初始块的起始位置为所述第二比特,所述第三初始块的长度等于所述第一滑窗的长度;
根据第二滑窗获取第二子可变块中的第一检测块,所述第二滑窗的起始位置与所述第二子可变块中的第三比特对应,所述第三比特为介于第二子可变块的起始位置与所述第二子可变块的结束位置之间的比特,所述第二滑窗的长度等于所述第一滑窗的长度,所述第二子可变块的起始位置为所述第一比特,所述第二子可变块的结束位置与所述第一可变块的结束位置相同;
根据所述指纹算法计算所述第一检测块的指纹;
比较所述第三初始块的指纹与所述第一检测块的指纹;
如果所述第三初始块的指纹与所述第一检测块的指纹相同,则比较所述第二子可变块中的第三子可变块的摘要与所述第二子片段中的第三子片段的摘要,所述第三子可变块的起始位置与所述第一检测块的起始位置相同,所述第三子可变块的结束位置与所述第一可变块的结束位置相同,所述第三子片段的起始位置与所述第二子片段的起始位置相同,所述第三子片段的长度与所述第三子可变块的长度相等,所述第三子可变块的摘要为根据所述摘要算法对所述第三子可变块的摘要进行计算得到的;
如果所述第三子片段的摘要与所述第三子可变块的摘要相等,则将所述第三子片段、所述第三子片段的指纹以及所述第三子片段的摘要添加到所述第二本地重复数据库,生成第三本地重复数据库,所述第三子片段的指纹等于所述第三初始块的指纹,所述第三子片段的摘要为根据所述摘要算法对所述第三子片段的摘要进行计算得到的。
5.根据权利要求4所述方法,其特征在于,还包括:
接收第三报文,所述第三报文包括第三报文头与第三净荷,所述第三净荷包含第二净荷片段以及第三净荷片段,所述第二净荷片段的长度与所述第一子片段的长度相同,所述第三净荷片段的长度与所述第三子片段的长度相同;
根据所述指纹算法计算所述第二净荷片段中第四初始块的指纹,根据所述指纹算法计算所述第三净荷片段中第五初始块的指纹,所述第四初始块的起始位置与所述第二净荷片段的起始位置相同,所述第四初始块的长度与所述第一滑窗的长度相同,所述第五初始块的起始位置与所述第三净荷片段的起始位置相同,所述第五初始块的长度与所述第一滑窗的长度相同;
根据所述摘要算法计算所述第二净荷片段的摘要,根据所述摘要算法计算所述第三净荷片段的摘要;
如果所述第四初始块的指纹与所述第三本地重复数据库中的所述第一子片段的指纹相等,并且所述第二净荷片段的摘要与所述第一子片段的摘要相等,则删除所述第三报文中的所述第二净荷片段,如果所述第五初始块的指纹与所述第三本地重复数据库中的所述第三子片段的指纹相等,并且所述第三净荷片段的摘要与所述第三子片段的摘要相等,则删除所述第三报文中的所述第三净荷片段,生成第四报文,所述第四报文中包括第四报文头与第四净荷,所述第四报文头与所述第三报文头相同,所述第四净荷包括所述第一子片段的指纹以及所述第三子片段的指纹。
6.根据权利要求5所述方法,其特征在于,所述第四净荷还包括所述第一子片段在所述第三报文中的位置信息、所述第三子片段在所述第三报文中的位置信息。
7.根据权利要求1所述方法,其特征在于,所述方法还包括:
根据所述指纹算法计算所述第一可变块中的第四子可变块的第六初始块的指纹,所述第四子可变块的起始位置为所述第一比特,所述第四子可变块的结束位置与所述第一可变块的结束位置相同,所述第六初始块的起始位置为所述第一比特,所述第六初始块的长度等于所述第一滑窗的长度;
获取第四子片段中的第二检测块,所述第二检测块的起始位置与所述第四子片段中的第四比特对应,所述第四比特为介于第三片段的起始位置与所述第三片段的结束位置之间的比特,所述第二检测块的长度等于所述第一滑窗的长度,所述第三片段的起始位置为所述第二比特,所述第三片段的结束位置通过定界算法确定,所述第三片段为所述待压缩数据中的片段,所述第四子片段为所述第三片段中的子片段,所述第四子片段的起始位置与所述第二检测块的起始位置相同,所述第四子片段的长度与所述第四子可变块的长度相同;
根据所述指纹算法计算所述第二检测块的指纹;
比较所述第六初始块的指纹与所述第二检测块的指纹;
如果所述第六初始块的指纹与所述第二检测块的指纹相同,则比较所述第四子可变块的摘要与所述第四子片段的摘要,所述第四子可变块的摘要为根据所述摘要算法对所述第四子可变块的摘要进行计算得到的,所述第四子片段的摘要为根据所述摘要算法对所述第四子片段的摘要进行计算得到的;
如果所述第四子片段的摘要与所述第四子可变块的摘要相同,则将所述第四子片段、所述第四子片段的指纹以及所述第四子片段的摘要添加到所述第二本地重复数据库,生成第四本地重复数据库,所述第四子片段的指纹与所述第六初始块的指纹相同。
8.根据权利要求7所述方法,其特征在于,还包括:
接收第五报文,所述第五报文包括第五报文头与第五净荷,所述第五净荷包含第四净荷片段以及第五净荷片段,所述第四净荷片段的长度与所述第一子片段相同,所述第五净荷片段的长度与所述第四子片段的长度相同;
根据所述指纹算法计算所述第四净荷片段中第七初始块的指纹,根据所述指纹算法计算所述第五净荷片段中第八初始块的指纹,所述第七初始块的起始位置与所述第四净荷片段的起始位置相同,所述第七初始块的长度与所述第一滑窗的长度相同,所述第八初始块的起始位置与所述第五净荷片段的起始位置相同,所述第八初始块的长度与所述第一滑窗的长度相同;
根据所述摘要算法计算所述第四净荷片段的摘要,根据所述摘要算法计算所述第五净荷片段的摘要;
如果所述第七初始块的指纹与所述第四本地重复数据库中的所述第一子片段的指纹相等,并且所述第四净荷片段的摘要与所述第一子片段的摘要相等,则删除所述第五报文中的所述第四净荷片段,如果所述第八初始块的指纹与所述第四本地重复数据库中的所述第四子片段的指纹相等,并且所述第五净荷片段的摘要与所述第四子片段的摘要相等,则删除所述第五报文中的所述第五净荷片段,生成第六报文,所述第六报文中包括第六报文头与第六净荷,所述第六报文头与所述第五报文头相同,所述第六净荷包括所述第一子片段的指纹以及所述第四子片段的指纹。
9.根据权利要求8所述方法,其特征在于,所述第六净荷还包括所述第一子片段在所述第五报文中的位置信息、所述第四子片段在所述第五报文中的位置信息。
10.根据权利要求7所述方法,其特征在于,所述第三片段的结束位置通过定界算法确定,包括:
从所述第二比特开始向后滑动所述定界算法中的第三滑窗,并判断所述第三滑窗对应的数据是否符合所述定界算法中的定界条件,当首次出现所述第三滑窗对应的数据符合所述定界条件时,在第一距离内继续向后滑动所述第三滑窗,并判断所述第三滑窗对应的数据是否符合所述定界条件,如果出现所述第三滑窗对应的第一数据符合所述定界条件的情况时,则确定所述第一数据的结束位置为所述第三片段的结束位置,所述第三滑窗的长度与所述第一滑窗的长度相同,所述第一距离的长度与所述第一滑窗的长度相同。
11.根据权利要求1所述方法,其特征在于,还包括:将所述第一子片段的指纹以及所述第一子片段的摘要同步到压缩侧的重复数据库。
12.根据权利要求1-10任一项所述方法,其特征在于,还包括:将所述第一子片段、所述第一子片段的指纹以及所述第一子片段的摘要同步到解压缩侧的重复数据库。
13.根据权利要求1所述方法,其特征在于,还包括:
删除所述待压缩数据中的所述第一子片段,将所述第一子片段的指纹、所述第一子片段的长度及所述第一子片段在所述待压缩数据中的位置信息添加到第七报文的净荷中,所述待压缩数据为所述第七报文的净荷。
14.一种数据压缩设备,其特征在于,包括:
第一指纹计算单元,用于根据指纹算法计算待压缩数据中的第一片段的第一指纹,所述第一片段的起始位置与所述待压缩数据的起始位置相同,所述第一片段的长度与第一滑窗的长度相同;
查找单元,用于在第一本地重复数据库中查找所述第一指纹,所述第一本地重复数据库用于存储重复数据、所述重复数据的指纹以及所述重复数据的摘要;
重复内容获取单元,用于如果所述第一本地重复数据库中存在所述第一指纹,则根据所述第一指纹获取所述第一本地重复数据库中的第一可变块以及所述第一可变块的摘要,所述第一指纹与根据所述指纹算法计算得到的所述第一可变块中的第一初始块的指纹相同,所述第一初始块的起始位置与所述第一可变块的起始位置相同,所述第一初始块的长度与所述第一滑窗的长度相同,所述第一可变块的摘要为根据摘要算法对所述第一可变块的摘要进行计算得到的;
摘要计算单元,用于根据所述摘要算法计算所述待压缩数据中的第二片段的摘要,所述第二片段的起始位置与所述待压缩数据的起始位置相同,所述第二片段的长度与所述第一可变块的长度相同;
摘要比较单元,用于比较所述第二片段的摘要与所述第一可变块的摘要;
第一子片段获取单元,用于如果所述第二片段的摘要与所述第一可变块的摘要不同,则获取所述第二片段中的第一子片段,所述第一子片段与所述第一可变块中的第一子可变块相同,所述第一子片段的起始位置与所述第二片段的起始位置相同,所述第一子可变块的起始位置与所述第一可变块的起始位置相同,所述第二片段中的第二比特与所述第一可变块中的第一比特不同,所述第二比特为所述第二片段中所述第一子片段的下一个比特,所述第一比特为所述第一可变块中所述第一子可变块的下一个比特;
第一添加单元,用于将所述第一子片段、所述第一子片段的指纹以及所述第一子片段的摘要添加到所述第一本地重复数据库,生成第二本地重复数据库,所述第一子片段的指纹与所述第一指纹相同,所述第一子片段的摘要为根据所述摘要算法对所述第一子片段的摘要进行计算得到的。
15.根据权利要求14所述设备,其特征在于,还包括:
第一报文接收单元,用于接收第一报文,所述第一报文包括第一报文头与第一净荷,所述第一净荷包含第一净荷片段,所述第一净荷片段的长度与所述第一子片段的长度相同;
第二初始指纹计算单元,用于根据所述指纹算法计算所述第一净荷片段中第二初始块的指纹,所述第二初始块的起始位置与所述第一净荷片段的起始位置相同,所述第二初始块的长度与所述第一滑窗的长度相同;
第一净荷摘要计算单元,用于根据所述摘要算法计算所述第一净荷片段的摘要;
第二报文生成单元,用于如果所述第二初始块的指纹与所述第二本地重复数据库中的所述第一子片段的指纹相等,并且所述第一净荷片段的摘要与所述第一子片段的摘要相等,则删除所述第一报文中的所述第一净荷片段,生成第二报文,所述第二报文中包括第二报文头与第二净荷,所述第二报文头与所述第一报文头相同,所述第二净荷包括所述第一子片段的指纹。
16.根据权利要求15所述设备,其特征在于,所述第二净荷还包括所述第一子片段在所述第一报文中的位置信息。
17.根据权利要求14所述设备,其特征在于,所述设备还包括:
第三初始指纹计算单元,用于根据所述指纹算法计算所述待压缩数据中的第二子片段的第三初始块的指纹,所述第二子片段的起始位置为所述第二比特,所述第二子片段的结束位置与所述待压缩数据的结束位置相同;所述第三初始块的起始位置为所述第二比特,所述第三初始块的长度等于所述第一滑窗的长度;
检测块获取单元,用于根据第二滑窗获取第二子可变块中的第一检测块,所述第二滑窗的起始位置与所述第二子可变块中的第三比特对应,所述第三比特为介于第二子可变块的起始位置与所述第二子可变块的结束位置之间的比特,所述第二滑窗的长度等于所述第一滑窗的长度,所述第二子可变块的起始位置为所述第一比特,所述第二子可变块的结束位置与所述第一可变块的结束位置相同;
检测块指纹计算单元,根据所述指纹算法计算所述第一检测块的指纹;
指纹比较单元,用于比较所述第三初始块的指纹与所述第一检测块的指纹;
第三摘要比较单元,用于如果所述第三初始块的指纹与所述第一检测块的指纹相同,则比较所述第二子可变块中的第三子可变块的摘要与所述第二子片段中的第三子片段的摘要,所述第三子可变块的起始位置与所述第一检测块的起始位置相同,所述第三子可变块的结束位置与所述第一可变块的结束位置相同,所述第三子片段的起始位置与所述第二子片段的起始位置相同,所述第三子片段的长度与所述第三子可变块的长度相等,所述第三子可变块的摘要为根据所述摘要算法对所述第三子可变块的摘要进行计算得到的;
第三添加单元,用于如果所述第三子片段的摘要与所述第三子可变块的摘要相等,则将所述第三子片段、所述第三子片段的指纹以及所述第三子片段的摘要添加到所述第二本地重复数据库,生成第三本地重复数据库,所述第三子片段的指纹等于所述第三初始块的指纹,所述第三子片段的摘要为根据所述摘要算法对所述第三子片段的摘要进行计算得到的。
18.根据权利要求17所述设备,其特征在于,还包括:
第三报文接收单元,用于接收第三报文,所述第三报文包括第三报文头与第三净荷,所述第三净荷包含第二净荷片段以及第三净荷片段,所述第二净荷片段的长度与所述第一子片段的长度相同,所述第三净荷片段的长度与所述第三子片段的长度相同;
第四初始指纹计算单元,用于根据所述指纹算法计算所述第二净荷片段中第四初始块的指纹,根据所述指纹算法计算所述第三净荷片段中第五初始块的指纹,所述第四初始块的起始位置与所述第二净荷片段的起始位置相同,所述第四初始块的长度与所述第一滑窗的长度相同,所述第五初始块的起始位置与所述第三净荷片段的起始位置相同,所述第五初始块的长度与所述第一滑窗的长度相同;
第三净荷摘要计算单元,用于根据所述摘要算法计算所述第二净荷片段的摘要,根据所述摘要算法计算所述第三净荷片段的摘要;
第四报文生成单元,用于如果所述第四初始块的指纹与所述第三本地重复数据库中的所述第一子片段的指纹相等,并且所述第二净荷片段的摘要与所述第一子片段的摘要相等,则删除所述第三报文中的所述第二净荷片段,如果所述第五初始块的指纹与所述第三本地重复数据库中的所述第三子片段的指纹相等,并且所述第三净荷片段的摘要与所述第三子片段的摘要相等,则删除所述第三报文中的所述第三净荷片段,生成第四报文,所述第四报文中包括第四报文头与第四净荷,所述第四报文头与所述第三报文头相同,所述第四净荷包括所述第一子片段的指纹以及所述第三子片段的指纹。
19.根据权利要求18所述设备,其特征在于,所述第四净荷还包括所述第一子片段在所述第三报文中的位置信息、所述第三子片段在所述第三报文中的位置信息。
20.根据权利要求14所述设备,其特征在于,所述设备还包括:
初始块指纹计算单元,用于根据所述指纹算法计算所述第一可变块中的第四子可变块的第六初始块的指纹,所述第四子可变块的起始位置为所述第一比特,所述第四子可变块的结束位置与所述第一可变块的结束位置相同,所述第六初始块的起始位置为所述第一比特,所述第六初始块的长度等于所述第一滑窗的长度;
检测块获取单元,用于获取第四子片段中的第二检测块,所述第二检测块的起始位置与所述第四子片段中的第四比特对应,所述第四比特为介于第三片段的起始位置与所述第三片段的结束位置之间的比特,所述第二检测块的长度等于所述第一滑窗的长度,所述第三片段的起始位置为所述第二比特,所述第三片段的结束位置通过定界算法确定,所述第三片段为所述待压缩数据中的片段,所述第四子片段为所述第三片段中的子片段,所述第四子片段的起始位置与所述第二检测块的起始位置相同,所述第四子片段的长度与所述第四子可变块的长度相同;
检测块指纹计算单元,用于根据所述指纹算法计算所述第二检测块的指纹;
指纹比较单元,用于比较所述第六初始块的指纹与所述第二检测块的指纹;
第四摘要比较单元,用于如果所述第六初始块的指纹与所述第二检测块的指纹相同,则比较所述第四子可变块的摘要与所述第四子片段的摘要,所述第四子可变块的摘要为根据所述摘要算法对所述第四子可变块的摘要进行计算得到的,所述第四子片段的摘要为根据所述摘要算法对所述第四子片段的摘要进行计算得到的;
第四添加单元,用于如果所述第四子片段的摘要与所述第四子可变块的摘要相同,则将所述第四子片段、所述第四子片段的指纹以及所述第四子片段的摘要添加到所述第二本地重复数据库,生成第四本地重复数据库,所述第四子片段的指纹与所述第六初始块的指纹相同。
21.根据权利要求20所述设备,其特征在于,还包括:
第五报文接收单元,用于接收第五报文,所述第五报文包括第五报文头与第五净荷,所述第五净荷包含第四净荷片段以及第五净荷片段,所述第四净荷片段的长度与所述第一子片段相同,所述第五净荷片段的长度与所述第四子片段的长度相同;
第七初始指纹计算单元,用于根据所述指纹算法计算所述第四净荷片段中第七初始块的指纹,根据所述指纹算法计算所述第五净荷片段中第八初始块的指纹,所述第七初始块的起始位置与所述第四净荷片段的起始位置相同,所述第七初始块的长度与所述第一滑窗的长度相同,所述第八初始块的起始位置与所述第五净荷片段的起始位置相同,所述第八初始块的长度与所述第一滑窗的长度相同;
第五净荷摘要计算单元,用于根据所述摘要算法计算所述第四净荷片段的摘要,根据所述摘要算法计算所述第五净荷片段的摘要;
第六报文生成单元,用于如果所述第七初始块的指纹与所述第四本地重复数据库中的所述第一子片段的指纹相等,并且所述第四净荷片段的摘要与所述第一子片段的摘要相等,则删除所述第五报文中的所述第四净荷片段,如果所述第八初始块的指纹与所述第四本地重复数据库中的所述第四子片段的指纹相等,并且所述第五净荷片段的摘要与所述第四子片段的摘要相等,则删除所述第五报文中的所述第五净荷片段,生成第六报文,所述第六报文中包括第六报文头与第六净荷,所述第六报文头与所述第五报文头相同,所述第六净荷包括所述第一子片段的指纹以及所述第四子片段的指纹。
22.根据权利要求21所述设备,其特征在于,所述第六净荷还包括所述第一子片段在所述第五报文中的位置信息、所述第四子片段在所述第五报文中的位置信息。
23.根据权利要求20所述设备,其特征在于,所述检测块获取单元具体用于从所述第二比特开始向后滑动所述定界算法中的第三滑窗,并判断所述第三滑窗对应的数据是否符合所述定界算法中的定界条件,当首次出现所述第三滑窗对应的数据符合所述定界条件时,在第一距离内继续向后滑动所述第三滑窗,并判断所述第三滑窗对应的数据是否符合所述定界条件,如果出现所述第三滑窗对应的第一数据符合所述定界条件的情况时,则确定所述第一数据的结束位置为所述第三片段的结束位置,所述第三滑窗的长度与所述第一滑窗的长度相同,所述第一距离的长度与所述第一滑窗的长度相同。
24.根据权利要求14-23任一项所述设备,其特征在于,还包括:
第二同步单元,用于将所述第一子片段、所述第一子片段的指纹以及所述第一子片段的摘要同步到解压缩侧的重复数据库。
25.根据权利要求14所述设备,其特征在于,还包括:
压缩处理单元,用于删除所述待压缩数据中的所述第一子片段,将所述第一子片段的指纹、所述第一子片段的长度及所述第一子片段在所述待压缩数据中的位置信息添加到第七报文的净荷中,所述待压缩数据为所述第七报文的净荷。
26.一种数据解压缩设备,其特征在于,包括:
第一指纹计算单元,用于根据指纹算法计算待压缩数据中的第一片段的第一指纹,所述第一片段的起始位置与所述待压缩数据的起始位置相同,所述第一片段的长度与第一滑窗的长度相同;
查找单元,用于在第一本地重复数据库中查找所述第一指纹,所述第一本地重复数据库用于存储重复数据、所述重复数据的指纹以及所述重复数据的摘要;
重复内容获取单元,用于如果所述第一本地重复数据库中存在所述第一指纹,则根据所述第一指纹获取所述第一本地重复数据库中的第一可变块以及所述第一可变块的摘要,所述第一指纹与根据所述指纹算法计算得到的所述第一可变块中的第一初始块的指纹相同,所述第一初始块的起始位置与所述第一可变块的起始位置相同,所述第一初始块的长度与所述第一滑窗的长度相同,所述第一可变块的摘要为根据摘要算法对所述第一可变块的摘要进行计算得到的;
摘要计算单元,用于根据所述摘要算法计算所述待压缩数据中的第二片段的摘要,所述第二片段的起始位置与所述待压缩数据的起始位置相同,所述第二片段的长度与所述第一可变块的长度相同;
摘要比较单元,用于比较所述第二片段的摘要与所述第一可变块的摘要;
第一子片段获取单元,用于如果所述第二片段的摘要与所述第一可变块的摘要不同,则获取所述第二片段中的第一子片段,所述第一子片段与所述第一可变块中的第一子可变块相同,所述第一子片段的起始位置与所述第二片段的起始位置相同,所述第一子可变块的起始位置与所述第一可变块的起始位置相同,所述第二片段中的第二比特与所述第一可变块中的第一比特不同,所述第二比特为所述第二片段中所述第一子片段的下一个比特,所述第一比特为所述第一可变块中所述第一子可变块的下一个比特;
第一添加单元,用于将所述第一子片段、所述第一子片段的指纹以及所述第一子片段的摘要添加到所述第一本地重复数据库,生成第二本地重复数据库,所述第一子片段的指纹与所述第一指纹相同,所述第一子片段的摘要为根据所述摘要算法对所述第一子片段的摘要进行计算得到的。
27.根据权利要求26所述设备,其特征在于,还包括:
第一同步单元,用于将所述第一子片段的指纹以及所述第一子片段的摘要同步到压缩侧的重复数据库。
CN201210053609.6A 2012-03-02 2012-03-02 数据处理方法及数据处理设备 Active CN102684827B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210053609.6A CN102684827B (zh) 2012-03-02 2012-03-02 数据处理方法及数据处理设备
PCT/CN2013/071725 WO2013127309A1 (zh) 2012-03-02 2013-02-21 数据处理方法及数据处理设备
EP13754635.4A EP2717476A4 (en) 2012-03-02 2013-02-21 DATA PROCESSING METHOD AND DATA PROCESSING DEVICE
US14/186,226 US9514209B2 (en) 2012-03-02 2014-02-21 Data processing method and data processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210053609.6A CN102684827B (zh) 2012-03-02 2012-03-02 数据处理方法及数据处理设备

Publications (2)

Publication Number Publication Date
CN102684827A CN102684827A (zh) 2012-09-19
CN102684827B true CN102684827B (zh) 2015-07-29

Family

ID=46816244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210053609.6A Active CN102684827B (zh) 2012-03-02 2012-03-02 数据处理方法及数据处理设备

Country Status (4)

Country Link
US (1) US9514209B2 (zh)
EP (1) EP2717476A4 (zh)
CN (1) CN102684827B (zh)
WO (1) WO2013127309A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102684827B (zh) * 2012-03-02 2015-07-29 华为技术有限公司 数据处理方法及数据处理设备
WO2014031241A2 (en) * 2012-08-21 2014-02-27 Emc Corporation Format identification for fragmented image data
US9626373B2 (en) * 2012-10-01 2017-04-18 Western Digital Technologies, Inc. Optimizing data block size for deduplication
CN103152430B (zh) * 2013-03-21 2016-06-08 河海大学 一种缩减数据占用空间的云存储方法
CN104375946B (zh) * 2013-08-16 2018-04-20 华为技术有限公司 一种数据处理的方法及装置
CN103596011B (zh) * 2013-11-20 2017-07-04 北京中星微电子有限公司 图像数据的存储处理方法和装置
CN104753626B (zh) * 2013-12-25 2019-05-24 华为技术有限公司 一种数据压缩方法、设备及系统
CN105474168B (zh) 2014-06-30 2018-03-09 华为技术有限公司 网络装置执行的数据处理方法和相关设备
CN104573089A (zh) * 2015-01-29 2015-04-29 西安交通大学 一种NewSQL数据库中的增量式快照方法
JP6394799B2 (ja) 2015-05-11 2018-09-26 富士通株式会社 転送装置、通信システム、通信方法、および、通信プログラム
US10235044B2 (en) * 2015-07-27 2019-03-19 Datrium, Inc. System and methods for storage data deduplication
CN105515586B (zh) * 2015-12-14 2019-04-12 华中科技大学 一种快速差量压缩方法
JP6747303B2 (ja) * 2017-01-13 2020-08-26 富士通株式会社 通信装置、通信システム、通信方法、および、通信プログラム
CN107084989B (zh) * 2017-03-27 2020-06-30 广州视源电子科技股份有限公司 一种aoi器件数据库的添加方法与系统
CN109309651B (zh) * 2017-07-28 2021-12-28 斑马智行网络(香港)有限公司 一种文件传输方法、装置、设备和存储介质
US10310765B1 (en) * 2017-08-31 2019-06-04 Amazon Technologies, Inc. Record-oriented data storage for a distributed storage system
CN107521109A (zh) * 2017-09-10 2017-12-29 南京中高知识产权股份有限公司 一种3d打印装置的工作方法
CN107486991A (zh) * 2017-10-05 2017-12-19 南京中高知识产权股份有限公司 3d分层打印方法及3d分层打印装置
CN108446319B (zh) * 2018-02-09 2021-08-03 烽火通信科技股份有限公司 将数据进行二进制序列化的方法和系统
CN109492001B (zh) * 2018-10-15 2021-10-01 四川巧夺天工信息安全智能设备有限公司 一种分类提取access数据库中碎片数据的方法
US11847333B2 (en) * 2019-07-31 2023-12-19 EMC IP Holding Company, LLC System and method for sub-block deduplication with search for identical sectors inside a candidate block
CN110944040A (zh) * 2019-10-31 2020-03-31 浙江工商大学 一种数据压缩过程中的编码方法
CN113632059A (zh) * 2020-03-06 2021-11-09 华为技术有限公司 用于消除重复数据删除中的碎片整理的设备和方法
CN111667923B (zh) * 2020-06-05 2022-11-18 医渡云(北京)技术有限公司 数据匹配方法、装置、计算机可读介质及电子设备
CN112995039A (zh) * 2021-03-05 2021-06-18 迈普通信技术股份有限公司 报文处理方法及系统
CN114442954B (zh) * 2022-01-26 2024-05-03 山东云海国创云计算装备产业创新中心有限公司 一种lz4编码压缩装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1736030A (zh) * 2002-10-30 2006-02-15 河床技术股份有限公司 用于存储器中数据压缩的基于内容的分段模式及包括等级分段表示的传输
CN1901549A (zh) * 2006-07-26 2007-01-24 白杰 数据传输方法、装置、数据处理方法和数据传输系统
EP1895665A2 (en) * 2000-07-25 2008-03-05 Juniper Networks, Inc. System and method for incremental and continuous data compression
CN102122959A (zh) * 2011-03-29 2011-07-13 西安交通大学 提高计算机主存可靠性的数据压缩装置及其方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442276B1 (en) * 1997-07-21 2002-08-27 Assure Systems, Inc. Verification of authenticity of goods by use of random numbers
US6856651B2 (en) * 2000-07-25 2005-02-15 Peribit Networks, Inc. System and method for incremental and continuous data compression
US6842628B1 (en) * 2001-08-31 2005-01-11 Palmone, Inc. Method and system for event notification for wireless PDA devices
US7484097B2 (en) * 2002-04-04 2009-01-27 Symantec Corporation Method and system for communicating data to and from network security devices
US8934545B2 (en) * 2009-02-13 2015-01-13 Yahoo! Inc. Extraction of video fingerprints and identification of multimedia using video fingerprinting
GB2482128A (en) * 2010-07-19 2012-01-25 Quantum Corp Delta chunks and delta hashes
CN102684827B (zh) * 2012-03-02 2015-07-29 华为技术有限公司 数据处理方法及数据处理设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1895665A2 (en) * 2000-07-25 2008-03-05 Juniper Networks, Inc. System and method for incremental and continuous data compression
CN1736030A (zh) * 2002-10-30 2006-02-15 河床技术股份有限公司 用于存储器中数据压缩的基于内容的分段模式及包括等级分段表示的传输
CN1901549A (zh) * 2006-07-26 2007-01-24 白杰 数据传输方法、装置、数据处理方法和数据传输系统
CN102122959A (zh) * 2011-03-29 2011-07-13 西安交通大学 提高计算机主存可靠性的数据压缩装置及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于小波变换的高倍数SAR原始数据压缩算法;潘志刚等;《电子与信息学报》;20061030;第28卷(第10期);1798-1801 *

Also Published As

Publication number Publication date
CN102684827A (zh) 2012-09-19
EP2717476A1 (en) 2014-04-09
US9514209B2 (en) 2016-12-06
US20140172795A1 (en) 2014-06-19
EP2717476A4 (en) 2015-02-18
WO2013127309A1 (zh) 2013-09-06

Similar Documents

Publication Publication Date Title
CN102684827B (zh) 数据处理方法及数据处理设备
US8954392B2 (en) Efficient de-duping using deep packet inspection
CN103095843B (zh) 一种基于版本矢量的数据备份方法及客户端
CN108255647B (zh) 一种samba服务器集群下的高速数据备份方法
CN107229420B (zh) 数据存储方法、读取方法、删除方法和数据操作系统
US20110125722A1 (en) Methods and apparatus for efficient compression and deduplication
CN103116615B (zh) 一种基于版本矢量的数据索引方法及服务器
CN106257403A (zh) 用于关于数据传送的单通熵检测的装置和方法
EP3376393A1 (en) Data storage method and apparatus
EP3229138B1 (en) Method and device for data backup in a storage system
US20180067978A1 (en) Log management method, log management device, and recording medium
CN105446975A (zh) 一种文件打包方法及装置
WO2013097812A1 (zh) 一种下载字库文件的方法和系统
US20230409533A1 (en) System and method for error-resilient data compression using codebooks
WO2022082891A1 (zh) 大数据采集方法、系统、计算机设备及其存储介质
CN104079623A (zh) 多级云存储同步控制方法及系统
US8909606B2 (en) Data block compression using coalescion
US10324963B2 (en) Index creating device, index creating method, search device, search method, and computer-readable recording medium
CN110888918A (zh) 相似数据检测方法及装置、计算机设备和存储介质
CN114020522A (zh) 数据备份方法、装置、电子设备及系统
US20230199064A1 (en) Data transmission method and system, apparatus, device, and medium
CN111008053A (zh) 一种虚拟桌面的自动同步方法及装置
CN111414339A (zh) 一种文件的处理方法、系统、装置、设备及介质
Talasila et al. Generalized deduplication: Lossless compression by clustering similar data
Süß et al. Deduplication analyses of multimedia system images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant