CN103795490A

CN103795490A - 一种数据传输加速的方法及系统

Info

Publication number: CN103795490A
Application number: CN201210423912.0A
Authority: CN
Inventors: 曲宁
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2012-10-30
Filing date: 2012-10-30
Publication date: 2014-05-14
Anticipated expiration: 2032-10-30
Also published as: CN103795490B

Abstract

本发明公开了一种数据传输加速的方法，该方法包括：在数据发送端和接收端设置数据字典；数据发送端将数据分段，查询数据字典获得数据分段中与数据字典中字段匹配的特征值，将获得的特征值按对应字段在数据分段中出现的顺序组成标签，并将特征值在数据字典中的位置保存在hash桶中，发送标签和hash桶给数据接收端；数据接收端依次读取hash桶里存储的特征值在数据字典中的位置，查询数据字典，根据标签以及所述特征值在数据字典中的位置获得特征值对应的数据，按标签中特征值的顺序将数据分段还原。本发明同时还公开了一种数据传输加速的系统，采用本发明的技术方案，能够大大提高数据的传输效率，减少数据传输对带宽的消耗，提高工作效率。

Description

一种数据传输加速的方法及系统

技术领域

本发明涉及互联网中的数据传输技术，具体涉及一种数据传输加速的方法及系统。

背景技术

随着网络的普及，网络中承载的数据呈井喷式的增长，使得数据传输的速度受到严重的影响。为了解决这个问题，有几种解决方式：一种方法是，不断的升级带宽，但升级带宽需要昂贵的费用，并非根本的解决办法；

另一种方法是，将数据压缩。目前，主流的压缩技术是LZO(Lempel-Ziv-Oberhumer)数据压缩算法及其变形压缩算法，由于LZO数据压缩算法只能在较小数据区域内进行数据压缩，压缩比不高，对减少冗余数据的效果有限；另外，对已经压缩过的数据没有任何作用，因此，也不能有效的解决问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种数据传输加速的方法及系统，能提高数据的传输效率，减少数据传输对带宽的消耗。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种数据传输加速的方法，该方法包括：

数据发送端将数据分段，查询数据字典获得数据分段中与数据字典中字段匹配的特征值，将获得的特征值按对应字段在数据分段中出现的顺序组成标签，并将特征值在数据字典中的位置保存在哈希(hash)桶中，发送标签和hash桶给数据接收端；

数据接收端依次读取hash桶中存储的特征值在数据字典中的位置，查询数据字典，根据标签以及所述特征值在数据字典中的位置获得特征值对应的数据，按标签中特征值的顺序依次将数据分段还原。

上述方案中，所述将特征值在数据字典中的位置保存在hash桶中包括：

将数据分段按类别分组，将相同类别数据分段的特征值在数据字典中的位置保存在相同hash桶中，并利用该hash桶中的对应的特征值计算hash桶桶号。

上述方案中，该方法还包括：

将无类别或特征值数量不足以计算hash桶号的特征值在数据字典中的位置保存在默认hash桶中。

上述方案中，所述数据发送端将数据分段之前，该方法还包括：将数据发送端和数据接收端的数据字典初始化，校验数据字典内容。

上述方案中，所述数据字典存储有字段和特征值的对应关系。

本发明还提供了一种数据传输加速的系统，该系统包括数据发送端和数据接收端；其中，

所述数据发送端，用于将数据分段，查询数据字典获得数据分段中与数据字典中字段匹配的特征值，将获得的特征值按对应字段在数据分段中出现的顺序组成标签，并将特征值在数据字典中的位置保存在hash桶中，发送标签和hash桶给数据接收端；

所述数据接收端，用于依次读取hash桶中存储的特征值在数据字典中的位置，查询数据字典，根据标签以及所述特征值在数据字典中的位置获得特征值对应的数据，按标签中特征值的顺序依次将数据还原。

上述方案中，所述数据发送端，还用于将数据分段分类，相同类别数据分段的特征值在数据字典中的位置保存在相同hash桶中，并利用该hash桶中的对应的特征值计算hash桶桶号；将无类别或特征值数量不足以计算hash桶号的数据分段的特征值在数据字典的位置保存在默认hash桶中。

上述方案中，所述数据发送端，还用于在数据分段之前将数据字典初始化，校验数据字典内容；

相应的，所述数据接收端，还用于在数据分段之前将数据字典初始化，校验数据字典内容。

上述方案中，所述数据发送端包括第一数据处理单元和第一存储单元；其中，

所述第一数据处理单元，用于将数据分段，查询数据字典获取数据分段中与数据字典中字段匹配的特征值，将获得的特征值按对应字段在数据分段中出现的顺序组成标签，并将特征值在数据字典中的位置保存在hash桶中，将标签和hash桶发送给数据接收端；

所述第一存储单元，用于存储数据字典。

上述方案中，所述第一数据处理单元，还用于将数据按类别分组，将相同类别数据分段的特征值在数据字典中的位置保存在相同hash桶中，将无类别或数量不足以计算hash桶号的特征值在数据字典中的位置保存在默认hash桶中；

相应的，所述系统还包括计算单元，用于利用hash桶中的特征值计算hash桶号。

上述方案中，所述数据发送端还包括第一校验单元，用于在数据传输之前将数据字典初始化，校验数据字典内容。

上述方案中，所述数据接收端包括第二数据处理单元和第二存储单元；其中：

所述第二数据处理单元，用于在收到标签和hash桶后，依次读取hash桶中存储的特征值在数据字典中的位置，查询数据字典，根据标签以及所述特征值在数据字典中的位置获得特征值对应的数据，按标签中特征值的顺序依次将数据分段还原；

所述第二存储单元，用于存储数据字典。

上述方案中，所述数据接收端还包括第二校验单元，用于在数据传输之前将数据字典初始化，校验数据字典内容。

本发明提供的数据传输加速的方法和系统，在数据发送端和接收端设置数据字典；数据发送端将数据分段，查询数据字典获得数据分段中与数据字典中字段匹配的特征值，将获得的特征值按对应字段在数据分段中的顺序组成标签，并将特征值在数据字典中的位置保存在hash桶中，将标签和hash桶发送给数据接收端；数据接收端依次读取hash桶中存储的特征值在数据字典中的位置，查询数据字典，根据标签以及所属特征值在数据字典中的位置获得特征值对应的数据，按标签中特征值的顺序依次将数据分段还原。可见，本发明中将数据分段用特征值按次序组成的标签替代，并将特征值在数据字典中的位置保存在hash桶中，在数据传输的过程中只传输标签和hash桶，大大减少了数据数量，提高了数据的传输效率，减少数据传输对带宽的消耗，提高工作效率，降低网络的运营成本。

附图说明

图1为本发明数据传输加速的方法实现流程图；

图2为本发明数据传输加速的系统组成架构示意图；

图3为本发明实施例提供的数据传输加速的方法实现流程图。

具体实施方式

据现有技术统计，在对等网络之间的数据传输中，有70％左右的数据为冗余数据，理论上说，70％的冗余数据完全没有必要在对等网络之间进行传输，因此，如果能尽可能的削减这70％的冗余数据，则能够大幅度提高数据传输的速度。本发明正是基于这种思想，将数据分段用特征值按次序组成的标签替代，并将特征值在数据字典中的位置保存在hash桶中，在数据传输的过程中只传输标签和hash桶，尽可能地减少冗余数据的传输。

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1为本发明数据传输加速的方法实现流程图，如图1所示，包括以下步骤：

步骤11：数据发送端将数据分段，查询数据字典获得数据分段中与数据字典中字段匹配的特征值，将获得的特征值按对应字段在数据分段中出现的顺序组成标签，并将特征值在数据字典中的位置保存在hash桶中，发送标签和hash桶给数据接收端；

这里，所述数据发送端将数据分段之前，该方法还包括：将数据发送端和数据接收端的数据字典初始化，校验数据字典内容，以保证在数据发送端用标签替换数据和在数据接收端标签还原数据时能够一致；所述数据字典中存储有字段和特征值的对应关系，所述数据字典的内容可以以二进制形式存储；

其中，所述特征值可以是数字或字符串，所述标签为由特征值组成的字符串，按照特征值对应字段在数据分段中的次序组成。

这里，所述将特征值在数据字典中的位置保存在hash桶中包括：

将数据分段按类别分组，将相同类别数据分段的特征值在数据字典中的位置保存在相同hash桶中，并利用该hash桶中的特征值计算hash桶桶号；

将无类别或特征值数量不足以计算hash桶号的数据分段归为默认组，将默认组中数据分段的特征值在数据字典中的位置保存在一个默认hash桶中；

其中，所述将数据分段按类别分类，可按照相同格式或相同客户端等分类方式，将类别相同的数据分段归为一组，将每种类别数据分段的特征值在数据字典中的位置保存在相同hash桶中；进一步的，利用该hash桶中对应的特征值计算hash桶桶号，以区别各hash桶，可以采用hash碰撞率较低的算法，如CRC32算法等等计算hash桶桶号。

步骤12：数据接收端依次读取hash桶中存储的特征值在数据字典中的位置，查询数据字典，根据标签以及所述特征值在数据字典中的位置获得特征值对应的数据，按标签中特征值的顺序依次将数据分段还原；

这里，在数据传输之前，数据发送端和数据接收端先将数据字段初始化，校验数据字典的内容是否一致，待校验完成后，数据发送端将数据分段，提取数据分段的特征值，按特征值在数据分段中的次序组成标签；将特征值在数据字典中的位置保存在hash桶中；其中，数据发送端将数据分段按类别分类，将相同类别数据分段的特征值在数据字典中的位置保存在相同hash桶中，并利用每个hash桶里对应的特征值计算出hash桶号；将无类别或特征值数量不足以计算hash桶号的特征值在数据字典中的位置保存在默认hash桶中；数据发送端将标签和hash桶传输给数据接收端；

数据接收端收到标签和hash桶后，根据hash桶桶号，依次读取hash桶中存储的特征值在数据字典中的位置，通过查询数据字典获取特征值和与特征值对应的数据，再按标签中特征值的顺序将数据分段还原；

其中，所述数据字典存储有字段和特征值的对应关系。

为实现上述方法，本发明提供了一种数据传输加速的系统，如图2所示，包括数据发送端21和数据接收端22；其中，

数据发送端21，用于将数据分段，查询数据字典获得数据分段中与数据字典中字段匹配的特征值，将获得的特征值按对应字段在数据分段中出现的顺序组成标签，并将特征值在数据字典中的位置保存在hash桶中，发送标签和hash桶给数据接收端22；

数据接收端22，用于依次读取hash桶中存储的特征值在数据字典中的位置，查询数据字典，根据标签以及所述特征值在数据字典中的位置获得特征值对应的数据，按标签中特征值的顺序依次将数据分段还原；

进一步的，所述数据发送端21，还用于将数据分段分类，相同类别数据分段的特征值在数据字典中的位置保存在相同hash桶中，并利用该hash桶中的对应的特征值计算hash桶桶号；将无类别或特征值数量不足以计算hash桶号的数据分段的特征值在数据字典的位置保存在默认hash桶中。

进一步的，所述数据发送端21，还用于在数据分段之前将数据字典初始化，校验数据字典内容；

相应的，所述数据接收端22还用于在数据分段之前将数据字典初始化，校验数据字典内容；

这里，所述将数据字典初始化，校验数据字典内容包括将数据字典的大小、内容初始化，校验内容要保持完全一致。

进一步的，数据发送端21包括第一数据处理单元211和第一存储单元212；其中，

所述第一数据处理单元211，用于将数据分段，查询数据字典获取数据分段中与数据字典中字段匹配的特征值，将获得的特征值按对应字段在数据分段中出现的顺序组成标签，并将特征值在数据字典中的位置保存在hash桶中，将标签和hash桶发送给数据接收端22；

所述第一存储单元212，用于存储数据字典。

进一步的，所述数据处理单元211，还用于将数据按类别分组，将相同类别数据分段的特征值在数据字典中的位置保存在相同hash桶中，将无类别或数量不足以计算hash桶号的特征值在数据字典中的位置保存在默认hash桶中；

相应的，所述系统还包括计算单元213，用于利用hash桶对应的特征值计算hash桶桶号。

进一步的，所述数据发送端21还包括第一校验单元214，用于在数据传输之前将数据字典初始化，校验数据字典内容。

所述数据接收端22包括第二数据处理单元221和第二存储单元222，其中，

所述第二数据处理单元221，用于在收到标签和hash桶后，依次读取hash桶中存储的特征值在数据字典中的位置，查询数据字典，根据标签以及所述特征值在数据字典中的位置获得特征值对应的数据，按标签中特征值的顺序依次将数据分段还原；

所述第二存储单元222，用于存储数据字典；

进一步的，所述数据接收端22还包括第二校验单元223，用于在数据传输之前将数据字典初始化，校验数据字典内容。

图3为本发明实施例提供的数据传输加速方法的实现流程图，如图3所示，包括以下步骤：

步骤301：初始化数据字典，并校验数据字典内容；

这里，所述初始化数据字典、校验数据字典内容包括：将数据字典的大小、内容初始化，使数据发送端和数据接收端的数据字典保持一致，确保在替代数据和还原数据的过程中不会出现错误；数据字典的大小与网络规模有关，可通过闪存(Flash)或硬盘进行存储，容量级别可以为兆字节(MegaByte，MB)、吉字节(GigaByte，GB)、甚至是太字节(TrillionByte，TB)。

步骤302～303：数据发送端将数据分段，查询数据字典获得数据分段中与数据字典中字段匹配的特征值，将获得的特征值按对应字段在数据分段中出现的顺序组成标签；

这里，可按实际情况将原始数据按每10k～4M的大小进行分段处理，若原始数据按每2M的大小进行分段处理，则每段数据替换成的标签大小只有10k左右，在数据传输过程中大大减少了需要传输的数据数量；

其中，所述特征值可以是一个数字或字符串；所述标签由按特征值对应字段在数据分段中出现的顺序组成，可以是数字或字符串，其大小相对原始数据小了很多。

步骤304：将数据分段按类别分组，将相同类别的数据分段的特征值在数据字典中的位置保存在相同的hash桶中；

这里，所述将数据分段按类别分类，可以按照相同格式或相同客户端等分类方式分类，如：可将相同客户端的数据分段的特征值在数据字典中的位置保存在相同hash桶中。

步骤305～306：利用hash桶中对应的特征值计算hash桶桶号，并判断是否存在数量不足以计算hash桶号的特征值，如果是，则执行步骤312，否则，执行步骤307；

这里，所述利用特征值计算出hash桶桶号取决于每一类别中数据的大小，若某类别中的数据大小超过硬盘数据容量的3％，则将此类别中数据的特征值计算出一个hash桶桶号，其余类别中若数据大小不足硬盘数据容量的3％的，则将这类数据的特征值归为数量不足以计算hash桶号的特征值；

其中，计算hash桶号的方法可采用hash碰撞率较低的算法，如CRC32算法。

步骤307：数据发送端将标签和hash桶发送给数据接收端；

步骤308～309：数据接收端根据hash桶号依次读取hash桶中存储的特征值在数据字典中的位置，查询数据字典，根据所述标签和所述特征值在数据字典中的位置获得特征值对应的字段，并将获得的特征值和字段保存至临时存储区；

这里，所述数据接收端根据hash桶号依次读取hash桶里存储的特征值在数据字典中的位置，可采用内存映射方式，以提高读取数据的速度；读取成功后，将获得的特征值和数据保存至临时存储区。

步骤310～311：查找标签、特征值与字段的最佳匹配，将匹配成功的标签类型设为匹配标签，还原数据输出，结束当前处理流程；

这里，因标签是由特征值按次序组成的，每个特征值都对应着一个字段，因此，可以通过匹配算法找到与标签匹配的字段，进而将标签还原；其中，所述匹配算法可采用模式匹配算法，如kmp算法或bm算法，找到与标签匹配的字段后，将标签类型定义为匹配标签，还原数据，将数据输出。

步骤312：数据发送端将数量不足以计算hash桶号的特征值在数据字典中的位置保存至默认hash桶中，将标签和默认hash桶发送给数据接收端；

这里，所述默认hash桶中不仅保存着数量不足以计算hash桶号的特征值在数据字典中的位置，还保存着在数据分段按类别分组中不属于任何类别的数据分段的特征值在数据字典中的位置。

步骤313～314：数据接收端读取默认hash桶中存储的特征值在数据字典中的位置，查询数据字典，根据所述标签和所述特征值在数据字典中的位置获得特征值对应的数据，并将获得的特征值和数据保存至临时缓冲区；

这里，所述读取默认hash桶中存储的特征值在数据字典中的位置，可采用内存映射方式，以提高读取数据的速度。

步骤315～316；查找标签、特征值与字段的最佳匹配，将匹配成功的标签类型设为未匹配标签，还原数据输出；

这里，所述标签、特征值与字段的匹配过程与步骤309相同，且匹配算法同样可采用模式匹配算法，如kmp算法或bm算法；找到与标签匹配的字段后，将标签类型定义为未匹配标签，还原数据输出。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种数据传输加速的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将特征值在数据字典中的位置保存在hash桶中包括：

3.根据权利要求2所述的方法，其特征在于，该方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述数据发送端将数据分段之前，该方法还包括：将数据发送端和数据接收端的数据字典初始化，校验数据字典内容。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述数据字典存储有字段和特征值的对应关系。

6.一种数据传输加速的系统，其特征在于，该系统包括数据发送端和数据接收端；其中，

7.根据权利要求6所述的系统，其特征在于，所述数据发送端，还用于将数据分段分类，相同类别数据分段的特征值在数据字典中的位置保存在相同hash桶中，并利用该hash桶中的对应的特征值计算hash桶桶号；将无类别或特征值数量不足以计算hash桶号的数据分段的特征值在数据字典的位置保存在默认hash桶中。

8.根据权利要求6所述的系统，其特征在于，所述数据发送端，还用于在数据分段之前将数据字典初始化，校验数据字典内容；

9.根据权利要求6所述的系统，其特征在于，所述数据发送端包括第一数据处理单元和第一存储单元；其中，

所述第一存储单元，用于存储数据字典。

10.根据权利要求9所述的系统，其特征在于，所述第一数据处理单元，还用于将数据按类别分组，将相同类别数据分段的特征值在数据字典中的位置保存在相同hash桶中，将无类别或数量不足以计算hash桶号的特征值在数据字典中的位置保存在默认hash桶中；

11.根据权利要求6所述的系统，其特征在于，所述数据发送端还包括第一校验单元，用于在数据传输之前将数据字典初始化，校验数据字典内容。

12.根据权利要求6所述的系统，其特征在于，所述数据接收端包括第二数据处理单元和第二存储单元；其中：

所述第二存储单元，用于存储数据字典。

13.根据权利要求12所述的系统，其特征在于，所述数据接收端还包括第二校验单元，用于在数据传输之前将数据字典初始化，校验数据字典内容。