CN1901549A

CN1901549A - 数据传输方法、装置、数据处理方法和数据传输系统

Info

Publication number: CN1901549A
Application number: CN 200610103640
Authority: CN
Inventors: 白杰; 李薇; 鲁征宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-07-26
Filing date: 2006-07-26
Publication date: 2007-01-24

Abstract

本发明公开了一种数据传输方法，包括：按照数据应用领域的第一数据特性，设置包括多个满足第一数据特性要求的数据段及标识该数据段的引用标签的第一数据库，所述引用标签与所述数据段绑定；对输入的数据流，从一个方向截取一个或多个数据段，所述数据段与所述第一数据库中存储的至少一个数据段相同；用引用标签代替截取的数据段与数据流中剩余的数据组装为新的数据流发送。本方案就可以用占用存储位数较少分标签或组标签代替占用存储位数较长的数据，从而使用引用标签代替截取的数据段，由于减少了实际传输的数据量，能够提高数据传输效率。本发明还公开了一种数据传输装置。

Description

数据传输方法、装置、数据处理方法和数据传输系统

技术领域

本发明涉及一种数据传输方法、装置，以及一种数据处理方法和数据传输系统。

背景技术

在网络数据传输中，为了提高传输效率，通常采用数据压缩、编码等方法对待传输的数据进行压缩，以减少实际的数据传输量。这种方法对于应用层次的数据来说是有效的，例如，一个600K比特大小的文本或图像数据，经过适当的方法压缩或编码，实际传输的数据量会大大减少，可能远远少于600K比特。显而易见的是，这种数据压缩、编码方法并不能解决物理层的问题。或者说，在应用层次上对数据的处理，能够减少实际需要物理层传输的数据量，但是对于提交给物理层的数据来说，传输数率仍然受物理层传输速率的限制。假设，上述600K比特的文件在应用层经压缩编码后为200K比特，如果网络物理层的数据传输速率为1024Kbps，则所述200K比特的数据，仍然受1024Kbps传输速率的限制。

关于数据传输效率的一个实际的想法是，能否继续减少需要物理层实际传输的数据。上述的压缩和编码，都可能实现这种目的。对于物理层数据，减少重复数据的传输，也是提高传输效率的重要手段。因此，在数据传输的各个层次采用综合措施，例如在应用层次上(指物理层以外的层次)对数据进行压缩和进行恰当的编码，以及在物理层次上尽可能减少数据的重传，可能提高数据传输的效率。

对于各个数据传输层次，减少数据的重传都是有意义的。而减少数据重传的关键，在于如何获知哪些数据是重复的，以及在数据接收端迅速且无瑕疵地的恢复数据发送端的原始数据。对于静态数据，即内容确定的数据集合，通常容易获知需要重复传输的数据或数据集合，为重复的数据分配一个标签或标识，就可以用所述标签替代重复的数据进行传输，从而减少数据的重传以及在数据接收端恢复原始数据。而且，标签的长度和重复数据长度的比值越小，数据传输效率就越高。而对于动态数据，即内容不确定的数据集合，则需要恰当地分割数据以获得重复数据，以及为所述重复数据分配一个标签。

由于传输数据的不确定性，一个容易想到的确定重复数据以及为重复数据分配标签的方法是，确定一个重复数据的定长长度，将定长数据的各种排列以及为其分配的标签存储为一个数据库，在数据传输时，按照约定的定长分割数据，并在数据库中取得该数据的标签，通过标签的传输实现数据的传输。然而这种方法却不具有实用性，以比特流数据为例，假设定长长度为3位，3位二进制数据的排列可能有8种，而这时标签的长度也需要3位二进制数才能够表示，标签长度于可能的重复数据的长度比为1，实际根本无法提高数据传输效率。

发明方案

本发明要解决的问题在于提供一种能够提高数据传输效率的数据传输方法、数据传输装置，以及数据传输系统，该方法、装置和数据传输系统能够有效分割要传输的数据，获得要传输的数据流中重复传输的数据及其标签。

本发明提供的数据传输方法，包括：

按照数据应用领域的第一数据特性，设置包括多个满足第一数据特性要求的数据段及标识该数据段的引用标签的第一数据库，所述引用标签与所述数据段绑定；

对输入的数据流，从一个方向截取一个或多个数据段，所述数据段与所述第一数据库中存储的至少一个数据段相同；

用引用标签代替截取的数据段与数据流中剩余的数据组装为新的数据流发送。

所述方法还包括，对于每一个未出现在所述第一数据库中且满足第一数据特性要求的数据段，为所述数据段设置引用标签，将所述引用标签与所述数据段绑定后存储在所述第一数据库。

所述方法还包括，将引用标签按照第二数据特性分为多个标签组，为所述标签组设置组标签，所述组标签与所述标签组绑定后存储在第二数据库；以及，将满足第二数据特性的标签组用对应的组标签代替，用于组装新的数据流。

所述方法还包括，对于每一个未出现在所述第二数据库中且满足第二数据特性要求的标签组，为所述标签组设置组标签，并与所述标签组绑定后存储在所述第二数据库。

所述方法还包括，如果所述标签组满足第三数据特性要求，为其设置更高级的组标签，绑定所述组标签与所述标签组，绑定后存储在所述第三数据库；以及，将满足第三数据特性的标签组用对应的更高级的组标签代替，用于组装新的数据流。

其中，所述第一数据特性、第二数据特性、第三数据特性相同或两两相同或不同。

或者，所述第二数据库和所述第三数据库是相同的数据库。

并且，利用一个指纹函数和一个窗口，在输入数据流上确定一系列的分割点，利用所述分割点分割所述数据流。

以及，利用一个指纹函数和一个窗口，在输入数据流衍生的连续标签流上确定一系列的分割点，利用所述分割点标签组。

通过动态调整所述窗口在输入数据流上确定一系列的分割点。

本发明提供的数据传输装置，包括：

第一标签集成单元，用于获取满足数据应用领域的第一数据特性要求的数据段，为所述数据段分配标识该数据段的引用标签，将所述引用标签与所述数据段绑定后存入第一数据库；

数据段分割单元，用于对输入的数据流，从一个方向截取一个或多个数据段，所述数据段与所述第一数据库中存储的至少一个数据段相同；

数据编码单元，输入数据段分割单元的数据分割结果，在所述第一数据库中，查找数据段分割单元输出的数据段对应的引用标签，用第一数据库中的引用标签代替数据段分割单元截取的数据段与数据流中剩余的数据组装为新的数据流；

数据发送单元，发送所述数据编码单元生成的新的数据流。

所述数据传输装置还包括，

第一判断单元，判断数据段分割单元分割出的数据段是否存储在所述第一数据库，对于每一个未出现在所述第一数据库中且满足第一数据特性要求的数据段，为所述数据段设置标识该数据段的引用标签，将所述引用标签与所述数据段绑定后存储在所述第一数据库。

所述数据传输装置还包括，

第二标签集成单元，用于获取满足数据应用领域的第二数据特性要求的标签组，为所述标签组分配对应的组标签，将所述组标签与所述标签组绑定后存储在第二数据库；以及，将满足第二数据特性的标签组用对应的组标签代替，用于组装新的数据流。

所述数据传输装置还包括，

第二判断单元，对于每一个未出现在所述第二数据库中且满足第二数据特性要求的标签组，为所述标签组设置组标签，并与所述标签组绑定后存储在所述第二数据库。

所述数据传输装置还包括，

第三标签集成单元，将第二数据库中的标签组按照第三数据特性分为进一步的标签组，如果所述标签组满足第三数据特性要求，为其设置更高级的组标签，绑定所述组标签与所述标签组，绑定后存储在所述第三数据库；以及，将满足第三数据特性的标签组用对应的更高级的组标签代替，用于组装新的数据流。

或者，所述第二数据库和所述第三数据库是相同的数据库。

所述数据传输装置还包括一个输入数据缓冲单元，所述缓冲单元包括至少一个数据缓冲区。

其中，在所述缓冲区中数据流的长度大于或等于预设的阈值或者所述数据流的形成时间大于或等于预设的阈值时，数据段分割单元取出所述缓冲区中的数据流进行数据段的分割操作。

本发明提供的数据处理方法，包括：

分解输入的数据流，识别出数据组序列、引用标签以及组标签；

以逆向且递归的方式从数据库中获得引用标签、组标签对应的数据段，将所述数据段与所述数据组序列组装成数据流。

本发明提供的数据传输系统，包括计算机网络和通过网络互联的多个终端，其特征在于还包括设置在所述计算机网络和所述终端之间的数据传输装置，所述数据传输装置包括：

数据发送单元，发送所述数据编码单元生成的新的数据流。

所述数据传输系统还包括，

第一判断单元，判断数据段分割单元分割出的数据段是否存储在所述第一数据库，对于每一个未出现在所述第一数据库中且满足数据特性要求的数据段，为所述数据段设置标识该数据段的引用标签，将所述引用标签与所述数据段绑定后存储在所述第一数据库。

所述的数据传输系统还包括，

所述数据传输系统还包括，

或者，所述第二数据库和所述第三数据库是相同的数据库。

所述数据传输系统还包括一个输入数据缓冲单元，所述缓冲单元包括至少一个数据缓冲区。

所述数据传输系统，还包括至少一个服务器，用于同步所述数据传输装置中的数据库的存储内容。

并且，将数据库中超过指定阈值未使用的数据段记录删除。

本发明的通过设置数据段及引用标签的数据库以及将所述引用标签进一步合并为更高级的组标签，这样，对输入的数据流，当从数据流截取出多个数据段后，就可以用占用存储位数较少分标签或组标签代替占用存储位数较长的数据，从而使用引用标签代替截取的数据段、用高级的组标签代替低级的组标签，与数据流中剩余的数据组装的新数据流的长度大大减小，由于减少了实际传输的数据量，能够提高数据传输效率。

附图说明

图1是本发明第一个实施例的流程图；

图2是图1所示实施例描述的数据编码原理图；

图3是本发明第二个实施例的流程图；

图4是本发明的一个产生组标签的实施例流程图；

图5是本发明一个实施例的分级标签划分示意图；

图6是本发明的一个数据库的示例图；

图7是本发明数据传输装置的第一实施例框图；

图8是本发明数据传输装置的第二实施例框图；

图9是本发明数据传输装置的第三实施例框图；

图10是本发明数据传输装置的第四实施例框图；

图11是本发明数据处理方法的实施例原理的装置图；

图12是本发明数据传输系统的第一实施例框图；

图13是图12所述系统采用的加速器实施例框图。

具体实施方式

依据本发明方法的第一个实施例，减少数据实际传输量的一个手段，是尽可能获知可能重复传输的内容。对于特定领域，形成的数据文件客观上都存在大量的重复，例如用表格传输的图表，无论表格内的内容是什么，表格本身形成的数据就是典型的重复数据。事实上，对于通常的特定数据系列，例如，广泛使用的PIF图片的片段，代表一个经常使用的绘图表的图形符号数位的片段，文本文件中重复性词组等，可能散见于较大文件中的许多不同之处。这种重复的数据序列会被经常发现，因此可以将这些重复的部分通过对已经形成的数据进行分析获得。这些重复数据会有不同的重复特性，可以预先通过数据的分析获得这些特性，进一步，可以将所述分析交给计算机去完成。在图1所示的实施例中，这些工作是通过对大量特定领域的数据分析预先完成的。在该实施例中，将重复数据表示出来的重复特性称为第一数据特性，例如特定相邻的字符构成的字符串，这样，就可以在步骤11按照数据应用领域的第一数据特性，尽可能多地确定多个满足第一数据特性要求的数据段，为这些数据段设置彼此不重复的引用标签，将所述引用标签与所述数据段绑定在一起，存储入第一数据库，即标签与数据段对照关系数据库。

有了所述第一数据库，在进行数据传输时，就可以在步骤12将输入的数据流，从数据的流入方向或者数据流稳定输入后从数据流尾部方向截取一个或多个数据段，只要截取的所述数据段与所述第一数据库中存储的至少一个数据段相同，就可以认为该数据段是一个预先确定的高重复概率数据段，在具体传输时在步骤13按照所述第一数据库中引用标签和所述数据段的绑定关系，用引用标签代替截取的数据段与数据流中剩余的数据组装为新的数据流发送。由于数据的生成与数据段的截取可以采用相关的算法，因此，易于从一个随机的数据流中找到高重复概率的数据段，从而可以实现用引用标签代替数据段传输，减少实际传输的数据量。

图1所示实施例实质上描述了一个数据编码发送的过程，在其中的步骤12中，分割出的数据段不用考虑该数据段周围的其它数据如何。上述编码过程的一个方面就是要将输入数据进行分割，在分割过程中识别出“分割点”，如果一个分割方案设计合理、恰当，数据段的端点对于同样的数据段而言，它应具有相同的重复性，出现在相同的地方，而不用考虑这个数据在什么样的内容中出现。因此，对于数据中的那些具有共同数据特性的重复性数据段，就能用一种同样的方法分割出来。

具体的数据分割方案之一，是使用数据本身中的信息去引导该分割过程，而不用那种从外部把数据块尺寸、传输界定参数等强加给分割过程。

当输入数据被编码过程消耗后，输入数据的各种各样的值和结构就会去引导分割过程，通过这种把输入内容引导分割用于处理输入数据流，就能把时间跨度很大的重复数据寻找出来，而不必将已经分析过的数据重新分析一遍。只要同类的数据被在输入数据的过程中出现过，无论其在何处，同样的数据段就会被发现，从而得到重复的数据段而无需重复分析数据。

然而，尽管输入的数据具有某种数据特性，但由于每次需要处理的数据具有的随机性，用输入数据的内容引导数据的分割，实际上只是在分割得到的数据段的尺寸最大，与重复数据段的数量最多之间的矛盾中找到一个平衡点。

图2是图1所示实施例描述的数据编码原理图。为了方便描述图1所示实施例，图2所示原理图中涉及了下述单元：输入缓存单元21，用于暂存输入的待编码数据流；数据分割单元22，用于采用一种内容引导分割的方法分割所述输入缓存单元21中数据流的数据分割单元；标记为23的单元为数据段存储单元，用于暂存分割后的数据段和剩余数据。数据段存储单元23将其中的数据段与第一数据库25中的数据段匹配后获得与其绑定的引导标签，这些引导标签与数据段存储单元23中剩余的非成段数据按顺序组装为编码后的数据存储在发送数据形成单元24，最后被输出到输出缓存单元26发送到数据接收端。

图2中，当输入缓存单元21中的一个新数据段被数据分割单元22发现，这个数据段就会暂存到数据段存储单元23，并同所有存储于第一数据库中的现存数据段进行对比。这种对比或者说查找过程通过利用保存的数据段索引完成。这个索引是把通过利用数据段数据而计算出来的一个散列函数值健入而得到的。实际上，为完成这个操作，第一数据库中存储的数据包括所有数据段的内容、与数据段绑定的标签，还包括所述数据段的指纹值，即散列值，以便进行快速的数据比对操作。

第一数据库中的每一个散列值，都与该数据库中的一个数据段对应。因此，要检测一个分割出的数据段是否存在于所述第一数据库，通过计算该数据段的散列值，再在第一数据库的数据段索引中进行查找即可。

如果查找失败，该数据段就不可能存储在第一数据库之中。如果查找成功，还需要将通过散列值查找而返回的数据段与分割得到的数据段加以比较，检查是否达到精确的匹配。这因为可能会遇到多个数据段的散列值相同的情况。

然后，与所述数据段绑定的引用标签就可以用来顶替实际的数据段数据而被输出，该输出可以被暂时输入到发送数据形成单元24中，这样，原始的输入数据，即准备发送的数据就能够被表示为限于储存在第一数据库中的数据段对应的一系列引用标签。

数据的某些部分，可能用引用标签代替不了，这样就形成了剩余的数据部分，这些剩余的数据需要按照数据的顺序组装在一起发送出去。在某些具体的应用中，尽管所有的数据段都用引用标签代替，但是由于剩余数据的存在，发送数据形成单元24的比特位数比理论上需要的比特位数要多一些。

实际上，发送数据形成单元24还可以继续进行压缩，这一点在其它的实施例中还要继续描述。

下面讨论数据分割单元22。由于数据分割单元22采用一种内容引导分割的方法分割所述输入缓存单元21中数据流，由于流入输入缓存单元21中的数据可能不匀速，而且分割数据段也需要针对一定量的数据，在对输入缓存单元21中的数据进行处理时，需要受时间(或者输入的字符数量)和输入窗口的限制，即数据分割单元22需要按照时间和窗口尺寸的参数来确定何时开始处理输入缓存单元21中的数据，这里的窗口以及计算查找重复数据段的指纹函数共同使用完成数据段的分割。一个确定的指纹函数可以引发返回一个逻辑值，标识是否在第一数据库25中找到一个高重复概率的数据段，根据该值以及窗口在数据流中的偏移值可以用来确定一个可以分割的数据段的边界，这个所述的边界的序列，就是在输入数据流上确定的一系列的分割点，利用所述分割点就可以分割所述数据流。例如，如果指纹函数以及具备一个给定的偏移量的数据及窗口以及一个确定的指纹值时，且该指纹函数的值为1时，就可以确定一个新的数据段。

很多时候，窗口的大小即偏移量并不总能处于理想状态，因此，可能经常调整窗口的偏移量和大小，即动态确定窗口的位置，这样也会消耗一些数据，形成剩余数据，但是这样的收益时可能获得更多或更长的重复数据段。

关于数据分割的一个具体实施例的详细内容在本申请人的同日提交的另外一篇专利“数据分割方法”中有详细的表述，在此不再赘述。

图3是本发明第二个实施例的流程图。该实施例包括了一种第一数据库自学习的一种情况。该实施例的步骤31、32与图1所示的第一实施例的步骤11、12相同，步骤35与图1所示的第一实施例步骤13相同。该实施例增加了步骤33、34，从实现对于每一个未出现在所述第一数据库中且满足数据特性要求的数据段，都可以为其设置其引用标签、计算散列值，并与其绑定后存储在所述第一数据库，从而丰富所述第一数据库的内容。这里所述计算散列值所用的函数就是上述指纹函数的一个部分。

需要说明，由于有了步骤33、34，这样实质上可以去掉步骤31，只是方法运行初期速度要慢一些，而保留有步骤31，则可以在方法最初应用时也能够提供相当的效率。

也就是说，在数据分割过程中，如果一个得到一个可接受的数据段且第一数据库还没有存储，就应当为该数据段赋予一个新的引用标签、散列值，以及绑定关系，并存储入所述第一数据库。以后，凡是有与该数据段相同的重复的数据段，就可以利用这个绑定压缩编码。

由上述分析可知，本发明的实施例对于高度冗余的数据的处理会更有效。

在通常的情况下，往往希望重复的数据段越大越好，如果得到的数据段大，在编码阶段有效压缩比就会非常高。因为拥有固定存储位数的引用标签会代替位数更多的数据段。但是，问题的另一方面，数据块如果比较大，会使重复性变差，这样反倒影响数据的压缩率。

同样，如果选择的目标数据段尺寸太小，压缩比就会变低，因为拥有固定存储位数的引用标签代替的数据段的位数会比较少，但是这样会增加数据段的重复性。因此，在很多情况下，需要在数据段的长度方面取得一个平衡。

解决这个问题还有一个方法，就是利用数据段小而重复性高的特点，采用多级标签解决数据压缩率、重复性以及数据段大小之间的矛盾，这样就能够将大数据段和高重复性的优点结合起来。本发明的另一实施例就描述这样的处理方式。采用内容引导分割的方法，将符合引用标签的可组合特性，即第二数据特性的引用标签用一个更高级的标签来表示，也就是将引用标签按照第二数据特性分为多个标签组，为所述标签组设置组标签，然后将所述组标签与所述标签组绑定后存储在另一个数据库中，该数据库假设为第二数据库。这里所述第一数据库和第二数据库可以相同，也可以不同，本实施例选择的使用不同的数据库。

图4是本发明的一个产生组标签的实施例流程图，图4所示流程可以用来根据第二数据特性预先设置第二数据库的内容。按照图4，首先在步骤41，按照一个小尺寸数据块的产生标准对要进行编码的输入数据进行分割，这里所谓的“小”是一个相对的概念，指满足预定压缩率的最小数据块长度。这样，就产生了许多引用标签，然后，在步骤42对这些引用标签按照第二数据特性进行分组，最后在步骤43将分组标签与标签组绑定后存储入第二数据库。当然，仍然要在所述第二数据库中设置一个散列值字段，为每一个标签组计算出它的散列值，并与所述标签组绑定后存储起来，从而方便利用包括散列值计算功能的指纹函数标识一个从数据流中已经找到的标签组是否为高重复概率的标签组。

也就是说，可以更进一步，将引用标签信息借助于一个指纹函数和一个窗口，来确定标签组。为了更有效地确定标签组，可以通过动态调整所述窗口的偏移量来辅助确定标签组。需要指出的是，这个窗口大小的选择，可能与重复数据段的确定原则对应的窗口大小不同，应当适应不同层次标签组划分的需要。使用组标签和标签组的数据传输方法实施例的数据编码原理可以参考图2，只不过要在图2中增加一个第二数据库而已。

图5是本发明一个实施例的分级标签划分示意图。为了说明清楚，图5涉及了下述辅助说明标签分级的单元。数据输入缓冲区51，数据段单元52，一级标签单元53，二级标签单元54和数据输出缓冲区55。按照图5，加载到数据输入缓冲区51的数据被一系列的分割点划分成存储在数据段单元52的数据段S_A、S_B、D_C、S_D、S_E、S_F和S_G，在第一数据库中存储的预先绑定的一组组的数据，例如：

【(H¹ ₁，R¹ ₁，S_A)(H¹ ₂，R¹ ₂，S_B)(H¹ ₃，R¹ ₃，S_D)(H¹ ₁₀，R¹ ₄，S_E)(H¹ ₁₉，R¹ ₅，S_F)(H¹ ₂₀，R¹ ₆，S_G)............】

其中，H¹ ₁等H序列的标识表示为散列值，每一个括号内部的另外的内容为一组绑定的标签和数据段。

根据所述第一数据库中的数据，能够确定所述数据段S_A、S_B、S_D、S_E、S_F和S_G与下述标签的对应的引用标签R¹ ₁、R¹ ₂、R¹ ₃、R¹ ₄、R¹ ₅、R¹ ₆，数据序列D_C没有找到对应的引用标签而被视为是数据流中剩余的数据。参考一级标签单元53，它的内容与第一数据库的内容对应。

需要说明的是，第一数据库中的数据记录的排列并非象上述示例一样，上述示例只是为了方便说明而举的例子。

这个例子说明，某些数据段(例如，S_A、S_B)可能在第一数据库中找到对应的引用标签，而有些数据段(例如，D_C)可能没有对应的引用标签而被视为剩余的数据。当然，最理想的情况是，每一个数据段都能找到对应的引用标签。

在本实施例中，可以通过所述第二数据库存储的内容，来解决标签分组的问题。假设第二数据库存储有下述内容：

【(H² ₁，R² ₁，R¹ ₁，R¹ ₂)(H² ₂，R² ₂，R¹ ₃，R¹ ₄，R¹ ₅).........】

其中，H² ₁等H序列的标识表示为散列值，R² ₁等上标为2的R序列的标识表示二级标签，每一个括号内部的内容为一组绑定的组标签和标签组。

假设，按照图4所述实施例可以确定，标签组R¹ ₁，R¹ ₂，和标签组R¹ ₃，R¹ ₄，R¹ ₅经常出现，则可以按照第二数据库存储的内容确定上述标签组对应的组标签R² ₁和R² ₂。参考二级标签单元54。这样，在数据输出缓冲区55中，就会有形成新的数据流R² ₁，D_C，R² ₂，R¹ ₆。

上述带有上下标的数据，上标表示级数，下标表示序列号。

如果将所述第一数据库中绑定的数据看作是第一级绑定，则所述第一数据库中绑定的数据，即绑定的标签就看作是第二级绑定。因此，第一数据库和第二数据库可以合并为一个数据库，此时该两级绑定分别存储即可。图6就是一个用一个数据库的例子。图6中，引用标签R¹ ₁与分段数据S_A相捆绑的，引用标签R¹ ₂是与分段数据S_B相捆绑的，引用标签R² _i是与引用标签组(R¹ ₃，R¹ ₇，R¹ ₉)相捆绑的，其中绑定在一起的还有对应的散列值，等等。

所述数据库即用来编码，也用于还原数据。在还原数据时，解码器要知道遇到的符号是一个用于代替数据段的标签，还是数据的一部分。解决这个问题，可以通过将标签设置成有特殊标记的形式，也可以将分级信息加入到标签中，但是，效率更好的一种方式是在数据库中指明一个标签是否为叶子节点标签，来用于数据的还原。以图6所示的采用一个数据库的情况为例，存储的数据中就有一个叶子节点字段，这里，终结数据段表示最终输出数据的字符串，而非终结数据段是表示标签的字符串。可以用一个“叶子节点”，为每一个绑定作出指示，是否它终结了分级，并表示了最终输出的数据，还是它引用了一个引用其它绑定的标签系列。

图6中，一个具体的例子是，一个叶子节点被标识为“1”，它就指明，这个记录是表示一个终数据段，这个记录的内容是不能任何进一步分割的数据段数据。而一个标识为“0”的叶子结点，就指明该记录的标签是一个标签组的序列。

同样，在具体的编码过程中，对于每一个未出现在所述第二数据库中且满足第二数据特性要求的标签组，仍然要为所述标签组设置组标签，并与所述标签组绑定后存储在所述第二数据库，从而更丰富所述第二数据库中的内容。

事实上，可以采用多级标签方案，如果有更多的分层级别，则数据压缩效果将会进一步改善。也就是，如果所述标签组满足第三数据特性要求，要为其设置更高级的组标签，绑定所述组标签与所述标签组，绑定后存储在所述第三数据库。对于多级标签来说，实际的处理方法依次类推。特别是，所述第一数据特性、第二数据特性、第三数据特性彼此间可以相同或不同，所述第一数据库、第二数据库和所述第三数据库可以是相同的数，也可以不同。在一个具体的实施例中，采用两个数据库，一个第一数据库，一个是第二数据库和所述第三数据库合并后的数据库。在另一个实施例中，采用一个合并后的数据库，例如图6所示。

采用多级标签可以增加数据压缩或编码的效率，如果标签的级数太少，一个大尺寸数据块的编码后仍然有较多的数据量，但是，无限的分级反倒会降低数据压缩或编码的效率，因此，追求一个合理的标签分级对不同的数据传输需求来说是恰当的。假定编码器可以灵活选择对于一个具体的数据流所进行的编码过程所适用的级别，那么解码器也应该得知在任何给定的时间所需要的分层级别的层次数，从而使高效率的数据传输成为可能。

为了实现可变级别的分级内容引导分割方案，当编码器第一次扫描输入数据流后，它就会产生一级引用标签及其绑定数据段。而其它级别标签的产生，仍然可以采用指纹函数的方式获得。这个过程为以后连续不断的各分层级别标签的产生而不断地重复，从而产生更高级的标签及与其绑定的标签序列。以这种方式，通过编码器的一个大数据块，会被多次整理而使真正传输的数据量变小。

在本实施例中，压缩与编码是等价的，解压缩与解码也是等价的。在解码时，就需要将接收到的数据流中的数据识别出来，将高级标签以递归的方式还原回一级引用标签，最终还原为发送端发送的编码前原始数据。

图7是本发明数据传输装置的第一实施例框图。图7所述装置包括第一标签集成单元71、第一数据库72、数据段分割单元73、数据编码单元74、数据发送单元75。第一标签集成单元71，用于获取满足数据应用领域的第一数据特性要求的数据段，为所述数据段分配对应的引用标签，将所述引用标签与所述数据段绑定后存入第一数据库72。输入的数据流，用数据段分割单元73，从数据流的一端开始，按照一定的原则，截取出一个或多个数据段。例如数据流的起始点为A，终止点为B，从A点或B点开始，按照顺序和算法规则，截取出一个或多个数据段。这些数据段如果与第一数据库72中存储的数据段相同，就可以利用与该数据段绑定的标签完成数据的编码传输。于是，使用数据编码单元74，将数据段分割单元的数据分割结果输入给所述数据编码单元74，所述数据编码单元74在所述第一数据库72中，查找数据段分割单元输出的数据段对应的应用标签，查找结果被送入数据发送单元75，由其用所述引用标签代替数据段分割单元截取的数据段，与数据流中剩余的数据组装为新的数据流发送。

为了标签的查找方便，所述第一数据库72中的记录中还存储有对应的散列值。关于数据分割单元73如何进行数据分割，以及数据编码单元74如何查找分割出的数据段对应的应用标签此处省略。

如果所述第一数据库中存储的数据段以及绑定的引用标签数量过少，编码完毕的传输数据的压缩比仍然不高。为弥补这个不足，需要图7所示实施例具有学习功能。

具有学习功能的数据传输装置参考图8所示的第二实施例框图。与图7所示的数据传输装置不同，图8所示的数据传输装置增加了第一判断单元76，所述第一判断单元76用于判断数据段分割单元73分割出的数据段是否存储在所述第一数据库72，对于每一个未出现在所述第一数据库72中且满足第一数据特性要求的数据段，都要为所述数据段设置其引用标签，并与其绑定后存储在所述第一数据库72，当然也要计算出其对应的散列值存储入相应的记录。

图7、8所示的数据传输装置的数据分割，可以随着数据流的输入同时按照内容进行数据段的分割操作。然而，很多时候，数据流并不是匀速流入的，例如，如果没有继续的数据流用于编码，整个装置就可能处于无休止的等待状态。可以利用数据段分割单元73内部的缓冲区解决所述等待问题，但是，当需要从数据的尾部开始分割数据，这个缓冲区就会产生使用上的矛盾。图9是本发明数据传输装置的第三实施例框图，与图8相比，图9所示的数据传输装置还包括一个输入数据缓存单元77，所述缓存单元77包括至少一个数据缓冲区，用于缓存输入分数据。这样就可以不影响数据段分割单元73内部的缓冲区的使用。还可以进一步通过缓冲区的使用解决编码等待问题，例如，在所述缓冲区中数据流的长度大于或等于预设的阈值或者所述数据流的形成时间大于或等于预设的阈值时，数据段分割单元开始进行数据段的分割操作。

图7、8或9所示的数据传输装置都可以采用标签分级的方法提高编码效率。一个具体的例子是，在图7、8或9所示的数据传输装置中增加第二标签集成单元81和第二数据库82，参考图10。所述第二标签集成单元81，用于获取满足数据应用领域的第二数据特性要求的标签组，为所述标签组分配对应的组标签，将所述组标签与所述标签组绑定后存储在第二数据库。同理，图10中还增加的第二判断单元83，对于每一个未出现在所述第二数据库82中且满足第二数据特性要求的标签组，为所述标签组设置组标签，并与所述标签组绑定后存储在所述第二数据库，此处也需要为所述标签组和组标签的绑定记录设置相应的散列值。需要说明的是，多级标签的产生可以借助于专用于暂存标签的缓冲区。

依此类推，图10所示的数据传输装置还增加了第三标签集成单元91和第三数据92，将第二数据库中的标签组按照第三数据特性分为进一步的标签组，如果所述标签组满足第三数据特性要求，为其设置更高级的组标签，绑定所述组标签与所述标签组以及对应的散列值，绑定后存储在所述第三数据库。

当然，也可以在图10中增加的第三判断单元(图10中未绘出)，对于每一个未出现在所述第三数据库82中且满足第三数据特性要求的标签组，为所述标签组设置组标签，并与所述标签组绑定后存储在所述第三数据库，此处也需要为所述标签组和组标签的绑定记录设置相应的散列值。

图10中，所述第一数据特性、第二数据特性、第三数据特性相同或两两相同或不同。即，上述三个数据库可以合并为一个数据库，也可以分为两个数据库，也可以象图10所示实施例一样分为三个数据库。当分为两个数据库时，推荐第二、第三数据库合并。

与本发明数据传输装置对应的一种数据处理方法，可以对编码的数据进行解码。具体采用这样的步骤，首先分解输入的数据流，识别出数据段序列、引用标签以及组标签，然后以逆向且递归的方式从数据库中获得引用标签、组标签对应的数据段，将所述数据段与所述数据段序列组装成数据流。

图11是说明所述数据处理方法的解码原理的装置图。这个编码后的数据(包括引用标签、标签组和普通数据)被输入到输入缓存器110中。

从输入缓存器的数据中，各种引用标签、组标签以及更高级的组标签以及未被任何标签代表的普通数据被提取出来。在数据接收端也同样存在与数据发送端相同的数据库(或数据库组)112。所述引用标签、组标签以及更高级的组标签被替换单元111通过与数据库112的交互被逐步还原为数据，最后在输出缓存单元113中被组装为编码前的数据。

所述数据库112与数据发送端的数据库是同步的，具体的同步原理参考下文。

图12是本发明数据传输系统的第一实施例框图。图12中，包括网络213和通过网络213互联的多个终端211，以及还包括设置在所述计算机网络213和所述终端211之间的数据传输装置212、214。在这个数据传输系统中，终端211不再按照传统的方式通过网络213直接互联，而是在中间增加了数据传输装置212、214。事实上，终端211与数据传输装置212、214之间也许直接连接，也许通过另外的网络，例如局域网连接，数据传输装置212与网络213之间也是如此。图12中，每一个数据传输装置212，都连接着与其逻辑上或物理上相对靠近的终端211，也就是说，终端211通过网络213向另一个终端211发送的数据需要经过数据传输装置212。而数据传输装置212的作用在于对数据编码以减少通过网络213实际传输的数据量，从而达到数据传输加速的作用。因此，数据传输装置212也可以理解为数据传输的加速器，据此可以为其取一个更形象的名字“虫洞”。

图12的系统中，数据传输装置212、214可以为图7、8、9或10(以及图中未绘出的其它数据传输装置)描述的数据传输装置中的任意一个。例如，数据传输装置212可能包括下述单元：

数据段分割单元，用于对输入的数据流，从一个方向截取一个或多个数据段，所述数据段与所述第一数据库中存储的一个数据段相同；

数据编码单元，输入数据段分割单元的数据分割结果，在所述第一数据库中，查找数据段分割单元输出的数据段对应的应用标签，用第一数据库中的引用标签代替数据段分割单元截取的数据段与数据流中剩余的数据组装为新的数据流；

数据发送单元，发送所述数据编码单元生成的新的数据流。

更进一步，数据传输装置212还可能包括下述单元的全部、部分或之一：

第一判断单元，判断数据段分割单元分割出的数据段是否存储在所述一级标签数据库，对于每一个未出现在所述第一数据库中且满足第一数据特性要求的数据段，为所述数据段设置其引用标签，并与其绑定后存储在所述第一数据库。

第二标签集成单元，用于获取满足数据应用领域的第二数据特性要求的标签组，为所述标签组分配对应的组标签，将所述组标签与所述标签组绑定后存储在第二数据库。

第三标签集成单元，将第二数据库中的标签组按照第三数据特性分为进一步的标签组，如果所述标签组满足第三数据特性要求，为其设置更高级的组标签，绑定所述组标签与所述标签组，绑定后存储在所述第三数据库。

同理，所述第一数据特性、第二数据特性、第三数据特性相同或两两相同或不同。也可一是，所述第二数据库和所述第三数据库是相同的数据库。

另外，在图12的数据传输系统中，数据传输装置212还可以包括一个输入数据缓冲单元，所述缓冲单元包括至少一个数据缓冲区。(最好包括多个数据缓冲区，例如三个)，由于所述反感前文已有说明，此处从略。

在另外的实施例中，数据传输装置212可以用另外的加速器或“虫洞”替换，例如图13所示的加速器的例子。图13是图12所述系统采用的加速器实施例框图。图13所示加速器包括下述单元：数据传输装置311，可以为图7、8、9或10(以及图中未绘出的其它数据传输装置)描述的数据传输装置中的任意一个；数据接收装置312，可以是图11所示的实施例描述的解码装置，也可以是存储依据所述数据处理方法编制的处理程序的中央处理单元。这样，每一个系统中的加速器实际上具有编码发送数据以及解码接收数据的能力。

另外，在图12所述的系统，还可以包括至少一个同步服务器215，用于同步所述数据传输装置212、214中的数据库的存储内容。同步的方法可以有很多，例如，任何一个数据传输装置212或214中的数据库的内容由于学习而发生变化时，可以将变化的内容传输至同步服务器215中，然后在网络空闲或利用专用的信道由所述同步服务器整理完毕同步的内容后再向其它的数据传输装置发送变化的数据部分和具体的指令，指示相应的数据传输装置调整相应的数据库的内容。还可以，数据库发生变化的数据传输装置向网络中的其它数据传输装置发送广播消息以及变化的数据库部分，提示其它(特指对应的接收端的数据传输装置)数据传输装置的数据库进行相应的更新，广播的内容以及安全认证等操作也可以通过同步服务器215在网络空闲时(例如数据传输装置不进行数据传输的时间)完成。也可以是，接收端的数据传输装置发现标签有变化，通过向发送端的数据传输装置发送请求消息以获得变化的数据库内容等。

值得注意的是，本实施方式公开的数据传输装置还可以包括一个数据调整单元，对于超过一定时间，或超过一定数据传输量而没有被采用的数据段及其绑定删除，避免数据库中的内容学习而可能导致的无限制的增加，使其中的内容始终保持较高的被使用的效率。所述数据调整单元的运行也可以采用同步服务器的运行方式，在数据传输的空闲完成。

Claims

1、一种数据传输方法，其特征在于包括：

2、如权利要求1所述的数据传输方法，其特征在于还包括，对于每一个未出现在所述第一数据库中且满足第一数据特性要求的数据段，为所述数据段设置引用标签，将所述引用标签与所述数据段绑定后存储在所述第一数据库。

3、如权利要求1或2所述的数据传输方法，其特征在于还包括，将引用标签按照第二数据特性分为多个标签组，为所述标签组设置组标签，所述组标签与所述标签组绑定后存储在第二数据库；以及，将满足第二数据特性的标签组用对应的组标签代替，用于组装新的数据流。

4、如权利要求3所述的数据传输方法，其特征在于还包括，对于每一个未出现在所述第二数据库中且满足第二数据特性要求的标签组，为所述标签组设置组标签，并与所述标签组绑定后存储在所述第二数据库。

5、如权利要求4所述的数据传输方法，其特征在于还包括，如果所述标签组满足第三数据特性要求，为其设置更高级的组标签，绑定所述组标签与所述标签组，绑定后存储在所述第三数据库；以及，将满足第三数据特性的标签组用对应的更高级的组标签代替，用于组装新的数据流。

6、如权利要求5所述的数据传输方法，其特征在于，所述第一数据特性、第二数据特性、第三数据特性相同或两两相同或不同。

7、如权利要求5所述的数据传输方法，其特征在于，所述第二数据库和所述第三数据库是相同的数据库。

8、如权利要求1所述的数据传输方法，其特征在于，利用一个指纹函数和一个窗口，在输入数据流上确定一系列的分割点，利用所述分割点分割所述数据流。

9、如权利要求5所述的数据传输方法，其特征在于，利用一个指纹函数和一个窗口，在输入数据流衍生的连续标签流上确定一系列的分割点，利用所述分割点确定标签组。

10如权利要求8所述的数据传输方法，其特征在于，通过动态调整所述窗口在输入数据流上确定一系列的分割点。

11、一种数据传输装置，其特征在于包括：

数据发送单元，发送所述数据编码单元生成的新的数据流。

12、如权利要求11所述的数据传输装置，其特征在于还包括，

13、如权利要求11或12所述的数据传输装置，其特征在于还包括，

14、如权利要求13所述的数据传输装置，其特征在于还包括，

15、如权利要求14所述的数据传输装置，其特征在于还包括，

16、如权利要求15所述的数据传输装置，其特征在于，所述第一数据特性、第二数据特性、第三数据特性相同或两两相同或不同。

17、如权利要求15所述的数据传输装置，其特征在于，所述第二数据库和所述第三数据库是相同的数据库。

18、如权利要求11所述的数据传输装置，其特征在于，还包括一个输入数据缓冲单元，所述缓冲单元包括至少一个数据缓冲区。

19、如权利要求18所述的数据传输装置，其特征在于，在所述缓冲区中数据流的长度大于或等于预设的阈值或者所述数据流的形成时间大于或等于预设的阈值时，数据段分割单元取出所述缓冲区中的数据流进行数据段的分割操作。

20、一种数据处理方法，其特征在于包括：

分解输入的数据流，识别出数据组序列(未组成数据段的普通数据)、引用标签以及组标签；

21、一种数据传输系统，包括计算机网络和通过网络互联的多个终端，其特征在于还包括设置在所述计算机网络和所述终端之间的数据传输装置，所述数据传输装置包括：

数据发送单元，发送所述数据编码单元生成的新的数据流。

22、如权利要求21所述的数据传输系统，其特征在于还包括，

23、如权利要求21或22所述的数据传输系统，其特征在于还包括，

24、如权利要求23所述的数据传输系统，其特征在于还包括，

25、如权利要求24所述的数据传输系统，其特征在于还包括，

26、如权利要求25所述的数据传输系统，其特征在于，所述第一数据特性、第二数据特性、第三数据特性相同或两两相同或不同。

27、如权利要求25所述的数据传输系统，其特征在于，所述第二数据库和所述第三数据库是相同的数据库。

28、如权利要求21所述的数据传输系统，其特征在于，还包括一个输入数据缓冲单元，所述缓冲单元包括至少一个数据缓冲区。

29、如权利要求25所述的数据传输系统，其特征在于，还包括至少一个服务器，用于同步所述数据传输装置中的数据库的存储内容。

30、如权利要求29所述的数据传输系统，其特征在于，将数据库中超过指定阈值未使用的数据段记录删除。