CN101800761B

CN101800761B - 一种基于网络字典的无损数据压缩方法

Info

Publication number: CN101800761B
Application number: CN 200910186807
Authority: CN
Inventors: 吴昊; 刘鹏; 陈宏欣; 冯小辉; 虞芬
Original assignee: 吴昊
Current assignee: Nanjing Communications Institute of Technology
Priority date: 2009-12-25
Filing date: 2009-12-25
Publication date: 2013-04-17
Anticipated expiration: 2029-12-25
Also published as: CN101800761A

Abstract

一种基于网络字典的无损数据压缩方法，包括网络字典，所述网络字典包括包含文件名称、文件内容、文件全文经过报文摘要算法生成的定长报文摘要文件或文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块；客户端将所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对，或将所述文件块与服务器端网络字典中各表项文件块进行按位比对；所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对未发现匹配项，则上传文件名、文件全文，按照网络字典构成规范建立网络字典中新的表项，返回新表项的表项编号；所述文件块与服务器端网络字典中各表项文件块进行按位比对发现匹配项则返回网络字典中匹配结果的表项编号，未发现匹配项，则上传文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块，建立网络字典中新的表项，返回新表项的表项编号。从而可以有效提升压缩效率，特别适用于网络上有大量副本之文件。

Description

一种基于网络字典的无损数据压缩方法

技术领域

本发明涉及一种无损数据压缩方法，特别是一种基于网络字典的无损数据压缩方法。

技术背景

压缩技术大致可以分为有损压缩和无损压缩，有损压缩通常用于多媒体数据压缩，而无损压缩则通常用于通用数据压缩，无损压缩又可分为基于统计模型的压缩方法和基于字典模型的压缩方法，前者的代表为Huffman编码和算术编码，后者的代表为LZ77、LZ78、LZW等。现在市面上流行的通用无损压缩软件通常采用基于字典的压缩方法，例如ZIP、LHarc、ARJ等，然而这些压缩算法的字典均为本地基于源文件而生成的，现有的基于字典的压缩方法，其字典无论是静态字典还是动态生成，均处在本地，通常压缩效率有限。

发明内容

本发明其目的就在于提供一种基于网络字典的无损数据压缩方法，可以有效提升压缩效率，极限情况下压缩效率接近100％。

实现上述目的而采取的技术方案，包括网络字典，所述网络字典包括包含文件名称、文件内容、文件全文经过报文摘要算法生成的定长报文摘要文件或文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块；客户端将所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对，或将所述文件块与服务器端网络字典中各表项文件块进行按位比对；所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对未发现匹配项，则上传文件名、文件全文，按照网络字典构成规范建立网络字典中新的表项，返回新表项的表项编号；所述文件块与服务器端网络字典中各表项文件块进行按位比对发现匹配项则返回网络字典中匹配结果的表项编号，未发现匹配项，则上传文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块，建立网络字典中新的表项，返回新表项的表项编号。

具体实施方式

包括网络字典，所述网络字典包括包含文件名称、文件内容、文件全文经过报文摘要算法生成的定长报文摘要文件或文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块；客户端将所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对，或将所述文件块与服务器端网络字典中各表项文件块进行按位比对；所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对未发现匹配项，则上传文件名、文件全文，按照网络字典构成规范建立网络字典中新的表项，返回新表项的表项编号；所述文件块与服务器端网络字典中各表项文件块进行按位比对发现匹配项则返回网络字典中匹配结果的表项编号，未发现匹配项，则上传文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块，建立网络字典中新的表项，返回新表项的表项编号。

本发明是基于网络字典的无损数据压缩方法，现有的基于网络字典的压缩方法，其字典无论是静态字典还是动态生成，均处在本地。本压缩方法的不同点关键在于有专用的服务器保存了各种类型的字典，并建立了字典索引或者字典地址列表。

其工作原理如下：建立专用的服务器用以保存全文网络字典、分块字典以及摘要等信息，针对全文压缩时，将欲压缩之源文件经过报文摘要算法，生成定长摘要，传至服务器与服务器摘要进行对比，如匹配则以服务器中数据的索引作为压缩结果返回；针对分块文档压缩时，将欲压缩之分块与服务器端分块网络字典进行比对，找出相似度最大之数据，然后返回此数据索引并将差分值以现有压缩方法压缩后发回客户端。这两种方法结合，可以有效提升压缩效率，

实施例

压缩方法一：因为许多文件有太多的副本，所以以文件为单位定义网络字典，则压缩的时间效率和空间效率会高很多，具体实现时可以采用报文摘要算法将原文件形成定长摘要，与服务器端进行比对，如果二者相同，则可以建立一一对应关系。

其压缩过程描述如下：

①客户端对源文件进行报文摘要算法，生成定长摘要；

②客户端将摘要或者摘要+文件名传输至服务器端；

③服务器端将摘要或者摘要+文件名与摘要字典进行匹配，其中摘要进行精确匹配，文件名进行模糊匹配，如果匹配成功，则建立一一映射，并将映射结果传回客户端，否则转⑤；

④客户端获得文件映射结果，将结果作为压缩文件保存，压缩完毕；

⑤服务器端选择性的将客户端提交的摘要或者摘要+文件名以及源文件添加进网络字典中；

⑥客户端选用下述压缩方法二或者传统压缩方法进行压缩。

压缩方法二：客户端在压缩时，可将数据原文或者经过初始压缩的数据分割成块，其分割过程可以是定长分割，也可以是变长分割，再将各个分块与服务器网络字典比对，如果相同则只需记录此数据块在网络字典中的编号或者地址，如果不同则采用现行压缩算法进行压缩，服务器端可以选择性的将此数据加入数据网络字典中。

其压缩过程描述如下：

①客户端对原始数据进行初始压缩(可选项)；

②客户端将原始数据或者初始压缩后的数据进行分割；

③客户端将分割后的数据块依次与服务器端网络字典进行比对，或者将数据块提交给服务器端进行比对，如果在网络字典中找到相同数据块，则转④，否则转⑤；

④客户端获得数据块在服务器端索引编号或者地址，并将其作为此数据块的压缩结果。如果后续还有数据块，则转③，否则转⑥；

⑤服务器端选择性的将客户端提交的数据添加进网络字典中，客户端则使用现有算法压缩数据块。如果后续还有数据块，则转③；

⑥将各数据块的压缩结果组合成最终压缩文件。

现有的数据压缩算法认为，本质上压缩数据是因为数据自身具有冗余性。数据压缩是利用各种算法将数据冗余压缩到最小，并尽可能地减少失真，从而提高传输效率和节约存储空间。而“基于网络字典的无损数据压缩方法”却并不单纯考虑数据自身的冗余性，而将着眼点更高地看到了文件之间的冗余。如果说现有数据压缩算法是考虑如何复用程序内部的小规模子程序的话，那么“基于网络字典的无损数据压缩方法”考虑的就是如何复用大型的构件。其主要特点在于通过服务器端保存了大量的网络字典，而网络字典的分类可以采用各种索引方法，例如文件名、文件类型等，针对数据的压缩可以分为针对整个客户端文件的压缩和针对客户端文件的分块压缩，下述方法一为针对整个文件的压缩，方法二为针对文件分块压缩。

其压缩过程描述如下：

⑦客户端对源文件进行报文摘要算法，生成定长摘要；

⑧客户端将摘要或者摘要+文件名传输至服务器端；

⑨服务器端将摘要或者摘要+文件名与摘要网络字典进行匹配，其中摘要进行精确匹配，文件名进行模糊匹配，如果匹配成功，则建立一一映射，并将映射结果传回客户端，否则转⑤；

⑩客户端获得文件映射结果，将结果作为压缩文件保存，压缩完毕；

□服务器端选择性的将客户端提交的摘要或者摘要+文件名以及源文件添加进字典中；

□客户端选用下述压缩方法二或者传统压缩方法进行压缩。

压缩方法二：客户端在压缩时，可将数据原文或者经过初始压缩的数据分割成块，其分割过程可以是定长分割，也可以是变长分割，再将各个分块与服务器网络字典比对，如果相同则只需记录此数据块在字典中的编号或者地址，如果不同则采用现行压缩算法进行压缩，服务器端可以选择性的将此数据加入数据网络字典中。

其压缩过程描述如下：

⑦客户端对原始数据进行初始压缩(可选项)；

⑧客户端将原始数据或者初始压缩后的数据进行分割；

⑨客户端将分割后的数据块依次与服务器端网络字典进行比对，或者将数据块提交给服务器端进行比对，如果在网络字典中找到相同数据块，则转④，否则转⑤；

⑩客户端获得数据块在服务器端索引编号或者地址，并将其作为此数据块的压缩结果。如果后续还有数据块，则转③，否则转⑥；

□服务器端选择性的将客户端提交的数据添加进网络字典中，客户端则使用现有算法压缩数据块。如果后续还有数据块，则转③；

□将各数据块的压缩结果组合成最终压缩文件。

与现有技术相比本发明具有以下优点。

由于采用了专用服务器保存的各种类型的网络字典，并建立了网络字典索引或者网络字典地址列表的技术，因而可以有效提升压缩效率，极限情况下压缩效率接近100％。

Claims

1.一种基于网络字典的无损数据压缩方法，包括网络字典，其特征在于，所述网络字典包括包含文件名称、文件内容、文件全文经过报文摘要算法生成的定长报文摘要文件或文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块；客户端将所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对，或将所述文件块与服务器端网络字典中各表项文件块进行按位比对；所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对未发现匹配项，则上传文件名、文件全文，按照网络字典构成规范建立网络字典中新的表项，返回新表项的表项编号；所述文件块与服务器端网络字典中各表项文件块进行按位比对发现匹配项则返回网络字典中匹配结果的表项编号，未发现匹配项，则上传文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块，建立网络字典中新的表项，返回新表项的表项编号。