CN101800761B - 一种基于网络字典的无损数据压缩方法 - Google Patents

一种基于网络字典的无损数据压缩方法 Download PDF

Info

Publication number
CN101800761B
CN101800761B CN 200910186807 CN200910186807A CN101800761B CN 101800761 B CN101800761 B CN 101800761B CN 200910186807 CN200910186807 CN 200910186807 CN 200910186807 A CN200910186807 A CN 200910186807A CN 101800761 B CN101800761 B CN 101800761B
Authority
CN
China
Prior art keywords
file
network dictionary
dictionary
item
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910186807
Other languages
English (en)
Other versions
CN101800761A (zh
Inventor
吴昊
刘鹏
陈宏欣
冯小辉
虞芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Communications Institute of Technology
Original Assignee
吴昊
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 吴昊 filed Critical 吴昊
Priority to CN 200910186807 priority Critical patent/CN101800761B/zh
Publication of CN101800761A publication Critical patent/CN101800761A/zh
Application granted granted Critical
Publication of CN101800761B publication Critical patent/CN101800761B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于网络字典的无损数据压缩方法,包括网络字典,所述网络字典包括包含文件名称、文件内容、文件全文经过报文摘要算法生成的定长报文摘要文件或文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块;客户端将所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对,或将所述文件块与服务器端网络字典中各表项文件块进行按位比对;所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对未发现匹配项,则上传文件名、文件全文,按照网络字典构成规范建立网络字典中新的表项,返回新表项的表项编号;所述文件块与服务器端网络字典中各表项文件块进行按位比对发现匹配项则返回网络字典中匹配结果的表项编号,未发现匹配项,则上传文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块,建立网络字典中新的表项,返回新表项的表项编号。从而可以有效提升压缩效率,特别适用于网络上有大量副本之文件。

Description

一种基于网络字典的无损数据压缩方法
技术领域
本发明涉及一种无损数据压缩方法,特别是一种基于网络字典的无损数据压缩方法。
技术背景
压缩技术大致可以分为有损压缩和无损压缩,有损压缩通常用于多媒体数据压缩,而无损压缩则通常用于通用数据压缩,无损压缩又可分为基于统计模型的压缩方法和基于字典模型的压缩方法,前者的代表为Huffman编码和算术编码,后者的代表为LZ77、LZ78、LZW等。现在市面上流行的通用无损压缩软件通常采用基于字典的压缩方法,例如ZIP、LHarc、ARJ等,然而这些压缩算法的字典均为本地基于源文件而生成的,现有的基于字典的压缩方法,其字典无论是静态字典还是动态生成,均处在本地,通常压缩效率有限。
发明内容
本发明其目的就在于提供一种基于网络字典的无损数据压缩方法,可以有效提升压缩效率,极限情况下压缩效率接近100%。
实现上述目的而采取的技术方案,包括网络字典,所述网络字典包括包含文件名称、文件内容、文件全文经过报文摘要算法生成的定长报文摘要文件或文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块;客户端将所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对,或将所述文件块与服务器端网络字典中各表项文件块进行按位比对;所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对未发现匹配项,则上传文件名、文件全文,按照网络字典构成规范建立网络字典中新的表项,返回新表项的表项编号;所述文件块与服务器端网络字典中各表项文件块进行按位比对发现匹配项则返回网络字典中匹配结果的表项编号,未发现匹配项,则上传文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块,建立网络字典中新的表项,返回新表项的表项编号。
具体实施方式
包括网络字典,所述网络字典包括包含文件名称、文件内容、文件全文经过报文摘要算法生成的定长报文摘要文件或文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块;客户端将所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对,或将所述文件块与服务器端网络字典中各表项文件块进行按位比对;所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对未发现匹配项,则上传文件名、文件全文,按照网络字典构成规范建立网络字典中新的表项,返回新表项的表项编号;所述文件块与服务器端网络字典中各表项文件块进行按位比对发现匹配项则返回网络字典中匹配结果的表项编号,未发现匹配项,则上传文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块,建立网络字典中新的表项,返回新表项的表项编号。
本发明是基于网络字典的无损数据压缩方法,现有的基于网络字典的压缩方法,其字典无论是静态字典还是动态生成,均处在本地。本压缩方法的不同点关键在于有专用的服务器保存了各种类型的字典,并建立了字典索引或者字典地址列表。
其工作原理如下:建立专用的服务器用以保存全文网络字典、分块字典以及摘要等信息,针对全文压缩时,将欲压缩之源文件经过报文摘要算法,生成定长摘要,传至服务器与服务器摘要进行对比,如匹配则以服务器中数据的索引作为压缩结果返回;针对分块文档压缩时,将欲压缩之分块与服务器端分块网络字典进行比对,找出相似度最大之数据,然后返回此数据索引并将差分值以现有压缩方法压缩后发回客户端。这两种方法结合,可以有效提升压缩效率,
实施例
压缩方法一:因为许多文件有太多的副本,所以以文件为单位定义网络字典,则压缩的时间效率和空间效率会高很多,具体实现时可以采用报文摘要算法将原文件形成定长摘要,与服务器端进行比对,如果二者相同,则可以建立一一对应关系。
其压缩过程描述如下:
①客户端对源文件进行报文摘要算法,生成定长摘要;
②客户端将摘要或者摘要+文件名传输至服务器端;
③服务器端将摘要或者摘要+文件名与摘要字典进行匹配,其中摘要进行精确匹配,文件名进行模糊匹配,如果匹配成功,则建立一一映射,并将映射结果传回客户端,否则转⑤;
④客户端获得文件映射结果,将结果作为压缩文件保存,压缩完毕;
⑤服务器端选择性的将客户端提交的摘要或者摘要+文件名以及源文件添加进网络字典中;
⑥客户端选用下述压缩方法二或者传统压缩方法进行压缩。
压缩方法二:客户端在压缩时,可将数据原文或者经过初始压缩的数据分割成块,其分割过程可以是定长分割,也可以是变长分割,再将各个分块与服务器网络字典比对,如果相同则只需记录此数据块在网络字典中的编号或者地址,如果不同则采用现行压缩算法进行压缩,服务器端可以选择性的将此数据加入数据网络字典中。
其压缩过程描述如下:
①客户端对原始数据进行初始压缩(可选项);
②客户端将原始数据或者初始压缩后的数据进行分割;
③客户端将分割后的数据块依次与服务器端网络字典进行比对,或者将数据块提交给服务器端进行比对,如果在网络字典中找到相同数据块,则转④,否则转⑤;
④客户端获得数据块在服务器端索引编号或者地址,并将其作为此数据块的压缩结果。如果后续还有数据块,则转③,否则转⑥;
⑤服务器端选择性的将客户端提交的数据添加进网络字典中,客户端则使用现有算法压缩数据块。如果后续还有数据块,则转③;
⑥将各数据块的压缩结果组合成最终压缩文件。
现有的数据压缩算法认为,本质上压缩数据是因为数据自身具有冗余性。数据压缩是利用各种算法将数据冗余压缩到最小,并尽可能地减少失真,从而提高传输效率和节约存储空间。而“基于网络字典的无损数据压缩方法”却并不单纯考虑数据自身的冗余性,而将着眼点更高地看到了文件之间的冗余。如果说现有数据压缩算法是考虑如何复用程序内部的小规模子程序的话,那么“基于网络字典的无损数据压缩方法”考虑的就是如何复用大型的构件。其主要特点在于通过服务器端保存了大量的网络字典,而网络字典的分类可以采用各种索引方法,例如文件名、文件类型等,针对数据的压缩可以分为针对整个客户端文件的压缩和针对客户端文件的分块压缩,下述方法一为针对整个文件的压缩,方法二为针对文件分块压缩。
压缩方法一:因为许多文件有太多的副本,所以以文件为单位定义网络字典,则压缩的时间效率和空间效率会高很多,具体实现时可以采用报文摘要算法将原文件形成定长摘要,与服务器端进行比对,如果二者相同,则可以建立一一对应关系。
其压缩过程描述如下:
⑦客户端对源文件进行报文摘要算法,生成定长摘要;
⑧客户端将摘要或者摘要+文件名传输至服务器端;
⑨服务器端将摘要或者摘要+文件名与摘要网络字典进行匹配,其中摘要进行精确匹配,文件名进行模糊匹配,如果匹配成功,则建立一一映射,并将映射结果传回客户端,否则转⑤;
⑩客户端获得文件映射结果,将结果作为压缩文件保存,压缩完毕;
□服务器端选择性的将客户端提交的摘要或者摘要+文件名以及源文件添加进字典中;
□客户端选用下述压缩方法二或者传统压缩方法进行压缩。
压缩方法二:客户端在压缩时,可将数据原文或者经过初始压缩的数据分割成块,其分割过程可以是定长分割,也可以是变长分割,再将各个分块与服务器网络字典比对,如果相同则只需记录此数据块在字典中的编号或者地址,如果不同则采用现行压缩算法进行压缩,服务器端可以选择性的将此数据加入数据网络字典中。
其压缩过程描述如下:
⑦客户端对原始数据进行初始压缩(可选项);
⑧客户端将原始数据或者初始压缩后的数据进行分割;
⑨客户端将分割后的数据块依次与服务器端网络字典进行比对,或者将数据块提交给服务器端进行比对,如果在网络字典中找到相同数据块,则转④,否则转⑤;
⑩客户端获得数据块在服务器端索引编号或者地址,并将其作为此数据块的压缩结果。如果后续还有数据块,则转③,否则转⑥;
□服务器端选择性的将客户端提交的数据添加进网络字典中,客户端则使用现有算法压缩数据块。如果后续还有数据块,则转③;
□将各数据块的压缩结果组合成最终压缩文件。
与现有技术相比本发明具有以下优点。
由于采用了专用服务器保存的各种类型的网络字典,并建立了网络字典索引或者网络字典地址列表的技术,因而可以有效提升压缩效率,极限情况下压缩效率接近100%。

Claims (1)

1.一种基于网络字典的无损数据压缩方法,包括网络字典,其特征在于,所述网络字典包括包含文件名称、文件内容、文件全文经过报文摘要算法生成的定长报文摘要文件或文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块;客户端将所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对,或将所述文件块与服务器端网络字典中各表项文件块进行按位比对;所述定长报文摘要文件传回服务器与网络字典中各表项进行逐项按位比对未发现匹配项,则上传文件名、文件全文,按照网络字典构成规范建立网络字典中新的表项,返回新表项的表项编号;所述文件块与服务器端网络字典中各表项文件块进行按位比对发现匹配项则返回网络字典中匹配结果的表项编号,未发现匹配项,则上传文件名称、文件总块数、当前文件块编号和将文件经过定长或变长的分割生成的文件块,建立网络字典中新的表项,返回新表项的表项编号。
CN 200910186807 2009-12-25 2009-12-25 一种基于网络字典的无损数据压缩方法 Expired - Fee Related CN101800761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910186807 CN101800761B (zh) 2009-12-25 2009-12-25 一种基于网络字典的无损数据压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910186807 CN101800761B (zh) 2009-12-25 2009-12-25 一种基于网络字典的无损数据压缩方法

Publications (2)

Publication Number Publication Date
CN101800761A CN101800761A (zh) 2010-08-11
CN101800761B true CN101800761B (zh) 2013-04-17

Family

ID=42596252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910186807 Expired - Fee Related CN101800761B (zh) 2009-12-25 2009-12-25 一种基于网络字典的无损数据压缩方法

Country Status (1)

Country Link
CN (1) CN101800761B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102857230B (zh) * 2012-09-21 2015-05-20 中国科学院武汉物理与数学研究所 一种基于无损压缩数据传输技术的高速程序控制器
CN103347047B (zh) * 2013-06-07 2017-02-08 南京交通职业技术学院 一种基于网络字典的无损数据压缩方法
CN110196836B (zh) * 2019-03-29 2024-05-10 腾讯云计算(北京)有限责任公司 一种数据存储方法及装置
CN110321349B (zh) * 2019-06-13 2021-11-12 暨南大学 一种面向数据起源系统的自适应数据合并存储方法
CN112187400B (zh) * 2019-07-03 2022-04-12 大唐移动通信设备有限公司 数据传输方法及装置
CN110728725B (zh) * 2019-10-22 2023-08-04 苏州速显微电子科技有限公司 一种硬件友好的面向实时系统无损纹理压缩方法
CN111464635B (zh) * 2020-03-31 2022-02-22 新华三信息安全技术有限公司 一种字典索引传输方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1633124A (zh) * 2004-11-26 2005-06-29 上海理工大学 基于ebXML的病历交换系统
CN1972311A (zh) * 2006-12-08 2007-05-30 华中科技大学 一种基于集群均衡负载的流媒体服务器系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1633124A (zh) * 2004-11-26 2005-06-29 上海理工大学 基于ebXML的病历交换系统
CN1972311A (zh) * 2006-12-08 2007-05-30 华中科技大学 一种基于集群均衡负载的流媒体服务器系统

Also Published As

Publication number Publication date
CN101800761A (zh) 2010-08-11

Similar Documents

Publication Publication Date Title
CN101800761B (zh) 一种基于网络字典的无损数据压缩方法
KR101737294B1 (ko) 심볼 압축을 수반하는 데이터의 소스 코딩 및 디코딩을 위한 방법들 및 디바이스들
KR102616804B1 (ko) 시맨틱 값 데이터 압축 및 압축해제를 위한 방법, 장치 및 시스템
US7733247B1 (en) Method and system for efficient data transmission with server side de-duplication
US20120130965A1 (en) Data compression method
US7764202B2 (en) Lossless data compression with separated index values and literal values in output stream
Bhattacharjee et al. Comparison study of lossless data compression algorithms for text data
Azeez et al. Empirical and statistical evaluation of the effectiveness of four lossless data compression algorithms
Vestergaard et al. A randomly accessible lossless compression scheme for time-series data
EP2374080A1 (en) Efficient full or partial duplicate fork detection and archiving
Mahmood et al. An Efficient 6 bit Encoding Scheme for Printable Characters by table look up
CN112380196B (zh) 一种用于数据压缩传输的服务器
Talasila et al. Generalized deduplication: Lossless compression by clustering similar data
Sitohang Penerapan Metode Five Modulus Dalam Mengkompresi File Dokumen (PDF) Pengembangan Bahan Ajar
Shah et al. The improvised GZIP, a technique for real time lossless data compression
Mahmood et al. A feasible 6 bit text database compression scheme with character encoding (6BC)
Mahmood et al. Efficient compression scheme for large natural text using zipf distribution
Rani et al. A survey on lossless text data compression techniques
Yan et al. Z-Dedup: A case for deduplicating compressed contents in cloud
Mahmood et al. An Efficient Text Database Compression Technique using 6 Bit Character Encoding by Table Look Up
US7750826B2 (en) Data structure management for lossless data compression
Wan et al. Sorting next generation sequencing data improves compression effectiveness
Shu et al. A two-stage data compression method for real-time database
Sapate Effective XML Compressor: XMill with LZMA Data Compression
Meenakshi et al. Efficient storage reduction of frequency of items in vertical data layout

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NANJING COMMUNICATIONS INSTITUTE OF TECHNOLOGY

Free format text: FORMER OWNER: WU HAO

Effective date: 20140609

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 332000 JIUJIANG, JIANGXI PROVINCE TO: NANJING, JIANGSU PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20140609

Address after: No. 629 Jiangsu Nanjing Science Park Avenue.

Patentee after: Nanjing Communications Institute of Technology

Address before: 332000 Department of electrical engineering, Jiujiang Vocational and Technical College, Jiangxi, Jiujiang

Patentee before: Wu Hao

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130417

Termination date: 20141225

EXPY Termination of patent right or utility model